围绕着博士和硕士研究生以往研读的国际Top期刊发表的STEM教育文章,汇总整理文章中所用的数据分析方法等,供写学习和写作参照。    

    目录
 推荐书目:

系统综述,元分析/元聚合分析-systematic review,meta analysis & meta-aggregation

马红亮 -

一、理论原理

       传统文献综述通常用于回顾、讨论已有研究及存在的不足(current gaps)、新研究的原理等,特点是没有对文献如何辨别、选取以及评价的具体方法进行描述。系统性文献综述的特点是研究问题事先确定,全面检索所有相关文献,有明确纳入和排除文献的标准,有批判性分析研究质量的标准,有明确的提炼和综合研究发现的方法(定性或定量)。[1]

  1.    文献综述分类
    系统综述(systematic review)被定义为“对一个明确表述的问题的证据进行综述,使用系统和明确的方法来识别、选择和批判性评价相关的初步研究,并从综述包括的研究中提取和分析数据。”所用方法必须是可复制和透明的。[2]

    元分析(meta-analysis)与元聚合分析(meta-aggregation)都是文献综述的一种方法,都是对相关研究进行分析、评价以及综合的方法。其中,元分析专门用于对定量研究文献中的数据进行统计处理,以探索新的发现。元聚合分析,也称为meta-synthesis,是针对定性研究文献中的数据或主题编码、归类和整合,并给出行动建议。[3]

2. 文献综述操作步骤

     系统性文献综述的7个步骤:[1]

  • 组建小组(至少两名评审员,第三名评审员作为仲裁者)
  • 提问(定义一个狭窄的问题,可以使用PICO)
  • 计划(制定方案、设计方法和策略)
  • 检索/筛选(彻底、透明和可重复搜索证据/选择研究)
  • 文献管理和报告
  • 数据提取/综合相关证据
  • 总结、写作和出版

     PRISMA网站很重要,有详细的系统综述和元分析的原理声明、操作步骤、流程图等。顶级期刊Computers & Education只接受PRISMA流程的文献综述研究。[4]


二、元分析

    元分析(Meta-analysisi)是对有关同一个主题的多项独立的定量研究进行再次分析,进而得出一般性的结论。
(一)元分析的文献编码
      收集完文献之后,要逐一检查,从如下几个方面进行编码:【5】
  1. 有关文献的实质性方面。包括样本来源,人口统计学特征、个人特征,自变量、理论取向、所描述的层次、干预实施的模式等等。
  2. 量化研究的方法和步骤。包括抽样步骤或方法,调查设计,统计功效,测量的性质,数据分析形式,自变量,实验条件,控制组的性质等。
  3. 对文献的来源进行描述。
(二)资料的综合
    由于研究的目的各不相同,各项研究的指标不尽相同,因此元分析首先要将各项研究的指标转化为统一的指标,即效应量(effect sizes),它是元分析的核心概念。元分析收集的定量信息有很多类,对应每一类也存在不同的效应值。给出各个效应值之后,应该分析其分布,计算其均值,计算置信区间,对同质性进行评价(homogeneity test)。【5】
  1. 平均效应值。对这些值进行综合加权,计算合并后的平均统计量。
  2. 计算置信区间。一个平均效应值的置信区间以均值的标准误和z分布的一个临界值为基础的。
  3. 同质性检验。元分析的前提条件,即多个独立研究之间应该相似。如果各个独立的研究之间具有同质性,便可以将多个统计量进行加权合并;若不一致,可以考虑剔除特大、特小或方向相反的统计量后再综合。如果经过这一步仍然达不到要求,就不能用元分析的方法了。同质性检验的方法有图示法(直方图、茎叶图、散点图等),Q检验。【5】
    对于在研究方法存在较大差异的诸多单项研究来说,一个较好的元分析法应将这种差异考虑在内,设置必要的调节变量。另外,当代的元分析法越来越专注于效应值分布的方差,而不是这些分布的均值。也就是说关注的主要问题常常与区分出各项研究结果之间的差异的根源有关,而不是把各个结果聚焦在一起得出一个总的均值。这个关注点针对性质不同的研究结果的子群进行认真的处理,因而较少收到批评。【5】
    另外,由于元分析关注的是不同研究结果的聚集和比较,因而有必要保证对这些研究结果的比较是有意义的。这意味着这些结果必须:(1)在概念上具有可比性,即处理的是相同的因子和关系;(2)以相似的统计形式呈现。【5】

参考文献

[1] Cochrane. Background to Systematic Reviews
[2] 美国Temple大学图书馆网站:What is a Systematic Review? (详细解释了其中的7个步骤).
[3] Florczak K L . (2019). Meta-Aggregation: Just What Is It?. Nursing Science Quarterly, 32(1):11-11.
[4] PRISMA. Preferred Reporting Items for Systematic Reviews and Meta-Analyses (PRISMA)
[5] 马克·W·利普西、戴维·B·威尔逊著,刘军,吴春莺译. 元分析(Meta-analysis)方法应用指导[M]. 重庆:重庆大学出版社出版, 2019: 前言-2。

回归分析-regression analysis

马红亮 -

一、理论原理

(一)回归分析的概念   

      相关表示两个变量之间的双向相互关系。如果我们将存在相关的两个变量,一个作为自变量,另外一个作为因变量,并把两者之间不十分准确、稳定的关系,用数学方程式来表达,则可利用该方程由自变量的值来估计、预测因变量的估计值,这一过程称为回归分析。可见,回归表示一个变量随另外一个变量作不同程度变化的单向关系。在存在相关的情况下,相关越高,由一个变量值预测另外一个变量值越准确,误差越小。【1】

     两个连续变量的共同变化的情形,称为共变(covariance),是连续变量关联分析的主要基础。在统计学上,涉及两个连续变量的关系多以线性关系的形式进行分析。线性关系分析是将两个变量的关系以直线方程式的原理来估计关联强度。……另一方面,回归分析则是运用变量间的关系来进行解释与预测的统计技术。在线性关系假设成立的情况下,回归分析是以直线方程式来进行统计决策与应用,又称线性回归(linear regression)。一般来说,两个变量的关系以相关系数去检验线性关联的强度,若相关达到统计显著水平,表示线性关系是有意义的,便可进行回归来进行进一步的预测与解释。【2】

(二)线性回归的特点

      1. 线性回归的类型

    (1)一元线性回归是指只有一个自变量的线性回归表示两个变量(自变量和因变量)之间有直线函数关系。一元线性回归线可以有两条:以X为自变量、Y为因变量的回归线是一条,以Y为自变量、X为因变量的回归线是另一条。确定回归线的方程称为回归方程,通式为Y=a+bX,b为回归系数,Y为估计值。 为了考察两个变量在总体内是否存在线性关系,以及回归方程对估计预测因变量的有效性如何,还需要进行显著性检验,如对回归系数进行显著性检验。【1】

    (2)多元线性回归是指有两个或两个以上自变量的线性回归,在教育研究中某一种现象的变化往往由多种因素共同作用的结果,多元线性回归比一元线性回归的用途广泛。【1】

    2. 标准化回归系数

     标准化回归系数(standardized regression coefficient),称为β系数。由于标准化的结果,β系数的数值类似于相关系数,介于-1至+1之间其绝对值越大,表示预测能力越强,正负向则代表X与Y的关系方向。【2】

    3. 回归解释力

     R2反映回归模型的解释力,即Y变量被自变量所消减的误差百分比。当R2为0时,表示自变量对因变量没有解释力;当R2为1时,表示自变量能够完全解释因变量的变异。值得注意的是,在回归分析中,研究者往往为了提高模型的解释力,不断投入解释变量,每增加一个自变量,则损失一个自由度,最后模型中无关的自变量过多,自由度太低,失去了简效性。调整后的R2(adjusted R2反映了因为自变量数目变动而导致的简效性损失的影响。如果研究者的目的在比较不同模型的解释力大小,各模型的自变量数目的差异会造成简效程度的不同,宜采用调整后的R2。【2】

    4. 回归系数的显著性检验

    回归分析除了通过R2了解整个回归方程式的预测效果,个别的回归系数β则可以用于说明预测变量对因变量的解释力,其值的大小亦需经过假设检验(F检验)来证明其显著性。【2】

    5. 回归分析的基本假设

      回归分析(线性)进行变量关系的探讨,是基于某些统计假设之下的。当这些假设被违反时,将导致偏误的发生。回归分析的基本假设包括:固定自变量假设、线性关系假设、正态性建设、误差独立性假设以及误差等分散性假设。【2】

(三)回归的分析步骤

     回归分析包括以下操作步骤:【3】  
    第一步:首先对模型情况进行分析
  •  包括模型拟合(modle fit)情况(比如R ²为0.3,则说明所有自变量可以解释因变量30%的变化原因),模型共线性问题(VIF值小于5则说明无多重共线性),是否通过F 检验(F 检验用于判定是否X中至少有一个对Y产生影响,如果呈现出显著性,则说明所有X中至少一个会对Y产生影响关系)。
第二步:分析X的显著性
  • 如果显著(p 值判断),则说明具有影响关系(解释力具有统计上的意义),反之无影响关系。
      第三步:判断X对Y的影响关系方向
  • 回归系数β值大于0说明正向影响,反之负向影响。
    第四步:其它
  • 比如对比影响程度大小(回归系数β值大小对比X对Y的影响程度大小)。
参考文献:

[1] 王孝玲. 教育统计学[M]. 上海:华东师范大学出版社, 2014:229-240.
[2] 邱皓政 著 . 量化研究与统计分析:SPSS(PASW)数据分析范例解析[M]. 重庆大学出版社,2013: 222-232.
[3] SPSSAU. 回归分析. https://spssau.com/helps/universalmethod/regression.html

卡方检验

马红亮 -

一、原理

       不同于二项分布最多只能比较两组比率的差异,卡方检验可以同时处理一个因素的多种类别数据,或多种因素的多种类别数据。如男女人数或比例是否相同,学生优、良、中、差四个成绩的人数比率是否存在差异。卡方检验属于自由分布的非参数检验。【1】

(一)类别数据   

     类别数据是最基本、最普遍的一种数据类型,如性别、职称等人口学或背景变量的调查数据,以及学生对教学方法的态度(赞成、反对或没有意见)的意见调查结果等。通常,以名义尺度(定类数据)或顺序尺度(定序数据)进行测量的数据类型都是类别变量。然而,以等距或比率尺度所测量的数据(学业成绩或身高体重),虽然测量时是连续变量的形式,但如果进行分组处理,如将身高分为高、中、低三组,此时也属于类别变量的统计分析。【2】

(二)类别数据的呈现与检验

    类别数据采集之后,可以以次数分布或列联表(contingency table)的形式来整理、呈现。其中,次数分布表适用于单一类别变量的描述,而列联表适用于两个或多个类别变量的分布形式的描绘。次数也可以转化为百分比。类别变量的检验形式有:【2】
  • 适合度检验(goodness-of-fit test),检验某一变量单一类别变量)是否与某个理论分布或总体分布相符合,如学校性别比例是否为1:1。如果检验统计量未达到显著差异,则该样本在该变量的分布与理论总体无差异。【2】
  • 独立性检验(test of independence),检验两个类别变量之间的关系,例如某一群人的学历分布与性别分布的关系。如果两个类别变量的次数分布没有特殊交互作用,卡方值不显著,则两个变量相互独立;相反的,当两个类别变量次数分布具有特殊相互作用影响时,则说明这两个变量不独立,或具有相关性。【2】

(三)卡方检验

  •  类别变量的次数(或转换成百分比)分布特征,可以进行卡方检验(X2 test)。
  • 一般而言,单元格期望次数小于5时(如人数过少),可能造成统计基本假设的违反,这时需要合并单元、增加样本数或者使用校正公式。【2】
  • Kappa系数,又称同意量数(measures of agreement),适用于具有相等顺序数值的两个顺序变量的关联性分析。Kappa系数所反映的是两个顺序变量是否具有一致的等级,也就是等级一致性程度。Kappa系数可以用来计算两个评分者对同一对象是否有一样的评定的评分者信度(inter-raterreliability)。【2】

参考文献
【1】王孝玲. 教育统计学[M]. 上海:华东师范大学出版社, 2014: 171-186.
【2】邱皓政. 量化研究与统计分析:SPSS(PASW)数据分析范例解析[M]. 重庆大学出版社,2013:124-132.

访谈数据分析

马红亮 -

一、理论原理

(一)访谈的概念

      访谈是质性研究中最重要的一种收集资料的方式。访谈不是一个一方“客观”地向另一方了解情况的过程,而是一个双方相互作用、共同构建“事实”和“行为”的过程。在访谈进行的时候,双方实际上是在相互探询、相互博弈、相互协调。双方的个人身份和相互关系都会影响到访谈的风格和进程,交谈双方实际上是在一起营造访谈的氛围和话语情境。【1】
      在使用观察、问卷或实物分析的同时,使用访谈还可以起到相关检验研究结果的作用。例如,与实物分析相比,访谈更具灵活性、即时性和意义解释功能访谈者可以在与受访者交流的时候询问他们的看法,了解他们对自己创造的实物的意义解释,探询这些实物与他们生活中其他事件直接的关系。【1】

(二)访谈的类型

      质的研究中,访谈主要指开放型访谈和半开放型访谈。根据受访者的人数,访谈可以分为个别访谈(一对一)和集体访谈(1-3名访谈者和6-10名参与者)。根据访谈的次数,访谈可分为一次性访谈(收集事实性信息)和多次性访谈(追踪调查、深入探究某些问题)。 虽然访谈的形式多种多样,对访谈形式的选择依据研究的问题、目的、对象、情境和研究阶段不同有所不同,在必要时可以结合不同的方式。焦点小组(团体)访谈是集体访谈中最常见的一种方式。【1】

(三)访谈的注意事项

    1.目的性抽样

     质性研究一般采用“非概论抽样”方式,使用最多的是“目的性抽样”,即按照研究的目的抽取能够为研究问题提供最大信息量的研究对象。目的性抽样按照样本特性可以分为:极端个案或偏差型个案抽样、强度抽样(较高信息密度和强度的个案)、最大差异抽样、同质性抽样典型个案抽样分层目的型抽样、关键个案抽样、效标抽样(criterion sampling,按设定标准选择个案)、证实和伪证个案抽样。【1】

    2. 访谈提纲

    访谈提纲应该是粗线条的,列出访谈者在访谈中应该了解的主要问题和应该覆盖的内容范围。访谈提纲应该尽可能简洁明了,最好只有一页纸,可以一眼就全部看到。访谈提纲应该随时进行修改,前一次(或者是对前一个受访者)访谈的结果可以作为下一次(或是对下一个受访者)的访谈设计提供依据。【1】

      在质的访谈中,访谈者除了应该尽量使用开放型(以什么、如何和为什么为主线)、具体型和清晰型问题以外,还需要有意识地使用追问这一手段,对有关问题进行深入的探讨。【1】

(四)编码

    1. 分段与编码
    分段(segmenting)就是把数据分解成有意义的分析单位。一个有意义的文本单位可能是一个词、一个单独的句子、几个句子,也可能是一个段落或文档。编码(coding)就是把数据段标上符号、描述性词语或类别名称(类别标签)的过程。在编码期间,随着新编码的形成,如果它们尚未列入清单,有必要把它们添加到编码的总清单(master list)上。编码过程有编码者间信度(intercoder reliability),即不同编码者的一致性;也有编码者内部信度(intracoder reliability),即每个单一编码者的一致性。【4】

    2. 归纳编码和先验编码
     归纳编码(inductive codes)指研究者在编码过程中,通过直接检验数据而形成的编码,这种编码以客位术语(参与者自己所使用的术语)为基础。先验编码(priori codes),也称预先编码,指研究者按照一个已经定好的编码方案进行编码,这种编码常用于试图重复或扩展某个先前的研究。研究者可以在数据收集之前,基于与研究问题的相关性,建立一些先验编码。在实践中,许多研究者既会采用预先编码,也会采用归纳编码。 【4】 

    3. 点查

    点查(enumeration)是指词语或编码类别在数据中出现的频率,是一种对质性数据进行量化的过程,它可以传达一些诸如“数量”或“频率”的概念。列出频率也有助于识别数据中突出的主题。然而,一个词语出现的频率较高,或许仅仅是因为一个或两个研究参与者多次使用了这个词,而不是因为有许多不同的参与者使用了这个词。【4】 

    4. 创建分层分类系统
    分类是定性数据分析的基本构建模块,因为研究者通过识别和研究数据中出现的类别来理解这些数据。在对数据进行编码之后,研究者往往关注由分类系统所展现的主题和关系。定性研究中的常见语义关系有包含关系、空间分布、因果关系、基本原理、功能关系、顺序关系、手段-目的、归属关系等等。在分析定性数据的类别关系时,可以通过把两个或多个维度交叉分类来获取一些新的、有趣的信息。定性分析通常使用绘图(diagramming)来展现不同分类之间的关系。【4】

(五)扎根理论

     1. 扎根理论的特点
      研究者在研究开始之前一般没有理论假设,直接从原始资料中归纳出概念和命题,然后上升到理论。这是一种自下而上建立理论的方法,即在系统收集资料的基础上,寻找反映现象的核心概念,然后通过在这些概念之间建立起联系而形成理论。【1】
      研究的目的是生成理论,而理论必须来自经验资料(empirical data);研究是一个针对现象系统地收集和分析资料,从资料中发现、发展和检验理论的过程。扎根理论研究人员喜欢分析胜过描述,喜欢新鲜的概念类别(category)胜过预先设定的观点,喜欢系统聚焦的、连续收集的资料胜过大量同时收集的资料(Charmaz,2006)。【2】

    2. 扎根理论的操作程序
     扎根理论的主要操作程序如下:(1)对资料进行逐级编码,从资料中产生概念;(2)不断地对资料和概念进行比较,系统地询问与概念有关的生成性理论问题;(3)发展理论性概念,建立概念与概念之间的联系;(4)理论性抽样,系统地对资料进行编码;(5)建构理论,力求获得理论概念的密度、变异度和高度的整合性。【1】
    3. 三级编码
      对资料进行逐级编码是扎根理论中最重要的一环,其中包括三个级别的编码:【1】
  • 一级编码——开放式编码(open coding)。编码的目的是从资料中发现本土概念(被研究者的话语,不等同于语词),对码号(code)加以命名。开放式编码开始时编码比较宽,编码越细致越好,随后不断地缩小范围,直到码号达到饱和。
  • 二级编码——轴心式编码(axial coding),又称关联式编码。主要任务是发现和建立概念类属之间的各种关系,这些联系可以是因果关系、类型关系、结构关系、功能关系、过程关系、策略关系等。
  • 三级编码——选择式编码(selective coding),又称核心式编码。在所有发现的概念类属中经过系统分析以后选择一个“核心类属”,将分析集中到那些与该核心类属有关的编码上。核心类属应该具有统领性,能够将大部分研究结果囊括在一个比较宽泛的理论范围之内。
【3】
    4. 不断比较的方法
      扎根理论的主要分析思路是比较,在资料和资料之间、理论和理论之间不断进行对比,然后根据资料与理论之间的相互关系提炼出有关的类属及其属性。这种比较通常有四个步骤:(1)根据概念的类别对资料进行比较;(2)将有关概念类属与它们的属性进行整合,同时对这些概念类属进行比较;(3)勾勒出初步呈现的理论,并将初步的理论返回到原始资料进行验证,优化现有理论,确保理论可以解释大部分原始资料;(4)对理论进行陈述。【1】

    5. 撰写备忘录
      Glaser认为,概念的产生和发展都需要通过备忘录的撰写,一旦有想法就停止编码,撰写备忘录。尽管开放编码可以快速产生许多代码,但需要经常停止编码,通过撰写备忘录来记录想法,因为此时研究人员脑海中关于数据的想法是最新鲜的,撰写备忘录可以让研究人员看清楚下一步需要做什么,进而促进理论性抽样。即便是最后的论文写作,也是对备忘录的系统整理。【2】

(六)定性数据分析软件

      1.  MAXQDA是一种定性、定量和混合方法的数据分析工具。它可以让你输入各种来源的数据,比如调查、访谈和焦点小组等等,从文本到图像、音频/视频文件、网站、推文、焦点小组讨论、调查回复等等。用户可以对这些数据进行标记和分类,以便进行分析。
      2.  NVivo与MAXQDA一样,它允许用户组织和存储定性数据,以便进行分析。您还可以导入word文档、PDF、音频、图像和视频。

   
参考文献
[1]陈向明. 质的研究方法与社会科学研究[M].北京:教育科学出版社,2000:103-116;165-181;182-194;318-338.
[3] Saldana, J. (2013). The coding manual for qualitative researchers. (2nd Ed.) Thousand Oaks: SAGE
[4] 伯克·约翰逊,拉里·克里斯滕森 著,马健生 等译.  教育研究:定量、定性和混合方法(第4版)[M]. 重庆:重庆大学出版社,2015:480-506.

自编量表的效度和信度检验

马红亮 -

一、理论原理

    如果一个研究涉及心理特质、能力与态度等抽象构念的测量,首要工作是通过标准程序来开发测量工具。如果研究者所测量的对象不是构念,而是一些客观事实和态度意见(如家里有几个未成年子女,对政府的施政满意不满意),研究者可以直接就每一个题de [1]

(一)效度(validity)

      1. 效度的概念

    效度即测量的正确性,指测验或其他测量工具确实能够测得其所欲测量的构念(construct)之程度,亦即反映测验分数的意义为何。一般使用的效度评估方法,主要有判断法(informed judgment)与实证法(gathering of empirical evidence)两个策略,前者着重于测量特性与质量的评估,通常依赖于研究者的主观判断;实证法则根据具体客观的量化指标进行效度的评估。[1]

    2. 效度的类型[1]

  • 内容效度(content validity)反映测量工具本身内容范围与广度的适切程度。内容效度的评估,需针对测量工具的目的和内容,以系统的逻辑方法来分析,又称为逻辑效度
  • 表面效度(face validity),指测量工具在外显形式上的有效程度,为一群评判者主观上对于测量工具形式上有效程度的评估。内容效度强调测量内容的广度、涵盖性与丰富性,以作为外在推论的主要依据,表面效度则重视工具的外显的有效性,两者具有相辅相成之效。
  • 构念效度(construct validity),指测量工具能测得一个抽象概念或特质的程度。构念效度的检验,必须建立在特定的理论基础之上,通过理论的澄清,引导出各项关于潜在特质或行为表现的基本假设,并以实证方法检验测量结果是否符合理论假设。一种与构念效度有直接关系的效度为因素效度(factorial validity),也就是一个测验或理论背后的因素结构的有效性。
    3. 效度的检验

      传统上用来评估测验效度的技术主要包括相关分析、回归分析、因素分析、多重特质多重方法矩阵分析(MTMM)等。近年来,结构方程模型(SEM)在效度检验方面运用日益广泛。因素分析(factor analysis)已经成为量表编制过程中不可或缺的工具,主要用来进行构念效度的验证。因素分析分为探索性因素分析和验证性因素分析。[1]      
  • 探索性因素分析(exploratory factor analysis,EFA),主要被用来寻找一组变量背后潜藏的因素结构与关系。(1)KMO(介于0-1之间)值越大,表示变量间(题项间)的共同因素越多,Bartlett’s球形检验达到0.05显著水平,说明适合做因素分析。(2)采用主成分分析法抽取主成分(共同因素)时,通常考虑初始特征值大于1的成分,特征值大于1的因素数量即为所抽取的共同因素的个数。此外,还需要考虑因素陡坡图,取坡线突然剧升的因素,删除坡线平坦的因素。至于保留多少个共同因素,还需要参考所抽取的共同因素是否有合理性,即共同因素(每个构念)包含的题目变量最少在三题以上,题目变量所要测量的潜在特质类似且因素可以命名。(3)采用最大变异法(Varimax)进行转轴后可以得到转轴后的成分矩阵,题项按因素载荷量的高低排列(大于0.4),矩阵表中的系数可视为变量与因素的相关系数矩阵。此时需要删除题项不足3个的因素,因素载荷在不同因素均小于0.4的题项,以及因素载荷在多个因素的载荷大于0.4的题项。(4)删除因素和题项后需要重新进行探索性因子分析。[3]
  • 验证性因素分析(confirmatory factor analysis, CFA)。如果在研究之初就已经提出某种特定的结构关系的假设,例如某一个概念的测量问卷由数个不同子量表组成时,此时因素分析可以被用来确认数据的模式是否就是研究者所预期的形式,称为验证性因素分析。在技术层面,CFA是结构方程模型的一种次模型。
(二)信度(reliability)

    信度即是测量的可靠性,是指测量结果的一致性或稳定性。

   1. 内部一致性信度

    在计算测验信度时,如果直接计算测验题目内部之间的一致性,作为测验的信度指标时,称为内部一致性(coefficient of internal consistency)。

  •  KR20与KR21信度。库里信度(Kuder-Richardson reliability)是Kuder & Richardson(1937)提出的适用于二分题目的信度计算方法。KR20适用于各题难度不同。如果将每个题目难度都假设相同,或者研究者不重视试题难度的差异,而将试题难度设定为常数,可以用KR21来计算内部一致性系数。KR20与KR21适用于二分变量的测验类型(例如能力测验与教育测验)。
  • Cronbach's a。 社会与行为科学研究中,多数测量不是对错二分的测量,而多以评定量尺作为测量工具,因此Cronbach(1951)将KR20加以修改,得到a系数。α > 0.8 表示问卷的信度良好,0.7< α < 0.8 表示问卷的信度可以接受( Blunch,2010)。

  2. 评分者间信度

      当测量的进行使用的工具是“人”,而非量表之时,不同的评价者可能打出不同的分数,分数误差变异的来与是评分者间的差异,若计算各得分的相关,即是评分者间信度(inter-rater reliability)。评分者间信度所反映的试不同的评分者在测验过程中进行观察、记录、评分等各方面的一致性。相关度越高,表示量表的信度越高。[1]

(三)项目分析
    1. 项目难度
    项目难度(item difficulty)是指一个测验的试题对受测者能力水平的反映程度,主要适用于能力测验或教育测验的项目评估。
  • 在一个对错二分的题项下,项目难度通常以所有受测者在该项题目上正确回答的百分比来表示。一个测验题目的难度以0.5为宜,此时全体受测者的分数居中,分布呈现正态。【1】
  • 每个题项的权重分数为该题项的难度系数乘以原始得分,整个测验的权重分数为所有题项的权重分数之和,而不是原始分数的简单相加。【5】
  • 如果是人格与态度测量(Likert量表),此时最适合作为难度指标的试题目的平均数,平均数过高或过低,代表题目过于偏激或冷涩,导致全体受测者均回答出类似的答案。【1】
    2. 项目区分度
    项目区分度(item discrimination)反映测验题目能够正确测得受测特质的内容的程度,并能够鉴别个别差异的能力,一般用区分度指数(discrimination index,DI),也用相关系数来反映项目区分度。
  • 通常做法是,将受测者的得分依照高低顺序排列,然后选出最高分(前27%)与最低分(后27%)的两群人,称为效标组。然后比较每一个题目在这两个校标组的平均得分,通过t检验分析是否达到显著的差距,称为极端组比较法。 在使用t检验时,多采用a=0.01。【1】
  • DI指数是指高分组和低分组的正确率之差除以样本数量,当DI≥0.4,表示区分度良好;0.3≤DI≤0.39,表示区分度较好;0.2≤DI≤0.29,表示区分度介于边界;DI≤0.19,表示区分度比较差。【4】

参考文献

[1] 邱皓政 著 . 量化研究与统计分析:SPSS(PASW)数据分析范例解析[M]. 重庆大学出版社,2019: 301-315.
[2] SPSS. 验证性因子分析(CFA). https://spssau.com/helps/questionnaire/cfa.html
[3] 吴名隆. 问卷统计分析务实——SPSS操作与应用[M]. 重庆大学出版社,2010: 216-226.
[4] Ebel, R. L., & Frisbie, D. A. (1972). Essentials of educational measurement. Prentice-Hall.
[5] Yaşar, M., Kartal, S., & Aybek, E. C. (2021). Scoring methods for multiple choice tests: How does the item difficulty weighted scoring change student's test results? Bartın University Journal of Faculty of Education, 10(2), 309–324.