由 马红亮 发起的话题

 一、理论原理

     结构方程模型(structural equation modeling,简称SEM),有学者也成称之为潜在变量模型(latent variable models,LVM)。通常结构方程模型属于多变量统计(multivariate statistics),它整合了因素分析(factor analysis)与路径分析(path analysis)两种统计方法,同时检验模型中包含的显性变量、潜在变量、干扰或误差变量间的关系,进而获得自变量对因变量的直接效果、间接效果或总效果。【1】

(一)结构方程模型的类型

     结构方程模型基本上是一种验证性的方法,通常必须有理论或经验法则支持,由理论来引导,在理论导引的前提下才能建构假设模型图。即使模型的修正,也必须依据相关理论而来,它特表强调理论的合理性。结构方程模型中有两个基本的模型:测量模型和结构模型。【1】

    1. 测量模型
    测量模型由潜在变量与观察变量组成观察变量是量表或问卷等测量工具所得的数据,即各题项所测量的数据;潜在变量是观察变量间所形成的特质或抽象概念,是各题项所抽取的共同因素或概念。观察变量通常以长方形符号表示,潜在变量通常以椭圆符号表示。【1】
     在数据分析时,每个观察变量的因子载荷量越高,表示受到潜在变量影响的强度越大;因子载荷量越低,表示受到潜在变量影响的强度越小。测量模型在SEM的模型中就是一般所谓的验证性因子分析(CFA),用于检验数个测量变量可以构成潜在变量的程度。就潜在变量间关系而言,同时具有外因变量(路径分析的自变量)和内因变量属性(路径分析的因变量)的变量,称为一个中介变量(mediator)。【1】
     测量模型分析所验证的属于假设模型内在模型适配度,即模型内在质量的检验,因而测量模型可以检验模型中各因素的收敛效度或聚合效度(convergent validity)区分效度(discriminant validity)。所谓收敛效度是指测量相同潜在特质的测量指标会落在同一个共同因素上,而区别效度则是指测量不同潜在特质的测量指标会落在不同共同因素上。【1】

     2. 结构模型
       结构模型又称为因果模型、潜在变量模型(latent variable models)或线性结构关系(linear structrual relationships)。结构方程模型即是潜在变量间因果关系模型的说明,作为因的潜在变量称为外因潜在变量(潜在自变量),作为果的潜在变量称为内因潜在变量(潜在因变量)。在SEM分析模型中,只有测量模型而无结构模型的回归关系,即为验证性因素分析;相反的,只有结构模型而无测量模型,则潜在变量因果关系的探讨,相当于传统的路径分析(path analysis)。结构模型由以下特征:【1】
  • 结构方程模型的关系中,单箭头表示变量间的因果关系,双箭头表示两个潜在变量间的相关(共变关系),二者之间无因果关系。
  • 变量间关系的建立要有坚强的理论为根据,在既有的解释程度之下,能够以越少的概念和关系来呈现现象的理论越佳。
  • 模型界定时必须遵循简约原则,即能以一个比较简单的模型来解释复杂的关系。

(二)结构方程模型的案例

     结构方程模型共包括两部分结构,分别是测量关系和影响关系。比如下面这个结构方程模型,其包括四个潜变量,分别是Factor1感知质量、Factor2感知价值、Factor3顾客满意和Factor4顾客忠诚。从测量关系来看:Factor1感知质量由A1~A4共4项测量;Factor2感知价值由B1~B3共3项测量;Factor3顾客满意由C1~C3共3项测量;Factor4顾客忠诚由D1~D2共2项测量。从影响关系来看:Factor1和Factor2对于Factor3产生影响关系;Factor3对Factor4产生影响关系。【3】

   

(三)结构方程模型的参数估计方法

    1. 样本大小
     结构方程模型适用于大样本的分析,取样样本数越大,则统计分析的稳定性与各种指标的适用性也越好。一般而言,大于200以上的样本,才可以称得上是一个中型的样本。有些学者认为,每个观察变量至少10个样本或20个样本。也有研究发现,大部分的结构方程模型研究,其样本数多介于200至500之间。【1】
    2. 估计方法
    在结构方程模型中,有七种模型估计的方法,其中极大似然法(Maximum Likelihood,ML法)是最广泛应用的估计模型方法,其次是一般化最小平均法(Generalized Least Sqares,GLS法)。极大似然法和一般化最小平均法的基本假定是相同的,包括样本数要够大,观察变量是连续变量,测量指标必须是多变量正态分布,以及必须有效界定模型等。【1】
      在估计方法与样本大小的关系方面,极大似然法的样本数量最好大于500如果样本小于500,则使用一般化最小平均法来估计会获得较佳的结果。如果模型为小样本(60-120),被试人数样本比数据变量的协方差矩阵提供的方差与协方差多,采用渐进分布自由法(Asymptotically distribution-free,ADF法)所获得的估计值较佳。【1】
    Amos内设的参数估计方法为极大似然法,但ML法较不适合小样本的估计,对于小样本的SEM分析,Amos另外提供了贝氏估计法(Bayesia estimation)。【1】

(四)模型的概念化与修正

    结构方程模型的分析程序有8个步骤:模型的概念化(conceptualization)、路径图(path diagram)的建构、模型的确认(specification)、模型的辨识(identification)、参数估计、模型适配度(model fit)的评估、模型的修改(重新返回到模型的概念化)、模型的复核效化(cross-validation)。【1】
    1.模型的概念化
    模型的概念化主要是界定潜在变量间的假设关系,以形成作为统计检验的理论框架(theoretical framework)。在结构模型的界定中,研究者必须明确潜在自变量潜在因变量。其中,一些潜在因变量会直接影响其它的潜在因变量,因而又扮演起自变量的角色,这类潜在因变量称为中介变量。在结构模型概念化中,除了确认这些变量之外,还要注意:因变量的顺序,自变量与因变量、及因变量间的联结关系数目与期望方向,其中变量间期望路径系数的正负号的解释是不相同的。【1】
   2. 模型的修正
    当模型进行参数估计后,发现假设模型与观察数据的适配度不佳,研究者可能会对模型进行适当修正,修正的目的在于模型适配度的改善。模型的修正如果没有理论基础,完全是数据驱动的,则容易落入“机遇坐大”(capitalization on chance)。模型的修正就是侦测与改正叙列(specification)误差,改善模型适配。所谓叙列误差包括从模型中遗漏了适当的自变量、变量间的重要联结路径,或模型中包含了不适当的联结关系等。【1】

(五)模型适配度的统计量

    模型的适配(fit)指的是假设的理论模型与实际数据的一致性程度。在结构方程模型中,所期望获得的结果是“接受虚无假设”,因为不显著的检验结果,表示样本协方差矩阵与假设理论模型隐含的矩阵越接近,表示理论模型越能契合实证数据的结构,模型的适配度越好。假设模型与实际数据是否契合,需要同时考虑三个方面:基本适配指标(preliminary fit criteria)、整体性模型适配度指标(overall model fit)、模型内在结构适配度指标(fit of internal structural model)。【2】
    1. 模型基本适配指标
    在模型基本适配度指标方面,有以下几个准则:【2】
  •  估计参数中不能有负的误差方差;
  • 所有误差变异必须达到显著水平(t>1.96);
  • 估计参数统计量彼此间相关的绝对值不能太接近1(标准化参数系数不能≥1);
  • 潜在变量与其测量指标间的因子载荷量,最好介于0.50-0.95之间。
  • 不能有很大的标准误。  
    2. 整体模型适配度指标(模型外在质量的评估)
    整体模型的适配度指标又细分为绝对适配指标、相对适配指标以及简约适配指标,具体指标如下:【2】
  • X2(卡方值)越小,表示整体模型的因果关系与实际数据越匹配。一个统计不显著(p>0.05)的卡方值,表示接受虚无假设,表示模型的因果路径图模型与实际数据契合。
  • χ2 /df <1,表示模型过度适配;>3(较宽松值为5),表示模型适配度不佳;若值介于1-3表示模型适配度良好
  • SRMR(standardized root mean square residual)为标准化残差均方和平方根,其值介于0-1之间,数值越大表示模型的契合度越差,一般而言模型契合度可以接受的值<0.05。
  • RMSEA为渐进残差均方和平方根(root mean square error of approximation)为最重要的适配度指标,RMSEA<0.05,表示模型适配度非常好(good fit);介于0.05-0.08之间,表示模型良好,有合理适配(reasonable fit);在0.08-0.10之间,模型尚可,具有普通适配(modiocre fit);>0.10,表示模型适配欠佳(poor fit)。
  • GFI(goodness-of-fit index)为良适性适配指标,GFI介于0-1之间,相当于回归分析中的系数R2,其数值越接近1,表示模型的适配度越好。通常,GFI>0.9,表示模型路径图与实际数据有良好的适配度。
  • AGFI(adjusted goodness-of-fit index)为调整后良适性适配指标,类似于调整后R2。AGFI数值也介于0-1之间,当AGFI>0.9,表示模型路径图与实际数据有良好的适配度。
  • CFI(comparative fit index)为比较适配指数,属于增值适配度统计(假设模型与基准线模型的适配度比较),介于0(模型完全不适配)和1(模型完全适配)之间。通常CFI>0.9,表示模型路径图与实际数据有良好的适配度。
  • 其它增值适配度指标,包括NFI(normed fit index)、RFI(relative fit model)、IFI(incremental fit index)、TLI(tracker-Lewis index)也都类似于CFI,当>0.9时,适配度良好。
3. 模型内在结构适配度的评估(模型内在质量的检验)
     内在结构适配的评价包括:(1)测量模型的评价,旨在评估潜在构念的效度和信度;(2)结构模型的评价,旨在评估所理论构建阶段所界定的因果关系是否成立。结构方程模型的适配评估中,测量模型的评估应该先于结构模型的评估。
     结构模型适配度的评估包括三个方面:
  • 潜在变量间径系数所代表的参数的符号(正数或负数),是否与原先理论模型所假设的期望的影响方向相同。路径系数为正表示自变量对因变量有正向的影响,为负表示自变量对因变量有负向的影响。
  • 假设模型的所有路径系数的参数估计值均必须达到统计显著水平,即|t|>1.96,路径系数达到显著(p<0.05),表示变量间的影响存在实质性意义。
  • 多元相关的平方值(R2,越高越好,并且达到显著水平。R2越大,表示因变量被自变量解释的变异量越高。


参考文献
[1] 吴明隆. 结构方程模型——AMOS的操作与应用(第2版)[M].重庆大学出版社,2009.1-33.
[2] 吴明隆. 结构方程模型——AMOS的操作与应用(第2版)[M].重庆大学出版社,2009.37-59.

 一、理论原理

     对两个变量之间变化关系进行描述,需要用相关量。例如描述同一组学生两门学科成绩的关系,智力与学习成绩的关系,某一试题得分与试卷总分之间的关系,等等。【1】

(一)相关分析的概念

    一个研究所涉及的问题,往往同时牵涉到两个以上连续变量关系的探讨,此时两个连续变量的共同变化情形,称为共变(covariance)。在统计学上,涉及两个连续变量的关系多以线性关系(linear relationship)的形式进行分析。例如积差相关就是用来反映两个连续变量具有线性关系强度的指标;积差相关系数越大,表示线性关联越强,反之则表示线性关联越弱,此时可能变量间没有关联,或是呈现非线性关系。用以描述相关情形的量数,称为相关系数(coefficient of correlation),通常用r表示。相关系数的强度大小与意义如下所示。 【2】
  • |r| = 1.00, 完全相关; 0.70 ≤ |r| ≤ 0.99,高度相关;0.40 ≤ |r| ≤ 0.69,中度相关; 0.10 ≤ |r| ≤ 0.39,低度相关; |r| < 0.10,微弱或无相关;
  • Green and Salkind (2004) where 0.10, 0.30 and 0.50, were accepted as small, medium and large coefficients, respectively.  [4]
       相关系数的数值虽然可以反映两个连续变量关联情形的强度大小,但相关系数是否有统计上的意义,则必须通过t检验来判断。
      相关系数只能描述两个变量之间的变化方向及密切程度,并不能揭示两者之间的内在本质联系。如果要分析其内在本质联系,必须借助与这两个变量有关的专业知识。另外,存在相关的两个变量,也不一定存在因果关系相关关系中可能是因果关系,也可能不是因果关系。若拟判定存在相关的两个变量是否存在因果关系,同样需要根据有关知识、经验作进一步的分析研究。【1】

(二)相关分析的意义

       两个变量之间不精确、不稳定的变化关系称为相关关系。两个变量之间的变化关系,既表现在变化方向上,又表现在密切程度上。从变化方向来看,两个变量之间有以下几种关系:【1】

    (1)正相关。 两个变量的变化方向一致,即一个变量值变大时,另一个变量值也随之变大;一个变量值变小时,另一个变量值也随之变小,这两个变量之间的关系称为正相关。如智商与学习成绩的关系(在非智力因素基本相同的情况下)。

    (2)负相关。 两个变量的变化方向相反,即一个变量值变大时,另一个变量值随之变小;一个变量值变小时,另一个变量值随之变大,这两个变量之间的关系称为负相关。

    (3)零相关。两个变量变化方向无一定规律,即一个变量值变大时,另外一个变量值可能变大也可能变小,并且变大、变小的机会趋于相等,这两个变量之间的关系称为零相关,即两者之间无相关。

     用来描述两个变量相互之间变化方向及密切程度的数字特征量称为相关系数。一般用r表示。相关系数的数值范围是在-1到+1之间,即0≤|r|≤1。“+”号表示正相关,“-”号表示负相关。r的绝对值表示两个变量之间的密切程度(强度)。

(三)相关分析的类型

    1. 积差相关
      当两个变量都是正态连续变量,而且两者之间呈线性关系时,表示这两个变量之间的相关称为积差相关。积差相关的使用条件:【1】 积差相关通常用Pearson相关系数计算
  • 两个变量都是由测量获得的连续性数据;
  • 两个变量的总体都呈正态分布,或接近正态分布;
  • 必须是成对数据,而且每对数据之间相关独立;
  • 两个变量之间呈现线性关系,可由相关散布图的形状决定;
  • 要排除共变因素的影响若两个变量都随着一个共同因素在变化,即便计算出的积差相关系数很高,也难以判断这两个变量之间存在着高度相关
  • 样本容量n≥30,计算出的积差相关才具有有效意义。
    2. 净相关与部分相关
     在线性关系中,如果两个连续变量之间的关系,可能受到其他变量的干扰,或者研究者想要把影响这两个变量的第三个变量效果排除,可以将第三变量的效果进行统计的控制(排除)。这种统计的控制分为净相关(partical correlation,偏相关)与部分相关(part correlation)两者不同的形式。【2】

    3. 等级相关
       以等级次序排列或次序表示的变量之间的相关称为等级相关通常用Spearman相关系数计算。当两个变量中,有任一变量为顺序变量时,必须计算Spearman相关系数。【2】
      等级相关是指以等级次序排列或等级次序表示的变量之间的相关。主要用斯皮尔曼(Spearman)二列等级相关及肯德尔(Kandall)和谐系数多列等级相关。当两个变量以等级次序排列或以等级次序表示时,两个相应总体并不一定呈正态分布,样本容量也不一定大于30,表示这两个变量之间的相关,称为等级相关。例如,根据某种标准对某项成绩所评定的等级,或按某种指标的优劣程度所排列的名次等,均属于等级秩序性分数。【1】
   4. 点二系列相关
      当两个变量中,一个为连续变量,另一个为二分变量(如性别),两个变量的相关系数称为点二系列相关(point-biserial correlation)。当求取类别变量与连续变量的关联强度时,可利用η(eta)系数。【2】

参考文献:
[1] 王孝玲. 教育统计学[M]. 上海:华东师范大学出版社, 2014: 188-208.
[2] 邱皓政. 量化研究与统计分析:SPSS(PASW)数据分析范例解析[M]. 重庆大学出版社,2019:222-228.
[4] Green, S. B., & Salkind, N. J. (2004). Using SPSS for Windows and Macintosh: Analyzing and Understanding Data, 4th ed. Pearson.

数据分析实例 -> 数据分析实例目录 -> 访谈数据分析

马红亮 -

一、理论原理

(一)访谈的概念

      访谈是质性研究中最重要的一种收集资料的方式。访谈不是一个一方“客观”地向另一方了解情况的过程,而是一个双方相互作用、共同构建“事实”和“行为”的过程。在访谈进行的时候,双方实际上是在相互探询、相互博弈、相互协调。双方的个人身份和相互关系都会影响到访谈的风格和进程,交谈双方实际上是在一起营造访谈的氛围和话语情境。【1】
      在使用观察、问卷或实物分析的同时,使用访谈还可以起到相关检验研究结果的作用。例如,与实物分析相比,访谈更具灵活性、即时性和意义解释功能访谈者可以在与受访者交流的时候询问他们的看法,了解他们对自己创造的实物的意义解释,探询这些实物与他们生活中其他事件直接的关系。【1】

(二)访谈的类型

      质的研究中,访谈主要指开放型访谈和半开放型访谈。根据受访者的人数,访谈可以分为个别访谈(一对一)和集体访谈(1-3名访谈者和6-10名参与者)。根据访谈的次数,访谈可分为一次性访谈(收集事实性信息)和多次性访谈(追踪调查、深入探究某些问题)。 虽然访谈的形式多种多样,对访谈形式的选择依据研究的问题、目的、对象、情境和研究阶段不同有所不同,在必要时可以结合不同的方式。焦点小组(团体)访谈是集体访谈中最常见的一种方式。【1】

(三)访谈的注意事项

    1.目的性抽样

     质性研究一般采用“非概论抽样”方式,使用最多的是“目的性抽样”,即按照研究的目的抽取能够为研究问题提供最大信息量的研究对象。目的性抽样按照样本特性可以分为:极端个案或偏差型个案抽样、强度抽样(较高信息密度和强度的个案)、最大差异抽样、同质性抽样典型个案抽样分层目的型抽样、关键个案抽样、效标抽样(criterion sampling,按设定标准选择个案)、证实和伪证个案抽样。【1】

    2. 访谈提纲

    访谈提纲应该是粗线条的,列出访谈者在访谈中应该了解的主要问题和应该覆盖的内容范围。访谈提纲应该尽可能简洁明了,最好只有一页纸,可以一眼就全部看到。访谈提纲应该随时进行修改,前一次(或者是对前一个受访者)访谈的结果可以作为下一次(或是对下一个受访者)的访谈设计提供依据。【1】

      在质的访谈中,访谈者除了应该尽量使用开放型(以什么、如何和为什么为主线)、具体型和清晰型问题以外,还需要有意识地使用追问这一手段,对有关问题进行深入的探讨。【1】

(四)编码

    1. 分段与编码
    分段(segmenting)就是把数据分解成有意义的分析单位。一个有意义的文本单位可能是一个词、一个单独的句子、几个句子,也可能是一个段落或文档。编码(coding)就是把数据段标上符号、描述性词语或类别名称(类别标签)的过程。在编码期间,随着新编码的形成,如果它们尚未列入清单,有必要把它们添加到编码的总清单(master list)上。编码过程有编码者间信度(intercoder reliability),即不同编码者的一致性;也有编码者内部信度(intracoder reliability),即每个单一编码者的一致性。【4】

    2. 归纳编码和先验编码
     归纳编码(inductive codes)指研究者在编码过程中,通过直接检验数据而形成的编码,这种编码以客位术语(参与者自己所使用的术语)为基础。先验编码(priori codes),也称预先编码,指研究者按照一个已经定好的编码方案进行编码,这种编码常用于试图重复或扩展某个先前的研究。研究者可以在数据收集之前,基于与研究问题的相关性,建立一些先验编码。在实践中,许多研究者既会采用预先编码,也会采用归纳编码。 【4】 

    3. 点查

    点查(enumeration)是指词语或编码类别在数据中出现的频率,是一种对质性数据进行量化的过程,它可以传达一些诸如“数量”或“频率”的概念。列出频率也有助于识别数据中突出的主题。然而,一个词语出现的频率较高,或许仅仅是因为一个或两个研究参与者多次使用了这个词,而不是因为有许多不同的参与者使用了这个词。【4】 

    4. 创建分层分类系统
    分类是定性数据分析的基本构建模块,因为研究者通过识别和研究数据中出现的类别来理解这些数据。在对数据进行编码之后,研究者往往关注由分类系统所展现的主题和关系。定性研究中的常见语义关系有包含关系、空间分布、因果关系、基本原理、功能关系、顺序关系、手段-目的、归属关系等等。在分析定性数据的类别关系时,可以通过把两个或多个维度交叉分类来获取一些新的、有趣的信息。定性分析通常使用绘图(diagramming)来展现不同分类之间的关系。【4】

(五)扎根理论

     1. 扎根理论的特点
      研究者在研究开始之前一般没有理论假设,直接从原始资料中归纳出概念和命题,然后上升到理论。这是一种自下而上建立理论的方法,即在系统收集资料的基础上,寻找反映现象的核心概念,然后通过在这些概念之间建立起联系而形成理论。【1】
      研究的目的是生成理论,而理论必须来自经验资料(empirical data);研究是一个针对现象系统地收集和分析资料,从资料中发现、发展和检验理论的过程。扎根理论研究人员喜欢分析胜过描述,喜欢新鲜的概念类别(category)胜过预先设定的观点,喜欢系统聚焦的、连续收集的资料胜过大量同时收集的资料(Charmaz,2006)。【2】

    2. 扎根理论的操作程序
     扎根理论的主要操作程序如下:(1)对资料进行逐级编码,从资料中产生概念;(2)不断地对资料和概念进行比较,系统地询问与概念有关的生成性理论问题;(3)发展理论性概念,建立概念与概念之间的联系;(4)理论性抽样,系统地对资料进行编码;(5)建构理论,力求获得理论概念的密度、变异度和高度的整合性。【1】
    3. 三级编码
      对资料进行逐级编码是扎根理论中最重要的一环,其中包括三个级别的编码:【1】
  • 一级编码——开放式编码(open coding)。编码的目的是从资料中发现本土概念(被研究者的话语,不等同于语词),对码号(code)加以命名。开放式编码开始时编码比较宽,编码越细致越好,随后不断地缩小范围,直到码号达到饱和。
  • 二级编码——轴心式编码(axial coding),又称关联式编码。主要任务是发现和建立概念类属之间的各种关系,这些联系可以是因果关系、类型关系、结构关系、功能关系、过程关系、策略关系等。
  • 三级编码——选择式编码(selective coding),又称核心式编码。在所有发现的概念类属中经过系统分析以后选择一个“核心类属”,将分析集中到那些与该核心类属有关的编码上。核心类属应该具有统领性,能够将大部分研究结果囊括在一个比较宽泛的理论范围之内。
【3】
    4. 不断比较的方法
      扎根理论的主要分析思路是比较,在资料和资料之间、理论和理论之间不断进行对比,然后根据资料与理论之间的相互关系提炼出有关的类属及其属性。这种比较通常有四个步骤:(1)根据概念的类别对资料进行比较;(2)将有关概念类属与它们的属性进行整合,同时对这些概念类属进行比较;(3)勾勒出初步呈现的理论,并将初步的理论返回到原始资料进行验证,优化现有理论,确保理论可以解释大部分原始资料;(4)对理论进行陈述。【1】

    5. 撰写备忘录
      Glaser认为,概念的产生和发展都需要通过备忘录的撰写,一旦有想法就停止编码,撰写备忘录。尽管开放编码可以快速产生许多代码,但需要经常停止编码,通过撰写备忘录来记录想法,因为此时研究人员脑海中关于数据的想法是最新鲜的,撰写备忘录可以让研究人员看清楚下一步需要做什么,进而促进理论性抽样。即便是最后的论文写作,也是对备忘录的系统整理。【2】

(六)定性数据分析软件

      1.  MAXQDA是一种定性、定量和混合方法的数据分析工具。它可以让你输入各种来源的数据,比如调查、访谈和焦点小组等等,从文本到图像、音频/视频文件、网站、推文、焦点小组讨论、调查回复等等。用户可以对这些数据进行标记和分类,以便进行分析。
      2.  NVivo与MAXQDA一样,它允许用户组织和存储定性数据,以便进行分析。您还可以导入word文档、PDF、音频、图像和视频。

   
参考文献
[1]陈向明. 质的研究方法与社会科学研究[M].北京:教育科学出版社,2000:103-116;165-181;182-194;318-338.
[3] Saldana, J. (2013). The coding manual for qualitative researchers. (2nd Ed.) Thousand Oaks: SAGE
[4] 伯克·约翰逊,拉里·克里斯滕森 著,马健生 等译.  教育研究:定量、定性和混合方法(第4版)[M]. 重庆:重庆大学出版社,2015:480-506.

一、理论原理

    t检验分独立样本t检验和配对样本t检验,经常用于单组前后测实验设计(配对样本)和双组前后测实验设计(独立样本)、双组延时实验设计(独立样本)的平均值差异显著性检验中。【4】

(一)相关样本和独立样本

    1. 相关样本
    两个样本内个体之间存在着一一对应的关系,这两个样本称为相关样本。相关样本有两种情况:【1】
  • 用同一个测验对同一组被试在实验前后进行两次测验,所获得两组测验结果是相关样本。
  • 估计某些条件基本相同的原则,把被试一一匹配成对,然后将每对被试随机地分入实验组和对照组,对两组被试施行不同的实验处理之后,用同一个测验所获得的测验结果,也是相关样本。
   2. 独立样本
      在教育研究中,对同一组被试在实验前后施以同一个测验,有时会产生两次测验的效应。而挑选条件相同的对象,进行配对比较,也较为困难。因此在实际应用时,经常利用独立样本对总体平均数的差异进行检验。两个样本内的个体是随机抽取的,它们之间不存在一一对应的关系,这样的两个样本称为独立样本。【1】一般来说,如果是独立样本,则需要对两样本进行方差齐性(同质性)检验相关样本则被认为是基本同质的,只进行相关检验(correlation)。【4】

      两个样本容量都大于或等于30的独立样本称为独立大样本;两个样本容量都小于30,或其中一个小于30的独立样本称为独立小样本。

(二)t检验的概念和类型

    1. t检验的概念
      连续变量的测量数据,适合以描述统计的集中趋势量数与离散量数来描绘观察结果。连续变量的分析与检验,通常与平均数与方差的检验有关。
      在平均数检验方法中,总体的标准差是否已知,有不同的处理模式:当总体的标准差已知时,进行Z检验;当总体标准差未知时,需要使用t检验。一般而言,总体的标准差多无法得知,因此使用Z检验的机会并不多另一方面,由于t分布随着自由度的改变而改变,当n大于30时,t分布于Z分布十分接近。使用t检验其实涵盖了Z检验的应用。在数据分析实务中,多以t检验来进行单样本的平均数检验或平均数的差异检验。
      t检验有单总体平均数检验(某大学一年级新生的平均年龄19.2岁是否与全国大一新生的平均年龄18.7岁相同),双总体平均数检验(独立样本与相关样本)。独立样本的平均数检验,如某大学一年级新生男生的平均年龄21.2岁,是否与女生的平均年龄19.7岁相同。相关样本(配对样本)的平均数检验,如某一群被试参加自我效能训练方案前后的两次得分的自我效能平均数的比较。【2】

     2. 单尾与双尾检验
      当研究者只关心单一一个方向的比较关系时(如男生的数学成绩X1优于女生X2),平均数的检验仅有一个拒绝区,需使用单尾检验(one-tailed test)。当研究者并无特定方向的设定(如男生的智商与女生的智商有所不同),假设检验在两个阶段的情况下皆有可能发生,而必须设定两个拒绝区,此时即需要使用双尾检验(two-tailed test)。【2】
     采用单尾检验必须提出支持证据,除非理论文献支持单侧的概念,或是变量间的关系具有明确的线索显示必须使用单侧检验,否则需采用双侧检验来检验平均值的特性。

(三)t检验的基本假设

    1. 正态性假设(assumption of normality)

    当样本数量不足时,抽样分布即无法符合正态性分布的要求,使得假设检验的理论根据失效。双样本平均数检验中,两个平均数来自两个样本,除了样本本身的抽样分布须为正态化之外,两个平均数的差的抽样分布也必须符合正态分布。正态性的违反,会导致整个统计检验的失效,所得的结果偏失不可信。  通常使用Shapiroe-Wilk test进行正态分布假设检验。【2】

   2. 方差同质性(齐性)假设(homogeneity of variance)

       独立样本t检验的功能在于比较不同样本的平均数差异,每一个正态化样本的平均数要能够相互比较,还必须具有相似的离散情况,也就是样本的方差必须同质性(齐性),称为样本方差同质性。方差同质性假设若不成立,会使得平均数的比较存有混淆因素。
      两个独立样本方差同质性假设是否违反,可以利用Levene's test of homogeneity,以方差分析(F检验)的概念,计算两个样本方差的比值。若F检验达到显著水平,表示两个样本的方差不同质,此时需要校正公式来计算t值。 方差不齐的独立样本平均数差异的显著性检验可以用t'检验。【2】  

(四)效应量(effect size)

    效应量(effect size)是指自变量对因变量的影响力强度。最直观的效应量指标,是取平均数的差异量。平均数间差异越大,表示自变量的强度越强,称为d量数(Cohen,1988)。【3】
  • Weak |d| < 0.2;
  • Weak to moderate: 0.2 < |d| < 0.4;
  • Moderate: 0.40 < |d| < 0.65;
  • Moderate to strong: 0.65 < |d| < 0.8;
  • Strong: 0.8 < |d|.

参考文献
[1]  王孝玲. 教育统计学[M]. 上海:华东师范大学出版社, 2014: 108-118.
[2]邱皓政 著 . 量化研究与统计分析:SPSS(PASW)数据分析范例解析[M]. 重庆大学出版社,2019:143-150.
[3] Rubin A. (2012).  Statistics for evidence-based practice and evaluation. Cengage Learning.
[4] 杜晓新. 心理与教育研究中实验设计与SPSS数据处理. 北京: 北京大学出版社, 2013:15-28.

  • Kelley, T.R., Knowles, J.G., Holland, J.D. et al. (2020). Increasing high school teachers self-efficacy for integrated STEM instruction through a collaborative community of practice. International Journal of STEM Education, 7. https://doi.org/10.1186/s40594-020-00211-w
  • Brand, B.R. (2020). Integrating science and engineering practices: outcomes from a collaborative professional development.International Journal of STEM Education, 7. https://doi.org/10.1186/s40594-020-00210-x