围绕着博士和硕士研究生以往研读的国际Top期刊文章,汇总整理文章中所用的研究方法、数据分析方法等,同时进一步的补充和扩展,也希望引发更为广泛和深入的讨论。    

    目录
  1.  系统性文献综述(元分析、元聚合分析)
  2. 量表信效度检验(Validity & Reliability)
  3. 卡方检验(X2 test )
  4. 参数t检验(配对和独立样本t检验)
  5. 非参数检验(Wilcoxon检验、Mann-Whitney检验)
  6. 方差与协方差分析ANOVA、ANCOVA、MANOVA
  7. 相关分析
  8. 回归分析
  9. 中介调节分析
  10. 结构方程模型
  11. 聚类分析
  12. 滞后序列分析
  13. 访谈和开放问题分析
  14. 作品内容分析
  15. 认知网络分析

 推荐书目:

方差分析、协方差分析以及事后比较-ANOVA,ANCOVA & Post Hoc

by 红亮 马 -

一、理论原理

     方差分析分单因素方差分析(One-way ANOVA)、多因素方差分析(Factorial ANOVA)、协方差分析(ANCOVA)、多重因变量方差分析(MANOVA)。常用于单因素实验设计、两因素实验设计、三因素实验设计、多元方差分析实验设计的数据处理。

(一)方差分析的概念

        如果类别变量的内容超过两种水平,统计检验的总体超过两个,此时一次只能比较两个平均数的Z检验或t检验即不适用,而需要一种能同时对两个以上的样本平均数差异进行检验的方法,称为方差分析(analysis of variance),简称ANOVA. 【1】

      Z检验和t检验虽可以比较两个平均数的差异,但是无法处理三个或三个以上平均数的比较。当我们有三个以上的平均数需要比较时,可计算这些平均数的方差,然后利用F检验来验证该“平均数的方差”的统计显著性,此即方差分析。

      在单因素实验设计中,如果自变量有两个水平,即实验中有两组被试,则F检验与两组Z检验和t检验等效。换句话说,两个独立样本差异的显著性水平可以看作是因素完全随机实验设计的特例。【4】

   1. 单因素方差分析(one-way ANOVA)  

    当研究者所使用的自变量只有一个时,称为单因素方差分析研究者所关心的是一个自变量对于因变量平均数的影响。单因素方差分析分为独立样本(如三组不同运动量-轻/中/高-对睡眠时间的影响)的方差分析,以及相关或配对样本(同一组不同阶段运动量对睡眠时间的影响)的方差分析。【1】

  • 独立样本设计,1个自变量,One-way ANOVA
  • 相关样本设计,1个自变量,One-way ANOVA(配对样本或重复测量设计)
  • 相关样本设计,1个自变量(具有顺序或时间性),Trend(趋势分析:探讨平均数的变动趋势)

     2. 多因素方差分析(factorial analysis of variance)

     如果研究者想同时考虑多个类别变量(多个自变量),同时检测多个平均数的差异,此时即需要使用多因素方差分析。教育现象的发生或变化都是由多因素共同作用的结果。多因素方差分析,不仅可以检验各个因素对因变量作用的显著性,而且还可以检验因素与因素间共同结合对因变量发生交互作用的显著性。如一个实验有A、B两个因素,A因素有a1和a2两种水平,B因素有b1和b2两种水平,双因素方差分析可以检验A因素、B因素以及A与B因素交互作用对实验结果影响的显著性。[2]

  • 完全独立样本设计,2个自变量独立,two-way ANOVA
  • 完全相关样本设计,2个自变量相关,two-way ANOVA
  • 相关与独立样本混合设计,1个自变量独立、1个自变量相关,two-way ANOVA mixed desgin(配对样本或重复测量设计)

    3. 协方差分析(analysis of covariance,ANCOVA)

    有时,研究必须针对某一个连续变量进行统计控制,去除第三变量的混淆效果,而需要使用协方差分析的概念。

  • 单因素协方差设计(独立或相关样本),1个自变量、1个或多个共变量, one-way ANCOVA
  • 多因素协方差设计(完全独立或混合设计),1个或多个共变量、多个自变量,factorial ANCOVA

    4. 多元方差分析(multivariate analysis of variance,MANOVA)

     因变量数目的增加,也使得方差分析有不同的应用,称之为多元方差分析(multivariate analysis of variance,MANOVA,多变量方差分析)。【1】MANOVA是统计分析的一般线性模型的推广,适用于存在多个因变量的情况。自变量是类别变量,因变量是连续的。因变量之间可能存在一定程度的相关性。分析结果是对自变量进行F检验统计值,表明该自变量的不同值是否对因变量水平或因变量之间的关系产生统计显著影响。因此,MANOVA对因变量的属性和大小都很敏感。【3】

  • 单因素多变量设计,1个自变量,One-way MANOVA
  • 多因素多变量设计,多个自变量,Factorial MANOVA
  • 单因素多变量协方差分析,1个自变量、1个或多个共变量,One-way MANOVA with covariates
  • 多因素多变量协方差分析,多个自变量、1个或多个共变量,Factorial MANOVA with covariates

(二)方差分析的统计假设与效应量

    1. 方差分析的统计假设

     方差分析需要满足三个重要假设:正态性假设、可加性假设以及方差同质性(homogeneity of variance,即方差齐性)假设。

    2. 实务显著性:效应量

     效应量(effect size)是指自变量对因变量的影响力强度。在方差分析中,F检验作为一个整体检验,目的是检验自变量效果的统计显著性(statistiacl significance)。然而,F检验却无法说明自变量效果在实务上的意义与价值。此时,需要依赖效果量来反映自变量在真实世界的强度意义,亦即实务显著性(practical significance)或临床显著性(clinical significance)。最直观的效果量指标,是取平均数的差异量。平均数间差异越大,表示自变量的强度越强,称为D量数(Cohen,1988)

(三)协方差的基本原理

      对无关的干扰变量的控制,有两种,其一是过程控制(procedural control),如随机抽样、使研究程序标准化等;其二是实验控制(experimental control),即针对有可能造成干扰的变量加以测量,再利用实验设计的操作与统计的方法,将该因素的效果以“自变量”的角色纳入分析。【1】
      实验控制的操作,是将控制变量与自变量共处一室,去讨论与因变量的关系,也就是一种多因子设计研究。……在统计学领域,为了处理干扰变量的影响,发展出协方差分析(ANCOVA),以数学原理进行统计控制,来处理控制变量与其它自变量共同影响因变量的情形。 在实验研究中,协方差分析多用于具有前后测设计的研究中。由前测所测得变量可以作为控制变量,因变量则为实验之后针对同一个变量再次测量所得到的后测分数。【1】  
    回归同质性假设(assumption of homogeneity of regression)是ANCOVA的一项重要假设。为了确保协方差的控制效果在各组等同,在进行ANCOVA之前,必须针对此一假设进行检验。如果虚无假设被接受,表示协方差造成的调整效果在各组内具有一致的作业,组间的差异在不同的协方差数值之下具有一致性。【1】
  

(四)单因变量分析(Univariate Tests)

      单因变量统计检验是指涉及一个因变量(one dependent variable)的检验。案例包括均值t检验、方差分析(ANOVA)、协方差分析、线性回归和广义线性模型,如二元逻辑回归。在所有这些情况下,只有一个因变量。相比之下,多元方差分析(MANOVA)、多元协方差分析(MANCOVA)和典型相关等方法都是多元统计分析中使用的多元检验(multivariate tests)的例子。【5】 


参考文献
【1】邱皓政 著 . 量化研究与统计分析:SPSS(PASW)数据分析范例解析[M]. 重庆大学出版社,2019:156-172.
【2】王孝玲. 教育统计学[M]. 上海:华东师范大学出版社, 2014:152-158.
【3】Franzen M.D. (2011) Multivariate Analysis of Variance. In: Kreutzer J.S., DeLuca J., Caplan B. (eds) Encyclopedia of Clinical Neuropsychology. Springer, New York, NY. https://doi.org/10.1007/978-0-387-79948-3_1869
【4】杜晓新. 心理与教育研究中实验设计与SPSS数据处理. 北京: 北京大学出版社, 2013:32.
【5】Zumbo B.D. (2014) Univariate Tests. In: Michalos A.C. (eds) Encyclopedia of Quality of Life and Well-Being Research. Springer, Dordrecht. https://doi.org/10.1007/978-94-007-0753-5_3110

中介调节效应分析

by 红亮 马 -

控制、调节和中介

      回归分析关心两种变量,自变量(X)和因变量(Y)的解释与预测,以X→Y表示。但如果存在一个第三变量(M),可能影响X→Y的关系时,即形成一个第三变量效果。通常,第三变量有中介(mediation)调节(moderation)控制变量(control variable)等类型。【1】
理论模型中的变量类型【4】

(一)调节效应

      调节变量影响自变量与因变量之间关系的方向(正或负)和强弱,调节变量不必是自变量的因果关系。调节作用是研究X对Y的影响时,是否会受到调节变量Z的干扰;比如开车速度(X)会对车祸可能性(Y)产生影响,这种影响关系受到是否喝酒(Z)的干扰,即喝酒时的影响幅度,与不喝酒时的影响幅度是否有着明显的不一样。【2】

  • 模型1:自变量为X,因变量为Y;其意义相对较小(有时候直接忽略此项);
  • 模型2:自变量为X和Z,因变量为Y;模型2仅在模型1的基础上加入调节变量Z;此模型的意义也较小(有时候也可直接忽略此项);
  • 模型3:自变量为X,Z和X*Z,因变量为Y;模型3在模型2的基础上加入交互项;此为核心模型,如果交互项(X*Z)呈现出显著性,则说明具有调节作用。

(二)中介效应

    中介变量则必须是自变量的果,同时也是因变量的因。中介作用是研究X对Y的影响时,是否会先通过中介变量M,再去影响Y;即是否有X->M->Y这样的关系,如果存在此种关系,则说明具有中介效应。比如工作满意度(X)会影响到创新氛围(M),再影响最终工作绩效(Y),此时创新氛围就成为了这一因果链中的中介变量。【3】


  •  模型1:自变量X和因变量Y的回归分析;目的为得到总效应c值;
  •  模型2:自变量X,中介变量M和因变量Y的回归分析;目的是得到直接效应c’值,以及中间效应过程值b;
  •  模型3:自变量X和中介变量M的回归分析;目的是得到中间效应过程值a。
  •  模型1和模型2的区别在于,模型2在模型1的基础上加入了中介变量M。

参考文献:
【1】邱皓政 著 . 量化研究与统计分析:SPSS(PASW)数据分析范例解析[M]. 重庆大学出版社,2013: 268-291.
【2】调节作用分析.  https://spssau.com/helps/questionnaire/rmoderator.html
【3】中介作用分析.  https://spssau.com/helps/questionnaire/advancedMediator.html
【4】陈晓萍,徐淑英,樊景立.  组织与管理研究的实证方法[M].  北京大学出版社,2008.

系统综述,元分析/元聚合分析-systematic review,meta analysis & meta-aggregation

by 红亮 马 -

一、理论原理

       传统文献综述通常用于回顾、讨论已有研究及存在的不足(current gaps)、新研究的原理等,特点是没有对文献如何辨别、选取以及评价的具体方法进行描述。系统性文献综述的特点是研究问题事先确定,全面检索所有相关文献,有明确纳入和排除文献的标准,有批判性分析研究质量的标准,有明确的提炼和综合研究发现的方法(定性或定量)。[1]

  1.    文献综述分类
    系统综述(systematic review)被定义为“对一个明确表述的问题的证据进行综述,使用系统和明确的方法来识别、选择和批判性评价相关的初步研究,并从综述包括的研究中提取和分析数据。”所用方法必须是可复制和透明的。[2]

    元分析(meta-analysis)与元聚合分析(meta-aggregation)都是文献综述的一种方法,都是对相关研究进行分析、评价以及综合的方法。其中,元分析专门用于对定量研究文献中的数据进行统计处理,以探索新的发现。元聚合分析,也称为meta-synthesis,是针对定性研究文献中的数据或主题编码、归类和整合,并给出行动建议。[3]

2. 文献综述操作步骤

     系统性文献综述的7个步骤:[1]

  • 组建小组(至少两名评审员,第三名评审员作为仲裁者)
  • 提问(定义一个狭窄的问题,可以使用PICO)
  • 计划(制定方案、设计方法和策略)
  • 检索/筛选(彻底、透明和可重复搜索证据/选择研究)
  • 文献管理和报告
  • 数据提取/综合相关证据
  • 总结、写作和出版

     PRISMA网站很重要,有详细的系统综述和元分析的原理声明、操作步骤、流程图等。顶级期刊Computers & Education只接受PRISMA流程的文献综述研究。[4]


二、元分析

    元分析(Meta-analysisi)是对有关同一个主题的多项独立的定量研究进行再次分析,进而得出一般性的结论。
(一)元分析的文献编码
      收集完文献之后,要逐一检查,从如下几个方面进行编码:【5】
  1. 有关文献的实质性方面。包括样本来源,人口统计学特征、个人特征,自变量、理论取向、所描述的层次、干预实施的模式等等。
  2. 量化研究的方法和步骤。包括抽样步骤或方法,调查设计,统计功效,测量的性质,数据分析形式,自变量,实验条件,控制组的性质等。
  3. 对文献的来源进行描述。
(二)资料的综合
    由于研究的目的各不相同,各项研究的指标不尽相同,因此元分析首先要将各项研究的指标转化为统一的指标,即效应量(effect sizes),它是元分析的核心概念。元分析收集的定量信息有很多类,对应每一类也存在不同的效应值。给出各个效应值之后,应该分析其分布,计算其均值,计算置信区间,对同质性进行评价(homogeneity test)。【5】
  1. 平均效应值。对这些值进行综合加权,计算合并后的平均统计量。
  2. 计算置信区间。一个平均效应值的置信区间以均值的标准误和z分布的一个临界值为基础的。
  3. 同质性检验。元分析的前提条件,即多个独立研究之间应该相似。如果各个独立的研究之间具有同质性,便可以将多个统计量进行加权合并;若不一致,可以考虑剔除特大、特小或方向相反的统计量后再综合。如果经过这一步仍然达不到要求,就不能用元分析的方法了。同质性检验的方法有图示法(直方图、茎叶图、散点图等),Q检验。【5】
    对于在研究方法存在较大差异的诸多单项研究来说,一个较好的元分析法应将这种差异考虑在内,设置必要的调节变量。另外,当代的元分析法越来越专注于效应值分布的方差,而不是这些分布的均值。也就是说关注的主要问题常常与区分出各项研究结果之间的差异的根源有关,而不是把各个结果聚焦在一起得出一个总的均值。这个关注点针对性质不同的研究结果的子群进行认真的处理,因而较少收到批评。【5】
    另外,由于元分析关注的是不同研究结果的聚集和比较,因而有必要保证对这些研究结果的比较是有意义的。这意味着这些结果必须:(1)在概念上具有可比性,即处理的是相同的因子和关系;(2)以相似的统计形式呈现。【5】

参考文献

[1] Cochrane. Background to Systematic Reviews
[2] 美国Temple大学图书馆网站:What is a Systematic Review? (详细解释了其中的7个步骤).
[3] Florczak K L . (2019). Meta-Aggregation: Just What Is It?. Nursing Science Quarterly, 32(1):11-11.
[4] PRISMA. Preferred Reporting Items for Systematic Reviews and Meta-Analyses (PRISMA)
[5] 马克·W·利普西、戴维·B·威尔逊著,刘军,吴春莺译. 元分析(Meta-analysis)方法应用指导[M]. 重庆:重庆大学出版社出版, 2019: 前言-2。

回归分析-regression analysis

by 红亮 马 -

一、理论原理

(一)回归分析的概念   

      相关表示两个变量之间的双向相互关系。如果我们将存在相关的两个变量,一个作为自变量,另外一个作为因变量,并把两者之间不十分准确、稳定的关系,用数学方程式来表达,则可利用该方程由自变量的值来估计、预测因变量的估计值,这一过程称为回归分析。可见,回归表示一个变量随另外一个变量作不同程度变化的单向关系。在存在相关的情况下,相关越高,由一个变量值预测另外一个变量值越准确,误差越小。【1】

     两个连续变量的共同变化的情形,称为共变(covariance),是连续变量关联分析的主要基础。在统计学上,涉及两个连续变量的关系多以线性关系的形式进行分析。线性关系分析是将两个变量的关系以直线方程式的原理来估计关联强度。……另一方面,回归分析则是运用变量间的关系来进行解释与预测的统计技术。在线性关系假设成立的情况下,回归分析是以直线方程式来进行统计决策与应用,又称线性回归(linear regression)。一般来说,两个变量的关系以相关系数去检验线性关联的强度,若相关达到统计显著水平,表示线性关系是有意义的,便可进行回归来进行进一步的预测与解释。【2】

(二)线性回归的特点

      1. 线性回归的类型

    (1)一元线性回归是指只有一个自变量的线性回归表示两个变量(自变量和因变量)之间有直线函数关系。一元线性回归线可以有两条:以X为自变量、Y为因变量的回归线是一条,以Y为自变量、X为因变量的回归线是另一条。确定回归线的方程称为回归方程,通式为Y=a+bX,b为回归系数,Y为估计值。 为了考察两个变量在总体内是否存在线性关系,以及回归方程对估计预测因变量的有效性如何,还需要进行显著性检验,如对回归系数进行显著性检验。【1】

    (2)多元线性回归是指有两个或两个以上自变量的线性回归,在教育研究中某一种现象的变化往往由多种因素共同作用的结果,多元线性回归比一元线性回归的用途广泛。【1】

    2. 标准化回归系数

     标准化回归系数(standardized regression coefficient),称为β系数。由于标准化的结果,β系数的数值类似于相关系数,介于-1至+1之间其绝对值越大,表示预测能力越强,正负向则代表X与Y的关系方向。【2】

    3. 回归解释力

     R2反映回归模型的解释力,即Y变量被自变量所消减的误差百分比。当R2为0时,表示自变量对因变量没有解释力;当R2为1时,表示自变量能够完全解释因变量的变异。值得注意的是,在回归分析中,研究者往往为了提高模型的解释力,不断投入解释变量,每增加一个自变量,则损失一个自由度,最后模型中无关的自变量过多,自由度太低,失去了简效性。调整后的R2(adjusted R2反映了因为自变量数目变动而导致的简效性损失的影响。如果研究者的目的在比较不同模型的解释力大小,各模型的自变量数目的差异会造成简效程度的不同,宜采用调整后的R2。【2】

    4. 回归系数的显著性检验

    回归分析除了通过R2了解整个回归方程式的预测效果,个别的回归系数β则可以用于说明预测变量对因变量的解释力,其值的大小亦需经过假设检验(F检验)来证明其显著性。【2】

    5. 回归分析的基本假设

      回归分析(线性)进行变量关系的探讨,是基于某些统计假设之下的。当这些假设被违反时,将导致偏误的发生。回归分析的基本假设包括:固定自变量假设、线性关系假设、正态性建设、误差独立性假设以及误差等分散性假设。【2】

(三)回归的分析步骤

     回归分析包括以下操作步骤:【3】  
    第一步:首先对模型情况进行分析
  •  包括模型拟合(modle fit)情况(比如R ²为0.3,则说明所有自变量可以解释因变量30%的变化原因),模型共线性问题(VIF值小于5则说明无多重共线性),是否通过F 检验(F 检验用于判定是否X中至少有一个对Y产生影响,如果呈现出显著性,则说明所有X中至少一个会对Y产生影响关系)。
第二步:分析X的显著性
  • 如果显著(p 值判断),则说明具有影响关系(解释力具有统计上的意义),反之无影响关系。
      第三步:判断X对Y的影响关系方向
  • 回归系数β值大于0说明正向影响,反之负向影响。
    第四步:其它
  • 比如对比影响程度大小(回归系数β值大小对比X对Y的影响程度大小)。
参考文献:

[1] 王孝玲. 教育统计学[M]. 上海:华东师范大学出版社, 2014:229-240.
[2] 邱皓政 著 . 量化研究与统计分析:SPSS(PASW)数据分析范例解析[M]. 重庆大学出版社,2013: 222-232.
[3] SPSSAU. 回归分析. https://spssau.com/helps/universalmethod/regression.html

卡方检验

by 红亮 马 -

一、原理

       不同于二项分布最多只能比较两组比率的差异,卡方检验可以同时处理一个因素的多种类别数据,或多种因素的多种类别数据。如男女人数或比例是否相同,学生优、良、中、差四个成绩的人数比率是否存在差异。卡方检验属于自由分布的非参数检验。【1】

(一)类别数据   

     类别数据是最基本、最普遍的一种数据类型,如性别、职称等人口学或背景变量的调查数据,以及学生对教学方法的态度(赞成、反对或没有意见)的意见调查结果等。通常,以名义尺度(定类数据)或顺序尺度(定序数据)进行测量的数据类型都是类别变量。然而,以等距或比率尺度所测量的数据(学业成绩或身高体重),虽然测量时是连续变量的形式,但如果进行分组处理,如将身高分为高、中、低三组,此时也属于类别变量的统计分析。【2】

(二)类别数据的呈现与检验

    类别数据采集之后,可以以次数分布或列联表(contingency table)的形式来整理、呈现。其中,次数分布表适用于单一类别变量的描述,而列联表适用于两个或多个类别变量的分布形式的描绘。次数也可以转化为百分比。类别变量的检验形式有:【2】
  • 适合度检验(goodness-of-fit test),检验某一变量单一类别变量)是否与某个理论分布或总体分布相符合,如学校性别比例是否为1:1。如果检验统计量未达到显著差异,则该样本在该变量的分布与理论总体无差异。【2】
  • 独立性检验(test of independence),检验两个类别变量之间的关系,例如某一群人的学历分布与性别分布的关系。如果两个类别变量的次数分布没有特殊交互作用,卡方值不显著,则两个变量相互独立;相反的,当两个类别变量次数分布具有特殊相互作用影响时,则说明这两个变量不独立,或具有相关性。【2】

(三)卡方检验

  •  类别变量的次数(或转换成百分比)分布特征,可以进行卡方检验(X2 test)。
  • 一般而言,单元格期望次数小于5时(如人数过少),可能造成统计基本假设的违反,这时需要合并单元、增加样本数或者使用校正公式。【2】
  • Kappa系数,又称同意量数(measures of agreement),适用于具有相等顺序数值的两个顺序变量的关联性分析。Kappa系数所反映的是两个顺序变量是否具有一致的等级,也就是等级一致性程度。Kappa系数可以用来计算两个评分者对同一对象是否有一样的评定的评分者信度(inter-raterreliability)。【2】

参考文献
【1】王孝玲. 教育统计学[M]. 上海:华东师范大学出版社, 2014: 171-186.
【2】邱皓政. 量化研究与统计分析:SPSS(PASW)数据分析范例解析[M]. 重庆大学出版社,2013:124-132.