围绕着博士和硕士研究生以往研读的国际Top期刊发表的STEM教育文章,汇总整理文章中所用的数据分析方法等,供写学习和写作参照。    

    目录
 推荐书目:

聚类分析

马红亮 -

数据分析实例




滞后行为序列分析(LSA)

马红亮 -

二、数据分析实例





作品分析

马红亮 -

(一)编程作品分析

(二)工程作品分析



(三)绘画作品分析


  • Monteira, S.F., Jiménez-Aleixandre, M.P. & Siry, C. (2022). Scaffolding Children’s Production of Representations Along the Three Years of ECE: a Longitudinal Study. Research in Science Education, 52, 127–158. (以21名幼儿园1-3年级的学生为对象,进行了为期5个月的儿童学习科学课程实践,运用话语分析和内容分析法分析了30节课的录像以及487份绘图作品,即作品+围绕作品的课堂话语片段,探讨了儿童科学表征的发展以及教师支架的特征。)
  • Hammack, R., Vo, T. (2022). A Mixed Methods Comparison of Elementary Preservice Teachers’ Conceptualization of Teaching Engineering. Research in Science Education, 52,1335–1353.(从2所大学中选择了104名职前小学教师作为对象,共分为2个组,使用DAETT-工程教学情境的绘制测试,作为测量和评价学生对工程教育理解的工具。对这些职前教师绘画作品的分析采用已有的工程设计课堂观察量规进行编码。最后,对前后测作品的成绩采用Mann-Whitney U test进行量化分析。)
  •  Solé, C. et. al. (2023). Revisiting secondary students’ ideas about air pollution. The challenge of particulate matter. Chemistry Education Research and Practice, 2023,24, 132-142(对初中生开展了建模型教学,然后对学生教学实验干预前后所绘制的空气污染绘画作品,进行了质性的对比分析)
  • Hsu, P. S., Lee, E. M., & Smith, T. J. (2024). Exploring non-dominant youths' engineering identity through productive struggle in a making summer programEducational Technology Research and Development72, 83-107.  https://doi.org/10.1007/s11423-023-10299-w. 【以15名中学生为期1周的暑期创客夏令营活动为个案,聚焦成效性挑战对学生工程认同的影响,依据Weber的编码框架,分析了学生们的前后各类工程设计草图】

结构方程模型-Structural Equation Modeling (SEM)

马红亮 -

 一、理论原理

     结构方程模型(structural equation modeling,简称SEM),有学者也成称之为潜在变量模型(latent variable models,LVM)。通常结构方程模型属于多变量统计(multivariate statistics),它整合了因素分析(factor analysis)与路径分析(path analysis)两种统计方法,同时检验模型中包含的显性变量、潜在变量、干扰或误差变量间的关系,进而获得自变量对因变量的直接效果、间接效果或总效果。【1】

(一)结构方程模型的类型

     结构方程模型基本上是一种验证性的方法,通常必须有理论或经验法则支持,由理论来引导,在理论导引的前提下才能建构假设模型图。即使模型的修正,也必须依据相关理论而来,它特表强调理论的合理性。结构方程模型中有两个基本的模型:测量模型和结构模型。【1】

    1. 测量模型
    测量模型由潜在变量与观察变量组成观察变量是量表或问卷等测量工具所得的数据,即各题项所测量的数据;潜在变量是观察变量间所形成的特质或抽象概念,是各题项所抽取的共同因素或概念。观察变量通常以长方形符号表示,潜在变量通常以椭圆符号表示。【1】
     在数据分析时,每个观察变量的因子载荷量越高,表示受到潜在变量影响的强度越大;因子载荷量越低,表示受到潜在变量影响的强度越小。测量模型在SEM的模型中就是一般所谓的验证性因子分析(CFA),用于检验数个测量变量可以构成潜在变量的程度。就潜在变量间关系而言,同时具有外因变量(路径分析的自变量)和内因变量属性(路径分析的因变量)的变量,称为一个中介变量(mediator)。【1】
     测量模型分析所验证的属于假设模型内在模型适配度,即模型内在质量的检验,因而测量模型可以检验模型中各因素的收敛效度或聚合效度(convergent validity)区分效度(discriminant validity)。所谓收敛效度是指测量相同潜在特质的测量指标会落在同一个共同因素上,而区别效度则是指测量不同潜在特质的测量指标会落在不同共同因素上。【1】

     2. 结构模型
       结构模型又称为因果模型、潜在变量模型(latent variable models)或线性结构关系(linear structrual relationships)。结构方程模型即是潜在变量间因果关系模型的说明,作为因的潜在变量称为外因潜在变量(潜在自变量),作为果的潜在变量称为内因潜在变量(潜在因变量)。在SEM分析模型中,只有测量模型而无结构模型的回归关系,即为验证性因素分析;相反的,只有结构模型而无测量模型,则潜在变量因果关系的探讨,相当于传统的路径分析(path analysis)。结构模型由以下特征:【1】
  • 结构方程模型的关系中,单箭头表示变量间的因果关系,双箭头表示两个潜在变量间的相关(共变关系),二者之间无因果关系。
  • 变量间关系的建立要有坚强的理论为根据,在既有的解释程度之下,能够以越少的概念和关系来呈现现象的理论越佳。
  • 模型界定时必须遵循简约原则,即能以一个比较简单的模型来解释复杂的关系。

(二)结构方程模型的案例

     结构方程模型共包括两部分结构,分别是测量关系和影响关系。比如下面这个结构方程模型,其包括四个潜变量,分别是Factor1感知质量、Factor2感知价值、Factor3顾客满意和Factor4顾客忠诚。从测量关系来看:Factor1感知质量由A1~A4共4项测量;Factor2感知价值由B1~B3共3项测量;Factor3顾客满意由C1~C3共3项测量;Factor4顾客忠诚由D1~D2共2项测量。从影响关系来看:Factor1和Factor2对于Factor3产生影响关系;Factor3对Factor4产生影响关系。【3】

   

(三)结构方程模型的参数估计方法

    1. 样本大小
     结构方程模型适用于大样本的分析,取样样本数越大,则统计分析的稳定性与各种指标的适用性也越好。一般而言,大于200以上的样本,才可以称得上是一个中型的样本。有些学者认为,每个观察变量至少10个样本或20个样本。也有研究发现,大部分的结构方程模型研究,其样本数多介于200至500之间。【1】
    2. 估计方法
    在结构方程模型中,有七种模型估计的方法,其中极大似然法(Maximum Likelihood,ML法)是最广泛应用的估计模型方法,其次是一般化最小平均法(Generalized Least Sqares,GLS法)。极大似然法和一般化最小平均法的基本假定是相同的,包括样本数要够大,观察变量是连续变量,测量指标必须是多变量正态分布,以及必须有效界定模型等。【1】
      在估计方法与样本大小的关系方面,极大似然法的样本数量最好大于500如果样本小于500,则使用一般化最小平均法来估计会获得较佳的结果。如果模型为小样本(60-120),被试人数样本比数据变量的协方差矩阵提供的方差与协方差多,采用渐进分布自由法(Asymptotically distribution-free,ADF法)所获得的估计值较佳。【1】
    Amos内设的参数估计方法为极大似然法,但ML法较不适合小样本的估计,对于小样本的SEM分析,Amos另外提供了贝氏估计法(Bayesia estimation)。【1】

(四)模型的概念化与修正

    结构方程模型的分析程序有8个步骤:模型的概念化(conceptualization)、路径图(path diagram)的建构、模型的确认(specification)、模型的辨识(identification)、参数估计、模型适配度(model fit)的评估、模型的修改(重新返回到模型的概念化)、模型的复核效化(cross-validation)。【1】
    1.模型的概念化
    模型的概念化主要是界定潜在变量间的假设关系,以形成作为统计检验的理论框架(theoretical framework)。在结构模型的界定中,研究者必须明确潜在自变量潜在因变量。其中,一些潜在因变量会直接影响其它的潜在因变量,因而又扮演起自变量的角色,这类潜在因变量称为中介变量。在结构模型概念化中,除了确认这些变量之外,还要注意:因变量的顺序,自变量与因变量、及因变量间的联结关系数目与期望方向,其中变量间期望路径系数的正负号的解释是不相同的。【1】
   2. 模型的修正
    当模型进行参数估计后,发现假设模型与观察数据的适配度不佳,研究者可能会对模型进行适当修正,修正的目的在于模型适配度的改善。模型的修正如果没有理论基础,完全是数据驱动的,则容易落入“机遇坐大”(capitalization on chance)。模型的修正就是侦测与改正叙列(specification)误差,改善模型适配。所谓叙列误差包括从模型中遗漏了适当的自变量、变量间的重要联结路径,或模型中包含了不适当的联结关系等。【1】

(五)模型适配度的统计量

    模型的适配(fit)指的是假设的理论模型与实际数据的一致性程度。在结构方程模型中,所期望获得的结果是“接受虚无假设”,因为不显著的检验结果,表示样本协方差矩阵与假设理论模型隐含的矩阵越接近,表示理论模型越能契合实证数据的结构,模型的适配度越好。假设模型与实际数据是否契合,需要同时考虑三个方面:基本适配指标(preliminary fit criteria)、整体性模型适配度指标(overall model fit)、模型内在结构适配度指标(fit of internal structural model)。【2】
    1. 模型基本适配指标
    在模型基本适配度指标方面,有以下几个准则:【2】
  •  估计参数中不能有负的误差方差;
  • 所有误差变异必须达到显著水平(t>1.96);
  • 估计参数统计量彼此间相关的绝对值不能太接近1(标准化参数系数不能≥1);
  • 潜在变量与其测量指标间的因子载荷量,最好介于0.50-0.95之间。
  • 不能有很大的标准误。  
    2. 整体模型适配度指标(模型外在质量的评估)
    整体模型的适配度指标又细分为绝对适配指标、相对适配指标以及简约适配指标,具体指标如下:【2】
  • X2(卡方值)越小,表示整体模型的因果关系与实际数据越匹配。一个统计不显著(p>0.05)的卡方值,表示接受虚无假设,表示模型的因果路径图模型与实际数据契合。
  • χ2 /df <1,表示模型过度适配;>3(较宽松值为5),表示模型适配度不佳;若值介于1-3表示模型适配度良好
  • SRMR(standardized root mean square residual)为标准化残差均方和平方根,其值介于0-1之间,数值越大表示模型的契合度越差,一般而言模型契合度可以接受的值<0.05。
  • RMSEA为渐进残差均方和平方根(root mean square error of approximation)为最重要的适配度指标,RMSEA<0.05,表示模型适配度非常好(good fit);介于0.05-0.08之间,表示模型良好,有合理适配(reasonable fit);在0.08-0.10之间,模型尚可,具有普通适配(modiocre fit);>0.10,表示模型适配欠佳(poor fit)。
  • GFI(goodness-of-fit index)为良适性适配指标,GFI介于0-1之间,相当于回归分析中的系数R2,其数值越接近1,表示模型的适配度越好。通常,GFI>0.9,表示模型路径图与实际数据有良好的适配度。
  • AGFI(adjusted goodness-of-fit index)为调整后良适性适配指标,类似于调整后R2。AGFI数值也介于0-1之间,当AGFI>0.9,表示模型路径图与实际数据有良好的适配度。
  • CFI(comparative fit index)为比较适配指数,属于增值适配度统计(假设模型与基准线模型的适配度比较),介于0(模型完全不适配)和1(模型完全适配)之间。通常CFI>0.9,表示模型路径图与实际数据有良好的适配度。
  • 其它增值适配度指标,包括NFI(normed fit index)、RFI(relative fit model)、IFI(incremental fit index)、TLI(tracker-Lewis index)也都类似于CFI,当>0.9时,适配度良好。
3. 模型内在结构适配度的评估(模型内在质量的检验)
     内在结构适配的评价包括:(1)测量模型的评价,旨在评估潜在构念的效度和信度;(2)结构模型的评价,旨在评估所理论构建阶段所界定的因果关系是否成立。结构方程模型的适配评估中,测量模型的评估应该先于结构模型的评估。
     结构模型适配度的评估包括三个方面:
  • 潜在变量间径系数所代表的参数的符号(正数或负数),是否与原先理论模型所假设的期望的影响方向相同。路径系数为正表示自变量对因变量有正向的影响,为负表示自变量对因变量有负向的影响。
  • 假设模型的所有路径系数的参数估计值均必须达到统计显著水平,即|t|>1.96,路径系数达到显著(p<0.05),表示变量间的影响存在实质性意义。
  • 多元相关的平方值(R2,越高越好,并且达到显著水平。R2越大,表示因变量被自变量解释的变异量越高。


参考文献
[1] 吴明隆. 结构方程模型——AMOS的操作与应用(第2版)[M].重庆大学出版社,2009.1-33.
[2] 吴明隆. 结构方程模型——AMOS的操作与应用(第2版)[M].重庆大学出版社,2009.37-59.

非参数检验-(Wilcoxon & Mann-Whitney)

马红亮 -

一、理论原理

(一) 非参数检验的概念

      假设检验的方法有两种:参数检验和非参数检验。Z、t、F检验都是参数检验,它们是根据样本的信息对相应的总体参数的假设检验。这种检验是以样本所属的总体呈正态分布,两个总体方差齐性为假定条件,适用于等距变量和比率变量的数据。
      非参数检验不仅适用于非正态总体的名义变量和次序变量的数据,而且也适用于正态总体等距变量和比率变量的数据。它一般不要求样本所属的总体呈正态分布,不需要对两个总体方差做齐性的假设,计算简单,适合处理小样本数据,但其灵敏性和精确度不如参数检验[1]
      非参数检验法从实质上讲,只是检验总体分布的位置(中位数)是否相同,所以对于总体分布已知的样本也可以采用非参数检验法,但由于它不能充分利用样本内所有的数量信息,检验的效率一般要低于参数检验方法。当满足下面两个条件之一时,可以用非参数检验代替均值差检验(参数检验):[2]
  •  没有采用定距尺度,但可以安排数据的顺序(秩);
  •  样本小且不能假设具有正态分布。

(二)非参数检验的类型

    1. 符号秩次检验(Wilcoxon)
      为了克服符号检验的缺点,Wilcoxon提出了既考虑差数符号,又考虑差数大小的符号秩次检验法。当比较两个相关样本的差异时,Wilcoxon符号秩次检验法,是将两个样本每对数据差的绝对值从小到大排列,并赋予每一个差数以秩次(等级),然后再给差数记上正、负号。如果两个样本无显著性差异,正秩和与负秩和应当相等或接近相等;如果正秩和与负秩和相差较大,两个样本有显著性差异的可能性较大。当样本容量n<25时,为小样本,可采用查表法进行符号秩次检验。当n>25时,为大样本,二项分布接近正态,可用正态发布近似处理。【1】
  • Wilconxon Signed-Rank test(威尔科克森符号秩检验)用来进行配对样本(comparison within each group) )的非参数检验。如果两个数据样本来自同一对象的重复观察,则将它们匹配。使用Wilcoxon有符号秩检验,可以确定相应的数据总体分布是否相同,而无需假设它们服从正态分布。(例如对15个人的体重进行分析,再对几周后的体重数据进行分析)。用双列r相关系数(biserial r) 计算效应量。
  •  Wilcoxon rank-sum test,适用于组间比较(between-group comparison)。同样用双列r相关系数(biserial r) 计算效应量。

    2. 秩和检验(Mann-Whitney)
    当比较两个独立样本的差异时,可以采用Mann-Whitney两个人提出的秩和检验方法,由称曼-惠特尼U检验。当两个独立样本容量n1和n2都小于10,称为小样本;当两个独立样本容量n1和n2都大于10,称为大样本。【1】
    Mann-Whitney test(曼-惠特尼U检验)用来检验两组独立样本是否来自两组不同的样本。如果两个数据样本来自不同的总体,并且样本互不影响,则它们是独立的。使用Mann-Whitney-Wilcoxon检验,我们可以确定总体分布是否相同,而无需假设它们服从正态分布。

参考文献:
[1]王孝玲. 教育统计学[M]. 上海:华东师范大学出版社, 2014: 257-269.
[2]谢龙汉等. SPSS统计分析与数据挖掘(第3版). 北京: 电子工业出版社,2017.

配对和独立样本t检验- paired samples & independent samples t-test

马红亮 -

一、理论原理

    t检验分独立样本t检验和配对样本t检验,经常用于单组前后测实验设计(配对样本)和双组前后测实验设计(独立样本)、双组延时实验设计(独立样本)的平均值差异显著性检验中。【4】

(一)相关样本和独立样本

    1. 相关样本
    两个样本内个体之间存在着一一对应的关系,这两个样本称为相关样本。相关样本有两种情况:【1】
  • 用同一个测验对同一组被试在实验前后进行两次测验,所获得两组测验结果是相关样本。
  • 估计某些条件基本相同的原则,把被试一一匹配成对,然后将每对被试随机地分入实验组和对照组,对两组被试施行不同的实验处理之后,用同一个测验所获得的测验结果,也是相关样本。
   2. 独立样本
      在教育研究中,对同一组被试在实验前后施以同一个测验,有时会产生两次测验的效应。而挑选条件相同的对象,进行配对比较,也较为困难。因此在实际应用时,经常利用独立样本对总体平均数的差异进行检验。两个样本内的个体是随机抽取的,它们之间不存在一一对应的关系,这样的两个样本称为独立样本。【1】一般来说,如果是独立样本,则需要对两样本进行方差齐性(同质性)检验相关样本则被认为是基本同质的,只进行相关检验(correlation)。【4】

      两个样本容量都大于或等于30的独立样本称为独立大样本;两个样本容量都小于30,或其中一个小于30的独立样本称为独立小样本。

(二)t检验的概念和类型

    1. t检验的概念
      连续变量的测量数据,适合以描述统计的集中趋势量数与离散量数来描绘观察结果。连续变量的分析与检验,通常与平均数与方差的检验有关。
      在平均数检验方法中,总体的标准差是否已知,有不同的处理模式:当总体的标准差已知时,进行Z检验;当总体标准差未知时,需要使用t检验。一般而言,总体的标准差多无法得知,因此使用Z检验的机会并不多另一方面,由于t分布随着自由度的改变而改变,当n大于30时,t分布于Z分布十分接近。使用t检验其实涵盖了Z检验的应用。在数据分析实务中,多以t检验来进行单样本的平均数检验或平均数的差异检验。
      t检验有单总体平均数检验(某大学一年级新生的平均年龄19.2岁是否与全国大一新生的平均年龄18.7岁相同),双总体平均数检验(独立样本与相关样本)。独立样本的平均数检验,如某大学一年级新生男生的平均年龄21.2岁,是否与女生的平均年龄19.7岁相同。相关样本(配对样本)的平均数检验,如某一群被试参加自我效能训练方案前后的两次得分的自我效能平均数的比较。【2】

     2. 单尾与双尾检验
      当研究者只关心单一一个方向的比较关系时(如男生的数学成绩X1优于女生X2),平均数的检验仅有一个拒绝区,需使用单尾检验(one-tailed test)。当研究者并无特定方向的设定(如男生的智商与女生的智商有所不同),假设检验在两个阶段的情况下皆有可能发生,而必须设定两个拒绝区,此时即需要使用双尾检验(two-tailed test)。【2】
     采用单尾检验必须提出支持证据,除非理论文献支持单侧的概念,或是变量间的关系具有明确的线索显示必须使用单侧检验,否则需采用双侧检验来检验平均值的特性。

(三)t检验的基本假设

    1. 正态性假设(assumption of normality)

    当样本数量不足时,抽样分布即无法符合正态性分布的要求,使得假设检验的理论根据失效。双样本平均数检验中,两个平均数来自两个样本,除了样本本身的抽样分布须为正态化之外,两个平均数的差的抽样分布也必须符合正态分布。正态性的违反,会导致整个统计检验的失效,所得的结果偏失不可信。  通常使用Shapiroe-Wilk test进行正态分布假设检验。【2】

   2. 方差同质性(齐性)假设(homogeneity of variance)

       独立样本t检验的功能在于比较不同样本的平均数差异,每一个正态化样本的平均数要能够相互比较,还必须具有相似的离散情况,也就是样本的方差必须同质性(齐性),称为样本方差同质性。方差同质性假设若不成立,会使得平均数的比较存有混淆因素。
      两个独立样本方差同质性假设是否违反,可以利用Levene's test of homogeneity,以方差分析(F检验)的概念,计算两个样本方差的比值。若F检验达到显著水平,表示两个样本的方差不同质,此时需要校正公式来计算t值。 方差不齐的独立样本平均数差异的显著性检验可以用t'检验。【2】  

(四)效应量(effect size)

    效应量(effect size)是指自变量对因变量的影响力强度。最直观的效应量指标,是取平均数的差异量。平均数间差异越大,表示自变量的强度越强,称为d量数(Cohen,1988)。【3】
  • Weak |d| < 0.2;
  • Weak to moderate: 0.2 < |d| < 0.4;
  • Moderate: 0.40 < |d| < 0.65;
  • Moderate to strong: 0.65 < |d| < 0.8;
  • Strong: 0.8 < |d|.

参考文献
[1]  王孝玲. 教育统计学[M]. 上海:华东师范大学出版社, 2014: 108-118.
[2]邱皓政 著 . 量化研究与统计分析:SPSS(PASW)数据分析范例解析[M]. 重庆大学出版社,2019:143-150.
[3] Rubin A. (2012).  Statistics for evidence-based practice and evaluation. Cengage Learning.
[4] 杜晓新. 心理与教育研究中实验设计与SPSS数据处理. 北京: 北京大学出版社, 2013:15-28.