由 马红亮 发起的话题

    论文对6个假设中的3和5,进行了单因素被试间的协方差分析(A one‐way between‐subject analysis of covariance,ANCOVA)

3.4 Hypotheses 2a and 2b: Did the VR groups have higher pretest-to-posttest changes in intrinsic motivation than the text group?

    研究者为了验证两个VR组对学生内在兴趣的提升要显著高于文本组,进行了单因素协方差分析( one-way between-subject analysis of covariance (ANCOVA)),即将前测内在兴趣分数作为协变量( covariate),后测兴趣分数作为因变量(dependent variable),结果显示三组有显著差异(F(2, 100) = 7.249, p = 0.001)。接着进行两两比较,发现immersive VR比文本组要显著高(F(1, 65) = 8.995, p = 0.004),desktop VR 组也要比文本组要显著高(F(1, 68) = 10.919, p = 0.002)。


3.5 Hypotheses 3a and 3b: Did the VR groups have higher pretest-to-posttest changes in self-efficacy than the text group?

        研究者做了与3.4相同的数据统计分析。

    那么单因素协方差分析检验是什么?有什么特点?

   研究采用三角互证的混合研究设计,定量(前后测)和定性(教学设计、视频录像以及学生访谈)相结合,探索了学生使用机器人技术后STEM的参与、学习以及教学情况。参与者只有16名小学教育专业的师范生。数据分析前,一个在STEM学习变量(如STEM内容知识)表现非正常(偏离平均值8个编程差)的学生被剔除。

    研究者对STEM参与、兴趣以及学习的前后测进行定量分析时,文章都使用了配对样本t检验以及Wilconxon Signed-Rank test。

非参数检验Wilcoxon Signed-Rank test

4.2.1. Surveys(参与,含动机和兴趣)
     首先使用Shapiroe-Wilk test进行所有变量配对差异的正态分布假设检验。对于违反正态假设(normality assumption)的科学兴趣和工程兴趣两个变量,采用非参数检验Wilcoxon Signed-Rank test。其它符合正态分布的变量则采用配对样本t检验,同时计算了效应量(effect size),使用相关系数r来表示。见table 6


4.3.1. STEM knowledge assessment

    对于工程和数学知识,由于违反了正态分布的假设,因此使用Wilcoxon Signed-Rank test进行非参数检验。对于科学和技术知识,则使用配对样本t检验。见table 7


    为什么要使用Wilconxon这一非参数检验的方法。该检验方法和非参数检验的Mann-Whitney test有什么区别?

    研究采用三角互证的混合研究设计,定量(前后测)和定性(教学设计、视频录像以及学生访谈)相结合,探索了学生使用机器人技术后STEM的参与、学习以及教学情况。参与者只有16名小学教育专业的师范生。数据分析前,一个在STEM学习变量(如STEM内容知识)表现非正常(偏离平均值8个编程差)的学生被剔除。

    4.2.1. Surveys

    在对学生的STEM参与(认知参与与情感参与)的前后测比较方面,研究者使用了paired samples t-test。首先,分析了是否符合正态分布的假设,使用Shapiro–Wilk test对所有变量的配对差异进行了分析。

 

     本研究采用探索性个案研究,分三个实验组(6年级141人、7年146人、8年级121人),围绕着初中生STEM学习中的科学学习、技术使用、工程实践和数学知识,进行了知识前后测以及软件操作日志分析相结合的研究。
   
    1. 自编知识测验量表的信效度检验(3.5. Reliability and validity of the assessment instrument)

      在使用科学和数学知识测验的前后测量表方面,作者借鉴了大量的热能转换概念的量表,同时应用多种机制保证量表的效度。在内容效度方面(content validity),基于文献综述、现有量表、5名多个领域的专家意见。表面效度(face validity),又征求了2名专家的意见,考虑量表的准确性、完整性以及课程的适应性等。最后又在2名中学生进行了面对面的试测(pilot testin)。最后对量表题项进行了删减。

     那么评估内容效度和表面效度邀请的专家有什么不同?为什么不同呢

    文章围绕着5个假设,分别对动机、享受度、自我效能感、知识获取以及知识迁移的各种测量数据进行分析,尽管在表3中都使用了平均值、标准差和P值进行表述,但统计方法各不相同。例如在进行数据分析之前,作者先进行了三个组先前知识的单因素方差分析(ANOVA),发现没有显著差异,同时对三个组的性别比例进行了卡方检验,也发现没有显著差异。

3.3 Hypotheses 1a and 1b: Did the VR groups have higher enjoyment ratings than the text group?

    研究者对三组(Text /Desktop VR/Immersive VR)喜欢程度的后测进行了单因素方差分析( A one-way between-subject ANOVA),发现有显著差异(F(2, 102) = 18.93, p < .001.)。接着应用Dunnett's test进行POST hoc分析,两两比较发现,Immersive VR组和Desktop VR组都要比text组显著高。

3.6 Hypotheses 4a and 4b: Did the groups differ on the retention test?

    研究者对保持测验也做了单因素方差分析,结果发现三组没有显著差异。接着又用Dunnett's test进行事后两两比较,也发现没有显著差异。

3.7 Hypotheses 5a and 5b: Did the VR groups perform better than the text group on the behavioural transfer tests?
    研究者对两次迁移测试的成绩也做了方差分析,并进行了Dunnett's test事后检验。