滚雪球检索的过程和步骤有什么特征,滚雪球检索有什么作用?
由 马红亮 发起的话题
CS-STEM课程教学研究专题 -> 自由讨论区 -> 什么是scoping review?
一、原理
(一)类别数据
类别数据是最基本、最普遍的一种数据类型,如性别、职称等人口学或背景变量的调查数据,以及学生对教学方法的态度(赞成、反对或没有意见)的意见调查结果等。通常,以名义尺度(定类数据)或顺序尺度(定序数据)进行测量的数据类型都是类别变量。然而,以等距或比率尺度所测量的数据(学业成绩或身高体重),虽然测量时是连续变量的形式,但如果进行分组处理,如将身高分为高、中、低三组,此时也属于类别变量的统计分析。【2】
(二)类别数据的呈现与检验
- 适合度检验(goodness-of-fit test),检验某一变量(单一类别变量)是否与某个理论分布或总体分布相符合,如学校性别比例是否为1:1。如果检验统计量未达到显著差异,则该样本在该变量的分布与理论总体无差异。【2】
- 独立性检验(test of independence),检验两个类别变量之间的关系,例如某一群人的学历分布与性别分布的关系。如果两个类别变量的次数分布没有特殊交互作用,卡方值不显著,则两个变量相互独立;相反的,当两个类别变量次数分布具有特殊相互作用影响时,则说明这两个变量不独立,或具有相关性。【2】
(三)卡方检验
- 类别变量的次数(或转换成百分比)分布特征,可以进行卡方检验(X2 test)。
- 一般而言,单元格期望次数小于5时(如人数过少),可能造成统计基本假设的违反,这时需要合并单元、增加样本数或者使用校正公式。【2】
- Kappa系数,又称同意量数(measures of agreement),适用于具有相等顺序数值的两个顺序变量的关联性分析。Kappa系数所反映的是两个顺序变量是否具有一致的等级,也就是等级一致性程度。Kappa系数可以用来计算两个评分者对同一对象是否有一样的评定的评分者信度(inter-raterreliability)。【2】
参考文献
数据分析实例 -> 数据分析实例目录 -> 回归分析-regression analysis
一、理论原理
(一)回归分析的概念
相关表示两个变量之间的双向相互关系。如果我们将存在相关的两个变量,一个作为自变量,另外一个作为因变量,并把两者之间不十分准确、稳定的关系,用数学方程式来表达,则可利用该方程由自变量的值来估计、预测因变量的估计值,这一过程称为回归分析。可见,回归表示一个变量随另外一个变量作不同程度变化的单向关系。在存在相关的情况下,相关越高,由一个变量值预测另外一个变量值越准确,误差越小。【1】
(二)线性回归的特点
1. 线性回归的类型
(1)一元线性回归是指只有一个自变量的线性回归,表示两个变量(自变量和因变量)之间有直线函数关系。一元线性回归线可以有两条:以X为自变量、Y为因变量的回归线是一条,以Y为自变量、X为因变量的回归线是另一条。确定回归线的方程称为回归方程,通式为Y=a+bX,b为回归系数,Y为估计值。 为了考察两个变量在总体内是否存在线性关系,以及回归方程对估计预测因变量的有效性如何,还需要进行显著性检验,如对回归系数进行显著性检验。【1】
(2)多元线性回归是指有两个或两个以上自变量的线性回归,在教育研究中某一种现象的变化往往由多种因素共同作用的结果,多元线性回归比一元线性回归的用途广泛。【1】
2. 标准化回归系数
标准化回归系数(standardized regression coefficient),称为β系数。由于标准化的结果,β系数的数值类似于相关系数,介于-1至+1之间,其绝对值越大,表示预测能力越强,正负向则代表X与Y的关系方向。【2】
3. 回归解释力
R2反映回归模型的解释力,即Y变量被自变量所消减的误差百分比。当R2为0时,表示自变量对因变量没有解释力;当R2为1时,表示自变量能够完全解释因变量的变异。值得注意的是,在回归分析中,研究者往往为了提高模型的解释力,不断投入解释变量,每增加一个自变量,则损失一个自由度,最后模型中无关的自变量过多,自由度太低,失去了简效性。调整后的R2(adjusted R2)反映了因为自变量数目变动而导致的简效性损失的影响。如果研究者的目的在比较不同模型的解释力大小,各模型的自变量数目的差异会造成简效程度的不同,宜采用调整后的R2。【2】
4. 回归系数的显著性检验
回归分析除了通过R2了解整个回归方程式的预测效果,个别的回归系数β则可以用于说明预测变量对因变量的解释力,其值的大小亦需经过假设检验(F检验)来证明其显著性。【2】
5. 回归分析的基本假设
回归分析(线性)进行变量关系的探讨,是基于某些统计假设之下的。当这些假设被违反时,将导致偏误的发生。回归分析的基本假设包括:固定自变量假设、线性关系假设、正态性建设、误差独立性假设以及误差等分散性假设。【2】
(三)回归的分析步骤
- 包括模型拟合(modle fit)情况(比如R ²为0.3,则说明所有自变量可以解释因变量30%的变化原因),模型共线性问题(VIF值小于5则说明无多重共线性),是否通过F 检验(F 检验用于判定是否X中至少有一个对Y产生影响,如果呈现出显著性,则说明所有X中至少一个会对Y产生影响关系)。
- 如果显著(p 值判断),则说明具有影响关系(解释力具有统计上的意义),反之无影响关系。
- 回归系数β值大于0说明正向影响,反之负向影响。
- 比如对比影响程度大小(回归系数β值大小对比X对Y的影响程度大小)。
[1] 王孝玲. 教育统计学[M]. 上海:华东师范大学出版社, 2014:229-240.
[2] 邱皓政 著 . 量化研究与统计分析:SPSS(PASW)数据分析范例解析[M]. 重庆大学出版社,2013: 222-232.
[3] SPSSAU. 回归分析. https://spssau.com/helps/universalmethod/regression.html
一、理论原理
(一) 非参数检验的概念
- 没有采用定距尺度,但可以安排数据的顺序(秩);
- 样本小且不能假设具有正态分布。
(二)非参数检验的类型
1. 符号秩次检验(Wilcoxon)
- Wilconxon Signed-Rank test(威尔科克森符号秩检验),用来进行配对样本(comparison within each group) )的非参数检验。如果两个数据样本来自同一对象的重复观察,则将它们匹配。使用Wilcoxon有符号秩检验,可以确定相应的数据总体分布是否相同,而无需假设它们服从正态分布。(例如对15个人的体重进行分析,再对几周后的体重数据进行分析)。用双列r相关系数(biserial r) 计算效应量。
- Wilcoxon rank-sum test,适用于组间比较(between-group comparison)。同样用双列r相关系数(biserial r) 计算效应量。