由 马红亮 发起的话题

数据分析实例 -> 数据分析实例目录 -> 卡方检验

马红亮 -

一、原理

       不同于二项分布最多只能比较两组比率的差异,卡方检验可以同时处理一个因素的多种类别数据,或多种因素的多种类别数据。如男女人数或比例是否相同,学生优、良、中、差四个成绩的人数比率是否存在差异。卡方检验属于自由分布的非参数检验。【1】

(一)类别数据   

     类别数据是最基本、最普遍的一种数据类型,如性别、职称等人口学或背景变量的调查数据,以及学生对教学方法的态度(赞成、反对或没有意见)的意见调查结果等。通常,以名义尺度(定类数据)或顺序尺度(定序数据)进行测量的数据类型都是类别变量。然而,以等距或比率尺度所测量的数据(学业成绩或身高体重),虽然测量时是连续变量的形式,但如果进行分组处理,如将身高分为高、中、低三组,此时也属于类别变量的统计分析。【2】

(二)类别数据的呈现与检验

    类别数据采集之后,可以以次数分布或列联表(contingency table)的形式来整理、呈现。其中,次数分布表适用于单一类别变量的描述,而列联表适用于两个或多个类别变量的分布形式的描绘。次数也可以转化为百分比。类别变量的检验形式有:【2】
  • 适合度检验(goodness-of-fit test),检验某一变量单一类别变量)是否与某个理论分布或总体分布相符合,如学校性别比例是否为1:1。如果检验统计量未达到显著差异,则该样本在该变量的分布与理论总体无差异。【2】
  • 独立性检验(test of independence),检验两个类别变量之间的关系,例如某一群人的学历分布与性别分布的关系。如果两个类别变量的次数分布没有特殊交互作用,卡方值不显著,则两个变量相互独立;相反的,当两个类别变量次数分布具有特殊相互作用影响时,则说明这两个变量不独立,或具有相关性。【2】

(三)卡方检验

  •  类别变量的次数(或转换成百分比)分布特征,可以进行卡方检验(X2 test)。
  • 一般而言,单元格期望次数小于5时(如人数过少),可能造成统计基本假设的违反,这时需要合并单元、增加样本数或者使用校正公式。【2】
  • Kappa系数,又称同意量数(measures of agreement),适用于具有相等顺序数值的两个顺序变量的关联性分析。Kappa系数所反映的是两个顺序变量是否具有一致的等级,也就是等级一致性程度。Kappa系数可以用来计算两个评分者对同一对象是否有一样的评定的评分者信度(inter-raterreliability)。【2】

参考文献
【1】王孝玲. 教育统计学[M]. 上海:华东师范大学出版社, 2014: 171-186.
【2】邱皓政. 量化研究与统计分析:SPSS(PASW)数据分析范例解析[M]. 重庆大学出版社,2013:124-132.

一、理论原理

(一)回归分析的概念   

      相关表示两个变量之间的双向相互关系。如果我们将存在相关的两个变量,一个作为自变量,另外一个作为因变量,并把两者之间不十分准确、稳定的关系,用数学方程式来表达,则可利用该方程由自变量的值来估计、预测因变量的估计值,这一过程称为回归分析。可见,回归表示一个变量随另外一个变量作不同程度变化的单向关系。在存在相关的情况下,相关越高,由一个变量值预测另外一个变量值越准确,误差越小。【1】

     两个连续变量的共同变化的情形,称为共变(covariance),是连续变量关联分析的主要基础。在统计学上,涉及两个连续变量的关系多以线性关系的形式进行分析。线性关系分析是将两个变量的关系以直线方程式的原理来估计关联强度。……另一方面,回归分析则是运用变量间的关系来进行解释与预测的统计技术。在线性关系假设成立的情况下,回归分析是以直线方程式来进行统计决策与应用,又称线性回归(linear regression)。一般来说,两个变量的关系以相关系数去检验线性关联的强度,若相关达到统计显著水平,表示线性关系是有意义的,便可进行回归来进行进一步的预测与解释。【2】

(二)线性回归的特点

      1. 线性回归的类型

    (1)一元线性回归是指只有一个自变量的线性回归表示两个变量(自变量和因变量)之间有直线函数关系。一元线性回归线可以有两条:以X为自变量、Y为因变量的回归线是一条,以Y为自变量、X为因变量的回归线是另一条。确定回归线的方程称为回归方程,通式为Y=a+bX,b为回归系数,Y为估计值。 为了考察两个变量在总体内是否存在线性关系,以及回归方程对估计预测因变量的有效性如何,还需要进行显著性检验,如对回归系数进行显著性检验。【1】

    (2)多元线性回归是指有两个或两个以上自变量的线性回归,在教育研究中某一种现象的变化往往由多种因素共同作用的结果,多元线性回归比一元线性回归的用途广泛。【1】

    2. 标准化回归系数

     标准化回归系数(standardized regression coefficient),称为β系数。由于标准化的结果,β系数的数值类似于相关系数,介于-1至+1之间其绝对值越大,表示预测能力越强,正负向则代表X与Y的关系方向。【2】

    3. 回归解释力

     R2反映回归模型的解释力,即Y变量被自变量所消减的误差百分比。当R2为0时,表示自变量对因变量没有解释力;当R2为1时,表示自变量能够完全解释因变量的变异。值得注意的是,在回归分析中,研究者往往为了提高模型的解释力,不断投入解释变量,每增加一个自变量,则损失一个自由度,最后模型中无关的自变量过多,自由度太低,失去了简效性。调整后的R2(adjusted R2反映了因为自变量数目变动而导致的简效性损失的影响。如果研究者的目的在比较不同模型的解释力大小,各模型的自变量数目的差异会造成简效程度的不同,宜采用调整后的R2。【2】

    4. 回归系数的显著性检验

    回归分析除了通过R2了解整个回归方程式的预测效果,个别的回归系数β则可以用于说明预测变量对因变量的解释力,其值的大小亦需经过假设检验(F检验)来证明其显著性。【2】

    5. 回归分析的基本假设

      回归分析(线性)进行变量关系的探讨,是基于某些统计假设之下的。当这些假设被违反时,将导致偏误的发生。回归分析的基本假设包括:固定自变量假设、线性关系假设、正态性建设、误差独立性假设以及误差等分散性假设。【2】

(三)回归的分析步骤

     回归分析包括以下操作步骤:【3】  
    第一步:首先对模型情况进行分析
  •  包括模型拟合(modle fit)情况(比如R ²为0.3,则说明所有自变量可以解释因变量30%的变化原因),模型共线性问题(VIF值小于5则说明无多重共线性),是否通过F 检验(F 检验用于判定是否X中至少有一个对Y产生影响,如果呈现出显著性,则说明所有X中至少一个会对Y产生影响关系)。
第二步:分析X的显著性
  • 如果显著(p 值判断),则说明具有影响关系(解释力具有统计上的意义),反之无影响关系。
      第三步:判断X对Y的影响关系方向
  • 回归系数β值大于0说明正向影响,反之负向影响。
    第四步:其它
  • 比如对比影响程度大小(回归系数β值大小对比X对Y的影响程度大小)。
参考文献:

[1] 王孝玲. 教育统计学[M]. 上海:华东师范大学出版社, 2014:229-240.
[2] 邱皓政 著 . 量化研究与统计分析:SPSS(PASW)数据分析范例解析[M]. 重庆大学出版社,2013: 222-232.
[3] SPSSAU. 回归分析. https://spssau.com/helps/universalmethod/regression.html

一、理论原理

(一) 非参数检验的概念

      假设检验的方法有两种:参数检验和非参数检验。Z、t、F检验都是参数检验,它们是根据样本的信息对相应的总体参数的假设检验。这种检验是以样本所属的总体呈正态分布,两个总体方差齐性为假定条件,适用于等距变量和比率变量的数据。
      非参数检验不仅适用于非正态总体的名义变量和次序变量的数据,而且也适用于正态总体等距变量和比率变量的数据。它一般不要求样本所属的总体呈正态分布,不需要对两个总体方差做齐性的假设,计算简单,适合处理小样本数据,但其灵敏性和精确度不如参数检验[1]
      非参数检验法从实质上讲,只是检验总体分布的位置(中位数)是否相同,所以对于总体分布已知的样本也可以采用非参数检验法,但由于它不能充分利用样本内所有的数量信息,检验的效率一般要低于参数检验方法。当满足下面两个条件之一时,可以用非参数检验代替均值差检验(参数检验):[2]
  •  没有采用定距尺度,但可以安排数据的顺序(秩);
  •  样本小且不能假设具有正态分布。

(二)非参数检验的类型

    1. 符号秩次检验(Wilcoxon)
      为了克服符号检验的缺点,Wilcoxon提出了既考虑差数符号,又考虑差数大小的符号秩次检验法。当比较两个相关样本的差异时,Wilcoxon符号秩次检验法,是将两个样本每对数据差的绝对值从小到大排列,并赋予每一个差数以秩次(等级),然后再给差数记上正、负号。如果两个样本无显著性差异,正秩和与负秩和应当相等或接近相等;如果正秩和与负秩和相差较大,两个样本有显著性差异的可能性较大。当样本容量n<25时,为小样本,可采用查表法进行符号秩次检验。当n>25时,为大样本,二项分布接近正态,可用正态发布近似处理。【1】
  • Wilconxon Signed-Rank test(威尔科克森符号秩检验)用来进行配对样本(comparison within each group) )的非参数检验。如果两个数据样本来自同一对象的重复观察,则将它们匹配。使用Wilcoxon有符号秩检验,可以确定相应的数据总体分布是否相同,而无需假设它们服从正态分布。(例如对15个人的体重进行分析,再对几周后的体重数据进行分析)。用双列r相关系数(biserial r) 计算效应量。
  •  Wilcoxon rank-sum test,适用于组间比较(between-group comparison)。同样用双列r相关系数(biserial r) 计算效应量。

    2. 秩和检验(Mann-Whitney)
    当比较两个独立样本的差异时,可以采用Mann-Whitney两个人提出的秩和检验方法,由称曼-惠特尼U检验。当两个独立样本容量n1和n2都小于10,称为小样本;当两个独立样本容量n1和n2都大于10,称为大样本。【1】
    Mann-Whitney test(曼-惠特尼U检验)用来检验两组独立样本是否来自两组不同的样本。如果两个数据样本来自不同的总体,并且样本互不影响,则它们是独立的。使用Mann-Whitney-Wilcoxon检验,我们可以确定总体分布是否相同,而无需假设它们服从正态分布。

参考文献:
[1]王孝玲. 教育统计学[M]. 上海:华东师范大学出版社, 2014: 257-269.
[2]谢龙汉等. SPSS统计分析与数据挖掘(第3版). 北京: 电子工业出版社,2017.