非参数检验-(Wilcoxon & Mann-Whitney)

非参数检验-(Wilcoxon & Mann-Whitney)

by 红亮 马 -
Number of replies: 2

一、理论原理

(一) 非参数检验的概念

      假设检验的方法有两种:参数检验和非参数检验。Z、t、F检验都是参数检验,它们是根据样本的信息对相应的总体参数的假设检验。这种检验是以样本所属的总体呈正态分布,两个总体方差齐性为假定条件,适用于等距变量和比率变量的数据。
      非参数检验不仅适用于非正态总体的名义变量和次序变量的数据,而且也适用于正态总体等距变量和比率变量的数据。它一般不要求样本所属的总体呈正态分布,不需要对两个总体方差做齐性的假设,计算简单,适合处理小样本数据,但其灵敏性和精确度不如参数检验[1]
      非参数检验法从实质上讲,只是检验总体分布的位置(中位数)是否相同,所以对于总体分布已知的样本也可以采用非参数检验法,但由于它不能充分利用样本内所有的数量信息,检验的效率一般要低于参数检验方法。当满足下面两个条件之一时,可以用非参数检验代替均值差检验(参数检验):[2]
  •  没有采用定距尺度,但可以安排数据的顺序(秩);
  •  样本小且不能假设具有正态分布。

(二)非参数检验的类型

    1. 符号秩次检验(Wilcoxon)
      为了克服符号检验的缺点,Wilcoxon提出了既考虑差数符号,又考虑差数大小的符号秩次检验法。当比较两个相关样本的差异时,Wilcoxon符号秩次检验法,是将两个样本每对数据差的绝对值从小到大排列,并赋予每一个差数以秩次(等级),然后再给差数记上正、负号。如果两个样本无显著性差异,正秩和与负秩和应当相等或接近相等;如果正秩和与负秩和相差较大,两个样本有显著性差异的可能性较大。当样本容量n<25时,为小样本,可采用查表法进行符号秩次检验。当n>25时,为大样本,二项分布接近正态,可用正态发布近似处理。【1】
  • Wilconxon Signed-Rank test(威尔科克森符号秩检验)用来进行配对样本(comparison within each group) )的非参数检验。如果两个数据样本来自同一对象的重复观察,则将它们匹配。使用Wilcoxon有符号秩检验,可以确定相应的数据总体分布是否相同,而无需假设它们服从正态分布。(例如对15个人的体重进行分析,再对几周后的体重数据进行分析)。用双列r相关系数(biserial r) 计算效应量。
  •  Wilcoxon rank-sum test,适用于组间比较(between-group comparison)。同样用双列r相关系数(biserial r) 计算效应量。

    2. 秩和检验(Mann-Whitney)
    当比较两个独立样本的差异时,可以采用Mann-Whitney两个人提出的秩和检验方法,由称曼-惠特尼U检验。当两个独立样本容量n1和n2都小于10,称为小样本;当两个独立样本容量n1和n2都大于10,称为大样本。【1】
    Mann-Whitney test(曼-惠特尼U检验)用来检验两组独立样本是否来自两组不同的样本。如果两个数据样本来自不同的总体,并且样本互不影响,则它们是独立的。使用Mann-Whitney-Wilcoxon检验,我们可以确定总体分布是否相同,而无需假设它们服从正态分布。

参考文献:
[1]王孝玲. 教育统计学[M]. 上海:华东师范大学出版社, 2014: 257-269.
[2]谢龙汉等. SPSS统计分析与数据挖掘(第3版). 北京: 电子工业出版社,2017.

In reply to 红亮 马

回复: 非参数检验

by 红亮 马 -

    测量的尺度(数据类型)

一、名义尺度(nominal scale)

    名义尺度(也称类别尺度、定类数据)的测量,系针对被观察者的某一现象或特质,评估所属类型种类,并赋予一个特定的数值。如性别、籍贯、种族、婚姻状况、就读学校等。名义变量的数值仅代表不同的类别,没有任何强度、顺序、大小等数学的意义。名义尺度必须符合两个原则:互斥和完整。【1】

二、顺序尺度(ordinal scale)
    顺序尺度(也称定序数据)的测量,除了具有分类意义之外,各名义类别间存在特定的大小顺序关系。顺序变量如大学教授层级、教育程度、社会经济地位等。顺序变量的数值不仅代表不同的类别,且需反映不同类别的前后顺序关系。顺序变量由于没有特定的单位,除了大小顺序之外,数值并无数学逻辑运算的功能与意义。【1】

三、等距尺度(interval scale)
    等距尺度(间距尺度,定距数据),依据特定的单位,测量被观察者某一现象或特质。等距尺度是一种具有标准化单位的测量工具。除了具有分类、顺序意义之外,数值大小反映了两个被观察者的差距和相对距离,且可以进行数学运算,计算各种不同的统计数。如温度计量出的“温度”、考试的“学业成绩”、智力测验的“智商”等。在社会与行为科学研究中,等距尺度是最常用且最重要的一种量尺。等距尺度的另外一个特性,是其单位只是相对的零点,而无绝对零点。【1】

四、比率尺度(ratio scale)
    当一个测量尺度使用了某个标准化的单位,同时又具有绝对零点,称为比率尺度(定比数据)。如身高(公分)、体重(公斤)、工作所得(元)、年龄(岁)、住院日数、受教育年限等变量。比率变量在社会科学中也被广泛应用。比例尺度的数值与数值之间除了具有距离以反映相对位置,同时数值与数值之间的比率具有特定意义。【1】
     对于等距尺度和比率尺度这两个高层次测量变量,研究者重视的是如何将变量数值以特定的公式进一步转换成各种统计数,进行描述或推论,零点意义并非统计方法与数据处理所关心的问题,因此一般研究者不会特别区分等距与比率尺度,而将两者一视同仁,以相同的数据分析与统计方法来处理。【1】

参考文献
【1】邱皓政 著 . 量化研究与统计分析:SPSS(PASW)数据分析范例解析[M]. 重庆大学出版社,2013:22-25.

In reply to 红亮 马

回复: 非参数检验

by 红亮 马 -

二、数据分析实例


1. Wilcoxon检验(配对样本)

2. Mann-Whitney检验(独立样本)