相关分析-(correlation analysis)

相关分析-(correlation analysis)

马红亮 -
回帖数:1

 一、理论原理

     对两个变量之间变化关系进行描述,需要用相关量。例如描述同一组学生两门学科成绩的关系,智力与学习成绩的关系,某一试题得分与试卷总分之间的关系,等等。【1】

(一)相关分析的概念

    一个研究所涉及的问题,往往同时牵涉到两个以上连续变量关系的探讨,此时两个连续变量的共同变化情形,称为共变(covariance)。在统计学上,涉及两个连续变量的关系多以线性关系(linear relationship)的形式进行分析。例如积差相关就是用来反映两个连续变量具有线性关系强度的指标;积差相关系数越大,表示线性关联越强,反之则表示线性关联越弱,此时可能变量间没有关联,或是呈现非线性关系。用以描述相关情形的量数,称为相关系数(coefficient of correlation),通常用r表示。相关系数的强度大小与意义如下所示。 【2】
  • |r| = 1.00, 完全相关; 0.70 ≤ |r| ≤ 0.99,高度相关;0.40 ≤ |r| ≤ 0.69,中度相关; 0.10 ≤ |r| ≤ 0.39,低度相关; |r| < 0.10,微弱或无相关;
  • Green and Salkind (2004) where 0.10, 0.30 and 0.50, were accepted as small, medium and large coefficients, respectively.  [4]
       相关系数的数值虽然可以反映两个连续变量关联情形的强度大小,但相关系数是否有统计上的意义,则必须通过t检验来判断。
      相关系数只能描述两个变量之间的变化方向及密切程度,并不能揭示两者之间的内在本质联系。如果要分析其内在本质联系,必须借助与这两个变量有关的专业知识。另外,存在相关的两个变量,也不一定存在因果关系相关关系中可能是因果关系,也可能不是因果关系。若拟判定存在相关的两个变量是否存在因果关系,同样需要根据有关知识、经验作进一步的分析研究。【1】

(二)相关分析的意义

       两个变量之间不精确、不稳定的变化关系称为相关关系。两个变量之间的变化关系,既表现在变化方向上,又表现在密切程度上。从变化方向来看,两个变量之间有以下几种关系:【1】

    (1)正相关。 两个变量的变化方向一致,即一个变量值变大时,另一个变量值也随之变大;一个变量值变小时,另一个变量值也随之变小,这两个变量之间的关系称为正相关。如智商与学习成绩的关系(在非智力因素基本相同的情况下)。

    (2)负相关。 两个变量的变化方向相反,即一个变量值变大时,另一个变量值随之变小;一个变量值变小时,另一个变量值随之变大,这两个变量之间的关系称为负相关。

    (3)零相关。两个变量变化方向无一定规律,即一个变量值变大时,另外一个变量值可能变大也可能变小,并且变大、变小的机会趋于相等,这两个变量之间的关系称为零相关,即两者之间无相关。

     用来描述两个变量相互之间变化方向及密切程度的数字特征量称为相关系数。一般用r表示。相关系数的数值范围是在-1到+1之间,即0≤|r|≤1。“+”号表示正相关,“-”号表示负相关。r的绝对值表示两个变量之间的密切程度(强度)。

(三)相关分析的类型

    1. 积差相关
      当两个变量都是正态连续变量,而且两者之间呈线性关系时,表示这两个变量之间的相关称为积差相关。积差相关的使用条件:【1】 积差相关通常用Pearson相关系数计算
  • 两个变量都是由测量获得的连续性数据;
  • 两个变量的总体都呈正态分布,或接近正态分布;
  • 必须是成对数据,而且每对数据之间相关独立;
  • 两个变量之间呈现线性关系,可由相关散布图的形状决定;
  • 要排除共变因素的影响若两个变量都随着一个共同因素在变化,即便计算出的积差相关系数很高,也难以判断这两个变量之间存在着高度相关
  • 样本容量n≥30,计算出的积差相关才具有有效意义。
    2. 净相关与部分相关
     在线性关系中,如果两个连续变量之间的关系,可能受到其他变量的干扰,或者研究者想要把影响这两个变量的第三个变量效果排除,可以将第三变量的效果进行统计的控制(排除)。这种统计的控制分为净相关(partical correlation,偏相关)与部分相关(part correlation)两者不同的形式。【2】

    3. 等级相关
       以等级次序排列或次序表示的变量之间的相关称为等级相关通常用Spearman相关系数计算。当两个变量中,有任一变量为顺序变量时,必须计算Spearman相关系数。【2】
      等级相关是指以等级次序排列或等级次序表示的变量之间的相关。主要用斯皮尔曼(Spearman)二列等级相关及肯德尔(Kandall)和谐系数多列等级相关。当两个变量以等级次序排列或以等级次序表示时,两个相应总体并不一定呈正态分布,样本容量也不一定大于30,表示这两个变量之间的相关,称为等级相关。例如,根据某种标准对某项成绩所评定的等级,或按某种指标的优劣程度所排列的名次等,均属于等级秩序性分数。【1】
   4. 点二系列相关
      当两个变量中,一个为连续变量,另一个为二分变量(如性别),两个变量的相关系数称为点二系列相关(point-biserial correlation)。当求取类别变量与连续变量的关联强度时,可利用η(eta)系数。【2】

参考文献:
[1] 王孝玲. 教育统计学[M]. 上海:华东师范大学出版社, 2014: 188-208.
[2] 邱皓政. 量化研究与统计分析:SPSS(PASW)数据分析范例解析[M]. 重庆大学出版社,2019:222-228.
[4] Green, S. B., & Salkind, N. J. (2004). Using SPSS for Windows and Macintosh: Analyzing and Understanding Data, 4th ed. Pearson.

回复马红亮

回复: 相关分析

马红亮 -

二、数据分析实例

   
1. Pearson相关
2. Spearman相关