回归分析-regression analysis

回归分析-regression analysis

马红亮 -
回帖数:2

一、理论原理

(一)回归分析的概念   

      相关表示两个变量之间的双向相互关系。如果我们将存在相关的两个变量,一个作为自变量,另外一个作为因变量,并把两者之间不十分准确、稳定的关系,用数学方程式来表达,则可利用该方程由自变量的值来估计、预测因变量的估计值,这一过程称为回归分析。可见,回归表示一个变量随另外一个变量作不同程度变化的单向关系。在存在相关的情况下,相关越高,由一个变量值预测另外一个变量值越准确,误差越小。【1】

     两个连续变量的共同变化的情形,称为共变(covariance),是连续变量关联分析的主要基础。在统计学上,涉及两个连续变量的关系多以线性关系的形式进行分析。线性关系分析是将两个变量的关系以直线方程式的原理来估计关联强度。……另一方面,回归分析则是运用变量间的关系来进行解释与预测的统计技术。在线性关系假设成立的情况下,回归分析是以直线方程式来进行统计决策与应用,又称线性回归(linear regression)。一般来说,两个变量的关系以相关系数去检验线性关联的强度,若相关达到统计显著水平,表示线性关系是有意义的,便可进行回归来进行进一步的预测与解释。【2】

(二)线性回归的特点

      1. 线性回归的类型

    (1)一元线性回归是指只有一个自变量的线性回归表示两个变量(自变量和因变量)之间有直线函数关系。一元线性回归线可以有两条:以X为自变量、Y为因变量的回归线是一条,以Y为自变量、X为因变量的回归线是另一条。确定回归线的方程称为回归方程,通式为Y=a+bX,b为回归系数,Y为估计值。 为了考察两个变量在总体内是否存在线性关系,以及回归方程对估计预测因变量的有效性如何,还需要进行显著性检验,如对回归系数进行显著性检验。【1】

    (2)多元线性回归是指有两个或两个以上自变量的线性回归,在教育研究中某一种现象的变化往往由多种因素共同作用的结果,多元线性回归比一元线性回归的用途广泛。【1】

    2. 标准化回归系数

     标准化回归系数(standardized regression coefficient),称为β系数。由于标准化的结果,β系数的数值类似于相关系数,介于-1至+1之间其绝对值越大,表示预测能力越强,正负向则代表X与Y的关系方向。【2】

    3. 回归解释力

     R2反映回归模型的解释力,即Y变量被自变量所消减的误差百分比。当R2为0时,表示自变量对因变量没有解释力;当R2为1时,表示自变量能够完全解释因变量的变异。值得注意的是,在回归分析中,研究者往往为了提高模型的解释力,不断投入解释变量,每增加一个自变量,则损失一个自由度,最后模型中无关的自变量过多,自由度太低,失去了简效性。调整后的R2(adjusted R2反映了因为自变量数目变动而导致的简效性损失的影响。如果研究者的目的在比较不同模型的解释力大小,各模型的自变量数目的差异会造成简效程度的不同,宜采用调整后的R2。【2】

    4. 回归系数的显著性检验

    回归分析除了通过R2了解整个回归方程式的预测效果,个别的回归系数β则可以用于说明预测变量对因变量的解释力,其值的大小亦需经过假设检验(F检验)来证明其显著性。【2】

    5. 回归分析的基本假设

      回归分析(线性)进行变量关系的探讨,是基于某些统计假设之下的。当这些假设被违反时,将导致偏误的发生。回归分析的基本假设包括:固定自变量假设、线性关系假设、正态性建设、误差独立性假设以及误差等分散性假设。【2】

(三)回归的分析步骤

     回归分析包括以下操作步骤:【3】  
    第一步:首先对模型情况进行分析
  •  包括模型拟合(modle fit)情况(比如R ²为0.3,则说明所有自变量可以解释因变量30%的变化原因),模型共线性问题(VIF值小于5则说明无多重共线性),是否通过F 检验(F 检验用于判定是否X中至少有一个对Y产生影响,如果呈现出显著性,则说明所有X中至少一个会对Y产生影响关系)。
第二步:分析X的显著性
  • 如果显著(p 值判断),则说明具有影响关系(解释力具有统计上的意义),反之无影响关系。
      第三步:判断X对Y的影响关系方向
  • 回归系数β值大于0说明正向影响,反之负向影响。
    第四步:其它
  • 比如对比影响程度大小(回归系数β值大小对比X对Y的影响程度大小)。
参考文献:

[1] 王孝玲. 教育统计学[M]. 上海:华东师范大学出版社, 2014:229-240.
[2] 邱皓政 著 . 量化研究与统计分析:SPSS(PASW)数据分析范例解析[M]. 重庆大学出版社,2013: 222-232.
[3] SPSSAU. 回归分析. https://spssau.com/helps/universalmethod/regression.html

回复马红亮

回复: 回归分析-regression analysis

马红亮 -

多元线性回归

(一)基本概念
     通常一个研究中,影响因变量的解释变量不止一个,此时需要建立一套包含多个解释变量的多元回归模型,同时纳入多个自变量对因变量进行解释与预测,称为多元回归(multiple regression)。基于预测(prediction)或解释(explanation)的不同目的,多元回归可区分为预测型回归与解释型回归两类: 【1】
    (1)预测型回归以建立最优方程式为目标,在操作上最常使用的变量选择方法是逐步回归法(stepwise regression)。在预测型回归研究中,解释变量的选择所考虑的是否具有最大的实务价值,而不是基于理论的适切性。
    (2)解释型回归的主要目的在于厘清研究者所关系的变量间关系,以及如何对因变量的变异提出一套具有合理解释的回归模型,一般多使用同时回归(simultaneous regression),也就是不分先后顺序,一律将解释变量纳入回归方程式,进行同时分析。在解释型回归研究中,理论的重要性不仅在于解释变量的选择与安排,也影响研究结果的解释。【1】

(二)多元回归的变量选择模式
       1. 同时回归分析
        最简单的变量处理方法,是将所有的解释变量同时纳入回归方程当中来对因变量进行影响力的估计。此时,整个回归分析仅保留一个包括全体解释变量的回归模型。一般在研究中,由于每一个解释变量对于因变量的影响都是研究者所欲探讨的对象,因此无论显著与否,都是由学术的价值与意义。同时回归分析(解释型回归)的操作步骤:(1)仔细检查各变量的相关情形,包括各解释变量与因变量的相关性(相关系数以及显著性),以及各解释变量之间的共线性问题(tolerance和VIF);(2)计算回归模型的整体解释力与显著性检验,以及检视各个变量的个别解释力。【1】
    2.  逐步回归分析
     逐步回归分析的一般做法是,投入多个解释变量后,由各变量的相关高低来决定每一个预测变量是否进入回归模型或淘汰出局,最后得到一个以最少解释变量解决最多因变量变异量的最佳回归模型。逐步回归选择变量的程序有向前法、向后法以及逐步法。其中,逐步法整合了向前法和向后法两者策略,应该比较广泛。【1】
    3. 阶层回归分析
     阶层回归分析(hierarchical regression,层次回归分析)也是一种区分成多个步骤,“逐步依序”来进行的回归分析,它由研究者基于理论或研究的需要决定解释变量进入的顺序。阶层回归分析的结果呈现方式与同时回归方法相似。先报告模型的整体解释力R2,并配合F检验的结果,说明模型解释力的统计意义。一旦显著之后,即可进行各参数的解释。所不同的是,阶层回归包含多个阶段的分析,各个阶段之间的解释力增量反映了各区组的附加解释力,是阶层分析最重要的数据之一。阶层回归是一种整合性的多层次分析策略,兼具统计决定与理论决定的变量选择程序,是一种弹性很大的回归分析策略。【1】

参考文献:
[1] 邱皓政 著 . 量化研究与统计分析:SPSS(PASW)数据分析范例解析[M]. 重庆大学出版社,2019: 241-252.
回复马红亮

回复: 回归分析-regression analysis

马红亮 -

二、数据分析实例

1. 一元线性回归

2. 多元线性回归