马红亮的帖子

   测量的尺度(数据类型)

一、名义尺度(nominal scale)

    名义尺度(也称类别尺度、定类数据)的测量,系针对被观察者的某一现象或特质,评估所属类型种类,并赋予一个特定的数值。如性别、籍贯、种族、婚姻状况、就读学校等。名义变量的数值仅代表不同的类别,没有任何强度、顺序、大小等数学的意义。名义尺度必须符合两个原则:互斥和完整。【1】

二、顺序尺度(ordinal scale)
    顺序尺度(也称定序数据)的测量,除了具有分类意义之外,各名义类别间存在特定的大小顺序关系。顺序变量如大学教授层级、教育程度、社会经济地位等。顺序变量的数值不仅代表不同的类别,且需反映不同类别的前后顺序关系。顺序变量由于没有特定的单位,除了大小顺序之外,数值并无数学逻辑运算的功能与意义。【1】

三、等距尺度(interval scale)
    等距尺度(间距尺度,定距数据),依据特定的单位,测量被观察者某一现象或特质。等距尺度是一种具有标准化单位的测量工具。除了具有分类、顺序意义之外,数值大小反映了两个被观察者的差距和相对距离,且可以进行数学运算,计算各种不同的统计数。如温度计量出的“温度”、考试的“学业成绩”、智力测验的“智商”等。在社会与行为科学研究中,等距尺度是最常用且最重要的一种量尺。等距尺度的另外一个特性,是其单位只是相对的零点,而无绝对零点。【1】

四、比率尺度(ratio scale)
    当一个测量尺度使用了某个标准化的单位,同时又具有绝对零点,称为比率尺度(定比数据)。如身高(公分)、体重(公斤)、工作所得(元)、年龄(岁)、住院日数、受教育年限等变量。比率变量在社会科学中也被广泛应用。比例尺度的数值与数值之间除了具有距离以反映相对位置,同时数值与数值之间的比率具有特定意义。【1】
     对于等距尺度和比率尺度这两个高层次测量变量,研究者重视的是如何将变量数值以特定的公式进一步转换成各种统计数,进行描述或推论,零点意义并非统计方法与数据处理所关心的问题,因此一般研究者不会特别区分等距与比率尺度,而将两者一视同仁,以相同的数据分析与统计方法来处理。【1】

参考文献
【1】邱皓政 著 . 量化研究与统计分析:SPSS(PASW)数据分析范例解析[M]. 重庆大学出版社,2013:22-25.

    测量的尺度(数据类型)

一、名义尺度(nominal scale)

    名义尺度(也称类别尺度、定类数据)的测量,系针对被观察者的某一现象或特质,评估所属类型种类,并赋予一个特定的数值。如性别、籍贯、种族、婚姻状况、就读学校等。名义变量的数值仅代表不同的类别,没有任何强度、顺序、大小等数学的意义。名义尺度必须符合两个原则:互斥和完整。【1】

二、顺序尺度(ordinal scale)
    顺序尺度(也称定序数据)的测量,除了具有分类意义之外,各名义类别间存在特定的大小顺序关系。顺序变量如大学教授层级、教育程度、社会经济地位等。顺序变量的数值不仅代表不同的类别,且需反映不同类别的前后顺序关系。顺序变量由于没有特定的单位,除了大小顺序之外,数值并无数学逻辑运算的功能与意义。【1】

三、等距尺度(interval scale)
    等距尺度(间距尺度,定距数据),依据特定的单位,测量被观察者某一现象或特质。等距尺度是一种具有标准化单位的测量工具。除了具有分类、顺序意义之外,数值大小反映了两个被观察者的差距和相对距离,且可以进行数学运算,计算各种不同的统计数。如温度计量出的“温度”、考试的“学业成绩”、智力测验的“智商”等。在社会与行为科学研究中,等距尺度是最常用且最重要的一种量尺。等距尺度的另外一个特性,是其单位只是相对的零点,而无绝对零点。【1】

四、比率尺度(ratio scale)
    当一个测量尺度使用了某个标准化的单位,同时又具有绝对零点,称为比率尺度(定比数据)。如身高(公分)、体重(公斤)、工作所得(元)、年龄(岁)、住院日数、受教育年限等变量。比率变量在社会科学中也被广泛应用。比例尺度的数值与数值之间除了具有距离以反映相对位置,同时数值与数值之间的比率具有特定意义。【1】
     对于等距尺度和比率尺度这两个高层次测量变量,研究者重视的是如何将变量数值以特定的公式进一步转换成各种统计数,进行描述或推论,零点意义并非统计方法与数据处理所关心的问题,因此一般研究者不会特别区分等距与比率尺度,而将两者一视同仁,以相同的数据分析与统计方法来处理。【1】

参考文献
【1】邱皓政 著 . 量化研究与统计分析:SPSS(PASW)数据分析范例解析[M]. 重庆大学出版社,2013:22-25.

 一、理论原理

     结构方程模型(structural equation modeling,简称SEM),有学者也成称之为潜在变量模型(latent variable models,LVM)。通常结构方程模型属于多变量统计(multivariate statistics),它整合了因素分析(factor analysis)与路径分析(path analysis)两种统计方法,同时检验模型中包含的显性变量、潜在变量、干扰或误差变量间的关系,进而获得自变量对因变量的直接效果、间接效果或总效果。【1】

(一)结构方程模型的类型

     结构方程模型基本上是一种验证性的方法,通常必须有理论或经验法则支持,由理论来引导,在理论导引的前提下才能建构假设模型图。即使模型的修正,也必须依据相关理论而来,它特表强调理论的合理性。结构方程模型中有两个基本的模型:测量模型和结构模型。【1】

    1. 测量模型
    测量模型由潜在变量与观察变量组成观察变量是量表或问卷等测量工具所得的数据,即各题项所测量的数据;潜在变量是观察变量间所形成的特质或抽象概念,是各题项所抽取的共同因素或概念。观察变量通常以长方形符号表示,潜在变量通常以椭圆符号表示。【1】
     在数据分析时,每个观察变量的因子载荷量越高,表示受到潜在变量影响的强度越大;因子载荷量越低,表示受到潜在变量影响的强度越小。测量模型在SEM的模型中就是一般所谓的验证性因子分析(CFA),用于检验数个测量变量可以构成潜在变量的程度。就潜在变量间关系而言,同时具有外因变量(路径分析的自变量)和内因变量属性(路径分析的因变量)的变量,称为一个中介变量(mediator)。【1】
     测量模型分析所验证的属于假设模型内在模型适配度,即模型内在质量的检验,因而测量模型可以检验模型中各因素的收敛效度或聚合效度(convergent validity)区分效度(discriminant validity)。所谓收敛效度是指测量相同潜在特质的测量指标会落在同一个共同因素上,而区别效度则是指测量不同潜在特质的测量指标会落在不同共同因素上。【1】

     2. 结构模型
       结构模型又称为因果模型、潜在变量模型(latent variable models)或线性结构关系(linear structrual relationships)。结构方程模型即是潜在变量间因果关系模型的说明,作为因的潜在变量称为外因潜在变量(潜在自变量),作为果的潜在变量称为内因潜在变量(潜在因变量)。在SEM分析模型中,只有测量模型而无结构模型的回归关系,即为验证性因素分析;相反的,只有结构模型而无测量模型,则潜在变量因果关系的探讨,相当于传统的路径分析(path analysis)。结构模型由以下特征:【1】
  • 结构方程模型的关系中,单箭头表示变量间的因果关系,双箭头表示两个潜在变量间的相关(共变关系),二者之间无因果关系。
  • 变量间关系的建立要有坚强的理论为根据,在既有的解释程度之下,能够以越少的概念和关系来呈现现象的理论越佳。
  • 模型界定时必须遵循简约原则,即能以一个比较简单的模型来解释复杂的关系。

(二)结构方程模型的案例

     结构方程模型共包括两部分结构,分别是测量关系和影响关系。比如下面这个结构方程模型,其包括四个潜变量,分别是Factor1感知质量、Factor2感知价值、Factor3顾客满意和Factor4顾客忠诚。从测量关系来看:Factor1感知质量由A1~A4共4项测量;Factor2感知价值由B1~B3共3项测量;Factor3顾客满意由C1~C3共3项测量;Factor4顾客忠诚由D1~D2共2项测量。从影响关系来看:Factor1和Factor2对于Factor3产生影响关系;Factor3对Factor4产生影响关系。【3】

   

(三)结构方程模型的参数估计方法

    1. 样本大小
     结构方程模型适用于大样本的分析,取样样本数越大,则统计分析的稳定性与各种指标的适用性也越好。一般而言,大于200以上的样本,才可以称得上是一个中型的样本。有些学者认为,每个观察变量至少10个样本或20个样本。也有研究发现,大部分的结构方程模型研究,其样本数多介于200至500之间。【1】
    2. 估计方法
    在结构方程模型中,有七种模型估计的方法,其中极大似然法(Maximum Likelihood,ML法)是最广泛应用的估计模型方法,其次是一般化最小平均法(Generalized Least Sqares,GLS法)。极大似然法和一般化最小平均法的基本假定是相同的,包括样本数要够大,观察变量是连续变量,测量指标必须是多变量正态分布,以及必须有效界定模型等。【1】
      在估计方法与样本大小的关系方面,极大似然法的样本数量最好大于500如果样本小于500,则使用一般化最小平均法来估计会获得较佳的结果。如果模型为小样本(60-120),被试人数样本比数据变量的协方差矩阵提供的方差与协方差多,采用渐进分布自由法(Asymptotically distribution-free,ADF法)所获得的估计值较佳。【1】
    Amos内设的参数估计方法为极大似然法,但ML法较不适合小样本的估计,对于小样本的SEM分析,Amos另外提供了贝氏估计法(Bayesia estimation)。【1】

(四)模型的概念化与修正

    结构方程模型的分析程序有8个步骤:模型的概念化(conceptualization)、路径图(path diagram)的建构、模型的确认(specification)、模型的辨识(identification)、参数估计、模型适配度(model fit)的评估、模型的修改(重新返回到模型的概念化)、模型的复核效化(cross-validation)。【1】
    1.模型的概念化
    模型的概念化主要是界定潜在变量间的假设关系,以形成作为统计检验的理论框架(theoretical framework)。在结构模型的界定中,研究者必须明确潜在自变量潜在因变量。其中,一些潜在因变量会直接影响其它的潜在因变量,因而又扮演起自变量的角色,这类潜在因变量称为中介变量。在结构模型概念化中,除了确认这些变量之外,还要注意:因变量的顺序,自变量与因变量、及因变量间的联结关系数目与期望方向,其中变量间期望路径系数的正负号的解释是不相同的。【1】
   2. 模型的修正
    当模型进行参数估计后,发现假设模型与观察数据的适配度不佳,研究者可能会对模型进行适当修正,修正的目的在于模型适配度的改善。模型的修正如果没有理论基础,完全是数据驱动的,则容易落入“机遇坐大”(capitalization on chance)。模型的修正就是侦测与改正叙列(specification)误差,改善模型适配。所谓叙列误差包括从模型中遗漏了适当的自变量、变量间的重要联结路径,或模型中包含了不适当的联结关系等。【1】

(五)模型适配度的统计量

    模型的适配(fit)指的是假设的理论模型与实际数据的一致性程度。在结构方程模型中,所期望获得的结果是“接受虚无假设”,因为不显著的检验结果,表示样本协方差矩阵与假设理论模型隐含的矩阵越接近,表示理论模型越能契合实证数据的结构,模型的适配度越好。假设模型与实际数据是否契合,需要同时考虑三个方面:基本适配指标(preliminary fit criteria)、整体性模型适配度指标(overall model fit)、模型内在结构适配度指标(fit of internal structural model)。【2】
    1. 模型基本适配指标
    在模型基本适配度指标方面,有以下几个准则:【2】
  •  估计参数中不能有负的误差方差;
  • 所有误差变异必须达到显著水平(t>1.96);
  • 估计参数统计量彼此间相关的绝对值不能太接近1(标准化参数系数不能≥1);
  • 潜在变量与其测量指标间的因子载荷量,最好介于0.50-0.95之间。
  • 不能有很大的标准误。  
    2. 整体模型适配度指标(模型外在质量的评估)
    整体模型的适配度指标又细分为绝对适配指标、相对适配指标以及简约适配指标,具体指标如下:【2】
  • X2(卡方值)越小,表示整体模型的因果关系与实际数据越匹配。一个统计不显著(p>0.05)的卡方值,表示接受虚无假设,表示模型的因果路径图模型与实际数据契合。
  • χ2 /df <1,表示模型过度适配;>3(较宽松值为5),表示模型适配度不佳;若值介于1-3表示模型适配度良好
  • SRMR(standardized root mean square residual)为标准化残差均方和平方根,其值介于0-1之间,数值越大表示模型的契合度越差,一般而言模型契合度可以接受的值<0.05。
  • RMSEA为渐进残差均方和平方根(root mean square error of approximation)为最重要的适配度指标,RMSEA<0.05,表示模型适配度非常好(good fit);介于0.05-0.08之间,表示模型良好,有合理适配(reasonable fit);在0.08-0.10之间,模型尚可,具有普通适配(modiocre fit);>0.10,表示模型适配欠佳(poor fit)。
  • GFI(goodness-of-fit index)为良适性适配指标,GFI介于0-1之间,相当于回归分析中的系数R2,其数值越接近1,表示模型的适配度越好。通常,GFI>0.9,表示模型路径图与实际数据有良好的适配度。
  • AGFI(adjusted goodness-of-fit index)为调整后良适性适配指标,类似于调整后R2。AGFI数值也介于0-1之间,当AGFI>0.9,表示模型路径图与实际数据有良好的适配度。
  • CFI(comparative fit index)为比较适配指数,属于增值适配度统计(假设模型与基准线模型的适配度比较),介于0(模型完全不适配)和1(模型完全适配)之间。通常CFI>0.9,表示模型路径图与实际数据有良好的适配度。
  • 其它增值适配度指标,包括NFI(normed fit index)、RFI(relative fit model)、IFI(incremental fit index)、TLI(tracker-Lewis index)也都类似于CFI,当>0.9时,适配度良好。
3. 模型内在结构适配度的评估(模型内在质量的检验)
     内在结构适配的评价包括:(1)测量模型的评价,旨在评估潜在构念的效度和信度;(2)结构模型的评价,旨在评估所理论构建阶段所界定的因果关系是否成立。结构方程模型的适配评估中,测量模型的评估应该先于结构模型的评估。
     结构模型适配度的评估包括三个方面:
  • 潜在变量间径系数所代表的参数的符号(正数或负数),是否与原先理论模型所假设的期望的影响方向相同。路径系数为正表示自变量对因变量有正向的影响,为负表示自变量对因变量有负向的影响。
  • 假设模型的所有路径系数的参数估计值均必须达到统计显著水平,即|t|>1.96,路径系数达到显著(p<0.05),表示变量间的影响存在实质性意义。
  • 多元相关的平方值(R2,越高越好,并且达到显著水平。R2越大,表示因变量被自变量解释的变异量越高。


参考文献
[1] 吴明隆. 结构方程模型——AMOS的操作与应用(第2版)[M].重庆大学出版社,2009.1-33.
[2] 吴明隆. 结构方程模型——AMOS的操作与应用(第2版)[M].重庆大学出版社,2009.37-59.

多元线性回归

(一)基本概念
     通常一个研究中,影响因变量的解释变量不止一个,此时需要建立一套包含多个解释变量的多元回归模型,同时纳入多个自变量对因变量进行解释与预测,称为多元回归(multiple regression)。基于预测(prediction)或解释(explanation)的不同目的,多元回归可区分为预测型回归与解释型回归两类: 【1】
    (1)预测型回归以建立最优方程式为目标,在操作上最常使用的变量选择方法是逐步回归法(stepwise regression)。在预测型回归研究中,解释变量的选择所考虑的是否具有最大的实务价值,而不是基于理论的适切性。
    (2)解释型回归的主要目的在于厘清研究者所关系的变量间关系,以及如何对因变量的变异提出一套具有合理解释的回归模型,一般多使用同时回归(simultaneous regression),也就是不分先后顺序,一律将解释变量纳入回归方程式,进行同时分析。在解释型回归研究中,理论的重要性不仅在于解释变量的选择与安排,也影响研究结果的解释。【1】

(二)多元回归的变量选择模式
       1. 同时回归分析
        最简单的变量处理方法,是将所有的解释变量同时纳入回归方程当中来对因变量进行影响力的估计。此时,整个回归分析仅保留一个包括全体解释变量的回归模型。一般在研究中,由于每一个解释变量对于因变量的影响都是研究者所欲探讨的对象,因此无论显著与否,都是由学术的价值与意义。同时回归分析(解释型回归)的操作步骤:(1)仔细检查各变量的相关情形,包括各解释变量与因变量的相关性(相关系数以及显著性),以及各解释变量之间的共线性问题(tolerance和VIF);(2)计算回归模型的整体解释力与显著性检验,以及检视各个变量的个别解释力。【1】
    2.  逐步回归分析
     逐步回归分析的一般做法是,投入多个解释变量后,由各变量的相关高低来决定每一个预测变量是否进入回归模型或淘汰出局,最后得到一个以最少解释变量解决最多因变量变异量的最佳回归模型。逐步回归选择变量的程序有向前法、向后法以及逐步法。其中,逐步法整合了向前法和向后法两者策略,应该比较广泛。【1】
    3. 阶层回归分析
     阶层回归分析(hierarchical regression,层次回归分析)也是一种区分成多个步骤,“逐步依序”来进行的回归分析,它由研究者基于理论或研究的需要决定解释变量进入的顺序。阶层回归分析的结果呈现方式与同时回归方法相似。先报告模型的整体解释力R2,并配合F检验的结果,说明模型解释力的统计意义。一旦显著之后,即可进行各参数的解释。所不同的是,阶层回归包含多个阶段的分析,各个阶段之间的解释力增量反映了各区组的附加解释力,是阶层分析最重要的数据之一。阶层回归是一种整合性的多层次分析策略,兼具统计决定与理论决定的变量选择程序,是一种弹性很大的回归分析策略。【1】

参考文献:
[1] 邱皓政 著 . 量化研究与统计分析:SPSS(PASW)数据分析范例解析[M]. 重庆大学出版社,2019: 241-252.

 一、理论原理

     对两个变量之间变化关系进行描述,需要用相关量。例如描述同一组学生两门学科成绩的关系,智力与学习成绩的关系,某一试题得分与试卷总分之间的关系,等等。【1】

(一)相关分析的概念

    一个研究所涉及的问题,往往同时牵涉到两个以上连续变量关系的探讨,此时两个连续变量的共同变化情形,称为共变(covariance)。在统计学上,涉及两个连续变量的关系多以线性关系(linear relationship)的形式进行分析。例如积差相关就是用来反映两个连续变量具有线性关系强度的指标;积差相关系数越大,表示线性关联越强,反之则表示线性关联越弱,此时可能变量间没有关联,或是呈现非线性关系。用以描述相关情形的量数,称为相关系数(coefficient of correlation),通常用r表示。相关系数的强度大小与意义如下所示。 【2】
  • |r| = 1.00, 完全相关; 0.70 ≤ |r| ≤ 0.99,高度相关;0.40 ≤ |r| ≤ 0.69,中度相关; 0.10 ≤ |r| ≤ 0.39,低度相关; |r| < 0.10,微弱或无相关;
  • Green and Salkind (2004) where 0.10, 0.30 and 0.50, were accepted as small, medium and large coefficients, respectively.  [4]
       相关系数的数值虽然可以反映两个连续变量关联情形的强度大小,但相关系数是否有统计上的意义,则必须通过t检验来判断。
      相关系数只能描述两个变量之间的变化方向及密切程度,并不能揭示两者之间的内在本质联系。如果要分析其内在本质联系,必须借助与这两个变量有关的专业知识。另外,存在相关的两个变量,也不一定存在因果关系相关关系中可能是因果关系,也可能不是因果关系。若拟判定存在相关的两个变量是否存在因果关系,同样需要根据有关知识、经验作进一步的分析研究。【1】

(二)相关分析的意义

       两个变量之间不精确、不稳定的变化关系称为相关关系。两个变量之间的变化关系,既表现在变化方向上,又表现在密切程度上。从变化方向来看,两个变量之间有以下几种关系:【1】

    (1)正相关。 两个变量的变化方向一致,即一个变量值变大时,另一个变量值也随之变大;一个变量值变小时,另一个变量值也随之变小,这两个变量之间的关系称为正相关。如智商与学习成绩的关系(在非智力因素基本相同的情况下)。

    (2)负相关。 两个变量的变化方向相反,即一个变量值变大时,另一个变量值随之变小;一个变量值变小时,另一个变量值随之变大,这两个变量之间的关系称为负相关。

    (3)零相关。两个变量变化方向无一定规律,即一个变量值变大时,另外一个变量值可能变大也可能变小,并且变大、变小的机会趋于相等,这两个变量之间的关系称为零相关,即两者之间无相关。

     用来描述两个变量相互之间变化方向及密切程度的数字特征量称为相关系数。一般用r表示。相关系数的数值范围是在-1到+1之间,即0≤|r|≤1。“+”号表示正相关,“-”号表示负相关。r的绝对值表示两个变量之间的密切程度(强度)。

(三)相关分析的类型

    1. 积差相关
      当两个变量都是正态连续变量,而且两者之间呈线性关系时,表示这两个变量之间的相关称为积差相关。积差相关的使用条件:【1】 积差相关通常用Pearson相关系数计算
  • 两个变量都是由测量获得的连续性数据;
  • 两个变量的总体都呈正态分布,或接近正态分布;
  • 必须是成对数据,而且每对数据之间相关独立;
  • 两个变量之间呈现线性关系,可由相关散布图的形状决定;
  • 要排除共变因素的影响若两个变量都随着一个共同因素在变化,即便计算出的积差相关系数很高,也难以判断这两个变量之间存在着高度相关
  • 样本容量n≥30,计算出的积差相关才具有有效意义。
    2. 净相关与部分相关
     在线性关系中,如果两个连续变量之间的关系,可能受到其他变量的干扰,或者研究者想要把影响这两个变量的第三个变量效果排除,可以将第三变量的效果进行统计的控制(排除)。这种统计的控制分为净相关(partical correlation,偏相关)与部分相关(part correlation)两者不同的形式。【2】

    3. 等级相关
       以等级次序排列或次序表示的变量之间的相关称为等级相关通常用Spearman相关系数计算。当两个变量中,有任一变量为顺序变量时,必须计算Spearman相关系数。【2】
      等级相关是指以等级次序排列或等级次序表示的变量之间的相关。主要用斯皮尔曼(Spearman)二列等级相关及肯德尔(Kandall)和谐系数多列等级相关。当两个变量以等级次序排列或以等级次序表示时,两个相应总体并不一定呈正态分布,样本容量也不一定大于30,表示这两个变量之间的相关,称为等级相关。例如,根据某种标准对某项成绩所评定的等级,或按某种指标的优劣程度所排列的名次等,均属于等级秩序性分数。【1】
   4. 点二系列相关
      当两个变量中,一个为连续变量,另一个为二分变量(如性别),两个变量的相关系数称为点二系列相关(point-biserial correlation)。当求取类别变量与连续变量的关联强度时,可利用η(eta)系数。【2】

参考文献:
[1] 王孝玲. 教育统计学[M]. 上海:华东师范大学出版社, 2014: 188-208.
[2] 邱皓政. 量化研究与统计分析:SPSS(PASW)数据分析范例解析[M]. 重庆大学出版社,2019:222-228.
[4] Green, S. B., & Salkind, N. J. (2004). Using SPSS for Windows and Macintosh: Analyzing and Understanding Data, 4th ed. Pearson.