自编量表的效度和信度检验

自编量表的效度和信度检验

马红亮 -
回帖数:2

一、理论原理

    如果一个研究涉及心理特质、能力与态度等抽象构念的测量,首要工作是通过标准程序来开发测量工具。如果研究者所测量的对象不是构念,而是一些客观事实和态度意见(如家里有几个未成年子女,对政府的施政满意不满意),研究者可以直接就每一个题de [1]

(一)效度(validity)

      1. 效度的概念

    效度即测量的正确性,指测验或其他测量工具确实能够测得其所欲测量的构念(construct)之程度,亦即反映测验分数的意义为何。一般使用的效度评估方法,主要有判断法(informed judgment)与实证法(gathering of empirical evidence)两个策略,前者着重于测量特性与质量的评估,通常依赖于研究者的主观判断;实证法则根据具体客观的量化指标进行效度的评估。[1]

    2. 效度的类型[1]

  • 内容效度(content validity)反映测量工具本身内容范围与广度的适切程度。内容效度的评估,需针对测量工具的目的和内容,以系统的逻辑方法来分析,又称为逻辑效度
  • 表面效度(face validity),指测量工具在外显形式上的有效程度,为一群评判者主观上对于测量工具形式上有效程度的评估。内容效度强调测量内容的广度、涵盖性与丰富性,以作为外在推论的主要依据,表面效度则重视工具的外显的有效性,两者具有相辅相成之效。
  • 构念效度(construct validity),指测量工具能测得一个抽象概念或特质的程度。构念效度的检验,必须建立在特定的理论基础之上,通过理论的澄清,引导出各项关于潜在特质或行为表现的基本假设,并以实证方法检验测量结果是否符合理论假设。一种与构念效度有直接关系的效度为因素效度(factorial validity),也就是一个测验或理论背后的因素结构的有效性。
    3. 效度的检验

      传统上用来评估测验效度的技术主要包括相关分析、回归分析、因素分析、多重特质多重方法矩阵分析(MTMM)等。近年来,结构方程模型(SEM)在效度检验方面运用日益广泛。因素分析(factor analysis)已经成为量表编制过程中不可或缺的工具,主要用来进行构念效度的验证。因素分析分为探索性因素分析和验证性因素分析。[1]      
  • 探索性因素分析(exploratory factor analysis,EFA),主要被用来寻找一组变量背后潜藏的因素结构与关系。(1)KMO(介于0-1之间)值越大,表示变量间(题项间)的共同因素越多,Bartlett’s球形检验达到0.05显著水平,说明适合做因素分析。(2)采用主成分分析法抽取主成分(共同因素)时,通常考虑初始特征值大于1的成分,特征值大于1的因素数量即为所抽取的共同因素的个数。此外,还需要考虑因素陡坡图,取坡线突然剧升的因素,删除坡线平坦的因素。至于保留多少个共同因素,还需要参考所抽取的共同因素是否有合理性,即共同因素(每个构念)包含的题目变量最少在三题以上,题目变量所要测量的潜在特质类似且因素可以命名。(3)采用最大变异法(Varimax)进行转轴后可以得到转轴后的成分矩阵,题项按因素载荷量的高低排列(大于0.4),矩阵表中的系数可视为变量与因素的相关系数矩阵。此时需要删除题项不足3个的因素,因素载荷在不同因素均小于0.4的题项,以及因素载荷在多个因素的载荷大于0.4的题项。(4)删除因素和题项后需要重新进行探索性因子分析。[3]
  • 验证性因素分析(confirmatory factor analysis, CFA)。如果在研究之初就已经提出某种特定的结构关系的假设,例如某一个概念的测量问卷由数个不同子量表组成时,此时因素分析可以被用来确认数据的模式是否就是研究者所预期的形式,称为验证性因素分析。在技术层面,CFA是结构方程模型的一种次模型。
(二)信度(reliability)

    信度即是测量的可靠性,是指测量结果的一致性或稳定性。

   1. 内部一致性信度

    在计算测验信度时,如果直接计算测验题目内部之间的一致性,作为测验的信度指标时,称为内部一致性(coefficient of internal consistency)。

  •  KR20与KR21信度。库里信度(Kuder-Richardson reliability)是Kuder & Richardson(1937)提出的适用于二分题目的信度计算方法。KR20适用于各题难度不同。如果将每个题目难度都假设相同,或者研究者不重视试题难度的差异,而将试题难度设定为常数,可以用KR21来计算内部一致性系数。KR20与KR21适用于二分变量的测验类型(例如能力测验与教育测验)。
  • Cronbach's a。 社会与行为科学研究中,多数测量不是对错二分的测量,而多以评定量尺作为测量工具,因此Cronbach(1951)将KR20加以修改,得到a系数。α > 0.8 表示问卷的信度良好,0.7< α < 0.8 表示问卷的信度可以接受( Blunch,2010)。

  2. 评分者间信度

      当测量的进行使用的工具是“人”,而非量表之时,不同的评价者可能打出不同的分数,分数误差变异的来与是评分者间的差异,若计算各得分的相关,即是评分者间信度(inter-rater reliability)。评分者间信度所反映的试不同的评分者在测验过程中进行观察、记录、评分等各方面的一致性。相关度越高,表示量表的信度越高。[1]

(三)项目分析
    1. 项目难度
    项目难度(item difficulty)是指一个测验的试题对受测者能力水平的反映程度,主要适用于能力测验或教育测验的项目评估。
  • 在一个对错二分的题项下,项目难度通常以所有受测者在该项题目上正确回答的百分比来表示。一个测验题目的难度以0.5为宜,此时全体受测者的分数居中,分布呈现正态。【1】
  • 每个题项的权重分数为该题项的难度系数乘以原始得分,整个测验的权重分数为所有题项的权重分数之和,而不是原始分数的简单相加。【5】
  • 如果是人格与态度测量(Likert量表),此时最适合作为难度指标的试题目的平均数,平均数过高或过低,代表题目过于偏激或冷涩,导致全体受测者均回答出类似的答案。【1】
    2. 项目区分度
    项目区分度(item discrimination)反映测验题目能够正确测得受测特质的内容的程度,并能够鉴别个别差异的能力,一般用区分度指数(discrimination index,DI),也用相关系数来反映项目区分度。
  • 通常做法是,将受测者的得分依照高低顺序排列,然后选出最高分(前27%)与最低分(后27%)的两群人,称为效标组。然后比较每一个题目在这两个校标组的平均得分,通过t检验分析是否达到显著的差距,称为极端组比较法。 在使用t检验时,多采用a=0.01。【1】
  • DI指数是指高分组和低分组的正确率之差除以样本数量,当DI≥0.4,表示区分度良好;0.3≤DI≤0.39,表示区分度较好;0.2≤DI≤0.29,表示区分度介于边界;DI≤0.19,表示区分度比较差。【4】

参考文献

[1] 邱皓政 著 . 量化研究与统计分析:SPSS(PASW)数据分析范例解析[M]. 重庆大学出版社,2019: 301-315.
[2] SPSS. 验证性因子分析(CFA). https://spssau.com/helps/questionnaire/cfa.html
[3] 吴名隆. 问卷统计分析务实——SPSS操作与应用[M]. 重庆大学出版社,2010: 216-226.
[4] Ebel, R. L., & Frisbie, D. A. (1972). Essentials of educational measurement. Prentice-Hall.
[5] Yaşar, M., Kartal, S., & Aybek, E. C. (2021). Scoring methods for multiple choice tests: How does the item difficulty weighted scoring change student's test results? Bartın University Journal of Faculty of Education, 10(2), 309–324.

回复马红亮

回复: 探索性因子分析-Exploratory Factor Analysis (EFA)

马红亮 -

二、数据分析实例

(一)效度检验


1. 量化检验:探索性因素分析-Exploratory Factor Analysis (EFA)
2. 量化检验:验证性因素分析-Confirmatory Factor Analysis (CFA)
3.  量表开发:EFA & CFA
  •  Korkmaz,Ö., Çakir,R. & Özden,M.Y. (2017). A validity and reliability study of the computational thinking scales (CTS).Computers in Human Behavior,72:558-569.(因子分析分两个阶段,其中探索性因素分析的样本为726名大学生,验证性因子分析的样本为589名学生。对自编的CTS量表先进行探索性性因子分析,KMO和Bartlett值显示符合对74个原始题项进行因素分析;经过主成分分析和最大方差旋转法,发现21个题项的因子载荷在各因子维度均小于0.4,24个题项的因子载荷(大于0.4)分布在不同的因子,因此这45个题项从量表中删除,然后对剩余题项重新进行因素分析。)
  • Sun L, Hu L, Yang W, Zhou D, Wang X. (2021). STEM learning attitude predicts computational thinking skills among primary school students. Journal of  Computer Assistted Learning. 37:346–358
  • Sun L.H., Hu, L.L.,& Zhou, D.H. (2022).Programming attitudes predict computational thinking: Analysis of differences in gender and programming experience. Computers & Education,181. (依据DeVellis 的6步骤方法开发了编程态度的量表,即决定测量内容、产生测量题目、决定量表形式和效度检验过程、征求专家意见、进行试测、进行量表效度和信度检验。在试测阶段,共有1180名7年级学生参与,然后将样本随机分成两组,一组用来进行EFA, 一组进行CFA。)
  • Ng, D. T. K., Wu, W., Leung, J. K. L., Chiu, T. K. F., & Chu,S. K. W. (2023). Design and validation of the AI literacy questionnaire: The affective, behavioural, cognitive and ethical approach. British Journal of Educational Technology, 00, 1–23. https://doi.org/10.1111/bjet.13411
  • Playton, S. C., Childers, G. M., & Hite, R. L. (2023). Measuring STEM Career Awareness and Interest in Middle Childhood STEM Learners: Validation of the STEM Future-Career Interest Survey (STEM Future-CIS). Research in Science Education, 1-18.https://doi.org/10.1007/s11165-023-10131-8

4. 主观检验:文献、专家意见、试测(内容效度和表面效度)

(二)信度检验

  1. 测验量表信度
2.测验试题-项目分析



回复马红亮

回复: 自编量表的效度和信度检验

马红亮 -

    如果一个研究涉及心理特质、能力与态度等抽象构念的测量,首要工作是通过标准程序来开发测量工具。如果研究者所测量的对象不是构念,而是一些客观事实和态度意见(如家里有几个未成年子女,对政府的施政满意不满意),研究者可以直接就每一个题的作答情形进行分析,而不用涉及所谓信度和效度的问题。

量表的编制程序与步骤


一、准备阶段
   (一)文献整理与定向
     如果要自行编制测量工具,必须依赖理论或文献的引导,协助研究者进行定向的工作。
   (二)量表编制计划
     一个量表编制计划通常包括量表的名称、目的与内容、对象、测量的格式与尺度、量表的长度与时间、预试施测计划、正式施测计划、信效度分析计划、常模建立、成本估计、时间流程等。

二、预试阶段
    (一)题库编写
     一般而言,初步量表题库题目需达到最后所需题数的数倍,经过逐步删减,成为最终的正式量表题目。题目编写有几点必须注意:第一,题目不易过长,以精简、易于阅读为原则。第二,题目必须适合适用对象的阅读与理解能力。第三,使用必要措施来应对填答者的特殊作答风格与反应心向。例如利用反向题来防止填答者的草率与恶意作答。
    (二)预试(try-out)
      预试多半使用立意抽样或便利抽样,建立一个小型样本,施以预试版本测验,以决定题目的可用程度,据以删除不良的题目,决定正式量表,这个过程称之为项目分析(item analysis)。预试样本300人是有一个可以努力达到的数字。
      此外,预试也可以多种方式同时并行,例如将题目交给相关的学者专家或务实工作者,请其评估题目的优劣。通常,专家所评定的内容不仅是表面效度还有内容效度。
    (三)项目分析
      主要目的是针对预试题目进行适切性的评估。分为质的分析和量的分析。质的分析着重于题目的内容与形式的适切性讨论,量的分析主要指题目的难度与鉴别度的检验(如一般能力测验)。对于非认知测验(如人格测验与态度量表),则可以从各种量化的指标来检验项目的适切性。项目分析阶段,研究者得以剔除不良题目,提高量表的质量。

三、正式阶段
     正式施测的目的在于进行信效度的评估,决定一个测验量表的整体可用程度,并得以建立常模。

四、维护阶段
    量表的持续研究与维护工作,以提高量表的实用性。量表的另外一项工作,是持续发展余修订常模(norm),提高量表分数的使用价值。常模可以将受测者的分数轻易转换为相对分数(例如百分等级),获知相对的高低。


参考文献:
邱皓政 著 . 量化研究与统计分析:SPSS(PASW)数据分析范例解析[M]. 重庆大学出版社,2013:294--298.
【2】DeVellis, R. (2017). Scale development(4th ed.), Sage, Los Angeles, CA .

案例分析
郭颖,樊富珉,张英俊,刘宇.团体咨询师胜任力量表的编制[J].心理与行为研究,2021,19(06):809-815.