一、理论原理
如果一个研究涉及心理特质、能力与态度等抽象构念的测量,首要工作是通过标准程序来开发测量工具。如果研究者所测量的对象不是构念,而是一些客观事实和态度意见(如家里有几个未成年子女,对政府的施政满意不满意),研究者可以直接就每一个题de [1]
(一)效度(validity)
1. 效度的概念
效度即测量的正确性,指测验或其他测量工具确实能够测得其所欲测量的构念(construct)之程度,亦即反映测验分数的意义为何。一般使用的效度评估方法,主要有判断法(informed judgment)与实证法(gathering of empirical evidence)两个策略,前者着重于测量特性与质量的评估,通常依赖于研究者的主观判断;实证法则根据具体客观的量化指标进行效度的评估。[1]
2. 效度的类型[1]
- 内容效度(content validity)反映测量工具本身内容范围与广度的适切程度。内容效度的评估,需针对测量工具的目的和内容,以系统的逻辑方法来分析,又称为逻辑效度。
- 表面效度(face validity),指测量工具在外显形式上的有效程度,为一群评判者主观上对于测量工具形式上有效程度的评估。内容效度强调测量内容的广度、涵盖性与丰富性,以作为外在推论的主要依据,表面效度则重视工具的外显的有效性,两者具有相辅相成之效。
- 构念效度(construct validity),指测量工具能测得一个抽象概念或特质的程度。构念效度的检验,必须建立在特定的理论基础之上,通过理论的澄清,引导出各项关于潜在特质或行为表现的基本假设,并以实证方法检验测量结果是否符合理论假设。一种与构念效度有直接关系的效度为因素效度(factorial validity),也就是一个测验或理论背后的因素结构的有效性。
- 探索性因素分析(exploratory factor analysis,EFA),主要被用来寻找一组变量背后潜藏的因素结构与关系。(1)KMO(介于0-1之间)值越大,表示变量间(题项间)的共同因素越多,Bartlett’s球形检验达到0.05显著水平,说明适合做因素分析。(2)采用主成分分析法抽取主成分(共同因素)时,通常考虑初始特征值大于1的成分,特征值大于1的因素数量即为所抽取的共同因素的个数。此外,还需要考虑因素陡坡图,取坡线突然剧升的因素,删除坡线平坦的因素。至于保留多少个共同因素,还需要参考所抽取的共同因素是否有合理性,即共同因素(每个构念)包含的题目变量最少在三题以上,题目变量所要测量的潜在特质类似且因素可以命名。(3)采用最大变异法(Varimax)进行转轴后可以得到转轴后的成分矩阵,题项按因素载荷量的高低排列(大于0.4),矩阵表中的系数可视为变量与因素的相关系数矩阵。此时需要删除题项不足3个的因素,因素载荷在不同因素均小于0.4的题项,以及因素载荷在多个因素的载荷大于0.4的题项。(4)删除因素和题项后需要重新进行探索性因子分析。[3]
- 验证性因素分析(confirmatory factor analysis, CFA)。如果在研究之初就已经提出某种特定的结构关系的假设,例如某一个概念的测量问卷由数个不同子量表组成时,此时因素分析可以被用来确认数据的模式是否就是研究者所预期的形式,称为验证性因素分析。在技术层面,CFA是结构方程模型的一种次模型。
(二)信度(reliability)
信度即是测量的可靠性,是指测量结果的一致性或稳定性。
1. 内部一致性信度
在计算测验信度时,如果直接计算测验题目内部之间的一致性,作为测验的信度指标时,称为内部一致性(coefficient of internal consistency)。
- KR20与KR21信度。库里信度(Kuder-Richardson reliability)是Kuder & Richardson(1937)提出的适用于二分题目的信度计算方法。KR20适用于各题难度不同。如果将每个题目难度都假设相同,或者研究者不重视试题难度的差异,而将试题难度设定为常数,可以用KR21来计算内部一致性系数。KR20与KR21适用于二分变量的测验类型(例如能力测验与教育测验)。
- Cronbach's a。 社会与行为科学研究中,多数测量不是对错二分的测量,而多以评定量尺作为测量工具,因此Cronbach(1951)将KR20加以修改,得到a系数。α > 0.8 表示问卷的信度良好,0.7< α < 0.8 表示问卷的信度可以接受( Blunch,2010)。
2. 评分者间信度
当测量的进行使用的工具是“人”,而非量表之时,不同的评价者可能打出不同的分数,分数误差变异的来与是评分者间的差异,若计算各得分的相关,即是评分者间信度(inter-rater reliability)。评分者间信度所反映的试不同的评分者在测验过程中进行观察、记录、评分等各方面的一致性。相关度越高,表示量表的信度越高。[1]
(三)项目分析
- 在一个对错二分的题项下,项目难度通常以所有受测者在该项题目上正确回答的百分比来表示。一个测验题目的难度以0.5为宜,此时全体受测者的分数居中,分布呈现正态。【1】
- 每个题项的权重分数为该题项的难度系数乘以原始得分,整个测验的权重分数为所有题项的权重分数之和,而不是原始分数的简单相加。【5】
- 如果是人格与态度测量(Likert量表),此时最适合作为难度指标的试题目的平均数,平均数过高或过低,代表题目过于偏激或冷涩,导致全体受测者均回答出类似的答案。【1】
- 通常做法是,将受测者的得分依照高低顺序排列,然后选出最高分(前27%)与最低分(后27%)的两群人,称为效标组。然后比较每一个题目在这两个校标组的平均得分,通过t检验分析是否达到显著的差距,称为极端组比较法。 在使用t检验时,多采用a=0.01。【1】
- DI指数是指高分组和低分组的正确率之差除以样本数量,当DI≥0.4,表示区分度良好;0.3≤DI≤0.39,表示区分度较好;0.2≤DI≤0.29,表示区分度介于边界;DI≤0.19,表示区分度比较差。【4】
参考文献
[1] 邱皓政 著 . 量化研究与统计分析:SPSS(PASW)数据分析范例解析[M]. 重庆大学出版社,2019: 301-315.
[2] SPSS. 验证性因子分析(CFA). https://spssau.com/helps/questionnaire/cfa.html
[3] 吴名隆. 问卷统计分析务实——SPSS操作与应用[M]. 重庆大学出版社,2010: 216-226.
[4] Ebel, R. L., & Frisbie, D. A. (1972). Essentials of educational measurement. Prentice-Hall.
[5] Yaşar, M., Kartal, S., & Aybek, E. C. (2021). Scoring methods for multiple choice tests: How does the item difficulty weighted scoring change student's test results? Bartın University Journal of Faculty of Education, 10(2), 309–324.