。
经典测量理论(The Classical Test Theory,CTT)借用普通物理测量的类似方法,对考生回答的结果与其心理特质存在的误差进行分析,形成区分度、等值、信度、效度等概念,使用相当广泛。它的不足是信度估计不精确、难度量表与能力量表不一致。
项目反应理论(The Item Response Theory,IRT)建立在考生潜在能力的基础上,研究考生对试题的反应与其潜在能力之间的关系。优点是通过模型测试考生能力可以精确估计测量误差,对考生能力的估计不依赖于题目的特殊选择。缺点是假设过于理想,技术复杂,可操作性差。
3.难度与区分度
在经典测量理论中,难度就是考生答题时感到的困难程度,用考生群体在该题目上的通过率或得分率表示,又称为统计难度。它用0~1之间的数值表示。在等级考试中,把题目分为难、中、易三种,每个科目都有明确的难度分布细目表。每次命题后都要估计难度系数,而每次考试后再根据抽样数据统计难度,一般都比较接近0.5。在NIT中,我们把难度分为A、B、C、D四个层次:A为容易题(0.7~1之间)、B为中等偏易题(0.5~0.7之间)、C为中等偏难题(0.3~0.5之间)、D为难题(0~0.3之间)。在命题实践中,还采用了内容难度的概念,使其与考生样本无关,而由题目自身的属性决定。
区分度是区分不同水平考生能力程度的指标。不过,预先对它难作估计。
4.考试误差、信度与效度
考试作为一种测量,和其他测量一样总会存在误差。考试误差的来源有三:一是试卷质量;二是考生的水平和应试状态;三是考试的实施办法和监考控制。考试的质量不在于有无测试误差,也不可能没有测试误差,而在于对考试误差的控制程度。
考试误差有两类:随机误差和系统误差。考试过程中不可预期的偶然误差称为随机误差。由始终存在的恒定因素导致的误差称为系统误差,而命题产生的误差通常是系统误差。在考试中,对随机误差的控制程度称为考试信度,它是考试结果可靠性的指标;对系统误差和随机误差的综合控制程度称为考试效度,它是考试有效性的指标。如果试卷没有较好反映考试内容,结构不合理,语义不明确,题目太难或太易,题量太少或分布不当,都会影响考试的效度。
考试的生命在质量,质量的关键在命题。由于考试中心有制度上的保证,所以NCRE和NIT都对命题工作非常重视。相对稳定的命题队伍,人员素质较高,保证了考试的质量。相信仔细研究过NCRE考卷的朋友,一定会为它的内容准确、表达精练的“试卷美”而赏心悦