难度与区分度
教育测量与评价的质量特性难度与区分度

难度的影响因素
测验项目的性质
测验目的
测验项目的性质不同,难度也会有所 不同。例如,记忆类的题目通常比分 析类的题目更容易。
测验目的不同,难度也会有所不同。 例如,选拔性测验通常比水平性测验 更难。
被试群体的水平
被试群体的水平越高,测验项目的难 度通常越低。反之,被试群体的水平 越低,测验项目的难度通常越高。
案例二:某评价体系的区分度评估
总结词
该案例介绍了如何通过区分度指标来评估某评价体系的区分度,以确定评价结果是否准确反映学生的 实际水平。
详细描述
首先,选取两个水平不同的学生群体作为参照样本。然后,根据评价体系对两个样本进行测试,并记 录每个样本在各个评价指标上的得分。接着,计算每个评价指标的区分度值,并分析其分布情况。最 后,根据区分度值的大小和分布情况,评估该评价体系的区分度是否良好。
案例三:难度与区分度的综合应用
总结词
该案例探讨了如何将难度和区分度两个 质量特性结合起来,以优化教育测量与 评价体系的设计。
VS
详细描述
首先,分析现有教育测量与评价体系的难 度和区分度情况。然后,根据分析结果, 调整试题难度和区分度指标,以提高评价 体系的准确性和可靠性。最后,通过实际 应用和验证,评估优化后的教育测量与评 价体系的效果。
难度的计算方法
通过率
通过率是指被试在测验项目上的 通过人数与总人数之比,可以直
观地反映测验项目的难度。
难度指数
难度指数是指被试在测验项目上的 平均得分与该测验项目的满分之比, 可以更准确地反映测验项目的难度。
难度曲线
难度曲线是以难度为横轴,通过率 为纵轴绘制的曲线,可以更全面地 反映测验项目的难度分布。
因素分析法
信度效度难度区分度分析

信度效度难度区分度分析在教育测量和评估领域,信度、效度、难度和区分度是四个非常重要的概念。
它们对于衡量测试的质量、评估学生的学习成果以及改进教学方法都具有至关重要的意义。
接下来,让我们逐一深入探讨这四个概念。
信度,简单来说,就是指测试结果的稳定性和可靠性。
如果我们对同一批学生在相同的条件下进行多次相同的测试,得到的结果应该是相近的。
就好比用同一把尺子去测量一个物体的长度,每次测量的结果都应该差不多。
信度主要包括重测信度、复本信度和内部一致性信度等。
重测信度是在不同时间对同一批被试进行重复测量。
比如,今天对一群学生进行了一次数学测验,一周后再用相同的测验对他们进行测试,如果两次测试的成绩相近,说明这个测验的重测信度较好。
然而,重测可能会受到记忆、练习等因素的影响。
复本信度则是使用两个平行的测验(即内容、形式、难度等方面都相似)对同一批被试进行测量。
如果两个测验的结果一致性高,就表明复本信度良好。
但要编制两个高质量的平行测验并非易事。
内部一致性信度通常通过计算测验内部各个项目之间的相关程度来衡量。
例如,一份试卷中的各个题目,如果它们在测量同一个知识点或能力方面表现出较高的一致性,那么这份试卷的内部一致性信度就比较高。
常用的计算方法有克朗巴赫α系数等。
效度是指测试能够准确测量出所要测量的东西的程度。
好比射箭要射中靶心,测验也要准确测量到我们期望测量的内容。
效度主要包括内容效度、结构效度和效标关联效度。
内容效度关注的是测验内容是否涵盖了所要考查的知识和技能范围。
比如,一场语文考试如果能够全面考查学生的字词、语法、阅读理解和写作能力,那么它在内容效度方面就表现较好。
为了确保内容效度,出题者需要对教学大纲和课程目标有清晰的理解。
结构效度考察的是测验是否能够反映出所假设的理论结构或心理特质。
比如,一个智力测验是否真正测量了智力的各个方面,而不仅仅是某些表面的表现。
这需要通过复杂的统计分析和理论研究来验证。
效标关联效度则是将测验结果与一个外在的标准进行比较。
信度难度效度区分度计算公式

信度难度效度区分度计算公式信度、难度、效度和区分度是测量学中常用的指标,用于评价测量工具的质量。
它们有着不同的计算公式,分别如下:
1. 信度的计算公式
信度是指测量工具所测得结果的稳定性和一致性。
通常使用相关系数来度量。
计算公式为:
信度 = (测量工具A和B的得分相关系数) / (测量工具A的得分方差 + 测量工具B的得分方差)
2. 难度的计算公式
难度是指测量对象的整体得分水平。
通常使用平均分数来衡量。
计算公式为:
难度 = 所有测量对象的得分总和 / 测量对象的数量
3. 效度的计算公式
效度是指测量工具是否能准确地反映出测量对象的某个特征或行为。
通常使用相关系数或回归分析来度量。
计算公式为:效度 = (测量工具得分和标准参考值的相关系数)²
4. 区分度的计算公式
区分度是指测量工具能否区分不同水平的测量对象之间的差异。
通常使用平均分数或标准差来衡量。
计算公式为:
区分度 = 不同分数段得分之间的平均差 / 总体标准差
以上就是信度、难度、效度、区分度的计算公式。
它们在测量学中都具有重要作用,可以帮助评估测量工具的质量,从而提高测量结果的可靠性和精度。
试卷难度、区分度计算方法

试卷难度、区分度计算方法温馨提示:为了简化试卷难度和区分度的计算,请使用以下简单的计算公式进行计算。
1、难度的计算(1)难度是指正确答案的比例或百分比。
这个统计量称为试题的难度或容易度。
难度一般用字母P表示,P越大表示试题越简单,P越小表示试题越难。
试题要有梯度,因此各试题的难度应有不同,这是命制试题时要加以特别考虑的。
一般认为,试题的难度指数在0.3-0.7之间比较合适,整份试卷的平均难度指数最好掌握在0.5左右,高于0.7和低于0.3的试题不能太多。
(2)计算公式:P=平均分/满分值例如:第一题平均分为8.5分,此题的满分值为10分,则第一题的难度P= 8.5÷10=0.85例:第1小题选择题满分是4分,全班50名学生中有20名学生答对,则第1小题的难度为,P=正确答案的比例或百分比=20÷50=0.4或平均分=4×20÷50=1.6P=平均分÷满分值=1.6÷4=0.4(3)关于难度的几个问题难度水平的确定是为了筛选题目。
平时测验难度要利于学生的学习,但一定的难度能增加区分度,这对全面了解、掌握学生学习情况有十分重要的作用。
难度水平的确定要考虑及格率,防止损伤学困生的自尊心。
难度水平的确定要考虑对分数分布的影响,一般以偏正态分布为前提,有时偏正态分布更能激发学生的学习积极性.2、区分度的计算区分度是指试题对被试者情况的分辨能力的大小。
一般在 -1~+1之间,值越大区分度越好。
试题的区分度在0.4以上表明此题的区分度很好,0.3 ~ 0.39表明此题的区分度较好,0.2 ~ 0.29表明此题的区分度不太好需修改,0.19以下表明此题的区分度不好应淘汰。
计算区分度的方法很多,特别需要注意的是对同一个试题的考试成绩采用不同的方法所得到的区分度的值是不同的。
为了简单计算,我们教师可以使用下面的一种方法进行计算区分度:先将分数排序,P1=27﹪高分组的难度,P2=27﹪低分组的难度区分度D =P1-P2 或区分度D=(27﹪高分组的平均分-27﹪低分组的平均分)÷满分值。
测验评价的难度与区分度

难度与区分度
在测验评价过程中常有一个难度和区分度的问题,通常所说的难度是指试题或试卷难易程度的指标,而且相对于被试的该批考生而言,其计算方法如下:
(1)客观性试题的难度计算:通常用通过率来衡量。
P=R/N×100%(P为通过率,R为答对或通过该题目的人,N为全体考生数)
(2)主观性试题的难度计算:
P=X/W×100%(P为通过率,X为被试在某一试题上的平均分,W为该题的满分)
(3)整个试卷的难度计算:试卷的难度是指一份试卷的总体难易程度,其由试卷中每道题的难度决定。
其计算办法为:将每道题目的难度与满分值相乘的积相加,然后将其总和除以试卷的满分值,所得的商即为整个试卷的难度。
区分度是指区分测验试题对考生实际水平的区分程度,其取值范围介于−1.00和+1.00之间。
(1)客观性试题的区分度计算:
D=Ph-Pl(D为区分度,Ph为高分组通过率,Pl为低分组通过率。
注:将被试依照总分从高到低排列,然后将总分最高的27%和最低的27%的被试分别定为高分组和低分组。
)
(2)主观性试题的区分度计算:
D=(XH-XL)/N(H-L)(XH为高分组总分, XL为低分组总分,H为该题最高分,L为该题最低分,N为考生总人数的25%)
(3)整个试卷的区分度计算:试卷的区分度是指一份试卷总体对学生的区分程度。
其计算办法为:将每道题目的区分度与满分值相乘的积相加,然后将其总和除以试卷的满分值,所得的商即为整个试卷的区分度。
上述标准也常是在设计测验试卷过程中所要考虑的。
关于“难度”与“区分度”的一点解

前一阶段,在参加持续教育培训课程——《有效学业评论——思想道德命题问题诊疗与剖析》的沟通时,几位老师谈到了权衡试卷质量的四个系数标准:难度、划分度、信度和效度。
这几个系数大部分同行应当在大学阶段都学习过,但由于使用频率过低,我真的说不清楚了,特别是对“难度”和“划分度”,我想好多同行可能与我有同样的感觉。
在沟通的当时,我感觉我们的思想多少都有点杂乱。
那时那刻,我深深地感悟到:看了不必定会了,会了不必定得了,得了不必定永远了!这几日,特地查了查对于“难度”和“划分度”的资料,在此与同行们共享。
一、难度1.“难度系数”反应试题的难易程度,“难度系数”也能够理解成“简单度系数”。
2.难度一般用字母P 表示, P 越大表示试题越简单, P 越小表示试题越难。
试题要有梯度,所以各试题的难度应有不一样,这是命制试题时要加以特别考虑的。
一般以为,试题的难度指数在-之间比较适合,整份试卷的均匀难度指数最好掌握在左右,高于和低于的试题不可以太多。
3.难度系数计算公式为:P=均匀分÷满分值例:第 1 小题选择题满分是 4 分,全班 50 名学生中有 20 名学生答对,则第1 小题的难度计算:均匀分 =4×20÷50=,P=均匀分÷满分值 =÷4=4.注意:( 1)难度水平确实定是为了挑选题目。
平常测试难度要利于学生的学习,但必定的难度能增添划分度,这对全面认识、掌握学生学习状况有十分重要的作用。
( 2)难度水平确实定要考虑及格率,防备损害学困生的自尊心。
(3)难度水平确实定要考虑对分数散布的影响,一般以偏正态散布为前提,有时偏正态散布更能激发学生的学习踊跃性。
二、划分度1.划分度是指试题对被试者状况的分辨能力的大小,主要用于评论以选拔为目的的选题。
2.试卷划分度反应试题划分不一样水平受试者的程度,即考出学生的不一样水平,把优异、一般、差三个层次的学生真实分别开。
划分度高的考试,优异、一般、差三个层次的学生都有必定比率,假如某一分数区间学生相对集中,高分太多或不及格太多的考试,划分度则低。
信度、效度、区分度、难度的使用
信度、效度、难度、区分度及其在试卷分析中的使用教学测量(instructional measurement)是考核教学成效的一种方法。
这是借助于一定的手段与方式,对学生的学习成绩(简称学绩)进行探察,并以一定的数量来表示的考核办法.2。
在教学测量中应注意什么(1)教学测量的目的在于考核教学成效,也就是考察教学目标的完成情况.因此,教学测量的目标应以教学目标为依据,测量目标应与教学目标一致,而不能偏离教学目标(2)教学测量的对象是学生内在的能力与品德等的形成状况,它不可能像物理测量那样直接进行,只能借助于一定的手段与方式间接进行.(3)教学成效是通过量化的学绩进行考察的。
也就是说,教学成效是以学生的学习成绩为直接考察依据的,而学绩是以一定的数量来表示的,因此命题的合理性与评分的客观性是有效教学测量的一个重要影响因素教学评价(instructional evaluation)就是依据教学目标,对学绩测验所得测量结果进行分析及解释。
它主要包含以下两个方面的工作。
(1)教学评价必须对学绩测验数据所表明的教学成效作出确切的诊断。
(2)教学评价必须对教学的成败原因进行分析,并对今后教学工作的改进方面作出明确的规定。
评价(估)的功能:为家长提供信息,为选拔提供信息,为学生提供信息,为教师提供信息,为学校(间)提供信息教学目标,有时也称为行为目标,是指对学生在一段时间教学后应该掌握的技能与概念的陈述。
❖信度信度指的是测量结果的稳定性程度,信度是衡量一个量表质量高低的重要指标.信度不高的量表是不能使用的。
3.常见的信度种类(1)重测信度(2)复本信度(3)分半信度(4)同质信度(内部一致性信度)(5)评分者信度影响信度的因素♦被试♦主试者♦施测情境♦测量工具信度是指考试的可靠性,即考试结果的可信程度。
信度高的试题很少受到外部因素的影响,对任何学生的多次测定都会产生比较稳定的、前后一致的结果。
提高试卷信度的因素大致可包括以下几种情况:(1)使用ABC卷随机抽取试题。
试卷难度系数和区分度计算方法
试卷难度系数和区分度计算方法
考试难度系数计算公式:
Dc=1-A/T
Dc:难度系数;A:考生平均得分如计算总体难度系数,则为全卷平均分;如计算单题难度系数,则为本题平均分;T:满分
举例:
总体难度系数:一份满分100分的试卷,考生平均得分78分,则难度系数为1-78/100=0.22
单题难度系数:一道题值2分的试题,考生平均得分1.5分,则难度系数为1-1.5/2=0.25
理想的难度系数以控制在0.2左右为宜.
试题区别系数计算公式:
先把成绩从高到低排序,前50%的考生为高分组,后50%为低分组,样本大的时候,也可以取前、后各20%.
Dr=2Ah-Al/T
Dr:区别系数;Ah:高分组平均分;Al:低分组平均分;T:满分.
举例:
总体区别系数:一份满分100分的试卷,高分组平均得分90分,低分组平均得分60分,则区别系数为290-60/100=1.7
单题区别系数:一道题值2分的试题,高分组平均得分1.5分,低分组平均得分0.5分,则区别系数为21.5-0.5/2=1
理想的区别系数以控制在1.5左右为宜.某些重要的、学生应知应会的必考知识点,单题难度系数允许为“0”.。
项目分析的计算(难度、区分度及其优缺点)
项目分析难度与区分度的计算一、难度难度:指项目的难易程度。
难度的计算:(一)二分法计分项目的难度计算(只有答对或答错两种情况)1、通过率用题目的通过率估计难度。
被试正确回答或通过题目的人数与总数之比。
NR p =(R 为通过人数,N 为总数) 主要用于客观题的难度计算。
优点:比较简单,适用于小规模测试。
缺点:难度的指标是根据样本水平来确定参照点的,具有相对性。
所反映的是项目的相对难度,而不是绝对难度。
此P 值易受到项目的编制技术以及受测者的经验的影响。
不够可靠。
不适用于人数较多的大规模测试中。
2、两端分组法当被试人数较多时,可将被试依照测验总分从高到低排列,分成三组,当测验总分分布符合正态分布时,高分组和低分组各占27%;分布较平坦时,应高于27%。
一般介于27%~33%之间。
)(2率分别为高、低分组通过、L H P P P P P LH +=优缺点:易受到高低分组的标准的影响。
(二)非二分法计分项目的难度1、用被试得分平均数估计对于简答题、论述题等题型,每个项目不只有答对和答错两种可能,是从0分至满分之间。
此类题常用以下计算公式:)(max max为该项目的满分的平均得分;为所有被试在该项目上X X X X P = 优缺点:按此公式计算难度时, 可用随机抽样方法, 以使样本具有代表性, 也利于统计分析。
当测验不是二值计分时,且受测者人数很多时,难度等于总分上高分组与低分组平均分之和与2倍满分之比。
max2x x x p l h +=(max ,,x x x l h 分别代表该项目上高分组,低分组的平均分;满分。
) 2、用难度的校对公式计算在多项选择题中,由于有猜测的成分,被试的得分可能被夸大,不能反映测验的难度,吉尔福德提出了一个难度矫正公式:)(11为选项的数目为实际得到的通过率,为矫正后的通过率,K P CP K KP CP --= 优点:当猜测成分占的比重较大时,不能真实反映实际情况时,适合用这个公式。
难度、区分度
难度:指题目的难易程度,或说测验的难易程度, 常以试题的通过率作为难度的指标。
难度值在0至1之间。就高考来说,难度以适中为宜, 单个试题的难度以0.3~0.7之间为好,整卷以0.5~0.6之间 为最佳。
区分度计算方法: (1)客观性试题区分度D的计算公式 D=PH-PL(PH、PL分别为试题高分组和低分组考生的 难度值)
PH、PL的计算方法同上。 例2 一次物理测试中,在100名学生中,高低分组各有27 人,其中高分组答对第一题有20人,低分组答对第一题的有 5分,这道题的区分度为: D=PH-PL=0.74-0.19=0.55
(2)主观试题(非选择题)区分度D的计算公式 D=(XH-XL)/N(H-L) (XH表示接受测验的高分段学生的总得分数,XL表示 接受测验的低分段学生的总得分数,N表示接受测验的学生 总数,H表示该题的最高得分,L表示该题的最低得分。) 整个试卷的区分度,是所有试题区分度的平均值。
2015年淮北一模化学试卷 难度、区分度简单分析
一般将难度值大于和等于0.7的试题定为容易题;大于 0.4和小于0.7的定为中档题;小于和等于0.4的试题定为难 题。命题时难度一般要按一定比例分配,如3:6:1或3: 5:2,一般说来,容易题、难度系数为0.95~0.75,中档 题为0.74~0.6,难题为0.59~0.20。
难度计算方法: (1)客观性试题难度P(这时也称通过率)计算公式: P=k/N(k为答对该题的人数,N为参加测验的总人数) (2)主观性试题难度P计算公式: P=X/M(X为试题平均得分;M为试题满分) (3) 适用于主、客观试题的计算公式:
- 1、下载文档前请自行甄别文档内容的完整性,平台不提供额外的编辑、内容补充、找答案等附加服务。
- 2、"仅部分预览"的文档,不可在线预览部分如存在完整性等问题,可反馈申请退款(可完整预览的文档不适用该条件!)。
- 3、如文档侵犯您的权益,请联系客服反馈,我们会尽快为您处理(人工客服工作时间:9:00-18:30)。
难度与区分度、信度、效度平均分(mean)表示考试分数的集中趋势的一种统计量,也是教育测量中使用最为广泛的一种统计指标。
平均分一般计算公式:(公式01)式中,为平均分;为学生I的考试分数;N为参加考试的学生数。
平均分的基本作用在于它可以作为一组分数的典型代表,其代表性优于中数、众数。
平均分数具有下列基本性质:l 平均分是由全部分数求出的。
l 每个分数与平均分的离差之和等于零,说明平均分数是各个分数的中心。
l 当分数分布呈正态时,平均分位于分布曲线的中点并和曲线的最高点相对应。
l 各个分数与平均分数的离差的平方和比各个分数与其他任何集中量数的离差的平方和都小。
难度(difficulty)难度与区分度、信度、效度并称为“考试四度”,是控制考试质量的一个重要指标,也是试卷编制中特别关注的一个要素。
难度又有试题难度和考试难度之分,前者是反映题目难易程度的量化指标,有时也称作试题难度系数,通常用该题目的答对率或平均得分率表示,而后者则是所有试题难易的综合反映,在考试分数控制、成绩解释上更为重要。
l 试题难度试题难度值与试题实际难易程度正好相反,越大表示试题越容易,而难度制越小则试题越难。
试题越难(试题难度值越小),说明能够正确解答该题的学生越少,或该题的得分越低。
主观题(答对得分、答错不得分)的试题难度用答对题目的人数与参加考试总人数的比值表示:(公式02)式中:为i试题难度,为答对该题人数,为总人数。
而试题使用连续分数计分时,试题难度则用参加考试的全体学生在该题的平均得分与该题满分的比值表示:(公式03)式中:为i试题难度,为该题平均得分,为该题满分值。
在试卷编制中,不同难度的试题在考试中扮演着不同的角色,不同难度试题的组和不但直接影响试卷难度和平均分数,进而影响对考生成绩的解释,还对成绩分布具有重要影响,从而影响考试深层的质量特性。
为了确保每一道试题在考试中发挥应有的作用,一般将试题难度值控制在一定的范围内,通常是在0.50.2之间。
l 考试难度又称试卷平均难度或加权试卷平均难度,其计算公式:(公式04)式中:P为考试难度,为i题的加权系数,为i题的试题难度。
因为, ,可以证明:(公式05)因此,计算考试平均分数后,可以通过上式方便地算出考试难度。
标准差(standard)它是描述一组分数离散情况的最常用、最可靠的统计量数,标准查核平均分一样,也是计算其他统计量数时常用的基本数据之一。
计算公式:(公式06)式中各符号与公式01意义相同。
利用标准差对试题质量进行初步评价时,主要是看学生考试分数的离散情况是否与学生以往学习成绩的实际分布一致。
如果学生学习成绩比较整齐,考试结果分数分布应相对集中,此时分数的标准差较小才符合学生的实际情况;相反,如果学生成绩参差不齐,考试分数的标准差较大才符合学生的实际情况。
只有当标准差表明的考试分数的离散情况与被测学生群体的实际情况一致时,试题质量才有可能是合格的。
区分度(discrimination)测量理论对考试的区分度十分重视,称之为判断考试是否有效的指示器,并作为评价试题质量、对试题进行筛选的主要依据。
l 区分度概念指考试对学业水平不同的学生区分程度或鉴别能力。
某一道试题在学业水平、实际能力较高的学生都能答对,而学业水平、实际能力较低的学生都答错,则认为该题目有好的区分度(试题区分度)。
具有良好区分度的试题组成的试卷,实际水平高的学生应该能够获得较好的成绩,实际水平低的学生应该不能通过获得分较低。
研究发现:当考试是以选拔为主要目的时,具备良好的区分度的考试才会满足考试效度要求;考试的信度随考试区分度的提高而增加,且前者的增加速率更快;试题的难度与区分度关系密切,在难度接近于0.5时,区分度量值接近最大,但区分度相同的考试其难度值可能不同。
在编制是卷时,难度小的试题主要区分低分组学生,难度大的试题区分高分组学生,为适应对全部参考学生都能区分,需要对试卷中全部试题的难度、区分度做综合考虑。
试题区分度与试题难度一样,属于试题库建设题目优化的控制指标,本文仅提及而不做讨论。
l 区分度计算最常用的计算方法是极端分组法,该方法计算简单,适合一般考试的总体区分度分析。
该方法是通过比较两个极端效标组(高分组和低分组)的差异来估计试题区分度的。
计算如下:(公式07)式中,为区分度,和分别为高分组、低分组学生的平均得分,M为该次考的满分值。
高分组和低分组的划分是将考试学生的成绩由高到低的顺序依次排序,然后取其上端一部分为高分组,取其下端一部分为低分组。
对于极端分组的人数应占全部被测学生多大比例要视成绩分布的具体情况而定,如果考试成绩分布符合正态分布,则高分组和低分组最佳比例均为27%;如果考试成绩分布较平坦则比例应略高于27%;反之比例可低一些;一般情况下,其比例值介于25%—33%之间。
l 测量结果的评价使用上述算法,通常考试区分度数值应大于0.2。
考试信度(reliability)评价考试结果的稳定性是用考试信度(或测验信度)估计的。
由于任何考试结果都因考试误差的客观存在而受到或多或少的影响,因此百分之百可信的考试几乎无法得到。
考试信度就是推测考试可信与否的最重要量化指标。
实际测量中多采用分半信度和同质性信度两种算法。
l 分半信度采用分半法(split-half reliability)考试信度是将考试施测于某被试总体,然后将考试分半,再求被试在每一半考试上的分数的一致性程度。
具体方法是将奇数题组成一个部分,偶数题构成奇数题的复本。
计算两半考试得分的皮尔逊相关系数(Pearson’s product moment correlation)(公式08),再采用Spearman-brown公式(公式09)矫正。
(公式08)(公式09)为皮尔逊相关系数(又称为分半信度),为矫正后的信度估计值,为配对后某对奇数题、偶数题得分值,为成对试题数目。
使用要求:①奇、偶数题目必须成对;②成对值的数目一般要大于30;③两列数据都应呈正态分布。
因此,该方法通常仅用于由选择题组成的考试。
l 同质性信度又称为考试内在一致性信度。
这种信度是以考试题目间的一致性程度作为指标。
具体方法是将考试分成若干部分,求各部分的一致性程度。
采用克伦巴赫(Cronbach)α系数进行考试信度值的估计,公式:(公式10)式中:为α系数,n为部分总数,指各部分考试分数的方差,为考试总方差。
不难看出分半法是将考试分成两部分(即n=2),并且可以证明公式12与公式11等价。
该方法估计考试信度不受题目类型限制,使用最为广泛。
l 考试信度参照值标准学业成绩考试要求考试信度估计值在0.90以上,常达到0.95;一般考试应达到0.70~0.80。
有人认为信度<0.70不能用于鉴别考生个人。
考试效度(validity)考试效度是考试误差(准确度)大小估计的一个统计学指标。
l 效度的计算考试效度最常用的方法是相关效度分析(relative validity)。
相关效度分析又称效标效度,是指考试分数与效标的相关程度。
所谓效标就是检验考试有效性的一种参照标准,通常用一次公认比较可靠或权威的考试结果表示。
效标的确定将直接影响考试效度测量结果的合理性和有效性,通常在选择效标时要求取同一批学生在考试构成、学科门类上都相近的考试数据,效标应是某一次十分成功的考试或几次成功考试的平均成绩。
由于效标效度采用考试分数和效标分数间的相关系数来表示,可以对被检测的考试进行定量化的分析比较,其意义直观,易于被理解和接受。
计算公式:(公式11)式中:、为本次考试的观测分、平均分,、为效标分、效标平均分。
l 考试效度参照值在效标选择适当,考试编制合理的情况下,通常考试效度量值应在0.4—0.7之间,考试效度值过低(低于0.3)视为无效考试。
当所选择的效标与该考试存在较大的差异时,考试效度值将严重偏低。
例如我们用数学和生物两门课程的平均成绩做效标,采用本方法对某年级多门课程进行考试效度测试,计算物理、化学、政治三门课程考试效度值,数据见表02。
表02 使用同一效标对多门课程科目的效度计算结果课程科目物理化学政治考试效度值0.5858 0.5219 0.1748结果证明:数学和生物均属于理科,不能用该两门课程数据做效标对政治考试做效度检验。
成绩分布统计通常以10分为一个分数段,统计每个分数段包含的学生数,组成成绩的频数分布(frequency distribution)统计表。
将该统计表各分数段的中值和该组学生数对应点依次制成条形图,形成中间高两边低的成绩频数分布图(图01)。
图01频数分布统计表和频数分布图各具特色,前者数据准确而后者形象直观。
当考试学生较多时,可以进一步细化分数段,如以5分为一个分数段。
成绩分布的统计是考试数据统计的一项重要工作,它可以初步了解分数分布的特征,粗略判断考试运作是否理想;对学生成绩进行初步分挡,以配合进行学生成绩的合理解释。
理想考试的成绩应该呈对称分布,高分或低分考生数量较少,中间部分数量较多,且其分档情况接近理想的分数解释。
考试成绩分布的正态性检验研究证实自然人群中个体智力分布特征为处于中等智力附近的个体数量较多,并在分布图上呈现一高峰,由中间向两端(智力低下和智力超强)数量逐渐减少,形成类似钟形的分布曲线,该曲线符合统计学上的正态分布(normal distribution)。
学生学习成绩的分布在外界条件相同情况下,因受智力影响较大,也呈正态分布。
当考试成绩分布呈正态分布时,测量效果符合自然分布规律,因此认为考试比较成功,试题质量较好。
测试学生总体学习成绩分布可以对试题质量进行粗略的评价。
l 正态分布说明测试结果与学生的实际情况一致,各种难度的项目比例合理。
l 正偏态分布说明试题难度偏高,难度较大的项目比例偏大。
呈这种分布的试题有利于将成绩优秀的学生和中等程度的学生区别开,但不利于将中等程度的学生和成绩较差的学生区别开。
l 负偏态分布说明试题难度偏低,难度较低的项目比例偏大。
呈这种分布的试题有利于将成绩较差的学生和中等程度的学生区别开,但不利于将中等程度的学生和成绩优秀的学生区别开。
l 双峰型分布说明试题存在两极分化现象,即难度偏高的和难度偏低的项目较多,而中等难度的项目偏少,项目难度的分布缺乏梯度,不够合理。
呈这种分布的试题可以区别中等程度的学生,但不利于区别出成绩优秀的学生和成绩较差的学生。
l 平坡型分布说明试题中各种难度的项目比例接近,梯度较大。
呈这种分布的试题区分度较高,但分数之间的差异偏大。
l 陡峭型分布说明试题中同等难度的项目较多,梯度偏小。
呈这种分布的试题几乎不能将不同程度的学生去分开,分数分布过于集中。
正态性检验一般采用矩法(method of moment),矩法也称动差法。