第四章 教育测量的质量指标1(信度)
第二章 教育测量的质量指标1(信度)

(二)信度指统计量与参数之间的接近程度
❖我们不妨将测量的平均值看做平均数抽样分布中的一个平 均数,真值视为平均数抽样分布的总平均数(μ),这样一 来,只要能估计出实得分数分布的标准差——测量的标准误, 就可以利用区间估计的公式,算出实测值与真值的接近程度, 从而计算出测量结果的信度。
rxx
T2 x2
测验A1 适当时距 测验A2
17
(一)稳定性系数
相关系数可以用不同方法计算,这取决于数据 的性质。最为普遍的是皮尔逊积差相关系数: NX YxY
rA1A2 [N X2( X)2] [N Y2( Y)2]
公(式 1-1)0
X为第一次测验的实得分数;
Y为第一次测验的实得分数;
N为应试者数.
18
(一)稳定性系数
用一个算术四则的速度测验12个小学生,得分 记为X,为了考察测量结果的可靠性,于3个月 后再测一次,得分记为Y,问测验结果是否可 靠?
序号 1 2 3 4 5 6 7 8 9 10 11 12 X 20 20 21 22 23 23 23 24 25 26 26 27 Y 20 21 21 20 23 23 25 25 26 26 27 29
奇数题总分 偶数题总分
X
Y
38
37
37
37
38
36
41
39
40
39
36
34
38
38
39
39
40
39
35
36
方法:分半法
30
解:把有关统计量代入公式(1-10),求相关系数
rxy (1 0 114 0 1 6 342 2 8 )3 1 (4 2 1 0 8 1 31 2 4 7 0 3 41 2 7 ) 4 4 0 .84
第四章 测验的信度与效度

复本信度的计算举例
10名学生创造力的复本测验结果
ABCDE FGH I J X1 20 19 18 18 17 16 14 12 12 10 X2 20 20 19 16 16 17 12 11 13 9
❖ 3、注意事项
要构造真正的平行测验 ❖ 复本测验必须在题目的内容、数量、形式、难度、 区分度、指导语、时限以及所用的例题、公式、测验 其它方面都相同或相似。
=0.95
• 如在评定中有相同的等级时,用下式校正。其中n为 相同等级的个数
R i2 R i 2/N
W 1 2K2N2NK n3n/12
25
四、信度对测验分数的意义 ❖ 1、解释真实分数与实得分数的相关
信度系数可以解释为测验的总变异中,真分数造成的变 异占百分之几。如,当rxx=0.90时,我们可以说实得分 数中有90%的变异是真分数造成的,仅10%来自测验的误 差。rxx=1.00,则表示完全没有测量误差,所有的变异 均来自真实分数;同样,信度系数也告诉测量的误差比 例是多少。
27
❖ 3、解释个人分数的意义(区间估计)
从信度可以解释个人分数的意义,这就是测量标准误的 应用。它有两个作用 其一是估计真实分数的范围;其 二是了解实得分数再测时可能的变化情形。
28
❖ 由于误差的存在,一个人通过测量得到的分数很难 等于真分数。理论上,我们可以对一个人施测无数 次,然后求得所得分数的平均数和标准差。在这个 假设的分布里,平均数就是这个人的真分数,标准 差则为误差大小的指标。
rxx= 2rhh 1 rhh
18
变异数不相等:
弗朗那根(Flanagan)公式:
rxx=2
1
sa2
sx2
sb2
《教育测量与评价》客观答案

《教育测量与评价》考查复习内容201406一、概念解释教育评价、测验的信度、形成性测量与评价、诊断性测量与评价教育评价:是指按照一定的价值标准和教育目标,利用测量或非测量的方法系统地收集资料信息,对教育的发展变化及其影响教育发展变化的各种要素进行价值分析和价值判断,并为教育决策提供依据的过程。
测验的信度:即测验的可靠性,指的是测量的一致性程度。
简单地说就是测量结果的可信程度。
形成性测量与评价:是在教学过程中经常实施的,在性质上大致相当于现在的中小学单元测验。
诊断性测量与评价:是对经常表现出学习困难的学生所做的测量与评价,它的目的是对个人的问题行为及其原因进行诊断。
二、选择题1.在教学过程中经常实施的,在性质上相当于现在的中小学单元测试,我们称之为【形成性测量与评价】。
2.在编制客观性试题时,题干要尽可能地采用【正面陈述】。
3.科举考试制度始于【隋朝(隋炀帝大业二年(606))】。
4.测量与评价的指导思想是【创造适合学生发展的教育】。
5.被称为教育评价的催生物的是美国的一项著名研究,它是【八年研究】。
6.测量结果的稳定性程度是指【信度】。
7.一个测验或量表实际能测出其所要的特性的程度,这一概念是【效度】。
8.衡量测量题目质量的两个重要指标是【难度与区分度】。
9.表示每项评价指标在指标体系所占得重要性程度,并赋予相应的值,这一概念是【指标权重】。
10.最早的测量理论是【经典测验理论】11.一般将测量理论分为【经典测验理论】、概化理论和项目反应理论三大类,或称三种理论模型。
12.现代教育科学研究的三大领域:教育基本理论研究、【教育测量与评价科学研究】、教育发展理论研究。
13.教育测量的质量指标有:【信度】(可靠性)、【效度】(有效性)、【难度】(难易程度)和【区分度】(鉴别度)14.测量的分类,从低级到高级分:【称名量表】、顺序量表、等距量表、比率量表三、简答题1.教育测量的含义与特点是什么?含义:针对学校教育影响下学生各方面的发展,侧重从量的规定性上予以确定和描述的过程。
第四章 测验信度、效度、区分度及难度

课堂教学规范化培训内容之三教学测验及其分析河南中医学院教务处2005-5-25第一部分测验题目类型及编制测验总是由一系列的题目构成的,测验题目可以说是测验的基本构成元素。
在一个测验中,题目编制恰当与否直接关系到整个测验的质量与效果。
只有正确地掌握不同类型试题的测试功能及命题方法,才能根据考试的目的和要求,正确地选择合适的题型并编制出高质量的试题,组成高质量的测验试卷。
教师的工作就是进行教学,善于利用测验的教师才是更好的教师。
有效的测验能改善一位教师的教学效果。
测验题目基本上分为两大类:选择――反应型和建构――反应型。
前者一般要求被试者在几个选项中选择正确的答案,如是非题、匹配题、选择题等,后者要求被试者自己提供答案,如作文题、简答题、填空题等。
若根据被试作答的范围和评分方法不同,又可称为主观性试题和客观性试题。
客观性试题是因为客观评分而得名,在测验前就已准备好了正确答案,不同评分者的独立评分,所得结果基本上是相同的。
主观性试题主要包括论述题、操作题和作文题等。
它们适合于测量较高层次的教学目标,尤其是适合于测量综合、评价等目标层次的内容。
一、选择――反应性试题测验总是与题目有关,教师选择的题目类型一定切合他们打算做的推论,同时也要确保这些推论和教师的教育决策直接相关。
编制选择――反应测验题目的方法主要涉及编写选择题、判断题、多重判断题、匹配题等。
这些题型可以帮助教师有效地了解学生的认知状态――也就是对所教授的知识和技能的掌握情况。
选择――反应性试题一般就是我们所说的客观性试题。
从客观性试题角度来看,一般适用于测量知识的掌握、理解、应用、分析几个层次的教学目标。
客观性试题的答案明确,作答简便,因而在限定的时间内测验可以包含足够数量的试题,能保证对知识内容的覆盖。
㈠选择题选择测验题(multiple-choice test item)一直主导着各个国家的学业成就测验。
选择题可以用来考查学生知识的掌握或更高层次的思维能力。
教育测量的质量指标19页word

第二章 教育测量的质量指标第一节 信度第二节 效度第三节 难度第四节 区分度一、 信度的概念信度指的是测量结果的稳定性或可靠的程度。
也就是测量结果是否真实、客观地反映了考生的实际水平。
具体而言,可以从以下三方面来理解测量的信度。
(一)信度指实测值与真值相差的程度测量的目的之一,就是希望通过测量得到的实测值能够接近事物的真实值。
由于各种原因,实测值一般不会完全等于真实值,两者之差称为测量误差。
测量误差越小,测量的信度就越高。
用一个等式表示如下:x = T + E式中,x 表示实测值,T 表示真值,E 表示误差。
但测量的真实值是未知的,因此,误差也就无法求出来。
当然,可以把很多次测量的实测值的平均值作为真实值的近似值,但这在实践上不具有可操作性。
所以,根据这种理解,无法求出信度的大小。
(二)信度指统计量与参数之间的接近程度统计量和参数是统计学中的两个基本概念。
统计量是指样本上的各种数字特征(如样本的平均数、标准差等),参数是总体上的各种数字特征(如总体的平均数、标准差等)。
统计量越接近参数,这个统计量的可靠性就越高,因此,信度就越高。
要知道统计量对参数的接近程度,可以对参数进行区间估计。
这种方法对估计真分数也很有用的。
但这种理解也无法计算出信度。
(三)信度指两次重复测量或等值测量之间的关联程度如果对同一对象进行两次重复测量或者等值测量以后,计算两次测量的相关系数,相关系数越高,说明测量的信度就越高;反之,就越低。
对于信度的这种理解,有利于信度的计算。
但重复测量会受到被测对象的经验、知识增长等因素的影响,等值测量又较难编制,因此,采用这种方法计算信度时,也是有误差的。
信度是任何一个测量的必要条件,对于教育测量来说,它具有更为重要的意义。
因为教育测量的对象主要是精神现象,所测量的特性不易把握,为了能真实地反映测量对象的某种特点,需要更加注意测量的信度,从而正确地判断测量结果的价值。
只有信度高的测量才能成为教育工作者有用的工具,否则,测量的结果是无意义的、无效的。
教育测量与评价(期末复习重点)

• 板书公式
• 请阅读,并解释公式含义。
•
例4
• 用一个包含6个论文式试题的测验,测5个被试,结果如下,试求 该测验的信度? • 题序 学生序号 • 1 2 3 4 5 某题得分方差 • 1 3 6 1 6 5 • 2 4 3 3 2 3 • 3 3 4 1 2 1 • 4 2 5 2 1 2 • 5 1 4 4 5 4 • 6 4 6 5 3 2 • 总分 17 28 16 19 17
2、复本信度
• 指的是两个平等的测验测量同一批被试 所得结果的一致性程度。 • 其大小等于同一批被试在两个复本测验 上所得分数的相关系数。 • 所谓复本测验是指在格式、内容、题型、 题数、难度、指导语说明、施测要求等方 面都一致(或相等)的两份或多份测验。
例二
• 以A、B两型英语复本测验对初中三年级10个 学生施测,为避免由测验施测顺序所造成的误差, 其中5个学生先做A型测验,休息15分钟后,再做 B型测验;而另5个学生先做B型测验,休息15分 钟后,再做A型测验。10个学生A型测验结果记 为X,B型测验结果记为Y,其测验的复本信度如 何? • 学生序号 1 2 3 4 5 6 7 8 9 10 • X 19 19 18 17 16 15 15 14 13 12 • Y 20 17 18 18 17 15 13 15 12 12
复本信度的优缺点表现:
• 优点: • 1、两个复本在同时使用时,可以避免再测信 息的一些缺点如首测对再测在记忆、练习、效果 的影响,间隔期间获得新知识的影响,两次施测 的环境不同和被试主观状态不同的影响,以及为 了应付测验所作训练的影响等。反映究竟是不是 真正的平行测验;换言之,反映了测验内容造成 的误差。
第二节 效度
• 一 、什么是效度 • 效度是指测量结果的准确性和有效性的程度。 也可以说是测量是否达到了预期的目的。 • 1、效度是一个相对的概念。 • 测量的效度是相对一定的测量目的而言的 • 2、一种测量的效度只是高或低的问题 • 测量结果总是有一定效度的,只是效度高低不 同罢了。 • 3、教育领域的效度问题比其他领域的测量更 重要。
教育测量与评价(期末复习重点)讲解
指标
• 衡量(héng liáng)教育测量的质量,可采用
四个指标:
• 信度
•
主要对整个测量而言。
• 效度
• 难度
•
主要对测量的项目而言。
• 区分度
精品资料
第一节 信度
• 一、信度概念 • 信度是指测量(cèliáng)结果的稳定性或可靠性程度。 用同一种工具反复测同一种特质对象,结果的一致性 程度就叫信度
精品资料
• 4、论文式测验信度 • 论文没有严格评分标准,同样题目,不 同应试者回答与得分不一样,可用克龙巴 赫阿尔法系数公式。P34 • 该公式适用(shìyòng)于:测验题型多并 非都是2分计分题时。
• 板书公式
• 请阅读,并解释公式含义。
精品资料
•
例4
• 用一个包含6个论文式试题的测验,测5个
精品资料
• 3、有一个由100题构成(gòuchéng)的量 表施行于10个高三学生(分数见下表)。测 验一次后,学生即毕业离校,现怎样评价测 验结果的信度? • 学生序号 1 2 3 4 5 6 7 8 9 10 • 奇X 38 37 38 41 40 36 38 39 40 35 • 偶Y 37 37 36 39 39 34 38 39 39 36
• 3、重测法适用于速度测验而不适用于 难度(nádù)测验;因被试很难记忆第一次, 而难度(nádù)测验相反。还适用于运动技能 的测验。 • 4、适用于异质测验,即一个测验包含 几个不同的部分,分别测量不同的心理特 质。因为这种测试不适于计算内部一致性 信度。 • 4、应注意提高被试者的积极性。
精品资料
• 2、测验的两个复本,如果在不同的时间使用,
教育测量与评价的质量特性 PPT课件
预测效度:测验分数取得一段时间后才获得效标资料,计算这两种 资料间的相关系数
目的:预测某个个体将来的行为
效标效度的估计方法
相关法
直接计算测验分数与效标分数的相关系数
积差相关、等级相关、二列相关等
显著差异法
根据效标测量将被试分为两个极端组,检验这两个组测验分数是 否具有统计学上的差异显著性
教育测量与评价中题目(项目)的区分度
二、区分度对测验的影响
1.区分度与难度的关系
难度(P) 1.00 0.90 0.70 0.50 0.30 0.10 0.00
区分度(D的最大值) 0.00 0.20 0.60 1.00 0.60 0.20 0.00
教育测量与评价中题目(项目)的区分度
二、区分度对测验的影响
效标:检验测验效度的外在的、客观的标准,即效度的标准 效标效度,也称为效标关联效度,也称为实证效度 验证方法是指一个测验对处于特定情境中的个体行为进行预测时
的有效性 例:
高考成绩预测大学学习成绩 能力倾向测验预测工作成效
分类:
同时效度:测验分数与效标资料的取得约在同一时间内连续完成, 这两种资料的相关系数即为同时效度
框架及其假设 比如:中学生数学能力的研究
数学能力由分析能力、综合能力、归纳和演绎能力、运算能力、 空间想象能力构成;数学能力与早期教育有关;数学能力与智 力正相关。
编制测验,施测并收集测验结果 分析测验结果,考查测试的结构效度,考查测验结果是否支持
理论构想
三、各类效度的验证方法
3.效标效度的验证方法
一、难度的含义
难度是指测验项目的难易程度,记为 P 在教育测量中
第9讲,教育测评的质量指标(信度)
第九讲教育测评的质量指标(信度)九、十、十一讲,主要介绍和探讨教育测量与评价的信度、效度,教育测量与评价中题目的难度、教育测量与评价中题目的区分度。
学习本章内容时,要理解概念和方法,比较不同概念和不同方法之间的联系与区别,通过自己归纳与分类整理,更好地掌握本章内容。
学完本章后,你应当能够:了解信度、效度、难度、及区分度;依据不同情况采用恰当的方法计算测验的信度;领会标准参照测验的信度与一般测验信度的区别;依据不同情况选用恰当的方法对测验的效度进行评价;计算题目的难度;分析题目的区分度;领会测验的信度与测量分数误差之间的关系。
重点内容是:掌握同质性信度即内部一致性信度的各种分析方法;掌握标准参照测验的信度的分析方法;掌握测验的内容效度的分析与研究方法;掌握测验题目难度的各种分析方法;知道估计题目区分度的方法。
(一)教育测量与评价的信度教育测量与评价的信度,简单地说就是教育测量与评价结果的可信程度,记为。
如果用同一测量工具反复测量同一种特质对象,则多次测量结果间的一致性程度也叫信度。
测验信度是对测验工具及其操作的整体质量的一种量度,是测验性能的重要质量指标。
本节研究信度的估计方法。
一、重测信度和复本信度1.重测信度重测信度指的是用同一个量表(测验或评价表)对同一组被试施测两次所得结果的一致性程度,其大小等于同一组被试在两次测验上所得分数的相关系数。
重测信度有个基本假设,那就是假设某测验所要测量的潜在特质,短期内不会随着时间推移而改变。
因此,重测信度的用途也在于估计测验结果(以测验分数表示)经过一段时间后是否仍然维持稳定、一致的特性,又称为稳定性系数。
重测信度适用于异质性测验。
所谓异质性测验就是说一个测验包括几个不同的部分,这几个部分分别测量着几个不同的心理特质,它们之间可能并不存在相关,或相关较低。
对于这种异质性测验计算重测信度是比较可靠的。
此外,重测信度比较适用于速度测验而不太适用于难度测验。
速度测验的测题数量多,而且有一定的时间限制,被试很难记住第一次施测的内容,所以第二次施测较少受记忆的影响,而难度测验则相反。
教育测量的质量指标xin
第二节 测量的信度
一、信度的概念 信度是指测验结果的一直性或可靠性的程度 信度可以理解为: (一)实测值和真值相差的程度
X=T+E (二)两次重复测量或等值测量之间的关联程度
? 二、信度的估计方法 (一)稳定性系数(重测信度) 指用同一试卷对相同被试者在不同时间测验两次的实得分数的
相关系数
例:用某量表测验10个学生,得分记为X。为了考察测量结 果的可靠性,于15天后用原量表对这10个学生重测一次, 得分记为Y。问测验结果是否可靠?
? 效标:检验测验效度的外在的、客观的标 准,即效度的标准.效标是足以显示测验 所欲测量的或 要测量的特性的变量。
? 分类:
? 同时效度:测验分数与效标资料的取得约在 同一时间内连续完成,这两种资料的相关系 数即为同时效度
? 预测效度:在测验分数取得一段时间后,才 获得效标资料 ,计算这两种资料间的相关系数 即代表测验的预测效度。
? (3)若答案多种,得分多样,不宜用上边的 公式计算。
? 3、论文式测验的信度系数
4、评分者信度计算方法
肯德尔和谐系数
公式为:
rw ?
ss R 1 K 2 (n3 ? n)
12
三、影响信度的因素
? (一)测验的长度 ? 一般来说,测验越长,信度值越高。这是因为: ? ①测验加长,可能改进项目取样的代表性,从而能更
? 逻辑分析法(定性的方法)
? 依靠有关专家对测验题目与应测内容范围的吻合程度作 出判断
? 对每一道题目逐一进行审查,以此形成“题目双向细目 表”
? 与“命题双向细目表”加以对照,以确定试卷的效度
? 统计分析法(定量的方法)
? 克龙巴赫法(两套测验试题,对相同被试实 施测试后,计算得分的相关系数)