第二章教育测量的质量指标1

合集下载

教学测量与评价

2、两个复本测验有可能在某种程度上测量了不同的性质，这就会低估测验的信度；
3、被试同时接受性质相似的两个测验，可能减少完成测验的积极性；
4、虽然两个复本测验的题目材料不同，但被试一旦掌握了解题的某一模式，就能触类旁通，有可能失去复本的意义。
3、折半信度（分半信度）
就是将测验分半，再求被试在每一半测验上所得分数的相关系数。
这一阶段教育评价仍然受泰勒模式的影响，注重教育目标的研究；
迅速发展时期（1958—1972年）
这一阶段泰勒模式受到挑战，出现了不少新的教育评价理论与模式；
专业化发展阶段（1973年以后）
这时期教育评价发展具有一个显著特点：就是走向专业化。
第二章教育测量的质量指标
衡量教育测量的质量，可采用四个指标：
以教学为对象的教育评价，只是教育评价的一个方面，用逻辑学术语讲，教育评价是一个上位概念，而教学评价仅是一个下位概念。
区别：
教育评价的范围比教学评价要广得多，它不仅关注教学评价，还有学校管理评价、教师评价、学生评价、课程评价、总务评价等等。
3、教育评价与教育督导
联系：
两者皆以党和国家的教育方针、政策、法规为依据；
目的都是为了加强对教育工作的科学管理，全面提高教育质量；
督导工作过程主要有监督、检查、评价、指导、反馈若干环节，评价是诸环节的核心，无论是监督和检查，还是指导和反馈，都离不开评价这个手段。
区别：
评价只是督导工作内容的一部分，只构成督导工作的前提和基础，而不是其全部；
首先根据内容、形式、题数、平均数、标准差、难度、测题间相关以及分布形态相等的原则，将试题分成两半，或者将从易到难排列的测题，按照测题序号，奇数测题为一组，偶数测题为一组，分成两半；

教育数据类别与测量质量指标

第二节教育测量的质量特性
教育数据类别与测量质量指标
一、教育测量的信度和效度
n 一个高质量的测验，它的结果是可靠而且是有效的；
n 可靠性（信度）和有效性（效度）是评价测验质量的两个重要指标。
教育数据类别与测量质量指标
n 当一个测验多次测量的结果一致时，它就被认为是可靠的；
n 估计测量一致性程度的指标被称为信度。
6
90
97
85
97
7
80
89
48
89
r
0.91
0.26
教育数据类别与测量质量指标
相关系数与相关程度表一览表表
|r|
相关程度
0 ≤0.3
零相关
微相关
0.3<|r| ≤0.5
切实相关
0.5< |r| ≤0.8
密切相关
>0.8
1.0
高度相完全相
关
关
教育数据类别与测量质量指标
八、差异显著性检验
★假设检验的基本原理 1.假设 n 虚无假设（零假设）：是关于当前样本所属的总体（指参数）与假设总体（指参数）无区别的假设，一般H0表示。 n 备择假设（研究假设）：是关于当前样本所属的总体（指参数）与假设总体（指参数）相反的假设，一般用H1表示。由于直接检验备择假设的真实性困难，假设检验一般都是从虚无假设出发，通过虚无假设的不真实性来证明备假设的真实性。
2. 标准差（σ或S）
标准差概念：标准差是指离差平方和后平均的方根。
教育数据类别与测量质量指标
问题1：某班甲乙两组在一次测验中的
成绩分别为65，68，71，72，74 （均分为70分）和 30，50，86， 90，94（均分为70分）。如何评价两组的学习情况？

教育测量的质量指标

教育测量的质量指标引言教育测量是评估学生学习成果和教学效果的重要手段。

通过对学生的能力、知识、技能等方面进行测量，可以了解他们的学习状况以及教学的有效性。

然而，要确保教育测量的质量，需要依据一系列的指标进行评价和监控。

本文将介绍教育测量的质量指标，并讨论其意义和应用。

1. 可靠性可靠性是指测量工具在重复使用中能够得到相似结果的程度。

一个可靠的测量工具应该在不同的时间、不同的场合和不同的评估者之间产生一致的结果。

常用的衡量可靠性的指标包括内部一致性、重测信度和等价性。

内部一致性（Cronbach’s Alpha）内部一致性是指测量工具中各项指标之间相互关联的程度。

通过计算各项指标的相关系数，可以评估测量工具内部一致性的高低。

一般来说，Cronbach’s Alpha系数在0.7以上被认为是可接受的，越接近1表示内部一致性越高。

重测信度（Test-Retest Reliability）重测信度是指在不同时间进行相同测量的结果之间的相关性。

通过将同一测量工具在两个不同时间点进行测试，并计算其相关系数，可以评估测量工具的重测信度。

一般来说，相关系数应该大于0.7才被认为是可靠的。

等价性（Parallel Forms Reliability）等价性是指在不同测量工具中相同或类似的项目之间的一致性。

通过将不同但具有相似性质的测量工具同时应用于被测对象，并计算其相关系数，可以评估测量工具的等价性。

一般来说，相关系数应该大于0.7才被认为是等价的。

2. 效度效度是指测量工具能够准确地衡量所要测量的内容的程度。

一个有效的测量工具应该与被测对象所具有的实际水平或其他标准进行相关。

常用的衡量效度的指标包括内容效度、构造效度和效标关联效度。

内容效度（Content Validity）内容效度是指测量工具中各项指标是否能够全面、恰当地反映所要测量的内容。

通过专家评价、内容分析等方法，可以评估测量工具的内容效度。

一般来说，测量工具应该包含全面的内容领域，并且各项指标与内容领域高度相关。

教育测量与评价测量指标

教育测量与评育测量的质量，可采用四个指标： • 信度主要对整个测量而言。 • 效度 • 难度主要对测量的项目而言。 • 区分度
一、信度概述
（一）什么是信度信度是指测量结果的稳定性或可靠性程度。一般地说，一个好的测量必须具有较高的信度，也就是说，一个好的测量工具，只要遵守操作规则，其结果就不应随工具的使用者或使用时间等方面的变化而发生较大的变化。必须从以下两个方面去理解测量的信度：信度指实测值（X）和真值（T）相差的程度；信度指两次重复测量或等值测量之间的关联程度。
例三
• 对初中一年级学生进行地理成绩测验，每答对1题得1分，答错1 题得0分，其测验结果如下表，试估计该测验的折半信度？ • 学生序号题序 • 1 2 3 4 5 6 • 1 1 0 0 0 0 0 • 2 0 0 0 1 0 0 • 3 1 0 1 0 0 0 • 4 1 1 0 0 1 0 • 5 1 0 0 1 0 0 • 6 1 1 1 0 1 1 • 7 1 1 1 1 0 1 • 8 1 1 0 1 1 0 • 9 0 1 1 0 0 1 • 10 1 1 1 1 1 1
3、折半信度（分半信度）
• 就是将测验分半，再求被试在每一半测验上所得分数的相关系数。 • 首先根据内容、形式、题数、平均数、标准差、难度、测题间相关以及分布形态相等的原则，将试题分成两半，或者将从易到难排列的测题，按照测题序号，奇数测题为一组，偶数测题为一组，分成两半； • 然后计算每个被试在两个分半测验分数的积差相关系数，再用斯皮尔曼—布朗公式加以校正。 • 斯皮尔曼—布朗公式为
• 学生序号 1 2 3 4 5 6 7 8 9 10 • X 19 19 18 17 16 15 15 14 13 12 • Y 20 17 18 18 17 15 13 15 12 12

教育测量与评价教案第4次课效度

（二）效标关联效度
又称经验效度或统计效度，是以测验分数和效标之间的相关系数来表示测验的效度高低的。
效标就是足以显示测验所欲测量的特性的变量或足以显示测验所欲测量的特性的变量，作为检定效度的参照尺度。
效标关联效度又可分为同时效度和预测效度。
同时效度指测验与当前效标之间的关系程度；预测效度指测验与将来的效标之间的关联程度。如用全国高考的成绩作为效标来检验高中毕业会考的成绩，计算两者的相关系数就是会考的同时效度；而用大学一年级的成绩作为效标来检验高考的成绩，两者的相关系数就是高考的预测效度。
效标关联效度的计算主要通过计算相关系数求得，可用积差相关、二列相关或点二列相关、四格相关和多元相关系数等。（参见有关教育统计学教材）。
（三）结构效度
指一个测量能实际测量出理论上的概念或心理特性的程度。它的目的在于用心理学的概念来说明分析测验分数的意义，也就是说从心理学的理论观点就测验的结果加以解释和探讨。
首先，测量的效度始终是对一定的测量目的而言的。一般而言，任何测量都有某种特定的目的和功能，判断效度高低，就是判断测验达到目的的程度。
其次，测量的效度也是对测量的结果而言的。一种测量工具只能经过实际测量，才能根据出来的结果判断它的效度。所以也可以把效度理解为测量的结果正确反映所欲测量的特性或功能的程度。对于任何一种测量来说，只有当它的测量结果真实、正确地反映所欲测量的功能和特性时，才能认为这种测量是较为有效地或效度较高的。
教案4
课时安排
2学时
教学次序
第4次课
授课题目
第二章教育测量的质量指标
§3效度
教学目标
掌握教育测量与评价的效度的概念和计算方法，了解效度的影响因素，理解提高效度的方法
教学重点
效度的计算方法

试题质量分析

(6)陡峭型分布说明试题中中等难度的项目较多。呈这种分布的试题几乎无法区分不同程度的学生，分数分布过于集中。
集中趋势（central tendency）在统计学中是指一组数据向某一中心值靠拢的程度，它反映了一组数据中心点的位置所在。二、平均分
平均数是表示一组数据集中趋势的量数。
三、标准差一组测验分数，只有平均分是不足以表明其分布状况的。标准差：描述一组数据离散情况的最常用、最可靠的统计量数。S, σ

2 ( X X ) i i 1 N
N
三、标准差标准差反映组内各值间的分散程度。
一个较大的标准差，代表大部分数值和其平均值之间差异较大；一个较小的标准差，代表这些数值较接近平均值。
(3)负偏态分布说明试题难度偏低，难度较低的项目比例偏大。
(4)双峰型分布说明试题存在两极分化现象，即难度偏高的和难度偏低的项目较多，而中等难度的项目偏少，项目难度的分布不够合理。
(5)平坡型分布说明试题中各种难度的项目比例接近。呈这种分布的试题区分度较高，但分数之间的差异偏大。
4、控制难度的基本方法
一般来说影响题目难度的主要因素有： ①考查知识点的多少；
②考查能力的复杂程度或层次的高低； ③考生对题目的熟悉程度；
④命题的技巧性。
四、区分度(discrimination) 每个试题将考生水平 ( 能力 ) 区分开来的程度。一般常用两个极端组通过率的差异作为区分度的指标。
rxx
2r 2 0.455 = =0.625 1 r 1 0.455
信度系数多大为宜？信度在0.8以上基本合格，一般要求 0.9以上。对于学科测验，信度系数要求达到 0.9 以上，智力测验要求达到 0.8 以

《教育测量与评价》复习资料

《教育测量与评价》复习资料教育测量与评价第⼀章教育测评概述第⼀节教育测量概述⼀、什么是测量（⼀）测量的定义⼀般认为，测量是根据法则给事物分派数字。

具体来说，是指根据⼀定的法则和程序，对事物或现象在数量上的规定性加以描述和确定的过程。

这⾥包含了测量应有的三个特性：1、法则。

2、事物。

3、数字。

（⼆）测量的三要素1、单位。

2、参照点。

3、量表。

⼆、什么是教育测量（⼀）教育测量的定义教育测量是根据测量学的原理和⽅法对教育现象及其属性从量的规定性上予以确定和描述的过程。

（⼆）教育测量的特点1、测量结果的间接性。

2、度量单位的相对性。

3、测量对象的复杂性。

4、测量⽬的的针对性。

第⼆节教育评价概述⼀、什么是评价评价就是根据某种价值观对事物及其属性进⾏判断、衡量，或者说是衡量、判断⼈或事物的价值。

⼆、什么是教育评价教育评价是根据⼀定的价值观或价值标准，运⽤可⾏的科学⼿段（包括测量或⾮测量），通过系统地搜集信息、分析解释，对教育现象进⾏价值判断，从⽽为不断优化教育和教育决策提供依据的过程。

三、教育评价与教育测量的关系测量是依据⼀定的法则和程序，对事物或现象在数量上的规定性加以描述和确定的过程；评价是泛指根据⼀定的观念和标准衡量、判断⼈物或事物的价值。

测量的结果只有通过评价的解释才能揭⽰其实际意义。

测量是依据，评价是测量的具体体现。

测量关⼼的是数量的多少，评价关⼼的是价值的⾼低；测量是纯客观的，评价带有主观性；测量是⼀种单⼀的活动，评价则是⼀种综合的活动。

教育测量就是借助⼀定的⼯具，给教育现象赋值，来获取评价对象数量的⽅法。

教育测量是教育评价获得数据资料的重要⼿段。

教育测量可以为教育评价提供价值判断的基本数量事实，是教育评价的基础；教育评价是教育测量过程的延续，是对教育测量结果的解释与应⽤。

值得指出的是，教育评价并⾮⼀定以教育测量为基础，有时教育评价和教育测量是同义词。

⽐如，当教师对学⽣的成绩进⾏测验时，可以说是测量学⽣的成绩或评价学⽣的成绩。

教育测量与评价教案第5次课难度区分度

对于其它类型的测验，目的不同对难度的要求不同，如选拔性的测验难度就应小，而选择补习功课的学生困难就应大。
五、控制题目难度的方法
一般说来影响题目难度的主要因素有：
（1）考查知识点的多少；
（2）考查能力的复杂程度或层次的高低；
（3）考生对题目的熟悉程度（如本来比较容易的题目会因考生均未注意而造成很难，或者本来较难的题目会因考生普遍练习而变得容易）；
一、概念
难度指测验试题的难易程度。
在教育测量中，客观题的难度一般用正确回答试题的人数与参加测验的总人数的比值来表示。
即P＝R/N。R为答对的人数，N为参加测验的人数。
因此，这里难度实际代表的是易度。
难度是试题对学生知识和能力水平的适合程度的指标。试题难度不但对题目的区分度有影响，而且对试卷的信度和效度也有较大影响。
区分度自然越高越好，但要做到这一点较难。一般说来，可参照以下标准，对于有些要求不高的测验，有些试题的区分度低一些是容许的。
教学资源
朱德全.教育测量与评价[M].北京：高等教育出版社.2016
讨论、思考题、作业：
思考题：如何控制测验的难度？
教后小结
第五节区分度
一、概念
区分度指测验对考生实际水平的区分程度，用符号D来表示。具有良好的区分度的测验，实际水平高的应该得高分，实际水平低的应该得低分，所以区分度又叫鉴别力。它是评价试题质量，筛选试题的主要指标和依据。
区分又分为正区分（D>0）、零区分（D＝0）和负区分（D<0），正区分又叫积极区分，负区分又叫消极区分。
很明显，难度是一个相对概念，难度的高低与被试的水平直接相关。一种测量对这一组被试是高难度的，可能对另一组被试是低难度的。也就是说，难度是由参与测量的被试群体的整体水平决定的。

1、下载文档前请自行甄别文档内容的完整性，平台不提供额外的编辑、内容补充、找答案等附加服务。
2、"仅部分预览"的文档,不可在线预览部分如存在完整性等问题,可反馈申请退款(可完整预览的文档不适用该条件!)。
3、如文档侵犯您的权益，请联系客服反馈,我们会尽快为您处理(人工客服工作时间：9:00-18:30)。

第二章教育测量的质量指标1
2020年7月9日星期四
第二章教育测量的质量指标
衡量教育测量的质量，可采用四个指标：
信度主要对整个测量而言。
效度难度
主要对测量的项目而言。区分度
•2
第一节信度
一、信度的概念二、信度系数的类型三、信度对于教育测量的意义四、提高信度的方法
误差分数－2 ＋1 ＋2 ＋1 －2 0 2.8
实得分数 16 10 17 22 10 15 20.8
•11
•12
（二）信度指统计量与参数之间的接近程度
❖统计量是指样本上的各种数字特征。（如样本平均数、标准差等）；参数是总体上的各种数字特征（如总体平均数、标准差等）。 ❖在统计学中，统计量越接近参数，这个统计量的可靠性越高。而要知道统计量与参数的接近程度，可以对参数进行区间估计。
•3
一、信度的概念
➢ 信度（reliability）：指的是测量结果的稳定性和可靠的程度，亦即测量的结果是否真实、客观地反映了考生的实际水平，可记为rxx。
➢ 具体而言，可以从以下三方面来理解测量的信度：
•4
（一）信度指实测值和真值相差的程度
x＝T＋E （公式1-1）
x表示实测值，T表示真值(是未知的，可以
把多次测量的实测值的平均值作为真值的近似
值)，E表示误差。
）
E＝x-T
（公式1-2
•5
（一）信度指实测值和真值相差的程度 1、试比较以下两次测量结果（只进行
一次）的信度：用尺子量100cm高的一个儿童，得到1cm
的绝对误差；量185cm高的一位运动员，也得得到1cm的绝对误差。
•6
•要比较两种测量结果的信度，一定要看误差分数（ E）对于真分数（T）所占的百分数是多少。这个百分数表示该实得分数（x）的相对误差。其计算式如下：
•
相对误差＝E/T×100% 公式（1-3）
•把上述两次测量（设为甲和乙）和绝对误差分数和真分数代入上式，得：
•
相对误差（甲）＝1/100×100%＝1%
•
相对误差（乙）＝1/185×100%＝0.54%
•据此，度量乙的信度要比度量甲的信度高。
• 最大绝对误差＝E/x ×100% 公式（1-4）
•7
根据假设，实得分数的方差应等于真分数的方差加上测量误差的方差。即：
公式（1-5）
•8
2、怎样估计对一组人或一个人测量多次的实测值与真值（真分数）的差异程度呢？
于率是。，即信：度（rxx）可定义为真分数的方差与实得分数方差的比
公式（1-6）
公式（1-7）
可见，越小，测量的信度就越高。信度的取值范围为［0，1］。 •9
•13
（二）信度指统计量与参数之间的接近程度
❖我们不妨将测量的平均值看做平均数抽样分布中的一个平均数，真值视为平均数抽样分布的总平均数（μ），这样一来，只要能估计出实得分数分布的标准差——测量的标准误，就可以利用区间估计的公式，算出实测值与真值的接近程度，从而计算出测量结果的信度。
•14
•例：根据对一组人（设n＞30）进行某种智力因素测验的结果，计算出有关统计量如下，求真分数的置信区间（或真值在什么数值的范围内）。
2、怎样估计对一组人或一个人测量多次的实测值与真值（真分数）的差异程度呢？
判别两组数据谁好谁差,不能只靠对平均数的统计和比较，关键是确定这两组数据偏离各
自的平均数的大小。为了消除数据容量的影响，我们借鉴研究加权平均数的方法，选用各个偏差的平方的平均数，来描述一组数据
偏离其平均数的大小，这就是方差。
400 420 441 440 529 529 625 625 650 676 702 783
ΣX＝280 ΣY＝286 ΣX2＝6594
ΣY2＝6912
ΣXY＝ 6420
估计稳定性系数的基本程序：
测验A1 适当时距测验A2
•18
（一）稳定性系数
相关系数可以用不同方法计算，这取决于数据的性质。最为普遍的是皮尔逊积差相关系数：
• X为第一次测验的实得分数;
•
Y为第一次测验的实得分数;
•
N为应试者数.
•19
（一）稳定性系数
用一个算术四则的速度测验12个小学生，得分记为X，为了考察测量结果的可靠性，于3个月后再测一次，得分记为Y，问测验结果是否可靠？
例：对5个人的某种智力因素的测验结果如表1-1 ，试估计测量的信度。
表1-1 测量5个学生的某种分数
学生
真分数误差分数实得分数
A
18
-2
16
B
9
+1
10
C
ห้องสมุดไป่ตู้
15
+2
17
D
21
+1
22
E
12
-2
10
•10
• •
•学生 •A •B •C •D •E •平均数 • 方差
真分数 18 9 15 21 12 15 18
•16
三、信度系数的类型
（一）稳定性系数（二）等值性系数（三）内部一致性系数（四）论文式测验的信度系数（五）评分者信度
•17
（一）稳定性系数（ coefficient of stability
）
又称重测信度，是指用同一量表对相同被试者（一组人）在不同时间测验两次的实得分数的相关系数。
•15
（三）信度指两次重复测验或等值测验之间的关联程度
统计学中估计事物或现象间数量变动的一致性，主要采用相关分析的方法，即计算出两种变量的相关系数（rxy）。
在使用相关系数表示信度的高低时，相关系数可称为信度系数(coefficient of reliability) 。它是对相同应试者的同一特性的两次测量分数的相关系数，是测量结果的一致性的指标。
10
26
11
26
12
27
A2
X2
Y
20 400 21 400 21 441 20 484 23 529 23 529 25 529 25 576 26 625 26 676 27 676 29 729
Y2
400 441 441 400 529 529 625 625 676 676 729 841
XY
序号 1 2 3 4 5 6 7 8 9 10 11 12 X 20 20 21 22 23 23 23 24 25 26 26 27 Y 20 21 21 20 23 23 25 25 26 26 27 29
•20
A1
X
01
20
02
20
03
21
04
22
05
23
06
23
07
23
08
24
09
25