第九章：标准参照测验

合集下载

教育测量9

•共同被试组(Common-person design )
特点：两组被试中有一部分人同时做了两个测验
Person link: the same people take two or more tests of the
same skills
• 有4个人一同等电梯，稍后电梯门打开了，却有一个人没有进去，你认为这可能是什么原因导致的？请你选择。
1.0

Questionnaire
administered to large representative sample

2.5 2.0
Probability of Response
0.8
0.6
0.4
0.2
0.0 -3 -2 -1 0 1 2 3
Item Response Theory (IRT)
Theta
测验设计

IRT model uses item and test information
– 标准参照测验(CRT)
Proficient
Test Information Function
Theta
Population Cut off point Population
Info
Items from Instrument
够水平的通过，不够水平的通不过不够水平的通过了，够水平的没过
例1：日语能力水平测验
级别 1级 2级 3级评价标准掌握2000个汉字（约10000个词汇），需经过 900小时日语学习，可进入大学学习；掌握1000汉字（6000个词汇）经过600小时日语学习，中级，普通生活；掌握300汉字（1500个词汇）经过300小时日语学习，初级；掌握100汉字（800个词汇）经过150小时日语学习，半初级；

标准参照测验的创新设计与编制

三、标准参照测验的效度
内容
结构
绩效
从内容入手寻找效度证据，可以借助专家判断的方法，也可以通过经验规律、统计等方法进行分析。
从理论结构入手寻找效度证据有几种方法，常见的有聚合效度法、区分效度法和因素分析法，其中又以因素分析法最为常用。
相关系数大小受分数分布的影响，不适用于标准参照测验。下张介绍一下标准参照测验通过绩效或结果来验证效度的评估方法。
PO
b N
c
P OP e P OPAPBqAqB
1P e 1PAPBqAqB
标准参照测验的创新设计与编制
心理测量学
二、标准参照测验的信度
（一）分类一致性信度
标准参照测验的创新设计与编制
心理测量学
二、标准参照测验的信度
rxx
（二）荷伊特信度
1
MS人题 MS人
标准参照测验的创新设计与编制
心理测量学
1
标准参照测验概述
标准参照测验的创新设计与编制
心理测量学
第一节标准参照测验概述
用
编
定
途
制
义
标准参照测验的创新设计与编制
心理测量学
一、标准参照测验的定义
• 戈莱塞（1971）：“所谓标准参照测验，是根据某一明确界定的内容范围而缜密编制的测验，并且，被试在测验中所得结果，也是根据某一明确界定的行为标准直接进行解释的”。
心理测量学
Nedelsky 方法
整体判断法
Angoff 修正法
判断法
Ebel 方法
Angoff 方法
标准参照测验的创新设计与编制
一、判断法
• （一）整体判断法
心理测量学

心理测量学第九章目标参照测验.PPT

（二）测验项目的难度分析
相对于标准的高低 • 一般采用通过率（和常模参照测验相同） • 不是很重要，目标参照测验分析难度只是作为项目区分度
分析的基础。
（三）测验项目的区分度分析
1.难度差值（1）掌握组—未掌握组鉴别指数（2）教学敏感度（个人获得）指数 2.相关系数
（1）掌握组—未掌握组鉴别指数
一、行为标准制定 • 目标参照测验结果的解释是参照分数分界点进行的。 • 就目标参照测验本身而言，分数分界点并非必需。 • 从理论上说，并不存在可以清晰辨别的掌握者和非掌
握者。 • 在目标参照测验的实际应用中，分数分界点的确定却
是无法逃避的问题。
二、分数分界点的确定
（一）专家判定法在测验的内容范围明确界定的基础上，由专家来判断
（二）专家判定法
2.Angoff方法由专家直接判断处于临界水平的被试在某测验的每一
题目正确作答的可能性（Pi），设每题的满分为Fi，则该测验的分数分界点（λ）为：
λ=∑Fi Pi
（二）专家判定法
3.Bookmark法 • 将测验按照由易到难的顺序讨论每道题目，判断“基本掌
握该领域知识的考生”能否做对所讨论的题目，在考生不能通过的题目上做出标记，以此作为设置划界分数的依据。
处于临界水平的被试在每个题目上正确作答的可能性，进一步以此为标准确定分数分界点。
临界水平的被试：那些刚由未掌握水平转入掌握水平的被试，这些被试实际上是由专家想象出来的。
（一）专家判定法
1.Nedelsky方法主要针对多重选择题组成的测验而言，由专家来判
断处于临界水平的被试在每一题上有能力排除的错误选项，从而计算其正确回答的可能性，再求每一题上正确回答的可能性之和，作为测验分数分界点。

戴海崎《心理与教育测量》教材讲解及考研真题详解-标准参照测验【圣才出品】

8 / 13
圣才电子书十万种考研考证电子书、题库视频学习平台

界分
●Nedelsky 法
·适用于多选一的项目
·每一位专家判断临界水平被试都能排除的选项
·记录剩下选项数的倒数
·求所有项目的倒数和 A
·求所有 A 的平均，为划界分数
·例：三道四选一项目，项目一排除 1 个，项目二排除 2 个，项目三排除 2 个，A=0.33+0.5+0.5
10 0 1 1 0 1 0 0 1 1 1
P0
1 0 0.6 0.5 0.4 0.8 1 1
4 / 13
圣才电子书

十万种考研考证电子书、题库视频学习平台
第三节信效度分析
3.1 标准参照测验中的信度
Hale Waihona Puke ●标准参照测验中原始分数的分布与常模参照测验不同，常模参照测验中分布较均匀，
·对项目代表性分等级
·评估临界被试在不同等级项目上的通过率
●Ebel 法比 Angoff 法更容易控制测验的结构
9 / 13
圣才电子书十万种考研考证电子书、题库视频学习平台

●将 Ebel 的两个维度变为，完成项目所需要的能力和每个项目的测量目标，称为 Angoff 修正法
4.2.1 专家判断法(2)
●Angoff 法
X cutoff X i Pi
i
Xi
Pi
X i Pi
1
8
0.8
2
10 0.65
3
22 0.7
4
25 0.6
5
35 0.55
6.4 6.5 15.4 15 19.25
X cutoff 62.55
4.2.1 专家判断法(3)

第九章学生评价

第九章学生评价教学要求：1、了解学生评价的含义、功能、类型、方法及当代走向。

2、理解学生学业评价的含义及基本内容。

3、明确学生品德评价的含义及常用方法4、举例分析说明学生评价实施中存在的问题及对策。

教学重点：当今基础教育课程改革的评价体系教学方法：讲授法教学时数：4课时第一节学生评价概述一、学生评价与教育评价教育评价是指在一定教育价值观的指导下，依据确立的教育目标，通过使用一定的技术和方法对所实施的各种教育活动教育过程和教育结果进行科学判定的过程。

纵观教育评价理论与实践的历史发展，一般认为大致经历了古代的传统、传统近现代的科学测试和当代的科学评价三个不同时期。

学生评价是指根据一定的标准，通过使用一定的技术和方法，以学生为评价对象所进行的价值判断。

它是教育评价的重要领域之一，也是学校教育中每一位老师都必须实际操作的一项重要内容。

它既是教育评价的基础和重点，也是学校教育评价的核心。

它是教育评价中历史悠久而又永恒的话题，有了学校教育就有了对学生如何评价的问题。

因为，学生的质量既是衡量一所学校教育工作质量的标准，也是提高学校教育工作水平的根本所在和关键要素。

所以，构建合理的学生评价价格体系，有效地实施学生评价，促进学生发展，是教育的必然追求。

二、学生评价的标准为了使学生评价发挥其应有的作用，实施时首先要制定恰当的评价标准。

评价标准是在实施评价过程中进行价值判断的准则，具有显著的社会性特征，并因评价对象和要求的不同而千差万别。

学校教育工作以教育目标作为其出发点、依据和归宿，因此教育目标制约着学生评价标准必须与其相一致，它是教育目标在各个评价项目上的具体化。

我国尚未有一个独立的学生评价标准，而主要依据教育目标并依托于课程目标，将抽象的目标具体化，分成不同的阶段水平，以此作为学生评价的标准。

我国的教育目标由三个层次即国家的教育总目标、各级各类学校的培养目标、课程和教学目标所构成。

三、学生评价的类型(一)诊断性评价、形成性评价和总结性评价根据学生评价在教学活动中的不同作用可以分为诊断性评价、形成性评价和总结性评价，这是由美国教育心理学家布卢姆提出的影响较大并被广泛使用的分类法。

常模参照评价、标准参照评价、个体内差异评价

数学
3.适合于鉴定资格和水平，所有的达标测验均属于标准参照评价。
三、个体内差异评价
三、个体内差异评价
又叫成长参照评价
把评价对象个体的过去与现在进行前后纵向比较，或者是把个体的有关侧面（如学生不同学科成绩之间、同一学科内的不同方面等）进行横向比较的评价。
过去
纵向比较
评价个体
现在
不同学科间横向比较
三、个体内参照评价Βιβλιοθήκη 例一: 不同时期的写作水平
过去
例二：语文的学习情况
听
说
读
写
现在
我的写作能力好一些，但阅读能力稍差。
三、个体内参照评价（一）优点
综合
评价
提供信息
个
别
动态
指
导
对象的发展变化
三、个体内参照评价（二）缺点
1.没有客观标准
2.没有外部比较
3.很难确定评价对象的真实水平
归纳总结
归纳总结
教学评价的分类
根据评价标准的参照系不同，可以把教学评价分为常模参照评价、标准参照评价和个体内差异评价。
你学会了吗？
整体状具况体例子
决定
标准每化个测成验员的水平
例如：
标准化测验
参考系 78分是高分
还是低分呢？
确定
所有学生的考分
每个学生的标准分数即
代表他在学生团体中的
得分的相对水平班级中的排名
一、常模参照评价（一）优点
（二）缺点
1.判断在团体中的地位
2.树立竞争意识
1.过分追求分数和名次 2.忽视全面素质的发展
目录 / contents
一常模参照评价二标准参照评价三个体内差异评价

第九章教学评价

（一）教学评价概述
4.教学评价的一般方法
– 绝对评价法 – 相对评价法 – 个体内差异评价法
（一）教学评价概述
5.教学评价的发展趋势
– 在评价主体上，更加强调学生的自评。 – 在评价功能上，更加注重发挥评价的教育功能。 – 在评价类型上，更加重视实施形成性评价。 – 在评价方法上，更多采用绝对评价法。
第九章教学评价
山东师范大学教育学院教育系 2007年3月
（一）教学评价概述
教学评价是依据教学目标对教学过程及结果进行价值判断并为教学决策服价的功能
– 教育功能 – 管理功能
（一）教学评价概述
3.教学评价的类型
– 诊断性评价 – 形成性评价 – 总结性评价 – 诊断性、形成性、总结性评价的比较
（二）试题的编制
1.试题编制的原则： – 高信度； – 高效度； – 全面性； – 适应性； – 经济性。
2.试题编制的程序
3.客观性试题和非客观性试题
（三）考试结果的统计与分析
1.常模参照测验与标准参照测验 2.对考试成绩的统计分析 3.对试题的分析

标准参照测验相关理论和评价指标的综述

标准参照测验相关理论和评价指标的综述作者：刘潇来源：《科教导刊·电子版》2017年第06期摘要本文从国内近年来对于标准参照测验的一系列探索出发，对国内学者对于标准参照测验的相关理论和评价指标做的研究和陈述主要包括标准参照测验的评价指标如信效度，测验长度以及分数体系做了一个综合述评。

关键词标准参照测验评价指标分数体系中图分类号：O212 文献标识码：A1标准参照测验的定义与作用1.1标准参照测验的定义匹斯堡大学的Glaser首次提出标准参照测验，将测验分成标准参照测验和常模参照测验。

后来许多学者将内容参照、领域参照等解释为标准参照。

标准参照测验又称准则参照测验。

是一种精心编制的，在一定的行为领域上按照具体标准水平对测验结果作出直接解释的测验。

是一种与以经典测验理论为基础的与常模参照测验相对的测验类型。

1.2标准参照测验的作用了解个体在所规定的测量内容上的行为水平，其出发点是个体本身的绝对水平，而不是个体间的差异。

2标准参照测验与常模参照测验的不同常模参照测验的分数反应了一个人在所属群体中的相对位置，常模代表了某一群体的真正水平，而标准参照测验的分数标志一个人能力或知识的绝对水平，不与其他人的分数比较，标准是希望达到的目标，对个体作出是否达标或达到什么程度的判断，有很大的人为性。

3标准参照测验的评价指标3.1标准参照测验的信度估计标准参照测验的信度估计方法很多，如克龙巴赫系数或CTT中的其它信度指标。

标准参照测验一定程度上有别于常模参照测验，许多的学者对其信度估计做了很多的阐述和研究。

香港中文大学的杨志明教授用概化理论中的可靠性指数和（）公式，分别针对交叉设计和嵌套设计，就标准参照性测验的整体信度和等级分数线决策信度的估计问题进行了探讨。

用数据演示的方法比较了交叉设计与嵌套设计在估计标准参照性测验整体信度方面的差异，展示了等级决策分数线决策信度的估计方法。

安徽师大的赵必华教授在《标准参照测验信度的估计方法及其验证》中列举了四种标准参照测验信度的估计方法，分别是斯旺明内森方法；惠恩方法；萨伯考维克方法；玛希尔方法。

1、下载文档前请自行甄别文档内容的完整性，平台不提供额外的编辑、内容补充、找答案等附加服务。
2、"仅部分预览"的文档,不可在线预览部分如存在完整性等问题,可反馈申请退款(可完整预览的文档不适用该条件!)。
3、如文档侵犯您的权益，请联系客服反馈,我们会尽快为您处理(人工客服工作时间：9:00-18:30)。

被试 1 2 3 4 5 6 7 8 9 10
1
前测后测
0
1
0
1
0
1
0
1
0
1
0
1
0
1
0
1
0
1
0
1
前后测的项目得分表
项目
2
3
前测后测前测后测
1
0
1
1
1
0
1
1
1
0
0
1
1
0
0
0
1
0
1
0
1
0
0
0
1
0
1
0
1
0
1
1
1
0
0
1
1
0
1
0
4
前测后测
1
1
0
1
1
1
1
1
0
1
0
0
1
1
0
0
0
1
0
1
5
前测后测
1
1
1
1
第九章：标准参照测验
一、标准参照测验概述：
❖标准参照测验产生
1、背景：常模参照的局限、教育改革运动 2、概念提出：格莱塞（Glaser.A.J）克劳斯（David Klaus），1963，《美国心理学家杂志》 3、发展： 1969,波帕姆和德塞克:《标准参照测验的应用》 20世纪70年代,标准参照测验迅速发展的十年
（Competence Test）
第九章：标准参照测验
标准参照测验与常模参照测验的区别：
❖ 分数解释标准不同 ❖ 测验目的不同 ❖ 测验的内容范围规范的详略程度不同 ❖ 项目分析分组方法不同
第九章：标准参照测验
❖标准参照测验的优点与问题：优点： ❖能提供对被试水平的绝对测量而非相
对测量。个人成绩的意义不直接依赖于其他人的成绩。 ❖标准参照性测验与教学评价密切相关，其理论和方法更易为教育工作者所理解和应用。
第九章：标准参照测验
需要解决的问题： ❖所要测量内容范围是什么 ❖测验题目取样的代表性问题 ❖掌握标准的确定
第九章：标准参照测验
二、标准参照测验的预测和项目分析 1、预测 ❖ 前侧—后侧法 ❖ 已接受教学组——未接受教学组法 ❖ 对照组法
第九章：标准参照测验
2、项目分析
❖难度 ❖区分度
指标1：难度差值: ➢个人获得指数 ➢鉴别指数指标2：相关系数
较差匹配一般匹配较好匹配很好匹配完美匹配
1
2
3
4
5
目标内容测验题号
项目评定
1
2
12345
7
12345
14
12345
目标内容
9位专家对14道题目的等级评定结果
测验题号
专家评定结果
1
2
435545554
7
425555545
14
455545555
2
1
353214524
3
314434433
8
131211111
13
132112123
3
4
455455555
6
424444444
12
535555555
4
5
9
10
11
专家判断与中位数的差异
435545545 224142444 131211111 434455555 9 24 2 10 6 4 4 3 3
平均数 4.4 4.4 4.8 3.2 3.2 1.3 1.8 4.8 3.8 4.8
FiPi
1
2
0.9
1.8
2
6
0.7
4.2
3
6
0.75
4.5
4
10
0.8
8
5
6
0.7
4.2
6
12
0.65
7.8
7
12
0.6
7.2
8
18
0.55
9.9
9
10
0.6
6
10
18
0.5
9
∑Fi=100
∑FiPi=62.6
第九章：标准参照测验
（二）效标组预测法 ❖1、临界组法 ❖2、对照组法
比描述测验内部一致性系数
❖SS=SS人+SS题+SS人x题 ❖Rxx=1—SS人x题 / SS人
第九章：标准参照测验
四、标准参照测验的效度 1、内容效度： ❖ 确定内容范围：双向细目表 ❖ 方法：专家评判法 2、效标效度：命中率
第九章：标准参照测验
项目内容评定表
评定者姓名：日期：内容范围：
首先，请仔细阅读已界定的内容范围和测验项目；然后，请判断：你认为每一项目在多大程度上反映了其在被编制时所欲测的目标内容。判断赖以产生的唯一基础是项目内容与其意欲测量的目标内容之间的匹配程度。请采用下面的五级量表：
4.4 3 1.3 4.6
中位数 5 5 5 3 3 1 2 5 4 5
5 4 1 5
第九章：标准参照测验
五、标准参照测验分数临界点的确定（一）专家判定法
1、Nedelsky方法 2、Angoff方法：λ=∑FiPi 若请若干专家同时评定，则可以这些专家所评定的及格线的平均值作为最终及格线
题号题目满分（Fi）临界水平(Pi)
1
1
1
1
1
1
1
1
1
1
1
1
1
1
1
1
第九章：标准参照测验
三、标准参照测验的信度 1、分类一致性信度 ❖ 优点：分类一致性信度计算比较简单，
直观易懂 ❖ 缺点：
a、再测法和复本法的缺点 b、分界点确定问题，不同分界点，标准不同，人数比例也不同。
第九章：标准参照测验
2、荷伊特信度—方差分析的方法 ❖1941年，荷伊特（C.Hoyt）提出方差分量
第九章：标准参照测验
❖标准参照测验的定义
所谓标准参照测验就是依据某一明确界定的内容范围而缜密编制的测验，并且被试的测验结果也是根据某一明确界定的标准直接进行解释的测验。
——格莱塞，1971
内容范围：清晰界定内容范围。标准：明确界定的分数分界点
第九章：标准参照测验
标准参照测验的不同名称：
❖标准参照测验（Criterion—Referenced Test, CRT） ❖目标参照测验（Objective—Referenced Test , ORT） ❖内容参照测验（Domain—Referenced Test , ❖结果参照测验（Result—Referenced Test , RRT） ❖掌握测验（Mastery Test）和基本能力测验