教育测验的标准及其建立方法
第四章教育测验编制的一般步骤与方法

〔三不同类型选择题的命题原则 选择题的编制
要求被试从测验所提供的选项中选出正确 答案的测题成为选择题.选择题在结构上包括两 部分:题干和选项.
目前主要的选择题型有:比较、因果、类推、 多项、多选、多项多选、最佳、最差等
编制题目需遵循的原则: 1.每个题干仅问一个明确的问题. 例3:三角几何共八角,三角三角,几何几何? ①2角 ②3角 ③4角 ④5角
第二节 测验题目编制技术
一、客观性测验题目的编制
〔一客观题的优、缺点
客观题因其评分客观而得名. 优点:
1.适于测量知识、理解、应用、分 析几个层次的认知目标;不适和测量综合、
评价两级认知目标.
2.答案明确、回答简便,在一个测验 中的数量较多,可保证对知识内容的覆盖率.
3.有明确的标准答案,评分准确、简 单、可靠,利用计算机阅卷可节省人力、物
缺点: 1.不易编制,且花费时间较多. 2.易受考生阅读能力的影响. 3.难以排除考生对试题的随机猜测. 〔二客观题命题的一般原则 1.试题能反映教学内容的重点或知识点. 2.题目之间的相关性越低越好. 3.试题的文字力求浅显易懂、题意明确. 4.答案应该是明确、唯一的. 5.试题应按教育目标的要求,内容不能超过 超过受测团体的知识和能力.
察对基本概念、性质、原理、定则等的认知和判断.
编制题目需遵循的原则:
1.每一题只能包含一个核心概念.
例10:北京是我国最大的政治、文化和经济中心.
2.试题应是非界限分明,避免模棱两可的语句.
例11:我国南方的天气很热.
3.避免使用具有暗示性的字词和特殊点限定 性词句,如全都、绝不、都、可能、大概等.
1
1
7
5
云
2
2
第三章_教育测验的编制与实施

布卢姆的分类法 加涅的分类法 梶田叡一的教育
评价
认 综合 知 分析
领 应用 域 理解
知识
认知策略(问题解决)
高级规则
智力技能
规则 概念
智力技能
辨别
言语信息
精神运动领域目标
体验 目标
情感领域目标
认知领域目标
技 适应 能 练习 领 模仿 域 观察
运动技能
精神运动领域目标 提高 目标 情感领域目标
认知领域目标
两可的语句,以免引起对正确答案的争议。
? (5)题目陈述应简单明了,避免使用复杂 的句子结构,应尽量采用正面叙述,避免 用否定和双重否定的语句。
? 综合(将知识各部分重新组合,形成一个新的整体)编写、写作、创造、 设计、提出、组织、计划、综合、归纳、总结
? 评价(根据一定标准进行判断)鉴别、比较、评定、判断、总结、证明、 说出……价值
C:条件的表述
? C:学习者表现行为时所处的环境
? 环境因素(空间、光线、温度、气候、室内、室外、安 静等)
等堂皇的用语来叙述。
? 诱答项的长度和措辞的复杂性与正确性与正确选项相 似。
? 在诱答项中使用额外的线索。如固定的用词,具有科 学味道的答案,以及和题干有语义上的联系等。
? 保持选项之间的同质性。
? 5、不能对正确答案有任何暗示。无意的暗 示有:
? 1)语法结构上的不一致;
? 2)各选项在逻辑上不同,如正确答案中加以 “如”、“有时”、“通常”等修饰词,诱答 项中加以“总是”、“从未”、“所有”、 “绝对”、“准”等修饰词,或正确答案使用 与题干相同的词;
2)学习目标
? 学习目标:“是对学习者通过教学以后将能做什么的一种明确的、具 体的表述”。
现代教育测量与评价 简答论述题 历年考题分章节汇总

06231《现代教育测量与评价学》-- 简答论述题知识点第一章教育测量与评价的学科发展1.简述教育测量的特点。
P3 (2015年4月简答、2008年4月简答)①间接性和推断性。
②测量对象的模糊性和测量误差的不可避免性。
③量表具有多样性,结果具有相对抽象性。
2.如何理解教育测量的间接性和推断性? P3 (2011年4月简答)物理测量大多是直接性的。
虽然教育测量无一例外地关注到人类自身,但测量的内容主要是关于人的种种非物质属性。
目前,我们只能通过人的外显的行为或通过人对外界的一些刺激作出的反应,对人的知识技能、智力水平、思维品质、创造能力、心理素质、情感态度、道德品质等作出间接性的、推断性的测量。
3.教育测量与教育评价的区别与联系。
P7 2005年4月简答教育测量是针对教育效果或针对学生各方面的发展予以测量和描述的过程,旨在获得有一定说服力的数量事实,是一种以量化为主要特征的事实判断。
教育评价是根据一定的标准,对教育事物或现象的价值进行系统的调查,在获取足够多的资料事实的基础上,作出价值分析和价值判断。
教育测量为教育评价提供价值判断的基本数量事实,教育测量是教育评价的基础;教育评价是教育测量过程的延续,是对教育测量结果的解释与应用,并朝着价值判断与释放教育功能的方向拓展。
4.简述教育测量与评价在教育改革中的作用。
P25 2012年4月简答当我们根据教育目标和计划,把教育方案、课程、教学等因素作用于学生身上,需要参照教育目标和计划,对教育效果进行测量评估、价值分析和判断。
所以教育评价在教育系统中对实现教育目标起着十分重要的作用。
(3 分)教育改革常常以教育测量与评价的改革作为突破口。
俗话说“考试是根指挥棒“就是这个意思。
(2分)考试与评价改革成为基础教育新课程改革的重要内容。
5.为什么说教育测量与评价是教师必备的知识技能修养? (专业素养和能力)P27 2018年4月论述(1)正确评价学生的发展是教师职业能力的重要组成部分;(4分)(2)在教书育人过程中,需要教师采用教育测量与评价多种方法,以弥补教师非正式观察的不足;(3分)(3)现代教自测量与评价的思想方法对于教师创造性地教学、因材施教、提高教学质量具有重要的作用;(3分)(4)国外教师教有普遍开设"教育测量与评价”这类课程。
教育测量与评价课件(7)(第七章 教育测验“标准”及其建立方法)

标准参照测验分数解释方法之二:掌握分数
无论是针对每一教学单元的形成性测验,还是针对一门课程的终结性测 验,如果要了解与判断学生是否掌握所学的内容,我们就要编制一份有内容效 度的教育测验,并且事先定出一个可接受的最低标准。这个标准是人为确定的, 它可以是百分制评分量尺上的某一人点,也可以是80%-90%的正确反应 所对应的分数,作为最低通过标准。这个分数就是所谓的掌握分数。以它作为 判断标准,把所有的学生区分为掌握和未掌握两类。 对于掌握分数,应注意以下几点: ① “掌握”与“未掌握”是人为确定的。 ② 从知识的掌握状态来讲,事实上更应该是一种连续模型。因此,把学 生区分为“掌握”与“未掌握”两类,在许多情况下的确是迫不得已的办法。 ③ “掌握”、“及格”或“合格”的概念类似,但有区别。 ④ 当利用测验的掌握分数给学生进行二分类时,对于不同的年级、不同 的课题内容、不同的测验乃至同一测验中不同的分测验,人为规定的掌握分数 也未必相同。
(2)美国IOX模式
① 一般描述:是对测量的领域进行一般性的、简明扼要的描述。 ② 样本题目:是给出一个带有指导性与限制性的测验题目的具体例子。 ③ 刺激的界定:是对题目的内容、素材、难度、广度等因素作出更为明确的规
定。
④ 反应的界定:是对被试者如何作答题目的方式,包括正确答案与错误答案的 区分准则等方面作出规定。 ⑤ 其他补充说明:若有必要时,对界定测验内容领域所涉及的有关问题作出交 待或补充说明。
(② 目的; ③ 评价目标 ④ 内容或核心内容; ⑤ 评价目标和内容的关系; ⑥ 评价技术; ⑦ 等级描述。
编写测验内容领域规范的方法(二)
(4)我国高中毕业会考标准的建立模式
① 制定各学科考试大纲; ② 使用参照试卷进行取样测试,建立高中毕业会考的标准分量表: T 85 15Z ; ③ 根据分数,把高中毕业会考成绩确定为五个等级; ④ 编制与参照试卷大体平行的会考试卷; ⑤ 在保密的状态下,抽取有代表性的样本,随机分成两组,分别用会考试卷和参 照试卷进行测试,取得数据; ⑥ 在会考试卷原始分数和参照考试卷原始分数建立等值对应关系; ⑦ 根据每位高中生的会考成绩,经分数转换表,便可得知会考的等级分数。
教育测量与评价课件(6)(第六章-教育测验的常模及其建立方法)

准分数量表上,其一般转换公式为: T a bZ 标准分数常模的建立方法
标准分数常模是指以常模团体在某一测验上实测数据为基础,把原始分 数转换成基本标准分数Z或转换到更大的标准分数T量表上,能够揭示每个测 验分数在常模团体测验分数中的相对地位的一种组内常模。
(2)标准分数Z 量表的单位是相等的,其零点是相对的。因此,不同科 目的Z 分数具有较好的可比性和可加性。
(3)Z 分数本身是关于原始分数X 的一种线性变换,因此,Z 分数不改 变原始分数的分布形态。
百分等级常模的意义与应用
百分等级是一个地位量数,能够反映某个测验分数在一组数据中的相对 地位。它是把学生的原始分数放在该学生所在群体的成绩中进行比较,以确 定学生在群体中的相对地位之高低。
百分等级常模是指基于某个常模团体,为某种测验的原始分数与百分等 级之间建立起对应关系的组内常模类型。
百分等级常模意义直观、容易理解、便于解释,在能力测验和学业测验 中得到广泛的应用、它不仅可用于解释学生在单一能力测验的成绩,以便了 解该生的能力发展在其所属团体中的相对位置,而且对于同时施测的若干个 不同的测验来讲,利用各自的百分等级常模,可以比较学生在不同科目上的 发展状况,克服了原始分数不能直接比较的缺陷。
建立标准分数常模实际上就是根据常模团体的实测数据,利用公式 Z X X
S
和 T a bZ ,在原始分数序列{ Xi }和标准分数之间{ Z i }或标准分数{ T i }之间,
建立起对应关系,从而形成某种测验的标准分数常模转换表。
标准分数 Z 的性质与特点
(1)任何一批原始分数,转化成Z 分数后,这批Z 分数的平均值为0, 标准差为1。Z 大于0,表示测验成绩在平均数之上;Z 小于0,表示测验分 数在平均数之下;Z 为0,则表示测验成绩与平均数相等。
教育测量标准及其建立

②要有将测验分数和效标之间的关系结合起来 的方法,如转换图表。 例如,如果一个学生在大学入学考试委员会的 学术测验(SAT)上得530分,他在一所具体 大学的一年级平均成绩处于A、B、C、D、F等 类的可能性各是多少?考察预测分数(SAT) 对效标成绩(一年级平均成绩)的双变量分布, 就能获得这类信息。
(三)结果参照分数
结果参照又叫效标参照。它是将效标材料直接结 合到测验结果的解释过程中。这种分数适合于用 测验来作预测的情况。 例如,高考平均分数在80分(各科满分为100 分)以上的人,我们可以预测其入大学后的学 习成绩将为优等。这里,是用结果来解释测验 分数,而不是用常模和内容来解释。 要得到结果参照分数必须有两个前提条件: ①需要有效度证据,即测验分数必须与一个重 要的效标具有高相关。
如果把这种双变量分布的每个单元的人数转换 成百分比,结果就是期望表。 例:预测分数是第一学期末 “区别能力倾向测 验”中的数推理测验(DAT),效标则是第二学 期最后一次考试的课程成绩。数据从211名六 年级学生中得出。测验分数和效标的相关是 0.60。 :(见下表)。
表:211名六年级学生DAT数推理测验 与数学课程成绩之间的关系
DAT 分数
≥30
20~29 10~19 ≤9
人数
22
104 71 14
数学课程成绩的百分比
≤D C B A
5
9 37 43
0
21 36 36
36
43 24 14
59
27 3 7
三、测验分数的解释
4.3.1 如何看待测验分数的意义 4.3.2 如何向受测者报告测验分数
(一) 如何看待测验分ห้องสมุดไป่ตู้的意义
教育测验的编制与实施

5、平波型分布 即中低高分人数差不多。学生的学业成 绩呈平波型分布,表明大中小几种难度 的试题比较接近,或学生的基础相差不 大,试题区分度低,需要提高区分度。 6、陡峭型分布 即中分人数很多,低高分人数极少。学 生的学业成绩呈陡峭型分布,表明难度 中等的试题比例过大,缺乏区分度或学 生的基础相差不大,要提高试题的区分 度。
布氏上述六类目标是有层次、有顺序的, 知识是最低层次,是最基本的要求。其 余依次是理解、应用、分析、综合、评 价。评价为认知领域的最高层次,是前 面五种目标的综合并增加了价值标准。 这六类目标,由简单到复杂,由低级到 高级依次排列,组成层次结构。
情感领域
接受:觉察到某一事物的存在,愿意接受某种 特定刺激和有选择的注意这个事物。 反应:受到动机的充分驱动,积极注意某种观 念,并伴随着主动参与行为。 价值评价:接纳并赋予某一客体、现象和行为 以价值。 组织:将各种不同的价值结合起来,解决它们 之间的冲突并开始建立内在的、一致的价值体 系。 由价值或价值复合体形成的性格化:形成的价 值体系在相当长的时间内控制个体行为,形成 内化的加之行为,产生性格化的人生模式。
606 × 308 × - 568 - 287 ———— ———— 168 181
×
√
835 - 217 ———— 618
√
(四)明确测验对象
应考虑被试的年龄特征、教育水 平和文化社会背景等因素
(五)确定测验内容
测验内容的确定,实际上也就是内容抽样 的决定和测验目标的确立相结合而成。 这一结合过程必须通过命题双向细目表来 确定。 命题双向细目表由3个要素构成:p106 测验目标 测验内容 测验目标和测验内容的比例
(六)测验的编制与组织
编制教育测验的一般原理与方法

对于多部分测验,需要将各部分分数 合成为总分数,可以采用加权平均、 非加权平均等方法进行合成。
分数的解释与应用
要点一
分数解释
根据分数的分布、标准差、百分等级等指标,对分数进行 解释,以评估学生的知识、技能和能力水平。
要点二
分数应用
将测验分数应用于教育决策,如学生分班、教学改进、教 育资源分配等,以提高教育教学的针对性和有效性。
测验的质量指标
信度
测验的一致性程度,即 多次施测的结果是否稳
定可靠。
效度
测验的有效性程度,即 测验是否真实反映所要
测量的心理特质。
难度
测验的整体难度水平, 以及不同题目难度的分
布。
区分度
测验题目对不同水平学 生的区分能力。
02 测验编制的心理学基础
CHAPTER
心理测量学的概念
心理测量学是研究心理现象的测量和 评估的科学,它涉及到如何运用数学 和统计学的方法来量化个体的心理特 质、行为和认知水平。
来源
主要来源于测验的设计、施测过程、评分标准、被试 者的心理因素等方面。
测验误差的控制与减少
01
提高测验设计的科学性 和合理性,减少设计误 差。
02
确保施测环境、设备、 时间等因素的一致性, 减少环境误差。
03
制定明确的评分标准和 客观的评分方法,减少 评分误差。
04
培训施测人员,提高其 专业素养和责任心,减 少人为误差。
心理测量学的应用
心理测量学在教育领域的应用广泛,包括学生评估、教师评价、课程设计等方面。 心理测量学在职业领域也有广泛应用,如人才选拔、职业规划、职业培训等方面。
此外,心理测量学还应用于临床心理学、心理咨询、人格评估等多个领域。
- 1、下载文档前请自行甄别文档内容的完整性,平台不提供额外的编辑、内容补充、找答案等附加服务。
- 2、"仅部分预览"的文档,不可在线预览部分如存在完整性等问题,可反馈申请退款(可完整预览的文档不适用该条件!)。
- 3、如文档侵犯您的权益,请联系客服反馈,我们会尽快为您处理(人工客服工作时间:9:00-18:30)。
– “掌握”与“未掌握”是人为确定的; – 从知识的掌握状态来讲,事实上更应该是一种 连续模型; – “掌握”、“及格”或“合格”的概念类似, 但有区别。 – 当利用测验的掌握分数给学生进行二分类时, 对于不同的年级、不同的课程内容、不同的测 验乃至同一测验中不同的分测验,人为规定的 掌握分数也未必相同。
ቤተ መጻሕፍቲ ባይዱ
三、英国GCSE模式
• 英国中等教育普通证书(简称GCSE考试) 是面向校内外举办的英国国家证书制度, 其显著特点之一是有全国统一考试标准。 • 包含“总标准”和“学科具体标准” • 不同科目的测验编写结构大同小异。一般 包含:简介或引言、目标、评价目标、内 容或核心内容、评价目标和内容的关系、 评价技术、等级描述
四、我国高中考试毕业会考标准的 建立模式:浙江的模式
• 定性描述学科标准,形成学科考试大纲规范性文件 • 编制有良好内容效度的参照试卷,取样抽测,建立高中毕 业会考的标准份数量 • 将高中毕业会考的成绩确定为五个等级,与T分数的关系 如下表:
• 编制一份与参照试卷大体平行的学科会考试卷,准备用于 实际的高中毕业会考 • 在保密状态下,在省内或省外抽取一批高中生(其水平应 与浙江省高中生的总体水平相当),随机分成两组后,分 别用会考试卷和参照试卷进行测验,取得数据 • 利用百分等级的等值技术或线性标准分数的等值技术,在 会考试卷原始分数Y和参照试卷原始分数X之间建立等值 对应关系,从而在X-Y-T之间建立对应关系的转换表 • 把会考试卷正式用于高中会考,每个学生都得到自己的会 考原始分数Xi,通过X-Y-T分数转换表,得到每位高中生的 毕业会考学科量分表。根据表7-2,得到高中毕业会考的 等级分数。
三、内容等级分数
• 为了更好地解释教育测验的分数,人们把 内容参照和常模参照结合起来。在编制测 验的过程中,不仅要明确内容范围、具体 任务,而且要把成就分成若干差别明显的 等级水平,标明不同等级水平的成就特征 与问题类型,建立起内容等级分数及其评 定量表。 • 内容等级分数体现了相对评价与绝对评价 的相结合
• 思考:领域参照测验、目标参照测验和掌 握测验有何异同?
– 若将“标准参照测验”视作“依据某种特定操 作标准可以直接解释测量结果的及测验”,上 述三种测验在本质上无多大差别。 – 领域参照测验可以看成标准参照测验的同义词, 目标参照测验和掌握参照测验是标准参照测验 的变式。
第二节 标准参照测验分数的解释
第一节 教育测验标准的含义
一、对标准参照测验及其标准的再认识
• 心理学家波帕姆认为标准参照测验是依据 实现明确规定的知识能力标准而制订,并 据此标准可以对被试的测验成绩做出解释 的一类测验。 • 标准测验主要关心的问题是要获得严格而 精确的领域规范(specifications for domains)或行为领域规范。 • 上述定义的缺陷:“切断点”(cut-off point)
一、正确百分数
• 正确百分数是以学生在标准参照测验中答 对题目的比例来解释测验分数或描述学生 取得成就的方法。
使用百分数,应注意:
– 测验所要测定的内容(成就)范围必须明确,而且测 验题目能够组成成为这个内容(成就)范围的代表性 良好的样本 – 在标准参照测验中,可以针对整个测验为每一个学生 确定其答案的正确百分数,对学生的内容掌握作出判 断。 – 在课堂教学评价及其他有关资格证书的测验中,为了 对多层次的测验结果分别作出解释和描述,就需要分 别针对每一教育目标或内容板块去选择题目组,构成 总测验。
一、汉布莱顿模式
• 内容领域规范的四个组成部分:
– 说明 – 实例指导与题目样本 – 内容范围 – 答案范围
二、美国IOE模式
• IOE (Instructional Objectives Exchange): 教学目标交流所。其所运用 的标准参照测验格式由以下五部分组成:
– 一般描述 – 样本题目 – 刺激的界定 – 反应的界定 – 其他补充说明
• 常模参照测验与标准测验的对比
二、几个与标准参照测验相关的概念
• 领域参照测验(或内容参照测验,domainreferenced test)是建立在一套完善的题目 汇编或内容领域规范汇编基础上用以检查 被试的素质及发展水平的测验 • 目标参照测验是由和目标相适应的一组题 目所构成的测验 • 掌握测验是建立一组教学和行为目标上的 测验,主要用于判断学生是否掌握某组给 定的教育目标
– 为求客观,可利用学生测验的原始分数和测验 总分数之间的关系,计算学生个人的得分百分 数
二、掌握分数
• 掌握分数用于判断学生是否掌握所学的内 容,分数的标准是人为确定的,可以是百 分之评分量尺上的某一个点,也可以是 80%-90%的正确反应所对应的分数,作为 最低通过标准。 • 以掌握分数为判断标准,可将学生区分为 掌握和为掌握两类
• 标准的内涵
– 从定性方面讲,标准一词指的是测验的内容或 行为的范围,而这个范围是测验分数所参照的, 它将通过内容领域规范得到明确; – 从定量方面讲,每当人们利用标准参照测验成 绩进行有关评价决策时,客观上需要一个切断 点作为分类决策的依据。切断点在一定程度上 体现了标准一词在测量评价功能上的定量标准。
第三节 标准参照测验的定性标准 ——测验内容领域规范
• 内容领域规范是标准参照测验最重要的一 环:
– 为试题编写人员准备试题时提供内容和技术上 的指导; – 向内容方面或测量方面的专家提供每种能力所 包括的内容和行为的清晰描述; – 帮助解释被试个体的能力水平; – 向用户提供能力广度和范围的明确规定
• 来自GCSE考试的启发
– 考试大纲应强调与鼓励学生理解本学科与其他学科、生活、 政治、经济、社会、环境等方面的联系 – 考试大纲必须包括对课程学习所期望达到的教育目标的描述 – 考试大纲必须包括足够的知识覆盖面,使考试能充分表现出 学生对某一知识和技能的掌握程度 – 考试大纲都应有一定的学科知识考查深度,而不应以牺牲技 能和理解力的考查为代价去追求学科知识内容的考查广度 – 考试大纲不仅应包括某一学科所要测试的内容范围,也要介 绍测试方法,提供样卷(题)以及一些必要的指导性材料