教育测量与评价测量指标
3-1教育测量与评价的质量特性:信度

• 斯皮尔曼-布朗公式的基本假设:两个半测验的变 异数必须相等(方差齐性)
若不能满足上述假设,选择下述两个等价的公式之一: (1)佛朗那根(Flanagan)公式
• • • • •
测验的难度要适中 测量的内容尽量同质 测验的时间要充分 测验的程序应统一 评分要客观化,减少评分误差
— 完—
教育测量与评价的质量特性
教育测量的质量特性
衡量教育测量的质量,可采用四个指标: 信 度 主要对整个测验而言。 效 度 难 度 主要对测验项目而言。 区分度
第一节 教育测量与评价的信度
一、信度的意义
• 信度(reliabity)
– 测量结果的可信程度和稳定性程度 – 记为rxx
二、信度的统计定义
肯德尔和谐系数(W)
S为每一个评价对象的K个等级之和的离均差平方和
例:10个评委对7名参赛选手所评等级如表3-6所示,请问 这10位评委的评分是否具有一致性。
解
S w
2 R i
( Ri ) 2 N
13516-
2802 2316 7
2316 1 102 (7 3 7) 12
把上述两次测量(设为甲和乙)和绝对误差分 数和真分数代入上式,得:
相对误差(甲)=1/100×100%=1%
相对误差(乙)=1/185×100%=0.54% 据此,度量乙的信度要比度量甲的信度高。 最大绝对误差=E/X ×100%
怎样估计对一组人或一个人测量多次的实测 值与真值(真分数)的差异程度呢?
教育测量与评价复习资料 (1)

第一章教育测量与评价的学科发展1. 测量的三要素:量具、测量的单位、测量的参照点。
2. 教育测量是为了了解学生的发展,尤其是为评价学习成绩而进行的测量活动。
这是教育测量活动最原始的动机,也是教育测量学科发展最早的立足点。
3. 教育测量的特点:间接性和推断性、测量对象的模糊性和测量误差的不可避免性、量表具有多样性以及结果具有相对抽象性。
4. 史蒂文斯根据测量的精确度将量表分为:称名量表、顺序量表、等距量表和比率量表四种水平。
称名量表是用来对事物活人的心理现象进行分类,指派的数值没有数量意义,只是表明事物的类别和性质不同;顺序量表也用于对事物活人的心理现象进行分类,这种分类基于所测属性在数量大小基础上进行的有序得分类,四等级评分法和五分法都是顺序量表;等距量表不但能在一个连续体上表示事物量的大小,而且具有形同的测量单位,但她的零点是相对的,是人为规定的;比率量表是最高水平的量表,除了具有量的大小和相同的单位,还具有绝对的零点。
5.教育评价的概念:格兰朗德:评价是为了确定学生达到教学目标的程度,收集、分析和解释信息的系统过程,评价=测量(定量描述)+非测量(定性描述)+价值判断斯塔费尔比姆:评价是一种划定、获取和提供叙述性和判断性信息的过程,评价最重要的不是为了证明,而是为了改进。
泰勒:评价过程本质上是确定课程和教学大纲在实际上实现教育目标的程度的过程。
日本桥本重治:评价师与教育的目标和价值有明确关系的概念,是按照教育目标和价值观对学生学习成果及教育计划的效果等进行测量的过程。
因此,评价的概念重点在于以教育目标为标准的价值判断。
布鲁姆:评价是为了某个目的而进行的,对各种想法、作品、解答、方法、资料等的价值作出判断的活动。
所谓教育评价,是指按照一定的价值标准和教育目标,利用测量和非测量的各种方法系统的收集资料信息,对学生的发展变化和影响学生发展变化的各种要素进行价值分析和价值判断,并未教育决策提供依据的过程。
浅谈教育测量与评价

浅谈教育测量与评价摘要:质的评价与量的评价是教育评价方法中的两种基本评价范式,两者共同构成教育评价方法的体系基础。
针对当前教育评价中存在的主要问题,新课程评价需科学分析质的评价与量的评价的特点以及各自的优势和局限性。
质的评价与量的评价的整合才是教育评价的正确道路。
关键词:测量,质的评价,量的评价正文:一、教育测量与评价的基本概念教育测量与评价分两大核心板块,即教育测量、教育评价。
教育评价是评价者对教育活动或行为主客体价值关系、价值实现过程、结果及其意义的一种认识活动过程,其核心内容是揭示教育活动或行为中的客体对主体的需要、目标的价值意义。
从教育评价的概念可以了解到教育评价是以对教育活动或行为中的主客体及其价值关系的认识为前提的,或者说,是以认识教育活动或行为中主客体的价值关系的事实为前提的;而且教育评价活动虽然不同于对事实的认识活动,但其本质上是一种认识活动、一种思想建构活动;而这种活动的基本结构,即评价主体、评价客体(对象)、评价标准(需要和目标) ;教育评价涵盖了教育活动或行为的全过程,既包括了对正在进行的教育活动或行为的评价,即形成性评价,又包括了对教育活动或行为结果的评价,即总结性评价;囊括了教育评价活动的主要内容。
教育评价活动既包括对教育活动或行为中的主客体的价值关系事实的认识,也包括教育活动或行为中客体对主体的价值及其实现过程、结果的认识,还包括对评价功能意义的认识。
再来看教育测量,它是根据根据法则给事物赋予数量,测验的范围较广,如心理测验,各种常识测验,时事小测验等。
而考试一般指用于比较正式场合下的测验,比如说高考、自学考试等。
有时二者可以互相等同,如既可说学年测验又可说学年考试,有些场合二者又不可替代,如高考不可说高测,心理测验不能称为心理考试等。
测验的目标一经确定,测验的内容—般变化在一定的范围,且测验可以经过相当一段时间的使用,逐步达到标准化过程,而考试则是目的性较强,会受时间、目的、地域等因素的影响、且考试的标准化较难达到。
教育测量与评价期末考试重点

教育测量与评价重点一、定义1、测量:从广义上讲,是根据某些法则与程序,用数字对事物在量上的规定性予以确定和描述的过程。
2、教育测量:根据一定的理论、规则,运用一定的测量工具对教育现象进行数量化描述的过程。
3、教育评价:按照一定的价值标准和教育目标,利用测量和非测量的方法系统地收集资料信息,对学生的发展变化及其影响学生发展变化的各种要素进行价值分析和价值判断,并为就决策提供依据的过程。
4、信度:是指测量结果的可信程度和稳定性程度,指用同一测量工具反复测量同一种物质对象所得多次测量结果间的一致性程度。
5、重测信度:又称稳定性系数,指用同一个量表(测验或评价表)对同一组被试施测两次所得结果的一致性程度6、复本信度:又称为平行测验,指在试题格式、难度、指导语说明、施测要求等方面都相当,并且都用来测量相同潜在特质或属性,但试题又是不相同的测验。
7、等值性系数:在同一时间连续施测,反映测验内容造成的误差是多少8、同质性信度:又称为内部一致性信度,指测验内部所有题目间的一致性程度。
9、评分者信度:指多个评分者给同一批人的答卷进行评分的一致性程度10、效度:是指一个测验或量表实际能测出其所要测量的特性的程度。
11、内容效度:又称合理效度或逻辑效度,是测验题目样本对于应测内容与行为领域的代表性程度。
12、难度:被试完成题目或项目任务时遇到的困难程度13、区分度:是指题目区别被试水平能力的量度,区分度的高低直接影响到测验的信度和效度14、领域参照测验:是建立在一套完善的题目汇编或内容领域规范汇编基础上用以检查被试的素质及发展水平的测验。
15、目标参照测验:是由和目标相适应的一组题目所构成的测验。
16、掌握测验:是建立一组教学和行为目标上的测验,主要用于判断学生是否掌握某组给定的教育目标。
17、正确百分数:是以学生在标准参照测验中答对题目的比例来解释测验分数或描述学生取得成就的方法。
18、常模:指一个有代表性的样组在某种测验上的表现情况19、参照测验的常模:对测验的分数进行解释与评价的测验20、参照测验的“常模”,对测验的分数进行解释与评价的测验,称为常模参照测验21、参照测验的“标准”,对测验的分数进行解释与评价的测验,称为标准参照测验22、标准分数:是以平均数为参照点,标准差为单位的一种量表分数,它将原始分与平均数的距离以标准差为单位来表示23、想象:是在原有的感性材料的基础上,经过重组联合等加工改造而创造出新形象的活动24、能力倾向:是指一个人获得新的知识、能力和技能的内在潜力。
《教育测量与评价》习题与答案

《教育测量与评价》习题与答案(解答仅供参考)一、名词解释1. 教育测量:教育测量是指运用科学的方法和标准,对学习者在知识、技能、态度、情感等方面的发展水平或学业成就进行量化测定的过程。
2. 信度:信度是评价测量工具稳定性和一致性的指标,反映的是同一份测验或者不同时间重复同一测验所得结果的一致程度。
高信度意味着测量结果具有较高的可靠性。
3. 效度:效度是指测量工具能够准确测出其所要测量内容的程度,即测量结果与实际要考察的目标之间的符合程度。
它是评价测量工具质量的最重要指标之一。
4. 标准参照评价:标准参照评价是一种基于预先设定的标准或目标来进行评价的方式,主要关注个体是否达到了特定的学习标准或发展目标,而不是将个体之间的表现进行比较。
5. 形式效度:形式效度是指测量工具在形式上是否与预定的测量目的和理论构想相一致,包括题目的编制、题目难度分布、题目类型的选择等是否恰当合理。
二、填空题1. 教育评价的核心任务是对教育活动的______进行价值判断。
答案:质量和效果。
2. 常见的教育测量方法有纸笔测验、观察法、访谈法和______等。
答案:项目反应理论(IRT)。
3. 评价学生的认知发展时,皮亚杰的认知发展阶段理论是一种常用的______。
答案:内容效度依据。
4. 教育评价中,______是指评价系统对所有被评价对象公平对待的程度。
答案:评价的公正性。
5. 在进行教育测量时,为了确保分数的稳定性,我们通常会通过计算______来评估测量工具的质量。
答案:信度系数。
三、单项选择题1. 下列哪种评价方式主要关注学生在学习过程中的进步与成长?()A. 形成性评价B. 总结性评价C. 配置性评价D. 标准参照评价答案:A2. 在教育测量中,若一个测验的信度系数为0.85,这意味着该测验的可靠性()。
A. 较低B. 一般C. 较高D. 不确定答案:C3. 关于效度,下列说法错误的是()。
A. 效度反映的是测量工具能否准确测出所要测量内容的程度B. 内容效度是指测验题目对整个待测内容范围的代表性程度C. 结构效度只能通过实证方法验证D. 同一测验的效度是固定不变的,不受被试者群体变化的影响答案:D4. 下列关于项目难度和区分度的说法正确的是()。
教育测量与评价黄光扬

-.概念理解:2题,10分1、测量:测量是按照某种规律,用数据来描述观察到的现象,即对事物作出量化描述。
测量是对非量化实物的量化过程。
2、教育测量:就是针对学校教育影响下学生各方面的发展,侧重从量的规定上予以确定和描述的过程。
教育测量是为了了解学生的发展,关注学校的教学效果,反馈关于课堂教与学两方面信息的测量活动。
3、评价:泛指衡量、判断人物或事物的价值。
评价活动的过程是对人物或事物的价值进行分析、衡量和判断的过程。
4、教育评价:是对教育活动满足社会与个体需要的程度做出判断的活动。
是对教育活动现实的(已经取得的)或潜在的(还未取得,但可能取得的)价值做出判断,以期达到教育价值增值的过程。
5、教育测量与教育评价的关系:教育测量与教育评价既有区别又有联系:区别:教育测量是针对教育效果或者针对学生各方面的发展予以测量和描述的过程,旨在获得有一定说服力的数量事实,是一种以量化为主要特征的事实判断。
而教育评价是根据一定的标准,对教育事物或现象进行系统地调查,以获取足够多的资料事实。
教育评价的根本特征是做出价值判断,而教育测量的完结不一定都要做出价值判断。
联系:教育测量可以为教育评价提供价值判断的基本数量事实,教育测量是教育评价的基础;而教育评价是教育测量过程的延续,是对教育测量结果的解释与运用,并朝着价值判断与释放功能的方向发展。
6、标准化考试:也称标准化测验。
是指由测量专家严格按照测验编制程序而编成的一种测验。
通常具有一定的编制程序,包括试题的抽样,难度、区分度指标分析,明确的施测指导语和施测程序,计分标准,常模以及信效度等指标资料。
标准化考试一般包括命题标准化、施测过程标准化、评分标准化和分数报告与解释标准化等四个环节。
7、教育评价表的编制步骤、原则、要素:步骤:(1)、确定教育评价的对象和目标;(2)、初拟评价指标;(3)、筛选评价指标(经验法调查统计法等);(4)、确定评价指标权重(关键特征调查法、两两比较法、专家评判平均法、倍数比较法等);(5)、设计教育评价标准;(6)、整合、修改与完善教育评价表等。
教育测量与评价——测量指标

效标不仅随测验的种类不同而不同,而且可能随时间而 改变,现在是一个好的成功的效标,将来就不一定是。 所以,为某个测验选择一个最有效的效标,这是最重 要的事情。 教育测验的效标,可采用各学科成绩和教师评定的结果; 智力测验的效标,可采用学科成绩、教师评判的结果、 学生总成绩、受教育年限、年龄以及其他事物; 能力倾向测验的效标,可采用特殊课程或特殊训练的成 绩; 职业兴趣测验的效标,可采用从业人员实际服务成绩或 记录; 人格测验的效标,可采用编制者的主观标准,或以被试 以后行为或临床资料。
• 学生序号 1 2 3 4 5 6 7 8 9 10 • X 19 19 18 17 16 15 15 14 13 12 • Y 20 17 18 18 17 15 13 15 12 12
复本信度的优缺点表现:
• 优点: • 1、测验的两个复本,如果在不同的时间使用, 其信度既可以反映在不同时间的稳定性,又可 以反映对于不同测题的一致性; • 2、两个复本在同时使用时,可以避免再测信 息的一些缺点,如首测时再测在记忆、练习、 效果的影响,间隔期间获得新知识的影响,两 次施测的环境不同和被试主观状态不同的影响, 以及为了应付测验所作训练的影响等。
(二)信度的估计方法
1、重复信度(再测信度) 指的是同一个量表对同一组被试施测两次 所得结果的一致性程度。 其大小等于同一组被试在两次测验上所得 分数的相关系数,一般采用皮验12个小学生,得 分记为X,为了考察测量结果的可靠性,于3 个月后再测一次,得分记为Y,问测验结果 是否可靠?
• 学生序号 1 2 3 4 5 6 7 8 9 10 11 12 • X 20 20 21 22 23 23 23 24 25 26 26 27 • Y 20 21 21 20 23 23 25 25 26 26 27 29
教育测量与评价(简答题和名词解释)

教育测量与评价(简答题部分)什么是表现性评价:一种性质的评定方法新型的更加直接的考察学生综合运用的知识、解决实际问题能力的方法,在促进学生发展和改进教学方面有显著作用表现性评价 1优点:有助于测查学生综合运用所学知识解决实际问题的能力优化教学过程,使学生的能力尽可能得到发展激发学生的学习动机,为终身学习打基础注重知识技能的整合与综合运用复杂的任务表现教学性评价与教学活动有密切的联系2缺点:信度问题效度问题实用性问题耗时过多不能评价所有类型的学习目标高利害评使用表现性评价就要十分谨慎品德测试的意义:有利于学生思想上的自我教育和学校德育工作的顺利进行激励先进和鞭策后进有利于学生德育管理德育和行为科学研究的重要手段品德测评的类型:诊断性形成性总结性品德测评的基本要求:外显行为测评和道德认识测评相结合单项测评和整体测评相结合定向性测评和定量测评相结合测评指标体系确立的依据:社会的需要德育大纲德育结构学生年龄特征测评基本要求:重视指标体系的开放性教育性处理好普遍性和特殊性的关系稳定性和发展性的关系统一性的灵活性的关系品德测评的方法、运用:定时考核(学生成绩测量)问卷测评(问卷或量表测试)项目评分(设置一些测试的项目,给予一定的分数,对学生的思想和行为表现进行测量)情景测验(设计情景,展开活动)社会关系测量(通过学生回答,来了解学生的人际关系)意向测评法(Q技术、和语义分析)行为观测法(有目的有计划的考察学生思想行为)教师评价的特点:是一个活动过程,一个特殊的连续活动,包括一系列的方法和步骤有目的有计划的活动过程根本目的在于形成价值判断,进而做出选择评价者与被评价者是同一的教师评价的主体:行政部门、学校、教师参评(教育行政部门依法对教育人力支援进行管理对教师的考核人工作进行指导和督导有助于提高教师的信度与效度)学生参评(是教学过程中的主体,直接承受着教师教学效能的影响)家长参评(家长是教育的投资方,间接的把学生的意见反馈给教师的有效手段)教师自评的意义:鼓励教师积极主动的进入评价角色增加教师评价的信度自我评价其实是教师自我反思、自我教育、激发内在动因的过程和自我提高的过程教育评价的模式:实证范式评价(行为目标评价操作主意模式)人文范式(发展性评价模式自主性评价模式团体性评价模式教师校本)教师评价程序:确定目的确定评价者制定指标体系确定评价方式评价过程的实施指标体系的构成:素质评价指标(教师实施教育教学的基础)职责评价指标(实施教育教学的关键)绩效评价指标(最终目标教师评价过程:教师自我评价和学校评价教师评价主要工具:工作评估报告(1工作评估报告表:教师个人资料评价专家资料目的评定签字2评估具体内容3观察、总结)教师评价案例:日本1教师与校长、教导主任会面,确定自己的教学目标、教学方向,并就完成程度做自我评价2教导主任做第一次评估,校长通过观摩教师授课进行最终评估3评估综合评估过程中参考家长和学生的意见。
- 1、下载文档前请自行甄别文档内容的完整性,平台不提供额外的编辑、内容补充、找答案等附加服务。
- 2、"仅部分预览"的文档,不可在线预览部分如存在完整性等问题,可反馈申请退款(可完整预览的文档不适用该条件!)。
- 3、如文档侵犯您的权益,请联系客服反馈,我们会尽快为您处理(人工客服工作时间:9:00-18:30)。
一、信度概述
(一)什么是信度 信度是指测量结果的稳定性或可靠性程度。 一般地说,一个好的测量必须具有较高的信度, 也就是说,一个好的测量工具,只要遵守操作 规则,其结果就不应随工具的使用者或使用时 间等方面的变化而发生较大的变化。 必须从以下两个方面去理解测量的信度: 信度指实测值(X)和真值(T)相差的程度; 信度指两次重复测量或等值测量之间的关联程度。
例三
• 对初中一年级学生进行地理成绩测验,每答对1题得1分,答错1 题得0分,其测验结果如下表,试估计该测验的折半信度? • 学生序号 题 序 • 1 2 3 4 5 6 • 1 1 0 0 0 0 0 • 2 0 0 0 1 0 0 • 3 1 0 1 0 0 0 • 4 1 1 0 0 1 0 • 5 1 0 0 1 0 0 • 6 1 1 1 0 1 1 • 7 1 1 1 1 0 1 • 8 1 1 0 1 1 0 • 9 0 1 1 0 0 1 • 10 1 1 1 1 1 1
3、折半信度(分半信度)
• 就是将测验分半,再求被试在每一半测验上所 得分数的相关系数。 • 首先根据内容、形式、题数、平均数、标准差、 难度、测题间相关以及分布形态相等的原则, 将试题分成两半,或者将从易到难排列的测题, 按照测题序号,奇数测题为一组,偶数测题为 一组,分成两半; • 然后计算每个被试在两个分半测验分数的积差 相关系数,再用斯皮尔曼—布朗公式加以校正。 • 斯皮尔曼—布朗公式为
• 学生序号 1 2 3 4 5 6 7 8 9 10 • X 19 19 18 17 16 15 15 14 13 12 • Y 20 17 18 18 17 15 13 15 12 12
复本信度的优缺点表现:
• 优点: • 1、测验的两个复本,如果在不同的时间使用, 其信度既可以反映在不同时间的稳定性,又可 以反映对于不同测题的一致性; • 2、两个复本在同时使用时,可以避免再测信 息的一些缺点,如首测时再测在记忆、练习、 效果的影响,间隔期间获得新知识的影响,两 次施测的环境不同和被试主观状态不同的影响, 以及为了应付测验所作训练的影响等。
(二)效度的估计
效度估计就是多方寻找证据来证明一个测验的有 效性程度的过程。 1、内容效度 就是指测验内容对所要测量的内容的代表性程度。 也就是说,测验的内容范围、材料与所要测量 的内容范围、教育目标是否相符合;测验中测 题所引起的行为是否是所要测量的属性的明确 反应;测验的结果是否是一个有代表性的行为 样本。 为了使测验的内容具有有效性,成为所欲测量内 容的一个具有代表性的行为样本,在编制测验 时,就要考虑建立内容效度的问题。
• 学生序号 1 2 3 4 5 6 7 8 9 10 11 12 • X 20 20 21 22 23 23 23 24 25 26 26 27 • Y 20 21 21 20 23 23 25 25 26 26 27 29
在使用重测法计算稳定性系数时,应 注意以下问题:
1、信度的取值范围为[0,1],当信度值较 大时,说明前后两次测量结果比较一致; 2、两次测验之间的时间间隔要适宜。应由 测验的性质、测题类型、测题数量和被 试特点所决定; 3、重测法适用于速度测验而不适用于难度 测验; 4、应注意提高被试者的积极性。
2、内容效度的估计
• (1)逻辑分析法 • 其工作思路是请有关专家对测验题目与原定内 容范围的吻合程度作出判断。 • (2)统计分析法 • 从同一个教学内容总体中抽取两套独立的平行 测验,用这两个测验来测同一批被试,求其相 关。若相关高,表明测验内容效度较高;若相 关低,表示测验的内容效度较低。 • 采用求统计量的公式进行计算,其公式有以下 三种形式:
(三)提高信度的方法
1、影响测量信度的主要因素 (1)被试方面 (2)主试方面 (3)施测情境方面 (4)测量工具方面 (5)两次施测的间隔时间方面
2、提高测量信度的常用方法
(1)适当增加测验的长度 (2)测验的难度要适中 (3)测验的内容应尽量同质 (4)测验的程序应统一 (5)测验的时间要充分 (6)测验的评分要尽量做到客观化,减少 评分误差
(二)信度的估计方法
1、重复信度(再测信度) 指的是同一个量表对同一组被试施测两次 所得结果的一致性程度。 其大小等于同一组被试在两次测验上所得 分数的相关系数,一般采用皮尔逊积差 相关的公式来计算。
例一
• 用一个算术四则的速度测验12个小学生,得 分记为X,为了考察测量结果的可靠性,于3 个月后再测一次,得分记为Y,问测验结果 是否可靠?
二、效度的概念
(一)什么是效度 效度是指测量结果的准确性和有效性的程度。也 可以说是测量是否达到了预期的目的。 1、效度是一个相对的概念。 (1)测量的效度是相对一定的测量目的而言的 (2)测量的效度是相对测量的结果而言的 2、一种测量的效度只是高或低的问题 测量结果总是有一定效度的,只是效度高低不同 罢了。
2、复本信度
• 指的是两个平等的测验测量同一批被试 所得结果的一致性程度。 • 其大小等于同一批被试在两个复本测验 上所得分数的相关系数。 • 所谓复本测验是指在性质、内容、题型、 题数、难度等方面都一致(或相等)的 两份或多份测验。
例二
• 以A、B两型英语复本测验对初中三年级10个 学生施测,为避免由测验施测顺序所造成的误 差,其中5个学生先做A型测验,休息15分钟后, 再做B型测验;而另5个学生先做B型测验,休 息15分钟后,再做A型测验。10个学生A型测 验结果记为X,B型测验结果记为Y,其测验的 复本信度如何?
缺点:
• 1、编制两个完全相等的测验是很困难的,如 果两个复本过分相似,则变成再测形式,而过 分不相似,又使等值的条件不存在; • 2、两个复本测验有可能在某种程度上测量了 不同的性质,这就会低估测验的信度; • 3、被试同时接受性质相似的两个测验,可能 减少完成测验的积极性; • 4、虽然两个复本测验的题目材料不同,但被 试一旦掌握了解题的某一模式,就能触类旁通, 有可能失去复本的意义。