3-测量与评价信度
3-1教育测量与评价的质量特性:信度

• 斯皮尔曼-布朗公式的基本假设:两个半测验的变 异数必须相等(方差齐性)
若不能满足上述假设,选择下述两个等价的公式之一: (1)佛朗那根(Flanagan)公式
• • • • •
测验的难度要适中 测量的内容尽量同质 测验的时间要充分 测验的程序应统一 评分要客观化,减少评分误差
— 完—
教育测量与评价的质量特性
教育测量的质量特性
衡量教育测量的质量,可采用四个指标: 信 度 主要对整个测验而言。 效 度 难 度 主要对测验项目而言。 区分度
第一节 教育测量与评价的信度
一、信度的意义
• 信度(reliabity)
– 测量结果的可信程度和稳定性程度 – 记为rxx
二、信度的统计定义
肯德尔和谐系数(W)
S为每一个评价对象的K个等级之和的离均差平方和
例:10个评委对7名参赛选手所评等级如表3-6所示,请问 这10位评委的评分是否具有一致性。
解
S w
2 R i
( Ri ) 2 N
13516-
2802 2316 7
2316 1 102 (7 3 7) 12
把上述两次测量(设为甲和乙)和绝对误差分 数和真分数代入上式,得:
相对误差(甲)=1/100×100%=1%
相对误差(乙)=1/185×100%=0.54% 据此,度量乙的信度要比度量甲的信度高。 最大绝对误差=E/X ×100%
怎样估计对一组人或一个人测量多次的实测 值与真值(真分数)的差异程度呢?
测量与评价名词解释

名词解释:量表:量表一般称为测量的工具,它是具有一定单位和参照点的连续体。
类别量表:是最低水平的一种测量量表,它只是用数字代表事物和事物的归类,没有任何数量的意义。
顺序量表:比类别量表要精确,其中的数字不仅指明类别的大小等级或具有某种属性的程度。
等距量表:不仅有大小关系,而且又相等的单位和相对的零点。
比率量表:是最高级和体现最精确的测量水平的一种测量量表。
宏观教育评价:是以教育的全领域及宏观决策方面的教育现象、措施为对象的教育评价,或对一个具有相当规模的地区的教育进行的评价。
中观教育评价:是以学校为对象,对学校内部各方面的工作进行的评价。
微观教育评价:是以学生为对象的教育评价。
诊断性评价:是指在教育、教学活动开始之前,为使计划更有效地实施而进行的预测性、摸底性评价。
形成性评价:是指在教育、教学活动计划实施的过程中,对计划、方案执行的情况进行的评价。
总结性评价:是指某一教育、教学活动项目告一段落或完成以后进行的评价。
相对评价:是指在评价对象团体中确定一个基准,或以某一团体的评价状况为基准,对团体中的个体成员在这个团体中所处的相对位置进行评价。
绝对评价:是指以预先制订的目标为评价基准,评价每个对象达到目标或基准的程度。
需要性评价:是指根据某种需要,对新提出的教育目标、计划方案的必要性作出价值判断。
可行性评价:是指对教育目标、计划、方案实现的条件、可行性程度的评价。
配置性评价:是指对教育目标、计划、方案,所需要的资源条件,人员与技术条件的配置进行价值判断。
自我评价:是指被评者按照一定的评价目的与要求,对自身的工作、学习、品德等方面的表现进行价值判断。
教育测量与评价期末总复习资料

测量(measurement):根据某些法则和程序,用数字对事物在量上的规定性予以确定和描述的过程。
教育测量:针对学校教育影响下学生各方面的发展,侧重从量的规定性上予以确定和描述的过程。
评价:泛指衡量、判断人物或事物的价值。
评价活动的过程是对人物或事物的价值进行分析、衡量和判断的过程。
教育评价:按照一定的价值标准和教育目标,利用测量和非测量的种种方法系统地收集资料信息,对学生的发展变化及其影响学生发展变化的各种要素进行价值分析和价值判断,并为教育决策提供依据的过程。
名人名言:1.“教师应该成为人类优秀文化的拥有者”2.“教师应该拥有教育测量与评价的理念与能力”3.“评价最重要的意图不是为了证明,而是为了改进”格兰朗德:(N. E.Gronlund)他认为评价是为了确定学生达到教学目标的程度、收集、分析和解释信息(课堂)系统过程;评价包括对学生的定量描述(测量)和定性描述(非测量)两方面。
评价=测量(定量描述)+非测量(定性描述)+价值判断。
世界性名言:评价是所有成功教学的基础。
斯塔费尔比姆:(L.D.Stufflebeam)评价是一种划定、获取和提供叙述性和判断性信息的过程。
CIPP评价模式,亦称决策导向或改良导向评价模式,是美国教育评价家斯塔弗尔比姆倡导的课程评价模式。
它认为评价就是为管理者做决策提供信息服务的过程。
背景评价(Context Evaluation)、输入评价(Input Evaluation)、过程评价(Process Evaluation)、结果评价(Product Evaluation)构成了CIPP评价模式。
(具有灵活性)CIPP模式的基本观点是:评价最重要的目的不在证明,而在改进。
(他的名言)它主张评价是一项系统工具,为评价听取人提供有用信息,使得方案更具成效。
CIPP评价模式的优势是回答了泰勒模式中部分疑难问题,突出了评价的发展性功能,整合了诊断性评价、形成性评价和终结性评价,提高了人们对评价活动的认可程度。
教育测量与评价测量指标

一、信度概述
(一)什么是信度 信度是指测量结果的稳定性或可靠性程度。 一般地说,一个好的测量必须具有较高的信度, 也就是说,一个好的测量工具,只要遵守操作 规则,其结果就不应随工具的使用者或使用时 间等方面的变化而发生较大的变化。 必须从以下两个方面去理解测量的信度: 信度指实测值(X)和真值(T)相差的程度; 信度指两次重复测量或等值测量之间的关联程度。
例三
• 对初中一年级学生进行地理成绩测验,每答对1题得1分,答错1 题得0分,其测验结果如下表,试估计该测验的折半信度? • 学生序号 题 序 • 1 2 3 4 5 6 • 1 1 0 0 0 0 0 • 2 0 0 0 1 0 0 • 3 1 0 1 0 0 0 • 4 1 1 0 0 1 0 • 5 1 0 0 1 0 0 • 6 1 1 1 0 1 1 • 7 1 1 1 1 0 1 • 8 1 1 0 1 1 0 • 9 0 1 1 0 0 1 • 10 1 1 1 1 1 1
3、折半信度(分半信度)
• 就是将测验分半,再求被试在每一半测验上所 得分数的相关系数。 • 首先根据内容、形式、题数、平均数、标准差、 难度、测题间相关以及分布形态相等的原则, 将试题分成两半,或者将从易到难排列的测题, 按照测题序号,奇数测题为一组,偶数测题为 一组,分成两半; • 然后计算每个被试在两个分半测验分数的积差 相关系数,再用斯皮尔曼—布朗公式加以校正。 • 斯皮尔曼—布朗公式为
• 学生序号 1 2 3 4 5 6 7 8 9 10 • X 19 19 18 17 16 15 15 14 13 12 • Y 20 17 18 18 17 15 13 15 12 12
教育测量与评价课件(3)(第三章-教育测量与评价的质量特性)概要

说明测验主要测的是某一单个心理特质,由于众多的题目测试了同一心
理特质,那么实测结果就是该特质水平的反映。 (3)同质性信度不适用于异质测验和速度测验。
2018/10/23
包头师范学院
刘俊英
6
同质性信度的估计方法
(1) 分半信度 分半信度指是的将一个测验分成对等的两半后,所有被试在这两半上所得分数 的一致性程度。 分半信度的计算方法和等值复本信度的方法类似,只不过分半信度计算的是两个 “半测验”上得分的相关系数,只是半个测验的信度,还必须用斯皮尔曼—布朗公 式加以校正rxx 2rhh 1 rhh 。 (2) 库德-理查逊信度 该方法适合于测验题目全部为二分记分题的测验的内部一致性信度分析。常用 的库德-理查逊公式有: K X K X K pi qi KR21 1 和 KR20 1 2 2 K 1 K 1 Ks x sx (3)克龙巴赫系数 当测验题型较多,并非都是二分记分题时,估计测验信度可采用克龙巴赫系数。
效度的意义 效度是指一个测验或量表实际能测出其所要测量的特性的程度。 对这 一概念,我们可以从以下几个方面来理解:
① 效度始终是针对一定测量目的而言的;
② 效度只有程度上的差异; ③ 效度是针对测量结果而言的;
④ 评价一个测量是否有效要多角度、多方面地收集证据。
效度的统计定义 效度可定义为目标真分数方差与观察分数方差之比:rXY=σ2V / σ2X 效度与信度的关系 (1)信度高是效度高的必要而非充分条件 (2)效度系数不会大于信度系数的平方根
测验信度是对测验工具及其操作的整体质量的一种量度,
是测验性能的重要质量指标。如果测验本身抗干扰能力强,测 验实施过程各方面误差因素都控制得好,多次施测所得分数 (测值)的一致性就高,那么测量信度高,人们在使用所得测 值时就会感觉可靠。
《教育测量与评价》习题与答案

《教育测量与评价》习题与答案(解答仅供参考)一、名词解释1. 教育测量:教育测量是指运用科学的方法和标准,对学习者在知识、技能、态度、情感等方面的发展水平或学业成就进行量化测定的过程。
2. 信度:信度是评价测量工具稳定性和一致性的指标,反映的是同一份测验或者不同时间重复同一测验所得结果的一致程度。
高信度意味着测量结果具有较高的可靠性。
3. 效度:效度是指测量工具能够准确测出其所要测量内容的程度,即测量结果与实际要考察的目标之间的符合程度。
它是评价测量工具质量的最重要指标之一。
4. 标准参照评价:标准参照评价是一种基于预先设定的标准或目标来进行评价的方式,主要关注个体是否达到了特定的学习标准或发展目标,而不是将个体之间的表现进行比较。
5. 形式效度:形式效度是指测量工具在形式上是否与预定的测量目的和理论构想相一致,包括题目的编制、题目难度分布、题目类型的选择等是否恰当合理。
二、填空题1. 教育评价的核心任务是对教育活动的______进行价值判断。
答案:质量和效果。
2. 常见的教育测量方法有纸笔测验、观察法、访谈法和______等。
答案:项目反应理论(IRT)。
3. 评价学生的认知发展时,皮亚杰的认知发展阶段理论是一种常用的______。
答案:内容效度依据。
4. 教育评价中,______是指评价系统对所有被评价对象公平对待的程度。
答案:评价的公正性。
5. 在进行教育测量时,为了确保分数的稳定性,我们通常会通过计算______来评估测量工具的质量。
答案:信度系数。
三、单项选择题1. 下列哪种评价方式主要关注学生在学习过程中的进步与成长?()A. 形成性评价B. 总结性评价C. 配置性评价D. 标准参照评价答案:A2. 在教育测量中,若一个测验的信度系数为0.85,这意味着该测验的可靠性()。
A. 较低B. 一般C. 较高D. 不确定答案:C3. 关于效度,下列说法错误的是()。
A. 效度反映的是测量工具能否准确测出所要测量内容的程度B. 内容效度是指测验题目对整个待测内容范围的代表性程度C. 结构效度只能通过实证方法验证D. 同一测验的效度是固定不变的,不受被试者群体变化的影响答案:D4. 下列关于项目难度和区分度的说法正确的是()。
3-3教育测量与评价的质量特性难度与区分度

全体被试总分 的标准差
例: 有一测验向8名学生施测,其中两个题目的题分和测验 总分如表3-11所示,请计算这两题的区分度。
解
积差相关系数的显著性检验方法 (1)当样本容量n>50时,采用正态分布检验; (2)当样本容量n<50时,采用t分布检验; (3)直接查“积差相关系数(r)显著性临界值表
• 高低分组法
• 题4:60人参加考试,某题满分为12分,正确 得分累积是480分,求该题难度?
– 难度值的其他计算方法
(1)以全体被试失分率为难度系数
(2)以两端组被试得分率的均值为难度系数
练习
题5:某区域1000人参加考试,试卷第一题高分组 180人答对,低分组60人答对,求该题难度?
如果该题满分为10分,高分组得分总数为2100分, 低分组得分总数为830分,求该题难度?
– 测验难度影响测验的鉴别能力。在测验中,考生之
间相互配对比较的可能性越多,就越有利于准确地鉴 别考生的不同能力。
• 难度的影响因素及其控制
– 主要因素:
• 考察知识点的多少; • 考察能力的复杂程度或层次的高低; • 考生对题目的熟悉态度; • 命题的技巧。
– 难度控制:
• 正确估计考生水平; • 弄清弄懂各知识点; • 掌握命题技巧。
教育测量与评价的质量特性
第三பைடு நூலகம் 难度与区分度
一、难度与难度系数的计算
• 概念
– 难度:被试完成题目或项目任务时遇到的困难 程度
– 难度系数:定量刻画被试作答一个题目所遇到 的困难程度的量数,叫做题目的难度系数,也 常称为难度值,用符号P表示
• 计算方法
– 二值记分题的难度值计算
答对该题目的人数 被试人数
体育测量与评价 (3)全文

可编辑修改精选全文完整版第一章 体育测量的基本理论1、测量的可靠性(又称信度)是指在相同测量条件下,对同一批受试者使用相同测量手段,重复测量结果的一致性程度。
2、有效性分为:内容有效性、结构有效性和效标有效性。
3、内容有效性:内容有效性是指所选择测量内容反映总体属性的准确性程度。
结构有效性:结构有效性是指一组测量所包含的各种属性与总体属性各种拟测成分在结构上的一致性程度。
效标有效性:是指所选择的测量与效标之间的关联一致性程度。
4、测量三性:可靠性、有效性和客观性。
其关系如下:(1)有效的测验必须是可靠的和客观的。
(2)可靠性对有效性的影响。
一项测验的有效性系数不能超过它的可靠性系数的平方根。
(3)可靠测验不一定有效,有效的一定可靠。
5、有效性系数的估价方法(一)逻辑分析法(二)积差相关法(三)等级相关法)1(6122--=∑n n d r第二章评价的基本理论1、离差法要求数据服从或近似服从正态分布,百分位数法没有这个要求。
2、常见的三种评价标准类型:比较标准、理想标准、个体标准。
3.相关法4累进计分法第三章测验的编制与实施1、在实际测验中,如何选择测量次数和标准观测值?(1)强度大、且需要受试者做极限强度的测验,一般只测一次,而且就取仅有的一次成绩为标准观测值。
(2)观测和操作难度大的测验一般只测一次,而且就取仅有的一次成绩为标准观测值。
(3)强度大而持续时间短以及非极限负荷的测验一般应测2到3次,或测多次取最佳测验成绩或平均成绩。
(4)易变、敏感、波动较大的测验。
一般要求测多次,标准观测值应取平均成绩或取总和。
(5)无需受试者操作而直接量度的测验一般测1到2次,标准观测值应取准确测量的一次成绩。
(6)理论测验。
一般只测一次,标准观测值也就是该次测验成绩。
2、测量的相关性与独立性原则。
测验的相关性,是指成套测验中各个测验与总体属性的相关关系。
测验的独立性是指成套测验中各个测验应具备的单一属性和独立性。
- 1、下载文档前请自行甄别文档内容的完整性,平台不提供额外的编辑、内容补充、找答案等附加服务。
- 2、"仅部分预览"的文档,不可在线预览部分如存在完整性等问题,可反馈申请退款(可完整预览的文档不适用该条件!)。
- 3、如文档侵犯您的权益,请联系客服反馈,我们会尽快为您处理(人工客服工作时间:9:00-18:30)。
(6)计算公式:
积差相关法+ “斯皮尔曼—布朗”公式 (Spearman-Brown Prophecy Formula)
(7)举例(For Example)
A班30名学生立定跳远,每人跳6次。 (请写出估算信度系数的操作步骤)
(三)方差分析法
(Variance Analysis, Intra-class Correlation)
rxx=2[1-(Sa.Sa+Sb.Sb)/(Sx.Sx)]
Sa、Sb:受试者在两半个测验上的得分 的标准差 Sx: 全体受试者整个测验得分的标准差
(八)卢仑(Rulon)公式
(当裂半法在两半测验分数的方差 不等时用)
rxx=1-Sd .Sd/(Sx.Sx)]
Sd:同一组受试者在两半测验上得
分之差的标准差 Sx : 全体受试者整个测验得分的 标准差
第一、应根据不同的测量对象和测量内容,确定适 宜的时间间隔,避免因过长或过短时间引起的误差。 第二、两次测量应该是独立(或完整)的。 不但要求两次测量的条件相同,如第一次测量是测 三次取最佳值,那么第二次测量也应如此; 而且,经过一定的时间间隔,不应该有学习训练效 应、不应过于疲劳,否则两次成绩的相关系数就失去 了可靠性的意义。 第三、同样的重复测量,由于间隔时间不同,它可以 有不同的重测信度;不同的样本含量,也可以有不同 的重测信度。因此在报告重测信度时,要说明时间间 隔、样本量以及样本的有关情况。
积差相关法(通过SPSS)计算出rhh=0.544(P<0.01),
经斯皮尔曼—布朗公式校正得rtt=0.704。
斯皮尔曼—布朗公式 rk k =k.r11 / [1+(k-1)rkk ]
斯皮尔曼—布朗公式 特例( k=2)
rt t =2 rhh / (1+rhh )
(5)取值形式:
MAX、MIN、Md、∑、MEAM?
差 优 1 2 5 36 44 良 1 2 7 5 15 中 3 18 2 45 100
第 二 次
中 良 优 小计
C=0.687** df=(r-1)(c-1)=9
X2=89.51 X20.01(df=9)=21.66 < X2
三、可靠性分类
12 8 6 7 23 4 6 6
13 6 6 6 24 6 3 7
14 5 4 6 25 8 4 6
SPSS具体操作步骤是: 进入SPSS—— 定义三个变量—— 输入数据—— 点击analyse—— 选择scale—— 点击reliability analysis —— 选择X、Y入items框—— 点击ok—— 阅读计算结果
or decrease systematically)
(3) 计算公式(Calculating formula):
某班28名学生两次立定跳远的成绩记录
第一次(X) 第二次(Y) 第一次(X) 第二次(X) 第一次(X) 第二次(Y) 第一次(X) 第二次(y) 1 2.13 2.15 8 2.25 2.22 15 2.23 2.25 22 2.15 2.12 2 2.24 2.18 9 2.14 2.19 16 2.24 2.28 23 2.24 2.18 3 2.32 2.30 10 2.18 2.12 17 2.32 2.30 24 2.22 2.18 4 2.22 2.25 11 2.30 2.28 18 2.12 2.15 25 2.26 2.27 5 2.04 2.06 12 2.23 2.19 19 2.08 2.03 26 2.20 2.20 6 2.08 2.11 13 2.19 2.14 20 2.04 2.10 27 2.15 2.15 7 2.11 2.15 14 2.12 2.16 21 2.21 2.25 28 2.02 2.06
(1)适用范围:多次重复测量的数据 (2)鉴别误差来源:(Source of error) (3)计算公式 (Formula): (4)举例 (For example)
B班30名学生100米跑,每人3次
(要求写出估算的操作步骤)
某班25名同学篮球罚球次数统计表
第一次 第二次 第三次 第一次 第二次 第三次
某班18名同学选择题(40分)得分情况
奇数题 偶数题 奇数题 偶数题 1 15 13 10 17 16 2 14 16 11 14 12 3 10 14 12 18 17 4 18 19 13 18 13 5 13 12 14 15 16 6 20 18 15 15 18 7 13 13 16 12 16 8 17 16 17 10 13 9 15 10 18 11 10
24 50 2 48 74
3.2 0.051 0.52
作业:写出用三种方法估价A班50学生立定 跳远的信度的操作步骤。
(四)―斯皮尔曼—布朗”公式
(Spearman-Brown Prophecy Formula
(1)公式(Formula):K为测量次数增加的倍数
rk k =k.r11 / [1+(k-1)rkk ]
本例采用SPSS10.0进行计算,步骤是: 进入SPSS—— 定义变量X、Y—— 输入数据—— 点击analyse—— 选择correlation—— 点击bivariate—— 选择X、Y入variable框—— 点击ok—— 阅读计算结果。
(4)信度估价的操作步骤:
—测得28人A测验的第一次数据(X列) —测得28人A测验的第二次数据(Y列) —以积差相关法计算X、Y列的相关系数r
(G.F.Kuder & M.W.Richardson)
rkR20=[k/(k-1)][1-∑pq/(S.S)]
K:测验题目数 P:各题答对人数的% Q:各题答错人数的% S:各受试者各题目得分之和 的标准差 (用于二分法计分项目)
rkR21=1-[0.8M/(K-M)]/[k.(S.S)]
K:测验题目数 M:各人总分的平均数 S:个人总分的标准差
(二)一致可靠性 Definition:
stability reliability 指在同一
时间内,在相同的测量条件下,多次重 复同一测量结果的一致性程度。 也称裂半信度(split-half reliability)、分半 信度、折半信度。 估价方法?
例:有研究在 ( 柯惠新 ,2000) 亚运会期间对北京地区 1220 人进行了对亚运会的态度调查,态度量表中包 括了12个问题,它们是: 1能提高国际声望, 2我感到自豪, 3财政困难不该举办, 4影响我也没有关系, 5能振奋民族精神, 6能带来经济效应,
(Correlation coefficient)
—分析相关系数r(即可靠性系数) — r 趋向于0,说明? — r 趋向于1,说明什么?
(5)举例(For example)
(二)裂半法(Split –half reliability estimate)
(1)测量长度(Test length): 测量次数或组数 (2)使用范围:一次完整测验中的多次 (偶数次)测量数据 (3)适用条件:一般不适合事实式问卷,适用 于态度量表(累加的李克量表,即围绕某 个主题进行多种正、反面的陈述,由被调 查者对陈述作出选择) (4)方法:裂半法——奇数次数据与偶 数次数据相关(Odd-even split)
(九)列联系数法
(参见北京体育大学学报,2000,(2):218 (电算法参见SPSS的cross-tab方法) Ф= |bc-ad |/ [(a+b)(a+c)(d+c)(d+b)]0.5 ----- (2×2列联表,四格表)
12
或C=[X2/(X2+N)]0.5 ------------(R×C列联表)
第三讲 测量的可靠性(信度)
一、可靠性(reliability)概述 (一)可靠性的一般定义: 是指测量结果的可信程度或一致性程度。 X=T+E r =T/X=(X-E)/X=1-E/X (E=0、r =?) (X=E、r =?) ( r 的取值范围?)
(二)可靠性的理论定义: 可靠性乃是真值的方差(S2T)与实测值方 差( S2X )之比。 S2X = S2T+ S2E r = S2T / S2X =(S2X― S2E)/ S2X =1― S2E / S2X
(2)举例(for instance): 次数 3 6 12 倍数 K=1 K=? k=? 可靠性系数 r11=0.80 r22=? r44=?
(3)特点(characteristics)? 测量的可靠性随测量长度的增加而 上升 (4)作用(function)?
调节测量长度,使测验简单易行
(五)库德· 理查森法
Source of Variance Sum of Sq DF
Mean F Sq 4.46 2.35 6.84 2.16 3.03
P
ReCo-
Between People Within People
Between Measures
Residual Total
106.99 117.33 13.68 103.65 224.32
(六)克郎巴哈(Cronbach,也称α系数法) α=[K/(K-1)][1-∑(Si.Si)/∑(ST.ST)] K:测验题目数 Si :每题各受试者得分的标准差 ST:每个受试者所得总分的标准差 (可用于非二分法计分的项目)
(七)弗朗拉根(Flanagan)公式
(当裂半法在两半测验分数的方差不等时用)
二、可靠性的估价方法
(一)积差相关法 (二)方差分析法 (三)裂半法 (四)斯皮尔曼—布朗公式
(一) 积差相关法
(Pearson Product-Moment Correlation, or Inter-class Correlation)
(1) 适用范围:两组连续型的观测数 (2) 不适用于:两组系统递增或递减 的数据(If two trial scores increase