第五章 经典测验理论——信度
心理测量学 测验的信度

(四)时间间隔
智力的时间变化
间隔期
信度系数
同日或次日 1年
2~2.5年 5年 9年
0.90~0.95 0.85 0.80
0.75~0.80 0.78
年龄的时间变化
年龄越低,信度越低
间隔六年,rXX的变化
第一次 4 9
11
第二次 10 15 17
rXX 0.73 0.87 0.92
思考
▪ 如何提高测量的信度?
成熟 标志
三大 支柱
20世纪50年代 Gulliksen
《心理测验理论》
基本假设 信度 效度
▪ Classical Test Theory(CTT)
基本假设与真分数
1、真分数
测验所得 未加工
理论定义 真正特质水平
操作定义 无数次测量结果的均值
▪ 经典测验理论(CTT)假定:
观察分数(X)与真分数(T)之 间是一种线性关系,并只相差一个随机误 差(E)。
▪ 适当增加测验的长度; ▪ 使测验项目的难度分布接近正态; ▪ 努力提高试题的区分度; ▪ 选取适当的被试团体; ▪ 主试严格执行测验规程; ▪ ……
几点说明
▪ 1.有多少种误差,就有多少种估计信度的方法. ▪ 2.上面介绍的各种计算方法仅适用于常模参照测验. ▪ 3.标准参照测验的信度问题必须以概化理论为依据. ▪ 4.不同类型的测验,信度的要求是不一样的. ▪ 5.用不同方法估计的信度也会有所差异.
类型 产生原因
特点
效能
指 标
随机 不易控制的 误差 偶然因素
方向和大小上 完全随机
影
影响 一致
信
响性度
准
系统 恒定、有规 稳定地存在于每 确 不影 效
测验的信度问题定

5.2.1再测信度
概念:同一测验让同一组被试做两次, 两次测验中间隔一段时间。计算两次测 验分数之间的相关,其相关系数表明该 测验随着时间的推移是否保持稳定。
使用再测信度时要注意练习效应和学习 效应,注意选择合适的时间间隔。
.
5.2.2复本信度
复本测验是指在性质、内容、题型、难度 等方面都一致的两份或多份测验。同一组 被试在复本测验上所得结果的相关系数就 是复本信度。
.
5.2.3 内部一致性信度
内部一致性是指同一测验里的各题目或各部分题 目是否测了同一个东西。如果测验的各个题目测 的都是同一个东西,这些题目间就有一致性,反 之,题目之间则没有一致性。
估计内部一致性信度的方法有很多种,这些方法 大致可以归为两类。一类是通过测验两半的相关 来估计,另一类是通过题目的方差来估计。
.
5.3 影响信度的几个因素
被试的异质性程度 被试的异质性程度越高,真分数的方差就越大, 信度也就越高。
时间限制 在严格的时间限制下,被试的答题速度对分数有 明显的影响,也就是说被试真分数的方差不仅包 括被试对题目反应的差异,也包含了被试答题速 度的差异。在这种情况下,信度系数就被高估了。
.
测验的长度
测验太难或太容易时,分数的范围就会缩小,从 而降低信度。当测验难度水平为0.5时,信度最高。 题目区分度
题目的区分度与测验信度关系密切。区分度 好的试题对被试的真分数估计得较准确,测量误 差较小。如果一份试卷中题目的区分度都很好, 测验的信度就会很高。
.
5.4 信度系数的用途
一.评价测验 信度系数是衡量测验好坏的一个重要
根据区间估计的方法,假定一个测验的标准误是 SEM=10,被试得分X=50,如果我们想使推测的 正确率达到95%,被试的真分数就落在观测分上 下1.96个标准误的范围内, 即 (X-1.96SEM)≤T≤(X+1.96SEM),结果是30≤T≤70。 这表明,被试的真分数落在30到70分之间的可能 性有95% 。
心理与教育测量学-戴海琦-第三版-重点问答题及答案

第一章、心理测量概述1、心理测量的含义、特点;测量的含义;要素;以及测量的量表(1)心理测量的含义:依据一定的法则,对人的心理特质进行定量描述的过程.(2)心理测量的特点–间接性:与物理的直接测量不同,从外显行为推测,以间接了解人的心理属性;–相对性:测量的结果是与其所属团体比较而言。
–客观性:即测验的标准化,是对一切测量的基本要求。
(3)什么是测量:测量是根据法则给事物分派数字(S。
S。
Stevens)事物:测量对象,在心理测量中,想测量的当然是心理能力和人格特点;数字:代表某一事物或事物某一属性的量;法则:测量所依据的规则和方法.(4)测量的要素:参照点:①测量工作中测量对象的数量的固定原点②绝对参照点:以绝对的零点作为测量起点,如长度/高度③相对参照点:相对零点,如温度[水冰点]、海拔[海平面]单位①理想的单位一是要有确定的意义,不能有不同解释②其次应有相同的价值,即两个单位点之间差异相等。
(5)测量的量表:量表:任何可以使事物数量化的值或量的渐进系列.①命名量表:数字仅仅代表分类,无任何意义;不可比较,如男女②顺序量表:可比较,没有相同单位和零点,不能加减;如名次③等距量表:可比较,有相同单位无绝对零点,可加减,不可乘除;适用多种统计方法:平均数、标准差等,如温度④比例量表:最理想的量表,有等距的的单位和绝对零点,有倍数关系;如年龄.2、什么是心理测验,如何理解心理测验?心理测验的类型;心理测量的功能;(1)什么是心理测验:心理测验实质上是行为样本的客观的和标准化的测量.①行为样本:有代表性的题目②标准化:测验的编制、实施、计分和分数解释的一致性。
③难度的客观测量:测验的编制、实施等过程中减少主试和被试的随意性程度即标准化,测验的难度水平应确定④信度:测验结果的一致性⑤效度:测验结果的有效性和正确性.(2)、心理测验的类型:①测验对象分:智力测验、能力倾向测验、成就测验、人格测验②按测量方式分:个别测验和团体测验③按测验材料性质分:文字测验和非文字测验④按测验功能分:成就测验与预测测验,难度测验与速度测验,描述测验与诊断测验。
心理测量学中的信度和效度分析

心理测量学中的信度和效度分析心理测量学是研究心理测量方法与技术的学科,旨在通过反映被测者的心理特征和过程,揭示其心理素质、智力水平等信息。
而在心理测量过程中,信度和效度分析是两个重要的概念。
一、信度分析信度是指测量工具在测量同一心理特征或过程时的稳定性和一致性。
换句话说,信度反映了测量工具在同一被测者群体中的结果是否稳定,并且是否能复现。
具体来说,信度分析主要从可靠性和稳定性两个方面来考量。
1.可靠性可靠性是指测量工具的结果是否稳定且一致。
在心理测量学中,一种常用的方式是通过内部一致性来评估可靠性,最常见的统计方法是Cronbach's α系数。
Cronbach's α系数介于0和1之间,数值越大代表内部一致性越高,通常要求α系数达到0.7以上为可靠。
2.稳定性稳定性是指测量工具在不同时间或在不同条件下所得到的结果是否一致。
为了评估测量工具的稳定性,常用的方法是再测法和半分法。
再测法是指在不同时间或条件下对同一样本重复测量,然后通过计算相关系数来评估稳定性。
而半分法则是将测量工具的题目分成两部分,分别进行测量并计算两部分得分的相关系数。
二、效度分析效度是指测量工具是否能够准确地测量所要测量的心理特征或过程。
也就是说,效度是评估测量工具是否真的测量到了我们想要测量的东西。
效度分析主要从描述效度、判别效度和预测效度三个方面来考量。
1.描述效度描述效度是指测量工具是否能够全面、准确地描述被测者的心理特征或过程。
具体来说,可以通过专家评定法和内容效度等方法来评估描述效度。
专家评定法是通过请相关领域的专家对测量工具进行评定,包括评估题目的合理性、适用性等方面。
而内容效度是指测量工具的题目是否充分、恰当地涵盖了被测者的心理特征或过程。
2.判别效度判别效度是指测量工具能否区分不同的心理特征或过程。
为了评估判别效度,常用的方法是构太效度。
构太效度是通过与已知测量工具或理论进行比较,来确定测量工具是否能够与其他相关测量工具或理论得到一致或相似的结果。
4. 信度

rxx=ST2 / Sx2 式中,rxx代表测量的信度,ST2代表真分数的变异数, Sx2
代表是实得分数的变异数,即总变异数。
该定义有两点需要注意:
第一、信度指的是一组测验分数或一列测量的 特性,而不是个人分数的特性;
2. 假设用A、B两型创造力复本测验对初中一年 级10个学生施测。结果如表所示,X1 ,X2 分别代表A、 B两型测验。求该测验的复本信度。
测
被试
验 1 2 3 4 5 6 7 8 9 10
X1 20 19 19 18 17 16 14 13 12 10 X2 20 20 18 16 15 17 12 11 13 9
(一)定义与计算
1.定义 用同一种测验,对同一组受试者,前后施测两次, 再根据受试者两次测验分数计算其相关系数,即得重 测信度。
即 测验 时距(几分-几年) 再测验
此种信度能表示两次测验结果有无变动,反映测 验分数的稳定程度,故又称稳定性系数。
2.计算方法
计算使用皮尔逊积差相关公式的变式: ∑ X1X2- ∑X1 ∑X2 /N
2. 两次测验的时间间隔要适当,若太短,由于测 验太相似被试可能厌倦,若太长可能又会因新的学习 而产生干扰。
(五)使用复本信度的局限
1. 只能减少但不能完全消除练习和记忆的影响; 2. 由于第二个测验只改变了题目的具体内容, 已经掌握的解题原则可以很容易地迁移到同类问题。 3. 对许多测验来说,建立复本是十分困难的。
rxx NS1S2
式中X1、X2为同一被试的两个分数,S1 、S2为 两次测验的标准差,N为被试人数。
(二)误差来源
1. 测验本身:测验所测的特性本身就不稳定,例 如情绪。
第五章 测试与测试理论

例如, 、 两组各有 位学生参加同一次语文测验, 两组各有6位学生参加同一次语文测验 例如,A、B两组各有 位学生参加同一次语文测验, A组的分数为 、85、75、65、55、45,B组的分 组的分数为95、 、 、 、 、 , 组的分 组的分数为 数为73、72、71、69、68、67。这两组的平均数 数为 、 、 、 、 、 。 都是70, 组的标准差为18.71分,B组的标准差 都是 ,但A组的标准差为 组的标准差为 分 组的标准差 ),说 为2.37分(此数据是在统计软件中运行获得),说 分 此数据是在统计软件中运行获得), 组学生之间的差距要比B组学生之间的差距大 明A组学生之间的差距要比 组学生之间的差距大 组学生之间的差距要比 得多。 得多。
举例 例如,一次测验的考生人数为 例如,一次测验的考生人数为100人,按考试成绩取前面 人 按考试成绩取前面27 人和后面27人构成高分组和低分组 人构成高分组和低分组。 人和后面 人构成高分组和低分组。 第一题, 无论是高分组或是低分组无一人选择, 第一题,选项 C无论是高分组或是低分组无一人选择,说明 无论是高分组或是低分组无一人选择 C对该试题没有贡献,应予修改或删除。对选项 A,高分组 对该试题没有贡献, 对该试题没有贡献 应予修改或删除。 , 和低分组几乎有相同的选择,说明该选项有意义含糊之处, 和低分组几乎有相同的选择,说明该选项有意义含糊之处, 也需要修改。本题的难度和区分度比较合适。 也需要修改。本题的难度和区分度比较合适。 第二题,高分组和低分组对正确选项选择的人数一样多,区 第二题,高分组和低分组对正确选项选择的人数一样多, 分度为0,四个错误选项也具有同等的迷惑力。 分度为 ,四个错误选项也具有同等的迷惑力。这很可能是 因为题目的编制不当,因此需要进一步修改。 因为题目的编制不当,因此需要进一步修改。 第三题,低分组的答对人数反比高分组的答对人数多, 第三题,低分组的答对人数反比高分组的答对人数多,区分 度出现负值,这样的题要么删掉,要么重新编制。 度出现负值,这样的题要么删掉,要么重新编制。 第四题,高分组的学生有 %以上的学生答错, 第四题,高分组的学生有80%以上的学生答错,低分组的无 一人答对,可见题太难。 一人答对,可见题太难。而且答错者较多地集中在选项 C上, 上 说明选项的迷惑力太强了。 说明选项的迷惑力太强了。
测验信度名词解释
测验信度:评估测验结果的可靠性一、测验信度的定义测验信度是指测验的准确性和可靠性。
它可以用来衡量测验题目是否能够准确地反映测试受试者的知识水平和能力。
它是测试设计者判断测试有效性的一个重要指标,是衡量测试成绩的重要指标。
测验信度可以通过计算测试的内部一致性来衡量,例如,Cronbach's alpha信度系数可以用来衡量测试的内部一致性。
通过计算每一道题的相关系数,可以判断测试的可靠性。
此外,测试的外部一致性也可以用来衡量测试的信度,例如,可以通过计算两个测试的相关系数来衡量测试的外部一致性。
测验信度的重要性不言而喻,它不仅可以用来衡量测试的准确性,而且可以帮助我们判断测试的可靠性,从而帮助我们决定测试的有效性。
因此,测验信度是测试设计者判断测试有效性的一个重要指标,是衡量测试成绩的重要指标。
二、测验信度的重要性测验信度是衡量测验结果可靠性和效力的重要指标。
它可以帮助我们评估测验的准确性,以确保测验结果的有效性。
测验信度可以帮助我们识别测验中存在的偏差,并有效地避免测验结果的偏离。
例如,一项测验可能会受到某些环境因素的影响,而测验信度可以帮助我们确定这些因素的影响程度,以便采取相应的措施来消除这些影响。
测验信度还可以帮助我们识别测验中存在的歧义和错误,以降低测验结果的不准确性。
例如,在一项测验中,如果某些语句模糊不清,测验信度可以帮助我们检查这些语句是否会影响测验结果。
此外,测验信度还可以帮助我们识别测验中的缺陷,从而提高测验的准确性。
例如,一项测验可能会因为缺乏足够的参考标准而出现结果偏差,而测验信度可以帮助我们识别这些缺陷,从而确保测验结果的准确性。
总之,测验信度是衡量测验结果可靠性和效力的重要指标,可以帮助我们确保测验结果的有效性,从而改善测验的准确性。
三、测验信度的应用测验信度是衡量测验的可靠性和准确性的重要指标。
它可以用来衡量测验的可靠性和准确性,以及测验的有效性。
测验信度的应用可以帮助我们评估测验的有效性,确定测验的有效性,以及测验的准确性。
信度
三、等值稳定性系数
等值稳定性系数是用两个平行的(等值的)测 验,间隔适当时距施测于同一组被试得到两组 测验分数,求这两组测验分数的相关,其相关 系数就是等值稳定性系数。
等值稳定性系数的模式是:
测验A 适当时距 测验B
计算方法同稳定性系数和等值性系数。
等值稳定性系数也是采用复本对被试施测,但 等值性系数的测验要求两次测验的时间间隔尽 可能短,而计算等值稳定性系数的两次测验却 要求有一个适当的时距。
3.用来对两种测验分数进行比较
来自不同测验的原始分数是无法直接进 行比较的,只有将它们转换成相同尺度 的标准分数才能进行比较。
如,某班期末考试,小明的数学成绩是 80分,语文成绩是70分。另外,已知小 明所在班级的数学平均成绩是70分,标 准差是10分,语文平均成绩是60分,标 准差是7分 。
校正公式有:
(1)斯皮尔曼-布朗(Spearman-Brown) 公式
rxx
2r hh 1 rhh
(公式5-7)
式中,rhh 是两半测验分数的相关系数,
rxx为整个测验的信度估计值。
采用斯皮尔曼-布朗(Spearman-Brown) 公式进行校正时,假定两半测验等值, 亦即两半测验具有相同的平均数和标准 差。当假定不能满足时,可以采用下面 两个公式来估计信度。
(一)分半法(分半信度)
(二)其它计算内部一致性系数的方法
back
分半信度(Split-half reliability): 分半信度就是将测验题目分成等值的两 半,分半求出量表题目的总分,再计算 两部分总分的相关系数。
分半的方法很多,常见的方法是把一个 量表按题目番号分为两半,一半是奇数 题,另一半数偶数题。求出每个人的奇 数题的总得分和偶数题的总得分,然后 求出奇数题总得分和偶数题总得分的相 关系 15 17 12 11 13 9
《测量的信度》课件
社会背景:被测 量者的社会背景 会影响其反应和 表现
Part Three
选择经过验证的测量工具,确保其可靠性和有效性 定期对测量工具进行校准和维护,确保其准确性 确保测量工具的使用符合操作规程和标准 定期对测量工具进行评估和更新,确保其先进性和适用性
培训内容:测量原 理、测量方法、测 量工具使用等
操作步骤:对同一 对象进行多次测量, 然后计算平均值
注意事项:确保每 次测量的条件一致 ,避免因条件变化 导致的误差
应用领域:广泛应 用于科学研究、工 程测量等领域
Part 即测量工具能够稳定地、可靠地测量出被测对象的 真实水平
效度:测量工具的准确性和有效性,即测量工具能够准确地、有效地测量出被测对象的 真实水平
信度是指测量工具的稳定性和可靠性,效度是指测量工具的准确性和有 效性。 在实际应用中,信度和效度需要平衡,不能只追求一方而忽视另一方。
提高信度的方法包括增加测量次数、采用更稳定的测量工具等。
提高效度的方法包括选择更合适的测量工具、采用更科学的测量方法等。
Part Five
心理测量:通过信 度检验,确保测量 工具的准确性和可 靠性
,
汇报人:
01 02 03 04
05
Part One
信度是指测量工具或方法的可靠性和稳定性 信度越高,测量结果越接近真实值 信度包括内部一致性、重测信度和分半信度等 信度是测量工具或方法质量的重要指标
信度是测量工 具质量的重要
指标
信度反映了测 量工具的稳定
性和可靠性
信度高的测量 工具可以提供 更准确的测量
添加标题
添加标题
考试评价:通过信度测量,确保考 试的公平性和有效性
教育研究:通过信度测量,提高教 育研究的科学性和准确性
问卷的信度和效度
二是由问卷的质量造成的误差,称为系统误差(system error)。与两类误差相对应,在问卷测验结果分析中引入了信度(reliability)和效度(validity)的概念,信度和效度是衡量问卷整体质量的重要指标,一份好的问卷应同时具有较高的信度和效度。
2、解释问卷分数解释问卷测验的分数包括两个方面的内容:一是解释问卷测验的个人分数;二是比较问卷测验分数的差异。
(1)解释个人分数:实际问卷中,问卷者往往希望通过一次问卷了解答卷者的真实分数。因为存在测量误差,我们只能根据已有信息答卷者的真实得分进行估计。根据数理统计知识,我们可以采用区间估计的方法,利用答卷者的实得分数估计其真实得分:
1、在相同条件下所得问卷测验结果的一致程度。
2、不同研究者用同一种问卷同时测验所得结果的一致程度。
3、同一研究者用同一种问卷在不同时间内测验所得结果的一致程度。
4、同一答卷者在不同时间内对同一种问卷测验的稳定程度等。
根据研究的不同角度,信度分为“外在信度”(external reliability)与“内在信度”(internal reliability)两大类:
式中 、 为同一答卷者两次测验得分, 、 为同一问卷两次测验的平均分,s1、s2是同一问卷两次测验得分的标准差,N是参与该次测验的答卷者数。
重测信度反映了问卷在不同测验时间上的稳定性,故又称稳定性系数。重测信度可以作为预测答卷者将来行为表现的依据。
重测信度也存在着局限性:
(1)问卷前后两次测验结果易受答卷者练习和记忆的影响,两次测验的间隔时间也会影响重测信度。间隔时间长,答卷者因受环境影响而发生变化,其对第二次测验结果将产生影响;如果间隔时间短,则答卷者对第一次测验的记亿会对第二次测验产生影响,这些都将影响到重测信度。
- 1、下载文档前请自行甄别文档内容的完整性,平台不提供额外的编辑、内容补充、找答案等附加服务。
- 2、"仅部分预览"的文档,不可在线预览部分如存在完整性等问题,可反馈申请退款(可完整预览的文档不适用该条件!)。
- 3、如文档侵犯您的权益,请联系客服反馈,我们会尽快为您处理(人工客服工作时间:9:00-18:30)。
四、估算信度系Leabharlann 的方法3、内部一致性系数 、 a、分半信度:实施一次测验后,将 、分半信度:实施一次测验后, 测验分为等值的两半, 测验分为等值的两半,分别计算被 试在两半测验上的得分, 试在两半测验上的得分,再计算其 相关系数。 相关系数。此相关系数就代表了两 半测验在内容取样上的一致性程度
四、估算信度系数的方法
三、估算信度系数的意义
1、信度系数也可反映测量中随机误差的大小 、 2、确定测验是否可以接受 、 rXX=1.00,理想化的 = , 能力和成就测验(最佳行为测验), ),应 能力和成就测验(最佳行为测验),应0.90以上 以上 人格、兴趣、态度(典型行为测验) 人格、兴趣、态度(典型行为测验)应0.80-0.85 - 当rXX<0.70,不能用,或扔,或重编题目 < ,不能用,或扔, 当rXX≥0.70,可用于团体间的比较 , 当rXX≥0.85时,可用于鉴别个人 时 3、可更加精确解释个人分数,在多大程度是可信的 、可更加精确解释个人分数,
四、估算信度系数的方法
大多采用克伦巴赫( 大多采用克伦巴赫( Cronbach)系数或 系数来 )系数或α系数来 表示,因为很多测验都是无所谓对错的多选题目, 表示,因为很多测验都是无所谓对错的多选题目, 如人格测验、 如人格测验、态度测验等
有些量表是测量单一心理特质的,比如抑郁量表、 有些量表是测量单一心理特质的,比如抑郁量表、 焦虑量表,可计算全量表的α系数 系数; 焦虑量表,可计算全量表的 系数;有些量表由多 种分量表构成,分别测量不同的心理特质和内容, 种分量表构成,分别测量不同的心理特质和内容, 如16PF、韦氏智力量表,应计算各分量表的 系 、韦氏智力量表,应计算各分量表的α系 无需全量表的。 数,无需全量表的。
要计算分半信度, 要计算分半信度,首先遇到的问题是 如何分半, 如何分半,直接分成前后两个部分是 不可取的,因为前后量部分项目( 不可取的,因为前后量部分项目(题 在类型和难度上都有所不同, 目)在类型和难度上都有所不同,而 且会受到受练习效应或疲劳等因素的 影响, 影响,通常采用奇偶分半法
四、估算信度系数的方法
四、估算信度系数的方法
在数据达不到这一要求时(方差不齐性) 在数据达不到这一要求时 方差不齐性) 方差不齐性 卢仑/卢龙 卢龙Rulon公式: 公式: 卢仑 卢龙 公式 rXX=1-Sd2/ Sx2 = - 弗朗那根Flanagan公式: 公式: 弗朗那根 公式 rXX=2[1-( -(Sa2+ Sb2)/ Sx2] = -( )
二、信度的历史
德莫维尔: 德莫维尔:取样误差 皮尔逊: 皮尔逊:积差相关 斯皮尔曼: 两事物间联系的证据及其测量》 斯皮尔曼: 《两事物间联系的证据及其测量》 提出信度理论的大部分概念 桑代克: 桑代克: 第一本心理测量学著作 心理与社会测量理论导论》 《心理与社会测量理论导论》 库德-理查森 库德- 克伦巴赫
测验应有一个合理的长度。 测验应有一个合理的长度。 实际上, 实际上,Spearman-Brown公式的通用 公式的通用 形式是这样的: 形式是这样的: rxx=nrhh /1+( -1)rhh +(n- ) = +( 其中n为测验题目增加或缩减的倍数 为测验题目增加或缩减的倍数, 其中 为测验题目增加或缩减的倍数,rxx 是现有测验的长度。 是现有测验的长度。
四、估算信度系数的方法
b. 间隔一段时期进行第二次施测: 间隔一段时期进行第二次施测: 其相关系数既反映测验形式上的变 也反映时间上的变化, 化,也反映时间上的变化,这种相 关系数称为稳定性与等值性系数。 关系数称为稳定性与等值性系数。 从数值上, 从数值上,稳定性与等值性系数应 既小于稳定性系数, 既小于稳定性系数,又小于等值性 系数。 系数。
五、影响信度的因素
3、测验的长度 、 一般说来,测验题目越多, 一般说来,测验题目越多,就是样本越 测验结果越稳定,信度越大。 多,测验结果越稳定,信度越大。 但实际上编制量表要权衡,题目越大, 但实际上编制量表要权衡,题目越大, 测验越费时,测验成本越大,不经济。 测验越费时,测验成本越大,不经济。 而且,测验越长,被试越疲劳, 而且,测验越长,被试越疲劳,越不愿 合作,也可能降低信度。 合作,也可能降低信度。
四、估算信度系数的方法
b、同质性信度 、 (homogeneity reliability) ) 同质性信度主要反映测验能够测量相同 内容或特质的程度, 内容或特质的程度,或者说所有测验题 目得分之间的一致性。 目得分之间的一致性。
四、估算信度系数的方法
Kuder-Richardson库德-理查森公式,适合 库德-理查森公式, 库德 0、1计分德,就是是非题 计分德, 、 计分德 K-R20 - 当题目难度接近时, 当题目难度接近时,每个项目德通过率应基 本相等, 本相等,我们就不用逐个题目计算通过率 K-R21 - 难度:某题目上, 难度:某题目上,答对人数和总人数的百分比
四、估算信度系数的方法
估计重测信度时,应注意以下几点: 估计重测信度时,应注意以下几点: 重测时间间隔 重测信度应用于不太容易受重复因素影响 的测验, 的测验,所测量的心理特性必须是稳定的 两次实测的间隔期, 两次实测的间隔期,被试所测得的心理特 质方面没有获得过学习和训练 注意提高被试的积极性
四、估算信度系数的方法
2、复本信度 平行测验信度 parallel form reliability 对一组被试用两个复本测验( 对一组被试用两个复本测验(平行测 施测,计算积差相关系数, 验)施测,计算积差相关系数,就是复 本信度。 本信度。
四、估算信度系数的方法
复本信度的估计可分为两种情况: 复本信度的估计可分为两种情况: a. 即刻施测或连续施测:其相关系 即刻施测或连续施测: 数大小只反映两个复本测验的题目 差异所带来的变异情况。 差异所带来的变异情况。这种情况 下,复本信度称为等值性系数
分半之后, 分半之后,每半测验的题目只相当于原测验 的1/2,也就是说,样本数少了一半。这样, ,也就是说,样本数少了一半。这样, 测验结果更不稳定(信度偏小,需要修正) 测验结果更不稳定(信度偏小,需要修正) 斯皮尔曼-布朗( 斯皮尔曼-布朗( Spearman-Brown)公 公 式:rXX=2rhh /1+rhh = + Spearman-Brown公式要求:两半测验的 公式要求: 公式要求 方差相等。 方差 检验,方差齐性检验, 方差F检验 方差相等。(方差 检验,方差齐性检验,就 是方差是不是一致) 是方差是不是一致
四、估算信度系数的方法
1、重测信度(test-retest reliability) 、重测信度( ) 再测信度(稳定性系数) 再测信度(稳定性系数) 用同一测验, 用同一测验,对同一组被试进行前后两次 施测,所得相关系数就叫重测信度。 施测,所得相关系数就叫重测信度。重测 信度反映测验跨时间的稳定性,又称为稳 信度反映测验跨时间的稳定性, 定性系数。 定性系数。 公式: 公式:皮尔逊积差相关
一、什么是信度? 什么是信度?
信度( 信度(Reliability)是指测量结果的一致性或 ) 稳定性。 稳定性。信度的大小用信度系数来表示 定义1:一被测团体的真分数变异数(方差) 定义 :一被测团体的真分数变异数(方差) 与观察分数的变异数之比。 与观察分数的变异数之比。 定义2: 定义 :一被测团体的真分数与观察分数的 相关系数的平方。 相关系数的平方。 定义3:一个测验X与其平行测验 的相关 定义 :一个测验 与其平行测验X’的相关 与其平行测验 系数。 系数。
四、估算信度系数的方法
4、评分者信度 、 主观题时要考虑评分者信度。 主观题时要考虑评分者信度。 如果是两个评分者, 如果是两个评分者,计算积差或等 级相关系数。 级相关系数。 如果是多个评分者, 如果是多个评分者,需计算 Kendal肯德尔和谐系数 肯德尔和谐系数
五、影响信度的因素
1、被试团体 、 样本团体越异质(差异大), ),信度系数越高 样本团体越异质(差异大),信度系数越高 2、测验的难度 、 太难,被试只能猜测,做随机反应了, 太难,被试只能猜测,做随机反应了,测验 分数主要取决于随机的误差, 分数主要取决于随机的误差,那么信度就趋 尽零,太容易了,分数很接近, 尽零,太容易了,分数很接近,同样会降低 信度,所以通常的难度是中等水平0.5 信度,所以通常的难度是中等水平