测验的信度
第三讲 测验的信度

(三) 测验难度 难度与信度不存在简单的对应关系。如果 因为难度过大或过小,造成分数范围缩小, 可使信度降低。
(四) 时间间隔 再测法求信度,间隔时间越短信度系数越 大;间隔时间越久,信度系数越低。
的变异是真实分数造成的,误差造成的只占 10%。 rxx =1时,表示没有测量误差。 值得注意的是,信度系数的分布是 0.00~1.00的正数范围,表示信度缺乏~ 完全可信。
(二) 确定信度可以接受的水平(参考p352) 1.当rxx<0.70时,测验不能用于对个人作 出评价或预测,而且不能作团体比较; 当0.70≤rxx<0.85时,可用于团体比较; 当rxx≥0.85时,才能用来鉴别或预测个 人成绩或作为。 2.新编的测验信度应过于原有的同类测验 或相似测验.
第一,实得分数(X)是真实分数(T)和误差(E)之和。
X=T+E 第二, X=T+E转换为方差表示: S2X= S2T+ S2E
第三,信度被定义为:一组测量分数的真分数方差与 总方差(实得分数的方差)的比率。
rxx= S2T/S2X
第四,真实分数的转换: S2T= S2X- S2E 第五,
rxx= 1-S2E/S2X
(四)同质性信度(homogeneity reliability)
重测信度和复本信度主要是考察测验跨时间 的一致性(稳定性)和跨形式的一致性 (等值性)。内部一致性信度系数主要反 应的是题目之间的关系,表示测验能够测 量相同内容或特质的程度。 如,EPQ人格测验的各项目之间的同质程 度。
同质性信度(homogeneity reliability) 1.同质性信度的概念:同质性信度又称内部一致性信 度。指测验的所有题目间性质的一致性,即测得是 同一种心理特质或行为。 2.采集数据的方法:施测一次测验,算出所有测题的 得分,求出各题目间的相关。 当各个测题的得分有较高的正相关时,不论题目 的内容和形式如何,则测验为同质的。相反,即使 所有题目看起来好象测量同一特质,但相关很低或 为负相关时,则测验为异质的。 3.最常看到的同质信度是克伦巴赫(Cronbach)a 系数。
确定测验信度的方法

确定测验信度的方法
(1)再测法,指用同一种测量工具和方法,对同一调查对象,前后两次施测。
采用再测法时应注意三个问题:第一,两次测量的时间间隔要适当;第二,再测法适用于测验项目多的速度测验,而不适用于项目少的难度测验;第三,应设法调动被调查者再测的积极性。
再测法简便易行,因此是一种最普遍,最常用的信度检验方法。
(2)复本法,是指对同一组被调查者同时或连续使用量表的正本和复本进行测量,复本的项目陈述与正本不同,但测量的是同一内容,即在概念、题量、形式和难度方面都一致。
在采用复本法时,一定要注意:一是正本和复本必须同质、同量。
二是两次测量的时间选择要适当,若同时进行,要注意被调查者可能因测量太相似而疲倦的问题;若连续进行,则要注意避免间隔时间太长。
复本法的检验结果比再测法的准确度高,也得到广泛应用,但它本身也有一定的局限:它只能减少而不能完全排除练习和记忆功能的影响;对于许多测量来说,建立复本有一定难度。
(3)分半法,是按正常的程度实施测量,然后将全部项目分成相等的两半,分别统计。
关键的问题是如何将测量分成两半。
一个测量可以采用多种不同的方法分半,但是在大多数情况下,分为前半部分和后半部分是不可取的。
通常采用奇偶分半法,即按奇偶数将项目一分为二,分别计算。
但遇到有关联的项目或解决同一问题的项目时,应将其归在同一半,否则会高估信度的值。
另外要注意当量表中存在任选题时,不宜采用分半法。
测验的信度名词解释

测验的信度名词解释嘿,咱今儿来聊聊测验的信度!你说啥是测验的信度呀?这就好比你有一把尺子,你每次用它去量东西,得出来的结果都差不多,那这把尺子就是可靠的,信度就高。
测验也是一样的道理呀!想象一下,你参加了一场考试,这次考了 80 分,下次再考类似的内容,结果就变成 40 分了,这像话吗?这就说明这个测验的信度不行啊!信度高的测验呢,就像一个靠谱的朋友,不管啥时候找它,它都能给你比较稳定的反馈。
测验的信度其实包括好多方面呢。
比如说重测信度,就是你过段时间再测一次,结果是不是差不多。
这就好像你喜欢吃的那家馆子,你今天去觉得好吃,过一阵再去,味道还是那么棒,那你就会觉得它信度高呀!还有复本信度,就是有两份类似的测验,你做出来的结果也得比较一致才行。
就像你有两双差不多的鞋子,穿起来都很合脚,那才好嘛!那为啥要重视测验的信度呢?这还用问吗!如果测验信度不高,那得出的结果能靠谱吗?那不是瞎耽误功夫嘛!好比你想量自己的身高,结果尺子一会儿长一会儿短,你能知道自己到底多高吗?信度高的测验才能让我们真正了解被测试的东西呀!而且啊,测验的信度对于很多事情都很重要呢!在教育领域,老师通过信度高的测验来了解学生的学习情况,如果测验不可靠,那不是会误导老师和学生嘛!在心理学研究中,要是测验信度不行,那得出的结论说不定都是错的呢!在企业招聘中,要是测试工具信度低,招进来的人不合适,那不是给企业找麻烦嘛!那怎么提高测验的信度呢?这可得好好琢磨琢磨。
首先得保证测验的内容质量高呀,不能乱七八糟的。
然后施测的过程也要规范,不能一会儿这样一会儿那样。
还有评分也要客观公正,不能凭感觉来。
这就跟做菜一样,食材要好,步骤要对,火候要掌握好,才能做出美味的菜肴嘛!咱再回过头来想想,测验的信度是不是真的很重要呀!要是没有信度,那测验还有啥意义呢?所以啊,咱可得重视起来,让测验真正发挥它的作用!怎么样,我说得够清楚了吧?测验的信度,咱可得好好把握呀!。
提高试题信度的方法

提高试题信度的方法
提高试题信度的方法主要有以下几点:
1. 适当增加测验中与原题目具有较好同质性的题目,增加测验的长度。
这样可以排除偶然因素的影响,提高测验的信度。
2. 保持问卷的难度适中。
题目难度太大或太小都可能使得分差异减小,从而降低测验的信度。
3. 保证测验时间充分。
这能确保答卷者能够从容地回答所有问题,使得分反映真实情况。
4. 保持测试的程序统一。
这包括指导语、回答问题的方式、分收试卷的方法和测验时间等都保持一致。
5. 保证测验的内容同质。
要求答卷者具有相同的能力、知识和技能,以提升测验的信度。
这些方法可以提高测验的信度,使结果更准确可靠。
但每个测验的具体情况可能会有所不同,因此在具体应用时需结合实际情况进行选择和调整。
测验的信度

(三)解释个人分数的意义 其一是估计真实分数的范围; 其二是了解实得分数再测时可能的变化情形。 这就是测量标准误的应用。
结合p353公式和事例讲解
(四) 比较不同测验分数的差异
信度在评价两个不同测验的分数是否有明显差异时起着非常 重要的作用。
两个不同测验的分数: ①两个人不同分数的差别 ②同一被试在两个测验上的差别。 这就是差异分数的标准误问题 计算公式:
信度指数(rXT)的平方就是信度系数r2XT。
3.测量标准误 测量误差分布的标准差,即为测量的标准误。 公式为:
SE=S X 1 -rXX
注:SE为测量的标准误, SX是所得分数的标准差, rxx为测验的信度系数
测量的标准误越小,信度越高,反之亦然.
二
信度评估的方法
(一) 重测信度 (二) 复本信度 (三) 分半信度 (四)内部一致性信度 (五) 评分者信度
SEd =S
2-rXX -ryy
注:S 代表两个测验使用的标准差 rxx与ryy代表两个测验的分半信度
※统计学上,一般要求两个分数的差异程度达到0.05的显著水平,才能
承认不是误差的影响。
(二)信度的指标 信度的指标通常3种表示方法 1.信度系数 信度是以信度系数为指标,是一种相关系数.常 常是同一被试样本所得的两组资料的相关,即真 实分数方差与实得分数的方差的比值. rXX=r2XT=S2T/S2X
2.信度指数 信度指数(rXT)是真分数标准差与实得分数标准差 的比值。 rXT=ST/SX
第三讲 测验的信度
主要内容 一 二 三 四 信度的概念 信度评估的方法 信度的意义 影响信度的因素
一
信度的概念
(一) 信度的定义 信度是指同一被试在不同时间内用同一测 验(或用另一套相等的测验)重复测量, 所得结果的一致程度,即一个测验的稳定 性、一致性。 在测量理论中,信度被定义为:一组测量 分数的真分数方差与总方差(实得分数的 方差)的比率。
5心理测量 第五章 经典测验理论——信度

二、估算信度系数的方法
在数据达不到这一要求时(方差不齐性) 卢仑/卢龙Rulon公式:
rXX =1-Sd2/ Sx2
弗朗那根Flanagan公式:
rXX =2[1-(Sa2+ Sb2) ] / Sx2
如果该测验的标准差是15,信度系数是 0.84,那么他智商的真实得分范围是多少?
四、信度系数的作用
3、比较不同测验分数的差异 测量标准误和测验信度在评价两个测验
分数是否有明显差异时也非常重要。 通过差别分数的标准误,可以比较两个
人不同分数的差别和一个被试在两个同 类测验上的差别
四、信度系数的作用
多个测验分数加总的合并分数
分数合成后,信度倾向于提高
测验间的相关越高,合成信度越高
rss
1
k
k (krii ) (k 2 k )rij
rii 平均测验信度 rij 平均测验相关
k 测验数目
三、特殊的信度问题
4、分量表的信度 有些量表是测量单一心理特质、心理内
容的,可计算全量表的信度系数 有些量表由多种分量表构成,应计算各
典型信度系数 0.95 0.90 0.85
0.80
0.75 0.70 0.65 0.60 0.55 0.50
信度系数的意义
测验类型
解释
测量误差几响乎没有影
能力、智力、成就
高到中等的信度
人格测验和态度、兴 趣等一些等级量表
课堂测验
中到低的信度
投射测验
低信度 真分数和误差对测验
四、信度系数的作用
2、解释个人分数 信度系数可以更加精确的解释个人分数,根据
测验的信度问题定

5.2.1再测信度
概念:同一测验让同一组被试做两次, 两次测验中间隔一段时间。计算两次测 验分数之间的相关,其相关系数表明该 测验随着时间的推移是否保持稳定。
使用再测信度时要注意练习效应和学习 效应,注意选择合适的时间间隔。
.
5.2.2复本信度
复本测验是指在性质、内容、题型、难度 等方面都一致的两份或多份测验。同一组 被试在复本测验上所得结果的相关系数就 是复本信度。
.
5.2.3 内部一致性信度
内部一致性是指同一测验里的各题目或各部分题 目是否测了同一个东西。如果测验的各个题目测 的都是同一个东西,这些题目间就有一致性,反 之,题目之间则没有一致性。
估计内部一致性信度的方法有很多种,这些方法 大致可以归为两类。一类是通过测验两半的相关 来估计,另一类是通过题目的方差来估计。
.
5.3 影响信度的几个因素
被试的异质性程度 被试的异质性程度越高,真分数的方差就越大, 信度也就越高。
时间限制 在严格的时间限制下,被试的答题速度对分数有 明显的影响,也就是说被试真分数的方差不仅包 括被试对题目反应的差异,也包含了被试答题速 度的差异。在这种情况下,信度系数就被高估了。
.
测验的长度
测验太难或太容易时,分数的范围就会缩小,从 而降低信度。当测验难度水平为0.5时,信度最高。 题目区分度
题目的区分度与测验信度关系密切。区分度 好的试题对被试的真分数估计得较准确,测量误 差较小。如果一份试卷中题目的区分度都很好, 测验的信度就会很高。
.
5.4 信度系数的用途
一.评价测验 信度系数是衡量测验好坏的一个重要
根据区间估计的方法,假定一个测验的标准误是 SEM=10,被试得分X=50,如果我们想使推测的 正确率达到95%,被试的真分数就落在观测分上 下1.96个标准误的范围内, 即 (X-1.96SEM)≤T≤(X+1.96SEM),结果是30≤T≤70。 这表明,被试的真分数落在30到70分之间的可能 性有95% 。
心理学测验的信度与效度

心理学测验的信度与效度
测验的效度指的是测验的正确性和有效性。
换言之,效度指的是测验能在多大程度上实现测验的目的。
效度是科学测验工具最重要的质量指标。
能测出来想测量东西的程度,则效度高;测不出来,则效度低。
例如:想要测量小明的身高,测量工具是秤,那么,测量不出想要测量的东西,则效度低。
测验的信度又叫做测验的可靠性,指的是测验的一致性程度,即多次测验结果要保持一致。
信度指标通常以相关系数表示,即用同一被试样本所得的两组资料的相关系数作为测量一致性的指标,成为信度系数。
例如:想要测量小明的性格是什么样的,测验结果发现,第一次测验是内向,第二次测验是外向,第三次测验是中性的,那么它的信度比较低。
- 1、下载文档前请自行甄别文档内容的完整性,平台不提供额外的编辑、内容补充、找答案等附加服务。
- 2、"仅部分预览"的文档,不可在线预览部分如存在完整性等问题,可反馈申请退款(可完整预览的文档不适用该条件!)。
- 3、如文档侵犯您的权益,请联系客服反馈,我们会尽快为您处理(人工客服工作时间:9:00-18:30)。
注意: 注意:
信度估计方法不只上面几种, 信度估计方法不只上面几种,实际上有多少 误差来源,便有多少估计信度的方法。 误差来源,便有多少估计信度的方法。原则 上一个测验哪种误差大, 上一个测验哪种误差大,便采用哪种估计方 有时甚至需要有几种信度系数。 法,有时甚至需要有几种信度系数。
重测信度
定义:又称稳定性系数,即使用同一测验, 定义:又称稳定性系数,即使用同一测验,在 同样条件下对同一组被试者前后施测两次, 同样条件下对同一组被试者前后施测两次,求 两次得分间的相关系数。 两次得分间的相关系数。 2-4周 周 计算方法:重测法。 A2,求r12。 计算方法:重测法。A1 , 优点: 优点:能提供有关测验是否随时间而变异的资 料,可作为被试将来行为表现的依据。 可作为被试将来行为表现的依据。 缺点:易受练习和记忆的影响。 缺点:易受练习和记忆的影响。 两次测量之间最适宜的时距:随测验的目的、 两次测量之间最适宜的时距:随测验的目的、 性质和被试特点而异,一般是两周到四周为宜, 性质和被试特点而异,一般是两周到四周为宜, 间隔时间最好不超过六个月。 间隔时间最好不超过六个月。
测量标准误与信度的关系:互为消长, 测量标准误与信度的关系:互为消长, 信度高,标准误低;信度低, 信度高,标准误低;信度低,标准误高
例题: 例题:
1、公式rxx =r2xT=S2T/ S2x和公式 xT=ST/ Sx表明 、公式 和公式r 信度指数的( 就是信度系数。 信度指数的( )就是信度系数。 (A)一半 ) (B)平方 ) (C)倍数 ) (D)本身 ) 2、( )是指同一被试在不同时间内用同一测 、( 或用另一套相等的测验)重复测量, 验(或用另一套相等的测验)重复测量,所得 结果的一致程度。 结果的一致程度。 (A)信度 ) (B)效度 ) (C)难度 ) (D)区分度 ) 3、信度只受 )的影响。 的影响。 、信度只受( 的影响 (A)系统误差 系统误差 (B)随机误差 随机误差 (C)恒定效应 恒定效应 (D)概化作用 概化作用
同质性信度
主要代表测验内部所有题目间的一致性。正 主要代表测验内部所有题目间的一致性。 所有题目间的一致性 相关高,测验为同质的; 相关高,测验为同质的;低正相关或为负相 关时,测验为异质。 关时,测验为异质。 如果测验由许多分测验组成, 如果测验由许多分测验组成,则要求分测验 内部同质,分测验之间异质。 内部同质,分测验之间异质。 计算方法: 计算方法: 库德—理查逊公式:K-R20,K-R21(适 库德 理查逊公式: , ( 理查逊公式 用条件:两级评分, 用条件:两级评分,后者还要求测题难度 相同或近似) 相同或近似) 克伦巴赫α系数 既可适用于两级评分, 系数: 克伦巴赫 系数:既可适用于两级评分, 也可适用于多级评分( 也可适用于多级评分(如有多项选择的人 格测验、态度量表等)。 格测验、态度量表等)。
信度评估的方法
根据反映测验误差的不同来源,可分: 根据反映测验误差的不同来源,可分:
重测信度——考察跨时间的一致性。 考察跨时间的一致性。 重测信度 考察跨时间的一致性 复本信度——考察跨内容的等值性。 考察跨内容的等值性。 复本信度 考察跨内容的等值性 内部一致性——考察题目的同质性。 考察题目的同质性。 内部一致性 考察题目的同质性 评分者信度——考察评分的一致性。 考察评分的一致性。 评分者信度 考察评分的一致性
确定信度可以接受的水平
两个原则: 两个原则:
rxx<0.70时,测验不能用于团体比较和对个人进 时 行评价和预测。 行评价和预测。0.70≤rxx<0.85时,测验能用于 时 团体比较。 团体比较。rxx≥0.85时,能用于鉴别或预测个人 时 成绩或作为。 成绩或作为。 新编测验的信度应高于原有同类测验或相似测验。 新编测验的信度应高于原有同类测验或相似测验。
能力或成就测验: 甚至0.95) 能力或成就测验: rxx≥0.90(甚至 甚至 人格测验: [0.80,0.85]或更高 人格测验: rxxЄ[0.80,0.85]或更高 [0.80,0.85]
解释个人分数的意义
测量标准误的作用: 测量标准误的作用:
估计真实分数的范围; 估计真实分数的范围; 了解实得分数再测时可能的变化情形。 了解实得分数再测时可能的变化情形。
复本信度
等值性系数: 等值性系数:A B
定义:是以两个等值但题目不同的测验(复本) 定义:是以两个等值但题目不同的测验(复本)来 测量同一群体, 测量同一群体,然后求得被试在两个测验上得分的 相关系数。 相关系数。 施测方法:将被试随机分成两半,一半被试先做A, 施测方法:将被试随机分成两半,一半被试先做 , 再做B;另一半先做B,再做A,合并两个A和 的 再做 ;另一半先做 ,再做 ,合并两个 和B的 数据求相关。 数据求相关。
对同一批(多于一个) 对同一批(多于一个)被试前后施测两次或采 用两套相等的测验对同一批被试施测, 用两套相等的测验对同一批被试施测,求取两 次测验分数的相关系数即为测验的信度系数, 次测验分数的相关系数即为测验的信度系数, 这是信度的第三种表示。 即rxx,这是信度的第三种表示。
思考:信度系数与信度指数的关系是什么? 思考:信度系数与信度指数的关系是什么? 有了r 就可以通过公式r 有了 xx,就可以通过公式 xx= 1-S2E/ S2x计算第二 种表示中的SE, 种表示中的 , SE=Sx(1- rxx)1/2
不同测验分数的差比较举例
某被试在韦氏成人智力测验中言语智商 为100,操作智商为105,已知两个分数 都是以100为平均数,15为标准差的标准 分数,假设言语分量表和操作分量表的 分半信度为0.87和0.88,问言语智商和 操作智商是否存在显著性差异。
举例
“大约有 大约有95%的可能性真分数落在所得分 大约有 的可能性真分数落在所得分 的范围内, 的范围内 或有5%的可能性 数+1.96SE的范围内,或有 的可能性 落在范围之外”的描述, 落在范围之外”的描述,其置信区间为 ( )。
测验的信度
主讲:邓稳根
信度的概念
一般定义: 一般定义:
信度:即测验的可靠性, 信度:即测验的可靠性,指的是测验所得结 果的一致程度。 果的一致程度。它是衡量测验质量好坏的最 基本指标。 基本指标。
经典测量理论的定义
经典测量理论的假设:X=T+E.(X为实得分数, 为实得分数, 经典测量理论的假设: 为实得分数 T为真实分数,E为随机误差分数。 为真实分数, 为随机误差分数 为随机误差分数。 为真实分数 可以转换为: 可以转换为:S2x=S2T+S2E. 信度定义: 信度定义:信度是一组测验分数的真分数方 差与总方差(实得分数方差)的比率, 差与总方差(实得分数方差)的比率,即 rxx=S2T/ S2x= 1-S2E/ S2x
真分数估计举例
在一个人格测验中,某个被试的外向性 得分为20分,已知该分测验的标准差为 10,信度系数为0.91。试问该被试外向 性的真实水平处于什么范围(或然水平 为95%?如果对该被试重新施测,他的 分数将不会落在什么范围外?
比较不同测验分数的差异。 比较不同测验分数的差异。
已知X 是否差异显著。 已知 1,X2,求X1,X2是否差异显著。 求X1- X2; 根据SEd=S(2- rxx - ryy)1/2 ,求SEd,这里要 根据 , 求两个测验的标准差相同。 求两个测验的标准差相同。 比较|X 比较 1- X2|/SEd和1.96(要求或然水平为 和 ( 95%时才为 时才为1.96)的大小,如果 1- X2| 时才为 )的大小,如果|X /SEd> 1.96 ,则差异显著;反之,则差异 则差异显著;反之, 不显著。 不显著。
(A)X-1.96SE<XT≤X+1.97SE ) (B)X-1.96SE≥XT ) (C)X+1.96SE≤XT ) (D)X-1.96SEXT≤X+1.97SE )
内部一致性信度
分半信度: 分半信度:1/2A 1/2A
定义 指在测验实施后, 指在测验实施后,将测验按奇偶性分成两 半,并分别计算每位被试在两半测验上的 得分,求出这两半分数的相关系数。 两半分数的相关系数 得分,求出这两半分数的相关系数。 校正 原因:测验长度变短,易低估测验的信度; 原因:测验长度变短,易低估测验的信度; 公式: ,(假设条件是两 公式: rxx=2rhh/(1+rhh),(假设条件是两 ,( 半分数的方差相等,如不等, 半分数的方差相等,如不等,采用弗朗那 根公式或卢伦公式直接求r 根公式或卢伦公式直接求 xx)。
真分数的估计,或再测时实得分数的变化范 真分数的估计, 围计算: 围计算:
根据SE=Sx(1- rxx)1/2,求SE。 根据 。 如果已知或然水平,一般为95%。 如果已知或然水平,一般为 。 则真分数的置信区间或再测时X的变化范围是 的变化范围是: 则真分数的置信区间或再测时 的变化范围是: X-1.96SE<T≤ X+1.96SE
稳定性与等值性系数。 稳定性与等值性系数。A
两个复本的施测相隔一段时间。 两个复本的施测相隔一段时间。
B
优点: 优点:等值性系数能避免重测信度的记忆和学 习效应。 习效应。 缺点:只能减少不能消除练习效应; 缺点:只能减少不能消除练习效应;无法消除 迁移效应;建立复本很难。 迁移效应;建立复本很难。
(A)时间 ) (C)评分 ) (B)题目 ) (D)内容 )
一般要求在成对的受过训练的评分者之间平均 一致性达到( 以上 以上, 观的。 一致性达到 )以上,才认为评分是客 观的。
(A) 0.70 (C) 0.90 (B) 0.80 (D)l .00
信度与测验分数的解释
解释真实分数与实得分数的相关程度 rxx=S2T/ S2x rxx=0, S2E= S2x =0, rxx=1, S2T= S2x =1, rxxЄ[0,1] [0,1]