第五部分心讲义理测量的信度

合集下载

5心理测量第五章经典测验理论——信度

Spearman-Brown公式要求：两半测验的方差齐性。(方差F检验，方差齐性检验)
二、估算信度系数的方法
在数据达不到这一要求时(方差不齐性）卢仑/卢龙Rulon公式：
rXX ＝1－Sd2/ Sx2
弗朗那根Flanagan公式：
rXX ＝2[1－（Sa2+ Sb2） ] / Sx2
如果该测验的标准差是15，信度系数是 0.84，那么他智商的真实得分范围是多少？
四、信度系数的作用
3、比较不同测验分数的差异测量标准误和测验信度在评价两个测验
分数是否有明显差异时也非常重要。通过差别分数的标准误，可以比较两个
人不同分数的差别和一个被试在两个同类测验上的差别
四、信度系数的作用
多个测验分数加总的合并分数
分数合成后，信度倾向于提高
测验间的相关越高，合成信度越高
rss
1
k
k (krii ) (k 2 k )rij
rii 平均测验信度 rij 平均测验相关
k 测验数目
三、特殊的信度问题
4、分量表的信度有些量表是测量单一心理特质、心理内
容的，可计算全量表的信度系数有些量表由多种分量表构成，应计算各
典型信度系数 0.95 0.90 0.85
0.80
0.75 0.70 0.65 0.60 0.55 0.50
信度系数的意义
测验类型
解释
测量误差几响乎没有影
能力、智力、成就
高到中等的信度
人格测验和态度、兴趣等一些等级量表
课堂测验
中到低的信度
投射测验
低信度真分数和误差对测验
四、信度系数的作用
2、解释个人分数信度系数可以更加精确的解释个人分数，根据

2019年第五章心理测量学(打印版)

心理测验在未来发展倾向：团体智力测验、能力倾向测验、人格测验和操作测验。（二）现代心理测验在我国的发展
1916 年樊炳清先生首先介绍了比内—西蒙智力量表。1920 年，北京高等师范和南京师范学校建立了我国最早的两个心理学实验室，廖世承和陈鹤琴先生在南京高等师范学校开设心理测量课。1921 年，他俩正式出版《心理测验法》一书，当时影响很大。1922 年夏天，中华教育改进社聘请美国教育心理测验专家麦考尔来华讲学。
单位是测量的基本要素，没有单位就无法进行测量。好的单位具备条件：一是确定的意义，二是相同的价值。一般来说，心理测量的单位往往不够完善。
三、测量量表
量表是根据一定法则在一个定有单位和参照点的连续体上把事物的属性表现出来的连续体。根据量表的精确度，斯蒂文斯将量表从低到高分为成四种水平，即命名量表、顺序量表、等距量表和等比量表。（一）命名量表
课程简介
心理测量学是心理学的一门专业基础学科，心理测量是重要的心理学研究方法，是心理诊断和人力资源管理中决策的辅助工具，但心理测量工具目前尚不完善。
心理测量是心理学工作者需要熟练掌握的一项工具或一种手段。因为心理测量学中涉及到统计学和数学方面知识，在心理咨询师知识结构中是最难学、最难懂的一门课程，所以，本章课程对大部分参加心理咨询师课程学习者来说是具有相当难度的。
心理咨询师（基础知识）
第五章心理测量学
辅导资料
洪进鹏 2018.11
第五章心理测量学课程目录
第一讲测量：心理咋测量第二讲定义：什么是心理测验第三讲常模：成绩好坏跟谁比第四讲信度：心理测量可靠吗第五讲效度：心理测量准确吗第六讲项目分析：这次测验难吗第七讲编制：测验咋编制第八讲技术：测验咋使用

Ekzfkji心理咨询师基础知识第五章

-+懒惰是很奇怪的东西，它使你以为那是安逸，是休息，是福气；但实际上它所给你的是无聊，是倦怠，是消沉;它剥夺你对前途的希望，割断你和别人之间的友情，使你心胸日渐狭窄，对人生也越来越怀疑。

—罗兰第五章心理测量学知识第一节概述1、简述测量的元素。

测量就是是依据一定的法则用数字对事物加以确定。

测量元素：事物、数字、法则。

所谓事物：指的是我们要测量的对象，更准确地说，就是引起我们兴趣的事物的属性和特征。

所谓数字：是代表某一事物或事物某一属性的量。

所谓法则：代表的是测量所依据的规则和方法。

2、心理测验的定义是什么？所谓心理测验，就是依据心理学理论，使用一定的操作程序，通过观察人的少数有代表性的行为，对于贯穿在人的全部行为活动中的心理特点做出推论和数量化分析的一种科学手段。

3、简述心理测验与心理咨询的关系。

咨询和治疗的有效性，不仅取决于咨询人员对心理咨询的性质、过程的正确认识，熟练掌握心理咨询的原则、方法和技巧，同时还有赖于对求助者心理特性、行为问题性质的正确评估和诊断，以便于提供适当的指导、帮助和行为矫正训练。

因此，心理测验在心理咨询中有重要意义。

心理门诊中：智力测验、人格测验以及心理评定量表。

心理测验是分析求助者心理问题的重要工具。

它不但可以检验咨询人员的判断是否正确，还能帮助其对求助者的问题进行深入的分析。

一般来讲，心理测验应在咨询关系尚未建立之前实施，进入正式的心理咨询程序之后，要尽量避免心理测验。

4、简述世界第一个正式的心理测验。

1904年，法国教育部委派许多教育专家、医学专家和其他科学家组成一个委员会，专门研究公立学校中智力落后儿童的教育方法，比内极力主张用一种测验的方法去辨别和发现智力落后的儿童。

经过他与助手西蒙的精心研究，次年在《心理学年报》上发表了一篇文章，题为《诊断异常儿童智力的新方法》，在这篇文章中他介绍了一个包括30个项目的量表。

这个量表很粗糙。

但它在心理测验史上极其重要，是世界上第一个正式的心理测验。

第五章信度

四、同质性信度
1．含义
同质性信度（homogeneity reliability），也叫内部一致性系数，是指测验内部所有题目间的一致性程度。可弥补分半法的不足。
（★）
2．计算及适用范围基本公式： rkk = K rij / [ 1 +（K - 1）rij ] K为测验项目数 r ij是项目间相关系数的平均数。
复本信度（间隔施测）
分半信度同质性信度评分者信度
时间与内容取样
内容取样内容取样和内容的异质性评分者间的差异
第五节影响信度系数的因素
一、影响因素除被试、测验内容、施测情景外，影响信度系数的因素还有：（一）分数分布的影响分数分布范围越宽，信度系数就越高。被试团体同质性水平同质性越高（个体差异越小）→分数分布范围小→ 信度越低
概化理论的提出
克龙巴赫(Cronbach)等率先提出了概化理论（Generalizabillity Theory ）的基本框架；运用对方差或协方差分量分解的方法，将测验情景中的各类误差进行分解和控制，实现了对经典测量理论的扩展；用于评分者信度的估计、临界分数误差估计、测验分数的推广性和标准参照测验的信度研究中。
库德－理查逊公式 KR20公式： rxx = [ K /（K - 1）] [ 1-（Σpiqi）/ Sx2 ] pi为答对第i题的人数的比例；qi为答错第i题的人数的比例；K为题目数， Sx2为测验总分的变异。适用于：已知各项目的难度
KR21公式： rxx = [ K /（K - 1）] [1 -（K p q ）/ Sx ] ＝[K Sx2-X(K-X)］/(K-1) Sx2 适用于：各项目难度相近的情况
பைடு நூலகம்

心理测量信效度

•
• •
影响测量效度的因素
1.测验的构成当组成测验的试题样本没有较好的代表欲测内容获结构时，测量的内容效度获结构效度必然不会太高 2.测验的实施过程：指导语、意外干扰、或评分计分出错 3.接受测验的被试：应试动机、情绪、态度、身体状况、性别、年龄、文化程度等 4.所选校标的性质 5.测量的信度
提高效度的方法
1.精心编织测量量表 2.妥善组织测验 3.创设标准的应试情境 4.选好正确的校标
信度的估计方法
1.重测信度：指的是用同一个量表对同一组被试施测两次所得结果一致性程度，其大小等于同一组被试在两次测验上所得分数的皮尔逊积差相关系数
• 测量的心理特征必须是稳定的；遗忘和练习的效果基本上可以相互抵消；在两次的施测的间隔内，被试索要测查的心理特质没有获得更多的学习和训练
信度的估计方法
• 复本信度：指的是两个平行的测验测量同一批被试所得到的结果一致性的程度，其大小等于同一被试在两个副本测验上所得分数的皮尔逊积差相关系数 • 稳定性和等值性系数是对信度最严格的检验构造两份或两份以上的真正平行测验；被试有条件接受两个测验（时间和经费）
信度的估计方法
• 分半信度：指的是将一个测验分成对等的两半后，所有将在两半上得到的分数的一致性程度 • 计算：斯皮尔曼-布朗公式（两半的变异系数相等）弗朗那根公式卢仑公式分半信度通常是在只能施测一次或没有副本的情况下使用，在使用斯皮尔曼布朗公式要求在两半测验上得分的变异数要相等，当一个测验无法分成对等两半时，分半信度不宜使用
1.信度是测量过程中存在随机误差大小的反映 2.信度是可以解释个人测验分数的意义 SE=S(x)√1-r(xx)公式中SE为测量的标准误，S(x)是所得分数

心理测量-信度与效度

被评者
公式中 K=3（评定者数）
一二三四五六
N=6（被评者数）
评A 4 1 3 5 2 6 定者B 2 3 4 5 1 6
C325416
R 9 6 ...18 10.5 6
R 9 6 12 14 4 18
R R 2 9 10.52 (6 10.5)2 ... 1810.52 135.5
五、测量的标准误差
X T E
2 X
2 T
2 E
1
2 T 2 X
2 E 2 X
1
X1X2
2 E 2 X
2 E
2 X
(1
X1X
2
)
E X 1 X1X2 E称为测量的标准误差
（一）速度测验的信度
没有完成测验的人数的百分比，可以作为判断一个测验是否是速度测验的依据。但要视具体情况而定。
（二）确定内容效度的方法
1、专家判断法
要件：定义好的总体、划分好细目表、确定好每个题目要测验的内容与技能、准确的评定量表
2、相关法
两个独立取样的测验复本去测同一组被试，如果相关高，一般可以认为具有高效度，但也有可能是同时偏向某个方向造成虚假效度。如果相关低，至少有一个是低内容效度的。
3、再测法
一般来说，纯速度测验几乎不考虑难度因素，但如果难度与速度测验混在一起，就更难处理了。
纯速度测验可用复本法和再测法，指标是两次回答完题目的数量。
如果速度和难度混在一起，就将时间分为四等份，在每个时间点上要被试作记号，然后将一四时间段的题目合并，二三时间段的题目合并，再用分半相关法计算信度。
度。如编制的量表
3、准则关联效度（criterion-related validity）预测效度、实证效度

心理测量第三篇—信度

二、概化理论的基本原理和概念
1.测量目标——希望测量的实体，如能力、成就等特性。 2.侧面——一组特定的测量条件，其中条件的数量为该侧面的水平。
例题：如果要求每个被试写两篇题目不同的短文，并由三名评分者给所有短文评分测量目标：被试的写作水平；侧面：题目和评分者；水平数：分别为2和3。
二、测验长度的影响
一般说来，在—个测验中增加同质性的题目，可以使信度提高。
二、测验长度的影响
假设有一个包括10个题目的测验，信度为0.50，若把测验增加到50个题目，其信度将增加到：
二、测验长度的影响
当由于测题过少而导致信度较低时，增加多少个题目可以达到理论的信度指标，可以用下式来推算：
一、概化理论对经典测验理论的发展
2.概化理论的诞生及其特点 (1)诞生：1972年，克朗巴赫出版《行为测量的可靠性：测验分数和剖面图的概化理论》，正式形成了概化理论(GT)。 (2)特点：克朗巴赫指出：“概化分析超越经典信度分析之处在于它明确问到，这个分析过程如何计算误差?每个来源的变异有多大?”
一、测量的标准误的含义及其作用
5.测量的标准误差的解释
比如：以95%的置信度为标准，则Z0.95=1.96，
它表示真分数有95％的可能性落在范围内。
二、直接估计标准误差
1.公式：估计信度rtt要求每个人都有两个测验分数，估计Se也是一样要求每个人要有成对的分数，每个人成对的分数由复份法、再测法、分半法获得。
（二）分半信度
2.“斯皮尔曼—布朗公式”校正
条件：两个分半测验分数的变异性相等。
（二）分半信度
当两个分半测验分数的变异性不等时：费拉南根(Flanagan)公式：

【心理测量学课件】信度c

x = 10, Mean = 75
meas = 7.07
b. Assume reliability is .9:
x = 10, Mean = 75
meas = 3.16
For applicant with a score of 70: There is a 95% chance that his/her true score is: a. 2 (7.07) or 70 14.14 or 55.86 and 84.14
Test Mean S.D. Reliability
Vocab. 10 Comp. 10 Trans. 10 Math. 10 Reas. 10
3 .80 3 .60 3 .90 3 .85 3 .85
rxy with Comp. .65
rxy with Trans. .33 .30
rxy with Math. .60 .55 .35
2 测量的标准误
• Standard Error of Measurement（SEM）：测量误差分布的标准差
• 假设在不受练习或疲劳等因素的影响下，以同一测验重复测量相同受试者无限多次，由于随机误差的影响，各测验实得分数与真实分数的差，会呈正态分布
2.测量的标准误
• σe
SEM x 1 rtt
SEM 和个体测验分数
• 测量误差被假设呈正态分布，因此，可以用来进行测量分数的区间估计
• For the 95% confidence interval,
X - 1.96 SEM < T < X + 1.96 SEM
SEM 和置信区间
meas = x 1 rtt
a. Assume reliability is .5:

1、下载文档前请自行甄别文档内容的完整性，平台不提供额外的编辑、内容补充、找答案等附加服务。
2、"仅部分预览"的文档,不可在线预览部分如存在完整性等问题,可反馈申请退款(可完整预览的文档不适用该条件!)。
3、如文档侵犯您的权益，请联系客服反馈,我们会尽快为您处理(人工客服工作时间：9:00-18:30)。

式（皮尔逊积差相关公式的变式）为：
rxx
X1X2 NX1X2 S1S2
（公式5－6）
式中X1、X2为同一被试的两次测验分数，X 1 、X 2
为全体被试两次测验的平均数，S1、S2为两次
测验的标准差，N为被试人数。
再测法的模式是：施测适当时距再施测
例2：假设有一份主观幸福感调查表，先后两次施测于 10名学生，时间间隔为半年，结果如表所示，求该测验的重测信度。（为了便于理解和计算，本章估计信度的例子都是小样组，实际应用时应采用大样组。）
SESx 1rxx
（公式5－4）
式中SE表示测量的标准误，即误差分布的标准差度系；数Sx表。示一次测量分数的标准差；rxx表示信
我们可以用测量的标准误来估计个人测验的真分数的大小。
如果选用95％的可靠性水平（置信水
平），即显著性水平（a值）为.05，，
真分数有95％的可能落入X
±Z
2
数的差异与1.96SEd（0.05显著性水平）进行比较，
如果其绝对值大于此值，则差异显著，否则差异不显著。
例2，某校五年级进行了两次数学测验，小张第一次考了85分，此次数学测验年级平均分是77分，标准差是8分，此次测验的信度系数是0.84；第二次考了95分，此次数学测验年级平均分是81分，标准差是10分，此次测验的信度系数是0.91；问小张这两次数学测验的成绩是否有显著差异？
（2）真分数的变异数不能直接测量，因此信度是一个理论上构想的概念，只能根据一组实得分数进行估计。
对于信度系数，还应该注意以下几点：
（1）在不同的情况下，对于不同的样本，采用不同的方法会得到不同的信度系数，因此一个测验可能不止一个信度系数。
（2）信度系数只是对测量分数不一致程度的估计，并没有指出不一致的原因。
S 2X
（公式5－1）
rxx代表信度系数，S 2T 代表真分数的变异数，
S
2 X
代表实得分数的变异数，即总变异数。
根据公式5－1，信度还可以表示为：
rxx
1
S 2E S2X
（公式5－2）
这个定义有两点要注意：
（1）信度是一组测量分数的特性，不是某个测量分数的特性。是对一个人测量多次或对一个群体进行测量得到一组测量分数的特性
表5－1 某幸福感调查表的两次测试结果
测
被试
验 1 2 3 4 5 6 7 8 9 10
3.用来对两种测验分数进行比较
来自不同测验的原始分数是无法直接进行比较的，只有将它们转换成相同尺度的标准分数才能进行比较。
如，某班期末考试，小明的数学成绩是 80分，语文成绩是70分。另外，已知小明所在班级的数学平均成绩是70分，标准差是10分，语文平均成绩是60分，标准差是7分。
back
一、再测信度二、复本信度三、等值稳定性系数四、内部一致性系数五、评分者信度总结练习
back
再测信度(Test-Retest Reliability) ，也叫重测信度，也叫稳定性系数。用同一个测验，
对同一组被试前后施测两次，对两次测验分数
求相关，其相关系数就叫再测信度。其计算公
SE
，即
X ±1.96 SE的范围之内，也可以写成X
－1.96SE T X＋1.96 SE，SE则用公
式5－4代入。或有5％的可能落入这范围
之外。这实际上也表明了再测时分数改
变的可能范围。
例1，已知WISC-R的标准差为15，信度系数为0.95，对一名12岁的儿童实施该测验后，IQ为110，那么他的真分数在95％的可靠度要求下，变动范围应是多大？
注意几点：
（1）SE对真分数做的是区间估计，不可能由此得到一个确切的点。这就是说，测验分数不是一个定点，而是具有一定的分布范围。因此，两次测验分数之间存在差异是很正常的。
（2）置信水平确定后，估计的精度主要取决于SE，SE越小，范围越小，估计就越精确，反之也然。
（3）真分数不能等同于真正能力或心理特质，真分数中包括了系统误差。
2.人通过测量得到的分数很难等于真分数。理论上，我们可以对一个人施测无数次，然后求得所得分数的平均数和标准差。在这个假设的分布里，平均数就是这个人的真分数，标准差则为误差大小的指标。
X
在实际工作中，我们用一组被试（人数足够多）两次施测的结果来代替对同一个人反复施测，以估计测量误差的变异数。此时，个人在两次测验中的分数差异就是测量误差。据此可制成误差分数的分布。这个分布的标准差（误差分布的标准差）我们称之为测量的标准误，是表示测量误差的大小的指标，其计算公式为：
我们可以用“差异的标准误”来检验差异的显著性。
差S 异d的E 标S 准1 误2 E 的S公2E 2 式为S：2rxx ry（y 公式5－5）
r SE d为差异的标准误，S为相同尺度的xx标准r y分y 数的
标准差，Z分数为1，T分数为10。、分别为两个测验的信度系数。
先将原始分数化成标准分数，然后将两个标准分
（3）获得较高的信度系数并不是心理测量有效的充分条件，只是一个必要条件。 back
1.评价测验
信度系数是衡量测验好坏的一个重要的技术指标。
一般能力与学绩测验的信度系数为0.90以上，有的可以达到0.95；标准智力测验的信度系数应达到0.85以上，个性和兴趣测验的信度系数可稍低，一般应达到0.70～0.80，（也有人认为兴趣、性格、价值观等人格测验的信度系数，通常在0.80～0.85或更高些）。当信度系数小于0.70时，不能用测验来对个人进行评价，也不能用来进行团体间的比较；当信度系数大于 0.70时，可用来进行团体间的比较；大于0.85 时，可以用来鉴别个人。
第五部分心理测量的信度
精品jing
一、信度的意义二、信度系数的作用
back
一、信度的意义
信度即测验的可靠性，指的是测量的一致性程度。
信度受随机误差的影响，随机误差越大，信度越低。
在测量学中，信度被定义为：一组测量分数的
真变异数与总变异数（实得变异数）的比率。
即
式中
rxx
S
2 T