《心理测量》复习大纲
- 1、下载文档前请自行甄别文档内容的完整性,平台不提供额外的编辑、内容补充、找答案等附加服务。
- 2、"仅部分预览"的文档,不可在线预览部分如存在完整性等问题,可反馈申请退款(可完整预览的文档不适用该条件!)。
- 3、如文档侵犯您的权益,请联系客服反馈,我们会尽快为您处理(人工客服工作时间:9:00-18:30)。
《心理测量》复习提纲
一、基本概念与理解
测量:依据一定的法则,使用量表(或量具),对事物的特征进行定量描述的过程。
任何测量都应当尽量具备两个要素:参照点和单位。
1、参照点:计量的起点(零点)。
参照点可分为两类:
a.绝对零点(无):如长度为0、重量为0;
b.相对零点(人定的参照点):海拔为0。
温度既有绝对零点(-273℃),也有相对零点(冰点,0℃)。
理想的参照点为绝对零点。
但在心理测量中很难找到绝对零点,多是采用相对零点。
如:考试成绩为0,并非一点知识也没有学到。
2、单位:理想的单位要求能够满足两个条件:
a. 确定的意义(大家都有同样的理解);
b. 相等的价值(相邻两个单位点之间的差别是相等的)。
心理测量的单位往往难以满足上述条件,比如考试成绩,分数也没有确定的意义,也没有相等的价值。
量表:能够使事物特征数量化的数字连续体。
量表有许多不同的种类,按照精确度由低到高可以分为4类:
1、命名量表(nominal scale):无参照点,无单位。
这种量表只是用数字来代表事物或事物的类别,没有任何数量的意义。
比如:运动员号码,学生学号。
2、顺序量表(ordinal scale):无参照点;即便有单位,但单位肯定没有相等的价值。
顺序量表不仅可指明类别,而且可指明不同类别的大小等级或具有某种属性的程度。
比如:运动员名次;学生的成绩优、良、可、劣,计为4、3、2、1;Likert5点量表12345。
3、等距量表(interval scale):有大小关系,而且有相等的单位,但无绝对参照点,只有相对参照点。
比如摄氏温度、IQ分数。
再比如海拔高度10米、20米,不能说后者为前者2倍。
4、比例量表(ratio scale):既有相等的单位,也有绝对参照点,是最完善的量表。
比如长度、重量。
一般说来,心理量表大多数是顺序量表和等距量表。
心理测量(Anastasi定义):心理测量是对行为样本的客观的和标准化的测量。
这个定义包含以下几个方面的内容:
1、行为样本:心理测量通过人的外在行为探讨心理特质,须选取行为样本。
比如,人格测验,就是通过选取某些情境(通过假定的方式),了解人们在这个情境中的行为,来推测其人格特征。
再比如,了解一个儿童是否掌握了两位数乘法,无需将10×10到99×99的所有组合都让其计算,只需选取其中的几道题,如果儿童能够正确计算,即可证明其已经掌握。
2、标准化:简单地说,就是测验的题目、施测、计分和测验分数的解释都必须一致。
所有条件都相同,只有受测者的心理特质不同,分数的变化就应当是不同心理特质导致的。
如同实验设计中控制了无关变量,则因变量为自变量所导致。
3、信度:信度指测量结果的一致性和稳定性。
4、效度:效度是指测量结果的有效性和正确性。
换言之,效度是指一个测验在多大程度上能测出你所要测的特征。
误差:在测量过程中,由与测量目的无关的变量导致的测量结果的不一致或不准确。
误差可分为两类:随机误差和系统误差。
1、随机误差:由与测量目的无关的偶然因素引起的误差。
随机误差无规律、无方向;既影响准确性,又影响稳定性;不可避免。
2、系统误差:由与测量目的无关的恒定因素引起的误差。
系统误差有规律、有方向;只影响准确性,不影响稳定性;找到原因,或可避免。
信度是指测量结果的一致性或稳定性。
信度是用信度系数来刻划的。
信度系数可有3种定义:
定义1:一被测团体的真分数变异数(方差)与观察分数的变异数之比。
定义2:一被测团体的真分数与观察分数的相关系数的平方。
换言之,信度系数是真分数对观察分数的决定系数。
定义3:一个测验X与其平行测验X’的相关系数。
平行测验,也称为等值测验、复本。
不同的两个测验,测量的是同一心理特质,题目的难度、区分度等指标对等,而且测量结果有同样的平均值和标准差,这两个测验互为平行测验。
严格地说,平行测验是一个理想中的概念,实际上是不存在的。
估算信度系数的方法有如下几种:
1、重测信度(test-retest reliability):用同一测验,对同一组被试进行前后两次施测,所得相关系数就叫重测信度。
重测信度反映测验跨时间的稳定性,又称为稳定性系数。
估计重测信度时,应注意以下几点:
a.重测时间间隔不能太短,因为记忆因素影响,这会表现出超常的一致性(假性高相关)。
重测时间间隔也不能太长,因为心理特征(能力、态度、人格特征)会发生变化,这样,测量结果的不一致就不仅是量表本身造成的。
这会低估量表的一致性,低估信度系数。
对于儿童,身心变化快,一般在1月之内重测。
成人心理发展变化较慢,在半年之内也可。
但无论间隔多久,在报告重测信度时要说明间隔时间。
b、重测信度应用于不太容易受重复因素影响的测验,比如,人格量表,感觉-运动测验,可作重测信度估计;而有些测验不宜重测,比如,与问题解决有关的测验、成就测验,都不宜作重测信度估计。
2、复本信度:对一组被试用两个复本测验施测,其相关系数,就是复本信度。
复本信度的估计可分为两种情况:
a. 即刻施测或连续施测:其相关系数大小反映了两个复本测验的题目差异所带来的变异情况,只反映测验跨形式的一致性。
这种情况下,复本信度称为等值性系数。
b. 间隔一段时期进行第二次施测:其相关系数既反映测验形式上的变化,也反映时间上的变化,这种相关系数称为稳定性与等值性系数。
从数值上,应既小于稳定性系数,又小于等值性系数。
3、内部一致性信度:内部一致性信度主要反映的是题目之间的关系,表示测验能够测量相同内容或特质的程度。
内部一致性信度可分为两类:
a. 分半信度:实施一次测验后,将测验分为等值的两半,分别计算被试在两半测验上的得分,再计算其相关系数(使用Spearman-Brown公式矫正)。
此相关系数就代表了两半测验在内容取样上的一致性程度。
b. 同质性信度(homogeneity reliability):同质性信度主要反映所有测验题目得分之间的一致性。
同质性信度大多采用Cronbachα系数来表示。
4、评分者信度。
由于效度是就测量结果在多大程度上达到测量目的而言的。
所以,测量效度的估计在很大程度上取决于人们对测量目的的解释。
目前,较常见的解释角度有3种:
1、用测量的内容来说明目的,称为内容效度(content validity);
2、用心理学上的某种理论来说明目的,称为构想效度(construct validity),也称建构效度、结构效度;
3、用工作实效来说明目的,称为效标效度(criterion-related validity)。
这3种效度分类不是泾渭分明的,而是在许多方面互相重叠,互相联系,互相支持的。
内容效度指一个测验实际测到的内容与所要测量的内容之间的吻合程度。
实际上是说题目取样的代表性问题。
判断内容效度的方法:
a.逻辑法:请有关专家对测验题目与原定内容的吻合程度作出判断,看题目是否代表了规定的内容。
b.经验法:即通过实践来检验效度。
比如,一个儿童发展量表,对不同年龄阶段的儿童进行调查,发现:随着儿童年龄增加,题目通过率逐步提高,可推测该测验有效度。
表面效度(surface validity)是指外行对测验题目的评价,即外行认为这个测验是否有效。
虽然表面效度不能被认为是严格的效度概念。
但是,我们在编制量表、评价量表时要考虑到这个方面。
因为表面效度会涉及到受测者的动机,进而影响到测量效果。
一般的规律是这样,最佳行为测验(能力和成就测验),最好能让受测者意识到题目是测验什么心理内容的,否则被试动机不强;而典型行为测验(如人格、态度测验),最好不让受测者意识到量表项目具体测验什么,这样才可能测到真实的反应。
构想效度指测验能够测量到理论上的构想或特质的程度。
构想效度的确定方法很多:
1、同质性信度:同质性信度可用于评估效度;
2、相容效度法;
3、区分效度法;
4、因素分析法:对量表进行因素分析后,测验在共同因素上的负荷量,就是测验的效度指标。
效标效度(效标关联效度)反映的是测验预测个体在某种情境下行为表现的有效性程度。
比如,以机械能力倾向测验施测,如果测查一批机械工人以后,有证据表明,高分组的实际工作成绩优于低分组的实际工作成绩,就说明该测验有效。
效标:衡量一个测验是否有效的外在标准。
效标可以分为观念效标和效标测量。
比如,高考,其观念效标为“大学学习成功”;
其效标测量为“大学各门功课的学习成绩”。
换言之,效标测量就是观念效标的操作性定义。
一个概念往往有不同的操作性定义。
同样,同一观念效标也往往有多种不同的效标测量。
有人把效标关联效度区分为预测效度和同时效度。
a.预测效度(predictive validity),其效标资料须在测验之后才可收集。
b.同时效度(concurrent validity),效标资料与测验分数可同时收集。
从表面看,同时效度和预测效度的重要区别在于效标收集时间的先后,但实际上,其主要区别在于测验目的。
无论是预测效度还是同时效度,都是考虑测验分数与效标之间的关系,所以有人干脆把两者都称为预测效度。
测验称为预测源。
效标效度可用下列方法估计:
a.相关法:计算测验分数(预测源分数)与效标测量分数的相关系数。
b.区分法:被试接受测验后,过一段时间,再根据效标测量分数的高低将被试分为两组,返过来比较两组被试原先测验分数(预测源分数)的差异,如果两组被试预测源分数的差异显著,则说明该测验有较高效度;
c. 命中率:包括总命中率和正命中率。
被试在接受测验后,根据测验的计分标准,对照被试的反应,所计算出的测验分数,叫作原始分数(raw score),或粗分。
原始分数不易让人把握其意义,不能刻划出被试相互比较后所处的位置。
在得到原始分数后,按照一定的规则,经过统计处理,将原始分数转换为具有一定参照点和单位,且可以相互比较的分数。
这个过程叫分数转换,转换后的分数叫做导出分数。
常见的导出分数有百分等级分数、标准分数。
1、百分等级分数:指在一个群体的测验分数中,得分低于这个分数的人数所占百分比。
其优点:a. 易计算,解释方便,一般人都能够理解;b. 不受原始分数分布的影响,即非正态分布也可用百分比计分。
其缺点:a. 单位不等:中间部分,原始分数差一点,百分等级分数差许多;两端,原始分数差许多,百分等级分数变化极小;b. 只有顺序性。
2、标准分数:标准Z分数;T分数(纪念Termon和Thorndike,T=50+10Z,如MMPI);离差IQ(IQ=100+15Z);美国大学入学考试委员会CEEB(CEEB=500+100Z);标准九分数(美国空军在二战时引入);标准十分数(16PF)。
分数合成:分数转换是针对一个测验的。
但在实际工作中(比如高考、招研),常常需要将几个测验分数(或者说几个预测源)组合起来,获得一个合成分数或作总的预测。
分数合成的方法:
(1)直觉合成:比如,16PF、MMPI作出剖面图后,有经验的咨询师和精神科大夫能很快看出其症结所在。
(2)加权合成:通常先转换为标准分数,再乘以权数累加。
(3)多重回归:以效标分数为因变量,各预测源分数为自变量,进行多重回归。
然后以回归系数为权数。
(4)多重划分(或多重决断,multiple cutoff scores):在有些情况下,所测特质之间是不能互相补偿的,此时须采用多重划分。
例如,招收飞行员时的筛选,其中任何一项检测不合格者均不能录取。
采用多重划分进行筛选,应将最有效的预测源或测验放在前面,紧接第二重要的预测
源,类推。
但在实际生活中,预测源的先后往往取决于测验成本。
成本低者在前。
量表编制过程大致如下:
1、确定测量目的:分两个方面:a. 测什么人(测验对象);b. 干什么用(测验用途)。
2、确定测验内容:包括内容分析和行为(工作)分析。
a. 如果测验目的是考察受测者对某一部分知识和技能的掌握情况,那就应当先进行内容分析。
b. 如果测验是用于对某些行为进行描述和预测,我们就需要对这些目标行为进行行为分析或者工作分析。
我们进行内容分析或行为分析时,可以依据现有的经验和资料,在已有的经验和资料基础上进行分析。
如果没有现成的经验和资料,我们可以先进行初步调查。
依据内容分析或行为分析设计题目后,就开始筛选题目。
3、筛选题目
(1)拟题稿:一般说来,初选题目的数量应是测验计划数量的2-3倍。
(2)预施测:选取难度适当的、区分度较高的题目。
a. 难度一般以通过率为指标。
可采用通过率公式:P=R/N。
通过率越高,表明难度越小。
如果测验的人数较多,可考虑用极端分组法来计算通过率:首先将被试以测验总分由高到低排序,选取高分的27%,低分的27%。
如果某一题目在高分组的通过率为P H,低分组的通过率P L。
则这一题目的通过率为P=(P H+P L)/2。
何谓难度适当?这首先要看测验的目的是什么。
如果测验的目的是检验被测者是否达到某种标准,则无所谓难度,只要内容重要,就必须对这个项目进行测验。
如果测验是考察受测者的分布状况。
则难度P为0.5最佳,如果题目太难,会出现地板效应,题目太容易,会出现天花板效应。
如果测验的目的是选拔录用人员,应将项目的难度控制在接近录取率的范围。
如果录取率为15%,则难度P值最好为0.15。
b. 区分度:测验项目对被试心理品质水平差异的区分能力。
区分度可以鉴别度指数为指标。
若编制了一个精神病诊断量表,其中有一个项目,精神病人78%作出肯定回答(P病=78%),正常人21%作出肯定回答(P常=21%),两者之差,就是鉴别度指数(D=78%-21%=57%)。
有时候,量表所测的心理特质不容易寻找外部效标。
这时可考虑使用内部效标(即量表测验总分)。
项目鉴别度指数D的变化范围为-1.00-1.00。
D的绝对值越大,区分度越高;如果D =0,无区分度。
一般说来,在项目分析时,D:0.40以上,很好;0.30-0.39较好,0.20-0.29尚可,修改;0.19以下,去掉。
区分度还可以相关系数作指标。
即将项目分数与效标分数(或测验总分)的相关系数作为项目区分度的指标,相关越大,项目区分度越高。
此外,还可通过因素分析来筛选项目:一般要删除因素负荷量小的;或者项目在两个因素上负荷量都相同或相近的(因无法确定其应归属哪个因素);或者只有很少项目的因素,连因素带项目一块删除。
c. 定稿:这是相对于此阶段而言。
在使用过程中,发现好的项目,或者随着时间的推
移,某些项目区分度发生变动,都需再次修订。
4、施测:制定常模,收集测验的信度和效度资料。
常模是心理测验时用于比较和解释测验结果的参照分数标准。
制定常模是测验标准化的一个重要组成部分。
制定常模首先要选择一个常模团体。
常模团体是由具有某种共同特征的人所组成的一个群体,或者该群体的一个样本。
一个量表可以有多个常模团体,比如,瑞文推理测验,常模团体有儿童的、成人的、城市的、农村的,儿童和成人中还有不同年龄阶段的、不同性别的。
确定常模团体应注意的事项:
(1)群体构成的界限必须明确:如果群体过大,群体内部有许多小团体,则可考虑对每个小团体分别建立常模;
(2)常模团体必须是所测群体的一个代表性样本。
(3)样本大小要适当(样本少,误差大;样本大,成本大);
(4)常模团体必须是近时的(现有量表许多都是80年代的常模)。
在我国,已经引进和修订的智力量表主要有三种:
一是斯坦福-比奈量表,是吴天敏82年主持修订完成的,叫做《中国比内测验》。
二是瑞文推理测验,英文原版有标准型、彩图型、高级型三种,我国修订后将标准型和彩图型结合在一起,成为联合型瑞文推理测验。
也就是说,瑞文推理测验中国版有联合型和高级型两种。
瑞文推理测验由于不涉及被试的语言文化背景,所以也叫文化公平测验。
三是韦克斯勒(Wechsler)智力量表,韦氏智力量表分为三种:儿童智力量表(WISC, Wechsler Intelligence Scale for Children,适用对象为6-16岁儿童),韦氏成人智力量表(WAIS, Wechsler Adult Intelligence Scale,适用对象为16-74岁成人)、韦氏学龄前及小学儿童智力量表(WPPSI, Wechsler Preschool and Primary Scale for Intelligence,适用对象为4-6.5岁幼儿)。
韦氏量表有两个特点:1、变比率智商为离差智商,IQ=100Z+15;2、量表分为2个分量表,言语量表(Verbal Scale)和操作量表(Performance Scale),言语量表有6个分测验,操作量表有5个分测验。
计分可计言语智商、操作智商、全量表智商。
目前,用于人格测验的量表多达数百种。
从编制方法看,人格量表主要有自陈量表和投射量表。
自陈量表:EPQ、16PF、MMPI
投射量表:罗夏墨迹测验、主题统觉测验(TAT)
二、计算
掌握原始分数、Z分数、T分数、IQ分数之间的换算。
Z=
s x-
X
式中X为原始分数,x为一组数据的平均数,s为标准差
T=10Z+50 式中:T为T分数,Z为Z分数。
(T分数的前提是符合正太的分布的。
)IQ=15Z+100 式中IQ为IQ分数,Z为Z分数。
三、掌握量表编制的一般程序,能够根据要求编制简单量表。