问卷的信效度检验6.9

合集下载

关于调查问卷的信度和效度检验

关于调查问卷的信度和效度检验（一）信度1 、信度的含义测验的信度又称测验的可靠性 , 是指同一个测验对同一组被试施测两次或多次 , 所得结果一致形程度。

一个好的测验必须是稳定可靠的 , 多次使用所获得的结果是前后一致的。

例如 , 用直尺测量长度 , 其结果是稳定可靠的 ; 用橡皮筋测长度则是不可靠的 , 前后测量结果缺乏一致性。

在测量理论中 , 信度被定义为 : 某次测验分数的真变异数与总变异数( 即实测分数 ) 之比 :22S R xxx ST = 式中 Rxx 表示测量的信度 ,ST 2 代表真分数的变异数 ( 方差 ),Sx 2 表示实得分数的变异数 ( 方差 ) 。

For personal use only in study and research; not for commercial use从上式可看出 , （ 1 ）信度是指实测值和真值相差的程度 , 实测值是指对某物实际进行测量时所获得值 , 也称实测分数 (X); 真值是指被测事物的真实规模取值 , 也称真分数(T) 。

由于各种原因 , 实得分数常不等于真分数 , 两者之差称为测量误差或误差分数(E) 。

从理论上看 , 实得分数由真分数和误差分数两部分组成即 :X=T+ERxx 就是对一组测验数据的实测分数与真分数相差程度的最好估计。

（ 2 ）信度又是指相同的测验对相同的被试再次测量时引起的同样反应的程度。

如果两次测验中 , 受测者所得分数或所处等级前后一致 , 则说明测验结果的信度较高 ; 反之 , 两次测验结果一致性低 , 说明测验结果的信度低。

For personal use only in study and research; not for commercial use信度是任何一种测量的必要条件 ( 但不是唯一条件 ), 只有测量值接近或等于真值 , 用同一工具多次测量同一特性获得相同或相近的结果 , 才能认为这个测量结果是可靠的。

关于调查问卷的信度和效度检验

关于调查问卷的信度和效度检验（一）信度1 、信度的含义测验的信度又称测验的可靠性, 是指同一个测验对同一组被试施测两次或多次, 所得结果一致形程度。

一个好的测验必须是稳定可靠的, 多次使用所获得的结果是前后一致的。

例如, 用直尺测量长度, 其结果是稳定可靠的; 用橡皮筋测长度则是不可靠的, 前后测量结果缺乏一致性。

在测量理论中, 信度被定义为: 某次测验分数的真变异数与总变异数( 即实测分数) 之比:ST 2Rxx= ───Sx 2式中Rxx表示测量的信度,ST 2 代表真分数的变异数( 方差),Sx 2 表示实得分数的变异数( 方差) 。

从上式可看出, （ 1 ）信度是指实测值和真值相差的程度, 实测值是指对某物实际进行测量时所获得值, 也称实测分数(X); 真值是指被测事物的真实规模取值, 也称真分数(T) 。

由于各种原因, 实得分数常不等于真分数, 两者之差称为测量误差或误差分数(E) 。

从理论上看, 实得分数由真分数和误差分数两部分组成即:X=T+ERxx就是对一组测验数据的实测分数与真分数相差程度的最好估计。

（2 ）信度又是指相同的测验对相同的被试再次测量时引起的同样反应的程度。

如果两次测验中, 受测者所得分数或所处等级前后一致, 则说明测验结果的信度较高; 反之, 两次测验结果一致性低, 说明测验结果的信度低。

信度是任何一种测量的必要条件( 但不是唯一条件), 只有测量值接近或等于真值, 用同一工具多次测量同一特性获得相同或相近的结果, 才能认为这个测量结果是可靠的。

信度对于教育测量尤其重要, 只有信度高的教育测验才能成为教育工作者有用的工具, 才能为教育工作者提供可靠的信息, 为教育预测和决策提供客观依据。

2 、信度的估计方法测验的信度是用信度系数的大小来表示的, 根据测量理论, 信度系数ST 2Rxx= ───,Sx 2但是在实际测量中, 一般只能获得实得分数(X) 及实得变异数(Sx 2 ), 而真分数(T) 及真变异数(ST 2 ) 是不知道的, 因此, 依据上述公式还无法机算信度系数。

关于调查问卷的信度和效度检验

一个好的测验必须是稳定可靠的 , 多次使用所获得的结果是前后一致的。

例如 , 用直尺测量长度 , 其结果是稳定可靠的 ; 用橡皮筋测长度则是不可靠的 , 前后测量结果缺乏一致性。

由于各种原因 , 实得分数常不等于真分数 , 两者之差称为测量误差或误差分数(E) 。

从理论上看 , 实得分数由真分数和误差分数两部分组成即 :X=T+ERxx 就是对一组测验数据的实测分数与真分数相差程度的最好估计。

（ 2 ）信度又是指相同的测验对相同的被试再次测量时引起的同样反应的程度。

如果两次测验中 , 受测者所得分数或所处等级前后一致 , 则说明测验结果的信度较高 ; 反之 , 两次测验结果一致性低 , 说明测验结果的信度低。

关于调查问卷的信度和效度检验

关于调查问卷的信度和效度检验（一）信度1、信度的含义测验的信度又称测验的可靠性，是指同一个测验对同一组被试施测两次或多次，所得结果一致形程度。

一个好的测验必须是稳定可靠的，多次使用所获得的结果是前后一致的。

例如，用直尺测量长度，其结果是稳定可靠的；用橡皮筋测长度则是不可靠的，前后测量结果缺乏一致性。

在测量理论中，信度被定义为：某次测验分数的真变异数与总变异数ST2（即实测分数）之比：R xx - S x 2式中Rxx 表示测量的信度,ST -代表真分数的变异数（方差）,Sx -表示实得分数的变异数（方差）。

For pers onal use only in study and research; not for commercial use从上式可看出，（1）信度是指实测值和真值相差的程度，实测值是指对某物实际进行测量时所获得值，也称实测分数（X ）;真值是指被测事物的真实规模取值，也称真分数（T ）。

由于各种原因，实得分数常不等于真分数，两者之差称为测量误差或误差分数（E ）。

从理论上看，实得分数由真分数和误差分数两部分组成即:X=T+E Rxx 就是对一组测验数据的实测分数与真分数相差程度的最好估计。

（2 ）信度又是指相同的测验对相同的被试再次测量时引起的同样反应的程度。

如果两次测验中，受测者所得分数或所处等级前后一致，则说明测验结果的信度较高；反之，两次测验结果一致性低，说明测验结果的信度低。

For pers onal use only in study and research; not for commercial use信度是任何一种测量的必要条件（但不是唯一条件）,只有测量值接近或等于真值，用同一工具多次测量同一特性获得相同或相近的结果，才能认为这个测量结果是可靠的。

信度对于教育测量尤其重要，只有信度高的教育测验才能成为教育工作者有用的工具，才能为教育工作者提供可靠的信息，为教育预测和决策提供客观依据。

关于调查问卷的信度和效度检验

关于调查问卷的信度和效度检验一信度1 、信度的含义测验的信度又称测验的可靠性 ; 是指同一个测验对同一组被试施测两次或多次 ; 所得结果一致形程度..一个好的测验必须是稳定可靠的 ; 多次使用所获得的结果是前后一致的..例如 ; 用直尺测量长度 ; 其结果是稳定可靠的 ; 用橡皮筋测长度则是不可靠的 ; 前后测量结果缺乏一致性..在测量理论中 ; 信度被定义为 : 某次测验分数的真变异数与总变异数即实测分数之比 :22S R xxx ST = 式中 Rxx 表示测量的信度 ;ST 2 代表真分数的变异数方差 ;Sx 2 表示实得分数的变异数方差 ..For personal use only in study and research; not for commercial use从上式可看出 ; 1 信度是指实测值和真值相差的程度 ; 实测值是指对某物实际进行测量时所获得值 ; 也称实测分数 X; 真值是指被测事物的真实规模取值 ; 也称真分数 T ..由于各种原因 ; 实得分数常不等于真分数 ; 两者之差称为测量误差或误差分数 E ..从理论上看 ; 实得分数由真分数和误差分数两部分组成即 :X=T+ERxx 就是对一组测验数据的实测分数与真分数相差程度的最好估计..2 信度又是指相同的测验对相同的被试再次测量时引起的同样反应的程度..如果两次测验中 ; 受测者所得分数或所处等级前后一致 ; 则说明测验结果的信度较高 ; 反之 ; 两次测验结果一致性低 ; 说明测验结果的信度低..For personal use only in study and research; not for commercial use信度是任何一种测量的必要条件但不是唯一条件 ; 只有测量值接近或等于真值 ; 用同一工具多次测量同一特性获得相同或相近的结果 ; 才能认为这个测量结果是可靠的..信度对于教育测量尤其重要 ; 只有信度高的教育测验才能成为教育工作者有用的工具 ; 才能为教育工作者提供可靠的信息 ; 为教育预测和决策提供客观依据..2 、信度的估计方法测验的信度是用信度系数的大小来表示的 ; 根据测量理论 ; 信度系数For personal use only in study and research; not for commercial use22S R x xx ST = 但是在实际测量中 ; 一般只能获得实得分数 X 及实得变异数 Sx 2 ; 而真分数 T 及真变异数 ST 2 是不知道的 ; 因此 ; 依据上述公式还无法机算信度系数..在统计上 ; 主要采用相关分析的方法即机算两列变量的相关系数 ; 用相关系数的大小来表示信度的高低..主要用以下方法来求得信度 :1 再测法 : 用同一测验对同一被试 ; 前后施测两次 ; 根据两次测验分数计算相关系数 ; 即是再测信度..该信度反映了测验的稳定性程度 ; 故又称稳定性系数 ; 是用皮尔逊积差相关公式计算的 :2121/21S S M M N X X R xx •-=∑式中 X 1 .X 2 为同一被试的两次测验得分 ;M1.M2 为两次测验的平均分数 ;S 1 .S 2 是两次测验的标准差 ;N 是被试人数..用再测法估计信度 ; 可以得到有关测验结果是否随时间而变化及变化程度的资料 ; 可以作为预测被测者将来行为表现的依据..但也存在明显的局限性 : 前后两次测验结果易受到练习和记忆的影响 ; 前后两次施测的时间间隔影响稳定性系数 ; 特别是对学绩测验的影响较大..如果时间间隔太长 ; 被测者的身心因受环境影响将发生大的变化 ; 从而对第二次施测结果产生较大影响 ; 使稳定性系数降低 ; 如果间隔太短 ; 则被试第一次完成测验时练习和记忆会对第二次测验产生较大影响 ; 使第二次测验性质发生变化..另外 ; 有些测验不宜用再测法估计信度 ; 如测量创造力测验 ; 被试一旦掌握了解决问题的办法、原则 ; 重测时 ; 他将很容易作出反应 ; 这样测验的性质就发生了改变..因此 ; 只有在没有复本可用 ; 测验不易受重复使用影响 ; 现实条件又允许重复施测的情况下才使用重测法估计信度..用重测法估计信度 ; 间隔时间长短没有严格的规定 ; 一般说 ; 间隔时间越长 ; 稳定性系数越低 ; 最适宜的时距应根据测验目的、性质及被试特点而定 ; 最好不超过六个月..对儿童的时距应该短些 ; 对成年人的时距可适当长些 ; 因为个体早期的身心特征变化较大 ; 而成年人的身心特征则相对稳定..2 复本法 . 根据同一测验目的编制的许多平行德等值测验 ; 可测定被试的同一特征 ; 这些等值的测验叫做复本..对一组受测者间隔一定时间或同时施测两个复本 ; 根据两次测验结果求得相关系数 ; 即得等值性系数 ; 又称复本信度..对一组受测者间隔一定时间后施测两个复本所求得的稳定性系数又称等值稳定性系数..因为用这种方法求得的信度不仅受复本质量的影响 ; 而且受时间练习等因素的影响 ; 因此 ; 等值稳定性系数更全面地反映了测验的信度..计算等值稳定性系数是对两个复本测验结果计算斯皮尔曼积差相关系数具体公式见前 ..3 分半法 . 当测验没有复本复本的编制是很复杂的而且测验只适合施测一次的情况下 ; 可用分半法估计信度 ; 即将测验题目分成对等的两半 ; 根据每人在这两半测验中的得分 ; 计算其相关系数 ; 这个系数又称内部一致性系数..要求得分半信度 ; 首先要将测验分成对等的两半..绝大多数测验是由许多题目排列组成的 ; 但是若将测验简单地分成前后两部分 ; 常常是不对等的 ; 对等的两部分起码有两个要求 : 一是测验的两部分在难度、区分度及测验目标上基本是相同的 ; 一是被测者以同等的态度来对待两部队测验 ; 即在完成两部分测验过程中 ; 练习 ; 疲劳 ; 情绪等因素对被试产生了同等的影响..因此 ; 将一个测验分成两部分时 ; 常用的是奇偶分半法 ; 即将奇数题分为一部分 ; 将偶数题分为一部分.. 特别是测验题目是按由易到难排列时 ; 这种分法可以将测验分为大致相等的两半 ; 但是 ; 对于速度型的测验不适合用奇偶分半法..用分半法求出的测验的信度系数并不能反映整个测验的信度..这是因为信度受测验的长度的影响 ; 测验越长 ; 信度越高 ; 将测验分成两半求得的信度系数 ; 低估了整个测验的信度 ; 因此 ; 需对测验系数加以校正 ; 校正公式是斯皮尔曼—布朗 Spearman — Brown 公式 :RhhRhh R xx +=12 Rxx 是整个测验的信度估计系数 ;Rhh 是两个分半测验的相关系数..上述公式的前提假设是两个半测验分数的变异性相等 ; 但是若测验资料不符合这个假定 ; 可用下列公式求得信度 :弗朗那根 Flanagan 公式 :)2221(2Sx Sb Sa R xx +-•= Sa 2 和 Sb 2 分别代表两个分测验分数的变异数 ;Sx 2 代表整个测验的变异数..卢伦 Rulon 公式 :221Sx Sd Rxx -= Sd 2 代表两个半测验分数之差的变异数 ;Sx 2 代表总测验变异数..对于由客观性题目组成的测验即答对一题得一分 ; 答错得 0 分 ; 则可用库得─理查逊Kuder ─ Richardson 公式估计测验的内部一致性 :)2)(1)(1(Sx pq k k Rkk ∑--= k 为测验的总题目数 ;p 为某一个题目的答对率或通过该题目的人数比例 ;q 为未通过该题目的人数比例 ;p=1-q;Sx 2 为测验总分的方差..对于由客观性题目和主观性题目组成的测验 ; 有些题目是多重计分的情况下 ; 则要用克伦巴赫 Cronbach 公式计算α系数来估计测验的内部一致性 :)221)(1(Sx Si k k ∑--=α k 为测验题目总分 ;Si 2 是某一题目得分的方差 ;Sx 2 是整个测验分数的方差..上面这些公式不适用于速度性测验 ; 因为只有每个人做完所有的题目 ; 题目的方差才是准确的..3 、提高测验信度的方法 :影响测验信度的误差归纳起来主要有 :1 抽样误差 : 简单说 ; 这是在抽样过程中由于被试间的差异所造成的误差..被试间的差异可以用全距和方差大小来表示..全距是指某一心理量最大值与最小值之差..全距大说明被试间差异大 ; 全距小说明被试间差异小..被试间在某一心理量上参差不齐 ; 差别悬殊 ; 则该心理量的方差大 ; 反之 ; 方差小..对于方差小的样本 ; 被试间在某一心理特征上相差较小 ; 则前后两次测验结果的一致性较低 ; 即降低了信度.. 因为被试之间的差别越小其同质性越高 ; 被试的分数只要发生小的变化 ; 其名次就可能改变 ; 从而降低信度..2 随机误差 : 由于各种偶然因素的影响而产生的误差 ; 表现为用同一方法多次测量同一对象时结果上不一致..随机误差是由许多因素造成的 ; 如量标的质量 ; 测量的程序 ; 被试的身心状态 ; 测量的环境等..根据影响测验信度的因素 ; 可从以下几方面来提高测验的信度 : 一是从测验本身考虑 ; 如测验的长度、难度、区分度、速度、程序、环境条件与计分方法等 ; 一是从被试自身考虑 ; 如被试在被测心理特征上的差异大小 ; 参加测验的动机水平 ; 对测验的态度和积极性等..在此主要介绍如下几种提高测验信度的方法 :1 适当延长测验的长度 :测验的长度主要指量表所包含的题目多少..对一个测验来说 ; 测验的题目越少 ; 得分越容易受偶然因素的影响 ; 故测验的信度越低..反之如果测验题目较多 ; 即测验长度延长 ; 扩大了被试得分范围 ; 可在一定程度上排除偶然因素的影响 ; 从而提高测验信度..但是测验信度的增加并不是等比例提高信度系数..当信度系数较小时 ; 延长测验长度信度系数增加较大 ; 当信度系数已经较大时 ; 延长测验长度对信度系数的影响就较小了..而且 ; 在延长测验长度时 ; 还需考虑其他因素的影响 ; 如被试在回答问题时是否疲倦或产生厌烦情绪 ; 是否节省时间、物力和财力 ; 测题是否附合测验目的等..2 测验的难度要适中 : 难度即测验的难易程度 ; 当测验难度太大时 ; 被试得分普遍太低 ; 呈负偏态分布 ; 当测验难度太小时 ; 被试得分普遍较高 ; 呈正偏态分布..太难太易的测验都使被试得分差异减小 ; 使实得分数方差减小 ; 从而降低测验信度..参见公式 : 221x E R δδ-=3 测验的内容尽量同质 : 性质相同的测验内容 ; 对被试也要求相同的能力、知识和技能 ; 而内容不同质的测验 ; 则要求被试不同的能力、知识和技能..因而为了提高测验信度 ; 测验内容应尽量同质..4 测验的时间要充分 : 对某一测验而言 ; 应保证绝大多数被试在规定时间内完成测验 ; 否则 ; 如果被试不能从容回答所有问题 ; 就不能反映被试的真实水平..5 测验的程序要统一 : 包括测验的题目统一 ; 指导语、回答问题的方式、分收试卷的方法、测验时间等都要统一..6 评分要客观 : 评分是否客观对测验信度有直接的影响..对于客观性题目 ; 评分标准明确 ; 评分容易做到客观 ; 但对于主观性题目 ; 受评分者影响较大 ; 不易做到客观..为了尽可能客观评分 ; 应制定明确而易掌握的评分标准 ; 尽量做到一卷多评 ; 或一人只评一题等..二效度1 、效度的含义效度 Validity 是指测量的有效程度或测量的正确性 ; 即一个测验能够测量出所要测量特性的程度..例如 ; 用直尺测量长度是有效的 ; 而用来测量温度则是无效的..对效度的定义可作如下理解 :1 任何一种测验只是对一定目的来说才是有效的..2 测验的效度是对测量结果而言的 ; 即一种测量工具只有经过实际测量 ; 才能根据测量结果判断它的效度..3 测验的效度是相对的而非绝对的..测验是根据行为样本 ; 对所要测量的心理特性作间接推断 ; 只能达到某种程度的准确性 ; 而没有全有、全无的差别..在测量理论中 ; 效度被定义为 : 在一系列测量中 ; 与测量目的有关的真变异数即有效变异与总变异数之比 : 222Sx Sy rxy = rxy 表示测量的效度系数 ;Sv 2 代表有效变异数 ;Sx 2 代表总变异数..根据上述公式 ; 可看出效度与信度的关系 :∵ Sx 2 =Sv 2 +SI 2 +SE 2 ST 2 =Sv 2 +SI 222222222Sy SI Sx SI ST Sx Sy rxy =-== ∴ rxy 2 ≤ rxxSI 2 表示系统误差方差 ; 它稳定地与有效方差结合在一起 ; 对信度没有影响 ; 而影响效度..从以上证明看出 ; 测验的效度受测验的信度所制约 ; 而且效度系数不会大于信度系数..效度高的测验 ; 信度必定高 ; 但信度高的测验 ; 效度则未必高..效度在教育测量中有重要的意义..对一个测验来说 ; 效度比信度更为重要 ; 测验首先要保证能如实地测量出所要测量的东西 ; 否则 ; 这种测量将是没有意义的..在教育测量中 ; 效度问题尤其重要 ; 首先 ; 教育测量的对象大多是精神现象 ; 只能对被测者的外部表现进行测量 ; 以间接了解其心理活动特点或知识技能水平..其次 ; 学生的心理活动特征与其外部表现之间 ; 仅有相关关系而没有严格的函数关系 ; 外部行为有时并不能准确地反映某种心理状态..再次 ; 教育测量对象是有主观能动性的人 ; 人是能够有意识地调节自己的外部行为 ; 掩盖自己的内心活动 ; 这就更增加了教育测量的难度..2 、效度的类型与估计1 内容效度 Content Validity: 是指测验目的代表所欲测量的内容和引起预期反应所达到的程度..例如; 以考查学习成绩为目的的测验来说;" 所欲测量的内容" 是指教学大纲所规定的全部教材;" 起预期反应" 是指学生学习这些教材所产生的行为变化; 如对教材的记忆、理解和应用..在编制测验时; 内容效度是一个相当复杂的问题; 例如教师编制学绩测验; 其目的是了解学生在某一学科或专题上对知识掌握情况; 若条件允许; 应该对大纲规定的所有内容进行全面考试; 这显然是行不通的; 只能从这一范围总体内容中选取有代表性题目样本; 组成测验; 根据测验分数推论学生对该范围总体知识的掌握..若测验题目较好地代表了这个知识范围; 则推论是有效的; 即测验的内容效度高; 若选题有偏差; 则推论是无效的; 即测验的内容效度低..从另一方面看; 测验题目所引起的被试反应是一个样本; 若能代表其对本学科或专题的全部行为反应; 也说明该测验是有效的; 反之; 则是无效的..因此; 一个测验要有较高的内容效度应具备如下两个条件:1. 要有定义好的内容范围.. 2. 测验题目取样应有代表性对所界定的内容范围而言..估计内容效度的方法:A 、由专家进行逻辑分析: 即请有关专家对测验题目与原来的内容范围是否符合进行分析; 作出判断; 看测验题目是否较好地代表了原来的内容..B 、统计分析: 克伦巴赫Cronbach 认为内容效度可以进行数量估计; 方法是从同一教学内容总体中抽取两套测题; 分别对同一组被试进行测验; 两种测验的相关系数可用来估计内容效度..若相关系数大; 则内容效度高; 若相关系数小; 则两个测验中至少有一个内容效度低..另外; 有经验的任课教师对本学科测验的内容效度有较好的判断..当然; 若能与有关专家配合会更好些..2 结构效度Construct Validity: 又称构想效度; 是测验对某一理论概念或心理特质量的程度..即某测验对所要测量的结构或心理特质实际测量的程度..心理测验都是建立在心理学理论基础的; 例如比纳─西蒙智力量表的制订; 心理学家比纳Binet 首先详细研究了智力的结构; 他认为智力行为是一种连锁性的过程; 包括判断、推理、解决问题等..他根据这一理论编制的智力测验; 确实测量出被试的判断、推理和解决问题能力; 可以认为他所编制的测验具有结构效度..一般说; 学科测验主要看内容效度; 心理测验主要看结构效度.. 判断内容效度更容易一些; 有教学大纲作依据; 判断结构效度更难一些; 因为理论结构和心理特质不易把握..因此; 要制订有构想效度的测验; 首先要建立理论结构; 例如智力测验; 先要确定关于智力的一套理论; 如智力的概念、结构、与环境的关系、与年龄的关系、与性别的关系等; 在理论的基础上提出若干假设并编制测题..确定结构效度的方法:A 、对测验题目进行分析: 主要是分析测验的内容; 被试对题目所作的反应; 测验题目的同质性以及分测验之间的关系来判断测验的构想效度..B 、计算与同类权威测验的相关: 某一个新测验如果与同类的大家公认有效的已有测验之间; 在测验结果上相关很高; 说明这两个测验测的是相同特质; 即新测验也有较高的结构效度; 如后编的智力测验常与斯坦福─比纳智力量表进行比较..C 、因素分析: 通过因素分析找到影响测验分数的共同因素; 在测验分数的总变异中来自有关因素的比例; 可以作为构想效度的指标..3 预测效度Predictive Validity: 又称实证效度; 是指一个测验对个体将来的行为或获得的成就进行预测时的准确性..一个测验预测得越准确; 预测效度越高..被预测的行为或成绩是检验预测效度的标准; 简称效标Criterion; 即衡量测验有效性的参照标准..效标是估计预测效度的主要依据; 应具备如下一些条件1 有效性: 即效标测量本身必须有效.. 2 可靠性: 效标测量要具有较高的信度.. 3 客观性: 在效标测量时要防止受评定者主观印象和成见的影响; 要防止效标污染; 即由于主试知道某个人原来的测验成绩; 因而影响了在效标测量中对这个人的评定分数.. 4 效标测量应该简单省时; 花费少; 经济实用..一般常用学业成就; 等级评定; 临床诊断; 实际的工作表现作为效标..例如; 一个智力测验其预测效度既可用被试的学业成就作效标; 也可用熟悉的班主任对其进行等级评定作效标.. 估计预测效度的主要方法是:A 、相关法: 即求某测验分数与效标测量间的相关; 所得结果即效标系数..当测验分数与效标测量分数都是连续变量时; 用积差相关公式求相关系数具体公式见统计教材..当测验分数是连续变量; 而效标测量分数是二分变量时; 可用二列相关公式计算效度系数具体公式见统计教材..B 、区分法: 即看原先测验的分数是否可以区分由效标测量所化分的团体..例如; 某工厂通过测验录用了一批工人; 过一段时间后; 根据工作成绩将其分为称职和不称职两种; 然后回过头来检查他们的测验分数; 运用t 检验看看两组在测验上的平均分数是否有显著差异..若有显著差异; 说明测验是有效的; 若差异不显著; 说明测验是无效的..C 、功利率: 为了测定测验的功效; 人们还可对使用测验所化掉的费用与得到的利益进行比较; 看其利弊大小; 这种效度指标叫功利率..U=BNs-CNu-SU 代表功利率;B 表示录用一个合格的工人所产生的平均利润;C 表示录用一个不合格的工人所造成的损失;Ns 和Nu 分别代表所录用的人中成功和不成功的人数;S 代表整个选人程序的费用..计算功利率说明; 如果一个测验简单易做; 适合于团体施测; 即使效度低些; 也会有人采用; 反之; 如果测验复杂; 只能个别施测; 费时费力; 那么只有效度极高; 给人带来极大好处时; 人们才会使用它..提高测验效度对教育测验非常关键; 效度系数多大合适要根据测验的具体情况而定: 1 智力测验分数与熟悉教师对学生智力等级评定之间的效度系数一般在0.30 ─0.50 之间..教师评定常受许多其他因素的影响..2 某一科目的标准测验成绩与任课教师对学生名次排列之间的相关系数应达到0.60 ─0.70 ..3 两种不同的智力测验或两种标准测验之间的相关系数应达到0.60 ─0.80效度系数可解释为效标分数中的变异有百分之几来源于测验的变异..例如效度系数为0.50; 则说明效标分数中有0.502=25% 的变异来自原测验分数的变异; 若效度系数为0.71; 则效标分数中有50% 的变异来自原测验分数..3 、提高测验效度的方法:2 控制系统误差: 系统误差是影响测验效度的主要因素..它主要包括仪器不准; 题目和指导语有暗示性; 答案按排不当被试可以猜测等; 控制这些因素可以降低系统误差; 提高效度..2 精心编制测题和测验量表: 首先测题内容要适合测验目的; 如知识性测题就不能全面反映被试的智力水平; 它主要测量其知识水平..其次; 测题要清楚明了; 用语要让被试理解; 排列由易到难..第三; 测题的难度和曲分度要合适..3 严格按照测验程序进行测量; 防止测量误差: 要严格按照测验手册进行测量; 不能作过多的解释; 按标准评分; 两次测验间隔要适当..4 样本容量要适当: 当样本容量增大时; 样本对总体的代表性提高; 样本大; 被试的内部差异增大; 扩大了真分数的方差; 使效度提高..样本容量一般不应低于30 ..另外; 抽样方法也很重要; 一般用随机抽样; 当群体很大时; 可分层抽样; 样本容量扩大时; 其代表性才随之增大..5 正确处理好信度与效度的关系 : 信度是效度的必要条件 ; 但信度高的测验 ; 效度不一定高 ; 而效度高的测验 ; 信度却比较高..但是 ; 既要有高效度 ; 又要有高信度是不容易做到的..“最大可靠度信度要求测验项目之间有高度的组间相关；最大预测有效度却要求低度的组间相关..最大可靠度信度要求项目等同的难度；最大预测有效度却要求项目的难度有所区别..中等程度的组间相关 0.10 ─ 0.60; 通常可产生良好的效度 0.30 ─ 0.80; 并且产生满意的信度 0.90 ..” 郝德员 : 《教育与心理统计》 ; 教育科学出版社 ;1962 年版 .P4296 适当增加测验的长度 : 增加测验的长度可提高测验的信度 ; 也可以提高效度 ; 但增加测验的长度对信度的影响大于对效度的影响..如果增加测验长度到原来的 n 倍 ; 则新测验的效度系数 Rnxy 计算公式 :Rxx n Rxx RxyRnxy +-=1式中 Rxy 、 Rxx 分别是原测验的效度系数和信度系数..仅供个人用于学习、研究；不得用于商业用途..For personal use only in study and research; not for commercial use.Nur für den persönlichen für Studien; Forschung; zu kommerziellen Zwecken verwendet werden. Pour l 'étude et la recherche uniquement à des fins personnelles; pas à des fins commerciales.толькодля людей; которые используются для обучения; исследований и не должны использоваться в коммерческих целях.以下无正文。

问卷信效度检验方法

问卷信效度检验方法
问卷的信效度检验是确保问卷测量结果可靠性和准确性的重要步骤。

以下是问卷信效度检验的常用方法：
1. 信度检验：
重测信度法：通过在不同时间对同一群体进行重复测量，评估问卷的一致性。

复本信度法：同时使用多个版本（复本）的问卷对同一群体进行测量，以
评估一致性。

内部一致性信度法：通过计算问卷内部各题目之间的相关性或一致性，评
估问卷的一致性。

2. 效度检验：
内容效度：邀请相关领域的专家对问卷内容进行评估，确保问卷内容与目
标领域相关且准确。

结构效度：通过因子分析、验证性因子分析等方法，检验问卷的结构是否
符合预期的理论结构。

验证效度：将问卷与其他已知效度高的测验进行对比，以评估问卷的效度。

应用效度：将问卷应用于实际情境中，评估问卷的实际效果和应用价值。

在问卷信效度检验的过程中，通常需要使用统计软件（如SPSS、AMOS等）对数据进行处理和分析。

根据分析结果，可以对问卷进行修订和优化，以提高其信效度。

检验问卷的信度和效度

检验问卷的信度和效度检验问卷的信度和效度一、问卷的信度信度即可靠性，是指采用同一方法对同一对象进行调查时，问卷调查结果的稳定性和一致性，即测量工具（问卷或量表）能否稳定地测量所测的事物或变量。

具体评价方法有：1、重复检验法。

同样的问卷，对同一组访问对象在尽可能相同的情况下，在不同时间进行两次测量。

两次测量相距一般在两到四周之内。

用两次测量结果间的相关分析或差异的显著性检验方法，评价量表信度的高低。

2、交错法。

用两个不同形式的等价问卷，对同一组受访者在不同的时间（通常间隔两到四周）进行测量。

两次测量结果间的相关性被用来评价问卷的信度。

3、折半法。

折半法是将上述两份问卷合成一份问卷（通常要求这两份问卷的问题数目相等），每一份作为一部分，然后考察这两个部分的测量结果之间的相关性。

二、问卷的效度效度是指问卷正确测量研究者所要测量的变量的程度。

检验效度的主要指标和方法有：表面效度、准则效度、架构效度。

1、表面效度（Face Validity)。

也称为内容效度或逻辑效度，指的是测量的内容与测量目标之间是否适合，也可以说是指测量所选择的项目是否“看起来”符合测量的目的和要求。

主要依据调查设计人员的主观判断。

2、准则效度(Criterion Validity)。

准则效度是指量表所得到的数据和其他被选择的变量（准则变量）的值相比是否有意义。

根据时间跨度的不同，准则效度可分为同时效度和预测效度。

3、建构效度（Construct Validity)。

最关心的问题是：量表实际测量的是哪些特征？在评价建构效度时，调研人员要试图解释“量表为什么有效”这一理论问题以及考虑从这一理论问题中能得出什么推论。

建构效度包括同质效度、异质效度和语意逻辑效度。

同质效度是指量表测量同一特征的其他测量方法相互关联的程度。

异质效度是指量表和测不同特征的测量方法不同但理论上有关特征的测量方法之间相互关联的程度。

建构效度指测量工具所能测量到的理论概念的程度，也就是说若将测量工具所得的结果与相同理论下的其他概念相比较，当二者有某种预期的相关性时，就表示这种测量工具具有某种程度的架构效度。

调查问卷的信度与效度

提高效度的设计策略
设计具有代表性的样本
确保样本具有代表性，能够反映整个目标群体的特征。
避免双重性问题
双重性问题是指一个问题中包含两个或多个方面，被调查者难以回答。
使用封闭式问题
封闭式问题可以限制答案的范围，使数据更容易汇总和分析。
确保问题的逻辑性
问题的排列顺序应该符合逻辑，以便被调查者能够轻松地理解问题的意图。
提高信度的设计策略
确保问卷的稳定性
通过测试和复查，确保问卷在各种情况下都能稳定地运行和得出准确的结果。
设计清晰的指导语
指导语应该简明扼要，清晰明了，以帮助被调查者正确理解问卷。
使用易于理解的问题
使用简洁的语言，避免使用复杂的术语和行话，以确保所有被调查者都能理解问题。
避免引导性问题
引导性问题会引导被调查者朝着特定的方向回答，从而影响结果的准确性。
信度是衡量一个调查问卷质量的重要指标之一，它反映了测量结果的可靠性和可重复性
。
信度的评估方法
重测信度法
对同一组受访者进行两次以上的测量，比较两次测量的结果是否一致。
内部一致性信度法
分析同一份问卷中不同题目之间的相关性，以及同一个题目在不同受访者之间的差异。
外部一致性信度法
将问卷与其他已有的可靠问卷进行比较，以评估问卷的信度。
《调查问卷的信度与效度》
xx年xx月xx日
contents
目录
• 调查问卷的信度 • 调查问卷的效度 • 调查问卷的设计与优化 • 调查问卷的应用场景与实例分析
01
调查问卷的信度
信度的定义
信度是指测量结果的稳定性程度，即无论何时、如何进行测量，结果都应该相同或者十分接近。换句话说，信度评估的是测量的一致性和稳定性。

1、下载文档前请自行甄别文档内容的完整性，平台不提供额外的编辑、内容补充、找答案等附加服务。
2、"仅部分预览"的文档,不可在线预览部分如存在完整性等问题,可反馈申请退款(可完整预览的文档不适用该条件!)。
3、如文档侵犯您的权益，请联系客服反馈,我们会尽快为您处理(人工客服工作时间：9:00-18:30)。

效度的分类

内容效度

效标关联效度
结构效度
效度的分类

内容效度
1. 定义：指测验或量表内容或题目的适切性与代表性，即测验内容
能否反应所要测量的心理特质，能否达到测量的目的或行为构念。
效度的分类

内容效度
2.计算方法：内容效度是一个主观指标，一般通过专家评议打分进行，应用最广泛的指标是内容效度指数。
(2)对于高考来说，大学关心的是预测效度；而心理学家关心的是
结构效度（测量了哪些能力与技能）。
谢谢
3.计算：

分半信度先要确定分半方法
最常用的为奇偶分半法：（1）可将项目按由易到难的顺序排列编号（2）按奇数和偶数序号将项目分半

计算两半的相关系数
利用公式校正（若分为不相等的两部分）
信度的分类

内部一致性信度
（二）库李信度
1. 定义：简称K-R信度系数。
2.适用范围：适用于是非题，亦即二元化计分（0、1计分）的测验
3.因子分析步骤： (1)采用KMO检验进行适切性评估：
(2)采取极大似然法、主成份分析、主轴法等抽取因素。
效度的分类

结构效度
4.判定标准：
1 2 3
公因子方差均应大于0.4，该指标表示每个条目的40%以上的方差都可以用公因子解释
公共因子应与问卷设
每个条目都应在其
计时的结构假设的组
成领域相符，且公共因子的累积方差贡献率至少40%以上
中一个公因子上有
较高负荷值（大于 0.4），而对其他公共因子的负荷值则较低
理论正确排除干扰操作规范
提高效度
增加长度
样本适宜
控制误差
效度的小结

根据不同的需要，一个测验可以采用不同的效度
例如： (1)对于智力测验来说，既可以有实证效度（预测将来的行为）和结构效度（对组成智力的各个因素测的如何），也可以有内容效度（对于智力的各个方面的取样是否适当）。
调查兴趣、爱好、习惯
信度的分类

复本信度
1. 定义：用两个平行测验（同一测验的两个复本）在相距最短时间
内测量同一组被试所得结果的一致性程度，其大小等于同一组被试
在两个复本测验上所得分数的皮尔逊积差相关系数。
局限性
•复本测试只能减少而不能排除练习和记忆效应
使用条件
•内容、形式 •数量、难易 •时限、指导语等方面相同或相似
使用条件
复本信度
•建立复本相当困难
•两次测试的时间间隔要适当
局限性
因此，采用此方法者较少
信度的分类
评分者信度

1. 定义：指多个评分者给一组测验结果评分，所得分数之间的一致
性程度。Βιβλιοθήκη 2.计算方法：积差相关系数
肯德尔和谐系数
两个评分者
3人以上且采用等级评分
信度的分类

评分者信度
变量类型极好较好较差
内部一致性信度
（一）分半信度
1. 定义：在测验没有复本且只能实施一次的情况下，可将测验项
目分成对等的两半，根据被试在这两半测验中所得的分数计算相
关系数，即得分半信度。
2.适用范围：一般不适用于事实式问卷（如年龄与性别无法相比），常用于态度、意见式问卷的信度分析。
信度的分类

内部一致性信度
（一）分半信度
数据方面。
信度的分类

内部一致性信度
（三）α 系数或克伦巴赫(Cronbach)公式
1. 适用于一切非0、1记分和连续记分（即多重记分）的情况，适用
于态度、意见式问卷（量表）的信度分析
2.α 系数具有以下性质：
(1)α 系数是所有可能的分半信度的平均值
(2)系数是估计信度的最低限度
信度的分类

内部一致性信度
（三）α 系数或克伦巴赫(Cronbach)公式
内部一致性系数指标判定原则
信度的分类

重测信度
1. 定义：指用同一量表对同一组被试测试两次所得结果的一致程度
，其大小等于同一组被试在两次测验上所得分数的积差相关系数。 2.形式：
施测
时间间隔再测
相关系数
3.判定标准：重测信度系数能达到0.70以上即可。
计算S-CVI/UA
计算I-CVI 专家评议
效度的分类

内容效度
4.判定标准：
I-CVI： A.专家 ≤5 人时，I-CVI=1.00 B.专家≥6 人时，I-CVI≥0.78
S-CVI/UA ： ≥ 0.8 提示量表内容效度较好 S-CVI/Ave： ≥0.90
具有较好的内容效度
效度的分类

内容效度与表面效度的区别
文本
文本
表面效度是由外行对测验做表面上的检查确定的内容效度是由够资格的判断者（专家）详尽地表面效度不能算是一种效度，它不反映测验实际测量的内容，但能取得受试者的合作
文本
、系统地对测验评价而
建立的
效度的分类

效标关联效度
1. 定义：指测验与外在效标间关系的程度，如果测验与外在效标间的相关愈高，表示此测验的效标关联效度愈高。
信度低效度一定低，但信度高未必表示效度也高
信度的分类
重测信度内部一致性信度评分者信度
复本信度
信度的分类

内部一致性信度
性）程度。
1. 定义：指的是测验内容或测验内部所有题目的一致性（项目同质
2. 计算方法：
(1)分半法 (2)K-R信度系数 (3)系数或克伦巴赫公式法
信度的分类

效度的分类

结构效度
分数能够解释多少某一心理特质。
1. 定义：指能够测量出理论的特质或概念的程度，亦即实际的测验
2. 计算方法：因素分析。使用者如果以因素分析去检验测验工具的效度，并有效的抽取共同因素，此共同因素与理论架构的心理特
质甚为接近，则可说此测验工具或量表具有建构效度。
效度的分类

结构效度
分类变量
>0.75
0.4-0.75
<0.4
等级或连续变量
>0.75
0.6-0.75
<0.6
延长测验长度
评分需要客观
测验难度适中
Enterprise Solution
测验程序统一
提高信度
测验内容同质
Web Service
测验时间充分
信度小结
估计测验中跨项目或两个分半测验的一致性
内部一致性信度
估计测验中跨时间的一致性估计测验中跨形式的一致性
问卷的信效度检验
目录
信度的概念信度的特征信度的分类信度的小结
效度的概念效度的特征效度的分类效度的小结
信度的概念

信度
即测量的可靠性，用以反应在相同条件下，对同一客观事物测
量若干次，测量结果的相互符合程度或一致程度。
信度的特征
1 2 3
信度指的是评量工具获取的结果而非工具本身
信度系数可能因不同时间、不同受试者或不同评分者而出现不同的结果
预测效度
指测验分数与将来的效标之间关系的程度
同时效度
指测验分数与目前效标数据之间关系的程度
效度的分类

效标关联效度
2.计算方法： (1)相关法：当预测分和效标分都是连续变量时，可采用积差相
关系数的计算方法来求得测验的效度系数。
(2)区分法 (3)命中率 (4)功利率
效度的分类

效标关联效度
3.判定标准： (1)预测效度：效度系数通常较低,多在0.20-0.60之间,很少超过0. 70,一般以0.4-0.8之间比较理想。 (2)同时效度：一般认为相关系数在0.4-0.8比较理想。
条目I-CVI
量表-SCVI
全体一致S-CVI（S-CVI/UA）
平均S-CVI（S-CVI/Ave）
效度的分类

内容效度
3.计算步骤：
量表所有条目 I-CVI 的均数
计算S-CVI/Ave
被所有专家均评为 3 或 4 分的条目数占全部条目的百分比每一条目给出评分为 3 或 4 的专家人数除以参评的专家总数 1= 不相关 2= 弱相关 3= 较强相关 4= 非常相关

重测信度复本信度

估计测验中跨评分者的一致性
效度的概念

效度
指测量的有效程度或测量的正确性 , 即一个测验能够
测量出所要测量特性的程度。
效度的特征
效度的特征
1

2

3

指测验结
高效度测
效度只能
果的正确性或可靠性，而非指测验工具本身
验工具施测于不同的受试者，可能会导致结果的不正确
从现有信息作逻辑推论或从实证资料作统计检验分析
信度的分类
重测信度的使用条件
被测的特征和属性在两次测验之间没有发生变化
以2-4周较为合
适，样本量通常为20-30人
两次施测期间被
试的学习效果没有差别
重测信度的使用条件
信度的分类
特别适用于事实式问卷
个人一般信息即性别、出生年月等
适用范围
态度、意见式问卷
如果没有突发事件导致被调查者的态度、意见突变