难度、区分度、信度、效度

试卷分析的四个度：难度、区分度、信度、效度

一、难度

难度是指试题的难易程度，它是衡量试题质量的一个重要指标参数，它和区分度共同影响并决定试卷的鉴别性。

一般认为，试题的难度指数在0.3－0.7之间比较合适，整份试卷的平均难度最好在0.5左右，高于0.7和低于0.3的试题不能太多。

1、难度的两种定义：

（1）P=1—x/w x为某题得分的平均分数，w为该题的满分。这种定义法，难度值小时表明试题容易，值大时表明试题难，最小值为0，最大值为1。

（2）P=x/w 这种定义法，难度值小时表明试题难，值大时表明试题容易，最小值为0，最大值为1。

2、难度的计算：

（1）主观性试题的难度

A 基本公式法：P=1—x/w

B 极端分组法P=1—(XH+XL)∕2W XH：高分组的平均得分（前27%），X L：低分组的平均得分（后27%）。

（2）客观性试题的难度

A 基本公式法：P=1—R/N R 为答对人数，N 为全体人数。

B 极端分组法：P=1—（PH+PL）∕2

PH=RH/n 叫高分组通过率，RH：高分组答对人数，n：总人数的前27%。PL =RL/n 叫低分组通过率，RL：低分组答对人数。

二、区分度

区分度是区分应试者能力水平高低的指标。试题区分度高，可以拉开不同水平应试者分数的距离，使高水平者得高分，低水平者得低分，而区分度低则反映不出不同应试者的水平差异。

试题的区分度与试题的难度直接相关，通常来说，中等难度的试题区分度较大。另外，试题的区分度也与应试者的水平密切相关，试题难度只有等于或略低于应试者的实际能力，其区分性能才能充分显现出来。

区分度指标的评价：-1.00≤D≤+1.00，区分度指数越高，试题的区分度就越强。一般认为，区分度指数高于0.3，试题便可以被接受。

2、区分度的计算方法：

基本公式法：D＝（H－L）÷N（D代表区分度指数，H代表高分组答对题的人数，L代表低分组答对题的人数，N代表一个组的人数即高分组与低分组人数之和）。

极端分组法：

（1）主观性试题：D=SH—SL∕n(WH-WL)

SH:高分组得分总数，SL：低分组得分总数，WH：该题的最高得分，WL：该题的最低得分，n为高分组（或低分组）的人数，即总人数的27%。

（2）客观性试题：D= PH—PL ,或D= RH—RL∕n

计算。XH：高分组某试题的平均分，XL：（3）一般也可以用D=XH—XL∕X

满

低分组某试题的平均分，X

：该题的满分。

满

三、信度

信度是指测得结果的一致性或稳定性，稳定性越大，意味着测评结果越可靠。相反，如果用某套试题对同一应试者先后进行两次测试，结果第一次得80分，第二次得50分，结果的可靠性就值得怀疑了。

信度通常以两次测评结果的相关系数来表示。相关系数为1，表明测评工具如试卷完全可靠；相关系数为0，则表明该试卷完全不可靠。一般来说，要求信度在

0.7以上。

1、评价信度的方法：

（1）重测法，（2）复本法—副题，（3）折半法，或者说：用再测信度、复本信度和内部一致信度三种方法来进行评估。

再测信度是指将同一试卷在相同的条件下对同一组考生先后实施两次，两次测评结果的相关系数。

复本信度是指用两份或几份在构想、内容、难度、题型和题量等方面都平行的试卷进行测试，测评结果之间的相关系数。

内部一致信度是指试卷内部各题之间的一致性，通常是将试卷一分为二，然后计算一半试卷与另一半试卷之间的相关系数。

2、信度系数γxx=ST2∕SX2ST2 叫真分数方差，SX2 为获得分数方差。信度系数的最大值为1，表示测验的可靠性高，最小值为0，表示测验的信度低。当γxx≥0.70时，测验可用于团体间的比较。当γxx≥0.85时，测验可用于个体之间的比较。

四、效度

效度是一个测试能够测试出它所要测试的东西的程度，即测试结果与测试目标的符合程度．

任何测试工具，无论其它方面有多好，若效度太低，测试的结果不是它要测试的东西(如用英语试卷测试学生的数学能力)，那么，对目前所要测试的东西，这个测试将是无价值的。

由于心理现象本身的特点，测评的效度尤为重要。心理属于精神方面的东西，目前人们还无法直接观察它，只能通过一个人的行为模式或者对测试题目的反应，来推论其心理特质。如智力水于主要是借助于个体对一些问题的反应及正误等结果来推断的。

效度是一个相对概念，即效度只有高低之分，没有全部有效和全部无效之分。效度从种类上可分为卷面效度、内容效度、构想效度、预测效度和共时效度。

信度、效度、区分度、难度地使用

信度、效度、难度、区分度及其在试卷分析中的使用教学测量（instructional measurement）是考核教学成效的一种方法。这是借助于一定的手段与方式，对学生的学习成绩（简称学绩）进行探察，并以一定的数量来表示的考核办法。2. 在教学测量中应注意什么（1）教学测量的目的在于考核教学成效，也就是考察教学目标的完成情况。因此，教学测量的目标应以教学目标为依据，测量目标应与教学目标一致，而不能偏离教学目标（2）教学测量的对象是学生在的能力与品德等的形成状况，它不可能像物理测量那样直接进行，只能借助于一定的手段与方式间接进行。（3）教学成效是通过量化的学绩进行考察的。也就是说，教学成效是以学生的学习成绩为直接考察依据的，而学绩是以一定的数量来表示的，因此命题的合理性与评分的客观性是有效教学测量的一个重要影响因素教学评价（instructional evaluation）就是依据教学目标，对学绩测验所得测量结果进行分析及解释。它主要包含以下两个方面的工作。（1）教学评价必须对学绩测验数据所表明的教学成效作出确切的诊断。（2）教学评价必须对教学的成败原因进行分析，并对今后教学工作的改进方面作出明确的规定。评价（估）的功能：为家长提供信息，为选拔提供信息，为学生提供信息，为教师提供信息，为学校（间）提供信息

教学目标，有时也称为行为目标，是指对学生在一段时间教学后应该掌握的技能与概念的述。 v信度信度指的是测量结果的稳定性程度，信度是衡量一个量表质量高低的重要指标。信度不高的量表是不能使用的。3.常见的信度种类（1）重测信度（2）复本信度（3）分半信度（4）同质信度(部一致性信度）（5）评分者信度影响信度的因素 ?被试 ?主试者 ?施测情境 ?测量工具

心理学中的各种信度和效度

心理学中的各种信度和效度一、信度所谓信度，指的是测量结果的稳定性程度，其操作定义是，信度乃是一个测验X与它的任意一个“平行测验X＇的相关系数。无关因素、测验的长度、测验试题的区分度、被试团体的代表性都会影响信度。（一）重测信度 1、定义：利用同一量表，让同一被试群体在不同时间两次施测之后的相关值。这一信度值表示的是测验结果的稳定性，故也称之为稳定性系数。 2、形式：施测——经过适当时间——再施测 3、举例：假设有一份主观幸福感调查表，先后两次施测于10名学生，时间间隔为半年，结果如下表所示，求该测验的重测信度。 4、使用的前提条件（1）所测量的心理特质必须是稳定的。（2）遗忘和练习的效果基本上互相抵消。（3）在两次施测的间隔期内，被试在所要测查的心理特质方面没有更多的学习和训练。5、注意事项（1）有些测验不宜采用重测法估计信度，如测量推理和创造力的测验。那些不易受重复使用影响的测验才能用再测法估计信度。如感觉运动测验、人格测验。（2）两次测验间隔的时间要适当，并注意提高被试的积极性（3）测验手册中报告重测信度时应说明两次施测的间隔，以及在此期间内被试的有关经历（4）时间间隔的把握：适宜时间间隔依照测验目的、性质及被试特点而定，可以是几分钟甚至几年。例如对于年幼儿童的间隔要小；年长群体的间隔可大。但智力测验的间隔不能太短，成就测验的间隔不能太长。一般间隔时间不超过六个月，既不能让被试记住上一次测验的内容，又不能让其特质发生变化，或对所学知识产生遗忘。 6、重测信度的评价：（1）优点：能够提供有关测验结果是否随时间而变异的资料，可作为预测受测者将来行为表现的依据。（2）缺点：易受练习和记忆的影响，前后两次施测间隔的长短必须要适度。（二）复本信度

信度和效度

信度和效度社会学系02研王丽云当我们建构和评估测量时，我们通常使用信度和效度这两个技术性指标。简单地说信度就是指测量数据和结论的可靠性程度，也就是说测量工具能否稳定地测量到它要测量的事项的程度。我们可以举例说明信度的问题：如果想知道某人的体重，我们可以叫两个人来估计，一个人的估计为150镑，另一个人的估计为300镑，那么我们就可以认为，叫别人来估计体重是非常不可信的方法。如果用磅秤，连续测量两次的结果都是相同的，因而我们可以说，在测量体重方面，用磅秤的方法要比叫人来估计更可信。我们可以用信度系数来表示信度的大小。我们知道在进行测量时，误差是难免的，这就使得真实值和测量值之间是不可能完全一致。我们可以这样来表示真实值和测量值之间的关系。 X=T+B+E T表示真实值，B表示偏差即系统误差，E表示测量误差即随机误差。由于系统误差很难分解，因而有些书中的分解式将系统误差包括在真实值之中，因而X可以简单地概括为X=T+E 对于测量误差E，一般假定他的期望值是0，却与真实值相独立，在此假定下，可以证明：E(x)=E(T)实得分数和真分数的总体均值相等。σ2x=σ2T+σ2E实得分的方差等于真分数的方差与误差方差

之和。信度一般规定是真分数的方差在总体方差中所占的比例，即：信度系数Rxx=σ2T/σ2X=1-(σ2E/σ2X) 信度系数越大，表明测量的可信程度越大。在实际应用中，信度主要有以下几种类型： (一) 重测信度这种方法通常是重复同样的测量来检验信度信度系数可以用相关系数来表示。假如我们第一次测量时的观测值是X，第二次的观测值是Y,那么重测信度就等于X与Y的相关系数。但重复测量时，我们要注意两次测量的时间间隔要恰当。如果时间间隔太久，可能会发生一些变故，影响到被调查者的态度，那么前后的测量就会有很大的差异。（二）复本信度复本是针对原本而言的，它使原本的复制品。对一项调查的问题，让被调查者接受问卷测量，并同时接受调查问卷的副本的调查，然后根据结果计算原本和复本的相关系数，就得到复本信度。（三）折半信度通常是在无副本且不准备重测的情况下，我们就用折半信度来计算信度系数。举例来说，如果有一份问卷，其中有十个问题涉及到女性歧视现象。利用折半信度时，可将是个问题随机分成两组，每组有五个问题，

试卷分析信度效度难度和区分度

附件6、难度、区分度、信度和效度的一般说明一、难度难度是指试题的难易程度，它是衡量试题质量的一个重要指标参数，它和区分度共同影响并决定试卷的鉴别性。一般认为，试题的难度指数在0.3－0.7之间比较合适，整份试卷的平均难度最好在0.5左右，高于0.7和低于0.3的试题不能太多。 1、难度的两种定义（1）P=1－x/w 其中：x为某题得分的平均分数，w为该题的满分。这种定义法，难度值小时表明试题容易，值大时表明试题难，最小值为0，最大值为1。（2）P=x/w 这种定义法，难度值小时表明试题难，值大时表明试题容易，最小值为0，最大值为1。 2、难度的计算（1）主观性试题的难度 A、基本公式法：P=1－x/w B、极端分组法P=1－(XH+XL)/2W 其中：XH为高分组的平均得分（前27%），XL为低分组的平均得分（后27%）。

（2）客观性试题的难度 A、基本公式法：P=1－R/N 其中：R为答对人数，N为全体人数。 B 极端分组法：P=1－（PH+PL）/2 其中：PH=RH/n叫高分组通过率，RH为高分组答对人数，n 为总人数的前27%。PL=RL/n 叫低分组通过率，RL为低分组答对人数。二、区分度区分度是区分应试者能力水平高低的指标。试题区分度高，可以拉开不同水平应试者分数的距离，使高水平者得高分，低水平者得低分。而区分度低则反映不出不同应试者的水平差异。试题的区分度与试题的难度直接相关。通常来说，中等难度的试题区分度较大。另外，试题的区分度也与应试者的水平密切相关，试题难度只有等于或略低于应试者的实际能力，其区分性能才能充分显现出来。 1、区分度指标的评价 -1.00≤D≤+1.00，区分度指数越高，试题的区分度就越强。一般认为，区分度指数高于0.3，试题便可以被接受。 2、区分度的计算方法（1）基本公式法：D＝（H－L）/N 其中：D代表区分度指数，H代表高分组答对题的人数，L代表低分组答对题的人数，N代表一个组的人数即高分组与低分组人数之

信度与效度的关系

信度与效度的关系信度是效度的必要条件，但不是充分条件。一个测量工具要有效度必须有信度，没有信度就没有效度；但是有了信度不一定有效度。信度低，效度不可能高。因为如果测量的数据不准确，也并不能有效地说明所研究的对象。信度高，效度未必高。例如，如果我们准确地测量出某人的经济收入，也未必能够说明他的消费水平。效度低，信度很可能高。例如，即是一项研究未能说明社会流动的原因，但它很有可能很精确很可靠地调查各个时期各种类型的人的流动数量。效度高，信度也必然高。信度：测量的数据准确性

效度：结果的符合程度 1请问为什么随机分派前后测就可以控制选择、被试缺失的干扰了。而随即分派后侧就不能对被试缺失加以控制了。它们的不同只是多了一次前侧，怎么会对被试产生影响呢？ 2消除无关变量的方法平衡法和恒定法，有何区别呢，我总是有点弄混，能各举个例子吗？ 1、在一个延续时间较长的研究中，被试的更换、淘汰或者中途退出可能会对研究结果产生深刻的影响。所以如果只有后测，两组或多组相等的假设就无法保证，很难控制被试的情况。而前后测可以解决这个问题。 2、恒定法。恒定法就是采取一定措施，使某些无关变量在整个研究过程中保持恒定不变。它也是控制无关变量的基本方法。平衡法。平衡法就是对某些不能被消除，又不能或不便被恒定的无关变量，通过采取某些综合平衡的措施或方式，使其影响通过平衡而抵消，达到控制它们的方法。平衡法主要采用对比组方法和循环法。

先体会一下两者定义。简单的说：恒定法：前后不变，比如上课时间、学生作业平衡法：分组实验中，各组作用相同，比如教师水平，学生数目，知识基础。在实验设计主要格式中，带有随机分配的优点是可以控制选择与成熟的交互作用，是什么意思啊？这里的成熟是指的被试身心的成熟程度吗？支持(0) 中立(0) 反对(0) 单帖管理举报帖子使用道具 | 引用| 回复 zdjy 小大2楼个性首页| 博客| 信息| 搜索| 邮箱| 主页| UC

浅说试题的难度、区分度、信度和效度

浅说试题的难度、区分度、信度和效度北屯初中2011-3-16 一.试题的难度（一）什么是难度难度是指试题的难易程度，是评价考试的一个非常重要的一个指标。一个题目，如果大部分考生都能答对，那么这个题目的难度就小；如果大部分考生都不能答对，那么这个题目的难度就大。（二）难度的计算 1.单个选择题目的难度计算单个选择题的难度通常以通过率表示，即以答对或通过该题目的人数占考生人数的百分比表示。计算公式为：P=R/N. 其中P代表题目的通过率，R为答对或通过该题目的人数，N为全体考生人数。 P值越大，题目难度越小，答对人数越多。 2.单个非选择题目的难度计算此类题目考试结果不是只有答对或答错两种，而是具有从满分到零分之间多种结果。计算公式为：P= X/W. 其中P为难度，X为考生在某一题目上的平均得分，W为该题目的满分。 3.整个试题的难度计算（常用）计算公式为：P= X/W. 其中P为难度，X为样本平均得分，W为试卷总分。如满分150分的试题，考生平均得分108分，则难度为108/150=0.72 如考生人数太多时，可先将考生总分从高到低排列，然后将总分最高的27%考生定为高分组，总分最低的27%考生定为低分组，分别计算两组考生的难度值，然后求它们的平均值即可。（三）试题难度的一般要求就高考来说，难度以适中为宜，单个试题的难度以0.3--0.7之间为好，整卷以0.5--0.6之间为最佳。一般将难度值大于和等于0.7的试题定为容易题；大于0.4和小于0.7的定为中档题；小于和等于0.4的试题定为难题。命题时难度一般要按一定比例分配，如3：6：1或3：5：2，一般说来，容易题、难度系数为0.95-0.75，中档题为0.74-0.6，难题为0.59-0.20。二.试题的区分度（一）什么是区分度区分度是指考试题目对考生心理特征的区分能力。区分度高的试题能将不同水平的考生区分开来，水平高的考生得高分，水平低的考生得低分。区分度高的考试，优秀、一般、差三个层次的学生都有一定比例，如果某一分数区间学生相对集中，高分太多或不及格太多的考试，区分度则低。（二）区分度的计算 1.单个选择题目区分度的计算将全体考生总分从高到低排列，将总分最高的27%考生定为高分组，总分最低的27%考生定为低分组，分别计算两组考生在某道题目上的通过率，两个通过率之差就是这道题的区分度（又叫鉴别指数）。计算公式为：D=PH-PL. PH和PL分别为高分组和低分组的通过率。

试题的难度、区分度、信度和效度

试卷的难度、区分度、信度和效度一.试卷的难度（一）什么是难度难度是指试卷的难易程度，是评价考试的一个非常重要的一个指标。一个题目，如果大部分考生都能答对，那么这个题目的难度就小；如果大部分考生都不能答对，那么这个题目的难度就大。客观题难度计算公式：P（难度指数）＝试卷答对人数/考生人数；主观题难度计算公式：P＝试卷平均得分/试卷满分。试卷难度计算公式：P＝为平均分，K 为试卷满分值。易、中、难的标准为：易：P≥0.7，中：0.4≤P≤0.69，难：P≤0.39；P值越大，难度越低，P值越小，难度越高。一般来说，难度值平均在0.5最佳，难度值过高或过低，都会降低测验的信度。（二）难度的计算（1）客观性试卷难度P（这时也称通过率）计算公式： P=k/N（k为答对该题的人数，N为参加测验的总人数）（2）主观性试卷难度P计算公式： P=X/M（X为试卷平均得分；M为试卷满分）（3）适用于主、客观试卷的计算公式： P=（P H +P L ）/2（P H 、P L 分别为试卷针对高分组和低分组考生的难度值）步骤为:①将考生的总分由高至低排列；②从最高分开始向下取全部试卷的27%作为高分组；③从最低分开始向上取全部试卷的27%作为低分组；④计算。（三）试卷难度的一般要求就高考来说，难度以适中为宜，单个试卷的难度以0.3--0.7之间为好，整卷以0.5--0.6之间为最佳。一般将难度值大于和等于0.7的试卷定为容易题；大于0.4和小于0.7的定为中档题；小于和等于0.4的试卷定为难题。命题时难度一般要按一定比例分配，如3：6：1或3：5：2。二.试卷的区分度（一）什么是区分度区分度是指考试卷目对考生心理特征的区分能力。区分度高的试卷能将不同水平的考生区分开来，水平高的考生得高分，水平低的考生得低分。区分度高的

信度、效度、难度、区分度

信度、效度、难度、区分度一、信度(稳定性) 信度是表明评价工具质量的又一重要指标，主要指测验结果的前后一致性程度。(多次测量的一致性) 根据影响信度的不同因素，可以把信度分为以下几类，信度指标通常用相关系数表示。 1.再测信度用同一种测验在不同时间里两次测验同一组学生，然后统计两次测试成绩的相关，求得的相关系数即为再测信度系数。信度系数的最大值为1，表示再测信度最高;最小值为0，表示再测信度最低。 2.分半信度将一个测验分为等质量的两半，求这对半分的两半测验所得分数的一致性程度，即为分半信度。 3.评分者信度把相同的测验结果提供给不同的评分者打分，若不同评分者给的分数大致相同，说明该测验有较高的信度。二、效度(准确性) 效度是指一个测验或测量工具能真实地测量出所要测量的事物的程度。一次测验是否有效，主要看其是否能准确地测量所要测量的东西。测验的效度有多种类型，主要有内容效度、构想效度和预测效度。根据不同的需要，一个测验可以采用一种或几种效度。 1.内容效度

所谓测验的内容效度，是指它从需要测验的教材中提取样本的适当程度。内容效度的高低，取决于测验题目的代表性，要看选出的题目能否包含所测量内容范围的主要方面，并使各方面题目比例适当。 2.构想效度所谓测验的构想效度，是指一个测验能够测量理论上的构想或内在心理特性的程度。 3.预测效度所谓测验的预测效度，是指一个测验能够预测学生将来某种特定行为或表现的程度。预测得越准，效度就越高。例：在小学低年级的某次测验中，由于数学试卷中试题的文字表述过于复杂，学生不能完全理解题干的要求，也不能正确的解答题目，以至于该试卷无法正确测量学生数学学习的状况。据此可以判断这次数学测验是( ) A.高信度的 B.低信度的 C.低效度的 D.高效度的【答案】C。解析：信度强调某一次测验前后多次测量所得结果的一致程度。效度强调某一测验的测量结果的有效性和准确性。该试卷无法准确测量学生学习的状况，说明这次教学测验是低效度的。故选C。【知识点】教育学——教学——教学评价——教学测验三、难度难度指测验的难易程度。在教学测量中，通常用答对或通过测验的人数比例作为难度值。难度值(P)=答对人数(R)/被试总人数(N)×100% P值越大，难度越低;P值越小，难度越高。(难度值与难度之间成反比)一般来说，难度值平均在0.5最佳。四区分度

难度、区分度、信度、效度

试卷分析的四个度：难度、区分度、信度、效度一、难度难度是指试题的难易程度，它是衡量试题质量的一个重要指标参数，它和区分度共同影响并决定试卷的鉴别性。一般认为，试题的难度指数在0.3－0.7之间比较合适，整份试卷的平均难度最好在0.5左右，高于0.7和低于0.3的试题不能太多。 1、难度的两种定义：（1）P=1—x/w x为某题得分的平均分数，w为该题的满分。这种定义法，难度值小时表明试题容易，值大时表明试题难，最小值为0，最大值为1。（2）P=x/w 这种定义法，难度值小时表明试题难，值大时表明试题容易，最小值为0，最大值为1。 2、难度的计算：（1）主观性试题的难度 A 基本公式法：P=1—x/w B 极端分组法P=1—(XH+XL)∕2W XH：高分组的平均得分（前27%），X L：低分组的平均得分（后27%）。（2）客观性试题的难度 A 基本公式法：P=1—R/N R 为答对人数，N 为全体人数。 B 极端分组法：P=1—（PH+PL）∕2 PH=RH/n 叫高分组通过率，RH：高分组答对人数，n：总人数的前27%。PL =RL/n 叫低分组通过率，RL：低分组答对人数。

二、区分度区分度是区分应试者能力水平高低的指标。试题区分度高，可以拉开不同水平应试者分数的距离，使高水平者得高分，低水平者得低分，而区分度低则反映不出不同应试者的水平差异。试题的区分度与试题的难度直接相关，通常来说，中等难度的试题区分度较大。另外，试题的区分度也与应试者的水平密切相关，试题难度只有等于或略低于应试者的实际能力，其区分性能才能充分显现出来。区分度指标的评价：-1.00≤D≤+1.00，区分度指数越高，试题的区分度就越强。一般认为，区分度指数高于0.3，试题便可以被接受。 2、区分度的计算方法：基本公式法：D＝（H－L）÷N（D代表区分度指数，H代表高分组答对题的人数，L代表低分组答对题的人数，N代表一个组的人数即高分组与低分组人数之和）。极端分组法：（1）主观性试题：D=SH—SL∕n(WH-WL)

问卷信度效度检验

从统计数据质量角度谈调查问卷的设计质量一、引言从保证统计数据质量的统计工作过程看，统计数据质量可以被划分为统计设计质量、统计调查质量、统计整理质量、统计分析质量以及数据发布传输质量等。统计设计质量是保证统计数据质量的首要环节，在统计数据质量保证体系中起着关键性作用。统计设计质量一般包括调查问卷设计质量与调查方案设计质量，其中调查问卷设计质量指的是：通过问卷测量得到的，反映调查对象客观现象的统计数据的准确性和有效性，即调查问卷设计质量的好坏，需要通过问卷测量能力的高低来检验。在市场调查中，为了深入地研究一些本质的或理论性的现象，问卷调查法被广泛运用，除了调查时采用的抽样方法以及所抽取的调查对象是否具有代表性之外，调查者最关心的就是调查问卷的测量能力。问卷测量能力包含了两个方面的内容，即问卷测量结果的准确性和有效性。准确性和有效性是统计数据质量蕴涵的最主要的两个特性，一个好的调查问卷设计不仅可以保证在多次重复使用下得到可靠的数据结果，即准确性；也可以保证所得测量结果能够反映它所应该反映的客观现实，即有效性。所以我们可以通过对问卷测量能力的分析来检验问卷的设计质量，对问卷设计进行质量控制，进而发现问卷设计中应注意的问题。在此基础上，通过不断改进问卷设计，提高其测量能力，最终将有助于我们得到高质量的调查数据。二、调查问卷的设计质量检验信度和效度的概念来源于心理测试中关于测验的可靠性和有效性研究，当建构和评估测量时，通常使用信度和效度这两个技术性指标。因此我们采用问卷的信度和效度分析来评估其测量能力，进而实现对问卷设计质量的检验。 1．问卷设计质量的信度检验所谓问卷设计质量的信度检验，指的是对问卷测量结果准确性的分析，即对设计的问卷在多次重复使用下得到的数据结果的可靠性的检验。在实际应用中，信度检验多以相关系数表示，常用的方法有：重测信度，复本信度，折半信度，克朗巴哈信度，评分者信度等。国内外已经有很多关于这些信度分析方法介绍的文献，在这里，笔者不再一一详述，仅列出相关公式作为参考。（1）重测信度，也叫稳定系数，对同一组调查对象采用同一调查问卷进行先后两次调查，采用检验公式，其中为两次调查结果的协方差，为第一次调查结果的协方差，为第二次调查结果的协方差。系数值越大说明信度越高。（2）复本信度，也叫等值系数，对同一组调查对象进行两种相等或相近的调查，要求两份问卷的题数、形式、内容及难度和鉴别度等方面都要尽可能的一致。检验公式同稳定系数公式，系数越大，说明两份问卷的信度越高，具体调查时使用哪一份都可以。（3）折半信度，也叫内在一致性系数，将调查的项目按前后分成两等份或按奇偶题号分成两部分，通过计算这两部分调查结果的相关系数来衡量信度。当假定两部分调查结果得分的方差相等时，检验用Spearman-Brown公式来表示：，其中表示折半信度系数；当假定方差不相等时，采用Flanagan 公式：，其中、分别表示两部分调查结果的方差，表示整个问卷调查结果的方差。如果折半信度很高，则说明这份问卷的各项题之间难度相当，调查结果信度高。（4）克朗巴哈信度，是对折半信度的改进，检验公式是：，其中

完整word版,SPSS信效度难度区分度分析举例

SPSS信度分析一、分半信度例1：李老师对班上9位同学的随堂测验，Y表示答对，N表示答错，测验结果如表1所示，请计算其信度。表1 随堂测验成绩表2 相关性解：（1）首先根据题意，将资料输入SPSS，建立数据文件；（2）选择"转换"|"重新编码为相同变量"命令，打开"重新编码到相同的变量中"对话框；（3）单击"旧值和新值"按钮，打开"重新编码成相同变量：旧值和新值"对话框。将"N"定义为"0"，将"Y"定义为"1"，单击"继续"按钮，完成转换。在SPSS文件中将 "字符串" 属性改为"数值"。（4）计算奇数题与偶数题的和：选择"转换"|"计算变量"命令，打开"计算变量"对话框。将奇数题变量相加移入数字表达式列表框内求和，偶数题的计算方法亦同样。（5）执行双变量相关：选择"分析"|"相关"|"双变量"命令，打开"双变量相关"对话框。将变量"奇数"和"偶数"移入右侧"变量"列表框中，在"相关系数"选项组中勾选Pearson复选框，在"显著性检验"选项中选中"双侧检验"单选按钮，并勾选"标记显著性相关"复选框，单击"确定"按钮。（6）结果中输出对该测验奇、偶数题目进行的Pearson积差相关分析表，如表2所示。Pearson 相关系数为0.109，双侧检验的显著性概率（Sig）为0.78，远大于0.05，说明该测验奇、偶题目的相关非常低且不显著，同时也说明了该测验的信度非常低。

分半信度也可直接使用"可靠性分析"命令来完成，简要步骤如下。（1）建立数据文件。（2）将资料转为数字（同上）。（3）选择模型：选择"分析"|"度量"|"可靠性分析"命令，弹出"可靠性分析"对话框。将左边列表框中的题目依所需次序前后分半选入右边的"项目"列表框中，在左下角的"模型"下拉列表框中选取"半分"选项。（4）选择统计量，单击"统计量"按钮，打开"统计量"对话框并完成相应的设置。最后单击"确定"按钮，输出统计结果。二、同质性信度（1）点击分析-度量-可靠性分析。（2）将要检验的问卷或者维度放入变量框中。（3）点击确定，生成结果。信度指标就是Cronbach's Alpha。

信度与效度的关系

研究信度与效度的关系一、信度与效度的定义信度即可靠性，它指的是采取同样的方法对同一对象重复进行测量时，其所得结果相一致的程度，或者说，信度是指测量结果的一致性或稳定性。效度即准确度，它是指测量工具或测量手段能够准确测出所要测量的变量的程度，或者说能够准确、真实地度量事物属性的程度。二、信度与效度的关系（一）教育科学研究中信度与效度的关系信度是研究结果所显示的一致性、稳定性程度，也是对研究结果一致性和稳定性的评价标准。一个具有信度的研究程序，不论其过程是由谁操作，或进行多少次同样的操作，其结果总是非常一致的。效度是一个研究程序的性质和功能，也是对研究结果正确性的评价标准，一个有效度的研究程序，不仅能够明确地回答研究的问题和解释研究结果，而且能够保证研究结果在一定规模的领域中推广。把两者的作用结合起来看，信度和效度是一项教育科学研究活动和结果具有科学价值和意义的保证。研究的信度是研究的效度的一个必要的前提，没有信度，效度不可能单独存在，也就是说，一项研究不可能没有信度却具有效度。（二）人力资源招聘信度与效度的关系影响测评信度的因素有很多，主要是系统误差和随机误差。包括测评者的专业性和素质、被测评者本人的心理、侧评工具的稳定性、

环境的稳定性等都会影响测评的可信度。影响测评的效度因素也有很多，如测评工具、测评过程及测评者因素、被测评者状态、效标因素和信度因素等。在实际招聘与录用评估过程中要把握各相关方面，不仅要有专业的测评人员，同时也要在稳定的环境中为被测评者提供一个放松真实的氛围。信度和效度是人才侧评与选拔质量的重要指标。图形形式表现分析得出的信度和效度的三种关系，则会是以下这些样式，如图8-l .图8-2和图8-3所示。所以，:高信度是高效度的必要条件，但非充分条件。即信度高不一定其效度就高，但要想获得较高的测评效度，其信度必定要高，（三）用结构式问卷来测量家长“溺爱孩子”的行为中信度与效

细说试题的难度、区分度、信度和效度以及对高考复习的启示

细说试题的难度、区分度、信度和效度以及对高考复习的启示一.试题的难度（一）什么是难度难度是指试题的难易程度，是评价考试的一个非常重要的一个指标。一个题目，如果大部分考生都能答对，那么这个题目的难度就小；如果大部分考生都不能答对，那么这个题目的难度就大。客观题难度计算公式：P（难度指数）＝试题答对人数/考生人数；主观题难度计算公式：P＝试题平均得分/试题满分。试卷难度计算公式：P＝为平均分，K为试卷满分值。易、中、难的标准为：易：P≥0.7，中：0.4≤P≤0.69，难：P≤0.39；P值越大，难度越低，P值越小，难度越高。一般来说，难度值平均在0.5最佳，难度值过高或过低，都会降低测验的信度。当然，在实际的评价过程中，测验的难度水平多高才合适，也还要取决于测验的目的。如果教师要对学生的知识准备状况进行一次诊断性测验，为了真实、准确地了解学生的知识掌握情况，测验难度大一点也是正常的。（二）难度的计算（1）客观性试题难度P（这时也称通过率）计算公式： P=k/N（k为答对该题的人数，N为参加测验的总人数）（2）主观性试题难度P计算公式： P=X/M（X为试题平均得分；M为试题满分）（3）适用于主、客观试题的计算公式： P=（P H+P L）/2（P H、P L分别为试题针对高分组和低分组考生的难度值）在大群体标准化中，此法较为方便。具体步骤为:①将考生的总分由高至低排列；②从最高分开始向下取全部试卷的27%作为高分组；③从最低分开始向上取全部试卷的27%作为低分组；④按上面的公式计算。例1：一次生物测试中，在100名学生中，高低分组各有27人，其中高分组答对第一题有20人，低分组答对第一题的有5分，这道题的难度为： P H=20/27=0.74 P L=5/27=0.19 P=(0.74+0.19)/2=0.47 整个试卷的难度等于所有试题难度之平均值（包括主、客观试题）。（三）试题难度的一般要求就高考来说，难度以适中为宜，单个试题的难度以0.3--0.7之间为好，整卷以0.5--0.6之间为最佳。一般将难度值大于和等于0.7的试题定为容易题；大于0.4和小于0.7的定为中档题；小于和等于0.4的试题定为难题。命题时难度一般要按一定比例分配，如3：6：1或3：5：2，一般说来，容易题、难度系数为0.95-0.75，中档题为0.74-0.6，难题为0.59-0.20。二.试题的区分度（一）什么是区分度区分度是指考试题目对考生心理特征的区分能力。区分度高的试题能将不同水平的考生区分开来，水平高的考生得高分，水平低的考生得低分。区分度高的考试，优秀、一般、差三个层次的学生都有一定比例，如果某一分数区间学生相对集中，高分太多或不及格太多的考试，区分度则低。

江苏教师资格证考试：信度、效度、难度、区分度

江苏教师资格证考试：信度、效度、难度、区分度临近考试，江苏教师招聘考试网为考生整理了信度、效度、难度、区分度，希望对大家有所帮助。在全国统考教师资格考试中，对于备考的考生而言，无论是教育学还是心理学都存在一些学习方面的难点，这对于自己备考的考生而言是非常困难的。中公讲师结合自己的教学经验与深厚的专业知识，将中学《教育知识与能力》的教学难点进行专题讲解，希望能够对各位考生的笔试备考提供一些帮助。 1、测量指标的含义信度、效度、难度、区分度是中学教学部分的考试内容，主要是用来检验测验质量本身的重要指标。所谓信度指的是多次测量结果额一致性与稳定性。它本身强调是测量结果是不是一样的，例如：小明第一次测量得分是80分，第二次测量得分也是80分，说明两次结果一样，则说明两次测量的信度高。反之，第一次测量得分80分，第二次测量得分40分，两次结果不一样，说明信度低。所谓效度指的是测量的正确性，是指一个测量所要测量的结果的程度。效度所关注的是测量到对象多少程度?比如：假如小明本身的真实成绩是80分，第一次测量得分是正常发挥得分是80分，说明本次测量的效度高，如果失常发挥，高于80分或者低于80分，本次测量的效度低。所谓难度主要指的是测量的难易程度，测量的难度系数值的范围是0—1，难度系数值越小，则反映试卷难度越大，难度系数值越大，则反映试卷难度越小。所谓区分度，指的是测量对不同考生的区分程度，也就是可以理解为通过测验能够将好的选出来，差的筛下去。比如高考的就是区分度很高的测验，否则就难以将好生、差生进行区分。 2、测量指标之间的关系信度与效度的十大关系：信度高，效度不一定高(或效度不一定低) 信度低，效度一定低效度高，信度一定高

信度和效度的关系口诀

信度：信度是指测验结果的一致性、稳定性及可靠性，一般多以内部一致性来加以表示该测验信度的高低。信度系数愈高即表示该测验的结果愈一致、稳定与可靠。系统误差对信度没什么影响，因为系统误差总是以相同的方式影响测量值的，因此不会造成不一致性。反之，随机误差可能导致不一致性，从而降低信度。定义：信度（reliability）即可靠性，它指的是采取同样的方法对同一对象重复进行测量时，其所得结果相一致的程度。从另一方面来说，信度就是指测量数据的可靠程度。信度和效度的关系：问卷的信度与效度之间既有明显的区别，又存在着相互联系、相互制约的关系。信度主要回答测量结果的一致性、稳定性和可靠性问题；效度主要回答测量结果的有效性和正确性问题。效度和信度的关系可以用测量值的构成公式O=T S R来理解。如果测量是完全有效的，即0=T，S=0，R=0，此时测量必然是完全可信的，若量表的信度不足，它也不可能完全有效，因为有O=T R。如果量表是完全可信的，可以达到完全有效，也可能达不到，因为有可能存在导致误差，虽然缺乏信度必然缺乏效度，但信度的大小并不能体现效度的大小。信度是效度的必要条件，但不是充分条件。从理论的角度来看，量应具有足够的效度和信度；从实践的观点来看，一个好的量表还应该具有实用性。实用性指量表的经济性、便利性和可

解释性。一般来说，信度是效度的必要条件，也就是说，效度都必须建立在信度的基础上；但是没有效度的测量，即使它的信度再高，这样的测量也是没有意义的。信度和效度的关系有如下几种类型： ①可信且有效这种问卷准确地反映被调查人员的真实态度，问卷中的题目是和调查目标紧密关联的。若调查结果能真实地反映所调查的对象，测量的误差较小，则说明问卷调查的结果是可信而且有效的。 ②可信但无效这种问卷调查结果虽然能准确地反映被调查人员的真实态度，但问卷中题目与真实的调查目的的关联程度较弱，与调查的目标不相一致。。这种情况表明，虽然调查中所得的结果是可信的，但可能在某些环节上出了差错，例如问卷中题目的设计使得所有的被调查人员都出现了理解的偏差，从而出现了系统性的偏差。 ③不可信亦无效在这种情况下，统计调查的结果分布较为分散，是难以从调查问卷中得出有效结果的，这是测量中应避免的类型。

期末试卷分析报告(含信度、效度、难度、区分度)

期末考试质量分析报告新疆师范大学附属中学小学部2017-2018学年第二学期小学数学学科五年级质量分析报告姓名：项彪学号：164895 一、期末考试基本情况（总体评述） 2018年五年级下册数学期末试卷属乌市教研室统一命题，全市统一监考、阅卷。本次检测分成五个部分：判断题；选择题；填空题；计算题；解决问题。从试卷检测内容看总体情况良好，学生检测成绩属正常水平。本次考试，各班的差别不大，相对来说比较理想。从试卷上反映出来的情况看，有好的地方，当然也存在着许多问题。总体上来说，学生的基础概念掌握情况不够扎实，失分率相对较高，个别学生读题不够仔细。小部分学生的口算有小错误，这也反应了孩子的口算是不能忽视的。对于一些稍微灵活和比较灵活的知识点，学生失分则相对较多，比如应用题题的“第三题有一张长方形的纸，长70厘米，宽50厘米。如果要剪成同样大小的正方形而没有剩余，剪出的正方形的边长最大是多少”，缺乏全面思考的能力，不能够灵活处理，给自己的解答造成了一定的困扰。解决问题这部分内容，大部分学生的失分较少，失分点也都集中在计算和规范答题的问题上。二、数据统计表一：（按低中高不同分数段划分；低段：0—59、60 —74、75—84、85—94、95—100；中段：0—59、60—69、70—79、80—89、90—100；高段：0—59、60—65、66—75、76—84、85—100）

表二：（注：1分以内包括1分，2分以内包括2分，以此类推，统计人数。三、答卷情况具体分析（优点与存在问题） 1、判断、选择、填空题这部分的题目主要是一些基本的知识和计算，学生的完成情况还是比较理想的。主要出错的试题是“两根绳子一样长，第一根用去41 ，第二根用去4 1 米，余下的相比（哪根长）”，孩子们见的较少，导致有的孩子理解有误，大部分题目学生的完成情况还是比较好的，但极个别孩子稍稍粗心就容易出错。填空题第4小题“盐占盐水以及水占盐水的分水比率问题”这道题失分率比较高。判断题中出错的试题是 “找次品以及因数和倍数的概念。”这道题属于基础概念知识，考验学生的空间想象能力和全面思考问题的能力，说明出错的这些孩子的基础知识掌握的还不够扎实，不能够灵活运用所学知识。 2、计算题这里主要考察学生的口算能力，大部分学生的完成情况还可以，能够全部算对，但是也存在部分学生由于粗心而错了一题的情况。还有个别学生，由于计算基础薄弱，甚至错了两三道题。另外笔算题有漏写得数的现象，也有漏题的现象，要重视学生的答题习惯、检查习惯。 3、解决问题

难度、信度、区分度

难度概念难度即测试题目的难易程度．一般在能力方面的测试中，它作为衡量测试题目质量的主要指标之一．它是衡量试题质量的一个重要指标参数，它和区分度共同影响并决定试卷的鉴别性。难度的计算一般采用某题目的通过率或平均得分率。测试的难度水平多高才合适，这取决于测试的目的、项目的形式和测试的性质。两种定义（1）P=1—x/w x为某题得分的平均分数，w为该题的满分。这种定义法，难度值小时表明试题容易，值大时表明试题难，最小值为0，最大值为1。（2）P=x/w 这种定义法，难度值小时表明试题难，值大时表明试题容易，最小值为0，最大值为1。难度的计算（1）主观性试题的难度 A 基本公式法：P=1—x/w B 极端分组法P=1—(XH+XL)∕2W XH：高分组的平均得分（前27%），XL：低分组的平均得分（后27%）。（2）客观性试题的难度

A 基本公式法：P=1—R/N R 为答对人数，N 为全体人数。 B 极端分组法：P=1—（PH+PL）∕2 PH=RH/n 叫高分组通过率，RH：高分组答对人数，n：总人数的前27%。PL=RL/n 叫低分组通过率，RL：低分组答对人数。区分度区分度是高考试题分析的一个指标，反映了试题对考生素质的区分情况。其数值在-1～1之间，数值越高，说明试题设计的越好。参数含义反应一个题目的鉴别能力，由其可得到三方面的信息：题目能否有效的测量或预测所要了解的某些特性或正态；题目能否与其他题目一致的分辩被试；以及被试在该题的得分和测验总分数间的一致性如何。区分度取值介于（-1，+1）。输入高分组（即得分最高的27%）被试在该题上的通过率（P H），低分组（即得分最低的27%）被试在该题上的通过率（PD）操作 D＝PH－P L PH：等于“假设被试群体是高分组时算出来的难度值”

SPSS信度和效度检验全套资料

关于调查问卷的信度和效度检验（一）信度 1 、信度的含义测验的信度又称测验的可靠性 , 是指同一个测验对同一组被试施测两次或多次 , 所得结果一致形程度。一个好的测验必须是稳定可靠的 , 多次使用所获得的结果是前后一致的。例如 , 用直尺测量长度 , 其结果是稳定可靠的 ; 用橡皮筋测长度则是不可靠的 , 前后测量结果缺乏一致性。在测量理论中 , 信度被定义为 : 某次测验分数的真变异数与总变异数 ( 即实测分数 ) 之比 :22 S R x xx ST = 式中 Rxx 表示测量的信度 ,ST 2 代表真分数的变异数 ( 方差 ),Sx 2 表示实得分数的变异数 ( 方差 ) 。从上式可看出 , （ 1 ）信度是指实测值和真值相差的程度 , 实测值是指对某物实际进行测量时所获得值 , 也称实测分数 (X); 真值是指被测事物的真实规模取值 , 也称真分数 (T) 。由于各种原因 , 实得分数常不等于真分数 , 两者之差称为测量误差或误差分数 (E) 。从理论上看 , 实得分数由真分数和误差分数两部分组成即 :X=T+E Rxx 就是对一组测验数据的实测分数与真分数相差程度的最好估计。（ 2 ）信度又是指相同的测验对相同的被试再次测量时引起的同样反应的程度。如果两次测验中 , 受测者所得分数或所处等级前后一致 , 则说明测验结果的信度较高 ; 反之 , 两次测验结果一致性低 , 说明测验结果的信度低。信度是任何一种测量的必要条件 ( 但不是唯一条件 ), 只有测量值接近或等于真值 , 用同一工具多次测量同一特性获得相同或相近的结果 , 才能认为这个测量结果是可靠的。信度对于教育测量尤其重要 , 只有信度高的教育测验才能成为教育工作者有用的工具 , 才能为教育工作者提供可靠的信息 , 为教育预测和决策提供客观依据。 2 、信度的估计方法测验的信度是用信度系数的大小来表示的 , 根据测量理论 , 信度系数 2 2 S R x xx ST = 但是在实际测量中 , 一般只能获得实得分数 (X) 及实得变异数 (Sx 2 ), 而真分数 (T) 及真变异数 (ST 2 ) 是不知道的 , 因此 , 依据上述公式还无法机算信度系数。在统计上 , 主要采用相关分析的方法即机算两列变量的相关系数 , 用相关系数的大小来表示信度的高低。主要用以下方法来求得信度 : （ 1 ）再测法 : 用同一测验对同一被试 , 前后施测两次 , 根据两次测验分数计算相关系数 , 即是再测信度。该信度反映了测验的稳定性程度 , 故又称稳定性系数 , 是用皮尔逊积差相关公式计算的 :2 12 1/21S S M M N X X R xx ?-= ∑ 式中 X 1 .X 2 为同一被试的两次测验得分 ,M1.M2 为两次测验的平均分数 ,S 1 .S 2 是两次测验的标准差 ,N 是被试人数。用再测法估计信度 , 可以得到有关测验结果是否随时间而变化及变化程度的资料 , 可以作为预测被测者将来行为表现的依据。但也存在明显的局限性 : 前后两次测验结果易受到练习和记忆的影响 , 前后两次施测的时间间隔影响稳定性系数 , 特别是对学绩测验的影响较大。如果时间间隔太长 , 被测者的身心因受环境影响将发生大的变化 , 从而对第二次施测结果产生较大影响 , 使稳定性系数降低 ; 如果间隔太短 , 则被试第一次完成测验时练习和记忆会对第二次测验产生较大影响 , 使第二次测验性质发生变化。另外 , 有些测验不宜用再测法估计信度 , 如测量创造力测验 , 被试一旦掌握了解决问题的办法、原则 , 重测时 , 他将很容易作出反应 , 这样测验的性质就发生了改变。因此 , 只有在没有复本可用 , 测验不易受重复使用影响 , 现实条件又允许重复施测的情况下才使用重测法估计信度。用重测法估计信度 , 间隔时间长短没有严格的规定 , 一般说 , 间隔时间越长 , 稳定性系数越低 , 最适

信度效度区分度难度的使用

信度、效度、难度、区分度及其在试卷分析中的使用 ?信度信度是指考试的可靠性，即考试结果的可信程度。信度高的试题很少受到外部因素的影响，对任何学生的多次测定都会产生比较稳定的、前后一致的结果。提高试卷信度的因素大致可包括以下几种情况：（1）使用ABC卷随机抽取试题。（2）教师考前没有划定考试范围。（3）试题效度高，质量可靠。（4）考试保密措施可靠。（5）严格执行考试纪律。（6）阅卷标准严格、规范、统一。（7）集体阅卷且实行流水作业，复核认真。 ?效度

效度指考试的准确性，反映的是考试内容与教学大纲或考试大纲的吻合程度。效度高的试卷，能够较准确地测试出学生掌握和运用所学知识的真实度。根据教学大纲或考试大纲进行命题，且各单元试题分数分配与学时数分配基本保持一致，成正比关系，这是保证考试效度的基础。其它影响效度的因素有：是否在命题的同时制订了试题参考答案与评分标准；是否集体阅卷且实行流水作业；复核是否认真；分数是否真实等。 ?难度难度反映试题的难易程度，即考生在一个试题或一份试卷中的失分程度。如满分100分的试题，考生平均得分76分，平均失分24分，则难度系数为0.24。其计算公式为： L=1—X/W 其中，L为难度系数，X为分析组平均得分，W为试卷总分（一般为100分）

?区分度区分度反映试题区分不同水平受试者的程度，即考出学生的不同水平，把优秀、一般、差三个层次的学生真正分别开。区分度高的考试，优秀、一般、差三个层次的学生都有一定比例，如果某一分数区间学生相对集中，高分太多或不及格太多的考试，区分度则低。如果把成绩从高往低排序，前50%的考生为高分组，后50%为低分组，其计算公式为： D=2（X H—X L）/W 其中，D为区分度，X H为高分组平均分，X L为低分组平均分，W 为试卷总分（一般为100分）。附：试卷评估等级指标