第4章测验的项目分析

合集下载

第4章项目分析

所谓真分数是指被测者在所测特质（如能力、知识、个性等）上的真实值。

我们通过一定测量工具（如测验量表和测量仪器）进行测量，在测量工具上直接获得的值（读数），叫观测值或观察分数。
8
4.2 项目分析----经典测量理论模型

由于有测量误差存在，所以，观察值并不等于所测特质的真实质，换句话说，观察分数中包含有真分数和误差分数。
22
4.2.2 难度分布及其控制 (三) 难度分布的控制
（1）对题目难度的控制
主要从考核的知识点及其能力层次等方面进行控制。考核单一知识点的题目相对考核较多同类知识点的题目要容易。考核能力层次相对要低（如识记和记忆）的题目，其难度相对低，而对于考核能力层次高（如理解、综合应用）的题目，其难度相对会高。
9
4.2 项目分析----经典测量理论
4.2.1 难度计算方法
常模参照测验
（一）二分法记分项目的难度

1、得分率法/通过率法得分率指所有被试在题目上的平均得分占题目满分的百分比。

10
4.2 项目分析----经典测量理论
4.2.1 难度计算方法常模参照测验（一）二分法记分项目的难度

2、极端分组法

(4)语言准确规范。
(5)借助选项分析提供的信息对不良选项进行修改，以提高题目区分能力。
35

4.3 项目分析的特殊问题

下列哪一个最有可能是单纯型精神分裂症患者的症状： A 幻听 B 瘫痪 C 记忆丧失 D 厌食

36
4.3 项目分析的特殊问题
一、客观题中的猜测问题与猜测率

猜测误差：（1）猜相对于不猜引起的误差（2）是否猜的对引起的误差

第四章-心理测验的难度与区分度教案资料

其基本假设是测验得高分的被试即为高能力被试，测验得低分的被试即为低能力被试。
心理测量学
江西师大心理与教育统计测量中心
1、相关系数法
（1）点二列相关法
心理测量学
江西师大心理与教育统计测量中心
1、相关系数法
（2）积差相关法
心理测量学
江西师大心理与教育统计测量中心
2、极端分组法（鉴别指数法）
二、区分度的计算
1、相关系数法
点二列相关积差相关
2、用极端分组法计算区分度：
D表示区分度 PH表示高分组的难度 PL表示低分组的难度
D=PH—PL
1、相关系数法
该方法的基本思想是，若题目有好的区分度，则高能力的被试在该题上应得高分，低能力被试应得低分，即被试在题目上的得分应与测验总分相一致。
（把和代入P=(PH+PL)/2 ，计算这个题目的难度系数。
难度计算实例
例4-1 下表是随机抽取22名被试在某数学测验中四道题目的得分情况，每题的满分分别为1分、2分、3分和4分，请分析其难度。
哪道题最难？
三、难度系数变换
上述所得难度系数，不论是得分率还是失分率，都属于顺序变量，不具有相等的单位，因此，通过p值比较并不能客观指出题目难度之间的差异大小。
好坏的成分不同测验，目的不同，难度值不同。
奥林匹克测验？选择补习功课的学生？
第四章心理测量的难度与区分度
2 第二节项目的区分度
心理测量学
一、区分度的定义
定义：
指测验对考生实际水平的区分程度或测验对被试特质差异的区分能力，用符号D表示。
具有良好区分度的测验，实际水平高的应该得高分，实际水平低的应该得低分。所以，区分度又叫鉴别力。

第四章量表的设计和应用

5，具有排序功能。 ④评判回答者态度强弱的依据是他在所有陈述语上
的得分总和。
△李克特量表的制作和使用步骤
第一步：明确测量问题的含义和测量要求，提出一组（10—20条）与问题有关的陈述语。
第二步：设计答案并进行量化（即记分），规定总分、计分办法和评价标准。
第三步：进行试测，并根据试测结果对所有陈述进行辨别力检验，淘汰辨别差的陈述语。
第五步，对反常现象作出解释，评估量表的有效性。
一般要求一致性系数在0.9以上。
3、语意差别量表
语意差别量表是把一系列正反义成对的形容词之间分为七个等级为答案形式的用来测量被测人对研究事物的感觉或评价意见并据此来描绘事物“轮廓”或“形象”的一种测量表，它主要用于测量某种事物在人们心目中的形象或给人的感觉。
（五）比较型答案的设计
比较型答案是要求回答者对所列答案进行比较，并排出先后顺序的一种回答方式，具体又分为两两对比、强迫排序等形式。
详见“量表的种类”

对号入座式
强迫排序问题回答方式分编号排队式
简单编号式 P101
（六）评估打分型
评估打分型答案主要应用于评估量表中，多以表格形式出现，操作办法是：评估者依据事先制定的统一打分标准，根据自己对评估对象的了解和认识，在每一个测量项目上公正客观地打出评估数，然后，对评估分进行统计和分析，最后根据统计分析结果对评估对象作出评价。
设计时应注意：
1、答案应包含所有不同程度的态度。 2、要根据测量对象的具体情况，确定合理的等
级数。 3、答案记分时要确定合理的起点。 4、要根据问题答案的可能情况和测量要求，确
定答案是采用平衡式还是非平衡式。 5、在对答案进行排序的同时，如果还要进行定

心理测量4项目分析

.40
.39
.35
.34
.33
.34
.36
.34
.31
.30
.27
.26
.24
.62
.57
.54
.56
.50
.51
.53
.57
.51
.52
.50
.49
.44
.51
.31
.28
.25
.27
.20
.21
.20
.56
.57
.49
.49
.44
.44
.40
.71
.65
.64
.60
.52
.52
.52
.77
.64
– 在人格测验中，类似的指标是“通俗性”。即取自相同总体样本中，能在答案方向上回答该题的人数。
– 两种指标的计算方法是相同的
– 难度的计算 • 二分法记分的项目（1、0记分） – 公式（通过率）：P=R／N×100% »P 指项目的难度（通过率） »R 答对或通过该项目的人数 »N 全体被试人数
– 区分度与难度呈现的是一种曲线（倒“U”的关系）。
• 难度为0.5时，区分度最高 • 难度较高或较低时，区分度中等 • 非常高或非常低的难度时，区分度也很低
– 不同水平被试中区分度与难度的关系
• 较难的题目对高水平被试有较高的区分度 • 中等难度的题目对中水平被试有较高的区分度 • 较容易的题目对低水平被试有较高的区分度
举例：第一题10名被试中8人答对，其难度为：
P1=8／10×100% =80%
• 样本例数较大时的计算方法 – 根据测验总成绩将被试分为三组 » 高分组（NH）：分数最高的27％ » 中间组：分数居中的46％ » 低分组（NL）：分数最低的27％ – 计算高分和低分组的通过率 – 计算两组平均通过率作为难度指标公式：P=(PH+PL)／2 » P 指难度（通过率） » PH 指高分组通过率 » PL 指低分组通过率

戴海崎《心理与教育测量》(第3版)课后习题(第4章测量信度——第6章测验的项目分析)【圣才出品】

第4章测量信度1．各种信度系数所对应的误差来源是什么？答：信度主要包括重测信度、复本信度、分半信度、同质性信度、评分者信度，各种信度系数所对应的误差来源分别简述如下：（1）重测信度系数对应的误差来源重测信度是指用同一个量表对同一组被试施测两次所得结果的一致性程度，其大小等于同一组被试在两次测验上所得分数的皮尔逊积差相关系数。

除去主试，施测环境和被试等方面的误差，它的独特误差来源主要有：①施测过程中所产生的遗忘和练习效应；②在两次施测的间隔时间内，被试在所要测查的心理特质方面获得了学习机会。

（2）复本信度系数对应的误差来源复本信度是指两个平行的测验测量同一批被试所得结果的一致性程度，其大小等于同一批被试在两个复本测验上所得分数的皮尔逊积差相关系数。

它的误差来源有：①不能获得严格意义上的平衡测验；②施测过程中产生的顺序效应和迁移效应；③在两次施测的间隔时间内，被试在所测量的心理特质上获得了学习机会。

（3）分半信度系数对应的误差来源分半信度是指将一个测验分成对等的两半后，所有被试在这两半上所得分数的一致性程度。

它的误差来源是：不同的分半方法的分半信度不同，可能是由于将测验分为相平行的两半的方法不同而产生误差。

（4）同质性信度系数对应的误差来源同质性信度也称内部一致性系数，它是指测验内部所有题目之间的一致性程度。

克龙巴赫α值还是所有可能的分半信度的平均值，它只是测量信度的下界的一个估计值。

即，α值大，必有测量信度高；但α值小时，却不能断定测量信度不高。

它的误差来源产生于题目是否同质，这包括两个方面：①所有题目都测的是同一种心理特质；②所有题目得分之间都具有较高的正相关。

（5）评分者信度系数对应的误差来源评分者信度是指多个评分者给同一批人的答卷进行评分的一致性程度。

在心理与教育测量工作中，客观题的评分很少出现误差，但主观题的评分常常会造成误差。

它的误差来源主要是多个评分者之间的个体差异，对相同答案的不同评定，这种个体差异不可能完全消除，只能最大程度低依赖正规的测查程序和统计方法来减小它。

第四章编制教育测验的一般原理与方法

客观性试题
客观性试题的功用
客观性试题主要是因为评分客观而得名，它的正确答案在测验前就
已准备好，不同评分者各自独立评分，所得结果基本上是相同的。客观性试题一般适用于测量知识的掌握、理解、应用、分析几个层次的教学目标。客观性试题的答案明确，作答简便，因而在限定的时间内测验可以包含足够数量的试题，能保证对知识内容的覆盖。客观性试题的类型常用的类型有：（1）选择题；（2）是非题；（3）配合题；（4）填空题；（5）简答题。
（2）空白处所填写的应是关键词语，并且要和上下文有密切的关系，使被试不至于填写困难。例：1996年我国科技界有新发明。
填空题
（3）题目中空白地方不能太多，以免句子变得支离破碎，不利于被试理解题意。
例：连接市与的是河
（4）尽量将空白放在句子的后面或中间，而不要放在句子开头。
例：发明了蒸汽机
填空题
（5）所有空白处的线段长度应当一致，不能随正确答案文字的多少而长短不一，以免产生暗示作用。
（6）若答案是数字，应指明单位和数字的精确程度。
简答题
较适合于测量被试被基本知识、概念和原理
的掌握、记忆情况。 1. 优点
编制较为简单、灵活；增加知识考核的准确度和深度；不受猜测因素的影响
解释性测验题
在典型选择题的基础上，经教育测验专家改良
后，发展成解释性测验题（interpretiveexercise question)。解释性测验题一般是先提供一段文章、一幅图画、一种情境、一张表格等引导性材料，然后以此为基础提出一系列客观性问题。
比较适合测量富有结构的知识、理解能力以及
作文题
2. 编制原则
（1）根据考试目的、考试对象来确定作文文体和要求；（2）根据社会需要、现实生活和学生实际设计命题，作文命题要直接测量语文素养和书面表达能力；（3）作文命题不能过于抽象，要让学生有话可说，有内容可写，有思路可走，有发挥的余地；（4）避免材料或话题出现测验偏倚，在确定选材和写作意图时，要考虑对所有被试都是公平的，并且试题应符合被试的心理特征。

心理测量第4章心理与教育测量的信度

库德-理查逊公式
K-R20公式
K-R21公式
克伦巴赫系数
库德-理查逊公式只适用于答对一题得一分，答错无分的测验，不适用于项目多重记分的测验，针对这一需要，克伦巴赫提出了系数的方法。其公式为：
K为测验题目数，为某一题目分数的变异数，为测验总分的变异数
采用SPSS计算信度
数据库
两次施测期间被试的学习效果没有差别
计算再测信度应满足以下几个假设；
两次测验的时间间隔要适当
应注意提高被试的积极性
再测法适用于速度测验和人格测验，而不适用于难度测验
采取此法时应注意以下几个问题：
用再测法估计信度的优点是能提供测验结果是否随时间而变化的资料，可作为预测被试将来行为的依据。其缺点是易受练习和记忆的影响。
S为相同尺度的标准分数的标准差，rxx、ryy分别为两个测验的信度系数。然后再将标准分数的差异与1.96SE（0.05水平）进行比较，即可得出两个测验的差异是否显著。
例：韦克斯勒对104名14岁半至15岁半的儿童，间隔一个月时间前后测了两次，求得全量表的稳定性系数为0.95，实测分数的标准差为15，则测量的标准误为：
同质性信度计算方式
结果
输入40题
评分者信度
标准化测验一般都有较为严格的评分程序。对于客观性试题来讲，评分所引起的误差是可以忽略不计的，但是对于一些主观题来讲，评分者之间的变异是产生误差的重要原因之一。
考察评分者信度的方法是随机抽取部分试卷，由两个或多个评分者独立按评分标准打分，然后求其间的相关。在计算相关时，如果是两个评分者，则采用积差相关或等级相关的方法，一般认为经过训练的成对评分者之间的一致性达0.90以上，评分才是客观的。如果是多个评分者则采用和谐系数来估计信度。其公式为：

水文测验学(第四章)

Cs=Ws/V
4、输沙率Qs、Qb（kg/s）
Qs Qc s
单位时间内通过河流某一横断面的悬移质/推移质的干沙重量，称为悬移质输沙率Qs/推移质输沙率Qb
5、断沙 CS（kg/m3）
悬移质断面平均含沙量
6、单样含沙量（单沙）
断面上有代表性的垂线或测点的悬移质含沙量
7、侵蚀模数Ms[t/(km2▪a)
步骤
（一）垂线平均含沙量的计算
用积深法或垂线混合法取样，经处理直接得到垂线平均含沙量。用逐点法取样，需用算术平均法或面积包围法计算垂线平均含沙量。
1、畅流期
取样点的含沙量
一点法二点法三点法五点法
Csm 1Cs0.6
C sm

q s 0.2
0.2
q s 0.8 0.8
缺点：①不能克服泥沙的脉动影响；②取样时，严重干扰天
然水流；③采样器关闭时口门击闭影响水流；④器壁粘沙。
取样测点要求：输沙率测验时，因断面内测沙点较多，脉动
影响相互可以抵消，每个测沙点只需取一个水样。在取单位水样含沙量时，采用多点一次或一点多次的方法。
普通瓶式采样器由容积为500～ 2000ml的玻璃瓶制成，瓶口加有橡皮塞，塞上装有进水管和排气管，调整进水管和排气管出口的高差ΔH，选用粗细不同进水管和排气管，可以调整进口流速。
流域内单位面积上每年的输沙总量
第二节悬移质泥沙测验（ Suspended Sediment Test）
二、悬移质泥沙测验仪器及使用
（一）常用采样器
横式采样器属于瞬时采样器，器身为圆管，容积 500～3000ml，两端有筒盖，取样时张开两盖，将采样器下放至测点位置，水样自然的从筒内流过，操纵开关关闭桶盖。

1、下载文档前请自行甄别文档内容的完整性，平台不提供额外的编辑、内容补充、找答案等附加服务。
2、"仅部分预览"的文档,不可在线预览部分如存在完整性等问题,可反馈申请退款(可完整预览的文档不适用该条件!)。
3、如文档侵犯您的权益，请联系客服反馈,我们会尽快为您处理(人工客服工作时间：9:00-18:30)。

二级评分IRT模型例：逻辑斯蒂模型单参数模型（拉希模型）；双参数模型和三参数模型。多级评分IRT模型连续型IRT模型
优点及运用

能力参数估计的不变性。即个体独立于测验项目参数估计的不变性。即测验独立于个体提供被试能力估计值的精确度指标被试能力和项目难度在同一量表上，为测验编制、测题分数的报告和解释提供了便利。
三、区分度与难度的关系
四、区分度的相对性

（一）不同的计算方法，所得区分值不同（二）样本容量大小影响相关法区分度值的大小（三）分组标准影响鉴别指数值（D ）（四）被试样本的同质性程度影响区分度值的大小
第三节

猜测问题与猜测率

一、客观测验题中的猜测问题与猜测率（一）客观测验题中的猜测问题（二）猜测率（三）猜测误差的来源二、项目难度受猜测影响的校正 CP=（KP-1）/（K-1）或 CP=P-q/（K-1）式中CP为校正后通过率，P为实际通过率，K为备选答案数目；q=1-p。 S=R-W/（K-1）式中S为校正后的得分，R为被试答对的项目数，W为被试答错的项目数，K为项目的选项数目。
（二）非二分法记分项目的难度
X
全体考生在该题上均分；
X max
该题的满分。
整个试卷的难度计算：试卷的难度是指一份试卷的总体难易程度，其由试卷中每道题的难度决定。其计算办法为：将每道题目的难度与满分值相乘的积相加，然后将其总和除以试卷的满分值，所得的商即为整个试卷的难度。
例题

例1. 在200个学生中，答对某项目的人数为120 人，则该项目的难度为多少？例2. 在370名被试中，选为高分组和低分组的被试各有100人，其中高分组有70人答对第1题，低分组有40人答对第1题，求第1题的难度。例3. 数学测验的第七题满分为15分，该题考生的平均得分为9.6分，则该题的难度是多大？
四、测验难度水平的确定
（1）常模参照能力测验： A. 一整套题目的整体难度应在0.30～0.70之间，平均难度在0.450.55之间，难度为0.50的题应该居多。这样保证分数成正态分布，有最大的离散程度。
B.当题目之间正相关时，题目难度值应分布的广些，但平均难度应以 0.50为好。
C.当题目有猜测可能时，题目的难度应适当加大。

ห้องสมุดไป่ตู้
（二）测验分数的离散程度与测验难度
——太难或太易离散性都小,难度中等离散程度最大。
第二节项目的区分度

一、区分度的意义（一）区分度的意义区分度(项目效度)是指测验项目对被试心理品质水平差异的区分能力。（二）区分度的取值区分度（D）的取值范围介于-1.00至+1.00之间。通常D为正值，称作积极区分；D为负值为消极区分；D为0称作无区分作用。具有积极区分作用的项目，其D值越大，区分的效果越好。
第四章

测验的项目分析
学习目标： 1、掌握测验项目难度的意义，难度指标的计算及项目难度对测验的影响； 2、掌握测验项目区分度的意义，区分度的求法、区分度对测验质量的影响； 3、了解难度与区分度的关系；
项目分析的概念

项目分析是根据被试的反应对组成测验的各个题目（项目）进行分析，从而评价其功用的程序和方法。目的是对项目进行选择和改良
测验等值的假设

公平性如果测验x和测验y的等值对每一个被试都是公平的，则对每一定水平的被试，无论他接受的是测验x或者测验y都不会低估或高估其实际水平。
D.选拔性测验还要考虑录取率。一般要求使通过率等于录取率。
（2）标准参照能力测验 P=1.0或P=0有可能也是好题。
（3）人格测验
P ≧ 0.95或P ≦0.95的题目考虑删除。
五、测验的难度对分数分布的影响

（一）测验分数的分布形态与测验难度测验的难度可以由分数的分布提供
——分数成偏态分布测验过难或太容易;分数正态分布的测验难度适中.

三、难度的等距变换

1.难度存在的缺陷:不是等距数据，如0.6\0.7\0.8。 2.难度转化为Z分数（见右图） 3.难度转换为美国教育测量服务中心采用的难度指标 △ =13+4×Z 式中，△表示题目难度，Z表示由P值换得来的标准分数。△值
越大，则难度愈大，△ 值愈小，难度越低。
第四节项目分析的特殊问题

一、多重选择题的项目分析
（一）多重选择题的作用和优点（二）用多重选择题的项目分析可以解决的问题（三）具体分析的步骤为： 1、按被试测验的总分，从高到低依次排列试卷。 2、从最高分依次向下取全部试卷的27%作为高分组。 3、从最低分依次向上取全部试卷的27%作为低分组。 4、分别登记高分组与低分组选中各选择项的人数（亦可将人数换为人数比例），然后登记。 5、根据登记结果进行选择项的质量分析。

例题：高分组在某一项目的通过率为0.75，低分组的通过率为0.35，则该项目的鉴别指数为多少？判断项目鉴别指数的指标: 0.40以上，优良； 0.30～0.39，良好，如能修改更好； 0.20～0.29，尚可，仍需修改； 0.19以下，劣，必须淘汰。
（二）主观性试题的区分度计算
XH 为高分组总分，XL 为低分组总分，H为该题最高分，L为该题最低分，N为考生总人数的25%（27%）。例：参加考试1658人，取其25%那就是415人。前 415人书面表达总得分为8719分；后415人的总得分为 5812分。书面表达最高位满分25分。最低得分为4分。经过计算区分度为0.3335。
猜测校正公式的应用

①对全体校正公式的应用有A、B两个测验项目，项目A为四重选择题，通过率为0.58；项目B为五重选择题，通过率为0.56；试比较两题的难度。 ②对个体校正公式的应用某被试参加由100道四重选择题组成的测验，结果是答对82道题，答错18道题，该被试的实得分数为（每题1分）多少？
P
N
P：试题的难度； R：答对该题的人数； N：总人数。 P值越大，则难度越小。
2、极端分组法
极端组的划分:

PH PL P 2

一般情况下,根据效标或测验总分将被试排队，取27%的高分端被试组成高分组，另外27%低分端被试组成低分组。其余46%被试不作分析。标准： 1、确保标准正确，高分组大于低分组成绩； 2、使两组容量足够大。注意： 1、27%为习惯取法 2、比率不能太小（如10%），则所选出的两组过于极端，很可能夸大题目的区分度。样本小（n<100时），则不宜用27%的规则，可取50%为分界点。 3、使用极端分组法主要是为了计算简便，但这种方法只利用了一部分信息，比用全部信息计算的结果准确性差些。
项目反应理论的重要特点：

1. 项目的难易度的估计不因样本不同而不同； 2. 被试能力的估计不因测验的改变而改变； 3. 测量误差的估计对每一位被试单独给出。要为项目参数建立一个指标体系要为被试的能力建立一个指标体系
应用：测验等值

概念：对测量同一种心理特质的不同测验分数或项目参数，通过一定的数学模型，转换成同一单位系统中的量数，以有利于相互比较的方法。
二、区分度的计算

（一）项目鉴别指数法
1、谐度分析：也就是内容一致性分析，其目的是检查个别试题与整个测验的作用的一致性。 a、这种方法较适合于二分法记分的测验项目。 b、鉴别指数的计算方法: D=Ph-Pl。将被试依照总分从高到低排列，然后将总分最高的27%和最低的27%的被试分别定为高分组和低分组。 2、效度分析：目的：在于检验每一个题项是否具有某种鉴别作用。它是以外部效标为依据，分别求出各效标组在某一试题上通过人数百分比，以其差数作为效度指标。效度分析的方法和步骤与前述的谐度分析相似，所不同的是参照标准。

例：多项选择题的项目分析
（四）对选择项的反应模式的分析
反应分析：检讨被测者对各个项目如何进行回答。

（1）如果正确的备选答案被所有的受测者所选择，说明该项目太容易或者可能是项目中提供某种暗示，使正确答案过于明显。（2）如果某个错误答案没有任何被试选择，则说明该项目不具有迷惑性，错得过于明显，除增加阅读时间外，不起任何作用。一般说来，除非有2%以上的人选择，否则该备选答案应该修改或删掉。（3）如果所有被试都选择了同一个错误答案，可能是编制测验时把正确答案搞错了，也可能是在教学中发生了错误。（4）如果高分组被试的选择集中在两个答案上，二者选择率接近，说明该题可能本来就有两种正确答案，或者在某种意义上另一个选择项也有一定的道理。（5）如果高分组对正确答案的选择率与低分组相等或低于后者，说明该题所考察的东西与被试水平无关，即不具有鉴别力，此题应删除或作大的修改。（6）如果一个题目被试未作答的人数较多（速度性测验除外），或选择各个备选答案的人数相等，说明该项目可能过难或题意不清，被试无法作答或凭猜测作答。
IRT的基本假设

潜在特质空间的单维性假设大多数项目反应模型都假设完全潜在空间是单维的。局部独立性假设被试对一个测验项目的反应不受他们对其他测验项目反应情况的影响。项目特征曲线假设（ICC）反映了被试对某一测验项目的正确反应概率与该项目所对应的能力或特质水平之间的函数关系。
项目反应模型

第一节项目的难度

一、项目难度的意义难度是指测验项目的难易程度。难度一般用于能力测验。对于人格问卷的题目P值表示“通俗度、流行度”用理解某项目的人数占总人数的百分比表示。二、项目难度的计算测验的记分方法不同，项目难度的计算方法也有所不同。（一）二分法记分项目的难度 1.通过率 R

第4章 测验的项目分析

第4章 项目分析