项目反应理论

合集下载

[心理测验]IRT理论（ItemResponseTheory）

IRT理论（Item Response Theory）IRT理论概述IRT理论即项目反应理论(Item Response Theory, IRT)，又称题目反应理论、潜在特质理论（Item Response Theory）是一系列心理统计学模型的总称。

IRT是用来分析考试成绩或者问卷调查数据的数学模型。

这些模型的目标是来确定的潜在心理特征(latent trait）是否可以通过测试题被反应出来，以及测试题和被测试者之间的互动关系。

目前广泛应用在心理和教育测量领域。

项目反应理论的意义在于可以指导项目筛选和测验编制。

项目反应理论假设被试有一种“潜在特质”，潜在特质是在观察分析测验反应基础上提出的一种统计构想，在测验中，潜在特质一般是指潜在的能力，并经常用测验总分作为这种潜力的估算。

项目反应理论认为被试在测验项目的反应和成绩与他们的潜在特质有特殊的关系。

通过项目反应理论建立的项目参数具有恒久性的特点，意味着不同测量量表的分数可以统一。

项目反应理论通过项目反应曲线综合各种项目分析的资料，使我们综合直观地看出项目难度、鉴别度等项目分析的特征，从而起到指导项目筛选和编制测验比较分数等作用。

项目反应理论的特点(1)独立性。

被试特质水平不依赖于被试样本的代表性；被试水平参数不依赖于测验项目组；项目特征参数不依赖于所测被试组的参数不变测验项目组。

(2)项目理论中被试水平和项目难度可以直接比较；(3)正视了测量误差和项目性能是否与被试水平相关这一事实；(4)提供了计算机化自适应测验这一策略；(5) 从计量学角度提出了自己的新观点与新技术。

历史发展IRT理论发端于20世纪50年代，它同时被丹麦统计学家Georg Rasch和美国心理统计学家Frederic M. Lord在各自的国家发展起来。

尽管采取的研究方法不同，但是他们的结果却非常相似。

F. Lord在1951年从普林斯顿大学毕业时的博士论文《A Theory of Test Scores》被认为是IRT 理论的开端之作。

项目反应理论简介

项目反应理论简介摘要：项目反应理论（IRT）是近三十年发展起来的一种比较先进的心理与教育测验理论，受到国内外许多学者和专家的关注。

与经典测验理论相比，项目反应理论在较强的前提假设下，有更多的优越性。

关键词：经典测验理论；项目反应理论；项目特征曲线；罗氏模型一、引言目前，考试系统题库的建立主要基于两种指导理论：经典测验理论（Classical Test Theory, CTT）和项目反应理论（Item Response Theory, IRT）。

二者都有一套完整的试题分析指标体系和评价标准。

但经过长期实践，经典测验理论显示出某些难以克服的缺点，如由不同测试项组成的测验其结果无法比较，数据没有等距性，测量结果容易受到样本的影响，以及多个变量不易同时处理等。

针对这些，现代测验理论应运而生。

在国外已广泛应用于教育测验领域，如GRE，GMAT，TOEFL等测验，近年来也扩展应用到其他学科领域的测验评估。

Baker (2001)认为，在经典测验理论指导下，测试学家关心的是被试的测试得分，即每个正确测试项的分值总和。

而项目反应理论的关注重点则是被试是否答对每个测试项，而不是被试的测试总分。

项目反应理论和经典测验理论在数学模式、基本假设和测验可靠程度的估计指标等方面都存在着明显的差别。

与经典测验理论相比，项目反应理论在较强的前提假设下，有更多的优越性。

二、项目反应理论项目反应理论，也称潜在特质理论、潜在特质模型、强真值理论，是一种现代心理测量理论，是一系列心理统计学模型的总称，是针对经典测量理论的局限性提出来的。

项目反应理论是用来分析考试成绩或者问卷调查数据的数学模型，这些模型的目标是来确定潜在心理特征(latent trait）是否可以通过测试题被反应出来，以及测试题和被试之间的互动关系。

项目反应理论假设被试对项目的反应能体现他的潜在特质（Baker, 2001）。

根据被试回答测试项的情况，通过对项目特征函数的运算，来推测被试的能力。

项目反应理论的形成与基本理论假设

项目反应理论的形成与基本理论假设项目反应理论（Item Response Theory, IRT）是针对测试和评价领域中的一种方法和理论，旨在解决测量数据分析过程中的一系列问题，如测验题目类型、人群不同表现和不同测量精度等等。

该理论由多位统计学家和心理学家共同发展而来，包括Lord和Novick（1968), Hambleton、Swaminathan和Rogers （1991), Kolen 和Brennan（2014）等人。

项目反应理论早期起源于功效曲线（曲线上（Y-坐标）表示试题难度，X-坐标表示受试水平）。

1927年，美国心理学家Thurstone对于智力测验中的单项选择题目进行了功效曲线的研究。

1933年，Lazarsfeld和Henry对于记忆实验数据的分析中提出了多因素问题的解决方案（在Lazarsfeld和Henry的研究中最初称为Comparative-Quality Scale Technique Method）。

而当广义线性模型（GLM）在20世纪70年代发明出来之后，它便成为了许多现代IRT方法的基础。

IRT理论在假设中有一些基本前提，其包含了三个主要部分：1. 题目模型。

IRT模型的第一个基本假设是关于题目模型的，即问卷或试卷的测量者需要选择一种反映题目表现的模型。

IRT中最著名的四个模型是二维常识模型（2PLM），一维常识模型（1PLM），三维常识模型（3PLM）和一维等角模型（1PLU）等，试卷数据可以使用这些模型进行模型拟合和解释。

2.人群模型。

IRT的第二个基本假设是关于受试者或群体模型的，即每个被试的特定水平对于含有该要素的题目反应是有效的，以及这种特定水平可以准确地衡量被试者的表现水平，和题目的等级和难度水平有一定的相关性。

3.数据模型。

IRT的第三个基本假设是关于数据模型的，即用户可以基于现有数据拟合合适的IRT模型，通过分析测试中正确答案的项分布情况来优化题目的构成，以适应用户的需求。

项目反应理论简介

尽管存在以上缺点，CTT仍在广泛地应用。 CTT、IRT和概化理论是当今最有影响的三种测验理论。简单地说，IRT在处理微观问题（即被试水平与答题目之间的实质性关系）时优势明显， CTT在处理中观问题（如处理常见的标准化考试等）时方便易懂，GT则在处理宏观问题（如对结果作推论）时更显出色。三种测验理论体系有内在联系，各有长短，应相互促进，互相补充。
理论方法体系相对完整前提假设比较弱所涉及到的数学模型以及参数的概念和估计方法易理解和掌握标准化技术在控制测验误差等方面有明显的效果

2、CTT在理论体系和方法体系方面存在许多其本身难以克服的缺点，具体表现为：

基本假设难以成立：①真分数与观测分数间存在线性关系的假定不合理；②平行测验的假设难以成立；③误差与真分数独立的假设难以满足。

不同的是，CTT是以被试对所有测验项目的反应总和（测验总分）为显变量来预测被试的潜在特质的，并不认为被试对单个项目的反应与其特质间有任何有意义的联系。

IRT则认为被试的能力与其对某一特定项目的反应（以正确或错误反应概率表示）有某种函数关系存在，确定这种关系就是IRT的基本思想和出发点。
二、IRT的基本理论体系
（一）、概念（二）、基本思想及基本思路（三）、基本理论假设

（一）、概念

项目反应理论（Item Response Theory，简称 IRT），又称潜在特质理论（Latent Trait Theory) 或项目特征曲线理论（Item Characteristic Curse Theory)，是为了克服经典测验理论（CTT）的局限而提出的现代测验理论。从测验的内部或微观方面入手，采取数学建模和统计调整的方法，重点讨论被试的能力水平与测验项目之间的实质性关系，测验的每一个项目都有自己的项目特征曲线，描述了每一个特定能力水平的被试答对或答错该项目的概率。

项目反应理论

项目反应理论任何一种理论都不可能是完美无缺的，作为测量初期发展起来的理论更是不可避免地存在着一些缺陷。

项目反应理论（Item Response Theory, IRT）则是在反对和克服传统测量理论的不足之中发展起来的一种现代测量理论。

无论是CTT还是GT，其测验内容的选择、项目参数的获得和常模的制定，都是通过抽取一定的样本（行为样本或被试样本），因此可以说二者都建立在随机抽样理论基础之上。

它们的局限性主要表现在以下几个方面：（1）信度估计的精确性不高测量的重要目标就是降低测量误差，提高测量的精度。

在经典测量理论中，信度被定义为真分数的方差与实得分数（原始分数）的方差之比。

然而，在此定义中，真分数的方差和误差的方差都无法求取。

为了估计信度，CTT又提出了平行测验的概念，并在此基础上推演出了若干个信度估计公式。

但是严格的平行测验是不存在的，等价测验也很难获得的，在此基础上估计的测验信度很难达到比较高的精确程度。

另外，经典测量理论中的信度估计值也是一个笼统值，即假定对不同能力水平的被试来说，测量的误差是相同的。

而事实是，一份测验只有在施测于能力水平与测验难度相当的被试时容易获得比较高的测量精确度。

当测验施测于能力水平高于（或低于）测验难度的被试时就容易产生较大的测量误差。

而且测量误差值会随着被试水平与测验难度距离的增加而变大。

（2）各种测量参数的估计依赖于被试样本经典测量理论构造了一个完整的理论体系，同时设计了一套参数指标来刻划测量各方面的特性。

如信度、效度、项目的难度、区分度等。

但是这些参数的估计对样本的依赖性是很大的。

如项目难度，对于同一题目，若样本的群体水平较低，就有较高的难度估计值。

测验的信度和效度采用相关分析法，同样受到样本的影响。

为避免抽样误差对参数估计的影响，经典测量理论特别强调样本对总体的代表性。

但经典理论所用的是随机抽样，随机抽样总有一定偏差存在。

何况在实际工作中，由于客观条件的限制，还不能做到随机抽样。

项目反应理论与认知诊断的统计推断方法

1、跨领域应用：将项目反应理论和认知诊断方法应用到更多领域，如医学、社会调查、人力资源等领域，拓展其应用范围和使用价值。
2、精细化建模：针对不同领域和实际问题的特点，开发更加精细化和个性化的统计推断模型，以更好地满足实际需求。
3、数据科学方法：结合数据科学领域的新方法和新技术，如机器学习、深度学习等，提高统计推断的精度和效率，为实践提供更加可靠的支持。
3、结果解释方面，需要对模型结果进行充分解释，以便更好地理解和利用模型结果。可以结合实际问题和数据的特点，制定合理的解释方式和指标，对模型结果进行深入分析，以便更好地指导实践和应用。
五、结论与展望
本次演示介绍了项目反应理论与认知诊断的统计推断方法及其应用，包括项目反应模型、认知诊断模型、参数估计与检验等，并通过例题和数据讲解了方法的具体应用。还分析了统计推断方法面临的挑战和相应的解决方案。随着技术的发展和应用领域的扩展，未来研究可以以下几个方面：
3、参数估计与检验
在应用项目反应理论和认知诊断模型时，需要对模型参数进行估计和检验。常见的参数估计方法包括最大似然估计、期望最大化算法等，检验方法则包括拟合度检验、模型稳定性检验等。参数估计与检验可以确保模型的适用性和精度。
三、方法应用
1、考试成绩分析
通过应用项目反应理论，可以对考试成绩进行全面分析。例如，教育机构可以利用项目反应理论对试题难度、区分度等进行分析，以便更好地设计试题和评估学生的学习水平。此外，项目反应理论还可以用于学生的能力估计和学科优势识别等方面。
项目反应理论与认知诊断的统计推断方法
目录
01 一、项目反应理论与认知诊断的简介
02 二、统计推断方法
03 三、方法应用
04 四、挑战与解决方案

IRT项目反应理论

在招聘、选拔过程中，IRT可以帮助组织更准确地评估候选人的能力。
主题研究背景
早期研究
早期研究主要集中在理论模型的建立和验证。
当前研究
当前研究更加关注实际应用，如在线测验、自适应测验等。
未来展望
未来研究将进一步探索IRT 与其他技术的结合，如人工智能、大数据等。
02
IRT项目反应理论概述
定义与概念
定义
IRT项目反应理论，也称为潜在特质理论或潜在特质模型，是一种心理测量理论，用于描述个体在特定测验项目上的潜在特质水平与其行为表现之间的关系。
概念
IRT假设个体在某个潜在特质上的水平是连续的，并且个体在某个测验项目上的表现是由其潜在特质水平决定的。
发展历程
起源
IRT起源于20世纪50年代，由美国心理学家伯恩斯和金纳德提出。
THANKS
感谢观看
IRT通过建立与能力水平相对应的难度参数，能够准确地衡量学生在不同学科领域的能力水平，从而为个性化教学和辅导提供依据。
IRT还可以用于评估学生的认知能力、学习能力和情感能力等，帮助教师全面了解学生的发展状况，为制定教学计划和干预措施提供依据。
课程设计与优化
IRT在课程设计与优化方面也具有重要应用。通过分析学生的能力分布和项目难度参数，教师可以对课程进行针对50年代，随着计算机技术的发展而逐步完善。
应用领域
广泛应用于教育、心理学、人力资源等领域。
主题重要性
提高测验精度
IRT可以帮助研究者更准确地测量个体的能力水平，从而提高测验的精度。
个性化教学
通过IRT，教师可以了解学生的学习需求和能力水平，从而进行个性化教学。
人才选拔
03

项目反应理论【精选文档】

项目反应理论随着心理学的发展, 心理测量无论是在理论上, 还是在方法上都逐步地提高.目前，心理测量有三大理论派别：经典测量理论（Classical Test Theory , 简称CTT) ，项目反应理论（Item Response Theory ，简称IRT) 和概化理论（Generalizability Theory , 简称GT）.项目反应理论是一种先进的测量理论,它是针对经典测量理论的不足而提出来的, 其理论基础是潜在特质理论。

项目反应理论的基本思路是确定考生的心理特质值和他们对于项目的反应之间的关系, 这种关系的数学形式就是“项目反应模型”。

下面主要对项目反应的理论假设和数学模型做一下简要概述。

一、项目反应理论的基本假设任何一种数学模型都有一定的前提，任何一种测量都有一定的假设,在项目反应理论中也有三条最基本的假设：潜在特质空间的单维性假设、测验项目间的局部独立性假设、项目特征曲线假设.有的学者还增加了“知道—-答对"假设和非速度限制假设。

在此仅说明前面三条最基本的假设.1、潜在特质空间的单维性假设潜在特质空间是指由心理学中的潜在特质组成的抽象空间。

如果考生在测验项目上的反应是有K种潜在特质所决定的,那么这些潜在特征就定义了一个K维潜在空间，考生的各个潜在特质分数综合起来，就决定了该考生在该潜在空间的位置。

如果影响考生测验分数的所有重要的心理特质都被确定了，那么该潜在空间就称为完全潜在空间。

目前比较成熟的大多数项目反应模型都假设完全潜在空间是单维的,即只有一种潜在特质决定了考生对项目的反应，也就是说组成某个测验的所有项目都是测量的同一个心理变量，例如知识、能力、态度或人格。

当然，这一假设往往不可能得到严格的满足,因为总有其他因素会影响到考生在测验上的反应，这些因素包括认知的、人格的和施测时的客观条件,以及考生的动机水平、焦虑程度、反应速度和考试技巧等。

因此在项目反应理论中,只要所预测量的心理特质是影响考生对项目作出反应的主要因素，那么就认为这组测验数据是满足单维假设的.2、测验项目间的局部独立性假设所谓局部独立性假设是指某个考生对于某个项目的正确概率不会受到他对于该测验中其他项目反应的影响，也就是说只有考生的特质水平和项目的特性会影响到考生对该项目的反应.在实际的教育和心理测量问题中, 如果前一个项目的内容为后一个项目的正确反应提供暗示或其它有效的信息，局部独立性的假设就会遭到破坏，例如所谓的链状试题就会出现这种情况.局部独立性是建立在统计的意义上的,用统计学的语言，局部独立性是指对每一个测验者来说, 对整个试题作出某种反应的概率等于对组成试卷的每个项目的反应的概率的乘积.3、项目特征曲线假设项目反应理论的一个关键就是在被试者对项目作出的反应或作出反应的概率与被测试者的潜在特质之间建立某种函数关系。

1、下载文档前请自行甄别文档内容的完整性，平台不提供额外的编辑、内容补充、找答案等附加服务。
2、"仅部分预览"的文档,不可在线预览部分如存在完整性等问题,可反馈申请退款(可完整预览的文档不适用该条件!)。
3、如文档侵犯您的权益，请联系客服反馈,我们会尽快为您处理(人工客服工作时间：9:00-18:30)。

测验等值
概念：对测量同一种心理特质的不同测验分数或项目参数，通过一定的数学模型，转换成同一单位系统中的量数，以有利于相互比较的方法。
测验等值的条件
进行等值的测验必须是测量同一心理特质
只有信度相等或两个信度都较高的测验之间才能等值，测验等值是指参照系统的转换，它实际上找出了一系列对应等价的分数和参数，且这个等价关系是客观存在的。
第一节项目难度
题目难易程度的指标
项目难度
定义
估计项目难度的方法
（1）以答对的百分比（或比率）来估计难度
①二值记分（即只有答对和答错两种情况，记为1或0）的测题。
P R N
P：试题的难度；R：答对该题的人数；N：总人数。
P值越大，则难度越小。
估计难度的方法（cont.）
②当测题不是二值记分时，计算难度的公式
操作步骤
分析步骤
选择样本组进行测量按测验总分排序，取高分组和低分组计算高分组和低分组的通过比率分别求出难度和鉴别力指数比较高分组和低分组在测题不同答案上
的反应根据测题统计分析的结果，修改或选择
合适的测题
实例（P270）
鉴别力：0.30以上的项目是比较好的。难度：一般在0.35～0.65之间，对整个
项目特征曲线假设（ICC）反映了被试对某一测验项目的正确反应概率与该项目所对应的能力或特质水平之间的函数关系。
项目反应模型
二级评分IRT模型例：逻辑斯蒂模型单参数模型（拉希模型）；双参数模型和三参数模型。
多级评分IRT模型连续型IRT模型
优点及运用
能力参数估计的不变性。即个体独立于测验
测验等值的设计
1. 共同考生设计
测验X
﹜ ｝组1’
组1
﹜ ｝组2 ’
｝组3 ’
组2
测验Y
测验等值的设计（cont.）共同测ຫໍສະໝຸດ 设计 n种扩展的测验设计混合设计
第二节项目的鉴别力
对不同水平被试反应的区分程度
项目鉴别力
定义估计方法
1. 项目鉴别指数
D PH PL
0.40以上，优良；0.30～0.39，良好，如能修改更好；0.20～0.29，尚可，仍需修改； 0.19以下，劣，必须淘汰。
估计方法（cont.）
2. 方差法（测题的方差）条件？ 3. 项目与总分相关说明项目与总分有一致性点二列相关；二列相关；皮尔逊积差相关。 4. 项目的组间相关四项（格）相关；Φ相关；皮尔逊积差相关。 5. 项目与外部准则的相关：项目效度分析
难度与测验分数的分布
由一个标准化样组所构成的测验分数的分布，一般来说是常态分布。
出现偏态分布的情况：左偏态；右偏态。
试题难度和测验目的有关。
项目难度范围对信度系数的影响
rtt
1
Se2 St 2
rtt
n ×St2 n 1
St 2
pq
项目的组间相关大，则测验的信度高。而项目组间相关高，那么它们的难度也越接近。
IRT的特点
基本思想：潜在特质基本思路
确定被试的心理特质值和他们对于项目的反应之间的关系，这种关系的数学形式就是“项目反应模型”。IRT的核心就是数学模型的建立以及对模型中各个参数的估计。
IRT的基本假设
潜在特质空间的单维性假设大多数项目反应模型都假设完全潜在空间是单维的。
局部独立性假设被试对一个测验项目的反应不受他们对其他测验项目反应情况的影响。
Ch8 项目分析及项目反应理论
浙江师大心理系李新宇 xyli@
/eduxin/oblog
项目分析概述
项目分析就是对组成测验的每个测题进行分析。
质的分析量的分析应用：测题选择和编制（经典测量理
论）；测验等值、试题库、计算机自适应考试（现代测量理论）。
测验来说，0.50的难度题应该居多。选项：选项分析的异常情况。
正确答案无人选择或少于其它选项的选择；错误选项上低分组的人数少于高分组；选项无人选择；未答人数较多。找出原因，对各题进行修改。
第四节项目反应理论
理论及应用
经典测量理论的局限性
抽样变动大能力难比较复本难实施缺乏预测力等测量标准误差
项目难度、鉴别力、组间相关与测验信度、预测效度的关系
组间相关、信度和效度的矛盾项目难度、组间相关对测验总分分布的
影响 P268 图7.4 结论：这几者之间的关系十分复杂，甚至相互矛盾妥协的方法：组间相关在0.10～0.60之间；项目与测验总分相关为0.3～0.8。
第三节项目反应的实例
CP：矫正后的难度；P：未矫的难度；K：选项的数目。
（3）项目难度的等距量表
通过标准正态分布曲线进行转化
避免负号的两种方法
项目的平均数与方差（变差）
项目的平均数项目的方差和标准差总分方差
St2 piqi 2 rij
项目的方差与难度的关系 P＝0.5时，S2有极大值。
piqi p jq j
P X X max
X ：全体考生在该题上的平
均分；X max ：该题的满分。
③分组法
重要前提：将被试按总分高低排列。一般
标准为27％。计算公式：
P PH PL 2
估计难度的方法（cont.）
（2）项目难度受机遇影响的矫正
对考生由于猜测而答对某些题目致使P值增大的可能性。
CP KP 1 K 1
项目参数估计的不变性。即测验独立于个体
提供被试能力估计值的精确度指标被试能力和项目难度在同一量表上，为
测验编制、测题分数的报告和解释提供了便利。
应用篇：测验等值
参考：张敏强（教育测量学）项目反应理论的重要特点：
1. 项目的难易度的估计不因样本不同而不同； 2. 被试能力的估计不因测验的改变而改变； 3. 测量误差的估计对每一位被试单独给出。要为项目参数建立一个指标体系要为被试的能力建立一个指标体系
测量等值的作用
使同学科不同时间、地点的测验分数具有可比性
促进测验的科学化及现代化，有利于题库建设
测验等值的假设
公平性如果测验x和测验y的等值对每一个被试都是公平的，则对每一定水平的被试，无论他接受的是测验x或者测验y都不会低估或高估其实际水平。
模跨群体的不变性测验的一维性