项目反应理论简介
项目反应理论简介

项目反应理论简介摘要:项目反应理论(IRT)是近三十年发展起来的一种比较先进的心理与教育测验理论,受到国内外许多学者和专家的关注。
与经典测验理论相比,项目反应理论在较强的前提假设下,有更多的优越性。
关键词:经典测验理论;项目反应理论;项目特征曲线;罗氏模型一、引言目前,考试系统题库的建立主要基于两种指导理论:经典测验理论(Classical Test Theory, CTT)和项目反应理论(Item Response Theory, IRT)。
二者都有一套完整的试题分析指标体系和评价标准。
但经过长期实践,经典测验理论显示出某些难以克服的缺点,如由不同测试项组成的测验其结果无法比较,数据没有等距性,测量结果容易受到样本的影响,以及多个变量不易同时处理等。
针对这些,现代测验理论应运而生。
在国外已广泛应用于教育测验领域,如GRE,GMAT,TOEFL等测验,近年来也扩展应用到其他学科领域的测验评估。
Baker (2001)认为,在经典测验理论指导下,测试学家关心的是被试的测试得分,即每个正确测试项的分值总和。
而项目反应理论的关注重点则是被试是否答对每个测试项,而不是被试的测试总分。
项目反应理论和经典测验理论在数学模式、基本假设和测验可靠程度的估计指标等方面都存在着明显的差别。
与经典测验理论相比,项目反应理论在较强的前提假设下,有更多的优越性。
二、项目反应理论项目反应理论,也称潜在特质理论、潜在特质模型、强真值理论,是一种现代心理测量理论,是一系列心理统计学模型的总称,是针对经典测量理论的局限性提出来的。
项目反应理论是用来分析考试成绩或者问卷调查数据的数学模型,这些模型的目标是来确定潜在心理特征(latent trait)是否可以通过测试题被反应出来,以及测试题和被试之间的互动关系。
项目反应理论假设被试对项目的反应能体现他的潜在特质(Baker, 2001)。
根据被试回答测试项的情况,通过对项目特征函数的运算,来推测被试的能力。
Rasch 的简单介绍

Rasch模型的假设
(1)单维性假设,即测验中的每一个项目都测量到同 一种共同的潜在特质; (2)局部独立性假设,即被试在每一个项目上的反应 是独立的,在n项目中观察到的反应并不能对n+1个 项目的反应提供附加的信息; (3)非速度测验假设,即测验的进行是在没有时间限 制的条件下完成的,被试在项目反应上不理想,是由 于能力不足引起的,而不是由于时间不够所致; (4)知道——正确假设,即被试知道某一项目的正确 答案,他必然答对,换句话说,若答错某一项目,则 他必然不知道答案。
项目特征曲线
项目反应模型的特征
模型的假设:被试在一个测验上的行为完全依据 被试在潜在特质空间各特质分量表上的地位来解 释和预测,与其他任何因素无关; 模型能揭示被试行为与相关心理特质之间的真实 关系; 模型应该能够提供测验被试估计特质分数的方法; 被试特质分数必须由且也只能由被试在一组测验 项目上的行为估计; 项目反应模型必须具有自变量取值在正负无穷范 围和因变量的值域在[0,1]区间单调递增。(单维 的项目反应模型)
3 、参数分离 Wright 和 Stone (1979) 指出了客观测量两个相辅 相成的要求。一个是题目难度的标定必须独立于 被试样本的分布, 另一个要求是对个体能力的测量 必须独立于题目的难度分布。此一特点称为“参 数分离”或“参数恒定”
由前面的公式推导可知, 正确反应的概率只由个 体的能力(θm)和题目的难度(δ i)所决定。这意味着 Rasch 模型所提供的个体能力和题目难度参数, 是 完全独立样本分布或题目难度分布的。因此, Rasch 模型符合客观测量对于参数分离的要求。
项目反应理论的形成与基本理论假设

项目反应理论的形成与基本理论假设项目反应理论(Item Response Theory, IRT)是针对测试和评价领域中的一种方法和理论,旨在解决测量数据分析过程中的一系列问题,如测验题目类型、人群不同表现和不同测量精度等等。
该理论由多位统计学家和心理学家共同发展而来,包括Lord和Novick(1968), Hambleton、Swaminathan和Rogers (1991), Kolen 和Brennan(2014)等人。
项目反应理论早期起源于功效曲线(曲线上(Y-坐标)表示试题难度,X-坐标表示受试水平)。
1927年,美国心理学家Thurstone对于智力测验中的单项选择题目进行了功效曲线的研究。
1933年,Lazarsfeld和Henry对于记忆实验数据的分析中提出了多因素问题的解决方案(在Lazarsfeld和Henry的研究中最初称为Comparative-Quality Scale Technique Method)。
而当广义线性模型(GLM)在20世纪70年代发明出来之后,它便成为了许多现代IRT方法的基础。
IRT理论在假设中有一些基本前提,其包含了三个主要部分:1. 题目模型。
IRT模型的第一个基本假设是关于题目模型的,即问卷或试卷的测量者需要选择一种反映题目表现的模型。
IRT中最著名的四个模型是二维常识模型(2PLM),一维常识模型(1PLM),三维常识模型(3PLM)和一维等角模型(1PLU)等,试卷数据可以使用这些模型进行模型拟合和解释。
2.人群模型。
IRT的第二个基本假设是关于受试者或群体模型的,即每个被试的特定水平对于含有该要素的题目反应是有效的,以及这种特定水平可以准确地衡量被试者的表现水平,和题目的等级和难度水平有一定的相关性。
3.数据模型。
IRT的第三个基本假设是关于数据模型的,即用户可以基于现有数据拟合合适的IRT模型,通过分析测试中正确答案的项分布情况来优化题目的构成,以适应用户的需求。
项目反应理论与题库建设

国%i-(指标库、赋史端 必图格 普文岸、笛国库? L —1、建库与维护干系统建库与维护子系统的功能是将已经选定的题目按属性指标、题文、附图、答文、答图 等项目,将有关信息准确方便地送入各子库中,并对库中的有关信息进行增、册h 修改、I 换以及按题号排序和查对等。
由于物理学科的特点,图形和特殊字符在题库中占有较大比重,所以物理题库系统需 要有绘制图形与特殊符号的功能,这项功能应在建库和维护子系统中实现。
另外,由于试题 中有图形,答案中也可能有图形,所以一个题目记录要由属性指标、题目正文(简称题文)、 附图、答文、答图等五部分组成。
考虑存储和管理的方便,试题的这些信息不统一存放在 个库中,而分别存放在指标库、题文库。
附图库、答文库和答图库等五个子库中。
同属一道试题的各项信息通过题目序号联系起来。
此外,按照课程的内容把所有题目分类, 按类存放,这样各子库相应地分成若干分库,每一分库存放某一类的试题。
接用库维护成二后请\瘠标原破K峦层加抗计机区地里统H-分布正L自动布卷模式匹醍组卷快速自动荆卷Mi 目।一个题库将存放大量的题目这些题目在计算机内如何存储将直接影响题库系统的工作效率和效果,因此题库结构的设计是题库系统设计开发的关键一环。
一般地说,一个大型题库应该具有这样的特征:(1)题库中的题目按学科领域分类,每一学科领域的题目又细分为若干个题目组合,这些题目组合可用于特定的教学目标,或测验特定的概念或能力。
(2)题库中的每一题目由两部分组成,即题目属性指标和题目本身。
题目属性指标有多项,反映有关题目的多种信息,这些信息将某一题目与库中的其它题目区别开,同时标记着题目使用的历史和使用情况(如使用次数、被高分学生答对的次数和被低分学生答对的次数等)。
(3)题库具有构成和结出等价形式测验的能力。
等价形式的测验是由不同的题目组合构成的,但每个测验的统计结果具有等效性,即这些不同的题目组合却测验相同的目标或概念,并用相同的统计方法来区分学生学习的好与差。
项目反应理论简介

尽管存在以上缺点,CTT仍在广泛地应用。 CTT、IRT和概化理论是当今最有影响的三 种测验理论。 简单地说,IRT在处理微观问题(即被试水 平与答题目之间的实质性关系)时优势明显, CTT在处理中观问题(如处理常见的标准化 考试等)时方便易懂,GT则在处理宏观问题 (如对结果作推论)时更显出色。 三种测验理论体系有内在联系,各有长短, 应相互促进,互相补充。
理论方法体系相对完整 前提假设比较弱 所涉及到的数学模型以及参数的概念和估 计方法易理解和掌握 标准化技术在控制测验误差等方面有明显 的效果
2、CTT在理论体系和方法体系方面存在许多 其本身难以克服的缺点,具体表现为:
基本假设难以成立:①真分数与观测分数间 存在线性关系的假定不合理;②平行测验的 假设难以成立;③误差与真分数独立的假设 难以满足。
不同的是,CTT是以被试对所有测验项目的 反应总和(测验总分)为显变量来预测被试 的潜在特质的,并不认为被试对单个项目的 反应 与其特质间有任何有意义的联系。
IRT则认为被试的能力与其对某一特定项目的 反应(以正确或错误反应概率表示)有某种函 数关系存在,确定这种关系就是IRT的基本思 想和出发点。
二、IRT的基本理论体系
(一)、概念 (二)、基本思想及基本思路 (三)、基本理论假设
(一)、概念
项目反应理论(Item Response Theory,简称 IRT),又称潜在特质理论(Latent Trait Theory) 或项目特征曲线理论(Item Characteristic Curse Theory),是为了克服经典测验理论(CTT)的局 限而提出的现代测验理论。 从测验的内部或微观方面入手,采取数学建模和 统计调整的方法,重点讨论被试的能力水平与测 验项目之间的实质性关系,测验的每一个项目都 有自己的项目特征曲线,描述了每一个特定能力 水平的被试答对或答错该项目的概率。
8.项目反应理论简介

IRT则认为被试的能力与其对某一特定项目 的反应(以正确或错误反应概率表示)有 某种函数关系存在,确定这种关系就是IRT 的基本思想和出发点。
所以IRT可以被理解为一种探讨被试对项目 的反应与其潜在特质间关系的概率性方法。
用θ(theta)表示被试的潜在特质或能力, 用Pi(θ)表示其对项目i正确反应概率,项目 反应理论的关键就是确定θ与Pi(θ)间的函数 关系。
(二)项目反应理论的发展
由于项目特征曲线(ICC)对项目反应理论 的产生具有重要意义,所以在讲项目反应 理论的产生和发展问题时,一般都追溯到 1905年比奈和西蒙编制第一个智力量表时 的工作,他们当时所使用的作业成绩随年 龄增长而提高的散点图与现在的ICC曲线十 分类似。
IRT的真正创立者是美国心理测量学家洛德 (Lord)。1952年,洛德发表博士论文《一个 测验分数的理论》,提出了IRT的第一个数 学模型(Two-parameter Normal Ogive Model,双参数正态卵形曲线模型)及其参 数的估计方法,并把该模型应用到了学业 成绩和态度测量工作之中。
如何理解局部独立性假设呢? 由于这种独立性是针对特定的θ值的被试而 言的,所以称为“局部”。
例:假设1000名能力相同的被试参加某一能 力测验,600名被试答对了项目i,400名答 错了;这1000名被试对项目j的正确反应概 率与对项目i的正确反应概率统计上是独立 的。 总之,同一特质水平的被试回答某一项目时 不受其他项目的影响。
1.00
正确 反应 的概 率: Pi(θ)
0.50
0.00
潜在特质: θ
表1
某个项目假设的项目特征曲线
项目反应理论

项目反应理论任何一种理论都不可能是完美无缺的,作为测量初期发展起来的理论更是不可避免地存在着一些缺陷。
项目反应理论(Item Response Theory, IRT)则是在反对和克服传统测量理论的不足之中发展起来的一种现代测量理论。
无论是CTT还是GT,其测验内容的选择、项目参数的获得和常模的制定,都是通过抽取一定的样本(行为样本或被试样本),因此可以说二者都建立在随机抽样理论基础之上。
它们的局限性主要表现在以下几个方面:(1)信度估计的精确性不高测量的重要目标就是降低测量误差,提高测量的精度。
在经典测量理论中,信度被定义为真分数的方差与实得分数(原始分数)的方差之比。
然而,在此定义中,真分数的方差和误差的方差都无法求取。
为了估计信度,CTT又提出了平行测验的概念,并在此基础上推演出了若干个信度估计公式。
但是严格的平行测验是不存在的,等价测验也很难获得的,在此基础上估计的测验信度很难达到比较高的精确程度。
另外,经典测量理论中的信度估计值也是一个笼统值,即假定对不同能力水平的被试来说,测量的误差是相同的。
而事实是,一份测验只有在施测于能力水平与测验难度相当的被试时容易获得比较高的测量精确度。
当测验施测于能力水平高于(或低于)测验难度的被试时就容易产生较大的测量误差。
而且测量误差值会随着被试水平与测验难度距离的增加而变大。
(2)各种测量参数的估计依赖于被试样本经典测量理论构造了一个完整的理论体系,同时设计了一套参数指标来刻划测量各方面的特性。
如信度、效度、项目的难度、区分度等。
但是这些参数的估计对样本的依赖性是很大的。
如项目难度,对于同一题目,若样本的群体水平较低,就有较高的难度估计值。
测验的信度和效度采用相关分析法,同样受到样本的影响。
为避免抽样误差对参数估计的影响,经典测量理论特别强调样本对总体的代表性。
但经典理论所用的是随机抽样,随机抽样总有一定偏差存在。
何况在实际工作中,由于客观条件的限制,还不能做到随机抽样。
项目反应理论与认知诊断的统计推断方法

1、跨领域应用:将项目反应理论和认知诊断方法应用到更多领域,如医学、 社会调查、人力资源等领域,拓展其应用范围和使用价值。
2、精细化建模:针对不同领域和实际问题的特点,开发更加精细化和个性 化的统计推断模型,以更好地满足实际需求。
3、数据科学方法:结合数据科学领域的新方法和新技术,如机器学习、深 度学习等,提高统计推断的精度和效率,为实践提供更加可靠的支持。
3、结果解释方面,需要对模型结果进行充分解释,以便更好地理解和利用 模型结果。可以结合实际问题和数据的特点,制定合理的解释方式和指标,对模 型结果进行深入分析,以便更好地指导实践和应用。
五、结论与展望
本次演示介绍了项目反应理论与认知诊断的统计推断方法及其应用,包括项 目反应模型、认知诊断模型、参数估计与检验等,并通过例题和数据讲解了方法 的具体应用。还分析了统计推断方法面临的挑战和相应的解决方案。随着技术的 发展和应用领域的扩展,未来研究可以以下几个方面:
3、参数估计与检验
在应用项目反应理论和认知诊断模型时,需要对模型参数进行估计和检验。 常见的参数估计方法包括最大似然估计、期望最大化算法等,检验方法则包括拟 合度检验、模型稳定性检验等。参数估计与检验可以确保模型的适用性和精度。
三、方法应用
1、考试成绩分析
通过应用项目反应理论,可以对考试成绩进行全面分析。例如,教育机构可 以利用项目反应理论对试题难度、区分度等进行分析,以便更好地设计试题和评 估学生的学习水平。此外,项目反应理论还可以用于学生的能力估计和学科优势 识别等方面。
项目反应理论与认知诊断的统计推 断方法
目录
01 一、项目反应理论与 认知诊断的简介
02 二、统计推断方法
03 三、方法应用
04 四、挑战与解决方案
- 1、下载文档前请自行甄别文档内容的完整性,平台不提供额外的编辑、内容补充、找答案等附加服务。
- 2、"仅部分预览"的文档,不可在线预览部分如存在完整性等问题,可反馈申请退款(可完整预览的文档不适用该条件!)。
- 3、如文档侵犯您的权益,请联系客服反馈,我们会尽快为您处理(人工客服工作时间:9:00-18:30)。
经典测量理论的测验编制
• 假设被试的特质是正态分布,从而 测验总分的分布也是正态
• 测验分数尽可能区分被试,因此测 验总分的变异程度越大越好
• 测验中试题的难度中等为好,区分 度越大越好
经典测量理论的缺陷
• 参数依赖于样本 • 能力量表与难度量表不统一 • 对于所有被试的测量误差相等 • 无法反应潜在特质与被试作答之
参数估计时标尺的建立
P(0.5;1.0,-0.8,0.2)=P(2;1.0,0.7,0.2) =P(2;2.0,-0.15,0.2)
P
0.2
1
1 0.2 e 1.710.5( 0.8)
0.2
1
1 0.2 e 1.71( 2 0.7 )
间的关系 • 在测验编制问题上的困惑
准备知识
• 标准分数
Z XX S
• Z>0,高于平均,Z<0,低于平均 • P(-1.96<Z<1.96)=0.950 • P(-3<Z<3)=0.997
A1 1 1 0 1 0 0 0 1 16 B0 1 0 1 1 1 1 0 1 0 6 C1 0 1 0 1 1 0 1 1 1 7 D1 1 1 0 0 0 0 0 0 14 E11110110107 F11000010115 G1 1 1 0 1 1 0 0 1 17 H0 1 1 1 1 0 1 1 1 18 I 10001001104 J 01100010014 总7 8 7 3 6 4 5 3 8 7
1
c3
1
1 c3 e1.7a3 ( b3 )
0.1
1
1 0.1 e 1.71( 0.5 0.25)
0.1
1
1 0.1 e1.70.5(0.51.32)
1
0.1
2 0.50 1.32 0.10 1 0 0 1 0
3 1.60 1.25 0.10 1 0 1 1 0
项目反应模型参数的估计
•题 试题参数
考生能力
abc 1 1. 00 0.25 0.10
0.50 1.00 1.50 似然函数值
2 0.50 1.32 0.10 0.205 0.235 0.150
项目反应理论(IRT)
项目反应理论 (Item Response Theory)
三个理论假设 • 单维性假设 • 局部独立性假设 • 项目反应模型(项目特征函数)
项目反应模型
单参数模型(Rasch模型)
P( )=1exepx(p(--b)b)
双参数模型
P(
)= 1
exp[ Da(-b)] exp[ Da(-b)]
项目反应理论简介
华东师范大学心理系 文剑冰
经典测量理论(CTT)
• 经典测量理论的假设 X=T+E
• 经典测量理论的信度 • 经典测量理论的效度 • 经典测量理论的试题参数 • 经典测量理论的测验编制
经典测量理论的假设
• 观察分数=真分数+误差分数 X=T+E
• 观察分数与误差分数之间互相独立 • 误差分数的平均数为0 • 多次测量的误差分数之间相关为0
1
1 0.1 e1.71.6(0.51.25)
0.205
能力参数的估计方法
• 极大似然法(ML)
– 使已知反应模式的似然函数值达到最大
• MAP(Maximum a Posteriori)
– 使后验概率函数值达到最大
• EAP(Expected a Posteriori)
参数的含义(b)
参数的含义(b)
参数的含义(c)
极低能力被 试答对的概
率为0 c=0
参数的含义(c)
低能力被试 可能答对的 可能性不为0
C=0.2
单参数模型
双参数模型
三参数模型
项目反应模型参数的估计
试题
试题参数
考生对试题的回答
a
b
c
1
2
3
4
5
1 1. 00 0.25 0.10 1 1 0 0 0
经典测量理论的信度
• 信度的概念
“真实分数方差在观测分数方差中所占的比率”
• 信度系数的估计方法
– 重测信度(稳定性系数) – 复本信度(等值性系数) – 内部一致性信度 – 评分者信度
• 信度系数的应用 Se St 1 rXX
经典测量理论的试题参数
• 难度指标(通过率或得分率P值)
P X X max
0.2
1
e
1 0.2
1.720.5(
0.15 )
– 通常将被试能力平均值设定为0
信息函数
• 试题信息函数
I ( ) Var(ˆ | )1
I ( )
(P)2 PQ
1.7a2 (1 c) [c e1.7a( b) ][1 e1.7a( b) ]2
– 后验概率函数值的平均数
估计项目参数的方法
• 联合极大似然估计法(JMLE)
• 边际极大似然估计法(MMLE)
• 条件极大似然估计法(CMLE)
• 联合估计时标尺的建立(通常设能力均数为0)
– P(0.5;1.0,-0.8,0.2)=P(2;1.0,0.7,0.2) =P(2;2.0,1.35,0.2)
max
b
1 1.7a
ln( 1 2
1 8c ) 2
• 测验信息函数(试题信息函数之和)
信息函数(例)
试
试题参数
题a b c
1 1.80 1.00 0.00
P( )
a( b)
1 eZ2 / 2dZ
2
三参数模型
P(
)=c
(1
c)
exp Da(-b) 1 exp Da(-b)
c
1
exp
1 c
Da(
b)
项目反应模型的参数
• 单参数模型 双参数模型 三参数模型
参数的含义(a)
参数的含义(a)
3 1.60 1.25 0.10
• 极大似然估计和贝叶斯估计(联合后验分布的众数)
对θ=0.5时似然函数的计算
L( ) P1( )P2 ( ) 1 P3( )
c1
1
1 c1 e1.7a1 ( b1 )
c2
1
1 c2 e1.7a2 ( b2 )