项目反应理论简介
Rasch 的简单介绍

Rasch模型的假设
(1)单维性假设,即测验中的每一个项目都测量到同 一种共同的潜在特质; (2)局部独立性假设,即被试在每一个项目上的反应 是独立的,在n项目中观察到的反应并不能对n+1个 项目的反应提供附加的信息; (3)非速度测验假设,即测验的进行是在没有时间限 制的条件下完成的,被试在项目反应上不理想,是由 于能力不足引起的,而不是由于时间不够所致; (4)知道——正确假设,即被试知道某一项目的正确 答案,他必然答对,换句话说,若答错某一项目,则 他必然不知道答案。
项目特征曲线
项目反应模型的特征
模型的假设:被试在一个测验上的行为完全依据 被试在潜在特质空间各特质分量表上的地位来解 释和预测,与其他任何因素无关; 模型能揭示被试行为与相关心理特质之间的真实 关系; 模型应该能够提供测验被试估计特质分数的方法; 被试特质分数必须由且也只能由被试在一组测验 项目上的行为估计; 项目反应模型必须具有自变量取值在正负无穷范 围和因变量的值域在[0,1]区间单调递增。(单维 的项目反应模型)
3 、参数分离 Wright 和 Stone (1979) 指出了客观测量两个相辅 相成的要求。一个是题目难度的标定必须独立于 被试样本的分布, 另一个要求是对个体能力的测量 必须独立于题目的难度分布。此一特点称为“参 数分离”或“参数恒定”
由前面的公式推导可知, 正确反应的概率只由个 体的能力(θm)和题目的难度(δ i)所决定。这意味着 Rasch 模型所提供的个体能力和题目难度参数, 是 完全独立样本分布或题目难度分布的。因此, Rasch 模型符合客观测量对于参数分离的要求。
项目反应理论的形成与基本理论假设

项目反应理论的形成与基本理论假设项目反应理论(Item Response Theory, IRT)是针对测试和评价领域中的一种方法和理论,旨在解决测量数据分析过程中的一系列问题,如测验题目类型、人群不同表现和不同测量精度等等。
该理论由多位统计学家和心理学家共同发展而来,包括Lord和Novick(1968), Hambleton、Swaminathan和Rogers (1991), Kolen 和Brennan(2014)等人。
项目反应理论早期起源于功效曲线(曲线上(Y-坐标)表示试题难度,X-坐标表示受试水平)。
1927年,美国心理学家Thurstone对于智力测验中的单项选择题目进行了功效曲线的研究。
1933年,Lazarsfeld和Henry对于记忆实验数据的分析中提出了多因素问题的解决方案(在Lazarsfeld和Henry的研究中最初称为Comparative-Quality Scale Technique Method)。
而当广义线性模型(GLM)在20世纪70年代发明出来之后,它便成为了许多现代IRT方法的基础。
IRT理论在假设中有一些基本前提,其包含了三个主要部分:1. 题目模型。
IRT模型的第一个基本假设是关于题目模型的,即问卷或试卷的测量者需要选择一种反映题目表现的模型。
IRT中最著名的四个模型是二维常识模型(2PLM),一维常识模型(1PLM),三维常识模型(3PLM)和一维等角模型(1PLU)等,试卷数据可以使用这些模型进行模型拟合和解释。
2.人群模型。
IRT的第二个基本假设是关于受试者或群体模型的,即每个被试的特定水平对于含有该要素的题目反应是有效的,以及这种特定水平可以准确地衡量被试者的表现水平,和题目的等级和难度水平有一定的相关性。
3.数据模型。
IRT的第三个基本假设是关于数据模型的,即用户可以基于现有数据拟合合适的IRT模型,通过分析测试中正确答案的项分布情况来优化题目的构成,以适应用户的需求。
项目反应理论与题库建设

国%i-(指标库、赋史端 必图格 普文岸、笛国库? L —1、建库与维护干系统建库与维护子系统的功能是将已经选定的题目按属性指标、题文、附图、答文、答图 等项目,将有关信息准确方便地送入各子库中,并对库中的有关信息进行增、册h 修改、I 换以及按题号排序和查对等。
由于物理学科的特点,图形和特殊字符在题库中占有较大比重,所以物理题库系统需 要有绘制图形与特殊符号的功能,这项功能应在建库和维护子系统中实现。
另外,由于试题 中有图形,答案中也可能有图形,所以一个题目记录要由属性指标、题目正文(简称题文)、 附图、答文、答图等五部分组成。
考虑存储和管理的方便,试题的这些信息不统一存放在 个库中,而分别存放在指标库、题文库。
附图库、答文库和答图库等五个子库中。
同属一道试题的各项信息通过题目序号联系起来。
此外,按照课程的内容把所有题目分类, 按类存放,这样各子库相应地分成若干分库,每一分库存放某一类的试题。
接用库维护成二后请\瘠标原破K峦层加抗计机区地里统H-分布正L自动布卷模式匹醍组卷快速自动荆卷Mi 目।一个题库将存放大量的题目这些题目在计算机内如何存储将直接影响题库系统的工作效率和效果,因此题库结构的设计是题库系统设计开发的关键一环。
一般地说,一个大型题库应该具有这样的特征:(1)题库中的题目按学科领域分类,每一学科领域的题目又细分为若干个题目组合,这些题目组合可用于特定的教学目标,或测验特定的概念或能力。
(2)题库中的每一题目由两部分组成,即题目属性指标和题目本身。
题目属性指标有多项,反映有关题目的多种信息,这些信息将某一题目与库中的其它题目区别开,同时标记着题目使用的历史和使用情况(如使用次数、被高分学生答对的次数和被低分学生答对的次数等)。
(3)题库具有构成和结出等价形式测验的能力。
等价形式的测验是由不同的题目组合构成的,但每个测验的统计结果具有等效性,即这些不同的题目组合却测验相同的目标或概念,并用相同的统计方法来区分学生学习的好与差。
项目反应理论简介

尽管存在以上缺点,CTT仍在广泛地应用。 CTT、IRT和概化理论是当今最有影响的三 种测验理论。 简单地说,IRT在处理微观问题(即被试水 平与答题目之间的实质性关系)时优势明显, CTT在处理中观问题(如处理常见的标准化 考试等)时方便易懂,GT则在处理宏观问题 (如对结果作推论)时更显出色。 三种测验理论体系有内在联系,各有长短, 应相互促进,互相补充。
理论方法体系相对完整 前提假设比较弱 所涉及到的数学模型以及参数的概念和估 计方法易理解和掌握 标准化技术在控制测验误差等方面有明显 的效果
2、CTT在理论体系和方法体系方面存在许多 其本身难以克服的缺点,具体表现为:
基本假设难以成立:①真分数与观测分数间 存在线性关系的假定不合理;②平行测验的 假设难以成立;③误差与真分数独立的假设 难以满足。
不同的是,CTT是以被试对所有测验项目的 反应总和(测验总分)为显变量来预测被试 的潜在特质的,并不认为被试对单个项目的 反应 与其特质间有任何有意义的联系。
IRT则认为被试的能力与其对某一特定项目的 反应(以正确或错误反应概率表示)有某种函 数关系存在,确定这种关系就是IRT的基本思 想和出发点。
二、IRT的基本理论体系
(一)、概念 (二)、基本思想及基本思路 (三)、基本理论假设
(一)、概念
项目反应理论(Item Response Theory,简称 IRT),又称潜在特质理论(Latent Trait Theory) 或项目特征曲线理论(Item Characteristic Curse Theory),是为了克服经典测验理论(CTT)的局 限而提出的现代测验理论。 从测验的内部或微观方面入手,采取数学建模和 统计调整的方法,重点讨论被试的能力水平与测 验项目之间的实质性关系,测验的每一个项目都 有自己的项目特征曲线,描述了每一个特定能力 水平的被试答对或答错该项目的概率。
8.项目反应理论简介

IRT则认为被试的能力与其对某一特定项目 的反应(以正确或错误反应概率表示)有 某种函数关系存在,确定这种关系就是IRT 的基本思想和出发点。
所以IRT可以被理解为一种探讨被试对项目 的反应与其潜在特质间关系的概率性方法。
用θ(theta)表示被试的潜在特质或能力, 用Pi(θ)表示其对项目i正确反应概率,项目 反应理论的关键就是确定θ与Pi(θ)间的函数 关系。
(二)项目反应理论的发展
由于项目特征曲线(ICC)对项目反应理论 的产生具有重要意义,所以在讲项目反应 理论的产生和发展问题时,一般都追溯到 1905年比奈和西蒙编制第一个智力量表时 的工作,他们当时所使用的作业成绩随年 龄增长而提高的散点图与现在的ICC曲线十 分类似。
IRT的真正创立者是美国心理测量学家洛德 (Lord)。1952年,洛德发表博士论文《一个 测验分数的理论》,提出了IRT的第一个数 学模型(Two-parameter Normal Ogive Model,双参数正态卵形曲线模型)及其参 数的估计方法,并把该模型应用到了学业 成绩和态度测量工作之中。
如何理解局部独立性假设呢? 由于这种独立性是针对特定的θ值的被试而 言的,所以称为“局部”。
例:假设1000名能力相同的被试参加某一能 力测验,600名被试答对了项目i,400名答 错了;这1000名被试对项目j的正确反应概 率与对项目i的正确反应概率统计上是独立 的。 总之,同一特质水平的被试回答某一项目时 不受其他项目的影响。
1.00
正确 反应 的概 率: Pi(θ)
0.50
0.00
潜在特质: θ
表1
某个项目假设的项目特征曲线
项目反应理论

项目反应理论任何一种理论都不可能是完美无缺的,作为测量初期发展起来的理论更是不可避免地存在着一些缺陷。
项目反应理论(Item Response Theory, IRT)则是在反对和克服传统测量理论的不足之中发展起来的一种现代测量理论。
无论是CTT还是GT,其测验内容的选择、项目参数的获得和常模的制定,都是通过抽取一定的样本(行为样本或被试样本),因此可以说二者都建立在随机抽样理论基础之上。
它们的局限性主要表现在以下几个方面:(1)信度估计的精确性不高测量的重要目标就是降低测量误差,提高测量的精度。
在经典测量理论中,信度被定义为真分数的方差与实得分数(原始分数)的方差之比。
然而,在此定义中,真分数的方差和误差的方差都无法求取。
为了估计信度,CTT又提出了平行测验的概念,并在此基础上推演出了若干个信度估计公式。
但是严格的平行测验是不存在的,等价测验也很难获得的,在此基础上估计的测验信度很难达到比较高的精确程度。
另外,经典测量理论中的信度估计值也是一个笼统值,即假定对不同能力水平的被试来说,测量的误差是相同的。
而事实是,一份测验只有在施测于能力水平与测验难度相当的被试时容易获得比较高的测量精确度。
当测验施测于能力水平高于(或低于)测验难度的被试时就容易产生较大的测量误差。
而且测量误差值会随着被试水平与测验难度距离的增加而变大。
(2)各种测量参数的估计依赖于被试样本经典测量理论构造了一个完整的理论体系,同时设计了一套参数指标来刻划测量各方面的特性。
如信度、效度、项目的难度、区分度等。
但是这些参数的估计对样本的依赖性是很大的。
如项目难度,对于同一题目,若样本的群体水平较低,就有较高的难度估计值。
测验的信度和效度采用相关分析法,同样受到样本的影响。
为避免抽样误差对参数估计的影响,经典测量理论特别强调样本对总体的代表性。
但经典理论所用的是随机抽样,随机抽样总有一定偏差存在。
何况在实际工作中,由于客观条件的限制,还不能做到随机抽样。
项目反应理论与认知诊断的统计推断方法

1、跨领域应用:将项目反应理论和认知诊断方法应用到更多领域,如医学、 社会调查、人力资源等领域,拓展其应用范围和使用价值。
2、精细化建模:针对不同领域和实际问题的特点,开发更加精细化和个性 化的统计推断模型,以更好地满足实际需求。
3、数据科学方法:结合数据科学领域的新方法和新技术,如机器学习、深 度学习等,提高统计推断的精度和效率,为实践提供更加可靠的支持。
3、结果解释方面,需要对模型结果进行充分解释,以便更好地理解和利用 模型结果。可以结合实际问题和数据的特点,制定合理的解释方式和指标,对模 型结果进行深入分析,以便更好地指导实践和应用。
五、结论与展望
本次演示介绍了项目反应理论与认知诊断的统计推断方法及其应用,包括项 目反应模型、认知诊断模型、参数估计与检验等,并通过例题和数据讲解了方法 的具体应用。还分析了统计推断方法面临的挑战和相应的解决方案。随着技术的 发展和应用领域的扩展,未来研究可以以下几个方面:
3、参数估计与检验
在应用项目反应理论和认知诊断模型时,需要对模型参数进行估计和检验。 常见的参数估计方法包括最大似然估计、期望最大化算法等,检验方法则包括拟 合度检验、模型稳定性检验等。参数估计与检验可以确保模型的适用性和精度。
三、方法应用
1、考试成绩分析
通过应用项目反应理论,可以对考试成绩进行全面分析。例如,教育机构可 以利用项目反应理论对试题难度、区分度等进行分析,以便更好地设计试题和评 估学生的学习水平。此外,项目反应理论还可以用于学生的能力估计和学科优势 识别等方面。
项目反应理论与认知诊断的统计推 断方法
目录
01 一、项目反应理论与 认知诊断的简介
02 二、统计推断方法
03 三、方法应用
04 四、挑战与解决方案
IRT项目反应理论

主题研究背景
早期研究
早期研究主要集中在理论 模型的建立和验证。
当前研究
当前研究更加关注实际应 用,如在线测验、自适应 测验等。
未来展望
未来研究将进一步探索IRT 与其他技术的结合,如人 工智能、大数据等。
02
IRT项目反应理论概述
定义与概念
定义
IRT项目反应理论,也称为潜在特质理论或潜在特质模型,是一种心理测量理 论,用于描述个体在特定测验项目上的潜在特质水平与其行为表现之间的关系。
概念
IRT假设个体在某个潜在特质上的水平是连续的,并且个体在某个测验项目上的 表现是由其潜在特质水平决定的。
发展历程
起源
IRT起源于20世纪50年代,由美国心理学家伯恩斯和 金纳德提出。
THANKS
感谢观看
IRT通过建立与能力水平相对应的难度参数,能够准确地衡量学生在不同 学科领域的能力水平,从而为个性化教学和辅导提供依据。
IRT还可以用于评估学生的认知能力、学习能力和情感能力等,帮助教师 全面了解学生的发展状况,为制定教学计划和干预措施提供依据。
课程设计与优化
IRT在课程设计与优化方面也具有重要应用。通过分析学生的能力分布和项目难度参数,教师可以对课 程进行针对50年代, 随着计算机技术的发展而 逐步完善。
应用领域
广泛应用于教育、心理学、 人力资源等领域。
主题重要性
提高测验精度
IRT可以帮助研究者更准确地测量个体的能力水平, 从而提高测验的精度。
个性化教学
通过IRT,教师可以了解学生的学习需求和能力水 平,从而进行个性化教学。
人才选拔
03
- 1、下载文档前请自行甄别文档内容的完整性,平台不提供额外的编辑、内容补充、找答案等附加服务。
- 2、"仅部分预览"的文档,不可在线预览部分如存在完整性等问题,可反馈申请退款(可完整预览的文档不适用该条件!)。
- 3、如文档侵犯您的权益,请联系客服反馈,我们会尽快为您处理(人工客服工作时间:9:00-18:30)。
项目反应理论简介
摘要:项目反应理论(IRT)是近三十年发展起来的一种比较先进的心理与教育测验理论,受到国内外许多学者和专家的关注。
与经典测验理论相比,项目反应理论在较强的前提假设下,有更多的优越性。
关键词:经典测验理论;项目反应理论;项目特征曲线;罗氏模型一、引言
目前,考试系统题库的建立主要基于两种指导理论:经典测验理论(Classical Test Theory, CTT)和项目反应理论(Item Response Theory, IRT)。
二者都有一套完整的试题分析指标体系和评价标准。
但经过长期实践,经典测验理论显示出某些难以克服的缺点,如由不同测试项组成的测验其结果无法比较,数据没有等距性,测量结果容易受到样本的影响,以及多个变量不易同时处理等。
针对这些,现代测验理论应运而生。
在国外已广泛应用于教育测验领域,如GRE,GMAT,TOEFL等测验,近年来也扩展应用到其他学科领域的测验评估。
Baker (2001)认为,在经典测验理论指导下,测试学家关心的是被试的测试得分,即每个正确测试项的分值总和。
而项目反应理论的关注重点则是被试是否答对每个测试项,而不是被试的测试总分。
项目反应理论和经典测验理论在数学模式、基本假设和测验可靠程度的估计指标等方面都存在着明显的差别。
与经典测验理论相比,项目反应理论在较强的前提假设下,有更多的优越性。
二、项目反应理论
项目反应理论,也称潜在特质理论、潜在特质模型、强真值理论,是一种现代心理测量理论,是一系列心理统计学模型的总称,是针对经典测量理论的局限性提出来的。
项目反应理论是用来分析考试成绩或者问卷调查数据的数学模型,这些模型的目标是来确定潜在心理特征(latent trait)是否可以通过测试题被反应出来,以及测试题和被试之间的互动关系。
项目反应理论假设被试对项目的反应能体现他的潜在特质(Baker, 2001)。
根据被试回答测试项的情况,通过对项目特征函数的运算,来推测被试的能力。
项目反应理论的产生是以经典测验理论为前提的,其自身的发展结合了多人的努力。
理查森于1936年首次提出了IRT的参数估计方法;劳勒于1944年提出了一系列关于IRT领域中基本的理论问题,推出了很有价值的参数估计方法;格特曼于1944年提出了“无误差模型”(一种确定性模型,即理想量表项目),这是后来IRT中项目特征曲线(item characteristic curve, ICC)的雏形(胡维芳,2005)。
项目特征曲线是IRT的核心,IRT其他理论都是建立在ICC之上(Baker, 2001)。
ICC是由塔克于1946年首次提出,他把被试的某些纬度(如能力、年龄)看作是自变量,考生对于某个测验项目的反应看作是因变量,在直角坐标系中作出散点图,然后用一条光滑的曲线拟合这些数据,这样就得到了ICC。
当然,对于IRT贡献最大的是美国测量专家洛德。
1952年洛德在其博士论文《关于测验分数的一个理论》中,第一次对项目反应理论作了系统的阐述(当时他称其为项目特征曲线理论,后改名为项目反应理论)。
通常将此看作是项目反应理论诞生
的标志。
1968年洛德和诺维克在伯恩波姆的名著《心理测验分数的统计理论》中以四章的篇幅详细地阐述了项目反应理论中具有二、三参数的罗吉斯模型和正态卵形模型的数学问题,至此,构成了项目反应理论的基本体系。
20世纪70、80年代,项目反应理论获得迅猛发展,不论是基础理论与方法的研究,还是解决重大测验问题的应用研究,抑或是更实用的计算机程序的编制都取得了巨大的新成果。
项目反应理论的基本思想是确定被试的潜在特质和他们对于项目的反应之间的关系,被试的表现和这组潜在特质之间的关系,可通过一条连续严格递增的函数来加以诠释,此函数称为项目特征函数,而把不同能力的被试在某测试项的得分期望连结成线,此曲线称为项目特征曲线(ICC)。
这种关系的数学表现形式就是“项目反应模型”。
但这种模型是概率性模型。
确切地讲,项目反应模型表示的是被试潜在能力和被试能正确答对测试项的概率之间关系的数学形式。
从这个角度来讲,项目反应理论的核心就是数学模型的建立和对模型中各个参数的估计。
为了定量地描述被试对于测试项的反应,测量学家们提出了各种各样的模型。
一般认为,罗吉斯模型和正太卵形模型是得到普遍应用的两个模型。
下面以罗吉斯模型为例,简单介绍以罗吉斯数学模型为基础的三种不同模型。
IRT有三个项目参数,即难度(difficulty)、区分度(discrimination)和猜测系数(guessing)。
根据不同参数,特征函数可分为三种参数模型:
第一,单参数模型(one-parameter model),也称罗氏模型(Rasch model),在这个模型下只包括难度,且区分度恒定为1。
第二,双参数模型(two-parameter model),包括难度和区分度。
第三,三参数模型(three-parameter model),包括难度、区分度和猜测参数。
若观察ICC图表,我们可以看到:
与经典测验理论相比,项目反应理论是建立在强假设基础上的。
IRT 有三个基本假设:第一,潜在特质空间的单维性假设,是指组成某个测验的所有测试项都是测量同一潜在特质(俞晓琳,1998);第二,项目特征曲线假设,是指被试对项目的正确反应概率与其潜在能力之间存在函数关系,其基本模型为罗吉斯函数(logistic function)。
第三,局部独立性假设,是指项目参数的估计值独立于被试,即多个被试的不同能力水平不影响项目参数;同时,被试潜在能力与测试项的难易度无关,即不同难度的测试项都能测量出同一个被试的同一潜在能力。
基于这些基本假设,项目反应理论表现出了比经典测试理论更大的优越性。
第一,IRT在估计被试能力时,更考虑被试的反应组型,因此对于原始得分相同但反应组型不同的被试,得到的往往是不同的能力估计值,这一特性是CTT所无法比拟的。
在CTT中,原始得分相同的被试,其能力估计值也被认为相同。
第二,项目反应模型的项目参数都是不变的。
项目参数不会因被试样本或项目库的变化而发生改变,但CTT提供的项目统计量、项目难度和鉴别力等都是依赖于被试样组。
第三,IRT可以针对每个被试提出其能力估计值的测量误差指标,而不是以一个笼统的标准误来代表测量误差,因此能够比较精
确地断定每个被试能力估计值的误差范围。
第四,IRT提出的项目信息函数和测验信息函数的概念,可以更直接地用来评定个别项目或整份测验的测量误差,这比传统意义上的“信度”概念更科学、更有效。
第五,IRT把被试能力和项目难度放在同一量表上,这使得计算机自适应考试成为可能。
题库质量高低的一个重要标志是题库中测试项参数的完备性与准确性。
CTT题库的计量技术参数主要是难度、区分度、猜测度,IRT题库的计量技术参数除这三个外,还增加了测试项信息函数。
把测试项信息函数作为技术参数存入题库是IRT独有的,提高了题库参数的完备性和题库管理的可控性。
另外,参数准确性也是题库质量的重要条件。
在CTT的题库建设中,建题库者力求测试项参数的准确性,但CTT测试项参数的估计严重依赖于样本,这给维持参数的准确性带来了困难。
在IRT中,由于测试项参数具有跨群体不变性等特点,使测试项参数更具准确性。
测验编制的一个重要目标是要使测验误差达到最小。
在IRT中,可以预先规定在特质量表上所有值的最大允许误差,然后利用公式求出所有水平值上的最小允许信息量,形成一个信息函数。
这样,测验中用较少的试题就可以达到不超过允许误差的要求,提高了测验的效率。
标准参照测验的编制有两条原则:一是准确划定合格的分数线,二是要尽量降低对被试合格与不合格的误判率。
项目反应理论在备有题库条件下组拼标准参照测验可以比较理想地实现这两条原则。
随着计算机技术的普及和IRT的发展,计算机自适应测验正日益成为
国际上大型测验的主流。
由于CAT具有节省时间,安全性好以及可以及时提供被试成绩等优点,被迅速应用到多个领域。
计算机化自适应测验是当今测验技术的最高水平,也是项目反应理论最有特色的应用。
三、小结
项目反应理论是当前国际上最先进的教育和心理测量理论。
经典测验理论显示出这些难以克服的缺点,如由不同测试项组成的测验其结果无法比较,数据没有等距性,测量结果容易受到样本的影响,以及多个变量不易同时处理等,项目反应理论都能很有效地克服,表现出巨大的优越性。
但是,它也存在一些问题。
除了该理论本身要求研究者具有很高的统计学背景之外,其问题还表现在该理论的基本假设。
由于目前还不可能彻底查明使用数据满足假设的精确度,因为对于表面上满足了假设的数据而言,只有当从项目反应理论中所作出的预言能独立地加以证实后,才能进一步验证该理论下的基本假设。
不管怎样,项目反应理论还是朝着完善和成熟而不断前进着。
参考文献:
[1]Baker, Frank B.The Basics of Item Response Theory[C].ERIC Clearinghouse on Assessment and Evaluation, College Park, MD.2001. [2]胡维芳.论项目反应理论[J].高等理科教育,2005,(3).
[3]俞晓琳.项目反应理论与经典测验理论之比较[J].南京师大学报: 社会科学版,1998,(4).
[4]翁伟斌,等.关于项目反应理论试题参数的估计[J].教育发展研究, 2004,(6).。