项目反应理论

项目反应理论
项目反应理论

项目反应理论及其应用现状分析

从本质而言,在任何考试都可看作是教育测量学理论发展的一种应用。自二十世纪初创立以来,教育测量学是在相关学科的推动下逐渐发展起来的。并在其发展的过程中,形成了经典测验理论(CTT)。该理论对许多教育研究问题提供了有效的解决方法,并且较为实用,因此得到了国内外的广泛应用,但是随着应用深入,经典测验理论(CTT)越来越多的弊端被人们发现,且这些弊端直接影响测验的效果,而且无法通过理论自身的完善来弥补,因此,人们试图在基础理论这个环节上有所突破。

项目反应原理(IRT)的发展是从克服经典测验理论的一些缺陷上逐渐发展起来的一种测量理论,其理论基础是在潜在特质理论,主要是揭示被试在测验项目上的反应行为与测验所测的被试在特质之间的关系。相对于CTT而言,IRT具有许多的优越性。经典测量理论可以的到信息,项目反应理论都可以从更高的层次上、更可靠的意义上获得。其相对的优越性表现在以下几个方面:1、RT在估计被试潜在特质时,同时考虑被测的作答模式,因此对于原始得分相同但作答模式不同的被试,也往往能提供不同的特质估计值。2、IRT可以针对每个特定被测提出其特质估计值的测量误差指标,而不是一个笼统的标准误差。来代表测量误差,因此能够比较准确的提供不同特质水平被试的估计值的测量误差。3、IRT所采用的项目参数不依赖于被试样本,也不依赖于特定的项目和测验。4、IRT提出的项目信息函

数和测验信息函数的概念,可以作为评定个别项目或整份测验的测量误差的指标,较之于传统的“信度”概念就显得更为精确可信。

项目反应理论是假定被试在特定测验中的反应受某种心理特质(因其不能直接测定,故称之为“潜在特质”)支配,从而对这只能够特质进行测定,估计出该被试在这种特质上的分数,并据此进行揭示和预测其行为表现。理论上讲,可以用数学形式来表示个体特质水平对项目的反应之间的关系,即对由个体的特质水平和正确做出反应概率所形成的散点图进行拟合,从而得到一条光滑的二维曲线,这就是项目反应曲线。该曲线可以用特定的教学模型来表示,即项目反应模型。1952年,美国测量专家洛德在其博士论文中首次提出了项目反应模型,即双参数正态卵形模型,并提出了于此相关的参数估计方法,使得项目反应原理可以被用于解决实际的二值记分的测验问题。他标志着项目反应原理正式诞生。该理论发展至今已有50余年的历史。随后,伯恩鲍姆于1957年提出了易于处理的Logistic模型以及相应得统计处理方法,取代了洛德的正态卵形模型,从而进一步推动了项目反应理论的发展。但由于项目反应理论在属性上的复杂性并受当时计算机技术条件的限制,其发展较为缓慢。而近年来,随着计算机技术的突飞猛进,项目反应理论才真正得到了发展和应用,尤其在大多数发达国家得到了测量专家的关注,在心理学研究中的使用频率大幅度上升,超过了经典理论和概化理论,同时也成为了教育测验理论研究的重点。

目前,以项目反应原理为理论基础的计算机自适应考试系统

(CAT)在世界各国受到了广泛的关注,并取得了长足的发展。在美国,CAT已经应用到社会的各个方面:比如在教育界,由大家所熟悉的研究生入学考试(GRE),以及工商管理类研究生入学考试(GMAT);在职业资格认证方面,有全美护士国家委员会资格考试(NNCLI);在企业界,Novell公司在其一系列认证考试中,也成功地应用了CAT系统。在我国则是八十年代初期,由北京大学心理系率先开展了对项目反应理论的介绍和研究工作。此后,广州、北京、上海、南京、山西、湖南和江西等地的许多单位,陆续相继开展了对项目反应理论的研究和应用那个。这二十多年来,我国的心理学界对此进行了很多有价值的研究,并取得了非常突出的成绩。而且,对项目反应原理的研究与应用也得到了教育部门的普遍关注,全国Internet能力考试系统便是采用的CAT方式。此外,去昂大学英语四、六级考试委员会也一直在致力于项目反应院里的研究和开发。

应该说,项目反应理论的出现时教育测量理论的一场重要变革。它较好地解决了经典测验理论中一直困惑我们的一些难题,使得我们在测验设计、能力设计、测验等同化、自适应测验等方面的研究都取得了很大的进展。

目前,在理论上,项目反应理论的研究方向主要集中在建立多维条件下的项目反应理论、参数估计方法的改进、以及非参数项目反应理论(NIRT)等方面;而在实际工作中,它也为题库建设、CAT考试系统的开发提供了重要的理论依据。在远程教育领域,目前有相当一部分教学系统的考试部分依然采用的是传统的联机考试方式:即题库建

成后,需要输入一些查询参数,系统根据这些参数抽出最适合要求的试题来生成试卷,而定义这种查询参数以及对这些参数进行变换的算法,称作组卷策略。上述方法虽然得到了较多的应用,但随着远程教育无论在教学模式,还是技术手段等方面的不断更新,以及对个性化学习的要求,以项目反应理论为基础的适应性考试必然是未来的发展方向。

项目反应理论

项目反应理论 随着心理学的发展,心理测量无论是在理论上,还是在方法上都逐步地提高。目前,心理测量有三大理论派别:经典测量理论(Classical Test Theory ,简称CTT),项目反应理论(Item Response Theory ,简称IRT)和概化理论(Generalizability Theory , 简称GT)。项目反应理论是一种先进的测量理论,它是针对经典测量理论的不足而提出来的,其理 论基础是潜在特质理论。项目反应理论的基本思路是确定考生的心理特质值和他们对于项目的反应之间的关系,这种关系的数学形式就是“项目反应模型”。下面主要对项目反应的理论假设和数学模型做一下简要概述。 项目反应理论的基本假设 任何一种数学模型都有一定的前提,任何一种测量都有一定的假设,在项目 反应理论中也有三条最基本的假设:潜在特质空间的单维性假设、测验项目间的局 部独立性假设、项目特征曲线假设。有的学者还增加了“知道一一答对”假设和非速度限制假设。在此仅说明前面三条最基本的假设。 1、潜在特质空间的单维性假设 潜在特质空间是指由心理学中的潜在特质组成的抽象空间。如果考生在测验项目上的 反应是有K种潜在特质所决定的,那么这些潜在特征就定义了一个K维潜在空间,考生 的各个潜在特质分数综合起来,就决定了该考生在该潜在空间的位置。如果影响考生测验分数的所有重要的心理特质都被确定了,那么该潜在空间就称为完全潜在空间。 目前比较成熟的大多数项目反应模型都假设完全潜在空间是单维的,即只有一种潜在 特质决定了考生对项目的反应,也就是说组成某个测验的所有项目都是测量的同一个心理变量,例如知识、能力、态度或人格。当然,这一假设往往不可能得到严格的满足,因为总有其他因素会影响到考生在测验上的反应,这些因素包括认知的、人格的和施测时的客观条件,以及考生的动机水平、焦虑程度、反应速度和考试技巧等。因此在项目反应理论中,只要所预测量的心理特质是影响考生对项目作出反应的主要因素,那么就认为这组测验数据是满足单维假设的。 2、测验项目间的局部独立性假设 所谓局部独立性假设是指某个考生对于某个项目的正确概率不会受到他对于该测验中其他项目反应的影响,也就是说只有考生的特质水平和项目的特性会影响到考生对该项目的反应。在实际的教育 和心理测量问题中,如果前一个项目的内容为后一个项目的 正确反应提供暗示或其它有效的信息,局部独立性的假设就会遭到破坏,例如所谓的链 状试题就会出现这种情况。局部独立性是建立在统计的意义上的,用统计学的语言,局

项目反应理论

项目反应理论 随着心理学的发展, 心理测量无论是在理论上, 还是在方法上都逐步地提高。目前, 心理测量有三大理论派别: 经典测量理论(Classical Test Theory , 简称CTT) , 项目反应理论( Item Response Theory , 简称IRT) 和概化理论( Generalizability Theory , 简称GT)。 项目反应理论是一种先进的测量理论,它是针对经典测量理论的不足而提出来的, 其理论基础是潜在特质理论。项目反应理论的基本思路是确定考生的心理特质值和他们对于项目的反应之间的关系, 这种关系的数学形式就是“项目反应模型”。下面主要对项目反应的理论假设和数学模型做一下简要概述。 一、项目反应理论的基本假设 任何一种数学模型都有一定的前提,任何一种测量都有一定的假设,在项目反应理论中也有三条最基本的假设:潜在特质空间的单维性假设、测验项目间的局部独立性假设、项目特征曲线假设。有的学者还增加了“知道——答对”假设和非速度限制假设。在此仅说明前面三条最基本的假设。 1、潜在特质空间的单维性假设 潜在特质空间是指由心理学中的潜在特质组成的抽象空间。如果考生在测验项目上的反应是有K种潜在特质所决定的,那么这些潜在特征就定义了一个K维潜在空间,考生的各个潜在特质分数综合起来,就决定了该考生在该潜在空间的位置。如果影响考生测验分数的所有重要的心理特质都被确定了,那么该潜在空间就称为完全潜在空间。 目前比较成熟的大多数项目反应模型都假设完全潜在空间是单维的,即只有一种潜在特质决定了考生对项目的反应,也就是说组成某个测验的所有项目都是测量的同一个心理变量,例如知识、能力、态度或人格。当然,这一假设往往不可能得到严格的满足,因为总有其他因素会影响到考生在测验上的反应,这些因素包括认知的、人格的和施测时的客观条件,以及考生的动机水平、焦虑程度、反应速度和考试技巧等。因此在项目反应理论中,只要所预测量的心理特质是影响考生对项目作出反应的主要因素,那么就认为这组测验数据是满足单维假设的。 2、测验项目间的局部独立性假设 所谓局部独立性假设是指某个考生对于某个项目的正确概率不会受到他对于该测验中其他项目反应的影响,也就是说只有考生的特质水平和项目的特性会影响到考生对该项目的反应。在实际的教育和心理测量问题中, 如果前一个项目的内容为后一个项目的

市场反应模型

摘要:在许多行业,市场反应模型已经成为制定营销决策时普遍使用的工具。数据采集和计算机技术的快速发展使市场反应模型在实际应用中更加可行和更易操作。本文着重介绍市场反应模型在销售队伍管理中的应用。 关键词:销售队伍管理;市场反应模型;Syntex模型;Callplan模型 市场、数据和计算机环境的快速变化,正改变着营销经理们工作的结构和内容。营销这一行正面临着很大的变化,已经不再基于传统的理论概念。许多传统的营销观点已成为一门艺术,还有一些观点成为了一门科学,新营销日趋形成一项工程(也就是,结合艺术和科学解决特定的问题)。国外营销管理新趋势是用模型辅助营销决策。市场反应模型作为一个重要的营销分析工具出现后,对现在从事营销工作的经理们产生很大影响。今天,市场反应模型研究已经成为一个产业,主要的公司都要依靠它来制定营销计划(比如:可口可乐、玫琳凯化妆品等)。如今没有人再忽视市场反应模型为公司产生的竞争力。市场反应模型提高了市场预测和营销决策的效果。最初在定价决策和广告决策中运用了市场反应模型,如:多夫曼和斯坦纳(Dorfman和StEiner)在1954年提出的广告——收入与广告——价格弹性之间的定量关系。但市场营销还包括其他方面,如销售队伍、分销、促销以及其他各种潜在的影响销售的变量因素。在这些方面都可以应用市场反应模型将某些指标定量化。 销售队伍直接影响销售绩效,是市场营销中一个重要的管理环节。销售人员是企业最有价值、花费最多的资产之一。从成本角度看,推销是营销组合中一个相当重要的因素。销售队伍中大约10%的人员从事推销和与推销相关的工作。除此以外,许多公司职员和个人尽 管他们的工作名称不涉及推销,但是他们的工作具有推销功能。例如,公司老总、会计,公司的合伙人、管理顾问、军事大学征兵人员以及电视传播人员的工作都具有一定的推销功能。许多公司依靠大量的推销人员去实现他们的营销战略。传统的销售队伍管理没有能够为公司获得应有的利润。在销售队伍管理中有许多环节可以运用市场反应模型的思想建立定量关系,比传统的管理方式更加合理。本文将介绍几种运用市场反应模型思想建立的销售队伍管理模型。 一、市场反应模型的相关知识 市场反应模型的研究所要用到的基本方法是计量经济学和时间序列分析法(econometric and time series analysis, ETS)。计量经济分析通常是从建立模型开始的,建立了模型的函数关系后,收集相关数据,最后是模型的统计估计与检验。时间序列分析法在营销管理中的应用特点是,以时间推移研究和预测市场需求趋势,不受其他外界因素的影响。营销中采用市场反应模型研究方法的关键在于建立营销中被控制的组合变量与那些能代表营销计划实施结果的衡量标准(如销售额或市场份额)之间的关系。 二、市场反应模型在销售队伍管理中的应用 在介绍具体模型之前,先介绍一下由Vandenbosch,Mark和Weinberg,Charles在1993年提出的销售队伍管理决策体系。该体系侧重在销售队伍管理过程中针对具体的管理环节采用模型将任务或指标定量化,这样更便于实际运作时的决策制定。

项目反应理论

项目反应理论 任何一种理论都不可能是完美无缺的,作为测量初期发展起来的理论更是不可避免地存在着一些缺陷。项目反应理论(Item Response Theory, IRT)则是在反对和克服传统测量理论的不足之中发展起来的一种现代测量理论。 无论是CTT还是GT,其测验内容的选择、项目参数的获得和常模的制定,都是通过抽取一定的样本(行为样本或被试样本),因此可以说二者都建立在随机抽样理论基础之上。它们的局限性主要表现在以下几个方面: (1)信度估计的精确性不高 测量的重要目标就是降低测量误差,提高测量的精度。在经典测量理论中,信度被定义为真分数的方差与实得分数(原始分数)的方差之比。然而,在此定义中,真分数的方差和误差的方差都无法求取。为了估计信度,CTT又提出了平行测验的概念,并在此基础上推演出了若干个信度估计公式。但是严格的平行测验是不存在的,等价测验也很难获得的,在此基础上估计的测验信度很难达到比较高的精确程度。另外,经典测量理论中的信度估计值也是一个笼统值,即假定对不同能力水平的被试来说,测量的误差是相同的。而事实是,一份测验只有在施测于能力水平与测验难度相当的被试时容易获得比较高的测量精确度。当测验施测于能力水平高于(或低于)测验难度的被试时就容易产生较大的测量误差。而且测量误差值会随着被试水平与测验难度距离的增加而变大。 (2)各种测量参数的估计依赖于被试样本 经典测量理论构造了一个完整的理论体系,同时设计了一套参数指标来刻划测量各方面的特性。如信度、效度、项目的难度、区分度等。但是这些参数的估计对样本的依赖性是很大的。如项目难度,对于同一题目,若样本的群体水平较低,就有较高的难度估计值。测验的信度和效度采用相关分析法,同样受到样本的影响。为避免抽样误差对参数估计的影响,经典测量理论特别强调样本对总体的代表性。但经典理论所用的是随机抽样,随机抽样总有一定偏差存在。何况在实际工作中,由于客观条件的限制,还不能做到随机抽样。因此,参数估计值对样本的依赖性使得所估参数对测验的分析的价值是有限的。 (3)误差指标笼统单一,不精细。 CTT导出测量的标准误差SE,SE是所有被试测量误差的标准差,或称为测验平均标准误差。CTT把此值用来描述所有被试的测量精确度。这种所有被试都使用等测量标准误差是CTT 理论的一大不足,因为相同的测验对于不同水平的被试会有不同的测量误差,一个被试的水平与一份测验的难道相当,测量的误差较小,结果较准确。被试水平低于或高于测验难度,测验的误差就会增大。因此,用一个笼统单一的或作为平均的误差指标来反映所有被试的测量精确度是难以令人满意的。因此,必须寻求针对每一个被试的更为精细的测量误差指标。 (4)能力难比较 被试的测验分数依赖于所测项目的难度。不同测验测量同一种心理特质时,会得到不同的测验分数。项目难度高,被试测验分数低。这样,被试在不同测验上所得的分数难以比较。 (5)缺乏预测力

论《经典测量理论、项目反应理论、概化理论的理论观点及相互比较》

论《经典测量理论、项目反应理论、概化理论的理论观点及相互比较》 学校: 学院: 班级: 学号: 姓名:

论《经典测量理论、项目反应理论、概化理论的理论观点及相互比较》 心理与教育测量理论的发展经历了两个时期:50年代之前只有真分数理论起作用,称为经典测量理论阶段;50年代至今,除经典测量理论外,还有项目反应理论、概化理论等,可称为多重理论并存阶段。经典测量理论在测验发展中有着特殊的地位,它既是历史上的第一个测验理论,也是测验的最一般、最基本的理论,并且目前仍具有很强的生命力,应用极为广泛。现代测验理论大多是在经典测验理论的研究基础上,针对它在某个方面存在的问题发展起来的。如项目反应理论,就是为了克服经典测验理论的信度问题发展起来的。在目前这个多种理论并存阶段,我们应该看到各种理论都有其合理之处,同时也各有其局限性。一般将测量理论分为经典测量理论、概化理论和项目反应理论三大类,或称三种理论模型。人们将以真分数理论(True Score Theory)?为核心理论假设的测量理论及其方法体系,统称为经典测验理论(Classical Test Theory,CTT),?也称真分数理论。 一、经典测量理论 真分数理论是最早实现数学形式化的测量理论。它从十九世纪末开始兴起,二十世纪30年代形成比较完整的体系而渐趋成熟。50年代格里克森的著作使其具有完备的数学理论形式,而1968年洛德和诺维克的《心理测验分数的统计理论》一书,将经典真分数理论发展至颠峰状态,并实现了向现代测量理论的转换。 所谓真分数是指被测者在所测特质(如能力、知识、个性等)上的真实值,即(True Score)真分数。而我们通过一定测量工具(如测验量表和测量仪器)进行测量,在测量工具上直接获得的值(读数),叫观测值或观察分数。由于有测量误差存在,所以,观察值并不等于所测特质的真实质,换句话说,观察分数中包含有真分数和误差分数。而要获得对真实分数的值,就必须将测量的误差从观察分数中分离出来。 经典测验理论是心理学研究者所熟悉的,其基本思想是把测验的得分看做真分数和误差分数的线性组合,可归结为如下简单数学模型:X=T+E,其中X是观测分数、T是真分数,E是误差分数。传统信度效度项目分析的原理与方法均建立在这一模型之上。信度是测量理论中最重要的核心概念,指测量结果的一致性程度,亦称可靠性程度。在经典测量理论中信度被定义为:一组测量分数的真分数的方差(变异数)在总方差(总变异数)中所占的比率。由于真分数的方差和误差分数的方差是无法获得的,因此这个信度概念还只是一个理想的构想的概念,不能直接计算。测量的效度是指测量结果的有效性程度,也就是已测到的质和量与主试者欲测的质和量相符合的程度,有的也称效度为正确性。效度是任何一种测评必须解决的首要问题,因为有效性决定了一种对测量效度的考查是一个

项目反应理论与题库建设

项目反应理论与题库建设 项目反应理论(IRT) 项目反应理论是针对经典测量理论的不足而提出来的一种新的测量理论。它的最大优点是项目参数和被试能力参数的不变性。即项目参数的估计值与被试样组的选择无关;被试能力的估计值与所施测的试题无关。同时能够提供各被试能力估计值的精确度指标,而且在施测前就可以知道各个测验项目对于不同被试的能力估计的精确度。项目反应理论的这些优点对于题库的建设、测验的编制十分重要。 项目反应理论包含很多内容,限于篇幅,下面仅就其核心内容加以简单的讨论。 1、项目反应模型 项目反应模型是用以表示被试能力和被试者对测验项目“正答概率”之间关系的数学函数,这个函数是单调递增的,被称为项目特征函数(ICF: Item Charateriseic Function)或项目反应函数( IRF: Item Response Function)。它包含一定数目的项目参数(如难度参数、区分度参数、猜测参数等),这些参数值可以通过一定的方法估计出,在项目参数值确定后,利用项目反应模型就可以计算出各被试的能力估计值。 在IRT的研究发展中,人们提出了多种项目反应模型,这些模型主要分为两大类:静态模型和动态模型。静态模型描述考生某个时刻的潜在特质水平,不包含时间因素;动态模型用来测量考生潜在特质随时间变化的程度。目前发展比较成熟且得到广泛应用的是静态模型。下面我们主要介绍在题库建设中常使用的几种静态模型。 静态模型也有多种,它们可分为单维的和多维的;二值记分的和多值记分的;正态卵型的和逻辑斯谛型的,等等。在题库建设中最常用的是单维的二值记分的逻辑斯谛模型。单维是指模型假设只有一种潜在特质对测验反应数据起作用;二值记分是与二值反应相联系的记分方式。在成就和能力测验中,考生对项目反应的“正确”与“错误”,通常用0和1表示(0表示错,l表示对),所形成的测验数据就是二值的。二值记分表明模型所能处理的测验数据是二值的。

基于项目反应理论的试题参数估计方法(精)

第 5卷第 1期贵阳学院学报 (自然科学版 (季刊 Vol . 5 No . 1JOURNAL OF G U I Y ANG COLLEGE 2010年 3月 Natural Sciences (Quarterly Mar . 2010 基于项目反应理论的试题参数估计方法 薛宝山 (山东胜利职业学院 , 山东东营 257097 摘要 :探讨了几种常用的基于项目反应理论 (I RT 的试题参数估计方法 , 并分析了每一种估计方法的优缺点及各自的适用领域 , 为构建基于 I RT 的试题库系统提供理论参考。关键词 :项目反应理论 ; 试题库 ; 参数估计 ; 遗传算法 中图分类号 :TP3111131文献标识码 :A 文章编号 :1673-6125(2010 01- 03 I RT 2ba sed Param eter Eva on s (Shandong 257097, China Abstract:The p l ores several common I RT -based evaluati on methods of test questi ons and analyses ad 2vantages and of each method and its suitable app licati on range, which p r ovides the theoretical reference t o constructing I RT -based test questi on bank syste m. Key words:I RT; test questi on bank; para meter evaluati on; genetic algorith m; 1引言

项目反应理论及其应用现状分析(文献综述)

项目反应理论及其应用现状分析 摘要 项目反应理论作为对经典测试理论的继承和发展被提出,它代表了测量学领域新的发展方向。本文首先介绍了项目反应理论的基本概念、发展史,接着分析了相对于经典测试理论,项目反应理论的优点,然后归纳了项目反应理论的模型分类,最后指出了项目反应理论的应用热点以及在国内的发展前景。 关键词:项目反应理论;应用热点 一、引言 经典测量理论(Classical Test Theory ,简称CTT)与项目反应理论(Item Response Theory ,简称IRT)是教育心理测量理论中的两大支柱。其中经典测试理论以弱假设为基础且操作简单、易于理解等优点在实践中得到了广泛运用,但其本身存在诸多不足之处,限制了它在实践中的应用,项目反应理论就是在这样的背景下发展起来的一种新的测试理论,它是对经典测试理论的继承和发展,它代表了测量学领域的新的发展方向。 二、项目反应理论 (一)项目反应理论的概念 项目反应理论(IRT)也称潜在特质理论或潜在特质模型,是一种现代心理测量理论,它的重要意义在于,可以用于指导项目筛选和测验编制。项目反应理论假设认为,被试者存在一种“潜在特质”,“潜在特质”即:在进行观察分析测验反应中,被试对象的潜在能力,通常以测验总分作为这种潜力的估算。项目反应理论认为,被试对象在测验项目上的反应和成绩与他们的潜在特质有特殊的关系。由于项目反应理论建立的项目参数具有恒久性的特点,使得不同测量量表的分数可以统一。项目反应理论通过项目反应曲线综合各种项目分析的资料,使我们综合地、直观地看出项目难度、鉴别度等项目分析的特征,从而起到指导项目筛选、编制测验、比较分数等作用[1]。 (二)项目反应理论的发展过程 项目反应理论是二十世纪80年代测量学界研究的主题之一。项目反应理论以潜在特质理论为基础,以单个的测试项目为研究对象,以被试者的潜在心理特质和被试者在测试项目上的反应之间的关系作为自己的核心内容,同时用某种数学形式来表示。

项目反应理论新进展之题组反应理论

心理科学进展 2013, Vol. 21, No. 12, 2265–2280 Advances in Psychological Science DOI: 10.3724/SP.J.1042.2013.02265 2265 项目反应理论新进展之题组反应理论* 詹沛达1 王文中2 王立君1 (1浙江师范大学心理系, 金华 321004) (2香港教育学院评估研究中心, 香港) 摘 要 通常把测验中共用同一刺激的项目集合称为题组, 并把由共同刺激引起的题组项目反应间的相依性称为题组效应。本文首先分别对题组、局部独立性和局部依赖性的概念进行了介绍和梳理, 并结合前人研究给出了题组效应的概念。之后在阐明直接使用标准项目反应模型去拟合题组反应数据会导致参数估计偏差等诸多问题后, 引出能更好地处理题组效应的题组反应模型。全文详细介绍了包括高阶题组模型和多水平题组模型在内的6种题组反应模型, 通过对“如何理解题组反应模型中的区分度参数”和“题组反应模型与多维项目反应模型的关系”两问题的探讨, 认为:(1)题组反应模型与标准项目反应模型中的区分度参数含义并不相同, 直接将两者进行对比是不合理的; (2)题组反应模型属于广义多维项目反应模型, 与狭义多维项目反应模型的主要区别在于满足广义局部独立性假设时所需要控制的潜因素不同。 关键词 题组反应理论; 题组反应模型; 多维项目反应理论; 广义多维项目反应模型; 广义局部独立性 分类号 B841 1 引言 随着心理科学的不断发展, 心理与教育测验理论也已经有过百年的发展史。大体可以把现有的心理与教育测验理论分为两个部分:随机抽样理论(Random Sampling Theory, RST)和项目反应理论(Item Response Theory, IRT)。其中, RST 又包含了古典测验理论(Classical Test Theory, CTT)和概化理论(Generalizability Theory, GT)。在RST 的核心定义中认为:观察分数等于真分数加上误差, 但在实际数据分析中, 真分数是无法获得的, 因此在使用观察分数对被试或项目进行评价时就会引入一些误差因素, 导致RST 在应用中出现了一定的局限性, 如:测验结果拓广有限性、测验分数的测验依赖性、统计量的样本依赖性、被试能力与项目难度两个指标含义的非统一性、测量误差估计的笼统性等(漆书青, 戴海崎, 丁树良, 2002; 罗照盛, 2012)。RST 的各种局限性在其自 收稿日期:2013-05-08 * 浙江师范大学人文社科重点研究项目(SKZD201009)资助。 通讯作者:王立君, E-mail: frankwlj@https://www.360docs.net/doc/9815802917.html, 身的框架内已经无法被克服, 要进一步适应当今测量实践的需要, 就需要寻找并建立一种新的测验理论。 随着20世纪50年代初第一个项目反应理论模型(Item Response Model, IRM) —— 双参数正态肩形模型(Two-parameter Normal Ogive Model) (Lord, 1952)的提出, 测验理论经历了从RST 到IRT 的创新性变革。并且在过去的半个世纪中, IRT 已经逐步取代了CTT 的核心地位, 在现代心理与教育测量实践中发挥着重要的作用(Embretson & Reise, 2000; De Boeck & Wilson, 2004; Ip, 2010a; 辛涛, 乐美玲, 张佳慧, 2012)。IRT 以潜质(Latent trait)为基础, 克服了RST 的局限性, 并以概率形式模型化了潜质在项目上的反应。从广义角度讲, IRT 不仅包含了标准项目反应理论(Standard IRT, SIRT), 还包含了多维项目反应理论(Multidimensional IRT, MIRT)、群体水平项目反应理论(Group-level IRT, GIRT)、认知诊断理论(Cognitive Diagnosis Theory, CDT)以及本文将要介绍的题组反应理论(Testlet Response Theory, TRT)等, 其中又以SIRT 的应用最为普遍。通常在使用SIRT 时需要满足一些前提假设, 如潜质单维性假设、项目特征曲线单调递增性假设、局部独

读《项目反应理论基础》摘记与总结

读《项目反应理论基础》摘记与总结 1.IRT理论基础。 1)基本假设(只有满足了这些假设,才可以使用IRT)(P13) a) 作答反应反映了个体真实的行为表现。 b) 局部独立性 c) 模型潜在特质空间维度有限性假设。 d) 项目特征曲线的形式假设 e) 非速度测量假设。 2)假设校验(验证是否可以使用项目反应理论)(P21) a)项目反应理论假设检验 个体作答行为真实性检验 a 测验中是否存在大量未作答的题目 b被试总体得分分部偏离预先 c 答案形式上的规律ABC-ABC-ABC d 回访 e 效度校验 应用被试拟合统计量(PFS) 项目观察分数对数似然统计量 b)局部独立性假设校验 Q3统计量 c)特征空间维度检验 一种测验单维性检验的非参数方法 d)项目特质曲线形式检验 拟合性程度指标: 皮尔逊卡方统计量: e)测验速度性检验 3)项目反应理论模型 4)项目反应理论参数估计(P38) 极大似然估计 牛顿-拉夫逊迭代 贝叶斯估计

解决项目反应理论中参数、能力值的计算。 5)等值?(P67) 等值是将测量同一心理特质的不同测验分数或项目参数,通过一定的设计和数据模型,转换到同一的单位系统中去的过程。 解决测试同一能力不能任务参数的初值?能力分数的对比等 等值设计(P69) 描述了测验已经任务的设计原则。 6)垂直量表化(P80) 垂直量表化或垂直链接,指的是在某个特质领域内,在纵向发展的不同水平(如年龄、年级)群体之间,建立关于全体和个体特质水平发展状况的评价参考体系的过程。 可以评价和发现个体或者群体的动态发展水平和趋势。 7)信息量、信息函数(P91) 2.0,1题目类型使用联合极大似然估计的流程 JAVA MIRT库: https://https://www.360docs.net/doc/9815802917.html,/meyerjp3/psychometrics 1)题库初始以及参数估计

项目反应理论与自适应测验

第五讲项目反应理论与自适应测验(4学时) 一、教学目标 1、能阐述经典测验理论的不足,以及项目反应理论发展和应用的背景。 2、掌握项目反应理论的基本原理。 ①能解释逻辑斯蒂模型中被试能力参数与项目参数的物理意义以及两者间的关系。 ②能阐述项目信息函数的定义及计算方法,会解释项目信息函数的物理意义。 ③能运用一定的统计方法对被试能力参数和项目参数做出适当估计。 ④能定性地表述项目反应理论的基本原理。 3、掌握基于项目反应理论的计算机自适应测验的实现方法。 ①能说出一个典型的计算机自适应测验系统的基本构成及功能。 ②能说明设计一个典型的计算机自适应测验系统需要解决的基本问题。 ③学会运用自适应测验的基本流程和算法。 ④能定性阐述自适应测验的优点。 4、了解项目反应理论和自适应测验的实际应用的情况。 二、教学方法与教学媒体 1、教学方法:以讲授法为主,着重介绍项目反应理论的基本原理及其在自适应测验中应用的基本思路和方法。本次课结束后,让学生在课后进行自适应测验系统设计实践,并写出设计报告,然后用1-2学时组织学生就项目反应理论实际应用中的相关问题进行讨论,以培养学生的实践能力。 2、教学媒体:用黑板与讲授同步地展示讲授的内容要点,用Microsoft Excel作为工具讨论项目反应模型及其相关参数的物理意义,用PowerPoint展示结束总结的内容要点和实践任务要求。 三、教学重点、难点 重点:项目反应模型及参数估算方法;自适应测验的施测程序及算法。 难点:被试能力参数和项目参数的估算方法;项目信息函数的定义及意义。 四、教学内容与过程 整个教学过程分为引入、展开、结束三个阶段进行。 (一)引入阶段:首先分析经典测验的局限性,由此引出如何提高测验的精度和效率的问题,在此基础上提出自适应测验的基本思路及其理论基础,从而引出本节课的学习内容。然后以框图形式向学生预告本节课学习内容的基本结构和要求。 1、经典测验的局限性及自适应测验的提出 经典测验的特点是:所有被试不论能力水平高低都使用相同的测试项目进行测试。通常有两种基本类型:所有试题(项目)难度相同,即所谓“尖峰”型测验。这种情况下,当被试水平与题目难度接近时,具有较高的测验精度,两者偏离越大,测验精度越低;第二种类型为所谓“平矩”型测验,试题中有较难、难度中等、较易等不同难度的题目,因此在多数水平上能提供相对均等的测验精度,但整体精度却相对较低。 从上述分析不难看出,经典测验难以很好兼顾到测验的精度和精度的跨度问题。于是人们自然想到,能否做到“因人施测”---不同能力水平的被试都能接受一组难度跟自己水平相适应的试题?

基于经典测量理论和项目反应理论的等值与连接(二)

导言 笔者连续写作了三篇论文探讨测验等值和连接的概念、程序、应用以及存在的问题等,本文是这一系列论文的第二篇。本系列论文取材于《一名业界人士对等值和连接的介绍———经典测量理论和项目反应理论入门》(A Practitioner's Introduction to Equating with Primers on Classical Test Theory and Item Response Theory,Ryan&Brockmann,2009)。第一篇文章(编者注:此文已发表于《考试研究》2011年第1期)探讨了效度的核心问题,以及在命制试题和组卷过程中构建等值测试版本的重要意义。同时,该文还介绍了等值和连接的主要概念和基本术语,并概述了经典测量理论(CTT)和项目反应理论(IRT)。本文将重点介绍连接和等值的取样及等值设计,并探讨建立题库步骤和基于CTT的等值程序。第三篇将介绍基于IRT的等值技术程序,同时讨论一些普遍的等值问题。 本系列论文是面向开发、维护和改进教育测量项目的教育工作者而作的,其目标读者群包括教育测量的用户、从业者以及负责教育测量项目的政策制定者。当然,对于其他想对连接与等值作一些基础的了解,从而进行更深入的技术学习的人来说,这些论文也是非常实用的基础知识。笔者强烈建议读者参阅第一篇文章,其中阐述了这系列文章的背景及思路。 一、等值设计:基本概念和术语 要运用等值程序对学生的测试成绩进行等值,首先应采用特定的方法采集学生的测试成绩。实施连接和等值运算所使用的成绩数据是依据既定的准则采集的,这个准则即称为数据采集设计或者等值设计。选择使用哪些成绩数据必须具有很强的目的性,并要非常慎重。此外,数据采集必须符合一定的要求并在技术上可行。本文着重讨论下列等值设计及相关主题: ● 随机组群(等值组群)设计(Random Groups(Equivalent Groups)Design); ● 单组设计(Single Group Design); ● 平衡单组设计(Single Group Design with Counterbalancing); ● 锚题测试设计(Anchor Test Design); ● 创建题库(Item Bank Development); ● 矩阵型取样测试(Matrix Sampling of Items)。 1.随机组群(等值组群)设计(Random Groups(Equivalent Groups)Design)

基于项目反应理论的测验编制方法研究

考试研究2006年10月第2卷第4期ExaminationsResearchOct.2006Vol.2,No.4 基于项目反应理论的 测验编制方法研究 戴海琦【摘要】本文在简单介绍项目反应理论的基础上,从计量分析的角度,深入探讨了应用项目反应理论编制各种测验的一般步骤;探讨了项目反应理论题库建设方法及基于题库的测验编制方法;探讨了标准参照测验合格分数线的划分方法。 【关键词】项目反应理论测验编制题库合格分数线 作者简介戴海琦,教授,江西师范大学教育学院。江西南昌,330027。 一、项目反应理论简介 现代测验的编制必须有科学的理论指导。从测验计量角度来看,指导当前测验编制的实用理论唯有经典测验理论与项目反应理论两种。作为一种科学的测验理论,经典测验理论以其发展早、成熟早的优势,在测验编制指导上占据了主要地位,为测验的发展作出了巨大贡献,并且至今还在起着重要的作用。可预见的是在今后一段时期内,经典测验理论将还会继续为测验编制作贡献。但是,由于历史的原因,经典测验理论的理论体系与计量模型上确实也存在一些先天不足。随着社会的进步和科学的发展,测验实践已对测验的品质和性能提出了更高、更多的要求,经典测验理论在面对这些新要求时已显得力不从心。此时,应运而生的是项目反应理论。项目反应理论以31

《考试研究》第2卷第4期 其更系统的理论体系、更严谨的逻辑体系和更完整的计量体系受到测量理论工作者和实践工作者的欢迎。项目反应理论成为许多大规模测验和特殊类型测验的主要指导理论,特别是那些需要精确计量的测验更不能没有项目反应理论的指导。 项目反应理论(ItemResponseTheory,IRT)于20世纪50年代初正式创立。 美国学者洛德和丹麦学者拉希各自独立的工作均为项目反应理论的创立作出了重大贡献。1959年,伯思鲍姆给出了项目反应理论的logistic模型,打开了IRT实际应用的大门。1969年日本学者塞米吉玛给出的多维评分模型突破了IRT仅用于双值评分试题的限制,90年代以后,可实用的多维测量模型的出现消除了人们头脑中IRT只能用于单维品质测量的印象。目前,IRT最成功也是最多的应用主要在三个方面,其一是用于指导需要精确计量的,规模较大的一些教育考试的编制;其二是用于指导具有个性化特征的计算机化自适应测验的编制,其三是将测量与认知科学结合,起分析认知特征、诊断认知结构的作用。IRT应用的成功,除了依赖于自身理论的不断发展和各种实用模型的开发,还依赖于用于估计各种模型参数的计算机软件的成功开发,著名的如BILOG、WINMLOG、WIMPASC等等。 项目反应理论的一个重要思想是:测量所测的是人的潜在的心理品质,称其为潜在特质。这种潜在特质可能是一维的,也可能是多维的,测量人的潜在特质用的工具是一个一个的测验项目。具有特定潜在特质的被试在特定项目上正确作答的概率应该是可估计的,而且可以料定的是,随着个体潜在特质水平的增长,其在此项目上正确作答的概率也会增大。如果所测潜在特质是一维的,那么,在项目上正确作答的概率相对于被试潜在特质水平的变化将形成一条S形曲线。这条S形曲线是中心对称的(参见附图1)。 曲线的形态和位置完全是由测验项目的特征所决定的。测验项目越难,曲线的位置越向右移,项目越容易,曲线的位置越向左移。项目对被试的区分能力越强,曲线中心点的斜率越大、曲线越陡,项目对被试的区分能力越弱,曲线中心点的斜率越小,曲线越趋平缓。我们记这一维潜在特质为θ,记随θ而变的概率为P(θ)。理论上θ的值阈是正、负无穷的。随着θ趋向于正无穷,则32

相关文档
最新文档