关于项目反应理论试题参数的估计

合集下载

项目反应理论(IRT)甄选试题方法研究

项目反应理论(IRT)甄选试题方法研究

2018年9月伊犁师范学院学报(自然科学版)Sept.2018第12卷第3期Journal of Yili Normal University(Natural Science Edition)Vol.12No.3项目反应理论(IRT)甄选试题方法研究张兆远1,陶剑2(1.伊犁师范学院数学与统计学院,新疆伊宁835000;2.东北师范大学数学与统计学院,吉林长春130024)摘要:主要研究项目反应理论(IRT)方法并使用该方法对一组真实考试成绩进行分析,探索如何使用IRT理论甄选试题的一般方法.关键词:项目反应理论;甄选;试题中图分类号:O213;G449文献标识码:A文章编号:1673—999X(2018)03—0010—050引言教师要通过考试来考查学生对知识的掌握情况,而出试卷的过程就是甄选题目的过程.经常出现的情况是教师认为简单的题目,结果很多学生却作答错误,有人就说这道题或试卷难度太大.于是,我们就希望能给每道题标出难度值,在选题时供参考.估计试题参数的方法有经典测量理论(CTT)、概化理论(GT)和项目反应理论(IRT),是教育测量领域最重要的三种理论方法.其中,IRT方法具有参数不变性、测量精度高等优点,但由于理论相对复杂、操作难度较大而没能被广泛使用.随着计算机软件、互联网技术的迅猛发展,IRT的操作使用开始变得简单易行,但广大教师对IRT方法的了解程度还远远不够.本文采用IRT方法对某校数学考试试题进行分析,并探索给出如何使用IRT方法甄选试题的一般方法.1项目反应理论(IRT)简介项目反应理论(Item response theory,IRT)也称潜在特质理论,是一种现代心理测量理论,假设被试具有某种潜在特质(latent trait),被试的潜在特质一般是指潜在的能力,通常用测试得分数据来估算.项目反应理论认为被试对测试项目的反应成绩与它们的潜在特质存在密切联系,并且项目反应理论估计的项目参数具有参数不变性的特点.项目反应理论可以通过项目特征曲线(item characteristic curve,ICC)来综合展示各项目分析的结果,使我们能够综合直观地观察到项目难度、区分度等项目特征和被试能力,进而可以指导教师甄选试题编制试卷.同时IRT在一定程度上克服了CTT和GT的一些局限性.1.1模型假设假设1:作答真实可信,各被试之间互不影响.假设2:局部独立性,即对同一被试题目间相互独立.假设3:潜在特质空间维度有限性,即一次只测试一种能力.假设4:项目特征曲线严格单调上升,即被试能力水平收稿日期:2018-01-12基金项目:伊犁师范学院教改项目(JG20161643);国家自然科学基金项目(11571069);伊犁州教育科研规划项目(YLJYKT2016040).作者简介:张兆远,男,在读博士研究生,研究方向:统计学;陶剑,男,教授,统计学博士生导师.张兆远,陶剑:项目反应理论(IRT)甄选试题方法研究第3期越高其正确作答概率越高.假设5:非速度测量假设,即被试在测试中有充足时间作答.1.2基本模型以下是项目反应理论中3种常用模型:1)正态肩形模型P i(θ)=c i+(1-c i)∫-∞a i(θ-b i)e-z222πd z.2)Rasch模型P i(θ)=e(θ-b i) 1+e(θ-b i).3)logistic模型P i(θ)=c i+1-c i1+e[-Da i(θ-b i)].模型中a、b、c为项目参数,分别表示区分度、难度、猜测度;参数θ表示被试潜在特质,即能力参数.区分度参数取值范围为[-∞,+∞],实际应用中一般为[0,+3];难度参数取值范围为[-∞,+∞],实际应用中一般为[-3,+3];猜测度参数取值范围为[0,+1],实际应用中发现很少大于0.5;能力参数取值范围为[-∞,+∞],实际应用中一般为[-3,+3];D为常数取1或1.7.以上模型又可分为单参数、二参数、三参数模型,在应用过程中可以根据实际需要进行选择.1.3项目反应曲线图1给出了项目反应曲线ICC示意图,ICC曲线呈现出单调递增的S型,IRT模型参数可以在ICC曲线中综合直观地观察到.它的横坐标表示潜在特质,即能力参数θ;纵坐标表示被试对项目的正确作答概率P i().区分度参数是曲线拐点处切线的斜率,曲线越陡峭在拐点处切线斜率越大区分度就越高,那么相邻水平被试正确作答反应概率的差异就越大;难度参数是正确作答概率为0.5(三参模型时为1+c2)时的能力值点,这与CTT中关于难度的定义有本质区别;猜测度参数为ICC曲线的下渐近线值,当被试能力水平非常低时,其正确作答概率接近c值,能力越高c参数的影响力越小.图1项目反应曲线ICC示意图1112伊犁师范学院学报(自然科学版)2018年2试题甄选本文整理了604份被试作答数据,共分析15道试题:第1~5题为选择题,第6~10题为填空题,第11~15题为判断题,这三种题型都是可化为0~1判断的客观题.本文选用IRT中的Logistic模型,由于第1~5题为4选1的选择题,即使不会做的被试也有0.25的可能性猜对答案,所以选用带有猜测度参数的三参数模型,其他题型选用二参数模型.当然,也可以不考虑猜测度参数而全部使用二参数模型,通常二参数模型的参数估计结果更稳定.本文在分析过程中综合使用R语言、FoxPro9.0、Excel、BILOGMG3.0和ANOTE1.6软件对数据进行处理分析,包括数据整理、拟合度检验和参数估计等.2.1拟合度检验与参数估计项目参数估计值与模型-数据拟合度检验表1注:**表示0.05显著性水平下拟合度未达标;自由度df为10.第1~5题为4选1的选择题,由于不会做的被试者也有0.25概率猜测正确,所以c值不应大于0.25,在实际应用过程中根据具体情况需要可以适当放宽.由表1中的猜测度参数c估计值可以看到它们都小于0.25,都符合标准.拟合度检验中卡方值越大说明拟合效果越不好.本文将能力参数估计值分为10组,因此卡方检验自由度df取10.第5题卡方值为18.375,在0.05的显著性水平下自由度为10查表知卡方检验值为18.307,而18.375大于18.307说明第5题拟合度未达标.又因为在0.01的显著性水平下自由度为10查表知卡方检验值为23.209,据此本文将卡方检验值适当放宽到20.000,从而保留第5题.2.2利用项目参数选题为了能够更加直观地通过区分度参数与难度参数甄选试题,我们绘制第1~15题的项目反应曲线ICC,见图2.张兆远,陶剑:项目反应理论(IRT)甄选试题方法研究第3期图2第1~15题项目反应曲线ICC由图2并结合表1可见,第3题、第12题、第14题的拐点偏左,这类题的难度较低;第11题,难度较大;第11题、第14题拐点处切线斜率较小,这类题目区分度较小;可以看出第4题、第6题、第7题、第8题、第9题、第10题的ICC曲线相对完整优美,是我们甄选试题时的理想目标.3总结本文使用项目反应理论(IRT)方法甄选试题.第一步,通过拟合度检验选出与IRT模型拟合效果好的题目,需要注意的是拟合度不佳并不一定说明题目本身不好,此处选出拟合度好的题目是为了保证下一步选题的可靠性.本文采用卡方检验法检验拟合度,卡方值越大说明拟合效果越不好,本文中要求卡方值不大于20.000.第二步,估计IRT模型在各项目的参数并绘制各项目ICC曲线,具体方法可参见相关文献或者使用已有的软件程序.第三步,通过猜测度参数c、区分度参数a和难度参数b并结合观察各项目ICC曲线甄选题目:1)从理论出发猜测度不应大于0.25,实际应用中可适当放宽,本文要求猜测度不大于0.30,当然也可以不考虑猜测度参数而全部使用二参数模型,通常二参数模型的参数估计结果更稳定.2)理论上讲区分度越大越好,实际应用中一般取值范围为[0,+3].3)难度取值范围一般为[-3,+3],由IRT中难度参数的定义易知,相比CTT中的难度参数IRT中的难度参数使得我们可以更有效地甄选试题;事实上,难度与区分度联系紧密,IRT中的区分度是相对于难度参数附近的被试水平而言的.如果每道题都选难度非常大的,那么只有少数高能力被试才能作答正确,而在实际中被试的能力参差不齐,所以一般各难度段的题目都要选.4)ICC曲线相对完整优美的项目,一般是我们甄选试题时的理想目标.本文建议:当已知被试能力先验信息时,一般大部1314伊犁师范学院学报(自然科学版)2018年分的题目应在被试能力参数范围内按均匀分布选择区分度较大的题目;当不知道被试能力先验信息时,一般大部分题目应在难度范围[-3,+3]内按均匀分布选题的同时选择区分度较大的题目.当然,在实际的操作过程中由于考试的目的不同选题策略也会不同.比如一次考试的目的是选出顶尖人才,那么通常会选择难度和区分度都比较大的题目;比如一次考试的目的是为了检验学生对知识的掌握程度从而评定出等级就可以选择本文建议的选题策略.事实上,在已知被试能力先验信息时,可以通过甄选题目精准控制被试的考试得分或通过率.项目反应理论(IRT)中还有一个重要概念是信息量.信息量与区分度参数相关性较强,可以利用项目信息量辅助甄选试题.信息量概念涉及试卷整体的信效度问题,笔者将在后续论文中阐述研究此问题.另外,本文主要研究二级评分题型的甄选方法,对于多级评分题型由于模型不同需另行讨论.参考文献:[1]CARDAMONE CN,ABBOTT JE,et al.Item Response Theory Analysis of the Mechanics Baseline Test[J].Physics Education Research Conference,2012,1413(1):135-138.[2]SWAMINATHAN H,HAMBLETON RK,ROGERS HJ.Assessing the Fit of Item Response Theory Models[J].Handbook of Sta⁃tistics,2006,26(6):683-718.[3]FRANK B.BAKER.The Basics of Item Response Theory[M].ERIC,2001.[4]WIM J.van der Linden.Handbook of Modern Item Response Theory[M].CRC Press,2016.[5]TORRE JDL,PATZ RJ.Making the Most of What We Have:A Practical Application of Multidimensional Item Response Theory in Test Scoring[J].Journal of Educational and Behavioral Statistics,2005,30(3):295-311.[6]罗照盛.项目反应理论基础[M].北京:北京师范大学出版社,2012.[责任编辑:张建国] Research on Item Response Theory(IRT)Selection Test Questions MethodZHANG Zhao-yuan1,TAO Jian2(1.College of Mathematics and Statistics,Yili Normal University,Yining,Xinjiang835000,China;2.School of Mathematics andStatistics,Northeast Normal University,Changchun,Jilin130024,China)Abstract:This paper mainly studies the item response theory(IRT)method and uses the IRT method to analyze a set of real test results,and explores how to use IRT theory to select test questions.Key words:item response theory;selection;test questions。

项目反应理论简介

项目反应理论简介
• 区分度指标(鉴别力指数D或相关 系数r) D= PH-PL
经典测量理论的测验编制
• 假设被试的特质是正态分布,从而 测验总分的分布也是正态
• 测验分数尽可能区分被试,因此测 验总分的变异程度越大越好
• 测验中试题的难度中等为好,区分 度越大越好
经典测量理论的缺陷
• 参数依赖于样本 • 能力量表与难度量表不统一 • 对于所有被试的测量误差相等 • 无法反应潜在特质与被试作答之
参数估计时标尺的建立
P(0.5;1.0,-0.8,0.2)=P(2;1.0,0.7,0.2) =P(2;2.0,-0.15,0.2)
P

0.2

1
1 0.2 e 1.710.5( 0.8)


0.2

1
1 0.2 e 1.71( 2 0.7 )
间的关系 • 在测验编制问题上的困惑
准备知识
• 标准分数
Z XX S
• Z>0,高于平均,Z<0,低于平均 • P(-1.96<Z<1.96)=0.950 • P(-3<Z<3)=0.997
A1 1 1 0 1 0 0 0 1 16 B0 1 0 1 1 1 1 0 1 0 6 C1 0 1 0 1 1 0 1 1 1 7 D1 1 1 0 0 0 0 0 0 14 E11110110107 F11000010115 G1 1 1 0 1 1 0 0 1 17 H0 1 1 1 1 0 1 1 1 18 I 10001001104 J 01100010014 总7 8 7 3 6 4 5 3 8 7

1


c3

1
1 c3 e1.7a3 ( b3 )

项目反应理论简介

项目反应理论简介

项目反应理论简介摘要:项目反应理论(IRT)是近三十年发展起来的一种比较先进的心理与教育测验理论,受到国内外许多学者和专家的关注。

与经典测验理论相比,项目反应理论在较强的前提假设下,有更多的优越性。

关键词:经典测验理论;项目反应理论;项目特征曲线;罗氏模型一、引言目前,考试系统题库的建立主要基于两种指导理论:经典测验理论(Classical Test Theory, CTT)和项目反应理论(Item Response Theory, IRT)。

二者都有一套完整的试题分析指标体系和评价标准。

但经过长期实践,经典测验理论显示出某些难以克服的缺点,如由不同测试项组成的测验其结果无法比较,数据没有等距性,测量结果容易受到样本的影响,以及多个变量不易同时处理等。

针对这些,现代测验理论应运而生。

在国外已广泛应用于教育测验领域,如GRE,GMAT,TOEFL等测验,近年来也扩展应用到其他学科领域的测验评估。

Baker (2001)认为,在经典测验理论指导下,测试学家关心的是被试的测试得分,即每个正确测试项的分值总和。

而项目反应理论的关注重点则是被试是否答对每个测试项,而不是被试的测试总分。

项目反应理论和经典测验理论在数学模式、基本假设和测验可靠程度的估计指标等方面都存在着明显的差别。

与经典测验理论相比,项目反应理论在较强的前提假设下,有更多的优越性。

二、项目反应理论项目反应理论,也称潜在特质理论、潜在特质模型、强真值理论,是一种现代心理测量理论,是一系列心理统计学模型的总称,是针对经典测量理论的局限性提出来的。

项目反应理论是用来分析考试成绩或者问卷调查数据的数学模型,这些模型的目标是来确定潜在心理特征(latent trait)是否可以通过测试题被反应出来,以及测试题和被试之间的互动关系。

项目反应理论假设被试对项目的反应能体现他的潜在特质(Baker, 2001)。

根据被试回答测试项的情况,通过对项目特征函数的运算,来推测被试的能力。

项目反应理论与题库建设

项目反应理论与题库建设

项目反应理论与题库建设项目反应理论(IRT)项目反应理论是针对经典测量理论的不足而提出来的一种新的测量理论。

它的最大优点是项目参数和被试能力参数的不变性。

即项目参数的估计值与被试样组的选择无关;被试能力的估计值与所施测的试题无关。

同时能够提供各被试能力估计值的精确度指标,而且在施测前就可以知道各个测验项目对于不同被试的能力估计的精确度。

项目反应理论的这些优点对于题库的建设、测验的编制十分重要。

项目反应理论包含很多内容,限于篇幅,下面仅就其核心内容加以简单的讨论。

1、项目反应模型项目反应模型是用以表示被试能力和被试者对测验项目“正答概率”之间关系的数学函数,这个函数是单调递增的,被称为项目特征函数(ICF: Item Charateriseic Function)或项目反应函数( IRF: Item Response Function)。

它包含一定数目的项目参数(如难度参数、区分度参数、猜测参数等),这些参数值可以通过一定的方法估计出,在项目参数值确定后,利用项目反应模型就可以计算出各被试的能力估计值。

在IRT的研究发展中,人们提出了多种项目反应模型,这些模型主要分为两大类:静态模型和动态模型。

静态模型描述考生某个时刻的潜在特质水平,不包含时间因素;动态模型用来测量考生潜在特质随时间变化的程度。

目前发展比较成熟且得到广泛应用的是静态模型。

下面我们主要介绍在题库建设中常使用的几种静态模型。

静态模型也有多种,它们可分为单维的和多维的;二值记分的和多值记分的;正态卵型的和逻辑斯谛型的,等等。

在题库建设中最常用的是单维的二值记分的逻辑斯谛模型。

单维是指模型假设只有一种潜在特质对测验反应数据起作用;二值记分是与二值反应相联系的记分方式。

在成就和能力测验中,考生对项目反应的“正确”与“错误”,通常用0和1表示(0表示错,l表示对),所形成的测验数据就是二值的。

二值记分表明模型所能处理的测验数据是二值的。

逻辑斯谛模型的数学表达式为:式中,e为自然对数的底;x为一个任意符号。

基于项目反应理论的题库构建及其有效性检验——以“现代教育技术

基于项目反应理论的题库构建及其有效性检验——以“现代教育技术

基于项目反应理论的题库构建及其有效性检验*——以“现代教育技术”公共课为例王玥常淑娟[通讯作者]韩晓玲陆宏(山东师范大学教育学部,山东济南250014)摘要:题库是考试实践中不可或缺的要素,如何构建具有良好试题内容和试题参数的题库一直是教育评价领域关注的焦点。

文章以师范生的“现代教育技术”公共课为例,通过探讨基于项目反应理论的题库构建,论述了试题编制的原则、试题的等值设计、试题参数的估计方法以及如何利用信息函数进行题库质量的评价。

最后,文章指出了题库构建中尚存的不足和未来研究方向。

关键词:项目反应理论;题库;“现代教育技术”公共课;IRT模型;试题编制【中图分类号】G40-057 【文献标识码】A 【论文编号】1009—8097(2019)10—0041—07 【DOI】10.3969/j.issn.1009-8097.2019.10.006题库是指按照一定的教育测量理论在计算机系统中实现某个学科试题的集合,是严格遵循教育测量理论,在精确的数学模型基础上建立起来的教育测量工具[1]。

《国家中长期教育改革和发展规划纲要(2010-2020年)》明确提出,要“完善国家考试科目试题库”[2]。

在考试的实践化操作中,无论是计算机智能化组卷,还是计算机自适应测验,都离不开题库,题库对心理与教育测量的进一步科学化、现代化起到了极大的推动作用。

一国内外相关研究20世纪60年代中期,英国首先使用“题库”(Item Bank)一词。

20世纪末期,国外开始由专门的研究机构负责题库的建设,如美国教育考试服务中心(Educational Testing Service,ETS)、美国大学入学考试(American College Test,ACT)、英国剑桥评价(Cambridge Assessment,CA)等。

在这些机构里,题库不仅是试题的管理平台,而且是命题过程的平台,涉及题目编辑、试测、计算试题参数、等值、参数检验、统计学检验等一系列过程[3]。

基于项目反应理论的试题参数估计方法(精)

基于项目反应理论的试题参数估计方法(精)

第 5卷第 1期贵阳学院学报 (自然科学版 (季刊Vol . 5 No . 1JOURNAL OF G U I Y ANG COLLEGE2010年 3月 Natural Sciences (QuarterlyMar . 2010基于项目反应理论的试题参数估计方法薛宝山(山东胜利职业学院 , 山东东营 257097摘要 :探讨了几种常用的基于项目反应理论 (I RT 的试题参数估计方法 , 并分析了每一种估计方法的优缺点及各自的适用领域 , 为构建基于 I RT 的试题库系统提供理论参考。

关键词 :项目反应理论 ; 试题库 ; 参数估计 ; 遗传算法中图分类号 :TP3111131文献标识码 :A 文章编号 :1673-6125(2010 01-03I RT 2ba sed Param eter Eva on s(Shandong 257097, ChinaAbstract:The p l ores several common I RT -based evaluati on methods of test questi ons and analyses ad 2vantages and of each method and its suitable app licati on range, which p r ovides the theoretical reference t o constructing I RT -based test questi on bank syste m.Key words:I RT; test questi on bank; para meter evaluati on; genetic algorith m;1引言在互联网技术迅速发展的今天 , 基于网络技术的考试系统得到了广泛的应用 , 网络考试系统拓展了考试的灵活性 , 显著降低了教育成本。

作为网络考试系统中的重要环节 , 试题库及其理论的研究和应用也越来越广泛。

项目反应理论

项目反应理论

项目反应理论任何一种理论都不可能是完美无缺的,作为测量初期发展起来的理论更是不可避免地存在着一些缺陷。

项目反应理论(Item Response Theory, IRT)则是在反对和克服传统测量理论的不足之中发展起来的一种现代测量理论。

无论是CTT还是GT,其测验内容的选择、项目参数的获得和常模的制定,都是通过抽取一定的样本(行为样本或被试样本),因此可以说二者都建立在随机抽样理论基础之上。

它们的局限性主要表现在以下几个方面:(1)信度估计的精确性不高测量的重要目标就是降低测量误差,提高测量的精度。

在经典测量理论中,信度被定义为真分数的方差与实得分数(原始分数)的方差之比。

然而,在此定义中,真分数的方差和误差的方差都无法求取。

为了估计信度,CTT又提出了平行测验的概念,并在此基础上推演出了若干个信度估计公式。

但是严格的平行测验是不存在的,等价测验也很难获得的,在此基础上估计的测验信度很难达到比较高的精确程度。

另外,经典测量理论中的信度估计值也是一个笼统值,即假定对不同能力水平的被试来说,测量的误差是相同的。

而事实是,一份测验只有在施测于能力水平与测验难度相当的被试时容易获得比较高的测量精确度。

当测验施测于能力水平高于(或低于)测验难度的被试时就容易产生较大的测量误差。

而且测量误差值会随着被试水平与测验难度距离的增加而变大。

(2)各种测量参数的估计依赖于被试样本经典测量理论构造了一个完整的理论体系,同时设计了一套参数指标来刻划测量各方面的特性。

如信度、效度、项目的难度、区分度等。

但是这些参数的估计对样本的依赖性是很大的。

如项目难度,对于同一题目,若样本的群体水平较低,就有较高的难度估计值。

测验的信度和效度采用相关分析法,同样受到样本的影响。

为避免抽样误差对参数估计的影响,经典测量理论特别强调样本对总体的代表性。

但经典理论所用的是随机抽样,随机抽样总有一定偏差存在。

何况在实际工作中,由于客观条件的限制,还不能做到随机抽样。

项目反应理论【精选文档】

项目反应理论【精选文档】

项目反应理论随着心理学的发展, 心理测量无论是在理论上, 还是在方法上都逐步地提高.目前,心理测量有三大理论派别:经典测量理论(Classical Test Theory , 简称CTT) ,项目反应理论(Item Response Theory ,简称IRT) 和概化理论(Generalizability Theory , 简称GT).项目反应理论是一种先进的测量理论,它是针对经典测量理论的不足而提出来的, 其理论基础是潜在特质理论。

项目反应理论的基本思路是确定考生的心理特质值和他们对于项目的反应之间的关系, 这种关系的数学形式就是“项目反应模型”。

下面主要对项目反应的理论假设和数学模型做一下简要概述。

一、项目反应理论的基本假设任何一种数学模型都有一定的前提,任何一种测量都有一定的假设,在项目反应理论中也有三条最基本的假设:潜在特质空间的单维性假设、测验项目间的局部独立性假设、项目特征曲线假设.有的学者还增加了“知道—-答对"假设和非速度限制假设。

在此仅说明前面三条最基本的假设.1、潜在特质空间的单维性假设潜在特质空间是指由心理学中的潜在特质组成的抽象空间。

如果考生在测验项目上的反应是有K种潜在特质所决定的,那么这些潜在特征就定义了一个K维潜在空间,考生的各个潜在特质分数综合起来,就决定了该考生在该潜在空间的位置。

如果影响考生测验分数的所有重要的心理特质都被确定了,那么该潜在空间就称为完全潜在空间。

目前比较成熟的大多数项目反应模型都假设完全潜在空间是单维的,即只有一种潜在特质决定了考生对项目的反应,也就是说组成某个测验的所有项目都是测量的同一个心理变量,例如知识、能力、态度或人格。

当然,这一假设往往不可能得到严格的满足,因为总有其他因素会影响到考生在测验上的反应,这些因素包括认知的、人格的和施测时的客观条件,以及考生的动机水平、焦虑程度、反应速度和考试技巧等。

因此在项目反应理论中,只要所预测量的心理特质是影响考生对项目作出反应的主要因素,那么就认为这组测验数据是满足单维假设的.2、测验项目间的局部独立性假设所谓局部独立性假设是指某个考生对于某个项目的正确概率不会受到他对于该测验中其他项目反应的影响,也就是说只有考生的特质水平和项目的特性会影响到考生对该项目的反应.在实际的教育和心理测量问题中, 如果前一个项目的内容为后一个项目的正确反应提供暗示或其它有效的信息,局部独立性的假设就会遭到破坏,例如所谓的链状试题就会出现这种情况.局部独立性是建立在统计的意义上的,用统计学的语言,局部独立性是指对每一个测验者来说, 对整个试题作出某种反应的概率等于对组成试卷的每个项目的反应的概率的乘积.3、项目特征曲线假设项目反应理论的一个关键就是在被试者对项目作出的反应或作出反应的概率与被测试者的潜在特质之间建立某种函数关系。

  1. 1、下载文档前请自行甄别文档内容的完整性,平台不提供额外的编辑、内容补充、找答案等附加服务。
  2. 2、"仅部分预览"的文档,不可在线预览部分如存在完整性等问题,可反馈申请退款(可完整预览的文档不适用该条件!)。
  3. 3、如文档侵犯您的权益,请联系客服反馈,我们会尽快为您处理(人工客服工作时间:9:00-18:30)。

B’ 抗 56;DB 抗体可阳性 (’BDB 可阳性 #
<’ 血清补体无下 降
:’ 磺
胺 类药 物 可 能 诱 发 药 物 性 狼 疮
;’ 停 药 后 症 状 可 消 失
表 " 第" ’>’>A 题参数估计结果
分析 % 由图 ! 可 知第 " 套 试卷第 " 题的区 别度为 9’C>"> ’ 难 度 其中 * 表示概率 "! 为能力估计值 "8. 为第 . 题的项目反 应 "!/为最大估计值 # 本课题参数估计应用江西师范大学 测量 通用程 序 () 算法来计算边际极 大似 然 估 计 值 " 具 体 方 法 是 " 将 所 有 考 试结果 $ 9 "" 记分& 输入 (8:(* 数据库中 " 按学号 ’ 每道题的 答案及 答 分输 入到 计 算 机 中 " 最 后 转 化 为 ;<= 数 据 " 在 软 件上运行计算 # 为 9’C!C% ’ 猜测系数为 9’""?!" 显著性检验提示卡方值为
昏迷
(’ 尿毒症
题 >’ 男 性 "A9 岁 " 慢 性 肝 炎 "C 年 " 因 呕 血 ’ 柏 油 便 " 天
关于项目反应理论试题参数的估计
值方法 ! 实际上仅局限在考生测验总分等值这一个方面 "
!( 既适用于常模 参照性测验又 适用于标准参照性测
验 " 经 典理论 的难 度 % 区 分 度等 在 考生 全 部 通 过 & 或不通 过’ 时 ! 就会失去意义 !所以无法处理这类问题 ! 而 $%& 的难 度值却直接用被试特质水平值来表达 ! 区分度是特性曲线 拐点处的斜率 ! 这就从根本上解决了经典理论所面临的困 难 ! 能完全运用于标准参照性测验 "
典测验理论的局限性 ! 将被试特质水平与被试在项目上的 行为关联起来并且将其参数化 # 模型化 " 构造模型的方法 有很多种 ! 如果采 用 &’()*+), 模 型 将它 们 关联 ! 将对 考 生 和 试卷进行评价的指标统称为参数 ! 通常主要关心能力参数 & !’ 和项目参数 & -!. !,’ " 根据参数的不同 !/’()*+), 项目特 & !00’ 可分为单参数 ! 双参数和三参数 1 种模式 " 三 征曲线 参数模式见公式 (
!’ 参数估计的方法
本 研 究 采 用 边 际 极 大 似 然 估 计 与 () 算 法 $ ))*( %
+#,-./#0 0.120.3445 267.+#7.4/ #/5 () #0-4,.73+& 来进行参
数估计 # 该方法是近十多年发展起来的 # 它的优点是 () 算 法在一般条件下可 以 收 敛 " 并 且 计 算 比 较 简 单 " 但 是它 的 $ 全答对 " 全答错& 无法正确估 缺点是对于特殊的反应模式 计其项目参数 # 该方法的基本公式如下 %
*( 由于具 有参 数 不 变 性 等 优 点 ! 可 编制 出 ( 因 人 施
测 ) 的自适应测验等新型测验 " 新的测试理论 $%& 虽然比 起经典 理论 来具 有 不可 比 拟的 优 越性 ! 但 由 于 与 实际 尚 有一 些距离 ! 有待 进 一步 完 善 " 我 们 在试 题 参数 确 定 上 图! 第 "套试卷第 #题的项目反应曲线图 的做法应该是根据具体实际以 $%& 在试题参数测试的不变 性为基础 ! 充 分 利 用 经典 理 论的 优 点 ! 抓 住 经典 理论 与
教 育 发 展 研 究
!"#
机参数分析的结果包括分析的时间 " 收敛的精度等以及每 $ B& ’ 难度 $ <& ’ 猜测系 数 $ :& ’ 卡方 值及显 道试题的区别度 著性检验结果 # % 道试题的内容如下 $ 其中有 ! 者为该题答 案& % 题 "’ 急诊昏迷病人 " 轻度黄疸 " 口具特殊气味 " 双侧肢 体张力对称性增高 " 瞳孔等大 " 尿蛋白及糖定性均阴性 " 下 列哪种情况可能性最大 %
入院 # 体检 % 嗜睡 " 行为异常 " 巩膜黄染 " 胸壁见蜘蛛痣 " 肝 掌 " 腹软 " 肝未及 " 脾肋下!&+ "质中 " 移动性浊音阳性 " 扑翼 样震颤 阳性 " 经治 疗后 患 者清 醒 " 你认 为下 列 哪项 措 施 不 利于预防此并发症再发 (
!! $ 参数 " 试 题 的 难 度 " 即 特 征 曲 线 在 横 坐 标 上 的 投
影#
%! &参数 "试题的猜测系数 " 即特征曲线的截距 # 它的
值越大 "说明不论受测者能力高低 "都容易猜对本道试题 #
B’ 加 强营 养 " 多 补 充蛋 白 饮食 <’ 调 整 水电 解 质 平 衡 :’酌情应用利尿剂 ;’应用改善肝功能药物 (’经常口服乳果糖
题 >A’ 关于药物性狼疮 " 下列哪项不符合 (
@’CC%"" 无 显 著 性 " 从 参 数 估 计 结 果 提 示 该 道 题 为 质 量 较
好 " 可以反映学生对该方面知识的掌握水平 #
%’ 参数估计的结果及分析
$ "& 我们对我校临床医学 >? 级毕业生进行了 @99 道试 题的试测 " 按 学号 ’ 每 道 题 的 答 案 及 答 分 结 果 输 入 (8:(* 数据库中 " 最后转化为 ;<= 数据 " 在软 件上运 行计算 " 结果 可以得出所有题目 的 难 度 ’ 区 别 度 ’ 猜 测 系 数 以 及 每 道 试 题的质量 # $ !& 如上述原理 " 每道试题都有自己的参数估计曲线 " 从此曲线可以知道该试题的参数估计 # 以下是第 " 套试卷 % $ 见图 ! ’% ’A& " 各图左侧为题号 ’ 卡方值 道试题分析的情况 及检验结果 " 图右侧曲线就是该题的项目反应曲线 # 计算 图! 第 " 套试卷第 " 题的项目反应曲线图 图 % 所 示 的第 > 题 曲线 显 示该 题 质量 不 好 " 卡 方 值 为
$%参数估计的由来 !"# 是一种新兴的心理与教育测验理论 ! 它突破了经
图 $ 三参数模式的特征曲线 从图$ 中可以看出 (
教 育 发 展 研 究
!"!
关于项目反应理论试题参数的估计
"! # 参数 " 试题的区 分度 " 即 特征曲 线的斜 率 " 它 的值
越大说明试题对受测者的区分程度越高 #
的 发展有 许多积 极 作 用 ! 使 用 考 试 手 段 能 够 检 测 教 育质 量 ! 规范和引导 教师 的 教 学 行 为 ! 促 进 学 生 积 极 努 力地 学 习 ! 而且对培 养学生 分析 问 题 ! 解 决 问 题 等 综 合 素 质 能 力 可以发挥非常重要的鞭策作用 " 如何客观 # 科学地反映和 评价每一位学生的专业理论水平和实际应用能力 ! 定量化 比较不 同学 校 # 不同 教师 # 不 同 教 学 模 式 的 教 学 质 量 和 效 果 ! 在检测标 准上与 国际 接 轨 ! 充 分 发 挥 考 试 对 改 进 教 学 的反馈功能以及考试对教学的 $ 指挥棒 % 作用 ! 为社会培养 高质量人才 ! 是我国高等教育必须解决的一个重要课题 " & !"#’ 是近十年发展起来的一种比较先进的 项目反应理论 心 理与教育测试理 论 ! 受 到 国 内 外 许 多 学 者 的 关 注 ! 对 于 促进我 国 高等 教育 考 试 评 价 方 式 的 改 革 和 发 展 具 有 很 大 的指导意义 " 因此 ! 本文对项目反应理论的实际应用 ! 特别 是如何 估 计试 题参 数 这 一 关 键 环 节 进 行 了 比 较 系 统 的 研 究 ! 这种类型的工作在国内文献上尚未见到 " 本文 所 涉及的 试 题 库 是 以 临 床 医 学 院 内 科 学 考 试 的 学生为对象 ! 由于内科学在临床医学教学中占有十分重要 的地 位 ! 其中 涉及 的 知 识 面 广 ! 对 学 生 的 综 合 素 质 能 力 要 求很高 ! 用传统考试评价方式往往不能达到理想的效果 ! 因 此在美 国等发 达 国 家 的 同 类 考 试 中 也 是 比 较 早 就 引 入 了项目反应理论 ! 并有各种理论探讨 " 作为本文得到的结 果 ! 则不仅适 用于 临 床 医 学 院 内 科 学 这 一 课 程 ! 而 且 对 临 床医学教学的其他课程 ! 甚至完全属于医学教育之外的学 科 ! 都有参考价值 "
!"’99%A" 有显著性 " 分析 该题曲 线位 置较高 " 题目偏 难 " 难
度为 E%’A9A9" 区别度只有 9’!A>! " 且猜测系数较大 " 许多学 生可通过猜测来回答该题的 # 图 A 所示的第 >A 题曲线也很好 " 卡方检验也无显著性 # 因此 "也是一道理想的试题 " 与第 " 题比较 " 区别度大 &题能较好地区别不同水平的学生 " 另外 该题的猜测系数较第 " 题略大 "这与该题的难度增加有关 #
相关文档
最新文档