计算机自适应测验中RASCH模型稳健性的模拟研究

合集下载

Rasch模型在省综合质检测试质量分析中的应用

Rasch模型在省综合质检测试质量分析中的应用

Rasch 模型在省综合质检测试质量分析中的应用朱乙艺姚瑞兰焦丽亚作者简介朱乙艺,中学一级教师,福建省普通教育教学研究室;姚瑞兰,中学高级教师,福建省普通教育教学研究室。

福建福州,350003。

焦丽亚,助理研究员,教育部考试中心。

北京,100084。

2019年第5期(总第76期)考试研究EX AMINATIONS RESEARCHNo.5,2019Genera l No.76学绩测验是考查学生学业成就水平的重要形式之一,可以说对教育研究的发展做出了重要贡献,因此,如何对学绩测验的质量进行全面而准确的分析具有重要的研究意义。

对于学绩测验,目前可供选择进行质量分析的测量理论包括经典测量理论和现代测量理论。

在经典测量理论指导下对测验进行质量分析时,无法克服测验依赖和样本依赖的问题,并且考生的能力估计和题目的难度估计彼此干扰,无法实现测量的客观等距目标。

现代测量理论克服了经典测量理论的不足,特别是Ras ch 模型,可以说真正实现了严格意义上的客观测量。

福建省高三毕业班综合质量检查(以下简称“省综合质检”)测试通过全面考查普通高等学校招生全国统一考试大纲规定的内容,在检测学生各学科基础知识与基本技能掌握情况的基础上,重在帮助学校、教师发现教学薄弱环节,补足学生学习的“短板”,引导学校调整复习备考策略,提高教学质量。

历年的省综合质检测试质量分析都是在经典测量理论框架下进行的,所做的分析包括:选项分析、题目的难度和区分度、测验的信度和效度、分维度的得分率、群体均值比较等。

不可否认,基于经典测量理论对省综合质检测试数据进行质量分析确实能够得到许多有价值的信息,如题目的信息和测验层面的信息,并且分析结果容易为大众所理解和接受。

但是采用经典测量理论分析省综合质检测试数据的局限也是显而易见的。

Ras ch 分析能够为命题质量量化分析提供新的、有价值的思考方式。

本研究以文科英语为例,运用Ras ch 模型对2016年省综合质检测试数据进行分析,以期服务于教学调整并为今后提高测试命题质量提供相关的测量学参考。

教育测验中学生能力水平与测验项目难度的Rasch模型分析——个体能力与题目难度之间的对应关系

教育测验中学生能力水平与测验项目难度的Rasch模型分析——个体能力与题目难度之间的对应关系

教育测验中学生能力水平与测验项目难度的Rasch模型分析——个体能力与题目难度之间的对应关系
张金勇;何妃霞
【期刊名称】《当代教育科学》
【年(卷),期】2012(000)012
【摘要】本文以2011年贵阳市第八中学第一次高三英语高考模拟考试为例.使用Rasch分析软件WINSTEPS对其进行分析,可以得出学生与学生、测验项目与项目以及学生与测验项目之间的关系。

研究结果表明,该试题的内容覆盖了所有能力水平的学生,且能够较好地区分学生的能力水平。

研究结果得出学生的能力水平略高于项目的难度水平,对样本群体的测验目标较明确;测验中间的项目难度水平接近:测验项目涵盖的内容不够:缺乏难度较大的项目。

【总页数】4页(P11-14)
【作者】张金勇;何妃霞
【作者单位】贵州师范学院教育科学学院;贵州师范大学教育科学学院
【正文语种】中文
【中图分类】G635.5
【相关文献】
1.在EXCEL中应用Rasch模型计算题目难度
2.常模参照测验中项目难度分析的算法设计
3.认知、适应测验/临床语言、听力里程量表项目的难度及其鉴别力:上海市1 907名婴幼儿应用分析
4.计算机自适应测验中沉思—冲动型认知风格、能力水
平、试题难度与试题作答时间的关系分析5.瑞文测验项目认知难度因素分析及LLTM拟合验证
因版权原因,仅展示原文概要,查看原文内容请购买。

rasch模型在中国教育领域的应用研究

rasch模型在中国教育领域的应用研究

学 术 论 坛DOI:10.16661/ki.1672-3791.2019.35.227Rasch模型在中国教育领域的应用研究梁晨 林世威(长春师范大学化学学院 吉林长春 130032)摘 要:我国教育领域的专家学者对Rasch模型的实践和理论研究逐渐深入,并取得了重大进展和众多科研成果。

目前为止Rasch模型经常应用于教育学研究(包含教育心理学)、心理学研究、人事测评研究等领域,尤其是在教育领域广为接受与推广,其对教育与测试科学的发展具有重要研究意义。

该文以在知网检索主题为“Rasch模型”的所有国内文献为分析对象,对其进行整理分类,并予以分析。

关键词:Rasch模型 教育 应用中图分类号:G434文献标识码:A文章编号:1672-3791(2019)12(b)-0227-03丹麦著名的数学家、教育家、统计学家Georg Rasch在20世纪60年代首次提出一种数学模型——Rasch模型。

该模型是基于项目反映理论的模型,常用于测试的研究目标的潜在特质。

它使用了Logistic模型,将项目及被试者的潜在特质水平放在同一量尺上,使测量摆脱了工具依赖与样本依赖,较大程度上克服了经典测量理论的局限,测量结果科学客观。

Rasch模型在教育领域的应用是利用被试者对于项目的反馈进行建模,从而算出项目的难度与被试对象的潜在特质水平。

1 文献分布趋势知网检索结果显示,从1987—2018年共有312篇文献,剔除掉无关文献17篇(如会议介绍等),最后得到295篇以Rasch模型为主题的国内文献的分析样本。

我们将样本中的文献按照Rasch被应用的领域进行分类。

大体分为5类,分别为教育领域(196篇)、心理领域(30篇)、医疗领域(15篇)、人事测评领域(13篇)、其他领域(41篇)。

我们把没有标明明确应用领域和Rasch模型在该领域应用数量极少的文献归为其他领域分类(如应用在主题篇数百分比内容学生能力7940.3%学科能力、学习进阶、自主学习能力、综合能力、自评能力、沟通能力、团队能力、职业能力等测试评分6730.1%测试质量、评分员效度、评分标准、计算机评分、评分原理、分析软件应用、分数差异、评估框架、等级评定等试卷分析3718.9%试卷质量分析、试卷设计、题库建设等教师能力11 5.6%教学能力、评价素养等课程规划21.0%个案诊断研究、现状分析等总篇数196表1 Rasch模型在教育领域研究范畴表表2 学生能力主题内容篇数百分比相关文献举例学科能力5683.6%该研究应用于 L市十年级学生大规模抽样测试,经过数据分析划分出5个层次的学生能力表现水平(王蔷,2017)学习进阶1725.4%该研究梳理了核心概念研究、学习进阶的发展及化学变化概念理解研究,构建了化学变化学习进阶的理论模型(孙影,2015)自主学习能力67.5%该研究在自主学习导向评估下,通过在教学法中将评价和学习相结合,达到促进学习的目的(莫慕贞,2013)综合能力67.5%该研究在科学课堂中开展模型建构项目学习的实证研究,旨在促进初中生年级学生科学思维的发展(米广春,2011)自评能力2 2.5%该研究采用Rasch测量理论中的评分量表模型探析一项自我评估量表的效度(范劲松,2017)沟通能力1 1.3%该研究拟运用项目反应理论中的多面Rasch模型分析OSCE中考生的临床交流能力成绩(郭伟英,2012)团队能力1 1.3%该文以一个大学社团的团体协作项目活动的参赛大学生为测评对象,揭示了团队协作能力的结构(黄明明,2015)职业能力11.3%该研究运用项目反应理论之多面Rasch模型,对COMET评分量表在我国学生职业能力测评中的适用性进行了分析(何兴国,2016)体育领域的仅1篇),我们不难发现Rasch模型目前广泛应用于教育和心理领域。

基于rasch模型分析测评工具质量的研究述评

基于rasch模型分析测评工具质量的研究述评
1 应用 Rasch 模型的研究领域
以“Rasch”为主题词,在中国知网和 ERIC 分别 搜索出相关文献 214 篇、1 498 篇。从数量上看,国 内关于 Rasch 模型的研究相对较少。从中国知网的 学科分类看,研究最为集中的 3 个领域分别是语言、 教育和心理学领域,占所有研究的 73%。其中关于 语言和教育领域的研究测评工具一般采用测试卷 形式,心理学领域则更倾向于采用量表或问卷。
2 应用 Rasch 模型的研究类型
目前应用 Rasch 模型展开的研究主要有以下 3 个类型:1)对单个测评工具质量的研究;2)对多个 测评工具的等值研究;3)计算机自适应测试的研究。
2.1 对单个测评工具质量的研究 测评工具的质量决定了测评结果的精确性和
准确性,因此,大量研究着眼于应用 Rasch 模型分析 单个测评工具的质量,如王桂桃等应用 Rasch 模型 研 究 9 年 级 化 学 试 题 的 信 度 、区 分 度 以 及 结 构 效 度[5]。项目功能差异(DIF)是单个测评工具效度研 究的一大热点,且以不同性别群体的 DIF 研究最为 常见,部分研究涉及不同专业背景(文科、理科)[6]、 学历[7]、地区[8]、年龄段群体[9]的 DIF 探讨。由文献研 究知,性别是可能导致存在 DIF 的一个极大群体区 分因素,其他群体区分因素的考虑则往往结合测评 本身的特点;但是,存在 DIF 的原因分析仍是研究的 难点之一,有学者表示课堂规模、社会经济状况、教 学实践或父母教育风格等背景因素均有可能造成 DIF[10]。 2.2 对多个测评工具的等值研究
关键词:项目反应理论;Rasch 模型;测评工具质量分析
【中图分类号】 G405 【文献标识码】 A DOI: 10.19360/ki.11-3303/g4.2020.02.010

基于Rasch模型的参数估计方法比较研究

基于Rasch模型的参数估计方法比较研究

基于Rasch模型的参数估计方法比较研究王佶旻;李潇【摘要】本研究的目的是基于Rasch模型,比较联合极大似然估计法、边际极大似然估计法和EM算法、边际贝叶斯估计法参数估计结果的准确程度.实验数据为2185名被试在HSK试卷170道试题中的作答矩阵,考虑到初值和收敛精度对参数估计结果的影响,将三种参数估计方法按照初值设置和收敛精度不同分别进行参数估计,然后通过计算项目参数估计标准误判断参数估计方法的准确度.【期刊名称】《中国考试》【年(卷),期】2017(000)009【总页数】11页(P11-21)【关键词】项目反应理论;参数估计;联合极大似然估计法;边际极大似然估计法和EM算法;边际贝叶斯估计法【作者】王佶旻;李潇【作者单位】北京语言大学,北京 100083;北京师范大学,北京 100875【正文语种】中文【中图分类】G4051952年,美国测量学家Frederic M.Lord在自己的博士论文中将能力与答对率之间的函数关系用双参数正态拱形曲线模型(Two-parameter Normal Ogive Model)描述出来,并基于这一模型建立了一套项目反应理论(Item Response Theory,简称为IRT),同时提出了相应的参数估计方法[1]。

至今,项目反应理论模型在不断发展演变,参数估计方法也是层出不穷。

目前应用最广泛的参数估计方法有联合极大似然估计法、边际极大似然估计法和EM算法以及边际贝叶斯估计法。

从算法的角度分析,Mislevy R.J和Stocking M.L认为贝叶斯估计法更为精确;Baker和Kim也认为由于边际贝叶斯估计法利用了更多参数的先验信息,因此估计结果会更加稳定和精确[2]。

目前运用实证数据对这三种参数估计方法进行比较的研究并不多,基本都采用现成的商业软件来估计模拟作答矩阵的各项参数,再进行方法的比较。

缺点显而易见,首先,蒙特卡洛模拟数据概率分布过于规则化,无法代表真实的作答反应;其次,进行参数估计的各种商业软件的功能以及默认的参数设置并不统一,这将给实验结果带来不可避免的系统误差。

S-P表和Rasch模型对学业测试分析的比较研究

S-P表和Rasch模型对学业测试分析的比较研究
的处理结果有何不同?是否存在同一性和差异性?以 及教师在实际教学分析过程中如何展开具体应用? 目前有关二者的比较研究并不多见,本研究尝试对
S-P表和Rasch模型应用于学生学业测试的结果进
行比较分析。
二、理论基础
项目反应理论(Item Response Theory,IRT)是心
理学中认知诊断常用的一种理论,即根据被测者针 对某个问题的答案来对被测者的认知状况进行估 计。“项目”就是测试题,“反应”就是被测者的答案, 是在克服经典测验理论存在的问题的基础上建立起 来的现代测验理论,其最大特点是通过项目特征曲 线和项目信息曲线帮助研究者利用项目参数和能力 参数对测试题目的质量做出评价,剔除不合适的题 目,同时也可估计出学生完成测试题目的能力,有效 解决了经典测验理论中无法建立学生得分与测试题
绩进行分析.IRT则针对经典测验理论的局限而提 出,解决其在项目统计量和测验信度上的问题,在自
适应测验、学生能力估计和信效度检验方面都呈现
出良好效果。依据IRT理论开发的Rasch模型和SP表均可广泛应用于学生学业测试分析,通过相关
参数分析得出测试试题与学生能力水平之间的联
系。S-P表和Rasch模型两种分析对学生学业成绩
学模型共有的问题真正的问题是其实践指导作用 没有得到很好的发挥。如何将先进的测量技术和结 果解读方法介绍给测验的直接施测者和使用者(如 心理测验使用者、一线教师、大型考试管理者等),以 促进实践工作应该是今后的重点研究方向问。
2. S-P表分析 S-P表(Student Problem Chart)可以认为是项目
基金项目2017年度甘肃省高等学校科研项目“大数据背景下应用Rasch分析模型优化网络学习行为的机制与策略研究” (项目编号:2017B-88)o

自适应学习系统中基于Rasch的主题难度估计

自适应学习系统中基于Rasch的主题难度估计
王丽萍;赵蔚;魏久鸿
【期刊名称】《现代教育技术》
【年(卷),期】2017(027)006
【摘要】在自适应学习系统中,为了更好地分配主题学习资源,教师需要确定主题的难易程度.文章通过对Rasch模型中主题难度初始值和学生知识水平的个性化设置,依据学生对主题中所有参数化测试题的反应,实现了对主题难度的量化估计.在实证分析过程中,文章将模型所确定的主题难度估计值和专家所给的主题概念数、尝试次数比率、尝试错误率及学习绩效进行对比分析,结果表明:主题难度估计模型能够为每个主题赋予一个相对的难度值,对主题的难度估计比较准确,能够为教师在设计主题干预措施时提供依据.
【总页数】7页(P115-121)
【作者】王丽萍;赵蔚;魏久鸿
【作者单位】东北师范大学教育学院,吉林长春 130117;吉林大学教育技术中心,吉林长春 130012;东北师范大学计算机科学与信息技术学院,吉林长春 130117;吉林大学公共计算机教学与研究中心,吉林长春 130012
【正文语种】中文
【中图分类】G40-057
【相关文献】
1.基于Rasch模型的参数估计方法比较研究 [J], 王佶旻;李潇
2.在EXCEL中应用Rasch模型计算题目难度 [J], 王生军
3.如何用经验Logistic回归方法估计Rasch模型中参数 [J], 丁树良;陈建平;熊建华
4.课程难度表征的是什么?——基于《科学》教材中物质科学领域主题课程难度的比较分析 [J], 谢昱圣;徐爽
5.基于Rasch模型的"月球"主题迷思概念诊断 [J], 蒋凤丹; 张琦
因版权原因,仅展示原文概要,查看原文内容请购买。

心理科学领域内的客观测量——Rasch模型之特点及发展趋势

心理科学领域内的客观测量——Rasch模型之特点及发展趋势晏子【期刊名称】《心理科学进展》【年(卷),期】2010()8【摘要】Rasch模型是在国外学术界受到广泛关注和深入研究的一个潜在特质模型。

该模型为解决心理科学领域内测量的客观性问题提供了一个可行性很高的解决方案。

而国内关于Rasch模型的理论探讨和应用研究却并不多见。

不同于一般项目反应理论,Rasch模型要求所收集的数据必须符合模型的先验要求,而不是使用不同的参数去适应数据的特点。

Rasch模型的主要特点(包括个体与题目共用标尺、线性数据、参数分离)确保了客观测量的实现。

未来关于Rasch模型的研究方向包括多维度Rasch模型、测验的等值与链接、计算机自适应性考试,大型应用测量系统(比如Lexile系统)等等。

【总页数】8页(P1298-1305)【关键词】Rasch模型;潜在特质模型;客观测量【作者】晏子【作者单位】特殊学习需要及融合教育中心,香港教育学院【正文语种】中文【中图分类】B841【相关文献】1.PLAB能测量中国学生的外语学能吗?——一项基于Rasch模型的研究 [J], 李兰荣;2.基于Rasch模型的化学核心概念理解测量研究 [J], 何鹏;郑长龙3.拉希模型(Rasch Model)的未来--2014环太平洋地区客观评估国际研讨会综述 [J], 夏百娜4.中文版EQ-5D-3L量表应用于慢性病人群测量特性的Rasch模型分析 [J], 姚金江;梁英;徐勇勇;虢玲霞;杨丽平;潘静;赵倩否;谭志军5.基于Rasch模型的化学核心概念理解测量研究 [J], 何鹏;郑长龙;因版权原因,仅展示原文概要,查看原文内容请购买。

Rasch模型在中国应用研究回顾

Rasch模型在中国应用研究回顾李久亮【摘要】自提出至今,Rasch模型已经历了半个多世纪的发展,在教育与心理测量学领域发挥着重要作用.通过对中国应用语言学界利用Rasch模型开展的相关研究进行回顾总结,发现该模型主要用于语言测试研究与应用,研究方向包括测验等值和测试信效度等.与国际同行相比,中国在Rasch模型的应用研究方面还存在一定差距.通过分析与总结该模型的应用研究现状,希望对中国应用语言学界有所启示,并为有兴趣利用Rasch模型开展研究的读者提供参考与借鉴.【期刊名称】《广东外语外贸大学学报》【年(卷),期】2016(027)002【总页数】6页(P73-78)【关键词】Rasch模型;应用语言学;语言测试;研究方法【作者】李久亮【作者单位】北京服装学院外语系,北京100029【正文语种】中文【中图分类】H08Rasch模型是项目反应理论的模型之一,是二参数、三参数模型的一个特例(刘建达、吕剑涛,2012)。

在中国,罗冠中于1992年在《教育研究与实验》发表了一篇文章,对Rasch模型做了较为全面的介绍。

此后,基于该模型的论著与研究报告逐渐开始在学界出现,并在多个研究领域内发挥着重要作用。

该模型对中国应用语言学界也产生了深远的影响,尤其在新千年之后,与之相关的学术论文发表数量上升较快,而且总体来看呈逐年递增的趋势。

鉴于该模型对学界的重要意义,有必要对中国应用语言学界的研究与应用进行回顾总结,以期对有兴趣采用Rasch模型开展相关研究的人员提供参考与借鉴。

起源于20世纪初的经典测试理论以真分数理论为基础建立数学模型,到目前已发展成为体系成熟的测试理论,在各行各业的应用取得了很大成功。

但在实际测评过程中,研究人员发现其在理论假设和实际应用方面存在很多缺点,例如项目统计量严重依赖被试样本等,其理论最大的缺点在于对测量误差分析太过笼统。

与经典真分数理论相比,项目反应理论(IRT)在模拟被试能力与测试题目之间的相互作用上有明显的优势,如样本独立性、多重信度评估等,因而能够在很大程度上弥补经典测试理论在测验信度和效度处理上的不足。

Rasch模型与K-means算法应用于试卷分析的对比研究

Rasch模型与K-means算法应用于试卷分析的对比研究戴俊秋;程玉胜【摘要】无纸化考试和智能题库的应用对试卷质量分析提出了更高要求。

本文介绍了基于IRT理论的Rasch模型和K-means聚类算法的理论原理,从算法思想和模拟实验的角度比较了Rasch模型和K-means算法应用于试卷质量分析领域的效果及特点。

【期刊名称】《安庆师范大学学报:自然科学版》【年(卷),期】2017(023)004【总页数】4页(P49-52)【关键词】IRT理论;Rasch模型;K-means算法;试卷质量分析【作者】戴俊秋;程玉胜【作者单位】[1]安庆师范大学计算机与信息学院,安徽安庆246133;[2]安庆师范大学继续教育学院,安徽安庆246133;;[1]安庆师范大学计算机与信息学院,安徽安庆246133【正文语种】中文【中图分类】TP399现代考试体系发展到无纸化、网络化考试的阶段,智能题库建设和自动组卷技术逐渐普及应用。

这对试卷质量分析工作提出了更高的要求,其理论不再局限于传统的分析方法,如经典测量理论(CTT),而是在此基础上形成了以项目反应理论(IRT)为主的分析方法[1],其中Rasch模型是一种基于IRT理论的参数型潜在特质模型,因其测量客观,形式简单,正越来越多地应用于无纸化试卷分析中。

试卷质量分析主要归纳为两大类:根据心理测量理论发展的统计模型方法和根据数据挖掘理论发展的聚类分析或关联分析等。

前者以基于IRT理论的Rasch模型为代表,后者以K-means聚类算法为代表。

本文将就Rasch模型与K-means算法在试卷质量分析领域的应用情况进行对比研究。

1 理论方法1.1 CTT测量理论和IRT测量理论CTT测量理论用一个线性函数来描述考试得分,这个线性函数由真分数和误差分数组成,并归纳为一个数学模型:其中,X是考试得分,T是真分数,e是误差分数。

心理测量理论体系中的试题信度、效度、难度、区分度等一系列测试指标和概念都是在这一模型的基础上建立起来的。

  1. 1、下载文档前请自行甄别文档内容的完整性,平台不提供额外的编辑、内容补充、找答案等附加服务。
  2. 2、"仅部分预览"的文档,不可在线预览部分如存在完整性等问题,可反馈申请退款(可完整预览的文档不适用该条件!)。
  3. 3、如文档侵犯您的权益,请联系客服反馈,我们会尽快为您处理(人工客服工作时间:9:00-18:30)。

计算机自适应测验中RASCH模型稳健性的模拟研究邓远平1,罗照盛2(江西师范大学教育学院,南昌,330027)摘 要:计算机自适应测验(Computerized Adaptive Test,以下简称CAT)是建立在项目反应理论(Item Response Theory)的基础上,按照一定的策略进行选题并根据被试的作答情况不断地调整测题,以准确地估计被试的能力水平。

本研究采用模拟数据的方法,在CAT 中分别采用Rasch及Birnbaum两种模型估计能力,通过比较两者的误差均方根(Root Mean Square Error,简称RMSE)、平均差异(Average Deviation,简称AD)及能力相关,对Rasch 模型在CAT中的稳健性进行了研究。

结果发现RASCH模型在区分度不等的条件下中仍然能较准确地估计被试的能力水平,具有很强的稳健性。

关键词:CAT,Rasch模型,Birnbaum模型,稳健性1引言在项目反应理论(Item Response Theory)的基础上,出现了一种新型的考试方式______计算机化自适应测验(Computer Adaptive Test,以下简称CAT),它被誉为“测验领域的新天地”。

传统的纸笔测验不分被试水平高低,都作答同样一批题目,导致低难度对高水平被试和高难度对低水平被试而言都是形同虚设,测验效率低下,CAT扬弃了这一缺点,它的施测方式是从题库中选择与被试水平相匹配的题目进行施测,直到测验的终止规则达到为止。

它具备的优点有:结果更加准确、测试时间更短、测验安排的时间更方便、测验的安全性更高,题目曝光率更好控制、测验结果的呈现更即时[1] 。

CAT具备下列一些特征:(1)有一个由一定量精选而来的测题所组成的题库作为支持;(2)按照一定的策略进行选题并根据被试的作答情况不断地调整测题;(3)按一定的规则终止测验,评分在施测的过程中进行[2]。

CAT近几十年来测验研究中引人注目并取得了重大发展,特别是美国教育服务社(ETS)提出对托福留学外语考试(TOEFIE)、研究生资格考试(GRE)、护士资格证书等进行计算机化考试以来,CAT更是引起了人们的广泛注意,测试技术正面临重大革新的局面,意义将深远重大。

2CAT的概述2.1测量模型在教育和心理测量中一个主要问题就是如何将被试在所有题目上的反映如何转化为有意义的量化测量,项目反应理论模型是心理测量潜在特质理论的具体化,是人的测验行为与潜在特质之间关系的真实描述和模拟。

模型计分的方式有两种,一种是多级计分,另一种1、0计分(正确记为1,错误记为0),本研究仅介绍1、0计分的逻辑谛斯克模型。

2.1.1 Rasch模型 丹麦学者拉希(Rasch)是最早独立研究项目反应并获得巨大成功的学者,Rasch模型通常也叫单参逻辑什谛克模型,指的是被试的能力与项目难度两者关系的数学模型,它只有一个项目难度参数而没有区分度参数。

拉希认为,用一批项目去测试被试,就是要在一个线性系统上去确定被试的特质水平,除了项目难度之外,应该维持所有项目的相同性质。

拉希公式如下:1邓远平(1979、12一),男,江西兴国人,硕士,研究方向为心理统计与测量 Email:dyp304@。

2罗照盛(1971、9一),男,江西南昌人,副教授,硕士生导师。

()()1/1)i b i p e θθ−−⎡⎤=+⎣⎦ (1)其中:表示答对某题的概率,b 表示题目难度,p θ表示能力值。

2.1.2 伯恩鲍姆(A.Birnbaum )于1957年到1958年提出了一个Birnbaum 逻辑斯谛克模型,用一个函数将被试在这道题目上的能否正确作答与否与该题的难度、区分度及能力联系起来。

此模型公式为:()()1/1)i i a b i p e θθ−−⎡⎤=+⎣⎦ (2)与公式(1)相比,多了一个题目区分度。

a 2.1.3 为了适应测量中低能力被试在多重选择试题上对正确作答进行猜测而出现的非0,伯恩鲍姆建议增加一个猜测概率参数,称其为三参逻辑谛斯克模型。

表达式如下:c ()()(1)/1)i i a b i i i p c c e θθ−−⎡⎤=+−+⎣⎦ (3)2.2特质水平值的估计特质水平值的估计方法常用的有两种方法极大似然估计(MLE)和贝叶斯估计(Bayesian) ,当被试的作答异常时,极大似然估计会产生极端的偏离值 (Bock & Mislevy,1982), Weiss(1982)指出在一个自适应测验中,采用贝叶斯方法的估计值趋向回归于先验平均值,尤其是在短测验中。

期望后验估计(EAP)是贝叶斯估计中的一种方法,因本研究模拟的被试的能力值是呈正态分布,故先验分布能准确指定,使得估计值更加准确。

故采用EAP 方法来估计能力值。

公式如下:$()()()q h h=11/qi h i h h h Z L Z W L Z W Z θ==∑∑(4)h Z 为能力节点值,(i h )L Z 是节点h Z 对应i 个题目的作答的似然函数,对应那个节点的权重,它代表了密度曲线在相应节点处的高度()h W Z [3]。

2.3 项目选择选题策略是CAT 一个非常重要的环节,它直接影响到侧验的效率问题。

其中比较常用的选题策略主要有两种:一种是信息函数最大化策略,另一种提加权偏离模型(Weighted Deviation Model ,WDM )。

本研究中使用信息函数最大化策略。

()2i I ()/i i p p θ′=i q (5)其中:(i I θ)是指能力为θ的被试在第题的信息量,i i p ′是指第i 题项目反应函数对θ的一阶导数,i p 是指第题的项目反应函数, i 1i i q p =−。

[4]项目信息函数是一个比值,是项目反应函数一阶导数的平方数,跟项目反应函数对1的余数的积的比。

每个项目所提供的信息量是它所测被试特质水平的函数。

针对某特定的点挑选信息函数最大的项目,直到信息量达到指定的要求。

近几年有学者从测验的安全性及测验的效率角度出发,提出了项目难度分区,区分度分层的多阶段计算机自适应性测验选题策略,为计算机自适应测验的选题策略提供了一种更加有效的方法。

2.4 开始和终止规则CAT施测过程,一般分为两个阶段:一是试验性探查阶段,测验刚开始时,一般并无被试真实水平信息,故设置一批探查性项目,初步估计其水平。

本研究中,设置五个项目,难度分别为-2,-1,0,1,2;二是精确估计真值阶段,适应被试的水平从题库中挑选出能提供最大信息量的项目。

CAT终止规则是CAT过程中一个重要的环节,若测验太短了,特质估计的准确性可能不够,若测验太长了,将浪费时间和资源,导致不必要的题目暴光,并且被试也感到疲倦。

常用的终止规则有三种:一是确定题数,二是确定测量标准误,三是前两者的结合:若题数已达到,但标准误不及,则仍要继续施测,直至达到指定的测量标准误为止。

3研究目的项目反应模型建立在强假设基础之上,若假设不成立,选用模型不当,结果可能不能很好地解释客观实际。

如有项目区分度不等时,用RASCH模型则不恰当。

但在以前的研究中,即使项目等区分度的假设违背时,该模型仍然具有稳健性(van de vijver,1986;dinero & Haertal,1977),如 van de(1986)曾下结论:即使在小样本和小测验中,区分度不等也对RASCH 模型估计的结果有很难的影响。

但在CAT中,Rasch模型的稳健性却没有系统性的研究过,本研究采取模拟数据的方法,对Rasch模型在CAT中的稳健性作了初步探索。

4 研究方法:4.1 模拟数据本研究中,先产生50道题的难度参数(分布在-3与+3之间)和区分度参数(分布在0.5与1.5之间),模拟500个被试呈正态分布的能力参数(分布在-3与+3之间),用Birnbaum 模型(公式2)生成1、0计分的作答数据。

在本研究中,将能力分成六个小组,分组区间及人数见下表:组别能力区间人数1 -3___-2 112 -2—-1 623 -1—0 1604 0—1 1835 1—2 766 2—3 8限于篇辐,项目参数表及能力参数及模拟作答数据均不列出。

4.2 CAT设计在CAT设计中,分别采用的是RASCH模型及Birnbaum模型,使用Rasch模型时,将原有的项目参数的区分度均定为1;测验终止规则采用定长:分别为10、15、20题三种;选题策略采用最大信息量法。

4.3 两个评价指标能力估计的准确性的评价指标通常用误差均方根(Root Mean Square Error,简称为RMSE)和平均差异(Average Difference, 简称为AD)。

RMSE可以用来测量能力真值与CAT 产生的能力估计值的一致性。

AD统计指标给出了两者之间的平均差异。

RMSE与AD的公式定义如下。

$()1/2n2k kn kθθ⎡⎤⎢⎥⎢⎥⎢⎥⎢⎥⎦⎣∑-RMSE=(6) $nk k nk θθ⎛⎞⎜⎟⎝⎠∑-AD= (7) $θ是被试的能力估计值,k θ是已知的用来模拟产生作答的能力值。

n 是被试总数,设计这二个试题指标的意义是:RMSE 是一个常用的表示参数估计程序对真值的修复能力的指标,其好处是在一定条件下,可以讨论RMSE 的分布或渐近分布;AD 则可用其大小和符号来考察参数估计程序是否有系统的高估或低估的现象发生[5]。

5 结果5.1 RMSE 及AD 结果表一 两种模型的RMSE 及AD 结果比较误差均方根(RMSE ) 平均差异(AD ) 组别 模型 10题 15题 20题 10题 15题 20题Rasch 0.67 0.39 0.37 0.52 0.28 0.26 1 Birnbaum 0.69 0.46 0.44 0.57 0.36 0.34 Rasch 0.48 0.41 0.38 0.15 0.04 0.01 2 Birnbaum 0.43 0.40 0.36 0.18 0.08 0.06 Rasch 0.37 0.30 0.30 0.04 -0.01 -0.05 3 Birnbaum 0.35 0.30 0.28 0.08 0.02 0.01 Rasch 0.40 0.33 0.32 -0.13 -0.10 -0.12 4 Birnbaum 0.36 0.29 0.29 0.08 -0.05 -0.05 Rasch 0.51 0.39 0.36 -0.31 -0.19 -0.16 5 Birnbaum 0.42 0.35 0.31 -0.21 -0.11 -0.10 Rasch 0.46 0.45 0.37 -0.40 -0.39 -0.31 6 Birnbaum0.43 0.28 0.27-0.30 -0.20 -0.14从表一中可以看出:在六个能力组中,两种模型的RMSE 值都随CAT 中测试题目数量的增长而下降;中间能力组(即三、四组)的RMSE 值稍小,能力区间的两端组稍大,其原因是因为大多数题目的难度恰好处于这段能力区间中,故在CAT 选题中能够选择合适的题目给中等能力被试施测,进而测验信息量更大,估计值相对能力两端而言更接近于真值。

相关文档
最新文档