认知诊断测验编制的原则

合集下载

可达矩阵在认知诊断测验编制中的重要作用

可达矩阵在认知诊断测验编制中的重要作用

性都是 其 自身的 先决属 性 . 考 生 的知识结 构 、 知加 工技 能等是 不能 直接观 察 的潜 变量 . 认 认知 诊 断评 估要 设 计一 个 测验 , 以诱 发 出 考生 内在认知 特点 的外 在表现 , 而实 现对 内在认 知 特 征 的判 断 . 的认 知 诊 断 测验 不 仅 要将 考 生 潜在 的 从 好 不可 直接观 察 的特征转 换成 可观 察的 反应 , 且 要 区别 不 同知识 结 构 和不 同 加 工技 能 的 考 生 . 设 确 定 了 而 假 认知诊 断 的领域 ( 如学科 、 节 、 元等 ) 由于不 同领 域 的 属性 之 间 可 能存 在 不 同 的层 级 关 系 , 题 专 家 只 章 单 , 命 能命拟 符合 这些层 级 的考题 ( 目)本 文称符 合属 性层 级关 系 的项 目为有 效项 目… ; 项 , 此外 , 测验 中各 种 项 目 的组合 要有 利于 区分 不 同认 知特 征 的考生 , 一 目标 与 传 统 的能 力 测 验有 很 大 的 不 同 , 专 家 可 以从 不 同 这 如 角度命 拟 一批多 位数乘 法项 目, 这不 一定适 合诊 断性 测验 , 但 因为从 这 批考 题 的反 应结 果 中 , 以区别 出不 难
测 验可 以用属 性与项 目的关 联 阵表示 , 这个 关 联阵记 为 , 是 Q5 的一个 子矩 阵 . 中每 一列 代表 一类考 Q5
生( 至少 掌握 了 1 个属 性 ) 的知识 状态 (nweg teK )而 Q 中每 一列代 表一 类项 目(e . ko l es t, S ; d a l im)由扩 张算法 t
级 已经给定 , 从而属性之间的邻接阵、 可达阵 足均可以计算出来. 可达阵 的列表示属性之 间的直接或间接

心理测量-第八章-测验的编制与实施

心理测量-第八章-测验的编制与实施
一、测验编制的一般程序
测验的界定 制定编题计划 编制题目 项目的试测和分析 合成测验 测验的标准化 测验的修正与鉴定 编写测验手册
第一页,共33页。
第一步:测验的界定
测量对象:什么人,儿童/成人, 测量目标:什么内容,心理变量/行为
如:成就、智力、人格
测量用途:诊断/预测 常模参照测验 /标准参照测验
第二页,共33页。
第一步:测验的界定(续)
建构测验的理论依据:
基于逻辑或内容:考虑行为的领域范围并进 行相应的度量(如教育测验)
基于理论:根据一种理论编写出能够反映理 论构想的题目(如Myers-Briggs Type Indicator 或MBTI基于容格的类型论)
基于外部效标:选择那些能够将个体或群体 做出区分的题目(如MMPI,CPI,罗夏墨迹 测验等) 。。基于经验

第三十三页,共33页。
使用技术上的行话 反应之间相互重叠
使用“以上所有”
第八页,共33页。
例2:主观题——人格
是非题
我喜欢去干有冒险性的工作
利克特评定量表:5点或7点评定
朋友们通常把我看成是一个潇洒的人
1
2
使用特殊符号
很不象我
用于态度调查
你对XXX电视节目有什么看法?
34 5
非常象我
第九页,共33页。
整。在测验建构中起着重要作用。
题目分析可以从质和量两个方面进行。
质:内容与形式 量:统计学特性
题目是否对不同类型的人群有不同的难度与区分度
第十四页,共33页。
第五步:合成测验
项目的选择
根据项目分析结果筛选项目,选出的题与双向细目表对照,有效区分且 难度合适,考虑题目数及所需时间

认知诊断测验编制的原则

认知诊断测验编制的原则

认知诊断测验编制的原则standalone; self-contained; independent; self-governed;autocephalous; indie; absolute; unattached; substantive认知诊断测验编制的原则摘要:Tatsuoka 给出的实例表明,不同知识状态可能对应同一理想反应模式,即对知识状态产生误判。

如果不是对测验进行事后分析,找出属性及层级,而是采用Leighton 等人所倡导的方法,在认知诊断测验编制之前确定所测属性及其层次,导出可达阵,这时可以证明只要将可达阵作为认知诊断测验蓝图的一部分,则可避免这一问题。

这一原则不仅对认知诊断测验蓝图的设计有指导作用,而且对制定有认知诊断功能的计算机化自适应测验的选题策略有着重要的参考作用。

关键词:测验蓝图;认知诊断;可达矩阵;理想反应模式;计算机化自适应测验1. 引言通常把对个体知识结构、加工技能或认知过程(均简称为属性,attribute)的诊断评估称为认知诊断评估或认知诊断(cognitive diagnosis assessment /cognitive diagnosis, CDA,Leighton and Gierl,2007.) [1]。

一般的教育考试, 特别是大规模的考试,只提供考试分数或能力分数。

然而由单一的分数,既不能得到被试具体掌握或未掌握什么知识的结论,也不能得到被试做错试题的原因,以进行补救;对于相同分数的个体,更无法得到他们之间可能存在的知识状态和认知结构的差异。

传统的考试提供的信息已不太适合个体发展的需要,认知诊断评估的主要任务是挖掘更多的认知加工信息。

Leighton和 Gierl(2007)[1]认为认知诊断是用于测量/评价个体特定的知识结构(knowledge structure)和加工技能(processing skills)。

CDA 通过测验获得被试在测验上(可观察)的反应而推知该被试不可观察的知识状态(knowledge state)。

认知诊断技术在学科学业评价中的应_省略_初中一年级_有理数及其运算_为例_宁革

认知诊断技术在学科学业评价中的应_省略_初中一年级_有理数及其运算_为例_宁革
作者简介 宁革, 中学高级教师, 广东 省 深圳 市 滨河 中 学 副校 长, 深圳 市 首批 教 育 科研 专 家 工 作室 主 持 中学高级教师, 广东省深圳市滨河中学数 学 教师。吴伙兵, 硕 士, 中 学 高 级教师, 广东 省 深圳 市 滨 人; 龚天平, 518001 。 河中学数学教师。广东深圳, “十二五” 本文系广东省教育科学 规划 2011 年度教育信息技术研究项目( 编号: 11JXZ009 ) 成果之一。
考依据。为此, 本 研究 借 助教 育 统 计 与 测量 — —认 知 诊 断 ( cognitive 中 的 前 沿 技 术— diagnosis,CD ) 技 术, 尝试在初中一年级对 “有理数及其运算 ” 这一 内容 进行认知诊断。
[1 ] 认知诊断技术是在项 目 反 应 理论 ( IRT ) 基
— —以初中一年级 “有理数及其运算” 认知诊断技术在学科学业评价中的应用— 为例 表2
题号 T1 T2 T3 T4 T5 T6 T7 T8 T9 T10 T11 T12 A1 1 0 0 0 0 0 0 0 0 0 0 0 A2 0 1 1 1 0 0 0 0 0 0 0 0 A3 0 0 0 0 1 0 0 0 0 0 0 0 A4 0 0 0 0 0 1 1 1 1 0 0 0 A5 0 0 0 0 0 0 0 0 0 1 1 0 A6 0 0 0 0 0 0 0 0 0 0 0 1 A7 0 0 0 0 0 0 0 0 0 0 0 0
个认知属性; 若 q ij = 0 , 说明第 i 题未测量第 j 个认知属性。Q 矩阵被认为是认知诊断测验 编制的蓝图。 试题编制过 程 如 下: 首 先, 收 集 一 批“有 这一 内容 的测试 题, 题型 全 理数及其运算 ” 部为单项选 择 题。 然 后, 将每道试题所运用 到的属性直 接 标 示 在 该 题题 首, 这是 属 性 与 试题关联匹 配 的 过 程。 最 后, 由具 有 丰富 教 学经验的教师在这一批测试题中挑选出较 有 典型性、 代表性, 且难度相对适中的试题组 成 认知诊断测验。我们针对第一属性群共挑 选 了 23 道测试题( 见附录 ) , 从 而 得 到“有理数 及其运算” 第 一 属 性 群 的诊断测验 Q 矩阵, 详见表 2 。 表 2 中, 第 1 题 只 测量认知 属 性 A1 , 第 8 题只测量了认知属性 A4 , 第 21 题测 量了 A4 和 A5 两个认知 属 性, 其余试题依此 类推。

数学诊断性测验的研究综述

数学诊断性测验的研究综述

数学诊断性测验的研究综述作者:刘经兰黄玉华来源:《大学教育》2013年第19期[摘要]随着新一轮基础教育课程改革的发展,对考试的诊断研究已引起当前学者的广泛关注。

众多学者的研究都为诊断性测验的编制发展打下了理论基础与实践经验,也从不同层面为诊断性测验的编制提供了借鉴。

但这些研究提出的理论比较局限,不够精准,实践性欠佳,因此未能被广泛推广应用。

数学诊断性测验的研究并不多,国内的相关研究多集中在台湾;国外数学诊断性测验的年级跨度从幼儿园到初中,国内的研究大多集中在小学;总体来看,我国诊断性测验的编制研究还比较薄弱、零散,对于数学诊断性测验的研究还有待进一步充实和完善。

[关键词]诊断性测验理论研究现状[中图分类号] G642.0 [文献标识码] A [文章编号] 2095-3437(2013)19-0054-02一、诊断性测验概念的提出早在18世纪中期Bloom就指出,传统教育过于注重筛选的功能,应转向参照性测验以深入研究,测验应当更加注重学生的发展,并展示更多的相关信息。

近年来,在新一轮的基础教育课程改革启动并逐步完善的过程中,传统测验的局限性在新课程改革中尤为凸显。

单一的分数不能反映学生在解答题目时究竟使用了哪些认知成分或技能,因此很难诊断出学生答错题目的原因,也不能挖掘出考试信息的深度。

2007年,我国教育部考试中心戴家干主任提出,利用考试开展评价与诊断工作,是实现教育科学发展的重要途径,从考试到评价是时代赋予的任务。

由此可知,以考试为基础对学生进行相应的认知诊断是相当有必要的。

诊断性测验是鉴定学生在某一学科学习方面的优缺点或遇到困难而编制的一种测验方式。

时间一般在新的教学计划开始之前,如期末或期初,主要是了解与分析学生对基础知识和基本技能的掌握程度,以此鉴定学生的教学接受能力并为补救教学提供借鉴。

二、诊断性测验编制的理论(一)认知设计系统(CDS)认知设计系统(Albertson,1998)的提出,主要是由于传统项目开发存在削弱测验的结构效度方面的问题,认知设计系统更加强调以认知理论来指导编制测验项目,以此强化测验成绩的解释力度。

4~5年级阅读障碍儿童汉语词汇的认知诊断测验

4~5年级阅读障碍儿童汉语词汇的认知诊断测验

4~5年级阅读障碍儿童汉语词汇的认知诊断测验范晓玲;王思缘;耿博;伍慧;王梦翔【摘要】以IRT和认知诊断理论为指导,编制阅读障碍儿童汉语词汇认知诊断测验,并探索其认知属性模型及特征.通过对1074名4~5年级学生的测试与分析,测验的项目参数适当、信度和效度优良,97.3%的阅读障碍学生能被合理归类.阅读障碍儿童对感情色彩理解、整词理解和词素理解的掌握较差,对错词辨别的掌握一般,对视觉词汇、整体词音和词素词音的掌握较好.【期刊名称】《教育测量与评价(理论版)》【年(卷),期】2018(000)003【总页数】6页(P14-19)【关键词】汉语词汇;阅读障碍儿童;认知诊断测验【作者】范晓玲;王思缘;耿博;伍慧;王梦翔【作者单位】湖南师范大学教育科学学院长沙410081;湖南师范大学教育科学学院;湖南师范大学教育科学学院;湖南师范大学教育科学学院;湖南师范大学教育科学学院【正文语种】中文【中图分类】G448一、引言阅读是人类特有的高级心理机能,其基本材料是词,而阅读理解最基本的水平就是对词汇的理解和识别。

[1]词语作为汉语中能独立使用的最小单位,对阅读起着重大的作用。

[2]阅读障碍的主要特征表现为在单词识别上缺乏准确性与流畅性,并伴有拼写和解码困难。

[3]国外对阅读障碍儿童的研究不再停留于测评和诊断阶段,干预性和治疗性的研究逐渐增多。

国内针对阅读障碍儿童的研究起步相对较晚,不仅干预前的阅读障碍的调查性和诊断性测验缺乏[4],而且以词汇为材料的认知诊断测验更少,使得进一步的干预和治疗难以展开。

本研究以高夫(P.B.Gough)自下而上阅读认知理论和认知诊断理论为基础[5],采用Embretson的认知设计系统(connitivedesignsystem,CDS)[6]和规则空间模型[7](RSM),以汉语词汇为材料,编制4~5年级阅读障碍儿童汉语词汇的认知诊断测验,并总结和归纳被试的不同属性掌握模式及错误规则[8],旨在为词语阅读障碍儿童的筛查和诊断提供可靠而有效的评估工具,为其辅导、干预和治疗提供实证依据。

教育认知诊断测验与认知模型一致性的评估_丁树良[1]

教育认知诊断测验与认知模型一致性的评估_丁树良[1]
心理学报 2012, Vol. 44, No.11, 15351546 Acta Psychologica Sinica
DOI: 10.3724/SP.J.1041.2012.01535
教育认知诊断测验与认知模型一致性的评估*
丁树良 1
3
毛萌萌 2
汪文义 1

芬1
CUI Ying3
(1 江西师范大学计算机信息工程学院 , 南昌 330022)
1tt10100的erp对应0t以及t00第二个问题除掉对照层级关系图写出可达矩阵直接对可达矩阵进行比对之外还可以使用缩减算法解决对lostq使用缩减算法得到0010010000??001100100000011??????????????m这表明qt的缺陷是缺少了当然由于qt本身的构造m中的前面4列才是qt本身缺少的m中的第5列是由r1和qt中的相同列第1列和r1中的第5列作布尔并得到的
补偿模型包括连接模型(conjunctive models)和非连接 模型(disjunctive models)。连接的含义是掌握项目所 有属性 , 可以较高的概率正确作答 , 而未掌握 ( 即使 只有一个属性没有掌握)也将大大降低答对概率。本 文仅讨论连接的非补偿模型。 认知模型因为和具体的认知行为有关 , 故更加 多姿多彩。本文仅讨论教育测量中的认知模型。给 定一个感兴趣的论域 (domain), 教育测量中的认知 模型是对问题解决的抽象, 选择合适的粒度 (granularity) 刻划任务 , 即用合适的粒度 ( 粒度的直 观解释是考察点的细分或细化程度 ) 对问题解决的 简化描述 , 以方便解释和预报被试表现 , 包括他们 在这个论域中认知上的长处和不足 (Gierl, Leighton, & Hunka, 2007)。比如诊断小学生分数运算掌握情况, 就不能使用 “分数运算 ” 这么大的粒度对问题进行描 述 , 而要将这个属性进行分解 , 用更小的粒度 ( 比如 相同分母的加减运算、求两个整数的最小公倍数、最 大公因子、通分、异分母加减运算、约分, 等等)进行 描述(许志勇, 丁树良, 汪文义, 涂冬波, 2010)。 认知模型提供了对测验反应进行解释的框架 ,

认知诊断学习文档

认知诊断学习文档

一、名词解释认知诊断:认知诊断是基于认知加工过程的诊断,是对个体认知加工过程中所涉及的认知属性的诊断。

从广义上说,认知诊断是建立观察分数和被试的内部认知特征之间的关系;从狭义上说,是指在测试中,按被试有没有掌握测试所测的技能或特质来对被试加以分类。

而所谓测试的认知诊断,不但了解学习者的能力知识结构,还能解释其通过知识掌握了哪些实际技能,在学习过程中采取了何种学习策略。

认知属性:认知属性一词用来描述被试正确完成任务所需的知识、技能、策略等,它是对被试问题解决心理内部加工过程的一种描述。

属性层级关系:认知属性不是独立操作,而是从属于一个相互关联的网络,认知属性间可能存在一定的心理顺序、逻辑顺序或者层级关系。

属性层级关系又四种基本类型:线性、收敛、分支、无结构。

这四种基本类型可组合为更复杂的网络层级关系。

Q 矩阵理论:Q 矩阵理论主要是确定测验项目所测的不可观察的认知属性,并把它转化为可观察的项目反应模式,将被试不可直接观察的认知状态在项目上可观察的作答反应相连接,从而为进一步了解并推测被试的认知状态提供基础。

即: 确定属性层级关系→连接矩阵→可达矩阵→事件矩阵→缩减实践矩阵→典型属性矩阵→典型项目反应模式这一过程统称为Q 矩阵理论。

Q 矩阵:Q 矩阵指描述测验项目于属性间关系的矩阵,它一般由J (J 指测验项目数)行K (K 指测验测量的属性个数)列的0—1矩阵组成,若1=jk Q 代表项目j 测量了属性k ,若0=jk Q 代表项目j 未测量属性k 。

A 矩阵(邻接矩阵)R 矩阵(可达矩阵)直接先决属性A1→A2→A3:A1为A2的直接先决属性间接先决属性A1→A2→A3:A1为A3的间接先觉属性理想掌握模式即所有可能存在的知识状态//利用扩张算法获取理想掌握模式p9理想反应模式指被试在不存在任何失误和猜测等误差条件下对项目的作答反应情况.即若被试掌握了项目考核的所有属性则被试答对该题,若被试至少有一个项目考核属性未掌握,则被试答错该项目。

  1. 1、下载文档前请自行甄别文档内容的完整性,平台不提供额外的编辑、内容补充、找答案等附加服务。
  2. 2、"仅部分预览"的文档,不可在线预览部分如存在完整性等问题,可反馈申请退款(可完整预览的文档不适用该条件!)。
  3. 3、如文档侵犯您的权益,请联系客服反馈,我们会尽快为您处理(人工客服工作时间:9:00-18:30)。

认知诊断测验编制的原则摘要:Tatsuoka 给出的实例表明,不同知识状态可能对应同一理想反应模式,即对知识状态产生误判。

如果不是对测验进行事后分析,找出属性及层级,而是采用Leighton 等人所倡导的方法,在认知诊断测验编制之前确定所测属性及其层次,导出可达阵,这时可以证明只要将可达阵作为认知诊断测验蓝图的一部分,则可避免这一问题。

这一原则不仅对认知诊断测验蓝图的设计有指导作用,而且对制定有认知诊断功能的计算机化自适应测验的选题策略有着重要的参考作用。

关键词:测验蓝图;认知诊断;可达矩阵;理想反应模式;计算机化自适应测验1. 引言通常把对个体知识结构、加工技能或认知过程(均简称为属性,attribute)的诊断评估称为认知诊断评估或认知诊断(cognitive diagnosis assessment /cognitive diagnosis, CDA,Leighton and Gierl,2007.) [1]。

一般的教育考试, 特别是大规模的考试,只提供考试分数或能力分数。

然而由单一的分数,既不能得到被试具体掌握或未掌握什么知识的结论,也不能得到被试做错试题的原因,以进行补救;对于相同分数的个体,更无法得到他们之间可能存在的知识状态和认知结构的差异。

传统的考试提供的信息已不太适合个体发展的需要,认知诊断评估的主要任务是挖掘更多的认知加工信息。

Leighton 和 Gierl(2007)[1]认为认知诊断是用于测量/评价个体特定的知识结构(knowledge structure)和加工技能(processing skills)。

CDA 通过测验获得被试在测验上(可观察)的反应而推知该被试不可观察的知识状态(knowledge state)。

Leighton 和Gierl(2007) [1]在他们所编写的书第一篇文章称CDA 仍处于萌芽状态(CDA is still in its infancy),表明对CDA 的研究,包括认知诊断测验的构造都是新的课题。

Gierl(2007) [1]在注释中又指出,认知诊断测验设计是一个重要的研究领域,而已有的相关研究成果却很少,连Downing 和 Haladyma 编辑的由Erlbaum 在2006 年出版的测验编制手册(Handbook of test development)中也没有相应的章节涉及认知诊断测验编制,甚至找不到认知诊断评价的主题词条(subject entry)。

Gierl(2007)[2]还认为只有Gorin(2007)[1]描述了认知诊断测验编制的原理。

认知诊断测验的编制是一件具有挑战性的任务,限于篇幅和本文主旨,这里不讨论如何与命题专家沟通,打磨出好的试题的问题,而集中讨论认知诊断测验蓝图的编制问题。

在讨论认知诊断测验蓝图的编制问题之前,我们先看两个例子,一个是简化的用以解释原理性的例子;另一个是规则空间模型(rule space model,RSM)的开创者Tatsuoka(1995)给出的例子[2][3] [4][5],用以说明实际工作中考虑不周就很有可能编制出有问题的诊断测验。

下文中理想反应是指既不猜测也不失误的作答反应,只有被试掌握了项目所测的所有属性,才能正确作答。

属性层级方法(attribute hierarchy method,AHM)[6][7][8]中称理想反应为期望反应模式;确定性输入,噪声“与”门模型(deterministic inputs,noisy ”and” gate model,DINA,如可参见Henson&Douglas,2005[9])中的理想反应模式具体计算公式见附录1(其实,差不多所有理想反应模式都可以这样计算,当然也可以用丁树良等[10]介绍的方法计算)。

由附录1 中具体计算公式可见理想反应模式十分重要,其实理想反应模式对诸如RSM,AHM等许多认知诊断模型都十分重要。

对于诊断测验,在既不猜测也不失误的理想作答反应情况下,具有不同知识状态的被试对应不同的理想反应模式, 则称为理想的认知诊断测验;否则称为理想反应误判的认知诊断测验。

若具有不同知识状态被试对应相同的理想反应模式,则称这些不同知识状态为等价类。

实际上,这个等价类是由测验蓝图(测验Q阵)决定的,称为知识状态中由测验Q阵决定的等价类。

我们希望有测验Q阵,使得每个等价类中仅仅有一个知识状态。

例1.三个属性A1,A2,A3,它们彼此之间不存在先决关系(prerequisite relation)。

于是属性之间的可达阵R 为三阶单位阵I。

今给出三个项目作为诊断测验。

注意被试的知识状态共有8 种,即α1=(000),α2=(001),α3=(010),α4=(011),α5=(100),α6=(101),α7=(110),α8=(111)。

如果上述8 种被试分别参加测验蓝图为Qi(i=1,2,3,4)的认知诊断测验,则对于Q1,α1,α2,α3,α5 的理想反应模式均为(0,0,0),即理想反应模式为(0,0,0)的模式其潜在知识状态可能为α1,α2,α3,α5 ,此时如果根据其所有理想反应模式来判断其知识状态,误判率为3/8;上例中α1,α2,α3,α5 是Q1 决定的等价类;对于Q2,α1,α2,α3,α4 为一个等价类,理想反应模式均为(0,0,0);而α5,α6为另一个等价类,理想反应模式均为(1,0,0),即误判率为4/8;对于Q3,α1,α2 的理想反应模式均为(0,0,0),α3,α4 理想反应模式均为(0,1,0),而α5,α6 为第三个等价类,理想反应模式均为(1,0,0),即误判率为3/8;但对于Q4 却不带来任何误判。

例(1995,[4]给出了小学分数加减的认知诊断测验,测验共含9 个项目,依Tatsuoka 的事后(post hoc)分析,即通过对测验后的得分矩阵进行分析,得出5 个属性,属性完全相同的项目仅保留一个。

如第五题:7121 + 和第六题:2131 + 都是检测通分(A3)和分数相加(A4),即T)(00110 ,只保留第五题;而第四题44 222 1 + 与第八题42 363 1 + 均检测了所有五个属性,也应归为一类,即T)(11111 ,只保留第四题(本文中xT 表示向量x 的转置),于是仅剩下7 类项目,组成一个5×7 的Q 阵。

这里的Q 阵与Tatsuoka 给出的有不同,因为她给出的Q 阵有笔误,比如第七题只涉及分子相加(A4),即T)(00010 ,而不像Tatsuoka所标定的为“答案化简”,我们对这些笔误进行修正。

最后修正的Q 阵,它不含相同的列。

然而这个Q 阵可能导致对知识状态的误判,比如根据所测属性及其层次关系,有两个被试的知识状态分别为α1=(0,0,1,1,1),α2=(0,1,1,1,1),它们导出的理想反应模式却相同,都等于(0,1,1,0,1,1,0)[8]。

这个例子说明一个很严重的问题:Tatsuoka(1995,)[4]希望规则空间模型(Rule spacemodel, RSM)中的Q-矩阵理论,能够起到桥梁作用——将可观察的反应向量对应到不可观察的知识状态。

现在至少有两个不同的知识状态(例如α1,α2),居然对应到同一个理想反应模式,即这个等价类中至少含有两个知识状态。

此时如果我们观察到这个理想反应模式,以此来诊断其隐藏的知识状态,我们难以判断隐藏的知识状态到底是α1,还是α2。

这时完全可能产生误判。

我们称不同知识状态对应同一理想反应模式的现象为对知识状态的误判。

Tatsuoka(1995,)[4]以实例说明属性掌握模式(即被试知识状态)和理想反应模式并不是一一对应的,而是多个属性掌握模式对应同一个理想项目反应模式(idealitem-response pattern)。

这种现象对于被试的归类是很不利的,同时也说明Tatsuoka 提供的方法存在一定的问题。

由于认知诊断测验蓝图直接影响CDA 的分类效果,下描述了CDA 最为核心的过程,其中, s Q 是由可达阵R 导出的Q阵,称为被试Q阵,这时s Q 的每一列都代表了“一类”知识状态(knowledge state),表示一个测验中项目与属性关联关系的的Q矩阵为测验Q矩阵,记为t Q ,显然t Q 只是s Q 的某一部分,即t Q 是s Q 的子矩阵(sub-matrix)且不含相同的列[10];α 是知识状态, η 是理想(期望/潜在)反应模式,f--1 是f 的反函数,此时要求f 本身是一一映射[9]。

后半部分由试题性质、被试动机或一些随机因素等决定,因此要提高CDA 分类的准确性,关键取决于前半部分。

如果一映射( | ) s t f α∈Q Q 使得集合s Q 中的不同列(称为s Q 中的元素)在理想反应模式集合η 中有相同的象,则分类较为模糊——只能分到相应的等价类中。

如果能够编制一测验蓝图t Q 使得对应关系( | ) s t f α∈Q Q 对于集合s Q 中的任何一个元素,在集合η 中都存在唯一的一个元素与之对应,则可以通过求对应关系的反函数,达到对反应模式的比较准确的分类。

我们希望对任何一种属性层级,都能如例1一样,构造出相应的测验蓝图,使得属性掌握模式(知识状态)与理想反应模式一一对应。

本文探讨将可达阵作为测验蓝图的一部分对提高认知诊断准确率的关系;要对认知诊断测验编制进行讨论。

第2 节讨论认知诊断的逻辑顺序以及测验蓝图的编制,第3 节讨论上述结论中的应用,即对测验编制的指导作用和对有认知诊断功能的计算机化自适应测验选题策略的制订的指导作用;第4 节进行Monte Carlo 模拟研究,以讨论“将可达矩阵作为(或不作为)测验蓝图一部分”时的误判率大小;并验证第2 节的结论。

第5 节是认知诊断测验编制的相关问题的进一步讨论。

另外,我们给出一些附录,主要是想正文枝蔓不要太多而妨碍文章的主要结论,增加文章的可读性。

2. 认知诊断测验蓝图的编制Tatsuoka(1983,1991,1995) [2][3] [4]的规则空间模型中关联矩阵Q 是可以通过分析测试项目得到的。

事实上,目前许多CDA 是根据认知诊断模型(cognitive diagnostic model,CDM)对已有的测验进行分析,这些已有的测验并不是为认知诊断“量身定制”的。

Leighton, Gierl,和 Hunka(2000)[11]指出这样导出Q 阵的方法逻辑性不强。

Gierl 等人(2000) [11]及Leighton 等人(2004)[6]建议在测验之前就由专家给出欲测属性及这些属性间的层级关系(hierarchyrelation)。

对于如何构造一个有利于诊断的项目,Gorin(2007)[1]给出了一些例子,并给出一些原则;Gorin(2007)[1]强调诊断测验的构造的重要性不亚于构造单个项目的重要性,文章甚至造出一个不利于认知诊断的测验蓝图(其中每个项目至少包含两个属性),并讨论了诊断测验编制的问题,认为诊断测验中应尽可能多地包括对应Qr 中的列的项目。

相关文档
最新文档