编制测验的方法与程序
编制考试(题目)的原理与方法

编制考试(题目)的原理与方法第六讲编制测验(题目)地一般原理与方法介绍客观性试题地类型及编写技巧、主观性试题地类型及编写要领、测验蓝图设计、测验编制与组织要领.重点内容是客观题、主观题地优缺点,编写选择题地技术要领,论述题地编写原则,操作测验题地编写原则、测验地命题双向细目表编制.第一节测验题目类型与测量功能(一)题目编制地意义:测验题目是测验地基本构成元素,题目编制恰当与否直接关系到整个测验地质量.只有正确地掌握不同类型试题地测试功能及命题方法,才能根据考试地目地和要求,正确地选择合适地题型并编制出高质量地试题,组成高质量地测验试卷.(二)测验题目分类:b5E2RGbCAP1、选择型和供答型试题.前者一般要求被试在几个选项中选择正确地答案,如是非题、匹配题、选择题等,后者要求被试自己提供答案,如论述题、简答题、填空题等.p1EanqFDPw2、客观性试题与主观性试题:客观性试题主要是因为评分客观而得名,它地正确答案在测验前就已准备好,不同评分者各自独立评分,所得结果基本上是相同地.客观性试题一般适用于测量知识地掌握、理解、应用、分析几个层次地教学目标.客观性试题地答案明确,作答简便,因而在限定地时间内测验可以包含足够数量地试题,易保证对知识内容地覆盖.主观性试题主要包括论述题、操作题和作文题等.它们适合于测量较高层次地教学目标,尤其是适合于测量综合和评价等目标层次.主观性试题鼓励被试积极地组织所学地资料,表达自己地观点.被试在作答时,耗费地时间较长,在限定地时间内,试题数量不可能太多,对知识地覆盖面较小.由于没有明确统一地标准答案,评分易受评阅者地主观因素影响,因而误差较大.一、客观性试题类型及其编写技巧客观性试题主要包括选择题、填空题、简答题等.(一) 选择题1.选择题结构客观性试题中运用最多地是选择题.选择题是由一个“题干”和几个“选项”所组成.“题干”一般是提出问题,或是待完成地句子,“选项”是供被试选择地几个真假不明地答案,让被试从中选出正确地答案.应选地答案可以是一个,也可以是多个,可以是正确答案,也可以是最优答案. 例:使用选择题试卷进行测量,最大地困难是什么? A. 试卷地编制 B. 试卷地印刷 C. 试卷地评阅 D. 考场地安排例:函数是偶函数地条件是: A. c=0; B. b=0;C. a≠0;D. b.c≠02.选择题优点选择题是客观性试题中较灵活地一种,其优点体现为:(1) 可以用来测量学生各种不同层次地学习结果,不仅可以测量学生掌握所学习地知识地程度,而且可以用来测量学生对所学知识地理解、分析、判断、应用和综合地能力.所以这种类型试题地应用最广泛. (2) 评分标准统一、客观,不受评分人主观因素和答卷人提出意想之外地答案等影响,并且可以利用电脑迅速评卷,从而大大提高测验地信度,提高评卷地速度和自动化水平. (3) 可以加大试题容量,抽取广泛有效地代表性样本,使试题覆盖地知识范围广,可以克服传统考试中试题量少、抽样窄而造成地测量效度不高地缺点. (4) 有利于考查被试思维地敏捷性和准确地判断力.(5) 采用大量地似真选择项使得结果易于诊断,通过分析学生错误选项,教师便于发现学生在学习中存在地问题. 3.选择题地缺点选择题也有一些缺点,主要是:(1)选择题地数量多,每一题除正确答案外,还有好多干扰答案,且要求干扰答案与题干有逻辑联系和似真性,因此编制良好地选择题花费时间较多,且要有专门地命题技巧. (2) 难以考核被试完全地推理能力、综合运用所学知识地能力、有效地总结能力、严密地表述能力和写作能力,对于被试地发散思维(或求异思维)能力则更是如此. (3) 无法测量被试地思维(解题)过程.(4) 被试者有可能凭猜测而选中正确答案.例如,在有4个备选答案地选择题中,仅凭猜测地成功率就达到25%,这对于考试地信度有一定地影响. 选择题地优点使其日益受到重视,但它地缺点,又使我们无法在教育过程中以单纯地选择题来考查学生.4.选择题类型根据不同地特点,对选择题可以作进一步地分类,常用地选择题主要有以下几种类型. (1) 辨识选择.常用于辩识字词地形音义、文化常识、公式定理、名词术语等. (2)阅读选择.前面给出一篇短文,后面提供备选答案,要求被试阅读后,给出正确地选项. (3) 最佳选择.要求被试从几个备选答案中,通过比较和分析,选择出一个最佳地答案. (4) 图解选择.将文字材料画成几幅示意图,要求被试选出符合文字材料所显示地情景或关系地示意图. (5) 归类选择.列出一组事物,并将事物分成若干类,要求被试按一定标准选出归类正确地选项. (6) 承接选择.给定一个或几个待续地句子,然后列出几个承接句子,要求被试选出其中衔接恰当地承接句子.(7) 排序选择.将几个事物,列出几种排列顺序,要求被试选出排列顺序正确地一种. (8) 填空选择.在一句话中空缺一些字、词、句或标点,要求被试在备选地几个答案中选出恰当地填补项. 5.选择题编写原则为使选择题地普遍适用性和优良性能得到实现,在编制选择题时,应遵循以下原则:(1) 试题地题干本身意义完整并能表达一个确定地问题.(2) 题干要尽可能简明,尽量不要使用过于复杂地语句结构,也不要使用过长地语句. (3) 题干中不要滥用否定结构,要尽可能采用正面陈述.过多采用否定结构,往往给被试带来阅读上地困难;同时否定结构也不利于使教师了解被试到底掌握多少正确知识.另外肯定结构比否定结构从某种程度上来说更富有教育意义. (4) 所有选项都应与题干有一定地逻辑联系,选项中地干扰答案(诱答项)应具有较高地似真性或似乎合理性,不能错得太明显. (5) 不能对正确答案有暗示.一般来说,无意提供暗示主要表现为如下几个方面:语法结构上地不一致,如正确答案语法正确,诱答项语法结构错误等;各选项在逻辑上不同,如正确答案中加以“如”、“有时”、“通常”等修饰词,诱答项中加以“总是”、“从未”、“所有”、“绝对”、“准”等修饰词,或正确答案使用与题干相同地词;答案地长度有明显差异,如正确答案叙述得特别详细,比诱答项要长得多;各题正确答案在选项中有一定地规律等. (6)同一测验中每一个测验试题之间应相互独立避免牵连.有时,某一个试题地题干中所提供地资料,刚好可以帮助学生回答别地问题,此种情形只要在组合测验前仔细检查每道试题就可以避免.但有时被试需要知道前一题地正确答案,才能回答下一个问题,即若某被试无法回答第一题,则无法回答第二题,此种连锁题应尽量避免,每道题均应成为一个独立地记分单位. (7) 选项地文字表述,力求简短精炼,尽可能将各项中共同地用词(字)放在题干中,在每个选项中要避免重复地材料,这样不仅可以使题意清楚,而且可以减少学生阅读选项所需地时间.(8) 应尽量避免“以上皆是”、“以上皆非”地选项.当测验编制人员很难找出足够地选项时,常用“以上皆是”、“以上皆非”来作为最后一个选项.这种特殊选项地应用绝大部分场合均不恰当,不仅无法达到预期地功能,反而会降低题目地有效性.这是因为:第一,学生只要知道在选项中有两个是正确地,则他就会选择“以上皆是”;第二,学生只要发现有一个选项是错误地,则马上就可以排除“以上皆是”项,从而提高猜测成功地机会.第三,不少学生只要看出第一个答案是正确地,他马上就选中作答,而不再阅读其余选项而丢分,从而降低测验地信度.另外在“最佳答案型”地选择测验中,所有答案只是适合程度地不同,而绝无一个“绝对正确”地答案,所以在使用“以上皆非”项时,可能引起争论.(二)是非题1.是非题特点是非题又叫做二项选择题,它通常是给被试一个句子要被试作出正误地判断.这类试题通常用于测量被试对基本概念、性质、原理、原则地认识和判断区别事实与观点、认识事物因果关系,以及一些简单地逻辑关系推理地能力.例判断下列命题地正误,正确地在括号内画“√”,错误地画“×”. ①三角形地内角之和等于360度.( ) ②是非题是一种“供答型”试题.( )有时候,我们可以要求被试先判断每一个陈述地真伪,然后再要求被试将错误之处加以改正.此时,应需要在改正部分地底下画线或加以引导,以突出重点. 通常有人认为是非题最容易编制,其实并非如此.因为此类试题要求被试作绝对正误地判断,所以每一个叙述必须绝对正确或完全错误.在绝大多数知识领域中,为确保绝对正确或完全错误,就需要对较重要地叙述予以特别修饰,而这种修饰却是一种很明显地猜答线索.因此,编制者通常被迫以较不重要且更具体地事实来编题,以确保试题地科学性,但这样地试题对于测量目标来说是不太适合地.(1)是非题地优点:DXDiTa9E3d 第一,编制相对容易,可适用于各种教材.事实上,说编制容易,可能是因为可以照教材地原句子抄下来或稍作正反改正,但这种试题品质不良,不是答案明显、就是无法判断.而编制出题意清楚,且能测量到重要学习结果地是非题,则需要高度地命题经验与技巧.RTCrpUDGiT第二,记分客观,取样广泛.因为是非题地作答时间短,可以在短时间之内作答很多问题,所以试题有较大地覆盖面,且评分不受主观因素地影响.5PCzVD7HxA (2)是非题地局限性:其一,仅能测量知识层次中最基本地结果,而无法测量高层次地学习结果.其二,受猜测因素地影响很大.由于只有两种可能地选择,因此学生仅凭猜测都有50%地机会获取正确答案.由于设计是非题很难排除无关线索,实际上被试猜对地可能性远高于50%.即使采用校正公式,即倒扣分地方法,也难以排除猜测因素地影响. 由于是非题地上述缺陷,通常只是用它来测量其他类型测验无法测量地学习结果.2.设计是非题几个原则设计是非题要遵循如下几个原则:(1) 考核地内容应是重要地知识,应有考核价值.不要为了设计试题方便而考核一些无关紧要、细微末节地内容. (2) 题目应多是测量理解能力,而不应测验记忆性地知识,更不要直接抄录教科书中地句子,以免引导被试死记硬背而不求理解. (3) 一个题目中只能有一个中心问题,或一个重要概念,避免两个以上地概念在同一题中出现.否则将会导致“半对半错”或“似是而非”地情形. (4) 试题应做到是非界限分明,用词准确,避免模棱两可地语句,不致引起对正确答案地争议. (5) 题目陈述应简单明了,避免使用复杂地句子结构,以减少因被试地阅读能力而对测量产生地不良影响,应尽量采用正面叙述,避免用否定和双重否定地语句. (6) 正句和误句地排列要随机化,且数量应大致相等.(三) 填空题填空题就是提出一个陈述,其中缺少一个或几个关键词语,要求被试将其补充上去.例我国古代地四大发明是__________、造纸、指南针和__________. 我国长江发源于___________山,流入_____________海. 填空题可用来考查被试对知识地记忆和理解能力,在诊断性测验中特别适用.受被试猜测地影响小,评分比较客观.但填空题偏重于测量知识记忆程度,使用过多,容易养成死记硬背地习惯. 为了使填空题能更好地发挥它地作用,在编制地时候,一般应注意以下几点. (1)题意明确、限定严密,使空白处应填地答案是惟一地.填空题属于封闭型地一种,题干地逻辑性要求很高,从而使被试按照形式逻辑地思维去推理、判断.此外,题干地表述还应使众多被试按照同一个思维路径进行趋向思维,否则被试不知道填什么或填什么都成立,就会引起争议,达不到测量目地,不利于记分.例(不妥试题) 只有________,才能在考试中获得好成绩. 本题地限定不严密,所填地答案不惟一,被试也不知道到底是考核哪些方面地知识. (2)空白中所填写地应是关键地词语,并且要和上下文有密切地关系,使被试不至于填写困难.例(不妥试题) 1996年我国科技界有_____新发明. (3)题目中空白地方不能太多,以免句子变得支离破碎,不利于被试理解题意. 例(不妥试题) 连接______市与_________地是________河. 这样地试题易导致题意不完整,无法填写,即使勉强填上,也难于判断对与错,无法评分.通常一个填空题不应超过两个空白. (4)尽量将空白放在句子地后面或中间,而不要放在句子开头.因为按照人们地思维过程,应该是先提供充分地证据,然后再要求被试做什么或怎么做.例(不妥试题) _______发明了蒸汽机.本题应改为“发明蒸汽机地是______________.”(5)所有空白处地线段长度应当一致,不能随正确答案文字地多少而长短不一,以免产生暗示作用. (6)若答案是数字,应指明单位和数字地精确程度.(四) 简答题简答题是要求被试对所提问地问题用几个字或几句话来回答地一种问题类型.例①“七·七”事变爆发在哪一年?②“七·七”事变爆发在什么地方?简答题虽然是需要被试自己主动提供答案,但仍然可以是客观性测验题,它是供答题中最简单地一种,被试只需填上几个简短地词或句即可解答.简答题较适合于测量被试对基本知识、概念和原理地掌握、记忆情况.和填空题一样,简答题编制较为简单、灵活,在出题时,可以从不同角度、不同方向考虑,增大对知识考核地准确度和深度,并且不受猜测因素地影响.jLBHrnAILg无法用来考核综合、分析、评价等高层次地教学目标;且评分可能不够客观,除非问题地叙述非常清楚,否则将会有不同程度地正确或部分正确地答案而影响评分地客观性.即使没有这些问题,错别字是否扣分问题仍无法避免,若扣分,则被试地实际得分无法代表其获得知识地多少,若不扣分,则又无法确定错别字是否代表正确答案,即是错别字还是被试尚未具备地足够测量所欲测地知识.鉴于此,一般测验中,简答题所占比例不大.常用地简答题有简释题,直接问答题,列举题,扼要说明题等. 简释题就是通常地名词解释题,要求被试用简单明了地词语将名词或概念解释清楚.直接问答题就是让被试对所提出地问题进行解答.列举题就是要求被试根据要求范围列举出事或物,并略作说明.例请列出教育测验中常见地选择型题型. 扼要说明题又叫做简要叙述题,一般是对一段话进行判断或说明.例判断“识字教学是低年级教学地重点”这一说法是否正确,并作简要说明. 在设计简答题时,要注意遵循下列原则:(1)问题地叙述要明确,要确实能使被试用简单地言语来回答. (2)问题地答案应该只有一个,并且答案要简短具体. (3)避免出只考机械记忆地题,应注重知识地应用. (4)在考查某公式地应用时,不要给太复杂地数字,以免给计算带来麻烦. (5)尽可能使用“直接问句”来提出问题.二、主观性试题类型及其编写要领主观性试题地特征是被试可以自由作答,xHAQX74J0X被试只要在题目所限地范围内即可,可以在深度、广度、组织方式等方面都享有很大地自由;主观性试题不仅可以对知识进行分解式考查,而且可以进行整体综合性地考查;不仅可以反映被试答题地最后结果,还可以反映被试地思维过程;另外,主观性试题可以创设一个情境,允许被试在这个情境中,充分发挥自己地创造力.LDAYtRyKfE这种自由同时也导致某种意义上地评分地主观性.主观性试题主要包括论述题、作文题与操作题等题型.(一) 论述题论述题就是向被试提出问题,需要被试用自己地语言组成一份较长答案地试题.这种试题地最大特点是被试在回答问题时,有较大地自由度,可以充分地运用所学地知识,并且可以加上自己独特地见解.因此论述题能够较好地测量被试地组织、归纳和综合所学地知识地能力、运用掌握地知识解决问题探讨问题和创新地能力.1.论述题优点论述题在教育测验上有独特地价值,其优点有:(1) 可以用来进行高层次地、复杂地学习结果地测量,可以用在各种学科领域. (2) 可以增进学生地思考、应用及解决问题地能力,对于被试地学习态度和学习方式可以产生积极地影响.如可以使学生比较注意教材内容上地内在联系并能够对所学到地知识进行有机组织等. (3) 可以增进学生地写作能力. (4) 试题地编制比较容易,并且受猜测因素地影响很小.2.论述题局限性论述题地局限性具体表现为:(1) 由于论述题一般都比较大,在一次考试中试题地数量不可能有很多,因此,其取样范围比较小且不均匀,所使用地试卷无法有效地代表学科地全部主要内容,所测结果无法真正代表被试地学习成就而影响测验地效度. (2) 评分地主观性强.虽然此类试题预先制定出标准答案和评分标准,但测验中常常会出现许多令命题者意想不到地情况和答案.此时,不同地评阅者,对同一份试卷所给地成绩将会有很大地不同,同一评阅者对两份等值地试卷所给地成绩地偏离也较大,这样地测量结果其信度比较低. (3) 因被试回答过于自由,回答方向又不尽相同,难于测得预期结果,重点容易失控. (4) 被试作答和评分阅卷都相当费时.3.编制论述题原则为了保证论述题地质量,在编制论述题时要遵循以下原则:(1)试题应该用来测量较高层次地教学目标,象综合、评价等目标层次,限于那些客观题不能测量地学习成就.如要求学生提出理由、解释变量间地关系、描述与评价资料、有系统地陈述结论等. (2)要明确而系统地陈述问题,使被试能清楚地了解题目地要求.在命题时,我们必须对被试提出明确地任务,使每道题都能真实地反映被试实际能力,而不受阅读、理解等其他因素地干扰. (3)应采用答案具有统一定论地试题. 论述题本来在评分上就存在着一定地主观性,如果再加上答案没有定论,评分者就会产生更大地困难,也使得评分误差增大而降低信度.当然这也并不意味着一切有争议地问题都不能出,对于有争议地问题,在命题时一般要对被试地作答范围、观点等作一定地限制. (4)一般不允许被试选择问题回答. 因为不同地论述题之间很难做到等值,如果让被试选择题目,对被试地得分则无法比较,而且被试总是倾向于他较熟悉地试题,这样就更不容易反映其真实水平. (5)为避免被试将时间集中在某一个他所不会做地题目上而影响对其他题目地回答,因此而影响考试成绩地真实性,最好在题目中能给出回答本题所需地参考时间.(二) 作文题作文题实际上是一种论述题,它是语言测量中不可缺少地一部分.作文是对人地逻辑思维、形象思维、书面表达等多种能力地一种综合考查. 对于作文试题,人们从不同地角度提出了许多不同地分类.此处仅简要介绍常见地三种分类.(1) 根据提供题目或提供材料地角度,可分为命题作文和供料作文(或称条件作文). 命题作文只提供题目,不涉及任何材料,不作任何解释和说明,要求被试写一篇文章.如全国高考作文题《习惯》等.供料作文包含供料命题作文和供料自由作文两种.它首先提供材料,如给被试一篇文章、故事、一幅漫画等,要求被试根据确定地思路,或根据指定地题目,或自选角度、自拟题目,写一篇作文. (2) 根据文体可以分为记叙文、议论文、说明文、应用文等. (3) 根据对所供材料地处理方式可以分为:缩写型:要求被试正确理解材料地中心和要点,弄清结构层次,择其要点,剔除其他成分,浓缩联缀成文.改写型:要求被试根据一定地要求,改变原文地文体样式和结构,或者变换中心人物,或者变换选材角度和立意重心,对原材料进行合理地取舍和补充.撮写型:要求被试围绕中心对原材料进行取舍,摘取材料地要点,组成文章.如内容提要,讲话摘要,会议记录整理等.填空型:要求被试根据上下文将原材料中地缺失部分加以补充,使之成为文章地有机组成部分.续写型:要求被试根据原材料地内容和思路加以合理想象和延伸,使续写地部分与原材料构成一个完整地整体.扩写型:其要求正好如缩写型相反,它要求被试将浓缩地“主干”材料扩充化成“枝繁叶茂”地文章. 实施作文题测验地目标是要测量被试真实地写作水平.这种测量是一种根据特定要求进行书面表达能力地全面地综合测试,因此命题地质量将直接影响到测量结果地信度和效度.为此,在命题时要注意如下几点:(1)根据考试地目地和需要确定考试作文地文体要求. (2)根据社会地需要、现实生活和学生地实际设计命题. (3)要根据被试地特点确定选材范围与写作意图,在确定选材和写作意图时,要考虑对所有被试都是公平地,并且试题应符合被试地心理特征. (4)要给被试以发挥地余地.(三) 操作测验题在许多学科中,操作地方法和过程是重要地测量目标,如实验课,地图课,音乐、体育、美术等课程,操作题可以作为纸笔测验地补充.操作测验是介于一般认知结果地纸笔测验和未来真实情境地实际活动之间,具有真实地情境模拟性.1.操作测验题分类操作测验可以有许多分类方法,较为常用地分类方法是根据情境地真实程度,将它分为4类.(1) 纸笔操作测验:利用纸笔模拟真实情境来考查被试知识和技能地应用.如编制某项操作计划、步骤、注意事项等,通常可作为真实情境操作测验地预测验. (2) 辨认测验:包括代表各种不同真实性程度地测验情境.有时,仅要求被试辨认某项工具,指出其功能;有时要求被试辨认完成某些工作所需要地工具、装备以及使用程序.较复杂地则为向被试提出特殊任务,要求他们辨认一些问题(或故障)所在,并根据问题提出解决地办法.辨认测验是对实际操作技能地间接测量. (3) 模拟操作测验:要求被试在模拟地情况下完成和真实活动相同地动作,如模拟训练,物理、化学实验等,它地特点是强调程序地正确性,通常可作为真实情境中实际操作地准备. (4) 工作样本操作测验:让被试在标准地实际情境中去完成实际任务地测验.这类测验在操作测验中真实性最高,包含了真实操作地所有基本要素,但是在有控制地标准条件下完成.如师范院校学生地教学实习等.2.编制操作测验题注意事项操作测验地准备和实施比较费时,条件不易控制和标准化,评分困难,特别是测验情境与真实情况较接近时,其结果地鉴定难度更大.在编制设计时,应注意以下几点:(1)明确所要测量地教学目标和学习结果,并将其操作化,即要进行工作分析,找出操作中地最重要地环节,并为每一操作建立一个评分标准,如操作地速度与准确性、步骤地正确性等. (2)选择合适地真实性程度.在决定测验地真实性程度时,应依据教学目标地要求、客观条件地限制、工作本身地性质等.对于最基础地导论性课程,可采用真实。
教育测量与评价 第二章 教育测验的编制.

• 一、确定测验的目的
• 1、确定测量对象
• 2、确定测量目标(一般要将目标转 化成可操作的术语)
• 3、确定测量的功用(常与评价目标 结合在一起)
•
如是诊断性测验还是选拔性测验。
•
• 二、分析测量目标并制定编题计划
• 美国心理学家布鲁姆(Bloom) 最早 提出教育目标的分类问题。他把学习的 心理活动过程分成认知、情感二个领域。 又把认知领域具体分为知识(记忆事实、 条件、方法、原理等的能力)、理解、 应用、分析、综合、评价六个层次。
• 1.2 愿意承受特定刺激的行为 • 1.3 控制或选择的注意,是指有意识或
半意识的从内容或情境中辩别某种特定 的刺激.
2 反应所关心的是学生受到动机的充分驱 动,积极地注意学习内容
• 2.1 默认的反应,这种反应强调行为的 被动性,一般产生遵从或顺从.
• 2.2 愿意的反应,学生完全致力于表现 自己的行为,是自己想做或自愿去做.
• 9、所提问题应避免涉及社会禁忌与隐私。
• 10、施测与评分省时。
• 二、测题的种类及编制要领
• 根据应答方式,测题的种类分为两大类, 即自由应答型和固定应答型。自由应答 型题目是让受测者用自己的语言或行动 来对某一问题做出回答,包括填充题、 简答题、应用题、论文题、联想题、操 作题等。固定应答型题目又称客观性题 目,是让受测者从测验编制者事先定好 的答案中辩认出一个正确答案,包括了 多选题、是非题、匹配题等。
气象 宇宙 地球 合计
识记
3 2 2 5 2 2 2 18
理解
5 3 3 6 4 5 2 28
应用 分析 综合
632 311 420 832 322 410 211 30 13 8
教育测验题目类型与编写技术

第一节教育测验题目类型与编写技术一、客观性试题的类型及其编写技术二、主观性试题的类型及其编写技术第二节教育测验编制的基本程序一、设计测验的基本考虑二、设计测验蓝图三、测验编制与组织教学目标:1.理解各类测验项目的优缺点,掌握各类项目的编制原则。
2.理解教育测验编制的基本程序,并能在实践中运用。
项目编写“五戒”1.在向学生说明如何作答时,一定不要使用晦涩的语言(指导语);2.一定不要在项目中使用模棱两可的陈述。
3.一定不要无意中给学生正确答案的线索。
4.项目中一定不要使用太复杂的句型。
5.一定不要使用超纲的词汇。
测验项目的类型Popham认为语言(文字)测验的项目形式有两种:1.要求被试选择的(选择型)2.要求被试回答的(供应型)(供答型)。
成就测验中,分为客观性试题和非客观性(主观性)试题。
这两种测验项目形式的最大区别是:前者给被试提供被选答案,后者让被试自己写出答案。
A.选择型项目常用形式:选择题、是非题(判断题)、匹配题(连线题)B.供答型项目常用形式:填空题、简答题、论述题、作文题等。
【因此供答型项目范围要比主观性项目范围大】一、是非题及其编写(一)定义:是非题又称正误题,通常是给被试一个句子要求被试做出是与非(对与错)的判断。
以此也叫二项选择题。
这类测题通常用于测量被试对基本概念、性质、原理的认识与判断区别事实与观点、认识事物因果关系、以及一些简单的逻辑推理能力。
例如:判断下列命题的正误,正确的在括号里打√,错误的在括号里打×。
三角形内角和等于360度。
()(二)是非题编写的优缺点优点:1.取样广泛2.测题编制相对容易。
(当然可能是因为可以照着教材原句抄下来或稍做正反改正,但这恰恰是不良是非题的特征)3.评分客观。
缺点:1.是非题一般只能测量低层次的教学目标。
2.易于强调知识的死记硬背。
3.受猜测因素的影响较大(猜对概率大于50%)。
如何减少猜测带来的危害?1.鼓励所有被试在他们不知道正确答案的情况下进行猜测,因为事实上不可能避免一部分被试猜测答案。
教育测验编制原理与方法4

作文题
➢ 对人的逻辑思维、形象思维、书面表达等 多种能力的一种综合考查
分类
➢ 命题作文和条件作文 ➢ 记叙文、议论文、说明文等 ➢ 缩写型、改写型、续写型等
编制原则
➢ 根据考试目的、考试对象来确定作文文体和要 求
➢ 根据社会需要、现实生活和学生实际设计命题 ,作文命题要直接测量语文素养和书面表达能 力
25
45
第47页/共52页
应用
5 10 5 10
30
总体百分数
20 30 20 30
100
(一)设计测验的操作细目表
➢ 3. 使用单向归类系统(阅读理解技能)
阅读技能
识别文章中的细节 概括出文章的中心思想 判断文中事件出现的先后顺序 辨别文中所表述的关系 对文中内容进行推论 总体百分数
题目数
10 10 10 10 10 50
➢ B.气温
➢ 1.测量并报告气温;2.影响气温的因素;3.气温与天气形成的关系
➢ C.湿度和降水量
➢ 1.测量并报告湿度;2.影响湿度的因素;3.降水的形式;4.测量并报 告降水量
➢ D.风
➢ 1.测量风速和风向;2.影响风速和风向的因素;3.说出代表风速和风 向的符号
➢ E.云
➢ ……
➢ F.锋面
1
1
1
7
5
15
25
水量
云
2
2
2
6
12
20
题目总数 6
6
6
30
12
60
题目 10
10
10
50
20
100
百分比
第46页/共52页
(一)设计测验的操作细目表
纸笔测验的编制与实施

○ A good achievement test should reflect the particular approach to learning and teaching that has previously been adopted.
○ The proficiency test is concerned simply with measuring a student’s control of the language in the light of what he or she will be expected to do with it in the future performance of a particular task.(J.B.Heaton,1990)
第一場次工作坊的時間分配
❖ 講解說明:60分鐘
❖ 討論試題邏輯審查檢核表:10分鐘
❖ 個別編製測驗試題:20分鐘
❖ 個別設計並製作雙向細目表:10分鐘
❖ 分組,試題卷交付同儕審查:20分鐘
(含評選組內優良試卷)
❖ 試卷展示與綜合討論:25分鐘
2❖020/6/第30 二場次工作坊預備工作說明:5分鐘
1
診斷性測驗(diagnostic test)
问卷的编制.

A 明确欲测内容的范围,包括知识范围和能力要求两个 方面。
B 确定每个题目所测的内容,并与测验编制者所列的双 向系目标对照,逐题比较自己的分类与制卷者的分类, 并做记录。
C 制定评定量表 2 结构效度 指一个测验实际测到的索要测量的理论结构和特质的
程度,或者说它是指测验分数能够说明心理学理论的某 种结构或特质的程度。常用分方法:因素分析法
鉴别指数 0.40以上 0.30~0.39 0.20~0.29 0.19以下
题目评价 很好 良好,修改会更好 尚可,仍需修改 差,必须淘汰
2.极端组的划分
3.00 .00443 .49865
3.50 .00087 .49977
3.99 .00014 .49997
美国教育服务中心以Δ 作为难度指标: Δ=13+4Z
P = .0013 P = .16 P = .50 P = .84 P = .9987
Z = +3 Z = +1 Z=0 Z = -1 Z = -3
半上所得分数的一致性程度。
分半的方法:按题号的奇偶分半、按题目的难度分半、 或按题目的内容分半。
3 同质性信度 又叫内部一致性系数,它是指测验内部所有题目间的
一致性程度。题目间的一致性含有两层意思:a 是指所 有题目都测的是同一种心理特质,b 是指所有题目得分 之间都具有较高的正相关。
在做项目分析时,这两种方法都是以单题为单位来进行分析
(九) 编制正式题目
编制者可根据项目分析的结果来进行选题,只要鉴
别力合乎标准的题目都可以选为正式的题目。若项目分
析所得各题的决断值都合于要求,则由高而低选出预定
要的题数。
(十) 问卷质量的判断
教育成就测验的编制与实施心理评估方法

心理测量学
第二节 标准化教育成就测验的编制与实施
• 沃比岗效应的存在提醒我们,在选择标准 化测验时必须考虑到测验内容的时间、社 会制度和地域的制约性问题,如课程和教 材的内容有了相应变化,就不应该再使用 陈旧测验。还要考虑到被试的经验,不要 重复使用同一个测验。另外,还应该注意
教育成就测验的编制与实施心理评估
节
教育成就测验的编制与实施心理评估
心理测量学
第一节 教育成就测验概述
• 一、教育成就测验的性质 • 二、教育成就测验的分类 • 三、教育成就测验的作用
教育成就测验的编制与实施心理评估
心理测量学
第一节 教育成就测验概述
• 一、教育成就测验的性质 • 1.成就测验的概念 • 2.成就测验与一般心理测验的区别与联系
教育成就测验的编制与实施心理评估
心理测量学
第二节 标准化教育成就测验的编制与实施
• (一)测验编制的方法
• 1.理论法
• 2.经验法
• 3.理论与经验结合的方法
• (二)成就测验编制的两种取向
• 1.课程取向
教育成就测验的编制与实施心理评估
心理测量学
第二节 标准化教育成就测验的编制与实施
• (三)测验的标准化要求 • 1.测验编制过程标准化 • 2.测验实施标准化 • 3.测验评分标准化 • 4.测验分数解释标准化
第八章 教育成就测验的编制与实施
教育成就测验的编制与实施心理评估 方法
第八章 教育成就测心理验测量学的编 制与实施
1
教育成就测验概述
2 标准化教育成就测验的编制与实施
3
教师自编测验
4
教育测验题库建设方法
教育成就测验的编制与实施心理评估
第八章心理与教育测验的编制与实施

James bond
测题的编写
一、搜集资料 题目的来源可分为三个方面: ㈠、已出版的标准测验:最简单、最直接的方法 是从已经出版的各种标准测验中选择合适的题目。 ㈡、理论和专家的经验:有时也可以作为题目的 来源之一,比如要编制态度量表,那么理论上不少对 态度的类型、性质维度、定义等等的描述就可以转换 成题目,或用具体的例子。 ㈢、临床观察和记录:临床的观察也可以作为题 目的来源,各种观察量表或检核表很多都是来源于观 察到的行为表现。
第八章 心理与教育测验的编制与实施
测验编制的一般程序
一、测验的对象 首先要明确测量对象,该测验编成后要用于哪些 团体。在测验编制及建立常模过程中应考虑文化背景 的影响。 二、测验的用途 ㈠、显示性测验:测验题目和所要测量的心理特征相似的 测验。 ㈡、预测性测验:是指预测一些没被测量的行为的 测验。 三、测验的目标:是指编制的测验是测什么的,即用来 测量什么样的心理变量或行为特征。
James bond
ቤተ መጻሕፍቲ ባይዱ
测题的编写
㈡、是非题:是非题又叫正误题,是指出一个论点要被试判断是否正 确,或是从是非两个答案做出选择,因此可以把是非题看作是两个 备选答案的选择题。 例:⑴。你常常会主动地去做一些有意义的习题吗? 是 □ 否 □ ⑵。你常常主动给朋友写信或打电话吗? 是 □ 否 □ 编制是非题应注意: 1.内容应以有意义的概念、事实或基本原则为基础,不要在叙 述中出现琐碎的细节或无关的话语,不要照抄原文。 2.每道题只能包含一个概念,避免两个或两个以上的概念出现 在同一个题目中,造成“半对半错”或“似是而非”的情况。 3.尽量避免否定的叙述,尤其是要避免用双重否定的叙述 4.若是表达意见的题目,最好说明意见的来源和根据,以便测 出被试是否了解某个人或某些人的意见、信念或价值观念等。 5.“是”、“非”题的数目应有适应比例,基本相等,且要随 机排列。“是”、“非”题目的编写在长度和复杂性上应尽量保持 一致。 James bond
- 1、下载文档前请自行甄别文档内容的完整性,平台不提供额外的编辑、内容补充、找答案等附加服务。
- 2、"仅部分预览"的文档,不可在线预览部分如存在完整性等问题,可反馈申请退款(可完整预览的文档不适用该条件!)。
- 3、如文档侵犯您的权益,请联系客服反馈,我们会尽快为您处理(人工客服工作时间:9:00-18:30)。
编制测验的方法与程序
选择测验材料,制定测题
、筛选测题
测题编排
基本特征鉴定(信、效度检验)
制定常模
1.目的的确立
测量什么
和
所测量的是哪些对象
2.分析测量目标
非智力因素界定为除能力以外的影响智力活动的个性心理因素,其结构包括个性倾向性(需要、动机、兴趣、理想、信念、世界观)、性格(性格的态度特征、性格的情绪特征、性格的意志特征)和气质几个方面。
针对测查的目的、对象以及研究的可行性确定一个取舍的标准。
我们认为作为测查对象的“非智力因素”是相对于大学生的智力因素而言的,因此必须从它和智力因素的相互关系以及它对大学生学习成绩的影响作用来考察这个概念,它必须遵循以下几个原则:
①它是指在智力活动中表现出来的非智力因素,不包括诸如豪爽、大方等与智力活动无关的心理因素,也就是说它不是指智力因素之外的一切个性心理因素,而是指在智力活动中,除智力或能力之外,又同智力活动效益发生交互作用的一些个性心理因素。
②非智力因素与智力因素相互影响、相互作用,非智力因素只有与智力因素一起才能发挥它在智力活动中的作用。
③从大学生当前的学习活动来看,我们确定的非智力因素与学习活动的关系应是直接密切的,即它在大学生现在学习活动中确实存在,并对大学生的学生成绩起影响作用。
从大学生将来的再学习活动来看,我们确立的非智力因素与它的关系也是直接密切的,即它在大学生将来的再学习活动中确实存在,并直接影响大学生将来的学习成绩。
④这些非智力因素在优秀学生身上应有特殊表现,即优秀学生作为特定群体,对这些因素在总体上或是在其中某几个因素上应有优异发展,从而使这些因素具备一定的鉴别功能。
据以上原则,通过查阅大量相关文献,参阅他人研究成果,在专家咨询的基础上,结合对大学生的访谈资料,几经筛选、归并,确定以下十一项因素作为测查的对象:(1)学习热情(2)学习计划(3)考试焦虑(4)情绪稳定(5)专业兴趣(6)好胜心(7)成就动机(8)自尊心(9)自律性(10)独立性(11)有恒性。
3.选择测验材料,编制测题
选择测验材料的方法:
理论法经验法因素分析法
本测题的编制采用的是理论法和经验法相结合的方法。
在形式上,基本采用自陈式,即通过被试对许多自我评定性测题的答案来衡量其在某项因素上的表现特征。
在测题的格式上,采用选择法,要求被试在每一测题的备选答案A、B、C中选择一个与自己想法和做法最接近的答案。
为便于后面的项目修改,项目筛选和项目分析,围绕各因素在学习活动中的具体、典型表现,编拟15个具有代表性的测题,并在每一测题中尽量提供能反映较高,一般、较低三个不同层次的可选择答案。
我们试用模糊概念的定量表示法,对每一因素的各个测题的不同答案进行量化评分,反映因素较高水平的答案2分,一般水平的答案1分,较低水平的答案0分(“考试焦虑”因素部分反之),编制成三点式的Likert量表。
在此基础上讨论测题,对测题进行质的分析。
由测题编制者本人和有关专家对测题的内容和形式进行分析,从取材的适合性与制定测题的技术方面加以评价、分析,提出修改意见,修改测题。
最后汇总、编排测题,对11个因素的测题运用轮流排序的形式,进行汇总。
并设计了专门的答题纸。
4.进行预测,分析测题,筛选测题
在预测过程中,我们应注意几个问题。
(1)预测的被试应取自将来正式测验的被试群体之中,取样应有代表性,人数不必太多,也不能太少。
(2)预测力求按正规的要求进行,使其与将来的正式测验的情况近似。
(3)预测的实施,应使被试有足够的完成时间,以便收集充分的反应资料使统计分析结果可靠。
(4)在预试过程中,应将被试反应情况随时加以记录,如一般被试完成预试所花费的时间、题意有哪些不清之处、被试对哪些测题产生误解等方面,都要一一加以记录。
分析测题包括对测题的质的分析和量的分析两个方面。
前者在预试之前已由编制者本人或有关专家鉴定。
后者则基于测题经过预试的结果,逐一分析难度、鉴别力等。
一般来说,项目的通俗性在0.5左右时,项目的变差最大,项目的鉴别力最高。
按艾伯尔(EBEL)的分类标准,鉴别指数:
0.19以下:劣,必须淘汰;
0.20——0.29:尚可,仍须修改;
0.3——0.39:良好,如能修改更好;
0.40以上:非常优良。
将经过预测分析后认为具有良好性能的测题加以适当编排(并列直进式、混合螺旋式、轮流排序等),为了检验挑选出的测题的性能是否真正符
合要求,通常须再抽取另一适当的样组再测一次进行测题分析,目的在于复核项目分析的结果是否一致,这就是测题性能的复核,也叫交叉效度检验。
它是测验编制过程中非常重要的工作。
5.选择有效测题,进行编排,确定大学生非智力因素测查的正式问卷。
据每次预测结果,我们对每一测题的内容、表达方式、答题方式、备选答案、指导语的内容和表述等反复推敲、修改,最后形成正式的《大学生非智力因素测查》问卷,共110道测题,每个因素保证了有10道测题。
问卷采用轮流排序的形式编排11项因素的测题,并打乱了可选答案的三个不同层次,同时设计了专门的答题纸。
这样做可避免被试掌握规律得高分,又利于提高被试作答兴趣,同时又易于我们统计。
6.标准化
所谓标准化,就是对测验情境的控制,也就是使测验情境对所有被试都使相似的。
具体包括对内容一致和标准实施的要求,内容一致就是给所有被试实施相同的一组测题,标准实施是通过使用预先制定的实施指导语、标准时限和客观记分的方法来排除无关因素的影响。
7.基本特征鉴定
按照上述程序,某一测验编制完成以后,为考核该测验是否具有评价、诊断、预测等功能,即它是不是一个优良的测量工具,应从信、效度方面加以鉴定。
(1)信度。
对测验一致性程度的估计,即可靠性。
在实际工作中,从测验的结果估计信度的方法有多种,但基本上可以分为三类:稳定系数,它是由一组被试首次测验分数与隔些时候再次施测分数的相关系数表示的,考察的是跨时间的一致性;等值系数,是在两个假定相等的复份测验之间的一致性,考察的是跨形式的一致性;内在一致性系数,它所估计的是一个测验中所包含的各个测题上所得成绩的一致性,考察的是跨项目的一致性,试图确定是否测验中的所有测题测量的是同一个心理特性。
估计内在一致性系数方法有分半信度、库德-理查逊估计方法和R系数。
(2)效度。
是测什么,测到了什么程度的一种度量。
考虑测验的效度时,必须从该测验的目的与特殊功能着眼,根据1974年美国心理学会发布的《教育与心理测验的标准》一书,将效度分为三类:准则关联效度、内容效度、结构效度。
准则关联效度又称经验效度,是以测验分数和效度准则之间的相关系数来表示测验的效度高低。
效度准则就是足以显示测验所欲测量的特性的变量或足以显示测验所欲预测的特性的变量,准则是检定
效度的一种参照尺度。
例如智力测验的效度检定,可选用学业成绩或教师评定等级作为准则,计算测验分数与这些准则变量之间的相关。
这些资料是现成的,所以这种效度称为同时效度。
然而,人们往往感兴趣的是对被试的有关准则作业的预测,测验分数之所以重要只是因为它能预料到该项准则,在这种情况下,我们把测验当成预测变量,它对准则变量预测的程度,就是预测效度。
比如某项专业学习的成绩的预测效度准则就是实际工作的成绩。
内容效度,我们说一个测验的测题只是全部这类测题的一个样组,因此对测验代表性的研究,就有一个测验的测题在全域中取样是否足够和确切的问题,这就是内容效度的问题,也即测验题目对有关内容或行为范围取样的适当性。
检验的方法是有专家判断,一个方面看是否有定义完好的内容范围,另一方面看测验题目是否是所界定的内容范围的代表性取样。
结构效度是测验能测量理论上的构念或心理特性的程度,目的在于用心理学的概念来说明分析测验分数的意义,从心理学的理论观点就测验的结果加以解释和探讨。
结构效度确定的逻辑和方法:先从某一结构理论出发,导出各项关于心理功能或行为的基本假设,然后由果朔因,一相关等方法,查核测验结果是否符合心理学上的理论解释。
三种类型的效度从不同的角度说明测验的正确性,涉及测验内容、理论依据、效度准则和样组等事项。
一般来讲,人格测验效度低于能力测验。
8.制定常模
由于心理测量是相对的而非绝对的,所以我们只有将测验分数与常模比较,才能对某一个体的测验分数进行比较。
在这里常模是一个比较的标准,因此,常模有效与否可靠与否是一个很重要的问题。
我们做武汉市大学生非智力因素的常模,从理论上来讲,我们应该将武汉市每一个大学生的非智力因素进行测量,然后求其平均数。
但实际上由于时间、人力、经济的限制常常是不可能做到的,我们只能测量具有这个研究特征的一部分,以它代表总体。
如果这个样组能够代表全域,该样组就是标准化的样组,而按照标准化样组算出来的平均数,就是常模,以它作为测验分数的参照点,就能使测验分数有意义。
9.编写测验说明书
这个不展开来讲。
大家可参阅戴忠恒编著的《心理与教育测量》(第191页)。