现代教育测量与评价学

现代教育测量与评价学 TTA standardization office【TTA 5AB- TTAK 08- TTA 2C】

现代教育测量与评价学

1、一次考试中某生在50名学生中排名第13名，则该生的百分等级应该是【 B 】A．13 B． 26 C． 50 D． 74

2、在现代测验理论的诸多模式中，最具有优越性的是【 B 】

A.经典测验理论B．项目反应理论C．心理测验理论D．智力测验理论

3、适合于某些用于选拔和分类的职业测验的效度是【 B 】A．时间效度B．内容效度C．效标关联效度 D．结构效度

4、韦克斯勒智力测验属于【 B 】

A．限时测验和典型作为测验B．限时测验和最高成就测验C．非限时测验和典型作为测验 D．非限时测验和最高成就测验5、测验被试回忆或辨认某些特定事实的能力的认知层次是

【A 】A．知识 B．应用 C．分析 D．综合

6、学生成绩测验的主要类型有安置性测验、形成性测验、诊断性测验和【 D 】

A．智力测验 B．能力倾向测验 C．人格测验D．总结性测验

7、学业成绩是一个【 D 】

A.名义变量 B．顺序变量 C．等距变量 D．比率变量

8、通常认为|r|<时称为【 A 】

A．极低相关 B．低相关 C．中等相关 D．高相关

9、根据测验编制程序的严格程度，可以简单地把学业成就测验分成教师自编课堂成就测验和【 D 】

A．标准参照测验 B．纸笔测试 C．安置性测验D．标准化成就测验

10、下面题型中属于客观题的是【 D 】

A．计算题B．证明题 C．作图题D．选择题

11、最重要的测验质量指标是【 A 】

A．难度 B．区分度 C．梯度D．效度

12、评价的重点在于“过程”的评价是【 B 】

A．诊断性评价B．形成性评价 C．总结性评价 D．整体性评价

13、在布鲁姆认知领域教育目标分类中，层次最低的是【 D 】A．领会 B．应用 C．分析D．知识

14、学生的英语测验成绩属于【 B 】

A．名义量尺B．顺序量尺 C．等距量尺 D．比率量尺

15、内容效度的评估方法不包含【 B 】

A、专家判断法

B、双向细目表法

C、统计分析法

D、经验推测法．

16、下列几种效度中，不具有效度真正意义的是【 C 】A．结构效度 B．内容效度C．表面效度 D．效标关联效度17、学期初或单元教学开始时使用的测验是【 A 】

A．安置性测验 B．形成性测验 C．终结性测验 D．能力倾向性测验

18、标准化考试产生于【 C 】

A．19世纪末 B．20世纪初C．20世纪40年代 D．20世纪60年代

19、教育测量专家格兰朗德认为，一个完整的评价计划，可用公式形象地表达，其公式是【 C 】

A．评价=测量+评定+价值判断B．评价=测量+定量描述+定性判断C．评价=测量+非测量+价值判断 D．评价=测量+非测量+统计推断

20、百分等级反映数据在其次数分布中的【 A 】

A．相对地位 B．集中趋势 C．误差大小 D．差异程度

21、一个随机变量所有取值点的概率之和为【 B 】

A． 0 B． 1 C． 2 D． 3

二、填空题

1、教育调查依据目的可分为两类：一是（常模调查），一是比较调查。

2、“记”是一种感知过程，心理学上也称为识记，可分为有意识记与无意识记，也可分为（机械识记）与理解识记等。

3、泰勒指出：“评价过程在本质上是确定课程和教学大纲在实际上实现（教育目标）的程度的过程”

4、所谓指标结构性教育评价表，就是根据评价目标逐层分解评价指标，形成具有评价指标体系、（指标权重结构）以及定性定量具体评价标准的教育评价表。

5、有代表性的样组，也称为（常模团体），指的是在建立测验常模过程中实际受测被试样组，他们代表着一个有明确定义的人群。

6、人们在解释教育测量和评价的结果时，总是要选择某种参照点。这样，教育测量评价可大致分成常模参照、（标准参照）和潜力参照三种。

7、以教育目标或标准为参照来评价学生发展，需要贯彻“多元的教育目标与（多元的评价方法）相适应”的原则。

8、所谓量表或量尺，指的是确定了测量单位和参照点并具有（取值系统）的测量工具。

9、教育评价表在结构上是由评价指标、指标权重及（评价标准）三部分组成的。

10、同质性信度也叫（内部一致性系数）信度，它是指测验内部所有题目间的一致性程度。

三、名词解释

1、教育测量

答:教学测量是考核教学成效的一种方法，是一种收集资料数据的过程。它是借助于一定的教育测量工具及其操作，根据某种标准和一定的操作程序，将学生的学习行为与结果确定为一种量值，以表示学生对所测问题了解的多少。即通过观察少数具有代表性的行为或现象来量化描述人的心理特征，为了减少误差，测验在编制、施测、评分以及解释等方面都必须遵循一套系统的程序。

2.句子完成测验答：又称作填句测验，去完成的句子（词干）构成，并且这些语句多为情境性、情绪性的。

2、品德情境测评法答：指测评者设置一定的情境和标准，并

观察被测评者在该情境中的反应，根据事先规定的标准对被测评者的品德发展状况做出评价的方法。简而言之，是指对个体品德的测量与评价。

3、效度答：即有效性，它是指测量工具或手段能够准确测出

所需测量的事物的程度。效度是指所测量到的结果反映所想要考察内容的程度，测量结果与要考察的内容越吻合，则效度越高；反之，则效度越低。效度分为三种类型：、准则效度和。

4、高考标准分数制度答：高考标准分数制度由常模量表分数

(包括全国常模和省常模)、等值量表分数组成。

5.难度答：难度即测试题目的难易程度．一般在能力方面的测试中，它作为衡量测试题目质量的主要指标之一。它是衡量试题质量的一个重要指标参数，它和共同影响并决定试卷的鉴别性。

难度：难度指被试完成测验或量表时所遇到题目的难易程度记为P。

难度:指试题的难易程度，即某个试题的通过率（答对或通过试题的人数比例）

5、常模答：常模是一种供比较的标准量数，由标准化样本测

试结果计算而来，即某一标准化样本的平均数和标准差。

7.教育目标答：教育目标（educational goal）就是指所培养的人才应达到的标准.这个目标可高可低按需而定（教育目标是培养人的方向和规格）。是反映教育目的的，具体而可观测的变化(或进步)。

7.真分数答：值小于1的分数，即分子小于（二者都是）的分数称为真分数，但等于1不算（那属于）。真分数：被试在所测特质上客观具有的水平值。

四、简答题

1、简述罗杰斯关于健康人格的具体特征

答：①情感和态度上是无拘无束的、开放性的，没有任何东西需要防备；②对新的经验有很强的适应性，能够自由地分享这些经验；③信任自己的感觉；④有自由感；⑤具有高度的创造力。2、简述课业考评改革的主要目标

答：a.首先要实现考试观向发展性评价观的转变，b.要努力实现从重视“掌握性结果”的评价转变既重视“掌握性结果”又重视“发展性结果”的评价；c.内容要从认知领域转变到涵盖学习结果更广泛的教育目标领域上d.要努力实现从表征性分数机制到实质性内容机制的转变。

3、简述教育测量与评价按照按测量与评价的内容如何分类

答：1）按运用时机分：形成性测量与评价；诊断性测量与评价；终结性测量与评价2）按解释测量结果或评价结果时的参照点分类：常模参照测量与评价；标准参照测量与评价3）按测量与评

价被试行为表现的性质分类：最佳行为测量与评价；典型行为测量与评价4）按量表的标准化程度可分为标准化测验和非标准化测验

2、简述课业考的主要作用

答：1.课业考评的主要作用：首先，合理的课业考评制度为学生发展提供较明确的目标和努力的方向；其次，合理的课业考评制度将有助于评价学生的发展进步，从而对教与学双方活动起着重要的控制、调节和促进等作用；再次，课业考评为学生心理发展和学习进步创造必要的背景和空间，诱发学生的学习动机和自主发展的动力；最后，课业考评在中小学生个体社会化进程中起着控制、调节、促进和加速的作用。

简述多元智力学校教育的基本特征

答：多元智力理论有下列主要特点：一是多元性。二是文化性。三是差异性。四是实践性。五是开发性

4、简述表现性测验类型答：（一）口头测验（二）论辩或辩论（三）短文题考试（四）写作测验（五）过程反应题（六）实验技能教学考试评价

5、简述主观题的编制原则

答：1．如果测量的行为目标能够用客观题来测，就尽量不要用主观题。2．挑选的材料应该与学生学习经历过的材料有类似性或是全新的材料。 3．设计的试题应该能够测量相关的行为目标并且

与某一内容领域相关。 4．应该用清晰、明确的语言表述背景材料和问题。

5．对材料分析题而言，设计试题应该对材料进行分析和解释。6．设计的试题数应该与背景材料的长度相匹配。 7．对试题的赋分应该合理。 8．对每个问题给以适当的完成时间。

突出重点结合世界允许发挥答案多样难度适宜

6、简述在高考中使用原始分数的局限性

答：(1)原始分数未能反映考试分数相对于团体的位置信息。(2)不同科目或同一科目不同次考试之间分数可比较差。(3)原始分数不宜直接相加。(4)在高考中不便于控制各科目的权重。(5)在教育评价时，常提供不客观、不准确的信息。

6、简述常模的用途

答：常模的作用是让测验者明白测验结果分数的意义。心理测验是一种测量人的状态的技术手段，如同一个医生量一下你的血压就可以知道你的血压是否偏高偏低一样，心理测验也希望达到类似的的目的。

五、论述题

1、常模参照测验、标准参照测验所要求的项目恰当难度及难度分布是什么为什么答：（1）常模参照测验的项目恰当难度是P值尽量接近。因为只有在这种情况下，题目区分性能最好，（2）常模参照测验所要求的项目恰当难度分布是，围绕P=这个点，有一个

适当宽的全距。（3）这样的原因有以下两个：一是测验时，通常希望开始有几个难度较低的题目来稳定被试情绪，末尾用几个难度稍大的题目以便只有少数高水平者才能通过。（4）二是让全部项目都取的难度，通常难以实现。当然，在允许有适当宽的全距的前提下，仍然要力争大多数项目难度取值接近。（5）标准参照测验的目的是要考察被试的水平是否达到应有要求，因而测验项目的难度，就不应由被试的实际通过率来决定，而应由项目的考核要求是否体现应有标准或教学目标来决定。（6）无论项目的通过是高还是低，只有体现了应用的标准或教学目标，项目的难度就是合理的恰当的。

2、举例说明结构效度验证步骤

答：（1）考察测验的内容效度，因为有些测验对所测内容或行为范围的定义或解释类似于理论构想的解释，所以内容效度高实质上也说明结构效度高。（2）计算测验的同质性信度的方法来检测结构效度。若有证据表明测验不同质，则可以断定该测验结构效度不高。3）利用相容效度法，考察新编制的测验与某个已知的能有效测量相同特质的测验之间的相关。若两者相关较高，则说明新测验有较高的效度。

（4）利用区分效度法，考察新编测验与某个已知的能有效测量不同的特质的旧测验间的相关。若两者相关较高，表明测到了其他心理特质，则新测验效度不高。（5）对一组测验进行因素分析，找出影响测验的共同因素，每个测验在共同因素上的负荷量（即

测验与各因素的相关）就是测验的因素效度，测验分数总变异中来自有关因素的比例就是该测验结构效度的指标。（6）综合应用相容效度法和区分效度法，若用多种极不相同的方法测量同一种特质相关很高，或用极为相似的方法测量不同特质相关很低，则说明测量效度很高。若有多种特质都接受了多种方法的测量，就可以分别计算出任意两种方法测量同一种特质的相关和测量不同特质的相关，以及任意两种特质接受同一方法和不同方法的相关。