语言测试中结构效度的实现

【语言学研究】

沈阳师范大学学报（社会科学版）

Journal of Shenyang Normal University(Social Science Edition)

2012年第1期第36卷（总第169期）

№1,2012Vol.36General,№169

语言测试中结构效度的实现

马蓉

（辽宁省文化艺术职工大学基础部，辽宁沈阳110180）

[摘要]作为一门独立学科，语言测试是检验和评估教学效果和学习效果的重要手段。结构效度是实现语言测试目的的基础，决定了测试的目的和收集证据检验测试的有效性。而针对不同的受试者测试会有所倾向，产生测试偏见，影响结构效度的实现。科学性的语言测试要求测试者在测试始终合理有效的规避测试偏见，实现结构效度，使语言测试更科学。

[关键词]语言测试；结构效度；测试偏见[中图分类号]H0-0

[文献标识码]A

[文章编号]1674－5450（2012）01－0117－02

[收稿日期]2011－11－10

[作者简介]马蓉（1977-），女，辽宁沈阳人，辽宁省文化艺术职工大学讲师，教育学硕士。

语言测试是检验语言水平和能力的重要途径，既受测试信度、效度和区分度的影响，也与受试者个人的特征密切相关。而效度即是考查测试者想要测量的内容，是实现测试的重要方面。在构建测试效度时应避免受试者个人特征对测试表现的影响，也就是避免测试偏见，才能测试出受试者语言能力的真实水平。

一、语言测试中的结构效度（一）结构效度的概念

Lyle F.Bachman 在他的Language Testing in Practice (《语言测试实践》)一书中指出：所谓结构效度，从属于对语言测试分数所作的解释的意义性和合理性，这就意味着对测试分数的解释就是对受试者语言能力的评估[1]。Bachman 认为通过结构效度，我们不仅可以评估想要测量的受试者的语言能力，还可以通过对测试分数的解释来判断测试所采用的目标语使用语域是否合理。结构效度的概念最早是由Cronbach 和M eehl 共同提出的，在Construct validity in psychological test 中，他们认为“结构

是人们假想的属性，可以在测试的行为中反映出来。

”[2]这种结构是抽象的，反映了人类某些不能被直接测量的行为，如人的智力、态度和理解能力等。所以，通过结构这一概念的使用，语言测试者可以设计一个合理的测试来测量欲测的受试者的语言能力，并通过测试成绩加以证明，实现结构效度。简言之，结构效度就是对测试分数的解释，从而评估受试者的语言能力和测试任务的特点。

（二）结构效度的构建

由于欲测的能力不能被直接观察到，测试者必须通过可直接被观察到的表现作出推断；并且，预测的能力是理论上的定义，测试者需预先假设预测能力会影响受试者使用语言的能力和其在语言测试中的表现；所以在构建具有效度的结构时，测试者需要测试预先定义的测试分数和预测

能力的假定关系。

那么，构建一个语言测试的结构效度，根据Popham 的理论：首先要提出一个假说性结构，假设用其解释测试表现；然后从产生结构的理论中推导出关于测试表现的若干假设；最后用逻辑和经验的方法检验这些假设[3]。

（三）结构效度对于语言测试的重要性“结构效度是所有的各种效度之本，是结构效度决定

了整个考试的性质，决定了考试属于哪个体系。”[4]

结构效度决定了语言测试的方向和内容，关系到测试者对测试分数所作的解释的真实性和合理性，从而推断此次测试是否能够测量出受试者的真实语言能力，所以结构效度对于语言测试尤为重要。

二、影响结构效度的语言测试偏见（一）语言测试偏见的概念

语言测试偏见（test bias

）是指在测试过程中，由于个性特征的不同和测试任务的特点而导致受试者在测试中的表现不同，这种不同可以影响测试者基于测试分数而

对受试者的实际语言能力作出的评估[5]。

对于语言测试的受试者，其真实的语言能力和个人因素共同作用而影响其在测试中的表现。受试者个人因素包括语言能力（语言知识、策略能力或元认知能力）、话题知识和情感图示。测

试偏见是形式多样的，如对测试分数的错误理解、

性别歧视、种族歧视、对受试者水平的错误评估、测试内容对部分受试者具有倾向性、不恰当的选拔程序、不充分的标准评估和不适宜的测试气氛和环境。在实际的语言测试中，由于不能清楚地将文化和教育背景与我们欲测的语言能力区分开，导致测试偏见更为复杂。

·117·

沈阳师范大学学报（社会科学版）2012年第1期(总第169期)

【责任编辑赵伟】

（二）可能出现的测试偏见

在构建具有效度的结构时，测试者应全面考虑受试者的个性特征和测试任务特点对受试者的影响，避免测试倾向于部分受试者。测试偏见可能涉及到受试者的文化背景、

测试内容背景知识、认知特征、本土语言、民族、性别和年龄等方面；并且要具体考虑测试任务的特点是否会影响不同个体的测试表现，如在测试环境、仪式指导格式、输入、预期应试方式和输入与预期应试方式的关系方面。（三）规避测试偏见对于实现结构效度的重要性合理地避免测试偏见，建立公平的测试环境，保证测试结果的有效性，加大语言能力对测试分数的影响，通过对测试分数的合理解释评估受试者的真实语言能力，增强语言测试的科学性。

三、合理规避测试中的偏见实现测试结构效度（一）受试者个性特征

避免文化背景倾向。Chen 和Henning 曾在研究选项反映理论时发现：在词汇选项测试中的某些测试选项会对具有特定语言和文化背景的个体有利。如在测试中出现了决定选项答案的短语“meet one ’s Waterloo ”,对于具有欧美文化背景的受试者而言他们熟知滑铁卢之战的历史，在说起某人在某场官司或比赛中遭到失败时就会说

某某遭遇了滑铁卢，如同汉语中的

“败走麦城”，这就意味着这次测试对于这部分欧美文化背景的受试者具有倾向

性，产生了测试偏见。

所以，在设计测试内容时，测试组织者要先调研受试者自然情况，了解其文化背景，避免出现测试倾向于部分特定文化背景的受试者。

避免测试内容背景知识倾向。具有内容背景知识倾向的测试偏见是指在测试前受试者学习并了解某些测试内容的相关知识，特别是在阅读理解和完型填空题型中，从而导

致测试中的不同表现。如要考查综合阅读能力，

测试者设计了与机械设计原理相关的阅读理解，这些测试内容对于机械设计专业的受试者具有倾向性，他们可能根据所学专业知识来解答部分选项，产生测试偏见。测试者如果在测试中要检测总体的阅读能力，就意味着将内容知识定义成了不

同于阅读能力的背景知识。所以，

在设计测试和解释测试分数时，测试者必须区分开语言熟练程度和背景知识，并且相信受试者的语言能力要在具体的语言环境中得以体现。

（二）测试任务特点

合理的测试任务设置。如果测试环境对某些受试者有利，结构效度就受到了破坏。如在使用计算机的测试(TOEFL)中，某些受试者不熟悉操作或处理程序出现问题，测试对这些受试者不利，最后测试成绩会受测试设置

的影响。

所以，测试者设计测试时要预先通知受试者测试的形式，确保设置形式每个受试者都是公平的，不会影响其语言能力的发挥。

合理的仪式指导格式。首先测试者要预先通知受试者试题结构，如试题各部分的构成、题数、特点、顺序、重要性、分值和时间的分配；在设计试题指令时要简要清晰，指令过于复杂或使用目标语会对语言能力较强的受试者有利，影响其他受试者的表现；受试者要了解测试流

程和具体时间安排；受试者了解评分机制、

具体测试内容的标准答案和评分流程。

合理的输入。如果测试者要考查写作能力，不同的作

文题目会影响受试者的表现，产生测试偏见。在测试任务

的输入格式上，测试者要选择与测试内容和全体受试者语言水平相匹配的手段（音频、视频）、形式（语言、非语言

或二者兼有）

、语言（本土语言、目标语言或二者兼有）、长度、

类型和速度；在测试任务的语言设计上，语言难易取决于对所有测试者的语言能力分析和考试的目的（是否是分级测试、水平测试或结业测试）；同时要评估受试者的话题熟知程度，如在口语测试中，如果受试者了解房屋出租的业务和关键词句就会在相关话题的口语测试中表现出色，使测试具有倾向性。

合理的预期应试方式。如果听力测试中，不是所有的受试者目标语言的写作能力都足以用来写出听力问题的答案，听力测试就对那些目标语写作不熟练的受试者具

有不利的倾向。

所以，要求测试者设计与测试内容和全体受试者语言能力水平相适应的预期应试方式，而具体要求与上段中对合理测试任务输入相同。

合理的输入与预期应试方式的关系。话题知识会影响受试者的表现，如口语测试中要求用目标语谈论西方心理学理论而非简单的天气，会影响部分受试者表现。所以测试者处理测试任务输入和预期应试方式的关系时，要设计与测试内容和受试者总体语言水平相适应的反映

形式（各试题是否相互关联、

各受试者的表现是否相互影响和测试的连续性）

、反映范围（受试者需要处理的测试任务输入量，如在阅读理解中回答文章大意就需要受试者处理整篇阅读文章，而在单项选择中受试者只需处理相对有限的测试任务输入）和反映方式（预期应试方式与测试任务直接还是非直接的关系）。

四、结语

科学性的语言测试是使测试成为检测和评估教学效果的重要手段，通过对测试结果的科学分析，可以评估学生对语言知识的掌握情况、教师的教学情况和整个教学体

系的设置是否合理，并通过反馈进一步完善教学体系[6]。

语言测试的科学性以结构效度的实现为基础。结构效度贯

穿测试始终，是连续而反复的过程。在测试中，

全面评估考察全体受试者的语言能力水平和个体特征差异，合理规避在实现结构效度过程中可能出现的测试偏见，营造公平的测试环境，使受试者最大程度地发挥语言能力水平，达到语言测试的目的。

[参考文献]

[1]Bachman,Lyle F.&Adrian https://www.360docs.net/doc/0816896669.html,nguage Testing in Practice [M ].Oxford ：Oxford University Press ，1996.

[2]Cronhach,L.J.and P. E.M eehl.Construct validity in psychological test [G]//A.W.Ward.H.W.Stoke and M .M urrav 一https://www.360docs.net/doc/0816896669.html,cational M https://www.360docs.net/doc/0816896669.html,nham:University Press of America.Inc.1955.

[3]Popham,https://www.360docs.net/doc/0816896669.html,cational Evaluation.2nd ed [M ].Englewood Cliffs:Prentice-Hall,1988.

[4]李筱菊.语言测试科学与艺术[M ].长沙:湖南教育出版社,1996.[5]Bachman,Lyle F.Fundamental Considerations in Language

Testing[M ].上海：

上海外语教育出版社，1999.[6]党明虎.论语言测试的科学性[J].宝鸡文理学院学报：社会

科学版，

1999（4）.·118·

浅谈语言测试的信度与效度

?２００９年第１期? ５陈静浅谈语言测试的信度与效度收稿日期：2008-09-24作者简介：陈静（1981-），女，吉林华桥外国语学院科研处，讲师，长春130117 [摘要]本文通过测试的信度与效度的对比分析，结合其发展过程分析了信度与效度的相互关系对语言测试及语言教学的影响。正确、科学的现代语言测试的取向应该是效度重于信度。提高测试的效度可以提高语言测试的正面反拨作用，即促进语言教学的质量。 [关键词]语言测试；信度；效度[中图分类号]H087[文献标识码]A [文章编号](2009 01-0005-04 语言测试学, 作为应用语言学的一个分支, 现已发展成一个相对独立的学科。作为对语言教学进行测量和评估的一个重要手段, 语言测试愈来愈受到广大外语教学工作者的重视。Bachman (2004:54 曾说:“在教育程序中, 语言测试的基本运用是给教学评估提供重要的信息。”通过测试可以检查学生对知识的掌握情况和教学中存在的问题，对今后的教学提供指导和帮助；同时，通过测试可以衡量教学任务和教

学大纲的执行情况。不科学的测试不仅不能起指挥棒的作用, 有时反而会误导教学, 将学生和教师引向歧途。因此我们主张的是科学的, 符合教育原理的测试, 这样的测试会对教学产生积极的反拨作用。一套设计比较科学的测试，一般认为应该有四点特征, 即效度, 信度, 实用性和良好的反拨作用。其中信度与效度是后两者的基础，是语言测试的永恒主题，信度与效度孰重孰轻, 也是现代语言测试学家一直争论不休的话题。本篇论文通过测试信度与效度的研究，旨在帮助教师设计合理的测试，并在测试后对试题总结、归纳，以加大测试力度，提高测试效果。一、信度与效度的概念语言测试的信度是指测试结果的可靠程度。浅谈语言测试的信度与效度吉林华桥外国语学院学报６即当被测试对象发生变化，用同样的“尺子”去重复测量时，总是获得类似的结果。影响信度的因素很多, 它们存在于语言测试的每个环节中，就试卷本身来说主要是样本的大小和区分度等。取样大, 样本具有广泛性, 测试的信度就高, 反之信度就低。另外试题太难或太易, 考试分数集中于某一点或某一区域测试也失去信度。在测试的组织、实施这个环节中, 一方面考试的环境和条件要对考试有利。另一方面考试的环境和条件对所有的受试者是否一致也影响到考试的信度。在测试评分的环节上, 评分标准是否一致对信度影响很大，尤其是主观题的评分很难能达到很高的标准。

信度与效度的关系

研究信度与效度的关系一、信度与效度的定义信度即可靠性，它指的是采取同样的方法对同一对象重复进行测量时，其所得结果相一致的程度，或者说，信度是指测量结果的一致性或稳定性。效度即准确度,它是指测量工具或测量手段能够准确测出所要测量的变量的程度，或者说能够准确、真实地度量事物属性的程度.二、信度与效度的关系 (一)教育科学研究中信度与效度的关系信度是研究结果所显示的一致性、稳定性程度，也是对研究结果一致性和稳定性的评价标准。一个具有信度的研究程序，不论其过程是由谁操作，或进行多少次同样的操作，其结果总是非常一致的.效度是一个研究程序的性质和功能，也是对研究结果正确性的评价标准，一个有效度的研究程序，不仅能够明确地回答研究的问题和解释研究结果，而且能够保证研究结果在一定规模的领域中推广。把两者的作用结合起来看，信度和效度是一项教育科学研究活动和结果具有科学价值和意义的保证。研究的信度是研究的效度的一个必要的前提，没有信度,效度不可能单独存在，也就是说，一项研究不可能没有信度却具有效度。（二）人力资源招聘信度与效度的关系影响测评信度的因素有很多，主要是系统误差和随机误差.包括测评者的专业性和素质、被测评者本人的心理、侧评工具的稳定性、

环境的稳定性等都会影响测评的可信度。影响测评的效度因素也有很多，如测评工具、测评过程及测评者因素、被测评者状态、效标因素和信度因素等。在实际招聘与录用评估过程中要把握各相关方面，不仅要有专业的测评人员,同时也要在稳定的环境中为被测评者提供一个放松真实的氛围。信度和效度是人才侧评与选拔质量的重要指标.图形形式表现分析得出的信度和效度的三种关系,则会是以下这些样式，如图8—l .图8-2和图8—3所示。所以，：高信度是高效度的必要条件，但非充分条件.即信度高不一定其效度就高，但要想获得较高的测评效度,其信度必定要高, （三）用结构式问卷来测量家长“溺爱孩子”的行为中信度与效

语言测试理论

语言测试理论（Language Assessment）定义（definition） Anastasi (1982)认为“测试实质上是对受试者的某种能力所做的客观的标准化测量”。Carroll 则认为测试是一套程序,旨在诱发受试者的行为反应, 并以此推导出他的相关特征(a procedure designed to elicit certain behavior from which one can make inferences about certain characteristics of an individual)。二、英语语言测试理论 (一)英语语言测试类型 Hughes(1989:9-19)依据测试目的、测试方法和方式、测试题型、测试成绩判别标准和判卷标准进行分类, 将英语测试分为五大类。 1.依据测试目的进行分类 ( 1 )水平测试(proficiency test) 语言水平测试是为了测试人们语言能力而设计的。( 2 )学业成绩测试(achievement test)学业成绩测试是用来考查被试在学习英语某一阶段或最终阶段的成功程度。（3）诊断测试（diagnostic test）: 诊断测试是用来鉴别学生的优势和不足之处，用来确定什么样的教学是必要的。（4）能力测试（aptitude test）能力测试不以任何教学大纲为基础，目的在于检验测试者是否具备了学习某种语言的潜力。 2.依据测试方法和方式进行分类 (1)直接测试(direct testing) 直接考察学生某一方面语言能力的测试称为直接测试。 (2)间接测试(indirect testing) 间接测试即通过测试某一技能所具备某种能力来发现学生这方面的语言能力。 3.依据测试题型进行分类：分散点测试指每次只测试一个项目的测试,每道试题只测试某一特定的语法结构等，属于间接测试。 4.依据测试成绩判别标准进行分类 (1)常模参考型测试(norm-referenced testing) (2)标准参考型测试(criterion-referenced testing) 以某种特定的语言能力标准作为判别标准的测试称为标准参考测试。 5.依据判卷标准进行分类 (1)客观测试(objective testing) (2)主观测试(subjective testing) Proceeding from or taking place within a person's mind such as to be unaffected by the external world. (二)测试基本要素：效度效度是一个单一而又整体的概念(a single, unitary concept) 是指测试的内容及其方式是否符合测试的目的和要求。即测试所能取得某些目标的有效程度。一项测试只有能够准确测试它所希望测试的内容才具有效度。 1.内容效度(content validity) 内容效度指测试内容。包括所要测试的语言技能、语言结构等方面有代表性的要素 2.标准效度(criterion-related validity)作为对比的其他测试结果就成了检验现有测试的效度标准。标准效度主要包括同期效度(concurrent validity)和预测效度(predictive validity)

浅析语言测试中信度与效度两者之间的关系

浅析语言测试中信度与效度两者之间的关系语言测试在语言教学中处于中心地位，是从属于应用语言学这一学科的。在过去语言测试在应用语言学中处于边缘地位，而在长达三十多年的发展中，语言测试现已发展成为一个相对独立的学科，已经在学术上占有了一席之地。通过语言测试教育者可以及时发现学习者学习上存在的不足之处并在日后的教学过程中加以正确引导，也可以衡量教学任务和教学大纲的执行情况，但是这些都是基于科学的语言测试能够得到良好的反馈情况，反之，如果是一套不科学的语言测试就很可能对学习者做出错误的判断从而影响学习效率，所以科学的语言测试无论是对受教育者还是对教育者来说都是非常重要的。一套设计比较科学的测试应该是具有信度，效度，难度和区分度四点特征，信度与效度是难度和区分度的基础，同时也是语言测试的两大根本要求，只有正确认识了信度与效度两者之间的关系才能寻找出一个科学的方法使得语言测试更加科学准确。信度指的是测量的一致性，一个实验或测试的信度指它在重复测量时产生同样结果的程度，也就是说测量的稳定性是否一致。影响信度的因素很多，其不仅存在于考试过程中的各个环节，也存在于阅卷的过程中，如试卷中的试题长度偏长，项目种类多，那么测试的信度就会提高，反之则会降低，考试分数集中于某一点或某一个区域时信度也会有所降低；考试期间考生时间充裕那么估算能力考试的信度也相对较高等等，这些都是存在于考试过程中各个环节的部分举例，在阅卷过程中阅卷者自身的信度和阅卷者之间的信度等问题也是影响信度的因素之一，如在评阅主观性的题目时（作文，口语等），阅卷者在评分时就具有很大的主观色彩，而不同的阅卷者掌握的主观的评分标准在评阅主观性试题时，不容易取得一致，也会使得测试的信度不稳定。效度指的是我们所获的证据在多大程度上支持我们根据分数所做出的推断，也就是考试是否检测到了它所要检测的东西，是否达到了它的预定目标。效度共分为三种不同的类型，其不同类型的效度测试有各自不同的测试着重面，内容效度测试的目的是为了了解测试者在一些实际环境中是如何运作的，如果测试的样本能够充分代表总体，那么测试在内容上就是有效的，反之效度则不高；预测效度和共时效度都是属于与标准有关的效度，预测效度是标志测试者将来能力的标准，如通过摸底考试分班，共时效度是指一个测试结果与另一个同时使用的标准的结果的关系;构想效度是指要考察一个测试者在多大程度上和我们根据某一理论所作出的预测是否一致，也就是说验证的是我们所做的假设是否有效。信度和效度是语言测试中的两个最重要的方面，两者之间既相互依存又相互对立，可以说二者是存在于对立统一的一个整体中。

试题的难度、区分度、信度和效度

试卷的难度、区分度、信度和效度一.试卷的难度（一）什么是难度难度是指试卷的难易程度，是评价考试的一个非常重要的一个指标。一个题目，如果大部分考生都能答对，那么这个题目的难度就小；如果大部分考生都不能答对，那么这个题目的难度就大。客观题难度计算公式：P（难度指数）＝试卷答对人数/考生人数；主观题难度计算公式：P＝试卷平均得分/试卷满分。试卷难度计算公式：P＝为平均分，K 为试卷满分值。易、中、难的标准为：易：P≥0.7，中：0.4≤P≤0.69，难：P≤0.39；P值越大，难度越低，P值越小，难度越高。一般来说，难度值平均在0.5最佳，难度值过高或过低，都会降低测验的信度。（二）难度的计算（1）客观性试卷难度P（这时也称通过率）计算公式： P=k/N（k为答对该题的人数，N为参加测验的总人数）（2）主观性试卷难度P计算公式： P=X/M（X为试卷平均得分；M为试卷满分）（3）适用于主、客观试卷的计算公式： P=（P H +P L ）/2（P H 、P L 分别为试卷针对高分组和低分组考生的难度值）步骤为:①将考生的总分由高至低排列；②从最高分开始向下取全部试卷的27%作为高分组；③从最低分开始向上取全部试卷的27%作为低分组；④计算。（三）试卷难度的一般要求就高考来说，难度以适中为宜，单个试卷的难度以0.3--0.7之间为好，整卷以0.5--0.6之间为最佳。一般将难度值大于和等于0.7的试卷定为容易题；大于0.4和小于0.7的定为中档题；小于和等于0.4的试卷定为难题。命题时难度一般要按一定比例分配，如3：6：1或3：5：2。二.试卷的区分度（一）什么是区分度区分度是指考试卷目对考生心理特征的区分能力。区分度高的试卷能将不同水平的考生区分开来，水平高的考生得高分，水平低的考生得低分。区分度高的

如何保证人才测评的信度和效度

如何保证人才测评的信度和效度人才测评的主要工作是通过各种方法对被试者加以了解，从而为企业组织的人力资源管理决策提供参考和依据。经过长期的发展和适应不同情况的需要，形成了多种人才测评方法。而人才素质测评作为一项重要的人事技术，已经为越来越多的企业人力资源部门所接受，而如何保证能力素质测评中的信度和效度，也越来越受到关注。下面，就具体案例讲讲如何保证能力素质测评的信度和效度。一、案例背景 N公司是一家外资工程管理公司，成立于1998年，总部设在上海。随着WTO的开放和工程项目的增多，工程公司在国内如雨后春笋般成长起来，就此拉开了人才竞争的序幕。尤其是上海，工程项目管理人才的争夺十分激烈，N公司老总越来越感觉到市场的压力和人才的短缺。为了应对市场压力，保留现有中高层骨干人才，并让他们“适人适位”，N公司请来了北大纵横管理咨询公司，希望通过专业评估解决这个问题。二、建立人才能力素质模型并实施测评（一）中高层能力素质模型及测评方法的确定鉴于本次测评的对象是N公司的中高层管理人才和精英人物，测评的目的是为了保留人才、适人适岗，因此经过双方共同探讨，项目组在北大纵横经理人能力素质指标体系的基础上，结合N公司的实际情况，选择个人驱动力、判断能力、分析能力、决策能力和水准、创新能力、客户服务能力、影响力、项目管理能力、任务分配能力等作为测评因素。同时，采用广泛用于企业人员素质测评、方案比较、科学技术成果评比等方面的层次分析法，来确定各测评因素在管理素质和业务素质上的权重。通过向N公司老总介绍人才测评的方法及工具，大家一致选定评价中心技术进行本次人才测评，并主要运用三类测评工具：心理测验、深度面谈和情景模拟测验。（二）测评实施程序 1、设计测评题目。咨询顾问和N公司相关人员一起，围绕测评因素，结合N公司实际情况进行测试题目的设计，并给出评分标准和评分参考。本次心理测试采取16PF人格要素测试，人机对话；深度面谈设计了20个题目，涵盖了测评的各个维度；情景模拟采用案例分析和主题演讲两种测评工具，其中案例分析题库包含12题，主题演讲题库包含15题，被测人员可以从各题库中抽取一题进行测试。 2、成立测评小组。其中，测评小组成员由N公司内部专家、外部专家，以及北大纵横项目组组成。在测评实施前，对测评小组进行培训，使大家能全面了解测评的程序、评分标准及方法。 3、实施测评。深度面谈和情景模拟测试是由测评小组根据测试题目对被测评人进行提问，被测评人根据提问回答问题，与测评小组进行双向沟通后，由测评小组根据评分标准对被测评人的表现现场打分，填入评分表；16PF人格要素测试要求被测试人进行40分钟的人机对话，由测评小组保存有效答卷。由于不同的测评者其衡量的尺度会存在差异，为保证各个被试者成绩排序的正确性，在测评时，向测评者提供“成绩比较表”，供其记载各个被试者的各项测试的评分，便于他们进行比较。 4、分析测评结果并统计成绩。采用肯德尔和谐系数法对每个被测评者在各个测评要素上的得分进行评分者信度分析，并结合各测评要素在管理素质和业务素质方面的权重，计算出被测评人在业务素质和管理素质上的得分。测评结束后，测评小组对被测人员进行了问卷调查，了解他们对测评效果的看法。三、测评为保证信度和效度所采取的措施（一）保证测评信度采取措施分析 1、16PF测试采取的是计算机标准化题目的方式，计算机答题、计算机处理结果。被测试人员全部独立进行测试，并在规定时间内完成了测试。 2、深度面谈使用了20个题目，围绕测评因素的各个维度对被测评者进行考察。面谈进行顺利，被测人员都能较积极配合回答问题，和主试人进行较好的双向交流。 3、情景模拟采用案例分析和主题演讲两种测评工具，被测人员从两个题库中各抽取1题，测评小组根据其表现进行现场评估。测评得到了被测人员的积极配合，都能就问题提出自己的见解。 4、为增加评分者信度，本次测评工作专门成立了测评小组，并在测评前熟悉了整个测评程序和操作；各类能力素质附有评分标准，各类试题附有评分参考，力图对被测试者的表现进行量化分析；测评中，向测评者提供“成绩比较表”，

SPSS与测验信度、效度、及项目分析

SPSS在测验信度、效度、及项目分析中的应用李鹏云南师范大学教育科学与管理学院在SPSS中，专门用来进行测验信度分析的模块为Scale下的Reliability Analysis；使用Data Reduction之下的Factor模块，可以利用因素分析的方法来进行测验的建构效度检验；至于项目分析则没有专门的模块可以之间进行计算分析，但是却可以利用Summarize下的Frequencies、Correlate下的Bivariate 和Compare Mean下的Independent-Samples T Test来计算几个常用的项目分析指标。一、信度分析 Reliability Analysis模块主要功能是检验测验的信度，主要用来检验分半信度、库李及a系数以及Hoyt信度系数值。至于重测信度和复本信度，只需将样本在二次（份）测验的分数的数据合并到同一数据文件之后，利用Correlate 之下的Bivariate求其相关系数，即为重测或复本信度；而评分者信度则就是使用的Spearman等级相关及Kendall和谐系数。表1 Reliability Analysis模块的Model选项的参数及对应中文术语关键字功能 Alpha Cronbach a系数 Split-half 分半信度，n是第二分量表的题数 Guttman Guttman最低下限真实信度法 Parallel 各题目变异数同质时的最大概率（maximum-likelihood）信度Strict parallel 各题目平均数与变异数均同质时的最大概率信度表2 Reliability Analysis模块的Statistics部分选项的参数及对应中文术语关键字功能 F test Hoyt信度系数 Friedman Chi Friedman等级变异数分析及Kendall和谐系数 Cochran Chi Cochran’s Q检验，适用于答案为二分（如是非题）的量表

浅论语言测试的效度

浅论语言测试的效度 [摘要] 信度与效度是语言测试两大基本要求,信度与效度的关系问题是语言测试的根本问题。考试的效度指的是考试在多大程度上测出预期要测量的东西,信度指的是考试结果的可靠性。本文重点介绍了效度的含义,对效度的测量方法以及效度与信度的关系等问题做了详细的阐述。 [关键词] 语言测试效度信度 [Abstract] As a branch of applied linguistics, language testing has developed into a relative independent subject. Validity and reliability is the most important two criteria of language testing and the relationship of both is the ultimate issue. This article makes comments on the two criteria in detail. Validity is concerned with if a test measures accurately what it is intended to measure. Reliability means the quality of being reliable on consistency. This article puts emhasis on validity and also explains the testing methods of validity as well as the relation between validity and reliability. [Key words] Language testing validity reliability 一、引言语言测试学作为应用语言学的一个分支,现已发展成一个相对独立的学科。信度与效度原是计量学中的两个重要概念,30年代被引入语言测试领域,60年代以Lado等人为代表的结构主义测试学家对这两个概念进行了系统的阐述和论证,标志着语言测试已形成科学的体系,成为一门独立的学科。可以说语言测试理论和实践上的发展和纷争都是以信度与效度为主线进行的,信度与效度是语言测试的永恒主题。二、效度( Validity) 效度是一个相对概念。效度的有效性总是相对于一定的目的、功能和范围而言。效度具有相对性:任何测验的效度是对一定的目标来说的,或者说测验只有用于与测验目标一致的目的和场合才会有效。同时,效度具有连续性,测验效度通常用相关系数表示,它只有程度上的不同,而没有“全有”或“全无”的区别。根据美国心理学会1974年出版的《教育与心理测试标准》一书,考试的效度可分成三大类:内容效度(Content Validity)、构想效度(Construct Validity)和效标关联效度(Criterion-related Validity)。 (一)内容效度(Content Validity) 内容效度指的是测验题目对有关内容或行为取样的适用性,从而确定测验是

语言测试中结构效度的实现

【语言学研究】沈阳师范大学学报（社会科学版） Journal of Shenyang Normal University(Social Science Edition) 2012年第1期第36卷（总第169期） №1,2012Vol.36General,№169 语言测试中结构效度的实现马蓉（辽宁省文化艺术职工大学基础部，辽宁沈阳110180） [摘要]作为一门独立学科，语言测试是检验和评估教学效果和学习效果的重要手段。结构效度是实现语言测试目的的基础，决定了测试的目的和收集证据检验测试的有效性。而针对不同的受试者测试会有所倾向，产生测试偏见，影响结构效度的实现。科学性的语言测试要求测试者在测试始终合理有效的规避测试偏见，实现结构效度，使语言测试更科学。 [关键词]语言测试；结构效度；测试偏见[中图分类号]H0-0 [文献标识码]A [文章编号]1674－5450（2012）01－0117－02 [收稿日期]2011－11－10 [作者简介]马蓉（1977-），女，辽宁沈阳人，辽宁省文化艺术职工大学讲师，教育学硕士。语言测试是检验语言水平和能力的重要途径，既受测试信度、效度和区分度的影响，也与受试者个人的特征密切相关。而效度即是考查测试者想要测量的内容，是实现测试的重要方面。在构建测试效度时应避免受试者个人特征对测试表现的影响，也就是避免测试偏见，才能测试出受试者语言能力的真实水平。一、语言测试中的结构效度（一）结构效度的概念 Lyle F.Bachman 在他的Language Testing in Practice (《语言测试实践》)一书中指出：所谓结构效度，从属于对语言测试分数所作的解释的意义性和合理性，这就意味着对测试分数的解释就是对受试者语言能力的评估[1]。Bachman 认为通过结构效度，我们不仅可以评估想要测量的受试者的语言能力，还可以通过对测试分数的解释来判断测试所采用的目标语使用语域是否合理。结构效度的概念最早是由Cronbach 和M eehl 共同提出的，在Construct validity in psychological test 中，他们认为“结构是人们假想的属性，可以在测试的行为中反映出来。 ”[2]这种结构是抽象的，反映了人类某些不能被直接测量的行为，如人的智力、态度和理解能力等。所以，通过结构这一概念的使用，语言测试者可以设计一个合理的测试来测量欲测的受试者的语言能力，并通过测试成绩加以证明，实现结构效度。简言之，结构效度就是对测试分数的解释，从而评估受试者的语言能力和测试任务的特点。（二）结构效度的构建由于欲测的能力不能被直接观察到，测试者必须通过可直接被观察到的表现作出推断；并且，预测的能力是理论上的定义，测试者需预先假设预测能力会影响受试者使用语言的能力和其在语言测试中的表现；所以在构建具有效度的结构时，测试者需要测试预先定义的测试分数和预测能力的假定关系。那么，构建一个语言测试的结构效度，根据Popham 的理论：首先要提出一个假说性结构，假设用其解释测试表现；然后从产生结构的理论中推导出关于测试表现的若干假设；最后用逻辑和经验的方法检验这些假设[3]。（三）结构效度对于语言测试的重要性“结构效度是所有的各种效度之本，是结构效度决定了整个考试的性质，决定了考试属于哪个体系。”[4] 结构效度决定了语言测试的方向和内容，关系到测试者对测试分数所作的解释的真实性和合理性，从而推断此次测试是否能够测量出受试者的真实语言能力，所以结构效度对于语言测试尤为重要。二、影响结构效度的语言测试偏见（一）语言测试偏见的概念语言测试偏见（test bias ）是指在测试过程中，由于个性特征的不同和测试任务的特点而导致受试者在测试中的表现不同，这种不同可以影响测试者基于测试分数而对受试者的实际语言能力作出的评估[5]。对于语言测试的受试者，其真实的语言能力和个人因素共同作用而影响其在测试中的表现。受试者个人因素包括语言能力（语言知识、策略能力或元认知能力）、话题知识和情感图示。测试偏见是形式多样的，如对测试分数的错误理解、性别歧视、种族歧视、对受试者水平的错误评估、测试内容对部分受试者具有倾向性、不恰当的选拔程序、不充分的标准评估和不适宜的测试气氛和环境。在实际的语言测试中，由于不能清楚地将文化和教育背景与我们欲测的语言能力区分开，导致测试偏见更为复杂。 ·117·

语言测试效度二十年研究综述

Modern Linguistics 现代语言学, 2017, 5(2), 136-140 Published Online May 2017 in Hans. https://www.360docs.net/doc/0816896669.html,/journal/ml https://https://www.360docs.net/doc/0816896669.html,/10.12677/ml.2017.52019 文章引用: 刘晓燕. 语言测试效度二十年研究综述[J]. 现代语言学, 2017, 5(2): 136-140. A Research Review of Validity of Language Testing of Twenty Years Xiaoyan Liu School of Foreign Languag, Lanzhou University, Lanzhou Gansu Received: May 12th , 2017; accepted: May 22nd , 2017; published: May 25th , 2017 Abstract Language testing is an important field in linguistic research and a significant step in language teaching. Researches on language testing play a vital role in the contents and forms of testing. This article, based on the researches theoretically and empirically in validity of language testing, sum- marizes the research results during 20 years in order to help more researchers who are interested in this field to better understand validity of language testing and provide practical uses for future teaching and scientific researches. Keywords Language Testing, Validity, Construct Validity, Language Competence, Unitary Validity Theory 语言测试效度二十年研究综述刘晓燕兰州大学外国语学院，甘肃兰州收稿日期：2017年5月5日；录用日期：2017年5月22日；发布日期：2017年5月25日摘要语言测试是语言学研究的一个重要领域，是语言教学的一个重要环节，研究语言测试，对于测试的内容和形式具有重要的指导意义。本文基于研究者们具体对语言测试效度这一具体方面从理论和实证两个方面出发，综合概括近二十年对语言测试效度的研究成果，以期帮助更多研究者或相关领域的学者更好地认识理解语言测试的效度，对将来的教学和科研工作有一定的帮助。

(完整word版)英语测试理论及方法课程教学大纲.docx

《英语测试理论及方法》课程教学大纲课程编码： 30615027学分：2总学时：36 说明 [ 课程性质 ] 《英语测试理论及方法》为英语专业的专业选修课。 [ 教学目的 ] 通过对考试流程中主要环节的介绍和演示，让学生了解语言测试的基本理论及具体操作方法，以便使他们在未来教学实践中提高命题水平和考试质量。 [ 教学任务 ] 在介绍国内外语言测试领域最新理论研究及实践的基础上，结合我国英语教学实际及学习特点，让学生了解语言测试流程中的诸多环节，如考试的宏观，微观功能，考试总体设计，掌握单项语言能力 /技能的测试方法，包括命题，施考，考试分析及考试信息反馈。 [ 教学内容 ] 英语测试概述、考试功能及其类别、考试要素、考试规范的制定、测试评估手段及其功能、阅读测试、写作测试、听力测试、口语测试、试卷设计与施考事项、考试成绩反馈、考试成绩分析 (1) 、考试成绩分析 (2) 、 [ 教学原则和方法] 教学原则：本教材使用主要体现以人为本的思路，采取启发式教育方法，鼓励学生积极思考，在学习过程中发现和解决问题。教学方法：讲授与讨论实践相结合。 [ 先修课程要求] 语言学基本理论 [ 学时分配 ] 本课程在第七学期开设，共一学期，每周 2 学时，共36 学时。序号内容 1英语测试概述、考试功能及其类别 2考试要素、考试规范的制定 3测试评估手段及其功能、阅读测试 4写作测试、听力测试5口语测试、试卷设计与施考事项学时安排理论课时实验课时习题课时上机课时小计426 426 426 426 426

6考试成绩反馈、考试426成绩分析 (1) 、 (2) 总计241236 [ 教材及必要参考书] 教材 :邹申参考书 :武尊民杨任明《简明英语测试教程》高等教育出版社, 2000《英语测试的理论与实践》外语教学与研究出版社年。 , 2002年。大纲内容第一部分英语测试概述 [ 教学目的和要求] 教学目的：了解语言测试的基本理论及近些年测试方面的发展动态，在教学中正确，恰当地使用测试。教学要求：掌握语言测试的基本理论。 [ 内容提要 ] 第一节一、四种英语语言测试法二、近 20 年的发展动态三、当代国内外大规模考试一览 [ 教学重点与难点问题] 教学重点：四种英语语言测试法教学难点：语言测试的基本理论 [ 复习思考题 ] 1.英语测试领域里是否有不同的语言测试法? 2.在过去 20 年中英语语言测试界所关注的热点有那些? 第二部分考试功能及其类别 [ 教学目的和要求] 教学目的：关注考试广义上的作用和意义。教学要求：掌握考试的功能及其分类。 [ 内容提要 ] 第一节一、测量、考试与评估二、考试功能三、考试类别 [ 教学重点与难点问题] 教学重点：考试的功能及其分类教学难点：考试的功能 [ 复习思考题 ] 1.教学过程中为什么要考试? 2.除了教学外考试，还有其它用途吗?

语言测试主要内容

考试信度：考分的一致性。考试效度：考试达到其预期测试意图的程度。交互性：指在考试所设计的任务中学生的参与程度。直接考试：学生被要求直接运用被试的技能或能力。间接考试：测试那些相关技能、以达到评估能力的目的。诊断考试：此类考试旨在了解学生在某个阶段中学习上的长处与短处，其最终目的是为了给教师提供教学效果或质量方面的信息。整体评分法：把作文视作一完整的篇章，根据对其总体印象打分。原始分数：未经处理或未加权重的分数。考试：用来获取某些行为的方法，其目的是从这些行为中推断出个人具有的某些特征。 1.根据考试的方式，考试的分类：1直接考试(①侧重考试形式的真实性②便于从总体上考查产出性技能，如口语能力、写作能力、翻译能力等③从命题人员的角度出发,直接考试具有比较明确的测试目标)2间接考试(①不强调考试形式上的真实性,即考试形式无需与实际语用环境相一致②由于不受语用环境的限制,所选择测试的技能可以更具有代表性和概括性③间接考试可选用多项选择题型,可以提高考试信度。) 2.常用的口试形式及特点：①朗读：学生事先在规定时间里浏览朗读材料，然后朗读。材料的长度视考试难度或学生水平而定，可以是单句，也可以是段落。但是，朗读作为口试形式只测试学生的语音语调等，无法检查整体口语能力。②看图说话：给学生一幅或多幅图片，让他们描绘或叙述图中所发生的事件。③简短说话：是一种弹性口试形式，即在难度上有伸缩性，可以是一个三言两语的形式，也可以是一个时间较长的形式。④对话：在一个假设情景中进行，学生之间或学生与考官之间根据情景要求进行对话。对话者既要运用一些常用会话技能，同时还要运用解决沟通问题的技能。⑤小组讨论：学生们就一个话题展开交流，一般控制在三四个人左右。⑥面试型口试：基本上采取问答形式，但又不同于简单的一问一答形式。考官通过各种提问技巧，从多个层面来观察学生的口语能力。 3.如何评阅作文，特点？⑴整体评分法①节省评阅时间②阅卷人员注重作文的整体质量③它的问题主要表现在阅卷人员对标准的理解和掌握上，以及所定档次标准瑜现实作文之间的吻合性。⑵分析评分法①阅卷人员明确具体评分方面②组成部分之间的评分不相互干扰或影响③其存在的第一个问题是把写作能力人为地分割成互不关联的部分④第二个问题起源于第一个问题，写作能力划成单独的部分后就涉及分值分配，即某个部分占总分的比例，这样的比例分配值得进一步商榷。两种评分标准的使用场合：要考虑三个因素：阅卷时间、阅卷方式、阅卷人员的经验。在阅卷时间较紧的情况下，最好采用整体评分法，比较省时。集中阅卷时用整体评分法较合适，因为便于两人或三人交换打分。分散阅卷最好使用分析评分法，分项评分可以减少评分盲目性和任意性。如果阅卷人员经过培训，并且有过去阅卷的良好记录，则可采用整体评分法。若阅卷人员大都没有阅卷经验，采用分析评分法较为妥当。四种语言测试方法：写作-翻译法,主要特征：Ａ、对测试的技能或专长没有特殊的要求，主要依靠教师的主观判断力；Ｂ、试卷通常包括翻译、写作和语法分析等项目；Ｃ、试卷内容带有较浓厚的文学或文化色彩；Ｄ、试题一般采用书面回答形似，试卷需人工评阅。由于写作-翻译法全以教师或命题人员的经验和主观判断来确定，没有什么科学理论依据，故20世纪40年代以前的测试统称为科学前语言测试。结构主义/心理测试法,主要特征：Ａ、一道题可以单独测试一个语言成分或技能：以结构主义语言学为其理论基础；强调不同的语言成分可以分别测试，比如语音、语法和词汇都可以脱离上下文进行单独的测试；Ｂ、采纳了心理测量学的一些方法，强调语言测量的可靠性和客观性。代表题型：多项选择题，一题测一分，适合进行考后统计分析。综合测试法,主要特征：Ａ、语言测试要在一定的上下文（context）中进行；Ｂ、不在测试中可以追求区分各单项语言成分、技能或能力、强调两项或两项以上的综合评代表题型：完形填空交际测试法Ａ、考试内设计“信息沟”，要求学生通过各种已溃入的信息来获取未知信息；Ｂ、考试任务或项目之间存在关联性，即一个项目要在另一个项目的基础上完成；Ｃ、考试强调针对性，根据学生的具体需要设计考试内容；Ｄ、侧重更广泛地测试语言能力，包括语言知识、语言功能、语言使用的合适性等Ｅ、考试采用定性评估方式，以取代纯粹的定量评估方式或作为补充。交际法与综合法在某种程度上有相似之处，即两者都强调语言的意义而不是语言的形式和结构；区别在于交际法更注重语言在交际中的使用。测量：根据明确的程序和规则量化研究对象特征的过程。评估：为决策而系统地收集信息的过程。考试功能：教学功能，科研功能根据考试目的分类：水平考试，学业考试，分级考试，诊断考试根据语言测量形式分类：分离式考试，综合式考试测试考试信度的方法：①重复测试法②平行卷测试法③对半分析法表面效度：表面可信度或公众可接受度。效度与信度的关系：一个考试要具有效度的话，首先必须具有信度。信度是保证考试效度的必备条件之一。考试要素：考试信度，考试效度，真实性，交互性，后效作用，可操作性正误判断题：通过正误判断来检查学生对某一细节的理解,或对某一概念的掌握等。匹配题：可用来考核词汇知识、语法知识、对概念的理解、事实或观点之间的关联等。多项选择是目前考试中用途最广，最常见的考试形式。组成：题干，备选项补全句子：语法，交际能力完形填空题：一般按照两条原则删除单词或词组，固定删除(按照固定间隔删除-每隔6个单词删除一词)和选择删除(无提示型，提示型，首字母提示型，多项选择型，混合选择型) 转换题：1排序题(考查①学生对英语句子基本概念的掌握②对篇章的理解和篇章知识的运用) 2句型转换题(特点：①侧重在句子与段落层次上检查学生的语言水平②着重测试英语书面表达能力的某些方面) 阅读目的：生存目的,学习需要,休闲需要阅读方式：泛读，精读，跳读，寻读阅读技能包括：词汇知识，语法知识，以及各种篇章理解技能。选择答题类评估方法：1.正误判断题：可用来测试mechanical skills和language use 2.匹配题：可用于测试language use和organizational skills 论述题：由3部分组成：提示.题目.要求整体评分法：把作文视作一完整的篇章，根据对其总体印象打分。hearing指无意识地听到周围的声响或信息。listening指有意识地去听周围的声响或信息。听写：单句听写，段落听写口语活动的特点：①交互性②目的性③准语言性④非语言性⑤听力与口语的不可分割性口试评分标准：整体评分法+分析评分法成绩报告形式：百分制，等级制算术平均数，中位数，众数三者之间的关系：①当频数分布呈正偏态时(即平均数以下的分数多于平均数以上的分数)，算术平均数＞中位数＞众数②当频数分布呈负偏态时(即平均数以上的分数多于平均数以下的分数)，算术

效度在语言测试中的重要性

效度在语言测试中的重要性李建华 (华中师范大学外语学院,湖北武汉 430079) 收稿日期:2002-11-01 作者简介:李建华(1963-),女,湖北南漳人,华中师范大学外语学院英语系教育硕士研究生,研究方向:英语教学。摘要:讨论了效度在四种测试中的重要作用,以及各种效度之间的关系,说明要想达到测试的目的,设计试卷一定要把握好效度这个标准。关键词:语言测试;测试效度;考试中图分类号:G449 文献标识码:B 文章编号:1671-914X(2002)04-0066-02 为了设计一套好的试卷,必须有一个标准,那么标准是什么呢?一般认为,一个好的测试必须满足四个要求:效度、信度、区分度、实用性。下面我们主要讨论效度在测试中的重要性。所谓效度就是测量考试的一个尺度,为了提高测试的效度,必须把效度和某种标准联系起来。一般来说,效度有五种类型,它们是:表面效度、内容效度、编制效度、共时效度、预示效度[1]。不同种类的效度要求不同种类的标准。1 效度在测试中的作用 1 1 内容效度、表面效度在测试中的重要作用。内容效度对成绩测试很重要,成绩测试是考查学生对所学知识的掌握,它一般要参考某种教学大纲,甚至考虑到教学方法。内容效度应该考查的语言要素和技能都要有所体现。成绩测试和诊断测试尤其要注意符合教学内容。当设计成绩测试时,试题是否适合被测试者或者试题是否有效,就内容和表面两方面而言,我们可用内容效度和表面效度作为标准进行测量。进行测试时,所有教过的东西都应该在检测范围内,并应注意具有代表性的试题应占一定的比例。如果你教过的主要内容,未被检测,那就是教和学的脱节。像这样的测试题就没有内容效度。例如:测试发音时,如果只测试单个的音节,这种测试是无内容效度的。如果所含内容覆盖很广、有代表性、内容均衡,这样的测试我们就认为有内容效度。各种类型考题应占的比例应依据本阶段所学内容和考试大纲确定,对那些具有代表性的重点内容应占较大比例。试卷的表面效度对成绩测试的效果有很大影响。如果卷面适合老师、测试者和被测试者,那就说明该份试卷具有表面效度。例如一个专家为某个国家设计了一套试题,拿到另一个国家就会失去表面效度。如在英语阅读测试里有一些熊猫、舢板、算盘、筷子等词汇,在中国有效, 拿到非洲就不行了[2] 。具有表面效度的测试容易引起应试人的兴趣。表面效度包括试卷的干净、整洁、字母的清晰度、没有污迹等等。试卷有了表面效度,对被测试者来说就有了动机、兴趣,就会尽最大努力去做题。 1 2 编制效度、共时效度、预示效度在测试中的运用。编制、预示效度在测试中也很重要,尤其是在水平测试中。共时效度是一次测试的结果同另一次相近的有效测试的结果相比较,如果得分情况相似,那就说明这两次的测试就有较高的共时效度。例:一组学生刚刚考完了自学考试没过多久又参加了成人高考,如果得分相似我们就说这两次设计的试题有较高的共时效度,因为它们所测的语言技能是相同的。预示效度是指一次测试的结果同后来的知识能力相比较,当测试效果与后来有效测试相符合时,测试就被认为有预示效度。如有一组学生这次考了由本校出的题,下次他们要考由另一个学校出的题,如果两次的分数相似,我们就可以说试卷有较好的预示效度。编制效度在水平测试中也很重要。编制效度是 66 2002年12月第1卷第4期襄樊职业技术学院学报 Jour nal of Xiangfan V ocational and T echnical College Dec 2002 Vol 1No 4

试卷分析：信度、效度、难度和区分度

附件6、难度、区分度、信度和效度的一般说明一、难度难度是指试题的难易程度，它是衡量试题质量的一个重要指标参数，它和区分度共同影响并决定试卷的鉴别性。一般认为，试题的难度指数在－之间比较合适，整份试卷的平均难度最好在左右，高于和低于的试题不能太多。 1、难度的两种定义（1）P=1－x/w 其中：x为某题得分的平均分数，w为该题的满分。这种定义法，难度值小时表明试题容易，值大时表明试题难，最小值为0，最大值为1。（2）P=x/w 这种定义法，难度值小时表明试题难，值大时表明试题容易，最小值为0，最大值为1。 2、难度的计算（1）主观性试题的难度 A、基本公式法：P=1－x/w B、极端分组法 P=1－(XH+XL)/2W 其中：XH为高分组的平均得分（前27%），XL为低分组的平均得

分（后27%）。（2）客观性试题的难度 A、基本公式法：P=1－R/N 其中：R为答对人数，N为全体人数。 B 极端分组法： P=1－（PH+PL）/2 其中：PH=RH/n叫高分组通过率，RH为高分组答对人数，n为总人数的前27%。PL=RL/n 叫低分组通过率，RL为低分组答对人数。二、区分度区分度是区分应试者能力水平高低的指标。试题区分度高，可以拉开不同水平应试者分数的距离，使高水平者得高分，低水平者得低分。而区分度低则反映不出不同应试者的水平差异。试题的区分度与试题的难度直接相关。通常来说，中等难度的试题区分度较大。另外，试题的区分度也与应试者的水平密切相关，试题难度只有等于或略低于应试者的实际能力，其区分性能才能充分显现出来。 1、区分度指标的评价 ≤D≤+，区分度指数越高，试题的区分度就越强。一般认为，区分度指数高于，试题便可以被接受。 2、区分度的计算方法（1）基本公式法：D＝（H－L）/N 其中：D代表区分度指数，H代表高分组答对题的人数，L代表