语言测试中结构效度的实现

合集下载

语言测试中的效度问题

代衷镪窖强性试题覆盏觇氮识两广采棒多
一任务。水平没有直接联系。的语言能力，因潜能测试：语言的天赋。它关心学生目前是通过考查学，Ｉ－理论和学习理ｔ度。诊断测试ｊ出补救的办法。首先要考虑内
参考文献：
一铨理想蚋试巷泣该鼬具南镊甍懿议葭学习语言的潜
：重要的指标，它
女度很低的语言
一
一莲一濑翔敢霞越 ¨ 畸、ｊｌｉ一步提高英ｃ｜语ｚ
是拿簪疆灏聚螽采语言锈力耦匕的即规定了大！
次大学入学考较或后孚学咻糨始孺出ｉ的。与此相适】目是：ｐｏ系数题Ｉｈ一ｓ镪妞， —缉学生兮年参了我包己设粥听力理解、讯阅谤这个题目要求泓试呗年又叁弧了甏镢考试聚礴嵌得分慵ｌ作。复合式听！掇
充令包括考试大度较高是语言测试不能完全由客观洼蠢构但ＩＩ．ａ２．Ｈｅ】Ｂｔ则试就谈不上具藏ｉ盈包括以餮翻译以及写作为代表的茔［英语测试）．外｛
ｊ这是因为没有。观性试题主观性试题虽然容易受评卷人的影响［ＬｌＥ３ｙＢ］ｅ
平的重要手段。设
定的标准，如效个非常重要的十者想要考查的ｒ想要考查的内
一
游聚０或龋学茔１稚｜枢譬｜一点。它根据《
Ｉ辕雨镰出鹋系数’ 祸令值啦也。弧一组｜标考核修完大生黜参大学英语缀考疆着又考羲讯平。式≯ 大学英语词自己设诗鹤—套题 ’ 弧果贷耦似强的阅读能力ｊ喂我稍试然较高甑叛霞善ｍｌ薯｜生能以英语为

十一语言测试的效度

十一语言测试的效度1 效度（validity）● A measure is valid if it does what it is intended to do, which is typically to act as an indicatorof an abstract concept (for example height, weight, time, etc.) which it claims to measure.The validity of a language test therefore is established by the extent to which it succeeds in providing an accurate concrete representation of an abstract concept (for example proficiency, achievement, aptitude).●效度就是测验测到它打算测的东西的程度，或者说，是根据测验分数所作出的推论的恰当性程度。

一项语言测试，它测的到底是什么；对设计者打算测量的某种心理属性，它测得的程度如何；根据测试的结果，可以作出怎样的推论与解释。

诸如此类的问题都与测试的效度有关。

2 效度的种类效度通常有如下几种：●结构效度/构念效度/构想效度（construct validity）●内容效度（content validity）●效标关联效度（criterion-related validity），包括⏹同期效度/同时效度（concurrent validity）⏹预期效度（predictive validity）●表面效度/表层效度（face validity）（1）结构效度/构念效度/构想效度（construct validity）●概念构想效度是指测验成绩能够解释心理学理论上的某种结构或特质的程度。

语言测试中的构念效度研究

知识文库第14期64 语言测试中的构念效度研究王天予1.引言在考虑到语言测试发展、解释和使用时首要考虑的就是效度。

那么什么是构念效度？如何更好地理解构念效度？该效度与其他效度的不同之处是什么？2.构念及构念效度 2.1构念要想理解什么是构念效度，首先要明白什么是构念（construct）。

从心理学的角度来看，构念指的是人类头脑中存在的一种特质、水平、能力或技巧（Brown,2000:9）。

在教育测量领域，构念就是一种能力（Wiley,2002)，“指成功完成特定任务所要求的人类特征”。

Ebel 和Frisbie（1991：108）将构念解释为“有关人类行为某一方面的心理构建或理论概念，是既不能够直接测量也不能够直接观察的。

”构念效度是指某个心理测验在多大程度上正确地验证编制测验的理论构想。

《标准》（APA，1999）将构念视为一个测验拟测的概念或特征。

这是从广义上将构念来指测验所涉及测量的概念或特征。

实际上，构念的选择对考试内容、考试方式和分数意义的解释息息相关，是效度研究的基础，也对考试的设计和评价起着重要的作用。

2.2 构念效度如何更好的理解构念效度呢？在教育测量领域，上述讨论的内容效度、准则关联效度和构念效度这三种类型效度都是作为整体构念效度的不同方面。

语言测试者认为这种把构念效度作为整体观点是一种新的发展。

理论界对构念的定义有不同的看法，因此，通过识别他们是如何解释应答一致性来定义构念（Messick 1981) 。

Loevinger（1957:636）最早提出要把构念效度作为整体效度来看待。

在80 年代, 这一观点逐渐得到人们的认同: 构念效度不再作为效度的一种证据，而应包括内容和标准证据、信度及其它与理论验证有关的方法 (Messick 1975, 1980, 1988, 1989; Anastasi 1986)。

其中影响最大的是 Messick 的“效度整体观”。

Messick （1988,1989）进一步丰富了效度理论，对测试的解释和使用提供了证据基础。

英语语言测试中效度的测量与估计

英语语言测试中效度的测量与估计沈阳师范大学大学外语教学部许亚楠一、效度的基本概念（一）效度的定义及分类不同的语言测试学家对于效度这一概念的界定也不尽相同。

巴奇曼在《语言测试要略》中认为，“效度是对实证证据和理论原理在多大程度上支持基于测试的推断和行为的充分性和适当性的综合评价判断”。

换句话说，效度其实就是指一项测试中测量结果的准确性和有效性的程度，即测量是否达到了预期的目的。

效度通常可以分为构念效度、内容效度、预测效度、表面效度以及方法效度五种。

构念效度是指我们对于根据测试成绩对评价测试结果的解释是否是恰当且有意义的，即在多大程度上可以说一次测试成绩能够反映考生具备所考查的语言能力。

内容效度是指测试内容反映测试目的以及能够达到预期考查效果的程度。

预测效度是指测试结果能够在某种程度上预测出学生在未来学习中的表现和成就。

表面效度指的是一项测试能够测量出它想要测量的内容，这一概念其实和内容效度是有交叉的。

方法效度则一般用来评价测试方式与测试目标之间的关系。

（二）影响测试效度的因素测试效度的高低受到许多方面因素的影响，主要包括测验组成、测验实施、被试主观状态、效度效标和样本选择五个方面。

测验的效度与测验的取材和长度、测试题的难度、区分度及其编排方式等密切相关。

要想保证测验效度，主试应该适当控制测验环境，例如场地、材料、考试说明、考试时间等。

另外，被试对测验的态度、情感以及自身的身体健康状况都会影响测验结果的准确性和有效性，同时选择合适的效标也是估计效度所要依据的条件。

最后在样本选择上要尽可能地增加样本容量以减少测量误差，使所得的测量结果处于相对稳定的状态。

（三）提高效度的方法测试者可以通过控制系统误差、精心编制量表、妥善组织测验、扩充样本容量、增加测验长度等方法来有效提高测试效度。

效度的高低主要受到没有校准仪器、测试题目和指导语具有暗示性、答案有明显的组型等系统误差的影响，所以必须严格控制这些干扰因素。

语言测试构念效度

持续改进测试
根据测试结果和反馈，对测试进行持续改进，优化试题设计、评分标准和考试流程，进一步提高语言测试的构念效度和实用性。
05
结论和展望
主要结论汇总
语言测试构念效度是评估语言测试结果是否真实反映被测者语言能力的重要指标。
研究表明，有效的语言测试应该具备清晰的目标、真实的任务、可靠的评分方法等特征。
03
语言测试构念效度的实证研究
研究设计
明确研究目标
首先，需要明确语言测试构念效度的具体目标，例如，是要验证某一特定语言测试的构念效度，还是要比较不同语言测试的构念
效度。
选择适当的受试者
受试者的选择应当代表语言测试的目标人群，以确保研究结果的普遍性。同时，受试者的数量也应足够，以满足统计分析的要求
。
设计测试任务
测试任务应能全面反映语言能力的各个方面，包括听、说、读、写等。任务的难度和长度应适中，以避免受试者产生疲劳或厌倦
。
Hale Waihona Puke 数据收集和分析方法数据收集
收集受试者在语言测试中的表现数据，包括得分、反应时间、错误类型等。同时，也可以收集一些背景信息，如受试者的年龄、性别、母语等。
数据分析
可以采用定量和定性两种分析方法。定量分析可以通过统计方法，如相关分析、回归分析等，来探究语言测试和语言能力之间的关系。定性分析可以通过对受试者的表现进行深入观察和分析，来获取更丰富的信息。
构念的理解
构念可以是理论构念，也可以是经验构念，它们都是对某一现象或事物的抽象描述。
构念效度的评估方法
内容效度评估
通过检查测验内容是否充分、全面地反映了所要测量的构念
来进行评估。
结构效度评估

浅析语言测试中信度与效度两者之间的关系

浅析语言测试中信度与效度两者之间的关系语言测试在语言教学中处于中心地位，是从属于应用语言学这一学科的。

在过去语言测试在应用语言学中处于边缘地位，而在长达三十多年的发展中，语言测试现已发展成为一个相对独立的学科，已经在学术上占有了一席之地。

通过语言测试教育者可以及时发现学习者学习上存在的不足之处并在日后的教学过程中加以正确引导，也可以衡量教学任务和教学大纲的执行情况，但是这些都是基于科学的语言测试能够得到良好的反馈情况，反之，如果是一套不科学的语言测试就很可能对学习者做出错误的判断从而影响学习效率，所以科学的语言测试无论是对受教育者还是对教育者来说都是非常重要的。

一套设计比较科学的测试应该是具有信度，效度，难度和区分度四点特征，信度与效度是难度和区分度的基础，同时也是语言测试的两大根本要求，只有正确认识了信度与效度两者之间的关系才能寻找出一个科学的方法使得语言测试更加科学准确。

信度指的是测量的一致性，一个实验或测试的信度指它在重复测量时产生同样结果的程度，也就是说测量的稳定性是否一致。

影响信度的因素很多，其不仅存在于考试过程中的各个环节，也存在于阅卷的过程中，如试卷中的试题长度偏长，项目种类多，那么测试的信度就会提高，反之则会降低，考试分数集中于某一点或某一个区域时信度也会有所降低；考试期间考生时间充裕那么估算能力考试的信度也相对较高等等，这些都是存在于考试过程中各个环节的部分举例，在阅卷过程中阅卷者自身的信度和阅卷者之间的信度等问题也是影响信度的因素之一，如在评阅主观性的题目时（作文，口语等），阅卷者在评分时就具有很大的主观色彩，而不同的阅卷者掌握的主观的评分标准在评阅主观性试题时，不容易取得一致，也会使得测试的信度不稳定。

效度指的是我们所获的证据在多大程度上支持我们根据分数所做出的推断，也就是考试是否检测到了它所要检测的东西，是否达到了它的预定目标。

效度共分为三种不同的类型，其不同类型的效度测试有各自不同的测试着重面，内容效度测试的目的是为了了解测试者在一些实际环境中是如何运作的，如果测试的样本能够充分代表总体，那么测试在内容上就是有效的，反之效度则不高；预测效度和共时效度都是属于与标准有关的效度，预测效度是标志测试者将来能力的标准，如通过摸底考试分班，共时效度是指一个测试结果与另一个同时使用的标准的结果的关系;构想效度是指要考察一个测试者在多大程度上和我们根据某一理论所作出的预测是否一致，也就是说验证的是我们所做的假设是否有效。

基于计算机的语言测试及其效度验证_李清华

1.引言在过去近一个世纪里 , 计算机技术改变着人类的生活、工作和学习 ( C h a l h o u b D e v i l l e 2002) ; 计算机技术的出现堪称人类文明发展新的转折点 ( P r o v e n z o , B r e t t ＆M c C l o s k e y 1999) 。近五十年来 , 随着语言学、认知科学和测量学等相关学科的不断发展 , 计算机技术对语言测试与评估也产生了巨大影响。特别在测试管理、试题设计编写、任务呈现、评分、成绩分析与报道等方面 , 计算机的高效率受到越来越多大规模语言测试开发和管理者的青睐 ( A l d e r s o n ＆B a n e r j e e 2002) 。现代语言测试的语言学基础经历了数次革新 , 测量学理论由经典测试理论 ( C l a s s i c a l T e s t T h e o r y ) 发展到概化理论 ( G e n e r a l i z a b i l i t yT h e o r y ) 和项目反应理论 ( I t e mR e s p o n s e T h e o r y , I R T )( 李清华 2006a ) 。计算机技术的发展促使语言测试的介质发生了变化。传统的基于纸笔的语言测试 ( P a p e r a n d P e n c i l B a s e dL a n g u a g eT e s t i n g , P B L T ) 正在向基于计算机的语 ① 言测试 ( C o m p u t e r B a s e dL a n g u a g eT e s t i n g , C B L T ) 迈进。 C B L T 由机助语言测试 ( C o m p u t e r A s s i s t e dL a n g u a g e T e s t i n g ) 发展到计算机适应性语言测试 ( C o m p u t e r A d a p t i v e L a n g u a g eT e s t i n g ,

交际语言测试的基本理论与评估原则

交际语言测试的基本理论与评估原则敏≮if.2007.9(上旬刊)交际语言测试的墓牵理论与许结原则口洪丽燕(黄冈师范学院外国语学院大学英语教学部湖北?黄冈438000)摘要有教学必然有测试,本文探讨了交际语言测试的发展.交际能力的内涵和交际测试的评估原则,对我国广大外语教师有着重要的借鉴作用.关键词交际语言测试信度效度真实性中图分类号:HO文献标识码:A语言测试衡量学生对某一语言掌握的程度或所达到的水平.其作为--1'3学科,主要研究语言测试的原则,规律,内容,设计,评估及结果分析等方面,具有多科性的基础.作为一名语言教师,若要使自己的试题设计具有科学性,合理性,学习了解语言测试的基本理论与其评估标准是不无必要的.一,语言测试的体系的变迁纵观外语教学测试的历史,李筱菊从发展的角度提出了三代不同的测试体系:科学前测试体系,结构主义测试体系和交际测试体系.第一代体系在测试上体现为科学前语言测试.第一代外语教学和测试体系的语言观的内涵是语言是一套知识.到了2O世纪4O年代,以美国语言学家Bloomfield(1933)和Fries(1945),Lado(1957)等为代表的结构主义语言学派,在测试方法上吸取了心理学领域的心理测量学的科学方法,形成了心理测量学一结构主义语言学测试.从7O年代开始,以Savignon(1972)和Widdowson(1972)等为代表的语言学家提出了新的语言教学体系一交际语言教学.这个体系认为学语言不仅仅是学语音,语法,词汇知识,也不仅仅是训练操作形式符号的技能,而是获取人与人交际的一种能力.二,交际语言测试的基本理论:语言交际能力交际语言测试理论的核心是交际能力的学说,不同的语言学家对交际能力的阐述,代表了交际语言测试的三个发展阶段.1972年Hymes首次提出交际能力包括四个方面:可能性,可行性,确当性及有效性.CanaleandSwain(1980)~t1认为交际能力包括语法能力,社会语言能力,语篇能力和策略能力四个方面的知识和技能.2O世纪9O年代初,Bachman提出了新的交际能力理论模式. Bachman认为,语言交际能力就是把语言知识和语言使用的场景特征结合起来的能力,由三部分组成:语言能力,策略能力和心理一生理机制.Bachman的交际测试理论不仅涵盖了这两大问题,而且提出了语言测试的"真实性程度"问题,把它作为开发,评价一项测试时的标准.三,交际语言测试的评价原则:信度,效度和真实性原则近年来随着测试理论和实践的发展,Bachman和Palmer(1996)提出了语言测试设计和评价的"有用性"原.~J](usefulness).这里我们主要讨论语言测试的信度,效度和真实性原则.1.信度(reliability)语言测试的信度是指测试结果的可靠性和稳定性.测试的信度高低,受试题的量和质,考试实施,评卷三方面的因素所牵制:试题要有足够的量,确保试题区分度高,难度适中,适宜于受试群;考试实施的各种条件对所有受试者应当一致;关于评分标准,要求评分员之间保持一致(inter—raterconsistency),也要求每个评分员自身保持前后一致(intra—raterconsistency).对考试信度的验证,测试管理者还可以通过以下方法进行评估:(1)试题分半法:考后将试题号按奇数偶数分为两半,计算两半所得分数的高低排列的相关;(2)考后复考法,同一套试题让同一个受试群在正式考后短时间内,再考一次,计算两次受试者分数高低文章编号:1672—7894(2007)09—225—01排序的相关;f3)评分一再评分法:在同一标准下两位教师对同一试卷进行评分,或同一教师对试卷进行两次或两次以上的评分;(4)信度系数公式评估法,指对测试的项目和其组成部分之间的一致性程度的测试.2.效度(validity)效度.又称有效性,它是指一套测试所考的是否就是设计人想要考的内容.(1)内容效度(ContentValidity).内容效度是指考试的内容是否具有代表性和综合性,或者说是否考了应考的内容.内容效度的确定, 一般不靠统计手段,而是命题人员或审题人员对试卷的内容,题目的难易度,区分度等进行严格的分析.(2)结构效度(ConstructValidity).结构效度指测试是否以有效的语言观(包括语言学习观和语言运用观)为依据.一项测试的结构效度的高低是指考试的结果能在多大程度上解释人的语言能力及与语言能力相关的心理特征.(3)预测效度(PredictiveValidity)和共时效度(ConcurrentValidity).预测效度是指考试的结果和预言是否有效.一份具有很好的预测效度的试卷,应该能够正确地预言学生未来的行为;共时效度是用来将新的考试和已经公认的考试作比较,以便证明新的考试的效度.3.真实性(authenticity)Bachman(1991)提出应该从两方面来定义测试的真实性:(1)情景真实性,指测试方法特征与将来某一特定目的与使用的情景特征相关的程度;f2)交际真实性,指考生在完成某一测试任务时,其语言能力的哪些方面参与了完成该测试任务的活动,参与的程度如何.语言测试的真实性这一标准有助于我们设计考题时打开思路,评估试题具有新的角度,提高测试的真实性和可信度.Bachmma还提出了用以提高语言测试交际真实性的四项措施:第一,提出要求.在设计考题时可以具体说明考生只有使用何种策略才能完成该任务.第二,提供机会.即给考生提供充足的时间,必要的信息和工具等.第三,考试任务要得当.任务太难,会影响考生策略的应用.第四,考试任务要由趣味性.通过提高考试任务的情景真实性可以提高考试任务的趣味性.交际测试法是迄今为止较为科学完善的外语测试方法,交际测试将在21世纪成为外语测试的主流.我们广大外语教师应当投身于外语测试的改革当中,从我国外语教学和测试的实际出发,借鉴和发展国外的交际测试理论,使测试真正为教学服务,不断提高语言教学的质量.参考文献:【1]Baehman,LyleF.FundamentalConsiderationsinI..anguageTestingOxford: OxfordUniversityPress,1990.[2]Bachman,LF.&AdrianS.PalmerLanguageTestinginPracticeOxford: OxfordUniversityPress,1996.[3】支润青,韩宝成.语言测试和它的方法E京:外语教学与研究出版社,2000. f41李筱菊.语言测试科学与艺术.湖南:湖南教育H{版社,2001.【5】徐强.交际法英语教学和考试评估.上海:上海外语教育H{版社,2000. f6】邹申.英语语言测试理论与操作.上海:上海外语教育出版社,1998.225。

1、下载文档前请自行甄别文档内容的完整性，平台不提供额外的编辑、内容补充、找答案等附加服务。
2、"仅部分预览"的文档,不可在线预览部分如存在完整性等问题,可反馈申请退款(可完整预览的文档不适用该条件!)。
3、如文档侵犯您的权益，请联系客服反馈,我们会尽快为您处理(人工客服工作时间：9:00-18:30)。

语言测试中结构效度的实现【语言学研究】沈阳师范大学学报（社会科学版）Journal of Shenyang Normal University(Social Science Edition)2012年第1期第36卷（总第169期）№1,2012Vol.36General,№169语言测试中结构效度的实现马蓉（辽宁省文化艺术职工大学基础部，辽宁沈阳110180）[摘要]作为一门独立学科，语言测试是检验和评估教学效果和学习效果的重要手段。

结构效度是实现语言测试目的的基础，决定了测试的目的和收集证据检验测试的有效性。

而针对不同的受试者测试会有所倾向，产生测试偏见，影响结构效度的实现。

科学性的语言测试要求测试者在测试始终合理有效的规避测试偏见，实现结构效度，使语言测试更科学。

[关键词]语言测试；结构效度；测试偏见[中图分类号]H0-0[文献标识码]A[文章编号]1674－5450（2012）01－0117－02[收稿日期]2011－11－10[作者简介]马蓉（1977-），女，辽宁沈阳人，辽宁省文化艺术职工大学讲师，教育学硕士。

语言测试是检验语言水平和能力的重要途径，既受测试信度、效度和区分度的影响，也与受试者个人的特征密切相关。

而效度即是考查测试者想要测量的内容，是实现测试的重要方面。

在构建测试效度时应避免受试者个人特征对测试表现的影响，也就是避免测试偏见，才能测试出受试者语言能力的真实水平。

一、语言测试中的结构效度（一）结构效度的概念Lyle F.Bachman 在他的Language Testing in Practice (《语言测试实践》)一书中指出：所谓结构效度，从属于对语言测试分数所作的解释的意义性和合理性，这就意味着对测试分数的解释就是对受试者语言能力的评估[1]。

Bachman 认为通过结构效度，我们不仅可以评估想要测量的受试者的语言能力，还可以通过对测试分数的解释来判断测试所采用的目标语使用语域是否合理。

结构效度的概念最早是由Cronbach 和M eehl 共同提出的，在Construct validity in psychological test 中，他们认为“结构是人们假想的属性，可以在测试的行为中反映出来。

”[2]这种结构是抽象的，反映了人类某些不能被直接测量的行为，如人的智力、态度和理解能力等。

所以，通过结构这一概念的使用，语言测试者可以设计一个合理的测试来测量欲测的受试者的语言能力，并通过测试成绩加以证明，实现结构效度。

简言之，结构效度就是对测试分数的解释，从而评估受试者的语言能力和测试任务的特点。

（二）结构效度的构建由于欲测的能力不能被直接观察到，测试者必须通过可直接被观察到的表现作出推断；并且，预测的能力是理论上的定义，测试者需预先假设预测能力会影响受试者使用语言的能力和其在语言测试中的表现；所以在构建具有效度的结构时，测试者需要测试预先定义的测试分数和预测能力的假定关系。

那么，构建一个语言测试的结构效度，根据Popham 的理论：首先要提出一个假说性结构，假设用其解释测试表现；然后从产生结构的理论中推导出关于测试表现的若干假设；最后用逻辑和经验的方法检验这些假设[3]。

（三）结构效度对于语言测试的重要性“结构效度是所有的各种效度之本，是结构效度决定了整个考试的性质，决定了考试属于哪个体系。

”[4]结构效度决定了语言测试的方向和内容，关系到测试者对测试分数所作的解释的真实性和合理性，从而推断此次测试是否能够测量出受试者的真实语言能力，所以结构效度对于语言测试尤为重要。

二、影响结构效度的语言测试偏见（一）语言测试偏见的概念语言测试偏见（test bias）是指在测试过程中，由于个性特征的不同和测试任务的特点而导致受试者在测试中的表现不同，这种不同可以影响测试者基于测试分数而对受试者的实际语言能力作出的评估[5]。

对于语言测试的受试者，其真实的语言能力和个人因素共同作用而影响其在测试中的表现。

受试者个人因素包括语言能力（语言知识、策略能力或元认知能力）、话题知识和情感图示。

测试偏见是形式多样的，如对测试分数的错误理解、性别歧视、种族歧视、对受试者水平的错误评估、测试内容对部分受试者具有倾向性、不恰当的选拔程序、不充分的标准评估和不适宜的测试气氛和环境。

在实际的语言测试中，由于不能清楚地将文化和教育背景与我们欲测的语言能力区分开，导致测试偏见更为复杂。

·117·沈阳师范大学学报（社会科学版）2012年第1期(总第169期)【责任编辑赵伟】（二）可能出现的测试偏见在构建具有效度的结构时，测试者应全面考虑受试者的个性特征和测试任务特点对受试者的影响，避免测试倾向于部分受试者。

测试偏见可能涉及到受试者的文化背景、测试内容背景知识、认知特征、本土语言、民族、性别和年龄等方面；并且要具体考虑测试任务的特点是否会影响不同个体的测试表现，如在测试环境、仪式指导格式、输入、预期应试方式和输入与预期应试方式的关系方面。

（三）规避测试偏见对于实现结构效度的重要性合理地避免测试偏见，建立公平的测试环境，保证测试结果的有效性，加大语言能力对测试分数的影响，通过对测试分数的合理解释评估受试者的真实语言能力，增强语言测试的科学性。

三、合理规避测试中的偏见实现测试结构效度（一）受试者个性特征避免文化背景倾向。

Chen 和Henning 曾在研究选项反映理论时发现：在词汇选项测试中的某些测试选项会对具有特定语言和文化背景的个体有利。

如在测试中出现了决定选项答案的短语“meet one ’s Waterloo ”,对于具有欧美文化背景的受试者而言他们熟知滑铁卢之战的历史，在说起某人在某场官司或比赛中遭到失败时就会说某某遭遇了滑铁卢，如同汉语中的“败走麦城”，这就意味着这次测试对于这部分欧美文化背景的受试者具有倾向性，产生了测试偏见。

所以，在设计测试内容时，测试组织者要先调研受试者自然情况，了解其文化背景，避免出现测试倾向于部分特定文化背景的受试者。

避免测试内容背景知识倾向。

具有内容背景知识倾向的测试偏见是指在测试前受试者学习并了解某些测试内容的相关知识，特别是在阅读理解和完型填空题型中，从而导致测试中的不同表现。

如要考查综合阅读能力，测试者设计了与机械设计原理相关的阅读理解，这些测试内容对于机械设计专业的受试者具有倾向性，他们可能根据所学专业知识来解答部分选项，产生测试偏见。

测试者如果在测试中要检测总体的阅读能力，就意味着将内容知识定义成了不同于阅读能力的背景知识。

所以，在设计测试和解释测试分数时，测试者必须区分开语言熟练程度和背景知识，并且相信受试者的语言能力要在具体的语言环境中得以体现。

（二）测试任务特点合理的测试任务设置。

如果测试环境对某些受试者有利，结构效度就受到了破坏。

如在使用计算机的测试(TOEFL)中，某些受试者不熟悉操作或处理程序出现问题，测试对这些受试者不利，最后测试成绩会受测试设置的影响。

所以，测试者设计测试时要预先通知受试者测试的形式，确保设置形式每个受试者都是公平的，不会影响其语言能力的发挥。

合理的仪式指导格式。

首先测试者要预先通知受试者试题结构，如试题各部分的构成、题数、特点、顺序、重要性、分值和时间的分配；在设计试题指令时要简要清晰，指令过于复杂或使用目标语会对语言能力较强的受试者有利，影响其他受试者的表现；受试者要了解测试流程和具体时间安排；受试者了解评分机制、具体测试内容的标准答案和评分流程。

合理的输入。

如果测试者要考查写作能力，不同的作文题目会影响受试者的表现，产生测试偏见。

在测试任务的输入格式上，测试者要选择与测试内容和全体受试者语言水平相匹配的手段（音频、视频）、形式（语言、非语言或二者兼有）、语言（本土语言、目标语言或二者兼有）、长度、类型和速度；在测试任务的语言设计上，语言难易取决于对所有测试者的语言能力分析和考试的目的（是否是分级测试、水平测试或结业测试）；同时要评估受试者的话题熟知程度，如在口语测试中，如果受试者了解房屋出租的业务和关键词句就会在相关话题的口语测试中表现出色，使测试具有倾向性。

合理的预期应试方式。

如果听力测试中，不是所有的受试者目标语言的写作能力都足以用来写出听力问题的答案，听力测试就对那些目标语写作不熟练的受试者具有不利的倾向。

所以，要求测试者设计与测试内容和全体受试者语言能力水平相适应的预期应试方式，而具体要求与上段中对合理测试任务输入相同。

合理的输入与预期应试方式的关系。

话题知识会影响受试者的表现，如口语测试中要求用目标语谈论西方心理学理论而非简单的天气，会影响部分受试者表现。

所以测试者处理测试任务输入和预期应试方式的关系时，要设计与测试内容和受试者总体语言水平相适应的反映形式（各试题是否相互关联、各受试者的表现是否相互影响和测试的连续性）、反映范围（受试者需要处理的测试任务输入量，如在阅读理解中回答文章大意就需要受试者处理整篇阅读文章，而在单项选择中受试者只需处理相对有限的测试任务输入）和反映方式（预期应试方式与测试任务直接还是非直接的关系）。

四、结语科学性的语言测试是使测试成为检测和评估教学效果的重要手段，通过对测试结果的科学分析，可以评估学生对语言知识的掌握情况、教师的教学情况和整个教学体系的设置是否合理，并通过反馈进一步完善教学体系[6]。

语言测试的科学性以结构效度的实现为基础。

结构效度贯穿测试始终，是连续而反复的过程。

在测试中，全面评估考察全体受试者的语言能力水平和个体特征差异，合理规避在实现结构效度过程中可能出现的测试偏见，营造公平的测试环境，使受试者最大程度地发挥语言能力水平，达到语言测试的目的。

[参考文献][1]Bachman,Lyle F.&Adrian /doc/0c16896669.html,nguage Testing in Practice [M ].Oxford ：Oxford University Press ，1996.[2]Cronhach,L.J.and P. E.M eehl.Construct validity in psychological test [G]//A.W.Ward.H.W.Stoke and M .M urrav 一/doc/0c16896669.html,cational M /doc/0c16896669.html,nham:University Press of America.Inc.1955.[3]Popham,/doc/0c16896669.html,cational Evaluation.2nd ed [M ].Englewood Cliffs:Prentice-Hall,1988.[4]李筱菊.语言测试科学与艺术[M ].长沙:湖南教育出版社,1996.[5]Bachman,Lyle F.Fundamental Considerations in LanguageTesting[M ].上海：上海外语教育出版社，1999.[6]党明虎.论语言测试的科学性[J].宝鸡文理学院学报：社会科学版，1999（4）.·118·。