语言测试中结构效度的实现
谈语言测试的信度与效度

2000年3月第8卷 第1期 西安外国语学院学报Journal of Xi an F oreign Languages U niversityM ar.2000Vol.8N o.1谈语言测试的信度与效度赵成发(复旦大学大学英语教学部上海200433)中图分类号:H0 文献标识码:A 文章编号:1008-4703(2000)01-0011-05信度与效度原是计量学中的两个重要概念,20世纪30年代被引入语言测试领域。
60年代,以L a-do等为代表的结构主义测试学家对这两个概念进行了系统的阐述和论证,标志着语言测试已形成科学的体系,成为一门独立的学科。
可以说,语言测试理论及实践上的发展和纷争都是以信度与效度为主线进行的,信度与效度是语言测试永恒的主题。
一、信度与效度的概念语言测试的信度是指测试结果的可靠程度。
语言测试信度的高低主要说明的是测试结果在多大程度上反映了受试者真实的语言行为。
影响信度的因素很多,它们存在于语言测试的每个环节中。
对试卷本身来说主要是样本的大小(size of sample)和区及各种组织之间的横向协作与联合。
这样一来,新亚欧大陆桥就不仅成为一条国际性贸易大通道,而且会成为一条经济、科技等多种领域使用和东西方文化交流的桥梁。
第二,充分发挥连云港市的桥头堡作用。
我国长江三角洲经济区的形成和迅速发展,有两个至关重要的因素,一是有黄金水道之称的长江,一是有中心城市上海的辐射作用。
上海凭着沿江与沿海交汇点独特的地理优势,率先发展起来,从而带动长江三角洲区域经济的发展。
陇兰经济带有一个协作与联合的纽带新亚欧大陆桥还不够,还必须有一个能像上海一样发挥作用的中心城市。
连云港作为沿线与沿海的交汇点,其地理位置的优势不亚于上海,完全可以把连云港市建设成为新亚欧大陆桥沿线省区共有的出口产品加工区,外贸基地和窗口。
连云港市也将对大陆桥沿线省区产生新的、更大的渗透力。
进一步增强新亚欧大陆桥东桥头堡和陇兰经济带的龙头地位。
语言测试中的效度问题

一任务。水平 没有直接联系。 的语言能力 , 因 潜能测试 : 语言的天赋 。 它 关心学生目前 是通过考查学, I - 理论和学习理t 度。 诊断测试j 出补救的办法 。 首先要考虑内
参考文献:
一铨理想 蚋试 巷泣该 鼬 具南镊甍 懿议 葭 学习语言的潜
: 重要的 指标, 它
女 度很低的语 言
一
一莲 一 濑翔敢霞 越 ¨ 畸、 j li 一步提高英 c | 语z
是拿簪疆灏 聚 螽采 语言锈 力耦 匕 的即规定 了大 !
次大学入学考 较 或 后孚 学 咻 糨始 孺 出 i 的。与此相适 】 目是 : po 系数 题 I h一 s 镪妞, —缉学生兮年参 了我 包己设 粥 听力理解 、 讯 阅谤 这个题 目 要求 泓试 呗年 又叁弧 了 甏 镢考 试 聚礴 嵌得分慵 l 作 。复合式听! 掇
充令包括考试大 度较高 是语言测试不能完全 由客 观洼蠢 构 但 II . a 2.He 】 B t 则试就谈不上具 藏 i 盈包括以 餮 翻译以 及写 作为代表 的 茔 [ 英语测试) . 外{
j这是因为没有 。 观性试题 主观性试题虽然容易受评卷人的影 响 [ L lE 3 y B ] e
平的重要手段。 设
定 的标准 , 如效 个非常重要 的 十 者想要考查 的 r 想要考查 的内
一
游 聚 0 或 龋 学茔1 稚| 枢 譬 | 一点。 它根据《
I 辕雨 镰出鹋系 数’ 祸令值 啦也。 弧 一组 | 标考核 修完大 生黜 参 大学英语 缀考 疆着 又考羲讯 平 。 式≯ 大学英语词 自己设诗鹤—套题 ’ 弧果 贷 耦 似 强 的阅读 能力j 喂 我 稍 试然 较高甑 叛 霞 善m l 薯| 生能 以英 语为
语言测试构念效度

根据测试结果和反馈,对测试进行持续改进,优化试题设计、评分标 准和考试流程,进一步提高语言测试的构念效度和实用性。
05
结论和展望
主要结论汇总
语言测试构念效度是评估语言测试结 果是否真实反映被测者语言能力的重 要指标。
研究表明,有效的语言测试应该具备 清晰的目标、真实的任务、可靠的评 分方法等特征。
03
语言测试构念效度的 实证研究
研究设计
明确研究目标
首先,需要明确语言测试构念效 度的具体目标,例如,是要验证 某一特定语言测试的构念效度, 还是要比较不同语言测试的构念
效度。
选择适当的受试者
受试者的选择应当代表语言测试 的目标人群,以确保研究结果的 普遍性。同时,受试者的数量也 应足够,以满足统计分析的要求
。
设计测试任务
测试任务应能全面反映语言能力 的各个方面,包括听、说、读、 写等。任务的难度和长度应适中 ,以避免受试者产生疲劳或厌倦
。
Hale Waihona Puke 数据收集和分析方法数据收集
收集受试者在语言测试中的表现数据,包括得分、反应时间、错误类型等。同时,也可以收集一些背景信息,如 受试者的年龄、性别、母语等。
数据分析
可以采用定量和定性两种分析方法。定量分析可以通过统计方法,如相关分析、回归分析等,来探究语言测试和 语言能力之间的关系。定性分析可以通过对受试者的表现进行深入观察和分析,来获取更丰富的信息。
构念的理解
构念可以是理论构念,也可以是经验构念,它们都是对某一现象或事物的抽象描 述。
构念效度的评估方法
内容效度评估
通过检查测验内容是否充分、 全面地反映了所要测量的构念
来进行评估。
结构效度评估
浅析语言测试中信度与效度两者之间的关系

浅析语言测试中信度与效度两者之间的关系语言测试在语言教学中处于中心地位,是从属于应用语言学这一学科的。
在过去语言测试在应用语言学中处于边缘地位,而在长达三十多年的发展中,语言测试现已发展成为一个相对独立的学科,已经在学术上占有了一席之地。
通过语言测试教育者可以及时发现学习者学习上存在的不足之处并在日后的教学过程中加以正确引导,也可以衡量教学任务和教学大纲的执行情况,但是这些都是基于科学的语言测试能够得到良好的反馈情况,反之,如果是一套不科学的语言测试就很可能对学习者做出错误的判断从而影响学习效率,所以科学的语言测试无论是对受教育者还是对教育者来说都是非常重要的。
一套设计比较科学的测试应该是具有信度,效度,难度和区分度四点特征,信度与效度是难度和区分度的基础,同时也是语言测试的两大根本要求,只有正确认识了信度与效度两者之间的关系才能寻找出一个科学的方法使得语言测试更加科学准确。
信度指的是测量的一致性,一个实验或测试的信度指它在重复测量时产生同样结果的程度,也就是说测量的稳定性是否一致。
影响信度的因素很多,其不仅存在于考试过程中的各个环节,也存在于阅卷的过程中,如试卷中的试题长度偏长,项目种类多,那么测试的信度就会提高,反之则会降低,考试分数集中于某一点或某一个区域时信度也会有所降低;考试期间考生时间充裕那么估算能力考试的信度也相对较高等等,这些都是存在于考试过程中各个环节的部分举例,在阅卷过程中阅卷者自身的信度和阅卷者之间的信度等问题也是影响信度的因素之一,如在评阅主观性的题目时(作文,口语等),阅卷者在评分时就具有很大的主观色彩,而不同的阅卷者掌握的主观的评分标准在评阅主观性试题时,不容易取得一致,也会使得测试的信度不稳定。
效度指的是我们所获的证据在多大程度上支持我们根据分数所做出的推断,也就是考试是否检测到了它所要检测的东西,是否达到了它的预定目标。
效度共分为三种不同的类型,其不同类型的效度测试有各自不同的测试着重面,内容效度测试的目的是为了了解测试者在一些实际环境中是如何运作的,如果测试的样本能够充分代表总体,那么测试在内容上就是有效的,反之效度则不高;预测效度和共时效度都是属于与标准有关的效度,预测效度是标志测试者将来能力的标准,如通过摸底考试分班,共时效度是指一个测试结果与另一个同时使用的标准的结果的关系;构想效度是指要考察一个测试者在多大程度上和我们根据某一理论所作出的预测是否一致,也就是说验证的是我们所做的假设是否有效。
交际语言测试的基本理论与评估原则

交际语言测试的基本理论与评估原则敏≮if.2007.9(上旬刊)交际语言测试的墓牵理论与许结原则口洪丽燕(黄冈师范学院外国语学院大学英语教学部湖北?黄冈438000)摘要有教学必然有测试,本文探讨了交际语言测试的发展.交际能力的内涵和交际测试的评估原则,对我国广大外语教师有着重要的借鉴作用.关键词交际语言测试信度效度真实性中图分类号:HO文献标识码:A语言测试衡量学生对某一语言掌握的程度或所达到的水平.其作为--1'3学科,主要研究语言测试的原则,规律,内容,设计,评估及结果分析等方面,具有多科性的基础.作为一名语言教师,若要使自己的试题设计具有科学性,合理性,学习了解语言测试的基本理论与其评估标准是不无必要的.一,语言测试的体系的变迁纵观外语教学测试的历史,李筱菊从发展的角度提出了三代不同的测试体系:科学前测试体系,结构主义测试体系和交际测试体系.第一代体系在测试上体现为科学前语言测试.第一代外语教学和测试体系的语言观的内涵是语言是一套知识.到了2O世纪4O年代,以美国语言学家Bloomfield(1933)和Fries(1945),Lado(1957)等为代表的结构主义语言学派,在测试方法上吸取了心理学领域的心理测量学的科学方法,形成了心理测量学一结构主义语言学测试.从7O年代开始,以Savignon(1972)和Widdowson(1972)等为代表的语言学家提出了新的语言教学体系一交际语言教学.这个体系认为学语言不仅仅是学语音,语法,词汇知识,也不仅仅是训练操作形式符号的技能,而是获取人与人交际的一种能力.二,交际语言测试的基本理论:语言交际能力交际语言测试理论的核心是交际能力的学说,不同的语言学家对交际能力的阐述,代表了交际语言测试的三个发展阶段.1972年Hymes首次提出交际能力包括四个方面:可能性,可行性,确当性及有效性.CanaleandSwain(1980)~t1认为交际能力包括语法能力,社会语言能力,语篇能力和策略能力四个方面的知识和技能.2O世纪9O年代初,Bachman提出了新的交际能力理论模式. Bachman认为,语言交际能力就是把语言知识和语言使用的场景特征结合起来的能力,由三部分组成:语言能力,策略能力和心理一生理机制.Bachman的交际测试理论不仅涵盖了这两大问题,而且提出了语言测试的"真实性程度"问题,把它作为开发,评价一项测试时的标准.三,交际语言测试的评价原则:信度,效度和真实性原则近年来随着测试理论和实践的发展,Bachman和Palmer(1996)提出了语言测试设计和评价的"有用性"原.~J](usefulness).这里我们主要讨论语言测试的信度,效度和真实性原则.1.信度(reliability)语言测试的信度是指测试结果的可靠性和稳定性.测试的信度高低,受试题的量和质,考试实施,评卷三方面的因素所牵制:试题要有足够的量,确保试题区分度高,难度适中,适宜于受试群;考试实施的各种条件对所有受试者应当一致;关于评分标准,要求评分员之间保持一致(inter—raterconsistency),也要求每个评分员自身保持前后一致(intra—raterconsistency).对考试信度的验证,测试管理者还可以通过以下方法进行评估:(1)试题分半法:考后将试题号按奇数偶数分为两半,计算两半所得分数的高低排列的相关;(2)考后复考法,同一套试题让同一个受试群在正式考后短时间内,再考一次,计算两次受试者分数高低文章编号:1672—7894(2007)09—225—01排序的相关;f3)评分一再评分法:在同一标准下两位教师对同一试卷进行评分,或同一教师对试卷进行两次或两次以上的评分;(4)信度系数公式评估法,指对测试的项目和其组成部分之间的一致性程度的测试.2.效度(validity)效度.又称有效性,它是指一套测试所考的是否就是设计人想要考的内容.(1)内容效度(ContentValidity).内容效度是指考试的内容是否具有代表性和综合性,或者说是否考了应考的内容.内容效度的确定, 一般不靠统计手段,而是命题人员或审题人员对试卷的内容,题目的难易度,区分度等进行严格的分析.(2)结构效度(ConstructValidity).结构效度指测试是否以有效的语言观(包括语言学习观和语言运用观)为依据.一项测试的结构效度的高低是指考试的结果能在多大程度上解释人的语言能力及与语言能力相关的心理特征.(3)预测效度(PredictiveValidity)和共时效度(ConcurrentValidity).预测效度是指考试的结果和预言是否有效.一份具有很好的预测效度的试卷,应该能够正确地预言学生未来的行为;共时效度是用来将新的考试和已经公认的考试作比较,以便证明新的考试的效度.3.真实性(authenticity)Bachman(1991)提出应该从两方面来定义测试的真实性:(1)情景真实性,指测试方法特征与将来某一特定目的与使用的情景特征相关的程度;f2)交际真实性,指考生在完成某一测试任务时,其语言能力的哪些方面参与了完成该测试任务的活动,参与的程度如何.语言测试的真实性这一标准有助于我们设计考题时打开思路,评估试题具有新的角度,提高测试的真实性和可信度.Bachmma还提出了用以提高语言测试交际真实性的四项措施:第一,提出要求.在设计考题时可以具体说明考生只有使用何种策略才能完成该任务.第二,提供机会.即给考生提供充足的时间,必要的信息和工具等.第三,考试任务要得当.任务太难,会影响考生策略的应用.第四,考试任务要由趣味性.通过提高考试任务的情景真实性可以提高考试任务的趣味性.交际测试法是迄今为止较为科学完善的外语测试方法,交际测试将在21世纪成为外语测试的主流.我们广大外语教师应当投身于外语测试的改革当中,从我国外语教学和测试的实际出发,借鉴和发展国外的交际测试理论,使测试真正为教学服务,不断提高语言教学的质量.参考文献:【1]Baehman,LyleF.FundamentalConsiderationsinI..anguageTestingOxford: OxfordUniversityPress,1990.[2]Bachman,LF.&AdrianS.PalmerLanguageTestinginPracticeOxford: OxfordUniversityPress,1996.[3】支润青,韩宝成.语言测试和它的方法E京:外语教学与研究出版社,2000. f41李筱菊.语言测试科学与艺术.湖南:湖南教育H{版社,2001.【5】徐强.交际法英语教学和考试评估.上海:上海外语教育H{版社,2000. f6】邹申.英语语言测试理论与操作.上海:上海外语教育出版社,1998.225。
语言测试之效度理论发展五十年

研究如何平衡考试内容与构念效度的关系,以实现两者的最佳结合。此外, 也可以将研究范围扩展到不同类型、不同层次的语言测试中,以丰富和完善相关 理论体系和实践应用。
感谢观看
通过分析该测试的效度,发现其具有以下优点: 1、测试内容全面,涵盖多个领域,能够准确反映学生的综合英语能力;
2、采用交际性能力测试方法,贴近实际语言使用情况,能够评估学生在真 实语境中运用英语的能力;
3、通过智能化评分技术,确保评分的客观性和准确性,有效避免了人为因 素对评分的影响;
4、通过数据分析,能够对测试的效度进行深入研究和改进,进一步提升测 试的有效性和可靠性。
总的来说,结构效度是评估语言测试有效性的重要指标。提高语言测试的结 构效度需要从多个方面进行考虑和设计,包括明确测试目的、合理规划测试内容、 选择适当的测试方法和制定合理的评分标准等。只有这样,我们才能确保语言测 试的结果能够准确反映学生的实际语言知识和技能水平,从而为语言教育提供更 有价值的参考依据。
研究结果
通过文献综述,我们发现语言测试构念效度的研究已经取得了丰富的成果, 但同时也存在一些问题和挑战。例如,对于语言能力的定义和构成要素仍存在争 议;构念效度的评估标准也不够明确;以及如何平衡考试内容与构念效度的关系 等问题。案例分析则显示,一些语言测试在构念效度方面表现出较好的一致性和 可靠性,但也有一些测试存在较大的偏差和不一致。
关键词
语言测试效度理论、新发展、语 言能力、评估、应用
理论发展
语言测试效度理论的新发展主要包括以下几个方面:
1、综合效度框架:综合效度框架强调语言测试的整体性和综合性,测试内 容、测试方式和测试结果三个方面的效度。这一框架下的效度评估更加全面,有 助于提高测试的可靠性和有效性。
基于计算机语言测试及其效度验证

探究基于计算机的语言测试及其效度验证摘要:随着计算机技术与认知科学、语言学以及测量学等结合在一起,对成绩报道与分析、试题设计编写、评分、任务呈现、评估与语言测试管理等产生了异常重要的影响。
具备高真实性的测试题型以及计算机自动评分系统和测试技术的应用,是测试结果可靠性和测试概念代表性得到了提升。
所以,建立在计算机基础之上的语言测试也开始受到管理者和语言测试开发人员的青睐。
文中就基于计算机的语言测试进行了大致论述,并就其效度进行了验证,以期为我国语言测试的进步提供可供参考的意见和建议。
关键词:计算机;语言测试;效度验证中图分类号:tp391.1文献标识码:a文章编号:1007-9599 (2013) 06-0000-021基于计算机语言测试发展状况在语言评估和测试方面,计算机技术所引起的改变主要体现在如下两点:使测量准确度以及管理实施效率得到了提升。
建立在计算机基础之上的语言测试的发展状况大致可以归为如下几点:(1)初期计算机化的语言测试。
在计算机技术限制作用下,语言测试初期主要是运用计算机的管理语言进行测试又或者将传统笔试试题搬至计算机上。
它的特点在于,只改变了测试方式,而在测试构念和任务方面与笔试并无实质性的差别。
(2)适应性的计算机语言测试。
测量学以及计算机技术的进步使得新一代的语言测试技术开始出现。
此种测试形式相比于传统的笔试具有非常多的优势,例如,它能起到反馈的作用,在测试中加强了人性化和个性化,同时也提升了安全性。
它为受试者所提供的任务和题目在受试者能力范围之内,可以使他们提升兴趣,进而将他们将自己的最佳水平发挥出来,从而使受试者语言能力的测量更加准确。
(3)自动评分系统。
现如今,自动评分系统所应用的范围主要是写作部分。
尽管作文评分系统受到学者和专家的质疑,但在学生自我评估以及高风险考试中依旧得到了广泛的应用。
由于自动评分系统可以节省时间、人力和物力等相关资源,并且相较于人工评分其客观性和准确性还要更高一些。
浅谈语言测试中的效度问题

英 语 教学 大 纲 》 规定 的 教 学 目标 考 核 修完 大 学 英 语
。
以
。
大 学 英语 课 程 的 教
,
经 验 效 度 是指 语 言测 试 的 结 果 与对 应 试者 语 言 能 力 的 评估 在 多 大程 度 上相 一 致 为两 种 一 种 是共 时效 度
种 是 预 示 效度
,
学 目的 是 培 养 学 生 具 有 较 强 的 阅 读 能 力 和 一 定 的 听 说 写 译能 力 使学 生 能 以 英语 为 工 具 获 取 专 业 所 需 信 息 并 为 进一 步 提 高英 语水 平 打 下 较好 的
。
信度 但这 只 是 个 理想 化 的 目 标 因 为做 到这 一 点
往往 是不 可 能 的
。
在 编制试 题时 既 不 能为 了追 求
,
水平 测 试用来 衡量 学生 的 语 言 能 力 即 看学 生
是 否 达 到 某 一 水 平 从 而 决定其 是 否 能胜 任 某 一 任
,
,
信度 而忽 视 效 度 也 不 能 为 了 追 求 效 度 而 放 弃 信
学 习 语 言的 潜 力
度
。 。
高 的 信度 但 它却 能够考 查学生 实际 应 用 语 言的 能
力 具 有 较高 的 效 度
, 。
语 言潜 能 测 试 以 某种 语 言 行 为
,
因 此 一 套好 的 试题 应 包 括
, 。
,
理 论和 学 习 理 论 为 依 据 因 此 首 先 要 考 虑 编 制 效
,
标准
容
。
。
效 度 指测 试 是否 考查 了设 计 者想 要 考查 的
,
- 1、下载文档前请自行甄别文档内容的完整性,平台不提供额外的编辑、内容补充、找答案等附加服务。
- 2、"仅部分预览"的文档,不可在线预览部分如存在完整性等问题,可反馈申请退款(可完整预览的文档不适用该条件!)。
- 3、如文档侵犯您的权益,请联系客服反馈,我们会尽快为您处理(人工客服工作时间:9:00-18:30)。
【语言学研究】沈阳师范大学学报(社会科学版)Journal of Shenyang Normal University(Social Science Edition)2012年第1期第36卷(总第169期)№1,2012Vol.36General,№169语言测试中结构效度的实现马蓉(辽宁省文化艺术职工大学基础部,辽宁沈阳110180)[摘要]作为一门独立学科,语言测试是检验和评估教学效果和学习效果的重要手段。
结构效度是实现语言测试目的的基础,决定了测试的目的和收集证据检验测试的有效性。
而针对不同的受试者测试会有所倾向,产生测试偏见,影响结构效度的实现。
科学性的语言测试要求测试者在测试始终合理有效的规避测试偏见,实现结构效度,使语言测试更科学。
[关键词]语言测试;结构效度;测试偏见[中图分类号]H0-0[文献标识码]A[文章编号]1674-5450(2012)01-0117-02[收稿日期]2011-11-10[作者简介]马蓉(1977-),女,辽宁沈阳人,辽宁省文化艺术职工大学讲师,教育学硕士。
语言测试是检验语言水平和能力的重要途径,既受测试信度、效度和区分度的影响,也与受试者个人的特征密切相关。
而效度即是考查测试者想要测量的内容,是实现测试的重要方面。
在构建测试效度时应避免受试者个人特征对测试表现的影响,也就是避免测试偏见,才能测试出受试者语言能力的真实水平。
一、语言测试中的结构效度(一)结构效度的概念Lyle F.Bachman 在他的Language Testing in Practice (《语言测试实践》)一书中指出:所谓结构效度,从属于对语言测试分数所作的解释的意义性和合理性,这就意味着对测试分数的解释就是对受试者语言能力的评估[1]。
Bachman 认为通过结构效度,我们不仅可以评估想要测量的受试者的语言能力,还可以通过对测试分数的解释来判断测试所采用的目标语使用语域是否合理。
结构效度的概念最早是由Cronbach 和M eehl 共同提出的,在Construct validity in psychological test 中,他们认为“结构是人们假想的属性,可以在测试的行为中反映出来。
”[2]这种结构是抽象的,反映了人类某些不能被直接测量的行为,如人的智力、态度和理解能力等。
所以,通过结构这一概念的使用,语言测试者可以设计一个合理的测试来测量欲测的受试者的语言能力,并通过测试成绩加以证明,实现结构效度。
简言之,结构效度就是对测试分数的解释,从而评估受试者的语言能力和测试任务的特点。
(二)结构效度的构建由于欲测的能力不能被直接观察到,测试者必须通过可直接被观察到的表现作出推断;并且,预测的能力是理论上的定义,测试者需预先假设预测能力会影响受试者使用语言的能力和其在语言测试中的表现;所以在构建具有效度的结构时,测试者需要测试预先定义的测试分数和预测能力的假定关系。
那么,构建一个语言测试的结构效度,根据Popham 的理论:首先要提出一个假说性结构,假设用其解释测试表现;然后从产生结构的理论中推导出关于测试表现的若干假设;最后用逻辑和经验的方法检验这些假设[3]。
(三)结构效度对于语言测试的重要性“结构效度是所有的各种效度之本,是结构效度决定了整个考试的性质,决定了考试属于哪个体系。
”[4]结构效度决定了语言测试的方向和内容,关系到测试者对测试分数所作的解释的真实性和合理性,从而推断此次测试是否能够测量出受试者的真实语言能力,所以结构效度对于语言测试尤为重要。
二、影响结构效度的语言测试偏见(一)语言测试偏见的概念语言测试偏见(test bias)是指在测试过程中,由于个性特征的不同和测试任务的特点而导致受试者在测试中的表现不同,这种不同可以影响测试者基于测试分数而对受试者的实际语言能力作出的评估[5]。
对于语言测试的受试者,其真实的语言能力和个人因素共同作用而影响其在测试中的表现。
受试者个人因素包括语言能力(语言知识、策略能力或元认知能力)、话题知识和情感图示。
测试偏见是形式多样的,如对测试分数的错误理解、性别歧视、种族歧视、对受试者水平的错误评估、测试内容对部分受试者具有倾向性、不恰当的选拔程序、不充分的标准评估和不适宜的测试气氛和环境。
在实际的语言测试中,由于不能清楚地将文化和教育背景与我们欲测的语言能力区分开,导致测试偏见更为复杂。
·117·沈阳师范大学学报(社会科学版)2012年第1期(总第169期)【责任编辑赵伟】(二)可能出现的测试偏见在构建具有效度的结构时,测试者应全面考虑受试者的个性特征和测试任务特点对受试者的影响,避免测试倾向于部分受试者。
测试偏见可能涉及到受试者的文化背景、测试内容背景知识、认知特征、本土语言、民族、性别和年龄等方面;并且要具体考虑测试任务的特点是否会影响不同个体的测试表现,如在测试环境、仪式指导格式、输入、预期应试方式和输入与预期应试方式的关系方面。
(三)规避测试偏见对于实现结构效度的重要性合理地避免测试偏见,建立公平的测试环境,保证测试结果的有效性,加大语言能力对测试分数的影响,通过对测试分数的合理解释评估受试者的真实语言能力,增强语言测试的科学性。
三、合理规避测试中的偏见实现测试结构效度(一)受试者个性特征避免文化背景倾向。
Chen 和Henning 曾在研究选项反映理论时发现:在词汇选项测试中的某些测试选项会对具有特定语言和文化背景的个体有利。
如在测试中出现了决定选项答案的短语“meet one ’s Waterloo ”,对于具有欧美文化背景的受试者而言他们熟知滑铁卢之战的历史,在说起某人在某场官司或比赛中遭到失败时就会说某某遭遇了滑铁卢,如同汉语中的“败走麦城”,这就意味着这次测试对于这部分欧美文化背景的受试者具有倾向性,产生了测试偏见。
所以,在设计测试内容时,测试组织者要先调研受试者自然情况,了解其文化背景,避免出现测试倾向于部分特定文化背景的受试者。
避免测试内容背景知识倾向。
具有内容背景知识倾向的测试偏见是指在测试前受试者学习并了解某些测试内容的相关知识,特别是在阅读理解和完型填空题型中,从而导致测试中的不同表现。
如要考查综合阅读能力,测试者设计了与机械设计原理相关的阅读理解,这些测试内容对于机械设计专业的受试者具有倾向性,他们可能根据所学专业知识来解答部分选项,产生测试偏见。
测试者如果在测试中要检测总体的阅读能力,就意味着将内容知识定义成了不同于阅读能力的背景知识。
所以,在设计测试和解释测试分数时,测试者必须区分开语言熟练程度和背景知识,并且相信受试者的语言能力要在具体的语言环境中得以体现。
(二)测试任务特点合理的测试任务设置。
如果测试环境对某些受试者有利,结构效度就受到了破坏。
如在使用计算机的测试(TOEFL)中,某些受试者不熟悉操作或处理程序出现问题,测试对这些受试者不利,最后测试成绩会受测试设置的影响。
所以,测试者设计测试时要预先通知受试者测试的形式,确保设置形式每个受试者都是公平的,不会影响其语言能力的发挥。
合理的仪式指导格式。
首先测试者要预先通知受试者试题结构,如试题各部分的构成、题数、特点、顺序、重要性、分值和时间的分配;在设计试题指令时要简要清晰,指令过于复杂或使用目标语会对语言能力较强的受试者有利,影响其他受试者的表现;受试者要了解测试流程和具体时间安排;受试者了解评分机制、具体测试内容的标准答案和评分流程。
合理的输入。
如果测试者要考查写作能力,不同的作文题目会影响受试者的表现,产生测试偏见。
在测试任务的输入格式上,测试者要选择与测试内容和全体受试者语言水平相匹配的手段(音频、视频)、形式(语言、非语言或二者兼有)、语言(本土语言、目标语言或二者兼有)、长度、类型和速度;在测试任务的语言设计上,语言难易取决于对所有测试者的语言能力分析和考试的目的(是否是分级测试、水平测试或结业测试);同时要评估受试者的话题熟知程度,如在口语测试中,如果受试者了解房屋出租的业务和关键词句就会在相关话题的口语测试中表现出色,使测试具有倾向性。
合理的预期应试方式。
如果听力测试中,不是所有的受试者目标语言的写作能力都足以用来写出听力问题的答案,听力测试就对那些目标语写作不熟练的受试者具有不利的倾向。
所以,要求测试者设计与测试内容和全体受试者语言能力水平相适应的预期应试方式,而具体要求与上段中对合理测试任务输入相同。
合理的输入与预期应试方式的关系。
话题知识会影响受试者的表现,如口语测试中要求用目标语谈论西方心理学理论而非简单的天气,会影响部分受试者表现。
所以测试者处理测试任务输入和预期应试方式的关系时,要设计与测试内容和受试者总体语言水平相适应的反映形式(各试题是否相互关联、各受试者的表现是否相互影响和测试的连续性)、反映范围(受试者需要处理的测试任务输入量,如在阅读理解中回答文章大意就需要受试者处理整篇阅读文章,而在单项选择中受试者只需处理相对有限的测试任务输入)和反映方式(预期应试方式与测试任务直接还是非直接的关系)。
四、结语科学性的语言测试是使测试成为检测和评估教学效果的重要手段,通过对测试结果的科学分析,可以评估学生对语言知识的掌握情况、教师的教学情况和整个教学体系的设置是否合理,并通过反馈进一步完善教学体系[6]。
语言测试的科学性以结构效度的实现为基础。
结构效度贯穿测试始终,是连续而反复的过程。
在测试中,全面评估考察全体受试者的语言能力水平和个体特征差异,合理规避在实现结构效度过程中可能出现的测试偏见,营造公平的测试环境,使受试者最大程度地发挥语言能力水平,达到语言测试的目的。
[参考文献][1]Bachman,Lyle F.&Adrian nguage Testing in Practice [M ].Oxford :Oxford University Press ,1996.[2]Cronhach,L.J.and P. E.M eehl.Construct validity in psychological test [G]//A.W.Ward.H.W.Stoke and M .M urrav 一cational M nham:University Press of America.Inc.1955.[3]Popham,cational Evaluation.2nd ed [M ].Englewood Cliffs:Prentice-Hall,1988.[4]李筱菊.语言测试科学与艺术[M ].长沙:湖南教育出版社,1996.[5]Bachman,Lyle F.Fundamental Considerations in LanguageTesting[M ].上海:上海外语教育出版社,1999.[6]党明虎.论语言测试的科学性[J].宝鸡文理学院学报:社会科学版,1999(4).·118·。