英语测试信度效度
谈语言测试的信度与效度

2000年3月第8卷 第1期 西安外国语学院学报Journal of Xi an F oreign Languages U niversityM ar.2000Vol.8N o.1谈语言测试的信度与效度赵成发(复旦大学大学英语教学部上海200433)中图分类号:H0 文献标识码:A 文章编号:1008-4703(2000)01-0011-05信度与效度原是计量学中的两个重要概念,20世纪30年代被引入语言测试领域。
60年代,以L a-do等为代表的结构主义测试学家对这两个概念进行了系统的阐述和论证,标志着语言测试已形成科学的体系,成为一门独立的学科。
可以说,语言测试理论及实践上的发展和纷争都是以信度与效度为主线进行的,信度与效度是语言测试永恒的主题。
一、信度与效度的概念语言测试的信度是指测试结果的可靠程度。
语言测试信度的高低主要说明的是测试结果在多大程度上反映了受试者真实的语言行为。
影响信度的因素很多,它们存在于语言测试的每个环节中。
对试卷本身来说主要是样本的大小(size of sample)和区及各种组织之间的横向协作与联合。
这样一来,新亚欧大陆桥就不仅成为一条国际性贸易大通道,而且会成为一条经济、科技等多种领域使用和东西方文化交流的桥梁。
第二,充分发挥连云港市的桥头堡作用。
我国长江三角洲经济区的形成和迅速发展,有两个至关重要的因素,一是有黄金水道之称的长江,一是有中心城市上海的辐射作用。
上海凭着沿江与沿海交汇点独特的地理优势,率先发展起来,从而带动长江三角洲区域经济的发展。
陇兰经济带有一个协作与联合的纽带新亚欧大陆桥还不够,还必须有一个能像上海一样发挥作用的中心城市。
连云港作为沿线与沿海的交汇点,其地理位置的优势不亚于上海,完全可以把连云港市建设成为新亚欧大陆桥沿线省区共有的出口产品加工区,外贸基地和窗口。
连云港市也将对大陆桥沿线省区产生新的、更大的渗透力。
进一步增强新亚欧大陆桥东桥头堡和陇兰经济带的龙头地位。
试论大学英语测试的信度和效度

试论大学英语测试的信度和效度作者:陈巧巧来源:《青年文学家》2013年第36期摘要:语言测试是语言教学的重要环节,好的测试是信度和效度的合理平衡的结果。
试论证可以通过一定措施,平衡大学英语测试的效度与信度,从而达到最大化的测试总效用。
关键词:效度;信度;大学英语测试作者简介:陈巧巧,四川理工学院外语学院教师研究生,研究方向:比较文学。
[中图分类号]:G633.41 [文献标识码]:A[文章编号]:1002-2139(2013)-36--01一、前言大学英语四六级测试是我国信度极高的考试之一,而通过调查问卷得到的结果也是教师普遍认为四六级考试能够真正反映学生的英语能力,效度也是极高。
但是对于信度和效度的界定不清晰,对英语测试来讲,信度和效度都只是相对的。
中国的大规模英语测试基本上都是客观题占大部分比重,而主观题一般只有大约10%或20%,比如:高校入学考试、研究生考试、CET4和CET6。
客观性题由于只有唯一的答案,还能借用机器阅卷,在评分上来说具有非常高的信度,但是难以保证其效度。
另外一方面,如果在试题中使用过多的主观题,效度有了的同时,其信度又无法得到保证。
如何在信度和效度直接找到最佳平衡点,是一直困惑试题开发者的难题。
二、英语测试的信度与效度如果我们想知道学生的英语实际水平和他们的考试成绩是否一致,我们就不能不考虑到测试信度和效度这两个重要特征。
大学英语测试当中的首要标准之一就是信度,也就是测试结果的可信度与可靠度,或者是考分的一致性。
相同的一套试题,让同样的学生在两个不同的地方完成,两次结果的基本相同能够证明该测试的信度。
没有信度的试题是没有使用价值的。
大学英语测试的另一个必不可少的标准是测试的效度。
效度就是有效性,即指测试能否实现测试目的。
大学英语测试的效度就是要检验考生语言能力与其测试结果的成绩是否一致。
在同一场测试中,信度和效度两者互相依存、互相支撑,它们都是应该同时存在,同样重要的。
英语测试中的效度、信度和真实性

英语测试中的效度、信度和真实性作者:陈莉燕王军来源:《课程教育研究·上》2014年第01期【摘要】英语考试种类繁多,有国家四六级,AB级,还有面向社会的PETS考试出国人员的GRE\TOFEL等。
本文从各种英语考试命题的角度出发,分析一份试卷的效度、信度和真实性,对一线的教学工作者而言知道如何确定试卷的质量,在以后的教学中会有很重要的应用价值。
【关键词】英语测试效度信度真实性【中图分类号】G718.5 【文献标识码】A 【文章编号】2095-3089(2014)01-0096-01如何评判一份试卷的质量?如何测试各种语言技能和如何设计各种测试题目?我们知道一套试卷最终设计好了之后,我们更应该知道它的质量如何?也就是它是否符合语言测试的要求?所以,需要对试卷质量进行评估,评估的主要标准是什么?一般就是它的效度、信度和真实性。
下面分别讨论之。
1.效度效度,又称有效性。
它是指一套测试卷所考的是否就是设计人所要考的内容,或者说,在多大程度上考了想要考的。
所以,效度的高低是衡量一套语言测试卷最重要的指标,它是语言测试的出发点,是基点,因为一项效度很低的语言测试是没有实际意义的。
例如,测试听力的考试中出现了写作,这种测试效度是很低的。
例如,Is photography an art or science?这种题目效度很低,因它似乎是对有摄影知识的学生才起作用,对摄影一无所知的学生而言根本测不出他们的写作能力。
所以,这个题目对后者而言效度很低,因为我们要测的是他们的写作能力而不是摄影知识能力。
需要指出的是,语言测试的效度是一个相对概念。
例如,把剑桥商务英语证书考试来测试非英语专业的学生英语水平效度就很低。
2.信度信度是指考试结果的可靠性和稳定性,它通常以两次考试结果相关系数来表示,系数越高,信度也就越高。
影响信度的因素很多,主要有外部环境和个人因素,同时试卷的量是否足够大,区分度是否高,难易度是否适中,评分是否客观等因素也影响着信度。
四种英语语言测试法

测试的真实性
• 测试的真实性指测试任务与目标语言使 用环境范围的关系。 • Authenticity is seen as the correspondence between features of test tasks and those of non-test tasks.
测试的互动性
• 测试的互动性指考生在完成试题时对个 人的语言知识、元认知策略、专业知识 以及情感因素互相作用的程度。 • Interactiveness is viewed as the extent of involvement of students in completing a test task.
Canale和Swain的交际语言 能力模式
• • • • 语法能力 社会语言能力 语篇能力 交际策略能力
Bachman和Palmer交际语 言能力
• 语言知识 • 语用知识
语言知识
• 语法知识:词汇知识、句法知识、语音 和书写知识 • 语篇知识:语句连接、修辞或会话结构
语用知识
• 功能知识:达意功能、操纵功能、传授 功能、想象性语言功能
• 以结构主义语言学为其理论基础,强调 分别测试不同的语言成分 • 强调语言测量的可靠性和客观性 • 典型表现形式是多项选择题
综合法(the integrative approach)
• 语言测试要在一定上下文中进行 • 不在测试中刻意追求区分各单项语言技 能或能力而是强调两项或两项以上语言 技能的综合评估 • 题型为完形填空、听写、翻译、写作等
• • • • • 分离式测试 discrete point tests 综合性测试 integrative tests 主观性测试 subjective tests 客观性测试 objective tests 常模参照性测试 norm-referenced tests • 标准参照性测试 criterionreferenced tests
国内英语测试信度与效度研究述评

U ie st ,Gu nv ri y …n ,Gu g i 4 0 4,Ch R an x 5 1 0 ia)
Ab ta t Th sp p r r ve o si t d f t e r l b l y a d v l iy o g i h t s v r s r c : i a e e iws d me t s u y o h ei i t n a i t fEn l e to e c a i d s
.
r s a c r o os d e e r h a e pr p e .
Ke r s En ih t s ;t s e i b lt y wo d : gls e t e tr la iiy; t s a i iy e t v ld t
一
、
引
信度 、 效度 和可行 性是语 言测 试 的三个 根本 问题 , 中效度 最 为重 要 , 其 因为效 度 是语 言 测 试 的基本 出发点 ( 惠 中 ,9 8 5 ) 杨 1 9 :5 。信 度则是 效度 的前提 条件 。信度 (ei it ) 指测 试分 数 的稳 定性 和 一致性 程 度 , rI bly 是 a i 它所
l iy a d r l b l y o g ih t s e eo s s e d l n t e p s y a s o ih t e s u y i i t n e i i t f En l e td v l p t a i i h a t 1 e r , f wh c h t d n d a i s y 1
关 键 词 : 英 语 测 试 ; 试 信 度 ; 试 效 度 测 测
现代语言测试的信度和效度的分析

( 江 阴职业技 术学 院 外 语 系 , 江苏 江 阴 2 1 4 4 0 5 )
摘 要: 信度和效度是语言测试的两个极其重要的评价标准。信度指的是考试结果的可靠性 , 效度 是 指考试 达 到预 定 目的的程度 。从 宏观 角度进 行分 析 , 并对 现代 语 言 测试 中效度 和 信度 的取 向进
Ab s t r a c t : Re l i a b i l i t y a n d v a l i d i t y a r e t wo i mp o r t a n t c it r e r i a f o r e v a l u a t i o n i n l a n g u a g e t e s t i n g . Re l i a b i l i t y me a n s t h e q u a l i t y
此, 近些 年来 , 语 言测试 的信 度与效 度受 到 了广 大 国
内外语言学者 的关注。作为外语教学工作者 , 要想
了解学 生对所 学 知识 的掌 握 程度 , 主要 通 过 定期 的 测 试 的方式来 进行 。而有效 的测试 对教 师才有 真正 的指导 作用 。如何 验 证 是 否 是 有 用 而 有效 的测 试 , 那 就需 要综合 考查 它 的效度 , 信度 , 真实性 , 互 动性 , 考 试 的冲击 力和 可行性 。而语 言测 试 的标 准其 中最 重 要 的是考虑 测试 的信 度和效 度 。
一
、
语 言测试 效度 和信度 的概 念及 分类
测 试效度 是指 测试 是否考 查 了原定需 要考 查 的
度上与一些外在标 准相关 , 故又称标准参照效度 。 简 单地说 就是 考试结 果能 够在某 种程 度上 预测学 生
语言测试理论

【下载本文档,可以自由复制内容或自由编辑修改内容,更多精彩文章,期待你的好评和关注,我将一如既往为您服务】语言测试理论(Language Assessment)定义(definition)Anastasi (1982)认为“测试实质上是对受试者的某种能力所做的客观的标准化测量”。
Carroll 则认为测试是一套程序,旨在诱发受试者的行为反应, 并以此推导出他的相关特征(a procedure designed to elicit certain behavior from which one can make inferences about certain characteristics of an individual)。
二、英语语言测试理论(一)英语语言测试类型Hughes(1989:9-19)依据测试目的、测试方法和方式、测试题型、测试成绩判别标准和判卷标准进行分类, 将英语测试分为五大类。
1.依据测试目的进行分类( 1 )水平测试(proficiency test) 语言水平测试是为了测试人们语言能力而设计的。
( 2 )学业成绩测试(achievement test)学业成绩测试是用来考查被试在学习英语某一阶段或最终阶段的成功程度。
(3)诊断测试(diagnostic test):诊断测试是用来鉴别学生的优势和不足之处,用来确定什么样的教学是必要的。
(4)能力测试(aptitude test)能力测试不以任何教学大纲为基础,目的在于检验测试者是否具备了学习某种语言的潜力。
2.依据测试方法和方式进行分类(1)直接测试(direct testing)直接考察学生某一方面语言能力的测试称为直接测试。
(2)间接测试(indirect testing)间接测试即通过测试某一技能所具备某种能力来发现学生这方面的语言能力。
3.依据测试题型进行分类:分散点测试指每次只测试一个项目的测试,每道试题只测试某一特定的语法结构等,属于间接测试。
试卷的难度、区分度、信度与效度

5
试卷的效度
效度是指考试有效性或正确性的质量指标,即是否考了要考的内容,试卷难度、区分度是否适宜, 考试最终是否达到了它的预定目的等。
测试效度(test validity)亦称测试的有效性,指一套测试对应该测试的内容所测的程度。也就是 说,一套测试是否达到了它预定的目的以及是否测量了它要测量的内容。
3
试卷的信度
信度是指使用同一试卷对考生重复测验时,或两个平行试卷对考生测验时,所得测验分数的一致 性和稳定性程度。信度除了要说明成绩的真实性之外,还要说明题目涉及的内容与教学的相关程度。 信度系数愈高即表示该测验的结果愈一致、稳定与可靠。
常用Cronbach’s alpha系数:
Cronbach ' s
内容效度(content validity)
经验效度(empirical validity)
指测试卷是否测试了应该测试的内容或者说所测试的内容是 否反映了测试的要求,即测试的代表性和覆盖面的程度。
经验效度是一种衡量测试有效性的量度,通过把一次测试与 一个或多个标准尺度相对照而得出
D vH vL SDp
题型
计算公式
单个选择题区分度
D=2(高分组平均分-低分组平均)平均分)/试卷总分
注:前27%为高分组,后27%为低分组; 区分度(D)的取值范围介于-1.00至+1.00之间。通常D为正值,称为积极区分;D为负值称为消极区分;
D值为0称为无区分作用。具有积极区分作用的试卷,其D值越大,区分的效果越好。
题型 客观题 主观题
整份试卷
计算公式
P=试卷答对人数/考生数 P=试卷平均得分/满分
P=(高分组难度值+低分组难度值)/2 注:前27%为高分组,后 27%为低分组
- 1、下载文档前请自行甄别文档内容的完整性,平台不提供额外的编辑、内容补充、找答案等附加服务。
- 2、"仅部分预览"的文档,不可在线预览部分如存在完整性等问题,可反馈申请退款(可完整预览的文档不适用该条件!)。
- 3、如文档侵犯您的权益,请联系客服反馈,我们会尽快为您处理(人工客服工作时间:9:00-18:30)。
英语测试信度效度
1引言
据全国大学英语
四、六级考试委员会与英国文化委员会的合作研究结果认为:CET4和CET6(简称)是一项信度极高的考试,每次考试客观题的内部信度都达
0.9以上;效度相当高,回收问卷中有92%的教师认为CET能反映学生
的实际英语水平。
作者以为这里所指的信度和效度的界定很模糊,就
某次具体的测试来说,信度和效度是受特定条件限制的,不可能是绝
对的。
迄今为止,我国的高考、研究生入学考试、公共英语等级考试(PET),包括CET等大规模英语测试还是以客观性题型为主,主观题只
占10%或20%左右。
就评分方法来说,因客观性试题答案的唯一性,可
用机器阅卷,从而保证了测试结果的客观性和一致性,无疑具有相对
较高的信度,但不足之处就是效度难以保证。
同时大量采用主观性、
直接性试题的测试在阅卷信度上也令人怀疑。
这样的困惑总是或多或
少存地在于考试的开发、设计和评估过程中。
我们能否使信度和效度同时最大化呢?信度和效度又应如何整合而达
到适当的(appropriate)平衡?Bachman和Palmer在其测试理论中认为可设置“可接受的最低水准”(minimumaccepbrlevel)的效度或信度等
质量指标从而使得语言测试的“效用性”(usefulness)原则中各特征
之间达到适度平衡。
因为测试总是在一定的价值判断、测试目标、社
会环境等约束条件下实行的,本文尝试探索在可行性条件下,测试的
总效用(overallusefulness)最大化时效度和信度之间可能存有的关系。
2效度和信度的基本概念及特点
如果我们想阐释一次特定的考试成绩是否准确反映了学生的语言水平,那么在设计和使用测试时,信度和效度是我们首要注重的特征。
Bachman把信度定义为“测试的一致性”(consistencyofmeasurement)。
简言之,就是测试结果的可信度、可靠度。
例如,我们能够这样来检
验测试的信度:使用同样一份试卷,在两种不同的场合、环境中,在
较短的时间间隔内,施与同样的学生,如果测试结果基本吻合,那么
证明该测试是有信度的。
一份试卷的测试结果如果缺乏信度,就没有
使用价值,同时也减弱了考试的公正性。
当然,要完全消除不一致性(inconsistency)也是不可能的,我们能做的是尽量把影响不一致性的
不利因素控制在最低水准,以便于提升测试信度。
信度所涉及的问题是个体测试成绩在多大水准上是由测试误差或其它
因素所影响的。
效度所注重的问题是个体测试成绩在多大水准上和个
体语言水平相关。
因而,我们研究信度的目的是使测试误差造成的影
响最小化,研究效度旨在使我们想要检测的语言水平的效果最大化,
它们是两个相互补充的目标。
一项测试若没有信度,也就无所谓效度。
信度是效度的前提或必要条件。
权衡信度和效度,效度是首要的。
不
过Underhill和Heaton指出信度和效度特征在本质上是互相冲突的。
测试效度较高的试题有时测试信度较低。
反之,测试信度较高的试题
有时测试效度较低。
Morrow也认为想把测试任务设计得既具有可信性
又具有真实性不可能的。
Hughes却说虽然测试的各种特征相互排斥,
但是这并不意味着我们能够完全放弃这些特征。
3对信度和效度在理论上能达到适当平衡的可行性研究
评价英语测试最重要的原则是总效用性(overallusefulness)。
Bachman和Palmer(1996:18)把某一特定测试的“总效用性”看作是
由六个因素构成的,即效用性(Usefulness)=信度(Reliability)+构想
效度(Constructvalidity)+真实性(Authenticity)+互动性(Interactiveness)+冲击力(Impact)+适用性(Practicality)。
这里需
要说明的是:Bachman和Palmer之所以把“构想效度”作为“效用性”六大特征之一,是因为构想效度(上节已提到)关系到我们根据测试成
绩所作的解释的意义性和适切性。
前五者均与测试成绩的使用相关,
而“适用性”与测试的方法相关,能够在很大水准上决定测试的可行性。
评价一次考试是否有效用需要综合考察这些因素,在它们之间寻
求最佳的平衡点,而这个平衡能否实现取决于适用性的大小。
对于大
规模考试,考试策划者需在试卷设计和考试任务设置时重点考虑信度
和效度,而对于一般学校考试,教师就应多考虑考试任务的真实性、
互动性和对教学的冲击力(或称后效作用)。
4在英语测试实践中把握好信度和效度的平衡关系
以上已经大致证明:信度和效度作为评估测试质量的两个基本特性,
两者虽然在一定水准上是相互矛盾的,但完全能够通过相互协调使之
达到适切的平衡,以保证测试的总效用性最大化。
这个结论给我们的
启示是:在英语测试的设计和命题过程中,不能绝对、片面、盲目地
追求或强调某一方面而以失去另一方面为代价,只有综合平衡二者的
关系才能获得最大的总效用。
4.1考试内容能否体现新的语言教学观
语言测试随着语言观的发展而发展,也随着教学理念、教学模式的更
新而更新。
八十年代中期开始流行的交际功能观和九十年代以后兴起
的任务教学法(task-basedlanguageteachingapproach)都对语言测试
的改革提出了新的要求。
现行的
四、六级考试题型还是以结构主义语言测试理论为基础的多选题为主,某些语言项目的测试与实际语言水平的相关性不高,很难体现当代语
言教学观提倡的英语交际使用水平方面的考查。
Bachman和
Palmer(1996)也强调测试任务和目标语使用任务(target-languageusetask)的一致性。
看来革新CET的试卷结构、题型设置是
关键。
为了提升考试的效度,能够通过调整主观题和客观题的比例(3:2或1:1),多采用直接测试法,增加听力和写作测试的权重,增大口
试考核力度并设最低分,变化题型等手段。
也可通过采取大题量小分值,细化评分标准,综合使用整体评分法(holisticgrading)和分析评
分法(analyticmarking)等措施来提升考试信度。
4.2能否产生正面反拨效应
测试是教和学的导向。
问题是如何提升测试的正面反拨效应,减少负
面反拨效应。
四、六级考试长期以来采用固定不变的模式,客观上造成了学生猜题、押题,教师偏向应试教学,产生了不良的教学效果。
Hughes提出了若
干提升正面反拨效应的建议:测试要培养水平;测试内容要覆盖面广并
具有一定的不可预测性;尽量使用直接测试法;成绩测试要与教学目标
相结合,使用尺度参照等。
这些建议多数涉及效度,也与信度相关。
信度和效度是影响反拨效应的重要因素,准确处理好两者的关系能使
测试产生积极有利的反拨效应。
5结束语
测试的最终目的是服务于教学。
作为教师,重视语言测试理论的研究,掌握命题的原则,在试卷编制过程中把握好信度、效度及其它评价指
标之间最佳的平衡关系,将有利于优化各类英语测试的质量,更有效
地推动英语教学的发展。
英语测试信度效度。