语言测试的信度与效度之间的关系
国内十年语言测试信度与效度研究的统计分析

\\《
刊 物 名 称\ 《 外语教学与研究 》 《 语界》 外 《 国语》 外 《 现代外语 》 《 外语与外语教学》
9 0 0 0 0 0 0 0 0 0 总 9 0 1 2 3 4 5 6 7 8 数
1
l
2 3
第2 6卷
Vo . 6 12
第1 2期
l t  ̄J 教育学院学报 l
J OURN I HU OL E DUC I N AL OF S C AN C L GE OF E AT O
21 0 0年 1 2月
De . Ol c 2 0
国 内十 年 语 言 测 试 信 度 与 效 度 研 效 度 研 究 状 况
语言测试是应用语 言学 的一个重 要组成部 分 , 含 了 包 语言学 、 认知学 、 心理测 量学和教 育学等多方 面内容 , 是检 验学生语言水 平的重要手段 。语 言测试的标 准主要有 : 信 度、 效度 、 区分度 、 实用性。其 中信度 与效度 是语言测 试领 域 中的两个基本概念 。信度指的是测试结果 的可靠性和稳 定性 。杨惠中认为 “ 信度是指 对学生 的语 言水平 提供 可靠 的度量 , 效度是指考试能准确 反映学生 实际运用语 言的能 力 ” 。语言测试 的效度 表 明一 种相 关性 , … 即测试与 测试 目标的关联程度。李筱菊称 , 语 言测试 的效度 , “ 亦指有效
学、 客观 、 可靠 的测 试 体 系 , 志着 语言 测 试科 学 化 的 开 标 始。 由此可见 , 国外早 就 开始重视 语言 测试 的信 度和 效 度研究对语 言教学 产生 的影 响。虽然 国内对该 领域 的研 究 起步较晚 , 但发展 较 快 , 来越 多的学 者开 始关 注这 一 领 越 域。为了使研究者 了解 国内语言测试 信度与效 度的研究 现 状、 研究 中存在的主要 问题 以及未来信 度与效度研 究 的发 展方向 , 从而促进信度与 效度研究 的深 入和英语 教学质 量 的提高 , 本文对过去 l 0年我 国外语类 主要 核心期刊上 刊载 的语言测试信 度与效度研究文章做 了文献检索研究。
华东师范大学心理测量考试复习资料

心理测量复习资料一、心理测量的性质1、高尔顿—首次提出“测验”、“测量术语”卡特尔—“心理测验”首次出现在心理学文献比奈—1905 科学心理测量的诞生标志2、测量的要素:1、参照点(零点)——绝对零点、人为设定的零点。
2、单位——有确定的意义、有相等的价值。
4、心理测量的特性:●间接性、客观性、相对性。
心理测量不像普通的物理测量,可以直接进行比较相对比较精确的测量,心理测量是通过对人的行为现象进行观察后间接的推测出来一种测量的结果,发展至今还未能到达物理测量的精准水平,只能经过不断的探索和研究,达到进一步提高测量的准确性的目的,心理测量的结果也只能作为一种辅助的参考根据,如果需要达到一定的测量目的必须通过多种甚至多次的反复测验才能作为一定程度上的考量标准。
5、心理测验的定义:心理测验实质上是对行为样组的客观的和标准化的测量6、心理测验的种类:功能划分: 能力测验;学业成就测验;人格测验人数划分: 个别测验;团体测验材料划分: 文字测验;操作测验目的划分: 筛选测验(对所欲测量的心理特质作一般性的考查,简单易行,省时省力,不够全、准); 诊断测验(进一步诊断被试某些方面的特殊优点和缺点,内容多、全,一般为个别测验)7、心理测量的注意事项:测验要保密(内容,结果)、测验的资格、选择合适的测验、不能一测定终身、综合其他评价指标、实事求是报告测验结果二、信度1、信度是测验结果一致性的判断(一个测验可靠性和稳定性的指标)一个好的测验在多次测量同一个人的时候结果应该是基本一致的.信度是真分数与实测分数相关的平方,用相关系数来表示.相关系数越大说明真分数在实测分数中的比率越大,也就说明信度越高.2、误差的种类:A、随机误差:方向和大小完全是随机的,没有规律性。
B、系统误差:稳定地存在于每一次测量中,有规律可循。
C、抽样误差:由抽样变动而引起的3、误差的来源:A、测验内部引起(测题难度,鉴别度等)B、测验过程引起(如测试环境干扰等)C、被试引起(被试情绪波动等)4、真分数理论:实测分数=真分数(与目的无关的系统误差影响效度)+误差(随机误差影响信度)5、估计信度的方法:A. 稳定系数(重测信度)(跨时间的一致性)B. 等值系数(复本信度)(跨形式的一致性)C. 内在一致性系数D. 评分者信度6、内在一致性信度:内在一致性系数反应的是测验项目的同质性,当被试在同一测验里表现出跨项目的一致性时,就称测验具有同质性。
HSK六级考试信度和效度的评析高旭峰

第9卷第1期2012年1月Journal of Hubei University of Economics(Humanities and Social Sciences)湖北经济学院学报(人文社会科学版)Jan.2012Vol.9No.1为使汉语水平考试更好地服务于汉语学习者,中国国家汉办组织中外汉语教学、语言学、心理学和教育测量学等领域的专家,在允许充分调查、了解海外汉语教学实际情况的基础上,吸收原有HSK 的优点,借鉴近年来国际语言测试研究最新成果,推出新汉语水平考试(HSK )。
新HSK 是一项国际汉语能力标准考试,终点是考察汉语非第一语言的考生在生活、学习和工作中运用汉语进行交际的能力。
新HSK 分笔试和口试两部分,笔试和口试是相互独立的。
笔试包括HSK (一级)、HSK (二级)、HSK (三级)、HSK (三级)、HSK (四级)、HSK (五级)、HSK (六级);口试包括HSK (初级)、HSK (中级)、HSK (高级),口试采取录音形式。
随着汉语国际推广形势的发展,以及语言测试、对外汉语教学、语言学及应用语言学等学科的最新发展,HSK 逐渐表现出等级分数划分的不合理,主观性考试所占的比重较小等一些不足。
本文运用语言测试学的相关理论,从考试效度和信度的角度出发,以HSK (六级)某次考试试卷作为样卷材料来对HSK (六级)考试的信度和效度进行分析。
一、语言测试(一)语言测试的种类从测试目的来看,语言测试主要可分为水平测试、等级测试、成就测试以及诊断性测试。
无论我们采用哪一种类型,测试都必须是客观的,有目的、有意义的,换言之,其信度和效度都必须得到高度的重视。
正如Bachman 所示,信度和效度是对语言能力测量的使用和说明的重要质素,“假如我们将对所给测试的分数进行说明,作为个人能力的标记的话,那么,该分数就必须是可信且有效的”(1990:24)。
HSK 考试属于水平测试考试。
(二)语言测试的信度与效度考试信度对于任何一种有效考试来说都是必不可少的。
《对外汉语教学概论》期末复习-对外汉语教学概论考试范围整理1.doc

对外汉语教学概论复习材料2014-5注:本材料依据老师最后一课所划范围(虽然其实没听清他到底说什么)整理。
填空选择分答案主要出自老师上传之课件及其他材料,另有部分内容来自网络,存疑内容及说明已用红字标出,请注意甄别。
名词解释及之后内容为依据课件材料进行归纳而成,名词解释部分将已找到要点直接进行罗列,具体取舍和选择请自行决定。
论述题仅给出要点,具体内容参加提示和课件。
因时间仓促,且根本没听课,所以内容难免有疏漏和错误之处,采用时请认真研判、谨慎对待。
如遇错误,欢迎指出,深表谢意,考试时如因参考此份材料导致错误和扣分,找我也不承认!祝大家考岀好成绩!一、填空与选择1、对比分析法的理论基础是:(1)行为主义心理学。
(2)结构主义操作方法。
2、《英语初阶》是功能法的纲领性文件。
3、《跟我学》的教学对象主要是以英语为母语的中学生或者年龄在15岁至18岁的青少年第二语言学习者。
4、偏误分析的理论基础是:小介语理论。
5、保证效度的关键是测试项口和测试内容要耳测试目的相•致;保证伫度的关键是保证试卷内容和难度的稳定性和可靠性(此题没找到合适的答案,姑冃存疑)6、影响第二语言学习的情感因素:动机、态度、性格(具体见老师上传之第八讲课件材料)7、母语干扰作用来白什么理论:对比分析理论。
8、克拉申最著名的假说是什么?“习得与学习假说”“监察假说”“自然顺序假说”“输入假说”“情感过滤假说” ppt是按照这个顺序给的,但是没看到说哪个最著名。
9、在中国学习800学时后相当于初中水平,此时的单词量约为:3000。
10、专用语言教学(LSP),是在功能法的基础上发展起来的。
11、语言能力和语言交际能力一般分为理解和表达两种,表达能力指的是说鱼亘的能力。
12、教材评估的基础原则是实用性、知识性、针对性、交际性和科学性°13、文化接受过程一般分为四个阶段:观光期、挫折期、逐渐适应期、接受或完全复原期。
(蜜月期、挫折期、调整期、适应期)14、对比分析的儿个步骤:描写、选择、对比、预测15、认为关键期后难以学习语言的假说:赛林克,中介语假说,石化现象,196916、威尔金斯创立的流派是:功能法17、以贝利兹为代表的,19世纪出自西欧的教学法是:直接法18、HSK相关内容,这道题我忘了他说的是啥了。
细说试题的难度、区分度、信度和效度以及对高考复习的启示

细说试题的难度、区分度、信度和效度以及对高考复习的启示一.试题的难度(一)什么是难度难度是指试题的难易程度,是评价考试的一个非常重要的一个指标。
一个题目,如果大部分考生都能答对,那么这个题目的难度就小;如果大部分考生都不能答对,那么这个题目的难度就大。
客观题难度计算公式:P(难度指数)=试题答对人数/考生人数;主观题难度计算公式:P=试题平均得分/试题满分。
试卷难度计算公式:P=为平均分,K为试卷满分值。
易、中、难的标准为:易:P≥0.7,中:0.4≤P≤0.69,难:P≤0.39;P值越大,难度越低,P值越小,难度越高。
一般来说,难度值平均在0.5最佳,难度值过高或过低,都会降低测验的信度。
当然,在实际的评价过程中,测验的难度水平多高才合适,也还要取决于测验的目的。
如果教师要对学生的知识准备状况进行一次诊断性测验,为了真实、准确地了解学生的知识掌握情况,测验难度大一点也是正常的。
(二)难度的计算(1)客观性试题难度P(这时也称通过率)计算公式:P=k/N(k为答对该题的人数,N为参加测验的总人数)(2)主观性试题难度P计算公式:P=X/M(X为试题平均得分;M为试题满分)(3)适用于主、客观试题的计算公式:P=(P H+P L)/2(P H、P L分别为试题针对高分组和低分组考生的难度值)在大群体标准化中,此法较为方便。
具体步骤为:①将考生的总分由高至低排列;②从最高分开始向下取全部试卷的27%作为高分组;③从最低分开始向上取全部试卷的27%作为低分组;④按上面的公式计算。
例1:一次生物测试中,在100名学生中,高低分组各有27人,其中高分组答对第一题有20人,低分组答对第一题的有5分,这道题的难度为:P H=20/27=0.74 P L=5/27=0.19 P=(0.74+0.19)/2=0.47整个试卷的难度等于所有试题难度之平均值(包括主、客观试题)。
(三)试题难度的一般要求就高考来说,难度以适中为宜,单个试题的难度以0.3--0.7之间为好,整卷以0.5--0.6之间为最佳。
研究语言测试为英语教学带来的影响与启示

而它们并不一 定和实际情况完全吻合, 这就需 要通过对课堂 教学的实 际观察和分 析来佐证 所 获 信 息 。反 过 来 , 在 反 作 用 的研 究 中仪 仅 依 靠对课堂教学观察分析 的方法也是不够的。 它 毕竟只能展示实际情况的一个或几个方面, 而 不是全貌, 并且不能保证研究者 明白观察到 的 现 象 到底 意 味着 什 么 。因 此 在 反 作用 研 究 中, 把 调 查 和 课 堂 观 察 分 析 结合 起 来 , 应 该 说 是 比 较理想的 。 3 . 提 高 正 面 反 作 用 的途 径 测 试 的反 拨 效 应 可 以是 正 面 的 ,也 可 能 是 负面 的。进 行反拨效 应研 究的主要 目的之 就是探 索减少负面 反拨效应、提 高正面 反 拨效应 的途径 。语言测 试要真实, 才能检测出 考 生的语言水平和运用 语言 于实际 的能力。 但语 言测试 的真 实性是 一个 复杂的问题, 要达 到真实性 的要求 , 就应 保证 测试设计、文本、 题型 、题 目和实施、评分 以及释义 的真实性 。 4. 反 作 用 的 研 究 对 英 语 教 学 的启 示 语 言教学和语言 测试是学校整 个教学过 程 中 相 互 依 赖 、 相 互 作 用 的两 个 最 重 要 的 方 而 。 我 们 对 于 测 试 反 作 用 的 认 识 不 应 只 停 留 在对现象 想当然的推断 , 应该通过实际的调 查研 究 , 对 反 作 用 假 设 及 其 工 作 机 制 进 行 验 证 以期获得更深入的认识;在反作用研究中, 单 纯 依 靠 调 查 问 卷 、 提 问 、 面 谈等 方 法 是 不 够 的, 还 必须把这些方法和课堂观察结合起来综 合 地 加 以运 用 , 才 能 相 互 印 证 并 不 断 发 现 新 问题 ;测 试 不 应 该 成 为 教 师 采 用 某 一 效 果 欠 佳 的教学方法 的借 【 _ 】 = ,教师应 该钻 研教材教 法, 了解测试 的 目的及编 写原则 , 按照 教学 的 实际情况, 采用相对合适的教学方法。
考试成绩评价的区分度、信度、效度等概念

目录考试成绩评价的区分度、信度、效度等概念 (1)高一化学备课组 2009.3.26 (4)考试成绩评价的区分度、信度、效度等概念1、试卷的区分度试卷的区分度指测试题目对被测试者实际水平的区分能力。
区分度高的试题,能将不同水平的被试者区分开来;区分度低的试题则对被试者水平不能很好地鉴别。
区分度是指试题对被试者情况的分辨能力的大小。
一般在-1~+1之间,值越大区分度越好。
试题的区分度在0.4以上表明此题的区分度很好,0.3 ~0.39表明此题的区分度较好,0.2 ~0.29表明此题的区分度不太好需修改,0.19以下表明此题的区分度不好应淘汰。
计算区分度的方法很多,特别需要注意的是对同一个试题的考试成绩采用不同的方法所得到的区分度的值是不同的。
我们可以使用下面的两种方法计算区分度:(1)先将分数排序,P1=27﹪高分组的难度,P2= 27﹪低分组的难度区分度D =P1-P2或区分度 D = (27﹪高分组的平均分-27﹪低分组的平均分)?/font>满分值(2)利用积差系数r 计算区分度D当两个变量都是正态连续变量,而且两者之间呈线性关系,表示这两个变量之间的相关成为积差相关。
积差相关的使用条件a、两个变量都是由测量获得的连续性数据。
如百分制分数。
b、两个变量的总体都呈正态分布,或接近正态分布,至少是单峰对称的分布。
c、必须是成对的数据,而且每对数据之间是相互独立的。
d 、两个变量之间呈线性关系。
积差相关系数r的计算在计算机上是很容易进行的。
积差相关系数r的公式如下:r=(无法显示)原谅!2、试卷的信度试卷的信度主要从两个方面进行分析,一方面是考试成绩期望值与实际成绩平均值的差异,考试成绩期望值一般应以平时成绩的平均值为依据确定.另一方面是考试成绩的预期及格率与实际及格率的差异,考试成绩及格率的预期值同样以平时成绩的及格率为确定依据.两个方面的差异性较小,说明试卷信度较高.考试信度,简单地说是考试结果的可信程度,是推测考试可信与否的最重要的量化指标。
语言测试理论

【下载本文档,可以自由复制内容或自由编辑修改内容,更多精彩文章,期待你的好评和关注,我将一如既往为您服务】语言测试理论(Language Assessment)定义(definition)Anastasi (1982)认为“测试实质上是对受试者的某种能力所做的客观的标准化测量”。
Carroll 则认为测试是一套程序,旨在诱发受试者的行为反应, 并以此推导出他的相关特征(a procedure designed to elicit certain behavior from which one can make inferences about certain characteristics of an individual)。
二、英语语言测试理论(一)英语语言测试类型Hughes(1989:9-19)依据测试目的、测试方法和方式、测试题型、测试成绩判别标准和判卷标准进行分类, 将英语测试分为五大类。
1.依据测试目的进行分类( 1 )水平测试(proficiency test) 语言水平测试是为了测试人们语言能力而设计的。
( 2 )学业成绩测试(achievement test)学业成绩测试是用来考查被试在学习英语某一阶段或最终阶段的成功程度。
(3)诊断测试(diagnostic test):诊断测试是用来鉴别学生的优势和不足之处,用来确定什么样的教学是必要的。
(4)能力测试(aptitude test)能力测试不以任何教学大纲为基础,目的在于检验测试者是否具备了学习某种语言的潜力。
2.依据测试方法和方式进行分类(1)直接测试(direct testing)直接考察学生某一方面语言能力的测试称为直接测试。
(2)间接测试(indirect testing)间接测试即通过测试某一技能所具备某种能力来发现学生这方面的语言能力。
3.依据测试题型进行分类:分散点测试指每次只测试一个项目的测试,每道试题只测试某一特定的语法结构等,属于间接测试。
- 1、下载文档前请自行甄别文档内容的完整性,平台不提供额外的编辑、内容补充、找答案等附加服务。
- 2、"仅部分预览"的文档,不可在线预览部分如存在完整性等问题,可反馈申请退款(可完整预览的文档不适用该条件!)。
- 3、如文档侵犯您的权益,请联系客服反馈,我们会尽快为您处理(人工客服工作时间:9:00-18:30)。
语言测试的信度与效度之间的关系李翌豪【摘要】测试的信度和效度是用来衡量一门考试是否有效和可靠的两个关键因素,任何测试的开发与评估都应当把二者纳入到重点考虑范围之内。
然而,一些研究者对于测试信度的定义往往过于理论化,甚至把其成立的基础建立在某些理想化的客观条件之上;同时他们在测量信度时所采取的过于机械化的统计方法,也导致了其结果不能准确地反映出试题的客观稳定性。
考虑到信度与效度之间不可避免的逆反关系,为了满足语言测试的首要目的,测试的开发者应当首先给予效度最大限度的重视。
由于“套题”中包含了复杂的“题内相关性”,所以它并不利于测试在数据上达到令人信服的“可靠性系数”值;但如果以此为依据就盲目地将其排除在外,我们就忽略了其在考查被测能力方面的作用,从而忽视了对测试整体效度的把握。
%There are lots of concerns involved in developing a test,especially a language test for second and foreign lan-guage learners,but the two most important ones that any test developer should take into consideration are reliability and validity.However,reliability and validity are not always mutually contributive to each other,and sometimes even an in-verse relationship could exist between them.Aiming at assessing and reflecting the true language ability of test-takers,I think any test-developing activities should be organized around how to make the test more valid,in other words,how to resolve the potential tension between reliability and validity and ensure the latter one at the same time.My article will dis-cuss how certain assumptions and suggestions underlying the theoretical definition and statistical measurement of reliabili-ty might distract testdevelopers'attention away from validity and negatively affect their decision concerning the selection and construction of test items conducive to validity.【期刊名称】《江苏师范大学学报(哲学社会科学版)》【年(卷),期】2016(042)005【总页数】5页(P88-92)【关键词】测试信度;测试效度;语言测试【作者】李翌豪【作者单位】江苏师范大学外国语学院,江苏徐州 221116【正文语种】中文【中图分类】H08众所周知,在一门测试的开发过程当中需要考虑诸多因素,尤其是对专门为第二语言或外语学习者所打造的语言能力测试而言,试题开发者对其信度和效度的把握无疑是试题开发当中最关键的两个环节。
值得注意的是,测试的信度与效度并不总是以一种自然的、互补互促的状态存在;而且在很多情况下,二者之间还会呈现出一种让试题开发者难以调和的逆反关系,即对某一方的偏重势必会影响到另一方的作用。
为了有效地测试出考生的真实语言水平,笔者认为任何形式的语言测试的开发都应当围绕着如何使试题更加有效度这一点来展开;如此一来,在有效地平衡信度与效度之间存在的反比关系的同时,如何保证测试本身的有效性,也就成为试题开发者们需要解决的首要问题。
本文将重点讨论一些过往的针对测试信度的纯理论化定义,以及基于统计学方法论的信度测量值是如何使试题开发者们忽视了考试本身的考查效力,进而影响他们开发和选择有助于提高测试效度的题型。
根据美国教育研究协会1999年颁布的“教育与心理测试标准”[1](AERA et al. 1999),测试信度指的是测试结果是否稳定可靠,即同一套测试在对同一组测试对象进行的反复测试中,受试者是否可以保持稳定、一致的分数。
基于此定义,Chalhoub-Deville和Turner (2000)提出了“测量误差”[2]的概念,其中涵盖了除受试者主观因素(即语言测试所考查的目标语言能力)之外的许多可以阻碍其考试发挥的客观因素;随即他们又从考生的实际测试成绩与其“真分数”[3]之间的差距这一角度出发,重新定义了测试信度——前者越接近后者,此测试的信度就越高。
由于真分数只是代表了测试中不存在“测量误差”[4]时的真值或客观值(lord,Novick 1968),但是在任何实际的测试中,误差是不可能被完全避免的;所以Hughes(2003)[5]进一步提出,如果一项测试可以在其实施过程当中将各种客观因素可能造成的测量误差减少到最小程度,并且使受试者发挥其最大潜能,那么此测试的结果就是可靠、可信的。
基于笔者的分析,Hughes (2003)[6]对语言类测试的信度也进行了类似的定义:同一组语言试题被多次用于考查同一组考生,并且假设在此期间考生的被测语言能力没有明显变化,如果每次的成绩都相近,那么此语言测试便具有较高的信度。
综上所述,对于语言测试的信度来说至关重要的因素共有四点:1.同一测试被反复实施后受试者的成绩保持一致。
2.同一组受试者在考试期间被测语言能力没有显著变化。
3.测试实施过程当中“测量误差”不存在或已被减少到最小。
4.测试成绩与“真分数”接近。
如果一个语言测试可以同时满足以上四个前提条件,就足以说明其测试结果的可信性。
尽管如此,我们不难看出,想要在同一组考生(其被考查的语言能力在一定时间内还需维持不变)中重复地应用同一项语言测试,在实际操作当中可行性并不高。
Hughes(2003)[7]就曾指出,在对同一项语言测试的重复操作当中,两次相邻的测试之间的间隔如果过短,学生对于部分试题的答案就会有较清晰的记忆,况且他们没有充足的时间去实现目标语言能力的提高,从而可能会导致两次测试的结果相差不大,这就意味着此测试的信度值虚高;如果两次测试之间的间隔过长,学生就有足够的时间去完善被测语言的能力,那么后一次的测试成绩可能会远远高于前一次,但如此一来此测试的信度就会大打折扣;因此在上述两种测试条件下,想要完全地抵消由时间安排不同所造成的对信度的影响是很困难的。
即使在高新技术的支持下,某些研究可以人为地抹去受试者对于前一次测试的记忆,并且确保他们在参加第二次测试之前没有实现任何新的知识积累或能力提升,从而两次测试的结果十分吻合一致。
试问,如此这般得到的测试信度意义何在?这种看似科学、准确的信度值又有什么实际参考价值?笔者认为,一项语言测试的真正目的,在于其是否可以准确地、及时地为目标语言教师提供关于学生学习状态的反馈信息。
如果同一组学生两次或多次参加同一测试的成绩相差巨大,那么这种看似“惨不忍睹”的低信度,至少可以表明他们在此期间突飞猛进或者一落千丈的实际学习效果,从而帮助教师在未来的实际教学当中作出相应的调整和安排。
对语言测试的实施者来说,诸如扰人的噪音、不合标准的测试设备或考试环境等可能会导致“测量误差”的客观不利因素,一定要设法去避免;但是像考试恐惧、紧张不适、难解压力之类的主观不利因素,则完全需要受试者自己在实际考试过程当中进行调节和克服。
因此,对于一个被测语言能力突出但是心理素质偏弱的受试者而言,就算此测试在其设计、实施、监督各方面都做到无可挑剔,它也不一定能够真实地反映出此人现阶段的被测语言水平;换言之,抛开客观不利因素,“测量误差”完全可以由主观不利因素引起;而受试者在面对客观上完美无缺的标准化语言考试时所产生的紧张、焦虑等心理障碍,完全可以使其不能够百分之百发挥出应有的水平,甚至发挥失常。
由于“真分数”强调的是一种受试者,在不受任何主观和客观不利因素的影响下,完全发挥出自己所有潜能所得到的成绩,那么“真分数”和实际成绩之间的对比可能会帮助我们判断一项测试的信度。
尽管如此,在现实的考试环境中,我们每个人都会或多或少地经历各种不同程度的主、客观不利因素;虽然过硬的心理素质并不属于纯语言能力范畴,但是一个受试者在面对“测量误差”时的心态足可以影响其实际的语言应用和发挥。
所以,受试者的实际测试成绩综合地反映了其语言能力和心理素质,而这二者对于未来想在任何环境中(考试、交谈、书信……),正确、自信地运用被测语言的受试者来说都是不可或缺的。
如果“测量误差”被控制在一个可以接受的范围之内,那么对教师或者高校录取委员会而言,受试者的实际测试成绩可能会比其所谓的“真分数”更加具有参考价值。
虽然“测量误差”和“真分数”等概念可以帮助我们从纯理论角度去衡量一项测试的信度,但是如果试题开发者们过度地强调信度的重要性,并且盲目地把理想化的“真分数”,或者所谓的“零误差”测试环境作为理论依据和评判标准,那么,他们会不可避免地忽视了试题开发的重中之重——测试的效度。
作为心理或教育测验中最常用的信度评估工具,“可靠性系数”[8]这一概念首先由Cronbach提出(通常也被称之为“Cronbach系数”),用于量化测试的信度(Kupermintz,2003)。
“可靠性系数”的数值范围通常是最低值0.00至最高值1.00之间(Gliem and Gliem, 2003)[9],而且根据Hughes(2003) [10]的进一步解释,除非同一组受试者不管参加多少次同一项测试其成绩都完全相同,否则此测试不可能真正地得到1.00的“可靠性系数”;这就意味着“可靠性系数”能够达到1.00的测试在现实当中并不存在,那么一项测试的实际“可靠性系数”值越接近1.00,其测试可信度就越高。
Hughes(2003, p.39-40) [11]在其研究中主要讨论了三种测量“可靠性系数”的方法:1)重复测试法(the retesting method)。
即用同一套试题在两个不同时间内来测试同一组受试者,这样便可以获得两组分数,然后计算出两组分数的相关系数。