语言测试中的构念效度研究

合集下载

语言测试中结构效度的实现

语言测试中结构效度的实现【语言学研究】沈阳师范大学学报（社会科学版）Journal of Shenyang Normal University(Social Science Edition)2012年第1期第36卷（总第169期）№1,2012Vol.36General,№169语言测试中结构效度的实现马蓉（辽宁省文化艺术职工大学基础部，辽宁沈阳110180）[摘要]作为一门独立学科，语言测试是检验和评估教学效果和学习效果的重要手段。

结构效度是实现语言测试目的的基础，决定了测试的目的和收集证据检验测试的有效性。

而针对不同的受试者测试会有所倾向，产生测试偏见，影响结构效度的实现。

科学性的语言测试要求测试者在测试始终合理有效的规避测试偏见，实现结构效度，使语言测试更科学。

[关键词]语言测试；结构效度；测试偏见[中图分类号]H0-0[文献标识码]A[文章编号]1674－5450（2012）01－0117－02[收稿日期]2011－11－10[作者简介]马蓉（1977-），女，辽宁沈阳人，辽宁省文化艺术职工大学讲师，教育学硕士。

语言测试是检验语言水平和能力的重要途径，既受测试信度、效度和区分度的影响，也与受试者个人的特征密切相关。

而效度即是考查测试者想要测量的内容，是实现测试的重要方面。

在构建测试效度时应避免受试者个人特征对测试表现的影响，也就是避免测试偏见，才能测试出受试者语言能力的真实水平。

一、语言测试中的结构效度（一）结构效度的概念Lyle F.Bachman 在他的Language Testing in Practice (《语言测试实践》)一书中指出：所谓结构效度，从属于对语言测试分数所作的解释的意义性和合理性，这就意味着对测试分数的解释就是对受试者语言能力的评估[1]。

Bachman 认为通过结构效度，我们不仅可以评估想要测量的受试者的语言能力，还可以通过对测试分数的解释来判断测试所采用的目标语使用语域是否合理。

语言测试中的构念效度研究

知识文库第14期64 语言测试中的构念效度研究王天予1.引言在考虑到语言测试发展、解释和使用时首要考虑的就是效度。

那么什么是构念效度？如何更好地理解构念效度？该效度与其他效度的不同之处是什么？2.构念及构念效度 2.1构念要想理解什么是构念效度，首先要明白什么是构念（construct）。

从心理学的角度来看，构念指的是人类头脑中存在的一种特质、水平、能力或技巧（Brown,2000:9）。

在教育测量领域，构念就是一种能力（Wiley,2002)，“指成功完成特定任务所要求的人类特征”。

Ebel 和Frisbie（1991：108）将构念解释为“有关人类行为某一方面的心理构建或理论概念，是既不能够直接测量也不能够直接观察的。

”构念效度是指某个心理测验在多大程度上正确地验证编制测验的理论构想。

《标准》（APA，1999）将构念视为一个测验拟测的概念或特征。

这是从广义上将构念来指测验所涉及测量的概念或特征。

实际上，构念的选择对考试内容、考试方式和分数意义的解释息息相关，是效度研究的基础，也对考试的设计和评价起着重要的作用。

2.2 构念效度如何更好的理解构念效度呢？在教育测量领域，上述讨论的内容效度、准则关联效度和构念效度这三种类型效度都是作为整体构念效度的不同方面。

语言测试者认为这种把构念效度作为整体观点是一种新的发展。

理论界对构念的定义有不同的看法，因此，通过识别他们是如何解释应答一致性来定义构念（Messick 1981) 。

Loevinger（1957:636）最早提出要把构念效度作为整体效度来看待。

在80 年代, 这一观点逐渐得到人们的认同: 构念效度不再作为效度的一种证据，而应包括内容和标准证据、信度及其它与理论验证有关的方法 (Messick 1975, 1980, 1988, 1989; Anastasi 1986)。

其中影响最大的是 Messick 的“效度整体观”。

Messick （1988,1989）进一步丰富了效度理论，对测试的解释和使用提供了证据基础。

英语语言测试中效度的测量与估计

英语语言测试中效度的测量与估计沈阳师范大学大学外语教学部许亚楠一、效度的基本概念（一）效度的定义及分类不同的语言测试学家对于效度这一概念的界定也不尽相同。

巴奇曼在《语言测试要略》中认为，“效度是对实证证据和理论原理在多大程度上支持基于测试的推断和行为的充分性和适当性的综合评价判断”。

换句话说，效度其实就是指一项测试中测量结果的准确性和有效性的程度，即测量是否达到了预期的目的。

效度通常可以分为构念效度、内容效度、预测效度、表面效度以及方法效度五种。

构念效度是指我们对于根据测试成绩对评价测试结果的解释是否是恰当且有意义的，即在多大程度上可以说一次测试成绩能够反映考生具备所考查的语言能力。

内容效度是指测试内容反映测试目的以及能够达到预期考查效果的程度。

预测效度是指测试结果能够在某种程度上预测出学生在未来学习中的表现和成就。

表面效度指的是一项测试能够测量出它想要测量的内容，这一概念其实和内容效度是有交叉的。

方法效度则一般用来评价测试方式与测试目标之间的关系。

（二）影响测试效度的因素测试效度的高低受到许多方面因素的影响，主要包括测验组成、测验实施、被试主观状态、效度效标和样本选择五个方面。

测验的效度与测验的取材和长度、测试题的难度、区分度及其编排方式等密切相关。

要想保证测验效度，主试应该适当控制测验环境，例如场地、材料、考试说明、考试时间等。

另外，被试对测验的态度、情感以及自身的身体健康状况都会影响测验结果的准确性和有效性，同时选择合适的效标也是估计效度所要依据的条件。

最后在样本选择上要尽可能地增加样本容量以减少测量误差，使所得的测量结果处于相对稳定的状态。

（三）提高效度的方法测试者可以通过控制系统误差、精心编制量表、妥善组织测验、扩充样本容量、增加测验长度等方法来有效提高测试效度。

效度的高低主要受到没有校准仪器、测试题目和指导语具有暗示性、答案有明显的组型等系统误差的影响，所以必须严格控制这些干扰因素。

语言测试构念效度

持续改进测试
根据测试结果和反馈，对测试进行持续改进，优化试题设计、评分标准和考试流程，进一步提高语言测试的构念效度和实用性。
05
结论和展望
主要结论汇总
语言测试构念效度是评估语言测试结果是否真实反映被测者语言能力的重要指标。
研究表明，有效的语言测试应该具备清晰的目标、真实的任务、可靠的评分方法等特征。
03
语言测试构念效度的实证研究
研究设计
明确研究目标
首先，需要明确语言测试构念效度的具体目标，例如，是要验证某一特定语言测试的构念效度，还是要比较不同语言测试的构念
效度。
选择适当的受试者
受试者的选择应当代表语言测试的目标人群，以确保研究结果的普遍性。同时，受试者的数量也应足够，以满足统计分析的要求
。
设计测试任务
测试任务应能全面反映语言能力的各个方面，包括听、说、读、写等。任务的难度和长度应适中，以避免受试者产生疲劳或厌倦
。
Hale Waihona Puke 数据收集和分析方法数据收集
收集受试者在语言测试中的表现数据，包括得分、反应时间、错误类型等。同时，也可以收集一些背景信息，如受试者的年龄、性别、母语等。
数据分析
可以采用定量和定性两种分析方法。定量分析可以通过统计方法，如相关分析、回归分析等，来探究语言测试和语言能力之间的关系。定性分析可以通过对受试者的表现进行深入观察和分析，来获取更丰富的信息。
构念的理解
构念可以是理论构念，也可以是经验构念，它们都是对某一现象或事物的抽象描述。
构念效度的评估方法
内容效度评估
通过检查测验内容是否充分、全面地反映了所要测量的构念
来进行评估。
结构效度评估

浅析语言测试中信度与效度两者之间的关系

浅析语言测试中信度与效度两者之间的关系语言测试在语言教学中处于中心地位，是从属于应用语言学这一学科的。

在过去语言测试在应用语言学中处于边缘地位，而在长达三十多年的发展中，语言测试现已发展成为一个相对独立的学科，已经在学术上占有了一席之地。

通过语言测试教育者可以及时发现学习者学习上存在的不足之处并在日后的教学过程中加以正确引导，也可以衡量教学任务和教学大纲的执行情况，但是这些都是基于科学的语言测试能够得到良好的反馈情况，反之，如果是一套不科学的语言测试就很可能对学习者做出错误的判断从而影响学习效率，所以科学的语言测试无论是对受教育者还是对教育者来说都是非常重要的。

一套设计比较科学的测试应该是具有信度，效度，难度和区分度四点特征，信度与效度是难度和区分度的基础，同时也是语言测试的两大根本要求，只有正确认识了信度与效度两者之间的关系才能寻找出一个科学的方法使得语言测试更加科学准确。

信度指的是测量的一致性，一个实验或测试的信度指它在重复测量时产生同样结果的程度，也就是说测量的稳定性是否一致。

影响信度的因素很多，其不仅存在于考试过程中的各个环节，也存在于阅卷的过程中，如试卷中的试题长度偏长，项目种类多，那么测试的信度就会提高，反之则会降低，考试分数集中于某一点或某一个区域时信度也会有所降低；考试期间考生时间充裕那么估算能力考试的信度也相对较高等等，这些都是存在于考试过程中各个环节的部分举例，在阅卷过程中阅卷者自身的信度和阅卷者之间的信度等问题也是影响信度的因素之一，如在评阅主观性的题目时（作文，口语等），阅卷者在评分时就具有很大的主观色彩，而不同的阅卷者掌握的主观的评分标准在评阅主观性试题时，不容易取得一致，也会使得测试的信度不稳定。

效度指的是我们所获的证据在多大程度上支持我们根据分数所做出的推断，也就是考试是否检测到了它所要检测的东西，是否达到了它的预定目标。

效度共分为三种不同的类型，其不同类型的效度测试有各自不同的测试着重面，内容效度测试的目的是为了了解测试者在一些实际环境中是如何运作的，如果测试的样本能够充分代表总体，那么测试在内容上就是有效的，反之效度则不高；预测效度和共时效度都是属于与标准有关的效度，预测效度是标志测试者将来能力的标准，如通过摸底考试分班，共时效度是指一个测试结果与另一个同时使用的标准的结果的关系;构想效度是指要考察一个测试者在多大程度上和我们根据某一理论所作出的预测是否一致，也就是说验证的是我们所做的假设是否有效。

罗夏墨迹技术的构念效度

内容摘要
然而，罗夏墨迹技术也存在一些缺点。首先，该技术的评估结果受到评估者主观因素的影响，可能导致评估结果的不一致。其次，由于罗夏墨迹技术的实施过程较为繁琐，需要专门的培训和技能，因此成本相对较高。此外，由于罗夏墨迹技术的结果解释需要丰富的专业知识和实践经验，因此对评估者的要求较高。
内容摘要
内容摘要
罗夏墨迹技术是一种著名的投射测试，通过展示模糊的墨迹图片，引导受试者描述图片中的形象、场景、情感等，从而了解其人格特征和内心世界。该技术最初用于临床心理学中，后来逐渐被应用于人际关系构念测量和心理诊断领域。
内容摘要
在人际关系构念测量方面，罗夏墨迹技术主要通过分析受试者对墨迹图片的描述，了解其人际敏感度、信任程度等方面。例如，墨迹图片中如果出现人脸或身体部位，受试者可能会联想到与他人交往的经历，从而反映其人际关系的心理特质。在心理诊断方面，罗夏墨迹技术可以帮助评估受试者的心理健康状况，例如通过分析其描述中是否涉及抑郁、焦虑等情绪。
然而，也有一些研究指出罗夏墨迹技术的构念效度存在一定的问题。例如，有些研究发现，不同测试者对同一受试者的墨迹图案解读存在较大的差异，影响了该技术的有效性。此外，也有一些批评指出，罗夏墨迹技术过于主观和模糊，缺乏科学性和可靠性。
案例分析
案例分析
为了更好地理解罗夏墨迹技术的构念效度，我们选取了一个具体的案例进行分析。在一项研究中，研究人员使用了罗夏墨迹技术来评估一群职业罪犯的心理特征。研究表明，与非罪犯对照组相比，职业罪犯组在罗夏墨迹测试中的反应显示出更高的攻击性和更低的适应性。此外，研究还发现，职业罪犯组的反应与外部效标（如犯罪行为、心理健康状况等）具有显著的相关性。
罗夏墨迹技术的构念效度进行全面分析，指出其在心理学、社会学和历史学等领域的应用中具有一定的有效性和可靠性。然而，我们也需要注意到该技术的构念效度会受到多种因素的影响，需要在应用时谨慎评估其局限性和风险。

语言测试构念效度研究

语言测试构念效度研究2005年的英语专业八级考试是根据2004年新的八级考试大纲设计和施测的第一次考试，考试的性质、构念领域、任务要求、分数权重等都发生了较大变化。

作为全国唯一的测量英语专业学生高年级英语水平的大规模考试，这些变化对个人、团体和社会将产生重大影响。

测试界认为，越是高风险考试，越要对考试的技术和应用方面进行评价，对考试的效度验证要求越高。

因此，运用先进的效度理念、分析技术和行业规范对我国的八级考试进行研究，不仅有理论价值，也具有现实意义。

在对测验的评价中，效度是最重要的考虑因素。

然而，在过去近一个世纪以来，效度的概念从多类效度发展到统一构念效度。

与效度概念发展相联系，效度验证的范式和方法也产生了变化。

因此，全面和准确地理解效度，具有十分重要具有理论意义。

而掌握效度验证的科学方法具有运用价值。

本研究的目的有二：一是对统一效度概念从本体论、认识论、方法论视角进行较全面的评述，旨在为八级考试效度验证提供一个理论和方法框架；二是在统一效度概念下，对八级考试的客观试题从实证的角度进行效度验证。

验证的问题包括四个：八级考试客观试题的测量学属性如何?客观题目实际测量的维度与考试设计的理念是否一致?客观试题分数的意义在不同的群体中是否具有类似的解释?新增加的人文知识分测验在是否存在考试偏差? 针对两个目的，采用两种研究方法。

对构念效度的理论和方法讨论采用文献综述方式；针对八级考试客观题目的效度验证是用定量的方式提供解释依据。

构念一致性问题是本研究中关于分数解释的切入点，解决的是测验所测量的构念在不同背景的考生的意义是否具有可比性问题。

当一个测验在一个组别(群体)中所测量的假设特质(或者心理构念)与另一组别相同，或者当一个测验在测量相同的特质而测量的准确程度相似时，构念具有可比性。

构念一致属于分数结构和效度概化问题。

它与考试偏差分析一起，为分数的可解释性和考试公正提供依据。

本研究的对象是446所大学参加2005年TEM 8考试的96696名考生。

基于计算机的语言测试及其效度验证_李清华

1.引言在过去近一个世纪里 , 计算机技术改变着人类的生活、工作和学习 ( C h a l h o u b D e v i l l e 2002) ; 计算机技术的出现堪称人类文明发展新的转折点 ( P r o v e n z o , B r e t t ＆M c C l o s k e y 1999) 。近五十年来 , 随着语言学、认知科学和测量学等相关学科的不断发展 , 计算机技术对语言测试与评估也产生了巨大影响。特别在测试管理、试题设计编写、任务呈现、评分、成绩分析与报道等方面 , 计算机的高效率受到越来越多大规模语言测试开发和管理者的青睐 ( A l d e r s o n ＆B a n e r j e e 2002) 。现代语言测试的语言学基础经历了数次革新 , 测量学理论由经典测试理论 ( C l a s s i c a l T e s t T h e o r y ) 发展到概化理论 ( G e n e r a l i z a b i l i t yT h e o r y ) 和项目反应理论 ( I t e mR e s p o n s e T h e o r y , I R T )( 李清华 2006a ) 。计算机技术的发展促使语言测试的介质发生了变化。传统的基于纸笔的语言测试 ( P a p e r a n d P e n c i l B a s e dL a n g u a g eT e s t i n g , P B L T ) 正在向基于计算机的语 ① 言测试 ( C o m p u t e r B a s e dL a n g u a g eT e s t i n g , C B L T ) 迈进。 C B L T 由机助语言测试 ( C o m p u t e r A s s i s t e dL a n g u a g e T e s t i n g ) 发展到计算机适应性语言测试 ( C o m p u t e r A d a p t i v e L a n g u a g eT e s t i n g ,

1、下载文档前请自行甄别文档内容的完整性，平台不提供额外的编辑、内容补充、找答案等附加服务。
2、"仅部分预览"的文档,不可在线预览部分如存在完整性等问题,可反馈申请退款(可完整预览的文档不适用该条件!)。
3、如文档侵犯您的权益，请联系客服反馈,我们会尽快为您处理(人工客服工作时间：9:00-18:30)。

语言测试中的构念效度研究
1.引言
在考虑到语言测试发展、解释和使用时首要考虑的就是效度。

那么什么是构念效度？如何更好地理解构念效度？该效度与其他效度的不同之处是什么？
2.构念及构念效度
2.1构念
要想理解什么是构念效度，首先要明白什么是构念（construct）。

从心理学的角度来看，构念指的是人类头脑中存在的一种特质、水平、能力或技巧（Brown，2000：9）。

在教育测量领域，构念就是一种能力（Wiley，2002），“指成功完成特定任务所要求的人类特征”。

Ebel和Frisbie（1991：108）将构念解释为“有关人类行为某一方面的心理构建或理论概念，是既不能够直接测量也不能够直接观察的。

”构念效度是指某个心理测验在多大程度上正确地验证编制测验的理论构想。

《标准》（APA，1999）將构念视为一个测验拟测的概念或特征。

这是从广义上将构念来指测验所涉及测量的概念或特征。

实际上，构念的选择对考试内容、考试方式和分数意义的解释息息相关，是效度研究的基础，也对考试的设计和评价起着重要的作用。

2.2 构念效度
如何更好的理解构念效度呢？在教育测量领域，上述讨论的内容效度、准则关联效度和构念效度这三种类型效度都是作为整体构念效度的不同方面。

语言测试者认为这种把构念效度作为整体观点是一种新的发展。

理论界对构念的定义有不同的看法，因此，通过识别他们是如何解释应答一致性来定义构念（Messick 1981）。

Loevinger（1957：636）最早提出要把构念效度作为整体效度来看待。

在80 年代，这一观点逐渐得到人们的认同：构念效度不再作为效度的一种证据，而应包括内容和标准证据、信度及其它与理论验证有关的方法（Messick 1975，1980，1988，1989；Anastasi 1986）。

其中影响最大的是Messick 的“效度整体观”。

Messick（1988，1989）进一步丰富了效度理论，对测试的解释和使用提供了证据基础。

图表1呈现的就是Messick效度观。

根据图表可以看出效度的证据基础既包括测试分数的解释还包括测试分数的使用。

对于测试解释的证据基础涉及到构念效度实证研究，而这个构念效度是作为在理论语境中与其他构念存在隐含的关系。

对于测试使用中的证据基础既包含了与构念效度也包含了相关性/实用性。

效度的后果基础涉及到对测试分数的解释和使用。

对于测试解释的后果基础要对价值意义作出判断，也就是这个隐含关系是好是坏，是可取还是不可取等。

而对于测试使用中的后果基础涉及到对社会后果的判断，这种价值语境涉及测试使用的隐含后果与实际应用在
测试中的影响。

概括起来，Messick 对效度理论的贡献主要表现在：（1）明确了效验的对象是测试分数的解释和使用，而不是测试本身（Davies，2003）；（2）确立了构念的核心地位，加强了对构念效度作为效度整体概念的一致认识（Alderson & Banerjee，2001；Davies，2003）；（3）把效度的涵盖范围由分数意义扩展到相关性和使用（relevance and utility）、价值意义及社会后果（Shepard，1993）。

构念效度是效度的最本质内容，内容效度和效标关联效度都是用来服务和支持构念效度的（刘万伦，2006 ：108）。

美国心理学会、美国教育研究学会和国家教育测量协会1999年出版的《教育与心理测验的标准和指南》中，已经用构念效度来统一定义效度。

构念效度不仅是决定考什么和怎么考，而且回答为什么这样考，而且是检验语言测试质量的重要参照依据。

就是考试中的试题是否考了相关的内容，测试结果与测试要求是否相关、指向是否完全一致，测试是否对教与学发挥积极推进作用等。

构念效度的重要性更体现在出该测试是否有用的问题（缪学，2010：39）。

语言学家Bachman L. F. &A. Palmer认为，构念效度是指依据考试成绩所做的一切结果和解释是否有意义的问题（Bachman L. F. &A. Palmer，1996）。

也就是说一次考试成绩是否考查了学生的语言能力，就是要看我们的构念效度如何。

构念效度的建立是一个过程，在这个过程中，测试设计者首先提出关于能力或特质（trait）的理论假设即所谓构念，然后对构念进行操作性定义并根据构念编制和实施测试，最后对测试结果进行分析，检验测试结果与构念的一致性程度。

3.结语
当前把效度作为一个统一概念使用，效度是衡量语言测试的重要标准之一。

涉及到我们对测试分数解释和使用是否适当和正确。

构念效度研究又处于效度研究的核心地位，也是测验代表语言学习基本理论程度的指标。

构念效度验证研究测试所测量的能力，为测试提供理论基础。