第七章语言测试的效度研究

合集下载

从考试效度论语言测试

既然语言测试的信度和效度互相矛盾，那么迄今的实际的语言测试对它们又是如何处理的呢？答案是积极平衡。具体做法如下：探索用信度高的形式考效度高的内容的道
路，研究提高受测试的具体行为的外推性的途
的测量，效度ห้องสมุดไป่ตู้乃是最重要的依据，对语言测试效度研究意义就在于此。本文将着重分析语言测试中效度的评估方法以及信度与效度这对矛盾的处理方法作述评。
（）效度的评估法二测试的效度，是指测试的准确程度，换言之是指测试卷是否测量了它所要测量的东西，
（）导言一
语言测试的效度（包括表面效度（ｃｆｅａｖｌｉ）ａｄｔ、内容效度（ｏｔｔａｉｉ）ｉｙｃｎｅｌｔ、结构效度ｎｖｄｙ（ｎｔｃｖｌｉ）效标关联效度ｆｉｒｎｃｓｕｔａｉｔ和ｏｒｄｙｃｔｉｒｅｏ
合的桌面视觉效果综合处理系统为视频处理带来了新的思路，凭借其整合性和与高端专业系统的无缝沟通为教学改革提供了新的方向。本文从分析Ｃｏｕｔｎ性能优势入手，探讨在培训中选用ｍｂｓｏ的ｉ
Ｃｏｕｔｎ益处。ｍｂｓｏ的ｉ
，
蕊
教渣搽－才
Ｃｏｕｒｎ觉效果ｍｂｓｉ视ｏ综合处理系统的优势

对于大学英语无提纲式写作测试的效度研究

对于大学英语无提纲式写作测试的效度研究摘要:在测试学领域,对于效度与信度的关系问题一直研究不断。

本文运用了效度和信度的理论,对大学英语无提纲式写作测试进行分析,以期对测试的设计有所贡献。

关键词:效度无提纲式写作测试大学英语效度、信度和可行性是语言测试学的三个基本问题。

在测试学领域,人们经常会分析和讨论效度这一概念。

它被看做衡量考试科学与否的重要标准。

1 效度的定义及分类效度(validation)指测试的有效性,即测验分数能够代表所要测量的心理特性的程度,或测验结果达到测验目的的程度,换言之,是一项测试对所要测验的特性测量到什么程度的估计。

由于效度是相对于测试的研究目的和研究侧面而言的,具有多层面的特性,因此效度具有多种类型,但主要分为三类,即内容效度,效标关联效度,结构效度。

内容效度是指测验项目对所要测量的内容范围的代表性程度。

它是效度研究的重要问题,它决定了测试方法测试语言能力的程度。

如果一项测试具有很高的内容效度,那么这项测试很有可能达到了测试目的,测量了它想要测量的内容。

例如:一位教师给学生做一次英语测验,该测验的题目如果涵盖了教学所欲达成的目标,及教材的重要内容,就可以说该测验具有内容效度。

目前尚没有一种数量的测量方法可以衡量测试的内容效度,主要是采用逻辑的分析方法,仔细判断每一项目是否符合及涵盖所要测量的研究领域。

效标关联效度是测验分数与外部效标之间的相关程度,又称准则关联效度。

其中,效标表示独立于测验结果,反映测验目的的行为参照。

根据选择效标的时间不同,可分为:同时效度和预测效度。

如果当测量学生智力时,将学生当时的成绩作为效标,就代表其同时效度,故它表示测验分数与实施测验同一个时间所取得的效标之间的相关性,目的使用测验分数估计个人在效标方面的目前实际表现。

而如果当测量学生智力时,将测量之后一段时间的学生成绩作为效标,即为预测效度,它是测验分数与实施测验后一段时间所取得效标之间的相关性,目的在于使用测验分数预测个人在效标方面的未来表现。

语言测试真实性维度的再认识——兼谈考试效度的诠释

针对大众对语言测试“ 真实性” 的普遍理解，重新梳理语言测试 “ 实性” 真研究，探究其困境，揭示语言测试真实性的本质，指出其研究走向。并
性；材料信息的时效性；材料载体的真实性； ② ③ ④ 材料作者是否是本族语者；材料使用者是否 ⑤ 为本族语者；材料呈现是否自然；意图真实 ⑥ ⑦
和考试中借鉴。拿阅读测试的材料来讲，内容其既要反映重要的主题和思想，又要体现课程目标；
既要联系学习者社会生活的经历，要有助于学又
性” 概念伴随交际语言教学的盛行而流行，长期以来一直受到语言教学和测试界的关注Ｉ。Ｗｉｔ］ｄ．
新闻）登了王蔚同志的《年高考英语口试题目刊今让考生有些意外— —考口语表达，是考时政》还一文。上海市２０Ｏ８年高考英语口试题目出现大量的时政性话题，引起大众关注：口语考试应该纯粹考查学生的语言表达水平还是应该把外语作为一种载体考查学生的综合能力。该文指出，语学习需外
ｍｎ出测试的情景真实性和互动真实性的理ａ提论＿。情景真实性指考试题目的特点是否和目的７Ｊ语的环境中语言使用的情况吻合，而互动真实性指考生和考试题目之间的互动关系，即题目是否能激发考生的语言能力，使其完成考试任务＿。８＿
要融入到社会生活中，言教学需要关注社会热语点，语言测试也应该如此。该文反映出目前公众对语言测试 “ 实性 ” ａｔｅｔｉ）真（ｕｈｎｃｙ问题的疑惑。本文ｉｔ

对语言测试效度及其证据来源的一些认识和思考

对语言测试效度及其证据来源的一些认识和思考作者：陈雨珣来源：《青年文学家》2009年第16期摘要：效度是语言测试最重要的准则之一，本文考查了效度概念中传统习惯划分的四个类别：标准效度、表面效度、内容效度和结构效度。

发展至今，结构效度成为其中最被广泛接受和最受研究的效度证据。

随着概念的发展，效度的证据来源也有了新的诠释，文章对五种证据来源作了说明。

关键词：效度结构效度表面效度内容效度标准效度证据来源【中图分类号】H31【文献标识码】A【文章编号】1002-2139(2009)-16-0075-01一、语言测试中的效度语言测试的首要目的是为研究者提供一个测量个体语言能力的指标。

效度是测试的有效性最重要也是最必要的准则，它体现了实现测试结果的有效程度。

效度通常被定义为一个研究对研究者所意图测量的特定概念所能反映或评测的程度。

语言测试中，效度关系到测量被测试者语言能力的研究是否成功，可用来判断某一项评分的解释是否合理，而这个解释也涵括了测试的意义及合理性。

这就要求测试中应充分考虑作为基础的评分指向的证据来源，以及评分应用的社会影响。

因而效度并非测试或测评的附属产物，而是测试结果涵义的产物。

二、效度的四个类型效度传统习惯上被分为四个类别：表面效度，内容效度，标准效度和结构效度。

表面效度涉及测量方法及其过程是如何呈现的。

包括它是否以合理的方式获取研究员试图得到的信息，它看起来是否设计良好，以及它看起来能否可靠地动作。

不同于内容效度，表面效度不需要架设理论来获得支持。

表面效度仅仅意味着表面的有效性。

由于表面效度的模糊性和主观性，心理测试学者们很久前便放弃了这个概念。

内容效度以测量方法所能反映的测量领域的程度为基础，找出测试内容是否反映了测试的要求。

乍看之下。

内容效度似乎类似于表面效度，但二者是有区别的。

在内容效度中，证据是在考官评判的协商中获得的。

简而言之，表面效度可以由～个人确立。

而内容效度需要一个专家小组来检测。

十一语言测试的效度

十一语言测试的效度1 效度（validity）● A measure is valid if it does what it is intended to do, which is typically to act as an indicatorof an abstract concept (for example height, weight, time, etc.) which it claims to measure.The validity of a language test therefore is established by the extent to which it succeeds in providing an accurate concrete representation of an abstract concept (for example proficiency, achievement, aptitude).●效度就是测验测到它打算测的东西的程度，或者说，是根据测验分数所作出的推论的恰当性程度。

一项语言测试，它测的到底是什么；对设计者打算测量的某种心理属性，它测得的程度如何；根据测试的结果，可以作出怎样的推论与解释。

诸如此类的问题都与测试的效度有关。

2 效度的种类效度通常有如下几种：●结构效度/构念效度/构想效度（construct validity）●内容效度（content validity）●效标关联效度（criterion-related validity），包括⏹同期效度/同时效度（concurrent validity）⏹预期效度（predictive validity）●表面效度/表层效度（face validity）（1）结构效度/构念效度/构想效度（construct validity）●概念构想效度是指测验成绩能够解释心理学理论上的某种结构或特质的程度。

浅析语言测试中信度与效度两者之间的关系

浅析语言测试中信度与效度两者之间的关系语言测试在语言教学中处于中心地位，是从属于应用语言学这一学科的。

在过去语言测试在应用语言学中处于边缘地位，而在长达三十多年的发展中，语言测试现已发展成为一个相对独立的学科，已经在学术上占有了一席之地。

通过语言测试教育者可以及时发现学习者学习上存在的不足之处并在日后的教学过程中加以正确引导，也可以衡量教学任务和教学大纲的执行情况，但是这些都是基于科学的语言测试能够得到良好的反馈情况，反之，如果是一套不科学的语言测试就很可能对学习者做出错误的判断从而影响学习效率，所以科学的语言测试无论是对受教育者还是对教育者来说都是非常重要的。

一套设计比较科学的测试应该是具有信度，效度，难度和区分度四点特征，信度与效度是难度和区分度的基础，同时也是语言测试的两大根本要求，只有正确认识了信度与效度两者之间的关系才能寻找出一个科学的方法使得语言测试更加科学准确。

信度指的是测量的一致性，一个实验或测试的信度指它在重复测量时产生同样结果的程度，也就是说测量的稳定性是否一致。

影响信度的因素很多，其不仅存在于考试过程中的各个环节，也存在于阅卷的过程中，如试卷中的试题长度偏长，项目种类多，那么测试的信度就会提高，反之则会降低，考试分数集中于某一点或某一个区域时信度也会有所降低；考试期间考生时间充裕那么估算能力考试的信度也相对较高等等，这些都是存在于考试过程中各个环节的部分举例，在阅卷过程中阅卷者自身的信度和阅卷者之间的信度等问题也是影响信度的因素之一，如在评阅主观性的题目时（作文，口语等），阅卷者在评分时就具有很大的主观色彩，而不同的阅卷者掌握的主观的评分标准在评阅主观性试题时，不容易取得一致，也会使得测试的信度不稳定。

效度指的是我们所获的证据在多大程度上支持我们根据分数所做出的推断，也就是考试是否检测到了它所要检测的东西，是否达到了它的预定目标。

效度共分为三种不同的类型，其不同类型的效度测试有各自不同的测试着重面，内容效度测试的目的是为了了解测试者在一些实际环境中是如何运作的，如果测试的样本能够充分代表总体，那么测试在内容上就是有效的，反之效度则不高；预测效度和共时效度都是属于与标准有关的效度，预测效度是标志测试者将来能力的标准，如通过摸底考试分班，共时效度是指一个测试结果与另一个同时使用的标准的结果的关系;构想效度是指要考察一个测试者在多大程度上和我们根据某一理论所作出的预测是否一致，也就是说验证的是我们所做的假设是否有效。

第七讲语言测试与评估（推荐）

第七讲语言测试与评估（推荐）第一篇：第七讲语言测试与评估（推荐）第七讲：语言测试与评估一、语言测试的作用与目的1、评估教学，提供反馈信息。

2、评估人才，提供用人的重要依据。

3、是语言教学研究和语言研究的重要手段。

4、推广被测语言教学，扩大被测言影响。

二、语言测试的种类第二语言测试可分为：水平测试、成绩测试、诊断测试和潜能测试四大类。

1、水平测试目的：测量测试对象的第二语言水平。

特点：有专门的大纲、统一的试题和统一客观的评分标准。

原则：有效测量测试对象的实际语言水平。

2、成绩测试（课程测试）目的：检查测试对象在学习的一定阶段掌握所学课程的情况。

特点：跟教学过程和教学对象紧密相关，可以测定受试者的学习成绩，但不一定能反映受试者的语言水平。

例如：期中、期末考试，结业考试、毕业考试。

3、诊断测试目的：检查受试者对学习内容的掌握情况，以及教学效果是否达到教学大纲所预期的要求。

特点：A、不受教学进度的限制，随时可以进行。

B、测试内容可以相对集中，突出针对性。

4、潜能测试目的：了解受试者学习第二语言的潜在能力。

测试内容：模仿能力；记忆能力；理解能力。

三、命题1、标准化试题和非标准化试题（从命题过程和试题的可靠性程度的角度划分）A．标准化测试：一般以现代教育测量学的理论为依据，遵照科学的程序，对考试的全过程，从设计、命题到评分、分析等实施标准化运作，严格控制误差，能高效、准确的测出受试者的真实语言水平。

B．非标准化测试：由任课教师根据具体教学需要而自行设计、命题、实施测试以及进行评分的测试。

2、主观性试题和客观性试题（按评卷的客观化程度划分）A．主观性试题：指测试结果的评判在很大程度上决定于阅卷者的主观判断。

例如：作文、口试、翻译……B．客观性试题：有统一的阅卷标准、答案固定，不因阅卷人的主观意愿而改变。

如：多项选择、判断正误……3、分立式试题和综合性试题（按试题所包含的测试内容的特点划分）A．分立式试题：对受试者所掌握的语言知识和言语技能进行分项测试，以考察受试者各个单项的能力。

基于计算机的语言测试及其效度验证_李清华

1.引言在过去近一个世纪里 , 计算机技术改变着人类的生活、工作和学习 ( C h a l h o u b D e v i l l e 2002) ; 计算机技术的出现堪称人类文明发展新的转折点 ( P r o v e n z o , B r e t t ＆M c C l o s k e y 1999) 。近五十年来 , 随着语言学、认知科学和测量学等相关学科的不断发展 , 计算机技术对语言测试与评估也产生了巨大影响。特别在测试管理、试题设计编写、任务呈现、评分、成绩分析与报道等方面 , 计算机的高效率受到越来越多大规模语言测试开发和管理者的青睐 ( A l d e r s o n ＆B a n e r j e e 2002) 。现代语言测试的语言学基础经历了数次革新 , 测量学理论由经典测试理论 ( C l a s s i c a l T e s t T h e o r y ) 发展到概化理论 ( G e n e r a l i z a b i l i t yT h e o r y ) 和项目反应理论 ( I t e mR e s p o n s e T h e o r y , I R T )( 李清华 2006a ) 。计算机技术的发展促使语言测试的介质发生了变化。传统的基于纸笔的语言测试 ( P a p e r a n d P e n c i l B a s e dL a n g u a g eT e s t i n g , P B L T ) 正在向基于计算机的语 ① 言测试 ( C o m p u t e r B a s e dL a n g u a g eT e s t i n g , C B L T ) 迈进。 C B L T 由机助语言测试 ( C o m p u t e r A s s i s t e dL a n g u a g e T e s t i n g ) 发展到计算机适应性语言测试 ( C o m p u t e r A d a p t i v e L a n g u a g eT e s t i n g ,

1、下载文档前请自行甄别文档内容的完整性，平台不提供额外的编辑、内容补充、找答案等附加服务。
2、"仅部分预览"的文档,不可在线预览部分如存在完整性等问题,可反馈申请退款(可完整预览的文档不适用该条件!)。
3、如文档侵犯您的权益，请联系客服反馈,我们会尽快为您处理(人工客服工作时间：9:00-18:30)。

第六章语言测试的效度研究本章将研究所有语言测试中最重要的问题：效度问题。

效度是测试评估中最重要的指标。

一项测试如果从设计目的角度讲不是有效的，那么测试分数的推断和解释自然不会准确（Alderson et al. 1995:170）。

Messick(1992:89指出，众多测试设计者承认其有义务提供证明测量结果富有价值的效度证据，但遗憾的是很少有人真正这样去做。

Hughes，Porter以及Weir认为提供令人满意的效度证据是任何严肃测试必不可少的条件。

第一节效度的概念效度是教育和心理测量学中的一个概念，由来已久。

Kelly（1927:14）指出“效度问题就是一项测试是否真正测量了它声称所要测量的东西”。

Lado（1961:321）提出了这样的问题：“一项测试测量了它应该测量的东西了么？如果是，那它就是有效的。

” 上述是对效度进行的概括性或普遍定义。

下面我们从不同维度解读效度概念。

Henning（1987：89）对效度的理解偏重测试的设计目的，该定义为：一般来说，效度是指一项测试或测试一部分测量它声称测量内容的合适性（appropriateness）。

测试有效是指它测量了它应该测量的东西。

当效度用来描述一项测试时，它应该与“for”连用。

任何一项测试只有针对特定的目的才有效。

该定义突出了测试研发和使用的目的性。

测试使用最普遍的问题之一就是测试误用，即测试不是本着最初的设计目的而得以运用，当然这并不是说一项测试不能有效于多个目的，无论它出于何种目的被运用，其有效性证据必须要建立并加以呈现。

我们不能简单地说“该测试有效”，而应回答下面的问题“你是怎么知道该测试有效的？”以及“该测试有效性体现在哪里？”Henning的定义中还考虑到了效度的程度问题：测试相对其设计目的或多或少是有效的，即效度不是一个“要么有要么无”的概念，而是一个相对概念（Alderson et al. 1995:170）。

Weir认为效度存在于测试分数的解释中，而非测试本身。

效度被认为是测试分数表征受试语言知识或技能水平的准确程度。

美国教育研究协会、美国心理学协会和国家教育测量委员会联合颁发的《教育和心理测试标准》（Standards for Educational and Psychological Testing）指出，效度概念是指基于测试分数进行的推断的合适性（appropriateness）、有意义性（meaningfulness）以及有用性（usefulness）。

对效度的定义如下：效度指的是证据及理论对包含在所提议的测试使用之中的测试分数解释的支持程度（邹申2005：185）。

Messick的类似定义为：由测验分数或其他评价方式做出某种推断，效度就是对这种推断的恰当性和充分性能在多大程度上得到经验证据及理论基础的支持所做的综合评价。

概括地说，效度是对分数解释及使用的证据和潜在影响的归纳总结（转引自张凯 2006：167）。

Messick定义中的不同经验证据和理论基础就构成了效度的多层面（multifaceted）属性，即需要不同类别的证据证明分数解释和推论是有效的，证据之间的关系不是选择而是互为补充。

不同类别的证据一度被认为是效度的不同种类，而事实上它们是有效解释测试分数的不同来源。

效度应该被科学地定义为一个“一元化”或“整体”概念（unitary concept），即把不同类型的效度看成是包含在此一元化效度概念中的不同方面（Bachman 1990）。

第二节效度证据在解释效度证据之前，需要了解“效验”（validation）这一概念，它是指对一项测试进行效度研究（邹申 2005：192），证明该测试有效的过程，亦即收集证据支持基于测试分数所做的推断的过程。

对某测试分数有效程度的判断需要收集在分数与分数解释及应用之间建立关联的信息得以证明，Messick将其视为测试解释和应用的证据基础（evidential basis）。

翻阅多本测试相关书籍发现不少学者将以不同方式构建效度的证据视为不同的效度类型，认为效度存在着不同种类，例如表面效度（face validity）、内容效度(content validity、效标关联效度(criterion-related validity、构想效度(construct validity、语境效度(context validity以及后效效度(consequential validity等等。

还有学者使用了更加概括的术语对效度进行归类，例如Alderson et al. 指出的内部效度（internal validity）(表面效度、内容效度及应答效度和外部效度（external validity）（效标关联效度）以及Weir归类的测前效度（priori validity）（基于理论的效度即构想效度和语境效度）和测后效度（posteriori validity）（评分效度、效标关联效度和后效效度）等。

另外，效度还可以分为实证效度（empirical validity）和非实证效度（nonempirical validity）。

非实证效度不需收集数据、运用公式，不存在系数或数学计算，如表面效度；而实证效度通常需要利用数学公式进行效度系数计算，如效标关联效度（Henning 2001:94）。

无论对效度进行怎样分类，效度证据的作用都是同一的，即为测试提供效度依据或证据。

因此本章没有使用效度类型作为标题，而使用“效度证据”这一涵盖面更广的术语取而代之。

下面分别就主要的、应用广泛的效度证据进行解释和说明。

1. 表面效度表面效度是指一项测试表面上的可信性以及公众的接受性（Ingram 1977:18），它不具有心理测量学特征，而更体现了一种公共关系（public relations）。

表面效度说的通俗一些就是测试看上去是否测量了它所要测的能力。

例如测试发音如果不要求受试说话，便缺乏表面效度（Arthur Hughes 2000:27）。

实践中，表面效度通常被测试研究者们视为不科学、不相关的证据（Stevenson 1985），因为它出自“外行”人（如行政人员以及测试的非专家使用者）对测试内容的直觉判断，该判断通常是整体性的(holistic，如“该测试看起来不是有效的”。

表面效度在语言测试领域并不是一个新概念，但是对其赋予关注是新近的发展，尤其是交际语言测试（CLT: communicative language testing）问世以来。

大多数交际测试的设计者将表面效度视为所有效度类型中最重要的一个。

他们主张交际语言测试应该仿照真实世界中的语言交际情形。

尽管“真实性”(authenticity经常被引用证实测试的效度，但到目前为止，该术语本身却没有一个明确的定义和解释，因此也只能将模仿“真实生活”的呼吁归于表面效度的范畴。

有学者对表面效度持否定观点，认为表面效度没有任何固定的、确切的内涵，其出现和使用只能制造学术界的混乱（邹申 2005：187）。

而其他一些学者对表面效度持正面评价。

Alderson et al. 认为表面效度在测试中的作用非常重要：一方面，一项测试如果表面看来不是有效的，其使用者就不会本着测试既定目的严肃对待该测试。

另一方面，如果受试认为一项测试表面看来是有效的，他们的考试动机便能得以维持，也就更容易发挥其最佳水平，并对测试项目进行适当应答，换句话说，表面效度对应答效度会产生影响。

表面效度的建立可以通过下列方式完成：一是采访受试，二是要求他们填写调查问卷，反馈其对测试的态度、反应以及感受等。

调查结果可通过统计方法进行总结，考试项目和测试构成成分的可接受性就能得以确定（Alderson et al. 1995:172-173）。

2. 内容效度测试内容（test content）包括测试主题（themes）、措辞（wording）、项目、任务或问题的形式（format）以及施测和评分程序指南等（标准 1999：11）。

本小节的内容效度主要关注测试主题方面，下文的语境效度将详细阐述措辞、应答形式等测试内容。

内容效度通常是指一项测试的项目（item）、任务（task）以及问题（questions）代表了所界定的内容域（domain of content）的程度问题（标准 1985：10）。

Bachman(1990:244指出一项测试具有内容效度的两个要素为：一是内容相关（content relevance），二是内容覆盖（content coverage）。

内容相关涉及的是测试项目或任务与界定的测量内容范围相关联程度。

内容覆盖指测试项目或任务是否为欲测语言知识和能力的典型代表或样本(representativeness or sample。

在创建任何一项测试之初，研究人员应该提供明确测试具体用途和规定测量内容范围的测试设计细则（specifications），界定出欲测的语言知识、技能和能力（即内容域 content domain或行为域behavioral domain）以便从中生成测试项目或测试任务。

就用途而言，所要测量的内容域或行为域是根据测试具体目的而定的。

对于学业考试来说，课程大纲或课程教学目标要求便构成了细则中的测量内容范围。

如果测试的实际使用目的与其最初创建目的不符，就要考查原始测试内容范围相对新用途的合适性。

内容效度需要注意的另外一个方面是：测试项目的难易程度是否较好地反映了测试设计细则中对这些语言能力水平的要求（张凯 2006：177）。

在实践中，测试往往倾向于容易测什么便测什么，而不考虑内容的重要性程度。

例如过去许多语音测试着重关注音位区分，而不测量重音（stress）或语调(intonation 特征，究其原因就是设计音位区分的试题项目比重音和语调更加容易。

一旦测量内容范围划定，测试开发者还应为各个测试项目赋予权重（张凯 2002：140）。

例如一项语法测试应该对各个语法知识点所占比重交代清楚（如简单将来时10%，不可数名词15%，关系代词10%等等）。

如果测试考察阅读能力，那么各个阅读子能力（sub-skills）也要相应地给予权重（如从语境线索中获取词义20%，寻读30%，理解和推理40%等等）。

赋予权重的目的是呈现各个测试项目的重要性和意义（Heaton 2000:161）。

Anastasi提出了建立内容效度的指导原则：1）必须系统分析欲测量的行为域以便确证其主要方面都被测试项目涵盖，并且是以合适的比例涵盖；2）相关行为域必须做提前充分的描述，而不是在测试准备完毕后加以定义；3）内容效度取决于受试测试反应与行为域的相关性，而非项目内容表面上的关联性。

① 建立内容效度测试内容效度证据获得通常需要进行逻辑实证（logical and empirical）分析，考查测试内容是否充分代表了内容域以及内容域是否与基于特定目的的分数解释相关。