测试和评估
体育训练体能测试与评估教案

体育训练体能测试与评估教案一、引言体育训练中的体能测试与评估是确保训练效果和提升运动员综合素质的重要手段。
本教案旨在介绍体育训练中的体能测试与评估的基本原理、常用测试项目以及评估方法,以指导教师和教练员开展科学有效的体能训练。
二、体能测试的基本原理体能测试是通过一系列标准化的测试项目,对运动员身体素质进行客观、准确的测量和评估。
其基本原理包括以下几个方面:1. 客观性:体能测试需要通过客观的测量数据来反映运动员的身体素质水平,避免主观因素的影响。
2. 可重复性:体能测试需要具备良好的可重复性,即在相同或相似条件下,能够得到稳定的测量结果。
3. 敏感性:体能测试项目应该具备敏感性,能够准确地反映出不同运动员在不同训练阶段的身体素质变化情况。
三、常用体能测试项目常用的体能测试项目包括以下几个方面:1. 身体成分测试:通过测量体重、身高、体脂肪含量等指标,评估运动员的身体成分,如肌肉、脂肪比例等。
2. 动力测试:通过测量运动员在短时间内产生力量的能力,如跳远、立定跳远、抓举等。
3. 耐力测试:通过测量运动员长时间持续运动的能力,如跑步、游泳等。
4. 灵敏度测试:通过测量运动员对外界刺激做出快速反应的能力,如灵敏度训练、反应能力测试等。
四、体能评估方法1. 标准评估方法:根据已有的标准和参考数据,将运动员的测试结果与标准进行比较,评估运动员的身体素质水平,并给出相应的评估结果。
2. 相对评估方法:将同一运动项目中不同运动员的测试结果进行相互比较,评估其在该项目中的相对位置和水平。
3. 综合评估方法:综合考虑多个测试项目的结果,对运动员的综合体能进行评估和分析,以便制定针对性的训练计划。
五、训练中的体能测试与评估应用1. 初步评估:在运动员刚开始训练之前,通过体能测试和评估,了解其身体素质现状,为后续的训练计划制定提供参考。
2. 训练监控:在长期训练中,通过定期进行体能测试和评估,对运动员的身体素质进行监控,及时调整训练计划和方法,以保持或提升运动员的体能水平。
计算机硬件性能测试与评估方法

计算机硬件性能测试与评估方法计算机硬件的性能测试与评估是评估计算机硬件设备的性能指标,为用户选择合适的硬件设备提供依据。
本文将介绍常用的计算机硬件性能测试与评估方法。
一、CPU性能测试与评估方法CPU是计算机的核心部件,直接关系到计算机的运行速度和性能。
CPU性能测试与评估可以采用以下几种方法:1. 基准测试(Benchmarking):基准测试是通过运行一系列标准化的测试程序来评估CPU性能。
这些测试程序包含了各种常见的计算任务和负载情况,可以全面地评估CPU的性能。
常用的基准测试软件有Cinebench、Geekbench等。
2. 计算密集型测试:计算密集型测试主要是通过运行大量的计算任务来评估CPU的性能。
例如,使用数值计算等需要大量计算操作的程序进行测试,以测试CPU的计算能力。
3. 多核性能测试:现代CPU多数都是多核的,多核性能测试是评估CPU各个核心性能的一种方法。
通过运行支持多线程的软件,可以充分利用多核处理器的性能。
二、图形处理器(GPU)性能测试与评估方法GPU主要用于图形渲染和处理,对于需要进行图形相关计算的应用,GPU的性能至关重要。
以下是GPU性能测试与评估的方法:1. 3D图形测试:使用3D图形测试软件来评估GPU的性能。
这些测试软件能够运行各种3D图形场景和特效,测试GPU在处理复杂图形任务时的性能。
2. 通用计算测试:GPU不仅可以用于图形渲染,还可以进行通用计算。
通过运行支持GPU计算的软件来评估GPU的通用计算性能,例如CUDA和OpenCL。
三、内存性能测试与评估方法内存是计算机存储数据的核心部件,对于计算机的性能也有很大的影响。
以下是内存性能测试与评估的方法:1. 带宽测试:内存带宽是指内存读写数据的速度,通过进行带宽测试来评估内存的读写性能。
常用的带宽测试工具有Memtest86、AIDA64等。
2. 延迟测试:内存延迟是指CPU从内存中读取数据所需的时间,通过进行延迟测试来评估内存的响应速度。
专业的语言测试与评估方法

专业的语言测试与评估方法语言测试和评估在教育、招聘、移民等领域中起着重要作用。
为了确保测试和评估的准确性和可靠性,专业的方法是必不可少的。
本文将介绍一些专业的语言测试和评估方法。
一、语言测试1. 选择题测试:选择题测试是一种常见的语言测试方法,能够评估学生的阅读理解、听力理解和语法运用等能力。
这种测试方法通常通过给出选项,要求学生选择正确的答案。
为了提高测试的准确性,选项应该具有相似的语法结构和意义,同时避免明显的干扰项。
2. 口语考试:口语考试是评估学生口头表达能力的一种方法。
通常采用面对面的形式,考生与考官进行对话。
为了准确评估学生的口语能力,需要严格的考官培训和评分标准。
考官应该关注考生的流利度、发音准确性、词汇运用和语法正确性等方面。
3. 写作测试:写作测试是评估学生写作能力的一种方法。
学生需要根据题目写出一篇独立的文章。
为了提高测试的准确性,题目应该具有明确的要求和指导,同时需要给予学生足够的时间来进行思考和写作。
评分标准应该包括语法正确性、词汇运用、内容连贯性和观点表达等方面。
二、语言评估1. 综合评估:综合评估是一种全面评估学生语言能力的方法。
通过考察学生的听、说、读、写等多个方面,来评估学生的语言水平。
该方法充分考虑了学生的综合能力,能够更全面地了解学生的语言能力。
2. 任务型评估:任务型评估是一种基于实际任务的评估方法。
学生需要完成一些真实世界中的任务,如给旅游景点写一篇推荐信、进行电话订餐等。
这种评估方法能够更贴近实际应用场景,考察学生的语言运用能力。
3. 自评与互评:自评与互评是一种促进学生自主学习和交流的评估方法。
学生可以主动评估自己的语言水平,并与同伴进行互相评估。
这种方法可以增强学生的学习动机和合作能力,同时提高评估的客观性。
三、评估工具1. 语言能力等级划分:为了便于对学生的语言能力进行评估,通常会采用语言能力等级划分。
常见的等级划分包括初级、中级、高级等,以及对应的具体能力要求和描述。
电脑硬件升级后的性能测试与评估方法

电脑硬件升级后的性能测试与评估方法随着科技的不断进步,电脑硬件升级成为了许多人提高电脑性能的首要选择。
然而,在进行硬件升级之后,如何准确地测试和评估电脑的性能,成为了许多人关注的问题。
本文将介绍一些常用的电脑硬件升级后的性能测试与评估方法,希望能够帮助读者更好地理解和应用。
一、硬件性能测试的重要性在进行电脑硬件升级之前,了解当前电脑的性能表现是至关重要的。
通过对电脑硬件的性能进行全面的评估和测试,我们可以更好地了解需要进行升级的硬件,并确保升级后的硬件能够发挥其最大的性能优势。
二、硬件性能测试与评估方法1. CPU性能测试与评估CPU是电脑性能的核心组成部分,因此测试和评估CPU性能是十分重要的。
以下是一些常用的CPU性能测试工具和方法:(1)Cinebench:Cinebench是一个广泛使用的CPU性能测试工具,可以测试CPU的多核和单核性能,并提供得分用于比较。
(2)PassMark:PassMark也是一款常用的CPU性能测试工具,通过一系列综合性能测试来评估CPU的性能表现。
(3)超频测试:对于想要进一步提升CPU性能的用户,可以尝试通过超频来实现。
通过适当提高CPU的主频等参数,并进行稳定性测试,可以评估CPU的超频性能。
2. 内存性能测试与评估除了CPU,内存也是影响电脑性能的重要因素之一。
以下是一些常用的内存性能测试工具和方法:(1)Memtest86+:Memtest86+是一款常用的内存测试工具,可以对内存进行全面的测试,以确保其稳定性和性能。
(2)内存带宽测试:通过一些专业的内存带宽测试工具,如AIDA64等,可以测量内存的带宽,从而评估内存的性能表现。
3. 显卡性能测试与评估显卡是影响电脑游戏和图形处理性能的关键因素之一。
以下是一些常用的显卡性能测试工具和方法:(1)3DMark:3DMark是一款广泛使用的显卡性能测试工具,可以测试显卡在游戏和图形处理方面的性能,并提供得分用于比较。
解读心理学中的人格测试与评估

解读心理学中的人格测试与评估人格是指个体在交往中表现出来的独特、相对稳定的心理特征。
了解一个人的人格特征对于了解其行为和思维方式具有重要作用,而人格测试与评估就是用来揭示和评估个体人格的一种方法。
本文将解读心理学中的人格测试与评估的相关内容。
一、什么是人格测试与评估人格测试与评估是通过科学的手段,对个体的人格特征进行测量和评估的方法。
它可以通过个人的自述、行为观察以及心理实验等方式,了解个体的人格特征。
人格测试与评估可以帮助人们更好地理解自己和他人,提高人际交往的能力,促进个人的发展和成长。
二、常见的人格测试工具1. 自陈式问卷自陈式问卷是一种常见的人格测试工具,被广泛应用于心理学研究和咨询实践中。
通过让个体自己填写问题,来了解其对于自身人格特征的认知和评价。
著名的自陈式问卷有Eysenck人格问卷、16PF人格问卷等。
2. 项目性测验项目性测验是一种将特定行为项目以任务方式呈现给被试者,通过观察和评估其选择和反应情况来了解其人格特征。
著名的项目性测验有罗夏人格测验和MBTI人格问卷等。
3. 临床面谈临床面谈是一种与受测个体面对面进行的人格评估方法,通常由专业心理咨询师或临床心理师进行。
在面谈中,通过与被测者的互动交流和观察行为等方式,来全面了解其人格特征和心理状况。
三、人格测试与评估的意义与作用1. 促进自我认知人格测试与评估可以帮助个体更加客观地认识和了解自己的人格特征,从而有助于个体形成准确的自我认知。
通过了解自己的人格特点和倾向,个体可以更好地发挥自己的优势,克服自身的弱点。
2. 促进职业发展通过人格测试与评估,可以了解个体适合从事的职业类型和职业角色。
不同的职业对于人格特征有不同的要求,因此了解个体的人格特点,可以更准确地选择适合自己的职业,提高工作的满意度和成功率。
3. 促进人际关系人格测试与评估可以帮助人们更好地了解他人的人格特征和行为倾向,从而更好地与他人相处。
通过了解他人的人格特点,可以更好地理解对方的行为和思维方式,增进双方的沟通和理解,提高人际关系的质量。
设备性能测试与评估指南

设备性能测试与评估指南一、引言设备性能测试与评估是确保设备在使用过程中能够达到预期性能要求的重要步骤。
本指南旨在为使用者提供一套全面、系统的设备性能测试与评估方法,以确保设备的可靠性和稳定性。
二、测试准备1. 确定测试目标:明确设备性能测试的目标,包括测试的范围、测试的重点以及测试的时间和资源限制。
2. 定义测试用例:根据设备的特性和使用场景,编写详细的测试用例,包括正常工作状态下的性能测试和异常情况下的性能测试。
3. 确定测试环境:搭建适合的测试环境,包括硬件设备、软件平台和网络环境,以模拟真实的使用场景。
三、性能测试1. 资源消耗测试:测试设备在不同负载下的资源消耗情况,包括CPU、内存、磁盘和网络带宽的使用情况。
2. 响应时间测试:测试设备在不同负载下的响应时间,包括设备启动时间、数据处理时间和页面加载时间等。
3. 并发性能测试:测试设备在多用户同时访问的情况下的性能表现,包括并发用户数、并发请求量和并发连接数等。
4. 可靠性测试:测试设备在长时间运行和异常情况下的可靠性,包括设备的稳定性、容错性和恢复性等。
5. 扩展性测试:测试设备在不同规模和负载下的扩展能力,包括设备的最大处理能力和最大并发连接数等。
四、评估与分析1. 数据收集与记录:在性能测试过程中,及时收集和记录测试数据,包括资源消耗、响应时间和错误日志等。
2. 数据分析与比对:对测试数据进行统计和分析,与预期性能要求进行比对,找出性能瓶颈和问题所在。
3. 问题定位与解决:根据测试结果,定位性能问题的原因,并采取相应的措施进行解决,包括优化代码、增加硬件资源和调整配置参数等。
4. 性能报告与建议:编写详细的性能测试报告,包括测试方法、测试结果和问题分析,提出改进建议和优化措施。
五、测试实施与监控1. 测试计划执行:按照测试计划和测试用例进行性能测试,确保测试的全面性和准确性。
2. 测试监控与调整:监控测试过程中的性能指标,及时调整测试环境和测试参数,以保证测试的稳定性和可靠性。
社会心理学中的人格测试与评估

社会心理学中的人格测试与评估人是社会中的人,每个人都有自己的人格特点。
人格是一个人在行为、情感和认知方面的特点和性格。
在社会心理学中,人格是一个重要的研究方向。
一个人的人格决定了他的行为方式及与人交往时的适应性和亲和力。
因此,了解人格特点对于个人和群体发展非常重要。
在社会心理学中,人格测试和评估是了解人格特点的两种主要方法。
人格测试是测量人格特点的一种方法。
在人格测试中,通常进行问卷测试、观察和采访等方式。
问卷测试是一种量化方法,通过问卷来测量人们的人格特征。
人格测试的主要优点是可以快速、准确地测量一个人的人格特点。
同时,它也有一些弊端,例如问卷测试的可信度和效度常常受到影响。
在问卷测试中,常用的人格测试有明尼苏达多项人格测验(Minnesota Multiphasic Personality Inventory, MMPI)和五大人格测试(Five Factor Personality Inventory, FFPI)。
MMPI是一种成人人格测验,旨在识别人格障碍和心理健康问题。
它包括10道项目,其中包括道若干密钥项。
FFPI是一种广泛使用的人格测验,它测试人们的五大人格特征:开放性、责任心、外向性、宜人性和神经质。
这些特征代表了一个人的性格类型。
几乎所有的人格测试都基于五大人格特征。
另一种测量人格的方法是观察。
通过观察一个人在不同情境下的表现来判断他的人格特点。
这种方法具有非常高的效度,并且可以更全面地了解一个人的人格。
然而,观察法需要时间和耐心,同时观察者还需要有足够的专业知识和能力来判断一个人的人格特点。
因此,它在实际应用中有一定的局限性。
第三种测量人格特点的方法是采访。
采访是一种非常细致和灵活的方法,支持测量特定的人格特征,尤其是在增强人际交往方面,适合于研究人际交往中的心理变化。
采访也需要专业的技能和经验,尤其是在向那些不愿意在问卷中公开情况的人进行深入谈话时,这点显得尤为重要。
人格评估是评估人格特点的一种方法。
电脑性能测试与评估方法

电脑性能测试与评估方法随着科技的不断进步,电脑在人们的日常生活中发挥着越来越重要的作用。
然而,在购买电脑时,我们常常会遇到一个问题,那就是如何准确地测试和评估电脑的性能。
本文将介绍一些常见的电脑性能测试与评估方法,帮助读者更好地了解、选择和购买电脑。
一、CPU性能测试CPU(中央处理器)是电脑的核心部件之一,对于电脑的整体性能起着至关重要的作用。
因此,评估一台电脑的性能就必然要从CPU入手。
评估CPU性能的常见方法有以下几种:1. CinebenchCinebench是一款常用的CPU性能测试软件,它可以通过渲染3D 场景的方式来评估CPU的计算性能。
Cinebench测试的结果以分数的形式呈现,分数越高表示CPU性能越强。
2. PassMarkPassMark是另一款常用的CPU性能测试工具,它可以测试CPU的多线程处理能力、浮点运算能力、整数运算能力等。
PassMark也会给出一个综合得分,以便更好地比较不同CPU之间的性能。
二、显卡性能测试显卡在电脑的图形处理、游戏运行等方面发挥着至关重要的作用。
因此,在购买电脑时,我们也需要对显卡的性能进行评估。
常见的显卡性能测试方法包括:1. 3DMark3DMark是一款广泛使用的显卡性能测试软件,它可以通过运行不同的图形测试来评估显卡的性能。
3DMark的测试结果也以分数的形式呈现,分数越高表示显卡性能越强。
2. FurMarkFurMark是一款用于显卡压力测试的软件,它通过渲染高度复杂的图形场景来测试显卡的稳定性和性能。
同时,FurMark还可以监测显卡的温度和功耗情况,以便用户了解显卡的工作状态。
三、内存性能测试内存是电脑的另一个重要组成部分,对于系统的运行速度和稳定性有着重要影响。
因此,在购买电脑时,我们也需要测试和评估内存的性能。
常见的内存性能测试方法有以下几种:1. MemTest86MemTest86是一款用于测试内存稳定性和性能的工具,它可以检测内存是否存在错误和故障,并给出相应的报告。
- 1、下载文档前请自行甄别文档内容的完整性,平台不提供额外的编辑、内容补充、找答案等附加服务。
- 2、"仅部分预览"的文档,不可在线预览部分如存在完整性等问题,可反馈申请退款(可完整预览的文档不适用该条件!)。
- 3、如文档侵犯您的权益,请联系客服反馈,我们会尽快为您处理(人工客服工作时间:9:00-18:30)。
测试和评估(1)外语测试是外语教学过程中的一个重要环节。
外语测试的一个重要目的就是评估外语教学的质量,了解学生外语学习的情况,以便对后阶段的外语教学作出改进;外语测试的另一个重要目的是对参加测试的考生外语能力作出判定,以便作出有关他的未来前途的某种决定。
因此,外语测试无论对教学组织者还是对个人学习者来说都是十分重要的。
外语测试涉及的因素很多,其中的一些理论问题尚存在许多争论。
下面介绍外语测试中一些常见的概念和一些实践操作过程。
一、外语测试的类型测试的目的多种多样。
有的测试是为了了解学生学习外语的一般能力,有的是为了评估某一阶段外语教学的效果,有的则是为了检测考生一般的外语能力。
根据不同的测试目的,可以分出不同的测试类型。
常见的类型有:(1)潜能测试;(2)成绩测试;(3)诊断性测试;(4)水平测试;(5)结业性测试。
(1)潜能测试(aptitude test)潜能测试主要是为了了解考生学习某一专业(这里就是指学习外语) 的一般能力。
(2)成绩测试(achievement test)成绩测试用来考查个别或全体学生在学习外语的某一阶段或最终阶段的成功程度。
成绩考试一般与某一外语课程有直接关系。
有人提出,成绩考试应该以该课程的大纲和教材为依据,但缺点是,如果大纲和教材有缺陷,考试就不一定能反映出课程的目标。
另外有些人认为,成绩考试应以课程的总目标为依据,其好处有二:1)促使大纲的设计能够更加切合实际;2)考试能比较准确地反映学习者的实际水平。
但这种做法也存在着一定的问题,因为如果不是以所采用的某一大纲和教材作为考试的依据,教师和学生在平时的教学过程中往往会感到无所适从。
(3)诊断性测试(diagnostic test)用于发现学习者的强项或弱项的测试叫诊断性考试。
考试的主要目的是决定是否需要加强某一方面语言技能的训练。
(4)水平测试(proficiency test)一种不以某一课程为依据,也不管考生受过何种训练而对考生的一般语言能力进行考查的考试叫水平测试。
许多公共考试属于这种类型,如美国ETS举行的TOEFL、英国的ELTS、我国的EPT、CET等。
(5)结业性测试(exit test)一种仪式性的考试。
也可以有明确的目的,如其成绩可作为升入高一级语言课程的参考,确定是否授予某一证书等。
但大多数结业考试更注重其形式,因而考试的内容可以是所学课程的成绩考试,也可以是测定一般语言水平的水平考试。
从测试的方法和方式角度,我们又可以将各种各样的测试分为直接测试与间接测试两大类。
(1)直接测试(direct test)直接考察考生某一方面的语言能力的测试称为直接测试。
例如,假如我们要了解学生的作文能力,就应该要求写出一二篇作文;假如我们要测试学生的语音语调,那就要求学生开口讲话。
直接测试要求考查的内容尽可能的真实,符合实际生活中的真正要求。
直接测试的好处是:1)测试的目的明确;2)对测试结果的评估也比较直接;3)因为所测试的内容正是我们所要培养的技能,其正面反拨作用(positive washback)十分显著。
(2)间接测试(indirect test)间接测试即通过测试某一技能所必需的某种能力来发现学生这方面的语言能力。
例如,TOEFL中有一部分是考察考生的写作能力的,但其题型是语言错误差别这一间接的方式。
例:At first the old lady seemed unwilling to accept anything that was offered her by myA B C Dfriend and I.E要求考生在A、B、C、D、E中选出错误的一项。
再例如,通过要求学生判断某对单词是否同韵来测试学生的发音能力也属间接测试。
间接测试的优点是提供了一种通过测试部分有限的能力而了解到学生各种不同的语言能力的可能性。
例如,如果我们通过测试某一具代表性的语法结构,我们就获得了所有需要这一语法知识的情景的一个样本。
间接测试的缺点是学生测试的结果与实际能力之间的关系并不十分明确和可靠。
Hughes认为,根据我们目前对测试的认识,就水平测试和成绩测试来说,直接测试要比间接测试好。
只要我们取样广泛(如要求学生写两篇不同风格、不同题材的作文)我们所获取的对某种能力的信息要比间接测试精确和可靠。
另外,直接测试试题一般也比间接测试试题更容易设计,其正面反拨作用也十分有利于外语教学。
当然,目前许多测试中间接测试仍占一定的比重。
间接测试,尤其在诊断性的测试中,如了解学生对某一语法结构的掌握情况时十分有用。
另外,从测试题型的角度,我们又可将测试分为分散点测试与综合测试。
(1)分散点测试(discrete-point test)分散点测试指每次只测试一个项目的测试。
如每一道试题只测试某一特定的语法结构等。
(2)综合测试(integrative test)综合测试与分散点测试正好相反,每一考试项目的完成需要考生调动多种语言技能。
例如写作、听讲座做笔记、听写或综合填空等均属于综合测试。
一般来说,分散点测试属于间接测试,而综合测试许多情况下属于直接测试。
当然,有的综合测试方法,如综合填空,并不属于直接测试,而是间接测试。
另外,从考试成绩判别的标准的角度,我们还可以将测试分为常模参考型测试与标准参考型测试。
(1)常模参考型测试(norm-referenced test)把某一考生考试的结果与参加同一考试的考生的成绩相比较以判别其语言能力的测试叫常模参考型测试。
例如参加同一考试的考生有100名,考生A的成绩虽为30分(总分为100分),但与其他考生相比,分数可能在前十名,属10%的优秀生之列。
(2)标准参考型测试(critertion-referenced test)以某种特定的语言能力标准作为判别标准的测试称为标准参考型测试。
通过这类考试,我们可以了解考生实际运用某一语言的能力,但并不将其与其他考生相比较。
标准参考型测试的目的是根据考生能否令人满意地完成某一项或某些任务而将其进行分类。
任务是固定的,只是对考生完成的情况进行评估。
原则上讲,所有的考生都通过或一个也不通过都没有关系。
标准参考型考试有两个优点:一是它们的标准是不变的,它主要要求考生能达到某一标准;二是考生可以有明确的奋斗目标,为达到这一标准而努力。
最后,根据判卷的标准,我们还可将测试分为主观性测试和客观性测试两种。
外语测试和评估(2)(2009-08-16 09:19:06)转载▼标签:外语测试和评估教育分类:TeachingResearch外语测试和评估(2)(2)客观性测试(objective test) 阅卷标准事先确定,不需要任何阅卷者个人主观的判断,这种测试称作客观性测试。
二、效度(validity)一项测试只有能够准确地测试它所希望测试的内容才具有效度。
测试的效度包括“内容效度”、“标准效度”、“构卷效度”和“表面效度”等几种。
下面我们分别予以简要的介绍。
(1)内容效度如果某一测试的所测内容是测试者希望的某种(些)语言技能的典型代表,那么该测试具有内容效度。
例如语法测试的内容必须是语法,但它只有在包含了有关的典型语法结构的内容的情况下才能说具有内容效度。
有关的语法结构当然要看测试的目的而定。
为了保证测试具有内容效度,人们通常将需要测试的技能或结构详细描述出来,供出题者参考。
内容效度对测试来说十分重要。
一般来说,内容效度越高,就越能精确地了解到所要测试的内容,如果某一测试内容的说明未能在测试中体现,就很难说它的结果是准确的,而且这种测试极易产生负面反拨作用,因为测试中忽略的内容往往在教学中也被忽视。
(2)标准效度测试的效度还可以从另外一个角度来证实,即将测试的结果与其它高信度的测试的结果进行对比,看它们在多大程度上吻合。
作为对比的其它测试的结果就成了检验现有测试的效度的标准。
这种测试的效度就称为标准效度。
标准效度可分两种:一种是同现效度;另一种是预测效度。
同现效度指两种测试同时举行后比较的结果。
例如,我们要测试一组学生的口头表达能力,考试的需求都已以各种语言功能的形式确定,但如果考生必须完成所有的项目,每人至少要45分钟,这显然工作量过大,不切实际,于是我们决定将口试时间定为10分钟。
这样就产生一个问题:这10分钟能否准确地测试出学生完成所列各种功能的能力?换句话说,这一测试是否有效?从内容效度的角度,这取决于所测试的各种功能是否有足够的代表性。
如果这一点得到了保证,我们就必须设法确定它的同现效度。
我们可以在所有的考生中采取随机取样的方式选择一组学生,这些学生将参加预定的45分钟的完整的口语测试,为保证评分的可靠性,我们可以组织一个四人以上的裁判小组。
这一考试的结果就可作为10分钟测试的对比标准。
然后我们将这些学生45分钟的测试结果与采用普通的评分方法的10分钟的测试结果相比较,如果两者十分吻合,那就说明10分钟的测试具有同现效度。
所谓预测效度主要是指测试预测考生未来实际能力的准确程度。
例如,某一水平测试是为了确定某学生未来在英国某一大学学习某一研究生课程的能力,其预测效度的判定可以以该学生导师对学生实际能力的判断或该学生学习该课程的结果(通过还是未通过)作为标准。
(3)构卷效度这里指语言能力理论中某种假想的能力组成部分,如阅读能力中的根据上下文猜测词义的能力、写作能力中的标点使用能力、语域能力等就属于这种概念。
如果可以证明某一测试或测试的某一部分能有效地测试这种能力,那我们就可以说它具有构卷效度。
确定某一测试是否具备构卷效度,关键是看对能力组成部分的理解。
如要测试学生的写作能力,我们通过写作预测(pilot test),将得到的结果与真实的写作样本或结果对比,建立写作能力组成成分的对应关系。
(4)表面效度如果某一测试看起来像是测试它所要测试的内容,那就可以说它具有表面效度。
例如,一个旨在测试学生语音能力的测试如果并不要求学生开口讲话,那就可能被认为不具备表面效度。
教师、学生或教育行政部门往往对不具备表面效度的测试拒绝接受。
因而,一些新的间接测试方法的使用,必须借助有说服力的解释,逐步推广。
三、信度(reliability)与测试效度密切相关的另一个重要概念是测试的信度。
测试的信度可以分为两个方面,一是测试本身的可信度,二是评卷的可信度。
测试本身的信度主要与它的内部一致性有关。
如果考生在不同的时间参加同一测试而得分截然不同,其可靠性就值得怀疑。
检阅测试本身的信度有两种主要的方法,一是连续测试法(test-retest),即让学生在不同时间做同一试题,然后比较其结果。
这种方法十分简单,其缺点是时间不易掌握,因为如果两次测试间隔太短,第一次的考试就会影响第二次;如果间隔太长,学生在这期间又可能产生了遗忘(或学到了新的东西)。