信度和效度

合集下载

信度与效度的关系

信度与效度的关系

研究信度与效度的关系一、信度与效度的定义信度即可靠性,它指的是采取同样的方法对同一对象重复进行测量时,其所得结果相一致的程度,或者说,信度是指测量结果的一致性或稳定性。

效度即准确度,它是指测量工具或测量手段能够准确测出所要测量的变量的程度,或者说能够准确、真实地度量事物属性的程度.二、信度与效度的关系(一)教育科学研究中信度与效度的关系信度是研究结果所显示的一致性、稳定性程度,也是对研究结果一致性和稳定性的评价标准。

一个具有信度的研究程序,不论其过程是由谁操作,或进行多少次同样的操作,其结果总是非常一致的.效度是一个研究程序的性质和功能,也是对研究结果正确性的评价标准,一个有效度的研究程序,不仅能够明确地回答研究的问题和解释研究结果,而且能够保证研究结果在一定规模的领域中推广。

把两者的作用结合起来看,信度和效度是一项教育科学研究活动和结果具有科学价值和意义的保证。

研究的信度是研究的效度的一个必要的前提,没有信度,效度不可能单独存在,也就是说,一项研究不可能没有信度却具有效度。

(二)人力资源招聘信度与效度的关系影响测评信度的因素有很多,主要是系统误差和随机误差.包括测评者的专业性和素质、被测评者本人的心理、侧评工具的稳定性、环境的稳定性等都会影响测评的可信度。

影响测评的效度因素也有很多,如测评工具、测评过程及测评者因素、被测评者状态、效标因素和信度因素等。

在实际招聘与录用评估过程中要把握各相关方面,不仅要有专业的测评人员,同时也要在稳定的环境中为被测评者提供一个放松真实的氛围。

信度和效度是人才侧评与选拔质量的重要指标.图形形式表现分析得出的信度和效度的三种关系,则会是以下这些样式,如图8—l .图8-2和图8—3所示。

所以,:高信度是高效度的必要条件,但非充分条件.即信度高不一定其效度就高,但要想获得较高的测评效度,其信度必定要高,(三)用结构式问卷来测量家长“溺爱孩子”的行为中信度与效度的关系当我们用结构式问卷来测量家长“溺爱孩子”的行为时,可以得到相对较高一些的测量信度,用同样的问题反复询问同样的对象时,所得到的结果的一致性程度会比较高,但是,这种测量方法的效度往往会比较低,因为家长们在培养孩子方面的认识、态度和具体做法远比问卷中的五个问题丰富多彩,我们在问卷中所能够测量的只是其中的很少、很表面、很有限的一部分,反之,如果我们用深入到每一个家庭、实地去考察、与家长仔细交谈的方法来进行测量,那么,所得到的资料的效度会比较高,我们实实在在地看到和感受到家长们是如何培养孩子的,但是,此时,我们却降低了观察的一致性程度.一个测量工具要有效度就必须有信度,没有信度就没有效度,但是有了信度不一定有效度,信度低,效度不可能高,因为如果测量的数据不准确,也并不能说明所研究的对象,所以不可能存在唯有效度而没有信度的情况.但同时,信度高,效度未必高,如果我们测量出某人的经济收入,也未必能够说明他的消费水平,然而,效度低,信度很有可能高。

信度与效度

信度与效度

一、信度1.定义信度主要是指测量结果的可靠性或一致性。

信度只受随机误差的影响,随机误差越大,信度越低。

因此,信度可以视为测试结果受随机误差影响的程度。

系统误差产生恒定效应,不影响信度。

每一个测试的实得分数(X)总是由真实分数(T)和误差(E)两部分构成的,用公式表示如下:X=T+E如果我们讨论一组测验分数的特性时,可用方差代表具体分数,得到公式:S^2(x)=S^2(t)+S^2(e)公式中,S^2(x)是实得分数的方差,S^2(t)是真分数的方差,S^2(e)是误差的方差在测量理论中,信度被定义为:一组测量分数的真分数方差与中方差(实得方差)的比率。

即:r(xx)=S^2(t)/S^2(x)2.信度的指标大部分情况下,信度是以信度系数为指标,它是一种相关系数。

常常是同一被试样本所得到的两组资料的相关,理论上说就是真分数方差与实得分数方差的比值,公式为:r(xx)=r^2(xt)=S^2(t)/S^2(x)3.信度信度评估的方法(见具体例子)(一)重测信度,又称为稳定性系数,它的计量方法是采用重测法:用同一测验,在不同时间对同一群体施测两次,这两次测量分数的相关系数即为重测系数。

重测信度所考察的误差来源是时间的变化所带来的随机影响。

在评估重测信度时,必须注意重测间隔的时间。

对于人格测验,重测间隔在两周到6个月之间比较合适。

在进行重测信度的评估时,还应注意以下两个重要问题:⑴重测信度一般只反映由随机因素导致的变化,而不反映被试行为的长久变化。

⑵不同的行为受随机误差影响不同。

(二)复本信度,是以两个测验复本来测量同一群体,然后求得应试者在这两个测验上得分的相关系数。

复本信度的高低反映了这两个测验复本在内容上的等值性程度。

两个等值的测验互为复本。

计算复本信度的主要目的在于考察两个测验复本的题目取样或内容取样是否等值。

复本信度也考虑两个复本实施的时间间隔。

复本信度的主要优点在于:⑴能够避免重测信度的一些问题,如记忆效果、练习效应等;⑵适用于进行长期追踪研究或调查某些干涉变量对测验成绩影响;⑶减少了辅导或作弊的可能性。

信度和效度的类型-社会统计学

信度和效度的类型-社会统计学

信度和效度的类型社会统计学一、信度1.信度的定义信度也叫测试的可靠性,指的是测试结果是否稳定可靠。

信度是用来检验人员测评与选拔质量的重要指标,从测评与选拔指标体系的制定,到测评与选拔的整个实施过程,始终都要考虑可靠性,即测评与选拔的信度问题。

【概念剖析】信度即多次测量的一致性。

2.信度的分类按照衡量测评信度的方法的不同,信度可分为再测信度、副本信度、内在一致性信度、评分者信度等。

①再测信度。

再测信度是指用同一套试卷在两个不同时间来测试同一批被测者,这样便获得两组分数,然后计算出两组分数的相关系数。

当然,在两次测试中,第二次的测试成绩理应比第一次的高,因为被测者在第二次测试时已经有了进步而且临场经验也更丰富了。

但是若该试题是比较可靠的,每个被测者在两次测试中的排名次序应该是基本不变的。

②副本信度。

副本信度是指对同一被测者先后进行两次内容相当的测试,然后计算出这两次测试结果间的相关程度(减少了再测信度中前一次对后一次测试的影响,但两次测试间的相互作用依然存在)。

③内在一致性信度。

内在一致性信度是指所测素质相同的各测评项目分数间的一致性程度。

若被测者在第一个项目中的分数高于他人,在第二个项目中的分数还高于他人,在第三个项目中的分数仍高于他人……且这些测评项目所测评的是同一素质,那么可以认为测评的结果较可靠。

内在一致性信度是通过分析同一测评中各测评项目之间的一致性来分析测评信度,它实质上是一种跨测评项目的一致性。

再测信度与副本信度都需要组织两次测评,而内在一致性信度只需进行一次测评,增加了人员测评的可操作性,同时也为实际工作带来了极大的方便。

④评分者信度。

评分者信度是指多个评分者给同一组被测样组进行评分的一致性程度。

评分者及其测评的差异越小,测评与选拔的结果就越可靠。

知识水平、对测评标准的把握、因心理效应而产生的各种心理误差等,都会使不同的评分者对同一被测者的评分产生差异,评分者信度就是用来分析这种差异程度的指标,它实质上是一种跨评分者的一致性。

信度与效度关系的公式

信度与效度关系的公式

信度与效度关系的公式信度与效度是两个重要的概念,在研究和评估领域中起着至关重要的作用。

信度指的是测量工具或评估方法的稳定性和一致性,而效度则是测量工具或评估方法所测量的概念或现象的准确性和有效性。

信度与效度是评估研究结果的重要指标,下面将介绍信度与效度的关系以及相关公式。

一、信度的定义和测量方法信度是指测量工具或评估方法在重复使用时得到相似结果的程度。

在研究中,如果测量工具或评估方法具有较高的信度,那么在不同的时间、不同的测量者或不同的环境下使用,所得到的结果应该是相似的。

常用的信度测量方法包括重测信度、内部一致性信度和平行表单信度。

1. 重测信度:重测信度是指在一段时间后重新进行相同或相似的测量,通过比较两次测量结果的一致性来评估信度。

计算重测信度的常用公式为:重测信度=重测得分与初始得分的相关系数。

2. 内部一致性信度:内部一致性信度是指测量工具或评估方法的各个项目或题目之间的一致性程度。

常用的内部一致性信度测量方法有Cronbach's alpha系数和Kuder-Richardson系数。

3. 平行表单信度:平行表单信度是指两个或多个相似的测量工具或评估方法在相同条件下进行测量,通过比较它们的结果的一致性来评估信度。

二、效度的定义和测量方法效度是指测量工具或评估方法所测量的概念或现象的准确性和有效性。

一个有效的测量工具或评估方法应该能够准确地反映所研究的概念或现象。

常用的效度测量方法包括内容效度、构效度和标准效度。

1. 内容效度:内容效度是指测量工具或评估方法是否覆盖了所研究的概念或现象的各个方面。

内容效度通常通过专家评审或内容分析来进行评估。

2. 构效度:构效度是指测量工具或评估方法是否能够反映出所研究的概念或现象的内在结构或关系。

常用的构效度测量方法包括因子分析和结构方程模型。

3. 标准效度:标准效度是指测量工具或评估方法与已有的标准测量工具或评估方法之间的相关性。

常用的标准效度测量方法包括与其他测量工具的相关性分析和与已知标准的比较。

信度和效度的名词解释

信度和效度的名词解释

信度和效度的名词解释信度和效度(reliability andvalidence)是指测量结果的一致性和稳定性。

信度是建立在效度的基础上的,因此,二者既有区别又密切联系。

1、所谓信度( reliability)是指对测量结果的正确程度的估计,即是指通过一定的测量方法所得到的结果在同一时间内重复进行测量时,所得结果的一致程度。

信度是建立在效度的基础上的,因此,二者既有区别又密切联系。

(1)在两种不同的心理测量中,如何判断测量工具是否具有可比性?(2)什么是信度?它与效度有什么区别和联系?(3)为什么说效度的信度问题是心理测量中最为关键的问题?(4)怎样判断测量的信度?(5)信度研究的意义是什么?2、信度是衡量测验质量的一个基本指标,也是编制测验的主要目的之一,但不是惟一目的。

信度高的测验才能被接受,其他因素需要综合考虑。

(1)信度较高,则实际上是使用该测验者在智力水平上的真实表现,这类测验比较适宜选拔优秀人才;(2)信度较高,即是实际上是由测验材料本身的质量决定的,测验越科学、准确,测验的结果就越能够代表真实的情况;(3)信度较低,即是实际上是由测验材料本身的质量造成的,但由于测验设计的错误或测验条件的限制,而导致测验结果不准确。

(4)总之,一般来讲,相互之间可比的测验,其信度都比较高。

(5)信度的大小取决于许多客观因素,一般来讲,两种测验属于同一信度系统的,其信度也比较高。

3、信度一般包括测量工具的信度和被试者反应的信度。

一种测验对测量工具的信度有赖于两方面:一是对被试特征的知觉与概念;二是对所用工具的掌握。

(1)所谓反应的信度是指某些外在刺激因素影响着被试在测验中的表现,从而影响到了测验的信度。

(2)所谓测量工具的信度是指一套测验各分量与整个测验的各分量之间保持高度的相关性。

(3)同时,如果一套测验中各分量的分布是不相关的,那么,这套测验的信度必然较差。

(4)提高测量工具的信度,即是提高各分量的内部效度。

测量的信度与效度

测量的信度与效度

信度的评估方法
1 2
重测信度法
通过在不同时间对同一对象进行重复测量,计算 两次测量结果的相关系数,以评估信度。
复本信度法
使用多个测量工具对同一对象进行测量,计算各 测量工具之间的相关系数,以评估信度。
3
内部一致性信度法
通过分析测量工具内部各部分之间的相关性,计 算内部一致性系数(如Cronbach's Alpha系 数),以评估信度。
04 测量误差
随机误差
定义
随机误差是由于一些随机因素引起的测量结果的 不确定性。
特点
随机误差的大小和符号都是随机的,无法预测和 控制。
示例
测量时环境的微小变化、测量仪器的微小波动等 都可能产生随机误差。
系统误差
定义
系统误差是由于测量系统本身存在的误差或测量条件不满足要求 而引起的测量结果偏差。
数据分析方法
数据分析方法的选择和运用,也会对效度产 生影响。
03 信度与效度的关系
信度是效度的必要条件
信度是指测量的一致性,即多次测量结果之间的相符程度。 如果一个测量工具缺乏信度,那么它的测量结果会不稳定, 无法为决策提供可靠依据。因此,信度是效度的必要条件, 没有信度就无法保证效度。
信度的评估方法包括重测信度法、复本信度法、Cronbach's Alpha系数法等,通过这些方法可以评估测量工具的一致性 和稳定性。
效度是信度的充分条件
效度是指测量的准确性和有效性,即测量结果是否真实反映所需测量的内容。如果一个测量工具具有 效度,那么它的测量结果是准确的、有意义的,能够为决策提供可靠依据。因此,效度是信度的充分 条件,有了效度可以进一步确认信度。
效度的评估方法包括内容效度法、结构效度法、验证效度法等,通过这些方法可以评估测量工具的准 确性和有效性。

信度和效度的名词解释

信度和效度的名词解释

信度和效度的名词解释一、信度( reliability)信度是指测量结果与预定标准之间的一致性程度。

它是指在一定条件下,多次测量同一量时所得结果的变异程度,或者说一组测量值分散到另一组测量值中所引起的变异程度。

信度分为内部信度和外部信度,两者又合称为可靠度。

1、内部信度信度是指测量结果与预定标准之间的一致性程度。

它是指在一定条件下,多次测量同一量时所得结果的变异程度,或者说一组测量值分散到另一组测量值中所引起的变异程度。

内部信度与效度是密切相关的。

只要有可能影响测量结果的不确定性,就会影响到测量的信度;反过来,如果对这些不确定性进行修正,又会改善测量的效度。

而且某一项目的实验本身可能就具有很好的内部信度,只是缺乏适当的统计学上的显著性水平而已。

如何才能获得较高的信度呢?首先,要对被测量进行严格的定义和仔细的选择,其次,应当考虑到测量结果的正态分布性质,以保证试验条件的稳定,减少各种不可控因素的干扰。

一般来说,系统误差小,分布集中,测量误差小的仪器和方法,信度较高。

否则,测量信度低。

在实际工作中,通常认为下列三个因素对信度有重大影响:( 1)测量方法本身的随机性( 2)观察或调查对象的变异性( 3)被测量的数据范围( 4)观察或调查人员的主观判断与偏见2、外部信度是指测量结果与处理前标准之间的一致性程度。

对一个实验室来说,其处理前的原始数据有重复性的一组数据作为样本,使用标准差来衡量信度的高低。

数据的重复性越大,其外部信度也就越高。

二、效度( validity)效度指的是测量结果与被测量之间的一致性程度。

用预先规定的效度标准来评价测量结果的有效性。

如一组数据若不同于参照组的数据则该组数据无效。

有效性也叫可靠性,即一个特定的测量方法或测量工具,所给出的测量结果在真值附近的可靠程度。

信度与效度都有助于提高试验资料的精确程度。

例如:医师在诊断病情时,应根据病情做出正确的诊断,然后选择最佳的治疗措施。

但是对一位病人进行体温测量并不能给出很好的诊断,因为病人体温受多种因素影响,包括环境温度、衣着、食物等。

统计学中的信度与效度

统计学中的信度与效度

统计学中的信度与效度统计学是一门研究收集、整理、分析和解释数据的学科。

在统计学中,信度和效度是两个重要的概念。

它们用于评估测量工具(如问卷调查或测试)的质量和可靠性。

本文将介绍信度和效度的定义、计算方法以及在实际研究中的应用。

信度信度是指测量工具的稳定性和一致性。

在统计学中,一个可靠的测量工具应该能够反映出被测量对象的真实状态,即在不同时间和条件下具有相似的结果。

信度可以分为内部一致性信度和测试-重测信度。

内部一致性信度内部一致性信度用于评估测量工具中各个项目(题目或指标)之间的关联性或相关性。

常见的内部一致性信度计算方法包括:皮尔逊相关系数:用于连续变量之间的相关性分析。

斯皮尔曼等级相关系数:用于有序分类变量之间的相关性分析。

克隆巴赫α系数:用于多个项目构成的测量工具的内部一致性评估。

测试-重测信度测试-重测信度用于评估同一个测量工具在不同时间或条件下的结果是否相似。

常见的计算方法有:皮尔逊相关系数:对连续变量进行测试-重测信度分析。

斯皮尔曼等级相关系数:对有序分类变量进行测试-重测信度分析。

人际相关系数:对多个观察者、评分者或测量者进行测试-重测信度分析。

效度效度是指测量工具所衡量的概念与实际情况是否一致。

一个有效的测量工具应该能够准确地反映出所要衡量的特征或属性。

效度可以分为内容效度、判别效度和预测效度。

内容效度内容效度是指测量工具中各个项目是否能全面、准确地反映所要衡量的特征或属性。

常见的评估方法有:面向专家群体进行评估:邀请领域专家对测量工具进行评审和反馈。

内容有效性指数(CVI):通过专家对每个项目进行评分后计算,通常使用于问卷调查。

判别效度判别效度是指测量工具与其他相关概念进行区分的程度。

常见的评估方法有:计算两个或多个概念之间的相关系数,如皮尔逊相关系数。

进行因子分析,检查因子载荷情况和因子方差解释比例。

预测效度预测效度是指测量工具对未来事件或行为进行预测的能力。

常见方法包括:使用回归分析等统计模型,通过历史数据预测未来结果。

  1. 1、下载文档前请自行甄别文档内容的完整性,平台不提供额外的编辑、内容补充、找答案等附加服务。
  2. 2、"仅部分预览"的文档,不可在线预览部分如存在完整性等问题,可反馈申请退款(可完整预览的文档不适用该条件!)。
  3. 3、如文档侵犯您的权益,请联系客服反馈,我们会尽快为您处理(人工客服工作时间:9:00-18:30)。

信度和效度社会学系02研王丽云当我们建构和评估测量时,我们通常使用信度和效度这两个技术性指标。

简单地说信度就是指测量数据和结论的可靠性程度,也就是说测量工具能否稳定地测量到它要测量的事项的程度。

我们可以举例说明信度的问题:如果想知道某人的体重,我们可以叫两个人来估计,一个人的估计为150镑,另一个人的估计为300镑,那么我们就可以认为,叫别人来估计体重是非常不可信的方法。

如果用磅秤,连续测量两次的结果都是相同的,因而我们可以说,在测量体重方面,用磅秤的方法要比叫人来估计更可信。

我们可以用信度系数来表示信度的大小。

我们知道在进行测量时,误差是难免的,这就使得真实值和测量值之间是不可能完全一致。

我们可以这样来表示真实值和测量值之间的关系。

X=T+B+ET表示真实值,B表示偏差即系统误差,E表示测量误差即随机误差。

由于系统误差很难分解,因而有些书中的分解式将系统误差包括在真实值之中,因而X可以简单地概括为X=T+E对于测量误差E,一般假定他的期望值是0,却与真实值相独立,在此假定下,可以证明:E(x)=E(T)实得分数和真分数的总体均值相等。

σ2x=σ2T+σ2E实得分的方差等于真分数的方差与误差方差之和。

信度一般规定是真分数的方差在总体方差中所占的比例,即:信度系数Rxx=σ2T/σ2X=1-(σ2E/σ2X)信度系数越大,表明测量的可信程度越大。

在实际应用中,信度主要有以下几种类型:(一) 重测信度这种方法通常是重复同样的测量来检验信度信度系数可以用相关系数来表示。

假如我们第一次测量时的观测值是X,第二次的观测值是Y,那么重测信度就等于X与Y的相关系数。

但重复测量时,我们要注意两次测量的时间间隔要恰当。

如果时间间隔太久,可能会发生一些变故,影响到被调查者的态度,那么前后的测量就会有很大的差异。

(二)复本信度复本是针对原本而言的,它使原本的复制品。

对一项调查的问题,让被调查者接受问卷测量,并同时接受调查问卷的副本的调查,然后根据结果计算原本和复本的相关系数,就得到复本信度。

(三)折半信度通常是在无副本且不准备重测的情况下,我们就用折半信度来计算信度系数。

举例来说,如果有一份问卷,其中有十个问题涉及到女性歧视现象。

利用折半信度时,可将是个问题随机分成两组,每组有五个问题,然后根据每组的测量结果来计算两组的相关系数,就是折半信度,Rhh。

但整个问卷的信度需要用校正公式来得到:Rxx=2Rhh/(1+Rhh) (变异性相等)Rxx=2(1-(Sa2+Sb2)) (两部分的变异性不等)。

(四)评分者信度这种方法在测量工具的标准化程度较低的情况下进行的。

不同评分者的判分标准也会影响测量的信度,要检验评分者信度,可计算一个评分者的一组评分以另一个评分者的一组评分的相关系数。

效度效度就是正确性程度,即测量工具在多大程度上反映了我们想要测量的概念的真实含义,效度越高,即表示测量结果越能显示出所要测量的对象的真正特征。

类似于信度系数的公式,效度系数一般规定为与测量的目的相关的分数的方差在总方差中所占的比例,即效度= σ2Tx/σ2x=1-(σ2T0+σ2E)/ σ2x,Tx是通过分解真分数得到的。

我们将T分成两部分,一部分是我们想要测量的特质Tx,另一部分是与测量目的不相关的T0, T=Tx+T0 。

效度类型效度是一个多层面的概念,它是相对于特定的研究目的和研究侧面来言的。

因而,检验效度必须针对其特定的目的功能及适用范围,从不同的角度收集各方面的资料分别进行。

检验效度的方法大体有三种。

(一)内容效度考察内容效度旨在系统地检查测量内容的适当性,并根据我们对所研究的概念的了解去鉴别测量内容是否反映了这一概念的基本内容。

检验内容效度就是检验由概念到指标的经验推演是否符合逻辑,是否有效。

内容效度实质上是一个判断问题。

K.D贝利在《社会研究方法》中指出,内容效度必须考虑两个主要问题:(1)测量工具所测量的是否正是调查人员所想要测量的那种行为(2)测量工具是否提供了有关的那种行为的适当样品(二)准则效度准则效度是指被假设或定义为有效的测量标准,符合这种标准的测量工具是可以作为测量某一特定现象或概念的效标。

当我们对同一现象的或概念进行测量时,我们可以使用多种的测量工具,每种测量方式与效标的一致性就成为准则效度。

(三)建构效度考察建构效度就是要了解测量工具是否反映了概念和命题的内部结构,这种方法常常在理论的研究中使用。

由于它是通过与理论假设相比较来检验的,因此建构效度也被称为理论效度。

对建构效度的理解我们可以参考一下艾尔.巴比的《社会研究方法》的173页。

最后我们可以通过这样的图示来更清晰地理解三种效度类型(1)内容效度(2)准则效度(3)建构效度概念层次X 政治知识X 学习能力X工作积极性Y闲暇时间利用经验层次Y政治成绩X1 X2 X1工作主动性Y1有效活动时间比率预测学习成绩实际学习成绩X2工作动机信度和效度的关系信度和效度的关系我们可以参考一下艾尔。

巴比的《社会研究方法》的173图示。

这个图示很清晰地说明了二者的关系。

通过信度系数和效度系数的计算公式我们也可以从数理的方面来理解两者的关系:由于σ2x=σ2T0+ σ2x,σ2T0可以理解是系统偏差的方差。

σ2T大并不能保证σ2Tx也大,也就是信度高不能说明效度高。

但σ2Tx相对于来说很大的话,即效度高,那么,σ2T /σ2x也较大,即效度高,信度一定高,也就是说信度是效度的必要条件,但不是充分条件。

最后我们可以这样概括两者的关系:(1)信度低,效度不可能高。

因为如果测量的数据不准确,也并不能有效地说明所研究的对象(2)信度高,效度未必高。

例如,如果我们准确地测量出某人的经济收入,也未必能够说明他的消费水平。

(3)效度低,信度很可能高。

例如,即是一项研究未能说明社会流动的原因,但它很有可能很精确很可靠地调查各个时期各种类型的人的流动数量。

(4)效度高,信度也必然高。

什么叫信度和效度测试信度(test reliability)也叫测试的可靠性,指的是测试结果是否稳定可靠。

也就是说,测试的成绩是不是反映了受试者的实际语言水平。

例如,如果同一套测试在对同一测试对象(即受试者本身没有变化)进行的数次测试中,受试者的分数忽高忽低的话,则说明该测试缺乏信度。

测试的信度与测试的效度有着密切的关系。

一般说来,只有信度较高的测试才能有较高的效度,但效度较高不能保证信度也一定较高。

测试的信度主要涉及到试题本身的可靠性和评分的可靠性这两个方面。

试题本身是否可靠主要取决于试题的范围、数量、试题的区分度等因素;评分是否可靠则要看评分标准是否客观和准确。

测试的信度通常用一种相关系数(即两个数之间的比例关系)来表示,相关系数越大,信度则越高。

当系数为1.00时,说明测试的可靠性达到最高程度;而系数是0.00时,则测试的可靠性降到最低程度。

在一般情况下,系数不会高到1.00,也不会降到0.00,而是在两者之间。

对信度指数的要求因测试类别的不同而不同,人们通常对标准化测试的信度系数要求在0.90以上,例如“托福”的信度大致为0.95,而课堂测试的信度系数则以0.70-0.80之间为可接受性系数。

测试信度的计算方法有很多种,以下仅介绍三种易于操作的方法:1)重测法(the retesting method)。

用同一套试卷在两个不同时间内来测试同一批受试者,这样便获得两组分数,然后计算出两组分数的相关系数。

当然,在两次测试中,学生第二次的测试成绩理应比第一次的要高,因为在第二次测试时学生已经有了进步而且临场经验也更丰富了。

但是若该试题是比较可靠的,每个学生在两次测试中的排名次序应该是基本不变的。

2)交替形式法(the alternative method)。

对同一批受试者使用试题类型完全相同,难易程度相当,但具体题目不同的两套对等试卷先后进行两次测试,然后计算出两次得分的相关系数。

3)对半法(the split-half method)。

测试只进行一次,但将整份试卷的题目按单、双数分成两组来分别计分,算出两组分数的相关系数,然后再用Spearman-Brown的公式计算整份试卷的信度系数。

具体计算步骤是:将两组分数的相关系数乘以2,再除以1加两组分数的相关系数。

测试效度(test validity)亦称测试的有效性,指一套测试对应该测试的内容所测的程度。

也就是说,一套测试是否达到了它预定的目的以及是否测量了它要测量的内容。

例如:“Is photography an art orscience?Discuss.”这种题目以摄影的知识为前提和主要内容,用来考语言能力,就不具有效性。

又如用听写来测量学生的听觉能力,其效度也是不理想的,因为书面记录有声语言不仅涉及学生的听觉能力,而且还与他们的书写速度、拼写能力、语法知识、记忆能力和对全文的理解能力等有关。

测试的效度一般可分为以下几类:1)表面效度(face validity)。

指测试应达到的卷面标准,即一套测试题从表面看来是否是合适的。

例如,若一次阅读理解力的测试包括许多受试者没有学过的方言词汇,则可认为这次测试缺乏表面效度。

表面效度是测试出受试者正常水平的一种保证因素。

2)内容效度(content validity)。

指一套测试题是否测试了应该测试的内容或者说所测试的内容是否反映了测试的要求,即测试的代表性和覆盖面的程度。

例如,如果某一套发音技能测试题仅仅考查发音所必须具备的某些技能,如只考单一音素的发音,而不考查重读、语调或音素在词语中的发音,那么,该测试的内容效度就很低。

3)编制效度(construct validity)。

指一套测试题的诸项目对编制该测试所依据的理论的各个基本方面的反映程度。

例如,以结构主义语言理论为基础,认为系统的语言习惯是通过句型而获得的,那么,强调词汇和语法环境的测试题目就失去了编制效度。

4)经验效度(empirical validity)。

经验效度是一种衡量测试有效性的量度,通过把一次测试与一个或多个标准尺度相对照而得出。

经验效度可分为两种:一是共时效度(concurrent validity),即将一次测试的结果同另一次时间相近的有效测试的结果相比较,或同教师的鉴定相比较而得出的系数;二是预测效度(predictive validity),即将一次测试的结果同后来的语言能力相比较,或是同教师后来对学生的鉴定相比较而得出的系数。

一般来说,对某次测试的效度进行检验时,除了要根据教学大纲的要求和观念有效性的理论对试卷的内容进行考查以外,还须采用计算相关系数的定量方法,即计算出本次试卷与另一份已被确定能正确反映受试者水平的试卷之间的相关系数。

系数高则有效性大。

课堂测试的效度应在0.4-0.7之间,规模较大的测试其效度应在0.7以上。

相关文档
最新文档