心理学中的各种信度和效度

合集下载

第三节实验研究的信度和效度

e.g.: 在选择控制组和实验组的时候，男生一组、女生一组；
影响内在效度的因素

5.被试的缺失

如果是一项长期的实验，要保持原实验被试者的人数不变是相当困难的。

即使开始参加实验的被试者样本是经过随机取样和随机分配的，但由于被试者的中途缺失，常常使缺失后的被试者样本难以代表原来的样本（数量过少或者保留的被试具备独特的特点）。这就降低了内部效度。

影响内在效度的因素

3.前测的影响

研究者为了取得实验前被试的初始状态，常对被试实施前测，可能会积极或消极的影响实验处理实施后的测验结果。其中包括练习因素、临场经验、以及对实验目的的敏感程度，从而影响了后测的成绩。特别是前后两次测量时间较近，这一因素的影响就更显著。 e.g.：体育老师的示范对立定跳成绩影响。

詹金斯的四个评价维度

詹金斯（Jenkins,1979）提供四个评实验结果普遍性的维度： 1.用其他的被试人群也能得到同样的结果吗 2.用其他的实验材料也能得到同样的结果吗 3.用其他不同类型的测验也会有同样的结果吗 4.用不同的实验处理和不同的自变量操作方式也能有同样的结果吗特定的结果能否从被试人群、材料、情景以及因变量的测量等几个方面推广。
第二章心理学实验研究基础
第三节实验研究的信度和效度

对于一篇实验报告，我们经常要思考：

研究的变量是什么？
研究的结论是什么？
这个结论是否站得住脚？
对实验研究的评价

实验是否有效、明确——准确性、有效性（效度）
实验是否可重复验证——可信性、一致性（信度）

实验研究效度

效度

什么是效度？效度是什么意思？效度表示一项研究的真实性和准确性程度。

又称真确性。

它与研究的目标密切相关，一项研究所得结果必须符合其目标才是有效的,因而效度也就是达到目标的程度。

效度是相对的，仅针对特定目标而言，因此只有程度上的差别。

-入门吧,投资者入门的好帮手在测量方面，效度指一种测量手段能够测得预期结果的程度。

从统计学角度可把效度(rXY)定义为潜在真分数方差(垏)与实得分数方差(垑)的比率,即：。

效度与信度的关系为：信度是效度的必要条件，但不是充分条件。

一个测量的效度要高，其信度必须高，而一个测量的信度高时，效度并不一定高。

-找入门资料就到入门吧测量效度的方法考验效度的方法很多，J.W.弗伦奇和W.B.米歇贝根据测验目标把效度分为内容效度、构想效度和效标关联效度，这种分类为美国心理学会在1974年发行的《教育与心理测验的标准》一书所采纳，成为通行的效度分类方法。

（1）内容效度指测验题目对有关内容或行为范围取样的适当性。

成就测验和熟练测验特别注重这种效度。

例如，在成就测验中，测验题目是根据教学大纲和教材内容适当抽出的，内容效度就是判断测验题目（内容）是否符合它欲测的目标。

由于这种衡量效度的方法必须针对课程的目标和内容，以系统的逻辑方法详细分析题目的性能，故又称课程效度或逻辑效度。

确定内容效度的方法主要有两种：①专家判断，即由有关专家对测验题目与原定内容范围的符合性作出判断；②统计分析，即以一组被试在取自同样内容范围的两个独立测验上得分的相关作出估计。

内容效度很容易与表面效度相混淆，实际上两者意义不同。

表面效度指从外表（如测验的材料及用语、试题的印刷等）直观地看，测验题目与测量目标的一致程度，它与内容效度所指测验在实际测量上的有效程度不同。

从技术意义上严格地说，表面效度不是效度，但为了取得被试的信任与合作，表面效度也不可忽视。

-找入门资料就到入门吧（2）构想效度指测验分数能够说明心理学理论上的某种结构或特质的程度。

实验心理学——实验研究的效度

实验心理学——实验研究的效度1.构想效度关于关系变量及变量之间关系构想的准确性，以及实验变量在实验时的操作定义与推论时的定义一致性程度，换句话说，就是对所研究的特质在理论上构想的全面性。

构想效度不仅涉及因果关系的构想，也包括所有有关变量的构想。

变量理论上的定义无法十分全面，只能以多数人可接受的定义对之进行构造和界定。

影响构想效度的主要因素包括以下两个方面：一是理论上的构想之代表性不充足，二是构想之代表性过宽，以致包括了无关事物。

下面具体讨论研究问题的概念与构想间的一致性，而对构想与构想之间的推广问题则较少涉及。

（1）操作化前对构想的分析不够完整，这样便造成对概念具体操作选择上的片面。

例如态度系指对某事物较长期的反应，但一般量表往往只能测量一短时间内的反应，由此种量表所获取的资料是否能代表真正态度，其构想是值得考虑的。

为避免这一问题，最好先查阅有关资料，弄清概念的确切含义，确定其定义，然后将量表的效度或所选择的操作作比较。

（2）单一操作的偏差。

如只选单一的操作或量表，代表自变量或因变量，往往不能完整的代表该变量的全貌。

如果仅代表自变量的操作还情有可原，因实验设计包含较多的自变量操作，会不经济。

但代表因变量的操作应能尽量包括各种不同的量表．这样才能包括构想的全貌。

（3）单一方法的偏差，是指测量同一个特质所使用的不同搜集资料工具或方法，例如是用问卷法、仪器测量法、文献法、访问法等不同方法，以及呈现同一种刺激、记录同一种反应的不同方式，而引起构想效度改变的问题。

所谓记录方式不同，指应用访问法时是用纸笔记录还是录音记录，问卷或量表的答案方式是直接在试卷上作答还是用答案纸答，是纸笔测试还是用计算机测试，问卷法的问题形式（正问或反问）等等。

总之，是方法实质内容以外的问题，这些问题本身与研究问题无关，却是随内容并存。

被试者可能因对这些额外问题的变化，而导致对内容的反应不同。

（4）被试在执行实验时对假设的猜测，称作“要求待征”。

修订焦虑自评量表的信度及效度

修订焦虑自评量表的信度及效度一、本文概述本文旨在全面探讨修订后的焦虑自评量表的信度及效度。

焦虑自评量表作为一种常用的心理测量工具，广泛应用于临床、科研及日常心理健康评估中。

随着心理学理论和实践的不断发展，原有的焦虑自评量表需要进行修订和完善，以更准确地反映个体的焦虑状况。

因此，本文首先介绍了修订焦虑自评量表的背景和必要性，接着阐述了研究的目的和意义。

在方法上，本文采用了多种统计学方法，包括信度分析、效度分析等，对修订后的焦虑自评量表进行了系统的评估。

通过实证研究，本文旨在为心理健康领域提供更为可靠、有效的评估工具，为临床实践和科研研究提供更为准确的数据支持。

二、文献综述焦虑自评量表（Self-Rating Anxiety Scale，SAS）作为心理学领域中常用的评估工具，自其问世以来，已被广泛应用于各类焦虑障碍的筛查、诊断及疗效评估。

然而，随着研究的深入和实践的拓展，其信度和效度问题逐渐受到学者们的关注。

在信度方面，SAS的内部一致性、重测信度和评分者信度等是衡量其稳定性的重要指标。

国内外多项研究表明，SAS在这些方面表现出较好的信度。

例如，等（）对SAS进行了中文版修订，并通过大样本测试验证了其内部一致性信度和重测信度均达到心理测量学要求。

然而，也有研究指出，SAS在某些特殊人群（如老年人、儿童等）中的信度可能受到一定影响，这可能与不同人群的认知和表达能力差异有关。

在效度方面，SAS的结构效度、内容效度和校标效度等是衡量其准确性的重要标准。

结构效度主要通过因素分析等方法来评估量表的结构是否合理；内容效度则通过专家评审等方式来评价量表条目是否全面、准确地反映了焦虑症状；校标效度则是通过与金标准或其他有效量表进行对比来验证SAS的有效性。

目前，多数研究表明SAS具有较好的效度，能够有效地评估焦虑水平。

然而，也有研究指出，SAS 在某些特定情境下（如不同文化背景下）的效度可能受到影响，这可能与文化差异、语言表达等因素有关。

信度的判别标准

信度的判别标准
在心理学、社会学、经济学和其他社会科学领域中，信度是衡量研究方法和研究结果可靠性的重要指标。

信度主要关注测量的一致性、准确性和稳定性。

以下是信度的判别标准的主要方面：
1. 内部一致性
内部一致性是指测量工具内部项目之间的相关性和一致性。

例如，对于一个包含10个问题的问卷，内部一致性高的一个标志是，这些问题的得分之间应该呈现出较高的相关性。

2. 外部一致性
外部一致性是指测量结果在不同时间、不同样本或不同地点之间的稳定性。

例如，对同一群体使用相同的问卷在不同的时间点进行测量，如果结果具有高度稳定性，则说明外部一致性高。

重测信度、分半信度和复本信度等方法可以用来评估外部一致性。

3. 跨文化一致性
跨文化一致性是指在不同文化背景下，测量结果的一致性和可比性。

在跨国公司或者跨文化研究中，需要确保测量工具具有跨文化一致性，以便对不同文化背景下的结果进行比较和分析。

可以采用文化公平性测试和翻译后效度检验等方法来评估跨文化一致性。

4. 评分者间一致性
评分者间一致性是指不同的评分者对相同的样本进行评分时的一致性和准确性。

在主观评分中，如作文评分、面试评分等，需要确保评分标准的一致性和可重复性。

可以采用内容效度检验和独立样本
t检验等方法来评估评分者间一致性。

总之，在社会科学研究中，信度是一个重要的评估指标，可以衡量研究结果的可靠性、准确性和稳定性。

通过对内部一致性、外部一致性、跨文化一致性和评分者间一致性的评估，可以得出一个测量工具的信度水平，并判断其是否适合用于相关的研究目的。

效度和信度如何区分

信度与效度的区分1.效度：指的是一个测验能否真实准确地反应所要测量事物的程度，简单来说，可以理解为某测验测量准确与否的问题，因此也是衡量一个测验优劣的最重要的指标。

效度的内涵及其地位考试中也常以内涵型或地位型单选题、判断题形式考察，需要大家能够理解识记。

2.信度：同一测验多次测量，测量结果的一致性、稳定性与可靠性程度，这一概念内涵尤其是其中的可靠性，考试中常被归为效度以判断形式考察，需要重点掌握。

同时，考试中经常考察测验长度(即测验题量的多少)对测验信度的影响，因此二者关系也需要大家掌握。

一般来说，增加同类题目的测验长度，增加题目的代表性，是提高信度的一个有效办法，当然也要避免过犹不及的现象，测验题目过长反而会干扰测验信度。

效度vs信度关于效度和信度的关系，也是常考的一个难点：信度高的，效度不一定高;效度高，信度一定高。

下面将通过一个生活中的例子帮助考生理解。

小明用一个坏了的体重计测体重，多次测量得到的结果都是20公斤，而小明的实际体重应该是60公斤。

测量得到的结果一致性很高，说明这个测验的信度高。

但这个体重计却并没有准确地测出小明的真实体重，说明这个测验的效度低。

总结一下就是，当一个测验信度高的时候，效度不一定高。

如果小明用一个正常的体重计，多次测量得到的结果都是60公斤，也就是小明真实的体重。

这次测验准确测出了小明的体重，且结果保持一致，也就是说效度高、信度也高。

在一定时间内，真实结果一般是保持相对稳定的，因而只要能测出真实结果，多次施测结果就会保持较高的一致性，即效度高、信度一定高。

理解了信度和效度的内涵，大家就可以去推断二者的关系，主要包括以下几种：1.高效度一定高信度——测量准确即可八正测量结果的稳定和可靠2.高信度不一定高效度——测量结果稳定并不能保证结果的准确，如拿高三数学卷子测试小学三年级孩子的数学水平，测试多次结果均为0.信度高，但并不能说小学三年级孩子没有数学能力。

3.低效度不一定低信度——道理与高信度不一定高效度一致。

一般自我效能感量表的信度和效度研究

一般自我效能感量表的信度和效度研究一、概述随着心理学研究的不断深入，自我效能感作为个体对自己完成特定任务或应对特定情境的能力的信念，已经逐渐受到学者们的广泛关注。

一般自我效能感量表（General SelfEfficacy Scale，GSES）作为评估个体一般自我效能感的重要工具，其信度和效度的研究对于确保测量结果的准确性和可靠性具有重要意义。

本文旨在探讨一般自我效能感量表的信度和效度研究现状，分析量表在应用中可能存在的问题，并提出相应的建议，以期为后续研究提供参考。

在信度研究方面，一般自我效能感量表通过内部一致性信度、重测信度和分半信度等多个维度来评估量表的稳定性。

内部一致性信度主要考察量表内部各个项目之间的相关性，常用的指标有Cronbachs 系数重测信度则通过在不同时间点对同一群体进行重复测量，以评估量表结果的一致性分半信度则通过将量表项目分为两半，分别计算两部分的得分，再计算它们之间的相关系数来评估量表的信度。

这些信度指标的应用有助于我们了解量表在测量个体一般自我效能感时的稳定性和可靠性。

在效度研究方面，一般自我效能感量表主要通过内容效度、结构效度和校标效度等方面来评估量表的有效性。

内容效度主要考察量表项目是否全面、准确地反映了所要测量的内容结构效度则通过因子分析等方法，探讨量表项目之间的潜在结构，以验证量表是否符合理论预期校标效度则通过与其他已知效度较高的量表或指标进行关联分析，以评估量表结果的准确性。

这些效度指标的应用有助于我们了解量表在测量个体一般自我效能感时的准确性和有效性。

一般自我效能感量表的信度和效度研究对于确保测量结果的准确性和可靠性具有重要意义。

本文将对一般自我效能感量表的信度和效度研究进行综合分析，以期为后续研究提供参考和借鉴。

1. 研究背景：介绍一般自我效能感量表的概念、起源及其在心理学、教育学等领域的应用。

一般自我效能感量表（General SelfEfficacy Scale, GSES）是一个广泛应用于心理学、教育学等领域的重要测量工具，用于评估个体在面临挑战或新情境时对自己能力的信心和预期。

成人依恋量表在中国的信度和效度

成人依恋量表在中国的信度和效度一、本文概述依恋理论，源自发展心理学，描述了人类个体与其主要照顾者之间形成的情感纽带。

这种纽带对于个体的情感发展、社会适应和人际关系建立具有深远影响。

近年来，随着研究的深入，依恋理论逐渐扩展至成人领域，形成了成人依恋理论。

成人依恋量表，作为衡量成人依恋模式的重要工具，其在中国文化背景下的信度和效度问题逐渐受到学者们的关注。

本文旨在探讨《成人依恋量表》在中国文化背景下的信度和效度。

文章将对成人依恋理论进行简要介绍，明确其在心理学领域的重要性和应用价值。

接着，将重点介绍《成人依恋量表》的发展历程、理论基础和主要内容，以便读者对量表有全面的了解。

在此基础上，文章将详细阐述量表在中国文化背景下的翻译、修订过程，以及样本选取、数据收集和分析方法。

通过对研究结果的解读和讨论，文章将评估《成人依恋量表》在中国文化背景下的信度和效度，并提出相关建议，以期为该量表在中国的进一步应用提供参考。

通过本文的研究，我们期望能够深入了解《成人依恋量表》在中国文化背景下的适用性，为成人依恋研究提供有力的工具支持，同时也为心理咨询、心理治疗等领域提供有益的参考。

二、文献综述依恋理论自 Bowlby（1969）提出以来，已成为心理学领域，特别是发展心理学和社会心理学的重要理论之一。

依恋是个体在生命早期与主要抚养者（通常为母亲）形成的特殊情感联结，这种联结会影响个体的情感、行为和人际关系。

随着研究的深入，依恋理论已经从婴儿期扩展到了成人期，形成了成人依恋理论。

成人依恋是指个体在成人阶段对他人，特别是亲密伴侣的情感联结方式。

近年来，随着亲密关系研究的兴起，成人依恋的研究逐渐受到了国内学者的关注。

成人依恋量表作为评估成人依恋模式的重要工具，其在国内的应用和评估至关重要。

在此背景下，本研究旨在探讨《成人依恋量表》在中国的信度和效度，以期为后续的成人依恋研究提供科学、可靠的评估工具。

目前，国际上已有多款成人依恋量表，其中较为常见的有《成人依恋问卷》（AAQ）、《成人依恋量表》（AAS）、《亲密关系经历量表》（ECR）等。

1、下载文档前请自行甄别文档内容的完整性，平台不提供额外的编辑、内容补充、找答案等附加服务。
2、"仅部分预览"的文档,不可在线预览部分如存在完整性等问题,可反馈申请退款(可完整预览的文档不适用该条件!)。
3、如文档侵犯您的权益，请联系客服反馈,我们会尽快为您处理(人工客服工作时间：9:00-18:30)。

心理学中的各种信度和效度一、信度所谓信度，指的是测量结果的稳定性程度，其操作定义是，信度乃是一个测验X与它的任意一个“平行测验X＇的相关系数。

无关因素、测验的长度、测验试题的区分度、被试团体的代表性都会影响信度。

（一）重测信度1、定义：利用同一量表，让同一被试群体在不同时间两次施测之后的相关值。

这一信度值表示的是测验结果的稳定性，故也称之为稳定性系数。

2、形式：施测——经过适当时间——再施测3、举例：假设有一份主观幸福感调查表，先后两次施测于10名学生，时间间隔为半年，结果如下表所示，求该测验的重测信度。

4、使用的前提条件（1）所测量的心理特质必须是稳定的。

（2）遗忘和练习的效果基本上互相抵消。

（3）在两次施测的间隔期内，被试在所要测查的心理特质方面没有更多的学习和训练。

5、注意事项（1）有些测验不宜采用重测法估计信度，如测量推理和创造力的测验。

那些不易受重复使用影响的测验才能用再测法估计信度。

如感觉运动测验、人格测验。

（2）两次测验间隔的时间要适当，并注意提高被试的积极性（3）测验手册中报告重测信度时应说明两次施测的间隔，以及在此期间内被试的有关经历（4）时间间隔的把握：适宜时间间隔依照测验目的、性质及被试特点而定，可以是几分钟甚至几年。

例如对于年幼儿童的间隔要小；年长群体的间隔可大。

但智力测验的间隔不能太短，成就测验的间隔不能太长。

一般间隔时间不超过六个月，既不能让被试记住上一次测验的内容，又不能让其特质发生变化，或对所学知识产生遗忘。

6、重测信度的评价：（1）优点：能够提供有关测验结果是否随时间而变异的资料，可作为预测受测者将来行为表现的依据。

（2）缺点：易受练习和记忆的影响，前后两次施测间隔的长短必须要适度。

（二）复本信度1、什么是复本：任何测验只是所有可能题目中的一份取样，所以可编制许多平行的等值测验，叫做复本。

复本等值要符合下列条件：（1）各份测验测量的是同一种心理特性。

（2）各份测验具有相同的内容和形式。

（3）各份测验的题目不应重复。

（4）各份测验题目数量相等，难度和区分度大体相同。

（5）各份测验的分数分布（平均数和标准差）大致相等。

（6）复本编好后，应再测一次，以确保各份测验的等值。

2、复本信度定义：两个复本施测同一被试群体，求其相关。

（1）等值性系数：同时连续施测，反映内容变异。

形式：复本A—同时—复本B（2）稳定与等值性系数是对信度最严格的检验，反映的是“内容变异＋时间变异”的共同作用效果。

形式为：复本A—适当时间—复本B3、使用前提条件：构造出两份或两份以上真正平行的测验，被试要有条件接受两个测验。

4、复本信度的评价（1）优点：可以在一定程度上避免重测法的缺点（2）缺点①只能减少而不能排除练习和记忆的影响。

②第二个测验只改变了测验的具体内容，已经掌握的解题原则容易迁移到同类问题。

③对于许多测验来说，建立复本十分困难。

（三）分半信度1、定义：在测验没有复本且只能实施一次的情况下，可将测验项目分成对等的两半，根据被试在这两半测验中所得的分数计算相关系数，即得分半信度。

计算分半信度先要对测验分半。

不同的分半法可能会得到不同的信度值。

有时为了使两半基本等值，可将项目按由易到难的顺序排列编号，然后按奇数和偶数序号将项目分半。

要注意使那些性质相同、联系紧密的项目分在相同的一半，否则会使信度值偏高。

2、校正：分半信度只是半个测验的信度，须用斯皮尔曼-布朗公式校正： r xx=2r hh/(1+r hh) 且两半测验分数的变异数相等时才能使用。

（四）同质性信度（内部一致性信度）1、定义：同质性指测验的所有题目测量的是同一种心理特质，表现为各个题目得分之间有较高的相关，相关越高则同质性越强。

同质性信度也叫内部一致性系数，是指测验内部所有题目间的一致性程度，一个测验所测内容或特质的相同程度。

2、注意事项：同质测验分数的意义比较明确，但是，单独的同质性测验不能预测一个异质的行为或心理特性。

现行的许多心理测验都是异质的，不过它们多半是由若干个相对同质的分测验或分量表所组成，每个分测验或分量表只测量一个方面的特征。

这样，当把分数组合起来后便可以做出明确的解释。

3、使用范围：学绩测验可不考虑同质性。

同质性信度与结构效度密切相关。

4、计算方式：一般采用数据统计软件，克隆巴赫系数最为常用。

（五）评分者信度1、定义评分者信度是指不同评分者之间在测验结果计分上的一致性。

在心理测验中,评分者信度的计算,通常是随机抽取若干份试卷,由至少两位受过训练的评分者按计分规则分别判分,然后计算它们的相关。

几个评分者的评分越一致,评分者信度越高。

2、计算方法：最简单的估计方法就是随机抽取若干份答卷，由两个独立的评分者打分，再求每份答卷两个评判分数的相关系数。

这种相关系数的计算可以用积差相关方法，也可以采用斯皮尔曼等级相关方法。

如果评分者在二人以上，而且又采用等级记分时，就需要用肯德尔和谐系数来求评分者信度。

（六）对信度系数计算的评价1、在一般情况下，间隔施测的复本信度最低，因为很多因素有机会影响到分数。

2、校正过的分半相关，因为影响的因素少，所得的信度估计为最高。

3、稳定与等值性系数是对信度最严格的检验，反映的是“内容变异＋时间变异”的共同作用效果。

（七）信度的影响因素和提高信度的方法1、影响因素：被试、主试者方面、施测情景方面、测量工具方面、两次施测得间隔时间；2、提高信度的方法（1）适当增加测验的长度：虽然增加题目可以提高信度，但并非多多益善。

增加测验长度的效果遵循报酬递减率，测验过长是得不偿失的，有时还会引起被试的疲劳和反感而降低可靠性，还要注意一点的是，只有当新题目是与原题目选自同一总体，即新题目与原题目具有同质性时，增长测验才能改进信度。

（2）使测验中所有试题的难度接近正态分布，并控制在中等水平。

（3）努力提高测验试题的区分度（4）选取恰当的被试团体，提高测验在各同质性较强的亚团体上的信度。

（5）减少无关因素的影响。

二、效度所谓效度，指一个测验或量表实际能测出其所要测的心理特质的程度。

（一）内部效度：在研究的自变量和因变量之间存在一定关系的密切程度。

成熟、历史、被试选择偏差、被试缺失、前测、实验程序、统计回归以及多种条件的交互作用都可影响内部效度。

（二）外部效度：是指研究结果能够一般化和普通化到样本来自的总体和其他变量条件、时间和背景中的程度，即研究结果所代表的普遍性和适用性。

被试的代表性、操作定义的准确性、研究的反作用、前测对实验的影响、被试多重处理、实验者效应、研究和实际情境的差异大小、被试与实验的交互作用会影响外部效度。

（三）内容效度1、定义：一个测验实际测得的内容与所要测得的内容之间的吻合程度。

主要应用于成就测验、选拔和分类的职业测验，但不适用于能力倾向测验和人格测量。

注意要与表面效度相区分，是指某个外行人对某个测验表面上看好像是测某种心理特质的一种现象，假如这个外行人能够有效的的测得某种心理特质时，该测验就可以说是有较高的表面效度。

一般来讲，最高行为测验往往表面效度高，而其他的测验则希望表面效度低。

2、确定方法：首先要明确预测内容的范围，其次确定每个题目所测的内容，并与测验编制者所列的双向细目表进行比对，最后制定评定量表，考察题目是否能够反映所要测定内容。

此外，还可以测量复本信度，或者采用再测法（前测后测比较）。

3、评价（1）优点：不但是评价学绩测验的最适合的方法，而且编制任何测验都要加以考虑的方面；（2）缺点：缺乏理想的数量指标，因而妨碍了信息交流和各测验间的相互比较。

（四）结构效度1、定义：也叫构思效度、构念效度，旨在以心理学的理论概念来说明并分析测验分数的意义，即从心理学的理论观点，就测验的结果加以诠释和探讨，亦即根据心理学理论上的构想来编制测验的内容或选择试题。

2、确定方法：可以通过测验内部寻找证据法、测验之间寻找证据法、考察实证效度法以及多种特质——多种方法矩阵法。

测量之间寻找证据法需要注意聚合效度和区别效度，所谓聚合效度，是指当测量同一构念的多重指标彼此间聚合或有关连时，就有此种效度存在；所谓区别效度（分歧效度），是与聚合效度相反，此类效度是指当一个构念的多重指标相聚合或呼应时，则这个构念的多重指标也应与其相对立之构念的测量指标有负向相关。

3、多种特质——多种方法矩阵法：如图表所示（1）主对角线数值：同样方法测相同特质所得相关，是信度指标；（2）虚线三角形之间的两条对角线的数值：不同方法测相同特质的相关，是效度指标；（3）实线三角形内的数值：同样方法测不同特质的数值；（4）虚线三角形内的数值：不同方法测不同特质的数值。

（五）实证效度1、定义：也称效标关联效度，是指一个测验对处于特定情境中的个体的行为进行估计的有效程度，一个测验是否有效，应该以实践的效果来作为检验的标准。

效标是衡量一个测验是否有效的外在标准，独立于测验并且可以从实践中直接获得我们感兴趣的行为。

因此，作为效标来讲，应该具有多样性、复杂性、特殊性和时间性，一般常用的效标有学业成就、等级评定、临床诊断、实际工作表现、某个训练成绩等。

2、实证效度的确定方法（1）相关法：求测验分数与效标测量间的相关，是最常用的方法；（2）区分法——t检验：比较高低分组的差异；（3）命中率法：分为总命中率和正命中率法，如下表所示A、总命中率法：B、正命中率法：（六）统计结论效度：是检验研究结果的数据分析程序与方法的一种有效性指标。

若数据的质量差、违反统计检验的假设、统计检验能力低，则统计结论效度就差。

（七）提高效度的方法测验的构成、测验的实施过程、接受测验的被试、所选效标的性质、测量的信度都会影响效度。

因此可以采用以下方法提高效度：1、精心编制测验量表，避免出现较大的系统误差2、妥善组织测验，控制随机误差3、创设标准的应试情境，让每个被试都能发挥正常水平4、选好正确的效标，定好恰当的效标测量，正确地使用有关公式三、信度和效度的关系1、信度高是效度高的必要而非充分条件2、测验的效度受它的信度制约，信度系数的平方根是效度系数的最高界限。