第四章教育测量的质量指标-效度

合集下载

教育数据类别与测量质量指标

第二节教育测量的质量特性
教育数据类别与测量质量指标
一、教育测量的信度和效度
n 一个高质量的测验，它的结果是可靠而且是有效的；
n 可靠性（信度）和有效性（效度）是评价测验质量的两个重要指标。
教育数据类别与测量质量指标
n 当一个测验多次测量的结果一致时，它就被认为是可靠的；
n 估计测量一致性程度的指标被称为信度。
6
90
97
85
97
7
80
89
48
89
r
0.91
0.26
教育数据类别与测量质量指标
相关系数与相关程度表一览表表
|r|
相关程度
0 ≤0.3
零相关
微相关
0.3<|r| ≤0.5
切实相关
0.5< |r| ≤0.8
密切相关
>0.8
1.0
高度相完全相
关
关
教育数据类别与测量质量指标
八、差异显著性检验
★假设检验的基本原理 1.假设 n 虚无假设（零假设）：是关于当前样本所属的总体（指参数）与假设总体（指参数）无区别的假设，一般H0表示。 n 备择假设（研究假设）：是关于当前样本所属的总体（指参数）与假设总体（指参数）相反的假设，一般用H1表示。由于直接检验备择假设的真实性困难，假设检验一般都是从虚无假设出发，通过虚无假设的不真实性来证明备假设的真实性。
2. 标准差（σ或S）
标准差概念：标准差是指离差平方和后平均的方根。
教育数据类别与测量质量指标
问题1：某班甲乙两组在一次测验中的
成绩分别为65，68，71，72，74 （均分为70分）和 30，50，86， 90，94（均分为70分）。如何评价两组的学习情况？

教育测量的质量指标

教育测量的质量指标引言教育测量是评估学生学习成果和教学效果的重要手段。

通过对学生的能力、知识、技能等方面进行测量，可以了解他们的学习状况以及教学的有效性。

然而，要确保教育测量的质量，需要依据一系列的指标进行评价和监控。

本文将介绍教育测量的质量指标，并讨论其意义和应用。

1. 可靠性可靠性是指测量工具在重复使用中能够得到相似结果的程度。

一个可靠的测量工具应该在不同的时间、不同的场合和不同的评估者之间产生一致的结果。

常用的衡量可靠性的指标包括内部一致性、重测信度和等价性。

内部一致性（Cronbach’s Alpha）内部一致性是指测量工具中各项指标之间相互关联的程度。

通过计算各项指标的相关系数，可以评估测量工具内部一致性的高低。

一般来说，Cronbach’s Alpha系数在0.7以上被认为是可接受的，越接近1表示内部一致性越高。

重测信度（Test-Retest Reliability）重测信度是指在不同时间进行相同测量的结果之间的相关性。

通过将同一测量工具在两个不同时间点进行测试，并计算其相关系数，可以评估测量工具的重测信度。

一般来说，相关系数应该大于0.7才被认为是可靠的。

等价性（Parallel Forms Reliability）等价性是指在不同测量工具中相同或类似的项目之间的一致性。

通过将不同但具有相似性质的测量工具同时应用于被测对象，并计算其相关系数，可以评估测量工具的等价性。

一般来说，相关系数应该大于0.7才被认为是等价的。

2. 效度效度是指测量工具能够准确地衡量所要测量的内容的程度。

一个有效的测量工具应该与被测对象所具有的实际水平或其他标准进行相关。

常用的衡量效度的指标包括内容效度、构造效度和效标关联效度。

内容效度（Content Validity）内容效度是指测量工具中各项指标是否能够全面、恰当地反映所要测量的内容。

通过专家评价、内容分析等方法，可以评估测量工具的内容效度。

一般来说，测量工具应该包含全面的内容领域，并且各项指标与内容领域高度相关。

第4章测量的信度与效度

2 2 X T2 E
实得分数的方差等于真分数的方差与误差方差之和。
调研人员应运用所掌握的统计知识，分析其是属于系统误差还是属于随机误差。系统误差会使调查结果有误，所以应尽量避免。随机误差可通过提高样本代表性、增大样本量来减少。
信度一般规定是：真分数的方差在总体方差中所占的比重，即信度系数：
当题目间的相关系数越大时，α系数也会越大。当题目数目n越多时，S
2 H
n 值越大，越接近于0， 2 SH n 1
2 S i
越接近于1，故α系数也会越接近于1。
要做信度分析须先检查每个题目是否都是同方向的，即都是正面问法，反向问题需要做处理后才可以加入分析。
在计算α系数时，应该注意有些调查量表测量的内容包含几个领域，这时宜分别计算各个领域的α系数。克朗巴哈α系数适用于项目多重计分的测验数据或问卷数据，可以用该系数测量Likert量表的信度。在基础研究中，信度至少应达到0.8才可接受；在探索性研究中，信度只要达到0.7就可以接受；在旅游调查测量实践中，信度只要达到0.6即可接受。 α系数通常与量表题目数量有关，题目数量越多，α系数就越大。
理想（甚佳，信度佳（信度高）很高）非常理想（信度非非常理想（甚佳，常好）信度很高）
二、克朗巴哈 α系数的手工计算
以一份有8个题项的量表为例，8个题项均为正向题，受试样本数有6位，采用Likert 5点量表填答，获得调查结果如下表：
题号样本
量表试题
01 5 5 5 5 5 4 02 1 1 2 1 1 1 03 2 2 2 2 2 1 04 5 4 5 5 5 5 05 2 3 3 3 3 3 06 5 5 5 5 5 4 07 4 5 5 5 5 4 08 3 2 2 3 2 2 总分 27 27 29 29 28 24

教育测量与评价测量指标

教育测量与评育测量的质量，可采用四个指标： • 信度主要对整个测量而言。 • 效度 • 难度主要对测量的项目而言。 • 区分度
一、信度概述
（一）什么是信度信度是指测量结果的稳定性或可靠性程度。一般地说，一个好的测量必须具有较高的信度，也就是说，一个好的测量工具，只要遵守操作规则，其结果就不应随工具的使用者或使用时间等方面的变化而发生较大的变化。必须从以下两个方面去理解测量的信度：信度指实测值（X）和真值（T）相差的程度；信度指两次重复测量或等值测量之间的关联程度。
例三
• 对初中一年级学生进行地理成绩测验，每答对1题得1分，答错1 题得0分，其测验结果如下表，试估计该测验的折半信度？ • 学生序号题序 • 1 2 3 4 5 6 • 1 1 0 0 0 0 0 • 2 0 0 0 1 0 0 • 3 1 0 1 0 0 0 • 4 1 1 0 0 1 0 • 5 1 0 0 1 0 0 • 6 1 1 1 0 1 1 • 7 1 1 1 1 0 1 • 8 1 1 0 1 1 0 • 9 0 1 1 0 0 1 • 10 1 1 1 1 1 1
3、折半信度（分半信度）
• 就是将测验分半，再求被试在每一半测验上所得分数的相关系数。 • 首先根据内容、形式、题数、平均数、标准差、难度、测题间相关以及分布形态相等的原则，将试题分成两半，或者将从易到难排列的测题，按照测题序号，奇数测题为一组，偶数测题为一组，分成两半； • 然后计算每个被试在两个分半测验分数的积差相关系数，再用斯皮尔曼—布朗公式加以校正。 • 斯皮尔曼—布朗公式为
• 学生序号 1 2 3 4 5 6 7 8 9 10 • X 19 19 18 17 16 15 15 14 13 12 • Y 20 17 18 18 17 15 13 15 12 12

教育测量与评价的基本理论

教育测量与评价的基本理论教育测量与评价是指对教育活动进行系统观察、衡量和评估的过程，通过对学习者、教学内容和教学环境的测量，用于了解教育目标的达成情况、教学质量的提高与改进以及教育政策的制定和调整。

它是教育领域中的重要理论和实践，为教育决策提供科学依据。

1.测量理论：测量理论是教育测量与评价的基础，它研究如何将可量化的教育目标转化为能被测量的指标。

测量理论主要包括传统测量理论和现代测量理论两个方面。

传统测量理论强调测验的可靠性和效度，可靠性是指一个测验在确定条件下能得到相似结果的程度，效度是指测验能否真实地反映被测对象的特征或能力。

传统测量理论通过统计方法对测试结果进行分析，包括计算信度系数、相关系数等。

现代测量理论强调以潜在变量为中心，认为教育目标不同于一般的观测指标，而是通过观测指标的背后的潜在变量来描述的。

现代测量理论包括因素分析、结构方程模型等方法，能够更准确地描述教育目标和评价对象之间的关系。

2.评价理论：评价理论是研究如何对测量结果进行综合和判断的理论体系。

评价理论主要包括定性评价和定量评价两个方面。

定性评价注重对教育活动进行质性分析，通过观察、访谈、文献分析等方法获取和理解相关信息，从而对教育活动进行综合评价。

定性评价强调了对于教育过程的深入了解和真实反映。

定量评价注重对教育活动进行数量分析，通过数据收集和统计分析来评估教育活动的效果。

定量评价通过数值化的方法对数据进行处理和解释，能够进行更加准确的比较和判断。

3.教育测量与评价模型：斯兰贝格模型是对教学质量进行综合评价的模型，它将教育目标、教学过程和学生学习效果三个方面的指标进行综合评价，从而得出教学质量的综合评定。

塔伦斯模型是对教师教学能力进行评价的模型，它将教师的知识和技能、教学过程和学生学习结果三个方面的指标进行评价，从而得出教师教学能力的评估结果。

布鲁姆分类模型是对学习者学习效果进行评价的模型，它将学习者的认知、情感和技能等方面的指标进行评价，从而得出学习者的学习效果。

教育学出题的信度效度

教育学出题的信度效度一、效度(一)效度的涵义测验的效度指的是测验的正确性和有效性。

换言之，效度指的是测验能在多大程度上实现测验的目的。

效度是科学测验工具最重要的质量指标。

能测出来想测量东西的程度，则效度高;测不出来，则效度低。

例如：想要测量小明的身高，测量工具是秤，那么，测量不出想要测量的东西，则效度低。

(二)效度的类型根据测量的问题不同，可以分为三类，即内容效度、构想效度、预测效度。

1.内容效度内容效度指的是测验所选取的项目是否符合所要测量的东西，其代表性是否适当。

例如：要测量小学生现代文的阅读能力，就应该选取适合他们的现代文。

假如选取了文言文，则不能测出他们现代文的阅读能力，说明该试卷缺乏内容效度。

2.构想效度构想效度是指测验对某种理论的符合程度，其目的在于用心理学的理论观点对测验结果加以解释及探讨。

简而言之，构想效度就是从某一理论出发，根据理论构想有关的假设，据此设计和编制测验，然后由果溯因，审查结果是否符合心理学的相关理论。

例如：假设学生获得语言知识的能力会随着年龄的增长而不断提升。

测验后，发现确实是这样，那么，构想效度较高。

3.预测效度指的是一个测验能够预测学生将来某种特定行为或表现的程度。

预测得越准，效度就越高。

例如：李老师预测小明经过一个星期的学习后，数学成绩会有所提高。

事实确实是，那么构想效度较高。

二、信度(一)信度的涵义测验的信度又叫做测验的可靠性，指的是测验的一致性程度，即多次测验结果要保持一致。

信度指标通常以相关系数表示，即用同一被试样本所得的两组资料的相关系数作为测量一致性的指标，成为信度系数。

例如：想要测量小明的性格是什么样的，测验结果发现，第一次测验是内向，第二次测验是外向，第三次测验是中性的，那么它的信度比较低。

(二)信度的类型1.再测信度用同一组被试对同一测验前后两次施测的测验得分的相关系数表示信度，它反应测验分数的稳定程度。

例如：用同一张智力测验试卷对同一组人去进行测验，前后两次测验后的结果一致，则表明这份智力测验信度高。

教育测量的种类与质量分析

教育测量的种类与质量分析一、引言教育测量是教育评价中的一个重要组成部分，用于衡量学生的学习成果、课程的有效性、教学质量等方面。

不同的测量方法适用于不同的评估目的，而质量分析则是对测量结果进行解释和评估的过程。

本文将介绍教育测量的主要种类，并对其质量分析方法进行探讨。

二、教育测量的种类1. 成绩测量成绩测量是最常见的一种教育测量方式，通过对学生的考试、作业、实验等成果进行评估，来衡量其学习成绩。

一般采用分数或等级来表示学生的成绩，评价的依据可以是学生的知识掌握、问题解决能力、创新意识等多个维度。

成绩测量结果常用于评估学生的学习情况和教师的教学效果。

2. 能力测量能力测量主要是针对学生的某种能力进行评估，例如语言能力、数学能力、思维能力等。

常见的能力测量方法包括标准化考试、能力测试、问卷调查等。

通过能力测量，可以了解学生在某个特定领域的能力水平，有助于教师进行个性化教学和课程改进。

3. 教学质量评估教学质量评估是对教师的教学效果进行评价，旨在提供反馈和指导。

评估方法包括课堂观察、学生评价、同行评审等。

教师可以通过教学质量评估了解自己的教学优势和不足，进而调整教学策略，提高教学质量。

4. 课程评估课程评估是对教学内容和教学过程的评价。

评估方法包括问卷调查、课堂观察、学生反馈等。

课程评估的目的是了解课程的有效性和学生对课程的满意度，进而进行改进和优化。

三、质量分析方法1. 统计分析统计分析是对测量结果进行数量化的分析。

可以通过计算平均值、标准差、相关系数等统计指标，来评估测量结果的分布和变异程度。

此外，还可以使用频率分布图、直方图等图形表达结果，直观地展示数据的特征。

2. 效度分析效度分析是评价测量结果与被测量的目标关系的过程。

效度分析可分为内容效度、构效效度和预测效度三个方面。

内容效度评估测量内容与目标的一致性；构效效度评估测量方法是否能全面、科学地反映被测特征；预测效度评估测量结果与被测特征的实际关系。

《教育测量与评价》复习资料

《教育测量与评价》复习资料教育测量与评价第⼀章教育测评概述第⼀节教育测量概述⼀、什么是测量（⼀）测量的定义⼀般认为，测量是根据法则给事物分派数字。

具体来说，是指根据⼀定的法则和程序，对事物或现象在数量上的规定性加以描述和确定的过程。

这⾥包含了测量应有的三个特性：1、法则。

2、事物。

3、数字。

（⼆）测量的三要素1、单位。

2、参照点。

3、量表。

⼆、什么是教育测量（⼀）教育测量的定义教育测量是根据测量学的原理和⽅法对教育现象及其属性从量的规定性上予以确定和描述的过程。

（⼆）教育测量的特点1、测量结果的间接性。

2、度量单位的相对性。

3、测量对象的复杂性。

4、测量⽬的的针对性。

第⼆节教育评价概述⼀、什么是评价评价就是根据某种价值观对事物及其属性进⾏判断、衡量，或者说是衡量、判断⼈或事物的价值。

⼆、什么是教育评价教育评价是根据⼀定的价值观或价值标准，运⽤可⾏的科学⼿段（包括测量或⾮测量），通过系统地搜集信息、分析解释，对教育现象进⾏价值判断，从⽽为不断优化教育和教育决策提供依据的过程。

三、教育评价与教育测量的关系测量是依据⼀定的法则和程序，对事物或现象在数量上的规定性加以描述和确定的过程；评价是泛指根据⼀定的观念和标准衡量、判断⼈物或事物的价值。

测量的结果只有通过评价的解释才能揭⽰其实际意义。

测量是依据，评价是测量的具体体现。

测量关⼼的是数量的多少，评价关⼼的是价值的⾼低；测量是纯客观的，评价带有主观性；测量是⼀种单⼀的活动，评价则是⼀种综合的活动。

教育测量就是借助⼀定的⼯具，给教育现象赋值，来获取评价对象数量的⽅法。

教育测量是教育评价获得数据资料的重要⼿段。

教育测量可以为教育评价提供价值判断的基本数量事实，是教育评价的基础；教育评价是教育测量过程的延续，是对教育测量结果的解释与应⽤。

值得指出的是，教育评价并⾮⼀定以教育测量为基础，有时教育评价和教育测量是同义词。

⽐如，当教师对学⽣的成绩进⾏测验时，可以说是测量学⽣的成绩或评价学⽣的成绩。

1、下载文档前请自行甄别文档内容的完整性，平台不提供额外的编辑、内容补充、找答案等附加服务。
2、"仅部分预览"的文档,不可在线预览部分如存在完整性等问题,可反馈申请退款(可完整预览的文档不适用该条件!)。
3、如文档侵犯您的权益，请联系客服反馈,我们会尽快为您处理(人工客服工作时间：9:00-18:30)。

fxy 1(5 5) 3(6 5) 10(7 5) 5(8 5)
二列相关
• 适用于两个变量就其实际含义而言是等距或等比数据，它们服从正态分布，其中一列人为地划分为两类。
X p X q pq rb St y 公式(2 - 5)
X p或 X q是二分名称变量中“ 1”或“0”相对应的连续变量的平均数。 St 是该例连续变量全部变量值的标准差。 p是二分称名量表中一种的次数占总次数的百分比，q＝1－p。 y指的是在整个正态曲线中从左到右概率值为 p时的纵高。
所以可以将效度 rxy定义为 2 2 潜在真分数方差（ V ）实得分数方差（ x ）之比， 2 2 2 2 V x ( I E ) 即：rxy 2 2
x x 2 I2 E 1 (公式2 3) 2 x 2 I rxx 2 x
rxy rxx 公式（ 2 4）
三、效度的类别与分析验证法
• 1974年美国心理学会发行的《教育和心理测量的标准》一书将效度分为三大类：
– 内容效度：侧重于测验题目取样的代表性，考查这些题目对所欲测量的内容和行为反应测量的有效程度。 – 结构效度：侧重于一个测验的能够测量到心理学和教学理论上的抽象概念和特质的程度。 – 效标效度：侧重于测验分数预测我们所关心的外在行为的准确程度。
• • • • 第一，效度始终是针对一定的测量目的而言的。第二，效度是针对测量结果而言的。第三，效度只有高或低的程度上的差异。第四，评价一个测量是否有效要多角度、多方面地收集证据。 • 第五，教育测量中，效度问题比在其他领域的测量中更为重要。
一、效度的概念
• 这是因为：
• ⑴教育测量的对象大多是精神现象，只能通过对其具有可测性的外部表现（如语言或动作等）的测量，以间接认识其心理活动、心理特征或知识水平等。 • ⑵学生的心理活动、心理特征与其外部表现之间，一般仅具有相关关系而无函数关系，外部行为并不能准确无误地反映某种心理状态。 • ⑶教育测量的对象不是物而是有主观能动性的人。人能有意识地调节自己的外部行为，掩盖自己的内心活动，这就增加了认识其精神现象的难度。
– 分类：
• 同时效度：测验分数与效标资料的取得约在同一时间内连续完成，这两种资料的相关系数即为同时效度
– 目的：诊断现状
–用全国高考的成绩作为效标来检验高中毕业生会考的成绩，计算两者之间的相关系数就是会考的同时效度
• 预测效度：测验分数取得一段时间后才获得效标资料，计算这两种资料间的相关系数
例：
某中学数学教研组的教师积多年的教学法经验，认为刚入高中的学生学习立体几何感到困难的主要原因是空间想像力弱。为了证明这个论点，他们让刚入高中的103名学生作10道题，测量其空间想像力。为避免知道了某些学生的刚入高中时的成绩影响以后考试的评分，试卷暂不评阅。立体几何学完后，进行考试，按得分多少把成绩分为五等（A、B、C、D、 E）分别得5、4、3、2、1分。这时才评阅入学时的试卷，统计出期末得5、4、3、2、1分者在入学测验中分别答对1道题至10道题的人数（见表2-1）。就现有资料，用什么方法可以判断教师们的意见是否正确？
三、效度的类别与分析验证法
• 琳恩和格朗兰德提出效度的四个向度，即内容内容效度、效标关联效度、构想效度和结果效度。
（一）内容效度及其分析方法
• 内容效度（Content validity）
–又称合理效度或逻辑程度，是指测验内容或行为取样的代表性和适当程度；即实测内容和预定测验内容之间的一致性程度。
被试者
1 2 10 1 3 20 1 4 44 0 5 60 0 6 43 1 7 61 1 8 10 0 9 26 1 10 23 0 11 30 0 12 18 1 13 35 1 14 23 1
67 自编测验的成绩（X） 1 一年后考试成绩（Y）
• 命中率
– 当测验用作取舍决策时，常使用命中率 – 相关概念：总命中率、正命中率、负命中率 – 总命中率高，则测试的效度高 – 例：
• 70人参加的考试，通过测验选取了50人，淘汰了20人；选出的人中有 40人合格，淘汰的人中有8人不合格。该测验的总命中率、正命中率和负命中率分别是多少？
1、用积差相关系数的方法估计效度
– 克龙巴赫法（两套测验试题，对相同被试实施测试后，计算得分的相关系数） – 评分一致性考查法（不同评分者之间评分的一致性程度，即考查评分者信度） – 前后测对比法（根据前后两次测验的差异显著性，确定测验的内容效度）
• 统计分析法（定量的方法）
（二）结构效度的验证方法
• 结构效度是指一个测量能实际测量出理论上的构想或心理特性的程度。它的目的在于用心理学的概念来说明分析测验分数的意义，也就是说从心理学的理论观点就测验的结果加以解释和探讨。
– 目的：预测某个个体将来的行为
–而用大学一年级的成绩作为效标来检验高考的成绩，计算两者的相关系数就是高考的预测效度。
效标效度的估计方法
• 相关法
– 直接计算测验分数与效标分数的相关系数
• 积差相关、等级相关、二列相关等
• 显著差异法
– 根验分数是否具有统计学上的差异显著性

f ( y y ) 2 / N 1.12
4(9 5) 2(10 5) 1(5 1) 2203 2203/ 103 5.55 3.58 rxy 0.699 1.941.12 (3)相关系数较大，表明空间想像力测验成绩与立体几何学习成绩有较高的相关，前者对后者有一定的预测效度
表2-1：
（答对的题数） 1 2 3 4 5 6 7 8 9 10 所评的等级 A B C D E 5 4 3 2 1 1 2 4 1 1 3 1 1 2 6 5 2 1 1 8 9 1 1 3 10 5 4 2 8 4 3 1 8 3 1 1
解：（1）设期末考试的等第为y，空间想像力测验答对的题数为x，列出二重交叉次数分布表：
St 是该例连续变量全部变量值的标准差。 p是二分称名量表中一种的次数占总次数的百分比，q＝1－p。
X p或 X q是二分名称变量中“ 1”或“0”相对应的连续变量的平均数。
• 例：有一位教师自编了一套测验题，用来预测学生一年后的某科成绩，自编测验按百分制评分，一年后考试评分只把学生分为及格者和不及格者。试就所获资料估计自编测验的预测效度。 • 解：1)把两次测验成绩成对排列：
2、效度与信度的关系
根据公式（2-2）和（2-3），可将效度与信度的关系图解于后： σV2 σI2 σE2
高效度、高信度
σV2
σV2
σ I2
σI2 σE2
σE2
低效度、高信度
低效度、低信度
根据分析，可得结论如下:1)高信度是高效度的必要条件，而非充分条件。2)效度系数不会大于信度系数的平方根。可以用下式表示：
第三章
教育测量的质量指标
第二节效度
第二节效度
一、效度的意义二、效度的统计定义及其与信度的关系三、效度的分类及估计四、提高效度的方法
一、效度的意义
• 效度（Validity）
–测量结果的准确性和有效性的程度 – 一个测验或量表实际能测出其所要测量的特性的程度 – 记为：rxy
一、效度的意义
式中S x 是刚入学的测验各题答对题数的标准差， S x＝

f ( x x) 2 / N
x是刚入学的测验中答对 1道题到 10道题的人数的平均数， x＝（ 1 2＋2 4＋3 10 ＋9 5＋10 2） 103 ＝5.55 S x [2(1 5.55) 2 4(2 5.55) 2 2(10 5.55) 2 ] / 103 1.94 y是期末测验中 103人得分平均数， y＝（5 25＋4 31 ＋3 32＋2 9＋1 6） 103 ＝3.58 S y 是期末测验各人得分的标准差。 Sy
二、效度的统计定义及其与信度的关系 1、效度的统计学原理
在实际测量中，影响效度的主要因素是系统误差。因而在讨论效度时，还必须把真分数方差分解为两个部分，一是潜在真分数方差（σV2），另一部分是系统误差分数方差（σI2），它与由随机误差引起的变异（σE2）不同。
2 T2 V I2 (公式2 1) 2 2 2 2 因而， x V I E (公式2 2)
• 这里的结构的含义是心理学理论所涉及的抽象而属假设性的概念、构想、特性或变量，如智力、焦虑、机械能力倾向、成就、动机等。
（二）结构效度的验证方法
• • • • 建立理论框架从理论框架出发，提出各种假设根据假设编制测验以逻辑及实证的方法，检验结果是否符合心理学的理论框架及其假设 • 比如：中学生数学能力的研究 – 数学能力由分析能力、综合能力、归纳和演绎能力、运算能力、空间想象能力构成；数学能力与早期教育有关；数学能力与智力正相关。 – 编制测验，施测并收集测验结果 – 分析测验结果，考查测试的结构效度，考查测验结果是否支持理论构想
点二列相关
• 适用于一列数据为等距或等比且总体服从正态分布（实际上只需要单峰对称分布，如Ｔ分布），另一列变量是按事物的性质划分为两类的变量，也可以是一个双峰分布，人为划分为两类，如文盲与非文盲。这种相关系数多用于测验中评价题目的区分度。对选择题、判断题在整个测量中作用作出判断。 • 基本计算公式： X p Xq rpb pq 公式(2 - 6) St
• 估计内容效度的方法：
– 逻辑分析法（定性的方法） – 统计分析法（定量的方法）
（一）内容效度及其分析方法
• 逻辑分析法（定性的方法）
– 依据教材内容、教学大纲的范围以及教学目标分析测验内容，检查测验内容究竟在体现教材内容和教学目标方面达到多大程度 – 对每一道题目逐一进行审查，以此形成“题目双向细目表” – 与“命题双向细目表”加以对照，以确定试卷的效度