测验的信度与效度

合集下载

信效度判断标准

信效度判断标准包括以下几个方面：
信度：信度是指测验的一致性程度，即测验结果的一致性、稳定性和可靠性。

一般来说，信度系数在0.8以上被认为是可靠的。

效度：效度是指测验的有效性，即测验结果是否真实、准确地反映了所要测量的内容。

效度可以分为内容效度、结构效度和验证效度。

内容效度一般由专家评审，结构效度可以通过与其他已知效度高的测验进行对比来评估，验证效度则需要与其他已知效度高的测验进行对比来评估。

在具体实践中，可以采用重测信度法、复本信度法、折半信度法等方法来评估信度，采用专家评审、与其他测验对比等方法来评估效度。

同时，还需要注意以下几点：
测验的设计和编制要科学、合理，避免出现误差和偏见。

测验的实施和评分要规范、准确，保证测验的公正性和客观性。

数据的处理和分析要科学、合理，避免出现误差和偏见。

结果的解释和应用要准确、谨慎，避免出现误导和偏见。

总之，信效度判断标准是评估测验质量的重要指标，只有经过科学、合理的评估和验证，才能够保证测验的有效性和可靠性。

关于调查问卷的信度和效度检验

关于调查问卷的信度和效度检验（一）信度1 、信度的含义测验的信度又称测验的可靠性 , 是指同一个测验对同一组被试施测两次或多次 , 所得结果一致形程度。

一个好的测验必须是稳定可靠的 , 多次使用所获得的结果是前后一致的。

例如 , 用直尺测量长度 , 其结果是稳定可靠的 ; 用橡皮筋测长度则是不可靠的 , 前后测量结果缺乏一致性。

在测量理论中 , 信度被定义为 : 某次测验分数的真变异数与总变异数( 即实测分数 ) 之比 :22S R xxx ST = 式中 Rxx 表示测量的信度 ,ST 2 代表真分数的变异数 ( 方差 ),Sx 2 表示实得分数的变异数 ( 方差 ) 。

For personal use only in study and research; not for commercial use从上式可看出 , （ 1 ）信度是指实测值和真值相差的程度 , 实测值是指对某物实际进行测量时所获得值 , 也称实测分数 (X); 真值是指被测事物的真实规模取值 , 也称真分数(T) 。

由于各种原因 , 实得分数常不等于真分数 , 两者之差称为测量误差或误差分数(E) 。

从理论上看 , 实得分数由真分数和误差分数两部分组成即 :X=T+ERxx 就是对一组测验数据的实测分数与真分数相差程度的最好估计。

（ 2 ）信度又是指相同的测验对相同的被试再次测量时引起的同样反应的程度。

如果两次测验中 , 受测者所得分数或所处等级前后一致 , 则说明测验结果的信度较高 ; 反之 , 两次测验结果一致性低 , 说明测验结果的信度低。

For personal use only in study and research; not for commercial use信度是任何一种测量的必要条件 ( 但不是唯一条件 ), 只有测量值接近或等于真值 , 用同一工具多次测量同一特性获得相同或相近的结果 , 才能认为这个测量结果是可靠的。

第二章教育测验信度和效度

20
第三节效度
一、定义
（一）效度的语词定义
效度（validity），指测验的有效性，即量表
实际测量出其所要测量的特性或功能的程度。
（1）效度的相对性
效度和测验目的相关，“这个测验测量什么东
西，以及它在什么程度上测量到所要测量的东西”。测验结果总有一定的效度，只是高低不同。
（2）效度是测验系统误差和随机误差的综合反应。
11
复本信度（alternate-form reliability）
（1）定义：复本信度是指同一组被试在复本测验上所得结果的相关系数。
复本测验，又称等值测验，是指在性质、内容、题型、题数、难度等方面都一致的两份或多份测验。
（2）计算方法：积差相关系数
（3）说明：
1．两个测验必须是等值的，这点比较困难。
2．测验时间间隔的确定，应综合考虑练习效应、迁移效应来确定，应尽可能短；如果有适当时间间隔，也可称作等值稳定性系数。
3．适用于速度测验，也适用于难度测验，是考察信度最可靠、使用最广泛的方法。
4．有高估信度系数的倾向。
2021/2/22
12
内部一致性信度
一、二分记分法的测验（0，1，对错，有无等）
9
180 52
10 165 45
∑ 2021/2/22
10
身高X 1 170 2 173 3 160 4 155 5 173 6 188 7 178 8 183 9 180 10 165 ∑ 1725
2021/2/22
体重 Y X2
Y2
50 28900 2500
45 29929 2025
47 25600 2209
信度一般以两次测验的相关系数来表示。相关系数代表了两组分数之间的对应程度或关系。

信度、效度、难度、区分度

信度、效度、难度、区分度一、信度(稳定性)信度是表明评价工具质量的又一重要指标，主要指测验结果的前后一致性程度。

(多次测量的一致性)根据影响信度的不同因素，可以把信度分为以下几类，信度指标通常用相关系数表示。

1.再测信度用同一种测验在不同时间里两次测验同一组学生，然后统计两次测试成绩的相关，求得的相关系数即为再测信度系数。

信度系数的最大值为1，表示再测信度最高;最小值为0，表示再测信度最低。

2.分半信度将一个测验分为等质量的两半，求这对半分的两半测验所得分数的一致性程度，即为分半信度。

3.评分者信度把相同的测验结果提供给不同的评分者打分，若不同评分者给的分数大致相同，说明该测验有较高的信度。

二、效度(准确性)效度是指一个测验或测量工具能真实地测量出所要测量的事物的程度。

一次测验是否有效，主要看其是否能准确地测量所要测量的东西。

测验的效度有多种类型，主要有内容效度、构想效度和预测效度。

根据不同的需要，一个测验可以采用一种或几种效度。

1.内容效度所谓测验的内容效度，是指它从需要测验的教材中提取样本的适当程度。

内容效度的高低，取决于测验题目的代表性，要看选出的题目能否包含所测量内容范围的主要方面，并使各方面题目比例适当。

2.构想效度所谓测验的构想效度，是指一个测验能够测量理论上的构想或内在心理特性的程度。

3.预测效度所谓测验的预测效度，是指一个测验能够预测学生将来某种特定行为或表现的程度。

预测得越准，效度就越高。

例：在小学低年级的某次测验中，由于数学试卷中试题的文字表述过于复杂，学生不能完全理解题干的要求，也不能正确的解答题目，以至于该试卷无法正确测量学生数学学习的状况。

据此可以判断这次数学测验是( )A.高信度的B.低信度的C.低效度的D.高效度的【答案】C。

解析：信度强调某一次测验前后多次测量所得结果的一致程度。

效度强调某一测验的测量结果的有效性和准确性。

该试卷无法准确测量学生学习的状况，说明这次教学测验是低效度的。

第4章测量的信度与效度

2 2 X T2 E
实得分数的方差等于真分数的方差与误差方差之和。
调研人员应运用所掌握的统计知识，分析其是属于系统误差还是属于随机误差。系统误差会使调查结果有误，所以应尽量避免。随机误差可通过提高样本代表性、增大样本量来减少。
信度一般规定是：真分数的方差在总体方差中所占的比重，即信度系数：
当题目间的相关系数越大时，α系数也会越大。当题目数目n越多时，S
2 H
n 值越大，越接近于0， 2 SH n 1
2 S i
越接近于1，故α系数也会越接近于1。
要做信度分析须先检查每个题目是否都是同方向的，即都是正面问法，反向问题需要做处理后才可以加入分析。
在计算α系数时，应该注意有些调查量表测量的内容包含几个领域，这时宜分别计算各个领域的α系数。克朗巴哈α系数适用于项目多重计分的测验数据或问卷数据，可以用该系数测量Likert量表的信度。在基础研究中，信度至少应达到0.8才可接受；在探索性研究中，信度只要达到0.7就可以接受；在旅游调查测量实践中，信度只要达到0.6即可接受。 α系数通常与量表题目数量有关，题目数量越多，α系数就越大。
理想（甚佳，信度佳（信度高）很高）非常理想（信度非非常理想（甚佳，常好）信度很高）
二、克朗巴哈 α系数的手工计算
以一份有8个题项的量表为例，8个题项均为正向题，受试样本数有6位，采用Likert 5点量表填答，获得调查结果如下表：
题号样本
量表试题
01 5 5 5 5 5 4 02 1 1 2 1 1 1 03 2 2 2 2 2 1 04 5 4 5 5 5 5 05 2 3 3 3 3 3 06 5 5 5 5 5 4 07 4 5 5 5 5 4 08 3 2 2 3 2 2 总分 27 27 29 29 28 24

如何区分信度、效度

如何区分信度、效度、区分度一、效度效度是指一个测验或测量工具能真实地测量出所要测量的事物的准确性。

效度强调的是准确性。

例如：1、老师想要测量小学二年级学生的语文水平如何，拿来一张适合二年级水平的试卷进行测试，说明该测试效度较高。

2、老师想要测量小学二年级学生的语文水平如何，但拿了三年级的英语试卷，说明该测试的效度低。

二、信度信度主要指测验结果的前后一致性程度。

也就是说多次测量结果相似或者相近。

多次测试结果稳定性的体现。

例如：1、老师拿同一张试卷测试所教两个班级，测试结果相似，那么说明该测试信度较高。

2、小明早上起来用家里的电子秤称体重为45公斤，中午也是59公斤，说明该测试的效度低。

效度和信度主要区别：效度是否高主要测量工具能真实地测量出所要测量的事物的准确性，而判断正确的标准就是测量工具是否可靠，比如：老师想要测量小学二年级学生的语文水平如何，但拿了三年级的英语试卷，这个测量工具—试卷就是不可靠的，因为三年级的英语试卷不能准确测量出二年级的语文水平，测量工具不可靠，说明准确性不高，从而效度低。

信度主要的多次测量做对比，因此它测量的结果常常是两个以上，比如上述例题中，两个平行班级的最终测试结果、早上和中午的体重数值，这都是有两个结果，这样才能进行对比，通过对比来判断测量结果的相似性，如果相似性程度高，说明信度高，如果相似性程度低，说明信度低。

三、难度难度指测验的难易程度。

在教学测量中，通常用答对或通过测验的人数比例作为难度值。

四、区分度区分度有时也称鉴别力，主要指测验对于不同水平的被试加以区分的能力。

一般来说，要有区分度，要满足以下两个条件：1、在试卷题型分布中：包含有不同难度的试题，才能提高区分度，拉开考生得分的差距；2、从试卷整体的难易成都上来看，中等难度的试卷，比较能拉开区分度。

考题预测：。

效度和信度如何区分

信度与效度的区分1.效度：指的是一个测验能否真实准确地反应所要测量事物的程度，简单来说，可以理解为某测验测量准确与否的问题，因此也是衡量一个测验优劣的最重要的指标。

效度的内涵及其地位考试中也常以内涵型或地位型单选题、判断题形式考察，需要大家能够理解识记。

2.信度：同一测验多次测量，测量结果的一致性、稳定性与可靠性程度，这一概念内涵尤其是其中的可靠性，考试中常被归为效度以判断形式考察，需要重点掌握。

同时，考试中经常考察测验长度(即测验题量的多少)对测验信度的影响，因此二者关系也需要大家掌握。

一般来说，增加同类题目的测验长度，增加题目的代表性，是提高信度的一个有效办法，当然也要避免过犹不及的现象，测验题目过长反而会干扰测验信度。

效度vs信度关于效度和信度的关系，也是常考的一个难点：信度高的，效度不一定高;效度高，信度一定高。

下面将通过一个生活中的例子帮助考生理解。

小明用一个坏了的体重计测体重，多次测量得到的结果都是20公斤，而小明的实际体重应该是60公斤。

测量得到的结果一致性很高，说明这个测验的信度高。

但这个体重计却并没有准确地测出小明的真实体重，说明这个测验的效度低。

总结一下就是，当一个测验信度高的时候，效度不一定高。

如果小明用一个正常的体重计，多次测量得到的结果都是60公斤，也就是小明真实的体重。

这次测验准确测出了小明的体重，且结果保持一致，也就是说效度高、信度也高。

在一定时间内，真实结果一般是保持相对稳定的，因而只要能测出真实结果，多次施测结果就会保持较高的一致性，即效度高、信度一定高。

理解了信度和效度的内涵，大家就可以去推断二者的关系，主要包括以下几种：1.高效度一定高信度——测量准确即可八正测量结果的稳定和可靠2.高信度不一定高效度——测量结果稳定并不能保证结果的准确，如拿高三数学卷子测试小学三年级孩子的数学水平，测试多次结果均为0.信度高，但并不能说小学三年级孩子没有数学能力。

3.低效度不一定低信度——道理与高信度不一定高效度一致。

效度信度

效度信度信度是指使用同一试卷对考生重复测验时，或两个平行试卷对考生测验时，所得测验分数的一致性和稳定性程度。

效度是指考试有效性或正确性的质量指标，考试效度的高低反映着考试是否达到它的预定目的，是否考了要考的内容。

难度指试卷(题)的难易程度。

一般用试卷(题)的得分率或答对率表示，所以难度事实上是容易度或通过率。

其值在0,1之间，数值越大，说明试卷(题)越容易。

区分度是指试题对不同考生的知识、能力水平的鉴别程度。

如果一个题目的测试结果使水平高的考生答对(得高分)，而水平较低的考生答错(得低分)，它的区分能力就很强。

题目的区分度反映了试题这种区分能力的高低。

一般认为，区分度的数值达到了0.3，便可以接受;低于0.3的题目，区分能力差。

高考的性质决定了高考试题首先要保证信度，缺少信度或信度较低都无法向几百万考生交代，无法向考生家长交代，无法向社会交代。

从这一角度看高考试题所考查的一定是确定性和稳定性的内容，对于现在还没有被确定的内容或者说有争议内容是不能作为高考命题依据的。

你知道了吗,复习时，可不要让这样的问题浪费你的精力呀～同时要注意，有些题目看起来让你回答的是假设和猜想，你可不要忘记高考试题的确定性，不要得意忘形呀，还是老老实实从生物学的基本原理来回答，只有这样你才能得分。

OK～高考的效度要求高考试题是有效和正确的，考查的是考纲规定的内容。

你想想牵动着百万考生、千万家庭、亿万人员，如果哪位命题大人在命题中出了错误或者超出了考试要求，会怎么样呢,哪他可就大了，他将成为千夫所指，这样的事情是每一位命题人都不会干的。

鉴于此，我们的复习一定要紧紧盯住考试纲要，对考试纲要要求的内容理解、记牢，让它扎根心田;对于违背考试纲要或超出纲要要求的内容，则不要理睬;一些脑筋急转弯、文字游戏类的问题就让它见鬼去吧测试信度(test reliability)也叫测试的可靠性，指的是测试结果是否稳定可靠。

也就是说，测试的成绩是不是反映了受试者的实际语言水平。

1、下载文档前请自行甄别文档内容的完整性，平台不提供额外的编辑、内容补充、找答案等附加服务。
2、"仅部分预览"的文档,不可在线预览部分如存在完整性等问题,可反馈申请退款(可完整预览的文档不适用该条件!)。
3、如文档侵犯您的权益，请联系客服反馈,我们会尽快为您处理(人工客服工作时间：9:00-18:30)。

的測量 • 折半信度（split-half reliability）：測驗題目依題目的單雙數或其他方法分成兩半，計算受測者在兩半測驗上的分數的相關係數。
– 優缺點？
信度的類型
• 評分者間信度(inter-rater reliability)：
– 不同的評量者的觀察、紀錄、評分的一致性。 – 傳統：相關係數、同意百分比法 – 近代：類推性理論

反映測量工具本身內容廣度的適切程度，強調測量內容(教材內容或預期的行為)的廣度、涵蓋性與豐富性，以做為外在推論的主要依據。針對測量工具的目標和內容，以系統的邏輯方法來詳細分析，又稱為邏輯效度（1ogical validity）表面效度（face validity），指測量工具在外顯形式上的有效程度限制：出於邏輯判斷，缺乏實證的統計數據評估指標，需以判斷法來進行效度評估

實徵法（gathering

根據具體客觀的量化指標來進行評估
效度的類型

內容效度（content validity）效標關聯效度（criterion-related validity）建構效度（construct validity）
內容效度
（content validity）

內容效度
• 信度並非「全有或全無」，而是程度的問
題。若多次重複測量的結果都非常接近，則說明該評量結果信度高;反之，若各次評量結果的變異大，則信度低。
• 與物質、生理特徵的測量相較，心理測驗
的測量精確度較低。 • 誤差來源
– 個人狀況(身體不適、大意) – 題目本身的合宜性(太難、太容易) – 測驗情境的影響(實施、計分的錯誤)
0 2 1 1 2 0 1 1 1 9 11 18.3
2 0 2 1 1 1 0 0 1 8 10 16.7
1 1 1 2 1 1 1 0 1 9 14 23.3
1 2 1 1 2 2 1 1 1 12 15 25.0
0 2 1 1 1 1 1 0 1 8 10 16.7
4 7 6 6 7 5 4數與真正分數
• 實得分數(X)=真正分數(T)+誤差分數(E) • 實得分數變異數(S2X)=真正分數變異數
( S2T)+誤差分數變異數(S2E )
• 信度變異= S2T/ S2X
信度的類型
信度的類型
• 再測信度（test-retest reliability）
– 係指以同一種測量工具，對同一群受試者，前後測驗兩次的相關係數。又稱穩定係數。通常時間越長，再測信度越低 – 常見於：智力、性向、人格等測驗 – 通常個別化診斷測驗信度係數須達.90，團體測驗為.80，篩選測驗為.60 – 優缺點？
效標關聯效度意義
（criterion-related validity）

效標關聯效度測驗分數與外在效標之間的一致程度外在效標：測驗所要測量的某些行為或特質的代表量數又稱實證效度、統計效度。以測驗分數和特定效標（criterion）之間的相關係數，表示測量工具有效性之高低。個別測驗效度係數小於.70，團體測驗效度係數小於.60，就需要謹慎地解釋
4 7 6 6 7 5 4 2 19
6.7 11.7 10.0 10.0 11.7 8.3 6.7 3.3 31.7
60 100
提高內容效度的方法

列出教材內容各項重點與所要測量的學習結果或行為各項教材重點和學習結果要以相對的重要性來加權依據雙向細目表來編製測驗，所編製的測驗越符合細目表各細格所佔的比重，則內容效度越高。
信度的類型
• 複本信度（a1ternate-form reliability）
– 同一群受試者接受兩種複本測驗的得分之相關係數。 – 複本常見於團體化測驗，可相互替代使用(例如前後測)，使用便利 – 複本測驗需要在內容、型式、題數、難度、測驗指導與時間等都需要與原測驗相等， – 主要誤差來源：內容取樣、時間間隔、練習效果、學習遷移 – 優缺點？
內容效度的判斷方式

專家效度雙向細目表

表格左方表示教學所欲達成的目標，上方表示教材內容範圍，並逐一檢視每一試題以考驗整份測驗之內容效度
雙向細目表
題數行為目標知識理解應用分析綜合評鑑情意技能簡答題總題數分數百分比
細胞能量代謝光合作用
內容範圍
呼吸作用生物分子總題數分數百分比
影響信度的因素
• 影響信度的關鍵因素是測量誤差，可以減低誤差的方法， •
即能夠提高信度。 – 基本原理：中央極限定理、測量標準誤、共變量的計算影響信度的因素 – 受試者因素（如受測者的身心健康狀況、動機、注意力、持久性、作答態度等變動） – 主試者因素（如非標準化的測驗程序、主試者的偏頗與暗示、評分的主觀性等等） – 測驗情境因素（測驗環境條件如通風、光線、聲音、桌面、空間因素等皆有影響的作用） – 測驗內容因素（試題取樣不當、內部一致性低、題數過少等） – 時間因素
效度
效度的意義

效度的意義
測量的正確性，指測驗或其他測量工具確能測得其所欲測量的特質或功能之程度測量的效度愈高，表示測量的結果愈能顯現其所欲測量對象的真正特徵

評估效度的方法

判斷法（informed

judgment）
測量特性與質的評估
of empirical evidence）
信度與效度

以打靶為例

信度(reliability)

測驗資料的可靠性測驗結果的真確性

效度(validity)

信度
信度的意義
• 測量的一致性(就內容而言)或穩定性(就時
間而言)，幾次測驗結果是否一致的程度 • 範例
– 一天之內以同一磅秤多次測量某人體重 • 結果一：大致相同→測量結果可靠 • 結果二：有顯著性的差異→測量結果不可靠
信度的類型
• 內部一致性係數（coefficient of internal consistency）
– 反映測量工具內部同質性、一致性或穩定度。同質性越高，代表量表試題是在測量相同的特質。常用方法有： – 方法 • 庫李(KR20)(1937)適用於二分變數(對錯)的測量 • Cronbach’s α(1951)適用於多元尺度變數(多元計分)