问卷的信度和效度分析

  1. 1、下载文档前请自行甄别文档内容的完整性,平台不提供额外的编辑、内容补充、找答案等附加服务。
  2. 2、"仅部分预览"的文档,不可在线预览部分如存在完整性等问题,可反馈申请退款(可完整预览的文档不适用该条件!)。
  3. 3、如文档侵犯您的权益,请联系客服反馈,我们会尽快为您处理(人工客服工作时间:9:00-18:30)。

来评价。 设有 K 个评价者, N 个受测者, 将欲测定的量表的得
分变异 (SS) 分解为评价者间得分变异 (BSS)、 评价者内得分
变 异 (WSS) 和 误 差 (ESS) 3 部 分 , 由 于 主 要 分 析 评 价 者 间
的 变 异 , 将 WSS 与 ESS 合 并 为 WSS, 按 随 机 效 应 方 差 分 析 模
响越小。 这里的重复测量有两个缺陷[2]: 首 先 , 研 究 对 象 的 特
征可能随时间发生变化, 那么两次测量的差异就不单纯由误差
引起; 其次, 重复测量受前一次测量的影响, 不一定能真实反
映研究对象的特征。 因此, 重复测量的间隔时间不宜太长, 也
不 宜 太 短 , 多 数 学 者 认 为 以 2~4 周 较 为 合 适 , 样 本 量 通 常 为
20~30 人 。 有 学 者 [3]指 出 重 测 信 度 法 特 别 适 用 于 事 实 式 问 卷 ,
如个人一般信息即性别、 出生年月等在两次施测中不应有任何
差异, 大多数被调查者的兴趣、 爱好、 习惯等在短时间内也不
会有十分明显的变化, 如果没有突发事件导致被调查者的态
度、 意见突变, 这种方法也适用于态度、 意见式问卷。
相关系数 rh (即半个量表的信度系数), 最后用斯皮尔曼-布朗 (Spearman-Brown) 公 式 (r=2rh / (1+rh)) 求 出 整 个 量 表 的 信 度 系数 r。
1.4 内部一致性信度
内 部 一 致 性 信 度 (internal consistent reliability) 是 目 前 比
1 信度 信度 (reliability) 主要评价量表的精确 性 、 稳 定 性 和 一 致
性, 即测量过程中随机误差造成的测定值的变异程度的大小。 常用的信度指标有重测信度、 复本信度、 折半信度、 内部一致 性信度和评价者间信度。 1.1 重测信度和评价者间信度
重复测量: 如果采用一个问卷由同一人在同一群体中测量 两次, 评价两次测量的相关性, 则称为重测信度, 应用广泛, 一 般 而 言 , 重 测 信 度 系 数 能 达 到 0.70 以 上 即 可 ; 如 果 采 用 一 个问卷由不同的评价者在同一群体中进行测量, 从而计算不同 评价者间的一致性, 则称为评价者间信度, 误差主要来源于调 查员对问卷理解的差异及其对研究对象的影响, 如果量表是自 评而不是他评, 则不需要计算评价者间的一致性。
分间的一致性。 这种方法一般不适用于事实式问卷 (如年龄与
性 别 无 法 相 比 ), 常 用 于 态 度 、 意 见 式 问 卷 的 信 度 分 析 [3]。 进
行折半信度分析时, 如果量表中含有反意题项, 应先将反意题
项的得分作逆向处理, 以保证各题项得分方向的一致性, 然后
将全部题项按奇偶或前后分为尽可能相等的两半, 计算二者的
ICC。 一 般 来 说 , ICC 大 于 0.75 表 示 极 好 , ICC 在 0.6 到 0.75
表 示 较 好 [4]。
1.2 复本信度
复 本 信 度 (equivalent-form reliability) 也 称 替 代 信 度 (al-
ternative -form reliability) 或 平 行 信 度 ( parallel -form reliabili-
内部一致性的量表。
巫秀美等[5]在 “因子分析在问卷调查中 信 度 效 度 评 价 的 应
用” 一文中指出: 克朗巴赫 α 系数法的应用条件为: 问卷的所
有 题 目 必 须 是 平 行 (Parallel)、 共 性 的 , 即 所 有 题 目 须 测 量 同
一种现象, 并以相等程度解释该现象的变异量。 一般的问卷通
1.3 折半信度
折 半 信 度 (split-half reliability) 法 是 将 调 查 项 目 分 为 两
半, 计算两半得分的相关系数, 进而估计整个量表的信度。 此
法要求二者方差齐性, 且折半的方式不同得到的相关系数值亦
不同[5]。 折半信度属于内部一致性系数, 测 量 的 是 两 半 题 项 得
表条目的内容范围。 一个具有较高内部一致性的量表, 未必就
是一个好的量表。 只要将同一测题以各种不同的说法写出来,
就可以得到很高的内部一致性。 但显然, 这种量表仅测量了一
个极端狭窄的方面, 未必能全面反映测量目标。 如果量表包含
的内容范围较广, 内部一致性一般会有所降低。 量表研制者追
求的, 是既能全面反映测量目标 (内容范围足够大) 又有较高
Omega 系数法则可提供较准确的估计值。 其计算步骤为: 先对
问卷得分的相关矩阵求解, 用最大特征值构造的统计量为 θ 系
况下的特例。 克朗巴赫 α 系数为:
2
2
α= K K-1
Σ 2
2
2 2
Si
221-
22 2
2
S
2 2 2 2 2 22 2
(6)
2
式中, K 为整个量表或子量表的条目数, Si 为第个条目的
2
方差, S 为整个量表或子量表得分的方差。 当一份量表包括几
个互不相关的内容, 即几个不同的分量表, 则应分别计算每个
α 会很容易地升至 0.90 以上; 如果量表的条目减少, α 会随之
降 低 , 一 个 4 个 条 目 的 量 表 , α 有 时 可 能 会 低 于 0.60 或 0.50。
因此, 判断量表信度时, 首先应当了解该量表条目的数量, 然
后再以此为基础, 判断 α 是否达到了可以接受的水平。 ② 量
型可得:
ICC=
BMS-WMS BMS+ Σ K-1 Σ WMS
Fra Baidu bibliotek
(5)
根 据 方 差 分 析 很 容 易 地 得 到 BMS 和 WMS, 从 而 计 算 出
· 430 ·
现代预防医学 2010 年第 37 卷第 3 期 Modern Preventive Medicine, 2010, Vol.37, NO.3
常含有数个主题 (欲测概念), 或同一主题的不同侧面, 因此
无法满足此要求。 此外, 尽管问卷测量的概念可能仅为一个,
但其中每个题目所解释的变异量不尽相同, 若用 α 系数法, 在
结果解释方面便有局限性。 分析发现, 使用 α 系数法低估了整
份 问 卷 的 内 部 一 致 性 , 而 基 于 因 子 分 析 的 Theta 系 数 法 及
评 价 者 间 信 度 (inter-scorer reliability) 的 考 察 方 法 有 多
种, 当评估的变量是分类变量时, 可用 Kappa 系数 K 来评估:
K= P0-Pc
(1)
1-Pc
k
Σ P0= Aii N
(2)
i=1
k
Σ Pc= ni+n+i N2
(3)
i=1
式中, P0 为观察一致率, Pc 为机遇一致率, k 为分 组 数 或 等 级 数 , Aii 为 k×k 表 主 对 角 线 上 的 实 际 例 数 , ni+和 n+i 分 别 为 第 i 行 和 第 i 列 的 合 计 。 一 般 来 说 , Kappa 系 数 大 于 0.75 表 示
分量表的内部信度, 否则会降低问卷的内部信度。 倪宗瓒主编
的 《医学统计学》[1]一书中也指出: Cronbach’s α 系数最好用于
量表的低层结构 (如领域、 方面等子量表) 的信度考察, 通过
每个子量表的考察结果再来综合反映整个量表的情况, 而不宜
仅计算一个总量表的 α 系数。 原因是低层结构中的条目都是反
现代预防医学 2010 年第 37 卷第 3 期 Modern Preventive Medicine, 2010, Vol.37, NO.3
文 章 编 号 : 1003-8507(2010)03-0429-03
中 图 分 类 号 : R195.1
文献标识码: B
问卷的信度和效度分析
蒋小花 1, 沈卓之 2, 张楠楠 3, 廖洪秀 2, 徐海燕 2
0.6 表 示 内 部 一 致 性 较 差 。 但 是 在 判 断 问 卷 量 表 内 部 一 致 性 高
低时, 至少需要认真考虑以下两个因素[6]: ① 量表条目数量的
多 少 。 一 个 含 10 个 左 右 条 目 的 量 表 , 克 朗 巴 赫 α 应 能 达 到
0.80 以上; 如果条目增加, α 会随之升高, 条目多于 20 个时,
ty), 是 让 同 一 组 被 调 查 者 一 次 填 答 两 份 等 效 问 卷 , 计 算 两 问
卷测定结果的相关系数。 复本信度法要求两份问卷除表述方式
不同外, 在难度、 内容、 形式和对应题项的提问方向等方面要
完全一致。 该法可弥补重测信度的缺陷, 但在实际应用中, 很
难得到两份等效问卷, 因此采用这种方法者较少。
作 者 单 位 : 1.成 都 市 玉 林 社 区 卫 生 服 务 中 心 , 成 都 ; 2.四 川 大 学 华 西 公共卫生 学 院 卫 生 统 计 学 教 研 室 ; 3.成 都 军 区 总 医 院 医 务 部
小可知经过一段时间后测量结果的稳定程度, 重测信度越高,
测量结果越一致可靠, 也表明受测验环境中日常随机因素的影
映同一方面的特征, 相关性较高, 而总量表要考虑一定的 “覆
盖面”, 因而具有一定的 “异质性”。 如在生命质量测量中可以
分别计算心理功能、 躯体功能等领域的 α 系数, 在心理测量中
可以分别计算焦虑、 抑郁、 孤独等方面的 α 系数。
α 系数越大表示条目间相关性越好, 一般而言, α 大于
0.8 表 示 内 部 一 致 性 极 好 , α 在 0.6 到 0.8 表 示 较 好 , 而 低 于
较流行的信度评价方法, 是分半信度的推广, 反映了条目间相
关的程度, 这些条目应该反映同一独立概念的不同侧面。 根据
Cronbach 公式计算的为克朗巴赫 α 系数, 根据 Kuder-Richard-
son 公 式 计 算 的 为 K-R 系 数 , 后 者 是 前 者 在 0、 1 二 分 变 量 情
重复信度极好, 在 0.4~0.75 表示较好, 而低于 0.4 表示较差。
如果是等级资料, 可以用肯德尔和谐系数来表示:
Σ Σ N
2 N
Σ Σ 2 Ri -
Ri N
W=
i
=
1 2
K
i=1
ΣN3 -N
Σ12
(4)
式中, K 是评价者人数, N 是受测者数, Ri 是每个受测者
所得评价等级的总和。
如 果 是 连 续 变 量 或 等 级 变 量 , 则 用 内 部 相 关 系 数 (ICC)
重 测 信 度 (test-retest reliability) 又 称 稳 定 性 系 数 , 即 使 用同一测验, 在不同时间对同一群体施测两次, 两次测验分数 的相关系数。 根据所测定特质的数据表现方式, 可采用积矩相 关系数、 等级相关系数和列联系数等来表示。 从相关系数的大
作者简介: 蒋小花 (1982-), 女, 硕士, 研究方向: 统计方法在流 行 病学研究中的应用
· 429 · 【流行病与统计方法】
摘要: 进行问卷式调查研究的统计分析前, 应考评问卷的信度和效度, 以确保研究结果的可靠性和准确性。 本文对 问卷的信度和效度评价这一问题作了详细的探讨。
关键词: 问卷; 信度; 效度
倪 宗 瓒 主 编 的 《 医 学 统 计 学 》[1]一 书 中 指 出 : 一 般 来 说 , 凡是通过测量工具得到的结果, 无论是通过测定仪器得到的硬 数据 (如物理测定), 还是通过测定量表、 考卷得到的软数据 (如心理测定、 考试等), 均需进行信度和效度分析; 信度与效 度评价的对象可以是整个测定量表 (对整个量表评价), 也可 以是各个方面或领域 (对领域评价), 还可以是具体的条目 (对条目评价); 一般来说, 如果是标准化测定量表, 通常分别 进行总量表和各个领域的评价, 对包含各种条目的一般问卷, 很难进行整个调查表的考评, 一般就对某些条目或领域进行考 评, 并以此间接说明整个调查表的好坏。 在实际工作中, 如果 只是直接运用问卷调查的结果进行分析和推断, 而未对调查问 卷本身进行可信度和有效度的评价分析, 这就使得调查的准确 性、 统计分析结论的科学性以至于研究成果的质量不能不受到 影响及质疑。 本文主要介绍信度和效度的评价方法, 特别适合 于各条目均为线性方式或等级方式的问卷或量表。
相关文档
最新文档