效应量的估计、报告和解释

  1. 1、下载文档前请自行甄别文档内容的完整性,平台不提供额外的编辑、内容补充、找答案等附加服务。
  2. 2、"仅部分预览"的文档,不可在线预览部分如存在完整性等问题,可反馈申请退款(可完整预览的文档不适用该条件!)。
  3. 3、如文档侵犯您的权益,请联系客服反馈,我们会尽快为您处理(人工客服工作时间:9:00-18:30)。

表 1 标准差异型 ES 指标的计算及使用
估计指标及公式
使用条件
d
=
M1
- M2 σ^
,σ^ 为任意组的样本标准差*
Δ
=
M1 - M2 scontrol
,scontrol 为控制组标准差
Δ1
=
wenku.baidu.comM1
- s1
M2
,并 Δ2
= M1 - M2 s2
g
=
M1 - M2 spooled
,spooled
[ 槡 ] g = corrected
差分 析 中 的 η^ 2 等。 这 些 统 计 量 具 备 以 下 特 性[10 : - 12] 1) 尺度不变性( scale free) 。如果观测数据 的尺度单位发生变化,ES 估计值仍保持不变。2) 绝
可直接用于反映 ES 大小,且它比那种标准化的测 量指标所传递的信息更生动[3]。但在心理学中,大 多数研究现象较为抽象,其测量单位由人为设定,且
顾名思义,标准差异型( standardized differences
图 1 ES 大小与两假设分布重叠面积的对应关系
对每种具体的 NHST 而言,都有与其相适应的
type) 指标以标准化的差异单元来衡量总体 ES。在 某些情况下,测量单位本身具有实际意义,各组别原
ES 估计指标,如均值差异显著性检验中的 g 值,方 始分数差异( 如实验组与控制组的日吸烟量之差)
组内设计情况下几种典型标准差异 ES 指标的计算公 式及适用条件[11 - 14]。SPSS 软件尚未提供这些指标
一般建议在满足方差齐性的前提下,更多地考虑 g 指标。因为相比 d 或 Δ ,g 值对总体 ES 的估计偏差
的计算机生成程序,因此还需研究者手动计算。
更小( less biased) ,估计更有效 ( smaller variance) ,
据 Kirk( 1996) 总结,统计学家已经发展出了至 少 40 多种 ES 估计指标,并对估计结果的报告和解 释形成了一定规范[1]。遗憾的是,这些方法学期刊 中的知识对国内心理学工作者的影响似乎不大。国 内研究报告中,基于 NHST 的数据分析仍占统治地 位[5]。对于这种不尽人意的情况,存在两种可能的 解释: 第一,应用工作者对 NHST 的结果尚存在一定 程度的误读[6],如将统计显著性 ( statistical significance) 曲 解 为 实 际 重 要 性 ( practical significance) 。 第二,在有关 ES 的国外文献中,很多涉及高度专业
Cohen( 1988) 将 ES 定义为“总体中存在某种现 象的程度”; 具体到 NHST 体系中,ES 即“虚无假设 H0 错误的程度”[9]。这种错误程度可形象理解为虚 无假设 H0 和备择假设 H1 所代表的两抽样分布分离 程度或面积重叠程度。如图 1 所示,ES 越大,H0 偏 离 H1 而犯错误的程度越明显,两分布的分离程度越 高,重叠面积越小,反之亦然。这样,对 ES 的考察 能告诉读者一些不同于 NHST 结果的信息。NHST 仅能回答抽 样 所 得 均 值 差 异“是 否 ”由 偶 然 误 差 引 起,或结果“是否”具备统计显著性之类的方向性信 息。如总体均值间的差异到底有多大,变量间的关 联强度如何,自变量能在多大程度上解释因变量等, 而这类证据强度信息正是人们在推断总体参数时所 希望了解的。
关键词:效应量; 实际重要性; 虚无假设显著性检验
中图分类号:B841. 2
文献标识码:A
文章编号:1003 - 5184(2011)03 - 0260 - 05
虚 无 假 设 显 著 性 检 验 ( null hypothesis significance testing,NHST) 是心理学研究中普遍使用的统 计程序。然而,在 NHST 存在的 70 余年间,人们围 绕其逻辑、功效等问题争议不断[1]。虽然期间有不 少观点主张取缔 NHST,但近年来研究者们趋于认 为如果合 理 利 用 NHST,同 时 辅 以 其 他 数 据 信 息, NHST 仍有其实用性[2]。其中估计结果的 ES 大小 是常见的改进方案之一。美国心理学会( American Psychology Association,APA) 召集成立的统计推断专 责小组曾呼吁研究者“无一例外地将 ES 估计值作 为主要的结 果 呈 现 ”,并 强 调 这 类 数 据 有 助 于 今 后 进一步的效力分析( power analysis) ** 和元分析[3]。 之后第五版和第六版 APA 写作手册也提醒笔者: “为了使读 者 意 识 到 研 究 结 果 的 重 要 性,有 必 要 在 结果部分对 ES 进行测量”[4]。
联强度型 ES 指标的计算公式及使用条件,并说明关联强度型指标在 SPSS 软件中的操作。其次,
强调 ES 估计结果的两个报告原则,即明确指出所计算的是何种 ES 指标,尽可能地呈现 ES 的置信
区间。在 ES 的解释方面,建议研究者结合具体情况综合权衡结果的实际重要性,而非机械援引各
种所谓“小”、“中”、“大”的 ES 判定准则。
运行 Crosstabs 程序,从 Statistics 框中勾选 Phi and Cramér’s V
同上
运行 Correlate 中 的 Bivariate 程 序,从 Correlation Coefficients 框 中勾选 Pearson**
1- 4( n1
= SS1 + SS2
3
df1 + df2 g
+ n2 ) - 9
d
=
MD σ^
,σ^ 为任意测量条件的样本标准差
Δ
=
MD spretest
,spretest 为前测条件的样本标准差
Δ1
=
MD s1
,并 Δ2
= MD s2
槡 g
=
MD spooled
,spooled
=
SS1 + SS2 df1 + df2
槡2( 1 - r12) ( 其中 r12为两测量条件的积差相关) ,因此 Gibbons 等人的 gD 与 Hedges 的 g 指标关系为 gD = g / 槡2( 1 - r12) 。
262
心理学探新
2011 年
表 1 总结了均值差异显著性检验中,组间设计和
另外,在选择指标时,除了关注表 1 所列条件,
非严格意义的组内设计** ,且两测量条件总体方差齐性 非严格意义的组内设计,且理论上能区分出前测条件和 后测条件 非严格意义的组内设计,且理论上无法区分出前测条件 和后测条件,两 测 量 条 件 方 差 不 齐 性,此 时 需 同 时 报 告 两种可能的 Δ 值
非严格意义的组内设计,且两测量条件总体方差齐性
对值大小与证据强弱相一致。ES 指标的绝对取值 同一构念的各种度量标尺会因操作定义的不同而难
是一个从零开始的连续变量,其大小与结果的实际 以直接比较。此时研究者必须借助标准化的差异指
重要程度相对。当虚无假设 H0 为真时,ES 理想的 估计值为零。3) 非样本量依赖性。通常,ES 指标较
标来衡 量 效 应 大 小,甚 至 比 较 不 同 参 照 体 系 中 的 ES。
df1 + df2 1 - r2pb
1 +1 n1 n2
,rpb 为点二列相关系数( 也见表 3)
组内设计
槡 g = t
2s2D n( s21 + s22 )
槡 当 s21 = s22 时,有 g = t
2(
1
- n
r12 )
,r12 为两测量条件的积差相关
然而,在大样本研究中,对 d、Δ 和 g 的计算结 议不大[16]。也正因如此,在大样本情况下,使用未
槡 槡 rpearson =
t2
t2 + df
=
F F + df
使用条件 / 对应的 NHST
SPSS 操作
卡方检验中的四格表分析
卡方检验中的 R × C 列联分析
组间设计的均值差异显著性检验; 或组间设计的单因素两水平方差分 析; 或点二列相关的显著性检验 组内设计的均值差异显著性检验; 或组内设计的单因素两水平方差分 析; 或积差相关的显著性检验
槡 gD
=
MD sD
,sD
=
SSD *** dfD
[ ] g = corrected
1

3 4N -
9
g
组间设计
两组别总体方差齐性
理论上能区分出控制组和实验组 理论上无法区分出控制组和实验组,且两组别总体方差 不齐性,此时需同时报告两种可能的 Δ 值 两组别总体方差齐性
小样本情况下基于 g 值的矫正 组内设计
**非严格意义的组内设计是指对同一因素的考察在理论上允许以组间设计替换。此时对 ES 的估计类似于组间设计
的情况。但对那种关注测量变化量的严格意义的组内设计而言,建议基于差异分数 D 而非原始分数来计算分母标准差。这 体现出对研究主题本身的理论思考[14]。
***gD 是 Gibbons,Hedeker 和 Davis( 1993) 将 Hedges 基于组间设计的 g 指标研究扩展至组内设计而成[13],由于 sD = spooled
第 31 卷第 3 期
卢谢峰等 效应量: 估计、报告和解释
261
少受样本容量的影响,从而能为各列观测数据的关
系程度提供更为稳定可靠的考察。
在此,文章并不对所有的 ES 指标逐一介绍,而
是在目前通用的分类框架下,探讨那些最常用且易
于理解的估计指标,具体分为标准差异型和关联强
度型两类。
1. 1 标准差异型 ES 指标
果相近,且估计偏差变得十分微小,选用何种指标争 经矫正的公式便足以估计总体 ES。
表 3 关联强度型 ES 指标的计算及使用
估计指标及公式*
非平方尺度
槡 φ^ =
χ2 n
槡 V =
χ2
min( R - 1,C - 1) × n
槡 槡 rpb =
t2
t2 + dfwithin
=
F F + dfwithin
心理学探新 2011,Vol. 31,No. 3,260 - 264 PSYCHOLOGICAL EXPLORATION
效应量: 估计、报告和解释*
卢谢峰 唐源鸿 曾凡梅
( 湖南师范大学 教育科学学院,长沙 410081)
摘 要:鉴于心理学界对效应量( effect size,ES) 的日渐重视,本文集中探讨了标准差异型和关
* 基金项目:湖南师范大学社会科学青年学术骨干培养计划项目( 09XGG23) 。 ** 效力( power) 即成功拒绝错误的虚无假设的概率,抑或正确获得统计显著性结果的可能性。效力分析则是一种利用效力与样本量、显 著性水平、总体 ES 之间的函数关系来评估某具体 NHST 效力高低的技术。目前,效力分析所面临的一个棘手问题是估计总体 ES,这至少部分 是由于人们对 ES 的长期忽视所致[10]。有关效力与 ES 的关系分析可参见胡竹菁( 2010) 《平均数差异显著性检验统计检验力和效果大小的估 计原理与方法》。
分略有差异。不同的设计类型及统计前提下,基于 未报告样本平均数或标准差) 的二手数据时,以下
不同的理论思考,各指标对总体标准差异单元的估 公式尤为便利。
计策略有所不同。
表 2 g 值与 t 值、r 值间的转换
设计类型
g - t 转换
g - r 转换
组间设计
槡 g = t 1 + 1 n1 n2
槡( )( ) g = r2pb
严格意义上的组内设计
小样本情况下基于 g 值的矫正
注: * 在 d 值的实际计算中,也常用 槡( SS1 + SS2 ) / ( n1 + n2 ) 作为两总体联合标准差 σpooled 的有偏估计量[15,16],此时 d 和 g 的关系有 d = g 槡( n1 + n2 ) / ( df1 + df2 ) 。
的术语和操作,对那些有意愿作出改进的非统计专 业人员来说,学习这些知识需花费不少精力。而国 内仅有胡竹菁( 2010) 、权朝鲁( 2003) 等少数学者专 门关 注 此 问 题,介 绍 ES 的 意 义 和 基 本 估 计 原 理[7,8]。总而言之,ES 在国内所获得的关注度与其 重要性远不相匹配。有鉴于此,文章在整理国外已 有成果的基础上,继续对 ES 的概念、计算操作、报 告和解释原则加以阐述,旨在推进国内研究者的统 计分析和数据挖掘工作。 1 ES 的概念及估计指标
总体而言,Cohen 的 d 值、Glass 等人的 Δ 值及 且充分利用了全部的观测数据。鉴于该指标对参数
Hedges 的 g 值是三种常见的标准差异型 ES 估计指 的良好估计特性,表 2 进一步给出了 g - t 和 g - r 的
标。在具体计算中,这三种指标的分子相同,分母部 转换公式[14,16]。在整理那些缺乏足够描述信息( 如
相关文档
最新文档