多层线性模型简介两水平模型

  1. 1、下载文档前请自行甄别文档内容的完整性,平台不提供额外的编辑、内容补充、找答案等附加服务。
  2. 2、"仅部分预览"的文档,不可在线预览部分如存在完整性等问题,可反馈申请退款(可完整预览的文档不适用该条件!)。
  3. 3、如文档侵犯您的权益,请联系客服反馈,我们会尽快为您处理(人工客服工作时间:9:00-18:30)。
Y Xur specific to ij 0 1 ij j ij observation i in unit j
Outcome for observation i in unit j
Intercept
Residual term specific to unit j
Value of X for observation i in unit j
对多层数据,我们了解什么...
随机选取两个观测,同一组内的观测之间的相似性要 比不同组观测之间的相似性大;
如果回归模型不能解释所有的组间的差异(事实上传 统回归不可能做到这一点),那么同一组内的观测之间 的误差可能相关;
这就违背了传统回归(OLS)中关于残差相互独立的 假设;
至少,传统回归分析得到的标准误的估计不正确(太 小)。
0 j g 00 1 j g 10
HLM常用模型类型
随机系数回归模型(Random-Coefficients Regression Model)
第一水平 :
第二水平:
Yij0j1jXijeij
0 j g 00 u0 j 1j g 10 u1j
HLM应用举例
hsb1.sav和hsb2.sav 在水平一的数据文件hsb1.sav中,有7185个观测 样本和四个第一水平的变量(不包含第二水平 指标变量:学校编号ID),这四个变量所表示 的含义如下: minority,学生的种族(1=少数民族,0=其他) female:学生性别(1=女,0=男) ses:学生的社经地位,由学生父母受教育程度、 职业和收入合成,变量已被标准化 mathach:学生的数学学业成绩
Coefficient
uj表示什么?
残差项 定义第 j 组(第二水平) 对于第 j组的所有观测都相同 只有下标 j, 没有下标 i 解释: 总截距和第 j组的截距之间的差异
rij表示什么?
残差项 定义第 j 组第i 个观测 均值为0
模型的特征
注意到: 我们有:
ij = uj + rij
多层线性模型
截距与斜率之间的相关系数:
r(0j,1j )
01
1
(0011)2
截距与斜率之间的相关系数大小表示了不同学 校平均高考成绩与入学成绩对高考成绩影响强 度之间的关系,如果相关系数大于零,表示平 均成绩越高,入学成绩对期末成绩的影响越大。
HLM常用模型类型
随机效应一元方差分析模型(one-way Anova with Random Effect)
Var(ij)
= Var(uj + rij) = Var(uj) + Var(rij) + 2*Cov(uj,rij) = Var(uj) + Var(rij)
模型的特征
Yij 的值可能存在第二水平(组间)的差异 对于 uj和 rij没有定义其分布.
X 和 Y 之间的关系不依赖于 j (1 不依赖于 j)
Y ij01Xijujrij
Outcome for observation i in unit j
一个简单的多层线性模型
Y ij01Xijujrij
Outcome for observation i in unit j
Intercept
一个简单的多层线性模型
Y ij01Xijujrij
(4)对73所学校分别做回归分析, 得到如图4的结果,如图4所示,从 图中结果可以看出,不同学校回归 直线的截距和斜率均不同,即:不 同学校学生平均高考成绩之间存在 差异,入学学业成绩对高考成绩的 影响强度不同。
图4:考虑不同学校平均成绩差异 和入学对毕业成绩影 响程度差异的回归直线
回归模型中,如何解决残差相关 的问题?
Intercept
Residual term specific to unit j
Value of X for observation i in unit j
Coefficient
一个简单的多层线性模型
Residual term
Y Xur specific to ij 0 1 ij j ij observation i in unit j
模型的假设条件为:
( 1 ) eij~ N (0 ,2), eij间 相 互 独 立 ; ( 2 ) u u 1 0jj ~ N (0 , ), V u u a 1 0jj r 1 00 0 1 0 1 1
( 3 ) C(u o 0j,eiv )jC(u o 1j,eiv )j0, C(u o i1j,uiv 2j)0 ,j1j2
多层线性模型简介
Introduction to HLM
北京师范大学心理学院 刘红云
主要内容
为什么要用多层线性模型?
回归分析模型回顾 多层(多水平)数据特点
什么是多层线性模型?
HLM发展 HLM数学模型 HLM常见简化模型
两水平模型应用举例 应该注意的问题
回归分析模型
Yi 01Xii
独立性不满足带来的问题
传统回归系数估计的标准误依赖于 相互独立的假设;
如果独立性的假设不满足,得到的 标准误的估计往往偏小,因此所犯 第一类错误的概率往往偏大。
表1 当组内相关存在时,第一类错误限定 为0.05时,实际所犯第一类错误的概率
HLM数学模型
例如:对73个学校1905名学生进行调查, 目的是考虑其刚上高中时的入学成绩与 三年后高考成绩之间的关系。 考虑方法:
i ~N0,2
回归分析模型的假设
线性(Linearity) 误差正态分布( normally
distributed) 误差方差齐性(homoskedastic) 误差或观测个体之间相互独立
(independent)
什么是多层(多水平)数据?
多层(多水平)数据指的是观测数据在单位上 具有嵌套的关系。如学生嵌套于班级,班级嵌 套于学校等。
同一单位内的观测,具有更大的相似性。同一 个班级的学生由于受相同的班级环境等因素的 影响有更大的相似性。
嵌套于背景(contextual)特征 的多层数据举例
学生水平特征的观测,嵌套于班级或学校 兄弟姊妹特征的观测,嵌套于家庭 个体之间的观测嵌套于社区 个体不同时间点的重复测量嵌套于个体 病人嵌套于医院 参数的估计嵌套于不同的研究 (元分析,meta-analysis)
图2:只考虑学校差异忽略学生差异回归直线
HLM数学模型
(3)如果假设不同学校入学成绩对 高考成绩的回归直线截距不同,斜 率相同(平均学习成绩之间存在差 异),得到如图3的结果,从图中结 果可以看出,不同学校学生平均高 考成绩之间存在差异。
图3:考虑不同学校平均成绩差异的回归直线
HLM数学模型
多层线性模型
合并模型:
gg g g Y i j0 0 1 X i0 j0 W j 1 1 X i W 1 j j u 0 j u 1 j X i j e ij
其中:yij表示因变量(如三年后的 高考成绩),xij表示第一水平(学 生)的预测变量,Wj表示第二水平 (学校)的预测变量。
多层线性模型
HLM数据特点
对于嵌套数据,传统回归模型的做法: (1)个体(如学生)水平上分析
问题:同一班级的学生间相互独立的假 设是不合理的,同样对不同班级的学生 和相同班级的学生作同一假设也是不合 理的。 (2)组(如学校)水平上分析 问题:丢失了班级内学生个体间的差异 的信息。
HLM数据特点
对于嵌套数据,传统回归分析的假设往 往无法满足。 传统的线性回归模型假设变量间存在直 线关系,因变量总体上服从正态分布, 方差齐性,个体间相互独立。前两个假 设较易保证,但方差齐性,尤其是个体 间相互独立的假设却很难满足。
多层线性模型
回归模型的一种 常用来回答背景变量(如班级环境等)与个体
变量(如学生特征)之间的关系 常用来估计组内(如班级内)和组间(如班级
间)变量间的关系 以及跨水平的交互作用。 例如, 学校组织气氛对学生学业成绩的影响;
学校组织气氛与学生社会经济地位的交互作 用。
多层线性模型简介
多层线性模型--一种处理嵌套数据的 统计方法。通过定义不同水平(层)的 模型,将随机变异分解为两个部分,其 一是第一水平个体间差异带来的误差, 另一个是第二水平班级的差异带来的误 差。可以假设第一水平个体间的测量误 差相互独立,第二水平班级带来的误差 在不同班级之间相互独立。多水平分析 法同时考虑到不同水平的变异 。
HLM常用模型类型
随机效应单因素协方差分析(One-way ANCOVA with Random Effects)
水平1: 水平2:
Y ij0j1jX ijeij
0 j g 00 u0 j 1 j g 10
HLM常用模型类型
一般的线性回归模型 第一水平 :
第二水平:
Yij0j1jXijeij
Outcome for observation i in unit j
Intercept
Residual term specific to unit j
Value of X for observation i in unitHale Waihona Puke Baiduj
Coefficient
一个简单的多层线性模型
Residual term
模型的另一种表达
Yij 0 1 X ij u j rij
0 u j 1 X ij rij
0 j 1 X ij rij
这里
0j 0 uj
多层线性模型
水平1(如:学生)
Y ij0j1jXijeij
水平2(如:学校)
Yij---第j个 学校的第i 个学生
g
0j
00
u0 j
1 j g 10
u1 j
何谓多层线性模型?
多层线性模型又称为:
多水平分析( Multilevel Analysis ) 混合模型(Mixed Models) 随机系数模型(Random Coefficient Models)
HLM的发展
快速发展与应用 HLM(Bryk,Randenbush,Seltzer& Congdon,1988); Mlwin(Rabash,Prosser&Goldstein, 1989); VARCL(Longford,1988); MPLUS(Muthen,1992); SAS, SPSS
第一水平: Yij 0j eij
g 第二水平: 0j 00u0j
合并模型:
Yij g 00 uoj eij
HLM常用模型类型
无条件模型:模型中没任何预测变量的多层分 析模型; 模型表示与随机效应的方差分析模型 相同。在无条件模型中:
00
00 2
上式的相关系数描述了水平2单位内个体之间 的相关(intra level 2-unit correlation),它测量 了学校之间方差占总方差的比例,或者说在总 的变异中由水平二解释的方差的比例。
Outcome for observation i in unit j
Intercept
Value of X for observation i in unit j
Coefficient
一个简单的多层线性模型
Y ij01Xijujrij
Outcome for observation i in unit j
希望定义一个模型,可以明确地允 许因变量水平在组内和组间存在差 异
例如,允许学生的学业成绩存在学 校之间的差异
告别 OLS: 一个简单的多层线性模 型

Yij 0 1Xijij
重写为:
Y ij01Xijujrij
一个简单的多层线性模型
Y ij01Xijujrij
一个简单的多层线性模型
(1)如果用传统的线性回归分析,直接在 学生水平上进行分析,得出入学学业成 绩对高考成绩之间的一条回归直线,如 下图1所示,从图1的结果可以看出,传 统回归分析没有区分不同的学校之间的 差异。
图1:不考虑学校之间差异的回归直线
HLM数学模型
(2)如果将数据进行简单合并,用每个学校 学生的平均成绩代替这个学校的成绩,直接在 学校水平上估计入学成绩对高考成绩的影响, 得到一条回归直线,如图2所示,这种方法忽 略了不同学生之间的差异;
多层线性模型
多层分析方法提供了解决嵌套数据关系 的合理的正确的统计方法。下面结合上 面提到的例子,介绍两水平模型的一般 数学表示:
多层线性模型
水平1(如:学生)
Y ij0j1jXijeij
水平2(如:学校)
Yij---第j个 学校的第i 个学生
0j
g 00
g 01 W j
u0j
g g 1j 10 1W 1ju 1j
相关文档
最新文档