多水平统计模型简介(研究生版)

合集下载

多水平统计模型简介SPSS操作

1.正态性不满足
－数据变换，增加样本含量
2.方差非齐性
－增加协变量－数据变换－广义线性模型或非线性模型
3.独立性不满足
－S.E.的稳健估计－GEE估计方法－拟合非独立性来源的模型
Chongqing Medical University Peng Bin
非独立性来源
1.区域环境对反应变量的影响
还需估计三个随机参数
2 u0
u21和
。e20 其中
u2即0 为
学校水平的方差成份，为e学20 生水平的方差成份。
1.模型中的参数估计值、标准误有偏差 2.残差方差偏大，即模型拟合优度差 3.损失高水平(如水平二：学校)对结果的影响信息
Chongqing Medical University Peng Bin
基本的多水平模型
• 经典模型的基本假定是单一水平和单一的随机误差项，并假定随机误差项独立、服从方差为常量的正态分布，代表不能用模型解释的残留的随机成份
截距不同，斜率不同
yij 0 j 1 j xij eij
Chongqing Medical University Peng Bin
按学校绘制散点图及拟合线
该模型即为多水平模型
yij 0 j 1 j xij eij
Chongqing Medical University Peng Bin
0 j 00 u0 j
00 为平均截距，反映 yij 与 xij 的平均关系，
即当 x 取 0 时，所有 y 的总平均估计值。
u0 j 为随机变量，表示第 j 个学校 y 的平均估
计值与总均数的离差值，反映了第 j 个学校对 y 的随机效应。
Chongqing Medical University Peng Bin

多水平模型简介

示例一
全国第三次卫生服务调查在四川农村抽
样的部分数据2239个调查对象来自647个住
户，反应变量两周内患病与否有家庭聚集性。
单水平模型与二水平模型结果对比
表1.1 两周患病及影响因素的单水平正态模型和两水平正态线性模型的比较
变量
单水平线性模型（SE）
两水平线性模型 (SE）
0.075（0.026）
MLwiN主要窗口工具
1. 数据处理：
－Excel文件和TXT文件的输入，TXT文件输出
－缺失值处理，结果显示精度
－数据修改，筛选和显示－构造数据的层次结构
MLwiN主要窗口工具
2. 模型定义窗口－ Equations 3. 算法选择窗口－ Estimates 4. 显著性检验窗口－ Intervals and tests 5. 残差计算窗口－ Residuals 6. 模型预测窗口－ Predictions 7. 结果图示解释－ Graphs
示例二
1482名Ⅱ型糖尿病患者对69名社区医生
服务的满意度评价，反应变量为满意度分数
(取对数)。病人年龄31－91岁，社区病人平均年龄54－74岁。
考查社区年龄对个人满意度的影响
表1.2 Ⅱ型糖尿病患者对社会医疗服务的满意程度模型比较
单水平线性回归单水平集合线性回归两水平线性回归
(SE）
个人年龄社区平均年龄 0.0032（0.0009) -0.0298(0.0029）
(SE）
--------0.0231（0.0039）
（SE）
0.0032（0.0008） -0.0288（0.0040）
-2对数似然值
残差标准误平方
1311.8

多水平统计分析模型（混合效应模型）

多⽔平统计分析模型（混合效应模型）⼀、概述普通的线性回归只包含两项影响因素，即固定效应（fixed-effect）和噪声（noise）。

噪声是我们模型中没有考虑的随机因素。

⽽固定效应是那些可预测因素，⽽且能完整的划分总体。

例如模型中的性别变量，我们清楚只有两种性别，⽽且理解这种变量的变化对结果的影响。

那么为什么需要 Mixed-effect Model？因为有些现实的复杂数据是普通线性回归是处理不了的。

例如我们对⼀些⼈群进⾏重复测量，此时存在两种随机因素会影响模型，⼀种是对某个⼈重复测试⽽形成的随机噪声，另⼀种是因为⼈和⼈不同⽽形成的随机效应（random effect）。

如果将⼀个⼈的测量数据看作⼀个组，随机因素就包括了组内随机因素（noise）和组间随机因素（random effect）。

这种嵌套的随机因素结构违反了普通线性回归的假设条件。

你可能会把⼈员（组间的随机效应）看作是⼀种分类变量放到普通线性回归模型中，但这样作是得不偿失的。

有可能这个factor的level很多，可能会⽤去很多⾃由度。

更重要的是，这样作没什么意义。

因为⼈员ID和性别不⼀样，我们不清楚它的意义，⽽且它也不能完整的划分总体。

也就是说样本数据中的路⼈甲，路⼈⼄不能完全代表总体的⼈员ID。

因为它是随机的，我们并不关⼼它的作⽤，只是因为它会影响到模型，所以不得不考虑它。

因此对于随机效应我们只估计其⽅差，不估计其回归系数。

混合模型中包括了固定效应和随机效应，⽽随机效应有两种⽅式来影响模型，⼀种是对截距影响，⼀种是对某个固定效应的斜率影响。

前者称为 Random intercept model，后者称为Random Intercept and Slope Model。

Random intercept model的函数结构如下Yij = a0 + a1*Xij + bi + eija0: 固定截距a1: 固定斜率b: 随机效应（只影响截距）X: 固定效应e: 噪声混合线性模型有时⼜称为多⽔平线性模型或层次结构线性模型由两个部分来决定，固定效应部分+随机效应部分，⼆、R语⾔中的线性混合模型可⽤包1、nlme包这是⼀个⽐较成熟的R包，是R语⾔安装时默认的包，它除了可以分析分层的线性混合模型，也可以处理⾮线性模型。

多水平统计模型简介SPSS操作

Chongqing Medical University Peng Bin
随机系数模型基本形式第一层：第二层：
yij 0 j 1 j xij e0ij
0 j 00 u0 j
1 j 10 u1 j
方差成份模型中协变量 xij 的系数估计为固定的 1 ，表示示协变量 xij 对反应变量的效应是固定不变的。在随机系数模型中协变量 xij 的系数估计为 1 j ，示每个学校都有其自身的斜率估计，表明协变量 xij 对反应变量的效应在各个学校间是不同的。
2 2 2 2 u0 e0 u0 u0 2 2 2 2 u0 e0 u0 u0 2 2 2 2 u0 u0 u0 e0 2 2 2 u0 e0 u0 2 2 2 u0 u0 e0
完整模型（水平1和水平2上均有解释变量）
第一层：第二层：
yij 0 j 1 j xij e0ij
0 j 00 j u1 j
W1 j 为第二层的解释变量（可包含多个），可以在
零模型与完整模型之间，根据研究目的，设置不同的随机成分和固定成分，构建一系列分析模型。
yij 和 xij 分别为第 j 个
00是0 j的平均值，为固定成分，u0 j 为0 j的随机成分 , 服从正态分布
01是1 j的平均值，为固定成分，u1 j 为1 j的随机成分 , 服从正态分布
E (u0 j ) 0, E (u1 j ) 0, E (eij ) 0,
次结构，可忽略学校的存在，即简化为传
2 统的单水平模型；反之，若存在非零的 u ，
0
则不能忽略学校的存在。

多水平统计模型

多水平模型(multilevel models)最先应用于教育学领域，后用于心理学、社会学、经济学、组织行为与管理科学等领域，逐步应用到医学及公共卫生等领域。
多水平统计模型
Harvey Goldstein, UK, University of London, Institute of Education 《Multilevel Models in Educational and Social Research》1987
多水平统计模型
经典方法框架下的分析策略
经典的线性模型只对某一层数据的问题进行分析，而不能将涉及两层或多层数据的问题进行综合分析。
但有时某个现象既受到水平1变量的影响，又受到水平2变量的影响，还受到两个水平变量的交互影响(cross-level interaction)。
多水平统计模型
个体的某事件既受到其自身特征的影响，也受到其生活环境的影响，即既有个体效应，也有环境或背景效应(context effect)。
多水平统计模型
层次结构数据为一种非独立数据，即某观察值在观察单位间或同一观察单位的各次观察间不独立或不完全独立，其大小常用组内相关(intraclass correlation，ICC)度量。
例如，来自同一家庭的子女，其生理和心理特征较从一般总体中随机抽取的个体趋向于更为相似，即子女特征在家庭中具有相似性或聚集性 (clustering)，数据是非独立的(non independent)。
多水平统计模型
✓ ML3 (1994) / MLN (1996) / MLwiN (1999) ✓ HLM (Hierarchical Linear Model)
SAS (Mixed) SPSS STБайду номын сангаасTA

多水平模型简介PPT精选文档

*用场景变量解释组间变异
14
15
16
* 在模型中纳入水平1解释方差估计分别为0.002449和0.01518，
对应的Z检验统计量为1.65和2.30，prob（Z）分别为 0.0490和0.0108，说明这两个变量的回归系数是随机
系数。 *水平1随机斜率检验
5
*1）由于多水平模型同时考虑不同水平上的
差异，因此当数据水平结构较多时，多水平模型结构较一般计量模型结构复杂；
*（2）需要较大的样本量才可以保证多水平
模型估计的稳定性，较小的样本会带来偏差
*多水平模型的局限性
6
*无条件两水平模型
首先建立无条件两水平模型，又称为截距模型（intercept-only model）或空模型（empty model）,是两水平模型建模的基础。其模型形式为：
*多水平模型简介
1
*社会科学研究中的一个基本概念是，社会是一个具有
分级结构的整体，社会的分级结构自然而然地使由其所产生的数据呈现水平（层次）结构。在该类数据中，低一水平（层次）的数据单位嵌套与或聚集在高一水平（层次）的单位中。
*长期以来用以说明具有多种水平结构的数据的例子是
对学生学习成绩的研究。学生的学习状况不仅与个人的内在因素（如智力水平）相联系，而且与其所处的环境相联系，如学习风气、教师的教学经验、学校的设施等。因此在对学习成绩与个体水平变量（如性别、智力水平、种族等）关系的研究中，可将学生个体嵌套在班级里，而将班级嵌套在学校里的形式进行数据
*空模型
12
结果表明：各村农户的人均收入增长率存在显著差异。组内相关系数（ICC）：
ICC=0.368表明结局测量中约有36.8%的总变异是由村之间的差异造成的。

演示文稿多水平统计模型简介操作

• 只包含固定效应的协变量 • 最简单的多水平模型
第一层： yij 0 j eij 或，yij 0 j 1xij eij
第二层： 0 j 00 u0 j
组内相关的度量
应变量方差为（可含固定效应协变量）
Var yij | 0 , 1, xij Var(u0 j eij )
Var(u0 j ) Var(eij ) Cov(u0 j ,eij )
例如，来自同一家庭的子女，其生理和心理特征较从一般总体中随机抽取的个体趋向于更为相似，即子女特征在家庭中具有相似性或聚集性 (clustering)，数据是非独立的(non independent)。
忽略多水平层次结构的后果
1.模型中的参数估计值、标准误有偏差 2.残差方差偏大，即模型拟合优度差 3.损失高水平(如水平二：学校)对结果的影响信息
yij 0 j 1 j xij eij
0 j 00 u0 j 1 j 01 u1 j
x yij 和 ij 分别为第 j 个
学校中第 i 个学生应变量观测值和解释变量观测值
00是
0
的平均值，为固定成分
j
，u0
j为0
的随机成分
j
,
服从正态分布
01是1
的平均值，为固定成分
j
，u1
j
为1
01 表示协变量 x 在所有学校的平均效应估计
值（固定部分），u1 j 表示协变量 x 在不同学校所
产生的特殊效应（随机部分），反映协变量与学校之间产生的交互效应，即学校间 y 的变异与协变量 x 的变化有关。
yij ( 00 01xij ) (u0 j u1 j xij eij )
（优选）多水平统计模型简介操作

多水平统计模型研究生版-PPT文档资料

多水平分析的概念为人们提供了这样一个框架，即可将个体的结局联系到个体特征以及个体所在环境或背景特征进行分析，从而实现研究的事物与其所在背景的统一。
基本的多水平模型
经典模型的基本假定是单一水平和单一的随机误差项，并假定随机误差项独立、服从方差为
常量的正态分布，代表不能用模型解释的残留的
随机成份。
MLwiN (2019)
SAS (Mixed) SPSS STATA
层次结构数据的普遍性
水平2
水平1
两水平层次结构数据
“水平” (level) ：
指数据层次结构中的某一层次。例如，子女为低水平
即水平 1 ，家庭为高水平即水平 2 。
“单位” (unit) ：
指数据层次结构中某水平上的一个实体。例
2 Var ( e ) E ( e ) 0 0 ij e 0 ij ， 0
多水平统计模型简介
A Brief Introduction to Multilevel Statistical Models

概述层次结构数据的普遍性经典方法及其局限性基本多水平模型多水平模型的应用

多水平主成分分析多水平因子分析多水平判别分析多水平logistic回归多水平Cox模型多水平Poisson回归多水平时间序列分析多元多水平模型多水平结构方程模型
u 0 j 0 0 j
0 为平均截距，反映 y ij
与
x ij
的平均关系，
即当 x 取 0 时，所有 y 的总平均估计值。
u 0 j 为随机变量，表示第 j 个医院 y 之平均估
计值与总均数的离差值，反映了第 j 个医院对 y 的随机效应。

1、下载文档前请自行甄别文档内容的完整性，平台不提供额外的编辑、内容补充、找答案等附加服务。
2、"仅部分预览"的文档,不可在线预览部分如存在完整性等问题,可反馈申请退款(可完整预览的文档不适用该条件!)。
3、如文档侵犯您的权益，请联系客服反馈,我们会尽快为您处理(人工客服工作时间：9:00-18:30)。

0 j 的假定及其含义与方差成份模型一
致。现
1 j 为随机变量，假定：
E ( 1 j ) 1
Var(1 j )
2 u1
1 j 表示第 j 个医院的 y 随 x 变化的斜
率； 1 表示全部医院的 y 随 x 变化的斜率的平均值(平均斜率)。
是指各医院的 y 随 x 变化的斜率
多水平分析的概念为人们提供了这样一个框架，即可将个体的结局联系到个体特征以及个体所在环境或背景特征进行分析，从而实现研究的事物与其所在背景的统一。
基本的多水平模型
经典模型的基本假定是单一水平和单一的随机误差项，并假定随机误差项独立、服从方差为
常量的正态分布，代表不能用模型解释的残留的
随机成份。
医院水平的方差成份， e0为患者水平的方差成份。
2
组内相关的度量
方差成份模型中，应变量方差为
Varyij | 0 , 1 , xij Var(u0 j e0ij )
Var(u0 j ) Var(e0ij ) Cov(u0 j , e0ij )

2 u0

2 e0
(Variance Component Model)
假定一个两水平的层次结构数据，医院为水
平 2 单位，患者为水平 1 单位，医院为相应总体
的随机样本，模型中仅有一个解释变量 x 。
yij 0 j 1 xij e0ij
j 1,2,...,m
示水平 2 单位示水平 1 单位
i 1,2,...,n j
多水平模型(multilevel models)最先应用于教育学领域，后用于心理学、社会学、经济学、组织行为与管理科学等领域，逐步应用到医学及公共卫生等领域。
Harvey Goldstein, UK, University of London, Institute of Education 《Multilevel Models in Educational and Social Research》1987
Nicholas Longford, Princeton University,
Education Testing Service
《Random Coefficient Models》1993

多水平主成分分析多水平因子分析多水平判别分析多水平logistic回归多水平Cox模型多水平Poisson回归多水平时间序列分析多元多水平模型多水平结构方程模型
yij
计,
和
xij 分别为第 j 个医院中第 i 个患者应变
1 为参数估
量观测值和解释变量观测值， 0 j 和
e0ij
为通常的随机误差项。
与经典模型的区别在于 0 j 。经典模型中的估计为 0 ，仅一个估计值，表示固定的截距，而在方差成份模型中 0 j 表示 j 个截距值，即当 x 取 0 时，第 j 个医院在基线水平时 y 的平均估计值。
2 u0
2 u0 2 e0

测量了医院间方差占总方差的比例，
实际上它反映了医院内个体间相关，即水平 1
单位(患者)在水平 2 单位(医院)中的聚集性或相似性。
由于模型不止一个残差项，就产生了非零的组内相关。若为 0，表明数据不具
层次结构，可忽略医院的存在，即简化为
2 非零传统的单水平模型；反之，若存在 u
与方差成份模型的区别在于 1 j 。
方差成份模型中协变量 xij 的系数估计为固定的 1 ，示协变量 xij 对反应变量的效应是固定不变的。在随机系数模型中协变量 xij 的系数估计为 1 j ，示每个医院都有其自身的斜率估计，表明协变量 xij 对反应变量的效应在各个医院间是不同的。
随机系数模型
(Random Coefficient Model)
随机系数模型是指协变量的系数估计不是固定的而是随机的，即协变量对反应变量
的效应在不同的水平 2 单位间是不同的。
仍以医院与患者两水平数据结构说明随机系数模型基本结构与假设。
yij 0 j 1 j xij e0ij
0 j 0 u0 j
0 为平均截距，反映 yij 与 xij 的平均关系，
即当 x 取 0 时，所有 y 的总平均估计值。
u0 j 为随机变量，表示第 j 个医院 y 之平均估
计值与总均数的离差值，反映了第 j 个医院对 y 的随机效应。
1 表示协变量 x 的固定效应估计值。即 y 与
模型随机部分具多个残差项，需估计4个
随机参数，即方差协方差 u0 1 。

2 u0
、 2 和 2 以及
u1 e0
模型的反应变量方差为：
Varyij | 0 , 1 , xij Varu0 j u1 j xij e0ij
2 2 2 u0 2 u0 1 xij u1 xij e20
经典方法框架下的分析策略
经典的线性模型只对某一层数据的问题进行分析，而不能将涉及两层或多层数据的问题进行综合分析。但有时某个现象既受到水平1变量的影响，又受到水平2变量的影响，还受到两个水平变量的交互影响(cross-level interaction)。
个体的某事件既受到其自身特征的影响，也受到其生活环境的影响，即既有个体效应，也有环境或背景效应(context effect)。例如，个体发生某种牙病的危险可能与个体的遗传倾向、个体所属的社会阶层(如饮食文化和口腔卫生习惯)、环境因素(如饮水中氟浓度)等有关。
将模型改记为：
yij 0 1 xij u0 j u1 j xij e0ij
即表达为固定部分与随机部分之和。其
中，固定效应用均数描述，它决定了全部医院的平均回归线，这条直线的截距即平均截
距 0 ，直线的斜率即平均斜率 1 。u1 j 为随
机系数。
随机效应用方差描述，它反映了各医院之间 y 的变异与协变量 x 的关系。
0
的
，则不能忽略医院的存在。
水平 2 单位中的水平 1 单位间存在相关，通常的“普通最小二乘法”(Ordinary Least Squares OLS)进行参数估计是不适宜的。
进一步，如数据具有三个水平的层次结构，如医院、医生和患者三个水平，则将有两个这样的相关系数，即医院内相关和医生内相关。
协变量 x 的关系在各医院间是相同的，换言之，医院间 y 的变异与协变量 x 的变化无关。
方差成份模型拟合 j 条平行的回归线，截
距不同( 0 j )，斜率相同( 1 )。
对医院水平残差的假定
2 E(u0 j ) 0， Var(u0 j ) u
0
对患者水平残差的假定与传统模型一致
Anthony Bryk, University of Chicago Stephen Raudenbush, Michigan State University , Department of Educational Psychology
《Hierarchical Linear Models： Applications and Data Analysis Methods》1992
2 u1
的方差。
1 j 1 u1 j
Var (u1 j ) Cov(u0 j , u1 j ) u
u1 j示第
E(u0 j ) E(u1 j ) 0
2 u1
01
j 个医院的斜率与平与斜率离差值的协方差，反映了它们之间的相关关系。
此即水平 2 和水平 1 方差之和。同一医院中两个患者(用i1，i2 表示)间的协方差
为：
2 Cov u0 j e0i1 j , u0 j e0i2 j Covu0 j , u0 j u0

组内相关(intra-class correlation, ICC)

多水平模型由固定与随机两部分构成，与一般的混合效应模型的不同之处在于，其随机部分可以包含解释变量，故又称为随机系数模型 (random coefficient model)，其组内相关也可为解释变量的函数。换言之，多水平模型可对不同水平上的误差方差进行深入和精细的分析。
1. 方差成份模型

ML3 (1994) / MLN (1996) / MLwiN (1999)
HLM (Hierarchical Linear Model)
SAS (Mixed)
SPSS STATA
层次结构数据的普遍性
水平2
水平1
两水平层次结构数据
“水平” (level) ：指数据层次结构中的某一层次。例如，子女为低水平即水平 1 ，家庭为高水平即水平 2 。 “单位” (unit) ：指数据层次结构中某水平

分解(disaggregation) 聚合(aggregation)

分解：不满足模型独立性假定，回归系数及其标准误的估计无效，且未能有效区分个体效应与背景效应。另一种分析策略是用哑变量拟合高水平单位的固定效应。聚合：损失大量水平1单位的信息，更严重的是可能导致“生态学谬误”(ecological fallacy)。
当数据存在层次结构时，随机误差项则不满足独立常方差的假定。模型的误差项不仅包含了模型不能解释的应变量的残差成份，也包含了高水平单位自身对应变量的效应成份。
多水平模型将单一的随机误差项分解到与数
据层次结构相应的各水平上，具有多个随机误差项并估计相应的残差方差及协方差。构建与数据层次结构相适应的复杂误差结构，这是多水平模型区别于经典模型的根本特征。
非独立数据不满足经典方法的独立性条件，采用经典方法可能失去参数估计的有效性并导致不合理的推断结论。但非独立数据的组内相关结构各异，理论上，不同的结构应采用相应的统计方法。如纵向观测数据常用广义估计方程(GEE)，但有两个局限性：一是对误差方差的分解仅局限于2水平的情形，二是没有考虑解释变量对误差方差的影响。当应变量的协差阵为分块对角阵时，一般采用多水平模型。