GLM广义线性模型的推导与应用
广义线性混合模型的研究与应用

广义线性混合模型的研究与应用第一章:引言广义线性混合模型(GLMM)是一种既兼顾线性模型又兼顾混合模型的强大工具。
该模型在诸多实际问题中得到了广泛的应用,如医学、农业、生态等领域。
本文旨在系统性介绍GLMM的相关概念、特点、推导以及应用。
第二章:GLMM的概念和定义广义线性混合模型GLMM其实是对线性模型LM和混合模型MM的一个统一框架。
它不仅考虑了个体间和个体内的随机因素,从而可以更好地适应实际生活中各种不确定因素的影响,而且广泛适用于探索各种非正态和非独立数据结构。
同时可以建模各种响应变量的方差不等和非常偏态分布,具有很强的灵活性和可拓展性。
第三章:GLMM的特点GLMM最大的特点是对于个体之间的差异建立了一个统一、完整的随机因素模型。
与之前的混合模型不同,GLMM的随机因素是基于一个广义线性模型而来的,具有较强的可解释性和可变性。
同时,GLMM也可以与各种模型结合,如时间序列、空间模型等,更加灵活地应用于各种实际问题。
第四章:GLMM的推导在GLMM中,我们既有固定效应,又有随机因素。
假设我们需要建立可拓展的随机因素模型$$y_i = X_i\beta + Z_iu_i + \varepsilon_i$$其中$y_i$是第$i$个个体的响应变量,$\beta$是固定效应系数,$X_i$是该个体的固定特征(设计矩阵),$Z_i$是该个体的随机特征(设计矩阵),$u_i$是该个体的随机效应,$\varepsilon_i$是该个体的误差项。
我们一般假设$u_i\sim N(0,D)$,$\varepsilon_i\sim N(0,R)$,即随机效应和误差项都服从正态分布。
因此$$E(y_i) = X_i\beta$$$$Var(y_i) = Z_iDZ_i^T + R$$由于$D$和$R$是未知的,并且难以直接估计,我们要借助一些方法,通过最大化似然函数使$D$和$R$可被估计。
第五章:GLMM应用的案例和研究GLMM可应用于多个领域,例如生态学、医学、农业和社会科学等。
广义线性模型在社会科学中的应用研究

广义线性模型在社会科学中的应用研究广义线性模型(Generalized linear model,缩写为GLM)是一种常用的统计分析模型,广泛应用于社会科学领域的数据分析中。
本文将介绍广义线性模型的定义、构成及应用,并结合实例深入探讨该模型在社会科学中的应用研究。
一、广义线性模型的定义和构成广义线性模型是一种可广泛使用的数学模型,其主要目的是将反应变量与解释变量建立联系,并通过建立最佳拟合函数,预测和分析反应变量。
GLM与线性回归分析相似,但它允许在解释变量和反应变量之间建立非线性关系,因此可以发现线性回归模型无法发现的关系。
GLM的主要组成部分包括:反应变量、解释变量、矩阵X和一个非线性函数g()。
二、广义线性模型的应用1. 分类模型广义线性模型最常用于有二元反应变量的数据,例如分类数据。
例如,它可以用来建立一个二元指示器模型,以确定两个类别之间的关系。
该模型可用于识别两种制度之间关系的因素,如一个国家的政治形势。
2. 计数模型广义线性模型还可以与计数数据配合使用。
例如,在社会科学中,研究人员可能会使用计数来记录政策实施的次数、事件发生的频率或各种社会现象的数量,如贫困率、犯罪率等等。
GLM的计数模型能够处理响应方差不稳定且需满足非负要求的计数数据。
例如,研究员可以使用计数模型来评估决策对某些社会现象的影响和进一步预测这些现象可能出现的次数。
3. 连续变量模型广义线性模型也可以用于处理连续变量的数据。
例如,在社会科学中,研究人员可能会使用连续变量记录特定事件的数量或相关变量,如时间、资金等。
这些模型变量经常出现在经济学研究中,如收入、产量、就业、生产等。
三、实例分析在社会科学应用中的GLM,不仅包括单一概率模型、计数模型等,还有插值、回归分析等高级统计分析模型。
以下是一个实例分析,展示了如何使用广义线性模型来探索我们感兴趣的某些社会现象。
1. 健康和收入变量之间的关系假设我们关注的是人们的健康和收入变量之间的关系。
统计学中的广义线性模型解析

统计学中的广义线性模型解析统计学是一门研究数据收集、分析和解释的学科,而广义线性模型(Generalized Linear Model,简称GLM)则是统计学中一种重要的分析方法。
GLM不仅可以用于描述和预测数据,还可以帮助我们理解变量之间的关系和影响。
一、GLM的基本概念广义线性模型是由统计学家Nelder和Wedderburn于1972年提出的,它是线性回归模型的扩展。
在传统的线性回归模型中,我们假设因变量Y与自变量X之间存在线性关系,即Y = β0 + β1X + ε,其中β0和β1是待估计的系数,ε是误差项。
而GLM则允许因变量和自变量之间的关系不是线性的,可以是非线性的、离散的、非正态的等。
二、GLM的三个重要组成部分GLM由三个重要的组成部分构成:随机分布、系统性成分和连接函数。
随机分布用于描述因变量的分布特征,系统性成分用于描述自变量和因变量之间的关系,连接函数则用于将系统性成分与随机分布联系起来。
1. 随机分布在GLM中,我们常常假设因变量Y服从指数分布家族中的某个分布,如正态分布、泊松分布、二项分布等。
通过选择合适的分布,我们可以更好地描述和解释数据。
2. 系统性成分系统性成分是GLM中的关键部分,它用于描述自变量和因变量之间的关系。
通常,我们将系统性成分表示为线性组合的形式,即η = β0 + β1X1 + β2X2 + ... +βpXp,其中η是系统性成分,β0、β1、β2等是待估计的系数,X1、X2等是自变量。
3. 连接函数连接函数是将系统性成分和随机分布联系起来的桥梁。
它的作用是将系统性成分的线性组合映射到随机分布的参数空间中,使得我们可以通过系统性成分来预测和解释因变量的分布特征。
常见的连接函数有恒等函数、对数函数、逆正态函数等。
三、GLM的应用领域广义线性模型在统计学中有着广泛的应用领域。
以下是几个常见的应用示例:1. 生物医学研究在生物医学研究中,研究人员常常需要分析和解释疾病发生的风险因素。
广义线性模型在生物数据分析中的应用

广义线性模型在生物数据分析中的应用生物数据分析是指生物学中大数据的处理和分析,其广泛应用于生物信息学、生物统计学、生物数据科学等领域。
在大量生物学实验和研究中,生物学家使用统计学的方法收集大量数据,然后对数据进行分析和解释。
其中,广义线性模型是数据分析的常用方法之一。
广义线性模型(Generalized Linear Models,GLM)是一种广泛应用于生物数据分析中的数学模型,它与线性回归模型紧密相关,是一种带参数估计的统计模型。
GLM将一般的线性回归的假设条件(即正态误差)放宽至更广泛的情况下,通常假设响应变量是由一组对数连接函数和一个单位分布函数组成的。
GLM的模型类型包括了二项式分布、正态分布、泊松分布和柏努力分布等常见分布类型。
在生物数据分析中,GLM更多地被用于解决分类和回归问题。
举个例子来说,如果一个生物学家想学习不同基因的表达模式,他们可以收集不同细胞类型和不同时间点的RNA测序数据,并将数据存储在一个矩阵中,然后根据GLM进行分析和解释。
在这种情况下,GLM通常用于识别基因的表达模式,以及探究不同因素对表达模式的影响。
GLM的分析模式通常比常规的线性回归模型更灵活,因为它可以容纳更多的变量类型。
然而,这种灵活性也使得GLM在数据处理和解释方面的挑战更小。
通常,为了使 GLM能够有效地解释生物数据,生物学家需要在进行分析前对数据进行适当的预处理,例如将数据进行标准化,或者通过恰当的插值方法填充缺失数据,然后使用GLM进行分析。
除了在基因表达模式的分析方面,广义线性模型在多种生物数据分析中都有广泛的应用。
其中,包括生存分析、复杂网络分析、蛋白质定量和代谢组学分析等领域。
在生存分析中,生物统计学家根据患者的临床数据和死亡数据,使用GLM来预测其生存率。
在这种情况下,GLM被用来估计不同协变量对患者存活率的影响。
在复杂网络分析中,GLM被用来分析基因趋向于连接成什么形状的网络。
同时,GLM也被应用于蛋白质定量和代谢组学分析等领域中,以识别在蛋白质积累或代谢途径过程中依赖特定变量的重要基因。
广义线性模型在数据分析中的应用

广义线性模型在数据分析中的应用随着数据量的增长,数据分析的需求也随之产生。
广义线性模型是一种常见的数据分析工具,它不仅能够处理传统的正态分布数据,还能适用于非正态分布数据。
在本文中,我们将探讨广义线性模型在数据分析中的应用。
一、什么是广义线性模型?广义线性模型(Generalized Linear Model, GLM)是一种基于指数分布族的概率分布函数和线性预测子的建模方式。
它是普通线性模型(OLS)的扩展,能够应用于非正态分布数据,如泊松分布、二项分布、伽马分布等。
广义线性模型的一般形式为:$$ \eta = X\beta $$其中$\eta = g(\mu)$,$g$是一个非线性函数,$\mu$是响应变量的均值。
二、广义线性模型的应用广义线性模型可以应用于许多数据分析场景,包括:1.计数数据分析计数数据是指一种离散型的数据,比如一个区域内的动物数量、每日销售量等。
泊松分布是经常用来模拟计数数据的概率分布,因此可以使用广义线性模型来分析该类数据。
例如,我们可以考虑分析某商家一天中不同时间段的销售数量。
我们可以使用泊松分布来建模,然后使用广义线性模型进行分析,以探索哪个时间段的销售量最高。
此外,如果我们需要考虑其他解释变量(如天气、季节等)对销售数量的影响,我们也可以将其包含在模型中。
2.二项数据分析二项数据是指一种二元分类的数据,比如某项活动的成功或失败、某种产品的缺陷与否等。
在这种情况下,我们可以使用广义线性模型来建立一个二项分布模型来分析数据。
例如,我们可以考虑某项活动在不同条件下的成功概率,然后使用广义线性模型进行建模。
在这个建模过程中,我们可以考虑一些解释变量,如活动方式、活动时间等。
3.连续数据分析广义线性模型同样适用于连续型的数据,比如房价、工资等。
在这种情况下,我们可以使用伽马分布或正态分布等概率分布来建立一个广义线性模型来分析数据。
例如,我们可以考虑某个城市房屋的价格,然后建立一个广义线性模型来探究每平米房屋价格受哪些因素的影响,如房屋的位置、房屋面积等等。
广义线性混合模型在食品质量研究中的应用

广义线性混合模型在食品质量研究中的应用随着人们对食品品质要求的日益增高,食品质量研究也成为了越来越重要的领域。
广义线性混合模型(Genralized Linear Mixed Model, GLMM)是一种目前被广泛应用于食品质量研究中的统计模型。
本文将对GLMM模型的基本原理、应用场景以及一些案例进行介绍和分析。
一、GLMM模型的基本原理GLMM模型是一种基于广义线性模型(Generalized Linear Model, GLM)和混合模型(Mixed Model)结合的模型。
它可以很好地处理各种类型的数据,比如二项分布、泊松分布、正态分布等分布类型的数据。
GLMM模型可以通过考虑固定效应和随机效应来描述数据中的变异信息。
在食品质量研究中,GLMM可以用于分析各种食品成分(如蛋白质、油脂、糖类等)的含量与其它因素的关系,比如食品的种类、生产地区等。
GLMM模型中的固定效应是指与观测数据相关的因素,如食品的品种、包装方式等。
这些效应通常是确定的,可以被描述为一个线性回归模型。
而随机效应是指不与观测数据相关的因素,如生产工艺、批次信息等。
这些效应通常是不可观测的,需要进行建模和估计。
通过考虑固定和随机效应,GLMM可以敏感地捕捉到数据的变异性,从而更好地描述数据的结构。
二、GLMM模型的应用场景GLMM模型在食品质量研究中有广泛的应用场景。
一般来说,GLMM模型主要用于以下几个方面:1. 食品配方优化研究GLMM可以用于分析食品配方中不同成分对最终产品质量的影响。
比如针对某种饼干产品,可以分析不同的糖类和油脂成分对饼干香脆度、甜度和口感等特征的影响。
通过对这些成分的调整和优化,可以最大限度地提高产品的质量和口感。
2. 食品生产过程监控GLMM可以用于分析食品生产过程中的各种因素对产品质量的影响。
比如针对某种酒类产品,可以分析不同的加工工艺对产品的酸度、酒精度和气味等特征的影响。
通过对这些因素的优化和控制,可以提高产品的质量和稳定性。
广义线性混合效应模型及其应用

研究方法
GLMM包括固定效应和随机效应两个部分。在固定效应部分,模型通常包括一 个或多个解释变量,以及一个链接函数。随机效应部分则考虑到个体之间的差异。 在实现GLMM时,通常需要通过迭代方法来估计模型参数。常见的迭代方法包括最 大似然估计、贝叶斯估计等。模型的拟合效果和整体解释性可以通过各种统计指 标来评价,如AIC、BIC、R-squared等。
结果与讨论
在本研究中,我们应用GLMM对一组分类重复测量资料进行了分析。结果表明, GLMM能够较好地拟合数据,并具有较高的整体解释性和分类准确性。此外,我们 还发现,通过考虑到个体之间的差异和测量时间的影响,GLMM能够为个体间的关 联性提供更准确的建模。
结论
本研究表明,GLMM在处理分类重复测量资料方面具有显著优势。通过灵活地 建模个体间的关联性和考虑到测量时间的影响,GLMM为科学领域提供了更深入的 见解。未来研究方向包括进一步探索GLMM在其他领域的应用、开发更有效的算法 以处理更大规模的数据集,以及研究如何将GLMM与其他先进技术相结合以获得更 全面的分析结果。
五、结论与展望
广义线性混合效应模型作为一种灵活、实用的统计工具,在处理复杂数据结 构和代谢过程方面具有很大的优势。本次演示介绍了该模型的基本概念、应用及 其研究意义。通过实际案例的介绍,我们展示了该模型在各个领域的应用情况。
未来,广义线性混合效应模型还有很大的发展空间。首先,随着数据科学和 统计学的发展,新的技术和方法将会不断涌现,这些新技术和方法可以进一步优 化广义线性混合效应模型的建模过程和结果解释。其次,随着大数据时代的到来, 数据的复杂性和维度将会越来越高,如何有效利用广义线性混合效应模型处理这 些复杂数据,将是一个重要的研究方向。
广义线性混合效应模型及其应 用
广义线性模型的分析及应用

广义线性模型的分析及应用一、引言广义线性模型(Generalized Linear Model, GLM)提供了一种在保持简单性的前提下,对非正态响应变量建立连续性预测模型的方法,适用于许多实际应用问题中。
本文旨在介绍广义线性模型的基本概念、模型构建方法、推断等内容,并通过实际案例的分析加深对GLM的理解与应用。
二、基本概念GLM是统计学中一种具有广泛适用性的模型框架,它的基本思想是将未知的响应变量与已知的协变量之间的关系描述为一个线性预测器和一个非线性函数的组合,即:g(E(Y)) = β_0 + β_1X_1 + ⋯+ β_pX_p其中,g(·)称为联接函数(Link Function),它定义了响应变量的均值与预测变量之间的关系,E(Y)为响应变量的期望,X_1,X_2,…,X_p为解释变量(predictor)或协变量(covariate),β_0, β_1, …, β_p是模型的系数或参数。
GLM假定响应变量Y服从指数分布族中的某一个分布,如正态分布、二项分布、泊松分布等。
三、模型构建方法1. 选择联接函数和分布族:不同的响应变量应选用不同的分布族。
例如,连续性响应变量可选用正态分布,二元响应变量可选用二项分布,而计数型响应变量可选用泊松分布等。
2. 选择解释变量:可使用变量选择算法,如前向选择法、向后选择法、逐步回归等,在给定样本内拟合出最佳模型。
3. 选择估计方法:由于某些非正态分布族无法使用最小二乘法拟合,可以使用极大似然估计法或广义估计方程法。
对于大样本,一般使用广义线性混合模型等。
4. 模型比较与选择:模型拟合后,需要进行模型检验和模型诊断,主要包括残差分析、Q-Q图检验、$R^2$值、F检验、AIC/BIC值等指标的分析。
四、模型应用GLM的应用非常广泛,特别是在医学、生态、社会科学、金融等领域。
下面以某市2019年全年医疗保险数据为例,运用GLM模型进行分析。
1. 数据描述健康保险数据包含了每个缴费人的性别、年龄、缴费金额、报销金额等信息。
- 1、下载文档前请自行甄别文档内容的完整性,平台不提供额外的编辑、内容补充、找答案等附加服务。
- 2、"仅部分预览"的文档,不可在线预览部分如存在完整性等问题,可反馈申请退款(可完整预览的文档不适用该条件!)。
- 3、如文档侵犯您的权益,请联系客服反馈,我们会尽快为您处理(人工客服工作时间:9:00-18:30)。
线性回归模型
• 古典的线性回归模型:
Y X
•
为随机误差项,一般假设为零均值、方差同为
2
为 、且相互独立的正态随机向量。 • u 为因变量均值,一般解释为响应变量线性和的 形式:
u X
• 为待估的线性组合参数
• 目标函数:即估计参数的目标,或是偏差最小, 或是无偏最小方差等等,在此一般采用的是最小 二乘和极大似然。 • 最小二乘:即使得因变量的真值y与拟合值 X 间 距离最小。 • 矩阵求导基本公式:
– 协方差:
T 1 T T 1 T E [ ] E [( X X ) X y ] ( X X ) X E[ y ] – 无偏性:
cov( ) ( X T X ) 1 X T cov( y )[( X T X ) 1 X T ]T 2 ( X T X ) 1
• 非寿中常用广义线性模型
– 索赔次数或索赔频率时,泊松分布和负二项分布,对 数连接 – 索赔强度时,伽马分布和逆高斯分布,对数连接 – 事故发生率或续保率时,logistic回归
迭代法与GLM的比较
• 迭代法
– 优点:理论简单易懂,也方便软件计算 – 缺点:
• 缺乏完整的统计分析框架 • 分类变量较多时,计算复杂 • 费率因子必须是离散的
• 连接函数:单调可导,即可逆的函数。
– 恒等,g(u)=u,古典线性模型即是正态分布下的恒等连 接的广义线性模型 – 对数,g(u)=ln(u),因为对数的逆是指数,因此它可将 原本的线性和组合转变为乘积的关系 – Logit,g(u)=ln(u/1-u),它的特点为可将预测值控制在 0~1之间,对于因变量为比率时适合使用
• 容易看出,右边的第三为一个与拟合情况有关的 正常数,右边的第一和第二项有着相同的结构。 • 考虑 l (b; y ) l ( ; y ) 的分布,将 l ( ; y ) 在 b 点泰勒展 开: 2 dl 1 d l 2 l ( ) l (b) ( b) ( b) 2 d 2 d
n 1 n yi yi 2 l ( , ) n ln ln 2 ( ) 2 2 i 1 n
2
•
2 ( y y ) 显然想要最大化似然值,只需可,这也正是前面最小二乘中的距离,故此处 极大似然也最小二乘是等价的。
• 估计的性质
• 将g(u)用上一步的估计值代替即得到最终的迭代:
b
m 1
X WX X TW ( Xb m G ( y u ))
1
• 到此参数的估计基本完成,接下来看看该估计的 分布性质,即均值和方差。 • 均值: 1 T T
E[b] X WX X WE[ g ( y )]
X y X y X X X X 2( X y X X )
• 使之为零便可到最小二乘估计:
(X X ) X y
T 1 T
• 极大似然
•
对于单个的因变量 yi xi11 xi 2 2 ... xip p i
• 都是同方差的正态随机变量,因此可以容易的得 到整体的对数似然函数:
g ( y) X
2
• 但是需要注意,这里的g(y)已经不再是同方差的, 所以需要用到前面的加权最小二乘,首先考虑g(y) 的方差,由泰勒展开可得: g ( yi ) g (ui ) g ' (ui )( yi ui ) • 将各个分量整合起来写成矩阵的形式有:
g ( y ) g (u ) G ( y u ) g ' (u1 ) G 0 ' g (un )
T 1 T T 1
a( ) X WX
T
1
• 因此在大数据量的情况下,由中心极限可以有如 下近似:
b ~ N ( , a ( ) X WX )
T 1
拟合效果检验
• 偏差的检验:将设定模型与饱和模型进行比较。 饱和模型是在同种假设、同种连接函数下,拥有 最大数量待估参数的模型。好的设定模型应该表 现出与饱和模型的差异很小。 • 偏差的定义:
D 2[l (bmax ; y) l (b; y)]
• 通过D便可以度量设定模型和饱和模型间的差异, 下面考虑D的分布情况。
• 首先将D改写为:
D 2[l (bmax ; y) l (max ; y)] 2[l (b; y) l ( ; y)] 2[l ( max ; y) l ( ; y)]
• 较之前面的一般线性模型,广义线性模型主要作 了两个方面的拓展:
– 首先是因变量不再只是正态分布,而是夸大为指数分 布族中的任一分布 – 解释变量的线性组合不再直接用于解释因变量的均值u, 而是通过一个连接函数g来解释g(u),这里要求连接函数 单调可导
• 可以看出,广义线性模型是在古典模型上的一个 的推广
dY AT dX dY Y XA A dX dY Y XTA A dX Y AX
2
yX
( y X )T ( y X ) yT y yT X T X T y T X T X
• 对 求导得到:
T T T T T T
• 指数分布族的均值与方差
均值:在密度函数两边对i 求导,得到
yi b ' ( i ) df f { }然后两边对 y 进行积分 i d i a ( )
有:
E ( yi ) b' (i ) 0 E ( yi ) b' (i ) a( ) 方差:同法可得
Var ( yi ) b '' (i ) a( )
• 指数分布族
yii b(i ) f ( yi ;i , ) exp{ c( yi , )} a( )
• 其中a,b,c均为已知函数,他们对所有的观测值有 相同的形式,且满足以下条件
– a ( ) 大于零,连续,通常形式为w ,其中w为已知先 验权重 – b(i ) 二阶导数存在且大于零 – c( yi , ) 与参数i 无关
*
0 wnn
~ N ( , 2 ( X TWX )1 )
• 古典线性模型的不足
– 正态性假设在实践中并不满足 – 保险实践中,因变量往往为非负,比如赔款次数和数 量,这点在正态性假设也无法满足 – 同方差的假设 – 解释变量只能通过加法对因变量产生影响
广义线性模型基本理论
2 2[ l ( b ) l ( )] ~ x ( n) • 同理有: max max • 因此D的近似分布为:
x (n p)
2
• 模型假设的检验:Anscombe残差和Deviance残差
– Anscombe残差:通过指数分布族的正态化函数A(.)作用 于y将其正态化,残差表示为:
1 A() 1/3 du V (u)
A( yi ) A( yi ) A ( yi ) V ( yi )
'
yi 的Deviance残差定义为 – Deviance残差,
rDi sign( yi ui ) di
其中di 为前面偏差D的第i部分,即: D di
上述两个残差,均近似服从正态分布,可将标 准化的残差与标准正态分布对比,以作检验。
T 1
X WX X T WE[ g (u ) G ( y u )] X WX X T Wg (u )
T 1
X WX X T WX
T 1
• 方差:
Var[b] X WX X WVar ( g ( y ))[ X WX X TW ]T
2 T 1 ~ N ( , ( X X ) ) – 因此
• 基本的检验:帽子矩阵H • T 1 T y X X ( X X ) X y Hy
• H阵的性质:对称而且是幂定的 H n H • 考虑拟合的残差:
y y ( I H ) Var ( ) 2 ( I H )
1 1 l ( ) l (b) ( b) 2 X TWX 2 ( a )
1 1 T l (b) l ( ) ( b) X TWX ( b) 2 ( a )
•
1 T X WX 为b的方差阵的逆,因此大数 由于( a )
据量下有:
2[l (b) l ( )] ~ x 2 ( p)
• 推广的迭代法
– – – – 无需分布假设,提高了灵活性 同样的易于理解 克服了迭代法中变量多时计算复杂的问题 可以解决混合模型和有限制条件的模型
• GLM
– 优点
• 统计模型,有完整的分析框架 • 同时考虑所有的因素 • 方便实现,许多软件都能调用
– 缺点
• 目前广泛应用的模型局限于指数分布族 • 无法解决混合模型
• 最终选择模型的信息准则
– AIC准则,即对参数个数进行惩罚:
AIC 2l 2 p
– BIC准则,同时对参数个数和样本量进行惩罚:
BIC 2l p (ln n)
常用的广义线性模型
• 由先验信息选择分布类型
常数方差 正态分布 方差等于均值 泊松分布 方差等于均值的平方 伽马分布 方差等于均值的三次方 逆高斯分布
* yi* xi*11 xi*2 2 ... xip p i*
• 再由前面的最小二乘法可得:
( X *T X * )1 X *T y* ( X TWX ) 1 X TWy
• 其中权数矩阵为: w11 W 0 • 和前面一样也有
*
0
• 于是可以得到g(y)的方差为: Var ( g ( y )) GVar ( y )G