广义线性模型

广义线性模型
1．概述
广义线性模型是传统的线性模型的延伸，它是总体均值通过一个非线性连接函数依赖于线性预测值，有许多广泛应用的统计模型都属于广义线性模型，其中包括正态误差的经典性模型，二元数据的对数和概率单位模型以及多项数据的对数线性模型，还有其它许多有用的统计模型，如果选择合适的连接函数和响应概率分布，也可以表示为广义线性模型。
2．线性模型
线性模型也称经典线性模型或一般线性模型，其模型的形式为：
Y XT
其中， yi Y {y1, y2,L , yn} 是因变量的第 i 次观测， xi X {x1, x2,L , xn} 是自变量，它是一个列向量，表示第 i 次观测数据。未知系数向量可以通过对Y 的最小二乘拟合估计，是均值为零，方差为常数的随机变量。
模型的几个基本假设：因变量是连续随机变量自变量相互独立每一个数值型自变量与因变量呈线性关系每一个数值型自变量与随机误差相互独立观察个体的随机误差之间相互独立随机误差{i} ~ N(0, ) 。
然而，实践中常不满足此假设

3．广义线性模型
广义线性模型，是为了克服一般线性模型的缺点出现的，是一般线性模型的推广。
广义线性模型在两个方面对一般线性模型进行了推广：一般线性模型中要求因变量是连续的且服从正态分布，在广义线性模型
中，因变量的分布可扩展到非连续的资料，如二项分布、Poisson 分布、负二项分布等。
一般线性模型中，自变量的线性预测值就是因变量的估计值，而广
义线性模型中，自变量的线性预测值是因变量的函数估计值 g() 。
广义线性模型包括一下组成部分：线性部分正好是一般线性模型所定义的：
i 0 1x1i 2 x2i L m xmi
连接函数( link function)：
i g(i )
连接函数为一单调可微（连续且充分光滑）的函数。连接函数起了关联“Y
的估计值 ”与“自变量的线性预测值 ”的作用。在经典的线性模型中，“Y
的估计值”与“自变量的线性预测”是一回事。广义线性模型建立通过对数据选定因变量和自变量，以及选择合适的连接函数和响应概率分
布，既可以建立一个广义线性模型。例如：一般线性模型
因变量：连续变量分布：正态分布
连接函数：
Logistic 回归模型因变量：（0，1）分布：二项分布连接函数： log( )
1 Poisson 回归模型因变量：计数和个数分布：Poisson 分布

连接函数： log()
参数估计一般线性模型：参数估计采用极大似然法和最小二乘法广义线性模型：参数估计采用极大似然法和加权最小二乘
4. 因变量常见分布及其常用的连接函数
分布
因变量常见分布及其常用的连接函数
概率密度（概率函数）及其主要参数
连接函数
正态分布
Identity
(恒等函数)
逆高斯分布
Inverse squared (平方的倒数)
2
伽玛分布二项分布 Poisson 分布负二项分布多项分布
Inverse （倒数）
1
①Logit：
ln
1
②probit： 1()
Log（对数）
log()
Log（对数）
log()

广义线性模型与汽车保险费率厘定

广义线性模型与汽车保险费率厘定胡三明西南财经大学保险学院【摘要】本文回顾了汽车保险费率厘定模型的发展历程，并对广义线性模型从建模、统计分析、模型的选择与诊断等方面进行了比较系统的介绍，最后通过一个汽车保险的实例来介绍其在分类费率厘定过程中具体运用，具有较强的实践意义。【关键词】广义线性模型分类费率厘定一、导论对于传统费率厘定模型，精算师过于依赖简单的单因素分析法和双因素分析法，其中，单因素分析常受到费率因子间相关性的影响而被扭曲，同时也没有考虑到因子间独立性的影响。对此，精算师在六十年代探索出了迭代模型——最小偏差法，使其得到重大的改进，但仍然没有形成完整的统计框架。最小偏差法试图通过迭代的方法来求出一系列方程的最优解，但它无法测试一个特定的变量的影响效果，同时也不能提供可靠的参数估计范围。广义线性模型（GLM）是传统线性模型以及许多最常见的最小偏差法的延伸，从技术角度看，比标准的迭代模型更有效率，它提供的统计诊断功能，有助于挑选重要的变量并且确认模型的假设条件。如今，广义线性模型在欧盟和许多其他市场，被公认为是对私家车和其他私人业务以及小额的团体业务进行定价的行业标准模型。广义线性模型的个别特例很早就已出现，早在1919年就曾被Fisher使用过，二十世纪四五十年代，Berkson，Dyke和Patterson等人使用过最著名的Logistic模型，1972年Nelder和Wedderburn在一篇论文中率先使用广义线性模型一词，此后相关研究工作逐渐增加，1983年McCullagh和Nelder出版了系统的论著，并于1989年再版。二、广义线性模型（一）、线性模型一个传统的线性模型具有如下形式： ' i i y xβε =+i 其中 i y是响应变量的第i次观测， i x是协变量，表示第i 次观测数据，未知系数向量β通过对数据i y的最小二乘拟合估计出来。假定εi是均值为零，方差为常数的独立正态随机变量。对于一般的线性回归模型(LM)' i i y xβε =+i可以分解为三个要素：LM1：随机要素，即Y服从正态分布， () i E y μ=； LM2：系统要素，' i x ηβ =； LM3：连接要素，ημ =；（二）、广义线性模型尽管传统的线性模型广泛地应用于统计数据分析中，但它却不适合处理如下几类问题： (1) 将数据分布假设为正态分布并不合理； (2) 当数据的均值被限制在一定的范围内时，传统的线性模型就不适用了，因为线性预测值' i xβ可以取任意值； (3) 假定数据的方差对于所有观测都是一个常数并不现实。广义线性模型扩展了传统的线性模型，因此它适用于更广范围的数据分析问题。一个广义线性模型包括以下组成部分： GLM1：随机要素，Y服从比正态分布更一般的分布，即指数族分布； GLM2：系统要素同LM2，即保持线性结构；

广义线性模型

广义线性模型一、广义模型的概念以及指数函数族 1.多元线性回归和正态线性模型 2.指数函数族 3.The Tweedie distribution：特殊的指数指数族一员；在0点有很大的概率并且在非0点有合适的分布；方差与均值的p次幂成正比4.GLM的结构：连接函数、设计矩阵、预估变量、offset变量每个观测的方差取决于：1.模型的方差方程；2.幅度变量；3.每个变量的权重二、构建GLM模型 1.单因子分析：无法反映变量之间的关系,GLM可以排除这类关系，得到相对数的真实值 2.变量、分类因子、交互项目以及线性预测值：（1）权重/暴露（2）反应：模型视图预测的值一般地，模型的名称与反应/权重的含义相同（3）categorical factors and naturally ordered value （4）interaction terms:当某种不同变量的特定组合与分别直接乘以不同变量相对数的经验差异很大时要用到 3. 变量估计：通过逆矩阵相关方法求解三、分析因子的显著性 1. chi-squared、F-statistics、AIC 等统计量

（1）偏离：比较观测值与设定值之间的差距，考虑到权重的影响，并且当方差小时给予误差更大的影响。（2）偏离度调整（3）chi-squared 统计量：模型的自由度定义为观测的数量减去变量的数量 Nested models:可以利用chi-squared来检验偏离度的变化 (4) F-statistics (5)AIC：主要用于模型选择的统计量 AIC=-2*log likelihood+2*number of parameters 是在likelihood 与变量数量之间的权衡，AIC数值越小越好 2.模型变量的不确定性 Hat matrix Likelihood的二阶导数与变量的方差反比例相关 Steep curvature表明变量tightly defined， Shallow curvature 表明变量poorly defined 3.其他方法（1）与预期值相比：每种水平下相对值的变动幅度，同时考虑每个水平下得标准偏差，其值的（2）Comparison with time：model fit line；variation的大小应该与exposure的大小相反不同渠道数据收集上的差异可能导致不一致的发生四、测试模型的适当性

广义线性模型

广义线性模型
1．概述
广义线性模型是传统的线性模型的延伸，它是总体均值通过一个非线性连接函数依赖于线性预测值，有许多广泛应用的统计模型都属于广义线性模型，其中包括正态误差的经典性模型，二元数据的对数和概率单位模型以及多项数据的对数线性模型，还有其它许多有用的统计模型，如果选择合适的连接函数和响应概率分布，也可以表示为广义线性模型。
2．线性模型
线性模型也称经典线性模型或一般线性模型，其模型的形式为：
Y ? XT? ??
其中， yi ?Y ? { y1 , y2 ,?, yn } 是因变量的第 i 次观测， xi ? X ? {x1 , x2 ,?, xn } 是自变量，它是一个列向量，表示第 i 次观测数据。未知系数向量 ? 可以通过对 Y 的最小二乘拟合估计， ? 是均值为零，方差为常数的随机变量。模型的几个基本假设： ? ? ? ? ? ? 因变量是连续随机变量自变量相互独立每一个数值型自变量与因变量呈线性关系每一个数值型自变量与随机误差相互独立观察个体的随机误差之间相互独立随机误差 {? i } ~ N (0,? ) 。
然而，实践中常不满足此假设

3．广义线性模型
广义线性模型，是为了克服一般线性模型的缺点出现的，是一般线性模型的推广。 ? 广义线性模型在两个方面对一般线性模型进行了推广： ? 一般线性模型中要求因变量是连续的且服从正态分布，在广义线性模型中，因变量的分布可扩展到非连续的资料，如二项分布、Poisson 分布、负二项分布等。 ? 一般线性模型中，自变量的线性预测值 ? 就是因变量的估计值 ? ，而广义线性模型中，自变量的线性预测值 ? 是因变量的函数估计值 g ( ? ) 。 ? 广义线性模型包括一下组成部分： ? 线性部分正好是一般线性模型所定义的：
?i ? ?0 ? ?1 x1i ? ?2 x2i ? ? ? ?m xmi
? 连接函数( link function)：
?i ? g (?i )
连接函数为一单调可微（连续且充分光滑）的函数。连接函数起了关联“Y 的估计值 ? ”与“自变量的线性预测值 ? ”的作用。在经典的线性模型中，“Y 的估计值”与“自变量的线性预测”是一回事。 ? 广义线性模型建立通过对数据选定因变量和自变量，以及选择合适的连接函数和响应概率分布，既可以建立一个广义线性模型。例如： ? 一般线性模型因变量：连续变量分布：正态分布连接函数： ? ? ? ? Logistic 回归模型因变量：（0，1）分布：二项分布连接函数： ? ? log(
?
1? ? )
? Poisson 回归模型因变量：计数和个数分布：Poisson 分布

广义线性模型

———————————————————————————————— 作者: ———————————————————————————————— 日期：

广义线性模型
1.概述
广义线性模型是传统的线性模型的延伸,它是总体均值通过一个非线性连接函数依赖于线性预测值,有许多广泛应用的统计模型都属于广义线性模型,其中包括正态误差的经典性模型,二元数据的对数和概率单位模型以及多项数据的对数线性模型,还有其它许多有用的统计模型，如果选择合适的连接函数和响应概率分布,也可以表示为广义线性模型。
2．线性模型
线性模型也称经典线性模型或一般线性模型,其模型的形式为:
Y XT
其中, yi Y {y1, y2, , yn} 是因变量的第ｉ次观测， xi X {x1, x2, , xn} 是自变量，它是一个列向量,表示第 i 次观测数据。未知系数向量可以通过对Y 的最小二乘拟合估计, 是均值为零，方差为常数的随机变量。
模型的几个基本假设: 因变量是连续随机变量自变量相互独立每一个数值型自变量与因变量呈线性关系每一个数值型自变量与随机误差相互独立观察个体的随机误差之间相互独立随机误差{i} ~ N(0, ) 。
然而，实践中常不满足此假设

3．广义线性模型
广义线性模型,是为了克服一般线性模型的缺点出现的，是一般线性模型的推广。
广义线性模型在两个方面对一般线性模型进行了推广：一般线性模型中要求因变量是连续的且服从正态分布,在广义线性模型
中，因变量的分布可扩展到非连续的资料，如二项分布、Poisson 分布、负二项分布等。
一般线性模型中，自变量的线性预测值就是因变量的估计值 ,而广义
线性模型中，自变量的线性预测值是因变量的函数估计值 g() 。
广义线性模型包括一下组成部分：线性部分正好是一般线性模型所定义的:
i 0 1x1i 2 x2i m xmi
连接函数( link ｆｕｎctioｎ):
i g(i )
连接函数为一单调可微(连续且充分光滑)的函数。连接函数起了关联“Y 的
估计值 ”与“自变量的线性预测值 ”的作用。在经典的线性模型中，“Y
的估计值”与“自变量的线性预测”是一回事。广义线性模型建立通过对数据选定因变量和自变量,以及选择合适的连接函数和响应概率分布,
既可以建立一个广义线性模型。例如：一般线性模型
因变量：连续变量分布：正态分布
连接函数:
Logｉstｉｃ回归模型因变量:(０，1) 分布:二项分布连接函数: log( )
1 Ｐoiｓson 回归模型因变量:计数和个数分布:Pｏisson 分布

广义线性模型()

广义线性模型广义线性模型*（Nelder和Wedderburn，1972）除了正态分布，也允许反应分布，以及模型结构中的一定程度的非线性。GLM具有基本结构 g(μi)=X iβ, 其中μi≡E（Yi），g是光滑单调'链接函数'，Xi是模型矩阵的第i行，X和β是未知参数的向量。此外，GLM通常会做出Yi是独立的和Yi服从一些指数族分布的假设。指数族分布包括许多对实际建模有用的分布，如泊松分布，二项分布，伽马分布和正态分布。GLM的综合参考文献是McCullagh和Nelder（1989），而Dobson（2001）提供了一个全面的介绍。因为广义线性模型是以“线性预测器”Xβ的形式详细说明的，所以线性模型的许多一般想法和概念通过一些修改而继续存在到广义线性模型中。除了必须选择的链接函数和分布之外，基本模型公式与线性模型公式基本相同。当然，如果恒等函数被选择作为链接以及正态分布，那么普通线性模型将作为特例被恢复。然而，泛化是以某种成本为代价的：现在的模型拟合必须要迭代完成，而且用于推理的分布结果是近似的，并且由大样本限制结果证明是正确的而不是精确的。但在深入探讨这些问题之前，请考虑几个简单的例子。 μi=cexp(bt i), 例1：在疾病流行的早期阶段，新病例的发生率通常会随着时间以指数方式增加。因此，如果μi是第ti天的新病例的预期数量，则该形式的模型为请注意，“广义”和“一般”线性模型之间存在区别-后一个术语有时用于指除简单直线以外的所有线性模型。可能是合适的，其中c和b是未知参数。通过使用对数链路，这样的模型可以变成GLM形式 log(μi)=log(c)+bt i=β0+t iβ1 （根据β0=logc和β1=b的定义）。请注意，模型的右侧现在在参数中是线性的。反应变量是每天新病例的数量，因为这是一个计数，所以泊松分布可能是一个合理的可以尝试的分布。因此，针对这种情况的GLM使用泊松反应分布，对数链路和线性预测器β0+tiβ1。 , 例2：狩猎动物捕获猎物的速度yi往往随着猎物密度xi的增加而增加，但最终会趋于平衡，当捕食者捕获尽可能多的猎物时。对于这种情况一个合适的模型可能是

广义线性模型

xx线性模型一、xx模型的概念以及指数函数族 1.多元线性回归和正态线性模型 2.指数函数族 3.The Tweedie distribution：特殊的指数族一员；在0点有很大的概率并且在非0点有合适的分布；方差与均值的p次幂成正比 4.GLM的结构：连接函数、设计矩阵、预估变量、offset变量每个观测的方差取决于：1.模型的方差方程；2.幅度变量；3.每个变量的权重二、构建GLM模型 1.单因子分析：无法反映变量之间的关系,GLM可以排除这类关系，得到相对数的真实值 2.变量、分类因子、交互项目以及线性预测值：（1）权重/暴露（2）反应：模型视图预测的值一般地，模型的名称与反应/权重的含义相同（3）categorical factors and naturally ordered value （4）interaction terms: 当某种不同变量的特定组合与分别直接乘以不同变量相对数的经验差异很大时要用到 3.变量估计：

通过逆矩阵相关方法求解三、分析因子的显著性 1.chi-squared、F-statistics、AIC 等统计量（1）偏离：比较观测值与设定值之间的差距，考虑到权重的影响，并且当方差小时给予误差更大的影响。（2）偏离度调整（3）chi-squared 统计量：模型的自由度定义为观测的数量减去变量的数量 Nested models: 可以利用chi-squared来检验偏离度的变化 (4)F-statistics (5)AIC：主要用于模型选择的统计量 AIC=-2*log likelihood+2*number of parameters 是在likelihood 与变量数量之间的权衡，AIC数值越小越好 2.模型变量的不确定性 Hat matrix Likelihood的二阶导数与变量的方差反比例相关 Steep curvature表明变量tightly defined， Shallow curvature 表明变量poorly defined

广义多元线性模型

数据分析基础广义多元线性回归方程的构建

【文献回顾】这是一篇2014年发表在新英格兰医学杂志（影响因子55.8分）的论文[1]，研究妊娠期是否能用抗抑郁药，结果表明妊娠初期使用抗抑郁药不显著增加新生儿心脏畸形。（CONCLUSIONS The results of this large, population-based cohort study suggested no substantial increase in the risk of cardiac malformations attributable to antidepressant use during the first trimester. ）文章统计学方法部分开篇写到：统计学方法里写到的独立作用的风险（absolute risk）是什么？是如何通过回归分析（Logistic-regression analysis）得出的？为什么要这样做？是怎么用软件实现的？上述问题，将在本篇中讲解。

这里指的多元线性模型，是广义线性模型，应变量（Y）的分布类型可以是：正态分布（gaussian）、两分类分布（binomial）、泊松分布、负二项分布等，不同的分布类型对应不同的联系函数f(Y)。 f(Y)=β0+β1*X1+β2*X2+β3*X3+β4*X4+…… 【概念】广义线性模型有两大常用用途： 1.危险因素分析：评价某危险因素（X）对结果变量（Y）有没有独立作用及独立作用的大小的是多少。（最常见） 2.建立预测模型：从一系列 X1、X2、… 中挑选出一个最佳预测模型预测Y的发生。需要注意的是用途不同，构建模型的方法完全不同，对模型的解读完全不同。很多人对此不甚理解，常常用一种逐步回归方法构建危险因素分析的模型，对结果也不知道怎么解读，有很多混淆。这个教程的目的旨在帮助大家理清这个问题。【用途】结果变量（Y）危险因素（X）效应测量统计检验连续性, 如收缩压分类型, 如是否吸烟吸烟者与不吸烟者收缩压的差（β）及其标准误 H0:β=0 连续性, 如收缩压连续性, 如体重指数 BMI每增加一个单位SBP增加多少（β）及其标准误 H0:β=0 分类型, 如是否高血压分类型, 如是否吸烟吸烟者与不吸烟者高血压发生率比（OR）及其95% 可信区间 H0:OR=1 分类型, 如是否高血压连续性, 如体重指数 BMI每增加一个单位高血压发生率比（OR）及其95% 可信区间 H0:OR=1 流行病学分析是为了确定危险因素与结果变量之间是否有联系，危险因素对结果变量的作用大小（即效应）。表1 效应的估计和结果变量与危险因素的类型