第十一章多元线性回归与logistic回归

合集下载

logistic回归和线性回归

logistic回归和线性回归1.输出：线性回归输出是连续的、具体的值（如具体房价123万元）回归逻辑回归的输出是0~1之间的概率，但可以把它理解成回答“是”或者“否”（即离散的⼆分类）的问题分类2.假设函数线性回归：θ数量与x的维度相同。

x是向量，表⽰⼀条训练数据逻辑回归：增加了sigmoid函数逻辑斯蒂回归是针对线性可分问题的⼀种易于实现⽽且性能优异的分类模型，是使⽤最为⼴泛的分类模型之⼀。

sigmoid函数来由假设某件事发⽣的概率为p，那么这件事不发⽣的概率为(1-p)，我们称p/(1-p)为这件事情发⽣的⼏率。

取这件事情发⽣⼏率的对数，定义为logit(p)，所以logit(p)为因为logit函数的输⼊取值范围为[0,1](因为p为某件事情发⽣的概率)，所以通过logit函数可以将输⼊区间为[0,1]转换到整个实数范围内的输出,log函数图像如下将对数⼏率记为输⼊特征值的线性表达式如下：其中,p(y=1|x)为，当输⼊为x时，它被分为1类的概率为hθ(x)，也属于1类别的条件概率。

⽽实际上我们需要的是给定⼀个样本的特征输⼊x，⽽输出是⼀个该样本属于某类别的概率。

所以，我们取logit函数的反函数，也被称为logistic函数也就是sigmoid函数ϕ(z)中的z为样本特征与权重的线性组合（即前⾯的ΘT x）。

通过函数图像可以发现sigmoid函数的⼏个特点，当z趋于正⽆穷⼤的时候，ϕ(z)趋近于1，因为当z趋于⽆穷⼤的时候，e^(-z)趋于零，所以分母会趋于1，当z趋于负⽆穷⼤的时候，e^(-z)会趋于正⽆穷⼤，所以ϕ(z)会趋于0。

如在预测天⽓的时候，我们需要预测出明天属于晴天和⾬天的概率，已知根天⽓相关的特征和权重，定义y=1为晴天，y=-1为⾬天，根据天⽓的相关特征和权重可以获得z，然后再通过sigmoid函数可以获取到明天属于晴天的概率ϕ(z)=P(y=1|x)，如果属于晴天的概率为80%，属于⾬天的概率为20%，那么当ϕ(z)>=0.8时，就属于⾬天，⼩于0.8时就属于晴天。

多元Logistic回归分析

data eg7_1a;
input y x wt @@; cards;
11 7
1 0 13
0 1 46 0 0 229 ; run; proc logistic descending ;
model y=x ;
weight wt;
run;
SAS程序
16
第十六页，编辑于星期五：五点十七分。
The LOGISTIC Procedure
1、什么是Logistic 回归分析？
研究因变量y取某个值的概率变量p与自变量x的依存关系。
p=p(y=1|x)=f(x)
8
第八页，编辑于星期五：五点十七分。
2、Logistic回归分析的分类
• 按数据的类型：
Logistic回归分析
– 非条件logistic回归分析（成组数据）
– 条件logistic回归分析（配对病例-对照数据）
Ratio
ቤተ መጻሕፍቲ ባይዱ
INTERCPT 1 -2.8688 0.2851 101.2408
0.0001
..
X
1
0.9860 0.4959 3.9542 0.0468
2.069569 2.681
18
第十八页，编辑于星期五：五点十七分。
结果：参数估计： a=-2.869 (p=0.0001),
b= 0.986 (p=0.0468). 模型检验： χ2=3.576, df=1, p=0.0586
2、自变量birthwt 的回归系数在统计意义上不等于0 (p=0.0001)，因此，OR=0.996在统计意义上不等于1。
OR=0.996 说明新生儿出生体重每增加一个单位(g)，患
BPD病的机会就会减少大约0.4% 。即患bpd病的概率随新生儿出生体重的增加而下降。

logistic回归分析PPT优秀课件

（2）线性回归分析：由于因变量是分类变量，不能满足其正态性要求；有些自变量对因变量的影响并非线性。
2
logistic回归:不仅适用于病因学分析，也可用于其他方面的研究，研究某个二分类（或无序及有序多分类）目标变量与有关因素的关系。
logistic回归的分类：（1）二分类资料logistic回归：因变量为两分类变量的资料，可用
非条件logistic回归和条件logistic回归进行分析。非条件logistic回归多用于非配比病例-对照研究或队列研究资料，条件logistic回归多用于配对或配比资料。（2）多分类资料logistic回归：因变量为多项分类的资料，可用多项分类logistic回归模型或有序分类logistic回归模型进行分析。
比较
调查方向：收集回顾性资料
人数暴露
疾病
a/(a+b) c/(c+d)
a
+
b
-
病例
c
病例对照原理示意图
6
是否暴露暴露组未暴露组合计
病例 a c a+c
对照 b d b+d
合计 a+b(n1) c+d(n2) n
比数比（odds ratio、OR）：病例对照研究中表示疾病与暴露间
联系强度的指标，也称比值比。
相对危险度RR的本质是暴露组与非暴露组发病率之比或发病概率之比。但病例对照研究不能计算发病率，只能计算比值比OR值。 OR与RR的含义是相同的，也是指暴露组的疾病危险性为非暴露组的多少倍。当疾病发病率小于5%时，OR是RR的极好近似值。
OR>1,说明该因素使疾病的危险性增加，为危险因素；
OR<1,说明该因素使疾病的危险性减小，为保护因素；

回归分析线性回归Logistic回归对数线性模型

模型
逻辑回归的模型为 (P(Y=1) = frac{1}{1+e^{-z}})，其中 (z = beta_0 + beta_1X_1 + beta_2X_2 + ... + beta_nX_n)。
逻辑斯蒂函数
பைடு நூலகம்
定义
逻辑斯蒂函数是逻辑回归模型中用来描述自变量与因变量之间关系的函数，其形式为 (f(x) = frac{1}{1+e^{-x}})。
。
在样本量较小的情况下， logistic回归的预测精度可能高于线性回归。
线性回归的系数解释较为直观，而logistic回归的系数解释相对较为复杂。
对数线性模型与其他模型的比较
对数线性模型假设因变量和自变量之间存在对数关系，而其他模型的假设条件各不相同。
对数线性模型的解释性较强，可以用于探索自变量之间的交互作用和效应大小。
THANKS
感谢您的观看
预测市场细分中的消费者行为等。
对数线性模型还可以用于探索性数据分析，以发现数据中的模式和关联。
Part
04
比较与选择
线性回归与logistic回归的比较
线性回归适用于因变量和自变量之间存在线性关系的场景，而logistic回归适用于因变量为
二分类或多分类的场景。
线性回归的假设条件较为严格，要求因变量和自变量之间存在严格的线性关系，而logistic 回归的假设条件相对较为宽松
最小二乘法
最小二乘法是一种数学优化技术，用于最小化预测值与实际观测值之间的平方误差总和。
通过最小二乘法，可以估计回归系数，使得预测值与实际观测值之间的差距最小化。
最小二乘法的数学公式为：最小化 Σ(Yi - (β0 + β1X1i + β2X2i + ...))^2，其中Yi是实际观测值，X1i, X2i, ...是自变量的观测值。

《多元Logistic回归》课件

交叉验证是一种评估模型泛化能力的手段，通过将数据集分成训练集和验证集，反复训练和验证模型，以获得更可靠的评估结果。常用的交叉验证方法有k-fold交叉验证、留出交叉验证等。
03
多元Logistic回归的实现步骤
数据预处理：特征选择、缺失值处理等
特征选择
选择与目标变量相关的特征，去除无关或冗余特征，提高模型的预测性能。
多元Logistic回归与一元Logistic回归的区别
一元Logistic回归只涉及一个自变量，而多元 Logistic回归涉及多个自变量。
多元Logistic回归能够同时处理多个特征，更准确地描述数据的复杂关系，提高预测精度。
多元Logistic回归需要更多的数据和计算资源，因为需要迭代计算每个特征与因变量言 • 多元Logistic回归的原理 • 多元Logistic回归的实现步骤 • 多元Logistic回归的优缺点 • 多元Logistic回归的案例分析 • 总结与展望
01
引言
多元Logistic回归的定义
多元Logistic回归是一种用于处理分类问题的统计方法，它通过将多个自变量与因变量之间的关系转换为概率形式，从而对因变量进行预测。
结果。
它能够提供每个类别的预测概率，这在某些情况下非常有用，例如在医学诊断中确定疾病的风险
。
多元Logistic回归在处理分类问题时具有较高的预测精度和稳定
性。
缺点
多元Logistic回归对数据的分布假设较为严格，通常要求数据呈正态分布或近似正态分布。
它还假设自变量与因变量之间存在线性关系，这在某些情况下可能不成立，导致模型的预
案例三：用户点击率预测
总结词
用户点击率预测是多元Logistic回归在互联网广告领域的典型应用，通过分析用户行为和广告特征，预测用户是否会点击广告。

logistic回归与多元线性回归区别及若干问题讨论

logistic回归与多元线性回归区别及若干问题讨论logistic回归与多元线性回归区别及若干问题讨论1多重线性回归(MultipleLinearRegression)Logistic回归(LogisticRegression)概念多重线性回归模型可视为简单直线模型的直接推广，具有两个及两个以上自变量的线性模型即为多重线性回归模型。

属于概率型非线性回归，是研究二分类(可扩展到多分类)观察结果与一些影响因素之间关系的一种多变量分析方法。

变量的特点应变量：1个；数值变量（正态分布)自变量：2个及2个以上；最好是数值变量，也可以是无序分类变量、有序变量。

应变量：1个；二分类变量（二项分布）、无序/有序多分类变量自变量：2个及2个以上；数值变量、二分类变量、无序/有序多分类变量总体回归模型LogitP=(样本)偏回归系数含义表示在控制其它因素或说扣除其它因素的作用后(其它所有自变量固定不变的情况下)，某一个自变量变化一个单位时引起因变量Y变化的平均大小。

表示在控制其它因素或说扣除其它因素的作用后(其它所有自变量固定不变的情况下)，某一因素改变一个单位时，效应指标发生与不发生事件的概率之比的对数变化值(logitP的平均变化量)，即lnOR。

适用条件LINE：1、L：线性——自变量X与应变量Y之间存在线性关系；2、I：独立性——Y 值相互独立，在模型中则要求残差相互独立，不存在自相关；3、N：正态性——随机误差（即残差）e服从均值为零，方差为２的正态分布；4、E：等方差——对于所有的自变量X，残差e的方差齐。

观察对象（case）之间相互独立；若有数值变量，应接近正态分布（不能严重偏离正态分布）；二分类变量服从二项分布；要有足够的样本量；LogitP与自变量呈线性关系。

Logistic回归分析及应用讲课文档

第二十九页，共76页。
第三十页，共76页。
第三十一页，共76页。
第三十二页，共76页。
第三十三页，共76页。
第三十四页，共76页。
第三十五页，共76页。
第三十六页，共76页。
3、逐步Logistic回归分析
（1）向前法(forward selection)
开始方程中没有变量，自变量由少到多一个一个引入回归方程。按自变量对因变量的贡献（P值的大小）由小到大依次挑选，变量入选的条件是其P值小于规定进入方程的P界值Enter, 缺省值 P(0.05)。
除变量量纲的影响，为此计算标准化回归系数
bi' bi *Si / Sy,其中 Si为Xi的标准差 Sy为y的标准差。
第十五页，共76页。
5.假设检验
• （1）回归方程的假设检验
• H0：所有 i0,i0,1,2,,p H1：某个 i 0
• 计算统计量为：G=-2lnL，服从自由度等于n-p
• 的 2 分布
• 对子号
病例
对照
•
x1 x2 x3 x1 x2 x3
•1
13 0
101
•2
03 1
130
•3
01 2
020
•…
… … … ………
• 10
22 2
000
• 注：X1蛋白质摄入量，取值：0，1，2，3
•
X2不良饮食习惯，取值：0，1，2，3
•
X3精神状况，取值：0，1，2
•
第十页，共76页。
Logistic回归
Logit(P)=-9.7544+2.5152X1+3.9849X2+0.1884X31.3037X4.

《logistic回归》课件

03
易于理解和实现：由于基于逻辑函数，模型输出结果易于解释，且实现简单。
Logistic回归的优势与不足
• 稳定性好：在数据量较小或特征维度较高时，Logistic回归的预测结果相对稳定。
Logistic回归的优势与不足
01
不足：
02
对数据预处理要求高：需要对输入数据进行标准化或归一化处理，以避免特征间的尺度差异对模型的影响。
模型假设
01
线性关系
因变量与自变量之间存在线性关系。
无自相关
因变量与自变量之间不存在自相关。
03
02
无多重共线性
自变量之间不存在多重共线性，即自变量之间相互独立。
随机误差项
误差项是独立的，且服从二项分布。
04
模型参数求解
最大似然估计法
通过最大化似然函数来求解模型参数。
梯度下降法
通过最小化损失函数来求解模型参数。
特征选择与降维
在处理大数据集时，特征选择和降维是提高模型性能和可解释性的重要手段。
通过使用诸如逐步回归、LASSO回归等方法，可以自动选择对模型贡献最大的特征，从而减少特征数量并提高模型的泛化能力。
降维技术如主成分分析（PCA）可以将高维特征转换为低维特征，简化数据结构并揭示数据中的潜在模式。
迭代法
通过迭代的方式逐步逼近最优解。
牛顿法
利用牛顿迭代公式求解模型参数。
模型评估指标
准确率
正确预测的样本数占总样本数的比例。
精度
预测为正例的样本中实际为正例的比例。
召回率
实际为正例的样本中被预测为正例的比例。
F1分数
精度和召回率的调和平均数，用于综合评估模型性能。

1、下载文档前请自行甄别文档内容的完整性，平台不提供额外的编辑、内容补充、找答案等附加服务。
2、"仅部分预览"的文档,不可在线预览部分如存在完整性等问题,可反馈申请退款(可完整预览的文档不适用该条件!)。
3、如文档侵犯您的权益，请联系客服反馈,我们会尽快为您处理(人工客服工作时间：9:00-18:30)。

第十一章多元线性回归与logistic 回归一、教学大纲要求（一）掌握内容1．多元线性回归分析的概念：多元线性回归、偏回归系数、残差。

2．多元线性回归的分析步骤：多元线性回归中偏回归系数及常数项的求法、多元线性回归的应用。

3．多元线性回归分析中的假设检验：建立假设、计算检验统计量、确定P 值下结论。

4．logistic 回归模型结构：模型结构、发病概率比数、比数比。

5．logistic 回归参数估计方法。

6．logistic 回归筛选自变量：似然比检验统计量的计算公式；筛选自变量的方法。

（二）熟悉内容常用统计软件（SPSS 及SAS ）多元线性回归分析方法：数据准备、操作步骤与结果输出。

（三）了解内容标准化偏回归系数的解释意义。

二、教学内容精要(一) 多元线性回归分析的概念将直线回归分析方法加以推广，用回归方程定量地刻画一个应变量Y 与多个自变量X 间的线形依存关系，称为多元线形回归（multiple linear regression ），简称多元回归（multiple regression ）基本形式：01122ˆk kY b b X b X b X =+++⋅⋅⋅+ 式中Y ˆ为各自变量取某定值条件下应变量均数的估计值，1X ，2X ，…，kX 为自变量，k 为自变量个数，0b 为回归方程常数项，也称为截距，其意义同直线回归，1b ，2b ，…, k b 称为偏回归系数（partial regression coefficient ），j b 表示在除j X 以外的自变量固定条件下，j X 每改变一个单位后Y 的平均改变量。

(二) 多元线性回归的分析步骤Y ˆ是与一组自变量1X ，2X ，…，kX 相对应的变量Y 的平均估计值。

多元回归方程中的回归系数1b ，2b ，…, k b 可用最小二乘法求得，也就是求出能使估计值Y ˆ和实际观察值Y 的残差平方和22)ˆ(∑∑-=Y Y e i 为最小值的一组回归系数1b ，2b ，…,k b 值。

根据以上要求，用数学方法可以得出求回归系数1b ，2b ，…, k b 的下列正规方程组（normal equation ）：⎪⎪⎩⎪⎪⎨⎧=+++=+++=+++ky kk k k k yk k y k k l l b l b l b l l b l b l b l l b l b l b 22112222221111122111式中()()()()i j ij ji i i j j i j X X l l X X X X X X n==--=-∑∑∑∑∑∑∑∑-=--=nY X Y X Y Y X Xl i i i iiy ))(())((常数项0b 可用下式求出：k k X b X b X b Y b ----= 22110（三）多元线性回归分析中的假设检验在算得各回归系数并建立回归方程后，还应对此多元回归方程作假设检验，判断自变量1X ，2X ，…，k X 是否与Y 真有线性依存关系，也就是检验无效假设0H （1230k ββββ===== ）, 备选假设1H 为各j β值不全等于0或全不等于0。

检验时常用统计量F)1(--==k n l k l MS MS F 误差回归误差回归式中n 为个体数，k 为自变量的个数。

式中 ky k y y l b l b l b l +++= 2211回归回归总误差l l l -=()∑=-=yy l Y Y l 2总(四) logistic 回归模型结构设k X X X ,,,21 为一组自变量，Y 为应变量。

当Y 是阳性反应时，记为Y =1；当Y 是阴性反应时，记为Y =0。

用P 表示发生阳性反应的概率；用Q 表示发生阴性反应的概率，显然P +Q =1。

Logistic 回归模型为：kk kk X X X X X X e e P ββββββββ+++++++++=22110221101同时可以写成：kk X X X e Q ββββ+++++=2211011式中0β是常数项；(12)j j k β= ，，，是与研究因素j X 有关的参数，称为偏回归系数。

事件发生的概率P 与x β之间呈曲线关系，当x β在()∞∞-，之间变化时， P 或Q 在（0，1）之间变化。

若有n 例观察对象，第i 名观察对象在自变量ik i i X X X ,,,21 作用下的应变量为i Y ，阳性反应记为i Y =1，否则i Y =0。

相应地用i P 表示其发生阳性反应的概率；用i Q 表示其发生阴性反应的概率，仍然有i P +i Q =1。

i P 和i Q 的计算如下：01122011221i i k iki i k ikX X X X X X P i e e ββββββββ++++++++=+0112211i i k iki X X X Q e ββββ++++=+这样，第i 个观察对象的发病概率比数（odds ）为i i Q P ，第l 个观察对象的发病概率比数为l l Q P ，而这两个观察对象的发病概率比数之比值便称为比数比OR （odds ratio ）。

对比数比取自然对数得到关系式：ln )()()(222111lk ik k l i l i l l i i X X X X X X Q P Q P -++-+-=⎪⎪⎭⎫⎝⎛βββ 等式左边是比数比的自然对数，等式右边的()ljij X X -()k j ，，， 21=是同一因素iX的不同暴露水平ij X 与lj X 之差。

j β的流行病学意义是在其它自变量固定不变的情况下，自变量j X 的暴露水平每改变一个测量单位时所引起的比数比的自然对数改变量。

或者说，在其他自变量固定不变的情况下，当自变量j X 的水平每增加一个测量单位时所引起的比数比为增加前的jeβ倍。

同多元线性回归一样，在比较暴露因素对反应变量相对贡献的大小时，由于各自变量的取值单位不同，也不能用偏回归系数的大小作比较，而须用标准化偏回归系数来做比较。

标准化偏回归系数值的大小，直接反映了其相应的暴露因素对应变量的相对贡献的大小。

标准化偏回归系数的计算，可利用有关统计软件在计算机上解决。

（五）logistic 回归参数估计由于logistic 回归是一种概率模型，通常用最大似然估计法（maximum likelihood estimate ）求解模型中参数j β的估计值(12)j b j k = ，，，。

Y 为在k X X X ,,,21 作用下的阳性事件（或疾病）发生的指示变量。

其赋值为：⎩⎨⎧=应个观察对象出现阴性反，第应个观察对象出现阳性反，第i i Y i 01第i 个观察对象对似然函数的贡献量为：1i iY Y i i il P Q -= 当各事件是独立发生时，则n 个观察对象所构成的似然函数L 是每个观察对象的似然函数贡献量的乘积，即∏∏==-==n i ni Y i Y i i i i Q P l L 111式中∏为i 从1到n 的连乘积。

依最大似然估计法的原理，使得L 达到最大时的参数值即为所求的参数估计值，计算时通常是将该似然函数取自然对数（称为对数似然函数）后，用Newton —Raphson 迭代算法求解参数估计值)21(k j bj，，， =。

（六）logistic 回归筛选自变量在logistic 回归中，筛选自变量的方法有似然比检验（likelihood ratiotest ）、计分检验(score test)、Wald 检验(Wald test)三种。

其中似然比检验较为常用，用Λ表示似然比检验统计量，计算公式为：())ln (ln 2ln 2''L L L L -==Λ式中ln 为自然对数的符号，L 为方程中包含)(k m m <个自变量的似然函数值，'L 为在方程中包含原m 个自变量的基础上再加入1个新自变量j X 后的似然函数值。

在无效假设0H 条件下，统计量Λ服从自由度为1的2χ分布。

当2)1(αχ≥Λ时，则在α水平上拒绝无效假设，即认为j X 对回归方程的贡献具有统计学意义，应将j X 引入到回归方程中；否则，不应加入。

逆向进行即可剔除自变量。

三、典型试题分析（一）单项选择题1．多元线性回归分析中，反映回归平方和在应变量Y 的总离均差平方和中所占比重的统计量是（）。

A ．复相关系数B ．偏相关系数C ．偏回归系数D ．确定系数答案：D[评析] 本题考点：多元线性回归中的几个概念的理解。

多元线性回归中的偏回归系数（multiple linear regression ）表示在其它自变量固定不变的情况下，自变量j X 每改变一个单位时，单独引起应变量Y 的平均改变量。

确定系数（coefficient of determination ）表示回归平方和回归SS 占总离均差平方和总SS 的比例，简记为2R 。

即总回归SS SS R =2。

确定系数的平方根即R 称为复相关系数（multiple correlation coefficient ）,它表示p 个自变量共同对应变量线性相关的密切程度，它不取负值，即0≤R ≤1。

2．Logistic 回归分析适用于应变量为（）。

A ．分类值的资料B ．连续型的计量资料C ．正态分布资料D ．一般资料答案：A[评析] 本题考点：logistic 回归的概念。

logistic 回归属于概率型回归，可用来分析某类事件发生的概率与自变量之间的关系。

适用于应变量为分类值的资料，特别适用于应变量为二项分类的情形。

模型中的自变量可以是定性离散值，也可以是计量观测值。

（二）计算题根据表11-2数据，分别用SPSS 统计软件、SAS 统计软件写出多元线性回归的统计分析步骤及其简要结果。

表11-1 某学校20名一年级女大学生肺活量及有关变量测量结果编号体重1X /kg 胸围2X /cm 肩宽3X /cm 肺活量Y /L1 50.8 73.2 36.3 2.96 2 49.0 84.1 34.5 3.13 3 42.8 78.3 31.0 1.914 55.0 77.1 31.0 2.635 45.3 81.7 30.0 2.86 6 45.3 74.8 32.0 1.917 51.4 73.7 36.5 2.98 8 53.8 79.4 37.0 3.289 49.0 72.6 30.1 2.52 10 53.9 79.5 37.1 3.27 11 48.8 83.8 33.9 3.10 12 52.6 88.4 38.0 3.28 13 42.7 78.2 30.9 1.92 14 52.5 88.3 38.1 3.27 15 55.1 77.2 31.1 2.64 16 45.2 81.6 30.2 2.85 17 51.4 78.3 36.5 3.16 18 48.7 72.5 30.0 2.51 19 51.3 78.2 36.4 3.15 20 45.8 75.0 32.5 1.94 答案：SPSS ：数据文件：“EXAP11—2．sav ”。