第六章 Logistic回归

合集下载

《Logistic回归》课件

公式
f(x)=1/(1+e^-x)其中，x是一个实数，源自表示自然对数的底数。特点
• 输出范围在0-1之间，代表了一个概率值；
• 函数有单峰性，中心对称，可以确定最大值和
• 最在小输值入；接近0时函数近似于线性函数。
应用场景：二元Logistic回归
乳腺癌预测
贷款审核
二元Logistic回归被广泛应用于医学界用于识别患有乳腺癌的女性。
数据预处理
4
的潜在关系和规律。
对需要进行缩放、归一化、标准化等处
理的变量进行预处理。
5
模型拟合
将数据划分训练集和测试集，通过模型对训练集进行拟合，并评估模型预测能力。
模型评估方法
混淆矩阵
将预测结果与真实结果进行比对，计算假正率、假负率、真正率和真负率等指标。
ROC曲线
通过绘制真正率与假正率的曲线，评估模型的预测能力。
AUC指标
ROC曲线下的面积就是AUC，AUC越大说明模型预测结果越准确。
常见模型优化方法
1 数据增强
通过合成数据或者样本扩增等方法，增加数据量，提高模型泛化性能。
2 特征选择
选择对于问题最重要的变量，避免过拟合。
3 模型集成
通过结合多个模型的结果，提高整体预测能力。
应用探索：Logistic回归的扩展
2 作用
通过逻辑函数将线性变量转化为概率值，从而进行二元分类。
3 优点
简单易懂、易于解释和使用，对于大规模数据集有效率。
4 缺点
只适用于二元分类问题，并且在分类较为复杂的非线性问题上表现较差。
sigmoid函数
介绍
sigmoid函数是Logistic回归模型中核心的激活函数，将输入值映射到0-1的概率分布区间内。

logistic回归

Logistic回归是适用于反应变量（即因变量）为分类变量的回归分析，近年来在许多研究领域得到了广泛的应用。 Logistic归按照反应变量的类型可分为：两分类反应变量的Logistic回归; 多分类有序反应变量的Logistic回归; 多分类无序反应变量的Logistic回归。 Logistic回归按照研究设计的类型可分为：非条件Logistic回归，即研究对象未经匹配; 1:1的条件Logistic回归，即研究对象按1:1进行匹配; 1:m或m:n的条件Logistic回归，即研究对象按1:m或m:n 进行匹配。
b'j 来计算标准化回归系数
,式中bj是我们通常所指的回
3 1.8138
归参数，即偏回归系数；Sj为第j自变量的标准差；S是
logistic随机变量分布函数的标准差，为 /
每个参数的以e为底的指数就是每个自变量对应的优势比（ odds
ratio，OR），即 ORj＝exp(bj)，ORj值的100（1-α）％可信区间为： exp[bj±1.96 SE（bj）] （16-7）
自变量 (x)
累计发病率P（%）
Logit值
2.3 2.6 2.8 2.9 3.0 3.08
0.1537 0.3829 0.6383 0.7779 0.8519 0.8519
-1.71 -0.48 0.57 1.25 1.75 1.75
Logit=Ln[p/(1-p)]
剂量与效应关系的“S”型曲线
线的形状与方向。随着X的增加，正β值对应的曲线呈上升趋势（见图
16-1），负β值对应的曲线是下降趋势。β＝0时，S形曲线变成水平直线，表示π与自变量X无关；β的绝对值增加，曲线形状逐渐陡峭；β的绝对值减少，曲线形状逐渐平坦。当预报概率π为0.5时，由式（16-2）可得对应的X＝-β0/β，实例有X ＝-（-1.4351）/1.6582＝0.8655。此X值有时被称为中效水平（median effective level，EL50），代表了二种结局出现的概率各为 50

logistics回归的原理

logistics回归的原理
Logistic回归是一种用于解决二元分类问题的机器学习算法。

它基于逻辑函数（也称为sigmoid函数）的概念，并通过最大
似然估计来确定模型参数。

Logistic回归的原理可以概括为以下步骤：
1. 数据准备：收集并准备训练数据集，包括输入特征（自变量）和对应的类别标签（因变量）。

2. 特征缩放：对输入特征进行缩放，以确保它们在相似的范围内。

3. 参数初始化：初始化模型的权重和截距。

4. Sigmoid函数：定义Sigmoid函数，它将输入转换为0到1
之间的概率值。

5. 模型训练：使用最大似然估计法来最小化损失函数，以找到最佳模型参数。

通常使用梯度下降等优化算法来实现。

6. 模型预测：使用训练得到的模型参数，对新的输入样本进行预测。

根据预测概率值，可以将样本分类为两个类别之一。

Logistic回归的核心思想是通过sigmoid函数将线性回归模型
的输出映射到概率。

它假设数据服从伯努利分布，并对给定输入特征的条件下属于某个类别的概率进行建模。

通过最大似然估计，可以找到最优的模型参数，使得预测的概率尽可能接近真实标签的概率。

总结起来，Logistic回归的原理是利用最大似然估计来建模分
类问题中的概率，并使用sigmoid函数将线性模型的输出映射到概率范围内。

6.1第六章回归分析

第六章回归分析
变量之间的联系
确定型的关系：指某一个或某几个现象的变动必然会引起另一个现象确定的变动，他们之间的关系可以使用数学函数式确切地表达出来，即y=f(x)。当知道x的数值时，就可以计算出确切的y值来。如圆的周长与半径的关系：周长=2πr。非确定关系：例如，在发育阶段，随年龄的增长，人的身高会增加。但不能根据年龄找到确定的身高，即不能得出11岁儿童身高一定就是1米40公分。年龄与身高的关系不能用一般的函数关系来表达。研究变量之间既存在又不确定的相互关系及其密切程度的分析称为相关分析。
（3）方差齐性检验
方差齐性是指残差的分布是常数，与预测变量或因变量无关。即残差应随机的分布在一条穿过0点的水平直线的两侧。在实际应用中，一般是绘制因变量预测值与学生残差（或标准化残差）的散点图。在线性回归Plots对话框中的源变量表中,选择SRESID或ZRESID（学生氏残差或标准化残差）做Y轴；选择ZPRED（标准化预测值）做X轴就可以在执行后的输出信息中显示检验方差齐性的散点图。
要认真检查数据的合理性。
2、选择自变量和因变量
3、选择回归分析方法
Enter选项，强行进入法，即所选择的自变量全部进人回归模型，该
选项是默认方式。
Remove选项，消去法，建立的回归方程时，根
据设定的条件剔除部分
自变量。
选择回归分析方法
Forward选项，向前选择法，根据在option对话框中所设定的判据，从无自变量开始。在拟合过程中，对被选择的自变量进行方差分析，每次加入一个F值最大的变量，直至所有符合判据的变量都进入模型为止。第一个引入归模型的变量应该与因变量间相关系数绝对值最大。
得到它们的均方。

logistic 回归函数

logistic 回归函数Logistic回归函数是一种常用的分类算法，它可以根据输入变量的线性组合来预测二元分类的概率。

在本文中，我们将介绍Logistic 回归函数的原理、应用场景以及如何使用Python来实现。

让我们来了解一下Logistic回归函数的原理。

Logistic回归函数可以看作是在线性回归模型的基础上加上了一个非线性的映射函数，该映射函数被称为Logistic函数或Sigmoid函数。

Logistic函数的表达式为：$$f(x) = \frac{1}{1+e^{-x}}$$其中，x为输入变量的线性组合。

Logistic函数的特点是将输入的实数映射到了(0,1)的区间内，这个区间可以看作是一个概率的范围。

当x趋向于正无穷时，f(x)趋向于1；当x趋向于负无穷时，f(x)趋向于0。

因此，我们可以将f(x)看作是预测样本属于某个类别的概率。

Logistic回归函数的应用场景非常广泛。

一般来说，当我们需要对一个样本进行分类，并且样本的特征是连续的或者离散的，都可以考虑使用Logistic回归函数。

例如，我们可以使用Logistic回归函数来预测用户点击广告的概率，或者预测某个疾病的患病概率等等。

接下来，让我们通过一个具体的例子来演示如何使用Python来实现Logistic回归函数。

假设我们有一个数据集，其中包含了一些患有某种疾病的人的年龄和血压信息，我们的目标是根据这些信息来判断一个人是否患有该疾病。

首先，我们需要导入必要的库和加载数据集：```import numpy as npimport pandas as pdimport matplotlib.pyplot as pltdata = pd.read_csv('data.csv')```接下来，我们需要对数据进行预处理，包括数据清洗、特征选择和数据划分等步骤。

然后，我们可以使用sklearn库中的LogisticRegression类来构建Logistic回归模型，并进行训练和预测：```from sklearn.linear_model import LogisticRegressionfrom sklearn.model_selection import train_test_split# 特征选择X = data[['age', 'blood_pressure']]y = data['disease']# 数据划分X_train, X_test, y_train, y_test = train_test_split(X, y, test_size=0.2, random_state=0)# 构建模型model = LogisticRegression()# 模型训练model.fit(X_train, y_train)# 模型预测y_pred = model.predict(X_test)```我们可以使用一些评估指标来评估模型的性能，例如准确率、精确率、召回率和F1值等：```from sklearn.metrics import accuracy_score, precision_score, recall_score, f1_score# 计算准确率accuracy = accuracy_score(y_test, y_pred)# 计算精确率precision = precision_score(y_test, y_pred)# 计算召回率recall = recall_score(y_test, y_pred)# 计算F1值f1 = f1_score(y_test, y_pred)```通过以上步骤，我们就可以完成Logistic回归函数的实现和模型评估。

第6章逻辑斯蒂回归模型

probit[π ( x)] = α + β x
–其中probit变换是将概率变换为标准正态分布的 z −值，形式为：
Logistic回归模型
–双对数变换的形式为：
f ( p ) = ln(− ln(1 − p ))
• 以上变换中以logit变换应最为广泛。 • 假设响应变量Y是二分变量，令 p = P(Y = 1) ,影响Y 的因素有k个 x1 ,L xk ，则称：
β • 其中， 0 , β1 ,L , β k 是待估参数。根据上式可以得到优势的值： p β + β x +L+ β x
1− p
=e
0
1 1
k k
• 可以看出，参数 βi是控制其它 x 时 xi 每增加一个单位对优势产生的乘积效应。 • 概率p的值： e β + β x +L+ β x
p=
0 1 1 k k
含有名义数据的logit
• 前例中的协变量为定量数据，logistic回归模型的协变量可以是定性名义数据。这就需要对名义数据进行赋值。 • 通常某个名义数据有k个状态，则定义个变量 M 1 ,L , M k −1 代表前面的k-1状态，最后令k-1变量均为0或-1来代表第k个状态。 • 如婚姻状况有四种状态：未婚、有配偶、丧偶和离婚，则可以定义三个指示变量M1、M2、M3，用(1,0,0)、 (0,1,0) 、(0,0,1) 、(0,0,0)或(-1,-1,-1) 来对以上四种状态赋值。
G 2 = −2 ∑ 观测值[ln(观测值/拟合值)]
• 卡方的df应等于观测的组数与模型参数的差，较小的统计量的值和较大的P-值说明模型拟合不错。 • 当至多只有几个解释变量且这些解释变量为属性变量，并且所有的单元频数不少于5时，以上统计量近似服从卡方分布。

统计学原理第六章专题 logistic回归

logit P为优比之对数(log odds)
logit
P
ˆ
ln
1
P P
Logistic回归分析
一般地，拟合回归模型时,是要建立属性变量(因变量)取某种状态的概率pi关于自变量的关系式.自变量若也是属性的变量,应先把它数量化.比如自变量x取k种不同的状态,引入k-1个标识变量zi(i=1,...,k-1)作为自变量.其中
变量名
WEIGHT SEX MONTH/t MAGE FAGE YC
CC ZRLC RGLC MSB MSA FSB FSA MDB FDB MDA JWBS ET XZLC PX RGZ JSCS
取值
1=体重<2500g，0=体重>=2500 1=男，0=女 1月~12月岁
岁
1=第1次，2=第2次，…
Logistic回归分析
Logistic回归分析--优比率
在这两种情况下,Y=1发生的优比率(Odds
exp( ) Ratio)为 exp(0 1)
exp( 0 )
1
当得到Logistic回归的回归系数估计b后,就可
得到关于Y=1发生优比率的估计值:
优比率=exp(b).
此例的优比率为1.549,表示利用拟合的回归式预测女性购买100元以上商品的优比为男性的 1.549倍.
Logistic回归分析
Logit 函数 :Y=Logit(p) 的图形如下(随p
由0变到1,Y的值由-∞单调上升到∞) :
Logistic回归分析
当p在(0,1)中变化时，logit(p)就在(-∞,∞)中变化。利用logit变换可将属性变量取某个值的概率p的logit变换表示为自变量的线性函数，即

logistic回归原理

logistic回归原理
Logistic回归，又称为逻辑回归，是一种广泛应用的机器学习算法，主要用于分类问题。

它将一个数值变量预测为两个或多个二元变量值之一，例如：通过观察一个变量，我们可以预测另一个变量为正类/负类。

Logistic回归是一种函数拟合技术，它可以根据给定的输入数据，建立一个模型以预测数据的输出值。

它使用一个逻辑函数（也称为S形函数）来将连续的输入变量映射到二元类别输出中，形成一个只具有两个类别的模型。

Logistic回归的基本原理是，我们根据输入特征（例如年龄、性别、学历等）来预测输出（例如好/坏借款人）。

在Logistic回归模型中，输入特征是一个变量，而输出是一个二元变量，即只有两个值-0或1。

为了使Logistic回归模型正确地对数据进行建模，需要在训练阶段对参数进行估计。

估计的方式多种多样，但最常用的是最大似然估计（MLE）。

在MLE中，我们根据给定的训练数据找到最可能产生该数据的参数，也就是找到能够最好地拟合训练数据的参数。

一旦参数被估计出来，就可以使用该模型来预测新数据。

预测时，通常使用两个概念来描述预测：概率和似然估计。

概率表示新数据属于某个类别的可能性，即预测出的结果是0还是1的概率。

而似然估计则表示特定参数的可信度，即该参数产生观测数据的可能性。

总之，Logistic回归是一种广泛应用于分类问题的机器学习算
法，它将一个数值变量预测为两个或多个二元变量值之一。

它使用一个函数来将连续的输入变量映射到二元类别输出中，以预测数据的输出值。

在Logistic回归模型中，我们使用最大似然估计来估计参数，以及概率和似然估计来预测新数据。

1、下载文档前请自行甄别文档内容的完整性，平台不提供额外的编辑、内容补充、找答案等附加服务。
2、"仅部分预览"的文档,不可在线预览部分如存在完整性等问题,可反馈申请退款(可完整预览的文档不适用该条件!)。
3、如文档侵犯您的权益，请联系客服反馈,我们会尽快为您处理(人工客服工作时间：9:00-18:30)。

最优化算法简介
逻辑斯谛回归模型、最大熵模型学习归结为以似然函数为目标函数的最优化问题，通常通过迭代算法求解，它是光滑的凸函数，因此多种最优化的方法都适用。常用的方法有：改进的迭代尺度法梯度下降法牛顿法拟牛顿法
梯度下降法
梯度下降法(gradient descent) 最速下降法(steepest descent) 梯度下降法是一种迭代算法.选取适当的初值x(0)，不断迭代，更新x的值，进行目标函数的极小化，直到收敛。由于负梯度方向是使函数值下降最快的方向，在迭代的每一步，以负梯度方向更新x的值，从而达到减少函数值的目的.
袁春清华大学深圳研究生院李航华为诺亚方舟实验室
目录
1. 逻辑斯蒂回归模型 2. 最大熵模型 3. 模型学习的最优化方法
一、逻辑斯蒂回归
逻辑斯蒂分布二项逻辑斯蒂回归似然函数模型参数估计多项logistic回归
回归
面积销售价钱 (m^2) （万元） 123 150 87 102 … 250 320 160 220 …
牛顿法

(B.8)
牛顿法
算法步骤：
求逆
拟牛顿法
考虑用一个n阶矩阵Gk=G(x(k))来近似代替
拟牛顿条件：由：
拟牛顿法
如果Hk是正定的, Hk-1也是正定的，那么可以保证牛顿法搜索方向Pk是下降方向,因为搜索方向由B.8得：由B.2得：
将Gk作为
的近似
，拟牛顿条件
最优化原始问题到对偶问题：
最大熵模型的学习
最优化原始问题到对偶问题：
L(P,w)是P的凸函数，解的等价性（证明部分在SVM部分介绍）先求极小化问题：
是w的函数,
最大熵模型的学习
求L(P,w)对P(y|x)的偏导数：
得：最大熵模型的学习由 Nhomakorabea 得：(6.22) 规范化因子：模型就是最大熵模型求解对偶问题外部的极大化问题： (6.23)
回归
回归：广义线性模型（generalized linear model）分类：根据因变量的不同连续：多重线性回归二项分布：logistic回归 poisson分布：poisson回归负二项分布：负二项回归
逻辑斯蒂分布
Logistic distribution 设X是连续随机变量，X服从Logistic distribution，分布函数：密度函数： μ为位置参数，γ大于0为形状参数，(μ,1/2)中心对称
多项logistic回归
设Y的取值集合为
多项logistic回归模型
二、最大熵模型
最大熵原理最大熵模型的定义最大熵模型的学习极大似然估计
最大熵原理
最大熵模型(Maximum Entropy Model)由最大熵原理推导实现。最大熵原理：学习概率模型时，在所有可能的概率模型(分布)中，熵最大的模型是最好的模型，表述为在满足约束条件的模型集合中选取熵最大的模型。假设离散随机变量X的概率分布是P(X)，熵：且： |X|是X的取值个数，X均匀分布时右边等号成立。
梯度下降法
假设f(x)具有一阶连续偏导数的函数：一阶泰勒展开： f(x)在x(k)的梯度值：
负梯度方向：
无约束最优化问题
牛顿法（Newton method）拟牛顿法（quasi Newton method）有收敛速度快的优点. 牛顿法是迭代算法，每一步需要求解目标函数的海赛矩阵的逆矩阵，计算比较复杂。拟牛顿法通过正定矩阵近似海赛矩阵的逆矩阵或海赛矩阵，简化了这一计算过程。
拟牛顿法
最大熵模型：
目标函数：
梯度：

Q&A？
BFGS(Broyden-Fletcher-GoldfarbShanno)算法
可以考虑用Gk逼近海赛矩阵的逆矩阵H-1，也可以考虑用Bk逼近海赛矩阵H, 这时，相应的拟牛顿条件是: 用同样的方法得到另一迭代公式.首先令
考虑使Pk和Qk满足： Bk+1的迭代公式：
B.30
改进的迭代尺度法
拟牛顿法
在每次迭代中可以选择更新矩阵
Broyden类优化算法： DFP(Davidon-Fletcher-Powell)算法(DFP algorithm) BFGS(Broyden-Fletcher-Goldfarb-Shanno)算法(BFGS algorithm) Broyden类算法(Broyden's algorithm)
Sigmoid：
双曲正切函数（tanh）
Sigmoid function: def sigmoid(inX): return 1.0/(1+exp(-inX))
二项逻辑斯蒂回归
Binomial logistic regression model 由条件概率P(Y|X)表示的分类模型形式化为logistic distribution X取实数，Y取值1,0
的期望值:
特征函数f(x,y)关于模型P(Y|X)与经验分布值:
的期望
如果模型能够获取训练数据中的信息，那么就可以假设这两个期望值相等，即
假设有n个特征函数：
最大熵模型的定义
定义：假设满足所有约束条件的模型集合为：
定义在条件概率分布P(Y|X)上的条件熵：
则模型集合C中条件熵H(P)最大的模型称为最大熵模型
极大似然估计
而：
极大似然估计
最大熵模型与逻辑斯谛回归模型有类似的形式，它们又称为对数线性模型(log linear model). 模型学习就是在给定的训练数据条件下对模型进行极大似然估计或正则化的极大似然估计。
三、模型学习的最优化算法
最优化算法简介梯度下降法无约束最优化问题 - 牛顿法、拟牛顿法、DFP算法、 BFGS算法
二项逻辑斯蒂回归
事件的几率odds：事件发生与事件不发生的概率之比为
称为事件的发生比(the odds of experiencing an event), 对数几率：
对逻辑斯蒂回归：
似然函数
logistic分类器是由一组权值系数组成的，最关键的问题就是如何获取这组权值，通过极大似然函数估计获得，并且 Y ~ f( x ; w ) 似然函数是统计模型中参数的函数。给定输出x时，关于参数θ的似然函数L(θ|x)（在数值上）等于给定参数θ后变量X 的概率：L(θ|x)=P(X=x|θ) 似然函数的重要性不是它的取值，而是当参数变化时概率密度函数到底是变大还是变小。极大似然函数：似然函数取得最大值表示相应的参数能够使得统计模型最为合理
牛顿法
无约束最优化问题：
假设f(x)具有二阶连续偏导数，若第k次迭代值为x(k)，则可将f(x)在x(k)附近进行二阶泰勒展开: B.2
是f(x)的梯度向量在x(k)的值是f(x)的海塞矩阵在点x(k)的值
牛顿法
函数f(x)有极值的必要条件是:在极值点处一阶导数为o, 即梯度向量为o. 特别是当H(x(k))是正定矩阵时，函数f(x)的极值为极小值. 利用条件：设迭代从x(k)开始，求目标函数的极小点，
似然函数
那么对于上述m个观测事件，设
其联合概率密度函数，即似然函数为：
目标：求出使这一似然函数的值最大的参数估，w1,w2,…,wn，使得L(w)取得最大值。对L(w)取对数：
模型参数估计
对数似然函数
对L(w)求极大值，得到w的估计值。通常采用梯度下降法及拟牛顿法，学到的模型：
改进的迭代尺度法
利用
改进的迭代尺度法
于是有如果能找到适当的δ使下界A(δ|w)提高，那么对数似然函数也会提高。 δ是一个向量，含多个变量，一次只优化一个变量δi 引进一个量f#(x,y), fi(x,y)是二值函数， f#(x,y)表示所有特征在(x,y)出现的次数。
改进的迭代尺度法
例子：
假设随机变量X有5个取值{A,B,C,D,E},估计各个值的概率。解：满足
P(A)+P(B)+P(C)+P(D)+P(E)=1
等概率估计：加入一些先验：
于是：
例子：
假设随机变量X有5个取值{A,B,C,D,E},估计各个值的概率。解：满足
P(A)+P(B)+P(C)+P(D)+P(E)=1
等概率估计：加入一些先验：
于是：
再加入约束：
最大熵原理
X和Y分别是输入和输出的集合，这个模型表示的是对于给定的输入X，以条件概率P(Y|X)输出Y. 给定数据集：联合分布P(Y|X)的经验分布，边缘分布P(X)的经验分布：
特征函数：
最大熵原理
特征函数f(x,y)关于经验分布
最大熵模型的学习
最大熵模型的学习可以形式化为约束最优化问题。对于给定的数据集以及特征函数：fi(x,y) 最大熵模型的学习等价于约束最优化问题:
最大熵模型的学习
这里，将约束最优化的原始问题转换为无约束最优化的对偶问题,通过求解对偶问题求解原始间题: 引进拉格朗日乘子，定义拉格朗日函数：
改进的迭代尺度法(improved iterative scaling,IIS) 由最大熵模型
对数似然函数
求对数似然函数的极大值 IIS思路：假设希望找到一个新的参数向量，使得模型的对数似然函数值增大，如果有参数向量更新方法，那么就可以重复使用这一方法，直至找到对数似然函数的最大值。
利用指数函数的凸性，以及
根据Jensen不等式：
改进的迭代尺度法
于是得到
是对数似然函数改变量的一个新的下界对δi 求偏导：

令偏导数为0，得到：
依次对δi 解方程。
改进的迭代尺度法
算法输入：特征函数f1,f2…fn;经验分布输出：最优参数wi*；最优模型Pw*