Logistic回归(逻辑回归)总结

合集下载

逻辑斯蒂（logistic）回归深入理解、阐述与实现

逻辑斯蒂（logistic）回归深⼊理解、阐述与实现第⼀节中说了，logistic 回归和线性回归的区别是：线性回归是根据样本X各个维度的Xi的线性叠加（线性叠加的权重系数wi就是模型的参数）来得到预测值的Y，然后最⼩化所有的样本预测值Y与真实值y'的误差来求得模型参数。

我们看到这⾥的模型的值Y是样本X各个维度的Xi的线性叠加，是线性的。

Y=WX (假设W>0),Y的⼤⼩是随着X各个维度的叠加和的⼤⼩线性增加的，如图（x为了⽅便取1维）：然后再来看看我们这⾥的logistic 回归模型，模型公式是：，这⾥假设W>0,Y与X各维度叠加和（这⾥都是线性叠加W）的图形关系，如图（x为了⽅便取1维）：我们看到Y的值⼤⼩不是随X叠加和的⼤⼩线性的变化了，⽽是⼀种平滑的变化，这种变化在x的叠加和为0附近的时候变化的很快，⽽在很⼤很⼤或很⼩很⼩的时候，X叠加和再⼤或再⼩，Y值的变化⼏乎就已经很⼩了。

当X各维度叠加和取⽆穷⼤的时候，Y趋近于1，当X各维度叠加和取⽆穷⼩的时候，Y趋近于0.这种变量与因变量的变化形式就叫做logistic变化。

（注意不是说X各个维度和为⽆穷⼤的时候，Y值就趋近1，这是在基于W>0的基础上，（如果W<0,n那么Y趋近于0）⽽W是根据样本训练出来，可能是⼤于0，也可能是⼩0，还可能W1>0，W2<0…所以这个w值是样本⾃动训练出来的，也因此不是说你只要x1，x2，x3…各个维度都很⼤，那么Y值就趋近于1，这是错误的。

凭直觉想⼀下也不对，因为你连样本都还没训练，你的模型就有⼀个特点：X很⼤的时候Y就很⼤。

这种强假设肯定是不对的。

因为可能样本的特点是X很⼤的时候Y就很⼩。

）所以我们看到，在logistic回归中，X各维度叠加和（或X各维度）与Y不是线性关系，⽽是logistic关系。

⽽在线性回归中，X各维度叠加和就是Y，也就是Y与X就是线性的了。

逻辑回归知识点总结

逻辑回归知识点总结1、总述逻辑回归是应⽤⾮常⼴泛的⼀个分类机器学习算法，它将数据拟合到⼀个logit函数(或者叫做logistic函数)中，从⽽能够完成对事件发⽣的概率进⾏预测。

2、由来要说逻辑回归，我们得追溯到线性回归，想必⼤家对线性回归都有⼀定的了解，即对于多维空间中存在的样本点，我们⽤特征的线性组合去拟合空间中点的分布和轨迹。

如下图所⽰：线性回归能对连续值结果进⾏预测，⽽现实⽣活中常见的另外⼀类问题是，分类问题。

最简单的情况是是与否的⼆分类问题。

⽐如说医⽣需要判断病⼈是否⽣病，银⾏要判断⼀个⼈的信⽤程度是否达到可以给他发信⽤卡的程度，邮件收件箱要⾃动对邮件分类为正常邮件和垃圾邮件等等。

当然，我们最直接的想法是，既然能够⽤线性回归预测出连续值结果，那根据结果设定⼀个阈值是不是就可以解决这个问题了呢？事实是，对于很标准的情况，确实可以的，这⾥我们套⽤Andrew Ng⽼师的课件中的例⼦，下图中X为数据点肿瘤的⼤⼩，Y为观测结果是否是恶性肿瘤。

通过构建线性回归模型，如hθ(x)所⽰，构建线性回归模型后，我们设定⼀个阈值0.5，预测hθ(x)≥0.5的这些点为恶性肿瘤，⽽hθ(x)<0.5为良性肿瘤。

但很多实际的情况下，我们需要学习的分类数据并没有这么精准，⽐如说上述例⼦中突然有⼀个不按套路出牌的数据点出现，如下图所⽰：你看，现在你再设定0.5，这个判定阈值就失效了，⽽现实⽣活的分类问题的数据，会⽐例⼦中这个更为复杂，⽽这个时候我们借助于线性回归+阈值的⽅式，已经很难完成⼀个鲁棒性很好的分类器了。

在这样的场景下，逻辑回归就诞⽣了。

它的核⼼思想是，如果线性回归的结果输出是⼀个连续值，⽽值的范围是⽆法限定的，那我们有没有办法把这个结果值映射为可以帮助我们判断的结果呢。

⽽如果输出结果是 (0,1) 的⼀个概率值，这个问题就很清楚了。

我们在数学上找了⼀圈，还真就找着这样⼀个简单的函数了，就是很神奇的sigmoid函数(如下)：如果把sigmoid函数图像画出来，是如下的样⼦：Sigmoid Logistic Function从函数图上可以看出，函数y=g(z)在z=0的时候取值为1/2，⽽随着z逐渐变⼩，函数值趋于0，z逐渐变⼤的同时函数值逐渐趋于1，⽽这正是⼀个概率的范围。

cfa 二级 logistic regression

cfa 二级 logistic regression 引言概述：
CFA（Chartered Financial Analyst）二级考试是金融领域中备受认可的证书考试之一。

在CFA二级考试中，Logistic Regression（逻辑回归）是一个重要的主题。

逻辑回归是一种用于预测二分类问题的统计模型，广泛应用于金融风险评估、市场预测等领域。

本文将从五个大点出发，详细阐述CFA二级考试中的Logistic Regression。

正文内容：
1. 理解逻辑回归的基本概念
1.1 逻辑回归的定义和特点
1.2 逻辑回归的应用场景
1.3 逻辑回归的数学原理
2. 逻辑回归的模型建立与评估
2.1 数据预处理和特征选择
2.2 模型参数估计方法
2.3 模型评估和性能度量指标
3. 逻辑回归的模型解释和推断
3.1 模型系数的解释
3.2 假设检验和置信区间
3.3 模型预测和推断
4. 逻辑回归的改进和扩展
4.1 多项式逻辑回归
4.2 正则化方法
4.3 特征工程和模型优化
5. 逻辑回归的实际应用案例
5.1 金融风险评估
5.2 市场预测
5.3 营销策略优化
总结：
综上所述，CFA二级考试中的Logistic Regression是一个重要的主题。

通过理解逻辑回归的基本概念，学习逻辑回归的模型建立与评估方法，掌握逻辑回归的模型解释和推断技巧，以及了解逻辑回归的改进和扩展方法，我们可以应用逻辑回归解决金融领域的实际问题。

逻辑回归在金融风险评估、市场预测和营销策略优化等方面具有广泛的应用前景，对于金融从业者而言，掌握逻辑回归是提升专业能力的重要一步。

逻辑曲线(Logistic回归)

逻辑回归的参数解释
β0
截距，表示当所有解释变量x都为0时， logit P的估计值。
β1, β2, ..., βp
斜率，表示各解释变量对logit P的影响程度。
逻辑回归的假设条件
线性关系
假设自变量与因变量之间存在线性关系，即因变量的变化可以被自变量的线性组合所解释。
误差项同分布
假设误差项服从同一分布，通常是正态分布。
评估指标
根据任务类型选择合适的评估指标，如准确率、召回率、F1分数等。
模型比较
将新模型与其他同类模型进行比较，了解其性能优劣。
04 逻辑回归的优缺点
优点
分类性能好
逻辑回归模型在二分类问题上表现优秀，分类准确率高。
易于理解和实现
逻辑回归模型形式简单，参数意义明确，方便理解和实现。
无数据分布假设
总结词
在某些情况下，逻辑回归可能不是解决回归问题的最佳选择，此时可以考虑其他替代方案。
详细描述
当因变量是连续变量，且自变量和因变量之间的关系非线性时，线性回归可能不是最佳选择。此时可以考虑使用其他回归模型，如多项式回归、岭回归、套索回归等。另外，当自变量和因变量之间的关系不确定时，可以考虑使用支持向量回归等模型进行预测。
06 总结与展望
总结
应用广泛
逻辑回归模型在许多领域都有广泛的应用，如医学、金融、市场营销等，用于预测和解释二元分类结果。
理论基础坚实
基于概率和统计理论，逻辑回归模型能够提供可靠的预测和解释，尤其是在处理小样本数据时。
灵活性和可解释性
模型参数可以解释为对结果概率的影响程度，这使得逻辑回归成为一种强大且易于理解的工具。
在二分类问题中，逻辑回归通过将线性回归的输出经过逻辑函数转换，将连续的预测值转换为概率形式，从而实现对因变量的二分类预测。逻辑函数的形式为1 / (1 + e ^ (-z))，其中z为线性回归的输出。

LOGISTIC回归分析

LOGISTIC回归分析前⾯的博客有介绍过对连续的变量进⾏线性回归分析，从⽽达到对因变量的预测或者解释作⽤。

那么如果因变量是离散变量呢？在做⾏为预测的时候通常只有“做”与“不做的区别”、“0”与“1”的区别，这是我们就要⽤到logistic分析（逻辑回归分析，⾮线性模型）。

参数解释（对变量的评价）发⽣⽐(odds)： ODDS=事件发⽣概率/事件不发⽣的概率=P/(1-P)发⽣⽐率（odds ratio）：odds ratio=odds B/odds A (组B相对于组A更容易发⽣的⽐率）注：odds ratio⼤于1或者⼩于1都有意义，代表⾃变量的两个分组有差异性，对因变量的发⽣概率有作⽤。

若等于1的话，该组变量对事件发⽣概率没有任何作⽤。

参数估计⽅法线性回归中，主要是采⽤最⼩⼆乘法进⾏参数估计，使其残差平⽅和最⼩。

同时在线性回归中最⼤似然估计和最⼩⼆乘发估计结果是⼀致的，但不同的是极⼤似然法可以⽤于⾮线性模型，⼜因为逻辑回归是⾮线性模型，所以逻辑回归最常⽤的估计⽅法是极⼤似然法。

极⼤似然公式：L(Θ)=P(Y1)P(Y2)...p(Y N) P为事件发⽣概率P I=1/(1+E-(α+βX I))在样本较⼤时，极⼤似然估计满⾜相合性、渐进有效性、渐进正太性。

但是在样本观测少于100时，估计的风险会⽐较⼤，⼤于100可以介绍⼤于500则更加充分。

模型评价这⾥介绍拟合优度的评价的两个标准：AIC准则和SC准则，两统计量越⼩说明模型拟合的越好，越可信。

若事件发⽣的观测有n条，时间不发⽣的观测有M条，则称该数据有n*m个观测数据对，在⼀个观测数据对中，P>1-P，则为和谐对（concordant）。

P<1-P,则为不和谐对（discordant）。

P=1-P，则称为结。

在预测准确性有⼀个统计量C=(NC-0.5ND+0.5T)/T，其中NC为和谐对数，ND为不和谐对数，这⾥我们就可以根据C统计量来表明模型的区分度，例如C=0.68，则表⽰事件发⽣的概率⽐不发⽣的概率⼤的可能性为0.68。

统计学中的Logistic回归分析

统计学中的Logistic回归分析Logistic回归是一种常用的统计学方法，用于建立并探索自变量与二分类因变量之间的关系。

它在医学、社会科学、市场营销等领域得到广泛应用，能够帮助研究者理解和预测特定事件发生的概率。

本文将介绍Logistic回归的基本原理、应用领域以及模型评估方法。

一、Logistic回归的基本原理Logistic回归是一种广义线性回归模型，通过对数据的处理，将线性回归模型的预测结果转化为概率值。

其基本原理在于将一个线性函数与一个非线性函数进行组合，以适应因变量概率为S形曲线的特性。

该非线性函数被称为logit函数，可以将概率转化为对数几率。

Logistic回归模型的表达式如下：\[P(Y=1|X) = \frac{1}{1+e^{-(\beta_0+\beta_1X_1+...+\beta_pX_p)}}\]其中，P(Y=1|X)表示在给定自变量X的条件下，因变量为1的概率。

而\(\beta_0\)、\(\beta_1\)、...\(\beta_p\)则是待估计的参数。

二、Logistic回归的应用领域1. 医学领域Logistic回归在医学领域中具有重要的应用。

例如，研究者可以使用Logistic回归分析，探索某种疾病与一系列潜在风险因素之间的关系。

通过对患病和非患病个体的数据进行回归分析，可以估计各个风险因素对疾病患病的影响程度，进而预测某个个体患病的概率。

2. 社会科学领域在社会科学研究中，研究者常常使用Logistic回归来探索特定变量对于某种行为、态度或事件发生的影响程度。

例如，研究者可能想要了解不同性别、教育程度、收入水平对于选民投票行为的影响。

通过Logistic回归分析，可以对不同自变量对于投票行为的作用进行量化，进而预测某个选民投票候选人的概率。

3. 市场营销领域在市场营销中，Logistic回归也被广泛应用于客户分类、市场细分以及产品销量预测等方面。

通过分析客户的个人特征、购买习惯和消费行为等因素，可以建立Logistic回归模型，预测不同客户购买某一产品的概率，以便制定个性化的市场营销策略。

logistic回归模型分析和总结

含有名义数据的logit
含有名义数据的logit
• 例：某地25岁及以上人中各类婚姻状况居民的死
亡情况见表，试建立死亡率关于年龄和婚姻状况
的logit模型。
ln p 1 p

A 1M1
2M 2
3M3
• 其中，A表示年龄(取中值)，M1、M2、M3表示婚姻状况
• 于是，估计的logit方程为：
多项logit模型
【例】研究三个学校、两个课程计划对学生偏好何种学习方式的影响。调查数据见表:
• 其中，三个学校对应两个哑变量x1和x2，两个课程计划为常规(x3=1)和附加(x3=0)，学习方式分为：自修(y=1)、小组(y=2)、上课(y=3)
• 从题目可以看出，响应变量是学习方式有三类，属于多项逻辑斯蒂回归问题。于是，建模为：
ln ln
p1 p3 p2 p3
10 11x1 12 x2 13 x3 20 21x1 22 x2 23x3
多项logit模型
多项logit模型
• 应用统计软件可以得到模型的参数估计和回归方程：
ln
p1 p3
0.5931.134 x1 0.618 x3
ln
p2 p3
0.603 0.635 x3
ln p A E
1 p
• 其中A为年龄，E为文化程度
含有有序数据的logit
含有有序数据的logit
• 于是，估计的logit方程为：
ln p 11.637 0.124A 0.164E 1 p
• 其中，年龄的系数0.124，说明年龄越大死亡率会越高；
• 文化程度的系数-0.164，说明文化程度与死亡率呈负相关，文化程度越高，死亡率越低。

Logic回归总结

Logic回归总结当我第⼀遍看完台⼤的机器学习的视频的时候，我以为我理解了逻辑回归，可后来越看越迷糊，直到看到了这篇⽂章，豁然开朗基本原理Logistic Regression和Linear Regression的原理是相似的，按照我⾃⼰的理解，可以简单的描述为这样的过程：（1）找⼀个合适的预测函数（Andrew Ng的公开课中称为hypothesis），⼀般表⽰为h函数，该函数就是我们需要找的分类函数，它⽤来预测输⼊数据的判断结果。

这个过程时⾮常关键的，需要对数据有⼀定的了解或分析，知道或者猜测预测函数的“⼤概”形式，⽐如是线性函数还是⾮线性函数。

（2）构造⼀个Cost函数（损失函数），该函数表⽰预测的输出（h）与训练数据类别（y）之间的偏差，可以是⼆者之间的差（h-y）或者是其他的形式。

综合考虑所有训练数据的“损失”，将Cost求和或者求平均，记为J(θ)函数，表⽰所有训练数据预测值与实际类别的偏差。

（3）显然，J(θ)函数的值越⼩表⽰预测函数越准确（即h函数越准确），所以这⼀步需要做的是找到J(θ)函数的最⼩值。

找函数的最⼩值有不同的⽅法，Logistic Regression实现时有的是梯度下降法（Gradient Descent）。

具体过程(1) 构造预测函数Logistic Regression虽然名字⾥带“回归”，但是它实际上是⼀种分类⽅法，⽤于两分类问题（即输出只有两种）。

根据第⼆章中的步骤，需要先找到⼀个预测函数（h），显然，该函数的输出必须是两个值（分别代表两个类别），所以利⽤了Logistic函数（或称为Sigmoid函数），函数形式为：对应的函数图像是⼀个取值在0和1之间的S型曲线（图1）。

图1接下来需要确定数据划分的边界类型，对于图2和图3中的两种数据分布，显然图2需要⼀个线性的边界，⽽图3需要⼀个⾮线性的边界。

接下来我们只讨论线性边界的情况。

图2图3对于线性边界的情况，边界形式如下：构造预测函数为：hθ(x)函数的值有特殊的含义，它表⽰结果取1的概率，因此对于输⼊x分类结果为类别1和类别0的概率分别为：(2)构造Cost函数Andrew Ng在课程中直接给出了Cost函数及J(θ)函数如式（5）和（6），但是并没有给出具体的解释，只是说明了这个函数来衡量h函数预测的好坏是合理的。

1、下载文档前请自行甄别文档内容的完整性，平台不提供额外的编辑、内容补充、找答案等附加服务。
2、"仅部分预览"的文档,不可在线预览部分如存在完整性等问题,可反馈申请退款(可完整预览的文档不适用该条件!)。
3、如文档侵犯您的权益，请联系客服反馈,我们会尽快为您处理(人工客服工作时间：9:00-18:30)。

3.3 梯度下降法求 J ( ) 的最小值
求 J ( ) 的最小值可以使用梯度下降法，根据梯度下降法可得的更新过程：
j : j -
式中为学习步长，下面来求偏导：
J ( ), ( j 0 n) j
（11）
1 m 1 1 J ( ) y ( i ) h (x (i) ) (1 y ( i ) ) h (x (i) ) (i) (i) j m i 1 h (x ) j 1 h (x ) j 1 m (i ) 1 1 (1 y ( i ) ) g ( T x (i) ) y T (i) T (i) m i 1 g ( x ) 1 g ( x ) j 1 m (i ) 1 1 T (i) (1 y ( i ) ) g ( T x (i) ) 1 g ( T x (i) ) x y T (i) T (i) m i 1 g ( x ) 1 g ( x ) j
i 1
for 语句循环 m 次，所以根本没有完全的实现 vectorization，不像《机器学习实战》的代码中一条语句就可以完成的更新。下面说明一下我理解《机器学习实战》中代码实现的 vectorization 过程。约定训练数据的矩阵形式如下， x 的每一行为一条训练样本，而每一列为不同的特称取值：
（5）
（6）实际上这里的 Cost 函数和 J 函数是基于最大似然估计推导得到的。下面详细说明推导的过程。（4）式综合起来可以写成：
P ( y | x; ) (h ( x)) y (1- h ( x))1- y
取似然函数为：
（7）
L( ) P ( y (i) | x (i) ; )
文献[3]中也提到了 vectorization，但是也是比较粗略，很简单的给出 vectorization 的结果为：
1 m : - h (x (i) ) y (i ) x (i) , ( j 0 n) m i 1
m
（17）
且不论该更新公式正确与否，这里的是一个求和的过程，显然需要一个
g (z)
1 1 e z
（1）
对应的函数图像是一个取值在 0 和 1 之间的 S 型曲线（图 1）。
图1
接下来需要确定数据划分的边界类型，对于图 2 和图 3 中的两种数据分布，显然图 2 需要一个线性的边界，而图 3 需要一个非线性的边界。接下来我们只讨论线性边界的情况。
图2
图3
对于线性边界的情况，边界形式如下：

（12）上式求解过程中用到如下的公式：
f x
1 1 e g (x)
（13）
1 f x e g (x) g x 2 x 1 e g (x) x 1 e g (x) g x 1 e g (x) 1 e g (x) x f x 1 f x g x x
Logistic 回归总结
作者：靠谱哥微博：洞庭之子-Bing （2013 年 11 月）（本文为作者原创，转载请注明出处）出处：/dongtingzhizi/article/details/15962797
1 引言
看了 Stanford 的 Andrew Ng 老师的机器学习公开课中关于 Logistic Regression 的讲解，然后又看了《机器学习实战》中的 Logistic Regression 部分，写下此篇学习笔记总结一下。首先说一下我的感受，《机器学习实战》一书在介绍原理的同时将全部的算法用源代码实现，非常具有操作性，可以加深对算法的理解，但是美中不足的是在原理上介绍的比较粗略，很多细节没有具体介绍。所以，对于没有基础的朋友（包括我）某些地方可能看的一头雾水，需要查阅相关资料进行了解。所以说，该书还是比较适合有基础的朋友。本文主要介绍以下三个方面的内容：（1） Logistic Regression 的基本原理，分布在第二章中；（2） Logistic Regression 的具体过程，包括：选取预测函数，求解 Cost 函数和
（18）
约定待求的参数的矩阵形式为：
0 1 n
并记为 A ：先求 xA
（19）
(1) x0 (2) x A xA 0 (m) x0
x1(1) x1(2) x1(m)
(1) (1) (1) 0 0 x0 xn 1 x1(1) n xn (2) (2) (2) (2) xn x x x 1 1 1 n n A 0 0 (m) (m) (m) (m) xn x x x n 1 1 n n 0 0
i 1 m

（9）
最大似然估计就是要求得使 l ( ) 取最大值时的，其实这里可以使用梯度上升法求解，求得的就是要求的最佳参数。但是，在 Andrew
J ( ) 取为（6）式，即：
Ng 的课程中将
J ( ) -
1 l ( ) m
（10）
因为乘了一个负的系数 -
1 ，所以 J ( ) 取最小值时的为要求的最佳参数。 m
i 1
m
（15）
另外，补充一下，3.2 节中提到求得 l ( ) 取最大值时的也是一样的，用梯度上升法求（9）式的最大值，可得：
j : j
( ) j
m
j y ( i ) h (x (i) ) x (i) j ,
i 1
( j 0 n) P ( y 0 | x; ) 1- h ( x)
（4）
3.2 构造 Cost 函数
Andrew Ng 在课程中直接给出了 Cost 函数及 J 函数如式（5）和（6），但
是并没有给出具体的解释，只是说明了这个函数来衡量 h 函数预测的好坏是合理的。
(1) x (1) x0 (2) (2) x x0 x (m) (m) x x0 (1) x1(1) xn (2) x1(2) xn , (m) x1(m) xn
y (1) (2) y y (m) y
0 1 x1 n xn i xi T x
i 0
n
（2）
构造预测函数为：
h ( x) g ( T x)
1 1 e
- T x
（3）
h (x) 函数的值有特殊的含义，它表示结果取 1 的概率，因此对于输入 x 分
类结果为类别 1 和类别 0 的概率分别为：
书中说用梯度上升发，为何代码实现时没见到求梯度的代码呢？这些问题在第三章和第四章中都会得到解答。文中参考或引用内容的出处列在最后的“参考文献”中。文中所阐述的内容仅仅是我个人的理解，如有错误或疏漏，欢迎大家批评指正。下面进入正题。
2 基本原理
Logistic Regression 和 Linear Regression 的原理是相似的，按照我自己的理解，可以简单的描述为这样的过程： 1. 找一个合适的预测函数（Andrew Ng 的公开课中称为 hypothesis），一般表示为 h 函数，该函数就是我们需要找的分类函数，它用来预测输入数据的判断结果。这个过程时非常关键的，需要对数据有一定的了解或分析，知道或者猜测预测函数的“大概”形式，比如是线性函数还是非线性函数。 2. 构造一个 Cost 函数（损失函数），该函数表示预测的输出（ h ）与训练数据类别（ y ）之间的偏差，可以是二者之间的差（ h y ）或者是其他的形式。综合考虑所有训练数据的“损失”，将 Cost 求和或者求平均，记为
因此，（11）式的更新过程可以写成：
1 m j : j - h (x (i) ) y (i ) x (i) ( j 0 n) j , m i 1
因为式中本来为一常量，所以一般将
（14）
1 省略，所以最终的更新过程为： m
j : j - h (x (i) ) y (i ) x (i) ( j 0 n) j ,
3 具体过程
3.1 构造预测函数
Logistic Regression 虽然名字里带“回归”，但是它实际上是一种分类方法，用于两分类问题（即输出只有两种）。根据第二章中的步骤，需要先找到一个预测函数（ h ），显然，该函数的输出必须是两个值（分别代表两个类别）
，所以利用了 Logistic 函数（或称为 Sigmoid 函数），函数形式为：
i 1 m
m
（8）
(i) (i)
(h ( x (i) )) y (1- h ( x (i) ))1- y
i 1
对数似然函数为：
l ( ) log L( ) y ( i ) log h ( x ( i ) ) 1- y ( i ) log(1- h ( x ( i ) ))
J 函数，表示所有训练数据预测值与实际类别的偏差。
3. 显然， J 函数的值越小表示预测函数越准确（即 h 函数越准确），所以这一步需要做的是找到 J 函数的最小值。找函数的最小值有不同的方法， Logistic Regression 实现时有的是梯度下降法（Gradient Descent）。
（16）
观察上式发现跟（14）是一样的，所以，采用梯度上升发和梯度下降法是完全一样的，这也是《机器学习实战》中采用梯度上升法的原因。
3.4 梯度下降过程向量化
关于更新过程的 vectorization，Andrew Ng 的课程中只是一带而过，没有具体的讲解。《机器学习实战》连 Cost 函数及求梯度等都没有说明，所以更不可能说明 vectorization 了。但是，其中给出的实现代码确是实现了 vectorization 的，图 4 所示代码的 32 行中 weights（也就是）的更新只用了一行代码，直接通过矩阵或者向量计算更新，没有用 for 循环，说明确实实现了 vectorization，具体代码下一章分析。