机器学习入门：回归问题

合集下载

回归问题和分类问题的不同之处

回归问题和分类问题的不同之处回归问题和分类问题是机器学习和统计学中常见的两种问题类型，它们在处理数据和预测结果时有着不同的特点和方法。

在本文中，我们将深入探讨回归问题和分类问题的不同之处，并帮助读者更好地理解这两种问题类型。

1. 定义和目的回归问题主要是用来预测连续型的数值结果，例如房价、股票价格等。

而分类问题则是预测离散型的结果，例如判断邮件是否是垃圾邮件、预测疾病是否为恶性等。

回归问题和分类问题的不同之处在于它们所处理的结果类型不同，因此在建模和评估方法上也会有所区别。

2. 数据类型在回归问题中，输入和输出的数据类型都是连续型的，因此在特征工程和建模过程中需要考虑如何处理连续型数据、特征缩放等问题。

而在分类问题中，输入数据可以是连续型或离散型的，输出结果是离散型的，因此需要使用适当的编码方式来处理输入特征和输出结果。

3. 损失函数回归问题通常使用均方误差（Mean Squared Error）或平均绝对误差（Mean Absolute Error）作为损失函数，这是因为回归问题中需要考虑预测结果与实际结果的连续性差异。

而分类问题则使用交叉熵损失函数（Cross-Entropy Loss）或对数损失函数（Logarithmic Loss）等，因为分类问题更关注预测结果的准确性和分类性。

4. 模型选择在回归问题中常用的模型包括线性回归、岭回归、Lasso回归等，这些模型适用于处理连续型输出。

而在分类问题中，常用的模型有逻辑回归、决策树、随机森林等，这些模型能够有效地处理离散型输出。

回归问题和分类问题在数据类型、损失函数和模型选择上有着明显的不同之处。

在实际应用中，我们需要根据问题的特点和要求选择合适的方法和模型来解决问题。

希望本文能帮助读者更好地理解回归问题和分类问题的不同之处，为实际问题的解决提供参考和指导。

个人观点：回归问题和分类问题在机器学习和数据分析中都有着重要的作用，它们各自针对不同类型的预测问题，需要使用不同的方法和模型来解决。

深度学习入门（一）：线性回归模型

深度学习⼊门（⼀）：线性回归模型⽂章⽬录单层神经⽹络⼀因为⼯作需求需要接触到深度学习知识，导师推荐了⼀本书⽤来⼊门：《动⼿学深度学习（PyTorch版）》在此处记录⼀下学习内容以及学习总结，⽂章以原作者书籍为基础，插⼊⼀些⾃⼰的总结与⼼得做参考（⾼亮部分），喜欢阅读原⽂的可以访问原⽂链接：⼊门深度学习先认识⼀个单层神经⽹络-线性回归模型线性回归模型线性回归输出是⼀个连续值，因此适⽤于回归问题。

回归问题在实际中很常见，如预测房屋价格、⽓温、销售额等连续值的问题。

与回归问题不同，分类问题中模型的最终输出是⼀个离散值。

我们所说的图像分类、垃圾邮件识别、疾病检测等输出为离散值的问题都属于分类问题的范畴。

softmax回归则适⽤于分类问题。

由于线性回归和softmax回归都是单层神经⽹络，它们涉及的概念和技术同样适⽤于⼤多数的深度学习模型。

我们⾸先以线性回归为例，介绍⼤多数深度学习模型的基本要素和表⽰⽅法。

线性回归是经典的单层神经⽹络，以此为例⼦进⾏讲解1. 线性回归的基本要素我们以⼀个简单的房屋价格预测作为例⼦来解释线性回归的基本要素。

这个应⽤的⽬标是预测⼀栋房⼦的售出价格（元）。

我们知道这个价格取决于很多因素，如房屋状况、地段、市场⾏情等。

为了简单起见，这⾥我们假设价格只取决于房屋状况的两个因素，即⾯积（平⽅⽶）和房龄（年）。

接下来我们希望探索价格与这两个因素的具体关系。

1.1 模型定义设房屋的⾯积为 x 1 x_1 x1，房龄为 x 2 x_2 x2，售出价格为 y y y。

我们需要建⽴基于输⼊ x 1 x_1 x1和 x 2 x_2 x2来计算输出 y y y 的表达式，也就是模型（model）。

顾名思义，线性回归假设输出与各个输⼊之间是线性关系：y ^ = x 1 w 1 + x 2 w 2 + b \hat{y} = x_1 w_1 + x_2 w_2 + b y^=x1w1+x2w2+b其中 w 1 w_1 w1和 w 2 w_2 w2是权重（weight）， b b b 是偏差（bias），且均为标量。

分类问题和回归问题

分类问题和回归问题分类问题问题1：什么是分类问题？分类问题是指将输入数据划分到不同的类别中的问题。

在机器学习中，分类是一种监督学习方法，通过训练模型来预测分类标签。

分类问题可以是二分类问题（将数据分为两个类别）或多分类问题（将数据分为多个类别）。

问题2：如何评估分类问题？在分类问题中，常用的评估指标包括准确率、精确率、召回率、F1分数等。

准确率是指模型正确预测的样本占总样本的比例；精确率是指预测为正例的样本中，实际为正例的比例；召回率是指实际为正例的样本中，被模型预测为正例的比例；F1分数是精确率和召回率的调和平均值。

问题3：常用的分类算法有哪些？常用的分类算法包括决策树、逻辑回归、支持向量机、朴素贝叶斯、K近邻算法等。

决策树通过构建树形结构进行分类预测；逻辑回归可以用于二分类问题，通过拟合一个逻辑斯蒂函数来建立分类模型；支持向量机通过在特征空间中找到一个最优的超平面来进行分类；朴素贝叶斯基于贝叶斯定理进行分类；K近邻算法通过计算样本之间的距离来进行分类。

回归问题问题1：什么是回归问题？回归问题是指通过给定输入数据，预测一个连续值的问题。

在机器学习中，回归是一种监督学习方法，通过训练模型来预测输出变量的连续值。

回归问题可以是一元回归（只有一个输入变量）或多元回归（有多个输入变量）。

问题2：如何评估回归问题？在回归问题中，常用的评估指标包括均方误差（MSE）、均方根误差（RMSE）、平均绝对误差（MAE）等。

均方误差是预测值和真实值之间差值的平方的均值；均方根误差是均方误差的平方根；平均绝对误差是预测值和真实值之间差值的绝对值的均值。

问题3：常用的回归算法有哪些？常用的回归算法包括线性回归、多项式回归、支持向量回归、决策树回归、随机森林回归等。

线性回归通过拟合一个线性方程来进行预测；多项式回归通过拟合一个多项式方程来进行预测；支持向量回归通过寻找一个最优超平面来进行预测；决策树回归通过构建树形结构进行预测；随机森林回归通过多棵决策树进行预测。

机器学习逻辑回归

机器学习逻辑回归机器学习逻辑回归是一种非常有用的机器学习方法，它可以把复杂的连续数据映射到一系列离散分类结果中。

回归是预测连续值变量（例如房价或股票价格）的过程，而分类则是预测离散值变量（例如种类）的过程。

机器学习逻辑回归是两者的结合，可以将连续输入映射为离散的输出结果。

机器学习逻辑回归的实际使用是由许多调整参数来确定的，这些参数可以灵活地改变结果，从而调整算法的复杂程度。

机器学习逻辑回归也可以被用来判断连续输入变量对于离散输出结果的影响程度，从而推断出特定输出结果可能对输入变量造成的影响。

机器学习逻辑回归有两种主要类型，即二元逻辑回归和多元逻辑回归。

二元回归是指在预测的离散结果只有两种的情况下，多元回归是指离散结果有多种的情况。

在实际应用中，机器学习逻辑回归的模型与二元回归和多元回归的模型有很大的不同，需要经过适当的调整才能达到最佳效果。

二元逻辑回归是机器学习非常复杂的一种模型，它是通过一组输入训练模型，并进行测试，以确定给定输入数据的离散分类结果。

它的一般结构是把输入数据转换成一个数值，并根据某个分割函数进行分割，以选择相应的分类结果。

多元逻辑回归是一种类似于多因素回归的机器学习算法，它把多个输入变量组合在一起，允许不同的变量有不同的影响，从而构建出一个能够预测特定分类结果的模型。

它的有效性特别强，可以用来对常见的分类问题进行有效地分析，并得到准确的预测结果。

全局最优回归是指机器学习算法训练模型时，自动调整参数来拟合出一个最优的模型，而不必手动调节参数使拟合的模型趋近于最优的结果。

全局最优回归有助于提高模型的准确性和鲁棒性，从而缩短模型训练的时间。

机器学习逻辑回归的应用非常广泛，主要用于预测和分析，在市场预测、分类和情感分析等方面都取得了良好的效果。

它可以更加精确地分析数据，从而获得更准确的结果，是市场营销、金融分析等领域的有效工具。

因此，机器学习逻辑回归是一种有用的机器学习技术，它可以有效地将复杂的连续数据映射到一系列离散的分类结果中，给定输入变量能够准确预测特定的输出结果，且具有较高的精确性和鲁棒性。

机器学习中的线性回归模型

机器学习中的线性回归模型机器学习是一种人工智能领域中的方法，它让计算机通过数据和算法自主学习和改进，来获取新的知识和洞见。

在机器学习的过程中，我们需要寻找最适合的算法来解决问题，其中线性回归模型就是其中之一。

线性回归模型是一种利用线性函数来描述因变量与自变量之间关系的方法。

在机器学习中，线性回归模型通常被用来寻找输入变量和输出变量之间的关系，从而能够预测未知的输出值。

因为线性回归模型有简单和可解释性的优势，所以它很受欢迎。

线性回归模型的基本原理是，通过数据学习自变量与因变量之间的关系，来得到一个线性方程，这个线性方程可以用来预测新的数据的输出。

线性回归模型假设因变量与自变量之间是一个线性关系，这个关系可以用一个二维平面上的直线来表示，更一般地，可以用一个$n$维空间中的超平面来表示，其中$n$表示自变量的维度。

在线性回归模型中，我们要找到一组参数来解决这个线性方程。

这个线性方程形如：$$y=\beta_0 + \beta_1x_1 + \beta_2x_2 + ... + \beta_nx_n$$其中$y$是因变量，$x_1$到$x_n$是自变量，$\beta$是预测模型中的系数。

系数$\beta$的值是通过学习和优化而得到的，优化目标是让预测的结果和真实的结果的误差最小化。

为了得到这些系数，我们需要用到训练数据。

训练数据是先有的，我们可以用这些数据来学习线性回归模型。

在学习过程中，我们将数据拟合到模型，找到最好的系数来减少预测误差。

最常用的最小二乘法用于估计系数，通过最小化残差平方和来实现。

残差是预测值和真实值之间的差异，平方和是所有残差平方值的和。

在得到线性模型之后，我们可以使用它来做预测。

对于新的自变量，我们可以将它代入模型得到相应的因变量的预测值。

需要注意的是，线性回归模型的适用范围是比较窄的，因为它是基于一些假设之上的。

那些假设是：(1)预测变量是线性的；(2)误差项是独立的；(3)误差项的方差是常数；(4)误差项符合正态分布。

分类问题和回归问题

分类问题和回归问题分类问题和回归问题是机器学习中两类常见的问题类型。

分类问题是指根据给定的特征将数据分为不同的类别，而回归问题是指根据给定的特征预测数值型的输出。

本文将从定义、应用领域、解决方法等方面介绍分类问题和回归问题的基本概念和特点。

一、分类问题分类问题是机器学习中最常见的问题之一。

它的目标是根据给定的特征将数据分为不同的类别。

分类问题的应用非常广泛，例如垃圾邮件过滤、图像识别、医学诊断等。

分类问题的输出是离散的，通常是一个固定的类别标签。

在解决分类问题时，我们可以使用多种算法，如决策树、朴素贝叶斯、支持向量机等。

这些算法通过学习训练数据集中的模式和规律，从而对新的数据进行分类。

其中，决策树算法通过构建一棵树状结构来进行分类，每个节点代表一个特征，每个分支代表一个特征取值，通过不断划分数据集来达到分类的目的。

朴素贝叶斯算法基于贝叶斯定理和特征条件独立性假设，通过计算后验概率来进行分类。

支持向量机是一种基于间隔最大化的分类算法，通过寻找一个最优的超平面来将不同类别的样本分开。

二、回归问题回归问题是机器学习中另一类常见的问题类型。

它的目标是根据给定的特征预测数值型的输出。

回归问题的应用也非常广泛，例如股票价格预测、房价预测、销量预测等。

回归问题的输出是连续的，通常是一个实数值。

解决回归问题的方法也有很多，常见的有线性回归、决策树回归、神经网络等。

线性回归是一种最简单的回归方法，通过拟合一个线性函数来建立特征和输出之间的关系。

决策树回归与分类问题中的决策树类似，不同之处在于叶节点存储的是输出值而不是类别标签。

神经网络是一种复杂的回归方法，通过多层神经元的连接和激活函数的非线性变换来建立输入和输出之间的映射关系。

分类问题和回归问题在目标和输出上存在较大的差异。

分类问题的目标是将数据分为不同的类别，输出是离散的类别标签；而回归问题的目标是预测数值型的输出，输出是连续的实数值。

另外，分类问题和回归问题在解决方法上也有所区别，分类问题常用的算法包括决策树、朴素贝叶斯、支持向量机等；而回归问题常用的方法包括线性回归、决策树回归、神经网络等。

机器学习线性回归

机器学习——线性回归一.线性模型评价指标在开始线性回归模型前，先介绍一下线性模型的几个统计指标。

下面是参数说明：•MSE (Mean Squared Error 平均平方误差)MSE=1m∑i=1m(y(i)−y^(i))2•RMSE (Root Mean Squared Error 平均平方误差的平方根) RMSE=1m∑i=1m(y(i)−y^(i))2•MAE (Mean Absolute Error 平均绝对值误差)MAE=1m∑i=1m|y(i)−y^(i)|•R^2 决定系数用来表示模型拟合性的分值，值越高表示模型的拟合程度越高o TSS：所有样本数据与均值的差异，是方差的m倍；y¯=1m∑i=1my(i) TSS=∑i=1m(y(i)−y¯)2o RSS：样本数据误差的平方和，是MSE的倍。

RSS=∑i=1m(y(i)−y^(i))2则R2 :R2=1−RSSTSS , R∈[0,1]二.一元线性回归了解了评价模型的评价指标后就可开始一元线性回归模型的学习了。

1.基本形式一元线性回归模型是最简单的机器学习模型，其形式如下：y^=ax+b2.模型求解其求解过程也很简单：b^=∑i=1nxiyi−nxy¯∑i=1nxi2−nx¯2a=y¯−b^x¯详细推导过程太多了，等有缘再写吧。

三.多元线性回归1.基本形式给定有d个属性描述的示例X=(x_1;x_2;...;x_d),其中x_i是X在第i个属性上的取值，线性模型试图学得：f(x)=ωbx1+ω2x2+...+ωdxd+b一般向量形式写成：f(x)=ωTX+b其中ω(ω1;ω2;...ωd),ω和b学得了之后，模型就确定了。

2.模型求解给定数据集D={(xi,yi)}i=1m , 使得MSE最小化的过程就是实现一元线性回归模型的过程，即(w∗,b∗)=argmin(w,b)∑i=1m(f(xi)−yi)2 =argmin(w,b)∑i=1m(yi−ωx−b)2求解(ω∗,b∗) 的方法叫做最小二乘法。

机器学习中的回归问题

机器学习中的回归问题机器学习是目前计算机领域中的一个热门话题，它的应用范围非常广泛，包括语音识别、图像识别、自然语言处理等等。

机器学习主要分为两类，一类是监督学习，另一类是无监督学习。

监督学习的任务是根据已有的数据来训练模型，然后根据模型来预测新的数据。

回归问题是监督学习中的一个重要问题，它的目标是预测连续值的输出，比如预测股票价格、房价等等。

回归问题的表现形式在机器学习中，回归问题通常是这样表现的：有一个输入变量X 和一个输出变量 Y，它们之间存在着某种的关系，我们可以使用这个关系来预测 Y 的值。

例如，我们想预测某个房子的售价，那么房子的面积、地段等就是输入变量 X，而售价就是输出变量Y。

回归问题的解决方法对于一个回归问题，我们需要使用一些算法来解决它。

下面介绍一些经典的回归算法：1.线性回归线性回归是回归问题中最简单的一种算法。

它的基本思想是，通过拟合一条线来描述输入变量 X 和输出变量 Y 之间的关系。

线性回归的模型可以表示为 Y = w0 + w1X，其中 w0 和 w1 是待测量的常数。

线性回归使用最小二乘法来求解参数。

2.岭回归岭回归是一种用于解决多重共线性问题的方法。

多重共线性指的是输入变量 X 之间存在高度相关性的情况，这会导致模型的不稳定。

岭回归通过增加正则项来解决多重共线性问题，它的模型可以表示为Y = w0 + w1X + λw，其中λ 是需要调整的超参数。

3.决策树回归决策树回归是一种基于树形结构的回归算法。

它将输入变量 X 分成若干个区域，然后对每个区域拟合一个函数，最终得到一个可行的模型。

决策树回归通常比线性回归更加灵活，因为它可以适应非线性的关系。

4.支持向量回归支持向量回归是一种基于支持向量机的回归算法。

它使用一个核函数将输入变量 X 映射到一个高维空间中，然后在这个高维空间中拟合一个线性模型。

支持向量回归通过寻找最大边缘超平面来预测输出变量 Y 的值，通常是非线性回归问题的首选方法。

1、下载文档前请自行甄别文档内容的完整性，平台不提供额外的编辑、内容补充、找答案等附加服务。
2、"仅部分预览"的文档,不可在线预览部分如存在完整性等问题,可反馈申请退款(可完整预览的文档不适用该条件!)。
3、如文档侵犯您的权益，请联系客服反馈,我们会尽快为您处理(人工客服工作时间：9:00-18:30)。

缺点：无法度量损失的“严重程度”。
损失函数（ loss function）
平方损失函数（quadratic loss function）：
对数损失函数（logarithmic loss function）:
指数损失函数（exp-loss function）:
梯度下降算法
梯度下降法：是一种优化算法，通常也称为最
在实际应用中，问题复杂多样，不同的问题可能需要不同的方法来解
决。除了以上所介绍的回归方法外，还有很多方法：比如基于生成模型的贝叶斯回归（Bayesian Regression），基于树模型的分类回归树（CART），
基于集成方法的梯度提升树（GBDT）及XGboost等。
THANKS
Elastic Net
另一种回归方法叫Elastic Net，它同时采用了L1和L2正则，以综合Ridge Regression和Lasso Regression两者的优点。
既能稀疏化模型权重，又能保持岭回归的稳定性。
非线性模型
回归问题讨论
回归分析要有实际意义；
异常值检测。
扩展内容
该方法将前向选择与后项进行了结合，试图达到最优子集选择效果的同时也保留了前向和后向逐步选择在计算上的优势。
损失函数（ l oss function）
损失函数(loss function)度量预测错误的程度，常记作L(Y,f(X))。
常见的损失函数有以下几种：
0-1损失函数（0-1 loss function）：
回归问题应用场景
回归分析属于有监督学习，简单有效，应用十分广泛：
一个简单的例子
回归分析
回归分析研究的主要是因变量（目标）和自变量（经验）之间的依存关系。按关系类型，又可分为线性回归分析和非线性回归分析。学习过程如下：
Linear Regression
理想的拟合直线
最小二乘算法
最小二乘算法
变换缓慢，最终解的w趋于0附近。
L1正则与L2正则
对模型加入参数的正则化项后，模型会
尝试最小化这些权值参数。而这个最小化就像一个下坡的过程，L1和L2的另一个差别就在于这个“坡”不同。如下图：L1就是按绝对值函数的“坡” 下降的，而L2是按二次函数的“坡”下降。所以实际上在0附近，L1的下降速度比L2的下降速度要快。
随机梯度下降法（SGD）：它的具体思路是在更新每一参数时都使用一个样
本来进行更新。
Mini-batch Gradient Descent（MBGD）：它的具体思路是在更新每一参
数时都使用一部分样本来进行更新
可能存在的问题
学习过程可能出现的问题：
1）数据量过少（m<n）
2）存在大量相似特征
什么是过拟合？什么是结构风险最小化？
Backward Stepwise Selection
以全模型为起点，逐次迭代，每次移除一个对模型拟合结果最不利的变量。需满足样本量m大于变量个数n （保证全模型被拟合）。而前向逐步选择即时在m<n的情况下也可以使
用，适应于高维数据。
模型个数：[n(n+1)/2]+1
Stepwise Regression
风险函数
结构风险：经验风险最小化易产生“过拟合”问题。这就提出
了结构风险最小（SRM）的理论。本质上是在经验风险的基础上加入了正则化项（regularizer）或者叫做罚项（penalty term），即：
Overfiting and Underfiting
模型学的“太好”，把样本自身的一些特点当作所有潜在样本都会具有的一般性质，泛化性能很差，称为“过拟合”(overfitting)。正则化可以很好的解决这一
回归算法原理及应用
机器学习入门：
人类学习过程
模仿，实践认知再认知反馈
什么是机器学习？
机器学习就是让计算机从大量的数据中学习到相关的规律和逻辑，然后利用学习来的规律来进行决策，推理和识别等。
1.
发现规律
2. 3.
发件人邮件地址异常；标题含有“低价促销” …
？
测试数据邮件Xi
规则
测试
Forward Stepwise Selection
以零模型为起点，依次往模型中添加变量，直至加完所有的变量。但每次优先将能够最大限度地提升模型效果的变量加入模型。但无法保证找到的模型是所有2n-1个模
型中最优的，且可能在前期将后来变得多余
的变量纳入模型。
模型个数：[n(n+1)/2]+1
参数优化
如何高效的找到最优参数
”回归“的由来
英国人类学家F.Galton首次在
《自然遗传》一书中，提出并阐明了
“相关”和“相关系数”两个概念，为相关论奠定了基础。其后，他和英国统计学家Karl Pearson对上千个家庭的身高，臂长，拃长（伸开大拇指与中指两端的最大长度）做了测量，发现了一种现象。
根据学习方式的不同，可以分为监督学习，无监督学习和强化学习等几种类型。
（有指导）
监督学习
无监督学习
（自学）
（自我评估）
强化学习
ቤተ መጻሕፍቲ ባይዱ
机器学习三要素
机器学习可以认为是一个在逐步发现和探索规律的过程。学习过程
主要包含以三个要素：
模型表示问题的影响因素(特征)有哪些？它们之间的关系如何？模型评估什么样的模型是好的模型
选择“最优回归方程”
回归方程中包含的自变量个数越多，回归平方和就越大，残差平方和越小，预测值的置信区间也越小。
既要选择对预测影响显著的自变量，又要使回归的损失很小，
这样才有利于预测。
选择“最优回归方程”的方法有：最优子选择法（best subset selection）逐步选择法（stepwise selection）
3）过拟合，泛化能力弱（一般都存在此问题）可以使用结构风险最小化模型选择策略，即引入正则项。
风险函数
损失函数度量预测值与“真实值”之间的“接近程度”，而风险函数，可以认为是平均意义下的损失。有两个概念：
经验风险：给定一个数据集，模型f(x)关于训练集的平均损失被称为经验风险。
一般认为经验风险最小的模型最优，即经验风险最小化（ERM）。
结果评估 Yi：垃圾or正常
机器学习应用实例
应用实例：
1、对语言、文字的认知与识别 2、对图像、场景、自然物体的认知与识别 3、对规则的学习与掌握例如：下雨天要带伞，生病要吃药，天冷了要穿厚衣服等 4、对复杂事物的推理与判断能力例如：好人与坏人的辨别能力，事物的正误的判断能力
机器学习的种类
Best subset selection
最优子集选择法（best subset
selection），即对n个预测变量的所有可能组合（共有2n-1）分别进行拟合，然后选择出最优模型。
Stepwise Selection
逐步选择法按选择方式的不同，共分为三种：前向逐步选择法（Forward Stepwise Selection）后向逐步选择法（Backward Stepwise Selection）逐步回归法（Stepwise Regression）基于最优子集回归方法的一些缺陷，逐步选择的优点是限制了搜索空间，从而提高了运算效率。
Ridge Regression
正则化项是参数的L2范数时，整个回归方
法就叫做岭回归。相应损失函数：
那么为什么叫做“岭”回归呢？
Lasso Regression
lasso回归：参数范数为L1范数
优势：不仅可以解决过拟合问题，而且可以在参数缩减过程中，将一些
重复或不重要的参数直接缩减为零（删除），有提取有用特征的作用。
劣势：计算过程复杂，毕竟L1范数不是连续可导的。
L1正则与L2正则
L1正则与L2正则
L1正则与L2正则
从贝叶斯角度来看，正则化相当于对模型参数引入了先验分布，即对模型参数加了
分布约束：
L1正则，模型参数服从拉普拉斯分布，只有很小的|w|，才能得到较大的概率， L2正则，模型参数服从高斯分布对大的|w|，概率较低，而在接近0的时候，概率
速下降基本思想：
在下山时，如果想以最快的方式到达山底，应该沿着山势最陡的方向，也即山势变化最快的方向。同样，如果从任意一点出发，需要最快搜索到函数的最小值，那么也应该从函数变化最快的方向搜索而函数变化最快的方向就是函数的负梯度方向
梯度下降算法
损失计算方法
批量梯度下降法（BGD）：是梯度下降法最原始的形式，在更新每一参数时都使用所有的样本来进行更新。
问题。
与“过拟合”相对的是“欠拟合”(underfitting)，这是指对训练样本的一般性质尚未学好。
L1范数与L2范数
范数：范数是衡量某个向量空间（或矩阵）中的每个向量的长度或大小。
范数的一般化定义如下（实数p>=1）：
L1范数：当p=1时，是L1范数，表示某个向量中所有元素的绝对值之和。 L2范数：当p=2时，是L2范数，表示某个向量中所有元素的平方和再开根号。