AndrewNg机器学习笔记

合集下载

浅谈对机器学习的理解

浅谈对机器学习的理解人工智能大师西蒙曾说过：“学习就是系统在不断重复的工作中对本身能力的增强或者改进，使得系统在下一次执行同样任务或类似任务时，会比现在做得更好或效率更高。

[1]”说到学习，我们自然会首先想到人。

学习是人类一种非常重要的智能行为。

可以说，人类进化史是一个漫长而优秀的学习过程。

一个经典问题：“假设有一幅彩色油画，画的是一片茂密的森林。

在森林远处的一棵歪脖子的树上，有一只猴子坐在树上吃东西。

如果我们让一个人找出猴子的位置，在正常情况下，我们可以在不到一秒钟的时间内指出猴子，有些人甚至可以看到猴子。

”一见钟情。

“为什么一个人能同时识别出由数百种颜色组成的多种图案的猴子呢？原因很简单，而经验告诉我们的所有信息都是通过之前的学习获得的。

例如，当我们提到猴子时，我们会在潜意识中出现我们以前见过的猴子的许多相关特征。

只要画中的图案与正在出现的猴子特征相似，我们可以认出图案是猴子。

当然，承认错误也是可能的。

这是因为对事物的特征识别不够准确，需要进一步研究。

机器学习，顾名思义，就是使机器模拟人类的这种学习能力。

在计算机界机器一般指计算机，传统意义上，如果我们想让一台计算机工作，只要给它输入一串指令，然后让它遵照这个指令一步步执行下去即可。

但机器学习是一种让计算机只能利用数据而不是遵循指令来进行各种工作的方法。

那么计算机能否像人一样具有学习能力呢？1959年美国的塞缪尔(samuel)设计了一个下棋程序，这个程序具有学习能力，它可以在不断的对弈中改善自己的棋艺。

4年后，这个程序战胜了设计者本人。

又过了3年，这个程序战胜了美国一个保持8年之久的常胜不败的冠军[2]。

这个程序向人们展示了机器学习的能力，在计算机领域内造成了巨大的轰动。

通过以上分析，我们可以看出机器学习的过程类似于人类思维、基于经验的识别和归纳，但是它可以考虑更多的情况并执行更复杂的计算。

事实上，机器学习的主要目的之一就是将人类基于经验的思维、识别和归纳过程转化为一种方法，让计算机通过对现有数据的处理和计算，获得一定的规律模型，并根据该模型预测未来。

机器学习笔记19-----LDA主题模型（重点理解LDA的建模过程）

机器学习笔记19-----LDA主题模型（重点理解LDA的建模过程）1.主题模型主要内容及其应⽤(1)主要内容(2)主要应⽤2.共轭先验分布3.Dirichlet分布(狄利克雷分布)4.LDA的介绍LDA 在主题模型中占有⾮常重要的地位，常⽤来⽂本分类。

LDA由Blei, David M.、Ng, Andrew Y.、Jordan于2003年提出，⽤来推测⽂档的主题分布。

它可以将⽂档集中每篇⽂档的主题以概率分布的形式给出，从⽽通过分析⼀些⽂档抽取出它们的主题分布后，便可以根据主题分布进⾏主题聚类或⽂本分类。

主题模型，它称作为：隐含狄利克雷分布（Latent Dirichlet Allocation，简称LDA），是⼀种概率主题模型。

主题模型就是⼀种⾃动分析每个⽂档，统计⽂档中的词语，根据统计的信息判断当前⽂档包含哪些主题以及各个主题所占⽐例各为多少。

LDA 主题模型要⼲的事就是：根据给定的⼀篇⽂档，反推其主题分布。

主题模型是对⽂本中隐含主题的⼀种建模⽅法，每个主题其实是词表上单词的概率分布；主题模型是⼀种⽣成模型，⼀篇⽂章中每个词都是通过“以⼀定概率选择某个主题，并从这个主题中以⼀定概率选择某个词语”这样⼀个过程得到的。

LDA运⾏完会得到主题分布(θ)、词分布(Φ)(1)LDA是⼀个⽣成模型，下⾯介绍LDA⽣成⽂档的过程。

LDA 主题模型的⽣成过程图模型结构如下图所⽰：5.PLSA模型PLSA模型是最接近 LDA模型，所以理解PLSA模型有助于我们理解 LDA模型。

(1)pLSA模型下⽣成⽂档过程第⼀步：假设你每写⼀篇⽂档会制作⼀颗K⾯的“⽂档-主题”骰⼦（扔此骰⼦能得到K个主题中的任意⼀个），和K个V⾯的“主题-词项” 骰⼦（每个骰⼦对应⼀个主题，K个骰⼦对应之前的K个主题，且骰⼦的每⼀⾯对应要选择的词项，V个⾯对应着V个可选的词）。

例⼦：⽐如可令K=3，即制作1个含有3个主题的“⽂档-主题”骰⼦，这3个主题可以是：教育、经济、交通。

机器学习总结

sklearn 1.17. Neural network models (supervised)神经网络模型(监督学习)Warning :This implementation is not intended for large-scale applications. In particular, scikit-learn offers no GPU support. For much faster, GPU-based implementations, as well as frameworks offering much more flexibility to build deep learning architectures, see Related Projects.警告:此实现不适用于大规模应用。

特别是scikit-learn 不提供图形处理器支持。

有关更快、基于GPU 的实现，以及为构建深度学习架构提供更大灵活性的框架，请参见相关项目。

Deep neural networks etc.深度神经网络pylearn2: A deep learning and neural network library build on theano with scikit-learn like interface.pylearn2: 一个深度学习和神经网络库建立在具有scikit- learn 类接口的theano 之上。

sklearn_theano: scikit-learn compatible estimators, transformers, and datasets which use Theano internallysklearn_theano: sklearn 在内部使用theano 的兼容估计器、转换器和数据集.nolearn: A number of wrappers and abstractions around existing neural network librariesnolearn:围绕现有神经网络库的许多包装器和抽象keras : Deep Learning library capable of running on top of either TensorFlow or Theano.keras :能够在tensorflow 或thetano 上运行的深度学习库。

机器学习的知识重点

机器学习的知识重点机器学习是一门涵盖统计学、人工智能和计算机科学等多个领域的交叉学科，它研究如何设计和开发能够自动学习和改进的算法和模型。

在机器学习中，有一些重要的知识点需要特别关注和掌握。

本文将介绍机器学习的知识重点，帮助读者更好地理解和应用机器学习。

一、数据预处理在机器学习中，数据预处理是一个非常重要的步骤。

它包括数据清洗、特征选择、特征变换和数据集划分等过程。

数据清洗主要是处理缺失值、异常值和重复值等问题，确保数据的质量和完整性。

特征选择是从原始数据中选择最具代表性的特征，以提高模型的性能和泛化能力。

特征变换是将原始数据转化为适合模型输入的形式，如标准化、归一化和离散化等。

数据集划分是将数据集划分为训练集、验证集和测试集，用于模型的训练、调优和评估。

二、监督学习监督学习是机器学习中最常用的一种学习方式，它通过已有的标记数据来训练模型，然后对未知数据进行预测或分类。

在监督学习中，有一些重要的算法需要了解，如线性回归、逻辑回归、决策树、支持向量机和朴素贝叶斯等。

线性回归用于建立连续型变量之间的线性关系模型，逻辑回归用于建立二分类模型，决策树用于建立基于特征划分的分类模型，支持向量机用于建立最优间隔分类模型，朴素贝叶斯用于建立基于贝叶斯定理的分类模型。

三、无监督学习无监督学习是机器学习中另一种常用的学习方式，它通过未标记的数据来学习数据的结构和模式。

在无监督学习中，有一些重要的算法需要了解，如聚类、关联规则和降维等。

聚类是将相似的样本归为一类，不相似的样本归为不同类别，常用的聚类算法有K均值聚类和层次聚类等。

关联规则是挖掘数据集中的频繁项集和关联规则，常用的关联规则算法有Apriori算法和FP-growth算法等。

降维是将高维数据映射到低维空间，常用的降维算法有主成分分析和线性判别分析等。

四、模型评估与选择在机器学习中，模型的评估和选择是非常重要的，它决定了模型的性能和泛化能力。

常用的评估指标有准确率、精确率、召回率、F1值和ROC曲线等。

《机器学习》（周志华）西瓜书读书笔记（完结）

《机器学习》（周志华）西⽠书读书笔记（完结）⼤部分基础概念知识已经在这篇博客中罗列,因此本⽂仅对感觉重要或不曾了解的知识点做摘记第1章绪论对于⼀个学习算法a,若它在某问题上⽐学习算法b好,则必然存在另⼀些问题,在那⾥b⽐a好.即"没有免费的午餐"定理(No FreeLunch Theorem,NFL).因此要谈论算法的相对优劣,必须要针对具体的学习问题第2章模型评估与选择m次n折交叉验证实际上进⾏了m*n次训练和测试可以⽤F1度量的⼀般形式Fβ来表达对查准率/查全率的偏好:偏差度量了学习算法的期望预测与真实结果的偏离程度,即学习算法本⾝的拟合能⼒,⽅差度量了同样⼤⼩的训练集的变动所导致的学习性能的变化,即数据扰动造成的影响.噪声表达了当前任务上任何学习算法所能达到的期望泛化误差的下界,即学习问题本⾝的难度.第3章线性模型线性判别分析(LDA)是⼀种经典的监督线性降维⽅法:设法将训练样例投影到⼀条直线上,使同类样例的投影点尽可能接近,异类样例的投影点尽可能远离.对新样本分类时根据投影点的位置来确定类别.多分类学习的分类器⼀般有以下三种策略:1. ⼀对⼀(OvO),N个类别产⽣N * (N - 1) / 2种分类器2. ⼀对多(OvR或称OvA),N个类别产⽣N - 1种分类器3. 多对多(MvM),如纠错输出码技术解决类别不平衡问题的三种⽅法:1. 过采样法,增加正例使正负例数⽬接近,如SMOTE:思想是合成新的少数类样本,合成的策略是对每个少数类样本a,从它的最近邻中随机选⼀个样本b,然后在a、b之间的连线上随机选⼀点作为新合成的少数类样本.2. ⽋采样法,减少负例使正负例数⽬接近,如EasyEnsemble:每次从⼤多数类中抽取和少数类数⽬差不多的重新组合,总共构成n个新的训练集,基于每个训练集训练出⼀个AdaBoost分类器（带阈值）,最后结合之前训练分类器结果加权求和减去阈值确定最终分类类别.3. 再缩放法第4章决策树ID3决策树选择信息增益最⼤的属性来划分:1. 信息熵:2. 信息增益:C4.5决策树选择增益率⼤的属性来划分,因为信息增益准则对可取值数⽬较多的属性有所偏好.但增益率会偏好于可取值数⽬较少的属性,因此C4.5算法先找出信息增益⾼于平均⽔平的属性,再从中选择增益率最⾼的.另外,C4.5决策树采⽤⼆分法对连续值进⾏处理,使⽤时将划分阈值t作为参数,选择使信息增益最⼤的t划分属性.采⽤样本权值对缺失值进⾏处理,含有缺失值的样本同时划⼊所有结点中,但相应调整权重.1. 增益率:2. a的固有值:CART决策树则选择基尼指数最⼩的属性来划分,基尼系数反映了从数据集中随机抽取的两个样本类别不⼀致的概率,注意CART是⼆叉树,其余两种都为多叉树.1. 基尼值衡量的纯度:2. 基尼指数:剪枝是决策树对付过拟合的主要⼿段,分为预剪枝和后剪枝.1. 预剪枝对每个结点在划分前先进⾏估计,若该结点的划分不能带来决策树泛化性能提升,则停⽌划分.预剪枝基于"贪⼼"本质,所以有⽋拟合的风险.2. 后剪枝是先⽣成⼀棵完整的决策树,然后⾃底向上对⾮叶结点考察,若该结点替换为叶结点能带来决策树泛化性能提升,则将⼦树替换为叶结点.缺点是时间开销⼤.决策树所形成的分类边界是轴平⾏的,多变量决策树(斜决策树)的每⼀个⾮叶结点都是⼀个线性分类器,因此可以产⽣斜的划分边界.第5章神经⽹络误差逆传播算法(BP算法)是迄今为⽌最成功的神经⽹络学习算法.关键点在于通过计算误差不断逆向调整隐层神经元的连接权和阈值.标准BP算法每次仅针对⼀个训练样例更新,累积BP算法则根据训练集上的累积误差更新.缓解BP神经⽹络过拟合有两种常见策略:1. 早停:若训练集误差降低但验证集误差升⾼则停⽌训练.2. 正则化:在误差⽬标函数中增加⼀个描述⽹络复杂度的部分(较⼩的连接权和阈值将使神经⽹络较为平滑).跳出局部最⼩,寻找全局最⼩的常⽤⽅法:1. 以多组不同参数初始化多个神经⽹络,选择最接近全局最⼩的2. 模拟退⽕3. 随机梯度下降典型的深度学习模型就是很深层的神经⽹络.但是多隐层神经⽹络难以直接⽤经典算法进⾏训练,因为误差在多隐层内逆传播时往往会发散.⽆监督逐层训练(如深层信念⽹络,DBN)和权共享(如卷积神经⽹络,CNN)是常⽤的节省训练开销的策略.第6章⽀持向量机⽀持向量机中的原始样本空间不⼀定存在符合条件的超平⾯,但是如果原始空间是有限维,则总存在⼀个⾼维特征空间使样本线性可分.核函数就是⽤来简化计算⾼维特征空间中的内积的⼀种⽅法.核函数选择是⽀持向量机的最⼤变数.常⽤的核函数有线性核,多项式核,⾼斯核(RBF核),拉普拉斯核,Sigmoid核.对⽂本数据常⽤线性核,情况不明时可先尝试⾼斯核.软间隔是缓解⽀持向量机过拟合的主要⼿段,软间隔允许某些样本不满⾜约束.⽀持向量回归可以容忍预测输出f(x)和真实输出y之间存在ε的偏差,仅当偏差绝对值⼤于ε时才计算损失.⽀持向量机中许多规划问题都使⽤拉格朗⽇对偶算法求解,原因在于改变了算法复杂度.原问题的算法复杂度与样本维度有关,对偶问题的样本复杂度与样本数量有关.如果使⽤了升维的⽅法,则此时样本维度会远⼤于样本数量,在对偶问题下求解会更好.第7章贝叶斯分类基于贝叶斯公式来估计后验概率的困难在于类条件概率是所有属性上的联合概率,难以从有限的训练样本直接估计⽽得.因此朴素贝叶斯分类器采⽤了"属性条件独⽴性假设"来避开这个障碍.朴素贝叶斯分类器中为了避免其他属性携带的信息被训练集中未出现的属性值"抹去",在估计概率值时通常要进⾏"平滑",常⽤拉普拉斯修正.属性条件独⽴性假设在现实中往往很难成⽴,于是半朴素贝叶斯分类器采⽤"独依赖估计(ODE)",即假设每个属性在类别之外最多仅依赖于⼀个其他属性.在此基础上有SPODE,TAN,AODE等算法.贝叶斯⽹⼜称信念⽹,借助有向⽆环图来刻画属性之间的依赖关系,并⽤条件概率表来描述属性的联合概率分布.半朴素贝叶斯分类器是贝叶斯⽹的⼀种特例.EM(Expectation-Maximization)算法是常⽤的估计参数隐变量的⽅法.基本思想是:若参数θ已知,则可根据训练数据推断出最优隐变量Z的值(E);若Z的值已知,则可⽅便地对参数θ做极⼤似然估计(M).第8章集成学习集成学习先产⽣⼀组个体学习器,再⽤某种策略将它们结合起来.如果集成中只包含同种类型的个体学习器则叫同质集成,其中的个体学习器称为基学习器,相应的学习算法称为基学习算法.如果包含不同类型的个体学习器则叫异质集成,其中的学习器常称为组件学习器.要获得好的集成,个体学习器应"好⽽不同".即要有⼀定的准确性,并且要有多样性.⽬前的集成学习⽅法⼤致分为两⼤类:1. 序列化⽅法:个体学习器间存在强依赖关系,必须串⾏⽣成.2. 并⾏化⽅法:个体学习器间不存在强依赖关系,可同时⽣成.Boosting先从初始训练集训练出⼀个基学习器,再根据基学习器的表现对训练样本分布进⾏调整,使做错的训练样本在后续受到更多关注(给予更⼤的权重或重采样).然后基于调整后的样本分布来训练下⼀个基学习器;直到基学习器的数⽬达到指定值T之后,将这T个基学习器加权结合.Boosting主要关注降低偏差,因此能基于泛化性能相当弱的学习器构建出很强的集成.代表算法有AdaBoost.Bagging是并⾏式集成学习⽅法最著名的代表.它基于⾃助采样法,采样出T个含m个训练样本的采样集,基于每个采样集训练出⼀个基学习器,再将这些基学习器进⾏简单结合.在对预测输出进⾏结合时,常对分类任务使⽤投票法,对回归任务使⽤平均法.Bagging主要关注降低⽅差,因此在不剪枝决策树,神经⽹络等易受样本扰动的学习器上效⽤更明显.代表算法有随机森林.随机森林在以决策树为基学习器构建Bagging的基础上,进⼀步引⼊了随机属性选择.即先从属性集合(假定有d个属性)中随机选择⼀个包含k个属性的⼦集,再从这个⼦集中选择⼀个最优属性进⾏划分.当k=d时,基决策树与传统决策树相同.当k=1时,则随机选择⼀个属性⽤于划分.⼀般推荐k=log2d.学习器结合可能会从三个⽅⾯带来好处:1. 统计:可能有多个假设在训练集上达到同等性能,单学习器可能因误选⽽导致泛化性能不佳,结合多个学习器会减⼩这⼀风险.2. 计算:通过多次运⾏之后进⾏结合,降低陷⼊糟糕局部极⼩点的风险.3. 表⽰:结合多个学习器,相应的假设空间有所扩⼤,有可能学得更好的近似.结合策略:1. 平均法:对数值型输出,最常见的策略是平均法.⼀般⽽⾔,在个体学习器性能相差较⼤时使⽤加权平均法,性能相近时使⽤简单平均法.权重⼀般也是从训练数据中学习⽽得.2. 投票法:对分类任务来说,最常见的策略是投票法.⼜可细分为绝对多数投票法,相对多数投票法,加权投票法.绝对多数投票法允许"拒绝预测",若必须提供预测结果则退化为相对多数投票法.若基学习器的类型不同,则类概率值不能直接⽐较,需要将类概率输出转化为类标记输出后再投票.3. 学习法:当训练数据很多时,⼀种更强⼤的策略是通过另⼀个学习器来结合.Stacking是学习法的典型代表.我们把个体学习器称为初级学习器,⽤于结合的学习器称为次级学习器或元学习器.Stacking⽤初级学习器的输出作为样例输⼊特征,⽤初始样本的标记作为样例标记,然后⽤这个新数据集来训练次级学习器.⼀般⽤初级学习器的输出类概率作为次级学习器的输⼊属性,⽤多响应线性回归(Multi-response Linear Regression,MLR)作为次级学习算法效果较好.多样性增强常⽤的⽅法有:数据样本扰动,输⼊属性扰动,输出表⽰扰动,算法参数扰动.第9章聚类聚类既能作为⼀个找寻数据内在分布结构的单独过程,也可以作为其他学习任务的前驱过程.我们希望"物以类聚",也就是聚类结果的"簇内相似度"⾼且"簇间相似度"低.聚类性能度量⼤致有两类.⼀类是将聚类结果与参考模型进⾏⽐较,称为外部指标,常⽤的有JC,FMI,RI;另⼀类是直接考察聚类结果,称为内部指标,常⽤的有DBI,DI.有序属性距离计算最常⽤的是闵可夫斯基距离,当p=2时即欧⽒距离,当p=1时即曼哈顿距离.对⽆序属性可采⽤VDM(Value Difference Metric),将闵可夫斯基距离和VDM结合即可处理混合属性,当不同属性的重要性不同时可使⽤加权距离.我们基于某种形式的距离来定义相似度度量,但是⽤于相似度度量的距离未必⼀定要满⾜距离度量的基本性质,尤其是直递性.在现实任务中有必要通过距离度量学习来基于数据样本确定合适的距离计算式.原型聚类假设聚类结构能通过⼀组原型刻画.通常算法先对原型进⾏初始化,然后对原型进⾏迭代更新求解.常⽤的原型聚类算法有k均值算法,学习向量量化,⾼斯混合聚类.密度聚类假设聚类结构能通过样本分布的紧密程度确定.通常从样本密度的⾓度来考察样本之间的可连接性,并基于可连接样本不断扩展聚类簇.常⽤算法有DBSCAN层次聚类试图在不同层次对数据集进⾏划分,从⽽形成树形的聚类结构.代表算法有AGNES.第10章降维与度量学习懒惰学习在训练阶段只把样本保存起来,训练时间开销为零,待收到测试样本后再进⾏处理,如k近邻学习(kNN).急切学习则在训练阶段就对样本进⾏学习处理.若任意测试样本x附近任意⼩的δ距离范围内总能找到⼀个训练样本,即训练样本的采样密度⾜够⼤,或称为密采样,则最近邻分类器(1NN)的泛化错误率不超过贝叶斯最优分类器的错误率的两倍.在⾼维情形下出现的数据样本稀疏,距离计算困难等问题称为"维数灾难".处理⾼维数据的两⼤主流技术是降维和特征选择.降维亦称维数约简,即通过某种数学变换将原始⾼维属性空间转变为⼀个低维⼦空间.能进⾏降维的原因是与学习任务密切相关的或许仅仅是数据样本的某个低维分布,⽽不是原始⾼维空间的样本点.多维缩放是⼀种经典的降维⽅法.它使原始空间中样本之间的距离在低维空间中得以保持.主成分分析(PCA)是最常⽤的⼀种降维⽅法.如果要⽤⼀个超平⾯对所有样本进⾏恰当的表达,这个超平⾯应该具有最近重构性和最⼤可分性两种性质.基于这两种性质可以得到主成分分析的等价推导.PCA可以使样本的采样密度增⼤,同时在⼀定程度上起到去噪的效果.线性降维⽅法有可能丢失低维结构,因此要引⼊⾮线性降维.⼀种常⽤⽅法是基于核技巧对线性降维⽅法进⾏核化.如核主成分分析(KPCA).流形学习(manifold learning)是⼀类借鉴了拓扑流形概念的降维⽅法.流形在局部具有欧⽒空间性质.将低维流形嵌⼊到⾼维空间中,可以容易地在局部建⽴降维映射关系,再设法将局部映射关系推⼴到全局.常⽤的流形学习⽅法有等度量映射和局部线性嵌⼊等.对⾼维数据进⾏降维的主要⽬的是找到⼀个合适的低维空间.事实上,每个空间对应了在样本属性上定义的⼀个距离度量,度量学习直接尝试学习出⼀个合适的距离度量.常⽤⽅法有近邻成分分析(NCA).第11章特征选择与稀疏学习对当前学习任务有⽤的属性称为相关特征,没什么⽤的属性称为⽆关特征.从给定特征集合中选择出相关特征⼦集的过程称为特征选择.特征选择是⼀个重要的数据预处理过程.冗余特征是指包含的信息可以从其他特征中推演出来的特征.冗余特征在很多时候不起作⽤,但若某个冗余特征恰好对应了完成学习任务所需的中间概念,则该冗余特征反⽽是有益的.⼦集搜索:可以采⽤逐渐增加相关特征的前向搜索,每次在候选⼦集中加⼊⼀个特征,选取最优候选⼦集.也可以采⽤每次去掉⼀个⽆关特征的后向搜索.这些策略是贪⼼的,但是避免了穷举搜索产⽣的计算问题.⼦集评价:特征⼦集A确定了对数据集D的⼀个划分,样本标记信息Y对应着对D的真实划分,通过估算这两个划分的差异就能对A进⾏评价.可采⽤信息熵等⽅法.过滤式选择先对数据集进⾏特征选择,然后再训练学习器,特征选择过程与后续学习器⽆关.Relief(Relevant Features)是⼀种著名的过滤式选择⽅法.该⽅法设计了⼀个相关统计量来度量特征的重要性.包裹式选择直接把最终将要使⽤的学习器的性能作为特征⼦集的评价标准.因此产⽣的最终学习器的性能较好,但训练时的计算开销也更⼤.LVW(Las Vegas Wrapper)是⼀个典型的包裹式特征选择⽅法,它在拉斯维加斯⽅法框架下使⽤随机策略来进⾏⼦集搜索,并以最终分类器的误差为特征⼦集评价准则.嵌⼊式选择是将特征选择过程与学习器训练过程融为⼀体,两者在同⼀个优化过程中完成.例如正则化.L1正则化(Lasso)是指权值向量w中各个元素的绝对值之和.L1正则化趋向选择少量的特征,使其他特征尽可能为0,可以产⽣稀疏权值矩阵,即产⽣⼀个稀疏模型,可以⽤于特征选择.L1正则化是L0正则化的最优凸近似.L2正则化(Ridge)是指权值向量w中各个元素的平⽅和然后再求平⽅根.L2正则化趋向选择更多的特征,让这些特征尽可能接近0,可以防⽌模型过拟合(L1也可以).字典学习也叫稀疏编码,指的是为普通稠密表达的样本找到合适的字典,将样本转化为合适的稀疏表达形式,从⽽使学习任务得以简化,模型复杂度得以降低的过程.压缩感知关注的是利⽤信号本⾝的稀疏性,从部分观测样本中恢复原信号.分为感知测量和重构恢复两个阶段,其中重构恢复⽐较重要.可利⽤矩阵补全等⽅法来解决推荐系统之类的协同过滤(collaborative filtering)任务.由于第⼀次阅读,12章开始的内容仅作概念性了解.第12章计算学习理论计算学习理论研究的是关于通过计算来进⾏学习的理论,⽬的是分析学习任务的困难本质,为学习算法提供理论保证,并提供分析结果指导算法设计.计算学习理论中最基本的是概率近似正确(Probably Approximately Correct,PCA)学习理论.由此可以得到PAC辨识,PAC可学习,PAC学习算法,样本复杂度等概念.有限假设空间的可分情形都是PAC可学习的.对于不可分情形,可以得到不可知PAC可学习的概念,即在假设空间的所有假设中找到最好的⼀个.对⼆分类问题来说,假设空间中的假设对数据集中⽰例赋予标记的每种可能结果称为对数据集的⼀种对分.若假设空间能实现数据集上的所有对分,则称数据集能被假设空间打散.假设空间的VC维是能被假设空间打散的最⼤数据集的⼤⼩.算法的稳定性考察的是算法在输⼊发⽣变化时,输出是否会随之发⽣较⼤的变化.第13章半监督学习主动学习是指先⽤有标记样本训练⼀个模型,通过引⼊额外的专家知识,将部分未标记样本转变为有标记样本,每次都挑出对改善模型性能帮助⼤的样本,从⽽构建出⽐较强的模型.未标记样本虽未直接包含标记信息,但若它们与有标记样本是从同样的数据源独⽴同分布采样⽽来,则它们所包含的关于数据分布的信息对建模⼤有裨益.要利⽤未标记样本,需要有⼀些基本假设,如聚类假设,流形假设.半监督学习可进⼀步划分为纯半监督学习和直推学习.前者假定训练数据中的未标记样本并⾮待预测的数据,⽽后者则假定学习过程中所考虑的未标记样本恰是待预测数据.⽣成式⽅法是直接基于⽣成式模型的⽅法.此类⽅法假设所有数据都是由同⼀个潜在的模型⽣成的.这个假设使得我们能通过潜在模型的参数将未标记数据与学习⽬标联系起来.半监督⽀持向量机(S3VM)是⽀持向量机在半监督学习上的推⼴.S3VM试图找到能将两类有标记样本分开,且穿过数据低密度区域的划分超平⾯.除此之外,还有图半监督学习,基于分歧的⽅法(如协同训练),半监督聚类等学习⽅法.第14章概率图模型机器学习最重要的任务,是根据⼀些已观察到的证据来对感兴趣的未知变量进⾏估计和推测.⽣成式模型考虑联合分布P(Y,R,O),判别式模型考虑条件分布P(Y,R|O).概率图模型是⼀类⽤图来表达变量相关关系的概率模型.若变量间存在显式的因果关系,常使⽤贝叶斯⽹.若变量间存在相关性但难以获取显式的因果关系,常使⽤马尔可夫⽹.隐马尔可夫模型(Hidden Markov Model,HMM)是结构最简单的动态贝叶斯⽹.主要⽤于时序数据建模,在语⾳识别,⾃然语⾔处理等领域有⼴泛应⽤.隐马尔可夫模型中有状态变量(隐变量)和观测变量两组变量.马尔可夫链:系统下⼀时刻的状态仅有当前状态决定,不依赖于以往的任何状态.马尔可夫随机场(Markov Random Field,MRF)是典型的马尔可夫⽹.每⼀个结点表⽰⼀个或⼀组变量,结点之间的边表⽰两个变量之间的依赖关系.条件随机场是判别式模型,可看作给定观测值的马尔可夫随机场.概率图模型的推断⽅法⼤致分为两类.第⼀类是精确推断,代表性⽅法有变量消去和信念传播.第⼆类是近似推断,可⼤致分为采样(如MCMC采样)和使⽤确定性近似完成近似推断(如变分推断).第15章规则学习规则学习是指从训练数据中学习出⼀组能⽤于对未见⽰例进⾏判别的规则.规则学习具有较好的可解释性,能使⽤户直观地对判别过程有所了解.规则学习的⽬标是产⽣⼀个能覆盖尽可能多的样例的规则集,最直接的做法是序贯覆盖,即逐条归纳:每学到⼀条规则,就将该规则覆盖的训练样例去除.常采⽤⾃顶向下的⽣成-测试法.规则学习缓解过拟合的常见做法是剪枝,例如CN2,REP,IREP等算法.著名的规则学习算法RIPPER就是将剪枝与后处理优化相结合.命题规则难以处理对象之间的关系,因此要⽤⼀阶逻辑表⽰,并且要使⽤⼀阶规则学习.它能更容易地引⼊领域知识.著名算法有FOIL(First-Order Inductive Learner)等.第16章强化学习强化学习的⽬的是要找到能使长期累积奖赏最⼤化的策略.在某种意义上可看作具有"延迟标记信息"的监督学习问题.每个动作的奖赏值往往来⾃于⼀个概率分布,因此强化学习会⾯临"探索-利⽤窘境",因此要在探索和利⽤中达成较好的折中.ε-贪⼼法在每次尝试时以ε的概率进⾏探索,以均匀概率随机选取⼀个动作.以1-ε的概率进⾏利⽤,选择当前平均奖赏最⾼的动作.Softmax算法则以较⾼的概率选取平均奖赏较⾼的动作.强化学习任务对应的马尔可夫决策过程四元组已知的情形称为模型已知.在已知模型的环境中学习称为"有模型学习".反之称为"免模型学习".从⼈类专家的决策过程范例中学习的过程称为模仿学习.。

基于深度学习的图像识别进展：百度的若干实践

基于深度学习的图像识别进展：百度的若干实践近年来在人工智能领域最受关注的，非深度学习莫属。

自2006年吉奥夫雷·辛顿(GeofferyHinton)等在《科学》(Science)杂志发表那篇著名的论文[1]开始，深度学习的热潮从学术界席卷到了工业界。

2012年6月，《纽约时报》披露“谷歌大脑(Google Brain)”项目，由著名的斯坦福大学机器学习教授吴恩达(Andrew Ng)和大规模计算机系统世界顶级专家杰夫·迪恩(Jeff Dean)共同主导，用1.6万个CPU核的并行计算平台训练深度神经网络(Deep Neural Networks, DNN)的机器学习模型，在语音和图像识别等领域获得巨大成功。

国内方面，2013年1月，百度成立深度学习研究院，公司CEO 李彦宏担任院长。

短短两年时间，深度学习技术被应用到百度的凤巢广告系统、网页搜索、语音搜索、图像识别等领域，涵盖几十项产品。

今天，用户在百度平台上的几乎每个服务请求，都被深度学习系统所处理。

人工智能的特征之一是学习的能力，即系统的性能是否会随着经验数据的积累而不断提升。

所以，大数据时代的到来给人工智能的发展提供前所未有的机遇。

在这个时代背景下，深度学习在包括图像识别等方面所取得的突破性进展并非偶然。

在百度的实践中，我们认识到深度学习主要在以下三个方面具有巨大优势：1.从统计和计算的角度看，深度学习特别适合处理大数据。

在很多问题上，深度学习是目前我们能找到的最好方法。

它集中体现了当前机器学习算法的三个大趋势：用较为复杂的模型降低模型偏差(model bias)，用大数据提升统计估计的准确度，用可扩展(scalable)的梯度下降算法求解大规模优化问题。

2.深度学习不是一个黑箱系统。

它像概率模型一样，提供一套丰富的、基于联接主义的建模语言（建模框架）。

利用这套语言系统，我们可以表达数据内在的丰富关系和结构，比如用卷积处理图像中的二维空间结构，用递归神经网络(Recurrent Neural Network, RNN)处理自然语言等数据中的时序结构。

神经网络——前向传播与反向传播公式推导

神经⽹络——前向传播与反向传播公式推导概述对于⼀个最原⽣的神经⽹络来说，BP反向传播是整个传播中的重点和核⼼，也是机器学习中的⼀个⼊门算法。

下⾯将以逻辑回归的分类问题为例，从最简单的单个神经元开始引⼊算法，逐步拓展到神经⽹络中，包括BP链式求导、前向传播和反向传播的向量化。

最后利⽤Python语⾔实现⼀个原始的神经⽹络结构作为练习。

需了解的预备知识：代价函数、逻辑回归、线性代数、多元函数微分参考：《ML-AndrewNg》神经元单个神经元是最简单的神经⽹络，仅有⼀层输⼊，⼀个输出。

【前向传播】\[z={{w}_{1}}\cdot {{x}_{1}}+{{w}_{2}}\cdot {{x}_{2}}+{{w}_{3}}\cdot {{x}_{3}}+b=\left[ \begin{matrix} {{w}_{1}} & {{w}_{2}} & {{w}_{3}} \\\end{matrix} \right]\left[ \begin{matrix} {{x}_{1}} \\ {{x}_{2}} \\ {{x}_{3}} \\ \end{matrix} \right]+b \]若激活函数为sigmoid函数，则\[\hat{y}=a =sigmoid(z) \]【代价函数】\[J(W,b)=-[y\log (a)+(1-y)\log (1-a)] \]【计算delta】\[deleta=a-y=\hat{y}-y \]【计算偏导数】\[\frac{\partial J}{\partial w}=\frac{\partial J}{\partial a}\cdot \frac{\partial a}{\partial z}=-(\frac{y}{a}+\frac{y-1}{1-a})a(a-1)=(a-y)x^T=(\hat{y}-y)x^T \]\[\frac{\partial J}{\partial b}=\frac{\partial J}{\partial a}\cdot \frac{\partial a}{\partial z}\cdot \frac{\partial z}{\partial b}=a-y=\hat{y}-y \]【更新权重】\[w = w-\alpha*\frac{\partial J}{\partial w} \]\[b = b-\alpha*\frac{\partial J}{\partial b} \]拓展到神经⽹络假设⽹络结构如上图所⽰，输⼊特征为2个，输出为⼀个三分类，隐藏层单元数均为4，数据如列表中所⽰，共20条。

machine learning for signal processing 笔记

machine learning for signal processing 笔记：一、信号处理中的机器学习应用概述信号分类：使用监督学习技术（如SVM、决策树、随机森林、神经网络）对不同类型的信号进行识别和分类，例如在音频、图像、雷达信号等领域。

特征提取：通过无监督学习或深度学习自动从原始信号中学习并提取有意义的特征，例如使用自编码器、深度信念网络、卷积神经网络（CNN）等来学习声音或图像信号的特征表示。

预测与滤波：基于时间序列数据，利用循环神经网络（RNN）、长短时记忆网络（LSTM）或门控循环单元（GRU）进行信号预测或滤波操作。

降维与可视化：利用主成分分析（PCA）、独立成分分析（ICA）或流形学习方法降低信号维度，实现高效存储和可视化。

异常检测：通过训练模型识别正常信号模式，并据此定义异常情况，适用于工业监控、医疗诊断等场景。

二、具体应用场景示例通信系统：在无线通信中，ML可用于信道估计、符号检测、干扰抑制等问题。

生物医学信号：心电图（ECG）、脑电图（EEG）等信号处理中，ML用于疾病诊断、睡眠分期、癫痫发作预测等。

图像信号：图像去噪、超分辨率重建、图像分割和目标检测中广泛应用CNN 和其他深度学习方法。

语音信号：语音识别、说话人识别、语音增强等领域利用了ML的强大功能。

三、算法与框架Keras、TensorFlow、PyTorch：这些深度学习框架常被用来构建复杂的信号处理模型。

Scikit-learn：对于传统机器学习算法，在信号处理中的预处理阶段和部分简单的分类、回归任务非常有用。

四、挑战与优化小样本学习：在信号处理中，如何在有限的数据下训练出泛化能力强的模型是一大挑战。

实时性要求：某些信号处理任务需要实时响应，因此算法的计算效率至关重要。

解释性和鲁棒性：提升模型的可解释性以及对噪声和恶意攻击的抵抗能力也是研究重点。

以上只是一个概要性的笔记提纲，实际的学习过程中应深入每个点进行详细探讨和实践。

1、下载文档前请自行甄别文档内容的完整性，平台不提供额外的编辑、内容补充、找答案等附加服务。
2、"仅部分预览"的文档,不可在线预览部分如存在完整性等问题,可反馈申请退款(可完整预览的文档不适用该条件!)。
3、如文档侵犯您的权益，请联系客服反馈,我们会尽快为您处理(人工客服工作时间：9:00-18:30)。

编程练习1：线性回归机器学习介绍在这个练习中，您将实现线性回归，并能看到它的数据。

开始对这种编程练习之前，我们强烈建议观看视频讲座，并完成对相关主题的复习题。

要开始使用的练习中，您将需要的内容下载启动代码，并解压到你想要完成练习的目录。

如果需要，可使用光盘在八度/ MATLAB命令来开始这个练习前切换到该目录。

您也可以Fi，可在课程网站的“环境安装说明”安装八度/ MATLAB次指令。

文件包含在此锻炼ex1.m - 八度/ MATLAB程序，引导您完成练习EX1 multi.m - 八度/ MATLAB脚本演练的后面部分ex1data1.txt - 数据集用于与一个变量线性回归ex1data2.txt - 数据集用于与多个变量线性回归submit.m - 提交脚本发送您的解决方案，我们的服务器warmUpExercise.m [？] - 在八度/ MATLAB简单的例子功能plotData.m [？] - 功能来显示数据集computeCost.m [？] - 函数来计算线性回归的成本gradientDescent.m [？] - 函数运行梯度下降[ †] computeCostMulti.m - 多变量成本函数[ †] gradientDescentMulti.m - 梯度下降的多个变量[ †] featureNormalize.m - 功能正常化的功能[ †] normalEqn.m - 函数来计算法方程？表明科幻LES，你将需要完成† 表示可选演习在整个练习中，您将使用脚本 ex1.m 和 EX1 multi.m。

这些脚本建立数据集的问题，并作出你会写函数的调用。

你并不需要修改其中任何。

您只需要修改的功能在其他科幻LES，按照此任务的指示。

对于这种编程练习中，您只需要完成练习的第一个部分来实现线性回归一个变量。

运动，这是可选的第二部分，覆盖多变量线性回归。

从哪里获得帮助本课程的练习用八度 1 或MATLAB，一个高级语言非常适合于数字计算。

如果您尚未安装倍频或MATLAB有别，请参阅安装说明在课程网站的“环境设置说明”。

在八度/ MATLAB命令行，输入帮帮我随后是一个内置函数的函数名称显示的文档。

例如，帮助情节将弹出帮助信息绘制。

用于八度音功能的进一步文档可在找到八度文档页面。

MATLAB文档可以在找到 MATLAB文档页面。

我们还大力鼓励使用在线讨论讨论与其他学生练习。

但是，不看别人写的任何源代码或与他人分享你的源代码。

1个简单的八度/ MATLAB功能的第一个部分 ex1.m 为您提供了八度/ MATLAB语法和作业提交过程练习。

在网络连接文件 warmUpExercise.m，你会科幻ND的八度/ MATLAB功能的概要。

修改它以在下面的代码返回通过网络连接灌装的5×5单位矩阵：A =眼（5）;1 Octave是一个免费的替代MATLAB。

对于编程练习，您可以自由使用任何八度或MATLAB。

当你连接nished，运行 ex1.m（假设你是在正确的目录，键入“ EX1 ”在八度/ MATLAB提示），你应该看到类似以下的输出：ANS =对角矩阵1 0 0 0 0 01 0 0 0 00 1 0 0 00 0 1 0 00 0 0 1现在 ex1.m 将暂停，直到你按任意键，然后将运行代码的分配的一个部分。

如果你想退出，打字 CTRL-C 将在其运行到一半时停止该程序。

1.1提交解决方案在完成工作的一部分后，您可以通过键入提交您的解决方案，为分级提交在八度/ MATLAB命令行。

提交脚本会提示你输入你的登录电子邮件和提交令牌，并问你科幻LES要提交哪些。

您可以从网页中的分配提交令牌。

现在，您应该提交您的解决方案。

你被允许多次提交您的解决方案，我们将只需要得分最高的考虑。

2线性回归用一个可变在这个练习中的这一部分，您将实现线性回归一个变量来预测亲科幻TS用于食品的卡车。

假设你是吴宗宪的CEO，并考虑双FF erent城市打开了新的出路。

这家连锁店已经在多个城市的卡车，你有从城市亲音响TS和人口数据。

你想用这个数据来帮助您选择扩大到下一哪个城市。

该网络文件 ex1data1.txt 包含我们的线性回归问题的数据集。

的第一列是一个城市的人口，第二列是在这个城市食品卡车的亲科幻吨。

亲科幻吨负值表示的损失。

该 ex1.m 剧本已经被设置为加载此数据为您服务。

2.1绘图数据在开始任何任务之前，常常是有用的可视化，理解数据。

对于这个数据集，你可以使用一个散点图以可视化的数据，因为它只有两个属性绘制（PRO网络连接T和人口）。

（你会在现实生活中遇到的诸多难题是多维，不能在2 d绘制曲线）。

在 ex1.m，数据集从数据网络连接到文件中的变量加载 X和 Y：数据=负载（ 'ex1data1.txt' ）; ％读取逗号分隔数据X =数据（：，1）; Y =数据（：，2）; M =长度（Y）;的训练实例数％接下来，脚本调用 plotData 函数来创建数据的散点图。

你的任务是完成 plotData.m 绘制情节; 修改下面的代码的网络文件和FI LL：积（X，Y， 'RX' ， 'MarkerSize' ，10）; ％绘制数据ylabel（ “利润$ 10,000s” ）; ％设定Y - 轴标签xlabel（ “城市的人口在10,000s” ）; ％设置X - 轴标签现在，当你继续运行 ex1.m，我们的最终结果应该像图1中，用相同的红色“X”标记和轴标签。

要了解更多关于绘图命令，你可以键入帮助情节在八度/ MATLAB命令提示符或用于绘图文档在网上搜索。

（要更改标记为红色的“X”，我们使用了选项“RX”的情节命令在一起，即，情节（.. [这里你的选择]，...， 'RX'）; ）46810 12 14 16 18 20 22 24-5 0510152025在10,000s市人口图1：训练数据的散点图2.2梯度下降在这一部分，你将科幻t时的线性回归参数 θ 我们的数据集采用梯度下降。

2.2.1更新方程线性回归的目标是最小化的成本函数Ĵ（θ）= 12 米米ΣI = 1（ H θ（ X（一世）） - Y（一世）） 2其中所述假设 H θ（ X）由线性模型给出H θ（ X）=θ Ť X =θ 0 + θ 1 X 1回想一下，你的模型的参数是 θ Ĵ 值。

这些都是你会调整将成本降至最低值 Ĵ（θ）。

要做到这一点的方法之一是使用批处理梯度下降算法。

在分批梯度下降，每次迭代执行更新利润$ 10,000sθ Y：= θ Ĵ - α 1米米ΣI = 1（ H θ（ X（一世）） - Y（一世）） X（一世）Ĵ（同时更新 θ Ĵ 对全部 j）的。

随着梯度下降，你的参数每一步 θ Ĵ 更接近最佳值，这将实现最低成本 Ĵ（θ）。

实现注意：我们每个示例存储为在该行 X矩阵在八度/ MATLAB。

考虑到截距项（ θ 0），我们添加一个额外的第一列到 X 并将其设置为全1。

这使我们能够治疗 θ 0 作为只是另一种“功能”。

2.2.2实施在 ex1.m，我们已经建立了线性回归的数据。

在下面的行，我们添加了另一个维度我们的数据，以适应θ 0 截距项。

我们还初始化的初始参数为0，学习速率 α 0.01。

X = [者（M，1），数据（：，1）]; ％加入那些与X的列THETA =零（2，1）; ％初始化参数拟合迭代= 1500; 阿尔法= 0.01;2.2.3计算成本 Ĵ（θ）当你进行梯度下降学习最小化成本函数 Ĵ（θ），它有助于通过计算成本来监视收敛。

在本节中，您将实现一个函数来计算 Ĵ（θ）这样你就可以检查你的梯度下降实现的融合。

你的下一个任务是完成代码的网络文件 computeCost.m，这是计算的函数 Ĵ（θ）。

当你这样做时，请记住变量 X 和 ÿ 不是标量的值，但其矩阵行表示从训练集中的例子。

一旦你完成的功能，下一步在 ex1.m 会跑computeCost 一旦使用 θ 初始化为零，你会看到显示在屏幕上的成本。

你应该会看到的成本 32.07。

现在，您应该提交您的解决方案。

2.2.4梯度下降接下来，您将实现在网络文件梯度下降 gradientDescent.m。

循环结构已经写了你，你只需要提供更新 θ 每个迭代内。

至于你的程序，确保你了解你们什么优化，什么正在更新。

请记住，成本 Ĵ（θ）由矢量参数 θ，不X 和年。

也就是说，我们尽量减少的值 Ĵ（θ）通过改变矢量的值 θ，不改变 X 要么年。

参考公式在这个讲义和视频讲座，如果你是不确定的。

验证梯度下降是否正常工作的一个好方法是看价值 Ĵ（θ）并检查它是否与每个步骤递减。

对于启动代码 gradientDescent.m 电话 computeCost 在每次迭代并打印成本。

假设你已经实现了梯度下降和computeCost 正确，你的价值 Ĵ（θ）不应该增加，并应通过算法结束收敛到一个稳定值。

之后你是科幻nished， ex1.m 将使用您的网络连接最终参数，绘制直线科幻吨。

结果应该类似于图2：为您的网络连接最终值 θ 也将被用来制作上亲科幻TS预测在35000和70000人的地方。

需要注意的方式，下面几行ex1.m 采用矩阵乘法，而不是明确的总和或循环，来计算预测。

这是在八度/ MATLAB代码矢量的一个例子。

现在，您应该提交您的解决方案。

predict1 = [1，3.5] *峰; predict2 = [1,7] *峰;2.3调试这里有一些事情要记住当你实现梯度下降：•八度/ MATLAB数组索引从一个，而不是从零开始。

如果你存储 θ 0 和 θ 1 在一个名为向量 θ表示该值将是 THETA（1）和THETA（2）。

•如果你在运行时看到了许多错误，检查你的矩阵运算，以确保你加法和乘法兼容维度的矩阵。

打印的变量与尺寸尺寸命令会帮你调试。

在10,000s市人口图2：用线性回归音响T个训练数据•默认情况下，八度/ MATLAB解释数学运算是矩阵运营商。

这是大小不兼容错误的常见原因。

如果你不想矩阵乘法，你需要添加“点”表示法指定这八度/ MATLAB。

例如， A * B 确实的矩阵相乘，而 A. * B 确实逐元素乘法。

2.4可视化 Ĵ（θ）要了解成本函数 Ĵ（θ）好，你现在将绘制在成本的2维网格 θ 0 和 θ 1 值。

您不需要为这部分代码什么新的东西，但你应该了解你已经编写的代码是创建这些图像。

在接下来的步骤 ex1.m，有代码设置为计算 Ĵ（θ）过使用值的格 computeCost 你写的功能。