《机器学习实践应用》读书笔记

合集下载

机器学习心得（精选3篇）

机器学习心得（精选3篇）机器学习心得篇1上午头出去开会，日子一下子清闲了许多。

在网上搜集了几个关于人工神经网络的东西，学习了一下，并且利用spss软件实现了一个实例。

下面写点心得。

人工神经网络的作用：人工神经网络，不属于机器学习，它和机器学习是平行的一个体系，算法多种多样。

其是通过模仿自然界生物神经传递信息，来进行学习。

人工神经网络可以做的事情其实很多，最典型的就是对于训练样本进行分类。

比如，我们现在又一堆混杂在一起的代码，这些代码中包含了C语言，C++，Python，或者还有R的代码等等。

这些代码段混杂在一起，我们需要区分它们。

这时候，人工神经网络就有了作用。

另外一个例子，也是spss手册里给出的例子，比如我们手头有一堆样本，是某个银行贷款申请者的信息，信息包括了这些用户的基本信息，以及信用记录，我们想要在这些用户中标示出潜在的欠款者，此时也可以利用人工神经网络，通过学习，将这些用户分类。

人工神经网络的工作原理：首先要介绍神经元模型，神经元其实就是一个有阈值的函数，包括输入，函数，输出。

当一组信息输入一个神经元时，神经元通过一个函数，(这里的函数有几种不同类型，但是原理都在于将输入的信息编码，比如将输入的值转化为[-1,1]或者[0,1]的区间上)，编码之后，神经元会对此进行阈值的判定，比如大于某个值，我们就输出1，否则输出0.这样就起到了分类的作用。

而神经网络，就是神经元的一个组合。

可以有多个层次的感知输入信号，也可以有多层次的输出，并且可以加上信号的反馈。

每一层神经元都承担者输入，输出的功能。

人工神经网络的核心是通过输入训练样本，不断地调整层与层之间传递的强度，也就是权值。

并且利用一个标准，来判定经过调整的权值是否最优。

(这里，所谓的标准可以有很多不同的种类，构成了不同的算法，但是归根结底，标准总要求输出的正确分类比例要达到最大)。

人工神经网络算法：算法这个东西，涉及到几个函数，比如激励函数。

周志华《机器学习》学习笔记

机器学习周志华学习笔记目录1 绪论 (7)2 模型的评估与选择 (9)2.1 误差与过拟合 (9)2.2 评估方法 (10)2.3 训练集与测试集的划分方法 (10)2.4 调参 (12)2.5 性能度量 (13)2.6 比较检验 (21)2.6.1 假设检验 (21)2.6.2 交叉验证t检验 (23)2.6.3 McNemar检验 (23)2.6.4 Friedman检验与Nemenyi后续检验 (24)2.7 偏差与方差 (26)3、线性模型 (27)3.1 线性回归 (27)3.2 线性几率回归 (30)3.3 线性判别分析 (31)3.4 多分类学习 (33)3.5 类别不平衡问题 (35)4、决策树 (36)4.1 决策树基本概念 (36)4.2 决策树的构造 (37)4.2.1 ID3算法 (38)4.2.2 C4.5算法 (38)4.2.3 CART算法 (39)4.3 剪枝处理 (39)4.4 连续值与缺失值处理 (41)5、神经网络 (43)5.1 神经元模型 (43)5.2 感知机与多层网络 (45)5.5 深度学习 (52)6、支持向量机 (54)6.1 函数间隔与几何间隔 (54)6.1.1 函数间隔 (55)6.1.2 几何间隔 (55)6.2 最大间隔与支持向量 (56)6.3 从原始优化问题到对偶问题 (57)6.4 核函数 (59)6.5 软间隔支持向量机 (61)7、贝叶斯分类器 (65)7.1 贝叶斯决策论 (65)7.2 极大似然法 (67)7.3 朴素贝叶斯分类器 (69)8、EM算法 (70)8.1 EM算法思想 (70)8.2 EM算法数学推导 (70)8.3 EM算法流程 (73)9、集成学习 (74)9.1 个体与集成 (74)9.2 Boosting (76)9.3 Bagging与Random Forest (78)9.3.1 Bagging (78)9.3.2 随机森林 (80)9.4 结合策略 (80)9.4.1 平均法（回归问题） (80)9.4.2 投票法（分类问题） (81)9.4.3 学习法 (82)9.5 多样性（diversity） (82)10、聚类算法 (84)10.1 距离度量 (84)10.2 性能度量 (86)10.2.1 外部指标 (86)10.3.1 K-Means (88)10.3.2 学习向量量化（LVQ） (89)10.3.3 高斯混合聚类 (90)10.4 密度聚类 (93)10.5 层次聚类 (94)11、降维与度量学习 (96)11.1 K近邻学习 (96)11.2 MDS算法 (98)11.3 主成分分析（PCA） (99)11.4 核化线性降维 (100)11.5 流形学习 (102)11.5.1 等度量映射（Isomap） (102)11.5.2 局部线性嵌入(LLE) (104)11.6 度量学习 (105)12、特征选择与稀疏学习 (108)12.1 子集搜索与评价 (108)12.2 过滤式选择（Relief） (109)12.3 包裹式选择（LVW） (110)12.4 嵌入式选择与正则化 (111)12.5 稀疏表示与字典学习 (113)12.6 压缩感知 (114)13、计算学习理论 (115)13.1 PAC学习 (116)13.2 有限假设空间 (117)13.2.1 可分情形 (118)13.2.2 不可分情形 (118)13.3 VC维 (119)13.4 稳定性 (121)14、半监督学习 (123)14.1 生成式方法 (124)14.2 半监督SVM (126)14.3 基于分歧的方法 (127)15.1 隐马尔可夫模型(HMM) (132)15.1.1 HMM评估问题 (134)15.1.2 HMM解码问题 (134)15.1.3 HMM学习问题 (135)15.2 马尔可夫随机场（MRF） (136)15.3 条件随机场（CRF） (137)15.4 学习与推断 (138)15.4.1 变量消去 (138)15.4.2 信念传播 (139)16、强化学习 (143)16.1 基本要素 (143)16.2 K摇摆赌博机 (144)16.2.1 ε-贪心 (145)16.2.2 Softmax (146)16.3 有模型学习 (147)16.3.1 策略评估 (147)16.3.2 策略改进 (149)16.4 蒙特卡罗强化学习 (151)《机器学习》学习笔记（1）--绪论机器学习是目前信息技术中最激动人心的方向之一，其应用已经深入到生活的各个层面且与普通人的日常生活密切相关。

个人研修读书笔记

个人研修读书笔记个人研修读书笔记篇1个人研修读书笔记在这个快速发展的时代，终身学习已成为一种生活方式。

我通过参加这次个人研修，深感自己在理论知识和专业技能方面的不足。

下面，我将就本次个人研修的学习内容，结合自己的学习体会，分享以下几点心得：一、关于课程内容的理解和思考本次个人研修的内容涵盖了多个领域，包括领导力、心理学、市场营销等。

我认为，这些课程有助于我们在职业生涯中不断提升自己的综合素质，增强应对变革的能力。

但在实际学习过程中，我发现自己存在一些理解上的困难。

一方面，由于我的专业背景较为单一，对于某些专业术语和理论观点的把握不够深入；另一方面，由于个人经验和实践背景的局限性，我对于某些课程内容的理解存在偏差。

因此，我认为在今后的学习和实践中，应尽可能拓宽自己的知识面，加强跨学科的学习和交流，以提高自己的综合素质。

二、关于个人职业发展的探讨在本次个人研修中，我对自己的职业发展进行了深入思考。

我认为，在未来的职业生涯中，我们需要不断学习和提升自己的专业技能，以适应快速变化的职场环境。

同时，我们还需要关注自身心理健康和人际关系建设，以保持身心健康和良好的工作状态。

通过本次个人研修，我对如何实现个人职业发展有了更清晰的认识。

例如，在工作中，我们可以利用业余时间自学相关领域的知识和技能，参加行业内的培训和交流活动；在生活上，我们可以关注心理健康和人际关系建设，保持良好的心态和积极向上的态度。

通过不断地学习和实践，我相信自己能够在职业生涯中取得更好的成绩。

三、关于团队协作和沟通的体会本次个人研修采用了线上学习和线下实践相结合的方式，团队协作和沟通在其中发挥了重要作用。

通过与其他学员的交流和合作，我深刻体会到了团队协作和沟通的重要性。

在今后的工作中，我将更加注重团队协作和沟通，积极参与团队活动，发挥自己的优势，为团队目标的实现贡献力量。

同时，我也将关注自己在团队协作和沟通中的不足之处，并积极改进，以提高自己的团队合作能力和人际交往能力。

《机器学习》（周志华）西瓜书读书笔记（完结）

《机器学习》（周志华）西⽠书读书笔记（完结）⼤部分基础概念知识已经在这篇博客中罗列,因此本⽂仅对感觉重要或不曾了解的知识点做摘记第1章绪论对于⼀个学习算法a,若它在某问题上⽐学习算法b好,则必然存在另⼀些问题,在那⾥b⽐a好.即"没有免费的午餐"定理(No FreeLunch Theorem,NFL).因此要谈论算法的相对优劣,必须要针对具体的学习问题第2章模型评估与选择m次n折交叉验证实际上进⾏了m*n次训练和测试可以⽤F1度量的⼀般形式Fβ来表达对查准率/查全率的偏好:偏差度量了学习算法的期望预测与真实结果的偏离程度,即学习算法本⾝的拟合能⼒,⽅差度量了同样⼤⼩的训练集的变动所导致的学习性能的变化,即数据扰动造成的影响.噪声表达了当前任务上任何学习算法所能达到的期望泛化误差的下界,即学习问题本⾝的难度.第3章线性模型线性判别分析(LDA)是⼀种经典的监督线性降维⽅法:设法将训练样例投影到⼀条直线上,使同类样例的投影点尽可能接近,异类样例的投影点尽可能远离.对新样本分类时根据投影点的位置来确定类别.多分类学习的分类器⼀般有以下三种策略:1. ⼀对⼀(OvO),N个类别产⽣N * (N - 1) / 2种分类器2. ⼀对多(OvR或称OvA),N个类别产⽣N - 1种分类器3. 多对多(MvM),如纠错输出码技术解决类别不平衡问题的三种⽅法:1. 过采样法,增加正例使正负例数⽬接近,如SMOTE:思想是合成新的少数类样本,合成的策略是对每个少数类样本a,从它的最近邻中随机选⼀个样本b,然后在a、b之间的连线上随机选⼀点作为新合成的少数类样本.2. ⽋采样法,减少负例使正负例数⽬接近,如EasyEnsemble:每次从⼤多数类中抽取和少数类数⽬差不多的重新组合,总共构成n个新的训练集,基于每个训练集训练出⼀个AdaBoost分类器（带阈值）,最后结合之前训练分类器结果加权求和减去阈值确定最终分类类别.3. 再缩放法第4章决策树ID3决策树选择信息增益最⼤的属性来划分:1. 信息熵:2. 信息增益:C4.5决策树选择增益率⼤的属性来划分,因为信息增益准则对可取值数⽬较多的属性有所偏好.但增益率会偏好于可取值数⽬较少的属性,因此C4.5算法先找出信息增益⾼于平均⽔平的属性,再从中选择增益率最⾼的.另外,C4.5决策树采⽤⼆分法对连续值进⾏处理,使⽤时将划分阈值t作为参数,选择使信息增益最⼤的t划分属性.采⽤样本权值对缺失值进⾏处理,含有缺失值的样本同时划⼊所有结点中,但相应调整权重.1. 增益率:2. a的固有值:CART决策树则选择基尼指数最⼩的属性来划分,基尼系数反映了从数据集中随机抽取的两个样本类别不⼀致的概率,注意CART是⼆叉树,其余两种都为多叉树.1. 基尼值衡量的纯度:2. 基尼指数:剪枝是决策树对付过拟合的主要⼿段,分为预剪枝和后剪枝.1. 预剪枝对每个结点在划分前先进⾏估计,若该结点的划分不能带来决策树泛化性能提升,则停⽌划分.预剪枝基于"贪⼼"本质,所以有⽋拟合的风险.2. 后剪枝是先⽣成⼀棵完整的决策树,然后⾃底向上对⾮叶结点考察,若该结点替换为叶结点能带来决策树泛化性能提升,则将⼦树替换为叶结点.缺点是时间开销⼤.决策树所形成的分类边界是轴平⾏的,多变量决策树(斜决策树)的每⼀个⾮叶结点都是⼀个线性分类器,因此可以产⽣斜的划分边界.第5章神经⽹络误差逆传播算法(BP算法)是迄今为⽌最成功的神经⽹络学习算法.关键点在于通过计算误差不断逆向调整隐层神经元的连接权和阈值.标准BP算法每次仅针对⼀个训练样例更新,累积BP算法则根据训练集上的累积误差更新.缓解BP神经⽹络过拟合有两种常见策略:1. 早停:若训练集误差降低但验证集误差升⾼则停⽌训练.2. 正则化:在误差⽬标函数中增加⼀个描述⽹络复杂度的部分(较⼩的连接权和阈值将使神经⽹络较为平滑).跳出局部最⼩,寻找全局最⼩的常⽤⽅法:1. 以多组不同参数初始化多个神经⽹络,选择最接近全局最⼩的2. 模拟退⽕3. 随机梯度下降典型的深度学习模型就是很深层的神经⽹络.但是多隐层神经⽹络难以直接⽤经典算法进⾏训练,因为误差在多隐层内逆传播时往往会发散.⽆监督逐层训练(如深层信念⽹络,DBN)和权共享(如卷积神经⽹络,CNN)是常⽤的节省训练开销的策略.第6章⽀持向量机⽀持向量机中的原始样本空间不⼀定存在符合条件的超平⾯,但是如果原始空间是有限维,则总存在⼀个⾼维特征空间使样本线性可分.核函数就是⽤来简化计算⾼维特征空间中的内积的⼀种⽅法.核函数选择是⽀持向量机的最⼤变数.常⽤的核函数有线性核,多项式核,⾼斯核(RBF核),拉普拉斯核,Sigmoid核.对⽂本数据常⽤线性核,情况不明时可先尝试⾼斯核.软间隔是缓解⽀持向量机过拟合的主要⼿段,软间隔允许某些样本不满⾜约束.⽀持向量回归可以容忍预测输出f(x)和真实输出y之间存在ε的偏差,仅当偏差绝对值⼤于ε时才计算损失.⽀持向量机中许多规划问题都使⽤拉格朗⽇对偶算法求解,原因在于改变了算法复杂度.原问题的算法复杂度与样本维度有关,对偶问题的样本复杂度与样本数量有关.如果使⽤了升维的⽅法,则此时样本维度会远⼤于样本数量,在对偶问题下求解会更好.第7章贝叶斯分类基于贝叶斯公式来估计后验概率的困难在于类条件概率是所有属性上的联合概率,难以从有限的训练样本直接估计⽽得.因此朴素贝叶斯分类器采⽤了"属性条件独⽴性假设"来避开这个障碍.朴素贝叶斯分类器中为了避免其他属性携带的信息被训练集中未出现的属性值"抹去",在估计概率值时通常要进⾏"平滑",常⽤拉普拉斯修正.属性条件独⽴性假设在现实中往往很难成⽴,于是半朴素贝叶斯分类器采⽤"独依赖估计(ODE)",即假设每个属性在类别之外最多仅依赖于⼀个其他属性.在此基础上有SPODE,TAN,AODE等算法.贝叶斯⽹⼜称信念⽹,借助有向⽆环图来刻画属性之间的依赖关系,并⽤条件概率表来描述属性的联合概率分布.半朴素贝叶斯分类器是贝叶斯⽹的⼀种特例.EM(Expectation-Maximization)算法是常⽤的估计参数隐变量的⽅法.基本思想是:若参数θ已知,则可根据训练数据推断出最优隐变量Z的值(E);若Z的值已知,则可⽅便地对参数θ做极⼤似然估计(M).第8章集成学习集成学习先产⽣⼀组个体学习器,再⽤某种策略将它们结合起来.如果集成中只包含同种类型的个体学习器则叫同质集成,其中的个体学习器称为基学习器,相应的学习算法称为基学习算法.如果包含不同类型的个体学习器则叫异质集成,其中的学习器常称为组件学习器.要获得好的集成,个体学习器应"好⽽不同".即要有⼀定的准确性,并且要有多样性.⽬前的集成学习⽅法⼤致分为两⼤类:1. 序列化⽅法:个体学习器间存在强依赖关系,必须串⾏⽣成.2. 并⾏化⽅法:个体学习器间不存在强依赖关系,可同时⽣成.Boosting先从初始训练集训练出⼀个基学习器,再根据基学习器的表现对训练样本分布进⾏调整,使做错的训练样本在后续受到更多关注(给予更⼤的权重或重采样).然后基于调整后的样本分布来训练下⼀个基学习器;直到基学习器的数⽬达到指定值T之后,将这T个基学习器加权结合.Boosting主要关注降低偏差,因此能基于泛化性能相当弱的学习器构建出很强的集成.代表算法有AdaBoost.Bagging是并⾏式集成学习⽅法最著名的代表.它基于⾃助采样法,采样出T个含m个训练样本的采样集,基于每个采样集训练出⼀个基学习器,再将这些基学习器进⾏简单结合.在对预测输出进⾏结合时,常对分类任务使⽤投票法,对回归任务使⽤平均法.Bagging主要关注降低⽅差,因此在不剪枝决策树,神经⽹络等易受样本扰动的学习器上效⽤更明显.代表算法有随机森林.随机森林在以决策树为基学习器构建Bagging的基础上,进⼀步引⼊了随机属性选择.即先从属性集合(假定有d个属性)中随机选择⼀个包含k个属性的⼦集,再从这个⼦集中选择⼀个最优属性进⾏划分.当k=d时,基决策树与传统决策树相同.当k=1时,则随机选择⼀个属性⽤于划分.⼀般推荐k=log2d.学习器结合可能会从三个⽅⾯带来好处:1. 统计:可能有多个假设在训练集上达到同等性能,单学习器可能因误选⽽导致泛化性能不佳,结合多个学习器会减⼩这⼀风险.2. 计算:通过多次运⾏之后进⾏结合,降低陷⼊糟糕局部极⼩点的风险.3. 表⽰:结合多个学习器,相应的假设空间有所扩⼤,有可能学得更好的近似.结合策略:1. 平均法:对数值型输出,最常见的策略是平均法.⼀般⽽⾔,在个体学习器性能相差较⼤时使⽤加权平均法,性能相近时使⽤简单平均法.权重⼀般也是从训练数据中学习⽽得.2. 投票法:对分类任务来说,最常见的策略是投票法.⼜可细分为绝对多数投票法,相对多数投票法,加权投票法.绝对多数投票法允许"拒绝预测",若必须提供预测结果则退化为相对多数投票法.若基学习器的类型不同,则类概率值不能直接⽐较,需要将类概率输出转化为类标记输出后再投票.3. 学习法:当训练数据很多时,⼀种更强⼤的策略是通过另⼀个学习器来结合.Stacking是学习法的典型代表.我们把个体学习器称为初级学习器,⽤于结合的学习器称为次级学习器或元学习器.Stacking⽤初级学习器的输出作为样例输⼊特征,⽤初始样本的标记作为样例标记,然后⽤这个新数据集来训练次级学习器.⼀般⽤初级学习器的输出类概率作为次级学习器的输⼊属性,⽤多响应线性回归(Multi-response Linear Regression,MLR)作为次级学习算法效果较好.多样性增强常⽤的⽅法有:数据样本扰动,输⼊属性扰动,输出表⽰扰动,算法参数扰动.第9章聚类聚类既能作为⼀个找寻数据内在分布结构的单独过程,也可以作为其他学习任务的前驱过程.我们希望"物以类聚",也就是聚类结果的"簇内相似度"⾼且"簇间相似度"低.聚类性能度量⼤致有两类.⼀类是将聚类结果与参考模型进⾏⽐较,称为外部指标,常⽤的有JC,FMI,RI;另⼀类是直接考察聚类结果,称为内部指标,常⽤的有DBI,DI.有序属性距离计算最常⽤的是闵可夫斯基距离,当p=2时即欧⽒距离,当p=1时即曼哈顿距离.对⽆序属性可采⽤VDM(Value Difference Metric),将闵可夫斯基距离和VDM结合即可处理混合属性,当不同属性的重要性不同时可使⽤加权距离.我们基于某种形式的距离来定义相似度度量,但是⽤于相似度度量的距离未必⼀定要满⾜距离度量的基本性质,尤其是直递性.在现实任务中有必要通过距离度量学习来基于数据样本确定合适的距离计算式.原型聚类假设聚类结构能通过⼀组原型刻画.通常算法先对原型进⾏初始化,然后对原型进⾏迭代更新求解.常⽤的原型聚类算法有k均值算法,学习向量量化,⾼斯混合聚类.密度聚类假设聚类结构能通过样本分布的紧密程度确定.通常从样本密度的⾓度来考察样本之间的可连接性,并基于可连接样本不断扩展聚类簇.常⽤算法有DBSCAN层次聚类试图在不同层次对数据集进⾏划分,从⽽形成树形的聚类结构.代表算法有AGNES.第10章降维与度量学习懒惰学习在训练阶段只把样本保存起来,训练时间开销为零,待收到测试样本后再进⾏处理,如k近邻学习(kNN).急切学习则在训练阶段就对样本进⾏学习处理.若任意测试样本x附近任意⼩的δ距离范围内总能找到⼀个训练样本,即训练样本的采样密度⾜够⼤,或称为密采样,则最近邻分类器(1NN)的泛化错误率不超过贝叶斯最优分类器的错误率的两倍.在⾼维情形下出现的数据样本稀疏,距离计算困难等问题称为"维数灾难".处理⾼维数据的两⼤主流技术是降维和特征选择.降维亦称维数约简,即通过某种数学变换将原始⾼维属性空间转变为⼀个低维⼦空间.能进⾏降维的原因是与学习任务密切相关的或许仅仅是数据样本的某个低维分布,⽽不是原始⾼维空间的样本点.多维缩放是⼀种经典的降维⽅法.它使原始空间中样本之间的距离在低维空间中得以保持.主成分分析(PCA)是最常⽤的⼀种降维⽅法.如果要⽤⼀个超平⾯对所有样本进⾏恰当的表达,这个超平⾯应该具有最近重构性和最⼤可分性两种性质.基于这两种性质可以得到主成分分析的等价推导.PCA可以使样本的采样密度增⼤,同时在⼀定程度上起到去噪的效果.线性降维⽅法有可能丢失低维结构,因此要引⼊⾮线性降维.⼀种常⽤⽅法是基于核技巧对线性降维⽅法进⾏核化.如核主成分分析(KPCA).流形学习(manifold learning)是⼀类借鉴了拓扑流形概念的降维⽅法.流形在局部具有欧⽒空间性质.将低维流形嵌⼊到⾼维空间中,可以容易地在局部建⽴降维映射关系,再设法将局部映射关系推⼴到全局.常⽤的流形学习⽅法有等度量映射和局部线性嵌⼊等.对⾼维数据进⾏降维的主要⽬的是找到⼀个合适的低维空间.事实上,每个空间对应了在样本属性上定义的⼀个距离度量,度量学习直接尝试学习出⼀个合适的距离度量.常⽤⽅法有近邻成分分析(NCA).第11章特征选择与稀疏学习对当前学习任务有⽤的属性称为相关特征,没什么⽤的属性称为⽆关特征.从给定特征集合中选择出相关特征⼦集的过程称为特征选择.特征选择是⼀个重要的数据预处理过程.冗余特征是指包含的信息可以从其他特征中推演出来的特征.冗余特征在很多时候不起作⽤,但若某个冗余特征恰好对应了完成学习任务所需的中间概念,则该冗余特征反⽽是有益的.⼦集搜索:可以采⽤逐渐增加相关特征的前向搜索,每次在候选⼦集中加⼊⼀个特征,选取最优候选⼦集.也可以采⽤每次去掉⼀个⽆关特征的后向搜索.这些策略是贪⼼的,但是避免了穷举搜索产⽣的计算问题.⼦集评价:特征⼦集A确定了对数据集D的⼀个划分,样本标记信息Y对应着对D的真实划分,通过估算这两个划分的差异就能对A进⾏评价.可采⽤信息熵等⽅法.过滤式选择先对数据集进⾏特征选择,然后再训练学习器,特征选择过程与后续学习器⽆关.Relief(Relevant Features)是⼀种著名的过滤式选择⽅法.该⽅法设计了⼀个相关统计量来度量特征的重要性.包裹式选择直接把最终将要使⽤的学习器的性能作为特征⼦集的评价标准.因此产⽣的最终学习器的性能较好,但训练时的计算开销也更⼤.LVW(Las Vegas Wrapper)是⼀个典型的包裹式特征选择⽅法,它在拉斯维加斯⽅法框架下使⽤随机策略来进⾏⼦集搜索,并以最终分类器的误差为特征⼦集评价准则.嵌⼊式选择是将特征选择过程与学习器训练过程融为⼀体,两者在同⼀个优化过程中完成.例如正则化.L1正则化(Lasso)是指权值向量w中各个元素的绝对值之和.L1正则化趋向选择少量的特征,使其他特征尽可能为0,可以产⽣稀疏权值矩阵,即产⽣⼀个稀疏模型,可以⽤于特征选择.L1正则化是L0正则化的最优凸近似.L2正则化(Ridge)是指权值向量w中各个元素的平⽅和然后再求平⽅根.L2正则化趋向选择更多的特征,让这些特征尽可能接近0,可以防⽌模型过拟合(L1也可以).字典学习也叫稀疏编码,指的是为普通稠密表达的样本找到合适的字典,将样本转化为合适的稀疏表达形式,从⽽使学习任务得以简化,模型复杂度得以降低的过程.压缩感知关注的是利⽤信号本⾝的稀疏性,从部分观测样本中恢复原信号.分为感知测量和重构恢复两个阶段,其中重构恢复⽐较重要.可利⽤矩阵补全等⽅法来解决推荐系统之类的协同过滤(collaborative filtering)任务.由于第⼀次阅读,12章开始的内容仅作概念性了解.第12章计算学习理论计算学习理论研究的是关于通过计算来进⾏学习的理论,⽬的是分析学习任务的困难本质,为学习算法提供理论保证,并提供分析结果指导算法设计.计算学习理论中最基本的是概率近似正确(Probably Approximately Correct,PCA)学习理论.由此可以得到PAC辨识,PAC可学习,PAC学习算法,样本复杂度等概念.有限假设空间的可分情形都是PAC可学习的.对于不可分情形,可以得到不可知PAC可学习的概念,即在假设空间的所有假设中找到最好的⼀个.对⼆分类问题来说,假设空间中的假设对数据集中⽰例赋予标记的每种可能结果称为对数据集的⼀种对分.若假设空间能实现数据集上的所有对分,则称数据集能被假设空间打散.假设空间的VC维是能被假设空间打散的最⼤数据集的⼤⼩.算法的稳定性考察的是算法在输⼊发⽣变化时,输出是否会随之发⽣较⼤的变化.第13章半监督学习主动学习是指先⽤有标记样本训练⼀个模型,通过引⼊额外的专家知识,将部分未标记样本转变为有标记样本,每次都挑出对改善模型性能帮助⼤的样本,从⽽构建出⽐较强的模型.未标记样本虽未直接包含标记信息,但若它们与有标记样本是从同样的数据源独⽴同分布采样⽽来,则它们所包含的关于数据分布的信息对建模⼤有裨益.要利⽤未标记样本,需要有⼀些基本假设,如聚类假设,流形假设.半监督学习可进⼀步划分为纯半监督学习和直推学习.前者假定训练数据中的未标记样本并⾮待预测的数据,⽽后者则假定学习过程中所考虑的未标记样本恰是待预测数据.⽣成式⽅法是直接基于⽣成式模型的⽅法.此类⽅法假设所有数据都是由同⼀个潜在的模型⽣成的.这个假设使得我们能通过潜在模型的参数将未标记数据与学习⽬标联系起来.半监督⽀持向量机(S3VM)是⽀持向量机在半监督学习上的推⼴.S3VM试图找到能将两类有标记样本分开,且穿过数据低密度区域的划分超平⾯.除此之外,还有图半监督学习,基于分歧的⽅法(如协同训练),半监督聚类等学习⽅法.第14章概率图模型机器学习最重要的任务,是根据⼀些已观察到的证据来对感兴趣的未知变量进⾏估计和推测.⽣成式模型考虑联合分布P(Y,R,O),判别式模型考虑条件分布P(Y,R|O).概率图模型是⼀类⽤图来表达变量相关关系的概率模型.若变量间存在显式的因果关系,常使⽤贝叶斯⽹.若变量间存在相关性但难以获取显式的因果关系,常使⽤马尔可夫⽹.隐马尔可夫模型(Hidden Markov Model,HMM)是结构最简单的动态贝叶斯⽹.主要⽤于时序数据建模,在语⾳识别,⾃然语⾔处理等领域有⼴泛应⽤.隐马尔可夫模型中有状态变量(隐变量)和观测变量两组变量.马尔可夫链:系统下⼀时刻的状态仅有当前状态决定,不依赖于以往的任何状态.马尔可夫随机场(Markov Random Field,MRF)是典型的马尔可夫⽹.每⼀个结点表⽰⼀个或⼀组变量,结点之间的边表⽰两个变量之间的依赖关系.条件随机场是判别式模型,可看作给定观测值的马尔可夫随机场.概率图模型的推断⽅法⼤致分为两类.第⼀类是精确推断,代表性⽅法有变量消去和信念传播.第⼆类是近似推断,可⼤致分为采样(如MCMC采样)和使⽤确定性近似完成近似推断(如变分推断).第15章规则学习规则学习是指从训练数据中学习出⼀组能⽤于对未见⽰例进⾏判别的规则.规则学习具有较好的可解释性,能使⽤户直观地对判别过程有所了解.规则学习的⽬标是产⽣⼀个能覆盖尽可能多的样例的规则集,最直接的做法是序贯覆盖,即逐条归纳:每学到⼀条规则,就将该规则覆盖的训练样例去除.常采⽤⾃顶向下的⽣成-测试法.规则学习缓解过拟合的常见做法是剪枝,例如CN2,REP,IREP等算法.著名的规则学习算法RIPPER就是将剪枝与后处理优化相结合.命题规则难以处理对象之间的关系,因此要⽤⼀阶逻辑表⽰,并且要使⽤⼀阶规则学习.它能更容易地引⼊领域知识.著名算法有FOIL(First-Order Inductive Learner)等.第16章强化学习强化学习的⽬的是要找到能使长期累积奖赏最⼤化的策略.在某种意义上可看作具有"延迟标记信息"的监督学习问题.每个动作的奖赏值往往来⾃于⼀个概率分布,因此强化学习会⾯临"探索-利⽤窘境",因此要在探索和利⽤中达成较好的折中.ε-贪⼼法在每次尝试时以ε的概率进⾏探索,以均匀概率随机选取⼀个动作.以1-ε的概率进⾏利⽤,选择当前平均奖赏最⾼的动作.Softmax算法则以较⾼的概率选取平均奖赏较⾼的动作.强化学习任务对应的马尔可夫决策过程四元组已知的情形称为模型已知.在已知模型的环境中学习称为"有模型学习".反之称为"免模型学习".从⼈类专家的决策过程范例中学习的过程称为模仿学习.。

7.5 本章小结[共2页]

7.5本章小结205
在真实的应用场景下，每进来一名患者，都可以通过阿里云机器学习的在线预测API，
如图7-53所示，对其是否患病进行预测。

图7-52 模型部署图7-53 模型API
3．小结
前面介绍了阿里云机器学习平台的功能和实际操作方法。

这款机器学习平台跟亚马逊的机器学习平台是两种设计思路的产品。

亚马逊的平台偏向于新手用户，更容易上手，但是解决的用户场景较为单一而且给用户的可自定义空间非常小。

阿里云的机器学习平台需要一定的上手门槛，但是可以解决比较丰富的场景而且扩展性比较强。

总体来看，阿里云机器学习平台的算法比较丰富，而且成熟度很高，无论是对企业级用户或者是机器学习的爱好者来讲，使用阿里云机器学习平台都是一个不错的选择。

7.5 本章小结
本章针对不同特点的机器学习工具进行了介绍，分别介绍了单机版机器学习工具、开源分布式机器学习工具和企业云机器学习服务。

笔者认为，在实际挑选工具的时候主要以。

机器学习应用学习心得

机器学习应用学习心得机器研究是一门应用广泛且前景无限的学科，我在研究机器研究应用的过程中收获颇多。

以下是我对机器研究应用的研究心得和体会。

研究机器研究基础知识在研究机器研究应用之前，首先需要建立扎实的机器研究基础知识。

了解机器研究的原理、算法和常用工具是非常重要的。

通过研究各种经典的机器研究算法，例如线性回归、逻辑回归、决策树等，我们可以深入理解机器研究的核心概念和方法。

掌握数据处理和特征工程技巧在进行机器研究应用时，数据处理和特征工程是非常关键的环节。

研究掌握数据清洗、数据预处理、特征选择和特征转换等技巧，可以有效提高机器研究模型的准确性和性能。

熟悉常用的机器研究算法和模型了解和熟悉常用的机器研究算法和模型是机器研究应用的基础。

例如，支持向量机、朴素贝叶斯、随机森林等算法都是常用的机器研究算法，掌握它们的原理和应用场景可以帮助我们选择合适的算法来解决实际问题。

实践机器研究应用案例实践是研究的最好方式。

通过实践机器研究应用案例，我们可以将理论知识应用到实际问题中，并加深对机器研究的理解。

参加机器研究比赛、完成机器研究项目可以帮助我们熟悉机器研究的整个流程，从数据的获取和预处理到模型的训练和评估。

持续研究和跟进最新技术机器研究领域的发展非常迅速，新的技术和算法层出不穷。

为了跟上最新的发展趋势，我们需要保持持续的研究和跟进。

阅读相关的论文、关注机器研究领域的专家和公众号、参加相关的学术会议和讲座等都是很好的研究途径。

总结通过研究机器研究应用，我深刻认识到机器研究在各个领域都有广泛的应用前景。

掌握机器研究的基础知识，学会数据处理和特征工程，熟悉常用的机器研究算法和模型，并进行实践和持续研究，都是成为一名优秀的机器研究应用专家的重要步骤。

希望我的研究心得和体会能够对其他研究机器研究应用的同学有所帮助。

> 注意：以上是个人学习心得，仅供参考。

机器学习应用实习总结

机器学习应用实习总结在过去的几个月里，我有幸参加了一家科技公司的机器学习应用实习项目。

通过这次实习，我深入了解了机器学习的应用领域，并且得到了宝贵的实践经验。

在这篇文章中，我将总结我的实习经历，并分享我在机器学习应用方面所取得的成果和经验。

实习开始之初，我和我的导师制定了一个明确的目标，即设计和开发一个能够自动识别垃圾邮件的机器学习模型。

为了实现这个目标，我首先进行了对相关领域的研究，了解了不同的垃圾邮件识别算法和技术。

在研究的基础上，我构建了一个垃圾邮件数据集，并进行了数据预处理和特征选择的工作。

在数据预处理的阶段，我清洗了数据集中的噪音和异常值，并进行了特征的归一化处理。

这些步骤确保了数据集的质量，并为后续的模型训练奠定了基础。

接下来，我使用了几种常见的特征选择方法，如信息增益和互信息等，来选择对垃圾邮件识别有价值的特征。

在模型的选择和开发方面，我尝试了几种常见的机器学习算法，如朴素贝叶斯、支持向量机和决策树等。

通过交叉验证和模型评估，我选择了一个性能较好的模型，并对其进行了调参以优化模型的准确率和泛化能力。

最终，我成功地构建了一个能够达到90%以上准确率的垃圾邮件识别模型。

除了垃圾邮件识别，我还尝试了其他机器学习应用的实践，例如图像分类和推荐系统。

通过这些实践项目，我进一步提高了对机器学习算法和工具的理解，并学会了如何解决实际问题中遇到的挑战。

在实践中，我遇到了一些困难和挑战。

首先，数据的质量和规模对于训练好的模型至关重要。

因此，在数据预处理和特征选择的过程中，我需要仔细考虑如何处理和选择合适的特征。

其次，在模型的选择和调参过程中，我需要权衡模型的准确率和泛化能力，并做出合适的选择和调整。

最后，当我在实际应用中遇到性能瓶颈时，我需要进行效率优化和算法改进，以提高程序的运行速度和效果。

通过这次机器学习应用实习，我不仅掌握了机器学习相关的知识和技能，还培养了解决实际问题的能力。

我学会了如何构建和优化机器学习模型，如何进行数据预处理和特征选择，以及如何在实际应用中解决问题。

机器学习个人笔记完整版v5(原稿)

斯坦福大学2014机器学习教程个人笔记（V5.01）摘要本笔记是针对斯坦福大学2014年机器学习课程视频做的个人笔记黄海广haiguang2000@qq群：554839127最后修改：2017-12-3斯坦福大学2014机器学习教程中文笔记课程概述Machine Learning(机器学习)是研究计算机怎样模拟或实现人类的学习行为，以获取新的知识或技能，重新组织已有的知识结构使之不断改善自身的性能。

它是人工智能的核心，是使计算机具有智能的根本途径，其应用遍及人工智能的各个领域，它主要使用归纳、综合而不是演译。

在过去的十年中，机器学习帮助我们自动驾驶汽车，有效的语音识别，有效的网络搜索，并极大地提高了人类基因组的认识。

机器学习是当今非常普遍，你可能会使用这一天几十倍而不自知。

很多研究者也认为这是最好的人工智能的取得方式。

在本课中，您将学习最有效的机器学习技术，并获得实践，让它们为自己的工作。

更重要的是，你会不仅得到理论基础的学习，而且获得那些需要快速和强大的应用技术解决问题的实用技术。

最后，你会学到一些硅谷利用机器学习和人工智能的最佳实践创新。

本课程提供了一个广泛的介绍机器学习、数据挖掘、统计模式识别的课程。

主题包括：（一）监督学习（参数/非参数算法，支持向量机，核函数，神经网络）。

（二）无监督学习（聚类，降维，推荐系统，深入学习推荐）。

（三）在机器学习的最佳实践（偏差/方差理论；在机器学习和人工智能创新过程）。

本课程还将使用大量的案例研究，您还将学习如何运用学习算法构建智能机器人（感知，控制），文本的理解（Web搜索，反垃圾邮件），计算机视觉，医疗信息，音频，数据挖掘，和其他领域。

本课程需要10周共18节课，相对以前的机器学习视频，这个视频更加清晰，而且每课都有ppt课件，推荐学习。

本人是中国海洋大学2014级博士生，2014年刚开始接触机器学习，我下载了这次课程的所有视频和课件给大家分享。

中英文字幕来自于https:///course/ml，主要是教育无边界字幕组翻译，本人把中英文字幕进行合并，并翻译剩余字幕，对视频进行封装，归类，并翻译了课程目录，做好课程索引文件，希望对大家有所帮助。

1、下载文档前请自行甄别文档内容的完整性，平台不提供额外的编辑、内容补充、找答案等附加服务。
2、"仅部分预览"的文档,不可在线预览部分如存在完整性等问题,可反馈申请退款(可完整预览的文档不适用该条件!)。
3、如文档侵犯您的权益，请联系客服反馈,我们会尽快为您处理(人工客服工作时间：9:00-18:30)。

《机器学习实践应用》读书笔记
这次的读书笔记主要介绍机器学习背景和基础概念
1 机器学习背景
数据现状
20世纪70年代曾遇巨大瓶颈，原因有计算能力 + 数据量的不足。

随着互联网的普及和对用户数据的大量采集，数据量不足的问题已逐渐弥补，机器学习算法的价值越来越大。

但在传统领域，如建筑行业，数据产生于工地的一砖一瓦，采集起来会更困难和麻烦，随着图像识别技术的进步和普及，这样的问题能够慢慢解决，但不得不说，传统领域的数据智能化仍然是比较慢的进程。

(这里可以自行了解下百度在传统领域的AI技术落地情况)。

目前主流的机器学习算法是监督学习算法，该算法需要的是打标过的数据，而数据的打标十分依赖人工标记，之前在实习的时候，给短视频的标签做标记都能把我搞得头昏脑涨。

人工打标有几个问题：成本高 + 量级小
机器学习算法现状
机器学习已渗透到生活的各个方面，特别是在互联网领域。

用网购场景来举例。

1)你在路上看到陌生人的一件T恤你很喜欢→使用淘宝的【拍立淘】(图像识别技术)
2)在淘宝搜索框语音输入商品名称(语音转文字技术)
3)商品的个性化推荐(推荐算法)
4)商品下单→若钱不够用→借钱→贷款额度显示(由机器学习算法计算)
5)下单后→短时间完成商品包装、库存发货到中转库存、从低级仓库到高级仓库配送、向下分发(机器学习算法)
6)快递员配送→系统设计最优路线(机器学习算法规划)
7)商品投诉→智能客服立即回复(文本的语义分析算法，精准确定问题)
以上的过程涉及了模型的训练和预测、语义分析、文本情感分析、图像识别以及语音识别技术
机器学习高频场景
1)聚类场景
人群划分和产品种类划分等
2)分类场景
广告投放预测和网站用户点击预测等
3)回归场景
降雨量预测、商品购买量预测和股票成交额预测等
4)文本分析场景
新闻标签提取、文本自动分类和文本关键信息抽取
5)关系图算法
社交网络关系网络关系挖掘和金融风险控制等
6)模式识别
语音识别、图像识别和手写字识别
总评
机器学习+ 是大趋势
2 基本概念
机器学习流程
1)场景解析
把业务逻辑和算法进行匹配
2)数据预处理
清洗数据，将数据进行归一化或标准化，减少量纲和噪音。

3)特征工程
机器学习最重要步骤。

在算法固定的情况下，特征的选择决定了模型的效果
4)模型训练
训练数据经过了预处理 + 特征工程后进入训练阶段。

5)模型评估
对各模型的预测结果评估
6)离线/在线服务
数据源结构
1)结构化数据
矩阵结构存储，通常包含特征列+目标列。

机器学习算法通常只支持结构化数据
2)非结构化数据
图像、文本或语音文件，不以矩阵机构存储，是目前技术热点，通常将其转化为二进制存储格式
3)半结构化数据
典型的半结构化数据是XML拓展名的存储数据
算法分类
1)监督学习
有特征值+目标队列，依赖打标，常用于回归和分类算法
2)无监督学习
无目标值，不依赖数据的打标，通常用于聚类算法
3)半监督学习
对样本的部分进行打标，一种半监督算法——标签传播算法
4)强化学习
人工智能领域热点。

系统与外界不断交互，从而决定自身的行为，如无人汽车驾驶和阿法狗下围棋
使用机器学习算法常见问题
过拟合问题
算法结果评估
1、精确率、召回率、F1值
2、ROC和AUC
另外还需要了解的指标：TP、FP、TN、FN
总评
基础概念的理解有利于帮助入门。