机器学习笔记四

合集下载

机器学习与数据挖掘读书笔记

《机器学习与数据挖掘》读书笔记一、内容概要引言：简要介绍机器学习和数据挖掘的背景、应用领域以及它们的重要性。

概述机器学习和数据挖掘的基本概念及其在现代社会的广泛应用。

机器学习概述：阐述机器学习的基本原理、分类及关键要素。

包括监督学习、无监督学习、半监督学习、强化学习等不同类型的机器学习方法的介绍。

数据挖掘技术：详细介绍数据挖掘的基本概念、过程和方法。

包括数据预处理、特征选择、聚类分析、关联规则挖掘、分类与预测等内容。

常用算法解析：介绍机器学习和数据挖掘中常用的算法，包括决策树、神经网络、支持向量机（SVM）、随机森林等，并对各个算法的原理和应用进行解析。

实践案例分析：通过具体案例，展示机器学习和数据挖掘技术在各个领域的应用，包括金融、医疗、电商等行业的实际应用案例。

技术挑战与前沿趋势：分析机器学习和数据挖掘领域面临的技术挑战，如数据质量问题、模型泛化能力、计算资源限制等，并探讨当前领域的前沿趋势和未来发展方向。

应用前景展望：探讨机器学习和数据挖掘技术在未来的发展趋势，以及它们在不同领域的应用前景，如人工智能、物联网、自动驾驶等领域。

通过阅读本书，我对机器学习和数据挖掘有了更深入的了解，掌握了相关理论知识和技能，对实际应用有了更清晰的认知。

也认识到了该领域的挑战和发展趋势，对未来的学习和工作具有重要的指导意义。

1. 本书背景及简介在数字化时代，数据成为了一种宝贵的资源，如何有效地挖掘和利用这些数据，成为了各行各业所面临的共同挑战。

《机器学习与数据挖掘》一书正是在这样的背景下应运而生。

本书集结了机器学习与数据挖掘领域的最新理论与实践成果，旨在帮助读者深入理解和掌握这两个领域的核心技术与原理。

本书首先对机器学习和数据挖掘的起源、发展及现状进行了全面的介绍。

随着信息技术的飞速发展，尤其是大数据时代的到来，传统的数据处理和分析方法已经无法满足复杂多变的数据环境需求。

而机器学习和数据挖掘技术的崛起，为从海量数据中提取有价值信息、预测未来趋势、实现智能化决策提供了强有力的支持。

ai课程笔记

AI课程笔记
一、引言
1. 人工智能的定义和发展历程
2. 人工智能的应用领域
3. 人工智能的分类
二、基础知识
1. 数学基础：线性代数、概率论与数理统计、微积分等
2. 编程基础：Python、C++等
3. 数据结构与算法：树、图、链表、排序、搜索等
三、机器学习
1. 机器学习的定义和分类
2. 监督学习、无监督学习、强化学习等
3. 常见的机器学习算法：线性回归、逻辑回归、决策树、随机森林、支持向量机等
4. 机器学习的应用领域
四、深度学习
1. 深度学习的定义和分类
2. 神经网络的基本原理和结构
3. 常见的深度学习模型：卷积神经网络（CNN）、循环神经网络（RNN）、生成对抗网络（GAN）等
4. 深度学习的应用领域
五、自然语言处理
1. 自然语言处理的定义和分类
2. 文本挖掘、情感分析、机器翻译等
3. 常见的自然语言处理技术：词嵌入、词袋模型、TF-IDF等
4. 自然语言处理的应用领域
六、计算机视觉
1. 计算机视觉的定义和分类
2. 图像处理、目标检测、图像识别等
3. 常见的计算机视觉技术：卷积神经网络（CNN）、目标检测算法（YOLO、SSD等）等
4. 计算机视觉的应用领域
七、总结与展望
1. 人工智能的发展趋势和未来挑战
2. 人工智能与人类的未来关系。

《机器学习（周志华）》笔记--决策树（3）--剪枝处理：预剪枝、后剪枝、预剪枝与后剪枝优缺点比较

《机器学习（周志华）》笔记--决策树（3）--剪枝处理：预剪枝、后剪枝、预剪枝与后剪枝优缺点⽐较五、剪枝处理过拟合：在决策树学习过程中，为了尽可能正确分类训练样本，结点划分过程将不断重复，有时会造成决策树分⽀过多，这时就可能会因训练样本学得太好，以致于把训练集⾃⾝的⼀些特点当作所有数据都具有的⼀般性质导致过拟合。

剪枝：对付过拟合的⼀种重要⼿段，通过主动去掉⼀些分⽀来降低过拟合的风险。

基本策略：预剪枝和后剪枝。

预剪枝：对每个结点划分前先进⾏估计，若当前结点的划分不能带来决策树的泛化性能的提升，则停⽌划分，并标记为叶结点。

后剪枝：现从训练集⽣成⼀棵完整的决策树，然后⾃底向上对⾮叶⼦结点进⾏考察，若该结点对应的⼦树⽤叶结点能带来决策树泛化性能的提升，则将该⼦树替换为叶结点。

如何评估：留出法，即预留⼀部分数据⽤作“验证集”以进⾏性能评估。

举例：我们将西⽠数据集随机分成两部分，如图5.0.1所⽰：图 5.0.1 假设我们采⽤信息增益准则来进⾏划分属性选择，则从图5.0.1的训练集中会⽣成⼀个决策树，如图5.0.2. 图5.0.2 划分前：5个正例，5个负例，拥有样本数最对的类别。

根据前⾯讲到的信息增益准则，得到了⼀个决策树。

进⾏了5次划分1、预剪枝基于信息增益准则，我们会选取属性“脐部”来对测试集进⾏划分，并产⽣三个分⽀。

然⽽，是否应该进⾏这个划分呢？预剪枝要对划分前后的泛化性能进⾏估计。

划分之前，所有样例集中在根结点，如图5.1.1 图5.1.1 在⽤属性“脐部”划分之后，如图5.1.2 图5.1.2 基于预剪枝策略从表5.0.1数据所⽣成的决策树如图5.1.3 图5.1.32、后剪枝后剪枝先从训练集中⽣成⼀棵完整的决策树，其验证集精度测得为 42.9%。

⾸先考虑结点⑥，若将其替换为叶结点，根据落在其上的训练样例{7，15}，将其标记为“好⽠”，测得验证集精度提⾼⾄ 57.1%，于是决定剪枝：然后考虑结点⑤，若将其替换为叶结点，根据落在其上的训练样例{6，7，15}，将其标记为“好⽠”，测得验证集精度仍为 57.1%，可以不剪枝：对结点②，若将其替换为叶结点，根据落在其上的训练样例{1，2，3，14}，将其标记为“好⽠”，测得验证集精度提升⾄ 71.4%，决定剪枝：对结点③和①，先后替换为叶结点，均未测得验证集精度提升，于是不剪枝：最终，后剪枝得到的决策树：3、预剪枝与后剪枝优缺点⽐较（1）时间开销 • 预剪枝：训练时间开销降低，测试时间开销降低 • 后剪枝：训练时间开销增加，测试时间开销降低（2）过/⽋拟合风险 • 预剪枝：过拟合风险降低，⽋拟合风险增加 • 后剪枝：过拟合风险降低，⽋拟合风险基本不变（3）泛化性能：后剪枝通常优于预剪枝。

李宏毅2021春机器学习课程笔记——生成对抗模型模型

李宏毅2021春机器学习课程笔记——⽣成对抗模型模型本⽂作为⾃⼰学习李宏毅⽼师2021春机器学习课程所做笔记，记录⾃⼰⾝为⼊门阶段⼩⽩的学习理解，如果错漏、建议，还请各位博友不吝指教，感谢！！概率⽣成模型概率⽣成模型（Probabilistic Generative Model）简称⽣成模型，指⼀系列⽤于随机⽣成可观测数据的模型。

假设在⼀个连续或离散的⾼维空间\(\mathcal{X}\)中，存在⼀个随机向量\(X\)服从⼀个未知的数据分布\(p_r(x), x \in\mathcal{X}\)。

⽣成模型根据⼀些可观测的样本\(x^{(1)},x^{(2)}, \cdots ,x^{(N)}\)来学习⼀个参数化的模型\(p_\theta(x)\)来近似未知分布\(p_r(x)\)，并可以⽤这个模型来⽣成⼀些样本，使得⽣成的样本和真实的样本尽可能地相似。

⽣成模型的两个基本功能：概率密度估计和⽣成样本（即采样）。

隐式密度模型在⽣成模型的⽣成样本功能中，如果只是希望⼀个模型能⽣成符合数据分布\(p_r(x)\)的样本，可以不显⽰的估计出数据分布的密度函数。

假设在低维空间\(\mathcal{Z}\)中有⼀个简单容易采样的分布\(p(z)\)，\(p(z)\)通常为标准多元正态分布\(\mathcal{N}(0,I)\)，我们⽤神经⽹络构建⼀个映射函数\(G : \mathcal{Z} \rightarrow \mathcal{X}\)，称为⽣成⽹络。

利⽤神经⽹络强⼤的拟合能⼒，使得\(G(z)\)服从数据分布\(p_r(x)\)。

这种模型就称为隐式密度模型（Implicit Density Model）。

隐式密度模型⽣成样本的过程如下图所⽰：⽣成对抗⽹络⽣成对抗⽹络（Generative Adversarial Networks，GAN）是⼀种隐式密度模型，包括判别⽹络（Discriminator Network）和⽣成⽹络（Generator Network）两个部分，通过对抗训练的⽅式来使得⽣成⽹络产⽣的样本服从真实数据分布。

《机器学习》（周志华）西瓜书读书笔记（完结）

《机器学习》（周志华）西⽠书读书笔记（完结）⼤部分基础概念知识已经在这篇博客中罗列,因此本⽂仅对感觉重要或不曾了解的知识点做摘记第1章绪论对于⼀个学习算法a,若它在某问题上⽐学习算法b好,则必然存在另⼀些问题,在那⾥b⽐a好.即"没有免费的午餐"定理(No FreeLunch Theorem,NFL).因此要谈论算法的相对优劣,必须要针对具体的学习问题第2章模型评估与选择m次n折交叉验证实际上进⾏了m*n次训练和测试可以⽤F1度量的⼀般形式Fβ来表达对查准率/查全率的偏好:偏差度量了学习算法的期望预测与真实结果的偏离程度,即学习算法本⾝的拟合能⼒,⽅差度量了同样⼤⼩的训练集的变动所导致的学习性能的变化,即数据扰动造成的影响.噪声表达了当前任务上任何学习算法所能达到的期望泛化误差的下界,即学习问题本⾝的难度.第3章线性模型线性判别分析(LDA)是⼀种经典的监督线性降维⽅法:设法将训练样例投影到⼀条直线上,使同类样例的投影点尽可能接近,异类样例的投影点尽可能远离.对新样本分类时根据投影点的位置来确定类别.多分类学习的分类器⼀般有以下三种策略:1. ⼀对⼀(OvO),N个类别产⽣N * (N - 1) / 2种分类器2. ⼀对多(OvR或称OvA),N个类别产⽣N - 1种分类器3. 多对多(MvM),如纠错输出码技术解决类别不平衡问题的三种⽅法:1. 过采样法,增加正例使正负例数⽬接近,如SMOTE:思想是合成新的少数类样本,合成的策略是对每个少数类样本a,从它的最近邻中随机选⼀个样本b,然后在a、b之间的连线上随机选⼀点作为新合成的少数类样本.2. ⽋采样法,减少负例使正负例数⽬接近,如EasyEnsemble:每次从⼤多数类中抽取和少数类数⽬差不多的重新组合,总共构成n个新的训练集,基于每个训练集训练出⼀个AdaBoost分类器（带阈值）,最后结合之前训练分类器结果加权求和减去阈值确定最终分类类别.3. 再缩放法第4章决策树ID3决策树选择信息增益最⼤的属性来划分:1. 信息熵:2. 信息增益:C4.5决策树选择增益率⼤的属性来划分,因为信息增益准则对可取值数⽬较多的属性有所偏好.但增益率会偏好于可取值数⽬较少的属性,因此C4.5算法先找出信息增益⾼于平均⽔平的属性,再从中选择增益率最⾼的.另外,C4.5决策树采⽤⼆分法对连续值进⾏处理,使⽤时将划分阈值t作为参数,选择使信息增益最⼤的t划分属性.采⽤样本权值对缺失值进⾏处理,含有缺失值的样本同时划⼊所有结点中,但相应调整权重.1. 增益率:2. a的固有值:CART决策树则选择基尼指数最⼩的属性来划分,基尼系数反映了从数据集中随机抽取的两个样本类别不⼀致的概率,注意CART是⼆叉树,其余两种都为多叉树.1. 基尼值衡量的纯度:2. 基尼指数:剪枝是决策树对付过拟合的主要⼿段,分为预剪枝和后剪枝.1. 预剪枝对每个结点在划分前先进⾏估计,若该结点的划分不能带来决策树泛化性能提升,则停⽌划分.预剪枝基于"贪⼼"本质,所以有⽋拟合的风险.2. 后剪枝是先⽣成⼀棵完整的决策树,然后⾃底向上对⾮叶结点考察,若该结点替换为叶结点能带来决策树泛化性能提升,则将⼦树替换为叶结点.缺点是时间开销⼤.决策树所形成的分类边界是轴平⾏的,多变量决策树(斜决策树)的每⼀个⾮叶结点都是⼀个线性分类器,因此可以产⽣斜的划分边界.第5章神经⽹络误差逆传播算法(BP算法)是迄今为⽌最成功的神经⽹络学习算法.关键点在于通过计算误差不断逆向调整隐层神经元的连接权和阈值.标准BP算法每次仅针对⼀个训练样例更新,累积BP算法则根据训练集上的累积误差更新.缓解BP神经⽹络过拟合有两种常见策略:1. 早停:若训练集误差降低但验证集误差升⾼则停⽌训练.2. 正则化:在误差⽬标函数中增加⼀个描述⽹络复杂度的部分(较⼩的连接权和阈值将使神经⽹络较为平滑).跳出局部最⼩,寻找全局最⼩的常⽤⽅法:1. 以多组不同参数初始化多个神经⽹络,选择最接近全局最⼩的2. 模拟退⽕3. 随机梯度下降典型的深度学习模型就是很深层的神经⽹络.但是多隐层神经⽹络难以直接⽤经典算法进⾏训练,因为误差在多隐层内逆传播时往往会发散.⽆监督逐层训练(如深层信念⽹络,DBN)和权共享(如卷积神经⽹络,CNN)是常⽤的节省训练开销的策略.第6章⽀持向量机⽀持向量机中的原始样本空间不⼀定存在符合条件的超平⾯,但是如果原始空间是有限维,则总存在⼀个⾼维特征空间使样本线性可分.核函数就是⽤来简化计算⾼维特征空间中的内积的⼀种⽅法.核函数选择是⽀持向量机的最⼤变数.常⽤的核函数有线性核,多项式核,⾼斯核(RBF核),拉普拉斯核,Sigmoid核.对⽂本数据常⽤线性核,情况不明时可先尝试⾼斯核.软间隔是缓解⽀持向量机过拟合的主要⼿段,软间隔允许某些样本不满⾜约束.⽀持向量回归可以容忍预测输出f(x)和真实输出y之间存在ε的偏差,仅当偏差绝对值⼤于ε时才计算损失.⽀持向量机中许多规划问题都使⽤拉格朗⽇对偶算法求解,原因在于改变了算法复杂度.原问题的算法复杂度与样本维度有关,对偶问题的样本复杂度与样本数量有关.如果使⽤了升维的⽅法,则此时样本维度会远⼤于样本数量,在对偶问题下求解会更好.第7章贝叶斯分类基于贝叶斯公式来估计后验概率的困难在于类条件概率是所有属性上的联合概率,难以从有限的训练样本直接估计⽽得.因此朴素贝叶斯分类器采⽤了"属性条件独⽴性假设"来避开这个障碍.朴素贝叶斯分类器中为了避免其他属性携带的信息被训练集中未出现的属性值"抹去",在估计概率值时通常要进⾏"平滑",常⽤拉普拉斯修正.属性条件独⽴性假设在现实中往往很难成⽴,于是半朴素贝叶斯分类器采⽤"独依赖估计(ODE)",即假设每个属性在类别之外最多仅依赖于⼀个其他属性.在此基础上有SPODE,TAN,AODE等算法.贝叶斯⽹⼜称信念⽹,借助有向⽆环图来刻画属性之间的依赖关系,并⽤条件概率表来描述属性的联合概率分布.半朴素贝叶斯分类器是贝叶斯⽹的⼀种特例.EM(Expectation-Maximization)算法是常⽤的估计参数隐变量的⽅法.基本思想是:若参数θ已知,则可根据训练数据推断出最优隐变量Z的值(E);若Z的值已知,则可⽅便地对参数θ做极⼤似然估计(M).第8章集成学习集成学习先产⽣⼀组个体学习器,再⽤某种策略将它们结合起来.如果集成中只包含同种类型的个体学习器则叫同质集成,其中的个体学习器称为基学习器,相应的学习算法称为基学习算法.如果包含不同类型的个体学习器则叫异质集成,其中的学习器常称为组件学习器.要获得好的集成,个体学习器应"好⽽不同".即要有⼀定的准确性,并且要有多样性.⽬前的集成学习⽅法⼤致分为两⼤类:1. 序列化⽅法:个体学习器间存在强依赖关系,必须串⾏⽣成.2. 并⾏化⽅法:个体学习器间不存在强依赖关系,可同时⽣成.Boosting先从初始训练集训练出⼀个基学习器,再根据基学习器的表现对训练样本分布进⾏调整,使做错的训练样本在后续受到更多关注(给予更⼤的权重或重采样).然后基于调整后的样本分布来训练下⼀个基学习器;直到基学习器的数⽬达到指定值T之后,将这T个基学习器加权结合.Boosting主要关注降低偏差,因此能基于泛化性能相当弱的学习器构建出很强的集成.代表算法有AdaBoost.Bagging是并⾏式集成学习⽅法最著名的代表.它基于⾃助采样法,采样出T个含m个训练样本的采样集,基于每个采样集训练出⼀个基学习器,再将这些基学习器进⾏简单结合.在对预测输出进⾏结合时,常对分类任务使⽤投票法,对回归任务使⽤平均法.Bagging主要关注降低⽅差,因此在不剪枝决策树,神经⽹络等易受样本扰动的学习器上效⽤更明显.代表算法有随机森林.随机森林在以决策树为基学习器构建Bagging的基础上,进⼀步引⼊了随机属性选择.即先从属性集合(假定有d个属性)中随机选择⼀个包含k个属性的⼦集,再从这个⼦集中选择⼀个最优属性进⾏划分.当k=d时,基决策树与传统决策树相同.当k=1时,则随机选择⼀个属性⽤于划分.⼀般推荐k=log2d.学习器结合可能会从三个⽅⾯带来好处:1. 统计:可能有多个假设在训练集上达到同等性能,单学习器可能因误选⽽导致泛化性能不佳,结合多个学习器会减⼩这⼀风险.2. 计算:通过多次运⾏之后进⾏结合,降低陷⼊糟糕局部极⼩点的风险.3. 表⽰:结合多个学习器,相应的假设空间有所扩⼤,有可能学得更好的近似.结合策略:1. 平均法:对数值型输出,最常见的策略是平均法.⼀般⽽⾔,在个体学习器性能相差较⼤时使⽤加权平均法,性能相近时使⽤简单平均法.权重⼀般也是从训练数据中学习⽽得.2. 投票法:对分类任务来说,最常见的策略是投票法.⼜可细分为绝对多数投票法,相对多数投票法,加权投票法.绝对多数投票法允许"拒绝预测",若必须提供预测结果则退化为相对多数投票法.若基学习器的类型不同,则类概率值不能直接⽐较,需要将类概率输出转化为类标记输出后再投票.3. 学习法:当训练数据很多时,⼀种更强⼤的策略是通过另⼀个学习器来结合.Stacking是学习法的典型代表.我们把个体学习器称为初级学习器,⽤于结合的学习器称为次级学习器或元学习器.Stacking⽤初级学习器的输出作为样例输⼊特征,⽤初始样本的标记作为样例标记,然后⽤这个新数据集来训练次级学习器.⼀般⽤初级学习器的输出类概率作为次级学习器的输⼊属性,⽤多响应线性回归(Multi-response Linear Regression,MLR)作为次级学习算法效果较好.多样性增强常⽤的⽅法有:数据样本扰动,输⼊属性扰动,输出表⽰扰动,算法参数扰动.第9章聚类聚类既能作为⼀个找寻数据内在分布结构的单独过程,也可以作为其他学习任务的前驱过程.我们希望"物以类聚",也就是聚类结果的"簇内相似度"⾼且"簇间相似度"低.聚类性能度量⼤致有两类.⼀类是将聚类结果与参考模型进⾏⽐较,称为外部指标,常⽤的有JC,FMI,RI;另⼀类是直接考察聚类结果,称为内部指标,常⽤的有DBI,DI.有序属性距离计算最常⽤的是闵可夫斯基距离,当p=2时即欧⽒距离,当p=1时即曼哈顿距离.对⽆序属性可采⽤VDM(Value Difference Metric),将闵可夫斯基距离和VDM结合即可处理混合属性,当不同属性的重要性不同时可使⽤加权距离.我们基于某种形式的距离来定义相似度度量,但是⽤于相似度度量的距离未必⼀定要满⾜距离度量的基本性质,尤其是直递性.在现实任务中有必要通过距离度量学习来基于数据样本确定合适的距离计算式.原型聚类假设聚类结构能通过⼀组原型刻画.通常算法先对原型进⾏初始化,然后对原型进⾏迭代更新求解.常⽤的原型聚类算法有k均值算法,学习向量量化,⾼斯混合聚类.密度聚类假设聚类结构能通过样本分布的紧密程度确定.通常从样本密度的⾓度来考察样本之间的可连接性,并基于可连接样本不断扩展聚类簇.常⽤算法有DBSCAN层次聚类试图在不同层次对数据集进⾏划分,从⽽形成树形的聚类结构.代表算法有AGNES.第10章降维与度量学习懒惰学习在训练阶段只把样本保存起来,训练时间开销为零,待收到测试样本后再进⾏处理,如k近邻学习(kNN).急切学习则在训练阶段就对样本进⾏学习处理.若任意测试样本x附近任意⼩的δ距离范围内总能找到⼀个训练样本,即训练样本的采样密度⾜够⼤,或称为密采样,则最近邻分类器(1NN)的泛化错误率不超过贝叶斯最优分类器的错误率的两倍.在⾼维情形下出现的数据样本稀疏,距离计算困难等问题称为"维数灾难".处理⾼维数据的两⼤主流技术是降维和特征选择.降维亦称维数约简,即通过某种数学变换将原始⾼维属性空间转变为⼀个低维⼦空间.能进⾏降维的原因是与学习任务密切相关的或许仅仅是数据样本的某个低维分布,⽽不是原始⾼维空间的样本点.多维缩放是⼀种经典的降维⽅法.它使原始空间中样本之间的距离在低维空间中得以保持.主成分分析(PCA)是最常⽤的⼀种降维⽅法.如果要⽤⼀个超平⾯对所有样本进⾏恰当的表达,这个超平⾯应该具有最近重构性和最⼤可分性两种性质.基于这两种性质可以得到主成分分析的等价推导.PCA可以使样本的采样密度增⼤,同时在⼀定程度上起到去噪的效果.线性降维⽅法有可能丢失低维结构,因此要引⼊⾮线性降维.⼀种常⽤⽅法是基于核技巧对线性降维⽅法进⾏核化.如核主成分分析(KPCA).流形学习(manifold learning)是⼀类借鉴了拓扑流形概念的降维⽅法.流形在局部具有欧⽒空间性质.将低维流形嵌⼊到⾼维空间中,可以容易地在局部建⽴降维映射关系,再设法将局部映射关系推⼴到全局.常⽤的流形学习⽅法有等度量映射和局部线性嵌⼊等.对⾼维数据进⾏降维的主要⽬的是找到⼀个合适的低维空间.事实上,每个空间对应了在样本属性上定义的⼀个距离度量,度量学习直接尝试学习出⼀个合适的距离度量.常⽤⽅法有近邻成分分析(NCA).第11章特征选择与稀疏学习对当前学习任务有⽤的属性称为相关特征,没什么⽤的属性称为⽆关特征.从给定特征集合中选择出相关特征⼦集的过程称为特征选择.特征选择是⼀个重要的数据预处理过程.冗余特征是指包含的信息可以从其他特征中推演出来的特征.冗余特征在很多时候不起作⽤,但若某个冗余特征恰好对应了完成学习任务所需的中间概念,则该冗余特征反⽽是有益的.⼦集搜索:可以采⽤逐渐增加相关特征的前向搜索,每次在候选⼦集中加⼊⼀个特征,选取最优候选⼦集.也可以采⽤每次去掉⼀个⽆关特征的后向搜索.这些策略是贪⼼的,但是避免了穷举搜索产⽣的计算问题.⼦集评价:特征⼦集A确定了对数据集D的⼀个划分,样本标记信息Y对应着对D的真实划分,通过估算这两个划分的差异就能对A进⾏评价.可采⽤信息熵等⽅法.过滤式选择先对数据集进⾏特征选择,然后再训练学习器,特征选择过程与后续学习器⽆关.Relief(Relevant Features)是⼀种著名的过滤式选择⽅法.该⽅法设计了⼀个相关统计量来度量特征的重要性.包裹式选择直接把最终将要使⽤的学习器的性能作为特征⼦集的评价标准.因此产⽣的最终学习器的性能较好,但训练时的计算开销也更⼤.LVW(Las Vegas Wrapper)是⼀个典型的包裹式特征选择⽅法,它在拉斯维加斯⽅法框架下使⽤随机策略来进⾏⼦集搜索,并以最终分类器的误差为特征⼦集评价准则.嵌⼊式选择是将特征选择过程与学习器训练过程融为⼀体,两者在同⼀个优化过程中完成.例如正则化.L1正则化(Lasso)是指权值向量w中各个元素的绝对值之和.L1正则化趋向选择少量的特征,使其他特征尽可能为0,可以产⽣稀疏权值矩阵,即产⽣⼀个稀疏模型,可以⽤于特征选择.L1正则化是L0正则化的最优凸近似.L2正则化(Ridge)是指权值向量w中各个元素的平⽅和然后再求平⽅根.L2正则化趋向选择更多的特征,让这些特征尽可能接近0,可以防⽌模型过拟合(L1也可以).字典学习也叫稀疏编码,指的是为普通稠密表达的样本找到合适的字典,将样本转化为合适的稀疏表达形式,从⽽使学习任务得以简化,模型复杂度得以降低的过程.压缩感知关注的是利⽤信号本⾝的稀疏性,从部分观测样本中恢复原信号.分为感知测量和重构恢复两个阶段,其中重构恢复⽐较重要.可利⽤矩阵补全等⽅法来解决推荐系统之类的协同过滤(collaborative filtering)任务.由于第⼀次阅读,12章开始的内容仅作概念性了解.第12章计算学习理论计算学习理论研究的是关于通过计算来进⾏学习的理论,⽬的是分析学习任务的困难本质,为学习算法提供理论保证,并提供分析结果指导算法设计.计算学习理论中最基本的是概率近似正确(Probably Approximately Correct,PCA)学习理论.由此可以得到PAC辨识,PAC可学习,PAC学习算法,样本复杂度等概念.有限假设空间的可分情形都是PAC可学习的.对于不可分情形,可以得到不可知PAC可学习的概念,即在假设空间的所有假设中找到最好的⼀个.对⼆分类问题来说,假设空间中的假设对数据集中⽰例赋予标记的每种可能结果称为对数据集的⼀种对分.若假设空间能实现数据集上的所有对分,则称数据集能被假设空间打散.假设空间的VC维是能被假设空间打散的最⼤数据集的⼤⼩.算法的稳定性考察的是算法在输⼊发⽣变化时,输出是否会随之发⽣较⼤的变化.第13章半监督学习主动学习是指先⽤有标记样本训练⼀个模型,通过引⼊额外的专家知识,将部分未标记样本转变为有标记样本,每次都挑出对改善模型性能帮助⼤的样本,从⽽构建出⽐较强的模型.未标记样本虽未直接包含标记信息,但若它们与有标记样本是从同样的数据源独⽴同分布采样⽽来,则它们所包含的关于数据分布的信息对建模⼤有裨益.要利⽤未标记样本,需要有⼀些基本假设,如聚类假设,流形假设.半监督学习可进⼀步划分为纯半监督学习和直推学习.前者假定训练数据中的未标记样本并⾮待预测的数据,⽽后者则假定学习过程中所考虑的未标记样本恰是待预测数据.⽣成式⽅法是直接基于⽣成式模型的⽅法.此类⽅法假设所有数据都是由同⼀个潜在的模型⽣成的.这个假设使得我们能通过潜在模型的参数将未标记数据与学习⽬标联系起来.半监督⽀持向量机(S3VM)是⽀持向量机在半监督学习上的推⼴.S3VM试图找到能将两类有标记样本分开,且穿过数据低密度区域的划分超平⾯.除此之外,还有图半监督学习,基于分歧的⽅法(如协同训练),半监督聚类等学习⽅法.第14章概率图模型机器学习最重要的任务,是根据⼀些已观察到的证据来对感兴趣的未知变量进⾏估计和推测.⽣成式模型考虑联合分布P(Y,R,O),判别式模型考虑条件分布P(Y,R|O).概率图模型是⼀类⽤图来表达变量相关关系的概率模型.若变量间存在显式的因果关系,常使⽤贝叶斯⽹.若变量间存在相关性但难以获取显式的因果关系,常使⽤马尔可夫⽹.隐马尔可夫模型(Hidden Markov Model,HMM)是结构最简单的动态贝叶斯⽹.主要⽤于时序数据建模,在语⾳识别,⾃然语⾔处理等领域有⼴泛应⽤.隐马尔可夫模型中有状态变量(隐变量)和观测变量两组变量.马尔可夫链:系统下⼀时刻的状态仅有当前状态决定,不依赖于以往的任何状态.马尔可夫随机场(Markov Random Field,MRF)是典型的马尔可夫⽹.每⼀个结点表⽰⼀个或⼀组变量,结点之间的边表⽰两个变量之间的依赖关系.条件随机场是判别式模型,可看作给定观测值的马尔可夫随机场.概率图模型的推断⽅法⼤致分为两类.第⼀类是精确推断,代表性⽅法有变量消去和信念传播.第⼆类是近似推断,可⼤致分为采样(如MCMC采样)和使⽤确定性近似完成近似推断(如变分推断).第15章规则学习规则学习是指从训练数据中学习出⼀组能⽤于对未见⽰例进⾏判别的规则.规则学习具有较好的可解释性,能使⽤户直观地对判别过程有所了解.规则学习的⽬标是产⽣⼀个能覆盖尽可能多的样例的规则集,最直接的做法是序贯覆盖,即逐条归纳:每学到⼀条规则,就将该规则覆盖的训练样例去除.常采⽤⾃顶向下的⽣成-测试法.规则学习缓解过拟合的常见做法是剪枝,例如CN2,REP,IREP等算法.著名的规则学习算法RIPPER就是将剪枝与后处理优化相结合.命题规则难以处理对象之间的关系,因此要⽤⼀阶逻辑表⽰,并且要使⽤⼀阶规则学习.它能更容易地引⼊领域知识.著名算法有FOIL(First-Order Inductive Learner)等.第16章强化学习强化学习的⽬的是要找到能使长期累积奖赏最⼤化的策略.在某种意义上可看作具有"延迟标记信息"的监督学习问题.每个动作的奖赏值往往来⾃于⼀个概率分布,因此强化学习会⾯临"探索-利⽤窘境",因此要在探索和利⽤中达成较好的折中.ε-贪⼼法在每次尝试时以ε的概率进⾏探索,以均匀概率随机选取⼀个动作.以1-ε的概率进⾏利⽤,选择当前平均奖赏最⾼的动作.Softmax算法则以较⾼的概率选取平均奖赏较⾼的动作.强化学习任务对应的马尔可夫决策过程四元组已知的情形称为模型已知.在已知模型的环境中学习称为"有模型学习".反之称为"免模型学习".从⼈类专家的决策过程范例中学习的过程称为模仿学习.。

数据挖掘——学习笔记（机器学习--监督，非监督，半监督学习）

数据挖掘——学习笔记（机器学习--监督，⾮监督，半监督学习）在机器学习()领域，监督学习()、⾮监督学习()以及半监督学习()是三类研究⽐较多，应⽤⽐较⼴的学习技术，上对这三种学习的简单描述如下：监督学习：通过已有的⼀部分输⼊数据与输出数据之间的对应关系，⽣成⼀个函数，将输⼊映射到合适的输出，例如分类。

⾮监督学习：直接对输⼊数据集进⾏建模，例如聚类。

半监督学习：综合利⽤有类标的数据和没有类标的数据，来⽣成合适的分类函数。

以上表述是我直接翻译过来的，因为都是⼀句话，所以说得不是很清楚，下⾯我⽤⼀个例⼦来具体解释⼀下。

其实很多机器学习都是在解决类别归属的问题，即给定⼀些数据，判断每条数据属于哪些类，或者和其他哪些数据属于同⼀类等等。

这样，如果我们上来就对这⼀堆数据进⾏某种划分(聚类)，通过数据内在的⼀些属性和联系，将数据⾃动整理为某⼏类，这就属于⾮监督学习。

如果我们⼀开始就知道了这些数据包含的类别，并且有⼀部分数据(训练数据)已经标上了类标，我们通过对这些已经标好类标的数据进⾏归纳总结，得出⼀个 “数据-->类别” 的映射函数，来对剩余的数据进⾏分类，这就属于监督学习。

⽽半监督学习指的是在训练数据⼗分稀少的情况下，通过利⽤⼀些没有类标的数据，提⾼学习准确率的⽅法。

铺垫了那么多，其实我想说的是，在wiki上对于半监督学习的解释是有⼀点点歧义的，这跟下⾯要介绍的主动学习有关。

主动学习()，指的是这样⼀种学习⽅法：有的时候，有类标的数据⽐较稀少⽽没有类标的数据是相当丰富的，但是对数据进⾏⼈⼯标注⼜⾮常昂贵，这时候，学习算法可以主动地提出⼀些标注请求，将⼀些经过筛选的数据提交给专家进⾏标注。

这个筛选过程也就是主动学习主要研究的地⽅了，怎么样筛选数据才能使得请求标注的次数尽量少⽽最终的结果⼜尽量好。

主动学习的过程⼤致是这样的，有⼀个已经标好类标的数据集K(初始时可能为空)，和还没有标记的数据集U，通过K集合的信息，找出⼀个U的⼦集C，提出标注请求，待专家将数据集C标注完成后加⼊到K集合中，进⾏下⼀次迭代。

《机器学习（周志华）》笔记--决策树（1）--决策树模型、决策树简史、基本流程

《机器学习（周志华）》笔记--决策树（1）--决策树模型、决策树简史、基本流程⼀、决策树模型决策树(decision tree)是⼀种常⽤的机器学习⽅法，是⼀种描述对实例进⾏分类的树形结构。

决策树是⼀种常⽤的机器学习⽅法，以⼆分类为例，假设现在我们要对是否买西⽠进⾏判断和决策，我们会问⼀些问题，根据回答，我们决断是买还是不买，或者还拿补丁主意，这时会继续问问题，直到可以确定为⽌。

决策树基于“树”结构进⾏决策：（1）内部结点：属性（2）分⽀：属性值（3）p叶结点：分类结果学习过程：通过对训练样本的分析来确定“划分属性”（即内部结点所对应的属性）预测过程：将测试⽰例从根结点开始，沿着划分属性所构成的“判定测试序列”下⾏，直到叶结点学习的过程就是通过划分属性构建决策树的过程，预测过程就是将测试样本从根节点开始，沿着划分属性构成的“判定序列”下⾏，直到叶结点。

结构举例：从代码⾓度来看，决策树其实可以看成是⼀堆if-else语句的集合，例如引例中的决策树完全可以看成是如下代码：if isRed:if isCold:if hasSeed:print("buy")else:print("don't buy")else:if isCheap:print("buy")else:print("don't buy")else:print("don't buy") 由决策树的根结点(root node)到叶结点(leaf node)的每⼀条路径构建⼀条规则：路径上内部结点的特征对应着规则的条件，⽽叶结点的类对应着规则的结论。

决策树的路径或其对应的if-then规则集合具有⼀个重要的性质：互斥并且完备。

这就是说，每⼀个实例都被⼀条路径或⼀条规则所覆盖，⽽且只被⼀条路径或⼀条规则所覆盖。

机器学习-联邦学习学习笔记综述

联邦学习学习笔记综述摘要随着大数据的进一步发展，重视数据隐私和安全已经成为了世界性的趋势，同时，大多数行业数据呈现数据孤岛现象，如何在满足用户隐私保护、数据安全和政府法规的前提下，进行跨组织的数据合作是困扰人工智能从业者的一大难题。

而“联邦学习”将成为解决这一行业性难题的关键技术。

联邦学习旨在建立一个基于分布数据集的联邦学习模型。

两个过程：模型训练和模型推理。

在模型训练中模型相关的信息可以在各方交换（或者以加密形式交换）联邦学习是具有以下特征的用来建立机器学习模型的算法框架有两个或以上的联邦学习参与方协作构建一个共享的机器学习模型。

每一个参与方都拥有若干能够用来训练模型的训练数据在联邦学习模型的训练过程中，每一个参与方拥有的数据都不会离开参与方，即数据不离开数据拥有者联邦学习模型相关的信息能够以加密方式在各方之间进行传输和交换，并且需要保证任何一个参与方都不能推测出其他方的原始数据联邦学习模型的性能要能够充分逼近理想模型（指通过所有训练数据集中在一起并训练获得的机器学习模型）的性能。

一．联邦学习总览1.联邦学习背景介绍当今，在几乎每种工业领域正在展现它的强大之处。

然而，回顾AI的发展，不可避免地是它经历了几次高潮与低谷。

AI将会有下一次衰落吗？什么时候出现？什么原因？当前大数据的可得性是驱动AI上的public interest的部分原因：2016年AlphaGo使用20万个游戏作为训练数据取得了极好的结果。

然而，真实世界的情况有时是令人失望的：除了一部分工业外，大多领域只有有限的数据或者低质量数据，这使得AI技术的应用困难性超出我们的想象。

有可能通过组织者间转移数据把数据融合在一个公共的地方吗？事实上，非常困难，如果可能的话，很多情况下要打破数据源之间的屏障。

由于工业竞争、隐私安全和复杂的行政程序，即使在同一公司的不同部分间的数据整合都面临着严重的限制。

几乎不可能整合遍布全国和机构的数据，否则成本很高。

1、下载文档前请自行甄别文档内容的完整性，平台不提供额外的编辑、内容补充、找答案等附加服务。
2、"仅部分预览"的文档,不可在线预览部分如存在完整性等问题,可反馈申请退款(可完整预览的文档不适用该条件!)。
3、如文档侵犯您的权益，请联系客服反馈,我们会尽快为您处理(人工客服工作时间：9:00-18:30)。

机器学习笔记（四）
一.方差和偏差
1.引入
对于课程一开始所引入的实际拟合问题，我们当时仅仅定性的陈述了二次函数去刻画比较合理，而线性函数以及高阶函数刻画不合理这样的事实，但是并没有就事实背后的模型选择问题进行深入的探讨。

现在则是用数学公式去分析这个问题并且引入方差和偏差的概念。

2.概念
偏差：选取的模型的复杂度与实际的模型之间的差距。

方差：选取不同的训练样本点所得到的模型的变化程度
模型的评价指标：泛化误差，即从概率的角度定义的期望误差。

如下图所示：
左图选取线性模型取进行拟合，因此即使训练样本数目巨大，也还是无法刻画二次函数的特性。

因此，会导致训练的模型与实际的模型差别很大，也就是偏差很大，泛化误差也很大。

右图选取高阶多项式模型进行拟合，虽然对训练样本有着很好的拟合效果，但是模型的复杂度要高于实际的模型复杂度，因此也会有较大的泛化误差而且选取不同的训练数据集，所得到的模型参数往往相差很大，即有着较大的方差。

二.数学模型
我们实际关心的是泛化误差，泛化误差表示着训练模型对客观存在的实际模型的近似程度。

但是，我们对于实际模型是知之甚少的（有些情况是知道一点，比如上面的例子通过作图可知实际模型大致为二次函数），也就是无法定量的描述泛化误差。

但是训练误差是完全可以求出来的，如果可以通过训练误差来反映泛化误差的特性，那么我们就有了定量描述泛化误差的手段。

接下来主要就是建立训练误差与泛化误差之间的关系。

1.数学表达式
训练误差：
泛化误差：
相关前提假设：
训练数据和测试数据是独立同分布于D的。

选定一种模型，然后计算模型的参数，这个过程也可以视为是从模型空间H中选择一个模型出来。

最后建立的数学模型是：
给定模型空间H，我们的问题就归结为：
2.训练误差与泛化误差的关系
1）H是有限大小为k的模型空间
上式的推导详见讲义，上式的意义是用不等式与概率刻画出了泛化误差与训练误差之间的关系。

而上式更加直观的解释是：
给定和，可以求出样本数m的界限
上式引申出的结论是：
我们由训练误差最小化原则理论上可以求出模型,而使用这个模型时候的泛化误差又有上式来进行限定。

2)H是无限大小的模型空间
上式是无限维假设空间下的结论，d是假设空间的VC维，m是训练样本的数目。

不细究这个公式背后的数学证明与推导，接下来结合下面的图来理解欠拟合，过拟合及它们和VC维之间的关系。

对于一个实际的回归或者分类问题，我们的做法是生成训练数据集，选择模型空间，然后利用一定的准则（通常是训练误差最小化）来得到具体的模型。

在得到具体的模型之后，就要利用对得到的模型进行评估，评价指标则是泛化误差。

泛化误差并没有完备的数学表达式，我们是用概率，训练误差以及不等式来对泛化误差进行限定，从而对泛化误差也就是模型进行评估。

通常情况下，训练样本数目m是固定的，VC维的大小跟模型的复杂度（模型中的参数数目)是成正比的。

对于欠拟合问题，模型比较简单，因此VC维d比较小，因此泛化误差与训练误差比较接近。

但是此时的模型过于简单，导致训练误差较大，因此泛化误差也比较大。

如上图左半部分所示。

对于过拟合问题，模型比较复杂，因此VC维d比较大，因此泛化误差和训练误差差别较大。

虽然此时模型可以很好的描述训练数据的特性，训练误差比较小，但是泛化误差跟训练误差的差距较大，所以泛化误差还是比较大，如上图右半部分所示。

上面的这个公式具有很强的意义，因为它实实在在的给了我们评估模型好坏的手段。

直观上的欠拟合与过拟合问题也可以用这个公式很好的解释。