机器学习综述

合集下载

机器学习中的特征选择方法研究综述

机器学习中的特征选择方法研究综述

机器学习中的特征选择方法研究综述简介:在机器学习领域,特征选择是一项重要的任务,旨在从原始数据中选择出对于解决问题最具有代表性和预测能力的特征子集。

特征选择方法能够改善模型性能、减少计算复杂性并提高模型解释性。

本文将综述机器学习中常用的特征选择方法,并对其优点、缺点和应用范围进行评估和讨论。

特征选择方法的分类:特征选择方法可以分为三大类:过滤式、包裹式和嵌入式方法。

1. 过滤式方法:过滤式方法独立于任何学习算法,通过对特征进行评估和排序,然后根据排名选择最佳特征子集。

常用的过滤式方法包括相关系数、互信息、卡方检验等。

(1) 相关系数:相关系数是评估特征与目标变量之间线性关系强弱的一种方法。

常用的相关系数包括皮尔逊相关系数和斯皮尔曼相关系数。

优点是简单且易于计算,但仅能检测线性关系,对于非线性关系效果较差。

(2) 互信息:互信息是评估特征与目标变量之间信息量共享程度的一种方法。

互信息能够发现非线性关系,但对于高维数据计算复杂度较高。

(3) 卡方检验:卡方检验适用于特征与目标变量均为分类变量的情况。

它衡量了特征与目标变量之间的依赖性。

然而,在特征之间存在相关性时,卡方检验容易选择冗余特征。

过滤式方法适用于数据集维度较高的情况,计算速度快,但无法考虑特征间的相互影响。

2. 包裹式方法:包裹式方法直接使用学习算法对特征子集进行评估,通常使用启发式搜索算法(如遗传算法、蚁群算法等)来找到最佳特征子集。

包裹式方法的优点是考虑了特征间的相互作用,但计算复杂度高,易受算法选择和数据噪声的影响。

(1) 遗传算法:遗传算法是一种模拟生物进化过程的优化算法。

在特征选择中,遗传算法通过使用编码表示特征子集,通过选择、交叉和变异等操作来搜索最佳特征子集。

遗传算法能够有效避免包裹式方法中特征间的相互影响,但计算复杂度高。

(2) 蚁群算法:蚁群算法是一种基于模拟蚁群觅食行为的优化算法。

在特征选择中,蚁群算法通过模拟蚂蚁在搜索空间中的移动来寻找最佳特征子集。

机器学习中的核方法综述

机器学习中的核方法综述

机器学习中的核方法综述机器学习常用的方法有很多,其中核方法是一类比较重要的方法之一。

核方法主要是针对非线性问题,能够将非线性问题转化成线性问题,从而更方便地解决问题。

在本文中,我们将会对核方法进行一个综述。

一、核方法简介核方法是一种基于核函数的机器学习方法,它主要应用于模式识别、分类、回归和聚类等问题。

其基本思想是将低维度数据映射到高维度空间,从而更好地描述数据的特征。

在高维度空间中,数据可能会更加容易分类或回归。

但是由于高维度空间中数据的计算量会变得非常大,核方法就出现了,它可以在低维度空间中计算高维度空间中的内积,从而避免高维度空间中数据的计算量。

核方法的核心是核函数。

核函数用于将低维度空间中的数据映射到高维度空间中,并在高维度空间中计算内积。

它的优点是可以将一个非线性问题转化成一个线性问题。

核函数有很多种,如线性核函数、多项式核函数、径向基核函数等。

二、线性核方法线性核方法是最简单的核方法之一,它的核函数是一个线性函数。

它的优点是易于计算和调整。

但是它的缺点是不能很好地处理非线性问题。

三、多项式核方法多项式核方法的核函数是一个多项式函数。

它的优点是可以很好地处理一些非线性问题。

但是它的缺点是容易过拟合,需要对参数进行优化。

四、径向基核方法径向基核方法是一种常用的核方法,它的核函数是一个径向基函数。

它的优点是可以很好地处理非线性问题,并且可以使用不同的径向基函数。

但是它的缺点是需要设置好核函数的参数,且计算量较大。

五、核方法的应用核方法在机器学习中有广泛的应用,如支持向量机、核主成分分析、核聚类等。

其中支持向量机是最常见的应用之一。

支持向量机是一种二元分类模型,它可以将一个非线性问题转化成一个线性问题,从而更容易分类。

六、总结核方法是一种非常重要的机器学习方法,它可以将一个非线性问题转化成一个线性问题,从而更容易处理。

核函数是核方法的核心,不同的核函数可以在不同的场景下应用。

在实际应用中,需要根据具体的问题选择合适的核函数和参数。

机器学习模型解释与可解释性研究进展综述

机器学习模型解释与可解释性研究进展综述

机器学习模型解释与可解释性研究进展综述引言:随着机器学习在各个领域的广泛应用,对于模型解释性的需求也越来越迫切。

传统的机器学习模型,如决策树和线性回归等,相对比较容易被理解和解释。

但是,随着深度学习等复杂模型的兴起,其黑盒特性给模型解释性带来了挑战。

针对这一问题,研究者们开始着手研究机器学习模型的解释性,旨在提高模型的可理解性,使其更易于被人们理解和信任。

本文将综述机器学习模型解释与可解释性的研究进展,包括可解释性的定义、方法和应用。

一、可解释性的定义可解释性是指对于机器学习模型的输出结果,能够清晰地解释其形成的原因和依据。

这包括了对输入特征的影响、模型内部的决策过程以及与输出结果相关的因果关系。

可解释性的定义因任务而异,在不同领域的应用中有不同的需求。

二、可解释性的方法为了实现机器学习模型的可解释性,研究者们提出了多种方法。

以下是几种常见的方法:1. 特征重要性分析:通过对模型中各个特征的重要性进行分析,来解释模型对输出结果的影响。

常用的方法包括特征选择、特征排列和特征权重等。

2. 决策规则提取:通过从模型中提取决策规则,来解释模型的决策过程。

这种方法常用于决策树等规则型模型。

3. 局部模型解释:通过对模型在某个具体样本上的行为进行解释,来揭示模型的内部机理。

局部模型解释方法包括对抗样本和局部特征影响等。

4. 逻辑推理和可视化:通过逻辑推理和可视化的手段,将模型的复杂决策过程可视化展示,使其更易于理解。

5. 模型压缩和简化:通过对模型进行压缩和简化,降低模型的复杂度,提高模型的可解释性。

三、可解释性的应用可解释性在各个领域中都有广泛的应用。

以下是几个典型的领域:1. 医疗健康:在医疗领域中,可解释性模型可以帮助医生理解和解释模型对患者诊断和治疗决策的依据,提高医疗决策的可信度和可靠性。

2. 金融风控:在金融领域中,可解释性模型可以帮助金融机构理解和解释模型对借贷申请、投资决策等的判断依据,提高风险控制和评估的准确性。

机器学习综述

机器学习综述

人工智能机器学习综述摘要:机器学习(Machine Learning)是人工智能领域的一个核心研究方向。

它是一个多学科交叉的产物,它吸取了概率统计、神经生物学、信息论、控制论、计算复杂性理论、哲学等学科的成果。

在很多应用领域发挥了重要的实用价值,特别是在数据挖掘、语音识别、图像识别、机器人、生物信息学、信息安全、遥感信息处理等领域取得了瞩目的成果。

关键词:人工智能;机器学习;数据挖掘;强化学习引言根据反馈的不同,机器学习可以分为监督学习或称为有导师学习(supervised learning, SL)、无监督学习或称为无导师学习(unsupervised learning, UL)和强化学习(reinforcement learning,RL)三大类[2]。

其中监督学习方法是目前研究得较为广泛的一种,该方法要求给出学习系统在各种环境输入信号下的期望输出,在这种方法中,学习系统完成的是与环境没有交互的记忆和知识重组的功能。

典型的监督学习方法包括决策树学习ID-5算法、BP算法、贝叶斯分类算法、SVM算法等。

无监督学习方法主要包括各种自组织学习方法,如聚类学习、自组织神经网络学习等。

强化学习是指从环境状态到行为映射的学习,以使系统行为从环境中获得累计奖励值最大,包括蒙特卡洛法、时序差分法、Q学习法等。

从本质上讲,机器学习就是要使计算机能模拟人的学习行为,自动地通过学习获取知识和技能,不断改善性能,实现人工智能。

随着计算机网络技术的发展,各行各业积累的数字化数据越来越多,如微博的数字化、聊天记录的数字化、视频探头信息的数字化,大数据(Big Data)成为当今流行的研究主题,在这种潮流下,如何对这些数据进行分析,从中发现蕴涵的规律及有价值的信息,机器学习我想将有一席用武之地。

研究现状及发展趋势一般来说,机器学习的研究起点最早可追溯到19世纪末的神经科学,特别是James发现了神经元是相互连接的现象。

随后,在20世纪30年代,McCulloch和Pitts发现了神经元的“兴奋”和“抑制”机制,20世纪中叶,Hebb发现了“学习律”,等等。

机器学习中的集成模型综述研究

机器学习中的集成模型综述研究

机器学习中的集成模型综述研究随着人工智能的不断发展,机器学习已经成为了一个热门的研究领域。

而在机器学习中,集成模型的应用日益广泛,其在解决复杂问题方面的表现也越来越受到研究者的关注。

本文将对机器学习中的集成模型进行综述研究,探讨其基本原理、常见形式和优化方法等方面的内容。

一、集成模型的基本原理集成模型是一种通过将多个模型的预测结果进行组合来提高模型性能的方法。

它的基本原理是:将多个弱学习器(weak learner)进行结合,得到一个强学习器(strong learner),从而提高模型的准确性和泛化性能。

在集成模型中,每个弱学习器都只能解决部分问题或具有一定的缺陷,但是将多个弱学习器结合在一起却可以得到较好的效果。

二、集成模型的常见形式在机器学习中,集成模型主要有三种形式:基于Bagging的集成、基于Boosting的集成和基于Stacking的集成。

1.基于Bagging的集成:Bagging是一种基于样本的集成学习方法。

在Bagging中,通过有放回的重复抽样,构建多个训练数据集,每个训练数据集都是从原始数据集中随机采样得到的。

这些训练数据集使用相同的学习算法,训练出多个弱学习器,最后将它们结合起来,得到一个强学习器。

Bagging的优点是可以通过并行计算来加快计算速度,同时还能减少过拟合的情况。

2.基于Boosting的集成:Boosting是一种基于模型的集成学习方法。

在Boosting中,每个样本都有一个权重,初始时,这些样本的权重均等。

然后将这些样本输入到一个基本分类器中,得到第一个弱学习器。

根据第一个弱学习器的结果,更新每个样本的权值,使下一个弱学习器更加关注分类错误的样本。

以此类推,不断迭代,直至得到一个强学习器。

Boosting的优点是可以取得很高的准确性,但缺点是容易过拟合。

3.基于Stacking的集成:Stacking是一种基于模型的集成学习方法。

在Stacking中,除了训练多个基本分类器以外,还需训练一个次级学习器(meta-learner),其作用是对基本分类器的结果进行组合。

机器学习和sdn的综述

机器学习和sdn的综述

从流量分类、路由优化、服务质量(Q os)/体验质量(Q o E )预测、资源管理和安全性的角度,回顾了机器学习算法如何应用于SDN 领域。

介绍篇:异构网络增加了网络的复杂性,在有效组织,管理和优化网络资源方面带来了许多挑战。

(什么是异构网络)在网络中运用智能化方法是解决这些问题的方法之一。

如知识平面方法(KP ):ML +认知技术将automation,recommendation and intelligence带入互联网。

由于传统网络固有的分布特征,每个节点(路由或交换机)只能查看系统的一小部分并对其进行操作。

SDN 可以对其进行帮助。

在SDN 中应用机器学习是合适的原因:1. 图形处理单元GPU 和张量处理单元TPU 等技术为机器学习提供了很好的机会;2.集中式SDN 控制器具有全局网络视图,能够收集各种网络数据,便于机器学习算法的应用。

3.基于实时和历史网络数据,机器学习技术可以通过执行数据分析,网络优化和网络服务的自动提供来为SDN 控制器提供智能化。

4.SDN 可编程性使机器学习算法生成的最优网络解决方案(如配置或资源分配)能够在网络上执行。

(图1综述总体路线图)第一二节:相关工作。

第三节:SDN 背景知识。

第四节:介绍常用的ML 算法第五节:从流量分类、路由优化、服务质量(Q o S )/体验质量(QoS)预测、资源管理和安全等方面对ML算法在SDN领域的应用进行了综述,并详细说明了机器学习在每一类中的应用。

第六节:讨论未来的研究方向:高质量的训练数据集、分布式多控制器平台、提高网络安全性、跨层网络优化和增量部署SDN。

第七节:软件定义其它。

SDN 网络架构(图2)机器学习和sdn 的综述2018年11月29日20:01SDN网络架构(图2)机器学习概述:机器学习通常包括两个阶段:训练阶段和决策阶段。

在训练阶段,采用机器学习地方法,利用训练数据集学习系统模型;在决策阶段,系统可以通过训练模型得到每一个新输入的估计输出。

李群机器学习研究综述

李群机器学习研究综述
个 最 小 生 成 元 , 可 以 利 用 李 群 方 法 对 图 像 进 行 分 就
L ML 作 为 机 器 学 习 领 域 的一 种 新 的 学 习 方 法 , ) 一
方 面 继 承 流 形 学 习 的 优 点 , 一 方 面 借 用 李 群 的 思 另
想 , 成 了具 有 创 新 特色 的学 习范 式.自 2 0 形 0 4年 提 出至今 l , 】 已引 起 加 拿 大 、 尔 兰 、 兰 、 大利 、 爱 芬 意


文 中简 述 了 李 群 机 器 学 习 的 相 关 研 究 内 容 , 括 李 群 机 器 学 习 的 概 念 、 理 假 设 、 数 学 习模 型 、 何 学 包 公 代 几
习 模 型 、 y kn图 的几 何 学 习 算 法 、 子 群 、 群 分 类 器 的设 计 、 道 生 成 学 习算 法 等 . Dni 量 辛 轨
Ab t a t s r c
Thi a rs s p pe umm a ie her l v ntr s a c fLi r u c i e r n rz st ee a e e r h o e g o p ma h ne la ni g,i l i ncud ng:
关 键 词 李 群 机 器 学 习 ; 理 假 设 ; 群 ; 类 器 公 李 分
中 图法 分 类 号 TP1 8 DOI号 :1 . 7 4 S . . 0 6 2 1 . l 1 032/ PJ11.00O15
Su v y o e G r u a hi e Le r ng r e n Li o p M c n a ni
方法 相 比有 明显 优势 , 李群 的概 念 可 以看 出 , 包 从 它 含 了微 分流形 和 群 的 内容 ; 分 流 形 包 含 了 拓 扑 流 微 形 和微 分结 构. 这套 理论 系统 , 给 我们提 供 了描 述 既

机器学习在金融资产定价中的应用研究综述

机器学习在金融资产定价中的应用研究综述

机器学习在金融资产定价中的应用研究综述机器学习在金融资产定价中的应用研究综述引言金融市场是一个高度复杂且动态的系统,资产定价一直是金融学研究的重要领域之一。

随着机器学习的快速发展,它在金融资产定价中的应用也越来越受到关注。

本文旨在综述机器学习在金融资产定价中的应用研究现状,并对未来的发展方向进行展望。

一、机器学习在金融资产定价中的基本概念机器学习是一种通过模型和算法自动发现数据中的模式和规律的方法。

它可以大幅提高金融资产定价的准确性和效率。

金融资产定价是通过建立数学模型来预测资产的未来价格或回报。

传统的定价模型如CAPM、Black-Scholes模型等在某些情况下可能表现出局限性,而机器学习可以通过非线性建模、数据驱动等方式更好地应对这些问题。

二、机器学习在金融资产定价中的方法与模型1. 监督学习模型监督学习是机器学习的一种重要方法。

它的核心思想是通过以往的历史数据来预测未来的资产价格。

常见的监督学习模型包括线性回归、支持向量回归、决策树等。

这些模型可以根据历史数据中的特征和标签进行训练,并用于预测资产的未来价格。

2. 非监督学习模型非监督学习是通过挖掘数据中的隐藏模式和结构来进行资产定价。

常见的非监督学习模型有聚类、关联规则等。

例如,通过对市场数据进行聚类分析,可以发现不同资产类别之间的相似性和差异性,从而为资产定价提供指导。

3. 强化学习模型强化学习是机器学习的一种特殊方法,它通过代理与环境交互来学习如何做出最优的决策。

在金融资产定价中,可以将市场视为一个环境,将投资者视为代理。

强化学习可以用于优化资产配置、制定交易策略等。

三、机器学习在金融资产定价中的应用1. 股票市场在股票市场中,机器学习可以用于预测股票的价格走势、量化交易策略、寻找价值投资机会等。

例如,通过对历史股票价格、财务指标等数据进行监督学习,可以建立股票价格预测模型,从而提供投资决策的参考。

2. 期权市场机器学习在期权定价模型中也有广泛应用。

  1. 1、下载文档前请自行甄别文档内容的完整性,平台不提供额外的编辑、内容补充、找答案等附加服务。
  2. 2、"仅部分预览"的文档,不可在线预览部分如存在完整性等问题,可反馈申请退款(可完整预览的文档不适用该条件!)。
  3. 3、如文档侵犯您的权益,请联系客服反馈,我们会尽快为您处理(人工客服工作时间:9:00-18:30)。
随着海量信息的出现,人们对简约阅读的需求增长,Samuel将这类机器学习演变为一类基于符号数据集合的约简过程,将其赋予了新的含义。这类方法可以将数据集合在可解释的条件下变换为更为简洁的表示,与近几年数据挖掘的任务一致,已成为这类机器学习方法的主要应用领域。
两类最重要的符号机器学习算法包括:覆盖算法与分治算法。覆盖算法有上世纪70年代末Michalski提出的AQ11算法;分治算法以Quinlan提出的决策树算法ID3,及其后继C4.5算法为代表,后者在前者的基础上嵌入了统计方法以增强其泛化能力,大多数已开发的决策树学习算法都是这两种核心算法的变体。
2
机器学习的经典定义是1997年Tom M. Mitchell在“MachineLearning”一书中提出的“计算机利用经验改善系统自身性能的行为。”这是一个相当宽泛的说明,将“机器”限定在“计算机”,而对学习的定义则过于宽泛以致不便理解。人们通常所说的“学习做出比较符合实际的判断、指导和预测。其中有四个关键要素:已知事实、学习方法、新的知识、预判未来。其关系如图1所示。
——
放弃:问题过于复杂
其中,符号机器学习方法最初由于其建立的模型是确定的,不具备泛化能力而被认为不具备竞争能力,然而随着海量信息的出现以及对简洁阅读的要求,符号机器学习重新获得生命力。随着统计机器学习理论和技术的完善,连接机器学习渐渐演变为统计机器学习和集成机器学习。遗传机器学习则因为理论和技术上进展缓慢而让位给增强机器学习。分析机器学习则由于至今未能找到理论基础,以及一些当前在理论与技术上暂时无法克服的困难,已基本处于停滞状态。
2.2
集成机器学习的依据是Hebb提出的神经集合体假设,即集成多个分类器,使不同模型补充一个模型的不足。也就是设计一组分类器,其中每个分类器的设计更为简单,而其组合可以获得与单个分类器相同或者更好的泛化能力;另外,对于大多数情况,样本集合很难满足同分布的一致性条件,可以考虑设计多个分类器作为单个分类器的补充,增加其泛化能力。
2.3
增强机器学习(reinforcement learning)的本质是对变化的环境相适应。最早的思想体现在1948年Wiener著作的“控制论”中,逐渐发展成一类重要的研究课题——自适应控制。
将自适应控制的原理应用于机器学习领域就是:设计一组规则,使用这组规则求解问题,如果能够解决当前环境所提出的问题,支持获得这个解答的所有规则就被增强,否则被减弱。这个过程在分类器系统中称为桶队算法。如果所有规则均不能解决环境所提出的问题,就使用遗传算法进行学习,产生新的规则,直到可以适应环境。也就是说,其规则集是动态变化的,使用遗传算法求解问题的同时改变规则集。
模式识别方法中VC维的直观定义是:对一个指示函数集,如果存在h个样本能够被函数集中的函数按所有可能的2h种形式分开,则称函数集能够把h个样本打散;函数集的VC维就是它能打散的最大样本数目h。若对任意数目的样本都有函数能将它们打散,则函数集的VC维是无穷大。有界实函数的VC维可以通过用一定的阈值将它转化成指示函数来定义。
3
获得一组问题空间的观测数据之后,如果不能或者没必要对其建立严格的物理模型,从这组数据推算问题空间的数学模型,在输入输出之间的关系上反映问题空间的实际,而不需要对问题世界做物理解释,这是“黑箱”原理。统计学习理论本质上是“黑箱”原理的延续,其中数学方法是研究的焦点。
传统的统计学要求样本数据数目趋于无穷大,这实际上是一种不可达到的假设,现实世界中,可以获取的样本数目总是有限的。统计学系理论就是一种专门研究小样本情况下机器学习规律的理论。回顾2.2小节所描述的机器学习过程,其描述隐含了三个方面的内容:
1、一致。问题空间W必须和样本空间Q性质相同,才可以根据Q对W进行推测和预判,体现在统计学意义上就是W中的元素满足同分布的一致性条件。
2、划分。正确预判的前提是正确地划分,将Q放到n维空间,要寻找一个定义在这个空间上的决策分界面(等价关系),使得问题决定的不同对象分在不相交的区域。
3、泛化。判断模型M的好坏不仅仅在于对样本空间Q有好的判断效果,更重要的是要对问题空间W有尽量准确的预测效果,即好的推广能力。
M对W的预测正确率,称为M对W的泛化能力或推广能力。机器学习的本质和目的就是要使得M尽可能接近真实,也就是其泛化(推广)能力尽可能强。
然而,机器学习面临的第一个问题就是其问题空间如何表示?即数据描述问题。对于计算机而言,最本质的特征是量化表示以及对数值的处理;对于人类而言,其思考、表达的过程往往借助于语言或图像,而不是数值。由此,诞生了两类不同方向的机器学习领域:基于符号的机器学习,基于数值的机器学习。
(3)
这就是学习理论中的第三个里程碑,从理论上证明了对任意分布ERM原则满足一致性且能保证快速收敛的充分必要条件。
值得一提的是在1968年,Vapnik和Chervonenkis发现了VC维的概念与生长函数之间的重要联系:任意生长函数要么是线性的,此时指示函数集的VC维无穷大;要么就是以一个参数为h的对数函数为上界,此时指示函数集的VC维是有限的且等于h。
图1学习过程
对应于图1,在机器学习领域,已知事实对应于“样本空间”,需要预判的新的事实对应于“问题空间”,所得到的知识对应于“构建的模型”。由此,机器学习可以描述为[3]:
令W是问题空间,(x,y)∈W称为样本,其中,x是一个n维矢量,y是类别域中的一个值。由于观察能力的限制,我们只能获得W的一个真子集,记为Q W,称为样本集合。根据Q建立模型M,并期望M对W中的所有样本预测的正确率大于一个给定的常数θ。
1989年,Carbonell指出机器学习有4个研究方向:符号机器学习、连接机器学习、遗传机器学习与分析机器学习。十年过去后,1999年,Dietterich提出了另外4个新的研究方向:符号机器学习、统计机器学习、集成机器学习、增强机器学习。其关系如表1所示[4]。
表1机器学习研究方向变迁
Carbonell,1989
Rough set理论和统计学习理论可以在不增加计算复杂性的条件下,分别描述符号机器学习和统计机器学习(集成机器学习可以理解为统计机器学习在技术上的变种)。这两个理论有坚实的数学基础,因此大大减少了算法设计的随意性,并且使比较已有的各种机器学习算法有了理论基础。增强机器学习理论研究还存在很大困难。
本文重点关注以统计学习理论为基础的统计机器学习。
目前,这个研究路线进展缓慢,主要是改进桶队算法中利益均分的策略。如果将这种利益变换为对状态的评价,这个问题则变换为一个Markov过程。20世纪90年代初,Sutton将这类机器学习建立在Markov过程上,称为增强机器学习方法。
2.4
历史上,机器学习基本是在经验范畴内进行研究的,随意性非常大。Internet的普及带来海量数据现象,如何从大量数据中提取有用的信息和知识面临巨大的需求空间,有力地推动了机器学习研究。20世纪80年代奠定了统计学习理论、Rough set理论、适应性理论等理论基础,在机器学习的研究和应用中起着重要的指导作用。
本文在简略介绍符号机器学习、集成机器学习、增强机器学习的基础上,重点介绍统计机器学习。
2.1
最早的符号机器学习源于1959年Solomonoff关于文法归纳的研究,给定一组语句实例,求出有关文法。传统意义下,这类机器学习也以泛化能力作为主要指标。然而事实上,这类建模方法不建立在统计基础上,不具备泛化能力。1967年,Gold证明了这类学习在理论上存在不可逾越的障碍。
一般地说,机器学习的统计基础是经验风险最小化原则(Empirical Risk Minimization,ERM)。
令期望风险为:
经验风险为:
其中,xi独立同分布于概率密度函数P(x,y)。
根据统计学中的大数定律,样本个数 趋于无穷大时,经验风险 依概率收敛于期望风险 ,所以传统的机器学习算法一般以经验风险 最小作为目标函数。1971年,Vapnik指出经验风险 的下界未必依概率收敛于期望风险 的下界,也就是说将 作为目标函数是不合理的。Vapnik进一步证明了经验风险 的下界依概率收敛于期望风险 的下界当且仅当经验风险 依概率一致收敛于期望风险 (即泛函空间的大数定律)。这就是有限样本的统计理论。这个统计理论可以用函数集的VC维来描述,这样,机器学习的目标函数就建立在函数集的结构之上,而不是均方差之类的最小经验风险之上。这是统计机器学习理论的精髓。
1960年Widrow提出Madline可以视为集成机器学习的最早雏形,1984年Valiant提出PAC模型(Probably approximately correct model),1990年Schapire提出了弱学习定理,1995年Freund和Schapire提出了AdaBoost算法,在上述研究成果的基础上,逐渐形成了泛化理论。
机器学习
曹晓敏
摘要:机器学习是计算机领域最活跃,最有潜力的方向之一。本文概述了机器学习当前研究的几个方向:符号机器学习、集成机器学习、增强机器学习、统计机器学习,梳理了各自的理论基础。在此基础上,以统计机器学习为重点,就其一致性、收敛性、推广性以及构造算法的原则四个核心方面进行了综述,最后提出几点思考和建议。
3.2
在学习过程的一致性、收敛性研究中,还涉及到三个重要概念:VC熵,退火的VC熵,生长函数。这里均以模式识别问题的指示函数为例进行说明,实函数集的情况是指示函数集情况的推广。
设Q(z,α),α 是一个指示函数集,考虑样本 ,定义一个量 ,代表用指示函数集中的函数能够把给定的样本分成多少种不同的分类,即表征函数集在给定数据集上的多样性。则
然而,这个条件并没有对收敛速度给出证明。接下来,Vapnik和Chervonenkis找到了收敛速度快的充分条件,如下式(2)。
(2)
这一等式是学习理论的第二个里程碑:保证了收敛有快的渐近速度。
至此,式1和式2对一致性以及收敛速度有了理论保证,然而这些都是和给定分布相关的。如何保证对于任意的分布,ERM原则是一致的,且同时有快的收敛速度?下式(3)给出了任意分布下一致且快速收敛的充分必要条件:
相关文档
最新文档