机器学习中常见算法的优缺点之 ID3、C4.5算法和Adaboosting

机器学习中常见算法的优缺点之 ID3、C4.5算法和Adaboosting
机器学习中常见算法的优缺点之 ID3、C4.5算法和Adaboosting

大家都知道,机器学习中有很多算法,比如说决策树,随机森林,线性回归等等,其实这些

算法都是有很多优点,同时也是有很多的缺点。我们在这篇文章中给大家介绍一下ID3、

C4.5算法、CART分类与回归树和Adaboosting算法的优缺点,希望这篇文章能够更好的帮

助大家理解机器学习。

首先我们给大家介绍一下ID3、C4.5算法,其实ID3算法是以信息论为基础,以信息熵和信

息增益度为衡量标准,从而实现对数据的归纳分类。ID3算法计算每个属性的信息增益,并

选取具有最高增益的属性作为给定的测试属性。C4.5算法核心思想是ID3算法,是ID3算法

的改进,改进方面有四方面,第一就是用信息增益率来选择属性,克服了用信息增益选择属

性时偏向选择取值多的属性的不足。第二就是在树构造过程中进行剪枝。第三就是能处理非

离散的数据。第四就是能处理不完整的数据。

那么这种算法的优点是什么呢?优点很明显,那就是产生的分类规则易于理解,准确率较高。而缺点就是在构造树的过程中,需要对数据集进行多次的顺序扫描和排序,因而导致算法的

低效。同时C4.5只适合于能够驻留于内存的数据集,当训练集大得无法在内存容纳时程序无

法运行。

那么什么是CART分类与回归树呢?其实这两种算法就是一种决策树分类方法,采用基于最

小距离的基尼指数估计函数,用来决定由该子数据集生成的决策树的拓展形。如果目标变量

是标称的,称为分类树;如果目标变量是连续的,称为回归树。分类树是使用树结构算法将

数据分成离散类的方法。

这种算法的优点体现在两方面,第一就是这种算法非常灵活,可以允许有部分错分成本,还

可指定先验概率分布,可使用自动的成本复杂性剪枝来得到归纳性更强的树。第二就是在面

对诸如存在缺失值、变量数多等问题时CART显得非常稳健。

最后我们给大家介绍一下Adaboosting ,其实Adaboost是一种加和模型,每个模型都是基于

上一次模型的错误率来建立的,过分关注分错的样本,而对正确分类的样本减少关注度,逐

次迭代之后,可以得到一个相对较好的模型。该算法是一种典型的boosting算法,其加和理

论的优势可以使用Hoeffding不等式得以解释。而这种算法的优点就是具有很高精度的特性。这种算法可以使用各种方法构建子分类器,Adaboost算法提供的是框架。同时,当使用简单

分类器时,计算出的结果是可以理解的,并且弱分类器的构造极其简单。而简单也是其中一

个特点,不用做特征筛选。最后就是不易发生overfitting。而缺点只有一个,那就是对outlier

比较敏感。

在这篇文章中我们给大家介绍了关于机器学习算法的优缺点,具体就是ID3、C4.5算法、CART分类与回归树和Adaboosting算法,其实这些算法都是十分实用的,所以说我们在学习机器学习的时候一定不要忽视这些算法的学习。

蚁群算法简述及实现

蚁群算法简述及实现 1 蚁群算法的原理分析 蚁群算法是受自然界中真实蚁群算法的集体觅食行为的启发而发展起来的一种基于群体的模拟进化算法,属于随机搜索算法,所以它更恰当的名字应该叫“人工蚁群算法”,我们一般简称为蚁群算法。M.Dorigo等人充分的利用了蚁群搜索食物的过程与著名的TSP问题的相似性,通过人工模拟蚁群搜索食物的行为来求解TSP问题。 蚂蚁这种社会性动物,虽然个体行为及其简单,但是由这些简单个体所组成的群体却表现出及其复杂的行为特征。这是因为蚂蚁在寻找食物时,能在其经过的路径上释放一种叫做信息素的物质,使得一定范围内的其他蚂蚁能够感觉到这种物质,且倾向于朝着该物质强度高的方向移动。蚁群的集体行为表现为一种正反馈现象,蚁群这种选择路径的行为过程称之为自催化行为。由于其原理是一种正反馈机制,因此也可以把蚁群的行为理解成所谓的增强型学习系统(Reinforcement Learning System)。 引用M.Dorigo所举的例子来说明蚁群发现最短路径的原理和机制,见图1所示。假设D 和H之间、B和H之间以及B和D之间(通过C)的距离为1,C位于D和B的中央(见图1(a))。现在我们考虑在等间隔等离散世界时间点(t=0,1,2……)的蚁群系统情况。假设每单位时间有30只蚂蚁从A到B,另三十只蚂蚁从E到D,其行走速度都为1(一个单位时间所走距离为1),在行走时,一只蚂蚁可在时刻t留下浓度为1的信息素。为简单起见,设信息素在时间区间(t+1,t+2)的中点(t+1.5)时刻瞬时完全挥发。在t=0时刻无任何信息素,但分别有30只蚂蚁在B、30只蚂蚁在D等待出发。它们选择走哪一条路径是完全随机的,因此在两个节点上蚁群可各自一分为二,走两个方向。但在t=1时刻,从A到B的30只蚂蚁在通向H的路径上(见图1(b))发现一条浓度为15的信息素,这是由15只从B走向H的先行蚂蚁留下来的;而在通向C的路径上它们可以发现一条浓度为30的信息素路径,这是由15只走向BC的路径的蚂蚁所留下的气息与15只从D经C到达B留下的气息之和(图1(c))。这时,选择路径的概率就有了偏差,向C走的蚂蚁数将是向H走的蚂蚁数的2倍。对于从E到D来的蚂蚁也是如此。 (a)(b)(c) 图1 蚁群路径搜索实例 这个过程一直会持续到所有的蚂蚁最终都选择了最短的路径为止。 这样,我们就可以理解蚁群算法的基本思想:如果在给定点,一只蚂蚁要在不同的路径中选择,那么,那些被先行蚂蚁大量选择的路径(也就是信息素留存较浓的路径)被选中的概率就更大,较多的信息素意味着较短的路径,也就意味着较好的问题回答。

蚁群算法原理及在TSP中的应用(附程序)

蚁群算法原理及在TSP 中的应用 1 蚁群算法(ACA )原理 1.1 基本蚁群算法的数学模型 以求解平面上一个n 阶旅行商问题(Traveling Salesman Problem ,TSP)为例来说明蚁群算法ACA (Ant Colony Algorithm )的基本原理。对于其他问题,可以对此模型稍作修改便可应用。TSP 问题就是给定一组城市,求一条遍历所有城市的最短回路问题。 设()i b t 表示t 时刻位于元素i 的蚂蚁数目,()ij t τ为t 时刻路径(,)i j 上的信息量,n 表示TSP 规模,m 为蚁群的总数目,则1()n i i m b t ==∑;{(),}ij i i t c c C τΓ=?是t 时刻集合C 中元素(城市)两两连接ij t 上残留信息量的集合。在初始时刻各条路径上信息量相等,并设 (0)ij const τ=,基本蚁群算法的寻优是通过有向图 (,,)g C L =Γ实现的。 蚂蚁(1,2,...,)k k m =在运动过程中,根据各条路径上的信息量决定其转移方向。这里用禁忌表(1,2,...,)k tabu k m =来记录蚂蚁k 当前所走过的城市,集合随着 k tabu 进化过程作动态调整。在搜索过程中,蚂蚁根据各条路径上的信息量及路 径的启发信息来计算状态转移概率。()k ij p t 表示在t 时刻蚂蚁k 由元素(城市)i 转移 到元素(城市)j 的状态转移概率。 ()*()()*()()0k ij ij k k ij ij ij s allowed t t j allowed t t p t αβ αβτητη??????????? ∈?????=????? ??? ∑若否则 (1) 式中,{}k k allowed C tabuk =-表示蚂蚁k 下一步允许选择的城市;α为信息启发式因子,表示轨迹的相对重要性,反映了蚂蚁在运动过程中所积累的信息在蚂蚁运动时所起作用,其值越大,则该蚂蚁越倾向于选择其他蚂蚁经过的路径,蚂蚁之间协作性越强;β为期望启发式因子,表示能见度的相对重要性,反映了蚂蚁在运动过程中启发信息在蚂蚁选择路径中的重视程度,其值越大,则该状态转移概率越接近于贪心规则;()ij t η为启发函数,其表达式如下: 1 ()ij ij t d η= (2)

蚁群算法综述

《智能计算—蚁群算法基本综述》 班级:研1102班 专业:计算数学 姓名:刘鑫 学号: 1107010036 2012年

蚁群算法基本综述 刘鑫 (西安理工大学理学院,研1102班,西安市,710054) 摘要:蚁群算法( ACA)是一种广泛应用于优化领域的仿生进化算法。ACA发展背景着手,分析比较国内外ACA研究团队与发展情况立足于基本原理,分析其数学模型,介绍了六种经典的改进模型,对其优缺点进行分析,简要总结其应用领域并对其今后的发展、应用做出展望。 关键词:蚁群;算法;优化;改进;应用 0引言 专家发现单个蚂蚁只具有一些简单的行为能力。但整个蚁群却能完成一系列复杂的任务。这种现象是通过高度组织协调完成的1991年。意大利学者M.Dorigo 首次提出一种新型仿生算法ACA。研究了蚂蚁的行为。提出其基本原理及数学模型。并将之应用于寻求旅行商问题(TSP)的解。 通过实验及相关理论证明,ACA有着有着优化的选择机制的本质。而这种适应和协作机制使之具有良好的发现能力及其它算法所没有的优点。如较强的鲁棒性、分布式计算、易与其他方法结合等;但同时也不应忽略其不足。如搜索时间较长,若每步进行信息素更新,计算仿真时所占用CPU时间过长:若当前最优路径不是全局最优路径,但其信息素浓度过高时。靠公式对信息素浓度的调整不能缓解这种现象。会陷人局部收敛无法寻找到全局最优解:转移概率过大时,虽有较快的收敛速度,但会导致早熟收敛。所以正反馈原理所引起的自催化现象意在强化性能好的解,却容易出现停滞现象。笔者综述性地介绍了ACA对一些已有的提出自己的想法,并对其应用及发展前景提出了展望。 1 蚁群算法概述 ACA源自于蚁群的觅食行为。S.Goss的“双桥”实验说明蚂蚁总会选择距食物源较短的分支蚂蚁之间通过信息素进行信息的传递,捷径上的信息素越多,吸引的蚂蚁越多。形成正反馈机制,达到一种协调化的高组织状态该行为称集体自催化目前研究的多为大规模征兵,即仅靠化学追踪的征兵。 1 .1 蚁群算法的基本原理

蚁群算法原理与应用讲解

蚁群算法在物流系统优化中的应用 ——配送中心选址问题 LOGO https://www.360docs.net/doc/903267684.html,

框架 蚁群算法概述 蚁群算法模型 物流系统中配送中心选择问题 蚁群算法应用与物流配送中心选址 算法举例

蚁群算法简介 ?蚁群算法(Ant Algorithm简称AA)是近年来刚刚诞生的随机优化方法,它是一种源于大自然的新的仿生类算法。由意大利学者Dorigo最早提出,蚂蚁算法主要是通过蚂蚁群体之间的信息传递而达到寻优的目的,最初又称蚁群优化方法(Ant Colony Optimization简称ACO)。由于模拟仿真中使用了人工蚂蚁的概念,因此亦称蚂蚁系统(Ant System,简称AS)。

蚁群觅食图1 ?How do I incorporate my LOGO and URL to a slide that will apply to all the other slides? –On the [View]menu, point to [Master],and then click [Slide Master]or [Notes Master].Change images to the one you like, then it will apply to all the other slides. [ Image information in product ] ?Image : www.wizdata.co.kr ?Note to customers : This image has been licensed to be used within this PowerPoint template only. You may not extract the image for any other use.

相关文档
最新文档