5决策树与随机森林
了解机器学习中的随机森林算法和决策树模型

了解机器学习中的随机森林算法和决策树模型一、介绍机器学习中的随机森林算法和决策树模型是常用的监督学习方法,被广泛应用于分类和回归问题。
本文将详细介绍这两个模型的原理以及它们在机器学习中的应用。
二、决策树模型1. 原理决策树是通过一系列的判断条件对数据进行分类或预测的模型。
其原理是基于对样本特征属性进行分割,直至得到能够完全分开不同类别的叶节点。
决策树模型具有易于理解、可解释性强等优点,适用于处理有离散特征和连续特征的数据集。
2. 构建过程决策树模型构建过程包括选择最佳划分属性、生成子节点以及递归构建子树等步骤。
通过计算划分属性的信息增益或其他指标,选择最佳属性作为当前节点的分裂条件。
然后将数据集按照该属性值进行划分,并递归地生成子节点,直到满足停止条件(如达到叶节点或深度限制)为止。
3. 应用领域决策树模型在多个领域都能得到广泛应用。
例如,在医学领域,可以利用决策树模型对患者的症状和各种检测指标进行分类,以辅助医生做出诊断决策。
在金融领域,可以通过构建决策树模型进行信用评分,帮助银行判断借款人的还款能力。
三、随机森林算法随机森林是一种基于集成学习思想的算法,它由多个决策树组成。
它通过对原始数据集进行有放回抽样(bootstrap)得到多个样本子集,并利用这些子集构建不同的决策树。
最后通过投票或平均等方式综合各决策树的结果来做出最终预测。
随机森林算法能够处理高维度数据和离群点,并且不容易过拟合。
2. 构建过程随机森林算法包括两个重要步骤:创建随机子集和构建决策树。
创建随机子集时,首先从原始数据集中进行有放回抽样得到训练集,然后再从每个特征子集中选择最佳划分属性。
构建决策树的过程与决策树模型相似,但在节点划分时只考虑随机子集中的一部分特征。
3. 应用领域随机森林算法被广泛用于文本分类、图像识别、推荐系统等领域。
在文本分类中,可以利用随机森林对文章或评论进行情感分析,帮助企业了解用户对其产品的态度。
在推荐系统中,可以利用随机森林对用户的历史行为进行分析,并给出个性化的推荐结果。
决策树连续变量_决策树和随机森林

决策树连续变量_决策树和随机森林决策树和随机森林是常用的机器学习算法,用于解决分类和回归问题。
决策树是一种基本的模型,而随机森林则是由多个决策树组成的集成模型。
决策树是一种树形结构,由节点和边组成。
每个节点表示一个特征变量,边表示特征变量的取值。
从根节点开始,根据节点的特征变量值进行分支,直到叶节点,叶节点表示模型的输出。
决策树的生成过程基于特征选择和分裂准则,常用的特征选择准则包括信息增益、信息增益率和基尼指数。
决策树的优点是易于理解和解释,可以处理混合变量类型(离散和连续),但容易过拟合。
决策树在处理连续变量时,需要将连续变量离散化。
常用的方法有二分法(将连续变量划分为两个区间)、多分法(将连续变量划分为多个区间)和回归法(使用回归模型预测连续变量的取值)。
将连续变量离散化后,可以将其视为离散变量处理。
离散化的过程会对模型的性能产生一定的影响,因此需要根据问题的特点选择适当的离散化方法。
随机森林是由多个决策树组成的集成模型。
随机森林通过随机选择样本和特征进行训练,可以减少模型的方差和过拟合的风险。
随机森林的主要思想是通过多个决策树的投票或平均来得到最终的输出。
对于分类问题,随机森林采用投票的方式,每个决策树的输出作为一个投票。
对于回归问题,随机森林采用平均的方式,每个决策树的输出作为一个预测值。
随机森林在处理连续变量时,可以直接使用原始的连续变量进行训练,不需要进行离散化。
在每个节点的特征选择过程中,随机森林通过随机选择一部分特征变量来进行评估,从而减少了连续变量对决策的影响。
此外,随机森林还可以通过特征重要性评估来分析变量的重要程度。
总结起来,决策树和随机森林是常用的机器学习算法,用于解决分类和回归问题。
在处理连续变量时,决策树需要将连续变量离散化,而随机森林可以直接使用原始的连续变量进行训练。
在选择算法时,需要根据问题的特点和数据的属性选择适当的模型。
分类与回归应用的主要算法

分类与回归应用的主要算法分类与回归是机器学习中最基本的问题,它们都可以使用许多不同的算法进行处理。
以下是分类与回归应用中主要的算法:1. 逻辑回归(Logistic Regression):逻辑回归是一种广泛应用于分类问题中的线性模型,它将数据映射到一个0到1之间的概率值,然后根据特定的阈值进行分类。
2. 决策树(Decision Tree):决策树是一种基于树形结构的分类算法,它将数据分成不同的子集,一旦达到某个条件便停止分割,然后根据叶节点的类别进行分类。
3. k近邻(k-Nearest Neighbor):k近邻是一种基于距离测量的分类算法,它通过找出最接近目标数据点的k个邻居来确定数据点的类别。
4. 支持向量机(Support Vector Machine):支持向量机是一种基于超平面的分类算法,它通过找到一个最优的超平面来划分数据,使得不同类别的数据离超平面最远。
5. 随机森林(Random Forest):随机森林是一种基于决策树的分类算法,它通过构建多个决策树来进行分类,最终通过投票或平均值来确定分类结果。
6. 神经网络(Neural Network):神经网络是一种模仿人类神经系统的分类算法,它通过一系列的层和节点来学习数据的特征,并最终输出类别。
7. 线性回归(Linear Regression):线性回归是一种广泛应用于回归问题中的线性模型,它通过拟合一条直线来预测连续数值型变量的值。
8. 决策树回归(Decision Tree Regression):决策树回归是一种基于树形结构的回归算法,它将数据分成不同的子集,一旦达到某个条件便停止分割,然后通过叶节点的平均值进行回归预测。
9. 支持向量回归(Support Vector Regression):支持向量回归是一种基于超平面的回归算法,它通过找到一个最优的超平面来预测连续数值型变量的值。
10. 随机森林回归(Random Forest Regression):随机森林回归是一种基于决策树的回归算法,它通过构建多个决策树来预测连续数值型变量的值,最终通过投票或平均值来确定预测结果。
5决策树与随机森林

5决策树与随机森林决策树和随机森林是机器学习中常用的两种算法模型。
它们具有简单、易解释性好的特点,并且能够处理分类和回归问题。
在本文中,我将对决策树和随机森林进行详细介绍,并比较它们之间的差异。
1.决策树决策树的优点包括:-模型易理解和解释,可以以图形化的方式展示决策规则;-能够处理数据集中的离群值和缺失值;-具有快速的训练和预测速度。
然而,决策树也存在一些缺点:-容易过拟合,特别是当树的深度较大时;-对输入数据的变化敏感,可轻微的数据变化可能导致树的结构完全不同;-无法处理连续型特征,需要将其离散化。
2.随机森林随机森林是一种通过集成多个决策树来改进预测准确性的方法。
在随机森林中,每个决策树的训练数据都是通过采用有放回的随机抽样(bootstrap)从原始训练数据中选取的。
另外,在每个节点的划分过程中,随机森林通常只考虑一个随机选取的特征子集,而不是所有的特征。
最终的预测结果是通过对所有决策树的预测结果进行投票或平均得到。
随机森林的优点包括:-通过对多个决策树的集成,可以减少模型的方差,提高预测准确性;-能够处理高维数据和大量特征;-对于缺失值的处理相对鲁棒。
随机森林的缺点主要包括:-模型的解释性不如单棵决策树;-训练过程相对较慢,因为需要构建多个决策树;-在处理一些回归问题时,可能会出现预测结果过多集中于一部分数值的情况。
总结:决策树和随机森林在模型构建和应用方面有很多相似之处,都可以处理分类和回归问题。
但在实际应用中,可以根据具体情况选取适合的算法。
如果对模型的解释性要求更高,数据集样本量较小,可以选择决策树;如果需要更高的预测准确性,处理高维数据,可以选择随机森林。
同时,我们还可以通过调整决策树和随机森林的参数来提高模型性能,比如限制决策树的最大深度、调整随机森林中树的数量等。
《决策树与随机森林》课件

交叉验证
使用交叉验证来评估模型的泛化能力,以避 免过拟合。
随机森林的参数调整
1 2
决策树数量
调整决策树的数量,以找到最优的模型性能。
特征子集大小
调整在每一步分裂中选择的特征子集大小,以找 到最优的模型性能。
3
决策树深度
调整决策树的深度限制,以防止过拟合或欠拟合 。
05
决策树与随机森林的应用场景
分类问题
THANKS
感谢观看
随机森林的优缺点
可解释性强
每棵决策树都可以单独解释,有助于理解模型的工作原理。
鲁棒
对异常值和噪声具有较强的鲁棒性。
随机森林的优缺点
对参数敏感
随机森林中的参数如树的数量、特征选择比例等对模型性能影响较大。
可能产生过拟合
当数据集较小或特征过多时,随机森林可能产生过拟合。
04
随机森林算法
随机森林的生成
决策树的基本原理
特征选择
选择最能划分数据集的特征进行分裂,以减少决 策树的深度和复杂度。
剪枝
通过去除部分分支来降低过拟合的风险,提高模 型的泛化能力。
决策规则
将每个叶子节点映射到一个类别或值,根据该节 点所属类别或值进行预测。
决策树的优缺点
优点
易于理解和解释,分类效果好,对异常值和缺失值容忍度高 。
在构建每棵决策树时,随 机选择一部分特征进行划 分,增加模型的泛化能力 。
多样性
通过生成多棵决策树,增 加模型的多样性,降低过 拟合的风险。
集成学习
将多棵决策树的预测结果 进行汇总,利用投票等方 式决定最终输出,提高分 类任务的准确率。
随机森林的优缺点
高效
能够处理大规模数据集,计算效率高 。
决策树 随机森林 原理 与区别

决策树随机森林原理与区别
决策树和随机森林都是机器学习中常用的模型,它们都属于监督学习的范畴。
首先我们来看一下决策树的原理。
决策树是一种树形结构,用于决策分析。
它通过一系列的规则对数据进行分类或预测。
决策树的构建过程是一个递归地选择最优特征,并根据该特征对数据集进行划分的过程。
在构建决策树的过程中,通过对数据集进行划分,使得每个子集内的数据尽可能属于同一类别,从而实现对数据的分类和预测。
而随机森林是基于决策树构建的一种集成学习方法。
它通过构建多个决策树,并将它们进行组合来完成对数据的分类或预测。
随机森林的构建过程是通过对训练集进行有放回抽样,然后对每个子样本集构建一个决策树,最后将这些决策树进行组合,通过投票或取平均值的方式来进行分类或预测。
决策树和随机森林的区别在于,决策树是单个树形结构,它对数据进行分类或预测的能力受到树的深度和分裂规则的影响。
而随机森林是由多个决策树组成的集成模型,它通过对多个决策树的组合来提高整体模型的泛化能力和鲁棒性。
另外,随机森林在构建决策树的过程中引入了随机性,这样可以减小过拟合的风险,提高模
型的稳定性。
总的来说,决策树和随机森林都是常用的机器学习模型,它们都可以用于分类和预测任务。
决策树是单个树形结构,而随机森林是由多个决策树组成的集成模型,通过对多个决策树的组合来提高模型的性能。
在实际应用中,需要根据具体的问题和数据集的特点来选择合适的模型。
随机森林预测模型原理
随机森林预测模型原理随机森林是一种集成学习方法,它结合了决策树和随机性的特点。
随机森林可以应用于分类和回归问题,并在机器学习领域取得了广泛的应用。
在本文中,我们将介绍随机森林预测模型的原理和工作原理。
一、决策树为了更好地理解随机森林,首先需要了解决策树。
决策树是一种有监督学习算法,它根据特征的值进行分类或预测。
决策树由节点和边组成,每个节点表示一个特征或属性,边表示特征值的可能性。
在决策树中,我们根据特征的值将数据集划分为不同的子集,直到达到预定的终止条件。
决策树的一个显著特点是它能够对数据进行非线性建模。
它可以处理多个特征和类别,并且不需要对数据进行特定的假设。
然而,决策树容易过拟合和过度拟合,特别是在处理复杂的数据集时。
二、随机森林随机森林是由多个决策树构成的集成学习模型。
每个决策树都是独立训练的,它们之间没有关联。
随机森林通过对每个决策树的预测结果进行投票或取平均值来确定最终的预测结果。
随机森林的关键思想是引入随机性。
具体来说,随机森林在构建每个决策树时,会从原始数据集中随机选择一部分样本和特征进行训练。
这样做的好处是能够减少过拟合和提高模型的泛化能力。
三、随机森林的训练过程下面我们将介绍随机森林的训练过程。
假设我们有一个包含N个样本的训练集,每个样本有M个特征。
我们还需要选择每个决策树的数量和其他超参数。
1. 从训练集中随机选择B个样本(有放回地抽样),构建一个新的训练集。
这个新的训练集称为“bootstrap样本”。
2. 从M个特征中随机选择m个特征,构建一个新的特征集。
这个新的特征集称为“随机特征子集”。
3. 使用步骤1和步骤2得到的数据集,构建一个决策树。
在构建决策树的过程中,我们可以使用不同的分割准则(如基尼系数或信息增益)。
4. 重复步骤1到步骤3,直到构建了预定数量的决策树。
5. 对于分类问题,随机森林通过投票的方式来确定最终的预测结果。
对于回归问题,随机森林通过取平均值来确定最终的预测结果。
决策树与随机森林模型的比较与使用指南(五)
决策树与随机森林模型的比较与使用指南引言在机器学习领域,决策树和随机森林是两种常见的模型。
它们都属于监督学习中的分类和回归方法,可以被广泛应用于数据挖掘、预测分析等领域。
本文将比较决策树和随机森林的特点和优劣,并给出使用指南,帮助读者在实际问题中选择合适的模型。
决策树模型决策树是一种树形结构的分类器,它通过对属性进行划分来逐步构建树形结构,最终得到一个可用于预测的模型。
决策树的建立过程中,会根据数据集中的特征进行划分,直到满足停止划分的条件为止。
决策树模型具有可解释性强、易于理解和实现的优点,同时对异常值和缺失值具有较好的容忍性。
然而,决策树模型容易过拟合,对数据的噪声敏感,泛化能力较差。
随机森林模型随机森林是一种集成学习方法,它通过构建多棵决策树,并且随机选择特征进行划分,最终根据多棵树的投票结果得出最终的分类结果。
相比于单棵决策树,随机森林具有更好的泛化能力和抗过拟合能力,能够处理高维数据和大规模数据集。
随机森林模型在处理分类和回归问题时表现良好,但是由于需要构建多棵树,计算成本较高。
比较与使用指南对于决策树模型和随机森林模型的选择,需要根据具体问题和数据集的特点来决定。
如果数据集较小,且数据具有较好的线性可分性,可以考虑使用决策树模型,由于决策树容易理解和解释,适用于需要可解释性较强的场景。
而对于大规模数据集和高维特征,以及需要更好的泛化能力和抗过拟合能力的场景,随机森林模型更适合。
另外,对于数据集中存在缺失值和异常值的情况,由于决策树模型具有较好的容忍性,也可以考虑使用决策树模型。
在使用决策树和随机森林模型时,还需要注意一些问题。
首先是特征选择,对于决策树模型和随机森林模型,特征选择是影响模型性能的关键因素。
在构建决策树或随机森林时,需要选择合适的特征进行划分,以提高模型的准确性和泛化能力。
其次是模型参数的调优,对于随机森林模型来说,需要调优的参数相对较多,需要根据具体问题和数据集进行调优选择。
随机森林决策树训练过程
随机森林决策树训练过程
随机森林是一种集成学习方法,它由多个决策树组成,每棵树
都是独立训练的。
随机森林的训练过程可以分为以下几个步骤:
1. 数据准备,首先,需要准备训练数据集。
每个样本都包含多
个特征和一个标签,特征用来描述样本的属性,标签用来表示样本
的类别或者输出值。
2. 随机抽样,在训练每棵决策树时,从训练数据集中进行随机
抽样。
这种随机抽样的方法被称为自助采样法(bootstrap sampling),它可以保证每棵决策树的训练集都是有放回地从原始
训练集中抽取的,且大小与原始训练集相同。
3. 特征随机选择,在每个节点的决策过程中,随机选择一部分
特征进行考虑。
这样做的目的是为了降低各个决策树之间的相关性,增加随机性,提高模型的泛化能力。
4. 决策树训练,对于每棵决策树,使用随机抽样的训练集和随
机选择的特征集进行训练。
通常采用递归二分法构建决策树,选择
最佳的特征进行节点划分,直到满足停止条件(如节点样本数小于
阈值或树的深度达到预设值)为止。
5. 集成学习,训练多棵决策树后,将它们组合成随机森林。
在分类问题中,通常采用投票的方式确定最终的分类结果;在回归问题中,通常采用平均值的方式确定最终的预测结果。
总的来说,随机森林的训练过程就是通过构建多棵决策树,利用随机抽样和特征随机选择增加模型的多样性,然后通过集成学习将这些决策树组合起来,以取得更好的分类或回归性能。
这种方法能够有效地减少过拟合,提高模型的鲁棒性和泛化能力。
决策树与随机森林模型的比较与使用指南(Ⅰ)
决策树与随机森林模型的比较与使用指南在机器学习领域,决策树和随机森林是两种常见的分类和回归模型。
它们都可以用于处理结构化数据,如表格数据或特征向量。
本文将对决策树与随机森林这两种模型进行比较,并提供使用指南。
一、决策树决策树是一种树形结构的模型,用于表示各种可能的决策路径。
它通过对数据的特征进行递归分割,最终生成一个树状结构。
在决策树中,每个节点代表一个特征,每个分支代表一个可能的取值,而每个叶子节点代表一个类别或数值输出。
使用决策树模型时,可以根据特征的重要性来进行特征选择,也可以解释模型的预测结果。
此外,决策树模型对数据的缺失值和异常值有较强的鲁棒性,能够处理非线性关系和交互效应。
但是,决策树模型也存在一些缺点。
它容易过拟合,尤其是在处理高维数据时。
另外,决策树对数据的微小变化较为敏感,容易产生不稳定的结果。
二、随机森林随机森林是一种集成学习方法,通过构建多个决策树来进行分类或回归。
在随机森林中,每个决策树都是由对原始数据进行有放回抽样得到的不同训练集构建而成。
最终的预测结果是由所有决策树的预测结果取平均值或投票决定。
随机森林模型具有较高的准确率和泛化能力,对于大规模高维数据集也有很好的表现。
它能够有效地减少过拟合的风险,对噪声和异常值有一定的鲁棒性。
然而,随机森林模型也有一些缺点。
它对于数据集中的线性关系不够敏感,有时可能会产生较大的计算开销。
此外,由于随机森林模型的复杂性,对于模型的解释相对困难。
三、如何选择在选择模型时,可以根据实际的问题和数据情况来进行权衡。
如果数据集较小,并且希望得到模型的解释和可视化结果,可以选择决策树模型。
如果数据集较大,并且追求更高的准确率和泛化能力,可以选择随机森林模型。
另外,在使用随机森林模型时,可以通过调节决策树的数量、树的深度和特征的个数等超参数来优化模型的性能。
在训练过程中,还可以通过交叉验证等方法来评估模型的性能,并进行模型选择。
总之,决策树和随机森林是两种常见的机器学习模型,它们各自具有一定的优势和不足。
- 1、下载文档前请自行甄别文档内容的完整性,平台不提供额外的编辑、内容补充、找答案等附加服务。
- 2、"仅部分预览"的文档,不可在线预览部分如存在完整性等问题,可反馈申请退款(可完整预览的文档不适用该条件!)。
- 3、如文档侵犯您的权益,请联系客服反馈,我们会尽快为您处理(人工客服工作时间:9:00-18:30)。
Bagging的策略
bootstrap aggregation 从样本集中重采样(有重复的)选出n个样本 在所有属性上,对这n个样本建立分类器
(ID3、C4.5、CART、SVM、Logistic回归等) 重复以上两步m次,即获得了m个分类器 将数据放在这m个分类器上,最后根据这m
个分类器的投票结果,决定数据属于哪一类
剪枝 随机森林
34
Bootstraping
Bootstraping的名称来自成语“pull up by your own bootstraps”,意思是依靠你自己的资源,称为自助 法,它是一种有放回的抽样方法。
注:Bootstrap本义是指高靴子口后面的悬挂物、小环、 带子,是穿靴子时用手向上拉的工具。“pull up by your own bootstraps”即“通过拉靴子让自己上升”,意思是 “不可能发生的事情”。后来意思发生了转变,隐喻 “不需要外界帮助,仅依靠自身力量让自己变得更好”。
目标任务与主要内容
复习信息熵
熵、联合熵、条件熵、互信息
决策树学习算法
信息增益 ID3、C4.5、CART
Bagging与随机森林的思想
投票机制
分类算法的评价指标
ROC曲线和AUC值
1
决策树与随机森林
邹博
北京10月机器学习班 & ML在线公开课第1期
2015年1月11日
决策树的实例(Weka自带测试数据)
C4.5:信息增益率 gr(D,A) = g(D,A) / H(A) CART:基尼指数 总结:一个属性的信息增益越大,表明属性对样本
的熵减少的能力更强,这个属性使得数据由不确定 性变成确定性的能力越强。
23
决策树的例子
对于下面的数据,希望分割成红色和绿色两 个类
24
决策树的生成过程
25
18
信息增益的计算方法
计算数据集D的经验熵
K
HD
Ck
loC gk
k1 D D
计算特征A对数据集D的经验条件熵H(D|A)
计算信息增益:g(D,A)=H(D) – H(D|A)
19
经验条件熵H(D|A)
H D | A p D k , A i log p D k | A i i,k
x,y
y
p ( x, y ) log p ( x, y ) p ( x, y ) log p ( y )
x,y
y x
p ( x, y ) log p ( x, y ) p ( x, y ) log p ( y )
x,y
x,y
p ( x, y ) log p ( x , y )
一般的,D(p||q) ≠D(q||p) D(p||q)≥0、 D(q||p) ≥0 提示:凸函数中的Jensen不等式
8
互信息
两个随机变量X,Y的互信息,定义为X,Y 的联合分布和独立分布乘积的相对熵。
I(X,Y)=D(P(X,Y) || P(X)P(Y))
I(X,Y) p(x,y)logp(x,y)
x,y
p(x, y) p(x) p( y)
p ( x , y ) log p ( x ) p ( x , y ) log p ( x , y )
x,y
x,y
p(x) p( y)
p ( x , y ) log p ( x , y )
x,y
p(y)
p ( x , y ) log p ( x | y )
注:Weka的全名是怀卡托智能分析环境(Waikato Environment for Knowledge Analysis),是一款免费的,非 商业化(与之对应的是SPSS公司商业数据挖掘产品-Clementine )的,基于JAVA环境下开源的机器学习 (machine learning)以及数据挖掘(data minining)软件。它 和它的源代码可在其官方网站下载。
决定数据属于哪一类
40
应用实例:Kinect
Real-Time Human Pose Recognition in Parts from Single Depth Images, Jamie Shotton etc,2001,
41
随机森林/Bagging和决策树的关系
当然可以使用决策树作为基本分类器 但也可以使用SVM、Logistic回归等其他分
x,y
H (X |Y )
10
整理得到的等式
H(X|Y) = H(X,Y) - H(Y) 条件熵定义
H(X|Y) = H(X) - I(X,Y) 根据互信息定义展开得到 有些文献将I(X,Y)=H(Y) – H(Y|X)作为互信息的定义式
对偶式 H(Y|X)= H(X,Y) - H(X) H(Y|X)= H(Y) - I(X,Y)
基本记号
设训练数据集为D,|D|表示其容量,即样本 个数。设有K个类Ck,k=1,2,…,K,|Ck|为属 于类Ck的样本个数。Σk|Ck|=|D|。设特征A有 n个不同的取值{a1,a2…an},根据特征A的取 值将D划分为n个子集D1,D2,…Dn,|Di|为Di的 样本个数,Σi|Di|=D。记子集Di中属于类Ck 的样本的集合为Dik,|Dik|为Dik的样本个数。
决策树的生成过程
26
决策树的生成过程
27
决策树的生成过程
28
决策树的生成过程
29
决策树的生成过程
30
决策树的生成过程
31
决策树的生成过程
32
决策树的生成过程
33
决策树的过拟合
决策树对训练属于有很好的分类能力,但对 未知的测试数据未必有好的分类能力,泛化 能力弱,即可能发生过拟合现象。
显然,属于有监督学习。 从一类无序、无规则的事物(概念)中推理出决策
树表示的分类规则。
15
决策树学习的生成算法
建立决策树的关键,即在当前状态下选择哪 个属性作为分类依据。根据不同的目标函数, 建立决策树主要有一下三种算法。
ID3 C4.5 CART
16
信息增益
概念:当熵和条件熵中的概率由数据估计(特别是 极大似然估计)得到时,所对应的熵和条件熵分别 称为经验熵和经验条件熵。
p A i p D k | A i log p D k | A i
i,k
nK
p A i p D k | A i log p D k | A i i1 k 1
n
K
p A i p D k | A i log p D k | A i
i1
k 1
n
Di
4
对熵的理解
熵是随机变量不确定性的度量,不确定性越 大,熵值越大;若随机变量退化成定值,熵 为0
均匀分布是“最不确定”的分布
熵其实定义了一个函数(概率分布函数)到一 个值(信息熵)的映射。
P(x)H (函数数值) 泛函
回忆一下关于“变分推导”章节中对于泛函的内容。
5
联合熵和条件熵
两个随机变量X,Y的联合分布,可以形成 联合熵Joint Entropy,用H(X,Y)表示
中灰色线是其中的10条曲线) 将这些曲线取平均,即得到红色的最终拟合曲线 显然,红色的曲线更加稳定,并且没有过拟合明显减弱
44
附:局部加权线性回归
LWR:Locally Weighted linear Regression LOESS : LOcal regrESSion
45
附:线性回归与局部加权回归
3
复习:熵
将离散随机变量X的概率分布为P(X=xi),则定义熵
为:
HXx Xpxlogp1 x
若P为连续随机变量,则概率分布变成概率密度函 数,求和符号变成积分符号。
在不引起混淆的情况下,下面谈到的“概率分布函 数”,其含义是:
1、若X为离散随机变量,则该名称为概率分布函数; 2、若X为连续随机变量,则该名称为概率密度函数。
x,y
p(y)
p ( x, y ) log p ( x | y )
x,y
7
相对熵
相对熵,又称互熵,交叉熵,鉴别信息,Kullback 熵,Kullback-Leible散度等
设p(x)、q(x)是X中取值的两个概率分布,则p对q的 相对熵是
说明:
相对熵可以度量两个随机变量的“距离” 在“贝叶斯网络”、“变分推导”章节使用过
H(X,Y) – H(Y)
(X,Y)发生所包含的信息熵,减去Y单独发生包 含的信息熵——在Y发生的前提下,X发生“新” 带来的信息熵
该式子定义为Y发生前提下,X的熵:
条件熵H(X|Y) = H(X,Y) – H(Y)
6
推导条件熵的定义式
H ( X ,Y ) H (Y )
p ( x, y ) log p ( x, y ) p ( y D ik log D ik
Di
Di
20
其他目标
信息增益率:gr(D,A) = g(D,A) / H(A) 基尼指数:
K
K
Ginippk1 pk 1 pk2
k1
k1
1
K
k1
Ck D
2
21
讨论(一家之言)
考察基尼指数的图像、熵、分类误差率三者 之间的关系
将f(x)=-lnx在x0=1处一阶展开,忽略高阶无穷小, 得到f(x)≈1-x
K
H X pk ln pk k 1 K
pk 1 pk k 1
22
三种决策树学习算法
适应信息增益来进行特征选择的决策树学习过程, 即为ID3决策。
所以如果是取值更多的属性,更容易使得数据更 “纯” ,其信息增益更大,决策树会首先挑选这个 属性作为树的顶点。结果训练出来的形状是一棵庞 大且深度很浅的树,这样的划分是极为不合理的。