决策树原理与应用:C5.0
简述决策树法的原理及应用

简述决策树法的原理及应用1. 决策树法的原理决策树法是一种基本的机器学习算法,它通过构建一个树状模型来解决分类和回归问题。
决策树模型通过对输入数据进行递归划分,使得每个划分子空间内的数据具有相同的类别或回归值,从而能够对未知样本进行预测。
决策树的构建过程可以总结为以下几个步骤:1.特征选择:选择最优的特征来进行划分,以实现最佳的分类或回归效果。
常用的特征选择方法包括信息增益、信息增益比、基尼指数等。
2.树的生长:从根节点开始,根据选择的特征进行划分,生成子节点,然后递归地对子节点执行相同的过程,直到满足终止条件。
3.终止条件:可以通过设置树的最大深度、节点的最小样本数等条件来终止树的生长过程。
4.类别或回归值的确定:当所有的划分过程结束后,树的叶节点上将标记具体的类别或回归值。
决策树的优点包括易于理解和解释、能够处理缺失值和异常值、能够处理混合数据等。
但是,决策树也存在过拟合问题和稳定性较差的缺点,这些问题可以通过剪枝等方法来进行改进。
2. 决策树法的应用决策树法在实际应用中具有广泛的应用场景,包括以下几个方面:2.1 分类问题决策树法可用于解决分类问题,通过训练数据集来构建决策树模型,然后使用该模型来对未知样本进行分类预测。
例如,可以使用决策树方法来预测一个电商网站上的用户是否购买某个产品,或者预测一个病人是否患有某种疾病。
2.2 回归问题除了分类问题,决策树法还可以用于解决回归问题。
在回归问题中,决策树用于预测连续变量的值。
例如,可以使用决策树方法来预测房价、股票价格等连续变量。
2.3 特征选择决策树方法还可以用于特征选择,即确定对于分类或回归问题最重要的特征。
通过分析决策树模型中特征的重要性,可以选择最具有区分度的特征,从而提高预测的准确性。
2.4 数据挖掘决策树法在数据挖掘中被广泛应用。
通过分析大量的数据,决策树方法可以从数据中发现隐藏的模式和关联规则,从而辅助决策和预测。
例如,在市场营销中可以利用决策树方法来挖掘用户的行为模式,优化推荐系统。
机器学习中的决策树算法原理及应用

机器学习中的决策树算法原理及应用随着大数据时代的来临,机器学习作为一种重要的技术手段被越来越广泛地应用在各个领域,如自然语言处理、图像识别、数据挖掘等。
而在机器学习算法中,决策树算法是一种简单而又有效的分类和预测算法,被广泛用于数据挖掘和统计学习中。
本文将介绍决策树算法的原理及应用。
一、决策树算法原理决策树是一种分类模型,其中每个内部节点表示一个属性上的判断,每个分支代表一个判断结果的输出,每个叶节点代表一种决策结果。
在决策树算法中,节点的选择是基于最佳分割原则,以最小化表征数据的不纯度为目标。
决策树算法最常用的不纯度度量包括信息熵、基尼系数和分类误差率。
下面详细介绍这些概念。
1.1 信息熵信息熵是度量样本集合纯度的指标,它表示集合的混乱程度,熵值越大则集合的纯度越低。
考虑一个二分类问题,假定样本集合由p个正样本和n个负样本组成,则样本集合的信息熵定义为:$E(x)=-p(x)\log_2p(x)-n(x)\log_2n(x)$其中$p(x)=\frac{p}{p+n},n(x)=\frac{n}{p+n}$信息熵越小,样本集合的纯度越高,表示决策树的分类能力越好。
1.2 基尼系数基尼系数是度量样本集合不纯度的一种指标,它表示从样本集合中随机选取两个样本,并根据它们的类别标签对样本集合进行划分时,集合不纯度的期望值。
基尼系数的定义如下:$Gini(x)=\sum_{k=1}^{|y|}\sum_{k'\neq k}p(k,x)p(k',x)=1-\sum_{k=1}^{|y|}(p(k,x))^2$其中$|y|$是类别的个数,$p(k,x)$是条件概率估计,表示样本属于类别k且属性x成立的概率。
基尼系数的取值范围在0到1之间,基尼系数越小,则样本集合的不纯度越低,表示分类效果越好。
1.3 分类误差率分类误差率是度量样本集合不纯度的一种指标,表示在样本集合中,分类错误的样本占总样本数的比例。
简述决策树法的原理及其应用实例

简述决策树法的原理及其应用实例1. 决策树法的原理决策树法是一种常用的机器学习算法,通过构建树形结构来做出决策。
其原理基于简单的问题和答案,通过有序地提出问题和根据问题的回答进行分支选择的方式来逐步确定结果。
决策树的构建过程主要包括以下几个步骤:1.1 特征选择在构建决策树中,首先需要选择最佳划分特征。
特征选择的目标是要选择能够将样本集合尽可能均匀划分的特征。
常用的特征选择准则有信息增益、信息增益比、基尼系数等。
1.2 决策树的生成决策树的生成过程是递归地构建决策树的过程。
从根节点开始,根据特征选择的结果将样本集合划分为不同子集,然后针对每个子集递归地构建决策树,直到满足终止条件为止。
1.3 决策树的剪枝决策树构建完成后,通常会对决策树进行剪枝处理,以降低过拟合的风险。
剪枝包括预剪枝和后剪枝两种方式,其中预剪枝是在决策树构建过程中判断是否进行已知分支的准备工作,而后剪枝则是在决策树构建完成后对决策树进行修剪。
2. 决策树法的应用实例决策树法可以应用于很多领域,以下是决策树法在几个典型领域中的应用实例:2.1 金融风控决策树法可以用于金融风控中的信用评估。
通过分析客户的个人信息和信用历史等数据,构建决策树模型,从而预测客户的信用风险,并据此判断是否给予贷款。
决策树模型的透明度和较好的解释性使其在金融行业中得到广泛应用。
2.2 医疗诊断决策树法可以用于医疗领域的疾病诊断。
通过分析患者的临床特征、病史等数据,构建决策树模型,从而预测患者的疾病风险,并据此辅助医生进行准确的诊断和治疗。
决策树模型的可解释性和易于理解的特点使得医生和患者都能够更好地理解诊断结果。
2.3 电商推荐决策树法可以用于电商领域的个性化推荐。
通过分析用户的浏览历史、购买习惯等数据,构建决策树模型,根据用户的特征进行个性化的商品推荐,从而提高用户的购物体验和购买率。
决策树模型的可解释性和规则的直观性使得个性化推荐更加符合用户的喜好和需求。
决策树的原理及应用

决策树的原理及应用1. 决策树的原理决策树是一种基于树结构的机器学习算法,它通过对数据集进行划分和属性选择来进行分类或回归分析。
决策树的原理包括以下几个核心概念:•节点:决策树由节点组成,每个节点表示一个属性或特征。
•分支:节点之间通过分支连接,分支表示不同属性值或特征值之间的关系。
•根节点:决策树的根节点是整个决策树的起始点。
•内部节点:除了根节点外,其他的节点称为内部节点。
•叶节点:叶节点是决策树的最终结果,代表分类或回归的结果。
决策树的构建过程是一个递归的过程,通过选择最优的属性进行划分,使得划分后的子集尽量纯净。
具体的构建过程如下:1.选择最优属性:根据某种准则(如信息增益、基尼系数等),选择最优的属性作为根节点;2.划分子集:根据选定的属性,将数据集划分成多个子集,每个子集对应一个属性值或特征值;3.递归构建:对每个子集递归地执行步骤1和步骤2,构建出一颗完整的决策树;4.剪枝处理:从下往上进行剪枝处理,去除一些不必要的节点,以减少过拟合的可能性。
2. 决策树的应用决策树算法在数据挖掘和机器学习领域得到了广泛的应用,常见的应用包括分类和回归分析。
以下是决策树应用的几个典型场景:•银行信用评估:决策树可以根据客户的个人信息和征信记录,判断其是否具备贷款资格;•疾病诊断:决策树可以根据患者的症状和体检指标,预测其是否患有某种疾病;•市场营销:决策树可以根据客户的消费习惯和购买历史,对客户进行分类,以便进行精准营销;•信用卡盗刷检测:决策树可以根据用户的消费行为和交易记录,预测是否存在信用卡盗刷行为;•商品推荐:决策树可以根据用户的购买历史和评价信息,为用户推荐适合的商品。
3. 决策树的优缺点决策树算法具有以下优点:•可解释性强:决策树模型的每个节点代表了一个简单的规则,易于理解和解释。
•适应多种数据类型:决策树可以处理离散型和连续型数据,也可以处理多分类问题和回归问题。
•对异常值不敏感:决策树算法对于异常值不敏感,能够处理含有噪音的数据。
决策树原理和简单例子

决策树原理和简单例子决策树是一种常用的机器学习算法,它可以用于分类和回归问题。
决策树的原理是基于一系列的规则,通过对特征的判断来对样本进行分类或预测。
下面将通过原理和简单例子来介绍决策树。
1. 决策树的原理决策树的构建过程是一个递归的过程,它将样本集合按照特征的不同取值分割成不同的子集,然后对每个子集递归地构建决策树。
构建决策树的过程是通过对特征的选择来确定每个节点的划分条件,使得信息增益或信息增益比最大。
2. 决策树的构建假设有一个分类问题,样本集合包含n个样本,每个样本有m个特征。
决策树的构建过程如下:(1) 若样本集合中的样本都属于同一类别,则构建叶子节点,并将该类别作为叶子节点的类别标签。
(2) 若样本集合中的样本特征为空,或者样本特征在所有样本中取值相同,则构建叶子节点,并将该样本集合中出现次数最多的类别作为叶子节点的类别标签。
(3) 若样本集合中的样本特征不为空且有多个取值,则选择一个特征进行划分。
常用的划分方法有信息增益和信息增益比。
(4) 根据选择的特征的不同取值将样本集合划分成多个子集,对每个子集递归地构建决策树。
(5) 将选择的特征作为当前节点的判断条件,并将该节点加入决策树。
3. 决策树的例子假设有一个二分类问题,样本集合包含10个样本,每个样本有2个特征。
下面是一个简单的例子:样本集合:样本1:特征1=0,特征2=1,类别=1样本2:特征1=1,特征2=1,类别=1样本3:特征1=0,特征2=0,类别=0样本4:特征1=1,特征2=0,类别=0样本5:特征1=1,特征2=1,类别=1样本6:特征1=0,特征2=0,类别=0样本7:特征1=1,特征2=0,类别=0样本8:特征1=0,特征2=1,类别=1样本9:特征1=1,特征2=1,类别=1样本10:特征1=0,特征2=1,类别=1首先计算样本集合的信息熵,假设正样本和负样本的比例都是1:1,信息熵为1。
选择特征1进行划分,计算信息增益:对于特征1=0的样本,正样本有2个,负样本有2个,信息熵为1。
决策树算法详解及应用场景分析

决策树算法详解及应用场景分析随着数据量的不断增大,如何从中发掘出有价值的信息成为各个领域所面临的难题。
此时,决策树算法应运而生。
决策树是一种基于树结构来进行分类和预测的机器学习算法,已被广泛应用于金融、医疗、电子商务、社交网络等领域。
本文将详细介绍决策树算法的原理、优缺点及应用场景等内容。
一、决策树算法原理决策树是一种树形结构,其中每个内部结点表示一个测试属性,每个分支表示这个属性的一个可能的值,每个叶子结点表示一个类或类分布。
该树将数据集划分为多个子集,以递归的方式进行分类,同时每次对数据集进行划分的方法旨在最大限度地减少分类的正误差。
具体步骤如下:1. 从根节点开始,选择一个最优的属性进行测试,将数据集按照该属性的不同取值分成若干个子集。
2. 对于每个子集,重复1过程,直到子集内的数据可以被完美分类或无法继续划分为止,此时生成一个叶子结点,并标记其所属类别。
3. 对新的未知数据进行预测。
将该数据从根节点开始,依次通过测试,遇到叶子结点即为其预测值。
二、决策树算法优缺点(一)优点1. 可以处理各种数据类型,包括离散型和连续型。
2. 可以自动处理数据缺失的情况,并且不会影响算法的效果。
3. 生成的决策树易于理解和解释,可以通过图形化的方式展示在界面上。
4. 对于相对于训练数据的规模而言,决策树生成的速度比较快。
(二)缺点1. 决策树容易出现过拟合的情况,从而导致对新数据的泛化能力不足。
2. 在处理高维度的数据时,效果不如其他算法,容易出现“维数灾难”现象。
3. 在处理连续值型数据时容易出现过于复杂的波浪形状,从而导致难以解释和理解。
三、决策树算法应用场景1. 监督学习场景下的分类问题。
例如:银行可以使用决策树算法将客户分为高风险和低风险,以更好地进行信贷授信。
2. 监督学习场景下的回归问题。
例如:金融业可以使用决策树算法预测股票的价格波动情况。
3. 特征选择。
决策树具有自动选择重要特征的能力,可以用于特征选择、数据降维等方面的应用。
决策树的原理和应用场景

决策树的原理和应用场景1. 决策树的原理决策树是一种常用的机器学习算法,它基于树形结构进行决策的判断。
决策树的原理可以概括为以下几个步骤:•步骤 1:选择最佳的切分属性。
根据训练数据集,计算每个属性的切分点,选择最佳的切分属性作为根节点。
•步骤 2:切分数据集。
根据选择的切分属性,将数据集划分为不同的分支,每个分支对应一个属性值。
•步骤 3:递归构建子树。
对每个分支,继续重复步骤 1 和步骤 2,直到达到终止条件。
•步骤 4:决策树的剪枝。
决策树的过拟合问题是常见的挑战,剪枝是一种常用的策略来处理这个问题。
2. 决策树的应用场景决策树广泛应用于各个领域,包括以下几个方面:2.1 金融行业•风险评估:决策树可以根据用户的贷款记录、资产状况等数据,进行风险评估,帮助银行或其他金融机构决策是否给予贷款。
•欺诈检测:通过分析用户的交易数据,决策树可以快速检测异常交易行为,帮助金融机构及时发现欺诈行为。
2.2 医疗健康•疾病诊断:决策树可以根据患者的症状、化验结果等数据,辅助医生进行疾病诊断,提供治疗建议。
•药物选择:决策树可以根据患者的疾病类型、身体情况等数据,辅助医生选择合适的药物治疗。
2.3 销售与市场•客户分类:决策树可以根据客户的消费行为、购买历史等数据,将客户分为不同的分类,帮助企业制定精准营销策略。
•产品推荐:根据用户的兴趣、购买历史等数据,决策树可以预测用户的喜好,从而推荐适合其的产品或服务。
2.4 电子商务•商品排序:决策树可以根据用户的搜索关键词、历史购买记录等数据,对商品进行排序,提供个性化的搜索结果。
•评论情感分析:通过分析用户对商品的评论内容,决策树可以判断用户的情感倾向,从而帮助商家评估商品的质量。
3. 总结决策树作为一种常用的机器学习算法,具有简单直观、易于解释、能处理多类别问题等优点,因此在各个领域都得到了广泛的应用。
无论是金融行业中的风险评估,还是医疗健康领域的疾病诊断,决策树都能够提供有价值的决策支持。
决策树算法的原理及其分类应用场景

决策树算法的原理及其分类应用场景决策树算法是机器学习中最基础的算法之一。
它模拟人类决策的过程,将复杂的问题划分成多个简单的子问题去解决。
本文将介绍决策树算法的原理及其常见的聚类应用场景。
一、决策树算法的原理决策树算法是一种分类以及回归分析的方法。
它可以处理具有两个或多个决策结果的问题。
决策树算法使用树状图模型表示各种可能的决策以及每种决策的可能结果。
它使用特定的分析方法来建立一棵决策树,可以决定哪个属性在决策一系列有用的问题时是最重要的。
1、特征选择决策树算法的第一步是数据的预处理,包括数据清洗、归一化等,而特征选择是最重要的环节。
特征选择是指从训练数据中选择一个最佳的特征集,以使得决策树建立后能保证最佳的决策准确性和泛化能力。
2、建立决策树在特征选择之后,决策树算法建立一个若干节点的树,节点间通过有向边连接,树的叶子节点表示分类结果。
决策树的建立使用一种自顶向下贪心的策略。
具体来说,从根节点开始,根据某个属性的信息熵,选择最优属性以及对应的属性值,将所有样本分为两部分构建子集,然后递归地对子集构建一个子树。
不断递归直至没有样本或样本均属于同一类别。
3、决策树剪枝为了避免过拟合,通常需要将决策树进行剪枝,即去掉一些不必要的节点或子树。
在剪枝的过程中,可以采用预剪枝和后剪枝两种方式。
预剪枝是在树的构建过程中,根据一定的规则判断是否应该在当前节点继续递归下去,而后剪枝是在树构建完成之后,通过对已有节点以及子树的删除以及合并来达到剪枝的目的。
二、决策树算法的应用场景决策树算法可以处理具有离散变量和连续变量的数据,分类和回归任务都可以使用它来完成。
它在许多领域都有广泛的应用,以下是几个常见的应用场景。
1、医疗诊断在医疗诊断中,决策树算法可以通过患者的症状、生理指标等信息,构建出一颗决策树用于诊断疾病。
决策树中的节点表示各种症状,而叶子节点则表示各种疾病。
2、金融风控在金融风控中,决策树可以通过对客户的信用、资产以及其他信息进行判断,来预测是否会发生违约、逾期等情况。
- 1、下载文档前请自行甄别文档内容的完整性,平台不提供额外的编辑、内容补充、找答案等附加服务。
- 2、"仅部分预览"的文档,不可在线预览部分如存在完整性等问题,可反馈申请退款(可完整预览的文档不适用该条件!)。
- 3、如文档侵犯您的权益,请联系客服反馈,我们会尽快为您处理(人工客服工作时间:9:00-18:30)。
决策树原理与应用:C5.0分类预测指通过向现有数据的学习,使模型具备对未来新数据的预测能力。
对于分类预测有这样几个重要,一是此模型使用的方法是归纳和提炼,而不是演绎。
非数据挖掘类的软件的基本原理往往是演绎,软件能通过一系列的运算,用已知的公式对数据进行运算或统计。
分类预测的基本原理是归纳,是学习,是发现新知识和新规律;二是指导性学习。
所谓指导性学习,指数据中包含的变量不仅有预测性变量,还有目标变量;三是学习,模型通过归纳而不断学习。
事实上,预测包含目标变量为连续型变量的预测和目标变量为分在变量的分类预测。
两者虽然都是预测,但结合决策树算法和我们之前介绍过的时间序列算法知,二者还是有明显的差别的。
Clementine决策树的特点是数据分析能力出色,分析结果易于展示。
决策树算法是应用非常广泛的分类预测算法。
1.1决策树算法概述1.11什么是决策树决策树算法属于有指导的学习,即原数据必须包含预测变量和目标变量。
决策树之所以如此命名,是因为其分析结果以一棵倒置的树的形式呈现。
决策树由上到下依次为根节点、内部节点和叶节点。
一个节点对应于数据中的一个字段,即一个字段——即Question——对数据进行一次划分。
决策树分为分类决策树(目标变量为分类型数值)和回归决策树(目标变量为连续型变量)。
分类决策树叶节点所含样本中,其输出变量的众数就是分类结果;回归树的叶节点所含样本中,其输出变量的平均值就是预测结果。
这一点需要格外注意。
与其它分类预测算法不同的是,决策树基于逻辑比较(即布尔比较)。
可以简单描述为:If(条件1)Then(结果1);If (条件2)Then(结果2)。
这样,每一个叶节点都对应于一条布尔比较的推理规则,对新数据的预测就正是依靠这些复杂的推理规则。
在实际应用中,一个数据产生的推理规则是极为庞大和复杂的,因此对推理规则的精简是需要关注的。
1.12决策树的几何理解将训练样本集(即操作中常说的Training Data)看做一个n维空间上的一个点,则上面我们提到的布尔比较后的推理规则就像是存在于这个n维空间中的“线”。
决策树建立的过程形象上看,就是倒置的树生长的过程,其几何意义上是,每个分枝(每条推理规则)完成对n维空间区域划分的过程。
决策树正式生成,则n维空间正式划分完毕,则每一个小区域,代表一个叶节点。
通常n 维空间不易于理解,故采用倒置的树来表示此结果。
需要注意的一点是,在划分过程中,要尽量做到不同类别的结果归于不同的“区域”。
1.13决策树的核心问题:生成与修剪决策树核心问题有二。
一是利用Training Data完成决策树的生成过程;二是利用Testing Data完成对决策树的精简过程。
即前面我们提到的,生成的推理规则往往过多,精简是必需的。
一、决策树的生长决策树生长过程的本质是对Training Data 反复分组(分枝)的过程,当数据分组(分枝)不再有意义——注意,什么叫分组不再有意义——时,决策树生成过程停止。
因此,决策树生长的核心算法是确定数据分析的标准,即分枝标准。
何为有意义呢?注意,当决策树分枝后结果差异不再显著下降,则继续分组没有意义。
也就是说,我们分组的目的,是为了让输出变量在差异上尽量小,到达叶节点时,不同叶节点上的输出变量为相同类别,或达到用户指定的决策树停止生成的标准。
这样,分枝准则涉及到两方面问题:1、如果从众多输入变量中选择最佳分组变量;2、如果从分组变量的众多取值中找到最佳分割点。
不同的决策树算法,如C4.5、C5.0、Chaid、Quest、Cart采用了不同策略。
二、决策树的修剪完整的决策树并不是一棵分类预测新数据对象的最佳树。
其原因是完整的决策树对Training Data描述过于“精确”。
我们知道,随着决策树的生长,决策树分枝时所处理的样本数量在不断减少,决策树对数据总体珠代表程度在不断下降。
在对根节点进行分枝时,处理的是全部样本,再往下分枝,则是处理的不同分组下的分组下的样本。
可见随着决策树的生长和样本数量的不断减少,越深层处的节点所体现的数据特征就越个性化,可能出现如上推理规则:“年收入大于50000元且年龄大于50岁且姓名叫张三的人购买了此产品”。
这种过度学习从而精确反映Training Data 特征,失去一般代表性而无法应用于新数据分类预测的现象,叫过度拟合(Overfitting)或过度学习。
那我们应该怎么办呢?修剪!常用的修剪技术有预修剪(Pre-Pruning)和后修剪(Post-Pruning)。
Pre-Pruning可以事先指定决策树的最大深度,或最小样本量,以防止决策树过度生长。
前提是用户对变量聚会有较为清晰的把握,且要反复尝试调整,否则无法给出一个合理值。
注意,决策树生长过深无法预测新数据,生长过浅亦无法预测新数据。
Post-pruning是一个边修剪边检验的过程,即在决策树充分生长的基础上,设定一个允许的最大错误率,然后一边修剪子树,一边计算输出结果的精度或误差。
当错误率高于最大值后,立即停止剪枝。
基于Training Data的Post-Pruning应该使用Testing Data。
决策树中的C4.5、C5.0、CHAID、CART 和QUEST都使用了不同剪枝策略。
2.2Clementine的C5.0的算法及应用C5.0是C4.5的商业化版本,因此算法细节因版权问题尚未公开,本节讨论的是与C5.0算法核心相同的C4.5算法。
C4.5是在决策树老鼻祖算法ID3算法的基础上发展起来的,ID3算法自1979年由Quinlan提出,经不断改善形成具有决策树里程碑意义的C4.5算法。
需要注意的是C5.0用于生成多分支决策树,输入变量可以是分类型,也可以是数值型,输出变量为分类型。
注意不同的决策树算法对输入和输出数据类型的要求。
正如1.1节提到的,决策树的核心问题之一是决策树分枝准则的确定。
C5.0以信息增益率为标准确定最佳分组变量和最佳分割点。
其核心概念是信息熵。
1.2.1信息熵和信息增益一、信息熵信息熵是信息论中的基本概念。
信息论由Shannon于1948年提出并发展起来,用于解决信息传递过程中的问题,也称统计通信理论。
它认为:1、信息传递由信源、信道和信宿组成;2、传递系统存在于一个随机干扰环境中,因此传递系统对信息的传递是随机误差的。
如果把发送信息记为U而接收到信息记V,由信道可记为通信模型,为P(U|V)。
信道模型是一个条件概率矩阵P(U|V)。
信道模型可以看作是一个条件概率矩阵,信源也往往被理解为某种随机序列,也具有某种发生概率,且其概率求和为1。
在实际通信前,信宿信源会发出什么信息不可能知道,称为信宿对信源状态具有不确定性,由于这种不确定性是发生在通信之前的,故称为先验不确定性。
在收到信息后的不确定性,称为后验不确定性。
如果先验不确定性等于后验不确定性,则表示信息量为零;如果后验不确定性等于零,则表示信宿收到了信源的全部信息。
可见:信息是指对不确定性的消除。
信息量由消除的不确定性来确定。
数据定义为:-Log2P(Ui)。
信息量单位是bit,是以2为底的对数形式。
信息熵是信息量的数学期望,其表示式由于过于复杂而不写。
如果P(U)差别越小,信息熵越大,平均不确定性越大;P(U)差别越在,信息熵越小,平均不确定性越小。
如:信息熵等于0,则表示只存在一种信息发送可能,没有发送的不确定性。
如果P(U)=1/K,即K个信源概率相同,则信息熵差别最大,不确定性最大。
二、信息增益信息熵又称为先验熵,是在信息发送前信息量的数学期望;后验熵指在信息发送后,人信宿角度对信息量的数学期望。
一般先验熵大于后验熵,先验熵与后验熵估差,即所谓的信息增益。
信息增益,反映的是信息消除随机不确定性的程度。
2.2.2 C5.0的决策树生长算法一、如何从众多的分组变量中选择一个最佳的分组变量C5.0以信息论为指导,以信息增益率为标准确定最佳分组变量和分割点。
决策树将输出变量(是否购买)看做信源发出的信息U,将输入变量看成信宿收到的信息V。
则在实际通信之前,也即是决策树建立之前,输出变量做为信源发出的信息,完全随机,其平均不确定性即为P0.在实际通信过程中添加变量1后,其平均不确定性为P1,则添加变量1产生的信息增益为P0-P1,其它变量如此。
则根据信息增益大小判断哪个变量为最佳分组变量。
这里有个问题,即类别值多的输入变量较类别值少的输入变量更有机会成为最佳分组变量。
为解决此问题,提出将信息增益量除以信息熵,由抵消了类别值的影响,即有信息增益率来表征。
那么,如何评价数值型输入变量消除平均不确定性的能力呢?一般对其进行分箱处理,然后根据上述方法判定。
分箱不采用了MDLP的熵分组方法,Clementine中C5.0节点本身包含了MDLP算法,它将自动完成数值型输入变量的分箱处理。
二、输入变量带有缺失值时如何选择最佳分组变量C5.0在选择最佳分组变量时,通常将带有缺失值的样本当作临时剔除样本看待,并进行权数调整处理。
三、如何从分组变量的众多取值中找到一个最佳的分割点在确定了最佳分组变量后,C5.0将继续确定最佳分组变量的分割点。
如果分组变量是分类型变量,由按分组变量的K个取值进行分组,形成K个分枝。
如果分组变量是数值型变量,则先通过MDLP分箱法或ChiMerge分箱法进行分箱处理,然后分组。
如果分组变量中存在缺失值,那怎么办呢?你无法判定此样本分到哪个组中去,C5.0的处理是将其分到所有组中去。
但其权重不再为1,而为此组样本数占总样本数的比例。
2.2.3 C5.0的剪枝算法C5.0采用Post-Pruning法从叶节点向上逐层剪枝,其关键是误差的估计及剪枝标准的设置。
一、误差估计一般决策树的检验应该使用Testing Data,但C5.0使用了统计的置信区间的估计方法,直接在Training Data中估计误差。
二、剪枝标准在得到误差的估计后,C5.0将按照“减少误差”判断是否剪枝。
首先,计算待剪子树中叶节点的加权误差,然后与父节点的误差进行比较,如果大于则可以剪掉,否则不能剪掉。
2.2.4 C5.0的推理规则集C5.0不有够构建决策树,同时还可以生成推理规则集。
但是从决策树导入推理规则集非常烦锁,推理规则集通常有自己生成算法,即PRISM。
该算法gf1987rh提出,是一种“覆盖”算法,对Training Data100%正确。
2.2.5 C5.0的基本应用示例下面对一个使用了C5.0的挖掘案例进行介绍,这里不再像之前介绍案例似的步步介绍,现在只对重点部分进行介绍。
主要是C5.0的面板设置及C5.0呈现的结果。
下图为C5.0的面板设置。
模型名称:可以自动,亦可以自定义。
在平时练习时默认自动即可,在商业活动中为避免重名或混乱,一律要自定义命名,这是数据挖掘的基本规范。