C45算法生成决策树的研究

合集下载

C4.5算法的分析和实现

基于决策树技术的数据挖掘方法分析和研究——C4.5算法的分析和实现摘要大数据时代已经到来，对数据的处理越来越受到人们的关注，人们迫切需要海量数据背后的重要信息和知识，发现数据中存在的关系和规则，获取有用的知识，并且根据现有数据对未来的发展做出预测。

决策树分类算法C4.5算法是数据挖掘中最常用、最经典的分类算法，能够以图形化的形式表现挖掘的结果，从而方便于使用者快速做出决定或预测。

决策树实际在各行业应用非常广泛，如客户资源管理（CRM）系统等。

本报告从决策树的各个方面对决策树进行分析，理解C4.5算法相对于ID3算法的改进，并对C4.5算法加以实现。

同时也指出C4.5算法还存在不足。

一、具体应用场景和意义决策树（Decision Tree）是用于分类和预测的主要技术，它着眼于从一组无规则的样例推理出决策树表示形式的分类规则，采用自顶向下的递归方式，在决策树的内部节点进行属性值的比较，并根据不同属性判断从该节点向下分支，在决策树的叶节点得到结论。

因此，从根节点到叶节点就对应着一条合理规则，整棵树就对应着一组表达式规则。

基于决策树算法的一个最大的优点是它在学习过程中不需要使用者了解很多背景知识，只要训练样例能够用属性-值对的方式表示出来，就能使用该算法进行学习。

决策树算法在很多方面都有应用，如决策树算法在医学、制造和生产、金融分析、天文学、遥感影像分类和分子生物学、机器学习和知识发现等领域得到了广泛应用。

决策树技术是一种对海量数据集进行分类的非常有效的方法。

通过构造决策树模型，提取有价值的分类规则，帮助决策者做出准确的预测已经应用在很多领域。

决策树算法是一种逼近离散函数值的方法。

它是一种典型的分类方法，首先对数据进行处理，利用归纳算法生成可读的规则和决策树，然后对新数据进行分析。

本质上决策树是通过一系列规则对数据进行分类的过程。

决策树的典型算法有ID3、C4.5和CART等，基于决策树的分类模型有如下几个特点：（1）决策树方法结构简单，便于理解；（2）决策树模型效率高，对训练集较大的情况较为适合；（3）决策树方法通常不需要接受训练集数据外的知识；（4）决策树方法具有较高的分类精确度。

matlab实现的C45分类决策树算法

function D = C4_5(train_features, train_targets, inc_node, region)%Classify using Quinlan's C4.5 algorithm%Inputs:%features - Train features%targets- Train targets%inc_node- Percentage of incorrectly assigned samples at a node%region- Decision region vector: [-x x -yy number_of_points]%% Outputs% D- Decision sufrace%NOTE: In this implementation it is assumed that a feature vector with fewer than 10 unique values (the parameter Nu)%is discrete, and will be treated as such. Other vectors will be treated as continuous[Ni, M]= size(train_features);inc_node= inc_node*M/100;Nu= 10;%For the decision regionN= region(5);mx= ones(N,1) * linspace(region(1),region(2),N);my= linspace (region(3),region(4),N)' * ones(1,N);flatxy= [mx(:), my(:)]';%Preprocessing%[f, t, UW, m]= PCA(train_features,train_targets, Ni, region);%train_features = UW * (train_features -m*ones(1,M));;%flatxy= UW * (flatxy - m*ones(1,N^2));;%Find which of the input features are discrete,and discretisize the corresponding%dimension on the decision regiondiscrete_dim = zeros(1,Ni);for i = 1:Ni,Nb = length(unique(train_features(i,:)));if (Nb <= Nu),%This is a discrete featurediscrete_dim(i)= Nb;[H, flatxy(i,:)] =high_histogram(flatxy(i,:), Nb);endend%Build the tree recursivelydisp( 'Building tree')tree= make_tree(train_features,train_targets, inc_node, discrete_dim,max(discrete_dim), 0);%Make the decision region according to the treedisp( 'Building decision surface using the tree') targets = use_tree(flatxy, 1:N^2, tree,discrete_dim, unique(train_targets));D= reshape(targets,N,N);%ENDfunction targets = use_tree(features, indices,tree, discrete_dim, Uc)%Classify recursively using a treetargets = zeros(1, size(features,2));if (tree.dim == 0)%Reached the end of the treetargets(indices) = tree.child;breakend%This is not the last level of the tree,so: %First, find the dimension we are to work on dim = tree.dim;dims= 1:size(features,1);%And classify according to itif (discrete_dim(dim) == 0),%Continuous featurein= indices(find(features(dim, indices) <= tree.split_loc));targets= targets +use_tree(features(dims, :), in, tree.child(1), discrete_dim(dims), Uc);in= indices(find(features(dim, indices) > tree.split_loc));targets= targets +use_tree(features(dims, :), in, tree.child(2), discrete_dim(dims), Uc);else%Discrete featureUf= unique(features(dim,:));for i = 1:length(Uf),in= indices(find(features(dim, indices) == Uf(i)));targets= targets +use_tree(features(dims, :), in, tree.child(i), discrete_dim(dims), Uc);endend%END use_treefunction tree = make_tree(features, targets, inc_node, discrete_dim, maxNbin, base)%Build a tree recursively[Ni, L]= size(features);Uc= unique(targets);tree.dim= 0;%tree.child(1:maxNbin) = zeros(1,maxNbin);tree.split_loc= inf;if isempty(features),breakend%When to stop: If the dimension is one or the number of examples is smallif ((inc_node> L) | (L == 1) | (length(Uc)== 1)), H= hist(targets, length(Uc));[m, largest]= max(H);tree.child= Uc(largest);breakend%Compute the node's Ifor i = 1:length(Uc),Pnode(i)= length(find(targets== Uc(i)))/L; endInode = -sum(Pnode.*log(Pnode)/log(2));%For each dimension,compute the gain ratio impurity%This is done separately for discrete and continuous featuresdelta_Ib= zeros(1, Ni);split_loc= ones(1, Ni)*inf;for i = 1:Ni,data = features(i,:);Nbins = length(unique(data));if (discrete_dim(i)),%This is a discrete featureP= zeros(length(Uc), Nbins);for j = 1:length(Uc),for k = 1:Nbins,indices = find((targets == Uc(j)) &(features(i,:) == k));P(j,k) = length(indices);endendPk= sum(P);P= P/L;Pk= Pk/sum(Pk);info= sum(-P.*log(eps+P)/log(2));delta_Ib(i) =(Inode-sum(Pk.*info))/-sum(Pk.*log(eps+Pk)/log(2));else%This is a continuous featureP = zeros(length(Uc), 2);%Sort the features[sorted_data, indices] = sort(data);sorted_targets = targets(indices);%Calculate the information for each possiblesplitI = zeros(1, L-1);for j = 1:L-1,for k =1:length(Uc),P(k,1)= length(find(sorted_targets(1:j) ==Uc(k)));P(k,2) =length(find(sorted_targets(j+1:end) == Uc(k)));endPs = sum(P)/L;P= P/L;info= sum(-P.*log(eps+P)/log(2));I(j) = Inode - sum(info.*Ps);end[delta_Ib(i), s] = max(I);split_loc(i) = sorted_data(s);endend%Find the dimension minimizing delta_Ib [m, dim] = max(delta_Ib);dims= 1:Ni;tree.dim = dim;%Split along the 'dim' dimensionNf= unique(features(dim,:));Nbins= length(Nf);if (discrete_dim(dim)),%Discrete featurefor i = 1:Nbins,indices= find(features(dim, :) ==Nf(i));tree.child(i) = make_tree(features(dims, indices), targets(indices), inc_node,discrete_dim(dims), maxNbin, base);endelse%Continuous featuretree.split_loc= split_loc(dim);indices1= find(features(dim,:) <=split_loc(dim));indices2= find(features(dim,:) >split_loc(dim));tree.child(1)= make_tree(features(dims, indices1), targets(indices1), inc_node, discrete_dim(dims), maxNbin);tree.child(2)= make_tree(features(dims, indices2), targets(indices2), inc_node, discrete_dim(dims), maxNbin);end。

C45算法生成决策树的研究

C45算法生成决策树的研究1、基础知识当我们需要对一个随机事件的概率分布进行预测时，我们的预测应当满足全部已知的条件，而对未知的情况不要做任何主观假设。

在这种情况下，概率分布最均匀，预测的风险最小。

由于这时概率分布的信息熵最大，因此称之为“大熵法”最大熵法在数学形式上很漂亮，但是实现起来比较复杂，但把它运用于金融领域的诱惑也比较大，比如说决定股票涨落的因素可能有几十甚至上百种，而最大熵方法恰恰能找到一个同时满足成千上万种不一致条件的模型。

目前，针对分类问题已有了若干不一致领域方法的算法，比如统计学、机器学习、神经网络与粗糙集理论等。

其中从机器学习中引出的决策树方法是一种较为通用并被深入研究的分类方法，由于决策树分类算法是一种直观快速的分类方法，它的分类过程不需要背景知识、同时清晰、易于懂得，因此有很大的有用价值。

目前已经形成了多种决策树算法。

如CLS、ID3、CHAID、CART、FACT、C4.5、Gini、SEE5、SLIQ、SPRINT等。

在决策树分类算法中，最常用的、最经典的是C4.5算法，它继承了ID3算法的优点并对ID3算法进行了改进与补充。

C4.5算法使用信息增益率作为选择分支属性的标准，克服了ID3算法中信息增益选择属性时偏向选择取值多的属性的不足，并能够完成对连续属性离散化的处理，还能够对不完整数据进行处理。

根据分割方法的不一致，目前决策的算法能够分为两类：基于信息论（Information Theory）的方法与最小GINI指标（Lowest GINI index）方法。

对应前者的算法有ID3、C4.5，后者的有CART、SLIQ与SPRINT。

C4.5算法是以信息论为基础，以信息熵与信息增益度为衡量标准，从而实现对数据的归纳分类。

2、算法下列图数据为例，介绍用C4.5建立决策树的算法。

表1ID3算法最初假定属性都是离散值，但在实际应用中，很多属性值都是连续的。

C4.5对ID3不能处理连续型属性的缺点进行了改进。

c4.5决策树算法原理

c4.5决策树算法原理决策树是一种常用的机器学习算法，用于分类和回归问题。

C4.5算法是决策树算法中的一种改进型，相较于其他决策树算法，C4.5在生成决策树的过程中进行了优化，使其具有更高的分类准确率和性能。

**一、决策树算法简介**决策树是一种基于树形结构的分类模型，通过递归地将数据集划分为若干个子集，直到满足某种终止条件（如空子集或达到预设的停止条件）为止。

在每个划分节点处，根据数据特征进行分类或回归，并计算每个分支的代价和信息增益，以确定最优划分方式。

**二、C4.5算法原理**C4.5算法是对传统决策树算法的改进，主要包括以下几点：1. 剪枝策略：C4.5算法引入了剪枝策略，对生成的决策树进行优化，避免过拟合现象的发生。

通过设置停止条件和剪枝比例，可以控制决策树的复杂度，提高模型的泛化能力。

2. 适应度函数优化：C4.5算法在生成决策树的过程中，优化了适应度函数，使其更适用于连续值和离散值的分类问题。

通过对不同类型的数据进行不同的处理方式，可以提高分类准确率。

3. 考虑噪声和离群点：C4.5算法在生成决策树的过程中，会考虑噪声和离群点的存在。

通过对噪声进行平滑处理，对离群点进行特殊处理，可以提高决策树的鲁棒性。

4. 特征选择：C4.5算法在生成决策树的过程中，引入了特征选择机制，通过计算特征重要性得分，选择对分类影响最大的特征，以提高决策树的性能。

**三、应用场景**C4.5算法适用于各种分类和回归问题，尤其适用于数据量大、非线性可分的数据集。

在金融、医疗、保险、生物信息学等领域都有广泛的应用。

**四、总结**C4.5算法通过引入剪枝策略、优化适应度函数、考虑噪声和离群点以及特征选择等机制，对传统决策树算法进行了改进，提高了模型的分类准确率和性能。

在实际应用中，可以根据具体问题选择合适的算法和参数，以达到最佳的分类效果。

C4.5算法的分析和实现

决策树分类算法C4.5算法是数据挖掘中最常用、最经典的分类算法，能够以图形化的形式表现挖掘的结果，从而方便于使用者快速做出决定或预测。

决策树实际在各行业应用非常广泛，如客户资源管理（CRM）系统等。

本报告从决策树的各个方面对决策树进行分析，理解C4.5算法相对于ID3算法的改进，并对C4.5算法加以实现。

同时也指出C4.5算法还存在不足。

因此，从根节点到叶节点就对应着一条合理规则，整棵树就对应着一组表达式规则。

决策树技术是一种对海量数据集进行分类的非常有效的方法。

通过构造决策树模型，提取有价值的分类规则，帮助决策者做出准确的预测已经应用在很多领域。

决策树算法是一种逼近离散函数值的方法。

它是一种典型的分类方法，首先对数据进行处理，利用归纳算法生成可读的规则和决策树，然后对新数据进行分析。

本质上决策树是通过一系列规则对数据进行分类的过程。

c4.5决策树原理

c4.5决策树原理C4.5（也称为C5.0）是一种经典的决策树算法，由Ross Quinlan于1993年提出。

它是一种用于机器学习和数据挖掘的强大工具，主要用于分类问题。

以下是C4.5决策树算法的原理概述：1. 信息熵和信息增益：C4.5使用信息熵和信息增益来构建决策树。

信息熵是对数据集的纯度度量，信息增益表示通过某个属性对数据集进行划分所带来的纯度提升。

C4.5的目标是选择信息增益最大的属性作为划分依据。

2. 决策树构建过程：2.1 选择最佳属性：•对每个属性计算信息增益。

•选择信息增益最大的属性作为当前节点的划分属性。

2.2 划分数据集：•使用选定的属性对数据集进行划分，生成子节点。

•对于每个子节点，递归执行上述过程，直到满足停止条件。

2.3 停止条件：•数据集已经纯净（属于同一类别）。

•到达树的最大深度。

•不再有可用属性进行划分。

3. 剪枝：C4.5在决策树构建完成后执行剪枝，以避免过度拟合。

剪枝的目标是去除一些不必要的叶子节点，提高模型的泛化性能。

4. 缺失值处理：C4.5能够处理缺失值，当在某个节点上某个属性的值缺失时，它会考虑所有可能的取值，并按照缺失值所占比例计算信息增益。

5. 数值型属性处理：对于数值型属性，C4.5采用二分法进行处理。

它通过在属性上选择一个阈值，将数据集分为两个子集，然后选择信息增益最大的阈值进行划分。

6. 实例加权：在C4.5中，每个样本都有一个权重，这个权重可以用于调整每个样本在信息增益计算中的贡献度。

7. 优缺点：7.1 优点：•生成的决策树易于理解和解释。

•能够处理混合属性类型。

•能够处理缺失值。

•具有较好的泛化性能。

7.2 缺点：•对噪声敏感。

•生成的树可能过于复杂，需要进行剪枝。

•处理大量数据时可能效率较低。

8. 应用领域：C4.5广泛应用于分类问题，例如医学诊断、金融风险评估、客户分类等领域。

9.C4.5决策树算法通过利用信息熵和信息增益来构建树结构，是一种强大的分类工具。

决策树C4.5算法总结

数据集准备
数据清洗
去除异常值、缺失值，对数据进行预处理，使其满足算法要求。
数据分割
将数据集分为训练集和测试集，用于训练和评估决策树模型。
特征选择与划分
特征重要性评估
计算每个特征对目标变量的影响程度，选择最重要的特征作为划分标准。
特征划分
根据特征的重要性和信息增益率，将数据集划分为不同的子集，形成决策树的节点。
THANKS
感谢观看
案例二：医疗诊断分类
数据集
医疗诊断数据集包含了1452 条样本，每个样本有11个特征，目标变量为是否患有某
种疾病。
算法应用
使用C4.5算法构建决策树模型，对数据进行训练和测试，评估模型的准确率、召回
率和F1分数等指标。
结果分析
通过决策树模型，可以辅助医生进行疾病诊断，提高诊断的准确性和效率。
处理连续属性和缺失值的方法优化
• C4.5算法在处理连续属性和缺失值时采用了一些简单的策略，如将连续属性离散化或忽略缺失值。这些策略可能导致决策树无法充分利用数据中的信息。因此，一些研究者提出了更复杂的方法来处理连续属性和缺失值，如使用插值或回归方法来处理连续属性，以及使用特殊标记或填充值来处理缺失值。这些方法可以提高决策树对连续属性和缺失值的处理能力，从而提高模型的分类准确率。
2
C4.5算法采用了信息增益率、增益率、多变量增益率等更加复杂的启发式函数，提高了决策树的构建精度和泛化能力。
3
C4.5算法还引入了剪枝策略，通过去除部分分支来避免过拟合，提高了决策树的泛化性能。
决策树C4.5算法的应用场景
数据挖掘
C4.5算法广泛应用于数据挖掘领域，用于分类、回归和聚类

C4.5决策树的生成

CHANGSHA UNIVERSITY OF SCIENCE &TECHNOLOGY题目：C4.5决策树的生成学生姓名：***学号：***********专业：软件工程年级：2014级指导老师：**完成时间：2015年7月10号一、介绍决策树（Decision tree），是以实例为基础的归纳学习算法。

它从一组无次序、无规则的元组中推理出决策树表示形式的分类规则。

它采用自顶向下的递归方式，在决策树的内部结点进行属性值的比较，并根据不同的属性值从该结点向下分支，叶结点是要学习划分的类。

从根到叶结点的一条路径就对应着一条合取规则，整个决策树就对应着一组析取表达式规则。

1986年Quinlan提出了著名的ID3算法。

在ID3算法的基础上，1993年Quinlan又提出了C4.5算法。

二、核心思想采用从信息论知识中我们直到，期望信息越小，信息增益越大，从而纯度越高。

所以ID3算法的核心思想就是以信息增益度量属性选择，选择分裂后信息增益最大的属性进行分裂。

下面先定义几个要用到的概念。

设D为用类别对训练元组进行的划分，则D的熵（entropy）表示为：其中pi表示第i个类别在整个训练元组中出现的概率，可以用属于此类别元素的数量除以训练元组元素总数量作为估计。

熵的实际意义表示是D中元组的类标号所需要的平均信息量。

现在我们假设将训练元组D按属性A进行划分，则A对D划分的期望信息为：而信息增益即为两者的差值：C4.5算法首先定义了“分裂信息”，其定义可以表示成：其中各符号意义与ID3算法相同，然后，增益率被定义为：算法：：三、ID3算法和C4.5的比较(1) ID3算法ID3算法的核心是：在决策树各级结点上选择属性时，用信息增益（information gain）作为属性的选择标准，以使得在每一个非叶结点进行测试时，能获得关于被测试记录最大的类别信息。

其具体方法是：检测所有的属性，选择信息增益最大的属性产生决策树结点，由该属性的不同取值建立分支，再对各分支的子集递归调用该方法建立决策树结点的分支，直到所有子集仅包含同一类别的数据为止。

1、下载文档前请自行甄别文档内容的完整性，平台不提供额外的编辑、内容补充、找答案等附加服务。
2、"仅部分预览"的文档,不可在线预览部分如存在完整性等问题,可反馈申请退款(可完整预览的文档不适用该条件!)。
3、如文档侵犯您的权益，请联系客服反馈,我们会尽快为您处理(人工客服工作时间：9:00-18:30)。

精心整理
C4.5算法生成决策树
1、基础知识
当我们需要对一个随机事件的概率分布进行预测时，我们的预测应当满足全部已知的条件，而对未知的情况不要做任何主观假设。

在这种情况下，概率分布最均SEE5、SLIQ 算法的的标准，克服了ID3算法中信息增益选择属性时偏向选择取值多的属性的不足，并能够完成对连续属性离散化的处理，还能够对不完整数据进行处理。

根据分割方法的不同，目前决策的算法可以分为两类：基于信息论（InformationTheory ）的方法和最小GINI 指标（LowestGINIindex ）方法。

对应前者的算法有ID3、C4.5，后者的有CART 、SLIQ 和SPRINT 。

C4.5算法是以信息论为基础，以信息熵和信息增益度为衡量标准，从而实现对数据的归纳分类。

2、算法
以下图数据为例，介绍用C4.5建立决策树的算法。

表1
ID3算法最初假定属性都是离散值，但在实际应用中，很多属性值都是连续的。

C4.5对ID3不能处理连续型属性的缺点进行了改进。

如果存在连续型的描述性属性，首先将连续型属性的值分成不同的区间，即“离散化”。

对上表中将实际耗电量分为10个区间（0—9）
（300~320,320~340,340~360,360~380,380~400，400~420,420~440,440~460,460~480,480~500）因为最终是要得到实际的耗电量区间，因此“实际耗电量”属于“类别属性”。

“室外温度”、“室内温度”、“室外湿度”、“风力大小”、“机房楼层”、“机房朝向”、“机房开启设备总额定功率”属于“非类别属性”。

表2
通过表
知，实
际耗电的个数表3
定义1，一个4个比定义2),n p ，则由该分布传递的信息量称为的熵。

即
定义3,k 则识别T )k C 的例如：表3中，得到实际耗电量区间的信息量为（以下单位为比特，下同）：
()2222222/10log (2/10)1/10log (1/10)3/10log (3/10)()1/10log (1/10)2/10log (2/10)1/10log (1/10)Info T I P ⨯+⨯+⨯+⎛⎫==- ⎪⨯+⨯+⨯⎝⎭
=2.446
定义4：若我们先根据非类别属性X 的值将T 分成集合12,,n T T T ，则确定T 中一个元素类的信息量可通过确定i T 的加权平均值来得到，即Info(i T )的加权平均值为：例如：属性“室内温度”的值有“17、18、19”，分类见下表：
表4
P （17P （18P （19(17)
Info ()()22222(18)181/6*log (1/6)1/6*log (1/6)Info I P ⎛⎫
==- ⎪+⎝⎭
=2.252
()()()22(19)191/2*log (1/2)1/2*log (1/2)Info I P ==-+=1.000
2/10(17)6/10(18)2/10(19)(,)Info Info In Inf fo o T =⨯+⨯+⨯室内温度=1.751
定义5：将增益Gain （X ，T ）定义为：。

所谓增益，就是指在应用了某一测试之后，
其对应的可能性丰富程度下降，不确定性减小，这个减小的幅度就是增益，其实质上对应着分类带来的好处）。

上式的增益值为：()()()
=-室内温度=2.446-1.751=0.695
Gain X T Info T Info T
,,
以上是ID3计算信息增益的方法，C4.5算法对此进行了改进。

C4.5算法采用信息增益率作为选择分支属性的标准，克服了ID3算法中信息增益选择属性时偏向选
Tn，
，T)为0
，则
3
个候选的分割阈值点的值为上述排序后的属性值链表中两两前后连续元素的中点，那么我们的任务就是从这个N-1个候选分割阈值点中选出一个，使得前面提到的信息论标准最大。

在EXCEL中，对室外温度（第二步）详细介绍了如何分割阈值点并进行计算。

4、树的终止
树的建立实际上是一个递归过程，那么这个递归什么时候到达终止条件退出递归呢？有两种方式，第一种方式是如果某一节点的分支所覆盖的样本都属于同一类的时候，那么递归就可以终止，该分支就会产生一个叶子节点。

还有一种方式就是，如果某一分支覆盖的样本的个数如果小于一个阈值，那么也可产生叶子节点，从而终止建立树。

我们只考虑二叉分割的情况，因为这样生成的树的准确度更高。

5、树的修剪
树一旦生成后，便进入第二阶段——修剪阶段。

决策树为什么要剪枝？原因就是避免决策树“过拟合”样
本。

100%
（
很小时，将所有
对于树的修剪，相对树的生成要简单一些，后续再做讨论。