智能参数学习的模糊决策树算法

ComputerEngineeringandApplications计算机工程与应用

智能参数学习的模糊决策树算法

孙娟

SUNJuan

河北大学数学与计算机学院河北省机器学习与计算智能重点实验室,河北保定071002

KeyLabofMachineLearningandComputationalIntelligence,CollegeofMathematicsandComputerScience,He—beiUniversity,Baoding,Hebei071002,China

SUNJuan.Fuzzydecisiontreeinductionbasedonoptimizationofparameters.ComputerEngineeringandApplications,2012,48(23):148-154.

Abstract:FuzzyDecisionTreeinduction(FDT)hasbeenusedinmoreandmoreapplicationarea.Whenthedataarenumerical,theFDTalgorithmsneedtofuzzifythemintosomelinguisticitems.Thathowmanylinguisticitemsofanattributeareproperisnotknown.Theselectiongenerallydependsonexpels’opinionorpeople’Scommon.Currently,itisnotyetavailabletolearnthenumberoflinguisticitemsbyusingtheexperimentalmethodofparticleswarlTloptimization.ThepaperintroducesaPSObasedapproachtooptimizetheselectionoflinguisticitem’Snum—berinfuzzilyingprocessingofdatainFDT(FDT-Kalgorithm).ExperimentalstudiesshowthattheFDT-Kalgo—rithmcomparedwiththepeople’Scommonmethodstodecidethenumberoflinguisticitemsofattributecancreateabetterfuzzydecisiontreewithhigherclassificationandgeneralizationcapability.

Keywords:inductivelearning;fuzzydecisiontree;datapreprocessing;fuzzification;particleswarmoptimization

摘要:模糊决策树算法在处理数量型属性的数据时,需要进行数据模糊化预处理。但是,每个数量型属性应该模糊化为几个语言项通常要凭经验设定的,目前还没有使用标准粒子群优化算法(PSO)自动设定语言项个数的研究。提出使用PSO确定语言项个数的模糊决策树算法(FDT-K算法),通过实验证明FDT-K算法产生的模糊决策树性能明显优于凭经验设定语言项个数所产生的模糊决策树。

关键词:归纳学习;模糊决策树;数据预处理;模糊化;粒子群优化算法

文章编号:1002—8331(2012)23.0148—07文献标识码:A中图分类号:TP393

1引言

决策树算法是机器学习中的一种重要学习方法。决策树的构造不需要任何领域知识或参数设置,因此适合于探测式知识发现”1。Quinlan提出的C4.581是目前决策树算法的代表算法。c4.5算法在处理字符型属性的数据库时,具有很好的性能,但是在处理数量型属性的数据时,由于C4.5本身的局限性,其性能不太理想。模糊决策树算法(FDT)在清晰决策树算法的基础上引入模糊集理论构建模糊决策树。模糊决策树算法可以很好地处理与人的思维有关的不确定性、模糊性,在处理数量型属性的数据时具有先天的优势一“,。

模糊决策树算法一,由三步组成:(1)数据预处理:需要对数量型属性的数据项进行模糊化处理,将数量型属性划分为若干语言项,即转化为字符型属性值。(2)建立决策树:用模糊熵作为启发式从根向叶子方向选取扩展属性,划分示例集,建立模糊决策树。(3)匹配:对未知示例进行预测,使用模糊匹配方法根据已经生成的模糊决策树进行类别判定。对模糊决策树算法的研究多集中在第二、三步的改进[4-6,10,,对数据预处理的研究很少盯?”。

将数据集模糊化为语言项本质是一个约减决策

基金项目:国家自然科学基金(No.10804025);河北省自然科学基金(No.F2010000318)。

作者简介:孙娟(1975一),女,讲师,主要研究领域为机器学习与软件算。E-mail:hdsunjuan@163.corn收稿日期:2012.02.22修回日期:2012.05.02

DOI:10.3778/j.issn.1002-8331.2012.23.034

万方数据

相关主题
相关文档
最新文档