第八章决策表值约简

合集下载

决策表

0
0
━
1
0
━
━
0
P
P
P
练习
根据输入3条边（a,b,c）边长的值来判断是否构成一个构成一个三角形，如果是三角形，继续判断是一般三角形、等腰三角形还是等边三角形。假定a、b、c 只能输入大于零的数，不考虑a、b、c为负数和取零的情况。
试构造其决策表
NextDate函数的决策表测试用例设计
根据所执行的操作，可列出NextDate函数的动作桩：
a1: 不可能； a2: day加1； a3: day复位； a4: month加1； a5: month复位； a6: year加1
考虑到决策表的规模，条件使用month、day、 year变量的等价类，在以下等价类集合上建立决策表：对于month变量的取值：
解法如下：
确定规则的个数。对于本题有2个条件（销售、库存），每个条件可以有两个取值，故有22=4种规则。
列出所有的条件桩和动作桩。
填入条件项。
填入动作项，得到初始决策表
规则
选项
1
2
3
4
条件：
C1：销售好?
T
T
F
F
C2：库存低?
T
F
T
F
动作：
a1：增加生产
√
a2：继续生产
√
√
a3：停止生产
适用于使用决策表设计测试用例的条件
规格说明以决策表形式给出，或较容易转换为决策表。
条件的排列顺序不会也不应影响执行的操作。规则的排列顺序不会也不应影响执行的操作。
当某一规则的条件已经满足，并确定要执行的操作后，不必检验别的规则。

基于粒计算的决策表属性约简与规则提取研究的开题报告

基于粒计算的决策表属性约简与规则提取研究的开题报告一、选题背景随着信息技术的快速发展，大数据时代已经来临，越来越多的数据被收集和存储。

人们需要从海量数据中提取有用的信息，数据挖掘成为研究的热点之一。

在数据挖掘中，决策表是一种常用的数据表示方式，它把数据表示为一个矩阵，其中每行表示一个数据实例，每列表示一个属性。

决策表的属性可能非常多，而有些属性可能并不对分类有影响，这些属性可以被称为冗余属性。

冗余属性不仅浪费计算资源，而且可能影响分类准确率。

因此，属性约简成为决策表挖掘中的重要问题。

传统的属性约简方法包括基于信息熵的算法、基于启发式算法的算法等，这些方法在减少决策表属性数量的同时并没有考虑属性之间可能存在的依存关系。

粒计算作为一种新兴的计算模型，提供了一个有效的方式来描述不确定和模糊信息，可以用来处理属性之间的依赖关系，进而提高约简质量。

同时，决策表的属性约简结果可以进一步转化为规则，帮助人们更好地理解数据。

在此基础上，本研究将探讨如何基于粒计算，进行决策表属性约简和规则提取。

二、研究内容与目标本研究计划采用粒计算方法，结合现有的属性约简算法，提出一种适用于决策表的属性约简方法，并将约简结果转化为规则。

具体内容如下：1. 综述现有的决策表属性约简算法，包括信息熵、启发式算法等，并分析存在的问题。

其在决策表属性约简中的应用。

3. 提出一种基于粒计算的决策表属性约简算法，包括属性粗糙化、属性划分和属性选择等步骤。

4. 将约简结果转化为规则，并给出规则提取算法，以便人们更好地理解数据。

5. 对所提出的方法进行算法复杂度分析和实验验证，比较本方法与现有方法的效果和优劣。

三、研究意义决策表属性约简是数据挖掘中的一个关键问题，能够大幅度降低决策表处理的复杂度，提高分类准确率。

与传统的属性约简方法相比，基于粒计算的方法更能反映属性之间的依赖关系，进而提高约简质量。

同时，将约简结果转化为规则，可以帮助人们更好地理解数据，进一步挖掘数据的价值。

一种非相容决策表的属性值与属性约简方法

Ａｔｒｂｔａｕｎｔｒｂｔｅｕｔｎｍｅｈｄｔｉｕｅｖｌｅａｄａｔｉｕｅｒｄｃｉｔｏｏ
ｂｓｄｏｎｏｓｓｅｔｄｃｓｏａｌｓａｅｎｉｅｎｉｔｎｅｉｉｎｔｂｅ
ＤＮｈｕｈ，Ｉｎ一ＵＮＳ — ｅ，ＥＧＳａ —ｏＬ，ＧＡｕｊＷＡａｇＭｉｉＮＦｎ
邓少波。，。黎敏，关素洁万，芳
（．南昌工程学院信息工程学院，南昌３０９２１３０９；．中国科学院计算技术研究所智能信息处理重点实验室，北京１０９；３０１０．中国科学院深圳先进技术研究院，广东深圳５８５；．江西师范大学计算机信息工程学院，１０５４
（．Ｓｈｏ（￣ｒａｉｎＥｇｎｅｎ，Ｙｎｈｎｓｔｔｏｃａｌ）Ｎｎｈｎ３０９，ｈｎ；．Ｋｙｌｂｒｔ厂ｎｅｉｅｔ，ｍａ１ｃｏｌｈｂｍｔｎｉｅｒｇａｃａｇＩｔｕＴｈｏｇ，ａｃａｇ３０９Ｃｉａ２ｅｚａｏ０Ｉｔｌｎ，ｊｏｉｎｉｅｆｅｏ￣ｏｍｌｇ — ｔｎＰｏｅｉＩｓｔｔｆｏｐｔｇＴｃｎｌ）ｈｎｓｃｄｍＳｉｃｓＢｉｎ０１０ｈｎ３ｈｎｈｎＩｔｕｅｆＴｃｎｌ）ｉｒｃｓｇ，ｎｔｕｅＣｍｕｉｅｏｇｉｅＡａｅ）ｏｓｎｉｎｈｏ，Ｃｅｃｎｅ，ｅｉｇ１０９，Ｃｉｅｊａ；．Ｓｅｚｅｎｉｔａｅｈｏｇ，ｓｔｏｃｉＡａｅ＞ｏＳｅｃ，ｈｎｈＧａｇｏｇ５８５Ｃｉａ４ｏｅｅＣｍｕｅ／ｏｍａｉｎｉｅｉＪａｇｉｏｒｄ￡ｅｉｒｗｃｄｍ，ｄｎｅＳｅｚ．ｎｄｎ１０５，ｈｎ；．Ｃｌｇｏｐｔ，ｒｔｎＥｇｎｒｇ，ｉｎｘＸｒｕｒ— ｌｆｒ，ｆｏｅｎｒｓ

第七章决策表属性约简

第七章决策表属性约简第七章信息表属性约简基于Rough集理论的知识获取，主要是通过对原始决策表的约简，在保持决策表决策属性和条件属性之间的依赖关系不发⽣变化的前提下对决策表进⾏约简（简化），包括属性约简和值约简。

本章将对决策表的属性约简从代数集合观点和信息论的信息熵观点进⾏系统分析，并介绍⼏种有效的属性约简算法。

7.1决策表属性约简概述⼀个决策表就是⼀个决策信息系统，表中包含了⼤量领域样本（实例）的信息。

在第四章中，我们曾经对决策规则进⾏了讨论，决策表中的⼀个样本就代表⼀条基本决策规则，如果我们把所有这样的决策规则罗列出来，就可以得到⼀个决策规则集合，但是，这样的决策规则集合是没有什么⽤处的，因为其中的基本决策规则没有适应性，只是机械地记录了⼀个样本的情况，不能适应新的、其他的情况。

为了从决策表中抽取得到适应度⼤的规则，我们需要对决策表进⾏约简，使得经过约简处理的决策表中的⼀个记录就代表⼀类具有相同规律特性的样本，这样得到的决策规则就具有较⾼的适应性。

根据定义2.1-1，我们可以进⼀步讨论决策表中属性的必要性和相应的约简算法。

定义7.1-1 设U是⼀个论域，P是定义在U上的⼀个等价关系簇，R∈P。

如果IND(P-{R})=IND(P)，则称关系R在P中是绝对不必要的（多余的）；否则，称R在P中是绝对必要的。

绝对不必要的关系在知识库中是多余的，如果将它们从知识库中去掉，不会改变该知识库的分类能⼒。

相反，若知识库中去掉⼀个绝对必要的关系，则⼀定改变知识库的分类能⼒。

定义7.1-2 设U为⼀个论域，P为定义在U上的⼀个等价关系簇，R∈P。

如果每个关系R∈P在P中都是绝对必要的，则称关系簇P 是独⽴的；否则，称P是相互依赖的。

对于相互依赖的关系簇来说，其中包含有冗余关系，可以对其约简；⽽对于独⽴的关系簇，去掉其中任何⼀个关系都将破坏知识库的分类能⼒。

定义7.1-3 设U 为⼀个论域，P 为定义在U 上的⼀个等价关系簇，P 中所有绝对必要关系组成的集合，称为关系簇P 的绝对核，记作CORE(P)。

决策理论与方法教学作者罗党第八章粗糙集决策

教育部高等学校管理科学与工程类学科专业教学指导委员会推荐教材
决策理论与方法
（ Decision Making Theory and Methods ）
《决策理论与方法》编写组
《决策理论与方法》
第八章粗糙集决策方法
第第 22页页
学习目的
《决策理论与方法》
▪ 了解知识、等价类、上近似、下近似、粗糙集、属性约简和核的概念；
第第 1111页页
《决策理论与方法》
R(X ) x U [x]R X , R(X ) x U [x]R X
BN R ( X ) R( X ) R( X ),
NEGR ( X ) U R( X )
，分别称为 X 的 R 边界域、正域和负域。
从上述定义，可得到 R 下近似和 R 上近似的性质：
POSCc3(D) POSC (D)
POSCc1,c2(D) x1, x4 POSC (D)
POSCc3,c2(D) POSC (D)
c1,c3 所以是条件属性集 C 的 D 约简。
第第 2266页页
《决策理论与方法》
确定性决策规则有： (c1,1) (c3 ,1) (d,0);
对于粗糙集可以近似地定义，我们使用粗糙集的
第第 1100页页
《决策理论与方法》
上近似和下近似来描述。定义8.1.3 给定知识库 K, 对于每个子集 X U 和一个等价关系 R, 定义两个子集：
R(X ) Y U / R Y X R(X ) Y U / R Y X
分别称它们为 X 的 R下近似和 R 上近似。下近似和上近似也可以用下面的等式表达：
第第 44页页
8.1粗糙集理论的基本概念《决策理论与方法》

基于决策强度的一种属性约简算法

基于决策强度的一种属性约简算法唐洪浪【摘要】属性约简是粗糙集理论研究的主要内容之一,目的在于获取优良的规则集合.利用数据挖掘中规则的支持度和置信度的概念,提出了决策表的决策强度的概念, 分析了在属性约简过程中,决策强度的变化趋势;然后给出一种基于决策强度的属性约简的启发式算法, 该算法的时间复杂度为O(|C|2| U|log|U|);最后用一个例子,说明算法的有效性.【期刊名称】《湛江师范学院学报》【年(卷),期】2007(028)006【总页数】5页(P65-69)【关键词】粗糙集;决策表;属性约简;决策强度;启发式算法【作者】唐洪浪【作者单位】湛江师范学院,数学与计算科学学院,广东,湛江,524048【正文语种】中文【中图分类】TB180 引言粗糙集(Rough Set)[1-2]理论是波兰数学家Z.Pawlak于1982年提出的一种处理模糊、不精确的分类问题的新型数学工具.其主要思想是,在保持信息系统分类能力不变的前提下,通过属性约简,导出问题的决策或分类规则.决策表属性约简的过程,就是从决策表的条件属性中去掉不必要的条件属性,从而分析所得约简中的条件属性对决策属性的决策规则.目前,许多学者从不同的角度提出了不同的约简算法,主要有(1)代数方法[1-3]；(2)差别矩阵的方法[1-4];(3)信息论方法[5-9].用上述方法都可以求出决策表的一个约简或所有约简.然而，求决策表的所有约简或最优约简是一个NP-hard问题，解决这一问题通常采用启发式搜索方法[10].本文利用数据挖掘中决策规则的支持度和置信度等概念，给出了决策表的决策强度的概念, 证明了决策强度在属性约简过程中,其变化趋势是单调递减的；在此基础上, 提出了一种基于决策强度的属性约简启发式算法, 该算法的时间复杂度为O( |C|2|U|log|U|)，最后通过例子分析,说明该算法是有效的.1 规则及规则度量下面简要介绍与本文相关的主要概念，其他概念可参考相关的文献.定义1[1-2] 决策表是一个四元组DT=<U,A,V,f >，其中U ={x1,x2,…,xn}为论域，A=C∪D表示属性集,C= {C1,C2,…,Cp}为条件属性集, D ={D1,D2,…,Dq}为决策属性集，为属性值的集合,Va表示属性a∈A的值域；f: U×A→V是一个信息函数,它指定U中每一个对象x的属性值，下文把决策表简记为DT=<U,C∪D > .对任意B⊆A ,记RB ={(xi,xj)|f(xi,b)=f(xj,b),∀b∈B},则RB是U上的等价关系,它们构成对U的划分,记为U/B={[x]B | x∈U}，其中[x]B ={y∈U| (x,y)∈RB}.定义2[2] 对决策表DT=<U,C∪D >,若RC⊆RD ，则称决策表是一致的(协调的),否则称决策表是不一致的(不协调的).对一致决策表，当对象在条件属性集上取值相同时，决策属性值也必定相同；而不一致决策表，至少存在两个对象，它们在条件属性集上取值相同，但决策值却不相等.定义3(规则) 对决策表DT=<U,C∪D >, U/IND(C)为根据条件属性的论域分类，U/IND(D)为根据决策属性的论域分类，Xi∈U/IND(C)，i=1,2,…,n，Yj∈U/IND(D)，j=1,2,…,m，则决策表的一般规则形式为：rij:Xi→Yj iff Xi∩Yj≠Ø定义4[11](支持度) 给定决策表DT=<U,C∪D >，Xi∈U/IND(C)，Yj∈U/IND(D)，则有：≤supp(Xi,Yj)≤1称supp(Xi,Yj)为规则Xi→Yj的支持度.支持度表明了规则适用的对象数目，亦可理解为决策规则Xi→Yj的强度.支持度同时也反映了决策表的随机性，当一条规则的支持度很小时，我们可以认为它是一条随机规则，其对新对象的分类能力较差.定义5[11](置信度) 给定决策表DT=<U,C∪D >，Xi∈U/IND(C)，Yj∈U/IND(D)，则有：≤cer(Xi，Yj)≤1称cer(Xi,Yj)为规则Xi→Yj的置信度或确定性因子.当cer(Xi,Yj)=1(Xi⊆Yj)时，rij是确定性规则；当0<cer(Xi,Yj)<1(Xi∩Yj≠Ø)时，rij 是不确定规则.置信度反映了粗糙规则集的精确程度，规则集合的平均置信度越高，规则集合的一致性就好，精确度也高，相反粗糙规则的不确定性较大.以上讨论的是对单一规则的度量，是对单一决策规则的性质描述.然而，在实际中，有必要从整体上讨论一个决策表规则集合的整体性能，以此来衡量从一个样本集合得到的规则知识库的决策性能，并可对规则集合进行比较.定义6(决策强度) 给定决策表DT=<U,C∪D >，Xi∈U/IND(C)，Yj∈U/IND(D)，则有：称DP(C→D)为决策表规则集合的决策强度(或条件属性集C关于决策属性集D的决策强度).决策表规则集合的决策强度由所有规则的支持度与置信度共同决定的，体现了规则集合决策充分性判断的整体程度，也可理解为规则集合的平均置信度.当DP(C→D)=1,则决策表DT=<U,C∪D >为一致的决策表,否则为不一致的.定理1 设U为论域,某个等价关系C1在U上形成的划分为U/C1={X1,X2,…,Xn},而U/C2={X1, X2, …, Xi-1, Xi+1,…,Xj-1, Xj+1, …,Xn, Xi∪Xj}是将划分U/C1中的某两个等价块Xi与Xj合并为Xi∪Xj，而其余块不变得到的新划分,U/D={Y1,Y2,…,Ym}也是U上的一个划分,则DP(C1→D)≥DP(C2→D)证明DP(C2→D)则其中：设|Xi∩Yk|=a, |Xj∩Yk|=b, |Xi|=x, |Xj|=y;因为Xi,Xj中没有相同元素，则|Xi∩Xj|=0而|(Xi∪Xj)∩Yk|=|(Xi∩Yk)∪(Xj∩Yk)|=|Xi∩Yk|+|Xj∩Yk|-|(Xi∩Yk)∩(Xj∩Yk)|=|Xi∩Yk|+|Xj∩Yk|=a+b故则DP(C1→D)≥DP(C2→D)等式成立的条件为：ay=bx,即：隶属度相同.下面考虑决策表的情况，由定理1容易得到下列推论.推论1 设DT=<U,C∪D >是决策表,任意ai∈C , i=1,2,…,m ,(m=|C|) ,则有: DP({a1}→D)≤DP({a1}∪{a2}→D)≤…≤DP({a1} ∪…∪{am}→D)=DP(C→D)定理1及推论1说明,如果将属性集的分类进行合并,将可能导致决策表的决策强度的减少.从决策表属性约简的角度来看，当一个属性被约简掉，随着属性约简的进行, 条件属性集关于决策属性集的决策强度的变化规律呈现非严格单调递减.实际也体现了不确定性的增大，二者具有一致性.推论2 设DT=<U,C∪D >是决策表,B为属性约简后得到的条件属性集,C0是决策表的核.如果ai∈B-C0 是任意一个不能被约简的属性,则有:DP(C0→D)<DP(C0∪{a1}→D)< …<DP(C0∪{a1}∪{a2}→D )<… <DP(B→D)推论2说明,如果属性约简以决策表的核为起点,不断地增加非核属性，则决策强度的变化规律是单调递增的.2 基于决策强度的属性约简算法2.1 算法描述由定理1及两个推论,容易设计出两个属性约简算法，这里只给出一个算法，另一个算法的思想类似于文献[5-6]中的算法.由定理1知,如果一个属性a不能为属性子集C的分类增加任何信息,即DP(C∪{a}→D)= DP(C→D), 就可以将这个属性a约简. 算法以条件属性a∈C关于决策属性D的决策强度DP({a}→D) 的大小作为条件属性a对于决策的参考重要度, DP({a}→D)的值越小,属性a 对于决策的参考重要度越小, 算法的起点是初始条件属性集C, 采用逐步删除属性来达到约简的目的,它不需要计算属性的核.由于约简过程是分步进行的,假设被约简的属性序列为a1 ,a2 , …ai, …;则有:DP(C→D)=DP(C-{a1}→D)=DP((C-{a1}-{a2})→D)=…=DP(B→D);其中B 为最后得到的约简,也就是说约简后的决策表的决策强度等于初始决策表的决策强度,即DP(C→D)=DP(B→D),以此作为算法的终止条件.属性约简算法ARABDP(Attribute Reduction Algorithm Based on the Decision Power)输入: 一个决策表DT=<U,C∪D >,C为条件属性集,D为决策属性集.输出: 该决策表的一个相对约简BStep1. 计算决策表DT 中条件属性集C关于决策属性D的决策强度DP(C→D) Step2. 计算每个条件属性ai关于决策属性D的决策强度DP({ai}→D),将ai按DP({ai}→D) 升序排列Step3. 令B =C,按DP({ai}→D)递增的顺序对每个ai重复下述操作:Step3.1 计算条件属性集B在删掉ai后，关于决策属性集的决策强度DP(B-{ai}→D);Step3.2 如果DP(C→D)= DP(B-{ai}→D),则属性ai应约简,B=B-{ai};否则,属性ai不能被约简,B不变.2.2 算法的时间复杂度分析第1步求DP(C→D)，需要计算U/C与U/D,按一般的快速排序算法，时间复杂度分别为O(|C||U|log|U|)与O(|D||U|log|U|);故第1步的时间复杂度为O(|A||U|log|U|)；第2步计算DP({ai}→D)，时间复杂度为O(|U|log|U|)，共|C|次，故第2步的时间复杂度为O(|C||U|log|U|)；同理第3.2步的时间复杂度为O((|B|-1)|U|log|U|),算法的第3步是一个循环过程，在最坏的情况下，时间复杂度为O([(|C|-1)+ (|C|-2)|+…+1]|U|log|U|)=O (|C|2|U|log|U|).一般而言，|D|《|C|，|A|≈|C|,故整个算法最坏的时间复杂度为O( |C|2| U|log|U|).3 实例分析例1 设有气象信息决策表[2](表1),用本算法求属性约简, 其中C={a1,a2,a3,a4},D={d}表1 气象信息决策表U(a1)outlook(a2)temperature(a3)humidity(a4)windyd1SunnyHotHighFalseN2SunnyHotHighTrueN3OvercastHotHighFalseP4RainMildHighFalseP5Rai nCoolNormalFalseP6RainCoolNormalTrueN7OvercastCoolNormalTrueP8SunnyMildHighFalseN9SunnyCoolNormalFalseP10RainMildNormalFalseP11S unnyMildNormalTrueP12OvercastMildHighTrueP13OvercastHotNormalFals eP14RainMildHighTrueN步骤1：计算DP(C→D);由于U/IND(C)={{1},{2}{3},{4},{5},{6},{7},{8},{9},{10},{11},{12},{13},{14}}=U;U/IND(D)={{1,2,6,8,14}, {3,4,5,7,9,10,11,12,13}}; 所以DP(C→D)=1;则决策表是一致的.步骤2：计算DP({ai}→D);DP({a1}→D)=23/35; DP({a2}→D)=47/84; DP({a3}→D)=31/49;DP({a4}→D)=4/7;故DP({a2}→D)< DP({a4}→D)< DP({a3}→D)< DP({a1}→D); 把a2选入.步骤3：令B=C,计算DP(B-{a2}→D)，由于DP(B-{a2}→D)=DP({a1,a3,a4}→D)=1= DP(C→D);故{a2}被约简，令B=B-{a2}={a1,a3,a4};而对其余的ai , DP(B-{ai}→D)<1≠DP(C→D);不能被约简，因此最后约简为{a1,a3,a4},与文献[3]的结果一致.4 结论在数据挖掘中，支持度和置信度是对单个规则的衡量程度，本文综合了支持度和置信度的意义，定义了决策表的决策强度的概念，决策强度体现了整个决策表的规则集合的性质，而决策表的约简分析正是体现了规则集合度量(决策强度)的变化.本文证明了在决策表的属性约简过程中,决策强度的变化是单调递减的. 给出了一种基于决策强度的属性约简的启发式算法,分析了该算法的时间复杂性,例子分析表明该算法是有效的.[1]Pawlak Z. Rough set theoretical aspects of reasoning about date[M]. Poland : Warsaw，1991.[2]王国胤.Rough集理论与知识获取[M].西安:西安交通大学出版社，2001.[3]张文修，梁怡，吴伟志.信息系统与知识发现[M].北京:科学出版社，2003.[4]叶东毅，陈昭炯.一个新的差别矩阵及其求核方法[J].电子学报，2002,30(7):1086-1088.[5]王国胤，于洪，杨大春.基于条件信息熵的决策表约简[J].计算机学报，2002，25(7): 759-766.[6]刘振华，刘三阳，王珏.基于信息量的一种属性约简算法[J].西安电子科技大学学报，2003，30(6): 835-838.[7]桂现才，彭宏.决策表属性约简及其条件信息量表示[J].计算机工程与应用，2006，42(14): 197-199.[8]桂现才.基于相对熵的一种属性约简算法[J].计算机工程与应用，2006，42(33):197-199.[9]JiYe Liang, Chin K S, ChuangYin Dang,et al. A new mothod for measuring uncertainty and fuzziness in rough set theory[J]. International Journal of General System，2002，31(4):33-342.[10]苗夺谦，胡桂荣.知识约简的一种启发式算法[J].计算机研究与发展，1999，36(6):681-684.[11]王加阳，罗安，陈松乔.基于粗集的决策分析[J].模糊系统与数学，2006，20(5):136-143.。

决策表的一种知识约简与规则获取方法

收稿日期:2006-02-28作者简介:孙胜(1978-),男,湖北黄冈人,博士研究生,研究方向为现代数据库理论与技术及系统实现;导师:王元珍,教授,博士生导师,主要研究方向为现代数据库理论及实现技术。

决策表的一种知识约简与规则获取方法孙胜1,2(1.华中科技大学计算机学院,湖北武汉430074;2.黄石理工学院计算机学院,湖北黄石435003)摘要:粗糙集理论是一种新型的数据挖掘和决策分析方法,利用粗糙集理论进行决策表的知识约简与决策规则挖掘已经成为研究热点。

文中介绍了粗糙集的基本理论,在此基础上运用该理论对从决策表中获取最小规则进行了研究,提出了决策表约简的启发式方法,并通过一个具体实例详细说明了决策规则获取过程,实例分析表明了其有效性。

关键词:粗糙集;决策表;决策规则;属性约简中图分类号:T P311.131 文献标识码:A 文章编号:1673-629X(2006)09-0035-03Knowledge Reduction and Rule Acquirement Method in Decision TableSUN Sheng 1,2(1.Schoo l of Computer Science,Huazhong U niv ersity of Science and T echnolog y,Wuhan 430074,China;2.School of Computer Science,Huangshi Institute of T echnolog y,Huangshi 435003,China)Abstract:Rough set theory is a new data mining and decision analysis method.Knowledge reduction and decision rule mining in decision table by using rough set theory has become a research hotspot.T he article introduces basic con cepts in rough set theory first.M inimal dec-i sion rule acquirement in deci sion table based on rough set theory i s researched.A heuristic approach for rule reduction is put forward,and the procedure of decisi on rule acquirem ent is i lluminated using an example.T he instance analysis show s its validity.Key words:rough set;deci sion table;decision rule;attribute reduction0 引言粗糙集理论是由波兰科学家Z.Paw lak 教授于1982年提出的一种研究不精确、不确定性知识的数学工具[1,2]。

基于相似矩阵的连续域决策表属性约简算法

基于相似矩阵的连续域决策表属性约简算法黎仁国;钟勇;魏世博【摘要】把模糊集和粗糙集结合起来,对连续域决策表属性约简算法进行了研究.首先,使用三角隶属度函数将连续属性值转化为模糊值;然后定义了两模糊对象间的相似度、模糊对象的相似类以及连续属性在对象集上划分所形成的相似类集组成的特征向量;给出了连续型属性的数字特征向量,并以此为基础建立了连续属性间的相似矩阵;最后,提出了一个新的属性约简算法,并用实例进行了验证.【期刊名称】《情报杂志》【年(卷),期】2010(029)004【总页数】4页(P155-158)【关键词】模糊集;粗糙集;三角隶属度函数;相似矩阵;属性约简【作者】黎仁国;钟勇;魏世博【作者单位】西华师范大学计算机学院,南充,637009;中国科学院成都计算机应用研究所,成都,610040;解放军理工大学通信工程学院,南京,410000【正文语种】中文【中图分类】TP301粗糙集理论[1]是一种研究不精确、不确定性知识的数学工具,其主要思想和优点就是在保持分类能力不变的前提下,能够通过知识约简,导出问题的决策或分类规则。

属性约简就是该理论中一个非常重要的概念,它反映了一个决策表的本质信息,现已得到广泛的应用[2]。

在实际情况中,大多数数据集的属性值是连续型的。

这些连续型数据大多具有较强的模糊性,概念之间的界限并不十分明确。

由于传统粗糙集理论十分适合处理离散域属性决策表,对于连续域属性决策表的处理能力非常有限,这就大大限制了它的应用。

如果把粗糙集理论应用于连续型属性,那么在使用该理论之前就必须对连续属性进行离散化。

然而,离散化后的属性值没有保留属性值在实数值上存在的差异,这将导致某种程度的信息损失。

所以,粗糙集理论需要与其他能够处理不精确或不确定问题的理论结合起来,以扩展其应用范围。

模糊集理论也是一种用于在建模中针对一些实验数据中不确定性和模糊性问题的有力工具。

其优点在于:模糊集理论提供了系统的、以语言表示这类信息的计算工具,通过使用由隶属函数表示的语言变量,它还可以进行数值计算。

人工智能原理及其应用(王万森)第3版-课后习题答案

机终端进行会话。

测试开始后，由测试主持人向被测试对象提出各种具有智能性的问题，但不能询问测试者的物理特征。

被测试对象在回答问题时,都应尽量使测试者相信自己是“人”，而另一位是”机器”。

在这个前提下，要求测试主持人区分这两个被测试对象中哪个是人，哪个是机器。

如果无论如何更换测试主持人和被测试对象的人，测试主持人总能分辨出人和机器的概率都小于50%，则认为该机器具有了智能。

1.5人工智能的发展经历了哪几个阶段？解：孕育期，形成期，知识应用期，从学派分立走向综合，智能科学技术学科的兴起1.6人工智能研究的基本内容有哪些？解：与脑科学与认知科学的交叉研究智能模拟的方法和技术研究1.7人工智能有哪几个主要学派？各自的特点是什么？解：符号主义：又称为逻辑主义、心理学派或计算机学派，是基于物理符号系统假设和有限合理性原理的人工智能学派。

符号主义认为人工智能起源于数理逻辑，人类认知（智能）的基本元素是符号，认知过程是符号表示上的一种运算。

联结主义：又称为仿生学派或生理学派，是基于神经网络及网络间的联结机制与学习算法的人工智能学派。

联结主义认为人工智能起源于仿生学，特别是人脑模型的研究。

行为主义：又称进化主义或控制论学派，是基于控制论和“感知-动作”控制系统的人工智能学派。

行为主义认为人工智能起源于控制论，提出智能取决于感知和行为，取决于对外界复杂环境的适应，而不是表示和推理。

1.8人工智能有哪些主要研究和应用领域？其中哪些是新的研究热点？解：机器思维:推理、搜索、规划机器学习：符号学习、联结学习、知识发现和数据挖掘机器感知：机器视觉、模式识别、自然语言理解机器行为：智能控制、智能制造计算智能：神经计算、进化计算、模糊计算分布智能智能系统：专家系统、智能决策支持系统人工心理与人工情感研究热点：智能机器人、智能检索、智能游戏等。

1.9 人工智能未来发展有哪些值得思考和关注的重要问题？解：多学科交叉研究分布智能与社会智能研究集成智能研究智能网络研究认知计算与情感计算研究智能系统与智能服务第2章确定性知识系统参考答案2.1 什么是知识？有哪几种主要的知识分类方法？解：知识是人们在改造客观世界的实践中积累起来的认识和经验；知识是对信息进行智能性加工中形成的对客观世界规律性的认识。

第八章粗糙集决策方法

第3 第 3页页
本讲内容

《决策理论与方法》
粗糙集理论的基本概念完备决策系统的粗糙决策分析方法不完备决策系统的粗糙决策分析方法基于优势关系的粗糙决策分析方法基于扩展优势关系的粗糙决策分析方法
第4 第 4页页
8.1粗糙集理论的基本概念

《决策理论与方法》
8.1.1知识与知识表示
(5) X Y R( X ) R(Y ),
(6)
R( X ) R(Y )
R( X ) R( X ), R( X ) R( X ) R(R( X )) R(R( X )) R( X )
(7) R(R( X )) R(R( X )) R( X ),
X粗糙集的概念可以用下面的示意图来表示：
U / c1
2 1 4 5 6 3 7 2 8 1 4 7 2 5 8 3 6
3
1
2
3
4
8
5
6
6
7
1
4
2
8
3
5
7
1
4
5
2
8
3
7
6
第9 第 9页页
R
《决策理论与方法》
8.1.2近似与粗糙集
设 X U , R 为U 上的等价关系，当 X 能表示为某些基本范畴并时，称是 R 可定义集；否则称 X 是 R 不可定义集。 R 可定义集是论域的子集，它可在知识库中精确地定义，而 R 不可定义集不能在这个知识
POSC ( D) POSC a ( D)
S (U , C D,V , f ), 若
则称属性 a 为 C 中 D 可省略，否则
属性 a 为

1、下载文档前请自行甄别文档内容的完整性，平台不提供额外的编辑、内容补充、找答案等附加服务。
2、"仅部分预览"的文档,不可在线预览部分如存在完整性等问题,可反馈申请退款(可完整预览的文档不适用该条件!)。
3、如文档侵犯您的权益，请联系客服反馈,我们会尽快为您处理(人工客服工作时间：9:00-18:30)。

第八章信息表值约简值约简是在属性约简的基础上对决策表的进一步简化。

本章将就决策表的值约简问题进行系统分析，并介绍几种主要的值约简算法。

8.1 决策表值约简概述在第7章中，我们介绍了决策信息表的属性约简，通过属性约简，可以将决策表中对决策分类不必要的属性省略，从而实现决策表的简化，这有利于从决策表中分析发现对决策分类起作用的属性。

但是，属性约简只是在一定程度上去掉了决策表中的冗余属性，但是还没有充分去掉决策表中的冗余信息。

例如，在表7.3-1所示的关于气象信息的决策表表的属性约简结果中，如果在条件Outlook=Sunny∧Temperature=Hot下，决策属性的取值肯定是N，而无需考虑条件属性Windy的取值是True还是False。

显然，这个属性约简结果，对于决策分类来说，仍然包含冗余信息。

根据第四章中介绍的决策规则，我们不能够直接从该表中得到满意的决策规则。

这就是说我们还需要进一步对决策表进行处理，得到更加简化的决策表，这就是我们本章将要讨论的决策表值约简问题。

与属性约简中的属性核一样，值约简中也可以定义相应的值核。

决策表S=(U,C,D,V,f)，对于任意的x∈U，用d x表示决策规则，即d x：des([x]C)⇒des([x]D)，d x(a)=a(x)，a∈C⋃D，且d x|C、d x|D分别称为d x的条件和决策。

定义8.1-1 考虑一个相容知识表达系统S，对决策规则d x有[x]C⊆[x]D。

若∀r∈C，有[x]C-{r}⊄[x]D，则r为d x的核值属性，r为d x中不可省略的；若[x]C-{r}⊆[x]D，则r不是d x的核值属性，r为d x中可省略的。

8.2 决策表值约简算法8.2.1 一般值约简算法对于一个经过属性约简而得到的决策表，我们可以对应其中的每一个样本形成一条决策规则。

因此，我们可以将决策表中的样本用规则来表示，这样，约简后的决策表，实际上就是一个规则集合。

对于这个规则集合，我们可以利用如下算法来进行简化：对于规则集合中的每条规则对于该规则中的任意条件属性如果去掉该条件属性，该规则不和规则集中的其它规则冲突，则可以从该规则中去掉该条件属性；经过这样处理得到的规则集合中的所有规则都不含有冗余条件属性，也就是说，规则的条件属性数目已经被尽可能减少了。

但是，这个算法的实现有很多任意性，比如，由于处理规则的顺序不同，或者处理规则中条件属性的顺序不同，我们都可以得到不同的值约简结果，得到的规则集合就会有所不同。

因此，我们往往需要一些启发式知识来指导这一过程的进行。

8.2.2 归纳值约简算法我们在7.3.3一节中对归纳属性约简进行了介绍，这里对归纳值约简加以讨论。

由核值的定义，求得每个规则d x的核值属性，就可形成决策表的条件属性核值表。

但是，这样做的工作量太大。

为了介绍归纳值约简算法，先看如下命题。

命题8.2-1 对相容知识表达系统S=(U,C,D,V,f)，则以属性a为核值属性的决策规则集合为core(a)={d x|x∈(U-pos C-{a}(D))}。

证明：∀a∈C，令B=pos C-{a}(D)。

对∀x∈U-B，如果规则d x：des([x]C-{a}) ⇒des([x]D)为不相容决策规则，则必存在一决策规则d x’，使得d x’|(C-{a}) =d x|(C-{a})，而d x’|D≠d x|D，即x’∈[x]C-{a}，但x’∉[x]D，因此[x]C-{a}⊄[x]D。

所以a 为决策规则d x 的核值属性，即core(a)={d x |x ∈(U-pos C-{a}(D))}。

根据上述命题，可以方便地求取任意条件属性a 的core(a)，从而得到决策表的条件属性核值表。

在此基础上，我们来计算决策规则属性值的简化。

令U/D={y 1,y 2,⋯,y n }表示论域U 上由决策属性划分的决策类集，对每一个决策等价类，定义决策规则类DRC 为DRC(y)={d x :des([x]C )⇒des([x]D )|x ∈U 且[x]C ⊆y}，∀y ∈U/D 。

求解知识表达系统决策表的最小决策算法，可通过分别求解各个决策类的最小决策算法来实现。

各决策类的最小决策算法则通过删除决策规则类中决策规则的冗余属性值及冗余规则来实现。

用core(y)，∀y ∈U/D 表示决策类y 的核值属性集，core(d x )表示决策规则d x 的核值属性集，则有core(y)⊆C ，core(d x ) ⊆C ，且)()()(y DRC d xx dcore y core ∈=。

下面给出求取决策类y 的最小决策算法步骤： 1）任取d x ∈DRC(y)； 2）如果yx x d core ⊆)(][，则输出决策规则d x :)()(]/[)()(),]([)]([x x d core D d core x y DRC y DRC x des x des =⇒，转9）；其中，)(]/[)()(x d core x y DRC y DRC =表示从DRC(y)中删除规则d x ’:des([x ’]C )⇒des([x ’]D )，这里，x ’∈)(][x d core x 。

3）令A 1=c o r e (y)-c o r e (d x )，A 2=C -c o r e (y)，在测度函数 w(a)=|pos C-{a}(D)|/|U|下对A 1、A 2中元素排序，得有序集OA 1、OA 2，则有序集OA=OA 1⋃OA 2且|OA|=m ，OA 的m 个有序幂子集分别为T 1(OA)，T 2(OA)，⋯，T m (OA)，相应的元素个数为n 1，n 2，⋯，n m 。

4）j=1； 5）i=1；6）令B=core(d x )⋃)(OA Ti j，如果[x]B ⊆y ，输出d x :des([x]B )⇒des([x]D )，B x y DRC y DRC ]/[)()(=，转9）；7）i=i+1，如果i ≤n j ，转6)； 8）j=j+1，如果j ≤m ，转5)； 9）如果DRC(y)≠φ，转1）； 10）结束。

根据上述步骤，依次求得各决策类y ∈U/D 的最小决策算法，就可以得到整个决策表的最小决策算法。

8.2.3 启发式值约简算法分析最小值约简，也可以从值核入手。

算法输入：信息系统T （假定系统有n 条记录，m-1个条件属性，1个决策属性）。

算法输出：T 的值约简T ’。

第一步对信息表中条件属性进行逐列考察。

删除该列后，若产生冲突记录，则保留冲突记录的原该属性值；否则，如果有重复记录，则将重复记录的该属性值标记为“*”；对于其他记录，将该属性值标记为“？”。

For(j=1 To m-1)For(i=1 To n) { If))?)*(((,,T T T T T T km im kl il il il l k m l j l i k ≠∧==→≠∧≠∧≠∧≠∧≠∀∃T T ijij=,;Elseif))?*((',T T T T kl il il il l k j l i k ==→≠∧≠∧≠∧≠∀∃*,=Tij;Else ?,=Tij;} For(i=1 To n) T Tim im=,;第二步删除可能产生的重复记录，并考察每条含有标记“？”的记录。

若仅由未被标记的属性值即可以判断出决策，则将标记“？”改为“*”；否则，将标记“？”修改为原属性值；若某条记录的所有条件属性均被标记，则标记“？”修改为原属性值。

For(j=1 To m-1)For(i=1 To n) { If?,==Tij{If*))?((,,==∨==→≠∀T Til illm lT T ijij=,;ElseIf))*?((,,T T T T T Tkm im kl il il illkm l ==→==→≠∧≠∧≠∀∀*,=T ij;Else T Tij ij=,;}}第三步删除所有条件属性均被标记为“*”的记录及可能产生的重复记录（假定Card(T ’)=n ’）。

第四步如果两条记录仅有一个条件属性值不同，且其中一条记录该属性被标记为“*”，那么，对该记录如果可由未被标记的属性值判断出决策，则删除另外一条记录；否则，删除本记录。

For each tuple (i ) in T ’{If ))(*(,,,,,T T T T Tkj ij j il kl illkl j m l ==→≠∧==∧≠∧≠∀∃∃{If))*)(((,,,T T T T Tim hm ij hj ijj hm j ==→==→≠∧≠∀∀删除记录k ; Else 删除记录i ;}Else If))(*(,,,,,T T T T Tkj ij j kl kl illkl j m l ==→≠∧==∧≠∧≠∀∃∃{If ))*)(((,,,T T T T T km hm kj hj kj j h m j ==→==→≠∧≠∀∀删除记录i ; Else 删除记录k ;}}经过上述值约简之后得到的新信息表，所有属性值均为该表的值核，所有记录均对应为一条决策规则。

8.2.4 基于决策矩阵的值约简算法这里对Ziarko 等人用于获取具有最大适应度（一般化）规则的值约简算法进行介绍，采用的是可变精度Rough 集模型。

对于一个属性约简结果信息表RED ，令+i X (i=1,2,⋯,γ)、-j X (j=1,2,⋯,ρ)表示关系R *(RED)的等价类，)(Y POS X RED i β⊆+，)(Y NEG X RED j β⊆-，决策矩阵M=(M ij )γ⨯ρ定义为：{}),(),(,:)),(,(a X f a X f RED a a X f a M j i i ij -++≠∈=。

也就是说，M ij 包含了在等价类+i X 和-j X 上具有不同值的所有属性值对。

给定等价类+i X ，将M ij 的各个元素作为一个布尔表达式，决策规则集合可以表达为如下形式的布尔函数：)(ij ji M B ∨∧=。

可以看出，布尔函数B i 的基本蕴含实际上是属于正域)(Y POS RED β的等价类+i X 的最大一般化规则。

因此，通过发现所有决策函数B i (i=1,2,⋯,γ)的基本蕴含，就可以计算出正域)(Y POS RED β的所有最大一般化规则。

Ziarko 等人将此算法成功地应用于一个水资源调度系统的设计中，有关内容可以参考本书10.1节。

8.3 缺省规则获取算法前面对属性约简和值约简的算法进行了介绍，经过约简，得到的结果就直接和决策规则对应，因此也就是得到了决策规则。

对于决策表，我们也不一定需要通过约简来学习得到决策规则。

下面介绍Skowron 提出的一种通过投影得到缺省决策规则的算法。