大数据环境下多决策表的区间值全局近似约简

合集下载

基于大数据的配电网故障诊断预测模型设计

电气传动2022年第52卷第2期摘要：针对传统基于无线传感器的配电网故障检测模型对大数据环境下的配电网故障数据存在诊断准确率低、故障诊断耗时较长以及经济效益较低的问题，设计基于大数据的配电网故障诊断预测模型，其采用RS-IA 模型对大规模故障信息进行智能搜索，计算出最优约简得到决策规则，实现对配电网故障发生位置的初步定位。

采用基于模糊积分的故障诊断预测模型，根据初步诊断结果确定发生故障的候选元件及模糊测度值，根据拓扑信息以及元件的诊断结果形成不同相关联度的支持度集合，采用模糊积分融合技术确定模糊积分值构成故障可能性指标集合，根据该指标确定配电网故障发生的准确位置。

实验结果说明，所设计模型能提高大规模配电网故障诊断的精度，缩短诊断用时，提高配电网的安全性。

关键词：大数据；配电网；故障诊断；预测模型；模糊积分；预处理中图分类号：TM76文献标识码：ADOI ：10.19457/j.1001-2095.dqcd22297Design of Fault Diagnosis and Prediction Model for Distribution Network Based on Large DataCHENG Xiaolei ，WANG Peng ，WANG Yuan ，ZHAO Jiadong（Inner Mongolia Electric Power Economics and Technology Research Institute ，Hohhot 010090，Nei Monggol ，China ）Abstract:The fault data of distribution network based on traditional wireless sensor fault detection model is based on large data environment ，which is low in diagnostic accuracy ，time-consuming in fault diagnosis and poor in economy.A distribution network fault diagnosis model based on large data was designed ，which makes use of the intelligent searching ability of RS -IA for large-scale fault information and the optimal reduction of calculation decision rules to realize the initial location of distribution network fault.The fault diagnosis and prediction model based on fuzzy integral determines the candidate component faults and fuzzy measure values according to the preliminary diagnosis results ，forms the related support set of different components according to the topological information and diagnosis results ，determines the fuzzy integral value set of fault probability index by using the fuzzy integral fusion technology ，determines the accurate distribution position of fault in the network according to the index.The experimental results show that the design model can improve the accuracy of the fault diagnosis of the large-scale distribution network ，shorten the diagnosis time and improve the safety of the distribution network.Key words:large data ；distribution network ；fault diagnosis ；prediction model ；fuzzy integral ；preprocessing基于大数据的配电网故障诊断预测模型设计程晓磊，王鹏，王渊，赵嘉冬（内蒙古电力经济技术研究院，内蒙古呼和浩特010090）基金项目：内蒙古电力有限公司科研项目（510141190010）作者简介：程晓磊（1981—），男，硕士，高级工程师，Email ：*******************随着社会经济的发展和人民生活水平的不断提高，电力系统能够直接影响人们的日常生活，配电网使用者对电网的安全性和可靠性的要求越来越高。

数据约简的方法

数据约简的方法数据约简就像是给数据来一场超级减肥大赛，下面我给你唠唠几种方法。

首先是采样法。

这就好比从一大群羊里挑几只最有代表性的羊来代表整个羊群。

比如你有海量的用户访问数据，你不可能把每一次访问都详细研究，那就每隔一段时间或者每隔几个访问者抽取一个样本，这样既能抓住数据的大致特征，又能大大减少数据量。

就像你要尝一锅汤的味道，不需要把整锅汤都喝光，只要舀几勺尝尝就知道个大概了。

再说说特征选择。

这就像是从满桌的菜里挑出最合口味的那几道菜。

数据可能有一堆的特征，但并不是每个特征都对结果有重要影响。

比如说判断一个人是否会买某个商品，可能他的头发颜色这个特征就完全不重要，那我们就把这个像“花瓶里的假花”一样没用的特征去掉，只留下像“年龄、收入、消费习惯”这些真正有用的“硬菜”。

维度约简也是个好办法。

这就像是把三维立体画压扁成二维的简笔画。

当数据有太多的维度，就像一个复杂的迷宫，让人眼花缭乱。

我们通过一些数学魔法，把那些多余的维度去掉，就像把迷宫里那些死胡同都去掉，只留下通往出口的主要通道。

聚类法也很有趣。

想象一下，这就像是把一群小动物按照种类分类关进不同的笼子。

把相似的数据点聚成一类，然后用一个代表点来表示这一类。

这就好比一群兔子里，选一只最可爱（最有代表性）的兔子来代表整个兔子群，其他兔子就可以先不管啦，这样数据量就大大减少了。

还有数据离散化。

这就像是把连续的彩虹颜色分成几块大的颜色区域。

比如把连续的年龄数值变成“儿童、青年、中年、老年”这样的区间，一下子就把那些细微的年龄差别给简化了，就像把彩虹上无数种颜色变成了红、橙、黄、绿、蓝、靛、紫这几种主要颜色一样。

近似法就像是给数据画个大概的轮廓。

比如说，精确的数字太麻烦了，我们把1.23、1.24、1.25这些相近的数字都近似成1.2，就像把那些长得很像的双胞胎、三胞胎当成一个人来统计，虽然不精确到每一个细节，但也能反映出大致的情况。

主成分分析就像是从一群超级英雄里找出最核心的几个英雄。

区间值决策信息系统中基于正域的属性约简

区间值决策信息系统中基于正域的属性约简陈华峰; 龙建武; 瞿先平【期刊名称】《《重庆理工大学学报（自然科学版）》》【年(卷),期】2019(033)011【总页数】7页(P130-136)【关键词】区间值; 决策信息系统; 邻域; 正域; 属性约简【作者】陈华峰; 龙建武; 瞿先平【作者单位】重庆电讯职业学院基础部重庆402247; 重庆理工大学计算机科学与工程学院重庆400054【正文语种】中文【中图分类】O235粗糙集理论作为一种有效的数据挖掘工具，自20世纪80年代由波兰数学家Pawlak[1]提出以来，其对知识的自动获取、机器学习以及模式识别等多个科学研究领域的发展都起到了积极的推动作用。

该理论主要是基于一个等价关系对论域进行划分，然后通过一对上、下近似算子来描述任意对象集的近似范围，以此从数据库挖掘出以规则形式进行表达的知识。

随着粗糙集理论研究及实际应用的不断深入，经典的Pawlak 粗糙集模型存在着一定的不足之处，为此大量的学者对广义粗糙集模型进行了深入的研究[2-4]。

常见的方法是将经典粗糙集模型中的等价关系推广为一般二元关系，也即是将等价关系所需满足的3条(自反性、对称性、传递性)删除1条或多条，从而构造满足特定要求的二元关系，以此建立基本信息粒结构[5-6]。

也有通过邻域来建立基本信息粒的，即按照某一度量方式得到小于给定的阈值的对象构成的集合为一个基本信息粒[7-8]。

还有学者结合实际问题的需要，提出了多粒度粗糙集方法[9-10]，这些方法常用于不完备信息系统或广义值信息系统的知识发现研究中。

信息系统作为数据描述的基本形式，是基于粗糙集理论研究的基础[11]。

随着数据的多元化和复杂化，用简单的实数值来描述对象和属性之间的关系明显不够，为此学者们分别对模糊值信息系统[12]、模糊决策序信息系统[13]、直觉模糊信息系统[14-15]、基于覆盖的决策信息系统[16]等进行了系统的研究。

优势-等价关系下区间值目标信息系统的分配约简

ｂｅｐｒｏｖｉｄｅｄｉｎｉｎｃｏｎｓｉｓｔｅｎｔｉｎｔｅｖａｒｌｏｒｄｅｒｅｄｉｎｆｏｍａｒｔｉｏｎｓｙｓｔｏｍｉｎａｎｃｅａｎｄｅｑｕｉｖａｌｅｎｔｒｅｌａｔｉｏｎｓ；ｉｎｔｅｒｖｌａｖｌｕａｅｄｉｎｆｏｍａｒｔｉｏｎｓｙｓｔｅｍ；ａｓｓｉｇｎｍｅｎｔｒｅｄｕｃｔｉｏｎ；ａｐｐｏｘｒｉｍａｉｔｏｎ
ＤｏｍｉｎａｎｃｅａｎｄＥｑｕｉｖａｌｅｎｔＲｅｌａｔｉｏｎｓ
ＸＩＥｎ —ｑｉｏｎｇ
（ＳｃｈｏｄｏｆＭａｔｈｅｍａｔｉｃｓａｎｄＳｔａｉｔｓｉｔｃｓ，ＭｉｎｎａｎＮｏｒｍａｌＵｎｉｖｅｒｓｉｔｙ，Ｚｈａｎｇｚｈｏｕ，Ｆｕｊｉａｎ３６３０００，Ｃｈｉｎａ）
之间的关系。相继讨论知识约简的判定定理以及对应的辨识矩阵。提出在优势一等价关系下的区间值日标信息系
统分配约简的详细计算方法．
关键词：优势一等价关系；区闻值目标信息系统；分配约简；近似约简
ＧｅｎｅｒａｌＮｏ．９２
优势一等价关系下区间值目标信息系统的分配约简
谢文琼

决策表的一种知识约简与规则获取方法

收稿日期:2006-02-28作者简介:孙胜(1978-),男,湖北黄冈人,博士研究生,研究方向为现代数据库理论与技术及系统实现;导师:王元珍,教授,博士生导师,主要研究方向为现代数据库理论及实现技术。

决策表的一种知识约简与规则获取方法孙胜1,2(1.华中科技大学计算机学院,湖北武汉430074;2.黄石理工学院计算机学院,湖北黄石435003)摘要:粗糙集理论是一种新型的数据挖掘和决策分析方法,利用粗糙集理论进行决策表的知识约简与决策规则挖掘已经成为研究热点。

文中介绍了粗糙集的基本理论,在此基础上运用该理论对从决策表中获取最小规则进行了研究,提出了决策表约简的启发式方法,并通过一个具体实例详细说明了决策规则获取过程,实例分析表明了其有效性。

关键词:粗糙集;决策表;决策规则;属性约简中图分类号:T P311.131 文献标识码:A 文章编号:1673-629X(2006)09-0035-03Knowledge Reduction and Rule Acquirement Method in Decision TableSUN Sheng 1,2(1.Schoo l of Computer Science,Huazhong U niv ersity of Science and T echnolog y,Wuhan 430074,China;2.School of Computer Science,Huangshi Institute of T echnolog y,Huangshi 435003,China)Abstract:Rough set theory is a new data mining and decision analysis method.Knowledge reduction and decision rule mining in decision table by using rough set theory has become a research hotspot.T he article introduces basic con cepts in rough set theory first.M inimal dec-i sion rule acquirement in deci sion table based on rough set theory i s researched.A heuristic approach for rule reduction is put forward,and the procedure of decisi on rule acquirem ent is i lluminated using an example.T he instance analysis show s its validity.Key words:rough set;deci sion table;decision rule;attribute reduction0 引言粗糙集理论是由波兰科学家Z.Paw lak 教授于1982年提出的一种研究不精确、不确定性知识的数学工具[1,2]。

水平划分多决策表下基于相对粒度的隐私保护属性约简算法

ｍｕｌｉｐａｔｅｈｌｇｏｄｉｎａｐｒｖｃ－ｒｓｒｉｒｔｃｌｆｒｃｍｐｕｉｇｇｏａｅａｉｅｇａｕａｔｗｈｃｏｌｅｃｕ— ｔ・ｒｙｔｃｎｏｏｙｔｅｓｇｉａｙｐｅｅｎｇｐｏｏｏｏｏｖｔｎｌｂｌｒｌｔｖｎｌｒｙ，ｉｈｃｕｄｇｔａｃｒｉｒｔｔｒｂｕｅｒｄｕｔｏｆｅｔｉｈｒｍｉｅｏｏｓａｉｆｐｉａｅｉｆｒｔｏｍｏｇｐｒｉｉｔｒ．Ａｎａｙｉｅｕｔｈｗｈａｅａｔｉｔｅｃｉｎｅｆｃｎｔｅｐｅｓｆｎｈｒｎｇｏｒｖｔｎｏｍａｉｎａｎａｃｐａｏｓｔｌｓｓｒｓｌｓｓｏｔｅｐｏｓｄａｇｒｔｍｓｅｆｃｉｅａｄｅｆｃｅｔｒｐｏｅｌｏｈｉｆｅｔｖｎｆｉｉｎ．ｉ
ｕａｉｏｒｖｃ — ｒｓｒｉｇｄｓｒｕｅｔｂｔｅｕｔｎｗｈｃｏｌｏｖｈｒｂｅｔａｌｐｅｐｒｅａｒｅｕｔｌｒｙｆｒｐｉａｙｐｅｅｖｎｉｉｔｄａｔｕｅｒｄｃｉ，ｉｈｃｕｄｓｌｅｔｅｐｏｌｍｈｔｔｔｂｉｒｏｍｕｔｌａｔｓｃｒｉｄｏｔ — ｉｉａｔｂｔｒｄｃｉｎｃｍｐｔｔｎｉｉｔｂｔｄｅｖｒｎｎｉｏｔｓａｉｇｐｉａｅｄｔ．ｈｌｏｔｍｏｌｏｕｅｇｏａａ — ｉｒｕｅｅｕｔｏｕａｉｎｄｓｕｅｎｉｏｍｅｔｗｔｕｈｒｎｒｖｔａａＴｅａｇｒｈｃｕｄｃｍｐｔｌｂｌｔｏｏｉｒｈｉｔｂｔｒｄｃｉｎｂｓｄｏｈｔｂｔｅｕｔｎｉｅｆｒｌｔｅｇａｕａｔａｄｕｅｅ — ｕｔｄｔｉａｔｎｅｕｅｉｒｕｅｅｕｔａｅｎｔｅａｔｕｅｒｄｃｉｄａｏｅａｉｒｎｌｒｙ，ｎｓｄｓｍｉｒｓｅｈｒｐｒａｄｓｃｒｏｉｒｏｖｉｔｄｙ

大数据近似算法

大数据近似算法
大数据近似算法是一种解决大数据问题的有效方法。

由于大数据量庞大，直接处理所有数据需要消耗大量的时间和计算资源，因此我们需要采用一些近似算法来快速得到近似的结果。

近似算法可以采用多种技术，如采样、略图、摘要等，以引入可控误差的方式解决由数据规模扩大带来的时间、空间和通讯量效率问题。

这种算法可以处理的数据规模远远超过传统算法，而且可以快速得到近似的结果。

近似算法有很多应用场景，例如机器学习、数据挖掘、图像处理等。

在机器学习中，我们可以用近似算法来训练模型，加速模型的训练过程。

在数据挖掘中，我们可以用近似算法来处理大规模的数据集，快速找到有用的信息。

在图像处理中，我们可以用近似算法来加速图像处理的过程，提高处理效率。

总之，大数据近似算法是一种非常有用的算法，它可以有效地处理大规模的数据集，快速得到近似的结果。

在未来的大数据处理中，它将会发挥越来越重要的作用。

基于集对分析的多值信息系统粗集模型及其约简

定义１给定两个集合Ａ和日，＿ｏ并设这两个集合组成集对Ｈ＝（，）在某个具体的问题背景ＡＢ，
下，集对Ｈ有ｎ个特性，中，ｓ为集对Ｈ中其有个Ａ和所共有；为Ａ和相对立个为Ａ和Ｐ个厂
收稿日期：０６— ３—７２００１基金项目：国家自然科学基金（０７０２资助项目６４４２）作者简介：王燕（９１）女，１８．，硕士生；指导教师：莫智文（９３）男，１６一，教授
维普资讯
２００７年５月
第３０卷
第３期
四川师范大学学报（自然科学版）ＪｕａｏｉｕｎＮｒｌｎｖｒｔ（ａｕａＳｉｎｅｏｒｌｆｃａｏｉｓｙＮｔｌｃｅｃ）ｎＳｈｍａＵｅｉｒ
（ｌ）音＋，（＝争＋２ｙ１）
简记为口＝（Ｙ＝０＋６，，）＋
维普资讯
第３期
上
，
王
燕等：于集对分析的多值信息系统粗集模型及其约简基
卫
，
３９１
Ⅱ
：
６：ｆ
，
ｃ
：
６（＝｛：：）ｎＤ ≠ ｝：）Ｄ，（Ｓ，式中（）：基数．， ≤Ｊ，ｘｌ示的１．ｌ￣ｒ表
中图分类号：１９Ｃ３０５；９４文献标识码：Ａ文章编号：０１８９（０７０－３８０１０ —３５２０）３０１－３
０引言
粗糙集理论是２０世纪８０年代由波兰学者ｚ．Ｐｗａ提出的一种处理含糊和不精确问题的新ａｌｋ１Ｌ

决策表的最近近似约简

效．
２信息系统与决策表
定义１称（，为信息系统，其中己是有限对象集合，即Ｕ＝｛。：… ）Ａ是有限属性集，即，Ｆ），，，；Ａ＝｛。：…ａ｝Ｆ是ｕ与Ａ的关系集，即Ｆ＝｛：，，ｍ；Ｕ，）其中ｋ，ａ的有限值域．ｋ
３决策表的近似约简
为了刻画边界的不确定性对属性约简的影响，我们给出如下定义：
定义２设，，）ＡＦ为信息系统，对于集合ＸＵ，称为集合的
Ｒ＝｛］ ∈Ｕ）Ａ【：，
收稿日期：２０．１３０８０．２
作者简介：赵雪芬（９３），宁夏大学新华学院助教，研究统计与人工智能的数学基础．１８一，女学基金项目：教育部科学技术研究重点项目（ｏ２６５，宁夏自然科学基金资助项目（０１）Ｎ０１９）ＮＺ５６
ｌｌ
＝Ｒ
ｕＡ＝／＝４，，ｐ．／ｕ｛ …Ａ）
为Ａ确定的不可区分关系在上产生的分划．对于集合ＸＵ，当（＝）Ｘ＝ａＸ）ＢＤ（Ｒ（或Ｎ）＝２（ｊ
时，称为Ａ一精确集；当ｇ（ ≠ （或ＢＤ（）瓦）Ｎ）≠ 时，称为Ａ一粗糙集，它的不确定性是由边界
维普资讯
第３４卷第３期
Ｊ
ｏｕｍａｆＳｔｗｅｔＵｎｉｅｉｙｆｒＮａｉｎａｌｉＮａｕａｌｉｃｔｏｎｌｏｏｕｈｓｖｒｓｔｏｔｏｉｅｔｒ１ｅｎｅＥｄｉｉｔｓＳｃ

大数据技术导论期末复习题2023-5

一、选择题1可视分析是一种（）？【A.】交互式用户界面模型【B.】结构化用户界面模型【C.】非结构化用户界面模型【D.】独立式用户界面模型【答案】A2数据科学的研究对象是（）？【A.】药品成分【B.】文学作品【C.】数据界的数据【D.】人类历史【答案】C3下面不是研究数据方法的是（）？【A.】统计学【B.】机器学习【C.】心理分析【D.】数据挖掘【答案】C4下面是数据科学的主要研究内容的是（）？【A.】数据泄露【B.】数据交易【C.】数据盗窃【D.】数据分析【答案】D5下面不是数据产品开发的特征的是（）？【A.】多样性【B.】无竞争性【C.】增值性【D.】层次性【答案】B6下面不属于互联网大数据的是（）？【A.】视频【B.】图片【C.】音频【D.】心情【答案】D7下面不属于大数据的特性是（）？【A.】数据量大【B.】多样性【C.】真实性差【D.】具有价值【答案】C8下面属于结构化数据的是（）？【A.】表格数据【B.】图形【C.】图像【D.】HTML文档【答案】A9下面不属于大数据的处理过程的是（）？【A.】数据获取、储存【B.】数据清洗【C.】数据分析【D.】数据安全【答案】D10下面不属于大数据离线处理特点的是（）？【A.】数据保存时间短【B.】数据不会发生改变【C.】可进行复杂的批量计算【D.】方便查询计算结果【答案】A11下面不属于大数据处理模式的是（）？【A.】离线处理【B.】在线处理【C.】手动计算【D.】交互处理【答案】C12下面仅属于大数据在线处理模式的是（）？【A.】批量计算【B.】流式计算【C.】手动计算【D.】交互处理【答案】B13下面不属于流式数据源的是（）？【A.】硬盘数据【B.】传感器数据【C.】图像数据【D.】流媒体传输【答案】A14下面不属于流式数据的特点的是（）？【A.】实时性【B.】层次性【C.】易失性【D.】突发性【答案】B15下面不属于大数据计算模式的类型的是（）？【A.】批量计算【B.】手动计算【C.】流式计算【D.】交互式计算【答案】B16下面不属于数据流技术应用的方式是（）？【A.】指定查询【B.】模糊查询【C.】即席计算【D.】中间计算【答案】B17下面不属于判断大数据应用成功的指标是（）？【A.】创造价值【B.】具备高速度【C.】在本质上提高【D.】低性能【答案】D18基于任务的定义和分类，下列不属于可视分析关注点的是（）？【A.】以用户价值为关注点【B.】以用户意图为关注点【C.】以同户行为为关注点【D.】以软件操作为关注点【答案】A19下面不属于企业大数据应用成功的考虑因素是（）？【A.】成本【B.】客户满意度【C.】附加收益【D.】工人满意度【答案】D20下面不属于大数据在通讯行业的应用是（）？【A.】预测客户行为【B.】市场监控【C.】智能电表【D.】市场预警【答案】C21MapReduce以什么方式进行分布式计算（）？【A.】文本【B.】函数【C.】数据集【D.】矩阵【答案】B22在Hadoop中，将每一次计算请求称为一个（）？【A.】文本【B.】函数【C.】数据集【D.】作业【答案】D23在Hadoop中，将每个作业拆分为若干个（）？【A.】文本【B.】Map任务【C.】数据集【D.】Reduce任务【答案】B24在Hadoop中，作业服务器被称为（）？【A.】Job【B.】Map【C.】Master【D.】Reduce【答案】C25下列不属于一个作业的计算流程的是（）？【A.】作业开始【B.】作业修改【C.】Map任务分配【D.】Reduce任务执行【答案】B26下列不属于Map任务的执行的子步骤的是（）？【A.】输入准备【B.】输入修改【C.】算法执行【D.】输出生成【答案】B27在MapReduce模型编程中，不属于其步骤的是（）？【A.】遍历数据【B.】映射键值【C.】数据分组【D.】数据插补【答案】D28Hadoop的核心是（）和MapReduce。

1、下载文档前请自行甄别文档内容的完整性，平台不提供额外的编辑、内容补充、找答案等附加服务。
2、"仅部分预览"的文档,不可在线预览部分如存在完整性等问题,可反馈申请退款(可完整预览的文档不适用该条件!)。
3、如文档侵犯您的权益，请联系客服反馈,我们会尽快为您处理(人工客服工作时间：9:00-18:30)。

软件学报ISSN 1000-9825, CODEN RUXUEW E-mail: jos@Journal of Software,2014,25(9):2119−2135 [doi: 10.13328/ki.jos.004640] +86-10-62562563 ©中国科学院软件研究所版权所有. Tel/Fax:∗大数据环境下多决策表的区间值全局近似约简徐菲菲1, 雷景生1, 毕忠勤1, 苗夺谦2, 杜海舟11(上海电力学院计算机科学与技术学院,上海 200090)2(同济大学电子与信息工程学院,上海 200092)通讯作者: 徐菲菲, E-mail: xufeifei@摘要: 在电力大数据中,很多具体的应用如负荷预测、故障诊断都需要依据一段时间内的数据变化来判断所属类别,对某一条数据进行类别判定是毫无意义的.基于此,将区间值粗糙集引入到大数据分类问题中,分别从代数观和信息观提出了基于属性依赖度和基于互信息的区间值启发式约简相关定义和性质证明,并给出相应算法,丰富和发展了区间值粗糙集理论,同时为大数据的分析研究提供了思路.针对大数据的分布式存储架构,又提出了多决策表的区间值全局约简概念和性质证明,进一步给出多决策表的区间值全局约简算法.为了使得算法在实际应用中取得更好的效果,将近似约简概念引入所提的3种算法中,通过对2012上半年某电厂一台600MW的机组运行数据进行稳态判定,验证所提算法的有效性.实验结果表明,所提的3种算法均能在保持较高分类准确率的条件下从对象和属性个数两方面对数据集进行大幅度缩减,从而为大数据的进一步分析处理提供支撑.关键词: 大数据;区间值;近似约简;多决策表;全局约简中图法分类号: TP181中文引用格式: 徐菲菲,雷景生,毕忠勤,苗夺谦,杜海舟.大数据环境下多决策表的区间值全局近似约简.软件学报,2014,25(9):2119−2135./1000-9825/4640.htm英文引用格式: Xu FF, Lei JS, Bi ZQ, Miao DQ, Du HZ. Approaches to approximate reduction with interval-valued multi-decision tables in big data. Ruan Jian Xue Bao/Journal of Software, 2014,25(9):2119−2135 (in Chinese)./1000-9825/4640.htmApproaches to Approximate Reduction with Interval-Valued Multi-Decision Tables in BigDataXU Fei-Fei1, LEI Jing-Sheng1, BI Zhong-Qin1, MIAO Duo-Qian2, DU Hai-Zhou11(College of Computer Science and Technology, Shanghai University of Electric Power, Shanghai 200090, China)2(College of Electronic and Information Engineering, Tongji University, Shanghai 200092, China)Corresponding author: XU Fei-Fei, E-mail: xufeifei@Abstract: For the big data on electric power, many specific applications, such as load forecasting and fault diagnosis, need to consider datachanges during a period of time to determine their decision classes, as deriving a class label of only one data record is meaningless. Based on theabove discussion, interval-valued rough set is introduced into big data classification. Employing algebra and information theory, this paperdefines the related concepts and proves the properties for interval-valued reductions based on dependency and mutual information, and presentsthe corresponding heuristic reduction algorithms. The proposed methods can not only enrich and develop the interval-valued rough set theory,but also provide a new way for the analysis of big data. Pertaining to the distributed data storage architecture of big data, this paper furtherproposes the interval-valued global reduction in multi-decision tables with proofs of its properties. The corresponding algorithm is also given. Inorder for the algorithms to achieve better results in practical applications, approximate reduction is introduced. To evaluate three proposedalgorithms, it uses six months’ operating data of one 600MW unit in some power plant. Experimental results show that the three algorithms∗基金项目: 国家自然科学基金(61272437, 60305094); 上海市教育委员会科研创新项目(12YZ140, 14YZ131); 上海市自然科学基金(13ZR1417500)收稿时间:2014-03-31; 定稿时间: 2014-05-142120 Journal of Software软件学报 V ol.25, No.9, September 2014proposed in this article can maintain high classification accuracy with the proper parameters, and the numbers of objects and attributes can both be greatly reduced.Key words: big data; interval-value; approximate reduction; multi-decision tables; global reduction随着云计算、物联网、移动互联网等新兴信息技术的发展,将人类带进了大数据时代,无处不在的大数据成为了各界关注的焦点[1−9].有调查指出,如今大规模的企业系统包括由分布在不同位置的上千台服务器所构成的完整数据中心[10].如何从分布式存储的大数据中快速、准确地挖掘其潜在的价值,将大数据转化为经济价值的来源,日益成为企业超越竞争对手的有力武器.分布式存储的大数据呈现出许多鲜明的特征:数据体量巨大,数据种类繁多,流动速度快,价值密度低,这些对大数据的处理能力和效率提出了更高的需求.与以往的数据分析不同,对大数据的分析处理不再一味热衷于追求精确度和寻找因果关系[11].面对海量的即时数据,适当忽略微观层面上的精确度可以在宏观层面拥有更好的洞察力.同样,在大数据时代,寻求事物之间的相关关系而无须紧盯事物之间的因果关系,可以提供非常新颖且有价值的观点.在很多实际大数据环境中,均存在着大量的不确定性因素,采集到的数据往往包含着噪声、不精确甚至不完整.粗糙集理论[12]是继概率论、模糊集、证据理论之后又一个处理不确定性的强有力的数学工具.作为一种软计算方法,其有效性已在各应用领域中得到证实,是人工智能理论及其应用领域中的研究热点之一[13−27].粗糙集与概率论、模糊集、证据理论有很多相同的特征,但相比于后三者,粗糙集无需任何的先验知识,只通过数据本身就可以获得知识,而概率论、模糊集和证据理论分别需要概率、隶属度和概率赋值等信息.粗糙集研究中的核心问题之一是属性约简,通过属性约简,可以求得决策表的最小表达,即保持知识表达系统中分类能力不变的情况下,删除其中不相关或不重要的属性,这也是知识获取的关键.但已有证明,求解所有约简和求解最小约简都是NP-hard问题.目前提出的属性约简算法大都基于启发式的,且都是针对集中式单决策表(即一张完整决策表)的情况,并不适用于分布式存储的大数据分析与挖掘.目前,已有学者对粗糙集的属性约简算法在分布式平台下进行研究并实现[28,29].然而,这些算法仅仅是将约简算法本身在分布式平台的实现,仍然处理的是集中式单决策表,并未考虑数据集的分布式存储.对分布式存储的大数据环境下的约简算法研究还不多见.对大数据的条件属性进行约简,可以选取保持决策分类不变的最小条件属性子集,极大地减少大数据分析的工作量.分布式存储的带标签的大数据,每个站点都可看成是一张决策表,整体的大数据可认为是由多张决策表构成的,并且这些决策表的条件属性互不相同,但决策属性为同一个.因此,对分布式存储的大数据进行约简算法研究,可转化为求多决策表的约简方法研究.文献[30]针对分布式多决策表的近似约简进行了相关研究.文献[31]在前文基础上考虑到在某些应用场景中,各站点希望自己持有的本地决策表原始数据和敏感信息不被其他站点获取,加入隐私保护策略,设计了多决策表的隐私保护属性约简算法.由此可见,对多决策表(分布式存储的大数据)的研究离不开具体的应用.随着智能电网建设的推进,电力大数据格局逐步形成.目前,获得电力运行大数据的主要形式来源于分散在各地不同的系统数据库,所获得的数据类型也以连续值属性为主.与传统的分类方法不同,对大数据的分类研究不再单独考虑某一条数据,而是以数据块的形式作为一个研究对象.这是因为仅仅依靠某一条数据来判断它的类别信息已意义不大,而是应该考虑某个时间段内的数据特征,从而判断该数据段所属的类别.例如,基于电力大数据对负荷进行预测,单条数据不具备负荷预测的特质,而是应该将待预测的数据段与某时间段的数据进行相似性比较,从而确定负荷预测值.因此,对大数据的分类研究应从数据块开始.为了快速有效地对电力大数据建立分类模型,将数值型条件属性的数据块近似表示成区间值形式,即通过该数据块的最大最小值对数据块进行近似描述(对非数值型的条件属性可转化为数值型处理),从而研究区间值的属性约简策略,建立分类模型.已有学者对区间值条件属性约简方法进行了研究[32−35],但这些方法均是针对一个集中数据集,并未考虑多决策表的情况,因此不适用于分布式存储的大数据环境.本文将分布式存储的大数据看成是由多张决策属性相同、条件属性不同的决策表组成,在此基础上,将大数据进行分块使其区间化,研究多决策表的区间值全局近似约简方法.本文所做工作的意义在于:徐菲菲等:大数据环境下多决策表的区间值全局近似约简 21211) 针对大数据的数据体量巨大、噪声多的特点,将粗糙集方法引入至大数据分析中,通过属性约简方法减少大数据分析所涉及的数据量;2)针对电力大数据以连续值属性为主,并且对大数据的分类研究实际应以数据块作为对象单位,提出将数据块近似描述为区间值形式,从而讨论了区间值决策表的启发式约简方法;给出基于依赖度的区间值属性约简相关概念和性质证明,并提出相应算法;给出基于互信息的区间值属性约简相关概念和性质证明,提出相应算法;为了增强算法实用性,提出区间值决策表的近似约简概念和方法;3) 针对大数据的分布式存储,给出条件属性不同、决策属性相同的多决策表下的全局近似约简相关概念和性质证明,并提出相应的约简算法,从而对分布式存储的大数据求得满足分类结果近似不变的全局约简;4) 将所设计的3种算法在电力大数据真实数据集中进行测试,并对结果进行分析和讨论;实验结果表明:3种算法在合适的区间长度时,选取的属性子集均能保持较高的分类准确率;随着属性个数的增加,基于依赖度的区间值约简方法比基于互信息的区间值约简方法运行时间略长,多决策表下的全局约简运行时间最短.本文第1节对多决策表以及区间值决策表的相关概念和性质进行介绍.第2节分别给出基于依赖度和基于互信息的区间值属性约简的相关定义和性质证明,并提出相应的算法;同时,将近似约简引入到上述方法中,增强算法的实用性.第3节给出多决策表下的区间值全局近似约简概念和性质证明,提出相应的算法.第4节将以上算法在电力大数据中进行实验、比较和分析,实验结果验证了算法的有效性.第5节对全文进行总结,并对未来的工作进行展望.1 相关基本概念本节主要介绍分布式环境中多决策表以及区间值决策表的相关概念和性质. 1.1 多决策表的相关概念和性质设有m 个站点S 1,S 2,…,S m ,相应的局部决策表DT i (或成员决策表)的属性集分别为C 1∪D ,C 2∪D ,…,C m ∪D ,1,mi i C ==∅∩各局部决策表具有相同的对象集U 且均隐含一个对象标识属性.通过该属性,可将各局部决策表连接成一个单决策表DT =〈U ,C ∪D ,V ,f 〉,1,mi i C C ==∪并假设唯一的决策属性D 的取值范围是1,2,…,l .由D 导出的决策类构成U 的一个划分{ψ1,ψ2,…,ψl }.其中:ψi ={u ∈U :f (u ,D )=i },i =1,2,…,l ;U 中的对象个数为n .定义1.1[31]. 全局决策表DT 是四元组〈U ,C ∪D ,V ,f 〉.其中:U 是一组对象的非空有限集合,称为论域;设有 n 个对象,则U 可表示为U ={u 1,u 2,…,u n };C 为条件属性集,D 为决策属性集;(),a a C D V V ∈∪=∪V a 为属性a 的值域集;f是U ×(C ∪D )→V 的映射.定义1.2[31]. 在站点S i (i =1,2,…,m ),局部决策表DT i 是四元组DT =〈U ,C i ∪D ,V ,f 〉.其中:C i 为条件属性集,D 为决策属性集,(),i a a C D V V ∈∪=∪V a 为属性a 的值域集,f 是U ×(C i ∪D )→V 的映射.由于在大数据的复杂环境中,要求得全局决策表的精确约简所花费的代价较高,对大数据的分析应更多地考虑时间因素,因此定义ε-近似约简如下(由于基于信息熵的定义方法比代数观下的更加直观,本文所涉及的研究主要基于信息论观点):定义1.3. 对于给定的全局决策表DT 和ε(ε≥0),若|H (D |C )−H (D |A )|≤ε(A ⊆C ),且|H (D |C )−H (D |B )|>ε(∀B ⊂A ),则A 为决策表的一个ε-近似约简.其中,H (P |Q )表示为条件信息熵,且P ,Q ⊆C ∪D .上述定义中,如果条件属性集合C 的值域为有限离散集合,则H (P |Q )可依据等价类的分布情况来计算.而在大数据环境中,条件属性集合C 往往都是连续的,可选用Pazon 窗方法或文献[25]采用的模糊粗糙集方法计算连续值的条件熵.对大数据构建粗糙集分类模型的首要任务就是求得全局的ε-近似约简.2122 Journal of Software 软件学报 V ol.25, No.9, September 2014定义1.4. 设X 为论域U 的一个子集,即X ⊆U ,P ⊆C ,X 关于P 的全局下近似为PX (C )={u ∈U :[u ]p ⊆X },其中:[u ]p ={x ∈U |∀a ∈P ,f (u ,a )=f (x ,a )}.性质1.1. 若A ⊆C ,B ⊆C ,且A ⊆B ,则H (D |A )≥H (D |B ). 1.2 区间值决策表的相关概念和性质目前对区间值信息系统的研究大多都基于无分类标签的信息系统[34−36],也有学者对决策属性为区间值的决策系统进行了探讨.本文基于电力大数据的特点,讨论条件属性为区间值,而决策属性为类别标签的情况.定义1.5. 设区间值决策表DT =〈U ,C ∪D ,V ,f 〉,非空有限属性集C ∪D 包括条件属性集C ={a 1,a 2,…,a h }和决策属性集D ={d }两部分;V =V C ∪V D ,其中,V C 为条件属性值集合,V D 为决策属性值集合;f :U ×C →V C 为区间值映射,f :U ×D →V D 为单值映射.表1为一个区间值决策表[33],其中:论域U ={u 1,u 2,…,u 10},条件属性集C ={a 1,a 2,a 3,a 4,a 5},决策属性集D ={d }; 条件属性值(,)[,]k k k i i i f a u l u =是区间值,如f (a 2,u 3)=[7.03,8.94];决策属性值d (u i )是单值,如d (u 3)=2.Table 1 An interval-valued decision table表1 区间值决策表U a 1 a 2 a 3a 4 a 5 d u 1 [2.17,2.96] [5.32,7.23] [3.35,5.59][3.21,4.37][2.46,3.59] 1 u 2 [3.38,4.50] [3.38,5.29] [1.48,3.58][2.36,3.52][1.29,2.42] 2 u 3 [2.09,2.89] [7.03,8.94] [3.47,5.69][3.31,4.46][3.48,4.61] 2 u 4 [3.39,4.51] [3.21,5.12] [0.68,1.77][1.10,2.26][0.51,1.67] 3 u 5 [3.70,4.82] [2.98,4.89] [1.12,3.21][2.07,3.23][0.97,2.10] 2 u 6 [4.53,5.63] [5.51,7.42] [3.50,5.74][3.27,4.43][2.49,3.62] 2 u 7 [2.03,2.84] [5.72,7.65] [3.68,5.91][3.47,4.61][2.53,3.71] 1 u 8 [3.06,4.18] [3.11,5.02] [1.26,3.36][2.25,3.41][1.13,2.25] 3 u 9 [3.38,4.50] [3.27,5.18] [1.30,3.40][4.21,5.36][1.11,2.23] 1 u 10[1.11,2.26] [2.51,3.61] [0.76,1.85][1.30,2.46][0.42,1.57]4经典粗糙集采用等价关系对论域进行划分,然而区间值决策表中,相同区间值形成的等价类很难对论域形成合理的划分.因此,引入相似率来表示2个区间值的相似程度,为论域的分类提供度量标准.定义1.6. 设区间值决策表DT =〈U ,C ∪D ,V ,f 〉,a k ∈C ,(,)[,]k k k i i i f a u l u =,其中,k k i i l u ≤.当k k i i l u =时,表示对象u i在属性a k 上的取值为常数.若对任意的u i 和任意的条件属性a k ,k k i i l u =,则该决策表为传统的决策表.定义对象u i 与u j 关于属性a k 的相似度[35]为0, [,][,],([,][,]), [,][,](max{,}min{,})k k kki i j j k k k k kij i i j j k k k ki i j j k k k ki j i j l u l u r card l u l u l u l u card u u l l ⎧∩=⊄⎪=∩⎨∩≠⊄⎪−⎩ 其中,card (⋅)表示区间值的长度.显然,01k ij r ≤≤.如果0k ij r =,则条件属性值f (a k ,u i )与f (a k ,u j )相离;若01k ij r <<,则条件属性值f (a k ,u i )与f (a k ,u j )部分相离或真包含;若1k ij r =,则条件属性值f (a k ,u i )与f (a k ,u j )是完全不可分辨的.条件属性值相似度描述了区间值环境下不同对象之间的等价程度.定义1.7[35]. 设DT =〈U ,C ∪D ,V ,f 〉是一区间值决策表,给定阈值水平λ∈[0,1]和任意属性子集A ⊆C ,定义U 上的二元关系:{(,):,}k AA i j ij k R R x x U U r a A λλλ=∈×>∀∈称为关于A 的λ-容差关系. 性质1.2. 设DT =〈U ,C ∪D ,V ,f 〉是区间值决策表,给定阈值水平λ∈[0,1]和任意属性子集A ⊆C ,显然,A R λ是自反的和对称的,但不一定是传递的.性质1.3. 设DT =〈U ,C ∪D ,V ,f 〉是区间值决策表,λ∈[0,1],任意属性子集A ⊆C ,有{}.kk A a a AR R λλ∈=∩记()A i R u λ表示区间值对象u i 在属性集A 下的λ-相容类,以表1为例,当λ=0.7,A =a 1时,根据定义1.6和定义1.7计算可得:徐菲菲等:大数据环境下多决策表的区间值全局近似约简 212311111111110.7{}11370.7{}22490.7{}31370.7{}42490.7{}550.7{}660.7{}71370.7{}880.7{}92490.7{}1(){,,}(){,,}(){,,}(){,,}(){}(){}(){,,}(){}(){,,}(a a a a a a a a a a R u u u u R u u u u R u u u u R u u u u R u u R u u R u u u u R u u R u u u u R u =========010){}u =.由于λ-容差关系满足自反和对称但不满足传递性,在计算λ-相容类时只需考虑当前对象之后的记录,对之前的对象可通过对称关系获取,在大数据环境下可极大地节省计算λ-相容类的时间.如果A 由多个属性组成,可根据性质 1.3,先分别计算区间值对象在每个属性下的λ-相容类(满足λ-容差关系的对象集合),再通过交运算得到多属性的λ-相容类.定义1.8. 设DT =〈U ,C ∪D ,V ,f 〉是区间值决策表,λ∈[0,1],任意属性子集A ⊆C ,X ⊆U ,定义X 关于A 的粗糙上、下近似为(){,()},(){,()}.A i A i A i A i R X u U R u X R X u U R u X λλλλ=∈∩≠⊄=∈⊆以上定义和性质实际并未涉及到决策属性,仅仅是将无标签的区间值信息系统的概念简单地移植到区间值决策表中.2 区间值决策表的启发式约简文献[33]提出了一种基于区分函数的区间值决策表约简算法,然而该算法的计算复杂度较高,很难用于处理大数据.本节针对大数据分析中无须过度追求精确度的特点,分别从代数观和信息观给出了区间值决策表的启发式约简概念和性质证明,并提出相应算法.同时,为了增强算法的实用性,将近似约简概念引入,并提出相应方法.2.1 代数观下区间值决策表约简的相关概念和性质根据定义1.8,我们可以定义决策属性关于区间值条件属性子集的上、下近似为:定义2.1. 设DT =〈U ,C ∪D ,V ,f 〉是区间值决策表,λ∈[0,1],由D 导出的决策类构成U 的一个划分{ψ1,ψ2,…,ψl }.任意条件属性子集A ⊆C ,定义决策属性D 关于A 的上、下近似为11()(),()(),lA A i i l A A i i R D R R D R λλλλψψ====∪∪其中,(){,()},(){,()},()A i A i A i A i A i R X u U R u X R X u U R u X R u λλλλλ=∈∩≠⊄=∈⊆表示区间值对象u i 在属性集A 下的λ-相容类.决策属性D 的下近似也称为正域,记为()A POS D λ.正域的大小反映的是分类问题在给定属性空间中的可分离程度.正域越大,表明各相容类的重叠区域越少.为了度量属性的重要度,定义决策属性D 相对于区间值条件属性A 的λ-依赖度为2124 Journal of Software 软件学报 V ol.25, No.9, September 2014|()|(),||A AR D D U λλγ= 其中,|⋅|表示集合的基.0()1AD λγ≤≤表示了区间值对象集合中根据条件属性A 的描述,那些能够被某一类决策完全包含的对象所占全体对象的比率.显然,正域越大,决策属性D 对条件属性A 的依赖性越强.性质2.1. 给定区间值决策表DT =〈U ,C ∪D ,V ,f 〉和λ,如果B ⊆A ⊆C 且()i B u POS D λ∈,则()i A u POS D λ∈成立. 证明:假设()i B j u R D λ∈,其中,D j 表示决策类别为j 的对象集合,即()B i j R u D λ⊆.由于B ⊆A ⊆C ,()(),Ai B i R u R u λλ⊆因此,()()A i B i j R u R u D λλ⊆⊆.从而有().i A u POS D λ∈□性质2.2. ()A D λγ是单调的.如果A 1⊆A 2⊆…⊆C ,则12()()...().A A C D D D λλλγγγ≤≤≤ 证明:根据性质2.1可知:1()i A u POS D λ∀∈,我们有2(),...,().i A i C u POS D u POS D λλ∈∈可能存在1()j A u POS D λ∉,但2(),...,(),j A j C u POS D u POS D λλ∈∈因此有12|()||()|...|()|.A A C POS D POS D POS D λλλ≤≤≤由于|()|(),||A APOS D D U λλγ=所以有12()()...().A A C D D D λλλγγγ≤≤≤ □定义2.2. 设DT =〈U ,C ∪D ,V ,f 〉是区间值决策表,λ∈[0,1],A ⊆C ,∀a k ∈A ,如果{}()(),k A a A D D λλγγ−<称属性a k 相对于属性集A 是必要的;否则,如果{}()(),k A a A D D λλγγ−=称属性a k 相对于属性集A 是多余的.如果∀a k ∈A 都是必要的,称属性集A 是独立的.如果{}()()k A a A D D λλγγ−=,表明从决策表中去掉属性a k ,决策表的正域不会发生改变,即各类的可区分性不变.也就是说,属性a k 没有给分类带来任何的贡献.因此,a k 是多余的.相反地,如果删除a k ,决策表的决策正域变小了,则表明各类的可区分性变差了.此时,a k 不能被删除.定义2.3. 设DT =〈U ,C ∪D ,V ,f 〉是区间值决策表,λ∈[0,1],A ⊆C ,称属性子集A 是条件属性集C 的一个λ-约简,如果A 满足:(1) ()();AC D D λλγγ= (2){},()().k k A a A a A D D λλγγ−∀∈<该定义的条件(1)要求λ-约简不能降低决策表的区分能力,λ-约简应该与决策表中全部条件属性具有相同的分辨能力;条件(2)要求在一个λ-约简中不存在多余的属性,所有的属性都应该是必要的.这一定义与经典粗糙集模型中的定义在形式上是完全一致的.然而,该模型定义了区间值空间中的λ-约简,而经典粗糙集是定义在离散空间中的.定义2.4. 设DT =〈U ,C ∪D ,V ,f 〉是区间值决策表,λ∈[0,1],A 1,A 2,…,A s 是该决策表的所有λ-约简,则定义1si i Core A ==∩为决策表的核.2.2 基于依赖度的区间值决策表λ-约简算法如果要找出区间值决策表的全部λ-约简,需要计算2h −1个属性子集,判断它们是否满足λ-约简的条件.其中, h 是条件属性的个数.这对于拥有上百个,甚至上千个属性的大数据而言,计算量是不可容忍的.本文将基于依赖度的概念构造启发式约简算法,极大地降低算法复杂度.由于依赖度描述了条件属性对分类的贡献,因此可以作为属性重要度的评价标准.定义2.5. 设DT =〈U ,C ∪D ,V ,f 〉是区间值决策表,λ∈[0,1],A ⊆C ,a k ∈C −A ,定义a k 相对于C 的重要度为{}(,,)()().k k A a A SIG a A D D D λλγγ∪=−有了属性重要度的定义,我们可以构造区间值λ-约简的贪心算法.该算法以空集为起点,每次计算全部剩余属性的属性重要度,从中选取属性重要度值最大的属性加入到λ-约简集合中,直到所有剩余属性的重要度为0,即加入任何新的属性,依赖度不再发生变化为止.前向搜索算法能够保证重要的属性先被加入到λ-约简中,从而不损失重要的特征.后向搜索算法难以保证这个结果,因为对于有大量冗余属性的区间值决策表而言,即使那些徐菲菲等:大数据环境下多决策表的区间值全局近似约简2125重要的属性被删除也不一定会降低整个决策表的区分能力.因此,最终可能保留了大量区分能力很弱、但作为一个整体依然能够保持原始数据的分辨能力的特征,而不是少量区分能力很强的特征.基于依赖度的区间值决策表的λ-约简算法描述见算法1.算法1. 基于依赖度的区间值决策表λ-约简(λ-reduction in interval-valued decision table based ondependence,简称RIvD).输入:DT =〈U ,C ∪D ,V ,f 〉,λ; 输出:λ-约简red . Step 1. 令red =∅;Step 2. 对所有属性a ∈C ,计算属性a 下的λ-相容类{}a R λ;Step 3. 对任意的a k ∈C −red ,计算{}(,,)()()k k red a red SIG a red D D D λλγγ∪=−; //定义()0D λγ∅=Step 4. 选择a i ,满足:(,,)max((,,))i k kSIG a red D SIG a red D =;Step 5. 如果SIG (a i ,red ,D )>0,red =red ∪{a i },转至Step 3;否则,返回red ,结束.设条件属性C 的个数为h ,区间值对象个数为n ,则该算法的时间复杂度为O (n 2+hn ).以上为代数观点下的区间值λ-约简算法.在传统粗糙集中,对于一致决策表的启发式算法,已经证明代数观点与信息论观点等同.然而对于不一致决策表而言,信息论观点下对象的划分依然可以改变知识的条件信息熵,即基于条件信息熵的属性约简与影响不一致对象划分的粒度有一定的关系.主要体现在基于条件信息熵的属性约简可以增加一些属性,而这些属性影响了不一致对象划分的粒度.因此,粗糙集的信息论观点包含了其代数观点,为决策表的知识获取和规则提取提供了更加有效的途径.因此,非常有必要对基于条件信息熵的区间值属性约简作进一步研究.2.3 信息观下区间值决策表约简的相关概念和性质由于在区间值决策表中,λ-容差关系取代了等价关系,不再构成论域的划分而是覆盖,因此,我们先定义区间值决策表的λ-知识粗糙熵,进而定义λ-信息熵及λ-条件信息熵等概念.知识粗糙熵表征了知识整体的统计特征,是总体的平均不确定性的量度;信息熵也是度量信息的平均不确定性的量度,与知识粗糙熵的和为log 2|U |;条件信息熵表示如果已经完全知道某变量(集)的前提下,另一变量(集)的信息熵还有多少.为了计算条件信息熵,需要用到联合信息熵的概念.定义2.6. 设DT =〈U ,C ∪D ,V ,f 〉是区间值决策表,λ∈[0,1],U ={u 1,u 2,…,u n }.任意属性子集A ⊆C ,则区间值决策表的λ-知识粗糙熵定义为||211()log (),||U Rough AA i i H R f u U λλ==∑ 其中,()A i f u λ表示u i 在所有u j (1≤j ≤|U |)的λ-相容类中出现的次数.性质2.3. 若R 是基于知识A 的等价关系,则有()()Rough A Rough H R H A λ=.证明:如果R 是基于知识A 的等价关系,则对象u i 所在的λ-相容类就是等价类.设属性集A 将论域划分为k个不同的等价类{X 1,X 2,…,X k },则有:||222111|()|11()log ()|()|log |()|log |()|().||||||U k k j Rough A A i j jj Rough i j j R u H R f u R u R u R u H A U U U λλ=====×=×=∑∑∑ 知识粗糙熵与信息熵的和为论域的信息量log 2|U |,所以等价关系下知识粗糙熵为22211|()||()||()|log ||log log |()|||||||kk i i i i i i R u R u R u U R u U U U ==+=×∑∑. □性质2.4. 设DT =〈U ,C ∪D ,V ,f 〉是区间值决策表,λ∈[0,1],U ={u 1,u 2,…,u n }.B ⊆A ⊆C ,则有:()()Rough A Rough B H R H R λλ≤.2126 Journal of Software 软件学报 V ol.25, No.9, September 2014性质2.4可由定义2.6直接推理得到.性质2.4说明,区间值决策表的λ-知识粗糙熵随着知识分辨能力的增强而单调下降.有了上述对区间值决策表λ-知识粗糙熵的定义,根据知识粗糙熵与信息熵之和为log 2|U |,我们可以定义区间值决策表的λ-信息熵为:定义2.7. 设DT =〈U ,C ∪D ,V ,f 〉是区间值决策表,λ∈[0,1],U ={u 1,u 2,…,u n }.任意属性子集A ⊆C ,则区间值决策表的λ-信息熵定义为||211()()log ||||U A i A i f u H R U U λλ==−∑. 性质2.5. 设DT =〈U ,C ∪D ,V ,f 〉是区间值决策表,λ∈[0,1],U ={u 1,u 2,…,u n }.B ⊆A ⊆C ,则有()()AB H R H R λλ≥. 证明:如果B ⊆A ⊆C ,则有A B R R λλ⊆,则存在u i ∈U ,使得()()B i A i f u f u λλ≤.根据定义2.7,则有()()A B H R H R λλ≥.证毕.□性质2.5说明:λ-相容类形成对论域的覆盖块越小,知识所包含的信息量就越大.定义2.8. 设DT =〈U ,C ∪D ,V ,f 〉是区间值决策表,λ∈[0,1],U ={u 1,u 2,…,u n },P ,Q ⊆C ∪D ,则P ,Q 的λ-联合信息熵可表示为||21()1()log ,||||U P Q i P Q i f u H R R U U λλλ∪=∪=−∑其中,()P Q i f u λ∪表示区间值对象u i 在属性集P ∪Q 下的u j (1≤j ≤|U |)λ-相容类中出现的次数.定义2.9. 设DT =〈U ,C ∪D ,V ,f 〉是区间值决策表,λ∈[0,1],U ={u 1,u 2,…,u n },P ,Q ⊆C ∪D ,且P ≠Q ,则知识(属性集合)Q 相对于知识(属性集合)P 的λ-条件信息熵的定义为||211()(|)log ||()U P i Q P i P Q if u H R R U f u λλλλ=∪=∑.定理2.1. 设DT =〈U ,C ∪D ,V ,f 〉是区间值决策表,λ∈[0,1],U ={u 1,u 2,…,u n },A ⊆C ,a k ∈A ,属性a k 是不必要的,其充分必要条件是{}(|)(|)k A A a H D R H D R λλ−=.证明:• 必要条件假设存在a k ∈A 是不必要的,对于任意u i ∈U ,则有{}()()k A i A a i R u R u λλ−=,易得{}(|)(|).k A A a H D R H D R λλ−=• 充分条件假设存在a k ∈A 满足{}(|)(|).k A A a H D R H D R λλ−=如果对于任意的a k ∈A 都是必要的,即存在u i ∈U ,使得不等式{}()()k A i A a i R u R u λλ−≠成立.又由于A −{a k }⊂A ,有{}(|)(|),k A A a H D R H D R λλ−<这与假设{}(|)(|)k A A a H D R H D R λλ−=相矛盾.由此可知:对于任意的a k ∈A ,当{}(|)(|)k A A a H D R H D R λλ−=时,a k 是不必要的.□定义2.10. 设DT =〈U ,C ∪D ,V ,f 〉是区间值决策表,λ∈[0,1],A ⊆C ,称属性子集A 是条件属性集C 的一个λ-约简,如果A 满足:(1) (|)(|);A C H D R H D R λλ=(2){},(|)(|)k k A A a a A H D R H D R λλ−∀∈≠.区间值的λ-条件信息熵描述的是一个属性集对另一属性集的依赖程度.由定理2.1可知,λ-条件信息熵可以应用到区间值决策表的λ-约简中. 2.4 基于互信息的区间值λ-约简算法为了能够进行有效的知识约简,必须要建立一个衡量属性重要性的标准.在传统粗糙集理论的信息观点下,提出在决策表中添加某个属性所引起的互信息的变化大小可以作为该属性重要性的度量.设DT =〈U ,C ∪D ,V ,f 〉是区间值决策表,λ∈[0,1],B ⊆C .那么,在B 中添加一个区间值条件属性a ∈C −B 之后,互信。