大数据挖掘的粒计算理论与方法-JiyeLiang

合集下载

粒计算研究综述

粒计算研究综述

第2卷第6期 智 能 系 统 学 报 V ol.2 .62007年12月 CAAI T ransactions on Intelligent Systems D ec.2007粒计算研究综述王国胤1,2,张清华1,2,胡 军1,3(1.重庆邮电大学计算机科学与技术研究所,重庆400065; 2.西南交通大学信息科学与技术学院,四川成都610031;3.西安电子科技大学电子工程学院,陕西西安710071)摘 要:粒计算(gr anular computing)是当前计算智能研究领域中模拟人类思维和解决复杂问题的新方法.它覆盖了所有有关粒度的理论、方法和技术,是复杂问题求解、海量数据挖掘、模糊信息处理的有效工具.首先回顾了粒计算研究和发展状况,介绍了粒计算的基本组成和问题,综述了粒计算的基本模型和方法,并讨论了它们之间的相互关系,最后探讨了构建统一的粒计算模型、复杂问题空间的粒化、粒层之间的转换、高效的粒计算方法、新的粒计算模型、动态粒计算模型、自主粒计算模型、粒计算方法的模糊化以及粒计算模型的应用和推广等几个方面的关键问题.关键词:粒计算;数据挖掘;智能信息处理;粗糙集;模糊集;商空间中图分类号:T P18 文献标识码:A 文章编号:1673 4785(2007)06 0008 19An overview of granular computingWAN G Guo yin 1,2,ZHANG Qing hua 1,2,HU Jun 1,3(1.Institute of Comput er Science &T echno lo gy ,Cho ng qing U niversit y of Po st s and T eleco mmunications,Chong qing 400065,China;2.Scho ol of Infor matio n Science &T echnolog y,Southwest Jiao tong U niv ersit y,Chengdu 610031,China; 3.School of Electro nic Engineer ing,Xidian U niver sity,Xi an 710071,China)Abstract:In the field of com putational intelligence,granular computing (GrC)is a new w ay to simulate hu m an thinking to help solve co mplicated problems.Gr C involv es all the theories,methodo logies and tech niques o f granularity,pr oviding a pow erful to ol for the so lution of complex problems,m assiv e data min ing,and fuzzy information pr ocessing.In this paper,first the current situation and the developm ent pros pects of GrC are introduced,then the fundamental and ex isting problem s r elated to GrC ar e presented and its basic models and metho ds summ arized.Finally,som e future research topics abo ut GrC are presented,such as,uniform granular co mputing mo del,granulation of complex pro blem space,transform ation be tw een granule spaces,efficient g ranular co mputing algor ithm,nov el g ranular co mputing model,dy namic granular co mputing m odel,data driven g ranular co mputing m odel,fuzzy gr anular co mputing method,and the applications of gr anular computing models,etc.Keywords:g ranular computing;data m ining;intelligent inform ation processing;roug h sets;fuzzy sets;quotient space收稿日期:2007 04 02.基金项目:国家自然科学基金资助项目(60573068);新世纪优秀人才支持计划;重庆市教委科学技术研究资助项目(KJ060517).自Zadeh 1979年发表论文!Fuzzy sets and in form ation granularity ∀以来[1],研究人员对信息粒度化的思想产生了浓厚的兴趣.Zadeh 认为很多领域都存在信息粒的概念,只是在不同领域中的表现形式不同.自动机与系统论中的!分解与划分∀、最优控制中的!不确定性∀、区间分析里的!区间数运算∀、以及D S 证据理论中的!证据∀都与信息粒密切相关.H obss 在1985年直接用!粒度(granularity)∀作为论文题目发表论文[2],讨论了粒的分解和合并,以及如何得到不同大小的粒,并提出了产生不同大小粒的模型.Lin 在1988年提出邻域系统并研究了邻域系统与关系数据库之间的关系[3].1996年,他在U C Berkeley 大学访问时,向Zadeh 提出作!granular computing∀的研究,Zadeh称之为!g ranular mathematics∀,Lin改称为!granular co mputing∀,并缩写成Gr C.他发表了一系列关于粒计算与邻域系统的论文[4-10],主要是研究二元关系(邻域系统、Rough集和信任函数)下的粒计算模型,论述基于邻域系统的粒计算在粒结构、粒表示和粒应用等方面的问题,讨论了粒计算中的模糊集和粗糙集方法,并将粒计算方法引入数据挖掘和机器发现.依据人们在解决问题时能从不同的粒度世界去分析和观察同一问题,并且很容易地从一个粒度世界转到另一个粒度世界,张钹和张铃在1990年针对复杂问题求解,建立了一种复杂问题求解的商结构形式化体系,给出了一套解决信息融合、启发式搜索、路径规划和推理等问题的理论和算法[11-12].1997年,Zadeh进一步指出[13],世上有3个基本概念构成人类认知的基础:粒化、组织及因果关系.其中,粒化是整体分解为部分,组织是部分结合为整体,而因果关系则涉及原因与结果间的联系.物体的粒化产生一系列的粒子,每个粒子即为一簇点(物体),这些点难以区别,或相似、或接近、或以某种功能结合在一起.一般来说,粒化在本质上是分层次的,时间可粒化为年、月、日、小时、分、秒就是大家熟悉的例子.在Lin的研究基础上,Yao结合邻域系统对粒计算进行了详细的研究[14-16],发表了一系列研究成果[17-22],并将它应用于知识挖掘等领域,建立了概念之间的if then规则与粒度集合之间的包含关系,提出利用由所有划分构成的格求解一致分类问题,为数据挖掘提供了新的方法和视角.结合粗糙集理论,Yao探讨了粒计算方法在机器学习、数据分析、数据挖掘、规则提取、智能数据处理和粒逻辑等方面的应用.Yao给出了粒计算的3种观点[22]:1)从哲学角度看,粒计算是一种结构化的思想方法;2)从应用角度看,粒计算是一个通用的结构化问题求解方法;3)从计算角度看,粒计算是一个信息处理的典型方法.随着粒计算研究的发展,近年来国内外又有很多学者加入到了粒计算研究的领域.为了探讨粗糙集理论在各种环境下的应用,Skow r on[23-27]以包含度概念来研究粒近似空间上的Rough下近似和Rough上近似.刘清[28-30]在Roug h逻辑的基础上,提出了粒-逻辑的概念(G 逻辑),构造了这种逻辑的近似推理系统,并应用于医疗诊断.近几年来,在掀起粒计算研究的热潮中,商空间理论被人们广泛认识和推广,2003年张铃和张钹将模糊概念与商空间理论结合,提出模糊商空间理论,为粒计算提供了新的数学模型和工具,并成功应用于数据挖掘等领域[31-35].2002年苗夺谦等人[36]对知识的粒计算进行探讨,引入属性的重要度,并在求最小属性约简方面得到应用.王飞跃等人[37]对词计算和语言动力学进行了探讨,以词计算为基础,对问题进行动态描述、分析和综合,提出了设计、控制和评估的语言动力学系统.王国胤等人[38-44]提出了基于容差关系的粒计算模型,利用属性值上的容差关系给出了不完备信息系统的粒表示、粒运算规则和粒分解算法,同时结合粗糙集中的属性约简问题,提出了不完备信息系统在粒表示下属性必要性的判定条件,对粒计算方法在规则提取方面进行了探索.郑征等人[45-47]提出了相容粒度空间模型,并在图像纹理识别和数据挖掘中取得了成功,他们认为,人类具有根据具体的任务特性把相关数据和知识泛化或者特化成不同程度、不同大小的粒的能力,以及进一步根据这些粒和粒之间的关系进行问题求解的能力.卜东波等人[48]从信息粒度的角度剖析聚类和分类技术,试图使用信息粒度原理的框架来统一聚类和分类,指出从信息粒度的观点来看,聚类是在一个统一的粒度下进行计算,而分类却是在不同的粒度下进行计算,并根据粒度原理设计了一种新的分类算法,大规模中文文本分类的应用实践表明,这种分类算法有较强的泛化能力.Zhang等人[49-50]对粒神经网络进行了探讨,并在高效知识发现中得到很好的应用.李道国等人[51]研究了基于粒向量空间的人工神经网络模型,在一定程度上提高了人工神经网络的时效性、知识表达的可理解性.杜伟林等人[52]根据概念格[53]与粒度划分在概念聚类的过程中都是基于不同层次的概念结构来进行分类表示,而且粒度划分本身构成一个格结构的特点,研究了概念格与粒度划分格在概念描述与概念层次转换之间的联系,通过对概念的分层递阶来进行概念的泛化与例化,使概念在递阶方面忽略不必要的冗余信息.Yager[54]探讨了基于粒计算的学习方法和应用.Lin[55]在2006年粒计算国际会议上提出了新的研究思路!infrastruc tures for AI engineering∀.同时,Bargiela和Pe dry cz[56]也从各个侧面对粒计算的根源和实质进行了详细的探讨和总结.Yag er指出,发展信息粒的操作方法是当前粒计算研究的一个重要任务[57].1 粒计算的基本组成粒计算的基本组成主要包括3部分:粒子、粒层#9#第6期 王国胤,等:粒计算研究综述和粒结构.1 1 粒 子粒子是构成粒计算模型的最基本元素[58-59],是粒计算模型的原语.一个粒可以被解释为许多小颗粒构成的一个大个体,现实生活中,粒子无处不在,如在地图上观察洲、国家、海洋、大陆和山脉等是一些粗的粒子(大的粒子),观察省、市、区等是一些中等的粒子,而观察街道、饭店、机场等是一些相对较小的粒子.一个粒子可以被同时看作是由内部属性描述的个体元素的集合,以及由它的外部属性所描述的整体.一个粒子的存在仅仅在一个特定的环境中才有意义.一个粒子的元素可以是粒子,一个粒子也可以是另外一个粒子的元素.而衡量粒子!大小∀的概念是粒度,一般来讲,对粒子进行!量化∀时用粒度来反映粒化的程度[59].1 2 粒 层按照某个实际需求的粒化准则得到的所有粒子的全体构成一个粒层,是对问题空间的一种抽象化描述.根据某种关系或算子,问题空间产生相应的粒子.同一层的粒子内部往往具有相同的某种性质或功能.由于粒化的程度不同,导致同一问题空间会产生不同的粒层.粒层的内部结构是指在该粒层上的各个粒子组成的论域的结构,即粒子之间的相互关系.在问题求解中,选择最合适的粒层对于问题求解尤为关键,因为,在不同粒层求解同一问题的复杂度往往不同.在高一级粒层上的粒子能够分解成为下一级粒层上的多个粒子(增加一些属性),在低一级粒层上的多个粒子可以合并成高一级粒层上的粒子(忽略一些属性).粒计算模型的主要目标是能够在不同粒层上进行问题求解,且不同粒层上的解能够相互转化.1 3 粒结构一个粒化准则对应一个粒层,不同的粒化准则对应多个粒层,它反应了人们从不同角度、不同侧面来观察问题、理解问题、求解问题.所有粒层之间的相互联系构成一个关系结构,称为粒结构[20].粒结构给出了一个系统或者问题的结构化描述.通过从系统思维、复杂系统理论和层次结构理论(技术)中得到的启发至少需要确定一个粒结构网[20]中3个层次的结构:粒子的内部结构、粒子集结构和粒子网的层次结构.粒子集的集体结构可以看作是全部层次结构中一个层次或者一个粒度视图中的结构.它本身可以看作是粒的内部连接网络.对于同一个系统或者同一个问题,许多解释和描述可能是同时存在的.所以,粒结构需要被模型化为多种层次结构,以及在一个层次结构中的不同层次.虽然一个粒子在某个粒层上被视为一个整体,但粒子内部元素(子粒子)的结构在问题求解时也很重要,因为它能提供粒子更为详细的特性.而在同一层上的粒子之间也具有某种特殊的结构,它们可能是相互独立,或者部分包含.如果同一粒层上的粒子之间的独立性越好,可能问题求解后合并起来越方便;反之,如果粒子之间的相关性越好,则问题求解后的合并工作相对越繁杂.粒子网的层次结构是对整个问题空间的概括,它的复杂性在一定程度上决定了问题求解的复杂程度.2 粒计算的基本问题粒计算中存在2个最基本的问题,即粒化和粒的计算.问题空间的粒化是指将问题空间分解为许多子空间,或是基于有用的信息和知识将问题空间中的个体聚集成不同的类,这些类称之为粒.粒中的元素可以理解为对应概念的实例.可以把粒计算和概念生成、知识发现和数据挖掘联系起来,因为概念生成的目的之一是对具有某些概念的粒的表示、特征化、描述和解释,而知识发现和数据挖掘就是在粒之间建立关联和因果等联系.2 1 粒 化粒化是问题求解空间的一个构造性过程,它可以简单理解为在给定粒化准则下得到一个粒层的过程,是粒计算基础单元的构建,包括粒子、粒视图、粒网和层次结构.在不同的粒化准则下就得到多个粒层,进而得到粒层的网络结构.通常的粒化方法有自顶而下通过分解粗粒子得到细粒子的方法,和自底向上将细粒子通过合并得到粗粒子的方法.粒化过程是粒计算的必要过程.问题空间的粒化过程主要涉及粒化准则、粒化算法(方法)、粒子和粒结构的表示(描述)以及粒子和粒结构的定性(定量)描述等问题[59].粒化准则主要是语义方面的问题,解决为什么2个对象能放进同一个粒子内的问题.它是根据实际问题求解的具体需求和具体精度要求得到的.粒化准则的一个基本要求是忽略掉那些无关紧要的细节,从而达到降低问题求解复杂度的目的.粒化方法面对实际问题,回答如何对问题空间进行粒化,采用什么算法或工具实现粒层的构造,它属于算法方面的问题.如在粗糙集理论中,如何对对象集进行划分产生粒层,如何高效实现属性的约简等问题.粒子的结构描述主要是用粒化方法得到的粒子,如何用形式化的语言表述出来,以便后面进行计算.例如在粗糙集理论模型中,粒子的表示可能是一个子集.而#10#智 能 系 统 学 报 第2卷在概念格理论中,粒子的表述就是一个概念,它包括概念的外延(一个对象子集)和内涵(一个属性子集) 2部分.粒结构的描述往往形式多样,在商空间理论模型中,粒结构是一种分层递阶的结构,在概念格模型中,粒结构是一种H asse图.粒子和粒结构的定性、定量描述主要指粒子和粒结构的大小(主要是指粒度的结果)和复杂性度量.当前,成功的粒化方法往往都是以将解空间形成划分空间为主要的目标,这样便于将子空间上的解合成原问题空间的解,商空间理论就是这样一个成功的实例.当然,如果用某种粒化方法形成的解空间不是划分(如覆盖),这将增加合成的复杂度.2 2 粒的计算以粒子为运算对象进行问题的求解或推理,是狭义的粒计算.粒计算可以通过系统访问粒结构来解决问题,包括在层次结构中向上和向下2个方向的交互,以及在同一层次内的移动,主要分为2种[59]:同一粒层上粒子之间相互转换和推理,不同粒层上粒子之间的转换或推理.不同粒层之间的联系可以由映射来表示,在不同粒层上同一问题以不同的粒度、不同的细节表示,粒层之间的映射就建立了同一问题的不同细节描述之间的关系.商空间理论模型就是通过自然投影建立了分层递阶的商空间链式结构.粒计算的主要特点是同一问题的解可以在不同粒层之间自由转化.正是基于这一点,人们才能用粒计算方法高效地实现复杂问题的求解.模糊商空间上的分层递阶结构可以通过模糊等价关系的截关系建立相应的转化联系;粗糙集理论中的划分粒度可以通过属性的增加或删减来控制;而概念格理论模型中的概念粒子的相互转化可以通过改变概念的内涵来实现.这些转化虽然方式不同,但一个共同的特点是在转化的过程中,问题求解的重要性质必须能在不同粒层上表现出来,这也是评价粒化方法好坏的一个重要指标.如果在粒化后粒层之间的相互转化过程中,某些重要属性不能体现出来,这不但不利于问题的求解,反而会导致问题求解过程发散,从而增加问题求解的复杂度.商空间理论模型中的!保真∀和!保假∀原理使得粒化后形成的商空间具有!保序∀性,使得问题求解的搜索空间大大减少,复杂度由相乘变为相加.粒计算的2个基本问题中,粒化是关键,它直接决定粒计算的成功与否.因此,粒化方法是人们研究的热点问题.目前,粒化方法很多,如基于等价关系的划分产生粒子[17],基于模糊集产生模糊信息粒[1],基于模糊等价关系截集产生分层递阶粒空间[35],基于概念格产生概念信息粒和概念知识粒[60],基于邻域系统产生邻域粒子[3]等等.总之,粒计算是一个多准则学科,它从许多领域中获得其基本的思想、准则和方法,是基于不同层次粒度和细节的问题求解的一般性理论.在粒计算的!大伞∀下进行统一的研究,可以发现不同学科之间原理的关联,它与具体的学科研究是相互独立的[59].一旦掌握了粒计算中的结构化思维和结构化问题求解的抽象思想,就可以很容易地在任何领域中运用.3 粒计算的主要模型与理论方法3 1 词计算模型高标准的精确表达,普遍存在于数学、化学、工程学和另外一些!硬∀科学之中,而不精确表达却普遍存在于社会、心理、政治、历史、哲学、语言、人类学、文学、文艺及相关的领域中[61].针对复杂且非明晰定义的现象,无法用精确的数学方法来描述,但可以用一些程度词语,如不很可能、十分不可能、极不可能等,来对某些模糊概念进行修饰.尽管普通的精确方法(如数学)在某些科学领域应用相当广泛,也一直尝试着应用到人文学科中,但人们在长期的实践中已经清楚地认识到精确的方法应用到人文学科有很大的局限性.面对巨大而又复杂的人文学科系统,区别于传统方法的新方法∃∃∃模糊计算方法被Zadeh提出.在人类的认识中,粒的模糊性直接源于无区别、相似性、接近性以及功能性等这些概念的模糊性.人类具有在不精确性、部分知识、部分确定以及部分真实的环境下作出合理决策这一不同寻常的能力,而模糊信息粒化正是这种能力的基础.在模糊逻辑中,模糊信息粒化是语言变量、模糊!if then∀规则以及模糊图的基础.词计算(com puting w ith w o rds)是用词语代替数进行计算及推理的方法[62].如何利用语言进行推理判断,这就要进行词计算.信息粒化为词计算提供了前提条件,词计算在信息粒度、语言变量和约束概念上产生了自己的理论与方法,意在解决模糊集合论的数值化隶属度函数表示法的局限性、表达的概念缺乏前后联系、逻辑表达和算子实现的复杂性等问题,使它们能够更符合人类的思维特点.词计算有狭义和广义2个方面的概念.狭义的模糊词计算理论是指利用通常意义下的数学概念和运算(如加、减、乘、除等)构造的带有语义的模糊数值型的词计算的理论体系;广义的词计算理论统指用词进行推理、用词构建原型系统和用词编程,前者是后者的基#11#第6期 王国胤,等:粒计算研究综述础[63].模糊逻辑在词计算中起中心作用,它可以近似地被认为与词计算相同[62].在词计算中存在2个核心问题:模糊约束的表现问题和模糊约束的繁殖问题,它们是模糊信息粒化的基本准则.信息粒化(infor mation granulation)是粒化的一种形式.在众多的信息粒化中,非模糊粒化的方法很多,如将问题求解空间形成划分空间,每个粒子都是精确的.但这种粒化方法不能解决很多现实问题,如将人的头部粒化为脸、鼻子、额头、耳朵、头盖、脖子等粒子,这些粒子之间没有明确的分界线,它们都是模糊的粒子.模糊信息粒化是传统信息粒化的一种推广.模糊信息粒化理论[64-65](theor y of fuzzy information g ranulation,TFIG)建立在模糊逻辑和信息粒化方法基础之上,是从人类利用模糊信息粒化方式中获得的启发,其方法的实质是数学.Zadeh指出[64],除模糊逻辑外,没有一种方法能提供概念框架及相关技术,它能在模糊信息粒化起主导作用.继Zadeh之后,许多学者开始了有关词计算的研究工作,Wang[66]编写了词计算一书.广义词计算理论的研究工作,中国刚刚起步,李征等人[67-68]通过研究模糊控制器的结构,认为模糊控制实际上是应用了信息粒化和词计算技术,但却只是应用了该技术的初级形式,而基于信息粒化和词计算(IGCW)的模糊控制系统,将具有更强的信息处理和推理判断能力,是对人类智能更高程度的模拟.他们指出,基于信息粒化和词计算的模糊控制系统是通过信息粒化和重组、多层次的思维决策,动态地改变下层控制器的参数和推理方法或控制规则,因而使控制器具有变结构和多模态的特性.信息太多会延误推理计算的时间,给系统带来不必要的处理任务;而信息太少,则会降低推理结果的完善性.因此,提出了合理重新组织信息的研究课题.随着近年来智能信息处理的不断深入与普及,特别是处理复杂系统分析与评估时的迫切需要,人们越来越发现排除自然语言的代价太大了.首先,从应用角度来看,人类已习惯于用自然语言描述和分析事物,特别是涉及社会、政治、经济和管理中的复杂过程.人类可以方便地利用以自然语言表示的前提进行推理和计算,并得到用自然语言表达的结果;其次,从理论角度来看,不利用自然语言,现有的理论很难甚至不能够处理感性信息,而只能处理测度信息.感性信息或知识通常只能用自然语言来描述,由于人类分辨细节和存储信息的认知能力的内在限制,感性信息在本质上是不精确的[69-72].W ang利用自然语言知识和信息,建立以词计算为基础的语言动力学系统(linguistic dynamic system s,LDS),并通过融合几个不同领域的概念和方法[37],提出基于词计算的语言动力学系统的计算理论框架,根据这个计算理论框架,利用常规或传统数值动力学系统中已有的成熟概念和方法,对语言动力学系统进行动力学分析、设计、控制和性能评估.这些研究的目的是建立连接人类的语言知识表示与计算机的数字知识表示的桥梁,成为下一代智能化人机交互的理论基础之一.总之,词计算理论和方法对于复杂信息系统的模糊推理和控制非常重要,但由于自身的局限性,它必须和其他理论体系相结合,才能更有效地处理复杂信息.3 2 粗糙集模型一个对象属于某个集合的程度随着属性粒度的不同而不同,为了更好地刻画集合边界的模糊性,波兰学者Paw lak[73]在20世纪80年代提出了粗糙集理论,其本质思想是利用不可分辨关系(等价关系)来建立论域的一个划分,得到不区分的等价类(即不同属性粒度下的概念粒),从而建立一个近似空间(由不同大小的概念粒形成).在近似空间上,用2个精确的集合(上近似集和下近似集)来逼近一个边界模糊的集合.如果近似空间的粒度较粗,被近似的集合的边界域较宽,而如果近似空间的粒度较细,被近似集合的边界域较窄.给定集合X上的一个划分等价于在X上给定一个等价关系R.X/R表示U上由R导出的所有等价类,[x]R表示包含元素x的等价类,其中x%U. Paw lak称之为在论域上给定了一个知识基(X,R),然后讨论一个一般的概念X(U中的一个子集)如何用知识基中的知识来表示.对那些无法用(X,R)中的集合的并来表示的集合,借用拓扑中的内核和闭包的概念,引入下近似和上近似的概念:R-(X)= {x%U|[x]R X}和R-(X)={x%U|[x]R&X∋ }.当R-(X)∋R-(X)时,就称X为粗糙集,从而创立了!粗糙集理论∀.粗糙集理论是一种软计算方法.软计算(soft computing)概念是由模糊集创始人Zadea提出的[61-65].传统的计算方法即所谓硬计算,使用精确、固定和不变的算法来表达和解决问题;而软计算的指导原则是利用所允许的不精确、不确定性和部分真实性得到易于处理、鲁棒性强和成本较低的解决方案,以便更好地与现实系统相协调.粗糙集理论的研究,已经经历了20多年的时间,无论是在系统理论、计算模型的建立和应用系统的研制开发上,都已经取得了很多成果,也建立了一套较为完善的粗糙集理论体系[74-75].目前粗糙集理#12#智 能 系 统 学 报 第2卷。

基于粒计算的数据挖掘与数据分析

基于粒计算的数据挖掘与数据分析

聚类结果评估
粒计算可以用于评估聚类 结果的质量,以便更好地 理解数据分布。
特征选择
粒计算可以用于选择对聚 类结果影响最大的特征, 以提高聚类效果。
粒计算在异常检测中的应用
基于密度的异常检测
01
粒计算可以用于基于密度的异常检测算法中,以更好
地识别异常点。
基于距离的异常检测
02 粒计算可以用于基于距离的异常检测算法中,以更好
02
基于粒计算的数据挖掘
粒计算在数据挖掘中的应用
01
02
03
简化数据集
通过将数据集划分为不同 的粒度,可以简化数据集 ,提高数据挖掘的效率。
特征提取
粒计算可以用于提取数据 集中的特征,以便更好地 表示数据。
数据预处理
粒计算可以用于数据预处 理,例如去除噪声、填充 缺失值等。
粒计算在关联规则挖掘中的应用
离群点检测
基于粒计算的离群点检测方法通过检测离群点,将离群点剔除,实 现数据的压缩。
粒计算在数据融合中的应用
多源数据融合
基于粒计算的多源数据融合方法通过对不同来源的数据进行融合 ,获得更全面和准确的数据。
数据去重
基于粒计算的数据去重方法通过对数据进行近似处理,去除重复 数据,提高数据的质量。
数据插值
基于粒计算的数据插值方法通过对数据进行插值处理,获得更准 确的数据。
04
基于粒计算的算法优化
基于粒计算的算法优化方法
规则合并法
将多条规则合并为一条规则,从而减少规则的数量,降低算法的复 杂度。
规则约简法
在保持分类准确度的基础上,删除冗余的规则,从而减少规则的数 量,提高算法的效率。
规则优化法
根据一定的评价标准,对生成的规则进行排序,选择优质的规则,从 而提高算法的精度。

基于粒计算的数据挖掘算法研究

基于粒计算的数据挖掘算法研究

基于粒计算的数据挖掘算法研究一、引言在信息时代的今天,数据的产生和积累呈现出爆炸式的增长,如何从庞杂的数据中发现有用的信息成为了数据挖掘的重要任务之一。

粒计算作为一种新兴的计算模型,可以有效地处理模糊和不确定的信息,因此被广泛应用于数据挖掘领域。

本文将基于粒计算的数据挖掘算法进行研究。

二、粒计算概述粒计算是一种计算模型,通过将对象划分为粒来处理模糊和不确定的信息。

粒的概念首次由日本学者石井裕引入,并在随后的研究中不断完善和发展。

粒计算以粒为基本单位,通过对粒的特征和关系进行分析和推理来处理数据。

粒计算将数据分为粗糙粒、模糊粒和概率粒等不同类型,根据具体问题选择合适的粒计算模型进行处理。

三、粗糙粒数据挖掘算法粗糙集理论是粒计算的一种具体实现方式,通过将数据划分为粗糙集来处理不确定的信息。

粗糙集理论在数据挖掘中可以用来处理特征选择、属性约简、关联规则挖掘等任务。

粗糙粒数据挖掘算法通过计算属性之间的上近似和下近似来挖掘数据之间的关系和规律。

其中,基于粗糙集的特征选择算法主要通过计算属性之间的依赖度来选取最具代表性的特征,以达到降低数据维度和提高分类准确率的目的。

四、模糊粒数据挖掘算法模糊粒数据挖掘算法是通过将数据划分为模糊粒来处理模糊和不确定的信息。

模糊粒数据挖掘算法主要包括模糊聚类、模糊关联规则挖掘和模糊分类等任务。

其中,模糊聚类算法通过将数据划分为模糊粒来将相似的对象聚类在一起,以揭示数据的内在结构和关系。

模糊关联规则挖掘算法通过挖掘数据中的模糊关联关系,发现隐藏在数据背后的有价值模式。

模糊分类算法通过对数据进行建模和分类,实现精细的分类效果。

五、概率粒数据挖掘算法概率粒数据挖掘算法通过将数据划分为概率粒来处理不确定和随机的信息。

概率粒数据挖掘算法主要包括贝叶斯网络、隐马尔可夫模型和条件随机场等算法。

其中,贝叶斯网络通过建立概率图模型来表示变量之间的依赖关系,并通过给定观测数据来进行推理和预测。

隐马尔可夫模型通过组合隐含状态和观测数据,来建模和预测具有时序关系的数据。

粒计算理论的研究及其应用

粒计算理论的研究及其应用

粒计算理论的研究及其应用在现代科技越来越发达的时代,我们的生活中充满了科技的影响。

科技的进步不仅给我们的生活带来了更多的便利,同时也改变了我们的生活方式。

粒计算理论作为一种新兴的计算模型,其应用将给我们的生活带来更多的可能性。

1. 粒计算理论的研究粒计算理论是一种计算理论模型,与传统的图灵计算模型相比,其主要特点是在计算处理中具有模糊性、不确定性、粗糙性和近似性。

该理论的研究起初是为了解决现实问题中的模糊性和不确定性,而后逐渐发展为一种新的计算模型。

粒计算理论的主要研究内容包括:粗糙集理论、模糊集理论、格理论、近似推理算法等。

这些理论的研究为粒计算的应用提供了坚实的基础。

2. 粒计算理论在人工智能中的应用粒计算理论在人工智能领域中的应用非常广泛,其主要应用包括:模糊控制、模糊逻辑、人工神经网络、智能优化算法等。

模糊控制是指利用模糊数学理论来进行控制的方法。

通过对模糊控制系统的研究,可以使得控制系统的效果更加优良,并且能够适应更多的场景。

模糊逻辑是将模糊数学中的模糊概念引入到逻辑中,从而使得我们可以用更贴近人类思维的方式来进行推理。

利用模糊逻辑进行推理的方式非常符合人类思维方式,因此可以帮助我们更好地理解环境和问题,并且能够在问题处理中对结果进行更准确的预测。

人工神经网络是一种模仿人脑神经活动的计算系统,其主要采用了模拟神经元之间的相互作用来解决问题。

通过引入粒计算理论,我们可以更好地处理具有不确定性和模糊性的问题。

智能优化算法是指一种可以求取最优解的算法。

常见的智能优化算法包括遗传算法、粒子群算法、蚁群算法等。

将粒计算理论引入到这些算法中,可以更好地解决一些经典的优化问题。

3. 粒计算理论在其他领域中的应用除了在人工智能领域中的应用之外,粒计算理论在其他领域中也有着广泛的应用。

例如,在医疗领域中,可以利用粒计算理论来预测疾病的治疗效果和预后情况;在金融领域中,可以利用该理论来进行金融风险评估和股票预测等。

基于粒计算的系统建模及数据特征构建

基于粒计算的系统建模及数据特征构建

基于粒计算的系统建模及数据特征构建汇报人:2023-12-11•引言•基于粒计算的模型构建•数据特征构建目录•基于粒计算的模型评估•实验与分析•结论与展望01引言当前,随着大数据时代的到来,数据呈现出爆炸式增长的趋势,如何有效地管理和处理这些大规模数据成为一个亟待解决的问题。

它通过对数据进行粒度划分,以更粗粒度的方式对大规模数据进行处理和分析,从而提高了数据处理效率。

粒计算作为一种处理大规模数据的理论和技术,近年来受到了广泛关注。

基于粒计算的系统建模及数据特征构建对于解决实际应用问题具有重要意义,如推荐系统、图像处理、自然语言处理等。

研究背景与意义研究内容与方法本文旨在研究基于粒计算的系统建模及数据特征构建方法,主要包括粒计算的基本理论、系统模型的构建方法、数据特征的提取与表示方法等。

研究方法本文采用理论分析和实证研究相结合的方法,首先对粒计算的基本理论进行深入探讨,然后构建基于粒计算的模型,最后通过实验验证模型的有效性和可行性。

02基于粒计算的模型构建粒计算是一种处理不确定、模糊和不完全信息的理论框架,通过将问题中的对象或属性进行划分,形成不同的粒度,从而简化问题的复杂性。

粒计算包括粗糙集理论、商空间理论、概念格理论等多种理论,这些理论都强调对信息的粒度划分和处理。

粒计算的基本思想是将问题中的信息进行分层抽象,形成一系列的粒度,每个粒度都具有特定的性质和特征。

粒计算基本原理在构建基于粒计算的模型前,需要明确问题的目标和约束条件,以便为后续的粒度划分提供指导。

确定问题的目标和约束条件对问题进行粒度划分建立粒度之间的关系建立基于粒计算的模型根据问题的特性和目标,将问题中的对象或属性进行划分,形成不同的粒度。

在确定了问题的粒度划分后,需要建立粒度之间的关系,以便为后续的模型构建提供基础。

根据问题的特性和目标,结合粒度之间的关系,建立基于粒计算的模型。

粒计算模型构建流程1 2 3粒计算通过对信息的分层抽象和处理,能够有效地处理不确定性和模糊性,为系统建模提供了有力的支持。

基于粒计算的基因挖掘(全文)

基于粒计算的基因挖掘(全文)

基于粒计算的基因挖掘1.引言粒计算是一门进展迅速的新学科,它通过把复杂问题抽象划分,从而转化成若干简单的问题,符合当今基因研究的现状。

它融合了粗糙集、模糊集及人工智能等多种理论的研究成果,而粗糙集理论已成为研究粒计算的重要工具。

尽管针对基因挖掘已开展大量研究,但由于基因所具有的数量大、可研究样本少、噪音高等特点,目前人们仍不能确切了解基因蕴含的无尽奇异,因而运用粒计算技术,通过采纳有效的分类约简方法,对特征基因进行系统分类、分析、挖掘,找出其相关联的基因模块,可为疾病的研究、分类及诊断提供有效的平台,也可为临床医学、病理学等学科的研究提供更有价值的基因研究数据及重要的理论依据。

2.粒计算自20世纪70年代起,人们从物理学划分大型物质为颗粒、分子、原子这一思想中得到启发,并将其应用到信息领域来实现对现实世界里不完整、不精确的海量信息进行处理,以达到“智能”的目的。

此后,Zdeh、Zdzislw Pwlk、Hobss、T.Y.Lin教授等人分别针对这一理论对粒计算进行一系列相关论述,奠定了粒计算理论的雏形。

此后,对粒计算的研究不断增多,逐渐深入,已形成专门的研究群体。

粒化和粒的计算是粒计算存在的两个最基本问题。

粒子是粒计算模型构成的最基本元素,不仅可以看作由内部属性描述的个体元素的集合和外部属性描述的整体,同时也是它的环境属性所描述的对外界动态变化环境的回应。

粒度是用来衡量粒子“尺度”的一个概念,它将性质相似的元素归结为一个新元素,反映了粒子进行“量化”时的粒化程度。

模糊集合理论、粗糙集理论和商空间理论是当前粒计算最主要的三大理论基础,由此衍生的几种典型的复合粒计算模型有:粗糙模糊集模型、模糊粗糙集模型、模糊商空间模型、模糊概念格模型、随机粗糙集模型[3-5]。

由于粒计算研究日臻完善,目前这些模型已不能够满足研究需要,未来的复合粒计算模型进展方向有:将粗糙集与商空间理论相结合构建系统化的粒计算理论和方法;将粗糙集和形式概念分析、概率论、群代数结合使数据处理更有效。

基于粒计算的大数据处理研究

基于粒计算的大数据处理研究

• 82•作品的后期合成是通过设备和软件运用各种编辑技巧,摆脱单一的平面束缚,运用仿真、特效和剪辑等手段多角度展现艺术形式,给予观众视觉上的流畅、真实、唯美的画面。

做好这一环节对整个作品流程的制作起到事半功倍的效果,后期合成软件的选择和运用也变得尤为重要,常用的后期合成软件如:Combustion 软件能提供大量并且独特的工具在视觉特效的设计上比较前端;After Effects 软件目前最流行,与其他软件可以无缝衔接、灵活度极高并且拥有先进的设计理念;MayaFusion 软件支持所有的图像文件格式,是PC 平台口碑较好的合成软件;Premiere 软件的操作界面友好,视频编辑功能强大,应用最为广泛。

音频处理方面软件如:Cool Edit 、Edius 等,后期软件技术使动画制作更加的完美,大胆的创作理念给予观众视觉享受。

而如After Effects 软件现将素材导入,对不同类型的文件进行一些对应的设置,通过帧尺寸的大小和像素等方面的因素渲染合成图像,再运用蒙版和效果的制作对多个画面进行叠加,微调亮度、颜色等细节问题,高效精准的动态图形呈现震撼人心的视觉效果。

图8 After Effects软件合成界面 图9 Cool Edit音频处理界面三、二维动画新技术创新艺术形式的展现离不开二维动画,它的地位不会随着三维动画的发展而被淘汰,然而两者相偎相依,三维动画先进的技术在当前市场却有很大的优势,但若没有二维动画的艺术基础,也不会有优秀的作品呈现,二维动画将三维动画中骨骼动画技术(如:Flash 、Moho )的优势引荐,结合自身的情况缩短动画制作时间,该技术可以直接调节动作,无需逐帧绘制。

二维动画引入唇语同步技术(如:Papagayo )也是非常必要的,动画中的口型动作已被规范化,即绘制出九类基本的音素口型动作一一对应,软件中可将输入的语音划分成不同的音素并自动生成对应的口型动作,该技术大大提高了动画制作效率。

面向动态数据的三支粒计算知识获取方法

面向动态数据的三支粒计算知识获取方法

2023-11-05CATALOGUE 目录•引言•三支粒计算基本理论•面向动态数据的三支粒计算知识获取方法•方法验证与分析•结论与展望01引言背景随着大数据时代的到来,动态数据呈现出快速增长的态势,给知识获取带来了巨大挑战。

意义研究面向动态数据的三支粒计算知识获取方法,有助于提高知识获取的效率和准确性,为决策提供有力支持。

研究背景与意义现状目前,针对动态数据的处理主要采用流处理和批处理两种方式,但它们在处理速度和实时性方面存在局限性。

问题现有的方法在处理动态数据时,难以保证知识的实时性和准确性,无法满足实际需求。

研究现状与问题研究内容与方法研究内容本研究旨在提出一种面向动态数据的三支粒计算知识获取方法,提高知识获取的效率和准确性。

方法该方法采用三支粒计算技术对动态数据进行处理,通过构建数据粒度不同的三个层次,实现对动态数据的快速处理和实时响应。

02三支粒计算基本理论三支粒计算基本概念三支粒变换是指对三支粒空间进行的一系列计算操作,它可以用于提取动态数据的特征、进行数据分类和聚类等。

三支粒空间是指由一组三支粒构成的空间,它可以表示动态数据的整体变化情况。

三支粒度是指每个三支粒所包含的时间范围,它可以是一个固定的时间间隔,也可以是根据数据变化情况动态调整的时间间隔。

三支粒计算是面向动态数据处理的一种计算模型,其基本概念包括:三支粒、三支粒度、三支粒空间和三支粒变换。

三支粒是指将动态数据划分为不同的时间粒度,每个时间粒度对应一个三支粒。

三支粒计算模型三支粒计算模型包括三个基本组成部分:数据源、三支粒变换和结果输出。

数据源是指用于进行三支粒计算的动态数据,它可以是来自传感器、数据库或其他数据源的数据。

三支粒变换是三支粒计算的核心,它通过对数据源进行一系列的计算操作,提取出数据的特征或进行数据分类、聚类等。

结果输出是指经过三支粒变换处理后的数据结果,它可以是一个或多个分类结果、聚类结果或其他形式的数据分析结果。

  1. 1、下载文档前请自行甄别文档内容的完整性,平台不提供额外的编辑、内容补充、找答案等附加服务。
  2. 2、"仅部分预览"的文档,不可在线预览部分如存在完整性等问题,可反馈申请退款(可完整预览的文档不适用该条件!)。
  3. 3、如文档侵犯您的权益,请联系客服反馈,我们会尽快为您处理(人工客服工作时间:9:00-18:30)。

中国科学:信息科学2015年第45卷第11期:1355–1369大数据挖掘的粒计算理论与方法梁吉业xy*,钱宇华xy,李德玉xy,胡清华zx山西大学计算智能与中文信息处理教育部重点实验室,太原030006y山西大学计算机与信息技术学院,太原030006z天津大学计算机科学与技术学院,天津300072*通信作者.E-mail:ljy@收稿日期:2015–05–07;接受日期:2015–06–08;网络出版日期:2015–09–18国家自然科学基金(批准号:61432011,U1435212,61322211)、国家重点基础研究发展计划(973计划)(批准号:2013CB329404)和教育部新世纪人才支持计划(批准号:NCET-12-1031)资助项目摘要大数据往往呈现出大规模性、多模态性以及快速增长性等特征.粒计算是智能信息处理领域中大规模复杂问题求解的有效范式.从推动大数据挖掘研究角度,本文首先概要地讨论了大数据的特征对可计算性、有效性与高效性提出的3大挑战;其次,结合粒计算的思维模式特点,概述了已有研究成果,分析论述了以粒计算应对大数据挖掘挑战的可行性,认为粒计算有望为大数据挖掘提供一条极具前途的崭新途径;最后,对大数据挖掘的粒计算理论与方法中的若干科学问题进行了梳理与展望,以期抛引这一领域的学术思考与研究工作.关键词大数据数据挖掘模式发现粒计算信息粒化多粒度1引言根据维基百科的定义,大数据是指无法在一定时间内用常规软件工具对其内容进行抓取、管理和处理的数据集合.大数据=海量数据+复杂类型的数据.大数据通常来源于以互联网为载体的虚拟社会系统,或者来源于复杂的工业控制系统、物联网系统、经济与金融系统,现实社会的各种管理与监控系统,以及诸如空间探测、大气与地球科学、生物信息学等科学研究领域[1∼3].2011年IDC公司发布的《数字宇宙研究报告》称:全球信息总量每两年就会增长一倍,2011年全球被创建和被复制的数据总量为1.8ZB.预计到2020年,全球将总共拥有35ZB的数据量.大数据在现代信息社会中的数据资源主体地位已成为学术界与企业界的共识.由于对经济活动与社会发展具有可预见的重要推动作用,大数据已经进入了世界主要经济体的战略研究计划.正如美国政府启动的“Big Data Research and Development Initiative”计划指出的“将大力推进大数据的收集、访问、组织和开发利用等相关技术的发展,提高从海量复杂的数据中提炼信息和获取知识的能力与水平”.从大数据中进行数据挖掘与知识发现是大数据应用的战略问题之一.梁吉业等:大数据挖掘的粒计算理论与方法2大数据挖掘面临的挑战2008年,Nature出版的专辑“Big Data”从互联网技术、网络经济学、超级计算、环境科学和生物医药等多个方面介绍了大数据带来的挑战[4].2011年2月Science杂志刊发了海量数据处理专题,指出“倘若能够更有效地组织和利用这些数据,人们将得到更多的机会发挥科学技术对社会发展的巨大推动作用”[5].大数据的特征常被总结为4V,即Volume(体量浩大)、Variety(模态繁多)、Velocity(快速增长)、Value(价值巨大但密度很低).其中,“价值巨大但密度很低”从大数据的利用潜力和当前分析与处理的技术局限性角度概括了大数据的特征,是指大数据的价值虽高,但利用密度很低.本文重点针对大数据的外在形态特征,即大数据的规模海量性、多模态性以及快速增长性等对传统的数据挖掘理论、方法与技术在可计算性、有效性与时效性等方面提出的严峻挑战进行研究.而为应对这些挑战所涌现的新的计算理论、方法与技术将有效推动大数据挖掘的发展与应用.2.1大规模性VS可计算性数据规模的急剧膨胀给数据挖掘,特别是面向互联网的数据挖掘带来了巨大挑战[6,7].为了使巨量数据可计算,一些新的高性能计算方法逐渐涌现.2004年,Google公司首先推出了以MapReduce 为代表的非关系数据管理技术,作为面向大数据分析和处理的并行计算模型,很快引起了学术界和工业界的广泛关注.在面向大数据的挖掘技术方面,国内外学者也进行了一些初步探索.比如,针对传统分析软件扩展性差以及Hadoop分析功能薄弱的特点,IBM致力于对R和Hadoop进行集成[8].R 是开源统计分析软件,通过R和Hadoop的深度集成,把并行框架下的计算推向数据.另有研究者实现了Weka(类似于R的开源机器学习和数据挖掘工具软件)和MapReduce的集成[9].标准版Weka 工具只能在单机上运行,并且存在内存不能超越1GB的限制.经过算法的并行化,在MapReduce集群上,Weka突破了原有的可处理数据量的限制,可以轻松地对超过100GB的数据进行分析.另有开发者发起了Apache Mahout项目的研究,该项目是基于Hadoop平台的大规模数据集上的机器学习和数据挖掘开源程序库,为应用开发者提供了丰富的数据分析功能.针对频繁模式、分类和聚类等数据挖掘任务,研究人员也提出了相应的大数据解决方案.比如,Miliaraki等[10]提出了一种可扩展的在MapReduce框架下进行频繁序列模式挖掘的算法,Ene等[11]用MapReduce实现了大规模数据下的K-Center和K-Median聚类方法,Yu等[12]提出了针对线性分类模型的大数据分类方法,Kang等[13]使用Belief Propagation算法(简称BP)处理大规模图数据挖掘异常模式.针对大规模图数据分析, Yang等[14]对基于集群上的大规模图数据管理和局部图的访问特征(广度优先查询和随机游走等)进行了研究,提出了分布式图数据环境和两级划分管理架构.另一种应对大数据可计算性挑战的思路是使用数据采样技术,通过采样使数据规模变小,以便利用现有的技术手段进行数据分析[15].然而,这一思路可能会遭受两方面的质疑.一方面,大数据的混杂性使得抽样所获得的样本未必能反映大数据总体;另一方面,普遍认为:大数据条件下,基于小样本学习理论的传统数据挖掘、机器学习方法的“独立同分布假设”难以保障,致使样本数据模式能否代表总体数据模式受到质疑.事实上,MapReduce是在大规模非结构化数据的管理层面为人们提供了一种并行处理架构.而在大数据数据分析与挖掘层面遭遇的可计算性挑战方面,尽管已有一些工作,但还处于借用MapReduce 对数据进行管理的阶段,还没进入面向数据挖掘任务、针对大数据本身研究其拆分理论与方法,以应对可计算性挑战的阶段.1356中国科学:信息科学第45卷第11期2.2多模态性VS有效性多模态是大数据的另一个显著特点.当前,数据采集方式、手段的多样性一方面为人们提供了从不同视角观测自然系统、工业系统、社会系统中复杂现象的可能性,另一方面也使得观测对象的数据描述呈现出多模态特征.比如,在医疗检测中,提供的心电、脑电、超声、X射线、电子计算机断层扫描(CT)、磁共振成像(MRI)、正电子发射断层扫描(PET)、单光子发射断层成像(SPECT)及功能磁共振成像(FMRI)等多种模态信息是互为差异、互相补充的,对不同模态信息进行适当的融合成为临床诊断和疾病治疗的迫切需求.在天体物理研究中,太阳大气成像仪记录了太阳内部结构和磁场结构、太阳的极紫外线辐射、太阳盘面的数个不同波长紫外线和极紫外线影像,一天生成的数据将近2T.太阳物理学家需要从如此海量的多模态数据中发现太阳活动的物理规律,以揭示空间天气的形成机理,并建立可靠的预报模型.当前,在一些领域已经开展了多模态数据分析的探索性研究[16∼19],主要思路是:将分别从不同模态的数据中提取的特征合并成一个更大的特征空间,然后在这个特征空间中进行数据分析与挖掘.现有方法属于特征层面融合后的分析思路,其有效性依赖于根据先验知识提取的特征,难以推广到先验知识匮乏的前沿探索领域.现有方法的主要局限性表现在以下3个方面.其一,所获取的数据模式(知识)表现出高度非线性特点,难以被用户理解;其二,难以对带有分支、层次、网络等结构的复杂问题进行数据层面的建模;其三,融合仅限于特征层面,还没有深入到知识和推理层面.如何充分利用大数据的多模态性,发展面向复杂问题求解,能从数据、特征、知识、推理等不同层面体现融合思想,具有分层递阶、分而治之特点的高效挖掘理论与方法是多模态大数据分析的主要挑战.2.3增长性VS时效性大数据的又一个显著特点是数据量随着时间快速积累、迅速增长,人们可以充分利用历史数据和新增数据分析对象的状态、预测事件的发展趋势.许多实际应用领域的数据挖掘任务具有较高的时效性要求.比如,在客户购买行为模式的分析中,电子商务平台上的数据几乎每时每刻都在动态增加和更新,决策者需要及时掌握客户行为的模式和消费趋势,以便更精准地投放广告进行商品推荐.在股票投资决策中,股票交易数据在开盘期间实时累积,如何及时做出优化组合投资决策对降低投资风险、提高收益率至关重要.在社会网络中,大量的节点上的状态在不断发生变化,节点与节点之间的链接情况也在不断发生变化,这给面向社会网络的数据挖掘的实时性要求带来了挑战.OLAP(online analytical processing)正是为了契合这种数据分析的时效性需求而被提出的.然而,在大数据时代,数据的增长不仅仅体现在其快速性上,而且体现在分析所需时间段内数据增量的大规模性,这使得传统的单增量或小规模批增量机器学习技术的局限性凸显,大数据呼唤更高效的在线数据分析技术.最主要的挑战在于:基于大规模批增量数据的模式更新机制以及高效算法.综合上述分析可以看出,大数据的大规模性、多模态性与快速增长性给大数据挖掘提出的挑战是多方面的、多层面的.衍生出的问题既具有领域相关性,又具有多学科交叉性.为此,需要在现有研究成果的基础上,以全新的视角发展大数据挖掘的新理论与新方法,推动大数据学科的发展与应用.3粒计算——大数据挖掘的新途径粒计算是专门研究基于粒结构的思维方式、问题求解方法、信息处理模式的理论、方法、技术和1357梁吉业等:大数据挖掘的粒计算理论与方法工具的学科,是当前智能信息处理领域中一种新的计算范式.从人工智能角度来看,粒计算是模拟人类思考和解决大规模复杂问题的自然模式,从实际问题的需要出发,用可行的满意近似解替代精确解,达到对问题的简化、提高问题求解效率等目的.从数据分析与处理层面看,粒计算通过将复杂数据进行信息粒化,用信息粒代替样本作为计算的基本单元,可大大提高计算效率.粒计算主要包括数据粒化、多粒度模式发现与融合、多粒度/跨粒度推理等核心研究内容.大数据的表现性态、大数据挖掘面临的挑战、基于大数据的复杂问题建模与粒计算框架的契合之处主要表现在以下3个方面.3.1大数据经常具有多层次/多粒度特性1990年,我国著名科学家钱学森先生在其论文《一个科学新领域——开放的复杂巨系统及其方法》[20]中就指出:“只有一个层次或没有层次结构的事物称为简单的系统,而子系统种类很多且有层次结构,它们之间关联关系又很复杂的系统称为复杂巨系统.任何一个复杂系统都是一个具有层次结构的系统”.Friedman等[21]在Science上发表的论文认为在诸如复杂细胞网络、蛋白质互作用网络等生物大数据中都广泛存在着多层次、多尺度特性.Clauset等[22]在Nature上发表的论文也指出,在复杂社会网络中也存在天然的层次结构.Ahn等[23]则专门研究了大数据的多尺度复杂性.著名社会网络科学家Watts[24]在其提出的小世界网络研究中,也指出网络中嵌套的诸多社区内部也满足小世界网络的要求.大数据往往来自于对复杂的自然/人工巨系统的观测记录,或者由人类社会系统借助网络自主产生.这就意味着,反映复杂巨系统形态及运动规律的大数据必然隐含着由这些系统所决定的局部与整体关系,以及复杂的层次结构,即数据的多粒度/多层次特性.3.2挖掘任务通常呈现多层次/多粒度特性数据挖掘总是面向实际应用的,即使面对同一个数据集,用户需求的多层次/多粒度特性也决定了挖掘任务的多层次/多粒度特性.比如,在金融大数据领域,决策任务可能是面向国家层面、区域层面,或者是地方层面的,甚至是面向某个银行的;也可能是面向不同种类的存款、贷款,或理财产品.这就使得挖掘任务可能同时面向不同层面、不同方面.挖掘任务的多层次/多粒度特性必然要求数据挖掘工具不仅能够从不同视角探索大数据不同层面隐含的模式,而且还能够进行复杂有效的融合、自动的跳转,以及便捷的定制.3.3大数据挖掘要求算法具有高效近似求解性在2012年出版的大数据著作《大数据时代:生活、工作与思维的大变革》[25]中指出:“大数据意味着所有数据”.大数据是指无法在一定时间内用常规软件工具对其内容进行抓取、管理和处理的数据集合.因此,大数据挖掘首先要解决“大数据能算的问题”,这就要求对大数据进行合理的分解,即大数据集的粒化,然后采用并行处理策略,MapReduce正是基于这种策略在大数据管理方面的实践结果.基于大数据的复杂问题建模往往具有极其复杂的结构,这就要求大数据挖掘算法能够按照任务的要求自动地或人机交互地从大数据中抽取与组织出具有多层次/多局部特征的结构,并能在这种复杂结构上进行推理,以达到挖掘的预期目标.大数据挖掘算法的高效近似求解特性,主要来自于用户对挖掘过程、挖掘结果的时效性要求,大数据的巨量增长性对在线挖掘技术提出了严峻挑战.与传统的小数据集上的挖掘与学习不同,大数据的混杂性、不确定性,以及高噪声对“独立同分布假设”的破坏使得追求问题的最优/精确解变得几乎1358中国科学:信息科学第45卷第11期不可能,迫使我们转向寻找问题的满意近似解.另一方面,满意近似解在很多环境下已能很好地满足实际应用的需要,无需一味追求问题的最优/精确解.综上分析可知,从隐含于大数据中的结构特征,大数据挖掘任务的类型特征,到大数据挖掘算法的性能特征,综合这些角度,大数据挖掘的计算框架与粒计算所蕴含的计算范式具有高度契合性.鉴于这一认识,可以推测:粒计算将为大数据挖掘提供一条极具前途的崭新途径.4现状分析早在1979年,美国著名控制论专家Zadeh[26]就首次提出了模糊信息粒化问题.他认为,人类认知能力可概括为粒化(granulation,全体分解为部分)、组织(organization,部分集成为整体)和因果(causation,因果的关联)3个主要特征.1985年,Hobbs[27]提出了粒度(granularity)的概念.在20世纪90年代初,我国的张钹和张铃[28,29]在其专著《问题求解理论及应用》中特别指出“人类智能的一个公认特点,就是人们能从极不相同的粒度上观察和分析同一问题.人们不仅能在不同粒度世界上进行问题的求解,而且能够很快地从一个粒度世界跳到另一个粒度世界,往返自如,毫无困难”.这种处理不同粒度世界的能力,正是人类问题求解的强有力的表现.Yager和Filev[30]进一步指出“人们已形成了一个关于世界的粒度观点,······,在此观点下,人类的观察、度量、概念化和推理都是在粒度意义下进行的”.这些观点都认为,粒化作为人类认知的重要特征之一,对复杂数据的知识发现具有重要作用.1997年,Zadeh[31]第一次提出了粒计算(granular computing)的概念.随后国际上许多不同领域的学者都开始关注和研究这个问题,其逐渐形成了智能信息处理中一个新的研究方向.自粒计算这一概念提出以来,大量关于粒计算研究的学术论文相继发表,在国际上形成了专门的研究群体.近年来,国际上两个系列会议“IEEE International Conference on Granular Computing”与“International Conference on Rough Sets,Fuzzy Sets,Data Mining and Granular Computing”每年举办一次.在国内,2001年以来,粒计算的研究成果集中在每年举办的“中国粗糙集与软计算学术会议”上报道和交流.由于粒计算在国内的迅速发展,2007年开始每年举办“中国粒计算学术会议”.短短十余年的发展已经凸显出它对信息科学特别是对计算机科学的作用和影响.粒计算已逐渐成为数据分析领域的新分支,在数据粒化、多粒度模式发现以及粒度推理等方面的研究已经取得了一些重要的进展.4.1数据粒化研究进展数据粒化是基于粒计算的数据分析的基础,是按照给定的粒化策略将复杂数据分解为信息粒的过程.根据不同的数据建模目标和用户需求,可以采用多种多样的粒化策略.单纯依赖数据的常用粒化策略大多可以归结为基于数据二元关系的粒化策略,其本质是将满足预先定义的二元关系的两个数据样本分配到同一个数据粒中.诸多粒化策略通过使用等价关系、相似关系、极大相似关系、模糊等价关系、模糊相似关系、邻域关系、优势关系等二元关系可将数据粒化为相应的二元粒结构[32∼39].再如,图数据中的连通分支,极大全连通子图、各种路及圈,以及树中的子树、链等.基于聚类的粒化策略尽管本质上也是依赖于二元关系,但它是在目标函数引导下,通过一个迭代寻优过程学习得到隐含于数据中的簇团结构[40].聚类可以被理解为数据簇团结构的发现方法,也可以被理解为一种数据粒化策略.聚类粒化具有很强的数据针对性,如针对高维数据,其代表性方法有基于子空间的聚类[41]、联合聚类[42]以及基于超图的聚类[43]等;针对复杂数据,Brendan[44]在Science发表了一个基于消息传递的聚类算法,成功应用于人脸图像聚类、基因外显子发现、手稿中心句识别以及最优航线搜索等1359梁吉业等:大数据挖掘的粒计算理论与方法方面;针对多模态数据,Ahmad等[45]提出了一种数值型和符号型并存的多模态数据的K-Means算法.Huang[46]提出了用于解决符号数据聚类的K-Modes算法,并将其与K-Means算法相融合用于多模态数据聚类.此外,在图像处理领域里,有一类通过提取图像本身的纹理、边缘、灰度值等特征,并将其作为多模态特征来进行图像数据的粒化方法[18,19,47].目前的数据粒化策略与方法很少考虑适应大数据的可计算性需求,多是从单一模态特征出发,在不同模态特征之间设置权重参数或者简单地对结果进行集成,并没有从本质上进行融合,不能够保证其语义一致性或语义相关性,无法有效解决具有多模态特征的数据协同粒化问题.4.2多粒度模式发现研究进展多粒度模式发现与融合是粒计算框架下复杂问题求解的内在逻辑要求.所谓多粒度,可以是多个数据子集、表示空间的多个子空间、多个不同的模态变量集、也可以是问题求解过程中的多个局部或中间结果,它对应于问题的多个角度、多个局部或多个层次.为了获得整体数据集或问题的全局解,需要对多个单一粒度上发现的模式进行融合.尽管没有使用多粒度这一术语,国内外学者已经针对医学图像分析、网络、视频语义分析、标注和检索、情感识别等领域的多模态问题开展了融合研究,主要考虑从不同模态的数据中分别提取特征,构成多模态特征空间,发展具有多模态特征的模式发现理论与方法.目前的研究主要集中在3个方面:基于多核学习的多模态数据分类[48],基于多字典协同表达的多模态数据建模[49]和基于深度学习的多模态数据融合[50].比如,在多模态视频挖掘中,Hershey[51]将视觉和音频从视频中提取出来,利用参数模型的方法对音频信号在视频画面中对应的发生区域进行了挖掘.Darrel等[52]则提出了一种基于参数模型的新方法.这些多模态融合方法主要分为乘积融合、线性融合、非线性融合等.在多模态Web挖掘中,网页上丰富的图片、音频、视频以及文本等多种模态信息构成了典型的多模态数据挖掘问题.一些学者提出了语义网方法来描述单词和图片之间的相关性,并利用文本信息帮助进行图像的检索.多模态图像检索系统iFind[53]提出了一种同时利用文本和图像视觉信息的相关反馈算法.胡清华[54]系统地研究了数值型数据和符号型数据并存的多模态数据的粗糙集方法,并将粗糙集方法推广应用到了太空天气预报、风力发电故障识别等领域.Hwang等[55]研究了多模态数据的聚类问题,将图像数据中的纹理、灰度值、线条等提取出来作为多个模态来研究. Wang等[56]将网页中的图片和图片周围文字分离成两类事物,通过两者之间的关联矩阵将同一事物中的相似度传播到另一类事物中,得到了更为精确的图片之间的相似度.Qian等[57]系统提出了多粒度粗糙集理论,通过挖掘不同粒度下的隐含模式来对目标概念与目标决策进行融合学习,用于更加高效合理地进行决策.然而,目前的研究多集中在基于聚类的多粒度结构发现以及基于表示空间的多粒度多模态分类问题,还很少考虑基于多粒度的分类、回归和相关关系分析等数据分析任务,尤其是多模态数据的分层多级的分类回归分析较少有人涉及.此外,多个粒化结构之间的关系研究也鲜见报道,它也应是多粒度理论与方法中的重要研究内容.4.3粒计算推理研究进展推理是人类智能中的重要能力之一.推理是一种形式逻辑,是用于研究人们思维形式、规律以及逻辑方法的科学.推理的作用是可从已知的知识得到未知的知识.粒计算推理指的是利用已知的信息粒或粒空间进行演绎的逻辑方法.在粒计算领域中,已经有一些关于粒计算推理的研究.Yao[58]对粒计算的基本问题、基本方法进行了系列研究,通过采用决策逻辑语言(DL-语言)来描述论域的粒度,构建粒度世界的逻辑框架;将1360。

相关文档
最新文档