从不确定图中发现K紧密子图

合集下载

基于不确定性PPI网络的最大稠密子图挖掘

基于不确定性PPI网络的最大稠密子图挖掘

Mi i g ma i ld n e s b r p s i n e t i PIn t r n n x ma e s u g a h n u c ra n P e wo k
L U Ja c i HANG e q n,ME I i— a ,S Xu — u NG ,WANG a Ya Mio
Ab t a t S v r l t de a e S O n t a h r d ci n o r ti u cin u i g P 1d t s p o sn . Ho v r h P s r c : e e a u ish v h W h t e p e i t fp o e f n t s P a a i r mii g s t o n o n we e ,t e P I d t e e ae rm x e i nsa en i i c mp ee a d i a c r t w ih p o t s o rp e e t P aa e sa n e t i a a g n r td f o epr me t r os y, n o l t n n c u ae, h c r mo e e r s n I ts t n u c ran t P d a g a h h sp p r r p s d an v l lo i m omi e ma i l e s u ga h f c e t n e ti P ewo k t d p e r p .T i a e o o e o e g rt t n xma n e s b rp se in l i u c ran P In t r .I a o td p a h d i yn
深度优 先搜 索策略 和 点扩展 的挖掘 算法 , 它可 以有效地从 不确 定 的 P I P 网络 中挖掘 最 大稠 密子 图。该 算 法使 用 了几种 高效的剪枝 技 术来提 高挖掘 的 时间效 率 。在 酵母 菌 P I 据 上 的 实验 结果 表 明该 算 法在 精 度 和 效率 上 P数

会议日程安排

会议日程安排

会议日程安排会议日程安排10月21日1.研究生学术辅导1(第四教学楼)--李青9:00-10:00--裴健10:15-11:152.午餐3.研究生学术辅导2(第四教学楼)--Jeffrey Yu, Hong Cheng:1:30-3:00--林学民,张文杰:3:15-4:454.程序委员会会议10月22日1.开幕式(8:30-9:00)(逸夫科技楼主会场)2.拍照和休息(9:00-9:30)3.大会报告1(09:30-11:10)(逸夫科技楼主会场)--王海勋、周立柱4.休息(11:10-11:30)5.新技术报告1(11:30-12:30)(逸夫科技楼主会场)--刁妍蕾、陈雷6.午餐(12:00-13:30)7.大会报告1(13:30-15:10)(逸夫科技楼主会场)--Wang Min、Boualem Benatallah8.休息(15:10-15:30)9.分组报告1(15:30-17:30)(第四教学楼)9.系统演示(15:30-17:30)(逸夫科技楼2楼多功能厅)10.分组报告1的集中展示(17:30-18:15) (逸夫科技楼2楼多功能厅)论文的展板编号参加分组报告111.晚宴(18:30-20:00)12.专业委员会会议(20:00开始)(正大卿云楼二楼多功能厅)10月23日1.分组报告2(8:30-10:00)2.休息(10:00-10:15)3.分组报告3(10:15-11:45)--------------------------------------------------4.分组报告2、3的集中展示(11:45-12:30) (逸夫科技楼2楼多功能厅)论文的展板编号参加分组报告2,35.午餐(12:30-13:30)6.新技术报告2(13:30-15:00)--黄燕、禹晓辉、朱扬勇7.休息(15:00-15:20)8.企业技术报告 (15:20-16:20)(逸夫科技楼主会场)9.休息(16:20-16:30)10.闭幕式(16:30-17:30)(逸夫科技楼主会场)------------------------------------------------。

基于摘要图的不确定社会网络Top-k子图查询算法

基于摘要图的不确定社会网络Top-k子图查询算法

s n d t e r s n o iln t o k n n o e t e if r t n o r i a g a h .T e T p k s b r p i e or p e e ts ca ew r sa d e c d h o ma i fo g n l r p s h o - u g a h g n o i
2. c o lo mp t rS i n e a d Te h o o y,Na tn i e st S h o fCo u e ce c n c n lg no g Un v riy,Na tn 26 9,Ch n n o g 2 01 i a;
3 S ho o C mp t c ne u a nvr t, h n hi 0 4 3 hn ) . c ol f o ue Si c ,F d nU i s y S a g a 2 0 3 ,C ia r e ei
第3 4卷 第 6期 21 0 0年 1 2月
南 京理 工大 学学报 ( 自然 科 学版 )
J un l f a j g U i r t o S i c n eh o g N trl c n e o ra o N ni nv s y f c n ea d T c n l y( aua S i c ) n e i e o e
中图分类 号 :P3 1 T 1
文章 编号 :0 5— 8 0 2 1 )6— 7 8— 6 10 9 3 ( 0 0 0 0 3 0
T p k S b r p eyA g rtm n U cran S ca o - u g a h Qu r lo i h o n eti o il
Vo . 4 1 3 No 6 .
De . 2 0 e 01

基于不确定PPI网络的功能模块挖掘

基于不确定PPI网络的功能模块挖掘
第2 8卷第 l 期 2
21 0 1年 1 2月
计 算 机 应 用 研 究
Ap l ai n Re e r h o o u e s p i t s a c fC mp tr c o
Vo. 8 No 1 12 . 2
De .2 1 e 01
基 于不 确定 P l P 网络 的 功 能模 块 挖 掘
越来越受到人们的关注。文献 [ ] 5 提出了从不确定图数据中
挖掘频繁子图模式 的问题 , 且介 绍了一种估 计挖 掘算 法 ; 并 文
收稿 日期 :2 1 -5 1 ;修 回日期 :2 1 -6 1 0 10 —0 0 10 — 5
目(C 0 0 2 J2 14 )
顶点代表唯一的蛋白质, 边代表两个蛋白质之间的唯一的交互
Ab t a t Mi ig f n t n l d lsw t ilg c ls n f a c a t a td lt f t n i nr c n l . we e , rt i — r — sr c : n n u ci a o mo u e i b oo ia i i c n eh s t ce so t t e e t Ho v r p oen p o h g i ar o ae o y
c mp e e h w ah g i l r y F n l s v r l x e me t a et k n t s e s a a i t ft eag r h I c met o ・ o lx s s o ih smi i . i al e e a p r n s r a e ot t h c lb l y o lo t m. t o oa c n at y, e i e t i h i c u i n t a t a f c iey mie f n t n d lsfo u c r i P ew r . l so h t n ef t l n u ci a mo ue r m n e an P In t o k ic e v ol t

在复杂网络中查找k个有限重叠的密集子图

在复杂网络中查找k个有限重叠的密集子图

在复杂网络中查找k个有限重叠的密集子图印安涛;钱钢;施欢欢【期刊名称】《计算机应用与软件》【年(卷),期】2016(033)012【摘要】密集子图问题广泛应用于社区发现、生物信息学中基因共表达和蛋白质相互作用等方面,是图挖掘和复杂网络研究的一个重要环节。

现有的研究大多围绕查找单个密集子图和多个不相交的密集子图展开,忽略了子图的重叠及子图间的联系。

为填补这一空白,引入最小密集图的概念,提出查找 k 个有限重叠的密集子图问题,最大化总密度的同时,满足子图节点集合间不超过限定的Jaccard 系数。

提出两个启发式算法,并通过实例计算以及与现有算法的比较分析,证明了算法的有效性。

%Dense subgraph has wide applications such as community detection,gene co-expression and protein-protein interactions in bioinformatics,etc.,and is a key link in graph mining and complex network research.Most of current researches are expanded surrounding either finding a single dense subgraph or finding multiple disjoint subgraphs,but ignore subgraphs’overlap and the connection between subgraphs.To fill the gap,in this work we introduced the concept of minimal dense subgraph and proposed the issue of finding k dense subgraphs with limited overlap,while maximising the total density,it satisfies the Jaccard coefficient without exceeding the limitation between the sets of nodes of subgraphs.We proposed two heuristic algorithms,and proved theeffectiveness of our algorithm through example calculation and comparative analysis on existing algorithms.【总页数】6页(P140-144,147)【作者】印安涛;钱钢;施欢欢【作者单位】南京财经大学信息工程学院江苏南京 210023;南京财经大学信息工程学院江苏南京 210023;南京财经大学信息工程学院江苏南京 210023【正文语种】中文【中图分类】TP3【相关文献】1.复杂网络中重叠社区检测 [J], 张振宇;张珍;杨文忠;吴晓红2.复杂网络大数据中重叠社区检测算法 [J], 乔少杰;韩楠;张凯峰;邹磊;王宏志;Louis Alberto GUTIERREZ3.一个复杂网络中完全子图的搜索算法 [J], 张野4.复杂网络大数据中重叠社区自动检测仿真 [J], 柳原;白金牛5.复杂网络中的完全子图搜索算法研究 [J], 刘夫云因版权原因,仅展示原文概要,查看原文内容请购买。

KNN和K-mean的理解

KNN和K-mean的理解

KNN本文原创作者陈皓(@左耳朵耗子),文章来源酷壳(),原文链接:/articles/7779.html本文版权归作者所有。

K Nearest Neighbor算法又叫KNN算法,这个算法是机器学习里面一个比较经典的算法,总体来说KNN算法是相对比较容易理解的算法。

其中的K表示最接近自己的K个数据样本。

KNN算法和K-Means算法不同的是,K-Means算法用来聚类,用来判断哪些东西是一个比较相近的类型,而KNN算法是用来做归类的,也就是说,有一个样本空间里的样本分成很几个类型,然后,给定一个待分类的数据,通过计算接近自己最近的K个样本来判断这个待分类数据属于哪个分类。

你可以简单的理解为由那离自己最近的K个点来投票决定待分类数据归为哪一类。

Wikipedia上的KNN词条中有一个比较经典的图如下:从上图中我们可以看到,图中的有两个类型的样本数据,一类是蓝色的正方形,另一类是红色的三角形。

而那个绿色的圆形是我们待分类的数据。

注意,上图中因为K=2,所以得到X=4 和X =5.1的点最近,得到的Y的值分别为27和8,在这种情况下,我们可以简单的使用平均值来计算:注:示例来自这里,KNN_TimeSeries Excel表格下载插值,平滑曲线KNN算法还可以用来做平滑曲线用,这个用法比较另类。

假如我们的样本数据如下(和上面的一样):要平滑这些点,我们需要在其中插入一些值,比如我们用步长为0.1开始插值,从0到6开始,计算到所有X点的距离(绝对值),下图给出了从0到0.5 的数据:下图给出了从2.5到3.5插入的11个值,然后计算他们到各个X的距离,假值K=4,那么我们就用最近4个X的Y值,然后求平均值,得到下面的表:2)对于KNN算法中找到离自己最近的K个点,是一个很经典的算法面试题,需要使用到的数据结构是―最大堆——Max Heap‖,一种二叉树。

你可以看看相关的算法。

(本文完)K-means本文原创作者陈皓(@左耳朵耗子),文章来源酷壳(),原文链接:/articles/7779.html 本文版权归作者所有。

从不确定图中发现K紧密子图

从不确定图中发现K紧密子图韩蒙;李建中;邹兆年【期刊名称】《计算机科学与探索》【年(卷),期】2011(005)009【摘要】Uncertainty is inherent in many of graphs which are abstracted from protein-protein interaction (PPI) networks, social networks or wireless communication networks. How to get the valuable information, such as the crucial function group in PPI networks, the group which makes advertisers more properly, and the nodes which guarantee to communicate with their neighboring nodes well, plays an important role in practical settings. This paper shows that the problem to find the closest subgraph is NP-Hard, and proposes an efficient search-tree based algorithm with pruning techniques TreeClose. Because search-tree based algorithm TreeClose needs too large space when processing larger graphs, the paper also proposes an efficient greedy approximate algorithm GreedyClose. Moreover, the experimental results verify that the proposed algorithms are efficient in practice.%由蛋白质交互网络、社会网络及无线通信网络构成的图中存在许多不确定性.如何高效获取不确定图中有价值的信息,如蛋白质网络中关键的功能集团、社会网络中适于投放广告的团体及通信网络中应重点维护的区域等,具有重要的现实意义.从理论上证明了在不确定图中发现最紧密子图问题具有NP-Hard复杂性;基于树搜索策略提出了通过枚举解空间及剪枝获得最优解的算法TreeClose;针对树搜索算法TreeClose在处理大图时空间复杂度过高的问题,提出了基于贪心思想的2-近似算法GreedyClose.实验结果表明,通过上述算法可以高效快速地在不确定图中发现紧密子图,从而解决在实际应用中遇到的各种问题.【总页数】13页(P791-803)【作者】韩蒙;李建中;邹兆年【作者单位】黑龙江大学计算机科学技术学院,哈尔滨150080;黑龙江大学计算机科学技术学院,哈尔滨150080;哈尔滨工业大学计算机科学与技术学院,哈尔滨150001;哈尔滨工业大学计算机科学与技术学院,哈尔滨150001【正文语种】中文【中图分类】TP311【相关文献】1.从不确定图中挖掘频繁子图模式 [J], 邹兆年;李建中;高宏;张硕2.不确定图中相对紧密子图发现算法 [J], 刘爽爽;王红3.从不确定性中发现机会——澳大利亚传媒业转型融合的认识及行动 [J], 伍义林4.从不常规的统计图中提取真实的信息 [J], 曹文喜;顾忠民5.临床诊断是从不确定到确定,以确定排除不确定的过程--临床医学的充分条件假言判断 [J], 孟丽娟; 孟宪鹏因版权原因,仅展示原文概要,查看原文内容请购买。

322-韩蒙 RAKING一种高效的不确定图K-极大频繁模式挖掘算法

[15][16]
,文献[17]介
绍了最新不确定数据的相关技术 ,但这些研究仍然主 要面向传统数据项。针对不确定图的研究才刚刚开 始,其中已有计算不确定图中的最可靠子图 对不确定图进行高效 TOP-K 查询
[20] [18][19]
, :
等课题。邹提出
[21,22,23]
在不确定图上挖掘频繁模式的一些有效算法
RAKING:一种高效的不确定图 K-极大频繁模式挖掘算法
韩蒙 1) 张炜 2) 李建中 1) 2)
1) (黑龙江大学 计算机科学技术学院 黑龙江哈尔滨 150080) 2) (哈尔滨工业大学 计算机科学与技术学院 黑龙江哈尔滨 150的可能图实例,基于确定图模型的频繁图模式挖掘算法通常难以在不确定图集合上高 效运行。本文提出了一种不确定图数据集上的基于随机游走的 K 极大频繁子模式挖掘算法。首先,将每个不确定图转换 为相应的确定图并挖掘候选频繁模式;然后,将候选频繁模式恢复为不确定图并生成极大频繁模式搜索空间;最后,通 过随机游走以相同概率随机地选择 K 个极大频繁模式。理论分析和实验结果表明本文提出的算法能够高效地获得不确定 图集合的 K-极大频繁模式。
Margin[11]先将图数据组织成格,在搜索的同时不断
对搜索空间进行剪裁以减少子图同构的计算,从而更 易获得极大频繁模式。但是,因为不确定图的频繁子 树也是不确定的,而且不确定图蕴含的全部确定子图 空间巨大,即使进行一定的剪裁也很难有效枚举,所 以这两种方法都不可以直接应用于不确定图。 随机化的算法因可在大规模数据上高效执行被广 泛应用。在确定图上,ORIGAMI[12]通过随机化方法 解决了获得有代表性模式的问题,但其输出不具有一 致性,多次迭代后结果中仍可能漏掉一些重要模式。 MUSK[13]方法则通过随机游走获得极大频繁模式集。 近期,Hasan在原有工作基础上提出利用随机游走对 各类带约束模式进行挖掘的通用方法[14],但以上方法 对确定图进行的处理并没有考虑边及点的不确定性, 不能很好适用于不确定图。 对于不确定数据的研究近年也已有了很多成果, 如对不确定数据建模及管理的工作

大规模不确定图上的Top—k极大团挖掘算法


i n t o s o me d i s j o i n t s u b g r a p h s i n mu c h s ma l l e r s c a l e b y a n e f f i c i e n t g r a p h d i v i s i o n a l g o r i t h m,a n d s u b g r a p h s a r e t h e n e x t e n d e d t o b e e x t e n s i o n s u b g r a p h s b y b r i n g i n g s o me a d j a c e n t v e r t i c e s i n .
Ab s t r a c t
Thi s pa p e r i nv e s t i g a t e s t he p r ob l e m o f mi ni ng k t o p— r a nke d v e r t e x s u bs e t s i n a n
u nc e r t a i n gr a ph whi c h ha ve t he h i gh e s t pr o ba b i l i t i e s o f be i n g m a xi ma l c l i qu e s i n p r a c t i c e . A de c o mpo s i t i o n — ba s e d a l go r i t h m t a ki ng a d v a nt a ge o f pa r a l l e l i s m i s pr o po s e d t o s o l v e t h e pr o bl e m o n l a r g e unc e r t a i n g r a ph s .I n t he a l go r i t h m ,t he i n put l a r ge u nc e r t a i n g r a ph i s f i r s t l y de c o mpo s e d

数据挖掘试题(110道)

单选题1.某超市研究销售纪录数据后发现,买啤酒的人很大概率也会购买尿布,这种属于数据挖掘的哪类问题?(A)A.xx规则发现B.聚类C.分类D.自然语言处理2.以下两种描述分别对应哪两种对分类算法的评价标准?(A)(a)警察抓小偷,描述警察抓的人中有多少个是小偷的标准。

(b)描述有多少比例的小偷给警察抓了的标准。

A. Precision,RecallB. Recall,PrecisionA. Precision,ROC D. Recall,ROC3.将原始数据进行集成、变换、维度规约、数值规约是在以下哪个步骤的任务?(C)A.频繁模式挖掘B.分类和预测C.数据预处理D.数据流挖掘4.当不知道数据所带标签时,可以使用哪种技术促使带同类标签的数据与带其他标签的数据相分离?(B)A.分类B.聚类C.关联分析D.隐马尔可夫链5.什么是KDD?(A)A.数据挖掘与知识发现B.领域知识发现C.文档知识发现D.动态知识发现6.使用交互式的和可视化的技术,对数据进行探索属于数据挖掘的哪一类任务?(A)A.探索性数据分析B.建模描述C.预测建模D.寻找模式和规则7.为数据的总体分布建模;把多维空间划分成组等问题属于数据挖掘的哪一类任务?(B)A.探索性数据分析B.建模描述C.预测建模D.寻找模式和规则8.建立一个模型,通过这个模型根据已知的变量值来预测其他某个变量值属于数据挖掘的哪一类任务?(C)A.根据内容检索B.建模描述C.预测建模D.寻找模式和规则9.用户有一种感兴趣的模式并且希望在数据集中找到相似的模式,属于数据挖掘哪一类任务?(A)A.根据内容检索B.建模描述C.预测建模D.寻找模式和规则11.下面哪种不属于数据预处理的方法?(D)A变量代换B离散化C 聚集D 估计遗漏值12.假设12个销售价格记录组已经排序如下:5, 10, 11, 13, 15, 35, 50, 55, 72, 92, 204, 215使用如下每种方法将它们划分成四个箱。

  1. 1、下载文档前请自行甄别文档内容的完整性,平台不提供额外的编辑、内容补充、找答案等附加服务。
  2. 2、"仅部分预览"的文档,不可在线预览部分如存在完整性等问题,可反馈申请退款(可完整预览的文档不适用该条件!)。
  3. 3、如文档侵犯您的权益,请联系客服反馈,我们会尽快为您处理(人工客服工作时间:9:00-18:30)。

*The National Natural Science Foundation of China under Grant No. 60831160525, 60933001 (国家自然科学基金); the Key Pro-gram of the National Natural Science Foundation of China under Grant No. 61033015 (国家自然科学基金重点项目); the General Program of the National Natural Science Foundation of China under Grant No. 61173023 (国家自然科学基金面上项目); the Fun-damental Research Funds for the Central Universities of China under Grant No. HIT.NSRIF.201180 (中央高校基本科研业务费专项资金); the Program of Graduate Innovation and Creativity Funds of Heilongjiang Province under Grant No. YJSCX2011-239HLJ (黑龙江省研究生创新科研基金项目); the Scientific and Technological Innovation Project of Heilongjiang University under Grant No. 2011386, 2011387 (黑龙江大学学生学术科技创新项目). Received 2011-04, Accepted 2011-06.ISSN 1673-9418 CODEN JKYTA8 E-mail: fcst@ Journal of Frontiers of Computer Science and Technology 1673-9418/2011/05(09)-0791-13 Tel: +86-10-51616056DOI: 10.3778/j.issn.1673-9418.2011.09.003从不确定图中发现K 紧密子图*韩 蒙1, 李建中1,2+, 邹兆年21. 黑龙江大学 计算机科学技术学院, 哈尔滨 1500802. 哈尔滨工业大学 计算机科学与技术学院, 哈尔滨 150001Finding K Close Subgraphs in an Uncertain Graph *HAN Meng 1, LI Jianzhong 1,2+, ZOU Zhaonian 21. School of Computer Science and Technology, Heilongjiang University, Harbin 150080, China2. School of Computer Science and Technology, Harbin Institute of Technology, Harbin 150001, China + Corresponding author: E-mail: lijzh@HAN Meng, LI Jianzhong, ZOU Zhaonian. Finding K close subgraphs in an uncertain graph. Journal of Frontiers of Computer Science and Technology, 2011, 5(9): 791-803.Abstract: Uncertainty is inherent in many of graphs which are abstracted from protein-protein interaction (PPI) networks, social networks or wireless communication networks. How to get the valuable information, such as the crucial function group in PPI networks, the group which makes advertisers more properly, and the nodes which guarantee to communicate with their neighboring nodes well, plays an important role in practical settings. This paper shows that the problem to find the closest subgraph is NP-Hard, and proposes an efficient search-tree based algo-rithm with pruning techniques TreeClose. Because search-tree based algorithm TreeClose needs too large space when processing larger graphs, the paper also proposes an efficient greedy approximate algorithm GreedyClose. Moreover, the experimental results verify that the proposed algorithms are efficient in practice.792 Journal of Frontiers of Computer Science and Technology计算机科学与探索 2011,5(9)Key words: uncertain graph; data mining; approximation algorithm; close subgraph摘 要:由蛋白质交互网络、社会网络及无线通信网络构成的图中存在许多不确定性。

如何高效获取不确定图中有价值的信息, 如蛋白质网络中关键的功能集团、社会网络中适于投放广告的团体及通信网络中应重点维护的区域等, 具有重要的现实意义。

从理论上证明了在不确定图中发现最紧密子图问题具有NP-Hard复杂性; 基于树搜索策略提出了通过枚举解空间及剪枝获得最优解的算法TreeClose; 针对树搜索算法TreeClose在处理大图时空间复杂度过高的问题, 提出了基于贪心思想的2-近似算法GreedyClose。

实验结果表明, 通过上述算法可以高效快速地在不确定图中发现紧密子图, 从而解决在实际应用中遇到的各种问题。

关键词:不确定图; 数据挖掘; 近似算法; 紧密子图文献标识码:A 中图分类号:TP3111引言随着生物信息学、社会科学、互联网及无线通信技术的发展, 越来越多的大型网络进入人们的视野, 这些复杂系统往往蕴含着具有重要意义的信息。

例如, 在生物蛋白质网络中, 既可以通过其结构了解不同蛋白质的分布, 又可以从连接不同蛋白质的边中分析其间不断进行的交互活动, 后者往往是蛋白质表现功能的重要方式, 挖掘这些信息, 可以发现重要的功能团, 从而有助于医学治疗及制药; 在社会网络中, 人与人的关系就是一个庞大的交互网络, 在社会网络中寻找交流频繁的群体可以帮助广告商更有效地投放发布信息, 具有重要的商业价值; 在无线传感器网络中, 数以千计的节点投放后分布式工作, 在获取返回的信息时, 若可以有效分析其拓扑结构中的信息交互数据, 发现通信密集的区域或节点, 既有助于统计网络状态, 又可以进一步优化节点分布及数据收集算法, 从而提高整个网络的效率。

然而, 无论是生物网络、社会网络还是无线传感器网络, 顶点及边的存在性在现实中往往并不明确, 它们通常以一定的概率存在或关联。

由于这些复杂网络存在不确定性, 不确定图自然成为研究这些网络的重要模型。

然而到目前为止, 不确定图相关的研究工作才刚刚开始, 远远不能满足实际应用中的广泛需求。

在不考虑不确定性的传统图中, 一类问题就是发现图是顶点联系密切的稠密子图, 基本定义为在图G中发现子图g(V,E), 使g的稠密度即边个数除以点个数的值(|E|/|V|)最高(单位顶点间有最多的边相连)。

如图1所示, 子图Ⅰ(a,b,c,d,e) 5个顶点间共7条边, 其稠密度为7/5, 是整个拓扑中最稠密的子图。

然而当图存在不确定性时, 如图1中的边(a,b)及边(c,b), 虽然有边相连, 但边的存在概率仅为0.1, 实际连通关系并不明显, 此时稠密度无法代表子图内各顶点的紧密情况。

只有边以高概率存在(图1中的边(d,e)存在概率0.8), 且整个子图内各点都以较高概率连通(图1中子图Ⅱ), 该子图才是不确定图中真正的紧密子图, 也才在不确定图中更具有实际意义。

Fig.1 Discovering the close subgraph in uncertain graph 图1不确定图中发现最紧密子图韩蒙等:从不确定图中发现K紧密子图793在生物网络中, 因基因及蛋白质的测量和实验手段存在着人为或客观的误差, 一些分子结构或片段的属性无法确定。

同时, 研究对象的结构及组成有时也会不断发生动态变化。

将每个蛋白质抽象为点, 蛋白质相互的关系对应点间以一定概率存在的边, 将蛋白质交互的网络抽象出来就是一个不确定图, 但想要快速在不确定图中发现重要的功能团却非常困难。

在无线传感器网络中, 各节点分布式工作, 每个节点可以有侦听、通信及睡眠等状态, 同时一些节点还存在因电能耗尽而失效的情况, 这使相邻节点或网络链路总以一个不确定的形式存在, 节点之间以某一概率连通。

由于现实中网络节点数量通常很多, 导致在网络上挖掘实际工作中联系紧密的区域变得十分复杂。

发现不确定图中联系紧密的子图1), 可以满足前文所提出的需求。

然而, 如文中定理1所证, 在不确定图上发现最紧密子图问题具有NP-Hard的复杂性。

由于不确定图蕴含着丰富的属性及结构信息, 以致对紧密子图特性进行评价和度量的模型非常复杂。

如果使用不确定数据典型的可能世界模型, 一个仅有100条边的不确定图, 即使只考虑边的不确定性, 其蕴含的可能图实例也将达2100个之多。

除此之外, 上述网络抽象出的图通常具有成千上万甚至更多的顶点, 这也使问题更加难于处理。

在以往的研究工作中, 对于传统数据的一般处理方法无法适用于复杂的图数据, 更无法有效地解决实际图中存在的不确定性。

相关文档
最新文档