复杂网络链路预测
复杂网络的链路预测算法及其应用研究

复杂网络的链路预测算法及其应用研究复杂网络的链路预测算法及其应用研究随着信息化时代的到来和互联网的广泛应用,网络结构日益复杂。
网络的复杂性使得链路预测成为了一个重要而复杂的问题。
链路预测是指通过已知网络的拓扑结构,预测出未知节点之间潜在的连接关系。
在现实生活中,链路预测算法在社交网络、信任网络、交通网络、生物网络等领域都有着重要的应用。
本文将重点介绍复杂网络的链路预测算法及其应用研究。
首先,我们需要了解什么是复杂网络。
复杂网络是由大量节点和节点之间的连接构成的,节点之间的连接关系可以用图形化的方式表示出来。
其中,节点代表网络中的实体,连接代表节点之间的关系。
复杂网络的拓扑结构既有规则性也有随机性,在真实网络中都能体现出来。
复杂网络的特点包括小世界性、无标度性、社区结构以及同配性等。
链路预测算法在复杂网络研究中具有重要的作用。
链路预测算法可以帮助我们预测网络中不存在的连接关系,并帮助我们更好地理解网络的结构和动态变化。
链路预测算法主要分为基于相似性的方法、基于机器学习的方法和基于传播模型的方法等。
基于相似性的链路预测方法主要利用已知连接关系的相似性来预测未知连接关系。
其中,常用的相似性度量方法包括共同邻居法、Jaccard系数、Katz相似性指数等。
共同邻居法指出,节点A和节点B的共同邻居越多,节点A和节点B之间存在连接的概率就越大。
Jaccard系数是用于计算两个节点之间共同邻居的比例,比例越大,两个节点之间存在连接的概率也越大。
Katz相似度指数则考虑了共同邻居的多度传递作用,加权考虑了接近距离的节点和达到距离的节点之间的连接概率。
基于机器学习的链路预测方法利用机器学习算法构建预测模型,从而预测未知连接关系。
通常,该方法首先提取网络中节点的特征,并将其作为输入特征。
然后,利用训练集的已知连接关系和节点特征进行特征学习和模型训练。
最后,通过预测模型,对未知连接进行预测。
常用的机器学习算法包括支持向量机(SVM)、决策树(Decision Tree)、随机森林(Random Forest)等。
基于复杂网络的链路预测研究

基于复杂网络的链路预测研究随着全球信息化进程的不断推进,互联网已经成为人们获取信息及交流的重要平台。
在这个互联网时代,复杂网络已经成为了网络关系研究的一个重要方向,其中链路预测是一个极具潜力的研究领域。
复杂网络是由众多的节点和链接组成的,它的网络结构非常复杂,难以直接进行分析。
因此,链路预测是一项关键的任务,它可以用来预测节点之间未来可能存在的连接。
这一任务的重要性在于,通过链路预测,我们可以识别出潜在的社交群体、网络犯罪团伙等,从而防止社交事件、打击犯罪活动。
在实践中,基于复杂网络的链路预测通常分为两种方法:基于相似性和基于机器学习的方法。
基于相似性的方法在网络中寻找相似的节点,然后将它们连接起来。
而基于机器学习的方法则是通过训练模型,例如神经网络、支持向量机(SVM)等,来预测未来可能的链接。
这两种方法各有优缺点,其应用范围也不同。
在基于相似性的方法中,常用的算法包括常用邻居方法(common neighbor)、资源分配指数(resource allocation index)、优先接近度指数(preferential attachment index)等。
这些算法都是基于节点之间的共同特征进行链路预测的。
例如,常用邻居方法是利用节点之间的共同邻居数量,认为节点之间邻居数量越多,则它们之间的连边越可能存在。
资源分配指数则根据节点间的资源分配情况来判断它们连边的可能性。
而优先接近度指数则是依据节点度数的大小来进行链路预测的。
与相似性方法相比,基于机器学习的方法更重视节点属性的多样性。
这种方法不仅考虑了节点之间的共同特征,还从节点属性、网络拓扑结构等方面综合分析,利用机器学习算法预测链路。
常用的机器学习算法包括逻辑回归、决策树、朴素贝叶斯等。
这些机器学习算法所需要的节点属性数据可以通过网络中的节点特征进行获取,例如节点的度数、介数中心性、紧密度等。
在链路预测的实践中,需要注意一些问题。
首先,节点的属性特征应该充分考虑,尽可能多地提取网络中的隐性信息。
复杂网络中的社团发现与链路预测

复杂网络中的社团发现与链路预测复杂网络中的社团发现与链路预测1. 引言复杂网络是一种由大量节点和连接关系构成的复杂结构,广泛应用于社会学、生物学、信息科学等各个领域。
对复杂网络进行社团发现和链路预测可以揭示网络的内部结构和预测未来的关联性,对于理解和应用复杂网络具有重要意义。
2. 复杂网络中的社团发现复杂网络中的社团指的是一组节点之间具有相互关联和联系紧密的子群体。
社团发现的目标是将网络中的节点划分为不同的社团,揭示节点之间的内部关系和外部连接。
社团发现方法有许多,其中最经典和常用的方法是基于模块度的算法。
模块度是用来衡量社团内部连通性和社团间隔离性的指标,其数值越大表示社团结构越好。
基于模块度的算法包括谱聚类、Girvan-Newman算法等,这些方法通过节点的连接模式和结构信息来确定社团划分。
3. 复杂网络中的链路预测链路预测是指基于已知的网络拓扑结构,预测未来可能存在的连接。
在实际应用中,链路预测可以用于预测社交网络中的新朋友、预测蛋白质相互作用、预测互联网中的网页跳转等。
链路预测方法主要分为基于相似性的方法和基于概率模型的方法。
基于相似性的方法通过计算节点的相似性来预测连接概率,如常用的Adamic-Adar指数和Jaccard系数。
基于概率模型的方法则构建概率模型来描述连接的生成过程,如随机游走模型和潜在因子模型等。
这些方法通过挖掘网络的结构和节点的属性特征来预测未来的连接。
4. 社团发现与链路预测的关系社团发现和链路预测在复杂网络中有着密切的联系。
社团发现可以为链路预测提供基础,通过揭示节点之间的内部关系,提炼节点的属性特征,从而预测未来可能的连接。
而链路预测则可以反过来指导社团发现,通过预测存在的连接来优化社团划分的结果。
社团发现和链路预测可以相互促进,互相增强,从而提高对复杂网络的理解和应用。
5. 应用案例社团发现和链路预测在多个领域都有重要的应用价值。
以社交网络为例,通过社团发现可以发现用户之间的社团结构,从而为用户推荐朋友、商品或内容;而通过链路预测可以预测用户之间未来可能的关注关系、互动行为。
复杂网络链路预测算法研究

复杂网络链路预测算法研究复杂网络链路预测算法研究随着社交网络、互联网和大数据的快速发展,复杂网络链路预测算法成为了一个研究热点。
复杂网络链路预测的目标是利用网络中已有的信息,通过算法预测现有的链接以及未来可能的链接。
该研究对于社交关系分析、推荐系统、信息传播以及网络安全等领域具有重要的意义。
复杂网络链路预测算法的研究可以从传统的基于拓扑结构的算法和基于机器学习的算法两个方面展开。
基于拓扑结构的链路预测算法主要利用网络的拓扑结构进行预测。
其中一个经典的算法是“共享邻居算法(Common Neighbors)”,它认为两个节点间的共享邻居越多,它们之间的链接就越可能存在。
然而,这种算法在处理大规模网络时存在效率低下的问题,因为它需要遍历整个网络来计算共享邻居的数量。
针对以上问题,研究者提出了一种改进算法,“加权共享邻居算法 (Weighted Common Neighbors)”。
该算法认为,不同的共享邻居对于链路预测的贡献度是不一样的,因此对邻居节点进行权重分配。
该算法首先通过计算节点之间的权重矩阵,然后利用该矩阵进行链路预测。
实验证明,与传统的共享邻居算法相比,加权共享邻居算法能够提高预测准确性。
除了基于拓扑结构的算法外,基于机器学习的链路预测算法在复杂网络中也被广泛应用。
这些算法主要通过学习网络中节点和链接的特征来进行预测。
其中一个常用的算法是“随机游走算法(Random Walk)”。
该算法通过在网络中进行随机游走,来学习节点间的潜在联系。
另一个算法是“支持向量机算法(Support Vector Machine, SVM)”。
该算法通过构建分类器来预测链接的存在与否。
它通过训练数据集,学习分类器的参数,从而实现链路预测。
然而,基于机器学习的链路预测算法需要依赖大量的训练数据,且对特征选择十分敏感。
因此,在实际应用中,构建合适的训练集和选择有效的特征是非常关键的。
同时,基于机器学习的算法在处理大规模复杂网络时也存在计算复杂度高的问题。
复杂网络社区检测、链路预测及应用

复杂网络社区检测、链路预测及应用1. 复杂网络社区检测复杂网络社区检测是指在复杂网络中发现密集连接的子群体。
社区检测是网络分析和应用技术中的重要部分,因为它可以帮助我们理解网络结构和功能,以便更好地设计和管理这些网络。
社区检测的方法可以大致分为两类:基于模块度的方法和基于流的方法。
基于模块度的方法使用模块度作为评估社区质量的度量,并通过优化模块度来划分社区。
基于流的方法则将社区视为流通较强的区域,通过增大区域内部的流量,减小区域与外部的连接,来划分社区。
常见的社区检测算法包括:(1)Girvan-Newman算法:这是一个基于边介数的层次聚类方法,其基本思想是通过割除在网络中介数最高的边来不断分割成子图,直到得到满足要求的社区划分。
(2)Louvain算法:这是一种基于模块度的贪心算法,其过程包括两个阶段。
首先,在初始状态下,每个节点都属于单独的社区。
然后,在第一个阶段中,每个节点都尝试与它的邻居节点合并成更大的社区,以增大模块度。
在第二个阶段中,不同的社区被视为单个节点,以此继续优化模块度。
(3)谱聚类算法:此算法基于将节点的邻接矩阵转换为拉普拉斯矩阵,并通过对拉普拉斯矩阵进行特征分解,以获得图的特征向量。
这些特征向量可以用作谱聚类的输入,以获得社区划分。
2. 链路预测链路预测是指在给定网络中预测未来可能的连接。
它是复杂网络分析的一项重要任务,涉及多种实际应用,包括社交网络、生物网络、电子商务和交通网络等。
链路预测的算法也有多种,主要可以分为基于相似度和基于概率的方法。
(1)基于相似度的算法:这种方法使用节点之间的相似性来预测未来可能的连接。
其中,共享邻居、Jaccard系数和Adamic-Adar 指数等是常用的相似性度量方法。
(2)基于概率的算法:这种方法基于随机过程,使用概率模型来预测未来可能的连接。
其中,随机游走模型、马尔科夫模型和贝叶斯模型等是常用的概率模型。
3. 应用复杂网络社区检测和链路预测在多个领域中广泛应用。
基于链路预测的复杂网络瓦解建模与分析

基于链路预测的复杂网络瓦解建模与分析随着社会网络的发展,人们越来越关注复杂系统的瓦解问题。
瓦解是指在一个大型网络系统中,当一些节点失去链接时,整个系统会发生系统性崩溃的现象。
为了解决这个问题,越来越多的研究者开始使用基于链路预测的方法来对复杂网络的瓦解进行建模和分析。
链路预测是指通过已知节点之间的连接关系,推断出未知节点之间连接概率的方法。
链路预测可以用于复杂网络的预测、建模和分析,有助于揭示网络结构、识别网络异常事件和预测网络演化。
在使用链路预测进行瓦解建模和分析时,需要考虑以下问题:1.节点与节点之间的相似性在复杂网络中,节点与节点之间存在相似性。
基于节点相似度,可以通过计算节点之间的聚类系数、度分布等指标来预测新节点的出现和两个节点之间的连接概率。
2.节点与环节之间的相似性除了节点之间的相似性外,还需要考虑节点和环节之间的相似性。
环节是指连接网络中不连接任何节点或者仅连接一部分节点的链接。
通过计算节点与环节之间的相似度,并使用相应的算法预测环节的出现,可以预测新节点的出现和节点之间的连接概率。
3.网络结构网络结构也是影响链路预测精度的重要因素。
网络结构通常可以分为无序网络、小世界网络和无标度网络。
在不同类型的网络中,链路预测的方法和精度也不同。
基于链路预测的复杂网络瓦解建模和分析方法通常可以分为以下几个步骤:1.网络数据收集根据实际需求,收集数据并构建网络模型。
2.网络特征提取通过计算网络进行链路预测需要的特征,例如节点度中心性、节点介数中心性、节点紧密中心性等。
3.预测新节点和环节出现概率通过使用相应的算法预测新节点和环节的出现概率。
4.预测节点之间连接概率通过使用相应的算法预测节点之间的连接概率。
5.评估链路预测模型的精度使用一些评估指标来评估链路预测模型的精度,例如准确率、精确率、召回率等。
链路预测是目前研究复杂网络瓦解问题的重要方法之一。
通过基于链路预测的复杂网络瓦解建模和分析方法可以预测网络的瓦解情况,为保障网络的安全和稳定性提供重要的参考依据。
复杂网络链路预测

电 子 科 技 大 学 学 报
J u n l f i e st f e t n c S i n e a d T c n l g fC i a o r a v ri o cr i c e c n e h o o y o h n o Un y El o
Li k Pr d c i n o m p e t r s n e i to n Co l x Ne wo k
LU n y n Li — ua
( pr n f hsc, ie i f r o r Fio r wi el d C -70 Deat t P yisUnvrt o Fi ug r ugS t rn H 10) me o sy b b z a
s i r —a e t o sC ieg o rdcinwh l t o rc mp tto a o lxt o aig wj e m at i l i b s dme d a g v o dp e it i wi y h n o e h】we o uain l mp e i c mp r t t c y n hh
Vl .9 NO 5 o3 1 .
S p 2 1 e.00
复 杂 网络 链 路 预测
吕琳媛
( 弗里 堡大 学物 理系 瑞 士 弗里 堡 C 10 ) H-7 0
【 摘要 】网络 中的链路预测是指 如何 通过 已知的 网络结构等信 息预 测 网络 中尚未产生连边 的两个节点之 间产生连接 的可 能性 。预测那些 已经存在但 尚未被发现 的连接 实际上是一种 数据挖掘 的过程,而对于未来可能产生的连边的预 测则与 网络 的 演化相关 。传统的方法是基 于马 尔科 夫链 或者机器学 习的,往往考虑节 点的属 性特征。该类方法虽然能够得到较 高的预测精 度 ,但是 由于计算的复杂度 以及 非普适 性的参数使 其应 用范 围受到限制 。另一类方法是 基于网络结构 的最大似然估计 ,该类 方法也有 计算复杂度 高的 问题。相 比上述 两种 方法,基 于网络结构相似性 的方法更加简单。通过在多个 实际网络的拓扑结构性质 能够帮助选择合 适的相似 性指标 。该 文综述并 比 较 了若干有代表性 的链 路预测 方法,展望 了若干 重要 的开放性 问题 。 关 键 词 复杂 网络; 链路预 测; 最大似然估计; 概率模 型; 相 似性指标 中图分类号 T 3 1 P 9 文献标识码 A d i 03 6  ̄i n1 0.5 82 1.50 2 o: . 9 .s . 10 4 .0 00 .0 1 9 s 0
复杂网络链路预测研究现状与展望

复杂网络链路预测研究现状与展望复杂网络链路预测是指通过对已知网络拓扑结构和节点属性进行分析,预测未来可能形成的新的网络连接。
这项研究对于理解网络的演化规律、预测新的信任关系、推荐新的社交关系等具有重要意义。
本文将对复杂网络链路预测的研究现状和展望进行讨论。
首先,基于拓扑结构的链路预测方法。
这类方法主要从网络的拓扑结构入手,通过分析节点之间的连接模式,预测未来可能形成的新的连接。
其中,基于邻居节点的方法利用节点的邻居节点信息,如共同邻居数、邻居距离等,来判断节点之间是否存在潜在的连接。
而基于网络结构的方法则通过挖掘网络的结构特征,如聚类系数、度分布等,来预测节点之间的连接。
其次,基于节点属性的链路预测方法。
这类方法主要利用节点的属性信息,如性别、年龄、兴趣等,来预测节点之间的连接。
其中,基于相似性的方法通过计算节点之间的属性相似度,来判断节点之间是否存在连接。
而基于概率模型的方法则通过对节点属性的概率分布进行建模,从而预测节点之间的连接。
此外,还有一些集成了网络拓扑结构和节点属性的混合方法。
这类方法将网络拓扑结构和节点属性信息进行综合分析,从而提高链路预测的准确性。
例如,可以通过构建二部图模型,同时考虑节点的邻居节点和节点属性信息,来预测节点之间的连接。
未来,复杂网络链路预测的研究将面临以下几个挑战和展望。
首先,需要发展更加有效的特征提取方法。
当前的链路预测方法主要依赖于特征工程,即从现有的网络拓扑结构和节点属性中提取有效的特征。
然而,如何自动地提取有意义的特征仍然是一个挑战。
因此,需要研究更加高效的特征提取方法,以提高链路预测的准确性和效率。
其次,需要考虑网络的演化动态性。
当前的链路预测方法主要基于静态的网络拓扑结构和节点属性,很难适应网络的演化过程。
然而,真实的网络是动态演化的,节点之间的连接会随着时间不断变化。
因此,需要研究如何考虑网络的演化动态性,从而提高链路预测的准确性。
最后,需要解决大规模网络链路预测问题。
- 1、下载文档前请自行甄别文档内容的完整性,平台不提供额外的编辑、内容补充、找答案等附加服务。
- 2、"仅部分预览"的文档,不可在线预览部分如存在完整性等问题,可反馈申请退款(可完整预览的文档不适用该条件!)。
- 3、如文档侵犯您的权益,请联系客服反馈,我们会尽快为您处理(人工客服工作时间:9:00-18:30)。
2.
问题描述与评价方法
定义 G(V,E)为一个无向网络,其中 V 为节点集合,E 为边集合。网络总的节点数
为 N,边数为 M。此网络共有 N ( N − 1) / 2 个节点对,即全集 U。给定一种链路预测的方法, 对每对没有连边的节点对 x,y( ∈ U \ E )赋予一个分数值 Sxy。然后将所有未连接的节点 对按照该分数值从大到小排序,排在最前面的节点对出现连边的概率最大。 为了测试算法的准确性,将已知的链边 E 分为两部分,训练集 ET 和测试集 EP。在计算 分数值的时候只能使用测试集中的信息。显然, E = E ∪ E ,且 E ∩ E = ∅ 。在此,
3.1 基于局部信息的相似性指标
基于局部信息的最简单的相似性指标是共同邻居(Common Neighbors) ,也就是说两个 节点如果有更多的共同邻居那么他们更倾向于连边。 在共同邻居的基础上考虑两端节点度的 影响从不同的角度以不同的方式又产生 6 种相似性指标, 分别是 Salton 指标[25] (也叫做余 弦相似性) , Jaccard 指标[26], Sorenson 指标[27], 大度节点有利指标 (Hub Promoted Index) [28],大度节点不利指标(Hub Depressed Index) ,LHN-Ⅰ指标[22](由 Leicht,Holme 和 Newman 提出而得名) 。我们称这一类指标为基于共同邻居的相似性。 另一个只考虑节点度的相似性为优先连接指标 (Preferential Attachment) 。 应用优先连接 的方法可以产生无标度的网络结构,在这种网络中,一条即将加入的新边连接到节点 x 的概 率正比于节点 x 的度 k(x)[29],因此新边连接节点 x 和 y 的概率就正比于两节点度的乘积。
Pr ecision =
m L
显然,Precision 越大预测越准确。如果两个算法 AUC 相同,而算法 1 的 Precision 大于算法 2,那么说明算法 1 更好,因为他倾向于把真正连边的节点对排在前面。 Ranking Score 主要考虑测试集中的边在最终排序中的位置。 另 H = U − E 为未知边的
复杂网络链路预测
吕琳媛
1.
前言
网络中的链路预测(Link Prediction)是指如何通过已知的网络节点以及网络结构等信 息预测网络中尚未产生连边的两个节点之间产生链接的可能性[1]。这种预测既包含了对未 知链接(exist yet unknown links)的预测,也包含了对未来链接(future links)的预 测。 链路预测作为数据挖掘领域的研究方向之一在计算机领域已有较深入的研究。 他们的研 究思路和方法主要基于马尔科夫链和机器学习。Sarukkai[2]应用马尔科夫链进行网络的链 路预测和路径分析。之后 Zhu 等人[3]将基于马尔科夫链的预测方法扩展到了自适应性网站 (adaptive web sites)的预测中。此外,Popescul 和 Ungar[4]提出一个回归模型在文献 引用网络中预测科学文献的引用关系。他们的方法不仅用到了引文网络的信息还有作者信 息 、 期 刊 信息 以 及 文 章内 容 等 外 部信 息 。 应 用节 点 属 性 的预 测 方 法 还有 很 多 , 例如 O’Madadhain 等人[5]利用网络的拓扑结构信息以及节点的属性建立了一个局部的条件概 率模型来进行预测。 Lin[6]基于节点的属性定义了节点间的相似性, 可以直接用来进行链路 预测。 虽然应用节点属性等外部信息的确可以得到很好的预测效果, 但是很多情况下这些信 息的获得是非常困难的,甚至是不可能的。比如很多在线系统的用户信息都是保密的。另外 即使获得了节点的属性信息也很难保证信息的可靠性, 即这些属性是否反映了节点的真实情 况,例如在线社交网络中很多用户的注册信息都是虚假的。更进一步,在能够得到节点属性 的精确信息的情况下, 如何鉴别出哪些信息对网络的链路预测是有用的, 哪些信息是没用的 仍然是个问题。 最近几年, 基于网络结构的链路预测方法受到越来越多的关注。 相比节点的属性信息而 言,网络的结构更容易获得,也更加可靠。同时这类方法对于结构相似的网络具有普适性, 从 而 避 免 了 对 不 同 网 络 需 要 机 器 学 习 获 得 一 些 特 定 的 参 数 组 合 。 Liben-Nowell 和 Kleinberg[7]提出了基于网络拓扑结构的相似性定义方法, 并将这些指标分为基于节点和基 于路径的两类, 并分析了若干指标对社会合作网络中链路预测的效果。 另外一类链路预测方 法是基于网络结构的最大似然估计。Clauset, Moore 和 Newman 于 08 年发表在《自然》上 的论文提出了一种利用网络的层次结构进行链路预测的方法, 并在具有明显层次结构的网络 中表现很好[8]。此外 09 年底 Guimera 和 Sales-Pardo 在美国科学院院刊(PNAS)上发表了 一篇利用随机分块模型[9]预测网络缺失边和错误边的链路预测方法[10]。值得一提的是这 篇文章第一次提到网络错误链边(spurious links)的概念,即在网络已知的链接中很可能 存在一些错误的链接,比如我们对蛋白质相互作用关系的错误认知。 链路预测问题受到来自不同领域拥有不同背景的科学家的广泛关注, 首先是因其重大的 实际应用价值。在生物领域研究中,例如蛋白质相互作用网络和新陈代谢网络,节点之间是 否存在链接,或者说是否存在相互作用关系,是需要通过大量实验结果进行推断的。我们已 知的实验结果仅仅揭示了巨大网络的冰山一角。 仅以蛋白质相互作用网络为例, 酵母菌蛋白 质之间 80%的相互作用不为我们所知[11],而对于人类自身,我们知道的仅有可怜的 0.3%[12,13]。由于揭示这类网络中隐而未现的链接需要耗费高额的实验成本。那么如果能 够事先在已知网络结构的基础上设计出足够精确的链路预测算法, 再利用预测的结果指导试 验,就有可能提高实验的成功率从而降低试验成本,并加快揭开这类网络真实面目的步伐。 实际上, 社会网络分析中也会遇到数据不全的问题, 这时候链路预测同样可以作为准确分析
2
数值相等,那么 AUC 定义为:
AUC =
n '+ 0.5n '' n
显然,如果所有分数都ቤተ መጻሕፍቲ ባይዱ随机产生的,那么 AUC=0.5。因此 AUC 大于 0.5 的程度衡量了算 法在多大程度上比随机选择的方法精确。 Precision 定义为在前 L 个预测边中有几个预测准确的比例。如果有 m 个预测准确,即 排在前 L 的边中有 m 个在测试集中,那么 Precision 定义为:
3
此算法的复杂度较其它算法来说最低,因为需要的信息量最少。 如果考虑两节点共同邻居的度信息,有 Adamic-Adar 指标[30]。他的思想是度小的共同 邻居节点的贡献大于度大的共同邻居节点。 因此根据共同邻居节点的度为每个节点赋予一权 重,该权重等于该节点的度的对数分之一,即 1/log k。 受到 Adamic-Adar 指标的启发,从网络资源分配(Resource Allocation)的角度提出一 种新的指标,简称 RA [31]。考虑网络中没有直接相连的两个节点 x 和 y,从 x 可以传递一 些资源到 y,而在此过程中他们的共同邻居就成为传递的媒介。假设每个媒介都有一单位的 资源并且将平均分配传给他的邻居, 则 y 可以接收到的资源数就可定义为节点 x 和 y 的相似 度。RA 和 AA 指标最大的区别就在于赋予共同邻居节点权重的方式不同,前者以 1/k 的形 式递减,后者以 1/log k 的形式。可见当网络的平均度较小的时候 RA 和 AA 差别不大,但 是当平均度较大的时候就有很大区别了。 表 1 总结了以上 10 种基于局部信息的相似性指标的定义公式。对于网络中的节点 x, 定义它的邻居为 Γ( x) , k ( x) = Γ( x) 为节点 x 的度。 名称 共同邻居(CN) 定义 名称 大度节点不利指标 (HDI) LHN-I 指标[22] 定义
T
集合(相当于测试集中的边和不存在的边的集合) , ri 表示未知边 i ∈ E 在排序中的排名。
P
遍历所有在测试集中的边得到系统的 那么这条未知边的 Ranking Score 值为 RSi = ri / | H | , Ranking Score 值为
RS =
r 1 1 RSi = P ∑ i P ∑ | E | i∈E P | E | i∈E P | H |
3.
基于相似性的链路预测
应用节点间的相似性进行链路预测的一个重要前提假设就是两个节点之间相似性(或 者相近性)越大,它们之间存在链接的可能性就越大。注意这里所指的相似性并非一般意义 上的相似性,而是指一种接近程度(Proximity) 。刻画节点的相似性有很多种方法。最简单 直接的就是利用节点的属性,例如,如果两个人具有相同的年龄,性别,职业,兴趣,等等, 我们说他们俩很相似。 利用节点属性的相似性进行链路预测的前提就是网络中的边本身代表 着相似。另外一类相似性的定义完全基于网络的结构信息,我们称之为结构相似性。基于结 构相似性的链路预测精度的高低取决于这种结构相似性的定义是否能够很好的抓住目标网 络的结构特征。 例如基于共同邻居的相似性指标, 即两个节点如果有更多的共同邻居就会更 可能连边,在集聚系数较高的网络中表现非常好,有时甚至超过一些更复杂的算法。然而对 于集聚系数较低的网络如路由器网络或电力网络等,预测精度就差很多。
1
社会网络结构的有力的辅助工具[14,15]。除了帮助分析数据缺失的网络,链路预测算法还 可以用于分析演化网络。举例来说,近几年在线社交网络发展非常迅速[16],链路预测可以 基于当前的网络结构去预测哪些现在尚未结交的用户“应该是朋友” ,并将此结果作为“朋 友推荐”发送给用户。如果预测足够准确,显然有助于提高相关网站在用户心目中的地位, 从而提高用户对该网站的忠诚度。另外,链路预测的思想和方法,还可以用于在已知部分节 点类型的网络(partially labeled networks)中预测未标签节点的类型——这可以用于判断 一篇学术论文的类型[17]或者判断一个手机用户是否产生了切换运营商(例如从移动到联通) 的念头[18]。 另外 Guimera 和 Sales-Pardo 所提出的对网络中的错误链接的预测[10], 对于 网络重组和结构功能优化也有重要的应用价值。 例如在很多构建生物网络的实验中存在暧昧 不清甚至自相矛盾的数据[19],我们就有可能应用链路预测的方法对其进行纠正。 链路预测研究不仅具有广泛的实际应用价值, 也具有主要的理论研究意义, 特别是对一 些相关领域理论方面的推动和贡献。近年来,随着网络科学的快速发展,其理论上的成果为 链路预测搭建了一个研究的平台,使得链路预测的研究与网络的结构与演化紧密联系起来。 因此,对于预测的结果更能够从理论的角度进行解释。与此同时,链路预测的研究也可以从 理论上帮助我们认识复杂网络演化的机制。 针对同一个或者同一类网络, 很多模型都提供了 可能的网络演化机制[20,21]。由于刻画网络结构特征的统计量非常多,很难比较不同的机 制孰优孰劣。 链路预测机制有望为演化网络提供一个简单统一且较为公平的比较平台, 从而 大大推动复杂网络演化模型的理论研究。 另外, 如何刻画网络中节点的相似性也是一个重大 的理论问题[22],这个问题和网络聚类等应用息息相关[23]。类似地,相似性的度量指标数 不胜数, 只有能够快速准确地评估某种相似性定义是否能够很好刻画一个给定网络节点间的 关系,才能进一步研究网络特征对相似性指标选择的影响。在这个方面,链路预测可以起到 核心技术的作用。 链路预测问题本身也带来了有趣且有重要价值的理论问题, 也就是通过构 造网络系综并藉此利用最大似然估计的方法进行链路预测的可能性和可行性研究。 这方面的 研究对于链路预测本身以及复杂网络研究的理论基础的建立和完善, 可以起到推动和借鉴的 作用。