基于社区结构的影响力最大化算法
复杂网络社区发现算法与应用研究

复杂网络社区发现算法与应用研究社交网络的快速发展给人们的交流和信息传播带来了巨大的便利,同时也使得网络中存在大量复杂的关系和交互行为。
复杂网络中的社区结构被认为是网络中一种重要的组织形式,研究复杂网络社区结构可以帮助我们更好地理解网络的演化和功能。
一、复杂网络社区发现算法介绍社区发现算法是一种用于检测复杂网络中社区结构的方法。
常见的社区发现算法包括GN算法、Louvain算法、标签传播算法、模块度最大化算法等。
GN算法是一种基于边介数的层次聚类算法,通过不断切割网络中边介数最大的边来发现社区。
Louvain算法是一种基于模块度优化的贪心算法,通过迭代地将节点重新分配到模块中以优化模块度,该算法处理速度较快。
标签传播算法是一种无监督的算法,通过节点间标签的传递更新来进行社区发现。
模块度最大化算法是一种基于优化网络模块度的算法,通过迭代地合并节点和模块来达到最大化模块度的目标。
搜索引擎提供的 PageRank 算法也可以被用于社区发现。
PageRank算法是一种用于排名网页重要性的算法,它可以通过将复杂网络建模为一个图,然后计算图中节点的重要性来进行社区划分。
二、复杂网络社区发现算法的应用复杂网络社区发现算法不仅在理论研究中有重要的作用,也在实际应用中发挥了巨大的价值。
首先,社区发现算法在社交网络分析中有广泛的应用。
社交网络中存在着大量的社区结构,通过发现这些社区可以更好地理解社交网络的组织结构和信息传播机制,它对于社交网络上的用户行为预测、信息推荐和舆情分析等方面具有重要意义。
其次,社区发现算法在生物学领域有着广泛的应用。
生物网络中存在着复杂的分子相互作用关系,研究这些关系可以帮助我们理解生物网络的功能和演化规律。
通过社区发现算法可以发现蛋白质相互作用网络中的功能模块,这对于研究蛋白质相互作用网络的功能和疾病的发生有重要的意义。
此外,复杂网络社区发现算法还在推荐系统、网络安全等领域有着广泛的应用。
大规模图数据挖掘中的社区发现算法研究

大规模图数据挖掘中的社区发现算法研究随着互联网的蓬勃发展和信息量的爆炸式增长,图数据在如今的社会中扮演着越来越重要的角色。
图数据中的社区结构能够揭示出人们之间的连接和关系,因此社区发现算法在图数据挖掘中占据着重要的地位。
本文将针对大规模图数据挖掘中的社区发现算法进行研究和探讨。
社区发现是一项旨在将图节点划分成具有内在联系的群体的任务。
在大规模图数据中,社区发现是一项具有挑战性的任务,因为图数据的规模庞大,节点和边的数量可能会达到亿级甚至更多。
因此,有效地发现和划分这些社区结构对于理解图数据中的复杂关系至关重要。
在大规模图数据挖掘中,常见的社区发现算法包括谱聚类算法、基于标签传播的算法和模块度最大化算法等。
谱聚类算法通过计算图的谱图和特征向量,将节点划分到不同的社区中。
基于标签传播的算法通过不断的迭代更新节点的标签,使得具有相似特征的节点聚集成社区。
模块度最大化算法则将社区发现问题转化为最优化问题,通过最大化网络中的模块度指标来划分社区。
然而,这些传统的社区发现算法在处理大规模图数据时面临着挑战。
首先,计算图的谱图和特征向量需要消耗大量的计算资源和时间。
对于拥有数十亿节点和边的大规模图数据来说,这是不可行的。
其次,标签传播算法在处理大规模图时容易受到初始标签的选择和噪声的干扰。
此外,模块度最大化算法在大规模图数据中存在着局部最优解的问题,可能无法发现全局优化的社区结构。
为了应对这些挑战,研究者们提出了一系列的创新性算法来解决大规模图数据中的社区发现问题。
其中,基于图的压缩和采样技术是一种被广泛应用的方法。
通过将图数据进行压缩和采样,可以有效地减少图数据的规模,从而降低计算复杂度。
同时,近年来出现的图神经网络算法也在大规模图数据挖掘中展现出了巨大的潜力。
图神经网络算法通过学习图数据的节点表示,可以将节点直接划分到合适的社区中。
除了算法的创新之外,大规模图数据挖掘中的社区发现问题还需要解决跨领域融合的挑战。
社交网络分析算法的使用方法

社交网络分析算法的使用方法社交网络已成为人们日常生活中不可或缺的一部分。
通过社交网络,人们可以与朋友、家人、同事和陌生人进行交流和互动。
这些网络提供了丰富的信息和机会,也成为了理解社会关系和人际互动的重要资源。
为了深入了解社交网络中的关系和模式,社交网络分析算法应运而生。
社交网络分析算法是一种用于识别、分析和预测社交网络中的关系模式和趋势的方法。
它结合了图论、统计学和数据挖掘技术,适用于各种类型的社交网络,包括在线社交媒体平台、企业内部网络和科学研究网络等。
下面将介绍几种常用的社交网络分析算法及其使用方法。
1. 社区发现算法社区发现算法旨在识别社交网络中的紧密连接的群体或社区。
常用的算法包括Girvan-Newman算法、Louvain算法和谱聚类算法等。
使用这些算法的步骤如下:首先,导入社交网络数据并构建图模型。
每个节点表示一个用户或个体,边表示两个节点之间的关系。
然后,计算节点之间的相似度或连接强度。
这可以通过计算节点间的距离、共同邻居数或其他相似性指标来实现。
接下来,应用社区发现算法来检测网络中的社区。
这些算法基于节点之间的链接模式来确定社区结构。
最后,可视化社区结构,并根据分析结果进行进一步的解释和推断。
2. 影响力传播算法影响力传播算法用于研究在社交网络中如何传播信息、观点或行为。
其中比较有名的算法是独立级联模型(IC模型)和线性阈值模型(LT模型)。
使用这些算法的步骤如下:首先,确定某个节点或群体作为信息源。
然后,为每个节点分配传播概率或阈值。
这些值表示了节点接受信息并传播给邻居的能力。
接下来,使用影响力传播算法模拟信息在社交网络中的传播过程。
这些算法基于节点之间的连接和传播概率来模拟信息在网络中的扩散。
最后,分析信息传播的规律和影响因素,并根据结果确定改进传播策略的方法。
3. 关键节点识别算法关键节点识别算法用于识别对整个社交网络结构和信息传播具有重要影响力的节点。
常用的算法包括介数中心性、度中心性和PageRank算法等。
基于概率转移矩阵的社会网络影响最大化算法

基于概率转移矩阵的社会网络影响最大化算法张佩云;宫秀文【摘要】现有近似求解影响最大化算法的时间复杂度较高,为此,提出一种扩展的线性阈值模型及其概率转移矩阵,给出该模型的传播过程及规则,设计基于概率转移矩阵的影响最大化算法,并利用贪心方法寻找到 k 个最具影响的节点。
该算法通过矩阵乘积的方法得到 T 时刻节点之间的影响概率,无需在每个时刻计算所有非活跃节点的边际效益,从而在较短时间内提高运行时的效率,使得在规模较大的社会网络中被影响的节点最多且信息传播范围最广。
仿真实验结果表明,在大规模社会网络中,该算法对社会网络节点的影响范围广且时间复杂度低。
%Aiming at the high time complexity of some algorithms which solve the influence maximization problem, this paper proposes an extended linear threshold propagation model and the probability transfer matrix. The propagation process and rules of the model are proposed. It designs the influence maximization algorithm based on probability transfer matrix and utilizes the greedy method to find the top-k nodes with more influence power. The algorithm computes the probability effect of T instant by probability transfer matrix product. It need not compute the marginal benefit of inactive nodes at each moment. It can improve the efficiency of running in shorter time, and it can maximize the number of influenced nodes and can widen the range of information propagation in large-scale social network. Experimental results demonstrate the effectiveness and efficiency of the approach. The algorithm has wide influence range for social network nodes and has low time complexity in large social network.【期刊名称】《计算机工程》【年(卷),期】2013(000)011【总页数】6页(P41-45,51)【关键词】社会网络;线性阈值模型;信息传播;影响最大化;概率转移矩阵;贪心算法【作者】张佩云;宫秀文【作者单位】安徽师范大学数学计算机科学学院,安徽芜湖 241003; 中国科学技术大学计算机科学与技术学院,合肥230026;安徽师范大学数学计算机科学学院,安徽芜湖 241003【正文语种】中文【中图分类】TP3111 概述随着社会网络的出现及流行,社会网络影响成为目前研究的热点。
复杂网络中的社区发现算法及其应用

复杂网络中的社区发现算法及其应用复杂网络是由大量节点以及节点之间的连接关系构成的网络,在现实中广泛存在于许多领域,如社交网络、生物网络和互联网等。
社区发现是复杂网络研究的重要内容,目的是将网络中相互紧密连接的节点划分为具有相似特征或功能的社区。
社区发现算法是研究者们为了解复杂网络中的结构、功能和演化过程而提出的重要方法。
本文将介绍几种常见的社区发现算法及其应用。
一、模块度优化算法模块度是衡量网络社区结构好坏的重要指标,模块度优化算法就是通过最大化网络的模块度来寻找合适的社区划分。
常见的模块度优化算法有GN算法、Louvain算法和贪心算法等。
这些算法通过迭代地划分社区和优化社区内的连接关系来寻求最优解。
模块度优化算法在社交网络、组织结构分析、蛋白质相互作用网络等领域有广泛应用。
例如,在社交网络中,通过社区发现算法可以识别出不同的社区群体,有助于理解社交网络中的用户行为和信息传播规律,在推荐系统中起到重要作用。
二、基于节点相似性的算法基于节点相似性的社区发现算法认为在网络中相似的节点更可能属于同一个社区。
这类算法包括谱聚类、K均值算法和PSCAN算法等。
这些算法通过计算节点间的相似度来划分社区。
这类算法在生物网络、交通网络、图像分割等领域应用广泛。
例如,在生物网络中,通过基因的相似性来划分蛋白质相互作用网络的社区,可以帮助研究者理解蛋白质之间的功能和调控关系,从而推测未知蛋白质的功能。
三、基于概率生成模型的算法基于概率生成模型的社区发现算法通过建立模型来描述网络的生成过程,并利用模型参数推断网络的社区结构。
常见的算法有LDA、SBM等。
这些算法将网络看作是由不同社区生成的,根据模型参数的估计结果来划分社区。
这类算法在社交网络、金融网络等领域有广泛应用。
例如,在金融网络中,通过基于概率生成模型的社区发现算法可以划分出潜在的金融市场或子市场,有助于金融市场监管和风险预警。
总结起来,社区发现算法在复杂网络研究中扮演重要角色,有助于理解网络的结构和功能特征,为许多现实问题的解决提供了有力支持。
louvain方法

louvain方法Louvain方法,一种用于社区检测的效率算法随着互联网的快速发展,社交网络、知识图谱等大规模网络数据的存在已经成为常态。
这些网络中节点的联系方式使得人们可以更加便捷地获取信息、交流互动。
然而,对于这些复杂网络的结构和模式的理解却是一个巨大的挑战。
为了更好地理解网络中的社区结构以及分析网络的实际应用,社区检测方法应运而生。
Louvain方法(Louvain algorithm)作为一种高效的社区检测算法,在实际应用中受到了广泛的关注。
它的主要思想是通过优化网络中节点的社区划分来最大化社区内部的紧密程度,并尽量减少社区之间的连边数量。
该方法通过将原始网络转化为社区结构图,迭代地合并社区来达到最优的划分效果。
具体而言,Louvain方法分为两个主要步骤:局部优化和全局优化。
在局部优化阶段,该方法首先通过在每个节点的邻居节点中找到一个使得模块度增加最大的邻居节点进行社区合并,直至无法继续增加模块度为止。
而在全局优化阶段,Louvain方法进一步通过将原始网络中的节点聚合为“超级节点”,建立重量为超级节点的新网络,然后再次执行局部优化过程。
这样迭代执行直到网络的模块度不再增加为止,最终得到最优的社区划分结果。
Louvain方法的优势在于它的高效性和可扩展性。
通过整合社区划分过程中的贪婪策略和迭代优化,该方法能够快速而准确地划分出网络中的社区结构。
此外,Louvain方法还能够处理大规模网络,对于节点数量以亿计的网络也能够迅速得到结果。
因此,在各种实际应用场景中,Louvain方法都具备较高的可行性和实用性。
总的来说,Louvain方法是一种非常实用的互联网技术,特别适合社交网络、知识图谱等大规模网络数据的社区检测。
通过其高效的算法和优化策略,我们能够更好地理解和分析网络中的社区结构,为实际应用提供支持。
无论是对于学术研究还是商业分析,Louvain方法都是一种值得推荐的工具和技术。
社交网络中的用户社区发现算法详述
社交网络中的用户社区发现算法详述社交网络已经成为人们生活中不可或缺的一部分,它们连接了全球各地的用户,使得信息交流、知识共享和人际关系建立变得更加便捷。
然而,随着社交网络的快速发展,用户数量的增加和社交网络结构的复杂化,如何发现用户之间的社区结构变得越来越重要。
社交网络中的用户社区发现算法就是解决这一问题的方法之一。
它的目标是将网络中的用户划分为若干个社区,使得同一个社区中的用户有着相似的特征和互相之间存在密切的关系,而不同社区之间的用户关系则相对较弱。
下面将详细介绍几种常见的用户社区发现算法。
1. Girvan-Newman算法Girvan-Newman算法是一种基于图的社区发现算法,它通过计算网络中边的介数(betweenness)来划分社区。
介数表示了对于网络中的任意两个节点之间最短路径上经过的边的数量。
该算法的思想是不断删除介数最高的边,直到网络中的社区被划分出来。
2. Louvain算法Louvain算法是一种基于模块度(modularity)的社区发现算法。
模块度是一种衡量网络内部连接紧密程度的指标,它对比了网络实际的边连接情况和预期的随机连接情况。
Louvain算法通过迭代地将节点合并到具有最大模块度增益的社区中,直到无法再增加模块度为止。
3. Label Propagation算法Label Propagation算法是一种迭代的社区发现算法,它通过在网络中传播节点的标签来实现社区划分。
每个节点最初被赋予一个唯一的标签,然后在每一轮迭代中,节点会根据周围节点的标签来更新自己的标签。
当标签收敛时,算法停止并将具有相同标签的节点划分为同一个社区。
4. Infomap算法Infomap算法是一种基于信息论的社区发现算法,它通过最小化网络的描述长度来划分社区。
该算法将网络看作是信息传递的通道,社区划分的目标是找到一种最优的信息传递方式,使得网络的整体描述长度最小。
Infomap算法通过迭代地优化信息流动的方式来实现社区划分。
复杂网络中的社区发现算法及其应用
复杂网络中的社区发现算法及其应用一、引言复杂网络是指由多个节点和连接它们的边或者链组成的网络结构,它们通常是由自然界或者人工构建的系统所构成。
例如社交网络,物流网络,交通网络等,复杂网络在现实中应用广泛,而社区发现是其重要的研究领域之一。
社区发现是指在网络中发现数量较少但内部密切联系的子集,它们在某些方面显示出相对的内部一致性和跨度分离,由于社区结构的存在,网络在许多方面具有不同的行为特征和功能特征。
在社交网络中,社区是指具有相同兴趣、活动或者联系的人的子集。
在物流网络中,社区是指共享一些特定的物流资源或者共享某个交通运输方式的城市或地区等。
社区发现在许多领域都具有重要的应用,比如犯罪调查、恐怖主义分析、废柴疫情分析等。
如何高效地在复杂网络中寻找出社区结构是社区发现算法的核心问题。
二、社区发现算法社区发现算法是指在复杂网络中,通过一定的算法设计来寻找网络中存在的社区结构。
社区发现算法分为基于聚类和基于模块化的两大类。
前者是指将节点分为若干个群体,使得同一群体的节点之间关系密切。
聚类算法中,最常见的算法是k-means和层次聚类。
后者是基于网络拓扑结构的特征来刻画社区结构。
这类算法中最常见的是基于最大模块化(modularity-based)的算法。
以下将对这两类算法进行详细的介绍。
(一)、聚类算法1.k-means算法k-means算法是一种聚类分析的方法,其目标是将相似的对象划分为互不相交的k个簇,并使簇内之间的差异性最小化,而簇间之间的差异性最大化。
该算法可用于分辨噪声、找到一个点集的最优分组、刻画数据集中不同群体的特征等。
在社区发现中,k-means算法可以用来寻找相同兴趣爱好的人群等。
2.层次聚类算法层次聚类是指将所有观测数据首先看做是一组单独的簇,然后逐渐有收缩的方式合并这些簇到一个大的簇,直到得到一个包含所有对象的唯一簇为止。
因此,其层次性很强,对于不同的数据集,其结果也不同。
层次聚类常用于生物分子分类、文本分类等领域,同样也可以用于社区发现算法。
基于最大团的层次化重叠社区发现算法
基于最大团的层次化重叠社区发现算法孙成成;席景科;占文威;李懂【摘要】研究表明,很多真实网络具有层次结构和重叠结构.传统的层次聚类算法通常以节点为对象进行扩展形成层次树图从而得到网络的层次结构.这种做法存在两个问题,其一是算法的稳定性,主要体现在初始节点的选择上,少数情况下,初始节点的不同会导致算法最终结果的不同,即使算法的结果不依赖于初始节点,但算法的复杂度会随之变化;其二是不能发现网络中的重叠结构.针对以上问题,提出一种基于最大团的层次化重叠社区发现算法.该算法以最大团为扩展对象,然后利用最大团扩展策略生成层次树图,最后采用重叠模块度函数对层次树图进行剪枝得到社区划分结果.在真实网络以及LFR人工网络上的实验结果表明该算法能够有效地挖掘网络中的层次结构和重叠结构.【期刊名称】《计算机工程与应用》【年(卷),期】2018(054)018【总页数】6页(P105-109,173)【关键词】层次结构;重叠结构;最大团;社区发现【作者】孙成成;席景科;占文威;李懂【作者单位】中国矿业大学计算机科学与技术学院,江苏徐州 221116;中国矿业大学计算机科学与技术学院,江苏徐州 221116;中国矿业大学计算机科学与技术学院,江苏徐州 221116;中国矿业大学计算机科学与技术学院,江苏徐州 221116【正文语种】中文【中图分类】TP3931 引言早期很多传统的社区发现算法在挖掘社区结构时都是基于网络中节点的唯一性的,即每个节点都从属于某一个社区。
然而,近些年研究发现,大量真实网络的社区结构并非如此泾渭分明,很多社区在某些方面彼此具有较为紧密的联系,社区之间存在交叉重叠现象,因此,社区结构通常具有重叠性和层次性。
现有的能够检测重叠结构的社区发现算法主要包括基于派系过滤的算法[1]、基于连边划分的算法[2]和基于局部挖掘的算法[3],这三类算法分别以团(最大完全子图)、边以及节点为研究对象来挖掘社区结构。
大规模网络中的社区发现算法研究
大规模网络中的社区发现算法研究社区发现(Community Detection)算法在大规模网络研究中扮演了重要角色,它能够揭示出网络中存在的潜在社区结构,帮助我们更好地理解网络的组织和功能。
在本文中,我们将探讨大规模网络中社区发现算法的研究现状、挑战以及前景。
一、社区发现算法的定义与分类社区发现是指从复杂网络中挖掘出具有相似性、串联性或相关性的节点子集。
社区发现算法根据不同的原理和方法可以分为以下几类:1. 基于图的社区发现算法基于图的算法通常使用网络图的拓扑结构来识别社区。
其中,Modularity优化算法是最为常见的一种。
该算法通过最大化网络内部的连边权重和最小化网络外部的连边权重,以达到找到最佳社区分割的目标。
此外,Louvain算法和Leiden算法也是较为流行的算法,它们在计算效率和模块性之间取得了较好的平衡。
2. 基于模型的社区发现算法基于模型的算法假设网络的社区结构满足某种统计模型。
典型的例子是基于概率图模型的算法,如Latent Dirichlet Allocation(LDA)和Stochastic Block Model (SBM)。
这些算法通过建模节点和边的概率分布,推断出网络中潜在的社区结构。
3. 基于谱聚类的社区发现算法谱聚类是一种基于图分解的聚类方法,通过将节点的特征映射到低维空间,并在低维空间中聚类来发现社区结构。
类似于图拉普拉斯矩阵、邻接矩阵的特征向量和特征值来刻画网络的结构,并通过K-means等聚类算法对低维空间中的点进行聚类。
4. 基于深度学习的社区发现算法近年来,深度学习在社区发现领域取得了重要的进展。
基于深度学习的方法能够通过网络节点的特征信息自动学习网络的表示,并利用这些表示来发现网络中的社区结构。
例如,DeepWalk和Node2Vec算法通过从网络中随机游走来捕捉节点的邻居关系,然后使用Word2Vec等算法将节点嵌入到低维空间中进行聚类。
二、大规模网络中的社区发现挑战在大规模网络中,社区发现算法面临着许多挑战,主要包括以下几点:1. 规模问题大规模网络通常包含着巨大的节点和边数,导致社区发现算法的计算复杂度非常高。
- 1、下载文档前请自行甄别文档内容的完整性,平台不提供额外的编辑、内容补充、找答案等附加服务。
- 2、"仅部分预览"的文档,不可在线预览部分如存在完整性等问题,可反馈申请退款(可完整预览的文档不适用该条件!)。
- 3、如文档侵犯您的权益,请联系客服反馈,我们会尽快为您处理(人工客服工作时间:9:00-18:30)。
基于社区结构的影响力最大化算法作者:郭进时汤红波吴凯杨森来源:《计算机应用》2013年第09期摘要:现有的社会网络影响力算法及模型的较高的时间复杂度已不适用于网络规模不断壮大的社会网络服务。
针对上述问题,提出了一种基于网络社区结构的影响力最大化算法。
首先评估各个社区中节点的影响力,挖掘其核心节点成员;继而在核心节点集和连接社区间的弱纽带节点中选取若干具有影响潜力的初始节点集,使其以最小的代价让信息在网络中得到最广泛的传播。
实验结果表明:该算法不仅大大降低了时间复杂度,还获得了接近贪心算法的影响范围,影响覆盖率达到了90%以上。
关键词:社会网络;影响力;社区结构;弱纽带;信息传播中图分类号:TP301.6文献标志码:A0引言社会网络的研究最早起源于人文社会学,随着计算机技术的飞速发展备受关注,社会网络产品不断涌现。
近来以微博、人人等为代表的社会网络平台发展迅猛,为社会网络研究提供了海量的数据信息。
在庞大的网络规模下,对社会网络影响力模型及其算法的研究有利于更好地管控网络带来的负面因素以及更好地利用网络带来的正面效益。
如网络舆情监控中如何有效地防止各种有害信息在网络中迅速传播;商业领域的“口碑效应”和“病毒式营销”引出的影响力最大化问题等。
现有的影响力评估方法主要分为两大类:1)基于网页PageRank的改进排名算法,如文献[1]为了评估社会网络中个人的影响力,依据用户的好友数量及质量提出了UserRank模型;文献[2]充分考虑了用户之间的互动关系,扩展了PageRank算法来确定用户的最终影响力;文献[3]通过分析Twitter网络中传播内容和主题对用户影响力的影响,提出了基于主题内容的TwitterRank模型;文献[4]引入了博主传播因子的概念,设计了新的影响力排名算法InfluenceRank来评估用户影响力;文献[5]通过对微博网络的信息传播行为进行分析,提出了一种WeiboRank用户传播影响力识别算法。
其次是影响力传播最大化的问题,文献[6]将影响力最大化问题转化为如何选择K个初始节点,使其通过它们达到在网络中的传播扩散范围最大化。
2)结合经典传播模型IC(独立级联)模型和LT(线性阈值)模型[7-8],利用各种算法实现影响力最大化的研究进展开来。
文献[9]基于LT模型提出了一种自然的爬山贪心KKT 算法,面对大规模网络时间复杂度极高;文献[10]利用IC模型的次模特性提出了KKT算法的改进算法CELF;文献[11]也提出了能以较好地运算效率应用在大规模网络的改进算法;而文献[12]结合两种影响力研究方法提出一种新型的混合式影响力最大化算法;文献[13]提出了将有向图的强连通分量分解思想应用于影响力最大化问题的新算法。
但以上这些方法都还存在许多不足之处。
首先,这些算法大都是基于整个网络全局进行算法模型设计的,对于小型网络工作尚可维持,而面对大规模社会网络,尤其是应用到贪心、爬山等算法时,过高的时间复杂度是一个棘手的难题;其次,影响力评估的标准单一地利用节点间的连接关系,而不考虑连接的强弱及节点的属性特征,大大影响了评估结果的准确性;再其次,在实际情况下往往需要的仅是针对某一区域的评估结果,而基于全局的算法模型欠缺这种针对性的考虑。
针对以上问题,本文提出了一种基于社区结构的影响力最大化算法。
依据节点间的边属性定义了彼此的影响激活概率,并基于此给出了节点影响力的衡量指标,即影响传播范围和影响传播时延。
继而通过对节点影响力的比较有效地挖掘出各个社区自身的核心节点集来评价社区的区域影响力。
联合社区间连接弱纽的边界节点和各个核心节点集,找到合理的k个初始节点,使其以最小的代价让信息在整个网络中得到最广泛的传播,实现影响力的最大化。
社区结构是社会网络中普遍存在的一个特性,对社区的有效挖掘有利于更好地了解认识网络内部的真实结构,协调好网络用户间的关系,掌握用户分布情况及活动状态。
在社区结构的基础上研究社会网络影响力传播问题,使基于全局网络的影响力算法通过对局部影响力(每个社区的用户影响力)分析的结果得到优化。
通过真实的网络数据进行实验分析,该模型相对于现有方法大大降低了时间复杂度,取得了更广度的影响范围,当k取到50时,影响覆盖率达到了90%以上,并能够针对各领域社区给出其核心节点集,增强了算法模型的针对性。
1问题描述在社会网络研究中通常用图论的方法进行分析,用图G=(V,E)表示整个网络,其中用户抽象成节点,V为节点集合;用户之间的关系抽象成边,E为节点之间边的集合。
现实中的社会网络是一个庞大的复杂网络,其中包含着不同领域的子网络,而这些子网络中又存在着节点聚众的社区结构特性。
如图1所示,每个云形代表网络,云中的椭圆代表网络中的社区,点则代表网络中的用户,网络被划分成若干个社区,当一个信息从某一节点开始扩散至网络时,只有通过连接社区之间的边才有可能扩散至整个网络,可见网络社区之间的连边对全局网络影响力传播有着举足轻重的作用。
2区域影响力InfR算法2.1影响激活概率经典的影响力传播模型大多以随机赋予的系统参数作为具有影响力节点的传播概率,进而对其邻居节点进行激活感染,但是真实的社会网络中每个节点都代表着现实存在的真实个体,之间有着复杂的社会关系,而随机赋予的系统参数不足以刻画它们彼此的影响作用。
因此本文以网络节点间的关系紧密程度来描述相邻节点间的相互影响激活概率。
通信频率越高的节点相互的关系紧密度越大,对应的影响激活概率越大,而相互之间的信息传播的成功率也就越高;反之通信频率越低的节点相互的关系紧密度越小,对应的影响激活概率越小,而相互之间的信息传播的成功率也就越低。
节点间的影响激活概率的详细计算如定义3所述。
2.2InfR算法描述为了增强影响力算法的针对性和灵活性,降低算法复杂度,本文将庞大的社会网络分为不同的等级网络。
令整个网络为一级网络,网络中的若干子网络为二级网络,子网络所包含的各个社区为三级网络。
所谓区域影响力就是指依据网络规模大小选定的二级或三级网络范围的影响力核心节点的提取。
在真实网络传播中,节点影响力的大小主要取决两方面因素,一是具有影响力的节点传播散发信息的速度,某个信息如果能在短时间内通过该节点传达到各个方向,那么其具有较大的影响力;其次是节点影响力的传播范围,影响的范围越广也是评判其影响力越大的标准。
综上所述,本文从以上两方面来衡量节点影响力的大小,认为传播迅速且范围较广的节点具有较大的影响力。
真实的社会网络规模一般比较庞大,且关系复杂,对其影响力的研究也相对困难繁琐,因此本文首先对网络进行剔骨简化,缩小其规模,有助于更方便有效地研究影响力传播的问题。
在第2章讨论的基础上,将已划分好社区的网络中的每个社区作为一个独立的区域挖掘其核心节点集合,记作该区域的区域影响力InfR(由于网络范围较小,依据六度分割定理),通过该核心节点集发布信息能够迅速有效地传播至整个区域网络。
而社区之间的联系则完全依靠一些边界节点连接而成的弱纽带通道所维系,它们就像是搭建联通整个网络的桥梁,而连接它们的节点好比桥梁的基石,对整个网络的信息传播有着举足轻重的作用。
这里取各个社区的核心节点以及连接弱纽带的边界节点作为研究对象。
4实验仿真本文实验选择通过开放的API接口爬取的人人网数据集来验证分析InfR算法和InfG算法的性能和有效性,对比算法采用一种自然爬山的贪心算法KKT和UserRank评估模型。
人人网是由千橡集团旗下的校内网在2009年更名而来,成为了社会上所有人都可以来的社交网站(Social Networking Service,SNS)平台。
获取人人网上的数据可以通过人人平台开放的API接口进行爬取。
本文实验以若干固定个体作为出发点,爬取了其好友以及好友的好友三层数据,共获得2361个节点用户,统计其通联关系并建立网络拓扑。
计算每个节点的影响传播时延τ和影响传播范围F,得到它们的分布分别如图2~3所示。
图2中的每一点表示影响传播时延小于当前τ值的节点数目,由图可以得出具有特别小或特别大的影响传播时延的节点并不可能很多,而大多数节点的影响传播时延的τ值在3~5。
图3中的每一点表示影响传播范围大于当前F值的节点数目,由图可以得出具有特别大或特别小的影响传播范围的节点并不可能很多,而大多数节点的影响传播范围的F值在30~55。
5结语本文将社区结构应用到研究影响力传播问题中,提出一种基于网络社区的影响力评估模型。
通过对节点间影响激活概率的定义,有效地挖掘出了各个社区的核心节点集。
并在全局网络中有效而快速地找到合理的k个初始节点,使其以最小的代价让信息在整个网络中得到了最广泛的传播,实现影响力的最大化。
通过真实网络数据实验证明,与传统方法相比该模型不仅大大降低了时间复杂度,还取得了更大的影响范围。
有利于更方便快捷地对网络全局及局部各个社区领域加强监视管控能力,具有一定的灵活性和实效性。
但后续在影响力节点的挖掘选择中应更加全面地结合网络各种属性特征,进一步精确影响效果,贴近真实。
参考文献:[1]刘耀庭. 社交网络结构研究[D].杭州:浙江大学, 2008.[2]KWAK H, LEE C, PARK H. What is Twitter, a social network or a news media[C]// Proceedings of the 19th International Conference on World Wide Web. New York: ACM Press,2010: 591-600.[3]WENG J, LIM E P, JIANG J. TwitteRank: finding topicsensitive influentialtwitterers[C]// Proceedings of the 3rd ACM International Conference on Web Search and Data Mining. New York: ACM Press, 2010: 261-270.[4]杨长春,俞克非,叶施仁,等.一种新的中文微博社区博主影响力的评估方法[J]. 计算机工程与应用, 2012, 38(25): 229-233.[5]肖宇,许炜,商召玺. 微博用户区域影响力识别算法及分析[J]. 计算机科学, 2012,39(9): 38-42.[6]RICHARDSON M, DOMINGOS P. Mining knowledgesharing sites for viral marketing[C]// Proceedings of the Eighth ACM SIGKDD International Conference On Knowledge Discovery and Data Mining. New York: ACM Press, 2002: 61-70.[7]WATTS D J. A simple model of global cascades on random networks[J]. Proceedings of the National Academy of Sciences of the United States of America, 2002, 99(9): 5766-5771.[8]GRANOVETTER M. Threshold models of collective behavior[J]. American Journal of Sociology, 1978, 83(6): 1420-1433.[9]KEMPE D, KLEINBERG J, TARDOS E. Maximizing the spread of influence through a social network[C]// Proceedings of the ninth ACM SIGKDD International Conference on Knowledge Discovery and Data mining. New York: ACM Press, 2003:137-146.[10]LESKOVEC J, KRAUSE A, GUESTRIN C, et al. Costeffective outbreak detection in networks[C]// Proceedings of the 13th ACM SIGKDD Conference on Knowledge Discovery and Data Mining. New York: ACM Press, 2007:420-429.[11]CHEN W, WANG Y, YANG S. Scalable influence maximization for prevalent viral marketing in large scale social networks[C]// Proceedings of the 16th ACM SIGKDD International Conference on Knowledge Discovery and Data Mining. New York: ACM Press, 2010:807-816.[12]田家堂,王轶彤,冯小军. 一种新型的社会网络影响最大化算法[J]. 计算机学报,2011, 34(10): 1956-1964.[13]黎雷. 社会网络影响力模型及其算法研究[D]. 北京:北京交通大学, 2010.。