社交网络影响力最大化研究综述
- 1、下载文档前请自行甄别文档内容的完整性,平台不提供额外的编辑、内容补充、找答案等附加服务。
- 2、"仅部分预览"的文档,不可在线预览部分如存在完整性等问题,可反馈申请退款(可完整预览的文档不适用该条件!)。
- 3、如文档侵犯您的权益,请联系客服反馈,我们会尽快为您处理(人工客服工作时间:9:00-18:30)。
社交网络影响力最大化研究综述
摘要近年来,随着互联网的发展,社交网络得到飞速的发展并且得到人们越来越多的关注。许多研究工作致力于社交网络的分析,社交网络中的影响力传播问题的研究具有很实际的现实意义,它在市场营销、广告发布、舆情预警以及社会安定等方面有十分重要的应用。因此,本文对社交网络影响力最大化问题的定义、传播模型和算法的研究现状进行了调研分析,希望对社交网络影响力最大化问题有一个整体的认识。
关键词社交网络;影响力;传播模型;病毒式营销
1引言
近年来,随着互联网和个人电脑的普及,Facebook、Flikr、Twitter、人人网、新浪微博等社交网络得到迅速发展,社交网络也成为研究的热点。社交网络分析从19世纪20年代早期开始发展,主要研究社会实体之间的关系,经过几十年多个学科领域的许多学者的努力,社交网络的相关研究也随着可获取的数据量的飞速增长及计算能力的大幅度提高取得了显著的成果,社交网络已经形成了比较完善的研究体系。社交网络中的网络社区结构问题、重叠社区发现问题、影响力最大化问题、节点聚类问题等。但社交网络中丰富的数据也给知识发现和数据挖掘领域带来前所未有的挑战和机会。
社交网络[1]是通过网络这一载体把人们连接起来,从而形成具有某一特点的团体,是指由个体及个体之间的关系所组成的一个复杂网络,这种复杂的社会结构对信息的传播和扩散起着至关重要的作用,当一个人采纳一个新的思想或接受一种产品时,他会向他的朋友或同事推荐,某些人可能会接受或采纳他的推荐,并进一步向他们自己的朋友或同事推荐,这个过程称为传播或扩散。一个人的行为在很大程度上取决于周边的朋友或同事的决定。社交网络是复杂网络的一种类型,文献[2]中详尽的介绍了复杂网络的相关理论和知识。
社交网络中的影响力最大化问题的研究有着十分重要的现实意义,它在市场营销、广告发布、舆情预警以及社会安定等方面有十分重要的应用。影响力最大化问题[3, 4]的提出要追溯到对于“病毒式营销”[5-7]和“口碑效应”[8-10]的研究,社交网络影响力最大化问题首次由Domingos和Richardson提出的[3, 4],影响力最大化问题可概括为:给定一个社交网络图和一种特定的影响力传播模型,给定初始的传播节点个数,如何在网络上确定这些初始的节点集合(这些集合中的节点初始时是被激活的),然后遵循影响力节点的传播机制,从这些集合中的节点开始传播,使最终被影响的节点数目达到最多,其形式化的表述如下:
给定一个社交网络G(V, E),V为节点集合,E为边的集合,对于给定参数k,k是一个正整数,如何从网络G中选择k个初始节点结合A,满足|A|=k且A⊆V,按照某种传播策略,由这k个初始的节点开始影响其它节点,并使最终被影响的节点数目达到最大,用如下形式表示:
σ=⊆
max{(),||,}
A A k A V
为集合A最终影响的节点数目。
其中,()A
从影响力最大化的问题定义中可以看出,影响力最大化算法首先要保证受影响的节点数目尽可能的多,其次是在尽可能短的时间内找到k个初始的节点。如果受影响的节点数目比较少,即使时间再短也没多大的意义,相反,如果受影响的节点比较多但是找到k个初始的节点的效率非常低,这种情况下也没有多大的意义。所以,影响力最大化问题的目标是在尽可能短的时间内找出k个初始的节点并使最终受影响的节点数目达到最大。
影响力最大化问题被Domingos和Richardson引入到社交网络领域后,已成为社交网络领域的一个研究热点,如今,已有各种算法用于求解社交网络上的影响力最大化问题,如贪心算法、OASNET算法、CGA算法、HPG算法等。当然信息扩散有其本身的规则或者模型,当前所有社交网络影响力最大化问题的研究都是基于影响力传播模型的,目前,影响力传播模型主要有两种:线性阈值模型和独立级联模型,本文在第2节详细介绍这两种模型;在第3节介绍基于这两种传播模型的影响力最大化算法,并对这些算法进行分析;最后总结全文。
2影响力传播模型
社交网络上的影响力最大化问题需要借助于相应的影响力传播模型,在研究中一般将社交网络抽象成一个图G(V, E),其中V为网络中个体的集合,E为网络中个体之间交互和关系的集合;网络G上的每个节点初始时刻有两种状态,即激活和未激活,只有处于激活状态的节点且对它指向的节点才具有影响力,未激活的节点则对它指向的节点没有影响力,当一个节点被其它节点成功影响时,称此节点被激活;当一个节点被激活的邻居节点越来越多,该节点被激活的概率则越来越大,直到某一时刻该节点被激活,被激活的节点又可以影响它指向的节点,每个节点只能由未激活状态转化为激活状态,不能反向转化。
社交网络影响力最大化要解决的问题是如何选取k个种子节点进行信息的传播和扩散,使得最终被激活的节点个数最多。社交网络中的传播过程是:当一个节点被激活时,它会尝试激活与它连接的每一个未被激活的邻居节点,当邻居节点被激活时,它又会尝试激活它自己的邻居节点,这种过程会一直持续,直至没有新的节点被激活为止。目前,社交网络影响力传播中最常见的主要有两种传播模型:独立级联模型和线性阈值模型,下面进行详细的描述[1, 11]。
2.1独立级联模型
独立级联模型(Independent Cascade Model,IC模型)是一种概率模型,当一个节点v被激活时,它会以概率p vw对它未激活的出边邻居节点w尝试激活,这种尝试仅仅进行一次,而且这些尝试之间是相互独立的,即v对w的激活不会受到其它节点的影响。独立级联模型的信息传播过程为:
(1)给定初始的活跃节点集合S,当在时刻t节点v被激活后,它就获得了一次对它的邻居节
点w产生影响的机会,成功的概率为p vw,是随机赋予的系统参数,其自身独立不受其它节点的影响,该值越大,节点w越有可能被影响。
(2)若w有多个邻居节点都是新近被激活的节点,那么这些节点将以任意顺序尝试激活节点w。
如果节点v成功激活节点w,那么在t+1时刻,节点w转为活跃状态。