基于PageRank的微博用户影响力评估模型研究
微博影响力模型初稿改2014.05.12

������������ ������������
������������ 是第 i 个节点的用户影响力,即节点的 权重 ������������������ 是第 i 个节点到第 j 个节点的传播影响 力,即边的权重 ������������ 是第 i 个节点的粉丝数 ������������ 是转发该用户微博的用户集合
2. 传播深度: 我们用传播深度来表示该条微博的传播 层级,层级越大说明该条微博传播深度 越深,影响程度也就越大。 ������������ DEPTH = ������������������������ 其中,������max 表示微博传播过程中转发的 最大层级数,������������ 表示第 i 个用户所在的转发 层级 3. 交互指数: 当一条微博产生评论或者转发行为的时候, 正是体现该节点的影响力,考虑到不同 关系强度的用户有的趋于自媒体特性, 自媒体特性更注重消息的传播,有的趋 于社交特性,社交特性更倾向于好友间 的互动,所以我们将交互指数定义为总 的转发评论量与该用户好友数(即广播 量乘上关系强度表示,广播量又等于该 用户粉丝数)的比值,记为 INACT。 INACT = ������OM + REP FRNum
用户“李佳佳 Audrey”节点在传播过 程中起着至关重要的作用, 若没有此节点, 就没有微博消息的二次较大规模的爆发, 由表可知,该用户的用户影响系数和传播 影响系数均为最低, 但双加权 PageRank 算 法仍然可以发现该关键节点,说明该算法 对发现关键节点具有良好准确性。 用户 “朱 骏” 的用户影响系数与传播影响系数与 “21 世纪经济报道”相当,但由于其转发量与 原用户相差悬殊,其影响力并不大。用户 节点转发 量 2767 2981 31 876 779 852 523 276 节点转发概 率 30.45% 32.81 0.34% 9.64% 8.57% 9.37% 5.76% 3.04% 综合影响力 26385.76 3988.09 409.55 140.85 13.15 9.66 6.57 2.46
9_新浪微博用户的影响力评估和情绪分析_柴川森组

柴川森 彭小详 仝青
动机
研究微博中的情绪传播的规律
猜测: 某一个局部的社交圈中,用户的影响力对圈子中 情绪的传播起到一定的作用
研究思路
影响力排名 算法(局部) 用户情绪 分析 定期测量 研究关系
影响力排名算法
• 思想:PageRank • 改进: 网络内部链接质量 节点本身影响力
基本流程
工具
数据来源
分词组件
关系分析
缺陷
存在分类不明确的现象 训练集笼统 微博字数受限,影响判断结果
影响力排名-示例
通过论文引用关系构成的网络
发表时间因子
Google 引用数
影响力排名-示例
论文影响力排名
影响力排名-微博社交圈Fra bibliotek数据获取
随机抽取的100个微博用户
分析数量,微博内容,互动频数
影响力计算
V(i):粉丝数量 Qji:通过粉丝j与博主i的互动频数计算得到的因子
影响力排名-微博社交圈
• 100个节点 • 节点大小与 影响力大小 正相关
用户情绪分析
贝叶斯学习理论
一种基于概率的学习算法 核心思想:P(h|D) = P(D|h)· P(h) / p(D) 算法基本流程
贝叶斯分类流程
待分类数 据
准备阶段
特征属性 和训练样本
分类器训练阶段
分类器 待分类项
应用阶段
待分类项与类 别的映射关系
微博用户影响力模型研究

PageRank的基础上,我们考虑引进用户内在影响力建立偏随机游走的PageRank算法;基于偏随机游走的PageRank对用户
的影响力具有更好的分析性。本文没考虑到地域性的差异,怎么结合地域的特点来建立模型也是下一步研究的重点。如
果能较好地结合时间性与地域性的特点,那么我们能更好地预测重点舆论爆发的时间,并且有效地进行控制。
舆论控制或者信息传播是十分重要的。 目前有许多人应 用了Pa geR a n k 算法对 微 博用户影响
力进行排名。因此本文以新浪微博作为社交网络的出发点, 类似于偏随机游走PageRank算法从一个新的角度构建微 博用户的影响力模型。
1 研究现状 用户影响力在微博领域的延伸始于链接分析,2010年
微博吸引了越来越多来自各个行业、拥有各种背景的 人。人们可以自定义标签,五花八门的内容体现出用户的 兴趣需求点又广又细。然而,除了一些大众的需求,很多相 对冷门的兴趣点并没有聚合起用户。一方面,在当前嘈杂 的微博环境中,信息一出现就很有可能被迅速淹没,据数 据显示[1],只有很少量的微博才得以广泛传播;但是只要 有一部分影响力大的用户点赞或者转发相应的微博就会 使信息得到广泛的关注。因此找到微博影响力大的用户对
Forum 学术论坛
微博用户影响力模型研究①
昆明理工大学 毕秋敏 云南财经大学 倪明明 曾志勇
摘 要:本文建立的算法可用于在微博中寻找影响力大的用户,并为控制虚假新闻的传播提供有效的途径。笔者在分析微
博用户的影响力中,发现本文提出的算PageRank与改进的
①基金项目:云南省哲学社会科学规划基金项目“微博用户 影响力模型研究”研究成果 (QN2014071)。
作者简介:毕秋敏 (1981-),女,硕士研究生,副教授,主要 从事新媒体传播方面的研究; 倪明明 (1990-),男,硕士研究生,主要从事统计 学理学方面的研究;
微博用户影响力分析研究

Research on User 's Influence in MicrobloggingZhang Xun (Computer Science and Technology)Directed by Liu ZhaohuiAbstract:Socialnetworkingis a multi-functional platform for information exchange, multimedia, and e-commerce. Each user in the social network has the responsibility of sharing and collecting information. Because of the different position of each user in the social network, the influence of information transmission is also different.Microblogging is a typical representative of today's social network, Based on microblogging, the main research work in this paper is as follows:A model of influence evaluation based on user behavior and user information content is proposed.In this model, the measurement of user behavior mainly consists of two parts, that is, the communication frequency between users and the importance of users.The communication frequency between users reflects the users’ will of exchanging information will, is the foundation of information sharing.The importanceof users is composed of two parts,one part is the tightness, it shows the magnitude of the interaction force between users, the other one is betweenness,it indicates the users’ capability of providing the shortest possible routing for another users, the two parts reflect the connectivity of user nodes in the social network.At the same time, the user informationIIIcontent is included in the evaluation model of user influence,the user influence ultimately depends on the degree of communication between users,the greater the flow of information, the greater the impact the user has on the entire micro-blog network structure.The method used in this paper is compared with the PageRank algorithm,UIA algorithm based on PageRank algorithm and user behavior.The PageRank is a classical method to calculate the users’influence,and the UIA algorithm is one of the mature methods to evaluate the user's influencenow. It is proved by experiments that the applicability of the proposed method in this paper.In addition, because the method is simple to operate, it can reduce the operation time and storage cost.Keywords:s ocial network microblogginguser influenceIV目录摘要 (I)Abstract (III)目 录 (V)第1章绪论 (1)1.1研究背景及意义 (1)1.2国内外研究现状 (2)1.2.1 用户影响力研究现状 (5)1.3本文的主要工作 (6)1.4本文组织结构 (7)第2章 相关理论基础 (9)2.1理论基础 (9)2.1.1六度分隔理论 (9)2.1.2 150法则 (11)2.2社交网络的发展 (11)2.3社交网络的组成元素 (13)2.4社交网络的特点 (14)2.5微博社交网络的拓扑结构 (16)2.5.1 图的概述 (16)第3章 用户影响力模型构建 (19)3.1用户行为影响力计算 (19)V3.1.1 信任度问题 (19)3.1.2用户通信频率 (20)3.1.2 用户重要度 (22)3.2用户信息内容 (24)3.2.1相似性产生的信任度 (24)3.3模型构建 (26)第4章 实验及分析 (27)4.1数据获取与计算 (27)4.2实验对比及分析 (34)第5章 总结与展望 (37)5.1本论文的主要工作 (37)5.2进一步的研究工作 (38)参考文献 (41)作者攻读学位期间的科研成果 (47)致 谢 (49)VI第1章绪论1.1 研究背景及意义信息时代的到来给人们的日常生活和生产带来了极大的便利,网络已经无处不在,网民数量也正在大规模增长,有关资料显示[1],2016年我国的网民数量为7.32亿,较2015的增长6.2%。
基于微博影响力的评价模型(最终版)

基于微博影响力的评价模型摘要本文研究的是微博用户和微博的影响力,以及最大好友圈和消息最佳发布问题。
对于问题一,首先,我们查阅相关文献,基于已给数据将用户粉丝数量,用户和粉丝的活跃度,粉丝的专注度作为我们评价微博用户影响力的指标。
根据这些指标,我们对题目所给表格中的数据进行统计,将得到的结果作为各个用户在各指标下得到的分数。
然后,我们建立了熵权模型,将这些数据进行标准化处理,对各个指标的权重进行了计算,分别得到了在不同人数的微博环境下各指标在评价用户影响力时所占权重。
最后,将各指标下分数与权重相乘,再将各个用户的所有指标分数求和得到最终用户影响力评分。
将其排序筛选后,得到影响力最大的十个大V编号。
对于问题二,首先,在问题一所建立模型的基础上,我们确立了将微博被转发次数和转发人的影响力作为我们评价微博影响力的指标。
然后,我们统计了各条微博在各指标下的数据。
其次,我们利用熵权模型将数据标准化处理,并求出了这两个指标在评价微博影响力时所占权重。
最后,我们将各微博各指标下分数与权重相乘,并将所有指标分数求和得到最终微博影响力评分。
将其排序筛选后,得到影响力最大的十条微博消息。
对于问题三,首先,我们根据题目对于好友圈的定义,将M={(i,j)}定义为关注情况矩阵,即第j用户关注第i用户的情况。
进而将多人相互关注的关系用函数关系式表达出来,将所有符合条件的用户编号写入矩阵E中。
然后,先通过对符合两两关注情况的用户进行筛选,再从筛选好的用户中逐步添加用户,判断是否为三人相互关注,四人相互关注,直至好友圈内不能再添加人为止。
此时的好友圈为最大好友圈。
最后,我们通过循环算法实现上述过程,得到了2000人微博环境下10人为最大好友圈,10000人微博环境下13人为最大好友圈,并求出了好友圈中所有用户的编号。
对于问题四,我们将其转化为优化问题,建立了0-1规划模型处理。
首先,将用户发布消息与微博用户之间相互关注的情形转化为0-1矩阵(0表示用户未发布消息或表示微博用户之间未相互关注,1则反之),分别表示为x和A。
基于微博数据的社会影响力分析的开题报告

基于微博数据的社会影响力分析的开题报告一、研究背景及意义当前数字化时代,互联网平台上的数据呈现出膨胀式增长的趋势。
针对这种趋势,如何通过数据挖掘及分析技术快速准确地识别信息传播、社会影响力等方面的重要信息成为了学术和工业界关注的热点问题。
微博作为中国最大的社交媒体平台之一,其庞大的用户数量、持续不断的信息流以及广泛的主题范围,使得微博数据成为批量获取和分析社会影响力的重要来源。
通过对微博数据的分析,可以深入了解社会热点事件的传播规律和影响力范围,发现刻画社会现象的关键特征,是进行社会调查、政策制定、民意监控等方面的重要依据。
此外,对于广告商和市场调查人员而言,分析微博数据也有着重要的商业利用价值。
因此,基于微博数据的社会影响力分析具有重要的理论价值和实际应用价值。
二、研究目标与内容本文的研究目标是对微博数据进行深入分析,探索微博在社会影响力方面的表现和影响规律。
具体来说,将从以下两个方面展开研究:(1)微博传播模型针对微博数据的信息传播规律,结合深度学习等技术,构建微博传播模型,深入分析微博信息的传播和热度变化规律,发现影响微博信息传播和社会影响力的关键因素。
(2)微博用户影响力评估通过对微博用户的行为数据进行分析,包括用户的关注、粉丝、点赞、转发等信息,综合评估用户的影响力。
根据不同的分析方法和模型,从多方面评估微博用户的社会影响力,挖掘出社会影响力巨大的“草根”网络红人。
三、研究方法与技术本文将采用数据挖掘和分析技术,包括:(1)文本预处理对微博数据进行数据清洗和文本预处理,包括去重、分词、去停用词、情感分析等。
(2)传播模型构建基于微博传播的特点和规律,采用深度学习和传统的传播模型,比如SIR,SI等,建立微博传播模型,并进行实验模拟和预测。
(3)用户影响力评估根据不同的指标和评价标准,如Pagerank、Klout、社交影响指数等,评估微博用户的影响力。
四、研究预期成果本文预计通过对微博数据进行深入分析,挖掘出微博信息传播和社会影响力的内在规律,形成以下预期成果:(1)基于微博传播模型分析微博信息的传播规律和影响力变化规律。
基于PageRank的微博用户影响力度量

广 东 工业大 学 学报
Journal of Guangdong University of Technology
Vo1.33 No.3 M av 2016
doi:10.3969/j.issn.1007—7162.2016.03.009
基 于 PageRank的 微 博 用 户 影 响 力 度 量
的影 响 ,T.Havdiwala H等 对其 进 行 了改 进 ,改 进 的算 法 以 网络 的拓 扑 结 构 为度 量 基 础 ,还 加 入 上 下 文相关 性 和 主题敏 感 度 等 影 响 因素 .康 书 龙 等 通 过分 析新 浪微 博用 户 的行为 和关 系提 出了一个 更 先 进 的算法 来评 估 用 户 的 影 响力 ,但 是该 算 法 只考 虑 了发 布微 博 的频 率 ,忽 略 了用 户 问 的交 互 行 为 带 来 的影 响 ,实验证 明这 些 因素 同样 会 对用 户 的影 响力 产生 较大 的影 响 .CHA等 提 出 了评 估 用 户影 响力 的 3个要 素 :粉 丝数 量 ,转 发 次 数 和被 提 及 次 数 .针 对这 三方 面 的度量 要素研 究 了基 于 主题 和时 间 的动 态性 的用 户影 响 力 ,发 现 有 影 响 力 的用 户 可 以 同时 在很 多主 题 上 保 持 较 高 的影 响 力 .国 内学 者 中 ,陈 浩 _1。。提 出的 UserRank算法 从 用 户 自身质 量 及 其 追 随者 (即 follower)质 量 人 手 ,考 虑 追 随 者数 量 ,但 是
王 晓 彤
(广东 工业 大学 计算机学 院 ,广东 广州 510006)
摘要 :在微博社 区中具有较 高影响力的用户对信 息推荐 、市场 营销 、舆情控 制等方面 都起着重 要作用.针对现 有仅
基于社会评级的微博动态影响力指数构建

基于社会评级的微博动态影响力指数构建作者:姜伟伟,顾程来源:《新媒体研究》 2017年第11期摘要当前对社交媒体的研究集中于关注微博、微信的用户使用行为分析,缺乏对微博尤其是微博信息实时影响力的动态性研究。
本研究以页面评级(Page Rank)算法为基础,提出改进的社会评级(Social Rank)算法,结合用户微博使用行为分析得出的权重值,并将时间因素纳入微博动态影响力评估模型之中。
通过具体实例探讨了微博动态影响力指数构建的重要性和实用性。
研究认为社交媒体中大量数据的深度分析与挖掘可以更好地帮助市场营销以及舆情监管部门及时掌握信息的发展动态,从而更有效地推进品牌传播和干预舆论信息的走向。
关键词新媒体;微博;信息传播;动态影响力中图分类号 G2 文献标识码 A 文章编号 2096-0360(2017)11-0045-02随着互联网技术的不断发展,许多社交平台也从最初的萌芽逐渐发展成熟,人与人之间的空间距离得以进一步拉近。
特别是微博、微信等社交工具的出现,也更进一步地推动了互联网的发展,人们可以借助微博、微信,以及一些移动客户端随时进行信息的浏览、关注与分享。
大量的信息浏览、关注与分享也产生了大量的数据,数据尤其是实时数据的深度分析挖掘可以帮助舆情监管部门及时发现影响力最强的信息,从而有针对性地对其可能产生的负面影响及时进行干预,避免负面信息更大范围传播所带来的负面影响。
互联网信息的影响力主要通过信息排序获取,排序越靠前的信息人们对它的关注程度越高,影响力也就越大。
本研究认为新的微博影响力评估方法应强调信息辨识的问题,并考虑怎样解决时间因素对于信息影响力衰减的影响,进而实现一个兼顾全面性、及时性和真实性的实时互联网信息列表构建。
基于以上分析,本研究以微博信息为研究对象,结合以往有关网页排序的Page Rank 算法,在此基础上提出了Social Rank 的计算方法,得到相应微博用户的权重信息,并将时间因素纳入到信息影响力排名计算之中,构建了更为合理的微博动态影响力指数。
- 1、下载文档前请自行甄别文档内容的完整性,平台不提供额外的编辑、内容补充、找答案等附加服务。
- 2、"仅部分预览"的文档,不可在线预览部分如存在完整性等问题,可反馈申请退款(可完整预览的文档不适用该条件!)。
- 3、如文档侵犯您的权益,请联系客服反馈,我们会尽快为您处理(人工客服工作时间:9:00-18:30)。
2018年第5满 y他息疼pit文章编号=1009 -2552 (2018)05 -0075 -04 DOI:10.13274/ki.hdzj.2018. 05. 018基于PageRank的微博用户影响力评估模型研究谢橙瞬,周莲英(江苏大学计算机科学与通信工程学院,江苏镇江212000)摘要:为解决PageRank算法对社交网络中的用户进行影响力评估时产生的“主题偏移”和P R值均匀分配问题,文中以新浪微博为例,构建了用户活跃度、人气值、兴趣度和用户价值四个评估指标,将用户的自身属性作为影响力的评定因子和分配因子,从内在和外在两方面综合考虑用户的影响力,基于PageRank算法提出一种对用户影响力进行综合评估的CIRank模型。
在真实微博数据集下,将CIRank模型与传统影响力评估模型结合新浪官方影响力排名进行比较分析,验证其准确性和可行性。
关键词:微博;用户影响力;PageRank;CIRank中图分类号:TP309 文献标识码:AResearch on evaluation model of microblog users5influencebased on PageRankXIE Cheng-shun,ZHOU Lian-ying(School of Computer Science and Communication Engineering,Jiangsu University,Zhenjiang 212000, Jiangsu Province,China) Abstract:In order to solve the problem ol“theme deviation”and the average distribution ol PR valuewhen the PageRank algorithm is used to evaluate the influence ol the users in the social network,thispaper constructs lour evaluation indicators as users5activity,popularity,interest and user value based onSina microblog,the users’own attribute is used as the evaluation factor and distribution factor olinfluence and it considers the influence ol users from the external and internal aspects,the CIRank modelis proposed to evaluate the user influence comprehensively based on the PageRank algorithm,and theCIRank model is compared with the traditional influence evaluation model and Sina’s official ranking toverily its accuracy and leasibility in the real microblog data.Keywords:microblog;user influence;PageRank ;CIRank0引百随着新媒体时代的到来,微博作为信息传播和 获取的载体,以其极快的信息传播速度,多元化的交 流方式和平民化的注册门槛,吸引了越来越多用户 的加人。
微博用户的影响力是对用户在微博社交网 络中传播信息能力以及对他人造成影响程度大小的 一种综合衡量,通过发现微博的高影响力用户,把握 信息传播的枢纽,可以为商业营销和舆情监控等方 面的研究提供指导。
本文从两个方面综合考虑微博用户的影响力,基于传统的PageRank算法,提出一种新的微博用户影响力评估模型。
1国内外相关研究微博作为一个用来获取信息的媒体[1],拥有十 分庞大的用户群体,微博的迅速发展与普及也吸引 了众多的学者的目光。
对于微博网络用户的影响力 研究可以归纳为以下三类,第一类是直接用粉丝的 数量来衡量用户的影响力[2],这种方法忽略了微博 中僵尸粉的存在,而且单以粉丝量来评估用户影响收稿日期:2017 -09-13作者简介:谢橙瞬(1992 -),男,在读硕士,研究方向为互联网大数 据分析。
—75—力不具有说服力。
第二类是从用户关系和用户行为 的角度对微博用户影响力进行评估,很多学者利用 PageRank[3]算法中各页面的链人链出情况模拟用 户之间的关系,加以改进并通过计算对用户影响力 进行排序,如Wengjianshu[4]基于PageRank算法思 想提出了 Tw itterR ank算法从而发现影响力大的用 户,陈浩[5]在利用PageRank算法思想的同时引人 了粉丝质量这一概念,在考虑用户连接关系的同时 又避免了微博僵尸粉的干扰,H allbert[6]等着力于研 究用户间的连接关系,通过连接关系的强弱来分配 用户影响力值。
第三类是基于统一资源定位符(URL)追踪的用户影响力评估,每一个互联网文件 中都包含唯一的U R L,其功能是定位互联网的资源[7] ,EytanBakshy[8]等从信息发布的U R L出发,将 信息传播模型与口碑效应原理相结合来计算每一个 用户的影响力值。
2微博用户的影响力评估2.1 PageRank算法PageRank算法由Google两位创始人Larry Page 和Sergey B rin提出,它的设计是基于这样一种思 想:被随机冲浪者访问频繁的网页是重要网页,赋予 其高P R值。
PageRank算法的表达式为:PageRankQpJ= 1 - q + q l g(1)M(P i)[(P.)式中,J P,是待研究的页面,P.是一个链人J P,的页面, M(Pi)是互联网中所有链人待研究页面的链接集 合,i(P.)表示页面P.所有的出链集合,^表示阻尼 系数,一般取值为0.85,表示用户到达某页面后继 续浏览下一页面的概率。
随着研究的深人,我们发现PageRank算法仍存 在一些不足之处:①各页面对其指向的页面分配相 同的P R值,这与现实情况不符合;②PageRank算法 仅通过链人链出来的情况来发现高质量网页,忽略 了网页本身的主题相关性,容易产生“主题偏移”的问题。
对此,本文在利用PageRank算法思想进行微 博用户影响力评估时,将用户的自身属性作为评定 因子和分配因子,避免以上两个问题的发生。
2.2用户影响力评估指标对于微博社交网络,综合网络中用户关系和用 户本身其行为特征,构建了用户活跃度、用户人气 值、用户兴趣度和用户价值4个评估指标。
2.2.1用户活跃度微博用户是微博社交网络的核心,用户在微博 社交网络中表现越活跃,对其粉丝的影响越大。
定 义用户的活跃度为:单位时间内用户更新的微博总 —76 —数和参与评论的次数,计算公式为:R. + C.AC.= 1T1(2)式中,表示用户^/在一段时间内的活跃度,R^是 用户y更新的微博总数,包括其原创或转发其他用 户的微博数,C是用户;参与评论的次数,t为统计 时间。
2.2.2用户人气值在微博社交网络中,有的微博用户的粉丝人数 虽然很多,但是在一段时间内粉丝人数增长缓慢,甚 至出现负增长的情况,就是所谓的“掉粉”,而有的 用户的粉丝数在一段时间内一直保持着高速增长,这代表用户具有很强的“吸粉”能力。
定义用户的 人气值为单位时间内用户粉丝的增长数,计算公 式为:P=(3)式中,P代表用户y的人气值,为一段时间内用 户j粉丝的增长数,T为统计时间。
2.2.3用户兴趣度用户对自己关注的用户越感兴趣,转发和评论 其微博的次数占自身转发和评论总次数的比率越 大,用户兴趣度表示用户对自己所关注的用户的感 兴趣程度,计算公式为:A T(i,j)二紙;,.)(4)式中,a t(,',/)表示用户的,对用户y的兴趣度,M(i,')表示用户i转发和评论用户y微博的总次 数,M为用户i转发和评论其所有关注用户微博的 总次数。
2.2.4用户价值综合用户活跃度和用户人气值这两个评估指 标,定义用户价值这一概念,计算公式为:/,.= aAC t + (1 - a)p(5)式中,纟表示用户y的自身价值,A C为用户y的活跃 度,P为用户j的人气值,a为权重因子,利用层次 分析法取a为0.75。
2.3基于PageRank算法的CIRank模型CIRank模型从外在和内在两方面综合考虑用 户的影响力,将用户的自身价值及其粉丝价值作为 评定因子注人CIRank模型表示用户的外在影响力,将粉丝传播用户信息所产生的影响作为用户的内在 影响力。
CIR ank模型对用户影响力的评估分为三 个步骤,先计算用户的外在影响力值,再计算用户的 内在影响力值,最后通过外在影响力值和内在影响力值求得用户的综合影响力值。
用户外在影响力值 的计算公式为:ER(j)= 0.51』+0.5^(6)式中,狀⑴表示用户i的外在影响力,取值为用户i的自身价值与其粉丝价值的加权和,取权重因子为 0.5,认为两者的重要程度是一样的。
用户内在影响 力值的计算公式为:SR(j)= (1 -q)+q i A T(i,j)SR(i)(7)式中,SR())表示用户)的内在影响力,将用户i对用户i的兴趣度A T(i,y)作为用户i影响力值的分 配因子,并加人阻尼系数q使最终计算结果趋于收 敛,q=0.85。
用户综合影响力值的计算公式为:CIR(j)= aER(j)+ pSR(j)(8)式中,C/R(i)表示用户i的综合影响力,取值为用 户外在影响力和内在影响力的加权和,粉丝对用户 微博的转发和评论是使用户信息传播更快更广的关 键,则由其产生的内在影响力应分予更多的权重,通 过对“帕累托二八法则”的理解和研究,本文取a= 0.2,13 =0.8。
本文先初始化微博社交网络各用户的C IR值均为1,再利用式(6) - (8)求得各用户最终收敛的C IR值,即综合影响力值,并对用户进行排名。
3实验结果与分析3.1微博数据的采集和处理近年来,新浪微博对用户数据的采集增加了许 多限制,通过新浪微博开放接口 A P I获取数据这种 高效的方法由于访问频率和权限被加以设置,很难 获取完整数据,而通过传统网络爬虫技术解析微博 页面来获取数据的方法需要爬取数量巨大的网络页 面,效率低下。
本文综合考虑这两种方法的优劣,将 A P I与网络爬虫技术相结合对2017年3月的微博 数据进行采集。