微博用户行为统计特性及其动力学分析_何静
微博博主的特征与行为大数据挖掘

理状态,提出了利用语义分析自 评论数、转发数、提及数和粉丝 的 大 量 研 究 工 作 均 证 实 了 性 格
动评估社交网络用户价值观的方 数来研究用户影响力。
和词汇运用之间存在着决定性
法。价值观作为个性中表明社会
其次,从微观层面来讲,大 的 联 系。 文 献 [10] 分 析 了 参 与
需求和欲望的一个重要方面,在 量研究工作针对社交网络用户行 者 的 大 五 类 (BIG5) 人 格 1 分 数
关注数与粉丝数服从著名的幂律 这些研究的基础上提出了一个行 倾向性分析等。从隐私保护的角
分布 ;文献 [6] 通过构建微博的 为矩阵模型。
度来看,宏观特征反映的是一个
1 人格的大五模式是近
第 10 卷 第 6 期 2014 年 6 月
潜在语义分析进行计算,包括用 活动行为的有机整体。我们结合 及精准营销等领域的研究和应用
36
第 10 卷 第 6 期 2014 年 6 月
都有着深刻的意义。
转发树来研究用户影响力 ;文献
最 后, 从 语 义 理 解 层 面 来
最 后, 我 们 针 对 用 户 的 心 [7] 通过综合考虑用户的发帖数、 讲, 语 言 心 理 学 和 计 算 文 体 学
电子商务、社交网络、组织行为 为分析展开。研究发现,针对特 与 LIWC2001(Linguistic Inquiry
分析以及舆情监控和预测等多个 殊政客或政党的积极和消极情绪 and Word Count,语言获得和词
领域得到广泛应用。传统的价值 的用词数量,在推客 (tweet) 的 汇计数)中预定义词汇在个人言
● 哪些地区拥有最大的用户 密度?
● 男性用户与女性用户之间有 什么关系?
新浪微博用户属性可视化分析

TECHNOLOGY AND INFORMATION科技论坛190 科学与信息化2019年8月下新浪微博用户属性可视化分析*秦港 宋伟郑州大学信息工程学院 河南 郑州 450001摘 要 随着互联网社交在人们社交关系中所占比重越来越大,在互联网社交过程中产生的数据量爆发式增长。
这些数据背后隐藏的用户潜在关系、用户行为和特征模型蕴含着巨大价值。
本文借助“重磅:研招网2019年研招招考数据出炉”这条微博的转发信息,针对新浪微博用户的属性,从不同的角度分析,探索转发该条微博的用户属性和用户行为。
关键词 新浪微博;用户属性;研究生信息引言随着互联网技术快速发展和社交软件不断涌现,微博一个基于用户关系的信息分享、传播以及获取的平台产生,用户可以及时更新简短的话题并以公开的方式进行发布,这种新的互联网社交平台扩充人们社交方式且增加新闻的传播方式,让新闻也能经由普通群众传播。
新浪微博以其得天独厚的机遇、名人效应和先发性迅速发展,用户数量猛增成为微博领域的一枝独秀。
伴随着庞大的用户基础和日活跃量,蕴含着大量可挖掘价值的用户信息和用户行为数据生成,对微博数据进行深入挖掘显得很有必要。
进入2012年,大数据越来越多地被提及,探索数据背后的价值成为热点。
本文借助图、表等可视化方法展示对微博用户属性分析的结果更加直观简单的让人们看到关注考研信息的微博用户的行为和特征。
1 新浪微博数据的获取本实验获取中国研究生招生信息网的“重磅:研招网2019年研招招考数据出炉”这条微博的转发情况,包含转发人、转发人主页、转发内容、发布时间、转发人性别、转发人粉丝、转发人地区。
使用新浪微博的API ,接口名称为statuses/repost_timeline ,获取转发“重磅:研招网2019年研招招考数据出炉”的所有用户的列表。
新浪微博对这个接口有限制,只能返回最新的2000条数据,足够满足实验数据要求。
观察返回的数据,有的转发记录获取不到用户信息,删除这些对实验没有作用的转发记录,最终获取到用于实验的数据集[1]。
基于用户行为的微博网络信息扩散模型优先出版

物 理 学 报 Acta Phys. Sin. Vol. 65, No. 15 (2016) 158901
2.2.2 转发延迟分析
用户阅读和转发一条微博的行为几乎是同时 发生的, 所以可用转发微博的时间点表示阅读时
间点. 转发延迟时间分布如图 3 所示, 该分布近似 于幂律分布, 说明大部分转发延迟较小. 延迟小于 8.77 小时的占 75%, 小于 35.38 小时的占 90%, 说明 微博消息具有很强的时效性, 发表时间越长的消息 越少人去关注.
2.2 用户阅读行为
微博网络上用户的朋友发表的微博会按时间 顺序显示在用户页面上, 用户登陆后按顺序翻阅微 博. 阅读过程中用户如果觉得某条微博有趣、值得 跟粉丝分享, 就会转发该微博. 微博发表的时间越 长越被排在用户页面的后面, 用户一次登录一般不 会翻阅完所有的微博, 以至于有些微博会被用户忽 略, 这些微博即使用户感兴趣也不会被转发, 由此 可见用户转发某条微博的前提是他必须阅读到该 微博. 虽然用户的阅读行为不会被记录下来, 但是 如果知道一位用户登陆微博的时间和用户登录后 的信息阅读量, 就可以根据一条微博的发表时间来 判断该用户会不会阅读到这条微博.
信息在微博网络中扩散, 网络节点传播信息的 前提是节点接收到了信息, 早期的信息扩散理论模 型大多假设信息在一个封闭、同质的人群中扩散, 传播者和他的邻居会无差异地接触, 信息会被他的 邻居无差异地传播. 但是在微博环境下, 信息量大、 信息更新速度快, 用户的粉丝之间差异巨大, 无法 保证用户所发的每条微博会被其每个粉丝阅读. 因 此同转发行为一样, 用户的阅读行为也会影响微博 网络中信息的扩散, 但是目前对用户阅读行为尤其 是同时考虑阅读行为和转发行为对信息扩散的影
面向舆情主题的微博用户行为聚类实证分析

Li u J i -
( 1 . I n s i t t u t e o f S t a i t s i t c s a n d I n f o r ma t i o n , X i n j i a n g U n i v e r s i t y o f F i n nc a e nd a E c o n o m i c s , U r u mq i 8 3 0 0 1 2 ; 2 . C e n t e r o f S a t t i s i t c a l R e s e a r c h o f S o c i e t y a n d co E n o m i c s , X i n j i a n g U iv n e r s i t y o f F i n nc a e nd a co E n o ic m s l U r u m q i 8 3 0 0 1 2 )
关键词 网络舆情 中图分类号 微博 用户行为 主题 文献标识码 聚类 实证 分析 A 文章编 号 1 0 0 2 — 1 9 6 5 ( 2 0 1 4 ) 0 3 — 0 l 1 8 — 0 4 G 3 5 0
D OI 1 0 . 3 9 6 9 / j . i s s n . 1 0 0 2 — 1 9 6 5 . 2 0 1 4 . 0 3 . 0 2 2
第3 3卷
2 0 1 4年 3月
第 3期
情
报
杂
志
J OURNAL OF I NT ELL I GENCE
Vo 1 . 3 3 No . 3 4 Ma r . 201
面向舆 情主题的 微博用户行为ຫໍສະໝຸດ 类实证分析 李 磊 刘 继
乌鲁木 齐 8 3 0 0 1 2 ; ( 1 . 新疆财经大学统计与信息学 院
微博中群体极化的呈现方式及动力机制探析

微博中群体极化的呈现方式及动力机制探析作者:辛文娟来源:《新闻界》2014年第03期摘要:2013年武汉大学樱花节期间,“赏樱门票涨价”一事激发了网民在微博热议。
本文以此案为例对网民的相关评论进行内容分析,探讨网民在微博中探讨比较温和的社会议题时产生的群体极化现象。
本研究重点关注极化过程的走势拐点及其背后的动力机制,分析网民的具体话语表达及其折射的社会因素。
研究发现,争议性的话题和微博独特的传播机制为群体极化奠定了基础,媒体的官方微博设置的议程会在很大程度上影响极化的走向。
另外,在某些特殊情境下,讨论中形成的群际关系和网民的社会身份意识会忽然消解或者引爆群体极化现象。
关键词:群体极化;呈现方式;动力机制;新浪微博;“武大赏樱门票涨价”事件中图分类号:G206 文献标识码:A作者简介:辛文娟,四川外国语大学新闻传播学院讲师,重庆400031;武汉大学新闻与传播学院博士研究生,湖北武汉430072目前我国仍处于社会转型期,各种社会矛盾较为突出,群体性事件频发,新媒体的出现增加了“群体极化”在网络上发生的几率。
这种极化现象有可能扩散到现实生活中来,引起某些过激行为的发生,十分不利于社会的稳定和国家安宁。
本研究对新浪微博中的群体极化现象进行内容分析,考察微博用户在讨论公共问题时的极化过程及呈现方式,进而探究其背后的动力机制。
一、背景与文献:网络——极端主义的温床(一)网络群体极化的提出及存在表现群体极化(Group Polarization)最早由美国麻省理工学院教授詹尼斯·斯托纳(Janis Stoner)于1961年提出,用以描述一种群体现象:在群体决策情境中,个体的意见或决定往往会因群体间彼此相互讨论的影响,从而产生群体一致性的结果,并且这些结果通常比个体的先前个别意见或决定更具冒险性。
网络空间的群体极化现象广泛存在,且具有现实空间所不具有的特征和影响。
网络对许多人而言,正是极端主义的温床,因为志同道合的人可以在网上轻易且频繁地沟通,但听不到不同的意见,导致本来没有既定想法的人会逐渐相信某种立场,网民最后会各自走向极端,造成分裂的结果,或者铸成大错并带来混乱。
微博用户关系网络的结构研究与聚类分析

微博用户关系网络的结构研究与聚类分析杨凯;张宁【摘要】This paper discussed the characteristics of user's relationship networks on the individual micro-blog.We tracked the data of individual micro-blog from registering to a certain stabilization period,extracted representative data on the three time points,built three complex networks.We measured the properties of the networks on the different three time points,and found the changes of users' behavior and influence.The paper used K-means clustering algorithm to analyze the characteristics of users.From the purpose of using micro-blog perspective,K-means clustering classified the users into three types (ordinary social type,personal interest type,information dissemination type).Thus,by optimizing the algorithm and using the result of clustering,service providers can reduce unnecessary recommendations of pages and application to meet the needs of users so as to acquire commercial value.%将个人微博用户关系网络作为研究对象,抓取了一个用户从开始注册到一定稳定期3个时间点的数据,构建了3个复杂网络,研究了该微博用户关系网络的结构属性变化,得出用户行为和影响力的变化.使用K-means聚类算法对微博用户关系网络进行了聚类分析,从使用目的角度将微博用户分为3种类型——普通社交型、个人兴趣型和信息散播型.微博服务商可以通过算法优化,根据详细的聚类结果更有针对性地进行页面和应用程序推荐,创造商业价值.【期刊名称】《复杂系统与复杂性科学》【年(卷),期】2013(010)002【总页数】7页(P37-43)【关键词】微博网络;小世界现象;K-means聚类【作者】杨凯;张宁【作者单位】上海理工大学管理学院,上海200093;上海理工大学管理学院,上海200093【正文语种】中文【中图分类】N9410 引言随着互联网2.0技术的发展和计算机网络的普及,在线社会网络已成为人们生活工作中不可或缺的工具。
新浪微博用户及其微博特征分析
新浪微博用户及其微博特征分析梁宏;许南山;卢罡【期刊名称】《计算机工程与应用》【年(卷),期】2015(000)007【摘要】基于新浪微博用户之间的关注关系网络,分析了衡量微博用户影响力的三个指标——粉丝数、User PR值以及用户活跃度,发现粉丝数分布和User PR 值分布均服从幂律分布,活跃度分布不同于前两种分布。
分别对三种排名靠前的用户及其发布的微博进行分析,发现排名靠前的用户中,User PR值的认证用户多于粉丝数;活跃度排名靠前的用户在广告营销活动中受到广泛的青睐;新浪微博用户乐于转发和评论他人的微博,微博中嵌入了大量的图片、视频和链接。
%Based on the relationship network of Weibo users, the number of fans, User PR values and users’activities are considered as measurements ofusers’influence on Weibo with the dist ributions of the three factors. Results show that both the distributions of the number of fans and User PR values follow power-law distribution. It is found that there are much more verified users in top User PR ranking list than in fans ranking list and it is suggested that top activity users are much more popular in advertisement campaign after analyzes the top users and their posts in fans ranking, User PR ranking and activity ranking. It is also found that Sina Weibo users prefer to repost and comment o n other users’Weibo. There are a large number of images, videos and links on Sina Weibo, and most of them are reposted from another user.【总页数】8页(P141-148)【作者】梁宏;许南山;卢罡【作者单位】北京化工大学信息科学与技术学院,北京 100029;北京化工大学信息科学与技术学院,北京 100029;北京化工大学信息科学与技术学院,北京100029【正文语种】中文【中图分类】TP38【相关文献】1.新浪微博加V用户特征分析 [J], 何跃;帅马恋;余伟萍2.微博特定领域用户外在特征研究--以新浪微博学术类用户为例 [J], 盛宇3.新浪微博用户及其微博特征分析 [J], 周世妍4.新浪微博用户及其微博特征分析 [J], 周世妍;5.微博媒介使用中的用户趋同化现象与路径——基于新浪微博用户的实证分析 [J], 徐翔因版权原因,仅展示原文概要,查看原文内容请购买。
基于大数据分析的微博用户情感分析模型研究
基于大数据分析的微博用户情感分析模型研究随着社交媒体的普及和发展,微博作为中国最具影响力的社交媒体平台之一,每天都吸引着大量用户在上面发布和分享信息。
这些信息包含了各种用户情感和观点,对于企业、政府和个人来说,了解和分析微博用户情感是制定决策和改进产品的重要依据。
因此,基于大数据分析的微博用户情感分析模型的研究变得尤为重要。
微博用户情感分析模型的研究旨在通过分析微博用户在发表内容中所表达的情感、观点和态度,以此推测和理解用户的情绪状态和对特定事件的态度。
这一模型可以帮助用户识别和管理情感,并为企业和政府提供情感数据支持,以帮助其做出更明智的决策。
基于大数据分析的微博用户情感分析模型主要包括以下几个关键步骤:数据收集、情感分类、情感特征提取和情感分析。
首先,数据收集是构建微博用户情感分析模型的第一步。
通过API接口或者网络爬虫,可以获取到大量微博用户发布的内容和相关信息。
这些数据是模型研究的基础,因此数据的质量和多样性对于模型的准确性和可靠性非常重要。
其次,情感分类是微博用户情感分析模型的核心环节之一。
通过机器学习算法,可以将用户的微博内容分类成积极、消极或中性等不同情感倾向。
常用的分类算法包括支持向量机(Support Vector Machine,SVM)、朴素贝叶斯分类器(Naive Bayes Classifier)、决策树等。
这些算法可以通过训练样本学习用户情感的特征和规律,并预测未知样本的情感分类。
接下来,情感特征提取是微博用户情感分析模型的重要环节之一。
通过文本挖掘技术和自然语言处理技术,可以从文本中提取出表达情感的特征词汇、词频、词序等信息。
这些特征信息可以帮助模型更好地理解用户情感表达的方式和模式,并提高模型的准确性和稳定性。
最后,情感分析是微博用户情感分析模型的最终目标。
通过对用户情感特征的分析和整合,可以得出用户在特定事件或话题上的整体情感倾向。
这种情感分析可以帮助企业和政府了解用户舆论和态度,以及产品在市场上的表现和声誉。
微博信息采集及群体行为分析
微博信息采集及群体行为分析微博已经成为人们获取和传播信息的重要途径,大量的信息被发布和传播在微博上。
这些信息来源广泛,包含了个人用户、媒体机构、政府机构等等,覆盖面很广,丰富的信息对于研究群体行为和社会热点有着重要的参考价值。
因此,对于微博信息采集及群体行为分析的研究显得越来越重要。
一、微博信息采集微博的信息采集是指通过一定的手段,将微博上的信息进行收集和整理。
微博信息的采集可以是全网的,也可以是针对特定的用户、话题、事件、热点等进行分析。
常用的信息采集方式包括爬虫抓取和人工标注。
1.爬虫抓取爬虫抓取是一种自动化的方式,可以加快信息的采集速度,并且可以采集大量的数据。
爬虫可以根据自己的需求,设定相应的采集条件和规则。
不同的爬虫工具和算法,速度和采集精度也不相同。
2.人工标注人工标注相对于爬虫抓取来说会更准确,但是工作量会大很多。
人工标注需要专门的团队进行,通过一定的标注规则对微博信息进行分类、整理、清洗等。
相较于爬虫抓取方式,人工标注需要费时费力,但它可以让数据更为准确、全面。
二、微博群体行为分析微博群体行为分析是指对微博上群体行为的观察、分析和预测,其目的在于揭示微博用户的心理和行为规律,为实际应用提供参考。
如:预测未来的网络热点、对舆情危机进行灵敏的感知和处理、提高用户粘性等等。
1.话题聚集分析话题聚集分析是指对微博中涉及的同一话题的用户进行分析,进而探寻到一个话题的讨论热度、地域分布等特征。
通过对话题聚集分析的结论,就能更好地了解用户的兴趣爱好,从而为企业的产品推广/营销提供参考价值。
2.分析回复情感分布用户回复情感分布分析是指对于微博中的回复进行情感分析,探寻出微博用户会对某些话题产生怎样的情感反应。
针对积极回复和消极回复情感分布的调整,可以提高企业的口碑,增加用户对企业的忠诚度。
3.舆情监控与感知舆情监控是指对微博等社交媒体上有关某个目标的言论进行持续性的监控,这样可以让企业及时掌握市场信息,保证企业的运营安全。
大学生使用微博的心理动因
大学生使用微博的心理动因
郭静
【期刊名称】《衡水学院学报》
【年(卷),期】2013(15)2
【摘要】微博由于具有便捷、时尚、简单、互动性强等特点,深受大学生热捧.文章采用问卷调查法,从大学生使用微博的从众心理、热衷展示自我心理、情感宣泄心理、追求便捷心理等心理角度出发,发现微博一方面使我们交到更多朋友、更快地了解新近发生的大事小情,同时也给我们的学习增添了新的途径.但另一方面微博也出现了干扰大学生价值取向,影响大学生正常的学习和生活等问题.所以使用微博时要注意掌握适度原则、不要透漏他人隐私、多在现实生活中交流、客观对待微博信息.
【总页数】3页(P99-101)
【作者】郭静
【作者单位】衡水学院文学与传播学院,河北衡水053000
【正文语种】中文
【中图分类】G206.3
【相关文献】
1.搭建微博平台拓展大学生思想教育新阵地——基于兰州高校大学生微博使用状况的思考 [J], 赵莉;汪精海
2.搭建微博平台拓展大学生思想教育新阵地——基于兰州高校大学生微博使用状
况的思考 [J], 赵莉;汪精海;
3.略论微博时代大学生的思想政治工作--南通地区大学生微博使用状况调查报告* [J], 王建;彭雪华
4.大学生使用微博有助于拓宽其视野——关于大学生对微博看法的调研报告 [J], 赖婵丹
5.青岛大学生微博使用情况调查与分析——以使用新浪微博为例 [J], 李艳英;刘超因版权原因,仅展示原文概要,查看原文内容请购买。
- 1、下载文档前请自行甄别文档内容的完整性,平台不提供额外的编辑、内容补充、找答案等附加服务。
- 2、"仅部分预览"的文档,不可在线预览部分如存在完整性等问题,可反馈申请退款(可完整预览的文档不适用该条件!)。
- 3、如文档侵犯您的权益,请联系客服反馈,我们会尽快为您处理(人工客服工作时间:9:00-18:30)。
94现代图书情报技术
微博用户行为统计特性及其动力学分析*何静郭进利徐雪娟(上海理工大学管理学院上海200093)
【摘要】以新浪微博为研究对象,运用复杂网络和统计学的方法从个体和群体层面对微博的网络拓扑结构和用户
的行为特性进行统计分析。结果表明,微博用户的行为表现出多重的标度特性,其中节点的度分布和微博发布行为近似服从幂律分布,而转发和评论行为表现为指数截断的幂律分布。在此基础上,运用兴趣驱动机制和重尾特性对其进行分析,得到微博用户行为的一些共性。这可以为微博信息的传播动力学研究提供有益的帮助。【关键词】微博社交网络用户行为指数截断的幂律分布
【分类号】N94
AnalysisonStatisticalCharacteristicandDynamicsforUserBehaviorinMicroblogCommunities
HeJingGuoJinliXuXuejuan(BusinessSchool,UniversityofShanghaiforScienceandTechnology,Shanghai200093,China)
【Abstract】Usingthecomplexnetworkandstatisticalmethods,thispaperanalyzesthenetworktopologyanduserbehav-iorcharacteristicsoftheSinamicro-bloggingontheindividualandgrouplevels.Theresultsshowthathumanbehaviorshavedifferentmulti-scalingcharacteristics.Ofwhich,nodedegreedistributionandmicroblog-postbehaviorapproxi-matelyobeythepowerlawdistribution;howevertheforwardingandcommentbehaviorobeysexponentialtruncatedpower-lawdistribution.Basedonthis,theinterest-drivenmechanismandheavy-tailcharacteristicsoftheuserbehaviorarestudiedandsomecommonalitiesarebotained.Itishelpfultotheresearchofpublicopinionpropagationdynamics.【Keywords】Micro-bloggingSocialnetworkUserbehaviorExponentialtruncatedpower-lawdistribution
收稿日期:2013-06-03收修改稿日期:2013-07-02*本文系国家自然科学基金项目“基于随机服务理论的复杂网络和人类动力学演化模型”(项目编号:70871082)、上海市一流学科建设项
目“上海市管理科学与工程一流学科建设项目”(项目编号:S1201YLXK)和上海市研究生创新基金项目“基于复杂网络的微博舆论传播动力学研究”(项目编号:JWCXSL1202)的研究成果之一。
1引言
随着微博应用的发展,人类社会跃入了移动互联网时代。微博作为主流的在线社交网络平台,具有即时发布、实时传播、多途径参与、简便易用等特点,成为人们生活、娱乐和工作中的一个重要组成部分。CNNIC发布的
第31次《中国互联网络发展状况统计报告》[1]显示,截至2012年底,我国网民规模达到5.64亿,微博用户为3.09亿。鉴于其庞大的用户群,微博成为移动互联网时代的又一关键应用。在传统的人类动力学研究中,大多数学者利用泊松过程来描述人类行为,认为人们的相继行为发生的时间间隔分布是均匀的。但是随着数据挖掘和信息处理技术的提高,许多研究表明人类的行为偏离了泊松过程。Barabási[2]通过对实际的电子邮件发送与回复等人类邮件通信行为的时间间隔进行统计分析,发现人类行为的发
生具有短时间内的爆发和长时间的静默并存的特征,这些行为并不能用泊松过程来描述。在现实生活中,大多数
情报分析与研究XIANDAITUSHUQINGBAOJISHU95
的人类行为也具有类似的特征。比如研究者对人们的网页浏览[3]、手机通信[4]、电影点播[5]等行为进行了统计分析,结果均表明,人类行为发生的时间间隔服从标度幂律分布,且幂律指数在1-3之间。樊超等[6]对某大学师生的图书借阅行为进行了统计分析,结果表明群体和个体的借阅行为表现出不同的统计特征。在人类行为的内在驱动机制方面,戴双星等[7]提出了基于兴趣驱动的动力学模型;Guo等[8]通过对科学网博客的用户评论行为进行研究,发现用户评论时间间隔近似服从指数为1-2的幂律分布,由此提出了一个兴趣逐渐消失的人类动力学模型。人类的行为是非常复杂的,而且容易受到个人的兴趣爱好、所从事的工作类型以及人际关系网络等因素的影响,微博用户也同样如此。在微博中,用户的行为偏好大多体现在他所关注的用户类型,如旅游、交友、新闻等。用户之间通过关注和粉丝关系进行信息的传递和共享,从而形成一个人际关系网络。目前关于微博用户行为特性的研究还比较少。尹书华[9]对新浪、腾讯和搜狐三大微博网络进行了统计,结果表明微博网络用户的节点度服从幂律分布,具有无标度特性和小世界效应。Yan等[10]对新浪微博用户的信息发布行为进行研究,提出了一个由兴趣和社会身份驱动的人类行为动力学模型,研究结果表明用户的社会身份驱动着兴趣的变化,从而影响着信息的转发或评论行为。赵文兵等[11]以和讯财经微博为例,对微博用户的特性及动机进行了分析,结果表明关注数、被关注数和博文数均具有统计特性,且具有地域差异性。其他关于微博的研究大都集中在微博的网络演化、信息的传播机制以及微博营销等方面。随着大数据时代的来临,用户的行为和信息的传播方式都呈现出多样化的发展趋势,通过对用户行为的研究进而预测事件的发展趋势,可以为微博的发展提供更好的策略。现有关于人类行为偏离泊松过程的研究大都集中于针对事件发生的时间间隔的统计。但是人类的行为是高度复杂的,用户的行为不仅仅体现在时间间隔上,事件发生的频次和概率、事件之间的相关性等也能够反映出人类行为的某种规律。因此,从个体和群体层面对微博用户的信息发布、转发和评论行为进行多角度研究,可以得出用户行为的若干特性。本文基于新浪微博的实际用户数据,构建了一个微博用户关系网络,综合运用复杂网络和统计学的方法对微博的网络特性和用户行为特性进行定量分析。结果表明,微博用户的行为具有高度的复杂性和多重标度特性。在此基础上,结合人类行为动力学理论得出了微博用户行为的一些共性。
2数据采集
作为当前国内主流的社交网络平台,新浪微博(http://weibo.com)拥有庞大的用户群。笔者选取新
浪微博的实际用户作为研究样本,以某一特定用户为根节点,运用广度优先搜索算法和爬虫软件,收集了近10000个微博用户的样本数据(数据集1),包括用户
的粉丝数、关注数、发布的微博数等数据。此外,还抓取了微博名人堂中前100位媒体、网站和名人等不同类型用户的实际微博数据(数据集2)。数据集的结构如下:Dataset1(user_ID,follower,following,weibo_No);Dataset2(user_ID,weibo_ID,zf_No,pl_No,fb_time,zf_time)。其中,user_ID作为主关键字代表着微博用户的身份标识;用户的粉丝数follower、关注数following和微博数weibo_No表征微博的用户属性;微博信息weibo_ID、转发数zf_No、评论数pl_No、发布时间fb_time和转
发时间zf_time表征微博的传播属性。在微博中,可以通过用户ID和用户之间的连接关系(粉丝和关注)构建一个微博用户网络,因此可以借助于复杂网络和人类行为动力学理论对用户的行为特性进行深入分析。尽管获取的数据量不大,但是根据人际关系中的六度分割理论,这些用户数据的统计结果在很大程度上仍然可以反映微博用户行为的若干普适性。在数据分析的过程中,主要运用Matlab、SPSS和Excel等工具对样本主体数据进行处理和分析,得到双对数坐标下的分布散点图,再采用一元线性回归或最小二乘法进行拟合,拟合曲线的斜率即为幂指数。
3微博网络节点的度分布分析
舆论的形成是大众传媒与人际传播共同作用的结果,其在微博上的传播过程可以看作是服从某种规律的网络传播行为。在微博中,若以注册用户为节点,以用户之间的关系为连接边,则可以构造一个微博用户关系网络。例如用户A是用户B的粉丝,则形成一条A→B的连接边;用户B是C的关注好友,则形成一条
总第235/236期2013年第7/8期96现代图书情报技术
C→B的连接边。如果某用户发布了一条微博信息,则
该信息会沿着他的粉丝向外界传播。在复杂网络中,常用节点的度分布、网络的聚类系数及最短路径长度来描述网络的整体特征。对用户的粉丝数和关注数进行统计分析,得到网络的入度和出度分布图,如图1所示:图1微博用户网络的入度和出度分布由图1分析得出,微博用户网络的节点度近似服从幂律分布,幂律指数γin=0.8,γout=1.12。借助Pajek对其进行可视化分析,得到网络聚类系数C=0.267,最短路径长度L=3.45。可以看出微博用户网络具有较短的平均路径长度和较高的聚类系数,是一个典型的小世界网络,具有无标度特性和小世界效应。此外,从图1中可以明显地看到用户的粉丝数分布表现出明显的重尾特性,即大部分的普通用户的粉丝和关注的数量都比较少;而一些少量的用户如企业家、体育和娱乐明星等,却拥有大量的粉丝群。这些明星用户往往具有较高的影响力和吸引度,成为网络中的Hub节点,表现出富者愈富的现象。4微博信息的发布行为统计分析4.1个体用户微博发布时间的概率分布在现实社会中,人们每天都要参与大量不同类型的活动,如QQ聊天、网页浏览、参加娱乐活动等,而人们的这些行为通常都会表现出一定的规律性。比如在同一活动中连续两次相继行为发生的时间间隔就反映了人类行为发生的密度和概率。为了探究用户微博信息发布的时间规律,笔者从得到的数据集中选取某位活跃用户A,统计其在一天内发布微博信息的时间序列,时间间隔精确到分钟。用户A一天共发布140多条微博,但大多数都集中于中午12-14点和晚上19-22点这两个时间段内。这与电子邮件、移动通讯等使用高峰期常常出现在上午10点和下午3点左右的情况存在显著差异。微博使