中文微博用户标签的调查分析_以新浪微博为例_黄红霞

合集下载

《2024年我国明星微博的传播效果研究——以新浪微博为例》范文

《2024年我国明星微博的传播效果研究——以新浪微博为例》范文

《我国明星微博的传播效果研究——以新浪微博为例》篇一一、引言随着互联网的快速发展,社交媒体在中国已经成为人们日常生活的重要组成部分。

其中,新浪微博作为中国最大的社交媒体平台之一,吸引了众多明星的入驻。

明星微博不仅为粉丝提供了一个与偶像互动的平台,也成为了传播信息、影响舆论的重要渠道。

本文以新浪微博为例,研究我国明星微博的传播效果,探讨其传播机制、影响因素及未来发展趋势。

二、明星微博的传播机制明星微博的传播机制主要包括信息发布、粉丝互动、舆论传播等环节。

明星通过发布文字、图片、视频等多种形式的内容,与粉丝进行互动。

粉丝通过转发、评论、点赞等方式参与互动,形成传播链条。

同时,明星微博的内容也会在社交媒体上引发舆论,影响公众的认知和态度。

三、明星微博的传播效果1. 粉丝互动效果:明星微博的粉丝数量众多,粉丝互动积极,这为明星与粉丝之间建立了紧密的联系。

通过互动,明星能够了解粉丝的需求和反馈,提高自身的知名度和影响力。

2. 信息传播效果:明星微博的内容往往具有较高的关注度和影响力,能够迅速传播信息,引导舆论。

例如,明星的公益活动、影视作品宣传等,通过微博的传播,能够迅速扩大影响力,提高社会关注度。

3. 品牌合作效果:明星微博为品牌合作提供了良好的平台。

品牌方可以通过与明星合作,利用明星的影响力进行产品宣传,提高品牌的知名度和美誉度。

四、影响明星微博传播效果的因素1. 明星个人魅力:明星的个人魅力是吸引粉丝的重要因素,也是影响微博传播效果的关键因素。

具有较高个人魅力的明星,其微博往往能够吸引更多的关注和互动。

2. 内容质量:微博内容的质量直接影响传播效果。

有趣、有价值的微博内容往往能够引起粉丝的共鸣,提高互动率。

3. 互动频率:明星与粉丝的互动频率也是影响微博传播效果的重要因素。

频繁的互动能够增强粉丝的忠诚度,提高微博的传播效果。

4. 社交媒体平台的影响力:社交媒体平台自身的影响力也会影响明星微博的传播效果。

我国明星微博的传播效果研究——以新浪微博为例

我国明星微博的传播效果研究——以新浪微博为例

我国明星微博的传播效果研究——以新浪微博为例我国明星微博的传播效果研究——以新浪微博为例【导言】如今,微博已经成为人们获取信息、交流观点、传播思想的重要平台之一。

作为一个庞大的社交媒体网络,微博在国内的用户数量和影响力愈发巨大。

尤其是明星们的微博,因其自身的影响力和粉丝的广泛关注而成为传播效果的重要研究对象。

本文将以新浪微博为例,探讨我国明星微博的传播效果。

【明星微博的流行与传播效果】明星微博的流行既是一个趋势也是一种需求。

人们对于明星生活的好奇心以及对其工作成果的关注,带动了明星微博的迅猛发展。

明星的微博账号通常具有庞大的粉丝团,可以实时了解到明星的动态,从而更好地与粉丝进行互动。

这种近距离的联系不仅增加了粉丝对明星的认同感和亲近感,也帮助明星进行自我形象塑造和品牌推广。

明星微博对于影响社会舆论也发挥着重要作用。

明星通过微博能够直接与粉丝沟通,并借此表达与观点、态度对某个事件或现象的看法。

由于明星的社会影响力,他们的微博发言往往受到广泛的关注和传播,进而引起社会大众的广泛关注,形成一种扩散的传播效果。

【新浪微博成为明星传播效果的关键渠道】作为国内最早推出微博服务的平台之一,新浪微博拥有数亿的用户,并成为我国明星微博传播效果的关键渠道。

新浪微博提供的数据分析平台和广告投放系统,使明星和粉丝的交互更加便捷和高效。

粉丝通过关注明星的微博账号,可以实时了解到其新闻、活动、代言以及私生活的动态等信息,与粉丝共同分享喜悦和忧愁。

而明星也通过发布微博,借助粉丝的传播力量,将信息扩散到更广泛的受众。

此外,新浪微博为明星提供了更多的传播和推广机会。

明星通过微博平台可以发布宣传片、新歌、新电影等各类信息,进而吸引更多的观众或粉丝。

同时,明星也可以通过微博与粉丝进行问答互动、举办线下见面会等活动,加深与粉丝的亲密关系。

这些活动不仅提高了明星的曝光度和知名度,也带动了相关产业的发展。

【明星微博传播效果的影响因素】明星微博的传播效果受多个因素的影响。

对微博的调查报告

对微博的调查报告

对微博的调查报告微博是中国最大的社交媒体平台之一,拥有庞大的用户群体和广泛的影响力。

近期,我进行了一项关于微博的调查,旨在了解用户对微博的使用习惯、内容偏好以及对其影响力的看法。

以下是我对调查结果的分析和总结。

首先,调查显示微博在中国社交媒体市场的地位不可忽视。

超过80%的受访者表示他们每天都会使用微博,并且将其作为获取新闻和信息的主要渠道之一。

这表明微博已经成为了人们获取信息、分享观点和交流的重要平台。

同时,微博的用户群体也非常广泛,涵盖了各个年龄段、职业和兴趣爱好。

这种广泛性使得微博成为了一个多元化的社交媒体平台,能够满足不同用户的需求。

其次,调查还揭示了微博用户对内容的偏好。

大多数受访者表示他们在微博上更关注的是热门话题、明星八卦和娱乐资讯。

这一结果并不令人意外,因为微博作为一个社交媒体平台,用户更倾向于获取有趣、有娱乐性的内容。

然而,令人欣喜的是,也有相当一部分用户表示他们在微博上追踪时事新闻、专业知识和学术研究等内容。

这表明微博在传播信息和知识方面也起到了积极的作用。

另外,调查还关注了微博对用户的影响力。

结果显示,微博在一定程度上影响了用户的观点和行为。

超过60%的受访者表示他们会受到微博上的观点和评论影响自己的决策和行为。

这一结果引发了对微博的信息可信度和真实性的担忧。

虽然微博上的信息往往是用户自发产生的,但并不代表其准确性和客观性。

因此,用户在使用微博时需要保持一定的谨慎,对信息进行甄别和核实。

此外,调查还发现微博对用户的社交互动和个人表达能力起到了积极的促进作用。

超过70%的受访者表示他们通过微博结识了新朋友,并且能够更自由地表达自己的观点和情感。

这一结果表明微博为用户提供了一个广阔的社交空间,使得用户能够更好地展示自己的个性和特点。

同时,微博上的互动也促进了用户之间的交流和分享,增强了社区感和归属感。

综上所述,微博作为中国最大的社交媒体平台之一,具有广泛的用户群体和影响力。

调查结果显示,微博在用户中享有较高的使用率和满意度,并且对用户的信息获取、社交互动和个人表达能力起到了积极的促进作用。

关于微博的调查报告

关于微博的调查报告

关于微博的调查报告微博调查报告近年来,随着互联网的迅猛发展,社交媒体平台也如雨后春笋般涌现。

其中,微博作为中国最具影响力的社交媒体平台之一,吸引了亿万用户的关注和参与。

为了更好地了解微博的使用情况和用户态度,我们进行了一项调查,并撰写了本篇微博调查报告。

一、微博的普及程度调查结果显示,微博已经成为了大多数人日常生活中不可或缺的一部分。

超过八成的受访者表示,他们每天都会使用微博,而其中有近四成的人每天使用时间超过两小时。

这一数据反映了微博在用户生活中的重要地位。

二、微博的使用目的在调查中,我们发现微博的使用目的多种多样。

首先,用户使用微博来获取新闻和时事信息。

超过七成的受访者表示,他们通过微博了解国内外新闻和热点话题。

其次,微博也被广泛用于社交交流。

接近六成的受访者表示,他们在微博上与朋友、家人和同事保持联系,并分享生活中的点滴。

此外,微博还被用于娱乐和消遣,例如观看搞笑视频、阅读段子等。

三、微博的信息传播特点微博以其独特的信息传播方式而备受瞩目。

调查显示,微博的信息传播速度快、传播范围广。

超过六成的受访者表示,他们曾通过微博了解到一些重要新闻和事件。

微博上的热门话题往往能够在短时间内引发广泛的关注和讨论,这使得微博成为了舆论场的重要一环。

然而,微博的信息传播也存在一些问题。

近三成的受访者认为,微博上的信息真实性不够可靠,存在着夸大、虚假等情况。

此外,微博上的谣言和不实言论也时有发生。

这些问题对于用户的信息获取和判断能力提出了一定的要求,同时也对微博平台的管理和监管提出了挑战。

四、微博对个人和社会的影响微博作为一种新兴的社交媒体平台,对个人和社会产生了深远的影响。

调查结果显示,超过六成的受访者认为微博对他们的生活产生了积极的影响。

他们通过微博结识了新朋友,获得了更多的信息资源,增强了社交能力。

此外,微博还成为了一些人展示自我、宣传个人品牌的平台。

然而,微博的影响也存在一些负面的方面。

有近四成的受访者表示,他们在使用微博时感到压力和焦虑,因为微博上的信息过多、碎片化,需要花费大量时间和精力来筛选和消化。

《2024年我国明星微博的传播效果研究——以新浪微博为例》范文

《2024年我国明星微博的传播效果研究——以新浪微博为例》范文

《我国明星微博的传播效果研究——以新浪微博为例》篇一一、引言随着互联网的快速发展,社交媒体已成为人们获取信息、交流互动的重要平台。

其中,微博作为中国最具代表性的社交媒体之一,凭借其短小精悍的信息内容和广泛的用户基础,吸引了大量明星的入驻。

明星微博不仅为粉丝提供了一个与偶像互动的窗口,同时也成为了传播信息、推广品牌的重要途径。

本文以新浪微博为例,研究我国明星微博的传播效果。

二、研究背景与意义近年来,明星微博的影响力日益增强,其传播效果不仅体现在粉丝数量的增长,更体现在信息传播的速度、广度和深度上。

对明星微博的传播效果进行研究,有助于了解其在社交媒体中的影响力,为明星及企业提供有效的营销策略和传播策略。

同时,也为社交媒体平台的发展提供参考依据。

三、研究方法本研究采用定性和定量相结合的研究方法。

首先,通过文献回顾和案例分析,对明星微博的传播特点进行梳理。

其次,运用问卷调查和数据分析,对明星微博的传播效果进行量化分析。

最后,结合实际案例,对研究结果进行讨论和总结。

四、明星微博的传播特点1. 信息传播速度快:明星微博发布的信息往往能在短时间内被大量转发和评论,迅速传播开来。

2. 互动性强:粉丝可以通过评论、点赞、私信等方式与明星进行互动,形成良好的互动氛围。

3. 内容丰富多样:明星微博内容涉及生活、工作、情感等多个方面,形式多样,包括文字、图片、视频等。

五、明星微博的传播效果分析1. 粉丝数量与传播效果:粉丝数量是衡量明星微博影响力的重要指标之一。

粉丝数量越多,说明其影响力越大,传播效果越好。

2. 转发量与评论量:转发量和评论量是衡量信息传播广度和互动程度的重要指标。

高转发量和评论量说明信息传播广泛,互动程度高,传播效果好。

3. 传播路径与影响力扩散:明星微博的传播路径包括直接传播和间接传播。

直接传播主要通过粉丝与明星的互动实现,间接传播则通过粉丝的转发、评论等行为扩散。

影响力扩散是指明星微博对其他用户和社会的影响程度。

微博的传播特点探索——以新浪微博为例

微博的传播特点探索——以新浪微博为例

微博的传播特点探索——以新浪微博为例日期:2012-11-26 作者:来源:2012年第89期新浪微博,是由新浪推出的微博服务,于2009年8月14日开始内测,目前是中国用户数最多的微博产品。

公众名人用户众多是新浪微博的一大特色,目前基本已经覆盖大部分知名文体明星、企业高管、媒体人士。

紧随时事由于具有快捷的信息发布途经和简单的分享模式,微博成为了发布时事新闻、关注社会动态、讨论社会突发事件必不可少的平台。

任何人都可以将他们在生活中经历的新闻事件发布在微博上,并邀请好友一同分享讨论。

虽然普通民众对于新闻原理的理解不像专业新闻工作者那样专业和敏感,甚至有些事情有失新闻价值,但是这种分享的方式不会被专业领域所挟持。

于是更多的普通民众成为了新闻的第一见证者和第一目击者。

也许正是这种特性的吸引,使得许多传统媒体行业纷纷入驻新浪微博。

传统媒体有更加专业的消息源和新闻撰写者,所以由他们的官方微博发布的新闻更加具有真实性和可读性,其内容非常具有时效性,广泛涉及政治、经济、社会、科技、文化、公益各个领域,吸引着现实社会中不同领域的微博使用者,并受到广泛欢迎。

微博新闻刷新了时事新闻发布和传播的速度纪录,其140个字的篇幅也使得公众对于突发事件更容易理解、更倾向于关注,甚至微博上热点问题的报道一定程度上左右了传统报刊杂志的头版头条。

指点江山,激扬文字笔者发现微博是一个“更加民主”的讨论场所。

许多人在这里自由地“指点江山,激扬文字”,他们针砭时弊,对于社会的未来和改革提出自己的意见,针对重大的社会问题展开热烈的讨论。

在新浪微博中并不缺乏这样的网络名人,如微博用户“草根之怒”“查良钧”,新华社摄影记者唐师曾等,他们来自于社会基层或掌握消息来源,他们目光敏锐贴近百姓,他们的笔锋比韩寒更加犀利,他们对社会的关切程度超乎寻常。

自媒体特点当今的微博平台允许以往的受众进行自我传播而成为自媒体。

自我传播是个体对信息的加工过程,即个体自我进行的思维活动。

微博用户研究报告

微博用户研究报告

微博用户研究报告微博用户研究报告一、研究背景随着互联网的发展,社交媒体平台成为人们重要的交流和获取信息的渠道之一。

微博作为中国最具影响力的社交媒体平台之一,吸引了大量用户的关注和使用。

因此,研究微博用户的行为和特点对于了解社交媒体的影响力和用户需求具有重要意义。

二、研究目的本研究旨在分析微博用户的特点和行为,揭示他们使用微博的目的和偏好,以及影响他们的因素。

三、研究方法本研究采用问卷调查的方式进行数据收集,共有1000名微博用户参与。

问卷包括用户个人信息、微博使用频率、使用目的、关注内容等多个方面的问题。

四、研究结果1. 微博用户特点:根据问卷结果,微博用户的年龄主要集中在18-35岁之间,性别比例相对平衡,大部分用户有高中或本科以上学历。

2. 微博使用频率:大部分用户每天至少使用微博一次,且每天的使用时长超过1小时。

3. 微博使用目的:用户使用微博的主要目的是获取资讯和娱乐,其次是社交交流和表达个人观点。

4. 关注内容:用户关注的内容主要包括娱乐明星、时事热点、生活常识和美食等。

5. 影响因素:用户在选择关注对象时,更注重内容的真实性和可信度,同时也受到朋友圈的推荐和热度的影响。

五、研究结论通过对微博用户的调查和分析,我们得出以下结论:1. 微博已经成为了用户获取资讯和娱乐的重要平台,吸引了广大用户的关注和使用。

2. 微博用户的年龄在年轻人群中占据主导地位,对于年轻人的影响力较大。

3. 用户的微博使用频率较高,表明微博已经成为用户日常生活中不可或缺的一部分。

4. 用户对于微博上的内容真实性和可信度非常关注,对于虚假信息和谣言的传播具有较高的警惕性。

六、研究建议基于以上结论,我们提出以下建议:1. 微博平台应该加强对虚假信息和谣言的审查和管理,提供用户更可信的资讯和内容。

2. 微博用户群体主要为年轻人,可以通过在平台上推广优质内容和活动来吸引更多用户的关注。

3. 微博平台可以通过提供更多的娱乐和社交交流功能来增加用户黏性和使用时长。

微博用户影响力分析研究

微博用户影响力分析研究

Research on User 's Influence in MicrobloggingZhang Xun (Computer Science and Technology)Directed by Liu ZhaohuiAbstract:Socialnetworkingis a multi-functional platform for information exchange, multimedia, and e-commerce. Each user in the social network has the responsibility of sharing and collecting information. Because of the different position of each user in the social network, the influence of information transmission is also different.Microblogging is a typical representative of today's social network, Based on microblogging, the main research work in this paper is as follows:A model of influence evaluation based on user behavior and user information content is proposed.In this model, the measurement of user behavior mainly consists of two parts, that is, the communication frequency between users and the importance of users.The communication frequency between users reflects the users’ will of exchanging information will, is the foundation of information sharing.The importanceof users is composed of two parts,one part is the tightness, it shows the magnitude of the interaction force between users, the other one is betweenness,it indicates the users’ capability of providing the shortest possible routing for another users, the two parts reflect the connectivity of user nodes in the social network.At the same time, the user informationIIIcontent is included in the evaluation model of user influence,the user influence ultimately depends on the degree of communication between users,the greater the flow of information, the greater the impact the user has on the entire micro-blog network structure.The method used in this paper is compared with the PageRank algorithm,UIA algorithm based on PageRank algorithm and user behavior.The PageRank is a classical method to calculate the users’influence,and the UIA algorithm is one of the mature methods to evaluate the user's influencenow. It is proved by experiments that the applicability of the proposed method in this paper.In addition, because the method is simple to operate, it can reduce the operation time and storage cost.Keywords:s ocial network microblogginguser influenceIV目录摘要 (I)Abstract (III)目 录 (V)第1章绪论 (1)1.1研究背景及意义 (1)1.2国内外研究现状 (2)1.2.1 用户影响力研究现状 (5)1.3本文的主要工作 (6)1.4本文组织结构 (7)第2章 相关理论基础 (9)2.1理论基础 (9)2.1.1六度分隔理论 (9)2.1.2 150法则 (11)2.2社交网络的发展 (11)2.3社交网络的组成元素 (13)2.4社交网络的特点 (14)2.5微博社交网络的拓扑结构 (16)2.5.1 图的概述 (16)第3章 用户影响力模型构建 (19)3.1用户行为影响力计算 (19)V3.1.1 信任度问题 (19)3.1.2用户通信频率 (20)3.1.2 用户重要度 (22)3.2用户信息内容 (24)3.2.1相似性产生的信任度 (24)3.3模型构建 (26)第4章 实验及分析 (27)4.1数据获取与计算 (27)4.2实验对比及分析 (34)第5章 总结与展望 (37)5.1本论文的主要工作 (37)5.2进一步的研究工作 (38)参考文献 (41)作者攻读学位期间的科研成果 (47)致 谢 (49)VI第1章绪论1.1 研究背景及意义信息时代的到来给人们的日常生活和生产带来了极大的便利,网络已经无处不在,网民数量也正在大规模增长,有关资料显示[1],2016年我国的网民数量为7.32亿,较2015的增长6.2%。

  1. 1、下载文档前请自行甄别文档内容的完整性,平台不提供额外的编辑、内容补充、找答案等附加服务。
  2. 2、"仅部分预览"的文档,不可在线预览部分如存在完整性等问题,可反馈申请退款(可完整预览的文档不适用该条件!)。
  3. 3、如文档侵犯您的权益,请联系客服反馈,我们会尽快为您处理(人工客服工作时间:9:00-18:30)。
XIANDAI TUSHU QINGBAO JISHU 49
情报分析与研究
容的关联度、情感标签等不同方面的统计分析,并针对 标签推荐服务提出改进建议,从而为用户提供更好的 好友与信息推荐服务。
2 相关研究工作概述
本节主要对标签语义关系、标签的情感分析等相 关研究工作分别进行概述。
( 1) 标签语义关系研究 在社会化标签系统中,标签之间存在一定的隐性 关系。挖掘标签 之 间 的 联 系,有 助 于 更 好 地 理 解 标 签 的语义和用 户 行 为。 一 般 而 言,共 同 标 注 某 一 资 源 的 所有标签都互为共现标签,标签被用户使用标注同一 资源的次数越 多,其 共 现 频 率 越 高,相 关 度 也 就 越 高。 标签的共现关系可以在一定程度上反映出标签之间的 语义关系,如同义关系、层次关系等[1]。 深入到标注过程中,Sinha 认为标注是用户在头脑 中产生各种可以描述某项资源的语义概念,并将这些 语义概念转化为标签赋予该资源的一种分析过程[2,3], Sen 等[4]进一步发现个人意向、社群影响和标签推荐 算法是影响用户标注过程的重要因素。 ( 2) 标签的情感分析研究 用户用 Tag 标记自己感兴趣的东西更加贴近用户 自身的理解和兴趣的表达方式。社会标签也包括很多 主观情感的表达,如果将网络情绪分为“喜悦、愤怒、悲 哀、恐惧、惊慌”等,则 称 为“情 感 分 析 ”,合 称 为“情 感 倾向性 分 析”[5]。Parikh 等[5]、Barbosa 等[6] 和 Davidiv 等[7]均使用机器学习 方 法 训 练 针 对 微 博 的 情 感 分 类 器。其中,Davidiv 等[7] 根 据 微 博 文 本 的 特 点,提 出 微 博的情感符号,将微博文本分为多个情感类,而不仅是 正向情感、负 向 情 感 和 无 情 感。 其 中 情 感 性 标 签 在 词 性上一般为形容词,而与时间和任务相关的标签应选 择名词或名词短语。
( 3) 情感标签的实验数据准备 为了进一步区分标签和了解用户标签与用户发布 的微博内容的关联度,本文对用户标签及微博内容生 成的机器标签分别进行情感标签的统计。其中情感标 签的数据 来 源 为《知 网 》① 情 感 分 析 用 词 词 集,含 正 面 情感词语、负面 情 感 词 语、正 面 评 价 词 语、负 面 评 价 词 语、主张词语和程度级别词语共9 313组中文词语。 通过人工剔除非情感标签的词汇,最终得到与情 感标签匹配的用户标签数为 182,与情感标签匹配的 机器标签数为 289。 3. 4 调研数据格式说明 本文主要采集微博用户描述数据与微博内容数据。 ( 1) 微博用户描述数据 微博用户描述信息主要包括唯一标识信息和基本 描述信息。 唯一标识信息,即用户 ID( UID) ,用户 UID 用于后 台数据管理,在新浪微博中是一个随机生成的 10 位数 字。微博昵称用于用户交流,可以是用户真实姓名,也 可以是个性化的称呼。粉丝数、关注数、微博数、创建时 间和微博认证是用户的活动信息,间接表现了用户的各 种特征,如影响力、活跃程度、兴趣爱好、发言习惯等。 基本描述信息包括: 用户地址、用户标签和性别等 信息,显式地表现了用户的特征,其中用户标签和个人 描述对用户特征的刻画最直接。用户标签是用户自定 义描述自己 职 业、兴 趣 爱 好 等 的 关 键 词。 微 博 用 户 可 以自由选择 词 汇 作 为 其 用 户 标 签。 目 前,在 新 浪 微 博 平台上,每个微博账号最多可以添加 10 个标签。 ( 2) 微博内容数据 微博内容数据从创作上讲,分为原创与非原创; 从 表现形式上讲,分为文字、图片、视频、音乐。微博信息 的组织方式 是 嵌 套 式,方 式 比 较 复 杂。 与 用 户 信 息 一 样,微博信息也有唯一标识符,即微博 ID。微博的内 容限定为 140 字以内,内容简短。
1引言
在微博服务中,微博用户通常根据其职业、兴趣爱好等因素定义一些关键词,这种类型的关键词通常被称为 用户标签( User Tag) 。用户可以自由选择词汇作为其用户标签。用户标签可用于微博好友推荐或微博信息推荐。 目前微博仍处于快速发展阶段,影响力在不断扩大,因此如何更好地利用微博来进行信息推荐服务,具有一定的 研究意义和应用价值。然而,目前关于微博用户标签的研究尚未引起关注,尚缺乏关于微博用户标签与微博内容 关联程度、用户标签语义关系等方面的调查研究。
本文通过以下两种途径获取调研数据: ( 1) 从自然语言处理与信息检索共享平台①下载 NLPIR 微博内容语料库,此微博内容语料库共有 275 823 条微博数据。本文从 NLPIR 微博内容语料库提取 发布微博数大于 100 条的用户所对应的微博数据,共 计 125 个用户。然后再对这些用户进行二次数据筛选 处理,利用用户 ID 进入用户微博主页,查看用户标签, 若该用户标签数小于 4,则删除此用户。通过该方法, 最终从 NLPIR 微博内容语料库获得 59 个用户数据,共 计 64 400 条微博数据。 ( 2) 在新浪微博网络平台上,手动抓取用户的微 博数据。本文制 定 了 一 些 标 准 来 人 工 选 取 用 户 ,如 用 户的影响力、活跃程度、兴趣爱好等。这些标准可以由 用户的粉丝数、关注数、微博数和微博认证等活动信息 间接体现。 通过上述两种途径共采集 100 个微博用户,共计 68 650条微博信息。人均微博数约为 686 条。 3. 3 实验数据准备 ( 1) 用户标签的实验数据准备 获取 100 个微博用户,每个微博用户对应一个 ID, 利用 ID 进入微博主页,采集微博用户的标签。在此数 据准备中,采集用户标签共 825 个,人均标签约 8 个。 ( 2) 机器标签的实验数据准备 对每个 微 博 用 户 发 布 的 微 博 信 息 进 行 关 键 词 提 取。在微博信息的数据准备中,共有 68 650 条微博文 本,对这些微博文本按照用户 ID( UID) 进行汇总,得到 每个用户的微博集合,然后从中提取关键词。 本文利用机器学习的方法从微博集合中提取关键 词,即采用 TextRank 算 法[8],从 博 文 中 提 取 具 有 代 表 性的词语作为博文关键词。TextRank 算法的基本原理 为: 将文本中的词语作为图上的点,根据词语之间的关 系( 如在给定窗口内共现) 作为边,构造词语之间的关 系图,以 PageRank 为基础进行迭代计算,得到每个词 语的 TextRank 值,将得分排在前面的词语作为候选关 键词,还可以依据候选关键词的相邻关系,得到复合关 键词。本文利用开 源 工 具 FudanNLP② 来 提 取 科 学 网
3 调研数据获取
3. 1 调研流程概述 本文以新浪微博为例,进行微博用户标签的调研,
主要步骤为 数 据 获 取、调 研 数 据 分 析。 其 中 数 据 获 取 包括采集微博用户的个人信息及微博内容数据。
调研数据分析主要包括用户信息的统计分析、标 签的语义关系统计分析、用户标签和微博内容的关联
度统计分析、情感标签的统计分析等方面。 3. 2 调研数据获取
本文选择国内最具代表性的微博平台之一———新浪微博作为研究对象,对微博用户标签进行调研。本文采 集 微博用户的用户标签和微博内容数据,利用这些数据进行用 户 特 征 、用 户 标 签 的 语 义 关 系 、用 户 标 签 与 微 博 内
收稿日期: 2012 - 08 - 24 收修改稿日期: 2012 - 10 - 15 * 本文系国家自然科学基金项目“基于可比语料的多语言文本聚类研究”( 项目编号: 70903032) 和中央高校基本科研业务费专项基金项 目“Web 2. 0 环境下多语言标签自动聚类研究”( 项目编号: NUST2011ZDJH15) 的研究成果之一。
表 1 微博用户特征分析
极小值
关注数 2 粉丝数 109 微博数 133
极大值 1 999
16 736 095 38 435
均值 537. 73 867 950. 24 4 799. 90
标准差 527. 852 2 247 765. 8055 7 692. 347
从表 1 中 可 以 看 出,平 均 每 个 用 户 的 关 注 数 是 537. 73,而且关注数呈现正态分布,标准差为 527. 825, 表明在这 100 个用户中绝大多数的用户关注数在 537 左右,已远远超过微博达人的申请标准,即关注数不低 于 100。这 100 个用户中,用户发布微博的平均 值为 4 799. 90。
总第 225 期 2012 年 第 10 期
情报分析与研究
中文微博用户标签的调查分析*
———以新浪微博为例
黄红霞 章成志 ( 南京理工大学信息管理系 南京 210094)
【摘要】以新浪微博为例,采集微博用户的用户标签和微博内容数据,利用这些数据进行用户特征、用户标签的语 义关系、用户标签与微博内容的关联度、情感标签分布等不同方面的调查统计分析。在以上调研基础上,针对标 签推荐服务提出改进建议。 【关键词】社会化标签 微博用户标签 语义标签 标签推荐 【分类号】G353. 1
在 100 个用户中,平均粉丝数为 867 949,粉丝数 的分布情况如表 2 所示:
表 2 微博用户粉丝数分布情况
粉丝数
102 - 103 103 - 104 104 - 105
用户数 25 24 9
粉丝数
105 - 106 106 - 107 107 + +
4 调研数据分析
4. 1 用户特征分析 本文对微博用户的用户信息进行统计,用信息
包括用 户 ID ( UID) 、关 注 数 ( friends _ count) 、粉 丝 数 ( followers_count) 、微博数 ( statuses _count) 。100 个 用 户的关注数、粉丝数、微博数的统计结果如表 1 所示:
① http: / / www. nlpir. org / ② http: / / code. google. com / p / fudannlp /
相关文档
最新文档