微博博主的特征与行为大数据挖掘

合集下载

新媒体数据分析4微博数据分析

新媒体数据分析4微博数据分析

新媒体数据分析-4微博数据分析新媒体数据分析:微博数据分析随着社交媒体的普及,微博已成为中国最重要的社交平台之一。

作为一个新媒体数据分析师,了解并掌握微博数据分析的技巧和方法对于优化营销策略、提升品牌影响力以及加强客户关系至关重要。

本文将介绍微博数据分析的四个方面,包括用户行为分析、舆论分析、热搜分析和数据可视化。

一、用户行为分析微博用户行为分析是通过对用户在微博平台上的活动进行跟踪和分析,以了解用户的兴趣、偏好、活跃度等特征。

以下是进行用户行为分析的一些关键指标:1、活跃天数:统计用户在一段时间内活跃的天数,了解用户的活跃程度。

2、发布微博数:统计用户在一段时间内发布的微博数量,可以反映用户的参与度和积极性。

3、点赞数:统计用户在一段时间内对其他用户微博的点赞数量,可以反映用户对内容的喜好程度。

4、转发数:统计用户在一段时间内对其他用户微博的转发数量,可以反映用户对内容的认可度和传播意愿。

通过分析这些指标,企业可以深入了解目标用户的需求和兴趣,为产品或服务的定位和优化提供依据。

二、舆论分析舆论分析对于企业而言尤为重要。

通过对微博上的话题、热搜和评论进行分析,企业可以及时掌握公众对品牌或产品的态度和反馈。

以下是进行舆论分析的一些关键步骤:1、确定监测话题:根据企业需求,确定需要监测的话题和关键词。

2、数据采集:通过微博开放平台获取相关数据,包括微博内容、评论和互动等。

3、数据清洗:对采集到的数据进行清洗,去除无效数据和重复数据。

4、文本分析:利用自然语言处理技术对数据进行分析,提取关键信息和情感倾向。

通过舆论分析,企业可以迅速发现舆情,及时回应和处理负面评论,同时也可以挖掘潜在的销售或推广机会。

三、热搜分析微博热搜是用户关注度最高的关键词或话题。

通过对热搜进行分析,企业可以了解当前社会的热点话题和公众关注点,为营销策略的制定提供参考。

以下是进行热搜分析的一些关键步骤:1、数据采集:获取微博热搜榜单的数据。

微博博主的特征与行为大数据挖掘

微博博主的特征与行为大数据挖掘

理状态,提出了利用语义分析自 评论数、转发数、提及数和粉丝 的 大 量 研 究 工 作 均 证 实 了 性 格
动评估社交网络用户价值观的方 数来研究用户影响力。
和词汇运用之间存在着决定性
法。价值观作为个性中表明社会
其次,从微观层面来讲,大 的 联 系。 文 献 [10] 分 析 了 参 与
需求和欲望的一个重要方面,在 量研究工作针对社交网络用户行 者 的 大 五 类 (BIG5) 人 格 1 分 数
关注数与粉丝数服从著名的幂律 这些研究的基础上提出了一个行 倾向性分析等。从隐私保护的角
分布 ;文献 [6] 通过构建微博的 为矩阵模型。
度来看,宏观特征反映的是一个
1 人格的大五模式是近
第 10 卷 第 6 期 2014 年 6 月
潜在语义分析进行计算,包括用 活动行为的有机整体。我们结合 及精准营销等领域的研究和应用
36
第 10 卷 第 6 期 2014 年 6 月
都有着深刻的意义。
转发树来研究用户影响力 ;文献
最 后, 从 语 义 理 解 层 面 来
最 后, 我 们 针 对 用 户 的 心 [7] 通过综合考虑用户的发帖数、 讲, 语 言 心 理 学 和 计 算 文 体 学
电子商务、社交网络、组织行为 为分析展开。研究发现,针对特 与 LIWC2001(Linguistic Inquiry
分析以及舆情监控和预测等多个 殊政客或政党的积极和消极情绪 and Word Count,语言获得和词
领域得到广泛应用。传统的价值 的用词数量,在推客 (tweet) 的 汇计数)中预定义词汇在个人言
● 哪些地区拥有最大的用户 密度?
● 男性用户与女性用户之间有 什么关系?

微博用户行为及其分析方法

微博用户行为及其分析方法

微博用户行为及其分析方法随着社交网络的兴起,微博已经成为了很多人日常生活中不可或缺的一部分。

作为一种虚拟社交工具,微博用户行为的研究已经成为了社会学、心理学、传播学、计算机科学等领域的研究热点。

本文将对微博用户行为及其分析方法进行综述。

一、微博用户行为的特点1、短小精干的表达方式微博用户的信息表达方式主要以短小精干的形式为主,这种表达方式比较容易被用户接受和传播,也符合现代人们追求快捷、简单、直接的表达方式,因此在社交网络中具有广泛的应用。

2、关注社会热点事件微博用户喜欢关注社会热点事件,这种行为不仅可以扩大自己的社交圈,还可以获取最新的信息和观点,从而更好地参与社交活动和社会事件。

3、交流互动和社交微博用户更喜欢在互动和社交方面进行行为,不仅可以增强自己在社交网络中的影响力,还可以互相借鉴、反思、分享各种知识和社会经验。

二、微博用户行为的分析方法1、社会网络分析社会网络分析是一种基于“节点”和“连边”理论的分析方法,它主要研究人与人之间的各种社交行为,包括信息传播、影响力分析、社交群落的发现和演化规律等。

2、文本分析文本分析是一种通过计算机技术对文本信息进行挖掘和分析的方法,它涉及到自然语言处理、信息检索、数据挖掘等领域,在微博用户行为分析中,文本分析主要用来分析微博用户的话题、情感和用户行为等方面。

3、空间分析空间分析是一种基于地理信息系统技术的分析方法,它可以将微博用户在社交网络中的行为与地理位置信息结合起来,探索用户的社交活动区域、影响范围、人口分布等方面的规律。

三、微博用户行为分析的应用1、舆情监测微博用户行为分析可以帮助政府、企业、媒体等部门对公众舆情进行监测、预警和应对,发现和解决重大社会事件,维护社会稳定和民生和谐。

2、粉丝分析微博用户行为分析可以帮助新媒体账号的管理者了解其粉丝的属性、兴趣和行为等方面,从而更好地制定运营策略,增加用户黏度和社交影响力。

3、市场分析微博用户行为分析可以帮助企业了解消费者的购买行为、偏好和需求等方面的信息,从而制定更精准的营销策略,提高市场竞争力。

针对微博用户信息的数据挖掘分析

针对微博用户信息的数据挖掘分析

针对微博用户信息的数据挖掘分析数据挖掘什么是数据挖掘?百度百科上定义,数据挖掘是“一种透过数理模式来分析企业内储存的大量资料,以找出不同的客户或市场划分,分析出消费者喜好和行为的方法”。

简单来说,就是通过一定的分析,找出大量的数据中隐藏的一些特殊的相关性或者规律,并由这些规律挖掘出一些事物的特性。

数据挖掘被广泛运用于企业的运营和发展中,企业常常通过对源自客户的大量的数据的分析,以获取客户的特性,由此尽可能应和客户的需求,从而能够在市场上博取更多消费者的青睐,以更具竞争力。

分类分析、聚类分析和关联分析是数据挖掘的三大主要任务。

在本项目中,重点运用到了聚类分析,并辅以关联分析。

聚类分析主要任务是确立某一个对象属性作为标准(如空间坐标、时间等),然后根据数据对象在该属性上的相近程度或密集程度,将数据对象分成不同的簇,使得相比之下在同一个簇中的对象具有很高的相似性,并由此导出规则;而关联分析则是根据对象的属性,得出对象与其他对象之间隐含的关联,并得出规律,以便达到以下目的:给出某一个对象的某一种属性,便可知道该种情况包含了其他哪些对象的哪些属性。

聚类和关联分析在文章接下来会有更加详细的描述异常分析、特异群组分析和演变分析是数据挖掘的另外三大任务,在这里我们不作详细描述。

微博数据分析网络社交平台已经是现代人的生活中不可缺少的一部分,脸书、推特、人人、QQ、微博、微信等等类似的社交平台层出不穷,而这样的社交平台中无疑蕴含着大量的信息。

企业可以分析这些数据,大致提取出用户的特征和生活规律,了解客户的需求,以便更好的利用这个平台,扩展业务,从而获取更大的盈利。

对这些企业来说,这无疑是一个巨大的商机。

本项目的工作“基于空间轨迹和发博特点的微博用户特征数据分析”的主要任务是通过分析微博用户所发过的大量的微博中的时间及空间坐标,来得出用户的工作地/居住地、活动性、消费水平(消费偏好)、职业、亲子状况(孩子年龄)等特征及偏好,并最终提取出上述各种属性的关系,运用关联分析勾画出该用户的立体形象。

基于数据挖掘的微博人气用户特征分析与研究

基于数据挖掘的微博人气用户特征分析与研究

基于数据挖掘的微博人气用户特征分析与研究摘要:通过网络爬虫从新浪微博站点上爬取人气百强用户信息数据,利用clementine软件的c5.0决策树模型对这些数据进行分析。

结果表明:人气用户中,娱乐明星占据着大部分,并且微博中的名人具有关注数小,被关注数大的特征。

名人效应非常显著,“非著名话唠”想要引起大家的观注依然困难。

关键词:微博;决策树;用户分析;名人效应中国分类号:tp39 文献标识码:a文章编号10053824(2013)010017020 引言微博在中国开始以不可思议的速度流行起来,并在人们的生活中扮演着越来越重要的角色,它逐渐地改变着人们的生活、思想、行为以及我们的社会文化。

针对这些变化,越来越多的专家学者将目光转向微博,开始对其特点、传播模式以及用户群展开分析研究。

目前,新浪微博用户数已超过1亿。

仅仅两年时间,新浪微博就为新浪生下了一个价值几十亿美金的“金蛋”。

那么新浪微博的用户群包括哪些人?他们当中的人气用户都是来自哪些行业?他们的空间分布又有什么特征?这些人群通过微博主要是为了了解信息,还是朋友交流?为什么他们会受到这么多的关注?给我们的社会带来什么启示?本文以新浪微博为研究对象,提取前100名人气用户数据作为分析数据,通过分析分类,挖掘用户行为特征、空间分布以及圈层特征等,找出这些问题的答案。

了解微博在社会中的作用,了解“微博人”的真实想法和思想认识,将有助于社会和相关部门更好地把控微博的舆论方向,对建设和谐社会有着积极的意义[15]。

1 研究设计1.1 样本来源研究所需的样本数据利用爬虫工具通过微博站点开放的api获取。

获取的微博人气用户数据信息主要包括:昵称、性别、地址、描述、被关注数、关注数以及微文数等属性,并以这些数据作为用户特征分析挖掘的基础。

1.2 研究方法和思路利用c5.0算法,根据用户的名人标识以及其他用户信息,分析名人的用户特征。

c5.0算法是决策树模型的经典算法之一,它的基本思想是利用信息论原理对大量样本的属性进行分析和归纳而产生树的结构或规则,其目的是使系统的熵最小,以提高算法的运算速度和精确度[67]。

微博用户行为特征分析及预测研究

微博用户行为特征分析及预测研究

微博用户行为特征分析及预测研究微博作为中国最早的微型博客,已经成为了人们生活中不可或缺的一部分。

亿万的用户在这个平台上留下了无数的足迹,形成了一个庞大的社群。

然而,这个巨大的社群里面存在了各种各样的现象和行为特征。

本文就将对微博用户的行为特征进行分析,并提出一些预测研究。

一、微博用户的年龄结构首先,我们来看微博用户的年龄结构。

从数据上看,微博用户的年龄结构呈现出明显的年轻化趋势。

在微博上,90后和00后已成为了主体用户。

这些年轻人习惯用这种方式表达自己的生活态度和情感,分享自己的生活和看法,通过微博来与其他人交流互动。

二、微博用户的性别结构其次,我们来看微博用户的性别结构。

对比分析数据可以发现,微博上的女性用户比男性用户更加活跃。

在娱乐、美食、时尚等领域女性用户的影响力尤为显著。

此外,在社会话题的讨论中,女性用户也表现出了更多的关注度和热情。

三、微博用户的行为特征微博用户的行为特征是多样的,下面就对一些典型的行为特征进行简要分析。

1. 转发行为:转发是微博用户最常见的行为之一。

转发可以使用户将有价值的内容分享给自己的粉丝,同时也可以帮助用户自我展示。

许多用户将转发作为与其他用户交流的一种方式,通过转发互动来增加影响力。

2. 点赞行为:点赞在微博上同样也是非常常见的。

用户点赞可以表明对某一内容的认可或者情感上的共鸣,并且可以为被点赞的用户增加一定的曝光度。

同时,一些用户也会将点赞作为与他人交流的一种方式,表达一种良好的社交礼仪。

3. 评论行为:评论是微博中非常重要的一个环节。

用户在评论中可以表达自己对于某一内容的看法和感受,同时也可以通过评论增加自己的曝光度。

评论也可以为其他人提供很多有价值的信息和反馈。

四、微博用户行为的影响因素微博用户的行为是受许多因素影响的,关注这些影响因素可以帮助我们更好地理解微博用户的行为特征。

1. 社交因素:微博是一个社交平台,用户的行为活动与其社交关系是密不可分的。

社交关系在微博上发挥着至关重要的作用,它可以使用户更容易得到他人的关注和交流,并且可以增加用户的网络影响力。

微博数据挖掘的方法及其应用

微博数据挖掘的方法及其应用

微博数据挖掘的方法及其应用微博是中国最大的社交媒体平台之一,拥有着数亿的用户,每天都有数以亿计的消息在微博上进行传播。

这些数据中蕴藏着丰富的信息,因而微博数据挖掘逐渐成为了一个热门话题。

本文将介绍微博数据挖掘的方法及其应用,并探讨这一领域的发展潜力。

一、微博数据挖掘的方法微博数据挖掘主要涉及文本挖掘、网络分析、情感分析等多个方面。

下面将对这些方面的方法进行详细介绍。

1. 文本挖掘文本挖掘主要涉及文本的提取、清洗、分词、去噪、特征提取等操作,以便对文本数据进行分析和分类。

在微博数据挖掘中,文本挖掘可以用来识别话题、发现事件、分析情感等。

例如,可以通过对微博文本进行关键词提取等操作,来找出与特定话题相关的微博。

2. 网络分析网络分析主要涉及社交网络的构建、社交网络中信息的传播、节点的重要性等方面的研究。

在微博中,网络分析可以用来分析用户之间的互动关系、发现社交网络中的影响者等。

例如,在一个社交网络中,影响力比较高的用户可能会更容易将某个话题传播出去,因而这些用户在分析中可能会受到更多的关注。

3. 情感分析情感分析主要涉及人类情感的识别、分类、理解等方面的研究。

在微博数据挖掘中,情感分析可以用来探测微博用户对某个话题的情感倾向,从而得出对话题的态度和立场。

例如,可以通过对微博文本中表达情感的词汇进行提取和分析,来判断用户对某个话题的喜欢程度或厌恶程度。

二、微博数据挖掘的应用微博数据挖掘可以应用于多个领域,这里列举了几个主要应用领域。

1. 舆情分析舆情分析可以通过对微博数据进行挖掘和分析,来了解民众对某个话题的反应和态度。

例如,可以通过对特定事件相关的微博进行分析,来了解事件的发展趋势和舆情变化。

这种分析可以帮助政府、企业和个人及时了解公众的反应,并做出相应的决策和应对措施。

2. 社交网络分析社交网络分析可以通过对微博社交网络的分析,来了解用户之间的互动关系和影响力等。

这种分析可以帮助企业或组织找到合适的影响者进行宣传,并更加精确地推广和营销产品,提高社交网络媒体的效益。

新媒体数据分析-4微博数据分析

新媒体数据分析-4微博数据分析

新媒体数据分析-4微博数据分析新媒体数据分析 4 微博数据分析在当今数字化的时代,微博作为一个极具影响力的社交媒体平台,拥有着庞大的用户群体和海量的信息。

对于企业、品牌、自媒体等各类主体而言,深入了解和分析微博数据至关重要。

通过对微博数据的挖掘和分析,我们能够洞察用户行为、把握市场趋势、评估传播效果,从而制定更具针对性和有效性的营销策略。

接下来,让我们一起深入探讨微博数据分析的关键方面。

首先,我们来谈谈微博数据的来源。

微博提供了丰富的数据接口,包括但不限于粉丝数据、微博内容数据、互动数据(如点赞、评论、转发)等。

这些数据可以通过微博的官方后台管理工具、第三方数据分析平台或者自己开发的数据抓取程序来获取。

然而,在获取数据的过程中,需要遵守相关的法律法规和平台规定,确保数据的合法性和安全性。

粉丝数据是微博数据分析的重要组成部分。

我们可以了解到粉丝的数量、增长趋势、地域分布、年龄性别构成等信息。

粉丝数量的增长情况反映了账号的吸引力和影响力的变化。

而粉丝的地域分布和年龄性别构成则有助于我们更好地了解目标受众的特征,从而制定更符合他们需求的内容策略。

微博内容数据则包括发布的微博的文本、图片、视频等元素。

通过对微博文本的分析,我们可以运用自然语言处理技术,提取关键词、主题和情感倾向。

比如,通过分析用户对某一产品或服务的评价关键词,了解用户的关注点和满意度;通过情感倾向分析,判断用户对相关话题的态度是积极、消极还是中性。

此外,图片和视频的受欢迎程度也能为我们的内容创作提供参考,比如哪种类型的图片更容易吸引用户的注意力,哪种视频风格更能引发用户的互动。

互动数据是衡量微博传播效果的关键指标。

点赞数、评论数和转发数直接反映了用户对微博内容的参与度和兴趣程度。

高点赞、高评论和高转发的微博通常意味着其具有较高的话题性和传播价值。

我们可以进一步分析这些互动数据的来源,即哪些用户群体更倾向于参与互动,从而更好地优化我们的内容和互动策略。

  1. 1、下载文档前请自行甄别文档内容的完整性,平台不提供额外的编辑、内容补充、找答案等附加服务。
  2. 2、"仅部分预览"的文档,不可在线预览部分如存在完整性等问题,可反馈申请退款(可完整预览的文档不适用该条件!)。
  3. 3、如文档侵犯您的权益,请联系客服反馈,我们会尽快为您处理(人工客服工作时间:9:00-18:30)。

丝数、关注数、博客地址、教育 经历,仅占所有用户中的 3.8%。 微博数-人数分析
经历以及认证等级。
但在这些用户中,近 83.2% 的用
我们通过对数据集中发微博
基本统计特征分析
户拥有本科或者研究生学历。同 数所对应的人数进行统计,绘制
在基本统计特征分析中,我 们着重研究了地理分析、性别分 析、教育和年龄分析三个指标, 从中获得了以下问题的答案 :
观评估采用基于量表的调查问卷 转发率之间存在正相关关系。此 论中出现词频的相关性,发现二
方式,时间和经济成本较高。本 外,研究者还调查了在政治选举 者存在明显的联系。文献 [11] 利
文利用价值观和词语运用之间的 这一特殊时期有关政治的讨论 用朴素贝叶斯 (Naïve Bayes) 分
语言学联系,根据用户发表在社 是如何在那些活跃的有影响力的 类器对博客用户进行自我状态量
y = 1.9771x + 19.y0=4 y18=519855.97766x300.5122.68x 1.9771
ln(用户数)
12
10
8
6
4
2
0
0
2
4
6
8
10
12
ln(微博数)
图3 微博数和人数对数关系
y = 185766301.8xy1.=9771 1.9771x + 19.04
分 布 (2),[494, 613070] 符 合y =幂1I8n5fl7u6e6n3c0e其1( .8中)x=,1.(97f7o1 llowers 是用•户fo的llo粉wing) / posts
了社交网络的大数据环境。针对 指从整体上来认识客观世界,快 户意图做了深入研究。
社交网络大数据的统计分析和数 速计算大数据的宏观特征与结
其次,针对用户的行为信息,
据挖掘方法成为了商业应用或科 构,是整体认识客观世界快速而 从微观层面入手,从社交网络用
学研究重要工具之一。与此同时, 又有效的方法 ;见微是指在宏观 户的行为(原创微博、转发微博、
户在现实生活中的作息规律、行 属性,采用面向用户群体的宏观 用于描述微博用户的行为活动,
为轨迹并进一步构成了用户的行 特征分析。在此,我们提出一种 并设计了行为矩阵分析法,这对
为特征。三是用户的精神特征属 “微博生态系统”,即一个包含微 加深对用户行为的理解,对于好
性,此类信息可通过用户言论的 博用户、用户发帖以及用户其他 友推荐、身份推理、群体分析以
虽然也有一些对微博行为规律的 计中所用词汇并不适用于社交网
相关工作
研究,但是主要仍停留在对整体 络的口语化语言环境。 数据的统计分析及建模阶段。如:
首 先, 宏 观 层 面 的 隐 私 挖 掘和保护最先成为社会关注的热 点。文献 [4] 研究了脸谱和推特
易兰丽揭示用户微博信息转发评 论行为的统计特征并构建理论模 型 [9]。此外,研究表明转发评论
我 们 采 用 函 数 回 归 的 方 法,
用户 )。数据集中包含多个字段,
受教育与年龄分布的统计结 对微博数、粉丝数以及关注数三
例如微博 ID、性别、昵称、生日、 果如图 2 所示。在我们的数据集 个数值特征进行分析,得出其拟
地区、自我介绍、发微博数、粉 中,大约有 66.2 万人填写了教育 合函数。
交网络上的公开言论自动对其进 用户之间进行的。与此同时,文 表 (Egogram) 性格分类预测,取
行价值观评估,从而掌握用户的 献 [4] 对新浪微博和推特上的用 得了较好的成效。IBM 数据分析
行为偏好及社会需求。
户行为进行了比较,研究了访问 师米歇尔·凯利 (Michael Kelley)
社 交 网 络 中 大 量 公 开 的 个 方式和用户的写作风格和文本特 在报告中指出,可以通过 200 条
动互联网上的快速发展,社交网 在的心理状态。
征分析、数字化特征分析以及文
络用户的大量个人信息在互联网
在大数据应对的认识论与方 本特征分析,进而充分掌握新浪
上公开,原本碎片化的信息在大 法论方面,我们提出“知著、见微、 微博用户的各种宏观信息,据此
数据环境下被整合,并由此形成 晓意”的论点 [1],其中 :知著是 构建了用户影响力模型,并对用
人数据为上述三种分析提供了 征,比较了两个平台上的话题和 推特,分析得到人的需求、大五
相对便利的条件。本文以新浪 情感极性 ;最后还调查研究了微 类性格特征以及价值观,不过该
微博为例,通过数据抓取、模 博用户行为的时间动态模型,例 报告并未给出具体的分析方法。
型 分 析 以 及 实 例 研 究 等 方 法, 如用户兴趣随时间变化的情况。 一项基于安然 (Enron) 邮件数据
电子商务、社交网络、组织行为 为分析展开。研究发现,针对特 与 LIWC2001(Linguistic Inquiry
分析以及舆情监控和预测等多个 殊政客或政党的积极和消极情绪 and Word Count,语言获得和词
领域得到广泛应用。传统的价值 的用词数量,在推客 (tweet) 的 汇计数)中预定义词汇在个人言
往认为的接近 1 :1。出现这种现 人更易于接受新鲜事物。
分析所用的数据集采集自新 浪,经过大量筛选处理,清洗后 的数据规模为 1700 万 ( 摒除大量
象的主要原因可能是男女用户Fra bibliotek 业的差异性使得女性能够在微博 上花费更多的时间。
数值化特征分析及影响 力模型
机器自动生成的僵尸用户及休眠 受教育与年龄分析
90 80 70 60 50 40 30 20 10
0
79 71 56 33 21 19 16 15 14 14 11 10 8.9 8.8 8.6 7.9 7.8 6.5 5.8 5.6 5.5 5.4 5.3 5.1 4.9 4.7 4.4 4.4 4.4 4.2 4.2 4.1 4 3.9 11
可以用来在现实生活中对社交网 网络大数据的挖掘工作,从隐私 要是限于写作风格和文本特征,
络用户进行定位。二是用户的行 挖掘的角度来看社交网络隐私的 对其中某个客观因素的研究,以
为属性,包括发帖、转发、评论 保护。
及简单的统计研究等。基于上述
关注的时间和频率等,反映了用
首先,针对用户的基本社会 问题,我们提出了行为矩阵模型,
0.00%
用户 累积百分率
图2 受教育与年龄分布图
38
y = 0.5226x + 9.8307
y = 0.5226x + 9.8307y = 18595.第97 1x00 卷.522 6 第 6 期 2014 年 6 月 y = 18595.97 x y 0.5226= y0=.5212.697x7+19x.+831097.04
理状态,提出了利用语义分析自 评论数、转发数、提及数和粉丝 的 大 量 研 究 工 作 均 证 实 了 性 格
动评估社交网络用户价值观的方 数来研究用户影响力。
和词汇运用之间存在着决定性
法。价值观作为个性中表明社会
其次,从微观层面来讲,大 的 联 系。 文 献 [10] 分 析 了 参 与
需求和欲望的一个重要方面,在 量研究工作针对社交网络用户行 者 的 大 五 类 (BIG5) 人 格 1 分 数
图1 用户密度分布图
450000 400000 350000
用 300000 户 250000
200000 150000 100000
50000 0
0-10 11-20 21-30 31-40 41-50 51-60 61-
年龄
100.00%
80.00% 累 积
60.00% 百 分
40.00% 率
20.00%
宏观特征大数据挖掘
本节主要研究在宏观角度
(Twitter) 的基本统计分布,包括 数与粉丝数关系密切,粉丝数越 下对新浪微博隐私挖掘的分析结
用户的地理、性别、种族分布等; 多的用户发布的微博信息更容易 果,其中重点包括微博数据基本
文献 [5] 发现社交网络中用户的 吸引大量的转发和评论。我们在 统计信息、数值特征分析、用户
大数据的挖掘能力也威胁到了用 结构指导下,有针对性地研究有 关注微博用户、发表评论等)中
户的个人隐私保护。
代表性的微观数据,这里并不需 提取特定的行为模式 [3]。研究表
目前,按照隐私内容,社交 要对每一个微观都进行计算 ;晓 明,微博用户的群体行为表现出
网络的隐私及保护问题可分为三 意是指大数据语言内容的含义, 两段阶梯幂率分布的规律。但由
类 :一是用户基本属性、身份及 是语义的理解与认知,属于自然 于用户行为记录的不规律性与随
社会关系信息,包括真实姓名、 语言理解的范畴。本文将从“知 意性,加上其受制于用户本人的
性别、年龄、所属机构、好友关 著、见微、晓意”这三个维度展 习惯、生活、学习或工作等客观
系以及社会影响力等,这些信息 现针对上述三类用户隐私的社交 因素,个体行为的研究目前还主
潜在语义分析进行计算,包括用 活动行为的有机整体。我们结合 及精准营销等领域的研究和应用
36
第 10 卷 第 6 期 2014 年 6 月
都有着深刻的意义。
转发树来研究用户影响力 ;文献
最 后, 从 语 义 理 解 层 面 来
最 后, 我 们 针 对 用 户 的 心 [7] 通过综合考虑用户的发帖数、 讲, 语 言 心 理 学 和 计 算 文 体 学
国家在线社交网络的总体特点。
性别分布分析的结果显示, 时, 从 年 龄 分 布 上 来 看, 从 21
从国家安全的角度来看,超大规 新浪微博中女性用户达到 55%, 岁到 40 岁的用户约占所有用户
模人群的各类统计数据存在宏观 男性用户则只占 45%,并非像以 的 75%。这些数据充分说明年轻
相关文档
最新文档