基于社会网络和文本挖掘技术的微博分析

基于社会网络和文本挖掘技术的微博分析
基于社会网络和文本挖掘技术的微博分析

基于社会网络和文本挖掘技术的微博分析通过该案例,我们将会学习如何对微博数据进行分析。将要学习和掌握的技术有文本挖掘技术、社会网络分析技术、集成R算法的能力、基于矩阵的层次聚类算法等。在学习该案例前首先需要了解以下基本概念。

什么是社会网络?

●社会网络是指社会行动者及其间的关系的集合。也可以说,一个社会网

络是由多个点(社会行动者)和各点之间的连线(行动者之间的关系)

组成的集合。用点和线来表达网络,这个是社会网络的形式化界定。

●这里的行动者不但指具体的个人,还可指一个群体、公司或其他集体性

的社会单位。每个行动者在网络中的位置被称为“结点(node)”。

行动者之间常见的关系:

●亲属关系:父母、子女、夫妻关系等。

●正式关系(权威关系):正式角色也是关系性的,如老板/职员、教师/

学生、医生/病人关系等。

●个人之间的评价关系:喜欢、信任、尊重等。

●行为上的互动关系:行动者之间的自然交往,如谈话、参加会议、拜访、

提建议等。

●隶属关系:如参加一项协会、属于某些俱乐部等。

●物质资本的传递:商业往来、物资交流。

●非物质资源的转换关系:行动者之间的交往、信息的交换等。

●空间关联:城市之间的关系,迁入和迁出。

●职位的升迁,地位的流动。

社会网络的形式化表达:

社群图:用于表示一个群体成员之间的关系,由点和线连成的图。根据不同的标准,社群图的种类也不同。

●有向图、无向图:根据关系的方向进行划分。

●二值图、符号图、赋值图:根据关系紧密的“程度”进行划分。

●完备图、非完备图:根据网络中各个成员之间联系的紧密度进行划分。

如果一个图中的任何两点之间都相连,则称为完备图,否则为非完备图。

完备图很少见,一般图都是非完备图。

●矩阵:矩阵中的行与列都代表“社会行动者”,即图中的各点。行与列

对应的要素代表的就是各个行动者之间的“关系”。

有向图和无向图:

无向关系:行动者之间的关系没有方向,如参加会议、交流等。无向图仅仅表明重要关系的存在与否。无向图对应的矩阵通常是对称的。

有向关系:行动者之间的关系是有方向的,如借款关系、权力关系等。有向图矩阵通常是不对称的,因为关系通常不是对称的。

二值图、符号图、赋值图:

二值图:如果一种关系的选择项仅有两个:是或不是,在画图的时候,仅仅利用箭头线就可以表示这种二择一的关系,根据这种资料得到的网络图叫做二值图。

符号图:如果我们关注的问题的问题为行动者之间的关系是好、无关系还是不好,我们可以用“+”表示关系好,“0”表示无关系,“-”表示关系不好。根据这种资料得到的网络图叫做符号图。在这类途中,我们可以再箭头上标注相应的符号来表示关系的好坏。

赋值图:如果关系的强度很重要并且可以用一定的数值来表达的话,可以据此构建一个赋值图,把一定的数值赋予每条线上。

邻接矩阵:在社会网络分析中,最常使用的一类矩阵是正方阵,在此方阵中,行和列都代表完全相同的社会行动者,并且行和列排列的顺序相同,矩阵的中的元素可以代表行动者之间的关系或者关系的强度,这样的矩阵称为邻接矩阵。

朋友关系:

亲近关系:

线路与途径:

各个点可以通过一条线直接相连,也可以通过一系列线间接相连。在一个图中的这一系列线就叫做一条“线路”。如果线路中的每个点和每条线都各不相同,则称该线路为“途径”。如1-2-3-1-2-7-1-7-8是一条线路,1-2-3-4-5-6-7-8是一条路径。

长度和距离:

一个途径的长度用构成该途径的线的条数来测量。如途径1-4-5-6的长度为3。

两点之间的距离指的是连接这两点的最短途径的长度,如点1和6之间有很多途径,其最短途径1-6的长度为1,故1与6之间的距离为1。

距离矩阵:

社会网络分析相关的概念

与“关联性”有关的概念:

子图:一个图G的子图Gs的定义是,Gs中的点集(记作Ns )是G的点集(N)的一个子集,并且Gs中的线集(Ls )也是G的线集(L)的一个子集,Gs中的所有线也必须是在G中的所有点之间的线。

关联图和成分:对于一个图来说,如果其中的任何两点之间都存在一个途径(Path),则称这两点是相互可达的,称该图时关联图(connected graph)。也就是说,关联图中的任何两点之间都是可达的。如果一个图不是关联的,就称之为“不关联图”。一个“不关联图”,可以分为两个或者多个子图,我们称之为关联子图。一个图中的各个关联子图都叫做“成分”(components),它是最大的关联子图。也就是说,“成分”内部的任何点之间都存在途径。但是,成分内部的一点与任何外在于该成分的点之间都不存在任何途径。一个关联图仅仅由一个单一成分构成。其他图主要由一个或多个独立的成分以及一系列孤立点构成。

上图中共包含4个成分:2个关联成分和2个孤立成分。

切割点:切割点是指如果去掉这个点,就会增加成分数目的点。没有切割点,子图就会分为两个或多个独立的子群,并且各个子群之间无关联。

与“距离”有关的概念

点的度数:与某点相邻的那些点称为该点的“邻点”(neighborhood),一个点n i的邻点的个数称为该点的“度数”(nodaldegree),记作d(n i),也叫关联度(degree of connection)。一个点的度数就是对其“邻点”多少的测量。实际上,一个点的度数也是与该点相连的线的条数。如果一个点的度数为0,称之为“孤立点”(isolate)。在一个有向图中,必须考察线的方向。因此,一点的“度数”包括两类,分别称为“点入度”(in-degree)和“点出度”(out-degree)。一个点的点入度指的是直接指向该点的点的总数;点出度指的是该点所直接指向的点的总数。

点5的度数为:4,点10的度数为:2,点8的点数为:1

测地线、距离和直径:在给定的两点之间可能存在长短不一的多条途径。两

点之间的长度最短的途径叫做测地线。如果两点之间存在多条最短途径,则这两个点之间存在多条测地线。两点之间的测地线的长度叫做测地线距离,简称为“距离”(distance)。也就是说,两点之间的距离指的是连接这两点的最短途径的长度。一个图一般有多条测地线,其长度也不一样。我们把图中最长测地线的长度叫做图的直径。如果一个图是关联图,那么其直径可以测定。如果图不是关联的,那么有的点对之间的距离就没有界定,或者说距离无穷大。在这种情况下,图的直径也是无定义的。

密度:密度指的是一个图中各个点之间联络的紧密程度。固定规模的点之间的连线越多,该图的密度就越大。

密度的测量:在无向图中,密度用图中实际拥有的连线数l与最多可能存在的连线总数之比来表示,即密度=2l/n(n-1)。在有向图中,有向图所能包含的最大连线数恰恰等于它所包含的总对数,即n(n-1),密度=l/n(n-1)(n表示图的规模,即该图一共有n个点)。

农忙季节农户之间互帮互助的关系网络图:

这两个村庄,哪个村庄更容易存活呢?当然村庄2。

平均距离:平均距离(Average Distance)代表了网络中所有成员到达其他成员的平均最短距离。平均距离越大则说明该网络的节点间跨度越大,凝聚性较

低。

与“中心性”有关的概念

“中心性”的研究意义:“权力”在社会学中是一个非常重要的概念。一个人之所以拥有权力,是因为他与他者存在关系,可以影响他人。在一个群体中,我们如何去界定某个人的权利大小?社会网络学者就从“关系”的角度出发,用“中心性”来定量研究权力。人或者组织在社会网络中具有怎样的权力,或者说居于怎样的中心地位,这一思想是社会网络分析者最早探讨的内容之一。

点度中心度:刻画的是行动者的局部中心指数,测量网络中行动者自身的交易能力,没有考虑到能否控制他人

中间中心度:研究一个行动者在多大程度上居于其他两个行动者之间,因而是一种“控制能力”指数

接近中心度:考虑的是行动者在多大程度上不受其他行动者的控制

与“凝聚子群”有关的概念

大体上说,凝聚子群是满足如下条件的行动者子集合,即在此集合中的行动者之间具有相对较强的、直接的、紧密的、经常的或者积极的联系。

研究意义:通过对社会网络的凝聚子群的分析,可揭示社会结构,量化结构。

派系:在一个图中,“派系”指的是至少包含三个点的最大完备子图。

派系的成员至少包含三个点;

派系是“完备”的,即其中任何两点之间都是直接相关,都是邻接的;

派系是“最大”的,其含义是,我们不能向其中加入新的点,否则将改变“完备”这个性质。

对社会网络分析的基本概念有所了解后,下面我们开始学习这个案例。工作

流如下:

1)商业目标

业务理解:数据名称《中国最强音微博.csv》。该案例所用的数据是中国最强音官方微博数据。其中,字段包括Author、Weibo、Forward、Time_Weibo、Time_Search、Count_Reply。如下:

表1:数据视图

业务目标:寻找意见领袖,为自媒体传播提供参考,另外还要对语义进行聚

类,挖掘特征相似用户群体。

数据挖掘目标:建立社会网络图,挖掘意见领袖和微博传播路径,再使用聚类算法对语义进行聚类。

2)数据准备

第一步,使用可变文件节点读取数据,配置如下:

注意,由于MID字段为数值型,且太长,因此这里默认以科学计数法的方式表示,如果想改为正常显示,则可以单击字段名称,弹出一个更改字段类型的对话框,如上图所示,将类型改为String类型即可。更改后如下图所示:

第二步,使用R代码段节点,借助R的编程能力利用关键字提取提及的微

博用户。代码如下:

smartmining.out<- smartmining.in

library(data.table)

library(stringr)

At<-str_extract_all(smartmining.in$"Weibo","@\\b\\w*\\b")

textnumber = rep(1:nrow(summary(At)),as.numeric(summary(At)[,1]))

smartmining.out<-data.frame(提及用户=unlist(At),句子=textnumber)

节点配置如下:

第三步,使用汇总节点,以句子为组,以提及用户为选项建立列表。节点配置如下:

第四步,使用Apriori节点通过关联分析算法训练规则。节点配置如下:

计算生成的结果如下:

前项和后项

关联规则是形如X→Y的蕴涵式,其中,X和Y分别称为前项和后项。其中,关联规则XY,存在支持度和置信度。

假设

是项的集合。给定一个交易数据库D,其中每个事务(Transaction)t是I的非

空子集,即,每一个交易都与一个唯一的标识符TID(Transaction ID)对应。关联规则在D中的支持度(support)是D中事务同时包含X、Y的百分比,即概率;置信度(confidence)是D中事务已经包含X的情况下,包含Y的百分比,即条件概率。如果满足最小支持度阈值和最小置信度阈值,则认为关联规则是有趣的。这些阈值是根据挖掘需要人为设定。

第五步,派生规则质量字段。我们定义规则质量=支持度*规则置信度,配置如下:

第六步,对前项和规则质量字段按照降序进行二重排序。配置如下:

第七步,筛选规则质量在20以上的记录。配置如下:

第八步,使用Java代码段节点派生边id字段。

经过以上八步处理结果如下表所示:

3)意见领袖挖掘

接下来,开始挖掘意见领袖。意见领袖是指在人际传播网络中经常为他人提供信息,同时对他人施加影响的“活跃分子”,他们在大众传播效果的形成过程中起着重要的中介或过滤的作用,由他们将信息扩散给受众,形成信息传递的两级传播。

意见领袖的重要性在不同的产品、不同的目标市场上存在很大的区别。因此,在使用意见领袖时,第一步是通过调查或凭经验或逻辑来确定意见领袖在当前环境中的角色。这一步完成后,就可以利用意见领袖制定营销策略了。

1. 广告

广告应力图激励人们做意见领袖,或使他们模仿意见领袖。激励包括设计一些活动,鼓励使用者谈论产品或品牌,或者让可能的购买者向使用者询问他们的感受。模仿意见领袖涉及找到一位众所周知的意见领袖——如为跑步器材找到乔伊娜(Florence Joyner)或卡尔·刘易斯(Carl Lewis),使他们认可某一品牌。或者在一则“生活片段”式的广告中,让一位醒目的意见领袖推荐产品,这种广告通常是“偷听到的两个人的谈话,其中一个人向另一个人提供选择品牌的建议。”

2. 产品质量和顾客抱怨

非常明显的是,消费者会同其他消费者谈论他们有关产品、商店和服务的经历。因此,营销者提供满足或者超过消费者期望的产品是绝对重要的。当顾客的期望未能满足时,企业必须及时妥当地处理顾客抱怨。不愉快的顾客会将其不满平均告诉其他9个人。

3. 市场调查

由于意见领袖接受、解释并向他人传播营销信息,在那些意见领袖作用明显的产品领域和群体里,市场调查的重点应放在意见领袖身上而不是“代表性”样本上。因此,产品使用实验、广告文案的预试和媒体偏好研究,都应当以可能成为意见领袖的个人为样本。使意见领袖接触企业的营销组合策略并做出良好反应是成功的关键。当然,在那些意见领袖影响小的产品领域或群体内,使用这种策略或许并非明智之举。

4. 赠送产品样品

赠送样品,即将产品样品送给一个潜在的消费群体使用,是激发人们传播该产品信息的有效方法。在一项研究中,随机选择一群妇女,免费送给他们新速溶咖啡样品。结果发现,一周之内33 %的样品获得者与家庭以外的人谈论到这种咖啡。营销者不能随机选择样本,而应该尽量将产品送到可能成为意见领袖的人手中。克莱斯勒公司为了引入它的L H汽车—无畏(Dodge Intrepid)、统一(Chrysler Concorde)和鹰眼(Eagle Vi s i o n),向6000名可能的意见领袖提供新车,让他们免费使用一个周末。这些人包括经理和社区首脑,也包括经常提供意见但却不受瞩目的人,如理发师。随后的市场调查发现,有32 000多人驾驶或乘坐了这种汽车,而其口头赞誉则流传更广。

5. 零售与个人推销

零售商或推销员有成千上万的机会使用意见领袖。服装店设计了“时尚意见委员会”,由目标市场中可能成为服装款式意见领袖的人组成。面向青少年的商店使用的活跃分子和班级干部也是意见领袖。餐馆老板也可以向目标市场中的可能领袖做出特别邀请,或提供二兑一的赠券,以及菜谱等等。零售商或推销员可以鼓励现有顾客向潜在的新顾客传达信息。例如,一位现有的顾客带来一位朋友看车时,汽车推销员或经销商就可以为他免费地洗车或加油。不动产商可以为顾客或可以带来新顾客的其他人提供一张在豪华餐厅享用双人餐的赠券。

6. 识别意见领袖

意见领袖可以通过社会学技术,或者关键信息的提供和自行设计的问卷来识别。如果想要知道一个产品在全国范围内的意见领袖,又当如何呢?意见领袖的辨认是不容易的,因为他们与被影响的人们十分相像。意见领袖大量地使用大众

媒体,尤其是那些与其意见领域相关的媒体,由此为识别意见领袖提供了线索。例如,耐克推测《跑步者世界》的订阅者可能是散步鞋和跑鞋等产品的意见领袖。同时,由于意见领袖很合群,喜欢加入俱乐部和社团,耐克也可将当地跑步俱乐部的成员,特别是俱乐部的活跃分子作为意见领袖。某些产品领域有职业性的意见领袖。对于家禽产品,乡村推广机构一般都颇具影响力;理发师和发型师可以充当护发产品的意见领袖;药剂师则是很多保健护理品的重要意见领袖;计算机专业的学生,也自然而然地成为其他打算购买个人计算机的学生的意见领袖。

分为三步进行:

第一步,使用选择节点提出缺失值,保证数据质量。配置如下:

第二步,使用对象插入节点将特征添加到网络中。配置如下:

微博文本

7-14 109师傅对十字路口交通隐患的看法 #行走的青春#今天我们引路者团队对十字路口交通隐患很有发言权的109师傅进行了采访。 109师傅对十字路口直行和左拐弯同步进行是否有安全隐患表示,很多行人认为绿灯亮了之后就不用在注意是否有车辆通行了,所以这对司机进入路口后的驾驶就要求更加谨慎,所以车辆在左拐弯的时候会减速很多,但是有些不常在这种路口行驶的司机在驶入这种路口时就会大大增加了发生事故的可能性,例如当司机在左拐弯时速度并没有降的很低,当一个行人猛的一下出现司机没有足够的时间将车辆控制在安全状态下,就容易出现交通事故。这就大大降低了这种交通信号灯的安全性。同时,109师傅还表示如果将信号灯改为直行和人道横道的信号灯变为红灯后再进行左拐弯,这就会更加安全些。 109师傅对烟台市十字口的红绿灯时间的设置表示,红绿灯时间的设置是交通部门根据车流量和人流量的大小来制定红绿灯时间的长短,所以信号灯时间的设置应该都是比较合理的。同时109师傅对车辆闯黄灯的现象还发出了自己的见解,他们说,以前“闯黄灯”属于交通违章行为,依法应当受到处罚,但由于司机在看见黄灯时急刹车导致很多追尾事件的发生,所以现在对于闯黄不做处罚,只是进行教育。他认为黄灯是不能取消的,因为司机闯黄灯的时候一般都是有所顾忌的,如果取消黄灯,那没有一个缓冲过程,事故会更多的。最后,109师傅对我们周边路口手控红绿灯的安全性表示,手控红绿灯的安全性很低,司机的急刹车很可能会造成追尾事件,同时也有些行人会故意按下红绿灯,这样会耽误司机很多时间,同时也容易发生交通事故。通过对109师傅的采访,发现十字路口的交通隐患还是很多的,左拐弯和直行同时进行,车辆闯黄灯,手控红绿灯的运用这些都在现实生活中或多或少的埋下了交通隐患,安全是社会重中之重的大事,只有了行人以及车辆还有交通部门统一协调,共同重视,就一定会大大减少交通事故的发生。 7-15 #行走的青春#07.14早晨,我们引路者团队对烟台莱山区、芝罘区等十字路口的交警进行了采访。采访的内容如下: 我们主要是询问了他们怎么看待行人直走和车辆左拐弯这一交通现象的?这种红绿灯的设置是否合理?交警表示一般的司机都会让行人先通过,当然这也取决于行人欲司机的素质。烟台的十字路口的红绿灯都是这样设置的,全国也只有很少的城市的某些人流量和车流量很大的路口会设置四个红灯都亮,让行人先通过,机动车辆后运行的。如果都这样设置的话很可能会造成交通拥堵。接着交警回答了我们“闯黄”算不算交通违规?交警介绍以前“闯黄”属于交通违规行为,依法应该受到处罚,但是因为禁止闯黄造成了很多追尾事件,所以现在闯黄不算是违章,也不会扣司机的分。交警又向我们介绍了怎么使用手控红绿灯?有什么注意事项?交警认为这个设置不是很合理,安全性有点低,行人按了红绿灯后可能是司机急刹车而发生交通事故。并且交警说这个受控红绿灯会在几个月内换成自动的。 接着我们又对莱山区的几个交警进行了采访,交警们的回答基本上是一致的,交警今天对我们的有些疑问进行了比较专业的解答,对交通知识的普及以及一些注意事项都有很大的帮助。 7-16 今天我们引路者团队结束了在烟台最后一天的社会实践,主要到莱山区和芝罘区主要路口进行了影像资料的采集,今天的天气可谓是伏天来临的最好征兆,几天雨天天气后,空气中的水分加上今天的大太阳,真正造就了桑拿天,把我们这些进行户外社会实践的人儿们可害惨了!!

基于R语言的社会网络分析

基于R语言的社交网络分析 胡志健 ( 东华大学信息科学与技术学院, 上海201620) 摘要:随着互联网技术的快速发展,以及智能移动设备的普及,我们生活在了一个数据快速增长的年代。每天都有来自商业、科学、社交、工业生产等各个不同领域数据存储于计算机网络中。存储技术的不断改进,加上批量化设备生产,使得数据的存储成本大大降低,海量数据的挖掘与应用的大数据时代正逐步向我们走来。在互联网上,用户量最大的无疑是社交网络。网民可以在如新浪、腾讯、人人网等国内社交网络上快速发布、分享、评论信息。海量的信息存在于网络中,为数据挖掘提供了前提条件。本文借助R语言与Python脚本从人人网获取好友列表,借助igraph工具包对作者的好友分布做可视化分析,绘制了好友关系拓扑图,找到了中介度最高人。 关键字:数据挖掘,社交网络,R,Python,可视化分析 A social network’s analysis based on R language Abstract:With the rapid development of Internet technology, and the wide spread of smart mobile devices, we are living in an era of large amounts of data increases rapidly. Every day, from business, science, social, industrial production and other data of various fields stored in computer network. With the continuous improvement of storage technology, and the production of batch equipment, the storage cost of data is greatly reduced, and the data mining and application of large data era is gradually coming to us.On the Internet, the biggest user is undoubtedly social networks. Internet users can quickly publish, share and comment on social networks such as Sina, Tencent, and Renren. The vast amount of information exists in the network, which provides the premise for data mining. With the help of R language and python scripts, I get buddy list from Renren. Using igraph kit to do the visual analysis of author's friends distribution, render the friend relationship with topological graph, and find the intermediary of the supreme. Keywords: data mining,social network,R,Python,visual analysis 近年来,随着网络的普及,我国互联网行业有了很大的发展,尤其是移动互联网,出现了爆发式的发展。网络世界里发生着巨大的变化,不管是网民的规模、上网的方式,还是上网目的等方面。尤其是最近四五年,互联网行业似乎总是绕不开社交网络这个概念。无论是国外或是国内,Facebook、Twitter、微博、QQ、人人网等,还是如雨后春笋般冒出来的各大在线购物网站,或多或少地体现着SNS(社交网络服务)的特色。在丰富人们日常生活的同时,也为广大的科研人员提供了海量的数据。以往只能通过有限的调研如问卷或模拟才能进行的社会网络分析(SNA),现在却具备了大规模开展和实施的条件。本文基于国内典型SNS网站“人人网”的好友数据,借助统计分析语言R语言做了社交网络分析的一些尝试。 一、获取数据 1.Python脚本 数据分析与挖掘的第一步,便是获取数据。得益于人人网的开放平台,借助Python脚本实现自动读取人人网好友信息(ID、姓名)并保存。 人人开放平台使用OAuth 2.0作为验证与授权协议。OAuth是一个开放标准,允许第三方应用在用户授权的情况下访问其在网站上存储的信息资源(如照片、视频、好友列表),而这一过程中网站无需将用户的账号密码告诉给第三方应用。为了获取人人好友列表,需要借助脚本模拟登陆读取网页数据。# Python 读取好友列表代码: def get_list(uid): pagenum = 0 print u"开始解析好友列表" os.remove(str(uid)+".txt") ffi = open(str(uid)+".txt",'a') s = str("id"+""+"name"+'\n')

社会网络分析法

第十三章社会网络分析法 近几十年来社会网络分析法有了迅速的发展,它已被“泛应用到了社会学、政治学、人类学和社会政策研究等多个领域。本章我们将侧重介绍社会网络分析法的基本概念、历史、主要分析技术及其应用。 第一节社会网络分析的概念 一、什么是社会网络分析 网络指的是各种关联,而社会网络(social network)即可简单地称为社会关系所构成的结构。故从这一方面来说,社会网络代表着一种结构关系,它可反映行动者之间的社会关系。构成社会网络的主要要素有: 行动者(actor):这里的行动者不但指具体的个人,还可指一个群体、公司或其他集体性的社会单位。每个行动者在网络中的位置被称为“结点(node)”。 关系纽带(relational tie):行动者之间相互的关联即称关系纽带。人们之间的关系形式是多种多样的,如亲属关系、合作关系、交换关系、对抗关系等,这些都构成了不同的关系纽带。 二人组(dyad):由两个行动者所构成的关系。这是社会网络的最简单或最基本的形式,是我们分析各种关系纽带的基础。 二人组(triad):由三个行动者所构成的关系。 子群(subgroup):指行动者之间的任何形式关系的子集。 群体(group):其关系得到测量的所有行动者的集合。 社会网络分析是对社会网络的关系结构及其属性加以分析的一套规范和方法。它又被称结构分析(structural analysis),因为它主要分析的是不同社会单位(个体、群体或社会)所构成的社会关系的结构及其属性。 从这个意义上说,社会网络分析不仅是对关系或结构加以分析的一套技术,还是一种理论方法——结构分析思想。因为在社会网络分析学者看来,社会学所研究的对象就是社会结构,而这种结构即表现为行动者之间的关系模式。社会网络分析家B·韦尔曼(Barry Wellman)指出:“网络分析探究的是深层结构——隐藏在复杂的社会系统表面之下的一定的网络模式。”例如,网络分析者特别关注特定网络中的关联模式如何通过提供不同的机会或限制,从而影响到人们的行动。 韦尔曼指出,作为一种研究社会结构的基本方法,社会网络分析具有如下基本原理: 1.关系纽带经常是不对称地相互作用着的,在内容和强度上都有所不同。 2.关系纽带间接或直接地把网络成员连接在一起;故必须在更大的网络结构背景中对其加以分析。 3.社会纽带结构产生了非随机的网络,因而形成了网络群(network clusters)、网络界限和交叉关联。

微博内容规范

微博内容发布界定: 1、在行使个人言论自由和权力的同时,不得损害国家的、社会的、集体的利益和其公司的合法权力。 2、维护企业的经营安全、荣誉和利益的义务,不得有危害企业经营安全、荣誉和利益的行为。 3、不发表含有任何蕴含国别歧视、民族歧视、种族歧视、宗教歧视、性别歧视、生理残疾歧视、文化歧视、行政地域歧视及暴力等其他有悖于公俗良允的内容。 4、不在微博发布和谈论涉及政治、宗教信仰等敏感类话题,以及执政党、政治人物的稗官野史。 5、远离谣言的信息链,不造谣、不信谣、不传谣,不主观臆断,不随意转发和评论可能发起争议的微博。 6、企业领导人官方微博、专家微博、员工微博,不得将个人凌驾于组织之上发布与其个体身份不相适宜的言辞或信息内容。 7、不在微博上发布和谈论涉及商业机密和话题。 8、不发布未经确认的敏感类新闻。 9、不在微博上发布道听途说、未经确认的时事新闻、商业领袖的言论观点及明星的花边新闻、绯闻。 10、谨言慎行,不在微博上随意批评竞争对手及与企业正在合作中得客户和品牌,不陷入任何企业间的恩怨争端,保持中立、静默言行立场。 11、不在微博内容中使用任何不雅的粗俗言语宣泄个人情绪,禁止用任何方法对他人进行侮辱、诽谤、污蔑和打击报复。 12、以原创类或原创格式发布的微博内容,若不属于个人独立创作完成或共同参与创作的原

创作品,不得侵犯他人知识产权,不得与他人先取得的合法权力相冲突。 13、以复制方式获取微博文字内容并原创发布,必须在正文引注文字的出处来源,或在正文适当位置及评论处以@呼叫或版权符号标注拥有著作权文字作者,或标注作品出处,以免引发不必要的著作权纠纷。 14、原创类微博的配图,不得使用淫秽低俗、有碍观瞻并可能引发非议图片。严禁侵犯他人的肖像权,禁止通过软件技术对他人的肖像进行损毁、玷污、丑化和歪曲。 评论微博界定: 1、坚决不发表不便于表白立场的评论观点,以避免在他人回复评论+转发时对外公示,间接发布我方评论。 2、不参与一切涉及人身攻击、人格尊严侵犯的网络口水之争,不参与倾向于任何一方的感情支援,包括企业领导人、同事、亲友等主体。 3、以案例研究为出发点的评论,语气、措辞及观点必须恪守中立观点,若不能判断拿捏分寸是否得当,则不得发表评论。 转发微博的界定: 1、转发必须是带评论的转发。(微博自带的“转发微博”也可以。) 2、转发微博内容须有选择性: A、客户在微博上对企业的产品或服务的投诉、抱怨、质疑类的微博坚决不转发,但须通过私信及时沟通,或私信批转给相应人员处理。 B、粉丝微博或其他第三方微博的内容,如果与企业所属的行业、产业,以及企业的产品、服务等毫无关联,无论该微博内容具有怎样的可读性或娱乐性,都不得为了博取粉丝的眼球而转发。 C、不得毫无创意的将自己的微博再次单纯转发。

六个主要的社会网络分析软件的比较UCINET简介

六个主要的社会网络分析软件的比较UCINET简介 UCINET为菜单驱动的Windows程序,可能是最知名和最经常被使用的处理社会网络数据和其他相似性数据的综合性分析程序。与UCINET捆绑在一起的还有Pajek、Mage和NetDraw 等三个软件。UCINET能够处理的原始数据为矩阵格式,提供了大量数据管理和转化工具。该程序本身不包含网络可视化的图形程序,但可将数据和处理结果输出至NetDraw、Pajek、Mage 和KrackPlot等软件作图。UCINET包含大量包括探测凝聚子群(cliques, clans, plexes)和区域(components, cores)、中心性分析(centrality)、个人网络分析和结构洞分析在内的网络分析程序。UCINET还包含为数众多的基于过程的分析程序,如聚类分析、多维标度、二模标度(奇异值分解、因子分析和对应分析)、角色和地位分析(结构、角色和正则对等性)和拟合中心-边缘模型。此外,UCINET 提供了从简单统计到拟合p1模型在内的多种统计程序。 Pajek简介 Pajek 是一个特别为处理大数据集而设计的网络分析和可视化程序。Pajek可以同时处理多个网络,也可以处理二模网络和时间事件网络(时间事件网络包括了某一网络随时间的流逝而发生的网络的发展或进化)。Pajek提供了纵向网络分析的工具。数据文件中可以包含指示行动者在某一观察时刻的网络位置的时间标志,因而可以生成一系列交叉网络,可以对这些网络进行分析并考察网络的演化。不过这些分析是非统计性的;如果要对网络演化进行统计分析,需要使用StOCNET 软件的SIENA模块。Pajek可以分析多于一百万个节点的超大型网络。Pajek提供了多种数据输入方式,例如,可以从网络文件(扩展名NET)中引入ASCII格式的网络数据。网络文件中包含节点列表和弧/边(arcs/edges)列表,只需指定存在的联系即可,从而高效率地输入大型网络数据。图形功能是Pajek的强项,可以方便地调整图形以及指定图形所代表的含义。由于大型网络难于在一个视图中显示,因此Pajek会区分不同的网络亚结构分别予以可视化。每种数据类型在Pajek中都有自己的描述方法。Pajek提供的基于过程的分析方法包括探测结构平衡和聚集性(clusterability),分层分解和团块模型(结构、正则对等性)等。Pajek只包含少数基本的统计程序。 NetMiner 简介 NetMiner 是一个把社会网络分析和可视化探索技术结合在一起的软件工具。它允许使用者以可视化和交互的方式探查网络数据,以找出网络潜在的模式和结构。NetMiner采用了一种为把分析和可视化结合在一起而优化了的网络数据类型,包括三种类型的变量:邻接矩阵(称作层)、联系变量和行动者属性数据。与Pajek和NetDraw相似,NetMiner也具有高级的图形特性,尤其是几乎所有的结果都是以文本和图形两种方式呈递的。NetMiner提供的网络描述方法和基于过程的分析方法也较为丰富,统计方面则支持一些标准的统计过程:描述性统计、ANOVA、相关和回归。 STRUCTURE 简介 STRUCTURE 是一个命令驱动的DOS程序,需要在输入文件中包含数据管理和网络分析的命令。STRUCTURE支持五种网络分析类型中的网络模型:自主性(结构洞分析)、凝聚性(识别派系)、扩散性、对等性(结构或角色对等性分析和团块模型分析)和权力(网络中心与均质分析)。STRUCTURE提供的大多数分析功能是独具的,在其他分析软件中找不到。MultiNet简介 MultiNet 是一个适于分析大型和稀疏网络数据的程序。由于MultiNet是为大型网络的分析而专门设计的,因而像Pajek那样,数据输入也使用节点和联系列表,而非邻接矩阵。对于分析程序产生的几乎所有输出结果都可以以图形化方式展现。MultiNet可以计算degree, betweenness, closeness and components statistic,以及这些统计量的频数分布。通过MultiNet,可以使用几种本征空间(eigenspace)的方法来分析网络的结构。MultiNet包含四种统计技术:交叉表和卡方检验,ANOVA,相关和p*指数随机图模型。

新浪微博数据抓取详细教程

https://www.360docs.net/doc/ef5290384.html, 新浪微博数据抓取详细教程 本文介绍使用八爪鱼采集器简易模式采集抓取新浪微博的方法。 需要采集微博内容的,在网页简易模式界面里点击微博进去之后可以看到所有关于微博的规则信息,我们直接使用就可以的。 新浪微博数据抓取步骤1 采集在微博首页进关键词搜索后的信息以及发文者的关注量,粉丝数等(下图所示)即打开微博主页进行登录后输入关键词进行搜索,采集搜索到的内容以及进入发文者页面采集关注量,粉丝数,微博数。 1、找到微博网页-关键词搜索规则然后点击立即使用

https://www.360docs.net/doc/ef5290384.html, 新浪微博数据抓取步骤2 2、 简易模式中微博网页-关键词搜索的任务界面介绍 查看详情:点开可以看到示例网址 任务名:自定义任务名,默认为微博网页-关键词搜索 任务组:给任务划分一个保存任务的组,如果不设置会有一个默认组 用户名:请填写您的微博账号 密码:请填写微博账号的登录密码 关键词/搜索词:用于搜索的关键词,只支持填写一个 翻页次数: 设置采集多少页,由于微博会封账号,限制翻页1-50页 将鼠标移动到?号图标和任务名顶部文字均可以查看详细的注释信息。 示例数据:这个规则采集的所有字段信息。

https://www.360docs.net/doc/ef5290384.html, 新浪微博数据抓取步骤3 3、任务设置示例 例如要采集与十九大相关的微博消息 在设置里如下图所示: 任务名:自定义任务名,也可以不设置按照默认的就行 任务组:自定义任务组,也可以不设置按照默认的就行 用户名:请填写您的微博账号,必填 密码:请填写微博账号的登录密码,必填 关键词/搜索词:用于搜索的关键词,此处填写“十九大” 翻页次数:设置采集多少页,此处设置2页 设置好之后点击保存

社会网络分析方法(总结)

社会网络分析方法 SNA分析软件 ●第一类为自由可视化SNA 软件,共有Agna 等9 种软件,位于图1 的右上角,这类软件可以自 由下载使用,成本低,但一般这类软件的一个共同缺点是缺乏相应的如在线帮助等技术支持; ●第二类为商业可视化SNA 软件,如InFlow 等3种,这类软件大都有良好的技术支持;(3)第 三类为可视化SNA 软件,如KliqFinder 等4 种,这类软件一般都是商业软件,但他们都有可以通过下载试用版的软件,来使用其中的绝大部分功能 ●第四类为自由非可视化SNA 软件,如FATCAT 等7 种,这类软件的特点是免费使用,但对SNA 的分析结果以数据表等形式输出,不具有可视化分析结果的功能; ●第五类为商业非可视化SNA 软件,只有GRADAP 一种,该软件以图表分析为主,不具有可 视化的功能。在23 种SNA 软件中,有16 种SNA 软件,即近70%的SNA 软件,具有可视化功能。 SNA分析方法 使用SNA 软件进行社会网络分析时,一般需要按准备数据、数据处理和数据分析三个步骤进行。尽管因不同的SNA 软件的具体操作不同,但这三个步骤基本是一致的。 1.准备数据,建立关系矩阵 准备数据是指将使用问卷或其他调查方法,或直接从网络教学支撑平台自带的后台数据库中所获得的用于研究的关系数据,经过整理后按照规定格式形成关系矩阵,以备数据处理时使用。这个步骤也是SNA 分析的重要的基础性工作。SNA 中共有三种关系矩阵:邻接矩(AdjacencyMatrix)、发生阵(Incidence Matrix)和隶属关系矩阵(Affiliation Matrix)。邻接矩阵为正方阵,其行和列都代表完全相同的行动者,如果邻接矩阵的值为二值矩阵,则其中的“0”表示两个行动者之间没有关系,而“1”则表示两个行动者之间存在关系。然而我们

基于微博短文本的用户兴趣建模方法

———————————— 基金项目基金项目::国家自然科学基金资助项目(70971059);辽宁省创新团队基金资助项目(2009T045);辽宁省高等学校杰出青年学者成长计划基金资助项目(JQ2012027) 作者简介作者简介::邱云飞(1976-),男,教授、博士,主研方向:数据挖掘;王琳颍,硕士研究生;邵良杉,教授、博士生导师;郭红梅,硕士 收稿日期收稿日期::2013-01-05 修回日期修回日期::2013-03-05 E-mail :qyf321@https://www.360docs.net/doc/ef5290384.html, 基于微博短文本的用户兴趣建模方法 邱云飞1,王琳颍1,邵良杉2,郭红梅3 (1. 辽宁工程技术大学软件学院,辽宁 葫芦岛 125100;2. 辽宁工程技术大学系统工程研究所,辽宁 阜新 123000; 3. 阜新市实验高中,辽宁 阜新 123000) 摘 要:针对微博用户兴趣建模问题,提出一种在微博短文本数据集上建立用户兴趣模型的方法。为缓解短文本造成的数据稀疏性问题,在分析微博短文本结构和内容的基础上,给出微博短文本重构概念,根据微博相关的其他微博短文本和文本中包含的 3种特殊符号,进行文本内容的扩展,从而扩充原始微博的特征信息。利用HowNet2000概念词典将重构后文本的特征词集映射到概念集。以抽象到概念层的文本向量为基础进行聚类,划分用户的兴趣集合,并给出用户兴趣模型的表示机制。实验结果表明,短文本重构和概念映射提高了聚类效果,与基于协同过滤的微博用户兴趣建模方法相比,平衡均值提高29.1%,表明构建的微博用户兴趣模型具有较好的性能。 关键词关键词::微博;短文本重构;概念映射;短文本聚类;用户兴趣模型 User Interest Modeling Approach Based on Short Text of Micro-blog QIU Yun-fei 1, W ANG Lin-ying 1, SHAO Liang-shan 2, GUO Hong-mei 3 (1. School of Software, Liaoning Technical University, Huludao 125100, China; 2. System Engineering Institute, Liaoning Technical University, Fuxin 123000, China; 3. Experimental High School of Fuxin, Fuxin 123000, China) 【Abstract 】In this paper, a method on modeling user’s interests based on short text of micro-blog is presented. In order to overcome the lack of information in short text, on the base of analyzing the structure and content of micro-blog short text, this paper proposes an approach on micro-blog short text reconstruction, and namely, according to the other related and the three kinds of special symbols of the text, extends the content, thereby extending the characteristic information of original micro-blog. It takes advantage of HowNet2000 concept dictionary to map the feature set of reconstruction text to a set of concepts. It clusters the set of concepts to divide user’s interests, and meanwhile, a representation mechanism of user interest model is presented. Experimental results show that the short text reconstruction and concept mapping can improve the effect of clustering. Compared with the modeling based on collaborative filtering, F -Measure value is increased by 29.1%. This means the proposed micro-blog user’s interest modeling has a better performance. 【Key words 】micro-blog; short-text reconstruction; concept mapping; short-text clustering; user interest model DOI: 10.3969/j.issn.1000-3428.2014.02.060 计 算 机 工 程 Computer Engineering 第40卷 第2期 V ol.40 No.2 2014年2月 February 2014 ·开发研究与工程应用开发研究与工程应用·· 文章编号文章编号::1000—3428(2014)02—0275—05 文献标识码文献标识码::A 中图分类号中图分类号::TP393 1 概述 近年来,微博以其便捷、及时的信息分享、传播和获取的特点,迅速在网民间普及,并逐渐地影响着人们的生活和思维方式。2012年湖北武汉举行的第十一届中国网络媒体论坛透露,目前,微博客等社交网络呈蓬勃发展势头,中国微博客用户已经超过3亿[1]。现在,很多微博平台提供了推荐功能——“可能感兴趣的人”,但这是基于用户关系的推荐机制。如何在人海中找到志趣相投的人,那么分析 用户所发表、转发和评论的信息内容来获取用户的兴趣,建立兴趣模型,基于这样的兴趣,与其他用户兴趣模型进行相似度匹配来推荐关注对象,便可以找到具有真正相同兴趣爱好的朋友。此外,建立用户兴趣模型也是微博用户个性化服务[2]和商业广告投放等领域首要也是重要的研究内容。 用户兴趣建模包括基于行为和基于文本内容2类,本文属于基于文本内容的兴趣建模。与传统的基于示例文本的兴趣建模不同,基于微博文本挖掘用户兴趣的载体是微

新浪微博文本分析初探v0.1_光环大数据培训

https://www.360docs.net/doc/ef5290384.html, 新浪微博文本分析初探v0.1_光环大数据培训 有了获取数据的工具,对于中文文本分析来说,最重要的是分词。这里使用的分词算法来自中科院 ictclas算法。依然是沾了lijian大哥Rwordseg的光,直接拿来用了。 有了这两样利器,我们便可以来分析一下新浪微博的数据了。我选取的话题是最近热映的国产喜剧电影《泰囧》,在微博上拿到了998条和“泰囧”有关的微博文本。代码如下(以下代码不能直接执行,请首先阅读链接中Rweibo的关于授权帮助文档): #关键词搜索并不需要注册APIrequire(Rweibo)#registerApp(app_name = "SNA3", "********", "****************")#roauth <- createOAuth(app_name = "SNA3", access_name = "rweibo")res <- web.search.content("泰囧", page = 10, sleepmean = 10, sleepsd = 1)$Weibo 获取了数据之后,首先迫不及待对微博文本进行分词。代码如下(Rwordseg 包可以在语料库中自助加入新词,比如下面的insertWords语句): require(Rwordseg)insertWords("泰囧")n = length(res[, 1])res = res[res!=" "]words = unlist(lapply(X = res, FUN = segmentCN))word = lapply(X = words, FUN = strsplit, " ")v = table(unlist(word))v = sort(v, decreasing = T)v[1:100]head(v)d = data.frame(word = names(v), freq = v) 完成分词之后,我们最先想到的,便是对词频进行统计。词频排名前53的词列表如下(这个词频是我人工清理过的,但是只删除了一些符号):

面向微博文本的情感分析模型研究

面向微博文本的情感分析模型研究 随着互联网和移动通讯的飞速发展,人们参与网络活动越来越频繁,微博每天都产生了大量数据,其包含了用户对事物的情感表达和 评论分析,如何从这些信息中挖掘出情感倾向有着巨大的价值。因此,本文对微博文本展开了情感分析模型的研究。通过调研国内外文献,目前对于情感分析模型的研究主要有情感词典方法、机器学习方法和深度学习方法。本文通过爬取微博数据,对这三种方法进行对比实验,寻找最优的情感分析模型。基于传统情感词典方法的研究。利用波森情感词典,将文本数据分词后遍历词典并加权得到其情感极性,然后 在此基础上利用添加情感副词的方式提升情感词典的效果。情感词典方法的优点是速度快,易于判断主观情感比较明确的句子,但是其缺 点是针对不同场景的迁移能力弱,并且人工构建针对某一领域的情感词典耗时耗力。基于机器学习方法的研究。首先对文本数据进行数据预处理,将经过预处理后的数据分词结果通过Word2vec中Skip-gram 方法转化为词向量,同时利用腾讯开源词向量进行对比输入,然后利 用主流的机器学习分类方法(Logistic回归、随机梯度下降法、朴素贝叶斯、支持向量机、随机森林、XGBoost)进行有监督学习,最后对比每种模型的测试集混淆矩阵,发现腾讯开源词向量训练的模型效果均优于Word2vec方法训练出来的词向量。在这些方法中,随机森林、XGBoost这类利用集成思想方法训练的模型效果远远优于单一的分类模型。虽然机器学习方法模型的准确率对比传统情感词典有了很大的提升,但是不足之处是每个训练器都涉及到大量的调参,并对于不同

业务场景的迁移能力不强,机器学习方法已经发展到了瓶颈。基于深度学习方法的研究。通过对经典的多层感知机神经网络、循环神经网络、卷积神经网络和自注意力机制进行对比实验,各类深度学习模型的准确率比情感词典和机器学习的准确率有了较大的提升,其中自注意力机制模型在测试集的准确率达到了91.12%。通过对所有模型进行对比实验,发现自注意力机制所训练的模型无论在训练速度上还是在模型测试集的准确率等方面均优于其他模型。并且它利用序列内部的自我关注,加快了模型收敛的速度。所以,自注意力机制的模型是情感分析任务中综合表现效果最好的模型。

基于社会网络的道路网络分析

第44卷第5期 山 西建筑V〇1.44N〇.5 2 0 1 8 年 2 月SHANXI ARCHITECTURE Feb.2018 ?121 ? ?道路?铁路? 文章编号:1009-6825 (2018) 05-0121 -03 基于社会网络的道路网络分析+ 陈少鹏高贺 (东北林业大学土木工程学院,黑龙江哈尔滨150040) 摘要:将道路网络抽象为无向无权网络,利用社会网络分析方法,分析了度中心性、接近中心性、中间中心性在道路网络的具体 含义,同时分析了社会网络凝聚子群聚类的具体步骤。以拉萨市主干路网为例,利用社会网络分析工具UCINET对网络中心性以 及节点派系进行分析。凝聚子群得到的两个重要节点派系是路网的枢纽,承担着对内对外交通功能,符合实际各区域之间的功能 连接。 关键词:社会网络,道路网络,中心性,凝聚子群 中图分类号:U491 〇引言 社会网络是指社会行动者及其间的关系的集合。也可描述 为是由多个点(行动者)和各点之间的连线(行动者之间的关系)组成的集合[1]。社会网络中节点与节点之间构成的网络关系与 道路网络的结构形式有共通之处,将社会网络中人与人之间的联 系和影响抽象为道路网络中各节点之间的相互连接和影响,以社 会网络分析方法对道路网络进行分析,识别出路网的重要节点,可为道路网现状以及服务水平评价提供依据。 目前路网研究主要采用复杂网络分析方法,基于该方法可以 分析网络基础参数和拓扑结构特征[2],而社会网络方法主要分析 网络中心性和网络子群。通过对中心性的分析可以了解节点在 网络中起到作用,例如节点的连通性、重要性及过渡性;而子群分 析可以划分若干个派系,通过派系内部及派系之间的稀疏关系了 解网络的组织形式。 1道路网络构建 本研究的主要目的是探索性地提出用新奇的社会网络分析 方法来分析道路网络的可行性,所以将道路网络抽象为无向图C (F,E)(忽略了道路一些属性,如流量、拥挤程度、事故等),其中F 为节点的集合,E为边的集合。用4表示道路网络G的邻接 矩阵: {Cb~~ Cb l]】l(1) 〇 2社会网络分析方法 关系是社会网络分析理论的基础,中心性与凝聚子群是社会 网络分析常用指标,利用这些指标可以剖析道路节点之间的关系 特征[1]〇 2.1 中心性 中心性是社会网络分析核心,其能够反映出个人或者组织(节点)在网络中的地位以及信息在整个网络中如何传播。社会 网络中心性有三种分析方法: 1)度中心性。是指一个节点在网络中处于核心地位的程度,即有多少个节点与该节点直接相连。在道路网络应用中,度越大 意味着更多的路径连接到交叉口,也可能意味着度高的节点要比 度低的节点更拥堵[M]: CD(ni)=⑵ j=i 文献标识码:A 2)紧密中心性。在社会网络中,紧密度表示一个节点与其他 节点的接近程度: C c(ni)= 7= 1 (3) 无向图标准化紧密性公式: J L n C c(ni)=j=i r,_ 1(4) 3)中间中心性。表示一个节点对其他没有直接联系节点的 控制性。衡量网络中节点作为“桥梁”的能力: Csin,) = ^----------(5) Sjk 无向图标准化中间性公式: C?g“-2)⑷其中,办为节点?之间的直接路径数;取(^)为节点%到节点&的途径上有节点&的路径数。 2.2凝聚子群 社会网络分析的另一项重要内容是研究网络中存在的凝聚 子群,形象地说就是寻找网络中的小团体,或称之为派系。分析 路网的派系可以找到相互联系紧密的节点群,为区域交通问题的 改善提供依据。凝聚子群分析步骤如下: 第一步:对于多值的矩阵,分析凝聚子群时要把多值转化为 〇,1 二值。 第二步:进行派系分析,找出所有派系,通过调整派系规模,得到理性派系结构。 第三步:分析派系重叠模式,有大量派系它们之间存在重叠,此种情况下利用“共享成员”矩阵来降低派系的数量。 3实例分析 3.1 路网选择 以西藏拉萨市主干路网为例进行分析。拉萨市城区主干路 网有51个节点,102个路段。 3.2中心性结果分析 使用UCINET软件对社会网络进行分析[5]。度中心性、接近 中心性和中间中心性结果如表1所示。 收稿日期=2017-12-05 ★:黑龙江省自然科学基金青年项目(QC2107039);教育部人文社会科学研究青年基金项目(17YJCZH152) 作者简介:陈少鹏(1993-),男,在读硕士

新浪微博运营方案执行计划

新浪微博运营计划方案 一、发布计划 发布时间: 周一至周二、周五: 1、中阿淘、中阿购微博11点各发1条微博 2、中阿淘、中阿购微博17点各发1条微博 周三至周四: 1、中阿淘、中阿购微博10点各发1条微博

2、中阿淘、中阿购微博11点各发1条微博 3、中阿淘、中阿购微博14点各发1条微博 4、中阿淘、中阿购微博17点各发1条微博 二、发布内容: 1、时效性(占25%):电商及网购相关新闻和社会热点话题 2、知识性(占45%):有关产品、品牌、电商、网购、互联网等实用性知识 3、趣味性(占20%):笑话、趣味图、视频等 4、活动(占5%):促销活动信息 注:多用一些幽默、流行网络语,更容易引起共鸣,可以在结尾提出互动性问题或诱导转发评论语言。 三、活动计划 1、微博自发活动手段: 方法一:有奖转发。 发布中阿淘进口产品及品牌推荐介绍或促销抢购活动,粉丝们转发+评论或+@好友就有机会中奖 (@的数量要求10个或以上)。奖品尽量以实物为宜,可选几款进口产品做为奖励。 方法二:有奖征集。 常见的有奖征集主题有广告语、段子、祝福语、创意点子等等。调动用户兴趣来参与,并通过获得奖品可能性的系列性“诱导”,从而吸引参与。 方法三:有奖竞猜。

有奖竞猜是揭晓谜底或答案,最后抽奖。这里面包括猜图,还有猜文字、猜结果、猜价格等方式。 方法四:有奖调查。 有奖调查目前应用的也不多,主要用于收集用户的反馈意见,一般不是直接以宣传或销售为目的。要求粉丝回答问题,并转发和回复微博后就可以有机会参与抽奖。 2、微博网络活动: 有赞绑定微博,发布有赞代付产品活动页面链接,通过粉丝们转发+评论或+@好友就可以让朋友参加代付产品的活动。 3、网络热点活动: 关注网络热点,发起讨论活动。 注意: 1)活动主题要鲜明可与与节假日配合,活动有理 2)活动规则简单明了,门槛放低 3)活动发布时间选在早9-10点或晚上7点以后 4)活动中注意维护和互动 活动备案: 1、任何在微博上没有通过官方活动平台发起的活动,如转发抽奖等,均需向站 方备案; 2、备案方式:私信@微博客服选择“自助服务—活动备案”,提供活动持续时 间、抽奖方式、奖品发放时间等相关信息。 四、互动计划 主动关注目标粉丝 目标粉丝:1、关企业微博活跃的粉丝

六个主要的社会网络分析软件的比较

六个主要的社会网络分析软件的比较 UCINET简介 UCINET为菜单驱动的Windows程序,可能是最知名和最经常被使用的处理社会网络数据和其他相似性数据的 综合性分析程序。与UCINET捆绑在一起的还有Pajek、Mage和NetDraw等三个软件。UCINET能够处理的原始数据为矩阵格式,提供了大量数据管理和转化工具。该程序本身不包含网络可视化的图形程序,但可将数据和处理结果输出至NetDraw、Pajek、Mage和KrackPlot等软件作图。UCINET包含大量包括探测凝聚子群(cliques, clans, plexes)和区域(components, cores)、中心性分析(centrality)、个人网络分析和结构洞分析在内的网络分析程序。UCINET还包含为数众多的基于过程的分析程序,如聚类分析、多维标度、二模标度(奇异值分解、因子分析和对应分析)、角色和地位分析(结构、角色和正则对等性)和拟合中心-边缘模型。此外,UCINET 提供了从简单统计到拟合p1模型在内的多种统计程序。 Pajek简介 Pajek 是一个特别为处理大数据集而设计的网络分析和可 视化程序。Pajek可以同时处理多个网络,也可以处理二模网络和时间事件网络(时间事件网络包括了某一网络随时

间的流逝而发生的网络的发展或进化)。Pajek提供了纵向网络分析的工具。数据文件中可以包含指示行动者在某一观察时刻的网络位置的时间标志,因而可以生成一系列交叉网络,可以对这些网络进行分析并考察网络的演化。不过这些分析是非统计性的;如果要对网络演化进行统计分析,需要使用StOCNET 软件的SIENA模块。Pajek可以分析多于一百万个节点的超大型网络。Pajek提供了多种数据输入方式,例如,可以从网络文件(扩展名NET)中引入ASCII格式的网络数据。网络文件中包含节点列表和弧/边(arcs/edges)列表,只需指定存在的联系即可,从而高效率地输入大型网络数据。图形功能是Pajek的强项,可以方便地调整图形以及指定图形所代表的含义。由于大型网络难于在一个视图中显示,因此Pajek会区分不同的网络亚结构分别予以可视化。每种数据类型在Pajek中都有自己的描述方法。Pajek 提供的基于过程的分析方法包括探测结构平衡和聚集性(clusterability),分层分解和团块模型(结构、正则对等性)等。Pajek只包含少数基本的统计程序。 NetMiner 简介 NetMiner 是一个把社会网络分析和可视化探索技术结合在一起的软件工具。它允许使用者以可视化和交互的方式探查网络数据,以找出网络潜在的模式和结构。NetMiner采用了一种为把分析和可视化结合在一起而优化了的网络数据

社会网络分析报告的应用

7、社会网络分析的应用 一、国外的应用 社会网络分析萌芽于20世纪30年代,形成于60年代,从1980年以后,关于社会网络分析的论文显著增长。国外的应用研究主要集中在社会科学、家庭关系、交通运输、健康和医疗以及传染病传播机制等方面。 在情报学领域,国外的研究主要集中在两个方面:合著网络的研究和引文网络的研究。 (一)合著网络研究 1.Liuxiaoming,BollenJohan等人利用ACM和IEEE的数字图书馆会议文献建立了作者合著网络,利用中心性分指标析该合著网络,研究表明了PageRank和AuthorRank在合著网络研究中的重要性和优势。 2.M.E.J.Newman利用社会网络分析法对物理学、生物学和计算机科学三种学科的作者建立起了论文合著网络,分析了不同学科作者合著网络类型的区别和特点。 3.Logan和Pao则致力于研究如何使用社会网络分析法寻找出某一个领域的最核心作者。 (二)引文网络研究 主要应用于信息资源研究中,对文献之间的引用、共引的研究。 1.HENRY KREUZMAN进行了哲学学科62位代表作者的引文网络研究,揭示了哲学科学和认知论之间的联系。 2.HowardD.white专门探讨了社会网络结构和引文网络之间的在联

系。 3.学者们提出了二值矩阵和赋值矩阵,还构建同被引网络的研究方法,用来分析同被引情况。 二、.国的应用 国的社会网络分析己被运用到合著和引文网络研究、竞争情报、知识管理、网络信息资源评价以及图书馆资源配置等众多领域。 (一)合著网络研究 1.亮,朱庆华等选取《情报学报》1998一2005年之间的合著者为研究对象,对合著网络进行中心性分析、凝聚子群分析和核心--边缘分析的实证研究。 2.蓓,袁毅等选取中国期刊网里情报学、情报工作栏目下的所有作者为研究对象,进行社会网络分析,并做了团队合作的时序变化研究。 3.鲍,朱庆华等选取了CSSCI数据库里近十年以来的全部情报学领域的论文进行社会网络分析研究,在合著网络分析中,对“小团体”的形成机制进行了研究。 (二)引文网络研究 社会网络引文分析方法与引文分析家所使用的方法是一致的并扩展了它的研究方法,主要分为作者引文研究和期刊引文研究。 1.徐媛媛,朱庆华以参考咨询领域的32名高被引作者为研究对象,运用社会网络分析法从密度、中心度和凝聚子群方面进行研究。 2.邱均平教授对编辑出版类期刊进行引文网络分析,结果说明期刊同被引方法应用于确定核心期刊是有效的。他在后来对图书馆学情报学

相关文档
最新文档