社区划分算法

合集下载

社区网格划分方案

社区网格划分方案引言社区网格划分是城市管理和社会服务的基本单位，通过将城市划分为不同的网格，可以有效地组织、管理和提供社区服务。

本文将介绍社区网格划分的背景、目的和实施方案，旨在提供一个可行的指导方案，以便城市管理部门在进行社区网格划分时能够合理、高效地进行。

背景随着城市人口的增加和社会发展的进步，城市治理和社区服务的需求变得越来越复杂。

传统的行政辖区划分方式已经无法满足社会的需求，因此，采用社区网格划分的方法成为了一种有效的方式。

社区网格划分不仅可以方便居民的行政事务处理，还能够提高城市管理和社会服务的效率。

目的社区网格划分的主要目的是为了提供有效的城市管理和社会服务。

具体来说，社区网格划分的目的包括以下几点：1.方便居民处理行政事务：通过将城市划分为不同的网格，居民可以方便地办理各种行政手续、申请证件等。

2.提高城市管理的效率：社区网格划分可以将城市划分为小块，每个网格内设立相应的管理机构，这样可以更加精细地进行城市管理。

3.加强社区服务的质量：通过社区网格划分，可以将社区服务更加精细化，提高居民的幸福感和满意度。

实施方案社区网格划分的实施方案应该包括以下几个步骤：步骤一：数据收集和分析在进行社区网格划分之前，需要首先收集和分析相关数据。

数据的收集包括人口数量、社区设施、居民需求等方面的数据。

然后，通过对数据进行分析，可以了解不同区域的特点和需求，为后续的网格划分做准备。

步骤二：制定划分原则和指标在制定划分方案之前，需要制定划分原则和指标。

划分原则主要包括居民居住情况、社区设施分布、居民需求等方面的考虑。

划分指标可以包括人口数量、面积、交通便利度等方面的因素。

步骤三：确定网格范围和规模在确定网格范围和规模时，需要根据划分指标和原则，将城市划分为不同的网格。

网格的规模可以根据实际情况进行调整，一般可以根据人口数量、面积等因素来确定。

步骤四：设置网格管理机构和服务中心在每个网格中，需要设置相应的网格管理机构和服务中心。

社区划分实施方案

社区划分实施方案一、背景介绍。

社区是城市管理和社会治理的基本单元，合理的社区划分对于有效提升城市管理水平和社会治理能力具有重要意义。

为了更好地实施社区治理，制定科学合理的社区划分实施方案至关重要。

二、社区划分的原则。

1. 人口密度原则，根据人口密度大小，合理划分社区范围，保证社区内人口数量相对均衡，便于社区管理和服务。

2. 地理位置原则，考虑社区的地理位置，划分出便于管理和服务的社区范围，确保每个社区都能得到充分的资源和服务支持。

3. 社会经济原则，根据社区内的社会经济状况，合理划分社区范围，保证资源分配的公平和社区发展的均衡。

4. 文化传统原则，考虑社区内的文化传统和特色，合理划分社区范围，保留和传承社区的文化底蕴。

三、社区划分的具体实施方案。

1. 调研分析，首先对城市的人口密度、地理位置、社会经济状况和文化传统进行全面调研分析，为社区划分提供科学依据。

2. 制定划分方案，根据调研结果，制定科学合理的社区划分方案，明确每个社区的范围和边界，确保每个社区内的人口数量相对均衡，地理位置合理，社会经济状况平衡，文化传统得到尊重和传承。

3. 宣传沟通，在制定划分方案之后，通过各种渠道对社区划分方案进行宣传和沟通，征求社区居民的意见和建议，确保社区划分方案得到广泛的认可和支持。

4. 落实执行，在得到社区居民的认可和支持之后，正式落实社区划分方案，建立健全社区管理机制，提高社区治理水平，推动社区发展。

5. 监督检查，定期对社区划分实施情况进行监督检查，及时发现问题和不足，加强对社区管理和服务的改进和完善。

四、社区划分实施方案的意义。

1. 有利于提升城市管理水平，科学合理的社区划分有利于提升城市管理水平，实现精细化管理和精准化服务。

2. 有利于提高社会治理能力，合理的社区划分有利于提高社会治理能力，增强社区居民的自治意识和自我管理能力。

3. 有利于促进社区发展，科学合理的社区划分有利于促进社区内部的经济发展和文化传承，实现社区的全面发展和繁荣。

大规模社交网络的社区发现算法研究

大规模社交网络的社区发现算法研究社交网络成为了人们日常生活中重要的一部分，不仅可以帮助人们与朋友、家人保持联系，还可以拓展社交圈子，获取信息和资源。

然而，社交网络中的用户数量庞大，信息量庞杂，因此如何对社交网络进行社区发现成为了研究的热点之一。

本文将围绕大规模社交网络的社区发现算法展开研究。

社区发现是指在一个网络中，将相互关联并呈现出某种内在联系的节点划分为不同的群组。

社交网络中的社区发现算法需要利用网络节点之间的结构关系和节点之间的相似性来进行划分。

下面将介绍几种常见的大规模社交网络的社区发现算法。

1. Girvan-Newman算法Girvan-Newman算法是一种基于边介数的社区发现算法，该算法主要通过计算网络中每条边的介数，来确定网络中的重要边。

介数越高，表示该边对网络的连接起着重要的作用。

通过不断移除介数最高的边，直到网络被划分为多个不连通的部分，从而得到社区结构。

2. 高效率标签传播算法高效率标签传播算法（Label Propagation Algorithm）是一种基于标签传播策略的社区发现算法。

该算法先为每个节点分配一个唯一的标签，然后通过迭代的方式，不断更新节点的标签，直到达到稳定状态。

节点的标签更新策略是根据邻居节点的标签来选择最多的标签进行更新。

最终，具有相同标签的节点被划分为同一个社区。

3. Louvain算法Louvain算法是一种基于模块度最大化的社区发现算法。

该算法将所有节点划分为若干社区，并在每次迭代中尝试将一个节点从一个社区移动到另一个社区，同时优化网络模块度的值。

通过多次迭代，直到不能再优化为止，得到最终的社区划分结果。

4. 深度学习算法深度学习算法在社区发现中也发挥了重要作用。

通过使用神经网络模型，可以对社交网络中的节点进行向量化表示，然后通过训练模型来学习节点之间的相似性和联系。

这种算法能够自动学习节点的特征和网络的结构，从而得到更精确的社区划分结果。

以上是几种常见的大规模社交网络的社区发现算法，并没有详细介绍每种算法的具体实现细节。

第一章：社区类型划分

• • • • • • • • • •
（3）大城市2：20—50万；（4）大城市3：10—20万（5）中等城市1：5—10万；（6）中等城市2：2—5万；（7）小城市1：1—2万人；（8）小城市2：不到1万人。 2.美国学者：九级（1）世界性都市带：近千万人；（2）大都市带：几百万人以上；（3）大都市：80万以上；
• • • •
• • • • •
（2）大型社区：几十万—100万；（3）中型社区：十几万—几十万；（4）小型社区：10万以下；（5）微型社区：居委会辖区共同体、村委会辖区、自然屯。（二）社区规模类型划分的相对性各国采用的标准差异显著。 1.前苏联：分八级（1）超大城市：大于等于100万人口；（2）大城市1：50—100万人口；
• • • • • • • • • •
（4）大城市：10—80万；（5）中等城市：2.5—10万；（6）小城市：2500—25000人（7）镇：1000—2500人；（8）村庄：150—1000人；（9）小村庄：100—150人。 3.中国统计分类以市区非农人口为标准。（1）特大城市：≥100万；（2）大城市：50—100万；
• （13）疗养城市：兴城、北戴河、五大连池、日本的箱根、热海等。 • 2.定量分类法：产生于上世纪30、40年代 • （1）C.D.Harris • 首创人。主要依据城市主导行业的职工比重来划分城市。 • 工业城市：工业就业者占全部就业者的45%以上，占工商业就业者74%以上； • 准工业城市：工业就业者占全部就业者的45%以上，占工商业就业者60%以上；
第三节：社区类型划分
主讲Байду номын сангаас：范中桥
• • • •

一种基于节点中心度的社区划分新算法

一种基于节点中心度的社区划分新算法乔健;杨昆朋【摘要】针对传统的K-means算法的划分结果受初始中心节点影响较大，以及每次刷新中心节点均需要进行计算，使得算法运行时间较高等问题，提出一种基于中心度的K-means改进算法CDK算法。

该算法根据节点的中心度以及节点之间的最短路径来确定初始社团的中心节点，然后根据节点之间的Jaccard相似度，将非中心节点划分到K个社团中。

CDK算法避免了传统的K-means算法由于随机选取初始中心点而造成划分结果不稳定、精度较差的问题，同时CDK算法在刷新中心节点的时候无须进行计算，具有更低的时间复杂度。

%Dividing the result for the traditional K-means algorithm is influenced by the initial central node, and each refresh center nodes need to be calculated, cause the higher algorithm running time and other issues. Proposes an improved algorithm based on centrality of K-means, CDK algorithm. The algorithm is based on the shortest path between the node and the node to the center of the central node determining the initial associations, then according to Jaccard similarity between nodes, will be divided into K non-central node in societies. CDK al-gorithm avoids the traditional K-means algorithm due to the random selection of initial results of the center divide and cause instability, poor accuracy problems, while CDK refresh algorithm when the central node without calculation, has a lower time complexity.【期刊名称】《现代计算机（普及版）》【年(卷),期】2015(000)003【总页数】4页(P22-25)【关键词】中心度;K-means;社区发现【作者】乔健;杨昆朋【作者单位】北京交通大学计算机与信息技术学院，北京 100044;北京交通大学计算机与信息技术学院，北京 100044【正文语种】中文人类社会中很多的系统都可以抽象为网络，如人际关系网［1］、论文引征网、科学家合作关系网［2］、微博用户关系网、互联网［3］等。

莱山区社区社区划分标准及管理流程

莱山区社区社区划分标准及管理流程下载温馨提示:该文档是我店铺精心编制而成，希望大家下载以后，能够帮助大家解决实际的问题。

文档下载后可定制随意修改，请根据实际需要进行相应的调整和使用，谢谢!并且，本店铺为大家提供各种各样类型的实用资料，如教育随笔、日记赏析、句子摘抄、古诗大全、经典美文、话题作文、工作总结、词语解析、文案摘录、其他资料等等，如想了解不同资料格式和写法，敬请关注!Download tips: This document is carefully compiled by theeditor.I hope that after you download them,they can help yousolve practical problems. The document can be customized andmodified after downloading,please adjust and use it according toactual needs, thank you!In addition, our shop provides you with various types ofpractical materials,such as educational essays, diaryappreciation,sentence excerpts,ancient poems,classic articles,topic composition,work summary,word parsing,copy excerpts,other materials and so on,want to know different data formats andwriting methods,please pay attention!莱山区社区划分标准与管理流程详解莱山区，作为一座充满活力的城市区域，其社区的划分和管理对于提升居民生活质量、促进社区和谐有着至关重要的作用。

基于改进的PSO算法的网络社区划分方法

ｍｅｔｈｏｄｓ ’ ｔｉｍｅｃｏｍｐｌｅｘｉｔｙｉｓｈｉｇｈａｎｄｔｈｅｉｒａｃｃｕｒａｃｙｄｅｐｅｎｄｓｔｏｏｈｅａｖｉｌｙｕｐｏｎｐｒｅｒｅｑｕｉｓｉｔｅｋｎｏｗｌｅｄｇｅ．Ｔｈｅｒｅｆｏｒｅｍａｎｙｐｒｅｓｅｎｔｃｏｍｍｕｎｉｔｙｄｅ —
关键词．复杂网络
中图分类号ＴＰ３９３
社区划分
ＰＳＯ算法
Hale Waihona Puke 社区结构ＤＯＩ：１０．３９６９／ｊ．ｉｓｓｎ．１０００ — ３８６ｘ．２０１３．０８．００７
文献标识码
Ａ
ＩＭＰＲｏＶＥＤＰＳｏＡＬＧｏＲＩＴＨＭＢＡＳＥＤＮＥＴＷｏＲＫＣｏＭＭＵＮＩＴＹＤＥＴＥＣＴＩｏＮＭＥＴＨｏＤ
ＺｈａｎｇＹｕｓｈａＪｉａｎｇＳｈｅｎｇｙｉＸｉｅＢａｉｌｉｎＴａｎｇＫａｉ
（ＳｏｕｔｈＣｈｉｎａＢｕｓｉｎｅｓｓＣｏｌｌｅｇｅ，ＧｕａｎｇｄｏｎｇＵｎｉｖｅｒｓｉｔｙｏｆＦｏｒｅｉｇｎＳｔｕｄｉｅｓ，Ｇａｎｎｇｚｈｏｕ５１０５４５，Ｇａｎｎｇｄｏｎｇ，Ｃｈｉｎａ）（ＳｃｈｏｏｌｆＩｏｎｆｏｒｍａｔｅｉｓ，ＧｕａｎｇｄｏｎｇＵｎｉｖｅｒｓｉｔｙｆＦｏｏｒｅｉｇｎＳｔｕｄｉｅｓ，Ｇｕａｎｇｚｈｏｕ５１０４２０，Ｇｕａｎｇｄｏｎｇ，Ｃｈｉｎａ）

基于相似度投票的社区划分改进算法

基于相似度投票的社区划分改进算法冯成强;左万利;王英【摘要】In order to quickly and accurately partition the community of large-scale social networks which were increasingly complicated ,we proposed an improved algorithm based on similarity voting to replace the underlying partition of Louvain algorithm . It solved the shortcomings of Louvain algorithm such as slow convergence in the bottom partitioning and large number of double counting , which made the community partition more rapidly .The experimental results from real social network data show that compared with the Louvain algorithm ,the efficiency of the improved algorithm is much higher ,with less number of communities partitioned ,and the community structure is more compact in the case of keeping the modularity basically unchanged .%为快速、准确地对日益复杂的大规模社会网络进行社区划分,提出一种基于相似度投票的改进算法替代Louvain 算法的底层划分,解决了Louvain算法在底层划分收敛速度较慢,并出现大量重复计算的缺点,使社区划分更迅速.由真实社会网络数据实验结果可见,与Louvain算法相比,改进算法在保持模块度基本不变的情况下,效率显著提高,划分的社区数更少、社区结构更紧凑.【期刊名称】《吉林大学学报（理学版）》【年(卷),期】2018(056)003【总页数】9页(P601-609)【关键词】社会网络;社区划分;相似度投票;Louvain算法;模块度;社区数;社区结构【作者】冯成强;左万利;王英【作者单位】吉林大学计算机科学与技术学院 ,长春130012;吉林大学计算机科学与技术学院 ,长春130012;吉林大学计算机科学与技术学院 ,长春130012【正文语种】中文【中图分类】TP393随着科技的发展, 出现了很多大型系统, 如果将这些系统的对象视为节点, 对象之间的关系视为边, 则这些系统将构成社会网络. 如电话通信网络、 WWW网络[1]、社交网络用户关系网、科学家合作关系网络[2]、全球的Internet网等, 研究这些网络的特性将有助于发掘网络中隐藏的有用信息. 常见的社会网络特性有小世界性、无标度性和社区结构性[3]. 社区划分是目前社会网络分析的研究热点. 社区划分就是找出社会网络中的某种内在结构, 使社会网络分裂成一个个的社区, 社区结构的定义如下：社区结构是一些社区内成员关系密切联系, 社区间的成员关系稀疏的节点集合[4]. 近年来对社会网络划分的研究已取得了很多成果, 主要分为4类：基于谱分割思想的方法[5]、基于优化思想的方法[6-7]、基于模块度的方法[8]以及基于相似度的划分算法. 基于模块度的方法一般属于层次聚类算法, 又分为凝聚式与分裂式两类, 均使用模块度作为社区划分准确率的评判标准. 文献[4]提出了第一个基于模块度的社区划分算法, 称为GN算法, 该算法通过不断删除边介数最大的边增大模块度, 直到模块度不再增加为止, 从而实现对网络的社区划分, 是一种分裂式的层次聚类算法； Newman[9]提出了一种凝聚型的层次聚类算法----FN算法, 该算法通过不断合并使模块度增加最大的两个社区对网络节点进行聚类, 最后达到划分的目的. 但以上两种算法对于大规模的社会网络在时间效率上存在明显缺陷, 为实现对大规模社会网络进行快速划分的目的, Blondel等[10]提出了Louvain算法, 该算法相对于GN算法和FN算法具有运行速度较快、划分效果较好等优点. Louvain算法通过不断地将节点在其邻接社区中移除与并入来划分社区, 每次移动均需要计算模块度增量, 对于大规模的稠密网络迭代次数一般较多, 收敛速度较慢. 基于相似度的划分算法有：近邻传播AP算法[11]、基于聚簇相似度的社区划分方法[12]以及通过相似性度量条件进行社区划分的方法[13]. 节点相似度的构造[14]一般分为基于节点局部信息的与基于网络拓扑结构的两类. 基于节点局部信息的相似度计算方式主要有3种[15], 分别是Jaccard公式、余弦相似度公式及分母最小化公式, 而基于网络拓扑结构的方法主要原理是依据随机游走的思想[16]. 由文献[14]结果可见, 基于节点局部信息计算相似度, 速度较快, 且准确度也较高.鉴于局部相似度的计算简单、速度快等优点与Louvain算法底层划分存在重复开销, 本文针对大规模的稠密网络提出一种基于节点相似度投票的改进算法来改善Louvain算法的第一层划分, 然后再结合基于模块度的Louvain算法实现对社会网络的快速划分.1 模块度与Louvain算法1.1 模块度模块度是通过比较社区内节点的紧密程度及社区间节点的稀疏程度与相同规模随机网络中的期望值得出的, 定义如下：(1)其中： Avu表示节点v到u的边的权重; Kv表示节点v的度; m表示边的权重之和; γ(v,u)表示当u=v时表达式取1, 否则取0; Cv表示节点v所在的社区. 所以整个Q值的定义是所有节点到其他节点的边分布与随机分配节点边的差的加权求和.对式(1)进行化简可得(2)其中：∑in表示社区C内边的权重之和; ∑tot表示连接到社区C内节点的边的权重之和. 式(2)表明模块度是各个社区的模块度之和, 可分别进行计算. 模块度的取值范围为[-1,1][17], 值越大, 社区划分就越合理. 模块度作为一种广泛使用的度量标准, 其划分结果相对可靠.1.2 Louvain算法1.2.1 模块度增量 Louvain算法中的模块度增量是指把一个孤立节点v合并到其邻接社区C时带来的模块度的增加量Δ Q, 计算公式为(3)其中：∑in表示合并前社区C内边的权重之和；∑tot表示合并前连接到社区C内点边的权重之和； Kv,in表示节点v到社区C中节点边的权重之和; λv表示连接到v的边的权重之和. 对式(3)进行化简, 得(4)1.2.2 Louvain算法思想 Louvain算法是基于模块度的贪婪式算法.1) 通过不断地将节点从当前所在社区中移除成为一个单独节点, 再把这个节点重新分配到其某个邻接社区中, 使得与该社区合并所带来的模块度增量最大；2) 依次对每个节点进行上述操作, 直到所有的节点都稳定在各自社区中或达到最大迭代次数；3) 将每个社区合成一个超点, 社区间的连边合并为超点间的连边, 为超点增加一条自环边, 权重为超点所代表的社区内边的权重之和, 合并后即重构为一个更简单的社会网络, 第一层划分完毕；4) 以此类推进行其他层次划分, 直到某一层划分前后总的模块度不再增加为止.使用伪代码描述如下：算法1 Louvain算法.输入：社会网络G(V,E); 输出： G(V,E)的社区划分结果Partition.1) 计算网络的模块度Q1；2) 初始化网络G, 每个节点作为一个社区；3) FOR v IN RANGE(n): /*n为节点总数*/4) 将v从原来的社区取出, 合并到使得Δ Q最大且Δ Q>0的邻接社区中；5) END FOR6) 重复步骤3), 直到在一次遍历中没有节点改变划分或达到最大迭代次数；7) 计算新的模块度Q2；8) 将社区划分结果存入Partition中, 重构网络G；9) 重复步骤1), 直到Q1=Q2；10) 返回Partition, 结束.1.3 Louvain算法的缺陷由Louvain算法的划分过程可见, 将一个节点v从其原来的社区中移除, 再并入到模块度增量最大的邻接社区中, 如果假设当v移除后, 其邻接社区数为m, 则再将其重新并入新的社区中要计算m次Δ Q, 然后选择Δ Q增加最大的社区进行合并. 在移除过程中, 如果一个节点的社区归属改变了, 则其他顶点都将从其原来的社区中移除, 然后再重新归入某个邻接社区中, 即使其社区划分没有改变也需进行计算, 由此带来的重复计算将导致大量开销. 特别是在每层划分的最后阶段, 可能只有一个节点的划分与上一次划分不同, 但其他节点也得重新进行一次划分, 这样其他节点都在进行无效计算, 该缺点在大规模的稠密网络上表现特别突出.一个节点v的社区划分变动, 可能引起另一个节点u的社区划分变动, 而u的社区划分变动可能再次引起v的社区划分变动, 如此进入一个死循环, 对于大规模的稠密网络这种情况很容易出现. Louvain算法中通过设置最大迭代次数跳出死循环,但最大迭代次数却不易确定, 过大引起无效计算, 过小影响划分效果, 这是Louvain 算法的另一个缺陷.2 改进算法在Louvain算法的第一层划分中由于网络节点较多导致社区划分收敛慢, 每次迭代过程中均有很多无效计算. 因此, 本文提出一种基于相似度投票的改进算法, 以改善Louvain算法的底层划分, 并将划分后的网络与Louvain算法相结合, 进一步提升社区划分的模块度, 从而完成社区划分.2.1 改进算法主要思想基于相似度投票的社区划分算法是一种凝聚式的划分算法, 通过为网络中的每个节点选择最佳的合并社区不断扩大社区规模, 从而完成社区划分.1) 采取合适的相似度计算方式计算网络中每对邻居节点的相似度；2) 初始化网络中的每个节点为一个单独社区, 对网络中的每个节点v进行如下操作：① 通过v与其邻居节点的相似度及邻居节点的划分情况, 为v选择最佳合并社区C;② 将v所在社区中的所有节点(包括v)合并到社区C中；3) 根据步骤2)划分结果重构网络；4) 使用Louvain算法对重构网络进行更高层次的划分, 从而完成社区划分.2.2 节点相似度计算网络中的节点彼此之间通过边相连, 与一个节点相连的点称为其邻居节点. 一个节点在网络中的位置与其邻居节点紧密相关. 利用两个节点的邻居分布, 可计算两个节点的相关程度, 即节点相似度. 一个节点与邻居节点的共同邻居越多, 则与该邻居节点越相似. 本文对相似度的计算方式定义如下：首先根据网络边集合的每条边(v,u), 分别计算节点v与u的邻居集合Sv与Su；然后利用Jaccard的变形公式计算节点v与u的相似度：Simvu=Ψ(Sv,Su)/|Sv∪Su|,(5)其中： | |表示集合取模运算; ∪表示集合的并运算；Ψ(Sv,Su)表示当Sv与Su交集不为空时取交集的模, 否则取1. 计算完每条边两个节点的相似度后, 即得到了节点与每个邻居的相似度, 然后将节点与邻居的相似度作为划分该节点的依据. 改进算法的实验结果证明了该节点相似度计算方法较准确.2.3 最佳合并社区的选择与社区合并在改进算法中通过为每个节点选择社区进行合并来不断增大社区规模, 从而达到社区划分的目的, 如何为节点v选择最佳的合并社区是改进算法的关键. 为节点v选择最佳合并社区时利用了节点v与邻居节点的相似度以及邻居节点的划分情况, 最佳社区选择与社区合并过程如下：1) 利用网络拓扑结构计算节点v0的所有邻接社区. 此时邻接社区可能会因为社区划分的程度不同(已划分节点的数量)而出现不同情况, 如图1所示, 其中： (A)表示在划分v0时其邻居节点尚未划分, 每个邻居是节点v0的一个邻接社区; (B)表示有些邻居节点已经完成划分, 划分到一起的邻居节点形成一个邻接社区; (C)表示已经有邻居节点被划分到节点v0的初始单独社区中, 形成了一个新的社区C3, 此时将社区C3除v0外的点构成的社区视为一个邻接社区.图1 不同情况下的节点划分示意图Fig.1 Schematic diagram of nodes partition under different circumstances2) 利用相似度为每个邻接社区投票. 遍历v0的所有邻居节点, 先将每个邻居vi与v0的相似度作为票值投给vi所在的邻接社区, 再将同一邻接社区获得的票值累加, 形成投票积累, 如图1(B)中的邻接社区C2的得票即为v1与v0的相似度加上v2与v0的相似度, 其他类似.3) 计算每个邻接社区的票值, 获得最大投票的邻接社区即为节点v0的最佳合并社区C.4) 将节点v0或v0所属社区的所有节点合并到C中. 如图1所示, 其中: (A)表示将v0合并到与获得最高票值的邻居v3中, 形成社区C1； (B)表示将v0合并到获得最高投票的邻接社区C2中; (C)表示将v0所在社区中的所有节点v0与v3合并到C2中.经过上述过程后,图1中的一个节点即完成了初步划分, 所有节点都经过处理后即完成改进算法描述中的步骤2).开始阶段节点的每个邻居都是一个邻接社区, 相当于将节点代表的社区与最相似的邻居所代表的社区进行合并, 如图1(A)所示. 经过一部分节点划分后, 对于未划分的节点, 其节点的邻居可能已经完成了社区划分, 如图1(B)和(C)所示. 此时由于节点的一些邻居划分在同一个邻接社区, 对节点的邻接社区进行相似度投票将出现投票积累, 选择累积票值最高的社区进行合并, 而不是选择单个相似度最高的节点进行合并原因如下： 1) 通过累积获得最高相似度的邻接社区将有更多邻居节点与该节点相连, 将节点合并到这样的邻接社区中, 形成的社区更紧凑, 使得实验结果中改进算法社区数更少; 2) 该合并方式倾向合并出大的社区, 减少了小社区出现后又被合并的可能性, 从而减少了中间计算量.2.4 改进算法的实现为了更好地理解改进算法描述的社区划分过程, 下面将改进算法用算法2实现如下. 算法2 改进算法.输入：社会网络G(V,E); 输出： G(V,E)的社区划分结果Partition.1) 计算邻居节点的相似度Sim； /*结果以字典形式保存在Sim中*/2) 初始化Community[v]=v, cMember[v]=[v]； /*初始化每个节点为单独社区并记录成员*/3) FOR v IN RANGE(n): /*v为网络中的一个节点, n为节点总数目*/4) C=choseBestCommunity(v,G,Sim,Community) /*为v选择最佳合并的邻接社区C*/5) IF v!=C: /*当选择合并的社区不为自身所在社区时, 才进行合并*/6) FOR k IN cMenber[v]: /*将v所在的社区与邻接社区C合并*/7) cMember[C].append(k); /*将v所在社区的成员加入社区C/8) Community[k]=C; /*改变v所在社区成员的社区划分*/9) END FOR10) END IF11) END FOR12) 将Community存入Partition1中, 作为第一层的划分结果；13) 将社区合并为超点, 重构网络G；14) 调用算法1对网络G进行进一步划分, 结果保存在Partion2中；15) 合并Partion1与Parttion2为Partition；16) 返回Partition, 结束.函数choseBestComunity为根据相似度投票为v代表的社区选择合并的邻接社区C, 实现步骤如下.函数1 choseBestCommunity.输入: 节点v, 网络G, 相似度Sim, 当前社区划分Community; 输出：节点v应合并的邻接社区C.1) 声明字典neighborCom={ }； /*用于记录v每个邻接社区获得的票数*/2) 根据网络G计算节点v的邻居列表neighborList；3) FOR u IN neighborList： /*根据v的邻居划分情况计算v的所有邻接社区, 初始票值为0*/4) neighborCom[Community[u]]=0.0；5) END FOR6) FOR u IN neighborList:7) sim=Sim(v,u)； /*读取v与u的相似度*/8) neighborCom[Community[u]]+=sim； /*为包含u的邻接社区累积投票, 票值为sim*/9) END FOR10) C=neighborCom中有最大投票数的邻接社区； /*若最大投票有多个, 则任意选取一个社区*/11) 返回邻接社区C, 结束.算法2的步骤1)～13)是本文提出的改进算法部分, 其余部分则是直接运用Louvain算法, 所以二者的差距只在第一层的划分上. 改进算法在进行社团合并的过程中利用了节点的邻居划分情况, 以保证节点选择社区进行合并的合理性, 从而省去了模块度增量计算. 整个过程只需遍历所有节点一次即可完成初步社区划分, 相比Louvain算法的多次迭代要快很多.2.5 算法时间复杂度对比分析改进算法第一层划分的时间开销主要集中在节点的相似度计算及节点划分中的社区选择与合并两部分. 第一部分的时间复杂度为O(c1|E|), 其中： E表示社会网络的边集合; c1表示每对节点相似度计算的开销. 第二部分的时间复杂度为O(c2|V|), 其中: V表示顶点集合; c2表示为每个节点选择社区与进行社区合并的开销. 总的复杂度为O(|E|+|V|), 所以具有线性的时间复杂度. Louvain算法的第一层划分过程中遍历节点一次需要O(c3|V|)的时间复杂度, 其中c3表示移动一个节点的开销, 需要多次遍历直至节点划分不再变化, 设次数为γ, 则其时间开销为O(γ|V|), 所以当γ较大时, 其时间开销可能大于改进算法. 由于其他层次的划分采用相同的算法, 所以其时间复杂度相同, 且均为线性的. 将改进算法与Louvain算法第一层划分所用的时间分别记为T11和T21, 第一层后的划分所用时间分别记为T12和T22. 如果T11+T12<T21+T22, 则改进算法在整体上比Louvain算法更快, 反之则比Louvain算法慢.3 实验结果与分析下面通过对改进算法与Louvain算法在真实数据上的实验结果进行比较与分析, 说明算法的有效性. 实验中采用的社会网络分别是Zachary空手道俱乐部成员关系网络[18]Karate、海豚协作关系网Dolphins、酵母遗传网络Yeast、美国西部电力网络Power及两个规模更大的社会网络：物理学家合作网络Astro-ph和Condensed matter collaborations网络Cond-mat-2005. 上述6个社会网络在规模上呈按节点数递增的关系, 表1列出了上述各网络的基本参数.表1 社会网络参数Table 1 Parameters of social networks网络名称KarateDolphinsYeastPowerAstro-phCond-mat-2005节点数34622 3754 94116 04639 577边数7815911 6936 594121 251175 6923.1 改进算法在真实社会网络上的社区划分为对比改进算法在实际社会网络上的社区划分效果, 选用较经典的Zachary空手道俱乐部网络的划分结果对两种算法的社会网络划分差异做比较. Zachary是用于社区划分分析的经典社会网络, 包含34个点, 代表俱乐部的成员, 78条边代表成员之间的社会关系. 俱乐部因为是否提高收费产生争执, 分为2个真实关系社区. 如图2所示, 分别以节点v1为代表的白色社区1和以节点v33为代表的黑色社区2.图2 Zachary关系网络Fig.2 Relational network of ZacharyLouvain算法对未划分的Karate网络的划分结果如图3所示, 相对原始网络新增了3和4两个较小的社区, 整个网络被划分成4个社区：白色的社区1, 黑色的社区2, 深灰色的社区3, 浅灰色的社区4. 改进算法对未划分的Karate网络的划分结果如图4所示, 同样划分4个社区, 相比Louvain算法划分的社区结构只有节点v24不同, 它从社区4移入到了社区2, 分析节点v24可知它与社区2中的度数较大的节点v33, 节点v34均直接相连, 所以将它划分到社区2更合理. 对比图3和图4可见, 改进算法在社区划分结构方面与Louvain算法相差较小.图3 Louvain算法对Zachary的社区划分结果Fig.3 Community partition results of Zachary by Louvain algorithm图4 改进算法对Zachary的社区划分结果Fig.4 Community partition results of Zachary by improved algorithm3.2 改进算法的模块度与社区数分析图5 两种算法模块度比较Fig.5 Modularity comparison of two algorithms根据6个社会网络的实验结果对Louvain算法与改进算法关于模块度与社区数目做出分析. 模块度Q作为社区划分算法效果的度量标准, 一般模块度越高, 社区结构划分越合理. 由文献[11]可见, Louvain算法相对于其他算法模块度相对较高.图5为Louvain算法与改进算法的模块度柱状图比较. 由图5可见, 改进算法与Louvain算法在模块度上的差别较小, 只略低于原始算法. 其原因可能是由于算法开始阶段, 对于处于划分后社区边界的节点由于其邻居节点尚未划分, 无法进行相似度投票而导致误划分. 纯模块度的度量标准倾向于小社区, 具有极端退化的现象[19], 所以可能导致Louvain算法的社区结构与实际社区结构不同, 但模块度却很高；而改进算法则倾向于更紧凑的社区结构, 可能会有一小部分的模块度损失, 从而导致模块度略低于Louvain算法.社区数目G也是用于测评算法准确性的一个重要度量标准. 合理的社区数目将使划分出来的社区结构更紧凑, 社区成员间的关系更符合实际情况. 表2列出了两种算法对6个社会网络划分的社区数目. 由表2可见, 改进算法与Louvain算法在前4个网络上划分的社区数目相差较小, 但均少于Louvain算法划分的社区数目；后2个网络中, 改进算法相对于Louvain算法对大规模社会网络划分的社区数目更少. 为了进一步说明改进算法相对于其他算法在模块度与社区数目上的差异, 下面将改进算法与文献[10]的FN算法对前4个小规模网络的实验结果进行比较, 结果列于表3. 由表3可见, 改进算法的模块度明显高于FN算法, 社区结构更合理, 相对的社区数目相差较小, 表明改进算法虽然比Louvain算法在模块度上稍差, 但对于社区结构划分的合理性比FN算法更好, 而且从算法的时间复杂分析可知, FN算法具有O()时间复杂度, 明显高于改进算法的近似线性复杂度. 因此，改进算法优于FN算法. 由表3还可见, 在模块度基本保持不变的情况下, 改进算法划分出的社区数目更少, 结构更紧凑, 因此, 将改进算法用于对大规模的社会网络进行社区划分具有一定的可行性.表2 两种算法划分的社区数目比较Table 2 Comparison of number of communities for two algorithms社会网络KarateDolphinsYeastPowerAstro-phCond-mat-2005Louvain算法4524414181 036改进算法4422404121 017 表3 FN算法与改进算法比较Table 3 Comparison of FN algorithm and improved algorithm社会网络模块度QFN算法改进算法社区数目GFN算法改进算法Karate0.375 10.417 234Dolphins0.506 30.519 044Yeast0.710 20.723 22022Power0.925 30.934 736403.3 改进算法的时间效率分析准确性与时间效率是衡量算法优劣的两个重要指标.图6与图7分别是两种算法的时间开销(T)对比与时间提升百分数(1-改进算法时间/Louvain算法时间)对比结果. 由图6可见, 在6个社会网络中改进算法的时间开销均较小.图7为改进算法对于Louvain算法的时间提升百分数. 由图7可见， 6个网络的时间提升百分数分别为30.0%,22.4%,3.6%,42.1%,11.0%,16.9%. 因此在前4个规模较小的社会网络上, 其中3个网络中改进算法的提升效果在20%以上, 在Yeast 网络上只有3.6%. 分析Yeast网络可知其节点数很少, 却有近万条边, 在计算节点相似度上花销较大, 且节点少会加快Louvain算法的收敛速度, 所以提升效果不明显. 在Astro-ph和Cond-mat-2005大规模社会网络上提升的效率都超过了10%, 所以大规模网络的提升效果较明显. 改进算法在大部分的社会网络上的时间开销比Louvain算法少, 将改进算法用于大规模社会网络的社区划分在时间效率上可行. 图6 两种算法的时间对比Fig.6 Time comparison of two algorithms图7 改进算法相对Louvain算法的时间提升百分数Fig.7 Time lifting percentage of improved algorithm relative to Louvain algorithm综上可见, 本文从模块度、社区数和时间效率三方面综合分析总结了两种算法在社区划分上的差异, 说明了改进算法用于社区划分的可行性. 对于一些基于社区划分的应用, 如果其对准确性要求不高, 则使用改进算法能更快地对用户的请求做出回应, 从而提升用户的体验效果. 对于需要实时划分的动态网络, 由于改进算法的节点相似度计算结果可重复利用, 只需重新计算由于节点变动带来的相似度变化的节点, 省去了大部分节点的相似度计算, 所以能很快地完成动态网络的社区划分.参考文献【相关文献】[1] Ino H, Kudo M, Nakamura A. Partitioning of Web Graphs by Community Topology[C]//International Conference on World Wide Web. New York: ACM, 2005: 661-669.[2] Redner S. How Popular Is Your Paper? An Empirical Study of the Citation Distribution [J]. The European Physical Journal B, 1998, 4(2): 131-134.[3] 窦炳琳, 李澍淞, 张世永. 基于结构的社会网络分析 [J]. 计算机学报, 2012, 35(4): 741-753. (DOU Binglin, LI Shusong, ZHANG Shiyong. Social Network Analysis Based on Structure [J]. Chinese Journal of Computers, 2012, 35(4): 741-753.)[4] Girvan M, Newman M E J. Community Structure in Social and Biological Networks [J]. Proceedings of the National Academy of Sciences of the United States of America, 2002, 99(12): 7821-7826.[5] Pothen A, Simon H D, Liou K P. Partitioning Sparse Matrices with Eigenvectors of Graphs [J]. Siam Journal on Matrix Analysis & Applications, 1990, 11(3): 430-452.[6] Duch J, Arenas A. Community Detection in Complex Networks Using Extremal Optimization [J/OL]. Physical Review E, 2005-08-24. doi: 10.1103/PhysRevE.72.027104. [7] Kernighan B W, Lin S. An Efficient Heuristic Procedure for Partitioning Graphs [J]. Bell System Technical Journal, 1970, 49(2): 291-307.[8] Newman M E J, Girvan M. Finding and Evaluating Community Structure in Networks [J/OL]. Physical Review E, 2004-02-26. doi: 10.1103/PhysRevE.69.026113.[9] Newman M E J. Fast Algorithm for Detecting Community Structure in Networks [J/OL]. Physical Review E, 2004-06-18. doi: 10.1103/PhysRevE.69.066133.[10] Blondel V D, Guillaume J L, Lambiotte R, et al. Fast Unfolding of Communities in Large Networks [J]. Journal of Statistical Mechanics, 2008(10): 155-168.[11] Frey B J, Dueck D. Clustering by Passing Messages between Data Points [J]. Science, 2007, 315: 972-976.[12] Yuan C, Chai Y. Group Similarity Based Algorithm for Network Community Structure Detection [J]. Acta Physica Sinica, 2012, 61(21): 514-518.[13] 梁宗文, 杨帆, 李建平. 基于节点相似性度量的社团结构划分方法 [J]. 计算机应用, 2015, 35(5): 1213-1217. (LIANG Zongwen, YANG Fan, LI Jianping. Community Structure Detection Based on Node Similarity in Complex Networks [J]. Journal of Computer Applications, 2015, 35(5): 1213-1217.)[14] 姜雅文, 贾彩燕, 于剑. 基于节点相似度的网络社团检测算法研究 [J]. 计算机科学, 2011, 38(7): 185-189. (JIANG Yawen, JIA Caiyan, YU Jian. Community Detection in Complex Networks Based on Vertex Similarities [J]. Journal of Computer Science, 2011, 38(7): 185-189.) [15] Leicht E A, Holme P, Newman M E J. Vertex Similarity in Networks [J/OL]. Physical Review E, 2006-02-17. doi: 10.1103/PhysRevE.73.026120.[16] Hu Y, Li M, Zhang P, et al. Community Detection by Signaling on Complex Networks [J]. Physical Review E Statistical Nonlinear & Soft Matter Physics, 2008, 78(2): 139-143. [17] Newman M E J. Modularity and Community Structure in Networks [J]. Proceedings of the National Academy of Sciences of the United States of America, 2006, 103(23): 8577-8582.[18] Zachary W W. An Information Flow Model for Conflict and Fission in Small Groups [J]. Journal of Anthropological Research, 1977, 33(4): 452-473.[19] Good B H, Montjoye Y A, de, Clauset A. Performance of Modularity Maximization in Practical Contexts [J/OL]. Physical Review E, 2010-04-15. doi: 10.1103/PhysRevE.81.046106.。

1、下载文档前请自行甄别文档内容的完整性，平台不提供额外的编辑、内容补充、找答案等附加服务。
2、"仅部分预览"的文档,不可在线预览部分如存在完整性等问题,可反馈申请退款(可完整预览的文档不适用该条件!)。
3、如文档侵犯您的权益，请联系客服反馈,我们会尽快为您处理(人工客服工作时间：9:00-18:30)。

但是，在大多数的实际网络中，每个源节点与其它节点之间并不只是存在一条最短路径，一些节点对之间存在若干条长度相等的最短路径。
(0,1)
(1,1)
(1,1)
(2,1) (2,2)
(2,1)
(3,1) (3,2) (3,3)
从源节点 S 出发，为每个节点 i赋值，该值为从一个源节点 S 出发到达其它节点 i 的最路径的数目用 wi表示。具体步骤如下: 1. 定义源节点 S 的距离为 ds= 0，并赋予一个权值为 ws= 1。 2. 对于每一个与源节点 S 相邻的节点 i，定义它到源节点的距离为di=ds+1 ，以及该节点的权值为 wi= ws= 1。 3. 对于每一个与任意节点 i 相邻的节点 j，我们根据具体情况，采取以下三个步骤之一：如果节点 j 没有被指定距离，那么，指定其距离为 dj= di+1，权值为 wj= wi；如果已经指定了节点 j的距离，并且节点 j 的距离值为 dj= di+1，那么就要在原来的基础上将节点 j 的权值再增加 wi，使其权值为wj，即 wj← wj+wi；如果已经指定了节点 j 的距离，并且距离为 dj< di+1，那么，直接执行步骤 4。 4. 重复执行第 3 个步骤，一直到网络中不存在满足以下条件的节点，即其本身已经被指定了距离，但是其邻接点却没有被指定距离。
移除具有最高边界数的边
GN算法的缺点
计算速度慢，边介数计算的开销过大，时间复杂性高，只适合处理中小规模的网络(包含几百个节点的网络)。二、G-N 算法的思想
流程如下：
1、计算网络中所有边的边介数。 2、找到边介数最高的边并将它从网络中移除。 3、重复步骤1,2，直到每个节点就是一个退化的社区为止。
边介数定义和计算
最短路径边介数方法是一种最简单的边介数度量方法，一条边的边介数(betweenness)是指从某个源节点 S 出发通过该边的最短路径的数目，对所有可能的源节点，重复做同样的计算，并将得到的相对于各个不同的源节点的边介数(betweenness)相加，所得的累加和为该边相对于所有源节点的边介数。
社区划分算法—GN算法
什么是社区划分

现实生活中存在着各种各样的网络系统，如人际关系网、合作网、交通运输网、计算机网等。由于这种网络是真实复杂系统的拓扑抽象，因此它被称为复杂网络。通常整个网络是由若干个“群（group）”或“团（cluster）”构成的。每个群内部的节点之间的连接相对非常紧密，但是各个群之间的连接相对来说却比较稀疏。如下图所示。图中的网络包含三个社团，分别对应图中三个圆圈包围的部分。在这些社团内部，节点之间的联系非常紧密，而社团之间的联系就稀疏的多。
(0,1) 25/6 (1,1)
(1+1/3+1)*1
11/6 (1,1)
(1+2/3)*1/2 (1+2/3)*1/2
(2,1)
(2,2) 2/3 1/3
1
(3,3)
(3,1)
从节点 j 经过节点 i 到达源节点的最短路径的数目与节点 j 到达源节点的最短路径的数目之比为 wi/wj，对于源节点 S，应该采取以下步骤计算边界数： 1. 找到所有的叶子节点 f，该叶子节点 f 不被任何从源节点出发到达其它任何节点的最短路径所经过。 2. 假设叶子节点 f 与节点 i 相邻，那么就将权值 wi/wf赋给从节点 f 到节点 i 的的边。 3. 从距离源节点 S 最远的边开始，从下至上直到源节点 S为从节点 i 到节点 j 的边赋值为位于该边之下的所有邻边的权值之和再加上 1，然后，再将其和乘以 wi/wj，最后的结果就是该边的边介数。 4. 重复步骤 3，直到遍历图中的所有节点。
假设有一个具有 m 条边和 n 个节点的图，考虑一种比较简单的情况，假设从任何一个源节点出发，对该图进行搜索，该源节点与其它节点之间都只存在一条最短路径，图中的所有最短路径构成一个最短路径树。利用这颗最短路径树来计算每条边的边介数。
2
4
1
1
2
1
1，找到这棵树的叶子节点，并为每条与叶子节点相连的边赋值为 1 ； 2，按照自下而上的方向为该搜索树中的每条边赋值，从与源节点 S 之间距离最远的边开始，其值等于位于该边之下的所有邻边的值之和再加上 1； 3，按照这种赋值方式，对搜索树中的所有边进行遍历，那么每条边的相对于某个源节点 S的边介数就是该边的值，对于所有可能的源节点，我们都重复上述过程； 4，将每条边的相对于各个源节点的边介数相加，最终结果就是每条边的相对于各个源节点的边介数，即所有节点对间的最短路径的边介数。

社区划分就是在大型复杂网络中进行社区搜寻或发现社区。
GN算法介绍
GN算法是一个经典的社区发现算法，它属于分裂的层次聚类算法。其基本思想是不断的删除网络中具有相对于所有源节点的最大的边介数(ege betweenness)的边，然后，再重新计算网络中剩余的边的相对于所有源节点的边介数，重复这个过程，直到网络中，所有边都被删除。