空间网络的数据挖掘和应用 (1)

合集下载

空间数据挖掘技术的发展与应用

空间数据挖掘技术的发展与应用

空间数据挖掘技术的发展与应用1. 引言空间数据挖掘技术是指利用数据挖掘算法和技术手段对空间数据中的有价值信息进行提取和分析的过程。

随着科技的不断进步和数据的大规模产生,对空间数据挖掘技术的需求也在逐渐增加。

在本文中,将探讨空间数据挖掘技术的发展与应用。

2. 空间数据挖掘技术的发展2.1 空间数据挖掘的概念与原理空间数据挖掘技术是将数据挖掘技术应用到空间数据中,通过对空间数据的挖掘和分析,挖掘出数据中的潜在规律和有价值的信息。

空间数据挖掘技术的核心任务包括:分类、聚类、关联规则挖掘和异常检测等。

2.2 空间数据挖掘技术的发展历程空间数据挖掘技术的发展可以追溯到上世纪80年代。

在当时,由于计算机技术的限制和数据量的有限,空间数据挖掘技术受到了很多限制。

但随着计算机技术和数据采集技术的不断进步,空间数据挖掘技术发展迅速。

现在,各种针对空间数据挖掘的算法和模型被提出,并且得到了广泛的应用。

3. 空间数据挖掘技术的应用3.1 地理信息系统地理信息系统(Geographic Information System,简称GIS)是空间数据挖掘技术最常见的应用之一。

利用空间数据挖掘技术,可以对地理数据进行分析和挖掘,从而提取出地理数据中的有价值信息。

这些信息可以用于城市规划、环境保护、交通管理等领域。

3.2 物流与交通管理空间数据挖掘技术也被广泛应用于物流与交通管理领域。

通过对交通数据和物流数据的挖掘,可以分析交通流量、相关道路的瓶颈问题,进而优化交通路线和物流方案,提高效率和降低成本。

3.3 智能导航系统智能导航系统是一个利用空间数据挖掘技术的应用。

通过对用户位置数据的挖掘,可以为用户提供个性化的导航服务。

智能导航系统可以根据用户的出行习惯和实时交通状况,提供最佳的导航方案,并且能够根据用户的反馈进行实时调整。

3.4 自然灾害预测与应对空间数据挖掘技术在自然灾害预测与应对方面也发挥着重要的作用。

通过对历史灾害数据的挖掘,可以分析出自然灾害的规律和趋势,提前预测自然灾害的发生概率和影响范围。

数据挖掘及其应用

数据挖掘及其应用
96 科技资讯 SCIENCE & 一 C日 任 NOLOOY !NFORMAT!ON
T 技 术
数据挖掘及其应用
(华南 工 学 学 广州 510 4 ) 理 大 软件 院 60
摘 要: 数据库一数据仓库技术和网 络技术的迅猛发展, 使我们积累了 越来越多的数据, Байду номын сангаас何对这种海量数据进行深人分析和利用, 并从中发现有用的知识, 已成为信息化社会所面临的重要问题。 本文探讨近年发展起来的海量数据处理技术— 数据挖掘的概念、 任
数据挖掘 (Da a Min ng ,简称DM) 就是从大量的、 t i 不
4 数据挖掘的应用 包含共性描述和区别性描述两部分。相关性分析, 是指从用户指 随着大量算法的完善, 挖掘过程的系统化、规范化,以及 定的数据库中采掘出满足一定条件的依赖性关系以 分类分析, 工具的不断推陈出 数据挖掘技术已 新, 显现了 它广泛的应用前景。 是指已知训练数据的特征和分类结果,为每一个类找到一个合 数据挖掘技术的应用范围涉及社会的所有领域, 在商业上的应用 理的描述或模型, 然后再用这些分类的描述或模型对未知的新的 尤其受到重视。下面讨论几个典型的应用领域。 数据进行分类; 聚类分析, 是指按被处理对象的特征分类,有 4. 1 零售业中的数据挖掘 相同特征的对象被归为一类. 它与分类分析的区别在于分类是基 基于数据挖掘的数据仓库的设计与构造。 数据仓库的主要用 于训练数据的, 而聚类则直接对数据进行处理: 趋势分析, 又叫时 途是支持数据分析和数据挖掘, 预先的一些数据挖掘例子的结果 间序列分析, 是指从相当长时间的发展趋势中发现规律和趋势;偏 可作为设计和开发数据仓库结构的参考依据。 其中涉及要决定包 差分析, 又叫比较分析, 即找出一系列判别式的规则, 以区别用户 括哪些维和什么级别, 以及为保证高质量和有效的数据挖掘应进 设定的2 个不同类。 行哪些预处理;促销活动的有效性分析。多维分析通过比较促销 期间的销售量和交易数量与促销活动前后的有关情况来分析促销 3 数据挖掘的方法 活动的有效性;顾客保持力 — 顾客忠诚分析。由一个顾客在不 根据数据挖掘的任务及信息的数据格式, 通常采用的方法为: 同时期购买的商品可以分组为序列。 序列模式挖掘可用于分析顾 机器学习方法、 统计方法、 神经网络方法和数据库方法。 机器学 客的消费或忠诚的变化, 据此对价格和商品的花样加以调整, 以便 习中, 可细分为:归纳学习方法、 基于范例学习、 遗传算法等。 统 留住老客户, 吸引新顾客。 计方法中, 可细分为: 回归分析、 判别分析、 聚类分析、 探索性分 4, 电信业中的数据挖掘 2 析等。 神经网 络方法中, 可细分为:前向神经网 络、自 组织神经网 电信数据的多维分析。 用OLAP和可视化工具对电信数据进 络等。 数据库方法主要是多维数据分析或OLAP 方法。 本文着重 行多维分析, 有助于识别和比较数据通信情况,系统负载,用户 介绍几个常用的方法。 组行为, 以及利润等等;盗用模式分析和异常模式识别。 通过多维 3。 分类法 1 分析、 聚类分析和孤立点分析可以发现异常模式, 例如, 总是占线 分类法是最普通的数据挖掘方法之一, 它试图按照事先定义 无法接人、转换和路由阻塞等等。 的标准对数据进行归类。分类法大至上可分为如下几种类型:决 4. 3 金融业的数据挖掘 策树归纳法。 决策树归纳法根据数据的值把数据分层组织成树型 为多维数据分析和数据挖掘设计和构造数据仓库。 多维数据 结构 ; 分析可以分析银行和金融数据仓库中数据的一般特性; 贷款偿还 规则归纳法。 规则归纳法是由 一系列的i 一 f then规则来对数 预测和客户信用政策分析。 将数据挖掘技术中的特征选择和属性 据进行归类;神经网络法。神经网络法主要是通过训练神经网络 相关性计算应用到贷款偿付预测和客户信用政策, 有助于识别重 使其识别不同的类, 再利用神经网络对数据进行归类。 要因素, 剔除非相关因素, 使银行优化调整贷款发放政策;对目 标 3。 遗传算法 2 市场客户的分类与聚类。 分类和聚类的方法可用于用户群体的识 遗传算法是基于达尔文的进化论中基因重组、 突变和自 然选 别和目 标市场分析。 例如, 通过多维聚类分析, 可以将具有相同储 择等概念。这些算法作用于对某一特定问题的一组可能的解法。 蓄和贷款偿还行为的客户分为一组。 它们试图通过组合或 “ 繁殖” 现存的最好的解法来产生更好的解 法。 利用 “ 适者生存”的概念使较差的解法被抛弃, 从而导致解 5. 结语 法的集合,即繁殖的结果得到改善。 随着对数据挖掘技术在各领域日 益广泛的应用, 实现了数据 3. 3 神经网络 资源共享及技术发展的跨域, 从而大大提高了工作效率,并带来 人工神经网络是模拟人类的形象直觉思维、是在生物神经 巨大的成功。 世纪是信息时代的社会,信息不仅是资源, 1 2 “ 更是 网络研究的基础上, 根据生物神经元和神经网络的特点,通过简 财富”要实现经济的腾飞, , 需依赖高新尖科技的发展, 故利用提供 化、归纳、提炼总结出来的一类并行处理网络。利用其非线 的信息, 充分进行 挖掘,则将为 库的应用开辟了广阔的 性映射的思想和并行处理的 法, 用神经网络本身结构可以表达 前景, 也为人类的文明开辟了一个崭新的时代。 输入与输出的关联知识。它完成输入空间与输出空间的映射关

空间数据挖掘技术及其应用

空间数据挖掘技术及其应用

空间数据挖掘技术及其应用一、介绍空间数据挖掘技术是一种将空间数据与数据挖掘技术相结合的分析方法,旨在从大量的空间数据中发现隐藏的模式、关联以及规律,以提供更深入的空间信息洞察力。

在现代社会中,随着地理信息系统(GIS)和遥感技术的发展,空间数据的数量与规模不断增加,因此,利用空间数据挖掘技术进行数据分析已成为一种重要的研究领域。

二、空间数据挖掘技术的分类空间数据挖掘技术主要可分为三大类:空间聚类分析、地理关联规则挖掘和空间预测分析。

1. 空间聚类分析空间聚类分析旨在将相似的空间对象分组或聚集在一起,从而形成具有内部紧密性和外部分离性的空间簇。

其中最常用的聚类方法包括静态聚类和动态聚类。

静态聚类方法使用一次性的计算,将空间对象划分为不同的集群。

动态聚类方法则允许随着时间变化对空间数据不断地进行聚类,从而更好地反映实际情况。

2. 地理关联规则挖掘地理关联规则挖掘是指在空间数据集中发现空间对象之间的关联性规则。

通过关联规则挖掘,可以发现不同空间对象之间的关联性,例如购物中心的开设与周边商户的关系,或是犯罪地点与周边环境因素的关系。

地理关联规则挖掘为规划和决策提供了重要依据。

3. 空间预测分析空间预测分析通过利用历史数据和当前空间数据进行模型训练,进而预测未来的空间趋势和变化。

空间预测分析可应用于多个领域,如气象预测、交通预测和人口迁移模拟等。

预测分析的准确性对于决策制定和规划调整具有重要影响。

三、空间数据挖掘技术的应用1. 城市规划与建设空间数据挖掘技术可以帮助城市规划师更好地理解城市的发展趋势和特征,支持科学决策和规划设计。

例如,通过挖掘城市空间数据,可以确定新建街道或公共交通设施的最佳位置,优化城市交通流量。

2. 环境保护与资源管理利用空间数据挖掘技术,可以对环境资源进行有效管理和保护。

例如,在森林砍伐行为监测中,可以通过挖掘遥感影像数据和地面监测数据,识别出非法砍伐行为以及砍伐的热点地区。

这有助于提高监管效能,保护生态环境。

空间数据挖掘技术及其应用

空间数据挖掘技术及其应用

随着数据 库技 术的不 断发 展 和数据库 管 理系统 的广泛 应用 , 数据 库 中存储 的数据 量急剧增 大 , 在这 些 大量 数据 的背 后 隐藏 了 很 多 具 有 决 策 意 义 的 信 息 。但 是 , 今数 据 库 的 大多 数 应 用仍 然 停 留在 查 现 询、 检索 阶段 , 据库 中隐藏 的丰富 的知识 远 远 没有 数 得到 充分 的发掘 和 利用 , 数据 库 的急 剧 增长 和人 们 对数 据库处 理 和理 解 的困难 形 成 了 强烈 的反 差 , 导 致“ 人们被 数据 淹 没 , 却饥 饿 于知 识 ” 但 的现 象 。数 据 挖 掘 和 知 识 发 现 ( aa Miig a d K o l g Dt nn n n we e d Dsoev 简称 DMK ) 术 , 是在 这 种 背 景 下应 i vr , c D 技 就 运 而生 的。数 据挖 掘 与 知识 发 现 是 指 从 大量 的 、 不 完全 的 、 噪声的 、 糊 的 、 机 的 实 际应 用 数 据 中 有 模 随 提取 隐含 的、 未知 的 、 在 的 、 潜 有用 的信息 的过程 。 空 间数 据库 ( 据仓 库 ) 数 中的空 间数 据 除了其显 式 信息外 , 具有 丰富 的 隐含信息 , 还 如数 字 高程模 型 ( E 或 T N) 了载 荷高 程信息 外 , 隐 含了地 质 D M I 除 还 岩性与 构造 方面 的信 息 ; 物 的种 类 是 显 式 信 息 , 植 但其 中还 隐含 了气 候 的水 平地带 性 和垂直 地带性 的
习 、 据 库 和 统 计 等 成 熟 技 术 为 基 础 。 下 面 介 绍 近 数
信息 , 等等 。这些 隐含 的信 息 只有 通 过数 据挖 掘 才
能显示 出来 。空 间 数 据 挖 掘 ( pt l aa Miig S a a D t nn , i 简称 S DM) 或称从 空间数 据 库 中发 现知 识 , 为数 , 作 据挖掘 的一个 新 的 研 究分 支 , 是指 从 空 间 数 据库 中 提取 隐含 的 、 用户 感 兴 趣 的 空 间 和非 空 间 的模 式 和 普遍特 征 的过程 J 。由于 S M 的对 象 主要 是空 间 D 数据库 , 空间数 据 库 中不 仅 存储 了空 间事 物 或对 而 象 的几何数 据 、 属性 数据 , 而且 存储 了 空间事 物或 对 象之 间 的图形空 间关 系 , 因此 其 处 理方 法 有 别 于 一 般 的数 据挖 掘 。S M 与传 统 的地 学 数 据 分 析 方 法 D

空间数据挖掘技术研究

空间数据挖掘技术研究

空间数据挖掘技术研究一、引言现如今,物联网、人工智能、云计算等技术快速发展,产生了海量的空间数据,如何高效地挖掘这些数据对于我们的社会、经济、科学发展都具有重要的意义。

空间数据挖掘技术是一种有效的手段,在城市规划、交通管理、自然资源管理等领域发挥着越来越重要的作用。

本文将围绕着空间数据挖掘技术展开探讨。

二、空间数据挖掘技术简介空间数据挖掘技术是一种在空间数据中寻找隐含的、未知的、有用的模式和知识的过程。

这种技术是在数据挖掘的基础上,集成了地理信息系统(GIS)、遥感技术、全球定位系统(GPS)、计算机科学等多个领域的技术手段,对空间数据进行挖掘和分析,以期从中挖掘出有用的信息和知识。

空间数据挖掘技术主要包括以下几种方法:1.空间关联分析:根据空间关系分析空间数据之间的相互关系,例如查找一系列位置相关联的客户;2.空间聚类分析:对地理位置信息进行分组或聚类,从而在现实世界中寻找相关联的模式;3.空间预测模型:基于已有的数据集,预测未来发展趋势和潜在情况;4.地图数据生成技术:应用各种地图制作软件和技术,生成各种类型的地图。

三、空间数据挖掘技术在实际应用中的应用1.城市规划城市规划是应用空间数据挖掘技术的重要领域之一。

城市规划需要分析不同地区的发展趋势,空间数据挖掘技术可以帮助城市规划师更好地理解城市的经济、社会和民生情况,为城市的规划提供指导性的参考。

例如,可以通过城市交通运输网络的分析,优化道路网络,缓解市区交通拥堵,提高城市的通行效率。

2.交通管理交通管理是另一个重要的应用领域。

利用空间数据挖掘技术可以发现城市的瓶颈问题,进行合理的路网规划、交通信号灯的设置等。

其中,可以通过定位技术和移动设备数据收集信息,进行车辆流量监控,并实现实时的流量分析和交通控制。

3.自然资源管理空间数据挖掘技术在自然资源管理领域同样发挥着重要作用。

通过采集遥感数据可以进行植被覆盖率、耕地率、地表覆盖类型等多方面数据的分析,为森林、水源保护和防沙治沙等多种生态管理提供依据。

空间数据挖掘及技术(综述)

空间数据挖掘及技术(综述)

01
水质监测
通过挖掘水质监测数据,评估水体质量 状况,为水环境治理和水资源保护提供 依据。
02
03
土壤质量监测
利用空间数据挖掘技术,监测土壤质 量状况,为土地资源保护和农业可持 续发展提供支持。
THANKS
感谢观看
空间聚类分析
将相似的空间对象归为同一类。
空间分类模型
根据已知的空间数据对新的空间对象进行分 类。
空间数据可视化
地图可视化
将空间数据以地图的形式呈现,便于理解和 分析。
三维可视化
利用三维图形技术展示空间数据,提供更直 观的视角。
可视化交互
允许用户通过交互操作来探索和查询空间数 据。
可视化分析工具
提供专业的可视化分析功能,帮助用户深入 挖掘空间数据的价值。
可解释性机器学习
研究如何让机器学习模型产生的结果更容易被人类理解和接受。
数据隐私保护
在空间数据挖掘过程中,保护用户隐私和数据安全是重要的问题,需 要研究如何在保证隐私的前提下进行有效的数据挖掘。
05
空间数据挖掘案例研究
城市规划中的空间数据挖掘应用
城市用地适宜性评价
利用空间数据挖掘技术,对城市用地进行适 宜性评价,为城市规划提供科学依据。
人工智能与机器学习在空间数据挖掘中的应用
深度学习
利用神经网络模型对空间数据进行特征提取和 模式识别,提高挖掘精度和效率。
强化学习
通过与环境的交互学习,自动优化空间数据挖 掘任务中的参数和策略。
迁移学习
将在一个任务上学到的知识应用于其他相关任务,减少重新训练模型的时间和 成本。
空间数据挖掘与其他领域的交叉研究
2
通过空间数据挖掘,可以发现隐藏在空间数据中 的知识,揭示出地理现象的内在规律,为解决实 际问题提供科学依据。

空间数据挖掘算法及预测模型

空间数据挖掘算法及预测模型

空间数据挖掘算法及预测模型一、引言空间数据挖掘算法及预测模型是地理信息系统(GIS)领域的重要研究方向。

随着遥感技术的发展和传感器网络的普及,获取了大量的空间数据,如地理位置信息、气象数据、人口统计数据等。

这些数据在城市规划、环境监测、交通管理等方面起着重要的作用。

本文将介绍空间数据挖掘算法及预测模型的基本概念、常见方法和应用案例。

二、空间数据挖掘算法1. 空间数据挖掘概述空间数据挖掘是从空间数据库中发现特定模式和关系的过程。

它可以帮助我们理解地理空间中的变化和关联性。

空间数据挖掘算法可以分为聚类、分类、关联规则挖掘等多个方面。

2. 空间数据聚类算法空间数据聚类是将相似的空间对象归类到同一组或簇中的过程。

常见的聚类算法有基于密度的聚类算法(如DBSCAN)、基于网格的聚类算法(如STING)、基于层次的聚类算法等。

这些算法可以帮助快速识别出地理空间中的热点区域、异常值等。

3. 空间数据分类算法空间数据分类是根据不同的属性和特征将地理空间对象进行分类的过程。

常用的分类算法有决策树、支持向量机(SVM)、人工神经网络等。

通过使用这些算法,可以对地理空间对象进行自动分类和识别,如土地利用类型、植被覆盖类型等。

4. 空间数据关联规则挖掘算法空间数据关联规则挖掘是在地理空间中发现不同空间对象之间的相关性和关联关系。

常见的关联规则挖掘算法有Apriori、FP-growth等。

这些算法可以帮助我们发现地理空间中的相关性模式,如犯罪与社会经济因素之间的关系。

三、空间数据预测模型1. 空间数据模型概述空间数据模型是对地理空间对象进行描述和建模的一种方法。

常见的空间数据模型有基于图的数据模型、基于栅格的数据模型、基于矢量的数据模型等。

这些模型可以帮助我们对地理空间中的实体和属性进行建模和分析。

2. 空间数据预测模型空间数据预测模型是基于历史数据和现有数据对未来空间情况进行预测的一种方法。

常见的空间数据预测模型有回归分析、时间序列分析、人工神经网络等。

空间数据挖掘方法及应用研究

空间数据挖掘方法及应用研究

空间数据挖掘方法及应用研究近年来,随着卫星技术的不断发展和地理信息系统的普及,空间数据已成为人们研究地球及其变化的重要源泉。

空间数据挖掘是从空间数据中自动或半自动地发现潜在的知识和信息的过程,可以广泛应用于地球科学、城市规划、环境监测、资源管理等领域。

本文旨在概括介绍空间数据挖掘的方法及应用研究进展。

一、空间数据挖掘的方法1. 空间关联分析方法空间关联分析是空间数据挖掘的基础方法之一,其通过计算物体间的空间关系来探索潜在的统计关联。

其中,空间关系主要包括邻近关系、重叠关系、包容关系和相交关系。

常见的空间关联分析方法有基于点或面的空间自相关分析、空间聚类、空间关联规则挖掘等。

2. 空间聚类方法空间聚类方法是一种将数据分组或划分为几个类别的技术,它将相似的物体放在一起,同时保证不同组之间的差异性尽可能大。

空间聚类方法可以应用于地震预测、城市规划、军事情报等领域。

常见的空间聚类方法有k-means聚类算法、层次聚类和基于密度的聚类等。

3. 空间分类方法空间分类是空间数据挖掘的另一种重要方法,主要通过分类器对数据进行划分。

分类器是一种基于训练数据建立模式,将未知数据映射到属性空间中的方法。

常见的空间分类方法有决策树、支持向量机、随机森林、神经网络等。

二、空间数据挖掘的应用研究进展1. 基于遥感影像的土地利用变化检测遥感影像是空间数据挖掘中的重要数据源,可以用于土地利用变化检测。

利用空间分类方法和变化检测算法,可以实现对城市扩张、农业发展等土地利用变化的自动检测和量化。

2. 基于移动轨迹数据的交通流量预测移动轨迹数据是包含时空信息的数据,可以用于交通流量预测。

利用空间关联规则挖掘和聚类方法,可以对车辆移动模式进行建模,预测交通拥堵区域和路段,为城市交通规划提供科学依据。

3. 基于地球物理数据的矿产资源发现利用地球物理数据进行空间建模和特征提取,可以实现对矿区地质构造和矿产资源的识别和预测,帮助开采和利用矿产资源。

  1. 1、下载文档前请自行甄别文档内容的完整性,平台不提供额外的编辑、内容补充、找答案等附加服务。
  2. 2、"仅部分预览"的文档,不可在线预览部分如存在完整性等问题,可反馈申请退款(可完整预览的文档不适用该条件!)。
  3. 3、如文档侵犯您的权益,请联系客服反馈,我们会尽快为您处理(人工客服工作时间:9:00-18:30)。

络中所包含的内在科学规律,学者们结合空间数据挖掘等方法展开了相应的研究。

空间网络的特征空间网络是节点位于具有度量的空间上的网络,一般来说是二维空间,通常的度量方式是欧式距离[2]。

在这些网络中,节点包含了位置信息,连接边包含了距离或者是空间关系信息。

例如在社交网络中,节点包含了该个体的位置信息,连接边长包含了朋友间的地理距离信息;又如在城市路网中,如果将路段看作节点,若路段与路段之间有交叉口,则两点相连,这时连接边就包含了空间相邻关系。

空间网络的连接不一定是嵌入空间的,例如社交网络、航空网络,因此它不等同于平面网络,但是很多空间网络却具有平面性,例如公路网、铁路网、电力网等。

学者们从图论的角度对空间网络进行研究,发现许多空间网络具有复杂网络的特征。

例如对印度铁路和航空网络的分析均发现了网络的小世界属性[3,4];对城市路网和城市交通流的研究发现了城市交通的幂律分布,交通最繁忙的20%街道承载了80%的交通流[5,6]。

由于这些空间现象中存在着复杂网络的特征,人们开始用复杂网络的方法解决空间网络的问题。

克鲁奇蒂(Cru-citti)等人研究了不同城市路网的四种中心性指标,发现用这四种中心性指标能够反映城市的结构,而且可以通过中心性指标的分级聚类判断城市的规划和组织模式——自组织的城市具有复杂网络的无标度特征,而有规划的城市没有这样的特征[7]。

对中国航空网络中心性以及客流量的研究发现,航空网络中城市的中心性和吸引力与城市的人口、社会经济指标高度相关[8,9]。

与一般的复杂网络相比,空间网络还具有独特的空间上的特征。

在这些网络中节点之间的距离与它们的连接强度有关,因而对网络的拓扑属性有重要的影响。

2011年手机照片社交网络软件Color提出了“弹性社交网络”这一新概念(参见Mobile 2.0网引言在我们生存的空间,事物之间密不可分的联系好似千丝万缕将其连接起来,形成各种巨大的网络。

长久以来,大量探索自然的研究都是将整个世界不断地拆分,去分析理解各个部件,却不知道如何再把它们组装起来[1]。

我们似乎往往是知道了方方面面的知识,却依然对整个系统一无所知。

究其原因是我们忽视了对事物间连接关系的研究。

专门研究连接关系的理论——复杂网络,恰好为从表面看来杂乱无章的复杂系统提供了有力有效的分析方法。

很多复杂网络都是构建在地理空间之中的。

最典型的是交通网络,如城市路网、航线网络、铁路网络,还有社交网络、手机通讯网络等。

基于托普勒地理学第一定律(Tobler’s First Law of Geography):越接近的事物越相关。

涉及到地理现象和人类活动时,复杂网络表现出空间上的相关性或随距离变化的特征。

为了能够清晰地诠释这类空间复杂网许 珺 陈 娱 徐敏政中国科学院地理科学与资源研究所空间网络的数据挖掘和应用关键词:空间网络 数据挖掘 异构信息网站,2011)。

所谓“弹性”是指每当Color 监测到你与其他用户地理位置接近时,就会调整你们原本的关系强度,将关注同一事件并在附近的人通过群组的方式划分,进而构建社区。

弹性社交网络从侧面反映出人们关系的强度与人们地理位置的接近程度是有关系的,人与人之间的关系随着地理位置的远近是“可松可紧”的,而越接近的人成为一个群组的可能性越大。

借助互联网,在虚拟社交网络中人们的“距离”被拉近了。

这种距离突破了地理的限制,相隔千里仍然可以即时交流或者一起参加线上活动。

表面上看,托普勒地理学第一定律在社交网络中失效了。

然而,在社交网络中,用户的地理位置潜移默化地影响着社交网络的构成、动态演变与信息传播。

从多个虚拟社交网站的数据中发现人们会更倾向于与周围的人相识,这与现实世界的现象一致。

多个研究表明在社交网络中,地理距离d 与两人互为朋友的概率P (d )相关,符合距离衰减函数:P (d )~d -α。

即两人越近越有可能是好友,而随着距离的增加,两人互为好友的概率降低(图1)。

只是在不同的数据中衰减系数α值不同。

在Liben-Nowell(立本-诺埃尔)等人对超过100万节点的社交网络数据(美国LiveJour-nal 网站数据)的研究中,得到的α值约为1[10];朗姆比奥特(Lambiotte)等人对比利时地区的手机通讯数据展开了研究,其α值约为2[11];而在翁尼拉(Onnela)等人对比利时手机通讯数据的研究中,α值约为1.5[12]。

由于连接概率随距离的衰减,网络中三角形的数量也会呈现随距离衰减的趋势。

塞拉托(Scellato)等人采用改进的加权聚类系数对几个著名的社交网站数据进行了分析对比,发现考虑地理距离之后,网络的聚类系数变小[13]。

空间网络数据挖掘复杂网络都具有社区结构的性质,即整个网络是由若干个“群”或者“团”构成的,社区内部节点连接相对紧密而社区之间的连接相对比较稀疏(如图2所示)。

对网络的社区发现有助于发现具有共性的群体,是网络数据挖掘的重要方法。

对于具有复杂网络特征的空间网络,节点之间的紧密度除了需要衡量连接关系上的紧密性,还需要考虑到它们地理距离上的远近。

复杂网络的社区发现复杂网络的社区发现,也叫图的聚类(graph cluster)或者图的分割,是根据网络结构和节点属性的相似性,将网络中的节点进行分组的方法。

将任意特征空间的点集表示为一个加权的无方向图形G =(V , E ),其中特征空间的点为图形的节点,而图形的边的权重就代表任意两点之间的相似性,用w (i , j ) 来表示。

对图形的分组就是要将V 划分为点集V 1, V 2, ⋯ , V m ,使得V i 中节点的相似性最大,而V i , V j (i ≠j )之间节点的相似性最小。

根据算法的基本思想,主要可分为图形分割算法(例如拉普拉斯谱平分算法、柯林汉-林(Kernighan-Lin)算法等)和分级聚类算法(例如GN算法、纽曼快速算法等)两图1 某社交网站数据中用户距离和连接概率的关系图2 社区结构示意图(不同的颜色代表不同社区)大类(如图3所示)。

图形分割算法 最早的柯林汉-林算法首先将网络划分为两个社区,然后不断调整社区内节点,判断它属于哪个社区更优,判断条件为增益函数(两个社区内部边数减去连接两个社区之间的边数)的大小[14]。

由于该算法需要提前知道社区的大小,因此现在使用不多。

由于复杂网络理论是基于数学图论的,因此图论中的经典分割理论,如最小割定理(minimum cut)、拉普拉斯图谱理论(Lapla-cian graph spectrum)等,是很多社区挖掘算法的理论基础。

珀森(Pothen)等人基于拉普拉斯图谱理论提出了谱平分算法[15]。

该算法复杂度较低,但是最大的缺陷是每次只能将网络平分,需要不断地重复该算法才能得到多个社区结构。

吴(Wu,音译)和赖希(Leahy)利用经典的最小割定理,提出了一种基于网络流理论的图形分割方法[16],主要是通过不断移除网络中权重最小的边使得分组后被消去的所有边的权重和最小。

这种算法的缺陷是倾向于从网络中划分出一些孤立的小点集。

为了避免这一问题,施(Shi,音译)和马利克(Malik)提出了归一化割(normalized cut)算法,将归一化割作为被消去的边的权重和与图形中所有边的权重和的比值,从而得到了优于最小割算法的聚类结果[17]。

分级聚类算法 纽曼(New-man)等人在复杂网络社区挖掘算法领域有着系统的、成熟的研究理论,其研究起着举足轻重的作用。

早在2001年,格文(Girvan)和纽曼就提出了GN算法[18],它的基本思想是不断地从网络中移除介数(Betweenness)最大的边,直到将整个网络分解为各个节点。

但是GN算法存在两个缺陷,第一是复杂度很高,处理大数量级网络时就会力不从心;第二是在不知道社区数目的情况下,GN算法不知道要分解到哪一步才能获得最优的社区结构。

针对这些问题,他们引入了模块度(modularity)的概念[19]。

假设将相同网络的边随机重新分布,模块度值就是组群中的边的数量减去随机分布后落入组群中边的数量,其物理意义就是网络中社区内部边所占的比例与同样连接数量下社区内部边所占比例的期望值之差。

如果社区内部边的比例不大于期望值,模块度值为零;模块度值为正意味着可能存在组群结构;模块度越接近1,就说明社区结构越明显。

因此寻找模块度值大的网络结构就可以发现节点的群组。

在分组过程中,每一次分解都计算一次网络的模块度值,模块度的最大值就对应着最佳的社区结构。

基于模块度的概念,纽曼等人实现了基于模块度增量的快速算法[20],随后又提出了复杂度较低的基于模块度增量矩阵及堆结构的贪婪算法(CNM算法)[21]。

其他方法 无论是图形分割思想还是分集聚类思想,都基于网络的拓扑结构。

后来出现了一些考虑节点属性的社区挖掘算法,例如SCAN算法[22]。

偏重于网络拓扑结构一致性的算法会造成分类群组中节点的属性差别大,而偏重于图形中的节点属性的相似性的算法会造成群组内部网络结构的松散。

理想的图形聚类方法应该产生群组内部结构紧凑并且节点属性相似的结果。

据此,周(Zhou,音译)等人提出了既考虑网络的结构,又考虑节点属性的SA-Cluster算法[23]。

考虑空间的网络社区发现模块度是至今仍在广为应用的一种方法,特别是对空间网络的社区检测,基本都是基于模块度算法的改进[2]。

关于空间网络的社区挖掘的研究,目前主要有三大方向:第一,在大多数研究中,研究者们对地理距离因素未加考虑,用现有的经典算法对网络的拓扑结构进行社区挖掘。

由于很多网络中距离与连接之间存在图3 常见的复杂网络社区挖掘方法分类着关系:相距越近的节点之间连接的概率越大,而相距较远的节点间连接概率较小,因此其拓扑关系中隐藏着距离要素,所呈现出的社区结构在空间上有一定的地域性特征[24,25]。

例如吉梅拉(Guimerà)等人对全球范围的航线网络进行了社区挖掘,发现从全球尺度来看,社区的分布呈现地域性特点(如图4所示)。

第二,社区划分中考虑区域的约束作用。

郭(Guo ,音译)在对美国县级人口流动网络的社区划分时,考虑到区域邻接关系。

他用节点表示区域,节点间的连接边表示从某一区域到另一区域的总人口迁移数,提出了一个基于空间连续性的图形分割方法ALK 方法,并结合模块度指标,构建了流动人口数据的空间连续树,实现了在多级区域上人口流动的合并,从而将繁多的大数据集可视化(如图5所示)。

其中,区域化方法并不是根据行政边界,而是考虑空间邻近将人口流合并,实际上就是一种考虑空间相邻关系的社区挖掘方法[26,27]。

第三,社区划分中考虑空间距离的影响,这方面有两种不同的做法。

一种是排除空间距离的影响。

由于很多网络中用已有的社区挖掘算法得到的社区结构在其空间上具有地域性,因此有的学者希望剔除掉潜藏的距离对连接概率的影响,挖掘出与距离无关却又紧密相连的节点群。

相关文档
最新文档