1-时空事件聚类方法研究
地理学时空数据分析方法

地理学时空数据分析方法地理学时空数据分析方法地理学时空数据分析是地理学中非常重要的研究方法之一,通过对地理现象的时空变化进行观察和分析,可以深入理解地理现象的演变规律和影响因素。
本文将介绍地理学中常用的时空数据分析方法,并探讨其应用。
一、时空数据的获取与整理时空数据的获取是进行地理学时空分析的第一步。
地理学中的时空数据主要包括地理信息系统(Geographic Information System,简称GIS)数据、遥感影像数据、气象数据、地质数据等。
这些数据来源多样,也存在不同的数据格式和空间参考系统。
因此,对时空数据的整理工作至关重要。
常用的整理方法包括数据采集、数据清洗、数据融合等。
1. 数据采集通过采集工具(如GPS、航拍仪、气象站等)获得原始数据,并对数据质量进行评估。
数据采集的过程中可以根据实际需要选择不同的数据源和采集间隔,确保采集到足够的数据量和高质量的数据。
2. 数据清洗对采集到的数据进行清洗,包括去除重复数据、修复缺失数据、除去异常值等。
数据清洗能够提高数据质量,减少数据分析时的误差。
3. 数据融合对不同来源、不同格式的数据进行融合,使其能够进行整合分析。
数据融合有助于提高数据的综合利用价值,并提供更多角度的分析输入。
二、时空数据的时序分析方法时空数据的时序分析是对数据随时间演变的规律进行研究,常用方法包括趋势分析、周期性分析和相关性分析。
1. 趋势分析趋势分析用来研究数据的长期变动趋势,判断数据是否呈现增长、减少或保持稳定的趋势。
常见的趋势分析方法有线性回归分析、曲线拟合和指数平滑等。
通过趋势分析,可以预测未来的发展趋势,为地理学研究提供参考依据。
2. 周期性分析周期性分析用来研究数据中的重复周期性变化。
常见的周期性分析方法有傅里叶分析、小波分析和周期指数等。
通过周期性分析,可以揭示地理现象的季节性变化和周期性规律。
3. 相关性分析相关性分析用来研究不同地理现象之间的关系。
使用聚类算法进行时间序列聚类分析的方法

使用聚类算法进行时间序列聚类分析的方法时间序列聚类是一种将时间序列数据划分为不同组或类别的方法。
聚类算法的目标是在没有事先给定类别标签的情况下,根据数据的相似性将数据分组。
时间序列聚类分析的方法可以帮助我们发现数据中的潜在模式和趋势,从而为预测、分析和决策提供有用的信息。
在这篇文章中,我将介绍一种使用聚类算法进行时间序列聚类分析的方法,包括数据准备、特征提取和聚类算法的选择。
这个方法可以适用于各种类型的时间序列数据,例如气候数据、股票价格数据、交通流量数据等。
首先,我们需要进行数据准备。
这包括收集和清洗时间序列数据。
确保数据的完整性和一致性,处理缺失值和异常值。
然后,将时间序列数据进行标准化或归一化处理,以消除不同时间序列之间的量纲差异。
接下来,我们需要从时间序列数据中提取特征。
特征提取的目的是减少数据维度,并捕捉时间序列数据的重要信息。
常用的特征包括时间序列的均值、方差、趋势、周期性等。
我们可以使用统计方法、小波变换、傅里叶变换等技术来提取这些特征。
然后,我们需要选择适合的聚类算法。
常用的聚类算法包括K均值聚类、层次聚类、DBSCAN等。
对于时间序列数据,我们可以使用基于距离的聚类算法,例如K均值聚类。
在聚类算法应用之前,我们还需要选择合适的距离度量方法。
常用的距离度量方法包括欧氏距离、曼哈顿距离、动态时间规整(DTW)距离等。
不同的距离度量方法适用于不同类型的数据。
例如,欧氏距离适用于连续型数据,DTW距离适用于时间序列数据。
将数据、特征和距离度量方法准备好后,我们可以开始应用聚类算法进行时间序列聚类分析。
首先,选择合适的聚类数目,这可以通过观察不同聚类数目下的聚类质量度量,如轮廓系数、Davies-Bouldin指数等来判断。
然后,运行所选的聚类算法,并将时间序列数据划分为不同的簇。
在聚类分析的过程中,我们还可以使用可视化方法来帮助理解聚类结果。
例如,可以绘制聚类的平均时间序列曲线,以观察不同簇之间的差异。
面向大规模数据的时空关联与演化分析方法研究

面向大规模数据的时空关联与演化分析方法研究随着信息技术的飞速发展和互联网用户的快速增长,大规模数据的产生变得越来越常见。
在这些大规模数据中,时空关联与演化分析成为了研究的热点之一。
时空关联分析旨在发现和理解数据中时空相关性的模式和规律,而时空演化分析则旨在识别和描述数据中的时空变化过程。
本文将介绍面向大规模数据的时空关联与演化分析所采用的方法与技术,并探讨其中的一些应用案例。
1. 时空关联分析方法时空关联分析方法可以帮助我们理解数据中时空相关性的模式和规律。
其中常用的方法包括:1.1 空间关联分析空间关联分析研究的是地理空间中不同地点之间的关联性。
其中,空间自相关分析是一个常用的方法,用于检测空间数据中的空间相关性。
其他方法还包括空间克里金插值和空间回归分析等等。
1.2 时间关联分析时间关联分析研究的是时间序列数据中的关联性,主要应用于时间序列数据的预测和分析中。
常用的时间关联分析方法有自回归移动平均模型(ARIMA)、季节性分解法和指数平滑法等。
1.3 时空关联分析时空关联分析通常结合了空间和时间的因素,研究时空数据中的关联性。
这些方法可以通过计算地点和时间之间的距离来发现数据中的空间时间相关性。
时空关联中的一种常见方法是时空聚类分析,用于发现时空数据中的聚类模式。
2. 时空演化分析方法时空演化分析方法用于识别和描述数据中的时空变化过程。
这些方法可以帮助我们理解和预测数据中的时空演化趋势。
以下是一些常见的时空演化分析方法:2.1 空间插值方法空间插值方法用于填补地理空间上的数据空白。
通过插值方法,我们可以根据已知的数据点推断出未知位置的数据值,从而得到完整的地理空间数据。
插值方法中常用的有克里金插值方法、反距离权重插值和泛克里金插值等。
2.2 时空数据挖掘方法时空数据挖掘方法结合了时空特征和数据挖掘技术,用于发现和分析时空数据中的模式、规律和趋势。
数据挖掘方法包括聚类分析、分类分析和关联规则挖掘等。
统计学中的时间序列聚类分析

统计学中的时间序列聚类分析时间序列聚类分析是统计学中一种重要的数据分析方法,它能帮助我们挖掘时间序列数据中的潜在模式和规律。
本文将介绍时间序列聚类分析的基本概念、常用方法以及在实际应用中的意义。
一、概述时间序列聚类分析是一种将相似的时间序列数据归类到同一类别的方法。
它可以帮助我们理解数据之间的联系,发现隐藏的动态模式,以及对序列进行分类和预测。
通过聚类分析,我们可以将时间序列数据划分成多个群组,每个群组内的序列更相似,而不同群组之间的序列则具有较大的差异。
二、常用方法1. 基于距离的聚类方法基于距离的聚类方法是最常用的时间序列聚类分析方法之一。
它通过计算不同序列之间的距离或相似性度量,将相似度较高的序列归到同一类别。
常用的距离度量方法包括欧氏距离、曼哈顿距离和动态时间规整等。
2. 基于子序列的聚类方法基于子序列的聚类方法是另一种常用的时间序列聚类分析方法。
它将序列划分成多个子序列,并计算子序列之间的距离或相似性,从而实现聚类。
该方法适用于时间序列中存在局部模式或变化的情况。
3. 层次聚类方法层次聚类方法是一种将序列逐步合并或拆分的聚类方法。
它从一个个单独的序列开始,通过计算相似度得到相邻的序列对,并逐渐构建聚类树。
层次聚类方法可以用于确定聚类数目,并提供更直观的聚类结果。
三、实际应用意义时间序列聚类分析在实际应用中具有广泛的意义和应用价值。
1. 金融行业时间序列聚类分析在金融行业中被广泛应用于股票价格预测、风险管理和投资组合优化等方面。
通过对股票价格的聚类分析,可以识别出具有相似价格走势的股票,从而指导投资决策。
2. 交通运输对交通运输中的时间序列数据进行聚类分析,可以帮助我们理解交通流量变化的规律,并提供交通拥堵预测和交通优化方案。
例如,通过聚类分析找到相似的交通流量模式,可以制定出适当的交通调控措施。
3. 环境监测时间序列聚类分析在环境监测领域也有重要的应用。
通过对空气质量、水质水量等时间序列数据进行聚类分析,可以发现环境变化的规律,为环境保护提供科学依据。
如何使用时间序列聚类分析数据行为

如何使用时间序列聚类分析数据行为时间序列聚类是一种用于分析和理解数据行为的强大工具。
它能够将时间序列数据分为不同的群组,从而揭示出数据背后的潜在模式和趋势。
在本文中,我们将讨论如何使用时间序列聚类来分析和解读数据行为。
1. 数据准备在进行时间序列聚类之前,首先需要准备好数据。
数据可以是任何具有时间属性的序列,例如销售数据、气象数据或股票价格数据。
确保数据是完整的,并且没有缺失值或异常值。
2. 数据预处理在进行聚类之前,需要对数据进行预处理。
常见的预处理步骤包括平滑处理、去除噪声和缩放数据。
平滑处理可以通过滑动平均或指数平滑等方法来实现,以消除数据中的季节性和周期性波动。
去除噪声可以通过滤波或异常值检测来实现。
缩放数据可以将不同尺度的数据统一到相同的范围内,以避免某些特征对聚类结果的影响过大。
3. 特征提取特征提取是时间序列聚类的关键步骤。
它可以将原始时间序列转化为一组具有代表性的特征向量。
常见的特征提取方法包括统计特征、频域特征和时域特征等。
统计特征可以包括均值、方差、最大值和最小值等。
频域特征可以通过傅里叶变换或小波变换来提取。
时域特征可以包括自相关系数、自回归模型参数和移动平均模型参数等。
选择合适的特征提取方法可以提高聚类的准确性和效果。
4. 聚类算法选择选择合适的聚类算法是时间序列聚类的关键。
常见的聚类算法包括K-means、层次聚类和DBSCAN等。
K-means是一种基于距离的聚类算法,它将数据分为K个簇,每个簇的中心是该簇中所有样本的平均值。
层次聚类是一种自底向上的聚类算法,它通过逐步合并最相似的样本来构建聚类树。
DBSCAN是一种基于密度的聚类算法,它将样本分为核心点、边界点和噪声点,并根据密度连接性将核心点组成簇。
选择合适的聚类算法可以根据数据的特点和需求来决定。
5. 聚类结果评估评估聚类结果的质量是非常重要的。
常见的聚类评估指标包括轮廓系数、Davies-Bouldin指数和Calinski-Harabasz指数等。
时空数据研究的算法和工具

时空数据研究的算法和工具时空数据是指在时间和空间上同时存在的数据。
例如,交通流量、人口迁移、气象变化等。
随着各种传感器和移动设备的普及,我们生产和使用时空数据的速度和数量呈指数级增长。
同时,对时空数据的需求也越来越广泛,从城市规划到个人生活,都需要时空数据来支持决策和行动。
然而,时空数据的处理和分析是一项相当复杂的任务。
因为时空数据的特殊性,就需要一些特殊的算法和工具来处理它们。
本文简要介绍几种经典的时空数据处理算法和工具。
1. 空间插值空间插值是指根据已有空间数据,预测未知位置的值。
例如,我们有一个空气质量监测站在城市中心收集了空气质量数据,但是这些数据只能代表监测站所在位置的空气质量情况。
如果我们想要知道城市其他地方的空气质量情况,就需要使用空间插值方法。
空间插值方法基于一些假设,例如同一区域内的点值相似等,并使用这些假设来推测未知位置的值。
常用的空间插值方法包括反距离加权、克里金插值、径向基函数等。
在GIS软件中,往往有内置的空间插值功能,例如ArcGIS。
2. 空间聚类空间聚类是指将空间数据根据它们在空间上的位置划分为不同的组。
这种方法可以用于寻找相似的空间模式。
例如,我们可以根据交通流量将一个城市划分为各种交通等级的地区。
常用的空间聚类方法包括k-means聚类、DBSCAN、HDBSCAN等。
这些方法基于不同的方法和假设,适用于不同的数据。
3. 空间交互空间交互是指分析空间数据之间的相互作用和联系。
例如,我们可以通过空间交互来分析人口迁移和疾病传播之间的联系。
常用的空间交互方法包括GIS空间分析功能、网格模型、热力图等。
这些方法可以帮助人们更好地理解空间数据之间的关系。
4. 时空分析时空分析是指分析同时包括时间和空间数据的现象或问题。
例如,我们可以分析交通流量和时间之间的关系、市场销售和时间之间的关系等。
时空分析需要特殊的算法和工具来支持。
常用的时空分析工具包括ST-DBSCAN、GeoMesa、Space-Time Insight等。
主要气象灾害风险评价与管理的数量化方法及其应用
主要气象灾害风险评价与管理的数量化方法及其应用气象灾害是指由气象因素引起的灾害事件,如暴雨、洪水、暴风、台风、干旱、冰雹等。
这些灾害对人类社会、经济和生态环境都造成了严重影响,因此对气象灾害的风险评价和管理至关重要。
数量化方法是评价和管理气象灾害风险的一种重要手段,下面将对其主要方法及应用进行论述。
一、气象灾害风险评价的数量化方法1.风险度量模型:通过测量潜在损失的可能性和严重程度,将气象灾害的风险量化。
常用的风险度量模型包括概率-影响矩阵、风险矩阵和事件树分析等。
-概率-影响矩阵:将概率和影响程度表示为矩阵,通过计算概率和影响的乘积得到风险值,用于评估不同事件的风险级别。
-风险矩阵:将概率和影响程度分成多个不同级别,通过将概率和影响程度映射到相应的级别,得到不同事件的风险值。
-事件树分析:将灾害事件的发生过程分解为一系列的可能路径和事件,通过计算每条路径和事件的发生概率以及对应的损失值,得到整个灾害事件的风险值。
2.数学统计方法:通过对历史气象灾害数据进行建模和分析,得到灾害发生的频率、强度和空间分布等信息,进而评估灾害的风险。
常用的数学统计方法包括概率分布函数、回归模型和时空聚类等。
-概率分布函数:根据历史灾害数据,选取适当的概率分布函数,拟合灾害事件发生的概率分布,进而推算出未来灾害发生的可能性。
-回归模型:通过建立灾害发生和影响因素之间的关系模型,预测未来灾害的发生概率和强度。
-时空聚类:将灾害事件按时间和空间进行聚类分析,发现灾害的周期性和空间集聚规律,并基于这些规律进行风险评估。
3.灾害风险地图:将灾害风险信息以地图的形式进行可视化展示和管理。
灾害风险地图将不同区域的风险等级以颜色或符号等方式标注在地图上,方便决策者和公众了解和采取相应的防灾措施。
二、气象灾害风险评价的应用1.灾害预警和预测:通过对气象灾害风险进行定量评估,可及时预警和预测灾害的发生概率和严重程度,提前采取措施,减少灾害损失。
数据分析中的时间序列聚类与趋势分析
数据分析中的时间序列聚类与趋势分析时间序列数据是以时间顺序排列的数据,它们的数值取决于观测时刻。
在数据分析中,对时间序列数据进行聚类和趋势分析是重要而有挑战性的任务。
本文将重点介绍时间序列聚类和趋势分析的方法与应用。
一、时间序列聚类方法时间序列聚类旨在将相似的时间序列数据归为一类,以便更好地理解和分析数据。
常用的时间序列聚类方法包括:1. K-means聚类K-means聚类是数据分析中常用的一种聚类方法。
在时间序列聚类中,K-means通过计算不同时间序列之间的距离,将相似的时间序列聚类在一起。
2. 基于密度的聚类基于密度的聚类方法(例如DBSCAN)通过发现高密度区域和低密度区域来聚类时间序列数据。
该方法可以自动识别具有相似模式的时间序列。
3. 层次聚类层次聚类将时间序列数据组织成树状结构,通过计算相似度或距离来将数据不断合并或划分,最终形成聚类。
这种方法可用于发现不同层次的时间序列模式。
二、时间序列趋势分析方法时间序列趋势分析旨在揭示时间序列数据中的趋势和模式,以便预测未来的变化。
以下是常用的时间序列趋势分析方法:1. 移动平均法移动平均法是一种将数据平滑处理以便观察趋势的方法。
通过计算一定时间窗口内数据的平均值,可以检测出数据集的整体变化趋势。
2. 指数平滑法指数平滑法通过将历史数据的权重逐渐减小,从而更加关注最近的数据,以预测未来的趋势。
指数平滑法适用于数据具有一定的趋势性和季节性变动的情况。
3. ARIMA模型ARIMA模型是一种常用的时间序列分析模型,用于描述和预测时间序列的趋势和季节性。
它包括自回归(AR)、差分(I)和移动平均(MA)三个部分,可以较好地捕捉时间序列数据中的变化。
三、时间序列聚类和趋势分析的应用时间序列聚类和趋势分析在众多领域中都具有广泛的应用。
以下是其中几个应用领域的例子:1. 股票市场分析通过对股票价格和交易量等时间序列数据进行聚类和趋势分析,可以更好地理解市场的波动和趋势,从而指导投资决策。
数学中的时空分析技术
数学中的时空分析技术时空分析技术是一种应用于数学领域的重要分析方法,主要用于研究时空相关性以及数据在时间和空间上的变化规律。
通过时空分析技术,我们可以更好地理解和预测各种现象和问题。
本文将介绍数学中常用的时空分析技术,并分析其在实际应用中的重要性和局限性。
一、时空相关性分析时空相关性分析是研究时间和空间上数据之间关系的一种方法。
它可帮助我们了解变量之间的相关性、趋势和周期性。
在数学中,常用的时空相关性分析方法包括相关系数、回归分析和谱分析等。
1.相关系数相关系数是用来衡量两个变量之间关联度的指标。
通过计算两个变量之间的相关系数,我们可以了解它们之间的相关性强弱和相关方向(正相关或负相关)。
常用的相关系数有皮尔逊相关系数、斯皮尔曼相关系数和切比雪夫距离等。
相关系数越接近1或-1表示相关性越强,越接近0表示相关性越弱。
2.回归分析回归分析是建立一个数学模型来描述两个或多个变量之间关系的方法。
它通过拟合数据点,得到一个函数模型,从而可以预测变量之间的关系和未来的趋势。
在时空分析中,回归分析可用于预测未来的时间序列数据或分析不同地区的空间差异。
谱分析是一种频域分析方法,用于研究信号或数据在不同频率上的变化规律。
通过对数据进行傅里叶变换,我们可以将数据从时域转换到频域,并得到频谱图。
谱分析在时空分析中常用于研究时间序列数据中的周期性和趋势。
二、时空数据插值时空数据插值是指通过已有数据点的信息,推断未知位置或时间点上的数据值的方法。
它在数学建模和地理信息系统等领域中有着广泛的应用。
常用的时空数据插值方法包括克里金插值、逆距离加权插值和样条插值等。
1.克里金插值克里金插值是一种常用的时空数据插值方法,它基于地统计学的原理,通过已有数据点的空间自相关性来推断未知位置处的数据值。
克里金插值可以用于各种类型的时空数据,如气候数据、地质数据和环境数据等。
2.逆距离加权插值逆距离加权插值是一种基于距离的插值方法,它认为离目标点越近的数据点对目标点的影响越大。
聚类算法在时空数据分析中的应用研究
聚类算法在时空数据分析中的应用研究第一章引言1.1 背景随着移动互联网的快速发展和大数据技术的广泛应用,我们正面临着大规模时空数据的爆发式增长。
时空数据是指时间和空间维度上的数据,并且在很多领域中都具有重要的应用价值,例如城市交通规划、环境监测、灾害管理等。
然而,由于时空数据具有高维特性和复杂性,传统的数据分析方法往往无法充分挖掘其潜在的规律和信息。
因此,开发一种能够高效处理时空数据的分析方法变得尤为重要。
1.2 问题描述时空数据分析面临的主要问题是如何从大规模、高维、复杂的时空数据中提取有用的信息和知识。
为了解决这个问题,聚类算法被广泛应用于时空数据分析中。
聚类算法是一种将相似的对象划分为不同的组或类别的方法,可以帮助我们发现数据中的潜在模式和结构。
第二章时空数据的特点和挑战2.1 时空数据的特点时空数据具有时间和空间维度上的特性,这使得它们相较于传统数据具有更多的特点。
首先,时空数据是动态的,可以随着时间的推移而发生变化。
其次,时空数据是具有位置信息的,可以在地理上进行空间分析。
此外,时空数据还具有多样化和多尺度的特性,需要在不同尺度下进行分析和建模。
2.2 时空数据面临的挑战时空数据的处理面临一些挑战,主要包括以下几点:数据的体量庞大,需要高效地存储和处理;数据的高维性,需要降低维度,以便更好地理解和分析;数据的不完整性和不准确性,需要进行数据清洗和修复;数据的时空相关性,需要考虑时空特征对数据分析的影响。
第三章聚类算法的基本原理3.1 K均值算法K均值算法是最常用的聚类算法之一,其基本原理是将数据对象划分为K个不同的类别,使得同一类别内的对象相似度最大化,不同类别之间的相似度最小化。
算法的步骤主要包括初始化聚类中心、计算对象到聚类中心的距离、更新聚类中心等。
3.2 DBSCAN算法DBSCAN算法是一种基于密度的聚类算法,其主要思想是通过定义密度可达和密度相连关系来划分类别。
相比于K均值算法,DBSCAN算法不需要事先确定聚类个数,并且可以有效处理噪声数据。
- 1、下载文档前请自行甄别文档内容的完整性,平台不提供额外的编辑、内容补充、找答案等附加服务。
- 2、"仅部分预览"的文档,不可在线预览部分如存在完整性等问题,可反馈申请退款(可完整预览的文档不适用该条件!)。
- 3、如文档侵犯您的权益,请联系客服反馈,我们会尽快为您处理(人工客服工作时间:9:00-18:30)。
时空事件聚类分析方法研究唐建波1,邓敏1*,刘启亮1,2(1. 中南大学地球科学与信息物理学院长沙 410083;2. 香港理工大学土地测量与地理资讯学系,香港,九龙)摘要:时空事件聚类分析是当前聚类分析研究领域最前沿的一项主要内容,在疾病预警与控制、气候变化、地震预测及犯罪行为分析等领域具有重要的应用价值。
本文一方面针对时空事件聚类分析的研究现状与最新进展进行归纳总结;另一方面选取四种代表性的时空事件聚类分析方法(时空重排扫描统计, ST-DBSCAN,WKN, STSNN)从聚类质量与用户操作两个方面进行试验分析,对同一方法针对不同类型数据集以及不同方法针对同一数据集的聚类效果进行了对比分析。
最后,在实验分析的基础上对现有时空事件聚类分析的优缺点及适用性进行了归纳总结,并指出了需要进一步研究的若干问题。
关键词:时空事件;聚类分析;对比分析On Spatio-temporal Events Clustering MethodsTANG Jianbo1, DENG Min1*, LIU Qiliang1,2(1. School of Geosciences and Info-Physics, Central South University, Changsha 410083, China;2.Department of Land Surveying and Geo-Informatics, Hong Kong Polytechnic University, Hong Kong)Abstract: Clustering analysis of spatio-temporal event is a forefront research in the spatio-temporal data mining domain. It has important applications in disease early warning and controlling, climate change, earthquake prediction and the analysis of crimes. Firstly, the research actuality and new progresses in spatio-temporal event clustering algorithm in recent years are investigated and summarized. Secondly, the analysis and comparison of four representative spatio-temporal event clustering methods (i.e. Space-time permutation scan statistic, ST-DBSCAN, WNN, STSNN) have been made from the views of clustering quality and user operation. Moreover, clustering conditions of the same method for different types of data sets as well as different methods for the same datasets are analyzed. Finally, the advantages, disadvantages and applicability of these four clustering methods are summarized after several experiments and comparative analyses, and a number of issues for further research are highlighted.Keywords: spatio-temporal event; clustering analysis; comparative analysis1. 引言虽然从第一个聚类分析算法K-means被提出只有50年左右的时间,聚类分析已成为数据分析的一个重要组成部分[1]。
聚类分析的应用领域众多,在过去10年间,全球有超过200个主要学科及3000多种杂志刊登聚类分析有关的研究工作[2]。
自上世纪90年代中叶,伴随着空间数据挖掘技术的兴起,聚类分析在地学领域的应用引起了广泛的重视[3-5]。
尤其是近年来传感器技术的发展与普及,时空聚类分析成为海量时空数据分析的一个重要手段,且已成为聚类分析领域最前沿的一个研究方向[6]。
依据时空数据的类型,时空聚类分析方法大致可以分为:时空事件聚类分析、时空地理参考变量聚类分析、地理参考时间序列聚类分析、移动目标聚类分析及时空轨迹聚类分析[6]。
本文主要研究时空事件聚类分析方法,这里,时空事件即在某个时间点上在某个空间位置上发生的事件,如地震、传染病例等。
2. 时空事件聚类分析:定义与方法分类2.1 时空事件聚类分析的定义时空聚类分析是一个非监督分类的过程,可表达为[7]:依据一定的相似性准则将时空实体划分成一系列较为均匀的子类(即时空簇),同一类内实体的相似度要尽可能大于不同类的实体间的相似度。
时空实体聚类分析可以形式化描述为:令STD={p1, p2,..., p N}表示一个包含N个实体的时空数据集,根据一定的相似性准则将STD划分为k+1(k≥1)个子集,即STD={C0,C1,C2, ..., C k};其中,C0为噪声,C i(i≥1)为时空簇,且需要满足以下条件:*通信作者. E-mail: dengmin028@y 基金项目:教育部新世纪优秀人才资助计划(NECT-10-0831);高等学校博士学科点专项科研基金(20110162110056)(1) ki i STD C 0==;(2) 对于n m STD C C n m ≠⊆∀,,,需同时满足:① Φ=n m C C② )),(()),((,,y x C p C p j i C p p p p Similar MAX p p Similar MIN n y m x m j i ∈∀∈∀∈∀>,这里Similar ()表示相似性度量函数;进而,时空事件聚类分析的一般过程可以描述为:(1)时空数据清理:清理重复、错误及不一致的时空事件记录。
(2)相似性度量准则定义。
聚类分析中相似性的度量准则一般分为两种:(1)直接度量,即采用各种距离函数(如欧氏距离)来度量实体间的接近性;(2)间接度量,如借助密度的定义描述实体相似性。
在时空聚类分析中,传统的距离度量准则难以直接用来描述时空实体间的相似性,而密度的概念则是可以直接适用的。
(3)时空聚类分析:依据选择的相似性度量准则,将时空事件数据进行分组、聚类。
(4)聚类结果有效性评价:依据一定的评价准则(如内部评价法、外部评价法及相对评价法),选取最优的聚类结果。
2.2 时空事件聚类分析方法分类自时空事件聚类分析的概念被提出以来,近10年,已出现了一些较为成熟的方法。
依据各类方法聚类思想的差异,现有的时空事件聚类分析方法大致可以分为三种类型:(1)时空扫描统计;(2)时空密度聚类;(3)时空混合距离, 如图1所示。
下面将分别针对各类方法进行阐述。
图1 时空事件聚类分析方法3. 时空事件聚类方法3.1 时空扫描统计时空扫描统计旨在探测一定时空范围内的聚集性与随机分布模式比较,是否显著增加,并确定聚集性最可能异常的时空事件集合。
3.1.1时空扫描统计量2001年,Kulldorff 在空间扫描统计的基础上进一步扩展提出了时空扫描统计的方法,用于探测传染病的时空聚集模式[8]。
该方法首先定义一系列以空间距离为半径,时间间隔为高的圆柱形时空扫描窗口。
然后,针对每个扫描窗口,在泊松分布假设前提下,依据人口数与总发病数计算理论发病数,表达为: G G Zn m m Z ⋅=)(μ (1)式中:)(Z μ表示随机假设下时空窗口Z 中的预期发病数;Z m 表示时空窗口Z 中的人口数;G m 表示研究区域内的总人口数;G n 表示研究时空范围内的总发病数。
进而,根据窗口内外的理论与实际发病数构造对数似然比统计量来描述窗口内疾病异常聚集的程度,表达为:GZ G Z n G n n Z G n Z ZG n Z G n n Z n L L L L R ))(())()(())((0μμμμ---== (2)式中:LLR 表示对数似然比统计量;Z L 表示窗口Z 的似然函数值;0L 表示随机假设下得到的似然函数值;Z n 为窗口Z 内的实际发病数;)(G μ表示总的预期发病数,∑=)()(Z G μμ。
最后,采用蒙特卡罗模拟法生成随机模拟数据集,采用与实际数据相同的方法计算LLR ,对扫描窗口的显著性进行检验,寻找最异常的窗口。
时空扫描统计的方法具有较为严密的统计学基础,可以有效降低聚类分析的主观性。
然而,该方法的主要局限在于:(1)识别的时空簇的形状受扫描窗口的限制,趋向于发现近似球形的聚集结构;(2)时空扫面统计量的求解过程相当于求解一个极大似然估值,故只有最似然窗口的估计是无偏的,而对数据集中其他聚集窗口的估计是有偏的,进而导致难以发现多个聚集结构。
2008年,Takahashi 等人[9]对扫描窗口的形状进行了扩展,一定程度上提高了非球型簇探测的能力。
2011年, Tango 等人[10]进一步扩展了时空扫描统计在探测局部突发性聚集模式中的应用,考虑了期望发病数随时间的变化。
3.1.2时空重排扫描统计量实际中很多应用中,人口数据是很难获得,为此Kulldorff 等人[11]在2005年进一步提出了一种不依赖人口数据的时空重排扫描统计量。
与传统的时空扫描统计量相比,时空重排扫描统计的最大区别在于其采用的概率模型不同。
时空窗口内的实体数目服从超几何分布,并可以根据超几何分布的特征计算每个扫描窗口Z 中的预期发病数)(Z μ,表达为:∑∑∑∈=Z d z dzd z zd G n n n Z ),()])((1[)(μ (3) 式中:G n 表示研究时空范围内的总发病数;zd n 表示在空间范围z ,时间点d 上发生的事件数目。
进一步地,时空扫描统计采用泊松近似,构造泊松广义似然比统计量衡量扫描窗口中实体的聚集程度,即:Z G Z n n G ZG n ZZ n n n z n G L R ---=))(())((μμ (4)式中:Z n 为窗口Z 内的实际发病数。