时空扫描统计量-空间统计
统计学中的时空统计分析研究

统计学中的时空统计分析研究随着经济全球化和信息技术的快速发展,数据的产生和采集越来越容易。
统计学作为一门关注数据科学的学科,逐渐成为了解决各类经济、社会及自然科学问题的重要工具和方法。
其中一项重要的研究领域是时空统计分析。
时空统计分析是指对时间和空间数据进行分析与建模的一种方法,主要应用于地球科学、环境科学、交通运输、气象预测等方面。
其基本思想是将时间和空间看作为一个整体,建立起相应的数学或计量模型,从而得出每个时空点的价值或状态以及它们之间的相关性。
时空数据由于具有时间和空间两个维度,因此比非时空数据更加复杂。
时空数据又可以分为三类:点模式、区域模式和网格模式。
点模式主要研究离散的、有明确空间位置的数据点;区域模式则研究连续空间角色的随机变量;网格模式则采用一定的空间网络格点,对于每个格点上的值进行研究。
这三种模式都需要统计方法在分析它们时考虑时间相关性,空间相关性以及时间和空间的交互影响。
时空统计分析常见的方法有聚类分析、空间插值、泊松回归、空间回归、空间关联分析、空间因素分析等等。
这些方法旨在建立空间和时间相关的模型,分析数据的相关性,并通过预测和解释来解决相应的问题。
例如,可以通过空气质量监测站的数据,进行相关模型的建立,从而得出未来不同地区空气质量的变化预测结果,或者预测区域内 PM2.5 浓度随时间和空间关系变化的规律。
这些分析结果可以为机构和政府决策者提供科学依据和指导。
时空统计分析还可以解决很多其他领域的问题。
例如,在运输领域,可以通过时空统计分析技术,建立空气质量预测模型,准确提前预测出道路交通的交通状况,以便调整路况、路网、公交和交通配套设施等,优化城市交通管理方案。
在气象领域,可以通过时空统计分析技术,建立气象预测模型,实时预测风暴活动及其行进轨迹,从而提升灾害防范能力。
在城市规划领域,可以通过时空统计分析技术,结合地形、自然环境、城市文化等空间因素,构建城市功能设计模型,探索城市公共资源多层次、多角度的空间结构优化方式。
空间统计分析

空间统计分析目录一、内容综述 (2)1. 背景介绍 (3)2. 研究目的与意义 (4)二、空间统计分析概述 (5)1. 空间统计分析定义 (6)2. 空间统计分析的发展与应用领域 (7)三、数据收集与预处理 (9)1. 数据来源 (10)2. 数据收集方法 (10)3. 数据预处理流程 (12)四、空间数据的可视化分析 (13)1. 空间数据可视化技术 (14)2. 可视化工具与平台选择 (15)3. 可视化分析结果解读 (17)五、空间数据的探索性统计分析 (18)1. 空间数据的描述性统计 (19)2. 空间数据的探索性方法 (20)3. 探索性结果分析与解释 (21)六、空间数据的定量统计分析 (23)1. 空间自相关分析 (24)2. 空间回归分析 (25)3. 空间插值分析 (26)4. 其他空间统计模型与方法 (27)七、空间统计分析的应用案例 (28)1. 城市规划与管理领域应用案例 (29)2. 生态环境保护领域应用案例 (31)3. 经济学领域应用案例 (31)4. 社会学领域应用案例 (33)八、空间统计分析的挑战与展望 (34)1. 技术挑战与解决方案 (35)2. 数据质量与可靠性问题探讨 (37)3. 未来发展趋势预测与展望 (38)九、结论与建议 (39)1. 研究总结与主要发现 (40)2. 政策建议与实施建议 (41)3. 研究不足与展望未来的研究方向 (42)一、内容综述空间统计分析是统计学的一个分支,其研究主要集中在地理空间数据和相关领域的数据分析和解释上。
随着全球定位系统、遥感技术、地理信息系统等技术的不断发展,海量的空间数据不断生成,空间统计分析的重要性愈加凸显。
本文档旨在全面介绍空间统计分析的基本概念、方法、应用及其发展趋势。
我们要明确什么是空间统计分析,空间统计分析结合了统计学与地理学,研究如何利用统计学方法分析带有空间属性的数据,揭示其内在的空间分布规律、空间关联关系以及空间演变趋势。
[转载]空间统计
![[转载]空间统计](https://img.taocdn.com/s3/m/317738fbfab069dc5022011f.png)
[转载]空间统计空间统计的零假设------------大多数统计检验在开始时都首先确定一个零假设。
空间统计的零假设是完全空间随机性 (CSR),它或者是要素本身的完全空间随机性,或者是与这些要素关联的值的完全空间随机性。
显著性检验---------模式分析工具所返回的z 得分和p值可以让您判断出是否可以拒绝零假设。
通常,您将运行其中一种模式分析工具,同时希望 z 得分和 p 值会指明可以拒绝零假设,因为此工具将表明:您的要素(或与要素关联的值)会表现出具有统计显著性的聚类或分散,而不是随机模式。
只要在地貌中(或在空间数据中)发现聚类这样的空间结构,就证明某些基础空间过程在发挥作用,而这通常是地理学者或 GIS 分析人员最关注的方面。
p 值表示概率。
对于模式分析工具来说,它是所观测到的空间模式由某一随机过程创建的概率。
当 p 很小时,意味着所观测到的空间模式不太可能产生于随机过程(小概率),因此您可以拒绝零假设。
您可能会问这样的问题:要小到什么程度才算足够小?这是一个非常好的问题。
请参见下面的表和论述。
Z 得分只不过是标准差的倍数。
例如,如果工具返回的 z 得分为 +2.5,我们就会说,结果是 2.5 倍标准差。
如下所示,z 得分和 p 值都与标准正态分布相关联。
在正态分布的尾部出现非常高或非常低的 z 得分(负值),这些得分与非常小的 p 值相关。
当您运行要素模式分析工具并由该工具得到很小的 p 值以及非常高或非常低的 z 得分时,就表明观测到的空间模式不太可能反映出零假设 (CSR) 所表示的理论上的随机模式。
要拒绝零假设,必须对所愿承受的做出错误选择(错误地拒绝零假设)的风险程度做出主观判断。
因此,请先选择置信度,然后再执行空间统计。
典型的置信度为 90%、95% 或 99%。
在这种情况下,99% 的置信度是最保守的,这表示您不愿意拒绝零假设,除非该模式是由随机过程创建的概率确实非常小(低于 1% 的概率)。
第4章空间统计分析初步——第1节探索性空间统计分析

第4章空间统计分析初步——第1节探索性空间统计分析探索性空间统计分析是空间统计分析的第一步,旨在揭示地理现象的空间分布模式和空间关联关系。
在进行探索性空间统计分析时,主要应用的方法包括空间自相关分析、扫描统计、点模式分析和基尼系数等。
空间自相关分析是用于评估地理现象是否呈现出空间聚集或空间离散的方法。
常用的空间自相关分析方法有Moran's I和Geary's C等。
Moran's I是一种广泛应用的空间自相关指标,它测量了地理现象在空间上的聚集或离散程度。
当Moran's I的值接近1时,表明地理现象呈现出正空间自相关,即相似的值聚集在一起;当Moran's I的值接近-1时,表明地理现象呈现出负空间自相关,即相似的值分散在一起;当Moran's I的值接近0时,表明地理现象呈现出随机分布。
扫描统计是一种常用的空间聚类分析方法,用于寻找地理现象的热点区域和冷点区域。
扫描统计的基本思想是通过不断调整和扫描的空间窗口,在不同的空间尺度上计算地理现象的局部指标,并找出具有显著性的空间聚类区域。
常用的扫描统计方法有卡斯帕-多斯的方法和波尔兹曼-莫丘特的方法等。
通过扫描统计分析,可以确定地理现象的聚集程度,并找到聚集区域的中心。
点模式分析是用于评估地理现象的点空间分布模式的方法。
在点模式分析中,主要用到的指标有距离分布函数和聚类指数等。
距离分布函数是用于描述点之间的距离分布特征的函数,常用的距离分布函数有Ripley's K函数和Clark-Evans函数等。
聚类指数是用于衡量点空间分布中聚集程度的指标,常用的聚类指数有平均距离指数和个体隔离指数等。
通过点模式分析,可以确定地理现象的点分布模式是随机分布、聚集分布还是分散分布。
基尼系数是用于评估地理现象的空间不平等程度的指标。
基尼系数的取值范围为0到1,0表示完全平等,1表示完全不平等。
常用的基尼系数有基尼指数和基尼分位数等。
时空扫描统计量-空间统计

时空扫描统计量-空间统计1.1时空扫描统计量空间自相关分析具有一定的局限性,其没有纳入时间因素故而不能判断地理空间上聚集区域随时间变化的趋势。
而时空扫描很好的解决了这一难题,不仅能够揭示地理空间上聚集区域随时间变化的规律,同时还能得出聚集区域的相对危险度,更加精确的对空间聚集区域位置进行了定位。
图错误!文档中没有指定样式的文字。
-1 时空扫描原理示意图时空聚集性分析同时考虑了时间和空间两个因素,主要采用移动窗口法(moving windows),如图错误!文档中没有指定样式的文字。
-1所示,在地理空间上创建扫描窗口(圆柱体),圆柱体的底面对应研究的地理区域,圆柱体的高对应扫描时间间隔,圆柱体的半径对应扫描的风险人口。
扫描窗口的大小和位置在地理空间上不断的变化,其过程为:随机选取地理空间上任一地理位置作为扫描窗口的底面中心,相应的地理区域(扫描窗口的底面积)不断变化,对应时间间隔(扫描窗口的高)也不断变化,直到达到预先规定的上限为止。
然后对每一个扫描窗口,根据实际属性值(如发病数)和人口数可计算出预期属性值(发病数),然后利用扫描窗口内外的实际值和预期值构造对数似然比(log likelihood ratio, LLR)检验统计量,最终选取LLR值最大的窗口为高聚集窗口。
针对每个扫描窗口,在泊松分布假设前提下,有:ZZ G G m u n m ⎛⎫= ⎪⎝⎭(式 错误!文档中没有指定样式的文字。
-1) 其中Z u 表示随机假设下时空窗口Z 中的理论事件数;Z m 表示时空窗口Z 中的总案例数;G m 表示研究区域内的总案例数;G n 表示研究时空范围内的总事件数。
接下来,根据窗口内外的理论与实际事件数构造对数似然比(log likelihood ratio LLR)统计量来描述窗口内事件异常聚集的程度,表达为:0nG nZnZG Z Z Z G Z Z nGG G n n n u u u L LLR L n u -⎛⎫⎛⎫-⎪ ⎪-⎝⎭⎝⎭==⎛⎫⎪⎝⎭(式 错误!文档中没有指定样式的文字。
空间统计学的基本原理与方法

空间统计学的基本原理与方法空间统计学是统计学的一个分支,主要研究随机空间场的分布特征、空间插值和预测方法等。
本文将介绍空间统计学的基本原理与方法。
一、空间统计学的基本原理空间统计学是统计学的一个发展方向,它主要研究的是自然界和社会现象在空间上的分布规律。
空间统计学基于统计学的基本原理,将其应用到空间领域。
它的基本原理包括以下几个方面:1. 随机性原理:空间统计学假设自然界和社会现象的分布是随机的,即受多种因素的综合作用。
2. 自相关原理:空间统计学认为相邻地理位置的观测值之间存在着一定的相关性,即某一个地点的观测值受其周围地点的影响。
3. 空间非平稳性原理:空间统计学认为地理位置的相关性在空间上是不均匀的,即空间上的相关性随着距离的增加而减弱或增强。
二、空间统计学的基本方法空间统计学根据自然界和社会现象的性质以及研究目的,提出了多种方法。
下面介绍几种常用的方法:1. 空间数据可视化方法:空间数据可视化是一种重要的空间统计方法,它通过图形、地图等方式展示空间数据的分布特征,帮助分析人员更好地理解和发现隐藏在数据背后的模式和规律。
2. 空间插值方法:空间插值是指通过已知的离散空间点数据,推测未知位置的值。
常用的插值方法有克里金插值法、反距离加权插值法等。
3. 空间自相关分析:空间自相关分析是指通过计算相邻地理位置的观测值之间的相关系数,来研究空间数据的相关性。
其中常用的指标有皮尔逊相关系数、莫兰指数等。
4. 空间聚类分析:空间聚类分析是将相似空间单元聚集到一起的方法,用于发现空间上的聚集现象。
常用的聚类算法有K均值算法、层次聚类算法等。
三、空间统计学的应用领域空间统计学的应用非常广泛,主要集中在以下几个领域:1. 地理信息系统:空间统计学在地理信息系统中具有重要作用,用于分析和处理空间数据,进行地图制作和地理空间分析等。
2. 生态学:空间统计学可以研究物种分布、群落格局等生态学问题,帮助了解生态系统的结构和功能。
第4章空间统计分析课件

2.1 简单的二进制邻接矩阵
123 456 789
车的行走方式
123 456 789 王、后的行走方式
16
17
18
19
20
2.2 基于距离的二进制空间权重矩阵
21
22
空间自相关按功能大致分为两类: 全域型空间自相关(Global Spatia Autocorrelation) 区域型空间自相关(Local Spatia Autocorrelation)
45
人均GDP局部Moran指数表
46
河南地级市人均GDP局部Moran指数
47
48
49
4.2 G统计量
全局G统计量的计算公式为: 对每一个区域单元的统计量为:
50
对统计量的检验与局部Moran指数相似,其检验值为
显著的正值表示在该区域单元周围,高观测值的区域 单元趋于空间集聚,而显著的负值表示低观测值的区 域单元趋于空间集聚。
25
3.1 Moran’s I
设研究区域中存在n个面积单元,第i个 单元上的观测值记为xi,观测变量在n个单 元中的均值记为 ,Moran’s I定义为:
26
-1≤ I ≤1 1表示极强的正空间自相关,-1表示极强的 负空间自相关。
27
对于Moran指数,可以用标准化统计量Z来检 验n个区域是否存在空间自相关关系,Z的计算公 式为:
第4章 空间统计分析
§4.1 空间自相关 Spatial autocorrelation
1
空间统计分析,即空间数据的统计分析,通过 空间位置建立数据间的统计关系。
空间统计学产生的原因: 大多数经典统计学分析要求样本相互独立, 而空间数据间并非完全独立,而是存在依赖性。
采用时空重排扫描统计量的犯罪集聚可视分析

采用时空重排扫描统计量的犯罪集聚可视分析张永田;吴升【摘要】Firstly,based on space-time permutation scan statistic method,this paper analyzes crime of Fuzhou City in 2014 in days and hours,the space-time crime clusters in different scales are obtained.Then, combine with the data visualization technology and propose interactive visualization design for the results of the analysis in multi-scale and multi perspective.The results show that the method above enables users to view crime hot space distribution by date scale in monthly,month-date segment or week-date segment and by hour scale in week-date segment or holiday segment.%首先,基于时空重排扫描统计量方法,对福州市2014年案事件数据进行日尺度与小时尺度的时空重排扫描统计,得到不同尺度下的犯罪时空集聚区。
然后,结合数据可视化技术,对分析结果进行多尺度、多视角的交互式可视化设计。
结果表明:用户可以通过选择日期尺度,按月或按月日期段、周日期段查看犯罪热点空间分布;也可以通过选择小时尺度,按时段查看周日期或节假日犯罪热点的空间分布。
【期刊名称】《华侨大学学报(自然科学版)》【年(卷),期】2016(037)005【总页数】5页(P649-653)【关键词】扫描统计;犯罪热点;交互式;可视分析;空间尺度;时空聚集【作者】张永田;吴升【作者单位】福州大学福建省空间信息工程研究中心,福建福州 350003;福州大学福建省空间信息工程研究中心,福建福州 350003【正文语种】中文【中图分类】P208随着公安部“金盾工程”二期的完成,全国公安通信网络和信息系统应用水平得到进一步的提升,案件信息每年以100~120万条的速度递增[1].面对不断增长的海量信息,缺乏有效的数据挖掘及可视化分析手段使公安部门陷入了“库中有数而心中无数”的困境.传统的犯罪空间数据挖掘方法将时间和空间信息割裂开,无法全方位、立体地挖掘更深层的、富有价值的信息.此外,犯罪可视化与犯罪数据分析出现相互脱节的现象[2],特别是交互式可视化的设计方面尤为欠缺.扫描统计法是空间统计学的重要方法之一,众多学者对其进行了相关研究[3-11].这些研究得到的犯罪集聚热点空间范围广,时间跨度大,对犯罪预防的指导意义不大.本文选取更小的时间、空间尺度,针对目前犯罪时空数据挖掘方法与犯罪时空数据交互式可视分析的不足[12],应用时空重排扫描统计方法探测犯罪的时空集聚特性.运用时空重排扫描统计法探测案事件的集聚区域.利用一个圆柱体扫描窗口,其底面中心对应于探测的地理区域中的一点,高则对应于相应的时间区间.底面半径逐渐增大,使扫描的空间区域不断扩大,直至设定的最大半径.同时,圆柱体的高度也逐渐增加,每次增加一个规定的时间单位,直至预设的上限为止.扫描窗口的变化过程在整个研究区域内重复进行,最终将生成数量庞大的扫描窗口.采用广义似然比(GLR)判断每个扫描窗口内的案事件数量是否异常,其值反映该窗口为集聚的可能性,具有最大函数值的窗口即最有可能是集聚的[13].然后,利用蒙特卡罗假设检验方法对得到的候选聚集区域进行非随机性的置信度分析,最终得到合理的犯罪集聚区[8].具体的建模过程[14]如下所示.某一研究区z在d天中的案件数为Cz,d,则所有区域在所有时间范围内的总案件量C为每个单位区域每天的预期案件量μz,d为式(2)中: Cz,d为d天中整个研究区的案件量; Cz,d为区域z中整个时间范围内的案件量.则圆柱体扫描窗口A内的预期案件量为令CA为圆柱体窗口A中的实际案件量,CA服从均数为μA的超几何分布,其概率函数为当cz,d和cz,d相对于C而言非常小时,CA近似服从均值为μA的泊松分布.基于此,可采用泊松广义似然函数判定圆柱体窗口A中的案件量是否为集聚,GLR的表达式为广义似然函数值反映窗口为集聚的可能性.因此,在所有的候选集聚窗口里,最大的窗口最不可能是随机发生的,最有可能是有效集聚的.通过计算扫描统计量能够得出大量的可能为集聚的窗口,但为了验证探测到的集聚窗口的非随机性,还需要对这些区域进行置信度分析.扫描窗口统计量的无效假设为:案件量在时间和空间上的分布完全随机.要得到扫描窗口统计量的概率分布极为困难,即使对一维的时间扫描统计量而言,其概率分布也十分复杂.因此,通常情况下,可运用蒙特卡罗假设检验方法进行P值的计算.首先,根据总的案件数生成N个随机分布的数据集,每个数据集都能够得出各自最大的似然函数值,再将真实数据集中窗口的GLR与N个随机生成的数据集的N个最大似然函数值进行由小到大的排序.若真实数据集某窗口的GLR排在第Q位,则P值为Q/N+1.因此,Q的排序越靠前,P值越小,说明集聚窗口属于随机的可能性越小.例如,利用蒙特卡罗方法生成999个随机分布数据集,某窗口的广义似然比排在第30位,则P=30/999+1=0.003,则该集聚窗口为随机的概率为3%;若排序为10,则随机的概率为1%.研究区域为福州市行政管辖区中的鼓楼区、仓山区、台江区全境,以及晋安区与马尾区的部分街道(北纬25°57′~26°24′,东经119°10′~119°39′).研究区域面积大约为408 km2,常住人口大约为276.3万[13].数据为经过脱敏脱密处理后的2014年福州市案件数据.2.1 日尺度犯罪时空利用SaTScan 9.3软件对2014年福州各月案事件数据进行时空重排扫描统计分析.扫描窗口的最大空间上限为300 m,即底面半径最大为300 m;窗口的时间跨度为1~15 d,时间变化步长为1 d;蒙特卡罗法模拟次数为999,当P<0.05时,认为犯罪集聚.以1月份盗窃案件为例,时空重排扫描统计后的结果,如表1所示.表1中:r为半径;n为案件数.由表1可知:通过蒙特卡罗方法计算得出的6个犯罪热点的P值为0.009 0~0.031 8,表明这些热点集聚区域为随机的概率是0.90%~3.18%,即集聚区属于随机的可能性非常小,因此,具有很高的非随机性,是有意义的集聚区.为了从多角度查看月尺度下各个犯罪热点的时空分布情况,设计以下3种交互可视方式.1) 按月查看犯罪热点空间分布.如图1所示.用户可以通过左上部分的“月份轴”或“上月”、“下月”箭头选择某一月份.然后,选取案件类别中的某一类案件(缺省为所有种类案件).此时,甘特图用空心矩形表示不同犯罪热点所在的日期段,右侧地图用空心圆形表示该月所有犯罪热点的空间分布,圆的大小代表了热点范围(扫描半径).用户可以在甘特图上选取该月的某个日期段,右侧地图以灰色圆形显示所选日期对应的热点位置;或者在右侧地图上选择某个热点,可查看该热点的所属辖区、日期、热点半径、案事件数量等详细信息,左侧甘特图上将用灰色矩形显示该热点发生的日期段.2) 按月日期段查看犯罪热点空间分布,如图2所示.用户可以通过左上部分的“月日期轴”选取日期段(如6~8日),然后,选取案件类别中的某一类案件(缺省为所有种类案件).此时,年历图上所有6~8日出现犯罪热点的都用矩形框加以强调.右侧地图用空心圆形表示当年所有6~8日出现犯罪热点的空间分布.用户也可在地图上选取某一热点查看该热点详情,年历图将以灰底矩形框着重显示该热点对应的月日期段.3) 按周日期段查看犯罪热点空间分布,如图3所示.用户可以通过左上部分的“周日期轴”选取一定日期段(如周一),也可选取案件类别中的某一类案件(缺省为所有种类案件).此时,年历图上当年在周一出现赌博犯罪热点的日期用矩形框加以强调,右侧地图用空心圆形表示当年在周一出现犯罪热点的空间分布.用户也可在地图上选取某一热点查看该热点详情,年历图将以灰底矩形框着重显示该热点对应的周日期段. 2.2 小时尺度犯罪时空利用SaTScan 9.3软件对2014年福州案事件数据按“小时”进行时空重排扫描统计分析.半径上限为300 m,时间跨度为1~3 h,时间变化步长为1 h;蒙特卡罗法模拟次数为999,当P<0.05时,认为犯罪集聚.以周六案事件数据为例,时空重排扫描统计后的结果,如表2所示.由表2可知:8个犯罪热点的P值为0.013 0~0.049 9,表明了这些热点集聚区域为随机的概率是1.30%~4.99%,属于随机的可能性很小,具有较高的非随机性. 在时段热点的可视化设计方面,可以通过时钟图直观地反映热点的案发时段,如图4所示.将圆分为12个区域,如图4(a)所示.图4(b),(c)中:灰色区域表示热点时段;圆环内部的“AM”表示午前0~12时,“PM”表示午后12~0时.由图4(b),(c)可知:午前犯罪热点出现在9~10时;午后犯罪热点出现在7~8时.为了方便用户从多个角度对小时尺度的犯罪热点进行时空分析,设计按周日期查看犯罪热点空间分布,如图5所示.由图5可知:用户可通过左上部分的“时钟图”设置某一时段范围(如15~16时),可选取某一周日期(缺省为所有周日期)或是将选项卡切换到节假日,选取某一节假日,再选取某一案件类别(缺省为所有种类案件),右侧地图用空心圆形表示当年在周六15~16时出现犯罪热点的空间分布.用户也可选取地图上的某一热点查看详情.基于时空数据挖掘理论、信息可视化技术,运用时空重排扫描统计方法,对福州市主城区2014年案事件进行时空聚集性分析.对案事件数据分别进行日尺度及小时尺度的时空重排扫描统计,将得到的分析结果运用信息可视技术对犯罪聚集区进行表达.通过对数据挖掘的结果进行多尺度、多视角的交互可视化设计,方便用户对犯罪热点进行多角度的查看分析,为公安部门科学决策提供技术支持.下一步将研究犯罪的预测,将研究区域格网化,分析各种场景(如商场、医院、KTV、网吧等)对犯罪的影响并结合有效的预测模型,对各个网格犯罪的案发概率进行计算,为公安部门进一步细化警力配置提供依据.【相关文献】[1] 程春惠.公安犯罪案件文本挖掘关键技术研究[D].杭州:浙江大学,2010:1-2.[2] 李代超,吴升.面向不同主题的犯罪大数据可视分析[J].地球信息科学学报,2014(5):735-745.[3] NAUS J I.The distribution of the size of the maximum cluster of points on aline[J].Journal of the American Statistical Association,1965,60(310):532-538.[4] KULLDORFF M,HEFFERNAN R,HARTMAN J.A space time permutation scan statistic for disease outbreak detection[J].Plos Medicine,2005,2(3):216-224.[5] NAKAYA T,YANO K.Visualising crime clusters in a space-time cube: An exploratory data-analysis approach using space-time kernel density estimation and scanstatistics[J].Transactions in GIS,2010,14(3):223-239.[6] LEITNER M,HELBICH M.The impact of hurricanes on crime: A spatio-temporal analysisin the city of Houston, Texas[J].Cartography and Geographic InformationScience,2011,38(2):213-221.[7] 王占宏.基于扫描统计方法的上海犯罪时空热点分析[D].上海:华东师范大学,2013:89-97.[8] ZEOLI A,PIZARRO J,GRADY S,et al.Homicide as Infectious disease: Using public health methods to investigate the diffusion of homicide[J].Justice Quarterly,2014,31(3):609-632.[9] 王培安,罗卫华,白永平.基于空间自相关和时空扫描统计量的聚集比较分析[J].人文地理,2012(2):119-127.[10] 唐咸艳,李峤,黄秋兰,等.时空扫描统计量三维可视化的实现[J].中国卫生统计,2015(4):693-694.[11] 李小洲,王劲峰.空间扫描统计量方法中候选聚集区域生成的快速算法[J].地球信息科学学报,2013(4):505-511.[12] 福州市统计局.福州统计年鉴[M].北京:中国统计出版社,2012:22-23.[13] 殷菲.时-空扫描统计量在传染病早期预警中的应用研究[D].成都:四川大学,2007:20-21.[14] LEITNER M.Crime modeling and mapping using geospatialtechnologies[M].Dordrecht:Springer Netherlands,2013:320-436.[15] 周丽君,张兴裕,马越,等.前瞻性时空扫描统计量与时空重排扫描统计量在传染病聚集性探测中的适用性探讨[J].现代预防医学,2012(5):1068-1070.。
- 1、下载文档前请自行甄别文档内容的完整性,平台不提供额外的编辑、内容补充、找答案等附加服务。
- 2、"仅部分预览"的文档,不可在线预览部分如存在完整性等问题,可反馈申请退款(可完整预览的文档不适用该条件!)。
- 3、如文档侵犯您的权益,请联系客服反馈,我们会尽快为您处理(人工客服工作时间:9:00-18:30)。
时空扫描统计量-空间统计
1.1时空扫描统计量
空间自相关分析具有一定的局限性,其没有纳入时间因素故而不能判断地理空间上聚集区域随时间变化的趋势。
而时空扫描很好的解决了这一难题,不仅能够揭示地理空间上聚集区域随时间变化的规律,同时还能得出聚集区域的相对危险度,更加精确的对空间聚集区域位置进行了定位。
图错误!文档中没有指定样式的文字。
-1 时空扫描原理示意图时空聚集性分析同时考虑了时间和空间两个因素,主要采用移动窗口法(moving windows),如图错误!文档中没有指定样式的文字。
-1所示,在地理空间上创建扫描窗口(圆柱体),圆柱体的底面对应研究的地理区域,圆柱体的高对应扫描时间间隔,圆柱体的半径对应扫描的风险人口。
扫描窗口的大小和位置在地理空间上不断的变化,其过程为:随机选取地理空间上任一地理位置作为扫描窗口的底面中心,相应的地理区域(扫描窗口的底面积)不断变化,对应时间间隔(扫描窗口的高)也不断变化,直到达到预先规定的上限为止。
然后对每一个扫描窗口,根据实际属性值(如发病数)和人口数可计算出预期属性值(发病数),然后利用扫描窗口内外的实际值和预期值构造对数似然比(log likelihood ratio, LLR)检验统计量,最终选取LLR值最大的窗口为高聚集窗口。
针对每个扫描窗口,在泊松分布假设前提下,有:
Z
Z G G m u n m ⎛⎫
= ⎪⎝⎭
(式 错误!文档中没有指定样式的文字。
-1) 其中Z u 表示随机假设下时空窗口Z 中的理论事件数;Z m 表示时空窗口Z 中的总案例数;G m 表示研究区域内的总案例数;G n 表示研究时空范围内的总事件数。
接下来,根据窗口内外的理论与实际事件数构造对数似然比(log likelihood ratio LLR)统计量来描述窗口内事件异常聚集的程度,表达为:
0nG nZ
nZ
G Z Z Z G Z Z nG
G G n n n u u u L LLR L n u -⎛⎫
⎛⎫-
⎪ ⎪-⎝⎭⎝⎭==⎛⎫
⎪⎝⎭
(式 错误!文档中没有指定样式的文字。
-2)
其中Z n 表示时空窗口Z 中的是事件数,G n 是研究区域总事件数,Z u 是时空窗口Z 中的理论事件数,G u 是研究区域总的理论事件数,G Z u u =∑。
LLR 是单调递减的,P 值是根据蒙特卡罗假设检验得出。
当LLR 取最大值且P <0.05时,可以认为该区域存在聚集特征。
【案例4-4】
使用广东某疾病数据(Guangdong_case_popu.xls ,包含病例和人口数据)和地理坐标数据(Guangdong_geo.xls )数据,以广东省区县地理位置为基本单元、40%风险人口为半径、月为时间间隔,运用SaTscan 软件对广东省某疾病进行回顾性时空扫描统计,计算RR 值和时空聚类的LLR 值。
部分数据分别展示如表 错误!文档中没有指定样式的文字。
-1~表 错误!文档中没有指定样式的文字。
-2所示:
表 错误!文档中没有指定样式的文字。
-1 广东某疾病数据(部分数据)
quxian case popu time 440103 6 793026 Jan-09 440103 1 793026 Feb-09 440103 36 793026 Mar-09 440103 208 793026 Apr-09 440103 180 793026 May-09 440103
222
793026
Jun-09
440103 142 793026 Jul-09
440103 62 793026 Aug-09
440103 85 793026 Sep-09
440103 95 793026 Oct-09
表错误!文档中没有指定样式的文字。
-2 广东地理坐标数据(部分数据)
quxian lon lat
440781 112.71 22.03
440785 112.28 22.24
440981 110.97 22.03
440983 111.12 22.43
441223 112.43 23.67
441224 112.17 23.97
441225 111.71 23.56
441226 111.98 23.27
441402 116.12 24.28
441421 116.19 24.36
注意:数据集中的行需要按地点-时间的顺序规范排列。
如果某地某个时间段没有发生事件,则不能略去相应的行,而要将该行对应的事件数记为0。
步骤1:打开文件
打开SaTScan,单击【File】->【New Session】,弹出对话框,如图错误!文档中没有指定样式的文字。
-2所示,图中显示有三个界面,分别为:Input、Analysis、Output。
图错误!文档中没有指定样式的文字。
-2 时空扫描界面
步骤2:Input界面
在Input界面中,有多个文件选项,分别为:Case File、Population File、Coordinate File。
(1)Case File,操作步骤如图错误!文档中没有指定样式的文字。
-3(a~e)所示:
a
注:这里应该注意,SaTScan同OpenGeoDa一样,都不能识别中文路径,因此所有操作都应该在英文路径下,否则就会出错。