4.1 探索性空间统计分析
探索性空间数据分析

Analyzing Patterns
分析模式工具集 • 确定研究区域内的要素聚类、离散或随机分布的
程度
• 全局计算定量分析要素的地理模式 • 用于:
• 更好地了解要素的分布
• 研究区域内要素的聚类或离散程度
• 对比不同要素的分布 • 对比不同时相的要素分布的变化
Average Nearest Neighbor
• 对异常点敏感
入入室室盗盗窃窃案案与与汽汽车车盗盗窃窃案案的的分分布布对对比比
Directional Distribution (Standard Deviational Ellipse)
方向性分布(标准差椭圆)工具
• 提炼要素离散的空间趋势 • 用于:
– 对比不同类别要素的分布 – 对比不同时相的同类要素的分布变化 – 显示出要素离散的方向性趋势
平均最近邻工具
• 计算每一个要素到其 最近邻要素的平均距 离
• 基于面积
• 分析结果:
最近邻比值 (观测值/期望值)
Ratio = 1 Ratio < 1 Ratio > 1
分布模式
随机 聚类 离散
Shipwrecks
The Florida Keys
Spatial Autocorrelation (Moran’s I)
发掘地图背后的秘密
——探析ArcGIS空间统计工具
讲座人:王珏 wangjue@
内容提要
• 什么是空间统计学 • 为什么要用空间统计 • 空间统计学基础 • 空间统计工具简介
什么是空间统计学
年收入大于20万的家庭占总数的百分比?
传统的统计学
年收入大于20万的家庭分布在哪些地方?
• 用于:
探索性空间数据分析

地统计方法
• 变异函数
基台值:反映最大变异情 况,越高表明空间异质性越 高; 变程:空间相关性的作用 范围,超出变程则空间相关 性不存在; 块金值:反映随机变化, 受不确定性因素影响部分。
60.37 55.
地统计方法
表4 预测点(1,4)的g向量计算结果
(1,5) (3,4) (1,3) (4,5) (5,1)
距离 1 2 1
3.162 5
g向量 13.5 27 13.5 42.69 67.5
1
(1.5) (3,4) (1,3) (4,5) (5,1) (1,4)
• 直方图 • Normal QQ Plot • 趋势分析 • Voronoi Map • 半变异/协方差云图 • General QQ Plot • 正交协方差云图
直方图
• 将数据分为若干区 间,统计每个区间 内的要素个数
• 给出一组统计量 • 检验数据是否符合
正态分布以及发现 离群值
Normal QQ Plot
感谢聆听! 请关注培训中心更多精彩讲座
表1 半变异值计算结果
半变异值 12.5 12.5 0 112.5 0 12.5 112.5 12.5 50 112.5
距离计算 Sqrt[(1-3)2+(5-4)2] Sqrt[(1-1)2+(5-3)2] Sqrt[(1-4)2+(5-5)2] Sqrt[(1-5)2+(5-1)2] Sqrt[(3-1)2+(4-3)2] Sqrt[(3-4)2+(4-5)2] Sqrt[(3-5)2+(4-1)2] Sqrt[(1-4)2+(3-5)2] Sqrt[(1-5)2+(3-1)2] Sqrt[(4-5)2+(5-1)2]
空间统计分析

空间统计分析目录一、内容综述 (2)1. 背景介绍 (3)2. 研究目的与意义 (4)二、空间统计分析概述 (5)1. 空间统计分析定义 (6)2. 空间统计分析的发展与应用领域 (7)三、数据收集与预处理 (9)1. 数据来源 (10)2. 数据收集方法 (10)3. 数据预处理流程 (12)四、空间数据的可视化分析 (13)1. 空间数据可视化技术 (14)2. 可视化工具与平台选择 (15)3. 可视化分析结果解读 (17)五、空间数据的探索性统计分析 (18)1. 空间数据的描述性统计 (19)2. 空间数据的探索性方法 (20)3. 探索性结果分析与解释 (21)六、空间数据的定量统计分析 (23)1. 空间自相关分析 (24)2. 空间回归分析 (25)3. 空间插值分析 (26)4. 其他空间统计模型与方法 (27)七、空间统计分析的应用案例 (28)1. 城市规划与管理领域应用案例 (29)2. 生态环境保护领域应用案例 (31)3. 经济学领域应用案例 (31)4. 社会学领域应用案例 (33)八、空间统计分析的挑战与展望 (34)1. 技术挑战与解决方案 (35)2. 数据质量与可靠性问题探讨 (37)3. 未来发展趋势预测与展望 (38)九、结论与建议 (39)1. 研究总结与主要发现 (40)2. 政策建议与实施建议 (41)3. 研究不足与展望未来的研究方向 (42)一、内容综述空间统计分析是统计学的一个分支,其研究主要集中在地理空间数据和相关领域的数据分析和解释上。
随着全球定位系统、遥感技术、地理信息系统等技术的不断发展,海量的空间数据不断生成,空间统计分析的重要性愈加凸显。
本文档旨在全面介绍空间统计分析的基本概念、方法、应用及其发展趋势。
我们要明确什么是空间统计分析,空间统计分析结合了统计学与地理学,研究如何利用统计学方法分析带有空间属性的数据,揭示其内在的空间分布规律、空间关联关系以及空间演变趋势。
探索性空间统计分析的原理

探索性空间统计分析的原理
探索性空间统计分析是一种用于研究地理空间数据模式、关联性和变异性的统计方法。
它的原理是基于地理空间数据的特殊性,考虑了空间自相关性和空间依赖性。
探索性空间统计分析的原理如下:
1. 空间自相关性:空间自相关性是指地理空间数据中相邻地区之间存在的相关性。
探索性空间统计分析通过计算地理空间数据点之间的距离,从而测量地理空间数据的自相关性。
2. 空间依赖性:空间依赖性是指地理空间数据的空间位置对于数据观测值的影响。
探索性空间统计分析通过使用空间权重矩阵,考虑了地理空间数据的空间依赖性。
空间权重矩阵描述了地理空间数据点之间的空间关系,可以用于计算空间依赖性的指标。
3. 空间模式:探索性空间统计分析旨在发现地理空间数据中的空间模式。
空间模式是指数据分布中的规律、趋势或聚集特征。
探索性空间统计分析通过分析空间自相关性和空间依赖性,可以检测并描述地理空间数据中的空间模式。
4. 统计指标:探索性空间统计分析使用一系列统计指标来描述地理空间数据的属性特征。
常见的统计指标包括Moran's I指数、Geary's C指数和Getis-Ord
G指数等。
这些指标测量了空间自相关性、空间依赖性和空间聚集程度等属性,有助于揭示地理空间数据的空间模式。
通过探索性空间统计分析,可以有效地发现地理空间数据中的空间模式和关联性,为进一步的地理空间分析提供基础。
第4章空间统计分析初步——第1节探索性空间统计分析

第4章空间统计分析初步——第1节探索性空间统计分析探索性空间统计分析是空间统计分析的第一步,旨在揭示地理现象的空间分布模式和空间关联关系。
在进行探索性空间统计分析时,主要应用的方法包括空间自相关分析、扫描统计、点模式分析和基尼系数等。
空间自相关分析是用于评估地理现象是否呈现出空间聚集或空间离散的方法。
常用的空间自相关分析方法有Moran's I和Geary's C等。
Moran's I是一种广泛应用的空间自相关指标,它测量了地理现象在空间上的聚集或离散程度。
当Moran's I的值接近1时,表明地理现象呈现出正空间自相关,即相似的值聚集在一起;当Moran's I的值接近-1时,表明地理现象呈现出负空间自相关,即相似的值分散在一起;当Moran's I的值接近0时,表明地理现象呈现出随机分布。
扫描统计是一种常用的空间聚类分析方法,用于寻找地理现象的热点区域和冷点区域。
扫描统计的基本思想是通过不断调整和扫描的空间窗口,在不同的空间尺度上计算地理现象的局部指标,并找出具有显著性的空间聚类区域。
常用的扫描统计方法有卡斯帕-多斯的方法和波尔兹曼-莫丘特的方法等。
通过扫描统计分析,可以确定地理现象的聚集程度,并找到聚集区域的中心。
点模式分析是用于评估地理现象的点空间分布模式的方法。
在点模式分析中,主要用到的指标有距离分布函数和聚类指数等。
距离分布函数是用于描述点之间的距离分布特征的函数,常用的距离分布函数有Ripley's K函数和Clark-Evans函数等。
聚类指数是用于衡量点空间分布中聚集程度的指标,常用的聚类指数有平均距离指数和个体隔离指数等。
通过点模式分析,可以确定地理现象的点分布模式是随机分布、聚集分布还是分散分布。
基尼系数是用于评估地理现象的空间不平等程度的指标。
基尼系数的取值范围为0到1,0表示完全平等,1表示完全不平等。
常用的基尼系数有基尼指数和基尼分位数等。
探索性空间数据分析

研究生课程探索性空间数据分析杜世宏北京大学遥感与GIS研究所提纲一、地统计基础二、探索性数据分析•地统计(Geostatistics)又称地质统计,是在法国著名统计学家Matheron大量理论研究的基础上逐渐形成的一门新的统计学分支。
它是以区域化变量为基础,借助变异函数,研究既具有随机性又具有结构性,或空间相关性和依赖性的自然现象的一门科学。
凡是与空间数据的结构性和随机性,或空间相关性和依赖性,或空间格局与变异有关的研究,并对这些数据进行最优无偏内插估计,或模拟这些数据的离散性、波动性时,皆可应用地统计学的理论与方法。
•地统计学与经典统计学的共同之处在于:它们都是在大量采样的基础上,通过对样本属性值的频率分布或均值、方差关系及其相应规则的分析,确定其空间分布格局与相关关系。
但地统计学区别于经典统计学的最大特点是:地统计学既考虑到样本值的大小,又重视样本空间位置及样本间的距离,弥补了经典统计学忽略空间方位的缺陷。
•地统计分析理论基础包括前提假设、区域化变量、变异分析和空间估值。
• 1. 前提假设–⑴随机过程。
与经典统计学相同的是,地统计学也是在大量样本的基础上,通过分析样本间的规律,探索其分布规律,并进行预测。
地统计学认为研究区域中的所有样本值都是随机过程的结果,即所有样本值都不是相互独立的,它们是遵循一定的内在规律的。
因此地统计学就是要揭示这种内在规律,并进行预测。
–⑵正态分布。
在统计学分析中,假设大量样本是服从正态分布的,地统计学也不例外。
在获得数据后首先应对数据进行分析,若不符合正态分布的假设,应对数据进行变换,转为符合正态分布的形式,并尽量选取可逆的变换形式。
• 1. 前提假设–(3)平稳性。
对于统计学而言,重复的观点是其理论基础。
统计学认为,从大量重复的观察中可以进行预测和估计,并可以了解估计的变化性和不确定性。
–对于大部分的空间数据而言,平稳性的假设是合理的。
其中包括两种平稳性:•一是均值平稳,即假设均值是不变的并且与位置无关;•另一类是与协方差函数有关的二阶平稳和与半变异函数有关的内蕴平稳。
探索性空间统计分析和地统计分析

探索性空间统计分析和地统计分析探索性空间统计分析(Exploratory Spatial Data Analysis,简称ESDA)和地统计分析(Geostatistical Analysis)是两种常用的空间数据分析方法。
它们的目标都是通过统计方法来描述和分析地理现象及其空间分布规律,但在方法和应用上存在一些区别。
首先,探索性空间统计分析是一种通过可视化和统计方法来探索和描述空间数据的分析方法。
它主要关注地理现象的空间分布特征,以及空间相邻性和空间自相关性等空间关联性质。
ESDA通常包括一系列的分析步骤,如制作空间点图、计算空间变量的描述统计指标、绘制空间变量的直方图和箱线图等。
其中最重要的是通过制作空间点图来可视化空间分布特征,以便于进一步分析和解释。
其次,地统计分析是一种基于统计和概率方法来模拟和揭示地理现象的空间变异性的分析方法。
它主要关注地理现象在空间上的变异程度、空间趋势以及随机性等方面。
地统计分析通常基于经验半变异函数,通过计算样点之间的空间自相关性来揭示空间变异性的模式。
在地统计分析中最常用的模型是半变异函数模型,通过拟合半变异函数来估计空间自相关的程度和范围。
此外,地统计分析还可用于插值、空间预测和决策支持等方面的应用。
ESDA和地统计分析在应用上有一些区别。
ESDA更适用于对空间数据进行初步的探索和分析,通过可视化和描述统计的方法来了解空间数据的基本特征和分布规律,进而为后续的分析和建模奠定基础。
而地统计分析则更适合于模拟和预测地理现象的空间变异性,通过拟合空间模型来揭示地理现象的空间趋势和变异程度。
地统计分析较为复杂,需要有一定的空间统计知识和数据处理技巧。
总之,探索性空间统计分析和地统计分析是两种常用的空间数据分析方法,它们通过统计方法来描述和分析地理现象及其空间分布规律。
ESDA 注重空间数据的可视化和描述统计,而地统计分析则注重空间变异性的建模和推断。
两种方法在应用上有所区别,但在实际分析中常常可以相互补充和结合使用,以提高对空间数据的理解和解释能力。
最新完美版02探索性统计分析

– 当所寻找到的最邻近的5个邻域时,所有邻域也 许都是在同一个类别中.
图形法 网格法
•
解决方法:单元去聚(Cell declustering)和图形
•
解决方案是对数据进行加权,其中密集采样区域内的数据将获得较小的权重,稀 疏采样区域内的数据将获得较大的权重.
•
根据格网内的点数分配权重
数据是否有趋势分布?
探索性空间数据分析 ESDA
探索性空间数据分析 Exploratory Spatial Data Analysis(ESDA)
ESDA
数据分布在什么地方? 数据点的值是什么? 跟点位置相关的值如何?
基 于 数 据 驱 动 , 让 数 据 说 明 本 身
探索性空间数据分析(ESDA)
探索性空间数据分析(ESDA)
可以反映数据集中的空间相关程度。只有数据空间相关,才有必要进行空间 插值。 图表的横坐标表示任两点的空间距离,纵标表示该两点的半变异函数值。根 据距离越近越相似的原理,因而x值越小,y值应该越小。
如果任意两点的值都要计算 当采样点很多时 数据量便很大, 因而根据距离和方向对 样点距离进行了分组。 下列参数便是为此要求而设置 Lag,步长值; Number of,步长组数 步长值*组数<1/2最大点距
• 正态 QQPlot
检查数据分布是否为45度分布
如果不是正态分布
• 数据转换
Log, Box Cox, Arcsin, Normal Score
直方图检测是否为正态分布?
需要确认:
– 直方图为钟形分布 – 没有异常值 – 平均值 ≈ 中位数 – 偏斜度(Skewness )≈ 0 – 峰态(Kurtosis) ≈ 3
如果数据非平稳(nonstationary)怎么办?
- 1、下载文档前请自行甄别文档内容的完整性,平台不提供额外的编辑、内容补充、找答案等附加服务。
- 2、"仅部分预览"的文档,不可在线预览部分如存在完整性等问题,可反馈申请退款(可完整预览的文档不适用该条件!)。
- 3、如文档侵犯您的权益,请联系客服反馈,我们会尽快为您处理(人工客服工作时间:9:00-18:30)。
选取 2001 年我国 30 个省级行政区人均 GDP 数据,计算局部 Gi 统计量和局部 Gi 统计 量的检验值Z(Gi),并绘制统计地图如下。
检验结果表明,贵州、四川、云南西部3省 的 Z 值在 0.05 的显著性水平下显著,重庆的 Z 值 在 0.1 的显著性水平下显著,该 4 省市在空间上 相连成片分布,而且从统计学意义上来说,与 该区域相邻的省区,其人均 GDP 趋于为同样是 人均 GDP 低值的省区所包围 。由此形成人均 GDP 低值与低值的空间集聚,据此可认识到西 部落后省区趋于空间集聚的分布特征。
n
n
ij i
z zj
zi
2
n z T Wz S0 zT z
Moran指数I的取值一般在[-1,1]之间,小 于0表示负相关,等于0表示不相关,大于0表 示正相关; Geary系数C的取值一般在[0,2]之间,大 于1表示负相关,等于1表示不相关,而小于1 表示正相关。
对于Moran指数,可以用标准化统计量Z 来检验n个区域是否存在空间自相关关系,Z的 计算公式为
(x
i
j
i
x)2
nzi wij z j
j
式中:zi 和 z j 是经过标准差标准化的观测值。
局部Moran指数检验的标准化统计量为
Z (I i ) I i E(I i ) VAR( I i )
z z
T
z i wij z j
j
G统计量
全局G统计量的计算公式为
G wij xi x j / xi x j
第 4章
空间统计分析初步
本章主要内容
探索性空间统计分析 地统计分析方法
空间统计分析
空间统计分析,即空间数据(spatial data)的统计分析,是现代计量地理学 中一个快速发展的方向和领域。 空间统计分析,其核心就是认识与 地理位置相关的数据间的空间依赖、空 间关联或空间自相关,通过空间位置建 立数据间的统计关系。
二、应用实例
中国大陆30个省级行政区人均GDP的空间关联分 析。根据各省(直辖市、自治区)之间的邻接关系, 采用二进制邻接权重矩阵,选取各省(直辖市、自治 区)1998—2002年人均GDP的自然对数,依照公式计 算全局Moran指数I,计算其检验的标准化统计量Z (I),结果如下表所示。
年份 1998 1999 2000 2001 2002 I
Moran指数和Geary系数是两个用 来度量空间自相关的全局指标。 Moran指数反映的是空间邻接或空 间邻近的区域单元属性值的相似程度。 Geary 系数与Moran指数存在负相 关关系。
如果是位置(区域)的观测值,则该变 量的全局Moran指数I,用如下公式计算
I n wij xi x x j x
Moran散点图的4个象限,分别对应于区域 单元与其邻居之间4种类型的局部空间联系形式:
第1象限代表了高观测值的区域单元被同是 高值的区域所包围的空间联系形式; 第2象限代表了低观测值的区域单元被高值 的区域所包围的空间联系形式; 第3象限代表了低观测值的区域单元被同是 低值的区域所包围的空间联系形式; 第4象限代表了高观测值的区域单元被低值 的区域所包围的空间联系形式。
z T [ z1 , z 2 ,, z n ]
z j (x j x)
则全局Moran指数I的计算公式也可以进 一步写成
n I S0
w
i 1 j 1
n
n
ij
( xi x )(x j x )
i
(x
i 1
n
x)
2
n S0
w
i 1 j 1 n i 1
Moran散点图
以( Wz , z )为坐标点的 Moran 散点图, 常来研究局部的空间不稳定性,它对空间滞后 因子Wz和z数据对进行了可视化的二维图示。 全局 Moran 指数,可以看作是 Wz 对于 z 的 线性回归系数,对界外值以及对 Moran 指数具 有强烈影响的区域单元,可通过标准回归来诊 断出。 由于数据对( Wz , z )经过了标准化,因 此界外值可易由2-sigma规则可视化地识别出 来。
LISA包括局部Moran指数 (local Moran)和局部Geary指数 (local Geary),下面重点介绍和 讨论局部Moran指数。
局部Moran指数被定义为
( xi x ) I i wij ( x j x ) 2 S j
可进一步写成
I i
n( xi x ) wij ( x j x )
i j i j
对每一个区域单元的统计量为
Gi wij x j / x j
i j
对统计量的检验与局部Moran指数相似,其 检验值为
Z (Gi ) Gi E (Gi ) VAR(Gi )
显著的正值表示在该区域单元周围,高观测 值的区域单元趋于空间集聚,而显著的负值表示 低观测值的区域单元趋于空间集聚,与Moran指数 只能发现相似值(正关联)或非相似性观测值(负 关联)的空间集聚模式相比,具有能够探测出区 域单元属于高值集聚还是低值集聚的空间分布模 式。
与局部 Moran 指数相比,其重要的优 势在于能够进一步具体区分区域单元和其 邻居之间属于高值和高值、低值和低值、 高值和低值、低值和高值之中的哪种空间 联系形式。 并且,对应于 Moran 散点图的不同象 限,可识别出空间分布中存在着哪几种不 同的实体。 将 Moran 散点图与 LISA 显著性水平相 结合,也可以得到所谓的“ Moran 显著性 水平图”,图中显示出显著的LISA区域, 并分别标识出对应于 Moran 散点图中不同 象限的相应区域。
空间联系的局部指标(LISA)
空间联系的局部指标( local indicators of spatial association ,缩写为LISA)满足下 列两个条件:
( 1 )每个区域单元的 LISA ,是描述该 区域单元周围显著的相似值区域单元之间空 间集聚程度的指标; ( 2 )所有区域单元 LISA 的总和与全局 的空间联系指标成比例。
0.5001
Z 4.503 5 4.555 1 4.597 8 4.553 2 4.532 6
P 0.000 0 0.000 0 0.000 0 0.000 0 0.000 0
0.506 9 0.511 2 0.505 9 0.501 3
从表中可以看出,在1998—2002 年期间,中国大 陆30个省级行政区人均GDP的全局Moran指数均为正值; 在正态分布假设之上,对Moran指数检验的结果也高度 显著。这就是说,在 1998—2002 年期间,中国大陆 30 个省级行政区人均 GDP 存在着显著的、正的空间自相 关,也就是说各省级行政区人均 GDP 水平的空间分布 并非表现出完全的随机性,而是表现出相似值之间的 空间集聚,其空间联系的特征是:较高人均 GDP 水平 的省级行政区相对地趋于和较高人均 GDP 水平的省级 行政区相邻,或者较低人均 GDP 水平的省级行政区相 对地趋于和较低人均GDP水平的省级行政区相邻。
Z I E(I ) VAR( I )
当Z值为正且显著时,表明存在正的空间 自相关,也就是说相似的观测值(高值或低值) 趋于空间集聚;
当Z值为负且显著时,表明存在负的空间 自相关,相似的观测值趋于分散分布;
当Z值为零时,观测值呈独立随机分布。
(三)局部空间自相关
局部空间自相关分析方法包括3种: 空间联系的局部指标(LISA) ; G统计量 ; Moran散点图。
n n i 1 j 1 n
w x
i 1 j 1 ij i 1
n
n
i
x
Hale Waihona Puke ( xi 1 j i ij
n
n
i
x)(x j x)
n ij
2
S
2
w
i 1 j i
n
式中: I 为Moran指数;
S2 1 2 ( x x ) ; i n i 1 n x xi 。 n i 1
上图进一步显示了30个省级行政区人均GDP局部集 聚的空间结构。可以看出,从人均GDP水平相对地来看: 高值被高值包围的高高集聚省(直辖市)有:北 京、天津、河南、安徽、湖北、江西、海南、广东、 福建、浙江、山东、上海、江苏; 低值被低值包围的低低集聚省(自治区)有:黑 龙江、内蒙古、新疆、吉林、甘肃、山西、陕西、青 海、西藏、四川、云南、辽宁、贵州; 被低值包围的高值省(直辖市)有:重庆、广西、 河北;被高值包围的低值省份只有湖南。
Geary 系数C计算公式如下
C
n 1 wij xi x j 2
n n i 1 j 1 n
2 wij xi x
i 1 j 1 i 1
n
n
2
式中:C为Geary系数;其他变量同上式。
如果引入记号
S 0 wij
i 1 j 1 n n
zi ( xi x )
式中:Wij表示区域i与j的临近关系,它可以 根据邻接标准或距离标准来度量。
两种最常用的确定空间权重矩阵的规则
①简单的二进制邻接矩阵
1 当区域i和j相邻接 wij 其他 0
②基于距离的二进制空间权重矩阵
1 当区域i和j的距离小于d时 wij 其他 0
(二)全局空间自相关
第1节 探索性空间统计分析
基本原理与方法
应用实例
一、基本原理与方法
(一)空间权重矩阵
通常定义一个二元对称空间权重矩阵W,来 表达n个位置的空间区域的邻近关系,其形式如 下
w11 w W 21 wn1 w12 w22 wn 2 w1n w2 n wnn