地理系统的主成分分析
主成分分析原理介绍PPT课件

➢问题的提出
有n个地理样本,每个样本共有p个变量, 构成一个n×p阶的地理数据矩阵
x11 x12 x1 p
X
x
21
x22
x2
p
x
n1
xn2
x np
当p较大时,在p维空间中考察问题比较麻烦。
1. 主成分分析的基本原理
为了克服这一困难,就需要进行降维处 理,即用较少的几个综合指标来代替原来的 指标,而且使这些综合指标能尽量多地反映 原来指标所表示的信息,同时他们之间又是 彼此独立的。
z1 l11x1 l12x2 l1p xp
z2 l21x1 l22x2 l2p xp
zm lm1x1 lm2 x2 lmpxp
z1,z2,…,zm分别称为原变量指标x1,x2,…, xP的第一,第二,…,第m主成分。
➢推广到p维空间:
由此可见,主成分分析的主要任务就是确定 原变量xj(j=1,2,…,p)在诸主成分zi(i=1, 2,...,m)上的系数lij。
必须考虑许多指标,这些指标能从不同的侧面反 映所研究的对象的特征,但指标过多,会增加分 析的复杂性,原始变量能不能减少为有代表性的 少数几个新变量,用它来代表原来的指标?
1. 主成分分析的基本原理
主成分分析就是寻找用较少的新变量代替 原来较多的旧变量,而且使新变量尽可能多 地保留原来较多信息的方法。
zz1 2csoisn cso insxx1 2Ux
U是正交矩阵,即有
UU1,UUE
zl,z2除了可以对包含在xl,x2中的信息起着 浓缩作用之外,还具有不相关的性质,这就使得 在研究复杂的问题时避免了信息重叠所带来的虚 假性。二维平面上的各点的方差大部分都归结在 zl轴上,而z2轴上的方差很小。zl和z2称为原始变 量x1和x2的综合变量。
主成分分析概要

什么是主成分分析法主成分分析也称主分量分析,旨在利用降维的思想,把多指标转化为少数几个综合指标。
在统计学中,主成分分析(principal components analysis,PCA)是一种简化数据集的技术。
它是一个线性变换。
这个变换把数据变换到一个新的坐标系统中,使得任何数据投影的第一大方差在第一个坐标(称为第一主成分)上,第二大方差在第二个坐标(第二主成分)上,依次类推。
主成分分析经常用减少数据集的维数,同时保持数据集的对方差贡献最大的特征。
这是通过保留低阶主成分,忽略高阶主成分做到的。
这样低阶成分往往能够保留住数据的最重要方面。
但是,这也不是一定的,要视具体应用而定。
[编辑]主成分分析的基本思想在实证问题研究中,为了全面、系统地分析问题,我们必须考虑众多影响因素。
这些涉及的因素一般称为指标,在多元统计分析中也称为变量。
因为每个变量都在不同程度上反映了所研究问题的某些信息,并且指标之间彼此有一定的相关性,因而所得的统计数据反映的信息在一定程度上有重叠。
在用统计方法研究多变量问题时,变量太多会增加计算量和增加分析问题的复杂性,人们希望在进行定量分析的过程中,涉及的变量较少,得到的信息量较多。
主成分分析正是适应这一要求产生的,是解决这类题的理想工具。
同样,在科普效果评估的过程中也存在着这样的问题。
科普效果是很难具体量化的。
在实际评估工作中,我们常常会选用几个有代表性的综合指标,采用打分的方法来进行评估,故综合指标的选取是个重点和难点。
如上所述,主成分分析法正是解决这一问题的理想工具。
因为评估所涉及的众多变量之间既然有一定的相关性,就必然存在着起支配作用的因素。
根据这一点,通过对原始变量相关矩阵内部结构的关系研究,找出影响科普效果某一要素的几个综合指标,使综合指标为原来变量的线性拟合。
这样,综合指标不仅保留了原始变量的主要信息,且彼此间不相关,又比原始变量具有某些更优越的性质,就使我们在研究复杂的科普效果评估问题时,容易抓住主要矛盾。
主成分分析法

主成分分析法什么事主成分分析法:主成分分析(principal components analysis , PCA 又称:主分量分析,主成分回归分析法主成分分析也称主分量分析,旨在利用降维的思想,把多指标转化为少数几个综合指标。
在统计学中,主成分分析(principal components analysis,PCA)是一种简化数据集的技术。
它是一个线性变换。
这个变换把数据变换到一个新的坐标系统中,使得任何数据投影的第一大方差在第一个坐标(称为第一主成分)上,第二大方差在第二个坐标(第二主成分)上,依次类推。
主成分分析经常用减少数据集的维数,同时保持数据集的对方差贡献最大的特征。
这是通过保留低阶主成分,忽略高阶主成分做到的。
这样低阶成分往往能够保留住数据的最重要方面。
但是,这也不是一定的,要视具体应用而定。
主成分分析的基本思想:在实证问题研究中,为了全面、系统地分析问题,我们必须考虑众多影响因素。
这些涉及的因素一般称为指标,在多元统计分析中也称为变量。
因为每个变量都在不同程度上反映了所研究问题的某些信息,并且指标之间彼此有一定的相关性,因而所得的统计数据反映的信息在一定程度上有重叠。
在用统计方法研究多变量问题时,变量太多会增加计算量和增加分析问题的复杂性,人们希望在进行定量分析的过程中,涉及的变量较少,得到的信息量较多。
主成分分析正是适应这一要求产生的,是解决这类题的理想工具同样,在科普效果评估的过程中也存在着这样的问题。
科普效果是很难具体量化的。
在实际评估工作中,我们常常会选用几个有代表性的综合指标,采用打分的方法来进行评估,故综合指标的选取是个重点和难点。
如上所述,主成分分析法正是解决这一问题的理想工具。
因为评估所涉及的众多变量之间既然有一定的相关性,就必然存在着起支配作用的因素。
根据这一点,通过对原始变量相关矩阵内部结构的关系研究,找出影响科普效果某一要素的几个综合指标,使综合指标为原来变量的线性拟合。
计量地理学

相关分析目的:揭示地理要素之间相互关系的密切程度。
实际操作:第一步,我们应该主观列出一些影响Y的一些X,选择相关分析的方法,如果只是两个要素之间的关系,我们采用简单相关,秩相关的方法,如果要是想研究多个要素之间的关系,我们可以采用偏相关和复相关的方法。
第二步,绘制散点图判断是否线性相关,进行正态性检验(检验方法:选用SPSS中的正态性检验功能,样本数>50选用K-S,<50选用S-W,sig值<0.05非正态,>0.05正态)。
第三步,计算相关系数。
如果正态性检验通过,我们就可以进行简单相关的分析(使用SPSS计算其Person 相关系数,绝对值越接近1表示相关性越强),正态性检验没有通过,选用秩相关的方法(秩相关是将两要素的样本值按数据的大小顺序排列位次,以各要素样本值的位次代替实际数据而求得的一种统计量)(使用SPSS软件计算Spearman系数)。
第四步,对所求系数进行显著性检验。
(|r|>rα,p<α,拒绝零假设,表示他们相关性显著。
其中P在SPSS中是P值下的Sig值,小于0.05拒绝零假设,大于0.05承认零假设。
r(相关系数)在实际中可以用查表法进行检验,注意其中f=n-2,这里容易出错误!)偏相关检验方法:常使用t检验的方法。
(|t|> tα, p<α,拒绝零假设,表示他们相关性显著。
需要自己计算t=偏相关系数/根号下(1-偏相关系数的平方)*根号下(n-m-1),n是样本数,m是自变量个数。
)*复相关系数检验方法:常使用F检验的方法。
(f> fα, p<α,拒绝零假设,表示他们相关性显著。
)回归分析目的:找出影响Y的影响源X,对以后的发展进行预测。
实际操作:第一步,如果只是研究两个变量之间的相关关系,我们可以选用一元线性回归模型,绘制散点图,选择线形回归还是非线性回归,如果是非线性那么我们化为线性进行参数结算,线性直接进行计算。
计量地理知识总结

计量地理知识总结第一章:一早期计量运动的三种学派1衣阿华的经济派代表人物:舍弗尔、麦卡尔蒂。
研究对象:着重探讨经济区位现象间相互内在联系及其组合类型。
特点:重视相关分析和回归分析统计方法在地理学中的应用2威斯康星的统计派。
代表人物:威弗尔、罗宾逊、东坎和仇佐里特点:以经典著作《统计地理学》为代表作,主要特征是发展和应用统计分析方法。
3普林斯顿的社会物理学派。
代表人物:司徒瓦特(J.Q. Stewart)。
特点:该派把物理学原理应用于社会现象的研究之中,发展了理论地理学中的引力模型、位势模型、空间相互作用模式。
二、计量运动的飞速发展:1加里森,第一本《计量地理学》教材,2美国区域科学协会组织了大量的学术活动,编辑出版了《区域科学年鉴》,该协会成为美国计量运动的源地之一。
3瑞典学者哈格斯特朗积极组织瑞典和美国的地理学家交流学术思想,大大促进了计量运动向全世界的扩散。
三、计量地理学的发展阶段第一阶段初期阶段(20世纪50年代末到60年代末期)把统计学方法引入地理学研究领域,构造一系列统计量来定量地描述地理要素的分布特征,应用各种概率分布函数、方差等简单的统计特征回归分析方法。
第二阶段中期阶段(20世纪60年代末期到70年代末期)多元统计分析方法和电子计算机技术在地理学研究中广泛应用。
以电子计算机技术为手段,许多地理学家熟练地掌握了多元统计方法,具备了分析多因素、复杂结构和动态特征等复杂地理问题的能力。
第三阶段成熟和发展阶段(20世纪70年代末期开始到80年代末期)系统理论、系统分析方法、系统优化方法、系统调控方法等被引进了地理学研究领域,促进了地理学向着更加严密的理论结构和现代化方向发展.第四阶段计量地理计算地理(20世纪90年代初至今)地理计算,以向量或并行处理器为基础的超级计算机为工具,对“整体”、“大容量”资料所表征的地理问题实施高性能计算,探索构筑新的地理学理论和应用模型。
四、数学方法及用途:1相关分析:分析地理要素之间的相关关系。
主成分分析

Extraction Method: Principal Component Analysis. Component Scores.
主成分系数矩阵,从而得出各主成分的表达式, 主成分系数矩阵,从而得出各主成分的表达式,注意在表达 式中各变量已经不是原始变量,而是标准化变量。 式中各变量已经不是原始变量,而是标准化 身高(X1,cm)、头围(X2,cm)、 体重(X3,g)的数据。
实验报告
写出X1, , 的相关矩阵 的相关矩阵。 写出 ,X2,X3的相关矩阵。 写出KMO与球形检验的结果(P值), 与球形检验的结果( 值 写出 与球形检验的结果 并做出判断, 并做出判断,该数据是否适合主成分分 析。 写出3个主成分的贡献率 个主成分的贡献率。 写出 个主成分的贡献率。 写出3个主成分关于 个主成分关于X1, , 的标准 写出 个主成分关于 ,X2,X3的标准 化的数值的线性组合。 化的数值的线性组合。
Rotation子对话框:用于因子分析。 子对话框:用于因子分析。 子对话框 Score子对话框 子对话框
选择是否将因子得分存入文件,以及具体的得分计算方法。 (1)Save as Variables:将计算出的因子得分作为新变量 加入数据文件,注意此处加入的是经过标准化的因子得分。 (2)Method单选框组:用于选择计算因子得分用的方法, 使用默认的回归法即可。 (3)Display factor score coefficient maxtrix:很重要。显 示因子得分系数阵,通过该系数阵就可以将所有公因子表示 为各个变量的线性组合,也就是我们所需要的主成分分析的 结果,系统同时会给出因子得分的协方差阵。
主 成 分 分 析
主成分分析
每个人都会遇到有很多变量的数据。 比如全国或各个地区的带有许多经济和社会变量 的数据;各个学校的研究、教学等各种变量的数 据等等。 这些数据的共同特点是变量很多,在如此多的变 量之中,有很多是相关的。人们希望能够找出它 们的少数“代表”来对它们进行描述。 主成分分析(principal component analysis) 就是把变量维数降低以便于描述、理解和分析的 方法。
基于主成分分析法的江苏省土地利用综合分区研究_丛明珠

土地资源综合分区是土地利用研究的重要方法[ 1] , 分区目的是探讨土地利用的组成及 综合性特征 , 特别是在人工开发后所形成的土地利用的结构和功能特征 , 以期深入了解土 地利用存在的主要问题的原因和表现 。它不仅可以揭示和分析区域土地利用中存在的问 题 , 还是区域土地管理和 经济发展规 划的重 要基础和 依据[ 2] , 土地持续 利用评价 的前 提[ 3] 。 国外对土地利用分区评价开始较早 , 1961 年美国农业部土壤保持局就首次颁布了 自然属性为主的土地潜力分类系统[ 4] ;虽然国内关于土地利用分区的研究相对较晚 , 但近 年来取得了丰硕的成果 , 研究视角已逐步从农业土地利用转向土地资源综合利用 , 特别 是分区的综合定量评判方法也得到较大发展[ 5] 。如徐邓耀等就土地利用分区原则与依据 、 分级系统与命名 、 分区类型 、 划分方法与技术要求 、 分区指标模型因子等理论 、 方法进行 了初步总结[ 6] ;钱乐祥探讨了主成分 —聚类分析法在制图地理分区界线定量确定上的应 用[ 7] ;李乔 、 陈云川等研究指出 , 土地利用分区应将叠置法和聚类分析法结合起来 , 先用 叠置法进行宏观的功能区划分 , 再用聚类分析法对功能区进行细分[ 8 , 9] ;周生路等采用遥 感解译地域分类和聚类分析地域归类方法 , 对桂林市土地利用地域分区进行了研究[ 2] ;王 秀红等利用多元统计方法中的因子分析法 , 对我国西部地区县市级行政区的土地利用程度
收稿日期 :2007-08-27 ;修订日期 :2008-01-20 基金项目 :江苏省哲学社会科学基金项目 (06JSBY J007) 资助 作者简介 :丛明珠 (1964-), 男 , 辽宁凤城人 , 博士研究生 。 主要从事城市与区域规划研究 。
3 期
计量地理学

计量地理学计量地理学:又称数量地理学或统计地理学或理论地理学,是用数学方法和计算机技术研究地理现象及地理要素的科学,是应用地理学的分支,是数学与地理学相交叉的学科。
“计量革命”:指20世纪50年代末开始的以数学方法在地理学中的应用为内涵的计量运动。
计算地理学:以向量或并行处理器为基础的超级计算机为工具,对“整个”、“大容量”资料所表征的地理问题实施高性能计算,探索构筑新的地理学理论应用模型。
空间数据:用于描述地理实体、地理要素、地理现象、地理事件及地理过程产生、存在和发展的地理位置、区域范围及空间联系。
属性数据:用于描述地理实体、地理要素、地理现象、地理事件、地理过程的有关属性特征。
中位数:将各个数据从小到大排列,居于中间那个位置的数就是中位数。
众数:众数就是出现频数最多的那个数。
从一个侧面反映了地理数据的一般水平。
方差:从平均概况衡量一组地理数据与平均值的离散程度。
基尼系数:就是通过两组数据的对比分析,纵、横坐标均以累计百分比表示,从而做出罗伦次曲线,然后再计算得出的集中化指数。
锡尔系数:用于对经济发展、收入分配等均衡(不均衡)状况,进行定量化的描述。
变异系数:它表示了地理数据的相对变化(波动)程度。
偏度系数:它测度了地理数据分布的不对称性情况,刻画了以平均值为中心的偏向情况。
峰度系数:它测度了地理数据在均值附近的集中程度。
集中化指数:是一个描述地理数据分布的集中化程度的指数。
统计分组:所谓统计分组就是根据研究目的,按照一定的分组标志将地理数据分成若干组。
多样化指数:研究一个国家、地区或城市综合发展的评定指标。
定性数据:表示地理现象或要素只有性质上的差异,而没有数量上的变化。
罗伦次曲线:20世纪初,意大利统计学家罗伦次,首先使用累计频率曲线研究工业化的集中化程度。
后来,这种曲线就被称之为罗伦次曲线。
间隔尺度数据:这种数据是以连续的量来表示地理要素,根据地理要素的不同性质,它采用不同的度量单位作为标准。