第五章 统计

合集下载

统计学第五章(变异指标)

统计学第五章(变异指标)

峰态及其度量
峰态定义
峰态是指数据分布的尖峭程度或扁平程度。在统计学中,峰态通常通过峰态系数 来度量。
峰态系数
峰态系数是描述数据分布峰态程度的一个统计量,通常表示为K。当K=3时,分 布呈正态分布,峰度适中;当K>3时,分布呈尖峰分布,即比正态分布更尖峭; 当K<3时,分布呈平峰分布,即比正态分布更扁平。
方差
要点一
定义
方差是在概率论和统计方差衡量随机 变量或一组数据时离散程度的度量, 用来度量随机变量和其数学期望(即 均值)之间的偏离程度。
要点二
计算公式
方差s^2=[(x1-x)^2+(x2x)^2+......(xn-x)^2]/n(x为平均数)。
要点三
性质
方差越大,说明随机变量取值越离散; 方差刻画了随机变量的取值对于其数学 期望的离散程度;若X的取值比较集 中,则方差D(X)较小,若X的取值比较 分散,则方差D(X)较大;因此,D (X)是刻画X取值分散程度的一个 量,它是衡量取值分散程度的一个尺 度。
变异系数的计算
01
注意事项
02
当数据集包含极端值时,变异系数可能会受到影响。
03
对于非正态分布的数据,变异系数的解释需谨慎。
变异系数的应用
比较不同数据集的离散程度
通过比较不同数据集的变异系数,可以评估它们 的相对波动程度。
在质量控制中的应用
通过计算产品质量的变异系数,计学第五章变异指

CONTENCT

• 变异指标概述 • 变异系数 • 极差、四分位差与平均差 • 标准差与方差 • 偏态与峰态的度量 • 变异指标在统计分析中的应用
01
变异指标概述

第五章 统计推断(1)

第五章 统计推断(1)
2检验是根据s判断抽出该样本的总体 其标准差是否等于
某一给定值。
检验程序:
(a) 确定假设H 0和H A: H 0:= 0;H A 有三种可能的形式: ( 1 ) 0 (2) 0 (若已知不可能小于 0 ) (3) 0 (若已知不可能大于 0 )
(b)计算检验的统计量:
1. 单个样本平均数检验
在实际研究中,常常要 检验一个样本平均数 x与已知的总体 平均数0是否有显著差异,即检 验该样本是否来自某一 已知 的总体。
已知的总体平均数一般 为一些公认的理论数值 。如畜禽正常 的生理指标、怀孕期、 生产性能指标等,都可 以样本平均数 与之比较,检验差异显 著性。
1.1 在σ已知的情况下,单个平均数的显著性 检验-u检验 检验程序:
• 两类错误之间的关系如何?
二者的区别是I型错误只有在否定H0的情况下发生,而 II型错误只有在接受H0时才会发生。 二者的联系是,在样本容量相同的情况下,I型错误减 小,II型错误就会增大;反之II型错误减小,I型错误就 会增大。比如,将显著性水平α从0.05提高到0.01,就 更容易接受H0,因此犯I型错误的概率就减小,但相应 地增加了犯II型错误的概率。
第一节 假设检验的基本步骤及原理
1. 假设检验的基本步骤
我们通过一个例子来介绍假设检验的基本步骤:
例一,已知某品种玉米 单穗重X ~ N (300,9.52 ),即单穗重 总体平均数0 300g,标准差 9.5 g。在种植过程中喷洒 了某种药剂的植株中随 机抽取9个果穗,测得平均单穗 重 x 308g,试问这种药剂对该品 种玉米的平均单穗重 有无真实影响?
• (一)提出假设
首先对样本所在的总体 作一假设。假设喷洒了 药剂的玉米单穗重 总体平均数与原来的玉米单穗重总 体平均数0之间没有真实差异, 即=0。也就是说表面差异( x 0)是由抽样误差造成的 。

统计学原理第五章

统计学原理第五章

第五章综合指标学习要点:了解各种指标的概念及作用,掌握相对指标、平均指标的特点及计算方法,变异指标的计算方法。

§1、总量指标§2、相对指标§3、平均指标§4、变异指标学习知识点:前言:1、总量指标是反映社会经济现象发展的总规模、总水平的综合指标。

将总体单位数相加或总体单位标志值相加,就可以得到说明在一定时间、空间条件下某种现象总体的总规模、总水平的指标,即总量指标。

如:2010年年年末为1339724852亿,反映是我国人口的总规模。

总量指标的作用:第一、总量指标可以用来反映一个国家的基本国情国力,反映一个地区、一个部门或一个单位的人力、物力和财力,是人们对客观事物认识的起点。

第二、总量指标可以用来作为制定政策、制定计划和实行科学管理的基本依据,也是检查政策、计划执行情况,反映社会经济活动绝对效果的重要指标。

第三、总量指标可以用来研究客观现象的数量表现及其发展的变化趋势。

第四、总量指标是计算相对指标和平均指标的基础。

一、总量指标的种类:1、按其反映现象总体内容的不同:• 总体单位总量(简称单位总量):指总体内所有单位的总数,表示总体本身规模的大小。

对于一个确定的统计总体,其总体单位总量是唯一确定的。

• 总体标志总量(简称标志总量):指总体中各单位标志值总和。

对于确定的统计总体,标志总量不是唯一的,而是随着标志的不同可计算不同的标志。

• 例:我们研究某市三级医院的基本情况,则全市三级医院的总数量是总体单位总量,而全部三级医院职工总人数、全部三级医院职工工资总额等就是总体指标总量。

2、按反映时间状况的不同,可分为时期指标和时点指标。

• 时期指标指反映某社会经济现象在一段时间活动结果的总量指标,它反映的是一段时间连续发生变化过程。

如产品总量、货物运输量、商品销售量、国内生产总量等。

• 时点指标是反映社会经济现象在某一时间(瞬间)状况上的总量指标。

如人口数、职工数、设备台数等。

统计学 第五章

统计学      第五章

第五章 抽样推断抽样推断定义:是一种非全面调查,是按随机原则,从总体中抽取一部分单位进行调查,并以其结果对总体某一数量特征作出估计和推断的一种统计方法。

(一) 总体和样本在抽样推断中面临两个不同的总体,即全及总体和样本总体,全及总体也叫母体,简称总体。

全及总体的单位数用N 表示全及总体⎪⎩⎪⎨⎧⎩⎨⎧属性总体有限总体无限总体变量总体样本总体又叫抽样总体、子样,简称样本,样本总体的单位数称样本容量,用n 表示。

(二) 参数和统计量参数亦称全及指标,由于全及总体是唯一确定的,故根据全及总体计算的参数也是个定值 对于属性总体,可以有如下参数,全及总体成数p ,全及总体标准差)(2p p σσ方差 属性总体标准差:()p p p-=1σ统计量即样本指标设样本总体有n 个变量:n x x x x ,...,,,321 则:样本平均数 nx x ∑=(三) 样本容量与样本个数样本容量是指一个样本所包含的单位数,用n 来表示,一般地,样本单位数达到或超过30个的样本称为大样本,而在30个以下称为小样本。

社会经济统计的抽样推断多属于大样本,而科学实验的抽样观察则多取小样本。

样本个数又称样本可能数目,是指从全及总体中可能抽取的样本的个数。

一个总体可能抽取多少样本,与样本容量大小有关,也与抽样的方法有关。

在样本容量确定之后,样本的可能数目便完全取决于抽样方法。

抽样误差是抽样调查自身所固有的,不可避免的误差,虽然不能消除这种误差,但有办法进行计算,并能对其加以控制。

抽样平均误差越大,表示样本的代表性越低;抽样平均误差越小,表示样本的代表性越高。

在重复简单随机抽样时,样本平均数的抽样分布有数学期望值E(a)=a(a代表全及总体平均数,即X)X⇔。

样本平均数的平均数=总体平均数抽样平均误差=抽样标准误差=样本平均数的标准差(它反映抽样平均数与总体平均数的平均误差程度)例题:某班组4个工人的月工资(N=4)分别是:1400元,1500元,1600元,1700元,现用重复简单随机抽样的方法从全及总体中抽选出容量大小为2的样本(n=2),求抽样平均误差?解:全及总体平均工资)(15501700160015001400元=+++=X全及总体标准差()4500002=-=∑NX Xσ抽样平均误差x μ=nnσσ=2=)(0569.792*450000元=例题:某班组4个工人的月工资(N=4)分别是:1400元,1500元,1600元,1700元,现用不重复简单随机抽样的方法从全部总体中抽选容量大小为2的样本(n=2),求抽样平均误差?解:全及总体平均工资)(155041700160015001400元=+++==∑NXX全及总体标准差()4500002=-=∑NX Xσx μ=⎪⎭⎫ ⎝⎛--∙12N n N n σ=)(55.6414244*250000元=--∙例题:某电子元件厂,生产某型号晶体管,按正常生产试验,产品中属于一级品的占70%,现在从10000件晶体管中,抽取100件进行抽查检验,求一级品率的抽样平均误差? 解:已知:P=0.7 , P(1-P)=0.21在重复抽样的情况下,抽样平均误差为:()np p p -=1μ=%58.410021.0=在不重复抽样的情况下,抽样平均误差为:()⎪⎭⎫⎝⎛-∙-=N n n p p p 11μ=%56.410000*********.0=⎪⎭⎫ ⎝⎛-∙参数估计()()⎪⎪⎩⎪⎪⎨⎧→-==+≤≤是概率度是置信度,极限误差)样本指标总体指标极限误差—(样本指标区间估计:求不高的情况准确程度与可靠程度要点估计:适用于推断的t t F t F P α1例题:已知某车间某产品的合格率在某个置信度下的估计区间是(85%,95%),还已知样本容量为100,求置信度?解:显然p p ∆-=85%,p p ∆+=95%,即p=90%,p ∆=5%p ∆=μ⋅t μpt ∆=⇒=()()67.1100%901%90%51=-∙=-∆np p p ()t F =0.9052即置信度为90.51% ★求置信度,只需要求出t影响抽样数目的因素⎪⎪⎪⎪⎩⎪⎪⎪⎪⎨⎧∆样本单位不重置抽样可以少抽些单位,抽样需要多抽一些样本、在同等条件下,重置单位,则反之值越大,则多抽些样本、概率度则反之单位,的值大可以少抽些样本)、允许误差(极限误差越多,则反之值越大,必要抽样数目、总体标准差4321t x σ例题:某城市组织职工家庭生活抽样调查,职工家庭平均每户每月收入的标准差为11.50元,要求把握程度为95.45%,允许误差为1元,问需抽选多少户? 解:()t F =0.95452=⇒t , 元元,150.11=∆=x σxt n 222∆=σ=()户529150.1142=∙。

第05章 统计推断

第05章  统计推断

单侧检验 α=0.05或0.01 统计推断 第五章
§5.1 单个样本的统计假设检验
5.1.2 单个样本的显著性检验程序
统计假设检验的三步曲: 1、建立零假设(null hypothesis)——假设差异不显著或无关; 2、计算统计量(u-检验,t-检验,x2-检验,F-检验);
3、判断假设。 对于带备择假设的零假设:需根据备择假设的拒
F
s , df n 1, df n 1 s
下侧临界点F1-α的 值,按右式计算
解释: F< F0.05,或P>0.05,接受H0; F> F0.05,或P<0.05,拒 Fdf1,df2,α,df 1附表7中没有给出 df 2为分母自由度 为分子自由度, 1 绝H0, ② F < F 1-α
s ③HA:μ≠μ0,包括μ>μ0和μ<μ0 此时相应各备择假设的H0的拒绝域分别为:
①t > tα解释: t<t0.05,接受H0; t>t0.05,拒绝H0 ②t < -tα ③|t| > tα/2,或表示为|t| > tα(两侧)
t n 1
n
第五章 统计推断
§5.1 单个样本的统计假设检验
379.2 377.2 u 1.82 3. 3 n 9 由于u 1.82 u0.05 1.645 ,所以拒绝H0假设、接受HA。
即栽培条件的改善显著地提高了豌豆籽粒重量。
x 0
第五章 统计推断
§5.1 单个样本的统计假设检验
5.1.4 σ未知时平均数的显著性检验——t 检验(t-test) 检验的程序: (1)零假设H0:μ=μ0 备择假设:①HA:μ>μ0,若已知μ不可能小于μ0 (2)计算统计量: x 0 (3)判断统计量: ②HA:μ<μ0,若已知μ不可能大于μ0

第五章计数资料的统计描述

第五章计数资料的统计描述
1 、概念: 说明某事物内部各组成部分所
占的比重或分布,又称构成比或结构指标。
2、计算公式:
某一组成部分的观察单位数 比 100% 各组成部分的观察单位总数
3、基数:100%,故也称百分比。 4、比可相加,之和等于100
三、相对比(relative ratio)
概念:是两个有关的指标之比,说明两 者的对比水平, 以百分数或倍数表示。 计算公式: 相对比=甲指标/乙指标(或×标准化治愈率 p
380 100% 47.5% 800 427 100% 53.4% 800
第三节 率的标准化法
二、标准化率的计算-间接法
(二)计算公式:
间接法:选择发生率做标准
P:为标准总发生率,
r p P P SMR ni Pi
,说明某事物在一个较长时期中逐期(如逐年)平均发 展的程度。 2 、平均增长速度: 是各环比增长速度的平均数,说 明某事物在一个较长时期中逐期平均增长的程度。
计算公式: 平均发展速度= n an / a0 a0 为基期指标;an 为第 n 期指标。 平均增长速度=平均发展速度1
结 束
第三节 率的标准化法
二、标准化率的计算
(一)标准化方法:直接法和间接法 标准构成: 1、某一组的人口数或人口构成;
2、两组之和的人口数或人口构成;
3、通用的或便于比较的标准。
第三节 率的标准化法
二、标准化率的计算-直接法
(二)计算公式:
直接法:选择人口数作标准
Np p
i
Ni : 为 第 i 层 标 准
例:某年某医院出生婴儿中,男性婴儿为 370 人, 女 性 婴 儿 为 358 人 , 则 出 生 婴 儿 性 别 比 例 为 370/358×100% = 103%

统计学第五章


2-分布
(性质和特点)
• 1. 期望为:E(2)=n,

方差为:D(2)=2n(n为自由度)
• 2. 可加性:

若U和V为两个独立的2分布随机变量,
U~2(n1),V~2(n2),则U+V这一随机变量服从 自由度为n1+n2的2分布
• 3. 当 n 时, 2分布的极限分布是正态
分布
不同自由度的2-分布
(central limit theorem)
从均值为,方差为 2的一个任意总体中抽取容量
为n的样本,当n充分大时,样本均值的抽样分布近 似服从均值为μ、方差为σ2/n的正态分布
一个任意分 布的总体
x
n
当样本容量足够 大时(n 30) , 样本均值的抽样 分布逐渐趋于正 态分布
x
x
中心极限定理
(2)系统抽样的评价 ——操作上简便易行 ——如果总体是按有关标志进行排列的话,可以提 高样本的代表性,改进抽样精度 ——对估计量方差的估计比较困难
4、整群抽样(cluster random sampling) (1)整群抽样的概念
整群抽样是指将总体分成群,从中随机抽取 若干群,群中的所有单位构成样本
E(x)
2 x
2
n
样本比例的分布
(proportion)
1. 总体(或样本)中具有某种属性的单位与全部单位 总数之比
– 不同性别的人与全部人数之比
– 合格品(或不合格品) 与全部产品总数之比
2. 总体比例可表示为
N0 或 1 N1
N
N
3. 样本比例可表示为
4.
p n0 或 1 p n1
2. 一种理论概率分布

第五章 统计推断-1


解:
H0:μ=μ0 已知这批动物实际饲养的时间比根据以往 经验所需饲养的时间长的多,因此,μ不可 能小于μ0 (10.00g) H1:μ>μ0 ,为单侧检验
取α=0.05,查表得临界值uα=u0.05=1.645
拒绝域:u>1.645
根据样本计算统计量
x 0 10.23 10.00 u 1.82 / n 0.4 / 10
t检验-2 (t-test for pooled data) 成组设计的两样本均数比较
前提条件:从σi 未知的两个正态或近似 正态总体中,独立地抽取含量分别为n1 和n2的样本
H0:μ1=μ2 H1: 1 2 ,若已知μ1不可能小于μ2 or: 1 2 ,若已知μ1不可能大于μ2 or: 1 2 ,包括μ1>μ2和μ1<μ2
比较:u=0.57<μα ,落入拒绝域外,应在 0.05的显著性水平下接受H0 结论:第一号渔场的马面鲀体长并不显著 高于第二号渔场的
四、t检验(t-test)-1 在σ未知的情况下,单样本均数检验
前提条件:从σ未知的正态或近似正态总 体中,随机抽取含量为n的样本 H0:μ=μ0
H1:
or:
( x x
1
称为平均数差数的标准误差 2)
U检验应用举例2
问题:调查两个不同渔场的马面鲀体长, 每一渔场调查20条。
平均体长分别为 x1 19.8cm, x 2 18.5cm
已知
1 2 7.2cm
问在α=0.05水平上,第一号渔场的马面 鲀体长是否显著高于第二号渔场的马面鲀 体长?
0 ,若已知μ不可能小于μ0
0 ,若已知μ不可能大于μ0
or:
0 ,包括μ>μ0和μ<μ0

应用统计学(第五章 统计推断)

差与已知总体的方差存在显著差异
检验统计量: χ2 (n 1) s2 σ02
例题5 已知某农田受到重金属污染,抽样测定其镉含量
(μg/g)分别为:3.6、4.2、4.7、4.5、4.2、4.0、3.8、
3.7,试检验污染农田镉含量的方差与正常农田镉含量的方 差0.065是否相同。
解:假设 H0:σ 2 σ02 , H A:σ 2 σ02
P(μ-1.960 σ x ≤ x < μ+1.960 σ x)=0.95
否定区
接受区
否定区
左尾
0.025
μ-1.960σ x
0.95
0.025
0 μ+1.960σ x
右尾
临界值: ± uσ x= ± 1.960σ x
双尾检验 = 0.01
P(μ-2.576 σ x ≤ x < μ+2.576 σ x)=0.99
解: 假设: H0: μ ≤ μ0, HA : μ > μ0 确定显著水平:α=0.05 检验统计量:u x μ0 379.2 377.2 1.818 σ n 3.3 9 u0.05=1.645,计算得:u=1.818>u0.05,P<0.05
推断:否定H0,接受HA。
即:栽培条件的改善,显著提高了豌豆籽粒重量。
4)推断
接受/否定H0(HA,实际意义)
例题1 正常人血钙值服从的正态分布,平均值为2.29 mM,标准差为 0.61mM。现有8名甲状旁腺减退患者经治疗后,测得其血钙值平均为 2.01mM,试检验其血钙值是否正常。
1)提出假设 2)确定显著水平 3)计算概率 4)推断
1)提出假设
H0
零假设 /无效假设
对 /检验假设

第五章 数理统计的基本概念


线性无偏估计量
定义:如果总体参数的 点估计 满足 ( 1 ) 是样本的线性函数; (2)E
最小方差线性无偏估计量
定义:如果总体参数的 点估计 满足 ( 1 ) 是样本的线性函数; (2)对 的一切线性无偏估计量 0,D D 0
定理 (R-C不等式)
设总体X具有分布密度f ( x; )。抽取样本( x1 ,..., xn ), 设g ( )为 的一个可估函数,T T ( x1 ,..., xn )为g ( ) 的一个无偏估计量,且 满足正则条件
• 若12, 22已知
(X Y) ( 1 2 ) U ~ N (0,1)
2 1
n

2 2
m
• 若12, 22未知,但是12= 22
T (X Y) ( 1 2 ) ~ t (m n 2)
12
m

2 2
n

mS12
12

2 nS2 2 2
T
(X Y) (1 2 ) 1 1 2 mS12 nS2 /(m n 2) m n
~ t (m n 2)
推论:设( X 1 ,..., X n )和(Y1 ,..., Ym )分别为来自
2 2 正态总体N ( 1 , 1 )和N ( 2 , 2 )的两个相互
独立的样本,则随机变量
F
2 若 1 2 2
2 2 Sm / 1 2 Sn 2 / 2
~ F (m 1, n 1)
F
2 Sm 2 Sn
~ F (m 1, n 1)
第六章 参数估计
第一节 点估计
• 定义:设为总体分布中的未知参数,从X 中抽取样本 (x1,…,xn) ,构造适当的统计量 (x1,…,xn), 估计 (以的值作为的近似), 这种方法称为参数的点估计。 • 统计量称为的点估计量; • 对于一组样本观测值 (x1,…,xn) ,该统计量 相应的值(x1,…,xn)称为的点估计值 • 的点估计量和点估计值简称为的点估计。
  1. 1、下载文档前请自行甄别文档内容的完整性,平台不提供额外的编辑、内容补充、找答案等附加服务。
  2. 2、"仅部分预览"的文档,不可在线预览部分如存在完整性等问题,可反馈申请退款(可完整预览的文档不适用该条件!)。
  3. 3、如文档侵犯您的权益,请联系客服反馈,我们会尽快为您处理(人工客服工作时间:9:00-18:30)。

聚类分析
例:用xik表示第i个样本第k个指标的数据, xjk表示第j个样本第k个指标数据;dij表 示第i个样本和第j个样本之间的距离,根 据不同的需要,距离可以定义为许多类 型,最常见、最直观的距离是欧几里德 距离,即:
依次求出任何两个点的距离系数dij(i, j=l,2,…,n)以后,则可形成一个距 离矩阵
q=0.6,非欧氏距离
i
( yi y j )
0.6 1/ 0.6
n 维非匀质空间距离计算
dij ( xi x j )

0.6

几何量算
线长度可由两点间直线距离 相加得到。 面积和周长的计算。在平面 直角坐标系中,计算面积时, 计算y值以下面积.按矢量方 向,分别求出向右向左两个 方向各自的面积,它们的绝 对值之差,便是多边形面积 值,周长则是线段之和。
– 离差平方和增量:设样本已分成ωp,ωq两类,若 把ωp,ωq合为ωr类,则定义离差平方:
D pq S r ( S
2 p
Sq ) ,
其中 S p , S q 分别为 p 类于 q 类的离差平方和 S r 为 r 类的离差平方和 增量愈小,合并愈合理 。
• 例:如下图所示
G3 G1
跟踪某些地理分布的变 化,如人口变迁、土地 类型变化等。 简化复杂目标的模型建 立等
几何量算
几何量算对点、线、面、体4类目标物 而言,其含义不同的: 点状目标:坐标; 线状目标:长度、曲率、方向; 面状目标:面积、周长等; 体状目标:表面积、体积等。
几何量算
n 维匀质空间广义距离公式
2、3 类合 并为c, 1、4 类合 并为d
判别分析
判别分析与聚类分析同属分类问题,所 不同的是,判别分析是预先根据理论与实 践确定等级序列的因子标准,再将待分析 的地理实体安排到序列的合理位置上的方 法,对于诸如水土流失评价、土地适宜性 评价等有一定理论根据的分类系统定级问 题比较适用。
判别分析
8
(2) 由相关系数矩阵计算特征值,以及各 个主成分的贡献率与累计贡献率。由表可 知,第一,第二,第三主成分的累计贡献 率已高达86.5%,故只需求出第一,第二, 第三主成分z1,z2,z3即可。
9
(3)对于特征值λ1=5.043,λ2=1.746,λ3=0.997 分别求出其特征向量e1,e2,e3,并计算各 变量x1,x2,……,x9在各主成分上的载荷 得到主成分载荷矩阵
11

层次分析法(AHP)
AHP方法把相互关联的要素按隶属关系分为 若干层次,请有经验的专家对各层次各因素的相 对重要性给出定量指标,利用数学方法综合专家 意见给出各层次各要素的相对重要性权值,作为 综合分析的基础。 例如要比较n个因素y={yl,y2,…,yn }对目 标Z的影响,确定它们在z中的比重,每次取两个 因素yi和yJ,用aij表示yi与yJ对Z的影响之比,全 部比较结果可用矩阵A=(aij)n*n表示,A叫成对 比矩阵,它应满足: aij>0,aji=1/aij (i,j=1,2,...n) 使上式成立的矩阵称互反阵,必有aii=l。
G2
G5
G4 G6
x
• 1、设全部样本分为6类 • 2、作距离矩阵D(0)
ω1
ω2 ω3 ω4 ω5 9 1 49 25
ω2
ω3
ω4
ω5
16 16 4 64 36 4
ω6
64
25
81
1
9
d 3、求最小元素:31 d 64 1
4、把ω1,ω3合并ω7=(1,3) ω4,ω6合并ω8=(4,6) 5、作距离矩阵D(1)

形状量算
地物外形是影像处理中模式识别的一 个重要部分。例如海岸线的外形是岛屿的 重要特征,森林中不同类型的土地外形对 野生生物显得非常重要。目标物的外观是 多变的,很难找到一个准确的量对其进行 描述。 基本考虑:空间完整性、多边形形状特征
形状量算
第一种量算方法:
首先统计线段的总长度得 到多边形的周长,然后 与同该多边形面积相同 的圆的周长进行比较。 将多边形周长与圆周长相 除得到一个参数,可以 很快比较出多边形的不 同来。
形状量算
第二种量算方法: 从多边形中心画出一组 规则半径,设其半径 长为 L ,圆的半径 长为 L ,然后计算参 量 L
多变量统计分析
主成分分析

通过数理统计分析,求得各变量之间的 线性关系表达式,进而将众多的变量信 息压缩表达成具有若干代表性的合成变 量,克服变量选择时的冗余和相关,然 后选择信息最丰富的因子进行各种分析 和模型构建
主成分分析
主成分分析是把原来多个变量化为少数几 个综合指标的一种统计分析方法,从数学角 度来看,这是一种降维处理技术。假定有n 个地理样本,每个样本共有p个变量描述, 这样就构成了一个n×p阶的地理数据矩阵:
d 13 d 23
3
1
d
2 0

1 2
d
2 12

1 2
d 13 d 23
2
其中 为参数,-
1 4
0
• 4、重心距离:均值间的距离 • 5、类平均距离:两类中各个元素两两之间的 距离平方相加后取平均值
D
2
pq
N
1
p
Nq
x i x j

d
p q
2 ij
其中 : N
p
在旅游问题中,假设某人考虑5个因素:费用yl、 景色y2,居住条件y3,饮食条件y4、旅途条件y5。 他用成对比较法得到的互反阵是:
1
在上式中a12=2表示yl与景色y2对选择旅游点(目 标Z)的重要性之比为2:1;a13=7,表示费用yl 与居住条件y3之比为7:1;a23=4,则表示景色 y2与居住条件y3之比为4:1。
判别分析要求根据已知的地理特征值进行线 性组合,构成一个线性判别函数Y,即:
式中,Ck(k=l,2,…,m)为判别系数,它 可反映各要素或特征值作用方向、分辨能力和贡 献率的大小。只要确定了Ck,判别函数y也就确 定了。Xk为已知各要素(变量)的特征值。
空间数据的量算
空间信息的自动化量算是地理信息系 统所具有的重要功能,也是进行空间分析 的定量化基础。其中的主要量算有: 质心量算 几何量算 形状量算
聚类分析
聚类分析的主要依据是把相似的样本归 为一类,而把差异大的样本区分开来。在由 m个变量组成为m维的空间中可以用多种方法 定义样本之间的相似性和差异性统计量。 基本思想:首先是n个样本各自成一类, 然后计算类与类之间的距离,选择距离最小 的两类合并成一个新类,计算新类与其它类 的距离,再将距离最小的两类进行合并,这 样每次减少一类,直到达到所需的分类数或 所有的样本都归为一类为止。
ω7 ω2 ω8
ω5
ω2
ω8
9 49
25
16
4 4
6、若合并的类数没有达到要求,转3。
否则停止。 3、求最小元素: d 52 d 58 4
4、ω8,ω5,ω2合并,
ω9=(2,5,4,6)
10
9
1 2 3 4 5 6
7
8
枝状图
栅格数据的聚类分析
根据设定的聚类条件对原有数据系统进行有选择 的信息提取而建立新的栅格数据系统的方法。
6
主成分分析实例
7
主成分分析
对于某区域地貌-水文系统,其57个流域盆地的九 项地理要素:x1为流域盆地总高度(m) , x2为流域盆 地山口的海拔高度(m),x3为流域盆地周长(m),x4 为河道总长度(km) 等
步骤: (1)首先将表中的原始数据作标准化处理,由公 式(4)计算得相关系数矩阵。
5
主成分分析的计算步骤
(1)计算相关系数矩阵p183 rij(i,j=1,2,…,p)为原来变量xi与xj的相关系数, 其计算公式为
(2)计算特征值与特征向量 首先解特征方程|λI-R|=0求出特征值λi(i=1, 2,…,p),并使其按大小顺序排列,即λ1≥λ2≥…, ≥λp≥0;然后分别求出对应于特征值λi的特征向量ei (i=1,2,…,p)。 (3)计算主成分贡献率及累计贡献率 (4)计算主成分载荷
在四种类型要素中提取其中要素2的聚类
栅格数据的聚合分析
根据空间分辨力和分 类表,进行数据类型 的合并或转换以实现 1、2 类合 空间地域的兼并。空 并为b, 间聚合的结果往往将 3、4 较复杂的类别转换为 类合 较简单的类别,并且 并为a 常以较小比例尺的图 形输出。当从地点、 地区到大区域的制图 综合变换时常需要使 用这种分析处理方法。
10

第一主成分z1与x1,x3,x4,x5,x8,x9有较大的 正相关,这是由于这六个地理要素与流域盆地的规 模有关,因此第一主成分可以被认为是流域盆地规 模的代表:第二主成分z2与x2有较大的正相关,与 x7有较大的负相关,而这两个地理要素是与流域切 割程度有关的,因此第二主成分可以被认为是流域 侵蚀状况的代表;第三主成分z3与x6有较大的正相 关,而地理要素x6是流域比较独立的特性——河系 形态的表征,因此,第三主成成可以被认为是代表 河系形态的主成分。 以上分析结果表明,根据主成分载荷,该区域地貌水文系统的九项地理要素可以被归为三类,即流域 盆地的规模,流域侵蚀状况和流域淮海区 4:黄土高 原区 5:长江中下游区 西南区 6:
7:华南区 8:甘新区 9:青藏区

(1)两类间的距离 1、最短距离:两类中相距最近的两样 品间的距离。
D pq min d ij
xi
p
x j q
2、最长距离 :两类中相距最远的两个 样本间的距离。
D pq max d ij
: p 样本数 , N
q
: q 样本数
相关文档
最新文档