距离判别分析

合集下载

判别分析法

判别分析法

判别分析判别分析又称“分辨法”,是在分类确定的条件下,根据某一研究对象的各种特征值判别其类型归属问题的一种多变量统计分析方法。

其基本原理是按照一定的判别准则,建立一个或多个判别函数,用研究对象的大量资料确定判别函数中的待定系数,并计算判别指标。

据此即可确定某一样本属于何类。

1:距离判别的判别准则和判别函数:设总体A 和B 的均值向量分别为1μ和2μ,协方差阵分别为1∑和2∑,今给一个样本x 要判断x 来自哪一个总体。

若协方差相同,即1212μμ∑∑∑≠==,计算x 到总体A 和B 的Mahalanobis 距离(,)d x A 和(,)d x B ,Mahalanobis 的计算有以下定义:定义5.1 设x 是从均值为μ,协方差为∑的总体A 中抽取的样本,则总体A 内两点x 与y 的Mahalanobis 距离(简称马氏距离)定义为:(,)d x y =定义样本x 与总体A 的Mahalanobis 距离为:(,)d x A =然后进行比较,若(,)(,)d x A d x B ≤,则判定x 属于A ;否则判定x 来自B 。

由此得到如下判别准则:,(,)(,),(,)(,)A d x A d x B x B d x A d x B ≤⎧∈⎨≥⎩令T 112()()()w x x μ∑μμ-=-- 称()w x 为两总体距离的判别函数,由此判别准则变为,()0,,()0.A w x x B w x ≥⎧∈⎨≤⎩在实际计算中,总体的均值和协方差阵都是未知的,由此总体的均值与协方差需要用样本的均值和协方差来代替,设1(1)(1)(1)12,,,nx x x ⋅⋅⋅是来自总体A 的1n 个样本点,2(2)(2)(2)12,,,n x x x ⋅⋅⋅是来自总体B 的2n 个样本,则样本的均值和协方差为 11ˆ,1,2in ii i j j iux x i n ====∑2()()()()T1211121211ˆ=()()()22in i i i i j ji j x x x x S S n n n n ==∑---++-+-∑∑ 其中()()()()T 1()(),1,2in i i i i i j j j S x x x x i ==--=∑对于待测样本x ,其判别函数定义为T 1(1)(2)ˆˆˆˆ()()()wx x x x x ∑-=-- 其中(1)(2)ˆˆˆ2x x x +=其判别准则为ˆ,()0,ˆ,()0.A wx x B wx ≥⎧∈⎨≤⎩ 2:若协方差不同,即1212μμ∑∑≠≠,对于样本x ,在方差不同的情况下,判别函数为 T -1T -1222111ˆˆ()()()()()W x x x x x μ∑μμ∑μ=----- 在实际计算中,总体的均值和协方差阵都是未知的,由此总体的均值与协方差需要用样本的均值和协方差来代替。

实验报告10 距离判别

实验报告10 距离判别

实验十 距离判别一、实验目的和要求掌握距离判别分析的理论与方法、模型的建立与误差率估计;掌握利用判别分析的SAS 过程解决有关实际问题.实验要求:编写程序,结果分析. 实验内容:要求:1题必做,2,3,4题可选1-2题1.写出几种距离公式,两总体距离判别准则;p 维空间两点T p x x x ),,,(21 =x ,T p y y y ),,,(21 =y 1.欧氏距离 ∑=-=pi i iy xd 12)()(y x,2.明氏距离 mpi m i i y x d 11])([)(∑=-=y x,3.马氏距离 211)]()[()(y x Σy x y x,--=-T d 线性判别函数)(),(),(21x x x W W W 的估计⎪⎪⎪⎩⎪⎪⎪⎨⎧+=--=+=+=-----)(21)(ˆ),(ˆ)(ˆ)(21b ˆ,ˆˆ)(ˆ)(21b ˆ,ˆˆ)(ˆ)2()1()2()1(1)2(1)2(2)2(12222)1(1)1(1)1(11111x x x x x S a x x a x x S x x S a x a x x S x x S a x a x ,==-,==-,=其中T T T T T W b W b W (5.5) 两个总体的距离判别准则⎩⎨⎧<∈≥∈)(ˆ)(ˆ,)(ˆ)(ˆ,21221x x G x x x G x 1W W W W 若若 (5.6) 或 ⎩⎨⎧<∈≥∈0)(ˆ,0)(ˆ,2x G x x G x 1W W若若2.书上5.3 (1)两总体之间的广义平方距离线性判别函数 ∧∧∧+=j T jj b W x a (x))常数项)(1)()(21j T j jb x S x --= 系数向量)(1j j xS a -∧=得到两总体的马氏平方距离为537.16),(ˆ212=G G d 反映了两总体的分离程度 线性判别函数为8765432117638.3038.3573.1924.73662.51623.07327.034858.50029.93)(ˆx x x x x x x x W ++-+-+++-=x 8765432124993.21473.69959.0806.51404.31685.02933.19719.45098.95)(ˆx x x x x x x x W ++-+--++-=x 以下结果是误判率的回带估计以下是交叉确认估计结果:用交叉确认法也将属于总体2G 的第17和19号样品误判为属于1G ,其余均回判正确,误判率的回代估计为:*2ˆ0.07427c p ==. 在此问距离判别分析中,西藏、上海、广东的判别结果如下:可以看到这三个省均以100%的判别概率分到了第二类,也即城镇居民消费指标比较高的类别中,从直观上感觉可能西藏的类别划分不是很准确。

距离、广义平方距离与Bayes判别

距离、广义平方距离与Bayes判别

判别分析——距离判别、Bayes判别一、距离判别1、距离判别所用DISCRIM过程(一般判别过程)简介常用格式如下:PROC DISCRIM<options>;CLASS variable;V AR variable;RUN;常用语句说明:1.PROC DISCRIM语句语句一般格式:PROC DISCRIM <options>;表示调用DISCRIM过程,开始执行判别分析。

<options>选项一般有如下几类:数据集选项(1)DATA=SAS-data-set:指定分析的数据集,缺省为最新创建数据集;(2)TESTDATA=SAS-data-set:指定待分类的输入观测数据集。

(3)OUT=SAS-data-set:生成输出数据集,包括来自输入数据集的所有数据,后验概率以及每个观测被重复替换后所分入的类。

判别方法选项(1)MEIHOD=NORMAL|NPAR:确定导出分类准则的方法。

当指定方法为NORMAL时,导出的判别函数基于组内总体是正态分布的,而当指定的方法为NPAR时,导出的判别函数基于非参数方法,缺省时系统设定为正态。

(2)POOL=NO|TEST|YES:确定计算平方距离是以合计协方差阵还是组内协方差阵为基础。

缺省时系统规定采用合并协方差阵导出线性判别函数,此时系统暗含假定各组协方差阵相等;POOL=NO采用组内协方差阵导出线性判别函数,暗含假定各组协方差阵不相等;POOL=TEST,对组内协方差阵进行齐性检验,根据检验结果导出判别函数。

其它常用判别方法选项(1)LIST:列出每个观测重复替换分类结果。

(2)WCOV:输出组内协力差阵的估计。

(3)PCOV:合并类内协方差阵估计。

(4)DISTANCE:输出类均值之间的平方距离(5)SIMPLE:输出简单描述统计量。

2. CLASS语句一般格式为:CLASS variable;该语句规定进行判别分析的分类变量,可以是字符型的,也可以是数值型的。

判别分析(第1、2节_绪论、距离判别法)

判别分析(第1、2节_绪论、距离判别法)
按这种距离最近的判别准则:
x * , X G1 , * x , X G2 .
第二节 距离判别法
因为是单指标的问题,这时判别函数设为:Y Y ( x) x 此例中 * 79, 因 x0 78 * ,故判 X 0 G2 。
,在
下面给出对于 m元总体的这种相对距离 —即所谓的马氏距离 定义
2 更一般地,设总体G1的分布为 N (1 , 1 ) ,设总体G2的分布为
N (2 , 22 ) ,则利用统计距离,可以找出分界点 * ,且不妨设
1 2 ,所以若令 ( x 1 )2 ( x 2 )2 解出 1 2 2 1 * x , 12 22 1 2
d (X, Y) 2 ( X1 Y1 )2
( X p Yp )2 .
但在解决实际问题时,特别是针对多元数据的分析问题,欧氏 距离就显示出了它的一些缺陷。 譬 如 , 设 有 两 个 正 态 总 体 , X ~ N ( 1 , ) 和
2
Y ~ N ( 2 ,4 2 ) ,现有一个样品位于如图 5.1 所示的 A 点,距总 体 X 的中心的距离为 2 远,距总体 Y 的中心的距离为 3 远, 那么, A 点处的样品到底离哪一个总体近呢?
第一节 引言
判别分析内容很丰富,方法很多。①判断分析方法按判别的
总体个数来区分,有两个总体判别分析和多总体判别分析;②按
区分不同总体所用的数学模型来分,有线性判别和非线性判别; ③按判别时所处理的变量方法不同,有逐步判别和序贯判别等。
④判别分析可以从不同角度提出问题,因此有不同的判别准则,
如马氏距离最小准则、Fisher准则、平均损失最小准则、最小平 方准则、最大似然准则、最大概率准则等等,按判别准则的不同

基于距离判别分析法的采空区塌陷预测

基于距离判别分析法的采空区塌陷预测
得 了良好 的结果 。 1 距离 判别分 析理论
科 尔布鲁诺 斯煤 矿相 继 发 生采 空 区塌 陷 问题 , 特别
以及最近 陈红 江 和 李 夕 兵 等应 用 的 突 变 基 数 法
种 地质灾 害 , 世界 上最 早 报 道采 空 区 冒落 造成 伤亡
的矿 山是英 国的一 个锡 矿 山 , 生在 13 发 9 8年 。1 5 98 年 民主德 国维尔钾 盐公 司 台尔曼 矿 ,9 0年 南 非 的 16
(.云 南力合矿山工程设计有限公 司;.昆明理工大学国土资源工程 学院; 1 2 3 .中南大学资源与安全工程学院;.中钢 集团马鞍 山矿 山研究院有限公 司) 4

要 : 据 某开采 区的勘 察 资料 , 立 了采 空 区稳 定性 预 测的距 离判 别模 型 , 依 建 选取 影 响采 空
p e c in o o fwa sa ls e rdit fg a se tb ih d.S me man fco o o i a t r whih ifu n eg a r e e t d a ic mi ai n s c n e c o f l we e s lce sds r n t i o
人类对 矿产 资源 的获取大 多是通过 地下开 采方
灰 色定权 聚类 法 J 模 糊 综 合 评 判 法 J 灰 色关 联 、 、
式 获得 的 , 在开采 矿产 资 源 的 同时 留下 了大量 采 空
区。地下 采空 区易造 成 地 面塌 陷 , 是矿 山常见 的一
分 析方法 及 神经 网络方 法 J未确 知 测度 理论 、 j
等 。这些 方法较 全 面地 考 虑各 个 影 响指 标 因素 , 取 得 了一定 的成果 。笔者 在 综 合上 述 研究 的基 础上 , 借 鉴马 氏判别分 析 理论 , 取 影 响采 空 塌 陷 的主要 选 因素作 为判别 因子 , 立马 氏距离 判别模 型 , 建 利用 学 习样本构 建线性 判别 函数 , 采空 塌陷进行 预测 , 对 取

判别分析(3)贝叶斯判别

判别分析(3)贝叶斯判别

知类别的样品代入判别函数进行回判。如果判对
率在75%以上,则认为判别函数有效,其常用的
公式为
判对样品(数 N1) 总样品(数 N)
此外,还可采用统计方法对判别函数效果进行 检验。
2021/2/4
1
16
对于判别函数的显著检验,我们可用马氏距 离来检验总体间差异是否显著。若总体间差异不 显著,显然建立在各总体基础之上的判别函数用 于归类其结果就不可靠。马氏距离的计算公式如 下: m
判别分析(3)贝叶斯判别
贝叶斯( Bayes )判别
距离判别只要求知道总体的特征量(即参数)---
均值和协差阵,不涉及总体的分布类型. 当参数未知
时,就用样本均值和样本协差阵来估计.
距离判别方法简单,结论明确,是很实用的方法.
但该方法也有缺点:
1. 该判别法与各总体出现的机会大小(先验概
率)完全无关;
我们就可用其进行归类识别,其方法是将待判
样品 X*[x1 *,x2 *, ,xm *]T代入判别函数式(4.21),
计算它归入每个类的判别函数


),然后选出
k1,2,,g
X*
则将 就归Fl(入X*)第m 1k 类ga{F。xk(X*)}
Fk (X* )
实际X *应用中,常l 常还需要知道待判样品 归
2021/2/4
1
8
§4.3.1 贝叶斯准则
问题:待判样品X属于哪一类?? P (t|X )mP a (k|x X )mg a qkfx k(X ) (k1 ,2 , ,g)
q ifi(X )
i 1
对于诸总体,显然分母(全概率)都是相同的,因此只要比 较式分子的大小,即可判断条件概率的大小,进而对待判样 品作出归类。

判别分析-距离判别

判别分析-距离判别

= 2y′Σ −1 ( µ1 − µ 2 ) − ( µ1 + µ 2 )′Σ −1 ( µ1 − µ 2 )
( µ1 + µ 2 ) −1 = 2[y − ]′Σ ( µ1 − µ 2 ) 2 µ1 + µ 2 α = Σ −1 ( µ1 − µ2 ) = (a1 , a2 ,L, a p )′ 令µ = 2
利用这些数据找到一种判别函数,使得这一函数 具有某种最优性质,能把属于不同类别的样本点 尽可能的区别开来,并对同样测得 p项指标的新 样本进行归类.
关键:确定判别函数
判别准则: 判别准则: 用于衡量新样品与各已知组别接近程度的思路原则。 常用的有,距离准则、Fisher准则、贝叶斯准则。
判别函数: 判别函数: 基于一定的判别准则计算出的用于衡量新样品与各 已知组别接近程度的描述指标。
µ1 + µ 2
判别函数的常数项( 2 ′ ) Σ −1 ( µ1 − µ 2 )
(6)生成判别函数,将检验样本代入,判类。
三、多总体的距离判别法
设有 k 个 m元总体 G1,L, Gk ,分别有均值向量 µi和协方 差阵 Σi,对任给的 m元样品 X,判断它来自哪个总体 计算 X 到 k个总体的马氏距离,比较后,把 X 判归给 距离最小的那个总体,若
Y = (Y1 , Y2 ,..., Y p )',通常我们所说的两点间的距
离是指欧氏距离:
d 2 ( X , Y ) = ( X 1 − Y1 ) 2 + ... + ( X p − Yp ) 2
缺陷: 缺陷: 1、量纲的改变 2、数据的分散程度
1、设有量度重量和长度的两个变量 X和Y ,以单位 分别为kg和cm得到样本 A(0,5), B(10,0), C (1,0), D(0,10), 按照欧氏距离计算,有:

判别分析方法

判别分析方法

判别分析距离判别分析距离判别的最直观的想法是计算样品到第i类总体的平均数的距离,哪个跖离最小就将它判归哪个总体,所以,我们首先考虑的是是否能够构造一个恰当的距离函数,通过样本与某类别之间距离的大小,判别其所属类别。

设X=(s……以n)'和Y = O1,……,%)'是从期望为|1=(血,……川Q '和方差阵Y= (Ou)>0的总体G抽得的两个观测值,则称X与Y之间的马氏距离为:y mxmd2 =(X-Y)样本X与G,之间的马氏距离定义为X与类重心间的距离,即:9护=(乂一地)丫7(乂一&)i = 1,2・・.・・.,k附注:1、马氏距离与欧式距离的关联:为=1,马氏距离转换为欧式距离;2、马氏距离与欧式距离的差异:马氏距离不受计暈单位的影响,马氏距离是标准化的欧式距离两总体距离判别先考虑两个总体的情况,设有两个协差阵E相同的p维正态总体,对给定的样本Y,判别一个样本Y到底是来自哪一个总体,一个最直观的想法是计算Y到两个总体的距离。

故我们用马氏距离来给定判别规则,有:如/(y, J2(y, G2),<yeGp 如〃2(y, G2)<d2(y9 Gj待判,如=〃2(y,G2)沪(y,Gj=(y 2)' "(y 2)(y J' L(y J=y- 2y为一1角 + “;賞“2 -(y^1y-2y^1 + 冲?如) =2y 0一1 (" - 角)-("i + “2)尸(“i - “2)= 2[y —丫》-“2)2令"=1虽« = Z_1(//1-//2) = (a1,a2,-.-,a p yW(y) = (y - p)U = a f(y一p.)= a1(y1-/z1) + --- + a p(y p-/7p)= a'y _a'ji则前面的判别法则表示为y w Gp 如W (y) > 0,y e G2,如FT (y ) < 0o待判,如W(Y) = 0当忙“2和刀已知时, "1 2)是一个已知的P维向量,W (y)是y的线性函数,称为线性判别函数。

  1. 1、下载文档前请自行甄别文档内容的完整性,平台不提供额外的编辑、内容补充、找答案等附加服务。
  2. 2、"仅部分预览"的文档,不可在线预览部分如存在完整性等问题,可反馈申请退款(可完整预览的文档不适用该条件!)。
  3. 3、如文档侵犯您的权益,请联系客服反馈,我们会尽快为您处理(人工客服工作时间:9:00-18:30)。

-1
Σ2
x
-
μ
=
x
-
μ
-
Σ
1 2
-
Σ
1 2
x
-
μ
= x - μ Σ-1 x - μ
3、若变量之间是相互无关的,则协方差
矩阵为对角矩阵
1
11
Σ
22
11
1
O
pp
Σ1
22
O
1
pp
1
11
1
d
2
(x,
G)
(x
-
μ)
22
(x - μ)
O
1
pp
x1 1 2 x2 2 2 L xp p 2
为 (1, 2 , , p )、 协方差阵Σ= ij p p 0
的总体G抽得的两个观测值,则称
d 2 (x,y) (x y)1(x y)
为X与Y之间的Mahalanobis距离平方
样本X和G类之间的马氏距离平方定义为 X与G类重心间的距离平方:
d 2 (x,G) (x )1 (x )
待判, 如d 2 ( y,G1) d 2 ( y,G2 )
1. 两个总体协方差矩阵相等 由于实际问题中只能得到两个样本的协方 差矩阵S1,S2,因此当两个总体协方差矩阵 相等时如何确定总体的协方差矩阵S ?
S (n1 1)S1 (n 2 1)S 2 n1 n2 2
其中n1,n2分别为两个样本的容量.
若两类蠓虫协方差矩阵相等,试判别以下 的三个蠓虫属于哪一类?
若选k个主成分,则按他们的加权平均进行排名 其中权向量就是k个特征值的归一化向量.
解决实际问题有时采用协方差矩阵,有 时采取相关系数矩阵,究竟用那个矩阵要具 体问题具体分析,通常有以下准则:
1. 若量纲不一样,应当先进行无量纲化,而相 关系数矩阵就是实现无量纲化的方法之一,故 此时应采取相关系数矩阵计算;
d=(x-ma)S-1(x-ma)’- (x-mb)S-1(x-mb)’
4.若d<0,则x属于A类;若d>0,则x属于B类
上述公式可以化简为: W(x)=(ma-mb)S-1(x-(ma+mb)/2)’
若W(x)>0,x属于G1;若W(x)<0,x属于G2
注意: 1.此处ma,mb都是行向量,与书中不同; 2.当x是一个矩阵时,则用ones矩阵左乘 (ma+mb)/2以后,方可与x相减.
11
22
pp
(二)两个总体距离判别法
先考虑两个总体的情况,设有两个总体 G1 ,G2 对给定的样本Y,判别一个样本Y到底 是来自哪一个总体,一个最直观的想法是计 算Y到两个总体的距离。故我们用马氏距离来 给定判别规则,有:
y G1, 如d 2 y,G1 d 2 y,G2 , y G2, 如d 2 y,G2 d 2 y,G1
例1.现测得6只Apf和9只Af蠓虫的触长,翅长数据
Apf:(1.14,1.78), (1.18,1.96), (1.20,1.86), (1.26,2.00), (1.28,2.00), (1.30,1.96)
Af:(1.24,1.72), (1.36,1.74), (1.38,1.64), (1.38,1.82), (1.38,1.90), (1.40,1.70), (1.48,1.82),(1.54,1.82), (1.56,2.08)
§1 距离判别
(一)马氏距离 距离判别的最直观的想法是计算样 品到第i类总体的平均数的距离,哪个 距离最小就将它判归哪个总体,所以, 我们首先考虑的是是否能够构造一个恰 当的距离函数,通过样本与某类别之间 距离的大小,判别其所属类别。
设x (x1, x2 , , x p )和 y ( y1, y2 , , y p )是从期望
2. 用协方差矩阵与相关系数矩阵计算主成分 得分的公式不一样,协方差矩阵用原始数据 (统一趋势后)左乘特征值矩阵;相关系数矩阵 用标准化以后的矩阵左乘特征值矩阵.
如何解读计算主成分的数学表达式 我们设计算第一主成分的公式为:
Y1 a11x1 a12 x 2 a13x 3 a14 x 4
若a11, a12 ,a14的绝对值比较大,表明第一主成 分主要提取了x1, x2 ,x4三个原始指标的信息; 如果此时再计算第二主成分,你会发现第二主 成分x3系数的绝对值就比x1, x2 ,x4系数的绝对 值要大,也就是说第二主成分弥补了第一主成 分的不足.
注:重心即均值
马氏距离和欧式距离之间的差别 马氏距离
d 2(x,G) (x - μ)Σ-1(x - μ)
欧氏距离
d 2(x,G) (x - μ)(x - μ)
马氏距离有如下的特点:
1、马氏距离不受计量单位的影响;
2、马氏距离是标准化后的变量的欧式距离
y
=
-1
Σ2
x
-
μ
yy
=
ห้องสมุดไป่ตู้
-1
Σ2
x
-
μ
主成分分析可以有助于回归分析中自变量 的选择,如果原有n个自变量进行拟合效果 不好,可考虑选择k个主成分为自变量进行 拟合(k<n),其原因在于原始的自变量之间 可能存在一定的相关性,而主成分之间彼 此不相关,可望消除多重共线性.
第四章 判别分析 判别分析利用已知类别的样本为标准,对未 知样本进行判类的一种统计方法。它产生于本世 纪30年代。近年来,在自然科学、社会学及经济 管理学科中都有广泛的应用。 判别分析的特点 是根据已掌握的、历史上每个类别的若干样本的 数据信息,总结出客观事物分类的规律性,建立 判别公式和判别准则。然后,当遇到新的样本点 时,只要根据总结出来的判别公式和判别准则, 就能判别该样本点所属的类别。
实际问题中如何应用主成分分析
如果遇到多目标决策问题,即有n个样品, 每个样品有p个指标,要确定n个样品的排序就 可以采取主成分分析.其思路就是将原有的p个 指标,换成k(k<p)个主成分,然后根据主成分 的数值(又称主成分的得分)进行排序。
若为利润型指标,则主成分得分大者排名靠前;
若为成本型指标,则主成分得分小者排名靠前; 若只选第一主成分,则按其得分进行排名;
判别步骤:
1.计算A、B两类的均值向量与协方差阵;
ma=mean(A),mb=mean(B),S1=cov(A),S2=cov(B)
2.计算总体的协方差矩阵
S (n1 1)S1 (n 2 1)S 2 n1 n2 2
其中n1,n2分别为 两个样本的容量.
3.计算未知样本x到A,B两类马氏距离之差
相关文档
最新文档