距离判别法及其应用
基于距离判别分析法的边坡稳定性预测模型及应用

J un lo trR s u c s a d Ar htcu o r a fWae e o r e n ci t e r
— — — —
水 利 与建 筑 工程 学报
a
— —
l
J n ., 0 u 20 1
V1 o3 o. N . 8
Dit n e Dic i i a i n a y i e h d s c s rm n to An l ss M t o a
GAO o P n ,YAN . h n Gu . e g Ke z e 2
(. r nie i o , d ,C iaR i a r ueuGopC m ay hnd ,S ha 10 1 h a 13dE gnen C . rg . hn al y2 dB r r o p n ,C eg u i u n60 3 ,C i ; w i a u c n 2 C lg il n i en ,H ’a nv sy hnsa u nn4 08 ,C i ) . oeeo v gn r g u nnU i rt,C agh ,H ’ a 102 h n l fC iE e 一 种 统 计 分 析 方 法 , 在 已 知 研 究 对 象 是
0 引
言
分成若 干类 型( 或组别 ) 已取得 各种 类 型的一 批 已知样 品 并
基 于距 离判 别 分 析 法 的边 坡 稳 定 性 预 测 模 型 及 应 用
高 国朋 , 颜可珍
(. 1 中铁 二 局 第 三 工 程 有 限 公 司 ,四川 成 都 603 ; . 南 大 学 土 木 工 程 学 院 , 南 长 沙 4 08 ) 10 1 2 湖 湖 10 2
摘 要 :目前边坡稳定性评价 的诸 多方法或存在预测不 准或 缺乏成熟 的理 论依据 。基 于马 氏距 离判 别 分析理论 , 据影响边坡稳定性 的重要 因素 , 根 选用重度 、 内摩擦 角、 聚力 、 粘 边坡 角、 坡 高度、 隙水 压 边 孔
急倾斜煤层放煤巷道稳定性分类的距离判别分析法及其应用

橐
件
() 6 煤层倾 角
() 7 围岩节理发育程度
匝耍壅夏]
支 护 方 案
罚历 ]
(0 支 护 材 料 1)
( 孙一 ,
=
) , ( = … )4 ( 五T ) '
) ( ) l () 5
1 距离判别分析理论
距离判别分析是用 于判别样 品所属类别 的一种 应用 性很 强 的多元 统计 分析 方法 , 方法 已在岩爆 烈 该 度分级[ 岩体质量分类[ 顶煤可放性识别【 4 1 、 5 1 、 句 等方面得 到 了应 用 . 本 思 想是 【样 品和 哪个 总体 的距 离 最 其基 7 】 : 近, 就判断它属于哪个总体.
( 湖南科技 大学 煤矿安全开采技术湖南省重点实验室, 1 . 湖南 湘潭 4 0 ; 湖南科技大学 能源与安全工程学院, 12 1 . 1 2 湖南 湘潭 4 0 : 121 1 3 . 中南大学 资源与安全工程学ห้องสมุดไป่ตู้, 湖南 长沙 4 0 8 ) 10 3
摘
要: 维护放煤巷道稳 定是 急倾斜 煤层放 顶煤采煤 法成功的关键. 根据放煤巷道 断面收缩率和 支架损坏 率。 将放煤巷道稳 定
关键词 : 急倾斜煤层; 放煤巷道: 稳定性分类: 支护方案: 优选: 离判别分析 距 中图分类号 : U4 3 T 4 文献标识码 : A 文章编号 :6 4 5 7 (0 0 0— 0 6 0 17 — 8 6 2 1 )2 0 0— 3
急倾斜煤层巷道放顶煤采煤是在一个采区 内沿 倾斜方 向按一定标高划分若干个区段, 在每个区段底 部沿煤层顶板布置一条放煤巷道, 如图 1 所示, 于放煤 巷道 内侧帮全长内以一定 间距均匀布置放煤小眼, 在 放 煤小 眼 内放炮 形 成破碎 补 偿空 间, 在矿 山压力 、 顶煤 自重应力 、瓦斯压力等因素的作用下破碎, 自行垮 并 落, 从放煤小 眼均匀放 出, 出放煤巷道. 中, 运 其 放煤巷 道集落 、 运、 行人 、 装、 放、 通风等诸多功能于一体, 是该 采煤法 的主体工程, 其稳定与否直接决定该采煤法的
距离、广义平方距离与Bayes判别

判别分析——距离判别、Bayes判别一、距离判别1、距离判别所用DISCRIM过程(一般判别过程)简介常用格式如下:PROC DISCRIM<options>;CLASS variable;V AR variable;RUN;常用语句说明:1.PROC DISCRIM语句语句一般格式:PROC DISCRIM <options>;表示调用DISCRIM过程,开始执行判别分析。
<options>选项一般有如下几类:数据集选项(1)DATA=SAS-data-set:指定分析的数据集,缺省为最新创建数据集;(2)TESTDATA=SAS-data-set:指定待分类的输入观测数据集。
(3)OUT=SAS-data-set:生成输出数据集,包括来自输入数据集的所有数据,后验概率以及每个观测被重复替换后所分入的类。
判别方法选项(1)MEIHOD=NORMAL|NPAR:确定导出分类准则的方法。
当指定方法为NORMAL时,导出的判别函数基于组内总体是正态分布的,而当指定的方法为NPAR时,导出的判别函数基于非参数方法,缺省时系统设定为正态。
(2)POOL=NO|TEST|YES:确定计算平方距离是以合计协方差阵还是组内协方差阵为基础。
缺省时系统规定采用合并协方差阵导出线性判别函数,此时系统暗含假定各组协方差阵相等;POOL=NO采用组内协方差阵导出线性判别函数,暗含假定各组协方差阵不相等;POOL=TEST,对组内协方差阵进行齐性检验,根据检验结果导出判别函数。
其它常用判别方法选项(1)LIST:列出每个观测重复替换分类结果。
(2)WCOV:输出组内协力差阵的估计。
(3)PCOV:合并类内协方差阵估计。
(4)DISTANCE:输出类均值之间的平方距离(5)SIMPLE:输出简单描述统计量。
2. CLASS语句一般格式为:CLASS variable;该语句规定进行判别分析的分类变量,可以是字符型的,也可以是数值型的。
多元统计第五章判别分析

第一节 引言
在我们的日常生活和工作实践中,常常会遇到判别分析问题。
案例一:为了研究中小企业的破产模型,选定4个经济指标:总负债率、
收益性指标、短期支付能力、生产效率性指标。对17个破产企业(1类)和21
个正常运行企业(2类)进行了调查,得关于上述四个指标的资料。现有8个 未知类型的企业的四个经济指标的数据,判断其属于破产企业一类还是正 常运行企业一类? 案例二:根据经验,今天与昨天的湿度差x1及今天的压温差x2 (气压与温度
ˆ Σ
1 A , n 1
1,2,, k
三、判别分析的实质
设R1,R2,…,Rk是p维空间R p的k个子集,如果它们互
不 相交,且它们的和集为R p,则称R1,R2, …,Rk为R p的一 个划分。
在 两 个 总 体 的 距 离 判 别 问 题 中 , 利 用
W (X) (X μ)' α 可以得到空间 R p 的一个划分 R1 {X : W ( X) 0} R2 {X : W ( X) 0}
x2
-0.41 -0.31 0.02 -0.09 -0.09 -0.07 0.01 -0.06 -0.01 -0.14 -0.3 0.02 0 -0.23 0.05 0.11 -0.08 0.03 0 0.11 -0.27
x3
1.09 1.51 1.01 1.45 1.56 0.71 1.5 1.37 1.37 1.42 0.33 1.31 2.15 1.19 1.88 1.99 1.51 1.68 1.26 1.14 1.27
Σ 的一个联合无偏估计为
n
n2 1 和 X(2) Xi(2) n2 i 1 1 ˆ Σ ( A1 A2 ) n1 n2 2
判别分析-距离判别

= 2y′Σ −1 ( µ1 − µ 2 ) − ( µ1 + µ 2 )′Σ −1 ( µ1 − µ 2 )
( µ1 + µ 2 ) −1 = 2[y − ]′Σ ( µ1 − µ 2 ) 2 µ1 + µ 2 α = Σ −1 ( µ1 − µ2 ) = (a1 , a2 ,L, a p )′ 令µ = 2
利用这些数据找到一种判别函数,使得这一函数 具有某种最优性质,能把属于不同类别的样本点 尽可能的区别开来,并对同样测得 p项指标的新 样本进行归类.
关键:确定判别函数
判别准则: 判别准则: 用于衡量新样品与各已知组别接近程度的思路原则。 常用的有,距离准则、Fisher准则、贝叶斯准则。
判别函数: 判别函数: 基于一定的判别准则计算出的用于衡量新样品与各 已知组别接近程度的描述指标。
µ1 + µ 2
判别函数的常数项( 2 ′ ) Σ −1 ( µ1 − µ 2 )
(6)生成判别函数,将检验样本代入,判类。
三、多总体的距离判别法
设有 k 个 m元总体 G1,L, Gk ,分别有均值向量 µi和协方 差阵 Σi,对任给的 m元样品 X,判断它来自哪个总体 计算 X 到 k个总体的马氏距离,比较后,把 X 判归给 距离最小的那个总体,若
Y = (Y1 , Y2 ,..., Y p )',通常我们所说的两点间的距
离是指欧氏距离:
d 2 ( X , Y ) = ( X 1 − Y1 ) 2 + ... + ( X p − Yp ) 2
缺陷: 缺陷: 1、量纲的改变 2、数据的分散程度
1、设有量度重量和长度的两个变量 X和Y ,以单位 分别为kg和cm得到样本 A(0,5), B(10,0), C (1,0), D(0,10), 按照欧氏距离计算,有:
判别分析方法

判别分析距离判别分析距离判别的最直观的想法是计算样品到第i类总体的平均数的距离,哪个跖离最小就将它判归哪个总体,所以,我们首先考虑的是是否能够构造一个恰当的距离函数,通过样本与某类别之间距离的大小,判别其所属类别。
设X=(s……以n)'和Y = O1,……,%)'是从期望为|1=(血,……川Q '和方差阵Y= (Ou)>0的总体G抽得的两个观测值,则称X与Y之间的马氏距离为:y mxmd2 =(X-Y)样本X与G,之间的马氏距离定义为X与类重心间的距离,即:9护=(乂一地)丫7(乂一&)i = 1,2・・.・・.,k附注:1、马氏距离与欧式距离的关联:为=1,马氏距离转换为欧式距离;2、马氏距离与欧式距离的差异:马氏距离不受计暈单位的影响,马氏距离是标准化的欧式距离两总体距离判别先考虑两个总体的情况,设有两个协差阵E相同的p维正态总体,对给定的样本Y,判别一个样本Y到底是来自哪一个总体,一个最直观的想法是计算Y到两个总体的距离。
故我们用马氏距离来给定判别规则,有:如/(y, J2(y, G2),<yeGp 如〃2(y, G2)<d2(y9 Gj待判,如=〃2(y,G2)沪(y,Gj=(y 2)' "(y 2)(y J' L(y J=y- 2y为一1角 + “;賞“2 -(y^1y-2y^1 + 冲?如) =2y 0一1 (" - 角)-("i + “2)尸(“i - “2)= 2[y —丫》-“2)2令"=1虽« = Z_1(//1-//2) = (a1,a2,-.-,a p yW(y) = (y - p)U = a f(y一p.)= a1(y1-/z1) + --- + a p(y p-/7p)= a'y _a'ji则前面的判别法则表示为y w Gp 如W (y) > 0,y e G2,如FT (y ) < 0o待判,如W(Y) = 0当忙“2和刀已知时, "1 2)是一个已知的P维向量,W (y)是y的线性函数,称为线性判别函数。
距离判别法贝叶斯判别法和费歇尔判别法的异同

距离判别法贝叶斯判别法和费歇尔判别法的异同距离判别法、贝叶斯判别法和费歇尔判别法是三种常见的分类方法。
它们都是基于已知类别的数据集,通过学习得到一个分类模型,然后用该模型对未知数据进行分类。
虽然它们都属于分类方法,但是它们之间还是存在一些异同点的。
一、距离判别法距离判别法是根据样本之间的距离来进行分类的方法。
具体地说,对于一个未知样本,计算它与每个已知类别中心之间的距离,然后将其归为距离最近的那个类别。
其中“中心”可以是类别内所有样本的平均值或者其他统计量。
优点:1. 简单易懂:距离判别法直观易懂,容易理解。
2. 计算简单:计算样本与中心之间的距离只需要进行简单的数学运算即可。
缺点:1. 对异常值敏感:由于距离判别法是基于样本之间的距离来进行分类,因此如果存在异常值,则可能会影响分类结果。
2. 需要提前确定中心:在使用距离判别法时需要提前确定每个类别的中心,而这个过程可能会比较困难。
二、贝叶斯判别法贝叶斯判别法是一种基于概率的分类方法。
它假设每个类别都服从某种概率分布,然后根据贝叶斯公式计算出每个类别对于给定样本的后验概率,最终将样本归为后验概率最大的那个类别。
优点:1. 可以处理多维特征:与距离判别法不同,贝叶斯判别法可以处理多维特征。
2. 对异常值不敏感:由于贝叶斯判别法是基于概率分布来进行分类的,因此对于一些异常值,它可以通过概率分布来进行修正。
缺点:1. 需要大量数据:由于贝叶斯判别法需要估计每个类别的概率分布,因此需要大量的数据才能得到准确的结果。
2. 对先验概率敏感:在使用贝叶斯判别法时需要提前确定每个类别的先验概率,而这个过程可能会比较困难。
三、费歇尔判别法费歇尔判别法是一种基于方差分析理论的分类方法。
它假设每个类别服从某种概率分布,然后根据方差分析的原理来计算每个类别对于给定样本的“可信度”,最终将样本归为“可信度”最高的那个类别。
优点:1. 可以处理多维特征:与距离判别法不同,费歇尔判别法可以处理多维特征。
Fisher判别法距离判别法Bayes判别法逐步判别法

又D1,D2,┅,Dk是R(p)的一个分划,判别法则为: 当样品X落入Di时,则判
i 1,2,3,, k X Di 关键的问题是寻找D1,D2,┅,Dk分划,这个分划 应该使平均错判率最小。
【定义】(平均错判损失函数)
用P(j/i)表示将来自总体Gi的样品错判到总体Gj的条件 概率。 p( j / i) P( X D j / Gi ) fi ( x)dx i j
P好人 P做好事 / 好人 P好人 P (做好事 / 好人) P (坏人) P (做好事 / 坏人)
P (好人 / 做好事)
0.5 0.9 0.82 0.5 0.9 0.5 0.2
P坏人P做好事 / 坏人 P好人P (做好事 / 好人) P (坏人) P (做好事 / 坏人)
办公室新来了一个雇员小王,小王是好人还是坏人大家 都在猜测。按人们主观意识,一个人是好人或坏人的概率均为 0.5。坏人总是要做坏事,好人总是做好事,偶尔也会做一件坏 事,一般好人做好事的概率为0.9,坏人做好事的概率为0.2, 一天,小王做了一件好事,小王是好人的概率有多大,你现在 把小王判为何种人。。
目录 上页 下页 返回 结束
7
§4.2
距离判别
2018/10/4
目录 上页 下页 返回 结束
8
§4.2
距离判别
2018/10/4
目录 上页 下页 返回 结束
9
§4.2
距离判别
2018/10/4
目录 上页 下页 返回 结束
10
4.2.2 多总体情况
§4.2
距离判别
1. 协差阵相同。
2018/10/4
目录 上页 下页 返回 结束
- 1、下载文档前请自行甄别文档内容的完整性,平台不提供额外的编辑、内容补充、找答案等附加服务。
- 2、"仅部分预览"的文档,不可在线预览部分如存在完整性等问题,可反馈申请退款(可完整预览的文档不适用该条件!)。
- 3、如文档侵犯您的权益,请联系客服反馈,我们会尽快为您处理(人工客服工作时间:9:00-18:30)。
距离判别法及其应用
一、什么是距离判别
(一)定义
距离判别分析方法是判别样品所属类别的一应用性很强的多因素决策方法,根据已掌握的、历史上每个类别的若干样本数据信息,总结出客观事物分类的规律性,建立判别准则,当遇到新的样本点,只需根据总结得出的判别公式和判别准则,就能判别该样本点所属的类别。
距离判别分析的基本思想是:样本和哪个总体的距离最近,就判它属于哪个总体。
(二)作用
判别个体所属类型。
例如在经济学中,可根据各国的人均国人民收入、人均工农业产值和人均消费水平等多种指标来判定一个国家经济发展程度的怕属类型医学上根据口才的体温、白血球数目以及其他病理指标来判断患者所患何病等。
二、距离判别分析原理
(一)欧氏距离
欧氏距离(Euclidean distance )是一个通常采用的距离定义,最多的应用是对距离的测度。
大多情况下,人们谈到距离的时候,都会很自然的想到欧氏距离。
从数学的角度来讲,它是在m 维空间中两个点之间的真实距离。
在二维空间中其公式为:
221221)()(y y x x d -+-=
推广到n 维空间其公式为:
21)
(1i n i i y x d -=∑=
(二)马氏距离
在判别分析中,考虑到欧氏距离没有考虑总体分布的分散性信息,印度统计学家马哈诺必斯(Mahalanobis )于1936年提出了马氏距离的概念。
设总体T m X X X G },...,,{21=为m 维总体(考察m 个指标),样本
T m i x x x X },...,,{21=。
令μ=E(i X )(i=1,2, …,m),则总体均值向量为
T m },,{21μμμμ⋅⋅⋅=。
总体G 的协方差矩阵为:
]))([()(T G G E G COV μμ--==∑。
设X ,Y 是从总体G 中抽取的两个样本,则X 与Y 之间的平方马氏距离为:
)()(),(12Y X Y X Y X d T -∑-=-
样本X 与总体G 的马氏距离的平方定义为:
)()(),(12μμ-∑-=-X X G X d T
1.两总体距离判别。
设有两总体1G 和2G 的均值分别为1μ和2μ,协方差矩阵分别为1∑和2∑(1∑,2∑>0),1⨯m X 是一个新样本,判断其
属于哪个总体。
定义1⨯m X 到1G 和2G 的距离为),(12G X d 和
),(22G X d ,则按如下判别规则进行判断:
1G X ∈,若),(12G X d ≤),(22G X d
2G X ∈,若),(22G X d ﹤),(12G X d
(1)当1∑=2∑时,该判别式可进行如下简化:
),(12G X d -),(22G X d =)()(111μμ-∑--X X T -)()(212μμ-∑--X X T
=-2)(221121μμμμ-∑⎪⎭⎫ ⎝
⎛+--T
X =)(2μ--X A T 其中)(2
121μμμ+=,)(211μμ-∑=-A 注意到实数的转置等于实数自身,故有
)(221121μμμμ-∑⎪⎭⎫ ⎝⎛+--T
X =()⎪⎭⎫ ⎝⎛+--∑-2)(21211μμμμX T 令
)()(μ-=X A X W T ,则判别规则就成为: 1G X ∈,若)(X W 0≥
2G X ∈,若)(X W ﹤0
在实际问题中,由于总体的均值、协方差矩阵通常是未知的,数据资料来自两个总体的训练样本,于是用样本的均值、样本的协方差矩阵代替总体的均值与协方差。
由于实际问题中只能得到两个样本的协方差矩阵1S ,2S ,因此当两个
总体协方差矩阵相等时如何确定总体的协方差矩阵S
2
)1()1(212211-+-+-=n n S n S n S
其中n1,n2分别为两个样本的容量。
(2)当1∑≠2∑时, ),(),()(2212G X d G X d X W -=
)()()()(21221111μμμμ-∑---∑-=-
-X X X X T T
判别规则为:
1G X ∈,若)(X W 0≥
2G X ∈,若)(X W ﹤0
例.设有两个二元总体G1和G2,从中分别抽取样本计算得到 ⎪⎪⎭⎫ ⎝⎛=∑⎪⎪⎭⎫ ⎝⎛-=⎪⎪⎭⎫ ⎝⎛=6.71.21.28.5ˆ,23,15)2()1(p X X
假设21∑=∑,试用距离判别法建立判别函数和规则。
样品T X )0,6(=应属于哪个总体。
解:)()'(),(111
12μμ-∑-=-X X G X D ⎪⎪⎭⎫ ⎝⎛⎪⎪⎭⎫ ⎝⎛-=-)1,5()0,6(6.71.21.28.5))1,5()0,6((1
4436602.0116.71.21.28.5)1,1(1=⎪⎪⎭
⎫ ⎝⎛-⎪⎪⎭⎫ ⎝⎛-=- 673809.1)()'(),(212
22=-∑-=-μμX X G X D
由于),(22G X D >),(12G X D 所以X 属于1G 。
2.多总体的距离判别。
设有g 个m 维总体1G ,2G ,…,g G ,均值向量分别为1μ,2μ,…g μ,协方差矩阵分别为1∑,2∑,…,g ∑,则样本X 到各组的平方马氏距离是:
)()(),(12ααααμμ-∑-=-X X G X d T ,α=1,2,…g
判别规则为:i G X ∈ ,若),(min ),(212j g
j i G X d G X d ≤≤=
三、距离判别法的应用
距离判别法可以应用于医学、建设、环境、城镇规划等多个领域的工程项目中。
如距离判别法在类风湿性关节炎中医证候诊断中的应用,距离判别法相似矿区突水水源识别中的应用,在大气环境质量现状评价中的应用以及在城镇土地定级中的应用等。
在实际工程中,经常采用多总体的距离判断。
设有g 个m 维总体1G ,2G ,…,g G ,均值向量分别为1μ,2μ,…g μ,协方差矩阵分别为1∑,2∑,…,g ∑,任意给定一个m 维样本T m x x x X },...,,{21=。
假设1∑=2∑=…=g ∑=∑,则新样本到各j G 和i G 的马氏距离平方差为
)()](21[2),(),(12
2j i T j i i j x G x d G x d μμμμ-∑+-=--, 令)()](2
1[)(1j i T j i ij x x W μμμμ-∑+-=-。
利用各总体的训练样本对i μ和i ∑(i=1,2,…g )进行估计。
设)(1k x ,
)(2k x ,…,)(k nk x 为来自总体K G 的训练样本(k=1,2,…,g ),令
∑==k k n i k i n k x 1)(1ˆμ
(k=1,2,…,g ) T
k k i k n i k i k x x x x S k ))(()()()(1
)(∑== (k=1,2,…,g ) 利用k S 对∑的联合估计为
))(/(1ˆ21g S S S g n +⋯++-=∑
其中∑==g i i n
n 1,即训练样本的总数。