多元统计第五章判别分析
北大应用多元统计第五章

第五章 §5.1 距离判别法 两总体判别:简例1
简例1 :记二维正态总体N2((i), )为Gi(i=1,2)(两总体
协差阵相同),已知来自Gi(i=1,2)的样本数据阵为
X X (1)
42
3 3 4 21 1 180 0 2,
(2) 32
5 4 39 7 5.n k1 2 4,, n m 2 2 3
例如:在医学诊断中,一个病人肺部有阴影,医生要判 断他是肺结核、肺部良性肿瘤还是肺癌.这里肺结核病 人、良性瘤病人、肺癌病人组成三个总体,病人来源于 这三个总体之一,判别分析的目的是通过测得病人的指 标(阴影的大小,边缘是否光滑,体温多少……)来判断他 应该属哪个总体(即判断他生什么病).
第五章 判别分析
两总体判别: Σ1=Σ2 时的判别方法
对给定样品X,为比较X到各总体的马氏距离, 只须计算Yi(X ) :
第五章 §5.1 距离判别法
两总体判别: Σ1=Σ2 时的判别方法
因为函数Yi(X)是X的线性函数
(i=1,2),故
Ci
第五章 §5.1 距离判别法
两总体判别: Σ1=Σ2 时的判别方法
若考察这两个马氏距离之差,经计算可得:
22
28
X~32 (2) 011 220, A2 (X~(2))X~(2) 22 28
第五章 §5.1 距离判别法 两总体判别:简例1
样本合并组内A为 离差阵
AA1A2 22 2822 2844 146,故
其中
不妨设μ1>μ2 ,则a为正数,W(x)的符号取决于
x>μ或x<μ.
第五章 §5.1 距离判别法
两总体判别: Σ1=Σ2 时的判别方法(m=1时的错判率)
【精品】多元统计分析--判别分析SPSS实验报告

【精品】多元统计分析--判别分析SPSS实验报告一、实验目的1.掌握判别分析的基本原理和应用方法;2.掌握SPSS软件进行判别分析的具体操作;3.通过一个实例,学习如何运用判别分析对指标进行判别。
二、实验内容三、实验原理1.判别分析基本原理:判别分析(Discriminant Analysis),是一种统计学中的分类技术,它是对变量进行归类的技术。
判别分析是用来确定一个对象或自变量集合属于哪一个预设类型或者组别的过程。
判别分析能够生成一个函数,将数据点映射到特定的类型上。
判别分析的应用领域非常广泛,主要应用于以下领域:(1)股票市场(预测股价的涨跌与时间、公司发展情况等因素的关系);(2)医学(区分疾病、患者状态等);(3)市场调查(确定客户类型、产品或服务喜好);(4)产业分析(区分有助于产品销售的市场决策因素);(5)经济学(预测月度或季度的经济指标)。
3.判别分析的主要应用步骤:(1)建立模型:首先选择和收集数据,将收集的数据分为训练集和测试集;(2)训练模型:使用训练数据建立模型;(3)评估模型:通过模型诊断来评估建立的模型的好坏;(4)应用模型:对新的数据建立模型并进行预测。
四、实验过程1. 上机操作:1)打开SPSS软件,加载数据文件;2)选择分类变量和连续变量;3)选择训练数据集;4)建立模型;5)预测实验数据集。
2. 操作步骤:SPSS分析的步骤如下:1)将数据输入SPSS软件,确保数据格式正确;2)选择Analyse- Classify- Discriminant;3)有两种不同的分类变量,单分类或多分类,如果你要解释一个特定的分类变量,选择单分类。
如果你不确定哪个分类变量最适合,请尝试不同的选项;4)选择两个或更个你认为与指定分类变量相关的连续变量;5)选择要用于判别分析的数据集;6)确定分类变量分类比率。
这可以在设置选项中完成;7)点击OK,开始进行分析;8)评估结果,包括汇总、判别函数、方差-方差贡献、判别矩阵;五、实验结果选取鸢尾花数据,经过训练,得到如下表所示的结果。
实验报告-判别分析(多元统计)

实验报告5判别分析(设计性实验)(Discriminant analysis)实验原理:判别分析是判别样品所属类型的一种统计方法。
判别分析是在已知研究对象分成若干类型(或组别)并已取得各种类型的一批已知样品的观测数目,在此基础上根据某些准则建立判别式,然后对未知类型的样品进行判别分类。
本实验要求学生应用距离判别准则(即,对任给的一次观测,若它与第i类的重心距离最近,就认为它来自第i类),对两总体和多总体情形下分别进行判别分析。
实验中需注意协方差矩阵相等时,选取线性判别函数;协方差矩阵不相等时,应选取二次判别函数。
实验题目一:为了检测潜在的血友病A携带者,下表中给出了两组数据:(t11a8)其中x1=log10(AHF activity),x2=log10(AHF antigen)。
下表给出了五个新的观测,试对这些观测判别归类;(t11b8)实验要求:(1)分别检验两组数据是否大致满足二元正态性;(2)分别计算两组数据的协方差矩阵,是否可以认为两者近似相等?(3)对训练样本和新观测合并作散点图,不同的类用不同颜色标识;(4)用lda函数做判别分析,即在协方差矩阵相等的情形下作判别分析;(5)用qda函数做判别分析,即在协方差矩阵不相等的情形下作判别分析;(6)比较方法(4)和方法(5)的误判率。
实验题目二:某商学研究生院的招生官员利用指标――大学期间平均成绩GPA和研究生管理能力考试GMAT的成绩,将申请者分为三类:接受,不接受,待定。
下表中给出了三类申请者的GPA与GMAT成绩:(t11a6)GPA (x1)GMAT(x2)接受GPA(x1)GMAT(x2)不接受GPA(x1)GMAT(x2)待定2.96 596 1 2.54 446 2 2.86 494 33.14 473 1 2.43 425 2 2.85 496 3 3.22 482 1 2.2 474 2 3.14 419 3 3.29 527 1 2.36 531 2 3.28 371 3 3.69 505 1 2.57 542 2 2.89 447 3 3.46 693 1 2.35 406 2 3.15 313 3 3.03 626 1 2.51 412 2 3.5 402 3 3.19 663 1 2.51 458 2 2.89 485 3 3.63 447 1 2.36 399 2 2.8 444 3 3.59 588 1 2.36 482 2 3.13 416 33.3 563 1 2.66 420 2 3.01 471 33.4 553 1 2.68 414 2 2.79 490 33.5 572 1 2.48 533 2 2.89 431 33.78 591 1 2.46 509 2 2.91 446 33.44 692 1 2.63 504 2 2.75 546 33.48 528 1 2.44 336 2 2.73 467 33.47 552 1 2.13 408 2 3.12 463 33.35 520 1 2.41 469 2 3.08 440 33.39 543 1 2.55 538 2 3.03 419 33.28 523 1 2.31 505 2 3 509 33.21 530 1 2.41 489 2 3.03 438 33.58 564 1 2.19 411 2 3.05 399 33.33 565 1 2.35 321 2 2.85 483 33.4 431 1 2.6 394 2 3.01 453 33.38 605 1 2.55 528 2 3.03 414 33.26 664 1 2.72 399 2 3.04 446 33.6 609 1 2.85 381 23.37 559 1 2.9 384 23.8 521 13.76 646 13.24 467 1实验要求:(1)对上表中的数据作散点图,不同的类用不同的颜色标识;(2)用lda函数做判别分析,即在协方差矩阵相等的情形下作判别分析;(3)用qda函数做判别分析,即在协方差矩阵不相等的情形下作判别分析;(4)比较方法(2)和方法(3)的误判率;(5)现有一新申请者的GPA为3.21,GMAT成绩为497。
多元统计分析05 判别分析97页PPT

1
0
、
倚
南
窗
以
寄
傲
,
审
容
膝
之
易
安
。
1、最灵繁的人也看不见自己的背脊。——非洲 2、最困难的事情就是认识自己。——希腊 3、有勇气承担命运这才是英雄好汉。——黑塞 4、与肝胆人共事,无字句处读书。——周恩来 5、阅读使人充实,会谈使人敏捷,写作使人精确。——培根
多元统计分析05 判别分析
6
、
露
凝
无
游
氛
,
天
高
风
景
澈
。
7、翩翩新 来燕,双双入我庐 ,先巢故尚在,相 将还旧居。
8
、
,
于
我
若
浮
烟
。
9、 陶渊 明( 约 365年 —427年 ),字 元亮, (又 一说名 潜,字 渊明 )号五 柳先生 ,私 谥“靖 节”, 东晋 末期南 朝宋初 期诗 人、文 学家、 辞赋 家、散
判别分析-贝叶斯判别

判归哪一类(取. q1
q2
q3
1 ,C( 3
j
|
i)
1,i 0,i
j) j
P(好人 / 做好事)
P好人P做好事 / 好人 P好人P(做好事 / 好人) P(坏人)P(做好事
/
坏人)
0.5 0.9
0.82
0.5 0.9 0.5 0.2
P(坏人 / 做好事)
P坏人P做好事 / 坏人 P好人P(做好事 / 好人) P(坏人)P(做好事
/
坏人)
0.5 0.2
0.18
0.5 0.9 0.5 0.2
D1,D2,… ,Dk是R(p)的一个分划,判别法则为:
当样品X落入Di时,判 X Di i 1,2,3,,k
关键的问题是寻找D1,D2,… ,Dk分划,这 个分划应该使平均错判率最小。
【定义】(平均错判损失)
用 p( j / i) 表示将来自总体Gi的样品错判到总体 Gj的条件概率。
p( j / i) P( X Dj / Gi ) fi (x)dx i j
1 (x μ(i) )Σ1(x μ(i) ) 2
1 [2 ln 2
qi
(x
μ(i)
)Σ 1 (x
μ(i) )]
令 Fi (x) 2ln qi (x μ(i) )Σ1(x μ(i))
2 ln qi x' Σ1x μ(i)' Σ1x x' Σ1μ(i) μ(i)' Σ1μ(i)
令 Pi (x) 2ln qi 2μ(i)Σ1x μ Σ μ (i) 1 (i)
D1
q1C(2 /1) q1C(2 /1) f1(x)dx
D1
q2C(1/ 2) f2 (x)dx
多元统计第五章判别分析

第一节 引言
在我们的日常生活和工作实践中,常常会遇到判别分析问题。
案例一:为了研究中小企业的破产模型,选定4个经济指标:总负债率、
收益性指标、短期支付能力、生产效率性指标。对17个破产企业(1类)和21
个正常运行企业(2类)进行了调查,得关于上述四个指标的资料。现有8个 未知类型的企业的四个经济指标的数据,判断其属于破产企业一类还是正 常运行企业一类? 案例二:根据经验,今天与昨天的湿度差x1及今天的压温差x2 (气压与温度
ˆ Σ
1 A , n 1
1,2,, k
三、判别分析的实质
设R1,R2,…,Rk是p维空间R p的k个子集,如果它们互
不 相交,且它们的和集为R p,则称R1,R2, …,Rk为R p的一 个划分。
在 两 个 总 体 的 距 离 判 别 问 题 中 , 利 用
W (X) (X μ)' α 可以得到空间 R p 的一个划分 R1 {X : W ( X) 0} R2 {X : W ( X) 0}
x2
-0.41 -0.31 0.02 -0.09 -0.09 -0.07 0.01 -0.06 -0.01 -0.14 -0.3 0.02 0 -0.23 0.05 0.11 -0.08 0.03 0 0.11 -0.27
x3
1.09 1.51 1.01 1.45 1.56 0.71 1.5 1.37 1.37 1.42 0.33 1.31 2.15 1.19 1.88 1.99 1.51 1.68 1.26 1.14 1.27
Σ 的一个联合无偏估计为
n
n2 1 和 X(2) Xi(2) n2 i 1 1 ˆ Σ ( A1 A2 ) n1 n2 2
多元统计分析-判别分析

A类
; B类
。
问题二:请对 182个自然DNA序列()进行分类。它们都较长。 用你的分类方法对它们进行分类,并给出分类结果。
看了这道题,我们应当从何处入手呢,我们应该怎样进行分 析呢……
2.思路点拨
根据所给 的20个已 知类别的 DNA序列 所提供的 信息
4.判别分析模型的 显著性检验
3.1 距离判别
距离判别的基本思想:样品 X离哪个总体的距离最近,就判断 X 属于哪个总体。
T
X(x,x,,x) 空间这R里中的,“两距点离”是通常T与意义下的距离(欧几里得1距离2:在 mm 维欧几里得 Y(y,y,,y) 的欧1几2里)得吗距?离m,也就是通常我们所说的距离为
3.判别分析方法
km
G1,G2, ,Gk
F1(x),F2(x), ,Fk(x)
判别分析是用于判别样品所属类别的一种多元统计分析方法。判别分析问题都可以这样描
X 述:设有 个 维的总体
,其分布特征已知(如已知分布函数分别为
或者
已知来自各个总体的样本),对给定的一个新样品 ,我们需要判断其属于哪个总体。一般来
则判定
;如果样品 落入 之中,则判定
Rm
RmD1D2
D1
D2
。
X D1
X G1
X D2
XG2
B.
时的判别方法
1
2
1 2
W(X)
W ( X ) ( X ) ( X ) ( X ) ( X ) 当 时,根据判别准则(T 1)式 ,1 我们同样的给出判别函数 为 T 1
11 1
概率并不容易获得,其更多的来自于长期累积的经验。先验概率可以通过下面几种赋值方法得到:
多元统计实验五判别分析

数学与计算科学学院实验报告
院系
数学与计算科学学院
学号
姓名
成绩
课程
名称
应用多元统计实验
实验项目
名称
实验五判别分析
一 ,实验目的
会用SAS软件实现距离判别法、贝叶斯判别和费歇尔判别
二,实验原理
Discrim过程
功能:主要用于处理均衡设计,分析各总体均值之间是否有差异。
格式:
proc discrim <options>;
502333102
582741102
602945152
622245152
613046142
562539112
643245152
543045152
673144142
652646152
593248182
602751162
612840132
552438112
552644122
563045152
492433102
classspno;
varslenswidplenpwid;
run;
quit;
odshtmlclose;
结果分析:
(1)协方差矩阵相等的检验。
由p值=0.0001,说明在0.05水平下拒绝“协方差矩阵相等”的零假设,故用组内协方差矩阵进行判
别分析,即:使用二次判别函数。
(2)错判的各例及其分属各类别的概率。
18
2
60
27
51
16
2
61
28
40
13
2
55
24
38
11
2
55
26
44
12
- 1、下载文档前请自行甄别文档内容的完整性,平台不提供额外的编辑、内容补充、找答案等附加服务。
- 2、"仅部分预览"的文档,不可在线预览部分如存在完整性等问题,可反馈申请退款(可完整预览的文档不适用该条件!)。
- 3、如文档侵犯您的权益,请联系客服反馈,我们会尽快为您处理(人工客服工作时间:9:00-18:30)。
它是 X 的二次函数,相应的判别规则为
X G1 , X G2 ,
如果 如果
W * ( X) 0 W * ( X) 0
2.多个总体的距离判别问题
问题:设有 k 个总体 G1 , G2 ,,G k ,其均值和协方差矩阵分 别是 μ1 , μ 2 ,, μ k 和 Σ1 , Σ 2 ,, Σ k ,ห้องสมุดไป่ตู้且 Σ1 Σ 2 Σ k Σ 。 对于一个新的样品 X ,要判断它来自哪个总体。 该问题与两个总体的距离判别问题的解决思想一样。计算新 样品 X 到每一个总体的距离,即
第五章 判别分析
第一节 引言
在我们的日常生活和工作实践中,常常会遇到判别分析问题。
案例一:为了研究中小企业的破产模型,选定4个经济指标:总负债率、
收益性指标、短期支付能力、生产效率性指标。对17个破产企业(1类)和21
个正常运行企业(2类)进行了调查,得关于上述四个指标的资料。现有8个 未知类型的企业的四个经济指标的数据,判断其属于破产企业一类还是正 常运行企业一类? 案例二:根据经验,今天与昨天的湿度差x1及今天的压温差x2 (气压与温度
二、距离判别的思想及方法
1. 两个总体的距离判别问题 问题:设有协方差矩阵∑相等的两个总体G1和G2,其均值 分别是 1和 2,对于一个新的样品X,要判断它来自哪个总 体。 一般的想法是计算新样品X到两个总体的马氏距离D2(X
,
2 2 X G , 如果 D ( X , G ) D ( X, G2 ) G1)和D2(1X,G2),并按照如下的判别规则进行判断 1 2 2 X G , 如果 D ( X , G ) D ( X, G2 ) 2 1
x4
0.45 0.16 0.4 0.26 0.67 0.28 0.71 0.4 0.34 0.43 0.18 0.25 0.7 0.66 0.27 0.38 0.42 0.95 0.6 0.17 0.51
编号
24 25 26 27 28 29 30 31 32 33 34 35 36 37 38 39 40 41 42 43 44
ˆ ( X) ( X X) α W
1 (1) ˆ 1 (X(1) X(2) ) 。这样,判别规则为 ˆ Σ ( X X(2) ) , α 2 ˆ ( X) 0 X G1 , 如果 W ˆ ( X) 0 X G , 如果 W 2
这里我们应该注意到:
( 1 ) 当 p 1 , G1 和 G2 的 分 布 分 别 为 N (1 , 2 ) 和
N ( 2 , 2 ) 时, 1 , 2 , 2 均为已知,且 1 2 ,则判别 1 2 0 ,判别函数为 系数为 2 W ( X ) ( X )
x4
0.35 0.33 0.63 0.69 0.69 0.35 0.4 0.52 0.55 0.58 0.26 0.52 0.56 0.2 0.38 0.48 0.47 0.18 0.44 0.3 0.45
0.0690 0.0814 (1) , X 1.3667 0.4376 0.8826 0.5695 0.5695 0.4201 A1 0.6899 0.5204 0.0829 0.0688 1.1292 0.2042 A2 1.7983 0.1609 0.2042 0.0570 0.2060 0.0044
x2
-0.41 -0.31 0.02 -0.09 -0.09 -0.07 0.01 -0.06 -0.01 -0.14 -0.3 0.02 0 -0.23 0.05 0.11 -0.08 0.03 0 0.11 -0.27
x3
1.09 1.51 1.01 1.45 1.56 0.71 1.5 1.37 1.37 1.42 0.33 1.31 2.15 1.19 1.88 1.99 1.51 1.68 1.26 1.14 1.27
之差)是预报明天下雨或不下雨的两个重要因素。今测得x1=8.1,x2=2.0,试
问应预报明天下雨还是预报明天不下雨?
20
10
D2---非雨区
W(x1,x2)
新样本点
0
-10
D1---雨区
X2
-20 -20 -10 0 10 20
X1
判别分析要解决的问题是,根据已有各个类别的若干样本的数
据信息,总结出客观事物分类的规律性,建立判别公式和判别 准则,并用它来判定新的观测样品应归属的组别。
1 其 中 μ (μ 1 μ 2 ) 是 两 个 总 体 均 值 的 平 均 值 , 2 α Σ 1 (μ1 μ 2 ) ,记
W (X) (X μ)' α
则判别规则式可表示为
X G1 , 如果 W ( X) 0 X G2 , 如果 W ( X) 0 这里称 W ( X) 为两总体距离判别的判别函数, 由于它是 X 的 线性函数,故又称为线性判别函数, α 称为判别系数。
( )
( 1,2,, k ) ,则 μ ( 1,2,, k )和 Σ 可估计为
n 1 1,2,, k X( ) Xi( ) , n i 1 k 1 ˆ Σ A , 其中 n n1 n2 nk n k 1
) 是来自总体 G 中的样本 , X(n
取线性判别函数为
X C , 1,2,, k W (X) I
相应的判别规则为 X C ) X Gi 如果 Wi ( X) max(I
1 k
针对实际问题,当 μ1 , μ 2 ,, μ k 和 Σ 均未知时,可以通过相 应的样本值来替代。设 X1 ,
设 X 和 Y 是来自均值向量为 μ ,协方差为 Σ( 0) 的总 体 G 中的 p 维样本,则总体 G 内两点 X 与 Y 之间的马氏距 离定义为
D2 (X, Y) (X Y)Σ1 (X Y) 定义点 X 到总体 G 的马氏距离为 D2 (X, G) (X μ)Σ1 (X μ)
新的样品 X 落入 R1 推断 X G1 ,落入 R2 推断 X G2 。
实质:在某种意义上,以最优的性质对p维空间R p构造 一 个“划分”,这个“划分”就构成了一个判别规则。
例:对破产的企业收集它们在破产前两年的年 度财务数据,同时对财务良好的企业也收集同一 时期的数据。数据涉及四个变量:x1=现金流量/ 总债务,x2=净收入/总资产,x3=流动资产/流动 债务,以及x4=流动资产/净销售额。数据列于下 表,Ⅰ组为破产企业,Ⅱ组为非破产企业。
D2 (X, G ) (X μ )Σ1 (X μ ) Σ1X μ Σ1μ XΣ1X 2μ
X C ) XΣ1X 2(I 1 1 1 Σ μ , 1,2,, k 。 这里 I Σ μ , C μ 2
注:判别分析与聚类分析的联系与区别
本章介绍三种常用的判别分析方法:距离判别、贝叶斯( Bayes)判别和费希尔(Fisher)判别。
第二节
距离判别法
一、马氏距离的概念
p 设 p 维 欧 氏 空 间 R 中 的 两 点 X ( X1 , X 2 ,
, X p ) 和
Y (Y1, Y2 , , Yp ) 。
ˆ Σ
1 A , n 1
1,2,, k
三、判别分析的实质
设R1,R2,…,Rk是p维空间R p的k个子集,如果它们互
不 相交,且它们的和集为R p,则称R1,R2, …,Rk为R p的一 个划分。
在 两 个 总 体 的 距 离 判 别 问 题 中 , 利 用
W (X) (X μ)' α 可以得到空间 R p 的一个划分 R1 {X : W ( X) 0} R2 {X : W ( X) 0}
组别
Ⅱ Ⅱ Ⅱ Ⅱ Ⅱ Ⅱ Ⅱ Ⅱ Ⅱ Ⅱ Ⅱ Ⅱ Ⅱ Ⅱ Ⅱ Ⅱ Ⅱ Ⅱ Ⅱ Ⅱ Ⅱ
x1
0.38 0.19 0.32 0.31 0.12 -0.02 0.22 0.17 0.15 -0.1 0.14 0.14 0.15 0.16 0.29 0.54 -0.33 0.48 0.56 0.2 0.47
x2
0.11 0.05 0.07 0.05 0.05 0.02 0.08 0.07 0.05 -0.01 -0.03 0.07 0.06 0.05 0.06 0.11 -0.09 0.09 0.11 0.08 0.14
x3
3.27 2.25 4.24 4.45 2.52 2.05 2.35 1.8 2.17 2.5 0.46 2.61 2.23 2.31 1.84 2.33 3.01 1.24 4.29 1.99 2.92
Σ 的一个联合无偏估计为
n
n2 1 和 X(2) Xi(2) n2 i 1 1 ˆ Σ ( A1 A2 ) n1 n2 2
这里
A ( Xi( ) X( ) )(Xi( ) X( ) ),
i 1
1, 2
' ^
此时,两总体距离判别的判别函数为 其中 X
表 破产状况数据
编号
1 2 3 4 5 6 7 8 9 10 11 12 13 14 15 16 17 18 19 20 21
组别
Ⅰ Ⅰ Ⅰ Ⅰ Ⅰ Ⅰ Ⅰ Ⅰ Ⅰ Ⅰ Ⅰ Ⅰ Ⅰ Ⅰ Ⅰ Ⅰ Ⅰ Ⅰ Ⅰ Ⅰ Ⅰ
x1
-0.45 -0.56 0.06 -0.07 -0.1 -0.14 0.04 -0.07 0.07 -0.14 -0.23 0.07 0.01 -0.28 0.15 0.37 -0.08 0.05 0.01 0.12 -0.28
和
A (Xi( ) X( ) )(Xi( ) X( ) ) , 1,2,, k