多元统计分析第三章

合集下载

《多元统计分析》第三章 判别分析

《多元统计分析》第三章  判别分析
8
v (3) 交叉验证法(或称刀切法)
Ø 从组π1中取出x1j,用该组的其余n1−1个观测值和组π2的n2个观测值构造 判别函数,然后对x1j进行判别,j=1,2,⋯ ,n1。同样,从组π2中取出x2j, 用这一组的其余n2−1个观测值和组π1的n1个观测值构造判别函数,再对 x2j作出判别,j=1,2,⋯ ,n2。
v (1) 回代法
Ø 令n(2|1)——样本中来自π1而误判为π2的个数,n(1|2)——样本中来自π2
而误判为π1的个数,则P(2|1) 和P(1|2) 可估计为

2
| 1

n
2
| 1
,
Pˆ 1 | 2 n 1 | 2
n1
n2
Ø 该方法简单、直观,且易于计算。但它给出的估计值通常偏低,当样
xΣ 1x 2 Iix ci
其中 Ii

Σ 1 μi , ci


1 2
μiΣ 1 μi ,i
1, 2,, k,判别规则简化为
x l,
若Ilx

cl

max
1 i k
Iix

ci

这里Ii′x+ci为线性判别函数。
x l,
若d
2
x,
l


v 当Σ1=Σ2=⋯ =Σk=Σ时,采用线性判 别函数。
v 当Σ1,Σ2,⋯ ,Σk不全相等时,采用二 次判别函数
v 实践中,Σ1,Σ2,⋯ ,Σk几乎不可能完 全相等。
x l ,
若Iˆlx

cˆl

max
1 i k
Iˆix cˆi
Iˆi

多元统计分析第三章假设检验与方差分析

多元统计分析第三章假设检验与方差分析

多元统计分析第三章假设检验与⽅差分析第3章多元正态总体的假设检验与⽅差分析从本章开始,我们开始转⼊多元统计⽅法和统计模型的学习。

统计学分析处理的对象是带有随机性的数据。

按照随机排列、重复、局部控制、正交等原则设计⼀个试验,通过试验结果形成样本信息(通常以数据的形式),再根据样本进⾏统计推断,是⾃然科学和⼯程技术领域常⽤的⼀种研究⽅法。

由于试验指标常为多个数量指标,故常设试验结果所形成的总体为多元正态总体,这是本章理论⽅法研究的出发点。

所谓统计推断就是根据从总体中观测到的部分数据对总体中我们感兴趣的未知部分作出推测,这种推测必然伴有某种程度的不确定性,需要⽤概率来表明其可靠程度。

统计推断的任务是“观察现象,提取信息,建⽴模型,作出推断”。

统计推断有参数估计和假设检验两⼤类问题,其统计推断⽬的不同。

参数估计问题回答诸如“未知参数θ的值有多⼤?”之类的问题,⽽假设检验回答诸如“未知参数θ的值是0θ吗?”之类的问题。

本章主要讨论多元正态总体的假设检验⽅法及其实际应⽤,我们将对⼀元正态总体情形作⼀简单回顾,然后将介绍单个总体均值的推断,两个总体均值的⽐较推断,多个总体均值的⽐较检验和协⽅差阵的推断等。

3.1⼀元正态总体情形的回顾⼀、假设检验在假设检验问题中通常有两个统计假设(简称假设),⼀个作为原假设(或称零假设),另⼀个作为备择假设(或称对⽴假设),分别记为0H 和1H 。

1、显著性检验为便于表述,假定考虑假设检验问题:设1X ,2X ,…,n X 来⾃总体),(2σµN 的样本,我们要检验假设100:,:µµµµ≠=H H (3.1)原假设0H 与备择假设1H 应相互排斥,两者有且只有⼀个正确。

备择假设的意思是,⼀旦否定原假设0H ,我们就选择已准备的假设1H 。

当2σ已知时,⽤统计量nX z σµ-=在原假设0H 成⽴下,统计量z 服从正态分布z )1,0(~N ,通过查表,查得)1,0(N 的上分位点2αz 。

《多元统计分析》3

《多元统计分析》3

一、Bayes判别
打开examp5.2.3.sav数据表⇒分析⇒分类>⇒判别式…⇒在“判别分析”对话框中,将现金流量/总债务[x1]、净收入/总资产[x2]、流动资产/流动债务[x3]和流动资产/净销售额[x4]选入“自变量”列表框中;将组别[g]选入“分组变量”列表框中(见图1)→定义范围…→在弹出的“判别分析:定义范围”对话框中(见图2),作图中的输入→继续⇒统计…→在弹出的“判别分析:统计”对话框中(见图3),作图中的选择→继续;选择分类…→在弹出的“判别分析:分类”对话框中(见图4),作图中的选择→继续;选择保存…→在弹出的“判别分析:保存”对话框中(见图5),作图中的选择→继续⇒确定,生成图6和图7。

图1
图2
图3
图4
图5
图6
图7
注:Dis_1表示经判别归属的组,Dis1_1和Dis2_1分别表示归属第1组和第2组的后验概率。

二、Fisher判别
打开examp5.4.1.sav数据表⇒分析⇒分类>⇒判别式…⇒在“判别分析”对话框中,将花萼长[x1]、花萼宽[x2]、花瓣长[x3]和花瓣宽[x4]选入“自变量”列表框中;将组别[g]选入“分组变量”列表框中(见图1)→定义范围…,即弹出“判别分析…”对话框→在“最小”框中填入1,在“最大”框中填入3→继续⇒统计…→在弹出的“判别分析:统计”对话框中,选择“函数系数”一栏里的未标准化→继续;分类…→在弹出的“判别分析:分类”对话框中,选择“图”一栏里的合并组→继续⇒确定,生成图2。

图1
图2
图2(续1)
图2(续2)。

多元统计分析:第三章 多元正态总体参数的假设检验(补充)

多元统计分析:第三章   多元正态总体参数的假设检验(补充)
18
第三章 多元正态总体参数的假设检验
所涉及的最大似然估计量—单个总体
ˆ X时 (4) 当 0 (0 0巳知)时, 取 似然函数达最大值:
L( X , 0 ) 2
np 2
0
n 2
n 1 etr - 0 A 2
19
第三章 多元正态总体参数的假设检验
15
第三章 多元正态总体参数的假设检验
所涉及的最大似然估计量—单个总体
单个p维正态总体Np(μ,Σ),设X(i)(i=1,…,n)为来自p 维总体的随机样本.样本的似然函数为
L( , ) 2
np 2
1 ˆ A时, 似然函数达最大值 : ˆ X , (1)当 n n np A 2 A np L( X , ) 2 2 exp - n n 2
9
第三章 多元正态总体参数的假设检验
§3.6正态性检验--p维数据的正态性检验
D2(1)≤ D2(2) ≤…≤ D2(n) 统计量 D2 的经验分布函数取为
.
其中H(D2(t) |p)表示χ2 (p)的分布函数在D2(t)的值. 设χ2 分布的pt分位数为χt2 ,显然χt2满足: H(χt 2 |p)= pt. 即χ2 分布的pt 分位数χt2 =H-1(pt |p). 由经验分布得到样本的pt 分位数D2(t)=Fn-1(pt ). 若H(x|p)≌Fn(x),应有D2(t) ≌ χt2 ,绘制点(D2(t) , χt2 )的散 布图,当X为正态总体时,这些点应散布在一条直线上. 10
(1) (1) ( 2) ( 2)
np 2
A1 A2 n
(t )
np 2 2
e
X )( X

多元统计分析第三章课件

多元统计分析第三章课件

查表得F0.01(3,3)=29.5,于是
T 2 0.01
35 3
F0.01
3, 3
147.5
故在显著性水平α=0.01下,拒绝原假设H0,即认为农村
与城市的2周岁男婴上述三个指标的均值有显著差异
(p=0.002)。
三、置信区域
T 2 n X μ S1 X μ
Q
n p
p n 1
称之为霍特林(Hotelling)T2 统计量。
当 H0 为真时,
n p
p n 1
T
2
服从F(p,n−p)
,对给定的显著
性水平α,拒绝规则为:
若T 2 T2,则拒绝H0.
其中T2
pn 1
n p
F
p,
n
p 。
这里需要解释的是,当 Σ 未知时,自然想到要用样本协差阵 1 S 取代 n 1
替 Σ ,因 (n 1)S1 是 Σ1 的无偏估计量,而样本离差阵
这里我们应该注意到,(3.3)式可以表示为
t2
n(X )2
S2
n( X
)(S 2 )1( X
)
对于多元变量而言,可以将 t 分布推广为下面将要介绍的
HotellingT 2 分布。
定义 设 X ~ N p (μ ,Σ ,) S ~ Wp (n ,Σ 且) X 与 S 相互独立,n p ,则称统计量T 2 nX S - X1 的分布
当 2 未知时,用
S 2
1 n 1
n i 1
(Xi
X )2
作为 2 的估计量,用统计量:
t (X 0) n
S
来做检验。当假设成立时,统计量 t 服从自由度为 n 1的 t 分布,

多元统计分析第三章聚类分析

多元统计分析第三章聚类分析

类平均法
类平均法的特点是定义两类之间的距 离平方为这两类元素两两之间距离的 平方的平均。其聚类方法和过程与前 两种方法相同。
离差平方和法
该方法的基本思想来自方差分析。即如 果分类正确,则同类样品的离差平方和 应当较小,而类间的离差平方和应当较 大。具体做法是:先令每个样品各自成 一类,然后每次缩小一类,计算所有可 能合并结果带来的离差平方和S,选择使 S增加最小的两类首先合并,依次类推。
设空间中的两点
P (x 1 ,x 2 , ,x p )',Q (y 1 ,y 2 , ,y p )'
s11,s22, ,spp
表示p个变量n次观测的样本方差,则定义 P到Q 的统计距离为:
d (P ,Q ) (x 1y 1 )2 s 1 1
(x 2y 2 )2 s2 2
(x py p )2 sp p
所有样品之间的样品相关系数矩阵记为:
Cij (2) ,定义为:
r11 r12
r1 p
Cij (2) (rij )
r21 r22
r2 p
rn1 rn2
rnp
Q型聚类 R型聚类
计算公式p :
xi x j
cosij
1 p
p
xi2
x
2 j
1 1 n
x i x j
cosij
1 n
n
j 个指标
1 ,2 , p )为第
i
一、相似系数:
这是大家最熟悉的统计量,它是将数据标准化后的夹
角的余弦。
常用 rij 表示。
p
(xik X i )(x jk X j )
rij
k1 p
p
1
( (xik X i )2 (x jk X j )2 ) 2

多元统计分析(何晓群 中国人民大学) 第三章

多元统计分析(何晓群 中国人民大学)  第三章
• 为此最常用的技巧是聚类分析,聚类分析将个体或对 象分类,使得同一类中的对象之间的相似性比与其他 类的对象的相似性更强。目的在于使类间对象的同质 性最大化和类与类间对象的异质性最大化。本章将介 绍聚类分析的性质和目的,并且引导研究者使用各种 聚类分析方法。
2021/1/28
中国人民大学六西格玛质量管理研究中心
2021/1/28
中国人民大学六西格玛质量管理研究中心
23
目录 上页 下页 返回 结束
§3.2 相似性度量
2021/1/28
中国人民大学六西格玛质量管理研究中心
24
目录 上页 下页 返回 结束
§3.2 相似性度量
(2) 相关系数。这是大家最熟悉的统计量,它 是将数据标准化后的夹角余弦。
有时指标之间也可用距离来描述它们的接近程度。 实际上距离和相似系数之间可以互相转化,
• 与多元分析的其他方法相比,聚类分析的方法是 很粗糙的,理论上还不完善,但由于它能解决许 多实际问题,很受人们的重视,和回归分析、判 别分析一起被称为多元分析的三大方法。
2021/1/28
中国人民大学六西格玛质量管理研究中心
7
目录 上页 下页 返回 结束
§3.1 聚类分析的思想
• 3.1.2 聚类的目的
(2)一种改进的距离就是在前面曾讨论过 的马氏距离,它对一切线性变换是不变 的,不受指标量纲的影响。它对指标的 相关性也作了考虑,我们仅用一个例子 来说明。
2021/1/28
中国人民大学六西格玛质量管理研究中心
16
目录 上页 下页 返回 结束
§3.2 相似性度量
2021/1/28
中国人民大学六西格玛质量管理研究中心
2021/1/28

多元统计分析讲义(第三章)

多元统计分析讲义(第三章)

Equation Chapter 1 Section 1 Array《多元统计分析》Multivariate Statistical Analysis主讲:统计学院许启发()统计学院应用统计学教研室School of Statistics2004年9月第三章 判别分析【教学目的】1. 让学生了解判别分析的背景、基本思想; 2. 掌握判别分析的基本原理与方法; 3. 掌握判别分析的操作步骤和基本过程; 4. 学会应用聚类分析解决实际问题。

【教学重点】1. 注意判别分析与聚类分析的关系(联系与区别); 2. 阐述各种判别分析方法。

§1 概述一、什么是判别分析1.研究背景科学研究中,经常会遇到这样的问题:某研究对象以某种方式(如先前的结果或经验)已划分成若干类型,而每一类型都是用一些指标()12,,,p X X X X '=来表征的,即不同类型的X 的观测值在某种意义上有一定的差异。

当得到一个新样本观测值(或个体)的关于指标X 的观测值时,要判断该样本观测值(或个体)属于这几个已知类型中的哪一个,这类问题通常称为判别分析。

也就是说,判别分析(discriminant analysis )是根据所研究个体的某些指标的观测值来推断该个体所属类型的一种统计方法。

判别分析的应用十分广泛。

例如,在工业生产中,要根据某种产品的一些非破坏性测量指标判别产品的质量等级;在经济分析中,根据人均国民收入,人均工农业产值,人均消费水平等指标判断一个国家的经济发展程度;在考古研究中,根据挖掘的古人头盖骨的容量,周长等判断此人的性别;在地质勘探中,根据某地的地质结构,化探和物探等各项指标来判断该地的矿化类型;在医学诊断中,医生要根据某病人的化验结果和病情征兆判断病人患哪一种疾病,等等。

值得注意的是,作为一种统计方法,判别分析所处理的问题一般都是机理不甚清楚或者基本不了解的复杂问题,如果样本观测值的某些观测指标和其所属类型有必然的逻辑关系,也就没有必要应用判别分析方法了。

  1. 1、下载文档前请自行甄别文档内容的完整性,平台不提供额外的编辑、内容补充、找答案等附加服务。
  2. 2、"仅部分预览"的文档,不可在线预览部分如存在完整性等问题,可反馈申请退款(可完整预览的文档不适用该条件!)。
  3. 3、如文档侵犯您的权益,请联系客服反馈,我们会尽快为您处理(人工客服工作时间:9:00-18:30)。

.
.
.
.
2020 年 5 月 13 日
.
19 / 156
几个重要统计量的分布
二、威沙特分布
Wishart 分布是一元统计中 χ2 分布的推广. 多元正态总体 Np(µ, Σ) 中, 常用样本均值向量 X¯ 作为 µ 的估计, 样本协差阵
S = A/(n − 1)
作为 Σ 的估计. 由第二章的定理 2.5.2 已给出
X¯ )2

χ2(n

1).
i=1
推广到 p 元正态总体, 样本协差阵 S = A/(n − 1) 及随机矩阵 A(离差 阵) 的分布是什么?
石万林 (多元统计分析)
.
多元正态总体参数的假设检验
.
.
.
.
2020 年 5 月 13 日
.
21 / 156
几个重要统计量的分布
二、威沙特分布
石万林 (多元统计分析)
计中的协方差阵 Σ.
石万林 (多元统计分析)
.
多元正态总体参数的假设检验
X¯ − µ√1 + (µ1 − µ0) s2/n
≤ λ|µ = µ1
= β.
此时检验统计量
T

t(n

1, δ)(非中心参数
δ
=
√ n(µ1

µ0)/σ),
利用
非中心 t 分布可以计算第二类错误 β 的值. 从而得到检验法的功效函数
为 1 − β.
石万林 (多元统计分析)
.
多元正态总体参数的假设检验
T = X√¯ − µ0 H∼0 t(n − 1), s2/n
否定域为 {|T | > λ}, 其中 λ 满足:P {|T | > λ} = α(显著性水平). ♣ 当否定 H0 时, 可能犯第一类错误, 且
第一类错误的概率 = P (“以真当假”) = P {|T | > λ|µ = µ0} = 显著性水平α;
石万林 (多元统计分析)
.
多元正态总体参数的假设检验
.
.
.
.
2020 年 5 月 13 日
.
9 / 156
几个重要统计量的分布
一、正态变量二次型的分布
结论 4 设 X ∼ Nn(µ, σ2In), A = A′, 则
其中
1 σ2
X ′ AX

χ2(r,
δ),
δ
=
1 σ2
µ′Aµ
⇐⇒
A
=
A2,
且 rank(A) = r(r ≤ n). 结论 5 二次型与线性函数的独立性:设 X ∼ Nn(µ, σ2In), A 为 n
结论 2 当 µi ̸= 0(i = 1, · · · , n), σ2 ̸= 1 时, X′X 的分布称为非中
心 χ2 分布.
.
定义 .
(3.1.1)
设 n 维随机向量 X ∼ Nn(µ, In)(µ ̸= 0), 则称随机变量 ξ = X′X 为服

n
个自由度、非中心参数
δ
=
µ′µ
=
∑n
i=1
µ2i
阶对称矩阵,B 为 m × n 矩阵, 令 ξ = X′AX, Z = BX, 若 BA = O, 则 BX 和 X′AX 相互独立.
石万林 (多元统计分析)
.
多元正态总体参数的假设检验
.
.
.
.
2020 年 5 月 13 日
.
10 / 156
几个重要统计量的分布
一、正态变量二次型的分布
石万林 (多元统计分析)
.
多元正态总体参数的假设检验
.
.
.
.
2020 年 5 月 13 日
.
13 / 156
几个重要统计量的分布
一、正态变量二次型的分布
结论 2 设 X ∼ Np(µ, Σ), Σ > 0, A 为对称阵, rank(A) = r. 则
(X − µ)′A(X − µ) ∼ χ2(r) ⇐⇒ ΣAΣAΣ = ΣAΣ.
石万林 (多元统计分析)
.
多元正态总体参数的假设检验
.
.
.
.
2020 年 5 月 13 日
.
7 / 156
几个重要统计量的分布
一、正态变量二次型的分布
石万林 (多元统计分析)
.
多元正态总体参数的假设检验
.
.
.
.
2020 年 5 月 13 日
.
8 / 156
几个重要统计量的分布
一、正态变量二次型的分布
石万林 (多元统计分析)
.
多元正态总体参数的假设检验
.
.
.
.
2020 年 5 月 13 日
.
18 / 156
几个重要统计量的分布
一、正态变量二次型的分布
♣ 当 H0 相容时, 可能犯第二类错误, 且
第二类错误的概率 = P (“以假当真”) = P {|T | ≤ λ|µ ̸= µ0}
(
)
µ=µ=1̸=µ0 P
.
.
.
.
2020 年 5 月 13 日
.
16 / 156
几个重要统计量的分布
一、正态变量二次型的分布
.
定义 .
(3.1.3)
设 X ∼ χ2(m, δ) 与 Y ∼ χ2(n) 相互独立, 令
X /m
F=
,
Y /n
则称 F 的分布为具有自由度为 m, n 和非中心参数为 δ 的 F 分布, 记 .为 F ∼ F (m, n, δ).
∑n
W=
X(α)X(′α) = XX′
α=1
.的分布为威沙特分布, 记为 W ∼ Wp(n, Σ).
石万林 (多元统计分析)
.
多元正态总体参数的假设检验
.
.
.
.
2020 年 5 月 13 日
.
23 / 156
几个重要统计量的分布
二、威沙特分布
显然, p = 1 时,X(α) ∼ Np(0, σ2), 此时
在一元统计中,用于检验 µ, σ2 的抽样分布有 χ2 分布,t 分布,F 分 布等, 它们都是由来自总体 N (µ, σ2) 的样本导出的检验统计量. 推广到 多元统计分析后, 也有相应于以上三个常用分布的统计量: Wishart, Hotelling T 2, Wilks Λ 统计量, 讨论这些统计量的分布是多元统计分析 所涉及的假设检验问题的基础.

χ2
分布,
记为
X. ′X ∼ χ2(n, δ) 或者 X′X ∼ χ2n(δ).
当 X ∼ Nn(µ, σ2In), µ ̸= 0, 且 σ2 ̸= 1 时, 令 1
Yi = σ Xi 显然
石万林 (多元统计分析)
Yi ∼ N (µi/σ, 1) (i = 1, · · · , n),
.
.
.
.
.
多元正态总体参数的假设检验
石万林 (多元统计分析)
.
多元正态总体参数的假设检验
.
.
.
.
2020 年 5 月 13 日
.
17 / 156
几个重要统计量的分布
一、正态变量二次型的分布
4. 非中心 χ2 分布、非中心 t 分布、非中心 F 分布的应用
一元统计中, 关于在一个正态总体 N (µ, σ2) 的均值检验中, 检验 H0 : µ = µ0 时, 检验统计量为
.
.
多元正态总体参数的假设检验
石万林 多元统计分析 2020 年 5 月 13 日
石万林 (多元统计分析)
.
多元正态总体参数的假设检验
.
.
.
.
2020 年 5 月 13 日
.
1 / 156
目录
目录
1. 几个重要统计量的分布 2. 单总体均值向量的检验及置信域 3. 多总体均值向量的检验 4. 协方差阵的检验 5. 独立性检验 6. 正态性检验
2020 年 5 月 13 日
.
6 / 156
几个重要统计量的分布
一、正态变量二次型的分布

其中
δ
=
1 σ2
µ′
µ
Y ′Y
=
1 σ2
X
′X
∼ χ2n(δ),
结论 3 设 X ∼ Nn(0n, σ2In), A 为对称矩阵, 且 rank(A) = r, 则 二次型 X′AX/σ2 ∼ χ2(r) ⇐⇒ A2 = A (A 为对称幂等矩阵)
.
多元正态总体参数的假设检验
.
.
.
.
2020 年 5 月 13 日
.
12 / 156
几个重要统计量的分布
一、正态变量二次型的分布
2. 一般 p 维正态随机向量的二次型 结论 1 设 X ∼ Np(µ, Σ), Σ > 0, 则 X′Σ−1X ∼ χ2(p, δ), 其中 δ = µ′Σ−1µ.
石万林 (多元统计分析)
= Inµ′,
µ1 · · · µp
则称 W = X′X 服从非中心参数为 ∆ 的非中心威沙特分布, 记为
W ∼ Wp(n, Σ, ∆), 其中
石万林 (多元统计分析)
.
多元正态总体参数的假设检验
.
.
.
.
2020 年 5 月 13 日
.
24 / 156
几个重要统计量的分布
二、威沙特分布
∆ = M ′M = (Inµ′)′(Inµ′) = µIn′ Inµ′ = nµµ′.
相关文档
最新文档