医学统计学第十八章判别分析

合集下载

判别分析

判别分析

具体方法为待定系数法: ①将A、B两个总体的全部个案观测值代入方程,并求其平均值和离差 平方和。 ②求F值,当F取极大值的时候,将表示有组间差异最大,组内差异最小。 因此可以通过令F的一阶偏导数等于零。 ③得到k个关于Ci 的线性方程组,方程组的解就是判别函数的各个系数。 对于任意个案代入函数中,当D的数值大于0,则该个案隶属于A总体。 当D的数值小于0,则该个案隶属于B总体。如果D等于0,则待判。 ⒉判别方法 SPSS系统提供的判别方法有马氏距离判别法、贝叶斯概率判别法以及费 氏多类判别模型法。 ⑴马氏(Mahalamobis)距离判别法 马氏距离判别法的思想就是建立马氏距离,当被判断个案距离哪个总体中 的马氏距离最小,该个案就隶属于这个总体。假定有A、B两个总体,则: X∈A 若d(x,A)<d(x,B) X∈B 若d(x,A)>d(x,B) 待判 若d(x,A)=d(x,B)
... ... ... ...
x1k ( a ) x2 k (a ) ... x mk ( a )
{xnk(b)}=
x11 (b ) x 21 ( b ) ... x (b ) n1
x12 ( b ) x 22 (b ) ... x n 2 (b )
⑵贝叶斯(Bayes)概率判别法 贝叶斯概率判别法是根据被判断个案应当归属于出现概率最大的总体 或者归属于错判概率最小的总体的原则进行判别的。 出现概率最大的总体指在全部N个个案中,属于各个不同总体的个案 数分别为:n1、n2、n3…,则各自的概率可以简单计算为:
n1 n2 n3 P ( G 1) = 、 P (G 2 ) = 、 P (G 3) = ... N N N
P(Gi)为先验概率。被判断的个案属于先验概率最大总体的概率应 当高一些。先验概率反映了样本分布的总体趋向特性。当不能确定一个个 案属于若干个总体中的哪一个时,归属大概率总体的概率显然会比归属小 概率总体的概率高。 另外,考虑到某些个案的特殊性,还应当具体分析各个个案的趋向特 性。因为个案趋向于各个总体的概率可能不同。 例如:对儿童某行为应隶属于心理发展问题的概率远远超过隶属于生 理发育问题的概率,即使样本数量很大时也基本如此,则将该行为判断为 心理问题的正确性就大。

判别分析Discriminant Analysis

判别分析Discriminant Analysis

(1)有无某种疾病 例:计算机用于胃癌普查,用于中风预报. (2)疾病的鉴别诊断 例:计算机用于对肺癌,肺结核和肺炎进行鉴别诊断. (3)患有某疾病中的哪一种或哪一型 例:鉴别诊断单纯性或绞窄性肠梗阻. 鉴别诊断阑尾炎中的卡他性,蜂窝织炎, 坏疽性和腹膜炎.
用一个实例来说明判别分析的基本思想
2. 判别分析步骤 欲用显微分光光度计对病人细胞进行检查以判断 病人是否患有癌症. (1)根据研究目的确定研究对象(样本)及所用指标 例:110例癌症病人和190例正常人. 指标:X1,X2和X3. X1: 三倍体的得分,X2: 八倍体的得分,X3: 不 整倍体的得分.(0-10分)
考虑事前概率可适当提高判别的敏感性. 事前概率可据于文献报道或以往的大样本研 究.但是困难在于事前概率往往不容易知道; 如果训练样本是从所研究的总体中随机抽取 的,则可用训练样本中各类的发生频率Q(Yj) 来估计各类别的事前概率q(Yj).如果事前概 率未知,而又不可以用Q(Yj)来估计q(Yj),就 只能将事前概率取为相等值,即取q(Yj)=1/g.
训练样本的数据内容与符号 ——————————————————————————————————— 解释变量 个体号 ——————————————————————— 类别变量(Y) X1 X2 … Xj … XP ——————————————————————————————————— 1 X11 X12 … X1j … X1P y1 2 X22 X22 … X2j … X2P y2 … … … … … … … … i Xi1 Xi2 … Xij … XiP y3 … … … … … … … … n Xn1 Xn2 … Xnj … XnP yP ————————————————————————————————————

判别分析 (3)

判别分析 (3)
group1=ones(size(sam_h,1),1);
%白血病人数据和类别
sam_p=[14.0 5.1;13.2 4.4;11.0 4.5;11.3 3.8;9.1 4.5;10.3 3.2;13.0 3.6;12.4 5.4;10.3 4.2;9.0 4.7;10.6 5.5;9.5 3.5;13.8 4.5];
dh2=mahal(sam_p,sam_p);%计算白血病样本与白血病类的马氏距离
dh1>dh2
dtoh=mahal(sam_new,sam_h)
dtoh=mahal(sam_new,sam_p)
%利用MATLAB中的classify函数进行判别
training=sample;
g=Y;
[class,err]=classify(sample,training,g)
[class,err]=classify(sam_new,training,g)
sam_new =
10 4
cresult1 =
1
1
1
1
1
1
1
1
1Hale Waihona Puke 1100
0
0
1
0
0
0
0
1
1
0
0
ans =
1
1
1
1
0
1
1
1
1
0
0
1
1
dtoh =
7.2036
dtoh =
0.7252
class =
1
1
1
1
1
1
1
1
1
1
1
-1
-1
bayes判别的统计思想是假定对研究的对象已有一定的认识常用先验概率分布来描述这种认识然后取得一个样本计算该样本落入各个子域的概率进而修正已有的知识先验概率分布得到后验概率分布各种统计推断都通过后验概率分布来进行最后那类样本的后验概率分布越大就将该样本判别为哪一类

判别分析解读 PPT

判别分析解读 PPT
判别分析
Discriminant Analysis
流行病与卫生统计学系
• 聚类分析:对(样本)总体进行分类 • 判别分析:对(样本)个体进行分类
判别与聚类
• 聚类分析可以对样本/指标进行分类,判别分析 只对样本进行分类。
• 聚类分析事先 不知道事物的类别,也不知道应 分几类;判别分析必须事先知道事物的类别, 也知道应分几类。
• 在农林害虫预报中,根据以往的虫情,多种气 象因子来判别一个月后的虫情是大发生,中发 生或正常
• 在体育运动中,判别某游泳运动员是适合练蛙 泳,仰泳还是自由泳
• 在医疗诊断中,根据某人多种检验指标来判断 此人是某病患者还是非患者
判别分析--诊断
• 临床诊断: • 急腹症的患者,需要诊断患病原因。 • 诊断阑尾炎时需要与其他急腹症作鉴别诊断;
• 聚类分析不需要分类的历史资料,能直接对样 本进行分类;判别分析需要历史资料去建立判 别函数,然后才能对样本进行分类。
• 判别分析:根据判别对象若干个指 标的观测结果判定其应属于哪一类 的统计学方法。
应用
• 在经济学中,根据人均国民收入,人均工农业 产值,人均消费水平等多个指标来判定一个国 家的经济发展程度所属等级
以p=q=k=2 来说明Fisher判别分析法的基本原理和计算方法
根据Fisher判别分析法的基本原理,就是要选择一组 适当的系数 c 1 , c 2 ,…, c k ,使得类间差异D最大 且类内差异V最小,即,使得下式的值 Q 达到最大。
根据多元函数求极值的原理和方法,使得 Q 取最大 值的点是Q 的一阶偏导函数等于0的方程组的解。 令上述方程组的解是: 那么,Fisher判别函数估计式是:
该类。 • 适合于多类的判别分析。

判别分析完整课件

判别分析完整课件
D ( y(1) y( 2) )(n1 n2 2) ( ci di )(n1 n2 2)
2 i 1 m
m为判别指标数,根据自由度查F(m,n1+n2-m-1)。
(三)确定判别临界值
确定两类的判别临界值(即两类的分界点)yc, 据此对未知样本作出判断。
yc
n1 y(1) n2 y( 2 ) n1 n2
在医学科研资料中经常遇到指标变量不呈正态分 布或难以满足参数判别分析的要求,特别是有些 变量是分类变量,不可能服从正态分布,可以用 Logistic回归分析的方法。
实际资料中一般含有较多的指标,有些指标可能 对鉴别不同的类别毫无用处,或指标间彼此相关的情 况时不应该用所有的指标都参与建判别函数。所以, 在建函数之前,先进行变量筛选是很有必要的,即逐 步判别分析,此法建立的函数更简洁,效果也更好。 此外,对于某些指标间存在彼此相关的情况时, 先对众多的指标进行聚类,从聚成的几大类中各挑选 一个最有代表性的指标,用这些典型指标建立判别函 数。 逐步回归、判别分析、聚类分析等方法可以联合 应用。
y ci xi
i 1 n
2
n1
(y
i 1
n2
i ( 2)
y( 2 ) )
2
y(1) ck xk (1)
k 1
n1
y( 2) ck xk ( 2)
k 1
n2
根据求极值的原理,求I对判别系数Ci的偏导数,使其等 于零,得到下列方程组:
f11C1+f12C2+……f1mCm=d1 f21C1+f22C2+……f2mCm=d2 ……… …… …… ……… ….. fm1C1+fm2C2+……fmmCm=dm 其中, di

判别分析

判别分析
判别分析
多变量统计分析方法
01 简介
03 判别函数
目录
02 基本思想 04 建立方法
05 判别方法
07 应用
目录
06 验证方法
基本信息
判别分析又称“分辨法”,是在分类确定的条件下,根据某一研究对象的各种特征值判别其类型归属问题的 一种多变量统计分析方法。
其基本原理是按照一定的判别准则,建立一个或多个判别函数,用研究对象的大量资料确定判别函数中的待 定系数,并计算判别指标。据此即可确定某一样本属于何类。
3)Fisher判别:亦称典则判别,是根据线性Fisher函数值进行判别,通常用于梁祝判别问题,使用此准则 要求各组变量的均值有显著性差异。该方法的基本思想是投影,即将原来在R维空间的自变量组合投影到维度较低 的D维空间去,然后在D维空间中再进行分类。投影的原则是使得每一类的差异尽可能小,而不同类间投影的离差 尽可能大。Fisher判别的优势在于对分布、方差等都没有任何限制,应用范围比较广。
判别方法
判别方法
判别方法是确定待判样品归属于哪一组的方法,可分为参数法和非参数法,也可以根据资料的性质分为定性 资料的判别分析和定量资料的判别分析。此处给出的分类主要是根据采用的判别准则分出几种常用方法。除最大 似然法外,其余几种均适用于连续性资料。
1)最大似然法:用于自变量均为分类变量的情况,该方法建立在独立事件概率乘法定理的基础上,根据训 练样品信息求得自变量各种组合情况下样品被封为任何一类的概率。当新样品进入是,则计算它被分到每一类中 去的条件概率(似然值),概率最大的那一类就是最终评定的归类。
基本思想
基本思想
根据判别中的组数,可以分为两组判别分析和多组判别分析; 根据判别函数的形式,可以分为线性判别和非线性判别; 根据判别式处理变量的方法不同,可以分为逐步判别、序贯判别等; 根据判别标准不同,可以分为距离判别、Fisher判别、Bayes判别法等。

第十八章 判别分析

第十八章 判别分析

10.859
F
Appr ox. 1.508
df1
6
df2 2613.311
Sig.
.172
Tests null hypothesis of equal population covaria
本例p>0.05,满足齐性条件.
28
两总体方差不齐距离示意
z1
z2
29
建立判别规则和判别值(Zc)
zc

zA
1
.51 31 8.466
3.009
31
典型判别函数
(canonical discriminant function)
Canonical Discriminant Function Coefficients
F un c tio n
1
X1
.040
X2
-.127
X3
.179
(C o n stan t)
类间 均数 差值
.....
(18-3)
Sm1C1 Sm2C2 ....SmmCm Dm
Sij为第i指标和第j个指标的合并协方差
zc1x1c2x2....cm xm
13
2.建立判别规则和判别值(Zc)
zc

zA
zB 2
(18-5)
z i z c 判为A类
z i z c 判为B类
对资料要求: 要求建立方程的观察对象分类(y)已经
明确(用金标准确定),收集建模对象(训 练样本)的m个变量(x)建立判别方程。
7
判别分析建模的方法
根据自变量(x)资料性质:
自变量(x)为计量数据: Fisher判别、Bayes判别(SPSS、SAS

判别分析精讲

判别分析精讲

判别分析判别分析是一种常用的统计分析方法,根据观察或测量到若干变量值,判别研究对象属于哪一类的方法。

进行判别分析必须已知观测对象的分类和若干表明观测对象特征的变量值。

判别分析就是要从中筛选出能提供较多信息的变量并建立判别函数,使得利用推导出的判别函数对观测量判别其所属类别时的错判率最小。

线性判别函数一般形式是1122...n n y a x a x a x =+++,y 为判别分数(判别值),n x 为反映研究对象特征的变量,n a 为各变量的判别系数。

典则判别分析:建立典则变量代替原始数据文件中指定的自变量。

典则变量是原始自变量的线性组合。

用少量的典则变量代替原始的多个变量可以比较方便地描述各类之间的关系。

实验:实验数据见:判别分析2010.sav .例1:一个城市的居民家庭,按其有无割草机可分为两组,有割草机的记为一组为1π,没有割草机的一组记为2π,割草机工厂欲判断一些家庭是否购买割草机。

从1π和2π分别随机抽取12个样品,调查两项指标:1x =家庭收入,2x =房前屋后土地面积。

用y 作为二元被解释变量,有割草机的家庭用1表示,没有割草机的家庭用0表示,12,x x 作为解释变量。

实验步骤:打开判别分析2010.sav ,之后选择判别分析。

选择变量,定义范围分组变量:必须是离散变量,设置分类变量的范围选择变量:选择一部分符合条件的观测量进行判别函数的推导,而且有一个变量的某个值可以作为这些观测量的标识。

例如:新设一个变量group,选择group=1,则只有group=1的观测量参与判别函数的推导。

一起输入自变量:判别分析过程使用所有的自变量进行判别分析,建立全模型。

使用步进式方法:筛选能对观测量的特性提供丰富的信息的自变量进入判别分析。

在“方法”栏中作相应选择Wilks’lambda:每步都是Wilk的lambda统计量最小的进入判别函数。

未解释方差:每步都是各类不可解释的方差和最小的变量进入判别函数。

  1. 1、下载文档前请自行甄别文档内容的完整性,平台不提供额外的编辑、内容补充、找答案等附加服务。
  2. 2、"仅部分预览"的文档,不可在线预览部分如存在完整性等问题,可反馈申请退款(可完整预览的文档不适用该条件!)。
  3. 3、如文档侵犯您的权益,请联系客服反馈,我们会尽快为您处理(人工客服工作时间:9:00-18:30)。

(18-5) (18-6)
例18-1 收集了22例某病患者的三
个指标(X1,X2,X3)的资料列于表181,其中前期患者(A)类12例,晚期患 者(B)类10例。试作判别分析。
表18-1
类别 编号
A
1
A
2
A
3
A
4
A
5
A
6
A
7
A
8
A
9
A
10
A
11
A
12
B
13
B
14
B
15
B
16
B
17
B
18
B
19
B
20
(A j
)
,
X
(B) j
分别为
X
i和X
j

A
类和
B
类的观察值。
2.判别规则 建立判别函数后,按公式(18-1) 逐例计算判别函数值Zi ,进一步求Zi 的两类均数 ZA 、 ZB 与总均数 Z ,按下式计算判别界值:
判别规则:
Zc
ZA
2
ZB
ZZii
Zc , Zc ,
Zi
Z

c
判为A类 判为B类 判为任意一类
判别函数为 Z 0.070 X 1 0.225 X 2 0.318 X 3 。
逐例计算判别函数值Zi 列于表 18-1 中的 Z 列,同 时计算出 Z A 1.428 、Z B 1.722 与总均数Z 0.004 。
(3)确定界值,进行两类判别: 按公式 ( 18-5 ) 计 算 Zc (1.428 1.722) 2 0.147 , 将 Zi 0.147 判为 A 类,Zi 0.147 判为 B 类。判 别结果列于表 18-1 的最后一列,有 4 例错判。
二、判别效果的评价 用误判概率P衡量
方法:回顾性:样本回代。必须做,但效果差。
回顾性误判概率估计往往夸大判别效果。
前瞻性:验证样本。 刀切法: 步骤 ①顺序剔除一个样品,用余下的 N-1 个样品建立 判别函数;
②用判别函数判别剔除的样品; ③重复上两步 N 次, 计算误判概率。 此法优点:充分利用了样本的信息建立和验证判别函 数。本例刀切法误判概率估计值为 6 22 27.3% 。 要求判别函数的误判概率小于 0.1 或 0.2 才有应用价值。
第十八章
判别分析
Discriminant Analysis
Content
• Fisher discriminant analysis • Maximum likelihood method • Bayes formula discriminant analysis • Bayes discriminant analysis • Stepwise discriminant analysis
▪ 用途:解释和预报(主要用于计量诊断)。 ▪ 分类(经典): Fisher判别和Bayes判别。
按资料类型分:
1. 计量资料判别分析。目的是作出以定量指标 判别个体属性分类或等级的判别函数。
2. 计数资料判别分析。目的是作出以定性或等 级指标判别个体属性分类或等级的概率公式。
按方法名分
➢ 1. Fisher判别 ➢ 2. 最大似然判别法 ➢ 3. Bayes公式判别法 ➢ 4. Bayes判别 ➢ 5. 逐步判别

指标的均数 ( j 1,2, , m) ;
Sij 是 X1, X 2 ,L , X m 的合并协方差阵的元素。
Sij
(
X
( i
A
)
X
( i
A
)
)(
X
( j
A
)
X
(A j
)
)
(
X
(B) i
nA nB 2
X
(B) i
))(
X
(B) j
X
(B) j
)
(18-4)
式中
X
(A) i
,
X (B) i
,
X
2020/4/23
医学统计学
讲述内容
第一节 Fisher判别 第二节 最大似然判别法 第三节 Bayes公式判别法 第四节 Bayes判别 第五节 逐步判别 第六节 判别分析中应注意的问题
▪ 目的:作出以多个判别指标判别个体分类的
判别函数或概率公式。
▪ 资料:个体分两类或多类,判别指标全部为
数值变量或全部为分类变量。
1.39
A
0
-2
2
-1.09
B
-10
-2
0
0.25
A
9
-5
1
-2.07
B
2
-1
-1
-0.05
A
17
-6
-1
-2.22
B
8
-2
1
-1.33
B
17
-9
1
-3.53
B
0
-11
3
-3.43
B
-9
-20
3
-4.82
B
-7
-2
3
-0.91
B
-9
6
0
1.98
A
12
0
0
-0.84 B
(1)计算变量的类均数及类间均值差Dj, 计算结果列于表18-2。
B
21
B
22
22例患者三项指标观察结果(Zc=-0.147)
X1
观察值
X2
X3
Z
Fisher 判别结果
23
8
0
0.19
A
-1
9
-2
2.73
A
-10
5
0
1.83
A
-7
-2
1
-0.28
B
-11
3
-4
2.72
A
-10
3
-1
1.69
A
25
9
-2
0.91
A
-19
12
-3
4.98
A
9
8
-2
1.81
A
-25
-3
-1
表18-2 变量的均数及类间均值差
类别 例数
X1
X2
X3
A
12
-3
4
-1
B
10
4
-5
1
类间均值差D j
-7
9
-2
(2)计算合并协方差矩阵: 按公式(18-4),例如:
S11
[(23 3)2
(1 3)2
(10 3)2 ] [(9 4)2 12 10 2
(2 4)2
(12 4)2 ]
判别系数 C 可通过对λ求导,由下列方程组解出
S11C1 S12C2 L S1mCm D1
S21C1
S22C2
L L
S2mCm D2
Sm1C1 Sm2C2 L SmmCm Dm
(18-3)
式中 Dj
X (A) j
X (B) j
,X(ABiblioteka j,X (B) j
分别是
A
类和
B
类第
j
175.3
得到合并协方差阵
175.3 20.3 2.3
S
20.3
38.2
5.8
2.3 5.8 2.7
代入公式(18-3)得
175.3C1 20.3C2 2.3C3 7
20.3C1 38.2C2 5.8C3
9
2.3C1 5.8C2 2.7C3 2
解此正规方程得 C1 0.070 ,C2 0.225 ,C3 0.318
第一节 Fisher判别
适用于指标为定量指标的两类判别 (或多类判别)
一、两类判别
1. Fisher判别的原理
已知 A、B 两类观察对象,A 类有 nA 例, B 类有 nB 例,分别记录了 X1, X 2 , , X m 个
观察指标,称为判别指标或变量。Fisher 判 别法就是找出一个线性组合
Z C1X1 C2 X2 L Cm X m
(18-1)
Fisher 准则:使得综合指标 Z 在 A 类 的均数 ZA 与在 B 类的均数 ZB 的差异 ZA ZB 尽可能大,而两类内综合指标 Z 的 变异 SA2 SB2 尽可能小,即使得 达到最大。
ZA ZB SA2 SB2
(18-2)
相关文档
最新文档