第十四章判别分析DiscriminantAnalysis

合集下载

数据分析知识：数据分析中的判别分析方法

数据分析知识：数据分析中的判别分析方法判别分析（Discriminant Analysis）是一种经典的统计分析方法，常用于解决分类问题。

通过对已知分类的数据进行学习，再对未知数据进行分类。

判别分析方法的主要目标是确定一个或多个变量的线性组合，这个线性组合在不同类别中能够最大化差异，最小化类内差异。

这篇文章将介绍判别分析的基本概念、方法和应用，并对判别分析和其他分类方法进行比较。

一、判别分析的基本概念1.1判别分析的基本思想判别分析的基本思想是找到一个或多个线性组合，使得不同类别之间的差异最大化，同一类别内的差异最小化。

这个线性组合可以被用来将数据投影到一个低维空间，从而实现分类。

比如，对于二分类问题，找到一条直线将两类数据分开。

1.2判别分析的应用场景判别分析广泛应用于生物医学、社会科学、市场营销等领域。

比如，利用判别分析对患者进行分类，预测其疾病的风险；对消费者进行分类，预测其购买行为等。

1.3判别分析的假设判别分析方法通常有一些假设，比如多元正态性、同方差性和无相关性等。

如果这些假设不成立，可能会影响判别分析的结果。

二、判别分析的方法2.1线性判别分析（LDA）线性判别分析是判别分析中最常用的方法之一。

它通过找到一个或多个线性组合，使得不同类别之间的差异最大化，同一类别内的差异最小化。

在实际应用中，常常利用LDA来降维，然后使用简单的分类器进行分类。

2.2二次判别分析（QDA）二次判别分析是判别分析的一种扩展，它允许类别内的协方差不相等。

相比于LDA，QDA的分类边界更加灵活，但是通常需要更多的参数。

2.3特征抽取判别分析通常需要找到一个或多个变量的线性组合，这些变量通常被称为特征。

特征抽取是判别分析的一个重要步骤，它可以通过一些算法比如主成分分析（PCA）来实现。

特征抽取的目标是尽可能多地保留原始数据的信息，在降低维度的同时尽可能减少信息损失。

三、判别分析的应用3.1医学领域在医学领域，判别分析被广泛应用于疾病诊断、治疗方案选择等方面。

判别分析

判别分析(discriminant analysis)什么是判别分析判别分析产生于20世纪30年代，是利用已知类别的样本建立判别模型，为未知类别的样本判别的一种统计方法。

近年来，判别分析在自然科学、社会学及经济管理学科中都有广泛的应用。

判别分析的特点是根据已掌握的、历史上每个类别的若干样本的数据信息，总结出客观事物分类的规律性，建立判别公式和判别准则。

当遇到新的样本点时，只要根据总结出来的判别公式和判别准则，就能判别该样本点所属的类别。

判别分析按照判别的组数来区分，可以分为两组判别分析和多组判别分析。

判别分析的方法判别分析(Discriminatory Analysis)的任务是根据已掌握的１批分类明确的样品，建立较好的判别函数，使产生错判的事例最少，进而对给定的1个新样品，判断它来自哪个总体。

根据资料的性质，分为定性资料的判别分析和定量资料的判别分析；采用不同的判别准则，又有费歇、贝叶斯、距离等判别方法。

费歇（FISHER）判别思想是投影，使多维问题简化为一维问题来处理。

选择一个适当的投影轴,使所有的样品点都投影到这个轴上得到一个投影值。

对这个投影轴的方向的要求是：使每一类内的投影值所形成的类内离差尽可能小，而不同类间的投影值所形成的类间离差尽可能大。

贝叶斯（BAYES）判别思想是根据先验概率求出后验概率，并依据后验概率分布作出统计推断。

所谓先验概率,就是用概率来描述人们事先对所研究的对象的认识的程度；所谓后验概率，就是根据具体资料、先验概率、特定的判别规则所计算出来的概率。

它是对先验概率修正后的结果。

距离判别思想是根据各样品与各母体之间的距离远近作出判别。

即根据资料建立关于各母体的距离判别函数式，将各样品数据逐一代入计算，得出各样品与各母体之间的距离值，判样品属于距离值最小的那个母体。

例：世界经济统计研究(1995年)人文指数反映国家综合水平人文发展指数是联合国开发计划署于1990年5月发表的第一份《人类发展报告》中公布的。

判别分析

1 t xi xki t k 1
i 1,2,..., n
则对于任一点X(x1, x2, …, xn) ，定义它与总体G的Mahalanobis距离为：
d 2 ( X , G ) ( X X )S 1 ( X X )
Discriminant analysis 其中，矩阵S＝(sij)n×n为：
G2
x1 平面上两类数据训练样本的散点图
（两组数据样本在平面上存在一个合理的分界线L）
Discriminant analysis
已知：数据属性有n个，每个数据点为n维向量X：
X ( x1 , x2 ,..., xn )
已知总体数据分为两类： G1和G2 ，总体G1有p个样本点，总体G2有q 个样本点。属 1
s s ... s (1) n1
(1) 11 (1) 21
s
s ...
(1) 12 (1) 22
... ... ... ...
(1) sn 2
s ... (1) snn s
(1) 1n (1) 2n
x1 x1(1) (1) x2 x2 ... x x (1) n n
多类总体的距离判别
已知：考虑具有n个属性的m类总体Gl ( l = 1, 2, …, m) ，每类总体已知 tl (l=1, 2, …, m)个训练样本：
(1) (1) x11 x12 (1) (1) x21 x22 ... ... (1) (1) xt11 xt1 2
... ... ... ...
1 t sij ( xki xi )( xkj x j ) t 1 k 1
i, j 1,2,..., n

统计学习理论中的判别分析

统计学习理论中的判别分析一、引言统计学习理论是机器学习领域的重要理论之一，在实际应用中广泛使用。

判别分析作为统计学习理论的重要组成部分，被用于解决分类问题、回归问题以及降维问题。

本文将介绍统计学习理论中的判别分析的概念、原理和实际应用。

二、判别分析的定义判别分析，即Discriminant Analysis，是指利用统计学习的方法，通过对已知类别的样本进行学习建模，从而对未知样本进行分类、回归或降维的过程。

判别分析的目标是找到一个决策边界，使得同一类别内的样本尽量相似，不同类别之间的样本尽量不相似。

三、判别分析的原理判别分析的原理建立在统计学和概率论基础之上。

常见的判别分析方法包括线性判别分析（Linear Discriminant Analysis, LDA）、二次判别分析（Quadratic Discriminant Analysis, QDA）和支持向量机（Support Vector Machines, SVM）等。

1. 线性判别分析（LDA）线性判别分析是一种经典的判别分析方法，它通过寻找一个投影方向，使得同一类别内样本的投影尽量接近，而不同类别之间的样本的投影尽量远离。

LDA主要包含以下几个步骤：（1）计算各个类别的均值向量和协方差矩阵；（2）计算类间散度矩阵和类内散度矩阵；（3）计算投影方向的特征值和特征向量；（4）选择前k个特征值对应的特征向量作为投影方向。

2. 二次判别分析（QDA）二次判别分析是线性判别分析的一种推广，它假设不同类别的样本具有不同的协方差矩阵，而不仅仅是相同的协方差矩阵。

因此，QDA在处理非线性分类问题时更具优势。

QDA的步骤与LDA类似，只是在计算投影方向时考虑到了协方差矩阵的差异。

3. 支持向量机（SVM）支持向量机是一种非常强大的判别分析方法，它通过寻找一个超平面将样本进行划分，并且最大化分类边界与最近样本点之间的距离。

SVM可以处理非线性分类问题，并且具有良好的泛化性能。

第十四章判别分析DiscriminantAnalysis

1 49 2.00 191 1.5 12.25 235.40 52.50 417.57 78.5 27.43 A1
2 49 2.00 191 1.2 13.50 225.15 52.00 391.20 78.5 46.69 A1
3 63 4.00 200 1.0 14.25 318.92 53.25 616.35 77.5 35.38 A1
观察131例糖尿病患者,要求其患眼无其他明显眼前段疾患, 眼底无明显其他视网膜疾病和视神经、葡萄膜等疾患,测定了他们的以上各指标值,并根据统一标准诊断其疾患类型,记分类指标名为group.见表14.2.<表中仅列出前5例>. 试以此为训练样本, 仅取age,vision,at,bv和qpv 5项指标, 求分类函数, 并根据王××的信息: 38岁, 视力1.0, 视网膜电图at=14.25, bv=383.39, qpv=43.18判断其视网膜病变属于哪一型.
<三>. 事前概率
事前概率〔prior probability〕又称先验概率.如在所研究的总体中任取一个样品,该样品属于第f类别的概率为q<yf>,则称它为类别f的事前概率.例如, 阑尾炎病人总体中卡他性占50％,蜂窝织炎占30％,坏疽性占10％,腹膜炎占10％; 则在该总体中任取一个阑尾炎病人,该病人属于以上四型的概率分别为 0.5,0.3,0.1和0.1, 它们也分别是这四类的事前概率.
以王××的观察值代入分类函数, 得 Y1=-181.447+0.473×38+60.369×1.0+17.708×14.25
+0.048×383.39+0.364×43.18 =183.36 同样可算得： Y2＝180.58, Y3＝179.66 其中最大者为Y1, 故判断为轻度病变.

判别分析

18
22 18 16
53 37 15 2 … … … … 48 31 16 2
58 26 40 12 … … … … 54 30 45 15
110 73 29 63 18 … … … … … 150 62 34 54 23
三类的均向量和协方差矩阵
第一类
x1 x2 x3
均数
协方差矩阵
1.63551020 1.16979592 3.01591837 1.03306122 0.92979592 0.60693878
VW =
16.75142857 3.84013605
齐性检验及类的可分性
• 三类的协方差矩阵的齐性检验
2=140.943050， = 20， P＜0.0001 • 三类间的马氏距离及均向量的假设检验相比较的两 D2 F 类
P 0.0000 0.0000 0.0000
一与二一与三二与三
89.86419 179.38471 17.20107
判别分析
判别
• 有一些昆虫的性别很难看出，只有通过解剖才能够判别； • 但是雄性和雌性昆虫在若干体表度量上有些综合的差异。于是统计学家就根据已知雌雄的昆虫体表度量（这些用作度量的变量亦称为预测变量）得到一个标准，并且利用这个标准来判别其他未知性别的昆虫。 • 这样的判别虽然不能保证百分之百准确，但至少大部分判别都是对的，而且用不着杀死昆虫来进行判别了。
距离判别法
距离判别
• 按就近原则归类！
• 判别准则(discriminate criterion)可写成：
– X G 1， – X G 2， – X 待判，如果D(X,G1)<D(X,G2) 如果D(X,G1)>D(X,G2) 如果D(X,G1)=D(X,G2)

判别分析

判别分析discriminant analysis什么是判别分析)某些昆虫的性别只有通过解剖才能够判别)但雄性和雌性昆虫在若干体表度量上有些综合的差异。

人们就根据已知雌雄的昆虫体表度量（这些用作度量的变量亦称为预测变量）得到一个标准，并以此标准来判别其他未知性别的昆虫。

)这样虽非100%准确的判别至少大部分是对的，而且用不着杀生。

这就是判别分析判别分析利用已知类别的样本培训模型，为未知样本判类的一种统计方法。

它产生于本世纪30年代。

近年来，在自然科学、社会学及经济管理学科中都有广泛的应用。

判别分析的特点是根据已掌握的、历史上每个类别的若干样本的数据信息，总结出客观事物分类的规律性，建立判别公式和判别准则。

然后，当遇到新的样本点时，只要根据总结出来的判别公式和判别准则，就能判别该样本点所属的类别。

判别分析与聚类的区别)判别分析和聚类分析都是分类.)在聚类分析中，人们一般事先并不知道应该分成几类及哪几类，全根据数据确定。

)但在判别分析中，至少有一个已经明确知道类别的“训练样本”，并利用该样本来建立判别准则，并通过预测变量来为未知类别的观测值进行判别了。

)可以先聚类以得知类型,再进行判别.判别分析的前提假设)多元正态分布¾才可以精确计算显著性检验和分组归属的概率)各组案例的协方差阵相等¾这样就可以简单方便地计算判别函数并进行显著性检验)各组间均值有显著差异)不存在病态矩阵问题¾即每一个判别变量不能是其他变量的线性组合，变量间无高度相关无多重共线性问题)可通过判别前的描述统计量来分析判别分析的方法)距离判别法)典型判别(Fisher判别)法)逐步判别法)贝叶斯判别法（略）1. 根据距离判别的思想)示例数据有4个用来建立判别标准(或判别函数)的(预测)变量,另一个(group)是类别)每一个企业的打分在这4个变量所构成的4维空间中是一个点。

这个数据在4维空间有39个点已知其类别，可以用这些求得每个类型的中心。

判别分析

举例假定只有两类。假定只有两类。数据中的每个观测值是二维空间的一个点。见图。值是二维空间的一个点。见图。这里只有两种已知类型的训练样本。这里只有两种已知类型的训练样本。一类有38个点个点(用表示),另一一类有个点用“o”表示另一表示类有44个点个点(用类有个点用“*”表示。按原 ”表示)。来变量(横坐标和纵坐标，很难将来变量横坐标和纵坐标)，横坐标和纵坐标这两种点分开。于是就寻找一个方这两种点分开。即图上的虚线方向，向，即图上的虚线方向，沿该方向朝和这个虚线垂直的一条直线进行投影会使得这两类分得最清楚。投影会使得这两类分得最清楚。可以看出，如果向其他方向投影，以看出，如果向其他方向投影，判别效果不会比这个好。别效果不会比这个好。有了投影之后，有了投影之后，再用前面讲到的距离远近的方法得到判别准则。离远近的方法得到判别准则。这种先投影的判别方法就是Fisher判先投影的判别方法就是判别法。别法。

因变量：分组变量（）。分组类型在两因变量：分组变量（grouping variable）。分组类型在两）。种以上。种以上。自变量：自变量：用以分组的其他特征变量称为判别变量（discriminant variable）或称为预测变量。各判别变量的）或称为预测变量。测度水平在间距测度等级以上。测度水平在间距测度等级以上。案例：案例：用来建立判别函数的数据叫做案例 a每组案例的规模必须至少在一个以上每组案例的规模必须至少在一个以上 b各分组的案例在各判别变量的数值上能够体现差别各分组的案例在各判别变量的数值上能够体现差别 c一般来说，要求案例数量（n）比变量的个数（k）多两个，一般来说，一般来说要求案例数量（）比变量的个数（）多两个，而对判别变量的个数没有限制。而对判别变量的个数没有限制。

判别分析(数学建模)资料讲解

Unstandardized coefficients
Function 1
.035 3.283 .037 -.007 .068 -.023 -.385 -3.166
2 .005 .567 .041 .012 .048 .044 -.159
-4.384
根据这两个函数，从任何一个观测值（每个观测值都有 7个变量值）都可以算出两个数。把这两个数目当成该观测值的坐标，这样数据中的150个观测值就是二维平面上的150个点。它们的点图在下面图中。
Disc.sav例子
利用SPSS软件的逐步判别法淘汰了不显著的流动资金比例(cp)，还剩下七个变量is，se，sa，prr， ms ， msr ， cs ，得到两个典则判别函数（Canonical Discriminant Function Coefficients）：
0.035IS+3.283SE+0.037SA-0.007PRR+0.068MS-0.023MSR-0.385CS-3.166 0.005IS+0.567SE+0.041SA+0.012PRR+0.048MS+0.044MSR-0.159CS-4.384
Disc.sav数据
根据距离的判别（不用投影）
Disc.sav数据有8个用来建立判别标准(或判别函数)的（预测）变量，另一个（group）是类别。因此每一个企业的打分在这8个变量所构成的8维空间中是一个点。这个数据有90个点，由于已经知道所有点的类别了，所以可以求得每个类型的中心。这样只要定义了如何计算距离，就可以得到任何给定的点（企业）到这三个中心的三个距离。显然，最简单的办法就是离哪个中心距离最近，就属于哪一类。通常使用的距离是所谓的 Mahalanobis距离。用来比较到各个中心距离的数学函数称为判别函数(discriminant function).这种根据远近判别的方法，原理简单，直观易懂。

判别分析

经检验计算， F=33.18 > F0.01(7,16)=4.03，判别函数有实际价值。
4. 费歇尔（Fisher）准则多级判别
4.1 概念

多总体Fisher判别法，与两总体Fisher判别法类似。判别法类似总样本容量为n、含m个变量的资料划分为G类，每类的样本容量为n1, n2, … ，ng，且n＝n1＋n2＋…＋ ng。线性判别函数基本表达式为：
z
费歇尔判别法基本特征：

线性判别基本思路－类间距离最大、类内距离最小的原则确定线性判别函数，再根据建立的线性判别函数判定待判样品的类别。
z
Fisher判别法1936年提出，对总体的分布并无特定要求。费歇尔准则二级判别：只划分成两类的费歇尔判别。
z
例：某气象站根据2个前期变量预报第二天是晴天还是雨天。两个变量为：24小时的气压差（x1）、温度露点差（x2）。 ① 据经验，当x1和x2大时，第二天晴天；当x1和x2小时，第二天雨天。以线性组合函数y： y=c1x1 + c2x2

1.3 判别分析的种类
① 按判别的组数：两组判别和多组判别； ② 按区分不同总体所用的数学模型：线性判别和非线性判别； ③ 按对参与分析变量的处理方法：逐步判别；非逐步判别。 ④ 按判别准则不同：距离判别；费歇尔(Fisher)判别；贝叶斯（Bayes）判别。
2 距离判别

基本思想
① 根据已知分类的数据，分别计算各类的重心即分组（类）的均值 ② 判别准则是对任给的一次观测，若它与第i类的重心距离最近，就认为它来自第i类。
所以判别函数为
判别函数为： y = 0.0815375 x1 + 0.001525 x2 + 0.00109125 x3

1、下载文档前请自行甄别文档内容的完整性，平台不提供额外的编辑、内容补充、找答案等附加服务。
2、"仅部分预览"的文档,不可在线预览部分如存在完整性等问题,可反馈申请退款(可完整预览的文档不适用该条件!)。
3、如文档侵犯您的权益，请联系客服反馈,我们会尽快为您处理(人工客服工作时间：9:00-18:30)。

第十四章判别分析
(Discriminant Analysis)
上海第二医科大学生物统计教研室
第一节判别分析的基本概念
1.什么是判别分析判别分析是根据观测到的某些指标对所研
究的对象进行分类的一种多元统计分析方法。在医学研究中经常遇到这类问题；例如, 临床上常需根据就诊者的各项症状、体征、实验室检查、病理学检查及医学影像学资料等对其作出是否有某种疾病的诊断或对几种可能患有的疾病进行鉴别诊断，有时已初步诊断为某种疾病，还需进一步作出属该类疾病中哪一种或哪一型的判断。
DISCRIM过程可得到这些参数的估计值。判别
函数建立后通常的判别准则为：如欲判断某样
品属于上述g类中的哪一类，可将该样品的各Xi 值代入式(17.1)中的各个方程，分别算出Y1， Y2，……，Yg等值。其中如Yf为最大则意味着该样品属第f类的概率最大，故判它属于第f类。
(三). 事前概率
事前概率（prior probability）又称先验概率。如在所研究的总体中任取一个样品，该样品属于第f类别的概率为q(yf)，则称它为类别f的事前概率。例如，阑尾炎病人总体中卡他性占50％，蜂窝织炎占30％，坏疽性占10 ％，腹膜炎占10％; 则在该总体中任取一个阑尾炎病人，该病人属于以上四型的概率分别为 0.5，0.3，0.1和0.1, 它们也分别是这四类的事前概率。
（5）logistic判别常用于两类间判别。它不要求多元正态分布的假设，故可用于各指标为两值变量或半定量的情况。
第二节 Bayes判别分析
(一). Bayes准则
设有定义明确的g个总体π 1,π 2,…,π g, 分别为 X1,X2,…,Xp的多元正态分布。对于任何一个个体, 若已知p个变量的观察值,要求判断该个体最可能属于哪一个总体。如果我们制订了一个判别分类规则, 难免会发生错分现象。把实属第i类的个体错分到第j类的概率记为 P(j｜i),这种错分造成的损失记为C(j｜i)。 Bayes判别准则就是平均损失最小的准则。按照这个准则去找一种判别分类的规则,就是Bayes判别。
（2）收集数据，得到训练样本
对于若干已明确诊断为癌症的110个病人和无癌症的 190个正常人均用显微分光光度计对细胞进行检测，得到 X1，X2和X3的值。这就是训练样本。
例号 X1
X2
X3
Y（类别）
1
1
2
2
0
2
2
5
6
1
。。。。。。
300
3
3
3
0
（3）用判别分析方法得到判别函数
根据实测资料(训练样本)用判别分析方法可建立判别函数，本例用Fisher判别分析方法得到:
Y=X1+10X2+10X3
并确定判别准则为: 如有某病人的X1,X2,X3实测值，代入上述判别函数可得Y值，Y>100则判断为癌症，Y<100则判断为非癌症。
（4）考核
该判别函数是否有实用价值还需要进行考核;如考核的结果，其诊断符合率达到临床要求则可应用于实践。
回顾性考核（组内考核）
前瞻性考核（组外考核）
(二). 分类函数（g个类别，p个指标） Bayes准则下判别分析的分类函数形式如下：
Y1=C01+C11X1+C21X2+……+Cp1Xp Y2=C02+C12X1+C22X2+……+Cp2Xp
………… Yg=C0g+C1gX1+C2gX2+……+CpgXp
即g个线性函数的联立方程，每个线性函数对应于某一类别。其中C0j，C1j，……，Cpj，（j=1,2,……,g）为需估计的参数。用SAS的
（1）有无某种疾病例：计算机用于胃癌普查，用于中风预报。（2）疾病的鉴别诊断例：计算机用于对肺癌，肺结核和肺炎进行鉴别诊断。（3）患有某疾病中的哪一种或哪一型例：鉴别诊断单纯性或绞窄性肠梗阻。
鉴别诊断阑尾炎中的卡他性，蜂窝织炎，坏疽性和腹膜炎。
用一个实例来说明判别分析的基本思想
2. 判别分析步骤欲用显微分光光度计对病人细胞进行检查以判断病人是否患有癌症。（1）根据研究目的确定研究对象（样本）及所用指标例：110例癌症病人和190例正常人。指标：X1，X2和X3。 X1: 三倍体的得分，X2: 八倍体的得分，X3: 不整倍体的得分。（0-10分）
得到总符合率，特异性，敏感性，假阳性率和假阴性率。
（5）实际应用未知类别样品的判别归类。
如有某病人，用显微分光光度计对其细胞进行检测，得到X1，X2和X3的值。将X1,X2,X3值，代入判别函数
Y=X1+10X2+10X3; 可得Y值，Y>100则判断为癌症，Y<100则判断为非癌症。
判别分析的一般步骤
（2）Fisher判别分析用于两类或两类以上间判别，但常用于两类间判别，上例中应用的就是Fisher判别分析方法。
（3）Bayes判别分析用于两类或两类以上间判别，要求各类内指标服从多元正态分布。
（4）逐步判别分析建立在Bayes判别分析基础上，它象逐步回归分析一样,可以在众多指标中挑选一些有显著作用的指标来建立一个判别函数, 使方程内的指标都有显著的判别作用而方程外的指标作用都不显著。
训练样本的数据内容与符号
───────────────────────────────────
解释变量
个体号 ─────────────────────── 类别变量(Y)
X1
X2
…
Xj
…
XP
───────────────────────────────────
1
X11
X12
…
X1j
…
X1P
y1
2
已知分类的训练样本
判别分析方法
判别函数

建立判别准则
考核
未知样品判别归类
判别分析通常都要建立一个判别函数，然后利用此判别函数来进行判别。为了建立判别函数就必须有一个训练样本。判别分析的任务就是向这份样本学习, 学出判断类别的规则, 并作多方考核。训练样本的质量与数量至为重要。每一个体所属类别必须用“金标准”予以确认; 解释变量（简称为变量或指标） X1,X2,…, Xp必须确实与分类有关; 个体的观察值必须准确;个体的数目必须足够多。
X22
X22
…
X2j
…
X2P
y2
…
……
……
…
…
…
i
Xi1
Xi2
…
Xij
…
XiP
y3
…
………
…
…
…
…
n
Xn1
Xn2
…
Xnj
…
XnP
yP
────────────────────────────────────
判别分析常用方法
（1）最大似然法该法是建立在概率论中独立事件乘法定律的基础上，适用于各指标是定性的或半定量的情况。