判别分析(第4节_Fisher判别法)
Fisher判别分析原理详解

Fisher判别分析原理详解说起Fisher判别分析,不得不提到一个大神级人物!Ronald Aylmer Fisher (1890~1962)英国统计学家和遗传学家主要著作有:《根据孟德尔遗传方式的亲属间的相关》、《研究者用的统计方法》、《自然选择的遗传理论》、《试验设计》、《近交的理论》及《统计方法和科学推理》等。
他一生在统计生物学中的功绩是十分突出的。
•生平1890年2月17日生于伦敦,1962年7月29日卒于澳大利亚阿德莱德。
1912年毕业于剑桥大学数学系,后随英国数理统计学家J.琼斯进修了一年统计力学。
他担任过中学数学教师,1918年任罗坦斯泰德农业试验站统计试验室主任。
1933年,因为在生物统计和遗传学研究方面成绩卓著而被聘为伦敦大学优生学教授。
1943年任剑桥大学遗传学教授。
1957年退休。
1959年去澳大利亚,在联邦科学和工业研究组织的数学统计部作研究工作。
大神解决的问题•Fisher 线性判别函数的提出:在用统计方法进行模式识别时,许多问题涉及到维数,在低维空间可行的方法,在高维空间变得不可行。
因此,降低维数就成为解决实际问题的关键。
Fisher 的方法,就是解决维数压缩问题。
对xn的分量做线性组合可得标量yn=wTxn,n=1,2,…,Ni得到N个一维样本yn组成的集合。
从而将多维转换到了一维。
考虑把d维空间中的数据点投影到一条直线上去的问题,需要解决的两个问题:(1)怎样找到最好的投影直线方向;(2)怎样向这个方向实现投影,这个投影变换就是要寻求的解向量w*。
这两个问题就是Fisher方法要解决的基本问题。
•判别分析的一些基本公式Fisher判别分析用于两类或两类以上间的判别,但常用于两类间判别。
Fisher判别函数表达式(多元线性函数式):判别函数的系数是按照组内差异最小和组间差异最大同时兼顾的原则来确定判别函数的。
Fisher判别准则:判别临界点:Fisher判别分析思想:1. 类间差异大,类内变异小,最大2. 方差分析的思想:以下值最大•Fisher判别的原理分析w1方向之所以比w2方向优越,可以归纳出这样一个准则,即向量w的方向选择应能使两类样本投影的均值之差尽可能大些,而使类内样本的离散程度尽可能小。
4-3_Fisher判别

3
13 44.12 15.02 1.08 15.15 103.12 64.8
3
14 54.17 25.03 2.11 25.15 110.14 63.7
3
15 28.07 2.01 0.07 3.02 81.22 68.3
3
待判 50.22 6.66 1.08 22.54 170.6 65.2
.
待判 34.64 7.33 1.11 7.78 95.16 69.3
在此最大特征值所对应的特征向量这里值得注意的是本书有几处利用极值原理求极值时只给出了不要条件的数学推导而有关充分条件的论证省略了因为在实际问题中往往根据问题本身的性质就能肯定有最大值或最小值如果所求的驻点只有一个这时就不需要根据极值存在的充分条件判定它是极大还是极小而就能肯定这唯一的驻点就是所求的最大值或最小值
从而, uBu 的极大值为 。再用 E1 左乘(4.25)式,有
(E1B I)u 0
( 4.27)
由(4.27)式说明 为 E1B 特征值, u 为 E1B 的特征向量。在此
最大特征值所对应的特征向量 u (u1, u2 ,, u p ) 为我们所求结果。
这里值得注意的是,本书有几处利用极值原理求极值时,只
函数后,对于一个新的样品,将它的 p 个指标值代入线性 判别函数(4.19)式中求出U (X) 值,然后根据判别一定
的规则,就可以判别新的样品属于哪个总体。
二、Fisher判别函数的构造
1、针对两个总体的情形
假设有两个总体 G1, G2 ,其均值分别为 μ1 和 μ 2 ,协方差矩阵为 Σ1 和 Σ 2 。当 X Gi 时,我们可以求出 uX 的均值和方差,即
令
k
b (uμi uμ)2 i 1
fisher判别的基本步骤

Fisher判别是一种基于线性判别分析的分类方法,用于将样本分为不同的类别。
其基本步骤如下:
1. 确定判别变量:首先需要确定用于判别的变量,即用于分类的特征。
2. 计算判别函数:根据样本数据,计算出判别函数,即用于将样本分为不同类别的函数。
3. 确定判别类别:根据判别函数,将样本分为不同的类别。
4. 计算判别准确率:计算分类准确率,即正确分类的样本数与总样本数之比。
5. 优化判别函数:根据判别准确率,调整判别函数,以提高分类准确率。
6. 重复步骤3~5:重复以上步骤,直到达到所需的分类准确率。
在Fisher判别中,判别函数是基于Fisher线性判别的,即对于每个类别,计算出一个线性函数,使得属于该类别的样本与属于其他类别的样本的距离最大化。
这个过程可以通过矩阵运算和求导来实现。
总之,Fisher判别是一种基于线性判别分析的分类方法,其基本步骤包括确定判别变量、计算判别函数、确定判别类别、计算判别准确率、优化判别函数和重复步骤3~5,直到达到所需的分类准确率。
简述fisher判别的基本思想

简述fisher判别的基本思想一、关于fisher判别在零和博弈的环境下,当各自利益都为零时,会做出什么选择?其中,局中人A是指在与B的交易中获得好处的人,而B则指因此而损失的人。
不管从哪一个角度考虑,局中人A都不会自己吃亏,他一定会想办法将自己的损失补偿给对方。
因此,从A到B的行动是单方面的。
为了对这种行动作出客观评价,我们假定: 1、局中人A 获得正收益; 2、局中人B获得负收益。
在这样的背景下,博弈方应该如何评价局中人A的行为?这就需要引入一个分析工具——fisher判别法。
fisher判别方法要求:每个局中人都会选择和自己利益最大化相等的行动,而不管别人如何。
因此,一个局中人的行动仅仅取决于它对另一个局中人所得利益的期望。
因为B的利益和A的利益总是相等的,即B的收益为-0,因此B的行动对A而言无关紧要。
如果局中人A的行动对B来说有很大影响,那么即使B不采取任何行动,也能够保证A自己的利益最大化,那么它也会采取一些行动。
fisher分析是解决寡头垄断的重要手段。
上世纪70年代以前,荷兰的壳牌公司(荷兰皇家石油公司)是唯一一家占有全国市场的企业。
通过在全国建立广泛的销售网络,荷兰皇家石油公司控制了几乎全部的石油产品市场。
为了反击荷兰皇家石油公司对竞争者的排挤,其他公司纷纷效仿荷兰皇家石油公司,设立全国性销售网络,实现地区范围内的联合销售,并在若干个城市设立销售公司。
这样,一个庞大的跨地区石油销售网络就形成了,而原先各企业各自为战的情况也逐渐改变,甚至消失。
荷兰皇家石油公司从独霸市场到“共存共荣”,完全是由于fisher分析技术的发展。
可见, fisher分析方法的实质是:在一个竞争性环境中,博弈各方最优决策问题可表述为:对于各博弈方而言,如何做出各自最优的个人决策?fisher分析主要适用于零和博弈情形。
如果存在多个纳什均衡点,但这些均衡点没有明显的共同点,而是由局中人的个人偏好、资源约束和实际可能达成的结果共同决定的。
统计分析及R语言建模(判别分析)

(1.5)
这里称W (X) 为两总体距离判别的判别函数,由于它是 X 的线性
函数,故又称为线性判别函数, α 称为判别系数。
在实际应用中,总体的均值和协方差矩阵一般是未知的,可由样
本均值和样本协方差矩阵分别进行估计。设
X(1) 1
,
,
X(1) n1
来自总
体
G1
的样本,
X(2) 1
,
,
X(2) n2
是来自总体
值个分总别体是。1和 2,对于一个新的样品X,要判断它来自哪 一般的想法是计算新样品X到两个总体的马氏距离D2(X,
G1)和D2(X,G2),并按照如下的判别规则进行判断
这GXX2个的判距GG别离12,,规之则差如如的,果果等如价果描其DD述22值((XX为为,,G:G正11求)),新XDD属样22(于(品XXG,X,GG2到;22))G否1的则距X(属离1于与.3G)到1。
所谓判别分析法就是在已知分类的条件下, 一旦遇到新的样品,可以利用此法选定判 别标准,以判定将该新样品放置于哪个类 中。
判别分析的理论基础是根据观测到的某些 指标的数据,对所研究的对象建立判别函 数,并进行分析的一种多变量分析方法。
判断分析按判别的总体数来区分,有两个总体判 别分析和多总体判别分析;
按区分不同总体所用的数学模型来分,有线性判 别和非线性判别;
按判别时所处理变量方法不同,有逐步判别和序 贯判别等。
判别分析可以从不同角度提出问题,因此有不同 的判别准则,如马氏距离最小准则、Fisher准则、 平均损失最小准则、最小平方准则、最大似然准 则、最大概率准则等等,按判别准则的不同又提 出多种判别方法。
我们考虑
D2 (X, G1) D2 (X, G2 )
Fisher线性判别分析实验报告

Fisher 线性判别分析实验报告一、摘要Fisher 线性判别分析的基本思想:通过寻找一个投影方向(线性变换,线性组合),将高维问题降低到一维问题来解决,并且要求变换后的一维数据具有性质:同类样本尽可能聚集在一起,不同类样本尽可能地远。
Fisher 线性判别分析,就是通过给定的训练数据,确定投影方向w 和阈值y0,即确定线性判别函数,然后根据这个线性判别函数,对测试数据进行测试,得到测试数据的类别。
二、算法的基本原理及流程图1 基本原理 (1) W 的确定各类样本均值向量 mi样本类内离散度矩阵iS 和总类内离散度矩阵wS12wS S S =+样本类间离散度矩阵bS在投影后的一维空间中,各类样本均值 T i i m '= W m样本类内离散度和总类内离散度 T T i i w w S ' = W S W S ' = W S W样本类间离散度 T b b S ' = W S WFisher 准则函数满足两个性质:投影后,各类样本内部尽可能密集,即总类内离散度越小越好。
T x S (x m)(x m ), 1,2iiii X i ∈=--=∑T 1212S (m m )(m m )b =--投影后,各类样本尽可能离得远,即样本类间离散度越大越好。
根据这个性质确定准则函数,根据使准则函数取得最大值,可求出w -1W = S(m - m)w12(2)阈值的确定实验中采取的方法:y = (m' + m') / 2012(3) Fisher线性判别的决策规则对于某一个未知类别的样本向量 x,如果y = W T x >y0, 则x∈w1否则x∈w22流程图方差标准化 (归一化处理)一个样本集中,某一个特征的均值与方差为:归一化:1 男女同学身高体重,训练数据和测试数据都是50当采用StudentData1作为训练数据,StudnetData2作为测试数据时当采用StudnetData2作为训练数据,StudentData2作为测试数据时2IonoSphere数据考虑到第一组数据训练数据多,下面的实验以第一组数据的训练数据作为训练数据,分别用其他组的测试数据进行测试从实验结果看,Fisher线性判别用于两类的判别决策时,拥有不错的效果,并且当有足量的训练数据时,效果更好。
fisher判别函数

Fisher判别函数,也称为线性判别函数(Linear Discriminant Function),是一种经典的模式识别方法。
它通过将样本投影到一维或低维空间,将不同类别的样本尽可能地区分开来。
一、算法原理:Fisher判别函数基于以下两个假设:1.假设每个类别的样本都服从高斯分布;2.假设不同类别的样本具有相同的协方差矩阵。
Fisher判别函数的目标是找到一个投影方向,使得同一类别的样本在该方向上的投影尽可能紧密,而不同类别的样本在该方向上的投影尽可能分开。
算法步骤如下:(1)计算类内散度矩阵(Within-class Scatter Matrix)Sw,表示每个类别内样本之间的差异。
Sw = Σi=1 to N (Xi - Mi)(Xi - Mi)ᵀ,其中Xi 表示属于类别i 的样本集合,Mi 表示类别i 的样本均值。
(2)计算类间散度矩阵(Between-class Scatter Matrix)Sb,表示不同类别之间样本之间的差异。
Sb = Σi=1 to C Ni(Mi - M)(Mi - M)ᵀ,其中 C 表示类别总数,Ni 表示类别i 中的样本数量,M 表示所有样本的均值。
(3)计算总散度矩阵(Total Scatter Matrix)St,表示所有样本之间的差异。
St =Σi=1 to N (Xi - M)(Xi - M)ᵀ(4)计算投影方向向量w,使得投影后的样本能够最大程度地分开不同类别。
w= arg max(w) (wᵀSb w) / (wᵀSw w),其中w 表示投影方向向量。
(5)根据选择的投影方向向量w,对样本进行投影。
y = wᵀx,其中y 表示投影后的样本,x 表示原始样本。
(6)通过设置一个阈值或使用其他分类算法(如感知机、支持向量机等),将投影后的样本进行分类。
二、优点和局限性:Fisher判别函数具有以下优点:•考虑了类别内和类别间的差异,能够在低维空间中有效地区分不同类别的样本。
(完整版)判别分析中Fisher判别法的应用

1 绪论1.1课题背景随着社会经济不断发展,科学技术的不断进步,人们已经进入了信息时代,要在大量的信息中获得有科学价值的结果,从而统计方法越来越成为人们必不可少的工具和手段。
多元统计分析是近年来发展迅速的统计分析方法之一,应用于自然科学和社会各个领域,成为探索多元世界强有力的工具。
判别分析是统计分析中的典型代表,判别分析的主要目的是识别一个个体所属类别的情况下有着广泛的应用。
潜在的应用包括预测一个公司是否成功;决定一个学生是否录取;在医疗诊断中,根据病人的多种检查指标判断此病人是否有某种疾病等等。
它是在已知观测对象的分类结果和若干表明观测对象特征的变量值的情况下,建立一定的判别准则,使得利用判别准则对新的观测对象的类别进行判断时,出错的概率很小。
而Fisher判别方法是多元统计分析中判别分析方法的常用方法之一,能在各领域得到应用。
通常用来判别某观测量是属于哪种类型。
在方法的具体实现上,采用国内广泛使用的统计软件SPSS(Statistical Product and Service Solutions),它也是美国SPSS公司在20世纪80年代初开发的国际上最流行的视窗统计软件包之一1.2 Fisher判别法的概述根据判别标准不同,可以分为距离判别、Fisher判别、Bayes判别法等。
Fisher 判别法是判别分析中的一种,其思想是投影,Fisher判别的基本思路就是投影,针对P维空间中的某点x=(x1,x2,x3,…,xp)寻找一个能使它降为一维数值的线性函数y(x):()j j xy=x∑C然后应用这个线性函数把P维空间中的已知类别总体以及求知类别归属的样本都变换为一维数据,再根据其间的亲疏程度把未知归属的样本点判定其归属。
这个线性函数应该能够在把P维空间中的所有点转化为一维数值之后,既能最大限度地缩小同类中各个样本点之间的差异,又能最大限度地扩大不同类别中各个样本点之间的差异,这样才可能获得较高的判别效率。
- 1、下载文档前请自行甄别文档内容的完整性,平台不提供额外的编辑、内容补充、找答案等附加服务。
- 2、"仅部分预览"的文档,不可在线预览部分如存在完整性等问题,可反馈申请退款(可完整预览的文档不适用该条件!)。
- 3、如文档侵犯您的权益,请联系客服反馈,我们会尽快为您处理(人工客服工作时间:9:00-18:30)。
第一节 第二节 第三节 第四节 第五节
绪论 距离判别法 贝叶斯判别法 Fisher判别法 判别效果检验问题
第三节 贝叶斯(BAYES)判别法
■
多元正态总体的贝叶斯判别法
设 Gi ~ N p ( (i ) , i )(i 1,2,, k ) ,并假定错判损失相等,先 验概率 q1 , q2 ,, qk ,有时先验概率确定起来不是很明 n qi i 确的,这时可用“样品频率”代替,即可令 。 n
第三节 贝叶斯(BAYES)判别法
其中 ( h ) , h 意义同前,已知后验概率为
P(Gh | x) qh f h ( x)
q f ( x)
i i i 1
k
由于上式中,分母部分为常数,所以有
P(Gh | x) max qh f h ( x) max
同时
1 1 qh f h ( x) qh (2 ) p / 2 | h |1/ 2 exp ( X ( h ) )h ( X (h) ) 2
* 故问题化简为 Z (Gh | x) max . h
ห้องสมุดไป่ตู้
注意:这里取对数可起到简化算式的作用,同时对数 函数是严格单调的,所以取对数不改变原问题的性质。
第三节 贝叶斯(BAYES)判别法
◆ 判别准则 下面分两种不同的情形考虑。
●
假设协方差阵都相等( 1 2 k )
2 2
exp[ y(G x]
i| i 1
k
注意:这意味着 P(Gh | x) max y(Gh | x) max
第三节 贝叶斯(BAYES)判别法
证明 因为 y(Gh | x) ln[qh f h ] ( x) ,其中 ( x) 是ln[ qh f h ]
中与下标h无关的项部分。所以
,k
y(Gh | x) max{ y(Gi | x)}
则把样品x归于第h个总体 Gh .
第三节 贝叶斯(BAYES)判别法
●
假设协方差阵 i (i 1, 2, , k ) 不全相等
①如果总体的所有协方差阵都已知,则有
ln qh f h ( x) C0 1 1 [2 ln qh ln | h | ( x ( h ) ) h ( x ( h ) )] 2 C0 Z h ( x),
h
h
第三节 贝叶斯(BAYES)判别法
令
Z (Gh | x) ln[qh f h ( x)] ln qh p 1 1 ln(2 ) ln | h | { 2 2 2 }
在上式中去掉与h 无关的项后,得到
1 1 1 1 1 ( h ) 1 ( h ) Z * (Gh | x) ln qh ln | h | xh x ( ( h ) )h xh 2 2 2
P(Gh | x)
qh f h
qh f
i 1
k
exp[ y (Gh | x) ( x)]
exp[ y(G | x) ( x)]
i i 1
k
exp[ y (Gh | x)] exp[( x)]
k i i 1
exp[ y(G | x)] exp[( x)] exp[ y(G | x)]
2
第三节 贝叶斯(BAYES)判别法
●
后验概率 P(Gh | x) 与判别函数 y(Gh | x)之间关系
做计算分类时,主要依据判别函数 y(Gh | x) 的值的大
小,但它毕竟不是后验概率 P(Gh | x) ,这是否影响分类 判别?下面我们看一下两者之间的联系。 结论3.1
P(Gh | x) exp[ y (Gh | x)]
i i 1
exp[ y (Gh | x)]
k
第三节 贝叶斯(BAYES)判别法
由此可知,使 y(Gh | x) 达到最大的h,亦可使 P(Gh | x) 达 到最大,因此判别方法是只需把样品指标值代入到判别式 中,分别计算如下k个值,即
y(Gh | x), h 1, 2,
并且若
1i k
第三节 贝叶斯(BAYES)判别法
这个判别函数也可写成线性函数形式,即
y(Gh | x) Ch 0 xCh ,
其中
1 Ch 0 ln qh ( ( h ) ) 1 ( h ) , 2 Ch 1 ( h ) (Ch1 , Ch 2 ,
def
, Chk )
当参数未知时,由样本计算第h个总体的样本均值
X ( h) (h 1, 2, , k ) 和合并样本协方差阵 1 S ( S1 S2 Sk ) nk
第三节 贝叶斯(BAYES)判别法
计算 ln qi fi ( x) 时 ,把样本均值和合并样本协方差阵
代入,即得贝叶斯判别解 D* {D1* , , Dk*}为
* Dh {x | y(Gh | x) y(G j | x), j h, j 1, 2,
, k} (h 1, 2,
, k)
其中 y(G j | x) C j 0 C j x ,并称 y(G j | x) 为线性判别函 def 数,而称Cj S 1 X ( j ) (C j1 , C j 2 , , C jk ) 为判别系数,同 时称 C j 0 ln q j 1 ( X ( j ) )S 1 X ( j ) 为常数项。
1 1 1 这时很容易看到, Z * (Gh | x) 中的 ln | h |, x x h
与 h都无关,故考虑最大值时都可去掉,得到最终判 别函数为(线性的)
1 ( h ) 1 ( h ) 1 ( h ) yh (Gh | x) ln qh 2 ( ) x , yh (Gh | x) max, h 1,2, , k h
◆ 判别函数的导出
qh 和密度函数 f 待判总体的先验概率
P元正态分布的密度函数为
要想确定后验概率,首先要知道
h
( x)
1 1 f h ( x) (2 ) p / 2 | h |1/ 2 exp ( X ( h ) ) h ( X ( h) ) 2