两组判别分析
判别分析

判别分析(discriminant analysis)什么是判别分析判别分析产生于20世纪30年代,是利用已知类别的样本建立判别模型,为未知类别的样本判别的一种统计方法。
近年来,判别分析在自然科学、社会学及经济管理学科中都有广泛的应用。
判别分析的特点是根据已掌握的、历史上每个类别的若干样本的数据信息,总结出客观事物分类的规律性,建立判别公式和判别准则。
当遇到新的样本点时,只要根据总结出来的判别公式和判别准则,就能判别该样本点所属的类别。
判别分析按照判别的组数来区分,可以分为两组判别分析和多组判别分析。
判别分析的方法判别分析(Discriminatory Analysis)的任务是根据已掌握的1批分类明确的样品,建立较好的判别函数,使产生错判的事例最少,进而对给定的1个新样品,判断它来自哪个总体。
根据资料的性质,分为定性资料的判别分析和定量资料的判别分析;采用不同的判别准则,又有费歇、贝叶斯、距离等判别方法。
费歇(FISHER)判别思想是投影,使多维问题简化为一维问题来处理。
选择一个适当的投影轴,使所有的样品点都投影到这个轴上得到一个投影值。
对这个投影轴的方向的要求是:使每一类内的投影值所形成的类内离差尽可能小,而不同类间的投影值所形成的类间离差尽可能大。
贝叶斯(BAYES)判别思想是根据先验概率求出后验概率,并依据后验概率分布作出统计推断。
所谓先验概率,就是用概率来描述人们事先对所研究的对象的认识的程度;所谓后验概率,就是根据具体资料、先验概率、特定的判别规则所计算出来的概率。
它是对先验概率修正后的结果。
距离判别思想是根据各样品与各母体之间的距离远近作出判别。
即根据资料建立关于各母体的距离判别函数式,将各样品数据逐一代入计算,得出各样品与各母体之间的距离值,判样品属于距离值最小的那个母体。
例:世界经济统计研究(1995年)人文指数反映国家综合水平人文发展指数是联合国开发计划署于1990年5月发表的第一份《人类发展报告》中公布的。
关于判别分析的理解

关于判别分析的理解判别分析⼜称“分辨法”,是在分类确定的条件下,根据某⼀研究对象的各种特征值判别其类型归属问题的⼀种多变量统计分析⽅法。
其基本原理是按照⼀定的判别准则,建⽴⼀个或多个判别函数,⽤研究对象的⼤量资料确定判别函数中的待定系数,并计算判别指标。
据此即可确定某⼀样本属于何类。
当得到⼀个新的样品数据,要确定该样品属于已知类型中哪⼀类,这类问题属于判别分析问题。
判别分析,是⼀种统计判别和分组技术,就⼀定数量样本的⼀个分组变量和相应的其他多元变量的已知信息,确定分组与其他多元变量信息所属的样本进⾏判别分组。
要解决的问题:已知某种事物有⼏种类型,现在从各种类型中各取⼀个样本,由这些样本设计出⼀套标准,使得从这种事物中任取⼀个样本,可以按这套标准判别它的类型。
分类:根据判别中的组数,可以分为两组判别分析和多组判别分析;根据判别函数的形式,可以分为线性判别和⾮线性判别;根据判别式处理变量的⽅法不同,可以分为逐步判别、序贯判别等;根据判别标准不同,可以分为距离判别、Fisher判别、Bayes判别法等。
判别分析通常都要设法建⽴⼀个判别函数,然后利⽤此函数来进⾏批判,判别函数主要有两种,即线性判别函数(Linear Discriminant Function)和典则判别函数(Canonical Discriminate Function)。
线性判别函数是指对于总体,如果各组样品互相对⽴,且服从多元正态分布,就可建⽴线性判别函数。
典则判别函数是原始⾃变量的线性组合,通过建⽴少量的典则变量可以⽐较⽅便地描述各类之间的关系,例如可以⽤画散点图和平⾯区域图直观地表⽰各类之间的相对关系等。
建⽴判别函数的⽅法⼀般由四种:全模型法、向前选择法、向后选择法和逐步选择法。
1)全模型法是指将⽤户指定的全部变量作为判别函数的⾃变量,⽽不管该变量是否对研究对象显著或对判别函数的贡献⼤⼩。
此⽅法适⽤于对研究对象的各变量有全⾯认识的情况。
计量地理学 第八章 判别分析地理模型

第八章判别分析地理模型在自然和社会科学的研究中,往往会遇到这样的问题,即根据观测数据对所研究的对象进行分类判别。
第一节判别分析及其基本原理判别分析是一种根据某一地理对象的各种特征指标或多种信息来分辨或判别其类型归属问题的多变量统计分析方法,它对某地地理类型的划分和区界的判定具有重大的理论意义和现实意义。
判别分析的地理研究内容判别分析的作用一.判别分析准则在作判别分析时,首先要根据一批包括各种地理类型的特征指标或数据,按照一定的判别准则来建立一个判别函数表达式。
判别函数确定判别函数的准则费歇尔(F i s h e r)准则要使判别函数值能充分地区分开地理类型,就需要使各类均值之间的差别最大(即使不同类之间的差别最大),而使各类内部的离差平方和为最小(即使同类间的差别最小)。
换句话说,即要求类间(或组间)均值差与类内(或组内)方差之比最大,这样就能把地理类型区分得最清楚,这就是费歇尔准则的基本要点。
贝叶斯(B a y e s)准则当应用贝叶斯准则进行判别分析时,要求把已知的地理数据分成几类(或几组),然后计算未知地理类型或区域归属于各已知类型(或组)的概率值,它归属于哪一类的概率最大,就把它划归该类(组);另外,还可计算出划归各已知类的错分损失,即错分哪一类的平均损失为最小,就把它判定为该类。
以上就是贝叶斯准则的基本要点。
二.判别分析基本原理判别分析的基本原理,是根据已知的地理特征值或有k个变量,按照一定的判别分析准则,来建立判别函数模型和计算出判别临界值(或称判别指标);当求出了判别函数值和差别临界值以后,再比较其数值的大小,最后便可确定其类型的归属问题。
三.判别分析的分类第二节两组判别分析两组判别分析是解决待判样品分属于已知两组中哪一组的问题。
一、方法原理在两组间进行判别的处理方法,基于统计上的费歇准则,即判别的结果应使两组间区别最大,使每组内部离散性最小。
在费歇准则意义下,确定线性判别函数:y = c1x1+ c2x2+… c m x m其中,c1,c2,…, c m 为待求的判别函数系数,它可反映各要素或特征值的作用方向、分辨能力和贡献率的大小。
判别分析

19
本例中变量个数p=3,两类总体各有5个样品,即n1=n2 =5 ,有4个待判样品,假定两总体协差阵相等。 两组线性判别的计算过程如下: (1)计算两类样本均值
(2)计算样本协差阵,从而求出
20
类似地
经计算
21
(3)求线性判别函数W(X) 解线性方程组
得
22
(4)对已知类别的样品判别分类 对已知类别的样品(通常称为训练样品)用线性判别函 数进行判别归类,结果如下表,全部判对。
确定的原则是使两组间的区别最大,而使每个组内部的离 差最小,有了判别式后,对于一个新的样品,将它的p个 指标值代人判别式中求出 y 值,然后与判别临界值(或称 分界点(后面给出)进行比较,就可以判别它应属于哪一个 总体。
34
(2)判别函数的导出
假设有两个总体G1、G2,从第一个总体中抽取n1个样 品,从第二个总体中抽取n2个样品,每个样品观测p个 指标,列表如下:
判别分析与聚类分析不同。判别分析是在已知研究对 象分成若干类型(或组别)并已取得各种类型的一批已知样 品的观测数据,在此基础上根据某些准则建立判别式,然 后对未知类型的样品进行判别分类,对于聚类分析来说, 一批给定样品要划分的类型事先并不知道,正需要通过聚 类分析来给以确定类型的。
3
正因为如此,判别分析和聚类分析往往联合起来使用, 例如判别分析是要求先知道各类总体情况才能判断新样品 的归类,当总体分类不清楚时,可先用聚类分析对原来的 一批样品进行分类,然后再用判别分析建立判别式以对新 样品进行判别。 判别分析内容很丰富,方法很多。判别分析按判别的 组数来区分,有两组判别分析和多组判别分析;按区分不 同总体的所用的数学模型来分,有线性判别和非线性判别; 按判别时所处理的变量方法不同,有逐步判别和序贯判别 等。判别分析可以从不同角度提出问题,因此有不同的判 别准则,如马氏距离最小准则、Fisher准则、平均损失最 小准则、最小平方准则、最大似然准则、最大概率准则等 等,按判别准则的不同又提出多种判别方法。本部分介绍 四种常用的判别方法即距离判别法、Fisher判别法、 Bayes判别法和逐步判别法。 4
Fisher判别-jing

i 1
综上(1),(2) Fisher最优判别准则为函数
L(l1 , l2 , l p ) ( y 0 y 1 )2
(y
i 1
s
0 i
y ) ( yi1 y 1 ) 2
0 2 i 1
t
越大越好。从而最优判别函数的系数 c1 , c2 , c p 为函数 L(l1 , l2 ,l p ) 的极大值点。由微分学可知, 1 , c2 , c p 为方 c 程组
编号 1 购 买 者 2 3 4 5 6
式样X1 包装X2 耐久 性X3
编号 8 非 9 购 买 10 者 11
式样X1 包装X2
耐久 性X3
0 0 ( x11 , x12 , x10p )
1 1 1 ( x11 , x12 , x1 p )
组A的数据
0 0 0 ( x21 , x22 , x2 p )
0 ( xs01 , xs02 , xsp )
组B的数据
( x1 , x1 , x1 p ) 21 22 2
1 ( xt11 , xt12 , xtp )
组B的数据矩阵
1 x11 1 1 x21 W 1 xt1
1 1 x12 x1 p x1 x1 p 22 2 1 1 xt 2 xtp
矩阵 W 和 W
0
1
的列平均数分别为 ( x10 , x20 , x p0 ) 和 ( x1 , x2 , x p )
判别分析分为两组判别分析和多组判别分析, 两组判别分析就是将要判别的对象分为两组,例 如,判别一个地区的消费者对某种产品的反应是 “喜欢”还是“不喜欢”,判别一种产品在某地 区是处于“饱和”状态还是“有需求”,多组判 别分析则是将要判别的对象分为三组或更多组, 例如某种产品的市场潜力可分为:“大”,“一 般”,“没有”三种。 判别分析的方法很多,我们这里只涉及 Fisher判别方法,且重点放在两组判别问题上。
2-判别分析

4. 单击Classify…按钮,定义判别分组参数和选择输出结果。选择 Display栏中的Casewise results,输出一个判别结果表,包括每个样 品的判别分数、后验概率、实际组和预测组编号等。其余的均保 留系统默认选项。单击Continue按钮。
能使总体单位 尽可能分开的方向
u
旋转坐标轴至总体单位尽可能分开的方向,此时 分类变量被简化为一个
费歇判别的基本思想
• Fisher判别法由Fisher在1936年提出,是根据方 差分析的思想建立起来的一种能较好区分各个 总体的线性判别法,该判别方法对总体的分布 不做任何要求。
• 从两个总体中抽取具有p个指标的样品观测数 据,借助于方差分析的思想构造一个线性判 别函数:
即
y (1) i
(i
1,2,,
n1
)的离差平方和
n1
2
yi1 y1 越小越好
i 1
即
y(2) i
(i
1,2,,
n2
)的离差平方和
n2
2
yi2 y2 越小越好
i1
Q y1 y2 2
n1
R
yi1 y1
费歇判别的基本思想是 投影,将k组p维数据投 影到某一个方向,使其 投影的组与组之间尽可 能地分开。
上市公司财务预警的两组判别分析模型构建

务报 告评价体 系 . 别从个人财 务效益 、资本结构 、资产结 构 、 分 偿 债能 力 、发 展能 力 、潜 在社会 贡献能 力六个 维度进 行构 建 , 可以进一 步将六个 方面的八大 指标 用线 形关系 结合起来 . 用 运
沃 尔 比重 分 析 法 .并 分 别 给 定 各 自 的 分 数 比 重 然后 通 过 与 标
供个 人 财 务信 息 。
表 3 个人财务报告评价体 系
一
、
评 内 价容 财效状 务 益况
评指 价标 资 净 富 产财 率
计 公 算式 净 富总 产 % 财 /资 ×O 1 O
增大的不稳定运作状态和不正常的警兆进行分析 ,并在上市公司风 险增 大到一定程度 时发出警报。判别分析法是多元统计 中用于判别
将 上市 公 司 风 险 降低 到 比较 安 全 的程 度 。
也 有 助 于给 公 司 本 身 提早 拉 响 警 报 ,从 而及 时找 到 应 对 措施 对 公
司 的财 务 现 状 进 行修 正改 善 。 而 站 在投 资者 的角 度 根 据实 际数
综 合 前 文 的 分 析 .应 构 建 个 人 财 务 报 告 反 映 个 人 财 务 状 况 据 和相 应 模 型 的 计 算 来 判 断所 投资 公 司是 否 面 临 财 务危 机 ,可 以 和净 财 富变动 情 况 ,尽 可 能更 加全 面 、综 合地 反映 企业 的全 在 股票 价 格 下跌 前 获得 财 务 风 险 的 警示 以便 及 早 卖 出手 中的 公 司 银 貌 .为相 关信息使 用主体 提供有 用信 息 。本文首 次提出个人 财 证券 以减 少投 资 损失 ;同样 ,这样 的预 警模 型 对 于借 贷者 ( 行 )
准比率进 行比较评定 个人财务 状况 ,确定各项 指标 的得分及 总
判别分析

判别分析是在分类确定的条件下,根据某一研究对象的各种特征值判别其类型归属问题的一种多元统计分析方法。
这个分类是根据经验和专业得出的,是已知的。
判别分析的目的十分明确:已知事物有n种类型,当得到一个新的样品数据,根据判别函数最终得出该样本归属于哪一类,因此建立最佳判别函数和判别规则就是判别分析的主要工作。
判别分析的因变量是分类变量,也就是已知的分类,自变量就是研究对象的各种特征,可以是任何尺度的变量(分类变量需要设为哑变量)。
根据判别中的组数,可以分为两组判别分析和多组判别分析;根据判别函数的形式,可以分为线性判别和非线性判别;根据判别式处理变量的方法不同,可以分为逐步判别、序贯判别等;根据判别准则不同,可以分为距离判别、Fisher判别、Bayes判别法等。
一、判别分析的基本原理设有k个总体G1,G2,G3...Gk,希望建立一个准则,使得对给定的任意一个样品x,通过这个准则就能判断它来自哪个总体,这个准则在某种意义下是最优的,如错判率最小或错判损失最小等。
判别分析的基本模型就是判别函数,判别函数的一般形式为Y为判别值X为自变量,也就是反映对象特征的变量a为变量系数,也就是判别系数,不同的判别方法会计算出不同的判别系数二、判别分析的基本步骤1.确定研究问题2.检查适用条件3.选择判别方法,建立判别模型4.验证判别模型5.应用判别模型三、判别分析的假设条件1.确定的分类至少是两个或两个以上2.各总体间存在显著差异,如各总体不存在显著差异则无法判别或误判几率很大。
2.变量间相互独立,不存在多重共线性3.各组变量的方差齐性,协方差矩阵相等4.自变量服从多元正态分布以上条件很难满足,但是判别分析比较稳健,轻度违反对结果并无太大影响。
三、常用判别分析方法1.距离判别属于最简单的判别方法,适用于自变量均为连续变量的情况,基本思想是:首先根据已知分类数据分别计算各类的质心(各类的均值),判断的准则是对任意一个未知样品,如果它与某个质心距离最近,则认为它来自这个质心代表的分类。
- 1、下载文档前请自行甄别文档内容的完整性,平台不提供额外的编辑、内容补充、找答案等附加服务。
- 2、"仅部分预览"的文档,不可在线预览部分如存在完整性等问题,可反馈申请退款(可完整预览的文档不适用该条件!)。
- 3、如文档侵犯您的权益,请联系客服反馈,我们会尽快为您处理(人工客服工作时间:9:00-18:30)。
两组判别分析
原理
1先建立两组数据的数学模型
2判别系数确定
Y=c1x1+c2x2+…….+cpxp
3判别过程
计算判别指标
在A组平均值大于判别指标时归于A组
B组平均值大于判别指标时归于B组
4显著性检验及误判率
原始数据x1岩性系数x2孔隙度x3侵入系数x4含油气饱和度
结果
分析案例处理摘要
未加权案例N 百分比
有效24 100.0 排除的缺失或越界组代码0 .0 至少一个缺失判别变量0 .0
缺失或越界组代码还有至少
0 .0
一个缺失判别变量
合计0 .0 合计24 100.0 24个样本全部有效
判别函数y1=-10.349+28.616x1+18.393x2 Y2=-15.600+17.999x1+36.936x2
有两个判断错误但判对率为91.7% 结果还是令人满意。