距离判别法在鸢尾花亚属类型判定中的应用初探

合集下载

12判别分析-鸢尾花

12判别分析-鸢尾花

-2 -3 - 10 0 10
2 1
Function 1
Function 1
Disc.txt例子
• 下面是基于4个变量时分类结果表:
C l a s s i f i c a t i o n R e s u l tb s,c Predicted Group Membership GROUP 1.00 2.00 3.00 Total Original Count 1.00 30 0 0 30 2.00 2 27 1 30 3.00 0 0 30 30 % 1.00 100.0 .0 .0 100.0 2.00 6.7 90.0 3.3 100.0 3.00 .0 .0 100.0 100.0 a Cross-validated Count 1.00 30 0 0 30 2.00 2 27 1 30 3.00 0 0 30 30 % 1.00 100.0 .0 .0 100.0 2.00 6.7 90.0 3.3 100.0 3.00 .0 .0 100.0 100.0 a. Cross validation is done only for those cases in the analysis. In cross validation, each case is classified by the functions derived from all cases other than that case. b. 96.7% of original grouped cases correctly classified. c. 96.7% of cross-validated grouped cases correctly classified.
Canonical Discriminant Function Coefficients Function 1 IS SE SA PRR MS MSR CS (Cons tant) .035 3.283 .037 -.007 .068 -.023 -.385 -3.166 2 .005 .567 .041 .012 .048 .044 -.159 -4.384

基于欧式距离的判别分析

基于欧式距离的判别分析

基于欧式距离的判别分析作者:唐宇政来源:《现代商贸工业》2019年第09期摘要:分类判别问题在生活中是一个有着重要应用需求的问题。

例如根据患者肺部阴影大小,是否低烧以及其它理化指标来判断是否为肺结核患者,或是根据邮件的内容或者发件地址来判断其是否属于垃圾邮件。

在现实生活中,我们希望能够准确快速的解决这一类问题,往往需要利用历史数据来建立合理的分类器。

因此重点介绍一种常见的基于距离的判别分类方法——欧氏距离判别法。

首先在第二部分详细介绍这种分类方法以及将其和另外一种常见的基于马氏距离的判别分类法进行比较。

在第三部分,我们将进行实例分析,基于花瓣长度和花瓣宽度利用欧式距离判别法对鸢尾花进行分类。

关键词:分类问题;欧式距离;马氏距离中图分类号:TB 文献标识码:Adoi:10.19311/ki.1672-3198.2019.09.0921 背景分类判别是指根据事物的不同点加以区分辨别,确定事物所属的类别,使具有更多相似点的事物归入一类,使之在大量事物中可以根据一定规律快速鉴别各个事物的所属种类。

例如国家电网在对居民进行供电时,就可以根据以往的用电量数据对居民的用电情况进行划分,对用电量大的居民相应地收取更多的费用,从而达到促进节约用电的目的。

在解决此类问题的过程中需要准确判别个体样本所属的类别,即应该划分的组别。

本文中将介绍的是如何通过数学建模来快速准确完成这个分组判别的过程。

本文中,我们将使用鸢尾花数据集,对150个鸢尾花数据样本进行分类判别,确定样本属于三种鸢尾花中的哪一种,来实例说明欧式距离判别法在现实生活中的可行性。

2 分类方法判别分析法,是在分类确定的条件下,根据某一研究对象的各种特征值判别其类型归属问题的一种多变量统计分析方法。

常见的判别分析法主要包括基于距离的判别、Fisher判别、Bayes 判别。

本文主要研究对象是通俗易懂、应用范围广泛的基于距离的判别分析法。

2.1 基于距离的判别分析距离判别的基本思想是将距离越近的样本分为一类,距离越大的样本分为不同类。

决策树在鸢尾花亚属分类中的应用

决策树在鸢尾花亚属分类中的应用

决策树在鸢尾花亚属分类中的应用作者:金鑫来源:《商情》2015年第42期【摘要】随着信息技术的高速发展,人们积累的数据量急剧增长,利用数据挖掘方法从海量数据中提取有用的信息和知识已经成为社会各领域的普遍做法。

本文从iris数据集出发,利用C5.0分类技术对该数据集进行分类分析,找出隐藏在其中的关于鸢尾属下三个亚属的分类规则,达到对鸢尾属未知亚属进行分类并预测未知样本的类别的目的。

【关键词】数据挖掘,分类,决策树,C5.0算法一、引言随着计算机技术的迅猛发展,信息技术已经开始贯穿于人类活动的各个领域。

紧跟其后的便是信息技术的飞速发展和信息搜集能力的日益提高,继而产生了海量的数据。

为了挖掘这些激增的数据背后所隐藏的重要信息,机器学习、数据挖掘等技术应运而生。

数据挖掘源于20世纪80年代后期,包含着很多领域,分类就是其中之一,并且是数据挖掘中最有应用价值的技术之一,为工业、金融、通信、医疗、银行、商业等诸多行业的发展提供着重要的决策支撑作用,对人类的日常生活及社会的稳定快读发展产生了深远的影响。

二、分类分析在数据挖掘中可用于分类的算法很多,目前所采取的方法主要有:决策树、贝叶斯分类、粗糙集、遗传算法和神经网络等,决策树方法因其复杂度较小,速度快;抗噪声能力强;可伸缩性强,既可用于小数据集,也可用于海量数据集等优点而得到广泛的应用。

也正因为如此决策树算法成为了数据挖掘研究中最为活跃的领域之一。

故本文选择基于决策树的分类挖掘方法作为研究课题。

三、具体应用说明1.数据准备。

在UCI数据库中找到iris标准数据集。

Iris data set,也称鸢尾花卉数据集,是一类多重变量分析的数据集。

其数据集包含了150个样本,都属于鸢尾属下的三个亚属,分别是山鸢尾(Iris setosa),变色鸢尾(Iris versicolor)和维吉尼亚鸢尾(Iris virginica)。

四个特征被用作样本的定量分析,分别是花萼和花瓣的长度和宽度。

对鸢尾花kmeans算法的总结

对鸢尾花kmeans算法的总结

鸢尾花是一种常见的植物,具有多种品种和花色。

鸢尾花的种类繁多,因此如何有效地对鸢尾花进行分类成为一个研究热点。

K均值(k-means)算法是一种常用的聚类分析方法,对鸢尾花进行分类时,k-means算法可以发挥重要作用。

让我们来了解一下k-means算法的基本原理。

K均值算法通过迭代将n个数据点划分到k个集群中,使得同一集群内的点彼此距离的平方和最小。

其中,k是用户指定的聚类数目,而迭代的过程是根据每个数据点与各个中心的距离来不断更新中心点的位置,直至满足停止条件。

接下来,我们将对鸢尾花k-means算法进行总结和回顾性的探讨,以便更全面、深刻地理解这一主题。

在应用k-means算法对鸢尾花进行分类时,我们首先需要收集样本数据,包括鸢尾花的花瓣长度、花瓣宽度、花萼长度和花萼宽度等特征。

通过调用相应的数学库或算法工具,可以将这些样本数据输入到k-means算法中进行聚类分析。

当我们应用k-means算法对鸢尾花进行分类时,关键的一步是确定合适的聚类数目k。

这需要利用一些评价指标,如肘部法则(elbow method)或轮廓系数(silhouette score)来帮助确定最佳的k值。

通过数据点与各个中心的距离计算,不断迭代更新中心点的位置,最终将鸢尾花样本数据划分到不同的集群中。

对于鸢尾花k-means算法的应用而言,我们需要注意的一点是,选择合适的特征和合理地进行数据预处理是非常重要的。

另外,对聚类结果进行可视化分析也是必不可少的,可以通过绘制散点图或热力图来直观地展示聚类效果。

在我个人看来,鸢尾花k-means算法的应用不仅仅是简单的数据分析,更重要的是它可以帮助我们理解聚类分析的基本原理并掌握如何利用算法工具解决实际问题。

通过对鸢尾花k-means算法的总结和回顾性讨论,我对这一主题有了更深入的理解,也更加意识到了数据分析在实际应用中的重要性。

总结而言,通过本文的探讨,我们对鸢尾花k-means算法的原理和应用有了更全面、深刻和灵活的理解。

人工智能基础与应用-物以类聚发现新簇群-人工智能案例探究鸢尾花品种

人工智能基础与应用-物以类聚发现新簇群-人工智能案例探究鸢尾花品种

授课人:目录•提出问题•解决方案01•预备知识02•任务1——确定鸢尾花最佳的品种数k值03•任务2——绘制鸢尾花聚类后的结果散点图0405随着数据收集和数据存储技术的不断进步,我们可以迅速积累海量数据,然而,如何提取有用信息和甄别不同数据种群对普通人来说存在不小的挑战。

幸运的是,现在借助一些数据挖掘工具可以较为轻松地完成一些预测任务,例如,预测新物种、探究新信息种类是聚类算法最经典的应用案例。

本案例是基于一群鸢尾花(如下图所示)的数据集(无类别标签),根据花的特征探究将这些鸢尾花分为几个品种是比较合适的。

各式各样的鸢尾花如果你是一名植物学家,这个问题对于你来说是轻而易举的。

但在很多情况下,数据的主人或使用者并不具备本领域丰富的专业知识,那能否可以利用一种人工智能技术,让机器来帮助人类发现新的信息呢?为找到一种相对最佳的鸢尾花品种数k,•首先尽可能获得关于鸢尾花的特征知识,也许它能引导我们找到品种k的有效初值,因为花的特征反映了花的独特之处和一些重要信息,具有重要的参考价值;•然后,选用k-means算法对鸢尾花数据集进行聚类,从性能指标数据和样本可视化分布方面对聚类效果进行评价,•最后,在对比不同k值聚类效果的前提下,确定鸢尾花最佳的品种数量。

本案例的解决方案如下图所示:解决方案1.鸢尾花形态特征猜测:从鸢尾花的形态结构来看,也许花瓣能更好地帮助我们分辨鸢尾花的种类一种鸢尾花植物2.数据降维在衡量采用什么方法来分析数据之前,最好能对数据的全貌有一个可视化的了解,能从中发现一些内在规律或启示,以便能更好地指导我们选择相对合理的方法来解决问题。

我们通常只在二维或三维的空间可视化数据,但原始数据的实际维度可能是四维甚至更多,所有要采用数据降维的方法将原始数据的维度降为二维或三维,以便进行可视化来直观了解数据的分布。

除此之外,降维还可以提高计算、提高模型拟合度等好处。

如何保证原高维空间里的数据关系,经降维后仍然在低维空间保持不变或者近似呢?【引例5-1】降维鸢尾花数据集iris,绘制样本点图。

python实现鸢尾花三种聚类算法(K-means,AGNES,DBScan)

python实现鸢尾花三种聚类算法(K-means,AGNES,DBScan)

python实现鸢尾花三种聚类算法(K-means,AGNES,DBScan)⼀.分散性聚类(kmeans)算法流程:1.选择聚类的个数k.2.任意产⽣k个聚类,然后确定聚类中⼼,或者直接⽣成k个中⼼。

3.对每个点确定其聚类中⼼点。

4.再计算其聚类新中⼼。

5.重复以上步骤直到满⾜收敛要求。

(通常就是确定的中⼼点不再改变。

优点:1.是解决聚类问题的⼀种经典算法,简单、快速2.对处理⼤数据集,该算法保持可伸缩性和⾼效率3.当结果簇是密集的,它的效果较好缺点1.在簇的平均值可被定义的情况下才能使⽤,可能不适⽤于某些应⽤2.必须事先给出k(要⽣成的簇的数⽬),⽽且对初值敏感,对于不同的初始值,可能会导致不同结果。

3.不适合于发现⾮凸形状的簇或者⼤⼩差别很⼤的簇4.对躁声和孤⽴点数据敏感这⾥为了看鸢尾花的三种聚类算法的直观区别,所以不⽤具体算法实现,只需要调⽤相应函数即可。

程序如下:import matplotlib.pyplot as pltimport numpy as npfrom sklearn.cluster import KMeansfrom sklearn import datasetsiris = datasets.load_iris()X = iris.data[:, :4] # #表⽰我们取特征空间中的4个维度print(X.shape)# 绘制数据分布图plt.scatter(X[:, 0], X[:, 1], c="red", marker='o', label='see')plt.xlabel('sepal length')plt.ylabel('sepal width')plt.legend(loc=2)plt.show()estimator = KMeans(n_clusters=3) # 构造聚类器estimator.fit(X) # 聚类label_pred = bels_ # 获取聚类标签# 绘制k-means结果x0 = X[label_pred == 0]x1 = X[label_pred == 1]x2 = X[label_pred == 2]plt.scatter(x0[:, 0], x0[:, 1], c="red", marker='o', label='label0')plt.scatter(x1[:, 0], x1[:, 1], c="green", marker='*', label='label1')plt.scatter(x2[:, 0], x2[:, 1], c="blue", marker='+', label='label2')plt.xlabel('sepal length')plt.ylabel('sepal width')plt.legend(loc=2)plt.show()运⾏结果:⼆.结构性聚类(层次聚类)1.凝聚层次聚类:AGNES算法(⾃底向上)⾸先将每个对象作为⼀个簇,然后合并这些原⼦簇为越来越⼤的簇,直到某个终结条件被满⾜2.分裂层次聚类:DIANA算法(⾃顶向下)⾸先将所有对象置于⼀个簇中,然后逐渐细分为越来越⼩的簇,直到达到了某个终结条件。

基于KNN_的花卉分类技术应用

基于KNN_的花卉分类技术应用
x j ) ,其中, d( x i ,x j ) =
n
( xi

i=1
- yi ) 2 。
(4) 选择 k 个近邻样本。 将根据公式计算出来的
欧式距离从小到大排序,选择欧式距离相对接近的 k
个样本作为测试样本中的 k 个邻近样本。
(5) 寻 找 主 导 类 型。 假 设 k 个 近 邻 样 本 为 x 1 ,
distance。 uniform 参数主要表示距离的大小而与权重
参数无关。 distance 参数表示出来的数据是权重大小
和距离的大小成反比,权重越小,距离预测目标越远。
本文分别采用这两种方式来构建 KNN 分类器。
图 3 k 值分析
(5) 结果如图 4 所示。 图 4 为不同 k 值不同权重
响,本文考虑通过 K 折交叉验证的一种方法来准确选
取 k 的值,该验证方法将原始的所有样本数据分成 n
份相同容量的样本子集( “ 折” ) ,随机选取其中一份
作为测试集,接着拿其他的 n - 1 份样本数据组成训练
集训练模型,为样本进行训练,接着计算各个模型在
No. 12
June,2023
测试集上的均方误差 MSE i ,将 n 次 MSE i 取算术平均
类结果准确率低的问题,将 K 折交叉验证法应用于 KNN 算法中 k 值的选取,通过 k 值分析图选取最
佳 k 值,利用 Python 语言并基于 Sklearn 库实现 KNN 算法。 在鸢尾花数据集上的实验表明,该模型是
进行花卉分类的有效方法。
关键词:KNN 算法;聚类;花卉分类
中图分类号:TP399 文献标志码:A
5 时图中的方块应该为圆形,所以参数 k 不同的取值

关于如何分辨鸢尾花的判别分析报告

关于如何分辨鸢尾花的判别分析报告

关于如何分辨鸢尾花的判别分析报告一、目的与背景:鸢尾花为法国的国花,Setose,Versicolour,Virginica 是三种有名的鸢尾花,其萼片是绚丽多彩的,和向上的花瓣不同,花萼是下垂的。

这三种鸢尾花很像,根据萼片和花瓣的四个度量对鸢尾花分类。

二、分析过程1、组间均值分析H0:组间均值是相等的H1:组间均值是不等的Tests of Equality of Group Means表1的显著性水平上,拒绝在三组均值相等的原假设,即花萼长、花萼宽、花瓣长、花瓣宽在三组的均值是有显著性差异的。

2、协方差阵分析H0:各组协方差阵是相等的H1:各组协方差阵是不相等的Test Results表2Box's M 92.993F Approx. 4.332df1 20df2 23344.026Sig. .000Tests null hypothesis of equal population covariance matrices.表2是对各总体协方差阵是否相等的统计检验。

在0.05的显著性水平下拒绝原假设,即各总体协方差阵不相等。

3、确定非标准化典型判别函数Canonical Discriminant Function Coefficients表3是非标准化的典型判别函数,表示为y1=-2.063-0.083*Sepal.Lenght-0.132*Sepal.Width+0.212*Petal.Leng th+0.239* Petal.Widthy2=-8.045+0.037*Sepal.Lenght+0.211*Sepal.Width-0.104*Petal.Len gth+0.273* Petal.Width4、函数的显著性检验Eigenvalues表4-1Wilks' Lambda差的比例和典型相关系数。

第一判别函数解释了99%的方差,第二判别函数解释了1%的方差,两个判别函数解释了全部的方差。

  1. 1、下载文档前请自行甄别文档内容的完整性,平台不提供额外的编辑、内容补充、找答案等附加服务。
  2. 2、"仅部分预览"的文档,不可在线预览部分如存在完整性等问题,可反馈申请退款(可完整预览的文档不适用该条件!)。
  3. 3、如文档侵犯您的权益,请联系客服反馈,我们会尽快为您处理(人工客服工作时间:9:00-18:30)。

0.04 ⎤
− 0.22⎥⎥ ,
− 0.09⎥ ⎥
0.62 ⎦
⎡0.19
B = CC T = 30⎢⎢0.06 ⎢0.39 ⎢ ⎣0.22
0.06 0.02 0.12 0.07
0.39 0.12 0.77 0.45
0.22⎤
0.07⎥⎥
, W
0.45⎥
⎥ 0.26⎦
⎡22.63
=
B
+ Lxx
=
⎢ ⎢
ln
L(2) xx
= 2.17 , W
= 798.15 ,lnW
= 6.68 , B
= 6.1 × 10 −40 ,
n1=30,n2=30,n=60,N1=29,N2=29,N=58,g=2,p=4,
− 2 ln λ'3 = 58(ln 6.53 − 4 ln 58) + 232 ln 29 − 29(ln 4.3 + ln 2.7) = −123.08 ,
距离判别是将待判样本 X=(x1, x2, x3, x4)T 到各总体 Gi (i=1、2、……、k)的距离远近作 为判据的一种直观判别方法。而判别分析的方法也有很多,并且每种方法都有其自己的特点。 相对于 Fisher 判别和贝叶斯判别等方法,距离判别法具有操作简单,对数据要求较少,适用 范围广。但是在一般的应用中,很少涉及其判别函数的显著性检验和错判率的分析,仅在《实 用判别分析》(孙尚拱和潘恩沛编著,1990)一书中有简单叙述,即利用霍特林 T2 统计量 通过 F 检验对判别进行统计学意义分析和利用刀切估计法对错判率进行分析。
X
(2)
)S

1(X
− X)=
1 (−4.31,−9.10,8.49,18.32)⎢⎢x2
− 2.92⎥⎥ 。
2
2
⎢x ⎢
3

4.95⎥ ⎥
⎣x4 − 1.69⎦
用ω(X)对典型样本群体的 60 个样本进行回判,根据判别法则:若ω(X)≥0,则 X∈G1; 若ω(X)<0,则 X∈G2,故有如下判别结果(详见表 1):virginica 亚属(即 G1 类)的 30 个 样本全部判别为 G1 类,而在 versicolor 亚属(即 G2 类)中的 30 个样本中有 29 个判别为 G2 类,仅有一个样本被判为 G1 类(见表 1 中加粗并下划线的ω(X)值),回判结果符合率为 59/60=98.33%,高于 80%。因此,该判别函数ω(X)可以用于对未知的 40 个样本进行亚属的 判定。
距离判别法在鸢尾花亚属类型判定中的应用初探
XX※
单位,地址,邮编
摘要:判别分析是多元统计分析中判断个体所属类型的一种重要方法。本文主要利用马氏距 离判别方法,依据鸢尾花 virginica 和 versicolor 亚属中典型个体的不同性状特征(花萼和花 瓣的长度和宽度),对未知鸢尾花个体进行所属类型的判别分析,为距离判别法在鸢尾属分 类中的应用奠定基础和鸢尾花的亚属判定提供统计学依据。 关键词:马氏距离判别法、鸢尾花、亚属类型
⎢ ⎣
1.12
0.91
0.98
1.44
⎥ ⎦
⎢⎣2.01 1.72 2.24 1.37⎥⎦
⎡0.31
30 ⎢⎢0.10 ⎢0.62 ⎢ ⎣0.36
− 0.31⎤
− 0.10⎥⎥ ,
− 0.62⎥ ⎥
− 0.36⎦
⎡22.44
Lxx
=
L(1) xx
+
L(1) xx
=
⎢ ⎢
6.25
⎢15.58
⎢ ⎣ 3.13
通过计算得到这 40 个未知亚属样本的ω(X)值,根据判别法则进行亚属判定,判定结果 为各有 20 个样本分别属于 virginica 和 versicolor 亚属,详细结果见表 2。
3. 讨论
从文中的判别函数的回判符合率可知,依据 Fisher 鸢尾花数据集所建立两总体的判别函 数具有很好的准确度,这一结果表明能够依据鸢尾花的花萼和花瓣的长度和宽度建立判别函 数对其亚属类型进行判定,这为未知鸢尾花的亚属类型判定以及其分类学地位提供了统计学 上的理论依据和发展思路。但是鸢尾花的亚属除了这两类,还有其他很多类亚属,并且其亚 属在分类学上划分指标远不止花萼和花瓣的长度和宽度这四项,因此本文中所建立的判别方 法并不能在全面的准确的判定某一鸢尾花的所属亚属,还需要扩大其亚属总体数目和采用更 多典型的性状指标。在鸢尾花不同亚属和性状指标的涵盖面广且具典型性的情况下建立判别 方法和实现的判定结果才是最为准确有效。综上所述,本文中所建立的判别函数仅适用于某 一鸢尾花在是否归属 virginica 或 versicolor 亚属的问题上,才能够凭借花萼和花瓣的长度和 宽度等简单的四个性状值进行快速准确的判定。
⎡14.21 3.23 10.51 1.12⎤
⎡8.23 3.02 5.07 2.01⎤
L(1) xx
=
⎢ ⎢
3.23
⎢10.51
2.69 2.68
2.68 10.17
0.91⎥⎥ ,
0.98⎥
L(2) xx
=
⎢⎢3.02 ⎢5.07
3.53 2.81
2.81 5.20
1.72⎥⎥ ,C
2.24⎥
=
聚类和判别是各领域科研生产活动中经常涉及的问题。判别分析是用于判断样品所属类 别的一种应用性很强的统计方法, 并已渗透到各个科学领域,该方法通常从各训练样本中提 取已有的各总体的信息, 构造一定的判别准则, 判断新样品属于哪个总体(潘海泽,2009)。 常用的判别分析方法有距离判别分析,Fisher 判别分析,贝叶斯判别分析和逐步判别分析等。 其中,距离判别分析法是根据观测到的样本的若干数量特征对新获得的样本进行归类、识别, 判别其所属类型的一种统计分析方法。该方法由英国统计学家 Pearson 在 1921 年首先提出, 其主要思想是比较样本到各个总体的马氏距离,然后将其判给马氏距离最近的那个总体; 目 前,该方法已在各个领域得到广泛应用。其中距离判别的基本思想是: 样品距哪个总体距离 最近, 就判它属于哪个总体(黄利文,2011)。距离判别分析中采用的距离有欧氏距离和马 氏距离。在判别分析中,由于欧氏距离没有考虑总体分布的分散性信息,因此很多的距离判 别分析都采用由印度统计学家马哈诺必斯(Mahalanobis)于 1936 年提出的马氏距离。
6.31
⎢15.97
⎢ ⎣ 3.35
6.31 6.24 5.61 2.70
15.97 5.61 16.14 3.67
3.35⎤
2.70⎥⎥ ,
3.67⎥ ⎥
3.07⎦
Lxx
= 684.69 ,ln Lxx
= 6.53 ,
L(1) xx
=
73.96

ln
L(1) xx
=
4.30

L(2) xx
= 8.75 ,
鸢尾属花卉属于鸢尾科, 是一类具有较高观赏价值的多年生草本植物。但是国内外对鸢 尾属的分类系统较繁杂,比如国内普遍分为 6 个亚属(黄苏珍,2003)。1935 年,埃德加· 安德森(Edgar Anderson)从加拿大加斯帕半岛上的鸢尾属花朵中提取的地理变异数据 (Anderson, E.,1935),并在统计学上形成了一类多重变量分析的 Fisher 鸢尾花数据集。其 数据集包含了 50 个样本,都属于鸢尾属下的三个亚属,分别是山鸢尾( Iris setosa)、变色 鸢尾(Iris versicolor)和维吉尼亚鸢尾(Iris virginica)。每个样本含有四个特征,它们分别 是花萼和花瓣的长度和宽度,这些特征可被用作样本的定量分析。基于这四个特征的集合, 罗纳德·费雪(Ronald Aylmer Fisher)作为判别分析的一个例子,发展了一个线性判别分析 以确定其属种(Fisher, R.A,1936)。由此,该数据集被广泛运用到统计学中。
2.2.2 数据计算及分析 首先对 2 个总体进行协方差阵和均值向量显著性检验。
通过计算可得到: X (1) = (6.67,3.01,5.58,2.05)T , X (2) = (6.05,2.82,4.33,1.34)T ,
X
=
(1)
X
+
(2)
X
= (6.36,2.92,4.95,1.69)T ,
参考文献
1. Edgar Anderson. The irises of the Gaspé Peninsula. Bulletin of the American Iris Society. 1935, 59: 2–5. 2. Fisher, R.A.. The Use of Multiple Measurements in Taxonomic Problems. Annals of Eugenics. 1936, 7: 179–188. 3. 黄利文.改进的距离判别分析法.江南大学学报(自然科学版),2011,10(6):745-748
2.2.1 参数设置 设总体样本 Gi ~N3(0 μi,Σ),其中 G1 为 virginica 亚属 ,G2 为 versicolor 亚属,G1=X (1)=(x1, x2, x3, x4)T(其中 x1 为花萼长度,x2 为花萼宽度,x3 为花瓣长度,x4 为花瓣宽度),G2=X (2)=(x1, x2, x3, x4)T。计算未知样本 X=(x1, x2, x3, x4)T 到各总体 Gi (i=1、 2)的距离分别为马氏距离 di2。
由于 − 2ρ ln λ'4 <18.3274,故接受 H0:μ(1)=μ(2),Σ(1)=Σ(2)。
第2页共5页
综上所述,检验结果表明两总体的协方差阵和均值向量间没有显著差异。因此可以采用
两总体正态同协方差阵情形的判别方法进行下一步判别分析。
相关文档
最新文档