特征选择与特征提取-Read

合集下载

第八章-特征选择与提取

第八章-特征选择与提取
19
基于熵的判据
熵(Entropy):
Y
Ent(D) pk log2 pk k 1 样本类别确定: ������������ = 1, ������������������ = 0; 样本类别不确定: ������������ < 1, ������������������ > 0;
目标函数
m
min
( yi T xi )2 1
i 1
易获得稀疏解, 是一种嵌入式 特征选择方法
L1 norm
特征选择+特征提取
并行的思路
L1范数比L2范数更易获得稀疏解
m
min
( yi
i 1
T xi )2


2 2
L2 norm
33
嵌入式
34
总结
• 背景 • 特征子集搜索方法
14
基于距离的判据
• 搜索一个特征子集,我们希望 : 样本类内的距离尽可能小 样本类间距离尽可能大
Far away…
Far away…
Class1
Class2
15
基于距离的判据
样本均值向量:
ui

1 Ni
xDi
x,
(i 1, 2)
协方差矩阵:
Si (x ui )(x ui )T , (i 1, 2)
23Βιβλιοθήκη 基于熵的判据香农熵(Shannon Entropy):
������
������ ������ = − ෍ ������(������������|������) log2 ������(������������|������)
������=1

第五讲特征提取和特征选择

第五讲特征提取和特征选择

第五讲特征提取和特征选择
**特征提取和特征选择**
特征提取和特征选择是机器学习的重要组成部分,它们既可以提高机
器学习算法的性能、训练速度,也可以帮助研究者了解数据。

特征提取和
特征选择的目的是最大限度地挖掘数据中的有用信息,并创建出一组有意
义的特征,以便进一步的分析和模型建立。

特征提取是指从原始数据中提取出具有含义的特征,一般情况下,特
征提取过程中会涉及到一定的数据预处理、特征提取算法和特征可视化等
步骤。

常见的特征提取方法有主成分分析(PCA)、独立成分分析(ICA)、因子分析(FA)、降维分析(DA)、线性判别分析(LDA)等。

特征选择是从特征矩阵中选择最有效的特征,可以提高模型的准确率,减少模型的运行时间,同时可以更加深入地了解数据。

常见的特征选择方
法有过滤法(Filter)、包裹法(Wrapper)和嵌入法(Embedded)。

特征提取和特征选择非常重要,可以在机器学习的各个阶段发挥重要
作用,比如,可以在训练数据集合的构建阶段快速提取有效特征,以减少
数据集的维度;可以在模型训练阶段和测试阶段选择最优特征,以提高模
型性能,减少运算负担;还可以在结果分析和结论阶段。

特征选择和特征提取

特征选择和特征提取

特征选择和特征提取特征选择(Feature Selection)和特征提取(Feature Extraction)是机器学习领域中常用的特征降维方法。

在数据预处理阶段,通过选择或提取与目标变量相关且有代表性的特征,可以有效提高模型的性能和泛化能力。

特征选择指的是从原始特征集合中选择一部分最相关的特征子集,剔除无关或冗余的特征,以减少计算成本和模型复杂度。

它可以分为三种类型的方法:过滤方法(Filter Method)、包裹方法(Wrapper Method)和嵌入方法(Embedded Method)。

过滤方法是利用统计或信息论的方法来评估特征与目标变量之间的相关程度,然后根据得分来选择特征。

常见的过滤方法包括互信息(Mutual Information)、方差选择(Variance Selection)和相关系数选择(Correlation Selection)等。

包裹方法是在特征子集上训练模型,通过观察模型性能的变化来评估特征子集的优劣,并选择性能最好的特征子集。

包裹方法的代表性算法有递归特征消除(Recursive Feature Elimination)和遗传算法(Genetic Algorithm)等。

嵌入方法则是将特征选择融入到模型的训练过程中,通过训练模型时的正则化项或特定优化目标来选择特征。

常见的嵌入方法有L1正则化(L1 Regularization)和决策树的特征重要性(Feature Importance of Decision Trees)等。

主成分分析是一种无监督学习方法,通过线性变换将原始特征投影到一组正交的主成分上,使得投影后的特征具有最大的方差。

主成分分析可以降低特征的维度,并保留原始特征的主要信息。

线性判别分析是一种有监督学习方法,通过线性变换找到一个投影方式,使得在投影空间中不同类别的样本更容易区分。

线性判别分析可以有效地提取类别间的差异和类别内的相似性。

因子分析则是一种概率模型,通过考虑变量之间的相关性而提取潜在的共享特征。

特征提取与特征选择的区别与联系(七)

特征提取与特征选择的区别与联系(七)

特征提取与特征选择的区别与联系特征提取和特征选择是机器学习和模式识别领域中常用的两种特征处理方法。

它们都是在原始特征空间中对特征进行加工和处理,以便更好地应用于后续的分类、聚类或回归任务。

虽然它们都是对特征进行处理,但是它们的目的和方法却有很大的不同。

下面我们将详细探讨特征提取与特征选择的区别与联系。

特征提取是指从原始特征中抽取出新的特征表示。

在实际应用中,原始特征往往具有冗余和噪声,通过特征提取可以将原始特征进行变换,得到更具有辨识度和可分性的特征表示。

常见的特征提取方法包括主成分分析(PCA)、线性判别分析(LDA)、独立成分分析(ICA)等。

这些方法通过线性或非线性的变换,将原始特征映射到一个新的特征空间中,以便更好地进行后续的分类或聚类任务。

特征选择则是从原始特征中选择出子集,以降低维度、提高模型的泛化能力和减少计算复杂度。

特征选择方法包括过滤式、包裹式和嵌入式三种。

过滤式方法通过对特征进行打分或排序,然后选择得分高的特征作为子集;包裹式方法则是将特征选择看作一个搜索问题,针对具体的学习算法进行搜索;嵌入式方法则是将特征选择融入到学习器的训练过程中。

这些方法都是通过评估特征子集的质量,选择对模型性能影响最大的特征子集。

特征提取和特征选择在目的和方法上存在着很大的不同。

特征提取的目的是通过变换原始特征,得到更具有可分性和辨识度的新特征表示,从而提高模型的性能;而特征选择的目的则是通过选择出对模型性能影响最大的特征子集,降低维度、提高泛化能力和减少计算复杂度。

从方法上看,特征提取是通过线性或非线性的变换,将原始特征映射到一个新的特征空间中;而特征选择则是在原始特征空间中进行子集选择,保留对模型性能影响最大的特征子集。

特征提取和特征选择虽然在目的和方法上有很大的不同,但是它们之间也存在着联系。

首先,特征提取可以看作是一种特殊的特征选择,它通过对原始特征进行变换和映射,得到一个新的特征表示,实质上也是在选择对模型性能影响最大的特征子集。

特征提取与特征选择的区别与联系

特征提取与特征选择的区别与联系

特征提取与特征选择的区别与联系在机器学习和数据挖掘领域,特征提取和特征选择是两个重要的概念。

它们在数据预处理和模型构建中起着至关重要的作用。

本文将探讨特征提取与特征选择的区别与联系,并从理论和实践角度进行深入分析。

1. 特征提取的定义与意义首先,我们来看看特征提取的定义与意义。

特征提取是指从原始数据中提取出具有代表性的特征,以便进行后续的数据分析和建模。

在实际应用中,原始数据往往包含大量的冗余信息和噪声,特征提取的目的就是通过某种算法或方法,对原始数据进行转换或映射,得到更加有用和有效的特征表示。

这样可以提高模型的准确性和泛化能力,同时减少计算复杂度和存储空间的消耗。

特征提取的方法有很多种,比如主成分分析(PCA)、独立成分分析(ICA)、线性判别分析(LDA)等。

这些方法都是通过对原始数据进行变换,得到新的特征表示,从而达到降维、去噪或增强特征的目的。

2. 特征选择的定义与意义接下来,我们再来看看特征选择的定义与意义。

特征选择是指从原始特征中选择出最具有代表性和重要性的特征子集,以用于后续的建模和预测。

在实际应用中,原始特征往往包含很多冗余和无关的信息,特征选择的目的就是找出对目标变量影响最大的特征,从而简化模型、提高预测性能和可解释性。

特征选择的方法有很多种,比如过滤式、包裹式和嵌入式等。

过滤式方法是直接对特征进行评估和排序,选择最高分的特征子集;包裹式方法是把特征选择看作一个搜索问题,通过试验不同的特征子集来找到最佳组合;嵌入式方法则是在模型训练过程中,通过正则化或增加惩罚项的方式来选择特征。

3. 特征提取与特征选择的区别特征提取与特征选择虽然都是对原始数据或特征进行处理,但它们在目的和方法上有着明显的区别。

首先,特征提取是通过某种变换或映射,得到新的特征表示,目的是降维、去噪或增强特征;而特征选择是从原始特征中选择出最具有代表性和重要性的特征子集,目的是简化模型、提高预测性能和可解释性。

特征提取与特征选择的区别与联系(Ⅲ)

特征提取与特征选择的区别与联系(Ⅲ)

特征提取和特征选择是机器学习和数据挖掘领域中常用的两个概念。

虽然它们都是为了从原始数据中提取出有用的特征以便进行进一步的分析和建模,但是它们之间有着明显的区别和联系。

首先我们来看看特征提取,特征提取是指从原始数据中提取出一些能够代表数据特征的特征。

这些特征可以是原始数据中的某些属性,也可以是对原始数据进行某种变换得到的新的特征。

特征提取的目的是将原始数据转化为更容易被机器学习算法处理的形式,同时保持数据的最重要的特征。

特征提取的方法有很多种,比如说主成分分析(PCA)、线性判别分析(LDA)、小波变换等。

这些方法可以将高维度的数据降维到低维度,从而减小了数据的复杂度,提高了机器学习的效率。

特征提取的过程可以看成是对数据的一种抽象和概括,它的目的是提取出对于目标任务最有用的信息。

而特征选择则是在特征提取的基础上进行的一个步骤。

特征选择是指从已有的特征中选择出对目标任务最有用的特征。

在特征提取的过程中,可能会产生大量的特征,有些特征可能对于目标任务没有太大的作用,甚至会影响到机器学习算法的性能。

因此需要进行特征选择,选择出对目标任务最有用的特征,去除那些冗余或者无关的特征。

特征选择的方法也有很多种,比如说过滤式特征选择、包裹式特征选择、嵌入式特征选择等。

过滤式特征选择是指通过对特征进行评估,选择出对目标任务最有用的特征,比如说使用相关系数或者信息增益进行特征评估。

包裹式特征选择是指在特征子集上训练出一个机器学习模型,通过模型的性能来评估特征的重要性。

嵌入式特征选择则是指在模型训练的过程中自动选择出对目标任务最有用的特征,比如说使用正则化方法。

特征提取和特征选择在实际应用中经常会同时进行,它们之间有着很大的联系。

特征提取会产生大量的特征,在特征选择的过程中,有时候也需要对特征进行一些变换和组合。

比如说,在包裹式特征选择的过程中,需要对特征子集进行训练,可能需要将特征进行某种组合,而这个过程有点类似于特征提取。

模式识别7-特征选择和提取

模式识别7-特征选择和提取
为一般来说,原来的n个数据各自在不同程度上反映
了识别对象的某些特征,简单地删去某些特征可能会
丢失较多的有用信息。
• 如果将原来的特征做正交变换,获得的每个数据都是
原来n个数据的线性组合,然后从新的数据中选出少
数几个,使其尽可能多地反映各类模式之间的差异,
而这些特征间又尽可能相互独立,则比单纯的选择方
➢遗传算法
单独最优特征组合
特征
选择
计算各特征单独使用时的可分性判据J并加
以排队,取前d个作为选择结果
不一定是最优结果
当可分性判据对各特征具有(广义)可加性,
该方法可以选出一组最优的特征来,例:
➢各类具有正态分布
➢各特征统计独立
➢可分性判据基于Mahalanobis距离
d
J ij ( x1 , x2 ,..., xd ) J ij ( xk ) J D (x) (μi μ j )T 1(μi μ j )
k 1
顺序前进法
特征
选择
自下而上搜索方法。
每次从未入选的特征中选择一个特征,使得
它与已入选的特征组合在一起时所得的J值
为最大,直至特征数增加到d为止。
该方法考虑了所选特征与已入选特征之间的
相关性。
顺序后退法
特征
选择
该方法根据特征子集的分类表现来选择特征
搜索特征子集:从全体特征开始,每次剔除
➢ 当特征独立时有可加性:
k 1
➢ 单调性:
J ij ( x1 , x2 ,..., xd ) J ij ( x1 , x2 ,..., xd , xd 1 )
常见类别可分离性判据:基于距离、概率分布、熵
函数

特征选择与特征提取

特征选择与特征提取

特征选择与特征提取特征选择主要是从原始特征集中选择出一部分最具有代表性的特征,以减少数据维度和消除冗余信息,同时提高模型的泛化性能和可解释性。

特征提取则是从原始数据中提取出一组新的特征集,用于替代原始特征集,以更好地表示数据的内在特点。

特征选择和特征提取可以单独使用,也可以结合使用。

特征选择通常从以下几个方面进行考虑:1. 特征重要性:通过模型训练的过程中,可以计算每个特征在模型中的重要性,根据重要性进行特征选择。

例如,可以使用随机森林、决策树等模型计算特征的Gini指数或信息增益,选择重要性较高的特征。

2.相关性分析:通过计算特征之间的相关性,选择与目标变量相关性较高的特征。

例如,可以使用皮尔森相关系数、互信息等方法进行相关性分析。

3.方差分析:通过计算特征的方差,选择方差较大的特征。

方差较大的特征表示特征值在样本间的差异较大,对于区分不同类别的样本有更好的能力。

4.正则化方法:通过添加正则化项,使得模型选择更少的特征。

例如,LASSO正则化可以使得特征的系数趋向于0,从而实现特征选择。

特征提取主要通过以下几种方法进行:2.独立成分分析(ICA):通过独立地解耦数据的非高斯分布特性,将原始数据分解为独立的子信号,从而实现特征提取。

3.稀疏编码:通过稀疏表示的方式,将原始数据表示为尽可能少的非零元素组成的代码,从而实现特征提取。

4.字典学习:通过学习一个字典,将原始数据表示为字典中原子的线性组合,从而实现特征提取。

特征选择和特征提取的选择与应用主要依赖于具体的数据集和问题。

在选择方法时需要考虑数据的性质、特征与目标变量的相关性、特征的可解释性以及模型的复杂度等因素。

总之,特征选择和特征提取是机器学习领域中常用的数据预处理技术,可以提高模型训练的效果和泛化能力。

在实际应用中,根据不同的需求选择适合的方法,对数据进行处理,提取最有用的特征。

  1. 1、下载文档前请自行甄别文档内容的完整性,平台不提供额外的编辑、内容补充、找答案等附加服务。
  2. 2、"仅部分预览"的文档,不可在线预览部分如存在完整性等问题,可反馈申请退款(可完整预览的文档不适用该条件!)。
  3. 3、如文档侵犯您的权益,请联系客服反馈,我们会尽快为您处理(人工客服工作时间:9:00-18:30)。

第五章 特征选择与特征提取5.1 问题的提出前面主要介绍的是各种分类器的设计方法,实际上我们已经完全可以解决模式识别的问题了。

然而在实际应用中,在分类器设计之前,往往需要对抽取出的特征进行一下处理,争取尽量减小特征的维数。

在实践中我们发现,特征的维数越大,分类器设计的难度也越大,一维特征的识别问题最容易解决,我们只要找到一个阈值t ,大于t 的为一类,小于t 的为一类。

同时特征维数越大,要求的训练样本数量越多,例如在一维的情况下,10个训练样本就可以比较好的代表一个类别了,而在10维空间中,10个训练样本则是远远不够的。

这一章中我们就来介绍一下减小特征维数的方法。

一般来说模式识别系统的输入是传感器对实物或过程进行测量所得到的一些数据,其中有一些数据直接可以作为特征,有一些数据经过处理之后可以作为特征,这样的一组特征一般称为原始特征。

在原始特征中并不一定每个特征都是有用的,比如在识别苹果和橙子的系统中,我们可以抽取出的特征很多,(体积,重量,颜色,高度,宽度,最宽处高度),同样还有可能抽取出其它更多的特征。

在这些特征中对分类有用的是(颜色,高度,最宽处高度),其它特征对识别意义不大,应该去除掉。

这样的过程称为是特征选择,也可以称为是特征压缩。

特征选择可以描述成这样一个过程,原始特征为N 维特征()12,,,TN x x x =X ,从中选择出M 个特征构成新的特征矢量()11,,,MTi i i Y x x x =,M N <。

同时,特征矢量的每一个分量并不一定是独立的,它们之间可能具有一定的相关性,比如说高度和最宽处的高度,高度值越大,最宽处的高度值也越大,它们之间具有相关性,我们可以通过一定的变换消除掉这种相关性,比如取一个比值:最宽处的高度/高度。

这样的过程称为特征提取。

特征提取可以描述为这样一个过程,对特征矢量()12,,,TN x x x =X 施行变换:()i i y h =X ,1,2,,i M =,M N <,产生出降维的特征矢量()12,,,TM Y y y y =。

在一个实际系统的设计过程中,特征的选择和提取过程一般都需要进行,首先进行特征选择,去除掉无关特征,这些特征实践上根本就不需要抽取出来,这部分传感器根本不需要安装,这样也可以减小系统的的成本。

然后进行特征提取,降低特征的维数。

然后利用降维之后的样本特征来设计分类器。

5.2 模式类别的可分性判据在讨论特征选择和特征压缩之前,我们先要确定一个选择和提取的原则。

对一个原始特征来说,特征选择的方案很多,从N 维特征种选择出M 个特征共有()!!!MN N C M N M =-中选法,其中哪一种方案最佳,则需要有一个原则来进行指导。

同样,特征的压缩实际上是要找到M 个N 元函数,N 元函数的数量是不可数的,这也要有一个原则来指导找出M 个最佳的N 元函数。

我们进行特征选择和特征提取的最终目的还是要进行识别,因此应该是以对识别最有利原则,这样的原则我们称为是类别的可分性判据。

用这样的可分性判据可以度量当前特征维数下类别样本的可分性。

可分性越大,对识别越有利,可分性越小,对识别越不利。

人们对的特征的可分性判据研究很多,然而到目前为止还没有取得一个完全满意的结果,没有哪一个判据能够完全度量出类别的可分性。

下面介绍几种常用的判据,我们需要根据实际问题,从中选择出一种。

一般来说,我们希望可分性判据满足以下几个条件:1. 与识别的错误率由直接的联系,当判据取最大值时,识别的错误率最小;2. 当特征独立时有可加性,即:()()121,,,Nij N ij k k J x x x J x ==∑ij J 是第i 类和第j 类的可分性判据,ij J 越大,两类的可分程度越大,()12,,,N x x x 为N 维特征;3. 应具有某种距离的特点:0ij J >,当i j ≠时; 0ij J =,当i j =时; ij ji J J =;4. 单调性,加入新的特征后,判据不减小:()()12121,,,,,,,ij N ij N N J x x x J x x x x +≤。

但是遗憾的是现在所经常使用的各种判据很难满足上述全部条件,只能满足一个或几个条件。

一、基于几何距离的可分性判据在介绍这一类判据之前,先来看一下各种几何距离的定义。

1. 点与点的距离这是我们前面已经介绍过的一种距离,可以有多种形式,如欧氏距离、街市距离、马氏距离等,特征矢量X 和Y 之间的距离可以表示为:()()(),Td =--X Y X Y X Y (欧氏距离)2. 点与类别之间的距离这也是我们前面定义过的一种距离度量,常用的有:平均样本法、平均距离法、最近距离法,K -近邻法等。

特征矢量X 与i Ω类别之间距离的平方可以表示为:()()()2211,,iN i i kk id d N =Ω=∑X X X (平均距离法)其中()()()12,,,iiii N X X X 为i Ω类中的样本,i N 为i Ω类别中的样本数。

3. 类内距离设i Ω了由样本集()()(){}12,,,ii i i N X X X ,样本的均值矢量为()i m ,则由样本集定义的类内均方距离为:()()()()22111,i iN N i i i klk l i id d N N ==Ω=∑∑X X当取欧氏距离时有:()()()()()()()211iN Ti i i ii kkk id N =Ω=--∑XmX m4. 类别之间的距离在第二章中对类别之间的距离也做过定义,包括最短距离法,最长距离法,类平均距离法等。

i Ω类与j Ω类之间的距离可以表示为:()()()()111,,jiN N i j i j klk l i jd d N N ==ΩΩ=∑∑X X (平均距离法)当取欧氏距离时,可定义两类之间的均方距离:()()()()()()()2111,jiN N Ti j i j i j klklk l i jd N N ==ΩΩ=--∑∑XX X X有了距离度量之后,我们就可以在此基础上定义可分性测度了。

一般来讲,当各个类别的类内距离越小时可分性越强,而类间距离越大时,可分性越强。

因此可以有以各类样本之间的平均距离作为判据:()()()()111,2MMd i j i j i j J P P d ===ΩΩΩΩ∑∑X()d J X 所反映的主要还是类别之间的分离程度,对类内的聚集程度反映不够。

通常我们采用跟一般的矩阵形式来构造可分性判据。

1. 类内散度矩阵设有M 个类别,1,,M ΩΩ,i Ω类样本集()()(){}12,,,ii i i N X X X ,i Ω类的散度矩阵定义为:()()()()()()()11iN Ti i i i i wkkk iS N ==--∑XmXm总的类内散度矩阵为:()()()()()()()()()1111iN MMTi iiiiw i wi k k i i k i S P S P N ====Ω=Ω--∑∑∑X m X m2. 类间散度矩阵第i 个类别和第j 个类别之间的散度矩阵定义为:()()()()()()()Tij i j i j B S =--m mmm总的类间散度矩阵可以定义为:()()()()()()()()()()()11111122M M M Mij i j i j B i j B i i i j i j S P P S P P =====ΩΩ=ΩΩ--∑∑∑∑m m m m令:m 为总体均值,()()1Mi ii P ==Ω∑m m ,则有: ()()()()()1MTi i B i i S P ==Ω--∑m m m m3. 总体散度矩阵总体散度矩阵可以定义为:()()11N TT l l l S N ==--∑X m X m其中N 为总的样本数,1Mii N N ==∑。

可以证明:TW B SS S =+。

可以看出三个散度矩阵均为实对称矩阵。

上面我们所定义的判据:()d J X =()()()tr tr d T W B J S S S ==+X 。

tr 表示取一个矩阵的迹,也就是主对角线元素之和,N 维方阵A 的迹为:()1tr Niii a=A =∑同样我们可以利用三个散度矩阵定义出一系列的可分性判据:()11tr W B J S S -=2B WS J S =()()3tr tr B W S J S =4T WS J S =其中Α表示方阵Α的行列式的值,比较常用的判据是1J 。

基于几何距离的可分性判据计算起来比较简单,只要我们已知各个类别的训练样本集,就可以计算出三个散度矩阵,同时也就可以计算出各种可分性判据。

二、基于概率分布的可分性判据基于几何距离的可分性判据计算起来比较简单,然而它没有考虑各类别的概率分布,因此与识别错误率之间的联系却不是很紧密。

下面介绍一种直接基于概率分布的可分性判据。

先以最简单的一维特征、两类问题为例,下图表示了两种极端情况:第一种情况是两类完全可分:对所有()10p Ω≠X 的点,有()20p Ω=X ; 第二种情况是两类完全不可分:对所有的X 有()()12p p Ω=ΩX X 。

下面我们可以定义两个类条件概率密度函数之间的距离P J 作为交叠程度的度量,P J 应该满足如下条件:1. 非负性,0P J ≥;2. 当两类完全重叠时P J 取最大值,即若对所有X 有()20p Ω≠X 时,()10p Ω=X ,则max P J =;3. 当两类密度函数完全相同时,P J 应为零,即若()()21p p Ω=ΩX X ,则0P J =。

按照这样的要求,可以定义出多种可分性判据,这里我们只介绍其中一种—散度。

现在考虑i Ω和j Ω两类之间的可分性,取其对数似然比:()()()lni ij j p l p Ω=ΩX X X则i Ω类对j Ω类的平均可分性信息可以定义为:()()()()()lni ij ij i j p I E l p d p Ω⎡⎤==Ω⎣⎦Ω⎰XX X X X X X同样j Ω类对i Ω类的平均可分性信息:()()()()()lnj ji ji j i p I E l p d p Ω⎡⎤==Ω⎣⎦Ω⎰XX X X X X X散度P J 定义为区分i Ω类和j Ω类的总平均信息:()()()()ln i P ij ji i j j p J I I p p d p Ω⎡⎤=+=Ω-Ω⎣⎦Ω⎰XX X X X X从P J 的定义可以看出,当两类分不完全性同()()i j p p Ω=ΩX X 时,0P J =;当两类完全可分时,P J =+∞。

基于概率的可分性判据优点是直接与识别的错误率相联系,缺点是需要已知各个类别类概率密度函数,只有当我们预先已知各类别的概率分布时,才可以利用训练样本集合估计出概率密度函数,但是对很多实际问题来说各类别的概率分布情况我们是无法预先知道的。

相关文档
最新文档