第8讲 特征提取的原则和方法

合集下载

机器学习中的特征提取

机器学习中的特征提取

机器学习中的特征提取在机器学习中,特征提取是一个非常重要的概念,其作用是从原始数据中提取能够代表数据关键信息的特征来进行分析和处理。

特征提取是将数据转化为可用于机器学习算法的输入的过程。

特征提取的质量会直接影响机器学习算法的性能和准确率。

本文将从特征提取的概念、常用方法和应用场景等方面进行阐述。

一、特征提取的概念特征提取是一个从原始数据中提取相关特征的过程,这些特征可代表数据中的相关信息。

本质上,特征提取是一种特征工程,用于将原始数据转化为可被算法使用的输入,而且,一个良好的特征提取方法应当具备以下几个特点:1、提取出的特征应该具有区分度:即,同类别的数据在这些特征上的值应该有明显的差异,不同类别的数据在这些特征上的值应该有明显的相似性。

2、提取出的特征应该具有可操作性和可解释性:提取出的特征应该直观,让人们能够对其进行直接地分析和理解。

3、提取出的特征应该满足机器学习任务的需求:提取出的特征应该与所选用的机器学习算法具有很好的匹配性。

二、常用特征提取的方法1、主成分分析法(PCA)PCA是一种常用的数据降维算法,通过将高维数据映射到低维空间中,从而实现数据的压缩和降噪。

PCA的基本思想是,将原始数据在低维空间中进行正交化映射,从而去除不相关的数据维度,保留与数据相关性最高的维度。

2、线性判别分析(LDA)LDA能够将样本进行类别划分,使得相同类别的数据点聚集在一起,不同类别的数据点分离。

这种方法使得提取的特征更具有代表性和区分性,进而提高了算法的精度。

3、卷积神经网络(CNN)与传统的神经网络相比,CNN模型在处理图像等数据时具有更好的效果,因其模型的“卷积”操作可以轻松捕捉数据中的局部特征,而且由于神经元的权重共享机制,能够大大减少模型的参数量,使得模型更具可以扩展性和鲁棒性。

三、特征提取的应用场景1、图像识别在计算机视觉任务中,图片或视频中包含了大量未被显示的信息,通过特征提取来提取出图片或视频中最为重要的信息,是计算机识别任务的重要环节。

特征提取的基本原理(八)

特征提取的基本原理(八)

特征提取是计算机视觉和模式识别领域中的重要技术,它主要是指从数据中提取出有用的特征信息,用于后续的数据分析、模式识别和分类任务。

特征提取的基本原理涉及到信号处理、数学建模和计算机编程等多个领域的知识,下面将从特征提取的基本原理、常用方法和应用领域等方面进行探讨。

特征提取的基本原理可以总结为以下几点:首先,特征提取的目标是从原始数据中提取出具有代表性和区分性的特征信息。

在计算机视觉中,原始数据可以是图像或视频,而在自然语言处理中,原始数据可以是文本或语音。

特征提取的核心是将高维度的原始数据转化为低维度的特征向量,以便于计算机进行进一步的处理和分析。

其次,特征提取的基本原理涉及到信号处理和数学建模的相关理论。

在信号处理中,常用的特征提取方法包括傅里叶变换、小波变换和离散余弦变换等,这些方法可以将原始信号转化为频域或时域的特征表示。

在数学建模中,常用的特征提取方法包括主成分分析、独立成分分析和流形学习等,这些方法可以从数学角度对数据进行建模和分解,提取出具有代表性的特征信息。

另外,特征提取的基本原理还涉及到计算机编程和机器学习的相关技术。

在计算机编程中,特征提取可以通过编写程序实现,例如使用OpenCV库对图像进行边缘检测和特征描述,或者使用Librosa库对音频进行频谱分析和特征提取。

在机器学习中,特征提取是模型训练的前置步骤,通过对原始数据进行特征提取和选择,可以提高模型的泛化能力和预测性能。

在实际应用中,特征提取的方法和技术非常丰富多样,下面将介绍一些常用的特征提取方法和应用领域。

首先,图像特征提取是计算机视觉领域的重要研究课题。

常用的图像特征提取方法包括颜色直方图、纹理特征和形状特征等,这些特征可以用于图像分类、目标识别和图像检索等任务。

例如,可以使用颜色直方图对图像的色彩分布进行统计,用于实现图像的自动分类和检索。

其次,语音特征提取是自然语言处理领域的重要研究内容。

常用的语音特征提取方法包括梅尔频率倒谱系数(MFCC)、线性预测编码(LPC)和短时能量等,这些特征可以用于语音识别、说话人识别和语音合成等任务。

第八章特征提取

第八章特征提取

23
未知类别样本的K-L变换
特征 提取
常用总体样本的协方差矩阵C=E[(x-μ) (x-μ)T]
进行K-L变换,K-L坐标系U=[u1,u2,...,ud]按照C
的本征值的下降次序选择。

例:设一样本集的协方差矩阵是: C 求最优2x1特征提取器U

19.5

9.5
9.5 7.5
解答:计算特征值及特征向量[V, D]=eig(C);
特征选择(selection) :从原始特征中挑选出 一些最有代表性、分类性能最好的特征。
特征的选择与提取与具体问题有很大关系, 目前没有理论能给出对任何问题都有效的特 征选择与提取方法。
第八章 特征提取
6
特征的选择与提取举例
引言
细胞图像自动分类:
原始测量:(正常与异常)细胞的数字图像
y = UTx = u1T x = y1
变换的能量损失为
22 1 5.9% 12 22 42 12
第八章 特征提取
22
K-L变换的产生矩阵
特征 提取
数据集KN={xi}的K-L变换的产生矩阵由数据 的二阶统计量决定,即K-L坐标系的基向量为 基于数据x的某种二阶统计量的产生矩阵的 本征向量。
d个本征值对应的本证向量组 成变换矩阵W,就是构造d个
主成分1,...,d的最佳变换。
数据中大部分信息集中在较少的几个主成分上
d
D
i / i
1
1
根据给定的比例,选择适当数目的主成分作为样本的新特征
第八章 特征提取
13
8.4 K-L (Karhunen-Loeve)变换
特征提取:
降低特征维数在很多情况下是有效设计分类器的重要课题。

特征提取原理

特征提取原理

特征提取原理特征提取是机器学习和计算机视觉等领域中重要的预处理步骤之一,其目的是从原始数据中提取有用的、可表示的、可区分的特征。

特征提取通常是非常关键的,因为它能够将数据转换为高质量的表示形式,从而能够更准确地进行分类、识别、聚类等任务,提高处理效率和精度。

本文将介绍特征提取原理的相关内容。

一、特征提取定义特征提取的主要原理是从原始数据中提取具有判别性的特征,通常结合领域知识、特征选择方法、维度降低技术等多种方法实现。

其主要步骤如下:1. 特征提取:根据任务需求和实际情况选择特征,例如图像处理中的边缘检测、纹理特征计算等。

2. 特征选择:对提取到的特征进行评价和选择,通常根据评价指标、数据情况和目标任务等因素进行选择,例如方差分析、相关性分析、卡方检验等。

3. 维度降低:针对高维数据,根据任务需求和实际情况进行维度降低,例如主成分分析、线性判别分析等。

4. 特征表示:将提取到的特征进行表示形式转换,例如将灰度图像的像素值转换成局部二进制模式特征。

5. 特征归一化:对特征进行归一化处理,使其具有统一的尺度,例如z-score标准化、min-max标准化等。

6. 特征组合:将不同类型的特征进行组合,以得到更完整和有用的信息,例如将颜色、纹理、形状特征组合在一起进行分类。

三、特征提取的应用特征提取是机器学习和计算机视觉等领域中的重要预处理步骤,广泛应用于各种数据分析、分类、聚类等任务中。

具体应用如下:1. 图像处理:在计算机视觉领域中,特征提取是图像处理的关键步骤,例如在人脸识别、目标检测、图像分类、图像分割等任务中,利用局部二进制模式、HoG特征、SIFT特征等进行特征提取。

2. 文本处理:在文本分类、情感分析、语言翻译等任务中,利用TF-IDF、word2vec等进行文本特征提取。

3. 信号处理:在信号分析、语音识别等领域中,例如在语音信号中提取基频、谐波等特征。

4. 生物医学:在医学图像处理、生物信息学等领域中,例如在脑成像、遗传分析等任务中,进行特征提取和分类。

第8章 特征的选择与提取(特征选择)

第8章 特征的选择与提取(特征选择)

其核心问题
是通过合理组合搜索过程,可以避免一些 计算而仍能得到最优的结果。
其关键是利用了判据的单调性
最优搜索算法
判据的单调性
如果特征存在包含关系: 则有: 称该判据具有单调性 讨论过的J1-J5,以及基于概率距离的判据 JD,JC,JB都满足上述关系
最优搜索算法
下面我们结合一个从D=6的六维特征空 间选择d=2的二维最优子空间的例子, 说明该算法的原理以及如何利用判据的 单调性减少计算量。 设原D维空间有六个特征表示成 {x1,x2,x3,x4,x5,x6}
(2) 确定直接后继结点要删除的特征
删去其中一特征的相应判据值,判据最小
最优搜索算法
回溯过程
要执行的任务是将第i层的ψ加上第i-1层被删 除的特征,并检查其分支路数q 待发现到 qi-1>1,就到达回溯转折点,转入其 相邻左边第i层结点。
最优搜索算法
优点
该算法避免了部分d个特征组合的判据计算,与穷 举相比节约了时间。
当l<r时,入选特征数逐渐增加,属“自下而上” 型 反之属“自上而下”型。
增l减r法(l-r法)
此法也可推广至用GSFS及GSBS代替SFS及SBS 并可在实现增加l特征时采用分几步实现
增l特征用Zl步减r则用Zr步,该种方法一般称为(Zl, ( Zr)法 这种做法是为了既考虑入选(或剔除)特征之间的相 关性,又不至因此引起计算量过大。 合理地设置Zl和 Zr可以同时对两者,即计算复杂性 及特征选择的合理性兼顾考虑
简单回顾
类别可分离性判据的种类
基于距离度量的可分性判据 基于概率分布的可分性判据等
特征提取
按欧氏距离度量的特征提取方法 按概率距离判据提取特征
8.4 特征选择

特征提取原理

特征提取原理

特征提取原理特征提取是指从原始数据中提取出有用的信息以描述数据的特征。

在机器学习和数据分析领域,特征提取是一个重要的步骤,它可以帮助我们将复杂的数据转换为更容易理解和处理的形式,从而为后续的模型训练和预测提供支持。

特征提取的原理基于以下几个步骤:1. 数据预处理:在特征提取之前,我们需要对原始数据进行预处理。

这可以包括数据清洗、缺失值处理、标准化等一系列操作,以确保数据的质量和一致性。

2. 特征选择:根据任务的需求和数据的特点,我们需要选择合适的特征进行提取。

特征选择的目标是找到最能代表数据信息的特征,同时减少冗余和噪声的影响。

常用的特征选择方法包括相关性分析、方差分析、互信息等。

3. 特征转换:在选定特征后,我们可能需要对其进行转换以获得更好的表达能力。

常用的特征转换方法包括主成分分析(PCA)、线性判别分析(LDA)等。

这些方法可以将高维特征映射到低维空间,同时保留尽可能多的信息。

4. 特征提取:在特征转换的基础上,我们可以使用各种算法和技术进行特征提取。

常见的方法包括基于统计的方法(如均值、方差、最大值等)、基于频率的方法(如频谱分析、小波变换等)、基于形态学的方法(如形态学操作、轮廓提取等)等。

5. 特征表示:最后,我们需要将提取出的特征表示为机器学习算法可以理解和处理的形式。

这可以包括将特征转换为向量、矩阵或其他数据结构,并进行归一化或标准化等操作。

通过特征提取,我们可以将原始数据转换为更适合模型训练和预测的形式。

合理选择和提取特征可以提高模型的性能和准确性,同时减少计算和存储的开销。

因此,特征提取在机器学习和数据分析中具有重要的意义。

第八讲 特征提取和特征选择(讲义)

第八讲 特征提取和特征选择(讲义)

第八讲特征提取和特征选择一、基本概念1、特征的生成(1)原始特征的采集和转换通过对原始特征的信号采集,获得样本的原始表达数据,从原始数据中选择或计算出对分类任务有用的原始特征,并转换成可用的形式原始数据:像素点RGB值矩阵可用的原始特征:轮廓特征颜色特征纹理特征数学特征(2)有效特征的生成目的:降低特征维数,减少信息冗余提升特征的有效性方法:特征提取:提高特征对类别的分辨能力特征选择:寻找对分类最重要的特征 2、 特征提取通过某种变换,将原始特征从高维空间映射到低维空间。

A :X →Y ; A 为特征提取器,通常是某种正交变换。

最优特征提取:J(A*)=max J(A), J 是准则函数3、 特征选择从一组特征中挑选出一些最有效的特征,以达到降低特征空间维数的目的。

Dd d i S y y y y F x x x S i d D <=∈→;,...,2,1,},......,,{:},......,,{:2121原始特征集合S 中包含D 个特征,目标特征集合F 中包含d 个特征;最优特征选择:J(F*)=max J(F), J 是准则函数 4、 准则函数的选取(1) 准则函数的选取原则分类正确率是最佳的特征提取和特征选择准则函数,但难以计算。

实用的类别可分性准则函数应满足以下要求:与分类正确率有单调递增关系当特征独立时具有可加性:∑==dk kijd ij x J x x x J 1)()...21,,,(具有标量测度特性:⎪⎩⎪⎨⎧===≠>ji ij ij ij J J j i J j i J 时,当时,当00对特征具单调性:)...)...12121+,,,,(,,,(ddijdij xxxxJxxxJ<(2)类内类间距离是各类的先验概率。

,中的样本数,为中的样本数,为),(:值,称为类内类间距离向量之间的距离的平均离,则各类中各特征)为这两个向量间的距,(特征向量,维类中的类及分别为,类,令设一个分类问题共有定义:jijjiinknljlikci jicjjidjlikjijlikPPnnxxnnPPxJxxxxai jωωδδωω∑∑∑∑=====1111121)()()()()()()(Dc.例:∑∑∑∑∑∑∑∑∑∑∑∑∑∑∑∑================⨯⨯⨯⨯⨯⨯⨯⨯========2121222221311212312121213131111111212121211111221213212123121331211212340602121k l l k k l l k k l l k k l l k n k n l j l i k i ji j jid n k n l j l i k c i ji cj jid x xP P x xP P x x P P x x P P x x n n P P x J n n P P c x x n n P P x J ijij),(+),(+),(+),(),(),()()()()()()()()()()()()()(,,.,.,)(δδδδδδ对于随机性统计分类,类内类间距离和分类错误率不相关 b.类内类间距离的分解()()()()()()()()m m m mn P m xm xn P m m m m m x m x n P x J mP m m x m i m x x x x x x i Tici ii n k i i kTii kic i in k i Ti i i kTii kici i d ci ii n k i k n i i j l i k j l i k j l i k iiii--+--=⎥⎥⎦⎤⎢⎢⎣⎡--+--===∑∑∑∑∑∑∑=======11111111111)()()()()()()(T )()()()( )( : 则总均值向量:表示所有各类样本集的用类样本集的均值向量表示第用)-()-)=(,(则有的距离,度量两个特征向量之间如采用均方欧氏距离来δ()()()()()bw b w b w d Ti ic i ib n k Tii kii kici iw J J S tr S tr S S tr x J m m m mP S m x m x n P S i+=+=+=--=--=∑∑∑===)()( )( )()(则间离散度矩阵分别为令类内离散度矩阵和类1111Jw 称为类内平均距离,Jb 称为是类间平均距离从类别可分性的要求来看,希望Jw 尽可能小, Jb 尽可能大 (3) 概率距离类间的概率距离可用分布函数之间的距离来度量完全可分:若p(x|ω1) ≠0时, p(x|ω2)=0;完全不可分:对任意x ,都有 p(x|ω1) = p(x|ω2);性的概率距离度量则可作为两类之间可分;为、当两类完全不可分是取得最大值;、当两类完全可分时;、满足以下条件:若任何函数0c b 0a ],),|(),|([)(p p p p J J J dx P P x p x p g J ≥=∙⎰2121ωω二、 使用类内类间距离进行特征提取1、 准则函数的构造:类内类间距离为:Jd=Jw+Jb =tr (Sw +Sb)其中Jw 是类内平均距离,Jb 是类间平均距离通常给定一个训练集后,Jd 是固定的,在特征提取时,需要加大Jb ,减小Jw ,来获得满意的分类效果。

第八章 特征提取

第八章 特征提取

第八章特征表示与描述图像分析系统的构成特征表示与描述特征表示与描述的基本概念表示法设计边界描述子关系描述子特征表示与描述的基本概念基本概念特征表示与描述的定义:把图像分割后,为了进一步的处理,分割后的图像一般要进行形式化的表达和描述解决形式化表达问题一般有两种选择:1)根据区域的外部特征来进行形式化表示2)根据区域的内部特征(比较区域内部的象素值)来来进行形式化表示特征表示与描述的基本概念基本概念外部特征来进行形式化表示举例:特征表示与描述的基本概念基本概念选择表达方式,要本着使数据变得更有利于下一步的计算工作。

下一步工作是基于所选的表达方式描述这个区域,一般情况下:1)如果关注的焦点是形状特性,选择外部表示方式2)如果关注的焦点是反射率特性,如颜色、纹理时,选择内部表示方式3)所选表示方式,应该对尺寸、变换、旋转等变量尽可能的不敏感特征表示与描述:表示法设计表示法设计链码多边形逼近外形特征边界分段区域骨架特征表示与描述:表示法设计 链码定义:1)链码是一种边界的编码表示法。

2)用边界的方向作为编码依据。

为简化边界的描述。

一般描述的是边界点集。

0123014672354-链码8-链码特征表示与描述:表示法设计4-链码:000033333322222211110011特征表示与描述:表示法设计链码算法:给每一个线段边界一个方向编码。

有4-链码和8-链码两种编码方法。

从起点开始,沿边界编码,至起点被重新碰到,结束一个对象的编码。

特征表示与描述:表示法设计链码问题1:1)链码相当长。

2)噪音会产生不必要的链码。

改进1:1)加大网格空间。

2)依据原始边界与结果的接近程度,来确定新点的位置。

特征表示与描述:表示法设计链码举例:4-链码:003332221101特征表示与描述:表示法设计链码问题2:1)由于起点的不同,造成编码的不同2)由于角度的不同,造成编码的不同 改进2:1)从固定位置作为起点(最左最上)开始编码2)通过使用链码的首差代替码子本身的方式特征表示与描述:表示法设计链码循环首差链码:用相邻链码的差代替链码例如:4-链码10103322 循环首差为:33133030循环首差:1 -2 = -1(3) 3 -0 = 30 -1 = -1(3) 3 -3 = 01 -0 = 12 -3 = -1(3)0 -1 = -1(3) 2 -2 = 0特征表示与描述:表示法设计链码应用背景:如果边界的本身对于旋转和比例修改来说是无变化的,使用链码才是正确的。

  1. 1、下载文档前请自行甄别文档内容的完整性,平台不提供额外的编辑、内容补充、找答案等附加服务。
  2. 2、"仅部分预览"的文档,不可在线预览部分如存在完整性等问题,可反馈申请退款(可完整预览的文档不适用该条件!)。
  3. 3、如文档侵犯您的权益,请联系客服反馈,我们会尽快为您处理(人工客服工作时间:9:00-18:30)。
T
关键在 e 返回
= 1 的条件下求 eT Se
的最大值
e Se
T
的最大值计算
构造拉格朗日函数: L = eT Se − λ (eT e − 1) 对e求偏导,并且令结果为0,得: 因此,λ为 S的最大本征值,e为S的最大 本征值对应的单位本征向量。 返回
∂L = 2Se − 2λe = 0, ∂e Se = λe
J1 (e) =
n k =1 2 ∑ ak k =1 n 2 − 2 ∑ ak k =1 n
+ ∑ X k − m = − ∑ e ( X k − m) + ∑ X k − m
T k =1 k =1 k =1 T n 2 T n 2 k =1 k =1
n
2
n
[
]
2
n
2
= − ∑ e ( X k − m)( X k − m) e + ∑ X k − m = −e Se + ∑ X k − m
返回
特征提取的基本要求
区分度高,即样本类内距离应尽量小, 类间距离尽量大。 具有较高的稳定性和鲁棒性。 易于提取,在保证系统性能的前提下, 特征的维数不宜过高,以减少运算量和 提高系统的效率。 返回
特征提取的基本原则
目的性原则 简约性原则
返回
目的性原则
以分类的目的为指导:当分类的目的决 定之后,如何找到合适的特征就成为模 式识别的核心问题。 解决不同的分类问题通常需要提取不同 的特征,需要具体问题具体分析。 举例:例1,例2。 返回
特征提取准则函数举例
如果设J是一个准则函数,那么从n个原 始特征选择d个关键特征时,应满足
J ( x1 , x2 ,..., xd ) = max{J ( xi1 , xi2 ,..., xid )}
其中 xi1 , xi2 ,..., xid 是n个特征中的任意d 个原始特征 返回
特征提取的基本方法
n
返回
K-L变换举例
已知
1 2 − 1 − 2 X 1 = , X 2 = , X 3 = , X 4 = 1 2 − 1 − 2
计算从2维中选择1维的K-L变换 计算过程 计算结果示意图 返回
计算过程
生成变换矩阵
选择前m个(最大的m个)特征根 对应的单位化特征向量ξ1, ξ2,…, ξm 生成变换矩阵:
M m×n = (ξ1 , ξ 2 ,...,ξ m )
T
返回
构造K-L变换
Y = Mm×n X
其中yk代表第k主成分,第1主成分代表 最分散的方向。 返回
计算均方误差
ε
2
= ∑ λi
i = m +1
由于 e = 1,将J1 (a1,..., an ; e) 对ak求偏导,并且 令结果为0可得:
ak = e ( X k − m )
T
返回
最优的方向e
定义离散度矩阵(scatter matrix)为: n
S = ∑ ( X k − m)( X k − m)T
k =1
将 ak = eT ( X k − m) 代入 J1 (a1,..., an ; e) 化简得:
2
= ∑ X0 −m + ∑ Xk −m
k =1 k =1
2
n
2
返回
一维主成分分析
作一条通过均值的直线,如果e表示直线方向的单位 向量,那么直线的方程为:
X = m + ae
其中a表示直线上某点离开m的距离。 如果用m+ake来代表Xk,那么通过最小化平方误差准 则函数,可以求得一组最优的ak和最优的方向e:
多维主成分分析
如果考虑过样本均值的多维子空间:
X = m + ∑ ai ei
d′ i =1
并定义新的平方误差准则函数: 则可进行多维主成分分析,结果为: e1 , e 2 ,..., e d ′ 是S的前 d ′ 个本征值对应的本征向量
aki = eT ( X k − m) i
d′ J d ′ = ∑ m + ∑ aki ei − X k k =1 i =1 n 2
找出各种对识别可能有用的细胞属性 选择容易计算的细胞属性构成原始特征 对易计算属性进行再次选择和重组产生 合理、有效的关键特征
返回
一些对识别有用的细胞属性
细胞总面积、细胞总周长、总光密度、 胞核密度、核浆比、细胞形状、核内文 理等 这些属性的数目可能很多,有些不易计 算和描述,通常需要进行选择,以保留 那些容易计算的属性。 返回
总结各种可能对分类和识别有帮助的可 计算属性,从中生成原始特征 对原始特征进行直接选择,变换选择或 多级选择产生关键特征。
返回
直接选择
从n个特征中直接选择两个特征 从n个特征中直接选择m个特征
返回
从n个特征中直接选择两个特征
eiT xi Y2×1 = T Xn×1 = xj ej
J1 (a1 ,..., an ; e) = ∑ (m + ak e) − X k
k =1 n 2
= ∑ ak e − ( X k − m )
k =1 2
n
2
返回
=
2 ∑ ak k =1
n
e − 2 ∑ ak e ( X k − m ) + ∑ X k − m
T k =1 k =1
2
n
n
最优的ak
主成分分析的基本思想 零维主成分分析 一维主成分分析 多维主成分分析 主成分析的数学变换 返回
主成分分析的基本思想
寻找在最小均方差意义下最能够代表原 始数据的投影方法。
返回
零维主成分分析
设有n个d维样本X1,X2,…, Xn,如何仅仅用一 个d维向量X0来最好地表达这n个样本,使X0 与其他样本Xk (k=1,2,…,n)的距离平方和最小。 如果定义平方误差准则函数J0(X0) J )如下:
第8讲 特征提取的原则和 讲 方法
要点:
特征提取的重要性 特征提取的基本任务 特征提取的基本要求 特征提取的基本原则 特征提取的基本方法 课堂练习1,课堂练习2
特征提取的重要性
在一个较完善的模式识别系统中,或 者明显地或者隐含地要有特征提取的 技术环节,通常其处于对象特征数据 采集和分类识别两个环节之间,特征 提取方法的优劣极大地影响着分类器 的设计和性能。举例 返回
计算样本均值
1 P X = ∑Xp P p =1
返回
计算协方差矩阵
S n×n 1 P = ∑ X = ∑ ( X k − X )( X k − X )T P k =1
返回
计算特征根及特征向量
λI − S n×n = 0
(λi I − S n×n )ξ i = 0
计算上式的所有特征根λ1, λ2,…, λn及相应的 单位化特征向量ξ1, ξ2,…, ξn。返回
一些容易计算的细胞属性
细胞总面积、细胞总周长、胞核密度等。 这些特征称为原始特征。
返回
关键特征的生成
(周长 ) 似圆度 t = 4π × 面积
2
返回
细胞分类函数的构造
正常细胞, t ≈ 1 f (t ) = 异常细胞, t >> 1
返回
特征提取的基本任务
特征提取的基本任务是研究如何从众多 的特征中求出那些对分类识别最有效的 特征,从而实现特征空间维数的压缩。
计算样本均值 计算协方差矩阵S2×2 计算S2×2的特征根及特征向量 生成变换矩阵 构造K-L变换 计算均方误差 返回
计算样本均值
1 4 X = ∑ Xi = 0 4 i =1
返回
计算协方差矩阵
4 14 T 1 S2×2 =∑X = ∑(Xi − X)(Xi − X) = ∑Xi XiT 4i=1 4i=1
其中 eiT = (0,0,...,0,1, 0,0,...,0), X n×1 = ( x1 , x2 ,..., xn )T 123 123
i −1 n −i
返回
变换选择
对n个特征进行线性变换产生m个特征 主成分分析 K-L变换 (Karhunen-Loève变换) Fisher变换
返回
主成分分析
不同的问题需要不同的特征
问题1 问题2 问题3
返回
分类问题1
返回
分类问题2
返回
分类问题3
返回
言语识别和说话人识别
在言语识别中,需要设法提取不同人语 音中的共性 在说话人识别中,则需要设法提取不同 人语音中的区别
返回
简约性原则
寻找对分类最有效的特征: 在保证所要 求的分类识别的正确率和节省资源的前 提下,使用最少的特征达到所要求的分 类识别的正确率。 通常需要构造准则函数,使得所选特征 在该准则下最优。举例 返回
J0 ( X 0 ) = ∑ X 0 − X k
k =1 n 2
= ∑ ( X 0 − X k )T ( X 0 − X k )
k =1
n
那么当X0等于样本均值时J0(X0)最小,即:
试证明之。
1 n X0 = m = ∑ Xk n k =1
返回
零维主成分的证明
J 0 ( X 0 ) = ∑ (X 0 − m) − (X k − m)
1 1 = (1 41
10 4 2 −1 −2 1) + (2 2) + (−1 −1) + (−2 −2)= 2 −1 −2 10 4
10 4 10 4
返回
计算特征根及特征向量
e iT = ( 0 , 02 30 ,1 , 0 , 02 30 ) 1 ,..., 1 ,..., 其中
相关文档
最新文档