光谱数据挖掘中的特征提取方法

合集下载

数据挖掘中的特征提取方法

数据挖掘中的特征提取方法

数据挖掘中的特征提取方法在当今信息爆炸的时代,大量的数据积累成为了各个领域发展的基石。

然而,这些数据往往是杂乱无章的,需要通过数据挖掘的手段进行分析和挖掘,以发现其中的潜在规律和信息。

而数据挖掘的一个重要环节就是特征提取,它能够帮助我们从原始数据中提取出最具代表性和有用的特征,为后续的模型建立和分析提供基础。

特征提取是数据挖掘的核心技术之一。

它的目的是将原始数据转化为一组更加有意义和可解释的特征,以便于后续的数据分析和模型构建。

在数据挖掘中,特征提取的质量直接影响到模型的准确性和预测能力。

因此,如何选择和设计合适的特征提取方法成为了数据挖掘工程师和研究者们的关注焦点。

常见的特征提取方法有很多种,下面我们就来介绍一些常用的方法。

首先是统计特征。

统计特征是最常见和简单的特征提取方法之一。

它通过对原始数据进行统计分析,提取出数据的一些基本统计量,如均值、方差、最大值、最小值等。

这些统计特征能够反映数据的分布和变化情况,对于描述数据的整体特征非常有用。

其次是频域特征。

频域特征是指将原始数据转化到频域中,通过分析数据在频域上的分布和变化,提取出一些频域特征。

常见的频域特征包括傅里叶变换系数、功率谱密度等。

频域特征能够反映数据的周期性和频率分布情况,对于时间序列数据和信号处理非常有用。

另外还有时域特征。

时域特征是指直接对原始数据进行分析,提取出一些与时间相关的特征。

常见的时域特征包括时间序列的趋势、周期性、平稳性等。

时域特征能够反映数据的变化趋势和规律性,对于时间序列数据和动态数据分析非常有用。

除了以上几种常见的特征提取方法,还有一些其他的方法也值得一提。

例如,主成分分析(PCA)是一种常用的降维和特征提取方法,它通过线性变换将原始数据映射到一个更低维度的特征空间中,保留了数据的主要信息。

另外,独立成分分析(ICA)是一种基于统计独立性原理的特征提取方法,它能够将原始数据分解为一组相互独立的成分。

这些方法在不同的数据挖掘任务中都有广泛的应用。

典型伪装材料高光谱特征及识别方法研究

典型伪装材料高光谱特征及识别方法研究

典型伪装材料高光谱特征及识别方法研究一、引言伪装是一种常见的战术手段,用于隐藏目标的真实性质以及减少其被敌方察觉的可能性。

伪装材料的应用范围很广,包括军事应用、民用应用等多个领域。

为了有效识别伪装材料,研究人员通过高光谱技术探测伪装材料的高光谱特征,并寻找有效的识别方法。

二、伪装材料的高光谱特征高光谱成像技术是一种能够获取目标物体在一定光谱范围内所有波段的光谱信息的技术,通常包括可见光波段、近红外波段和红外波段。

伪装材料的高光谱特征是其在不同波段下的反射和吸收率变化。

例如,一些常见的伪装材料如红外反射涂料会在红外波段有明显的反射特征,而在可见光波段则表现为类似于周围环境的颜色。

三、伪装材料高光谱特征的研究方法1.高光谱数据获取首先需要获取目标区域的高光谱数据,这可以通过高光谱成像设备如高光谱相机或者高光谱遥感仪器来实现。

通过这些设备可以获得目标区域在不同波段下的光谱信息。

2.高光谱数据预处理高光谱数据的预处理是为了去除噪声和进行辐射定标,以及提取有用的信息。

常见的预处理方法包括大气校正、辐射定标、噪声去除等。

3.特征提取通过对高光谱数据进行特征提取可以得到伪装材料的高光谱特征,例如不同波段下的光谱反射率等。

4.分类与识别通过对提取的高光谱特征进行分类和识别,可以判断目标区域中是否存在伪装材料以及对其进行识别。

四、伪装材料高光谱特征的研究进展目前,关于伪装材料高光谱特征的研究已经取得了一定的进展。

例如,一些研究人员通过对不同类型的伪装材料进行高光谱成像,获得了它们在不同波段下的特征光谱。

同时,还有一些研究人员探索了不同的高光谱数据处理方法,以提高伪装材料的识别率。

五、伪装材料高光谱特征的识别方法针对伪装材料的高光谱特征,研究人员提出了一些有效的识别方法,主要包括以下几种:1.基于特征提取的方法通过对高光谱数据进行特征提取,例如使用主成分分析(PCA)或者线性判别分析(LDA)等方法,来获取特征变量,进而进行伪装材料的识别。

数据挖掘中特征提取的分析与应用

数据挖掘中特征提取的分析与应用

数据挖掘中特征提取的分析与应用特征提取是数据挖掘中的一个重要步骤,它的目的是从原始数据中提取出最具代表性和区分度的特征,以便用于后续的数据分析和建模。

特征提取可以帮助我们发现数据中的隐藏模式和关联规则,提高模型的准确性和可解释性。

本文将从特征提取的分析方法和应用两个方面进行详细介绍。

在数据挖掘中,特征提取的分析方法有很多,以下是其中几种常用的方法:1.直接特征提取:直接从原始数据中提取出特征,例如从文本数据中提取词频、TF-IDF值等;从图像数据中提取颜色直方图、边缘检测等。

直接特征提取方法简单,但可能会忽略一些重要的信息。

2.统计特征提取:通过对原始数据进行统计分析来提取特征。

例如,对于时间序列数据,可以计算统计指标如均值、标准差、峰度等作为特征。

统计特征提取方法可以反映数据的分布情况,对于数据的整体特征有一定的描述能力。

3.频域特征提取:对于信号数据,可以通过将其转换到频域来提取特征。

常用的频域特征提取方法包括傅里叶变换、小波变换等。

频域特征提取方法可以抓住信号的周期性和频率特征,对信号的时域特征进行补充和扩展。

4.主成分分析(PCA):PCA是一种常用的降维方法,可以通过线性变换将高维数据映射到低维空间。

在降维的同时,PCA还可以提取出最相关的特征。

PCA能够保留数据的最大方差,即保留了数据的最重要特征。

特征提取在各个领域都有广泛的应用,以下是几个常见的应用案例:1. 文本分类:在文本分类任务中,特征提取可以将文本数据转化为数值型特征,以便于分类模型的训练和预测。

常用的文本特征提取方法有词袋模型、TF-IDF、Word2Vec等。

这些方法可以将文本数据转化为稀疏向量或者词向量,从而帮助构建分类模型。

2.图像识别:在图像识别任务中,特征提取可以将图像数据中的颜色、纹理、形状等特征提取出来,以便于图像分类或物体识别等任务的处理。

常用的图像特征提取方法有颜色直方图、梯度方向直方图、尺度不变特征变换(SIFT)等。

数据挖掘中的自动特征提取方法

数据挖掘中的自动特征提取方法

数据挖掘中的自动特征提取方法数据挖掘是一门利用各种算法和技术从大量数据中发现模式、关联和隐藏信息的过程。

而在数据挖掘中,自动特征提取方法是非常重要的一环。

本文将介绍一些常用的自动特征提取方法,并探讨它们在数据挖掘中的应用。

一、主成分分析(PCA)主成分分析是一种常用的降维技术,它通过线性变换将原始数据转换为一组新的特征,这些新特征能够最大程度地保留原始数据的信息。

主成分分析的核心思想是通过找到数据中的主要方差方向,将数据投影到这些方向上。

这样可以减少特征的维度,同时保留了数据中最关键的信息。

主成分分析在数据挖掘中的应用非常广泛。

例如,在图像识别中,可以使用主成分分析将图像数据降维,从而减少计算复杂度,提高识别准确率。

此外,主成分分析还可以用于数据可视化,通过将高维数据投影到二维或三维空间中,帮助我们更好地理解数据的分布和结构。

二、独立成分分析(ICA)独立成分分析是一种用于从混合信号中提取出独立信号的方法。

在实际应用中,往往会遇到多个信号混合在一起的情况,例如语音信号中的多个说话者的声音。

独立成分分析可以通过对混合信号进行逆变换,将其分离成独立的源信号。

独立成分分析在数据挖掘中的应用非常广泛。

例如,在语音识别中,可以使用独立成分分析将混合语音信号分离成独立的说话者信号,从而提高语音识别的准确率。

此外,独立成分分析还可以应用于脑电图(EEG)信号处理、金融数据分析等领域。

三、自编码器(Autoencoder)自编码器是一种无监督学习方法,它可以用于特征提取和降维。

自编码器的核心思想是通过训练一个神经网络,将输入数据重构为输出数据。

在这个过程中,网络的中间层起到了特征提取的作用,它可以学习到数据的潜在表示。

自编码器在数据挖掘中的应用非常广泛。

例如,在推荐系统中,可以使用自编码器提取用户的兴趣特征,从而实现个性化推荐。

此外,自编码器还可以用于图像去噪、异常检测等任务。

四、卷积神经网络(CNN)卷积神经网络是一种深度学习模型,它在图像处理和模式识别领域取得了巨大的成功。

数据挖掘中的特征选择和聚类分析

数据挖掘中的特征选择和聚类分析

数据挖掘中的特征选择和聚类分析数据挖掘是一种利用计算机技术对大量数据进行深入分析和处理的方法。

数据挖掘可以帮助我们从大量数据中发现规律、模式和趋势等信息。

其中,特征选择和聚类分析是数据挖掘中的两个重要步骤。

本文将深入探讨这两个步骤的相关概念、方法和应用。

一、特征选择特征选择是数据挖掘中的一项重要技术。

其目的是从原始数据中选择出最具有代表性和有效性的特征子集,以提高数据挖掘的准确性和效率。

特征选择可以帮助我们减少数据的维度,减少数据处理的时间和成本,还可以帮助我们发现数据中的规律和模式。

下面将介绍特征选择的方法和应用。

1.方法(1)过滤式特征选择:过滤式特征选择是在特征提取之前对所有特征进行筛选,选出与分类或回归任务相关性最高的特征。

常用的方法有相关系数法、卡方检验法、互信息法等。

(2)包裹式特征选择:包裹式特征选择是将特征选择嵌入到分类或回归模型中,通过评估分类或回归结果的精度来选择最佳特征子集。

常用的方法有遗传算法、模拟退火算法、梯度下降法等。

(3)嵌入式特征选择:嵌入式特征选择是将特征选择嵌入到分类或回归算法中,通过自动学习特征的权重和重要性来选择最佳特征子集。

常用的方法有决策树、支持向量机、神经网络等。

2.应用特征选择可以在许多领域中得到广泛应用,例如医学诊断、金融风险管理、文本分类等。

在医学诊断中,可以使用特征选择方法选择最具有代表性和有效性的生物标志物,以提高疾病的诊断准确性和治疗效果。

在金融风险管理中,可以使用特征选择方法选择最具有代表性和有效性的财务指标,以预测市场波动和风险。

在文本分类中,可以使用特征选择方法选择最具有代表性和有效性的单词或短语,以自动判断文本的主题和情感。

二、聚类分析聚类分析是数据挖掘中的一项常用技术。

其目的是将相似的数据点划分到同一类别中,以发现数据的内在结构和特征。

聚类分析可以帮助我们识别数据中的模式、群组和异常值等信息,还可以帮助我们预测未来的趋势和变化。

光谱数据的特征挖掘降维方法

光谱数据的特征挖掘降维方法

光谱数据的特征挖掘降维方法戴琼海;张晶;李菲菲;范静涛【摘要】The method of spectral data analysis ,which can remove a lot of redundancy of high‐dimensional spectral data and extract its characteristic spectrum ,is an important foundation for the widespread appli‐cation of spectral instruments .The contradiction of the applicability of the heterogeneity and spectral characteristics of the method of universal selection ,to a certain extent ,restricts the application of spec‐tral instruments ,need to be resolved .In this paper ,a sequential forward selection (SFS) spectral feature adaptive data mining method is proposed to generate the optimal combination of variables as support vec‐tor machine (SVM ) classification model input ,to achieve the spectral data reduction and obtain a high‐p recision data classification .This method can effectively solve the problem of multi‐class classification of a large number of spectral data ,which is proved and applied in the classification of mahogany .It provides a new way to solve the difficulty of subjective experience feature selection in height‐aliasing of spectral peaks .%“去繁存精”的光谱数据解耦方法可去除高维光谱数据的大量冗余,提炼其特征谱段,是光谱仪器得以广泛应用的重要基础。

数据挖掘算法在天文数据分析领域中优化运用

数据挖掘算法在天文数据分析领域中优化运用

数据挖掘算法在天文数据分析领域中优化运用数据挖掘算法在天文数据分析领域中的优化运用对于天文学的研究和发展具有重要意义。

天文学是研究宇宙各种现象和物质的科学,其数据量庞大且复杂,因此需要有效的数据处理和分析方法。

数据挖掘算法通过挖掘、整理和分析大量天文数据,能够帮助天文学家从中发现隐藏的模式和规律,提供更准确和深入的科学洞察力。

天文学研究中使用的数据主要包括天体观测数据、天文图像数据、光谱数据等不同类型的数据。

这些数据中蕴含了丰富的信息,但信息的提取和分析对于人类来说是一项庞大而复杂的任务。

数据挖掘算法的优化运用可以大大提高数据处理的效率,帮助天文学家更好地理解宇宙的本质。

其中,对于天体观测数据的处理,数据挖掘算法可以帮助识别和分类天体的类型和特征。

例如,通过聚类算法,可以将观测到的天体分为不同的类别,进而研究它们的相似性和差异性。

这有助于天文学家对星系、恒星等天体的形成和演化规律进行深入研究。

此外,数据挖掘算法在天文图像数据的分析中也发挥着重要作用。

天文学家通过观测和记录天体的图像,可以获得丰富的天文信息。

然而,这些图像数据往往庞大而复杂,需要有效的算法来识别和提取有用的信息。

数据挖掘算法中的图像识别和特征提取算法可以帮助天文学家在大量图像数据中发现特定的模式和结构,从而推断出天体的形态、性质和演化。

光谱数据是天文学研究中另一个重要的数据类型。

通过对天体的光谱进行分析,可以了解其组成、温度、速度等重要参数。

然而,光谱数据的处理和分析是一项复杂而繁琐的任务。

数据挖掘算法中的光谱特征提取和分类算法可以帮助天文学家分析和分类不同光谱数据,实现天体的自动分类和鉴定。

除了以上几种常见的数据类型外,天文学研究还涉及到其他形式的数据,例如时间序列数据、多维数据等。

数据挖掘算法的运用可以有效地处理和分析这些数据,为天文学的研究和发展提供更深入的洞察。

在天文学研究中,数据挖掘算法的优化应用还存在一些挑战和问题需要解决。

数据挖掘中特征提取的分析与应用

数据挖掘中特征提取的分析与应用

数据挖掘中特征提取的分析与应用摘要:数据挖掘中需要对数据进行各种分析,在一切分析前需要做好数据预处理。

然而经过数据清理、数据集成、数据变换后,数据集仍然会非常大!在海量的数据上直接进行复杂的数据分析与挖掘将需要很长时间,使得这种分析不现实或不可行。

数据归约技术可以用来得到数据集的归约表示,它小得多,但仍接近于保持原数据的完整性。

这样,在归约后的数据集上挖掘将更有效,并产生相同或几乎相同的分析结果。

通过这种方法从大量特征中提取出最具有代表性的特征根据需要分析有用的信息。

随着社会的发展,传统的基于信物或口令的安全系统显得越来越脆弱,不能够满足现代安全系统的需要。

基于特征提取的指纹识别随之产生,在众多的指纹属性中提取端点和分叉点两大明显特征,进行数据挖掘与分析。

关键词:数据挖掘;数据预处理;数据归约;维归约;特征提取;指纹识别前言:数据挖掘中需要对数据进行各种分析,在一切分析前需要做好数据预处理。

然而经过数据清理、数据集成、数据变换处理后,数据集仍然会非常大!在海量的数据上直接进行复杂的数据分析与挖掘将需要很长时间,使得这种分析不现实或不可行。

此时数据归约技术显得尤为重要,通过数据归约技术的数据立方体聚集、维归约、数据压缩、数值压缩、离散化和概念分层产生策略将数据集归约表示,保持原数据的完整性。

这样,在归约后的数据集上挖掘将更有效,并产生相同或几乎相同的分析结果。

通过这种方法从大量特征中提取出最具有代表性的特征根据需要分析有用的信息。

数据挖掘中的特征提取被广泛应用,其中指纹识别则是最典型的应用。

正文:数据挖掘中的特征提取的分析与应用经过数据清理、数据集成、数据变换预处理后,数据量仍然会很大,直接进行分析,肯定会降低挖掘过程的速度和效率。

而通过数据归约的数据立方体聚集、维归约、数据压缩、数值压缩等策略可以‘压缩’数据集,而又不损害数据挖掘的结果。

简而言之,数据归约是通过聚集、删除冗余特性或聚类的方法来压缩数据。

  1. 1、下载文档前请自行甄别文档内容的完整性,平台不提供额外的编辑、内容补充、找答案等附加服务。
  2. 2、"仅部分预览"的文档,不可在线预览部分如存在完整性等问题,可反馈申请退款(可完整预览的文档不适用该条件!)。
  3. 3、如文档侵犯您的权益,请联系客服反馈,我们会尽快为您处理(人工客服工作时间:9:00-18:30)。
2.1 主成分分析 在实际问题中,研究目标往往有多个测量指标,且不同指标之间有一定的相关性,这势
必增加问题的复杂性。通过主成分分析 (Principal Component Analysis,简称 PCA)[8] 可将 已有的众多指标进行分解、重组,形成一系列线性无关的综合指标,并按照它们反映原始信 号所蕴含信息的能力从高到低进行排序。如果在数据分析中仅仅使用其中数个描述能力较 强的合成指标,则达到了数据约减和特征提取的目的。并将这些合成指标依次称为第一主成 分、第二主成分等。
果的不利影响。作为一种高效,易于使用的数据压缩方法,PCA 已经广泛地应用在光谱数据 挖掘中,例如,恒星参数估计 [9–11] ,恒星分类 , [12] 星系光谱的分类 [13–15] ,星系模型参数估计 及其对尘埃和噪声的敏感性 [16] ,吸收线和发射线光谱的分类 , [17] 恒星形成历史 , [18] 星系与 类星体光谱的识别 [19] ,类星体光谱 Lyα 线丛连续谱估计 [20–22] ,类星体光谱的分类 [23] ,以及 低红移类星体的发射线特点 [24] 等。
关于主成分分析在特征谱构造中的应用将在本文第 3 章介绍。需要注意的是,PCA 是 一种线性方法, 为了处理光谱数据本身的非线性特点,文献 [11, 25, 26] 采用了对光谱数据进 行分区分析的方法,其思想是曲线拟合理论中的局部线性化。另外,在光谱模式分析中,有 静态 [13, 25, 26] 和动态 [19] 两种使用 PCA 的方案:“静态” 是指在运用 PCA 方法之前首先将光 谱移至静止波长,剔除红移因素的影响;在 “动态” 方案中,则不剔除红移的影响,PCA 的 作用主要是数据压缩、提高计算效率和抑制噪声的负面影响。在特征谱构造中需要使用静态
压缩中,一般根据问题需要和某个选定的方差贡献率 1 > α > 0,使
l
m
k = min{l : λi/ λi ≥ α}.
(4)
i=1
i=1
然后,对于任一观测数据 x,通过以
z = (xT v1, · · · , xT vk)T
(5)
代替 x 做统计分析达到数据压缩的目的,以利于高效计算,并抑制噪声等干扰因素对分析结
特征提取是光谱数据挖掘中的一个核心环节 [5],它对海量天体光谱数据处理的效率、准 确性,以及分析方法对光谱中的噪声干扰、波长定标和流量定标不完备所导致的光谱畸变等 因素的稳健性均有重要影响。“特征提取”包括特征的转换和选择两个环节,重在提取与分析 目标有关的信息,尽可能剔除其它与当前任务无关的数据成分,并把信息转化为适合后续分 析的表达方式,它直接关系到光谱挖掘结果的精确性/准确性和系统的复杂度 [6, 7]。例如,在 光谱分类中,特征提取的质量不仅影响着最后的分类准确率,也决定着分类器的复杂性和效 率。所以,本文探讨的光谱特征提取问题,是海量天文观测光谱的自动处理、信息提取、高效 计算和共享等数据挖掘技术的关键。
2.2 小波变换
小波变换 (Wavelet Transform) 是一种有效的时频分析工具,在光谱特征提取中亦得到
了较为广泛的关注和研究。如果将信号看作是时间的函数,小波 ψ(t) 是平方可积,均值为零
的函数:
+∞
ψ2(t)dt = 1,
(7)
−∞
+∞
ψ(t)dt = 0,
(8)
−∞
且能量集中在以 t = 0 为中心的邻域内。对小波 ψ(t) 做伸缩和平移后可得到一族时频原子
在光谱数据挖掘中,特征提取包括 3 个关键成分:(1) 特征的检测和定位;(2) 特征的表
收稿日期: 2011-05-10 ; 修回日期: 2011-11-07 资助项目: 国家自然科学基金 (61075033);广东省自然科学基金 (S2011010003348);中国科学院模式识别国家重点实验
室开放基金 (201001060); 华南师范大学教学改革项目 (2009jg28)
PCA;在基于 PCA 的数据压缩中,可根据研究目标选择合适的实现方案。
PCA 是一种高效的数据降维方法,易于使用,且去除了因子之间的相关性。其局限性 是,这是一种全局分析工具,在时间/波长轴上没有分辨能力和定位功能,这一方面会导致基 于该方法的光谱数据挖掘效果在有些情况下会较差一些,另一方面,通过它不能对 “时” 进 行分辨 (在光谱分析中,“时” 是指波长),由此导致其特征的物理意义一般难于分析;而且,其 分析结果容易受个别离群数据影响。
变化。在天体光谱的分析中,时间对应于波长,小波的时间、频率局部化有助于我们分析不
同波段、不同频率的天体辐射对当前分析的重要性,有利于对分析结果物理内涵的探索。上
述介绍主要基于文献 [27, 28],关于小波基本原理的更详尽阐述和相关软件包的介绍请参考 文献 [27–29]。
主成分分析是以整个观测光谱为分析单元,而小波分析则是以光谱中的局部流量分量
cov(xT vi, xT vj) = viT E[(x − E(x))(x − E(x))T ]vj = viT ΣP vj ≈ viT Σˆ P vj = δ(i − j)λi, (6)
即数据成分之间的相关性被消除了,其中,δ(x) 是狄利克雷函数,当 x = 0 时函数值为 1,否 则函数值为 0。而且,按照主成分分析的基本原则和模型假设,噪声等干扰因素的影响往往较 小,并集中于方差 λi 较小的方向 vi。因此,通过在 PCA 特征变换式 (5) 中取 k = 4 < 3 791 能够一定程度上减小噪声的干扰。然后,在投影后的四维 PCA 特征空间中对光谱进行分类。
第 30 卷 第 1 期 2012 年 2 月
天文学进展
PROGRESS IN ASTRONOMY
文章编号: 1000-8349(2012)01-094-105
Vol. 30, No. 1 Feb., 2012
光谱数据挖掘中的特征提取方法
李乡儒
(华南师范大学 数学科学学院,广州 510631 )
摘要: 特征提取是对光谱测量数据成分的分解、重组和选择的过程,它是光谱数据挖掘中的一个 关键环节,不仅决定着后续处理的质量、效率、系统复杂度和稳健性,也关系到能够挖掘到什么 知识和处理结果物理意义的可解释性。按照特征表达方式将已有方法分为 3 类:统计约简法,特 征谱法和谱线法,并对这些方法的基本原理、适用性、优缺点及其在光谱数据挖掘中的应用作了 综述和分析。另外,亦从方法的“时”、“频”分析能力方面探讨了不同方法的特点,例如,物理意 义的易解释性、对波长定标畸变和流量定标畸变的敏感性等。
ψu,s(t)
=
√1s ψ( t
− s
u
).
(9)
任一信号 f (t) 关于时间 u、尺度 s 的小波变换为
W f (u, s) =
+∞
f (t)ψu∗,sπ
+∞
fˆ(w)ψˆu∗,s(w)dw,
−∞
(10)
98
天文学进展
30 卷
其中,fˆ(w) 和 ψˆu∗,s(w) 分别是 f (t) 和 ψu∗,s(t) 的傅里叶变换,ψu∗,s(t) 是 ψu,s(t) 的复共轭。如 果小波 ψ(t) 是解析的,且其傅里叶变换 ψˆ(w) 仅在以某个 η > 0 为中心的局部区域内非零, 则 ψu,s(t) 和 ψˆu∗,s(w) 的能量便分别集中在时间轴和频率轴上中心为 u 和 η/s,宽度为与 s 和 1/s 成正比的某个局部区域上。从而,根据式 (9),小波特征 W f (u, s) 仅仅依赖于信号 f (t) 及其傅里叶变换 fˆ(w) 在 ψu,s(t) 和 ψˆu∗,s(w) 能量集中的某个局部时频区域上。所以,小波能 够在时间和频率两方面同时实现局部化,检测和提取光谱中的不同波长位置辐射能量的瞬态
1期
李乡儒:光谱数据挖掘中的特征提取方法
95
达;(3) 特征选择。虽然文献中有许多关于光谱特征提取的研究,但是按照特征的表达方式, 本质上可以分为 3 类:统计约简法,特征谱法和谱线法。本文对上述各种方法及其在光谱数 据处理中的应用作了综述,并对其优势、局限性和适用性作了分析。
2 统计约简法
这是应用最广泛的一类光谱特征提取方案,优点是易于操作和使用。该类方法本质上是 对天体辐射能量进行分解、重组和取舍的过程,其目的是尽可能去除冗余、噪声,并将信号 转化为利于后续处理的表达方式。常用的统计约简法有主成分分析、小波变换、流形学习以 及有监督的相关向量机、支持向量机和判别分析法等。
主成分分析在天体光谱数据挖掘中的应用包括两方面:数据压缩和特征谱构造。在数据
96
天文学进展
30 卷
4
4
3
v
2
1
v
2
1
0
−1
−2
3
v
2
2
1
0
v
1
−1
−2
−3
−3 −10 −5
0
5
(a)
10
15
−4 −10 −5
0
5
(b)
10
15
图 1 主成分分析效果分析:每个点代表一个观测数据,每条实线代表一个主成分,其方向是协方差矩阵的 特征向量,长度与相应的特征值平方根成正比。(a) 对随机生成的一批数据进行 PCA 分析,由结果 可见主方向和相应的特征值反映了数据的典型可区分方向和在相应方向上的可区分性。(b) 对图 (a) 中的观测数据沿横轴移动 3 个单位,且在 PCA 分析时不进行中心化处理,由结果可见,所得数据成 分并不能正确反映数据在该方向上的可区分性。
样点,数据维数较高,观测光谱往往受到多种噪声干扰,而且不同流量之间往往有一定的相
1期
李乡儒:光谱数据挖掘中的特征提取方法
97
关性,这些因素会导致分类工作的计算效率较低和过学习。因此,他们首先对训练数据进行 PCA 分析 (公式 (1) 和公式 (2)), 得到主成分方向 {v1, · · · , v3791} 。如果假定训练样本和待 处理的观测数据独立同分布,则通过式 (5) 的 PCA 特征变换后各数据成分满足:
相关文档
最新文档