第4章-1 高光谱数据降维与可分性准则

合集下载

标准分数降维的3D-CNN高光谱遥感图像分类

标准分数降维的3D-CNN高光谱遥感图像分类

2021574高光谱遥感图像包含着数百个丰富的空间和光谱信息的波段,可以为对感兴趣的领域进行分类提供依据,因此在农业[1]、医学图像[2-3]、土地管理[4]、生态监测[5]和法医学[6]等领域有着广泛的应用。

随着高光谱成像技术的发展,光谱分辨率大大提升,同时也增加了高光谱图像的复杂度,容易造成所谓的Hughes现象[7]。

因此,在高光谱图像处理过程中,去除数据冗余的过程必不可少。

而降维可分为特征提取和特征选择两种方式。

特征提取用于寻找合适的映射,将高维特征空间转换为低维特征空间,如常见的主成分分析方法[8]、独立成分分析方法[9]等。

另一种是特征选择方法,特征选择是从原始集合中选择最具代表性的特征子集,可以保留原始数据的物理意义,因此应用最为广泛。

如Huang等人根据信息熵理论,量化了各波段的信息量,从而达到降维的目的[10]。

近年来,深度学习已经成功应用到语音识别[11]、自然语言处理[12]和图像识别[13]等领域并取得了显著进标准分数降维的3D-CNN高光谱遥感图像分类佘海龙,解山娟,邹静洁杭州师范大学遥感与地球科学研究院,杭州311121摘要:针对高光谱图像存在Hughes现象,以及空间和光谱特征利用效率低的问题,提出了一种结合标准分数降维和深度学习的高光谱图像分类算法。

利用标准分数对高光谱数据的波段质量进行评价以剔除高光谱遥感图像中的冗余波段,结合优化过的3D-CNN(3D Convolutional Neural Network)分类方法,通过使用大步距卷积层替代池化层,引入L2正则化、批量归一化(Batch Normalization,BN)、Dropout等一系列策略,在减少网络参数的同时有效防止过拟合现象。

通过Pavia Centre和Pavia University两个公开高光谱数据集的实验测试,该算法大幅度降低了网络模型的参数和计算量,取得了99.01%和95.99%的分类精度。

基于流形学习的光谱数据库降维分析

基于流形学习的光谱数据库降维分析

基于流形学习的光谱数据库降维分析作者:***来源:《山西能源学院学报》2020年第05期【摘要】利用流形學习,可以找出高维空间的低维结构。

本文把流形学习方法应用到地物光谱数据库中,并进行地物光谱的相关性分析,同时与主成分分析、核主成分分析方法进行对比。

试验结果表明,用流形学习的方法进行地物光谱数据库的降维,发现隐藏在高维空间下的低维结构,用于进行相似性度量,为地物进一步的本质特征光谱提取与分析提供有利的支持,并间接证明了利用流形学习的方法进行降维后,并未降低地物的识别能力。

【关键词】流形学习;光谱数据库;Isomap;降维【中图分类号】 P23;TP751 【文献标识码】 A【文章编号】 2096-4102(2020)05-0100-03流形学习作为一种新的非监督学习方法,近几年在模式识别、机器学习领域得到了广泛的应用。

本文把流形学习方法应用到地物光谱数据库中,首先把流形学习方法应用到光谱数据库中的矿物类样本,进行降维,并与PCA和KPCA进行比较。

然后为进一步验证对不同矿物和同类矿物之间降维后的可分性,选取了两类典型矿物进行相似性度量。

这为地物进一步的特征光谱提取与分析提供有利的支持。

1数据介绍本文中应用的是美国地质调查局的USGS光谱数据库,可以在USGS的网站上获取。

USGS光谱数据库是美国地质调查局为研究矿产资源遥感勘探,在1993年USGS光谱实验室建立了波长在0.2~3.0μm之间的光谱库,包含218种矿物,444个样本的498个波谱,光谱分辨率为4nm(波长0.2~0.8μm)和10nm(波长0.8~2.35μm),所有光谱反射率都校正到绝对反射率。

光谱数据库中地物的详细信息可以通过USGS光谱数据库网站得到。

随着对地探测技术的发展及地物精细的识别需求,USGS光谱数据库也在不断地更新,目前更新到了第7版。

光谱覆盖范围从可见光到红外0.2μm~150μm,光谱数量达到了2000余条。

高光谱遥感数据的分类与分析研究

高光谱遥感数据的分类与分析研究

高光谱遥感数据的分类与分析研究高光谱遥感是利用遥感技术获取地球表面光谱信息的一种方法。

相比传统的遥感图像,高光谱图像包含大量的波段信息,能够更详细地反映地物的光谱特征。

因此,在农业、林业、环境等领域中都有着广泛应用。

然而,高光谱图像数据的单个像元(spectral pixel)往往包含大量信息,需要对其进行分类与分析,以便更好地理解和利用数据。

本文将从数据预处理、特征提取及分类算法等方面进行探讨。

一、数据预处理高光谱遥感图像获取不易,数据来源也多种多样,因此其数据质量的影响也难以避免。

常见的高光谱图像预处理方法包括图像增强、谱带选择和噪声去除等。

其中,图像增强可以利用类似直方图均衡化的方法,使图像对比度更高,便于观察和处理;谱带选择则是针对图像中一个区域的不同波段信息不同的情况,选择最优波段进行分析;噪声去除则是利用相邻像元之间的相关性来消除噪声的影响,提高数据质量。

二、特征提取高光谱图像中的像元包含大量信息,如何提取其中的特征并描述其各自所代表的地物类型是分类的第一步。

常见的特征提取方法包括传统的像元反射率(spectral reflectance)、指数特征(index feature)和主成分分析(principal component analysis, PCA)等。

其中,像元反射率描述了不同波段下地物的表面反射率特征,但由于单个波段反射率上下界的存在,其描述能力受到限制。

指数特征则将多个波段特征汇总成一个指数值,虽然降低了特征维度,但是对于某些地物类型特征不明显的情况下,其分类效果有限。

PCA则是通过线性代数的方法将原始数据映射至一个低纬度空间中,使数据间相关性最小化,从而提取具有大量信息的新特征,具有较好地分类效果。

三、分类算法特征提取之后,需要进行分类算法的选择。

目前常见的分类算法包括支持向量机(support vector machine, SVM)、随机森林(random forest)、人工神经网络(artificial neural network, ANN)等。

专题六:高光谱数据介绍

专题六:高光谱数据介绍

光谱库
• ENVI中 的相关应用-标准波谱库: *.sli ,*.hdr
高光谱图像
• 对地物进行多波段成像所得到的一组二 维图像,每个波段对应的一个二维图像。 • 高光谱图像与自然图像的区别在于多了 一维光谱信息。
• 图像立方体 Spectral>Build 3D Cube
光谱空间及光谱角
• 光谱曲线图是区分不同地物的 主要方法 • 区分大量光谱时,需要用光谱 空间来表述。 • 以n=2为例,光谱向量(右图) • 多维光谱空间在可视化绘图是 困难的,数学构建上是可能的。 • 光谱间的相似性可以通过光谱 向量间的角度来判断——光谱 角。
光谱端元
将相关性很小的图像波段,如PCA、MNF 的前两个波段,作为X,Y构成二维散点图。 在理想状态下,根据线性混合模型数学描 述,三角形顶端为纯净像元。
在实际选择中,往往选择凸出部分,再获 取这个区域相应的平均波谱。
主要流程
• • • • 查看高光谱图像 打开常见图谱库 端元波谱提取(MNF) 高光谱分类—波谱角(SAM)
专题六:高光谱遥感 hyperspectral remote sensing
遥感的发展趋势
• 平台、传感器——数据
– 高(空间)分辨率 – 高光谱 – 高时间、高辐射 – 遥感反演 – 面向对象 – 光谱端元
• 信息处理方法
“天地一体化”
• 应用方面
– 实用化、商业化、国际化、一体化
背景
• 随着对地观测技术的迅速发展,图像的光谱 分辨率、空间分辨率和时间分辨率有了较显 著的提高,高光谱和高空间分辨率图像得到 了越来越多的应用。 • 精细的观测地物——地物的识别,地物的成 分信息
• 高光谱图像由成像光谱仪产生 • 测谱学和遥感成像技术的融合。

数据降维的方法

数据降维的方法

数据降维的方法
数据降维的方法
数据降维是指将原有维数的数据,通过某种算法,转换到更低维数的数据,以达到某种目的。

数据降维的方法有多种,下面简要介绍一下几种常用的降维方法。

1. 主成分分析法:
主成分分析法是一种不改变原始数据分布的有效数据降维方法,是一种无监督学习方法。

它的基本思想是,在维数很高的时候,将原始的高维的数据映射到一个低维的空间中,使得原始数据尽可能的保留其内在的结构,同时又降低维数。

2. 降维投影:
降维投影是把原始数据集的更高维(比如三维)映射到更低维(比如二维)的过程,在映射过程中,尽可能地保留原始数据的结构。

这种方法主要是从空间上考虑,把原始数据从多维空间映射到低维空间,使得数据之间的相关性、结构等能尽可能的保留。

3. 局部线性嵌入:
局部线性嵌入是一种有监督的特征提取算法,它有效地将原有维数较高的数据映射到低维空间中,同时又能保留原有的关联结构,主要用于非线性问题。

4. 降维编码:
降维编码是指将原始数据投影到一个更低维空间中,使用某种编码规则对原始数据进行编码,以达到降维的目的。

总之,数据降维是一种常用的方法,用来简化复杂数据的处理。

它节省了计算量和存储空间,同时又能保留原来数据的结构,十分有用。

高光谱snv预处理

高光谱snv预处理

高光谱snv预处理高光谱数据的预处理是在数据分析过程中必不可少的步骤。

而SNV (Standard Normal Variate)预处理方法是一种常用的数据标准化方法,它可以消除光谱数据中由于多种因素引起的变异,提高数据的可比性和可靠性。

本文将详细介绍高光谱SNV预处理的原理和步骤,以帮助读者更好地理解和应用该方法。

一、SNV预处理概述SNV预处理方法主要通过对光谱数据进行均值中心化和标准差缩放,来消除数据中的非特异性测量误差。

它在不损失数据原始信息的前提下,能够更好地突出光谱中的特征信息,减少干扰因素对数据分析结果的影响。

因此,SNV预处理广泛应用于高光谱数据分析领域。

二、SNV预处理步骤1. 数据准备在进行SNV预处理之前,需要先准备好高光谱数据。

这些数据可以通过光谱仪器采集到,或是从数据库中获取。

确保数据的质量和完整性对正确的预处理结果至关重要。

2. 均值中心化SNV预处理的第一步是对数据进行均值中心化。

这意味着将每个样本的光谱数据减去样本的平均光谱值。

这样做可以抵消光谱数据中的整体偏移,使其分布更加集中在零附近,方便后续的标准差缩放步骤。

3. 标准差缩放均值中心化之后,需要对数据进行标准差缩放。

这一步骤可以通过将每个样本的光谱数据除以样本的标准差来实现。

标准差缩放可以使得数据的方差在不同波长上变得相似,进一步消除光谱数据中的尺度差异,使其更容易进行比较和分析。

4. SNV预处理最后,进行SNV预处理。

这一步骤是通过对标准差缩放后的数据进行进一步变换,使其分布更接近于标准正态分布。

具体的SNV变换公式如下:SNV(i,j) = (X(i,j) - mean(X(i,:))) / std(X(i,:))其中,SNV(i,j)表示第i个样本在第j个波长上进行SNV变换后的数值,X(i,j)表示原始数据矩阵中第i个样本在第j个波长上的数值,mean(X(i,:))表示第i个样本在所有波长上的均值,std(X(i,:))表示第i个样本在所有波长上的标准差。

高维数据的特征选择与降维技术

高维数据的特征选择与降维技术

高维数据的特征选择与降维技术在当今信息时代,大数据已成为各个领域的重要组成部分。

然而,高维数据的处理和分析却带来了很多挑战。

高维数据指的是拥有很多特征或维度的数据集,例如基因表达数据、图像数据等。

由于高维数据的特征过多,容易造成维度灾难,即训练模型的过程中会出现过拟合的问题,导致模型无法很好地适应新的数据。

为了解决这一问题,研究者们提出了特征选择和降维技术,以从高维数据中提取有用的信息。

特征选择是指从原始数据中选择出最具代表性和相关性的特征子集,通过去除冗余信息和噪声,提高数据的可分离性。

特征选择技术可以分为三大类:过滤型特征选择、包裹型特征选择和嵌入型特征选择。

过滤型特征选择独立于使用的分类或回归模型,通过对特征进行评估和排序来选择子集。

其中最常用的方法是方差选择,即通过计算特征的方差来判断其对目标变量的重要性。

另外,相关系数和互信息也是常用的特征选择度量方法。

包裹型特征选择则是通过封装方法来评估特征子集的质量,即将特征选择过程嵌入到分类或回归模型的训练过程中。

这种方法可以充分考虑特征之间的依赖关系,但计算复杂度较高。

嵌入型特征选择将特征选择过程融入到模型训练过程中,通过正则化项或惩罚项来限制模型的复杂度,并自动选择重要的特征。

常用的方法有L1正则化(Lasso)、L2正则化(Ridge)等。

除了特征选择,降维技术也是处理高维数据的重要手段。

降维指的是将高维数据映射到低维空间,以减少特征的数量并保留原始数据的主要信息。

常用的降维方法有主成分分析(PCA)、线性判别分析(LDA)、t-SNE等。

主成分分析(PCA)是一种常用的无监督降维方法,通过线性变换将原始数据映射到新的坐标系中,使得新坐标系上的数据具有最大的方差。

这样可以将高维数据降低到较低的维度,同时保持数据的主要结构和信息。

线性判别分析(LDA)则是一种常用的有监督降维方法,它通过将数据投影到低维空间来实现类别的最优可分性。

LDA在分类任务中的表现较好,并且与PCA相比,LDA能更好地保留数据的类别信息。

高维数据降维——主成分分析

高维数据降维——主成分分析

⾼维数据降维——主成分分析⼀、⾼维数据降维 ⾼维数据降维是指采取某种映射⽅法,降低随机变量的数量。

例如将数据点从⾼维空间映射到低维空间中,从⽽实现维度减少。

降维分为特征选择和特征提取两类,前者是从含有冗余信息以及噪声信息的数据中找出主要变量,后者是去掉原来数据,⽣成新的变量,可以寻找数据内部的本质结构特征。

简要来说,就是通过对输⼊的原始数据的特征学习,得到⼀个映射函数,实现将输⼊样本映射后到低维空间中,其原始数据的特征并没有明显损失。

通常新空间的维度要⼩于原空间的维度。

⽬前⼤部分降维算法是处理向量形式的数据。

⼆、主成分分析过程 主成分分析(Principal Component Analysis,PCA)是⼀种最常⽤的线性降维⽅法,⽬标是通过某种线性投影,将⾼维数据映射到低维空间中,并期望在所投影的维度上数据的⽅差最⼤。

PCA的降维是指经过正交变换后,形成新的特征集合,然后从中选择⽐较重要的⼀部分⼦特征集合,从⽽实现降维。

这种⽅式并⾮是在原始特征中选择,所以PCA极⼤程度保留了原有的样本特征。

关于PCA降维原理,请参考/articles/pca-tutorial.htmlPCA降维的⼀般过程:设有 m 条 n 维的数据。

①将原始数据按列组成n⾏m列矩阵X;②计算矩阵 X 中每个特征属性(n 维)的平均向量M(平均值);③将X的每⼀⾏(代表⼀个属性字段)进⾏零均值化,即减去这⼀⾏的均值M;④求出协⽅差矩阵;⑤求出协⽅差矩阵的特征值及对应的特征向量;⑥将特征向量按对应特征值⼤⼩从上到下按⾏排列成矩阵,取前k(k<n)⾏组成基向量P;⑦ Y=PX即为降维到k维后的数据; PCA⽬标是求出样本数据的协⽅差矩阵的特征值和特征向量,⽽协⽅差矩阵的特征向量的⽅向就是PCA需要投影的⽅向。

使⽤样本数据向低维投影后,能尽可能的表征原始的数据。

协⽅差矩阵可以⽤散布矩阵代替,即协⽅差矩阵*(n-1),其中n为样本的数量。

  1. 1、下载文档前请自行甄别文档内容的完整性,平台不提供额外的编辑、内容补充、找答案等附加服务。
  2. 2、"仅部分预览"的文档,不可在线预览部分如存在完整性等问题,可反馈申请退款(可完整预览的文档不适用该条件!)。
  3. 3、如文档侵犯您的权益,请联系客服反馈,我们会尽快为您处理(人工客服工作时间:9:00-18:30)。
相关文档
最新文档