高光谱遥感图像降维方法研究

高光谱遥感图像降维方法研究
高光谱遥感图像降维方法研究

PCA降维方法(主成分分析降维)

一、简介 PCA(Principal Components Analysis)即主成分分析,是图像处理中经常用到的降维方法,大家知道,我们在处理有关数字图像处理方面的问题时,比如经常用的图像的查询问题,在一个几万或者几百万甚至更大的数据库中查询一幅相近的图像。这时,我们通常的方法是对图像库中的图片提取响应的特征,如颜色,纹理,sift,surf,vlad等等特征,然后将其保存,建立响应的数据索引,然后对要查询的图像提取相应的特征,与数据库中的图像特征对比,找出与之最近的图片。这里,如果我们为了提高查询的准确率,通常会提取一些较为复杂的特征,如sift,surf等,一幅图像有很多个这种特征点,每个特征点又有一个相应的描述该特征点的128维的向量,设想如果一幅图像有300个这种特征点,那么该幅图像就有300*vector(128维)个,如果我们数据库中有一百万张图片,这个存储量是相当大的,建立索引也很耗时,如果我们对每个向量进行PCA处理,将其降维为64维,是不是很节约存储空间啊?对于学习图像处理的人来说,都知道PCA是降维的,但是,很多人不知道具体的原理,为此,我写这篇文章,来详细阐述一下PCA及其具体计算过程: 二、PCA原理 1、原始数据: 为了方便,我们假定数据是二维的,借助网络上的一组数据,如下: x=[2.5, 0.5, 2.2, 1.9, 3.1, 2.3, 2, 1,1.5, 1.1]T y=[2.4, 0.7, 2.9, 2.2, 3.0, 2.7, 1.6, 1.1, 1.6, 0.9]T 2、计算协方差矩阵 什么是协方差矩阵?相信看这篇文章的人都学过数理统计,一些基本的常识都知道,但是,也许你很长时间不看了,都忘差不多了,为了方便大家更好的理解,这里先简单的回顾一下数理统计的相关知识,当然如果你知道协方差矩阵的求法你可以跳过这里。 (1)协方差矩阵: 首先我们给你一个含有n个样本的集合,依次给出数理统计中的一些相关概念: 均值: 标准差:

高光谱数据处理基本流程

高光谱数据处理基本流 程 The document was finally revised on 2021

高光谱分辨率遥感 用很窄(10-2l)而连续的光谱通道对地物持续遥感成像的技术。在可见光到短波红外波段其光谱分辨率高达纳米(nm)数量级,通常具有波段多的特点,光谱通道数多达数十甚至数百个以上,而且各光谱通道间往往是连续的,每个像元均可提取一条连续的光谱曲线,因此高光谱遥感又通常被称为成像光谱(Imaging Spectrometry)遥感。 高光谱遥感具有不同于传统遥感的新特点: (1)波段多——可以为每个像元提供几十、数百甚至上千个波段; (2)光谱范围窄——波段范围一般小于10nm; (3)波段连续——有些传感器可以在350~2500nm的太阳光谱范围内提供几乎连续的地物光谱; (4)数据量大——随着波段数的增加,数据量成指数增加; (5)信息冗余增加——由于相邻波段高度相关,冗余信息也相对增加。 优点: (1)有利于利用光谱特征分析来研究地物; (2)有利于采用各种光谱匹配模型; (3)有利于地物的精细分类与识别。 ENVI高光谱数据处理流程: 一、图像预处理 高光谱图像的预处理主要是辐射校正,辐射校正包括传感器定标和大气纠正。辐射校正一般由数据提供商完成。 二、显示图像波谱 打开高光谱数据,显示真彩色图像,绘制波谱曲线,选择需要的光谱波段进行输出。 三、波谱库 1、标准波谱库 软件自带多种标准波谱库,单击波谱名称可以显示波谱信息。 2、自定义波谱库

ENVI提供自定义波谱库功能,允许基于不同的波谱来源创建波谱库,波谱来源包括收集任意点波谱、ASCII文件、由ASD波谱仪获取的波谱文件、感兴趣区均值、波谱破面和曲线等等。 3、波谱库交互浏览 波谱库浏览器提供很多的交互功能,包括设置波谱曲线的显示样式、添加注记、优化显示曲线等 四、端元波谱提取 端元的物理意义是指图像中具有相对固定光谱的特征地物类型,它实际上代表图像中没有发生混合的“纯点”。 端元波谱的确定有两种方式: (1)使用光谱仪在地面或实验室测量到的“参考端元”,一般从标准波谱库选择; (2)在遥感图像上得到的“图像端元”。 端元波谱获取的基本流程: (1)MNF变换 重要作用为:用于判定图像内在的维数;分离数据中的噪声;减少计算量;弥补了主成分分析在高光谱数据处理中的不足。 (2)计算纯净像元指数PPI PPI生成的结果是一副灰度的影像,DN值越大表明像元越纯。 作用及原理:

模型降阶方法综述

模型降阶方法综述 大系统模型降阶是一个活跃的研究领域,比较成熟的经典降阶方法主要有:Pade逼近法,时间矩法,连分式法,Routh逼近法及棍合法等。本文综述了这一领域的现有文献,介绍了每种降阶方法的基本思想、优缺点和适用范围,特别指出了一些新的经典模型降阶方法的进展。文中最后提出了模型降阶方法的可能研究方向。 一、Pade逼近法 Pade逼近法是大系统模型简化中最早出现的一种经典降阶方法。到目前为止,人们仍然公认它是一种行之有效的传递函数降阶法。Pade逼近法是泰勒级数展开理论的应用,适用于传递函数可表示成有理多项式分式(或传递函数阵为有理分式阵)的场合。降阶方法简单,易于编制上机程序,低频(稳态)拟合性能好。但是,Pade逼近法的高频(动态)拟合性能较差且不能保证降阶模型的稳定性。因而在模型降阶方法中,很少单独使用Pade逼近法。 为了弥补Pade逼近法的不足,Brown等引入了使降阶模型稳定的补充性能准则,但却提高了降阶模型的阶次;Rossen等把造成降阶模型不稳定的极点隔离开来,并用任意稳定极点取代,可以防止降阶模型不稳定,但加大了计算量;Chuang和Shamash先后提出在0 s=和s=∞附近交替展成Pade近似式,可获得有较好动态拟合性能的降阶模型;Shih等采用线性变换方法将() G s中不稳定的极点映射到另一平面,以扩大Pade展开式的收敛域,并由此选出稳定的降阶模型。

为了克服泰勒级数收敛慢的弱点,Calfe等提出了切比雪夫多项式模型降阶方法,可获得稳定的降阶模型;Bistritz等提出了广义切比雪夫一Pade逼近法,即Darlington多项式展开法。这两种降阶方法均可使降阶模型在预定的区间上既稳定又具有最小相位,但计算量大,仅适用于单变量系统。 二、时间矩法 时间矩法首先由Paynter提出,采用与Pade逼近法类似的方法,把高阶系统和降阶模型都展成多项式,再令时间矩对应项相等,可以求得降阶模型的各系数。因此,时间矩法本质上仍是Pade遏近法,其优缺点也相似。 有的学者从时间矩或马尔可夫参数组成的Hankel阵出发,提出了相应的模型降阶方法,但本质上仍属于时间矩法的范畴。 三、连分式法 连分式是函数论中研究得比较深入的课题。1974年左右,开始应用连分式进行模型降阶,5年后,又推广于多变量系统降阶。连分式降阶法的基本出发点是:将真有理传递函数G(s)在0 s 附近展成连分式,然后截取前面起主要作用的若干项(也称偏系数)构成降阶模型。由于连分式比其他多项式或幂级数展开式收敛快,少量偏系数就能反映原系统的主要信息,所以连分式法是一种很有效的频域模型降阶方法,至今仍被广泛应用。 在降阶过程中,常用的连分式有:Cauer一I型,Cauer一II型,Cauer一III型,修正Cauer型和Jordan型等。在现代频域降阶法中,

降维方法

国内当前流行的文本分类算法有最大熵(MaximumEntropy,ME),K近邻法(KNN),朴素贝叶斯法(NB),支持向量机法(SVM),线性最小平分拟合法(LLSF),神经网络法(Nnet)等,其中KNN、NB和SVM的分类效果相对较好。 文本分类由文本表示,特征降维和分类器训练组成,分类算法只是其中的一个环节,另外两个环节也非常重要。目前普遍采用向量空间模型来表示文本,常见的特征词加权方法有:布尔权重、词频权重、TF—IDF权重等,常见的特征选择方法有文档频率,互信息和统计等。 基于机器学习文本分类的基础技术由文本的表示(representation) 、分类方法及效果(effectiveness)评估3 部分组成。Sebastiani对文本分类发展历程及当时的技术进行了总结,主要内容包括: (1)文本关于项(term)或特征的向量空间表示模型(VSM)及特征选择 (selection)与特征提取(extraction)两种表示空间降维(dimensionality reduction)策略,讨论了χ2,IG,MI,OR 等用于特征过滤的显著性统计量及项聚类和隐含语义索引(LSI)等特征提取方法; (2) 当时较成熟的分类模型方法,即分类器的归纳构造(inductive construction)或模型的挖掘学习过程; (3) 分类效果评估指标,如正确率(precision) 召回率(recall) 均衡点(BEP) F β(常用F1)和精度(accuracy)等,以及之前报道的在Reuters 等基准语料上的效果参考比较。 1、中文评论语料的采集 利用DOM 构建网页结构树,对结构树的分析实现了中文评论的自动采集的方

高光谱图像分类

《机器学习》课程项目报告 高光谱图像分类 ——基于CNN和ELM 学院信息工程学院 专业电子与通信工程 学号 35 学生姓名曹发贤 同组学生陈惠明、陈涛 硕士导师杨志景 2016 年 11 月

一、项目意义与价值 高光谱遥感技术起源于 20 世纪 80年代初,是在多光谱遥感技术基础之上发展起来的[1]。高光谱遥感能够通过成像光谱仪在可见光、近红外、短波红外、中红外等电磁波谱范围获取近似连续的光谱曲线,将表征地物几何位置关系的空间信息与表征地物属性特征的光谱信息有机地融合在了一起,使得提取地物的细节信息成为可能。随着新型成像光谱仪的光谱分辨率的提高,人们对相关地物的光谱属性特征的了解也不断深入,许多隐藏在狭窄光谱范围内的地物特性逐渐被人们所发现,这些因素大大加速了遥感技术的发展,使高光谱遥感成为 21 世纪遥感技术领域重要的研究方向之一。 在将高光谱数据应用于各领域之前,必须进行必要的数据处理。常用的数据处理技术方法包括:数据降维、目标检测、变化检测等。其中,分类是遥感数据处理中比较重要的环节,分类结果不但直接提取了影像数据有效信息,可以直接运用于实际需求中,同时也是实现各种应用的前提,为后续应用提供有用的数据信息和技术支持,如为目标检测提供先验信息、为解混合提供端元信息等。 相对于多光谱遥感而言,由于高光谱遥感的波谱覆盖范围较宽,因此我们可以根据需要选择特定的波段来突显地物特征,从而能够精确地处理地物的光谱信[2]。目前,许多国家开展大量的科研项目对高光谱遥感进行研究,研制出许多不同类型的成像光谱仪。高光谱遥感正逐步从地面遥感发展到航空遥感和航天遥感,并在地图绘制、资源勘探、农作物监测、精细农业、海洋环境监测等领域发挥重要的作用。

多组分分析方法综述

重金属多组分分析的研究现状 近年来,随着科技的进步,单组分重金属的检测技术已经非常成熟,但是在实际污染体系中重金属离子种类繁多,且它们之间往往存在相互干扰,传统的化学分析方法和化学分析仪器难以一次性精确的检测出各个重金属离子的浓度,需要对共存组分进行同时测定。 对共存组分进行同时测定,传统的化学分析方法是首先通过加入各种掩蔽剂进行组分的预分离,然后采用单组分重金属检测技术进行分析检测。这种方法的分离过程往往冗长繁琐,实验条件苛刻,费时费力,而且检测精度低,无法应用于污染现场的检测。 随着计算机科学技术、光谱学和化学信息学的发展,复杂体系的多组分分析已成为当今光谱技术的研究热点,应用范围涉及环境监测、石油化工、高分子化工、食品工业和制药工业等领域,而且需求日益显著。由于多重金属离子共存时会产生重金属离子间的相互作用,因此在用化学分析仪器检测时会产生相干数据干扰,对实验结果产生影响,为了使测试结果更加准确,需要在实验的基础上建立数学模型,用于数据处理,消除各重金属离子共存时产生的相干数据干扰。近年来,引入化学计量学手段,用“数学分离”部分代替复杂的“化学分离”,从而达到重金属离子的快速、简便分析测定[1]。 化学计量学是一门通过统计学或数学方法将对化学体系的测量值与体系的状态之间建立联系的学科,它应用数学、统计学和其他方法和手段(包括计算机)选择最优试验设计和测量方法,并通过对测量数据的处理和解析,最大限度地获取有关物质系统的成分、结构及其他相关信息。目前,已有许多化学计量学方法从不同程度和不同方面解决了分析化学中多组分同时测定的问题,如偏最小二乘法(PLS)、主成分回归法(PCR)、Kalman滤波法、多元线性回归(MLR)等,这些方法减少了分离的麻烦,并使试验更加科学合理。 (1) 光谱预处理技术 这些方法用来降噪、消除无关信息。 ①主成分分析法 在处理多元样本数据时,假设总体为X=(x1,x1,x3…xn),其中每个xi (i=1,2,3,…n)为要考察的数量指标,在实践中常常遇到的情况是这n个指标之间存在着相关关系。如果能从这n个指标中构造出k个互不相关的所谓综合指标(k

常见的特征选择或特征降维方法

URL:https://www.360docs.net/doc/742213059.html,/14072.html 特征选择(排序)对于数据科学家、机器学习从业者来说非常重要。好的特征选择能够提升模型的性能,更能帮助我们理解数据的特点、底层结构,这对进一步改善模型、算法都有着重要作用。 特征选择主要有两个功能: 1.减少特征数量、降维,使模型泛化能力更强,减少过拟合 2.增强对特征和特征值之间的理解 拿到数据集,一个特征选择方法,往往很难同时完成这两个目的。通常情况下,选择一种自己最熟悉或者最方便的特征选择方法(往往目的是降维,而忽略了对特征和数据理解的目的)。 在许多机器学习的书里,很难找到关于特征选择的容,因为特征选择要解决的问题往往被视为机器学习的一种副作用,一般不会单独拿出来讨论。本文将介绍几种常用的特征选择方法,它们各自的优缺点和问题。 1 去掉取值变化小的特征Removing features with low variance 这应该是最简单的特征选择方法了:假设某种特征的特征值只有0和1,并且在所有输入样本中,95%的实例的该特征取值都是1,那就可以认为这个特征作用不大。如果100%都是1,那这个特征就没意义了。当特征值都是离散型变量的时候这种方法才能用,如果是连续型变量,就需要将连续变量离散化之后才能用,而且实际当中,一般不太会有95%以上都取某个值的特征存在,所以这种方法虽然简单但是不太好用。可以把它作为特征选择的预处理,先去掉那些取值变化小的特征,然后再从接下来提到的特征选择方法中选择合适的进行进一步的特征选择。

2 单变量特征选择Univariate feature selection 单变量特征选择能够对每一个特征进行测试,衡量该特征和响应变量之间的关系,根据得分扔掉不好的特征。对于回归和分类问题可以采用卡方检验等方式对特征进行测试。 这种方法比较简单,易于运行,易于理解,通常对于理解数据有较好的效果(但对特征优化、提高泛化能力来说不一定有效);这种方法有许多改进的版本、变种。 2.1 Pearson相关系数Pearson Correlation 皮尔森相关系数是一种最简单的,能帮助理解特征和响应变量之间关系的方法,该方法衡量的是变量之间的线性相关性,结果的取值区间为[-1,1],-1表示完全的负相关(这个变量下降,那个就会上升),+1表示完全的正相关,0表示没有线性相关。 Pearson Correlation速度快、易于计算,经常在拿到数据(经过清洗和特征提取之后的)之后第一时间就执行。 Pearson相关系数的一个明显缺陷是,作为特征排序机制,他只对线性关系敏感。如果关系是非线性的,即便两个变量具有一一对应的关系, Pearson相关性也可能会接近0。 2.2 互信息和最大信息系数Mutual information and maximal information coefficient (MIC)

高光谱数据处理基本流程

高光谱分辨率遥感 用很窄(10-2l)而连续的光谱通道对地物持续遥感成像的技术。在可见光到短波红外波段其光谱分辨率高达纳米(nm)数量级,通常具有波段多的特点,光谱通道数多达数十甚至数百个以上,而且各光谱通道间往往是连续的,每个像元均可提取一条连续的光谱曲线,因此高光谱遥感又通常被称为成像光谱(ImagingSpectrometry)遥感。 高光谱遥感具有不同于传统遥感的新特点: (1)波段多——可以为每个像元提供几十、数百甚至上千个波段; (2)光谱范围窄——波段范围一般小于10nm; (3)波段连续——有些传感器可以在350~2500nm的太阳光谱范围内提供几乎连续的地物光谱; (4)数据量大——随着波段数的增加,数据量成指数增加; (5)信息冗余增加——由于相邻波段高度相关,冗余信息也相对增加。 优点: (1)有利于利用光谱特征分析来研究地物; (2)有利于采用各种光谱匹配模型; (3)有利于地物的精细分类与识别。 ENVI高光谱数据处理流程: 一、图像预处理 高光谱图像的预处理主要是辐射校正,辐射校正包括传感器定标和大气纠正。辐射校正一般由数据提供商完成。 二、显示图像波谱 打开高光谱数据,显示真彩色图像,绘制波谱曲线,选择需要的光谱波段进行输出。 三、波谱库 1、标准波谱库 软件自带多种标准波谱库,单击波谱名称可以显示波谱信息。 2、自定义波谱库 ENVI提供自定义波谱库功能,允许基于不同的波谱来源创建波谱库,波谱

来源包括收集任意点波谱、ASCII文件、由ASD波谱仪获取的波谱文件、感兴趣区均值、波谱破面和曲线等等。 3、波谱库交互浏览 波谱库浏览器提供很多的交互功能,包括设置波谱曲线的显示样式、添加注记、优化显示曲线等 四、端元波谱提取 端元的物理意义是指图像中具有相对固定光谱的特征地物类型,它实际上代表图像中没有发生混合的“纯点”。 端元波谱的确定有两种方式: (1)使用光谱仪在地面或实验室测量到的“参考端元”,一般从标准波谱库选择; (2)在遥感图像上得到的“图像端元”。 端元波谱获取的基本流程: (1)MNF变换 重要作用为:用于判定图像内在的维数;分离数据中的噪声;减少计算量;弥补了主成分分析在高光谱数据处理中的不足。 (2)计算纯净像元指数PPI PPI生成的结果是一副灰度的影像,DN值越大表明像元越纯。 作用及原理: 纯净像元指数法对图像中的像素点进行反复迭代,可以在多光谱或者高光谱影像中寻找最“纯”的像元。(通常基于MNF变换结果来进行)

大数据降维的经典方法

大数据降维的经典方法 近来由于数据记录和属性规模的急剧增长,大数据处理平台和并行数据分析算法也随之出现。 近来由于数据记录和属性规模的急剧增长,大数据处理平台和并行数据分析算法也随之出现。于此同时,这也推动了数据降维处理的应用。实际上,数据量有时过犹不及。有时在数据分析应用中大量的数据反而会产生更坏的性能。 最新的一个例子是采用2009 KDD Challenge 大数据集来预测客户流失量。该数据集维度达到15000 维。大多数数据挖掘算法都直接对数据逐列处理,在数据数目一大时,导致算法越来越慢。该项目的最重要的就是在减少数据列数的同时保证丢失的数据信息尽可能少。 以该项目为例,我们开始来探讨在当前数据分析领域中最为数据分析人员称道和接受的数据降维方法。 缺失值比率(Missing Values Ratio) 该方法的是基于包含太多缺失值的数据列包含有用信息的可能性较少。因此,可以将数据列缺失值大于某个阈值的列去掉。阈值越高,降维方法更为积极,即降维越少。该方法示意图如下: 低方差滤波(Low Variance Filter) 与上个方法相似,该方法假设数据列变化非常小的列包含的信息量少。因此,所有的数据列方差小的列被移除。需要注意的一点是:方差与数据范围相关的,因此在采用该方法前需要对数据做归一化处理。算法示意图如下: 高相关滤波(High Correlation Filter) 高相关滤波认为当两列数据变化趋势相似时,它们包含的信息也显示。这样,使

用相似列中的一列就可以满足机器学习模型。对于数值列之间的相似性通过计算相关系数来表示,对于名词类列的相关系数可以通过计算皮尔逊卡方值来表示。相关系数大于某个阈值的两列只保留一列。同样要注意的是:相关系数对范围敏感,所以在计算之前也需要对数据进行归一化处理。算法示意图如下: 随机森林/组合树(Random Forests) 组合决策树通常又被成为随机森林,它在进行特征选择与构建有效的分类器时非常有用。一种常用的降维方法是对目标属性产生许多巨大的树,然后根据对每个属性的统计结果找到信息量最大的特征子集。例如,我们能够对一个非常巨大的数据集生成非常层次非常浅的树,每颗树只训练一小部分属性。如果一个属性经常成为最佳分裂属性,那么它很有可能是需要保留的信息特征。对随机森林数据属性的统计评分会向我们揭示与其它属性相比,哪个属性才是预测能力最好的属性。算法示意图如下: 主成分分析(PCA) 主成分分析是一个统计过程,该过程通过正交变换将原始的n 维数据集变换到一个新的被称做主成分的数据集中。变换后的结果中,第一个主成分具有最大的方差值,每个后续的成分在与前述主成分正交条件限制下与具有最大方差。降维时仅保存前m(m < n) 个主成分即可保持最大的数据信息量。需要注意的是主成分变换对正交向量的尺度敏感。数据在变换前需要进行归一化处理。同样也需要注意的是,新的主成分并不是由实际系统产生的,因此在进行PCA 变换后会丧失数据的解释性。如果说,数据的解释能力对你的分析来说很重要,那么PCA 对你来说可能就不适用了。算法示意图如下: 反向特征消除(Backward Feature Elimination)

光谱图像与高光谱图像的区别介绍

光谱图像与高光谱图像的区别介绍 光谱分辨率在10l数量级范围内的光谱图像称为高光谱图像(Hyperspectral Image)。遥感技术经过20世纪后半叶的发展,无论在理论上、技术上和应用上均发生了重大的变化。其中,高光谱图像技术的出现和快速发展无疑是这种变化中十分突出的一个方面。通过搭载在不同空间平台上的高光谱传感器,即成像光谱仪,在电磁波谱的紫外、可见光、近红外和中红外区域,以数十至数百个连续且细分的光谱波段对目标区域同时成像。在获得地表图像信息的同时,也获得其光谱信息,第一次真正做到了光谱与图像的结合。与多光谱遥感影像相比,高光谱影像不仅在信息丰富程度方面有了极大的提高,在处理技术上,对该类光谱数据进行更为合理、有效的分析处理提供了可能。因而,高光谱图像技术所具有的影响及发展潜力,是以往技术的各个发展阶段所不可比拟的,不仅引起了遥感界的关注,同时也引起了其它领域(如医学、农学等)的极大兴趣。 高光谱图像:是指一系列包含一些列可见/近红外光谱,一般有400-1000 nm,已经包含了可见光(400-780 nm)和近红外(780-1000nm)。 多光谱图像简介多光谱图像是指包含很多带的图像,有时只有3个带(彩色图像就是一个例子)但有时要多得多,甚至上百个。每个带是一幅灰度图像,它表示根据用来产生该带的传感器的敏感度得到的场景亮度。在这样一幅图像中,每个像素都与一个由像素在不同带的数值串,即一个矢量相关。这个数串就被称为像素的光谱标记。 1.用不相关或独立的其他带替换当前带;这个问题特别与遥感应用有关,但在一般的图像处理中,如果要从多光谱图像生成一幅单带灰度图像也与此有关。 2.使用一个像素的光谱标记来识别该像素所表示的目标种类。这是一个模式识别问题,它取决于下列图像处理问题的解:消除一个像素的光谱标记对图像采集所用光谱的依赖性。这是一个光谱恒常性问题。 3.处理多光谱图像的特定子集,它包括在电磁谱里仅光学部分的3个带,它需要以或者替换或者模仿人类感知颜色的形式来进行处理。 4.在特定应用中使用多光谱图像,并对它们进行常规的操作。这里的一个问题是,现在

数据降维方法分析与研究_吴晓婷

收稿日期:2008211226;修回日期:2009201224 基金项目:国家自然科学基金资助项目(60372071);中国科学院自动化研究所复杂系统与智能科学重点实验室开放课题基金资助项目(20070101);辽宁省教育厅高等学校科学研究基金资助项目(2004C031) 作者简介:吴晓婷(19852),女(蒙古族),内蒙古呼伦贝尔人,硕士研究生,主要研究方向为数据降维、模式识别等(xiaoting wu85@hot m ail . com );闫德勤(19622),男,博士,主要研究方向为模式识别、数字水印和数据挖掘等. 数据降维方法分析与研究 3 吴晓婷,闫德勤 (辽宁师范大学计算机与信息技术学院,辽宁大连116081) 摘 要:全面总结现有的数据降维方法,对具有代表性的降维方法进行了系统分类,详细地阐述了典型的降维方法,并从算法的时间复杂度和优缺点两方面对这些算法进行了深入的分析和比较。最后提出了数据降维中仍待解决的问题。 关键词:数据降维;主成分分析;局部线性嵌入;等度规映射;计算复杂度 中图分类号:TP301 文献标志码:A 文章编号:100123695(2009)0822832204 doi:10.3969/j .jssn .100123695.2009.08.008 Analysis and research on method of data dimensi onality reducti on WU Xiao 2ting,Y AN De 2qin (School of Co m puter &Infor m ation Technology,L iaoning N or m al U niversity,D alian L iaoning 116081,China ) Abstract:This paper gave a comp rehensive su mmarizati on of existing di m ensi onality reducti on methods,as well as made a classificati on t o the rep resentative methods systematically and described s ome typ ical methods in detail.Further more,it deep ly analyzed and compared these methods by their computati onal comp lexity and their advantages and disadvantages .Finally,it p r oposed the crucial p r oble m s which needed t o be res olved in future work in data di m ensi onality reducti on . Key words:data di m ensi onality reducti on;p rinci pal component analysis (PCA );l ocally linear e mbedding (LLE );is ometric mapp ing;computati onal comp lexity 近年来,数据降维在许多领域起着越来越重要的作用。通过数据降维可以减轻维数灾难和高维空间中其他不相关属性,从而促进高维数据的分类、可视化及压缩。所谓数据降维是指通过线性或非线性映射将样本从高维空间映射到低维空间,从而获得高维数据的一个有意义的低维表示的过程。数据降维的数学描述如下:a )X ={x i }N i =1是D 维空间中的一个样本集, Y ={y i }N i =1是d (d <

高光谱图像分类讲解学习

高光谱图像分类

《机器学习》课程项目报告 高光谱图像分类 ——基于CNN和ELM 学院信息工程学院 专业电子与通信工程 学号 2111603035 学生姓名曹发贤 同组学生陈惠明、陈涛 硕士导师杨志景 2016 年 11 月

一、项目意义与价值 高光谱遥感技术起源于 20 世纪 80年代初,是在多光谱遥感技术基础之上发展起来的[1]。高光谱遥感能够通过成像光谱仪在可见光、近红外、短波红外、中红外等电磁波谱范围获取近似连续的光谱曲线,将表征地物几何位置关系的空间信息与表征地物属性特征的光谱信息有机地融合在了一起,使得提取地物的细节信息成为可能。随着新型成像光谱仪的光谱分辨率的提高,人们对相关地物的光谱属性特征的了解也不断深入,许多隐藏在狭窄光谱范围内的地物特性逐渐被人们所发现,这些因素大大加速了遥感技术的发展,使高光谱遥感成为21 世纪遥感技术领域重要的研究方向之一。 在将高光谱数据应用于各领域之前,必须进行必要的数据处理。常用的数据处理技术方法包括:数据降维、目标检测、变化检测等。其中,分类是遥感数据处理中比较重要的环节,分类结果不但直接提取了影像数据有效信息,可以直接运用于实际需求中,同时也是实现各种应用的前提,为后续应用提供有用的数据信息和技术支持,如为目标检测提供先验信息、为解混合提供端元信息等。 相对于多光谱遥感而言,由于高光谱遥感的波谱覆盖范围较宽,因此我们可以根据需要选择特定的波段来突显地物特征,从而能够精确地处理地物的光谱信[2]。目前,许多国家开展大量的科研项目对高光谱遥感进行研究,研制出许多不同类型的成像光谱仪。高光谱遥感正逐步从地面遥感发展到航空遥感和航天遥感,并在地图绘制、资源勘探、农作物监测、精细农业、海洋环境监测等领域发挥重要的作用。高光谱遥感技术虽然是遥感领域的新技术,但是高光谱图像的分类一直制约着高光谱遥感的应用[3,4],因此对其进行研究显得尤为重要。 高光谱遥感图像较高的光谱分辨率给传统的图像分类识别算法提出严峻的挑战。波段维数的增加不仅加重了数据的存储与传输的负担,同时也加剧了数据处理过程的复杂性,并且由于波段与波段间存在着大量的冗余信息,从而使得传统图像分类算法并不适用于高光谱遥感图像的分类。传统

高光谱数据的降维处理方法研究

第31卷 第11期 中南林业科技大学学报 Vol.31 No.11 2011年11月Journal of Central South University of Forestry &Technology Nov.2011 高光谱数据的降维处理方法研究 柳萍萍,林 辉,孙 华,严恩萍 (中南林业科技大学林业遥感信息工程研究中心,湖南长沙410004) 摘 要: 高光谱数据具有波段多、光谱范围窄、数据量大等特点,但巨大的数据量给数据处理带来了困难,同时它的高维也容易导致Hughes现象的产生。因此,对其进行降维处理显得非常必要。以Hyperion数据为研究对象,分别利用特征选择和特征提取的方法达到数据降维的目的。结果表明:(1)波段选择之前进行子空间划分,可剔除相关性大的波段,并能减小数据计算量,避免信息的丢失,从而实现高维遥感数据优化处理和高效利用的目的。(2)MNF变换后高光谱数据的有效端元数可为图像的进一步分析和应用提供参考。 关键词: 高光谱数据;降维;特征提取;Hyperion 中图分类号: S771.8文献标志码: A文章编号: 1673-923X(2011)11-0034-05Dimensionality reduction method of Hyperion EO-1 data LIU Ping-ping,LIN Hui,SUN Hua,YAN En-ping (Research Center of Forestry Remote Sensing Information&Engineering, Central South University of Forestry&Technology,Changsha 410004,Hunan,China) Abstract:Hyperspectral data have more bands,narrow spectral range,large volumes of data,etc.,but a huge a-mount of data make data processing very difficult,while its high-dimensional phenomenon can easily lead to thegeneration of Hughes.Therefore,dimensionality reduction process is very necessary.By taking Hyperion data asthe research object,using feature selection and feature extraction methods,the purpose of data reduction was a-chieved.The results show that dividing space before sub-band selection can eliminate the band with bigger correla-tion,and can reduce the amount of data calculation,to avoid loss of information,thus realizing optimal high-dimen-sional remote sensing data processing and efficient utilization purposes. Key words:Hyperspectral data;dimensionality reduction;feature extraction;Hyperion data 高光谱遥感突破了传统单波段、多光谱遥感的波段数以及波段范围的局限性,它具有较窄的波段区间、较多的波段数量的特点,能够从光谱空间中获取地物连续且精细的光谱特征。由于高光谱遥感信量大、波段多且冗余度高的特点使对其的信息处理困难重重,数据降维问题一直是高光谱遥感应用与信息处理的难题[1-3]。高光谱遥感数据虽然拥有庞大的数据量,但相邻波段之间冗余度也相对较大。因此,为解决高维数据的处理问题,国内外的很多学者对此也做了广泛的研究,通常利用特征提取与特征选择方法进行降维处理[4-7]。 降维处理对Hyperion高光谱数据有非常重要 收稿日期:2011-05-10 基金项目:国家自然科学基金项目(30871962);高等学校博士学科点专项科研基金(200805380001);国家林业局林业公益项目专题(201104028) 作者简介:柳萍萍(1986-),女,河北唐山人,硕士生,主要从事林业遥感与地理信息系统应用研究 通讯作者:林 辉(1965-),女,湖北黄冈人,教授,博士,主要从事森林经理学、遥感技术与地理信息系统的教学和科研工作

高光谱图像简介

高光谱遥感是指利用很多很窄的电磁波波段从感兴趣的物体中获取有关数据,高光谱遥感技术作为20世纪80年代兴起的对地观测技术,始于成像光谱仪的研究计划。 目前,我国研制的224波段的推扫高光谱成像仪(PHI)与128波段的实用型模块化机载成像光谱仪(OMIS)已经进行了多次成功的航空遥感实验。另外,中国科学院上海技术物理研究所研制的中分辨率成像光谱仪于2002年随“神州”三号飞船发射升空,这是继美国1999年发射的EOS平台之后第二次将中分辨率成像光谱仪发送上太空,从而使中国成为世界上第二个拥有航天成像光谱仪的国家。 高光谱遥感图像和常见的二维图像不同之处在于,它在二维图像信息的基础上添加光谱维,进而形成三维的坐标空间。如果把成像光谱图像的每个波段数据都看成是一个层面,将成像光谱数据整体表达到该坐标空间,就会形成一个拥有多个层面、按波段顺序叠合构成的三维数据立方体。 高光谱遥感具有不同于传统遥感的新特点: (1)波段多——可以为每个像元提供几十、数百甚至上千个波段 (2)光谱范围窄——波段范围一般小于10nm (3)波段连续——有些传感器可以再350~2500nm的太阳光谱范围内提供几乎连续的地物光谱 (4)数据量大——随着波段数的增加,数据量呈指数增加 (5)相邻谱带间相关——由于相邻谱带间高度相关,冗余信息也相对增加,这一特点也为其降维处理(包括波段选择、特征提取等)和谱间压缩提供可能 (6)随着维数的增加,超立方体的体积集中于角端,超球体和椭球体的体积集中在外壳,该特点进一步为高光谱图像的降维和压缩处理提供了理论依据。 根据高光谱图像的特点及其相关技术处理的需要,高光谱数据与其所携带的信息一般采用如下的三种空间表达方式:图像空间、光谱空间和特征空间。 1、图像空间(有空间几何位置关系) 2、光谱空间,光谱信息 3、特征空间(在光谱空间进行取样,将得到的n个数据用一个n维向量来表示,它是表示光谱响应的另一种方式。N维向量包含了对应像素的全部光谱信息。在三种表示方法中,特征空间表示法适合于模式识别中的应用。) 高光谱遥感技术将确定物质或地物性质的光谱与揭示其空间和几何关系的图像结合在一起。 支持向量机是1992~1995年由Vapnik等人在统计学习理论的基础上提出来的一种新的模式识别方法。SVM在解决小样本、非线性及高维模式识别问题中表现出许多特有的优势。目前SVM已经被广泛应用于解决高维数据的监督分类中。支持向量机的核心思想是以构造风险最小化思想为归纳原则,通过非线性映射把样本投影到高维特征空间,在高维空间中构造VC维尽可能低的最优分类面,使分类风险上界最小化,从而使分类器对未知样本具有最优的推广能力。 我国尚未解决的SVM问题:目前支持向量机应用中,判别阈值都是以理论值0作为阈值,这在线性支持向量机情况下不会产生偏差,但是在非线性情况下,由于核函数的引进,SVM 的分类判别阈值会发生偏移而不再保持为0.这样仍然采用0作为阈值,势必会影响分类效

数据分析中常用的降维方法有哪些

数据分析中常用的降维方法有哪些 对大数据分析感兴趣的小伙伴们是否了解数据分析中常用的降维方法都有哪些呢?本篇文章小编和大家分享一下数据分析领域中最为人称道的七种降维方法,对大数据开发技术感兴趣的小伙伴或者是想要参加大数据培训进入大数据领域的小伙伴就随小编一起来看一下吧。 近来由于数据记录和属性规模的急剧增长,大数据处理平台和并行数据分析算法也随之出现。于此同时,这也推动了数据降维处理的应用。实际上,数据量有时过犹不及。有时在数据分析应用中大量的数据反而会产生更坏的性能。 我们今天以2009 KDD Challenge 大数据集来预测客户流失量为例来探讨一下,大多数数据挖掘算法都直接对数据逐列处理,在数据数目一大时,导致算法越来越慢。因此,下面我们一下来了解一下数据分析中常用的降维方法。 缺失值比率(Missing Values Ratio) 该方法的是基于包含太多缺失值的数据列包含有用信息的可能性较少。因此,可以将数据列缺失值大于某个阈值的列去掉。阈值越高,降维方法更为积极,即降维越少。 低方差滤波(Low Variance Filter) 与上个方法相似,该方法假设数据列变化非常小的列包含的信息量少。因此,所有的数据列方差小的列被移除。需要注意的一点是:方差与数据范围相关的,因此在采用该方法前需要对数据做归一化处理。 高相关滤波(High Correlation Filter) 高相关滤波认为当两列数据变化趋势相似时,它们包含的信息也显示。这样,使用相似列中的一列就可以满足机器学习模型。对于数值列之间的相似性通过计算相关系数来表示,对于名词类列的相关系数可以通过计算皮尔逊卡方值来表示。相关系数大于某个阈值的两列只保留一列。同样要注意的是:相关系数对范围敏感,所以在计算之前也需要对数据进行归一化处理。 随机森林/组合树(Random Forests) 组合决策树通常又被成为随机森林,它在进行特征选择与构建有效的分类器时非常有用。一种常用的降维方法是对目标属性产生许多巨大的树,然后根据对每个属性的统计结果找到信息量最大的特征子集。例如,我们能够对一个非常巨大的数据集生成非常层次非常浅的树,每颗树只训练一小部分属性。如果一个属

高光谱遥感

(一)高光谱遥感基本概念 1、高光谱遥感特点 波段特点:波段多、波段宽度窄、不断连续数据量特点:数据量大、数据冗余增加2、波谱空间与光谱空间 光谱特征空间:以波段为维度的空间,波段增加会导致光谱空间维度增加。 波普特征空间:不同波段影像所构成的测度空间。 3、高光谱数据图谱合一的特点 高光谱数据同时反映地物的空间特征(图)和光谱特征(谱)。 (二)成像光谱仪 1、成像光谱仪的空间成像方式和光谱成像方式的含义 空间成像方式:从影像二维空间形成角度考察成像光谱仪的工作方式。 光谱成像方式:从光谱维数据形成的角度考察成像光谱仪的工作方式。 2、成像光谱仪的瞬时视场角(IFOV)仪器视场角(FOV) 瞬时视场角:以毫弧度为计量单位,所对应的地面大小被称为地面分辨单元。 仪器视场角:仪器扫描镜在空中扫过的角度,与系统平台高度决定了地面扫描幅宽。 摆扫型:单个像元凝视时间短,进一步提升光谱分辨率和信噪比较困难。 推扫型:凝视时间长,分辨率高,仪器体积小(无光机),视场角小(30°)定标量大不稳定。3、成像光谱仪的三种定标方式 共性:出于同一目的,特定情况下都是不可缺少的。 差异:处于不同阶段,考虑因素不同,入瞳辐射值获取方式不同 (实验室定标:有实验室测得,原始定标,准确度高,后续定标基础) (机上星上定标:综合性定标,对前一项进行的修正,机上星上测得考虑搬运安装操作影响)(场地定标:入轨后实际运行情况,大面积均匀地表做参照,考虑大气传输,多通道大范围) 场地定标的常用方法:反射基法(气溶胶参数)、辐照度基法(过程)、辐亮度基法(人力)机上定标一般使用内定标法,星上定标受制于体积一般进行辐射定标(人造辐射源/太阳) 光谱定标:确定成像光谱仪增益系数和偏置量之前,必须通过光谱定标,获得成像光谱仪每个波段的中心波长和带宽。 辐射定标:确定成像光谱仪在该波长小输入辐射能与输出响应关系(增益系数和偏置量)4、空间分辨率和光谱分辨率 光谱分辨率:指探测器波长方向上的记录宽度,又称波段宽度(50%) 空间分辨率:由仪器瞬时视场角决定,地面分辨单元。 分光系统分出的色散光源再汇集到探测器上,成像光谱仪获得图像有光谱与空间分辨率。

相关文档
最新文档