基于决策树的高光谱数据特征选择及其对分类结果的影响分析_百度解读

第11卷第1

期

2007年1月

遥感学报

Vol . 11, No . 1Jan . , 2007

文章编号:100724619(2007 0120069208

基于决策树的高光谱数据特征选择及其对分类结果的影响分析

王圆圆, 李京

(北京师范大学资源学院资源技术与工程研究所, 北京100875

摘要:本文利用OM I S 高光谱数据, 研究了决策树算法(Decisi on Tree, DT 特征选择的特点以及特征选择对决策树分类结果的影响。设计了三种特征选择方法:SEP,MDLM 和RE L I EF, 将它们与DT 特征选择的结果以及特征选择后的分类精度(考虑了三种分类器:最大似然法、后向传播神经网络、最邻近法进行对比, 并分析了这三种特征选择方法对决策树结构和分类精度的影响。结果显示, DT 是一种比较好的特征选择方法; 成的决策树比直接生成的决策树, 用到更少的特征(平均减少了43136% 18161% 和更高的分类精度(平均提高了0135% , 当样本数量少时, 。关键词:决策树; 高光谱; 特征选择

中图分类号:TP751. 1:A

Ana Fea ture Selecti on and Its I m pact on Hyperspectra l Da t a

C l a ssi f i ca ti on Ba sed on

D ec isi on Tree A lgor ith m

WANG Yuan 2yuan, L I Jing

(College of Resources Science, B eijing N or m al U niversity, B eijing 100875, China

Abstract:I n this article, O M I S hy pers pctral data was used t o study feature selecti on ability of DT (Decisi on Tree

alg orith m and the i m pacts of feature selecti on on DT . The DT was co mpared t o three designed feature selecti on methods (SEP, MDL M and RE L I EF based on feature selecti on results and classificati on accuracy in which three different methods (ML 、BP NN and 12NN were applied . Moreover, the i m pacts of the three designed feature selecti on methods on DT classificati on results at different training sa mple sizes were analyzed . Results indicated that DT was a g ood feature selecti on method . After feature selecti on, DT alg orith m out putted t o those classificati on trees that used fe wer features (average decrease was 43136% , had fe wer tree nodes (average increase was 18161% , and had higher classificati on accuracy (average increase was 0135% . When the training sa mple size was s mall, accuracy i m pr ove ment was the most significant and mean while the tree size scarcely changed . Key words:decision tree; feature selecti on; hypers pectral data

1引言

高光谱遥感数据光谱分辨率高(<10n m , 波段数量大(可达200多 , 与一般遥感

数据相比, 具有数据量更大的特点, 因此分析起来面临更大的困难

收稿日期:2005204226; 修订日期:2006202223

和挑战。在监督分类中, 由于Hughes 现象的存在,

为了保证较高的精度, 每一类的样本数量应该是特征数的10倍到100倍, 这意味着样本量必须增加到成千上万个, 而现实中要获得这么多的可靠样本是非常困难

的, 即使能够获得这么多样本, 数据计算的时间和空间复杂度也是让人难以承受的。目前常用

基金项目:国家高技术研究发展计划(编号:2002AA130020 , 科技部政府间科技合作项目(编号:CHN 224/2004 。

作者简介:王圆圆(1981— , 女, 2003年毕业于北京师范大学资源与环境科学系, 现为该校资源学院在读博士生。主要从事高光谱遥感研究。已发表论文2篇。

E 2mail:wangyuanyuan@ires . cn 。

70遥感学报第11卷

的解决途径有两种, 改进分类算法和有效的特征(波段处理。对分类算法的改进就是要使其在样本量小特征多的情况下仍可以得到好的结果, 如支持向量机(Support Vect orMachine 分类方法就是基于小样本统计学理论发展起来的, 对高维空间有很好的推广能力, 一些学者将其引入到高光谱数据分

[1, 2]

类中, 获得了很好的效果。特征处理主要包括特征选择和特征抽取, 特征选择就是从所有波段中只选用一部分波段, 去掉那些与分析目标无关的或

[3, 4]

是冗余的波段, 特征抽取就是用部分或全部波段通过某种映射方式构造新的对目标可以更好解释

[5]

的特征变量, 如PCA (Princi p le Component Analysis 和MNF (M ini m um Noise Fracti on 等, 此外还有不是很常见的特征块方法, 它是通过对相邻波

[6]

段的综合处理获得新的特征。有效的特征处理可以在减少特征个数的同时尽量保持足够多的相关信息, , , , DT 数据挖掘方很他方法所没有的优[7]

点, 如训练速度快, 执行快; 对数据分布形式不做假设, 可以获得非线性的映射; 非黑箱式操作, 可以形成易于人们理解的规则; 具有内置的特征选择能力。因此, 不少遥感领域专家开始对决策树进行研究, 但这些研究多是直接利用决策树算法对多光谱数据进行分类, 或将其与别的分类算法相比[8—12]较, 较少涉及高光谱数据, 更少有对决策树比较深入的研究, 鉴于此, 本文将利用高光谱数据研究

两个问题:

(1 决策树一般被视为分类算法, 其实它也可以做特征选择, 与别的特征选择方法相比, 它的效果怎么样。

(2 决策树有内置的特征选择能力, 数据预处理中的特征选择步骤对决策树分类是否必要以及有何影响。

2特征选择和决策树算法介绍

在数据挖掘概念出现以前, 特征选择就已在机器学习和模式识别领域得到广泛关注, 其定义是:选择一个特征子集并使它对目标问题的说明是足够而

[13]

且是必须的, [14]

(产。特征选择的目的, 其实(或最小时的特征子集, 读者可以参阅文献[14], 以了解更多有关特征选择的知识。本文在以前出现的特征选择方法的基础上设计了三种方法(表1 , 这三种方法的优点在于简单、速度快, 而且适合分类问题。SEP 和MDLM 方法都是从空集开始, 每次加入一个使评价

指标增长最大的特征, 直到满足停止准则, REL I EF 方法是先获得每个特征的可分性权重, 按权重从大到小的顺序依次选入特征, 并且使得任何两个特征之间的相关系数都小于某阈值(本文经过试验一些后, 认为0195比较合适。

表1三种特征选择方法的描述

Table 1 D escr i pti on of 3desi gned fea ture selecti on m ethods

名称

SEP MDL M REL I EF

评价准则

可分性(用所有两类组合的J 2M 距离之和表示

信息论中的最小描述长度准则[14]

可分性[14]

搜索方法顺序前向选择顺序前向选择排序结合顺序前向选择

停止准则

可分性增加百分比<0. 01%

描述长度增加

预先定义的最优的特征子集已经找到了

决策树学习算法是现在数据挖掘领域中最流行[15][16]

的算法之一, 常用的算法有I D 3, C415和

[17]

CART 等。决策树的工作过程, 其实就是找出分类能力最好的属性变量, 把数据分成多个子集, 每个子集再用分类能力最好的属性进行划分, 如此迭代一直进行到所有子集仅包含同一类型或子集包含的样本数小于某阈值。决策树特征选择的结果就是综合那些在每个子集里被评价为是分类能力最好的属性变量。这样的选择特征方法可能存在以下不足, 首先, 在生成树的过程中, 随着深度的增加, 到达节点的样本量会迅速减少, 基于这些不充足样本的特征选择可能导致错误的结论; 其次, 决策树选择特征的机制和别的方法是不一样的, 它不是搜索使评价函数极值化的特征组合, 而只是在分裂产生的样本子集中找寻最好的分类属性, 得到的特征选择结果

[18]

其实是局部最优的个体组合; 最后, 决策树中出现的特征是有等级的, 浅节点处的特征比深节点处的特征更重要, 如果直接综合在每个节点出现的特

第1期王圆圆等:基于决策树的高光谱数据特征选择及其对分类结果的影响分

析71

征作为特征选择结果, 就完全忽略了这种等级性, 有

可能使特征子集的潜在功效达不到发挥。

精度, 以十折交叉验证精度(102Fold Cr oss Validati on Accuracy 衡量, 因为在训练样本大小不同的情况下, 适宜的检验样本的大小是变化的, 而且总样本数量也较少, 所以就没有留出一个独立的检验样本集; (2 复杂度, 以树的总节点个数衡量。

3数据及方法

3. 1数据及处理

本文选用的是OM I S 高光谱数据, 此数据是2001年5月9日在北京顺义

地区获取的, 共有128

4结果与分析

4. 1特征选择结果

个波段, 其中1—64波段为可见2近红外波段, 65—96波段为短波红外, 97—104为中红外, 105—112为热红外, 113—128为短波红外。去除严重受水汽吸收干

扰的中红外波段和反应地物热辐射信息的热红外波段, 剩下112个波段。去除热红外波段的原因有两个, 一是很多的手持光谱仪都没有这个波段, 今后的研究主要针对地面数据, 二是获得的OM I S 用户文件里没有提供这个波段区间相应的偏置值(Offset 和增益值(Gain 预处理, , , I A RR (I nternal Average Relative Reflectance 方法将辐射亮度值归一化。最后选了一个大小为196行381列的实验区。观察实验区, 通过目视解译, 选了8种土地覆盖类别:耕地、浇过水的耕地、裸地、有少量植被的裸地、果园、水体、菜地和建筑用地, 各类别的样本量分别为:328, 254, 336, 362, 318, 223, 197和462, 其中菜地和建筑用地的光谱特征比较混杂, 纹理破碎, 其他类型的光谱特征比较单一, 纹理均匀。3. 2研究方法

表2显示了4种不同方法(SEP, MDLM ,

REL I EF, DT 的特征选择结果, 从中可以发现:

(1 不同方法选择的特征子集差异很大。为了

定量化描述两种结果的相似性, 本文设计了相似性指数R =

, 其中A ∩B 表示两

(A ∪A B ,

R 相同波段所占的比例。对每一份样本都计算两种方法特征选择结果的相似度, 再对10份样本做平均即可得到表3中的结果。从中可以看出, 结果最相近的是MDL M 和SEP, RE L I EF 和其他方法的结果差别都很大。之所以不同方法的特征选择结果很不一样, 主要是由于评价指标不同造成的。

(2 从表2中可以看出, 随着样本量的增加, SEP,MDLM , DT 三种方法选择出的特征个数也逐渐

增加, 其中DT 的增加最明显。当样本量较大时, SEP,MDLM , REL I EF 三种方法的特征选择结果趋于

稳定, 而DT 的特征选择结果仍有较大的波动, 显示了该算法的不稳定性。

(3 为了进一步分析4种方法特征选择的结果, 本文作了如下的操作:对每种方法综合10份样本的特征选择结果, 统计出被选中频次大于或等于5的特征, 然后再确定这些特征所属的波谱区间, 结

分层随机选取训练样本, 第一份训练样本包含每个类别的10%的样本, 以后下一份训练样本总在上一份训练样本的基础上另外加上分层随机选入的每个类别的10%的样本, 这样可以得到大小逐渐规律增加的10份样本(10%, 20%, …, 100% 。对每份训练样本实施特征选择和决策树算法(本文选用的是现在最常用的C415决策树算法 , 一方面将决策树看成一种特征选择方法, 与本文选用的其他特征选择方法做出比较分析, 并采用最大似然法(ML 、后向传播神经网络法(BP NN 和最邻近法(12NN 对特征选择后的数据进行分类, 考察几种特征选择方法的效果; 另一方面将决策树看成一种分类算法, 来研究特征选择对其结果的影响, 以及此种影响与样本数量之间的关系, 影响主要考虑两方面:(1 决策树的

果见表4。从中可以看出SEP 和REL I EF 方法选出的特征主要都位于短波红外(尤其是RE L I EF 方法 ,MDL M 和DT 方法选出的特征在7个波谱区间上分布的比较均匀, 在比较重要的红谷波段区域, 4种方法中只有DT 选出了一个特征, 由此可以认为DT 的特征选择效果是不错的。

(4 最大似然法(ML 是一种常用的统计分类

器。图1是经过4种方法选择特征后, 采取ML 分类得到的10折交叉验证精度(由于当用全部特征时,ML 中要计算的方差协方差矩阵近似奇异, 所以

72遥感学报

表2 4

种特征选择方法的结果

Table 2Fea ture selecti on results of 4d i fferen t m ethods

方法

SEP

20, 22, 27, 51, 76, 115, 116

13, 19, 22, 25, 34, 48, 76, 114, 125, 128

第11卷

选出的波段

6, 13, 18, 22, 29, 48, 76, 113, 117, 118, 123, 125

4, 13, 23, 29, 35, 47, 71, 114, 115, 116, 119, 124, 126, 1274, 13, 18, 23, 25, 28, 41, 48, 76, 114, 115, 116, 119, 123, 124, 1274, 10, 13, 18, 22, 27, 38, 47, 54, 76, 115, 116, 119, 122, 124, 127, 1283, 9, 17, 23, 27, 31, 38, 47, 51, 76, 115, 116, 119, 121, 123, 124, 1273, 5, 11, 20, 23, 29, 34, 38, 47, 51, 76, 115, 116, 117, 119, 121, 123, 124, 1273, 11, 20, 22, 23, 29, 33, 38, 45, 47, 51, 76, 114, 117, 119, 121, 123, 125, 1273, 5, 16, 21, 22, 28, 34, 38, 47, 51, 76, 115, 116, 117, 119, 123, 124, 125, 127, 128

MDLM 17, 24, 36, 117, 12520, 22, 24, 30, 114, 120, 1256, 19, 22, 24, 32, 47, 114, 120, 12511, 19, 22, 25, 28, 47, 20, 24, 28, 47, , 115, , 6, , 31, , , 125, 1276, 11, , 22, 24, 28, 47, 115, 117, 120, 123, 125, 1276, 11, 20, 22, 24, 28, 47, 113, 115, 117, 123, 125, 1276,

11, 20, 22, 24, 28, 47, 113, 115, 117, 119, 123, 125, 1276, 11, 20, 23, 25, 28, 47, 113, 115, 117, 119, 123, 125, 127

REL I EF 1, 4, 11, 23, 47, 62, 63, 64, 65, 66, 73, 81, 82, 83, 84, 85, 86, 87, 88, 91, 122, 1271, 3, 11, 23, 47, 62, 63, 64, 65, 73, 81, 82, 83, 84, 85, 86, 87, 88, 91, 122, 127

1, 2, 11, 24, 56, 62, 63, 64, 65, 68, 81, 82, 83, 84, 85, 86, 87, 88, 89, 91, 92, 93, 122, 1271, 2, 14, 47, 62, 63, 64, 65, 75, 81, 82, 83, 84, 85, 86, 87, 88, 89, 91, 1271, 4, 17, 47, 62, 63, 64, 65, 75, 81, 82, 83, 84, 85, 86, 87, 88, 89, 91, 1271, 4, 17, 47, 62, 63, 64, 65, 68, 81, 82, 83, 84, 85, 86, 87, 88, 89, 91, 93, 127

1, 4, 10, 19, 47, 62, 63, 64, 65, 68, 81, 82, 83, 84, 85, 86, 87, 88, 89, 90, 91, 93, 1271, 4, 10, 19, 47, 62, 63, 64, 65, 68, 81, 82, 83, 84, 85, 86, 87, 88, 89, 91, 92, 93, 1271, 4, 10, 19, 47, 62, 63, 64, 65, 68, 81, 82, 83, 84, 85, 86, 87, 88, 89, 91, 92, 93, 120, 125

1, 4, 10, 19, 47, 62, 63, 64, 65, 68, 81, 82, 83, 84, 85, 86, 87, 88, 89, 90, 91, 92, 93, 120, 121

2, 3, 6, 55, 58, 59, 96

9, 16, 36, 57, 58, 59, 61, 73, 1173, 10, 13, 22, 47, 55, 64, 71, 72, 123

3, 4, 11, 12, 13, 15, 54, 55, 58, 61, 70, 76, 1224, 11, 12, 13, 43, 53, 55, 58, 63, 76, 128

2, 3, 4, 11, 12, 15, 18, 55, 58, 63, 72, 76, 122, 123

2, 3, 4, 11, 12, 15, 18, 41, 51, 52, 54, 58, 63, 69, 72, 76, 93, 1223, 4, 5, 6, 11, 12, 15, 18, 20, 28, 41, 51, 55, 58, 63, 69, 72, 76, 121, 122

3, 4, 5, 6, 9, 12, 15, 18, 24, 30, 41, 47, 51, 54, 55, 58, 63, 72, 76, 89, 121, 122, 123

1, 3, 4, 5, 9, 11, 15, 16, 18, 27, 30, 33, 47, 48, 51, 53, 55, 58, 63, 72, 76, 95, 121, 122, 123, 127, 128

注:其中用斜体标出的是在特征选择后, 用决策树分类时所用到的特征(由

于决策树本身具有特征选择的能力, 输入的特征可能不会全都被选择。

第1期王圆圆等:基于决策树的高光谱数据特征选择及其对分类结果的影响分

析

表3不同方法特征选择结果的相似性

Table 3S i m il ar ity of fea ture selecti on results for

d i fferen t m ethod 2pa i r

MDLM /%

SEP MDLM REL I EF

18. 73

RE L I EF /%3. 813. 99

DT/%12. 276. 875. 21

结果不予考虑。从图1中可以看出, 经过SEP 和

MDLM 方法选择特征后, ML 分类精度最高而且稳定, 这可能主要是因为SEP

和MDL M 的特征评价函数与ML 分类函数相近的缘故, SEP 中用来度量可分性的Jeffries 2Matusita 距离和ML 中用到的马氏距离很相近, 最小描述长度函数和ML 函数也是可以

[19]

相互转化的。DT 特征选择的效果不如SEP 和MDLM , 分类精度偏低, 而且随样本变化的波动较

表44种方法在不同波谱区间选入的特征个数

Table 4The nu m ber of fea tures selected a t d i fferen t

spectru m range by four m ethods

波谱区间蓝谷绿峰黄边红谷红边近红反射平台短波红外

相应波谱区间中的特征个数

SEP 0010237

MDLM 1010323

RE L I EF 200004DT 2031043

大。基于RE L I EF 特征选择的ML 分类精度最低。

(5 图2是经过4种方法选择特征后, 采取后向反馈神经网络(BP NN 分类得到的10折交叉验证精度(由于利用全部特征时的网络过于复杂, 暂不考虑。网络结构的参数对精度有很大影响, 但这些参数的选择又缺乏理论依据,

, 输入层节点个(对应8个类, 图1特征选择后ML 分类的10折交叉验证精度随样本容量增加的变化趋势

Fig . 1The change

trend of 102fold cr oss validati on accuracy of ML after feature selecti on thr ough 4methods

图2特征选择后BP NN 分类的10折交叉验证精度随样本容量增加的变化趋势

Fig . 2The change trend of 102f old cr oss validati on accuracy of BP NN after feature selecti on thr ough 4methods

74 遥感学报第 11 卷和 ,学习率为 0101, 动量项为 019, 最大迭代次数 2000。由于没有优化设置网络参数 ,故而得不到很高精度的结果 (比ML 获得的精度低 ,但由于只是特征选择之间的比较 ,所以不同分类方法的精度差异可以暂时忽略。从图 2中可以看出 ,基于 DT和 SEP 特征选择的 BPNN 分类效果比较好 , MDLM 方法次之 , REL IEF方法最差 , 而且 DT方法获得的结果在不同大小样本的情况下都维持在较高的水平上 ,这也体现 4. 2 决策树分类结果的差异 4.

2. 1 决策树的精度分析 ( 1 随着样本数量的增加 , 4 种情况下生成的决策树精度均呈现波动式的增加 , 而且彼此之间差别逐渐减少 (图 4 ( a 。由此可见 , 特征选择对精度的影响主要发生在样本量比较少的时候。 ( 2 有效的特征选择可以一定程度上提高精度 ,但提高幅度不明显 , 本文中 , 三种特征选择方法对精度的提高平均为 0135% , 在样本量最少的时候 ,精度的提高幅度最大 , 为 1171% 。 SEP 特征选择对精度的提高效果最好 , MDLM 方法其次 , REL IEF 方法最差 ,事实上它使得 8 个样本组的精度都降低 ,如果不考虑 REL IEF 的结果 , SEP 和 MDLM 对精度提高的幅度平均为 0159% 。 4. 2. 2 决策树的结构分析 ( 1 三种经过特征选择生成的决策树用到的特征个数较少 ,彼此相近 ,并且随样本量的增加缓慢增长 ,而直接生成的决策树用到的特征个数会随样本量的增大而快速增长 (图 4 ( b 。 ( 2 决策树的复杂度 (以树的节点数衡量基本图 3特征选择后 1 2 分类的 10 折交叉验证精度随样本容量增加的变化趋势 NN Fig 3 The change trend of 10 2fold cross validation accuracy of 1 2 . NN classification after feature selection through 4 methods 了 DT的确可以作为一种有效的特征选择方法。 ( 6 图 3 是经过 4 种方法选择特征后 , 采取最邻近法 ( 1 2 分类得到的 10 折交叉验证精度 , 经 NN 过 SEP,MDLM 和DT三种方法选择特征后 , 1 2 的 NN 精度在各种大小样本下都维持在非常高的水平上 , 其中 MDLM 的结果起伏稍大 , SEP 和 DT 的结果非常相近且起伏较小 , 经REL IEF 特征选择后获得的分类精度明显非常低而且不稳定。策树时受到子空间和样本的双重变化影响。 ( 3 有了特征选择后 , 树的节点数平均增加了 18161% ,增幅最大的是采用了 REL IEF 特征选择 SEP ( 1118% ,在样本量少的时候 , 4 种情况下生成 (平均增加了 25133% , 其次是 MDLM ( 1817% 和上是随着样本数量增加而上升 (图 4 ( c 。没有特征选择时 ,决策树的节点个数呈现一种线性增加趋势 , 但有了特征选择后 ,节点个数变化的波动性更大 ,如从第 8 份到第 9 份样本 ,MDLM + DT和 SEP + DT方法得到的决策树节点个数都下降了 ,这可能是因为特征选择相当于把数据投影到一个低维子空间 ,生成决的决策树的节点个数差别比较小。 5

结论与讨论本文利用高光谱数据 , 研究了决策树特征选择的特点和特征选择对决策树分类的影响 , 主要结论有以下几点 : ( 1 决策树是一种比较好的特征选择方法 ,

而且更适合在样本量比较少的情况下使用 ,因为样本多时 ,选择出的特征数量过多 ,而且不如其他方法获得的结果稳定 ; ( 2 特征选择对决策树分类

第 1期王圆圆等 : 基于决策树的高光谱数据特征选择及其对分类结果的影响分析 75 ( a ( b ( c 图 4 4 种情况下决策树精度 ( a 、用到的特征个数 ( b 、节点数 ( c 随样本容量的变化 Fig 4 The change trend of classification accuracy ( a , the number of features used ( b and . the number of tree nodes ( c w ith samp le increase under 4 different conditions 结果的影响主要在树的结构上 , 经过特征选择后生成的决策树用到的特征个数平均减少了 43136% , 节点数平均增加了 18161% ; ( 3 特征选择对决策树分类精度的影响较小 , 平均提高幅度为 0135% ; ( 4 在小样本量情况下 , 特征选择对于高光谱数据决策树分类是很有必要的 , 此时决策树的精度提高幅度最大 ,而树的节点数基本没有增加。为了提高分类精度 ,选择或设计比较好的特征选择方法是很重要的 ,如本文设计的 REL IEF 方法效果就不太好 ,它的特征选择结果与其他方法的结果相差

76 遥感学报 1778 —1789. 第 11 卷很大 ,而且获得的分类精度低而不稳 ,这是由本文设计的 REL IEF 方法特点决定的 ,它本质上是对每个特征单独地进行分析 ,然后排序 ,选出排序位次高而且彼此相关小的个体组合 ,不像 MDLM 和SEP 那样有考虑特征之间的相互作用对评价函数的影响。一般认为 ,在分类前进行特征选择常常会获得更简单更易于理解的分类模式 ,但本文中却得出了特征选择使决策树节点数增加的结果 ,其原因在于高光谱数据全是数值型变量 , C415 决策树算法可以使一个数值型变量出现在树中一条路径的不同位置 ,采用不同的阈值构成节点分裂标准 ,使树的大小受到变量个数和变量重复出现次数两个因素的影响 , 经计算表明 ,本文中有特征选择的决策树 ,变量平均出现次数为 2106,而直接生成的决策树 ,变量平均出现次数为 111,变量重复出现次数的增加导致了决策树更加复杂。特征选择对决策树的影响还体现在分类精度上 , 虽然决策树用到的特征个数减少了 ,但节点数增加 , 的精度要高 ,使不同情况下的计算结果更接近。高光谱遥感即将进入航天时代 , 成为遥感应用的主要信息源之一 , 对高光谱数据挖掘亦将成为高光谱应用的关键环节。决策树算法作为一种重要的数据挖掘技术 ,具有很多优良特性 ,

在构建分类模型 Tree,就是通过变量局部离散化来获得结构更简单 [ 20 ] [ 2 ] Pal M , Mather P M. A ssessment of the Effectiveness of Support Vector Machines for Hyperspectral Data [ J ]. Fu tu re Genera tion Com puter S ystem s, 2004, 20: 1215 —1225. [ 3 ] Thenkabail P S, Enclona E A , Mark S A. Accuracy A ssessment of Hyperspectral W aveband Performance for Vegetation Analysis App lication [ J ]. R em ote S ensing of Environm en t, 2004, 91: 354 —376. [ 4 ] Serp ico S B , B ruzzone L.

A New Search A lgorithm for Feature Selection in Hyperspectral Remote Sensing I ages [ J ]. m Transaction on Geoscience and R em ote Sensing, IEEE 2001, 39: 1360 —1367. [ 5 ] ; zkan C, Erbek F S Comparing Feature Extraction Techniques . R em ote S ensing, 2005, 26 ( 4 : 747 —757. [ 6 ] J ia X, R ichards J A. EfficientMaxim um L ikelihood Classification for I aging Spectrometer Data Sets [ J ]. m IEEE T ransactions on Geosciences and R em ote S ensing, 1994, 32: 274 —281. [ 7 ] W itten I H, Frank E. Data M ining: Practical Machine Learning Tools and Techniques w ith JAVA I p lementation [M ]. Beijing: m China Machine Press, 2003. [ 8 ] Friedl M A ,

B rodley

C E. Decision Tree Classification of Land Cover from Remotely Sensed Data [ J ]. Environm en t, 1997, 61: 399 —409. R em ote Sensing of 分类边界变复杂 ,因此提高了分类精度 ,当然这其中也有无关和冗余特征被去除的缘故。精度虽有提高 ,但幅度小 ,这可能有两方面原因 ,首先是特征选择对高光谱数据决策树分类的影响的确是不大 ,其次是用到的 10折交叉验证精度常常比用独立的检验样本计算出来 [ 9 ] B rown de Colstoun E C, Story M H, Thomp son C, et a l . National Park Vegetation Mapp ing U sing Multitemporal Landsat 7 Data and a Decision Tree Classifier [ J ]. Environm en t, 2003, 85: 316 —327. R em ote Sensing of [ 10 ] W essels K J, De Fries R S, Dempewolf J, et al Mapp ing . Regional Land Cover with MO

D IS Data for B iological Conservation: Examp les from the Greater Yellow stone Ecosystem USA and Para State, B razil[ J ]. R em ote S ensing of Environm en t, 2004, 92: 67 —83. [ 11 ] Pal M , Mather P M. An A ssess ment of the Effectiveness of Decision Tree Methods for Land Cover Classification[ J ]. R em ote S ensing of Environm ent, 2003, 86: 554 —565. 的同时选择有用特征 , 尤其应该在高光谱遥感领域得到充分深入的研究。今后的研究

计划包括考虑特征选择对多变量决策树的影响 , 最好能设计出一种适合决策树算

法的特征选择方法 ,另外 ,目前已有不少学者提出了专门针对全数值型变量的决策

树的生成算法 , 如 Berzal 等人设计的 M ulti2 way Decision 的决策树 ,这些新型

的决策树在高光谱遥感领域的适用性如何 ,也亟需得到研究论证。致谢感谢Ian H. W itten, Eibe Frank 在网上免费提供的 weka 2 24 软件 , 帮助作者利用决策树3 算法做研究。参考文献 ( References Sensing I ages with Support Vector Machines [ J ]. m Transactions on Geoscience and R em ote S ensing, 2004, 42 ( 8 : [ 12 ] Goel P K, Prasher S O , Patel R M, et al Classification of . Hyperspectral Data by Decision Trees and A rtificial Neural Networks to Identify W eed Stress and N itrogen Status of Corn[ J ]. Com puters and E lectronics in A griculture, 2003, 39: 67 —93. [ 13 ] Kira K, Rendell L. A Practical App roach to Feature Selection [ A ]. Proceedings of the 9 th Int Conf On Machine Learning . . [ C ]. 1992. Feature Selection for Classification [ J ]. M ach ine [ 14 ] Dash M , L iu H. [ 15 ] Quinlan J. [ 16 ] Quinlan J. L earning, 1986, ( 1 : 81 —106. California: Morgan Kaufmann, 1993. [ 17 ] B reim an L , Friedman J H, O lshen R A , et al Classification and . Regression Trees[M ] , Belmont: W ads worth, 1984. [ 18 ] Perner P, Ap te C. Emp irical Evaluation of Feature Subset Engineering A pplica tion of

A rtificia l In telligence, 2004, 17: 285 —288. [ 19 ] Tom M. M itchell, Machine Learning [ M ]. Machine Press, 2003. [ 1 ] Melgani F

B ruzzone L. Classification of Hyperspectral Remote IEEE [ 20 ] Berzal F. Building Multi2 way Decision Tress with Numerical A ttributes[ J ]. Infor ation S ciences, 2004, 165: 73 —90. m for U rban Land 2use Classification [ J ]. C415: Interna tiona l Jou rna l of In telligen t D a ta A nalysis, 1997, 1: 131 —156. Introduction of Decision Trees [ J ]. Program s for Machine Learning [ M ]. Selection Based on a Real World Data Set [ J ]. Beijing: China

大数据分析及其在医疗领域中的应用-图文(精)

第７期２４２０１４年４月１０日计算机教育ＣｏｍｐｕｔｅｒＥｄｕｃａｔｉｏｎ ◆新视点文章编号：１６７２．５９１３（２０１４）０７—００２４－０６中图分类号：Ｇ６４２大数据分析及其在医疗领域中的应用邹北骥（中南大学信息科学与工程学院，湖南长沙４１００８３）摘要：互联网和物联网技术的快速发展给数据的上传与下载带来了前所未有的便利，使得互联网上的数据量急剧增长，由此产生了针对大数据的存储、计算、分析、处理等新问题，尤其是对大数据的挖掘。文章分析当前大数据产生的背景，阐述大数据的基本特征及其应用，结合医疗领域，论述医疗大数据分析的目的、意义和主要方法。关键词：大数据；物联网；医疗；大数据挖掘１大数据早已存在，为何现在称之为大

数据时代计算与数据是一对孪生姐妹，计算需要数据，数据通过计算产生新的价值。数据是客观事物的定量表达，来自于客观世界并早已存在。例如，半个世纪前，全球的人口数量就有数十亿，与之相关的数据就是大数据；但是在那个时代，由于技术的局限性，大数据的采集、存储和处理还难以实现。互联网时代之前，采集世界各地的数据并让它们快速地进入计算系统几乎是一件不可想象的事情。２０世纪８０年代兴起的互联网技术在近３０年里发生了翻天覆地的变化，彻底地改变了人们的工作和生活方式【ｌ】。通过互联网人们不仅可以下载到新闻、小说、论文等各类文字数据，而且可以轻而易举地下载到音乐、图像和视频等多媒体数据，这使得互联网上的数据流量急剧增长。据统计，现在互联网上每分钟流人流出的数据量达到１０００ＰＢ，即１０亿ＧＢｔ２１。推动大数据产生的另一个重要因素是物联网技术。近几年发展起来的物联网技术通过给每个物品贴上标签并应用ＲＦＩＤ等技术实现了

课程名称大数据分析与应用

课程名称：大数据分析与应用一、课程编码：课内学时：32学分：2 二、适用学科专业：计算机专业硕士三、先修课程：无四、教学目标通过本课程的课堂学习与应用案例，建立科学的大数据观，掌握大数据架构、大数据精准语义搜索、大数据语义分析挖掘、知识图谱等关键技术，熟练使用常用的大数据搜索挖掘与可视化工具，提升大数据的综合应用能力。五、教学方式课堂学习、研讨班与应用实践六、主要内容及学时分配 1.科学的大数据观2学时 1.1.大数据的定义，科学发展渊源； 1.2.如何科学看待大数据？ 1.3.如何把握大数据，分别从“知著”、“显微”、“晓义”三个层面阐述科学的大数据观。 2.大数据技术平台与架构4学时 2.1云计算技术与开源平台搭建 2.2Hadoop、Spark等数据架构、计算范式与应用实践 3.机器学习与常用数据挖掘4学时 3.1常用机器学习算法：Bayes,SVM，最大熵、深度神经网络等； 3.2常用数据挖掘技术：关联规则挖掘、分类、聚类、奇异点分析。 4.大数据语义精准搜索4学时 4.1.通用搜索引擎与大数据垂直业务的矛盾； 4.2.大数据精准搜索的基本技术：快速增量在线倒排索引、结构化与非机构化数据融合、大数据排序算法、语义关联、自动缓存与优化机制； 4.3.大数据精准搜索语法：邻近搜索、复合搜索、情感搜索、精准搜索； 4.4.JZSearch大数据精准搜索应用案例：国家电网、中国邮政搜索、国家标准搜索、维吾尔语搜索、内网文档搜索、舆情搜索； 5.非结构化大数据语义挖掘10学时 5.1.语义理解基础：ICTCLAS与汉语分词 5.2.内容关键语义自动标引与词云自动生成； 5.3.大数据聚类； 5.4.大数据分类与信息过滤； 5.5.大数据去重、自动摘要； 5.6.情感分析与情绪计算；

大数据应用分析案例分析

大数据应用分析案例分析 Company Document number：WTUT-WT88Y-W8BBGB-BWYTT-19998

大数据应用与案例分析当下，”大数据”几乎是每个IT人都在谈论的一个词汇，不单单是时代发展的趋势，也是革命技术的创新。大数据对于行业的用户也越来越重要。掌握了核心数据，不单单可以进行智能化的决策，还可以在竞争激烈的行业当中脱颖而出，所以对于大数据的战略布局让越来越多的企业引起了重视，并重新定义了自己的在行业的核心竞争。在当前的互联网领域，大数据的应用已十分广泛，尤其以企业为主，企业成为大数据应用的主体。大数据真能改变企业的运作方式吗答案毋庸置疑是肯定的。随着企业开始利用大数据，我们每天都会看到大数据新的奇妙的应用，帮助人们真正从中获益。大数据的应用已广泛深入我们生活的方方面面，涵盖医疗、交通、金融、教育、体育、零售等各行各业。大数据应用的关键，也是其必要条件，就在于"IT"与"经营"的融合，当然，这里的经营的内涵可以非常广泛，小至一个零售门店的经营，大至一个城市的经营。以下是关于各行各业，不同的组织机构在大数据方面的应用的案例，并在此基础上作简单的梳理和分类。一、大数据应用案例之：医疗行业 SetonHealthcare是采用IBM最新沃森技术医疗保健内容分析预测的首个客户。该技术允许企业找到大量病人相关的临床医疗信息，通过大数据处理，更好地分析病人的信息。在加拿大多伦多的一家医院，针对早产婴儿，每秒钟有超过3000次的数据读取。通过这些数据分析，医院能够提前知道哪些早产儿出现问题并且有针对性地采取措施，避免早产婴儿夭折。

大数据分析的应用和产品

大数据分析的应用和产品大数据很火。2月18日，微软宣布投资三家中国云计算和大数据公司。2月19日，IBM宣布将与AT&T在大数据分析领域展开合作——AT&T计划贡献出一个全球可访问的移动网络，用来收集数据并将其发送至应用程序；IBM公司则主要致力于生产用于数据管理和分析的软件。 “读心术”、“未卜先知”，都是大数据分析头上的耀眼光环。不管你信不信，“数据”真的会说话。人们在互联网上的一切行为都会留下数据，而通过对这些数据的分析，就能够得到消费习惯、职业、喜好甚至性格等信息。在这些信息的基础上，政府可以治理交通，减少犯罪率，而企业则可以利用这些数据进行有针对性的营销，提升业绩。虽然目前大数据分析还处于发展的初级阶段，要从海量的非结构性数据中提取出有用信息并不是一件容易的事儿，但是很多企业已经开始利用大数据分析并推出了相关的应用和产品。大数据分析究竟能做什么？大数据分析又正在做什么？让我们一起来看看吧！洞察“人类大迁徙” “春运”，被誉为人类历史上规模最大、有周期性的人类大迁徙。过去，我们只是粗略地知道在40天左右的时间里，有几十亿人次的人口流动。现在，随着大数据时代的到来，我们可以描绘出能够揭露更多细节的“迁徙地图”。 2014年的春运，央视首次推出了“据说春运”特别节目，基于“百度迁徙”提供的可视化大数据服务，实时播报国内春节人口的迁徙情况，例如最热门的迁出城市，最热门的迁入城市等等。尽管采用的是大数据这一当前最时髦的科技手段，但浅显易懂的“迁徙地图”，还是几乎让每个老百姓都看得明白。那么，这张“迁徙地图”是如何绘制的呢？原理上其实并不复杂。目前，几乎每个中国人都拥有一部手机，而每部手机每一天基本上都会产生3次与位置相关的数据：既包括来自基站的数据，也包括用户在使用定位、导航等与位置相关服务时产生的数据。因此，只要调

大数据分析与应用

《应用统计学系列教材·大数据分析:方法与应用》可用做统计学、管理学、计算机科学等专业进行数据挖掘、机器学习、人工智能等相关课程的本科高年级、研究生教材或教学参考书。目录第1章大数据分析概述 1.1大数据概述 1.1.1什么是大数据 1.1.2数据、信息与认知 1.1.3数据管理与数据库 1.1.4数据仓库 1.1.5数据挖掘的内涵和基本特征1.2数据挖掘的产生与功能 1.2.1数据挖掘的历史 1.2.2数据挖掘的功能 1.3数据挖掘与相关领域之间的关系1.3.1数据挖掘与机器学习 1.3.2数据挖掘与数据仓库 1.3.3数据挖掘与统计学 1.3.4数据挖掘与智能决策 1.3.5数据挖掘与云计算 1.4大数据研究方法 1.5讨论题目 1.6推荐阅读第2章数据挖掘流程 2.1数据挖掘流程概述 2.1.1问题识别 2.1.2数据理解 2.1.3数据准备 2.1.4建立模型 2.1.5模型评价 2.1.6部署应用 2.2离群点发现 2.2.1基于统计的离群点检测 2.2.2基于距离的离群点检测 2.2.3局部离群点算法 2.3不平衡数据级联算法 2.4讨论题目 2.5推荐阅读第3章有指导的学习 3.1有指导的学习概述3.2K—近邻 3.3决策树 3.3.1决策树的基本概念 3.3.2分类回归树 3.3.3决策树的剪枝 3.4提升方法 3.5随机森林树 3.5.1随机森林树算法的定义 3.5.2如何确定随机森林树算法中树的节点分裂变量 3.5.3随机森林树的回归算法 3.6人工神经网络 3.6.1人工神经网络基本概念 3.6.2感知器算法 3.6.3LMS算法 3.6.4反向传播算法 3.6.5神经网络相关问题讨论 3.7支持向量机 3.7.1最大边距分类 3.7.2支持向量机问题的求解 3.7.3支持向量机的核方法 3.8多元自适应回归样条 3.9讨论题目 3.10推荐阅读第4章无指导的学习 4.1关联规则 4.1.1静态关联规则算法Apriori算法 4.1.2动态关联规则算法Carma算法 4.1.3序列规则挖掘算法 4.2聚类分析 4.2.1聚类分析的含义及作用 4.2.2距离的定义 4.2.3系统层次聚类法 4.2.4K—均值算法 4.2.5BIRCH算法 4.2.6基于密度的聚类算法 4.3基于预测强度的聚类方法 4.3.1预测强度 4.3.2预测强度方法的应用 4.3.3案例分析 4.4聚类问题的变量选择 4.4.1高斯成对罚模型聚类

大数据处理技术发展现状及其应用展望

. ,.. 大数据处理技术发展现状及其应用展望一、定义著名的管理咨询公司麦肯锡曾预测到：“数据，已经渗透到当今每一个行业和业务职能领域，成为重要的生产因素。人们对于海量数据的挖掘和运用，预示着新一波生产率增长和消费者盈余浪潮的到来。”这是大数据的最早定义。业界（于2012年，高德纳修改了对大数据的定义）将大数据的特征归纳为4个“V”（量Volume，多样Variety，价值Value，速Velocity），或者说特点有四个层面：第一，海量数据量。大数据计量单位至少是PB级别；第二，数据类型繁多。比如，网络日志、视频、图片、地理位置信息等等都是囊括进来。第三，商业价值高。第四，处理速度快。在大数据时代，三分技术，七分数据，得数据者得天下。在大数据时代已经到来的时候要用大数据思维去发掘大数据的潜在价值。Google利用人们的搜索记录挖掘数据二次利用价值，比如预测某地流感爆发的趋势；Amazon利用用户的购买和浏览历史数据进行有针对性的书籍购买推荐，以此有效提升销售量；Farecast利用过去十年所有的航线机票价格打折数据，来预测用户购买机票的时机是否合适。大数据分析相比于传统的数据仓库应用，具有数据量大、查询分析复杂等特点。对于“大数据”（Big data）研究机构Gartner给出了这样的定义。“大数据”是需要新处理模式才能具有更强的决策力、洞察发现力和流程优化能力的海量、高增长率和多样化的信息资产。二、大数据的技术技术是大数据价值体现的手段和前进的基石。我将分别从云计算、分布式处理技术、存储技术和感知技术的发展来说明大数据从采集、处理、存储到形成结果的整个过程。 2.1、云技术大数据常和云计算联系到一起，因为实时的大型数据集分析需要分布式处理框架来向数十、数百或甚至数万的电脑分配工作。可以说，云计算充当了工业革命时期的发动机的角色，而大数据则是电。云计算思想的起源是麦卡锡在上世纪60年代提出的：把计算能力作为一种像水和电一样的公用事业提供给用户。如今，在Google、Amazon、Facebook等一批互联网企业引领下，一种行之有效的模式出现了：云计算提供基础架构平台，大数据应用运行在这个平台上。业内是这么形容两者的关系：没有大数据的信息积淀，则云计算的计算能力再强大，也难以找到用武之地；没有云计算的处理能力，则大数据的信息积淀再丰富，也终究只是镜花水月。那么大数据到底需要哪些云计算技术呢？这里暂且列举一些，比如虚拟化技术，分布式处理技术，海量数据的存储和管理技术，NoSQL、实时流数据处理、智能分析技术（类似模式识

大数据应用与案例分析

大数据应用与案例分析当下，”大数据”几乎是每个IT人都在谈论的一个词汇，不单单是时代发展的趋势，也是革命技术的创新。大数据对于行业的用户也越来越重要。掌握了核心数据，不单单可以进行智能化的决策，还可以在竞争激烈的行业当中脱颖而出，所以对于大数据的战略布局让越来越多的企业引起了重视，并重新定义了自己的在行业的核心竞争。在当前的互联网领域，大数据的应用已十分广泛，尤其以企业为主，企业成为大数据应用的主体。大数据真能改变企业的运作方式吗?答案毋庸置疑是肯定的。随着企业开始利用大数据，我们每天都会看到大数据新的奇妙的应用，帮助人们真正从中获益。大数据的应用已广泛深入我们生活的方方面面，涵盖医疗、交通、金融、教育、体育、零售等各行各业。大数据应用的关键，也是其必要条件，就在于"IT"与"经营"的融合，当然，这里的经营的内涵可以非常广泛，小至一个零售门店的经营，大至一个城市的经营。以下是关于各行各业，不同的组织机构在大数据方面的应用的案例，并在此基础上作简单的梳理和分类。

一、大数据应用案例之：医疗行业 Seton Healthcare是采用IBM最新沃森技术医疗保健内容分析预测的首个客户。该技术允许企业找到大量病人相关的临床医疗信息，通过大数据处理，更好地分析病人的信息。在加拿大多伦多的一家医院，针对早产婴儿，每秒钟有超过3000次的数据读取。通过这些数据分析，医院能够提前知道哪些早产儿出现问题并且有针对性地采取措施，避免早产婴儿夭折。它让更多的创业者更方便地开发产品，比如通过社交网络来收集数据的健康类App。也许未来数年后，它们搜集的数据能让医生给你的诊断变得更为精确，比方说不是通用的成人每日三次一次一片，而是检测到你的血液中药剂已经代谢完成会自动提醒你再次服药。二、大数据应用案例之：能源行业智能电网现在欧洲已经做到了终端，也就是所谓的智能电表。在德国，为了鼓励利用太阳能，会在家庭安装太阳能，除了卖电给你，当你的太阳能有多余电的时候还可以买回来。通过电网收集每隔五分钟或十分钟收集一次数据，收集来的这些数据可以用来预测客户的用电习惯等，从而推断出在未来2~3个月时间里，整个电网大概需要多少电。有了这个预测后，就可以向发电或者供电企业购买一定数量的电。因为电有点像期货一样，如果提前买就会比较便宜，买现货就比较贵。通过这个预测后，可以降低采购成本。