电子鼻数据的特征选择

电子鼻数据的数据处理方法报告：

电子鼻是模仿生物鼻工作原理的一种电子系统，其工作过程可以简单的归纳为：气敏传感器阵列对待测气体进行信号采集，经信号预处理单元整理采集的数据，然后送入模式识别单元进行训练学习，学习完成后即可实现对待测气体成分的定性或定量的识别。典型的电子鼻系统结构如下图所示：

信号预处理模块主要是对传感器采集的数据进行一些预处理，减少各种各样的干扰措施，并对处理之后的信号进行特征采集，采集的特征应用于模式识别模块。

模式识别模块是整个系统的核心。用于电子鼻系统的常见的模式识别方法有统计模式识别方法和人工神经网络方法。前者主要有Bayes、线性判别函数、非线性判别函数、SVM、K-近邻法等；后者主要有感知器算法、BP网络、径向基函数RBF神经网络等。

下面就信号的预处理和数据的特征提取进行相关的总结。

数据的预处理

对同一种样品，传感器对其需要测量多次。在测量中，很难保证每次测量的条件是一致的。因此，为了采集正确的特征，并消除影响，需要对数据进行相应的预处理，常见的预处理方法主要有：

1、标准化处理方法

标准化方法的思想是将样本数据的样本方差归一，这样处理可以便于对特征进行提取并对特征进行降维，这样的处理方法对信号的线性漂移（平移和比例漂移）具有很好的适应性。

处理过程为：设为样本i的第k个测量数据，则

其中，。

2、差分法

差分法的思想是补偿传感器的温度效应，其形式为

X(i)=x(i)-x(min)

3、相对差分：X(i)=x(i)/x(min)

4、分式差分：X(i)={x(i)-x(min)}/x(min)

5、归一化：X(i)={x(i)-x(min)}/{x(max)-x(min)}

6、采取信号变换方法

可以对采样信号进行DFT变换，得到变换后的数据，并进行特征提取。这种方法少见于文献，应用的较少。

数据的特征提取

对于原始数据，信息保持最完整的特征是原始特征。但是，原始特征的数量很大，会造成“维数灾难”，在这种情况下，为提高计算效率，需要在尽量不丢失有用信息的前提下，对原始特征进行合理的选择，产生出对分类识别最有效、数目最少的特征，以降低维数，这也就是特征提取的基本任务。

1、PCA降维法

主成分分析法在保持数据大部分信息的情况下，对原有具有信息重叠的多个指标进行线性组合，这样使得得到后的综合指标间即互不相关，又尽可能反应原来指标的信息。

不过PCA法有一些缺点。首先，PCA算法要求样本数据的相应时间是一样的，也就是说传感器从开始响应到结束响应的时间是一样的，但是在实际中，传感器对不同样本的响应时间是不同的；其次，PCA算法对样本的依赖较大，当对待测样本进行判别的时候，容易出现误判。

2、数据的重采样

对样本数据进行重采样，如隔t0时刻采样一个数据点，这样在保持原有数据变化形状的情况下，可以适量减少特征的维数。而且这样还可以减少对样本的依赖性。

设样本数据为x0，x1，x2，……，x1000，如果隔5个点采样，那么特征为（x0，x5，x10，……，x995，x1000）。

3、提取样本数据的统计量作为特征

常见的特征提取方法是采用样本数据的某些统计量作为样本特征。常见的统计量有：

（1）响应曲线的最大响应值

（2）响应曲线的均值

（3）响应曲线的最大斜率

（4）响应曲线的积分值

（5）响应曲线的最大响应值前后固定时刻的响应值

对每一个传感器的响应曲线进行上述特征量的提取，三个传感器提取的特征进行合并，即得到对某一样本数据提取的特征。

4、Fisher判别法

Fisher判别法是一种线性的特征提取方法。是有导师的特征提取方法，它的投影是带有类别信息的。

Fisher判别法是使投影后样本类间散布与类内散布的比值最大，即为找到最利于分类的投影方向。

Fisher判别法是在最有利于样本分类的方向上进行的投影，是一种有导师的特征提取算法，在以可分性为为目的的应用中，Fisher判别分析可以表现出优越的性能，因此这种特征提取方法在电子鼻的模式识别中有广泛的应用。

采取的方法

在我们的项目中，结合得到的数据和多方面的考虑，采取下面的处理方法。

图一是一个数据文件的图形，对每一个样本进行一次测试，会得到三条曲线，每一条曲线对应于一个传感器获得的数据，从图一中，可以发现以下特征：（1）每条曲线开始响应的时刻是相同的；

（2）每条曲线的前后都会趋于平稳；

（3）不同传感器对样本的响应程度不同；

因此，可以在初始的数据中，将响应的过程提取出来，作为后面考虑的样本数据，这样可以减少数据量，提高后面的处理的效率。对上图的数据提取到的相应过程图二所示。

图一：原始数据

图二：响应过程

从图二中可以看到，三个传感器的响应程度是不一样，这种情况应该考虑到对数据的预处理中。

从这几个方面来对样本进行预处理：

（1）同一曲线处理前后的形状不发生变化；

（2）三条曲线处理前后的响应的程度不发生明显变化（波动关系不发生变化）；

（3）处理中应该去除掉传感器的漂移；

（4）从传感器的物理原理来进行考虑。

图三：预处理之后的响应曲线

图三是与处理之后的曲线，采取的方法是：对每一条响应曲线，每一时刻的响应值除以初始响应值。这样做的好处是，将三条曲线放在同一个参考坐标系内，

对于响应程度大的，其特性得以保持，对响应程度小的，其特性得以加强；而且这样处理没有损失任何信息。

对于特征提取，有两种基本考虑，一是对响应曲线进行重采样，二是提取响应曲线的某些统计量。

由于重采样之后得到的特征向量的维数很高，在考虑到模式识别算法的适用性上，采用响应曲线的某些统计量作为样本特征。

设最大响应的时刻为T，t为某一时间间隔，提取的统计量为

最大响应值、T+t时刻的响应值、T-t时刻的响应值、响应曲线的面积、吸附过程的最大斜率、脱附过程的最大斜率、响应曲线的均值。

最后得到的特征向量为一个21维的向量。