数据归一化方法

相关主题

1、下载文档前请自行甄别文档内容的完整性，平台不提供额外的编辑、内容补充、找答案等附加服务。
2、"仅部分预览"的文档,不可在线预览部分如存在完整性等问题,可反馈申请退款(可完整预览的文档不适用该条件!)。
3、如文档侵犯您的权益，请联系客服反馈,我们会尽快为您处理(人工客服工作时间：9:00-18:30)。

数据归一化汇总

=================================

归一化化定义：我是这样认为的，归一化化就是要把你需要处理的数据经过处理后（通过某种算法）限制在你需要的一定范围内。首先归一化是为了后面数据处理的方便，其次是保正程序运行时收敛加快。

在matlab里面，用于归一化的方法共有三种:

（1）premnmx、postmnmx、tramnmx

（2）prestd、poststd、trastd

（3）是用matlab语言自己编程。

premnmx指的是归一到[－1 1],prestd归一到单位方差和零均值。（3）关于自己编程一般是归一到[0.1 0.9] 。具体用法见下面实例。

为什么要用归一化呢？首先先说一个概念，叫做奇异样本数据，所谓奇异样本数据数据指的是相对于其他输入样本特别大或特别小的样本矢量。

下面举例：

m=[0.11 0.15 0.32 0.45 30;

0.13 0.24 0.27 0.25 45];

其中的第五列数据相对于其他4列数据就可以成为奇异样本数据（下面所说的网络均值bp）。奇异样本数据存在所引起的网络训练时间增加，并可能引起网络无法收敛，所以对于训练样本存在奇异样本数据的数据集在训练之前，最好先进形归一化，若不存在奇异样本数据，则不需要事先归一化。

具体举例：

close all

clear

echo on

clc

%BP建模

%原始数据归一化

m_data=[1047.92 1047.83 0.39 0.39 1.0 3500 5075;

1047.83 1047.68 0.39 0.40 1.0 3452 4912;

1047.68 1047.52 0.40 0.41 1.0 3404 4749;

1047.52 1047.27 0.41 0.42 1.0 3356 4586;

1047.27 1047.41 0.42 0.43 1.0 3308 4423;

1046.73 1046.74 1.70 1.80 0.75 2733 2465;

1046.74 1046.82 1.80 1.78 0.75 2419 2185;

1046.82 1046.73 1.78 1.75 0.75 2105 1905;

1046.73 1046.48 1.75 1.85 0.70 1791 1625;

1046.48 1046.03 1.85 1.82 0.70 1477 1345;

1046.03 1045.33 1.82 1.68 0.70 1163 1065;

1045.33 1044.95 1.68 1.71 0.70 849 785;

1044.95 1045.21 1.71 1.72 0.70 533 508;

1045.21 1045.64 1.72 1.70 0.70 567 526;

1045.64 1045.44 1.70 1.69 0.70 601 544;

1045.44 1045.78 1.69 1.69 0.70 635 562;

1045.78 1046.20 1.69 1.52 0.75 667 580]; %定义网络输入p和期望输出t

pause

clc

p1=m_data(:,1:5);

t1=m_data(:,6:7);

p=p1';t=t1';

[pn,minp,maxp,tn,mint,maxt]=premnmx(p,t)

%设置网络隐单元的神经元数(5~30验证后5个最好）

n=5;

%建立相应的BP网络

pause

clc

net=newff(minmax(pn),[n,2],{'tansig','purelin'},'traingdm'); inputWeights=net.IW{1,1};

inputbias=net.b{1};

layerWeights=net.IW{1,1};

layerbias=net.b{2};

pause

clc

% 训练网络

net.trainParam.show=50;

net.trainParam.lr=0.05;

net.trainParam.mc=0.9;

net.trainParam.epochs=200000;

net.trainParam.goal=1e-3;

pause

clc

%调用TRAINGDM算法训练BP网络

net=train(net,pn,tn);

%对BP网络进行仿真

A=sim(net,pn);

E=A-tn;

M=sse(E)

N=mse(E)

pause

clc

p2=[1046.20 1046.05 1.52 1.538 0.75;

1046.05 1046.85 1.538 1.510 0.75;

1046.85 1046.60 1.510 1.408 0.75;

1046.60 1046.77 1.408 1.403 0.75;

1046.77 1047.18 1.403 1.319 0.75];

p2=p2';

p2n=tramnmx(p2,minp,maxp);

a2n=sim(net,p2n);

a2=postmnmx(a2n,mint,maxt)

echo off

pause

clc

程序说明：所用样本数据（见m_data）包括输入和输出数据，都先进行归一化，还有一个问题就是你要进行预测的样本数据(见本例p2)在进行仿真前，必须要用tramnmx函数进行事先归一化处理，然后才能用于预测，最后的仿真结果要用postmnmx进行反归一，这时的输出数据才是您所需要的预测结果。

个人认为：tansig、purelin、logsig是网络结构的传递函数，本身和归一化没什么直接关系，归一化只是一种数据预处理方法。

由于采集的各数据单位不一致，因而须对数据进行[-1，1]归一化处理，归一化方法主要有如下几种，供大家参考：（by james）

1、线性函数转换，表达式如下：

y=(x-MinValue)/(MaxValue-MinValue)

说明：x、y分别为转换前、后的值，MaxValue、MinValue分别为样本的最大值和最小值。

2、对数函数转换，表达式如下：

y=log10(x)

说明：以10为底的对数函数转换。

3、反余切函数转换，表达式如下：

y=atan(x)*2/PI

归一化是为了加快训练网络的收敛性，可以不进行归一化处理

归一化的具体作用是归纳统一样本的统计分布性。归一化在0-1之间是统计的概率分布，归一化在-1--+1之间是统计的坐标分布。归一化有同一、统一和合一的意思。无论是为了建模还是为了计算，首先基本度量单位要同一，神经网络是以样本在事件中的统计分别几率来进行训练（概率计算）和预测的，归一化是同一在0-1之间的统计概率分布；

当所有样本的输入信号都为正值时，与第一隐含层神经元相连的权值只能同时增加或减小，从而导致学习速度很慢。为了避免出现这种情况，加快网络学习速度，可以对输入信号进行归一化，使得所有样本的输入信号其均值接近于0或与其均方差相比很小。

归一化是因为sigmoid函数的取值是0到1之间的，网络最后一个节点的输出也是如此，所以经常要对样本的输出归一化处理。所以这样做分类的问题时用[0.9