数据预处理之归一化

相关主题

1、下载文档前请自行甄别文档内容的完整性，平台不提供额外的编辑、内容补充、找答案等附加服务。
2、"仅部分预览"的文档,不可在线预览部分如存在完整性等问题,可反馈申请退款(可完整预览的文档不适用该条件!)。
3、如文档侵犯您的权益，请联系客服反馈,我们会尽快为您处理(人工客服工作时间：9:00-18:30)。

y (k )
2

arctan( x(k )), k 1, 2,
,N
(1-6)
反余切函数法主要用于将角频率等变量转换到[-1,1]范围。
1.1.4 2 范数法
对于由样本数据 x(n),n=1,2,……,N,构成的向量 X ，进行归一化后，由样本数据 y(n)构成的向量 Y ，用公式可表示为：
1.1.2 对数函数法
对于样本数据 x(n),n=1,2,……,N,归一化后的样本数据 y(n)用公式表示为：
y(k ) log10 ( x(k )), k 1, 2,
,N
(1-5)
对数函数法主要用于数据的数量级非常大的场合。
1.1.3 反余切函数法
对于样本数据 x(n),n=1,2,……,N,归一化后的样本数据 y(n)用公式表示为：
y(k ) ( x(k ) min( x(n))) (max( x(n)) min( x(n))), k 1, 2,
y (k ) A x( k ) , k 1, 2, x , x 1 N x(i) N i 1
,N
(1-1)
,N
(1-2)
y (k )
x(k ) xmid 1 (max( x(n)) min( x(n))) 2
y(k ) x(k ) ,
k 1, 2,
,N
(1-8) (1-9)
y (k )
其中值和标准差。
x( k )

,
k 1, 2,
,N
1 N
x(i) ，
i 1
N
1 N 1 N ( x(i) x(i)) 2 ，分别为样本数据 x(n)的均 N i 1 N i 1
X X X 2 x2 n 2 x i i 1
T
x1
x
i 1
n
(1-7)
2 i
不同的向量的长短或方向会有不同，对向量可以采用 2 范数法将向量转变成方向不变，长度为 1 的单位向量。
1.2 中心化
在数据处理中，不同的样本数据往往具有不同的分布范围，为了便于不同样本数据间的相互运算，可以采用数据的中心化方法，将其统一转变为均值为零的数据[12]。对于样本数据 x(n),n=1,2,……,N,中心化后的样本数据 y(n)可以采用两种表示方法：均值法和 Z 分法。均值法是将样本数据减去样本均值，表现为样本值与均值的绝对距离，最终将样本数据转变为均值为 0 的数据；而 Z 分法是将样本数据减去样本均值后，除以样本的标准差，最后将样本数据调整到均值为 0，方差为 1 的数据，从而剔除了不同数据分布的离散程度在量纲和标准差数值水平上的差异，使离散程度不同的数据具有了可比性。两种方法的数学公式分别为：
, k 1, 2,
,N
(1-3)
xmid
max( x(n)) min( x(n)) , n 1, 2, 2
,N
Biblioteka Baidu(1-4)
其中 min(x(n))表示样本数据 x(n)的最小值，max(x(n))表示样本数据 x(n)的最大值，x 表示样本数据 x(n)的均值，xmid 为样本数据 x(n)的中间值， A 为调节因子，是一个常数，用于根据工程实际需要来调节样本数据的范围。
1.1 归一化
数据的归一化的目的是将不同量纲和不同数量级大小的数据转变成可以相互进行数学运算的具有相同量纲和相同数量级的具有可比性的数据。数据归一化的方法主要有线性函数法、对数函数法、反余切函数法等。Equation Section (Next)
1.1.1 线性函数法
对于样本数据 x(n),n=1,2,……,N,归一化后的样本数据可以采用三种表示方法，分别是最大最小值法、均值法和中间值法。最大最小值法用于将样本数据归一化到[0,1]范围内；均值法用于将数据归一化到任意范围内，但最大值与最小值的符号不可同时改变；中间值法用于将样本数据归一化到 [-1,1]范围内，三种方法的公式分别如式(2-1)、式(2-2)、式(2-3)所示。