数据预处理任务及方法
数据预处理的方法有哪些

数据预处理的方法有哪些数据预处理是数据分析中非常重要的一部分,它的目的是清洗、转换和整合原始数据,以便于后续的分析和建模。
在数据预处理过程中,我们需要采取一系列的方法来处理数据,以确保数据的质量和可用性。
下面将介绍一些常用的数据预处理方法。
首先,数据清洗是数据预处理的重要环节。
数据清洗的主要任务是处理缺失值、异常值和重复值。
对于缺失值,我们可以采取删除、填充或插值的方法进行处理。
对于异常值,可以通过箱线图、散点图等方法进行识别和处理。
而对于重复值,我们可以直接将重复的数据进行删除或者合并。
其次,数据转换也是数据预处理的重要环节。
数据转换的主要任务是对数据进行标准化、归一化、离散化等处理。
标准化可以消除不同量纲的影响,使得不同指标具有可比性。
归一化可以将数据映射到一个特定的区间内,以便于机器学习算法的收敛和加速。
离散化可以将连续型数据转换为离散型数据,方便进行分类和聚类分析。
另外,数据整合也是数据预处理的重要环节。
数据整合的主要任务是将来自不同数据源的数据进行整合和合并。
在数据整合过程中,我们需要考虑数据的一致性和完整性,确保数据的准确性和可靠性。
数据整合可以通过数据库连接、数据合并等方式进行处理,以便于后续的分析和建模。
此外,特征选择也是数据预处理的重要环节。
特征选择的主要任务是从原始数据中选择出对目标变量有重要影响的特征,以减少模型的复杂性和提高模型的泛化能力。
特征选择可以通过相关性分析、方差分析、主成分分析等方法进行处理,以提高模型的预测能力和解释能力。
最后,数据预处理还涉及到数据的降维和数据的平衡处理。
数据的降维可以通过主成分分析、线性判别分析等方法进行处理,以减少数据的维度和提高模型的计算效率。
数据的平衡处理可以通过过采样、欠采样等方法进行处理,以解决数据不平衡导致的模型预测偏差问题。
综上所述,数据预处理是数据分析中非常重要的一部分,它涉及到数据清洗、数据转换、数据整合、特征选择、数据降维和数据平衡处理等多个环节。
简述数据预处理的概念及预处理流程方法。

简述数据预处理的概念及预处理流程方法。
:
数据预处理是指在数据挖掘之前,对原始数据进行必要的清理、集成、转换、离散、归约、特征选择和提取等一系列处理工作,以达到挖掘算法进行知识获取研究所要求的最低规范和标准。
数据预处理的流程方法主要包括:
1.数据清洗:这个阶段主要是对原始数据中的异常值、缺失值等进行处理,以保证数
据的准确性和完整性。
具体方法包括填充异常值、插补缺失值等。
2.数据集成:这个阶段主要是将多个数据源的数据进行整合,形成一个统一的数据集。
在整合过程中需要解决数据之间的匹配、转换、冗余等问题。
3.数据变换:这个阶段主要是对数据进行标准化、归一化、特征选择、降维等方法,
使得数据满足模型的需求,提高建模效果。
4.特征提取:这个阶段主要是从原始数据中提取出有用的特征,这些特征能够更好地
反映数据的规律和模式。
常用的特征提取方法有主成分分析(PCA)、线性判别分析(LDA)等。
5.数据规约:对于高维的数据,需要进行数据压缩,例如主成分分析(PCA)等技术
来达到数据规约的目的。
数据预处理(完整步骤)

数据预处理(完整步骤)原⽂:/5009.html⼀:为什么要预处理数据?(1)现实世界的数据是肮脏的(不完整,含噪声,不⼀致)(2)没有⾼质量的数据,就没有⾼质量的挖掘结果(⾼质量的决策必须依赖于⾼质量的数据;数据仓库需要对⾼质量的数据进⾏⼀致地集成)(3)原始数据中存在的问题:不⼀致 —— 数据内含出现不⼀致情况重复不完整 —— 感兴趣的属性没有含噪声 —— 数据中存在着错误、或异常(偏离期望值)的数据⾼维度⼆:数据预处理的⽅法(1)数据清洗 —— 去噪声和⽆关数据(2)数据集成 —— 将多个数据源中的数据结合起来存放在⼀个⼀致的数据存储中(3)数据变换 —— 把原始数据转换成为适合数据挖掘的形式(4)数据规约 —— 主要⽅法包括:数据⽴⽅体聚集,维度归约,数据压缩,数值归约,离散化和概念分层等。
(5)图说事实三:数据选取参考原则(1)尽可能富余属性名和属性值明确的含义(2)统⼀多数据源的属性编码(3)去除唯⼀属性(4)去除重复属性(5)去除可忽略字段(6)合理选择关联字段(7)进⼀步处理:通过填补遗漏数据、消除异常数据、平滑噪声数据,以及纠正不⼀致数据,去掉数据中的噪⾳、填充空值、丢失值和处理不⼀致数据四:⽤图说话,(我还是习惯⽤统计图说话)数据清洗的路⼦:刚拿到的数据 —-> 和数据提供者讨论咨询 —–> 数据分析(借助可视化⼯具)发现脏数据 —->清洗脏数据(借助MATLAB 或者Java/C++语⾔) —–>再次统计分析(Excel的data analysis不错的,最⼤⼩值,中位数,众数,平均值,⽅差等等,以及散点图) —–> 再次发现脏数据或者与实验⽆关的数据(去除) —–>最后实验分析 —-> 社会实例验证 —->结束。
⼀数据清理试图填充缺失值,光滑噪声并识别离群点,并纠正数据中的不⼀致。
1)处理缺失值⽅法:a.忽略元祖,挖掘任务涉及分类任务中如果缺少类标号时通常这样做b.⼈⼯填写缺失值,量⼤时⾏不通c.使⽤⼀个全局常量填充缺失值,简单但不可靠d.使⽤属性的均值填充缺失值e.使⽤与给定元组属同⼀类的所有样本的属性均值f.使⽤最有可能的值填充缺失值,可以⽤回归,使⽤贝叶斯形式化的基于推理的⼯具或决策树归纳确定,是流⾏的做法。
数据的预处理方法

数据的预处理方法数据的预处理是指在进行数据分析或建立模型之前,对原始数据进行清洗、转换和集成等一系列操作的过程。
数据的预处理对于保证数据质量、提高模型性能以及得到准确的分析结果非常重要。
下面将详细介绍数据的预处理方法。
1. 数据清洗:数据清洗是数据预处理的第一步,主要包括处理数据中的缺失值、异常值和重复值。
- 处理缺失值:可以采用三种方法来处理缺失值,包括删除含有缺失值的样本、删除含有过多缺失值的特征以及用合适的方法填充缺失值。
填充缺失值的方法包括用平均值、中位数、众数或者是前后数据进行插值等。
- 处理异常值:异常值的处理可以采用删除或者替换的方法。
删除异常值的方法是删除超过一定范围的数据,例如3倍标准差之外的值,或者是根据专业知识定义异常值的范围。
替换异常值的方法包括用平均值、中位数或者是插值等。
- 处理重复值:重复值的处理可以采用删除的方法,即删除重复的数据。
2. 数据转换:数据转换是对数据进行标准化和转换的过程,主要包括对数据进行缩放、离散化和编码等。
- 数据缩放:数据缩放的目的是将不同单位和量纲的数据转换到一个相同的尺度上,以消除量纲对模型的影响。
常见的数据缩放方法有标准化和归一化。
标准化将数据按照均值为0,方差为1的方式进行缩放,而归一化将数据映射到0和1之间。
- 数据离散化:数据离散化是将连续型数据转化为离散型数据的过程。
离散化的方法包括等宽离散化和等频离散化。
等宽离散化将数据按照相同的宽度进行划分,而等频离散化将数据按照相同的频率进行划分。
- 数据编码:数据编码是将非数值型数据转化为数值型数据的过程。
常见的数据编码方法有独热编码和标签编码。
独热编码将每个类别编码成一个向量,其中只有一个元素为1,而其他元素为0,而标签编码将每个类别编码成一个整数。
3. 数据集成:数据集成是将多个数据源的数据集成为一个一致的数据集的过程。
数据集成主要包括数据清洗、数据转换和数据匹配等。
- 数据清洗:数据集成的第一步是对数据进行清洗,包括处理缺失值、异常值和重复值等。
数据挖掘数据预处理

数据挖掘数据预处理数据挖掘是从大量的数据中提取出有价值的信息和知识的过程。
而数据预处理是数据挖掘的第一步,它是为了提高数据挖掘的效果和准确性,对原始数据进行清洗、转换和集成的过程。
数据预处理的目标是消除数据中的噪声、处理缺失值、处理异常值、解决数据不一致性等问题,以便于后续的数据挖掘任务。
下面将详细介绍数据预处理的几个主要步骤。
1. 数据清洗:数据中往往包含有噪声,如错误数据、重复数据等。
数据清洗的目标是去除这些噪声,以保证数据的质量。
常见的数据清洗方法有:- 去除重复数据:通过比较数据的各个属性,将重复的数据进行删除。
- 处理错误数据:通过检查数据的范围、规则等,对不符合要求的数据进行修正或者删除。
2. 数据转换:数据转换是将原始数据转化为适合数据挖掘算法的形式。
常见的数据转换方法有:- 数据规范化:将数据按照一定的比例缩放到指定的范围内,以消除不同属性之间的量纲差异。
- 数据离散化:将连续型数据转化为离散型数据,以便于处理和分析。
3. 缺失值处理:数据中往往存在缺失值,缺失值会影响数据挖掘的结果。
常见的缺失值处理方法有:- 删除含有缺失值的样本:如果缺失值的比例较小,可以直接删除含有缺失值的样本。
- 插补缺失值:通过一定的方法,对缺失值进行估计或者填充。
常用的插补方法有均值插补、中位数插补、回归插补等。
4. 异常值处理:异常值是指与大部份数据明显不同的数据点,它们可能是由于测量误差、录入错误或者真实存在的特殊情况引起的。
异常值会对数据挖掘的结果产生较大的影响,因此需要进行处理。
常见的异常值处理方法有:- 删除异常值:通过设定阈值,将超过阈值的数据点删除。
- 替换异常值:将异常值替换为合理的值,如均值、中位数等。
5. 数据集成:数据集成是将多个数据源中的数据进行整合,以便于进行数据挖掘分析。
常见的数据集成方法有:- 实体识别:通过识别数据源中的实体,将相同实体的数据进行整合。
- 冗余属性合并:将具有相同含义的属性进行合并,减少数据冗余。
大数据分析中的预处理技术及其应用

大数据分析中的预处理技术及其应用随着信息技术的快速发展,大数据分析已经成为了当今社会中的一个热门话题。
大数据分析是指通过对大规模数据集进行收集、处理和分析,从中发现有价值的信息和模式。
然而,在进行大数据分析之前,需要进行一系列的预处理工作,以确保数据的质量和可用性。
本文将探讨大数据分析中的预处理技术及其应用。
一、数据清洗数据清洗是大数据分析中最基本也是最重要的一步。
在大数据集中,常常会包含有缺失值、异常值、重复值等问题。
数据清洗的目的是通过删除或修复这些问题,使数据集更加完整和准确。
首先,对于缺失值的处理,可以采用删除或填充的方式。
删除缺失值可能会导致信息的丢失,因此填充缺失值是更为常见的做法。
常用的填充方法包括均值填充、中位数填充和插值法等。
其次,对于异常值的处理,可以采用删除、替换或变换的方式。
异常值可能会对分析结果产生较大的影响,因此需要对其进行处理。
常用的处理方法包括删除异常值、用邻近值替换异常值和使用离群点检测算法等。
最后,对于重复值的处理,可以采用删除或合并的方式。
重复值可能会导致分析结果的偏差,因此需要对其进行处理。
常用的处理方法包括删除重复值和合并重复值。
二、数据转换数据转换是指将原始数据转换为适合分析的形式。
在大数据分析中,常常需要对数据进行标准化、归一化和离散化等转换操作。
首先,标准化是将数据转换为均值为0、标准差为1的标准正态分布。
标准化可以消除数据之间的量纲差异,使得不同变量之间具有可比性。
其次,归一化是将数据转换为0到1之间的范围。
归一化可以将数据映射到统一的尺度,便于比较和分析。
最后,离散化是将连续变量转换为离散变量。
离散化可以简化数据分析的复杂度,提高算法的效率。
三、数据集成数据集成是将来自不同数据源的数据进行合并和整合。
在大数据分析中,常常需要从多个数据源中获取数据,并将其整合为一个统一的数据集。
数据集成的过程中需要解决数据格式不一致、数据冗余和数据一致性等问题。
数据挖掘-数据预处理的必要性及主要任务

数据挖掘-数据预处理的必要性及主要任务数据预处理的必要性及主要任务1、数据预处理的必要性数据库极易受噪声、缺失值和不⼀致数据的侵扰,因为数据库太⼤,并且多半来⾃多个异构数据源。
低质量的数据导致低质量的数据挖掘。
2、数据预处理技术(1)数据清理:可以⽤来清除数据中的噪声,纠正不⼀致。
(2)数据集成:将数据由多个数据源合并成⼀个⼀致的数据存储,如数据仓库。
(3)数据归约:可以通过如狙击、删除冗余特征或聚类来降低数据的规模。
(4)数据变换:可以⽤来把数据压缩到较⼩的区间,如0.0到1.0。
这可以提⾼设计距离度量的挖掘算法的准确率和效率。
这些技术不是互相排斥的,可以⼀起使⽤。
3.为什么要对数据预处理数据如果能满⾜其应⽤要求,那么它肯定是⾼质量的。
数据质量涉及许多因素,包括准确性、完整性、⼀致性、时效性、可信性和可解释性数据质量的三个要素:准确性、完整性和⼀致性。
不正确、不完整和不⼀致的数据是现实世界的⼤型数据库和数据仓库的共同特点。
导致不正确的数据(具有不正确的属性值)可能有多种原因:收集数据的设备可能出现故障;⼈或计算机的错误可能在数据输⼊时出现;当⽤户不希望提交个⼈信息时,可能故意向强制输⼊字段输⼊不正确的值。
这成为被掩盖的缺失数据。
错误也可能在数据传输中出现。
也可能是由命名约定或所⽤的数据代码不⼀致,或输⼊字段的格式不⼀致⽽导致的。
重复元组也需要数据清理。
不完整数据的出现可能有多种原因。
有些感兴趣的属性,如销售事务数据中顾客的信息,并⾮总是可以得到的。
其他数据没有包含在内,可能只是因为输⼊时认为是不重要的。
相关数据没有记录可能是由于理解错误,或者因为设备故障。
与其他记录不⼀致的数据可能已经被删除。
此外,历史或修改的数据可能被忽略。
缺失的数据,特别是某些属性上缺失值的元组,可能需要推导出来。
时效性(timeliness)也影响数据的质量。
影响数据质量的另外两个因素是可信性和可解释性。
可信性(believability)反映有多少数据是⽤户信赖的,⽽可解释性(interpretability)反映数据是否容易理解。
数据预处理在数据挖掘中的作用及其主要技术

数据预处理在数据挖掘中的作用及其主要技术以数据预处理在数据挖掘中的作用及其主要技术为标题,本文将探讨数据预处理在数据挖掘中的重要性以及常用的数据预处理技术。
一、数据预处理的作用数据预处理是数据挖掘过程中的关键步骤,它对于提高数据挖掘的准确性和可靠性至关重要。
数据预处理的主要作用如下:1. 数据清洗:在现实世界中,获得的数据往往存在缺失值、异常值、噪声等问题。
数据清洗的目的是将这些不规范的数据进行处理,使其符合数据挖掘的需求。
常见的数据清洗技术包括缺失值处理、异常值检测与处理、噪声过滤等。
2. 数据集成:在数据挖掘过程中,可能需要从不同的数据源中获取数据,并将其整合成一个有意义的数据集。
数据集成的目标是消除数据源之间的差异,将数据转化为统一的格式和结构。
3. 数据变换:数据变换的目的是将原始数据转化为适合进行数据挖掘的形式。
常用的数据变换技术包括数据规范化、属性构造与选择、离散化等。
4. 数据归约:对于大规模数据集,为了提高数据挖掘算法的效率,需要对数据进行归约处理。
数据归约的方法包括维度归约和样本归约。
二、常用的数据预处理技术数据预处理涉及到多种技术和方法,下面介绍一些常用的数据预处理技术:1. 缺失值处理:缺失值是指数据中某些属性或变量的值缺失或未记录。
常见的缺失值处理方法有删除缺失值、插补法和基于模型的方法。
2. 异常值检测与处理:异常值是指与其他观测值明显不同或不符合预期的观测值。
常用的异常值检测方法有基于统计的方法和基于模型的方法,对于检测到的异常值可以选择删除、替换或忽略。
3. 数据规范化:数据规范化是将不同属性的数据转化为具有统一量纲的数据。
常用的数据规范化方法有最小-最大规范化、Z-Score规范化和小数定标规范化。
4. 属性构造与选择:属性构造是指根据已有属性衍生出新的属性,以提高数据挖掘的效果。
属性选择是指从原始属性中选择出对数据挖掘任务有用的属性。
常用的属性构造与选择方法有主成分分析、信息增益和相关系数等。
- 1、下载文档前请自行甄别文档内容的完整性,平台不提供额外的编辑、内容补充、找答案等附加服务。
- 2、"仅部分预览"的文档,不可在线预览部分如存在完整性等问题,可反馈申请退款(可完整预览的文档不适用该条件!)。
- 3、如文档侵犯您的权益,请联系客服反馈,我们会尽快为您处理(人工客服工作时间:9:00-18:30)。
数据预处理任务及方法聚类(Aggregation)抽样(Sample)维数约减(Dimensionality reduction)特征子集选择(Feature subset selection)特征创造(Feature creation)离散化和二进制化(Discretization and binarization)变量转换(Variable transformation)总的来说,这些内容可以分为两类:为分析数据选择数据对象和属性;为分析数据创造或改变属性。
所有这些内容都是考虑到时间、成本和质量,提高数据挖掘分析质量。
(属性、特征、变量都是近义词,不做具体区分)一、聚类考虑到有时候“less is more”,将两个或多个对象合并成一个就是聚类的思想。
举个例子,下表是由交易记录(数据对象)构成的一个数据集,它是不同地点的商店在一年内的时间的产品日常销售数据(Minneapolis,Chicago,Paris,……)。
聚合这样的数据集的一种方法是将一个商店的所有的交易记录用一个单独的商店范围的交易代替。
这样就可以减少上千条交易记录了。
但是这样的方法有一个非常明显的问题:如何创造一个聚类的交易记录,即应该如何根据一个指定地点的记录来合并属性的值,创造聚类交易,使其能代表一个商店或者一个时间的交易。
数值型属性如价格,可以采用加和或者平均值的方式代替。
质量型属性如项目,则可以采用省略或者某个地点的项目和的方法。
该表格的数据可以看成是多维的列,每个属性即是一个维度。
根据这种思想,聚类可以看成是消除属性,如删除项目列,或者减少某个属性的值的数量,如将日期可能的值从365天改成12个月的记录方式。
这种聚类经常出现在在线分析处理中(Online AnalyticalProcessing, OLAP)中。
聚类的动机:1、小的数据集可以节省内存,提高处理效率。
2、聚类可以提供更高层的数据视图。
3、群体对象的行为要比个体更加稳定。
但是聚类有一个缺点就是可能会丢失有趣的细节。
二、抽样数据挖掘中的抽样动机与统计学中的抽样有所不同。
统计学的抽样是因为获得全体的成本花费太高,而数据挖掘的抽样是因为处理所有的数据代价太高。
抽样就要使样本具有代表性,即样本与总体有近似的属性。
抽样的方法:最简单的抽样方法是随机抽样。
随即抽样分成两种(其它抽样方法类似):不带重复的抽样和带重复的抽样。
当样本与总体数据相比很小时,两种方法没有大的区别,但是带重复的抽样在分析时相对简单,因为在样本处理中,选取任何对象的概率是一样的。
当总体有很多不同类型的对象,且对象的数量有很大不同时,简单随机抽样并不适合。
这就要使用分层抽样。
维数约减(Dimensionality Reduction)数据集可以有很多的特征。
对维数进行约减可以有很多好处。
其中一个关键的有点是很多数据挖掘算法在低维度的情况下有很好的表现。
这是因为维数约减可以消除无关的特征并降低噪音数据,也可能是因为维数灾难(the curse of dimensionality)。
维数约减的另一个好处是可以建立一个容易被理解的模型。
维数约减通常可以采用建立新属性的方式,将几个旧属性合并在一起。
也可以选择旧属性集中的子集,这种方法通常称为特征子集选择或者特征选择。
维数灾难(The Curse of Dimensionality)维数灾难是指很多情况下的数据分析在数据维度增加的情况下会变得非常困难的现象。
特别地,当数据维度增加时,数据会变得非常稀疏。
与维数约减有关的线性代数技术维数约减中最常用的方法(尤其是针对连续性数据来说)是使用线性代数的相关技术。
主成分分析(Principal Components Analysis, PCA)是给连续性数据建立新属性的线性代数的方法。
其新属性是:(1)源属性的线性联合,(2)是相互正交的,(3)是数据中变化最大的(capture the maximum amount of variation in the data)。
奇异值分解(Singular Value Decomposition, SVD)是一种与PCA有关的线性代数的技术,在维数约减中被经常使用。
三、特征子集选择只使用特征集中的一个子集是维数约减中的一种方法,尽管这样的方法可能会丢失信息,但是如果有多余的(redundant)和无关的(irrelevant)特征时就不会出现这种状况。
多余的特征(Redundant features)是指有重复的信息或者所有的信息都在一个或者多个属性中。
无关的特征(Irrelevant features)包含了目前的数据挖据中没有用的信息。
尽管无关的和多余的属性可以使用常识或者领域知识被消除,定期选择最好的特征子集需要一个系统的方法。
特征选择的完美的方法是尽可能尝试所有可能的特征子集作为数据挖掘算法的输入,然后选择输出结果最好的特征子集。
但是这样的穷举法显然不适合。
特征选择有三种标准的方法:嵌入式(embedded),过滤器(filter)和封装器(wrapper)。
嵌入式方法(Embedded approaches):特征选择是数据挖掘算法的一部分。
特别地,数据挖掘算法操作时,算法本身决定使用哪些属性忽略哪些属性。
过滤器方法(Filter approaches):在算法运行之前选择特征,使用一些独立于数据挖掘任务的方法。
比如,选择属性之间关联尽可能小的。
封装器方法(Wrapper approaches):这类的方法将目标数据挖掘算法作为一个黑盒寻找最好的属性子集。
但通常并不枚举出所有可能的子集。
特征子集选择的架构(An Architecture for Feature Subset Selection)一般的架构可能既包含过滤器也包含封装器。
特征选择处理一般有四个部分:一个评价子集的测量方法,一个搜寻策略(控制新特征子集的产生),一个停止标准和一个验证程序。
过滤方法和封装方法的不同仅仅在于其对子集的评价方式上。
从概念上说,特征子集选择就是搜寻所有可能的特征子集。
有很多搜寻策略可以使用,但是搜寻策略在计算代价方面要较小,且能够找出最优的或者近似最优的特征集合。
由于通常情况下不可能满足所有的要求,因此必须要权衡。
搜寻中一个必不可少的部分就是评价目前的特征子集。
这就需要针对特定的数据挖掘任务测量评价属性子集的好处。
对于过滤器方法,这些测量尝试预测在给定的属性集下实际的数据挖掘算法运行的情况。
对于封装器方法,评价是由实际运行的目标数据挖掘应用组成。
由于子集的数量可能很大,因此枚举出所有的子集实际上并不可能,所以需要一些停止策略。
这个策略通常基于以下一个或者多个情况:● 迭代次数● 子集价值的评价是否是最优的或者超过一个阙值 ● 是否已经得到一定量子集 ● 数量标准与评价标准是否同时达到 ● 这个策略下是否还有其他选项可以提升效果一旦子集确定了,关于该子集的目标数据挖掘结果就要被验证了。
一个直观的评价方法是直接运行算法并比较总体结果与子集结果。
希望的结果是利用子集产生的结果要比使用所有特征好或者至少差不多。
另一种验证方法是使用很多不同的特征选择算法获得特征子集并比较每种特征子集下算法运行的结果。
特征赋权(Feature Weighting )特征赋权是一种替代保持或消除特征的方法。
更重要的特征被赋予更高的权重,反之亦然。
这些权重有时是基于领域知识确定的。
也可以自动确定。
特征创造(Feature Creation )从源属性中创造一些包含重要信息的新的属性集也是一种高效的方法。
新的属性数量要比源属性少,这就使我们可以获得属性约减所有的好处。
特征创造有以下一些内容:特征抽Selected Attributes Validation Procedure Attributes Search StrategyEvaluationSubset of AttributesStopping CriterionNot DoneDone取(feature extraction),将数据映射到新的空间中(mapping the data to a new space),特征构造(feature construction)。
特征抽取(Feature Extraction)从原始数据源中构造新的特征集合叫做特征抽取。
例如,图片的分类可以根据它是否包含人脸来进行。
源数据是像素的集合,这并不适合大多数的分类算法。
然而,如果数据被处理后可以提供更高级别的特征,如与人脸相关的某些边界和区域是否存在。
那么,很多的分类技术就可以在这个问题上使用了。
不幸的是,通常情况下,特征抽取都是高度领域化的。
某个特定的领域,如图片处理中,需要很长时间来建立特征和技术来从众抽取,同时,这些技术很少可以使用到其它领域。
因此,当数据挖掘应用到一个新的领域时,就需要发展一些新的特征抽取方法了。
数据映射到新的空间(Mapping the Data to a New Space)举个例子,时间序列数据经常包含周期模式。
如果只有一种周期模式并且没有噪音,这样的周期模式就很容易被侦测。
相反,如果有很多周期模式且存在大量噪音数据,这就很难侦测。
这样的情况下,通常对时间序列使用傅立叶变换(Fourier transform)转换表示方法。
特征构造(Feature Construction)源数据中的某些特征有必要的信息,但其并不适合数据挖掘算法。
这种情况通常需要从原始特征中构造一个或多个新特征使用。
四、离散化和二进制化一些数据挖掘算法,尤其是某些分类算法,需要数据的属性是类别属性(categorical attributes)格式的。
关联规则算法需要数据的属性是二进制形式的(binary attributes)。
因此常常需要将连续属性(continuous attributes)转变成类别属性(categorical attributes),即离散化(discretization)。
而连续属性或者类别属性则可能需要变成二进制化(binarization)。
此外,如果类别属性有太多的值,或者一些值出现的频率很小,通过把一些值联合起来可以减少类别的属性。
类似于特征选择,离散化和二进制化最好的方法是“对分析数据的数据挖掘算法来说,会产生最好的结果”。
通常这并不实际,因此,离散化和二进制化都只是需要满足一些标准,以期能获得好点的数据挖掘结果。
二进制化(Binarization)类别属性的二进制化的一个简单的例子如下:如果类别有m个值,给每个原始的值赋予唯一的整数,其区间在[0,m-1]。
如果属性是顺序的,则赋值也是顺序的(注意,即便原始属性值是整数类型的,这一步也是必须的,因为原始的属性值可能不在[0,m-1]之间)。