数据挖掘2015最新精品课程完整课件(第2讲)---数据预处理
合集下载
数据挖掘2

22
五、数据清理
1、却失值处理 缺失值是指数据集中某些记录(元组)的部分属性值为空。 如:在客户表中的某些客户的收入一项为空值。 (1)导致数据缺失的原因 ➢ 数据采集设备的故障; ➢ 由于与其它信息的数据存在不一致性,因此数据项被删除; ➢ 由于不理解或者不知道而未能输入; ➢ 在当时数据输入的时候,该数据项不重要而被忽略; ➢ 数据传输过程中引起的错误;
■ 引言
数据挖掘把对数据的应用从低层次的简单查询,提升到高层 次的挖掘知识。
数据挖掘的研究一般集中在对挖掘技术、挖掘算法和挖掘语 言的研究上。
事实上,数据挖掘对所处理的数据是有严格要求的,因此, 对数据的预处理是至关重要的,一般需要花费整个挖掘过程 60%左右的时间。
本章讨论数据预处理的一些主要方法。
14
二、数据集类型
(2)具有图形对象的数据: 如果对象具有某种结构,即对象包含具有联系的子对象,则这样的对象常 常用图形表示。例如,化合物的结构可以用图形表示,其中结点是原子,节 点之间的链是化学键。
笨分子
15
二、数据集类型
4、有序数据 对于某些数据类型,属性涉及到时间或空间的顺序联系 时序数据:也称时间数据,可以看作是记录数据的扩充,其中 每个记录包含一个与之相关联的时间。即有一个时间属性。 序列数据:是一个数据集合,它是个体项的序列,如词或字母 的序列。 时间序列数据:是一种特殊的时序数据,其中每个记录都有一 个时间序列,即一段时间的测量序列。 空间数据:有些对象具有空间属性,如位置或区域。
学号 01 02
姓名 李刚 刘红
性别 男 女
年龄 16 15
身高 170cm 162cm
03
王强
男
15
174cm
五、数据清理
1、却失值处理 缺失值是指数据集中某些记录(元组)的部分属性值为空。 如:在客户表中的某些客户的收入一项为空值。 (1)导致数据缺失的原因 ➢ 数据采集设备的故障; ➢ 由于与其它信息的数据存在不一致性,因此数据项被删除; ➢ 由于不理解或者不知道而未能输入; ➢ 在当时数据输入的时候,该数据项不重要而被忽略; ➢ 数据传输过程中引起的错误;
■ 引言
数据挖掘把对数据的应用从低层次的简单查询,提升到高层 次的挖掘知识。
数据挖掘的研究一般集中在对挖掘技术、挖掘算法和挖掘语 言的研究上。
事实上,数据挖掘对所处理的数据是有严格要求的,因此, 对数据的预处理是至关重要的,一般需要花费整个挖掘过程 60%左右的时间。
本章讨论数据预处理的一些主要方法。
14
二、数据集类型
(2)具有图形对象的数据: 如果对象具有某种结构,即对象包含具有联系的子对象,则这样的对象常 常用图形表示。例如,化合物的结构可以用图形表示,其中结点是原子,节 点之间的链是化学键。
笨分子
15
二、数据集类型
4、有序数据 对于某些数据类型,属性涉及到时间或空间的顺序联系 时序数据:也称时间数据,可以看作是记录数据的扩充,其中 每个记录包含一个与之相关联的时间。即有一个时间属性。 序列数据:是一个数据集合,它是个体项的序列,如词或字母 的序列。 时间序列数据:是一种特殊的时序数据,其中每个记录都有一 个时间序列,即一段时间的测量序列。 空间数据:有些对象具有空间属性,如位置或区域。
学号 01 02
姓名 李刚 刘红
性别 男 女
年龄 16 15
身高 170cm 162cm
03
王强
男
15
174cm
数据挖掘第一与第二章PPT课件

散的目标变量;回归,用于预测连续的目标变 量。
预测建模可以用来确定顾客对产品促销活 动的反应,预测地球生态系统的扰动,或根据 检查结果判断病人是否患有某种疾病。
14
数据挖掘任务
• 关联分析 用来描述数据中强关联特征的模式。 关联分析的应用包括找出具有相关功
能的基因组、识别用户一起访问的Web页面、 理解地球气候系统不同元素之间的联系等。
12
数据挖掘任务
• 预测vs.描述 • 预测(Prediction)
– 根据其他属性的值,预测特定属性的值 • 描述(Description)
– 导出概括数据中潜在联系的模式
2020年9月29日星期二
13
数据挖掘任务
• 预测建模 涉及以说明自变量函数的方式为目标变量
建立模型。 有两类预测建模任务:分类,用于预测离
– 使用抽样技术或开发并行和分布算法也可以提高可 伸缩程度
2020年9月29日星期二
7
挑战2
• 高维性
– 具有数以百计或数以千计属性的数据集
• 生物信息学:涉及数千特征的基因表达数据 • 不同地区温度测量:如果在一个相当长的时间周期内进
行测量,维度(特征数)的增长正比于测量的次数
– 为低维数据开发的数据分析技术不能很好地处理高 维数据
异常检测的应用包括检测欺诈、网络攻 击、疾病的不寻常模式、生态系统扰动等。
– Jiawei Han的定义
• 从大型数据集中提取有趣的 (非平凡的, 蕴涵的, 先前未知的并且是潜在有用的) 信息或模式
4
数据挖掘技术的定义
• 定义:数据挖掘就是从大量的、不完全的、有 噪声的、模糊的、随机的实际应用数据中,提 取隐含在其中的,人们事先不知道的、但又是 潜在有用的信息和知识的过程.
预测建模可以用来确定顾客对产品促销活 动的反应,预测地球生态系统的扰动,或根据 检查结果判断病人是否患有某种疾病。
14
数据挖掘任务
• 关联分析 用来描述数据中强关联特征的模式。 关联分析的应用包括找出具有相关功
能的基因组、识别用户一起访问的Web页面、 理解地球气候系统不同元素之间的联系等。
12
数据挖掘任务
• 预测vs.描述 • 预测(Prediction)
– 根据其他属性的值,预测特定属性的值 • 描述(Description)
– 导出概括数据中潜在联系的模式
2020年9月29日星期二
13
数据挖掘任务
• 预测建模 涉及以说明自变量函数的方式为目标变量
建立模型。 有两类预测建模任务:分类,用于预测离
– 使用抽样技术或开发并行和分布算法也可以提高可 伸缩程度
2020年9月29日星期二
7
挑战2
• 高维性
– 具有数以百计或数以千计属性的数据集
• 生物信息学:涉及数千特征的基因表达数据 • 不同地区温度测量:如果在一个相当长的时间周期内进
行测量,维度(特征数)的增长正比于测量的次数
– 为低维数据开发的数据分析技术不能很好地处理高 维数据
异常检测的应用包括检测欺诈、网络攻 击、疾病的不寻常模式、生态系统扰动等。
– Jiawei Han的定义
• 从大型数据集中提取有趣的 (非平凡的, 蕴涵的, 先前未知的并且是潜在有用的) 信息或模式
4
数据挖掘技术的定义
• 定义:数据挖掘就是从大量的、不完全的、有 噪声的、模糊的、随机的实际应用数据中,提 取隐含在其中的,人们事先不知道的、但又是 潜在有用的信息和知识的过程.
大数据本科系列教材PPT课件之《数据挖掘》:第2章 数据预处理与相似性

这种方法的缺点是对异常点比较敏 感,倾向于不均匀地把实例分布到 各个箱中。
等宽分箱法
将数据总记录数均匀分为n等份,每 份包含的数据个数相同。如果n=10, 那么每一份中将包含大约10%的数 据对象。
等频法可能将具有不相同类标号的 相同属性值分入不同的箱中以满足 箱中数据固定个数的条件。
等频分箱法
19 of 44
x ' x min (new _ max new _ min) new _ min max min
将x转换到区间[new_min,new_max]中,结果为 。这种方法有一个缺 陷就是当有新的数据加入时,可能导致max,min值的变化,需要重新 定义。如果要做0-1规范化,上述式子可以简化为:
18 of 44
2.2 数据预处理
第二章 数据预处理与相似性
2.2.5 数据离散化
连续属性离散化的问题本质是:决定选择多少个分割点和确定分割点位置。任务可分为两个步骤 完成。首先将连续属性排序,并通过指定n-1个分割点把它们分成n个区间。然后,将一个区间中 的所有值映射到相同的分类值。
将排好序的数据从最小值到最大值 均匀划分成n等份,每份的间距是相 等的。假设A和B分别是属性值的最 小值和最大值,那么划分间距为 w=(B-A)/n
图形数据对象之间存在显式或隐式的联系,相互之间有一定的复杂依 赖关系,构成图形或网状结构,如互联网中的超链接。
6 of 44
高级大数据人才培养丛书之一,大数据挖掘技术与应用
第二章 数据预处理与相似性
2.1 数据类型 2.2 数据预处理 2.3 数据的相似性 习题
7 of 44
2.2 数据预处理
数据挖掘工作始终是以数据为中心开 展的,分类、聚类、回归、关联分析 以及可视化等工作的顺利进行完全是 建立在良好的输入数据基础之上。软 件开发行业有句格言:“Garbage-InGarbage-Out”,这句话同样适用于 数据科学。
等宽分箱法
将数据总记录数均匀分为n等份,每 份包含的数据个数相同。如果n=10, 那么每一份中将包含大约10%的数 据对象。
等频法可能将具有不相同类标号的 相同属性值分入不同的箱中以满足 箱中数据固定个数的条件。
等频分箱法
19 of 44
x ' x min (new _ max new _ min) new _ min max min
将x转换到区间[new_min,new_max]中,结果为 。这种方法有一个缺 陷就是当有新的数据加入时,可能导致max,min值的变化,需要重新 定义。如果要做0-1规范化,上述式子可以简化为:
18 of 44
2.2 数据预处理
第二章 数据预处理与相似性
2.2.5 数据离散化
连续属性离散化的问题本质是:决定选择多少个分割点和确定分割点位置。任务可分为两个步骤 完成。首先将连续属性排序,并通过指定n-1个分割点把它们分成n个区间。然后,将一个区间中 的所有值映射到相同的分类值。
将排好序的数据从最小值到最大值 均匀划分成n等份,每份的间距是相 等的。假设A和B分别是属性值的最 小值和最大值,那么划分间距为 w=(B-A)/n
图形数据对象之间存在显式或隐式的联系,相互之间有一定的复杂依 赖关系,构成图形或网状结构,如互联网中的超链接。
6 of 44
高级大数据人才培养丛书之一,大数据挖掘技术与应用
第二章 数据预处理与相似性
2.1 数据类型 2.2 数据预处理 2.3 数据的相似性 习题
7 of 44
2.2 数据预处理
数据挖掘工作始终是以数据为中心开 展的,分类、聚类、回归、关联分析 以及可视化等工作的顺利进行完全是 建立在良好的输入数据基础之上。软 件开发行业有句格言:“Garbage-InGarbage-Out”,这句话同样适用于 数据科学。
数据挖掘PPT2

•18
数据转换
所谓数据转换就是将数据转换或归并成一 个适合数据挖掘的描述形式。
数据转换包含以下处理内容:
•19
数据变换
平滑:去除数据中的噪声 (分箱、聚类、回归) 聚集(合计处理):对数据进行总结或合计
操作。例如:每天销售额(数据)可以进行合 计操作以获得每月或每年的总额。这一操作常 用于构造数据立方或对数据进行多细度的分析。
为什么要预处理数据?
数据预处理是数据挖掘(知识发现)过程 中的一个重要步骤,尤其是在对包含有噪 声、不完整,甚至是不一致数据进行数据 挖掘时,更需要进行数据的预处理,以提 高数据挖掘对象的质量,并最终达到提高 数据挖掘所获模式知识质量的目的。
•1
为什么要预处理数据?
现实世界的数据是“肮脏的”
不完整的:有些感兴趣的属性缺少属性值
箱3:29,29,29
用箱边界平滑:
箱1:4,4,15
箱2:21,21,24
箱3:25,25,34
•12
如何处理噪声数据
聚类方法:
通过聚类分析可帮助发现异常数据,相似或相 邻近的数据聚合在一起形成了各个聚类集合, 而那些位于这些聚类集合之外的数据对象,自 然而然就被认为是异常数据。
•13
等等
•11
数据平滑的分箱方法
给定一个数值型属性price:
price的排序后数据(单位:美元):4,8,15,21, 21,24,25,28,34
划分为(等深的)箱:
箱1:4,8,15
箱2:21,21,24
箱3:25,28,34
用箱平均值平滑:
箱1:9,9,9
箱2:22,22,22
•7
如何处理空缺值
人工填写空缺值:工作量大,可行性低 使用一个全局变量填充空缺值:对一个属性的
数据转换
所谓数据转换就是将数据转换或归并成一 个适合数据挖掘的描述形式。
数据转换包含以下处理内容:
•19
数据变换
平滑:去除数据中的噪声 (分箱、聚类、回归) 聚集(合计处理):对数据进行总结或合计
操作。例如:每天销售额(数据)可以进行合 计操作以获得每月或每年的总额。这一操作常 用于构造数据立方或对数据进行多细度的分析。
为什么要预处理数据?
数据预处理是数据挖掘(知识发现)过程 中的一个重要步骤,尤其是在对包含有噪 声、不完整,甚至是不一致数据进行数据 挖掘时,更需要进行数据的预处理,以提 高数据挖掘对象的质量,并最终达到提高 数据挖掘所获模式知识质量的目的。
•1
为什么要预处理数据?
现实世界的数据是“肮脏的”
不完整的:有些感兴趣的属性缺少属性值
箱3:29,29,29
用箱边界平滑:
箱1:4,4,15
箱2:21,21,24
箱3:25,25,34
•12
如何处理噪声数据
聚类方法:
通过聚类分析可帮助发现异常数据,相似或相 邻近的数据聚合在一起形成了各个聚类集合, 而那些位于这些聚类集合之外的数据对象,自 然而然就被认为是异常数据。
•13
等等
•11
数据平滑的分箱方法
给定一个数值型属性price:
price的排序后数据(单位:美元):4,8,15,21, 21,24,25,28,34
划分为(等深的)箱:
箱1:4,8,15
箱2:21,21,24
箱3:25,28,34
用箱平均值平滑:
箱1:9,9,9
箱2:22,22,22
•7
如何处理空缺值
人工填写空缺值:工作量大,可行性低 使用一个全局变量填充空缺值:对一个属性的
浙江大学王灿《数据挖掘》课程PPT_数据预处理

价值 可解释性 内在的、上下文的、表象的以及可访问性
跟数据本身的含义相关的
数据预处理的主要任务
数据清理
填写空缺的值,平滑噪声数据,识别、删除孤立点,解决不 一致性
集成多个数据库、数据立方体或文件 规范化和聚集
数据集成
median L1 ( n / 2 ( f )l f median )c
中位数:有序集的中间值或者中间两个值平均
度量中心趋势 (2)
众数(Mode,也叫模):集合中出现频率最 高的值
单峰的(unimodal,也叫单模态)、双峰的( bimodal)、三峰的(trimodal);多峰的( multimodal) 对于适度倾斜(非对称的)的单峰频率曲线,可以 使用以下经验公式计算众数
数据预处理
第二章 数据预处理
为什么对数据进行预处理 描述性数据汇总 数据清理 数据集成和变换 数据归约 离散化和概念分层生成
为什么进行数据预处理?
现实世界的数据是“肮脏的”——数据多了,什 么问题都会出现
不完整
缺少数据值;缺乏某些重要属性;仅包含汇总数据; e.g., occupation="" 包含错误或者孤立点 e.g. Salary = -10
有噪声
数据不一致
e.g., 在编码或者命名上存在差异 e.g., 过去的等级: “1,2,3”, 现在的等级: “A, B, C” e.g., 重复记录间的不一致性 e.g., Age=“42” Birthday=“03/07/1997”
数据为什么会变“脏”?
跟数据本身的含义相关的
数据预处理的主要任务
数据清理
填写空缺的值,平滑噪声数据,识别、删除孤立点,解决不 一致性
集成多个数据库、数据立方体或文件 规范化和聚集
数据集成
median L1 ( n / 2 ( f )l f median )c
中位数:有序集的中间值或者中间两个值平均
度量中心趋势 (2)
众数(Mode,也叫模):集合中出现频率最 高的值
单峰的(unimodal,也叫单模态)、双峰的( bimodal)、三峰的(trimodal);多峰的( multimodal) 对于适度倾斜(非对称的)的单峰频率曲线,可以 使用以下经验公式计算众数
数据预处理
第二章 数据预处理
为什么对数据进行预处理 描述性数据汇总 数据清理 数据集成和变换 数据归约 离散化和概念分层生成
为什么进行数据预处理?
现实世界的数据是“肮脏的”——数据多了,什 么问题都会出现
不完整
缺少数据值;缺乏某些重要属性;仅包含汇总数据; e.g., occupation="" 包含错误或者孤立点 e.g. Salary = -10
有噪声
数据不一致
e.g., 在编码或者命名上存在差异 e.g., 过去的等级: “1,2,3”, 现在的等级: “A, B, C” e.g., 重复记录间的不一致性 e.g., Age=“42” Birthday=“03/07/1997”
数据为什么会变“脏”?
数据挖掘课件

07
数据挖掘实践案例
电商用户行为分析
1 2
用户购买行为分析
分析用户的购买记录,识别用户的购买习惯和偏 好,为电商企业提供精准的产品推荐和营销策略 。
用户活跃度分析
分析用户的登录、浏览、搜索等行为,评估用户 的活跃度和兴趣,优化网站内容和结构。
3
用户满意度分析
通过用户评价和反馈,了解用户对产品的满意度 和需求,及时调整产品和服务,提高用户满意度 和忠诚度。
层次聚类算法的优缺点
层次聚类算法能够得到完整的聚类树,但计算复杂度高,且需要预先确定簇的数量或截断 线。
05
分类与回归
决策树算法
决策树算法概述
ID3算法
决策树是一种常见的分类与回归算法,通 过树形结构来表达决策过程。
ID3算法是决策树学习算法的一种,它根据 信息增益来选择划分属性。
C4.5算法
CART算法
C4.5算法是ID3算法的改进版,它引入了增 益率的概念,解决了ID3算法对可取值数目 较多的属性有所偏好的问题。
CART算法是一种采用二叉树结构的决策树 学习算法,概述
距离度量
K近邻算法是一种基本的分 类与回归算法,它根据距离 来衡量样本之间的相似性。
信用卡欺诈检测
01
异常交易检测
监测信用卡交易记录,及时发现 异常交易,如大额交易、异地交 易等,防止欺诈行为。
02
欺诈模式识别
03
实时监控与警报
通过对历史欺诈行为进行分析, 发现欺诈模式和特征,建立欺诈 检测模型。
实时监测信用卡交易,触发警报 机制,及时通知银行和持卡人, 防止欺诈行为。
股票价格预测
填充缺失值
对于缺失的数据,可以采 用不同的方法进行填充, 如用平均值、中位数或模 式匹配等方法。
数据挖掘——数据预处理 共48页PPT资料共50页文档

60、人民的幸福是至高无个的法。— —西塞 罗
ห้องสมุดไป่ตู้
谢谢你的阅读
❖ 知识就是财富 ❖ 丰富你的人生
71、既然我已经踏上这条道路,那么,任何东西都不应妨碍我沿着这条路走下去。——康德 72、家庭成为快乐的种子在外也不致成为障碍物但在旅行之际却是夜间的伴侣。——西塞罗 73、坚持意志伟大的事业需要始终不渝的精神。——伏尔泰 74、路漫漫其修道远,吾将上下而求索。——屈原 75、内外相应,言行相称。——韩非
数据挖掘——数据预处理 共48页PPT资 料
56、极端的法规,就是极端的不公。 ——西 塞罗 57、法律一旦成为人们的需要,人们 就不再 配享受 自由了 。—— 毕达哥 拉斯 58、法律规定的惩罚不是为了私人的 利益, 而是为 了公共 的利益 ;一部 分靠有 害的强 制,一 部分靠 榜样的 效力。 ——格 老秀斯 59、假如没有法律他们会更快乐的话 ,那么 法律作 为一件 无用之 物自己 就会消 灭。— —洛克
ห้องสมุดไป่ตู้
谢谢你的阅读
❖ 知识就是财富 ❖ 丰富你的人生
71、既然我已经踏上这条道路,那么,任何东西都不应妨碍我沿着这条路走下去。——康德 72、家庭成为快乐的种子在外也不致成为障碍物但在旅行之际却是夜间的伴侣。——西塞罗 73、坚持意志伟大的事业需要始终不渝的精神。——伏尔泰 74、路漫漫其修道远,吾将上下而求索。——屈原 75、内外相应,言行相称。——韩非
数据挖掘——数据预处理 共48页PPT资 料
56、极端的法规,就是极端的不公。 ——西 塞罗 57、法律一旦成为人们的需要,人们 就不再 配享受 自由了 。—— 毕达哥 拉斯 58、法律规定的惩罚不是为了私人的 利益, 而是为 了公共 的利益 ;一部 分靠有 害的强 制,一 部分靠 榜样的 效力。 ——格 老秀斯 59、假如没有法律他们会更快乐的话 ,那么 法律作 为一件 无用之 物自己 就会消 灭。— —洛克
数据挖掘原理与算法02精品PPT课件

2020/10/8
8
数据的选择与整理
没有高质量的数据就不可能有高质量的挖掘结果。为了得 到一个高质量的适合挖掘的数据子集,一方面需要通过数 据清洗来消除干扰性数据,另一方面也需要针对挖掘目标 进行数据选择。数据选择的目的是辨别出需要分析的数据 集合,缩小处理范围,提高数据采掘的质量。数据选择可 以使后面的数据挖掘工作聚焦到和挖掘任务相关的数据子 集中。不仅提高了挖掘效率,而且也保证了挖掘的准确性。
2020/10/8
3
1.问题定义阶段的功能
KDD是为了在大量数据中发现有用的令人感兴趣 的信息,因此发现何种知识就成为整个过程中第 一个也是最重要的一个阶段。
在问题定义过程中,数据挖掘人员必须和领域专 家以及最终用户紧密协作
一方面了解相关领域的有关情况,熟悉背景知识,弄清 用户要求,确定挖掘的目标等要求;
本章也对KDD系统项目的过程化管理、交互式数据挖掘过 程以及通用的KDD原型系统进行讨论,使读者从软件项目 管理角度来更好地理解KDD过程。最后对数据挖掘语言的 类型和特点进行介绍。
2020/10/8
2
知识发现是一个系统化的工作
从源数据中发现有用知识是一个系统化的工作。 首先必须对可以利用的源数据进行分析,确定合 适的挖掘目标。然后才能着手系统的设计和开发。
2020/10/8
7
数据清洗与预处理
在开始一个知识发现项目之前必须清晰地定义挖掘目标。虽然挖掘的 最后结果是不可预测的,但是要解决或探索的问题应该是可预见的。 盲目性地挖掘是没有任何意义的。如果所集成的数据不正确,数据挖 掘算法输出的结果也必然不正确,这样形成的决策支持是不可靠的。 因此,要提高挖掘结果的准确率,数据预处理是不可忽视的一步。
- 1、下载文档前请自行甄别文档内容的完整性,平台不提供额外的编辑、内容补充、找答案等附加服务。
- 2、"仅部分预览"的文档,不可在线预览部分如存在完整性等问题,可反馈申请退款(可完整预览的文档不适用该条件!)。
- 3、如文档侵犯您的权益,请联系客服反馈,我们会尽快为您处理(人工客服工作时间:9:00-18:30)。
规范化(2)
Z-值规范化 (μ: 均值, σ: 标准差):
v'
v A
A
Ex. Let μ = 54,000, σ = 16,000. Then
73,600 54,000 1.225 16,000
优点:不需要知道数据集的最大 和最小 ,对离群点规范化效果好; 缺点:计算复杂度高。
数据预处理
数据挖掘的过程
模式解释和评估
Data Mining
数据预处理 数据搜集
问题定义
数据挖掘步骤
问题定义(和领域知识专家一道)
挖掘何种知识?明确要求 确定可用算法 确定需要用到的数据库和数据集 去噪、缺失值处理、数据类型转换、数据简化等
数据搜集
数据预处理
数据挖掘算法(分类、聚类和序列模式发现等)
连续属性
属性的值为实数 如: 温度、高度、重量 常用浮点型变量来表示
数据集的类型
记录
数据矩阵 文档数据 事务数据 World Wide Web 分子结构
空间数据 时间数据 序列数据 基因序列数据
图
顺序的
记录数据
记录的集合,每条记录又包含了固定的属性。
平滑噪声数据(2)
聚类(clustering),把相近的值组织为群或簇 (cluster),那些不在任何簇之内的点将被视为孤立 点(outlier)。
平滑噪声数据(3)
回归(regression),将数据拟合成一个数学函数, 与期望值有一定距离的点就被视为是孤立点。
平滑噪声数据(4)
计算机与人工检查相结合
Taxable Income Cheat 125K 100K 70K 120K No No No No Yes No No Yes No Yes
如: 人眼睛的颜色, 体温等。
对象
5 6 7 8 9 10
10
Divorced 95K Married 60K
通过一组属性描述一个对象
Divorced 220K Single Married Single 85K 75K 90K
有些令人感兴趣的属性无法得到,如女士的年龄。 有些属性在数据录入的时候可能被认为是不重要的,如 身高。 数据输入设备有时会出现故障。 不一致的数据已被删除。
数据中的噪声
主要是在数据搜集的过程中造成的
数据输入设备有时不够精确,如用秒表来测量风速。
数据输入设备有时会出现故障。
数据传输中的错误,如网络故障。
使用编码或者变换得到原数据的一个压缩表示。
无损压缩(lossless compression). 原始数据可以 由变换数据重构,且没有任何信息损失。
有损压缩(lossy compression).原始数据可以由变换 数据重构,有可容差的信息损失,如主成分分析 (Principal Component Analysis, PCA),小波变换 (Wavelet transformation)。 数据压缩主要是以有损压缩为主。
图数据
2 5 2 5 1
顺序数据
事务序列
Items/Events
An element of the sequence
顺序数据
基因序列数据
GGTTCCGCCTTCAGCCCCGCGCC CGCAGGGCCCGCCCCGCGCCGTC GAGAAGGGCCCGCCTGGCGGGCG GGGGGAGGCGGGGCCGCCCGAGC CCAACCGAGTCCGACCAGGTGCC CCCTCTGCTCGGCCTAGACCTGA GCTCATTAGGCGGCAGCGGACAG GCCAAGTAGAACACGCGAAGCGC TGGGCTGCCTGCTGCGACCAGGG
数据特点 结果表示:描述性或预测性知识 去除冗余 可视化
结果解释和评估
关于数据
数据
属性
数据(data)对象与其属性的 集合。 属性(attribute)是对象具有 的性质或特征
Tid Refund Marital Status 1 2 3 4 Yes No No Yes No No Yes No No No Single Married Single Married
有噪声
数据不一致
e.g., 在编码或者命名上存在差异 e.g., 过去的等级: “1,2,3”, 现在的等级: “A, B, C” e.g., 重复记录间的不一致性 e.g., Age=“42” Birthday=“03/07/1997”
数据的不完全性
主要是在数据搜集的过程中造成的
数据归约
数据归约 (2)
常用的数据归约策略
数据立方体聚集 维归约,e.g. 移除不重要的属性 数据压缩 数值归约,e.g. 使用模型来表示数据 离散化等
用于数据归约的时间不应当超过或“抵消”在 归约后的数据上挖掘节省的时间
数据压缩(Data compression)
Single Married Single Married
Divorced 95K Married 60K
Divorced 220K Single Married Single 85K 75K 90K
数据矩阵
若数据对象有固定数目的数值型的属性,则这些数据对象 可以看做是多维空间中的点,这其中的每个维代表不同的 属性。 这类数据可以看做是一个由m个对象,n个属性组成的 mn的矩阵。
http://fimi.ua.ac.be/
为什么对数据进行预处理
为什么进行数据预处理?
现实世界的数据是“肮脏的”——数据多了,什 么问题都会出现
不完整
缺少数据值;缺乏某些重要属性;仅包含汇总数据; e.g., occupation="" 包含错误或者孤立点 e.g. Salary = -10
数据预处理常常会占用整个挖掘60%的工作量
数据预处理的主要任务(1)
数据清洗(Data cleaning)
过滤缺失数据,平滑噪声数据,确定或去掉孤立点,解决 不一致问题。
数据预处理的主要任务(2)
数据集成(Data integration)
集成多个数据库,数据立方体,文件等。
数据变换(Data transformation)
如,假设把收入范围 $12,000~$98,000规范化到 [0.0, 1.0],则$73,600将映射到
73,600 12,000 (1.0 0) 0 0.716 98,000 12,000
保留了原有数据的关系,可以消除不同属性之间 的权重差异。
缺点:需要预先知道该属性的最大值与最小值
属性的类型
属性有若干种类型
名词性的
如: 眼睛的颜色, 籍贯 如: 成绩{优,良,中,差}, 身高{高, 中, 矮} 如: 日程表 如: 长度、时间、数量
顺序的
区间值的
数值型的
离散属性与连续属性
离散属性
只有有限可数的属性值 如: 邮政编码,一篇文章中词的数目 经常用整形变量来表示 布尔属性是特殊的离散属性
如何将来自不同数据源的实体结合在一起。 可以使用元数据来避免模式集成中的错误。 语义的异构:对真实世界的同一个实体,不同数据源的 属性往往也不同。 原因可能是表示、尺度及编码的不同,如长度的表示, 可以用“米”,也可以用“千米”。
检测并解决数据值的冲突
数据集成(2)
处理冗余
多数据库经常会产生冗余
顺序数据
时空数据
大陆与海洋的 月平均气温
数据挖掘研究的标准数据库
UCI Knowledge Discovery in Databases Archive
/
Frequent Itemset Mining Implementations Repository
先使用程序来发现某些可能为噪声的数据,然后 再用人工来确定这些是否为噪声。
修正不一致数据
有些知识工程工具可以自动发现一些不一致的 数据。 有些不一致的数据需要手工修正。 修改不一致的数据主要靠用户的参与。
数据集成
数据集成(1)
将来自多个数据源的数据集成为一个一致的数据 集市。 模式集成
timeout season coach game score team
ball
lost
pla y
wi n
Document 1 Document 2 Document 3
3 0 0
Байду номын сангаас
0 7 1
5 0 0
0 2 0
2 1 1
6 0 2
0 0 2
2 3 0
0 0 3
2 0 0
事务数据
记录数据的一种特殊类型,其中:
Tid Refund Marital Status 1 2 3 4 5 6 7 8 9 10
10
Taxable Income Cheat 125K 100K 70K 120K No No No No Yes No No Yes No Yes