大数据导论-思维、技术与应用第3章大数据预处理

合集下载

大数据导论第3章大数据采集与预处理

数
据
原始数据（有噪声、数据质量差），不能直接用于数据分析，有结构
裸数
但不统一。
据
23 . 1 认数识据 h a d o o p
第三二章大数据生采态集系与统预处理
(3)从价值角度，把数据分为：线上数据（热数据，流动数据）和线下数据（冷数据、静态数据），线上数据比线下数据更有价值。
23 . 1 认数识据 h a d o o p
第三章大数据采集与预处理
3.1 数据 3.2 数据采集 3.3 数据清洗 3.4 数据变换 3.5 网络爬虫
3.2 数据采集
第三章大数据采集与预处理
3.2.1 数据采集分类
(1)按采集频率分：静态数据采集、低频数据采集、高频数据采集。
历史数据人事档案
借阅信息就业信息
静态数据
股票交易日志
23 . 1 认数识据 h a d o o p
第三二章大数据生采态集系与统预处理
度量是计算用的量化数值，而维度是描述事物的各种属性信息。虽然度量都是数值，但是数值不一定是度量，比如订单ID是数值，但它不是度量而是维度，像时间、文本类的数据都是维度。注意： (1)维度和度量是可以转换的。比如要看“年龄”的平均数，这里的“年龄”就是度量，要看19岁用户的订单情况，这里的“年龄”就是维度。对于一个数据项而言，到底它是维度还是度量，是根据用户的需求而定的。 (2)维度可以衍生出新的维度和度量，比如用“地区”维度衍生出一个大区维度，“北京”、“天津”都对应“华北大区”，或者用“年龄”维度衍生出一个年龄范围维度，20到29岁=“青年人”，30到39岁=“中年人”，40到49 岁=“资深中年人”。再比如上述的平均年龄，就是用“年龄”维度衍生出一个度量。 (3)度量也可以衍生出新的维度和度量，比如用“订单金额”度量衍生出一个金额范围维度，100元以下对应“小额订单”，500元以上对应“大额订单”等等。再比如用“收入”度量和“成本”度量相减，可以得到一个“利润” 度量。

数据科学与大数据技术导论-第3章-大数据与云计算

3.2.4 云平台技术
谷歌云平台
谷歌云平台主要由网络系统、硬件系统、软件系统和应用服务组成。
网络系统：包括了内部网络与外部网络。硬件系统：包括服务器、整合服务器的服务器机架和连接服务器机架的数据中心。软件系统：包括每个服务器的单机操作系统和底层软件系统，底层软件系统有文件系统等。应用服务：主要包括内部使用的软件开发工具、 PAAS平台服务和SAAS服务。
· 扩展安全性能 · 控制成本 · 引入新技术
3.1.4 云计算的分类
差异点
合同形式标准化程度建设模式盈利模式
周期云服务商成本
运营模式用户关注点客户群体
公有云
租用制（产品化程度不明显）高，自服务，定制化少
投入成本设计建设机房，提供客户租用后续收取租用费用（单个订单收费较低）
5-10年后规模效应盈利高昂（需建设机房）规模化服务、长期运营回收成本价格敏感，使用便捷中小型传统企业、互联网企业及个人
03
单用户单处理机模式
多个用户可通过分时技术共享单处理机的资源，这种计算方式也被称为集中式计算。
03
分布式计算模式
3.1.1 云计算的概念
云计算的定义
狭义的云计算：服务提供商通过分布式计算和虚拟化技术建立数据中心或超级计算机，为用户提供数据存储、科学计算等服务。
广义的云计算：服务提供商通过建立网络服务器集群，向不同类型的客户提供在线软件使用、数据存储、硬件借租等服务。
3.1.1 云计算的概念
云计算的优势
云计算大大消减了企业信息化的成本投入，按需付费降低了信息化投资，使企业重心转向业务，提高工作效率和企业的利润。
对企业
对个人

大数据导论：大数据的处理技术

大数据导论：大数据的处理技术在当今数字化的时代，数据正以前所未有的速度增长和积累。

我们生活中的方方面面，从在线购物、社交媒体互动到医疗保健和金融交易，都在不断产生大量的数据。

这些海量的数据蕴含着丰富的信息和价值，但要从中提取有意义的洞察并非易事。

这就需要强大的大数据处理技术来应对。

大数据处理技术的出现是为了解决数据量大、数据类型多样、数据处理速度要求高以及数据价值密度低等挑战。

首先，让我们来谈谈数据量大这个问题。

想象一下，每天全球数十亿人在互联网上产生的各种信息，包括文本、图片、视频等等，这些数据的规模是极其庞大的。

传统的数据处理方法在面对如此海量的数据时往往会力不从心，因此需要采用分布式存储和计算技术，将数据分散存储在多个服务器上，并通过并行计算来提高处理速度。

数据类型的多样性也是一个关键挑战。

除了常见的结构化数据，如数据库中的表格数据，还有大量的半结构化和非结构化数据，如 XML文件、JSON 数据、网页内容以及各种文档。

为了处理这些不同类型的数据，需要使用不同的技术和工具。

例如，对于文本数据，可以运用自然语言处理技术进行分析和理解；对于图像和视频数据，则需要借助计算机视觉技术来提取特征和信息。

处理速度的要求也是至关重要的。

在许多应用场景中，如实时推荐系统、金融交易监控等，数据需要在极短的时间内被处理和分析，以便做出及时的决策。

这就需要采用流处理技术，能够实时地处理源源不断的数据流，而不是像传统的批处理那样等待一批数据积累完成后再进行处理。

此外，大数据的价值密度通常较低。

在海量的数据中，可能只有一小部分是真正有价值的信息。

因此，需要运用数据挖掘和机器学习算法来筛选和提取有价值的内容。

例如，通过聚类分析可以将相似的数据分组，发现潜在的模式；通过分类算法可以对数据进行分类和预测。

在大数据处理的过程中，数据采集是第一步。

这涉及从各种数据源获取数据，包括传感器、网络爬虫、数据库系统等。

采集到的数据需要进行清洗和预处理，以去除噪声、缺失值和重复数据，确保数据的质量和准确性。

大数据导论思维、技术与应用教学大纲

大数据导论1.课程简介本课程的主要目的是让学生了解什么是大数据，大数据的特点，大数据思维，大数据的核心技术，大数据应用，大数据带来的变革，以及大数据面临的挑战，从而使学生对大数据技术和应用有一个初步的了解。

本课程重视演示和实战，以便使学生通过亲身体验来理解和掌握大数据的核心概念。

2.课程安排（74学时：42学时讲课，6学时演示，26学时实验）第一阶段：大数据概述（8+4+0）第一课：（理论：2学时）第一章大数据概述第二课：（理论：2学时）第二章大数据采集第三课：（理论：2学时）第三章大数据预处理第四课：（演示：2学时）演示一：大数据技术演示第五课：（理论：2学时）第四章大数据处理系统第六课：（演示：2学时）演示二：大数据应用演示第二阶段：大数据存储技术（8+0+8）第七课：（理论：2学时）第五章大数据文件系统HDFS第八课：（使用：2学时）实验一：分布式文件系统HDFS使用第九课：（理论：2学时）第六章 NoSQL数据库HBase第十课：（实验：2学时）实验二：列式数据库HBase使用第十一课：（理论：2学时）第七章数据仓库Hive第十二课：（理论：2学时）第七章数据仓库Hive第十三课：（实验：2学时）实验三：HiveQL 命令行的使用第十四课：（实验：2学时）实验四：使用JDBC程序操作数据库第三阶段：大数据处理技术（12+0+10）第十五课：（理论：2学时）第八章大数据批处理Hadoop MapReduce第十六课：（理论：2学时）第八章大数据批处理Hadoop MapReduce第十七课：（实验：2学时）实验五：批处理模式MapReduce应用第十八课：（理论：2学时）第九章大数据快速处理Spark第十九课：（实验：2学时）实验六：内存处理模式Spark应用第二十课：（理论：2学时）第十章大数据实时流计算 Spark Streaming第二十一课：（实验：2学时）实验七：流式处理模式Spark Streaming应用第二十二课：（理论：2学时）第十一章分布式图计算框架 Spark GraphX第二十三课：（实验：2学时）实验八：图处理模式Spark Graph应用第二十四课：（理论：2学时）第十二章大数据随机查询 Spark SQL第二十五课：（实验：2学时）实验九：大数据随机查询Spark SQL使用第四阶段：大数据挖掘技术（14+2+8）第二十六课：（理论：2学时）第十三章大数据挖掘概述第二十七课：（理论：2学时）第十三章大数据挖掘概述第二十八课：（理论：2学时）第十三章大数据挖掘概述第二十九课：（演示：2学时）演示三：数据挖掘应用体验第三十课：（理论：2学时）第十四章大数据挖掘系统 Spark MLlib第三十一课：（实验：2学时）实验十：聚类算法实验第三十二课：（实验：2学时）实验十一：分类算法实验第三十三课：（实验：2学时）实验十二：关联分析算法实验第三十四课：（实验：2学时）实验十三：协同过滤算法实验第三十五课：（理论：2学时）第十五章大数据可视化第三十六课：（理论：2学时）第十六章 Python数据可视化第三十七课：（理论：2学时）第十七章大数据的功能应用场景3.学时分配。

《大数据导论》复习资料

《大数据导论》课程期末复习资料《大数据导论》课程讲稿章节目录：第1章大数据概述（1）大数据的概念（2）大数据的特征（3）大数据的数据类型（4）大数据的技术（5）大数据的应用第2章大数据采集与预处理（1）大数据采集（2）大数据预处理概述（3）数据清洗（4）数据集成（5）数据变换（6）数据规约第3章大数据存储（1）大数据存储概述（2）数据存储介质（3）存储系统结构（4）云存储概述（5）云存储技术（6）新型数据存储系统（7）数据仓库第4章大数据计算平台（1）云计算概述（2）云计算平台（3）MapReduce平台（4）Hadoop平台（5）Spark平台第5章大数据分析与挖掘（1）大数据分析概述（2）大数据分析的类型及架构（3）大数据挖掘（4）大数据关联分析（5）大数据分类（6）大数据聚类（7）大数据分析工具第6章大数据可视化（1）大数据可视化概述（2）大数据可视化方法（3）大数据可视化工具第7章社交大数据（1）社交大数据（2）国内社交网络大数据的应用（3）国外社交网络大数据的应用第8章交通大数据（1）交通大数据概述（2）交通监测应用（3）预测人类移动行为应用第9章医疗大数据（1）医疗大数据简介（2）临床决策分析应用（3）医疗数据系统分析第10章大数据的挑战与发展趋势（1）大数据发展面临的挑战（2）大数据的发展趋势一、客观部分：（单项选择、多项选择）（一）、单项选择1.以下不是NoSQL数据库的是（）A.MongoDBB.HBaseC.CassandraD.DB2★考核知识点:NoSQL与NewSQL主流系统参考讲稿章节：3.7附1.1.1（考核知识点解释）：目前市场上主要的NoSQL数据存储工具有：BigTable、Dynamo 、Hbase、MongoDB、CouchDB、Hypertable还存在一些其他的开源的NoSQL数据库，Neo4j、Oracle Berkeley DB、Apache Cassandra等另外，NewSQL数据库。

大数据分析的数据预处理

大数据分析的数据预处理数据预处理是大数据分析的重要环节，它包括数据清洗、数据集成、数据变换和数据归约等步骤。

数据预处理的目的是通过减少噪声、处理缺失值和处理异常值等手段，提高数据质量，为后续的数据分析提供高质量的数据。

数据清洗是数据预处理的第一步，它主要是清除数据中的错误、不完整和重复的数据。

错误数据指的是不符合数据定义的数据，比如数据类型错误等；不完整数据指的是存在缺失值的数据；而重复数据则是同一数据记录出现了多次。

清洗数据的方法有手工清洗和自动清洗。

手工清洗需要人工逐条检查数据，而自动清洗则可以利用各种算法自动发现和修复错误、缺失和重复数据。

数据变换是将原始数据转换为适合数据分析的形式，主要是通过数据清洗、数据标准化、数据规范化和数据离散化等方法。

数据标准化是将不同量级的数据转换为相同的量级，便于比较和分析。

数据规范化是将数据转换为一定的范围，比如将数值型数据转换为0-1之间的数值。

而数据离散化是将连续型数据转换为离散型数据，方便进行分类和聚类分析。

数据归约是对数据进行压缩和抽样，以减少数据的存储和计算开销。

常见的数据归约方法有：维度归约、属性归约和数据抽样。

维度归约是将数据降维，消除冗余的维度信息；而属性归约是将数据集中的属性进行选择，选择最有代表性的属性保留。

数据抽样是从大数据集中抽取部分数据作为样本进行分析，以节约计算资源。

总之，数据预处理是大数据分析的关键环节，对于提高数据质量、加快数据分析的速度具有重要意义。

通过数据清洗、数据集成、数据变换和数据归约等步骤，可以获得适合进行后续分析的高质量数据集。

《大数据导论》—教学大纲

二、培养目标
本课程旨在实现以下几个培养目标：
（1）引导学生步入大数据时代，积极投身大数据的变革浪潮之中；
（2）了解大数据概念，熟悉大数据应用，培养大数据思维，养成数据安全意识；
（3）了解大数据专业知识体系，形成对大数据专业的整体认知；
（4）熟悉大数据各个环节的相关技术，为后续深入学习相关大数据技术奠定基础；
（1）平时成绩：包括上课考勤和作业；
（2）期末考试：采用笔试，闭卷；
（3）最终成绩：平时成绩和期末考试成绩按5:5比例加权求和。
六、选用教材
七、参考书目与文献
八、课程网站等支持条件
课程主讲教师建设了国内高校首个大数据课程公共服务平台，提供讲义PPT、课程习题、学习指南、授课视频、技术资料等全方位、一站式免费服务，帮助学生更好学习大数据课程，网站地址：
（5）激发学生基于大数据的创新创业热情。
三、教学方法
本课程以课程理论教学为主，并提供大量补充学习资料，以深化学生对知识的理解。在理论教学层面，高屋建瓴地探讨大数据，超脱技术讲解技术，内容深入浅出，简单易懂，适合各个年级学生学习；同时，在课堂上为学生展示丰富的实际应用案例，激发学生学习兴趣，开拓学生视野，培养学生大数据思维。
4
第7章数据处理与分析
数据处理与分析的概念、机器学习和数据挖掘算法、大数据处理与分析技术、大数据处理与分析代表性产品
6
第8章数据可视化
可视化概述、可视化图表、可视化工具、可视化典型术选择、系统实现、案例所需知识和技能
2
合计
32
五、考核方式与要求
四、主要内容及学时安排
章（或节）
主要内容
学时安排
第1章大数据概述
数据的概念、大数据时代到来的背景、大数据的发展历程、世界各国的大数据发展战略、大数据的概念与影响、大数据的应用以及大数据产业

《大数据导论》-课程教学大纲

《大数据导论》课程教学大纲一、课程基本信息课程代码：20110073课程名称：大数据导论英文名称：Introduction to Big-data课程类别：专业课学时：48学分：3适用对象:针对大数据管理及应用专业本科生。

考核方式：考查先修课程：无二、课程简介“大数据导论”是大数据管理及应用专业本科生的一门专业课程，也是该专业的导入课程，以引导学生对数据科学与大数据技术与应用有一个全面和概括性的了解。

该导论课程不仅应介绍与数据科学与大数据技术相关的内容，也应介绍一些与计算机科学与技术相关的内容。

主要包括数据科学与大数据本科专业知识体系，数据科学与大数据技术应用概况，大数据硬件环境，数据通信与计算机网络，程序、软件与系统，数据采集与存储，数据统计与分析，图形学、图像处理与可视化，人工智能，数据安全，大数据平台、框架及工具。

对该专业相关课程的主要内容进行简单介绍，适度介绍数据科学研究现状、大数据产业的未来及其在各领域的应用。

内容包括数据科学和大数据技术应用两个方面的内容，引导学生分别向数据科学家和数据工程师方向发展。

Introduction to big data is a professional course for undergraduates majoring in big data management and application, as well as an introduction course for the major, so as to guide students to have a comprehensive and general understanding of data science and big data technology and application. The introduction course should not only introduce the contents related to data science and big data technology, but also some contents related to computer science and technology. It mainly includes data science and big data undergraduate professional knowledge system, data science and big data technology application overview, big data hardware environment, data communication and computer network, program, software and system, data acquisition and storage, data statistics and analysis, graphics, image processing and visualization, artificial intelligence, data security, big data platform, framework and tools. This paper briefly introduces the main contents of relevant courses of this major, and moderately introduces the current situation of datascience research, the future of big data industry and its application in various fields. The content includes data science and big data technology application, which guides students to develop towards data scientists and data engineers respectively.三、课程性质与教学目的本课程的重点是要求学生了解数据科学与大数据技术的学科体系，主要课程结构，大致了解主要课程的内容，掌握相关课程中的一些基本概念，为其下步的学习做好准备。

大数据第3章数据采集与预处理

互联网是大数据信息的主要来源，能够采集什么样的信息、采集到多少信息及哪些类型的信息，直接影响着大数据应用功能最终效果的发挥。信息数据采集需要考虑采集量、采集速度、采集范围和采集类型，信息数据采集速度可以达到秒级甚至还能更快；采集范围涉及微博、论坛、博客，新闻网、电商网站、分类网站等各种网页；采集类型包括文本、数据、URL、图片、视频、音频等。
3．物联网系统物联网是新一代信息技术，其核心和基础仍然是互联网，是在互联网基础上延伸和扩展的网络，其用户端延伸和扩展到了任何物品与物品之间，进行信息交换和通信，而其具体实现是通过传感技术获取外界的物理、化学、生物等数据信息。
4．科学实验系统科学实验系统主要用于科学技术研究，可以由真实的实验产生数据，也可以通过模拟方式获取仿真数据。大数据的数据类型按来源可分为传统商业数据、互联网数据与物联网数据。
物联网数据的主要特点如下。（1）物联网中的数据量更大。（2）物联网中的数据传输速率更高。（3）物联网中的数据更加多样化。（4）物联网对数据真实性的要求更高。
3.2 数据的采集方法
数据采集技术是数据科学的重要组成部分，已广泛应用于国民经济和国防建设的各个领域，并且随着科学技术的发展，尤其是计算机技术的发展和普及，数据采集技术具有更广泛的发展前景。大数据的采集技术为大数据处理的关键技术之一。
大数据导论
第3章数据采集与预处理
本章主要内容如下。（1）大数据的来源。（2）数据的采集方法。（3）数据预处理流程。
3.1 大数据的来源
1．信息管理系统企业内部使用的信息管理系统，包括办公自动化系统、业务管理系统等。信息管理系统主要通过用户输入和系统二次加工的方式产生数据，其产生的数据大多数为结构化数据，通常存储在数据库中。

大数据导论(通识课版)-第3章-大数据技术(2020年春季学期)

3.2.4 数据清洗
2.数据清洗的内容
整例删除变量删除
适合关键变量缺失，或者含有无效值或缺失值的样本比重很小的情况
如果某一变量的无效值和缺失值很多，而且该变量对于所研究的问题不是特别重要，则可以考虑将该变量删除
成对删除
成对删除是用一个特殊码代表无效值和缺失值，同时保留数据集中的全部变量和样本
数据清洗
数据转换操作
企业业务系统数据
3.2.4 数据清洗
数据清洗是指将大量原始数据中的“脏”数据 “洗掉”，它是发现并纠正数据文件中可识别的错误的最后一道程序，包括检查数据一致性，处理无效值和缺失值等。比如，在构建数据仓库时，由于数据仓库中的数据是面向某一主题的数据的集合，这些数据从多个业务系统中抽取而来，而且包含历史数据，这样就避免不了有的数据是错误数据、有的数据相互之间有冲突，这些错误的或有冲突的数据显然是我们不想要的，称为“脏数据”。我们要按照一定的规则把“脏数据”给“洗掉”，这就是“数据清洗”
3.3.1 传统的数据存储和管理技术
数据库一般存储在线交易数据
数据库
数据库是面向事务的设计数据仓库是面向主题设计的
数据仓库
数据仓库存储的一般是历史数据
3.3.1 传统的数据存储和管理技术
4数.并据行的数概据念库
并行数据库是指那些在无共享的体系结构中进行数据操作的数据库系统
这些系统大部分采用了关系数据模型并且支持SQL语句查询，但为了能够并行执行SQL的查询操作，系统中采用了两个关键技术：关系表的水平划分和SQL查询的分区执行
3.2.3 数据采集的数据源
3. 日志文件数据的概念
日志文件数据一般由数据源系统产生，用于记录数据源的执行的各种操作活动，比如网络监控的流量管理、金融应用的股票记账和Web服务器记录的用户访问行为。通过对这些日志信息进行采集，然后进行数据分析，就可以从公司业务平台日志数据中，挖掘得到具有潜在价值的信息，为公司决策和公司后台服务器平台性能评估，提供可靠的数据保证。系统日志采集系统做的事情就是，收集日志数据，提供离线和在线的实时分析使用。

1、下载文档前请自行甄别文档内容的完整性，平台不提供额外的编辑、内容补充、找答案等附加服务。
2、"仅部分预览"的文档,不可在线预览部分如存在完整性等问题,可反馈申请退款(可完整预览的文档不适用该条件!)。
3、如文档侵犯您的权益，请联系客服反馈,我们会尽快为您处理(人工客服工作时间：9:00-18:30)。

大数据预处理整体架构
数据资产
统一的数据视图
数据
传统清洗工具
ቤተ መጻሕፍቲ ባይዱ
分布式并处理模式
清洗（DataWrangler、InfoSphere QualityStage）（内存计算Spark、批处理MapReduce、流计算Storm）
数据储存
结构化数据电子表格和传统的关系型数据库：甲骨文（Oracle RDBMS)、阿里（RDS)、人大金仓等
Bin的划分方法一般有两种，一种是等高方法，即每个Bin中的元素的个
数相等；另一种是等宽方法，即每个Bin的取值间距（左右边界之差）
相同。
b in 中个数
b in中个数
等高bin
属性值
等宽bin
属性值
噪声数据处理
例如：
排序后价格：4,8,15,21,21,24,25,28,34
划分为等高度bin： —Bin1：4,8,15 —Bin2：21,21,24 —Bin3：25,28,34
Sqoop和 DataX
数据迁移
非结构化数据凌潮（云谷）、华为（FusionInsight）、
IBM(BigInsights)、EMC（Pivotal）等
在线（API）
离线
数据
来源
数据采集
数据交换（贵阳大数据交易所， .）
大数据预处理整体架构
结构化数据可以存储在传统的关系型数据库中非结构化数据可以存储在新型的分布式存储中半结构化数据可以存储在新型的分布式NoSQL数据库中
大数据预处理整体架构
结构化数据和非结构化数据之间的数据可以按照数据处理的需求进行迁移。比如：为了进行快速并行处理，需要将传统关系型数据库中的结构化数据导入到分布式存储中，可以利用Sqoop等工具，先将关系型数据库的表结构导入分布式数据库（Hive），然后再向分布式数据库的表中导入结构化数据。
噪声数据处理
噪声是指被测变量的一个随机错误和变化。下面通过给定一个数值型属性，如价格，来说明平滑去噪的具体方法。方法被分为四种： Bin方法聚类方法人机结合检查方法回归方法
噪声数据处理
Bin方法
Bin方法通过利用相应被平滑数据点的周围点（近邻），对一组排序数
据进行平滑。排序后数据分配到若干桶（称为Buckets或Bins）中。对
数据质量问题分类
数据清洗在汇聚多个维度、多个来源、多种结构的数据之后，对数据进行抽取、转换和集成加载。在这个过程中，除了更正、修复系统中的一些错误数据之外，更多的是对数据进行归并整理，并储存到新的存储介质中。其中，数据的质量至关重要。常见的数据质量问题可以根据数据源的多少和所属层次分为四类：单数据源定义层单数据源实例层多数据源的定义层多数据源的实例层
根据bin均值进行平滑： —Bin1：9,9,9 —Bin2：22,22,22 —Bin3：29,29,29
根据bin边界进行平滑： ——Bin1：4,4,15 ——Bin2：21,21,24 ——Bin3：25,25,34
首先对价格数据进行排序，然后将其划分为若干等高度的Bin，即每个Bin包含三个数值 Bin均值平滑对每个Bin中所有值均用该Bin的均值替换。图中第一个Bin中4、8、15均用该 Bin的均值9替换 Bin边界平滑对于给定的Bin，利用每个Bin的边界值（最大值或最小值），替换该Bin中的所有值。一般讲，每个Bin的宽度越宽，其平滑效果越明显。
PART 01 大数据预处理概述
大数据预处理负责将分散的、异构数据源中的数据如关系数据、网络数据、日志数据、文件数据等抽取到临时中间层后，进行清洗、转换、集成，最后加载到数据仓库或数据库中，成为通过数据分析、数据挖掘等提供决策支持的
数据。
大数据预处理整体架构
数据预处理主要包括：数据清洗（Data Cleaning）数据集成（Data Integration）数据转换（Data Transformation）数据消减（Data Reduction）大数据预处理将数据划分为结构化数据和半结构化/非结构化数据，分别采用传统ETL工具和分布式并行处理框架来实现。
PART 02 数据清洗方法
现实世界的数据常常是有噪声、不完全的和不一致的。数据清洗过程通过填补遗漏数据、消除异常数据、平滑噪声数据，以及纠正不一致的数据。
遗漏数据处理
假设在分析一个商场销售数据时，发现有多个记录中的属性值为空，如顾客的收入属性，对于为空的属性值，可以采用以下方法进行遗漏数据处理：忽略该条记录。手工填补遗漏值。利用缺省值填补遗漏值。利用均值填补遗漏值。利用同类别均值填补遗漏值。利用最可能的值填补遗漏值。最后一种方法是一种较常用的方法。
大数据导论第三章
CONTENTS
目录
PART 01 大数据预处理概述 PART 02 数据清洗方法 PART 03 数据集成与转换方法 PART 04 数据削减
PART 05 离散化和概念层次树 PART 06 ETL工具Kettle PART 07 数据转换工具Sqoop PART 08 作业
数据质量问题分类
数据质量问题
单数据源问题
多数据源问题
定义层
实例层
定义层
实例层
缺少完整性约束，糟糕的模式设计 1）缺少唯一性约束 2）缺少引用约束
数据记录错误 1）拼写错误 2）相似重复记录 3）相互矛盾的字段
异质的数据模型和模型设计 1）命名冲突 2）结构冲突
数据质量问题分类
多数据源的定义层同一个实体的不同称呼比如：custom_id, custom_num 同一种属性的不同定义比如：字段长度定义不一致、字段类型不一致等
多数据源的实例层数据的维度、粒度不一致比如：有的按GB记录存储量，有的按照TB记录存储量；有的按照
年度统计，有的按照月份统计数据重复、拼写错误等
冗余、互相矛盾或不一致的数据 1）不一致的汇总 2）不一致的时间选择
数据质量问题分类
单数据源定义层违背字段约束条件比如：日期出现6月31日字段属性依赖冲突比如：两条记录描述同一个人的某一个属性，但数值不一致违反唯一性比如：同一个主键ID出现了多次
单数据源实例层单个属性值含有过多信息、拼写错误、空白值、噪音数据、数据重复、过时数据等