基于Hadoop平台的海量数据高效抽取方法及应用

合集下载

基于Hadoop电商大数据的挖掘与分析技术研究

技术平台基于Hadoop电商大数据的挖掘与分析技术研究陈娥祥（福州工商学院，福建福州 350715）摘要：随着社会经济水平的不断提高和互联网时代的不断发展，全球数据逐渐呈现出大规模增长的趋势，为了满足海量数据处理需求，大数据挖掘与分析技术应运而生。

Hadoop的出现和应用不仅能科学、高效地处理海量数据，还能可视化展现海量数据最终处理结果，为电商企业的健康、可持续发展提供重要的数据参考和支持。

基于以上情况，以福州地区美容行业的电商系统为例，在介绍相关理论与技术的基础上分析了数据挖掘算法，从系统的整体设计、数据准备、数据挖掘分析三个方面入手，研究了电商大数据挖掘系统的设计，从实验环境、实验数据准备和实验结果分析三方面入手，探讨了系统可视化实现与效果。

希望通过这次深度分析与研究，对公司的运营决策提供有力帮助，为电商平台各方参与者、相关领域技术人员提供有效的借鉴和参考。

关键词：Hadoop；电商大数据；挖掘分析；可视化技术随着社交媒体的不断发展，企业处理数据的途径日益增加、规模日益扩大，并形成了海量的数据流。

在这样的背景下，我国逐渐进入了大数据时代，大数据的生成速度呈现出指数爆炸形式，加上数据在处理的过程中无法分解为常用的数据库，这无疑增加了企业访问和处理数据的难度。

目前，在我国电商行业的迅猛发展下，数据规模递增，为了实现对消费者购买行为相关数据的深入、全面挖掘，进一步提高电商企业的销售业绩，在Hadoop框架的应用背景下，加大对大数据挖掘与分析技术的科学应用，实现数据挖掘技术与电商平台的有效融合，是相关领域技术人员必须思考和解决的问题。

1 相关理论与技术研究1.1 Hadoop平台相关技术研究Hadoop作为一种开源编程框架，被广泛应用于Apache基础项目中。

该框架的编写语言主要以Java语言为主，能够为海量数据集的分布处理提供重要支持。

同时，在部署的过程中，使用的服务器购买价格普遍较低，缩小了物力成本，这样一来，作为开发人员就可以投入较低的成本，实现Hadoop集群搭建，极大地提高了开发效率和效果。

基于Hadoop大数据平台的数据处理系统

基于Hadoop大数据平台的数据处理系统1. 简介基于Hadoop大数据平台的数据处理系统是一个用于处理大规模数据的分布式计算框架。

它能够高效地存储、处理和分析海量数据，提供了强大而灵活的数据处理能力，适用于各种数据处理场景。

2. 系统架构该系统的架构主要由以下组件构成：- Hadoop分布式文件系统（HDFS）：用于存储大规模数据集的分布式文件系统，提供高可靠性和高可用性。

- Hadoop YARN：用于资源管理和作业调度的集群管理系统，能够有效地管理集群资源和分配任务。

- Hadoop MapReduce：用于并行计算的编程模型和执行框架，能够将大规模数据集分成多个小任务并行处理，最终将结果合并。

- 数据采集模块：负责从各种数据源（如传感器、日志文件、数据库等）采集数据，并将数据存储到HDFS中。

- 数据处理模块：根据业务需求，对采集到的数据进行清洗、转换、聚合等处理操作，以便后续分析使用。

- 数据分析模块：基于Hadoop MapReduce或其他分布式计算框架，对处理后的数据进行各种分析和挖掘，提取有价值的信息。

- 数据可视化模块：将分析结果以图表、报表等形式展示，帮助用户更直观地理解数据。

3. 数据处理流程数据处理系统的典型流程如下：- 数据采集：通过数据采集模块从各种数据源获取数据，并将数据存储到HDFS中。

- 数据清洗：对采集到的原始数据进行清洗，去除重复数据、修复错误数据等。

- 数据转换：根据业务需求，将清洗后的数据进行格式转换、字段提取、数据拆分等操作，以便后续处理。

- 数据聚合：将转换后的数据按照指定的规则进行聚合，例如统计每天的销售额、计算用户的平均消费等。

- 数据分析：基于Hadoop MapReduce或其他分布式计算框架，对聚合后的数据进行各种分析和挖掘，例如用户画像分析、推荐系统等。

- 数据可视化：将分析结果以图表、报表等形式展示，帮助用户更直观地理解数据，并支持用户交互和数据探索。

基于Hadoop的海量电信数据云计算平台研究

人网等大型网站上都已经得到了应用．是目前应用最为广
Ｈｄｏ是由Ａａｈ基金会组织开发的分布式计算开ａｏｐｐｃｅ
源框架，利用低廉设备搭建大计算池，以提高分析海量数据的速度和效率，是低成本的云计算解决方案。其模仿和实现
了Ｇｏｌ云计算的主要技术。ＨＦ（ａｏｉｒｕｄｏｇｅ包括ＤＳＨｄｏｄｔｔｐｓｉｅｂ
Ｈｄｏｏｍｎ支撑ＨｄｏａｏｐＣｍｏ：ａｏｐ的公共部分．是最底层的模块，为其他子项目提供各种工具。ＨＦ：是一个主从（ａｅｓｖ）结构．由一个ＤＳｍｓｒｌｅｔ／ａＮｍＮｄ（ａｅｏｅ名称节点）和若干个Ｄｔｏｅ数据节点）ａＮｄ（ａ构成，ａｅｏｅＮｍＮｄ管理文件系统的元数据，ａＮｄ存储实际Ｄｔｏｅａ数据。Ｍｐｅｕｅ处理海量数据的并行编程模型和计算框ａＲｄｃ：架，采用“ 分而治之” 思想，包括分解任务的ｍｐ函数和汇ａ总结果的ｒｕｅｅｃ函数，ａＲｄｃ任务由一个ＪｂｒｋｒｄＭｐｅｕｅｏＴａｅｃ和若干个ＴｓｒｋｒａＴａｅ控制完成．ｂｒｋｒｋｃＪＴａｅ负责调度和管ｏｃ
平台在设计上采用分布式、分层结构．可以划分为数据层、
模型层、应用层３层结构，如图２所示。（）１数据层
理ＴｓｒｋｒＴｓｒｋｒａＴａｅ，ａＴａｅ负责执行任务。ｋｃｋｃ
Ｐ：Ｌｉ语言，ｉＳ —ｅｇＱｌｋ是在ＭｐｅｕｅａＲｄｃ上构建的一种高级查询语言，以简化ＭｐｅｕｅａＲｄｃ任务的开发。Ｈｖ：ｉ数据仓库工具，ＳＬ查询功能。ｅ提供ＱＨａｅ基于列存储模型的分布式数据库。ｂｓ：

基于Hadoop的大数据分析与处理研究

基于Hadoop的大数据分析与处理研究随着互联网的发展，数据量也随之呈现爆炸式的增长。

如何有效的处理这些海量数据是目前亟待解决的问题。

Hadoop作为开源的分布式计算框架，已经成为了大数据处理的主要选择。

本文将着重讲解基于Hadoop的大数据分析与处理研究。

一、Hadoop简介Hadoop是一个开源的分布式计算框架，主要解决的是海量数据的存储和处理问题。

它由Apache基金会开发，拥有自己的文件系统HDFS（Hadoop Distributed File System）和分布式数据处理框架MapReduce。

其中，HDFS主要负责海量数据的分布式存储，而MapReduce则是处理和计算数据的核心模块。

目前，Hadoop已经成为了数据科学家和工程师的标配技能之一。

二、Hadoop的优点1. 可扩展性Hadoop的分布式架构使其可以轻松地扩展到数百个节点。

只要增加更多的服务器，Hadoop就可以根据需要添加更多的计算和存储资源，以满足不断增长的数据需求。

2. 高可靠性Hadoop采用了多个复制副本来存储数据，数据能够在不同的节点上复制多份，一旦出现部分节点宕机的情况，仍可以从其他节点中读取数据，确保数据的高可靠性。

3. 高效性Hadoop通过MapReduce操作，可以非常高效地处理大量的数据。

MapReduce采用了并行计算的方式，将数据划分成多个小任务，并分布到不同的节点上进行计算。

这种方式可以最大限度地利用硬件资源，使计算效率得到了极大的提升。

三、基于Hadoop的大数据分析与处理基于Hadoop的大数据分析主要分为四个步骤：数据采集、数据清洗、数据挖掘和数据可视化。

1. 数据采集在大数据分析过程中，需要先获取海量的数据。

数据的来源可以是开放API、爬虫程序、传感器、日志文件等多种渠道。

2. 数据清洗在数据采集后，需要进行数据清洗。

数据清洗主要是为了提高数据的质量，并去除无用的信息。

数据清洗包括去重、删除错误数据、填补缺失值等操作。

基于Hadoop的分布式爬虫及其实现

基于Hadoop的分布式爬虫及其实现引言随着互联网的快速发展和信息的爆炸式增长，大数据时代已经来临。

海量的数据涌入网络，并形成了一个巨大的信息资源库。

如何有效地从这个海洋中提取有价值的信息，成为了当今互联网领域面临的重要挑战之一。

为了应对这一挑战，分布式爬虫技术应运而生。

本文将介绍基于Hadoop的分布式爬虫的实现过程及其优势。

一、分布式爬虫的背景与意义1.1 现有的爬虫技术传统的爬虫技术主要是基于单机环境下的串行爬虫，即一个爬虫程序在一个机器上运行，通过遍历链接、下载网页并解析的方式进行信息抓取。

然而，在处理大规模的数据量时，单机环境面临着许多挑战，如性能瓶颈、系统崩溃等。

1.2 分布式爬虫的优势与应用分布式爬虫依赖于分布式计算框架，如Hadoop，将爬取任务进行拆分，通过多个爬虫节点并行执行，大大提高了爬取效率。

同时，分布式爬虫还能够充分利用多个计算节点的存储资源，提高数据的采集速度和处理能力。

因此，分布式爬虫在大规模数据挖掘、搜索引擎优化等领域具有广泛的应用前景。

二、基于Hadoop的分布式爬虫的实现步骤2.1 爬虫任务的拆解与调度在分布式爬虫中，首先需要将爬取任务进行拆分，分配给多个爬虫节点。

如何进行任务的拆解与调度是整个分布式爬虫实现的重要环节。

Hadoop的MapReduce框架提供了良好的任务调度机制，可以将爬取任务拆解成独立的Map任务，再通过Reduce任务进行合并和处理。

2.2 爬虫节点的配置与管理在分布式爬虫中，每个爬虫节点都需要配置相应的设备和环境。

常见的配置包括网络代理、数据存储路径、爬取深度等。

此外，还需要对爬虫节点进行管理和监控，确保节点的正常工作和性能优化。

2.3 数据的采集与清洗数据的采集是分布式爬虫的核心步骤之一。

在分布式爬虫中，不同的爬虫节点负责采集不同的数据片段，并将采集结果通过消息队列等方式传递给中心节点。

中心节点进行数据的合并和清洗，去除重复数据和无效信息，得到最终的爬取结果。

基于Hadoop的数据挖掘技术在医疗领域中的应用研究

基于Hadoop的数据挖掘技术在医疗领域中的应用研究随着信息技术的不断发展和普及，医疗领域也正逐渐接受和应用数据挖掘技术。

其中，基于Hadoop的大数据分析技术在医疗领域中的应用尤为突出。

本文将就Hadoop技术在医疗领域中的应用研究进行分析和探讨。

一、Hadoop技术简介Hadoop是一个Apache开源项目，是一个分布式计算平台，能够处理海量数据的存储和分析。

Hadoop平台分两个部分：Hadoop 分布式文件系统（HDFS）和MapReduce计算模型。

其中，HDFS 用于存储数据，MapReduce用于数据处理和分析。

Hadoop本身还提供了其他工具和组件，如HBase、ZooKeeper和YARN等，可以实现更为复杂的数据处理和分析任务。

Hadoop技术以其强大的并行计算和存储能力，成为大数据时代的重要工具之一。

二、医疗领域中的Hadoop应用目前，医疗领域中的应用重点在于基于Hadoop的数据挖掘技术。

通过挖掘海量的医疗数据，可以获得更为准确和全面的医疗信息，进而提高诊断、治疗和疾病预测的精确度。

1.垃圾邮件过滤医疗领域中，往往需要进行信息筛选和分类，以去除垃圾邮件和恶意信息。

利用Hadoop平台的MapReduce计算模型，可以进行高效的数据过滤，并对邮件数据进行分类和归档。

2.病患信息分析大规模医疗数据的分析是医疗领域中比较重要的工作之一。

通过Hadoop技术，可以对病患信息进行分类、聚类和关联规则挖掘等操作。

除此之外，医疗数据还可以被用于预测疾病的发生和流行趋势等方面。

3.医疗资源管理在医疗领域中，资源管理是非常重要的。

通过Hadoop技术，可以对医疗资源进行全面、客观和精准的管理。

例如医院的医生、护士、病床等资源的管理，可以通过Hadoop平台实现实时监测和数据分析，定期检查和更新资源，以实现更加高效和科学的资源配置。

4.药品排名与推荐医疗领域中，药品的排名和推荐是比较关键的，涉及广大病患的健康。

基于Hadoop大数据平台的数据处理系统

基于Hadoop大数据平台的数据处理系统一、引言随着信息技术的快速发展，大数据已经成为当今社会的重要资源。

为了有效处理和分析海量数据，Hadoop大数据平台应运而生。

本文旨在设计和实现一个基于Hadoop大数据平台的数据处理系统，以满足企业对大数据的存储、处理和分析需求。

二、系统架构1. 系统概述基于Hadoop大数据平台的数据处理系统由以下核心组件构成：Hadoop分布式文件系统（HDFS）、MapReduce计算框架、Hive数据仓库、HBase分布式数据库和ZooKeeper分布式协调服务。

这些组件相互协作，实现了数据的高效存储、并行计算和查询分析。

2. 数据存储层HDFS作为分布式文件系统，负责存储和管理大数据。

它将数据切分成多个块，并分布在Hadoop集群的不同节点上，实现数据的冗余备份和高可用性。

3. 数据处理层MapReduce计算框架是Hadoop的核心组件之一，它通过将任务分解为多个子任务，并在集群中并行执行，实现了高性能的数据处理。

MapReduce框架包括两个阶段：Map阶段和Reduce阶段。

在Map阶段，数据被切分成多个键值对，然后通过用户自定义的Map函数进行处理；在Reduce阶段，Map阶段的输出结果按照键进行分组，并通过用户自定义的Reduce函数进行最终的处理和聚合。

4. 数据查询层Hive是基于Hadoop的数据仓库，提供了类似于SQL的查询语言HiveQL。

它将用户的查询转换为MapReduce任务，并通过Hadoop集群执行。

Hive支持数据的结构化查询和分析，使得用户可以方便地进行复杂的数据分析和统计。

5. 数据存储和读写层HBase是一个分布式的、面向列的NoSQL数据库，用于存储结构化和半结构化数据。

它具有高扩展性和高可靠性，并且支持快速的随机读写操作。

HBase可以作为Hadoop集群中的实时数据库，为数据处理系统提供高性能的数据存储和读写能力。

基于Hadoop的大数据分析与可视化设计

基于Hadoop的大数据分析与可视化设计一、引言随着互联网和信息技术的快速发展，大数据已经成为当今社会中不可忽视的重要资源。

大数据分析和可视化设计作为处理和展示大数据的关键技术，在各个领域都扮演着至关重要的角色。

本文将重点探讨基于Hadoop的大数据分析与可视化设计，介绍其原理、方法和应用。

二、Hadoop技术简介Hadoop是一个开源的分布式计算平台，可以对大规模数据进行存储和处理。

其核心包括Hadoop Distributed File System（HDFS）和MapReduce。

HDFS用于存储数据，MapReduce用于处理数据。

Hadoop具有高可靠性、高扩展性和高效性的特点，适合处理海量数据。

三、大数据分析1. 大数据分析概述大数据分析是指通过对海量数据进行收集、存储、处理和分析，挖掘出其中潜在的价值信息。

大数据分析可以帮助企业做出更准确的决策，发现商机，提高效率等。

2. Hadoop在大数据分析中的应用Hadoop作为一种强大的大数据处理框架，被广泛应用于大数据分析领域。

通过Hadoop平台，可以实现对海量数据的实时处理、存储和分析，为企业提供更全面的数据支持。

四、可视化设计1. 可视化设计概述可视化设计是将抽象的数据通过图表、地图等形式呈现出来，使人们更直观地理解和分析数据。

良好的可视化设计可以帮助用户更快速地发现规律、趋势和异常。

2. Hadoop在可视化设计中的应用结合Hadoop进行大数据可视化设计，可以更好地展示海量数据背后的信息。

通过图表、热力图、仪表盘等形式，将复杂的数据转化为直观易懂的图像，帮助用户更好地理解数据。

五、大数据分析与可视化设计实践1. 数据采集与清洗首先需要从各个渠道采集原始数据，并进行清洗和预处理，保证数据质量和完整性。

2. 数据存储与处理将清洗后的数据存储到HDFS中，并利用MapReduce等技术进行处理和计算。

3. 可视化设计与展示利用可视化工具如Tableau、Power BI等，将处理后的数据进行可视化设计，并生成图表、报表等形式展示给用户。

1、下载文档前请自行甄别文档内容的完整性，平台不提供额外的编辑、内容补充、找答案等附加服务。
2、"仅部分预览"的文档,不可在线预览部分如存在完整性等问题,可反馈申请退款(可完整预览的文档不适用该条件!)。
3、如文档侵犯您的权益，请联系客服反馈,我们会尽快为您处理(人工客服工作时间：9:00-18:30)。

基于Hadoop 平台的海量数据高效抽取方法及应用徐金玲1,金璐1,李昆明2,熊政2,仲春林2,方超2（1.江苏省南京供电公司，江苏南京，210008；2.江苏方天电力技术有限公司，江苏南京，211102）摘要：本文从数据抽取过程的本质出发，论述了传统数据抽取过程与大数据平台数据抽取过程的异同，以基于Hadoop 的大数据平台为例，结合传统的关系型数据库和非关系型数据库(NoSQL)的特点，提出了一种从关系型数据库到大数据平台的高效数据抽取方法，实现了对数据源系统资源占用的最小化，并在电力公司用电大数据抽取中得到广泛应用。

关键词：海量数据;数据抽取;NoSQL;大数据平台Method and application of efficient extraction of mass data basedon Hadoop platformXu Jinling 1,Jin Lu 1,Li Kunming 2,Xiong Zheng 2，Zhong Chunlin 2,Fang Chao 2 (1.Jiangsu Nanjing power supply company,Jiangsu Nanjing，210008;2.Jiangsu Fangtian Power Technology Co. Ltd.,Jiangsu Nanjing，211102)Abstract ：This article from the essence of data extraction process,discusses the similarities and differences between traditional data extraction process and the data platform,data extraction process, the data platform based on Hadoop as an example,combining the traditional relational database and non relational database(NoSQL)characteristics,proposes a from relational database to efficient data extraction method of data platform,thereby minimizing the occupancy of the data source of the system resources, and the power companies in large data extraction has been widely applied in. Keywords ：data;data extraction;NoSQL;data platform0 引言对于大数据的抽取，一般通过使用Sqoop 来实现。

但是Sqoop 组件自身的局限性导致其对于特定的场景并不适用(例如，进行TB 级大数据量数据抽取时效率较低，进行增量数据抽取需改变源数据库表结构，对源数据库性能也有较大影响)。

因此，本文提出了基于大数据平台的一种海量数据抽取的高效方法，该方法可以快速、高效、可靠地将海量数据从关系型数据库抽取到大数据平台中。

同时，由于通过对数据源日志文件的分析实现对增量数据的抽取，因此该方法在抽取数据时对源数据库的影响非常小。

1 系统开发环境系统开发环境采用CentOS 6.5操作系统，以Cloudera CDH 5.0为大数据平台框架，并结合Tomcat 作为Web Server。

集群由20台服务器组成，划分为2个机架，每台服务器配置32核CPU、64GB 内存和10块磁盘。

Cloudera 是全球领先的Hadoop 服务提供商，其CDH 5.0是最新的Hadoop 发行版，提供了高度的稳定性和使用便捷性。

数据源采用Oracle 数据库，抽取工具采用Golden Gate。

2 系统结构和处理流程2.1 技术架构系统以Oracle 为数据源，以CDH 5.0为大数据平台框架，结合Tomcat 作为Web Server 提供Web 层的访问服务。

在大数据平台中，以MapReduce 作为大数据的计算引擎，以HDFS 分布式文件系统存储非结构化和半结构化的数据，以HBase分布式数据库存图1. 系统技术架构储结构化数据。

在Oracle 端，采用Golden Gate 提取源数据。

（1）利用Golden Gate 提取变化数据。

Golden Gate 可实现秒级的数据捕捉、转换和投递，提供了一种基于日志的结构化数据复制方式，可以从在线日志中准实时地抓取变化的数据，并将变化的数据保存在Trail 格式的文件中。

其优势在于通过对日志文件的分析实现变化数据的抓取只会占用很小的系统资源，特别是当Oracle 中存储的数据量极大、Oracle 系统负载很重时基本不会影响Oracle 的运行效率。

（2）在大数据平台实现数据的清洗、转换和存储。

对于Golden Gate 提取出的数据，首先将其以半结构化的数据形式存储在HDFS 中，然后根据规则对数据进行清洗和转换、过滤异常数据，并转换成更适合HBase 存储的格式。

为了加快数据装载到HBase 的速度，采用了批量导入（Bulkload）数据的方式，即利用MapReduce 并行计算引擎直接生成HBase 能够识别的HFile 文件，大大缩短了数据入库的时间。

（3）使用Tomcat 作为Web Server 提供Web 层的访问服务。

由于Oracle 和CDH 大数据平台处于两个不同的集群中，因此以Web 服务作为中间通道可以方便地连接这两个集群，例如在集群间传递指令、查询并展现集群中的数据等。

2.2 抽取流程对于存储在关系型数据库中的数据，被抽取出来后最终将被存储在NoSQL(以HBase 为例)数据库中。

我们的思路是，将关系型数据库中的数据首先抽取出来并以中间格式（如Text File）导入到大数据平台后，再将其导入到NoSQL 数据库中。

当将数据从Oracle 以中间格式文件的形式导出后，按照一定的策略将其导入到HBase 中。

数据抽取流程可细分为三个部分，分别为利用Golden Gate 提取数据、用MapReduce 并行计算引擎加快处理速度、将数据装载进HBase。

图2. 数据抽取流程图2.2.1 使用Golden Gate 提取数据利用Golden Gate 解析Oracle 的日志文件，提取出初始数据及发生变化的增量数据。

Golden Gate 并没有提供对Hadoop 集群的直接支持，但是提供了将Trail 文件解析为平面文件（Flat File）的功能。

而平面文件是可以被Hadoop 识别的。

Oracle 中数据的变化情况一般可以分为三类：插入数据、更新数据和删除数据。

因此，对于这三类情况，我们在解析Oracle 的变化数据时，将这三类数据分别解析到各自的文件中，例如用后缀I 代表插入的数据（Insert），用后缀D 代表删除的数据（Delete），用U 代表更新的数据（Update）。

2.2.2 利用MapReduce 引擎加快处理由于导出的原始数据往往非常大，如果继续使用传统的串行方法进行数据装载，那么装载过程将会很漫长。

因此，我们使用Hadoop 大数据平台的MapReduce 并行计算框架，来加速装载抽取出的数据。

MapReduce 计算框架将输入的数据分为多个块（block）存储在多个计算节点上，每个节点只计算本节点上的数据。

在每个节点的计算完成之后，将结果输出到MapReduce 框架中。

MapReduce 框架自动汇聚（Aggregate）这些数据并进行排序，最后将最终的结果输出到HDFS 中。

在这一过程中，多个节点的计算过程是同时进行的，因此整个计算与串行计算相比，速度会大大提高，且计算的时间将与计算节点的数量成反比。

2.2.3 使用Bulkload 装载数据NoSQL 数据库可以存储相当大的数据，但是如果采用单客户端来加载数据，则吞吐量会受到单机的带宽及磁盘等硬件的限制。

此外，NoSQL 数据库往往采取复杂的机制来保证数据的健壮性及一致性，数据的写入会经历一个复杂而耗时的过程。

例如，HBase 在写入数据时，会首先将数据写入预写日志文件(WAL, Write-Ahead Log)，然后将数据写入到缓存区域(MemStore)中，等到缓存区域满了之后才将其中的数据一次性地写入到磁盘里。

因此，为了加快数据导入的速度，我们一方面采用多节点并行写入，另一方面直接生成HBase 数据的存储格式文件，即采取批量导入(Bulkload)的方法来装载数据。

表1. 串行数据装载与并行批量导入数据比较3 系统开发与实现基于上述的架构思想与流程，开发并实现了一套大数据平台数据抽取系统，用于对江苏全省用户用电数据的抽取。

该系统以Cloudera CDH 为大数据平台的基础支撑软件，以Oracle 为数据源，实现了每日自动将Oracle 数据库中的全省用户用电的数据抽取并存储到大数据平台的HBase 中。

该系统的集群由20个节点构成，划分为2个机架，每个节点配置32核CPU、64GB 内存和10块磁盘。

开发环境基于Eclipse，程序代码为Java，上层数据的查询与展现采用了Restful API，可以在浏览器中方便地发出查询数据的指令、实时地获取查询结果并展现在浏览器中。

在系统实现的过程中，采用了Golden Gate 基于日志文件提取数据的方式，大大减少了数据抽取本身对数据源系统带来的额外负担，减少了数据抽取对原系统的影响。

同时，针对HBase 分布式文件系统的特点，采取了一些优化措施，如科学设计数据的Rowkey、合理规划Region 的分布、避免写入WAL、规避数据热点等，充分地体现了分布式数据库在存储容量、响应速度和数据可靠性上的优势，为电力公司用电大数据提供了坚实的技术保障。

4 结束语大数据平台上的数据抽取面临着数据量大、数据格式异构程度大、需要分布存储等难点和挑战。

针对这些难点，提出了解决大数据平台数据抽取的新方法，并开发了一套基于Cloudera CDH 的系统，实现了大数据平台海量用电数据的高效抽取。

该系统采用Golden Gate 从数据源提取数据，大大减少了抽取数据对数据源系统的影响，同时采用Bulkload 方式导入数据，提高了装载海量数据的速度。

作为电力行业的一个典型应用，该系统较好地体现了利用大数据平台抽取用电数据的优势，为在大数据平台上展开针对电力行业大数据的进一步研究提供了技术基础。