Hadoop大数据平台方案

相关主题
  1. 1、下载文档前请自行甄别文档内容的完整性,平台不提供额外的编辑、内容补充、找答案等附加服务。
  2. 2、"仅部分预览"的文档,不可在线预览部分如存在完整性等问题,可反馈申请退款(可完整预览的文档不适用该条件!)。
  3. 3、如文档侵犯您的权益,请联系客服反馈,我们会尽快为您处理(人工客服工作时间:9:00-18:30)。

节省25%的数据中 通过传感器、移 心空间(100万美 动和地理空间数 元),将延迟降低 据,改善货运业 83%至340微秒, 务并赋予业务 将每天10亿交易的 Hadoop形式,节 吞吐量提高580%, 省了数百万美元 且还在持续提高
将源自100多个国 合理化应用程序 组合,并 家的200多个品牌 在6个月 内得到回报节省 的业务数据从五个 了100万美金。将 用于服 系统中转移到一个 务监测和 系统中 图案识别的大型 数据年龄 降低 87%

MDM
科学机器设备
存档
提取 低成本 存储
行业标准
13
释放 Hadoop 能力
通过高性能的通用数据访问
传讯 和 Web 服务
WebSphere MQ JMS MSMQ SAP NetWeaver XI Oracle DB2 UDB DB2/400 SQL Server Sybase ADABAS Datacom DB2 IDMS IMS
配置文件数据
4. 在 Hadoop 中转换和清洗/标准化数 据 (MapReduce)
营销活 动
客户配置文 件
社会媒 体
客户服务日志和调 查
12
数据摄入和提取
每小时交易、交互和数据流移动的数据量达到数十TB
交易 OLTP,OLAP
批量加载
应用程序
文档, 电子邮件
复制
提取
数据仓库
社交媒体, 网络日志
5.在 Hadoop 中调用自定义业务分析
编排工作流(Hadoop 或非 Hadoop 作业/流程)
销售和市场营销数据 集市
客户服务 门户
3. 在 Hadoop 中解析和准备数据 (MapReduce)
2. 发现 Hadoop 数据的异常、关系和 域类型
摄取数据到 Hadoop
帐户交 易
提供产品和服 务
10
专注于数据处理

• • • •
成立时间: 1993
2011年收入为: 7.84亿美元 6年平均增长率: 每年20% 员工人数: 2,960多人 合作伙伴: 400多家
• 主要的系统集成商、独立软件供 应商、原始设备制造商和按需生 产的先驱
$800 $700 $600 $500 $400 $300 $200 $100
为全球177多个 通过地理空间和 视频追踪,将人 业务部门及 53,000,000个联 工检查转换为以 系人提供云访问。 秒数计的自动提 醒,保证了航海 保持360应用程 序与LinkedIn 和 安全 Twitter的更新
33
大数据的“提炼”
8
大数据处理
改善决策 实现 业务现代化
充分利用Hadoop的处理能力
提高 效率 和降低 成本 合并 收购 和 剥离 赢得并 留住 客户 外包 非核心 功能 治理 风险 合规性 增加 合 作伙伴 网络 效率 提高 业务 灵活性
预测分析 (建议、结果、MRO)
客户分析 (客户观点和满意度)
wk.baidu.com
模式识别 (欺诈检测
风险和投资组合分析
优化 (价格、供应链)
提升大数据的价值
及时性 可行性 可访问性 相关性 全面性 安全性 可靠性 权威性

客户: 近5,000家
• • • • 其中超过70%是世界500强公司 客户遍布全球82个国家 直接客户遍布全球26个国家 客户忠诚度排名位居榜首 (已连续6年获此殊荣)
$0 2005 2006 2007 2008 2009 2010 2011
11
通过
释放 Hadoop 的强大潜能
6. 提取Hadoop中的数据 监控和管理(Hadoop 或非 Hadoop 作业/流程)
业务成本
劳动成本
软件成本
硬件成本
存储成本
降低大数据的成本
交易
台式机
本地

移动电话
交互作用
9
Hadoop的特点
扩容能力(Scalable)
– 能可靠地(reliably)存储和处理千兆字节(PB)数据。
成本低(Economical)
– 可以通过普通机器组成的服务器群来分发以及处理数据。这些 服务器群总计可达数千个节点。
Hadoop大数据平台建设方案
2
C时代
• 24小时在线(Connected 24 hours Era) • 全方位网络覆盖
2
C时代带来数据的爆炸性增长
3
通俗的描述:Big Data
大数据(Big Data)是大交易数据,大交互数据和大数据处理的统称。
大交易数据
在线交易处理 (OLTP) 在线分析处理 (OLAP) & 数据仓库设备
高效率(Efficient)
– 通过分发数据,hadoop可以在数据所在的节点上并行地( parallel)处理它们,这使得处理非常的快速。
可靠性(Reliable)
– hadoop能自动地维护数据的多份复制,并且在任务失败后能自 动地重新部署(redeploy)计算任务。
HDFS和MapReduce是核心
大交互数据
社交媒体数据
其他交互数据
详细呼叫记录、图 像,点击流数据
大数据集成
科学、基因 机器 /设备
大数据处理
4
我们需要合理疏导和利用大数据
5
各种各样的数据和标准
最广范围的大数据 平面文件和文档
定位 名称 = 值 ^/>限定<\^
服务资料库
XML
行业标准
社交
交互数据
S
设备/传感器 科学
生产力
• 直观解析环境
任何 DI/BI 体系结构

预定义转换
PIG
EDW MDM
6
大数据解决方案
业务需求
提供 分析洞见 提高业务 灵活性 改善 业务流程 提高效率& 降低成本 兼并收购& 资产剥离 获取及挽留 客户 外包 非 核心职能 治理风险 合规 提升合作伙伴 网络效率
大数据仓库 & 运营商业智能
通过数据源,将 客户、风险和投 诉等各种来源的 数据(数据仓库、 遗留数据、 30000数据集市 和10M投诉)的访 问迅速提高了5 倍,而成本仅是 之前的1/3
Ultra messaging
大数据服务
大数据存档
大数据整合
实时客户视图
每月插槽收入提 高4%,并在社交 数据和机器数据 中,实时从500个 来源中将目标客 户段从40扩大到 160
社交/大数据 同步
复杂事件处理
大数据收集及 汇总
通过OnBoarding New Data Sources Faster 将进入 市场时间缩短 90%,并可支 持更多数据类 型
Web 服务 TIBCO webMethods
JD Edwards SAP NetWeaver Lotus Notes SAP NetWeaver BI Oracle E-BusinessSAS PeopleSoft Siebel Salesforce CRM Force.com RightNow NetSuite EDI–X12 EDI-Fact RosettaNet HL7 HIPAA XML LegalXML IFX cXML Facebook Twitter ADP Hewitt SAP By Design Oracle OnDemand
相关文档
最新文档