讯飞云AI平台架构之路

大数据处理平台构架设计说明书

大数据处理平台及可视化架构设计说明书 版本:1.0 变更记录

目录 1 1. 文档介绍 (3) 1.1文档目的 (3) 1.2文档范围 (3) 1.3读者对象 (3) 1.4参考文献 (3) 1.5术语与缩写解释 (3) 2系统概述 (4) 3设计约束 (5) 4设计策略 (6) 5系统总体结构 (7) 5.1大数据集成分析平台系统架构设计 (7) 5.2可视化平台系统架构设计 (11) 6其它 (14) 6.1数据库设计 (14) 6.2系统管理 (14) 6.3日志管理 (14)

1 1. 文档介绍 1.1 文档目的 设计大数据集成分析平台,主要功能是多种数据库及文件数据;访问;采集;解析,清洗,ETL,同时可以编写模型支持后台统计分析算法。 设计数据可视化平台,应用于大数据的可视化和互动操作。 为此,根据“先进实用、稳定可靠”的原则设计本大数据处理平台及可视化平台。 1.2 文档范围 大数据的处理,包括ETL、分析、可视化、使用。 1.3 读者对象 管理人员、开发人员 1.4 参考文献 1.5 术语与缩写解释

2 系统概述 大数据集成分析平台,分为9个层次,主要功能是对多种数据库及网页等数据进行访采集、解析,清洗,整合、ETL,同时编写模型支持后台统计分析算法,提供可信的数据。 设计数据可视化平台 ,分为3个层次,在大数据集成分析平台的基础上实现大实现数据的可视化和互动操作。

3 设计约束 1.系统必须遵循国家软件开发的标准。 2.系统用java开发,采用开源的中间件。 3.系统必须稳定可靠,性能高,满足每天千万次的访问。 4.保证数据的成功抽取、转换、分析,实现高可信和高可用。

苏宁大数据平台任务调度模块架构设计

苏宁大数据离线任务开发调度平台实践:任务调度模块架构设计 weixin_34262482 2019-02-01 08:00:00 375 收藏2 作为国内最大的电商平台之一,苏宁每天要处理数量巨大的数据。为了更快速高效地处理这 些数据,苏宁调度平台采取了哪些措施呢? 本文是苏宁大数据离线任务开发调度平台实践系列文章之上篇,详解苏宁的任务调度模块。 目录 1.绪言\t1 2.设计目标与主要功能\t2 3.专业术语\t3 4.调度架构设计\t5 5.服务重启和任务状态恢复\t6 5.1 Master Active 组合服务\t7 5.2 Master HA高可用设计\t7 5.3 Recover任务状态恢复设计\t7 6.Web API接口服务\t9 7.后续\t10 1.绪言 在上一篇文章《苏宁大数据离线任务开发调度平台实践》中,从用户交互功能、任务调度、 任务执行、任务运维和对外服务等几方面,宏观层面进行了理论和实践的概述。 产品的用户功能重点需要把握用户实际的任务开发运维需求,合理的规划设计产品功能,在 使用和运维上便于用户操作,降低用户的开发使用成本。简单的说就是主要保证用户任务、 任务流等关键元数据的配置信息的准确性,以及任务状态的查询和干预能力,技术上实现不 存在难点,在此不再详细说明。 任务执行模块侧重于任务被领取后,如何根据任务类型选择不同的执行器(Executer)提交 任务执行,并将任务的执行状态及时准确的返回,由任务调度服务根据返回状态做相应的下 一步处理,除此以外还涉及到任务资源加载、任务配置解析与转换、自身健康状态检查与汇 报、worker进程与任务子进程通信、任务隔离、对外接口服务等,这块将在后面一节再跟

车联网大数据平台架构设计

车联网大数据平台架构设计-软硬件选型 1.软件选型建议 数据传输 处理并发链接的传统方式为:为每个链接创建一个线程并由该线程负责所有的数据处理业务逻辑。这种方式的好处在于代码简单明了,逻辑清晰。而由于操作系统的限制,每台服务器可以处理的线程数是有限的,因为线程对CPU的处理器的竞争将使系统整体性能下降。随着线程数变大,系统处理延时逐渐变大。此外,当某链接中没有数据传输时,线程不会被释放,浪费系统资源。为解决上述问题,可使用基于NIO的技术。 Netty Netty是当下最为流行的Java NIO框架。Netty框架中使用了两组线程:selectors与workers。其中Selectors专门负责client端(列车车载设备)链接的建立并轮询监听哪个链接有数据传输的请求。针对某链接的数据传输请求,相关selector会任意挑选一个闲置的worker线程处理该请求。处理结束后,worker自动将状态置回‘空闲’以便再次被调用。两组线程的最大线程数均需根据服务器CPU处理器核数进行配置。另外,netty内置了大量worker 功能可以协助程序员轻松解决TCP粘包,二进制转消息等复杂问题。 IBM MessageSight MessageSight是IBM的一款软硬一体的商业产品。其极限处理能力可达百万client并发,每秒可进行千万次消息处理。 数据预处理 流式数据处理 对于流式数据的处理不能用传统的方式先持久化存储再读取分析,因为大量的磁盘IO操作将使数据处理时效性大打折扣。流式数据处理工具的基本原理为将数据切割成定长的窗口并对窗口内的数据在内存中快速完成处理。值得注意的是,数据分析的结论也可以被应用于流式数据处理的过程中,即可完成模式预判等功能还可以对数据分析的结论进行验证。 Storm Storm是被应用最为广泛的开源产品中,其允许用户自定义数据处理的工作流(Storm术语为Topology),并部署在Hadoop集群之上使之具备批量、交互式以及实时数据处理的能力。用户可使用任意变成语言定义工作流。 IBM Streams IBM的Streams产品是目前市面上性能最可靠的流式数据处理工具。不同于其他基于Java 的开源项目,Streams是用C++开发的,性能也远远高于其他流式数据处理的工具。另外IBM 还提供了各种数据处理算法插件,包括:曲线拟合、傅立叶变换、GPS距离等。 数据推送 为了实现推送技术,传统的技术是采用‘请求-响应式’轮询策略。轮询是在特定的的时间间隔(如每1秒),由浏览器对服务器发出请求,然后由服务器返回最新的数据给客户端的浏览器。这种传统的模式带来很明显的缺点,即浏览器需要不断的向服务器发出请求,然而HTTP request 的header是非常长的,里面包含的数据可能只是一个很小的值,这样会占用很多的带宽和服务器资源。

数据中心建设架构设计

数据中心架构建设计方案建议书 1、数据中心网络功能区分区说明 1.1 功能区说明 图1:数据中心网络拓扑图 数据中心网络通过防火墙和交换机等网络安全设备分隔为个功能区:互联网区、应用服务器区、核心数据区、存储数据区、管理区和测试区。可通过在防火墙上设置策略来灵活控制各功能区之间的访问。各功能区拓扑结构应保持基本一致,并可根据需要新增功能区。 在安全级别的设定上,互联网区最低,应用区次之,测试区等,核心数据区和存储数据区最高。 数据中心网络采用冗余设计,实现网络设备、线路的冗余备份以保证较高的可靠性。 1.2 互联网区网络 外联区位于第一道防火墙之外,是数据中心网络的Internet接口,提供与Internet 高速、可靠的连接,保证客户通过Internet访问支付中心。 根据中国南电信、北联通的网络分割现状,数据中心同时申请中国电信、中国联通各1条Internet线路。实现自动为来访用户选择最优的网络线路,保证优质的网络访问服务。当1条线路出现故障时,所有访问自动切换到另1条线路,即实现线路的冗余备份。

但随着移动互联网的迅猛发展,将来一定会有中国移动接入的需求,互联区网络为未来增加中国移动(铁通)链路接入提供了硬件准备,无需增加硬件便可以接入更多互联网接入链路。 外联区网络设备主要有:2台高性能链路负载均衡设备F5 LC1600,此交换机不断能够支持链路负载,通过DNS智能选择最佳线路给接入用户,同时确保其中一条链路发生故障后,另外一条链路能够迅速接管。互联网区使用交换机可以利用现有二层交换机,也可以通过VLAN方式从核心交换机上借用端口。 交换机具有端口镜像功能,并且每台交换机至少保留4个未使用端口,以便未来网络入侵检测器、网络流量分析仪等设备等接入。 建议未来在此处部署应用防火墙产品,以防止黑客在应用层上对应用系统的攻击。 1.3 应用服务器区网络 应用服务器区位于防火墙内,主要用于放置WEB服务器、应用服务器等。所有应用服务器和web服务器可以通过F5 BigIP1600实现服务器负载均衡。 外网防火墙均应采用千兆高性能防火墙。防火墙采用模块式设计,具有端口扩展能力,以满足未来扩展功能区的需要。 在此区部署服务器负载均衡交换机,实现服务器的负载均衡。也可以采用F5虚拟化版本,即无需硬件,只需要使用软件就可以象一台虚拟服务器一样,运行在vmware ESXi上。 1.4 数据库区

常见的大数据平台架构设计思路【最新版】

常见的大数据平台架构设计思路 近年来,随着IT技术与大数据、机器学习、算法方向的不断发展,越来越多的企业都意识到了数据存在的价值,将数据作为自身宝贵的资产进行管理,利用大数据和机器学习能力去挖掘、识别、利用数据资产。如果缺乏有效的数据整体架构设计或者部分能力缺失,会导致业务层难以直接利用大数据大数据,大数据和业务产生了巨大的鸿沟,这道鸿沟的出现导致企业在使用大数据的过程中出现数据不可知、需求难实现、数据难共享等一系列问题,本文介绍了一些数据平台设计思路来帮助业务减少数据开发中的痛点和难点。 本文主要包括以下几个章节: 本文第一部分介绍一下大数据基础组件和相关知识。第二部分会介绍lambda架构和kappa架构。第三部分会介绍lambda和kappa架构模式下的一般大数据架构第四部分介绍裸露的数据架构体系下数据端到端难点以及痛点。第五部分介绍优秀的大数据架构整体设计从第五部分以后都是在介绍通过各种数据平台和组件将这些大数据组件结合起来打造一套高效、易用的数据平台来提高业务系统效能,让业务开发不在畏惧复杂的数据开发组件,无需关注底层实现,

只需要会使用SQL就可以完成一站式开发,完成数据回流,让大数据不再是数据工程师才有的技能。 一、大数据技术栈 大数据整体流程涉及很多模块,每一个模块都比较复杂,下图列出这些模块和组件以及他们的功能特性,后续会有专题去详细介绍相关模块领域知识,例如数据采集、数据传输、实时计算、离线计算、大数据储存等相关模块。 二、lambda架构和kappa架构 目前基本上所有的大数据架构都是基于lambda和kappa 架构,不同公司在这两个架构模式上设计出符合该公司的数据体系架构。lambda 架构使开发人员能够构建大规模分布式数据处理系统。它具有很好的灵活性和可扩展性,也对硬件故障和人为失误有很好的容错性,关于lambda架构可以在网上搜到很多相关文章。而kappa架构解决了lambda架构存在的两套数据加工体系,从而带来的各种成本问题,这也是目前流批一体化研究方向,很多企业已经开始使用这种更为先进的架构。 Lambda架构

医疗数据集成平台总体架构设计

医疗数据集成平台总体架构设计 于洁,陈功,沈宫建 [摘要]随着现代医院数字化建设的进一步发展,各种信息系统将越来越多的被投入使用。不同信息系统的构架设计、实现手段和开发环境都有差异,一般而言这些系统之间无法直接进行数据交互。医院需要建立个提供各个子系统之间高效数据交互的集成平台,结合业务流程实现业务的跨系统整合。文章从医院数据集成平台的设想和构建实际出发,提出了数据集成平台设计理念、构架模块方面的理论设想,并将在实际建设中加以进一步验证和落实。 [关键词]数据集成;平台;架构设计 1 系统建设思路 现代化医院的发展越来越依赖各种医疗信息系统的高效运作。随着信息系统的逐步完善和充实,将会有更多不同的信息系统加入医院工作流程,在不同的医疗领域发挥作用。 这些信息系统可能分别由不同的公司研发,其设计理念、开发环境、模块接口等都各不相同,更不可能彼此之间直接进行数据交互。目前,大部分医院的医疗信息系统实现数据共享是采用了传统点对点通信模式的方法,这样的方式需要每两个系统之间都有专用的接口,且当有新系统添加进来的时候,也必须要单独为每个子系统开发与新系统相应的接口,工作量极大。这样的专用接口也存在很大风险,容易导致系统崩溃,中断医院正常的医疗业务流程。 因此,需要建设一个能与全院所有医疗信息系统直接沟通的数据集成平台,以此为中介,实现各 系统间的数据共享和交互。 1)基本原则 数据集成交换平台的基本建设原则包括: (1)实用性 项目是新型研发型项目,在国内同行业尚未有成熟案例的情况下,创新性地提出数据集成交换平台的建设思想。同时,本着保护投资的原则,采用业界先进的技术架构和开发工具,以免费开源的ICE中间件为核心,立足自主研发,力求形成具有自主知识产权的软件平台系统。 (2)安全性 数据的安全性要保证交换的数据必须准确无误,必须建立完善的数据访问、备份等安全机制。 平台系统软件自身的安全性,一旦交换平台或任一子系统发生故障,不影响现有子系统的正常运 行,确保医院日常业务的正常流转。 平台系统提供灵活、多样的交换模式,具有严密的监控策略,可以随时定义、调整业务数据的流转方式。提供完善的应急措施,建立故障情况下的紧急响应预案。 (3)稳定性 数据交换平台系统的成功研究实施,将成为江苏省中医院的核心业务应用,因此,平台系统软件的稳定性至关重要。一方面,业务流程的规范定义必须符合医院现有的业务应用,又具有前

大数据平台架构设计说明书

大数据平台 总体架构规格说明书 V1.0版

●目录 ●目录 (2) I.简介 (4) 1.目的 (4) 2.词汇表 (4) 3.引用 (4) II.整体介绍 (5) 1.系统环境 (5) 2.软件介绍 (5) 3.用途 (6) 4.简介 (6) 5.核心技术 (7) ●大规模并行处理MPP (7) ●行列混合存储 (8) ●数据库内压缩 (8) ●内存计算 (9) 6.M ASTER N ODE (9) 7.D ATA N ODE (9) III.MASTER NODE (10) 1.简介 (10) 2.C ONTROL 模块 (10) 3.SQL模块 (10) 4.A CTIVE-P ASSIVE SOLUTION (16) IV.DATA NODE (19) 1.简介 (19) 2.重要模块 (19)

3.数据存储 (20) 4.数据导入 (21) V.分布式机制 (23) 1.概括 (23) 2.数据备份和同步 (24) 3.时间同步机制 (27) 4.分布式LEASE机制查询过程备忘 (27) VI.内存管理机制 (29) VII.V3.0版的初步设计思路 (30)

I.简介 1.目的 本文详细描述了DreamData数据库系统。介绍了系统的目标、功能、系统接口、系统行为、系统约束以及系统如何响应。本文面向系统参与者以及系统开发人员。 2.词汇表 3.引用

II.整体介绍 1.系统环境 图 1 –系统环境 2.软件介绍 DreamData是在从分布式数据库的基础上发展而来,同时加入一些NoSQL的基因的新一代大数据实时分析分布式数据库,并且支持内存计算。 DreamData最大的特色就是大而快,它能极快地导入和处理海量的数据,并在这个基础上能极快地进行用户所需数据统计和分析。相对传统数据库Oracle而言,DreamData的单机性能要高出50倍以上,并且随着节点数量的增加,整体性能会同步提升。

《实时大数据平台规划设计方案》

实时大数据平台规划设计方案 一、相关概念背景 1.1 从现代数仓架构角度看待实时数据平台 现代数仓由传统数仓发展而来,对比传统数仓,现代数仓既有与其相同之处,也有诸多发展点。首先我们看一下传统数仓(图1)和现代数仓(图2)的模块架构: 图1 传统数仓

图2 现代数仓 传统数仓大家都很熟悉,这里不做过多介绍,一般来说,传统数仓只能支持T+1天时效延迟的数据处理,数据处理过程以ETL为主,最终产出以报表为主。 现代数仓建立在传统数仓之上,同时增加了更多样化数据源的导入存储,更多样化数据处理方式和时效(支持T+0天时效),更多样化数据使用方式和更多样化数据终端服务。 现代数仓是个很大的话题,在此我们以概念模块的方式来展现其新的特性能力。首先我们先看一下图3中Melissa Coates的整理总结:

在图3 Melissa Coates的总结中我们可以得出,现代数仓之所以“现代”,是因为它有多平台架构、数据虚拟化、数据的近实时分析、敏捷交付方式等等一系列特性。 在借鉴Melissa Coates关于现代数仓总结的基础上,加以自己的理解,我们也在此总结提取了现代数仓的几个重要能力,分别是: ?数据实时化(实时同步和流式处理能力) ?数据虚拟化(虚拟混算和统一服务能力) ?数据平民化(可视化和自助配置能力) ?数据协作化(多租户和分工协作能力) ? ?

1)数据实时化(实时同步和流式处理能力) 数据实时化,是指数据从产生(更新至业务数据库或日志)到最终消费(数据报表、仪表板、分析、挖掘、数据应用等),支持毫秒级/秒级/分钟级延迟(严格来说,秒级/分钟级属于准实时,这里统一称为实时)。 这里涉及到如何将数据实时的从数据源中抽取出来;如何实时流转;为了提高时效性,降低端到端延迟,还需要有能力支持在流转过程中进行计算处理;如何实时落库;如何实时提供后续消费使用。实时同步是指多源到多目标的端到端同步,流式处理指在流上进行逻辑转换处理。 但是我们要知道,不是所有数据处理计算都可以在流上进行,而我们的目的,是尽可能的降低端到端数据延迟,这里就需要和其他数据流转处理方式配合进行,后面我们会进一步讨论。 2) 数据虚拟化(虚拟混算和统一服务能力) 数据虚拟化,是指对于用户或用户程序而言,面对的是统一的交互方式和查询语言,而无需关注数据实际所在的物理库和方言及交互方式(异构系统/异构查询语言)的一种技术。用户的使用体验是面对一个单一数据库进行操作,但其实这是一个虚拟化的数据库,数据本身并不存放于虚拟数据库中。 虚拟混算指的是虚拟化技术可以支持异构系统数据透明混算的能力,统一服务指对于用户提供统一的服务接口和方式。

交通数据中心总体架构与数据共享交换平台的设计研究

第8卷第3期2008年6月 交通运输系统工程与信息 Journal of T ransportation Systems Engineering and In formation T echnology V ol18N o13 Jun2008 文章编号:100926744(2008)0320023206 智能交通系统与信息技术 交通数据中心总体架构与数据共享 交换平台的设计研究 汪祖云3 (北京市交通信息中心,北京100055) 摘要: 随着交通信息化应用的不断深入,数据交换和数据共享的需求越来越强烈,信息资源整合已成为交通信息化建设的核心内容之一.本文以北京市为例,分析了交通行业信息化存在的主要问题,并根据交通行业管理特点,提出了数据中心建设的总体框架.数据中心是一项复杂的系统工程,它涉及到网络、系统集成、信息安全、数据库、数据挖掘、标准规范等信息工程领域的各个方面.本文选取中心局域网、共享交换平台和中心数据库这三个核心系统,分别给出了中心局域网和共享交换平台的架构设计思路,探讨了在不同条件下数据交换和数据整合的几种方法. 关键词: 数据中心;数据整合;数据交换 中图分类号: U1文献标志码: A Frame w ork and Data Share Platform of T ransportation Data Center WANG Zu2yun (Beijing T ransportation In formation Center,Beijing100055,China) Abstract: With transportation in formatization application being studied continually,the demand of data exchange and data share becomes m ore and m ore intense,and the in formation res ource integration has become one of the main contents of transportation in formatization.T aking Beijing as an exam ple,the paper analyzes the existing prob2 lems in transportation industry in formatization,and brings forward the framew ork of data center.Data center is a com plicated systems engineering,and it comes down to netw ork,system integration,in formation safety,database, data mining,standard specification,and s o on.The paper chooses three core systems,which are center LAN, share platform and center database.Finally,the paper introduces framew ork design of center LAN and share plat2 form,and discusses several methods of data exchange and data integration in different conditions. K ey w ords: data center;data integration;data exchange C LC number: U1Document code: A 收稿日期:2008201209 修回日期:2008204227 录用日期:2008204228 作者简介:汪祖云(1971-),女,安徽省马鞍山市人,高级工程师,硕士. 3通讯作者:wangzuyun@bjjtw.g https://www.360docs.net/doc/674281031.html,

系统架构设计方案

ERP系统架构设计方案 2009 年5月 版本控制

一、前言 二、架构设计 架构分析 架构定义 架构说明 软件逻辑结构 三、具体功能简述 自定义工作流解决方案 多语言解决方案 消息发布/订阅系统方案 报表&打印方案 四、系统平台&支撑组件 五、系统网络结构 六、开发管理层面

一、前言 一个企业级的商业软件能够满足用户需要、正常运行、易于维护、易于扩展,必须拥有 一个良好的软件架构支撑。本文主要是分析和构建一个企业级商业软件架构。 二、架构设计 架构分析 企业级的商业软件架构在技术层面的要求主要体系在高性能、健壮性和低成本。 高性能 对于企业级商业软件来说,软件架构需要尽可能地使软件具有最高的性能,支持最大的并发性。 健壮性 企业级的商业软件要求软件是可靠的和无缺陷的。现在的架构一般是,服务器模式的。软件的可靠和健壮主要依赖与服务器。服务器的稳定通过良好的代码和完备的测试能够解决这个问题。 低成本 企业级商业软件还有一个很重要的要求:低成本。软件架构要求简单、易掌握,复杂度低,易于维护和扩展,易于测试。 架构定义 本架构以XML 为整个系统的交互接口,包括系统架构内部和外部。整个系统分为界面展示层,流程控制层和数据存储层。 架构说明 系统架构 图 企业控制系统 资源仓库 安全服务 适配器 连通服务 流程服务 协作服务 交互服务 信息服务辅助工具 运行管理工具报表 配置&规则 Web 客户端(b/s) 智能客户端(c/s) Mobile 功能服务 Erp 架构中各核心服务之间满足松散耦合特性,具有定义良好的接口,可通过拆分与组合,

可以有针对性地构建满足不同应用场景需求的Erp应用系统。 2.3.1 适配器 在集成环境中需要复用已有的应用系统和数据资源,通过适配器可以将已有应用系统和数据资源接入到ERP应用系统中。 通过适配器可以实现已有资源与ERP系统中其它服务实现双向通讯和互相调用。首先通过适配器可以实现对已有资源的服务化封装,将已有资源封装为一个服务提供者,可以为ERP应用系统中的服务消费者提供业务和数据服务,其次通过适配器,也可以使已有资源可以消费ERP应用系统中的其它服务。 2.3.2 资源仓库 资源仓库主要功能是提供服务描述信息的存储、分类和查询功能。对于广义的资源仓库而言,除了提供服务类型的资源管理外,还需要提供对其它各种资源的管理能力,可管理对象包括:人员和权限信息、流程定义和描述、资源封装服务、服务实现代码、服务部署和打包内容、以及环境定义和描述信息。 资源仓库首先需要提供服务描述能力,需要能够描述服务的各种属性特征,包括:服务的接口描述、服务的业务特性、服务的质量特征(如:安全、可靠和事务等)以及服务运行的QoS属性。 2.3.3 连通服务 连通服务是ERP基础技术平台中的一个重要核心服务,典型的连通服务就是企业服务总线(Enterprise Service Bus,ESB),它是服务之间互相通信和交互的骨干。连通服务的主要功能是通信代理,如服务消费的双向交互、代理之间的通信、代理之间的通信质量保障以及服务运行管理功能等。 连通服务还需要保证传输效率和传输质量。连通服务一般应用于连接一个自治域内部的各个服务,在自治域内部服务都是相对可控的,所以连通服务更多应该考虑效率问题。 2.3.4 流程服务 流程服务是为业务流程的运行提供支撑的一组标准服务。业务流程是一组服务的集合,可以按照特定的顺序并使用一组特定的规则进行调用。业务流程可以由不同粒度的服务组成,其本身可视为服务。 流程服务是业务流程的运行环境,提供流程驱动,服务调用,事务管理等功能。流程服务需要支持机器自动处理的流程,也需要支持人工干预的任务操作,它支持的业务流程主要适用于对运行处理时间要求不高的,多方合作操作的业务过程。 2.3.5 交互服务

数据分析平台架构设计

数据分析平台架构设计 随着互联网、移动互联网和物联网的发展,谁也无法否认,我们已经切实地迎来了一个海量数据的时代,数据调查公司IDC预计2011年的数据总量将达到1.8万亿GB,对这些海量数据的分析已经成为一个非常重要且紧迫的需求。 作为一家互联网数据分析公司,我们在海量数据的分析领域那真是被“逼上梁山”。多年来在严苛的业务需求和数据压力下,我们几乎尝试了所有可能的大数据分析方法,最终落地于Hadoop平台之上。 Hadoop在可伸缩性、健壮性、计算性能和成本上具有无可替代的优势,事实上已成为当前互联网企业主流的大数据分析平台。本文主要介绍一种基于Hadoop平台的多维分析和数据挖掘平台架构。 大数据分析的分类 Hadoop平台对业务的针对性较强,为了让你明确它是否符合你的业务,现粗略地从几个角度将大数据分析的业务需求分类,针对不同的具体需求,应采用不同的数据分析架构。 按照数据分析的实时性,分为实时数据分析和离线数据分析两种。 实时数据分析一般用于金融、移动和互联网B2C等产品,往往要求在数秒内返回上亿行数据的分析,从而达到不影响用户体验的目的。要满足这样的需求,可以采用精心设计的传统关系型数据库组成并行处理集群,或者采用一些内存计算平台,或者采用HDD的架构,这些无疑都需要比较高的软硬件成本。目前比较新的海量数据实时分析工具有EMC的Greenplum、SAP的HANA等。 对于大多数反馈时间要求不是那么严苛的应用,比如离线统计分析、机器学习、搜索引擎的反向索引计算、推荐引擎的计算等,应采用离线分析的方式,通过数据采集工具将日志数据导入专用的分析平台。但面对海量数据,传统的ETL工具往往彻底失效,主要原因是数据格式转换的开销太大,在性能上无法满足海量数据的采集需求。互联网企业的海量数据采集工具,有Facebook开源的Scribe、LinkedIn开源的Kafka、淘宝开源的Timetunnel、

相关文档
最新文档