大数据平台概要设计说明书模板

合集下载

概要设计说明书(模板)

概要设计说明书(模板)

XXX系统XX项目概要设计说明书xxxxx有限公司版本记录目录第一章引言1.1编写目的编写该文档的目的在于明确本系统的用户需求,从技术实现角度描述用户需求,使得软件开发人员与用户对待开发软件的需求有统一的、无二义性的认识。

该文档所描述的内容,可作为软件确认测试的依据,检测所最后的成果是否达到了所描述的技术需求。

该文档的读者为用户代表、软件分析人员、开发管理人员和测试人员。

1.2背景根据xxxxx,为使系统管理更深入业务、更人性化,以及适应国家政策倡导的管理转向服务的发展方向,xxx提出了开发《XXX》的需求。

系统由xxxx有限公司进行系统的设计、开发、以及维护。

系统的主要使用者如下:●xxxxxxxxx。

系统的部署分三方面:●数据库以及服务器端的部署,这两部分部署到xxx机房。

●客户端部署到xxxx机器上。

●xxxx通过浏览器联通互联网进行操作。

1.3参考资料●GB 8566 计算机软件开发规范●GB 8567 计算机软件产品开发文件编制指南●计算机软件工程规范国家标准汇编●《计算机软件工程规范国家标准汇编》第二章任务概述2.1目标xxxxx,建设的目的主要有以下几个方面:⏹xxxx;⏹使系统管理更深入业务、更人性化;⏹通过技术手段把xxxx的数据依据;⏹升级系统的安全性,得到更好的数据保障。

2.2运行环境(按实际环境填写)2.2.1硬件环境服务器配置1. 应用服务器一型号:DELL PowerEdge 6850CPU:2个Intel Xeon MP Model 6 Stepping 8 3.0 Ghz (双核)内存:12G硬盘:2个67.75G2. 应用服务器二型号:DELL PowerEdge 6850CPU:4个Intel Xeon MP Model 6 Stepping 8 3.0 Ghz (双核)内存:16G硬盘:1个67.75G3. 应用服务器三型号:DELL PowerEdge 6850CPU:2个Intel Xeon MP Model 6 Stepping 8 3.0 Ghz (双核)内存:4G硬盘:1个67.75G4. 数据库服务器:两台DELL PowerEdge R910,每台配置:4个 Intel(R) Xeon(R) CPU E7540 @ 2.00GHz Model 46 Stepping 6(六核)CPU,64GB内存,2个278.88 GB 硬盘详细参数参见硬件供应商提供的说明。

概要设计(仅用于学习的参考模板)

概要设计(仅用于学习的参考模板)

量子科技城建设项目大数据系统概要设计文档1引言1.1编写目的本概要设计说明书的编写目的用来描述县大数据台建设项目中的设计基准。

文档主要给设计开发人员、实施人员参考使用,包括程序系统的基本处理流图、程序系统的组织结构、模块划分、功能分配、接口设计、运行设计、数据结构设计和安全性设计等。

以向整个设计期提供关于程序系统的逻辑和数据功能实现方式的总体描述,从而作为程序详细设计或编码的基础。

1.2读者范围◆建设单位项目管理人员、技术人员。

◆承建单位项目管理、设计开发者、测试人员、质量管理员。

◆监理单位监理工程师。

2总体设计2.1总体结构2.1.1软件结构图2.1.2模块清单文档中描述的为整个大数据台项目的整体规划,在初验阶段前需完成的有:首页、数据分析、数据目录、帮助中心全站搜索、登录、个人中心(依据不同角色,享有不同权限,可使用不同功能)等功能模块,其余模块将终验阶段前完成。

2.2设计思路开发时考虑的总体原则是:它必须满足设计目标中的要求,并充分考虑本网站的基本约定。

建立完善的系统设计方案。

信息系统的实施作为信息化规划的实践和实现,必须遵循信息化规划方案的思想,对规划进行项目实施层面上的细化和实现。

首先必须遵循信息化规划“投资适度,快速见效,成熟稳定,总体最优”的总原则。

具体细化到信息系统分析设计和软件系统工程上来。

2.2.1先进性系统构成必须采用成熟、具有国内先进水,并符合国际发展趋势的技术、软件产品和设备。

在设计过程中充分依照国际上的规范、标准,借鉴国内外目前成熟的主流网络和综合信息系统的体系结构,以保证系统具有较长的生命力和扩展能力。

2.2.2实用性实用性是指所设计的软件应符合需求方自身特点,满足需求方实际需要。

在合法性的基础上,应根据需求方自身特点,设置符合需求方的设计需求。

对于需求方的需求,在不违背使用原则的基础上,确定适合需求的设计,满足需求方内部管理的要求。

1)设计上充分考虑当前各业务层次、各环节管理中数据处理的便利和可行,把满足管理需求作为第一要素进行考虑。

大数据平台系统详细设计说明书(学习模板)

大数据平台系统详细设计说明书(学习模板)
功能名称 功能模块定义 组织机构管理
角色管理
用户管理
交换监控/状态监控
功能说明 定义并管理系统中各个功能模块; 管理功能模块的路径信息; 维护使用台的组织结构信息; 可以增加、修改、删除一个组织结构; 组织机构列表及详细信息展示; 组织机构层级管理; 角色列表及详细信息展示; 角色的增、删、改、查操作; 角色授权管理;
详细设计说明书
一、文档介绍
1.1文档目的
此文档用来描述市大数据台建设项目中的设计基准。文档主要给设计开发人 员、实施人员参考使用,包括程序系统的基本处理流图、程序系统的组织结构、 模块划分、功能分配、接口设计、运行设计、数据结构设计和安全性设计等。此 文档同时还为市大数据台建设项目的测试方案和测试用例奠定基础。
三、系统详细需求分析
3.1基础软件 3.1.1统一权限认证管理系统
3.1.1.1概述
统一权限认证管理系统包括了整个台的管理功能和运维监控功能。具体包括 对系统用户、权限划分、组织机构等进行模块化管理,实现用户与功能、用户与 角色、角色与功能的高自由化组合配置等台基础的管理功能。
3.1.1.2需求描述
功能名称
交换监控/业务管理 交换监控/节点管理 交换监控/数据统计
功能说明 系统异常数:对数据交换台中执行作 业过程中出现异常的作业进行统计并展示; 实时流量:通过统计曲线通过三种时 间跨度来对数据交换台中的数据流量进行统 计,分别为“过去一小时”、“过去一周”和“过去 30 天”; 节点列表:显示当前所有正常运行的 节点列表; 作业管理:可以查看某个节点运行作 业的情况,并可以停止作业、启动作业、删除 作业以及查看作业日志; 转换管理:可以查看某个节点运行转 换的情况,并可以停止转换、启动转换、删除 转换以及查看转换日志; 调度管理:展示每个作业的调度信息, 并且可以设置作业调度参数;

概要设计说明书【范本模板】

概要设计说明书【范本模板】

密级:秘密系统名称:XXXX系统系统版本:X.X文档分类:系统设计文件编号:XXXX系统Ver X。

X 概要设计说明书XXX计算机有限公司XXXX年X月XXX系统VerX.X概要设计说明书共22页第2页目录目录 (2)1.引言 (4)1.1文档目的 (4)1.2项目概述 (4)1.3参考资料 (5)1.4术语定义 (5)1.5修改记录 (5)2.系统概述 (6)2。

1系统实现目标 (6)2.2条件与限制 (6)2。

3运行环境 (7)3.需求概述 (7)3。

1.总体描述 (8)3.2.系统角色 (8)3。

3.系统功能 (8)3。

3。

4.功能划分83.3。

5。

用例清单83.4。

性能和运行需求 (8)4。

总体设计 (8)4。

1设计原则 (8)4。

2设计规范 (9)4。

3软件体系结构 (10)5。

模块结构设计 (11)5。

1组件模块总体设计 (11)5。

1。

1。

组件模块的划分和功能描述115。

1。

2.组件模块关系125.1.3.组件模块的物理分布 (12)5.1。

4。

组件模块与用例映射135.2组件模块描述 (13)XXX系统VerX.X概要设计说明书共22页第3页5.2。

1.组件模块1136。

用例实现 (14)7。

数据结构设计 (16)8。

接口设计 (16)9.系统安全设计 (16)9。

1系统故障预防和恢复 (16)9。

2用户管理和权限控制 (17)9。

3数据备份与恢复 (17)9.3。

1。

数据备份179。

3。

2.数据恢复1710。

系统运行设计 (18)10。

1运行模块组合 (18)10。

2运行控制 (18)11。

系统出错处理设计 (19)11。

1出错处理信息 (19)11.1.1。

通讯线路错误 (19)11。

1。

2。

系统环境错误1911。

1。

3。

应用设计错误1911。

2出错处理对策 (19)12.系统维护设计 (21)12。

1数据维护 (21)12.2功能维护 (21)13.系统版本设计 (21)14.附件 (21)XXX系统VerX.X概要设计说明书共22页第4页1.引言1.1文档目的简要说明编写这份概要设计说明书的目的,指出预期的读者。

市大数据中心大数据资源平台概要设计方案

市大数据中心大数据资源平台概要设计方案

01
02
03
04
项目技术方案
系统架构设计
采用分层架构,包括 数据层、服务层和应
用层
数据层负责存储和管 理大数据资源,包括 结构化和非结构化数

服务层提供数据访问、 数据处理和分析服务
应用层提供用户界面 和功能模块,支持多
种应用场景
采用分布式架构,提 高系统扩展性和可用

采用云计算技术,实 现资源共享和弹性计
市大数据中心大数据资源平 台概要设计方案
汇报人:xx
汇报时间:20XX/XX/XX
YOUR LOGO
目录
CONTENTS
1 项目背景与目标 2 项目技术方案 3 项目实施方案 4 项目应用方案 5 项目投资预算 6 项目结论与建议
项目背景与目标
项目背景介绍
随着大数据时代 的到来,数据资 源已经成为重要 的战略资源。
汇报人:xx
汇报时间:20XX/XX/XX
YOUR LOGO
数据存储模块:负责将处理后的 数据存储到数据仓库中,以便进 行后续的数据分析和处理。
数据分析模块:负责对存储的数 据进行各种分析,如数据挖掘、 机器学习等,以发现数据中的规 律和价值。
数据可视化模块:负责将分析结 果以图表、图形等方式进行可视 化展示,以便于用户理解和使用。
数据安全模块:负责保障数据的 安全,防止数据泄露、篡改等安 全问题的发生。
项目结论与建议
项目建设结论总结
项目建设目标明确, 符合市大数据中心 的发展需求。
项目建设方案合理, 技术路线可行,具 有较高的可行性和 实用性。
项目建设周期合理, 投资估算准确,具 有良好的经济效益 和社会效益。
项目建设过程中, 需要加强与相关部 门的沟通协调,确 保项目建设的顺利 推进。

概要设计说明书 (2)

概要设计说明书 (2)

概要设计说明书1. 引言概要设计说明书旨在对系统或项目的整体结构、模块划分进行概括性的描述和解释,详细阐述系统设计的思路、目标和原则。

本文档将介绍系统的基本概念、架构设计、模块划分、接口设计等关键内容,以帮助开发人员更好地理解系统的整体设计思路和实现方法。

2. 系统概述本系统是一个xxx(系统名称)的xxx(系统类型),旨在xxx(系统目标)。

系统包括xxx个模块,分别负责xxx功能。

系统采用xxx(架构模式),拥有良好的可扩展性、可维护性和可测试性。

3. 功能需求3.1 功能1功能1的主要目标是xxx。

实现这一功能的关键步骤包括:xxx(详细描述功能实现的步骤或算法)。

对应的模块为xxx模块,该模块负责xxx(模块的职责描述)。

3.2 功能2功能2的主要目标是xxx。

实现这一功能的关键步骤包括:xxx(详细描述功能实现的步骤或算法)。

对应的模块为xxx模块,该模块负责xxx(模块的职责描述)。

…4. 结构设计4.1 总体结构系统的总体结构如下图所示:插入总体结构示意图系统分为xxx个核心模块,分别为xxx。

每个模块之间通过xxx(接口协议或通信方式)进行通信和数据交互。

4.2 模块设计4.2.1 模块1模块1的主要职责是xxx。

模块1包含如下子模块:•子模块1:负责xxx;•子模块2:负责xxx;•…4.2.2 模块2模块2的主要职责是xxx。

模块2包含如下子模块:•子模块1:负责xxx;•子模块2:负责xxx;•……5. 接口设计系统的各模块之间通过接口进行数据传输和方法调用。

本节将描述系统的主要接口及其定义。

5.1 接口1接口1用于xxx的数据传输和方法调用。

接口1的定义如下:public interface Interface1 {// 方法1的说明void method1();// 方法2的说明int method2(String param);}5.2 接口2接口2用于xxx的数据传输和方法调用。

大数据平台方案设计说明

大数据平台方案设计说明

大数据平台方案设计说明随着互联网的发展和智能化的进步,数据量的增长速度越来越快,数据分析和挖掘也成为了当今企业决策的重要手段。

为了更好地利用大数据进行分析和挖掘,企业需要建立大数据平台来支持数据的存储、处理和分析等各个环节。

1. 数据存储:大数据平台的核心是数据的存储,需要选择适合大数据存储和处理的技术。

常见的大数据存储技术包括分布式文件系统(例如HDFS)、NoSQL数据库(例如MongoDB)和列式数据库(例如HBase)。

根据数据的特点和处理需求,选择合适的存储技术进行数据存储。

2. 数据采集:为了建立大数据平台,需要从各个数据源中采集数据。

数据源可以包括关系数据库、日志文件、传感器数据等。

为了实现数据的实时采集和传输,可以使用消息队列(例如Kafka)或流处理引擎(例如Spark Streaming)等技术,将数据源中的数据实时传输到大数据平台中。

3. 数据处理:大数据平台需要支持数据的实时处理和批量处理。

实时处理可以使用流处理引擎(例如Spark Streaming)或复杂事件处理引擎(例如Flink)等技术。

批量处理可以使用MapReduce框架(例如Hadoop)或Spark等技术。

通过数据处理,可以实现数据的清洗、转换、聚合、计算等操作,为后续的数据分析和挖掘做准备。

4.数据分析和挖掘:数据分析和挖掘是大数据平台的重要功能,可以帮助企业发现潜在的业务机会和风险。

常见的数据分析和挖掘技术包括机器学习、数据挖掘、统计分析等。

通过对大数据平台中的数据进行分析和挖掘,可以发现数据中隐藏的模式、规律和异常,为企业决策提供支持。

5. 数据可视化:为了更好地理解和展示数据分析的结果,需要将分析结果进行可视化。

数据可视化技术可以帮助用户直观地理解数据,发现数据中的模式和趋势。

常见的数据可视化工具包括Tableau、Power BI等。

通过数据可视化,可以将分析结果以图表、报表等形式展示给用户,提供直观的数据分析和挖掘服务。

大数据平台概要设计说明书

大数据平台概要设计说明书

!计算平台概要设计说明书作者:日期: 2013-01-28批准:日期:—审核:日期:(版权所有,翻版必究)文件修改记录目录\1.引言...................................................编写目的.................................................术语与缩略词.............................................对象及范围...............................................参考资料.................................................2.系统总体设计...........................................需求规定.................................................数据导入............................................:数据运算............................................运算结果导出........................................系统监控............................................调度功能............................................自动化安装部署与维护................................运行环境.................................................基本设计思路和处理流程...................................系统结构.................................................?大数据运算系统架构图................................hadoop体系各组件之间关系图.........................计算平台系统功能图..................................系统功能图逻辑说明..................................计算平台业务流程图..................................尚未解决的问题...........................................3.模块/功能设计..........................................计算驱动模块.............................................\设计思路............................................流程图..............................................处理逻辑............................................调度模块.................................................设计思路............................................流程图..............................................处理逻辑............................................自动化安装部署模块.......................................…设计思路............................................处理逻辑............................................调度模块与计算驱动模块交互流程...........................处理流程图..........................................处理逻辑............................................hadoop驱动模块调用驱动接口.........................调度模块接收hadoop执行状态接口.....................调度模块与kettle交互流程................................&处理流程图..........................................处理逻辑............................................对调度任务运行过程进行监控流程...........................处理流程图..........................................处理逻辑............................................对hadoop驱动任务运行过程进行监控流程....................处理流程图..........................................处理逻辑............................................~对操作系统/应用程序监控流程..............................处理流程图..........................................处理逻辑............................................监控报警模块.............................................设计思路............................................流程图..............................................处理逻辑............................................4.系统数据结构设计.......................................>数据实体关系图...........................................数据逻辑结构.............................................驱动任务设置表......................................驱动设置表..........................................驱动任务执行明细表..................................调度任务表..........................................调度步骤表..........................................调度步骤执行记录表..................................<操作系统监控数据表..................................应用程序监控数据表..................................监控系统配置表......................................业务数据记录表......................................数据物理结构.............................................5.安全设计...............................................6.容错设计...............................................挽救措施.................................................~系统维护设计.............................................7.日志设计...............................................1.引言1.1编写目的大数据泛指巨量的数据集,因可从中挖掘出有价值的信息而受到重视。

  1. 1、下载文档前请自行甄别文档内容的完整性,平台不提供额外的编辑、内容补充、找答案等附加服务。
  2. 2、"仅部分预览"的文档,不可在线预览部分如存在完整性等问题,可反馈申请退款(可完整预览的文档不适用该条件!)。
  3. 3、如文档侵犯您的权益,请联系客服反馈,我们会尽快为您处理(人工客服工作时间:9:00-18:30)。

计算平台概要设计说明书作者:日期: 2013-01-28 批准:日期:审核:日期:(版权所有,翻版必究)文件修改记录目录1.引言 (5)1.1 编写目的 (5)1.2 术语与缩略词 (6)1.3 对象及范围 (8)1.4 参考资料 (9)2.系统总体设计 (9)2.1 需求规定 (9)2.1.1 数据导入..................................... 错误!未定义书签。

2.1.2 数据运算..................................... 错误!未定义书签。

2.1.3 运算结果导出................................. 错误!未定义书签。

2.1.4 系统监控..................................... 错误!未定义书签。

2.1.5 调度功能..................................... 错误!未定义书签。

2.1.6 自动化安装部署与维护......................... 错误!未定义书签。

2.2 运行环境 (9)2.3 基本设计思路和处理流程 (9)2.4 系统结构 (10)2.4.1 大数据运算系统架构图 (10)2.4.2 hadoop体系各组件之间关系图.................. 错误!未定义书签。

2.4.3 计算平台系统功能图 (11)2.4.4 系统功能图逻辑说明 (11)2.4.5 计算平台业务流程图........................... 错误!未定义书签。

2.5 尚未解决的问题 (12)3.模块/功能设计 (12)3.1 计算驱动模块 (15)3.1.1 设计思路 (15)3.1.2 流程图 (17)3.1.3 处理逻辑 (18)3.2 调度模块 (13)3.2.1 设计思路 (13)3.2.2 流程图 (14)3.2.3 处理逻辑 (14)3.3 自动化安装部署模块................................. 错误!未定义书签。

3.3.1 设计思路..................................... 错误!未定义书签。

3.3.2 处理逻辑..................................... 错误!未定义书签。

3.4 调度模块与计算驱动模块交互流程..................... 错误!未定义书签。

3.4.1 处理流程图................................... 错误!未定义书签。

3.4.2 处理逻辑..................................... 错误!未定义书签。

3.4.3 hadoop驱动模块调用驱动接口.................. 错误!未定义书签。

3.4.4 调度模块接收hadoop执行状态接口.............. 错误!未定义书签。

3.5 调度模块与kettle交互流程.......................... 错误!未定义书签。

3.5.1 处理流程图................................... 错误!未定义书签。

3.5.2 处理逻辑..................................... 错误!未定义书签。

3.6 对调度任务运行过程进行监控流程..................... 错误!未定义书签。

3.6.1 处理流程图................................... 错误!未定义书签。

3.6.2 处理逻辑..................................... 错误!未定义书签。

3.7 对hadoop驱动任务运行过程进行监控流程.............. 错误!未定义书签。

3.7.1 处理流程图................................... 错误!未定义书签。

3.7.2 处理逻辑..................................... 错误!未定义书签。

3.8 对操作系统/应用程序监控流程 (19)3.8.1 处理流程图 (19)3.8.2 处理逻辑 (19)3.9 监控报警模块 (20)3.9.1 设计思路 (20)3.9.2 流程图 (21)3.9.3 处理逻辑 (21)4.系统数据结构设计 (22)4.1 数据实体关系图 (22)4.2 数据逻辑结构 (22)4.2.1 驱动任务设置表............................... 错误!未定义书签。

4.2.2 驱动设置表................................... 错误!未定义书签。

4.2.3 驱动任务执行明细表........................... 错误!未定义书签。

4.2.4 调度任务表................................... 错误!未定义书签。

4.2.5 调度步骤表 (23)4.2.6 调度步骤执行记录表 (24)4.2.7 操作系统监控数据表........................... 错误!未定义书签。

4.2.8 应用程序监控数据表........................... 错误!未定义书签。

4.2.9 监控系统配置表............................... 错误!未定义书签。

4.2.10 业务数据记录表............................... 错误!未定义书签。

4.3 数据物理结构 (31)5.安全设计 (31)6.容错设计 (31)6.1 挽救措施 (31)6.2 系统维护设计 (31)7.日志设计 (31)1.引言1.1编写目的大数据泛指巨量的数据集,因可从中挖掘出有价值的信息而受到重视。

《华尔街日报》将大数据时代、智能化生产和无线网络革命称为引领未来繁荣的三大技术变革。

麦肯锡公司的报告指出数据是一种生产资料,大数据是下一个创新、竞争、生产力提高的前沿。

世界经济论坛的报告认定大数据为新财富,价值堪比石油。

因此,发达国家纷纷将开发利用大数据作为夺取新一轮竞争制高点的重要抓手。

互联网特别是移动互联网的发展,加快了信息化向社会经济各方面、大众日常生活的渗透。

有资料显示,1998年全球网民平均每月使用流量是1MB(兆字节),2000年是10MB,2003年是100MB,2008年是1GB(1GB等于1024MB),2014年将是10GB。

全网流量累计达到1EB(即10亿GB或1000PB)的时间在2001年是一年,在2004年是一个月,在2007年是一周,而2013年仅需一天,即一天产生的信息量可刻满1.88亿张DVD光盘。

我国网民数居世界之首,每天产生的数据量也位于世界前列。

淘宝网站每天有超过数千万笔交易,单日数据产生量超过50TB(1TB等于1000GB),存储量40PB(1PB等于1000TB)。

百度公司目前数据总量接近1000PB,存储网页数量接近1万亿页,每天大约要处理60亿次搜索请求,几十PB 数据。

一个8Mbps(兆比特每秒)的摄像头一小时能产生3.6GB数据,一个城市若安装几十万个交通和安防摄像头,每月产生的数据量将达几十PB。

医院也是数据产生集中的地方。

现在,一个病人的CT影像数据量达几十GB,而全国每年门诊人数以数十亿计,并且他们的信息需要长时间保存。

总之,大数据存在于各行各业,一个大数据时代正在到来。

信息爆炸不自今日起,但近年来人们更加感受到大数据的来势迅猛。

一方面,网民数量不断增加,另一方面,以物联网和家电为代表的联网设备数量增长更快。

2007年全球有5亿个设备联网,人均0.1个;2013年全球将有500亿个设备联网,人均70个。

随着宽带化的发展,人均网络接入带宽和流量也迅速提升。

全球新产生数据年增40%,即信息总量每两年就可以翻番,这一趋势还将持续。

目前,单一数据集容量超过几十TB甚至数PB已不罕见,其规模大到无法在容许的时间内用常规软件工具对其内容进行抓取、管理和处理。

数据规模越大,处理的难度也越大,但对其进行挖掘可能得到的价值更大,这就是大数据热的原因。

鉴于越来越大的数据规模,采用常规基于DBMS的数据分析工具和方法已经无法满足大规模数据分析的需求,目前一些大型互联网公司采用hadoop体系进行大规模数据的运算,结合hadoop体系结构与实际的运算需求结合,采用hadoop 体系结构的分布式运算模型,通过集群的方式实现大数据运算,为企业提供大数据的价值。

为适应大数据计算的要求,同时提供大数据运算平台的系统设计的依据,特制定计算平台的系统概要设计文档,为后期的系统详细设计和实现提供依据。

1.2术语与缩略词下列术语、定义和缩略语适用于本标准:1.3对象及范围1、开发人员、DBA、测试人员;2、研发主管领导、产品人员;1.4参考资料1、《大数据处理体系架构》2、《HBase The Definitive Guide》3、《The.Definitive.Guide.3rd.Edition.May.2012》4、《Programming_Hive》2.系统总体设计2.1需求规定2.2运行环境操作系统:RedHad Enterprise 5.5软件环境:Java 1.6Hadoop-1.0.4HBase-0.94.9Hive-0.10.0sqoop-1.4.2zookeeper-3.4.5Kettle 4.3MySQL 5.1硬件环境:8核16G内存PC服务器8台2.3基本设计思路和处理流程1、按照数据分析的实时性,分为在线数据分析和离线数据分析。

2、在线数据分析:往往要求系统在数秒内返回上亿行数据的分析,从而才能达到不影响用户体验的目的。

3、离线数据分析:对大多数反馈时间要求不高的应用,比如离线统计分析、机器学习等,应采用离线分析的方式,通过数据采集工具将日志数据导入专门的分析平台进行分析。

4、系统主要以离线数据分析为主,采用目前在互联网业界流行的hadoop体系结构对大批量的数据进行运算,采用hadoop集群的方式对大数据进行运算。

5、数据运算平台以调度为主线,作为运算平台的核心控制系统,对运算平台的各个环节进行控制,且对运算过程中的步骤依赖关系进行控制,同时对各个环节进行监控,通过监控异常报警来提高系统的稳定性和异常响应速度。

2.4系统结构2.4.1大数据运算系统架构图2.4.2大数据平台系统功能图系统功能图逻辑说明1)生产系统的源数据通过sqoop,flume,Kettle等获取后保存在Kafka消息队列中或者保存到hadoop的hdfs系统中。

相关文档
最新文档