数据仓库实施参考手册

合集下载

(完整word版)数据仓库系统运维操作手册

(完整word版)数据仓库系统运维操作手册

数据仓库生产环境操作手册一.运维概述“数据仓库生产系统”的运行维护责任在于保障系统运行,运维方式主要是操作员通过工作机远程登陆到系统中的相关主机,对主机进行操作,包括automation调度系统、数据库、磁盘、软件环境、数据情况等,查看批出理的运行情况,一旦运行出现问题作相应的记录并通知相关的技术人员,作出相应的处理。

所有运维项目成员严格按照《数据仓库系统运维守则.doc》文档来进行运维检查工作,否则出现事故由值班人员和当日值班负责人承担事故责任。

二.运维内容1.每日维护1.1数据检查每日批处理运行前运行完成后都需要对源头的数据和生产出的数据进行检查,确保当日批处理程序正常从事生产。

检查工作在每日9:00-9:30之间完成,且必须在启动程序(批处理程序)前执行。

具体规定如下:1.1.1 转定长数据的检查每天上午9:00--9:45之间,运维值班人员进行这项工作具体执行步骤如下:1.在本地工作机上使用telnet远程登录工具登录到168.7.6.163服务器上,输入用户名sjtq,密码:cib2009edw,2.输入命令cd EDW/sh/log3.输入命令more yyyymmdd当天的日志,是否有错误信息,最后数据是否都上传结束。

4.以下错误属于正常情况:03:00:03 : 1.检查20091031标志文件失败~~~~~~~~~03:00:03 : 1.数据标志检查失败,等待5分钟(06001/dta_varied)正常等待情况5.检查点如下:1)每个大任务开始的初始化操作03:00:00 : ================ 0.环境变量设置完毕================2)数据装载,卸载,上传,整个模块处理结束的情况。

05:41:50 : ================ 2.装载Unl数据完毕================05:41:50 : ---------------- 2.开始装载BAK数据----------------05:41:50 : ================ 2.装载BAK数据完毕================05:41:50 : ---------------- 3.开始卸载fix数据----------------06:26:11 : ================ 3.卸载fix数据完毕================06:26:11 : ---------------- 4.开始向批量数据交换平台送fix数据----------------06001 send ok06001 send ok06002 send ok06002 send ok07002 send ok07002 send ok06027 send ok06027 send ok06:28:56 : ================ 4.向批量数据交换平台送fix数据完毕================06:28:58 : END6.查找是否存在“错误“,”出错“字样。

数据仓库开发规范

数据仓库开发规范

01数据层次的划分具体仓库的分层情况需要结合业务场景、数据场景、系统场景进行综合考虑,下面我们看一下常见的分层•ODS:Operational Data Store,操作数据层,在结构上其与源系统的增量或者全量数据基本保持一致。

它相当于一个数据准备区,同时又承担着基础数据的记录以及历史变化。

其主要作用是把基础数据引入到数仓。

•CDM:Common Data Model,公共维度模型层,又细分为DWD和DWS。

它的主要作用是完成数据加工与整合、建立一致性的维度、构建可复用的面向分析和统计的明细事实表以及汇总公共粒度的指标。

▪DWD:Data Warehouse Detail,明细数据层。

▪DWS:Data Warehouse Summary,汇总数据层。

•ADS:Application Data Service,应用数据层。

02数据分类架构该数据分类架构在ODS层分为三部分:数据准备区、离线数据和准实时数据区。

在进入到CDM层后,由以下几部分组成:•公共维度层:基于维度建模理念思想,建立整个企业的一致性维度。

•明细粒度事实层:以业务过程为建模驱动,基于每个具体业务过程的特点,构建最细粒度的明细层事实表。

您可以结合企业的数据使用特点,将明细事实表的某些重要维度属性字段做适当的冗余,即宽表化处理。

•公共汇总粒度事实层:以分析的主题对象为建模驱动,基于上层的应用和产品的指标需求,构建公共粒度的汇总指标事实表,以宽表化手段来物理化模型。

03数据划分及命名约定请根据业务划分数据并约定命名,建议针对业务名称结合数据层次约定相关命名的英文缩写,这样可以给后续数据开发过程中,对项目空间、表、字段等命名做为重要参照。

数据划分•按业务划分:命名时按主要的业务划分,以指导物理模型的划分原则、命名原则及使用的ODS project。

•按数据域划分:命名时按照CDM层的数据进行数据域划分,以便有效地对数据进行管理,以及指导数据表的命名。

数据仓库项目管理实施指南

数据仓库项目管理实施指南

数据仓库项目管理实施指南引言数据仓库的建立对于组织来说是非常重要的,它可以帮助组织更好地管理和分析海量的数据,从而提升决策的准确性和效率。

然而,数据仓库项目的实施并不是一项简单的任务,它需要合理的规划和管理。

本文将提供一份数据仓库项目管理的实施指南,帮助项目团队顺利完成项目目标。

第一章:数据仓库项目规划1.1 项目背景在本节中,我们将介绍数据仓库项目的背景和意义,包括为什么组织需要建立数据仓库以及数据仓库的优势和挑战。

1.2 项目目标和范围在本节中,我们将明确项目的目标和范围,包括确定数据仓库的功能需求、数据源和数据清洗等方面的要求。

1.3 项目组织结构在本节中,我们将介绍数据仓库项目的组织结构,包括项目经理、项目团队成员和相关利益相关者的职责和角色。

第二章:数据仓库项目执行2.1 项目计划和进度管理在本节中,我们将介绍如何制定数据仓库项目的计划和进度,包括确定工作分解结构、制定里程碑和设置关键路径等。

2.2 项目资源管理在本节中,我们将介绍如何有效地管理数据仓库项目所需的资源,包括人力资源、技术资源和财务资源的分配和调度。

2.3 风险管理在本节中,我们将介绍如何进行项目风险管理,包括评估和规划风险、监控风险和应对风险等方面的内容。

第三章:数据仓库项目控制3.1 项目质量管理在本节中,我们将介绍如何进行数据仓库项目的质量管理,包括制定质量标准、进行质量检查和质量控制等方面的内容。

3.2 项目变更管理在本节中,我们将介绍如何进行数据仓库项目的变更管理,包括变更请求的审核和批准、变更实施的跟踪和控制等方面的内容。

3.3 项目沟通管理在本节中,我们将介绍如何进行数据仓库项目的沟通管理,包括制定沟通计划、进行沟通和协调项目相关方的沟通等方面的内容。

第四章:数据仓库项目收尾4.1 项目交付和验收在本节中,我们将介绍如何进行数据仓库项目的交付和验收,包括制定交付计划、进行交付和验收的流程等方面的内容。

4.2 项目总结和经验教训在本节中,我们将对数据仓库项目进行总结,并分享项目的经验教训和改进建议。

《数据仓库建设指南》

《数据仓库建设指南》

《数据仓库建设指南》数据仓库建设指南随着企业信息化的趋势不断发展,数据化已经成为企业成长的必经之路。

数据成为了企业在竞争中的筹码,企业数据分析的能力也成为了企业成功的关键。

更多的企业意识到,要想在市场上占有一席之地,精细管理企业,就必须建立一个合理的数据仓库。

那么,数据仓库建设需要考虑哪些要素和步骤呢?本文将一一为您解析。

一、数据仓库简介数据仓库是一种长期积淀和管理数据的系统,它可以帮助企业集中存储和管理来自各种渠道的数据,为企业提供分析支持。

它可以将内部和外部的数据整合、加工之后建立一个统一的数据层用于分析,这样企业就可以在分析过程中减少对数据来源的依赖,加快数据分析过程。

二、数据仓库建设步骤1.规划和准备数据仓库建设是需要投入大量的时间和精力的,因此,首先需要确定需求,明确数据仓库的建设目标,并确保团队中所有成员都清楚地理解目标和业务需求。

同时,团队还需要了解企业的业务流程。

在规划和准备阶段,团队需要对企业业务进行分析和评估,确定数据仓库中需要的信息和数据以及其来源;需要制定数据建设计划,分步骤地完成数据仓库的各个环境的建设和测试,以确保其稳定性和数据可靠性。

2.设计在设计阶段,需要确定数据仓库的基本结构和架构等。

从不同的维度来考虑数据仓库的数据设计,面向业务时的数据设计包括事实表和维度表的设计,以及定义关系型数据模式。

面向数据仓库的设计要考虑数据的存储形式和数据的管理:如何利用索引快速查找数据,如何存储不同的数据格式或类型等。

3.实施实施是数据仓库建设中最为繁琐的环节,这个过程需要投入大量的人力和物力资源。

需要与各种数据源进行连接和整合,然后将这些数据存储到数据仓库中,来适应变化的数据分析需求。

在实施过程中,需要考虑数据清洗、转换和加工等过程。

数据清洗的目的是过滤掉不必要的数据,转换是将数据从一种格式转换为另一种;加工就是从原数据中提取关键信息。

4.测试和验证测试与验证是数据仓库建设过程中很重要的步骤,通过测试可以验证数据仓库所设计的模型和工具是否能够适应实际的业务需求,同时也可以提供一些有益的改进建议。

数据仓库与数据挖掘课程实验指导书

数据仓库与数据挖掘课程实验指导书

潘怡编著《数据仓库与数据挖掘》课程实验指导书长沙学院计算机科学与技术系2009年9月前言本书是《数据仓库与数据挖掘》课程及《数据分析与挖掘》的实验指导书。

全书分为三个部分,第一部分为实验内容对每个实验的实验目的、实验类型、实验学时、实验原理及知识点、实验环境(硬件环境、软件环境)和实验内容及步骤进行简单介绍,第二部分为实验指导对每个实验的实验方法,实验步骤及补充的实验知识进行详细介绍,第三部分为实验报告。

本实践课程主要介绍数据仓库的工作机理及其构建过程,。

要求学生熟练使用数据库管理系统MS SQL Server,掌握典型的数据仓库系统及其开发工具的使用,理解数据挖掘的工作原理与流程,掌握典型数据挖掘技术及其工具的使用方法,熟悉SQL SERVER BI DE V集成挖掘环境。

要求学生实验前认真准备,实验后提供实验报告,给出详细设计方法以及设计依据。

实验报告的格式应采用统一封面,统一的实验报告纸。

封面应包括:课程名称、实验序号、名称、专业、班级、姓名、同组实验者、实验时间。

实验报告内容应包括:实验名称、目的、内容、实验步骤、实验记录、数据处理(或原理论证、或实验现象描述、或结构说明等)。

目录第一部分实验内容实验1:实践SQL Server数据多维分析环境实验2:实践关联规则挖掘方法实验3:实践决策树挖掘方法实验4:实践聚类挖掘方法实验5:实践神经网络挖掘方法第二部分实验指导实验1:实践SQL Server数据多维分析环境实验2:实践关联规则挖掘方法实验3:实践决策树挖掘方法实验4:实践聚类挖掘方法实验5:实践神经网络挖掘方法第三部分实验报告第一部分实验内容实验1:实践SQL Server数据多维分析环境一.实验目的学习和掌握Sql Server 2005 Analysis Services 工具集,包括如何在BI Development Studio 的Analysis Services 项目中定义数据源、数据源视图、维度、属性、层次结构和多维数据集,如何查看多维数据集和维度,理解并掌握OLAP分析的基本过程与方法。

数据仓库建设方案(DOC32页)

数据仓库建设方案(DOC32页)

第1章数据仓库建设方案(DOC32页)1.1 数据仓库总体架构专家系统接收增购项目车辆TCMS或者其他子系统通过车地通信传输的实时或者离线数据,通过一系列综合诊断分析,以各类报表图形或者信息推送的形式向用户展示分析结果。

针对诊断出的车辆故障将给出专家建议处理措施,为车辆的故障根因修复提供必要的支持。

根据专家系统数据仓库建设目标,结合系统数据业务规范,包含数据采集频率、数据采集量等有关因素,设计专家系统数据仓库架构如下:数据仓库架构从层次结构上分为数据采集、数据存、数据分析、数据服务等几个方面的内容:数据采集:负责从各业务自系统中汇合信息数据,系统支撑Kafka、Storm、Flume 及传统的ETL采集工具。

数据存储:本系统提供Hdfs、Hbase及RDBMS相结合的存储模式,支持海量数据的分布式存储。

数据分析:数据仓库体系支持传统的OLAP分析及基于Spark常规机器学习算法。

数据服务总线:数据系统提供数据服务总线服务,实现对数据资源的统一管理与调度,并对外提供数据服务。

1.2 数据采集专家系统数据仓库数据采集包含两个部分内容:外部数据汇合、内部各层数据的提取与加载。

外部数据汇合是指从TCMS、车载子系统等外部信息系统汇合数据到专家数据仓库的操作型存储层(ODS);内部各层数据的提取与加载是指数据仓库各存储层间的数据提取、转换与加载。

1.2.1外部数据汇合专家数据仓库数据源包含列车监控与检测系统(TCMS)、车载子系统等有关子系统,数据采集的内容分为实时数据采集与定时数据采集两大类,实时数据采集要紧关于各项检测指标数据;非实时采集包含日检修数据等。

根据项目信息汇合要求,列车指标信息采集具有采集数据量大,采集频率高的特点,考虑到系统后期的扩展,因此在数据数据采集方面,要求采集体系支持高吞吐量、高频率、海量数据采集,同时系统应该灵活可配置,可根据业务的需要进行灵活配置横向扩展。

本方案在数据采集架构使用Flume+Kafka+Storm的组合架构,使用Flume与ETL 工具作为Kafka的Producer,使用Storm作为Kafka的Consumer,Storm可实现对海量数据的实时处理,及时对问题指标进行预警。

华为云数据仓库服务(DWS) 8.1.3.310 API 参考文档说明书

华为云数据仓库服务(DWS) 8.1.3.310 API 参考文档说明书

数据仓库服务(DWS) 8.1.3.310API参考文档版本01发布日期2023-03-30版权所有 © 华为云计算技术有限公司 2023。

保留一切权利。

非经本公司书面许可,任何单位和个人不得擅自摘抄、复制本文档内容的部分或全部,并不得以任何形式传播。

商标声明和其他华为商标均为华为技术有限公司的商标。

本文档提及的其他所有商标或注册商标,由各自的所有人拥有。

注意您购买的产品、服务或特性等应受华为云计算技术有限公司商业合同和条款的约束,本文档中描述的全部或部分产品、服务或特性可能不在您的购买或使用范围之内。

除非合同另有约定,华为云计算技术有限公司对本文档内容不做任何明示或暗示的声明或保证。

由于产品版本升级或其他原因,本文档内容会不定期进行更新。

除非另有约定,本文档仅作为使用指导,本文档中的所有陈述、信息和建议不构成任何明示或暗示的担保。

目录1 使用前必读 (1)1.1 概述 (1)1.2 调用说明 (1)1.3 终端节点 (1)1.4 基本概念 (1)2 API概述 (3)3 如何调用API (5)3.1 构造请求 (5)3.2 认证鉴权 (8)3.3 返回结果 (9)4 快速入门 (11)5 API说明 (17)5.1 集群管理接口 (17)5.1.1 创建集群 (17)5.1.2 查询集群列表 (22)5.1.3 查询集群详情 (29)5.1.4 查询节点类型 (37)5.1.5 删除集群 (39)5.1.6 重启集群 (41)5.1.7 扩容集群 (42)5.1.8 重置密码 (44)5.1.9 集群工作负载管理 (46)5.1.9.1 查询工作负载管理计划列表 (46)5.1.9.2 查询工作负载管理计划 (49)5.1.9.3 切换工作负载计划阶段 (52)5.1.9.4 启动工作负载计划 (53)5.1.9.5 停止工作负载计划 (55)5.2 快照管理接口 (56)5.2.1 创建快照 (56)5.2.2 查询快照列表 (58)5.2.3 查询快照详情 (60)5.2.4 删除手动快照 (63)5.2.5 恢复集群 (64)5.3 数据库监控管理接口 (67)5.3.1 查询DWS集群状态 (67)5.3.2 查询DWS集群中数据库使用情况 (72)5.3.3 查询DWS集群各节点磁盘IO使用情况 (74)5.3.4 查询DWS集群各节点磁盘IO使用情况(聚合类型) (77)5.3.5 查询DWS集群各节点文件系统使用情况 (81)5.3.6 查询DWS集群各节点文件系统使用情况(聚合类型) (83)5.3.7 查询DWS集群节点各网卡流量 (87)5.3.8 查询DWS集群查询执行情况 (90)5.3.9 查询DWS集群会话执行情况 (94)5.3.10 查询DWS硬件资源使用情况 (96)5.3.11 查询DWS集群硬件资源使用情况(聚合类型) (99)6 附录 (103)6.1 状态码 (103)6.2 错误码 (105)6.3 创建VPC (113)6.4 获取资源集ID (113)6.5 获取租户ID (114)6.6 获取集群ID (114)6.7 获取Endpoint (115)1使用前必读1.1 概述欢迎使用数据仓库服务GaussDB(DWS)。

DataWorks(数据工场)用户指南说明书

DataWorks(数据工场)用户指南说明书

DataWorks(数据工场)用户指南用户指南控制台阿里云数加平台管理控制台中,您可通过概览页面找到最近使用的项目,进入工作区或对其进行项目配置,也可以创建项目、一键导入CDN。

以组织管理员(主账号)身份登录DataWorks管理控制台页面。

如下图所示:注意:概览界面是根据您的使用情况和创建时间,仅显示三个项目。

一般显示您最近使用和最近的创建时间项目。

页面说明如下:项目:显示您最近打开的三个项目,您可单击对应项目后的项目配置或进入工作区对项目进行具体操作。

您也可进入项目列表下进行相关操作,详情请参见项目列表。

常用功能:您可在此创建项目。

您也可在此一键导入CDN。

注意:如果子账号登录时,没有创建相应的项目,会提示请联系管理员,开通项目权限。

子账号最多显示两个项目,您可以进入项目列表页面查看全部项目。

如果子账号是部署的权限,则不能进入工作区。

阿里云数加平台管理控制台中,您可通过项目列表页面找到该账号下所有项目,可以对项目进行修改服务、进入工作区、配置项目、删除/激活和重试等操作,也可在此创建项目和刷新列表。

操作步骤以组织管理员(主账号)身份登录 DataWorks(数据工场,原大数据开发套件)产品详情页。

单击管理控制台,进入控制台概览页面。

导航至项目列表页面,该页面将显示此账号下的全部项目。

如下图所示:功能说明项目状态:项目一般分为正常、初始化中、初始化失败、删除中、删除五种状态。

创建项目开始会进入初始化中,后一般会显示两种结果初始化失败或正常。

项目创建成功后,您可以执行禁用和删除操作。

项目禁用后,您也可以激活和删除项目,激活后项目正常。

开通服务:您的鼠标移到服务上,会将您开通的服务全部展现出来,一般正常服务的图标会显示蓝色、欠费服务图标显示为红色并有相应的欠费标志、欠费已删除的服务是显示为灰色,一般服务欠费7天之后会自动删除。

项目配置您可通过配置项目操作,对当前项目一些基本属性和高级属性进行设置,主要对空间、调度等进行管理和配置。

  1. 1、下载文档前请自行甄别文档内容的完整性,平台不提供额外的编辑、内容补充、找答案等附加服务。
  2. 2、"仅部分预览"的文档,不可在线预览部分如存在完整性等问题,可反馈申请退款(可完整预览的文档不适用该条件!)。
  3. 3、如文档侵犯您的权益,请联系客服反馈,我们会尽快为您处理(人工客服工作时间:9:00-18:30)。

数据建模-HDS建模
HDS建模没有特别复杂的工作要做,数据模型基 本与源系统数据结构一致,唯一的工作就是消除数 据来源的异构性,如果数据来源是非关系型数据库 表结构的话(如EXCEL格式数据),那么需要在 HDS中针对来源进行建模。是否建立HDS,根据 与客户方商议的结果而定
数据建模-ODS建模
源数据分析
1. 识别及审核数据范围,来源及所有者,获取业务系 统物理表清单 ; 2. 建立数据仓库与业务系统的数据源通道 ; 3. 源数据整理:
表信息整理:类型、数据增长方式、历史数据修改方 式、有效开始时间、总记录数、月平均增长记录数; 字段信息整理:业务含义、数据类型、长度、精度、 是否主键、是否为空、业务规则;
数据建模-DDS建模
1. 2. 3. 根据《需求分析文档》识别主题域,建立主题分类,并定义 具体的主题单元; 识别每个主题单元的度量和维度,可根据业务性质,适当的 合并一些维度; 对所有度量进行详细定义,内容包括名称、含义、计算公式 、汇总公式、业务规则、单位等等; 对所有维度进行详细定义,定义其名称、含义、业务规则等 信息,并定义维度之间的层次关系; 识别并定义维度的属性 定义主题单元的维度表和事实表的物理模型; 表与字段的标准化处理,其中,基本字段沿用ODS的定义, 衍生字段(即不存在于ODS的字段)则按照命名规范进行定 义; 对DDS的表与字段的名称及含义进行名称唯一性检查; 定义DDS数据字典及表的创建脚本(DDL); 定义ODS与DDS的数据映射关系; 根据DDS的创建脚本在数据库中建表。 对DDS的索引进行规划; 对DDS的数据存储进行优化。
4.
5. 6. 7. 8. 9. 10. 11. 12. 13.
ETL
1. 2. 确定数据采集的方案; 定义ETL调度的策略,调度的策略应综合考虑以下几方面:
1) 2) 3) 4) 执行效率和可维护性之间取得平衡; ODS内部表之间的父子关系; DDS内部表之间的父子关系; ODS与DDS之间表的映射关系;
应用开发组职责和角色
小组 职责描述 相关角色 应用开发组 负责建立前端应用架构; 负责建立安全访问机制,与客户共同确定各类型用户访 问的具体权限要求; 建立统一的用户界面标准和风格; 负责报表设计与开发; 负责自定义查询的设计与开发; 负责OLAP的设计与开发; 负责特定应用的设计与开发; 应用设计开发人员 BI设计开发人员 统计分析人员(可选 )、数据挖掘人员( 可选)
1)


2)
各阶段任务定义和进度安排 项目阶段成果的评审
组长日常工作职责
1. 2.
3.
4. 5. 6.
协助项目经理制定阶段性工作计划; 根据阶段性工作计划,分解并制定本组的工作周 计划,将计划中涉及的任务分配给小组各成员; 根据周计划跟踪小组的工作进展,检查组员的工 作成果,并确保相关文档的齐全; 每周向项目经理提交小组工作报告,汇报小组的 工作情况及遇到的问题; 协助项目经理对组员进行绩效评估; 由各组组长协调小组之间的日常工作,必要时由 项目经理进行协调;
需求定义
1. 分配需求调研任务; 2. 确定访谈的各类信息; 3. 了解目标部门的业务活动、业务系统、日常报表; 4. 制定访谈计划,必要时制定调查问卷 ; 5. 对目标部门进行访谈 (技术部门和业务部门); 6. 整理访谈结果,记录问题,寻求客户方解答; 7. 需求分析(业务、技术、数据三方面); 8. 编写需求分析文档; 9. 内部评审需求分析文档,提交客户方确认; 10. 需求管理
定义实施计划
任务成果评审
成果提交
客户验收
任务成果提交
项目实施总体流程
项目准备
1. 人员培训
数据仓库培训 技术专项培训 项目管理培训
2. 工作环境准备
工作设备 项目制度与规范 文档目录结构定义
பைடு நூலகம்3. 了解客户背景,尽可能熟悉主要的业务情况
项目规划
1. 项目定义


项目的远期目标; 根据远期目标,将项目划分为几个阶段,确定各阶段的目标、范 围、时间、资源、实施策略等等; 重点讨论第一阶段实施的具体范围、内容、方法、进度安排等等
分析《源数据数据字典》中各表各字段的业务含义,并理解 表之间的业务关系; 2. 建立ODS的概念模型,包括主要实体的定义及实体间的关系 ,概念模型可忽略实体属性的定义; 3. 建立ODS的逻辑模型,包括所有实体的定义,实体间的依赖 关系,实体的主外键定义,数据约束(Constraints),实体 属性的详细定义; 4. 建立ODS的物理模型,包括索引,数据分区,数据存储位臵 等等; 5. 对表与字段进行标准化处理; 6. 对ODS的表与字段的名称及含义进行名称唯一性检查; 7. 生成ODS数据字典及表的创建脚本(DDL); 8. 定义源数据与ODS的数据映射关系; 9. 根据ODS创建脚本在数据库中建表; 10. 对ODS的索引进行规划; 11. 对ODS的数据存储进行优化。 1.
数据建模组职责和角色
小组 职责描述 相关角色 数据建模组 建立数据仓库数据标准化体系,确保各方人员对数据的 一致性认识和理解; 掌握客户对数据来源、存储和使用等方面的需求; 对业务源数据进行分析,收集和整理源数据的数据字典 ,评估源数据的数据质量; 根据企业业务逻辑,建立ODS 和DDS 的逻辑模型和物理模 型; 建立数据加载源数据与目标数据的映射关系; 协助数据库管理员(属于系统管理组)对数据资源(含 业务数据源和数据仓库数据)进行管理,并从逻辑层面上规 划数据的存储和备份; 配合元数据管理员维护和管理与数据模型有关的元数据 ; 制定并执行有效的措施,保障数据仓库中数据的一致性 、数据同步和数据的质量。 数据建模人员
系统管理组组职责和角色
小组 职责描述 相关角色 系统管理组 负责管理整个项目组的工作环境的软硬件安装及配置,保 证项目组内网络通畅,负责局域网的管理,管理组内成员使 用的IP,机器名等 负责规划项目中的基础系统架构,包括开发环境、测试环 境和生产环境的系统配置和网络配置; 负责关系型数据库的建库、建表、建索引等工作,维护各 类数据字典; 对数据资源(含业务数据源和数据仓库数据)进行管理, 并规划数据及元数据的存储、备份和恢复,确保数据库的安 全管理; 调整和监控与数据仓库运行与开发相关的性能和可用性 监控数据容量变化 系统管理员 数据库管理员
项目控制
1.
1) 2) 3)
计划
总体计划 阶段计划 周计划
2.
1)
2) 3) 4)
执行
制定一些步骤清晰、可重复性强的开发规范 加强组员的培训工作 建立合理快速的问题及变更处理渠道 实现信息在项目组中的充分共享
3.
4. 5. 6.
监督 评审 问题管理 变更管理
项目组工作流程示意图
客户 项目管理组(及技术负责人) 各工作小组 组员 需求登记 定义详细计划(周计划) 任务分解 任务分配 定义验收标准 组内评审 成果自测 任务实施 提出需求
4. 数据质量评估,提交质量问题,由客户方确定处理 办法 ; 5. 与客户方确定未来数据变更的方式、处理办法及处 理流程 ;
数据建模-数据标准化
1. 统一的命名规范 ; 2. 统一的属性域(domain)、数据类型、计量单位 等等 ; 3. 统一的代码体系 : 4. 统一的业务处理规则; 5. 统一的信息展示,如报表、自定义查询、企业关键 性指标等等; 6. 统一的数据字典,各种信息含义的标准化; 7. 定义标准的源数据到数据仓库数据的变换规则和转 换规则 ;
数据仓库项目实施
内容提要

项目管理



实施流程

项目管理特征 组织结构、角色与职责 项目控制



项目准备 项目规划 需求定义 技术构架 源数据分析 数据建模
ETL开发 应用开发 测试 系统上线 验收
项目管理特征
1.
客户陆续提出需求
1) 2)
数据需求 应用需求 严格控制成果提交的过程 加强评审的行为和记录 事件触发型的维护 周期性常规维护:加载检查、数据核对、元数据录入等
2.
项目成果陆续提交
1)
2)
3.
项目实施过程中的持续维护
1) 2)
组织结构
项目管理委员会
客户方项目组 项目管理组
系统架构组
需求分析组
数据建模组
ETL组
应用开发组
系统管理组
组织结构关系
1. 2. 3.

项目总监负责制 划分为7个小组,项目经理和技术负责人共同负责 项目经理和技术负责人的分工与协作
项目经理侧重:项目管理、资源协调、任务分配、工作监督、 项目进展状态汇报 技术负责人侧重:技术规划、系统构架、实施路线定义、重 要问题解决 共同处理:
客户方的组织机构,各机构的主要职能; 主要用户分类,各类用户使用数据仓库的主要方式; 企业主要业务情况; 现有IT环境; 现有业务系统情况; 现有数据分布情况,数据主要流程; 数据仓库软硬件选择; 本公司项目组与客户方项目组的工作模式;
2.
需讨论的内容

项目规划
3. 4. 5. 6. 7. 确定客户方相关人员的联系方式 定义项目的组织结构,各角色及职责 制定项目总体计划书 制定项目总体实施方案 对项目总体计划书和总体实施方案进行内部评审, 并提交客户方确认
3.
开发ODS和DDS数据的ETL程序
1) 根据《数据模型及数据映射文档》开发每张表的ETL程序,包括 初始加载(即历史数据的完全加载)程序,增量加载程序,修补 加载程序(也称纠错加载); 2) 开发数据加载后的检查程序,检查的内容包括:检查加载的记录 数,检查目标表的参照完整性,检查目标表业务规则的正确性等 等; 3) 定义加载程序的调度顺序及调度参数。
相关文档
最新文档