建设数据仓库7个步骤
数据仓库的建立与管理

数据仓库的建立与管理随着数据规模的不断增长以及业务需求的不断变化,越来越多的企业开始重视数据仓库的建设和管理。
数据仓库是指一个集成、主题化、时间基础的数据集合,用于支持企业的决策分析。
在本文中,我们将探讨数据仓库的建立与管理的重要性、方法和技巧。
一、数据仓库的建立与管理的重要性数据仓库的建立和管理对企业的发展和运营具有重要的意义。
首先,数据仓库可以提供更加准确和可靠的数据。
数据仓库将企业内部各部门的数据进行整合和加工,消除了数据源的不一致性和重复性,提高了数据的准确性和可靠性。
其次,数据仓库可以提供更加灵活和全面的数据查询和分析功能。
作为企业决策支持的核心系统,数据仓库可以灵活地支持各种查询和分析需求,提供全面的数据视角和多维度的数据分析结果。
最后,数据仓库可以帮助企业提高决策的效率和质量。
通过数据仓库,企业可以从海量的数据中快速分析出关键的信息和趋势,为企业的决策提供有力的支持。
二、数据仓库的建立方法数据仓库的建立包括数据建模、数据抽取、数据清洗、数据加工、数据存储和数据查询等多个环节。
下面,我们将分别介绍这些环节的具体方法和技巧。
1. 数据建模:数据建模是数据仓库建立的第一步。
数据建模包括概念模型、逻辑模型和物理模型。
概念模型是对业务过程的描述,逻辑模型是将概念模型转换成数据表的结构,物理模型是将逻辑模型映射为数据库实现。
数据建模是数据仓库建立的基础,需要仔细推敲业务需求,保证模型的规范和准确。
2. 数据抽取:数据抽取是将不同数据源的数据引入数据仓库的过程。
数据抽取需要考虑数据源的类型、格式和数据量等多个因素。
数据抽取的技巧包括增量抽取、并行抽取、数据加速等方法。
3. 数据清洗:数据清洗是将原始数据转换为可以使用的数据的过程。
数据清洗需要对数据进行格式转换、数据清除、数据校验等多个步骤。
数据清洗的技巧包括数据去重、数据标准化、数据填充等方法。
4. 数据加工:数据加工是将清洗后的数据转换为数据仓库中的格式。
数据仓库系统建设方法

五 、 计效 果 设
同按键控制改变显示时间以及年月 日的分别显示。在本次设
中, 这两个按键分别是 P .和 P . 其中 P .有两种功能 : 3 2 3。 3 3 2
显示时间的时候, 按下则是延时显示 日 在校时状态下, 期: 可 用来增加时间数。 P .只有一个功能, 而 3 3 即校时功能, 不过每
六、 设计技术一 京 : E 机械工业出版社.
责任编辑 : 丹 李:
科
园
据基础之上.因此建立数据仓库系统对企业的信息化水平要求 术系统,数据仓库系统建设的项 目团队成员必须既懂技术又精 较高。 目前 , 数据仓库系统在我国的应用尚处于初级阶段 , 通业务。 国内 只有这样的团队才有能力既与技术开发人员、 软硬件供
建立数据仓库系统的皆为大型的、 具有高度信息化水平的企业。 应商洽谈技术 , 又能和业务人员进行充分沟通, 把握和引导业务
数据仓库系统与现有的基于数据库的联机事物系统 (L P系 人员的需求。只有这样的团队才能在业务部门和开发厂商之间 OT 统)有着本质区别,其建设方法与技术要求都具有很大的复杂 建立起沟通的桥梁 , 同时在与技术开发人员谈应用需求时, 让技
一
次 。 的校时不同, 对应 但初始显示时间设置为 1 年 1 月 1 0
日
参考 文献 :
【 李群芳. 1 】 单片机微型计算机与接1技术 京: 3 E 电子工业出
社.
[ 陈光东. 2 ] 单片微型计算机原理与接V技术. l 武汉: 华中理工
图 4 运 行 结 果
学出版社.
不明确, 即数据仓库系统的业务需求特征具有明显的不确定性。 这种不确定性对系统的建设造成极大风险, , 因此 在数据仓库系
数据仓库建设方案

PK 案事件ID
PK 关联ID
日期 ID (案件 发生日 期) 时点 ID (案件 发生时 点) 人员 ID (报案 人) 人员 ID (嫌疑 人) 人员ID(证人) 案事 件ID 地址 ID (案件 发生地 ) 组织 ID (管辖 公安机 关) 物品 ID (作案 物品)
通过关联表,将案件实体相关的人员、案件性质、
靠的存储计算环境等等。
数据仓库层 主要提供数据模型和数据工具两个内容。 数据模型解决数据可
用的问题, 数据工具解决数据易用的问题。
数据分析层 主要解决各种角色如何使用数据仓库的问题。
5
数据仓库层说明-数据模型
近源数据层
保存和源表相同的字段结构 保存历史变化数据 区分正常和异常数据
数据宽表
PK 物品ID
类型 品牌 颜色 型号 制造 国名称 长度 长度 范围 宽度 宽度 范围 高度 高度 范围 重量 重量 范围
作案物品
PK 物品ID 物品 特征
电话号码
PK 物品ID
归属 地 串号 MAC
QQ号码
PK 物品ID
号码 长度 注册 日期
13
主题-地址
地址
PK 地址ID
省 市 县
道路
PK 地址ID
交通事故
PK 案事件ID
事故 类型 事故 形态 事故 地点
交通违法
PK 案事件ID 违法 地点 违法 类型
11
主题-组织
组织
PK 组织ID
组织 代码 组织 名称 组织 类型
网吧
PK 组织ID
管辖 部门名 称 座位 数量 网吧 规模 注册 资本范 围
旅馆
PK 组织ID
管辖 部门名 称 房间 数量 房间 规模 床位 数量 床位 规模 星级 注册 资本范 围
数据仓库分层建设的基本思路

数据仓库分层建设的基本思路
数据仓库分层建设的基本思路如下:
1. 数据源层:这是数据仓库的基础,包含了各种原始数据,来自不同的业务系统、数据库、文件等。
2. 数据存储层:数据经过抽取、转换和加载(ETL)过程后,被存储在这一层。
它可以是关系型数据库、列式存储、NoSQL 数据库或数据湖泊等。
3. 数据处理层:在这一层,对数据进行清洗、转换、脱敏、标准化等处理,以提高数据质量和可用性。
4. 数据集市层:根据不同的业务主题或部门需求,将处理后的数据组织成数据集市。
数据集市通常是针对特定主题或业务领域的数据集合。
5. 数据应用层:这是数据仓库的顶层,为用户提供各种数据分析和应用工具,如报表、仪表盘、数据挖掘、机器学习等。
6. 元数据管理层:元数据用于描述数据仓库中的数据、处理过程和数据模型等信息。
元数据管理层负责管理和维护元数据,确保数据的一致性和可追溯性。
7. 数据质量管理层:数据质量是数据仓库的关键要素之一。
这一层负责监控和管理数据质量,包括数据清洗、数据验证、数据监控等。
通过分层建设,数据仓库可以更好地组织和管理数据,提高数据的质量和可用性,满足不同用户的需求。
同时,分层结构也有利于数据仓库的扩展、维护和性能优化。
在实际建设过程中,可以根据具体业务需求和数据特点,对分层结构进行适当调整和优化。
《数据仓库建设指南》

《数据仓库建设指南》数据仓库建设指南随着企业信息化的趋势不断发展,数据化已经成为企业成长的必经之路。
数据成为了企业在竞争中的筹码,企业数据分析的能力也成为了企业成功的关键。
更多的企业意识到,要想在市场上占有一席之地,精细管理企业,就必须建立一个合理的数据仓库。
那么,数据仓库建设需要考虑哪些要素和步骤呢?本文将一一为您解析。
一、数据仓库简介数据仓库是一种长期积淀和管理数据的系统,它可以帮助企业集中存储和管理来自各种渠道的数据,为企业提供分析支持。
它可以将内部和外部的数据整合、加工之后建立一个统一的数据层用于分析,这样企业就可以在分析过程中减少对数据来源的依赖,加快数据分析过程。
二、数据仓库建设步骤1.规划和准备数据仓库建设是需要投入大量的时间和精力的,因此,首先需要确定需求,明确数据仓库的建设目标,并确保团队中所有成员都清楚地理解目标和业务需求。
同时,团队还需要了解企业的业务流程。
在规划和准备阶段,团队需要对企业业务进行分析和评估,确定数据仓库中需要的信息和数据以及其来源;需要制定数据建设计划,分步骤地完成数据仓库的各个环境的建设和测试,以确保其稳定性和数据可靠性。
2.设计在设计阶段,需要确定数据仓库的基本结构和架构等。
从不同的维度来考虑数据仓库的数据设计,面向业务时的数据设计包括事实表和维度表的设计,以及定义关系型数据模式。
面向数据仓库的设计要考虑数据的存储形式和数据的管理:如何利用索引快速查找数据,如何存储不同的数据格式或类型等。
3.实施实施是数据仓库建设中最为繁琐的环节,这个过程需要投入大量的人力和物力资源。
需要与各种数据源进行连接和整合,然后将这些数据存储到数据仓库中,来适应变化的数据分析需求。
在实施过程中,需要考虑数据清洗、转换和加工等过程。
数据清洗的目的是过滤掉不必要的数据,转换是将数据从一种格式转换为另一种;加工就是从原数据中提取关键信息。
4.测试和验证测试与验证是数据仓库建设过程中很重要的步骤,通过测试可以验证数据仓库所设计的模型和工具是否能够适应实际的业务需求,同时也可以提供一些有益的改进建议。
数据仓库概要设计

数据仓库概要设计数据仓库(Data Warehouse)是指把企业分散在不同数据库中的数据统一整合到一个数据库中进行存储和管理,并对这些数据进行分析和管理的一种数据库应用系统。
数据仓库的建设是企业信息化建设的重要组成部分,是企业对内部外部信息资源进行整合、挖掘和利用最有效的平台之一。
因此,进行数据仓库的概要设计是非常重要的一步。
1.数据仓库概述数据仓库,是一个能够存储大量历史数据的集合体,使得企业能够快速地进行数据分析、查询和决策。
数据仓库通常包括存储、管理和查询技术。
数据仓库的设计是基于自底向上的过程,通过收集各种应用中的数据来建立。
数据仓库的需求分析是设计的第一个步骤,通过需求分析可以把握到数据的来源、数据的主要特征、数据的处理方法、数据的处理效果等。
2.数据仓库的工作过程a.数据的收集数据收集的目的是获取各个分散在企业内部外部的数据源,并把这些数据源整合成数据集。
数据收集包括了跟踪源数据、数据的标准化、数据的清洗、数据的转换等。
b.数据的整合数据整合意味着将不同的数据源集成到一起,通常是通过ETL工具来实现。
ETL(Extract, Transform, Load)工具的主要功能是提取、转换和加载。
c.数据的存储数据仓库的存储方式一般有两种:关系型数据库和非关系型数据库。
d.数据的查询与分析数据仓库的用户可以通过BI工具(Business Intelligence)来进行数据的查询、分析和报表生成。
3.数据仓库的概要设计步骤a.数据仓库设计的第一步是需求分析,需求分析的目的是明确数据仓库的目标、范围和需求。
需求分析应该包括数据仓库的使用者、数据仓库所需数据的类型、数据的来源、数据的质量要求等。
b.数据仓库的概念设计是在需求分析的基础上,开始进行数据仓库的抽象模型的设计。
概念设计包括了数据仓库的模型设计、元数据的设计等。
c.数据仓库的逻辑设计是在概念设计的基础上,开始进行数据仓库的逻辑结构的设计。
数据仓库建设方案(DOC32页)

第1章数据仓库建设方案(DOC32页)1.1 数据仓库总体架构专家系统接收增购项目车辆TCMS或者其他子系统通过车地通信传输的实时或者离线数据,通过一系列综合诊断分析,以各类报表图形或者信息推送的形式向用户展示分析结果。
针对诊断出的车辆故障将给出专家建议处理措施,为车辆的故障根因修复提供必要的支持。
根据专家系统数据仓库建设目标,结合系统数据业务规范,包含数据采集频率、数据采集量等有关因素,设计专家系统数据仓库架构如下:数据仓库架构从层次结构上分为数据采集、数据存、数据分析、数据服务等几个方面的内容:数据采集:负责从各业务自系统中汇合信息数据,系统支撑Kafka、Storm、Flume 及传统的ETL采集工具。
数据存储:本系统提供Hdfs、Hbase及RDBMS相结合的存储模式,支持海量数据的分布式存储。
数据分析:数据仓库体系支持传统的OLAP分析及基于Spark常规机器学习算法。
数据服务总线:数据系统提供数据服务总线服务,实现对数据资源的统一管理与调度,并对外提供数据服务。
1.2 数据采集专家系统数据仓库数据采集包含两个部分内容:外部数据汇合、内部各层数据的提取与加载。
外部数据汇合是指从TCMS、车载子系统等外部信息系统汇合数据到专家数据仓库的操作型存储层(ODS);内部各层数据的提取与加载是指数据仓库各存储层间的数据提取、转换与加载。
1.2.1外部数据汇合专家数据仓库数据源包含列车监控与检测系统(TCMS)、车载子系统等有关子系统,数据采集的内容分为实时数据采集与定时数据采集两大类,实时数据采集要紧关于各项检测指标数据;非实时采集包含日检修数据等。
根据项目信息汇合要求,列车指标信息采集具有采集数据量大,采集频率高的特点,考虑到系统后期的扩展,因此在数据数据采集方面,要求采集体系支持高吞吐量、高频率、海量数据采集,同时系统应该灵活可配置,可根据业务的需要进行灵活配置横向扩展。
本方案在数据采集架构使用Flume+Kafka+Storm的组合架构,使用Flume与ETL 工具作为Kafka的Producer,使用Storm作为Kafka的Consumer,Storm可实现对海量数据的实时处理,及时对问题指标进行预警。
数仓建设的流程

数仓建设的流程数仓建设的流程是一个比较复杂的过程,涉及到很多方面的工作。
下面将从需求分析、数据采集、数据清洗、数据集成、数据存储、数据分析和数据展示七个方面,简要介绍数仓建设的流程。
一、需求分析首先,需要评估企业的数据分析需求,明确数据分析目的,了解业务场景,分析分析师对数据的需求。
这可以通过对数据价值的分析和业务流程的把握,结合业务发展趋势和业务需求得出。
二、数据采集数据采集是数仓建设的重要一环。
数据采集的方式可以是数据仓库内部获取,也可以是外部系统、传感器轮询等方式获取。
数据采集也需要考虑数据来源、数据质量、数据频率等重要属性。
三、数据清洗数据清洗是数据建设的关键一步。
在数据采集后,数据中可能存在孤无值等错误数据,需要数据清洗来剔除这些异常数据。
数据清洗的过程就是进行数据过滤、去标识化、去空值处理等操作,使得数据在数仓存储后依然具有良好的可读性和可用性。
数据集成是几十个数据来源的数据聚合在一起的过程。
这个阶段需要考虑数据是否可以合并,数据质量的评估等,同时可以通过ETL(抽取-转化-装载)和ELT(抽取-装载-转化)工具来实现数据集成。
五、数据存储在以上步骤后,需要将数据存储在统一的数据存储区域,以实现高效安全的数据访问和查询。
数据存储一般分为两种,一种是关系数据库,如MySQL、Oracle等,另一种是分布式存储系统,如Hadoop、Spark、Hbase等。
六、数据分析在数据存储后,数据分析是数据建设的核心部分。
这个阶段需要利用业务场景来分析数据,以实现对业务的挖掘。
分析是数据分析过程中至为重要的一部分,分析可以基于KPI、RFM分析、画像透视等多个维度。
七、数据展示最后,将分析结果进行展示。
通常,数据可视化和可交互性的方式可以提供对业务数据进行反馈和付费的更高质量和更易懂的解释。
数据展示可以以报表的形式,也可以经过数据可视化展示,以更直观、可视化、可交互的形式赋予数据新的价值。
以上七个步骤构成了数仓建设的完整流程。
- 1、下载文档前请自行甄别文档内容的完整性,平台不提供额外的编辑、内容补充、找答案等附加服务。
- 2、"仅部分预览"的文档,不可在线预览部分如存在完整性等问题,可反馈申请退款(可完整预览的文档不适用该条件!)。
- 3、如文档侵犯您的权益,请联系客服反馈,我们会尽快为您处理(人工客服工作时间:9:00-18:30)。
成功实施数据仓库项目的七个步骤建立一个数据仓库并不是一个简单的任务,不应该由一个人单独完成。
由于数据仓库最佳结合了业务惯例和信息系统技术,因此,一个成功的数据仓库实施需要这两方面的不断协调,以均衡其所有的需要,要求,任务和成果。
我很乐意与大家分享我在规划和管理任何数据库项目时采用的方法,这些数据库包括交易数据库,数据仓库,和混合型数据库。
由于我生活在关系数据库和数据仓库以及用以支撑它们的数据提取,转换和加载(ETL )过程中,所以我会集中在这些领域讨论我的方法。
然而,您可以将这些方法扩展到整个栈--OLAP立方体和如报告,特征分析(ad-hoc analysis),记分卡和仪表盘展示之类的信息传递应用。
我不是吃撑了要告诉一个真正的项目经理( PM )如何做他或她的工作,相反,我写的这些是为那些数据库管理员和开发者,他们没有好运气能与有经验的项目经理一起工作;同样也适合这样的IT专业人员,他们被突然要求:“建立一个数据仓库“,并且需要自己扮演项目经理的角色。
我的讨论不会是完整的,但我希望这会给您足够的信息来让您的项目球滚起来。
如图1所示,数据仓库项目有3个轨道(tracks):数据轨道,技术轨道和应用层轨道。
当您在整理任何数据库项目计划时,我建议您以这三个轨道为模板来管理和同步您的活动。
当您向技术决策者( TDMs ) ,商业决策者( BDMs ) ,和所有其他该数据仓库项目参与者讲解您的计划时,您也可以把图1当作一个高级的概要图来使用。
使用一种生命周期管理方法我鼓励您利用您的组织可以提供的资源,比如设计,开发和部署系统和软件的技术和方法。
如果贵公司对于这些工作没有采用任何正式的方法,继续前进吧,您可采用我为我自己的数据库项目开发的7D数据库生命周期管理方法(Discover, Design, Develop, Deploy, Day to Day , Defend, Decommission), 昵称“7D 法”。
我的“7D”数据库生命周期管理方法讲的是数据库的生命周期管理,而不是相关的软件(应用程序)和硬件的生命周期。
图1包括了软硬件轨道,但我不会进一步阐述它们的管理。
为了成功实施数据库生命周期的方法,有必要调整和同步数据库生命周期的里程碑、硬件和应用软件。
数据仓库的构建从来不会真正结束。
不像传统的数据库在部署后的一段时间里保持相对的不变,数据仓库始终处于不断的变化之中,以应对它所服务的业务环境的变化。
当今的业务环境更加复杂,并涉及比以往任何时候都要快的变化。
处理这种几乎是不断的变化是企业的最大挑战之一。
这就是为什么数据仓库团队中的每一个人,包括技术决策者( TDMs ) 和业务决策者( BDMs ),都必须处在同一阵线上,使用同一种生命周期管理方法,以使他们的认识完全得到统一。
只有这样,才有可能对已实施的数据仓库、企业的构想和宗旨进行调整。
在图1中,我已经展示了我的“7D法”的7个步骤,本文将带领您完成每一步。
第一步:发掘我保证任何规模和领域的数据库项目离开了开始的发掘阶段都将失败。
这个阶段也被称为“需求分析和定义”,发掘阶段需要以业务为中心,特别是数据仓库项目,因为数据仓库的输出需要支持组织的目标。
发掘这一步实质上就是调查,您应该不断地问六个基本问题(什么,如何,在何处,谁,何时和为什么),记录好答案,并把这些答案包含在您起草的解决方案中。
在“7步”的前3步(发掘,设计,开发)中,必须对业务主和技术专家进行集中的协调,项目经理(PM)应该促成这一进程。
项目经理作为一个独立的专业人员,主要关心项目的及时上线、预算在控制范围内,有预期的运行效果;项目经理在得到各方的反馈意见后,负责制定严格的路线,里程碑和成功指标。
如果项目里没有PM,这些将成为您的工作。
在发掘阶段,PM必须收集图1所示的三个轨道的信息,即技术轨道,数据轨道和应用层轨道。
在其他任务中,PM必须确定利益相关者和用户,必须理解他们各自的角色和相应的数据/视图需求。
PM必须知道本组织的绩效管理策略:目标是什么,倡议什么以及跟踪业务和项目健康状况的支撑度量标准/关键绩效指标。
如果上述策略的任何部分遗漏了,该项目很有可能失去最终用户的评分,这可能会导致低的采用通过率和未来资金的丢失。
换句话说,该项目将失败,而不管项目任务执行得有多么完美。
第二步:设计设计这一步的主要活动是定义描述数据仓库的语义和概要模型。
这些模型必须解决企业用户的管理信息系统(MISs)和商务智能( BI )分析需要。
对于数据仓库项目,您可以为关系型数据仓库创建概念和逻辑数据模型,为表示多维立方体创建三维模型。
您可以使用决策矩阵,以帮助确定每个三维模型需要包含些什么;沿Y轴方向列出被数据仓库支持的关键业务流程,沿X轴方向列出建议的维。
这个矩阵将作为当前开发、未来扩展和跨组织集成的向导。
在设计阶段建立的模型必须反映第一阶段您收集的六个问题的答案。
标识数据仓库相关的所有数据源(内部和外部的),业务/交易数据库和展平文件是个好注意。
您也应该明确说明哪些数据将被导入数据仓库,哪些只会简单地作为外部数据源引用。
通常,技术轨道有自己的PM,但您仍然可能需要填补那个角色。
数据仓库可以增长为非常大的内容和十分广泛的范围,因此有必要在数据仓库部署之前恰当地规划其大小。
首先在纸上估计其大小,这样您就可以大致把握当数据仓库投入产品应用时所需的处理器速度和磁盘容量。
您需要估算一天的业务终端用户数量以及他们使用的应用(例如,对立方体做一个特别分析,或者从关系数据仓库中取出缓存的报告),也要估算数据仓库一年中将会存储的数据量。
只是因为数据仓库是一个进展中的工作,您需要两年和五年预测,同样,其处理能力和数据存储需求将随着时间的推移不断增加。
数据仓库设施包括各种硬件,通信和软件解决方案,所有这一切都必须协同工作,为终端用户提供一个工作的数据仓库。
您需要足够的时间来计划和测试您将如何整合所有这些不同的组成部分。
跟技术轨道一样,应用轨道可能有自己的PM或由一个主导的软件开发人员充当这一角色。
如果你是幸运的,你的工作将是与此人协调以同步任务。
如果不是,那你的工作描述会扩大。
应用层包括获取从数据仓库收集到的输出,通常是MIS报告和BI分析结果。
MIS报告常是屏幕显示,仪表板,和打印副本的形式,它们帮助企业管理者做出运行日常业务所需的战术决策。
这些输出相对比较容易界定、编码和被一系列标准化的进程抓取,这些进程运行在可预定环境中。
应用层的BI部分是一组查询和响应,以帮助执行管理作出战略决策,推动商务运营。
BI解决方案往往是非结构化的,很难预定义,因为他们倾向于用一种特别的方式探索数据。
记分牌,图形和数据透视表是BI的应用例子,它们能刺激更多的数据探索,而这可能导致公司内部战略方向的改变。
在这个阶段许多方法要求原型或试点项目。
“7D法”不需要。
至多,作为应用层的设计活动中的一部分,你可以做一个“点击模式”--一种输入/输出屏幕的快速呈现模型,不涉及或只有极少的代码但却能给利益攸关方可视化的概念,同时又不会吃掉宝贵的时间和资源。
如果试点或原型是必要的,那么选择其中的一个切片(slice)作为试点,完成“7D法”的每一步。
“7D法”不区分试点,原型和产品系统--它们都被视为项目。
如果按照“7D法”设计了一个原型,并且最终进入了产品(大多数原型都是这样),然后您必须比第一个切片更仔细地选择第二个切片。
如果这些切片不能成功地集成在一起,如果他们不支持您在发掘步骤发现的企业宗旨和意图,那么您在创建“烟囱”,这是信息的群岛,整合彼此只会遇到困难,在某些情况下,甚至根本不可能.第三步:开发数据轨道开发步骤主要有两个部分:第一个涉及将数据模型映射到其对应的物理设计(实质是关系数据仓库和OLAP立方体的蓝图),规划数据库的大小,必要时对表进行分块,为数据仓库对象设定命名约定以便业务用户和技术用户都能适应,并制定索引和识别索引候选名单的策略。
第二部分涉及数据从外部数据源到数据仓库的提取转换加载(ETL)。
包含在第二部分但不局限于这一部分的是数据转换服务( DTS )/SQL Server整合服务( SSIS)补丁的开发与测试,导入/导出和T-SQL脚本开发和测试,以及对外部数据源组件的数据整合测试,这些数据不会导入到数据仓库。
技术轨道的开发步骤包括审查,测试和选择产品,并提供其作品的体系结构设计。
为了组成通信链路的各个层--物理层、数据链路层、网络层以及传输层,会话和表现层,这样做是必需的。
虽然许多产品把多层无缝打包到一个解决方案,但有必要认识到这些层中的每一个在未来的负载要求和性能要求,并提前为这些需求作好准备。
为了从新的数据仓库交付数据,您应该选定数据仓库的服务器和存储解决方案,以及新的,最终用户面临的硬件。
这样做是为了产品数据仓库和分期数据库--DTS/SSIS软件包和T-SQL脚本在这里执行,从外部数据源导入数据,以及把可操作和精心料理的数据导入到关系数据仓库和OLAP立方体中。
根据发掘阶段收集到的需求,您的数据仓库环境可能还要支持数据集市,快照,和报告数据库,因此,也要准备为这些方面考虑环境。
应用轨道开发步骤听起来很简单:只要开发终端用户应用程序。
然而,这可能是整个过程中最复杂和费时的任务,并且可能是代价最高的--如果没有认真制定和考虑成功的度量标准。
正是在这一阶段,范围蠕变(不断增加特性和功能,而不考虑对其他两个轨道的设计和开发的影响)可能像鱼雷一样破坏项目。
除了开发终端用户应用程序,您也不得不制定测试这些应用程序的计划,您需要制定终端用户培训计划以便用户能学会如何使用这些应用软件。
在每一个里程碑,你必须确保获得相关各方的签字或验收。
这可能听起来很明显,但多少令人惊讶的是不知道有多少开发项目是在产品环境中阶段化和测试的!别这样做,只是不要这样做!为开发,测试,和组件划分搭建一个单独的物理环境。
对业务系统要这样做--同样,对BI/数据仓库也要这样做。
第四步:部署部署数据仓库和部署交易数据库是不一样的,通常,您以一种快速、包罗万象的风格部署一个交易数据库-周五晚上终端用户在使用旧式系统,而周一上午他们登录到新的数据库。
数据仓库通常是递增式地部署到整个企业的各类用户中。
这种递增的速度和各个组使用数据仓库的次序是包含在部署阶段中部署计划的一部分。
理想的情况下,数据仓库的部署以一种迅速级联的层次进行,首先是技术就位--服务器,存储设备,通信链接等,系统软件的安装,测试并准备投入产品。
然后是数据轨道各组件的展开--数据仓库数据库(关系型和OLAP )的建立,以及ETL进程的联机。
在最终的应用层添加之前往往会打住一下,当您通过ETL进程让数据流从外部来源进入各种不同的数据仓库数据库和立方体时,进行必要的测试和调整。