成功实施数据仓库项目的7个步骤
etl实施项目经历

etl实施项目经历ETL实施项目经历一、项目背景ETL(Extract, Transform, Load)是一种将数据从源系统提取、经过转换后加载到目标系统的过程。
在大数据时代,ETL工具的作用越发重要。
本文将介绍我在某公司参与的一次ETL实施项目经历。
二、项目需求该公司的业务数据分散在多个系统中,数据结构不一致且存在质量问题,客户需要将这些数据整合、清洗并加载到数据仓库中,以支持业务分析和决策。
具体需求包括:1. 从多个源系统中提取数据,如关系型数据库、文件系统等;2. 对数据进行清洗、转换,如格式化、去重、合并等;3. 将清洗后的数据加载到数据仓库中,以供后续分析使用。
三、项目实施过程1. 需求分析:与客户沟通,明确数据源、数据结构、数据质量要求等。
根据需求编写数据字典,定义数据清洗和转换规则。
2. 技术选型:根据客户的系统环境和需求,选择合适的ETL工具。
考虑到数据量大且复杂,我们选择了一款稳定且功能强大的商业ETL工具。
3. 数据抽取:根据数据字典,配置ETL工具连接到源系统,并编写抽取逻辑,将数据抽取到中间存储区。
4. 数据清洗:利用ETL工具的转换功能,对抽取的数据进行清洗。
例如,对日期字段进行格式化、对重复数据进行去重、对不一致的数据进行合并等。
5. 数据加载:将清洗后的数据加载到数据仓库中。
根据数据仓库的架构,设计合适的数据模型,并将数据按照模型进行加载。
6. 数据验证:对加载后的数据进行验证,确保数据的完整性和准确性。
通过查询和对比数据源与目标系统的数据,检查数据是否正确加载。
7. 数据质量监控:实施数据质量监控措施,建立数据质量报表和异常监测机制,及时发现和解决数据质量问题。
8. 项目交付:根据客户的要求,编写项目文档,包括需求文档、设计文档、操作手册等。
培训客户的技术人员,确保他们能够独立使用和维护ETL工具。
四、项目成果通过该ETL实施项目,我们成功地将客户的分散数据整合到数据仓库中,为客户提供了清洗后的高质量数据。
数据资源入表三阶七步法

数据资源入表三阶七步法
一、准备阶段
1. 需求分析:明确数据资源入表的目的和需求,包括需要入表的数据类型、数据量、数据来源等,以及入表后将如何使用这些数据。
2. 制定计划:根据需求分析结果,制定详细的数据资源入表计划,包括入表的时间、人员、资源、预算等方面的安排。
3. 组建团队:根据入表计划,组建专业的数据资源入表团队,明确团队成员的职责和工作任务。
二、实施阶段
4. 数据采集:按照需求和计划,采集需要入表的数据资源,并进行初步的清洗和整理。
5. 数据验证:对采集的数据资源进行质量检查和验证,确保数据的准确性和完整性。
6. 数据入表:将经过验证的数据资源按照预设的表格结构录入到数据库中,确保数据的规范化和标准化。
三、结束阶段
7. 总结评估:对整个数据资源入表过程进行总结和评估,总结经验和教训,为今后的数据资源管理工作提供参考。
通过以上七个步骤,可以实现高效、准确、规范的数据资源入表工作,为后续的数据分析、挖掘和应用提供坚实的数据基础。
《数据仓库建设指南》

《数据仓库建设指南》数据仓库建设指南随着企业信息化的趋势不断发展,数据化已经成为企业成长的必经之路。
数据成为了企业在竞争中的筹码,企业数据分析的能力也成为了企业成功的关键。
更多的企业意识到,要想在市场上占有一席之地,精细管理企业,就必须建立一个合理的数据仓库。
那么,数据仓库建设需要考虑哪些要素和步骤呢?本文将一一为您解析。
一、数据仓库简介数据仓库是一种长期积淀和管理数据的系统,它可以帮助企业集中存储和管理来自各种渠道的数据,为企业提供分析支持。
它可以将内部和外部的数据整合、加工之后建立一个统一的数据层用于分析,这样企业就可以在分析过程中减少对数据来源的依赖,加快数据分析过程。
二、数据仓库建设步骤1.规划和准备数据仓库建设是需要投入大量的时间和精力的,因此,首先需要确定需求,明确数据仓库的建设目标,并确保团队中所有成员都清楚地理解目标和业务需求。
同时,团队还需要了解企业的业务流程。
在规划和准备阶段,团队需要对企业业务进行分析和评估,确定数据仓库中需要的信息和数据以及其来源;需要制定数据建设计划,分步骤地完成数据仓库的各个环境的建设和测试,以确保其稳定性和数据可靠性。
2.设计在设计阶段,需要确定数据仓库的基本结构和架构等。
从不同的维度来考虑数据仓库的数据设计,面向业务时的数据设计包括事实表和维度表的设计,以及定义关系型数据模式。
面向数据仓库的设计要考虑数据的存储形式和数据的管理:如何利用索引快速查找数据,如何存储不同的数据格式或类型等。
3.实施实施是数据仓库建设中最为繁琐的环节,这个过程需要投入大量的人力和物力资源。
需要与各种数据源进行连接和整合,然后将这些数据存储到数据仓库中,来适应变化的数据分析需求。
在实施过程中,需要考虑数据清洗、转换和加工等过程。
数据清洗的目的是过滤掉不必要的数据,转换是将数据从一种格式转换为另一种;加工就是从原数据中提取关键信息。
4.测试和验证测试与验证是数据仓库建设过程中很重要的步骤,通过测试可以验证数据仓库所设计的模型和工具是否能够适应实际的业务需求,同时也可以提供一些有益的改进建议。
详解数据仓库的实施步骤

详解数据仓库的实施步骤建立数据仓库是一个解决企业数据问题应用的过程,是企业信息化发展到一定阶段必不可少的一步,也是发展数据化管理的重要基础。
数仓的知识市面上的书籍和文章不少,但是实际实施依据行业不同,企业核心诉求不同,从技术到方法论各有不同。
如何实施数仓项目,本文先以传统行业的数仓切入,从整体上讲下数据仓库的实施方法论!数据仓库的通用实施步骤一、需求分析需求分析是数据仓库项目最重要的一个环节,数仓说到底还是服务于业务,支撑于业务,如果需求分析不准确,做了没人用,上了不好用,会直接影响业务/客户的使用,最终导致项目的失败。
为了避免最坏的情况,磨刀不误砍柴工,前期一定要重视需求的调研、挖掘和分析,并采用一些严谨科学的措施和方法去做需求分析。
在实际调研过程中分享几个经验:1、尽可能与业务方/客户方一起分析需求,引导对方将项目所要实现的整体框架和业务细节部分述清楚,最好的方式就是需求人员和设计人员基于原型来讨论,从而正确理解实际的业务需求。
2、必须实事求是地将数据仓库所能实现的目标和不容易解决的问题与协商清楚。
这一个环节趟过不少坑,IT方急着上线,业务方对于项目还处于一知半解,甚至在推动的时候可能避重就轻,比如一期不满足的需求强行上,长远来看项目会产生不少推诿和扯皮,消磨的是对方的信任。
所以在需求讨论的基础上,需要理解业务工作流程,当然如果你已经具备了这个行业丰富的业务知识,那可以在需求调研的时候尽可能地让对方按照自己的思路去完成数据仓库系统的功能设计。
3、需求方群体的分类,BI项目最终的使用对象可以分为以下几类:数据查询者、报表查询者、企业决策者这三类人群的需求特点完全不一样,沟通的时候需要注意区分并深刻理解4、需求调研的再完美,也避免不了需求变更。
现实是很多情况下需求是不确定的,业务方是提不出有价值的需求的,需求今天是A 明天又变成B无法一步做到位的,这都很正常,作为项目实施者要做好心理预期。
一般情况下,业务方能够提供的都是需求的整体框架部分或者是实际需求的一部分内容,不能预见未来需要增加的需求,这也注定了数仓项目是一个不断循环、反馈,使系统不断完善增长的过程。
实施七个步骤的内容

实施七个步骤的内容引言在任何项目的实施过程中,确定并遵循正确的步骤是非常重要的。
本文将介绍一个包含七个步骤的实施流程,逐步帮助您完成项目的实施工作。
这些步骤将有助于确保项目的顺利推进,并最终达到预期的目标。
步骤一:需求分析与规划1.确定项目的目标和范围:明确项目的目标和所需的成果,并确定项目的范围和时间表。
2.收集并分析现有数据:收集相关数据和信息,对其进行分析,以便为项目的实施提供参考和依据。
3.制定项目计划:在此阶段,制定项目的详细计划,包括资源分配、时间表安排和风险管理等。
步骤二:团队组建与分工1.确定项目团队成员:根据项目需求,确定项目团队成员,并确保每个人都具备所需的技能和背景。
2.分配任务和角色:为每个团队成员分配具体任务,并明确其在项目中的角色和责任。
步骤三:系统开发与测试1.开发系统:根据项目需求和计划,开始系统的开发工作,并确保开发过程符合标准和规定。
2.进行系统测试:在开发完成后,对系统进行全面的测试,包括功能测试、性能测试和安全测试等,以确保系统的质量和稳定性。
步骤四:上线与部署1.准备上线环境:在系统开发和测试完成后,准备系统上线所需的环境和资源,并确保所有准备工作的顺利进行。
2.系统上线与部署:将开发完成的系统部署到生产环境中,并进行上线测试和系统监测,确保系统正常运行。
步骤五:培训与用户支持1.用户培训:为系统的最终用户提供培训,使他们能够熟悉系统的使用方法和功能,以便能够高效地使用系统。
2.用户支持:在系统上线后,提供持续的用户支持服务,包括解答用户问题、修复系统错误和改进系统功能等。
步骤六:监控与维护1.系统监控:对系统进行持续的监控和评估,确保系统的正常运行,并及时发现和解决潜在问题。
2.系统维护:定期进行系统维护工作,包括备份数据、更新软件和修复漏洞等,以确保系统的安全和稳定。
步骤七:评估与改进1.评估项目成果:对项目的实施结果进行评估和检查,与项目目标进行比较,并识别出项目的成功和改进之处。
数仓建设的流程

数仓建设的流程数仓建设的流程是一个比较复杂的过程,涉及到很多方面的工作。
下面将从需求分析、数据采集、数据清洗、数据集成、数据存储、数据分析和数据展示七个方面,简要介绍数仓建设的流程。
一、需求分析首先,需要评估企业的数据分析需求,明确数据分析目的,了解业务场景,分析分析师对数据的需求。
这可以通过对数据价值的分析和业务流程的把握,结合业务发展趋势和业务需求得出。
二、数据采集数据采集是数仓建设的重要一环。
数据采集的方式可以是数据仓库内部获取,也可以是外部系统、传感器轮询等方式获取。
数据采集也需要考虑数据来源、数据质量、数据频率等重要属性。
三、数据清洗数据清洗是数据建设的关键一步。
在数据采集后,数据中可能存在孤无值等错误数据,需要数据清洗来剔除这些异常数据。
数据清洗的过程就是进行数据过滤、去标识化、去空值处理等操作,使得数据在数仓存储后依然具有良好的可读性和可用性。
数据集成是几十个数据来源的数据聚合在一起的过程。
这个阶段需要考虑数据是否可以合并,数据质量的评估等,同时可以通过ETL(抽取-转化-装载)和ELT(抽取-装载-转化)工具来实现数据集成。
五、数据存储在以上步骤后,需要将数据存储在统一的数据存储区域,以实现高效安全的数据访问和查询。
数据存储一般分为两种,一种是关系数据库,如MySQL、Oracle等,另一种是分布式存储系统,如Hadoop、Spark、Hbase等。
六、数据分析在数据存储后,数据分析是数据建设的核心部分。
这个阶段需要利用业务场景来分析数据,以实现对业务的挖掘。
分析是数据分析过程中至为重要的一部分,分析可以基于KPI、RFM分析、画像透视等多个维度。
七、数据展示最后,将分析结果进行展示。
通常,数据可视化和可交互性的方式可以提供对业务数据进行反馈和付费的更高质量和更易懂的解释。
数据展示可以以报表的形式,也可以经过数据可视化展示,以更直观、可视化、可交互的形式赋予数据新的价值。
以上七个步骤构成了数仓建设的完整流程。
数仓项目流程

数仓项目流程通常包括以下几个关键步骤:数据采集、数据清洗、数据存储、数据建模、数据服务、数据应用和数据治理。
下面将对这些步骤进行详细的阐述。
1. 数据采集:这一步主要是收集各类业务系统中的数据,通常是通过各种数据源接口进行。
这些数据源可能包括各种数据库、文件、日志等。
2. 数据清洗:在数据采集之后,需要对数据进行清洗,去除重复、错误、不合规的数据,以保证数据的准确性。
这一步可能需要人工参与,也可能使用自动化工具进行。
3. 数据存储:数据清洗后,需要将数据存储到数仓中。
数仓是一种专门用于存储和管理数据的系统,它提供了方便的数据查询、数据提取等功能。
4. 数据建模:这一步是根据业务需求,对数据进行建模。
建模的过程通常会使用到星型模型或雪花模型,这些模型能够更好地满足业务需求。
5. 数据服务:在数据建模之后,需要将数据转化为服务。
这些服务可以是数据库查询服务,也可以是API接口服务。
通过这些服务,业务系统能够方便地获取数据。
6. 数据应用:数据服务被业务系统调用后,就可以进行各种应用。
比如,数据分析师可以通过数据服务获取数据,进行数据分析,得出结论;业务人员也可以通过数据服务了解业务状况,做出决策。
7. 数据治理:数据治理是确保数据质量和数据安全的过程。
在这一步中,需要对数据进行分类、标记、备份等操作,以确保数据的质量和安全性。
以下是每个步骤的详细说明:* 数据采集:需要确保数据源的稳定性和可靠性,同时需要考虑到各种异常情况的发生,制定相应的应对策略。
* 数据清洗:需要制定详细的数据清洗规则,并确保规则的准确性和可操作性。
同时,需要定期检查和更新清洗规则,以保证数据的准确性。
* 数据存储:需要选择合适的数据存储方式,如关系型数据库、非关系型数据库等。
同时,需要考虑到数据的增长和扩展性,制定相应的存储策略。
* 数据建模:需要根据业务需求和数据特点,选择合适的模型,如星型模型、雪花模型等。
同时,需要考虑到模型的复杂性和可维护性,制定相应的建模策略。
海康保险数据仓库项目建议书(20080112)

海康保险数据仓库项目建议书2008年01月12日目录第一章综述 ........................................................................................ 41.1尚洋公司数据仓库业务简介 .......................................................................................... 41.2项目背景.......................................................................................................................... 91.3项目目标.......................................................................................................................... 9第二章需求分析 .............................................................................. 122.1系统目标...................................................................................................................... 122.2需求范围...................................................................................................................... 14第三章系统设计 .............................................................................. 193.1设计理念与原则 .......................................................................................................... 193.2系统整体架构 .............................................................................................................. 203.3系统运行管理 .............................................................................................................. 333.4系统部署...................................................................................................................... 35第四章实施方案 .............................................................................. 384.1实施策略...................................................................................................................... 384.2实施进度计划表 .......................................................................................................... 444.3质量保证...................................................................................................................... 57第五章系统维护方案....................................................................... 585.1提供本地化服务 .......................................................................................................... 585.2保证有效的响应 .......................................................................................................... 585.3维护服务...................................................................................................................... 595.4培训和知识转移 .......................................................................................................... 60第一章综述1.1尚洋公司数据仓库业务简介1.1.1尚洋与中国保险行业共同发展北京尚洋信德信息技术股份有限公司成立于1994年,96年定位于专业的保险信息技术服务商,目前已经发展成为一家以商业保险领域为核心、国内领先的、国际化的专业信息技术服务提供商。
- 1、下载文档前请自行甄别文档内容的完整性,平台不提供额外的编辑、内容补充、找答案等附加服务。
- 2、"仅部分预览"的文档,不可在线预览部分如存在完整性等问题,可反馈申请退款(可完整预览的文档不适用该条件!)。
- 3、如文档侵犯您的权益,请联系客服反馈,我们会尽快为您处理(人工客服工作时间:9:00-18:30)。
成功实施数据仓库项目的7个步骤建立一个数据仓库并不是一个简单的任务,不应该由一个人单独完成。
由于数据仓库最佳结合了业务惯例和信息系统技术,因此,一个成功的数据仓库实施需要这两方面的不断协调,以均衡其所有的需要,要求,任务和成果。
我很乐意与大家分享我在规划和管理任何数据库项目时采用的方法,这些数据库包括交易数据库,数据仓库,和混合型数据库。
由于我生活在关系数据库和数据仓库以及用以支撑它们的数据提取,转换和加载(ETL )过程中,所以我会集中在这些领域讨论我的方法。
然而,您可以将这些方法扩展到整个栈--OLAP立方体和如报告,特征分析(ad-hoc analysis),记分卡和仪表盘展示之类的信息传递应用。
我不是吃撑了要告诉一个真正的项目经理( PM )如何做他或她的工作,相反,我写的这些是为那些数据库管理员和开发者,他们没有好运气能与有经验的项目经理一起工作;同样也适合这样的IT专业人员,他们被突然要求:“建立一个数据仓库“,并且需要自己扮演项目经理的角色。
我的讨论不会是完整的,但我希望这会给您足够的信息来让您的项目球滚起来。
如图1所示,数据仓库项目有3个轨道(tracks):数据轨道,技术轨道和应用层轨道。
当您在整理任何数据库项目计划时,我建议您以这三个轨道为模板来管理和同步您的活动。
当您向技术决策者( TDMs ) ,商业决策者( BDMs ) ,和所有其他该数据仓库项目参与者讲解您的计划时,您也可以把图1当作一个高级的概要图来使用。
使用一种生命周期管理方法我鼓励您利用您的组织可以提供的资源,比如设计,开发和部署系统和软件的技术和方法。
如果贵公司对于这些工作没有采用任何正式的方法,继续前进吧,您可采用我为我自己的数据库项目开发的7D数据库生命周期管理方法(Discover, Design, Develop, Deploy, Day to Day , Defend, Decommission), 昵称“7D法”。
我的“7D”数据库生命周期管理方法讲的是数据库的生命周期管理,而不是相关的软件(应用程序)和硬件的生命周期。
图1包括了软硬件轨道,但我不会进一步阐述它们的管理。
为了成功实施数据库生命周期的方法,有必要调整和同步数据库生命周期的里程碑、硬件和应用软件。
数据仓库的构建从来不会真正结束。
不像传统的数据库在部署后的一段时间里保持相对的不变,数据仓库始终处于不断的变化之中,以应对它所服务的业务环境的变化。
当今的业务环境更加复杂,并涉及比以往任何时候都要快的变化。
处理这种几乎是不断的变化是企业的最大挑战之一。
这就是为什么数据仓库团队中的每一个人,包括技术决策者( TDMs ) 和业务决策者( BDMs ),都必须处在同一阵线上,使用同一种生命周期管理方法,以使他们的认识完全得到统一。
只有这样,才有可能对已实施的数据仓库、企业的构想和宗旨进行调整。
在图1中,我已经展示了我的“7D法”的7个步骤,本文将带领您完成每一步。
第一步:发掘我保证任何规模和领域的数据库项目离开了开始的发掘阶段都将失败。
这个阶段也被称为“需求分析和定义”,发掘阶段需要以业务为中心,特别是数据仓库项目,因为数据仓库的输出需要支持组织的目标。
发掘这一步实质上就是调查,您应该不断地问六个基本问题(什么,如何,在何处,谁,何时和为什么),记录好答案,并把这些答案包含在您起草的解决方案中。
在“7步”的前3步(发掘,设计,开发)中,必须对业务主和技术专家进行集中的协调,项目经理(PM)应该促成这一进程。
项目经理作为一个独立的专业人员,主要关心项目的及时上线、预算在控制范围内,有预期的运行效果;项目经理在得到各方的反馈意见后,负责制定严格的路线,里程碑和成功指标。
如果项目里没有PM,这些将成为您的工作。
在发掘阶段,PM必须收集图1所示的三个轨道的信息,即技术轨道,数据轨道和应用层轨道。
在其他任务中,PM必须确定利益相关者和用户,必须理解他们各自的角色和相应的数据/视图需求。
PM 必须知道本组织的绩效管理策略:目标是什么,倡议什么以及跟踪业务和项目健康状况的支撑度量标准/关键绩效指标。
如果上述策略的任何部分遗漏了,该项目很有可能失去最终用户的评分,这可能会导致低的采用通过率和未来资金的丢失。
换句话说,该项目将失败,而不管项目任务执行得有多么完美。
第二步:设计设计这一步的主要活动是定义描述数据仓库的语义和概要模型。
这些模型必须解决企业用户的管理信息系统(MISs)和商务智能( BI )分析需要。
对于数据仓库项目,您可以为关系型数据仓库创建概念和逻辑数据模型,为表示多维立方体创建三维模型。
您可以使用决策矩阵,以帮助确定每个三维模型需要包含些什么;沿Y轴方向列出被数据仓库支持的关键业务流程,沿X轴方向列出建议的维。
这个矩阵将作为当前开发、未来扩展和跨组织集成的向导。
在设计阶段建立的模型必须反映第一阶段您收集的六个问题的答案。
标识数据仓库相关的所有数据源(内部和外部的),业务/交易数据库和展平文件是个好注意。
您也应该明确说明哪些数据将被导入数据仓库,哪些只会简单地作为外部数据源引用。
通常,技术轨道有自己的PM,但您仍然可能需要填补那个角色。
数据仓库可以增长为非常大的内容和十分广泛的范围,因此有必要在数据仓库部署之前恰当地规划其大小。
首先在纸上估计其大小,这样您就可以大致把握当数据仓库投入产品应用时所需的处理器速度和磁盘容量。
您需要估算一天的业务终端用户数量以及他们使用的应用(例如,对立方体做一个特别分析,或者从关系数据仓库中取出缓存的报告),也要估算数据仓库一年中将会存储的数据量。
只是因为数据仓库是一个进展中的工作,您需要两年和五年预测,同样,其处理能力和数据存储需求将随着时间的推移不断增加。
数据仓库设施包括各种硬件,通信和软件解决方案,所有这一切都必须协同工作,为终端用户提供一个工作的数据仓库。
您需要足够的时间来计划和测试您将如何整合所有这些不同的组成部分。
跟技术轨道一样,应用轨道可能有自己的PM或由一个主导的软件开发人员充当这一角色。
如果你是幸运的,你的工作将是与此人协调以同步任务。
如果不是,那你的工作描述会扩大。
应用层包括获取从数据仓库收集到的输出,通常是MIS报告和BI分析结果。
MIS报告常是屏幕显示,仪表板,和打印副本的形式,它们帮助企业管理者做出运行日常业务所需的战术决策。
这些输出相对比较容易界定、编码和被一系列标准化的进程抓取,这些进程运行在可预定环境中。
应用层的BI部分是一组查询和响应,以帮助执行管理作出战略决策,推动商务运营。
BI解决方案往往是非结构化的,很难预定义,因为他们倾向于用一种特别的方式探索数据。
记分牌,图形和数据透视表是BI的应用例子,它们能刺激更多的数据探索,而这可能导致公司内部战略方向的改变。
在这个阶段许多方法要求原型或试点项目。
“7D法”不需要。
至多,作为应用层的设计活动中的一部分,你可以做一个“点击模式”--一种输入/输出屏幕的快速呈现模型,不涉及或只有极少的代码但却能给利益攸关方可视化的概念,同时又不会吃掉宝贵的时间和资源。
如果试点或原型是必要的,那么选择其中的一个切片(slice)作为试点,完成“7D法”的每一步。
“7D 法”不区分试点,原型和产品系统--它们都被视为项目。
如果按照“7D法”设计了一个原型,并且最终进入了产品(大多数原型都是这样),然后您必须比第一个切片更仔细地选择第二个切片。
如果这些切片不能成功地集成在一起,如果他们不支持您在发掘步骤发现的企业宗旨和意图,那么您在创建“烟囱”,这是信息的群岛,整合彼此只会遇到困难,在某些情况下,甚至根本不可能。
第三步:开发数据轨道开发步骤主要有两个部分:第一个涉及将数据模型映射到其对应的物理设计(实质是关系数据仓库和OLAP立方体的蓝图),规划数据库的大小,必要时对表进行分块,为数据仓库对象设定命名约定以便业务用户和技术用户都能适应,并制定索引和识别索引候选名单的策略。
第二部分涉及数据从外部数据源到数据仓库的提取转换加载(ETL)。
包含在第二部分但不局限于这一部分的是数据转换服务( DTS )/SQL Server整合服务( SSIS)补丁的开发与测试,导入/导出和T-SQL脚本开发和测试,以及对外部数据源组件的数据整合测试,这些数据不会导入到数据仓库。
技术轨道的开发步骤包括审查,测试和选择产品,并提供其作品的体系结构设计。
为了组成通信链路的各个层--物理层、数据链路层、网络层以及传输层,会话和表现层,这样做是必需的。
虽然许多产品把多层无缝打包到一个解决方案,但有必要认识到这些层中的每一个在未来的负载要求和性能要求,并提前为这些需求作好准备。
为了从新的数据仓库交付数据,您应该选定数据仓库的服务器和存储解决方案,以及新的,最终用户面临的硬件。
这样做是为了产品数据仓库和分期数据库--DTS/SSIS软件包和T-SQL脚本在这里执行,从外部数据源导入数据,以及把可操作和精心料理的数据导入到关系数据仓库和OLAP立方体中。
根据发掘阶段收集到的需求,您的数据仓库环境可能还要支持数据集市,快照,和报告数据库,因此,也要准备为这些方面考虑环境。
应用轨道开发步骤听起来很简单:只要开发终端用户应用程序。
然而,这可能是整个过程中最复杂和费时的任务,并且可能是代价最高的--如果没有认真制定和考虑成功的度量标准。
正是在这一阶段,范围蠕变(不断增加特性和功能,而不考虑对其他两个轨道的设计和开发的影响)可能像鱼雷一样破坏项目。
除了开发终端用户应用程序,您也不得不制定测试这些应用程序的计划,您需要制定终端用户培训计划以便用户能学会如何使用这些应用软件。
在每一个里程碑,你必须确保获得相关各方的签字或验收。
这可能听起来很明显,但多少令人惊讶的是不知道有多少开发项目是在产品环境中阶段化和测试的!别这样做,只是不要这样做!为开发,测试,和组件划分搭建一个单独的物理环境。
对业务系统要这样做--同样,对BI/数据仓库也要这样做。
第四步:部署部署数据仓库和部署交易数据库是不一样的,通常,您以一种快速、包罗万象的风格部署一个交易数据库-周五晚上终端用户在使用旧式系统,而周一上午他们登录到新的数据库。
数据仓库通常是递增式地部署到整个企业的各类用户中。
这种递增的速度和各个组使用数据仓库的次序是包含在部署阶段中部署计划的一部分。
理想的情况下,数据仓库的部署以一种迅速级联的层次进行,首先是技术就位--服务器,存储设备,通信链接等,系统软件的安装,测试并准备投入产品。
然后是数据轨道各组件的展开--数据仓库数据库(关系型和OLAP )的建立,以及ETL进程的联机。
在最终的应用层添加之前往往会打住一下,当您通过ETL进程让数据流从外部来源进入各种不同的数据仓库数据库和立方体时,进行必要的测试和调整。