成功实施数据仓库项目的7个步骤
数据仓库 EDW

数据中心 ODS随着企业信息化建设的发展,巨大的投资为企业建立了众多的信息系统,以帮助企业进行内外部业务的处理和管理工作。
随着信息系统的增加,各自孤立工作的信息系统将会造成大量的冗余数据和业务人员的重复劳动。
同时随着时间推移,各系统不断沉淀大量的历史数据。
如何打破信息孤岛,充分利用现有的历史数据,为企业提供战略决策的数据支持是各行各业所必需考虑的事情。
为支持企业各项业务的长远发展,不断提高管理水平,建立实现企业数据交换、数据集成的企业级数据中心,并在此基础上初步建设数据管控平台,有效实现数据质量管理,为后续数据线规划的报表管理以及EDW等系统建设奠定基础,为企业提升核心竞争力,优化资源配置、实施有效管控,提高服务水平、科学可待续发展和加速发展奠定良好的基础。
一、系统规划蓝图二、东南融通的优势1、关键技术优势数据交换、数据加工基于统一的调度监控ETLPLUS、调度引擎JSI模块封装SHELL、可执行程序、存储过程、Datastage作业等各种作业类型的执行接口?高扩展性设计,实现ETL、调度监控和硬件的集群报表工具(BI.OFFICE、其他)成熟组件支持,文件交换组件,数据加工组件2、团队优势BI线条员工超过1200人,覆盖咨询、解决方案、研发、实施各个层面参与众多的ODS/EDW/BI项目实施团队彼此配合程度高、统一协调、合作经验丰富随时进行同行信息共享与交流,及时进行方案提炼数据仓库 EDW现代商业银行面临着诸多挑战,包括金融改革日益深化的挑战、面临来自外资银行的竞争、银行国际化的发展需要、客户的要求越来越成熟、监管机构对银行的监管越来越严格。
面对这些挑战,要求金融企业对企业经营数据和信息进行充分的掌握和分析,以帮助企业精确掌握企业的经营状况和准确决策。
建立企业级的银行数据仓库是银行业整体信息资产的管理,建立信息资产的运营服务体系,提升信息资产的业务价值。
东南融通投入了大量资源研究银行企业级DW&BI应用体系,如下图所示:BI.Bank解决方案蓝图,包括以下关键内容:一、数据仓库战略规划参照国际银行领先DW&BI体系架构,规划银行企业级DW&BI的技术框架、数据模型、应用框架,结合银行的业务管理改革步伐制定整体实施计划,帮助银行循序渐进地逐步建成企业级DW&BI系统。
数据仓库项目计划

Project Task 6 调整最终用户的模板规范 7 调整项目边界 8 用户接受/项目回顾 最终用户应用开发 选择开发途径 回顾应用规范 回顾应用标准 生成E/U工具的元数据 开发 E/U 应用 提供数据准确性和干净性反馈 开发 E/U 导航 和用户回顾E/U导航 将E/U应用形成文档 制定E/U应用维护流程 制定E/U应用发布流程 用户接受/项目回顾
r
r
r
r
m
m m m m l
r
r
r
r
r
r
l l l l m
m m m m m
r
1 2 3 4
l w m l l m
l m m l l l m l m w l l l l m
m m m m
m m m m
m m
m m
m m
l l l
m m m
m m m m l l w m w m m m m l l w m w m m m m l l w m w m l m m m w l l w m m l m l l m m w m s s
IT Manager
ETL设计员
ETL程序员
DW 培训员
DW DBA
THE DATA WAREHOUSE LIFECYCLE TOOLKIT
PROJECT PLAN
用户
需求组
领导组 用户端项目业务经理
开发组 技术/安全结构设计员 最终用户应用开发员
特别组
业务系统分析员
数据建模设计师
业务最终用户
技术支持专员
m
r m
r m
r s
r s
r s
r m
数据设计
1 2 3 4 5 6 7 8 9 10 11 12 逻辑设计 定义Dimension 确定层次和粒度 定义Fact Table 选择需要的KPI和Subject Area 建立对照矩阵图 整理设计成文档 用户确认和接受 完成逻辑数据库设计 确认候选的预存储聚合表 开发聚合表设计策略 使用DSS工具证明数据库设计的正确性 用户接受/项目回顾 分析数据源 确定候选的数据源 浏览数据内容 初步设计源到目标的数据映射关系 估算数据量 用户接受/项目回顾 m m m w l m m m l l l w l l m m l m m s s s m s s l m l l m s
《数据仓库建设指南》

《数据仓库建设指南》数据仓库建设指南随着企业信息化的趋势不断发展,数据化已经成为企业成长的必经之路。
数据成为了企业在竞争中的筹码,企业数据分析的能力也成为了企业成功的关键。
更多的企业意识到,要想在市场上占有一席之地,精细管理企业,就必须建立一个合理的数据仓库。
那么,数据仓库建设需要考虑哪些要素和步骤呢?本文将一一为您解析。
一、数据仓库简介数据仓库是一种长期积淀和管理数据的系统,它可以帮助企业集中存储和管理来自各种渠道的数据,为企业提供分析支持。
它可以将内部和外部的数据整合、加工之后建立一个统一的数据层用于分析,这样企业就可以在分析过程中减少对数据来源的依赖,加快数据分析过程。
二、数据仓库建设步骤1.规划和准备数据仓库建设是需要投入大量的时间和精力的,因此,首先需要确定需求,明确数据仓库的建设目标,并确保团队中所有成员都清楚地理解目标和业务需求。
同时,团队还需要了解企业的业务流程。
在规划和准备阶段,团队需要对企业业务进行分析和评估,确定数据仓库中需要的信息和数据以及其来源;需要制定数据建设计划,分步骤地完成数据仓库的各个环境的建设和测试,以确保其稳定性和数据可靠性。
2.设计在设计阶段,需要确定数据仓库的基本结构和架构等。
从不同的维度来考虑数据仓库的数据设计,面向业务时的数据设计包括事实表和维度表的设计,以及定义关系型数据模式。
面向数据仓库的设计要考虑数据的存储形式和数据的管理:如何利用索引快速查找数据,如何存储不同的数据格式或类型等。
3.实施实施是数据仓库建设中最为繁琐的环节,这个过程需要投入大量的人力和物力资源。
需要与各种数据源进行连接和整合,然后将这些数据存储到数据仓库中,来适应变化的数据分析需求。
在实施过程中,需要考虑数据清洗、转换和加工等过程。
数据清洗的目的是过滤掉不必要的数据,转换是将数据从一种格式转换为另一种;加工就是从原数据中提取关键信息。
4.测试和验证测试与验证是数据仓库建设过程中很重要的步骤,通过测试可以验证数据仓库所设计的模型和工具是否能够适应实际的业务需求,同时也可以提供一些有益的改进建议。
详解数据仓库的实施步骤

详解数据仓库的实施步骤建立数据仓库是一个解决企业数据问题应用的过程,是企业信息化发展到一定阶段必不可少的一步,也是发展数据化管理的重要基础。
数仓的知识市面上的书籍和文章不少,但是实际实施依据行业不同,企业核心诉求不同,从技术到方法论各有不同。
如何实施数仓项目,本文先以传统行业的数仓切入,从整体上讲下数据仓库的实施方法论!数据仓库的通用实施步骤一、需求分析需求分析是数据仓库项目最重要的一个环节,数仓说到底还是服务于业务,支撑于业务,如果需求分析不准确,做了没人用,上了不好用,会直接影响业务/客户的使用,最终导致项目的失败。
为了避免最坏的情况,磨刀不误砍柴工,前期一定要重视需求的调研、挖掘和分析,并采用一些严谨科学的措施和方法去做需求分析。
在实际调研过程中分享几个经验:1、尽可能与业务方/客户方一起分析需求,引导对方将项目所要实现的整体框架和业务细节部分述清楚,最好的方式就是需求人员和设计人员基于原型来讨论,从而正确理解实际的业务需求。
2、必须实事求是地将数据仓库所能实现的目标和不容易解决的问题与协商清楚。
这一个环节趟过不少坑,IT方急着上线,业务方对于项目还处于一知半解,甚至在推动的时候可能避重就轻,比如一期不满足的需求强行上,长远来看项目会产生不少推诿和扯皮,消磨的是对方的信任。
所以在需求讨论的基础上,需要理解业务工作流程,当然如果你已经具备了这个行业丰富的业务知识,那可以在需求调研的时候尽可能地让对方按照自己的思路去完成数据仓库系统的功能设计。
3、需求方群体的分类,BI项目最终的使用对象可以分为以下几类:数据查询者、报表查询者、企业决策者这三类人群的需求特点完全不一样,沟通的时候需要注意区分并深刻理解4、需求调研的再完美,也避免不了需求变更。
现实是很多情况下需求是不确定的,业务方是提不出有价值的需求的,需求今天是A 明天又变成B无法一步做到位的,这都很正常,作为项目实施者要做好心理预期。
一般情况下,业务方能够提供的都是需求的整体框架部分或者是实际需求的一部分内容,不能预见未来需要增加的需求,这也注定了数仓项目是一个不断循环、反馈,使系统不断完善增长的过程。
XX银行数据仓库建设项目方案

XX银行数据仓库建设项目方案1. 项目概述本文档旨在介绍XX银行数据仓库建设项目的方案和目标。
数据仓库是一个用于集成和管理银行的各类数据的中央存储库,可为决策支持和业务分析提供有价值的信息。
本项目的目标是构建一个稳定、高效、可扩展的数据仓库,以提高XX银行的决策能力和业务竞争力。
2. 项目背景XX银行作为一家领先的金融机构,面临着数据分散、决策效率低下的问题。
传统的数据集成和分析方法已经无法满足业务需求,因此需要建立一个数据仓库来解决这些问题。
数据仓库将集中存储和管理各类数据,并提供强大的分析工具和报表功能,以支持XX银行的战略决策和业务优化。
本项目的目标是构建一个可靠、高效的数据仓库系统,具体包括以下几个方面:•数据集成:从各个业务系统中提取、清洗和转换数据,确保数据质量和一致性。
•数据存储:设计和构建合适的数据存储结构,包括数据表、索引等,以支持复杂的数据查询和分析。
•数据分析:开发和部署适合XX银行业务需求的数据分析工具和算法,提供灵活和高效的数据查询和报表功能。
•数据安全:确保数据仓库的安全性,实施访问控制和数据加密等措施,防止未授权的访问和数据泄露。
4.1 需求分析阶段在这个阶段,项目团队将与XX银行的不同业务部门和利益相关方进行沟通和需求收集。
我们将详细了解业务需求和数据源,并建立数据仓库的数据模型和架构设计。
4.2 数据集成阶段在数据集成阶段,我们将根据需求分析阶段的结果,从各个业务系统中提取和转换数据。
我们将设计和实现合适的ETL(提取、转换和加载)过程,确保数据质量和一致性。
4.3 数据存储阶段在数据存储阶段,我们将设计和构建数据仓库的存储结构,包括数据表、索引和分区等。
我们将利用合适的数据库技术和管理工具,如关系数据库和NoSQL数据库,来存储和管理数据。
4.4 数据分析阶段在数据分析阶段,我们将开发和部署适合XX银行业务需求的数据分析工具和报表功能。
我们将使用先进的分析算法和可视化技术,帮助XX银行的管理层和业务部门进行决策分析和业务优化。
数字化平台项目实施方案

数字化平台项目实施方案目录1. 项目概述 (2)1.1 项目背景 (3)1.2 项目目标 (4)1.3 项目范围 (5)1.4 项目组织结构 (6)1.5 项目关键资源 (7)2. 平台架构设计 (8)2.1 平台整体架构 (9)2.2 功能模块设计 (11)2.3 数据模型设计 (13)2.4 安全架构设计 (14)2.5 接口规范设计 (15)3. 实施计划 (16)4. 技术方案 (17)5. 数据迁移计划 (18)5.1 数据来源及需求分析 (19)5.2 数据转换及清洗方案 (21)5.3 数据安全及合规性方案 (22)5.4 数据迁移测试方案 (24)6. 用户培训计划 (25)6.1 培训对象及需求分析 (26)6.2 培训内容及方式 (26)7. 项目风险管理 (28)7.1 风险识别及评估 (29)7.2 风险应对策略 (30)7.3 风险监控及控制机制 (31)8. 项目验收标准 (33)8.1 功能验收标准 (34)8.2 安全验收标准 (35)8.3 性能验收标准 (36)8.4 用户验收标准 (37)9. 项目监控及评估 (38)9.1 项目进度监控 (40)9.2 项目预算监控 (41)9.3 项目绩效评估 (43)9.4 项目结束后报告 (44)1. 项目概述本数字化平台项目旨在构建一个集成化、高效能的数字化生态系统,为各行各业的学习者、专业人士及企业界提供一站式的数字化解决方案。
该项目将基于先进的信息技术及数据科学,以用户需求为核心,设计一套包含云数据中心、人工智能个性化推荐引擎、区块链技术确保数据安全与隐私保护的数字化平台系统。
该项目的主要目标有三个:首先,我们将整合现有的数字化资源,建立高效的数据收集、管理和分析机制,形成丰富的内容库,涵盖教育培训、会议研讨会、行业资讯、职业发展指南等多个板块。
我们将精心设计人机交互界面,确保用户体验的直观性与便捷性,促进数据与服务的无缝连接。
大数据项目经理招聘笔试题与参考答案2025年

2025年招聘大数据项目经理笔试题与参考答案(答案在后面)一、单项选择题(本大题有10小题,每小题2分,共20分)1、大数据项目经理在进行项目规划时,以下哪个阶段最关键?A、需求分析阶段B、技术选型阶段C、数据采集阶段D、项目实施阶段2、在数据仓库的设计中,以下哪种模型通常用于描述数据之间的关系和实体?A、实体关系模型(ER模型)B、数据流图(DFD)C、层次模型D、关系模型3、题干:大数据项目经理在进行项目需求分析时,以下哪个工具最有助于梳理和理解项目需求?A. E-R图B. SWOT分析C. Gantt图D. 用户故事地图4、题干:在大数据项目中,以下哪个阶段最需要关注数据的质量问题?A. 需求分析阶段B. 数据采集阶段C. 数据存储阶段D. 数据分析阶段5、题干:在数据仓库的设计过程中,以下哪个阶段通常用于确定数据模型和业务规则?A、数据抽取B、数据清洗C、数据建模D、数据加载6、题干:以下哪个工具在处理大数据项目中,用于进行实时数据流的分析和处理?A、HadoopB、SparkC、MySQLD、MongoDB7、以下哪个不属于大数据项目经理所需具备的技能?A、项目管理经验B、数据分析能力C、编程能力D、财务报表编制能力8、大数据项目管理中,以下哪个阶段不属于项目生命周期的关键阶段?A、需求分析B、设计阶段C、开发阶段D、运营维护阶段9、大数据项目经理在项目规划阶段,以下哪个工具或方法最常用于评估项目风险?A. 敏捷迭代B. SWOT分析C. Gantt图D.PERT图 10、在大数据项目中,以下哪种数据清洗技术可以帮助减少数据集中的噪声和异常值?A. 数据转换B. 数据脱敏C. 数据归一化D. 数据聚类二、多项选择题(本大题有10小题,每小题4分,共40分)1、大数据项目管理中,以下哪些工具或技术是项目经理在项目规划阶段可能使用的?()A、数据仓库技术B、ETL(提取、转换、加载)工具C、业务流程建模工具D、敏捷开发工具E、数据可视化工具2、在大数据项目风险管理的流程中,以下哪些步骤是正确的?()A、风险识别B、风险评估C、风险应对计划制定D、风险监控与控制E、风险分析3、以下哪些技术或工具在大数据项目中通常被使用?()A. HadoopB. SparkC. PythonD. SQLE. ETL工具4、以下哪些因素会影响大数据项目的成功实施?()A. 数据质量B. 技术选型C. 团队经验D. 项目管理E. 客户需求变更5、以下哪些是大数据项目经理在项目规划阶段需要考虑的关键因素?()A、数据资源获取的合法性与合规性B、项目团队的组织结构和管理模式C、大数据技术的选型与实施路径D、项目预算与成本控制E、客户需求分析及项目目标设定6、以下哪些工具和技术可以用于大数据项目的数据质量管理?()A、数据清洗工具B、数据脱敏工具C、数据可视化工具D、数据比对工具E、数据压缩工具7、大数据项目中,以下哪些是常见的项目阶段?()A. 需求分析B. 数据采集C. 数据存储D. 数据清洗E. 预算规划F. 项目评估8、以下关于大数据技术应用的描述,正确的是哪些?()A. 大数据分析可以帮助企业进行市场预测B. 大数据技术可以用于处理和分析海量数据C. 大数据技术可以提高决策效率D. 大数据技术可以用于实现智能推荐系统E. 大数据技术仅适用于大型企业9、大数据项目经理在项目规划阶段需要考虑以下哪些因素?()A. 技术选型B. 项目团队组建C. 数据安全与隐私保护D. 项目预算E. 客户需求分析 10、在大数据项目中,以下哪些工具或技术可以用于数据质量管理?()A. ETL工具(数据抽取、转换、加载工具)B. 数据清洗软件C. 数据质量监控平台D. 数据脱敏技术E. 数据可视化工具三、判断题(本大题有10小题,每小题2分,共20分)1、大数据项目经理的主要职责是确保项目按时、按预算完成,而不涉及数据分析和挖掘工作。
数仓建设的流程

数仓建设的流程数仓建设的流程是一个比较复杂的过程,涉及到很多方面的工作。
下面将从需求分析、数据采集、数据清洗、数据集成、数据存储、数据分析和数据展示七个方面,简要介绍数仓建设的流程。
一、需求分析首先,需要评估企业的数据分析需求,明确数据分析目的,了解业务场景,分析分析师对数据的需求。
这可以通过对数据价值的分析和业务流程的把握,结合业务发展趋势和业务需求得出。
二、数据采集数据采集是数仓建设的重要一环。
数据采集的方式可以是数据仓库内部获取,也可以是外部系统、传感器轮询等方式获取。
数据采集也需要考虑数据来源、数据质量、数据频率等重要属性。
三、数据清洗数据清洗是数据建设的关键一步。
在数据采集后,数据中可能存在孤无值等错误数据,需要数据清洗来剔除这些异常数据。
数据清洗的过程就是进行数据过滤、去标识化、去空值处理等操作,使得数据在数仓存储后依然具有良好的可读性和可用性。
数据集成是几十个数据来源的数据聚合在一起的过程。
这个阶段需要考虑数据是否可以合并,数据质量的评估等,同时可以通过ETL(抽取-转化-装载)和ELT(抽取-装载-转化)工具来实现数据集成。
五、数据存储在以上步骤后,需要将数据存储在统一的数据存储区域,以实现高效安全的数据访问和查询。
数据存储一般分为两种,一种是关系数据库,如MySQL、Oracle等,另一种是分布式存储系统,如Hadoop、Spark、Hbase等。
六、数据分析在数据存储后,数据分析是数据建设的核心部分。
这个阶段需要利用业务场景来分析数据,以实现对业务的挖掘。
分析是数据分析过程中至为重要的一部分,分析可以基于KPI、RFM分析、画像透视等多个维度。
七、数据展示最后,将分析结果进行展示。
通常,数据可视化和可交互性的方式可以提供对业务数据进行反馈和付费的更高质量和更易懂的解释。
数据展示可以以报表的形式,也可以经过数据可视化展示,以更直观、可视化、可交互的形式赋予数据新的价值。
以上七个步骤构成了数仓建设的完整流程。
- 1、下载文档前请自行甄别文档内容的完整性,平台不提供额外的编辑、内容补充、找答案等附加服务。
- 2、"仅部分预览"的文档,不可在线预览部分如存在完整性等问题,可反馈申请退款(可完整预览的文档不适用该条件!)。
- 3、如文档侵犯您的权益,请联系客服反馈,我们会尽快为您处理(人工客服工作时间:9:00-18:30)。
成功实施数据仓库项目的7个步骤建立一个数据仓库并不是一个简单的任务,不应该由一个人单独完成。
由于数据仓库最佳结合了业务惯例和信息系统技术,因此,一个成功的数据仓库实施需要这两方面的不断协调,以均衡其所有的需要,要求,任务和成果。
我很乐意与大家分享我在规划和管理任何数据库项目时采用的方法,这些数据库包括交易数据库,数据仓库,和混合型数据库。
由于我生活在关系数据库和数据仓库以及用以支撑它们的数据提取,转换和加载(ETL )过程中,所以我会集中在这些领域讨论我的方法。
然而,您可以将这些方法扩展到整个栈--OLAP立方体和如报告,特征分析(ad-hoc analysis),记分卡和仪表盘展示之类的信息传递应用。
我不是吃撑了要告诉一个真正的项目经理( PM )如何做他或她的工作,相反,我写的这些是为那些数据库管理员和开发者,他们没有好运气能与有经验的项目经理一起工作;同样也适合这样的IT专业人员,他们被突然要求:“建立一个数据仓库“,并且需要自己扮演项目经理的角色。
我的讨论不会是完整的,但我希望这会给您足够的信息来让您的项目球滚起来。
如图1所示,数据仓库项目有3个轨道(tracks):数据轨道,技术轨道和应用层轨道。
当您在整理任何数据库项目计划时,我建议您以这三个轨道为模板来管理和同步您的活动。
当您向技术决策者( TDMs ) ,商业决策者( BDMs ) ,和所有其他该数据仓库项目参与者讲解您的计划时,您也可以把图1当作一个高级的概要图来使用。
使用一种生命周期管理方法我鼓励您利用您的组织可以提供的资源,比如设计,开发和部署系统和软件的技术和方法。
如果贵公司对于这些工作没有采用任何正式的方法,继续前进吧,您可采用我为我自己的数据库项目开发的7D数据库生命周期管理方法(Discover, Design, Develop, Deploy, Day to Day , Defend, Decommission), 昵称“7D法”。
我的“7D”数据库生命周期管理方法讲的是数据库的生命周期管理,而不是相关的软件(应用程序)和硬件的生命周期。
图1包括了软硬件轨道,但我不会进一步阐述它们的管理。
为了成功实施数据库生命周期的方法,有必要调整和同步数据库生命周期的里程碑、硬件和应用软件。
数据仓库的构建从来不会真正结束。
不像传统的数据库在部署后的一段时间里保持相对的不变,数据仓库始终处于不断的变化之中,以应对它所服务的业务环境的变化。
当今的业务环境更加复杂,并涉及比以往任何时候都要快的变化。
处理这种几乎是不断的变化是企业的最大挑战之一。
这就是为什么数据仓库团队中的每一个人,包括技术决策者( TDMs ) 和业务决策者( BDMs ),都必须处在同一阵线上,使用同一种生命周期管理方法,以使他们的认识完全得到统一。
只有这样,才有可能对已实施的数据仓库、企业的构想和宗旨进行调整。
在图1中,我已经展示了我的“7D法”的7个步骤,本文将带领您完成每一步。
第一步:发掘我保证任何规模和领域的数据库项目离开了开始的发掘阶段都将失败。
这个阶段也被称为“需求分析和定义”,发掘阶段需要以业务为中心,特别是数据仓库项目,因为数据仓库的输出需要支持组织的目标。
发掘这一步实质上就是调查,您应该不断地问六个基本问题(什么,如何,在何处,谁,何时和为什么),记录好答案,并把这些答案包含在您起草的解决方案中。
在“7步”的前3步(发掘,设计,开发)中,必须对业务主和技术专家进行集中的协调,项目经理(PM)应该促成这一进程。
项目经理作为一个独立的专业人员,主要关心项目的及时上线、预算在控制范围内,有预期的运行效果;项目经理在得到各方的反馈意见后,负责制定严格的路线,里程碑和成功指标。
如果项目里没有PM,这些将成为您的工作。
在发掘阶段,PM必须收集图1所示的三个轨道的信息,即技术轨道,数据轨道和应用层轨道。
在其他任务中,PM必须确定利益相关者和用户,必须理解他们各自的角色和相应的数据/视图需求。
PM 必须知道本组织的绩效管理策略:目标是什么,倡议什么以及跟踪业务和项目健康状况的支撑度量标准/关键绩效指标。
如果上述策略的任何部分遗漏了,该项目很有可能失去最终用户的评分,这可能会导致低的采用通过率和未来资金的丢失。
换句话说,该项目将失败,而不管项目任务执行得有多么完美。
For personal use only in study and research; not for commercial use第二步:设计设计这一步的主要活动是定义描述数据仓库的语义和概要模型。
这些模型必须解决企业用户的管理信息系统(MISs)和商务智能( BI )分析需要。
对于数据仓库项目,您可以为关系型数据仓库创建概念和逻辑数据模型,为表示多维立方体创建三维模型。
您可以使用决策矩阵,以帮助确定每个三维模型需要包含些什么;沿Y轴方向列出被数据仓库支持的关键业务流程,沿X轴方向列出建议的维。
这个矩阵将作为当前开发、未来扩展和跨组织集成的向导。
在设计阶段建立的模型必须反映第一阶段您收集的六个问题的答案。
标识数据仓库相关的所有数据源(内部和外部的),业务/交易数据库和展平文件是个好注意。
您也应该明确说明哪些数据将被导入数据仓库,哪些只会简单地作为外部数据源引用。
通常,技术轨道有自己的PM,但您仍然可能需要填补那个角色。
数据仓库可以增长为非常大的内容和十分广泛的范围,因此有必要在数据仓库部署之前恰当地规划其大小。
首先在纸上估计其大小,这样您就可以大致把握当数据仓库投入产品应用时所需的处理器速度和磁盘容量。
您需要估算一天的业务终端用户数量以及他们使用的应用(例如,对立方体做一个特别分析,或者从关系数据仓库中取出缓存的报告),也要估算数据仓库一年中将会存储的数据量。
只是因为数据仓库是一个进展中的工作,您需要两年和五年预测,同样,其处理能力和数据存储需求将随着时间的推移不断增加。
数据仓库设施包括各种硬件,通信和软件解决方案,所有这一切都必须协同工作,为终端用户提供一个工作的数据仓库。
您需要足够的时间来计划和测试您将如何整合所有这些不同的组成部分。
跟技术轨道一样,应用轨道可能有自己的PM或由一个主导的软件开发人员充当这一角色。
如果你是幸运的,你的工作将是与此人协调以同步任务。
如果不是,那你的工作描述会扩大。
应用层包括获取从数据仓库收集到的输出,通常是MIS报告和BI分析结果。
MIS报告常是屏幕显示,仪表板,和打印副本的形式,它们帮助企业管理者做出运行日常业务所需的战术决策。
这些输出相对比较容易界定、编码和被一系列标准化的进程抓取,这些进程运行在可预定环境中。
应用层的BI部分是一组查询和响应,以帮助执行管理作出战略决策,推动商务运营。
BI解决方案往往是非结构化的,很难预定义,因为他们倾向于用一种特别的方式探索数据。
记分牌,图形和数据透视表是BI的应用例子,它们能刺激更多的数据探索,而这可能导致公司内部战略方向的改变。
在这个阶段许多方法要求原型或试点项目。
“7D法”不需要。
至多,作为应用层的设计活动中的一部分,你可以做一个“点击模式”--一种输入/输出屏幕的快速呈现模型,不涉及或只有极少的代码但却能给利益攸关方可视化的概念,同时又不会吃掉宝贵的时间和资源。
如果试点或原型是必要的,那么选择其中的一个切片(slice)作为试点,完成“7D法”的每一步。
“7D 法”不区分试点,原型和产品系统--它们都被视为项目。
如果按照“7D法”设计了一个原型,并且最终进入了产品(大多数原型都是这样),然后您必须比第一个切片更仔细地选择第二个切片。
如果这些切片不能成功地集成在一起,如果他们不支持您在发掘步骤发现的企业宗旨和意图,那么您在创建“烟囱”,这是信息的群岛,整合彼此只会遇到困难,在某些情况下,甚至根本不可能。
第三步:开发数据轨道开发步骤主要有两个部分:第一个涉及将数据模型映射到其对应的物理设计(实质是关系数据仓库和OLAP立方体的蓝图),规划数据库的大小,必要时对表进行分块,为数据仓库对象设定命名约定以便业务用户和技术用户都能适应,并制定索引和识别索引候选名单的策略。
第二部分涉及数据从外部数据源到数据仓库的提取转换加载(ETL)。
包含在第二部分但不局限于这一部分的是数据转换服务( DTS )/SQL Server整合服务( SSIS)补丁的开发与测试,导入/导出和T-SQL脚本开发和测试,以及对外部数据源组件的数据整合测试,这些数据不会导入到数据仓库。
技术轨道的开发步骤包括审查,测试和选择产品,并提供其作品的体系结构设计。
为了组成通信链路的各个层--物理层、数据链路层、网络层以及传输层,会话和表现层,这样做是必需的。
虽然许多产品把多层无缝打包到一个解决方案,但有必要认识到这些层中的每一个在未来的负载要求和性能要求,并提前为这些需求作好准备。
为了从新的数据仓库交付数据,您应该选定数据仓库的服务器和存储解决方案,以及新的,最终用户面临的硬件。
这样做是为了产品数据仓库和分期数据库--DTS/SSIS软件包和T-SQL脚本在这里执行,从外部数据源导入数据,以及把可操作和精心料理的数据导入到关系数据仓库和OLAP立方体中。
根据发掘阶段收集到的需求,您的数据仓库环境可能还要支持数据集市,快照,和报告数据库,因此,也要准备为这些方面考虑环境。
应用轨道开发步骤听起来很简单:只要开发终端用户应用程序。
然而,这可能是整个过程中最复杂和费时的任务,并且可能是代价最高的--如果没有认真制定和考虑成功的度量标准。
正是在这一阶段,范围蠕变(不断增加特性和功能,而不考虑对其他两个轨道的设计和开发的影响)可能像鱼雷一样破坏项目。
除了开发终端用户应用程序,您也不得不制定测试这些应用程序的计划,您需要制定终端用户培训计划以便用户能学会如何使用这些应用软件。
在每一个里程碑,你必须确保获得相关各方的签字或验收。
这可能听起来很明显,但多少令人惊讶的是不知道有多少开发项目是在产品环境中阶段化和测试的!别这样做,只是不要这样做!为开发,测试,和组件划分搭建一个单独的物理环境。
对业务系统要这样做--同样,对BI/数据仓库也要这样做。
第四步:部署部署数据仓库和部署交易数据库是不一样的,通常,您以一种快速、包罗万象的风格部署一个交易数据库-周五晚上终端用户在使用旧式系统,而周一上午他们登录到新的数据库。
数据仓库通常是递增式地部署到整个企业的各类用户中。
这种递增的速度和各个组使用数据仓库的次序是包含在部署阶段中部署计划的一部分。
理想的情况下,数据仓库的部署以一种迅速级联的层次进行,首先是技术就位--服务器,存储设备,通信链接等,系统软件的安装,测试并准备投入产品。
然后是数据轨道各组件的展开--数据仓库数据库(关系型和OLAP )的建立,以及ETL进程的联机。