数据仓库建设的几点建议
数据仓库建设方案

数据仓库建设方案随着大数据时代的来临,越来越多的企业意识到数据的重要性。
数据不再是简单的记录,而是一种重要的资源,可以为企业提供决策支持和商业洞察。
而数据仓库作为企业数据管理和分析的核心工具,起到了至关重要的作用。
在这篇文章中,我将探讨一种有效的数据仓库建设方案。
1. 数据清洗与集成在进行数据仓库建设之前,首先需要进行数据清洗与集成。
这一步骤是建设数据仓库的基础。
数据来自于多个来源,可能存在格式不一致、冗余数据、缺失值等问题。
清洗数据可以确保数据的合规性和准确性。
同时,在数据集成过程中,将不同来源的数据融合在一起,形成一个一致的数据模型,便于后续的分析和查询。
2. 数据模型设计与建立数据模型是数据仓库建设的核心部分。
它是对数据进行组织和描述的逻辑结构,可以有效地存储和查询数据。
在进行数据模型设计时,需要考虑到企业的业务需求和分析目标。
常用的数据模型有星型模型和雪花模型。
星型模型适用于简单的业务场景,而雪花模型则适用于复杂的业务场景。
在实际建设中,可以根据具体需求选择适合的数据模型。
3. 数据抽取、转换和加载数据抽取、转换和加载(ETL)是将源数据加载到数据仓库的关键步骤。
数据抽取是从源系统中获取数据,转换是将数据进行格式转换和清洗,加载则是将数据加载到数据仓库中。
ETL过程不仅需要高效的工具支持,还需要有良好的数据管理和质量控制机制。
只有确保数据的准确和一致性,才能提供可靠的分析结果。
4. 数据质量管理数据质量是数据仓库建设中不可忽视的重要方面。
数据质量管理包括数据质量评估、数据质量监控和数据质量改进。
通过对数据的评估和监控,可以发现数据存在的问题,并及时进行修复和优化。
例如,数据缺失、数据误差和数据一致性问题等。
通过建立数据质量指标和监控系统,可以提高数据的可靠性和可用性。
5. 数据安全和权限管理在数据仓库建设中,数据的安全性和权限管理至关重要。
数据安全包括对数据的保密性、完整性和可用性进行保护。
创建数据仓库应注意的事项

创建数据仓库应注意的事项作者:杨秀芳来源:《消费导刊》2010年第01期数据仓库就是面向主题的、集成的、不可更新的(稳定的)、随时间不断变化的数据集合。
与其他数据库应用不同的是,数据仓库更像一种过程,即对分布在企业内部各处的业务数据的整合、加工和分析的过程,而不是一种可以购买的产品。
数据仓库技术是在数据库技术的基础上发展起来的一种新兴的技术,以数据仓库为基础的商业职能系统在实际应用中能带来高利润的回报,所以近年来数据仓库在金融、保险、电信等众多领域得到了越来越广泛的应用。
如何创建一个符合用户需求的数据仓库是国内外学者探索和研究的重要课题。
笔者在实践中体会到,创建数据仓库时应注意以下几点:一、进行充分的需求分析在数据仓库的定义中,最核心的是面向主题,实质就是面向需求,面向决策者的战略导向。
在构建企业级数据仓库时应该有两层考虑:一是技术层面的,包括数据仓库的工具选择和项目的实施等:一是业务层面,包括企业业绩分析、风险管理、客户关系管理和人力资源管理等经营战略方面的需求。
然而,从来都是需求决定技术手段。
因此,用户需求才是企业实施数据仓库计划的初衷。
数据仓库需求分析的第一步是访问公司内部的主管,由他们那里得到对数据分析面的需求。
需求分析在制作一个数据仓库的过程中是非常重要的一个步骤,当一个数据仓库设计并制作完成后,如果要修改其组织结构是一件很困难而且很耗时的工作,所以一个数据仓库在设计完成后理应能够支撑一段时间。
当然,用户的需求是无止境的,我们不可能永远不变动数据仓库的架构,也不可能禁止用户提出新的需求,但是在设计之初最好是能够将所有的需求搜索齐全(或是尽量搜索齐全),在设计方面做整体性的设计,在制作方面可以分阶段执行。
为了得到更充分、更准确的需求分析,我认为应遵循以下原则:1.让用户参与,尽力让用户的高层参与,双方要紧密配合2.要迅速、全面的理解用户的业务及工作流程3.培训,要不停的向用户灌输数据仓库与传统业务系统的不同做法4.不要求完美,而要求实用,应用将是螺旋上升的。
大数据时代:数据仓库建设指南

大数据时代:数据仓库建设指南随着信息技术的高速发展,我们正处于大数据时代。
企业在日常的经营管理中面对的海量数据日益增长,如何利用这些数据来指导企业的发展和决策是一个亟待解决的问题。
在这个时代中,数据仓库建设成为了企业重要的战略决策。
一、数据仓库的定义数据仓库是一个面向主题的、集成的、相对稳定的、不断更新的数据集合,用于支持管理决策。
数据仓库中的数据主要来自于不同的操作系统、不同的数据库和文件系统,这些数据经过清洗、去冗余、集成、转换和载入等处理后,形成了面向主题、集成的数据仓库。
它的主要用途是为管理人员提供决策支持,为分析、查询和报告提供多维度的数据视图,并保证数据的一致性、准确性和稳定性。
二、数据仓库建设的重要性1、明确企业战略目标在构建数据仓库之前,企业需要明确自己的战略目标,以便确定需要收集哪些数据,并决定如何将这些数据整合起来。
这样可以确保建设的数据仓库能够真正支持企业的战略目标,并且可以高效地收集和管理数据。
2、提高数据分析能力数据仓库可以为企业提供多维度的数据视图,支持数据分析、查询和报告。
这能够使企业更好地理解市场和客户需求,提高竞争力。
3、优化决策效率数据仓库可以为企业提供实时的数据支持,帮助决策者准确地掌握企业的发展情况,从而更快地做出决策。
同时,通过对历史数据的分析和处理,可以帮助企业预测未来的趋势和可能的风险,从而更好地制定战略。
三、数据仓库建设的步骤1、需求分析和规划在进行数据仓库建设前,企业需要明确自己的需求和目标。
这包括确定数据仓库的主要用途,例如数据分析、业务报告等。
同时还需要考虑数据的来源、数据的质量、数据的结构等。
这个过程中,需要专业的团队进行规划和分析,确保数据仓库可以真正支持企业的目标和需求。
2、数据源的筛选和加载确定了数据需要从哪些来源获得后,需要经过筛选和清洗,以保证数据的质量和准确性。
同时,还需要制定整个数据仓库的数据字典,为数据的管理和维护提供指导。
数据仓库设计与优化技巧分享

数据仓库设计与优化技巧分享数据仓库是一个集成、主题导向、相对稳定且面向主题的数据集合,用于支持管理者的决策制定过程。
在现代企业中,数据仓库已经成为了一个不可或缺的组成部分。
为了最大限度地提高数据仓库的效率和性能,设计和优化数据仓库变得至关重要。
本文将分享一些数据仓库设计与优化的技巧,以帮助读者从中受益。
1. 定义明确的业务需求在设计和优化数据仓库之前,首要任务是定义明确的业务需求。
了解企业的需求和期望,以及数据仓库将如何为决策制定者提供有价值的信息,是设计和优化数据仓库的基础。
通过与业务部门密切合作,了解业务规则、流程和数据要求,可以确保数据仓库满足实际需求。
2. 选择合适的数据模型在数据仓库设计中,数据模型的选择非常重要。
常用的数据模型包括星型模型和雪花模型。
星型模型简单而直观,适用于简单的数据分析场景,而雪花模型则适用于更复杂的场景。
按照业务需求选择合适的数据模型,可以提高数据仓库的查询效率和性能。
3. 数据抽取与转换数据仓库的设计不仅仅涉及到数据模型,还包括数据的抽取与转换。
正确的数据抽取与转换过程对于数据仓库的性能至关重要。
数据抽取是将数据从源系统中提取出来的过程,转换则是将这些数据进行清洗、转换和整合的过程。
确保数据的准确性和一致性,并避免冗余或重复数据,可以提高数据仓库的可靠性和查询效率。
4. 数据加载策略数据加载是将准备好的数据载入数据仓库的过程。
在设计数据加载策略时,需要考虑到数据量、加载频率和数据仓库的实时性要求。
有时候,数据仓库也需要与其他数据源进行实时数据同步,以便实时提供最新的数据分析结果。
根据实际情况选择和优化数据加载策略,可以提高数据仓库的性能和可用性。
5. 设计合理的数据存储结构数据存储结构是数据仓库的核心组成部分。
在设计数据存储结构时,需要考虑到数据仓库的查询需求和性能要求。
使用合适的数据分区和索引技术,可以加快数据的查询和分析速度。
此外,还需要定期调整数据存储结构,以保持数据仓库的性能和效率。
数据仓库设计与构建的方法与经验总结

数据仓库设计与构建的方法与经验总结随着数据量的不断增长和企业对数据分析需求的提升,数据仓库在企业中的重要性逐渐凸显出来。
数据仓库作为一个集成多种数据源、支持多维分析的数据库,对企业的决策和业务战略制定起着至关重要的作用。
本文将总结数据仓库设计与构建的方法与经验,旨在帮助读者更好地完成数据仓库的建设。
首先,数据仓库设计的关键在于清晰的业务需求理解。
在设计数据仓库之前,必须充分理解业务需求,包括决策者需要的数据、核心业务指标和分析维度等。
通过与决策者和业务部门的深入沟通,建立一个清晰、全面的业务需求文档,对后续的数据仓库设计和构建工作至关重要。
在数据仓库设计过程中,需要进行合适的数据抽取、转换和加载(ETL)操作。
数据抽取时要根据业务需求确定数据源,并通过合适的方式(如API、文件导入等)将数据导入数据仓库。
在数据转换阶段,需要将数据进行清洗、整合和集成,确保数据的准确性、一致性和完整性。
最后,将转换后的数据加载到数据仓库,并进行必要的数据校验来保证加载过程的正确性。
数据仓库的数据建模也是极为重要的一步。
在数据建模过程中,可以采用维度建模或规范化建模的方法,根据具体情况选择适合的模型。
维度建模适用于多维分析场景,通过定义事实表和维度表来支持对数据的多维度分析。
规范化建模适用于需要对数据进行频繁的更新和维护的场景,通过分解数据为多个表来避免数据冗余和数据更新异常。
根据业务需求和数据情况选择合适的建模方法,有助于提高数据仓库的性能和灵活性。
并行处理是数据仓库构建中提高性能的关键技术之一。
通过并行处理,可以有效地利用多个处理单元,加快数据的抽取、转换、加载和查询等操作。
合理配置和利用硬件设备,采用并行处理技术提高数据仓库的处理效率,可以减少数据仓库建设周期,提升用户体验。
除了设计与构建的方法,经验也是数据仓库建设过程中不可忽视的因素。
以下是一些宝贵的经验总结:1. 保持数据仓库的数据质量。
数据仓库的数据质量对于后续的分析和决策至关重要。
数据仓库的设计和建设原则和方法

数据仓库的设计和建设原则和方法随着企业数据规模的快速扩张和多样化,数据仓库已成为企业管理决策的重要工具。
数据仓库是以业务为基础、面向主题、集成的、稳定的、反映历史数据和随时间变化的数据的决策支持系统。
数据仓库的设计和建设,直接关系到企业决策水平和效率的提升。
本文将从数据仓库的概念、设计和建设原则以及关键技术等方面入手,深入探讨数据仓库的设计和建设原则和方法。
一、数据仓库的概念和特点数据仓库可以被视为数据库系统的一个特殊类型,它的最终目的是为了提供决策支持系统所需要的数据。
我们可以将数据仓库看作是支持整个企业决策制定的中央数据资源库,数据仓库中的数据是以主题为中心的,而不是以数据的分类为中心的。
因此,在数据仓库中数据之间的逻辑关系和数据的描述信息更为重要。
企业数据仓库的特点可以概括为:稳定、高效、集成、灵活、易用、易于扩展。
为了达到以上特点,数据仓库的设计和建设需要遵循一定的原则。
二、数据仓库的设计和建设原则1. 主题性原则数据仓库是以主题为中心的,因此谁使用数据仓库谁就是数据仓库的主题。
这也就是说一定要明确数据仓库中所包含的主题、对象、目的以及相应的分析需求,这是数据仓库应该始终注意的问题。
一个好的数据仓库,必须具备明确的主题性目标,它是建立在对业务主题的深刻理解和细致分析基础之上的。
2. 集成性原则数据仓库的数据来自不同的来源,需要通过从数据源中选取最有用的数据,并及时地对这些数据进行清洗、转换和加载等过程,使其达到一致性和可比性。
数据仓库所采用的各种数据格式都需要能够相互转换和兼容。
因此,数据仓库的设计和建设应该加强数据清洗、转换和加载等过程,并考虑到数据各种格式的相互转换和兼容性。
3. 稳定性和可靠性原则数据仓库中的数据是企业数据的“黄历”,反映了企业的历史变化。
因此,数据仓库的数据必须具有稳定性和可靠性。
要保证数据仓库的稳定性,需要建立严格的数据管理制度,以确保数据仓库中每一条数据的完整性、正确性、可靠性和一致性。
金融行业中的现代化数据仓库建设指南

金融行业中的现代化数据仓库建设指南数据仓库在金融行业的应用日益重要。
随着金融市场的扩大和复杂性的增加,金融机构需要处理大量的数据,以提供准确、实时的分析和决策支持。
现代化的数据仓库建设能够帮助金融机构更好地管理和利用数据资源,提高业务效率,增强竞争力。
本文将为您介绍金融行业中现代化数据仓库建设的关键要点和指南。
一、数据战略规划建设现代化的数据仓库需要制定明确的数据战略规划。
首先,需要明确数据仓库的业务目标和需求,确定数据仓库能够提供的功能和服务。
其次,需要进行数据需求分析,确定数据仓库所需的数据来源和数据类型。
最后,需要制定数据管理和数据治理策略,确保数据仓库的数据质量和安全性。
二、数据采集与整合数据采集与整合是现代化数据仓库建设的重要环节。
金融机构需要从不同的数据来源中获取数据,并将其整合到数据仓库中。
在数据采集过程中,需要确保数据的准确性和完整性,避免数据的冗余和重复。
同时,需要制定数据采集和整合的流程和规范,确保数据的实时性和一致性。
三、数据存储和管理现代化的数据仓库需要采用适当的数据存储和管理技术。
金融机构可以选择关系型数据库、列式数据库或者分布式存储系统等。
在数据存储和管理过程中,需要考虑数据的安全性、可扩展性和性能等方面的要求。
同时,需要制定数据存储和管理的策略,包括数据备份和恢复、容灾和高可用等。
四、数据分析和应用数据分析和应用是现代化数据仓库的核心功能。
金融机构可以利用数据仓库中的数据进行各种类型的分析,包括统计分析、风险评估、预测分析和决策支持等。
同时,需要制定数据分析和应用的方法和工具,确保数据的高效利用和业务的实际需求。
五、数据质量和数据安全数据质量和数据安全是数据仓库建设中非常重要的方面。
金融机构需要确保数据仓库中的数据质量,包括数据准确性、完整性和一致性等。
同时,需要制定数据质量管理的流程和规范,定期进行数据质量检查和修正。
此外,金融机构还需要制定数据安全管理的策略和措施,保护数据仓库的安全性和隐私性。
我的数据仓库建设经验

我的数据仓库建设经验我的数据仓库建设经验2010-10-11 21:01前言:由于环境因素,得跳槽了,所以写点纪念性的东西,以下为之一。
数据仓库的建设是一个巨大的工程,按照仓库的理论思想和我自己实际的仓库建设过程,我觉得数据仓库最好分为六层的设计思想来构建和实施:一,源数据层源数据层的目的是为数据仓库提供数据来源,它的数据来自于仓库外部,如企业各应用系统,各部门的源数据,企业的外围数据,如行业标准等。
这些数据的特点是:1,它们是动态的,数据可能随时间变化。
2,它们是面向应用,面向业务的。
3,它们是明细的,数据粒度是最低的。
4,它们是固定的,在仓库建设过程中,不允许干系人更改它们。
5,它们是形式多样化的,可能以多种新式出现(如file,dbtable,dataset,xml,sap,xls等)。
6,它们的物理位置的多样性,数据可能在一台机器上,也可能在一个局域网类,也可能在internet上。
7,它们生成的多样性,我们可能每天都到一个固定的地方获取它们,也可能是临时的,跟政策相关的,经协商后产生并提供给仓库用的。
源数据层中数据的生命周期:在数据仓库建设过程中,我们只要向它们取数就行,不用考虑其生命周期。
在数据从本层到ODS层加工的过程中,我想强调的有一下几点:1,etl工具的使用:具体情况具体对待,如果源数据层的构成比较简单,数据量也比较少,加工的时间窗口充足,则为了节省成本,可以用一些免费的工具,或者自己开发工具。
如果构成比较复杂,数据量也很大,为了保证加工的时间窗口,在资金充足的情况下,建议使用datastage,informatic之类的工具,因为它们在异构数据环境下的数据搬运能力不容小觑。
2,工作内容分析:本阶段的工作是ETL的E部分,即数据的抽取。
当然也包括部分为了更好的抽取而进行的必要数据清洗过程。
这部分的工作量依赖于源数据层的构成,源数据层中数据的规整程度以及数据量的大小。
如果源数据层构成比较复杂,再加上它数据的规整程度很低,数据量又很大,则本层的工作量是相当的大。
- 1、下载文档前请自行甄别文档内容的完整性,平台不提供额外的编辑、内容补充、找答案等附加服务。
- 2、"仅部分预览"的文档,不可在线预览部分如存在完整性等问题,可反馈申请退款(可完整预览的文档不适用该条件!)。
- 3、如文档侵犯您的权益,请联系客服反馈,我们会尽快为您处理(人工客服工作时间:9:00-18:30)。
'. ;. 北京甲骨文软件有限公司咨询经理鲁百年博士 一、国内信息化的现状 1、信息化建设的发展历史: 在国内信息化建设过程中,基本上是按照当时业务系统的需求进行建设,例如:在一个企业中,财务部门为了减少工资发放的差错,提高发放的效率,先建设一个工资发放和管理程序;为了报账和核对的需求,建设一个财务管理程序;在银行首先为了业务处理的方便,将最基本的手工记帐和处理的业务建成一个系统,过一段时间,如果有新的业务推出,就再建设一个新的系统,或在原系统的基础上增加新的业务处理。这样的结果使每个系统和系统之间缺少真正的信息沟通和信息交换。
2、为何要建立数据仓库: 前面我们讲过,业务系统各自为政,相互独立。当很多业务系统建立后,由于领导的要求和决策的需求,需要一些指标的分析,在相应的业务系统基础上再增加分析和相应的报表功能,这样每个系统就增加了报表和分析功能。但是,由于数据源不统一导致了对同一个指标分析的结果不相同。为了解决该问题,Bell Inman提出了数据仓库的概念,其目的是为了分析和决策的需要,将相互分离的业务系统的数据源整合在一起,可以为领导和决策层提供分析和辅助决策。 3、国内企业对数据仓库建设认识的误区: 大家对数据仓库的认识是将业务系统的数据进行数据抽取、迁移和加载(ETL),将这些数据进行整合存放在一起,统一管理,需要什么样的分析就可提供什么样的分析,这就是数据仓库。这样做的结果是花了一年到两年的时间都无法将整个企业业务系统的数据整合在一起,花钱多、见效慢、风险大。一年后领导问起数据仓库项目时,回答往往是资金不足,人力不够,再投入一些资源、或者再延长半年的时间就会见到效果,但是往往半年过后还是仅仅可以看到十几张或者几十张报表。领导不满意,项目负责人压力也很大,无法交待。这时,项目经理或者项目负责人才意识到,项目有问题,但是谁也不敢说项目有问题,因为这样显然是自己当时的决策失误。怎么办?寻找咨询公司或者一些大的厂商,答案往往是数据仓库缺乏数据模型,应该考虑数据模型。如果建设时考虑到整个企业的数据模型,就可以建设成企业级的数据仓库(EDW)。什么是数据模型,就是满足整'. ;. 个企业分析要求的所有数据源。结果会如何,我个人认为:这样做企业级数据仓库成功的可能性太小。什么是企业级数据仓库,这是一个相对的概念,因为企业的业务系统会在不断的改善和升级,所以数据仓库的建设也会不断的完善和修改。数据仓库的建设是一个过程,它一定伴随着企业新的应用和企业各种各样新的需求而逐步完成。所以从数据整合入手、从企业级数据模型入手,均会给企业数据仓库的建设带来很大的风险。失败的概率太大了。 二、以应用驱动,数据仓库建设应由后向前
规划
前面讲了数据仓库建设从数据源入手,先进行数据整合的方法会导致失败,特别是对信息化建设比较快而且数据量特别大的企业。这是因为数据仓库的理论均是讲从企业级的数据整入手,建立数据仓库。要么是大家对Bell Inman的理论由误解,要么就是数据仓库的祖师爷害了大家。数据仓库到底应该怎么建设?我一贯的主张是应用驱动。什么样的应用呢?从企业绩效管理的角度出发,一个企业最重要的四项关键指标为:财务指标、客户指标、企业内部的流程指标和学习创新的指标。应用从那个开始,应考虑企业的现状和决策层最关心的问题入手。在一般情况下,老总和董事会最关心的问题是企业的财务指标。其次是内部流程和员工绩效考核,再下来是客户的信息和决策支持。实际上在一个企业中最先上线的系统也是企业的财务管理和业务系统,这样相对财务分析是最容易实现的。因为数据较齐全,最完整,所以分析是较容易实现的,加之上市公司对财务报表的要求是最紧迫的。对财务分析从那入手,应该分析那些指标,这些指标通过什么公式(数学模型)计算,这些模型需要那些数据,这些数据又来自于那些业务系统,这些数据是否在业务系统中存在,能否进行分析,也就是这些主题的分析是否可行,应该先进行评估。这样从应用主题入手,就可以知道需要什么样的数据,来自那些业务系统和数据源,这些数据的全体进行一定的整合,按照分析的要求存储就组成了一个数据集市(Data Mart)。 三、“想大做小”(整体设计、分布实施)
为了避免原有业务系统相对独立而形成的一个个信息孤岛,以应用驱动建设数据仓库,往往会造成新的信息孤岛。这是因为应用往往是部门级的或者是某一方面的应用,不能完全覆盖企业级的所有应用。当然我们这里不提倡一次建设企业级的应用。如何避免这个问题,是我这里着重要要强调的。这里分两种情形进行设'. ;. 计。 1、如果该公司的信息化建设相对较晚,或者才开始进行信息化建设,或者原有的业务系统已经无法支持现有的业务而需要重新改造原有业务系统,均应该整体设计,将各个系统的数据源统一存放管理,有一个统一的入口和出口。这样就避免了数据源的不统一而会导致信息孤岛,这样数据仓库的建设也就无意义了。因为企业级的数据本身就按照业务的需求和分析的需求进行设计和存放管理。在这种情况下要特别注意业务系统的安全性和效率问题。如何解决该问题,最近的网格计算正是为解决该类问题而设计的。除了统一数据源外,可以根据企业的需要,可利用一个个小型机进行不同需求的应用,OLTP和OLAP可以在不同的服务器上完成,同时可以将各个服务器的资源共享、时间任务优化分配。这样既解决了统一数据源的问题,又解决了运行安全和效率问题( Oracle 10g就是这种思想)。 2、如果该企业是一个信息化建设较早并且业务系统仍在应用,现在还需要大量的分析和辅助决策,那么就应该建设数据仓库,最少是数据集市。在设计时要考虑到企业的数据仓库,但是在实施时应该从企业最需求的数据集市入手,要考虑到该数据集市和将来慢慢一步一步建设的数据仓库应该共享一个数据源。方法步骤如下: 第一步、确立好应分析的主题(或项目),如客户关系管理系统; 第二步、设定研究分析的具体问题,如客户流失率分析,客户贡献度分析; 第三部、从这些问题出发,考察每个问题应使用的模型; 第四步、所有模型所需要那些数据;将所有分析问题所需要的数据按照分析的类型进行分类存储,建立数据集市。 当完成这个项目后,如果需要建设第二个应用(系统),如资产负债系统;重复以上四步,但是在设计时一定要考虑已经存在的客户关系管理系统,将第二个应用系统和第一个应用系统共有的数据要共享,这时应考虑两个系统上了以后的效率问题。如果存在着效率问题,则将第一个数据集市保留,并且做一个备份作为数据仓库的一部分,将第二个数据集市的数据源和第一个备份的集市进行整体合并作为现在企业级数据仓库。将第二个数据集市单独建立,但是数据源来自于共同的数据仓库,这样既保证了数据仓库的效率,也保证了数据源的同一性。这样一步一步将会建成企业级的数据仓库。 四、三分段的设计思想 '. ;. 在数据仓库建设中,我们知道可以将整体的系统化分为三个大的部分:业务系统、数据仓库、分析和展现。随着时间的发展,这三个部分随时都可能发生变化。比如:业务系统要进行升级改造或者重新建立核心业务系统,像银行的第三代;像电信的BOSS系统的改造等等。需求分析也会随着时间的发展、新的需求会不断提出,所以在数据仓库项目建设时一定要考虑三分段的设计思想。什么是三分段的设计思想:就是尽量将业务系统、数据仓库和分析展现分离设计。当业务系统发生变化时,尽量保证数据仓库的结构不变。如何做到这一点呢,那就需要在数据迁移时使用公式体系,作为数据仓库数据计算的公式,所以当业务系统发生变化时,可以通过对应关系将对应重新映射。关于业务系统变化,数据仓库的一些结构必须变化的情形我们下面将讨论。同样,当数据分析展现的要求发生变化时,数据仓库应保持相对的独立。这样数据仓库才能保证有生命力。 但是当数据仓库不得不发生变化时,是否有先进的工具可进行多维立方体的可和性计算。也就是业务系统发生变化后,有先进的工具保证数据仓库的结构不发生变化,仅仅需要进行新的立方体计算、以及和老的立方体合并,而不需要将原数据仓库的数据全部重新刷新。这样在大型企业中非常重要,因为往往一次数据刷新需要几天或几十天的时间。
五、最佳实施方案 前面考虑了数据仓库建设应该整体设计、分布实施;从应用出发,建立数据集市;然后将数据集市扩展为数据仓库。数据仓库的设计应该注意三分段的结构。数据仓库的建设是一个过程。那么,最重要的问题和步骤就是: 1、如何定义主题: 在这方面,可以有两个办法:一是企业急需解决的问题,二是借助于同行或者国外的先进经验决定主题。对于第一种情况,也需要借鉴于国内外成熟和先进的经验。需要了解成熟的主题了在国际先进的企业内成功使用的方案和工具。例如:资产负债系统、转移定价、风险管理、客户关系管理等。 2、主题设定后,应该分析那些问题: 这些问题也应该借鉴于成熟的方案和工具,加上具体的本企业的需求,这就是客户化。例如在客户关系管理系统中分析:客户的贡献度、客户的流失分析和预警、客户的忠诚度、前十位带来效益的客户和最后十位带来最大损失的客户等等;这'. ;. 些问题应该由企业和解决方案供应商共同讨论决定。 3、这些问题应该如何定义,也就是模型或者计算公式是什么: 当定义了这些问题后,公式该如何定义,很多的公式是标准的,可以应用公认的标准公式,对于其他非标准的公式,应该借鉴国际上先进的企业使用的公式和模型。在方案供应商是否有现成的工具和方案,不仅仅是方案,还应该有现成的可以灵活客户化的工具或产品。 4、当定义完公式后,数据结构应如何设计: 首先要考虑公式中的数据是否在业务系统或者其他的系统中存在,如果不存在,该如何解决?如果存在,在那个系统中,如何抽取、整理和加载。数据应该以什么样的结构进行存储和管理。源数据该如何设计?在这方面如果有成熟的工具和产品,将对项目的成功带来了多半的希望。数据的存储一定要考虑到业务系统的变化带来的数据仓库结构的变化,一般也要考虑到五年存储的数据,当第六年的数据导入时,需要将五年前的一年数据迁移到磁盘阵列或其他的存储设备时,如何将多维立方体分割。要考虑如何将新的业务数据增加到数据仓库时多维立方体的可和性。 5、当解决了数据的存储和管理后,数据仓库应用该如何展现: 展现是使用者十分关注的问题,展现的易用性、直观性和灵活性是十分重要的,可以采用流览器方式,报表、图形和多维展现或动画。但是一定要注意速度和效率。 6、展现确定后,速度效率如何提高: 对于一个非常重要的报表,例如:现金流、资产负债表和损益表,企业的三、四位老总可能非常关心,每天或者季度初的第一天早上上班先要察看该报表的结果,第一个老总很快看到了结果,但是第二个、第三个需要三十秒、一分钟的时间哪就无法忍受。所以系统一定要考虑做压力测试,采用好的解决方案。如将常用的报表做上几个备份,或者多开上几个监听器。为了提高效率,数据的存储结构是十分重要的,比如对离散数据可以进行转置存储、对于一年都很少改变几次的数据,如信贷数据,可以采取时间压缩的方法等等。 7、硬件如何配置,才能保证安全性、效率问题得到圆满的解决: 考虑了数据存储的结构后,要考虑数据需要保留几年,需要估计存储数据量的大小,以保证硬件的采购和效率。