银行数据仓库构建的方法论

相关主题
  1. 1、下载文档前请自行甄别文档内容的完整性,平台不提供额外的编辑、内容补充、找答案等附加服务。
  2. 2、"仅部分预览"的文档,不可在线预览部分如存在完整性等问题,可反馈申请退款(可完整预览的文档不适用该条件!)。
  3. 3、如文档侵犯您的权益,请联系客服反馈,我们会尽快为您处理(人工客服工作时间:9:00-18:30)。

银行数据仓库构建的方法论

中国农业发展银行李小庆

(专注、专业、专长。作者为金融信息化专家,管理学博士)

银行数据仓库是用于决策支持的、面向主题的、集成的、稳定的和随时间变化的数据集合,它的目标是辅助决策,因此其历史的、概括的数据比详细的、个别的记录更重要。由于数据仓库中的数据是集成化的数据,它可能来自多个(异种)操作数据库,可能跨越较长的时间周期,它比操作数据库大几个数量级。一般而言,企业级的数据仓库其数据量可达几TB至几十TB之间,工作负荷主要是查询和分析。通常,复杂的查询可以访问几百万条记录,执行许多的扫描、连接和聚合操作,在这里查询吞吐量和响应时间比事务吞吐量更重要。

目前,各家银行已就相关业务建立了数据仓库,并初步取得了应用效果。但是,当前数据仓库都是根据具体业务分类进行建设,只能实现业务范围内的单目标决策,为了实现综合目标决策支持,就需要将不同类型数据仓库中的数据再次集成起来,并对其进行存储、管理和维护。因此,本文提出银行数据仓库的概念,通过建立全行综合性的数据仓库,采用分析软件或挖掘工具进行分析和挖掘,实施多目标决策。也就是说综合银行现有的货币经营数据仓库、信贷业务数据仓库、银行卡数据仓库、人事数据仓库等数据仓库的进行再次整合,建立一个面向主题的、集成的、综合的和持久的数据集合,在此基础上进行多维分析和数据挖掘,为银行的业务进行综合分析和战略决策提供有力的数据平台。

一、数据仓库模型和创建过程描述

尽管数据仓库是面向主题的,并为分析需求保存了许多综合数据,但对各类银行业务分类建立数据仓库,因此建立面向所有主要业务和内部管理流程、具有综合性特征的数据仓库,成为当前银行创新业务品种、提高服务质量的实际需求。数据仓库分析和决策目标众多,相关需求千变万化,数据仓库的主题面临不断增加、完善和调整,同时随着数据的不断加载,数据仓库会越来越庞大。如果仅仅基于单一层次建立数据仓库,将使系统的性能低下,因此,在实际应用中应建立分层的数据仓库体系化结构。根据管理层次的需求,数据仓库体系化结构环境可分为三个层级:基础层级、部门层级和高级管理层级的数据仓库。

基础层级数据仓库中存放的是一些细节性的操作型数据,服务于高性能的偏向事务类的分析和全行统计类的分析。部门层级数据仓库中一般仅包括某类业务的全部导出数据,用于部门决策类分析。而高级管理层级的数据仓库的数据都是综合粒度的,用于银行高管人员启发式分析。数据仓库的体系化结构环境能较好地与银行的“高-中-低”形式的组织结构相对应。如普通OLAP分析人员主要应用基础层级数据仓库,进行日常业务分析处理和统计;中层管理主要应用部门层级数据仓库,它既包括一般业务处理,又可进行定量分析,做出一般决策和控制;高层管理应用高级管理层级数据仓库,主要任务是进行战略决策,需要进行复杂的分析加工。

由于当前各个厂商提供的数据仓库解决方案从系统架构到具体硬件软件功能划分都或多或少的存在差异,所以相对应的在数据仓库项目的分析、开发和实施过程中遵从的方法论也不尽相同。建立银行数据仓库是一项系统工程,需要组织各方面的资源,协调各方面的关系。可扩展数据仓库建设方法论的三个阶段主要包括:统一规划,设计和实施,评估和提高三个阶段,如下图所示。

图1 银行数据仓库建设三个阶段

二、银行数据仓库的规划流程

数据仓库的规划阶段主要是为了明确业务问题,并为初步的数据仓库解决计划建立模型和开发架构。它通过下面的服务流程来完成。

1、业务发现流程

业务发现流程是针对业务部门面对的问题提出实际的基于信息方式的解决方案,这里强调的是业务问题,而不是技术问题。业务发现的结果是对于问题有统一的认识,对主要问题进行优先考虑,确认解决问题将获得的可预测的利润,并对解决问题将带来的“底线”(bottom line)影响做出分析。

2、信息发现流程

通过确定关键的业务需要和信息需求以帮助信息部门精炼解决方案的需求。接着建立数据模型,用以给客户展示如何将数据转变成有用信息及用来解决关键问题。支持业务需求的数据模型由外部(或内部)顾问提供,这是数据仓库技术解决方案的基础。

3、逻辑数据模型设计流程

为每一个特定的解决方案提供一个数据逻辑模型,其中包括需求的确认、项目计划的创建和表示关系和属性的数据逻辑模型的生成。逻辑模型对任何平台或数据库而言都不是明确的,且不存在任何物理依赖性。事实上,它代表的是元数据层,最简单地说,就是关于数据的描述数据。

4、数据仓库架构设计流程

为客户定义的环境设计一个特殊的架构,并指定了数据仓库的位置(集中式、虚拟或分布式)、网络需求、用户的访问方式等等。

三、银行数据仓库的设计和实施流程

银行数据仓库的系统设计是面向分析的,它的开发往往从最基本的主题开始,不断地发展新的主题,完善原有的主题,最终建立一个面向主题的分析型数据环境。在银行数据仓库环境下,并不存在操作型环境中较为固定的控制流、数据处理流和信息流,数据分析处理的需求更加灵活,没有固定的格式。因而,在进行银行数据仓库设计时,很难获得对用户需求的确切了解。这就决定了不能从用户需求出发来进行银行数据仓库设计。创建银行数据仓库是从已有数据出发,采取“数据驱动”的方法进行设计和实施,具体分为以下流程。

1、技术评估流程

技术评估确保预期解决方案的实现不存在任何技术问题,在此流程中,要对可能影响数据仓库所有小组内的业务和技术代表进行面谈,同时,还要对客户和服务解决方案准备就绪的程度进行评估,评估硬件、网络及软件环境,并分析远程数据访问请求、数据共享及文件备份、重新启动及系统恢复等方面的需求。这是为了对那些可能阻碍解决方案实施的问题进

行确认和区分优先顺序,并确定根除这些问题的后续计划。在这个流程结束时,能够确信实施方案中不存在阻碍以确认方案实现的任何技术问题。

2、数据和功能评估流程

数据和功能评估主要审查已有的数据结构及其特性,以保证满足数据仓库对数据资源的要求,还要评价用以支持解决方案的数据模型真正满足了业务要求。功能评估是为了明确数据仓库支持的技术和业务流程,并且使正在考虑中的数据仓库系统满足业务要求。

3、变化适应性评估流程

变化适应性评估是指银行在用了数据仓库之后会受到什么影响,对实施数据仓库后带来的变化将作何反应。它必须首先分析由于企业文化因素而对成功实施数据仓库造成的障碍,并提出在潜在培训方面解决这种问题的可能方案。并重点聚焦在所提议的解决方案对于技术和用户群体及他们接受变化意向所产生的影响。

4、物理数据库设计流程

物理数据库设计流程给客户提供数据仓库的物理数据库设计和最优化实施方案,它是在项目计划、逻辑数据模型和数据仓库结构设计的基础上建立的。这项服务的主要活动如下:将逻辑数据模型转变为物理数据库设计、数据库构建、优化设计以及对所构建的数据库进行功能设计。物理数据库设计流程还应提供适合于项目所在环境以及具体数据库平台的设计指南。

5、数据抽取流程

数据抽取流程设计并开发应用程序以装载和维护数据仓库的数据库。它的主要功能是定位、抽取、限定和清洗数据,并将其加载入数据仓库,还包括运行计划,以便定期重新加载或增量加载数据仓库。

6、培训和支持评估流程

培训评估是对项目参与者和最终用户的培训进行计划和组织,以支持将数据仓库整合到他们所处环境之中。支持评估则是为了确认持续支持数据仓库解决方案所需的各种要求。

7、知识发现模型开发流程

知识发现模型开发利用传统方法解决的特定业务问题进行定义,然后,以数据、资源、限制条件和假设建立模型,并为模型准备数据集,在发现过程利用预测性数据模型对这些问题做出科学的决策。

8、数据分析和挖掘流程

数据分析和挖掘流程选择最适合解决知识发现服务中所确定的业务问题的数据挖掘工具或分析应用方法。这个流程同时还包括执行针对具体的转换工具,对所准备的数据集运行在选择的应用系统上,验证结果并展示给最终用户。

9、数据仓库管理流程

数据仓库管理流程包含数据、网络、系统及操作的管理,同时包括例行的数据维护,以便更新、装载、备份、存档、监控和恢复数据,保证与已有程序的一致性和兼容性。

四、银行数据仓库的评估和提高阶段

银行数据仓库常常在内容和使用上增长很快,因此评估和提高阶段聚焦于数据仓库维护和扩展计划上。变化影响到性能,有时还会影响到评估和提高阶段数据仓库的完整性,所以,扩展计划应该非常谨慎地进行。数据仓库数据模型的设计在满足目前业务需求的基础上,必须考虑未来的业务情况和需求,需要认真考虑适应未来业务需求和技术环境的改变,同时考虑数据仓库本身涉及业务范围的扩展。

用户需求的变化根据变化的程度和对数据仓库系统的影响被分为两个不同的层次,一是可自适应的变化,即信息的需求虽然有所变化,但利用已经存储在数据仓库中的数据仍然可以支持,需要改变的只是数据访问和信息展现的方式,这不需要对数据仓库的数据结构进行

相关文档
最新文档