企业数据集市建设要点分析

企业数据集市建设要点分析
企业数据集市建设要点分析

企业数据集市建设要点分析

高并发、低延迟场景下,企业如何建设敏捷高效的数据集市

目录

一、....................................................................... 数据集市的发展态势

3

二、................................................................. 数据集市与数据仓库的对比

5

三、........................................................... 数据集市的项目建设方案及技术点

6

四、......................................................... 数据集市建设所需支持及面临的风险

9

五、......................................................................... 数据集市项目验收

11

随着大数据技术的发展,数据量急剧增长,数据的分析挖掘工作也变得越来越重要。在这背后,数据仓库的建设尤为重要,通过数仓,可以为数据分析人员提供全面的数据和计算能力。

数据仓库包括原子级别的数据和轻度汇总的数据,是面向主题的、集成的、不可更新的(稳定性)、随时间不断变化(不同时间)的数据集合,用以支持经营管理中的决策制定过程。但是数据仓

库在高并发、快速响应的场景下具有很大的局限性,无法满足海量投资者数据查询服务需求。

数据集市,也叫数据市场,是企业级数据仓库的一个子集,是为满足特定的部门或者用户的需

求,只面向某个特定的主题,按照多维的方式进行存储,包括定义维度、需要计算的指标、维

度的层次等,生成面向决策分析需求的数据立方体,提升数据查询的效率。

本文围绕着数据集市的需求、架构、方案等方面进行了问题的讨论,对于大家了解和应用数据

集市非常具有参考价值。

一、数据集市的发展态势

Q1 :当前,金融行业中在什么场景下需要建设数据集市?是否该启动数据集市建设?数据集市

的建设是由哪些因素触发的?

A1-1 :

数据集市(DataMart),也叫数据市场,是企业级数据仓库的一个子集,是为满足特定的部门或

者用户的需求,只面向某个特定的主题,数据集市存储为特定用户预先计算好的数据,从而满

足用户对性能的需求。数据集市可以在一定程度上缓解访问数据仓库的瓶颈。

数仓解决海量数据统计分析,低用户并发,大量计算。

数据集市低延时和高并发查询的情况下具备足够的支撑能力,可以7 X 24对外提供数据服务,

且不影响原有数据仓库统计分析应用的正常运行。大量生产数据的预处理在数仓进行,数据集

市接收数仓预处理后的数据。

数据集市是对数仓的补充,灵活、快速响应业务,支持用户部门自行定制数据进行统计分析,

支持高并发、性价比较高。

A1-2 :

当用户对大量数据的实时性要求非常迫切,而数据仓库无法满足时,就需要有针对性的对这些

数据进行处理,提升存储和计算的效率,这就需要建立数据集市,通过对数据的预处理,提升

数据查询处理效率。

Q2 :企业建设数据集市的动力来自哪里?建设数据集市对金融行业客户有何现实意义?

A2 :

数据集市是数据仓库的一个重要补充,满足客户对数据的即时性要求;传统数仓往往比较重存

储,且为了保持数据完整性,而严格按照范式要求保存数据,从而导致计算量很大,时效性较低。建立数据集市,有助于进一步发挥数据价值,因其面向主题,可以对数据做各种处理,从而在设计上提升数据存储和查询的效率。

Q3 :目前金融行业中,规划或者已经建设了数据集市项目的企业多吗?数据集市在金融行业中发展的态势如何?

A3-1 :

数据集市适合行业内拥有海量数据的公司,需对特定领域服务,通过互联网,对公众、监管机构提供数据服务,好处是快速灵活、降低原有数据仓库成本。

A3-2 :

金融行业积累了非常多的数据,数据质量也很高,随着金融业与技术的紧密结合,面向某一领域的数据需求变得越来越强烈,比如行情数据,很多应用都需要,这时如果形成行情的数据集市,提供数据服务,不仅避免重复建设,而且有利于数据的统一管理。

Q4 :数据集市项目的直接用户和间接用户是哪些方面?数据集市会为用户带来哪些好处?

A4-1 :

直接用户是各业务部门、各业务系统,数仓不直接为各业务系统直接提供数据服务,通过数据集市提供;间接用户是各业务系统的用户,如通过互联网办理业务的投资者用户。直接用户是可以定制化数据服务,方便、快捷,间接用户是快速响应、更好用户体验、高性能和可用性。

A4-2 :

直接用户是业务数据分析人员、业务系统负责人员,对数据有强烈的需求和敏锐的嗅觉,能够将数据价值抽象出来;间接用户就是一线业务人员,可以直接获取该数据价值,对用户及时反馈。数据集市提升了数据交互的时间,使数据的使用变得流畅。

二、数据集市与数据仓库的对比

Q1 :数据集市的出现,会使数据仓库消亡吗?

A1-1 :

不会的,两者在概念上并不完全平级,就像工厂和门店的关系一样,两者应该是相辅相成,充分发挥数据的价值的。

Q2 :数据集市、数据仓库在方法论上有什么差异,为什么选择不同的技术和平台?相比而言,数据集市和数据仓库各有什么优点和缺点?

A2-1 :

本质上没有区别,如豪华汽车和中端汽车,目的是解决不同场景的问题。

数据集市(DataMart),也叫数据市场,是企业级数据仓库的一个子集,是为满足特定的部门或者用户的需求,只面向某个特定的主题,数据集市存储为特定用户预先计算好的数据,从而满足用户对性能的需求。数据集市可以在一定程度上缓解访问数据仓库的瓶颈。

数仓解决海量数据统计分析,低用户并发,大量计算。

数据集市低延时和高并发查询的情况下具备足够的支撑能力,可以7 X 24对外提供数据服务,

且不影响原有数据仓库统计分析应用的正常运行。

A2-2 :

数据仓库用于存放着非常多的各类数据,而数据集市是把某些方面的数据包装对外服务的。所以数仓的数据全,粒度细,没有很好的加工,而数据集市可能会改变原有数据,所以粒度是较粗的。数据仓库的优点是数据全面,但是分析时效性慢,而数据集市更关注于时效性和应用场景,不关心数据本身结构。

三、数据集市的项目建设方案及技术点

Q1 :在软/硬件、开发、运行、维护和管理等各个方面面临哪些困难?如何克服?

A1-1 :

可能主要在三方面:

1、技术管理:专门的开发运维团队,和数仓(大仓)间的职责分工,集市技术人员与业务人员间的职责分工明确

2、技术架构:集市数据架构设计,从数仓(大仓)数据加载,数据集市运维监控,集市高性能、

高可用机制,业务人员灵活定制数据服务与集市日常数据服务、集市数据加载间的资源分配,

新技术掌控力度等

3、信息安全:开发、运维分离,生产操作各项安全审计,数据库本身权限最小、数据隔离机制等

A1-2 :

类比大数据平台,数据ETL是个非常重要且比较有难度的技术点,往往会有人提出数据导的不

正常或丢失、数据未正常到达等情况,这个没有较好的解决方法,只能做好监控,尽量保证各个环节正常流转。在运维方面,集群往往面临着查询和存储压力,如何在遇到问题时有效解决或者预警,这也是非常有挑战的,可以通过对平台底层的了解,不断对集群进行优化和监控。

在开发方面,需要分析人员对业务需求非常了解,才能设计出合理的数据模型,提升数据服务的效率。

Q2 :从数据的采集、数据的存储、数据的处理、数据的访问/供应等几个方面,那种方案合适,

以及如何进行设计?

A2-1 :

一般分为数据采集、数据传输、数据处理、数据存储、平台服务等方面,具体每个部分技术方案需要看企业的

需求,关键点包括:数据治理、数据加载、数据存储等方面。

A2-2 :

整体架构包括采集、存储、处理和访问等层次,就像建立大数据平台一样,这都是需要重点考虑的技术点,至于哪种方案合适,首先还是要了解各个层次对应的技术组件和成熟的解决方案,对各个技术点重点测试,掌握优缺点后才能合理组合各个组件。每个公司都会找到适合自己的整体方案,毕竟,并没有一种方案能完全适应各个公司的数据情况。

Q3 :数据集市完成的目标和使命是什么?从这个意义上讲,应该为数据集市的成功标准设计什么样的KPI ?A3-1 :

主要分为业务需求和技术需求两部分。业务需求主要是技术服务部门或系统的业务场景,建模即业务建模,需要对业务关系、实体充分了解,目前各厂商针对各个行业,如证券都有成熟业务模型。技术需求主要包括可维护性、性能、安全、监控运维等。

A3-2 :

需求模型的确定需要详细了解业务需求,同时具备数据建模思维,将需求转化为数学模型,从

而通过数据集市计算引擎实现。数据集市是否有效的衡量标准有扩展性、性能、稳定性、安全、

易用性等方面。

Q4 :金融行业在数据集市项目中,是否涉及到主机、存储、数据库、系统管理等的选型?如何选型?

A4-1 :

在数据集市项目中,重点关注数据集市的系统技术方案,好的数据存储和计算引擎是数据集市

项目成功与否的关键,存储格式、计算性能、扩展性、稳定性、安全性、数据ETL等方面都是

要考察的技术点,就像大家选择oracle做OLTP系统一样,选择一个好的底层引擎,才有可能

将数据集市做大做强。

A4-2 :

一般数据集市和企业数据仓库或大数据平台一起进行选型,主要考虑点包括分布式系统,性价比低,国产厂商,金融行业成功案例,满足各项需求指标等。

Q5 :金融行业在规划数据集市项目时,有哪些技术路线可选?如何选?还有,有哪些数据集市的供应商可选?如何考察?

A5 :

最主要在于分布式数据库选型,如传统关系型如oracle、db2 , mpp 架构GP、TD、Gbase ,

新兴分布式架构,如阿里云、华为、星环大数据平台等。

Q6 :金融行业在实施数据集市项目时,成本组成有哪些?

A6-1 :

主要四方面,软件平台厂商支持、团队建设、应用系统开发、硬件维护。

A6-2 :

主要包括硬件服务器、软件平台、平台管理人员、数据分析团队(建模、数据服务化、系统开发)。

Q7 :数据集市中有大量数据时,数据之间的关系应该怎么管理呢?场景问题:面对大量的数据集市中的数据,有可能针对同一个属性从不同的表里得到是存在不一致的情况的。这种情况怎么处理?

A7-1:

这需要两方面:

1、充分理解业务场景,进行元数据管理,定义各表中各字段的业务含义

2、加强数据治理,在数据ETL时对业务系统数据进行按照元数据规则进行预处理。

A7-2:

这个也是数据分析时遇到的共性问题,数据仓库同样由此问题,通常的做法就是建立元数据标准,在数据ETL 的时候进行标准化处理,避免数据不一致的情况。

Q8 :实施数据集市的项目时,对于项目参与人员,应该如何规划培训学习进行技能储备?

A8-1 :

数据集市的项目跟建立大数据平台一样,是个大工程,都面临着数据ETL、存储、计算、数据

管理等技术方面的挑战,而比大数据平台更复杂的是数据集市是个面向业务人员的OLAP型系统,如何满足业务各种各样的建模需求也是建立数据集市面临的一个大问题。所以,项目人员

既要懂底层技术,又要懂上层业务,只有这样才能发挥数据集市的优势。在技术方面,可以类

比大数据平台,可以储备数据ETL、分布式存储、分布式计算、管理和运维的经验;业务上就

要深入了解业务需求,转化为数据模型。

四、数据集市建设所需支持及面临的风险

Q1 :数据集市的建设方应该是那个部门?哪些部门需要提供支持?以及什么样的支持?

A1-1 :

建设方为技术部门的数据仓库组或技术平台组,所服务业务部门,技术部门各业务系统组,采购、财务部门,按照各部门分工支持配合。

A1-2 :

业务部门、技术部门(主要为数据分析团队、数据仓库团队)应当作为核心部门对此支持,主要为实施、分析和使用;其余部门应当作为辅助。

Q2 :比如在技术上、组织授权上、人员力量上、流程上、管理上、资金投入上等各个方面,会有哪些风险,如

数据集市

数据集市概述 数据集市也叫数据市场,是一个从操作的数据和其他的为某个特殊的专业人员团体服务的数据源中收集数据的仓库。从范围上来说,数据是从企业范围的数据库、数据仓库,或者是更加专业的数据仓库中抽取出来的。数据中心的重点就在于它迎合了专业用户群体的特殊需求,在分析、内容、表现,以及易用方面。数据中心的用户希望数据是由他们熟悉的术语表现的。 数据仓库是一个集成的、面向主题的数据集合,设计的目的是支持DSS(决策支持系统)功能。在数据仓库里,每个数据单元都和特定的时间相关。数据仓库包括原子级别的数据和轻度汇总的数据,是面向主题的、集成的、不可更新的(稳定性)、随时间不断变化(不同时间)的数据集合,用以支持经营管理中的决策制定过程。 那么数据集市就是企业级数据仓库的一个子集,他主要面向部门级业务,并且只面向某个特定的主题。为了解决灵活性和性能之间的矛盾,数据集市就是数据仓库体系结构中增加的一种小型的部门或工作组级别的数据仓库。数据集市存储为特定用户预先计算好的数据,从而满足用户对性能的需求。数据集市可以在一定程度上缓解访问数据仓库的瓶颈。 数据集市的特征 ?数据集市的特征包括规模小 ?有特定的应用 ?面向部门 ?由业务部门定义、设计和开发 ?业务部门管理和维护 ?能快速实现 ?购买较便宜 ?投资快速回收 ?工具集的紧密集成 ?提供更详细的、预先存在的、数据仓库的摘要子集 ?可升级到完整的数据仓库 数据集市中数据的结构 数据集市中数据的结构通常被描述为星型结构或雪花结构。一个星型结构包含两个基本部分——一个事实表和各种支持维表。 事实表

事实表描述数据集市中最密集的数据。在电话公司中,用于呼叫的数据是典型的最密集数据;在银行中,与账目核对和自动柜员机有关的数据是典型的最密集数据。对于零售业而言,销售和库存数据是最密集的数据等等。 事实表是预先被连接到一起的多种类型数据的组合体,它包括:一个反映事实表建立目的的实体的主键,如一张订单、一次销售、一个电话等等,主键信息,连接事实表与维表的外键,外键携带的非键值外部数据。如果这种非键外部数据经常用于事实表中的数据分析,它就会被包括在事实表的范围内。事实表是高度索引化的。事实表中出现30到40条索引非常常见。有时实事表的每列都建了索引,这样作的结果是使事实表中的数据非常容易读取。但是,导入索引所需的资源数量必须为等式提供因数。通常,事实表的数据不能更改,但可以输入数据,一旦正确输入一个记录,就不能更改此记录的任何内容了。 维表 维表是围绕着事实表建立的。维表包含非密集型数据,它通过外键与事实表相连。典型的维表建立在数据集市的基础上,包括产品目录、客户名单、厂商列表等等。 数据集市中的数据来源于企业数据仓库。所有数据,除了一个例外,在导入到数据集市之前都应该经过企业数据仓库。这个例外就是用于数据集市的特定数据,它不能用于数据仓库的其他地方。外部数据通常属于这类范畴。如果情况不是这样,数据就会用于决策支持系统的其他地方,那么这些数据就必须经过企业数据仓库。 数据集市包含两种类型的数据,通常是详细数据和汇总数据。 详细数据 就像前面描述过的一样,数据集市中的详细数据包含在星型结构中。值得一提的是,当数据通过企业数据仓库时,星型结构就会很好的汇总。在这种情况下,企业数据仓库包含必需的基本数据,而数据集市则包含更高间隔尺寸的数据。但是,在数据集市使用者的心目中,星型结构的数据和数据获取时一样详细。 汇总数据 数据集市包含的第二种类型数据是汇总数据。分析人员通常从星型结构中的数据创建各种汇总数据。典型的汇总可能是销售区域的月销售总额。因为汇总的基础不断发展变化,所以历史数据就在数据集市中。但是这些历史数据优势在于它存储的概括水平。星型结构中保存的历史数据非常少。 数据集市以企业数据仓库为基础进行更新。对于数据集市来说大约每周更新一次非常平常。但是,数据集市的更新时间可以少于一周也可以多于一周,这主要是由数据集市所属部门的需求来决定的。 数据集市的常见问题

证券行业投资者服务数据集市-建设方案

证券行业投资者服务数据集市 建设方案

目录 1.背景介绍 (4) 2.项目需求 (5) 1.功能性需求 (5) 2.非功能性需求 (6) 3.安全性需求 (6) 3.技术架构 (6) 3.1.逻辑架构 (6) 1.数据采集途径一:批量数据ETL (7) 2.数据采集途径二:准实时数据同步 (7) 3.数据存储 (8) 4.数据服务 (8) 3.2.数据架构 (8) 3.3.物理架构 (10) 1.批量数据ETL服务器 (11) 2.数据缓存队列服务器集群 (12) 3.集市数据库及并行计算服务器集群 (12) 4.应用服务器集群 (12) 4.关键技术 (13) 4.1.NoSQL数据库:SequoiaDB (13) 4.2.批量数据加工:Spark SQL (16) 4.3.实时数据流处理:Kafka + Sparkstreaming (17) 5.总结和展望 (18) 5.1.项目成果 (18) 5.2.未来规划 (19) 1.批量数据ETL流程优化 (19) 2.数据生命周期管理 (19) 3.元数据管理 (20)

1.背景介绍 我国股市约有1.2 亿散户,直接关乎上亿家庭、数亿人切身利益,保护好投资者尤其是中小投资者的合法权益,是资本市场工作人民性的具体体现,也是服务实体经济的应有之义。党的十九大明确提出“必须坚持以人民为中心的发展思想”。中国证监会有关负责人表示,要认真贯彻落实十九大精神和党中央、国务 院关于资本市场建设的一系列决策部署,加快推动形成融资功能完备、基础制度扎实、市场监管有效、投资者合法权益得到有效保护的多层次资本市场体系,切实做好投资者保护工作。证监会主席刘士余先后多次强调“投资者保护重如泰山”、“保护投资者合法权益是证监会职责和使命所在”、“保护中小投资者合法权益是天大的事”。目前,公司对投资者服务主要依赖人工柜台,柜员手工进行业务操作和数据查询,受限于服务网点数量和人工办理效率,不能很好满足投资者服务需求。为更好地服务广大中小投资者,保护其合法权益,根据公司战略布局和技术规划,决定建设多渠道的投资者综合服务专区系统及相配套的面向投资者服务的数据集市,为其提供用户体验好、快速便捷、智能化的账户查询和证券质押等服务。 在数据集市建设之前,数据查询主要依赖于数据仓库。数据仓库是一个集成的、面向主题的数据集合,设计的目的是支持决策支持系统的功能。在数据仓库里,每个数据单元都与特定的时间相关。数据仓库包括原子级别的数据和轻度汇总的数据,是面向主题的、集成的、不可更新的(稳定性)、随时间不断变化(不同时间)的数据集合,用以支持经营管理中的决策制定过程。数据仓库是一个典型的OLAP 系统,在高并发、快速响应的场景下具有很大的局限性,无法满足海 量投资者数据查询服务需求。目前数据仓库使用TD 一体机设备,成本十分高昂。数据集市(Data Mart) ,也叫数据市场,是企业级数据仓库的一个子集,是为满足特定的部门或者用户的需求,只面向某个特定的主题,按照多维的方式进行存储,包括定义维度、需要计算的指标、维度的层次等,生成面向决策分析需求的数据立方体。为了解决灵活性与性能之间的矛盾,数据集市就是数据仓库体系结构中增加的一种小型的部门或工作组级别的数据仓库。数据集市存储为特定用户

企业数据集市建设要点分析

企业数据集市建设要点分析 高并发、低延迟场景下,企业如何建设敏捷高效的数据集市

目录 一、数据集市的发展态势 (3) 二、数据集市与数据仓库的对比 (5) 三、数据集市的项目建设方案及技术点 (6) 四、数据集市建设所需支持及面临的风险 (9) 五、数据集市项目验收 (11)

随着大数据技术的发展,数据量急剧增长,数据的分析挖掘工作也变得越来越重要。在这背后,数据仓库的建设尤为重要,通过数仓,可以为数据分析人员提供全面的数据和计算能力。 数据仓库包括原子级别的数据和轻度汇总的数据,是面向主题的、集成的、不可更新的(稳定性)、随时间不断变化(不同时间)的数据集合,用以支持经营管理中的决策制定过程。但是数据仓库在高并发、快速响应的场景下具有很大的局限性,无法满足海量投资者数据查询服务需求。数据集市,也叫数据市场,是企业级数据仓库的一个子集,是为满足特定的部门或者用户的需求,只面向某个特定的主题,按照多维的方式进行存储,包括定义维度、需要计算的指标、维度的层次等,生成面向决策分析需求的数据立方体,提升数据查询的效率。 本文围绕着数据集市的需求、架构、方案等方面进行了问题的讨论,对于大家了解和应用数据集市非常具有参考价值。 一、数据集市的发展态势 Q1:当前,金融行业中在什么场景下需要建设数据集市?是否该启动数据集市建设?数据集市的建设是由哪些因素触发的? A1-1: 数据集市(Data Mart) ,也叫数据市场,是企业级数据仓库的一个子集,是为满足特定的部门或者用户的需求,只面向某个特定的主题,数据集市存储为特定用户预先计算好的数据,从而满足用户对性能的需求。数据集市可以在一定程度上缓解访问数据仓库的瓶颈。 数仓解决海量数据统计分析,低用户并发,大量计算。 数据集市低延时和高并发查询的情况下具备足够的支撑能力,可以7×24对外提供数据服务,且不影响原有数据仓库统计分析应用的正常运行。大量生产数据的预处理在数仓进行,数据集市接收数仓预处理后的数据。

商业银行数据集市概述

商业银行基于数据仓库的数据集市的解决方案 翟建国,李文生 北京邮电大学计算机科学与技术学院,北京(100876) E-mail:zhaijg2008@https://www.360docs.net/doc/dd13355045.html, 摘要:在数据仓库建设的后期,由于企业的多个部门都开始使用数据仓库所提供的服务。而这些部门之间往往又对数据仓库有不同的要求,很多人就提出了在数据仓库基础上构建数据集市的概念。虽然在业务系统中拥有足够的信息来进行数据分析,但是很难从这些系统中提取有意义的信息而且速度也较慢。而且虽然这些系统可支持预定义报表,但却无法支持一个部门对数据进行历史的、集成的、智能的和易于访问的分析。因为业务数据分布在许多跨系统和平台的表中,而且通常是“脏的”,包含了不一致和无效的值,使得分析难于进行。数据集市可以合并不同系统的数据源来满足业务信息需求。本文针对某商业银行数据仓库建设本身的特点,提出了一整套切实可行的针对这家银行的数据集市建设的解决方案,并成功应用于实际项目中,希望对其他银行或者企业在建设自己的数据集市时具有参考意义。 关键字:数据仓库,ODS,ETL,数据集市。 0.引言 某商业银行数据仓库的建设目前已经初具规模,随着相关数据逐步积累,数据仓库的资源已经完全可以满足各类分析系统的数据需求,按照这家银行的技术架构,数据集市的建设已经迫在眉睫。 数据集市的建立可以解决各系统数据获取得问题,并在集市范围内得到最大的共享,数据集市可以根据各系统的数据需求,建设成一个高度整合的业务系统数据平台,经过整合后的数据便于应用的掘取、操作,发挥最大的效能。 数据集市的建立可以有效缓解数据仓库时间窗口的争用问题,加快各系统数据获取的速度。同时整合的数据集市不仅可以解决信息不对称等方面的问题,且整合后方便统一管理,降低费用,提升效能、增进安全,使得整体架构更加合理化、科学化。 1.数据仓库技术 1.1数据仓库介绍 数据仓库技术是数据库与人工智能两项计算机技术相结合的产物,是当今信息管理技术的主流,它利用人工智能中的机器学习、知识处理和神经网络等方法,从数据库中挖掘有用信息、发现知识、搞清数据库中大量数据之间的相互关联及众多数据之间存在的规律,可供使用者有效分析和利用数据库中的已存储的各种有用信息,以帮助决策者迅速做出决策,从而使企业产生巨大的经济效益。 数据仓库是“面向主题的、集成的、稳定的和随时间变化的数据集合,主要用于决策制定”(Bill Inmon,Building the Data Warehouse)。数据仓库的这些特点决定了它与传统的面向事物处理的数据库有着本质的不同。作为一个新兴的研究领域,数据仓库发展得很快,许多大学和公司都在这个领域进行着广泛深入的研究,其中尤以斯坦福大学、IBM Almaden研究中心、威斯康辛大学、微软和AT&T的研究最具代表性。[1] 1.2 基于数据仓库建立数据集市 随着反洗钱系统、运行内控系统、审计系统等项目的启动,各个系统的技术架构必然都

数据仓库数据集市体系结构改进

数据仓库与数据集市 (1)数据仓库(DW)的定义 有关数据仓库这一概念目前还没有统一的定义,其中比较公认的是由数据仓库之父W.HJnmon在《BulldingtheDatawarehouse》一书中给出的定义:数据仓库是一个面向主题的、集成的、非易失的、随时间变化的、用来支持管理人员决策的数据集合。 数据仓库处理的数据与一般的信息系统中的数据不同,它来自结构不同的、分布的数据源,包括细节数据、综合数据、历史数据和外部数据。在美国,数据仓库技术和应用的发展很快,近年来已成为仅次于Intemet的又一技术热点。数据仓库的发展是市场激烈竞争的结果,因为成功的数据仓库系统可以为企业带来巨大的经济效益以及良好的信息服务。数据仓库技术的真正意义在于帮助人们制定能够改进商业活动的决策。 基于数据仓库的决策支持系统需要从企业长期的业务活动所积累的大量数据中分析企业的发展规律和市场变化趋势,一般不对数据仓库中的数据进行更新操作,主要进行经常性的复杂查询操作。数据仓库与操作型数据库有很大的区别,所以需要将两种环境分开。两种数据环境的区别主要表现在以下几个方面: ①系统性能不同:在操作型系统中,数据的输人、更新和删除等操作很频繁,实时性要求高,一般要求在极短的时间内得到响应,否则会影响用户的使用。而在面向分析的数据仓库中,数据一旦进人数据仓库,就很少被更新。但决策用到大量数据的复杂查询分析,这些复杂的查询操作可能会花费较长的时间,如几分钟甚至几十分钟,如果在操作型数据环境中进行数据分析,会严重影响系统的性能。 ②数据访问方式不同:各种数据源对数据仓库的用户来说是透明的,而数据库的用户需要考虑数据库的结构。 ③数据格式不同:操作型系统存放的是细节数据,不同的数据源数据格式可以不同;而数据仓库中既存放细节数据,又存放各种粒度级别的综合数据,所有数据以提高查询速度为目的进行存储和管理。 除此,数据仓库中还需要包括来自外部数据源的数据、半结构化/非结构化数据和历史数据。所以用于分析的数据仓库环境与操作型数据环境必须分开,以免相互影响、相互干扰。数据仓库体系结构的要求:不能妨碍操作型数据系统,具有数据抽取和转换功能,管理当前数据和历史数据,快速响应复杂的查询,并提供有效的分析工具。 能满足这些要求的数据仓库一般具有以下特性: ①基于维模型; ②保留历史数据; ③包括详细数据和概括性数据;

数据仓库和数据集市

数据仓库和数据集市 上海复旦德门软件有限公司 朱建秋 博士 企业从事数据仓库项目时,往往会遇到多个数据仓库软件供应商。各供应商除了推销相关的软件工具外,同时会向企业灌输许多概念,其中,数据仓库和数据集市是最常见的。由于术语定义不统一,另外各个供应商销售策略不一样,往往会给企业带来很大的混淆。最典型的问题是:到底是先上一个企业级的数据仓库呢?还是先上一个部门级的数据集市?本文试图说明这两个概念之间的区别和联系,以期对具体的数据仓库项目有所裨益。 1.为什么会出现数据仓库和数据集市? “数据仓库”的概念可以追溯到80年代中期。从本质上讲,最初数据仓库是想为操作型系统到决策支持环境的数据流提供一种体系结构模型,并尝试解决和这些数据流相关的各种问题。 在缺乏“数据仓库”体系结构的情况下,早期的决策支持环境如图1所示。企业内部存在许多冗余的、重复建设的决策支持系统(通常是报表系统),这些系统被不同类型的用户使用,数据的抽取层次复杂,最初在OLTP 上抽取,再在抽取后的数据集上抽取,如此等等,呈“蜘蛛网”状,由于没有公共的数据源,并且数据没有时间点,导致了产生的报表可信度下降,数据不一致问题特别显著,更不用说转化为有效的决策信息。 为了解决上述问题,数据仓库应运而生。数据仓库构建了一种以集中式的数据存储为核心的体系结构,数据存储的模式为了适应决策分析的要求,从而形成一种与原来业务系统 构 OLTP 数据源 复制的数据集 最终用户开发的报表环境 图1:早期的决策支持系统 图2:数据仓库体系结构

成的操作型环境(OLTP )相独立的决策支持环境。数据仓库最基本的体系结构如图2所示。 图2所示的以数据仓库为基础的决策支持环境,要求数据仓库能够满足所有最终用户的需求。然而,最终用户的需求是不断变化的,而且各种类型的用户对信息的需求也不一样,这就要求数据仓库存储的数据具有充分的灵活性,能够适应各类用户的查询和分析。另一方面,最终用户对信息的需求必须易于访问,能够在较高的性能上获得结果。但是,灵活性和性能对数据仓库而言,是一对矛盾体。为了适应灵活性的要求,数据仓库需要存储各种历史数据,以规范化的模式存储(一般是第3范式)。于是,对于特定的用户,他/她所需要的信息就需要在许多张很大的表上连接后得到结果,这样就无法满足用户对快速访问的性能需求。为了解决灵活性和性能之间的矛盾,数据仓库体系结构中增加了数据集市,数据集市存储为特定用户需求而预先计算好的数据,从而满足用户对性能的需求。带有数据集市的体系结构如图3所示。 上文提及数据仓库除了为数据流构建体系结构模型外,还尝试解决与数据流相关的各种问题,这些问题如图4所示,包括数据仓库构建过程中需要开展的各种任务及特点。 OLTP 数据集市 图4:数据仓库处理过程

相关主题
相关文档
最新文档