数据仓库的粗略发展历程
数据仓库技术的应用与发展趋势

数据仓库技术的应用与发展趋势随着互联网的普及和社交媒体的盛行,数据量已经成为了人们关注的一个重要问题。
随着数据量的不断增加,数据的处理与分析已经成为了新时代的应用和挑战。
同时,数据科学也对这一领域做出了贡献。
其中,数据仓库技术的应用和发展趋势变得被广泛讨论和研究。
1. 数据仓库技术的定义及发展历程数据仓库技术是指将来自不同的数据源的数据整合到一起,以便查看和分析。
它通过以时间为维度的方式来跟踪数据的历史变化和趋势,进而提供更好的决策支持。
随着计算机技术的发展和大规模数据的不断涌现,数据仓库技术开始流行开来。
1990年代初期,Oracle公司首次提出了商业化的数据仓库技术。
它被广泛认为是数据仓库技术的开山祖师,同时也引领了数据仓库技术的发展和应用,并称为当前数据仓库技术的第一代产品。
20世纪90年代末期,随着大数据的涌现,数据仓库技术进入了第二阶段。
大量的数据源需要被整合,并且数据仓库需要更快的响应速度。
因此,在这个时期,需要更加灵活和高度可扩展的架构来处理大数据,并且容错性也非常重要。
这个时期出现了更加复杂和高度可扩展的数据仓库技术,如Hadoop分布式处理框架。
相比第一代产品,第二代产品具有更佳的性能和效率,并且也满足了大数据量的需求。
当前,数据仓库技术已经进入了第三个时代,其中包含了大量的新技术和工具。
2. 数据仓库技术的应用发展2.1 数据挖掘数据挖掘是数据分析的一个重要分支,它使用数据仓库技术来探索数据并发现它们的内在规律。
数据挖掘可以用来查找数据中的规律和模式,并发现隐藏在数据中的信息。
数据仓库技术可以对这些数据进行分析,以了解关系和模式,并将其转化为实际应用需要的信息。
2.2 商业智能商业智能是一个管理信息的核心思想,它为企业提供了一种分析数据的方法来指导业务决策和管理。
数据仓库技术为商业智能提供了一个有效的平台,可以通过它来分析和报告数据。
用数据仓库技术来进行商业智能分析有多种优势,比如可以根据实时数据进行预测、更新模型,同时也可以创建定制报表和分析。
数据库的发展过程

数据库的发展过程一、前言数据库是计算机科学中的重要概念,它是指在计算机系统中存储数据的一种结构化方式。
随着计算机技术的不断发展,数据库也经历了多年的演变和发展。
本文将对数据库的发展过程进行详细的介绍。
二、早期数据库早期的数据库主要是基于文件系统实现的,这种方式称为文件处理系统。
文件处理系统是一种简单而直接的数据管理方法,它把数据存储在磁盘上,并通过程序来访问和处理这些数据。
然而,由于文件处理系统没有任何内置安全措施,因此存在很多安全问题。
三、层次型数据库层次型数据库是第一个真正意义上的数据库管理系统(DBMS),它被广泛应用于20世纪60年代和70年代。
层次型数据库采用树形结构来组织数据,每个节点都可以有多个子节点。
这种模型非常适合描述具有明确父子关系的数据。
四、网状型数据库网状型数据库是在层次型数据库之后出现的一种新模型。
与层次型不同,网状型允许一个节点拥有多个父节点。
这使得网状型更适合描述复杂关系,并且能够更好地处理复杂查询。
五、关系型数据库关系型数据库是现代数据库的基础,也是目前最为流行的数据库类型。
它通过使用表格和行来组织数据,每个表格包含多个列和多行数据。
关系型数据库采用SQL(结构化查询语言)作为操作语言,它可以轻松地进行数据查询、更新和删除。
六、面向对象数据库面向对象数据库是在20世纪80年代末期出现的一种新型数据库。
它采用面向对象的编程思想来管理和组织数据,每个数据都被视为一个对象。
与传统的关系型数据库不同,面向对象数据库具有更好的灵活性和可扩展性。
七、NoSQL数据库NoSQL(Not Only SQL)是一种新兴的非关系型数据库类型。
与传统的关系型数据库不同,NoSQL没有固定的表结构,并且支持大规模分布式存储。
这使得NoSQL成为处理大量非结构化数据(如社交网络、日志记录等)的理想选择。
八、总结随着计算机技术不断发展,各种类型的数据库也在不断涌现。
从早期简单直接的文件处理系统到后来逐渐完善的层次型、网状型和关系型数据库,再到近年来崛起的面向对象数据库和NoSQL数据库,每一种数据库类型都在不断推动着计算机科学的发展。
动态数据仓库发展演变的五个阶段

动态数据仓库发展演变的五个阶段最成功的数据仓库都是以循序渐进的方式逐步发展起来的,它的每一次发展都提高了信息的商业价值。
近年来,数据仓库已经发展到能支持企业决策,甚至支持企业合作伙伴和客户的新高度。
早先,数据仓库只为企业内部高层的某些领域提供战略决策能力,如市场营销、战略策划和财务。
数据仓库提供的信息极大地改善了这些部门的决策质量。
然而,在当今竞争异常激烈的商业环境中,优秀的战略仅仅是成功的诸多要素之一。
若不能付诸有效的实施,任何战略都将是一纸空文。
新一代的数据仓库应用不仅改善了企业战略的形成,更重要的是发展了战略的执行决策能力。
本文讨论数据仓库的五个发展演变阶段,这也是企业内部决策支持走向成熟的五个阶段。
第1阶段:报表最初的数据仓库主要用于企业内部某一部门的报表。
数据仓库把机构内不同来源的信息集成到一个单一的仓库中,就可以为公司跨职能或跨产品的决策提供重要参考。
在大多数情况下,人们事先已对报表中涉及的问题有所了解。
因此,数据库的结构可根据问题的要求进行优化,即使数据查询人员要求访问的信息量极其巨大,处理这些资料的效率仍然可以很高。
构建第一阶段的数据仓库所面临的最大挑战是数据集成。
传统的计算环境经常有上百个数据源,每一数据源都有独特的定义标准和基本的实施技术。
要对这些放在不同生产系统之中、不具备一致性的数据进行清洗,建立一致性的数据存储库是非常具有挑战性的。
本阶段所建立的优化集成信息是给决策者使用的,同时也为以后数据仓库的发展奠定了基础。
第2阶段:分析在数据仓库应用的第二阶段,决策者关心的重点发生了转移--从"发生了什么"转向"为什么会发生"。
分析活动的目的就是了解报表数据的涵义,需要对更详细的数据进行各种角度的分析。
第二阶段的数据仓库对数据库要提交的问题事先一无所知,采用的方法主要是随机分析。
其中的性能管理依赖于关系型数据库管理系统(RDBMS)的先进优化功能,因为这与纯报表环境不同,信息查询的结构关系是无法预知的。
数据库发展的历史

数据库发展的历史
数据库的发展历史可以追溯到20世纪50年代,以下是数据库发展的主要阶段:
1.早期阶段(20世纪50年代至60年代):在这个阶段,数据库主要用于文件管理和数据存储。
早期的数据库系统使用层次模型和网状模型来组织数据。
2.关系型数据库时代(20世纪70年代至80年代):20世纪70年代,E.F.Codd提出了关系型数据库的理论,为关系型数据库的发展奠定了基础。
这个时期出现了许多关系型数据库管理系统(RDBMS),如IBM的DB2、Oracle、SQLServer等。
3.面向对象数据库时代(20世纪80年代末至90年代):随着面向对象编程的兴起,面向对象数据库应运而生。
它们试图更好地支持面向对象编程范式和复杂的数据类型。
4.分布式数据库和NoSQL时代(21世纪初至今):随着互联网的发展和大数据的出现,分布式数据库和NoSQL数据库变得越来越流行。
NoSQL数据库提供了更高的可扩展性和灵活性,以适应大规模数据存储和处理的需求。
5.云数据库和大数据时代(近年来):随着云计算和大数据技术的发展,云数据库和大数据处理成为数据库领域的
新趋势。
云数据库提供了可伸缩性、灵活性和按需付费的优势,而大数据技术则专注于处理和分析大规模数据集。
数据库技术不断发展和演进,每个阶段都带来了新的理念和解决方案,以满足不断变化的业务需求和技术挑战。
数据库的发展过程

数据库的发展过程一、简介数据库是指按照一定数据模型组织、存储和管理数据的系统。
在计算机科学领域,数据库是非常重要的基础设施,它广泛应用于各个领域,如企业管理、科学研究、教育和医疗等。
数据库的发展经历了多个阶段,本文将对其发展过程进行全面、详细、完整且深入地探讨。
二、文件系统数据库的发展起源于早期的文件系统。
在文件系统中,数据以文件的形式存储在磁盘上,要访问特定的数据,需要通过文件路径和文件名进行查找。
这种方式虽然简单直接,但存在着很多问题,如数据冗余、数据不一致性和数据难以共享等。
三、层次数据库为了解决文件系统的问题,层次数据库被提出。
层次数据库将数据组织成树形结构,通过父子关系连接数据。
这种结构使得数据可以更加有条理地组织,也方便了数据的检索和使用。
然而,层次数据库对数据间的关系处理有限,而且对于复杂的查询操作支持不够强大。
3.1 数据模型改进层次数据库的局限性促使了数据模型的改进。
在这个过程中,关系模型被引入,它把数据组织成表格形式,通过行和列的组合来表示数据间的关系。
关系模型的出现极大地提升了数据的灵活性和查询的能力,成为数据库发展的重要里程碑。
3.2 网状数据库在关系模型之后,网状数据库被提出。
网状数据库通过使用指针来建立数据间的关系,这种方式比层次数据库更加灵活,可以支持多对多的关系。
然而,网状数据库的复杂性和难以理解性限制了其应用的推广,导致其逐渐被关系数据库所取代。
四、关系数据库关系数据库是数据库的一个重要分支,以关系模型为基础进行数据的组织和管理。
关系数据库使用表格形式存储数据,数据间通过关系(即表与表之间的联系)进行连接。
关系数据库具有以下特点:4.1 数据结构清晰关系数据库通过定义表格的结构,规定了数据的类型、大小和约束条件等。
这样可以保证数据的一致性和完整性,减少了数据冗余和数据不一致性的问题。
4.2 数据操作简便关系数据库提供了SQL(结构化查询语言)来对数据进行增删改查操作。
数据仓库技术的发展历程

数据仓库技术的发展历程1. 数据仓库技术的起源:数据仓库技术的发展始于20世纪80年代末和90年代初。
当时,大量的企业和组织开始积累大规模的数据,并意识到这些数据中潜在的商业价值。
数据仓库技术应运而生,目的是将分散的、异构的数据整合到一个统一的数据存储中,以支持决策分析。
2. 关系数据库管理系统(RDBMS)的发展:关系数据库管理系统是数据仓库技术的基石之一。
20世纪70年代,关系模型被提出,并随着IBM的System R和Oracle的引入,关系数据库管理系统开始流行起来。
这为数据仓库技术提供了可靠和高效的存储和查询基础。
3. 多维数据模型的引入:在数据仓库技术发展的早期,研究者们开始意识到传统的关系数据模型对于决策分析的支持有局限性。
于是,多维数据模型被提出,它以立方体(Cube)为基本数据单元,将事实数据按照多个维度进行组织和聚合,更适合于复杂的数据分析。
4. Online Analytical Processing (OLAP)的兴起:90年代初,OLAP技术开始流行起来。
OLAP是一种基于多维数据模型的数据分析方法,它使用高效的聚集和切割技术,支持快速的交互式查询和多维数据分析。
OLAP技术的出现进一步推动了数据仓库技术的发展,并成为数据仓库中常用的分析工具。
5. 数据仓库架构的演化:随着数据仓库规模的不断增大,数据仓库架构也逐渐演化。
最初的数据仓库采用的是简单的单一层(Single-tier)架构,随后发展为两层(Two-tier)架构,分离了数据存储和查询引擎。
而现代的数据仓库通常采用三层(Three-tier)架构,将数据存储、ETL(Extraction, Transformation, and Loading)处理和查询分析功能分离,以提高系统的可维护性和性能。
6. 大数据和云计算的兴起:近年来,随着大数据和云计算的发展,数据仓库技术面临新的挑战和机遇。
大数据的快速增长和多样化类型使得传统的数据仓库无法满足需求,这促使了新兴的大数据技术(如Hadoop和Spark)的崛起。
数据仓库技术的发展历程

数据仓库技术的发展历程数据仓库技术的发展历程可以追溯到20世纪80年代以来的计算机技术和数据管理领域的发展。
在这个过程中,数据仓库技术逐渐成为了企业管理和决策支持的重要工具。
起初,数据仓库技术的发展受到了大型企业的需求驱动。
那时,由于企业规模的扩大和信息技术的应用,大量的业务数据被积累起来,而传统的数据库系统已经无法满足企业对数据处理和分析的需求。
为了解决这个问题,数据仓库技术开始兴起。
在数据仓库技术的早期阶段,主要的挑战是如何将来自多个数据源的异构数据整合到一个统一的数据仓库中。
为了解决这个问题,数据仓库技术采用了ETL(Extract, Transform, Load)过程,即从各个数据源中抽取数据,经过数据清洗和转换,最后加载到数据仓库中。
随着计算机硬件和网络技术的不断发展,数据仓库技术逐渐得到了普及和推广。
在20世纪90年代,数据仓库技术开始成为了商业智能(Business Intelligence)领域的核心内容。
商业智能的关键在于将企业数据转化为有价值的信息,帮助企业管理层做出决策。
数据仓库技术通过提供强大的数据分析和查询工具,帮助企业管理层更好地理解和利用数据,促进企业的业务发展。
在21世纪初,随着互联网的兴起和大数据时代的到来,数据仓库技术面临了新的挑战和机遇。
互联网和移动技术的普及,使得数据的规模和类型都发生了巨大的变化。
传统的数据仓库技术已经无法满足对海量数据的存储和分析需求。
为了应对这种变化,数据仓库技术开始采用并行计算和分布式存储技术,并引入了新的数据处理框架,如Hadoop和Spark。
随着人工智能和机器学习的快速发展,数据仓库技术也开始向智能化和自动化方向发展。
现代的数据仓库技术不仅仅是存储和查询数据的工具,还可以根据数据的特点自动进行数据清洗、转换和分析,帮助用户发现数据中的规律和模式。
总的来说,数据仓库技术的发展历程从最初的数据整合到商业智能,再到大数据和机器学习的应用,始终以满足企业对数据管理和决策支持的需求为目标。
数据库发展史

数据库发展史在当今数字化的时代,数据库已经成为了信息存储和管理的核心组成部分。
从简单的纸质记录到复杂的电子数据库系统,数据库的发展历程见证了人类对于信息处理和利用的不断追求和创新。
早期的数据库形式可以追溯到古代文明时期。
当时,人们使用简单的符号、刻痕和手写记录来保存重要的信息,如人口统计、农作物收成和商业交易等。
然而,这些早期的记录方式存在着诸多局限性,信息的检索和更新都非常困难。
随着时间的推移,进入工业革命时期,数据的处理需求变得更加复杂和庞大。
19 世纪末,卡片索引系统开始流行。
这种系统将信息记录在卡片上,通过手工分类和排序来进行管理。
例如,图书馆使用卡片索引来记录书籍的信息,企业使用卡片来记录客户和员工的资料。
虽然相比古代的记录方式有了一定的进步,但仍然效率低下,容易出错,并且存储空间有限。
到了 20 世纪 50 年代,计算机技术的出现为数据库的发展带来了重大变革。
最初,计算机主要用于处理科学计算任务,但很快人们意识到其在数据管理方面的潜力。
在 60 年代,层次数据库和网状数据库模型应运而生。
层次数据库模型将数据组织成类似树形结构的层次关系。
数据按照从上到下的层次进行存储和访问,上级节点与下级节点之间存在明确的隶属关系。
这种模型在处理具有明确层次结构的数据时表现出色,例如企业的组织架构。
网状数据库模型则允许数据节点之间存在多对多的关系,比层次数据库更加灵活。
但这两种模型都存在着复杂性高、难以理解和维护的问题。
20 世纪 70 年代,关系数据库模型的出现彻底改变了数据库领域。
关系数据库基于数学中的关系理论,将数据组织成二维表格的形式,通过标准化的语言(如 SQL)进行操作和管理。
这种模型具有简洁、清晰、易于理解和维护的优点,迅速得到了广泛的应用。
关系数据库的发展经历了多个阶段。
早期的关系数据库系统主要运行在大型主机上,只有大型企业和机构能够承担其高昂的成本。
随着计算机技术的不断进步,特别是微型计算机的普及,关系数据库逐渐走向小型化和普及化。
- 1、下载文档前请自行甄别文档内容的完整性,平台不提供额外的编辑、内容补充、找答案等附加服务。
- 2、"仅部分预览"的文档,不可在线预览部分如存在完整性等问题,可反馈申请退款(可完整预览的文档不适用该条件!)。
- 3、如文档侵犯您的权益,请联系客服反馈,我们会尽快为您处理(人工客服工作时间:9:00-18:30)。
数据仓库的粗略发展历程及相关概念1.1 概述数据仓库的概念可能比一般人想像的都要早一些,中间也经历比较曲折的过程。
其最初的目标是为了实现全企业的集成(Enterprise Integration),但是在发展过程中却退而求其次:建立战术性的数据集市(Data Marts)。
到目前为止,还有很多分歧、论争,很多概念模棱两可甚至是彻底的让人迷惑。
本文试图从数据仓库的发展历史中看到一些发展的脉络,了解数据仓库应该是怎么样的,并展望一下未来的数据仓库发展方向。
同时,由于新应用的不断出现,出现了很多新的概念和新的应用,这些新的应用如何统一现成完整的企业BI应用方案还存在很多争论。
本文试图对这些概念做一些简要的阐述,让大家对此有初步的了解。
1.2 粗略发展过程1.2.1 开始阶段(1978-1988)数据仓库最早的概念可以追溯到20世纪70年代MIT的一项研究,该研究致力于开发一种优化的技术架构并提出这些架构的指导性意见。
第一次,MIT的研究员将业务系统和分析系统分开,将业务处理和分析处理分成不同的层次,并采用单独的数据存储和完全不同的设计准则。
同时,MIT的研究成果与80年代提出的信息中心(Information Center)相吻合:即把那些新出现的、不可以预测的、但是大量存在的分析型的负载从业务处理系统中剥离出来。
但是限于当时的信息处理和数据存储能力,该研究只是确立了一个论点:这两种信息处理的方式差别如此之大,以至于它们只能采用完全不同的架构和设计方法。
之后,在80年代中后期,作为当时技术最先进的公司,DEC已经开始采用分布式网络架构来支持其业务应用,并且DEC公司首先将业务系统移植到其自身的RDBMS产品:RdB。
并且,DEC公司从工程部、销售部、财务部以及信息技术部抽调了不同的人员组建了新的小组,不仅研究新的分析系统架构,并要求将其应用到其全球的财务系统中。
该小组结合MIT的研究结论,建立了TA2(T echnical Architecture 2)规范,该规范定义了分析系统的四个组成部分:♦数据获取♦数据访问♦目录♦用户服务其中的数据获取和数据访问目前大家都很清楚,而目录服务是用于帮助用户在网络中找到他们想要的信息,类似于业务元数据管理;用户服务用以支持对数据的直接交互,包含了其他服务的所有人机交互界面,这是系统架构的一个非常大的转变,第一次将交互界面作为单独的组件提出来。
1.2.2 全企业集成(Enterprise Intergration,1988)同时,IBM也在处理信息管理不同方面的问题,其最烦人的问题是不断增加的信息孤岛,IBM 的很多客户要面对很多分立系统的数据集成问题,而这些系统有不同的编码方式和数据格式。
1988年,为解决全企业集成问题,IBM爱尔兰公司的Barry Devlin 和Paul Murphy第一次提出了“信息仓库(Information Warehouse)”的概念,将其定义为:“一个结构化的环境,能支持最终用户管理其全部的业务,并支持信息技术部门保证数据质量”,并在1991年在DEC TA 2的基础上把信息仓库的概念包含进去,并称之为VITAL规范(virtually integrated technical architecture life cycle),将PC、图形化界面、面向对象的组件以及局域网都包含在VITAL 里,并定义了85种信息仓库的组件,包括数据抽取、转换、有效性验证、加载、Cube开发和图形化查询工具等。
但是IBM只是将这种领先的概念用于市场宣传,而没有付诸实际的架构设计。
这是IBM有一个领域上创新后停止不前导致丧失其领先地位。
因此,在90年代初期,数据仓库的基本原理、框架架构,以及分析系统的主要原则都已经确定,主要的技术,包括关系型数据存取、网络、C/S架构和图形化界面均已具备,只欠东风了。
同时,在1988年-1991年,一些前沿的公司已经开始建立数据仓库。
1.2.3 企业级数据仓库(EDW,1991)1991年,Bill Inmon出版了其有关数据仓库的第一本书,这本书不仅仅说明为什么要建数据仓库、数据仓库能给你带来什么,更重要的是,Inmon第一次提供了如何建设数据仓库的指导性意见,该书定义了数据仓库非常具体的原则,包括:♦数据仓库是面向主题的(Subject-Oriented)、♦集成的(Integrated)、♦包含历史的(Time-variant)、♦不可更新的(Nonvolatile)、♦面向决策支持的(Decision Support)♦面向全企业的(Enterprise Scope)♦最明细的数据存储(Atomic Detail)♦数据快照式的数据获取(Snap Shot Capture)这些原则到现在仍然是指导数据仓库建设的最基本原则,虽然中间的一些原则引发一些争论,并导致一些分歧和数据仓库变体的产生。
但是,Bill Inmon凭借其这本书奠定了其在数据仓库建设的位置,被称之为“数据仓库之父”。
1.2.4 数据集市(1994-1996)数据仓库发展的第一明显分歧是数据集市概念的产生。
由于企业级数据仓库的设计、实施很困难,使得最早吃数据仓库螃蟹的公司遭到大面积的失败,因此数据仓库的建设者和分析师开始考虑只建设企业级数据仓库的一部分,然后再逐步添加,但是这有背于Bill Inmon的原则:各个实施部分的数据抽取、清洗、转换和加载是独立,导致了数据的混乱与不一致性。
而且部分实施的项目也有很多失败,除了常见的业务需求定义不清、项目执行不力之外,很重要的原因是因为其数据模型设计,在企业级数据仓库中,Inmon推荐采用3范式进行数据建模,但是不排除其他的方法,但是Inmon的追随者固守OLTP系统的3范式设计,从而无法支持DSS系统的性能和数据易访问性的要求。
这时,Ralph Kimball出现了,他的第一本书“The DataWarehouse T oolkit”掀起了数据集市的狂潮,这本书提供了如何为分析进行数据模型优化详细指导意见,从Dimensional Modeling 大行其道,也为传统的关系型数据模型和多维OLAP之间建立了很好的桥梁。
从此,数据集市在很多地方冒了出来,并获得很大成功,而企业级数据仓库已逐渐被人所淡忘。
1.2.5 争吵与混乱(1996-1997)企业级数据仓库还是部门级数据集市?关系型还是多维?Bill Inmon 和Ralph Kimball一开始就争论不休,其各自的追随者也唇舌相向,形成相对立的两派:Inmon派和Kimball派(有点象少林和武当,呵呵)。
在初期,数据集市的快速实施和较高的成功率让Kimball派占了上风,但是很快,他们也发现自己陷入了某种困境:企业中存在6-7个不同的数据集市,分别有不同的ETL,相互之间的数据也不完全一致。
同时,各个项目实施中也任意侵犯了Inmon开始定下的准则:把数据集市当成众多OLTP系统之后的有一个系统,而不是一个基础性的集成性的东西,为保证数据的准确性和实时性,有的甚至可以由OLTP系统直接修改数据集市里面的数据,为了保证系统的性能,有的数据集市删除了历史数据。
等等,不一而足。
当然,这导致了一些新的应用的出现,例如ODS,但是人们对DataWarehouse、DataMart、ODS的概念非常的模糊,经常混为一谈。
有人说OLAP就是数据仓库,也有人说我要ODS和DataMart,不要Datawarehouse,也有人说,我DataMart建多了,自然就有DataWarehouse了。
但是Bill Inmon一直很旗帜鲜明:“你可以打到几万吨的小鱼小虾,但是这些小鱼小虾加起来不是大鲸鱼”1.2.6 合并(1998-2001)经过多翻争吵,证明one-size-fits-all是不可能的,你需要不同的BI架构来满足不同的业务需求。
Bill Inmon也推出了新的BI架构CIF(Corporation information factory),把Kimball 的数据集市也包容进来了,第一次,Kimball承认了Inmon,但是仍然还有很多人在争论是自顶向下,还是自底向上。
CIF的核心思想是把整个架构分成不同的层次以满足不同的需求,把DW、DM、ODS进行详细的描述。
现在CIF已经成为建设数据仓库的框架指南。
1.2.7 未来??但是数据仓库未来会怎么发展呢,有人说是RealTime DW(by Michael Haisten)。
但是从其历史发展过程来看,几个趋势是比较明显的:♦从战略决策到战术决策的发展:这对DW的实时性和可获得性(availability)有更高的要求,甚至要求7×24×365♦需求更加多样化,要求有不同的架构和应用层次以适应不同的需求♦数据量膨胀,对数据建模、数据组织和层次划分提出更高的要求。
从EDW到DM,又有ODS、RTDW、Exploration DataWarehouse等等,同时新的应用层出不穷,看来DW/BI的未来是热热闹闹的。
1.3 战术决策支持系统数据仓库从一开始是定位在面向高层管理者、进行战略决策支持的,而随着应用的发展,要求中层管理者甚至底层的一线操作者也能分享数据仓库的功能。
例如客服人员在接听客户电话的同时能查看到该客户的完整历史信息、该客户的偏好信息、根据其客户情况目前能提供的促销信息等等。
即运营系统与决策支持系统将不再是完全隔离的两个系统,而是要求二者之间能相互共享有用的信息。
1.3.1 战术决策支持系统的交互方式运营系统和DW/DSS系统的交互方式可以有两种:直接交互和间接交互。
直接交互直接交互虽然在表面上很直观,但是有很多限制的地方:1. 数据仓库的查询反应速度是比较长的,很难满足运营系统的时间要求,特别是对那些比较随机的查询,其反应时间超过好几分钟,甚至上小时。
2. 得到的数据量可能是比较大的,增加了网络的负担3. 从数据仓库得到的数据格式、数据含义等与运营系统有差距,需要某种数据置换和加载过程(与数据仓库建设的ETL区分,可以称之为反向ETL)这些问题使得由运营系统直接访问数据仓库系统变动不切实际,在现实世界中也很少有这样的系统建设。
间接交互间接交互中,通过分析系统计算出该客户能得到的折扣是最重要的组成部分,他需要综合当前的运营数据(运营系统)和历史消费信息(数据仓库)。
通常来说,这部分计算要求的数据量和计算时间超过了运营系统能承受的范围,一般是在机器空闲的时候在夜间先行计算的。
这种间接交互的分析型应用可以存在很多行业的众多应用,例如银行信贷系统的动态评级、电话销售时的客户细分和促销、航空定票的动态定价、生产系统的动态生产计划制定与调整等等。