数据仓库(简答题复习资料整理)
数据库简答题

数据库简答题数据库是一种用于存储和管理数据的系统。
它可以提供有效的数据组织和快速的数据访问。
下面是一些与数据库相关的简答题:1. 什么是数据库管理系统(DBMS)?数据库管理系统是一种软件,用于管理数据库的创建、使用和维护。
它提供了一种访问数据库的接口,并允许用户进行数据的插入、修改、删除和查询操作。
常见的DBMS包括MySQL、Oracle、SQL Server等。
2. 请解释什么是关系型数据库?关系型数据库是以表格形式组织数据的数据库。
它利用关系模型来描述数据之间的关系,表格中的每一行表示一个实体,每一列表示一个属性。
关系型数据库使用结构化查询语言(SQL)进行数据的管理和操作。
3. 什么是主键?它的作用是什么?主键是一种唯一标识表格中每一行数据的列。
它的作用是保证数据的唯一性和完整性,能够快速找到和区分每一条记录。
主键可以由一个或多个列组成,在表格中不能重复。
4. 请解释什么是外键?它的作用是什么?外键是一种用于建立表格之间关联关系的列。
它是另一张表格的主键,用来引用其他表格中的数据。
外键的作用是维护数据的完整性,确保相关表格之间的关系一致。
5. 什么是索引?它的作用是什么?索引是一种用于提高数据库查询效率的数据结构。
它类似于书的目录,可以快速定位和访问数据。
数据库查询时会先根据索引找到相关的数据位置,然后再进行数据的读取。
索引可以加快数据的查询速度,但同时也会增加数据的存储和维护成本。
6. 数据库的三范式是什么?为什么要遵循三范式?数据库的三范式是一种设计数据库的规范。
它包括第一范式(1NF)、第二范式(2NF)和第三范式(3NF)。
遵循三范式可以提高数据库的设计和管理效率,降低数据冗余和数据不一致的风险。
- 第一范式(1NF)要求数据表格中的每一列都是不可再分的基本数据单元,每一行数据应为唯一。
- 第二范式(2NF)要求每个非主键列完全依赖于主键。
- 第三范式(3NF)要求非主键列之间不能存在传递依赖。
数据仓库知识点总结

数据仓库知识点总结一、数据仓库概念数据仓库是一个用来集成、清洗、存储和管理企业数据的系统,以支持企业决策制定、分析和商业智能服务。
它是一个面向主题的、集成的、时间性的、非易失的数据集合,用于支持企业决策。
数据仓库是企业数据管理的重要组成部分,它与操作型数据处理系统相辅相成。
数据仓库以不同的视角和角度组织数据,帮助企业管理者对企业整体情况进行全面分析和评估。
二、数据仓库的特点1. 面向主题:数据仓库与传统数据库相比,更加侧重对业务应用的支持,主要面向业务应用的主题而不是基本事务数据,以方便企业管理者进行更好的分析和决策。
2. 集成性:数据仓库集成了来自不同数据源的数据,将数据统一管理,并且进行了数据清洗和转换,确保数据的一致性和准确性。
3. 时态性:数据仓库中的数据具有时间性,可以保存历史数据,能够支持分析历史数据的趋势和变化。
4. 非易失性:数据仓库中的数据不会丢失,可以持久保存,并且根据需要定期备份,确保数据的安全和可靠。
5. 大数据量和复杂性:数据仓库通常包含大量的数据,并且数据之间的关系复杂,需要采用专门的数据模型和处理方法来管理和分析。
6. 以支持决策为目标:数据仓库的目标是为企业管理者提供数据支持,帮助他们更好地了解企业的经营状况和趋势,以支持企业决策。
三、数据仓库架构数据仓库架构包括了多个重要组成部分,主要包括数据提取、数据清洗、数据转换、数据加载、元数据管理和数据查询分析等。
1. 数据提取:数据提取是指从各个数据源中将需要的数据提取出来,数据源可以包括企业内部的数据库、文件系统、应用系统等,也可以包括外部数据源,如公共数据等。
2. 数据清洗:数据清洗是指对提取的数据进行清洗和规范,包括去重、校验、纠错、转换等处理,以确保数据的准确性和一致性。
3. 数据转换:数据转换是指对清洗后的数据进行格式转换、相关联和整合,以便于数据仓库的统一管理和分析。
4. 数据加载:数据加载是将转换后的数据载入数据仓库中,通常包括全量加载和增量加载两种方式,以确保数据的及时性和准确性。
数据库复习资料详细版

一、题型简答题、选择题、填空题、设计题、操作题、命令题。
二、考核范围第1、2、3、4、5、11、12章第1章信息是对现实世界中事物的存在特征、运动形态以及不同事物间的相互联系等多种属性的描述,通过抽象形成概念。
信息是关于事物以及事物间联系的知识。
信息一般分三类:事物的静态属性信息、动态属性信息、事物间的内在联系信息。
表达信息的符号记录就是数据。
数据是信息的载体,信息是数据的内涵。
计算机是处理数据的。
作为数据的符号在计算机中都转换成二进制符号“0”和“1”保存和处理。
数据处理指对数据收集、整理、组织、存储、维护、加工、查询和传输的过程。
为实现特定数据处理目标所需要的所有各种资源的总和称为数据处理系统。
一般情况下,主要指硬件设备、软件环境与开发工具、应用程序、数据集合、相关文档等数据库指长期存储在计算机存储设备上结构化、可共享、相关联的数据集合。
数据库系统是指在计算机中引入数据库后的系统构成,由计算机软硬件、数据库、DBMS、应用程序以及数据库管理员(DBA)和数据库用户构成。
核心是数据库和DBMS数据库管理系统是专门处理数据库的软件,数据库的所有工作,包括数据库的定义、数据的录入、查询、输出,及数据库的维护和安全保护,都通过DBMS 完成,是数据库系统的核心。
数据库设计的定义:对于给定的应用环境,设计构造最优的数据库结构,建立数据库及其应用系统,使之能有效地存储数据,对数据进行操作和管理,以满足用户各种需求的过程。
数据库设计采用的基本方法是结构化设计方法,这种方法将开发过程看成一个生命周期,也称为生命周期法。
其核心思想是将开发设计过程分成若干个步骤,主要包括:系统需求调查与分析、概念设计、逻辑设计、物理设计、实施与测试、运行维护等几个阶段。
数据模型,是对客观世界的事物以及事物之间联系的形式化描述,有层次模型、网状模型、关系模型三种。
概念模型面向用户,使用用户易于理解的概念、符号、表达方式来描述事物及其联系,它与任何实际DBMS都没有关联;同时,概念模型又易于向DBMS支持的数据模型转化。
数据库简答题整理

一.1.试述关系模型的参照完整性规则?参照完整性规则:若属性(或属性组)F 是基本关系R 的外码,它与基本关系S 的主码Ks 相对应(基本关系 R 和S 不一定是不同的关系),则对于 R 中每个元组在 F 上的值必须为:取空值(F 的每个属性值均为空值)或者等于 S 中某个元组的主码值。
评分标准:指明 F 是 R 的外码,与 S 的主码对应 1 分;参照完整性两条规则各 1分。
2.试述视图的作用?(1)视图能够简化用户的操作。
(1 分)(2)视图使用户能以多种角度看待同一数据。
(1 分)(3)视图对重构数据库提供了一定程度的逻辑独立性。
(1 分)(4)视图能够对机密数据提供安全保护。
(1 分)评分标准:意思表达正确即可给分。
3.登记日志文件时必须遵循什么原则?两条原则:(1)登记的次序严格按并发事务执行的时间次序。
(1 分)(2)必须先写日志文件,后写数据库。
(2 分)评分标准:意思表达正确即可给分二.1. 试述数据、数据库、数据库管理系统、数据库系统的概念。
数据:描述事物的符号记录。
(1 分)数据库:长期存储在计算机内的、有组织的、可共享的数据集合。
(1 分)数据库管理系统:是位于用户与操作系统之间的具有数据定义、数据操纵、数据库的运行管理、数据库的建立和维护功能的一层数据管理软件。
(1 分)数据库系统:在计算机系统中引入数据库后的系统,一般由数据库、数据库管理系统(及其开发工具)、应用系统、数据库管理员和用户构成。
(1 分)评分标准:四个基本概念各 1 分,意思表达正确即可给分。
2.说明视图与基本表的区别和联系。
视图是从一个或几个基本表导出的表,它与基本表不同,是一个虚表,数据库中只存放视图的定义,而不存放视图对应的数据,这些数据存放在原来的基本表中,当基本表中的数据发生变化,从视图中查询出的数据也就随之改变(2 分)。
视图一经定义就可以像基本表一样被查询、删除,也可以在一个视图之上再定义新的视图,但是对视图的更新操作有限制(1 分)。
数据仓库考试复习资料

数据仓库资料一、简答1、什么是元数据?元数据如何分类?请叙述元数据的作用。
答:元数据与数据字典类似,类似于电话黄页,是数据仓库数据本身信息的数据。
元数据的类型:1)操作性元数据2)抽取和转换元数据3)最终用户元数据元数据的作用:元数据负责连接数据仓库的所有部分,并为最终用户提供向导:1)易于数据仓库数据的理解2)保证数据质量3)提高系统的应用的适用度和可适展性4)便于信息交换。
2、数据仓库项目与OLTP系统项目有什么不同?答:存储数据不同:OLTP存储的是操作性数据,数据仓库中存储的是分析性数据对数据处理不同:OLTP是以传统的数据为中心进行企业日常处理,而数据仓库中的数据被用于分析背后的关联,为企业决策提供可靠的依据。
面向的使用人员不同:OLTP使用人员通常是企业中的具体操作员,处理的数据通常是企业业务细节信息,其目标是实现企业的业务运营。
而数据仓库的使用人员是企业中的高层,或是工程师,其中包含的信息是企业的宏观信息而非具体细节,其目的是为企业决策者提供支持。
3、MOLAP和ROLAP模型之间的本质区别是什么?列出它们的一些相同点。
答:本质区别:MOLAP是基于多维数据库来存储OLAP分析所需要的数据,数据以多维方式存储,并以多维视图方式显示,而ROLAP的底层数据库是关系数据库。
相同点:1)数据都作为关系表存储再数据仓库中2)都能获得一定成都的汇总数据3)都是从数据仓库存储器中访问数据4、什么是星型模式?什么是雪花模型?它由哪些表组成?答:星型模式:一种多维数据关系,由一个事实表和一组维表组成,每个维度表表达一个维,所有维度字段组成事实表的复合主键,事实表中的非主键属性称为事实,汇总出来的数值型数据大都是文字,时间等类型的数据。
雪花模式:它是对星型模式的一种扩展,比如日期,地区等多层次的维度的扩展,可类似扩展,是对星型模式进行规范化处理的产物,从消除数据冗余,从而使事实表,字段数和总长度降低。
简述数据仓库的组成简答题

简述数据仓库的组成简答题数据仓库是一个重要的数据管理和分析系统,它能够帮助组织或企业收集、存储、管理和分析各种类型的数据,以便更好地了解客户、业务运营和市场走势。
以下是关于数据仓库的一些常见问题及其回答:1. 什么是数据仓库?它的作用是什么?答:数据仓库是一个集中式的数据存储系统,它主要用于收集、存储、管理和分析各种类型的数据,包括结构化数据和非结构化数据,如文本、图像、音频和视频等。
数据仓库的作用是帮助组织或企业更好地了解客户、业务运营和市场走势,以便更好地做出决策。
2. 数据仓库的组成部分是什么?答:数据仓库的组成部分包括:- 数据源:数据源是指从各种数据来源收集的数据,如数据库、文件、网络等。
- 数据清洗和转换:数据清洗和转换是指对数据进行清洗和标准化,以便更好地存储和访问数据。
- 数据集成:数据集成是指将清洗和转换后的数据集成到一个数据仓库中。
- 数据存储:数据存储是指将数据仓库中的数据存储到磁盘或其他存储设备中。
- 数据分析和挖掘:数据分析和挖掘是指使用机器学习和数据挖掘技术对数据进行分析和挖掘,以便更好地了解客户和市场。
3. 数据仓库的优缺点是什么?答:数据仓库的优点包括:- 集中数据存储和管理:数据仓库可以将各种类型的数据集中存储和管理,以便更好地管理和访问数据。
- 支持业务分析和决策:数据仓库可以使用数据分析和挖掘技术,支持组织或企业进行业务分析和决策。
- 提高数据质量和准确性:数据仓库可以使用数据清洗和转换技术,提高数据质量和准确性。
数据仓库的缺点包括:- 需要大量的存储和计算资源:数据仓库需要占用大量的存储和计算资源,需要大量的投资。
- 难以扩展和维护:数据仓库需要仔细的规划和设计,以便易于扩展和维护,需要大量的时间和精力。
- 难以清洗和转换:数据仓库中可能存在大量的数据清洗和转换问题,需要花费大量的时间和精力来处理。
数据库期末复习一些重要简答题

1.数据管理的不同发展阶段及其特点(1)人工管理特点:数据的管理者:应用程序,数据不保存数据面向的对象:某一应用程序数据的共享程度:无共享、冗余度极大数据的独立性:不独立,完全依赖于程序数据的结构化:无结构数据控制能力:应用程序自己控制(2)文件系统特点:数据的管理者:文件系统,数据可长期保存数据面向的对象:某一应用程序数据的共享程度:共享性差、冗余度大数据的结构化:记录内有结构,整体无结构数据的独立性:独立性差,数据的逻辑结构改变必须修改应用程序数据控制能力:应用程序自己控制(3)数据库系统特点: 数据的管理者:DBMS数据面向的对象:现实世界数据的共享程度:共享性高数据的独立性:高度的物理独立性和一定的逻辑独立性数据的结构化:整体结构化数据控制能力:由DBMS统一管理和控制2.标准SQL中定义的事务隔离级别及其特点●未授权读取,也称为读未提交(Read Uncommitted):允许脏读取,但不允许更新丢失。
如果一个事务已经开始写数据,则另外一个数据则不允许同时进行写操作,但允许其他事务读此行数据。
该隔离级别可以通过“排他写锁”实现。
●授权读取,也称为读提交(Read Committed):允许不可重复读取,但不允许脏读取。
这可以通过“瞬间共享读锁”和“排他写锁”实现。
读取数据的事务允许其他事务继续访问该行数据,但是未提交的写事务将会禁止其他事务访问该行。
●可重复读取(Repeatable Read):禁止不可重复读取和脏读取,但是有时可能出现幻影数据。
这可以通过“共享读锁”和“排他写锁”实现。
读取数据的事务将会禁止写事务(但允许读事务),写事务则禁止任何其他事务。
●序列化(Serializable):提供严格的事务隔离。
它要求事务序列化执行,事务只能一个接着一个地执行,但不能并发执行。
如果仅仅通过“行级锁”是无法实现事务序列化的,必须通过其他机制保证新插入的数据不会被刚执行查询操作的事务访问到。
数据库简答题整理

数据库简答题整理数据库是计算机系统中的一个重要组成部分,用于存储、管理和提取数据。
在使用和设计数据库的过程中,常常会涉及到一些与数据库相关的概念、术语和技术。
以下是对一些常见数据库相关问题的简洁解答整理:1. 什么是数据库?数据库是按照一定的数据模型组织、存储和管理数据的集合。
它可以对数据进行高效的存取、操作和管理,并提供了一种结构化的方式来存储和组织数据。
常见的数据库管理系统有MySQL、Oracle、SQL Server等。
2. 数据库系统的三级模式是什么?数据库系统的三级模式是外模式、概念模式和内模式。
- 外模式是用户看到和使用的数据库的局部观点,它描述了用户所关心的数据的逻辑结构和访问方式。
- 概念模式是数据库的全局观点,它描述了整个数据库中的数据逻辑结构以及数据之间的联系。
- 内模式是数据库在物理存储层面上的观点,它描述了数据在磁盘或其他存储介质上的存储方式和访问方法。
3. 数据库范式有哪些?数据库范式是用于规范数据库中关系模式的设计原则。
常见的数据库范式有第一范式(1NF)、第二范式(2NF)、第三范式(3NF)等。
这些范式分别定义了不同的依赖和函数依赖关系约束,目的是优化数据的存储和消除冗余。
4. 什么是主键和外键?主键是用于唯一标识表中每一条记录的字段,它具有唯一性和非空性。
主键可以是单个字段或多个字段的组合。
外键是表中的一个字段,它与其他表的主键建立关联关系。
外键用于实现表与表之间的数据完整性和一致性。
5. 数据库事务是什么?有哪些特性?数据库事务是一组被视为单个逻辑单位的操作,要么全部执行成功,要么全部不执行。
数据库事务具有四个特性,即原子性、一致性、隔离性和持久性。
- 原子性:事务中的所有操作要么全部成功,要么全部失败,不会出现部分操作成功、部分操作失败的情况。
- 一致性:事务执行前后,数据应满足约束和规定的完整性条件。
- 隔离性:正在执行的事务对其他事务是隔离的,不会相互干扰。
- 1、下载文档前请自行甄别文档内容的完整性,平台不提供额外的编辑、内容补充、找答案等附加服务。
- 2、"仅部分预览"的文档,不可在线预览部分如存在完整性等问题,可反馈申请退款(可完整预览的文档不适用该条件!)。
- 3、如文档侵犯您的权益,请联系客服反馈,我们会尽快为您处理(人工客服工作时间:9:00-18:30)。
数据仓库(简答题复习资料)(1)数据仓库概念和特点 P12-14数据仓库是一个面向主题的(Subject Oriented)、集成的(Integrate)、相对稳定的(Non-Volatile)、反映历史变化(Time Variant)的数据集合,它用于支持企业或组织的决策分析处理。
数据仓库是为了便于多维分析和多角度展现而将数据按特定的模式进行存储所建立起来的关系型数据库,它的数据基于OLTP源系统。
首先,用于支持决策,面向分析型数据处理,它不同于企业现有的操作型数据库;其次,对多个异构的数据源有效集成,集成后按照主题进行了重组,并包含历史数据,而且存放在数据仓库中的数据一般不再修改。
数据仓库的功能和特性1 面向主题2 数据的集成性3 数据的稳定性(非易失性)4 数据随时间变化的特性5 多维性数据是带有时间轴的→数据是多维的→形成立方体(Cube)见书P52(2)数据库与数据仓库的区别简而言之,数据库是面向事务的设计,数据仓库是面向主题设计的。
数据库一般存储在线交易数据,数据仓库存储的一般是历史数据。
数据库设计是尽量避免冗余,一般采用符合范式的规则来设计,数据仓库在设计是有意引入冗余,采用反范式的方式来设计。
数据库是为捕获数据而设计,数据仓库是为分析数据而设计,它的两个基本的元素是维表和事实表。
维是看问题的角度,比如时间,部门,维表放的就是这些东西的定义,事实表里放着要查询的数据,同时有维的ID。
单从概念上讲,有些晦涩。
任何技术都是为应用服务的,结合应用可以很容易地理解。
以银行业务为例。
数据库是事务系统的数据平台,客户在银行做的每笔交易都会写入数据库,被记录下来,这里,可以简单地理解为用数据库记帐。
数据仓库是分析系统的数据平台,它从事务系统获取数据,并做汇总、加工,为决策者提供决策的依据。
比如,某银行某分行一个月发生多少交易,该分行当前存款余额是多少。
如果存款又多,消费交易又多,那么该地区就有必要设立ATM了。
显然,银行的交易量是巨大的,通常以百万甚至千万次来计算。
事务系统是实时的,这就要求时效性,客户存一笔钱需要几十秒是无法忍受的,这就要求数据库只能存储很短一段时间的数据。
而分析系统是事后的,它要提供关注时间段内所有的有效数据。
这些数据是海量的,汇总计算起来也要慢一些,但是,只要能够提供有效的分析数据就达到目的了。
数据仓库,是在数据库已经大量存在的情况下,为了进一步挖掘数据资源、为了决策需要而产生的,它决不是所谓的“大型数据库”。
那么,数据仓库与传统数据库比较,有哪些不同呢?让我们先看看W.H.Inmon关于数据仓库的定义:面向主题的、集成的、与时间相关且不可修改的数据集合。
“面向主题的”:传统数据库主要是为应用程序进行数据处理,未必按照同一主题存储数据;数据仓库侧重于数据分析工作,是按照主题存储的。
这一点,类似于传统农贸市场与超市的区别—市场里面,白菜、萝卜、香菜会在一个摊位上,如果它们是一个小贩卖的;而超市里,白菜、萝卜、香菜则各自一块。
也就是说,市场里的菜(数据)是按照小贩(应用程序)归堆(存储)的,超市里面则是按照菜的类型(同主题)归堆的。
“与时间相关”:数据库保存信息的时候,并不强调一定有时间信息。
数据仓库则不同,出于决策的需要,数据仓库中的数据都要标明时间属性。
决策中,时间属性很重要。
同样都是累计购买过九车产品的顾客,一位是最近三个月购买九车,一位是最近一年从未买过,这对于决策者意义是不同的。
“不可修改”:数据仓库中的数据并不是最新的,而是来源于其它数据源。
数据仓库反映的是历史信息,并不是很多数据库处理的那种日常事务数据(有的数据库例如电信计费数据库甚至处理实时信息)。
因此,数据仓库中的数据是极少或根本不修改的;当然,向数据仓库添加数据是允许的。
数据仓库的出现,并不是要取代数据库。
目前,大部分数据仓库还是用关系数据库管理系统来管理的。
可以说,数据库、数据仓库相辅相成、各有千秋。
(3)元数据 P16元数据模型 P102-107①分类②作用③收集和维护④作用(4)数据集市 P17(5)操作数据存储ODS P33-39①概念②应用---OLTP、OLAP、DB-ODS-DWODS定义ODS是Operational Data Store的简称,翻译成操作数据存储。
ODS是数据仓库体系结构的一部分,可以根据需要选择是否采用ODS。
它具备数据仓库的部分特征和OLTP的部分特征。
ODS是一个面向主题的、集成的、可变的、当前的细节数据集合,用于支持企业对于即时性的、操作性的、集成的全局信息的需求。
常常被作为数据仓库的过渡。
作为一个中间层次,它既不是联机事务处理,也算不上高层决策分析,是不同于 DB 的一种新的数据环境,是数据仓库扩展后得到的一个混合形式。
ODS支持对数据的联机修改——增、删与更新等操作。
ODS特点面向主题的(与数据仓库类似)集成的(与数据仓库类似)可变的数据可以联机改变,包括增、删及更新等操作。
数据是当前细节级或接近当前的数据在存取时刻是最新的数据是最近一段时间之前得到的。
ODS和数据仓库的异同相同点:面向主题的,集成的不同点:DW是静态数据,而ODS中的数据是动态的、可更新的设计目标不同,ODS的设计目标是快速执行针对全局信息的少量数据的简单查询工作,这同数据仓库中的大数据量复杂查询截然不同。
数据内容不同,ODS存储当前或者近期的数据,DW存储历史性数据。
ODS就像你的短期记忆,仅仅记录你的近期信息,而数据仓库就像长期记忆一样,存储相对长久一些的信息数据容量不同,ODS数据容量级别较小,DW的数据容量很大ODS类别I 类ODS,与应用系统的数据延迟为1~2秒,实时或近似实时II 类ODS,与应用系统的数据延迟为2~4小时III 类ODS,与应用系统的数据延迟为12~24小时IV 类ODS,数据仓库中部分决策分析数据回流至ODS中不同ODS类别的特点数据延迟时间越短,ODS建设难度越高。
其中I 类ODS的建设难度最高,建设成本也是最高的。
而且由于I 类ODS的实时性,对于技术的要求与其它类型ODS也有所不同,一般来讲需要用到EAI技术,但随着当前企业对数据仓库的实时性要求越来越高,相信I 类ODS会变得越来越重要。
通常在企业应用架构中,ODS是一个可选件,但一旦需要用到ODS的功能,那么ODS本身就将变得极为重要。
目前应用的比较多的是IV 类ODS,因为一旦将决策分析结果加载到ODS中,重要决策信息的高性能联机支持将成为可能。
ODS在体系结构中的几种作用在业务系统和数据仓库之间形成一个隔离层一般的数据仓库应用系统都具有非常复杂的数据来源,这些数据存放在不同的地理位置、不同的数据库、不同的应用之中,从这些业务系统对数据进行抽取并不是一件容易的事。
ODS用于存放从业务系统直接抽取出来的数据,这些数据从数据结构、数据之间的逻辑关系上都与业务系统基本保持一致,因此在抽取过程中极大降低了数据转化的复杂性,而主要关注数据抽取的接口、数据量大小、抽取方式等方面的问题。
转移一部分业务系统细节查询的功能在数据仓库建立之前,大量的报表、分析是由业务系统直接支持的,在一些比较复杂的报表生成过程中,对业务系统的运行产生相当大的压力。
ODS的数据从粒度、组织方式等各个方面都保持了与业务系统的一致,那么原来由业务系统产生的报表、细节数据的查询自然能够从ODS中进行,从而降低业务系统的查询压力。
完成数据仓库中不能完成的一些功能一般来说,带有ODS的数据仓库体系结构中,DW层所存储的数据都是进行汇总过的数据,并不存储每笔交易产生的细节数据,但是在某些特殊的应用中,可能需要对交易细节数据进行查询,这时就需要把细节数据查询的功能转移到ODS来完成,而且ODS的数据模型按照面向主题的方式进行存储,可以方便地支持多维分析等查询功能。
在一个没有ODS层的数据仓库应用系统体系结构中,数据仓库中存储的数据粒度是根据需要而确定的,但一般来说,最为细节的业务数据也是需要保留的,实际上也就相当于ODS,但与ODS所不同的是,这时的细节数据不是“当前、不断变化的”数据,而是“历史的,不再变化的”数据。
ODS数据模型设计数据调研对与业务系统关联的数据进行调研,弄清楚现有业务系统对应的数据逻辑模型和物理模型确定数据范围确定数据范围实际上是对ODS进行主题划分的过程,这种划分是基于对业务系统的调研的基础上而进行的,并不十分关心整个数据仓库系统上端应用需求,但是需要把上端应用需求与ODS数据范围进行验证,以确保应用所需的数据都已经从业务系统中抽取出来,并且得到了很好的组织。
一般来讲,主题的划分是以业务系统的信息模型为依据的,设计者需要综合各种业务系统的信息模型,并进行宏观的归并,得到企业范围内的高层数据视图,并加以抽象,划定几个逻辑的数据主题范围。
在这个阶段,以ER模型表示数据主题关系最为恰当。
根据数据范围进行进一步的数据分析和主题定义在第一步中定义出来了企业范围内的高层数据视图,以及所收集到的各种业务系统的资料,在这一步中,需要对大的数据主题进行分解,并进行主题定义,直到每个主题能够直接对应一个主题数据模型为止。
在这个阶段,将把第一步生成的每个ER图中的实体进行分解,分解的结果仍以ER表示为佳。
定义主题元素定义维维名称,名称应该能够清晰表示出这个维的业务含义。
维成员,也就是这个维所代表的具体的数据维层次,维成员之间的隶属与包含的层次关系,每个层次需要定义名称定义度量度量名称,名称应该能够清晰标书这个度量的业务含义定义主题主题名称和含义,说明该主题主要包含哪些数据,用于什么分析;主题所包含的维和度量;主题的事实表,以及事实表的数据。
定义粒度主题中事实表的数据粒度说明,这种粒度可以通过对维的层次限制加以说明,也可以通过对事实表数据的业务细节程度进行说明。
定义存储期限主题中事实表中的数据存储周期。
迭代,归并维、度量的定义在ODS中,因数据来自于多个系统,数据主题划分时虽然对数据概念进行了一定程度上的归并,但具体的业务代码所形成的各个维、以及维成员等还需要进一步进行归并,把概念统一的维定义成一个维,不允许同一个维存在不同的实体表示(象不同的业务系统中一样)。
ODS系统设计ODS数据抽取转换层数据转换层由各种转换工具及抽取程序组成,主要完成从源数据系统到ODS系统的数据转换、净化和载入ODS数据访问中间件ODS系统中间件的一个关键组成部分就是网络中间件。
中间件的主要作用是提供用户和ODS系统数据之间的无缝连接,同时还提供了系统应用程序接口,允许应用程序同本地或异地ODS系统进行通信。
另一方面,在DB-ODS-DW三层结构中,中间件也是将ODS中的信息与DW系统中的信息相关联的一条途径。
物理实现定义每个主题的数据抽取周期、抽取时间、抽取方式、数据接口,抽取流程和规则。