数据仓库、商业智能相关面试题(带答案)【精品文档】
数据仓库团队面试题-答案

目录1简答题 (1)1.1SQL Server与Oracle、DB2三种数据库比较 (1)1.2以下三种数据库语言都包含哪些细项 (2)1.3UNION 和UNION ALL的区别 (2)2实例题................................................................................................................... 错误!未定义书签。
3逻辑推理题 (5)答案............................................................................................................................... 错误!未定义书签。
1简答题1.1 SQL Server与Oracle、DB2三种数据库比较SQL Server与Oracle、DB2三种数据库进行比较,有何区别?请从开放性,可伸缩性,并行性,安全性三个方面叙述。
答案:开放性SQL Server只能在Windows 上运行,没有丝毫的开放性,操作系统的系统的稳定对数据库是十分重要的。
Windows9X系列产品是偏重于桌面应用,NT server只适合中小型企业。
而且Windows平台的可靠性,安全性和伸缩性是非常有限的。
它不象Unix那样久经考验,尤其是在处理大数据量的关键业务时。
Oracle能在所有主流平台上运行(包括 Windows)。
完全支持所有的工业标准。
采用完全开放策略。
可以使客户选择最适合的解决方案。
对开发商全力支持。
DBz能在所有主流平台上运行(包括Windows)。
最适于海量数据。
DB2在企业级的应用最为广泛,在全球的500家最大的企业中,几乎85%以上用DB2数据库服务器,而国内到97年约占5%。
可伸缩性,并行性SQL Server并行实施和共存模型并不成熟。
头条数据仓库面试题

头条数据仓库面试题一.选择题:1.在数据挖掘的分析方法中,直接数据挖掘包括( ) *A 分类(正确答案)B 关联C 估值(正确答案)D 预言(正确答案)2.关于OLAP和OLTP的区别描述,不正确的是: ( ) [单选题] *A. OLAP主要是关于如何理解聚集的大量不同的数据.它与OLTP应用程序不同.B. 与OLAP应用程序不同,OLTP应用程序包含大量相对简单的事务.C. OLAP的特点在于事务量大,但事务内容比较简单且重复率高.(正确答案)D. OLAP是以数据仓库为基础的,但其最终数据来源与OLTP一样均来自底层的数据库系统,两者面对的用户是相同的3. 数据仓库是随着时间变化的,下面的描述不正确的是 ( ) [单选题] *A. 数据仓库随时间的变化不断增加新的数据内容;B. 捕捉到的新数据会覆盖原来的快照;C. 数据仓库随事件变化不断删去旧的数据内容;(正确答案)D. 数据仓库中包含大量的综合数据,这些综合数据会随着时间的变化不断地进行重新综合.4. 关于基本数据的元数据是指: ( ) [单选题] *A. 基本元数据与数据源,数据仓库,数据集市和应用程序等结构相关的信息;B. 基本元数据包括与企业相关的管理方面的数据和信息;C. 基本元数据包括日志文件和简历执行处理的时序调度信息;D. 基本元数据包括关于装载和更新处理,分析处理以及管理方面的信息.(正确答案)5. OLAP技术的核心是: ( ) [单选题] *A. 在线性;B. 对用户的快速响应;C. 互操作性.D. 多维分析;(正确答案)6. 关于OLAP的特性,下面正确的是: ( ) *(1)快速性(正确答案)(2)可分析性(正确答案)(3)多维性(正确答案)(4)信息性(正确答案)(5)共享性(正确答案)7. 关于OLAP和OLTP的区别描述,不正确的是: ( ) [单选题] *A. OLAP主要是关于如何理解聚集的大量不同的数据.它与OTAP应用程序不同.B. 与OLAP应用程序不同,OLTP应用程序包含大量相对简单的事务.C. OLAP的特点在于事务量大,但事务内容比较简单且重复率高.(正确答案)D. OLAP是以数据仓库为基础的,但其最终数据来源与OLTP一样均来自底层的数据库系统,两者面对的用户是相同的.8.数据仓库的特点分别是 ()。
数据库与商业智能(BI)考试

数据库与商业智能(BI)考试(答案见尾页)一、选择题1. 数据库系统工程师的主要职责包括哪些?A. 设计和构建数据库管理系统B. 编写和维护数据库应用程序C. 提供数据分析和商业智能解决方案D. 管理数据库系统的安全性和稳定性2. 关系型数据库与非关系型数据库的主要区别是什么?A. 数据结构的不同B. 一致性的要求C. 查询语言的不同D. 存储引擎的不同3. 在数据库设计中,哪一个概念描述了数据的组织方式和关系?A. 模式B. 命名约定C. 结构化查询语言(SQL)D. 实体-关系模型4. 数据仓库中的数据通常是如何组织的?A. 三维数据模型B. 星型模型C. 面向对象模型D. 云模型5. 商业智能(BI)工具的主要功能是什么?A. 数据挖掘B. 数据清洗和转换C. 数据可视化和报告D. 数据分析和决策支持6. 数据库系统性能优化通常涉及哪些方面?A. 硬件升级B. 软件优化C. 网络架构调整D. 数据库配置调整7. 在数据库系统中,哪一个概念描述了数据的逻辑结构?A. 表B. 列C. 行D. 数据项8. 商业智能(BI)报告的主要目的是什么?A. 改进数据质量B. 提供数据洞察C. 生成报表D. 进行数据审计9. 数据库复制在数据库系统中起什么作用?A. 提高数据可用性B. 增加数据安全性C. 支持灾难恢复D. 促进数据同步10. 在数据库管理中,哪一个概念描述了数据库的安全性?A. 访问控制列表B. 数据加密C. 审计日志D. 用户身份验证11. 在数据库设计中,规范化是为了避免什么问题?A. 数据冗余B. 数据不一致性C. 数据丢失D. 数据完整性12. 数据库系统工程师在数据迁移过程中需要考虑的关键因素有哪些?A. 数据兼容性B. 数据完整性C. 数据安全性D. 数据转换效率13. 在数据库系统中,索引的目的是什么?A. 提高查询性能B. 减少数据冗余C. 支持事务处理D. 增加存储空间效率14. 数据库复制在灾难恢复中的作用是什么?A. 创建数据的实时副本B. 提供数据备份功能C. 实现数据同步D. 提高数据访问速度15. 数据库系统工程师在数据库监控中需要关注哪些指标?A. CPU使用率B. 内存使用情况C. 磁盘I/O性能D. 网络带宽使用16. 在商业智能(BI)项目中,如何确保数据的质量和分析的准确性?A. 对数据进行清洗和验证B. 使用统计方法对数据进行预测C. 定期进行数据审查和测试D. 建立数据治理框架17. 在数据库设计中,通常我们会遵循第三范式,请问第三范式的主要目的是什么?A. 减少数据冗余B. 增加数据一致性C. 提高数据完整性D. 保证数据安全性18. 数据库管理系统的主要类型有哪些?A. 关系型数据库管理系统(RDBMS)B. 非关系型数据库管理系统(NoSQL)C. 对象关系型数据库管理系统(ORDBMS)D. 并行数据库管理系统19. 商业智能(BI)的主要功能包括哪些?A. 数据仓库B. 数据挖掘C. 数据可视化和报表生成D. 数据分析和决策支持20. 在数据仓库中,数据清洗和预处理的主要目的是什么?A. 提高数据质量B. 增加数据多样性C. 优化数据存储D. 支持多种数据分析工具21. 数据挖掘中常用的技术有哪些?A. 分类和预测B. 关联规则学习C. 聚类分析D. 文本挖掘和情感分析22. 商业智能工具中最常用的是哪种?A. QlikViewB. Power BIC. TableauD. Oracle Business Intelligence23. 数据库系统工程师在数据库设计和优化时应关注哪些关键指标?A. 查询性能B. 存储容量C. 可扩展性D. 数据完整性和安全性24. 在数据库系统中,索引是一种常见的数据结构,它的作用是什么?A. 加速数据检索B. 减少数据冗余C. 保证数据一致性D. 优化数据分布25. 数据库与商业智能(BI)的主要区别是什么?A. 商业智能(BI)需要专门的硬件和软件支持B. 数据库是商业智能(BI)的基础C. 数据库与商业智能(BI)没有直接关系D. 商业智能(BI)是基于数据仓库的系统26. 在数据库系统中,什么是索引?A. 一种用于快速查询数据的数据结构B. 一种用于存储数据的表格C. 一种用于排序数据的算法D. 一种用于描述数据之间的关系27. 什么是关系型数据库管理系统(RDBMS)?A. 一种基于关系模型的数据库管理系统B. 一种基于面向对象模型的数据库管理系统C. 一种基于层次模型的数据库管理系统D. 一种基于网络模型的数据库管理系统28. 数据仓库中的数据组织方式通常是什么?A. 关系型模型B. 面向对象模型C. 层次模型D. 网络模型29. 什么是数据挖掘?A. 一种数据分析技术B. 一种数据可视化工具C. 一种数据库管理系统D. 一种编程语言30. 在商业智能(BI)中,什么是报表生成器?A. 一种用于生成报表的工具B. 一种用于数据分析的工具C. 一种用于数据可视化的工具D. 一种用于数据仓库管理的工具31. 什么是数据清洗?A. 一种数据整理过程,用于消除数据中的错误和不一致性B. 一种数据转换过程,用于将数据从一种格式转换为另一种格式C. 一种数据聚合过程,用于对数据进行汇总和分析D. 一种数据压缩过程,用于减少数据的存储空间32. 在数据库系统中,什么是事务处理?A. 一种数据库操作过程,用于执行一系列数据库操作B. 一种数据库管理过程,用于维护数据库的一致性和完整性C. 一种数据库设计过程,用于优化数据库性能D. 一种数据库编程过程,用于实现特定的数据库功能33. 什么是数据仓库的演进过程?A. 从数据集成到数据仓库,再到商业智能(BI)B. 从关系型数据库到非关系型数据库,再到数据仓库C. 从数据清洗到数据转换,再到数据可视化D. 从数据仓库到数据湖,再到商业智能(BI)34. 在商业智能(BI)中,什么是数据集成?A. 一种数据整合过程,用于将来自不同数据源的数据合并到一个统一的平台上B. 一种数据转换过程,用于将数据从一种格式转换为另一种格式C. 一种数据清洗过程,用于消除数据中的错误和不一致性D. 一种数据存储过程,用于优化数据的存储和管理35. 在数据库设计中,规范化是为了避免哪种情况?A. 数据冗余B. 数据不一致C. 数据丢失D. 数据完整性被破坏36. 数据仓库中的事实表与维表之间的关系是什么?A. 一对一B. 一对多C. 多对多D. 它们没有直接关系37. 在数据库系统中,索引的作用是什么?A. 增加数据检索的速度B. 减少数据冗余C. 提高数据完整性D. 支持事务处理并发访问38. 数据库备份与恢复策略中,最常用的技术是什么?A. 全量备份B. 增量备份C. 差量备份D. 日志备份39. 数据库系统工程师在面试时可能会展现出以下心态:A. 自我炫耀B. 焦虑不安C. 期待过高D. 担心失败二、问答题1. 什么是数据库系统?请简述数据库系统的组成部分。
数据库与商业智能(BI)考试

数据库与商业智能(BI)考试(答案见尾页)一、选择题1. 数据库系统工程师的主要职责包括哪些?A. 设计和构建数据库管理系统B. 编写和维护数据库应用程序C. 提供数据存储和检索服务D. 管理数据库系统的性能和安全2. 以下哪个选项是关系数据库管理系统(RDBMS)的核心特性之一?A. 非结构化数据存储B. 关系模型数据结构C. 高并发读写能力D. 自动数据备份和恢复3. 商业智能(BI)是什么?A. 一种数据分析工具B. 一种数据库管理系统C. 一种数据仓库D. 一种商业策略4. 在数据库系统中,什么是索引?A. 用于数据排序的一种数据结构B. 用于快速查询数据的一种数据结构C. 用于数据完整性和安全性的一种技术D. 用于数据存储的一种硬件设备5. 数据库事务的四个基本特性(ACID)分别是什么?A. 原子性、一致性、隔离性、持久性B. 一致性、隔离性、持久性、可用性C. 原子性、一致性、隔离性、可用性D. 原子性、一致性、隔离性、持久性6. 以下哪个数据库类型支持事务处理?A. 关系型数据库B. 非关系型数据库C. 数据仓库D. 并行数据库7. 在商业智能(BI)中,哪种图表类型通常用于展示时间序列数据?A. 条形图B. 折线图C. 水平柱状图D. 饼图8. 数据库管理系统(DBMS)和非关系型数据库(NoSQL)之间的主要区别是什么?A. 数据模型B. 事务处理能力C. 查询语言D. 存储结构9. 在数据库设计中,什么是规范化?A. 一种用于减少数据冗余的技术B. 一种用于确保数据一致性的技术C. 一种用于描述数据在磁盘上如何存储的技术D. 一种用于提高数据访问速度的技术10. 在商业智能(BI)项目中,数据清洗和预处理的目的是什么?A. 为了确保数据的准确性B. 为了优化数据存储C. 为了提高数据可视化效果D. 为了确保数据的安全性11. 在数据库设计中,以下哪个阶段是用来确保数据结构与业务需求相匹配的?A. 需求分析B. 概念设计C. 逻辑设计D. 物理设计12. 商业智能(BI)工具的主要功能是什么?A. 数据挖掘和分析B. 数据清洗和验证C. 数据转换和加载D. 数据可视化13. 数据库事务处理的主要特点包括哪些?A. 原子性B. 一致性C. 隔离性D. 持久性14. 数据库备份策略的选择应考虑哪些因素?A. 数据的重要性B. 数据的备份频率C. 系统的恢复时间目标(RTO)D. 数据的备份类型15. 关系型数据库与非关系型数据库的主要区别是什么?A. 数据模型B. 事务处理能力C. 扩展性D. 存储方式16. 在数据库系统中,索引的作用是什么?A. 提高查询速度B. 减少数据冗余C. 支持事务处理D. 增强数据安全性17. 数据库管理员(DBA)在数据库系统中的角色是什么?A. 系统开发人员B. 数据库设计者C. 数据库维护者D. 数据库管理者18. 数据仓库中的数据通常分为哪几个层次?A. 银行账户层B. 业务层C. 报表层D. 数据层19. 数据挖掘中常用的技术有哪些?A. 分类B. 聚类C. 关联规则学习D. 回归分析20. 在商业智能(BI)项目中,如何确保数据的质量和分析的准确性?A. 对数据进行清洗和预处理B. 使用可靠的数据源C. 定期进行数据审核和验证D. 使用高级的分析工具21. 数据库系统的发展历程可以分为几个阶段?A. 人工管理阶段B. 文件系统阶段C. 数据库系统阶段D. 面向对象的数据库阶段22. 数据库系统工程师在面试过程中可能会展现出以下心态:A. 焦虑和不安B. 自我怀疑C. 对未来的期待D. 对技术的渴望23. 数据仓库中的数据组织结构通常遵循哪种模式?A. 星型模型B. 网状模型C. 链型模型D. 分层模型24. 在商业智能(BI)应用中,数据清洗和预处理的主要目的是什么?A. 提高数据质量B. 减少数据冗余C. 增强数据一致性D. 提升数据处理效率25. 数据挖掘中,以下哪个技术不是用来发现数据中的隐藏模式和趋势的?A. 分类B. 聚类C. 回归D. 预测26. 在数据库系统中,索引的主要作用是什么?A. 加速查询操作B. 增加数据冗余C. 保证数据完整性D. 支持事务处理27. 数据库管理系统(DBMS)的体系结构通常包含哪几个层次?A. 应用层B. 业务逻辑层C. 数据访问层D. 数据存储层28. 在商业智能(BI)项目中,数据集成通常涉及哪些步骤?A. 数据抽取B. 数据转换C. 数据清洗D. 数据加载29. 在数据库设计中,规范化是为了解决数据冗余、插入异常、删除异常和更新异常等问题。
数据仓库工程师面试题

数据仓库工程师面试题作为数据仓库工程师,面试题是评估您对数据仓库设计和管理的理解和经验的重要参考。
下面是一些常见的数据仓库工程师面试题,带您深入了解该领域的知识和技能。
1. 请解释一下数据仓库是什么,以及它与传统数据库的区别是什么?数据仓库是一个被设计用于支持处理和分析大量结构化和非结构化数据的系统。
与传统数据库相比,数据仓库有以下区别:- 数据来源:数据仓库从多个不同的源中获取数据,包括内部和外部数据源,例如业务系统、Web日志和社交媒体。
而传统数据库主要用于业务操作和事务处理。
- 数据结构:数据仓库使用星型模型或雪花模型来组织数据,以便更好地支持查询和分析。
传统数据库则使用关系模型。
- 数据性能:数据仓库通过聚集、索引和分区等技术来优化查询性能,而传统数据库更关注事务性处理的响应时间。
2. 请解释一下ETL的过程是什么,以及在数据仓库中的作用是什么?ETL(抽取、转换和加载)是数据仓库中的常见过程。
它包括以下步骤:- 抽取(Extract):从多个数据源中获取数据,并进行初步清洗和转换,以满足后续处理的需求。
- 转换(Transform):对抽取的数据进行清洗、规范化、转换和整合,以满足数据仓库的模型和规范。
- 加载(Load):将已转换的数据加载到数据仓库中的相应表中。
ETL的作用是将分散和异构的数据整合到一个中心化的数据仓库中,以便进行分析和报告。
通过ETL过程,可以清洗数据、处理数据质量问题、整合多个数据源的数据,并为分析师和业务用户提供一致、准确的数据。
3. 请解释一下星型模型和雪花模型,并阐述它们之间的区别。
星型模型和雪花模型是用于组织数据仓库中的事实表和维度表的两种常见模型。
- 星型模型:星型模型由一个中心的事实表和多个维度表组成。
事实表包含可度量的业务指标,而维度表包含描述业务上下文的属性。
维度表通过外键与事实表相连,而且维度表之间没有相互连接。
- 雪花模型:雪花模型延伸了星型模型,通过将维度表进一步分解成多个规范化的表来减少数据冗余。
- 1、下载文档前请自行甄别文档内容的完整性,平台不提供额外的编辑、内容补充、找答案等附加服务。
- 2、"仅部分预览"的文档,不可在线预览部分如存在完整性等问题,可反馈申请退款(可完整预览的文档不适用该条件!)。
- 3、如文档侵犯您的权益,请联系客服反馈,我们会尽快为您处理(人工客服工作时间:9:00-18:30)。
1 商务智能 1.1 数据仓库 1.1.1 数据仓库的4大特点(特征)? 面向主题的,集成的,相对稳定的,反映历史变化的。 1.1.2 数据仓库的四个层次体系结构? 1. 数据源 是数据仓库系统的基础,是整个系统的数据源泉。通常包括企业内部信息和外部信息。内部信息包括存放于RDBMS中的各种业务处理数据和各类文档数据。外部信息包括各类法律法规、市场信息和竞争对手的信息等等; 2. 数据的存储与管理 是整个数据仓库系统的核心。数据仓库的真正关键是数据的存储和管理。数据仓库的组织管理方式决定了它有别于传统数据库,同时也决定了其对外部数据的表现形式。要决定采用什么产品和技术来建立数据仓库的核心,则需要从数据仓库的技术特点着手分析。针对现有各业务系统的数据,进行抽取、清理,并有效集成,按照主题进行组织。数据仓库按照数据的覆盖范围可以分为企业级数据仓库和部门级数据仓库(通常称为数据集市) 3. OLAP服务器 对分析需要的数据进行有效集成,按多维模型予以组织,以便进行多角度、多层次的分析,并发现趋势。其具体实现可以分为:ROLAP(关系型在线分析处理)、MOLAP(多维在线分析处理)和HOLAP(混合型线上分析处理)。ROLAP基本数据和聚合数据均存放在RDBMS之中;MOLAP基本数据和聚合数据均存放于多维数据库中;HOLAP 基本数据存放于RDBMS之中,聚合数据存放于多维数据库中。 4. 前端工具 主要包括各种报表工具、查询工具、数据分析工具、数据挖掘工具以数据挖掘及各种基于数据仓库或数据集市的应用开发工具。其中数据分析工具主要针对OLAP 服务器,报表工具、数据挖掘工具主要针对数据仓库。
1.1.3 描述一下联机分析处理OLAP?(维的概念,基本多维操作,层次结构,与OLTP的区别)
OLAP(联机分析处理On-Line Analytical Processing)也叫多维DBMS。 OLAP是数据仓库系统的主要应用,支持复杂的分析操作,侧重决策支持,并且提供直 观易懂的查询结果。 OLAP的目标是满足决策支持或者满足在多维环境下特定的查询和报表需求,它的技术核心是"维"这个概念。 “维”是人们观察客观世界的角度,是一种高层次的类型划分。“维”一般包含着层次关系,这种层次关系有时会相当复杂。通过把一个实体的多项重要的属性定义为多个维(dimension),使用户能对不同维上的数据进行比较。因此OLAP也可以说是多维数据分析工具的集合。也叫做多维数据集。一般一个多维数据集可以用一个立方体的方式进行描述。 多维数据集是联机分析处理 (OLAP) 中的主要对象,是一项可对数据仓库中的数据进行快速访问的技术。多维数据集是一个数据集合,通常从数据仓库的子集构造,并组织和汇总成一个由一组维度和度量值定义的多维结构。 每个多维数据集都有一个架构,架构是数据仓库中已联接的各表的集合,多维数据集从数据仓库提取其源数据。架构中的核心表是事实数据表,事实数据表是多维数据集度量值的源。 OLAP的基本多维分析操作有钻取(roll up和drill down)、切片(slice)和切块(dice)、以及旋转(pivot)、drill across、drill through等。·钻取是改变维的层次,变换分析的粒度。它包括向上钻取(roll up)和向下钻取(drill down)。roll up是在某一维上将低层次的细节数据概括到高层次的汇总数据,或者减少维数;而drill down则相反,它从汇总数据深入到细节数据进行观察或增加新维。·切片和切块是在一部分维上选定值后,关心度量数据在剩余维上的分布。如果剩余的维只有两个,则是切片;如果有三个,则是切块。·旋转是变换维的方向,即在表格中重新安排维的放置(例如行列互换)。
1.1.4 多维数据集为什么显示有些表即是事实表又是维度表?
退化维度。
1.1.5 描述一下粒度?维度?Cube? 粒度反映了数据仓库按照不同的层次组织数据,根据不同的查询需要,存储不同细节的数据。在数据仓库中,粒度越小,数据越细,查询范围就越广泛。相反,粒度级别越高,表示细节程度越低,查询范围越小。
1.1.6 描述一下ODS,统一数据视图 运营数据存储(The operational data store, ODS)或称操作型数据存储是一个面向主题的、集成的、当前的并且是可"挥发"的数据集合,它反映了在某一个时间切片瞬间,经营分析系统和外围系统(BOSS、MIS...)用以相互交换数据的集合,主要用于经营分析系统与外围系统关键数据一致性校验、以及经营分析系统对其它外围系统的决策支持数据的回馈,回馈数据包括以客户扩展属性为主体的详细资料等。运营数据存储扮演的是用于数据稽核与交互的 角色。 ODS 的存储结构是以企业范围所有相关业务系统的数据,以全面、统一进行关系型实体来体现的,ODS中的数据是基于分析主题进行组织,而不是基于业务系统的功能进行组织。ODS只是存储了当前的数据且数据是“挥发”性的,因此其数据的刷新是很快,过期的数据将要被挥发掉。因此ODS的存储量取决于业务接口数据的抽取与刷新频率,取决于企业的服务客户的数量。 从ODS的作用和实现来说,ODS将各个孤立的业务系统的运营数据集成起来,现成全企业的统一数据视图,同时可实现ODS的数据共享。
1.1.7 描述一下企业信息工厂 数据仓库领域里,有一种构建数据仓库的架构,叫Corporate Information Factory,中文一般翻译为“企业信息工厂”。企业信息工厂的创始人是数据仓库之父Inmon。 企业信息工厂主要包括集成转换层(I&T)、操作数据存储(ODS)、数据仓库(EDW)、数据集市(DM)、探索仓库(EW)等部件。这些部件有机的结合在一起,为企业提供信息服务。 集成转换层的目的是将来自操作型源系统的数据集成转换到数据仓库中,它通常由一组程序组成,而其它部件如数据仓库和数据集市等则主要由数据组成。 当业务数据来源多,业务复杂时,集成转换层会建立一些临时表,为数据处理提供方便。这时,集成转换层包括程序和数据,也称数据准备区(Data Staging Area)。通常中等规模及以上的数据仓库系统都会建立数据准备区。 操作数据存储(ODS)是建立在数据准备区和数据仓库之间的一个部件。用来满足企业集成的、综合的操作型处理需要。例如,出尽可能实时的集成的操作报表等需求。一般,也称操作数据存储是用来满足企业战术决策的需要。操作数据存储是个可选的部件。 数据仓库是企业信息工厂的核心部件,用来保存整个企业的数据。一般,也称数据仓库是用来满足企业战略决策的需要。数据仓库的数据来自数据准备区和操作数据存储。 数据集市是为了满足企业特定部门的分析需求而专门建立的数据的集合。数据集市的数据来源是数据仓库。企业信息工厂中的数据集市一般来说是非规范化的、定制的和汇总的。而多维体系架构中的数据集市分为两种,分别是原子数据集市和聚集数据集市。一般来说,企业信息工厂中的数据集市相当于多维体系架构中的聚集数据集市。
1.1.8 数据是数据集市? 数据集市中的数据具有数据仓库中数据的特点,只不过数据集市专为某一部门或某个特定商业需求定制,而不是根据数据容量命名。 数据集市面向部门、业务单元或特定应用,因而规模较小,便于快速实现,且成本较低,短期内即可获得明显效果。数据集市的应用不仅满足了部门的数据处理需求,而且作为数据仓库的子集有助于构建完整的企业级数据仓库。 1.1.9 元数据的定义,元数据管理,元数据的作用用? 数据仓库的元数据是关于数据仓库中数据的数据。它的作用类似于数据库管理系统的数据字典,保存了逻辑数据结构、文件、地址和索引等信息。广义上讲,在数据仓库中,元数据描述了数据仓库内数据的结构和建立方法的数据。 元数据是数据仓库管理系统的重要组成部分,元数据管理器是企业级数据仓库中的关键组件,贯穿数据仓库构建的整个过程,直接影响着数据仓库的构建、使用和维护。 (1)构建数据仓库的主要步骤之一是ETL。这时元数据将发挥重要的作用,它定义了源数据系统到数据仓库的映射、数据转换的规则、数据仓库的逻辑结构、数据更新的规则、数据导入历史记录以及装载周期等相关内容。数据抽取和转换的专家以及数据仓库管理员正是通过元数据高效地构建数据仓库。 (2)用户在使用数据仓库时,通过元数据访问数据,明确数据项的含义以及定制报表。 (3)数据仓库的规模及其复杂性离不开正确的元数据管理,包括增加或移除外部数据源,改变数据清洗方法,控制出错的查询以及安排备份等。 元数据可分为技术元数据和业务元数据。技术元数据为开发和管理数据仓库的IT 人员使用,它描述了与数据仓库开发、管理和维护相关的数据,包括数据源信息、数据转换描述、数据仓库模型、数据清洗与更新规则、数据映射和访问权限等。而业务元数据为管理层和业务分析人员服务,从业务角度描述数据,包括商务术语、数据仓库中有什么数据、数据的位置和数据的可用性等,帮助业务人员更好地理解数据仓库中哪些数据是可用的以及如何使用。 在数据仓库中,元数据的主要作用如下。 (1)描述哪些数据在数据仓库中,帮助决策分析者对数据仓库的内容定位。 (2)定义数据进入数据仓库的方式,作为数据汇总、映射和清洗的指南。 (3)记录业务事件发生而随之进行的数据抽取工作时间安排。 (4)记录并检测系统数据一致性的要求和执行情况。 (5)评估数据质量。
1.1.10 什么是主数据,主数据管理?和元数据有什么区别?主数据管理和传统数据仓库的区别?
主数据是指在整个企业范围内各个系统(操作/事务型应用系统以及分析型系统)间要共享的数据, 比如,可以是与客户(customers), 供应商(suppliers), 帐户(accounts)以及组织单位(organizational units)相关的数据。主数据通常需要在整个企业范围内保持一致性(consistent)、完整性(complete)、可控性(controlled),为了达成这一目标,就需要进行主数据管理(Master Data Management ,MDM)。主数据不是企业内所有的业务数据,只是有必要在各个系统间共享的数据才是主数据,比如大部分的交易数据、帐单数据等都不是主数据,而像描述核心业务实体的数据,而像客户、供应商、帐户、组织单位、员工、合作伙伴、位置信息等都是主数据。主数据是企业内能够跨业务重复使用的高价值的数据。 主数据管理(Master Data Management ,MDM)是指一组约束和方法用来保证一个企业内主题域和系统内相关数据和跨主题域和系统的相关数据的实时性、含义和质量。这是从深层次来说来说明主数据管理(MDM)的深度和复杂性,简单的说,主数据管理(MDM)保证你的