什么是数据仓库
数据仓库设计的六大原则

数据仓库设计的六大原则什么是数据仓库?在当前数字时代,大数据已成为企业发展的重要因素,但是处理数据的难度也与日俱增。
为了更好地分析和利用数据,数据仓库就应运而生。
数据仓库是一个综合性的、稳定的、可变的数据集合,可以帮助企业快速地准确地获取、处理和管理大量的数据资源。
在数据仓库设计的过程中,必须考虑一些重要的原则,本文将介绍六大数据仓库设计原则。
第一原则:数据仓库的设计要符合业务需求数据仓库是为了服务于业务而存在的,因此在设计数据仓库时必须要考虑业务需求。
例如在数据仓库的建设中必须要保证数据的准确性、一致性和及时性,而这些需要与实际业务的需求相符合。
另外,在设计数据仓库时,还需要统筹考虑各个业务模块之间的数据集成问题,并且要避免数据冗余和不完整的情况。
在确定好业务需求后,再设计数据仓库的模型,才能建立出最高效的数据处理和管理系统。
第二原则:数据仓库的设计要具有可维护性数据仓库在运营过程中,必定要处理大量的数据,而数据的质量、准确性、一致性等都需要进行不断的维护。
因此在设计数据仓库时必须要考虑到数据的可维护性。
比如说,在设计数据模型时可采用一些常见的维度模型和事实模型,以便于数据的处理和管理。
还要注意数据变化的情况,定期检查数据仓库中的数据是否存在过时、遗漏等问题,避免出现数据不同步或重复等问题。
只有具有良好的可维护性,数据仓库才能长期运营、为企业提供必要的数据服务。
第三原则:数据仓库的设计要易于理解数据仓库的设计不仅仅要考虑到开发人员的能力和技术水平,还要考虑到普通用户的使用便利性。
因此,在设计数据仓库时必须要符合用户的习惯和惯例,让他们能够轻松地使用和理解数据仓库的功能。
比如说,数据仓库的表格、视图等应该都遵循一定的规范,避免出现混乱的情况。
另外,还要注意面向多种用户类型设计不同层次的数据抽象,以让不同层次的用户都可以使用数据。
第四原则:数据仓库的设计要考虑到性能和可扩展性随着数据量不断增长,数据仓库的性能和可扩展性显得越来越重要。
数据仓库与数据挖掘教程(第2版)课后习题答案 第二章

数据仓库与数据挖掘教程(第2版)课后习题答案第二章1. 什么是数据仓库?它与传统数据库有什么不同?答:数据仓库是一个面向主题、集成、稳定、可学习的数据集合,用于支持企业决策制定和决策支持系统。
与传统数据库相比,数据仓库更注重数据的整合和大数据的处理能力,以支持更高级别的数据分析和决策。
2. 什么是元数据?有哪些类型?答:元数据指描述数据仓库中数据的数据,用于描述数据的含义、格式、内容、质量、来源、使用和存储等方面的信息。
元数据有三种类型:技术元数据、业务元数据和操作元数据。
3. 数据仓库的架构有哪些组成部分?请简述各组成部分的作用。
答:数据仓库的架构主要包括数据源、数据抽取、清理和转换、存储和管理、元数据管理、查询和分析等几个组成部分。
- 数据源:指数据仓库的数据来源,可以是事务处理系统、外部数据源、第三方提供商等。
- 数据抽取、清理和转换:将数据从各种不同的来源抽取出来并转化为简单、标准的格式,以便进行加工和分析。
- 存储和管理:将经过抽取、转换和清洗后的数据存储在数据仓库中并进行管理,查找、更新和删除等操作。
- 元数据管理:对数据仓库中的元数据进行管理,并将其存储在元数据存储库中。
- 查询和分析:通过各种查询和分析工具来进行数据挖掘、分析和报告。
4. 请列出数据仓库中的三种主要数据类型。
答:数据仓库中的三种主要数据类型包括事实数据、维度数据和元数据。
5. 请列出数据仓库的三种不同的操作类型。
答:数据仓库的三种不同的操作类型包括基础操作、加工操作和查询操作。
6. 数据挖掘的定义是什么?答:数据挖掘是一种通过分析大量数据来发现有意义模式、趋势和关联的过程。
它是既包含统计学、机器学习和数据库技术的交叉学科,又包含更广泛的知识和业务领域。
7. 请列出数据挖掘中的四个主要任务。
答:数据挖掘中的四个主要任务包括描述性数据挖掘、预测性数据挖掘、关联数据挖掘和分类和聚类。
8. 数据仓库中经常使用OLAP分析方式,您了解OLAP是什么吗?答: OLAP是一种面向主题的数据分析方式,可以帮助用户对快速变化的数据进行多维分析和决策支持。
什么是数据仓库

数据仓库基本概念对数据仓库最大的误解是把它当作一个现成的可以直接买来使用的产品。
数据仓库和数据库不同,它不是现成的软件或者硬件产品。
确切说,数据仓库是一种解决方案,是对原始的操作数据进行各种处理并转换成有用信息的处理过程,用户可以通过分析这些信息从而作出策略性的决策。
随着计算机技术的迅速发展,信息处理技术也得到了长足的发展,从70年代中期的MIS系统发展到现代的数据仓库(Data Warehouse)技术。
许多厂商都在开发自已的数据仓库解决方案,并通过各种渠道大力推广。
但就数据仓库技术而言,目前仍存在着许多认识上的误区,本文将着重介绍一些数据仓库的基本概念以及建立数据仓库时应该注意的一些情况。
数据仓库不是现成软件或硬件产品对数据仓库最大的误解可能是把它当作一个现成的可以直接买来使用的产品。
事实上,数据仓库和数据库不同,它不是现成的软件或者硬件产品。
比较确切地说,数据仓库是一种解决方案,是对原始的操作数据进行各种处理并转换成有用信息的处理过程,用户可以通过分析这些信息从而作出策略性的决策。
因此,在很多场合,我们也把数据仓库系统称为决策支持系统。
由于这个原因,数据仓库的用户不是类似银行柜员的终端操作人员,而是针对各个业务部门的用户和有关决策人员。
因此,数据仓库的用户比传统的OLTP(联机事务处理:On-line Transaction Processing)用户少得多。
OLTP与OLAPOLTP系统也称为生产系统,它是事件驱动、面向应用的,比如银行的储蓄系统就是一个典型的OLTP系统。
OLTP的基本特点是:·对响应时间要求非常高;·用户数量非常庞大,主要是操作人员;·数据库的各种操作基于索引进行。
OLAP(联机分析处理:On-line Analytical Processing)是基于数据仓库的信息分析处理过程,是数据仓库的用户接口部分。
OLAP系统是跨部门、面向主题的,其基本特点是:·基础数据来源于生产系统中的操作数据(Operational Data);·响应时间合理;·用户数量相对较小,其用户主要是业务决策与管理人员;·数据库的各种操作不能完全基于索引进行。
简述数据仓库的组成简答题

简述数据仓库的组成简答题数据仓库是一个重要的数据管理和分析系统,它能够帮助组织或企业收集、存储、管理和分析各种类型的数据,以便更好地了解客户、业务运营和市场走势。
以下是关于数据仓库的一些常见问题及其回答:1. 什么是数据仓库?它的作用是什么?答:数据仓库是一个集中式的数据存储系统,它主要用于收集、存储、管理和分析各种类型的数据,包括结构化数据和非结构化数据,如文本、图像、音频和视频等。
数据仓库的作用是帮助组织或企业更好地了解客户、业务运营和市场走势,以便更好地做出决策。
2. 数据仓库的组成部分是什么?答:数据仓库的组成部分包括:- 数据源:数据源是指从各种数据来源收集的数据,如数据库、文件、网络等。
- 数据清洗和转换:数据清洗和转换是指对数据进行清洗和标准化,以便更好地存储和访问数据。
- 数据集成:数据集成是指将清洗和转换后的数据集成到一个数据仓库中。
- 数据存储:数据存储是指将数据仓库中的数据存储到磁盘或其他存储设备中。
- 数据分析和挖掘:数据分析和挖掘是指使用机器学习和数据挖掘技术对数据进行分析和挖掘,以便更好地了解客户和市场。
3. 数据仓库的优缺点是什么?答:数据仓库的优点包括:- 集中数据存储和管理:数据仓库可以将各种类型的数据集中存储和管理,以便更好地管理和访问数据。
- 支持业务分析和决策:数据仓库可以使用数据分析和挖掘技术,支持组织或企业进行业务分析和决策。
- 提高数据质量和准确性:数据仓库可以使用数据清洗和转换技术,提高数据质量和准确性。
数据仓库的缺点包括:- 需要大量的存储和计算资源:数据仓库需要占用大量的存储和计算资源,需要大量的投资。
- 难以扩展和维护:数据仓库需要仔细的规划和设计,以便易于扩展和维护,需要大量的时间和精力。
- 难以清洗和转换:数据仓库中可能存在大量的数据清洗和转换问题,需要花费大量的时间和精力来处理。
数据挖掘考试题库完整

一、名词解释1. 数据仓库:是一种新的数据处理体系结构 .是面向主题的、集成的、不可更新的(稳定性)、随时间不断变化 (不同时间)的数据集合.为企业决策支持系统提供所需的集成信息。
2. 孤立点:指数据库中包含的一些与数据的一般行为或模型不一致的异常数据。
3. OLAP:OLAP 是在OLTP 的基础上发展起来的.以数据仓库为基础的数据分析处理 .是共享多维信息的快速分析.是被专门设计用于支持复杂的分析操作 .侧重对分析人员和高层管理人员的决策支持。
4. 粒度:指数据仓库的数据单位中保存数据细化或综合程度的级别。
粒度影响存放在数据仓库中的数据量的大小 .同时影响数据仓库所能回答查询问题的细节程度。
5. 数据规范化:指将数据按比例缩放(如更换大单位).使之落入一个特定的区域(如 0-1) 以提高数据挖掘效率的方法。
规范化的常用方法有:最大-最小规范化、零-均值规范化、小数定标规范化。
6. 关联知识:是反映一个事件和其他事件之间依赖或相互关联的知识。
如果两项或多项属性之间存在关联.那么其中一项的属性值就可以依据其他属性值进行预测。
7. 数据挖掘:从大量的、不完全的、有噪声的、模糊的、随机的数据中.提取隐含在其中的、人们事先不知道的、但又是潜在有用的信息和知识的过程。
8. OLTP:OLTP 为联机事务处理的缩写.OLAP 是联机分析处理的缩写。
前者是以数据库为基础的.面对的是操作人员和低层管理人员 .对基本数据进行查询和增、删、改等处理。
9. ROLAP:是基于关系数据库存储方式的 .在这种结构中.多维数据被映像成二维关系表.通常采用星型或雪花型架构.由一个事实表和多个维度表构成。
10. MOLAP:是基于类似于“超立方”块的OLAP 存储结构.由许多经压缩的、类似于多维数组的对象构成.并带有高度压缩的索引及指针结构 .通过直接偏移计算进行存取。
11. 数据归约:缩小数据的取值范围.使其更适合于数据挖掘算法的需要 .并且能够得到和原始数据相同的分析结果。
什么是数据仓库

504团队出品
小结
企业数据仓库的建设,是以现有企业业务系统 和大量业务数据的积累为基础。数据仓库不是静态 的概念,只有把信息及时交给需要这些信息的使用 者,供他们做出改 善其业务经营的决策,信息才能 发挥作用,信息才有意义。而把信息加以整理归纳 和重组,并及时提供给相应的管理决策人员,是数 据仓库的根本任务。因此,从产业界的角度看,数 据仓库建设是一个工程,是一个过程。
504团队出品
数据仓库的特点
根据数据仓库的定义,我们可以知道,数据仓库具 有以下四个特点: 1、面向主题 2、集成的 3、相对稳定的 4、反映历史变化的 那么,接下来我们说一下这四个特点
ቤተ መጻሕፍቲ ባይዱ
504团队出品
特点1:数据仓库是面向主题的
504团队出品
特点3:数据仓库是稳定的
操作型数据库中的数据通常实时更新,数据根据需 要及时发生变化。数据仓库的数据主要供企业决策 分析之用,所涉及的数据操作主要是数据查询,一 旦某个数据进入数据仓库以后,一般情况下将被长 期保留,也就是数据仓库中一般有大量的查询操作, 但修改和删除操作很少,通常只需要定期的加载、 刷新。
504团队出品
教程结束 谢谢观看
504团队出品 QQ:721013290 Email:721013290@ 欢迎交流
504团队出品
504团队出品
特点4:数据仓库是反映历史变化的
操作型数据库主要关心当前某一个时间段内的数据, 而数据仓库中的数据通常包含历史信息,系统记录 了企业从过去某一时点(如开始应用数据仓库的时点) 到目前的各个阶段的信息,通过这些信息,可以对 企业的发展历程和未来趋势做出定量分析和预测。
我们知道,平常所使用的数据库系统是面向事务处 理任务,各个任务系统之间是相互分离。而数据仓 库则是按照一定的主题域进行组织和分析的。主题 是一个比较抽象的概念,他是指用户使用数据仓库 进行决策时所关心的重点方面,一个主题通常与多 个业务系统数据库相关。 举个简单的小例子,对于一个网上商城的数据仓库 来说,那么销售分析就是一个主题,客户属性分析 也是一个主题,等等。
数据仓库与数据挖掘区别
数据仓库与数据挖掘区别随着数据的日益增长和应用需求的扩大,数据仓库和数据挖掘成为了越来越重要的领域。
这两个领域虽然有时被混淆在一起,但其实有很大的区别。
本文将深入探讨数据仓库和数据挖掘的区别。
一、数据仓库是什么首先我们来看数据仓库是什么。
数据仓库是一个专门存储企业级数据的系统。
它是一个集中管理和众多决策支持工具的数据中心,可以提供企业数据的历史标准记录和解决方案。
数据仓库包括一个或多个数据源、抽取转换加载程序、集成部分和元数据信息。
在数据仓库中,业务数据从各个操作性/事务型系统收集、清洗、集成并存储,为后期的分析使用提供了数据资源。
数据仓库通常能够支持复杂、高级、决策性的业务分析,而传统的操作数据系统通常只支持简单的查询和记录事务。
二、数据挖掘是什么接下来我们了解一下数据挖掘。
数据挖掘是一种从数据中发掘隐藏模式、关系和规律的过程,可以通过应用统计分析、机器学习、聚类分析以及其它相关技术进行自动化发现。
数据挖掘是在海量、复杂、异构、不确定的数据中获取有用知识的一种方法。
数据挖掘与统计学不同之处在于,统计学更加关注于数据分布、统计量以及推断。
而数据挖掘更加关心的是数据的预测建模、分类和聚类。
数据挖掘还可以探索数据,从而寻找实现业务目标的方案。
在数据挖掘中,数据不仅用于构建模型,还广泛应用于商业分析、客户关系管理、市场探测以及其它领域。
三、数据仓库和数据挖掘的区别数据仓库和数据挖掘经常被误解,认为是相同的领域。
然而,两者之间有很大的区别。
首先,数据仓库旨在存储和管理各种类型的数据。
而数据挖掘旨在从这些数据源中提取有用、有影响的业务信息。
因此,可以说数据仓库是数据挖掘的基础。
其次,数据仓库主要是为数据分析提供数据,而数据挖掘旨在构建更深入的分析和预测模型。
数据仓库会使业务分析师获得简单易懂的答案,而数据挖掘技术能发现隐藏的模式和规律,发掘数据中的未知信息。
另外,数据仓库主要是为企业的管理团队和商业分析师提供数据资源。
数仓面试自我介绍
数仓面试自我介绍一、引言大家好,我是XXX,很荣幸能够参加数仓面试,今天我想和大家分享一下我对数仓的理解和经验。
二、什么是数仓数仓(Data Warehouse)是指将来自不同数据源的海量数据进行整合、清洗、加工和存储,以支持企业决策和分析的技术架构和解决方案。
数仓通过将分散的数据集中存储,提供了一个统一的数据视图,使得企业能够更好地进行数据分析、挖掘和决策。
三、数仓的重要性1. 有效决策支持:数仓能够提供高质量、一致性和可靠的数据,为企业决策提供支持,帮助企业了解市场趋势、顾客需求和业务表现。
2. 数据集成和整合:数仓能够将来自不同数据源的数据进行整合和统一,消除数据冗余和不一致,提供一致性的数据视图。
3. 数据质量保证:数仓通过数据清洗和加工,可以提高数据的质量和准确性,避免脏数据对企业决策的影响。
4. 数据分析和挖掘:数仓提供了丰富的数据分析和挖掘工具,帮助企业发现隐藏的信息和规律,支持业务优化和决策制定。
5. 提高企业竞争力:通过数仓的建设和运营,企业能够更好地利用数据资源,提高业务效率和创新能力,从而在市场竞争中获得优势。
四、数仓的架构和技术1. 数据提取和清洗:数据仓库使用ETL(Extract-Transform-Load)工具从各种数据源中提取数据,并进行清洗和转换,以保证数据的准确性和一致性。
2. 数据存储和管理:数仓通常使用关系数据库管理系统(RDBMS)或者大数据平台(如Hadoop、Spark等)来存储和管理数据,以支持高效的数据查询和分析。
3. 数据建模和设计:数仓使用维度建模或者星型模型来设计数据结构,以提供简单、直观的数据视图和查询接口。
4. 数据集成和整合:数仓使用数据集成工具和技术,将来自不同数据源的数据进行整合和统一,以提供一致性的数据视图。
5. 数据安全和权限控制:数仓需要保证数据的安全性和隐私性,通过权限控制、加密和审计等手段来保护数据的安全。
五、数仓项目经验在以往的工作中,我参与了数仓项目的设计、开发和运维工作,积累了丰富的经验和技能。
什么是数据库数据库的定义
什么是数据库数据库的定义数据库是按照数据结构来组织、存储和管理数据的仓库,那么你对数据库了解多少呢?以下是由店铺整理关于什么是数据库的内容,希望大家喜欢!数据库的定义定义1数据库(Database)是按照数据结构来组织、存储和管理数据的建立在计算机存储设备上的仓库。
简单来说是本身可视为电子化的文件柜——存储电子文件的处所,用户可以对文件中的数据进行新增、截取、更新、删除等操作。
在经济管理的日常工作中,常常需要把某些相关的数据放进这样的“仓库”,并根据管理的需要进行相应的处理。
例如,企业或事业单位的人事部门常常要把本单位职工的基本情况(职工号、姓名、年龄、性别、籍贯、工资、简历等)存放在表中,这张表就可以看成是一个数据库。
有了这个"数据仓库"我们就可以根据需要随时查询某职工的基本情况,也可以查询工资在某个范围内的职工人数等等。
这些工作如果都能在计算机上自动进行,那我们的人事管理就可以达到极高的水平。
此外,在财务管理、仓库管理、生产管理中也需要建立众多的这种"数据库",使其可以利用计算机实现财务、仓库、生产的自动化管理。
定义2严格来说,数据库是长期储存在计算机内、有组织的、可共享的数据集合。
数据库中的数据指的是以一定的数据模型组织、描述和储存在一起、具有尽可能小的冗余度、较高的数据独立性和易扩展性的特点并可在一定范围内为多个用户共享。
这种数据集合具有如下特点:尽可能不重复,以最优方式为某个特定组织的多种应用服务,其数据结构独立于使用它的应用程序,对数据的增、删、改、查由统一软件进行管理和控制。
从发展的历史看,数据库是数据管理的高级阶段,它是由文件管理系统发展起来的。
数据库的基本结构数据库的基本结构分三个层次,反映了观察数据库的三种不同角度。
以内模式为框架所组成的数据库叫做物理数据库;以概念模式为框架所组成的数据叫概念数据库;以外模式为框架所组成的数据库叫用户数据库。
数据仓库技术名词解释
数据仓库技术名词解释
数据仓库技术是一种用于帮助企业集成、存储和分析大量数据的技术。
这种技术主要基于数据库系统技术发展而来,逐步形成了一系列独立的新应用技术。
通过数据仓库技术,大量的数据可以从不同的数据源中提取、转换并加载到一个数据存储库中。
然后,对这些数据进行多维分析和报告,以帮助企业做出更明智的商业决策。
数据仓库是一个为企业提供决策支持的数据存储系统,可以提供包括历史数据、实时数据、汇总数据等在内的所有类型的数据支持。
数据仓库的架构通常采用星型模型或雪花模型,以方便进行多维分析和查询。
此外,数据仓库技术还可以帮助企业提高数据质量,通过对收集到的数据进行清理和转换,提高数据的质量和准确性。
以上内容仅供参考,如需更多信息,建议查阅数据仓库相关书籍或咨询该领域专业人士。
- 1、下载文档前请自行甄别文档内容的完整性,平台不提供额外的编辑、内容补充、找答案等附加服务。
- 2、"仅部分预览"的文档,不可在线预览部分如存在完整性等问题,可反馈申请退款(可完整预览的文档不适用该条件!)。
- 3、如文档侵犯您的权益,请联系客服反馈,我们会尽快为您处理(人工客服工作时间:9:00-18:30)。
什么是数据仓库?什么是数据仓库数据仓库是一个环境,而不是一件产品,提供用户用于决策支持的当前和历史数据,这些数据在传统的操作型数据库中很难或不能得到。
数据仓库技术是为了有效的把操作形数据集成到统一的环境中以提供决策型数据访问的各种技术和模块的总称。
所做的一切都是为了让用户更快更方便查询所需要的信息,提供决策支持。
数据仓库的组成数据抽数据净化数据载入信息发布系统操作型数据和外界数据数据集市报表,查询, EIS工具OLAP 工具数据挖掘工具操纵平台元数据管理平台无双回复于:2003-08-03 17:43:11数据仓库数据库是整个数据仓库环境的核心,是数据存放的地方和提供对数据检索的支持。
相对于操纵型数据库来说其突出的特点是对海量数据的支持和快速的检索技术。
数据抽取工具把数据从各种各样的存储方式中拿出来,进行必要的转化、整理,再存放到数据仓库内。
对各种不同数据存储方式的访问能力是数据抽取工具的关键,应能生成COBOL程序、MVS作业控制语言(J CL)、UNIX脚本、和SQL语句等,以访问不同的数据。
数据转换都包括,删除对决策应用没有意义的数据段;转换到统一的数据名称和定义;计算统计和衍生数据;给缺值数据赋给缺省值;把不同的数据定义方式统一。
元数据元数据是描述数据仓库内数据的结构和建立方法的数据。
可将其按用途的不同分为两类,技术元数据和商业元数据。
技术元数据是数据仓库的设计和管理人员用于开发和日常管理数据仓库是用的数据。
包括:数据源信息;数据转换的描述;数据仓库内对象和数据结构的定义;数据清理和数据更新时用的规则;源数据到目的数据的映射;用户访问权限,数据备份历史记录,数据导入历史记录,信息发布历史记录等。
商业元数据从商业业务的角度描述了数据仓库中的数据。
包括:业务主题的描述,包含的数据、查询、报表;元数据为访问数据仓库提供了一个信息目录(information directory),这个目录全面描述了数据仓库中都有什么数据、这些数据怎么得到的、和怎么访问这些数据。
是数据仓库运行和维护的中心,数据仓库服务器利用他来存贮和更新数据,用户通过他来了解和访问数据。
访问工具为用户访问数据仓库提供手段。
有数据查询和报表工具;应用开发工具;管理信息系统(EIS)工具;在线分析(OLAP)工具;数据挖掘工具。
数据集市(Data Marts)为了特定的应用目的或应用范围,而从数据仓库中独立出来的一部分数据,也可称为部门数据或主题数据(subject area)。
在数据仓库的实施过程中往往可以从一个部门的数据集市着手,以后再用几个数据集市组成一个完整的数据仓库。
需要注意的就是再实施不同的数据集市时,同一含义的字段定义一定要相容,这样再以后实施数据仓库时才不会造成大麻烦。
数据仓库管理:安全和特权管理;跟踪数据的更新;数据质量检查;管理和更新元数据;审计和报告数据仓库的使用和状态;删除数据;复制、分割和分发数据;备份和恢复;存储管理。
信息发布系统:把数据仓库中的数据或其他相关的数据发送给不同的地点或用户。
基于Web的信息发布系统是对付多用户访问的最有效方法。
无双回复于:2003-08-03 17:43:29建立数据仓库为什么要建立数据仓库:商业上:利用所有可能的数据快速而正确的做出决策;用户是业务领域的专家,而不是计算机专业人员;企业数据每18个月翻一番,需要有一种有效的访问这些数据的方法;在商业智能和有利用效企业数据方面,竞争的加剧。
技术上:计算机的计算能力越来越便宜(MIPS价格的下跌);存储介质价格的下跌;网络带宽的增长,网络的传输能力越来越便宜;整个企业的计算机环境越来越复杂,各个时代各个不同厂家的应用系统同时存在;新的应用要访问其他应用的数据。
实施数据仓库应注意的问题:商业上(考虑投资回报率)实施的步骤:从上到下还是从下到上人力资源的问题:培训还是雇佣设计上(think big, but start small)可能要用到很多类型的数据源,历史数据可能很“老”,数据库可能变得非常大。
数据仓库相对于OLTP来说,更加是业务驱动(business-driven)的而不是技术驱动的(IT-dri ven),需要和最终用户不断的交流,建立的过程可能永远不会结束。
要点:1) 数据仓库中应该包含细节数据(清理过的)。
2) 用户能看到的任何数据都应该在元数据中有对应的描述。
3) 考虑当数据量迅速增长到一台服务器放不下时,数据仓库中的数据在各个服务器总如何分配,按主题、地理位置、还是时间?这些策略对整个数据仓库的性能影响很大。
4) 当选用数据仓库设计工具时应注意:工具支持的元数据格式是否与数据仓库支持的元数据格式相容?不同工具的元数据格式之间能否自由转换?5) 最终用户对数据仓库的使用方式对数据仓库的性能影响很大,在设计数据仓库模型时为了提高性能应将用户对数据仓库的使用方式考虑在内。
无双回复于:2003-08-03 17:43:47设计数据仓库的九个步骤:1) 选择合适的主题(所要解决问题的领域)2) 明确定义fact表3) 确定和确认维4) choosing the facts5) 计算并存储fact表中的衍生数据段6) rounding out the dimension tables7) choosing the duration of the database8) the need to track slowly changing dimensions9) 确定查询优先级和查询模式。
技术上硬件平台:数据仓库的硬盘容量通常要是操作数据库硬盘容量的2-3倍。
通常大型机具有更可靠的性能和和稳定性,也容易与历史遗留的系统结合在一起;而PC服务器或UNIX服务器更加灵活,容易操作和提供动态生成查询请求进行查询的能力。
选择硬件平台时要考虑的问题:是否提供并行的I /O吞吐?对多CPU的支持能力如何?数据仓库DBMS:他的存储大数据量的能力、查询的性能、和对并行处理的支持如何。
网络结构:数据仓库的实施在那部分网络段上会产生大量的数据通信,需不需要对网络结构进行改进。
实现上无双回复于:2003-08-03 17:44:07建立数据仓库的步骤:1) 收集和分析业务需求2) 建立数据模型和数据仓库的物理设计3) 定义数据源4) 选择数据仓库技术和平台5) 从操作型数据库中抽取、净化、和转换数据到数据仓库6) 选择访问和报表工具7) 选择数据库连接软件8) 选择数据分析和数据展示软件9) 更新数据仓库数据抽取、清理、转换、和移植1) 数据转换工具要能从各种不同的数据源中读取数据。
2) 支持平面文件、索引文件、和legacy DBMS。
3) 能以不同类型数据源为输入整合数据。
4) 具有规范的数据访问接口5) 最好具有从数据字典中读取数据的能力6) 工具生成的代码必须是在开发环境中可维护的7) 能只抽取满足指定条件的数据,和源数据的指定部分8) 能在抽取中进行数据类型转换和字符集转换9) 能在抽取的过程中计算生成衍生字段10) 能让数据仓库管理系统自动调用以定期进行数据抽取工作,或能将结果生成平面文件11) 必须对软件供应商的生命力和产品支持能力进行仔细评估主要数据抽取工具供应商:Prism solutions. Carleton's PASSPORT. Information Builders Inc. 'sEDA/SQL. SAS Institute Inc.无双回复于:2003-08-03 17:44:23元数据是整个数据仓库环境运行和维护的中心,各种软件和工具都要访问这部分数据。
Prim提供了Dire ctory Manager来开发和管理元数据。
用户偶然用户(Casual User):只需要访问一些预定义的查询、生成报表等。
不需要任何工具,只是看一看。
高级用户(Power User):通常需要自己定义一些简单的查询或把预定义好的查询组合一下,通常需要drill-drown。
此类用户需要哪些为非计算机人员开发的数据查询工具。
专家(Expert):此类用户通常需要自己定义复杂的查询,直接分析数据仓库中存放的各种数据。
建立数据仓库的好处数据仓库应用包括:数据定位;数据呈现(报表和图表);检验假设;知识发现;共享分析。
有形的好处改善产品库存控制;降低常品推广费;更加高效的制订决策;能提供一个关于整个企业的bigpictu re。
无形的好处通过把所有的数据放在一个地方,方便存取,提高生产效率;减少重复数据处理和分析;提高用户种程度;为商务流程再造成提供支持作者:相关网络站点,所有权利属于原作者daiyingxin 回复于:2003-08-06 16:34:00很好,需要学习的东西真多,学不完了无双回复于:2003-08-06 18:24:10一步一步来如果不去学就不知道自己不知道但是学了不知道的东西又少了一点二二回复于:2003-08-08 09:01:39数据仓库的缩写是什么?BI吗?二二回复于:2003-08-08 13:31:18没人知道?穷惯了回复于:2003-08-09 20:03:12刚到公司的时候,部门里组织了几个人(包括本人)去搞当时还是比较新的东西---数据仓库。
忙了一个月,感觉就是云里雾里的那种,数据仓库这东西太大,建议大家对整个概念有所了解就够了。
我想现在国内也不会有什么厂家说自己去搞个这方面的产品,所有的项目也就是用IBM。
ORACLE还有SAS什么的产品客户话一把。
sandyqin 回复于:2005-08-22 12:33:10原文作者是谁CU管理员回复于:2005-08-25 10:33:46[quote:831bfd63d1="sandyqin"]原文作者是谁[/quote:831bfd63d1]没有注明作者有可能是当时转摘的网友没看到原作者的信息,如果你知道作者信息还请告知,我们会马上加上的.感谢你对CU的关注.innovate511 回复于:2005-08-25 16:09:21[quote:4d3bc871b9="二二"]数据仓库的缩写是什么?BI吗?[/quote:4d3bc871b9]汗,真没想到这里还有人讨论数据仓库。
:mrgreen:要知道更多数局仓库的信息和知识,还得去国内最专业的DW网站,我2003年初才去注册,不过我2000年就开始做BI了。
数据仓库和BI关系很大,但是不是同一个概念,数据仓库的英文全称是Data warehouse,很多时候简称DW。
数据仓库是复杂BI项目的基础,有的项目没有用DW,但是可以算是广义的BI,因为他用了BI的一些概念,只是有的人只做过OLTP方式的报表系统就号称做过数据仓库就有点贻笑大方了。