数据仓库之概念描述

合集下载

数据仓库概述(概念、应用、体系结构)

数据仓库概述(概念、应用、体系结构)
使用浏览分析工具在数据仓库中寻找有用的信息; 基于数据仓库,在数据仓库系统上建立应用,形成 决策支持系统。
事务处理 分析处理
DB
从数据 OLTP 数据
DW
从数据 信息(知识) OLAP(DM、OLAM)
18
数据仓库与传统数据库的区别
19
OLTP和OLAP的区别

用户和系统的面向性:

转换描述从操作数据库到数据仓库的映射方法以及转换数据的算法访问权限备份历史存档历史信息传输历史数据获取历史数据访问等等29主题区和信息对象类型包括查询报表图像音频视频等支持数据仓库的其它信息例如信息传输系统包括的预约信息调度信息传送目标的详细描述商业查询对例如数据历史快照版本拥有权数据抽取的审计跟踪数据的使用方法30与数据访问和分析工具的集成31元数据库metadatarepository和工具32主要使用数据来源的物理结构信息企业数据模型和仓库数据模型最终用户最关心两类元数据
4
业务系统不适宜DSS应用

事务处理和分析处理的性能要求和特性不同


事务处理对数据的存取操作频率高而每次操作处理的时 间短; 在分析处理环境中,某个DSS应用程序可能需要连续几 个小时,会消耗大量的系统资源。

数据集成问题 历史数据问题 数据的综合问题(更高粒度)
5
建立数据仓库的投资回报
数据模型:(1)逻辑数据结构,包括为有效进行数据
用的数据集合,是不同于DB的一种新的数据环境, 是DW 扩 展后得到的一个混合形式。四个基本特点:面向主题的、 集成的、可变的、 当前或接近当前的。 库处理由DBMS提供的操作和约束;(2)数据表示系统( 例如,ER图和关系模型)。
25
元数据

国开(山东)02115《客户关系管理》形成性考核一【答案】

国开(山东)02115《客户关系管理》形成性考核一【答案】

客户关系管理-形成性考核一复习资料
注:请认真核对是您需要的题目后再下载!
【题目】
【单选题】下列选项中,()是对数据仓库概念的正确描述。

A. 数据仓库是面向过程的、集成的数据集合
B. 数据仓库是与时间无关、不可修改的数据集合
C. 数据仓库是在企业管理和决策中面向主题的、与时间相关的数据集合
D. 数据仓库是随时间变化的、不稳定的数据集合
[提示:仔细阅读试题,并作答]
正确的答案是:数据仓库是在企业管理和决策中面向主题的、与时间相关的数据集合
【题目】
【单选题】crm是对企业( )的信息化。

A. 前台业务
B. 物料供应部门
C. 后台业务
D. 生产部门
[提示:仔细阅读试题,并作答]
正确的答案是:前台业务
【题目】
【单选题】以下选项按目标客户分类,()应属于企业级的crm。

A. 跨国公司或者大型企业
B. 200人以上跨地区经营的企业
C. 200人以下企业
D. 1000人以上企业
[提示:仔细阅读试题,并作答]
正确的答案是:跨国公司或者大型企业
【题目】
【单选题】从技术的角度看,呼叫中心对内通过计算机和( )联系客户数据库和各部门的资源。

A. Intranet
B. Extranet
C. 互联网络
D. 电话网络
[提示:仔细阅读试题,并作答]
正确的答案是:电话网络
【题目】
【单选题】下列选项中不是数据仓库的特征的是
A. 随时间变化
B. 集成。

什么是数据仓库

什么是数据仓库

数据仓库基本概念对数据仓库最大的误解是把它当作一个现成的可以直接买来使用的产品。

数据仓库和数据库不同,它不是现成的软件或者硬件产品。

确切说,数据仓库是一种解决方案,是对原始的操作数据进行各种处理并转换成有用信息的处理过程,用户可以通过分析这些信息从而作出策略性的决策。

随着计算机技术的迅速发展,信息处理技术也得到了长足的发展,从70年代中期的MIS系统发展到现代的数据仓库(Data Warehouse)技术。

许多厂商都在开发自已的数据仓库解决方案,并通过各种渠道大力推广。

但就数据仓库技术而言,目前仍存在着许多认识上的误区,本文将着重介绍一些数据仓库的基本概念以及建立数据仓库时应该注意的一些情况。

数据仓库不是现成软件或硬件产品对数据仓库最大的误解可能是把它当作一个现成的可以直接买来使用的产品。

事实上,数据仓库和数据库不同,它不是现成的软件或者硬件产品。

比较确切地说,数据仓库是一种解决方案,是对原始的操作数据进行各种处理并转换成有用信息的处理过程,用户可以通过分析这些信息从而作出策略性的决策。

因此,在很多场合,我们也把数据仓库系统称为决策支持系统。

由于这个原因,数据仓库的用户不是类似银行柜员的终端操作人员,而是针对各个业务部门的用户和有关决策人员。

因此,数据仓库的用户比传统的OLTP(联机事务处理:On-line Transaction Processing)用户少得多。

OLTP与OLAPOLTP系统也称为生产系统,它是事件驱动、面向应用的,比如银行的储蓄系统就是一个典型的OLTP系统。

OLTP的基本特点是:·对响应时间要求非常高;·用户数量非常庞大,主要是操作人员;·数据库的各种操作基于索引进行。

OLAP(联机分析处理:On-line Analytical Processing)是基于数据仓库的信息分析处理过程,是数据仓库的用户接口部分。

OLAP系统是跨部门、面向主题的,其基本特点是:·基础数据来源于生产系统中的操作数据(Operational Data);·响应时间合理;·用户数量相对较小,其用户主要是业务决策与管理人员;·数据库的各种操作不能完全基于索引进行。

数据仓库基础知识

数据仓库基础知识

数据仓库基础知识1、什么是数据仓库?权威定义:数据仓库是一个面向主题的、集成的、相对稳定的、反映历史变化的数据集合,用于支持管理决策。

1)数据仓库是用于支持决策、面向分析型数据处理;2)对多个异构的数据源有效集成,集成后按照主题进行重组,并包含历史数据,而且存放在数据仓库中的数据一般不再修改。

面对大数据的多样性,在存储和处理这些大数据时,我们就必须要知道两个重要的技术。

分别是:数据仓库技术、Hadoop。

当数据为结构化数据,来自传统的数据源,则采用数据仓库技术来存储和处理这些数据,如下图:2、数据仓库和数据库的区别?从目标、用途、设计来说。

1)数据库是面向事务处理的,数据是由日常的业务产生的,并且是频繁更新的;数据仓库是面向主题的,数据来源多样化,经过一定的规则转换得到的,用于分析和决策;2)数据库一般用来存储当前事务性数据,如交易数据;数据仓库一般存储的是历史数据;3)数据库设计一般符合三范式,有最大的精确度和最小的冗余度,有利于数据的插入;数据仓库设计一般不符合三范式,有利于查询。

3、如何构建数据仓库?数据仓库模型的选择是灵活的,不局限与某种模型方法;数据仓库数据是灵活的,以实际需求场景为导向;数仓设计要兼顾灵活性、可扩展性、要考虑技术可靠性和实现成本。

1)调研:业务调研、需求调研、数据调研2)划分主题域:通过业务调研、需求调研、数据调研最终确定主题域3)构建总线矩阵、维度建模总线矩阵:把总线架构列表形成矩阵形式,行表示业务处理过程,即事实,列表示一致性的维度,在交叉点上打上标记表示该业务处理过程与该维度相关(交叉探查)4)设计数仓分层架构5)模型落地6)数据治理4、什么是数据中台?数据中台是通过数据技术,对海量数据进行采集、计算、存储、加工,同时统一标准和口径。

数据中台把数据统一之后,会形成标准数据,再进行存储,形成大数据资产层,进而为客户提供高效服务。

这些服务和企业的业务有较强关联性,是企业所独有且能复用的,他是企业业务和数据的积淀,其不仅能降低重复建设,减少烟囱式协助的成本,也是差异化竞争的优势所在。

数据仓库的描述

数据仓库的描述

数据仓库的描述数据仓库是一种技术性的建模工具,它可以为企业提供有用的信息,有助于实现组织的商业目标。

近年来,由于企业对数据分析的日益重视,数据仓库的需求也在不断增长。

这里,我将介绍数据仓库的概念、特征以及建造方法。

一、念数据仓库是一种特殊的数据库,它用于存储和管理组织的历史数据,有助于组织实现其商业目标。

它是一个集中的,统一的,完整的数据存储库,它被设计成可以满足决策支持系统的要求。

数据仓库通常包括一个大型的数据库,用于存储组织数据。

这些数据可以是历史数据、实时数据、混合数据或经过处理的数据。

它们可以从不同的数据源中提取,例如企业资源计划系统(ERP)、交易处理系统(TPS)、会计系统等。

二、特征数据仓库具有以下特点:(1)集中:数据仓库可以把企业的数据集中存放在一起,减少数据的冗余,提高数据的准确性。

(2)统一:数据仓库可以将来自不同数据源的数据统一进行分类和管理,提高数据的一致性和可比性。

(3)完整:数据仓库在存储数据时,可以把企业的所有历史数据都存储起来,从而支持更好地决策分析。

(4)可靠:数据仓库可以提供可靠和弹性的数据存储,可以不受客观环境的影响,充分保护企业数据的安全。

(5)可扩展性:数据仓库可以根据企业业务的发展情况,对数据存储进行扩容,以满足企业对数据存储的需求。

(6)可分析性:数据仓库可以支持复杂的数据分析,例如商业智能、数据挖掘和机器学习等,可以提供企业更有效的决策分析支持。

三、建造方法建造数据仓库通常需要经过以下步骤:(1)数据收集:收集并清洗企业信息,将企业的业务数据以结构化的形式存储在数据仓库中。

(2)数据整合:将企业的来自不同部门的数据进行整合,以满足数据仓库的需求。

(3)数据质量:定义数据的质量指标,对数据仓库中的数据进行检查,以确保数据的准确性。

(4)数据建模:根据组织的业务需求,使用结构化概念技术(SDT)来建模数据,以便于后续数据分析。

(5)数据应用:利用数据仓库中的数据,以及运用数据挖掘和机器学习等技术,为企业提供决策支持。

数据仓库-数据集市-BI-数据分析-介绍

数据仓库-数据集市-BI-数据分析-介绍

数据仓库-数据集市-BI-数据分析-介绍数据仓库数据集市BI数据分析介绍在当今数字化的时代,数据已经成为企业和组织最宝贵的资产之一。

如何有效地管理、分析和利用这些数据,以获取有价值的信息和洞察,成为了摆在众多企业面前的重要课题。

在这个过程中,数据仓库、数据集市、商业智能(BI)和数据分析等技术和概念发挥着至关重要的作用。

接下来,让我们一起深入了解一下这些概念。

数据仓库,简单来说,就是一个用于存储和管理企业数据的大型数据库系统。

它的目的是将来自不同数据源(如操作系统、数据库、文件等)的数据整合到一个统一的、一致的环境中,以便进行分析和决策支持。

数据仓库中的数据通常是经过清洗、转换和集成的,以确保数据的质量和一致性。

它采用了特定的架构和技术,如星型模式、雪花模式等,来优化数据的存储和查询性能。

数据仓库就像是一个大型的数据仓库,将各种各样的数据收集起来,经过整理和分类,以便后续的使用。

与数据仓库密切相关的是数据集市。

数据集市可以看作是数据仓库的一个子集,它专注于特定的业务领域或主题,例如销售数据集市、客户数据集市等。

数据集市的数据来源于数据仓库,经过进一步的筛选和加工,以满足特定业务部门或用户的需求。

数据集市的规模通常比数据仓库小,但更具针对性和灵活性,能够更快地提供相关的数据和分析结果。

接下来,我们谈谈商业智能(BI)。

BI 是一套用于将数据转化为有价值的信息和知识的技术和工具。

它包括数据报表、数据可视化、数据挖掘、联机分析处理(OLAP)等功能。

通过 BI 系统,用户可以以直观的方式查看和分析数据,从而发现数据中的趋势、模式和关系。

BI 帮助企业管理层做出更明智的决策,提高企业的竞争力和运营效率。

例如,通过数据报表,管理层可以清晰地了解企业的销售业绩、成本支出等情况;通过数据可视化,复杂的数据可以以图表、地图等形式展现,更容易理解和分析。

数据分析则是一个更广泛的概念,它涵盖了从数据收集、数据处理、数据分析到结果解释和报告的整个过程。

数据挖掘考试题库完整

数据挖掘考试题库完整

一、名词解释1. 数据仓库:是一种新的数据处理体系结构 .是面向主题的、集成的、不可更新的(稳定性)、随时间不断变化 (不同时间)的数据集合.为企业决策支持系统提供所需的集成信息。

2. 孤立点:指数据库中包含的一些与数据的一般行为或模型不一致的异常数据。

3. OLAP:OLAP 是在OLTP 的基础上发展起来的.以数据仓库为基础的数据分析处理 .是共享多维信息的快速分析.是被专门设计用于支持复杂的分析操作 .侧重对分析人员和高层管理人员的决策支持。

4. 粒度:指数据仓库的数据单位中保存数据细化或综合程度的级别。

粒度影响存放在数据仓库中的数据量的大小 .同时影响数据仓库所能回答查询问题的细节程度。

5. 数据规范化:指将数据按比例缩放(如更换大单位).使之落入一个特定的区域(如 0-1) 以提高数据挖掘效率的方法。

规范化的常用方法有:最大-最小规范化、零-均值规范化、小数定标规范化。

6. 关联知识:是反映一个事件和其他事件之间依赖或相互关联的知识。

如果两项或多项属性之间存在关联.那么其中一项的属性值就可以依据其他属性值进行预测。

7. 数据挖掘:从大量的、不完全的、有噪声的、模糊的、随机的数据中.提取隐含在其中的、人们事先不知道的、但又是潜在有用的信息和知识的过程。

8. OLTP:OLTP 为联机事务处理的缩写.OLAP 是联机分析处理的缩写。

前者是以数据库为基础的.面对的是操作人员和低层管理人员 .对基本数据进行查询和增、删、改等处理。

9. ROLAP:是基于关系数据库存储方式的 .在这种结构中.多维数据被映像成二维关系表.通常采用星型或雪花型架构.由一个事实表和多个维度表构成。

10. MOLAP:是基于类似于“超立方”块的OLAP 存储结构.由许多经压缩的、类似于多维数组的对象构成.并带有高度压缩的索引及指针结构 .通过直接偏移计算进行存取。

11. 数据归约:缩小数据的取值范围.使其更适合于数据挖掘算法的需要 .并且能够得到和原始数据相同的分析结果。

数据仓库的概念模型的概念

数据仓库的概念模型的概念

数据仓库的概念模型的概念数据仓库是一种用于支持决策分析和业务报告的数据存储和管理系统。

它的主要目标是将来自不同数据源的大量数据集成到一个统一的、结构化的、易于查询和分析的数据集中,以便帮助企业进行决策制定和战略规划。

数据仓库的概念模型是数据仓库设计的核心基础,它描述了数据仓库中存储的数据以及数据之间的关系和属性。

概念模型体现了数据仓库的逻辑结构,为数据仓库的建立、使用和维护提供了指导和便利。

数据仓库的概念模型通常采用星型模型或雪花模型。

星型模型是以事实表为核心,围绕事实表构建多个维度表。

事实表存储了事实数据,如销售量、收入等,而维度表包含了与事实数据相关的各种维度,如时间、地区、产品等。

事实表和维度表通过外键关联起来,形成一个星形的数据结构。

星型模型简单直观,易于理解和查询,适用于较为简单的数据仓库场景。

雪花模型在星型模型的基础上进一步细化了维度表,将维度表再次分解成更小的表。

这种模型可以更好地表达维度之间的关系,但也带来了更复杂的查询和维护操作。

通常情况下,星型模型适用于规模较小、数据结构相对简单的数据仓库,而雪花模型适用于规模较大、数据结构复杂的数据仓库。

在数据仓库的概念模型中,一般还包括以下几个关键元素:1. 数据源:数据仓库的数据源包括各种数据库、文件、应用系统等,数据从这些源中抽取、清洗和转换后存储到数据仓库中。

2. ETL过程:ETL(抽取、转换、加载)是数据仓库的重要组成部分。

在ETL过程中,数据从各个源系统中抽取出来,经过一系列的转换操作,最后加载到数据仓库中。

ETL过程的设计和实现对数据仓库的性能和质量有着重要影响。

3. 元数据:元数据是数据仓库中的数据描述信息,包括数据定义、数据源、数据转换规则、数据质量、数据字典等。

元数据的管理对于数据仓库的正确理解和有效使用至关重要。

4. 查询和报告:数据仓库的主要目标是提供给决策者和业务用户一个易于查询和分析的数据集。

因此,数据仓库的概念模型需要考虑查询和报告的需求,提供适当的数据结构和查询接口。

  1. 1、下载文档前请自行甄别文档内容的完整性,平台不提供额外的编辑、内容补充、找答案等附加服务。
  2. 2、"仅部分预览"的文档,不可在线预览部分如存在完整性等问题,可反馈申请退款(可完整预览的文档不适用该条件!)。
  3. 3、如文档侵犯您的权益,请联系客服反馈,我们会尽快为您处理(人工客服工作时间:9:00-18:30)。

7.1 概念描述基本知识
概念:通常指数据的汇集。 概念描述:是描述式数据挖掘最基本
形式,它以简洁汇总的形式描述给 定数据集,提供数据的有趣的一般 特性。
路漫漫其悠远
7.1 概念描述基本知识(续)
概念描述的组成: 特征化:提供了一个有关数据整体
的简洁清晰描述。(定性描述) 比较:提供了基于多组不同类数据
2.基于属性归纳方法(续)
路漫漫其悠远
由于数据挖掘查询通常只涉及DB的 一部分,选择相关的数据集不仅使得挖 掘更有效,而且与在整个DB挖掘相比, 能产生更有意义的规则。
对用户而言,指定挖掘的属性可能 比较困难。有时,用户只能选择少量他 感到可能重要的属性,而遗漏在描述中 可能起作用的其他属性。
2.基于属性归纳方法(续)
2.基于属性归纳方法(续)
路漫漫其悠远
例1:从一个大学数据库的学生数据中 挖掘出研究生的一般特征。给定的属性 有:姓名、性别、专业、出生地、出生 日期、居住地、电话和GPA(平均等级 分)。
AOI方法的第一步:
利用DB查询语言从大学DB中将学生 数据抽取出来,然后指定一组与挖掘任 务相关的属性集。
路漫漫其悠远
2.基于属性归纳方法(续)
属性概化基于如下规则:
若一个属性有许多不同数值,且该 属性存在一组概化操作,则可以选择一 个概化操作对该属性进行处理。
属性删除和属性概化两个规则都表
明,如果某属性有大量的不同值,应当 进行进一步概化。这就提出一个问题:
多大才算“属性具有大量不同值”?
路漫漫其悠远
数据立方体方法 基于属性的归纳方法
路漫漫其悠远
1.数据立方体方法
利用数据立方体方法进行数据 概化,被分析的数据存放在一个多 维数据库中,通过对多维数据立方 进行上卷或下钻操作,可完成数据 概化和数据细化工作。
路漫漫其悠远
1.数据立方体方法(续)
数据立方体提供了一种有效的数据概化 方法,且构成了描述性数据挖掘中一个重要 功能。但由于OLAP的数据立方实现是将维的 类型限制在简单非数值类型,且将处理限制 在简单数据汇总方面,因此数据立方体并不 能解决概念描述所能解决的一些重要问题。 如:描述中应作用哪些维?概化过程应进行 到哪个抽象层次上?这些问题均是由用户负 责提供答案的。
的对比概念描述。(对比定性描述)
路漫漫其悠远
7.1 概念描述基本知识(续)
路量数据,能够以简洁 的形式在更一般的抽象层描述数据是很 有用的。允许数据集在多个抽象层概化, 便于考察数据的一般行为。
这种多维,多层数据概化类似于DW 中的多维数据分析。而概念描述类似于
路漫漫其悠远
2.基于属性归纳方法
路漫漫其悠远
基本思想:
首先使用RDB查询收集任务相关的 数据;然后通过考察任务相关数据中每 个属性的不同值的个数,进行概化。数
据概化是通过属性删除或属性概化操作
来完成。通过合并相同行并累计它们相 应的个数。这自然就减少了概化后数据 集的大小,所获结果以图表、规则等多 种不同形式提供给用户。
路漫漫其悠远
如:出生地维由属性城市、省和国 家定义。在这些属性中,用户或许只考
虑了城市属性。为了对出生地进行概化 处理,就必须将出生地概化所涉及到的 其它属性包含进来。换句话说,系统自 动地包括省和国家作为相关属性,使得 城市可以在归纳过程中概化到较高的概 念层。
2.基于属性归纳方法(续)
另一方面,用户可能引进过多的属 性,如:指定所有的属性,这样大学DB 的所有属性都将包含在分析中,而有些 属性对有趣的描述是没有用的。
DW的OLAP。
7.1 概念描述基本知识(续)
大型数据库的概念描述和数据 仓库的OLAP有何差别?
概念描述可处理复杂的数据类型和 聚集。
概念描述是自动处理数据挖掘过程。
路漫漫其悠远
7.1 概念描述基本知识(续)
概念描述的方法包括多层概化、 汇总、特征化和比较。这些方法形
成实现数据挖掘的两个主要功能模
2.基于属性归纳方法(续)
这取决于属性或应用,有的用户愿 意让属性留在较低的抽象层,而另一些 用户愿意将它们概化到较高的抽象层。 控制将属性概化到多高的抽象层通常是
相当主观的。该过程的控制称为属性概 化控制。
路漫漫其悠远
2.基于属性归纳方法(续)
若属性概化得“太高”,则导致过 分概化,产生的规则可能没有多少信息。
块的基础:多层特征化和比较。
路漫漫其悠远
第七章 概念描述
7.1 概念描述基本知识 7.2 数据概化与基于汇总的特征化 7.3 解析特征化—属性相关分析 7.4 挖掘概念比较—区分不同的类
路漫漫其悠远
7.2 数据概化与基于汇总的 特征化
数据概化是一个分析过程,它 将DB中与任务相关的大数据集从较 低的概念层抽象到较高的概念层。 对大量数据进行有效灵活的概化方 法主要有两种:
上海市高安 路1250号
02162381960
3.83
路漫漫其悠远
2.基于属性归纳方法(续)
对已经准备好的数据,如何进行基 于属性归纳?
AOI方法的第二步: 进行数据概化操作,可用两种方法
之一进行:属性删除,属性概化。
路漫漫其悠远
2.基于属性归纳方法(续)
属性删除基于如下规则:
若一个属性有许多不同数值,且(a) 该属性无法进行概化操作(如:没有定 义相应的概念分层),或(b)它的更高 层次概念是用其他属性描述的,则该属 性应当从数据集中删除。
数据仓库之概念描述
路漫漫其悠远
2020/3/29
第七章 概念描述(续)
路漫漫其悠远
DB中存放大量细节性数据,而用户
通常希望以简洁的描述形式观察汇总的
数据集。这种描述可提供某类数据的概 貌以及与其他数据类的区别。此外,用
户希望方便灵活地以不同的粒度和从不 同的角度描述数据集。这种描述性数据 挖掘称为概念描述,它是数据挖掘的一 个重要部分。
路漫漫其悠远
初始工作关系:任务相关数据的集合
姓名 性别 专业 出生地 出生日 居住地
电话 GPA
王东海 男 李哲 男 汪燕 女
CS
合肥市
79.07.26
合肥市金寨 路65号
05513665678
3.67
CS
合肥市
80.12.08
合肥市芜湖 路186号
05513656012
3.70
PH
上海市
80.09.03
若属性概化没有达到“足够高的层 次”,则“亚概化”也同样可能使得到 的规则变得失去意义。
相关文档
最新文档