数据仓库成功案例(2)

数据仓库成功案例(2)
数据仓库成功案例(2)

数据仓库成功案例1

数据挖掘在宝钢的实践

1. 宝钢简介

2. 宝钢数据挖掘基础

2.1 冶金工业数据挖掘背景

2.2 其DW流程和具体步骤

2.3 其DW工具和主要功能

3. 宝钢股份信息化的三层数据架构

4. 宝钢数据仓库的体系结构及应用

4.1 系统环境

4.2 宝钢数据仓库开发

4.3 宝钢数据仓库应用

4.3.1 专业技术报表

4.3.2 数据分析与数据挖掘

4.3.3 决策信息支持

5. 宝钢数据仓库和数据挖掘应用及成果

6. 参考文献

1.宝钢简介

宝钢是中国最大的钢铁生产企业,目前的规模达到年产1100万吨钢,2002年的销售收入达到330亿元,税前利润接近60亿元。宝钢的产品系列包括板材、线材、管材等,主要的用户分布在汽车、家电等制造业。自1985年投产至今,积累了大量的生产实绩数据。

2.宝钢数据挖掘基础

2.1 冶金工业数据挖掘背景

在冶金工业中年复一年的积累着各种数据,从每一炉钢到每一块板坯到每一个钢卷,各级计算机系统可以把这些数据完整地收集起来。但是收集数据本身并不是目的,从“信息化带动工业化”的角度来看,更重要的是把这些数据利用起来,利用数据中蕴藏的知识来指导生产,形成企业的核心竞争力。

另一方面,在冶金工业的运营过程中还有许多问题需要解决,例如全流程的质量控制和供应链管理等。由于它们固有的多变量和非线性特点,用传统的局部优化的方法很难达到企业级的最优。现在通过把分散在各个生产过程的实际生产数据按主题组织成数据仓库,在此基础上展开数据挖掘工作和获取知识,利用获取的知识可以比过去更好地解决这些问题。

2.2 其DW流程和具体步骤

通用数据挖掘流程:

图一通用数据挖掘流程

宝钢针对冶金工业特点的数据挖掘流程:

图二

其采用的方法称为SEMMAO数据挖掘方法论,其主要步骤和含义为:

采样(S)根据一定的规则从大样本集中抽取规模较小的样本子集,可以分为随机采样和非随机采样。采样的主要目的是减少后续步骤处理的数据量,有时也可以起到改善数据分布的作用。

观察(E)指对数据进行一些可视化的探索,让分析人员对数据的分布特征做到心中有数,为后续的挖掘工作带来一些有益的提示。

调整(M)对各种令人不满意的数据进行处理,使其满足建模算法的要求和精度要求。调整的方法很多,具体的有缺失值处理、奇异值处理、矛盾值处理、标准化和变量变换等。

建模(M)是以一种数学模型的方式来表达隐含在数据中的知识。大体上模型可以分为有监督和无监督两大类。有监督的模型是指目标变量已经被赋予一定的值,通过训练要建立一种从输入变量到目标变量的映射,使其在一定的误差准则意义下达到最优。这样的模型可以用于分类和预报的目的。无监督的模型则是在缺少目标变量的信息的情况下,仅利用输入变量自身的信息把样本划分成为若干个类,从而达到抽取信息的目的。

评价(A)是对模型的结果进行误差分析。如果模型被证明是可以接受的,就可以被认为是一种知识,可以用于以后的预报和优化。

优化(O)是用挖掘出的知识来解决实际问题,诸如“如何调整某些输入变量的值来得到输出变量的目标值”。在一般的商业性数据挖掘中并不包含这一步,它们一般做到评价就结束了,把进一步的使用扔给用户。但是在我们的实际应用中,发现模型的理解和使用也很重要,所以在数据挖掘的方法论中增加了这一步。优化的方法包括聚类调优、遗传寻优等。

2.3 其DW工具和主要功能

Practical Miner(简称PM):宝钢基于SAS的研发实用数据挖掘系统

SAS Enterprise Miner:美国SAS公司研发

PM主要功能:

(1)数据收集:根据用户的设定条件,选取分析用数据,并提供SAS数据格式与其它数据格式之间的接口;

(2)数据采样:抽取数据集市中的典型样本;

(3)数据预处理:对数据进行规范性检查、变量降维、数据变换、异常点处理、矛盾点处理;

(4)可视化探索:提供直观的数据分析功能;

(5)聚类分析:提供常用的聚类方法,可以自动决定类数;

(6)数据建模:提供人工神经网络、模糊系统、线性回归等建模工具,可以优化模型结构;

(7)数据预测:根据已建立的模型,对数据进行批量预报;

(8)优化设计:通过定性或定量的方法,对于给定的目标,调整影响量,使目标达到最优;

(9)趋势分析:研究变量随时间变化的趋势;

(10)规范管理:设置规范数据库。

3.宝钢股份信息化的三层数据架构

根据R.N.Anthony的三级管理模型(2),管理科学家把管理分为营运控制、管理控制、战略计划三个层次。通过管理层次的设计,可以使管理的实施更具有针对性,管理的层次越高,分析的内容也越多。宝钢股份信息化的三层数据架构——“数据、数据库、数据仓库”正是与管理的三大层次相对应,从信息系统的角度支持更高层次管理的实施。

运营控制层次:以生产过程的管理为主,要求完成制造过程数据的自动采集和制造过程的自动控制。

管理控制层次:要求完成业务管理过程的自动化,按专业实现生产、采购、销售、财务、设备等日常业务的计算机管理,并实现各专业的绩效分析、评价自动化,完成专业管理过程的PDCA闭环控制。这个层次中的日常业务自动化管理,通常由数据库应用系统完成,如 ERP 系统等。而各专业的绩效分析、评价自动化,需要以企业管理知识、业务分析逻辑为基础,建立各种分析评价模型,快速、准确、安全地提供大量的专业技术信息共享,这种把数据到信息的转换和发布的过程,通常由数据仓库应用系统来完成。

战略计划层次:它属于中长期计划管理,要求决策支持信息能够快速的提供,而这些信息需求通常是跨专业的、要按照决策具体需求来组织的。这个层次的业务管理,通常由数据仓库提供信息支持,专业技术模型提供决策支持。

4.宝钢数据仓库的体系结构及应用

4.1 系统环境

宝钢股份企业级数据仓库的硬件平台是两台IBMRS6000/S85超级小型机,与ERP系统主机通过公司主干网和ESCON光纤通道联接。这样的布局主要是大大减少了操作型数据和分析型数据在传输过程中的“碰撞”,提高数据传输效率。同时,数据仓库系统从主机系统剥离了大量统计、分析功能,实现了总体系统的负载均衡,为公司持续改进、科学决策创造了条件。

4.2.宝钢数据仓库开发

宝钢数据仓库开发策略采用总体规划、分步实施的方案。在大量调研的基础上,编制了数据仓库的主题规划,确定数据仓库的关键主题,如生产物流、技术质量、市场营销、设备管理、财务成本、能源管理等,分阶段的组织实施,总体上提高了开发效率,降低了开发风险。

4.3.宝钢数据仓库应用

宝钢企业级数据仓库基本应用可以分为三类:专业技术报表、数据分析与挖掘、决策信息支持。

4.3.1.专业技术报表

专业技术报表主要是为日常生产经营管理服务,每天,数据仓库系统按需要定时自动生成上千份专业技术报表,对公司的销售、技术、生产、出厂、设备、财务成本管理以及公司的炼钢、热轧、冷轧、条钢产线,从不同的角度、不同层次,结合前一天生产实绩做出评价,为各级管理者提供决策支持信息。具体业务信息系统有:生产调度信息、企业统计信息、生产物流信息、市场营销信息等等。

4.3.2.数据分析与数据挖掘

数据分析与数据挖掘(DM)密不可分,通过一段时间的数据积累。围绕公司的重点工作,如产品质量、降本增效工作、合同交货周期等专题进行数据分析与挖掘,通过数据清理,要因分析、找出影响指标的主要因素,及时报警,为公司的经营决策提供科学依据,为公司稳定产品质量、降本增效,提升用户服务水平,提供有效的技术支撑。

4.3.3决策信息支持

为支持公司中长计划编制和持续改进,开发面向决策信息支持的数据仓库应用模块,主要有:

明细产品成本计算系统:反映产品的盈利能力的分析与评价。

标准维护与计划值系统:在公司内实现了统一的、可信度高的一系列基本技术经济管理指标。为公司年度预算计划编制提供各种基础数据。

专业决策支持:产品性能预报、配矿系统、配煤系统等等。

上述所有的应用全部基于WEB实现,用户无需安装任何附加软件,只要连接在主干网上,拥有信息授权,利用浏览器就可以得到数据仓库的信息服务。

5.宝钢数据仓库和数据挖掘应用及成果

(1)电力系统数据仓库

(2)基于数据挖掘技术的配矿系统

(3)数据挖掘在宝钢质量控制中的应用

PM1.0已经成功地应用于宝钢配矿优化,在1997~1998年间,PM1.0为宝钢降低成本达6000万元。PM2.0也已在热轧产品和冷轧产品的质量控制中投入使用,并成功地发现一些可为技术人员利用的规律。

6.参考文献

1王珊等,《数据仓库技术与联机分析处理》,科学出版社,1998年6月

2章祥荪等,《管理信息系统的系统理论与规划方法》,科学出版社,2001年

3[美]WH.Inmon著,王志海等译,《数据仓库》,机械工业出版社,2000年5月

4李庆予,《推动从数据到信息再到知识的演绎》

5宝钢技报,《数据挖掘在宝钢的实践》

6陆玉昌,《数据挖掘和知识发现》

(本资料素材和资料部分来自网络,仅供参考。请预览后才下载,期待您的好评与关注!)

第2章 数据仓库概念

第2章 数据仓库概念
2.1 信息集成问题 2.2 从数据库到数据仓库 2.3 数据仓库定义 2.4 数据仓库应用
BI系统VS决策盲点
某大型国有企业老总当他查看近十年企业的生产和运营数 据时,手边得到了各种各样不同的数据报表。这些数据报 表大致可以分成两种类型:
? 一种是两年前、即ERP上线之前的,这是一些简单、杂乱而又枯燥
的数字;
? 另一种是有了ERP以后的,数据变得清楚而有条理起来,同时还有
来自ERP、CRM、SCM以及计费业务等不同应用的数据和各种分 析报告。
在仔细查看这些报表之后,这位国企老总惊讶地发现,不 同的系统可以得出截然相反的两种结论。例如某一产品, 它的动态成本反映在ERP系统和CRM、SCM系统里面相差 很大,如果引用ERP和CRM里面的数据,它就是一款很成 功、销量很好的产品,但在SCM里面来看,它的采购和物 流成本过高,导致了这款看起来很成功的产品实际上是一 笔赔钱的买卖。
P2 《数据仓库与数据挖掘》 P3
《数据仓库与数据挖掘》
BI系统VS决策盲点(续)
其实从这些来自不同系统的数据基础产生不同的判 断很正常,因为这些系统并不会去周密地“思考”在 自己“职责”之外的事情。这样就给企业的领导提交 了相当多顾此失彼的分析报告,结果就是导致了许 多市场决策上的混乱和失误。 把企业的内部数据和外部数据进行有效的集成,形 成直观的、易于理解的信息,再进行分析和思考, 为企业的各层决策及分析人员使用。
? 企业内部数据就是指上述通过业务系统SCM、ERP、
CRM等收集到的数据,这些数据可能在不同的硬件、数 据库、网络环境中,为不同的业务部门服务。 ? 外部数据是市场信息和外部竞争对手的信息。
P4
2.1 信息集成
信息集成的定义 ? information integration ? 把存储在两个或多个信息源中的数据提取出来
,建立一个包含所有这些信息源的信息的大数 据库(该数据库可以是虚拟的)
信息集成的方式 ? 联邦数据库(federal database) ? 协调器(mediator) ? 数据仓库(data warehouse)
《数据仓库与数据挖掘》 P5
《数据仓库与数据挖掘》
信息集成中的问题
汽车企业有1000位代理商,想创建一个集成 数据库,各个代理商使用不同的数据库模式
代理商1:Cars(serialNo, model, color, autotrans, cdPlayer,…) 代理商2:Autos(serial, model, color), Options(serial, option)
一、联邦数据库
DB1 DB2
问题 ? 数据类型不同 ? 取值不同 ? 语义不同 ? 数据丢失
《数据仓库与数据挖掘》 P6
DB3
DB4
问题:编写n(n-1)个组件来相互翻译查询 问题:编写n(n-1)个组件来相互翻译查询
《数据仓库与数据挖掘》 P7

数据仓库复习题

第一章概述 1.数据挖掘的定义?(书P2,PPT_P8) 从大量的、不完全的、有噪声的、模糊的、随机的数据中,提取隐含在其中的、人们事先不知道的、但又是潜在有用的信息和知识的过程。 2.数据挖掘的源是否必须是数据仓库的数据?可以有哪些来源?(PPT_P14) 关系数据库、数据仓库、事务数据库、高级数据等 3.数据挖掘的常用方法?(P4、PPT_P29) 聚类分析、决策树、人工神经网络、粗糙集、关联规则挖掘、统计分析等 4.数据挖掘的过程包括哪些步骤,每一步具体包括哪些内容?(书P2-3,PPT_P17-19) 确定业务对象、数据准备、数据挖掘、结果分析与知识同化。 5.数据挖掘与数据仓库的关系(联系和区别)?书P6-7,PPT_P45-46 联系:1,数据仓库为数据挖掘提供了更好的,更广泛的数据源 2,数据仓库韦数据挖掘提供了新的支持平台。 3,数据仓库为更好地使用数据挖掘工具提供了方便 4,数据挖掘对数据仓库提供了更好的决策支持。 5,数据挖掘对数据仓库的数据组织提出了更高的要求 6,数据挖掘还为数据仓库提供了广泛的技术支持 区别:数据仓库是一种存储技术,它包含大量的历史数据、当前的详细数据以及综合数据,它能为不同用户的不同决策需要提供所需的数据和信息。~~数据挖掘是从人工智能机器学习中发展起来的,它研究各种方法和技术,从大量的数据中挖掘出有用的信息和知识。 第二章数据仓库 1.数据仓库的定义 数据仓库——是一个面向主题的、集成的、随时间而变化的、不容易丢失的数据集合,支持管理部门的决策定制过程。 2.数据仓库数据的四大基本特征: 面向主题的、集成的、不可更新的、随时间变化的。 3.数据仓库体系结构有三个独立的数据层次: 信息获取层、信息存储层、信息传递层。 4.粒度的定义?它对数据仓库有什么影响? (1)是指数据仓库的数据单位中保存数据细化或综合程度的级别。粒度越小,细节程度越高,综合程度越低,回答查询的种类就越多。 (2)影响存放在数据仓库中的数据量大小;影响数据仓库所能回答查询问题的细节程度。 5.在数据仓库中,数据按照粒度从小到大可分为四个级别: 早期细节级、当前细节级、轻度细节级和高度细节级。 6.数据分割的标准:可按日期、地域、业务领域、或按多个分割标准的组合,但一般包括日期项。 7.数据仓库设计中,一般存在着三级数据模型: 概念数据模型、逻辑数据模型、物理数据模型 8.数据仓库设计步骤 (1)概念模型设计 (2)技术准备工作 (3)逻辑模型设计 (4)物理模型设计 (5)数据仓库的生成

数据仓库与数据挖掘考试试题

一、填空题(15分) 1.数据仓库的特点分别是面向主题、集成、相对稳定、反映历史变化。 2.元数据是描述数据仓库内数据的结构和建立方法的数据。根据元数据用途的不同可将元数据分为技术元数据和业务元数据两类。 3.OLAP技术多维分析过程中,多维分析操作包括切片、切块、钻取、旋转等。 4.基于依赖型数据集市和操作型数据存储的数据仓库体系结构常常被称为“中心和辐射”架构,其中企业级数据仓库是中心,源数据系统和数据集市在输入和输出范围的两端。 5.ODS实际上是一个集成的、面向主题的、可更新的、当前值的、企业级的、详细的数据库,也叫运营数据存储。 二、多项选择题(10分) 6.在数据挖掘的分析方法中,直接数据挖掘包括(ACD) A 分类 B 关联 C 估值 D 预言 7.数据仓库的数据ETL过程中,ETL软件的主要功能包括(ABC) A 数据抽取 B 数据转换 C 数据加载 D 数据稽核 8.数据分类的评价准则包括( ABCD ) A 精确度 B 查全率和查准率 C F-Measure D 几何均值 9.层次聚类方法包括( BC ) A 划分聚类方法 B 凝聚型层次聚类方法 C 分解型层次聚类方法 D 基于密度聚类方法 10.贝叶斯网络由两部分组成,分别是( A D ) A 网络结构 B 先验概率 C 后验概率 D 条件概率表 三、计算题(30分) 11.一个食品连锁店每周的事务记录如下表所示,其中每一条事务表示在一项收款机业务中卖出的项目,假定sup min=40%,conf min=40%,使用Apriori算法计算生成的关联规则,标明每趟数据库扫描时的候选集和大项目集。(15分) 解:(1)由I={面包、果冻、花生酱、牛奶、啤酒}的所有项目直接产生1-候选C1,计算其支持度,取出支持度小于sup min的项集,形成1-频繁集L1,如下表所示:

数据仓库与数据挖掘实验二(多维数据组织与分析)

一、实验内容和目的 目的: 1.理解维(表)、成员、层次(粒度)等基本概念及其之间的关系; 2.理解多维数据集创建的基本原理与流程; 3.理解并掌握OLAP分析的基本过程与方法; 内容: 1.运用Analysis Server工具进行维度、度量值以及多维数据集的创建(模拟案例)。 2.使用维度浏览器进行多维数据的查询、编辑操作。 3.对多维数据集进行切片、切块、旋转、钻取操作。 二、所用仪器、材料(设备名称、型号、规格等) 操作系统平台:Windows 7 数据库平台:SQL Server 2008 SP2 三、实验原理 在数据仓库系统中,联机分析处理(OLAP)是重要的数据分析工具。OLAP的基本思想是企业的决策者应能灵活地、从多方面和多角度以多维的形式来观察企业的状态和了解企业的变化。 OLAP是在OLTP的基础上发展起来的,OLTP是以数据库为基础的,面对的是操作人员和低层管理人员,对基本数据的查询和增、删、改等进行处理。而OLAP是以数据仓库为基础的数据分析处理。它具有在线性(online)和多维分析(multi-dimension analysis)的特点。OLAP超越了一般查询和报表的功能,是建立在一般事务操作之上的另外一种逻辑步骤,因此,它的决策支持能力更强。 建立OLAP的基础是多维数据模型,多维数据模型的存储可以有多种不同的形式。MOLAP和ROLAP是OLAP的两种主要形式,其中MOLAP(multi-dimension OLAP)是基

于多维数据库的OLAP,简称为多维OLAP;ROLAP(relation OLAP)是基于关系数据库的OLAP,简称关系OLAP。 OLAP的目的是为决策管理人员通过一种灵活的多维数据分析手段,提供辅助决策信息。基本的多维数据分析操作包括切片、切块、旋转、钻取等。随着OLAP的深入发展,OLAP也逐渐具有了计算和智能的能力,这些能力称为广义OLAP操作。 四、实验方法、步骤 要求:利用实验室和指导教师提供的实验软件,认真完成规定的实验内容,真实地记录实验中遇到的各种问题和解决的方法与过程,并根据实验案例绘出多维数据组织模型及其OLAP操作过程。实验完成后,应根据实验情况写出实验报告。 五、实验过程原始记录(数据、图表、计算等) 本实验以实验一建立的数据仓库为基础,使用Microsoft的SQL Server Business Intelligence Development Studio工具,建立OLAP相关模型,并实现OLAP的一些简单基本功能。 首先打开SQL Server Business Intelligence Development Studio工具,新建一个Analysis Service项目,命名为:DW

林子雨大数据技术原理与应用第二章课后题答案

大数据第二章课后题答案 黎狸 1.试述Hadoop和谷歌的MapReduce、GFS等技术之间的关系。 Hadoop是Apache软件基金会旗下的一-个开源分布式计算平台,为用户提供了系统底层细节透明的分布式基础架构。 ①Hadoop 的核心是分布式文件系统( Hadoop Ditributed File System,HDFS )和MapReduce。 ②HDFS是对谷歌文件系统( Google File System, GFS )的开源实现,是面 向普通硬件环境的分布式文件系统,具有较高的读写速度、很好的容错 性和可伸缩性,支持大规模数据的分布式存储,其冗余数据存储的方式 很好地保证了数据的安全性。 ③MapReduce 是针对谷歌MapReduce的开源实现,允许用户在不了 解分布式系统底层细节的情况下开发并行应用程序,采用MapReduce 来整合分布式文件系统上的数据,可保证分析和处理数据的高效性。2.试述Hadoop具有哪些特性。 Hadoop是一个能够对大量数据进行分布式处理的软件框架,并且是以一种可靠、高效、可伸缩的方式进行处理的,它具有以下几个方面的特性。 ①高可靠性。采用冗余数据存储方式,即使一个副本发生故障,其他副本 也可以保证正常对外提供服务。 ②高效性。作为并行分布式计算平台,Hadoop采用分布式存储和分布式 处理两大核心技术,能够高效地处理PB级数据。 ③高可扩展性。Hadoop的设计目标是可以高效稳定地运行在廉价的计算 机集群上,可以扩展到数以千计的计算机节点。

④高容错性。采用冗余数据存储方式,自动保存数据的多个副本,并且能 够自动将失败的任务进行重新分配。 ⑤成本低。Hadoop采用廉价的计算机集群,成本比较低,普通用户也很 容易用自己的PC搭建Hadoop运行环境。 ⑥运行在Linux平台上。Hadoop是基于Java语言开发的,可以较好地 运行在Linux平台上。 ⑦支持多种编程语言。Hadoop 上的应用程序也可以使用其他语言编写, 如C++。 3.试述Hadoop在各个领域的应用情况。 互联网领域是Hadoop应用的主要阵地。 ①雅虎将Hadoop主要用于支持广告系统与网页搜索。 ②Facebook主要将Hadoop平台用于日志处理、推荐系统和数据仓库等 方面。 ③淘宝Hadoop集群服务于阿里巴巴集团各部门,数据来源于各部门产品 的线上数据库( Oracle、MySQL)备份、系统日志以及爬虫数据,每天在 Hadoop集群运行各种MapReduce任务,如数据魔方、量子统计、推 荐系统、排行榜等。 ④百度选择Hadoop主要用于日志的存储和统计、网页数据的分析和挖掘、 商业分析、在线数据反馈、网页聚类等。 4.试述Hadoop的项目结构以及每个部分的具体功能。

数据仓库与数据挖掘课后习题答案

数据仓库与数据挖掘课后习 题答案 -标准化文件发布号:(9456-EUATWK-MWUB-WUNN-INNUL-DDQTY-KII

数据仓库与数据挖掘 第一章课后习题 一:填空题 1)数据库中存储的都是数据,而数据仓库中的数据都是一些历史的、存档的、归纳的、计算的数据。 2)数据仓库中的数据分为四个级别:早起细节级、当前细节级、轻度综合级、高度综合级。 3)数据源是数据仓库系统的基础,是整个系统的数据源泉,通常包括业务数据和历史数据。 4)元数据是“关于数据的数据”。根据元数据用途的不同将数据仓库的元数据分为技术元数据和业务元数据两类。 5)数据处理通常分为两大类:联机事务处理和联机事务分析 6)Fayyad过程模型主要有数据准备,数据挖掘和结果分析三个主要部分组成。 7)如果从整体上看数据挖掘技术,可以将其分为统计分析类、知识发现类和其他类型的数据挖掘技术三大类。 8)那些与数据的一般行为或模型不一致的数据对象称做孤立点。 9)按照挖掘对象的不同,将Web数据挖掘分为三类:web内容挖掘、web结构挖掘和web使用挖掘。 10)查询型工具、分析型工具盒挖掘型工具结合在一起构成了数据仓库系统的工具层,它们各自的侧重点不同,因此适用范围和针对的用户也不相同。 二:简答题 1)什么是数据仓库数据仓库的特点主要有哪些 2) 数据仓库是一个面向主题的、集成的、相对稳定的、反映历史变化的数据集合,用于支持管理决策。 主要特点:面向主题组织的、集成的、稳定的、随时间不断变化的、数据的集合性、支持决策作用 3)简述数据挖掘的技术定义。 从技术角度看,数据挖掘是从大量的、不完全的、有噪声的、模糊的、随机的实际数据中,提取隐含在其中的、人们不知道的、但又是潜在有用的信息和知识的过程。 4)什么是业务元数据? 业务元数据从业务角度描述了数据仓库中的数据,它提供了介于使用者和实际系统之间的语义层,使得不懂计算机技术的业务人员也能够读懂数据仓库中的数据 5)简述数据挖掘与传统分析方法的区别。 本质区别是:数据挖掘是在没有明确假设的前提下去挖掘信息、发现知识。数据挖掘所得到的信息应具有先前未知、有效和实用三个特征。 6)简述数据仓库4种体系结构的异同点及其适用性。 a.虚拟的数据仓库体系结构 b.单独的数据仓库体系结构

数据仓库原理

数据仓库原理 -by zvane 1. 数据仓库概念 因为,管理人员常常传统数据库以及OLTP(On-Line Transaction Processing 联机事务处理)在日常的管理事务处理中获得了巨大的成功,但是对管理人员的决策分析要求却无法满足。 希望能够通过对组织中的大量数据进行分析,了解业务的发展趋势。而传统数据库只保留了当前的业务处理信息,缺乏决策分析所需要的大量的历史信息。 为满足管理人员的决策分析需要,就需要在数据库的基础上产生适应决策分析的数据环境——数据仓库(Data Warehouse)。 1.1 定义 William H.Inmon在1993年所写的论著《Building the DataWarehouse》首先系统地阐述了关于数据仓库的思想、理论,为数据仓库的发展奠定了历史基石。文中他将数据仓库定义为: A data warehouse is a subject-oriented, integrated, non-volatile, time-variant collection of data in support of management decisions. 一个面向主题的、集成的、非易失性的、随时间变化的数据的集合,以用于支持管理层决策过程。 1.2 特性 1.2.1 subject-oriented(面向主题性) 面向主题表示了数据仓库中数据组织的基本原则,数据仓库中的数由数据都是围绕着某一主题组织展开的。由于数据仓库的用户大多是企业的管理决策者,这些人所面对的往往是一些比较抽象的、层次较高的管理分析对象。例如,企业中的客户、产品、供应商等都可以作为主题看待。 从信息管理的角度看,主题就是在一个较高的管理层次上对信息系统的数据按照某一具体的管理对象进行综合、归类所形成的分析对象。 从数据组织的角度看,主题是一些数据集合,这些数据集合对分析对象作了比较完整的、一致的描述,这种描述不仅涉及到数据自身,而且涉及到数据之间的关系。 1.2.2 integrated (数据集成性) 数据仓库的集成性是指根据决策分析的要求,将分散于各处的源数据进行抽取、筛选、清理、综合等工作,使数据仓库的数据具有集成性。 数据仓库在从业务处理系统那里获取数据时,并不能将源数据库中的数据直接加载到数据仓库中,而是需要进行一系列的数据预处理,即数据的抽取、筛选、清理、综合等集成工作。

数据仓库与数据挖掘教程(第2版) 陈文伟版课后习题答案(非常全)

第一章作业 1.数据库与数据仓库的本质差别是什么?书P2 (1)数据库用于事务处理,数据仓库用于决策分析。(2)数据库保持事物处理的当前状态,数据仓库即保存过去的数据又保存当前的数据。(3)数据仓库的数据是大量数据库的集成。(4)对数据库的操作比较明确,操作数量较小。对数据仓库操作不明确,操作数据量大。 2.从数据库发展到数据仓库的原因是什么?书P1 (1)数据库数据太多,信息贫乏。如何将大量的数据转化为辅助决策信息成为了研究热点。(2)异构环境数据的转换和共享。随着各类数据库产品的增加,异构环境的数据也逐渐增加,如何实现这些异构环境数据的转换的共享也成了研究热点。(3)利用数据进行事物处理转变为利用数据支持决策。 3.举例说明数据库与数据仓库的不同。 比如,银行中储蓄业务要建立储蓄数据库,信用卡要建立信用卡数据库,贷款业务要建立贷款数据库,这些数据库方便了银行的事务处理。但是要对这些独立数据库进行决策分析就很复杂了。因此可以把这些数据库中的数据存储转化到数据仓库中,方便进行决策。 4. OLTP(On Line Transaction Processing,联机事物处理)是在网络环境下的事务处理工作,以快速的响应和频繁的数据修改为特征,使用户利用数据库能够快速地处理具体的业务。 OLAP(On Line Analytical Processing,联机分析处理)是使用多维数据库和多维分析的方法,对多个关系数据库共同进行大量的综合计算来得到结果的方法。 5. OLTP是用户的数据可以立即传送到计算中心进行处理,并在很短的时间内给出处理结果。 6. OLTP OLAP 细节性数据综合性数据 当前数据历史数据 经常更新不更新,但周期性刷新 一次性处理的数据量小一次处理的数据量大 对响应时间要求高响应时间合理 面向应用,事务驱动面向分析,分析驱动 7.包括数据项、数据结构、数据流、数据存储和处理过程五个部分。 8.定义为关于数据的数据,描述数据仓库中数据及其环境的数据。 9.元数据不仅仅是数据仓库的字典,而且还是数据仓库本身功能的说明数据,是整个数据仓库的核心。数据字典是关于数据库中数据的描述,而不是数据本身,数据字典是数据库的元数据。 10 .数据仓库的定义是什么? 答:(1)W.H.Inmon对数据仓库的定义:数据仓库是面向主题的,集成的、稳定的、不同时间的数据集合,用于支持经营管理中决策制定过程。 (2)SAS软件研究所的观点:数据仓库是一种管理技术,旨在通过通畅、合理、全面的信息管理,达到有限的决策支持。 从数据仓库定义可以看出,数据仓库是明确为决策支持服务的,而数据库是为事务处理服务的。

数据仓库二期之数据仓库系统项目

数据仓库二期之数据仓库系统项目 供应商征集要求 一、项目名称 数据仓库二期之数据仓库系统项目 二、项目背景 数据管控与数据仓库项目(以下简称“数据仓库项目”)一期工程于2013年12月正式进场实施,项目范围包括数据仓库平台、数据管控体系、数据应用系统三个子包内容,各子包系统已全部于2014年底前上线试运行,项目一期已于2015年4月底完成初验。 我行数据仓库项目一期工程包括数据仓库平台系统、数据管控体系、数据应用系统三个项目子包的内容,分别由高伟达、美商天睿(以下简称TD公司)以及宇信三家公司负责实施,具体实施情况如下: 1、项目子包一主要涉及数据仓库平台建设,项目组完成数据仓库平台中长期建设规划,引入先进的数据模型,建立数据仓库十大主题数据框架,基本实现上游21个主要业务系统关键业务数据入仓存储,并为下游管理驾驶舱、统一报表平台系统正式供数。 2、项目子包二主要涉及数据管控体系建设,项目组从规划咨询、制度规范、内容建设、系统平台四个方面推进并完成数据管控体系建设各项基础工作,已初步建立我行数据管控体系基础框架,为后续全行数据有效治理打下坚实基础。 3、项目子包三主要涉及管理驾驶舱、统一报表平台两个数据应用系统。管理驾驶舱系统创新了信息服务渠道,为我行中高层管理人员提供决策辅助信息;统一报表平台系统通过传统报表与灵活查询相结合的方式,为我行业务管理和统计分析人员提供超过200张报表及14项专题的的报表数据查询服务。 三、项目要求 我行数据仓库项目一期通过搭建基础平台、构建系统框架,已初步建立基础

框架。为确保数据仓库项目开发的延续性,充分发挥数据价值,切实提高数据质量,我行启动数据仓库项目二期工程建设,本次招标的数据仓库系统子包是二期工程的重要内容,通过本子包内容的实施,一方面拓展数据的使用范围,展现数据的应用价值;另一方面加大数据的整合,提升数据的质量,有效解决数据问题,为后续数据分析挖掘打好基础。同时,通过数据仓库建设,积累经验,为我行打造一支专业的数据管理、挖掘、分析团队。 数据仓库项目二期工程(数据仓库系统子包)主要包括对外供数、数据入仓以及数据挖掘三大部分内容。 (1)对外供数是项目二期的工作重点,主要包括对已纳入今年开发计划的部分新建系统(运营风险预警系统、EAST系统2.0等)提供数据支持,以及对当前存量的下游数据分析系统(反洗钱系统、监管报送系统、管理会计系统等)实施数据接口切换,将此部分系统的数据源由现有的多个系统逐步改为由数仓系统统一供数。 (2)数据入仓是对现有数据仓库数据的持续完善与补充,主要包括根据下游数据应用需求,对上游业务系统未入仓的新产品、新业务数据实施采集并入仓存储,并结合我行历史数据入仓要求,对部分关键业务系统2014及2013年的历史数据按数据仓库抽取、转换、载入要求实施入仓处理。 (3)数据挖掘服务是项目二期引入的新内容,项目组将作为全行数据挖掘与分析应用的连接处,借鉴并引入同业银行的创新数据思维,引导并统筹全行数据挖掘需求,与相关业务部门一起探讨大数据分析应用与业务模型设计,以微创新的方式推动各项业务创新与服务提升,深层次的挖掘数据价值。

林子雨大数据技术原理与应用第二章课后题答案

林子雨大数据技术原理与应用第二章课后题答案 -标准化文件发布号:(9456-EUATWK-MWUB-WUNN-INNUL-DDQTY-KII

大数据第二章课后题答案 黎狸 1.试述Hadoop和谷歌的MapReduce、GFS等技术之间的关系。 Hadoop是Apache软件基金会旗下的一-个开源分布式计算平台,为用户提供了系统底层细节透明的分布式基础架构。 ①Hadoop 的核心是分布式文件系统( Hadoop Ditributed File System,HDFS )和MapReduce。 ②HDFS是对谷歌文件系统( Google File System, GFS )的开源实现,是 面向普通硬件环境的分布式文件系统,具有较高的读写速度、很好的容 错性和可伸缩性,支持大规模数据的分布式存储,其冗余数据存储的方 式很好地保证了数据的安全性。 ③MapReduce 是针对谷歌MapReduce的开源实现,允许用户在不了解分布 式系统底层细节的情况下开发并行应用程序,采用MapReduce 来整合分 布式文件系统上的数据,可保证分析和处理数据的高效性。 2.试述Hadoop具有哪些特性。 Hadoop是一个能够对大量数据进行分布式处理的软件框架,并且是以一种可靠、高效、可伸缩的方式进行处理的,它具有以下几个方面的特性。 ①高可靠性。采用冗余数据存储方式,即使一个副本发生故障,其他副本 也可以保证正常对外提供服务。 ②高效性。作为并行分布式计算平台,Hadoop采用分布式存储和分布式 处理两大核心技术,能够高效地处理PB级数据。 ③高可扩展性。 Hadoop的设计目标是可以高效稳定地运行在廉价的计算 机集群上,可以扩展到数以千计的计算机节点。 ④高容错性。采用冗余数据存储方式,自动保存数据的多个副本,并且能 够自动将失败的任务进行重新分配。 ⑤成本低。 Hadoop采用廉价的计算机集群,成本比较低,普通用户也很 容易用自己的PC搭建Hadoop运行环境。 ⑥运行在 Linux平台上。Hadoop是基于Java语言开发的,可以较好地运 行在Linux平台上。 ⑦支持多种编程语言。 Hadoop 上的应用程序也可以使用其他语言编写, 如C++。 3.试述Hadoop在各个领域的应用情况。 互联网领域是Hadoop应用的主要阵地。 ①雅虎将Hadoop主要用于支持广告系统与网页搜索。 ②Facebook主要将Hadoop平台用于日志处理、推荐系统和数据仓库等方 面。 ③淘宝Hadoop集群服务于阿里巴巴集团各部门,数据来源于各部门产品的 线上数据库( Oracle、MySQL)备份、系统日志以及爬虫数据,每天在 Hadoop集群运行各种MapReduce任务,如数据魔方、量子统计、推荐系 统、排行榜等。 ④百度选择Hadoop主要用于日志的存储和统计、网页数据的分析和挖掘、 商业分析、在线数据反馈、网页聚类等。

数据仓库与数据挖掘教程(第2版)课后习题答案 第二章

第二章作业 1.画出数据仓库的结构图,说明各部分内容。P18 当前基本数据是最近时期的业务数据,是数据仓库用户最感兴趣的部分数据量大。随着时间的推移,有数据仓库的时间控制机制转为历史数据,轻度综合数据是从当前基本数据中提取出来的,最高一层是高度综合数据层,这一 层的数据十分精炼,是一种准决策数据。 2.说明数据仓库结构图中包含轻度综合层与高度综合数据层的作用。这些数据 为什么不是临时计算出来的。P18-19 数据仓库除了存储按主题组织起来的当前详细数据外,还需要存储综合数据,这是为了适应决策需求而增加的。在数据库中需要得到综合数据时,采用数据立方体的方法对详细数据进行综合。在数据仓库中并不采取临时计算的方式得到综合数据,而在用户提出需要综合数据之前,就预先将可能的综合数据利用数据立方体计算好,存入综合数据层中,这种综合数据层在用户查询时,能迅速提供给用户。 3.说明数据集市与数据仓库的区别和联系。P20 联系:数据集市是一种更小,更集中的数据仓库,为公司提供了一条分析商业数据的廉价途径。数据集市是指具有特定应用的数据仓库,主要针对某个具有战略意义的应用或者具体部门级的应用,支持用户利用已有的数据获得重要的竞争优势或者找到进入新市场的具体解决方案。 区别:(1)数据仓库是基于整个企业的数据模型建立的,它面向企业范围内的主题。而数据集市是按照某一特定部门的数据模型建立的。(2)部门的主题与企业的主题之间可能存在关联,也可能不存在关联。(3)数据集市的数据组织一般采用星型模型。 4. 1、规模是小的 2、特定的应用 3、面向部门 4、由业务部门定义,设计和开发 5、由业务部门管理和维护 6、快速实现 7、购买较便宜 8、投资快速回收 9、更详细的、预先存在的数据仓库的摘要子集

数据仓库成功案例(2)

数据仓库成功案例1 数据挖掘在宝钢的实践 1. 宝钢简介 2. 宝钢数据挖掘基础 2.1 冶金工业数据挖掘背景 2.2 其DW流程和具体步骤 2.3 其DW工具和主要功能 3. 宝钢股份信息化的三层数据架构 4. 宝钢数据仓库的体系结构及应用 4.1 系统环境 4.2 宝钢数据仓库开发 4.3 宝钢数据仓库应用 4.3.1 专业技术报表 4.3.2 数据分析与数据挖掘 4.3.3 决策信息支持 5. 宝钢数据仓库和数据挖掘应用及成果 6. 参考文献 1.宝钢简介 宝钢是中国最大的钢铁生产企业,目前的规模达到年产1100万吨钢,2002年的销售收入达到330亿元,税前利润接近60亿元。宝钢的产品系列包括板材、线材、管材等,主要的用户分布在汽车、家电等制造业。自1985年投产至今,积累了大量的生产实绩数据。 2.宝钢数据挖掘基础 2.1 冶金工业数据挖掘背景 在冶金工业中年复一年的积累着各种数据,从每一炉钢到每一块板坯到每一个钢卷,各级计算机系统可以把这些数据完整地收集起来。但是收集数据本身并不是目的,从“信息化带动工业化”的角度来看,更重要的是把这些数据利用起来,利用数据中蕴藏的知识来指导生产,形成企业的核心竞争力。 另一方面,在冶金工业的运营过程中还有许多问题需要解决,例如全流程的质量控制和供应链管理等。由于它们固有的多变量和非线性特点,用传统的局部优化的方法很难达到企业级的最优。现在通过把分散在各个生产过程的实际生产数据按主题组织成数据仓库,在此基础上展开数据挖掘工作和获取知识,利用获取的知识可以比过去更好地解决这些问题。 2.2 其DW流程和具体步骤 通用数据挖掘流程:

数据仓库与数据挖掘课后习题答案

数据仓库与数据挖掘 第一章课后习题 一:填空题 1)数据库中存储的都是数据,而数据仓库中的数据都是一些历史的、存档的、归纳的、计算的数据。 2)数据仓库中的数据分为四个级别:早起细节级、当前细节级、轻度综合级、高度综合级。3)数据源是数据仓库系统的基础,是整个系统的数据源泉,通常包括业务数据和历史数据。4)元数据是“关于数据的数据”。根据元数据用途的不同将数据仓库的元数据分为技术元数据和业务元数据两类。 5)数据处理通常分为两大类:联机事务处理和联机事务分析 6)Fayyad过程模型主要有数据准备,数据挖掘和结果分析三个主要部分组成。 7)如果从整体上看数据挖掘技术,可以将其分为统计分析类、知识发现类和其他类型的数据挖掘技术三大类。 8)那些与数据的一般行为或模型不一致的数据对象称做孤立点。 9)按照挖掘对象的不同,将Web数据挖掘分为三类:web内容挖掘、web结构挖掘和web 使用挖掘。 10)查询型工具、分析型工具盒挖掘型工具结合在一起构成了数据仓库系统的工具层,它们各自的侧重点不同,因此适用范围和针对的用户也不相同。 二:简答题 1)什么是数据仓库?数据仓库的特点主要有哪些? 数据仓库是一个面向主题的、集成的、相对稳定的、反映历史变化的数据集合,用于支持管理决策。 主要特点:面向主题组织的、集成的、稳定的、随时间不断变化的、数据的集合性、支持决策作用 2)简述数据挖掘的技术定义。 从技术角度看,数据挖掘是从大量的、不完全的、有噪声的、模糊的、随机的实际数据中,提取隐含在其中的、人们不知道的、但又是潜在有用的信息和知识的过程。 3)什么是业务元数据? 业务元数据从业务角度描述了数据仓库中的数据,它提供了介于使用者和实际系统之间的语义层,使得不懂计算机技术的业务人员也能够读懂数据仓库中的数据 4)简述数据挖掘与传统分析方法的区别。 本质区别是:数据挖掘是在没有明确假设的前提下去挖掘信息、发现知识。数据挖掘所得到的信息应具有先前未知、有效和实用三个特征。 5)简述数据仓库4种体系结构的异同点及其适用性。 a.虚拟的数据仓库体系结构 b.单独的数据仓库体系结构 c.单独的数据集市体系结构 d.分布式数据仓库结构

数据仓库与数据挖掘教程(第2版)课后习题答案 第三章

第三章作业 1. 联机分析处理(OLAP)的简单定义是什么?它体现的特征是什 么。P40 联机分析处理是共享多维信息的快速分析。它体现在四个特征: (1)快速性(2)可分析性(3)多维性(4)信息性 2. OLAP准则中的主要准则有哪些?P41 (1) 多维概念视图(2)透明性(3)可访问性(4)一直稳定的报表性能(5)客户/服务器体系结构(6)维的等同性 (7)动态的系数矩阵处理(8)多用户支持能力(9)非 限定的跨维操作(10)直观的数据操作(11)灵活的报 表生成(12)不受限制的维和聚集层次 3. 什么是维?关系数据库是二维数据吗?如何理解多维数据?P43 维是人们观察数据的特定角度。关系数据库不是二维数据,只是通过二维关系表示了数据的多维概念。多维数据就是从多个特定角度来观察特定的变量。 4. MDDB(Multi Dimensional Database, 多维数据库)是以多维的方式组织数据,即以维作为坐标系,采用类似于数组的形式存储数据。RDBMS(relational database management system,关系型数据库管理系统)通过数据、关系和对数据的约束三者组成的数据模型来存放和管理数据 MDDB特点: 1. 数据库中的元素具有相同的数值 2. 多维数据库表达清晰, 3. 占用存储少 RDBMS的特点: 1.数据以表格的形式出现 2.每行为各种记录名称 3.每列为记录名称所对应的数据域 4.许多的行和列组成一张表单 5.若干的表单组成database 5. 1.数据存取速度

ROLAP服务器需要将SQL语句转化为多维存储语句,临时“拼合”出多维数据立方体。因此,ROLAP的响应时间较长。 MOLAP在数据存储速度上性能好,响应速度快。 2.数据存储的容量 ROLAP使用的传统关系数据库的存储方法,在存储容量上基本没有限制。 MOLAP通常采用多平面叠加成立体的方式存放数据。 当数据量超过操作系统最大文件长度时,需要进行数据分割。 多维数据库的数据量级难以达到太大的字节级。 3.多维计算的能力 MOLAP能够支持高性能的决策支持计算。 ROLAP无法完成多行的计算和维之间的计算。 4.维度变化的适应性 MOLAP增加新的维度,则多维数据库通常需要重新建立。 ROLAP对于维表的变更有很好的适应性。 5.数据变化的适应性 当数据频繁的变化时,MOLAP需要进行大量的重新计算,甚至重新建立索引乃至重构多维数据库。 在ROLAP中灵活性较好,对于数据变化的适应性高。 6.软硬件平台的适应性 ROLAP对软硬件平台的适应性很好,而MOLAP相对较差。 7.元数据管理 目前在元数据的管理,MOLAP和ROLAP都没有成形的标准。 6. 在HOLAP中,对最常用的维度和维层次,使用多维数据表来存储,对于用户不常用的维度和数据,采用ROLAP星型结构来存储。 7.多维数据显示的两种方法:关系数据库方式和多维数据库方式。 关系数据库可以显示更多维的数据,但用事实表显示多维数据时,重复数据很多,也很繁琐;多维数据库虽然不能同时显示三维以上数据,但显示的数据很精炼。 8.多维类型结构:每一个维度用一条线段来表示,维度上的每个成员都用线段上一个单位区间来表示。 例如,用三个线段分别表示时间、产品和指标三个维的多维类型结构:

《数据仓库与数据挖掘》复习题

2014-2015-1《数据仓库与数据挖掘》 期末考试题型 一、单项选择题(每小题2分,共20分) 二、填空题(每空1分,共20分) 三、简答题(每题6分,共30分) 四、析题与计算题(共30分) 请同学们在考试时不要将复习资料带入考场!!! 单选题 1. 某超市研究销售纪录数据后发现,买啤酒的人很大概率也会购买尿布,这种属于数据挖掘的哪类问题?(A) A. 关联规则发现 B. 聚类 C. 分类 D. 自然语言处理 2. 以下两种描述分别对应哪两种对分类算法的评价标准? (A) (a)警察抓小偷,描述警察抓的人中有多少个是小偷的标准。 (b)描述有多少比例的小偷给警察抓了的标准。 A. Precision, Recall B. Recall, Precision A. Precision, ROC D. Recall, ROC 3. 将原始数据进行集成、变换、维度规约、数值规约是在以下哪个步骤的任务? (C) A. 频繁模式挖掘 B. 分类和预测 C. 数据预处理 D. 数据流挖掘 4. 当不知道数据所带标签时,可以使用哪种技术促使带同类标签的数据与带其

他标签的数据相分离?(B) A. 分类 B. 聚类 C. 关联分析 D. 隐马尔可夫链 5. 什么是KDD? (A) A. 数据挖掘与知识发现 B. 领域知识发现 C. 文档知识发现 D. 动态知识发现 6. 使用交互式的和可视化的技术,对数据进行探索属于数据挖掘的哪一类任务?(A) A. 探索性数据分析 B. 建模描述 C. 预测建模 D. 寻找模式和规则 7. 为数据的总体分布建模;把多维空间划分成组等问题属于数据挖掘的哪一类任务?(B) A. 探索性数据分析 B. 建模描述 C. 预测建模 D. 寻找模式和规则 8. 建立一个模型,通过这个模型根据已知的变量值来预测其他某个变量值属于数据挖掘的哪一类任务?(C) A. 根据内容检索 B. 建模描述 C. 预测建模 D. 寻找模式和规则 9. 用户有一种感兴趣的模式并且希望在数据集中找到相似的模式,属于数据挖掘哪一类任务?(A) A. 根据内容检索 B. 建模描述 C. 预测建模 D. 寻找模式和规则 11.下面哪种不属于数据预处理的方法? (D)

2数据仓库与数据挖掘项目建设-讲义

数据仓库与数据挖掘项目建设 1、数据仓库知识简介 1、1软件质量控制 软件质量控制得主要目得就是为了获得更高得开发效率,避免返工,提高产品得市场竞争力,从而为客户提高符合质量需求得稳定可靠得软件产品,同时它也就是控制方法得集合,包括软件建模、度量、评审以及其她活动。 1、2用于软件控制得一般性方法如下: 1.目标问题度量法,即通过软件质量目标并持续观察这些目标就是否达到软件质量控制得一 种方法 2.风险管理法,即识别与控制软件开发中对成功达到质量目标危害最大得哪些因素得系统性 方法 3.PDCA循环。这种方法发源于日本,就是指计划plan,做do,检查check,与行动action 1、3信息化得需求: 随着信息化得高速发展,各行各业,各组织单位积累了大量得业务数据,这些数据存在于各单位得数据库,各种报表、文档中,真可谓就是数据得海洋。这些数据中蕴含着组织业务活动得大量规则,包含着组织管理决策所需要得重要知识,从这些数据中挖掘出有价值得信息,为管理决策提供支持就是政府与企业事业单位共同面临得问题。 解决这个问题主要依赖于亮相技术: 一就是对整个组织各部门生产得各种业务数据进行统一与综合,把业务数据转化为商业信息,支持决策,即数据仓库。 二就是发现隐藏在各种数据之中有用得知识,即数据挖掘。

1、4以银行为案例得IT整体架构 1、5数据仓库得定义 数据仓库系统就是指面向主题得、集成得、稳定得同时又就是随时间变化得大量得数据集合。在综合使用一些应用软件下,用户获得想要得信息,最终为经营管理得决策提供有力得帮助 数据仓库系统得业务特征就是业务需求得范围与内容,不像业务系统那样清晰与明确:系统建设得一个主要风险就是体现在软件工程质量与串接方面存在较大得过程风险:系统建设得成功标准应该由应用系统得用户数及其使用频率作为重要参考依据。 1、6数据仓库得建设过程得挑战 如何来控制风险、如何来保证质量呢?把质量控制作为数据仓库建设得生命线,把它贯穿于数据仓库建设整个过程得始终。那么质量控制得中心环节又就是什么呢? 简单而言,包括事前控制:对方案与计划进行充分得咨询与论证;事中管理:对建设开发阶段进行持续不断得过程控制;事后控制:对于建设成果通过测试、评审、验收、试运行等方式进行

数据仓库复习题

第一章概述 1.数据挖掘的定义(书P2,PPT_P8) 从大量的、不完全的、有噪声的、模糊的、随机的数据中,提取隐含在其中的、人们事先不知道的、但又是潜在有用的信息和知识的过程。 2.数据挖掘的源是否必须是数据仓库的数据可以有哪些来源(PPT_P14) 关系数据库、数据仓库、事务数据库、高级数据等 3.数据挖掘的常用方法(P4、PPT_P29) 聚类分析、决策树、人工神经网络、粗糙集、关联规则挖掘、统计分析等 4.数据挖掘的过程包括哪些步骤,每一步具体包括哪些内容(书P2-3,PPT_P17-19) 确定业务对象、数据准备、数据挖掘、结果分析与知识同化。 5.数据挖掘与数据仓库的关系(联系和区别)书P6-7,PPT_P45-46 联系:1,数据仓库为数据挖掘提供了更好的,更广泛的数据源 2,数据仓库韦数据挖掘提供了新的支持平台。 3,数据仓库为更好地使用数据挖掘工具提供了方便 4,数据挖掘对数据仓库提供了更好的决策支持。 5,数据挖掘对数据仓库的数据组织提出了更高的要求 6,数据挖掘还为数据仓库提供了广泛的技术支持 区别:数据仓库是一种存储技术,它包含大量的历史数据、当前的详细数据以及综合数据,它能为不同用户的不同决策需要提供所需的数据和信息。~~数据挖掘是从人工智能机器学习中发展起来的,它研究各种方法和技术,从大量的数据中挖掘出有用的信息和知识。 第二章数据仓库 1.数据仓库的定义 数据仓库——是一个面向主题的、集成的、随时间而变化的、不容易丢失的数据集合,支持管理部门的决策定制过程。 2.数据仓库数据的四大基本特征: 面向主题的、集成的、不可更新的、随时间变化的。 3.数据仓库体系结构有三个独立的数据层次: 信息获取层、信息存储层、信息传递层。 4.粒度的定义它对数据仓库有什么影响 (1)是指数据仓库的数据单位中保存数据细化或综合程度的级别。粒度越小,细节程度越高,综合程度越低,回答查询的种类就越多。 (2)影响存放在数据仓库中的数据量大小;影响数据仓库所能回答查询问题的细节程度。 5.在数据仓库中,数据按照粒度从小到大可分为四个级别: 早期细节级、当前细节级、轻度细节级和高度细节级。 6.数据分割的标准:可按日期、地域、业务领域、或按多个分割标准的组合,但一般包括日期项。 7.数据仓库设计中,一般存在着三级数据模型: 概念数据模型、逻辑数据模型、物理数据模型 8.数据仓库设计步骤 (1)概念模型设计 (2)技术准备工作 (3)逻辑模型设计 (4)物理模型设计 (5)数据仓库的生成

相关文档
最新文档