第2章数据仓库的数据存储与处理
数据仓库与数据挖掘技术 第二章 数据仓库

第2章数据仓库2.1数据仓库的基本概念1. 数据仓库的数据是面向主题的数据仓库与数据挖掘技术图2-1主题间的重叠关系2. 数据仓库的数据是集成的3. 数据仓库的数据是不可更新的数据仓库与数据挖掘技术4. 数据仓库的数据是随时间不断变化的图2-2数据仓库体系结构2.2数据仓库的体系结构数据仓库与数据挖掘技术图2-3数据仓库数据组织结构2.2.1元数据1. 元数据在数据仓库中的作用2. 元数据的使用3. 元数据的分类4. 元数据的内容2.2.2粒度的概念1. 按时间段综合数据的粒度2. 样本数据库2.2.3分割问题1. 分割的优越性2. 数据分割的标准3. 分割的层次2.2.4数据仓库中的数据组织形式1. 简单堆积结构图2-4简单堆积结构数据组织形式2. 轮转综合结构数据仓库与数据挖掘技术图2-5轮转综合结构数据组织形式3. 简单直接结构图2-6简单直接结构数据组织形式4. 连续结构图2-7连续结构数据组织形式数据仓库与数据挖掘技术2.3数据仓库的数据模型2.3.1概念数据模型图2-8商品、顾客和供应商E-R图2.3.2逻辑数据模型2.3.3物理数据模型2.3.4高层数据模型、中间层数据模型和低层数据模型1. 高层数据模型2. 中间层数据模型3. 低层数据模型数据仓库与数据挖掘技术2.4数据仓库设计步骤图2-9数据仓库设计步骤2.4.1概念模型设计1. 界定系统边界2. 确定主要的主题域3. 实例2.4.2技术准备工作2.4.3逻辑模型设计1. 分析主题域2. 划分粒度层次3. 确定数据分割策略4. 定义关系模式5. 定义记录系统2.4.4物理模型设计1. 确定数据的存储结构数据仓库与数据挖掘技术2. 确定索引策略3. 确定数据存放位置4. 确定存储分配2.4.5数据仓库的生成1. 接口设计2. 数据装入2.4.6数据仓库的使用和维护1. 开发DSS应用图2-10DSS应用开发步骤2. 进一步理解需求,改善系统,维护数据仓库图2-11William H.Inmon数据仓库设计步骤数据仓库与数据挖掘技术2.5利用SQL Server 2005构建数据仓库图2-12使用Visual Studio 2005系统新建项目图2-13新建Analysis Services项目图2-14新建数据源数据仓库与数据挖掘技术图2-15新建数据源向导图2-16选择如何连接数据源图2-17连接管理器图2-18连接管理器连接测试成功窗口图2-19选择已经连接的数据库作为数据源图2-20选择连接数据源的凭证图2-21新建数据源向导完成图2-22右击新建数据源视图图2-23新建数据源视图向导图2-24选择视图的数据源图2-25选择表和视图图2-26完成新建数据源视图向导图2-27新建多维数据集图2-28多维数据集向导图2-29选择生成多维数据集的方法图2-30选择多维数据集的数据源视图图2-31检测事实数据表和维度表图2-32标示事实表和维度表图2-33选择度量值图2-34扫描维度图2-35查看维度结构图2-36完成多维数据集向导图2-37创建完成数据仓库界面习题21. 如何理解数据仓库是面向主题的、集成的、不可更改的和是随时间不断变化的。
数据仓库技术在数据存储与数据处理中的应用

图的 同义语 , 这些 多维视 图是 由多维数据库技 术所支持的 , 他们 为数据 仓库应 用中所需的计 算和分析提供了技 术基础。 在实 际应用 中 , L P常 常包 括对 数据 的 OA 相互查询 ,这项活 动发 生在通 过多种途径的一 系列分析之后 , 底层 细节的进一步挖掘。 如对 23 O A . L P的结构 OA L P结构包括逻辑构件和物理构件 。
231 辑结 构 _.逻
OA L P的功能结 构 由三个 服务 构 件组成 : 数据存储服务 、 L P服务 、 OA 用户描述服 务。在 这种情况下 ,功能结构是 三层的客户机 / 务 服 器结构。 23 物 理结 构 .. 2 物理结 构包括基 于数据存储技术 的两种方 式: 多维数据存储 和关 系数 据存储 。 多维数 据存储主要有 两种选择 ,即多维数 据存储 于工作站客户端或是 0 A L P服务 器上 。 在第一种情况下 , 多维数 据存储 于客户 端 , 它实施胖客户端 , 用户可 以按范 围来分析 , 这是 种 漫游选择 , 只在数据加载至工作站时 , 网络 才成为瓶颈 。它可能存在 的副作用是操作 的安 全性 和数据 的安全性 。 此选 择具有交通形式 , 它 将多维数据存储于数据站场一级 ,以便为每一 个工作战配置本地存储和访问所选的多维数据 的子集 。 第二种情况 ,多维数 据存储与 O A 服务 LP 组合在一起 。 工作站并不那么胖 了, 它抽取源于 数据仓库的数据 ,然后将其转换为多维数据结 构, 存储于数据站场服务器。 3数据仓库与 0 AP L 虽然数据仓库和联机 分析 处理 ( P 这 0 ) 两个 术语有 时可互换 使用 ,但它们却适 用于通 常称 为决策支持系统或业务智能系统的不同组 件。这些类 型的系统的组件包括一些数 据库和
数据仓库与数据挖掘教程(第2版)课后习题答案 第二章

数据仓库与数据挖掘教程(第2版)课后习题答案第二章1. 什么是数据仓库?它与传统数据库有什么不同?答:数据仓库是一个面向主题、集成、稳定、可学习的数据集合,用于支持企业决策制定和决策支持系统。
与传统数据库相比,数据仓库更注重数据的整合和大数据的处理能力,以支持更高级别的数据分析和决策。
2. 什么是元数据?有哪些类型?答:元数据指描述数据仓库中数据的数据,用于描述数据的含义、格式、内容、质量、来源、使用和存储等方面的信息。
元数据有三种类型:技术元数据、业务元数据和操作元数据。
3. 数据仓库的架构有哪些组成部分?请简述各组成部分的作用。
答:数据仓库的架构主要包括数据源、数据抽取、清理和转换、存储和管理、元数据管理、查询和分析等几个组成部分。
- 数据源:指数据仓库的数据来源,可以是事务处理系统、外部数据源、第三方提供商等。
- 数据抽取、清理和转换:将数据从各种不同的来源抽取出来并转化为简单、标准的格式,以便进行加工和分析。
- 存储和管理:将经过抽取、转换和清洗后的数据存储在数据仓库中并进行管理,查找、更新和删除等操作。
- 元数据管理:对数据仓库中的元数据进行管理,并将其存储在元数据存储库中。
- 查询和分析:通过各种查询和分析工具来进行数据挖掘、分析和报告。
4. 请列出数据仓库中的三种主要数据类型。
答:数据仓库中的三种主要数据类型包括事实数据、维度数据和元数据。
5. 请列出数据仓库的三种不同的操作类型。
答:数据仓库的三种不同的操作类型包括基础操作、加工操作和查询操作。
6. 数据挖掘的定义是什么?答:数据挖掘是一种通过分析大量数据来发现有意义模式、趋势和关联的过程。
它是既包含统计学、机器学习和数据库技术的交叉学科,又包含更广泛的知识和业务领域。
7. 请列出数据挖掘中的四个主要任务。
答:数据挖掘中的四个主要任务包括描述性数据挖掘、预测性数据挖掘、关联数据挖掘和分类和聚类。
8. 数据仓库中经常使用OLAP分析方式,您了解OLAP是什么吗?答: OLAP是一种面向主题的数据分析方式,可以帮助用户对快速变化的数据进行多维分析和决策支持。
数据仓库与OLAP技术

数据挖掘
数据集市类型
按照数据获取来源: 独立型:直接从操作型环境获取数据; 从属型:从企业级数据仓库获取数据;
数据挖掘
建设途径
从 全局数据仓库 到 数据集市 从 数据集市 到 全局数据仓库
数据挖掘
数据粒度
粒度是指数据仓库的数据单位中保存数据的细 化或综合程度的级别;
粒度影响存放在数据仓库中的数据量的大小;同 时影响数据仓库所能回答查询问题的细节程度; 是设计数据仓库的一个最重要方面;
粒度可以分为两种形式: 按时问段综合数据的粒度 按采样率高低划分的样本数据库;
数据挖掘
粒度的一个例子
小的时间段粒度统计而成的数据;其数据量较细节及 数据少得多 当前细节级:存储最近时期的业务数据;反映当前业 务的情况;数据量大;是数据仓库用户最感兴趣的部 分 早期细节级:存储过去的详细数据;反映真实的历史 情况;这类数据随着时间增加;数据量很大;使用频率 低;一般存储在转换介质如磁带中
数据挖掘
2 3 数据组织结构和形式
分割问题的焦点不是该不该分割而是如何去分 割的问题;
数据挖掘
数据分割
一般在进行实际的分析处理时;对于存在某种相关性的 数据集合的分析是最常见的;如对某时间或某时段的数 据的分析;对某一地区的数据的分析;对特定业务领域 的数据的分析等;将其有这种相关性的数据组织在一起; 就会提高效率;
数据挖掘
数据分割的好处
数据挖掘
面向主题
主题Subject:特定的数据分析领域与目标; 面向主题:为特定的数据分析领域提供数据支持; 主题是一个抽象的概念;是在较高层次上将企业信息系
数据仓库数据安全管理制度

第一章总则第一条为确保公司数据仓库数据的安全、完整和可用,防止数据泄露、篡改、丢失等风险,特制定本制度。
第二条本制度适用于公司所有涉及数据仓库的数据收集、存储、使用、处理、传输、销毁等活动。
第三条本制度遵循以下原则:1. 隐私保护原则:对个人隐私数据进行严格保护,未经授权不得泄露。
2. 完整性原则:确保数据仓库数据的准确性和一致性。
3. 可用性原则:确保数据仓库数据在需要时能够及时、准确地提供。
4. 安全性原则:采取有效措施,防止数据泄露、篡改、丢失等风险。
第二章数据分类与分级第四条公司数据仓库数据分为以下几类:1. 公开数据:指对内对外公开的数据,如公司年报、产品介绍等。
2. 内部数据:指公司内部使用的数据,如员工信息、财务数据等。
3. 高级内部数据:指涉及公司核心业务、技术秘密的数据。
第五条公司数据仓库数据分级如下:1. 一级数据:涉及公司核心业务、技术秘密,对数据安全要求极高的数据。
2. 二级数据:涉及公司内部使用的数据,对数据安全要求较高的数据。
3. 三级数据:涉及公司公开数据,对数据安全要求较低的数据。
第三章数据安全责任第六条公司董事会对数据安全负有最终责任。
第七条公司高层管理人员对数据安全方针和政策负责,并由数据安全团队负责执行与管理数据安全。
第八条数据安全团队工作职责:1. 制定与颁布数据安全政策和规程。
2. 定期开展数据安全教育和训练。
3. 监测和识别数据安全风险。
4. 负责数据安全事件的调查和处理。
第九条所有公司员工应遵守数据安全制度,将数据安全作为工作的重中之重。
第四章数据收集与存储第十条数据收集应遵循以下原则:1. 合法性原则:收集数据应合法合规,不得侵犯他人合法权益。
2. 诚信原则:收集数据应诚实守信,不得虚构、篡改数据。
第十一条数据存储应遵循以下要求:1. 选用安全可靠的数据存储设备。
2. 对数据进行加密存储,防止数据泄露。
3. 定期对数据进行备份,确保数据安全。
第五章数据使用与处理第十二条数据使用应遵循以下原则:1. 依法使用原则:使用数据应符合法律法规的要求。
数据仓库与数据分析-第一-至第三章

数据仓库与数据分析第一、二、三章一、数据处理的类型:1、操作型处理:操作型处理主要完成数据的收集、整理、存储、查询和增、删改操作等,主要由一般工作人员和基层管理人员完成。
2、分析型处理:分析型处理是对数据的再加工,往往要访问大量的历史数据,进行复杂的统计分析,从中获取信息,因此也称为信息型处理,主要由中高级管理人员完成。
操作型数据处理:二、联机事务处理系统(OLTP)的主要功能:对事务进行处理,快速地响应客户的服务要求,使企业的业务处理自动化。
其主要性能指标是事务处理效率和事务吞吐率,每个事务处理的时间越快越好,单位时间能完成的事务数量越多越好。
三、dbms:数据库管理系统。
Dwms:数据仓库管理系统。
OLAP:联机分析处理。
Oltp基于db,olap基于dw。
四、事务:用户定义的一个数据库操作序列,这些操作要么全做、要么全不做,是一个不可分割的工作单元。
在关系数据库中,一个事务可以是一条SQL语句、一组SQL语句或整个程序。
五、事务的ACID性质:1、原子性:事务是一个逻辑工作单元,是一个整体,是不可分割的。
2、一致性:事务在完成时,必须使所有的数据都保持一致状态。
3、隔离性:事务并发执行也能保持原子性和一致性,则是事务的隔离性。
4、持久性:一旦事务成功完成,该事务对数据库所施加的所有更新都是永久的。
六、决策支持系统(DSS):分析型数据处理的典型。
决策支持系统需要具备的基本功能是建立各种数学模型,对数据进行统计分析,得出有用的信息作为决策的依据和基础。
DSS对数据集成的迫切需要是数据仓库技术出现的最重要动因。
分析型数据处理需要访问大量的当前和历史数据,进行复杂的计算,即需要本部门的数据也会需要其他部门的数据,甚至是竞争对手的数据。
七:操作型数据和分析型数据的区别:操作型数据分析型数据细节的综合的,或提炼的当前数据历史数据可更新(可以update)不更新(不可update,但可insert)操作需求事先可知道操作需求事先不知道完全不同的生命周期生命周期符合SDLC(软件开发生命周期)对性能要求高对性能要求宽松一个时刻操作一单元一个时刻操作一集合事务驱动分析驱动面向业务处理面向分析一次操作数据量大,计算复杂一次操作数据量小,计算简单支持日常操作支持管理需求八、数据分散的原因:1、事务处理应用的分散:OLTP系统一般只需要与本部门业务有关的当前数据,没有包括企业范围内的集成应用。
数据处理与存储

数据处理与存储数据在现代社会中扮演着至关重要的角色,无论是企业还是个人,都离不开对数据的处理与存储。
随着科技的不断发展,数据量呈现爆炸性增长,如何高效地处理和存储数据成为摆在我们面前的重要问题。
本文将从数据处理与数据存储两个方面进行探讨,并介绍当前常见的解决方案。
一、数据处理数据处理是指对收集到的原始数据进行清洗、整理、分析和计算等操作的过程。
它是获取有用信息的关键步骤,对于企业来说尤为重要。
合理高效的数据处理能够提升决策质量、优化运营效率,为企业带来巨大的经济效益。
1. 数据清洗数据清洗是指通过去除重复数据、纠正错误数据和填补缺失数据等一系列操作,使得数据达到可用的状态。
数据清洗的目的是保证数据的准确性和一致性,以便进行后续的分析和应用。
2. 数据整理数据整理是指对清洗后的数据进行合并、分类和格式化等处理,以便于后续的分析和利用。
通过数据整理,我们可以更好地理解数据之间的关联和规律,为决策提供有力支持。
3. 数据分析数据分析是指通过运用统计学、数学模型和机器学习等方法,发现数据中的信息和规律。
数据分析能够帮助我们理解数据的内在价值,预测未来的趋势,优化业务流程等。
在进行数据分析时,选择合适的算法和工具非常关键。
4. 数据计算数据计算是指对数据进行运算、聚合和计算等操作,以获得深入的洞察。
数据计算可以帮助我们揭示数据背后的潜在意义,发现问题并提供解决方案。
二、数据存储数据存储是指将处理后的数据进行保存和管理的过程。
为了满足爆炸性增长的数据需求,我们需要高效可靠的存储方案,以保证数据的安全和可用性。
1. 传统存储方式传统的数据存储方式主要包括硬盘存储和磁带存储。
硬盘存储是最常见的一种方式,无论是个人电脑还是服务器都广泛采用。
磁带存储则适用于大规模数据的长期备份和存档。
2. 云存储随着云计算的兴起,云存储逐渐成为一种新的数据存储方式。
云存储提供了高度可扩展和弹性的存储服务,用户可以根据实际需求灵活调整存储容量,并能够实现跨地域备份和容灾恢复。
数据仓库第二章——OLAP联机分析处理

析。
(3)多维性:系统必须提供对数据分析的多维视图和分析。 (4)信息性:OLAP系统应能及时获得信息,并且管理大容量
的信息。
4.1.2 OLAP准则
1993年,E.F.Codd提出OLAP的12条准则,其主 要的准则有:
6
4.1.1 OLAP的定义
1. OLAP理事会给出的定义 联机分析处理(OLAP)是一种软件技术,它
使分析人员能够迅速、一致、交互地从各个 方面观察信息,以达到深入理解数据的目的。 这些信息是从原始数据转换过来的,按照用 户的理解,它反映了企业真实的方方面面。
7
2. OLAP的简单定义
联机分析处理是共享多维信息的快速分析。 它体现了四个特征:
同时计算一些可能同时的聚集,避免不必要 的单元再次访问。
总结:
由于分块技术设计“重叠”某些聚集计算, 称该技术为多路数组聚集(Multiway array aggregation)
它同时聚集——即同时对多个维计算聚集。
44
4.2.4 MOLAP与ROLAP的比较
1.数据存取速度 2.数据存储的容量 3.多维计算的能力 4.维度变化的适应性 5.数据变化的适应性 6.软硬件平台的适应性 7.元数据管理
图4.4多维类型结构中的空间数据点
4.3.3多维数据的分析视图
在平面的屏幕上显示多维数据,是利用行、 列和页面三个显示组来表示的。例如,对上 例的四维MTS实例,在页面上选定商店维度 中“商店3”,在行中选定时间维的“1月、2 月、3月”共3个成员,在列中选定产品维中 的“上衣、裤、帽子”三个成员,以及指标 维中的“固定成本、直接销售”二个成员。 该四维数据的显示如图4.6所示。
- 1、下载文档前请自行甄别文档内容的完整性,平台不提供额外的编辑、内容补充、找答案等附加服务。
- 2、"仅部分预览"的文档,不可在线预览部分如存在完整性等问题,可反馈申请退款(可完整预览的文档不适用该条件!)。
- 3、如文档侵犯您的权益,请联系客服反馈,我们会尽快为您处理(人工客服工作时间:9:00-18:30)。
数据
源数据 元数据
第2章数据仓库的数据存储与处理
操作型 (元)数据
数据仓库 数据集市 (元)数据 (元)数据
other
sources
Metadata
Monitor &
Integrator
Operational
DBs
Extract Transform Load Refresh
Data Warehouse
访问数据的原则和数据的来源 商务元数据:商务术语和定义、数据拥有者信息 系统所提供的分析方法和公式、报表等信息
第2章数据仓库的数据存储与处理
Table
表2-3 元数据举例
逻辑名 定义
学生姓名 学校的主要成员,主要进行学习任务
物理存储 建立日期 最后更新日期 更新周期 表逻辑程序名
Student.table(数据库表) 2006年9月13日 2007年9月13日 每月
用箱平均值平滑 箱1:9,9,9 箱2:22,22,22 箱3:29,29,29
用箱边界平滑 箱1:4,4,15 箱2:21,21,24 箱3:25,25,34
第2章数据仓库的数据存储与处理
如何处理噪声数据(续)
2、聚类 将联系松散的数据当作孤立点,监测并且去除
孤立点。聚类集合之外的点即为孤立点。
2.3.4数据转换(Transform)
定义:将数据从源操作型业务系统的格式转换到企业数据 仓 库的数据格式。 两种类型的数据转换
记录级-选择、连接、规范化和聚集 字段级-单字段和多字段
单字段转换的基本方法:算法和查找表
注意:连接的复杂性。 1)不是关系情形 2)不同域情形 3)源数据有错误情形
第2章数据仓库的数据存储与处理
第2章数据仓库的数据存储与处理
数据平滑的分箱方法
price的排序后数据:4,8,15,21,21,24,25,28,34
划分为(等深的)箱 箱1:4,8,15 箱2:21,21,24 箱3:25,28,34
平均值平滑-箱中每个值被平均值替 换 中值平滑-箱中每个值被中值(排序 后出现次数最多的值)替换 边界平滑-最小最大值视为边界,箱 中每个值被靠近的边界值替换
第2章数据仓库的数据存 储与处理
2020/11/25
第2章数据仓库的数据存储与处理
主要内容
2.1 数据仓库的三层数据结构 2.2 数据仓库的数据特征 2.3 数据仓库的数据ETL过程 2.4 多维数据模型
第2章数据仓库的数据存储与处理
2.1 数据仓库的三层数据结构
数据集市 中的数据
数据仓库 中的数据
STUDENT(程序名称)
第2章数据仓库的数据存储与处理
2.3 数据仓库的数据ETL过程
传统的异种数据库集成-查询驱动
在多个异种数据库上建立包装程序(wrappers)和中介程序 (mediators )
查询驱动方法——当从客户端传过来一个查询时,首先使用 元数据字典将查询转换成相应异种数据库上的查询;然后,将 这些查询映射和发送到局部查询处理器;局部查询集成为全局 回答。
缺点:复杂的信息过滤和集成处理,竞争资源
数据仓库-更新驱动
将来自多个异种源的信息预先集成,并存储在数据仓库中, 供直接查询和分析
高性能
11
第2章数据仓库的数据存储与处理
传统的异种数据库集成:
转换/集成 查询
异
种
数
子结果/子查询 .......
据
库
数据仓库: 更新驱动
查询
查询
数据归集
异
种
数
.......
如果RA ,B 〉0,则A和B是正相关的;该值越大, 则A涵盖B的可能性越大。
如果A,B相关性大,分析时就可以删除其中 一个。
第2章数据仓库的数据存储与处理
1)数据集成(续)
○ 检测并解决数据值的冲突 不同的数据表示,不同的度量等等。 例如: 对现实世界中的同一实体,来自不同数据源的属性 值可能是不同的(如价格的单位:元、千元)。
第2章数据仓库的数据存储与处理
数据变换——规范化
※ 最小-最大规范化:对原始数据进行线性变换,使得数据 落在new_ maxA,new_minA区间内。
maxA,minA :属性A的最大与最小值 new_ maxA,new_minA:属性A变换后区间的最大与最小
值 例:(一般映射到[0,1]区间)工资在700~12000之间, 则工资7830规范化后为:
第2章数据仓库的数据存储与处理
2)数据变换
平滑:去除数据中的噪声。如分箱、聚类、回归。 聚集:对数据进行聚集和汇总,数据立方体的构建。 数据概化:沿概念分层向上汇总。 规范化:将数据按比例缩放,使之落入一个小的特定区间。
最小-最大规范化 z-score规范化 小数定标规范化 属性构造 通过现有属性构造新的属性,并添加到属性集中。
基于推断的方法确定。
第2章数据仓库的数据存储与处理
2)噪声数据
噪声:一个测量变量中的随机错误或偏差。 引起不正确属性值的原因:
数据收集工具的问题 数据输入错误 数据传输错误 技术限制 命名规则的不一致
第2章数据仓库的数据存储与处理
处理噪声数据方法
1、分箱(binning) 先排序数据,并将他们分到等深(宽)的箱中 然后对每箱使用平均值平滑、中值平滑和边界平 滑等方法
据
库
12
第2章数据仓库的数据存储与处理
2.3 数据仓库的数据ETL过程
ETL概念
数据ETL是用来实现异构数据源的数据集成,即 完成数据的如下工作:
抓取/抽取(Capture/Extract) 清洗(Scrub or data cleansing) 转换(Transform) 装载与索引(Load and Index)
现有库存量 更新日期
100
2008-7-25
200
2008-7-25
1天后简化的库存表(当前数据类型)
商品编号 商品名称
现有库存量 更新日期
A001 B002 C003
A品牌方便面 85
B品牌衣服
210
C品牌矿泉水 300
2008-7-26 2008-7-26 2008-7-26
第2章数据仓库的数据存储与处理
商品编号 商品名称
A001 B002 C003 A001
A品牌方便面 B品牌衣服 C品牌矿泉水 A品牌方便面
日销售量 销售日期
15
2008-7-25
50
2008-7-25
30
2008-7-26
25
2008-7-26
第2章数据仓库的数据存储与处理
2.2.3 数据仓库中的元数据
元数据就是定义数据的数据,也就是说明数据仓库对象的数 据.可以分成技术元数据与业务元数据。
等数据集成工作
第2章数据仓库的数据存储与处理
2.3.1 ETL的目标
ETL过程的目标:为决策支持应用提供一个单一的、 权威的数据源。
数据具有的特点:
详细的 历史的 规范化的
可以理解的 即时的 质量可控制的
第2章数据仓库的数据存储与处理
2.3.1 ETL的目标
操作性数据的特点:
即时的,而非历史的 规范程度不一,依赖于数据来源 限制在特定的应用范围 质量较差,例如不一致等
例如:银行取款事件K 帐户A余额S1 银行取款事件K 帐户A余额S2
上述数据(含状态数据和事件数据)均可以存储在数据库中。如:
事件数据: 日期 2010.2.20
帐户 取款标示 取款金额
43472
1
50000
状态数据: 帐户
43472 43472
日期
存/取
………
2010.1.25 存款
2010.2.20 取款
1)空缺值
…
数据并不总是完整的 例如:数据库表中,很多条记录的对应字段没有相应值。
第2章数据仓库的数据存储与处理
2.3.3数据清洗(Scrub/Cleaning)
1)空缺值(续)
引起空缺值的原因 设备异常 与其他已有数据不一致而被删除 因为误解而没有被输入的数据 在输入时,有些数据因为得不到重视而没有被输入 对数据的改变没有进行日志记载(不能恢复)
如:工资、基本工资、加班工资 28 第2章数据仓库的数据存储与处理
相关分析:讨论两个属性的相关性。
RA,B =
Σ[(A-A平)(B-B平)] (n-1) σA σB
其中A平、B平分别是A、B的平均值;σA 、σB分别 是A、B的标准差。
A平= ΣA/n σA= SQRT[Σ(A- A平)2/(n-1)]
第2章数据仓库的数据存储与处理
如何处理噪声数据(续)
3、回归 通过让数据适应回归函数来平滑数据(线性回
归或多线性回归)。
y
Y1
Y1’
y=x+1
X1
x
25
第2章数据仓库的数据存储与处理
如何处理噪声数据(续)
4、计算机和人工检查结合 计算机检测可疑数据,然后对它们进行人工判
断。
26
第2章数据仓库的数据存储与处理
OLAP Server
Analysis
Serve
Query Reports
Data mining
数据源
Data Marts
数据仓库服务器
OLAP服务器 前端工具 第2章数据仓库的数据存储与处理
2.2 数据仓库的数据特征
2.2.1、状态数据与事件数据
描述对象的状态即为状态数据,描述对象发生的事件即为事 件数据,两者关系为: 状态数据事件数据状态数据
第2章数据பைடு நூலகம்库的数据存储与处理
2.3.2数据的ETL过程描述