第2章 数据仓库的数据存储与处理

合集下载

2024年学习笔记信息系统项目管理师(第四版)第二章-信息技术发展

2024年学习笔记信息系统项目管理师(第四版)第二章-信息技术发展

第⼆章-信息技术发展1-信息技术及其发展1.1-计算机软硬件、计算机⽹络1.计算机硬件是指计算机系统中有电子、机械和光电元件等组成的各种物理装置的总称。

2.计算机软件是指计算机系统中的程序及文档,程序是计算任务的处理对象和处理规则的描述;文档是为了便于了解程序所需的阐明性资料。

3.硬件和软件相互依存。

4.从网络的作用范围可将网络类别划分为:个人局域网(PAN)、局域网(LAN)、城域网(MAN)、广域网(WAN)、公用网、专用网。

5.广域网协议主要包块:PPP 点对点协议、ISDN 综合业务数字网、xDSL、DDN 数字专线、x.25、FR 帧中继、ATM 异步传输模式。

6.IEEE 802 协议族:IEEE 802 规范定义了网卡如何访问传输介质(如光缆、双绞线、无线等),以及如何在传输介质上传输数据的方法,还定义了传输信息的网络设备之间连接的建立、维护和拆除的途径。

7.802.3(以太网的 CSMA/CD 载波监听多路访问/冲突检测协议)、802.11(无线局域网 WLAN 标准协议)。

8.OSI 七层网络模型从上到下:应用层(事务处理程序、文件传送协议)、表示层(管理数据的解密加密数据转换、格式化和文本压缩)、会话层(负责在网络中的两节点之间建立和维持通信,以及提供交互会话的管理功能)、传输层(提供建立、维护和拆除传送连接的功能)、网络层(网络地址 IP 地址翻译成对应物理地址 MAC 地址,并决定如何将数据从发送方路由到接收方,实现拥塞控制。

网际互联等)、数据链路层(物理地址寻址、数据的成帧、流量控制。

数据的检错重发等)、物理层(物理联网媒介,如电缆连线连接器)。

9.TCP/IP 是 Internet 的核心,共四层有:应用层(FTP 文件传输协议、TFTP 简单文件传输协议、HTTP 超文本传输协议、SMTP 简单邮件传输协议、DHCP 动态主机配置协议、Telnet 远程登录协议、DNS 域名系统、SNMP 简单网络管理协议)、传输层(TCP 传输控制协议、UDP 用户数据报协议)、网络层(IP 协议、ICMP 网络控制报文协议、IGMP 网际组管理协议、ARP 地址解析协议、RARP 反向地址解析协议)、网络接口层(底层协议,传输数据的物理媒介)。

数据仓库技术在数据存储与数据处理中的应用

数据仓库技术在数据存储与数据处理中的应用

图的 同义语 , 这些 多维视 图是 由多维数据库技 术所支持的 , 他们 为数据 仓库应 用中所需的计 算和分析提供了技 术基础。 在实 际应用 中 , L P常 常包 括对 数据 的 OA 相互查询 ,这项活 动发 生在通 过多种途径的一 系列分析之后 , 底层 细节的进一步挖掘。 如对 23 O A . L P的结构 OA L P结构包括逻辑构件和物理构件 。
231 辑结 构 _.逻
OA L P的功能结 构 由三个 服务 构 件组成 : 数据存储服务 、 L P服务 、 OA 用户描述服 务。在 这种情况下 ,功能结构是 三层的客户机 / 务 服 器结构。 23 物 理结 构 .. 2 物理结 构包括基 于数据存储技术 的两种方 式: 多维数据存储 和关 系数 据存储 。 多维数 据存储主要有 两种选择 ,即多维数 据存储 于工作站客户端或是 0 A L P服务 器上 。 在第一种情况下 , 多维数 据存储 于客户 端 , 它实施胖客户端 , 用户可 以按范 围来分析 , 这是 种 漫游选择 , 只在数据加载至工作站时 , 网络 才成为瓶颈 。它可能存在 的副作用是操作 的安 全性 和数据 的安全性 。 此选 择具有交通形式 , 它 将多维数据存储于数据站场一级 ,以便为每一 个工作战配置本地存储和访问所选的多维数据 的子集 。 第二种情况 ,多维数 据存储与 O A 服务 LP 组合在一起 。 工作站并不那么胖 了, 它抽取源于 数据仓库的数据 ,然后将其转换为多维数据结 构, 存储于数据站场服务器。 3数据仓库与 0 AP L 虽然数据仓库和联机 分析 处理 ( P 这 0 ) 两个 术语有 时可互换 使用 ,但它们却适 用于通 常称 为决策支持系统或业务智能系统的不同组 件。这些类 型的系统的组件包括一些数 据库和

数据仓库建设管理制度范本

数据仓库建设管理制度范本

第一章总则第一条为规范数据仓库的建设与管理,确保数据仓库的稳定运行和数据质量,提高数据利用率,根据《中华人民共和国数据安全法》、《中华人民共和国网络安全法》等相关法律法规,结合本单位的实际情况,制定本制度。

第二条本制度适用于本单位数据仓库的建设、运维、管理和使用。

第三条数据仓库的建设和管理应遵循以下原则:(一)统一规划,分步实施;(二)安全可靠,保障数据安全;(三)高效运行,提高数据利用率;(四)持续优化,提升服务质量。

第二章数据仓库建设第四条数据仓库建设应遵循以下流程:(一)需求分析:明确数据仓库建设的目标、功能、性能等要求;(二)方案设计:制定数据仓库建设方案,包括数据源、数据模型、技术架构等;(三)系统开发:根据设计方案进行系统开发,包括数据采集、数据存储、数据清洗、数据转换等;(四)系统测试:对数据仓库系统进行测试,确保系统稳定运行;(五)系统部署:将数据仓库系统部署到生产环境,进行试运行;(六)系统验收:根据验收标准对数据仓库系统进行验收。

第五条数据仓库建设应遵循以下要求:(一)数据源:选择具有权威性、准确性和可靠性的数据源;(二)数据模型:根据业务需求设计合理的数据模型,确保数据的一致性和完整性;(三)技术架构:采用成熟、稳定的技术架构,提高系统性能和可扩展性;(四)数据质量:对数据进行清洗、转换、融合等处理,确保数据质量。

第三章数据仓库运维管理第六条数据仓库运维管理应遵循以下要求:(一)系统监控:实时监控数据仓库系统的运行状态,确保系统稳定运行;(二)数据备份:定期进行数据备份,防止数据丢失;(三)故障处理:对系统故障进行及时处理,确保系统正常运行;(四)性能优化:根据业务需求,对系统进行性能优化,提高数据访问速度。

第七条数据仓库运维管理应设立以下岗位:(一)数据仓库管理员:负责数据仓库系统的日常运维管理;(二)数据分析师:负责数据仓库系统的数据分析和挖掘;(三)数据安全员:负责数据仓库系统的数据安全管理工作。

大数据分析知识:数据存储与管理——数据仓库、云计算和数据库

大数据分析知识:数据存储与管理——数据仓库、云计算和数据库

大数据分析知识:数据存储与管理——数据仓库、云计算和数据库随着技术的不断发展,越来越多的数据产生并蓄积,如何进行有效管理和利用已成为人们关注的焦点之一。

本文将从数据存储和管理的角度出发,分别介绍数据仓库、云计算和数据库的概念、特点及其在大数据领域的应用。

一、数据仓库数据仓库(Data Warehouse)是指从各个数据源中提取数据并经过处理后存储到一个统一且独立的数据集合中,以方便用户进行分析和决策的系统。

数据仓库通过将数据分析和查询分离,实现了数据决策支持系统的高效运行,从而提高数据的利用率。

数据仓库的特点:1.面向主题:数据仓库是面向主题的,即数据集中一般针对某个主体领域或数据分析任务。

例如,销售数据仓库、人力资源数据仓库等。

2.集成性:数据仓库具有集成性,可以将不同类型的数据源通过ETL(Extract-Transform-Load)的方式进行标准化、转换和加载,并保证数据之间的一致性和完整性。

3.时间性:数据仓库关注历史数据的存储和分析,并提供不同时间维度的数据展示方式,为决策者提供多样化的选择。

数据仓库在大数据领域的应用:1.数据分析和挖掘:通过数据仓库中的数据进行多维分析和数据挖掘,为决策者提供全面的数据支持。

2.企业级统一视图:数据仓库可以实现企业级统一视图,使决策者可以获得一份全面的数据报告。

3.交互式查询:数据仓库提供交互式的查询功能,用户可以根据需要自定义查询条件和维度,获得满足自己需求的数据结果。

二、云计算云计算(Cloud Computing)是指通过网络以服务方式提供计算资源的一种模式。

云计算基于分布式计算、虚拟化技术和自动化管理,通过网络实现数据处理和存储,通过服务模式进行资源使用和计费。

云计算的特点:1.弹性伸缩:云计算可以根据需求进行弹性伸缩,为企业和个人提供更加灵活的资源使用方式,从而降低IT成本、提高效率。

2.服务化:云计算基于服务的方式提供资源,用户可以根据需要选择提供商和服务类型,并根据实际使用量进行计费,降低了技术和资金门槛。

数据仓库与数据分析-第一-至第三章

数据仓库与数据分析-第一-至第三章

数据仓库与数据分析第一、二、三章一、数据处理的类型:1、操作型处理:操作型处理主要完成数据的收集、整理、存储、查询和增、删改操作等,主要由一般工作人员和基层管理人员完成。

2、分析型处理:分析型处理是对数据的再加工,往往要访问大量的历史数据,进行复杂的统计分析,从中获取信息,因此也称为信息型处理,主要由中高级管理人员完成。

操作型数据处理:二、联机事务处理系统(OLTP)的主要功能:对事务进行处理,快速地响应客户的服务要求,使企业的业务处理自动化。

其主要性能指标是事务处理效率和事务吞吐率,每个事务处理的时间越快越好,单位时间能完成的事务数量越多越好。

三、dbms:数据库管理系统。

Dwms:数据仓库管理系统。

OLAP:联机分析处理。

Oltp基于db,olap基于dw。

四、事务:用户定义的一个数据库操作序列,这些操作要么全做、要么全不做,是一个不可分割的工作单元。

在关系数据库中,一个事务可以是一条SQL语句、一组SQL语句或整个程序。

五、事务的ACID性质:1、原子性:事务是一个逻辑工作单元,是一个整体,是不可分割的。

2、一致性:事务在完成时,必须使所有的数据都保持一致状态。

3、隔离性:事务并发执行也能保持原子性和一致性,则是事务的隔离性。

4、持久性:一旦事务成功完成,该事务对数据库所施加的所有更新都是永久的。

六、决策支持系统(DSS):分析型数据处理的典型。

决策支持系统需要具备的基本功能是建立各种数学模型,对数据进行统计分析,得出有用的信息作为决策的依据和基础。

DSS对数据集成的迫切需要是数据仓库技术出现的最重要动因。

分析型数据处理需要访问大量的当前和历史数据,进行复杂的计算,即需要本部门的数据也会需要其他部门的数据,甚至是竞争对手的数据。

七:操作型数据和分析型数据的区别:操作型数据分析型数据细节的综合的,或提炼的当前数据历史数据可更新(可以update)不更新(不可update,但可insert)操作需求事先可知道操作需求事先不知道完全不同的生命周期生命周期符合SDLC(软件开发生命周期)对性能要求高对性能要求宽松一个时刻操作一单元一个时刻操作一集合事务驱动分析驱动面向业务处理面向分析一次操作数据量大,计算复杂一次操作数据量小,计算简单支持日常操作支持管理需求八、数据分散的原因:1、事务处理应用的分散:OLTP系统一般只需要与本部门业务有关的当前数据,没有包括企业范围内的集成应用。

数据处理与存储

数据处理与存储

数据处理与存储数据在现代社会中扮演着至关重要的角色,无论是企业还是个人,都离不开对数据的处理与存储。

随着科技的不断发展,数据量呈现爆炸性增长,如何高效地处理和存储数据成为摆在我们面前的重要问题。

本文将从数据处理与数据存储两个方面进行探讨,并介绍当前常见的解决方案。

一、数据处理数据处理是指对收集到的原始数据进行清洗、整理、分析和计算等操作的过程。

它是获取有用信息的关键步骤,对于企业来说尤为重要。

合理高效的数据处理能够提升决策质量、优化运营效率,为企业带来巨大的经济效益。

1. 数据清洗数据清洗是指通过去除重复数据、纠正错误数据和填补缺失数据等一系列操作,使得数据达到可用的状态。

数据清洗的目的是保证数据的准确性和一致性,以便进行后续的分析和应用。

2. 数据整理数据整理是指对清洗后的数据进行合并、分类和格式化等处理,以便于后续的分析和利用。

通过数据整理,我们可以更好地理解数据之间的关联和规律,为决策提供有力支持。

3. 数据分析数据分析是指通过运用统计学、数学模型和机器学习等方法,发现数据中的信息和规律。

数据分析能够帮助我们理解数据的内在价值,预测未来的趋势,优化业务流程等。

在进行数据分析时,选择合适的算法和工具非常关键。

4. 数据计算数据计算是指对数据进行运算、聚合和计算等操作,以获得深入的洞察。

数据计算可以帮助我们揭示数据背后的潜在意义,发现问题并提供解决方案。

二、数据存储数据存储是指将处理后的数据进行保存和管理的过程。

为了满足爆炸性增长的数据需求,我们需要高效可靠的存储方案,以保证数据的安全和可用性。

1. 传统存储方式传统的数据存储方式主要包括硬盘存储和磁带存储。

硬盘存储是最常见的一种方式,无论是个人电脑还是服务器都广泛采用。

磁带存储则适用于大规模数据的长期备份和存档。

2. 云存储随着云计算的兴起,云存储逐渐成为一种新的数据存储方式。

云存储提供了高度可扩展和弹性的存储服务,用户可以根据实际需求灵活调整存储容量,并能够实现跨地域备份和容灾恢复。

数据仓库第二章——OLAP联机分析处理

数据仓库第二章——OLAP联机分析处理
(1)快速性:用户对OLAP的快速反应能力有很高的要求。 (2)可分析性:OLAP系统应能处理任何逻辑分析和统计分
析。
(3)多维性:系统必须提供对数据分析的多维视图和分析。 (4)信息性:OLAP系统应能及时获得信息,并且管理大容量
的信息。
4.1.2 OLAP准则
1993年,E.F.Codd提出OLAP的12条准则,其主 要的准则有:
6
4.1.1 OLAP的定义
1. OLAP理事会给出的定义 联机分析处理(OLAP)是一种软件技术,它
使分析人员能够迅速、一致、交互地从各个 方面观察信息,以达到深入理解数据的目的。 这些信息是从原始数据转换过来的,按照用 户的理解,它反映了企业真实的方方面面。
7
2. OLAP的简单定义
联机分析处理是共享多维信息的快速分析。 它体现了四个特征:
同时计算一些可能同时的聚集,避免不必要 的单元再次访问。
总结:
由于分块技术设计“重叠”某些聚集计算, 称该技术为多路数组聚集(Multiway array aggregation)
它同时聚集——即同时对多个维计算聚集。
44
4.2.4 MOLAP与ROLAP的比较
1.数据存取速度 2.数据存储的容量 3.多维计算的能力 4.维度变化的适应性 5.数据变化的适应性 6.软硬件平台的适应性 7.元数据管理
图4.4多维类型结构中的空间数据点
4.3.3多维数据的分析视图
在平面的屏幕上显示多维数据,是利用行、 列和页面三个显示组来表示的。例如,对上 例的四维MTS实例,在页面上选定商店维度 中“商店3”,在行中选定时间维的“1月、2 月、3月”共3个成员,在列中选定产品维中 的“上衣、裤、帽子”三个成员,以及指标 维中的“固定成本、直接销售”二个成员。 该四维数据的显示如图4.6所示。

数据仓库与数据挖掘 课后答案 (陈志泊 著) 清华大学出版社

数据仓库与数据挖掘  课后答案 (陈志泊 著) 清华大学出版社

第1章数据仓库的概念与体系结构1.数据仓库就是一个面向主题的、集成的、相对稳定的、反映历史变化的数据集合。

2.元数据是描述数据仓库内数据的结构和建立方法的数据,它为访问数据仓库提供了一个信息目录,根据元数据用途的不同可将数据仓库的元数据分为技术元数据和业务元数据两类。

3.数据处理通常分成两大类:联机事务处理OLTP和联机分析处理OLAP。

4.多维分析是指对以“维”形式组织起来的数据(多维数据集)采取切片(Slice)、切块(dice)、钻取(Drill-down 和Roll-up 等)和旋转(pivot)等各种分析动作,以求剖析数据,使用户能从不同角度、不同侧面观察数据仓库中的数据,从而深入理解多维数据集中的信息。

5. ROLAP是基于关系数据库的OLAP实现,而MOLAP是基于多维数据结构组织的OLAP实现。

6.数据仓库按照其开发过程,其关键环节包括数据抽取、数据存储与管理和数据表现等。

7.数据仓库系统的体系结构根据应用需求的不同,可以分为以下4种类型:两层架构、独立型数据集市、依赖型数据集市和操作型数据存储、逻辑型数据集市和实时数据仓库。

8.操作型数据存储实际上是一个集成的、面向主题的、可更新的、当前值的(但是可“挥发”的)、企业级的、详细的数据库,也叫运营数据存储。

9.“实时数据仓库”意味着源数据系统、决策支持服务和数据仓库之间以一个接近实时的速度交换数据和业务规则。

10.从应用的角度看,数据仓库的发展演变可以归纳为5个阶段:以报表为主、以分析为主、以预测模型为主、以营运导向为主、以实时数据仓库和自动决策为主。

11.什么是数据仓库?数据仓库的特点主要有哪些?答:数据仓库就是一个面向主题的(Subject Oriented)、集成的(Integrate)、相对稳定的(Non-Volatile)、反映历史变化(Time Variant)的数据集合,通常用于辅助决策支持。

数据仓库的特点包含以下几个方面:(1)面向主题。

  1. 1、下载文档前请自行甄别文档内容的完整性,平台不提供额外的编辑、内容补充、找答案等附加服务。
  2. 2、"仅部分预览"的文档,不可在线预览部分如存在完整性等问题,可反馈申请退款(可完整预览的文档不适用该条件!)。
  3. 3、如文档侵犯您的权益,请联系客服反馈,我们会尽快为您处理(人工客服工作时间:9:00-18:30)。
数据仓库与数据挖掘
请使用SQL语句练习 选择、连接、聚集等 操作。 请使用SQL语句练习 针对时间的各个项的 提取操作。
22
2016/6/17
数据的ETL过程描述
抽取/抓取 清洗 集结地 (Staging Area) 拒绝数据的信息 转换 加载与索引
操作型 系统
有关拒绝数据的信息
EDW 或 ODS
2016/6/17 C003
商品名称 A方便面 B方便面 A方便面 B方便面
现有库存量 100 200 85 210
更新日期 2008-7-25 2008-7-25 2008-7-26 2008-7-26 2008-7-26
11
C方便面 数据仓库与数据挖掘300
2.2 数据仓库的数据特征

数据仓库中的元数据
2016/6/17
数据仓库与数据挖掘
2
2.1 数据仓库的三层数据结构
OLAP应用
导出数据 (如:数据集市) 数据集市 元数据
调和数据 (EDW & ODS)
EDW元数据
企业数据模型
OLAP数据库
操作型数据 (如:业务处理系统)
操作型元数据
2016/6/17
数据仓库与数据挖掘
OLTP应用
3
2.1 数据仓库的三层数据结构
10
数据仓库与数据挖掘
2.2 数据仓库的数据特征

当前数据与周期数据 周期数据则相反,一旦保存就不再改变和删除 .
商品编号 A001 B002 商品名称 A方便面 B方便面 现有库存量 100 200 更新日期 2008-7-25 2008-7-25
商品编号 A001 B002 A001 B002

在传统的数据库中,元数据是对数据库中各个对象的描述,数据库中 的数据字典就是这么一种元数据. 比如在管理、维护 SQL Server 或者是开发数据库应用程序的时 候,我们经常要获取一些涉及到数据库架构的信息: 某个数据库中的表和视图的个数以及名称; 某个表或者视图中列的个数以及每一列的名称、数据类型、长度 、精度、描述等; 某个表上定义的约束; 某个表上定义的索引以及主键/外键的信息。
数据仓库与数据挖掘 21
2016/6/17
数据的ETL过程描述
抽取/抓取 清洗 集结地 (Staging Area) 拒绝数据的信息 转换 加载与索引
操作型 系统
有关拒绝数据的信息
EDW 或 ODS

数据转换


记录级转换功能: 选择 连接 聚集 规范化 字段级转换功能: 单字段:算法 表查找 多字段: 映射
商品编号 A001 B002 商品名称 A方便面 B方便面 现有库存量 100 200 更新日期 2008-7-25 2008-7-25
商品编号 A001 B002 C003
2016/6/17
商品名称 A方便面 B方便面 C方便面
现有库存量 85 210 300
更新日期 2008-7-26 2008-7-26 2008-的信息
EDW 或 ODS

数据抽取

从源数据库中获取相关数据用于填充数据仓库的过程; 静态抽取以及增量抽取的区别; 请使用SQL语句练习 数据的静态抽取以及 增量抽取。 Select … Into的用法
数据仓库与数据挖掘 18


2016/6/17
数据的ETL过程描述

数据抽取
2016/6/17
2.2 数据仓库的数据特征

数据仓库中的元数据 在数据仓库中,元数据定义了数据仓库中的对象 , 例如表,列,查询,业务规则以及数据仓库内部的 数据转移信息等.

管理员:数据仓库中包含的所有内容和过程的完 整知识库及其文档; 最终用户:数据仓库的信息地图;
数据仓库与数据挖掘 14


什么是ODS?
ODS全称为Operational Data Store,即操作型数 据存储,是“面向主题的、集成的、可变的、反映 当前数据值的和详细的数据的集合,用来满足企业 综合的、集成的以及操作型的处理需求” 。 ODS是数据仓库体系结构中的一个可选部分,ODS 具备数据仓库的部分特征和OLTP系统的部分特征。

数据仓库与数据挖掘
2016/6/17
5
2.2 数据仓库的数据特征

状态数据与事件数据

描述对象的状态即为状态数据;

描述对象的发生的事件即为事件数据; (前)状态数据事件数据(后)状态数据
数据仓库与数据挖掘 9

2016/6/17
2.2 数据仓库的数据特征

当前数据与周期数据

当前数据仅保留当前的最新数据;
16
数据的ETL过程描述
抽取/抓取 清洗 集结地 (Staging Area) 拒绝数据的信息 转换
加载与索引
操作型 系统
有关拒绝数据的信息
EDW 或 ODS
2016/6/17
数据仓库与数据挖掘
17
数据的ETL过程描述
抽取/抓取 清洗 集结地 (Staging Area) 拒绝数据的信息 转换 加载与索引

系统函数 COLUMNPROPERTY 返回有关列或过程参数的信息,如是否允许空值,是否为计 算列等。 COL_LENGTH 返回指定数据库的指定属性值,如是否处于只读模式等。 DATABASEPROPERTYEX 返回指定数据库的指定选项或属性的当前设置,如数 据库的状态、恢复模型等。 数据仓库与数据挖掘 13
数据仓库与数据挖掘 15


2016/6/17
2.3 数据仓库的数据ETL过程

数据ETL

是用来实现异构数据源的数据集成,即完成数 据的抽取( Extract )、转换( Transform )、 装载(Load )等数据调和工作 .
ETL的过程就是调和数据的过程。

2016/6/17
数据仓库与数据挖掘

数据加载

把数据加载到目标数据仓库中,并且创建所需要的索引. 刷新方式: 定期对目标数据进行批量重写; 更新方式: 将源数据中的改变数据写进数据仓库;
数据仓库与数据挖掘 23

2016/6/17
数据ETL过程的实施要点

ETL过程是一个数据流动的过程,中 间的“T”(转换)是关键 ;
ETL工具的选择非常重要,运用合适 的工具会事半功倍 ; 如何保证数据质量?数据质量在一定 程度上决定了数据仓库的价值 。
数据仓库与数据挖掘 20
2016/6/17
数据的ETL过程描述
抽取/抓取 清洗 集结地 (Staging Area) 拒绝数据的信息 转换 加载与索引
操作型 系统
有关拒绝数据的信息
EDW 或 ODS

数据转换


将数据从源数据库系统格式转换到数据仓库的数据格式 ; 数据转换有可能只是简单的数据格式变化 , 也有可能是高度 复杂的数据组合变化; 数据转换通常和数据清洗功能是混合在一起的 . 数据转换的目的是把源系统中的数据格式转换成目标系统的 数据格式。
2016/6/17
数据仓库与数据挖掘
4
2.1 数据仓库的三层数据结构


ODS的出现 系统应用集成中一般对各系统中数据分为两类:

操作型数据,有细节化,分散化的特点; 决策型数据,有综合化,集成化的特点。

数据仓库概念的提出也把数据处理划分为了操作 型处理和分析型处理两种不同类型,从而建立起了 DB-DW的两层体系结构。
数据仓库与数据挖掘
第2章 数据仓库 的数据存储与处理
2016/6/17
1
数据仓库的数据存储与处理是数据仓库系统实 施的三个关键环节之一,因此本章主要探讨数 据的存储结构设计和数据处理技术的研究。
遥想当年我基本上是暑假2个月的时间在公安 局进行数据的ETL处理,悲催的是还仅仅针对 一张表而已,说起来都是泪啊。。。。。。

增量抽取的集中实现方法:
2016/6/17
数据仓库与数据挖掘
19
数据的ETL过程描述
抽取/抓取 清洗 集结地 (Staging Area) 拒绝数据的信息 转换 加载与索引
操作型 系统
有关拒绝数据的信息
EDW 或 ODS

数据清洗




数据清洗的目的是为了纠正源数据库中数据值的错误 可能存在的数据问题列举如下: 1.错误拼写的名字和地址如小王 小 王 2.不可能的或错误的出生日期如2023-12-9 3.不匹配的地址和电话区号如温州 0576 4.缺失的数据、重复的数据、不一致的数据等等。

2016/6/17
2.2 数据仓库的数据特征

数据仓库中的元数据

业务元数据,从业务角度描述了数据仓库中的数据,它 提供了介于使用者和实际系统之间的语义层,使得不懂计 算机技术的业务人员也能够“读懂”数据仓库中的数据; 技术元数据,是存储关于数据仓库系统技术细节的数据, 是用于开发和管理数据仓库使用的数据。 业务用户和技术用户借助元数据管理层提供的功能和应用, 能更有效的理解和使用数据仓库数据。

2016/6/17 数据仓库与数据挖掘 24
数据ETL论文
ETL实验内容---SQL Server 2005
OLTP各表的解释
OLTP各表的解释
OLTP各表的解释
OLTP各表的解释
第三次课程主要完成SSIS实验




2016/6/17
数据仓库与数据挖掘
12
2.2 数据仓库的数据特征


数据仓库中的元数据
系统存储过程
相关文档
最新文档