第三章 数据仓库的数据存储与处理
公开数据仓库管理制度范本

第一章总则第一条为规范公开数据仓库的管理,确保数据安全、准确、高效地服务于社会公众和政府部门,根据《中华人民共和国数据安全法》、《中华人民共和国个人信息保护法》等相关法律法规,结合本单位的实际情况,制定本制度。
第二条本制度适用于本单位公开数据仓库的建立、运行、维护及使用等各个环节。
第三条本制度遵循以下原则:1. 安全性原则:确保数据仓库的安全,防止数据泄露、篡改和破坏。
2. 准确性原则:保证数据仓库中数据的准确性和可靠性。
3. 完整性原则:确保数据仓库的完整性和连续性。
4. 可用性原则:保障数据仓库的数据能够被有效利用。
5. 法规遵从性原则:遵守国家相关法律法规,确保数据仓库管理合法合规。
第二章数据仓库的建立第四条数据仓库的建立应当经过以下程序:1. 制定数据仓库建设方案,明确数据仓库的目标、功能、规模、结构等。
2. 进行数据资源调查,确定数据来源、类型、质量等。
3. 设计数据仓库架构,包括数据模型、存储结构、访问控制等。
4. 选择合适的技术和工具,进行数据仓库的搭建。
第三章数据入库与更新第五条数据入库应当遵循以下规定:1. 数据来源应当合法,确保数据的真实性、完整性和准确性。
2. 数据入库前应当进行质量检查,不合格的数据不得入库。
3. 数据入库应当有记录,包括数据来源、入库时间、操作人员等信息。
第六条数据更新应当及时、准确,确保数据仓库的实时性。
数据更新包括以下方式:1. 定期更新:根据数据变化周期,定期对数据进行更新。
2. 实时更新:对于关键数据,实现实时更新。
第四章数据使用与共享第七条数据使用应当遵循以下规定:1. 数据使用应当符合国家法律法规和本单位的规章制度。
2. 数据使用应当尊重数据提供者的权益,不得泄露、篡改数据。
3. 数据使用应当确保数据安全,防止数据泄露和非法使用。
第八条数据共享应当遵循以下原则:1. 遵守国家有关数据共享的规定。
2. 保障数据共享的合法性、安全性。
3. 数据共享应当明确共享范围、共享方式、共享权限等。
操作数据存储ODS和数据集市详解ppt课件

在这个阶段,将把第一步生成的每个ER图中的实体进行分解,分解 的结果仍以ER表示为佳。
13
3 建立ODS 3.1 ODS数据模型设计
数据延迟时间越短,ODS建设难度越高。 其中I 类ODS的建设难度最高,建设成本也是最高的。而且由于I 类
ODS的实时性,对于技术的要求与其它类型ODS也有所不同,一般 来讲需要用到EAI技术,但随着当前企业对数据仓库的实时性要求越 来越高,相信I 类ODS会变得越来越重要。 通常在企业应用架构中,ODS是一个可选件,但一旦需要用到ODS 的功能,那么ODS本身就将变得极为重要。 目前应用的比较多的是IV 类ODS,因为一旦将决策分析结果加载到
定义主题
主题名称和含义,说明该主题主要包含哪些数据,用 于什么分析;
主题所包含的维和度量;
主题的事实表,以及事实表的数据。
定义粒度
主题中事实表的数据粒度说明,这种粒度可以通过对 维的层次限制加以说明,也可以通过对事实表数据的 业务细节程度进行说明。
定义存储期限
主题中事实表中的数据存储周期。
7
ODS中,重要决策信息的高性能联机支持将成为可能。
2 DB-ODS-DW体系结构 2.1 简单结构
DB 应用
DB DB 操作型环境
ODS
特点:1)ODS的记录在DB中; 2)DW的记录在ODS中。
DW 分析型环境
8
2 DB-ODS-DW体系结构 2.2 复杂结构
ODS
Relational
Appl. Package
数据仓库技术在数据存储与数据处理中的应用

图的 同义语 , 这些 多维视 图是 由多维数据库技 术所支持的 , 他们 为数据 仓库应 用中所需的计 算和分析提供了技 术基础。 在实 际应用 中 , L P常 常包 括对 数据 的 OA 相互查询 ,这项活 动发 生在通 过多种途径的一 系列分析之后 , 底层 细节的进一步挖掘。 如对 23 O A . L P的结构 OA L P结构包括逻辑构件和物理构件 。
231 辑结 构 _.逻
OA L P的功能结 构 由三个 服务 构 件组成 : 数据存储服务 、 L P服务 、 OA 用户描述服 务。在 这种情况下 ,功能结构是 三层的客户机 / 务 服 器结构。 23 物 理结 构 .. 2 物理结 构包括基 于数据存储技术 的两种方 式: 多维数据存储 和关 系数 据存储 。 多维数 据存储主要有 两种选择 ,即多维数 据存储 于工作站客户端或是 0 A L P服务 器上 。 在第一种情况下 , 多维数 据存储 于客户 端 , 它实施胖客户端 , 用户可 以按范 围来分析 , 这是 种 漫游选择 , 只在数据加载至工作站时 , 网络 才成为瓶颈 。它可能存在 的副作用是操作 的安 全性 和数据 的安全性 。 此选 择具有交通形式 , 它 将多维数据存储于数据站场一级 ,以便为每一 个工作战配置本地存储和访问所选的多维数据 的子集 。 第二种情况 ,多维数 据存储与 O A 服务 LP 组合在一起 。 工作站并不那么胖 了, 它抽取源于 数据仓库的数据 ,然后将其转换为多维数据结 构, 存储于数据站场服务器。 3数据仓库与 0 AP L 虽然数据仓库和联机 分析 处理 ( P 这 0 ) 两个 术语有 时可互换 使用 ,但它们却适 用于通 常称 为决策支持系统或业务智能系统的不同组 件。这些类 型的系统的组件包括一些数 据库和
大数据的存贮和处理课件

利用机器学习技术对大数据进行分析和发掘,发现数据背后的规律和趋势。
智能化决策
基于大数据和人工智能的决策支持系统,提高决策的科学性和准确性,推动智 能化的发展。
THANK YOU
感谢各位观看
可扩大性。
散布式存储系统通常采用可扩大的架构 ,可以根据数据量和业务需求进行灵活 的扩大,同时支持多种数据类型和数据
访问模式。
散布式存储系统具有高可用性和高可靠 性,可以保证数据的持久性和一致性,
同时支持数据备份和恢复功能。
NoSQL数据库
NoSQL数据库是一种非关系型数据库,它采用键值对、文档、列族或图形等数据结构来存储数据,并 支持灵活的数据模型和水平可扩大性。
数据仓库适用于对大量数据进行查询和分析的 应用场景,如商业智能、决策支持和数据分析 等。
数据仓库具有高性能、高可用性和可扩大性等 特点,可以支持复杂的查询和报表生成,同时 保证数据的安全性和完整性。
数据湖
数据湖是一种集中式的数据存储和处理平台,它可以 存储和管理大量结构化和非结构化数据,包括音频、
大数据的存贮和处理课件
目录
• 大数据概述 • 大数据存储技术 • 大数据处理技术 • 大数据安全与隐私保护 • 大数据挑战与未来发展
01
大数据概述
大数据的定义与特点
定义:大数据是指数据量巨大、类型多样、处 理复杂的数据集合。
01
数据量大:数据量通常在TB级别甚至PB 级别,需要大规模存储和处理。
Streaming 和 MLlib 等组件,分别用于结 构化数据处理、实时数据处理和机器学习。
Flink
一个流处理和批处理的开源框架,具有高性能和可扩大性。
Flink 提供了一个统一的 API,用于处理无界和有界数据流。它支持高吞吐、低延迟的流处理,以及大 规模批处理。Flink 的核心是一个流执行引擎,它能够高效地处理数据流并支持状态计算。此外, Flink 还提供了丰富的窗口函数和连接器,以支持各种数据处理场景。
数据仓库数据安全管理制度

第一章总则第一条为确保公司数据仓库数据的安全、完整和可用,防止数据泄露、篡改、丢失等风险,特制定本制度。
第二条本制度适用于公司所有涉及数据仓库的数据收集、存储、使用、处理、传输、销毁等活动。
第三条本制度遵循以下原则:1. 隐私保护原则:对个人隐私数据进行严格保护,未经授权不得泄露。
2. 完整性原则:确保数据仓库数据的准确性和一致性。
3. 可用性原则:确保数据仓库数据在需要时能够及时、准确地提供。
4. 安全性原则:采取有效措施,防止数据泄露、篡改、丢失等风险。
第二章数据分类与分级第四条公司数据仓库数据分为以下几类:1. 公开数据:指对内对外公开的数据,如公司年报、产品介绍等。
2. 内部数据:指公司内部使用的数据,如员工信息、财务数据等。
3. 高级内部数据:指涉及公司核心业务、技术秘密的数据。
第五条公司数据仓库数据分级如下:1. 一级数据:涉及公司核心业务、技术秘密,对数据安全要求极高的数据。
2. 二级数据:涉及公司内部使用的数据,对数据安全要求较高的数据。
3. 三级数据:涉及公司公开数据,对数据安全要求较低的数据。
第三章数据安全责任第六条公司董事会对数据安全负有最终责任。
第七条公司高层管理人员对数据安全方针和政策负责,并由数据安全团队负责执行与管理数据安全。
第八条数据安全团队工作职责:1. 制定与颁布数据安全政策和规程。
2. 定期开展数据安全教育和训练。
3. 监测和识别数据安全风险。
4. 负责数据安全事件的调查和处理。
第九条所有公司员工应遵守数据安全制度,将数据安全作为工作的重中之重。
第四章数据收集与存储第十条数据收集应遵循以下原则:1. 合法性原则:收集数据应合法合规,不得侵犯他人合法权益。
2. 诚信原则:收集数据应诚实守信,不得虚构、篡改数据。
第十一条数据存储应遵循以下要求:1. 选用安全可靠的数据存储设备。
2. 对数据进行加密存储,防止数据泄露。
3. 定期对数据进行备份,确保数据安全。
第五章数据使用与处理第十二条数据使用应遵循以下原则:1. 依法使用原则:使用数据应符合法律法规的要求。
数据仓库与数据分析-第一-至第三章

数据仓库与数据分析第一、二、三章一、数据处理的类型:1、操作型处理:操作型处理主要完成数据的收集、整理、存储、查询和增、删改操作等,主要由一般工作人员和基层管理人员完成。
2、分析型处理:分析型处理是对数据的再加工,往往要访问大量的历史数据,进行复杂的统计分析,从中获取信息,因此也称为信息型处理,主要由中高级管理人员完成。
操作型数据处理:二、联机事务处理系统(OLTP)的主要功能:对事务进行处理,快速地响应客户的服务要求,使企业的业务处理自动化。
其主要性能指标是事务处理效率和事务吞吐率,每个事务处理的时间越快越好,单位时间能完成的事务数量越多越好。
三、dbms:数据库管理系统。
Dwms:数据仓库管理系统。
OLAP:联机分析处理。
Oltp基于db,olap基于dw。
四、事务:用户定义的一个数据库操作序列,这些操作要么全做、要么全不做,是一个不可分割的工作单元。
在关系数据库中,一个事务可以是一条SQL语句、一组SQL语句或整个程序。
五、事务的ACID性质:1、原子性:事务是一个逻辑工作单元,是一个整体,是不可分割的。
2、一致性:事务在完成时,必须使所有的数据都保持一致状态。
3、隔离性:事务并发执行也能保持原子性和一致性,则是事务的隔离性。
4、持久性:一旦事务成功完成,该事务对数据库所施加的所有更新都是永久的。
六、决策支持系统(DSS):分析型数据处理的典型。
决策支持系统需要具备的基本功能是建立各种数学模型,对数据进行统计分析,得出有用的信息作为决策的依据和基础。
DSS对数据集成的迫切需要是数据仓库技术出现的最重要动因。
分析型数据处理需要访问大量的当前和历史数据,进行复杂的计算,即需要本部门的数据也会需要其他部门的数据,甚至是竞争对手的数据。
七:操作型数据和分析型数据的区别:操作型数据分析型数据细节的综合的,或提炼的当前数据历史数据可更新(可以update)不更新(不可update,但可insert)操作需求事先可知道操作需求事先不知道完全不同的生命周期生命周期符合SDLC(软件开发生命周期)对性能要求高对性能要求宽松一个时刻操作一单元一个时刻操作一集合事务驱动分析驱动面向业务处理面向分析一次操作数据量大,计算复杂一次操作数据量小,计算简单支持日常操作支持管理需求八、数据分散的原因:1、事务处理应用的分散:OLTP系统一般只需要与本部门业务有关的当前数据,没有包括企业范围内的集成应用。
教育行业教育大数据解决方案

教育行业教育大数据解决方案第一章:概述 (3)1.1 教育大数据的定义与意义 (3)1.2 教育大数据的发展现状 (3)1.3 教育大数据解决方案的目标与原则 (4)第二章:数据采集与整合 (4)2.1 数据采集技术 (4)2.1.1 网络爬虫技术 (4)2.1.2 数据接口技术 (4)2.1.3 物联网技术 (4)2.1.4 移动应用技术 (5)2.2 数据整合方法 (5)2.2.1 数据清洗 (5)2.2.2 数据映射 (5)2.2.3 数据关联 (5)2.2.4 数据仓库 (5)2.3 数据质量控制 (5)2.3.1 数据校验 (5)2.3.2 数据监控 (5)2.3.3 数据治理 (6)第三章:数据存储与管理 (6)3.1 数据存储技术 (6)3.1.1 关系型数据库 (6)3.1.2 非关系型数据库 (6)3.1.3 分布式存储技术 (6)3.2 数据管理策略 (6)3.2.1 数据标准化 (6)3.2.2 数据清洗 (7)3.2.3 数据整合 (7)3.2.4 数据监控 (7)3.3 数据安全与隐私保护 (7)3.3.1 数据加密 (7)3.3.2 访问控制 (7)3.3.3 数据备份与恢复 (7)3.3.4 隐私保护技术 (7)第四章:数据分析与挖掘 (7)4.1 数据分析方法 (7)4.2 数据挖掘技术 (8)4.3 教育应用案例 (8)第五章:个性化教学与评估 (9)5.1 个性化教学策略 (9)5.2 学习评估方法 (9)5.3 教学效果分析 (10)第六章:教育管理决策支持 (10)6.1 教育决策模型 (10)6.2 数据可视化技术 (10)6.3 决策效果评估 (11)第七章:教育资源共享与优化 (11)7.1 资源共享平台建设 (11)7.1.1 平台架构设计 (11)7.1.2 资源分类与标准制定 (12)7.1.3 资源共建共享机制 (12)7.1.4 平台运营与管理 (12)7.2 资源优化配置策略 (12)7.2.1 需求导向策略 (12)7.2.2 差异化配置策略 (12)7.2.3 协同发展策略 (12)7.2.4 动态调整策略 (12)7.3 教育公平与均衡发展 (13)7.3.1 提高教育资源覆盖面 (13)7.3.2 促进教育资源均衡发展 (13)7.3.3 关注弱势群体教育需求 (13)7.3.4 提升教育质量 (13)第八章:教师专业发展 (13)8.1 教师培训与成长 (13)8.2 教师评价体系 (13)8.3 教师激励与激励制度 (14)第九章:学生发展指导 (14)9.1 学生个性化发展 (14)9.1.1 个性化发展概述 (14)9.1.2 个性化发展策略 (15)9.2 学生心理健康与成长 (15)9.2.1 心理健康概述 (15)9.2.2 心理健康与成长策略 (15)9.3 学生综合素质评价 (15)9.3.1 综合素质评价概述 (15)9.3.2 综合素质评价策略 (15)第十章:教育大数据应用案例与展望 (16)10.1 国内外教育大数据应用案例 (16)10.1.1 国内教育大数据应用案例 (16)10.1.2 国外教育大数据应用案例 (16)10.2 教育大数据发展趋势 (16)10.3 面向未来的教育大数据解决方案 (17)第一章:概述1.1 教育大数据的定义与意义教育大数据是指在教育领域,通过对海量教育信息资源的收集、整合、分析与挖掘,形成具有教育决策支持、教育管理与教育服务功能的数据集合。
公开数据仓库管理制度

第一章总则第一条为规范公开数据仓库的管理,确保数据质量、安全与合规,提高数据利用率,根据国家有关法律法规和行业标准,结合本地区实际情况,特制定本制度。
第二条本制度适用于本地区所有公开数据仓库的建设、维护、使用和管理。
第三条公开数据仓库应遵循以下原则:1. 合法性:数据收集、存储和使用必须符合国家法律法规。
2. 安全性:确保数据安全,防止数据泄露、篡改和破坏。
3. 完整性:保证数据真实、准确、完整。
4. 可用性:确保数据易于获取、查询和使用。
5. 可维护性:便于数据仓库的更新、升级和维护。
第二章数据收集与存储第四条数据收集:1. 收集数据应遵循合法性、必要性、最小化原则。
2. 收集数据应明确数据来源、收集目的、数据范围和数据处理方式。
3. 收集数据应经数据提供方同意,并签订数据共享协议。
第五条数据存储:1. 数据存储应选择符合国家标准的存储设备和技术。
2. 数据存储应保证数据安全,防止数据泄露、篡改和破坏。
3. 数据存储应按照数据类型、数据来源、数据时效等属性进行分类管理。
第三章数据治理与维护第六条数据治理:1. 建立数据治理组织,明确各部门职责,制定数据治理策略。
2. 制定数据质量标准,对数据进行定期检查和评估。
3. 对数据进行清洗、转换、整合,确保数据质量。
第七条数据维护:1. 定期检查数据仓库运行状态,确保系统稳定、可靠。
2. 及时更新数据,确保数据时效性。
3. 定期备份数据,防止数据丢失。
第四章数据开放与共享第八条数据开放:1. 对符合开放条件的数据,按照国家规定进行公开。
2. 公开数据应确保数据真实、准确、完整。
3. 公开数据应便于用户查询、下载和使用。
第九条数据共享:1. 建立数据共享机制,明确共享范围、共享方式和共享责任。
2. 数据共享应遵循合法性、必要性、最小化原则。
3. 数据共享应签订数据共享协议,明确双方权利和义务。
第五章安全与保密第十条安全保障:1. 建立数据安全管理制度,明确数据安全责任。
- 1、下载文档前请自行甄别文档内容的完整性,平台不提供额外的编辑、内容补充、找答案等附加服务。
- 2、"仅部分预览"的文档,不可在线预览部分如存在完整性等问题,可反馈申请退款(可完整预览的文档不适用该条件!)。
- 3、如文档侵犯您的权益,请联系客服反馈,我们会尽快为您处理(人工客服工作时间:9:00-18:30)。
系 统 分 析 与 设 计
第三章
2012-3-12
3.3 数据模型
目前,对数据仓库模型的讨论大多集中在逻辑模型, 目前,对数据仓库模型的讨论大多集中在逻辑模型,其中最常 用的是多维模型。 用的是多维模型。
维
人们观察数据的特定角度。例如, 人们观察数据的特定角度。例如,企业常常关心不同销售数据 随时间的变化情况,所以时间就是一个维; 随时间的变化情况,所以时间就是一个维;
第三章
加载管理器
• 功能 支持数据抽取与加载 • 实现途径 1)外购的软件工具 (1)外购的软件工具 (2)针对特殊要求而编写程序 针对特殊要求而编写程序、 (2)针对特殊要求而编写程序、存储过程以及脚本文 件
系 统 分 析 与 设 计
第三章
2012-3-12
加载管理器
系 统 分 析 与 设 计
系 统 分 析 与 设 计
branch
branch_key branch_name branch_type
location
location_key street city province_or_street country
location_key units_sold dollars_sold avg_sales Measures
系 统 分 析 与 设 计
概念模型 逻辑模型 物理模型
2012-3-12
第三章
3.3 数据模型
• 概念模型 客观世界到计算机系统的一个中间层次, 客观世界到计算机系统的一个中间层次,它最常用 的表示方法是E- 法 实体-关系)。 的表示方法是 -R法(实体-关系)。 目前,数据仓库一般是建立在关系型数据库的基础 目前, 之上, 之上,所以其概念模型与一般关系型数据库采用的概念 模型相一致。 模型相一致。
系 统 分 析 与 设 计
第三章
2012-3-12
系 统 分 析 与 设 计
左图是一个低粒度级,每个活动(在这里是一次电话) 左图是一个低粒度级,每个活动(在这里是一次电话)被详细 记录下来,数据的格式如图所示。到月底每个顾客平均有200条 记录下来, 数据的格式如图所示。 到月底每个顾客平均有200条 200 记录(全月中每个电话都记录一次) 因而总共需要40000个字节; 40000个字节 记录(全月中每个电话都记录一次),因而总共需要40000个字节; 右图的边是一个高粒度级。数据代表一位顾客一个月的综合 右图的边是一个高粒度级。 信息,每位顾客一个月只有一个记录,这样的记录大约只需200 信息,每位顾客一个月只有一个记录,这样的记录大约只需200 个字节。 个字节。
系 统 分 析 与 设 计
第三章
2012-3-12
3.2 数据粒度
当提高粒度级别时, 当提高粒度级别时,数据所能回答查询的能力会 随之降低。换言之,在一个很低的粒度级别上, 随之降低。换言之,在一个很低的粒度级别上,几乎 可以回答任何问题,但在高粒度级别上, 可以回答任何问题,但在高粒度级别上,数据所能处 理的问题的数量是有限的。 理的问题的数量是有限的。
系 统 分 析 与 设 计
第三章
2012-3-12
3.3 数据模型
数据模型是对现实世界的一种抽象, 数据模型是对现实世界的一种抽象,根据抽象程度 的不同,可形成不同抽象层次上的数据模型。 的不同,可形成不同抽象层次上的数据模型。与数据库 的数据模型相类似, 的数据模型相类似,数据仓库的数据模型也分为三个层 次:
系 统 分 析 与 设 计
第三章
2012-3-12
星型结构的实例
time
time_key day day_of_the_week month quarter year
item
Sales Fact Table time_key item_key branch_key
item_key item_name brand type supplier_type
系 统 分 析 与 设 计
• 复杂度
视数据仓库系统而定。 视数据仓库系统而定。
2012-3-12
第三章
查询管理器
ቤተ መጻሕፍቲ ባይዱ
系 统 分 析 与 设 计
第三章
2012-3-12
查询管理器的具体功能
• 将查询引导至正确的表
• 实现客户查询的调度
查询管理器将把查询统计分析的结果存入查询概述 文件,供仓库管理器使用, 文件 , 供仓库管理器使用, 以决定为哪些项目执行数据 集合的工作。 集合的工作。
系 统 分 析 与 设 计
第三章
2012-3-12
仓库管理器
系 统 分 析 与 设 计
第三章
2012-3-12
仓库管理器的具体功能
• • • • • • • • 检验各字段相互之间的关系与一致性 将临时保在存储介质中的数据转换与合并, 将临时保在存储介质中的数据转换与合并,然后加载至数据仓库 对数据仓库数据添加索引、视图、 对数据仓库数据添加索引、视图、数据分区 根据需要进行数据的标准化 根据需要生成新的集合信息 更新已有的集合信息 备份数据仓库(完整或是递增式) 备份数据仓库(完整或是递增式) 备存数据仓库中过时的数据(另存至其它存储介质) 备存数据仓库中过时的数据(另存至其它存储介质)
系 统 分 析 与 设 计
第三章
2012-3-12
3.3 数据模型
• 数据仓库的数据模型 星型结构 雪花型结构 星型雪花型结构 • 数据仓库的数据=事实数据+维度数据 数据仓库的数据=事实数据+ 不论是星型、 不论是星型、雪花型或者是星型雪花型结构都是以 事实表为中心。 事实表为中心。不同点只是在外围维度表相互之间的关 系不同而已。 系不同而已。
• 仓库管理器
执行程序:数据整理与转换程序、 执行程序:数据整理与转换程序、备份与备存程序 功能:转换并管理数据仓库数据、 功能:转换并管理数据仓库数据、备份与备存数据
• 查询管理器
系 统 分 析 与 设 计
执行程序: 执行程序:查询管理程序 功能: 功能:引导并管理数据仓库的查询
2012-3-12
第三章
2012-3-12
加载管理器
建议 用户尽量选用适合的软件工具来协助进行整个加载 管理的工作; 管理的工作; 但是,因为源数据的特性存在很大的差异,数据仓 但是,因为源数据的特性存在很大的差异, 库中加载管理器的功能无法一致, 库中加载管理器的功能无法一致,所以不可能完全使用 外购的软件工具, 外购的软件工具,而必须自行设计针对特殊需要而编写 的程序、存储过程或是脚本文件。 的程序、存储过程或是脚本文件。
系 统 分 析 与 设 计
2012-3-12
第三章
3.3 数据模型
维成员 维的一个取值称为该维的一个成员。如果一个维是多层次的, 维的一个取值称为该维的一个成员。如果一个维是多层次的, 那么该维的成员就是在不同层次取值的组合。例如时间维分为年、 那么该维的成员就是在不同层次取值的组合。例如时间维分为年、 月和天三个层次则分别在其上各取一个值组合起来即得到日期维的 一个成员, 某年某月某日” 一个成员,即“某年某月某日”; 度量 描述了要分析的数值,例如话费、用户数量等; 描述了要分析的数值,例如话费、用户数量等;
2012-3-12
第三章
问题: 上星期某某顾客是否给某某人打了电话 问题:“上星期某某顾客是否给某某人打了电话?” 在低粒度级别上, 完全可以回答这一问题, 在低粒度级别上 , 完全可以回答这一问题 , 虽然 这种回答将花费大量资源去查询大量的记录, 这种回答将花费大量资源去查询大量的记录 , 但是 问题结果是可以确定的。 问题结果是可以确定的。 在高粒度级别上, 则无法明确地回答这个问题。 在高粒度级别上 , 则无法明确地回答这个问题 。 假如在数据仓库中存放的只是所打电话的总数, 假如在数据仓库中存放的只是所打电话的总数 , 那 么就无法确定其中是否有一个电话是打给某人的。 么就无法确定其中是否有一个电话是打给某人的。
维的层次
人们观察数据的某个特定角度还可以存在细节程度不同的多个 描述,这就是维的层次。一个维往往有多个层次, 描述,这就是维的层次。一个维往往有多个层次,比如描述时间维 可以从年份、季度、月份、天等不同层次来描述,那么年份、 时,可以从年份、季度、月份、天等不同层次来描述,那么年份、 季度、月份和天就是时间维的层次; 季度、月份和天就是时间维的层次;
系 统 分 析 与 设 计
第三章
2012-3-12
加载管理器的具体功能
• • • •
系 统 分 析 与 设 计
抽取来自源系统的数据 将抽取的数据快速加载临时保存介质 执行简单的数据转换任务 将转换后数据加载至与数据仓库类似的数据 结构之中
2012-3-12
第三章
仓库管理器
• 功能 执行管理一个数据仓库所需的必要程序 • 实现途径 (1)外购的系统管理工具 (2)针对特殊需要而编写的程序以及脚本文件 • 复杂度 因自动化的程度而异
supplier
supplier_key supplier_type
系 branch 统 branch_key 分 branch_name 析 branch_type 与 设 计
location
location_key street city_key
location_key units_sold dollars_sold avg_sales
系 统 分 析 与 设 计
第三章
2012-3-12
3.2 数据粒度
定义 粒度是指数据仓库的数据单位中保存数据的细化或综合程 度的级别。细化程度越高,粒度级就越小;相反, 度的级别。细化程度越高,粒度级就越小;相反,细化程度越 粒度级就越大。 低,粒度级就越大。 粒度深深地影响存放在数据仓库中数据量的大小, 粒度深深地影响存放在数据仓库中数据量的大小,同时影 响数据仓库所能回答的查询类型。 响数据仓库所能回答的查询类型。 在数据仓库中的数据粒度与查询的详细程度之间要做出权 衡。