第2章 数据仓库的数据存储与处理
第二章 数据采集与预处理 (教案与习题)

2 of 42
2.1大数据采集架构
第二章 数据采集与预处理
2.1.2 常用大数据采集工具
数据采集最传统的方式是企业自己的生产系统产生的数据,除上述生产系统中的数据外, 企业的信息系统还充斥着大量的用户行为数据、日志式的活动数据、事件信息等,越来越 多的企业通过架设日志采集系统来保存这些数据,希望通过这些数据获取其商业或社会价 值。
$sudo apt-get update
Apache Kafka需要Java运行环境,这里使用apt-get命令安装default-jre包,然后安装Java运行环境:
$sudo apt-get install default-jre
通过下面的命令测试一下Java运行环境是否安装成功,并查看Java的版本信息:
2024年学习笔记信息系统项目管理师(第四版)第二章-信息技术发展

第⼆章-信息技术发展1-信息技术及其发展1.1-计算机软硬件、计算机⽹络1.计算机硬件是指计算机系统中有电子、机械和光电元件等组成的各种物理装置的总称。
2.计算机软件是指计算机系统中的程序及文档,程序是计算任务的处理对象和处理规则的描述;文档是为了便于了解程序所需的阐明性资料。
3.硬件和软件相互依存。
4.从网络的作用范围可将网络类别划分为:个人局域网(PAN)、局域网(LAN)、城域网(MAN)、广域网(WAN)、公用网、专用网。
5.广域网协议主要包块:PPP 点对点协议、ISDN 综合业务数字网、xDSL、DDN 数字专线、x.25、FR 帧中继、ATM 异步传输模式。
6.IEEE 802 协议族:IEEE 802 规范定义了网卡如何访问传输介质(如光缆、双绞线、无线等),以及如何在传输介质上传输数据的方法,还定义了传输信息的网络设备之间连接的建立、维护和拆除的途径。
7.802.3(以太网的 CSMA/CD 载波监听多路访问/冲突检测协议)、802.11(无线局域网 WLAN 标准协议)。
8.OSI 七层网络模型从上到下:应用层(事务处理程序、文件传送协议)、表示层(管理数据的解密加密数据转换、格式化和文本压缩)、会话层(负责在网络中的两节点之间建立和维持通信,以及提供交互会话的管理功能)、传输层(提供建立、维护和拆除传送连接的功能)、网络层(网络地址 IP 地址翻译成对应物理地址 MAC 地址,并决定如何将数据从发送方路由到接收方,实现拥塞控制。
网际互联等)、数据链路层(物理地址寻址、数据的成帧、流量控制。
数据的检错重发等)、物理层(物理联网媒介,如电缆连线连接器)。
9.TCP/IP 是 Internet 的核心,共四层有:应用层(FTP 文件传输协议、TFTP 简单文件传输协议、HTTP 超文本传输协议、SMTP 简单邮件传输协议、DHCP 动态主机配置协议、Telnet 远程登录协议、DNS 域名系统、SNMP 简单网络管理协议)、传输层(TCP 传输控制协议、UDP 用户数据报协议)、网络层(IP 协议、ICMP 网络控制报文协议、IGMP 网际组管理协议、ARP 地址解析协议、RARP 反向地址解析协议)、网络接口层(底层协议,传输数据的物理媒介)。
数据仓库技术在数据存储与数据处理中的应用

图的 同义语 , 这些 多维视 图是 由多维数据库技 术所支持的 , 他们 为数据 仓库应 用中所需的计 算和分析提供了技 术基础。 在实 际应用 中 , L P常 常包 括对 数据 的 OA 相互查询 ,这项活 动发 生在通 过多种途径的一 系列分析之后 , 底层 细节的进一步挖掘。 如对 23 O A . L P的结构 OA L P结构包括逻辑构件和物理构件 。
231 辑结 构 _.逻
OA L P的功能结 构 由三个 服务 构 件组成 : 数据存储服务 、 L P服务 、 OA 用户描述服 务。在 这种情况下 ,功能结构是 三层的客户机 / 务 服 器结构。 23 物 理结 构 .. 2 物理结 构包括基 于数据存储技术 的两种方 式: 多维数据存储 和关 系数 据存储 。 多维数 据存储主要有 两种选择 ,即多维数 据存储 于工作站客户端或是 0 A L P服务 器上 。 在第一种情况下 , 多维数 据存储 于客户 端 , 它实施胖客户端 , 用户可 以按范 围来分析 , 这是 种 漫游选择 , 只在数据加载至工作站时 , 网络 才成为瓶颈 。它可能存在 的副作用是操作 的安 全性 和数据 的安全性 。 此选 择具有交通形式 , 它 将多维数据存储于数据站场一级 ,以便为每一 个工作战配置本地存储和访问所选的多维数据 的子集 。 第二种情况 ,多维数 据存储与 O A 服务 LP 组合在一起 。 工作站并不那么胖 了, 它抽取源于 数据仓库的数据 ,然后将其转换为多维数据结 构, 存储于数据站场服务器。 3数据仓库与 0 AP L 虽然数据仓库和联机 分析 处理 ( P 这 0 ) 两个 术语有 时可互换 使用 ,但它们却适 用于通 常称 为决策支持系统或业务智能系统的不同组 件。这些类 型的系统的组件包括一些数 据库和
数据仓库建设管理制度范本

第一章总则第一条为规范数据仓库的建设与管理,确保数据仓库的稳定运行和数据质量,提高数据利用率,根据《中华人民共和国数据安全法》、《中华人民共和国网络安全法》等相关法律法规,结合本单位的实际情况,制定本制度。
第二条本制度适用于本单位数据仓库的建设、运维、管理和使用。
第三条数据仓库的建设和管理应遵循以下原则:(一)统一规划,分步实施;(二)安全可靠,保障数据安全;(三)高效运行,提高数据利用率;(四)持续优化,提升服务质量。
第二章数据仓库建设第四条数据仓库建设应遵循以下流程:(一)需求分析:明确数据仓库建设的目标、功能、性能等要求;(二)方案设计:制定数据仓库建设方案,包括数据源、数据模型、技术架构等;(三)系统开发:根据设计方案进行系统开发,包括数据采集、数据存储、数据清洗、数据转换等;(四)系统测试:对数据仓库系统进行测试,确保系统稳定运行;(五)系统部署:将数据仓库系统部署到生产环境,进行试运行;(六)系统验收:根据验收标准对数据仓库系统进行验收。
第五条数据仓库建设应遵循以下要求:(一)数据源:选择具有权威性、准确性和可靠性的数据源;(二)数据模型:根据业务需求设计合理的数据模型,确保数据的一致性和完整性;(三)技术架构:采用成熟、稳定的技术架构,提高系统性能和可扩展性;(四)数据质量:对数据进行清洗、转换、融合等处理,确保数据质量。
第三章数据仓库运维管理第六条数据仓库运维管理应遵循以下要求:(一)系统监控:实时监控数据仓库系统的运行状态,确保系统稳定运行;(二)数据备份:定期进行数据备份,防止数据丢失;(三)故障处理:对系统故障进行及时处理,确保系统正常运行;(四)性能优化:根据业务需求,对系统进行性能优化,提高数据访问速度。
第七条数据仓库运维管理应设立以下岗位:(一)数据仓库管理员:负责数据仓库系统的日常运维管理;(二)数据分析师:负责数据仓库系统的数据分析和挖掘;(三)数据安全员:负责数据仓库系统的数据安全管理工作。
大数据分析知识:数据存储与管理——数据仓库、云计算和数据库

大数据分析知识:数据存储与管理——数据仓库、云计算和数据库随着技术的不断发展,越来越多的数据产生并蓄积,如何进行有效管理和利用已成为人们关注的焦点之一。
本文将从数据存储和管理的角度出发,分别介绍数据仓库、云计算和数据库的概念、特点及其在大数据领域的应用。
一、数据仓库数据仓库(Data Warehouse)是指从各个数据源中提取数据并经过处理后存储到一个统一且独立的数据集合中,以方便用户进行分析和决策的系统。
数据仓库通过将数据分析和查询分离,实现了数据决策支持系统的高效运行,从而提高数据的利用率。
数据仓库的特点:1.面向主题:数据仓库是面向主题的,即数据集中一般针对某个主体领域或数据分析任务。
例如,销售数据仓库、人力资源数据仓库等。
2.集成性:数据仓库具有集成性,可以将不同类型的数据源通过ETL(Extract-Transform-Load)的方式进行标准化、转换和加载,并保证数据之间的一致性和完整性。
3.时间性:数据仓库关注历史数据的存储和分析,并提供不同时间维度的数据展示方式,为决策者提供多样化的选择。
数据仓库在大数据领域的应用:1.数据分析和挖掘:通过数据仓库中的数据进行多维分析和数据挖掘,为决策者提供全面的数据支持。
2.企业级统一视图:数据仓库可以实现企业级统一视图,使决策者可以获得一份全面的数据报告。
3.交互式查询:数据仓库提供交互式的查询功能,用户可以根据需要自定义查询条件和维度,获得满足自己需求的数据结果。
二、云计算云计算(Cloud Computing)是指通过网络以服务方式提供计算资源的一种模式。
云计算基于分布式计算、虚拟化技术和自动化管理,通过网络实现数据处理和存储,通过服务模式进行资源使用和计费。
云计算的特点:1.弹性伸缩:云计算可以根据需求进行弹性伸缩,为企业和个人提供更加灵活的资源使用方式,从而降低IT成本、提高效率。
2.服务化:云计算基于服务的方式提供资源,用户可以根据需要选择提供商和服务类型,并根据实际使用量进行计费,降低了技术和资金门槛。
数据仓库与OLAP技术

数据挖掘
数据集市类型
按照数据获取来源: 独立型:直接从操作型环境获取数据; 从属型:从企业级数据仓库获取数据;
数据挖掘
建设途径
从 全局数据仓库 到 数据集市 从 数据集市 到 全局数据仓库
数据挖掘
数据粒度
粒度是指数据仓库的数据单位中保存数据的细 化或综合程度的级别;
粒度影响存放在数据仓库中的数据量的大小;同 时影响数据仓库所能回答查询问题的细节程度; 是设计数据仓库的一个最重要方面;
粒度可以分为两种形式: 按时问段综合数据的粒度 按采样率高低划分的样本数据库;
数据挖掘
粒度的一个例子
小的时间段粒度统计而成的数据;其数据量较细节及 数据少得多 当前细节级:存储最近时期的业务数据;反映当前业 务的情况;数据量大;是数据仓库用户最感兴趣的部 分 早期细节级:存储过去的详细数据;反映真实的历史 情况;这类数据随着时间增加;数据量很大;使用频率 低;一般存储在转换介质如磁带中
数据挖掘
2 3 数据组织结构和形式
分割问题的焦点不是该不该分割而是如何去分 割的问题;
数据挖掘
数据分割
一般在进行实际的分析处理时;对于存在某种相关性的 数据集合的分析是最常见的;如对某时间或某时段的数 据的分析;对某一地区的数据的分析;对特定业务领域 的数据的分析等;将其有这种相关性的数据组织在一起; 就会提高效率;
数据挖掘
数据分割的好处
数据挖掘
面向主题
主题Subject:特定的数据分析领域与目标; 面向主题:为特定的数据分析领域提供数据支持; 主题是一个抽象的概念;是在较高层次上将企业信息系
数据仓库数据安全管理制度

第一章总则第一条为确保公司数据仓库数据的安全、完整和可用,防止数据泄露、篡改、丢失等风险,特制定本制度。
第二条本制度适用于公司所有涉及数据仓库的数据收集、存储、使用、处理、传输、销毁等活动。
第三条本制度遵循以下原则:1. 隐私保护原则:对个人隐私数据进行严格保护,未经授权不得泄露。
2. 完整性原则:确保数据仓库数据的准确性和一致性。
3. 可用性原则:确保数据仓库数据在需要时能够及时、准确地提供。
4. 安全性原则:采取有效措施,防止数据泄露、篡改、丢失等风险。
第二章数据分类与分级第四条公司数据仓库数据分为以下几类:1. 公开数据:指对内对外公开的数据,如公司年报、产品介绍等。
2. 内部数据:指公司内部使用的数据,如员工信息、财务数据等。
3. 高级内部数据:指涉及公司核心业务、技术秘密的数据。
第五条公司数据仓库数据分级如下:1. 一级数据:涉及公司核心业务、技术秘密,对数据安全要求极高的数据。
2. 二级数据:涉及公司内部使用的数据,对数据安全要求较高的数据。
3. 三级数据:涉及公司公开数据,对数据安全要求较低的数据。
第三章数据安全责任第六条公司董事会对数据安全负有最终责任。
第七条公司高层管理人员对数据安全方针和政策负责,并由数据安全团队负责执行与管理数据安全。
第八条数据安全团队工作职责:1. 制定与颁布数据安全政策和规程。
2. 定期开展数据安全教育和训练。
3. 监测和识别数据安全风险。
4. 负责数据安全事件的调查和处理。
第九条所有公司员工应遵守数据安全制度,将数据安全作为工作的重中之重。
第四章数据收集与存储第十条数据收集应遵循以下原则:1. 合法性原则:收集数据应合法合规,不得侵犯他人合法权益。
2. 诚信原则:收集数据应诚实守信,不得虚构、篡改数据。
第十一条数据存储应遵循以下要求:1. 选用安全可靠的数据存储设备。
2. 对数据进行加密存储,防止数据泄露。
3. 定期对数据进行备份,确保数据安全。
第五章数据使用与处理第十二条数据使用应遵循以下原则:1. 依法使用原则:使用数据应符合法律法规的要求。
第二章 数据库管理与网络应用

第二章 数据库管理与网络应用
第一节 数据库基础知识 一、数据管理技术的发展
数据管理技术的发展过程大致可分如下四个阶段: 人工管理阶段 文件系统阶段 这一阶段的特点: 数据库系统阶段 (1)数据以文件形式可以长期保存在计算机中并由操作系统 来管理,文件组织方式由顺序文件逐步发展到随机文件 高级数据库技术阶段 (2)操作系统的文件管理系统提供了对数据的输入和输出操 作接口,即提供数据存取方法。 (3)一个应用程序可以使用多个文件,一个文件可被多个应 用程序使用,数据可以共享。 (4)数据仍然是面向应用的,文件之间彼此孤立,不能反映 数据之间的联系,因而仍存在数据大量冗余和不一致性
第二章 数据库管理与网络应用
第一节 数据库基础知识 四、数据库系统的组成
(三)操作系统 主要负责计算机系统的进程 管理、作业管理、存储器管 理、设备管理以及文件管理 等,因此可以给DBMS的数据 组织、管理和存取提供支持。
(四)数据库应用系统
(五)数据库应用开发工具 (六)数据库管理员及其他人员(DBA)
数据管理技术的发展过程大致可分如下四个阶段: 人工管理阶段 文件系统阶段 数据库系统阶段 高级数据库技术阶段 具有代表性的是
分布式数据库
面向对象数据库
第二章 数据库管理与网络应用
第一节 数据库基础知识 一、数据管理技术的发展
数据管理技术的发展过程大致可分如下四个阶段: 人工管理阶段 文件系统阶段 数据库系统阶段 高级数据库技术阶段 具有代表性的是
(5)有功能强大的关系数据库语言SQL的支持。
第二章 数据库管理与网络应用
第一节 数据库基础知识 三、数据库模型
(三)面向对象模型(Object—Oriented Model) 在面向对象的数据模型中,最重要的概念是对象(Object) 和类(Class)。 面向对象数据 模型比网状、 层次、关系数 据模型具有更 加丰富的表达 能力。
- 1、下载文档前请自行甄别文档内容的完整性,平台不提供额外的编辑、内容补充、找答案等附加服务。
- 2、"仅部分预览"的文档,不可在线预览部分如存在完整性等问题,可反馈申请退款(可完整预览的文档不适用该条件!)。
- 3、如文档侵犯您的权益,请联系客服反馈,我们会尽快为您处理(人工客服工作时间:9:00-18:30)。
三 层 数 据 结 构
操作型元数据
2.1、数据仓库的数据结构
各个组成部分的含义 操作性数据 :来源于业务系统中的数据。 调和数据:存储在企业级数据仓库中的数据。
导出数据:从数据仓库中导出并存储在各个数据集市中的数据。
企业数据模型:企业组织所需数据的整体轮廓。 元数据 :有关数据的说明。
星型模型
维度 表
维度 表
事实表 维度 表 维度 表
维度 表
2.4.3多维建模技术
雪花模型
维度 表
维度 表 维度 表 详细类 别表
事实表
维度 表
维度 表
详细类 别表
2.4.3多维建模技术
一个星型模式的例子
产品维表 PK 产品编号 产品类别 产品名称 销售分析表 PK,FK2 PK,FK1 PK,FK3 时间编号 产品编号 地址编号 销售数量 销售金额 PK 地区维表 地址编号 国家 省份 城市 门店
数据仓库的ETL过程:包括抽取、清洗、转换、加载与索引等;
多维数据模型的物理实现方法与多维建模技术 。
2.3、数据仓库的数据ETL过程
ETL概念 数据ETL是用来实现异构数据源的数据集成,即完成数据的抓取/抽 取(Capture/Extract)、清洗(Scrub or data cleansing)、转 换(Transform)、装载与索引(Load and Index)等数据调和工 作。
2.3、数据仓库的数据ETL过程
数据的ETL过程描述
抽取/抓取 清洗 集结地 (Staging Area) 拒绝数据的信息 转换
加载与索引
操作型 系统
有关拒绝数据的信息
EDW 或 ODS
2.3、数据仓库的数据ETL过程
数据抽取的几点要求 数据源命名的透明度。 源系统实施的业务规则的完整性和准确性。 数据格式的一致性。
第2章 目 录
1
数据仓库的数据结构 数据仓库的数据特征
2
3 4 5
数据仓库的数据ETL过程 多维数据模型 小结
2.3、数据仓库的数据ETL过程
ETL概念 ETL过程前后数据的特征 数据的ETL过程描述 抽取(Capture/Extract)
清洗(Scrub/Cleanse)
转换(Transform) 加载和索引(Load/Index)
轻度综合级
每“天”电话 呼叫情况信息
电话呼叫情况 信息
当前细节级 早期细节级
数 据 仓 库 层
后备数据 后备数据 后备数据
电话呼叫明细 情况信息
2.4.2多维数据模型的物理实现
多维数据库(MDDB),其数据是存储在大量的多维数组中,而不 是关系表中 ,与之相对应的是多维联机分析处理(MOLAP) 关系数据库是存储OLAP数据的另一种主要方式。与之对应的是关 系联机分析处理(ROLAP)
关系数据库中,将 “多对多”的关系转 化为多个“一对多” 的关系
具有汇总值的多维数据库
江苏 上海 北京 汇总 电器 940 450 340 1730 服装 830 350 270 1450 汇总 1770 800 610 3180
不直观
直观
2.4.2多维数据模型的物理实现
二维数据容易理解,但维数扩展到三维或更高的维度时,多维数据 库MDDB就成了一种“超立方”体的结构 ,理解就困难多了。 在MDDB中,其数据的存储是由许多类似于数组的对象来完成,对 象中包含了经过高度压缩的索引和指针,利用这些索引和指针将许 多存储数据的单元块联结在一起 。
维度表
按照两种结构设计: 星型模型 雪花模型
2.4.2多维数据模型的物理实现
星型模式在关系数据库中的表示
产品维 表
产品ID
产品ID 销售商ID 地址ID 时间ID 销售数量 销售成本 总收入
时 间 维表
销售商 维度表
时间ID
销售商ID
地址ID
地理位 置维表
2.4.2多维数据模型的物理实现
组合。 数据分割的目的:便于进行数据的重构、索引、重组、恢复、监控、
扫描。
2.4.1多维数据模型
关于数据综合级别与粒度的确定: 一般把数据分成四个级别:早期细节级、当前细节级、轻度综合级、 高度综合级
2.4.1多维数据模型
一个典型的数据仓库的数据组织结构图
高度综合级
每“月”电话 呼叫情况信息
2.3、数据仓库的数据ETL过程
数据ETL过程的实施要点
ETL过程是一个数据流动的过程,中间的“T”(转换)是关键 ;
ETL工具的选择非常重要,运用合适的工具会事半功倍 ; 如何保证数据质量?数据质量在一定程度上决定了数据仓库的价 值。
第2章 目 录
1
数据仓库的数据结构 数据仓库的数据特征
SELECT……INTO、存储过程等方法。
2.3、数据仓库的数据ETL过程
数据清洗 原因:操作型业务系统中的数据质量很差。 错误拼写的名字和地址。 不可能的或错误的出生日期。 不匹配的地址和电话区号。
缺失的数据。
重复的数据。 ……
2.3、数据仓库的数据ETL过程
数据转换 在ETL过程中处于中心位置,又很麻烦。 将经过清洗后的数据(源系统)转换成装载对象(目标系统)的格 式。 数据加载和索引 将整理好的数据添加到数据仓库中。 建立索引。
时间ID
销售商ID
销售商 维度表
地理位 置维表
图5.9 雪花模式的关系数据库表示
2.4.3多维建模技术
两种主流建模技术 :由Inmon提出的企业级数据仓库模型和由
Kimball提出的多维模型 ;
基于关系数据库的多维数据建模,如星型,雪花和事实星座模式; 关于事实表、维表及键的设计 。
2.4.3多维建模技术
雪花模式在关系数据库中的表示
产品ID 产品名称 公司ID 公司名称 产品颜色ID 产品颜色 产品维表 产品ID 公司ID 产品颜色ID 产品商标ID 产品类型ID
产品ID 产品ID 销售商ID 地址ID 时间ID 销售数量 销售成本 总收入 地址ID
产品商标ID 商标名称
产品类型ID 产品类型名
时间 维表
2.4.1多维数据模型
维类别
维的类别即维的分层。
可分为: 简单层次 复杂层次 西南
云南
贵州
四川
2.4.1多维数据模型
西南
贵州
四川
云南
贵阳市
安顺市
平坝县
复杂层次
2.4.1多维数据模型
维属性 维的一个取值。 度量 度量即度量值,是多维数据空间中的单元格,用以存放数据,也叫
事实。
2.4.1多维数据模型
实际组合中往往由于各种原因会导致某些组合没有具体的值,或值
是空的或者为零。 产生了多维数据库的稀疏矩阵问题。 稀疏矩阵将导致存储空间的浪费,所以需要采用压缩技术。
2.4.2多维数据模型的物理实现
关系数据库是存储OLAP数据的另一种主要方式。与之对应的是关系联机分析 处理(ROLAP) 将数据的多维结构划分为两类表: 事实表
2
3 4 5
数据仓库的数据ETL过程 多维数据模型 小结
2.4.1多维数据模型
多维数据模型及其相关概念
多维数据模型的物理实现 多维建模技术简介 一个星模式的例子
2.4.1多维数据模型
多维数据模型及其相关概念
有关多维数据模型的几个概念:维、维类别、维属性、度量、粒度
及分割等 关于数据综合级别与粒度的确定:一般把数据分成四个级别:早期 细节级、当前细节级、轻度综合级、高度综合级 有关多维数据模型的几个概念 维、维类别、维属性、度量、粒度及分割等
2.4.2多维数据模型的物理实现
具有汇总数据项的关系数据库
产品名 称 电器 电器 电器 电器 服装 服装 服装 服装 汇总 汇总 汇总 汇总
销售地 区 江苏 上海 北京 汇总 江苏 上海 北京 汇总 江苏 上海 北京 汇总
销售数 量 940 450 340 1730 830 350 270 1450 1770 800 610 3180
2.4.2多维数据模型的物理实现
多维数据库(MDDB) 关系数据库存储方式 产品名称 电器 电器 电器 服装 服装 服装 销售地区 江苏 上海 北京 江苏 上海 北京 多维数据库存储方式 销售数量 940 450 340 830 350 270
江苏 电器 服装 940 830
上海 450 350
北京 340 270
数据仓库与数据挖掘
第2章 数据仓库的数据存储与处理
教师:郭荣熙
第2章 目 录
1
数据仓库的数据结构 数据仓库的数据特征
2
3 4 5
数据仓库的数据ETL过程 多维数据模型 小结
2.1、数据仓库的数据结构
导出数据 (如:数据集市) 数据集市 元数据
调和数据 (EDW & ODS)
EDW元数据
企业数据模型 操作型数据 (如:业务处理系统)
时间维表 PK 时间编号 年度 月份 周 日
第2章 目 录
1
数据仓库的数据结构 数据仓库的数据特征
2Hale Waihona Puke 3 4 5数据仓库的数据ETL过程 多维数据模型 小结
2.5小结
数据仓库的三层数据结构及其相关元数据:操作型业务数据层、调和
数据层和导出数据层(如数据集市);
数据仓库的特征与数据分类:状态数据与事件数据、当前数据与周期 数据、元数据等;
粒度与分割 数据粒度:是对数据仓库中的数据的综合程度高低的度量。(一般 分为四个级别:高度综合级、轻度综合级、当前细节级、早期细节 级) 分割:将数据分散到各自的物理单元中去以便能分别处理,提高数 据处理效率,数据分割后的数据单元称为分片。