第02章数据仓库原理

合集下载

第02章数据仓库原理

第4 页
2.2 数据预处理
1、数据预处理(data preprocessing) 在多数据源集成为统一数据集之前进行的数据清洗、数据
变换、数据规约等数据处理过程。 2、预处理的目的
消除多数据源集成存在的问题，为数据仓库或数据挖掘提供一个完整、干净、准确、且有针对性的数据集合。
第5 页
2.2 数据预处理
第 10 页
2.2 数据预处理
(2) 分箱技术的步骤： ① 对数据集的数据进行排序； ② 确定箱子个数k、选定数据分箱的方法并对数据集中数据进行
分箱； ③ 选定处理箱子数据的方法，并对其重新赋值。
(3) 常用分箱方法等深分箱、等宽分箱、自定义区间和最小熵分箱法。 (4)一般假设
箱子数为k，n(nk)个数据的数据集且按非减方式排序为 S={a1,a2,…,an)，即ai[ a1, an]。
第6 页
2.2 数据预处理
① 重命名属性：对数据仓库或数据挖掘需要的属性重新赋给它们含义明确，便于理解记忆和使用的属性名称。
数据源使用“WHCD”和“CSRQ”分别作为公民“文化程度 ”和“出生日期”的属性名。
在数据仓库中我们选用“Education” 和“Birthday”来代替，不仅含义明确，且可读性强，使用方便。
第 12 页
2.2 数据预处理
例2-1：设A={1, 2, 3, 3, 4, 4, 5, 6, 6, 7, 7, 8, 9,11}共14个数据，请用等深分箱法将其分成k=4个箱子。
解：因为k=4，n=14，所以p=n/k=14/4=3，q=143*4=2。由于数据集A已排序，因此前2个箱放4个，后为2 个箱放3个数据。第1个箱子B1={1, 2, 3, 3}， B2={ 4, 4, 5, 6,}， B3={6, 7, 7}， B4={8, 9, 11}。

数据仓库技术的基本原理与架构

数据仓库技术的基本原理与架构数据仓库技术是当今信息管理和分析领域中的重要组成部分。

它通过收集、存储和整合大量的数据，为决策者提供有价值的信息，帮助他们做出更加明智的决策。

本文将从数据仓库技术的基本原理和架构两个方面进行论述。

一、基本原理数据仓库的基本原理是以数据为中心，通过将不同来源的数据进行整合、清洗和转换，使得决策者能够从中发现模式和趋势，并对业务进行深入分析。

数据仓库采用了面向主题的建模方法，将数据按照业务需求进行分类，并建立相应的维度模型。

这样，决策者可以根据不同层次和维度对数据进行灵活的分析。

数据仓库的关键技术之一是ETL（抽取、转换和加载）。

ETL技术通过从各种源系统中抽取数据，对数据进行清洗和转换，然后将数据加载到数据仓库中。

ETL过程是数据仓库建设的基石，它保证了数据的准确性和一致性，同时也能够处理大规模数据的高效处理。

二、架构数据仓库的架构采用了多层次的结构，主要包括数据源层、数据处理层和应用层。

数据源层是数据仓库的基础，它包括了各种数据源，例如企业内部的数据库、文件、日志等。

数据源层的关键任务是将数据从各个来源抽取出来，并进行清洗和转换，以便后续的处理和分析。

数据处理层是数据仓库的核心，它包括了数据存储、数据处理和数据查询等功能。

数据存储采用了多维数据库或者列式数据库来存储数据，以便灵活、高效地支持各种查询。

数据处理包括了ETL过程以及对数据进行聚合、汇总和分析的功能。

数据查询是数据仓库的最终目标，决策者通过查询工具可以对数据仓库中的数据进行自由、灵活的分析。

应用层是数据仓库向用户提供的接口，它包括了各种BI（商业智能）工具和报表工具。

BI工具能够对数据进行可视化的展示，帮助决策者更好地理解数据。

报表工具则可以根据用户的需求生成各种形式的报表。

在数据仓库的架构中，还有一项重要的技术叫做元数据管理。

元数据是描述数据的数据，它记录了数据的来源、结构、定义和用途等信息。

元数据管理能够帮助用户更好地理解和使用数据仓库中的数据，并且起到了数据治理的作用。

数据仓库的基本原理

在ETL开发的初期可以每天向业务单位发送过滤数据的邮件，促使他们尽快地修正错误,同时也可以做为将来验证数据的依据。
数据转化
不同的数据库厂商，提供的数据类型可能不同。
例子：
不同的时间表达方式
2000-2-3 2/3/2000
2000/2/3
不同的坐标系统
WGS84 西安80’3 度带北京54’3度带
账务数据库
客户服务数据库
市场信息数据库
面向主题分析
收益数据
客户数据
市场数据
计费数据库
现
有
业务
客户服务数据库
系
统
账务数据库
市场信息数据库
面向主题的数据仓库
为了解决上述问题，数据仓库把上述数据集中。
客户基本信息表
客户呼叫记录表
客户标识号
客户标识号
客户姓名
客户呼叫时间
客户年龄
客户呼叫地点
客户地址
用来在多维商业模型和前端工具之间建立映射的，叫做决策支持系统元数据。具体包括数据仓库中信息的种类、存储位置、存储格式；信息之间的关系、信息和业务的关系、数据使用的业务规则；数据模型；数据模型和数据仓库的关系。
元数据
系统
数据
系统
数据
元数据
数据集市
数据仓库中的信息按照不同的主题来组织。举例：市场发展趋势的分析主题，由市场部门的人使用。为避免在全部的巨量数组中检索，把某主题的数据逻辑上或物理上分离出来，可称为数据集市。
W.H.Inmon把数据仓库定义为
“用于管理决策支持的面向主题、集成、稳定、随时间变化的数据集合”。
面向主题、集成、稳定、随时间变化是4个最重要特征。

第二章数据仓库原理

30
2.2 数据仓库的数据模型
数据仓库存储采用多维数据模型。数据一般是数值
北京城市维长沙上海果汁可乐牛奶商品维奶油浴巾香皂
1 2 3 4 5 6 7 日期维
31
2.2 数据仓库的数据模型
维就是相同类数据的集合，是观察事物的视角。商店、时间和产品都是维。各个商店的集合是一维，时间的集合是一维，商品的集合是一维。每一个商店、每一段时间、每一种商品就是某一维的一个成员。每一个销售事实由一个特定的商品、一个特定的时间、一个特定的地区的销售数量、金额组成。事实数据表包含描述业务内特定事件的数据，这些数字信息可以汇总。
43
2.2.3星网模型
星网模型是将多个星型模型连接起来形成网状结构。多个星型模型通过相同的维，如时间维，连接多个事实表。
44
地区键 ……
用户键 ……
时间键用户键事务键地区键电话费用事务键 ……
时间键用户键状态键电话余额
保险费与索赔。
生产商可能的对象（主题域）是：产品，销售商等；
零售商可能的对象（主题域）是：顾客，商品，库
存，销售等；
5
2.1.1 数据仓库结构
数据仓库与数据库的区别：
“与时间相关” :数据库保存信息的时候，并不强
调一定有时间信息。数据仓库则不同，出于决策的
需要，数据仓库中的数据都要标明时间属性。
同样都是累计购买过 9 车产品的顾客，一位是最近
10
数据综合
如：公司的销售额可以如下综合
全国
区域
省 /市
城市
商店
11
高度综合数据层轻度综合数据层当前基本数据层历史数据层

数据库的原理是什么

数据库的原理是什么
数据库的原理是指数据库系统的设计和工作方式。

它包括以下几个关键原理：
1. 数据模型和结构：数据库采用不同的数据模型，如层次型、网状型和关系型等。

每个模型都有自己的数据结构和组织方式，用于存储和访问数据。

2. 数据库查询语言：数据库系统通过查询语言（如SQL）来
实现数据的操作和检索。

查询语言允许用户以简单和易于理解的方式来请求数据，并通过优化技术提高查询效率。

3. 数据库管理系统（DBMS）：DBMS是管理和操作数据库的软件系统。

它负责数据的存储、访问、更新和保护。

DBMS
还负责实施数据完整性约束和事务处理等功能。

4. 数据库索引：为了提高数据查询效率，数据库使用索引来加速数据的检索。

索引是预先创建的数据结构，可以根据特定的列或字段值快速定位到相关的数据记录。

5. 数据库事务：事务是数据库中执行的一系列操作的逻辑单位。

数据库系统使用ACID（原子性、一致性、隔离性和持久性）
属性来确保事务的正确执行和数据的完整性。

6. 数据库优化和性能调优：为了提高数据库系统的性能，需要对数据库进行优化和调优。

这包括索引的设计和使用、查询的优化、存储空间的管理等。

7. 数据库安全和权限控制：数据库系统需要提供安全机制来保护数据的机密性和完整性。

它能够对用户进行身份验证，并根据用户的权限限制对数据进行访问和操作。

综上所述，数据库的原理基于数据模型和结构、查询语言、数据库管理系统、索引、事务、优化和安全等关键技术，以实现数据的有效存储、高效检索和安全保护。

数据仓库原理

数据仓库原理数据仓库是一个用于存储和管理大量数据的系统，它的设计和实现需要遵循一定的原理和规范。

数据仓库的原理包括数据抽取、数据转换、数据加载、数据存储和数据查询等方面，下面我们来详细介绍一下数据仓库的原理。

首先，数据抽取是数据仓库的第一步，它是指从各个业务系统中抽取数据到数据仓库中。

数据抽取需要考虑到数据的完整性和准确性，同时还需要考虑到抽取的效率和成本。

通常情况下，数据抽取可以通过批量抽取和实时抽取两种方式来实现，具体的选择需要根据业务需求来确定。

其次，数据转换是数据仓库的第二步，它是指将抽取的数据进行清洗、转换和整合，以适应数据仓库的存储和查询需求。

数据转换包括数据清洗、数据整合、数据转换和数据加载等过程，需要考虑到数据的一致性和标准化，以及数据的质量和准确性。

接着，数据加载是数据仓库的第三步，它是指将经过转换的数据加载到数据仓库中进行存储和管理。

数据加载需要考虑到数据的存储结构和索引方式，以及数据的分区和分片等策略。

数据加载可以通过全量加载和增量加载两种方式来实现，具体的选择需要根据数据量和更新频率来确定。

然后，数据存储是数据仓库的核心部分，它是指在数据仓库中存储和管理数据的方式和结构。

数据存储需要考虑到数据的分层和分区，以及数据的压缩和索引等技术。

数据存储的设计需要根据数据的特点和查询需求来确定，以保证数据的高效访问和管理。

最后，数据查询是数据仓库的最终目的，它是指通过各种方式来查询和分析数据仓库中的数据。

数据查询需要考虑到查询的复杂性和实时性，以及查询的性能和优化等方面。

数据查询可以通过OLAP和OLTP两种方式来实现，具体的选择需要根据查询需求和数据量来确定。

综上所述，数据仓库的原理包括数据抽取、数据转换、数据加载、数据存储和数据查询等方面，它们共同构成了数据仓库的核心技术和方法。

数据仓库的设计和实现需要遵循这些原理，以保证数据的完整性和准确性，同时还需要考虑到数据的存储和查询效率，以满足业务的需求和挖掘数据的潜力。

数据库工作原理

数据库工作原理数据库是现代计算机系统中一种重要的数据存储和管理方式。

它是一个结构化的数据集合，可以被多个用户共享，并且可以被多个应用程序访问和操作。

数据库工作原理涉及到数据库的组织结构、数据存储和检索、事务管理等方面。

1. 数据库的组织结构数据库通常由表（table）组成，每个表由多个字段（field）构成。

表中的每一行表示一个记录（record），每个字段存储一个数据项。

数据库还可以包含索引（index），用于加快数据的检索速度。

数据库中的数据按照一定的逻辑关系进行组织，例如层次结构、网络结构或关系结构。

2. 数据的存储和检索数据库通过存储介质（如硬盘）将数据永久存储起来，以便随时可以被访问和操作。

数据存储的基本单位是数据页（page），一个数据页可以存储多条记录。

当需要访问数据库中的数据时，可以通过索引或者全表扫描的方式进行检索。

索引是一种特殊的数据结构，可以按照某个字段的值快速定位到对应的记录。

3. 事务管理事务是数据库中的一个基本概念，它是一组数据库操作的逻辑单位，要么全部执行成功，要么全部回滚到初始状态。

事务具有ACID属性，即原子性（Atomicity）、一致性（Consistency）、隔离性（Isolation）和持久性（Durability）。

数据库通过日志（log）来记录所有的操作，以保证事务的原子性和持久性。

4. 并发控制数据库通常支持多用户并发访问，因此需要进行并发控制，以防止数据的不一致和冲突。

数据库使用锁（lock）来对数据进行保护，锁可以分为共享锁和排他锁。

共享锁用于读操作，多个用户可以同时获取共享锁；排他锁用于写操作，只有一个用户可以获取排他锁。

数据库还可以使用事务隔离级别来控制并发访问的效果，常见的隔离级别有读未提交、读已提交、可重复读和串行化。

5. 数据库的优化为了提高数据库的性能，可以进行各种优化策略。

例如，可以通过合理设计数据库的结构，减少数据冗余和复杂性；可以使用索引来加速数据的检索；可以进行适当的物理存储优化，例如数据分区和磁盘分离；还可以通过调整数据库参数和优化SQL语句来提高数据库的性能。

第二章数据仓库原理

数据集市的数据来自数据仓库，它是数据仓库中数据的一个部分与局部，是一个数据的再抽取与组织的过程。
2.3 数据仓分析库工具体（O系LAP结、数构据挖掘）
数数据据仓集市库系统由数数据据集仓市库…（… DW）、数仓据集库市管理和分析工具三部分组成
数据建模
数据仓库
元数据管理
抽
取
ORACLE
SYBASE …… SQL Server 数据仓库系统示意图
集成的
集成的方法：统一：消除不一致的现象综合：对原有数据进行综合和计算
需要考虑的问题：
数据格式计量单位数据代码含义混乱数据名称混乱
非易失的
数据仓库中的数据是经过抽取而形成的分析型数据，不具有原始性，主要供企业决策分析之用，执行的主要是‘查询’操作，一般情况下不执行‘更新’操作。同时，一个稳定的数据环境也有利于数据分析操作和决策的制订。
顾客购物信息：顾客号，商品号，售价，购买日期，购买量等
面向主题
在每个主题中，都包含了有关该主题的所有信息，同时又抛弃了与分析处理无关或不需要的数据，从而将原本分散在各个子系统中的有关信息集中在一个主题中，形成有关该主题的一个完整一致的描述。面向主题的数据组织方式所强调的就是要形成一个这样一致的信息集合。
分析工具－数据挖掘工具
从大量数据中挖掘具有规律性知识，需要利用数据挖掘（Data Mining）工具。
数据仓库的运行结构
数据仓库服务器
两层数据仓库结构
元数据
客户端
数据仓库数据
•数据逻辑 •数据服务 •元数据 •文件服务
•图形用户接口/表示逻辑 •查询规范 •数据分析 •报表格式 •总结 •数据访问
文件
过程模型

1、下载文档前请自行甄别文档内容的完整性，平台不提供额外的编辑、内容补充、找答案等附加服务。
2、"仅部分预览"的文档,不可在线预览部分如存在完整性等问题,可反馈申请退款(可完整预览的文档不适用该条件!)。
3、如文档侵犯您的权益，请联系客服反馈,我们会尽快为您处理(人工客服工作时间：9:00-18:30)。

数据仓库与数据挖掘
第2章数据仓库原理
第2章数据仓库原理
2.1多数据源问题 2.2 数据预处理 2.3 E-R模型 2.4 数据仓库的概念模型 2.5 数据仓库的逻辑模型 2.6数据仓库的物理模型
2.1多数据源问题
2.1多数据源问题 1、多数据源数据仓库和数据挖掘的数据通常来自多种数据库或计算机应用系统或数据文件、web页面。 2、多数据源在集成的问题 (1) 数据不一致：数据的不一致性主要指数据之间的矛盾性和不相容性。如职务升迁了，但工资数据却没有改变 (2) 属性差异：性别属性有的取“男”/“女”,长度为2；有的取“1”/“0”，长度为1。 (3) 数据重复:数据源中存在两条或多条完全相同的记录，或者同一个数据冗余地存在于多个数据源中。比如，某人的身份信息同时存在于常住人口和暂住人口数据库中。
第 11 页
2.2 数据预处理
① 等深分箱法:把数据集中的数据按照排列顺序分配到k个箱子中(k=1,2,…,k)。
当k整除n时，令p=n/k，则每个箱子都有p个数据，即第1个箱子的数据为：a1，a2，…，ap；第2个箱子的数据为：ap+1，ap+2，…，a2p；第k个箱子的数据为：an-p+1，an-p+2，…，an；
能的取值。
第9 页
2.2 数据预处理
3、数据噪声处理数据噪声(Data Noise)
一种难于解释的数据剧烈变动，它导致一组数据中某些数据与组内其它数据出现了极大的偏差。 ① 分箱(binning)：把数据集中所有数据放入不同箱子(区间)的过程称为分箱。一个实数区间称为一个箱子(bin)，它通常是连续型数据集中最小值和最大值所包含的子区间。如果一个实数属于某个子区间，就称把该实数放进了这个子区间所代表的“箱子”。分箱技术是一种简单而常用的数据预处理方法，也是一种连续型数值的离散化方法。
第 10 页
2.2 数据预处理
(2) 分箱技术的步骤： ① 对数据集的数据进行排序； ② 确定箱子个数k、选定数据分箱的方法并对数据集中数据进行
分箱； ③ 选定处理箱子数据的方法，并对其重新赋值。
(3) 常用分箱方法等深分箱、等宽分箱、自定义区间和最小熵分箱法。 (4)一般假设
箱子数为k，n(nk)个数据的数据集且按非减方式排序为 S={a1,a2,…,an)，即ai[ a1, an]。
其中
显然，如果令NewMin=0, NewMax=1，则公式就是对原始数据的无量纲化处理。
第 18 页
2.2 数据预处理
（2）零-均值规范化零-均值规范化(z-score normalization)是根据属性值的平均
值和标准差进行规范化，即
其中，为所有样本属性值的平均值，X为样本标准差。
解：A的最小值和最大值区间为[1, 11]，k=4，子区间平均长度 (11-1)/4=2.5，即
I1=[1, 3.5),I2=[3.5, 6),I3=[6, 8.5)，I4=[8.5，11]。按照等宽分箱法有B1={1, 2, 3, 3}， B2={ 4, 4, 5}，
B3={6, 6, 7, 7, 8}， B4={ 9, 11}。
标准差也被称为标准偏差，或者实验标准差，简单来说，标准差是一组数据平均值分散程度的一种度量。假设有一组数值 X₁,X₂,X₃,......Xn（皆为实数），其平均值（算术平均值）为 μ，公式为:
第 19 页
2.2 数据预处理
(3) 小数定标规范化小数定标规范化(decimal scaling normalization)通过移动属
第 14 页
2.2 数据预处理
③ 用户自定义区间。当用户明确希望观察某些区间范围内的数据分布时，可以根据实际需要自定义区间。
数据平滑:对每个箱子中数据进行单独重新赋值。三种常见方法：按平均值、按边界值和按中值平滑。 ① 按平均值平滑。对同一个箱子中的数据求平均值，并用这个
平均值替代该箱子中的所有数据。对于例2-3所得4个箱子，用这个方法平滑的结果为：
第 15 页
2.2 数据预处理
4、不平衡数据处理 (1) 过抽样(oversampling) 在样本集中通过增加少数类的样本来提高少数类样本的数量，
最简单的办法是复制少数类样本。这种方法的缺点是引入了额外的训练数据，会延长构建分类器
所需要的时间，没有给少数类增加任何新的信息，而且可能会导致过度拟合。 (2) 欠抽样(undersampling) 该方法通过减少多数类样本的数量来提高少数类样本在样本集中的比例。最简单的方法是通过随机方法，去掉一些多数类样本来减小多数类的规模。这种方法的缺点是会丢失多数类样本的一些重要信息，已有的信息利用得不够充分。
2.2.1 数据清洗 1、数据清洗(Data cleaning)
发现并纠正数据源，即原始数据中存在的问题或错误的过程，包括检查数据一致性，处理无效值、填补缺失值，以及过滤掉那些不符合要求的数据等。 (1) 属性的处理：对多数据源含义相同的属性进行重命名和统一类型长度，选择设置主键和派生属性等处理。
第4 页
2.2 数据预处理
1、数据预处理(data preprocessing) 在多数据源集成为统一数据集之前进行的数据清洗、数据
变换、数据规约等数据处理过程。 2、预处理的目的
消除多数据源集成存在的问题，为数据仓库或数据挖掘提供一个完整、干净、准确、且有针对性的数据集合。
第5 页
2.2 数据预处理
第 13 页
2.2 数据预处理
② 等宽分箱法。把数据集最小值和最大值形成的区间分为k个左闭右开的子区间（最后一个除外）I1，I2，…，Ik。如果 ai Ij就把数据ai放入第j个箱子。
例2-2：设A={1, 2, 3, 3, 4, 4, 5, 6, 6, 7, 7, 8, 9,11}共14个数据，请用等宽分箱法将其分成k=4个箱子。
第3 页
2.1多数据源问题
(4) 数据不完整：某些属性的值可能是缺失的，甚至是错误的数据。用户在登记注册时通常输入昵称等作为姓名。 (5)噪声数据：噪声是指测量数据时遇到的随机或其它不确定性因素，它导致被测量的数据产生了偏差或错误，称这种含有偏差或错误的数据为噪声数据。 (6) 高维数据：为较全面的描述实体，原始数据通常都使用了较多属性。比如，在常住人口数据库中，描述公民的基本信息就有128个属性。 (7) 模式不统一：即将集成为单一数据集的多个数据源的模式不同。比如，“常住人口数据”和“暂住人口数据”两张表，前者有128个属性，后者也有98个属性。 (8) 数据不平衡：即数据集中某一类样本的数量明显少于其它类型样本的数量。
在数据准备时只选择其中之一，或者选择属性X，或者选择它相关的属性。
第8 页
2.2 数据预处理
2、空值的处理对原始数据中没有登记或没有输入的属性值——空值，使
用某种对其进行补充或删除等预处理。 ① 人工填补：优点是能够得到比较真实的数据，但通常人力耗
费很大，而且速度较慢。 ② 忽略记录：即将有空值的记录删除。 ③ 忽略属性：删除具有空值的列。 ④ 使用默认值：用一个固定的常数unknown或者*来填补。 ⑤ 使用平均值：用所有非空非空值的平均值来填补。 ⑥ 使用预测值：用一定的预测方法，计算得到空值属性最有可
第7 页
2.2 数据预处理
③ 处理主键属性：为建立挖掘结果和原始数据之间的直接对应关系的话，需要保留主键属性。
在数据仓库中通常还要引进一些代理关键字，即人工引入或派生出来的关键字(详见3.4节)。
④ 派生新属性：由日期属性派生出年、季、月、周、日等多个时间层次的时间属性。
⑤ 选择相关属性：如果属性X的值可以由另外一个或多个属性值计算出来，称属性X和这些属性是相关的。
② 统一属性：确保多个数据源中对同一实体特征的描述是统一的，包括属性的长度、类型，还有属性的值域。
数据源常住人口的性别属性名为XB，类型为字符串，长度为2 ，取值{“男”,“女”}，暂住人口表属性名仍为XB，但长度为1的字符，取值{“1”,“0”}。
在数据仓库中属性名统一为Sex，类型仍为字符，长度为1，其属性的值域为{“1”,“0”}。
B1={1, 2, 3, 3}平滑结果为{2.25, 2.25, 2.25, 2.25} B2={ 4, 4, 5}平滑结果为{4.33, 4.33, 4.33} B3={6, 6, 7, 7, 8, 9} 平滑结果
{7.17, 7.17, 7.17, 7.17, 7.17, 7.17} B4={11}的平滑结果为{11}。
第 21 页
2.3 E-R模型
1、E-R模型中的基本概念
(1) 实体(Entity)：客观存在并可相互区别的事物。
(2) 属性(Attribute)：描述实体的每一个特征。姓名、性别
第 12 页
2.2 数据预处理
例2-1：设A={1, 2, 3, 3, 4, 4, 5, 6, 6, 7, 7, 8, 9,11}共14个数据，请用等深分箱法将其分成k=4个箱子。
解：因为k=4，n=14，所以p=n/k=14/4=3，q=143*4=2。由于数据集A已排序，因此前2个箱放4个，后为2 个箱放3个数据。第1个箱子B1={1, 2, 3, 3}， B2={ 4, 4, 5, 6,}， B3={6, 7, 7}， B4={8, 9, 11}。
第 17 页
2.2 数据预处理
(1) 最小-最大规范化最小-最大规范化(MIN-MAX normalization)假设数据的取值
区间为[OldMin, OldMax]，并把这个区间映射到新的取值区间[NewMin, NewMax]。这是一个线性变换过程，变量被映射到新区间的值通过下面的公式计算得出。 x[OldMin, OldMax]，唯一x’[NewMin, NewMax]，

第02章 数据仓库原理