第三章(3)-范式及无损分解

合集下载

有损分解和无损分解

有损分解和无损分解
有损分解和无损分解是关系数据库中模式分解的两种类型。

在关系模式分解时，如果原关系模型下任一合法的关系值在分解之后能通过自然联接运算恢复起来，那么这种分解被称为无损分解。

相反，如果分解后无法通过自然联接运算完全恢复原始关系模型的信息，那么这样的分解称为有损分解。

例如，设R是一个关系模式，F是R上的一个依赖集，R分解为关系模式的集合p= {R1 (U1),R2 (U2),....,Rn (Un)}。

对于R中满足F的每一个关系r，如果都有r= π R1 (r)⋈π R2 (r)⋈.. π Rn (r)，则称分解相对于F是无损连接分解，否则是有损连接。

举例来说，考虑一个关系模式R(A,B,C,D,E)，其函数依赖集F={A→C，B→C，C→D，DE→C，CE→A}。

如果我们将R分解为{R1 = (A,D),R2 = (A,B),R3= (B,E),R4= (C,D,E),R5=(A，E)}，并且对于满足F的任何一个关系r，都能通过自然联接运算将其恢复到原始关系模式，那么这就是一个无损分解的例子。

总之，无损分解和有损分解的关键区别在于是否可以完全通过联接操作恢复原始关系模型的数据。

在进行关系数据库设计时，了解这两种分解方法有助于更好地优化数据库结构以提高查询和维护的效率。

规范化无损分解及保持函数依赖

AB BC CD
a1
a2
b13 a3 a3
b14 b24 a4
b 21 a 2 b31 b32
无损分解的测试方法
（2)把表格看成模式R的一个关系，反复检查F中每个FD在表格中是否成立，若不成立，则修改表格中的值。修改方法如下：对于F中一个FD X Y ，如果表格中有两行在X值上相等，在Y值上不相等， ai 那么把这两行在Y值上也改成相等的值。如果Y值中有一个是，那么另一 aj aj bij 个也改成；如果没有，那么用其中一个替换另一个值（尽量把下标 ij改成较小的数）。一直到表格不能修改为止。（3)若修改的最后一张表格中有一行全是a，即 a1a 2 a n ，那么称ρ 相对于F 是无损分解，否则称有损分解。 A B C D
分解成3NF模式集既无损又保持函数依赖的方法
① 对于关系模式R和R上成立的FD集F，先求出F的最小依赖集，然后再把最小依赖集中那些左部相同的FD用合并性合并起来。 ② 对最小依赖集中每个FD X→Y去构成一个模式XY。 ③ 在构成的模式集中，如果每个模式都不包含R的候选键，那么把候选键作为一个模式放入模式集中。
保持函数依赖的模式分解
设关系模式R<U,F>被分解为若干个关系模式 R1<U1,F1>，R2<U2,F2>，…，Rn<Un,Fn> （其中U=U1∪U2∪…∪Un，且不存在Ui Uj，Fi为F 在Ui上的投影），若F所逻辑蕴含的函数依赖一定
也由分解得到的某个关系模式中的函数依赖Fi所逻
辑蕴含，则称关系模式R的这个分解是保持函数依
, Rk 是R
例：设关系模式R（ABCD），R分解成 {AB, BC, CD} 。如果R上成立的函数依赖集 F1 {B A, C D}，那么ρ 相对于F 是否无损分解？如果R上成立的函数依赖集 1 F2 {A B, C D} 呢？（1)构建一张k行n列的表格，每列对应一个属性 A j 1 j n ，每行对应一个模式 R i 1 i K 。如果 A j在 R i 中，那么在表格的第i行第j列处填上符号 a j ，否则填上 bij。 A B C D

第3章关系模式设计理论

• 4.模式分解的缺点
• （1）分解后，检索操作需要做笛卡尔积或连接操作，将付出时间代价。 • （2）有泛关系假设时，连接可能产生寄生元组，即损失了信息；在无泛关系假设时，可能存在悬挂元组，有可能不存在泛关系。
3.3 关系模式的分解特性
• 4.无损分解的测试方法
• 算法3：有关系模式R=A1…An，F是R上成立的函数依赖集，ρ ={R1，…，Rk}是R的一个分解。判断其是否为无损分解。
数据库系统原理
第3章关系模式设计理论
第3章关系模式设计理论
• 3.1 关系模式的设计准则
• 3.2 函数依赖 • 3.3 关系模式的分解特性
• 3.4 范式
•Байду номын сангаас3.5 多值依赖和第四范式
3.1 关系模式的设计准则
• 关系数据库的规范化理论最早是由关系数据库的创始人 E.F.Codd提出的，后经许多专家学者进一步深入的研究和发现，形成了一整套有关关系数据库设计的理论。 • 在该理论出现以前，层次和网状数据库设计知识遵循其模型本身固有的原则，而无具体的理论依据，带有一定盲目性，可能在以后的运行和使用中发生许多与想不到的问题。
3.1 关系模式的设计准则
• 2.关系模式的非形式化设计准则
• 1.关系模式的设计应尽可能只包含有直接联系的属性，不要包含有间接联系的属性。 • 2.关系模式的设计应尽可能使得相应关系不出现插入、删除和修改等操作异常现象。 • 3.关系模式的设计应尽可能使得相应关系中避免放置经常为空值的属性。 • 4.关系模式的设计应尽可能使得关系的等值连接在主键和外键的属性上进行，并且保证连接以后不会生成额外的元组。
• （1）G中每个FD的右边都是单属性； • （2）G中没有冗余的FD，即G中不存在这样的函数依赖XY，使得G{XY}与G等价； • （3）G中每个FD的左边没有冗余的属性，即G中不存在这样的函数依赖XY，X有真子集W使得G-{XY}∪{WY}与G等价。

无损分解的测试算法_数据库原理及应用教程（第4版）（微课版）_[共2页]

数据库原理及应用教程（第 4 版）（微课版）
r A BC 1 11 1 21
（a）
r1
A
B
1
1
1
2
（b）图 4-5 未丢失信息的分解
r2
A
C
1
1
（c）
（2）设 F={B→C}是 R 上的函数依赖集。图 4-6（a）所示是 R 上的一个关系 r，图 4-6（b）和图 4-6（c）所示为 r 在 AB 和 AC 上的投影 r1 和 r2，图 4-6（d）所示为 r1 >< r2。显然，此时 r1 >< r2≠r， r 在投影、连接以后比原来的元组还要多（增加了噪声），把原来的信息丢失了。这种分解不是我们所期望的。这种分解称为“损失连接分解”。
r ABC 11 4 12 3
r1 A B 11 12
r2 A C 14 13
（a）
（b）
（c）
图 4-6 丢失信息的分解
r1,r2
ABC
自
114
然
113
连
124
接
123
（d）
从本例可以看出，分解是否具有无损性与函数依赖有直接关系。定理 4.6 设 ρ={R1，R2，…，Rk}是关系模式 R 的一个分解，r 是 R 的任一关系，ri = ∏Ri (r) （1
≤i≤k），那么有下列性质：（1）r ⊆ mρ(r)；（2）若 s=mρ(r)，则ΠRi(s)=ri；（3）mρ(mρ(r))=mρ(r)，这个性质称为幂等性（Idempotent）。
4.3.3 无损分解的测试算法
在把关系模式 R 分解成 ρ 以后，如何测试分解ρ是否是无损分解呢？下面给出相应的算法。算法 4.4（无损分解的测试算法）测试一个分解 ρ 是否为无损连接分解。输入：关系模式 R(A1，A2，…，An)，F 是 R 上成立的函数依赖集，R 的一个分解 ρ={R1， R2，…，Rk}。输出：判断 ρ 相对于 F 是否为无损连接分解。步骤如下。（1）构造一个 k 行 n 列的表格 Rρ，表中每一列对应一个属性 Aj（1≤j≤n），每一行对应一个模式 Rቤተ መጻሕፍቲ ባይዱ（1≤i≤k）。如果 Aj 在 Ri 中，则在表中的第 i 行第 j 列处填上符号 aj，否则填上 bij。（2）把表格看成模式 R 的一个关系，根据 F 中的每个函数依赖，修改表中元素的符号，其方法如下。

数据库什么是无损分解ppt课件

优点：；
缺点：（1）分解后，检索数据需要进行笛卡儿积操作，时间复杂度较高；
（2）容易产生寄生元组；问题：有判断无损分解的简单办法吗？
2
A BC
r
r1
r2
1 14
A BC
AB
AC
≠ ∞ 1 1 4
11
14
1 13 1 24
1 23
12
1 3 1 2 31
无损分解的定义和优缺点
定义(无损分解) : 设F是关系模式R的FD集。R分解成 ρ={R1, …, Rk}。如果对R的每一个满足F的关系r，都有:
r = PR1(r) ∞PR2(r)∞…∞PRk(r) 则称ρ相对于F是“无损分解” ，否则称ρ为“损失分解” 。
什么是无损分解
例: 将关系模式R(ABC) 分解成ρ ={AB,AC}
R上的一个关系r被ρ分解成r1和r2。
r
r1
r2
A BC
= 1 1 1
1 21
AB
11 ∞
12
AC 11
若在投影、连接后仍能恢复成原来的关系，即
未丢失信息，则称为“无损分解”。
若在投影、连接后不等于原来的关
r1 ∞ r2
系，则称为“损失分解”。

关于表的规范化

资料范本本资料为word版本，可以直接编辑和打印，感谢您的下载关于表的规范化地点：__________________时间：__________________说明：本资料适用于约定双方经过谈判，协商而共同承认，共同遵守的责任与义务，仅供参考，文档可直接下载或修改，不需要的部分可直接删除，使用时请详细阅读内容规范化：满足第一范式是表的最低要求，不满足第一范式要求的数据库（表）就不能称之为关系数据库。

在此基础上满足更高要求的称为第二范式，简记为2NF，其余依此类推，还有第三范式（3NF）、BC范式（BCNF）、第四范式（4NF）、第五范式（5NF）。

BCNF可以看作是修正了的第三范式。

把表从低范式，通过投影运算转换成若干高一级范式的过程，叫做表的规范化。

一般地说，表满足的范式级别越高，设计的表越是规范，表的质量越高，数据的冗余度越小，共享性越高，所占的存储空间越少，并将数据的不一致性减少到最低程度，这也是对表进行规范化的目的。

但是，高范式的数据库查询起来比较复杂。

所以，不应一味追求高范式，一般满足第三范式或BC范式就可以了二、表的规范化1、第一范式（1NF）如前所述，第一范式要求表的每一个字段都是不可再分的最小单位。

例1：学生（学号，姓名，学院，地址，选修课程成绩（课程号，课程名，成绩））表数据如下：表一不满足第一范式的表显然，这样的表是不满足第一范式的。

因为[选修课程成绩]字段还可分为3个字段即（课程号，课程名，成绩）。

如果不把它进行规范化，即转换成满足第一范式的表，将会产生很多问题，如：删除异常，即本来只想删除成绩的，不得不把课程号和课程名也删除了！转换的方法就是把可以拆分的字段进行拆分，即把[选修课程成绩]分解成3个字段：[课程号]，[课程名]，[成绩]。

变成下面满足第一范式的表：表二满足第一范式的表2、第二范式（2NF）一个关系应满足1NF是最起码的条件。

但是，仅满足1NF的关系还可能存在一些问题。

无损分解与函数依赖的判断

一：大部分是对一个关系模式分解成两个模式的考察，分解为三个以上模式时无损分解和保持依赖的判断比较复杂，考的可能性不大，因此我们只对“一个关系模式分解成两个模式”这种类型的题的相关判断做一个总结。

以下的论述都基于这样一个前提：R是具有函数依赖集F的关系模式，（R1 ，R2）是R的一个分解。

首先我们给出一个看似无关却非常重要的概念：属性集的闭包。

令α为一属性集。

我们称在函数依赖集F下由α函数确定的所有属性的集合为F下α的闭包，记为α+ 。

下面给出一个计算α+的算法，该算法的输入是函数依赖集F和属性集α，输出存储在变量result中。

算法一：result:=α;while(result发生变化)dofor each 函数依赖β→γ in F dobeginif β∈result then result:=result∪γ;end属性集闭包的计算有以下两个常用用途：·判断α是否为超码，通过计算α+（α在F下的闭包），看α+ 是否包含了R中的所有属性。

若是，则α为R的超码。

·通过检验是否β∈α+，来验证函数依赖是否成立。

也就是说，用属性闭包计算α+，看它是否包含β。

（请原谅我用∈符号来表示两个集合之间的包含关系，那个表示包含的符号我找不到，大家知道是什么意思就行了。

）看一个例子吧，2005年11月系分上午37题：● 给定关系R(A1，A2，A3，A4)上的函数依赖集F={A1→A2，A3→A2，A2→A3，A2→A4}，R的候选关键字为________。

（37）A. A1 B. A1A3 C. A1A3A4 D. A1A2A3首先我们按照上面的算法计算A1+ 。

result=A1，由于A1→A2，A1∈result，所以resul t=result∪A2=A1A2由于A2→A3，A2∈result，所以result=result∪A3=A1A2A3由于A2→A4，A2∈result，所以result=result∪A3=A1A2A3A4由于A3→A2，A3∈result，所以result=result∪A2=A1A2A3A4通过计算我们看到，A1+ =result={A1A2A3A4}，所以A1是R的超码，理所当然是R的候选关键字。

数据库系统原理名词解释

名词解释1.数据独立性：是指应用程序和数据库的数据结构之间相互独立，不受影响。

2.物理数据独立性：就是对内模式的修改尽量不影响逻辑模式，当然对外模式和应用程序的影响更小。

3.逻辑数据独立性：4.DBMS;是指数据库系统中对数据进行管理的软件系统，它是数据库的核心组成部分。

5.关键码;能唯一标识实体的属性或属性集；能唯一标识文件中每个记录的字段或字段集。

6.概念模型：表达用户需求观点的数据全局逻辑结构的模式型7.逻辑模型：表达计算机实现观点的DB全局逻辑结构的模型。

8.外部模型：表达用户使用观点的DB局部逻辑结构的模型。

9.内部模型：表的DB物理结构的模型。

10.外模式：是用户与数据系统的接口，使用户用到的那部分数据的描述。

11.内模式：是数据库在物理方面的描述，定义所有内部记录类型，索引和文件的组织方式，以及数据控制方面的细节。

12.逻辑模式：是数据库中全部数据的整体逻辑结构的描述。

二．1数据库系统的生存期：数据库应用系统从开始规划，设计，实现，维护，到最后被新的系统取代而停止使用的整个时间。

2．DFD（数据流图）：是从“数据”和“对数据的加工”两方面表达数据处理系统工作过程的一种图形表示法，具有直观，已于被用户和软件人员双方都能理解的一种表达系统功能的描述方式。

3.简单属性：是不可在分割的属性。

4.复合属性：是不可分解其他属性的属性。

三．1.数据冗余：是指同一数据在系统中多次重复出现。

2.数据依赖：对于当前关系r的任意两个元组，如果x值相同，则要求Y值也相同，即有一个X值就有一个Y值与之相对应，或者说Y 值由X值决定。

3.平凡函数依赖：4.候选键：X是R的一个超键，如果X→U在R上成立，但对于X的任意一个真子集X1，都有X1→U不成立，那么称X1是R上的一个候选键。

5，无损分解：6第一范式：如果关系模式R的每个关系r的属性值都是不可分的原子值，那么称R是第一范式。

7．第二范式：如果关系R是1ＮＦ，且每个非主属性完全函数依赖候选键。

1、下载文档前请自行甄别文档内容的完整性，平台不提供额外的编辑、内容补充、找答案等附加服务。
2、"仅部分预览"的文档,不可在线预览部分如存在完整性等问题,可反馈申请退款(可完整预览的文档不适用该条件!)。
3、如文档侵犯您的权益，请联系客服反馈,我们会尽快为您处理(人工客服工作时间：9:00-18:30)。

S-D ∈ BCNF， D-L ∈ BCNF
所有的3NF 都是BCNF？
范式：2NF、3NF和BCNF
6. Boyce-Codd范式（BCNF）
例关系模式STJ（S，T，J）中，S表示学生，T表示教师，J表示课程。每一教师只教一门课。每门课有若干教师，某一学生选定某门课，就对应一个固定的教师。由语义可以得到函数依赖
3NF不能彻底消除更新异常
结论：3NF可以消除一些2NF中存在的更新异常，
范式：2NF、3NF和BCNF
6. Boyce-Codd范式（BCNF）
Boyce-Codd 范式 (Boyce-Codd Normal Form ，简称 BCNF）——— R∈INF，且每一个决定因素都包含键，则R∈BCNF。在S-D（S#,SD）和 D-L（SD,SL）中：
➢ 各范式之间的联系有 5NF 4NF BCNF 3NF 2NF 1NF
➢ 并不总是需要达到最高范式
范式：2NF、3NF和BCNF
2. 实例
例，有一个关系模式S-L-C（S#，SD，SL，C#，G），其中S#为学生的学号，SD为学生所在系，SL为学生的住处，并且每个系的学生住在同一个地方，C#为课程号，G为成绩。这里键为（S#，C#）。
T →J ；（S，J） →T ；（S，T） →J 键为（S，J），（S，T）分析：（1）没有非主属性，所以，不存在非主属性对键的部分与传递依赖，因此，STJ3NF （2）在T →J中，决定因素 T 不包含键，因此，STJBCNF
结论：并非所有的3NF都是BCNF
范式：2NF、3NF和BCNF
函数依赖有：
F
S# → SD，（S#，C#）→ G 图示
S# → SL，
P
S#
SD
SD → SL，（S#，C#）→ SD
G
P （S#，C#）→ SL
C#
SL
范式：2NF、3NF和BCNF
3. 第一范式（INF）
第一范式（First Normal Form，简写为1NF） —— 如果一张表不含有多值属性（有时称为重复字段）和内部结构（比如记录类型）的列，则称该表为第一范式
范式：2NF、3NF和BCNF
如果一个模式属于BCNF，在函数依赖的范畴内，彻底消除了更新
异常吗？
如果一个模式属于BCNF，在数据依赖的范畴内，彻底消除了更新
异常吗？
Yes
No
其它的数据
依赖也会产
生更新异常
其它设计考虑
其它设计考虑
➢ 反规范化设计是为了提高查询效率
➢ 进行反规范化设计后，需要采取措施，处理可能出现的更新异常
分析： S-C的键为（S#，C#）， S-L的键为S#，不存在非主属性对键的部分函数依赖。
结果： S-C ∈ 2NF ； S-L ∈ 2NF
问题：
S-C和S-L中消除了1NF 中的某些更新异常，但
仍然存在更新异常
范式：2NF、3NF和BCNF
4. 第二范式（2NF）
在S-L（S#,SD,SL）和S-C（S#，C#，G）中
第3章（4）范式及无损分解
一．范式：2NF、3NF和BCNF 二. 其它设计考虑
范式：2NF、 3NF和BCNF
范式：2NF、3NF和BCNF
1. 范式(Normal Forms)
➢ 范式的定义：关系数据库中符合某一级别的关系模式的集合。所谓“第几范式”，是表示关系的某一种级别，R为第几范式就可以写成 R ∈ xNF
☆ 一个学生修很多课程
√
☆ 一个学生转系
√
☆ 插入一个尚未选课的学 √
生信息
☆ 一个学生只选修了一门 √
课，但现在决定不选了
☆ 一个系有很多学生，且 ×
同系学生住在一个地方
☆ 一个学生转系
×
☆ 一个新系创建但新生尚 ×
未注册
☆ 一个系所些1NF中存在的更新异常，但不能彻底消除更新异常
S-L-C：
G
S#
SD
C#
SL
➢ 分析：存在非主属性对键的部分函数依赖 ➢ 结果：S-L-C∈1NF，但S-L-C ∉ 2NF
➢ 分解：将S-L-C分解为：S-L(S#,SD,SL)，和S-C(S#,C#,G）
范式：2NF、3NF和BCNF
4. 第二范式（2NF）
S-C
S# G
C#
S-L
S#
SD
SL
➢ 关系模式S-L-C(S#,SD,SL,C#,G)∈1NF ➢ 关系模式S-L-C存在更新异常、插入异常和删
除异常
范式：2NF、3NF和BCNF
4. 第二范式（2NF）
第二范式（Second Normal Form，简称2NF） —— 若R∈ INF，且每一个非主属性完全函数依赖于键，则R ∈2NF。
范式：2NF、3NF和BCNF
5. 第三范式（3NF）
第三范式（Third Normal Form，简称3NF）
—— 若R∈2NF，且每一个非主属性不传递函数依赖于键，则R∈3NF。
S-C
S# G
S-L S#
SD
C#
SL
➢ 分析： S-C的键为（S#，C#），不存在非主属性对键的传递函数依赖。S-L的键为S#，存在非主属性对键的传递函数依赖S#→SL。
小结：
S-L-C
S#
SD
G
C#
SL
S-C
S-D
D-L
S#
S#
SD SD SL
G
C#
分析：S-C的键为（S#，C#），决定因素包含键； S-D的键为S#，决定因素包含键； D-L的键为SD，决定因素包含键。
结果：S-C ∈ BCNF， S-D ∈ BCNF， D-L ∈ BCNF
因此，S-L-C分解成了三个BCNF：S-C（S#，C#，G）， S-D（S#，SD），D-L（SD，SL）。
Questions?
问题讨论
1. 实际上，进行规范化的目的是为了避免更新异常和提高更新代价；而有时规范化产生的高范式会降低有些查询的代价。这种说法对吗？你在设计数据库模式时，会采取什么方法？
➢ 结果： S-C 3NF ； S-L 3NF ➢ 分解：将S-L分解为：S-D（S#,SD）和 D-L（SD,SL）
范式：2NF、3NF和BCNF
5. 第三范式（3NF）
S-D
D-L
S#
SD
SD
SL
➢ 分析： S-D的键为S#， D-L的键为SD，不存在非主属性对键的传递函数依赖。
➢ 结果： S-D∈3NF ； D-L∈3NF
➢ 问题： S-D和D-L中消除了前面的更新异常了吗？
3NF存在更新异常吗？
范式：2NF、3NF和BCNF
5. 第三范式（3NF）
在S-D（S#,SD）和 D-L（SD,SL）中：
☆ 一个系有很多学生，且 √
同系学生住在一个地方
☆ 一个学生转系
√
☆ 一个新系创建但新生尚 √
未注册
☆ 一个系所有学生毕业了 √