8.3.4 冲突处理技术之双散列法

合集下载

散列算法(也叫摘要算法)

散列算法（也叫摘要算法）散列算法（也叫摘要算法）是一种将任意长度的数据映射为固定长度散列值的算法。

它的主要功能是将输入数据压缩成一个固定长度的散列值，以便在数据存储、比较和检索等操作中快速查找数据，而不需要保留原始数据。

散列算法被广泛应用于密码学、数据完整性验证、数字签名、内容寻址和数据结构等领域。

散列算法的基本原理是将输入数据进行数学转换，经过一系列的操作，输出一个固定长度的散列值。

不同的输入数据会产生不同的散列值，即使只有一个比特的差异。

这种特性使得散列算法适用于唯一标识大量数据的场景，例如在密码验证中，可以将用户输入的密码经过散列算法处理后，与数据库中存储的散列值进行比较，而不需要直接存储用户的原始密码，从而提高了安全性。

散列算法的设计目标包括：1.处理速度快：散列算法需要高效地处理大量数据，以便在实时应用中实现快速的数据处理和查询。

2.均匀分布：散列算法应该能够将输入数据均匀分布到散列值空间中，以减少碰撞（即不同数据产生相同散列值的情况）的概率，提高散列算法的效果。

3.不可逆性：散列算法应是不可逆的，即不应该能够通过散列值反推原始数据。

这样可以保证数据的机密性，同时在密码学中也能够提供不可伪造的数字签名。

常用的散列算法包括：1. MD5（Message Digest Algorithm 5）：MD5是一种常见的散列算法，可以将任意长度的数据转换为128位的散列值。

然而，由于其设计上的弱点，MD5已经不再被推荐在安全领域使用，因为存在碰撞攻击（即找到两个不同的输入数据，但散列值相同的情况）的风险。

2. SHA（Secure Hash Algorithm）：SHA系列算法是美国国家标准技术研究所（NIST）设计的一系列散列算法。

包括SHA-1、SHA-256、SHA-512等不同长度的散列值。

SHA-1也已经不再被推荐在安全领域使用，而SHA-256和SHA-512仍然被广泛应用。

3. CRC（Cyclic Redundancy Check）：CRC算法是一种用来检测和纠正数据传输错误的算法，常用于数据完整性验证。

数据结构与算法分析java——散列

数据结构与算法分析java——散列1. 散列的概念散列⽅法的主要思想是根据结点的关键码值来确定其存储地址：以关键码值K为⾃变量，通过⼀定的函数关系h(K)(称为散列函数)，计算出对应的函数值来，把这个值解释为结点的存储地址，将结点存⼊到此存储单元中。

检索时，⽤同样的⽅法计算地址，然后到相应的单元⾥去取要找的结点。

通过散列⽅法可以对结点进⾏快速检索。

散列（hash，也称“哈希”）是⼀种重要的存储⽅式，也是⼀种常见的检索⽅法。

按散列存储⽅式构造的存储结构称为散列表（hash table）。

散列表中的⼀个位置称为槽(slot)。

散列技术的核⼼是散列函数(hash function)。

对任意给定的动态查找表DL，如果选定了某个“理想的”散列函数h及相应的散列表HT，则对DL中的每个数据元素X。

函数值h（X.key）就是X在散列表HT中的存储位置。

插⼊（或建表）时数据元素X将被安置在该位置上，并且检索X时也到该位置上去查找。

由散列函数决定的存储位置称为散列地址。

因此，散列的核⼼就是：由散列函数决定关键码值(X.key)与散列地址h(X.key)之间的对应关系，通过这种关系来实现组织存储并进⾏检索。

⼀般情况下，散列表的存储空间是⼀个⼀维数组HT[M]，散列地址是数组的下标。

设计散列⽅法的⽬标，就是设计某个散列函数h，0<=h( K ) < M；对于关键码值K，得到HT[i] = K。

在⼀般情况下，散列表的空间必须⽐结点的集合⼤，此时虽然浪费了⼀定的空间，但换取的是检索效率。

设散列表的空间⼤⼩为M，填⼊表中的结点数为N，则称为散列表的负载因⼦（load factor，也有⼈翻译为“装填因⼦”）。

建⽴散列表时，若关键码与散列地址是⼀对⼀的关系，则在检索时只需根据散列函数对给定值进⾏某种运算，即可得到待查结点的存储位置。

但是，散列函数可能对于不相等的关键码计算出相同的散列地址，我们称该现象为冲突（collision），发⽣冲突的两个关键码称为该散列函数的同义词。

hash查找

第26页，共32页。
例8-6 以{14,1,68,27,55,23,11,10,19,20,79,84} , 构造 hash表。hash表长度为17, hash(key)=key % 17。
解决冲突——公共溢出区。
hash 表：
0 1 2 3 4 5 6 7 8 9 10 11 12 13 14 15 16
27
10
11
79
14
84 第18页，共32页。
二、开放定址法
当冲突发生时，使用某种方法在散列表中形成一个探查序列，沿着此序列逐个地址去探查，直到找到一个开放的地址（空位置），将发生冲突的键值放到该地址中。（1）线性探查法（2）二次探测法（3）再散列探查法。
第19页，共32页。
（1）线性探测法
n （d+h2(k))%m,
n （d+2h2(k))%m,
n （d+3h2(k))%m,
n ……..
h2的选取方法为：
若m为素数：h2(k)=k%(m-2)+1 若m为2i：h2(k)=1～m-1之间的任一奇数。（这样总保证使h2(k)和m互质）。
第25页，共32页。
三、公共溢出区法
对具有相同散列地址的记录，将第1个放在 hash表中，其余的都存储在同一个溢出区中。
体，并从中提取分布均匀的若干位或它们的组合作为地址。
参见教材 P278
仅限于：能预先估计出全体关键字的每一位
上各种数字出现的频度。
第9页，共32页。
（3）平方取中法
若关键字的每一位都有某些数字重复出现频度
很高的现象，则先求关键字的平方值，以通过“平方” 扩大差别，同时平方值的中间几位受到整个关键字中

散列法

字符组成的字符串转换为固定长度的数值或索引值的方法
01 定义
03 哈希函数
目录
02 散列算法
基本信息
散列法（Hashing）或哈希法是一种将字符组成的字符串转换为固定长度（一般是更短长度）的数值或索引值的方法，称为散列法，也叫哈希法。由于通过更短的哈希值比用原始值进行数据库搜索更快，这种方法一般用来在数据库中建立索引并进行搜索，同时还用在各种解密算法中。
散列算法
散列算法
也称为哈希函数——哈希的英文意思为“无用信息”，因此哈希函数一词的由来可能是因为最终形成的哈希表里面是各种看起来没有用的数字。除用来快速搜索数据外，散列法还用来完成签名的加密解密工作，这种签名可以用来对收发消息时的用户签名进行鉴权。先用哈希函数对数据签名进行转换，然后将数字签名本身和转换后的信息摘要分别独立的发送给接收人。通过利用和发送人一样的哈希函数，接收人可以从数字签名获得一个信息摘要，然后将此摘要同传送过来的摘要进行比较，这两个值相等则表示数字签名有效。
哈希函数
哈希函数
1）余数法：先估计整个哈希表中的表项目数目大小。然后用这个估计值作为除数去除每个原始值，得到商和余数。用余数作为哈希值。因为这种方法产生冲突的可能性相当大，因此任何搜索算法都应该能够判断冲突是否发生并提出取代算法。
2）折叠法：这种方法是针对原始值为数字时使用，将原始值分为若干部分，然后将各部分叠加，得到的最后四个数字（或者取其他位数的数字都可以）来作为哈希值。
哈希函数并不通用，比如在数据库中用能够获得很好效果的哈希函数，用在密码学或错误校验方面就未必可行。在密码学领域有几个著名的哈希函数。这些函数包括 MD2、MD4以及MD5，利用散列法将数字签名转换成的哈希值称为信息摘要（message－digest），另外还有安全散列算法（SHA），这是一种标准算法，能够生成更大的（60bit）的信息摘要，有点儿类似于MD4算法。

8.3.2 冲突处理技术之线性探查法

影响搜索； 2. 删除元素后，该位置能够重新使用。
改进的散列表删除操作
解决的办法： 1. 为每个位置增加标志域empty，表示该位置是否使用过 2. 删除元素时，不改变标志位，仍为false，元素值改为NeverUsed
0 1 2 3 4 5 6 7 8 9 10 NU NU 24 80 58 35 NU 40 NU NU 65 TTFFFFTFTTF
开散列法与闭散列法
相同点 • 都具有一个主散列表和至少一个散列函数 • 对散列函数的要求一致：均分布、计算快速等不同点 • 开散列法将集合元素存储在散列表主表之外 Open Hashing • 闭散列法将集合元素存储在散列表主表之内 Closed Hashing
开散列法与闭散列法
为什么闭散列法又称为开放地址法？
2、回到h(key)（表满）
改进的散列表插入操作
0 1 2 3 4 5 6 7 8 9 10 NU NU 24 80 58 35 N2U 40 NU NU 65 T T F F F F TF F T T F 插入 2 • 搜索，若搜索结果为存在重复元素则插入失败 • 如果搜索不到，但是表已满，则插入失败 • 如果搜索不到，线性探查第一个值为NeverUsed的位置，插入新元
40
65
搜索 35 搜索成功：按照线性探查序列找到35 搜索 25 搜索失败：按照线性探查序列遇到空位置
散列表的搜索操作
散列函数 H(key)=key % 11 0 1 2 3 4 5 6 7 8 9 10 ht 22 23 24 80 58 35 6 40 8 9 65
搜索 25 搜索失败：按照线性探查序列搜索一遍，回到基地址前一位
基位置：h(key) 首次探索的地址
• 如果h(key)已经被占用，需要有一种解决冲突的策略来确定如何探

二次探测再散列法

二次探测再散列法
二次再散列法是指第一次散列产生哈希地址冲突，为了解决冲突，采用另外的散列函数或者对冲突结果进行处理的方法。

散列函数的选择有两条标准：简单和均匀。

简单指散列函数的计算简单快速；
均匀指对于关键字集合中的任一关键字，散列函数能以等概率将其映射到表空间的任何一个位置上。

也就是说，散列函数能将子集K随机均匀地分布在表的地址集{0，1，…，m-1}上，以使冲突最小化。

扩展资料：
设所有可能出现的关键字集合记为U(简称全集)。

实际发生(即实际存储)的关键字集合记为K（|K|比|U|小得多）。

散列方法是使用函数h将U映射到表T[0..m-1]的下标上（m=O(|U|)）。

这样以U 中关键字为自变量，以h为函数的运算结果就是相应结点的存储地址。

从而达到在O(1)时间内就可完成查找。

其中：
①h：U→{0，1，2，…，m-1} ，通常称h为散列函数(Hash Function)。

散列函数h的作用是压缩待处理的下标范围，使待处理的|U|个值减少到m个值，从而降低空间开销。

②T为散列表(Hash Table)。

③h(Ki)(Ki∈U)是关键字为Ki结点存储地址(亦称散列值或散列地址)。

④将结点按其关键字的散列地址存储到散列表中的过程称为散列(Hashing)2、直接把被子晒在大桥的扶手上
1。

哈希表处理冲突的方法

哈希表处理冲突的方法哈希表是一种常见的数据结构，用于实现快速查找和插入操作。

它通过将关键字映射到数组的特定位置来存储数据。

然而，当两个或多个关键字映射到同一个位置时，就会发生冲突。

为了解决冲突，哈希表采用了多种方法。

1. 链地址法（Chaining）：在哈希表中的每个位置上维护一个链表或链表数组。

如果发生冲突，新的数据将被添加到链表的末尾。

这种方法可以处理任意数量的冲突，但需要额外的空间来存储链表。

2. 开放地址法（Open Addressing）：在哈希表中的每个位置上存储一个数据，并通过探测序列来处理冲突。

探测序列是一个确定的规则，用于寻找下一个可用的位置。

常见的探测方法包括线性探测（Linear Probing），二次探测（Quadratic Probing）和双重散列（Double Hashing）。

这种方法不需要额外的存储空间，但可能会导致聚集现象，即连续的冲突会增加查找的时间复杂度。

3. 再哈希法（Rehashing）：当发生冲突时，重新计算关键字的哈希值，并将数据存储在计算得到的新位置上。

这种方法需要额外的存储空间来保存原始数据，但可以避免聚集现象，并减少冲突的概率。

4. 建立公共溢出区（Primary Clustering）：将哈希表分为两个区域，一个区域用于存储主要数据，另一个区域用于存储冲突的数据。

当发生冲突时，将数据存储在冲突区域中。

这种方法可以减少聚集现象的发生，但需要额外的存储空间来存储冲突数据。

5. 完全散列（Perfect Hashing）：在构建哈希表时，通过一系列算法和数据预处理，使得每个关键字都映射到唯一的位置，从而避免冲突。

这种方法需要较高的计算成本和空间消耗，但可以实现最佳的查找和插入性能。

以上所述的方法都是常见的哈希表处理冲突的方式。

在选择合适的方法时，需要考虑数据的特点、内存限制和性能需求等因素。

数据结构的散列与索引技术

数据结构的散列与索引技术散列与索引技术是数据结构中常用的两种方法，用于优化数据的存储和查找过程。

散列技术是通过哈希函数将数据映射到一个固定长度的数组中，而索引技术是通过建立索引表来加速数据检索。

本文将详细介绍散列与索引技术的原理、应用场景以及其在实际开发中的使用方法。

1. 散列技术散列技术是一种将数据映射到哈希表的方法，通过哈希函数将关键字转化为一个数组中的地址，从而实现对数据的快速访问。

散列技术的核心是哈希函数的设计，一个好的哈希函数能够使数据均匀地散列到哈希表中，尽量避免碰撞（即不同的关键字映射到了同一个地址）的发生。

1.1 哈希函数的设计原则一个好的哈希函数应该满足以下几个原则：1.1.1 均匀性原则：哈希函数应能够将数据均匀地散列到哈希表中，避免碰撞的发生。

1.1.2 简单性原则：哈希函数的计算应简单快速，以提高散列效率。

1.1.3 一致性原则：对于相同的关键字，哈希函数应始终返回相同的散列地址。

1.1.4 随机性原则：哈希函数的输出应具有随机性，避免出现特定模式的散列结果。

1.2 常见的散列方法常见的散列方法包括直接定址法、除留余数法、平方取中法等。

除留余数法是最常用的散列方法之一，其思想是通过对关键字取余数来获取散列地址。

例如，对于一个哈希表的大小为n的散列表，哈希函数可以定义为：h(key) = key % n。

2. 索引技术索引技术是建立索引表来加速数据的检索过程。

索引表通常由键值和指向数据的指针组成，可以根据键值快速地查找到对应的数据记录。

索引技术的核心是索引表的设计，索引表的结构应具有高效的查找和更新操作。

2.1 主索引与辅助索引主索引是基于主关键字建立的索引表，通过主索引可以直接找到对应的数据记录。

辅助索引是基于其他非主关键字建立的索引表，通过辅助索引可以加速对数据的查询和过滤操作。

主索引和辅助索引的组合可以构建复杂的索引结构，以满足不同的查找需求。

2.2 B树索引B树是一种常用的平衡多路查找树，广泛应用于数据库系统中的索引结构。

1、下载文档前请自行甄别文档内容的完整性，平台不提供额外的编辑、内容补充、找答案等附加服务。
2、"仅部分预览"的文档,不可在线预览部分如存在完整性等问题,可反馈申请退款(可完整预览的文档不适用该条件!)。
3、如文档侵犯您的权益，请联系客服反馈,我们会尽快为您处理(人工客服工作时间：9:00-18:30)。

散列表
Content 散列技术简介1
常见散列函数2
冲突处理技术3
PART THREE
D 双散列法利用两个散列函数，改善“二次聚集”现象
具备两个散列函数h
1和h
2
，探查序列为：
h1(key), (h1(key)+ h2(key))%M, (h1(key)+ 2h2(key))%M, …,
(h1(key)+ i*h2(key))%M,…
h2的作用：
•对h1散列值产生一个固定增量，实现跳跃式探查
•改善“二次聚集”，对两个散列函数都为同义词的关键字很少
具备两个散列函数h
1和h
2
，探查序列为：
h1(key), (h1(key)+ h2(key))%M, (h1(key)+ 2h2(key))%M, …,
(h1(key)+ i*h2(key))%M,…
h2(key)应该是小于M且与M互质的整数，以保证探测序列能够最多经过M次探测（i=0, 1, …, M-1）即可遍历表中所有地址
若M为素数，则可取h
2
(key)=key % (M-2)+1
(h 1(key)+ i*h 2(key))%M, i =0, 1, …, M -101234567891024801565插入58h 1(key)=58%11=3
h 2(key)=58％9＋1＝5
(h 1(key)＋h 2(key))％11=(3＋5)%11=8
58h 1(key) = key % 11 h 2(key) = key % 9 + 1
(h 1(key)+ i*h 2(key))%M, i =0, 1, …, M -101234567891024801565
插入35h 1(key)=35%11=2
h 2(key)=35％9＋1＝9(h 1(key)＋h 2(key))％11=(2＋9)%11=0
58h 1(key) = key % 11 h 2(key) = key % 9 + 1
35
常见错误
⚫将h
2散列值列入探查序列
(h1(key)+ i*h2(key))%M, i=0, 1, …, M-1
END。