3哈希函数的构造方法

合集下载

hash原理和实现方式

Hash原理和实现方式1. 介绍Hash（哈希）是一种将任意长度的输入数据转换为固定长度输出的算法。

该算法通过将输入数据映射到一个固定大小的哈希值来实现。

哈希函数通常用于数据完整性校验、密码学以及数据索引等领域。

本文将详细解释Hash的基本原理和实现方式，并介绍一些常见的Hash算法。

2. Hash函数基本原理Hash函数是Hash算法的核心组成部分，它接受任意长度的输入数据，并生成一个固定长度的哈希值。

2.1 确定性Hash函数应该是确定性的，即对于相同的输入数据，始终生成相同的哈希值。

这样可以保证在相同条件下产生相同结果，便于验证和比较。

2.2 均匀性理想情况下，Hash函数应该能够将不同的输入数据均匀地映射到不同的哈希值上。

这样可以最大程度地避免冲突，提高哈希表等数据结构的效率。

2.3 不可逆性Hash函数应该是不可逆的，即从哈希值无法推导出原始输入数据。

这样可以保护敏感信息和密码等重要数据的安全。

2.4 固定长度Hash函数应该生成固定长度的哈希值，无论输入数据的长度如何。

这样可以方便存储和比较哈希值。

3. Hash算法实现方式Hash算法有多种实现方式，下面介绍几种常见的实现方式。

3.1 分组Hash算法分组Hash算法将输入数据分成多个固定大小的块，然后对每个块进行处理，并生成最终的哈希值。

3.1.1 MD5（Message Digest Algorithm 5）MD5是一种广泛使用的分组Hash算法，它接受任意长度的输入数据，并生成一个128位（16字节）的哈希值。

MD5主要用于数据完整性校验和密码存储等领域。

然而，由于其安全性较低和易受到碰撞攻击，已经不再推荐使用。

3.1.2 SHA-1（Secure Hash Algorithm 1）SHA-1是一种与MD5类似的分组Hash算法，它接受任意长度的输入数据，并生成一个160位（20字节）的哈希值。

SHA-1在密码学领域中仍然广泛使用，但也存在安全性问题。

蜂考数据结构答案

蜂考数据结构答案1.什么是数据结构?数据结构是计算机存储、组织数据的方式。

数据结构是指相互之间存在一种或多种特定关系的数据元素的集合。

结构包括逻辑结构和物理结构。

数据的逻辑结构包括4种(1)集合：数据元素之间除了有相同的数据类型再没有其他的关系(2)线性结构：数据元素之间是一对一的关系——线性表、栈、队列(3)树形结构：数据元素之间是一对多的关系(4)图状结构：数据元素之间是多对多的关系。

物理结构包括顺序存储结构和链式存储结构。

2.解释一下顺序存储与链式存储顺序存储结构是用一段连续的存储空间来存储数据元素，可以进行随机访问，访问效率较高。

链式存储结构是用任意的存储空间来存储数据元素，不可以进行随机访问，访问效率较低。

3.头指针和头结点的区别?头指针：是指向第一个节点存储位置的指针，具有标识作用，头指针是链表的必要元素，无论链表是否为空，头指针都存在。

头结点：是放在第一个元素节点之前，便于在第一个元素节点之前进行插入和删除的操作，头结点不是链表的必须元素，可有可无，头结点的数据域也可以不存储任何信息。

4.线性结构的特点(1)集合中必存在唯一的一个"第一个元素";(2)集合中必存在唯一的一个"最后的元素";(3)除最后元素之外，其它数据元素均有唯一的"后继";(4)除第一元素之外，其它数据元素均有唯一的"前驱"。

5.数组和链表的区别?从逻辑结构来看：数组的存储长度是固定的，它不能适应数据动态增减的情况。

链表能够动态分配存储空间以适应数据动态增减的情况，并且易于进行插入和删除操作。

从访问方式来看：数组在内存中是一片连续的存储空间，可以通过数组下标对数组进行随机访问，访问效率较高。

链表是链式存储结构，存储空间不是必须连续的，可以是任意的，访问必须从前往后依次进行，访问效率较数组来说比较低。

如果从第i个位置插入多个元素，对于数组来说每一次插入都需要往后移动元素，每一次的时间复杂度都是O(n)，而单链表来说只需要在第一次寻找i的位置时时间复杂度为O(n)，其余的插入和删除操作时间复杂度均为O(1)，提高了插入和删除的效率。

第七章-哈希表

哈希表又称散列表,实际上就是一个数组。

哈希函数是一个用来求存储在哈希的关键字在哈希表的地址下标的函数.比如一个哈希表int hashtable[5];现在有下面4个数要存入到哈希表中:（3，15，22，24）给定一个哈希函数: H(k)=k % 5最终数据存储如下图：理想情况下，哈希函数在关键字和地址之间建立了一个一一对应关系，从而使得查找只需一次计算即可完成。

由于关键字值的某种随机性，使得这种一一对应关系难以发现或构造。

因而可能会出现不同的关键字对应一个存储地址。

即k1≠k2，但H(k1)=H(k2)，这种现象称为冲突。

把这种具有不同关键字值而具有相同哈希地址的对象称“同义词”。

在大多数情况下，冲突是不能完全避免的。

这是因为所有可能的关键字的集合可能比较大，而对应的地址数则可能比较少。

对于哈希技术，主要研究两个问题：（1）如何设计哈希函数以使冲突尽可能少地发生。

（2）发生冲突后如何解决。

哈希函数的构造方法:构造好的哈希函数的方法，应能使冲突尽可能地少，因而应具有较好的随机性。

这样可使一组关键字的散列地址均匀地分布在整个地址空间。

根据关键字的结构和分布的不同，可构造出许多不同的哈希函数。

1．直接定址法直接定址法是以关键字k本身或关键字加上某个数值常量c作为哈希地址的方法。

该哈希函数H(k)为：H(k)=k+c (c≥0)这种哈希函数计算简单，并且不可能有冲突发生。

当关键字的分布基本连续时，可使用直接定址法的哈希函数。

否则，若关键字分布不连续将造成内存单元的大量浪费。

2．除留余数法(注意：这种方法常用)取关键字k除以哈希表长度m所得余数作为哈希函数地址的方法。

即：H(k)=k ％m这是一种较简单、也是较常见的构造方法。

这种方法的关键是选择好哈希表的长度m 。

使得数据集合中的每一个关键字通过该函数转化后映射到哈希表的任意地址上的概率相等。

理论研究表明，在m 取值为素数（质数）时，冲突可能性相对较少。

第21讲哈希表(1)

哈希地址。同义词：造成冲突的关键值。
构造好的哈希函数
好的哈希函数（均匀的哈希函数）：哈希地址均匀分布在整个地址空间，冲突次数少。
第九章查找
构造哈希函数的方法
对数字数字的关键字可有下列构造方法: 数字 1. 直接定址法 2. 数字分析法 3. 平方取中法 4. 折叠法 5. 除留余数法 6. 随机数法
239 385 878 ＋） 4 1 1543 239 583 878 ＋） 1 4 1714
叠加
H(key) = 543
H(key) = 714
第九章查找
习题：有一关键字为key = 347256198，若表长为1000，请使用移位叠加法和间界叠加法计算哈希地址。
分组： 347 256 198 移位叠加
347 256 198 801
间
743 256 891 890
界叠加
H(key) = 801
H(key) = 890
第九章查找
5. 除留余数法
设定哈希函数为: 设定哈希函数为 H(key) = key MOD p 其中其中，p≤m (表长) 表长) p应为不大于 m 的素数并且应为不大于或是不含 20 以下的质因子可以保证哈希地址在有效的地址空间之内。可以保证哈希地址在有效的地址空间之内。
第九章查找
哈希函数的好坏，必须结合查找表的情况来分析好哈希函数的特点： ①计算效率高； ②函数值不越界； ③函数值的分布均匀。一般的哈希函数设计方法多开辟空间，以减少冲突。装填因子＝表中记录数 / 表长度一般而言，装填因子越大，冲突可能性大。
第九章查找
三、处理冲突的方法处理冲突的方法 “处理冲突的实际含义是：处理冲突” 处理冲突

9.3 哈希表

6/28/2020
9.3.3、处理冲突的方法法 1. 开放定址法
为产生冲突的地址 H(key) 求下一个哈希地址，如果该地址还冲突，则再给出下一个地址，由此得到一个地址序列：
H0, H1, H2, …, Hs 1≤ s≤m-1
其中：H0 = H(key)
Hi = ( H(key) + di ) MOD m i=1, 2, …, s
1
3
条件：表长 m 应为形如 4j+3 的素数
（如: 7, 11, 19, 23, … 等）
Hi = ( H(key) + di ) MOD m， i=1, 2, …, s 3) 随机探测再散列
di 是一组伪随机数列或者
di=i×H2(key) (又称双散列函数探测)
例如: 关键字集合
{ 19, 01, 23, 14, 55, 68, 11, 82, 36 }
ADT HashTable is
Data
HashTable;
Operations
initiate()
初始化Hash表
hash(key) Hash函数
search(key) 查找key
insert(key) 插入key
delete(key) 删除key
reCreate(size) 重建Hash表, 新表空间大于旧表, 旧表中的元素按新表的Hash函数插入新表中
设定哈希函数 H(key) = key MOD 11 ( 表长=11 )
6/28/2020
1 直接定址法取关键字或关键字的某个线性函数作哈希地址，
即H(key)=key 或 H(key)=a·key+b(a,b为常数) 特点：直接定址法所得地址集合与关键字集合大小

数据结构第4章

例子

假设要建立一个地址区间长度为13的哈希表，哈希函数为 H(key) = Ord(关键字第一个字母)-1)/2 其中函数Ord求字母在字母表中的序号。例如，字母A在字母表中的序号为1， Ord(‘A’)=1。现将关键字依次为Zhao, Qian, Sun, Li, Wu, Chen, Han的 7 个记录插入该哈希表。

例子

例如构造一个数据元素个数n = 60，哈希地址空间长度m = 100 的哈希表。对关键字分析发现，关键字的第 1、2、3、6位取值比较集中，不宜作为哈希地址，
…… 8 8 8 8 8 8 8 8 1 1 2 1 2 2 1 1 3 3 7 3 7 7 3 3 1 2 3 4 0 7 8 7 6 9 3 6 4 1 6 8 6 6 8 6 2 0 7 2 3 1 3 6 2 5 8 4 5 8 2
数据结构
广东工业大学计算机学院
第4章哈希表
第4章哈希表

4.1 哈希表的概念 4.2 哈希函数的构造方法

4.2.1 直接定址法 4.2.2 除留余数法 4.2.3 数字分析法 4.2.4 折叠法 4.2.5 平方取中法 4.3.1 开放定址法 4.3.2 链地址法链地址哈希表的实现开放定址哈希表的实现
移位叠加 0040 1108 1053 0216 + 9891 (1)2308

Z形叠加 0040 8011 1053 6120 + 9891 (2)5115
4.2.5 平方取中法

平方取中法先取关键字的平方，然后根据哈希表地址区间长度m的大小，选取平方数的中间若干位作为哈希地址。通过取平方扩大关键字之间的差别，而平方值的中间若干位和这个数的每一位都相关，使得不同关键字的哈希函数值分布较为均匀，不易产生冲突。设哈希表地址区间长度为1000，可取关键字平方值的中间三位。

几种常见的哈希函数(散列函数)构造方法

几种常见的哈希函数（散列函数）构造方法哈希函数（散列函数）是一种将数据映射到固定长度的哈希值的函数。

它广泛应用于密码学、数据结构和网络安全等领域。

在设计哈希函数时，我们希望它能够将不同的输入映射到尽可能均匀的输出空间中，同时尽量避免冲突和哈希碰撞。

下面介绍几种常见的哈希函数构造方法。

第一种是除留余数法。

它是一种简单的哈希函数，将输入除以一些数并取余数作为哈希值。

这种方法简单快捷，适用于输入数据分布均匀的情况。

但是当输入数据分布不均匀时，容易导致冲突。

第二种是乘法哈希法。

这种方法将输入乘以一个常数，再取结果的小数部分或整数部分作为哈希值。

这种方法能够在一定程度上消除冲突，并且适用于输入数据分布不均匀的情况。

第三种是平方取中法。

该方法先将输入的平方，然后取中间的几位作为哈希值。

这种方法能够较好地消除冲突，但在数据集比较大的情况下，可能会增加计算的复杂度。

第四种是位运算法。

这种方法通常用于处理整数数据。

它将输入的整数进行移位、异或、与、或等位运算，最后得到哈希值。

这种方法在处理整数数据时效果比较好，但对于其他类型的数据可能不太适用。

第五种是分组法。

这种方法将输入数据分为若干个组，对每个组分别应用其他的哈希函数，最后合并得到哈希值。

这种方法可以很好地处理大规模数据，并且能够在一定程度上消除冲突。

第六种是加法哈希法。

该方法将输入的每个字符转化为对应的ASCII 码，然后将这些ASCII码值相加并取余数作为哈希值。

这种方法非常简单，但会导致冲突较多。

除了以上几种常见的哈希函数构造方法外，还有一些其他的方法，比如，有序统计量法、折叠法、循环冗余校验（CRC）等。

不同的哈希函数有不同的优缺点，我们可以根据具体的应用场景选择适合的哈希函数。

此外，为了提高哈希函数的性能，还可以使用哈希函数加速技术，如布谷鸟哈希等。

数据结构第9章查找4-哈希表

7、随机数法 Hash(key) = random ( key ) (random为伪随机函数)
适用于：关键字长度不等的情况。造表和查找都很方便。
小结：构造哈希函数的原则：
① ② ③ ④ ⑤ 执行速度（即计算哈希函数所需时间）；关键字的长度；哈希表的大小；关键字的分布情况；查找频率。
三、冲突处理方法
14 H(14)=14%7=0
6个元素用7个地址应该足够!
1
2
23 9
3
4
39 25 11
5
6
H(25)=25%7=4 H(11)=11%7=4
有冲突！
在哈希查找方法中，冲突是不可能避免的，只能尽可能减少。
所以，哈希方法必须解决以下两个问题：
1）构造好的哈希函数
（a）所选函数尽可能简单，以便提高转换速度；（b）所选函数对关键码计算出的地址，应在哈希地址集中大致均匀分布，以减少空间浪费。
讨论：如何进行散列查找？
根据存储时用到的散列函数H(k)表达式，迅即可查到结果！例如，查找key=9,则访问H(9)=9号地址，若内容为9则成功；若查不到，应当设法返回一个特殊值，例如空指针或空记录。
缺点：空间效率低！
若干术语
哈希方法 (杂凑法)
选取某个函数，依该函数按关键字计算元素的存储位置，并按此存放；查找时，由同一个函数对给定值k计算地址，将k与地址单元中元素关键码进行比较，确定查找是否成功。
3. 乘余取整法
4. 数字分析法
5. 平方取中法
常用的哈希函数构造方法有：
6. 折叠法
7. 随机数法
1、直接定址法
(a、b为常数) 优点：以关键码key的某个线性函数值为哈希地址，不会产生冲突. 缺点：要占用连续地址空间，空间效率低。

1、下载文档前请自行甄别文档内容的完整性，平台不提供额外的编辑、内容补充、找答案等附加服务。
2、"仅部分预览"的文档,不可在线预览部分如存在完整性等问题,可反馈申请退款(可完整预览的文档不适用该条件!)。
3、如文档侵犯您的权益，请联系客服反馈,我们会尽快为您处理(人工客服工作时间：9:00-18:30)。

第六章．哈希函数
6.1.哈希函数
当我们对长的文件使用DSS签名时，需要把文件切成160 位的块并逐块分别签名，最后拼接起来构成整个文件的签名。这样做存在问题是：
文件的签名太长. 使用安全性好的签名算法，计算签名的时间花费
太多. 将所有签名段的重新排序或删除其中一些段，最后仍然.
例如： x x1 x2 xk ， f ( x) xi 满足基本要求但不 i 1 满足单向性3）。 p, q 是大素数， n p q ，不满足1） g ( x) x 2 modn ，和4）5）。
为什么要提出性质3）4）和5）呢？如果哈希函数不满足3），则对手有可能用特定签名方案伪造随机消息摘要z 上的签名。例如对手掌握随机消息摘要z 上的签名y，他可以找到消息 x 使 z h( x) ，则 ( x, y ) 就是合格的伪造品。为此我们希望哈希函数满足单向性质。
6.1.1哈希函数的性质哈希函数应满足的要求是： h( x) 固定长； 1) 压缩—— x 任意长， 2) 容易从 x 计算出 h( x) 。 3) 单向性(one-way)——基本上对所有事先指定的 y R ，找到 x 使 h( x) y 在计算上是困难的； 4) 弱抗碰撞(Weak Collision Resistance) ——已知 x ，找 x x 使 h( x) h( x) 在计算上是困难的； 5) 强抗碰撞(Strong Collision Resistance)——找任两个不同的输入 x x ，使 h( x) h( x) 在计算上是困难的. 其中1）2）是对哈希函数的基本要求。

以下两点提供了简单有效的构造方法。
1)任何强抗碰撞的压缩函数都可以扩展成一个强抗碰撞的哈希函数。 2)若 h1 ( x) 或 h2 ( x) 是强抗碰撞哈希函数，则 h( x) h1 ( x) || h2 ( x) 强抗碰撞的哈希函数。
由此可知，设计安全的哈希函数的难题变成设计一固定长输入的抗碰撞压缩函数。
k
如果我们不是对消息本身签名而是对消息摘要签
名，那么就希望哈希函数满足性质4）。否则对手看到A在上的签名 h( x)后去找 x x 使 h( x) h( x) ，而且声称A是对 x 签名。如果让对手能自己选送消息请A签名，则要求哈希函数满足性质5）。否则对手找一对 x, x 使得 h( x) h( x) ，对手先让A对 x 签名，而后声称A是对 x 签名。不难看出由性质5）可以推出性质4）。但是由性质 5）不能推出性质3）。例如：g是满足性质5）的哈希函数，定义 1 || x h( x) 0 || g ( x) 。那么取以1打头长度为n+1的y，它的原象就是y的后面n位。
6.1.2 哈希函数的用法哈希函数是一种消息认证码(Message Authentication Code)，它对消息产生一个短小的值。哈希函数是整个消息x的函数，消息中任意一位改变都将引起哈希函数值的改变。所谓认证是指一个证实收到的消息源可信且未被篡改的过程。有多种使用哈希函数方式来提供消息认证。已知 A和B共享密钥K，如果A发送给B 1) EK ( x || h( x)) 提供保密（仅双方共享K）和认证（加密保护哈希值）. 2)
密码学哈希函数(Cryptography Hash Function)的基本思想是把哈希函数值 h( x) 看成 x 的压缩代表（称为Imprint, Message Digest），即 x 中任意一位发生变化都将引起函数值的变化。 h( x ) 这样我们可以用对的签名代替对的签名。 x D， R 把任意有限长的 h : D， R h 哈希函数输入行映射到固定长的行。哈希函数的值域与定义域相比规模要小得多，它是“多对一”的映射。所谓碰撞(Collision)是指定义域的两个不同元素 x1 , x 2 h( x上。哈希函数存在碰映射到同一个象 1 ) h( x2 ) h( x ) 撞是必然的。我们把和 x从计算意义上唯一地联系在一起，而找到碰撞在计算上是困难的。
6.1.3 哈希函数的构造方法
大多数重要的哈希函数设计成迭代过程。 H 0 IV 为初值，H i 是第 i 阶段与 i +1阶段间的链接变量。 f 是哈希函数的压缩函数，x i 是 r 位，f ( xi , H i1 ) 是 n 位，g 是输出变换. 哈希函数 h( x) 的输入是 x 。首先对 x 进行预处理使之长度是 r 的整倍数， x x1 x2 xt ，x i 是 r 位，1 i t 。再令 H IV ， 0 对 i 1,2,, t 做 H i f ( xi , H i1 ) 。最后令函数值 h( x) g ( H t ) 。
x || EK (h( x)) 提供认证（加密保护哈希值）.
3)
x || E K (Sig A (h( x))) 提供认证和数字签名（加密保护
哈希值，仅发送方能生成签名）. 4) EK ( x || Sig A (h( x))) 提供保密（仅双方共享K）、认证和数字签名. 5) x || h( x || S ) 提供保密、认证和数字签名（仅双方共享S） . 6) EK ( x || h( x || S )) 提供保密、认证和数字签名（仅双方共享K,S） . 对于不需要消息保密的应用中使用2）3）可以降低计算量。由于加密软件慢、硬件费用高、加密算法专利保护、出口限制等等因素，人们倾向不使用带有加密的方法，而采用5）。