散列函数种类

合集下载

Z0第二十六讲(散列结构和散列函数)

(一) 桶
若散列表有n个逻辑地址，则将其视为具有n 个桶(Bucket)，且为每个桶编号（桶号），并令桶号与散列地址一一对应。设每个桶可存放s 个表项，称它们为同义词（散列函数值相同的关键字称为同义词）。
因此，桶是用于装载冲突项的。当欲装入某桶中的同义词个数大于桶容量时，称为溢出。
对桶的处理不同，就对应于不同的冲突处理方法。
如果是定位冲突，冲突处理是要继续查找所要找的记
录，确定记录是否在散列结构中，若是，则返回其位置，否则返回特殊标记。
26.1.4 散列函数的设计
散列函数的设计是个关键问题，也是个复杂问题。但是，散列函数设计一般没有什么严格的规则，只有一些可以遵从的原则。 (一) 设计原则：
根据散列函数的用途，设计散列函数时一般应遵循下列原则：
例如，已知各关键字如下： key1: 3 3 4 8 9 2
key2: 3 1 8 7 1 1
key3: 3 1 2 9 2 3 key4: 3 2 3 8 1 2 … 分析它们的位的结构，发现第3和第4位对关键字的敏感度较大，所以可以取这两位为散列函数值。显然，这种方法适合于关键字事先已知的情况。
散列也称杂凑或哈希(Hash)。从上面的说明看出，散列结构不是一种完整的
数据存储结构，因为它只是通过数据元素的关键
字定位记录，一般很难完整地表达数据元素间的逻辑关系，所以，一般也主要面向检索操作。显然，由于记录的定位主要基于计算，所以，一般情况下，散列方法的检索速度要比前面介绍
过的基于比较的方法高。但是，散列结构的存储
(二) 开放地址法
这种方法是，将所有的桶都设在地址空间内。每个桶大小为1个表项。一个地址，就是一个桶。在插入时，若发现冲突，在其他位置寻找空桶。有下列几种寻找空桶法。

密码学-散列函数

散列函数的目的是为文件、报文或其他分组数据产生“指纹”，以保障数据的完整性；
散列函数常用于报文鉴别和数字签名；散列函数是一个多对一的函数；
因此在理论上，必定存在不同的报文对应同样的散列，但这种情况在实际中必须不可能出现(计算上不可行)
散列函数本身不是保密的；
散列函数没有密钥的参与，散列值仅仅是报文的函数
1）攻击者对合法报文创建 2m/2 个变种，所有这些变种本质上都和合法报文表示同样的意思；
2）同样，攻击者再对伪造报文创建 2m/2 个变种； 3）比较这两个集合，以期发现任意一对能产生相同散列值的报文
对(合法报文变种、伪造报文变种)，根据生日悖论，找到这样一对报文的概率Pr > 0.5； 4）攻击者向签名者出示合法报文变种，让签名者对合法报文变种的散列值签名；然后攻击者用伪造报文变种代替合法报文变种，并声称签名者对伪造报文变种签名了。由于这两个报文具有相同的散列值，因此欺骗总能成功。
与此相对，如要求选择 K 个人，其中至少有一个人的生日和某个指定的生日相同的概率大于 0.5，问 k 的最小值是多少？（结论是 k >= 365/2 ≈183）
生日攻击
生日悖论实际上是如下问题的特例：已知一个在 1 到 n 之间均匀分布的整数型随机变量，若该变量的一个 k 个取值的集合中至少有两个取值相同的概率大于 0.5，则 k 至少多大？该问题的一般结论是：k≈1.18 * n1/2 例如对于生日悖论，有 n=365，因此 k ≈ 22.5。
在计算上不可行（强抗碰撞）。
不同安全特性的比较
显然，强抗碰撞特性包含弱抗碰撞特性；另外可以证明，强抗碰撞特性包含单向特
性；因此，散列函数满足强抗碰撞特性是充分

散列函数实验原理

散列函数实验原理散列函数是计算机科学中的重要概念，用于将任意长度的输入数据映射为固定长度的输出数据，通常用于数据存储、数据检索和安全领域。

1.散列函数的定义散列函数是一种确定性函数，它接收任意长度数据作为输入，并输出固定长度的散列值。

其定义如下：H(x)=y，其中x为输入数据，y为输出的散列值。

2.散列函数的特性-确定性：相同的输入将产生相同的输出，可以保证数据的一致性。

-输入不同性：不同的输入应产生不同的输出，避免冲突和碰撞。

-输出一致性：无论输入数据的大小，输出的散列值长度应保持固定。

3.散列函数的应用-数据存储：散列函数常用于哈希表的实现。

数据通过散列函数计算出索引值，从而快速访问和检索数据。

-数据校验：散列函数可以用于验证数据的完整性和一致性。

比如，在文件传输过程中，发送方可以计算数据的散列值，并发送给接收方，接收方在接收到数据后再次计算散列值并与传输过来的散列值进行比对，以确认数据是否被篡改。

-密码学安全：散列函数广泛应用于密码学算法中，如消息认证码（HMAC）、数字签名（RSA）等。

散列函数用来保证数据的不可逆性和消息的完整性。

4.散列函数的实现原理散列函数的实现可以使用不同的方法和算法，下面介绍几种常见的散列函数实现原理。

-哈希函数表：通过查找表的方式，将每个输入的数据值映射到一个唯一的输出值，如使用一个长度固定的数组作为存储空间，将数据对应的索引存储在数组中。

-数字分析方法：通过对输入数据进行分析，提取关键信息，再进行一系列的逻辑运算，最终得到散列值。

比如，CRC校验中就使用了数字分析方法。

-数学方法：利用数学运算的特性，如乘法、除法、模运算等，将输入数据转化为散列值。

MD5和SHA-1就是基于数学方法实现的散列函数。

-加法混合法：通过将输入数据划分为不同的组，并对每个组进行加法运算，再将结果相加，最终得到散列值。

这种方法常用于简单的散列函数实现。

5.散列函数的安全性问题-弱碰撞：找到两个不同的输入数据，使得它们经过散列函数计算后产生相同的散列值。

8.2 常见散列函数

散列表Content散列技术简介1常见散列函数2冲突处理技术3PART TWO常见散列函数选择“好”的散列函数，尽量减少冲突什么是好的散列函数•确定性：同一值总被映射到同一地址•快速：最好是O(1)•满射：尽可能充分覆盖整个散列表存储空间•均分布：为了充分利用散列空间和降低冲突，要使映射到各个位置的概率接近，避免很多元素扎堆聚集的现象。

除留余数法h(key)=key%M(M为散列表表长)模值取不超过M的素数P会更好例：M=1000,P=997关键字内部编码散列地址KEYA11052501756 KEYB11052502757 AKEY01110502864 BKEY021********对于素数P, 0<a<P, 任意0<=i<j<P, a×i与a×j不同余, 即不冲突例如M=10的情况，如果关键字恰好是5,10,15,…这种情况建议模值设为7除留余数法的不足1.存在不动点h(0)=0，与均分布相悖2.相邻的关键字散列到相邻地址上除留余数法的改进MADh(key)=(key◊a+b)%PP为不超过M的最大素数，a>0，b>0，a%P≠0例：M=1000,P=997,a=15,b=87关键字内部编码散列地址KEYA11052501460KEYB11052502475 AKEY01110502546 BKEY021********b作为偏移量，消除了不动点a作为间隔量，原本相邻地址变成间隔为a平方取中法h(key)=(key)2的中间若干位k其中：位数k应满足：10k-1＜n≤10k，n为集合中元素个数。

例：n=765,103-1<765 103,故k=3关键字(内部编码）2散列地址KEYA122157778355001778KEYB122157800460004800AKEY001233265775625265BKEY0044543157756253151.把关键字值自左到右，分成位数相等的几部分；每部分位数与散列表地址位数相同，最后一部分的位数可以短些2.把这些部分的数据叠加起来，得到该关键字的散列地址。

算法散列知识点总结

算法散列知识点总结一、散列的基本概念1.1 散列的定义散列（hashing）是指将任意长度的输入（也称为“键”或“值”）通过哈希函数转换为固定长度的输出的过程。

哈希函数（hash function）是一个用于将输入映射到固定大小值域的函数。

散列函数的输出通常称为哈希值（hash value）或散列值（hash code）。

由于哈希函数的输出是固定长度的，因此散列也被称为散列码（hash code）或散列键（hash key）。

1.2 散列的特点散列具有以下几个主要特点：（1）确定性：对于相同的输入，哈希函数总是产生相同的输出；（2）固定长度：无论输入的长度如何，哈希函数的输出都是固定长度的；（3）高效性：哈希函数的计算速度应尽可能快；（4）离散性：输入的微小变化应导致输出的巨大变化，以增加散列值的随机性和安全性。

1.3 散列的应用散列在计算机科学和软件工程中有着广泛的应用，包括但不限于以下几个领域：（1）密码学：密码哈希函数用于存储用户密码的安全性；（2）数据结构：散列表（hash table）是一种常用的数据结构，用于快速查找和插入键值对；（3）内存管理：散列表用于管理动态内存分配；（4）编译器：散列用于符号表的管理；（5）分布式系统：散列用于数据分片和负载均衡等。

二、散列的原理2.1 哈希函数的要求良好的哈希函数需要满足以下几个重要要求：（1）一致性：对于相同的输入，哈希函数应该产生相同的输出；（2）高效性：哈希函数的计算速度应尽可能快；（3）均匀性：哈希函数的输出应该尽可能地均匀地分布在整个值域内，以减少冲突；（4）离散性：输入的微小变化应导致输出的巨大变化，以增加散列值的随机性和安全性。

2.2 散列冲突散列冲突是指两个不同的输入被哈希函数映射为相同的输出。

由于哈希函数的值域通常远小于输入域，因此冲突是不可避免的。

冲突的发生会降低散列表的性能，因此如何处理冲突成为了散列表设计中的一个重要问题。

散列表

在选择词典的表示时，必须确保这几个操作的实现。
通常，用文件 (表格) 来表示实际的对象集合，用文件记录 (表格的表项) 来表示单个对象。这样，词典中的<名字-属性>对将被存于记录 (表项) 中，通过表项的关键码 ( <名字-属性>对的名字) 来标识该表项。
表项的存放位置及其关键码之间的对应关系可以用一个二元组表示：
使用散列方法进行搜索不必进行多次关键码的比较，搜索速度比较快，可以直接到达或逼近具有此关键码的表项的实际存放地址。
散列函数是一个压缩映象函数。关键码集合比散列表地址集合大得多。因此有可能经过散列函数的计算，把不同的关键码映射到同一个散列地址上，这就产生了冲突 (Collision)。
示例：有一组表项，其关键码分别是
Attribute *Find ( Name name ); void Insert ( Name name, Attribute attr ); void Remove ( Name name ); }
在词典的所有操作中，最基本的只有3种： Find (搜索) Insert (插入) Remove (删除)
由于关键码集合比地址集合大得多，冲突很难避免。所以对于散列方法，需要讨论以下两个问题分布比较均匀的散列函数，避免或尽量减少冲突；
拟订解决冲突的方案。
散列函数
构造散列函数时的几点要求：散列函数的定义域必须包括需要存储的全部关
键码，如果散列表允许有 m 个地址时, 其值域必须在 0 到 m-1 之间。散列函数计算出来的地址应能均匀分布在整个地址空间中：若 key 是从关键码集合中随机抽取的一个关键码，散列函数应能以同等概率取 0 到 m-1 中的每一个值。散列函数应是简单的，能在较短的时间内计算出结果。

散列函数种类

散列函数种类
散列函数是一种将任意长度的消息压缩到固定长度的过程。

常见的散列函数包括：
1. MD5散列函数：将任意长度的消息压缩成一个128位长度的散列值。

2. SHA-1散列函数：将任意长度的消息压缩成一个160位长度的散列值。

3. SHA-2散列函数：包括256位、384位和512位长度的散列值。

4. BLAKE2散列函数：提供了高速度和高安全性的散列值，包括BLAKE2b和BLAKE2s两种变体。

5. Whirlpool散列函数：将任意长度的消息压缩成512位长度的散列值，具有高强度的抗碰撞能力。

以上是常见的几种散列函数，每种函数都有其适用场景。

散列函数(1).

杂凑函数
例3：设函数y=H(x)具有局部置换性： x的第一个比特总等于y的第三个比特，无论x为何值。这样的函数不能作为杂凑函数。取x1并计算y1=H(x1)。取y为将y1改变第三个比特。求一个x使得y=H(x)，可以取为将x1 改变第一个比特。例4：设函数y=H(x)具有某种连续性：当 y1与y2 “距离很近”时，存在 x1与x2 “距离很近” ，且y1=H(x1)， y2=H(x2) 。这样的函数不能作为杂凑函数。取x1并计算y1=H(x1)。取y2与y1“距离很近”。寻找一个x2使 y2=H(x2)，只需要在x1的“附近”寻找，搜索量远远低于穷举搜索。
杂凑函数
散列编码的用途
用途一：公平提交方案 Alice猜测了一个号码x1，但不知道中奖号码x2； Bob设置了中奖号码x2，但不知道Alice猜测的号码x1。 Alice希望首先获得x2，然后重新确定x1使得x1=x2。 Bob希望首先获得x1，然后重新确定x2使得x2≠x1。防止两人作弊的方案称为“公平提交方案”。两人使用一个公开的杂凑函数y=H(x)。方案如下：
杂凑函数
例1：设函数y=H(x)具有可加性：对任意的 x1，x2， H(x1)+H(x2)=H(x1+x2)。这样的函数不能作为杂凑函数。取x1并计算y1=H(x1)；取x2并计算y2=H(x2)。记y=y1+y2。求一个x使得y=H(x)，可以取x=x1+x2。例2：设函数y=H(x)具有线性：对任意的 x，a，aH(x)=H(ax)。这样的函数不能作为杂凑函数。取x1并计算y1=H(x1)。记y=ay1。求一个x使得y=H(x)，可以取x=ax1。
能用于任何大小的消息；
能产生定长输出；寻找任意的M和M’，会满足H(M)=H(M’)很难。

密码学-散列函数

生日攻击

生日悖论实际上是如下问题的特例：已知一个在 1 到 n 之间均匀分布的整数型随机变量，若该变量的一个 k 个取值的集合中至少有两个取值相同的概率大于 0.5，则 k 至少多大？该问题的一般结论是：k≈1.18 * n1/2 例如对于生日悖论，有 n=365，因此 k ≈ 22.5。通过“生日悖论”可以引出对散列函数的生日攻击法通过这种方法，只要对超过 n1/2 个随机元素（n 是散列函数输出集合的大小，如散列函数的输出为 m bit，则 n=2m）计算散列值，那么将有 0.5 的概率出现一个碰撞。
生日攻击可能的实施步骤

可用如下方法对散列函数进行生日攻击（假设散列函数的输出长度为 m bit）：

1）攻击者对合法报文创建 2m/2 个变种，所有这些变种本质上都和合法报文表示同样的意思； 2）同样，攻击者再对伪造报文创建 2m/2 个变种； 3）比较这两个集合，以期发现任意一对能产生相同散列值的报文对(合法报文变种、伪造报文变种)，根据生日悖论，找到这样一对报文的概率Pr > 0.5； 4）攻击者向签名者出示合法报文变种，让签名者对合法报文变种的散列值签名；然后攻击者用伪造报文变种代替合法报文变种，并声称签名者对伪造报文变种签名了。由于这两个报文具有相同的散列值，因此欺骗总能成功。

2、散列函数的需求

1、H能用于任意长度的数据分组； 2、H产生定长的输出； 3、对任意给定的X，H(X)要容易计算； 4、对任何给定的h，寻找 x 使得H(x)=h，在计算上不可行（单向特性）； 5、对任意给定的分组 x，寻找不等于 x 的 y，使得 H(x)=H(y), 在计算上不可行（弱抗碰撞）； 6、寻找任意的一对分组(x，y)，使得 H(x)=H(y) ，在计算上不可行（强抗碰撞）。

散列表（一）散列表概念、散列函数构造方法、常见字符串哈希函数：测试冲突

散列表（⼀）散列表概念、散列函数构造⽅法、常见字符串哈希函数：测试冲突⼀、散列表基本概念1、散列表(hash table) ，也叫哈希表，是根据关键码⽽直接进⾏访问的数据结构。

也就是说，它通过把关键码映射到表中⼀个位置来访问记录，以加快查找的速度。

这个映射函数叫做散列函数，存放记录的数组叫做散列表。

2、若结构中存在关键码为x的记录，则必定在hash(x)的存储位置上。

由此，不需⽐较便可直接取得所查记录。

称这个对应关系hash为散列函数(hash function)，按这个思想建⽴的表为散列表。

举个例⼦：影碟出租店维护⼀张表格，以电话号码作为关键码，为了提⾼查找速度，可以⽤选择哈希表进⾏存储假设影碟出租店有⼀万张光碟，每天借出与归还均不超出500⼈次。

因此哈希表维护500条记录即可。

我们发现真正要存储的记录⽐关键码总数（假设8位电话，则关键码总数2^8 个）要少得多。

散列地址冲突3、散列函数是⼀个压缩映象函数。

关键码集合⽐散列表地址集合⼤得多。

因此有可能经过散列函数的计算，把不同的关键码映射到同⼀个散列地址上，这就产⽣了冲突 (Collision)。

即key1≠ key2，⽽hash(key1)=hash(key2)，这种现象称冲突。

我们将key1与key2称做同义词。

4、由于关键码集合⽐地址集合⼤得多，冲突很难避免。

所以对于散列⽅法，需要讨论以下两个问题：对于给定的⼀个关键码集合，选择⼀个计算简单且地址分布⽐较均匀的散列函数，避免或尽量减少冲突；拟订解决冲突的⽅案。

散列函数选取原则5、散列函数的选择有两条标准：简单和均匀简单指散列函数的计算简单快速，能在较短时间内计算出结果。

均匀指散列函数计算出来的地址能均匀分布在整个地址空间。

若key是从关键字码集合中随机抽取的⼀个关键码，散列函数能以等概率均匀地分布在表的地址集{0，1，…，m-1}上，以使冲突最⼩化。

⼆、散列函数构造⽅法（⼀）、直接定址法此类函数取关键码的某个线性函数值作为散列地址：hash ( key ) = a * key + b { a, b为常数 }这类散列函数是⼀对⼀的映射，⼀般不会产⽣冲突。

1、下载文档前请自行甄别文档内容的完整性，平台不提供额外的编辑、内容补充、找答案等附加服务。
2、"仅部分预览"的文档,不可在线预览部分如存在完整性等问题,可反馈申请退款(可完整预览的文档不适用该条件!)。
3、如文档侵犯您的权益，请联系客服反馈,我们会尽快为您处理(人工客服工作时间：9:00-18:30)。

散列函数种类
散列函数是一种将任意长度的输入数据映射为固定长度输出数据的函数。

散列函数的主要作用是将数据压缩成固定长度的哈希值，以便于在数据结构中进行快速查找和比较。

在实际应用中，不同的散列函数有不同的特点和适用场景。

本文将介绍几种常见的散列函数种类。

1. MD5散列函数
MD5散列函数是一种广泛使用的散列函数，它可以将任意长度的输入数据压缩成128位的哈希值。

MD5散列函数具有高度的安全性和不可逆性，因此在密码存储和数字签名等领域得到了广泛应用。

但是，由于MD5散列函数存在碰撞攻击的漏洞，因此在一些安全性要求较高的场景中，不建议使用MD5散列函数。

2. SHA散列函数
SHA散列函数是一种安全性更高的散列函数，它可以将任意长度的输入数据压缩成160位的哈希值。

SHA散列函数具有更高的安全性和更强的抗碰撞攻击能力，因此在数字签名、消息认证和数据完整性校验等领域得到了广泛应用。

SHA散列函数有多个版本，包括SHA-1、SHA-2和SHA-3等，其中SHA-2是目前应用最广泛的版本。

3. MurmurHash散列函数
MurmurHash散列函数是一种快速的散列函数，它可以将任意长度的输入数据压缩成32位或64位的哈希值。

MurmurHash散列函数具有高度的随机性和低碰撞率，因此在哈希表、布隆过滤器和数据分片等领域得到了广泛应用。

MurmurHash散列函数的速度比MD5和SHA散列函数更快，因此在对速度要求较高的场景中，可以考虑使用MurmurHash散列函数。

4. CityHash散列函数
CityHash散列函数是一种高效的散列函数，它可以将任意长度的输入数据压缩成64位或128位的哈希值。

CityHash散列函数具有高度的随机性和低碰撞率，同时还具有较好的分布性和可扩展性，因此在大规模数据处理和分布式系统中得到了广泛应用。

CityHash散列函数的速度比MurmurHash散列函数更快，因此在对速度要求极高的场景中，可以考虑使用CityHash散列函数。

不同的散列函数有不同的特点和适用场景，选择合适的散列函数可以提高系统的性能和安全性。

在实际应用中，需要根据具体的需求和场景选择合适的散列函数。