哈希算法散列

合集下载

hash算法原理详解

hash算法原理详解阅读 27,309一、散列的概念散列方法的主要思想是根据结点的关键码值来确定其存储地址：以关键码值K为自变量，通过一定的函数关系h(K)(称为散列函数)，计算出对应的函数值来，把这个值解释为结点的存储地址，将结点存入到此存储单元中。

检索时，用同样的方法计算地址，然后到相应的单元里去取要找的结点。

通过散列方法可以对结点进行快速检索。

散列（hash，也称“哈希”）是一种重要的存储方式，也是一种常见的检索方法。

按散列存储方式构造的存储结构称为散列表（hash table）。

散列表中的一个位置称为槽(slot)。

散列技术的核心是散列函数(hash function)。

对任意给定的动态查找表DL，如果选定了某个“理想的”散列函数h及相应的散列表HT，则对DL中的每个数据元素X。

函数值h（X.key）就是X在散列表HT中的存储位置。

插入（或建表）时数据元素X将被安置在该位置上，并且检索X时也到该位置上去查找。

由散列函数决定的存储位置称为散列地址。

因此，散列的核心就是：由散列函数决定关键码值(X.key)与散列地址h(X.key)之间的对应关系，通过这种关系来实现组织存储并进行检索。

一般情况下，散列表的存储空间是一个一维数组HT[M]，散列地址是数组的下标。

设计散列方法的目标，就是设计某个散列函数h，0<=h( K ) < M；对于关键码值K，得到HT[i] = K。

在一般情况下，散列表的空间必须比结点的集合大，此时虽然浪费了一定的空间，但换取的是检索效率。

设散列表的空间大小为M，填入表中的结点数为N，则称为散列表的负载因子（load factor，也有人翻译为“装填因子”）。

建立散列表时，若关键码与散列地址是一对一的关系，则在检索时只需根据散列函数对给定值进行某种运算，即可得到待查结点的存储位置。

但是，散列函数可能对于不相等的关键码计算出相同的散列地址，我们称该现象为冲突（collision），发生冲突的两个关键码称为该散列函数的同义词。

哈希算法特点

哈希算法特点哈希算法（Hashing）是一种常见的加密算法。

在计算机领域中，哈希算法主要用于密码的散列、数据摘要、唯一标识等应用场景中。

相比较于传统的加密算法，哈希算法具有以下几个特点：一、无法逆向推导哈希算法是一种把输入数据通过哈希函数转换成固定长度的输出数据，通常称为哈希值（Hash Value）。

哈希算法的一个重要特点是哈希值无法逆向推导出原始的输入数据，即使知道了输出数据，也无法计算出输入数据的值。

这也就意味着，哈希算法所产生的输出数据，是不可逆且唯一的。

即使加密算法的密钥被泄露，黑客也无法利用密钥来破解哈希值，保证了数据的安全性。

二、散列冲突概率低哈希算法的输出数据是具有固定长度的，这就意味着不同长度的输入数据都会被哈希函数压缩成相同长度的输出数据。

因此，在使用哈希算法时，必须意识到，同一个哈希值可能对应着多个不同的输入数据，这种情况叫做哈希碰撞（Hash Collision）。

哈希算法的另一个特点是，对于哈希函数的设计来说，散列冲突的概率是非常低的。

三、可靠性高哈希算法具有高可靠性。

在决定一个哈希算法时，除了如何防止哈希碰撞之外，还需要关注哈希函数在设计上的正确性。

正确的哈希函数应该能够对任意长度的输入数据，产生一个相同长度的哈希值，且具有固定性，也就是说，对于同一个输入数据，它所产生的哈希值总是相同的。

四、适用于大量数据处理哈希算法的另一个特点，就是适用于处理大量的数据。

在哈希值计算的过程中，输入数据的大小并不影响哈希算法的速度和效率。

即使计算的数据里有重复、无序，甚至是带有噪声，哈希算法仍然可以快速、高效地处理这些数据。

五、可高度定制化哈希算法可以根据不同的应用场景和需求进行高度定制化。

哈希函数是哈希算法的核心，不同的哈希函数之间具有不同的性能和特性。

在实际应用中，应该选择最合适的哈希函数，才能最大限度地保证哈希算法的效率和安全性。

综上所述，哈希算法具有不可逆向推导、散列冲突概率低、可靠性高、适用于大量数据处理、可高度定制化等几个重要特点。

哈希算法分类

哈希算法分类“哈希算法分类”哈希算法是计算机科学中常用的一种算法，用于将任意长度的数据映射为固定长度的哈希值。

根据不同的特性和应用场景，哈希算法可以分为以下几类：1.散列函数（Hash Function）：这是哈希算法最基本的分类。

散列函数接受输入，并将其映射为固定长度的哈希值。

常见的散列函数有MD5、SHA-1、SHA-256等。

散列函数具有快速计算、哈希值分布均匀等特点，常用于数据校验、密码存储等场景。

2.消息认证码（Message Authentication Code，MAC）：MAC是一种基于密钥的哈希算法。

它使用一个密钥将输入数据和哈希值绑定在一起，以实现数据完整性和认证。

常见的MAC算法有HMAC、CMAC 等。

MAC算法广泛应用于数据完整性验证、数字签名等领域。

3.消息摘要（Message Digest）：消息摘要是一种单向哈希函数，它将输入数据映射为固定长度的哈希值，但无法从哈希值恢复原始数据。

常见的消息摘要算法有SHA-1、SHA-256等。

消息摘要广泛应用于密码学、数据完整性验证等场景。

4.布隆过滤器（Bloom Filter）：布隆过滤器是一种概率型数据结构，用于判断一个元素是否属于一个集合。

它使用多个散列函数将输入数据映射到位图中，并根据位图的结果进行判断。

布隆过滤器具有高效的查询速度和节省内存的特点，常用于缓存、数据去重等场景。

5.跳跃一致性哈希（Jump Consistent Hash）：跳跃一致性哈希是一种特殊的哈希算法，用于实现分布式哈希表中的数据分布。

它通过将输入数据映射到一个范围内的整数值，并基于这个整数值选择相应的服务器节点。

跳跃一致性哈希算法具有高效的负载均衡和节点扩缩容特性，被广泛应用于分布式缓存、分布式数据库等场景。

在使用哈希算法时，需要根据具体的应用场景选择适合的算法类型。

同时，为了保障数据的安全性和完整性，还需要注意选择安全性较高的算法，并合理使用密钥和盐值等技术手段。

哈希常用算法

哈希常用算法摘要：一、哈希简介二、哈希算法的分类1.碰撞哈希算法2.非碰撞哈希算法三、常用碰撞哈希算法及其原理1.md52.sha-13.sha-256四、常用非碰撞哈希算法及其原理1.adler-322.crc32五、哈希算法的应用场景与选择原则六、哈希算法的优化与改进正文：一、哈希简介哈希，又称散列，是一种将任意大小的数据映射到固定大小的数据的算法。

它在计算机科学和信息领域中具有广泛的应用，如数据完整性校验、数据压缩、文件加密等。

二、哈希算法的分类根据哈希值是否发生碰撞，哈希算法可分为碰撞哈希算法和非碰撞哈希算法。

1.碰撞哈希算法：哈希值可能发生碰撞，即不同的输入数据可能生成相同的哈希值。

这类算法主要包括md5、sha-1等。

2.非碰撞哈希算法：哈希值不可能发生碰撞，即不同的输入数据生成不同的哈希值。

这类算法主要包括adler-32、crc32等。

三、常用碰撞哈希算法及其原理1.md5：md5（Message-Digest Algorithm 5）是一种广泛应用的哈希算法，由Ronald Linn提出。

它将输入数据分成512比特进行处理，最终生成一个128位的哈希值。

md5算法存在碰撞，因此不适用于安全性要求较高的场景。

2.sha-1：sha-1（Secure Hash Algorithm 1）是美国国家安全局（NSA）制定的安全哈希算法，用于替代不安全的md5算法。

sha-1将输入数据分成512比特进行处理，最终生成一个160位的哈希值。

虽然sha-1相对安全，但在2017年，王小云等人发现了其漏洞，因此也不再推荐使用。

3.sha-256：sha-256是sha-2家族的一员，由美国国家安全局制定。

它将输入数据分成512比特进行处理，最终生成一个256位的哈希值。

sha-256相对安全，是目前较为推荐的哈希算法。

四、常用非碰撞哈希算法及其原理1.adler-32：adler-32是一种可逆的哈希算法，由Adler于1995年提出。

算法散列知识点总结

算法散列知识点总结一、散列的基本概念1.1 散列的定义散列（hashing）是指将任意长度的输入（也称为“键”或“值”）通过哈希函数转换为固定长度的输出的过程。

哈希函数（hash function）是一个用于将输入映射到固定大小值域的函数。

散列函数的输出通常称为哈希值（hash value）或散列值（hash code）。

由于哈希函数的输出是固定长度的，因此散列也被称为散列码（hash code）或散列键（hash key）。

1.2 散列的特点散列具有以下几个主要特点：（1）确定性：对于相同的输入，哈希函数总是产生相同的输出；（2）固定长度：无论输入的长度如何，哈希函数的输出都是固定长度的；（3）高效性：哈希函数的计算速度应尽可能快；（4）离散性：输入的微小变化应导致输出的巨大变化，以增加散列值的随机性和安全性。

1.3 散列的应用散列在计算机科学和软件工程中有着广泛的应用，包括但不限于以下几个领域：（1）密码学：密码哈希函数用于存储用户密码的安全性；（2）数据结构：散列表（hash table）是一种常用的数据结构，用于快速查找和插入键值对；（3）内存管理：散列表用于管理动态内存分配；（4）编译器：散列用于符号表的管理；（5）分布式系统：散列用于数据分片和负载均衡等。

二、散列的原理2.1 哈希函数的要求良好的哈希函数需要满足以下几个重要要求：（1）一致性：对于相同的输入，哈希函数应该产生相同的输出；（2）高效性：哈希函数的计算速度应尽可能快；（3）均匀性：哈希函数的输出应该尽可能地均匀地分布在整个值域内，以减少冲突；（4）离散性：输入的微小变化应导致输出的巨大变化，以增加散列值的随机性和安全性。

2.2 散列冲突散列冲突是指两个不同的输入被哈希函数映射为相同的输出。

由于哈希函数的值域通常远小于输入域，因此冲突是不可避免的。

冲突的发生会降低散列表的性能，因此如何处理冲突成为了散列表设计中的一个重要问题。

哈希函数和散列函数

哈希函数和散列函数
哈希函数和散列函数是计算机科学中非常重要的概念。

哈希函数是一种将任意长度的消息映射到固定长度的消息的函数。

散列函数是一种将任意长度的消息映射到固定长度的消息的函数，但它还具有单向性质，即从散列值推导原始消息的难度非常大。

哈希函数可以用于数据的完整性验证、密码学中的消息摘要、散列表等场景。

常见的哈希函数有MD5、SHA-1、SHA-256等。

散列函数则可以用于密码学中的数字签名、加密算法等场景。

常见的散列函数有SHA-1、SHA-2、SHA-3等。

值得注意的是，哈希函数和散列函数虽然都可以将任意长度的消息映射到固定长度的消息，但它们的安全性和用途不同。

对于哈希函数，由于存在哈希碰撞的可能性，因此不能保证将不同的消息映射到不同的哈希值。

而对于散列函数，由于具有单向性质，因此即使知道散列值，也很难推导出原始消息。

在使用哈希函数和散列函数时，需要注意选择合适的算法，根据实际场景进行适当的参数配置，以保证数据的安全。

- 1 -。

摘要算法（哈希算法、散列算法）

摘要算法（哈希算法、散列算法）摘要算法⼜称哈希算法、散列算法。

它通过⼀个函数，把任意长度的数据转换为⼀个长度固定的数据串（通常⽤16进制的字符串表⽰）。

Python的hashlib提供了常见的摘要算法，如 MD5，SHA1，SHA512 等等。

提⽰：要注意摘要算法不是加密算法，不能⽤于加密（因为⽆法通过摘要反推明⽂），只能⽤于防篡改，但是它的单向计算特性决定了可以在不存储明⽂⼝令的情况下验证⽤户⼝令。

如果原⽂内容是⼀个字符串'I am Jason'，经MD5计算内容摘要是'2d3ec0dd5d4b99a2c5f1eb47656637e0'。

如果有⼈篡改了你的⽂章，并发表为'I am Ross'，篡改后的字符串计算出的摘要('6845af67ef35bfe261f6fed5a66ff3ab')不同于原⽂的摘要，你就知道该内容被串改了。

摘要算法之所以能指出数据是否被篡改过，就是因为摘要函数是⼀个单向函数，计算f(data)很容易，但通过digest反推data却⾮常困难。

⽽且，对原始数据做⼀个bit的修改，都会导致计算出的摘要完全不同。

摘要算法就是通过摘要函数f()对任意长度的数据data计算出固定长度的摘要digest。

MD5是最常见的摘要算法，速度很快，⽣成结果是固定的128 bit字节，通常⽤⼀个32位的16进制字符串表⽰。

数据量⼩的时候可以⼀次性求出摘要import hashlibmd5 = hashlib.md5()# update中的数据需要是bytes类型的数据据。

md5.update(bytes('I am Jason', encoding='utf-8'))# digest()返回的是⼆进制的字符串表达形式data1 = md5.digest()# hexdigest()返回的是⼗六进制的字符串表达形式data2 = md5.hexdigest()print(data1) # b'->\xc0\xdd]K\x99\xa2\xc5\xf1\xebGef7\xe0'print(data2) # 2d3ec0dd5d4b99a2c5f1eb47656637e0数据量很⼤，可以分块多次调⽤update()，最后计算的结果是⼀样的：import hashlibmd5 = hashlib.md5()md5.update(bytes('I am ', encoding='utf-8'))md5.update(bytes('Jason', encoding='utf-8'))data = md5.hexdigest()print(data) # 多次求值后返回的是⼗六进制的字符串表达形式还是 2d3ec0dd5d4b99a2c5f1eb47656637e0另⼀种常见的摘要算法是SHA1，调⽤SHA1和调⽤MD5完全类似, SHA1的结果是160 bit字节，通常⽤⼀个40位的16进制字符串表⽰。

五种哈希函数原理

五种哈希函数原理哈希函数是一种将输入数据映射到固定长度的哈希值的算法。

它主要用于数据的唯一标识、数据摘要、数据加密等场景。

下面将介绍五种常见的哈希函数原理。

1.散列算法散列算法是一种基于查找表的哈希函数。

它通过将输入数据映射到一个查找表中的索引来计算哈希值。

散列算法通常包含两个主要步骤：压缩和取模。

首先，将输入数据压缩到一个较小的范围内，例如将一个较大的整数取低位，或者对字符进行ASCII编码后取余。

然后，将压缩后的结果取模，得到最终的哈希值。

2.数字签名算法数字签名算法是一种使用非对称密钥的哈希函数。

它包含两个主要步骤：摘要生成和签名验证。

首先，通过将输入数据进行摘要生成，得到哈希值。

然后，使用私钥对哈希值进行加密，生成数字签名。

在验证时，使用公钥对数字签名进行解密，得到哈希值。

如果得到的哈希值与输入数据的哈希值相同，则表示验证通过。

3.消息认证码算法消息认证码算法是一种同时使用对称密钥和哈希函数的哈希函数。

它通过将密钥和输入数据进行运算，生成固定长度的哈希值。

消息认证码算法主要用于验证数据的完整性和真实性。

发送方生成消息认证码并将其与数据一起发送给接收方。

接收方使用相同的密钥和哈希函数对数据进行运算，得到一个哈希值。

然后，将接收到的消息认证码与计算得到的哈希值进行比较。

如果相同，则说明数据未被篡改。

4.布隆过滤器算法布隆过滤器算法是一种用于判断元素是否存在于集合中的哈希函数。

它使用一个位数组和多个哈希函数来表示集合。

对于每个元素，通过将其使用多个哈希函数进行计算，并将对应的位设置为1来将元素添加到集合中。

判断元素是否存在时，通过将元素使用相同的哈希函数进行计算，并检查对应的位是否被设置为1来确定元素是否存在。

5.可逆哈希函数可逆哈希函数是一种具有反向函数的哈希函数。

它允许从哈希值推导出原始输入数据。

可逆哈希函数主要用于加密和解密数据。

它通过对原始输入数据进行哈希计算，生成哈希值。

然后，通过对哈希值进行反向计算，推导出原始输入数据。

什么是Hash？什么是Hash算法或哈希函数？什么是map？什么是HashMap？Hash。。。

什么是Hash？什么是Hash算法或哈希函数？什么是map？什么是HashMap？Hash。

1、什么是HashHash也称散列、哈希，对应的英⽂都是Hash。

基本原理就是把任意长度的输⼊，通过Hash算法变成固定长度的输出。

这个映射的规则就是对应的Hash算法，⽽原始数据映射后的⼆进制串就是哈希值。

2.什么是Hash算法或哈希函数？（1）Hash函数（Hash算法）：在⼀般的线性表、树结构中，数据的存储位置是随机的，不像数组可以通过索引能⼀步查找到⽬标元素。

为了能快速地在没有索引之类的结构中找到⽬标元素，需要为存储地址和值之间做⼀种映射关系h(key),这个h就是哈希函数，⽤公式表⽰：h(key)=Addrh:哈希函数key:关键字，⽤来唯⼀区分对象的把线性表中每个对象的关键字通过哈希函数h(key)映射到内存单元地址，并把对象存储到该内存单元，这样的线性表存储结构称为哈希表或散列表。

（2）在设置哈希函数时，通常要考虑以下因素： ○计算函希函数所需的时间 ○关键字的长度 ○哈希表的长度 ○关键字的分布情况 ○记录的查找频率（3）Hash碰撞的解决⽅案①链地址法链表地址法是使⽤⼀个链表数组，来存储相应数据，当hash遇到冲突的时候依次添加到链表的后⾯进⾏处理。

链地址在处理的流程如下：添加⼀个元素的时候，⾸先计算元素key的hash值，确定插⼊数组中的位置。

如果当前位置下没有重复数据，则直接添加到当前位置。

当遇到冲突的时候，添加到同⼀个hash值的元素后⾯，⾏成⼀个链表。

这个链表的特点是同⼀个链表上的Hash值相同。

java的数据结构HashMap使⽤的就是这种⽅法来处理冲突，JDK1.8中，针对链表上的数据超过8条的时候，使⽤了红⿊树进⾏优化。

②开放地址法开放地址法是指⼤⼩为 M 的数组保存 N 个键值对，其中 M > N。

我们需要依靠数组中的空位解决碰撞冲突。

基于这种策略的所有⽅法被统称为“开放地址”哈希表。

hash原理

hash原理
哈希（hash）是一种将任意长度的数据映射为固定长度散列值
的算法。

它的主要原理是通过对输入数据进行各种数学运算，生成一个唯一的固定长度的字符串，该字符串通常称为哈希值或散列值。

在哈希算法中，输入的数据可以是任意长度的二进制串，其中包括数字、文本、文件等。

通过哈希函数对输入的数据进行处理，即可得到一个固定长度的哈希值，该哈希值具有以下特点：
1. 哈希值是固定长度的。

不论输入数据的长度如何，哈希函数都会生成一个相同长度的哈希值。

这种长度固定的特性使得哈希算法在数据存储、数据比对等场景中非常有用。

2. 哈希值具有唯一性。

即使输入数据只有微小的差异，所生成的哈希值也会完全不同。

这种唯一性的特性使得哈希算法可以用于数据校验、数据完整性验证等场景中。

3. 哈希值不能被逆向解密。

由于哈希函数是单向函数，即无法通过哈希值逆向推导原始数据内容。

这种不可逆性的特性保障了数据的安全性，特别是在密码学中常常使用哈希算法来存储用户密码。

在实际应用中，哈希算法广泛应用于数据完整性校验、密码存储、数据快速查找等场景。

常见的哈希算法包括MD5、SHA-1、SHA-256等。

值得注意的是，由于计算能力的不断提高，
部分较为简单的哈希算法已经被证明为不够安全，因此在实际
应用中需要选择更加强大的哈希算法来保障数据的安全性和完整性。

1、下载文档前请自行甄别文档内容的完整性，平台不提供额外的编辑、内容补充、找答案等附加服务。
2、"仅部分预览"的文档,不可在线预览部分如存在完整性等问题,可反馈申请退款(可完整预览的文档不适用该条件!)。
3、如文档侵犯您的权益，请联系客服反馈,我们会尽快为您处理(人工客服工作时间：9:00-18:30)。

计算机算法领域基本知识Hash，一般翻译做“散列”，也有直接音译为”哈希“的，就是把任意长度的输入（又叫做预映射，pre-image），通过散列算法，变换成固定长度的输出，该输出就是散列值。

这种转换是一种压缩映射，也就是，散列值的空间通常远小于输入的空间，不同的输入可能会散列成相同的输出，而不可能从散列值来唯一的确定输入值。

简单的说就是一种将任意长度的消息压缩到某一固定长度的消息摘要的函数。

HASH主要用于信息安全领域中加密算法，他把一些不同长度的信息转化成杂乱的128位的编码里,叫做HASH值. 也可以说，hash就是找到一种数据内容和数据存放地址之间的映射关系基本概念* 若结构中存在关键字和K相等的记录，则必定在f(K)的存储位置上。

由此，不需比较便可直接取得所查记录。

称这个对应关系f为散列函数(Hash function)，按这个思想建立的表为散列表。

* 对不同的关键字可能得到同一散列地址，即key1≠key2，而f(key1)=f(key2)，这种现象称冲突。

具有相同函数值的关键字对该散列函数来说称做同义词。

综上所述，根据散列函数H(key)和处理冲突的方法将一组关键字映象到一个有限的连续的地址集（区间）上，并以关键字在地址集中的“象” 作为记录在表中的存储位置，这种表便称为散列表，这一映象过程称为散列造表或散列，所得的存储位置称散列地址。

* 若对于关键字集合中的任一个关键字，经散列函数映象到地址集合中任何一个地址的概率是相等的，则称此类散列函数为均匀散列函数(Uniform Hash function)，这就是使关键字经过散列函数得到一个“随机的地址”，从而减少冲突。

常用的构造散列函数的方法散列函数能使对一个数据序列的访问过程更加迅速有效，通过散列函数，数据元素将被更快地定位ǐ1. 直接寻址法：取关键字或关键字的某个线性函数值为散列地址。

即H(key)=key或H(key) = a•key + b，其中a和b为常数（这种散列函数叫做自身函数）2. 数字分析法3. 平方取中法4. 折叠法5. 随机数法6. 除留余数法：取关键字被某个不大于散列表表长m的数p除后所得的余数为散列地址。

即H(key) = key MOD p, p<=m。

不仅可以对关键字直接取模，也可在折叠、平方取中等运算之后取模。

对p的选择很重要，一般取素数或m，若p选的不好，容易产生同义词。

处理冲突的方法1. 开放寻址法；Hi=(H(key) + di) MOD m, i=1,2,…, k(k<=m-1)，其中H(key)为散列函数，m为散列表长，di为增量序列，可有下列三种取法：1. di=1,2,3,…, m-1，称线性探测再散列；2. di=1^2, (-1)^2, 2^2,(-2)^2, (3)^2, …, ±(k)^2,(k<=m/2)称二次探测再散列;3. di=伪随机数序列，称伪随机探测再散列。

==2. 再散列法：Hi=RHi(key), i=1,2,…,k RHi均是不同的散列函数，即在同义词产生地址冲突时计算另一个散列函数地址，直到冲突不再发生，这种方法不易产生“聚集”，但增加了计算时间。

3. 链地址法(拉链法)4. 建立一个公共溢出区查找的性能分析散列表的查找过程基本上和造表过程相同。

一些关键码可通过散列函数转换的地址直接找到，另一些关键码在散列函数得到的地址上产生了冲突，需要按处理冲突的方法进行查找。

在介绍的三种处理冲突的方法中，产生冲突后的查找仍然是给定值与关键码进行比较的过程。

所以，对散列表查找效率的量度，依然用平均查找长度来衡量。

查找过程中，关键码的比较次数，取决于产生冲突的多少，产生的冲突少，查找效率就高，产生的冲突多，查找效率就低。

因此，影响产生冲突多少的因素，也就是影响查找效率的因素。

影响产生冲突多少有以下三个因素：1. 散列函数是否均匀；2. 处理冲突的方法；3. 散列表的装填因子。

散列表的装填因子定义为：α= 填入表中的元素个数/ 散列表的长度α是散列表装满程度的标志因子。

由于表长是定值，α与“填入表中的元素个数”成正比，所以，α越大，填入表中的元素较多，产生冲突的可能性就越大；α越小，填入表中的元素较少，产生冲突的可能性就越小。

实际上，散列表的平均查找长度是装填因子α的函数，只是不同处理冲突的方法有不同的函数。

了解了hash基本定义，就不能不提到一些著名的hash算法，MD5和SHA-1可以说是目前应用最广泛的Hash算法，而它们都是以MD4为基础设计的。

那么他们都是什么意思呢?这里简单说一下：（1) MD4MD4(RFC 1320)是MIT 的Ronald L. Rivest 在1990 年设计的，MD 是Message Digest 的缩写。

它适用在32位字长的处理器上用高速软件实现--它是基于32 位操作数的位操作来实现的。

（2) MD5MD5(RFC 1321)是Rivest 于1991年对MD4的改进版本。

它对输入仍以512位分组，其输出是4个32位字的级联，与MD4 相同。

MD5比MD4来得复杂，并且速度较之要慢一点，但更安全，在抗分析和抗差分方面表现更好（3) SHA-1 及其他SHA1是由NIST NSA设计为同DSA一起使用的，它对长度小于264的输入，产生长度为160bit的散列值，因此抗穷举(brute-force)性更好。

SHA-1 设计时基于和MD4相同原理,并且模仿了该算法。

那么这些Hash算法到底有什么用呢?Hash算法在信息安全方面的应用主要体现在以下的3个方面：（1) 文件校验我们比较熟悉的校验算法有奇偶校验和CRC校验，这2种校验并没有抗数据篡改的能力，它们一定程度上能检测并纠正数据传输中的信道误码，但却不能防止对数据的恶意破坏。

MD5 Hash算法的"数字指纹"特性，使它成为目前应用最广泛的一种文件完整性校验和(Checksum)算法，不少Unix系统有提供计算md5 checksum的命令。

（2) 数字签名Hash 算法也是现代密码体系中的一个重要组成部分。

由于非对称算法的运算速度较慢，所以在数字签名协议中，单向散列函数扮演了一个重要的角色。

对Hash 值，又称"数字摘要"进行数字签名，在统计上可以认为与对文件本身进行数字签名是等效的。

而且这样的协议还有其他的优点。

（3) 鉴权协议如下的鉴权协议又被称作挑战--认证模式：在传输信道是可被侦听，但不可被篡改的情况下，这是一种简单而安全的方法。

以上就是一些关于hash以及其相关的一些基本预备知识。

那么在emule里面他具体起到什么作用呢?MD5、SHA1的破解２００４年８月17日，在美国加州圣芭芭拉召开的国际密码大会上，山东大学王小云教授在国际会议上首次宣布了她及她的研究小组近年来的研究成果——对ＭＤ５、ＨＡＶＡＬ－１２８、ＭＤ４和ＲＩＰＥＭＤ等四个著名密码算法的破译结果。

次年二月宣布破解SHA-1密码。

散列函数的性质所有散列函数都有如下一个基本特性：如果两个散列值是不相同的（根据同一函数），那么这两个散列值的原始输入也是不相同的。

这个特性是散列函数具有确定性的结果。

但另一方面，散列函数的输入和输出不是一一对应的，如果两个散列值相同，两个输入值很可能是相同的，但并不能绝对肯定二者一定相等。

输入一些数据计算出散列值，然后部分改变输入值，一个具有强混淆特性的散列函数会产生一个完全不同的散列值。

典型的散列函数都有无限定义域，比如任意长度的字节字符串，和有限的值域,比如固定长度的比特串。

在某些情况下，散列函数可以设计成具有相同大小的定义域和值域间的一一对应。

一一对应的散列函数也称为排列。

可逆性可以通过使用一系列的对于输入值的可逆“混合”运算而得到。

求。

到2007年为止，第三版还未完备。

散列函数的应用由于散列函数的应用的多样性，它们经常是专为某一应用而设计的。

例如，加密散列函数假设存在一个要找到具有相同散列值的原始输入的敌人。

一个设计优秀的加密散列函数是一个“单向”操作：对于给定的散列值，没有实用的方法可以计算出一个原始输入，也就是说很难伪造。

为加密散列为目的设计的函数，如MD5，被广泛的用作检验散列函数。

这样软件下载的时候，就会对照验证代码之后才下载正确的文件部分。

此代码有可能因为环境因素的变化，如机器配置或者IP地址的改变而有变动。

以保证源文件的安全性。

错误监测和修复函数主要用于辨别数据被随机的过程所扰乱的事例。

当散列函数被用于校验和的时候，可以用相对较短的散列值来验证任意长度的数据是否被更改过。

散列表散列表是散列函数的一个主要应用，使用散列表能够快速的按照关键字查找数据记录。

（注意：关键字不是像在加密中所使用的那样是秘密的，但它们都是用来“解锁”或者访问数据的。

）例如，在英语字典中的关键字是英文单词，和它们相关的记录包含这些单词的定义。

在这种情况下，散列函数必须把按照字母顺序排列的字符串映射到为散列表的内部数组所创建的索引上。

散列表散列函数的几乎不可能/不切实际的理想是把每个关键字映射到唯一的索引上（参考完美散列），因为这样能够保证直接访问表中的每一个数据。

一个好的散列函数（包括大多数加密散列函数）具有均匀的真正随机输出，因而平均只需要一两次探测（依赖于装填因子）就能找到目标。

同样重要的是，随机散列函数几乎不可能出现非常高的冲突率。

但是，少量的可以估计的冲突在实际状况下是不可避免的（参考生日悖论）。

在很多情况下，heuristic散列函数所产生的冲突比随机散列函数少的多。

Heuristic函数利用了相似关键字的相似性。

例如，可以设计一个heuristic函数使得像FILE0000.CHK, FILE0001.CHK, FILE0002.CHK, 等等这样的文件名映射到表的连续指针上，也就是说这样的序列不会发生冲突。

相比之下，对于一组好的关键字性能出色的随机散列函数，对于一组坏的关键字经常性能很差，这种坏的关键字会自然产生而不仅仅在攻击中才出现。

性能不佳的散列函数表意味着查找操作会退化为费时的线性搜索。

错误校正使用一个散列函数可以很直观的检测出数据在传输时发生的错误。

在数据的发送方，对将要发送的数据应用散列函数，并将计算的结果同原始数据一同发送。

在数据的接收方，同样的散列函数被再一次应用到接收到的数据上，如果两次散列函数计算出来的结果不一致，那么就说明数据在传输的过程中某些地方有错误了。

这就叫做冗余校验。

对于错误校正，假设相似扰动的分布接近最小(a distribution of likely perturbations is assumed at least approximately)。