哈希表及其查找
哈希表查找方法原理

哈希表查找方法原理哈希表查找方法什么是哈希表•哈希表是一种常见的数据结构,也被称为散列表。
•它可以提供快速的插入、删除和查找操作,时间复杂度在平均情况下为O(1)。
•哈希表由数组组成,每个数组元素称为桶(bucket)。
•存储数据时,通过哈希函数将数据映射到对应的桶中。
哈希函数的作用•哈希函数是哈希表的核心部分,它将数据转换为哈希值。
•哈希函数应该具备以下特点:–易于计算:计算哈希值的时间复杂度应尽量低。
–均匀分布:哈希函数应能将数据均匀地映射到不同的桶中,以避免桶的过度填充或者空闲。
–独特性:不同的输入应该得到不同的哈希值,以尽量减少冲突。
哈希冲突及解决方法•哈希冲突指两个或多个数据被哈希函数映射到同一个桶的情况。
•常见的解决哈希冲突的方法有以下几种:–链地址法(Chaining):将相同哈希值的数据存储在同一个桶中,通过链表等数据结构来解决冲突。
–开放地址法(Open Addressing):当发生冲突时,通过特定的规则找到下一个可用的桶来存储冲突的数据,如线性探测、二次探测等。
–再哈希法(Rehashing):当发生冲突时,使用另一个哈希函数重新计算哈希值,并将数据存储到新的桶中。
哈希表的查找方法•哈希表的查找方法分为两步:1.根据哈希函数计算数据的哈希值,并得到对应的桶。
2.在桶中查找目标数据,如果找到则返回,否则表示数据不存在。
哈希表的查找性能•在理想情况下,哈希表的查找时间复杂度为O(1)。
•然而,由于哈希冲突的存在,查找时间可能会稍微增加。
•如果哈希函数设计得不好,导致冲突较多,可能会使查找时间复杂度接近O(n)。
•因此,选择合适的哈希函数和解决冲突的方法对于提高哈希表的查找性能非常重要。
总结•哈希表是一种高效的数据结构,适用于快速插入、删除和查找操作的场景。
•哈希函数的设计和解决冲突的方法直接影响哈希表的性能。
•在实际应用中,需要根据数据特点选择合适的哈希函数和解决冲突的方法,以提高哈希表的查找性能。
哈希表查找成功和不成功的算法

哈希表查找不成功怎么计算?解答:先建好表,然后可以算出每个位置不成功时的比较次数之和,再除以表空间个数!例如:散列函数为hash(x)=x MOD 13,用线性探测,建立了哈希表之后,如何求查找不成功时的平均查找长度!?地址:0 1 2 3 4 5 6 7 8 9 10 11 12数据: 39 1228154244 625-- 36- 38成功次数: 1 3 1 2 2 1 191 1不成功次数:98 7 65 4 3 2 1 1 2 110查找成功时的平均查找长度:ASL=(1+3+1+2+2+1+1+9+1+1)/10 =2.2查找不成功时的平均查找长度:ASL=(9+8+7+6+5+4+3+2+1+1+2+1+10)/13=4.54说明:第n个位置不成功时的比较次数为,第n个位置到第1个没有数据位置的距离。
至少要查询多少次才能确认没有这个值。
(1)查询hash(x)=0,至少要查询9次遇到表值为空的时候,才能确认查询失败。
(2)查询hash(x)=1,至少要查询8次遇到表值为空的时候,才能确认查询失败。
(3)查询hash(x)=2,至少要查询7次遇到表值为空的时候,才能确认查询失败。
(4)查询hash(x)=3,至少要查询6次遇到表值为空的时候,才能确认查询失败。
(5)查询hash(x)=4,至少要查询5次遇到表值为空的时候,才能确认查询失败。
(6)查询hash(x)=5,至少要查询4次遇到表值为空的时候,才能确认查询失败。
(7)查询hash(x)=6,至少要查询3次遇到表值为空的时候,才能确认查询失败。
(8)查询hash(x)=7,至少要查询2次遇到表值为空的时候,才能确认查询失败。
(9)查询hash(x)=8,至少要查询1次遇到表值为空的时候,才能确认查询失败。
(10)查询hash(x)=9,至少要查询1次遇到表值为空的时候,才能确认查询失败。
(11)查询hash(x)=10,至少要查询2次遇到表值为空的时候,才能确认查询失败。
哈希表的平均查找长度

哈希表的平均查找长度
哈希表是计算机科学中最常用的存储结构之一,它也被称为散列表。
它的功能是将数据的键(key)映射到另一个存储空间,即值(value)。
由于它的高效查找性能,哈希表正在被广泛使用,例如使用哈希表实现集合、映射和缓存。
一. 什么是哈希表?
1. 定义:哈希表是一种存储结构,它通过键(key)映射到其对应的值(value)。
2. 特点:哈希表具有较高的查找效率,可以在常数时间内获取键对应的值。
二. 如何实现哈希表?
1. 数组:哈希表可以使用一个数组来存储键值对,使用数组索引作为键(key),值(value)是存储在数组中的相应元素。
2. 链表:哈希表也可以使用链表来实现,将键(key)哈希成索引,索引对应的是一个链表。
三. 哈希表的平均查找长度
1. 一致性Hash:实现一致性哈希函数,把数据映射到一个虚拟环上,以哈希函数实现数据的索引,中间没有冲突,可以实现O(1)平均时间查找。
2. 拉链法:使用一个数组,其中每个数组元素是一个链表,当存有多条Key值相同的元素时可以放在同一个链表中,使用拉链法实现哈希表,查找的时间复杂度是O(n)。
3. 开放寻址法:开放寻址法通过查找空位和再散列的方式解决Key值的冲突,使用平方探测和双散列来发现空位,查找的时间复杂度是
O(1+α),其中α是探测次数。
总结:哈希表是一种非常有效的存储结构,由于它的高效查找性能,哈希表可以实现O(1)的平均查找长度,它有三种实现方式,分别是数组,链表和开放寻址法,它们的查找时间复杂度也有所不同,由于查找的时间复杂度越低效率越高,所以选择一种实现方式时要根据自身的需求做出最佳选择。
哈希表的定义查找及分析bklt

一、直接地址法
:
取关键字或关键字的某个线性函值为哈希地址
即: H(key) = key 或: H(key) = a* key + b
其中,a, b为常数。
二、数字分析法
假设关键字集合中的每个关键字都是由 s 位 数字组成 (u1, u2, …, us),分析关键字集中的全 体, 并从中提取分布均匀的若干位或它们的组 合作为地址。
查找不成功时的ASL
ASLunsucc=( )/11
= /11
10
11
3
8
线性探测再散列的优点:
只要哈希表未满,总能找到一个空地址。
缺点:会产生二次聚集。
01…
70 19 33 18
5678 9
… 12
9
二、 链地址法
在哈希表的每一个单元中存放一个指针,将所 有的同义词连成一个链表。 假设哈希地址在区间[0 .. m-1]上,则哈希表为
一个指针数组。
typedef struct node{ //定义链表中结点 KeyType key; 其它成员 ; struct node *next;
} Node,*Nodeptr; typedef Nodeptr chainhash[m];// 定义指针数组10
例1: 关键字集合 { 19, 01, 23, 14, 55, 68, 11, 82, 36 }
若采用线性探测再散列处理冲突
0 1 2 3 4 5 6 7 8 9 10
55 01 23 14 68 11 82 36 19
11 21 3 62 5 1
若采用二次探测再散列处理冲突
0 1 2 3 4 5 6 7 8 9 10
哈希表——线性探测法、链地址法、查找成功、查找不成功的平均长度

哈希表——线性探测法、链地址法、查找成功、查找不成功的平均长度⼀、哈希表1、概念哈希表(Hash Table)也叫散列表,是根据关键码值(Key Value)⽽直接进⾏访问的数据结构。
它通过把关键码值映射到哈希表中的⼀个位置来访问记录,以加快查找的速度。
这个映射函数就做散列函数,存放记录的数组叫做散列表。
2、散列存储的基本思路以数据中每个元素的关键字K为⾃变量,通过散列函数H(k)计算出函数值,以该函数值作为⼀块连续存储空间的的单元地址,将该元素存储到函数值对应的单元中。
3、哈希表查找的时间复杂度哈希表存储的是键值对,其查找的时间复杂度与元素数量多少⽆关,哈希表在查找元素时是通过计算哈希码值来定位元素的位置从⽽直接访问元素的,因此,哈希表查找的时间复杂度为O(1)。
⼆、常⽤的哈希函数1. 直接寻址法取关键字或者关键字的某个线性函数值作为哈希地址,即H(Key)=Key或者H(Key)=a*Key+b(a,b为整数),这种散列函数也叫做⾃⾝函数.如果H(Key)的哈希地址上已经有值了,那么就往下⼀个位置找,知道找到H(Key)的位置没有值了就把元素放进去.2. 数字分析法分析⼀组数据,⽐如⼀组员⼯的出⽣年⽉,这时我们发现出⽣年⽉的前⼏位数字⼀般都相同,因此,出现冲突的概率就会很⼤,但是我们发现年⽉⽇的后⼏位表⽰⽉份和具体⽇期的数字差别很⼤,如果利⽤后⾯的⼏位数字来构造散列地址,则冲突的⼏率则会明显降低.因此数字分析法就是找出数字的规律,尽可能利⽤这些数据来构造冲突⼏率较低的散列地址.3. 平⽅取中法取关键字平⽅后的中间⼏位作为散列地址.⼀个数的平⽅值的中间⼏位和数的每⼀位都有关。
因此,有平⽅取中法得到的哈希地址同关键字的每⼀位都有关,是的哈希地址具有较好的分散性。
该⽅法适⽤于关键字中的每⼀位取值都不够分散或者较分散的位数⼩于哈希地址所需要的位数的情况。
4. 折叠法折叠法即将关键字分割成位数相同的⼏部分,最后⼀部分位数可以不同,然后取这⼏部分的叠加和(注意:叠加和时去除进位)作为散列地址.数位叠加可以有移位叠加和间界叠加两种⽅法.移位叠加是将分割后的每⼀部分的最低位对齐,然后相加;间界叠加是从⼀端向另⼀端沿分割界来回折叠,然后对齐相加.5. 随机数法选择⼀个随机数,去关键字的随机值作为散列地址,通常⽤于关键字长度不同的场合.6. 除留余数法取关键字被某个不⼤于散列表表长m的数p除后所得的余数为散列地址.即H(Key)=Key MOD p,p<=m.不仅可以对关键字直接取模,也可在折叠、平⽅取中等运算之后取模。
第九章查找3哈希表

解决方案:可采用二次探测法或伪随机探测法,以 改善‚堆积‛问题。
9.3
三.处理冲突的方法
哈希表
例2:设哈希表长为11,哈希函数 H(key)=key MOD 11, 试用开放定址法中二次探测再散列解决冲突 Hi(key)=(H(key)+di) MOD 11 (di=12,-12,22,-22,…,k2,-k2 ), 试对下列关键字序列(19,13,33,02,16,29,24) 构造哈希表HT。
9.3
哈希表
0
1 BAI 2 CHEN
例:假设在例2的记录集合中添 加关键字{DAI,ZHOU,…}。 4、冲突 对不同的关键字可能得到同一 哈希地址的现象叫做冲突。
……
3 DIAO
… 6 GAO … 18 SUN 19 TANG
关 键 码 集 合
…
22 WU 23 XIAO 24 YI 25 ZHAO
9.3
三.处理冲突的方法
3.链地址法
哈希表
9.3
三.处理冲突的方法
1.开放定址法 2.再哈希法
哈希表
3.链地址法(拉链法) 4.建立公共溢出区
P258
9.3
三.处理冲突的方法
例:关键码集合 {47, 7, 29, 11, 16, 92, 22, 8, 3},散列 函数为H(key)=key mod 11,用公共溢 出区法处理冲突, 构造的散列表为:
哈希表
二.哈希函数的构造方法
1、直接定址法 思想:哈希函数为关键字的某个线性函数
H(key)= a.key+b 或 H(key)=key
适应情况:事先知道关键码,关键码集合不是 很大且连续性较好。 优点:不会产生冲突
缺点:占用连续空间,空间效率低
哈 希 查 找

哈希查找
一、哈希表的基本概念 二、构造哈希函数的方法 三、处理冲突的方法 四、哈希表的查找及分析
一、哈希表的基本概念
哈希(Hash)函数:如果在关键字与数据元素的存储位置之间建立某种 对应关系H,根据这种对应关系就能很快地计算出与该关键字key对应的 存储位置的值H(key),我们将关键字与存储位置之间的这种对应关系称 为哈希(Hash)函数。 把关键字为key的元素直接存入地址为H(key)的存储单元,当查找关键 字为key的元素时,利用哈希函数计算出该元素的存储位置H(key),从 而达到按关键字直接存取元素的目的。按照这个思想建立的查找表叫 做哈希表,所得到的存储位置称为哈希地址,利用哈希表进行查找的 方法称为哈希查找。
根据增量序列的取值方式的不同,开放定址法又分为以下三种: ① 线性探测再散列:di为1,2,3,…,h-1,即冲突发生时,顺序查 看哈希表中的下一个位置,直到找出一个空位置或查遍整个表为止。
② 二次探测再散列:di为12,-12,2,-22,3,-32,…,k,- k2 (k≤m/2),即冲突发生时,在表的前后位置进行跳跃式探测。
5.除留余数法
除留余数法是指取关键字被某个不大于哈希表表长m的数p除后所得余数 作为哈希地址,即 H(key)=key%p (p≤m) 例如,已知关键字序列为{23,49,70,68,50,90},对于表长 为20的哈希表,选取p=19,计算所得的哈希地址如下表所示。
6.随机数法
选择一个随机函数为哈希函数,取关键字的随机函数值为它的哈希地 址,即H(key)=random(key) 其中,random()为随机函数。 随机数法适用于关键字长度不等的情况。
三、处理冲突的方法
所谓处理冲突是指,当由关键字计算出 的哈希地址出现冲突时,为该关键字对 应的数据元素找到另一个“空”的哈希 地址。
哈希的基本概念

表6-4 哈希表
0
1
2
3
4
5
6
7
8
9
10
11
22
47
92
16
3
7
29
8
△ ▲ △ △
47,7,11,16,92均是由哈希函数得到的没有冲突的哈希地址,因而是直接存入的。
设关键码集合中,每个关键码均由m位组成,每位上可能有r种不同的符号。
数字分析法根据r种不同的符号及在各位上的分布情况,选取某几位,组合成哈希地址。所选的位应是各种符号在该位上出现的频率大致相同。
(4)平方取中法
对关键码平方后,按哈希表大小,取中间的若干位作为哈希地址。
(5)折叠法(Folding)
此方法将关键码自左到右分成位数相等的几部分,最后一部分位数可以短些,然后将这几部分叠加求和,并按哈希表表长,取后几位作为哈希地址。这种方法称为折叠法。
② 二次探测法
其中,Hash(key)为哈希函数,m为哈希表长度, 为增量序列12,12,22,22,…,q2,q2且
仍对前面例子的关键码序列{47,7,29,11,16,92,22,8,3},用二次探测法处理冲突,构造哈希表如表6-5所示。
表6-5 二次探测法构造哈希表
0
1
2
3
4
5
6
7
8
9
10
11
表6-6 几种不同处理冲突方法的平均查找长度
处理冲突的方法
平均查找长度
查找成功时
- 1、下载文档前请自行甄别文档内容的完整性,平台不提供额外的编辑、内容补充、找答案等附加服务。
- 2、"仅部分预览"的文档,不可在线预览部分如存在完整性等问题,可反馈申请退款(可完整预览的文档不适用该条件!)。
- 3、如文档侵犯您的权益,请联系客服反馈,我们会尽快为您处理(人工客服工作时间:9:00-18:30)。
云南大学数学与统计学实验教学中心
实验报告
一、实验目的
通过实验掌握散列存储的基本概念,进行哈希问题的处理,同时附带进行字符串的处理的练习。
二、实验内容
为某单位的人名(n=30人)设计一个哈希表,使得平均查找长度<2,要求完成相应的哈希建表和查表。
三、实验环境
Windows XP
程序设计语言C
四、实验过程
1.实验要求:
1、设人名长度<10个字符,用二维字符数组存储哈希表:char hash[ ][10];
2、要求哈希函数用除留余数法,并用人名的10个字符代码和作为分子;
用(补偿性)线性探测再散列处理冲突。
3、依题意有:平均查找长度=(1+1/(1-α))/2< 2,∴取α=0.6,
由此哈希表长m=n/α=30/0.6=50; 所以有char hashlist [ 50][10];
令:除留余数法中的P取47;
(补偿性)线性探测再散列的地址:j=(j+Q)% m中的Q取17。
4、对程序结构的要求:
①要求为哈希建表和哈希查表分别编写和设计相应的函数:
createhash( ... ... ); hashsearch(... ...);
②再设计一个哈希函数表的输出函数printhash( ),对构造的哈希表进行输出,注
意输出格式要在屏幕好看,先输出序号(1~30),再输出该序号
的人名或null,每行输出10项,共输出5行。
③还应有一个初始化char hashlist [ 50][10]的函数Inithashlist( ),
初始时将50个人名全赋值为null.
5、在主函数中:
调用Inithashlist( )初始化哈希表;
调用createhash( hashlist,30 )构造哈希表;
调用printhash( )输出所建立的哈希表;
接受待查找人名到字符数组name[ ];
调用hashsearch(hashlist,name )进行查找,若查到显示"found!"并显示
人名在数组中的序号;若未查到显示"no found!"
[测试数据]:健表时输入以下数据:
January February march april may june july august september
October November December
Sunday Monday Tuesday wednesday thurday f riday Saturday
One two three four five six serve eight nine ten data
[实现提示]:
参照杨秀清主编《数据结构》西安电子科技大学出版社P171。
[附加要求]:
1.在哈希查表时考虑插入。
当查找失败,且查找时的冲突次数<规定数字(如表长之半)时插入待查找的字符串,并给出“已插入”的显示;
2.在哈希查表时考虑删除。
接受待删除人名到字符数组name[ ];在hash表中找到,并删除之。
须注意,删除后不能影响以后的查找。
2.实验设计的(各)流程图:(以下内容请同学认真填写)
3.程序设计的关键代码及解释:(注意对程序代码给出必要的注解,保证可读性)
4.实验(程序运行)结果的粘贴:(必需是你的程序运行结果)
五、实验总结
1.遇到的问题及分析:(请结合你的试验过程认真总结)
2.解决方案(列出遇到的问题和解决办法,列出没有解决的问题):
3.体会和收获。
六、参考文献
《数据结构C语言版》严蔚敏、吴伟民编著清华大学出版社出版(国家级规划教材)《数据结构题集C语言版》严蔚敏、吴伟民编著清华大学出版社出版
《数据结构》扬秀金西安电子科技大出版社(高等学校电子信息类教材)
《数据结构实用教程C/C++描述》徐孝凯编著清华大学出版社出版
《数据结构》许卓群、张乃孝等编著高等教育出版社出版
《算法与数据结构》付清祥、王小东编著电子工业出版社出版
《数据结构极其应用教程》严蔚敏、陈文博编著清华大学出版社出版
七、教师评语:。