使用哈希表技术判别两个源程序的相似性

实习六使用哈希表技术判别两个源程序的相似性

［问题描述］

对于两个C语言的源程序清单，用哈希表的方法分别统计两程序中使用C语言关键字的

情况，并最终按定量的计算结果，得出两份源程序清单的相似性。

［基本要求］

C语言关键字的哈希表自建，此题的工作只要是扫描给定的源程序，累计在每个源程序

中C语言关键字出现的频度。在扫描源程序过程中，每遇到关键字就查找哈希表，并累加相

应关键字出现的频度。为保证查找效率，建议自建哈希表的平均查找长度ASL不大于2。

扫描两个源程序所统计的所有关键字不同频度，可以得到两个向量。如下面简单的例子

所示：

关键字

程序1种关键字频度

程序2中关键字频度 0

1 2 3 4 5

6 7 8 9 哈

希地址

X1=[4，3，0，4，3，0，7，0，0，2] X2=[4，2，0，5，4，0，5，2，0，1]

通过计算向量X1和X2的相对距离来判断两个源程序的相似性，相对距离的计算方法是

按例子所给数据，S≈。显然当X1=X2时，S=0,反映出可能是同一个程序；S值越大，则

两个程序的差别可能也越大。

[测试数据]

作几个编译和运行都无误的C程序，程序之间有相近的和差别大的，用上述方法求S,

并对比差异程度。

[实现提示]

本题的很大工作量将是对源程序扫描，区分出C程序的每一关键字。可以为C语言关

键字建一棵键树，扫描源程序和在键树种查找同步进行，也取得每一个关键字。

[问题讨论]

这种判断方法只是提供一种辅助手段，即便S=0也可能不是同一程序，S的值很大，

也可能算法完全是一样的。例如，一个程序使用while语句，另一个使用for 语句，但功

能完全相同。事实上，当发现s的值很小时，就应该以人工干预来区分。

Void int：for char if else While

！

34370·2

4254[

哈希表的设计与实现课程设计报告

一: 需求分析 (2) 三: 详细设计（含代码分析） (4) 1.程序描述: (4) 2具体步骤 (4) 四调试分析和测试结果 (7) 五，总结 (9) 六.参考文献; (10) 七.致谢 (10) 八.附录 (11)

一: 需求分析问题描述：设计哈希表实现电话号码查询系统。基本要求 1、设每个记录有下列数据项：电话号码、用户名、地址 2、从键盘输入各记录，分别以电话号码和用户名为关键字建立哈希表； 3、采用再哈希法解决冲突； 4、查找并显示给定电话号码的记录； 5、查找并显示给定用户名的记录。 6、在哈希函数确定的前提下，尝试各种不同类型处理冲突的方法（至少两种），考察平均查找长度的变化。二: 概要设计进入主函数,用户输入1或者2,进入分支选择结构:选1:以链式方法建立哈希表,选2:以再哈希的方法建立哈希表,然后用户输入用户信息,分别以上述确定的方法分别以用户名为检索以及以以电话号码为检索将用户信息添加到哈希表,.当添加一定量的用户信息后,用户接着输入用户名或者电话号码分别以用户名或者电话号码的方式从以用户名或电话号码为检索的哈希表查找用户信息.程序用链表的方式存储信息以及构造哈希表。具体流程图如下所示:

三: 详细设计（含代码分析） 1.程序描述: 本程序以要求使用哈希表为工具快速快速查询学生信息，学生信息包括电话号码、用户名、地址；用结构体存储 struct node { string phone; //电话号码 string name; //姓名 string address;//地址 node *next; //链接下一个地址的指针 }; 2具体步骤 1. 要求主要用在哈希法解决冲突，并且至少尝试用两种方法解决冲突，定义两个指针数组存储信息node *infor_phone[MAX]; node *infor_name[MAX];前者以电话号码为关键字检索哈希表中的信息，后者以姓名为关键字检索哈希表中的信息用链式法和再哈希法解决冲突： int hash(string key) //以姓名或者电话号码的前四位运算结果作为哈{ //希码 int result=1,cur=0,i; if(key.size()<=4) i=key.size()-1; else i=4; for(;i>=0;i--) { cur=key[i]-'0'; result=result*9+cur; } result%=(MOD); return result;

哈希表设计-数据结构课程设计

实习6、哈希表设计一、需求分析 1. 问题描述针对某个集体（比如你所在的班级）中的“人名”设计一个哈希表，使得平均查找长度均不超过R，完成相应的建表和查表顺序。 2. 基本要求假设人名为中国人姓名的汉语拼音形式。待填入哈希表的人名共有30个，取平均查找长度的上限为2。哈希函数用除留余数法构造，用伪随机探测再散列法处理冲突。 3. 测试数据取读者周围较熟悉的30个人的姓名。 4. 实现提示如果随机数自行构造，则应首先调整好随机函数，使其分布均匀。人名的长度均不超过19个字符（最长的人名如：庄双双（Zhuang Shuangshuang））。字符的取码方法可直接利用C 语言中的toascii函数，并可先对过长的人名先作折叠处理。二、概要设计 ADT Hash { 数据对象D：D是具有相同特征的数据元素的集合。各数据元素均含有类型相同，可唯一标识数据元素的关键字。数据关系R：数据元素同属一个集合。 InitNameTable() 操作结果：初始化姓名表。 CreateHashTable() 操作结果：建立哈希表。 DisplayNameTable() 操作结果：显示姓名表。 DisplayHashTable() 操作结果：显示哈希表。 FindName() 操作结果：查找姓名。 }ADT Hash 三、详细设计（源代码）（使用C语言） #include #include//time用到的头文件 #include//随机数用到的头文件 #include//toascii()用到的头文件 #include//查找姓名时比较用的头文件 #define HASH_LEN 50//哈希表的长度 #define P 47//小于哈希表长度的P #define NAME_LEN 30//姓名表的长度 typedef struct {//姓名表 char *py; //名字的拼音 int m; //拼音所对应的 }NAME; NAME NameTable[HASH_LEN]; //全局定义姓名表 typedef struct {//哈希表 char *py; //名字的拼音

相似度算法在源程序比较中的应用

龙源期刊网 https://www.360docs.net/doc/9c8855555.html, 相似度算法在源程序比较中的应用作者：朱利龙来源：《电脑知识与技术》2016年第21期摘要：在计算机程序课的教学过程中，时常需要对学生所提交的源程序进行检查，特别是源程序的重复率检查。纯人工对比不但花费时间长，而且效率低下。因此，本文提出利用文本相似度算法解决源程序对比的方法，并设计出相应的源程序比较系统，来帮助老师从繁重的工作中解脱出来。关键词：相似度；距离编辑算法；源程序对比中图分类号：TP311 文献标识码：A 文章编号：1009-3044（2016）21-0214-01 源程序对比分析是一个复杂的过程，不仅需要考虑实用性和考虑准确性，而且还要兼顾运行效率等问题。在程序上机课的过程性考核中，很多同学提交的程序源代码之间重复率很高。本文借助计算机实现源程序的自动对比，不但可以降低劳动强度，提高工作效率，而且可以减少误判的可能性，进一步保证源程序对比结果的正确性。 1 特征提取要获取源程序重复率，判断是否抄袭程度，可以通过计算源程序的相似率来代替。相似率越高说明源程序重复部分越多，学生抄袭的可能性越高。要计算代码的相似率，就得提取源代码的有关特征参数。根据源程序块粒度大小不同，可以利用源程序中诸如换行符之类的分割符来分解成程序语句，分解得到的每一部分称为一个程序块。源程序块的选择将在很大程度上影响程序的效率，要比较源程序部分复制，就必须减少源程序块的长度。本文将每一个语句看成一个源程序块，即粒度大小为一条语句。于是，源程序就被分解为语句集合，源程序的相似程度便可以由语句的相似率来计算。因此，对于源程序的对比，选择程序语句作为源程序的对比粒度块是具有可行性的。本文系统采用的是距离编辑算法，利用字符串的模式匹配实现对源程序相似度进行判断。把两篇源程序进行全文对比得出相似度；得出相似度后，根据源程序分隔符把两源程序分割成逐条语句的，然后对这些语句进行一一对比，得出语句的相似度；比较出来的超过语句的相似度的语句称为相似句，把相似句对应的原句进行红色标记；统计出相似句对应原句占原源程序的比例，在比较中可以通过红色显示相同。 2 距离编辑算法

哈希表应用

附件4：北京理工大学珠海学院课程设计任务书 2010 ～2011学年第二学期学生姓名：专业班级：指导教师：工作部门：一、课程设计题目哈希表应用二、课程设计内容（含技术指标）【问题描述】利用哈希表进行存储。【任务要求】任务要求：针对一组数据进行初始化哈希表，可以进行显示哈希表，查找元素，插入元素，删除元素，退出程序操作。设计思想：哈希函数用除留余数法构造，用线性探测再散列处理冲突。设计目的：实现哈希表的综合操作简体中文控制台界面：用户可以进行创建哈希表，显示哈希表，查找元素，插入元素，删除元素。显示元素：显示已经创建的哈希表。查找元素：查找哈希表中的元素，分为查找成功和查找不成功。插入元素：在哈希表中，插入一个元素，分为插入成功和失败。删除元素：在已有的数据中，删除一个元素。退出系统：退出程序。【测试数据】自行设定，注意边界等特殊情况。

三、进度安排 1．初步设计：写出初步设计思路，进行修改完善，并进行初步设计。 2．详细设计：根据确定的设计思想，进一步完善初步设计内容，按要求编写出数据结构类型定义、各算法程序、主函数。编译分析调试错误。 3．测试分析：设计几组数据进行测试分析，查找存在的设计缺陷，完善程序。 4．报告撰写：根据上面设计过程和结果，按照要求写出设计报告。 5．答辩考核验收：教师按组（人）检查验收，并提出相关问题，以便检验设计完成情况。四、基本要求 1．在设计时，要严格按照题意要求独立进行设计，不能随意更改。若确因条件所限，必须要改变课题要求时，应在征得指导教师同意的前提下进行。 2．在设计完成后，应当场运行和答辩，由指导教师验收，只有在验收合格后才能算设计部分的结束。 3．设计结束后要写出课程设计报告，以作为整个课程设计评分的书面依据和存档材料。设计报告以规定格式的电子文档书写、打印并装订，报告格式严格按照模板要求撰写，排版及图、表要清楚、工整。从总体来说，所设计的程序应该全部符合要求，问题模型、求解算法以及存储结构清晰；具有友好、清晰的界面；设计要包括所需要的辅助程序，如必要的数据输入、输出、显示和错误检测功能；操作使用要简便；程序的整体结构及局部结构要合理；设计报告要符合规范。课程负责人签名：年月日

数据结构课程设计哈希表设计问题复习过程

数据结构课程设计哈希表设计问题

目录 1 前言 (1) 2 需求分析 (1) 2.1 任务和要求 (1) 2.2 运行环境 (1) 2.3 开发工具 (1) 3 分析和设计 (2) 3.1 系统分析及设计思路 (2) 3.2 主要数据结构及算法 (2) 3.3 函数流程图 (2) （1）哈希表的创建及初始化流程图 (2) 5 课程设计总结 (13) 5.1 程序运行结果或预期运行结果 (13) 说明：输入的数为30个姓的拼音，查找的为“pan”，输出的如上图所示。 (14) 5.2 设计结论 (15) 参考文献 (15) 致谢 (15)

1 前言从C语言产生到现在，它已经成为最重要和最流行的编程语言之一。在各种流行编程语言中，都能看到C语言的影子，如Java的语法与C语言基本相同。学习、掌握C语言是每一个计算机技术人员的基本功之一。根据本次课程设计的要求，我设计小组将编写一个C语言程序来处理哈希表问题，通过这个程序，将针对自己的班集体中的“人名”设计一个哈希表，使得平均查找长度不超过R，完成相应的建表和查表程序。 2 需求分析 2.1 任务和要求针对自己的班集体中的“人名”设计一个哈希表，使得平均查找长度不超过R，完成相应的建表和查表程序。要求：假设人名为中国姓名的汉语拼音形式。待填入哈希表的人名共有30个，取平均查找长度的上限为2。哈希函数用除留余数法构造，用链表法处理冲突。 2.2 运行环境（1）WINDOWS2000/XP系统（2）Visual C++ 6.0编译环境或TC编译环境 2.3 开发工具 C语言

3 分析和设计 3.1 系统分析及设计思路（1）创建哈希表（2）姓名（结构体数组）初始化（1）用除留余数法构建哈希函数（2）用链表法处理冲突 (3)查找哈希表在哈希表中进行查找，输出查找的结果和关键字，并计算和输出查找成功的平均查找长度 (4) 显示哈希表显示哈希表的的格式： 3.2 主要数据结构及算法定义结构体typedef struct hashtable创建哈希表定义函数Hash_Init(HashTable ht)来对哈希表初始化定义函数Hash_Insert(HashTable ht, Node *node)来为哈希表分配地址定义函数Hash_Init(ht)输入30个名字定义函数Hash_Create(HashTable ht)来求哈希表长度定义函数hash_output(HashTable h)来输出哈希表定义函数Hash_Link()构造链表函数定义函数int hash_search(int h[],int key)查找输入的名字 3.3 函数流程图（1）哈希表的创建及初始化流程图

数据结构课程设计哈希表

数据结构课程设计报告

课题四哈希表查找的设计 1. 任务和功能要求设哈希表长为20，用除留余数法构造一个哈希函数，以开放定址法中的线性探测再散列法作为解决冲突的方法，编程实现哈希表查找、插入和建立算法。 2. 需求分析用户输入20个以内的数字存储在哈希表中，并可以在表中查找关键字。3.概要设计 typedef struct { int *key; //关键字 int count; //表长 }HashTable; int creat(HashTable *T) //初始化哈希表程序调用关系如下：主函数模块哈希表初始化模块查询模块插入模块 4. 详细设计 #include #include

#include #include typedef struct { int *key; //关键字 int count; //表长 }HashTable; int search(HashTable *T,int k) //初始化哈希表 { int a; a=k%13; while(a<20) { if(T->key[a]==k) break; a++; } if(a<20) return a; else return 0; } void insert(HashTable *T,int k) { int i,j; i=search(T,k); if(i!=0) printf(" 关键字已存在于位置%d",i); else { j=k%13; while(j<20) { if(T->key[j]==0) { T->key[j]=k;break; } else j++; } } }

数据结构哈希表设计

一、问题描述针对某个集体（比如你所在的班级）中的“人名”设计一个哈希表，使得平均查找长度均不超过R，完成相应的建表和查表顺序。二、基本要求假设人名为中国人姓名的汉语拼音形式。待填入哈希表的人名共有30个，取平均查找长度的上限为2。哈希函数用除留余数法构造，用伪随机探测再散列法处理冲突。三、概要设计 1.构造结构体：typedef struct{}； 2.姓名表的初始化：void InitNameTable()； 3.建立哈希表：void CreateHashTable()； 4.显示姓名表：void DisplayNameTable()； 5.姓名查找：void FindName()； 6.主函数：void main() ；四、详细设计 1.姓名表的初始化 void InitNameTable() { NameTable[0].py="louyuhong"; NameTable[1].py="shenyinghong"; NameTable[2].py="wangqi"; NameTable[3].py="zhuxiaotong"; NameTable[4].py="zhataotao"; NameTable[5].py="chenbinjie"; NameTable[6].py="chenchaoqun"; NameTable[7].py="chencheng"; NameTable[8].py="chenjie"; NameTable[9].py="chenweida";

NameTable[10].py="shanjianfeng"; NameTable[11].py="fangyixin"; NameTable[12].py="houfeng"; NameTable[13].py="hujiaming"; NameTable[14].py="huangjiaju"; NameTable[15].py="huanqingsong"; NameTable[16].py="jianghe"; NameTable[17].py="jinleicheng"; NameTable[18].py="libiao"; NameTable[19].py="liqi"; NameTable[20].py="lirenhua"; NameTable[21].py="liukai"; NameTable[22].py="louhanglin"; NameTable[23].py="luchaoming"; NameTable[24].py="luqiuwei"; NameTable[25].py="panhaijian"; NameTable[26].py="shuxiang"; NameTable[27].py="suxiaolei"; NameTable[28].py="sunyubo"; NameTable[29].py="wangwei"; for (i=0;i

散列表(哈希表)

1. 引言哈希表（Hash Table）的应用近两年才在NOI（全国青少年信息学奥林匹克竞赛）中出现，作为一种高效的数据结构，它正在竞赛中发挥着越来越重要的作用。哈希表最大的优点，就是把数据的存储和查找消耗的时间大大降低，几乎可以看成是常数时间；而代价仅仅是消耗比较多的内存。然而在当前可利用内存越来越多的情况下，用空间换时间的做法是值得的。另外，编码比较容易也是它的特点之一。哈希表又叫做散列表，分为“开散列” 和“闭散列”。考虑到竞赛时多数人通常避免使用动态存储结构，本文中的“哈希表”仅指“闭散列”，关于其他方面读者可参阅其他书籍。 2. 基础操作 2.1 基本原理我们使用一个下标范围比较大的数组来存储元素。可以设计一个函数（哈希函数，也叫做散列函数），使得每个元素的关键字都与一个函数值（即数组下标）相对应，于是用这个数组单元来存储这个元素；也可以简单的理解为，按照关键字为每一个元素“分类”，然后将这个元素存储在相应“类”所对应的地方。但是，不能够保证每个元素的关键字与函数值是一一对应的，因此极有可能出现对于不同的元素，却计算出了相同的函数值，这样就产生了“冲突”，换句话说，就是把不同的元素分在了相同的“类”之中。后面我们将看到一种解决“冲突”的简便做法。总的来说，“直接定址”与“解决冲突”是哈希表的两大特点。 2.2 函数构造构造函数的常用方法（下面为了叙述简洁，设h(k) 表示关键字为k 的元素所对应的函数值）： a) 除余法：选择一个适当的正整数p ，令h(k ) = k mod p ，这里，p 如果选取的是比较大

的素数，效果比较好。而且此法非常容易实现，因此是最常用的方法。 b) 数字选择法：如果关键字的位数比较多，超过长整型范围而无法直接运算，可以选择其中数字分布比较均匀的若干位，所组成的新的值作为关键字或者直接作为函数值。 2.3 冲突处理线性重新散列技术易于实现且可以较好的达到目的。令数组元素个数为S ，则当h(k)已经存储了元素的时候，依次探查(h(k)+i) mod S , i=1,2,3…… ，直到找到空的存储单元为止（或者从头到尾扫描一圈仍未发现空单元，这就是哈希表已经满了，发生了错误。当然这是可以通过扩大数组范围避免的）。 2.4 支持运算哈希表支持的运算主要有：初始化(makenull)、哈希函数值的运算(h(x))、插入元素(i nsert)、查找元素(member)。设插入的元素的关键字为x ，A 为存储的数组。初始化比较容易，例如： const empty=maxlongint; // 用非常大的整数代表这个位置没有存储元素 p=9997; // 表的大小 procedure makenull; var i:integer; begin for i:=0 to p-1 do A[i]:=empty; End; 哈希函数值的运算根据函数的不同而变化，例如除余法的一个例子：

源代码相似度比较

#include #include #include #include #define N 32//关键字个数 #define size 256 #define maxlen 9 #define hashlen 41//哈希表长度 #define Smax 0.9//相似度s的阈值 #define Dmin 2 struct hashtable { char *hash1;//指向关键字的指针 int count; }hashtt[hashlen]; using namespace std; void Hashfunc(char str[]); //将关键字根据哈希函数放入哈希表中的指定位置int Hashfind(char *words);//在哈希表中找是否该words为关键字，并统计频度int isletter(char ch); //判断是否为字母 float Mol(int *x); //取模函数 int Dot(int *x1, int *x2); //点积函数 float D(int *x1, int *x2); //求距离D的函数 float S(int *x1,int *x2); //求相似度S的函数 int readc(char * filename); //读取源程序文件中的单词 int getkey(char *str,int len); //获取该单词的key void resethash(int n); //重置哈希表 void copycount(int x[],int n); //将频道拷贝到数组里 if((ch>='a'&&ch<='z')||(ch>='A'&&ch<='Z'))return 1; return 0; } int readc(char *filename) { //读取源程序文件中的单词 FILE *fp1=NULL; char words[maxlen],ch; int i; if((fp1=fopen (filename,"r"))==NULL) { cout<<"can not creat file!\n"; exit(0); } while (!feof(fp1)) //结束返回1 { i=0;

哈希表基本操作

一,哈希表(Hashtable)简述在.NET Framework中，Hashtable是System.Collections命名空间提供的一个容器，用于处理和表现类似key/value的键值对，其中key通常可用来快速查找，同时key是区分大小写；value用于存储对应于key的值。Hashtable中key/value键值对均为object 类型，所以Hashtable可以支持任何类型的key/value键值对. 二,哈希表的简单操作在哈希表中添加一个key/value键值对：HashtableObject.Add(key,value); 在哈希表中去除某个key/value键值对：HashtableObject.Remove(key); 从哈希表中移除所有元素：HashtableObject.Clear(); 判断哈希表是否包含特定键key：HashtableObject.Contains(key); 下面控制台程序将包含以上所有操作： using System; using System.Collections; //使用Hashtable时，必须引入这个命名空间 class hashtable { public static void Main() { Hashtable ht=new Hashtable(); //创建一个Hashtable实例 ht.Add("E","e");//添加key/value键值对 ht.Add("A","a"); ht.Add("C","c"); ht.Add("B","b"); string s=(string)ht["A"]; if(ht.Contains("E")) //判断哈希表是否包含特定键,其返回值为true或false Console.WriteLine("the E key:exist"); ht.Remove("C");//移除一个key/value键值对 Console.WriteLine(ht["A"]);//此处输出a ht.Clear();//移除所有元素 Console.WriteLine(ht["A"]); //此处将不会有任何输出 } } 三,遍历哈希表遍历哈希表需要用到DictionaryEntry Object，代码如下： for(DictionaryEntry de in ht) //ht为一个Hashtable实例 { Console.WriteLine(de.Key);//de.Key对应于key/value键值对key Console.WriteLine(de.Value);//de.Key对应于key/value键值对value

哈希表及其应用-课程设计

课程设计题目哈希表及其应用教学院计算机学院专业班级姓名指导教师年月日

课程设计任务书 2010 ～2010 学年第 1 学期一、课程设计题目哈希表及其应用二、课程设计内容建立一个小型信息管理系统（可以是图书、人事、学生、物资、商品等任何信息管理系统）。要求： 1.使用哈希查找表存储信息； 2.实现查找、插入、删除、统计、输出等功能；三、进度安排 1．初步完成总体设计，搭好框架； 2．完成最低要求：尝试使用多种哈希函数和冲突解决方法，并通过实际运行测试给出自己的评价四、基本要求 1．界面友好，函数功能要划分好 2．程序要加必要的注释 3．要提供程序测试方案教研室主任签名：年月日

1 概述 (4) 2 设计目的 (4) 3 设计功能说明 (4) 4 详细设计说明 (5) 5 流程图 (5) 6 程序代码 (6) 7 程序运行结果 (15) 8 总结 (19) 参考文献 (19) 成绩评定表 (20)

数据结构是一门理论性强、思维抽象、难度较大的课程，是基础课和专业课之间的桥梁，只有进行实际操作，将理论应用于实际中，才能确实掌握书中的知识点。通过课程设计，不仅可以加深学生对数据结构基本概念的了解，巩固学习成果，还能够提高实际动手能力。为学生后继课程的学习打下良好的基础。 2 设计目的《数据结构》课程设计是在教学实践基础上进行的一次大型实验，也是对该课程所学理论知识的深化和提高。因此，要求学生能综合应用所学知识，设计与制造出具有较复杂功能的应用系统，并且在实验的基本技能方面上进行一次全面的训练。通过程序的编译掌握对程序的调试方法及思想，并且让学生学会使用一些编程技巧。促使学生养成良好的编程习惯。 1.使学生能够较全面地巩固和应用课堂中所学的的基本理论和程序设计方法，能够较熟练地完成程序的设计和调试。 2.培养学生综合运用所学知识独立完成程序课题的能力。 3.培养学生勇于探索、严谨推理、实事求是、有错必改，用实践来检验理论，全方位考虑问题等科学技术人员应具有的素质。 4．提高学生对工作认真负责、一丝不苟，对同学团结友爱，协作攻关的基本素质。 5.培养学生从资料文献、科学实验中获得知识的能力，提高学生从别人经验中找到解决问题的新途径的悟性，初步培养工程意识和创新能力。 6.对学生掌握知识的深度、运用理论去处理问题的能力、实验能力、课程设计能力、书面及口头表达能力进行考核。 3 设计功能分析本设计的功能如下： 1、利用哈希函数来实现一个小型信息管理系统，其中信息包含用户名，地址，电话等。 2、能添加用户信息，并能保存该信息。 3、查询管理系统中的信息：可通过姓名查找，也可通过电话查找等两种方式。

利用哈希技术统计C源程序关键字出现频度

：利用哈希技术统计C源程序关键字出现频度目录一．需求分析说明 (3) 二．总体设计 (3) 三．详细设计 (4) 四．实现部分 (5) 五．程序测试 (10) 六．总结 (11)

一、需求分析说明 1.课程设计目的本课程设计的目的就是要达到理论与实际应用相结合，使同学们能够根据数据对象的特性，学会数据组织的方法，能把现实世界中的实际问题在计算机内部表示出来，并培养基本的、良好的程序设计技能。 2.题目要求 1)题目内容：利用Hash技术统计某个C源程序中的关键字出现的频度 2)基本要求：扫描一个C源程序，用Hash表存储该程序中出现的关键字，并统计该程序中的关键字出现的频度。用线性探测法解决Hash冲突。设Hash函数为： Hash(key)[(key的第一个字母序号)*100+(key的最后一个字母序号)] MOD 41 二、总体设计一．算法思想描述首先读取关键字文件以建立二叉排序树以供后续查询，每个树节点保存一个关键字字符串及指向左右子树的指针。同时创建一Hash表，每个节点除应保存关键字字符串外，还应保存关键字频数及该存储单元冲突次数。然后扫描一个C源程序，每次扫描一行，从中循环分离出每个单词，每次均查找其是否为关键字，若是，则按计算公式计算其KEY值并在Hash表中进行相应操作，若该节点为空则插入否者比较其是否与现有关键字相同，若相

同则增加其频数，否则增加其冲突次数并继续线性探测下一个存储单元，完了继续操作下一个分离出来的单词，如此循环运行直至扫描结束。编写本程序时，使用了二叉树创建、二叉树查找、Hash表的建立和操作及文件操作等基本算法。二．三、详细设计 (程序结构 //Hash表存储结构 typedef struct node //定义 { char s[20]; int num,time; //num为频数，time为冲突次数 }node; //二叉排序树结构定义 typedef struct nod //定义 { char s[20]; struct nod *left,*right; }nod; int max;//max为Hash表长度

Java哈希表及其应用

Java哈希表及其应用哈希表也称为散列表，是用来存储群体对象的集合类结构。什么是哈希表数组和向量都可以存储对象，但对象的存储位置是随机的，也就是说对象本身与其存储位置之间没有必然的联系。当要查找一个对象时，只能以某种顺序（如顺序查找或二分查找）与各个元素进行比较，当数组或向量中的元素数量很多时，查找的效率会明显的降低。一种有效的存储方式，是不与其他元素进行比较，一次存取便能得到所需要的记录。这就需要在对象的存储位置和对象的关键属性（设为k）之间建立一个特定的对应关系（设为f），使每个对象与一个唯一的存储位置相对应。在查找时，只要根据待查对象的关键属性k 计算f(k)的值即可。如果此对象在集合中，则必定在存储位置f(k)上，因此不需要与集合中的其他元素进行比较。称这种对应关系f 为哈希（hash）方法，按照这种思想建立的表为哈希表。 Java 使用哈希表类（Hashtable）来实现哈希表，以下是与哈希表相关的一些概念： ?容量（Capacity）：Hashtable 的容量不是固定的，随对象的加入其容量也可以自动增长。?关键字（Key）：每个存储的对象都需要有一个关键字，key 可以是对象本身，也可以是对象的一部分（如某个属性）。要求在一个Hashtable 中的所有关键字都是唯一的。 ?哈希码（Hash Code）：若要将对象存储到Hashtable 上，就需要将其关键字key 映射到一个整型数据，成为key 的哈希码。 ?项（Item）：Hashtable 中的每一项都有两个域，分别是关键字域key 和值域value（存储的对象）。Key 和value 都可以是任意的Object 类型的对象，但不能为空。 ?装填因子（Load Factor）：装填因子表示为哈希表的装满程度，其值等于元素数比上哈希表的长度。哈希表的使用哈希表类主要有三种形式的构造方法： Hashtable(); //默认构造函数，初始容量为101，最大填充因子0.75 Hashtable(int capacity);

程序的源代码的相似性判别

程序源代码的相似性一、课题内容和要求对于两个C++语言的源程序代码，用哈希表的方法分别统计两个程序中使用C++语言关键字的情况，并最终按定量的计算结果，得出两份程序的相似性。基本要求：建立C++语言关键字的哈希表，统计在每个源程序中C++关键字出现的频度, 得到两个向量X1和X2，通过计算向量X1和X2的相对距离来判断两个源程序的相似性。例如: 关键字V oid Int For Char if else while do break class 程序1关键字频度 4 3 0 4 3 0 7 0 0 2 程序2关键字频度 4 2 0 5 4 0 5 2 0 1 X1=[4,3,0,4,3,0,7,0,0,2] X2=[4,2,0,5,4,0,5,2,0,1] 设s是向量X1和X2的相对距离，s=sqrt( ∑(x i1-x i2) 2)，当X1=X2时，s=0, 反映出可能是同一个程序；s值越大，则两个程序的差别可能也越大。测试数据: 选择若干组编译和运行都无误的C++程序，程序之间有相近的和差别大的，用上述方法求s, 对比两个程序的相似性。二、课题需求分析 1．需求分析软件的基本功能、输入/输出形式、测试数据要求。该软件能够比较两个源程序代码的相似度。需要用户输入两个源代码的文件名，系统会自动计算出两个程序中关键字的个数，并进行对比，而且计算出两个程序的相似度并输出，用户可以根据，系统输出相似度的大小，来估计两个程序相似的概率。 2．概要设计抽象数据类型、主程序流程及模块调用关系。该程序用到的数据结构主要是哈希表，其次是顺序表：哈希表的功能是统计文件里出现的关键字的个数，通过++模式，该程序主要统计了C++的十个常用关键字break,char,class,do,else,for,if,int,void,while出现的频度，在Hash类里定义了一个哈希表，哈希表的大小为十个整形数据，哈希表里的十个数据是与已知的十个关键字一一对应的，顺

哈希表的设计与实现-数据结构与算法课程设计报告

合肥学院计算机科学与技术系课程设计报告 2009 ～2010 学年第二学期课程数据结构与算法课程设计名称哈希表的设计与实现学生姓名王东东学号0804012030 专业班级08计本（2) 指导教师王昆仑、李贯虹 2010 年5 月

课程设计目的 “数据结构与算法课程设计”是计算机科学与技术专业学生的集中实践性环节之一，是学习“数据结构与算法”理论和实验课程后进行的一次全面的综合练习。其目的是要达到理论与实际应用相结合，提高学生组织数据及编写程序的能力，使学生能够根据问题要求和数据对象的特性，学会数据组织的方法，把现实世界中的实际问题在计算机内部表示出来并用软件解决问题，培养良好的程序设计技能。一、问题分析和任务定义 1、问题分析要完成如下要求：设计哈希表实现电话号码查询系统。实现本程序需要解决以下几个问题：（1）如何定义一个包括电话号码、用户名、地址的节点。（2）如何以电话号码和用户名为关键字建立哈希表。（3）用什么方法解决冲突。（4）如何查找并显示给定电话号码的记录。（5）如何查找并显示给定用户名的记录。 2 任务定义 1、由问题分析知，本设计要求分别以电话号码和用户名为关键字建立哈希表，z在此基础上实现查找功能。本实验是要我们分析怎么样很好的解决散列问题，从而建立一比较合理的哈希表。由于长度无法确定，并且如果采用线性探测法散列算法，删除结点会引起“信息丢失”的问题。所以采用链地址法散列算法。采用链地址法，当出现同义词冲突时，可以使用链表结构把同义词链接在一起，即同义词的存储地址不是散列表中其他的空地址。根据问题分析，我们可以定义有3个域的节点，这三个域分别为电话号码char num[30]，姓名char name[30]，地址char address[30]。这种类型的每个节点对应链表中的每个节点，其中电话号码和姓名可分别作关键字实现哈希表的创建。二、数据结构的选择和概要设计 1、数据结构的选择数据结构：散列结构。散列结构是使用散列函数建立数据结点关键词与存储地址之间的对应关系，并提供多种当数据结点存储地址发生“冲突”时的处理方法而建立的一种数据结构。散列结构基本思想，是以所需存储的结点中的关键词作为自变量，通过某种确定的函数H（称作散列函数或者哈希函数）进行计算，把求出的函数值作为该结点的存储地址，并将该结点或结点地址的关键字存储在这个地址中。散列结构法（简称散列法）通过在结点的存储地址和关键字之间建立某种确定的函数关系H，使得每个结点（或关键字）都有一个唯一的存储地址相对应。当需要查找某一指定关键词的结点时，可以很方便地根据待查关键字K计算出对应的“映像”H(K)，即结点的存储地址。从而一次存取便能得到待查结点，不再需要进行若干次的比较运算，而可以通过关键词直接计算出该结点的所在位置。

哈希查找算法的源代码 c语言

哈希查找算法的源代码 c语言【问题描述】针对自己的班集体中的“人名”设计一个哈希表，使得平均查找长度不超过R，完成相应的建表和查表程序。 [基本要求] 假设人名为中国姓名的汉语拼音形式。待填入哈希表的人名共有30个，取平均查找长度的上限为2。哈希函数用除留余数法构照，用链表法处理冲突。 [测试数据] 读取熟悉的30个人的姓名。 #include #include #include using namespace std; #define Maxsize 57 struct record { char name[20]; char tel[20]; char add[20]; }; typedef record * precord; struct HashTable { int elem[Maxsize]; //存放数组a[]的下标 int count; }; typedef HashTable * pHashTable; int Number; //统计当前数组a[]中的记录总数 void Getdata(precord a) //从文件telphone.txt中读取数据存放到数组a[] { Number=0; ifstream infile("telphone.txt",ios::in|ios::binary); if(!infile) {cout<<"文件打开失败!\n"; exit(1);} while(!infile.eof() && infile.get()!=EOF) //文件不为空并且文件指针没有指到结束符 {infile.seekg(Number*sizeof(a[Number]),ios::beg); //定位文件指针infile.read((char *)&a[Number],sizeof(a[Number])); Number++;

哈希表

哈希表（hashtable）注：哈希表为1.24及以上版本才有的功能，以下版本是无法使用的说~ （在1.24之前，游戏缓存（ganecache）+return bug起到了相同的作用，124之后它们即被哈希表取代，并且return bug在1,24之后，被修复了）本演示侧重于hashtable，仅仅会顺带提到hashtable与gamecache两种方式的等价代码转换~ ☆哈希表的特点与优势~ 散列表（Hash table，也叫哈希表），是根据关键码值(Key value)而直接进行访问的数据结构。也就是说，它通过把关键码值映射到表中一个位置来访问记录，以加快查找的速度。这个映射函数叫做散列函数，存放记录的数组叫做散列表。当然这个概念可能过于深奥，我们不必了解那么深入，只需要了解它的功能以及如何使用~（当然有能力的童鞋，推荐去百度寻找详解）先简单介绍下好了~hashtable就相当于一个存储数据的仓库，其具有容量大以及存储速度稳定的特点~ 使用hashtable与GetHandleId函数，能够非常轻易地实现一个技能的多人无冲突使用~ ☆先来认识下这货~ 首先，我们先来声明一个哈希表对象~ 由于哈希表通常起到全局范围内的数据存储以及传递~ 所以我们绝大多数情况（和所有基本没区别）都是将其作为一个全局变量来声明（几乎没有局部变量的哈希表，只有在某些特殊需求下，才会罕见地出现；如果你明确知道自己创建局部hashtable的目的，并且知道如何妥善掌控，那么是毫无问题的） jass globals hashtable ht=InitHashtable() //函数InitHashtable，无参数，返回一个新建的哈希表对象 //在向一个哈希表中存入数据之前，必须先通过此函数创建哈希表，否则无效（好比你无法往一个根本不存在的容器中倒水一样的说~） endglobals 很简单，这样就创建了一个哈希表，你可以在地图中的任何地方（没错，任何地方）访问它~ Tips：（显式声明globals块（也就是上面）的方式，其实是Vjass才有的功能~如果你的编辑器UI没有这个，请在T的变量管理器中，创建一个哈希表对象，但别忘了加上udg_前缀以及调用InitHashtable函数进行初始化~）然后我们可以试着，在其中存并且读取一些数据~ jass function Trig_Init_Actions takes nothing returns nothing local integer i=5 local integer ret//两个整数变量

哈希表技术判别源程序的相似性实验报告

哈希表技术判别两个源程序的相似性实验报告 [作者姓名] 2014-12-26

一.问题描述实验题目：对于两个C 语言的源程序清单，用哈希表的方法分别统计两程序中使用C语言关键字的情况，并最终按定量的计算结果，得出两份源程序的相似性。要求与提示： C 语言关键字的哈希表可以自建，也可以采用下面的哈希函数作为参考： Hash(key)=(key第一个字符序号*100+key最后一个字符序号)%41 表长m取43。此题的工作主要是扫描给定的源程序，累计在每个源程序中C语言关键字出现的频度。为保证查找效率，建议自建哈希表的平均查找长度不大于2。扫描两个源程序所统计的所有关键字不同频度，可以得到两个向量。如下面简单的例子所示：根据程序1和程序2中关键字出现的频度，可提取到两个程序的特征向量X1和X2，其中 X1= (4 3 0 4 3 0 7 0 0 2)T X2= (4 2 0 5 4 0 5 2 0 1)T 一般情况下，可以通过计算向量Xi和Xj的相似值来判断对应两个程序的相似性，相似值的判别函数计算公式为:

最后的相似性判别计算可分两步完成: 第一步用式(3-1)计算S，把接近1的保留，抛弃接近。的情况(把不相似的排除); 第二步对保留下来的特征向量，再用式(3-2)计算D，如D值也比较小，说明两者对应的程序确实可能相似(慎重肯定相似的)。 S和D的值达到什么门限才能决定取舍?需要积累经验，选择合适的阑值。 3)测试数据: 做儿个编译和运行都无误的C程序，程序之问有相近的和差别大的，用上述方法求S} 并对比差异程度。 4)输入输出: 输入为若干个c源程序，输出为程序问的相似度以及向量的几何距离。基本要求：建立哈希表，统计源程序中关键字出现的频度，并计算多个源程序之间的相似度。测试数据：自己在网上找到一些C语言程序，分别为test1.txt,test2.txt,test3.txt等。运行结果应为输出每个源程序关键字的出现的频度和源程序之间的相似度以及向量的几何距离。二．需求分析 1.本程序用来通过建立哈希表求源程序关键字的出现的频度和源程序之间的相似度以及向量的几何距离。 2.用户可以将源程序的.txt文件放入hashtable文件夹中，运行程序就可以输出每个源程序关键字的出现的频度和源程序之间的相似度以及向量的几何距离。三．概要设计为了实现上述功能，可以用结构体表示哈希表，因此需要哈希表的抽象数据类型。哈希表抽象数据类型的定义： ADT hashtable{ 数据对象：D={a i |a i ∈ElemType,且各不相同，i=1,2...,n,n≥0} 数据关系：R=φ