您好,欢迎访问三七文档
当前位置:首页 > 办公文档 > 统计图表 > 哈希表技术判别源程序的相似性 实验报告
哈希表技术判别两个源程序的相似性实验报告[作者姓名]2014-12-26一.问题描述实验题目:对于两个C语言的源程序清单,用哈希表的方法分别统计两程序中使用C语言关键字的情况,并最终按定量的计算结果,得出两份源程序的相似性。要求与提示:C语言关键字的哈希表可以自建,也可以采用下面的哈希函数作为参考:Hash(key)=(key第一个字符序号*100+key最后一个字符序号)%41表长m取43。此题的工作主要是扫描给定的源程序,累计在每个源程序中C语言关键字出现的频度。为保证查找效率,建议自建哈希表的平均查找长度不大于2。扫描两个源程序所统计的所有关键字不同频度,可以得到两个向量。如下面简单的例子所示:根据程序1和程序2中关键字出现的频度,可提取到两个程序的特征向量X1和X2,其中X1=(4304307002)TX2=(4205405201)T一般情况下,可以通过计算向量Xi和Xj的相似值来判断对应两个程序的相似性,相似值的判别函数计算公式为:最后的相似性判别计算可分两步完成:第一步用式(3-1)计算S,把接近1的保留,抛弃接近。的情况(把不相似的排除);第二步对保留下来的特征向量,再用式(3-2)计算D,如D值也比较小,说明两者对应的程序确实可能相似(慎重肯定相似的)。S和D的值达到什么门限才能决定取舍?需要积累经验,选择合适的阑值。3)测试数据:做儿个编译和运行都无误的C程序,程序之问有相近的和差别大的,用上述方法求S}并对比差异程度。4)输入输出:输入为若干个c源程序,输出为程序问的相似度以及向量的几何距离。基本要求:建立哈希表,统计源程序中关键字出现的频度,并计算多个源程序之间的相似度。测试数据:自己在网上找到一些C语言程序,分别为test1.txt,test2.txt,test3.txt等。运行结果应为输出每个源程序关键字的出现的频度和源程序之间的相似度以及向量的几何距离。二.需求分析1.本程序用来通过建立哈希表求源程序关键字的出现的频度和源程序之间的相似度以及向量的几何距离。2.用户可以将源程序的.txt文件放入hashtable文件夹中,运行程序就可以输出每个源程序关键字的出现的频度和源程序之间的相似度以及向量的几何距离。三.概要设计为了实现上述功能,可以用结构体表示哈希表,因此需要哈希表的抽象数据类型。哈希表抽象数据类型的定义:ADThashtable{数据对象:D={ai|ai∈ElemType,且各不相同,i=1,2...,n,n≥0}数据关系:R=φ基本操作:Hashfunc(charstr[]);Hashfind(char*words);creathash(void);resethash(intn);isletter(charch);readc(char*filename);getkey(char*str,intlen);copycount(intx[],intn);check(int*x1,int*x2);}endADT3.本程序实现模块主程序模块哈希表程序模块:实现哈希表的抽象数据类型调用关系:四.详细设计1.各个子函数的设计1)创建哈希表函数函数原型:voidcreathash(void);输入:读取存储了32个关键字的文件ckey.txt思路:通过对ckey.txt文件逐行赋值给创建的str字符数组,并将该数组调入Hashfunc函数。(2)将关键字根据哈希函数放入哈希表中的指定位置的函数函数原型:voidHashfunc(charstr[]);思路:对调进来的str数组通过调用getkey函数得到该关键词的key值后放入哈希表中的特定位置,并用线性探索来解决冲突。(3)在哈希表中找是否该words为关键字,并统计频度的函数函数原型:intHashfind(char*words);思路:将调进来的word字符数组先调用getkey函数获取key值,然后在哈希表里查找是否存在该字符串,如果存在则该关键字对应的频度加1.(4)重置哈希表函数函数原型:voidresethash(intn);功能:当n为0时,将指向哈希表中关键字的指针置成Null,同时将频度全部置为0.而当n为1时,仅仅将频度置为0.(5)获取单词key的函数函数原型:intgetkey(char*str,intlen);主程序模块哈希表程序模块计算相似度和向量的几何距离的模块思路:用key1存储关键字的首字母,key2存储关键字的末字母,然后通过哈希函数得到key的值并返回。(6)判断是否为字母的函数函数原型:intisletter(charch);思路:如果调进来的ch字符的ASCII值在a~z或A~Z范围内的话则返回1,否则返回0.(7)读取源程序文件中的单词的函数函数原型:intreadc(char*filename);思路:为了读取源程序文件中的单词,所以一个字符一个字符的,如果读的超过最大关键字长度将会跳过当前识别区域,读取下一个单词,将得到的该单词调入Hashfind函数,来判断是否为关键字,并统计频度。(8)将频度拷贝到数组里的函数函数原型:voidcopycount(intx[],intn);功能:将哈希表中关键字的频度复制到x数组中,以便进行后面相似度等的计算。(9)检查两个源程序是否相似的函数函数原型:voidcheck(int*x1,int*x2);思路:对调进来的x1和x2数组进行相似度计算,若相似度大于设定好的阈值,则再进行几何距离计算,最后给出两个文件是否相似的判断。(10)取模函数函数原型:floatMol(int*x);思路:通过求向量模值的数学知识求x数组的模(11)点积函数函数原型:intDot(int*x1,int*x2);思路:通过点积的数学知识对两个向量求点积(12)求相似度S的函数函数原型:floatS(int*x1,int*x2);思路:根据题目给的求相似度的公式求x1和x2数组的相似度(13)求距离D的函数函数原型:floatD(int*x1,int*x2);思路:用题目给的球几何距离的公式求x1和x2数组的几何距离2.主函数伪码intmain(){charfilename1[]={test1.txt};charfilename2[]={test12.txt};charfilename3[]={test13.txt};intx1[hashlen],x2[hashlen],x3[hashlen];//存储频度的数组,用于相似度S的计算resethash(0);//完全重置哈希表,即哈希指针置为NULL,频度置为0creathash();//通过文件ckey.txt创建哈希表readc(filename1);//读取第一个测试源程序文件copycount(x1,hashlen);//讲统计好的频度复制给x数组resethash(1);//仅仅将频度count置为0readc(filename2);//同上copycount(x2,hashlen);resethash(1);readc(filename3);copycount(x3,hashlen);cout\t哈希序号\t关键字\t频度1\t频度2\t频度3endl;for(inti=0;i41;i++){if(hasht[i].hash1!=NULL){cout\ti\thasht[i].hash1\tx1[i]\tx2[i]\tx3[i]endl;}}coutfilename1和filename2的相似情况为:endl;check(x1,x2);//检查相似度coutfilename1和filename3的相似情况为:endl;check(x1,x3);coutfilename2和filename3的相似情况为:endl;check(x2,x3);return0;}3.调用关系图五.调试分析main()resethashcreathashreadccopycountisletterhashfindhashfuncgetkeycheckDSDotMol1.遇到的问题分析1)‘=’与‘==’的问题赋值号与等号的问题虽然平时一直都会注意,但是有时候粗心也容易犯错,就比如在该语句中:if((fp=fopen(ckey.txt,r))==NULL)写成了if((fp=fopen(ckey.txt,r))=NULL),导致运行时出现下图看到过一本讲编程的书说为了避免这种错误,可以#define==equal,这样就变成了if((fp=fopen(ckey.txt,r))equalNULL)。虽然这样确实可以避免该类错误,但是我觉的也没有太大的必要,只要平时注意点小心点就是了。而且如果在visualstudio2012上编程时,一般是不允许出现fopen这种不安全函数的,要使用它推荐的fopen_s函数,使用如下2)第二个问题出现在creathash函数中,也比较难找。当时程序没有红色的那两句,while(fgets(str,size,fp)!=NULL)//读取一行写入一行{if(str==NULL){break;}length=strlen(str);str[length-1]='\0';Hashfunc(str);}fclose(fp);}接下来的是没有那两句的运行后的窗口截图如果加上那两句红色的语句后的运行窗口就是这样的后来调试时发现,(就拿文件ckey.txt中的第一个关键字为例)在没有那两句红色语句时,调试窗口是这样显示的说明在执行逐行读取关键字的那段代码时,它把每一行的换行号也读进了str数组里,导致输出时,每个关键字都做了换行,便有了上面的第一个截图。所以我的解决办法就是加入红色的那两句,即length=strlen(str);str[length-1]='\0';也就是把最后的换行号替换为‘\0’.3)第三个问题出现在readc函数中。在下面代码中原本没有注销的那一语句。所以导致这样的结果:即统计不到源程序文件中的关键字的频度,均显示为0.然后进行调试发现(就以读取到的第一个单词include为例):从调试窗口可看出读取完一个完整的单词后,它自己不能给该word数组赋值‘\0’来结束,这样导致的结果将会发生在Hashfind函数中的strcmp函数中,即通过上网查资料后知道,strcmp函数进行两字符串比较时是两个字符串自左向右逐个字符相比(按ASCII值大小相比较),直到出现不同的字符或遇'\0'为止。而我的hasht[key].hash1数组里的字符串为{i,n,c,l,u,d,e’\0’},而words数组为{i,n,c,l,u,d,e},所以比较的结果是它们不相等,就统计不到关键字的频度。所以我的解决办法即注销的那句:words[i]='\0';对每次读到的单词后都加一个‘\0’。4)第四个问题出现在求几何距离的D函数。原本我是这样写的floatD(int*X1,int*X2){int*X;X=Sub(X1,X2);returnMol(X);}int*Sub(int*X1,int*X2){intX[N],i=0;for(i=0;iN;i++){X[i]=X1[i]-X2[i];}returnX;}floatMol(int*X){inti=0,sum=0;for(i=0;iN;i++){sum+=X[i]*X[i];}return(float)pow(sum,0.5);}这样运行的结果就是求出来的几何距离是个很奇怪的随机数,每运行一次得出的结果都不一样。原因在于在Sub函数中X数组是个局部变量,返回的X只能是个指针,此时它已经不代表刚才指向的那个数组了,然后调进Mol函数中,进行的操作也只是对X的地址进行操作,因为地址是随机数,所以返回的也是个随机数。我所以我将这D和Sub两个函数直接合并为一个D函数floatD(int*x1,int*x2)//求几何距离{
本文标题:哈希表技术判别源程序的相似性 实验报告
链接地址:https://www.777doc.com/doc-3784178 .html