您好,欢迎访问三七文档
当前位置:首页 > 行业资料 > 国内外标准规范 > 基于指纹的中文文档复制检测技术
1主要内容应用背景1研究意义2研究方法32应用背景文档剽窃Internet为人们提供了前所未有的便利,我们可以方便、快捷获得和传递信息,它推动着高科技不断向前发展。但是,信息资源的易获性和开放性也有不利方面,它使剽窃有机可乘,剽窃越来越容易,越来越猖獗;剽窃侵犯了著作者的著作权,严重影响了科学文化的健康发展。TitleAddyourtextTitleAddyourtext互联网重复网页互联网上的信息资源正在以指数级增长,重复网页日益增多,很多网页都存在多个版本。因此搜索引擎经常检索出具有相同信息的重复网页。这样既浪费了查询者很多宝贵的查询时间,降低了检索效率.去除重复网页成为了搜索引擎技术中一项很有意义的工作.3研究意义在数字图书馆里文档主要以电子形式存在,所以很容易被拷贝,经常出现剽窃论文的现象,这种现象必须解决,否则信息所有者不愿意将宝贵的信息发布到图书馆中,而且这些剽窃的文档占有存储空间。在数字图书馆中加入复制检测技术可以检测出剽窃文档,保护信息所有者的知识产权。信息检索在进行信息检索时总是希望尽快找到准确的内容,一篇文档很有可能以多种格式存在,检索时可能返回多个结果,这就降低了检索效率且浪费网络资源。如果在提交此结果之前我们先加入一个复制检测系统来优先索引网页,如果新的网页被发现与已经索引的网页相似度很大,那么不再提交此网页。网上论文提交现在存在很多网上论文提交系统,在论文提交后,编辑们要处理两个问题:一是提交的论文与别人在以前的会议、杂志、学术报告上有多大的相似性;另外,还要检查现在提交的论文与作者本人以前发表论文有多少不同。数字图书馆4复制检测又称剽窃检测(plagiarismdetection),就是判断一个文件的内容是否抄袭、剽窃或者复制于另外一个或者多个文件,剽窃不仅仅意味着原封不动地照搬还包括对原文内容的移位交换、同义词替换、改变说法重述等。复制检测的定义52006年,NamohKang等从剽窃模式的角度进行文本复制检测的研究,描述了文本复制检测从难到易的检测层次(如下面图),该模式按照难易程度将文本复制检测分为各个层次的检测,提出一个基于剽窃模式的更为精确的文本复制检测系统。易文档复制段落复制句子复制词的移位变换句子结构改变——改变说法重述文档复制检测的难易程度难6现有的文档复制检测方法基于词频统计的方法基于hash文本块的方法基于语义知识的方法7研究现状基于词频统计的文档复制检测方法把文档表示成以词为元素组成的向量,根据每个词出现的频率与逆文本频率赋以相应的权值,再通过点积或者余弦等方式度量文档间的相似度。具有代表性的词频统计方法为1995年美国Stanford大学提出的SCAM(StanfordCopyAnalysisMethod)模型、1997年香港理工大学建立的CHECK原型、西安交通大学2001年提出的CDSDG(CopyingDetectionSystemofDigitalGoods)系统和2006年提出的高频模型HFM(HeavyFrequencyModel)。缺点:(1)基于词频统计的文档复制检测方法虽然广泛应用于文本聚类、信息检索等领域,但是它并不适用于文档复制检测技术;(2)只能检测出两篇文档之间的相似度,不能发现一篇文档同时复制多篇文档的行为;(3)检测结果准确率不高,误差大。8研究现状基于Hash文本块的文档复制检测方法从文档中选取一些字符串,然后把字符串映射为Hash表中的数值,这些数值被称为“指纹”。通过统计Hash表中相同的指纹数目或者比率来得出文档间的重叠度。具有代表性的Hash文本块方法为1994年ARIZONA亚利桑那州立大学提出的Sif工具、1995年Stanford大学开发的COPS(COPydetectionSystem)系统、2000年Monostori等人建立的MDR(MatchDetectReveal)原型系统和2003年芝加哥大学提出的Winnowing算法。优点:算法简单、运算速度快缺点:该类方法实际上只是进行简单的字符串匹配,因此只能检测出完全相同的全部或部分复制文本,以及移位变换的复制文本,无法发现复杂复制方式,如同义词替换、改变说法重述等。9研究现状基于语义知识的文档复制检测方法从计算语言学领域出发,试图通过各种形式化的方法表示出文本的语义特征,从而度量文档间的重叠度。现存的基于语义知识的文档复制检测方法为2005年大连理工大学金博等人提出的基于语义理解的文本相似度算法。该算法以知网的概念描述为基础,改进了现存的词语相似度的计算公式,并将词语相似度计算推广到段落范围,进而将这种段落相似度计算推广到篇章相似度计算。缺点:能够发现的文档复制方式有限,检测结果的准确率不理想。10基于指纹的文档复制检测系统计算指纹比较指纹分词文档按段落分块按句子分块计算句子指纹计算段落指纹计算文档指纹文档指纹相同文档1各粒度指纹文档2各粒度指纹句子指纹相同段落指纹相同分词NNN文档1与2完全相同文档1与2段落相同文档1与2句子相同YYY11基于指纹的文档复制检测系统E.G.高校是培养人才的基地。大学生是高校思想政治教育的主体。以人为本是高校思想政治工作必备的理念。以人为本是社会主义市场经济和时代发展的需要。现代社会是政治经济科技教育文化和生活变化发展极其迅捷的时代。造成了更加激烈的社会竞争,现代社会知识经济初见端倪。高校/是/培养/人才/的/基地。大学生/是/高校/思想政治教育/的/主体。以人为本/是/高校/思想政治工作/必备/的/理念。以人为本/是/社会主义/市场经济/和/时代/发展/的/需要。现代/社会/是/政治经济科技/教育/文化/和/生活/变化发展/极其/迅捷/的/时代。造成/了/更加/激烈/的/社会/竞争,现代/社会/知识经济/初见端倪。分词按照段落划分12基于指纹的文档复制检测方法高校/是/培养/人才/的/基地。大学生/是/高校/思想政治教育/的/主体。以人为本/是/高校/思想政治工作/必备/的/理念。以人为本/是/社会主义/市场经济/和/时代/发展/的/需要。现代/社会/是/政治经济科技/教育/文化/和/生活/变化发展/极其/迅捷/的/时代。造成/了/更加/激烈/的/社会/竞争,现代/社会/知识经济/初见端倪。高校/是/培养/人才/的/基地。大学生/是/高校/思想政治教育/的/主体。以人为本/是/高校/思想政治工作/必备/的/理念。高校/是/培养/人才/的/基地。大学生/是/高校/思想政治教育/的/主体。按照句子划分以人为本/是/高校/思想政治工作/必备/的/理念。13基于指纹的文档复制检测方法高校/是/培养/人才/的/基地。令asc(高校)=0;asc(是)=1;asc(培养)=2;asc(人才)=3;asc(的)=4;asc(基地)=5;计算句子指纹Hp(w1w2…wn)=(w1bn-1+w2bn-2+…+wn-1b1+wn)modp令b=2,p=最大的素数,n=6Hp(高校/是/培养/人才/的/基地)=0×25+1×24+2×23+3×22+4×21+5×20=52Hp(大学生/是/高校/思想政治教育/的/主体)=30大学生/是/高校/思想政治教育/的/主体。以人为本/是/高校/思想政治工作/必备/的/理念。Hp(以人为本/是/高校/思想政治工作/必备/的/理念)=2014基于指纹的文档复制检测方法段落指纹:Hp(s1s2…sn)=(s1bn-1+s2bn-2+…+sn-1b1+wn)modp令b=2,p=最大的素数。Hp(s1)=52,Hp(s1)=30,Hp(s1)=20,P1:高校/是/培养/人才/的/基地。大学生/是/高校/思想政治教育/的/主体。以人为本/是/高校/思想政治工作/必备/的/理念。Hp(P1)=(s1bn-1+s2bn-2+…+sn-1b1+sn)modp=52×22+30×21+20×20=308以人为本/是/社会主义/市场经济/和/时代/发展/的/需要。现代/社会/是/政治经济科技/教育/文化/和/生活/变化发展/极其/迅捷/的/时代。造成/了/更加/激烈/的/社会/竞争,现代/社会/知识经济/初见端倪。P2:Hp(P2)=566计算段落指纹15基于指纹的文档复制检测方法P1:高校/是/培养/人才/的/基地。大学生/是/高校/思想政治教育/的/主体。以人为本/是/高校/思想政治工作/必备/的/理念。以人为本/是/社会主义/市场经济/和/时代/发展/的/需要。现代/社会/是/政治经济科技/教育/文化/和/生活/变化发展/极其/迅捷/的/时代。造成/了/更加/激烈/的/社会/竞争,现代/社会/知识经济/初见端倪。P2:Hp(P2)=566Hp(P1P2)=(P1bn-1+P2bn-2+…+Pn-1b1+Pn)modp=308×2+566×20=1182计算文档指纹Hp(P1)=30816中文文本指纹提取系统17中文文本指纹提取系统18中文文本指纹提取系统19中文文本指纹提取系统20中文文本指纹提取系统21
本文标题:基于指纹的中文文档复制检测技术
链接地址:https://www.777doc.com/doc-3295930 .html