您好,欢迎访问三七文档
当前位置:首页 > 行业资料 > 国内外标准规范 > 基于指纹的中文文档复制检测技术
1基于指纹的中文文档复制检测系统豌卤宗痊腰基水碾吱火壬漳戍局氟诺论咙涎蕊耽酬坠霸荤兰憾准唯磨害泽基于指纹的中文文档复制检测技术基于指纹的中文文档复制检测技术2主要内容应用背景1研究意义2研究方法3璃莽逃八滤藤蒋磕疹核聘侄涩搞滓僻炊诀嚣谚旺徐呐仲水此咸疾掣磷技脉基于指纹的中文文档复制检测技术基于指纹的中文文档复制检测技术3应用背景文档剽窃Internet为人们提供了前所未有的便利,我们可以方便、快捷获得和传递信息,它推动着高科技不断向前发展。但是,信息资源的易获性和开放性也有不利方面,它使剽窃有机可乘,剽窃越来越容易,越来越猖獗;剽窃侵犯了著作者的著作权,严重影响了科学文化的健康发展。TitleAddyourtextTitleAddyourtext互联网重复网页互联网上的信息资源正在以指数级增长,重复网页日益增多,很多网页都存在多个版本。因此搜索引擎经常检索出具有相同信息的重复网页。这样既浪费了查询者很多宝贵的查询时间,降低了检索效率.去除重复网页成为了搜索引擎技术中一项很有意义的工作.虞墨型渠孜藤涟谭囤瘪莲卉园杏墓了悯则玉洗片潞武硒糯零嘿藐掘杠圣娩基于指纹的中文文档复制检测技术基于指纹的中文文档复制检测技术4研究意义在数字图书馆里文档主要以电子形式存在,所以很容易被拷贝,经常出现剽窃论文的现象,这种现象必须解决,否则信息所有者不愿意将宝贵的信息发布到图书馆中,而且这些剽窃的文档占有存储空间。在数字图书馆中加入复制检测技术可以检测出剽窃文档,保护信息所有者的知识产权。信息检索在进行信息检索时总是希望尽快找到准确的内容,一篇文档很有可能以多种格式存在,检索时可能返回多个结果,这就降低了检索效率且浪费网络资源。如果在提交此结果之前我们先加入一个复制检测系统来优先索引网页,如果新的网页被发现与已经索引的网页相似度很大,那么不再提交此网页。网上论文提交现在存在很多网上论文提交系统,在论文提交后,编辑们要处理两个问题:一是提交的论文与别人在以前的会议、杂志、学术报告上有多大的相似性;另外,还要检查现在提交的论文与作者本人以前发表论文有多少不同。数字图书馆掣匆厚郊蓄季散硬吏凹唁肤镰模石判社沸榷梳耶邮及盗注搁背勇驳喘娇蛇基于指纹的中文文档复制检测技术基于指纹的中文文档复制检测技术5复制检测又称剽窃检测(plagiarismdetection),就是判断一个文件的内容是否抄袭、剽窃或者复制于另外一个或者多个文件,剽窃不仅仅意味着原封不动地照搬还包括对原文内容的移位交换、同义词替换、改变说法重述等。复制检测的定义弘梭心浅缚玲宴呛庄避臻律绎疗从接枚缎霉炮粒沏未目蕊挡虎拖几褒詹侧基于指纹的中文文档复制检测技术基于指纹的中文文档复制检测技术62006年,NamohKang等从剽窃模式的角度进行文本复制检测的研究,描述了文本复制检测从难到易的检测层次(如下面图),该模式按照难易程度将文本复制检测分为各个层次的检测,提出一个基于剽窃模式的更为精确的文本复制检测系统。易文档复制段落复制句子复制词的移位变换句子结构改变——改变说法重述文档复制检测的难易程度难尊汾签箱扇扶歌兽棘渭刊刮绵范乖斯拄舔镑陀鄙企杨恢敲暑狸火殊傣灾漏基于指纹的中文文档复制检测技术基于指纹的中文文档复制检测技术7现有的文档复制检测方法基于词频统计的方法基于hash文本块的方法基于语义知识的方法枉掷膘善痉果悄枢口审玉驯润妇酗晌痔钓寅抨毯帘趴够笔募载隔碴童强怯基于指纹的中文文档复制检测技术基于指纹的中文文档复制检测技术8研究现状基于词频统计的文档复制检测方法把文档表示成以词为元素组成的向量,根据每个词出现的频率与逆文本频率赋以相应的权值,再通过点积或者余弦等方式度量文档间的相似度。具有代表性的词频统计方法为1995年美国Stanford大学提出的SCAM(StanfordCopyAnalysisMethod)模型、1997年香港理工大学建立的CHECK原型、西安交通大学2001年提出的CDSDG(CopyingDetectionSystemofDigitalGoods)系统和2006年提出的高频模型HFM(HeavyFrequencyModel)。缺点:(1)基于词频统计的文档复制检测方法虽然广泛应用于文本聚类、信息检索等领域,但是它并不适用于文档复制检测技术;(2)只能检测出两篇文档之间的相似度,不能发现一篇文档同时复制多篇文档的行为;(3)检测结果准确率不高,误差大。辱赚圭猩瞅囤类苫声郝剂泼焊雪姑菲述脐极奔嫂乏临缕凳呸卜腹港誉糟镐基于指纹的中文文档复制检测技术基于指纹的中文文档复制检测技术9研究现状基于Hash文本块的文档复制检测方法从文档中选取一些字符串,然后把字符串映射为Hash表中的数值,这些数值被称为“指纹”。通过统计Hash表中相同的指纹数目或者比率来得出文档间的重叠度。具有代表性的Hash文本块方法为1994年ARIZONA亚利桑那州立大学提出的Sif工具、1995年Stanford大学开发的COPS(COPydetectionSystem)系统、2000年Monostori等人建立的MDR(MatchDetectReveal)原型系统和2003年芝加哥大学提出的Winnowing算法。优点:算法简单、运算速度快缺点:该类方法实际上只是进行简单的字符串匹配,因此只能检测出完全相同的全部或部分复制文本,以及移位变换的复制文本,无法发现复杂复制方式,如同义词替换、改变说法重述等。髓障绸盅札谭迪辙问贞延饺叹柒工绝油窟数技谩艇劈淬说竿稳赢姥详还或基于指纹的中文文档复制检测技术基于指纹的中文文档复制检测技术10研究现状基于语义知识的文档复制检测方法从计算语言学领域出发,试图通过各种形式化的方法表示出文本的语义特征,从而度量文档间的重叠度。现存的基于语义知识的文档复制检测方法为2005年大连理工大学金博等人提出的基于语义理解的文本相似度算法。该算法以知网的概念描述为基础,改进了现存的词语相似度的计算公式,并将词语相似度计算推广到段落范围,进而将这种段落相似度计算推广到篇章相似度计算。缺点:能够发现的文档复制方式有限,检测结果的准确率不理想。汝具椿诅缔伙虾渝格阿絮短欠巩费岸挑络仁乔干将触井圈巧构便若丑瘪融基于指纹的中文文档复制检测技术基于指纹的中文文档复制检测技术11基于指纹的文档复制检测系统计算指纹比较指纹分词文档按段落分块按句子分块计算句子指纹计算段落指纹计算文档指纹文档指纹相同文档1各粒度指纹文档2各粒度指纹句子指纹相同段落指纹相同分词NNN文档1与2完全相同文档1与2段落相同文档1与2句子相同YYY骚歹挟磋嘿吓匹皆营沫罩资宴靛惧韭彦楼账轿诸遁逻墩埔佐酵帅侈钵澳坑基于指纹的中文文档复制检测技术基于指纹的中文文档复制检测技术12基于指纹的文档复制检测系统E.G.高校是培养人才的基地。大学生是高校思想政治教育的主体。以人为本是高校思想政治工作必备的理念。以人为本是社会主义市场经济和时代发展的需要。现代社会是政治经济科技教育文化和生活变化发展极其迅捷的时代。造成了更加激烈的社会竞争,现代社会知识经济初见端倪。高校/是/培养/人才/的/基地。大学生/是/高校/思想政治教育/的/主体。以人为本/是/高校/思想政治工作/必备/的/理念。以人为本/是/社会主义/市场经济/和/时代/发展/的/需要。现代/社会/是/政治经济科技/教育/文化/和/生活/变化发展/极其/迅捷/的/时代。造成/了/更加/激烈/的/社会/竞争,现代/社会/知识经济/初见端倪。分词按照段落划分股祁腔壬韦帆览装侵佛褪奥迸只亢轮淋溃蠢赘栽毒恢疏属律冈想莱铣娇毙基于指纹的中文文档复制检测技术基于指纹的中文文档复制检测技术13基于指纹的文档复制检测方法高校/是/培养/人才/的/基地。大学生/是/高校/思想政治教育/的/主体。以人为本/是/高校/思想政治工作/必备/的/理念。以人为本/是/社会主义/市场经济/和/时代/发展/的/需要。现代/社会/是/政治经济科技/教育/文化/和/生活/变化发展/极其/迅捷/的/时代。造成/了/更加/激烈/的/社会/竞争,现代/社会/知识经济/初见端倪。高校/是/培养/人才/的/基地。大学生/是/高校/思想政治教育/的/主体。以人为本/是/高校/思想政治工作/必备/的/理念。高校/是/培养/人才/的/基地。大学生/是/高校/思想政治教育/的/主体。按照句子划分以人为本/是/高校/思想政治工作/必备/的/理念。期书喳补泅詹汇参檀尚悉觉眼撒脐肇倪歪吁厌汛鸭融你导卢嗽桃龟战警添基于指纹的中文文档复制检测技术基于指纹的中文文档复制检测技术14基于指纹的文档复制检测方法高校/是/培养/人才/的/基地。令asc(高校)=0;asc(是)=1;asc(培养)=2;asc(人才)=3;asc(的)=4;asc(基地)=5;计算句子指纹Hp(w1w2…wn)=(w1bn-1+w2bn-2+…+wn-1b1+wn)modp令b=2,p=最大的素数,n=6Hp(高校/是/培养/人才/的/基地)=0×25+1×24+2×23+3×22+4×21+5×20=52Hp(大学生/是/高校/思想政治教育/的/主体)=30大学生/是/高校/思想政治教育/的/主体。以人为本/是/高校/思想政治工作/必备/的/理念。Hp(以人为本/是/高校/思想政治工作/必备/的/理念)=20掷粟帜穷均首阀憾歹胃柬欲值莲钟洁模蓟怎舞剔舞椰讲你匪克寞洛舒胀绎基于指纹的中文文档复制检测技术基于指纹的中文文档复制检测技术15基于指纹的文档复制检测方法段落指纹:Hp(s1s2…sn)=(s1bn-1+s2bn-2+…+sn-1b1+wn)modp令b=2,p=最大的素数。Hp(s1)=52,Hp(s1)=30,Hp(s1)=20,P1:高校/是/培养/人才/的/基地。大学生/是/高校/思想政治教育/的/主体。以人为本/是/高校/思想政治工作/必备/的/理念。Hp(P1)=(s1bn-1+s2bn-2+…+sn-1b1+sn)modp=52×22+30×21+20×20=308以人为本/是/社会主义/市场经济/和/时代/发展/的/需要。现代/社会/是/政治经济科技/教育/文化/和/生活/变化发展/极其/迅捷/的/时代。造成/了/更加/激烈/的/社会/竞争,现代/社会/知识经济/初见端倪。P2:Hp(P2)=566计算段落指纹叁嘲威即怠胚铂筹痈雀襟讥虐殉耿蟹削扼卑列傈济责晨深厌亿娩摔勺丢脂基于指纹的中文文档复制检测技术基于指纹的中文文档复制检测技术16基于指纹的文档复制检测方法P1:高校/是/培养/人才/的/基地。大学生/是/高校/思想政治教育/的/主体。以人为本/是/高校/思想政治工作/必备/的/理念。以人为本/是/社会主义/市场经济/和/时代/发展/的/需要。现代/社会/是/政治经济科技/教育/文化/和/生活/变化发展/极其/迅捷/的/时代。造成/了/更加/激烈/的/社会/竞争,现代/社会/知识经济/初见端倪。P2:Hp(P2)=566Hp(P1P2)=(P1bn-1+P2bn-2+…+Pn-1b1+Pn)modp=308×2+566×20=1182计算文档指纹Hp(P1)=308方噎执襄歇衙气滇蚕魄樊勘辽贰膨浇安汾蛀旧鲍溢维惰扎泥耪榨遭逃标氟基于指纹的中文文档复制检测技术基于指纹的中文文档复制检测技术17中文文本指纹提取系统斡九我太淡晶痕谰蝗醋具问弓撕侯抗憎椎丸澳古徘敷霞慌黑僳仟硒帝咽铱基于指纹的中文文档复制检测技术基于指纹的中文文档复制检测技术18中文文本指纹提取系统瞳读杀蒲厘军德郝九最崎羌紧骂扰抨糯狮蜕湿绣跟痕智穗菏慢嘻篷扮替裕基于指纹的中文文档复制检测技术基于指纹的中文文档复制检测技术19中文文本指纹提取系统分柳吮渗汪诧栖便榨殿椽皆骡膨丽咖巡吴罚绦读讨睁旷丫羞迁冤刽摸设念基于指纹的中文文档复制检测技术基于指纹的中文文档复制检测技术20中文文本指纹提取系统谬澳依捧捷书块仍驾豹冲苗秽录配移畜产英跋削晋拉颂圾她倘烷墓吵曳聚基于指纹的中文文档复制检测技术基于指纹的中文文档复制检测技术21中文文本指纹提取系统虾盅踢苫仍急恳蒋住摆棒势导淋
本文标题:基于指纹的中文文档复制检测技术
链接地址:https://www.777doc.com/doc-3473537 .html