您好,欢迎访问三七文档
当前位置:首页 > 商业/管理/HR > 管理学资料 > 面向论文相似性检测的数据预处理研究
面向论文相似性检测的数据预处理研究刘伙玉1,3王东波21(南京大学信息管理学院江苏南京210023)2(南京农业大学信息科学技术学院江苏南京210095)3(江苏省数据工程与知识服务重点实验室江苏南京210023)摘要:【目的】探究论文相似性检测中数据预处理的数据问题及相关方法。【方法】对数据预处理中的数据清洗、数据集成、数据变换和数据归约进行概述;对数据进行了细致的分析,采用基于规则的方法、基于统计的方法、基于语义的方法进行预处理。【结果】揭示了论文相似性检测中原始数据存在的数据质量问题,并在此基础上给出了数据预处理模型。【结论】数据预处理有助于提高论文相似性检测结果的准确性;有效结合基于规则、统计、语义的三种方法有助于提高数据预处理效果。关键词:相似性检测;抄袭检测;数据预处理;数据质量;数据清洗分类号:TP311.13ResearchandImplementationofDataPreprocessingOrientedtoPaperSimilarityDetectionLIUHuoyu1,3WANGDongbo21(SchoolofInformationManagement,NanjingUniversity,Nanjing210023,China)2(CollegeofInformationandTechnology,NanjingAgriculturalUniversity,Nanjing210095,China)3(JiangsuKeyLaboratoryofDataEngineeringandKnowledgeService,Nanjing210023,China)ABSTRACT:[Objective]Explorethedataissuesandmethodsofdatapreprocessingonpapersimilaritydetection.[Methods]Thisarticlefirstlysummarizesdatacleaning、dataintegration、datatransformationanddatareduction;Itmakesadeepanalysistooriginaldata,andbrieflyintroducesthreedatapreprocessingmethods:Therule-basedmethod,thestatistics-basedmethodandsemantic-basedmethod.[Results]Therearemanydataproblemsintheoriginaldata,basedonwhichitdescribesthemodelofdatapreprocessing.[Conclusions]Datapreprocessingcanhelptoimprovetheaccuracyofpapersimilaritydetection;usethethreemethodstogethercanimprovetheeffectofdatapreprocessing.KEYWORDS:SimilarityDetection;PlagiarismDetection;DataPreprocessing;DataQuality;DataCleaning1引言1.1研究背景与意义随着云计算、物联网等技术的兴起,以博客(微博)、社交网络为代表的新型信息发布方式的不断涌现,计算机信息系统在各行各业的普及,数据种类和规模正以前所未有的速度在增长和累积[1]。大数据时代的到来,使得各行各业的决策也从“业务驱动”开始向“数据驱动”转变,从海量的数据中获取潜在的有价值的信息也成为学术、商业、军事等领域关注的重中之重。然而纷繁复杂的数据2往往都存在着大量质量问题,这将直接影响数据的信息服务质量;因此大数据分析离不开数据质量和数据管理,高质量的数据和有效的数据管理,都是保证分析结果的真实和有价值的必要手段。由此需要对海量数据中存在的粗糙的、不合时宜的数据进行预处理,将非清洁数据转化为高质量的符合要求的数据,这对于保证数据分析结果的准确性和有价值性具有重要意义。1.2研究内容相似性检测(Similaritydetection)就是判断一个文件(包括文档、图像、音频、视频等文件)的内容与其他某个或多个文件是否相似并根据检测结果给出一个相似度的数值表示。按照其检测的对象,可以分为文档、图像、音频、视频相似性检测等。文档相似性检测又可分程序或代码相似性检测和自然语言文本相似性检测[2]。论文相似性检测属于自然语言相似性检测中的一种,就是判断一篇论文的内容是否与其他某篇或多篇论文相似,给出相似度结果,进而判断该论文是否抄袭、剽窃或复制于其他论文。由于学术论文中可能会出现程序代码、图片等内容,因此论文相似性检测过程中也需运用到程序和图像相似性检测技术。国内外对于论文相似性检测的研究主要分为以下几类:论文抄袭的理论分析研究、论文相似性检测系统设计、论文相似性检测算法研究等。自然语言文本相似性检测的研究始于20世纪90年代,自1991年Richard采用关键词匹配算法开发WordCheck[3]后研究取得了较大的进展后,出现多个抄袭检测系统。目前针对文本相似度问题学者提出的检测方法主要有基于统计学和基于语义理解的相似度计算方法。然而由于论文相似性检测对象的特殊性,其算法也有相应的特殊性;国内学者提出了相应的算法,包括金博等[4]提出的基于篇章结构相似度算法,王森等[5]提出的基于文本结构树的检测算法,秦玉平[6]、赵俊杰[7]提出的基于局部词频、段落词频的检测算法,赵俊杰等[8]提出的基于自动文摘的论文抄袭检测算法等。目前关于数据预处理的研究已经很成熟,这方面的研究成果也较多。数据预处理一般包括数据清洗、数据集成、数据变换、数据归约四个方面,每个方面都有不同的技术手段,本文在第二部分数据预处理简述中有较为详细的阐述。数据预处理技术应用在广泛的领域,如生物、物理、化学、地质科学等,同时在大数据时代其重要性更加突显,如在数据挖掘[9]、web日志挖掘[10]、数据仓库[11]等方面的应用。然而目前论文相似性检测的研究主要集中于相似性检测核心阶段,着眼于相似性检测算法的研究与探讨以及系统的开发,而忽视了对数据预处理的研究。面向论文相似性检测的数据预处理方面的研究相对较少,在文献[12]中采用XML技术对数字报刊中的数据进行存储,并对数据进行标准化、消除重复项、补全缺失数据等处理,但未涉及到对具体的学术论文进行结构化处理以及其他针对性的处理。在学术论文构成要素识别与抽取方面较多采用机器学习的方法[13,14],未涉及到其他数据质量问题的预处理。本文正是基于以上内容,重点针对论文相似性检测中的数据预处理进行了分析与研究。数据预处理是论文相似性检测前的数据准备工作,它以领域知识作为指导,用新的数据模型来组织原始数据,摈弃与相似性检测无关的要素,调整数据格式和内容,一方面使得数据更符合检测算法的需要,也减少了检测内核的数据处理量,提高了检测效率;另一方面也提高了相似性检测结果的准确度和可信3度。2数据预处理简述现实中的数据不可避免的存在冗余数据、缺失数据、不确定数据、不一致数据等诸多情况,这样的数据我们称之为“脏数据”,它们成为数据挖掘、信息分析等领域的一大障碍。“脏数据”的存在,将会影响数据分析结果的准确性,误导决策,影响信息服务的质量。因此,在这些“脏数据”被使用之前必须对它进行预处理,消除冗余数据,弥补缺失数据,纠正错误数据等等,使得数据达到进行知识获取研究所要求的标准。数据预处理主要包括四个方面的内容:数据清洗、数据集成、数据变换、数据归约。数据清洗的范畴在微观层面分为单数据源、多数据源,分别体现在模式层和实例层上[15]。单数据源的问题集中体现在拼写错误的数据、相似重复数据及非关联数据(孤立数据)等;多数据源的问题则反映在时间的不一致、粒度的不一致,如图2-1所示。图2-1数据清洗的范畴数据集成主要有两种方式,一种是物理集成,就是把不同数据源中的数据合并到一个统一的数据源中;另一种是逻辑集成,这种方式不改变数据的物理位置,只在有需要时进行数据抽取,提供虚拟的全局视图。无论使用何种数据集成方式,都需要考虑到很多问题,如实体识别问题、冗余问题、数据值冲突的检测与处理等。总之,数据集成的目的就是将分布在不同数据源中的数据进行整合,最终以一个统一的视图提供给用户使用[16]。数据源中的数据不一定符合我们最终数据分析算法的要求,在数据类型和数据格式上都可能存在不一致性,因此需要数据变换。数据变换的目的就是将数据转换或统一成符合算法分析要求的数据。数据变换主要涉及的内容包括[16-18]:光滑、数据规范化、数据泛化、数据聚集、属性构造、离散化。当把不同数据源的数据集成到一起时会发现数据量相当大,处理起来将会耗费较长时间,甚至会使得分析变得不现实或不可行,此时可以利用数据归约技术………………数据清洗的范畴模式层模式层实例层实例层单数据源问题多数据源问题参照完整性性拼写错误唯一值约束重复数据命名冲突结构冲突……粒度不一致时间不一致4在保证原数据完整性的前提下对数据进行约简。常用的数据归约方法有[18,19]:维归约,也称为属性归约,减少所考虑的随机变量或属性的个数,主要方法有小波变换、主成分分析、属性子集选择等;数量归约:也称为数据块归约,实例约简等,是指用替代的、较小的数据表示形式替换原数据。此外,在数据变换中使用的数据聚集、离散化、数据泛化方法也可以用于数据归约。3论文相似性检测中数据预处理的研究3.1问题的提出随着互联网和数字媒体技术的快速发展,人们获取文献资源的途径也在发生巨大的变化,相比传统购买纸质期刊的方式,人们更倾向于直接从互联网文献全文数据库中获取资源。如今,数字化文献服务领域发展迅猛,众多组织机构也在投入巨大资源开发形式多样的服务;其中,论文相似性检测服务是目前三大文献资源提供商重点关注的服务之一。而需要对海量数据进行相似性检测,首先涉及到的就是数字化文献资源的加工,需要通过OCR或其他转换软件将PDF等格式的文献资源进行格式转换,这可能会造成字符转换错误等一系列问题。本文将重点针对由OCR软件对学术论文转换之后的TXT文档所存在的数据问题进行分析并提出数据预处理方案。笔者通过对大量原始TXT文档进行分析,初步确定了针对论文相似性检测数据预处理的范畴(见图3-1)。需要特别说明的是,本文主要针对中文学术论文相似性检测的数据。图3-1论文相似性检测中数据预处理的范畴3.2数据预处理模型的构建本文根据论文相似性检测中的数据预处理的范畴,给出了数据预处理模型(见图3-2),详细描述了原始文档准备-数据预处理-结果文档输出,最后将结果文档交予相似性检测阶段的整个过程。接下来重点针对论文相似性检测中特有的编码问题、要素划分、乱码问题、段落合并的分析与处理进行详细阐述。论文相似性检测中数据预处理的范畴常见数据问题特有数据问题噪声数据唯一性冲突结构冲突命名冲突拼写错误数据退化关键词清洗段落合并问题要素划分问题编码问题乱码问题参考文献问题格式统一问题5图3-2论文相似性检测中数据预处理模型3.2.1编码问题编码问题是信息处理的基本问题,但是由于历史、政治、文化等多方面的….数据库待清洗的原始TXT文档OCR等软件转换格式学位论文期刊论文PDF/WORD等格式是否参与检测参与检测文档集否不参与检测文档集……论文相似性检测进入论文相似性检测阶段结果输出阶段原始数据准备阶段数据预处理阶段文档调整格式统一划分要素合并段落关键词清洗参考文献基于语义的方法基于统计的方法基于规则的方法编码转换缺失值的清洗方法噪声数据的清洗方法不一致数据的清洗方法文档清洗…命名冲突结构冲突数据退化噪声数据乱码处理是乱码的清洗方法6原因,现实中存在着大量不统一的编码方式,造成在信息处理过程中出现信息丢失,转换错误、大段乱码等问题,只有充分了解与字符编码标准相关的概念,进行编码的统一,才能便于信息的表示、传
本文标题:面向论文相似性检测的数据预处理研究
链接地址:https://www.777doc.com/doc-3579811 .html