您好,欢迎访问三七文档
山西大学研究生学位课程论文(2014----2015学年第2学期)学院(中心、所):计算机与信息技术学院专业名称:计算机应用技术课程名称:自然语言处理技术论文题目:文本分类综述授课教师(职称):王素格(教授)研究生姓名:刘杰飞年级:2014级学号:201422403003成绩:评阅日期:山西大学研究生学院2015年6月2日文本分类综述摘要文本分类就是在给定的分类体系下,让计算机根据给定文本的内容,将其判别为事先确定的若干个文本类别中的某一类或某几类的过程。文本分类在冗余过滤、组织管理、智能检索、信息过滤、元数据提取、构建索引、歧义消解、文本过滤等方面有很重要的应用。本文主要介绍文本分类的研究背景,跟踪国内外文本分类技术研究动态。介绍目前文本分类过程中的一些关键技术,以及流形学习在文本分类中降维的一些应用。并且讨论目前文本分类研究面临的一些问题,及对未来发展方向的一些展望。关键词文本分类;特征选择;分类器;中文信息处理1.引言上世纪九十年代以来,因特网以惊人的速度发展起来,到现在我们进入大数据时代互联网容纳了海量的各种类型的数据和信息,包括文本、声音、图像等。这里所指的文本可以是媒体新闻、科技、报告、电子邮件、技术专利、网页、书籍或其中的一部分。文本数据与声音和图像数据相比,占用网络资源少,更容易上传和下载,这使得网络资源中的大部分是以文本(超文本)形式出现的。如何有效地组织和管理这些信息,并快速、准确、全面地从中找到用户所需要的信息是当前信息科学和技术领域面临的一大挑战。基于机器学习的文本分类系统作为处理和组织大量文本数据的关键技术,能够在给定的分类模型下,根据文本的内容自动对文本分门别类,从而更好地帮助人们组织文本、挖掘文本信息,方便用户准确地定位所需的信息和分流信息。利用文本分类技术可以把数量巨大但缺乏结构的文本数据组织成规范的文本数据,帮助人们提高信息检索的效率。通过对文本信息进行基于内容的分类,自动生成便于用户使用的文本分类系统,从而可以大大降低组织整理文档耗费的人力资源,帮助用户快速找到所需信息。因此文本分类技术得到日益广泛的关注,成为信息处理领域最重要的研究方向之一。2.文本分类技术的发展历史及现状2.1文本分类技术发展历史国外自动分类研究始于1950年代末,早期文本分类主要是基于知识工程,通过手工定义一些规则来对文本进行分类,这种方法费时费力,还需要对某一领域有足够的了解,才能提炼出合适的规则。H.P.Luhn在这一领域进行了开创性的研究,他将词频统计的思想用于文本分类中。这一时期,主要是分类理论的研究,并将文本分类应用用于信息检索。在这一段时期,提出了很多经典文本分类的数学模型。比如1960年Maron在JournalofASM上发表了有关自动分类的第一篇论文“OnrelevanceProbabiliticindexingandinformarionretriral”,这是Maron和Kuhns提出概的率标引(Probabiliticindexing)模型在信息检索上的应用。还有Salton提出利用向量空间模型(VectorSpaceModel,VSM)对文本进行描述等等。20世纪80年代,这一阶段主要采用传统的知识工程技术,根据专家提供的知识形成规则,手工建立分类器。这一段时期,信息检索技术逐渐成熟,为文本分类提供了许多技术支持,比如1962年H.Borko等人提出了利用因子分析法进行文献的自动分类。Rocchio在1972年提出了再用户查询中不断通过用户反馈来修正类权重向量,来构成简单的线性分类器,还有VanRiJsbergen提出了信息检索的评估标准如准确率,查全率等。20世纪90年代后进入第三阶段,随着网上在线文本的大量涌现和机器学习的兴起,大规模的文本(包括网页)分类和检索重新引起研究者的兴趣。文本分类系统首先通过在预先分类好的文本集上训练,建立一个判别规则或分类器,从而对未知类别的新样本进行自动归类。大量的结果表明它的分类精度比得上专家手工分类的结果,并且它的学习不需要专家干预,能适用于任何领域的学习,使得它成为目前文本分类的主流方法。比如1992年,Lewis在他的博士论文《RepresentationandLearninginInformationRetrieval》中系统的介绍了文本分类系统实现方法的各个细节,并且在自己建立的数据集上进行了测试。这篇博士论文是文本分类领域的经典之作。后来的研究者在特征的降维和分类器的设计方面做了大量的工作。YangYiming对各种特征选择算法进行了分析比较,讨论了文档频率(DocumentFrequency,DF)、信息增益(InformatiobGain,IG)、互信息(Multi-information,MI)和CHI等方法,结合KNN分类器,得出IG和CHI方法分类效果相对较好的结论,对后来的研究起到了重要的参考作用。新加坡的HweeTouNG等人研究了用PerceptronLearning的方法进行文本分类,使用了一直树状的分类结构,大大提高了准确率。1995年,Vipink基于统计理论提出了支持向量机SVM(SupportVectorMachine)方法,基本思想是想找到最优的高维分类超平面。后来有人将线性核函数的支持向量机应用与文本分类,与传统的算法比较在性能上得到了很大的提高,后来也提出了AdaBoost算法框架,比较有代表性的有RealAdaBoost,GentleBoost,LogitBoost等。这些Boosting算法均己被应用到文本分类的研究中,并且取得和支持矢量机一样好的效果。2.2文本分类国内外发展现状国外在自动文本分类以及相关的信息检索、信息抽取领域进行了较为深入的研究。八十年代,自动文本分类以知识工程的方法为主,根据领域专家对给定文本集合的分类经验,人工提取出一组逻辑规则,作为计算机自动文本分类的依据。进入九十年代,基于统计的自动文本分类方法日益受到重视,它在准确率和稳定性方面具有明显的优势。到目前为止,国外的文本自动分类研究已经从最初的可行性基础研究经历了实验性研究进入实用的阶段,并在邮件分类、电子会议、信息过滤等方面取得了较为广泛的应用。国外当前流行的文本分类算法有Rocchio法及其变异算法、k近邻法(KNN)、决策树、朴素贝叶斯、贝叶斯网络、支持向量机(SVM)等方法,这些方法在英文以及欧美语种的文本分类上有广泛的研究,并且KNN和SVm确实是英文分类的最好方法。国外对英文文本分类领域的各个问题都有相当深入的研究,对几种流行的方法进行了大量的对比研究。国内对文本分类研究比较晚,1981年,侯汉清教授首先探讨和介绍了国外文本分类的研究情况。随后,国内很多学者在这方面进行了比较深入的研究。1995年,清华大学电子工程系的吴军研制的汉语语料自动分类系统,以语料相关系数作为分类依据,以字频、词频及常用搭配为补充,采用停用词表排除非特征词,进行人工指导分类。1998年,东北大学的计算机系的张月杰、姚天顺研制的新闻语料汉语文本自动分类模型,通过计算预定义类别和文本特征项之间相关性来进行自动分类。1999年,邹涛、王继成等开发的中文技术文本分类系统CTDS(ChineseTechnicalDocumentClassificationSystem)采用了向量空间模型和基于统计的特征词提取技术,能够根据文本的具体内容将其分配到一个或多个类别。此外,国内很多学者对中文文本分类算法也进行了深入的研究,黄萱箐等提出一种基于机器学习的、独立于语种的文本分类模型。周水庚等在论述隐含语义索引的理论基础,研究了隐含语义索引在中文文本处理中的应用。李荣陆等使用最大熵模型对中文文本分类进行了研究。张剑等提出一种以WordNet语言本体库为基础,建立文本的概念向量空间模型作为文本特征向量的特征提取方法。朱靖波等将领域知识引入文本分类,利用领域知识作为文本特征,提出一种基于知识的文本分类方法。相比于英文文本分类,中文文本分类的一个重要差别在与预处理阶段,中文文本的读取首先需要分词,不同于英文文本的空格区分,从简单的查词典的方法到后来的基于统计语言模型的分词方法,中文分词技术经过多年的发展已经趋于成熟。比较有影响力的有中国科学院计算所开发的汉语词法分析系统ICTCLAS。很长一段时间由于中文文本分类的研究没有公开的数据集,使得分类算法难以比较,现在一般采用北京大学建立的人民日报语料库和清华大学建立的现代汉语语料库等。一旦经过预处理将中文文本变成了样本矢量的数据矩阵,那么随后的文本分类过程就可以参考英文文本分类的方法,因此当前的中文文本分类主要集中在如何利用中文文本本身的一些特征来更好的表示文本样本,国内外很多学者在基于知识和统计的两种方法上对中文文本分类进行了大量的研究,主要有基于词典的自动分类系统和基于专家系统的分类系统。这其中上海交通大学,清华大学,北京大学,东北大学,山西大学,新加坡香港的一些大学都有显著的研究成果。3.文本分类关键技术一个完整的文本分类过程主要包括以下几部分:首先是预处理,根据采用的分类模型将文档集表示成易于计算机处理的形式;对文本类别进行人工标注;对文本进行特征提取;再次是根据预处理的训练集(已预知类别的文档)学习建模,构建出分类器;最后利用测试集文档按一定的测试方法测试建立好的分类器的性能,并不断反馈、学习提高该分类器性能,直至达到预定的目标。具体流程图如下:图1文本分类流程图3.1文本预处理文本预处理包括字符编码转换,去掉网页中导航信息、tag标记等,去掉一些低频词和停止词比如“的”“啊”“the”“a”等,另外要去掉单词前后缀,还有就是词性标注,短语识别,去除停用词,数据清洗也就是去除噪声文档或者垃圾数据还有词频的统计,这里重点介绍自然语言处理技术范畴的中文分词和文本表示。3.1.1中文分词介绍由于中文语言的的特点,同一句话可能有不同的分词方式导致不同的意思,所以对文本分类首先要进行分词。目前比较成功的分词系统有北京航空航天大学的CDWS,山西大学的ABWS,采用联想回溯来解决引起组合切分歧义,正确率达到了98.6%,还有哈工大统计分词系统,北大计算语言所分词系统,复旦分词系统等等,根据有无词典切分,基于规则统计切分,现有的分词算法主要有三类分别是基于字符串匹配的分词方法、基于理解的分词方法和基于统计的分词方法。(1)基于字符串匹配的分词方法这种机械分词方法是按照一定策略将待分析的汉字串与一个充分大的机器词典中的词条进行匹配,若在词典中找到某个字符串,则匹配成功。根据扫描方式分为正向匹配和逆向匹配;按照不同长度优先匹配的情况,分为最大和最小匹配;按照是否与词性标注过程相结合,又分为单纯分词方法和分词与标注相结合的一体化方法。目前常用的有正向最大匹配算法(FMM)、逆向最大匹配算法(BMM)、还有结合前两种方法优点的双向最大匹配算法(Bi-directionalMM),还有最少分词法也叫最短路径法,这是属于贪心算法的一种思想。还有一种是改进扫描方式,称为特征扫描或者标志切分,优先把一些带有明显特征的词作为断电,将原来的字符串分为较小的串再进行机械切分,从而提高准确率,还有就是将分词和词性标注结合起来,利用丰富的词类信息对分词决策提供帮助,并且在标注过程中对分词结果进行检验、调整,极大的提高切分准确率。(2)基于理解的分词方法基于理解的分词方法是通过让计算机模拟人对句子的理解,从而达到分词的效果,也就是在分词的同时进行句法,语义分析,利用局发信息和语义信息来进行歧义消解。这种分词方法需要大量的语言知识和信息,由于汉语语言知识的笼统,复杂性,很难将各种语言信息组织成机器可以直接读取的形式,所以目前还处于研究阶段。(3)基于统计的分词方法基于统计的分词思想在于利用字与字之间和词与词之间共同出现的概率作为分词的依据。这种方法属于无词典分词,只需要对语料库中的字组频度进行统计,定义两个字的互现信息,计算两个汉字的相邻共现概率,这种互现信息反映了汉字之间的结合关系的紧密程度,当紧密程度高于某一个阈值,我们可以认为这个字组可能
本文标题:文本分类综述
链接地址:https://www.777doc.com/doc-4410385 .html