您好,欢迎访问三七文档
当前位置:首页 > 电子/通信 > 综合/其它 > 终端电子文件自动分类技术研究
终端电子文件自动分类技术研究1.1.研究意义随着数字技术的不断发展,导致数据的规模不断增大,数据的研究领域不断深入,出现了海量数据。这些海量数据含有大量的有用的重要的信息,人们开始对数据进行统计分析,提取需要的信息,于是数据分类技术应运而生。数据分类作为数据挖掘的一个分支,是在一组类别已知的数据中发现分类模型,然后将新数据映射到对应分类模型中的一个类别中去,以此来预测新数据的类别。是一种有监督的机器学习方法。从科学研究、商业、医疗卫生、银行、金融等行业都有着广泛的应用。一个我们日常生活中的例子比如:可以根据以往的生活经验,利用日照,温度,适度,风向等指标对今天的气象状况进行分类,得出两个类别:1今天适合出行2今天不适合出行。天文学家利用分类技术从海量的天文观测数据中发现稀有的天现象和天体,如恒星和星系的区分、不同活动星系核的光谱区分、APM星系的形态分类。将分类方法用于医学诊断,可以从大量的临床病例中发现某些疾病的关键特征,从而帮助医生做出更准确的诊断。同时随着计算机和通信技术的发展,互联网的普及使用,各种文本信息发展迅速。给人们提供了大量的信息,但是同时准确而快速的查找信息变得越来越困难。因此如何合理有效地管理和组织海量的文本信息,具有很大的研究意义。近年来,人们更重视对自动文本技术的研究,所谓的自动文本就是在给定的分类下,根据文本的内容或者属性,计算机自动的把大量文本归于所属的类别中。通过分类减轻人们处理信息的工作量。通过对文本进行的自动过滤和归类,把相关的主题的文本组织在一起实现对文本的有序组织,提高检索信息的准确率,但是这些操作的所需的共同技术基础就是文本的自动分类。可以这样认为文本分类的目标就是对文本进行有效地组织,把相同相似相关的文本组织在一起,为信息的检索和管理提供的有效地工具。1.2研究现状分类算法是随着信息的增长而发展起来的,也就是说分类算法的研究源于信息数据的大量增加。因此分类算法在最近几年取得了很快的发展,但是分类的概念由来已久,早在多年以前人们就已经开始着手研究分类算法。目前,形成了多种分类算法,不同的算法有其形成的背景和条件,其使用范围也不一样,应用的广度也各有不同。已经研究出的比较成熟的分类算法有:(1)贝叶斯网络[12]:1973年,Duda和hart提出朴素贝叶斯分类器,但是由于不现实的条件独立性,在当时并没被看好,仅仅用于对复杂问题分类的比较对象,直到1980年之后人们才渐渐意识到贝叶斯算法的优越性,并且在某些领域的应用表现出很好的性能,由此推动了贝叶斯算法的实际应用;(2)决策树算法[13]:1986年quinlan提出以信息论为基础的ID3算法,随着问题的出现,随后又出现对ID3改进的ID4、ID5算法,在九十年代又出现了ID4.5算法等;(3)神经网络[14]起源于1940年左右,当时有心理学家mcculloch和数学家pitts提出的,1984年,Hopfiedld提出了神经网络中的经典的BP算法,其中160多年来神经网络经历由萧条时期到复兴时期,就目前而言,神经网络方面的理论已经相当成熟。国内方面,吴凌云[4]于2003年提出了带动量的权值批量累计调节法,王庆海提出了权值修正法;(4)KNN算法[17]:1968由Cover和Hart提出,理论上是一个成熟的方法;(5)粗糙集算法[7]:波兰数学家Z.Pawlak在1982年提出的。粗糙集以等价关系(不可分辨关系)为基础,它将分类理解为等价关系,用于分类问题;(6)模糊集算法;(7)支持向量机算法(SupportVectorMachine)法[15],由Vapnik等人于1995年提出,具有相对优良的性能指标。该方法是建立在统计学习理论基础上的机器学习方法。通过学习算法,SVM可以自动寻找出那些对分类有较好区分能力的支持向量,由此构造出的分类器可以最大化类与类的间隔,因而有较好的适应能力和较高的分准率。该方法只需要由各类域的边界样本的类别来决定最后的分类结果;(8)遗传算法(geneticalgorithmsGA)[7]是一种借鉴生物界自然遗传机制和自然选择过程的搜索方法。适用于并行处理。在由上个世纪70年代产生到现在的40年里,实现了大量的应用,取得人们高度的关注。遗传算法产生于上个世纪70年代,在80年代迎来了兴盛发展时期,进入90年代遗传算法的应用研究显得非常活跃,不但其应用领域扩大而且利用遗传算法进行优化和规则学习的能力也显著提高;(9)蚁群算法(ACO)[15]由Dorigo等人于1991年在第一届欧洲人工生命会议上提出,是模拟自然界中真实的蚂蚁寻食过程的一种随机搜索算法。蚁群算法的基本流程包括:路径构造和信息素更新。(10)微粒群算法(PSO)是仿生算法的一个有名的代表。是由Eberhart和Kennedy[15]于1995年提出的一种全局搜索算法,同时也是模拟自然界的生物活动以及群体智能的随机搜索方法。近年来,传统分类方法得到改进,新的分类算法又不断出现1.3研究目标本论文从四个方面对分类算法进行了研究。这四个方面是:(1)基于概率统计的分类算法:此类主要包括贝叶斯算法(2)基于粒计算的分类算法:模糊集算法、粗糙集算法(3)基于智能优化的分类算法:主要包括遗传算法,蚁群算法,粒子群算法;(4)其他经典分类算法:主要有决策树、支持向量机,神经网络,KNN算法等。研究了当前流行算法的形成背景、思想、内容等。指出一些算法的优缺点、局限性和适应范围等等。在遇到实际问题时可以根据各个算法的特点选择相应的算法,也可以采取几个算法的结合使用等。2文本分类算法2.1文本分类介绍2.1.1文本分类的意义和目标随着计算机和通信技术的发展,互联网的普及使用,各种文本信息发展迅速。给人们提供了大量的信息,但是同时准确而快速的查找信息变得越来越困难。因此如何合理有效地管理和组织海量的文本信息,具有很大的研究意义。近年来,人们更重视对自动文本技术的研究,所谓的自动文本就是在给定的分类下,根据文本的内容或者属性,计算机自动的把大量文本归于所属的类别中。通过分类减轻人们处理信息的工作量。通过对文本进行的自动过滤和归类,把相关的主题的文本组织在一起实现对文本的有序组织,提高检索信息的准确率,但是这些操作的所需的共同技术基础就是文本的自动分类。可以这样认为文本分类的目标就是对文本进行有效地组织,把相同相似相关的文本组织在一起,为信息的检索和管理提供的有效地工具。2.1.2文本分类的研究现状:整体来说,我国国内文本分类的研究起步较晚[5],大多理论是借鉴于国外的技术,比如说,国内学者在英文分类研究的基础上采取相应的策略,结合中文文本的特征和汉字的特点,提出了中文文本分类体系。当前,国外的文本分类已经由最初的理论研究进入实用阶段,在信息过滤,电子邮件等等方面得到了应用。比如:自动web叶的文本分类器;自动跟踪用户阅读兴趣的分类分析器等。无论是那种分类系统所用的都是目前比较流行的文本分类方法。比如文献[19]提出:nativebayes、SVM、神经网络、遗传算法、KNN等在文本分类的应用。而且指出其中KNN、nativebayes、SVM分类效果较好。文本分类问题与其它分类问题没有本质上的区别,其方法可以归结为根据待分类数据的某些特征来进行匹配,当然完全的匹配是不太可能的,因此必须(根据某种评价标准)选择最优的匹配结果,从而完成分类综观目前的文本分类算法,文献[5]提出可以归结为三个方面:传统文本分类;层次分类;基于知识的分类。下面就这三个方面做出介绍:传统文本分类文本分类一直是人们重视并且研究的领域,互联网和搜索引擎的发展更是促进了对文本分类的研究。早在20世纪五十年代,就有学者开始对文本分类进行研究,但是直到上个世纪末,在有限样本情况下的机器学习理论研究才逐渐成熟起来。当今,人们已经提出来许多与分本分类相关的算法如支持向量机模型(SVM)、k值临近模型(KNN),贝叶斯模型(NB)等,这些都是基于机器学习理论的,其中支持向量机是最为广泛的研究应用的方法之一。在面对标准数据集方面,大量的实验表明,这些分类在传统的文本分类应用中是非常有效地但是随着互联网规模的发展,web文档所属的类别规模越来越庞大,这就涉及到多类别分类,甚至大规模类别分类。传统文本分类的理论虽然很成熟,但是近年来也面临不少问题。比如:当类别规模增大时,准确度会下降,以致分类结果会出现问题;类别规模增大时,传统的分类算法会产生很长的训练时间。类别通常都是层次结构的,存在父子关系,是树形的结构,或者图形结构,这些都对传统的文本分类提出了挑战。层次分类现实中很多类别体系都很庞大,而传统的文本分类只是关注于水平分类,按这种平面分类显然是不行的。所谓的水平分类是指类别之间是孤立的,没有任何联系的。大规模分类体系通常是树形的层次结构。所以,面对这种大规模的分类体系应该采取层次结构。通常层次结构采取的方法是:Big-bang方法和Top-down[19]方法。(1)Big-bang方法主要采取的实现方式是:基于SVM,基于关联规则,基于规则的分类器等。Big-bang分类器是将待分文档分类到类别树中的一个或者多个类别。此方法只采用一个分类器。所以不够灵活,而且无法应付待分类别结构的变化,很难利用不同层类别的特征。(2)Top-down方法。Top-down方法,即自顶而下方法,主要用SVM和贝叶斯方法实现。与Big-bang方法只使用一个分类器不同的是在每个类别层构造多个分类器,每个分类器只是作用于该层。整个分类过程是由最顶层开始逐步分类直到最底层。但是正是由于这种层次特点,一旦上层分类出现错误就会逐级传递到下层。同样的,灵活性差,一旦类别发生改变,每个分类就要进行重新训练。但是总体来说,在许多方面还是比Big-bang方法好。对比层次分类的两种方法,他们都有个共同的不足就是灵活性差,由于Top-down方法采用多个分类器所以灵活性更差。因此,都不太适合应付类别体系的变化。基于知识的分类此类方法研究的主要问题是怎么利用互联网文本丰富的语义进行分类。基于知识的分类主要采取的方法是支持向量机,所以仍然具有SVM算法面临新问题表现的不足方面。3.1.3文本分类的概念文本分类问题就是将一篇文档归入预先定义的几个类别中的一个或几个,而文本的自动分类则是使用计算机程序来实现这样的分类。注意这个定义当中着重强调的两个事实。第一,用于分类所需要的类别体系是预先确定的。例如新浪新闻的分类体系,Yahoo!网页导航的分类层次。这种分类层次一旦确定,在相当长的时间内都是不可变的,或者即使要变更,也要付出相当大的代价(基本不亚于推倒并重建一个分类系统)。第二,一篇文档并没有严格规定只能被分配给一个类别。这与分类这个问题的主观性有关,例如找10个人判断一篇文章所陈述的主题究竟属于金融,银行还是财政政策领域,10个人可能会给出10个不同的答案,因此一篇文章很可能被分配到多个类别当中,只不过分给某些类别让人信服,而有些让人感觉模棱两可罢了(置信度不一样)。当然,目前真正大量使用文本分类技术的,仍是依据文章主题的分类,而据此构建最多的系统,当属搜索引擎。文本分类还不完全等同于网页分类。网页所包含的信息远比含于其中的文字(文本)信息多得多,对一个网页的分类,除了考虑文本内容的分类以外,链入链出的链接信息,页面文件本身的元数据,甚至是包含此网页的网站结构和主题,都能给分类提供莫大的帮助(比如新浪体育专栏里的网页毫无疑问都是关于体育的),因此说文本分类实际上是网页分类的一个子集也毫不为过。当然,纯粹的文本分类系统与网页分类也不是一点区别都没有。文本分类有个重要前提:即只能根据文章的文字内容进行分类,而不应借助诸如文件的编码格式,文章作者,发布日期等信息。而这些信息对网页来说常常是可用的,有时起到的作用还很巨大!因此纯粹的文本分类系统要想达到相当的分类效果,必须在本身的理论基础和技术含量上下功夫。除了搜索引擎,诸如数字图书馆,档案管理等等要和海量文字信息打交道的系统,都用得上文本分类。2.2文本分类算法22.1神经网络可以构造
本文标题:终端电子文件自动分类技术研究
链接地址:https://www.777doc.com/doc-2060014 .html