您好,欢迎访问三七文档
当前位置:首页 > 办公文档 > 其它办公文档 > 自动化所专利申请审批表
自动化所专利申请审批表2006年3月30日专利名称一种基于概率主题词的两级文本分类方法专利类型■发明□实用新型□外观设计发明人宗成庆、李寿山关联课题名称及课题号国家自然科学基金项目“基于对话内容的高鲁棒性信息提取方法研究”(项目编号:60375018)1、中国科学院自动化研究所申请单位2、发明人所属部门模式识别与智能系统重点实验室执笔人姓名李寿山联系电话010-82614468联系方式E-mail地址sshanli@nlpr.ia.ac.cn科研处领导审批意见年月日专利受理号及受理时间(由成果主管填写)备注IB0618081说明书摘要本发明涉及自然语言处理及模式识别领域,公开基于概率主题词的两级组合文本分类方法,一级分类:基于朴素贝叶斯分类方法,利用概5率主题词特征和拒绝条件判断对测试文本分类;二级分类:再基于传统特征提取方法提取出特征词对被第一级拒绝分类的测试文本进行分类。本发明分级组合方法对文本进行分类,融和不同分类器的特点能够非常快的在一级分类中对很多文本进行正确分类,大大提高文本分类系统效率,为文本分类系统实用化提供很好的处理方式;考虑文本特点提出概10率主题词,在适当的拒绝条件下,概率主题词以很高的正确率完成大量文本分类任务。实验证明本发明两级组合与传统单一分类相比,能够大大减少时间消耗并能提高系统分类正确率。1520IB0618081摘要附图测试文本1.概率主题词提取2.第一级分类器3.拒绝条件拒绝接受结果测试文本4.信息增益特征词提取5.第二级分类器结果IB0618081权利要求书1、一种基于概率主题词的两级组合文本分类方法,其特征在于,所述方法包括:5第一级文本分类:基于朴素贝叶斯分类方法,利用概率主题词特征对测试文本分类,利用拒绝条件判断是否属于朴素贝叶斯分类;第二级文本分类:对于第一阶段文本分类方法不能分类的文本,基于传统的特征提取方法提取出特征词,再利用这些特征词以及文本分类方法进行第二次文本分类。102、根据权利要求1所述基于概率主题词的两级组合文本分类方法,其特征在于,所述第一级文本分类的判断拒绝条件是:判断一篇文档是否可以用第一个分类方法分类,采用两个拒绝条件:利用计算文档属于各个类别的后验概率值的大小;利用计算提取出来的概率主题词的数目大小。153、根据权利要求1所述基于概率主题词的两级组合文本分类方法,其特征在于,第一级分类步骤包括:a)提取概率主题词;b)以概率主题词为特征,利用朴素贝叶斯分类器对文本进行分类;20c)确定两个拒绝条件;d)通过拒绝条件判断此文本是否可以用第一阶段里面的分类器进行分类;4、根据权利要求1所述基于概率主题词的两级组合文本分类方法,其特征在于,第二级分类步骤包括:25aa)提取信息增益特征词;bb)利用一种分类方法对被拒绝的文本进行分类。5、根据权利要求3所述基于概率主题词的两级组合文本分类方法,其特征在于,所述第一级分类步骤a,利用词属于每个类别中的后验概率提取主题词。30IB06180826、根据权利要求3所述基于概率主题词的两级组合文本分类方法,其特征在于,所述第一级分类步骤b,通过这些概率主题词特征计算文本的后验概率,概率值昀大的类别为分类的可能结果。7、根据权利要求3所述基于概率主题词的两级组合文本分类方法,其特征在于,所述第一级分类步骤c,两个拒绝规则是通过分析文本属5于每个类别的后验概率及概率主题词的数目决定的。8、根据权利要求3所述基于概率主题词的两级组合文本分类方法,其特征在于:所述第一级分类步骤d,如果判断结果为可以分类,整个分类过程结束;如果判断结果为拒绝分类则进行第二级分类过程;9、根据权利要求4所述基于概率主题词的两级组合文本分类方法,10其特征在于,所述第二级分类步骤aa,利用传统的特征提取方法:信息增益或者文档频率提取特征词。10、根据权利要求4所述基于概率主题词的两级组合文本分类方法,其特征在于,所述第二级分类步骤bb,这个阶段的分类器是基于朴素贝叶斯、支持向量机或者K近邻方法的分类器,可以选择其中的任一个分15类器。11、根据权利要求2所述基于概率主题词的两级组合文本分类方法,其特征在于,所述拒绝条件是:第一个是判断由贝叶斯分类方法计算出来的文本的后验概率是否大于某个阈值;如果文本属于具有昀大后验概率的类别的概率值小于某个20阈值,则拒绝分类;第二个是判断从被分类文本中提取出来的概率主题词的数目是否满足一定的条件;如果文本中提取出来的概率主题词的数目满足给定的不等式时,则拒绝分类。25IB0618081说明书基于概率主题词的两级组合文本分类方法技术领域5本发明涉及模式识别和自然语言处理技术领域,是一种基于概率主题词的串行组合文本分类方法。背景技术文本分类(TextCategorization)是多种自然语言处理技术的综10合应用之一,实现对文本的计算机自动分类能够更好的帮助我们去组织和利用目前的浩瀚文本信息。同时,文本分类方法涉及到模式识别中的很多基本问题,例如分类器设计问题,高维特征问题等等。因此,文本分类技术的研究具有重要的实用价值和理论意义。衡量文本分类方法的好坏一般要考虑到两个因素。一个是分类结果15的正确率,往往也是昀主要的因素。另一个是利用这种方法实现的系统的效率,即系统完成分类任务所需要的时间消耗,这方面的要求主要是网上实时系统的需要。以往的研究中,多种分类方法已经应用到文本分类任务中,例如K近邻方法,支持向量机方法,贝页斯方法等等。值得注意的是,文本分类问题中的特征数非常庞大,在应用这些分类方法之前,20一般都要有特征提取的过程。由于文本分类中的高维特征空间及各个分类器本身的缺陷,单一的分类器很难能够在正确率和效率两方面都有明显的优势,进而这些分类方法很难在实际应用中发挥作用。发明内容25为了解决现有技术单一的分类器很难在正确率和效率两方面都有明显的优势的缺陷,本发明的目的在于弥补单一分类器的不足,提出组合的分类方法,实现一种基于概率主题词的两级组合文本分类方法。本发明提供基于概率主题词的两级组合文本分类方法,基本思想是基于分级的组合分类方法的。在这种组合的方法里,我们把两个分类器30IB0618082应用到分类的不同阶段,本发明的分类步骤如下:第一阶段文本分类步骤:基于朴素贝叶斯分类方法,利用概率主题词(PTW)特征对测试文本分类,利用拒绝条件判断是否属于朴素贝叶斯分类;第二阶段文本分类步骤:除第一阶段文本分类方法和文本分类之外,5基于传统的特征提取方法提取出特征词。所述第一阶段文本分类的判断拒绝条件步骤:判断一篇文档是否可以用第一个分类方法分类,采用两个拒绝条件:利用计算文档属于各个类别的后验概率值的大小;利用计算提取出来的概率主题词的数目大小。本发明的有益效果:本发明从研究文本中的主题词作用和规律入手,10在语料库学习方法中,本发明定义统计意义的主题词,通过统计方法在语料库中提取统计主题词;利用这些统计主题词对文本进行分类。利用拒绝条件,对那些拒绝的文本进行第二次分类。第二级分类将利用更多的特征及不同的分类器。本发明采用“两级组合”的思想来进行文本的分类,与单一分类方法不同,在本发明方法中,充分考虑到了主题词在15文本分类过程中的重要作用。并且用一种合理的方式将两个阶段的分类方法结合起来,从而又充分利用了两个分类方法各自的优点,使得应用本发明方法的分类系统能够获得更好的分类效果。另外,第一个阶段的分类方法所用的概率主题词数目非常有限,但能够分类的文本数目却很多,因此,本发明的组合分类方法实现的系统在正确率及效率方面整个20系统的效率相对单一分类方法的系统有了很大的提高。本发明的方法在两个不一样的测试语料中在效率和正确率两方面,与现有的单一分类方法相比较都具有较大的优势。附图说明25通过以下结合附图的详细描述,本发明的上述和其它方面、特征和优点将变得更加显而易见。附图中:图1是本发明的基于概率主题词的两级组合文本分类系统框架图图2是本发明第一级分类器在两个语料库训练文本中的正确率和召IB0618083回率的示意图图3是采用本发明宏平均1F值评测标准的实验结果具体实施方式下面结合附图对本发明作具体说明。应该指出,所描述的施例仅仅5视为说明的目的,而不是对本发明的限制。根据本发明,提出的基于概率主题词的两级组合文本分类方法,在人工进行分类的时候,人们如果判断一个文本属于哪一类,往往只是观察文本中某些关键的词就可以得到正确的判断。这些关键的词一般被叫做主题词,很多分类词典中就是包括了这些主题词。然而,给出一个严10格的关于主题词的形式定义是不可能的。在语料库学习方法中,可以定义一种统计意义上的主题词,命名为“概率主题词”(ProbabilisticTopicWord,PTW)。然后通过统计的方法在语料库中提取这种词。然后先利用这些“统计主题词”对文本进行分类。利用适当的拒绝条件,对那些拒绝的文本即不能用这种方法的进行分类的文本进行第二次分类。第二级15分类将利用更多的特征及不同的分类器。也就是说,本发明实现了一种两级的组合方式分类方法。下面参考附图来描述根据本发明的优选实施例。图1是本发明的基于概率主题词的两级组合文本分类方法框架图,它的系统主要由四部分构成:20第一级的概率主题词特征提取;第一级的贝叶斯分类器;第二级的信息增益特征词提取;第二级的分类器。第二级的分类器可以选择贝叶斯分类器、K近邻分类器、支持向量机分类器等中的任一分类器。具体步骤为:提取概率主题词步骤1:从测试文本训练语料中抽取概率主题词25(PTW);分类步骤2:利用概率主题词和朴素贝叶斯分类方法进行第一级分类提取特征词。拒绝条件步骤3:如果第一级分类结果被拒绝条件拒绝,则进行下面的步骤4,否则,接受分类结果。接受文本应该具有下面两个特征,30IB0618084首先它属于具有昀大后验概率的类别的概率值大于某个阈值;其次该文本中提取出来的概率主题词要达到一定数目。信息增益特征词提取步骤4:利用信息增益特征提取方法提取训练语料库中的信息增益特征词(IG)。这些信息增益特征词的数目一般要远远多于上面提取出来的概率主题词。5获取分类步骤5:基于拒绝条件步骤3,对那些被拒绝分类的文本利用信息增益特征词进行第二级分类,得到第二级分类结果。本发明基于概率主题词的两级组合文本分类方法,可以分为第一级分类过程和第二级分类过程两部分,具体步骤如下:第一级分类步骤包括:10a)提取概率主题词;b)以概率主题词为特征,利用朴素贝叶斯分类器对文本进行分类;c)确定两个拒绝条件;d)通过拒绝条件判断此文本是否可以用第一阶段里面的分类15器进行分类;第二级分类步骤包括:aa)提取信息增益特征词;bb)利用一种分类方法对被拒绝的文本进行分类;所述第一级分类过程中步骤a)中利用词属于每个类别中的后验概20率提取主题词;所述第一级分类过程中步骤b)中通过这些概率主题词特征计算文本的后验概率,概率值昀大的类别为分类的可能结果;所述第一级分类过程中步骤c)中两个拒绝规则是通过分析文本属于每个类别的后验概率及概率主题词的数目决定的;25所述第一级分类过程中步骤d)中如果判断结果为可以分类,整个分类过程结束;如果判断结果为拒绝分类则进行第二级分类过程;所述第二级分类过程中步骤aa)利用传统的特征提取方法,例如信息增益或者文档频率,提取特征词;所述第二级分类过程中步骤bb)这个阶段的分类器可以是基于朴30IB0618085素贝叶斯、支持向量机或者K近邻方法的分类器。实际应用中,我们可以选择其中的任一个分类器;根据本发明,基于概率主题词的的两级组合文本分类方法,系统的实现可以按照上述的装置依次顺序连接。下面详细说明本发明方法所涉及的各个细节问题。51.概率主题词的定义和提取本发明仅仅利用少部分的概率主题词就可以对文本进行正确的分类。首先,我们给出概率主题词的定义。定义:如果一个词t的类别后验概率满足条件(|)ipctθ,()0.5,1θ∈时,我们称这个词为置信度为θ的概率主题词。10给出了定义后,通过这个定义提取概率主题词,即通过统计训练语料得到每个词的类别后验概率值。在实现的
本文标题:自动化所专利申请审批表
链接地址:https://www.777doc.com/doc-20356 .html