您好,欢迎访问三七文档
当前位置:首页 > 临时分类 > 支持向量机在Web文本分类优化中的应用
武汉理工大学硕士学位论文支持向量机在Web文本分类优化中的应用姓名:段莹申请学位级别:硕士专业:计算机应用技术指导教师:潘昊20100401支持向量机在Web文本分类优化中的应用作者:段莹学位授予单位:武汉理工大学相似文献(10条)1.学位论文赵晖支持向量机分类方法及其在文本分类中的应用研究2005支持向量机作为一种基于统计学习理论的新型机器学习方法,较好地解决了非线性、高维数、局部极小点等实际问题,是机器学习领域新的研究热点。文本分类是基于内容的自动信息管理的核心技术。文本向量稀疏性大、维数高、特征之间具有较大的相关性,支持向量机对于特征相关性和稀疏性不敏感,处理高维数问题具有较大的优势,因此,支持向量机非常适用于文本分类问题,在文本分类中具有很大的应用潜力。但是,同时,文本分类也给支持向量机提出了许多富有挑战性的课题。例如,文本分类具有类别和样本数目多、噪音多等特点,支持向量机用于文本分类时存在训练和分类速度较慢等缺点。该文主要针对支持向量机在文本分类等实际应用中存在的问题进行深入研究。主要工作如下:1、支持向量机是针对两类分类问题提出的,如何将其有效地推广到多类分类仍是一个尚未完全解决的问题。分析了现有支持向量机多类分类方法的特点,并给出了一种半模糊核聚类算法,在此基础上,根据树型支持向量机的特性,提出了一种基于半模糊核聚类的树型支持向量机多类分类方法。该方法基于半模糊核聚类算法挖掘不同类别之间的衔接和离散信息,设计树型支持向量机的树型结构,克服其差错积累问题。实验表明,与其它支持向量机多类分类方法相比,该方法具有较高的分类精度和训练速度,提高了支持向量机在多类分类问题中的应用效果。2、针对标准支持向量机对噪音敏感,分类时倾向于样本数目较多的类别的问题,给出一种模糊支持向量机的推广模型,并在此基础上,结合近似支持向量机的优势,提出了一种支持向量机组合分类方法。该方法首先采用近似支持向量机快速地去除非支持向量、减少训练样本数目、确定样本权值和模型参数,然后在样本数目较少的训练集上,依据选择好的模型参数和样本权值训练模糊支持向量机的推广模型。实验表明,该方法能有效确定样本权值,减少训练时间,并克服野值点和类别训练样本数目不均衡对分类器的不利影响。3、通常情况下,支持向量的数目越多,支持向量机的分类速度越慢,如何缩减支持向量集合、提高支持向量机的分类速度是支持向量机的重要研究内容之一。在分析了现有支持向量集合缩减方法的基础上,提出了一种基于虚样本与支持向量回归的支持向量集合缩减方法。该方法是根据支持向量集合和支持向量回归方法的特性,对Osuna等提出的支持向量集合缩减方法的改进。该方法通过引入虚样本剔除支持向量集合中的冗余样本,生成虚边界支持向量,解决了当冗余支持向量数目较多、边界支持向量数目很少时,Osuna等提出的方法不能有效缩减支持向量集合的问题。实验表明,该方法在基本不降低支持向量机分类精度的前提下,比Osuna等提出的方法更大程度地减少了支持向量的数目,提高了支持向量机的分类速度。4、基于支持向量机在文本分类中的优势,将支持向量机方法应用于文本分类的特征提取,提出了一种基于支持向量机的单词聚类方法。该方法基于支持向量机度量单词对分类的贡献大小,将对分类贡献一致的单词合并起来作为文本向量的一个特征项。实验表明,该方法在基本不丢失分类信息的前提下,较大程度地降低了文本向量的维数、减少了文本特征之间的相关性,并提高了文本分类的查准率和查全率。2.期刊论文张苗.张德贤.ZHANGMiao.ZHANGDe-xian多类支持向量机在文本分类中的应用-计算机与现代化2008(5)传统的支持向量机(SVM)是两类分类问题,如何有效地将其推广到多类分类问题仍是一项有待研究的课题.本文在对现有主要的四种多类支持向量机分类算法讨论的基础上,结合文本分类的特点,详细介绍了决策树支持向量机和几种改进多类支持向量机方法在文本分类中的应用.3.学位论文王晔支持向量机文本分类的关键问题研究2005随着计算机网络、数据库、多媒体等技术的飞速发展和日益普及,因特网上的可用信息以惊人的速度增加,仅Google搜索引擎能索引到的网页就高达80亿张以上。因特网信息表现为文本、声频、图象和视频等,其中文本类信息占绝大多数。为了更好地处理这些数量庞大、结构不确定的文本类信息,人们迫切需要一些高效的文本检索、查询和过滤系统,而文本分类正是实现这些系统所需的一项关键技术。文本分类是指一个把自然语言的文本按其内容归入一个或多个预先定义好的类别的过程。由于网上信息数量巨大而且存在形式多样,因此传统的由专家进行手工分类的方法已无法满足现阶段应用的需要。自动文本分类是在给定的分类体系下,由特定的算法根据文本的内容确定与之相关联的类别。自动文本分类是人工智能技术和信息获取技术相结合的研究领域,是进行基于文本内容的自动信息处理的核心技术。支持向量机是在上世纪末发展起来的一种基于结构风险最小化准则的分类学习机模型。它通过构造并求解目标函数来获得两类样本数据之间的决策超平面,以保证最小的分类错误率。从实际分类效果来看,支持向量机在解决小样本、非线性及高维的模式识别问题时是目前己知的分类器中效果最好的,而这些问题恰是文本分类问题所面临的困难。因此,支持向量机和文本分类问题有着良好的结合点。虽然支持向量机的训练算法本身就可以克服特征词向量维数过高的问题,但针对文本样本的特征提取步骤仍是不可或缺的,这是因为当大量特征词与分类无关时,只会使支持向量机“过分适应于”训练样本而降低推广性能。此外,传统的基于词频统计的特征提取方法也无法体现词与词之间的相互联系。针对这一问题,本文的第二章将潜在语义索引和粗糙集特征提取结合起来,提出了一种在潜在语义空间利用粗糙集进行特征提取的方法,试验结果表明采用新方法提取特征可以明显改善支持向量机的推广性能。在分类问题广泛应用的允许训练误差的高斯核函数的支持向量机中,核参数σ2和折衷参数C对于支持向量机的分类性能有着至关重要的影响。模型选择,即如何选择恰当的训练参数,一直是支持向量机研究的一个重要课题。本文的第三章对这一问题进行了分析,并提出了判断参数选择恰当与否的简化评价指标,并在此基础上提出了一种两步骤的选择恰当参数的方法。第三章的试验表明,简化计算方法可以快速而准确地计算推广误差评价指标,参数选择算法可以搜索到最佳的训练参数。传统支持向量机最大的困难在于当训练样本数量较大时,支持向量机的训练时间较长。这是因为采用分解法时,训练复杂度与样本数量的平方成正比。如何降低支持向量机的训练复杂度一直都是一个棘手的问题,本文的第四章根据预选取支持向量的思路对上述问题进行了分析,将粗糙集的概念引入了支持向量的预选分析过程中。第四章提出的新算法选取两类样本的上近似集的交集作为支持向量的候选集,并对两类样本上近似集交集的一致性进行了证明。试验表明,训练样本的上近似集的交集可以代替全部训练集进行训练,从而提高训练速度。支持向量机的基本模型是针对两类样本集提出的,在处理多类样本集的分类问题时,目前效果最好的方法是训练一系列针对两类样本的子分类器。尽管这种方法可以获得令人满意的分类效果,但其训练时间比较长。我们认为,在多数情况下,并不是所有的子分类器都值得训练,部分子分类器是冗余的。本文的第五章对训练子分类器的必要性进行了分析,并提出一种采用主动学习策略的多类别支持向量机,新算法按子分类器的重要程度逐渐训练子分类器。实验证明,这一算法可以在几乎不降低分类性能的基础上,显著减少子分类器的个数。直推式支持向量机是直推式学习理论和支持向量机的结合,它是目前分类效果最好的支持向量机。但它的分类效果极其依赖于事先指定的正样本数量Np的选择。当Np与实际情况相差较大时,直推式支持向量机的分类性能甚至还不如普通的支持向量机。本文的第六章着重讨论了直推式支持向量机对Np的值过分敏感的问题,提出了逐个判定准则来调整测试集松弛变量的类别标签,从而使Np的值在训练过程中可变。实验结果表明,改进后的方法使直推式支持向量机不再对事先指定的Np的选择敏感,能稳定地获得较好的分类效果。网页是带有特定结构信息并说明链接关系的文本,与纯文本相比,网页的信息量更大、样本与样本之间的联系更紧密,但也比纯文本分类问题更加难以处理,要考虑更多因素。本文的第七章在分析了模糊直推式支持向量机在网页处理方面不足的基础上,从超链接分析的过程和利用网页重要性信息这两方面对其进行了改进。基于网页数据的试验表明,新算法有更强的适应性和更高的准确性。综上所述,本文的主要创新包括如下几方面的内容:1.根据文本分类领域的特征,改进了留一错误的评价指标和模型选择算法,显著提高了模型选择的效率;2.提出了基于粗糙集的支持向量预选方法,缩短了训练的时间;3.针对多类别分类问题,提出了采用主动学习策略的多类别支持向量机,可以在几乎不降低分类性能的条件下,减少子分类器的个数;4.提出了更恰当的直推式支持向量机松弛变量标签调整准则,从而能稳定地获得较好的分类效果。此外,本论文还在特征词的提取方法和网页分类等方面进行了研究和改进,使特征提取和网页分类的性能都有所提高。4.期刊论文赵晖.荣莉莉.ZHAOHui.RONGLi-li支持向量机组合分类及其在文本分类中的应用-小型微型计算机系统2005,26(10)针对标准支持向量机对野值点和噪音敏感,分类时明显倾向于大类别的问题,提出了一种同时考虑样本差异和类别差异的双重加权支持向量机,并给出了由近似支持向量机结合支持向量识别算法,识别野值点和计算样本重要性权值的方法.双重加权支持向量机和近似支持向量机组合的新分类算法尤其适用于样本规模大、样本质量不一、类别不平衡的文本分类问题.实验表明新算法改善了分类器的泛化性能,比传统方法具有更高的查准率和查全率.5.学位论文朱慕华支持向量机在文本分类中的应用2006文本分类是信息处理领域的一项基础性技术。随着语料库语言学的兴起,机器学习方法也被引入到文本分类的任务中来。支持向量机是当前流行的模式识别方法,在许多应用领域都有很好的应用。先前的一些相关工作表明支持向量机尤其适合应用于文本分类任务。支持向量机的两大特性:核方法和泛化错误界的控制保证该模型要比其它分类模型有更优的效果。本文主要考察应用支持向量机于文本分类的过程中所遇到的几个问题,主要集中在多类别支持向量机的构建以及高维向量文本表示的降维问题。针对第一个问题,本文中主要研究以多个二类分类器组合实现多类分类器的方法。本文在中英文两个数据集上进行的实验比较了当前流行的四种实现方法,包括one-against-rest,pair-wisemax-win,DDAG以及Sigmoid方法。结果表明,one-against-rest从效率与效果两方面考量都适用于多类别支持向量机的实现。为解决降维问题,本文首先将降维方法分成特征选取和特征抽取两大类别,其中本文考察的特征选取方法包括文档频度、信息增益、开方拟合检验;特征抽取方法包括潜在语义索引以及主成份分析方法。同样,在中英文两个不同的数据集中的比较实验,证明特征选取方法在与支持向量机组合时,没有达到与其它分类器组合时的效果。与此形成对比的是:特征抽取方法在把空间降到非常低维后,仍然保证分类的性能,甚至能够明显地改善了实验的效果。在本文实验中,潜在语义索引和主成分分析方法都获得了近似的性能。为了说明支持向量机在文本分类任务中的优越性,本文单独列出一章对支持向量机和其它分类模型进行比较实验。考察的分类器包括朴素贝叶斯,最大熵,k最近邻居,以及核心向量法。实验表明,即使支持向量机在未做任何降维处理的情况下,其性能就已优于传统的分类模型。通过本文的工作,可以得出如下结论:支持向量机是性能优越的分类模型,而且由于模型本身以及文本分类问题自身的一些性质,保证在这个任务中应用支持向量机时,可以获得良好的性能;为了快速而简单地构造多类支持向量机,从效率与效果方面考虑,都可以选择one-against-rest方法;在某些实时性应用中,当需要对高维向量进行降维处理时,建议优先选
本文标题:支持向量机在Web文本分类优化中的应用
链接地址:https://www.777doc.com/doc-6301206 .html