您好,欢迎访问三七文档
基于软模糊粗糙集模型的多标签文本分类姓名:学号:内容提要随着互联网技术的迅猛发展,电子文档很多需要被标记为多个类标签,即划分到多个类别范畴中。当前,对多标签文本分类的研究主要针对特征的选取和分类算法。本文借鉴处理不确定性问题的软模糊粗糙集模型,将其应用于多标签文本的分类问题。通过将多标签文本语料根据文档频率进行特征提取,采用TF-IDF特征表示方法,将特征词集表示成向量空间模型的形式,使数据更加结构化。同时,基于粗糙集理论,采用了软模糊粗糙集模型,并对其加以改进,使其具有处理多标签问题的能力。然后利用这种模型对文本进行类别的划分,得到每个测试文档的类标签集合。最后采用多标签分类特有的评价标准对分类结果进行评估。关键词软模糊粗糙集,多标签,文本表示,分类算法1引言随着网络信息传播的高效性以及人们对电子文档使用的频繁性,各类论坛、门户网站、电子商务网站,以及近年发展起来的微博等,都处于蓬勃发展的状态。同时,各类电子文档已成为这些网络信息传播的有效载体。然而,现实世界中,很多电子文档的内容都是包含多个主题类别的,从文本分类的角度来看,就是文本的多标签问题。面对各类微博网站的蓬勃发展,微博短文本内容与日俱增,更加严峻的任务需要我们来解决。由于微博内容的复杂性,主题的多样性,用户兴趣的广泛性,当我们需要对这类网络文本数据的主题进行分析处理,为得到用户的关注类型及偏好提供帮助时,首先需要研究这类多标签文本的分类问题。对于一篇微博、博客或是新闻文档,考虑它的主题类别时,可能会认为它谈论的是政治方面的内容,但它却延伸到军事或是经济方面的内容。在对这类文本进行分类时,就需要为它标定多个类别标签,然后再对它进行分析处理。文本分类技术对于大量文档的归类问题提供了很好的推动作用。因此,研究多标签文本分类问题具有非常重要的现实意义。当前,对于多标签分类,大多数是理论算法的研究。关于分类方法,主要有两种方式,一是问题的转换,二是算法的适应性。大多数情况下,多标签文本分类算法都是用在英文文本语料上。现今网络上的中文电子文档等数据中也存在着大量需要被当作多标签问题来解决的文本语料。因此,能够从网络上的电子文档中抽取大量的多标签文本语料,用于对中文文本的多标签分类研究,这对自然语言的学习研究是必要的。粗糙集理论已经在特征选择、属性约简、规则学习等实际应用中取得了很好的实际效果。大量实验表明,基于模糊粗糙集的软模糊粗糙集模型在处理噪声和错误标记的样本方面具有很好的效果。本文通过对软模糊粗糙分类器的改进,使其扩展为可以处理多标签分类问题的模型,并将其应用于中文多标签文本分类中,拓宽了粗糙集理论在自然语言处理领域的应用。-1-2相关工作文本分类是自然语言处理的一个重要分支领域,它通过分析文本内容并运用统计学方法加以处理,使得计算机能够对待分类文档实现自动划分到若干个较合适的类别中的目的,从而达到便于文本组织管理、智能检索以及信息过滤等应用的结果。随着电子文本信息量的急剧增长,文本内容的多样化,只能确定文本单一类别的单标签学习已经难以满足人们对分类的需求。因此,多标签文本分类以其特有的灵活性与实用性吸引了大多数研究学者的注意力。近年来,多标签分类作为多标记学习中的一个重要问题,越来越受到研究学者的关注。Tsoumakas等人[1]将现有的多标签分类算法归结为两类:算法适应方法和问题转化方法。典型的算法适应方法有AdaBoost.MH算法[2]、人工神经元网络[3]、Boosting算法[4]等。典型的问题转化方法有:LP(LabelPowerset)算法[5]、BR(BinaryRelevance)算法[16]、RAKEL(Randomk-labelsets)算法[6]等。一些学者已经对粗糙集理论进行了较为深入的研究,提出了软粗糙集、软模糊粗糙集等概念。为了能够好的解决模糊粗糙集模型对噪声敏感的问题,胡清华等人[7][8]在软间隔SVM的启发下,将基于软阈值的抗噪方式引入到模糊粗糙集模型中,给出了软距离的概念,提出了软模糊粗糙集模型,并基于软模糊下近似隶属度设计了一种单标签的分类模型,被称为软模糊粗糙分类器。由于软模糊粗糙分类器是通过取得待分类样本对某一类别的下近似隶属度,从中选取具有最大隶属度的类标签来标定该样本的类别,对多标签分类来说,将该模型做一定的改造,赋予隶属度合适的阈值,即可把这种针对单标签数据的分类模型改造为可以对多标签数据进行分类的有效分类模型。当前,粗糙集理论在文本分类方面的应用,大多数是利用粗糙集在属性约简方面的优越性。卢娇丽、郑家恒等曾利用粗糙集理论对属性优越的约简特性将其应用于文本分类方面[9],并取得了很好的效果。但由于只是针对单标签文本的分类,限制了粗糙集的应用范围。安爽[10]在其博士论文中,以稳健的软模糊粗糙集理论为基础,将其应用于太阳耀斑预报模型的研究。鉴于软模糊下近似隶属度的特殊性,同时,考虑到多标签分类的实用性,本文将软模糊粗糙集理论应用于文本分类中,给出了一种基于软模糊粗糙集模型的多标签文本分类算法。3文本结构化表示3.1文本预处理在文本信息处理中通常可以采用多种粒度的特征,但在文本分类中,普遍采用基于词的文本特征选择方法,其分类效果通常要好于字和短语。由于中文语言的特殊性,需要对中文文档进行分词处理,本文使用中科院ICTCLAS分词软件对全部文档进行分词。分词结果以文本形式存储。3.2特征提取首先,对分词后的文本建立停用词表,去除停用词,结果仍以文本形式存储。经过去除停用词等步骤的处理后,文本已经得到了初步的降维。然而,为了得到好的分类效果,需要从这些词集中选出具有较好区分性和代表性的词作为分类特征集,从而达到对特征集缩减降维的效果。现在需要对这些文档词集进行特征提取。特征选择的方法有很多,常用的方法有:文档频率(DF)、信息增益(IG)、统计量法(CHI-2)和互信息法(MI)等[11]。信息增益、互信息等特征选择的方法都是与类别相-2-关的,而本文研究的多标签文本分类中,文本的类别是多个的而不是单一的,由于本文使用的DF特征选择方法简单,不受类别影响,因此它比较适用于多标签文本的研究。根据文档频率的特征选择方法,归纳所有文档的分词结果,会得到文档集中所有词的文档频率信息,将这些词按照频率大小排序,去掉在文档中出现很少次数的词。选取出现频率较高的部分词作为文本分类过程中的特征项。这样,减小了特征噪声对分类结果的影响。3.3权重表示特征权重通常用来界定特征项在文档表示中的代表性和重要性。文本分类中特征权值计算方法有:布尔权重、绝对词频(TF)权重、TF-IDF权重等[12]。本文采用文本分类中常用的TF-IDF权重表示方法对所有文档的特征词进行表示[13]。TF-IDF权重不仅考虑特征词在一篇文本中出现的频次,也考虑了它在所有文本中的频率。其计算方法见公式(1)-(2)。()logjjNidftn(1)w()logijijjijjNtfidfttfn(2)其中,wij是特征词tj在文档Dj中的权重,tfij为特征词tj在文本Dj中出现的频率,nj表示包含特征项的文档在整个文档集中的频率,N为文档总数。3.4文本表示文本特征表示是文本分类的基础,指将所有文档中的不同文本以及特征项用模型进行表示。文本分类中常用的两种文本表示模型为布尔模型((BooleanMode)和向量空间模型(VSM)[14]。由于VSM对文本的表示形式效果好,且具有广泛的应用,本文采用VSM对文本进行表示。整个文档集的表示见下图1:图1文档集表示形式其中,矩阵D的每一行表示一篇文档,每一列表示一个特征项,每一个值表示对应特征在相应文档中的权值,权值越大,表示该特征项在这篇文档中的相对重要程度越大。通过文本的预处理,将非结构化的文本表示为结构化的数据,即可将这些数据用于分类器的训练。4软模糊粗糙集模型4.1软模糊粗糙集软模糊粗糙集理论将软间隔SVM中选取软阈值的思想引入模糊粗糙集理论中,提出了一种不同于原有的计算样本最近距离方法的软距离的概念[8]。定义1给定一个样本实例x和一个样本实体集,x和Y之间的软距离被定-3-义为(,)argmax{(,)},,1,2,,,iiiiSDxYdxyCmyYin(3)其中(,)jdxy是x与jy之间的距离函数,C是惩罚因子,im是满足条件njyxdyxdij,...,2,1),,(),(的样本数量。图2给出了一个确定软距离的例子。假定样本x属于类1,其他样本属于类2,用Y表示该样本集。如果把y1当作一个噪声样本并忽略它,SD(x,Y)应该是d2。因此要有一个惩罚项来判定需要忽略多少个噪声样本。如果忽略一个样本,d(x,yj)将会减去C。对于所有的候选距离d(x,yj),取(,)argmax{(,)}kiiidxydxyCm作为x和Y之间的软距离。也就是说,距离d‘(x,yj)是惩罚了所有被忽略样本之后的最大值。关于参数C的选取,参见4.3节。图2软距离示意图在软距离的基础上,软模糊粗糙集的定义如下:定义2把U作为一个非空论域,R是U上的一个模糊等价关系,且F(U)是U的模糊幂集。F∈F(U)的软模糊上下近似被定义为(4)其中,(5)C是一个惩罚因子,m是在计算)(xFRS时被忽略的样本的数量,n是计算()SRFx时被忽略的样本的数量。如果集合A是一个清晰集,那么样本x对于A的软模糊下近似的隶属度就表示为()1(,)SALRAxRxy(6)其中,()()()()()1,argsup1(,)(),argsup1(,)LUSyFyFySyFyFyRFxRxRxyCmRFxRxRxyCnarginfmax1(,),()argsupmin(,),()LyUyUyyUyRxyFyyRxyFy-4-()0()0argsup{1(,)}argsup{(,)}arg(,)ALyAyyAyyyRxyCmdxyCmSDxUA(7)显然,)(xARS等于样本x到U-A的软距离。4.2软模糊粗糙分类器胡清华等人在上述软模糊下近似定义的基础上设计了一个稳健的分类器[8],可以用来解决单标签分类问题。它的原理概括为:计算一个待分类样本对于每个类的软模糊下近似隶属度的值。给定一个具有k个类的训练样本集和一个待分类样本x。首先,假定x属于每个类。计算出样本x对于k类的软模糊下近似隶属度的值,然后将x划分到最大隶属度的类别中。用公式表示为1()argmax{()}SijjkclassxRclassx(8)其中,)(xclassRiS是x对于类iclass的软模糊下近似隶属度。算法描述如下:输入:训练样本集,测试样本集;输出:每个测试样本xi’的类别classi。Step1:计算类别个数;Step2:对于每个测试样本xi’∈X’,做如下处理:(1)对每个类classj∈Y(Y={y1,y2,...,yk}),计算xi’与其异类中每个样本的距离,得到候选距离。(2)对得到的候选距离排序,再根据公式(3)计算类classj对应的软距离。(3)由公式(6)-(7)可知,(1)中的得到的xi’对异类样本的软距离的值与其对应的下近似隶属度的值相等。于是得到样本xi’对每个类的软模糊下近似隶属度。(4)选取隶属度取最大值时对应的类标签classt并将其返回,即可得到样本xi’的类别。Step3:重复step2直到得到每个测试样本的类标签。4.3参数设置由4.1节中的图2可以看出,软模糊粗糙集中惩罚因子C的值对其稳健性具有重要意义。对于参数的设置在文献[8]中给出了一种方法。假定以一个样本x为例,给出以该样本为球心的软超球的信任度f。当以x为球心计算软超球的信任度时,如果其值大于或等于f,那么当信任度等于f时,软超球与硬超球的半径的差比上软超球中少数几个异类样本的个数,比值即为以样本x为球心得到的C的值。同时,也确保了软模糊下近似的信任度。对于一个含有n个样本的数据集,取以每个样本为球心计算的C的平
本文标题:研究型论文模板
链接地址:https://www.777doc.com/doc-2179201 .html