您好,欢迎访问三七文档
当前位置:首页 > 商业/管理/HR > 管理学资料 > 用于图像分类的浅层结构深度学习方法
用于图像分类的浅层结构深度学习方法AsmaElAdel∗,RidhaEjbali∗,MouradZaied∗andChokriBenAmar∗∗REsearchGroupinIntelligentMachines,NationalSchoolofEngineersofsfax,B.P1173,Sfax,TunisiaEmail:{asma.eladel,ridhaejbali,mourad.zaiedandchokri.benamar}@ieee.org摘要——本论文介绍了一种新的图像分类方案。该方案提出了一种用于深度学习的卷积神经网络(CNN):利用多分辨率分析法(MRA)计算每一张用于分类的图像在不同的抽象层次中输入层与隐层之间的连接权值。然后,利用Adaboost算法选择出能代表每一类图像的最佳的特征和对应的权值。这些权值将作为隐层与输入层之间的连接权值,并且在测试阶段用于对所给的图像的分类。所提出的方法在不同的数据集上进行了测试,所获得的结果证明了该方法具有较好的效率和较快的速度。关键词:多分辨率分析,Adaboost,深度学习,小波,图像分类一、介绍图像分类是计算机视角中最具挑战性的问题之一,特别是在类别数量巨大的情况下。有许多解决这个问题的方法,例如小波相关向量机(WRVM)[1],分别应用于不同类别对象上,以形成每个对象独立特征空间的独立主成分分析法[2],全局显著和局部差异相结合的不寻常特征编码法[3],以及用来学习可述性视觉词袋(BOW)表现的正则化矩阵分解法[4]。另外一种最近提出的方法介绍了旨在学习图像层次表示的深度学习的方法。在这种方法中,为了理解数据的意义,图像可以看作是由一些非线性特征经过多层次的抽象而形成的。高层次的特征是从低层次特征中得到的,并以此形成层次化表示[5][6][7]。这类方法的基础是利用了机器学习的不同结构。这种结构的其中一种是前馈结构,前馈结构中多层神经网络和卷积网络在图像分类[8][9][10][11],目标识别[12],人脸识别[13]和语音识别[14]等分类任务中都取得了良好的效果。这些网络的设计,分类,自动推断和学习能力都引起了人们的注意。但是到目前为止,它们的训练仍然需要大量的计算,同时还要选择适当的方法以防止过拟合现象。另外一个不足是特征变换阶段的次数是随机确定的,也就是说网络层次的数量和大小影响了抽象过程的数量。而且,分类仅仅是在最后的抽象层上对特征进行选择而完成。此外,我们还要知道每一个抽象层次中更多的重要细节(也即特征),以减少分类阶段的复杂性。在此背景下,Y.Zou等人[15]通过模拟影像中的固定点提出了一种显著特征的深度学习方法。另外,Weston等人[16]提出一种用于图像分类的非线性半监督的嵌入算法,称为嵌入式卷积神经网(EmbedCNN)。以及,Xu[17]创新地提出了一种称为空间金字塔深层神经网络(SPDNN)的半监督分类方法,这是基于一个新的深层结构集成神经网络和空间金字塔模型。在本文中,我们得到了两个具体的成果:首先,我们提出了一种改进的前馈深层结构。我们称之为基于二元多分辨率分析的改进型前馈卷积神经网络[18][19][20]。这种方法在不同的抽象层次中使用快速小波变换(FWT)[21]。这一成果的优点在于我们可以使用浅层结构(一个隐层)取代多层结构进行深度学习。此外,多分辨率分析法(MRA)可以让我们确切知道深度学习层次的必要数量。同时,由于对图像不同层次的抽象都是通过进行多分辨率分析法进行的,所以我们可以得到对应于各级的图像特征,这可以很好地帮助我们完成分类。第二个成果是利用Adaboost算法从不同层次的抽象中更重要的,能更好代表每一类图像的特征[22]。所提出的方法能通过简单的结构实现卷积神经网络的优点,同时能减少计算的复杂度。本文的结构如下:第二部分介绍了我们所提出的图像分类方法的核心思想,其中我们会重点介绍在不同层次抽象中的MRA特征提取法,特征选择和分类方法。第三部分是实验结果和讨论。最后一部分是结论。二、所提出的方法所提出的方法是一种用于图像分类的浅层结构深度学习方法。一般的深度学习方法是通过改变神经网络中层的数量和大小得到不同层次的抽象。分类仅仅是在最后一层抽象的特征上完成的。在这种结构中,我们不确定所提取的特征能不能代表图像所有有用的信息。在本次实验中,我们提出了一种基于二元多分辨率分析法改进的前馈卷积神经网络。前馈意味着信息只能向前传递,从输入节点经过隐层节点到达输出节点。所提出的基于MRA结构的主要优点是:第j层的特征可以转化为第j-1层的特征,或者直接使用j-1次二元小波代换后转化为第一层的特征。过程如图1所示。这种学习和分类的步骤将在A部分和B部分分别介绍。图1A学习图像过程学习阶段是单隐层卷积神经网络对每一幅参考图像进行处理的过程。其中,第一层(输入层)代表的是图像的每一个像素,隐层代表的是所有抽象层次中提取出来的特征,最后一层(输出层)代表的是图像的类型。结构如图2所示。图2学习算法步骤如下:第一步:构建候选小波库第二步:计算输入层与隐层之间所有的连接权值第三步:利用二元多分辨率分析法计算不同层次抽象隐层所对应的的输入ia第四步:把sigmoid函数作为激活函数第五步:利用Adaboost算法选择能描述每一类图像特点的特征第六步:确定每一类图像所对应的隐层与输出层之间的连接权值从图3可知,经过多分辨率分析后,每一幅参考图像都被分成了k个层次的抽象特征,可以将其定义为离散小波变换的设计方法。这种方法把信号f(图像)分解为逼近部分(A)和三个细节部分:水平细节(HD)、垂直细节(VD)和对角线细节(DD)。在新的抽象层次中,得到的逼近部分将会被进一步分解为新的逼近部分和细节部分,如此循环直到抽象层次达到分析所要求的最大值。最后,把从所有层次中提取出来的细节系数ia作为输入层与隐层之间的连接权值。为了加快计算出这些系数,我们使用多分辨率分析中的快速小波变换(FWT)。这一算法有效地减少了耗时的训练和分类步骤。图3此外,MRA的优点在于分析的网络层次的数量不是随机的,而是可以直接从图像的尺寸中得到的。因此我们可以通过固定图像的抽象层次控制学习深度。同时,由于MRA分析是在不同的抽象层次中分析图像,所以它可以提供各层次抽象中相应的能代表图像的特征,这在分类阶段将会十分有用。一旦我们计算得出所有输入层与隐层的连接权值,也就是隐层的输入ia,我们就采用取值在[01]的sigmoid函数作为激活函数。下一步就是利用Adaboost算法,从这些特征ia中滤选出能描述每一类图像的最佳的特征。(见算法1)算法1Adaboost算法给定m组训练数据,(1x,1y),……(mx,my),其中初始化)(1iD=1/m:训练样本i的权重,这决定了该样本被选择为成分分类器的概率。当t=1,...,T时:分类器ih:X→[-11],这将最大限度地减少分布tD带来的误差:如果je0.5继续,否则停止选择tβ∈R,其中,tε为分类器th的加权错误率下一个分类器:其中tZ为归一化因子。(归一化的目的是使得1tD成为一个分布函数)得到最后的分类器:经过这个步骤后,我们得到了每一类图像的最佳的特征,即一个由特征(f),阈值(b)和一个极性(p)构成的弱分类器,其满足下式:阈值β将作为隐层与输出层之间的连接权值以用来确定每一类的图像。B图像分类要对用作分类的图像Y进行分类,必须建立一个神经网络,其中该网络的隐层神经元连接权重是由能表示所有类别图像的所有特征构成的。然后,图像的类别将通过等式2确定。图像的分类是根据最佳特征进行的,其相应阈值通过以下等式确定的:H(Y)是图像分类的结果,t是选择出来的最好的特征数量,h代表对第k个特征和阈值tβ的训练分类器,其中阈值tβ已经在学习阶段计算得到。如果H(Y)等于1,这意味着用于分类的图像符合当前的类别。否则图像不符合当前类别并立即将其拒接。所提出结构的优点在于,网络仅仅使用一个隐层就能够模拟所有代表图像类别的特征。图4表示了具有3个选择特征的图像分类的例子,其中1y...ny代表待分类图像像素Y。1β,25β,70β是经过Adaboost算法选择出来的特征,在图中以蓝色表示,它们能较好地表示第一类的图像。2β,68β,1000β是表示第二类图像的特征,在图中以黄色表示,如此类推。可以看出,某些特征不止是一种类别图像的特征。例如图中1000β就是第二类和第四类的特征。这可以解释为这些类别中存在相似或相同的部分。图4三、结果和讨论我们利用两个数据库对所提出的方法进行测试,分别是Wang数据库和COIL-100数据库。哥伦比亚大学目标图像库(COIL-100)数据库:包含了7200张128*128的彩色图像,这些图像被分成了100类目标,每一类目标包含的72张图像分别是对同一目标在360度范围内每隔5度拍摄得到的。图5是COIL-100图像库所包含的一些目标图像,图6为COIL-100中某个目标类别的图像图5图6Wang数据库:包含了10类共1000张,大小为256*384的不同的彩色图像。10个类别分别是:公共汽车,恐龙,花朵,非洲人,沙滩,建筑物,大象,马,山和食物。图7在实验中,我们将分别从这两个图像库中随机选取50%的图像作为训练集,剩下的50%图像作为测试集。因为MRA算法要求图像的大小为2的整数次幂,所以所有Wang图像库的图像将被调整为256*256大小。这就要求分析次数的最大值为6。这就是说并不需要达到最大的分析次数就能有最好的分类效果,因此,有时候一至两层分析就已经足够了,例如在大象,恐龙和马的分类上。但是,当两类图像具有相似的颜色时,系统将会难以判别,例如颜色相似的公交车和花朵,建筑物和沙滩。表1为Wang图像库分类的混淆矩阵。表1根据图像的大小和分析次数的多少,使用Adaboost算法能让我们减少特征的数量。对于COIL-100和Wang图像库每一类图像的特征数量分别为30和50。分类正确率(CR),每一张图像分类时间(CT/QI)和特征数量(NSF)都在表2中列出:为了衡量我们所提出方法的有效性,我们把该方法与其他方法进行了比较。从结果可以看出,所提出的方法(PA)十分有效,而且效果最好。(见表3)表3这个结果可以解释为我们在不同层次的抽象中都使用了MRA算法,这一方法很好地从每一张图像中提取出有用的,能代表图像细节的特征。四、结论在本文中,我们提出了一种改良的前馈型深度结构图像分类方法。该方法可总结为以下步骤:首先,我们利用基于多分辨率分析法的快速小波变换在不同层次的抽象中提取出图像的特征,其次,我们利用Adaboost算法选择出最好的特征并以此对相应的图像进行分类。从实验结果来看,分类效果十分理想,并且证明了所提出的基于多分辨率分析和Adaboost算法的简单深度学习神经网络结构的鲁棒性。在今后的工作中,我们将把模糊理论的概念应用到分类阶段当中,以提高分类的灵活性。五、致谢作者对突尼斯科学研究总方向(DGRST)中ARUB项目提供资金支持表示感谢。六、参考文献[1]A.Tolambiya,S.VenkatramanandP.K.Kalra,Content-basedimageclassificationwithwaveletrelevancevectormachines,SoftComputing(Springer),January2010,vol.14,no.2,pp129-136.[2]H.B.Kekre,T.K.SarodeandJ.K.Save,ClassificationofImageDatabaseUsingIndependentPrincipalComponentAnalysis,(IJACSA)InternationalJournalofAdvancedComputerScienceandApplications,vol.4,no.7,2013.[3]S.Chena,W.ShibandXiaoLv,Featurecodingforimageclassifi
本文标题:用于图像分类的浅层结构深度学习方法
链接地址:https://www.777doc.com/doc-4831173 .html