您好,欢迎访问三七文档
当前位置:首页 > 商业/管理/HR > 管理学资料 > 基于深度学习的RGB�D物体识别算法
基于深度学习的RGB―D物体识别算法【摘要】本文结合RGB图像和深度图像,提出了一种新的基于深度学习的无监督物体识别算法KSAE-SPMP。采用标准的RGB-D数据库2D3D来验证新提出的算法。实验结果表明,与之前提出的基于RGB-D的物体识别算法相比,KSAE-SPMP算法取得了最高的识别准确率,此算法能够很好地完成RGB-D物体的识别。【关键词】物体识别RGB-D图像k稀疏自编码空间金字塔最大池化Softmax分类器doi:10.3969/j.issn.1006-1010.2015.10.000中图分类号:TP391.4文献标识码:A文章编号:1006-1010(2015)10-0000-00[Abstract]CombinedwithRGBanddepthimages,anovelunsupervisedobjectrecognitionalgorithmKSAE-SPMPbasedondeeplearningwasputforward.AstandardRGB-Ddatabase2D3Dwasadoptedtoverifytheproposedalgorithm.ExperimentalresultsdemonstratedthatcomparedwithRGB-Dalgorithmbasedonobjectrecognitionproposedpreviously,KSAE-SPMPalgorithmhasthehighestaccurateidentificationrate,whichisabletocompletetheRGB-Dobjectrecognitioncommendably.[KeyWords]objectrecognitionRGB-DimageKsparseautoencodingspatialpyramidmaxpoolingSoftmaxclassifier1引言基于RGB图像的物体识别从RGB图像中提取颜色特征、纹理特征和轮廓特征等来识别物体。基于深度图像的物体识别从深度图像中提取物体的三维空间形状等特征来识别物体。这2种物体识别方法都未能完全利用物体的可用特征信息,存在一定的局限性。RGB-D相机能同时记录物体的高分辨率的RGB图像和深度图像。物体的深度信息和颜色信息对彼此都是一种有效的补充,结合RGB图像和深度图像,能够有效地提高物体的识别准确率。深度学习[1]是一种新兴的多层神经网络学习算法。它通过组合低层特征形成更加抽象的高层表示,以发现数据的分布式特征表示。本文结合RGB图像和深度图像,提出了一种新的深度学习算法KSAE-SPMP来完成物体的识别。实验结果表明,与之前提出的基于RGB-D的物体识别算法相比,KSAE-SPMP算法取得了最高的识别准确率,此算法能够很好地完成RGB-D物体的识别。2相关的研究工作本文主要研究如何利用深度学习算法完成RGB-D的物体识别。在过去的几年中,一些研究小组对如何从物体中无监督地提取具有代表性的特征做了深入的研究,取得了一些极具价值的研究成果。(1)无监督特征学习算法近年来,许多无监督的从原始视觉图像中提取特征的算法被提出。例如深度信念网络[4]、去噪自编码[5]、卷积神经网络[6]、K均值算法[7-8]、分层稀疏编码[9]和分层匹配追踪算法[3]等。这些无监督的特征学习算法在多种识别工作中取得了优异的成果。如手写字体的识别、面部识别、物体识别、场景识别、动作识别[15]和物体识别[16]等。然而,这些算法大多被应用在二维图像的处理上,如灰度图像。本文同时使用RGB和深度图像,提取到了更多样性的特征,有效地提高了物体的识别准确率。(2)基于RGB-D的深度学习算法新一代传感技术RGB-D相机的出现,推动了物体识别技术的进一步发展。RGB-D相机能够同时记录RGB图像和深度图像,RGB图像包含物体的表面颜色信息和纹理信息,深度图像包含物体的空间形状信息,结合RGB图像和深度图像能有效地提高物体的识别准确率。在过去的几年里,许多基于RGB-D的物体识别深度学习算法被提出。Blum等人提出了卷积K均值描述符[7],在兴趣点附近自动地学习特征并最终将这些特征进行融合。LiefengBo等人提出了分层匹配追踪算法(HMP)[10],此算法利用稀疏编码和空间金字塔最大池化(SPMP)无监督地从原始RGB-D图像中学习分层的特征。Socher等人结合卷积神经网络和递归神经网络提出了CNN-RNN深度学习算法[11],卷积神经网络层学习低维的平移不变性特征并作为RNN输入,递归神经网络层学习高维抽象特征。本文在LiefengBo等人工作[10]的基础上,结合改进的k稀疏自编码算法(k-SAE)和空间金字塔最大池化算法(SPMP),提出了新的无监督的深度学习算法KSAE-SPMP,与之前的算法相比,此算法取得了更高的识别准确率。(3)RGB-D数据库自2010年RGB-D(Kinect款)相机诞生以来,一些研究小组采集并公布了若干RGB-D数据库,为以后的研究工作奠定了坚实的基础。其中,比较具有代表性的有美国华盛顿大学计算机与科学工程系的KevinLai、LiefengBo联合因特尔西雅图实验室的XiaofengRen等人公布的RGB-D数据库[12],马克思?普朗克学会Browatzki等人公布的2D3D数据库[13]等。本文采用2D3D数据校验算法的准确性,2D3D数据库包含14个类别,共计156个室内常见的物体,每个类别包括10个左右的物体。每个物体包含36对RGB图像和深度图像,这些图像是由物体放置在托盘上每旋转20度拍摄一张而成。图1展示了这些物体的一些代表性图片:3特征提取与分类本文提出了KSAE-SPMP深度学习算法,用于基于RGB-D的物体识别。KSAE-SPMP算法共分为3个阶段,即整个深度学习网络分为3层:(1)使用k稀疏自编码算法(k-SAE)[2]分别提取低维的颜色特征和形状特征。(2)以阶段1提取的低维特征作为输入,使用空间金字塔最大池化算法(SPMP)[3]提取高维平移不变性特征。(3)合并颜色特征和形状特征作为物体最终的特征,送入Softmax分类器进行分类。3.1k稀疏自编码算法提取低维特征自编码算法是一种无监督的特征学习算法。现在假设有1个无类别标签的样本集{x(1),x(2),…,x(m)},其中x(i)∈Rn。自编码算法通过反向传播算法,期望输出的目标值等于输入值,即x?(i)=x(i),这样可以说隐层节点值y(i)是x(i)的另一种表示,即可作为输入x(i)的特征。如果在隐层节点上加入稀疏性限制,可以发现原始输入的一些有价值的数据结构。稀疏性可以简单地解释如下:假设使用sigmoid函数作为神经元的激活函数,当神经元的输出接近1时,认为它是被激活的,而输出接近0时,认为它是被抑制的。当隐层节点数目较多时,希望大多数隐层节点处于抑制状态,以期发现输入数据中的结构。图2是一个简单的三层稀疏自编码网络,输入层、隐层和输出层节点数分别为4、2和4。近年来的研究表明,通过鼓励稀疏的方式学习到的特征在分类任务中通常有着优异的表现。在典型的稀疏自编码算法[14]中,使用公式(1)作为总体的代价函数。其中第1项为均方差项,第2项为权重衰减项,第3项为稀疏惩罚项,用来控制隐层节点的稀疏性。通过反向误差传播来优化参数{W,b},迭代过若干次后,期望输出x?(i)=x(i)。Makhzani等人提出了一种改进的稀疏自编码算法k稀疏自编码[2]。k稀疏自编码算法使用线性的激活函数,在隐层节点中,每次选取最大的k个激活值,并将其他的所有激活值设置为0。误差反向传播的每次迭代中均如此设置,直至迭代完成。得到优化后的参数{W,b}后,对于输入x(i),计算特征f=Wx+b并选取其中最大的αk个最大的激活作为最终的特征,其中α≥1,其它所有的激活值全部设置为0。k稀疏自编码在手写数字识别等领域取得了优异的表现。本文使用k稀疏自编码算法作为KSAE-SPMP深度学习网络的第1层,分别从RGB图像和深度图像中提取物体的低维颜色特征和低维形状特征。首先,将所有的图片大小缩放至r×r,并从RGB图像和深度图像中分别随机提取h个图像块,每个图像块的长和宽均为s。分别使用RGB和深度图像块作为输入,训练2个k稀疏自编码,一个用于提取RGB图像特征,另一个用于提取深度图像特征。训练完成后,分别使用这2个k稀疏自编码作为映射函数,从每张RGB和深度图像中以卷积的方式逐像素提取颜色特征和形状特征。假设k稀疏自编码的隐层节点个数为q,则卷积后得到的颜色特征和形状特征均为一个大小为t×t×q的三维矩阵,t=r?Cs+1。为降低特征的维度,对三维矩阵进行了简单的平均池化,将池化后的三维矩阵送入空间金字塔最大池化层,从低维特征中提取空间平移不变性特征。3.2空间金字塔最大池化算法提取高维特征空间金字塔最大池化(SPMP)[3]是一种有效地从低维特征中提取抽象的空间平移不变特征的算法。对于每一张RGB图像和深度图像来说,k稀疏自编码层输出的低维特征均为一个三维矩阵。图3为空间金字塔最大池化的简单描述,其中图中每个点代表1个q维的向量。空间金字塔最大池化算法将所有的点划分为d2个块,其中d取不同的值。图3中的4个子图d的取值分别为1、2、3和4。假设每个块C共包含p个点,即共有p个q维向量,将其组合成1个大小为p×q维的矩阵。如公式(2)所示,对于矩阵的每一行,取最大的值作为最终的特征值,所以对于每个块C,最终结果为1个q维的向量。对于每一张图片,选取不同的d值后,假设图片共被分为了r个块。如图3中选取d=1、2、3、4,此图片共被划分为了r=12+22+32+42=30个块。对于每一个块C,最终特征结果均为1个q维矩阵,所以每张图片的最终特征为1个r×q维的向量。3.3Softmax分类器完成分类对于物体的每个样本而言,RGB图像和深度图像经过空间金字塔最大池化提取后的特征均为1个r×q维的向量,将这2个r×q维的向量合并为1个2×r×q维的向量,此向量为每个样本最终的特征向量。分别提取每个样本的特征向量,并将样本分为训练样本集和测试样本集2个部分。Softmax分类器是深度学习领域一个常用的快速分类器,在手写数字识别和物体识别等领域都取得了优秀的分类结果。本文选择Softmax分类器来测试KSAE-SPMP算法的准确性。首先使用训练集对Softmax分类器进行训练,然后使用测试样本集作为输入,得到最终的物体识别准确率。4实验结果及分析为验证KSAE-SPMP算法的有效性,本文采用了马克思?普朗克学会Browatzki等人公布的2D3D数据库。2D3D数据库包含14个类别,共计156个室内常见的物体,每个类别包括10个左右的物体。每个物体包含36对RGB图像和深度图像,这些图像是由物体放置在托盘上每旋转20度拍摄1张而成。4.1实验过程为与先前提出的以2D3D数据库[13]为测试数据集的方法进行实验结果的对比,采用了与之相同的实验过程。每次实验中,随机地将数据库分为2个部分,一部分作为训练样本,一部分作为测试样本。分割规则为随机地从每个类别中挑选出6个物体用于训练,剩余的物体用于测试。对于类别中物体个数小于6的样本,随机选取1个物体用于测试,剩余的物体用于训练,保证每个类别中至少有1个物体用于测试。对于每个物体,选取其中角度均匀分布的18张图片用于训练或者测试。最终的训练样本包含82个物体,共计1476张图片,测试样本包含74个物体,1332张图片。整个实验重复30次,每次随机分割数据库,最终的实验结果取30次实验结果的平均值。数据库分割完成后,首先将所有的图片大小重置为194×194,然后从训练样本中的RGB图像和深度图像中分别随机提取300000个大小为10×10的图像块,并用这些图片块作为k稀疏自编码算法的输入,完成k稀疏自编码算法的训练。k稀疏自编码算法的隐层节点个数为300,k的值选择25。完成训练后,以卷积的方式逐像素地从每张图片中提取特征。每张RGB
本文标题:基于深度学习的RGB�D物体识别算法
链接地址:https://www.777doc.com/doc-5100483 .html