您好,欢迎访问三七文档
当前位置:首页 > 商业/管理/HR > 管理学资料 > 基于图像大数据的目标识别算法及在智慧旅游中的应用研究
告正文(一)立项依据与研究内容(4000-8000字):1.项目的立项依据(研究意义、国内外研究现状及分析,附主要参考文献目录。基础研究需结合科学研究发展趋势来论述科学意义;应用研究需结合国民经济和社会发展中迫切需要解决的关键科技问题来论述其应用前景。)图像目标识别是指对图像中的目标物体(如行人、动物、建筑物、食物、车牌等)进行识别,即判断图像中是否存在所要识别的目标物体,如果有则定位目标物体在图像中的位置。该研究具有广泛的应用背景。应用之一是汽车的辅助驾驶。据统计,全世界每年死于交通事故的人数多达130万人。因此,迫切需要一个能自动对行人进行检测,并及时提醒驾驶员的系统。应用之二就是对公共场所的人流量进行统计。大型商店、博物馆、旅游景点、地铁等公共场所都需要实时的人流量信息。博物馆可以根据实时的人流量信息来控制进入博物馆的人群,商场可以根据一段时间的客流变化情况来调整相应的经营策略。除此以外,图像目标识别在旅游、互联网、医疗等领域都有广泛的应用。目前,国内外的很多研究机构都开展了图像目标识别的研究。斯坦福大学的李菲菲教授领导的团队创建了一个公开的图像数据集ImageNet[1],该数据集收集了1500万张图片,这些图片总共有22000个类别。从2010年开始,在该数据集上开展了名为ILSVRC(ImageNetLarge-ScaleVisualRecognitionChallenge)的公开评测。ILSVRC从ImageNet中选取了1000个类,每个类有大约1000张图片。所用于训练的图片有120万张,5万张验证图片,15万张测试图片。这1000个类涵盖了各种动物、各种自然场景等,每个类的图片尽可能的覆盖了光照、角度、姿态、遮挡的变化。ILSVRC是国际公认的权威测试比赛,吸引了很多著名的研究机构参与。2011年最好的成绩是74.3%的识别率,由欧洲的xerox研究中心取得[2]。所用的方法是用压缩Fisher矢量对特征进行压缩,并用随机梯度下降的方法来训练线性SVM,所用的特征是著名的SIFT特征[16]和颜色特征。2012年,多伦多大学的Hinton教授和他的学生用GPU(图像处理单元)训练的卷积神经网络模型,在ILSVRC取得了85%的识别率[3]。和2011年的结果相比,识别率整整提高了10个百分点,这一结果不仅震动了学术界,也震惊了工业界。Google由此启动了著名的GoogleBrain计划,专门研究深度学习技术。卷积神经网络是由LeCun在1998年提出的模仿人类大脑所具备的高效表达信息的结构[5],并成功应用于美国各个银行的支票上的数字识别。卷积神经网络的基本结构如图1所示,对于一张32x32像素的输入图像,采用6个5x5的模板对输入图像分别进行卷积,得到6个28x28的特征映射(featuremaps),即图中的C1,每一个特征映射内的权值是相同的;然后对这6个特征映射层分别进行下采样,即图中的S2;然后对S2再进行卷积和下采样(对应于图中的C3和S4);然后对S4做两次全连接(对应于图中的图1.卷积神经网络的基本结构,图片来源于[5]C5和F6);最后的输出层采用的是高斯连接的方式。卷积神经网络中层次之间的紧密联系和空间信息使得其特别适用于图像的处理和理解,并且能够自动的从图像中抽取出丰富的相关特性,被认为是第一个真正成功的采用多层次网络结构的具有鲁棒性的深度学习方法。近几年,针对卷积神经网络的学习结构上出现了一些改进,其中最具代表的是多伦多大学的Krizhevsky等人在2012年提出的8层卷积神经网络结构[3],如图2所示,该结构的输入是224x224的RGB图像,共有5个卷积层和5个Maxpooling层,然后是两个全连接层,最后是一个softmax输出层。和图1所示的基本结构相比,图2的结构多了3个卷积层和3个采用Maxpooling方式的下采样层,这个结构更适合于像素比较大的图像,而且层次越深,学习出来的语义信息就越丰富。进一步,为了避免过拟合,图2中的两个全连接层还加入了Dropout技术[7],为了加快训练速度,全连接层的激励函数改为了ReLUs函数[8],而不是传统的tanh函数和sigmoid函数,同时还在ReLUs激励函数的基础上,增加了局部响应归一化操作,加强了模型的泛化能力。图2所示的结构是目前在图像识别领域应用最多的卷积神经网络结构,在此基础上,香港中文大学的YiSun等人提出在第一个全连接层部分,要同时和卷积层及采样层做全连接,而不是只和采样层做全连接,这样做的目的是为了避免信息的丢失[9]。YiSun等人把这个改进的结构成功应用于人脸识别,并取得了非常好的效果。2014年,Google公司的Christian图2.八层结构的卷积神经网络,图片来源于[3]等人对卷积神经网络做了比较大的改进,引入了Inception模块,一个Inception模块由多个卷积层和Maxpooling层组成,整个网络结构中有9个Inception模块,再加上常规的卷积层、采样层、全连接层和softmax输出层,总共有22层[4]。这个网络结构在ILSVRC2014比赛中取得了93.4%的识别率,比排名第二的牛津大学的VGG团队[13]高了1个百分点,比ILSVRC2013的最好结果更是提高了4.5个百分点。识别性能上又有了进一步的飞跃。值得注意的是,在ILSVRC2014上,几乎所有的参赛队伍都采用了基于卷积神经网络的识别方法,只是在细节的处理上有所不同。不管卷积神经网络的结构如何变化,其思想都是把特征提取和分类器进行有机的整合,通过随机梯度下降的方式进行反向传播,不断的对卷积模板参数和全连接层的参数进行优化,使得最终学习到的特征和分类器接近最优。而传统的方法中,特征提取和分类器是分离的,特征提取是一个无监督的过程,这样提取的特征和训练的分类器通常是次优化的。卷积神经网络的缺点是要学习的参数比较多,并且需要反复迭代,从而导致学习的过程很费时。因此,尽管卷积神经网络在1998年就已被提出,但在之后的10多年间,并未引起学术界的重视。在2012年前,主流的分类器仍然是以支撑向量机[6]为代表的这一类学习速度相对较快的机器学习框架。近几年,由于GPU的出现,使得在一台电脑上实现大规模并行计算成为可能,大大缩短了卷积神经网络的训练时间[3],再加上其优异的识别性能,逐渐成为图像识别领域的主流算法。Google的相似图片搜索引擎的核心算法即是卷积神经网络。Facebook也聘请了卷积神经网络的发明人LeCun作为该公司人工智能实验室的主任。许多著名的大学,如牛津大学、伯克利大学、东京大学等都开展了对卷积神经网络的研究。近两年,针对卷积神经网络的研究在我国也受到了重视,开展相关研究工作的课题组包括中科院自动化所谭铁牛老师课题组、中科院计算所山世光老师课题组、华南理工大学林俊斌老师课题组、哈尔滨工业大学苏统华老师课题组、香港中文大学汤晓欧老师课题组等等。百度公司在2012年成立了深度学习研究院,聘请了包括余凯和吴恩达在内的世界知名的科学家,专门从事包括卷积神经网络在内的深度学习的研究与开发。腾讯、阿里巴巴这些公司也都相继开展了相关研发,并取得了较好的成果。尽管卷积神经网络促进了图像识别领域的飞速发展,但在实际应用中,我们发现,如果测试样本与训练样本在角度、光照、姿态等方面差异较大,卷积神经网络识别错误的可能性仍然较大。比如要识别某一建筑物,如果训练样本中对该建筑物的拍摄角度都是比较垂直正面的,那对于比较倾斜拍摄角度的测试样本,不管对训练模型如何进行优化,模型的识别结果往往还是会出错。尽管卷积神经网络的模型具备了一定的旋转、尺度、位移不变性,但对于差异较大的测试样本依然难以识别正确。因此,为了达到实际应用的需求,一个直接的办法就是构建一个能覆盖各种角度、光照、姿态、遮挡等变化的大规模的训练数据库,即图像大数据训练库。而且,以卷积神经网络为代表的深度学习的特点之一就是训练数据越多,效果就越好。这是因为卷积神经网络参数非常多(例如,图2所示的网络结构的参数个数就达到了6千万),如此规模的参数,显然需要大数据的支持,才能达到比较理想的识别效果。如何构建一个覆盖实际变化要求的图像大数据库,这是急需解决的一个问题。如果单纯靠人力的办法,将会非常的耗时耗力。文献[3,10]的采取的办法有:1)在一张256x256的图像上进行随机采样,得到多张224x224的采样图像;2)在原有图片上加入一些微小的光照、颜色、噪音扰动;3)利用主成分分析,在图像的主成分上加入高斯扰动,再对图像进行重构。通过以上的步骤,图像训练库的数据增加了2000多倍,有效的提高了识别率。但以上的方法并没有考虑如何对角度进行自动的变换。卷积神经网络面临的第二个问题是识别效果也容易受背景变化的影响。其原因在于卷积神经网络的输入图像本身包含了各种背景,在特征提取过程中,背景像素也参与了计算。尽管卷积神经网络通过多次的迭代学习过程,能够不断弱化背景图像的影响[12],但卷积神经网络本身并不具备图像分割的能力,背景图像的存在依然会对最终的识别效果造成很大的影响。Girshic等人提出不要直接对整个图像进行识别,而是先在图像中筛选出可能包含目标物体的矩形区域,对这些候选区域再用卷积神经网络进行判别是否为要识别的目标物体,这样不仅有效的提高了识别率,还能定位出目标物体在图像中的具体位置[11]。Girshic等人提出的方法的确在很大程度上避免了背景图像的干扰,但每一个候选区域毕竟还是一个矩形区域,不是物体本身的轮廓,因此还是有背景图像的存在,对最终的识别效果还是会产生影响。卷积神经网络面临的第三个问题是训练过程依然比较耗时。在前文中提到,近几年,由于GPU的出现,大大缩短了卷积神经网络的训练时间,但通常也需要几天甚至几周的时间。比如,在ILSVRC提供的训练集上,用文献[3]所述的方法训练一个卷积神经网络模型,大概需要6天左右的时间。为了达到比较好的的识别率,通常需要训练5个甚至更多的卷积神经网络模型。在硬件资源有限的情况下,训练多个模型的时间将会成倍的增加。因此,如何在有限的硬件资源条件下,有效的提高模型训练的效率也是急需解决的一个问题。本项目将开展基于图像大数据的目标识别及应用研究。首先研究如何自动构建一个覆盖实际变化要求的图像大数据训练库。在文献[3,10]的提出的办法基础上,把我们提出的多摄像机之间的单应性约束方法[15]进行改进,使其适合于目标的拍摄角度变化,从而构建一个能覆盖各种角度、光照、姿态、遮挡等变化的大规模的训练数据库,使得训练出来的模型能满足实际的需求;对要识别的目标物体,我们将借鉴语音识别的成功经验[17],用深度信任网络[18]来代替混合高斯模型的打分机制,提高物体分割的效果,从而达到更好的识别率;为了有效提高卷积神经网络的训练速度,我们将把网络中最后的全连接层用的线性支撑向量机[19]来替代,在卷积特征不变的情况下,训练多个线性分类器,从而有效的提高训练的时间,而且又不损失精度。[参考文献][1]OlgaRussakovsky*,JiaDeng*,HaoSu,JonathanKrause,SanjeevSatheesh,SeanMa,ZhihengHuang,AndrejKarpathy,AdityaKhosla,MichaelBernstein,AlexanderC.BergandLiFei-Fei.ImageNetLargeScaleVisualRecognitionChallenge.arXiv:1409.0575,2014.[2]Sanchez,JorgeandPerronnin,Florent,High-dimensionalsignaturecompressionforlarge-scaleimageclassif-ycation.IEEEConferenceonComputerVisionandPatternRecognition(CVPR),2011.[3]Krizhevsky,A.,Sutskever,I.
本文标题:基于图像大数据的目标识别算法及在智慧旅游中的应用研究
链接地址:https://www.777doc.com/doc-2536265 .html