您好,欢迎访问三七文档
当前位置:首页 > 行业资料 > 冶金工业 > 基于深度神经网络的目标检测
第1页|共25页基于深度神经网络的目标检测检测≈定位+分类第2页|共25页第3页|共25页传统目标检测基于候选区域的目标检测回归方法的深度学习目标检测faster-RCNNfast-RCNNSPPNETRCNNYOLO第4页|共25页区域选择特征提取分类器分类滑动窗口策略手工设计特征SVM、adaboost等两个问题传统目标检测第5页|共25页候选区域selectivesearchIOUNMS非极大值抑制PASCALVOC上的检测率从35.1%提升到53.7%基于候选区域的目标检测第6页|共25页Step1.InputanimageStep2.Useselectivesearchtoobtain~2kproposalsStep3.WarpeachproposalandapplyCNNtoextractitsfeaturesStep4.Adoptclass-specifiedSVMtoscoreeachproposalStep5.RanktheproposalsanduseNMStogetthebboxes.Step6.Useclass-specifiedregressorstorefinethebboxes’positions.TOOSLO!!!-SPPNETRCNN三个问题(分阶段训练、空间浪费、慢47s)SPP-Net:MotivationCroppingmaylosssomeinformationabouttheobjectWarppingmaychangetheobject’sappearance第7页|共25页•FClayerneedafixed-lengthinputwhileconvlayercanbeadaptedtoarbitraryinputsize.•ThusweneedabridgebetweentheconvandFClayer.•HerecomestheSPPlayer.第8页|共25页SPP-Net:TrainingforDetection(1)第9页|共25页Conv5featuremapConv5featuremapConv5featuremapImagePyramidFeatMapPyramidsconvStep1.GenerateaimagepyramidandexacttheconvFeatMapofthewholeimageSPP-Net:TrainingforDetection(2)•Step2,Foreachproposal,walkingtheimagepyramidandfindaprojectversionthathasanumberofpixelsclosestto224x224.(Forscalinginvarianceintraining.)•Step3,findthecorrespondingFeatMapinConv5anduseSPPlayertopoolittoafixsize.•Step4,Whilegettingalltheproposals’feature,fine-tunetheFClayeronly.•Step5,Traintheclass-specifiedSVM第10页|共25页SPP-Net:TestingforDetectionAlmostthesameasR-CNN,exceptStep3.第11页|共25页第12页|共25页•Speed:64xfasterthanR-CNNusingonescale,and24xfasterusingfive-scaleparamid.•mAP:+1.2mAPvsR-CNN2.训练花费过大的硬盘开销和时间1.训练分多阶段,并不是端到端的训练过程FClayersConvlayersSVMregressorstore第13页|共25页3.训练sppnet只微调全连阶层(检测除了语义信息还需要位置信息,多层pooling操作导致位置信息模糊)FastR-CNNFastR-CNN:MotivationRossGirshick,FastR-CNN,ArxivtechreportJOINTTRAINING!!第14页|共25页多任务损失函数(multi-taskloss)ROIpoolinglayer特征提取和分类放在一个网络之中,联合训练FastR-CNN:JointTrainingFrameworkJointthefeatureextractor,classifier,regressortogetherinaunifiedframework第15页|共25页(RoI)候选区域:图像序号+几何位置FastR-CNN:RoIpoolinglayer≈onescaleSPPlayer第16页|共25页FastR-CNN:RegressionLossAsmoothL1losswhichislesssensitivetooutliersthanL2loss第17页|共25页多任务损失函数imagepyramids(multiscale)bruteforce(singlescale)Conv5featuremapconv•Inpractice,singlescaleisgoodenough.(Themainreasonwhyitcanfasterx10thanSPP-Net)第18页|共25页FastR-CNN:Othertricks第19页|共25页第20页|共25页-网络末端同步训练的分类和位置调整,提升准确度-使用多尺度的图像金字塔,性能几乎没有提高-倍增训练数据,能够有2%-3%的准确度提升-网络直接输出各类概率(softmax),比SVM分类器性能略好-更多候选窗不能提升性能FastRCNN和RCNN相比,训练时间从84小时减少为9.5小时,测试时间从47秒减少为0.32秒。在PASCALVOC2007上的准确率相差无几,约在66%-67%之间第21页|共25页1.Regionproposal耗时(提regionproposal2~3s,而提特征分类只需0.32s)2.伪端到端训练(regionproposal使用selectivesearch先提取处来,占用磁盘存储)Faster-RCNN卷积网络直接产生候选区域RPN本质为滑动窗口第22页|共25页第23页|共25页滑动窗口(最后一卷积层)anchor机制(锚点)边框回归可以得到多尺度长宽比候选区域第24页|共25页简单网络目标检测速度达到17fps,在PASCALVOC上准确率为59.9%;复杂网络达到5fps,准确率78.8%20000个anchor第25页|共28页1•Imagenet上预训练模型初始化网络参数,微调RPN网络2•使用1中网络提取候选区域训练fast-RCNN3•用2的fast—RCNN重新初始化RPN,固定卷积层微调4•固定2种fast-RCNN卷积层,用3种RPN提取候选微调1.无法达到实时2.预先获取候选区域,在对每个proposal分类计算量比较大基于回归YOLO第26页|共28页(1)给个一个输入图像,首先将图像划分成7*7的网格(2)对于每个网格,我们都预测2个边框(包括每个边框是目标的置信度以及每个边框区域在多个类别上的概率)(3)根据上一步可以预测出7*7*2个目标窗口,然后根据阈值去除可能性比较低的目标窗口,最后NMS去除冗余窗口即可。增强版本GPU中能跑45fps,简化版本155fps第27页|共28页YOLO可以每秒处理45张图像每个网络预测目标窗口时使用的是全图信息只使用7*7的网格回归会使得目标不能非常精准的定位检测精度并不是很高第28页|共25页第29页|共25页·YOLO对相互靠的很近的物体,还有很小的群体检测效果不好,这是因为一个网格中只预测了两个框,并且只属于一类。·对测试图像中,同一类物体出现的新的不常见的长宽比和其他情况是。泛化能力偏弱。·由于损失函数的问题,定位误差是影响检测效果的主要原因。尤其是大小物体的处理上,还有待加强。Thanks第30页|共28页
本文标题:基于深度神经网络的目标检测
链接地址:https://www.777doc.com/doc-5100493 .html