您好,欢迎访问三七文档
当前位置:首页 > IT计算机/网络 > AI人工智能 > 深度学习及其视觉应用
-1-深度学习及其视觉应用丁贵广,GuiguangDing清华大学软件学院dinggg@tsinghua.edu.cn-2-深度学习及视觉应用深度学习概述视觉应用-3-深度学习神经网络是多层函数嵌套形成的模型受到生物神经机制的启发构建多隐层的模型-4-深度学习本质:通过构建多隐层的模型和海量训练数据(可为无标签数据),来学习更有用的特征,从而最终提升分类或预测的准确性。“深度模型”是手段,“特征学习”是目的。与浅层学习区别:1)强调了模型结构的深度,通常有5-10多层的隐层节点;2)明确突出了特征学习的重要性,通过逐层特征变换,将样本在原空间的特征表示变换到一个新特征空间,从而使分类或预测更加容易。与人工规则构造特征的方法相比,利用大数据来学习特征,更能够刻画数据的丰富内在信息。-5-深度学习的里程碑2006年,加拿大多伦多大学教授、机器学习领域的泰斗GeoffreyHinton在《科学》上发表论文提出深度学习主要观点:1)多隐层的人工神经网络具有优异的特征学习能力,学习得到的特征对数据有更本质的刻画,从而有利于可视化或分类;2)深度神经网络在训练上的难度,可以通过“逐层初始化”(layer-wisepre-training)来有效克服,逐层初始化可通过无监督学习实现的。-6-DeepLearning的效果-7-CNN卷积神经网络(ConvolutionalNeuralNetworks,CNN)-8-深度学习的具体模型及方法-9-深度学习的具体模型及方法卷积波尔兹曼机(ConvolutionalRBM)局部感受权值共享减少参数的方法:每个神经元无需对全局图像做感受,只需感受局部区域(FeatureMap),在高层会将这些感受不同局部的神经元综合起来获得全局信息。每个神经元参数设为相同,即权值共享,也即每个神经元用同一个卷积核去卷积图像。-10-深度学习的具体模型及方法卷积波尔兹曼机(ConvolutionalRBM)隐层神经元数量的确定神经元数量与输入图像大小、滤波器大小和滤波器的滑动步长有关。例如,输入图像是1000x1000像素,滤波器大小是10x10,假设滤波器间没有重叠,即步长为10,这样隐层的神经元个数就是(1000x1000)/(10x10)=10000个-11-深度学习的具体模型及方法卷积波尔兹曼机(ConvolutionalRBM)多滤波器情形不同的颜色表示不同种类的滤波器每层隐层神经元的个数按滤波器种类的数量翻倍每层隐层参数个数仅与滤波器大小、滤波器种类的多少有关例如:隐含层的每个神经元都连接10x10像素图像区域,同时有100种卷积核(滤波器)。则参数总个数为:(10x10+1)x100=10100个-12-深度学习的具体模型及方法卷积波尔兹曼机(ConvolutionalRBM)CNN的关键技术:局部感受野、权值共享、时间或空间子采样CNN的优点:1、避免了显式的特征抽取,而隐式地从训练数据中进行学习;2、同一特征映射面上的神经元权值相同,从而网络可以并行学习,降低了网络的复杂性;3、采用时间或者空间的子采样结构,可以获得某种程度的位移、尺度、形变鲁棒性;3、输入信息和网络拓扑结构能很好的吻合,在语音识别和图像处理方面有着独特优势。-13-对象识别——CNN5个卷积层和2个全连接层每层卷积核个数96,256,384,384,256-14-监督学习——卷积神经网络96个低级卷积核-15-监督学习——卷积神经网络网络庞大,但容易收敛唯一不需要特定初始化参数就可以训练成功比较容易并行化训练,并且可以利用GPU加速在计算机视觉(CV)领域取得成功-16-深度学习及视觉应用深度学习概述深度视觉应用-17-ClassificationDetectionSegmentation-18-ImageCaptioning&ImageGeneratorImageCaptioningImageGenerator-19-CNNModelConvolutionalNeuralNetworkBasedonCaffeFrameworkBasicModelZFNetVGGNetGoogleNetResNetDenseNetSqueezeNet-20-Classification-21-ObjectDetection模型:R-CNN,FastR-CNN,FasterR-CNN,YOLO,SSD等知名框架精度:PASCALVOC上的mAP,从R-CNN的53.3%,FastRCNN的68.4%,FasterR-CNN的75.9%,FasterRCNN结合残差网(Resnet-101),达到83.8%速度:从最初的RCNN模型,处理一张图片要用2秒多,到FasterRCNN的198毫秒/张,再到YOLO的155帧/秒,最后出来了精度和速度都较高的SSD,精度75.1%,速度23帧/秒-22-ObjectDetection:R-CNN(2013)-23-ObjectDetection:FastR-CNN(2015)-24-Results-25-FasterR-CNN-26-FasterR-CNN-27-FasterRCNN物体检测系统Problem:SmallObjectDetectionObjectRecognitionPersonandCarDetectionBasedonFasterR-CNN-28-Inputconv3conv4conv5fc6poolingnormalizeconcatenateconvoluteIRNNContextInformationSkipLayerPoolingImprovementBasedonFasterR-CNN-29-ImprovementBasedonFasterR-CNN扩大输入图像分辨率修改Anchor的长宽比HardNegativeSampleMining。。。-30-SomeResults-31-SomeResultsVOCObjectDetectionTask-32-SomeResults-33-PedestrianDetection&Tracking-34-CarDetection&Tracking-35-DetectionandClassification-36-DetectionandClassification行人检索与属性识别监控视频分析原型系统——系统演示监控视频中的汽车分类-39-FaceDetection&Recognition-40-Segmentation-41-FullyConvolutionalNetworks-42-FullyConvolutionalNetworks-43-SemanticSegmentation检测与分割语义分割-44-ImageCaptioningImageCaptioningthebigbenclocktowertoweringoverthecityofLondon-45-BasedStructure-NICEncoder-decodermodelNIC(NeuralImageCaption)modelCNN:encodetheimageforsentencesLSTM:decodetheimagevectortoasentence-46-Model-47-GAN及ReinforcementLearning生成器网络编码器-解码器结构NIC模型为图像生成描述解码器网络分类网络分辨句子是真实数据还是生成的有多种结构可以选择Gated-CNNText-CNN基准值网络(MLP)优化分布;减少策略梯度过程中估计的方差-48-ExperimentsDatasetMSCOCO123,287imageslabeledwithatleast5captionsFollowingtheevaluationAPIprovidedbytheMSCOCOserverThebeamsizeKusedinthebeamsearchissetto10-49-CaseStudy-50-ImageCaptioning-51-Thanks!
本文标题:深度学习及其视觉应用
链接地址:https://www.777doc.com/doc-3908929 .html