您好,欢迎访问三七文档
FullyConvolutionalNetworksforSemanticSegmentation“汇报人:戴非凡2018/6/20目录·什么是语义分割·CNN与FCN·全连接——全卷积·上采样与损失·跳跃结构SemanticSegmentation什么是语义分割?语义分割是计算机视觉中的基本任务,在语义分割中我们需要将视觉输入分为不同的语义可解释类别,「语义的可解释性」即分类类别在真实世界中是有意义的。例如,我们可能需要区分图像中属于汽车的所有像素,并把这些像素涂成蓝色。论文主要贡献CNN能对图片进行分类,可是怎么样才能识别图片中特定部分的物体——FCN1、FCN能接受任意尺寸的输入图像;(AlexNet,LeNet)2、将全连接层改为全卷积层,保留原始输入图像中的空间信息,输出heatmap;3、对每个像素而言,逐像素求其在所有heatmap上该像素位置的最大数值分类;4、反卷积(Deconvolution)5、提出了跳跃结构,将来自较深较粗糙层的语义信息与较浅层精细的外观信息相结合。VGG16VGG16CNN与FCN通常CNN网络在卷积层之后会接上若干个全连接层,将卷积层产生的特征图(featuremap)映射成一个固定长度的特征向量。以AlexNet为代表的经典CNN结构适合于图像级的分类和回归任务,因为它们最后都期望得到整个输入图像的一个数值描述(概率),比如AlexNet的ImageNet模型输出一个1000维的向量表示输入图像属于每一类的概率(softmax归一化)。全连接全卷积任何全连接层都可以被转化为卷积层。例如:一个K=4096的全连接层,输入数据体的尺寸是7∗7∗512,这个全连接层可以被等效地看做一个1∗1∗4096的卷积层。换句话说,就是将滤波器的尺寸设置为和输入数据体的尺寸一致。结果输出将变成1∗1∗4096,这个结果就和使用初始的那个全连接层一样了。全连接全卷积FCN将这3层表示为卷积层,滤波器的大小(通道数,宽,高)分别为(4096,7,7)、(4096,1,1)、(1000,1,1)。看上去数字上并没有什么差别,但是卷积跟全连接是不一样的概念和计算过程,使用的是之前CNN已经训练好的权值和偏置,但是不一样的在于权值和偏置是有自己的范围,属于自己的一个卷积核。上采样upsampling·经过多次卷积和池化以后,得到的图像越来越小,分辨率越来越低。产生图叫做heatmap热图,热图即为高维特征图,然后进行上采样,把图像进行放大、放大、放大,到原图像的大小,确保识别出来的类别能和原来每一个像素点的位置对上。·anaturalwaytoupsampleisthereforebackwardsconvolution(sometimescalleddeconvolution).上采样upsampling·Thusupsamplingisperformedin-networkforend-to-endlearningbybackpropagationfromthepixelwiseloss.上采样参数是可学习的。Deconvolution·为了对每个像素进行分类预测成最后已经进行语义分割的图像,就对每个像素点分别在21个通道中进行softmax得到属于各类的概率,然后比较这21个通道中的概率哪个最大就选哪个类作为该像素的分类,因此产生了一张已经分类好的图。·直接利用groundtruth作为监督信息训练一个端到端的网络。·最后逐个像素计算softmax分类的损失。·ThismodelprovidestheasoftmaxcrossentropylossfortrainingFCN.·crossentropy是用来评判一个输入向量和期望向量的接近程度(即两个概率分布的距离);·softmax用于计算概率分布,即经过神经网络推导,一个样例属于不同类别的概率分别为多大;·从而可以通过交叉熵来计算预测的概率分布和真实答案的概率分布之间的距离。LossLossHp,q=−𝑝(𝑥)𝑙𝑜𝑔𝑞(𝑥)𝑥通过q来表示p的交叉熵:刻画了通过概率q来表达概率p的困难程度。p代表正确答案,q代表的是预测值。交叉熵值越小,两个概率分布越接近。例:假设有一个三分类问题,某个样例的正确答案是(1,0,0)。两个模型分别经过softmax回归之后的预测结果分别为(0.5,0.4,0.1)(0.8,0.1,0.1),两个模型的预测和正确答案之间的交叉熵为:H1,0,0,0.5,0.4,0.1=−1×log0.5+0×log0.4+0×log0.1≈0.3H1,0,0,0.8,0.1,0.1=−1×log0.8+0×log0.1+0×log0.1≈0.1Combiningwhatandwhere——skiparchitecture·CNN的强大之处在于它的多层结构能自动学习特征,并且可以学习到多个层次的特征:较浅的卷积层感知域较小,学习到一些局部区域的特征;较深的卷积层具有较大的感知域,能够学习到更加抽象一些的特征。·发现分割结果较粗糙,所以考虑加入更多前层的细节信息,将其进行融合。Receptivefield感知域/感受野(receptivefield):卷积神经网络每一层输出的特征图上的像素点在原图像上映射的区域大小。可由中心位置和大小来表征。固定大小CNN可视化神经元感受野的值越大表示其能接触到的原始图像范围就越大,也意味着它可能蕴含更为全局,语义层次更高的特征;相反,值越小则表示其所包含的特征越趋向局部和细节。Combiningwhatandwhere——skiparchitecture不同的结构产生的结果对比:FCN【缺点】1、即使8倍上采样比32倍上采样效果好,但上采样的结果是比较模糊和平滑的,对图像中的细节不敏感;2、是对各个像素进行分类,没有充分考虑像素与像素之间的联系,缺乏空间一致性。FCN【总结】·FCN对图像进行像素级的分类,从而解决了语义级别的图像分割(semanticsegmentation)问题。·与经典的CNN在卷积层之后使用全连接层得到固定长度的特征向量进行分类(全连接层+softmax输出)不同,FCN可以接受任意尺寸的输入图像,并将全连接层转变为卷积层。·采用反卷积层对最后一个卷积层的featuremap进行上采样(结合跳跃架构),使它恢复到输入图像相同的尺寸,从而可以对每个像素都产生了一个预测,同时保留了原始输入图像中的空间信息,。·最后在上采样的热度图上进行逐像素分类(逐个像素计算softmax分类的损失)。谢谢
本文标题:FCN语义分割
链接地址:https://www.777doc.com/doc-3562374 .html