您好,欢迎访问三七文档
当前位置:首页 > 行业资料 > 冶金工业 > CNN卷积神经网络原理
一、CNN卷积神经网络原理简介本文主要是详细地解读CNN的实现代码。如果你没学习过CNN,在此推荐周晓艺师兄的博文:DeepLearning(深度学习)学习笔记整理系列之(七),以及UFLDL上的卷积特征提取、池化CNN的最大特点就是稀疏连接(局部感受)和权值共享,如下面两图所示,左为稀疏连接,右为权值共享。稀疏连接和权值共享可以减少所要训练的参数,减少计算复杂度。至于CNN的结构,以经典的LeNet5来说明:这个图真是无处不在,一谈CNN,必说LeNet5,这图来自于这篇论文:Gradient-BasedLearningAppliedtoDocumentRecognition,论文很长,第7页那里开始讲LeNet5这个结构,建议看看那部分。我这里简单说一下,LeNet5这张图从左到右,先是input,这是输入层,即输入的图片。input-layer到C1这部分就是一个卷积层(convolution运算),C1到S2是一个子采样层(pooling运算),关于卷积和子采样的具体过程可以参考下图:然后,S2到C3又是卷积,C3到S4又是子采样,可以发现,卷积和子采样都是成对出现的,卷积后面一般跟着子采样。S4到C5之间是全连接的,这就相当于一个MLP的隐含层了(如果你不清楚MLP,参考《DeepLearningtutorial(3)MLP多层感知机原理简介+代码详解》)。C5到F6同样是全连接,也是相当于一个MLP的隐含层。最后从F6到输出output,其实就是一个分类器,这一层就叫分类层。ok,CNN的基本结构大概就是这样,由输入、卷积层、子采样层、全连接层、分类层、输出这些基本“构件”组成,一般根据具体的应用或者问题,去确定要多少卷积层和子采样层、采用什么分类器。当确定好了结构以后,如何求解层与层之间的连接参数?一般采用向前传播(FP)+向后传播(BP)的方法来训练。具体可参考上面给出的链接。二、CNN卷积神经网络代码详细解读(基于python+theano)代码来自于深度学习教程:ConvolutionalNeuralNetworks(LeNet),这个代码实现的是一个简化了的LeNet5,具体如下:没有实现location-specificgainandbiasparameters用的是maxpooling,而不是average_pooling分类器用的是softmax,LeNet5用的是rbfLeNet5第二层并不是全连接的,本程序实现的是全连接另外,代码里将卷积层和子采用层合在一起,定义为“LeNetConvPoolLayer“(卷积采样层),这好理解,因为它们总是成对出现。但是有个地方需要注意,代码中将卷积后的输出直接作为子采样层的输入,而没有加偏置b再通过sigmoid函数进行映射,即没有了下图中fx后面的bx以及sigmoid映射,也即直接由fx得到Cx。最后,代码中第一个卷积层用的卷积核有20个,第二个卷积层用50个,而不是上面那张LeNet5图中所示的6个和16个。了解了这些,下面看代码:(1)导入必要的模块[python]viewplaincopy1.importcPickle2.importgzip3.importos4.importsys5.importtime6.7.importnumpy8.9.importtheano10.importtheano.tensorasT11.fromtheano.tensor.signalimportdownsample12.fromtheano.tensor.nnetimportconv(2)定义CNN的基本构件CNN的基本构件包括卷积采样层、隐含层、分类器,如下定义LeNetConvPoolLayer(卷积+采样层)见代码注释:[python]viewplaincopy1.2.卷积+下采样合成一个层LeNetConvPoolLayer3.rng:随机数生成器,用于初始化W4.input:4维的向量,theano.tensor.dtensor45.filter_shape:(numberoffilters,numinputfeaturemaps,filterheight,filterwidth)6.image_shape:(batchsize,numinputfeaturemaps,imageheight,imagewidth)7.poolsize:(#rows,#cols)8.9.classLeNetConvPoolLayer(object):10.def__init__(self,rng,input,filter_shape,image_shape,poolsize=(2,2)):11.12.#assertcondition,condition为True,则继续往下执行,condition为False,中断程序13.#image_shape[1]和filter_shape[1]都是numinputfeaturemaps,它们必须是一样的。14.assertimage_shape[1]==filter_shape[1]15.self.input=input16.17.#每个隐层神经元(即像素)与上一层的连接数为numinputfeaturemaps*filterheight*filterwidth。18.#可以用numpy.prod(filter_shape[1:])来求得19.fan_in=numpy.prod(filter_shape[1:])20.21.#lowerlayer上每个神经元获得的梯度来自于:numoutputfeaturemaps*filterheight*filterwidth/poolingsize22.fan_out=(filter_shape[0]*numpy.prod(filter_shape[2:])/23.numpy.prod(poolsize))24.25.#以上求得fan_in、fan_out,将它们代入公式,以此来随机初始化W,W就是线性卷积核26.W_bound=numpy.sqrt(6./(fan_in+fan_out))27.self.W=theano.shared(28.numpy.asarray(29.rng.uniform(low=-W_bound,high=W_bound,size=filter_shape),30.dtype=theano.config.floatX31.),32.borrow=True33.)34.35.#thebiasisa1Dtensor--onebiasperoutputfeaturemap36.#偏置b是一维向量,每个输出图的特征图都对应一个偏置,37.#而输出的特征图的个数由filter个数决定,因此用filter_shape[0]即numberoffilters来初始化38.b_values=numpy.zeros((filter_shape[0],),dtype=theano.config.floatX)39.self.b=theano.shared(value=b_values,borrow=True)40.41.#将输入图像与filter卷积,conv.conv2d函数42.#卷积完没有加b再通过sigmoid,这里是一处简化。43.conv_out=conv.conv2d(44.input=input,45.filters=self.W,46.filter_shape=filter_shape,47.image_shape=image_shape48.)49.50.#maxpooling,最大子采样过程51.pooled_out=downsample.max_pool_2d(52.input=conv_out,53.ds=poolsize,54.ignore_border=True55.)56.57.#加偏置,再通过tanh映射,得到卷积+子采样层的最终输出58.#因为b是一维向量,这里用维度转换函数dimshuffle将其reshape。比如b是(10,),59.#则b.dimshuffle('x',0,'x','x'))将其reshape为(1,10,1,1)60.self.output=T.tanh(pooled_out+self.b.dimshuffle('x',0,'x','x'))61.#卷积+采样层的参数62.self.params=[self.W,self.b]定义隐含层HiddenLayer这个跟上一篇文章《DeepLearningtutorial(3)MLP多层感知机原理简介+代码详解》中的HiddenLayer是一致的,直接拿过来:[python]viewplaincopy1.2.注释:3.这是定义隐藏层的类,首先明确:隐藏层的输入即input,输出即隐藏层的神经元个数。输入层与隐藏层是全连接的。4.假设输入是n_in维的向量(也可以说时n_in个神经元),隐藏层有n_out个神经元,则因为是全连接,5.一共有n_in*n_out个权重,故W大小时(n_in,n_out),n_in行n_out列,每一列对应隐藏层的每一个神经元的连接权重。6.b是偏置,隐藏层有n_out个神经元,故b时n_out维向量。7.rng即随机数生成器,numpy.random.RandomState,用于初始化W。8.input训练模型所用到的所有输入,并不是MLP的输入层,MLP的输入层的神经元个数时n_in,而这里的参数input大小是(n_example,n_in),每一行一个样本,即每一行作为MLP的输入层。9.activation:激活函数,这里定义为函数tanh10.11.classHiddenLayer(object):12.def__init__(self,rng,input,n_in,n_out,W=None,b=None,13.activation=T.tanh):14.self.input=input#类HiddenLayer的input即所传递进来的input15.16.17.注释:18.代码要兼容GPU,则必须使用dtype=theano.config.floatX,并且定义为theano.shared19.另外,W的初始化有个规则:如果使用tanh函数,则在-sqrt(6./(n_in+n_hidden))到sqrt(6./(n_in+n_hidden))之间均匀20.抽取数值来初始化W,若时sigmoid函数,则以上再乘4倍。21.22.#如果W未初始化,则根据上述方法初始化。23.#加入这个判断的原因是:有时候我们可以用训练好的参数来初始化W,见我的上一篇文章。24.ifWisNone:25.W_values=numpy.asarray(26.rng.uniform(27.low=-numpy.sqrt(6./(n_in+n_out)),28.high=numpy.sqrt(6./(n_in+n_out)),29.size=(n_in,n_out)30.),31.dtype=theano.config.floatX32.)33.ifactivation==theano.tensor.nnet.sigmoid:34.W_values*=435.W=theano.shared(value=W_values,name='W',borrow=True)36.37.ifbisNone:38.b_values=numpy.zeros((n_out,),dtype=theano.config.floatX)39.b=theano.shared(value=b_values,name='b',borrow=True)40.41.#用上面定义的W、b来初始化类HiddenLayer的W、b42.self.W=W43.se
本文标题:CNN卷积神经网络原理
链接地址:https://www.777doc.com/doc-4209454 .html