您好,欢迎访问三七文档
数学基础一、概率论*期望E(X):设离散型随机变量X的分布律为,则设连续型随机变量X的概率密度函数(PDF)为,则*方差VarianceD(X):*标准差:σ(X)=D(X)^0.5*协方差covariance:两个随机变量X和Y,COV(X,Y)=E[(X-E(X))(Y-E(Y))]=E(XY)-E(X)E(Y)协方差矩阵covariancematrix:假设X是以n个标量随机变量组成的行向量,且μk是其第k个随机变量的期望值,即,μk=E(Xk),协方差矩阵可以被定义为:Σ=E{(X-E[X])(X-E[X])T}应用:去相关、主成分分析*正态分布~,概率密度函数*多维高斯分布:其中,x是维数为n的样本向量(列向量),是期望,是协方差矩阵,表示的行列式,表示的逆矩阵,表示的转置。*高斯混合模型GMM:,其中表示第j个SGM的PDF。令,GMM共有M个SGM,现在,我们就需要通过样本集X来估计GMM的所有参数:,样本X的概率公式为:(|)∏∑()∑∑()二、指数、对数aaalogMNlogMlogN()=十aaaMloglogMlogNN()=()nRnaalogMnlogM=22logloglglnlogloglglnlogcacbbbbbaaaa---------------------------------------------残忍的分割线----------------------------------------------------------------------------卷积神经网络输入图像:去均值或归一化或PCA/白化基本结构:卷积conv、激励RELU、池化pool、全连接FC,例如下左图:一、卷积滤波器filter,例如上右图:a.深度depth:代表滤波器个数。注意:这里depth不是神经元个数,神经元个数可以看作,卷积整幅图像时,与filter点乘的次数,只是filter权值共享。b.步长stride:决定滑动多少步可以到边缘。c.填充值zero-padding:在外围边缘补充若干圈0。说明:(1)7*7*3:7*7图像大小,3代表R、G、B三个颜色通道;(2)FilterW0和W1:两个不同的滤波器;(3)输出:上图绿色/最右侧部分,上面矩阵对应FilterW0的输出,下面对应W1输出。例如上图中计算过程如下(·表示点乘):[000001001000011002000020000]·;RGB输入数据[11-1-101-1-10-10-100-11-100101010-1-1];同一组Filter+1;偏置=1+(-1)+0+1二、池化/下采样:区域平均或最大三、ThemostcommonConvNetarchitecturelayerpattern:INPUT-[[CONV-RELU]*N-POOL?]*M-[FC-RELU]*K-FCwherethe*indicatesrepetition,andthePOOL?indicatesanoptionalpoolinglayer.Moreover,N=0(andusuallyN=3),M=0,K=0(andusuallyK3).四、常见cnn网络:(1)LeNet,YannLeCunin1990’sINPUT=CONV=RELU=POOL=CONV=RELU=POOL=FC=RELU=FCINPUT层:32*32,1024个神经元。C1层:选择6个Filter,大小5*5,得到6张特征图,每个特征图大小32-5+1=28,神经元个数由1024减小到28*28=784。S2层:下采样层/池化层,使用最大池化进行下采样,池化的size为(2,2),即对C1层28*28的图片进行分块,每个块的大小为2*2,这样可以得到14*14个块。每个块中最大的值作为下采样的新像素,因此S2的结果为:14*14大小的图片,共有6张这样的图片。C3层:卷积层,卷积核大小依旧为5*5,得到新的图片大小为10*10(14-5+1),然后我们希望可以得到16张特征图。这16张图片的每一张,是通过S2的6张图片进行加权组合得到。重点说明:让S2的6张图通过6个(因为是6张图)不同的大小为5*5的Filters,filters参数个数为6*(5*5),重复操作16次,注意每次使用不同的filters,就可以得到16张特征图。这时,fileters总参数个数为16*(6*(5*5)),不包括偏置项。S4层:下采样层,最大池化,池化块的大小为2*2,因此S4层为16张大小为5*5的图片。至此,神经元个数已经减少为:16*5*5=400。C5层:用5*5的卷积核,得到120张特征图。C5层图片大小为5-5+1=1,即最后只剩下120个神经元。参数个数:120*(16*(5*5))。至此,后面就可以直接利用全连接神经网络。总结:CNN调参高尚大。(2)VGGNet:2014KarenSimonyan,Andrewzisserman描述:INPUT:[224x224x3]memory:224*224*3=150Kweights:0CONV3-64:[224x224x64]memory:224*224*64=3.2Mweights:(3*3*3)*64=1,728CONV3-64:[224x224x64]memory:224*224*64=3.2Mweights:(3*3*64)*64=36,864POOL2:[112x112x64]memory:112*112*64=800Kweights:0CONV3-128:[112x112x128]memory:112*112*128=1.6Mweights:(3*3*64)*128=73,728CONV3-128:[112x112x128]memory:112*112*128=1.6Mweights:(3*3*128)*128=147,456POOL2:[56x56x128]memory:56*56*128=400Kweights:0CONV3-256:[56x56x256]memory:56*56*256=800Kweights:(3*3*128)*256=294,912CONV3-256:[56x56x256]memory:56*56*256=800Kweights:(3*3*256)*256=589,824CONV3-256:[56x56x256]memory:56*56*256=800Kweights:(3*3*256)*256=589,824POOL2:[28x28x256]memory:28*28*256=200Kweights:0CONV3-512:[28x28x512]memory:28*28*512=400Kweights:(3*3*256)*512=1,179,648CONV3-512:[28x28x512]memory:28*28*512=400Kweights:(3*3*512)*512=2,359,296CONV3-512:[28x28x512]memory:28*28*512=400Kweights:(3*3*512)*512=2,359,296POOL2:[14x14x512]memory:14*14*512=100Kweights:0CONV3-512:[14x14x512]memory:14*14*512=100Kweights:(3*3*512)*512=2,359,296CONV3-512:[14x14x512]memory:14*14*512=100Kweights:(3*3*512)*512=2,359,296CONV3-512:[14x14x512]memory:14*14*512=100Kweights:(3*3*512)*512=2,359,296POOL2:[7x7x512]memory:7*7*512=25Kweights:0FC:[1x1x4096]memory:4096weights:7*7*512*4096=102,760,448FC:[1x1x4096]memory:4096weights:4096*4096=16,777,216FC:[1x1x1000]memory:1000weights:4096*1000=4,096,000TOTALmemory:24M*4bytes~=93MB/image(onlyforward!~*2forbwd)TOTALparams:138Mparameters(3)AlexNet:AlexKrizhevsky,GeoffHinton2012(4)ZFNet:matthewzeiler2013(5)GoogleNet:2014Szegedy(6)ResNet:residualnetwork,2015kaiminghe
本文标题:数学基础-cnn
链接地址:https://www.777doc.com/doc-4363379 .html