activationfunctions

1、一、第一个问题：为什么引入非线性激励函数(激活函数)？如果不用激励函数（其实相当于激励函数是f(x)=x），在这种情况下你每一层输出都是上层输入的线性函数，很容易验证，无论你神经网络有多少层，输出都是输入的线性组合，与只有一个隐藏层效果相当，这种情况就是多层感知机（MLP）了。正因为上面的原因，我们决定引入非线性函数作为激励函数，这样深层神经网络就有意义了（不再是输入的线性组合，可以逼近任意函数）。最早的想法是sigmoid函数或者tanh函数，输出有界，很容易充当下一层输入（以及一些人的生物解释balabala）。以前我们比较常用的一个激活信号是sigmoidfunctionσ，因为它接收一个实值的信号（即上面所说的加和的值）然后将它压缩到0-1的范围内。我们在后面会介绍更多的激活函数。神经元的上述前向传播过程从形式上看着很熟悉。我们之前在线性分类器中看到，分类器具有判断score好坏的能力，在神经元中也是一样，我们通过激活与否来得到神经元的输出，再通过一个恰当的损失函数就能将一个神经元转化成线性分类器了。然后我们再通过在线性分类器那一章见过的交叉熵loss对score的好坏进行量。

2、化，这就是一个二值softmax分类器了（也叫逻辑回归）。因为sigmoidfunction会把只限定于0-1之间，分类器可以通过判断上述概率是否大于0.5来进行分类。sigmoid函数输入一个实值的数，然后将其压缩到0~1的范围内。特别地，大的负数被映射成0，大的正数被映射成1，未激活就是0，完全饱和的激活则是1。二、第二个问题：为什么引入Relu呢？第一，采用sigmoid等函数，反向传播求误差梯度时，求导计算量很大，而Relu求导非常容易。第二，对于深层网络，sigmoid函数反向传播时，很容易就会出现梯度消失的情况（在sigmoid接近饱和区时，变换太缓慢，导数趋于0），从而无法完成深层网络的训练。第三，Relu会使一部分神经元的输出为0，这样就造成了网络的稀疏性，并且减少了参数的相互依存关系，缓解了过拟合问题的发生（以及一些人的生物解释balabala）。激活函数：1.现在sigmoid已经不怎么常用了，主要是因为它有两个缺点:Sigmoidssaturateandkillgradients.Sigmoid容易饱和，并且当输入非常大或者非常小的时候，神经元的梯度就接近于0了。

3、，从图中可以看出梯度的趋势。这就使得我们在反向传播算法中反向传播接近于0的梯度，导致最终权重基本没什么更新，我们就无法递归地学习到输入数据了。另外，你需要尤其注意参数的初始值来尽量避免saturation的情况。如果你的初始值很大的话，大部分神经元可能都会处在saturation的状态而把gradientkill掉，这会导致网络变的很难学习。Sigmoidoutputsarenotzero-centered.Sigmoid的输出不是0均值的，这是我们不希望的，因为这会导致后层的神经元的输入是非0均值的信号，这会对梯度产生影响：假设后层神经元的输入都为正(e.g.x0elementwiseinf=wTx+b),那么对w求局部梯度则都为正，这样在反向传播的过程中w要么都往正方向更新，要么都往负方向更新，导致有一种捆绑的效果，使得收敛缓慢。当然了，如果你是按batch去训练，那么每个batch可能得到不同的符号（正或负），那么相加一下这个问题还是可以缓解。因此，非0均值这个问题虽然会产生一些不好的影响，不过跟上面提到的killgradients问题相比还是要好很多的。2.Tanh.Tanh。

4、和Sigmoid是有异曲同工之妙的，它的图形如上图右所示，不同的是它把实值得输入压缩到-1~1的范围，因此它基本是0均值的，也就解决了上述Sigmoid缺点中的第二个（捆绑效果，收敛慢），所以实际中tanh会比sigmoid更常用。但是它还是存在梯度饱和的问题。Tanh是sigmoid的变形：tanh(x)=2sigmoid(2x)−1。3.ReLU.近年来，ReLU变的越来越受欢迎。它的数学表达式是：f(x)=max(0,x)。x0f(x)=0;x0f(x)=x很显然，从上图左可以看出，输入信号0时，输出为0，0时，输出等于输入。ReLU的优缺点如下：优点1：Krizhevskyetal.发现使用ReLU得到的SGD的收敛速度会比sigmoid/tanh快很多(如上图右)。有人说这是因为它是linear，而且梯度不会饱和优点2：相比于sigmoid/tanh需要计算指数等，计算复杂度高，ReLU只需要一个阈值就可以得到激活值。缺点1：ReLU在训练的时候很”脆弱”，一不小心有可能导致神经元”坏死”。举个例子：由于ReLU在x0时梯度为0，这样就导致负的梯度在这个ReLU被置零，。

5、而且这个神经元有可能再也不会被任何数据激活。如果这个情况发生了，那么这个神经元之后的梯度就永远是0了，也就是ReLU神经元坏死了，不再对任何数据有所响应。实际操作中，如果你的learningrate很大，那么很有可能你网络中的40%的神经元都坏死了。当然，如果你设置了一个合适的较小的learningrate，这个问题发生的情况其实也不会太频繁。4.Leaky-ReLU、P-ReLU、R-ReLULeakyReLUs：就是用来解决这个“dyingReLU”的问题的。与ReLU不同的是：f(x)=αx，(x0)f(x)=x，(x=0)这里的α是一个很小的常数。这样，即修正了数据分布，又保留了一些负轴的值，使得负轴信息不会全部丢失。关于LeakyReLU的效果，众说纷纭，没有清晰的定论。有些人做了实验发现LeakyReLU表现的很好；有些实验则证明并不是这样。ParametricReLU：对于LeakyReLU中的α，通常都是通过先验知识人工赋值的。然而可以观察到，损失函数对α的导数我们是可以求得的，可不可以将它作为一个参数进行训练呢？KaimingHe的论文《DelvingDeepinto。

6、Rectifiers:SurpassingHuman-LevelPerformanceonImageNetClassification》指出，不仅可以训练，而且效果更好。公式非常简单，反向传播至未激活前的神经元的公式就不写了，很容易就能得到。对α的导数如下：δyiδα=0，(ifyi0)，else=yi原文说使用了ParametricReLU后，最终效果比不用提高了1.03%.5.MaxoutMaxout出现在ICML2013上，作者Goodfellow将maxout和dropout结合后，号称在MNIST,CIFAR-10,CIFAR-100,SVHN这4个数据上都取得了start-of-art的识别率。Maxout公式如下：fi(x)=maxj∈[1,k]zij假设w是2维，那么有：f(x)=max(wT1x+b1,wT2x+b2)可以注意到，ReLU和LeakyReLU都是它的一个变形（比如，w1,b1=0的时候，就是ReLU）.Maxout的拟合能力是非常强的，它可以拟合任意的的凸函数。作者从数学的角度上也证明了这个结论，即只需2个maxout节点就可以拟合任意的凸函数了（相减。

7、），前提是”隐隐含层”节点的个数可以任意多.所以，Maxout具有ReLU的优点（如：计算简单，不会saturation），同时又没有ReLU的一些缺点（如：容易godie）。不过呢，还是有一些缺点的嘛：就是把参数double了。如果你使用ReLU，那么一定要小心设置learningrate，而且要注意不要让你的网络出现很多“dead”神经元，如果这个问题不好解决，那么可以试试LeakyReLU、PReLU或者Maxout.友情提醒：最好不要用sigmoid，你可以试试tanh，不过可以预期它的效果会比不上ReLU和Maxout.3.神经网络模型神经网络是由大量的神经元互联而构成的网络。根据网络中神经元的互联方式，常见网络结构主要可以分为下面３类：(1)前馈神经网络(FeedforwardNeuralNetworks)前馈网络也称前向网络。这种网络只在训练过程会有反馈信号，而在分类过程中数据只能向前传送，直到到达输出层，层间没有向后的反馈信号，因此被称为前馈网络。感知机(perceptron)与BP神经网络就属于前馈网络。图4中是一个3层的前馈神经网络，其中第一层是输入单元，第二层称为。

8、隐含层，第三层称为输出层（输入单元不是神经元，因此图中有2层神经元）。图4.前馈神经网络对于一个3层的前馈神经网络N，若用X表示网络的输入向量，W1~W3表示网络各层的连接权向量，F1~F3表示神经网络3层的激活函数。那么神经网络的第一层神经元的输出为：O1=F1(XW1)第二层的输出为：O2=F2(F1(XW1)W2)输出层的输出为：O3=F3(F2(F1(XW1)W2)W3)若激活函数F1~F3都选用线性函数，那么神经网络的输出O3将是输入X的线性函数。因此，若要做高次函数的逼近就应该选用适当的非线性函数作为激活函数。(2)反馈神经网络(FeedbackNeuralNetworks)反馈型神经网络是一种从输出到输入具有反馈连接的神经网络，其结构比前馈网络要复杂得多。典型的反馈型神经网络有：Elman网络和Hopfield网络。图5.反馈神经网络(3)自组织网络(SOM,Self-OrganizingNeuralNetworks)自组织神经网络是一种无导师学习网络。它通过自动寻找样本中的内在规律和本质属性，自组织、自适应地改变网络参数与结构。图6.自组织网络4.神经网络工作方式神经网。

9、络运作过程分为学习和工作两种状态。(1)神经网络的学习状态网络的学习主要是指使用学习算法来调整神经元间的联接权，使得网络输出更符合实际。学习算法分为有导师学习(SupervisedLearning)与无导师学习(UnsupervisedLearning)两类。有导师学习算法将一组训练集(trainingset)送入网络，根据网络的实际输出与期望输出间的差别来调整连接权。有导师学习算法的主要步骤包括：1）从样本集合中取一个样本（Ai，Bi）；2）计算网络的实际输出O；3）求D=Bi-O；4）根据D调整权矩阵W；5）对每个样本重复上述过程，直到对整个样本集来说，误差不超过规定范围。BP算法就是一种出色的有导师学习算法。无导师学习抽取样本集合中蕴含的统计特性，并以神经元之间的联接权的形式存于网络中。Hebb学习律是一种经典的无导师学习算法。(2)神经网络的工作状态神经元间的连接权不变，神经网络作为分类器、预测器等使用。下面简要介绍一下Hebb学习率与Delta学习规则。(3)无导师学习算法：Hebb学习率Hebb算法核心思想是，当两个神经元同时处于激发状态时两者间的连接权会被加强，否则被减弱。

10、。为了理解Hebb算法，我觉得有必要简单介绍一下条件反射实验。巴甫洛夫的条件反射实验：每次给狗喂食前都先响铃，时间一长，狗就会将铃声和食物联系起来。以后如果响铃但是不给食物，狗也会流口水。图7.巴甫洛夫的条件反射实验受该实验的启发，Hebb的理论认为在同一时间被激发的神经元间的联系会被强化。比如，铃声响时一个神经元被激发，在同一时间食物的出现会激发附近的另一个神经元，那么这两个神经元间的联系就会强化，从而记住这两个事物之间存在着联系。相反，如果两个神经元总是不能同步激发，那么它们间的联系将会越来越弱。Hebb学习律可表示为：其中wij表示神经元j到神经元i的连接权，yi与yj为两个神经元的输出，a是表示学习速度的常数。若yi与yj同时被激活，即yi与yj同时为正，那么Wij将增大。若yi被激活，而yj处于抑制状态，即yi为正yj为负，那么Wij将变小。(4)有导师学习算法：Delta学习规则Delta学习规则是一种简单的有导师学习算法，该算法根据神经元的实际输出与期望输出差别来调整连接权，其数学表示如下：其中Wij表示神经元j到神经元i的连接权，di是神经元i的期望输出。