您好,欢迎访问三七文档
第六章多层神经网络26.1引言神经网络定义一个神经网络是一个由简单处理元构成的规模宏大的并行分布式处理器。天然具有存储经验知识和使之可用的特性。神经网络与人脑的相似性:a.神经网络获取的知识是从外界环境中学习得来。b.互连神经元的连接强度,即突触权值,用于存储获取的知识。3生物神经元示意图4神经元在结构上由细胞体、树突、轴突和突触四部分组成。1.细胞体(cellbody)神经元的主体,由细胞核、细胞质和细胞膜3部分组成。细胞体的外部是细胞膜,将膜内外细胞液分开。由于细胞膜对细胞液中的不同离子具有不同的通透性,这使得膜内外存在着离子浓度差,从而出现内负外正的静息电位。这种电位差称为膜电位。2.树突(dendrite)从细胞体向外延伸出许多突起的神经纤维。负责接收来自其他神经元的输入信号,相当于细胞体的输入端(input)。3.轴突(axon)由细胞体伸出的最长的一条突起称为轴突。轴突比树突长而细。轴突也叫神经纤维,末端处有很多细的分支称为神经末梢,每一条神经末梢可以向四面八方传出信号,相当于细胞体的输出端(output)。4.突触(synapse)一个神经元通过其轴突的神经末梢和和另一个神经元的细胞体或树突进行通信连接,称为突触。5人工神经网络6神经网络的发展7基本功能8应用领域9神经元模型a.突触权值b.加法器—净激活c.激活函数1kw2kwkmw0kw(.)fky输入信号突触权值偏置输出求和结点激活函数106.2前馈运算和分类前馈运算定义:a.无反馈,可用一有向无环图表示。b.图的节点分为两类,即输入节点与计算单元。c.每个计算单元可有任意个输入,但只有一个输出,而输出可耦合到任意多个其他节点的输入。前馈网络通常分为不同的层,第i层的输入只与第i-1层的输出相联。d.输入和输出节点由于可与外界相连,直接受环境影响,称为可见层,而其他的中间层则称为隐层。如图。11每一个二维输入向量都提供给输人层,而每一个输入单元的输出结果则等于输入向量中对应的那个分量。隐单元对它的各个输入进行加权求和运算而形成“净激活(netactivation)”简称为net。为简单起见,我们增广输入向量和权向量可将净激活写成如下形式010ddtjijijijijiinetxxWX下表i是输入层单元的索引值,j是隐含层单元的索引,ji表示输入层单元i到隐含层单元j的权值,,类比于神经元,这种权被称为“突触”,连接的值叫“突触权”。每一个隐含层单元激发出一个输出分量,这个分量是它激活的非线性函数,()jfnet12常用的激活函数符号函数:0011)(kkknetifnetifnetfnetk1(0)()hardlim()0(0)nafnnn0)(knetf13)exp(11)(kkanetnetf21,0212121,1)(kkkkknetnet,netnetnetf)(knetfnetk-0.50.5分段线性函数:Sigmoid函数:014最简单的神经网络-单层感知器单层感知器拓扑结构15单层感知器仅对线性问题具有分类能力线性问题:简单来讲,就是用一条直线可分的图形。比如:1.逻辑“与”2.逻辑“或”我们可以用一条直线来分隔0和1。16逻辑“与”的真值表及二维样本分类图17逻辑“或”的真值表及二维样本分类图18为什么感知器就可以解决线性问题呢?这是由它的传递函数决定的。这里以两个输入分量x1和x2组成的二维空间为例,此时节点j的输出为所以,方程确定的直线就是二维输入样本空间上的一条分界线19“异或”的真值表及二维样本分类图如果要让它来处理非线性的问题,单层感知器网就无能为力了。例如下面的“异或”,就无法用一条直线来分割开来,因此单层感知器网就没办法实现“异或”的功能。20解决异或问题的多层感知器x1x2y11110.5-1.5-10.7-0.41输入层隐含层输出层216.2.1一般的前馈运算显然,我们可以把之前的讨论推广为更多的更多的输入单元、其他的非线性函数、任意多个输出单元。在分类方面,我们有c个输出单元,每个类别一个,每个输出单元产生的信号就是判别式函数gk(x).判别函数如下:6.2.2多层网络的表达能力戈尔莫戈罗夫证明了:只要选取适当的函数,任何连续函数g(x)都呆以定义在单位超立方体上,即可以表示为:可惜的是,上述构造性的描述确实显示任期望函数都可以通过一个三层网络来执行,但它更多的价值在理论方面,而实用意义不大。011()(())HndkkkjjiijkojigXzffwx2111()(())ndjijijigXx22虽然一个两层网络分类器只能实现一个线性判决边界,如果给出足够数量的隐单元,三层,四层及更多层网络就可以实现任意的判决边界236.3反向传播算法(BP算法)怎样训练输入层到隐含层的权值?反向传播算法允许我们对每一个隐单元计算有效误差,并且由此推导出一个输入层到隐含层权值的学习法则关键问题:根据训练样本和期望输出来设置合适的权值24神经元j的输出)(jjnetfy神经元j的净激活xwjjnet连接权初始化学习模式提供给网络计算输出层的输入输出模式顺传播:2526272829对于隐层利用式(11)可得2111'11()2()()()()ckkkjickkkkjckkkkkkjckkkkjkJtzyyztzyznettznetytzfnet303132'ksigmoid(net)kkkkkikkttz从式(21)可以看出,单元上的权值更新与(t-z)成正比,如果我们得到理想的输出z就不需要更新权值了。对于常用的典型型函数f(),f总是正值。如果y和都是正的,就说明实际输出太小,因此我们需加大权值。'j1(net)cjkjkkfw隐单元的敏感度与输出单元的敏感度的加权成和正比这样输出单元的敏感度就反向传播回隐单元了3334随机反传算法6.3.2训练协议1.随机训练:模式堆积地从训练集中取出,网络权值也根据不同的模式进行更新2.成批训练:所有模式在训练之前全部送往网络中。3.在线训练:每种模式只提供一次,不需要存储器来保存模式begin,,;(w)hmjijijikjkjkiinitializenwxyJreturnwend准则,,m0domm+1x随机选择模式until35目前我们只考虑了训练集中单个模式的的误差,但实际上我们要考虑一个定义在训练集里所以模式的误差。我们可以吧这个总训练误差写成n个单独模式误差的总和n1ppJJ在随机训练中,一个权值的更新可能减少某个单模式的误差,然而却增加了训练全集上的误差。但是如果大量的这种单词更新,却可以降低上述的总误差36成批反传算法权值在所有模式出现一次后才更新37学习曲线显示的是误差准则函数作为训练总量的一个函数。每个模式的“验证误差”和“测试误差”实际上总是比“训练误差”大。在有些协议中,训练在验证集误差最小的时候停止。(比如图中靠近5的位置)6.3.3BP网络——学习曲线386.3.4误差曲面网络初始权值随机,通过随机训练,误差降到全局极小值。这里存在一个低误差的解,它对应的判决边界把训练点正确的分为两类。这里误差曲面有一个单一极小值。误差曲面上不同的平坦区域粗略的对应不同数量的恰当分类面模式;这个例子中错误分类的模式的数目最大是4.39用上面的三层非线性网络来解决一个一维线性不可分问题。可以发现误差曲面总比上图的稍高一些,因为无论怎么分都会导致一个模式被错误分类。从曲面上可以看到两种形式的极小误差解;分别对应-2x-1和1x2,其中一个模式被误分。通过这些例子能清楚的显示出权值,判决边界以及误差之间的对应关系。可以发现当存在一组权对应几乎相同的判决边界时就会出现平坦区。406.4.3较大型的网络高对于一个具有很多权值,解决较复杂的高维分类问题的网络,随单个权值的变化,误差的变化将十分缓慢。尽管低维空间里局部极小值非常多,高维空间里局部极小值却不同:在学习过程中,高维空间可以给系统提供更多的方式(维数,自由度)以“避开”障碍或局部极大值。权值个数越过剩,网络越不可能陷入局部极小值。6.4.4关于多重极小在高维权值空间中,找到一个全局极小值的可能性很小,我们不希望网络陷入具有高的训练误差的局部极小值,在很多问题中,当误差较低时,非全局极小是可以接受的。416.5反向传播作为特征映射424344456.5.1隐含层的内部表示-权值底部图为一个二维两类非线性可分分类问题的7种模式。左上图是一个已经把误差训练到全局极小值的2-2-1S型网络(含偏置)的隐单元表示。右上图是模拟一个完全训练的2-3-1网络。由于隐含层的高维表示能力,现在类别变的线性可分,学习过的隐含层到输出层的权值确实得出了一个将类别分开的平面46右图所示为输入层到隐含层的权值,显示为图像,用来完成简单的字符识别。上部的图形表示的是从用来训练对3个字符进行分类的64-2-3S型网络的训练集中选出的一些模式。下部的图形显示的是训练后两个隐单元的输入层到隐含层的权值。但是在大型网络中,这些学习后的权值的模式却很难用上述方式解释。476.6反向传播贝叶斯理论及概率484950516.10其他网络和训练算法6.10.1径向基函数网络5253545556正则化RBF网络的学习算法575859606162636465666768697071726.10.3匹配滤波器如何对某个特定的已知模式设计一个最优检测器?+2-(t)w(tT)dtT(t)dtconstxw考虑利用线性检测器来检测一个连续信号x(t)的问题。通过它的脉冲响应h(t),或者最好是用它的逆序脉冲响应w(t)=h(t)来描述该检测器。线性检测器对于任意输入x(t)的输出通过积分z(T)=给出,其中为信号的相对偏移量。并有如下限定条件该限定有时候被称为滤波器的能量。732+-(0)([w(t)x(t)w(t)]dt)0[2w(t)w(tz(t),0.)x(t)w(t)]dt0T=0w(t);znzt于是优化问题就是找出在限定条件下使达到最大值的响应函数。我们对限定条或者对所有的都成立,所以被积式必须为0,从而件求变分加上并令其得出最优滤波器应为值为不失一般性我们令从而得出w(t)(t)xx74*a(t)(t),T(t)(t)ax左列显示了信号,它下面是一个任意的响应函数底部是作为偏移量的函数的滤波器响应。右列显示了输入和响应函数相匹配的情形。两个响应函数和具有相等的能量。特别注意这种情况下,底部的最大输出比左边的非匹配的情况下大756.10.4卷积神经网络卷积神经网络(ConvolutionalNeuralNetwork,CNN)是人工神经网络的一种,已成为当前语音分析和图像识别领域的研究热点。它的权值共享网络结构使之更类似于生物神经网络,降低了网络模型的复杂度,减少了权值的数量。该优点在网络的输入是多维图像时表现的更为明显,使图像可以直接作为网络的输入,避免了传统识别算法中复杂的特征提取和数据重建过程。CNN是第一个真正成功训练多层网络结构的学习算法。它利用空间关系减少需要学习的参数数目以提高一般前向BP算法的训练性能。在CNN中,图像的一小部分(局部感受区域)作为层级结构的最低层的输入,信息再依次传输到不同的层,每层通过一个数字滤波器去获得观测数据的最显著的特征。这个方法能够获取对平移、缩放和旋转不变的观测数据的显著特征,因为图像的局部感受区域允许神经元或者处理单元可以访问到最基础的特征,例如定向边或者角点。76卷积7778CNN的网络结构79稀疏连接8081权值共享82CNN的网络结构示意图83CNN的网络结构84CNN实例8586卷积的梯度计算878889降采样
本文标题:多层神经网络
链接地址:https://www.777doc.com/doc-5983010 .html