您好,欢迎访问三七文档
当前位置:首页 > 商业/管理/HR > 管理学资料 > 第9章 单隐层前向神经网络的学习算法研究
单隐层前向神经网络的学习算法研究山东轻工业学院数理学院李彬1.单隐层前向神经网络批处理学习算法2.神经网络算法的评价标准3.单隐层前向神经网络在线学习算法4.神经网络应用4.1函数逼近问题4.2混沌时间序列预测问题4.3模式分类问题4.4医疗诊断问题引言NN的学习算法根据参数修正发生的时间可以分为两类:批处理学习(Batchlearning)算法和在线学习(Sequentiallearning,亦可称为顺序学习,序贯学习)算法.引言采用批处理学习算法时,只有用全部训练样本进行了一次完整的学习即一个epoch之后才对网络的参数进行调整,批处理学习的过程是一个epoch接着一个epoch进行的,直到网络参数趋于稳定并且整个训练集上的平均输出误差收敛到某一个最小值时,网络的学习过程才结束.这种训练算法适用于静态的应用环境,即训练样本一次给出的情况,如分类问题等.引言引言Underfit欠拟合Overfit过拟合隐层神经元个数(网络规模)对网络性能的影响单隐层前向神经网络由三层组成,输入层节点的作用是传递信号到隐层;隐层节点由径向基函数(或者其它激活函数)构成;输出层节点通常是简单的线性函数.在单隐层前向神经网络中,从输入层到隐层的变换是非线性的,隐层的作用是对输入向量进行非线性变换,而从隐层到输出层的变换是线性的,也就是网络的输出是隐节点输出的线性加权和.决定RBFNN结构的因素:网络隐层神经元个数及其中心、隐层与输出层连接权值.一般的算法都是充分利用网络的三层结构特点来设计学习算法.第一步确定网络隐层神经元个数与其中心,第二步确定网络的权值.这种两步训练算法的重要特点是在第二步可以直接利用线性优化算法,从而可以加快学习速度和避免局部最优.1.单隐层前向神经网络批处理算法具有个隐层神经元(增神经元或RBF神经元)SLFNs的输出可以描述如下(1)N1(x)a,,NNiiiifGbx其中和是隐层神经元的学习参数,是连接第个隐层神经元和输出神经元的权值。是对应于输入x的第个隐层神经元的输出.aiibiia,,iiGbxi对于具有激活函数:(如:sigmoid和threshold)的增隐层神经元,可以表示为:(2)其中是连接输入层和第个隐层神经元的权值向量,是第个隐层神经元的偏差.对具有激活函数(如:高斯Gaussian)的RBF隐层神经元,可以表示为:(3)其中和是第个RBF神经元的中心和宽度因子.是所有正实数的集合.i)(xg)(xga,,(a)iiiiGbgbxxRibaiiibia,,(a)iiiiGbgbxx+Ribaiib+Ri(x,)iit12x,,iiniixxxnR12,,iiiimttttmRiaiib学习算法用有限数目的输入输出样本进行训练。对于个随机样本,其中是输入是目标向量.如果具有个隐层神经元的标准单隐层前向神经网络(SLFNs)能够以零均方误差逼近这个样本,则存在,(4)LN向量.L,和,使得:1(x)a,,t,1,,NNjiiijjifGbjLx上面的方程(4)可以改写为:HT(5)111H(a,,a,,,,x,,x)NNLbb111111a,,a,,a,,a,,NNLNNLLNGbGbGbGbxxxx1TTNNm1TTLLmtTt其中,iijxjH为神经网络的隐层输出矩阵;H的第列就是相对于输入的第个隐层神经元输出向量,且H的第行就是相对于输入的隐层权值输出向量.12x,x,,xLaiibˆHTH单隐层前向神经网络(SLFNs)的隐层神经元参数和(输入权值和偏差,或中心和影响因子)不必在训练期间调整,而是简单设定为随机值,对网络的整体性能影响不大.这时方程(5)变为一个线性系统,输出权值的估计值为其中是隐层输出矩阵H的穆耳—潘洛斯(Moore-Penrose)一般逆.这里选用的是奇异分解方法,该方法能够在任何条件下生成矩阵H的Moore—Penrose一般逆.(6){(x,t)|xR,tR,=1,,L}nmjjjjjNaibi=1,,iNg()x给定一个训练样本集,激活函数和隐层神经元个数.步骤一:随机设定输入层和隐层连接权值或者中心隐层神经元偏差或者影响因子,的值.步骤二:计算隐层输出矩阵H.步骤三:计算出输出层权值.在理论上该算法对于任意无限可微的激活函数都是可用的,这些激活函数包括反曲函数及径向基函数,正弦函数,余弦单隐层前向神经网络算法总结:函数,指数函数和其他的非标准函数.单隐层前向神经网络算法总结:单隐层前向神经网络算法总结:单隐层前向神经网络算法总结:定义1泛化(Generalization)能力:训练后的神经网络对未在训练样本集中出现(但具有同一规律性)的样本作出正确反映的能力.定义2过拟合(Over-fitting):在神经网络训练过程中,由于训练样本中噪音的存在,过度的严格要求学习算法精确拟合每个样本,而导致网络被噪声误导,泛化能力降低,称为过拟合.2.神经网络算法的评价标准2.1泛化能力越好的神经网络,性能越好,一般情况下,网络结构越简单,网络的泛化能力越好.2.2一般用均方根误差(RootMeanSquareError,RMSE)和算术平均值误差(MeanArithmeticError,MAE)来衡量各个算法的学习精度,其定义形式分别为:其中n是所求均方根误差(算术平均值误差)的元素个数.2.3用训练网络结束后所需要的隐层神经元个数(No.ofNeurons)来衡量网络的复杂度.2.4用算法执行所需要的CPU时间(CPUTime(s))来衡量算法的计算速度.2.5归一化.在利用算法对单隐层前向神经网络进行训练之前,需要首先对原始的输入样本数据进行预处理,使之适合于神经网络的学习.常用的数据处理方式是归一化,所谓归一化就是将具有不同尺度属于不同区间的样本向量的各个分量量化到相同的区间.)(xxxxxminmaxaba在本文中,归一化处理的定义公式如下:式中的x为要归一化的原数字样本变量,minxx为原始数据样本中的最小值,maxxx为原始数据样本中的最大值,abx为归一化后分别为归一化后的最小值和最大值.和标准的归一化取:.0,1ab.3单隐层前向神经网络在线学习算法在线学习算法有以下几个显著的特点:1.所有的训练样本数据顺序(一个接一个)地进入到神经网络中.2.任何时刻,只有一个训练样本可见,并用于学习.3.进入网络的训练样本,训练结束后,即被丢弃.4.学习开始之前,没有先验知识,并不知道有多少个训练样本.3单隐层前向神经网络在线学习算法Platt在1991年提出的ResourceAllocatingNetwork(RAN).优缺点:RAN的学习算法可以根据输入数据的新颖性动态的增加网络的隐层神经元个数.但由于其参数调整采用LMS方法,故网络存在收敛速度慢的缺点.3单隐层前向神经网络在线学习算法Kadirkamanathan和Niranjan在1993年用EKF替代LMS训练网络参数,称为RANEKF算法.优缺点:提高了收敛速度,但同时也增加了网络的复杂性,增加了计算负担,训练结束后,所得到的网络结构并非最简,存在大量冗余神经元.3RAN学习算法简介算法思想:通过调整隐层神经元的数目来反应要模拟的原函数的复杂度.在Platt的RAN学习算法中,以训练样本的“新颖性”(Novelty)作为引入隐层神经元的标准,然后通过LMS算法进行参数的更新.3RAN学习算法简介设训练样本集为},,2,1),y,x{(NiDii.RAN学习算法启动时面对的是一个无隐层神经元的RBF网络,开始的两个输入样本数据)y,x(11及)y,x(22用于网络的初始化:10yw,21xc,1121yyew,2max1.其中10是比例系数,max为输入数据xi之间的最大距离.3RAN学习算法简介随后的每一个输入样本(x,y)ii,当它远离现存的基函数中心,并且其网络输出与实际输出之间存在较大的误差时,则认为这个样本是新颖的,此时给网络增加一个隐层神经元,其相应参数设置为:中心xic,权值iwe,径向基函数宽度id,id为xi与距离它最近的隐层中心的欧氏距离.3RAN学习算法简介如果输入样本没有达到新颖性的要求,则不增加隐层神经元,而是启动LMS算法对现存的网络参数(包括隐层神经元中心和网络权值)进行更新.3RAN学习算法简介第i个输入样本(x,y)ii如果满足以下两个条件,则认为是新颖的,其新颖性准则和LMS算法总结如下:iiieyˆy,(1)ikiKkicdxmin1,(2)其中ie为输出误差,为期望的逼近精度,id为xi与距离它最近的隐层中心的欧氏距离,},max{minmaxii,其中max和min分别为输入数据xi之间的最大和最小距离,01是一个衰减系数,随着输入数据xi的增加,i以指数速度减小,直到min.3RAN学习算法简介当输入样本(x,y)ii不满足新颖性要求时,中心点和权值的更新采用LMS梯度下降算法来进行.中心ikc(1)kK的计算公式为:11122(x)(x)iiiikkikkiikkcccew,(3)权值0iw,ikw(1)kK的计算公式为:100iiiwwe1(x)iikkikiwwe.(4)其中0是学习因子.3RAN学习算法简介RAN学习算法存在以下的问题与不足:1参数调整采用最小均方(LMS)方法,故网络存在收敛速度慢的缺点.2从算法的新颖性准则(4-1)可以看出,隐层神经元的增加对输入数据中的噪声和异常值非常敏感,从而导致网络的泛化能力很差.3RAN学习算法简介RAN学习算法存在以下的问题与不足:3网络学习算法只有引入新的隐层神经元的机制,而没有判断、删除不活跃甚至是错误引入的隐层神经元的机制.一个隐层神经元一旦被引入就无法再从RAN中删除.因为样本数据中噪声的存在,不可避免的可能引入受噪声污染较严重的样本数据点成为隐层神经元的中心.3RAN学习算法简介另外,在一些特殊的在线应用条件下,网络的建模对象原问题本身也可能随时间发生模型本身的细微变化,这时,网络当中部分原有隐层神经元就有可能变得不活跃.这些神经元一方面是多余的,增加了额外的计算负担;另一方面,更重要的是,使网络产生过拟合现象,降低了网络的泛化能力.4.1函数逼近问题4.2混沌时间序列预测问题4.2模式分类问题4.3医疗诊断问题4.神经网络应用汽车的耗油问题是根据各种不同模型汽车的行驶距离、汽车的马力、汽车的重量和汽车的加速度来预测它的燃油消耗量.试验的样本数据共有398个,这些样本数据的输入包括汽车的7个属性,分别是汽车引擎内的气缸个数、汽车的行驶距离、汽车的马力、车身的重量、汽车的加速度、汽车的车型年份、汽车的原产地.期望输出为汽车的燃油消耗量(英里/加仑).1.汽车燃油消耗量预测问题其样本属性的特性统计如下:属性属性描述属性举例汽车引擎内的气缸个数离散的多值变量5,3,6,4,8汽车的行驶距离连续变量汽车的马力连续变量车身的重量连续变量汽车的加速度连续变量汽车的车型年份离散的多值变量82,81,80,79,78,77,76,75,74,73,72,71,汽车的原产地离散的多值变量2,3,1汽车的燃油消耗量连续变量320个训练样本数据和78个测试样本数据是从398个样本数据中随机选取的(先从398个样本数据中随机的选取320个作为训练样本,其余的78个数据则作为测试样本).激活函数内插误差(训练误差)外推误差(测试误差)sigmoid0.12810.1139sine0.12190.1139hardlim0.09060.0633cubic0.10940.1013linear0.11880.0886RBF0.06560.0380不同激活函数条件下极端学习机算法关于Auto
本文标题:第9章 单隐层前向神经网络的学习算法研究
链接地址:https://www.777doc.com/doc-3152553 .html