您好,欢迎访问三七文档
1人工神经网络概述人工神经网络(ArtificialNeuralNetworks,ANNs)作为机器学习领域非常经典和实用的学习算法,在很多应用领域已经得到了广泛应用.1943年,W.S.McCulloch和W.Pitts开创性的提出了一种服从兴奋和抑制变化的M-P模型.1969年,M.Minsky等人在充分考虑已有的神经网络系统的优劣点之后,在撰写的《Perceptron》中指出了已有感知器在处理一些具体问题中的不足之处.J.J.Hopfield在其构建的网络模型中引入了“计算能量”概念,并且对构建网络进行了稳定性分析,极大地推进了神经计算的发展.如今,人工神经网络已经有自组织映射、反馈网络和Hopfield网络等近40种模型,每种网络模型都有着各自的特点.人工神经网络的研究已经得到许多学者的广泛关注,作为人工智能和机器学习的一个重要的组成部分,相应的网络结构和优化算法也日趋完善.人工神经网络是利用仿生学原理构建的用于信息处理的数学模型,能够很好的模拟大脑神经系统的信息传播机制.该网络模型是按照一定的规律由许多隐层节点(神经元)相互连接而成,通过神经元相互作用的动态过程来完成信息处理.每个节点处均设置有一个加和器和一个激活函数(ActivationFunction),相邻隐层之间的节点通过权值(连接权)连接.这种网络通过增加隐层数和每层神经元个数来提高网络复杂程度,并通过调整相应的连接权值来达到处理信息的目的.在大多数网络模型中,节点间的权值是借助特定的优化算法,通过迭代的方式来最终确定的.网络的迭代通常是在达到一定的训练精度或者一定的迭代次数上限时终止.于此同时,网络的连接权值也最终确定,该过程也可以认为是构造的人工神经网络的“记忆”过程.这样就达到了用网络参数学习的方法来模拟给定样本输入和输出之间的潜在规律的效果,然后利用已得到的网络对该类型的其它数据进行预测,也称之为网络的泛化过程.以下列举了神经网络的几个特征:(1)自适应和自组织能力:在网络参数的优化过程中,通过特定的算法来调节连接权,从而达到学习样本输入和输出之间潜在关系的目的,并利用训练得到的网络,对同类型的测试样本输出进行预测.(2)泛化能力:如果选取的训练样本分布比较均匀,并且数量足够.一般情况下,得到的网络就有很好的预测能力和泛化效果.(3)非线性映射能力:在其他的经典方法中,处理复杂问题(特别是已知信息量较少的情况下)时,效果欠佳.而神经网络中,特别是在选取适当的激活函数的情况下,可以再对未知的样本输入和输出之间潜在关系没有太多了解的情况下,达到很好的稳定的泛化效果.(4)高度并行性:该特点并未得到所有学者的肯定,但是人工神经网络是利用仿生学原理,从生物神经系统的信息传播机制抽象得到的数学模型.人在日常生活中可以同时去做许多事,从模拟的层面来讲,高度并行性也应该能够在人工神经网络的工作机制中得到体现.2ELM算法概述由于传统的人工神经网络中,网络的隐层节点参数是通过一定的迭代算法进行多次优化并最终确定的。这些迭代步骤往往会使参数的训练过程占用大量的时间,并且,例如BP算法很容易产生局部最优解,从而使网络训练过程的效率得不到保证。为增强构建网络的整体性能,2004年南洋理工大学黄广斌HuangG.B.副教授等人提出了ELM算法。极限学习机(ELMExtremeLearningMachine)是一种快速的的单隐层神经网络(SLFN)训练算法(见注释1示意图)。该算法的特点是在网络参数的确定过程中,隐层节点参数(见注释2)随机选取,在训练过程中无需调节,只需要设置隐含层神经元的个数,便可以获得唯一的最优解;而网络的外权(即输出权值)是通过最小化平方损失函数得到的最小二乘解(最终化归成求解一个矩阵的Moore-Penrose广义逆(见注释7)问题).这样网络参数的确定过程中无需任何迭代步骤,从而大大降低了网络参数的调节时间。与传统的训练方法相比,该方法具有学习速度快、泛化性能好等优点。(鲁棒极限学习机算法见注释3)该网络在近几年已经得到了广泛关注.(黄广斌其他描述,见注释4;5)以下介绍ELM算法的网络结构和工作原理.针对训练数据样本(x,t),具有L个隐层神经元的单隐层前向神经网络的输出函数表达式为:其中ai和bi为隐层节点参数,βi表示连接第j个隐层和网络输出之间的外权,G(ai,bi,x)表示第j个隐层对应于样本x的隐层节点输出.针对加法型的隐层节点,G(ai,bi,x)的表达式为其中g:R→R为激活函数,ai·x代表内权向量ai和样本x在Rn中的内积.针对RBF(径向基函数神经网络)型的隐层节点,G(ai,bi,x)的表达式为其中g:R→R为激活函数.ai和bi(bi0)分别表示第i个径向基函数(RBF)节点的中心和影响因子.考虑N个互异的数据样本{(xi,ti)}Ni=1⊂Rn×Rm,如果以个具有L个隐层神经元的单隐层神经网络可以以零误差逼近这N个互异的数据样本,也就是说,存在ai,bi和βi,i=1,···,L,使得公式(1.4)可以简记为其中和H叫做隐层输出矩阵,相应的第i列表示第i隐层元对应于输入x1,x2,···,xN的输出量,第j行表示所有的隐层元对应于输入xj的输出量.然而,在多数情况下,由于隐层节点个数远小于互异的训练样本个数(L≪N).从而使得构建的具有L个隐层神经元的单隐层神经网络以零误差逼近这N个互异的数据样本难以实现,对应于训练样本的网络输出和实际输出之间的误差也随之产生.在这种情况下,公式(1.5)可以改写为其中定义平方损失函数公式(1.7)可以写成如下表达式:则网络参数的训练问题转化为最小化平方损失函数的问题,也就是说,寻找最小二乘解βˆ,使得其中||·||表示2范数(见注释6).在隐层输出为列满秩的情况下,利用Moore-penrose广义逆(见注释7)可以得到其中而当隐层输出矩阵非列满秩的情况,最优外权β可以利用奇异值分解(SVD)(见注释8)的方法得到.在ELM算法的参数训练过程中,隐层节点参数随机确定(在实际应用中,由于实验样本要经过标准化处理,隐层节点参数值往往在区间[−1,1]内随机选取),使得网络的训练过程相当的简便。该网络的学习过程大致如下ELM算法:Input:给定训练样本集{(xi,ti)}Ni=1⊂Rn×Rm,隐层输出函数G(a,b,x),和隐层节点个数L.a)随机生成隐层节点参数(ai,bi),i=1,···,L;b)计算隐层输出矩阵H(确保H列满秩);c)Output:网络最优外权β:β=H†T.其中,加法型隐层节点的单隐层神经网络的激活函数可以选作任意有界非常数分段连续函数;而对于RBF型隐层节点的单隐层神经网络,激活函数可以选作任意分段连续可积函数.目前,ELM的研究大致分为以下几个方向:(1)随机生成参数的优化:由于隐层节点参数随机选取,而导致隐层不具有调节能力,因此有许多隐层元在构建的单隐层网络中不具有或者仅有很少的作用.因此,不影响已生成的ELM算法学习能力和预测能力的情况下,对其隐层进行优化显得尤为重要.RongH.J.等在2008年提出了P-ELM,针对分类问题的ELM算法,利用统计学原理,裁剪对网络分类效果影响较弱的隐层来实现网络结构的优化.HuangG.B.和LanY.等在2010年提出CS-ELM和TS-ELM,用不同的方法对随机生成的隐层节点参数进行筛选,淘汰显著性较弱的隐层,来实现对已得ELM算法的优化.2011年,WangY.G.,CaoF.L.和YuanY.B.提出了对角占优的方法(EELM)来优化隐层节点参数,从而保证了隐层输出矩阵的非奇异性,所求得的最优外权的稳定性得到了充分保证,提高了ELM算法的稳定程度.(2)最优外权的求解:由于ELM的外权求解过程中要用到求解隐层输出矩阵的Moore-Penrose广义逆,而隐层矩阵奇异和接近奇异的情况不能得到有效的避免,为提高所构建ELM算法的学习能力,避免噪音带来的广义扰动所产生的偏差,TohK.A.等均借助添加正则项的方法优化了最优外权的选取.(3)最优隐层节点个数的选取:针对ELM算法需要较多的隐层节点个数来弥补隐层节点参数随机选取带来的缺陷这一问题,HuangG.B.等在2006年和2008年先后提出了I-ELM和EI-ELM来优化随机选取的隐层节点参数,从而大为简化了ELM算法的复杂程度,提高了其优化效率.然而由上述算法过程可知,最终确定的外权并不能保证是相应单隐层的最优外权.针对该问题,HuangG.B.等在2009年提出EM-ELM,实现了在增加隐层元的过程中,求得相应单隐层的最优外权,同时又避免了对上一级隐层输出矩阵的重复计算.(4)ELM核函数:在原始的ELM算法中,HuangG.B.等在2004年提出了训练对应于常加法型隐层节点网络以及径向基型隐层节点的单隐层网络的ELM算法.结合支持向量机的学习原理,HuangG.B.等又在2010提出了ELMKernel,利用该方法所构建的ELM算法较LiuQ.和FrénayB.所提出的ExtremeSVMs有着更少的约束条件和更好的学习能力.(5)在线ELM算法:在很多情况下,数据的采集往往是一个在线过程,也就是说,所有的样本数据不能一次性的得到,而是每隔一定的时间得到一批数据.由于样本不能同时得到,这样就使得数据的训练过程变得非常复杂.针对这一情况,LiangN.Y.和HuangG.B.提出了处理在线数据的OS-ELM,该方法有效地将新旧样本的训练衔接在一起,同时避免了对已有数据的多次重复训练.注释:1、从神经网络的结构上来看,ELM是一个简单的SLFN(单隐藏层前馈神经网络),SLFN示意图如下:该SLFN包括三层:输入层、隐含层和输出层(忽略输入层则为两层)。其中隐含层包括L个隐含神经元,一般情况下L远小于N,输出层的输出为m维的向量,对于二分类问题,显然该向量是一维的。典型的多层前馈神经网络模型2、内权和偏置值内权:输入层与隐含层间的连接权值;偏置值:隐含层神经元的阈值。3、ELM的输出权值是由最小二乘法(leastsquare,LS)计算得出,然而经典的LS估计的抗差能力较差,容易夸大离群点和噪声的影响,从而造成训练出的参数模型不准确甚至得到完全错误的结果。为了解决此问题,提出一种基于M估计的采用加权最小二乘方法来取代最小二乘法计算输出权值的鲁棒极限学习机算法(RBELM),通过对多个数据集进行回归和分类分析实验,结果表明,该方法能够有效降低异常值的影响,具有良好的抗差能力。4、SVM到ELM在Huang的survey中描述了一种思想,该思想把SVM也看成了神经网络,该思想把神经网络的输入层到最后一层隐含层的部分或者SVM核函数映射的部分都看成了从输入空间到一个新的空间的转换,然后,BP会将误差反向传播更新权值使得误差最小化,而SVM则力求找到最大分界间隔的分界面,将新空间映射到输出空间,从这个角度来看,SVM确实可以看成是一种神经网络。ELM最初算法就如上所述,从2004年至今,后来的学者对其进行了很多改进,主要包括对输入层和隐含层权值随即确定权值的优化、求解隐含层和输出层权值的优化(使得ELM更适应于噪声数据集)、核函数ELM以及加入了正则化项的损失函数(求解结构风险而不再是经验风险)、ELM和其他方法相结合等。ELM为神经网络的结构设计提供了一个新的思路,使我们更好地理解神经网络,但是还有很多问题需要解决,比如隐含层节点个数的确定,正则化项的选择等等。作为一个性能很好的机器,我们也可以将其应用到诸多交叉学科的应用中。5、接下来的若干年,黄教授带领的团队在此基础上又做了更多的发展,例如,将ELM推广到复数域,提出基于ELM的在线时序算法等等。ELM算法最为突出的的优点就是,它的速度非常的快。它能够在几秒或者不到儿秒的时间内完成对样本的训练,而传统的算法,tinBP算法,对一个前馈网络的训练往往会花很长的时间,即使是一个简单的样本。同时,在保持高速的条件下,在许多情况下该算法的结果往往比传统的基于梯度的算法表现要好得多。而且,经典的基于梯
本文标题:ELM概述
链接地址:https://www.777doc.com/doc-5082428 .html