您好,欢迎访问三七文档
当前位置:首页 > 商业/管理/HR > 营销创新 > 第三讲人工神经网络报告
模式识别(PatternRecognition)潘志松第三讲人工神经网络潘志松1997年5月11日深蓝战胜卡斯帕罗夫许峰雄博士:“深蓝之父”、微软亚洲研究院的高级研究员,绰号:CB——“疯狂的鸟”。他在1980年毕业于台湾大学,1989获得卡耐基梅隆大学计算机博士学位。他和同伴在1997年研制出大型计算机“深蓝”,拉开电脑与人脑的“世纪之战”,以“深蓝”战胜国际象棋世界冠军卡斯帕罗夫而告终,轰动全世界。2003年春,许峰雄加盟微软亚洲研究院。人工神经网络(ArtificialNeuralNetworks)•概述•ANN的历史•感知器•感知器法则•Delta法则•BP网络(TheBackpropagationAlgorithm)•小结概述T.Koholen的定义:“人工神经网络是由具有适应性的简单单元组成的广泛并行互连的网络,它的组织能够模拟生物神经系统对真实世界物体所作出的交互反应。”和冯·诺依曼型计算机的区别I(1)根据该问题的特点,建立合适的数学模型。(2)根据所建立的数学模型,生成适合于输入计算机的程序和数据。(3)控制器根据计算步骤的顺序,依次按存贮器地址读出一个计算步骤,然后根据读出指令的规定,控制运算器对相应数据执行规定的运算操作。(4)运算完成后控制器把所得的中间结果记录到存贮器某个确定位置存贮好。(5)控制器再取下一个计算步骡,然后重复上述的执行过程。一直到整个运算完成后,控制器就命令输出器把存贮器中存放的最终结果用打印、显示或绘图等方式输出。和冯·诺依曼型计算机的区别II按照已经编制好的程序步骤来运行,没有主动学习的能力和自适应能力。处理信息方式是集中的、串行的。存贮器的位置(即地址)和其中存贮的具体内容无关。因此,总是先找它所在存贮器的地址,然后再查出所存贮的内容。所以一方面在数值计算或逻辑运算这类顺序性(串行性)信息处理中,表现出远非人所能及的速度;另一方面,在涉及人类日常的信息活动,例如识别图形、听懂语言等,却….和冯·诺依曼型计算机的区别III神经网络对计算机科学和符号处理的一些难题可以得到比较令人满意的解答:特别是对那些并行搜索、自组织联想记忆问题神经网络学习对于逼近实数值、离散值或向量值的目标函数提供了一种健壮性很强的方法对于某些类型的问题,如学习解释复杂的现实世界中的传感器数据,人工神经网络是目前知道的最有效的学习方法之一.成功的例子:手写识别、语音识别、人脸识别等。研究ANN内容和方法研究方法(1)生理结构的模拟:(2)宏观功能的模拟:研究内容:(1)理论研究:(2)实现技术的研究:(3)应用的研究人脑的神经元1•生物神经元之间的相互连接从而让信息传递的部位称为突触•神经冲动传递借助于化学介质的作用神经细胞是构成神经系统的基本单元,称之为生物神经元,简称神经元。神经元主要由三部分构成:(1)细胞体;(2)轴突;(3)树突;信息输入生物神经元——信息处理生物神经元——信息处理信息传播与处理生物神经元——信息处理信息传播与处理(整合)生物神经元——信息处理信息传播与处理结果:兴奋与抑制生物神经元——信息处理信息输出人脑的神经元2神经元转换的速度:10-3secs人脑神经元的数目:~1010每个神经元连接的数目:~104–105人脸识别的速度:0.1secs依靠高度的并行计算分布式的表示方式生物学动机ANN的一个动机就是获得这种基于分布表示的高度并行算法ANN并未模拟生物神经系统中的很多复杂特征ANN的研究分为两个团体使用ANN研究和模拟生物学习过程获得高效的机器学习算法,不管这种算法是否反映了生物过程本书属于后一个研究团体例子ALVINN系统ANN的输入是一个30x32像素的网格每个输出单元对应一个特定的驾驶方向,这些单元的输出决定哪一个方向是被最强烈推荐的人工神经网络(ArtificialNeuralNetworks)•概述•ANN的历史•感知器•感知器法则•Delta法则•BP网络(TheBackpropagationAlgorithm)•小结神经网络发展历史上世纪40年代兴奋与抑制型神经元模型(Mcculloch,Pitts)神经元连接强度的修改规则(Hebb)上世纪50年代、60年代感知机(Rosenblatt)和自适应性元件(Widrow)上世纪70年代Perceptron一书出版(Minsky和Papert)研究处于低潮。上世纪80年代后Rumelhart,Mcclelland以及Hopfield等取得突破性进展上世纪90年代开始功能柱和神经场模型的提出人工神经网络(ArtificialNeuralNetworks)•概述•ANN的历史•感知器•感知器法则•Delta法则•BP网络(TheBackpropagationAlgorithm)•小结神经网络的基本单元-感知器图人工神经网络的组成图M-P神经元模型)xw(fy1n0iii神经网络的基本单元-感知器激发函数一般具有非线性特性,常用的非线性激发函数如图1n0iiixw=这里,称为激活值(a)阈值型(b)分段线性型(c)Sigmoid函数型(d)双曲正切型图常用的激发函数神经网络的基本单元-感知器阈值型函数又称阶跃函数,它表示激活值σ和其输出f(σ)之间的关系。阈值型函数为激发函数的神经元是一种最简单的人工神经元,也就是我们前面提到的M-P模型。线性分段函数可以看作是一种最简单的非线性函数,它的特点是将函数的值域限制在一定的范围内,其输入、输出之间在一定范围内满足线性关系,一直延续到输出为最大域值为止。但当达到最大值后,输出就不再增大。S型函数是一个有最大输出值的非线性函数,其输出值是在某个范围内连续取值的。以它为激发函数的神经元也具有饱和特性。双曲正切型函数实际只是一种特殊的S型函数,其饱和值是-1和1。x1x2xn...w1w2wnw0x0=-1i=0nwixi1ifi=0nwixi0o(xi)=-1otherwiseo{感知器(Perceptron)其中每个wi是一个实数常量,或叫做权值,用来决定输入xi对感知器输出的贡献率。特别地,w0是阈值。ANN的假设空间学习一个感知器意味着选择权w0,…,wn的值。所以感知器学习要考虑的候选假设空间H就是所有可能的实数值权向量的集合}|{1nRwwH线性可分感知器在n维空间中形成了一个超平面,作为决策面,一侧的值为1,另一侧为-1。12211Txwxwx2x1211212wTxwwx不能区分不能学习非线性可分的情况x2x1+101–+–FunctionsforPerceptrons感知器可以学习很多布尔函数:AND,OR,NAND,NOR,butnotXORAND:x1x2X0=-1W0=0.8W1=0.5W2=0.5ΣXOR如果“异或”(XOR)问题能用单层感知器解决,则由XOR的真值表9-1可知,ω1、ω2和θ必须满足如下方程组:ω1+ω2-θ<0ω1+0-θ≥00+0-θ<00+ω2-θ≥0显然,该方程组是无解,这就说明单层感知器是无法解决异或问题的。感知器训练法则1单个感知器的学习任务:决定一个权向量,它可以使感知器对于给定的训练样例输出正确的1或-1主要考虑两种算法感知器法则delta法则这两种算法保证收敛到可接受的假设这两种算法提供了学习多个单元构成的网络的基础感知器训练法则2-I更新权值:这里η是学习率(learningrate)t是单元的目标输出.理解:如果输出正确,什么也不做。如果输出高了,在活动的单元上降低权值。如果输出低了,在活动的单元上提高权值。iiixotww)(感知器训练法则2-II可以把感知器看作是n维实例空间(即点空间)中的超平面决策面对于超平面一侧的实例,感知器输出1,对于另一侧的实例,输出-1这个决策超平面方程是可以被某个超平面分割的样例集合,称为线性可分样例集合0xw感知器法则:一个例子t=1t=-1o=1o=-1感知器法则3为什么这个更新法则会成功收敛到正确的权值呢?刚才的理解可以证明(Minskey&Papert1969)如果训练样本例线性可分,并且使用了充分小的否则,不能保证,如何解决呢?Delta法则梯度下降和delta法则(1)delta法则克服感知器法则的不足,在线性不可分的训练样本上,收敛到目标概念的最佳近似delta法则的关键思想是,使用梯度下降来搜索可能的权向量的假设空间,以找到最佳拟合训练样例的权向量delta法则为反向传播算法提供了基础,而反向传播算法能够学习多个单元的互连网络梯度下降和delta法则(2)把delta训练法则理解为训练一个无阈值的感知器指定一个度量标准来衡量假设相对于训练样例的训练误差xwxo)(DdddotwE2)(21)(可视化假设空间梯度:E[w]=[E/w0,…E/wn](w1,w2)(w1+w1,w2+w2)w=-E[w]wi=-E/wiE/wi=1/2d(td-od)2/wi=1/2d(td-iwixi)2/wi=d(td-od)(-xi)•梯度下降搜索从一个任意的初始权向量开始,然后沿误差曲面最陡峭下降的方向,以很小的步伐反复修改这个向量,直到得到全局的最小误差点梯度下降法则(1)表4-1,训练线性单元的梯度下降算法Gradient-Descent(training_examples,)training_examples中每个训练样例形式为序偶x,t,x是输入值向量,t是目标输出值,是学习速率初始化每个wi为某个小的随机值遇到终止条件之前,做以下操作初始化每个wi为0对于训练样例training_examples中的每个x,t,做把实例x输入到此单元,计算输出o对于线性单元的每个权增量wi,做wiwi+(t-o)xi对于线性单元的每个权wi,做wiwi+wi梯度下降法则(2)因为误差曲面仅包含一个全局的最小值,所以无论训练样例是否线性可分,算法都会收敛到具有最小误差的权向量,条件是使用足够小的学习速率算法的一种常用改进方法是随着梯度下降步数的增加逐渐减小学习速率梯度下降的随机近似(1)梯度下降是一种重要的通用学习范型,它是搜索庞大假设空间或无限假设空间一种策略梯度下降应用于满足以下条件的任何情况:假设空间包含连续参数化的假设(hypothesis)误差对于这些假设参数可微梯度下降的主要实践问题:有时收敛过程可能非常慢如果在误差曲面上有多个局部极小值,那么不能保证找到全局最小值梯度下降的随机近似(2)随机梯度下降(或称增量梯度下降)根据某个单独样例的误差增量计算权值更新,得到近似的梯度下降搜索(随机取一个样例)对表4-1算法的修改可以看作为每个单独的训练样例定义不同的误差函数在迭代所有训练样例时,这些权值更新的序列给出了对于原来误差函数的梯度下降的一个合理近似通过使下降速率的值足够小,可以使随机梯度下降以任意程度接近于真实梯度下降感知器学习小结感知器法则和delta法则的关键差异前者根据阈值化的感知器输出的误差更新权值后者根据输入的非阈值化线性组合的误差来更新权值这个差异带来不同的收敛特性前者经过有限次的迭代收敛到一个能理想分类训练数据的假设,条件是训练样例线性可分后者可能经过极长的时间,渐近收敛到最小误差假设,但无论训练样例是否线性可分都会收敛更大的问题是,感知器法则无法扩展到训练多层网络,而delta法则可以很容易扩展到多层网络人工神经网络(ArtificialNeuralNetworks)•概述•ANN的历史•感知器•感知器法则•Delta法则•BP网络(TheBackpropagationAlgorithm)•小结多层网络和反向传播算法(1)多层网络能够表示种类繁多的非线性曲面描述了一个典型的多层网络和它的决策曲面多
本文标题:第三讲人工神经网络报告
链接地址:https://www.777doc.com/doc-4065684 .html