您好,欢迎访问三七文档
当前位置:首页 > 商业/管理/HR > 管理学资料 > 数据挖掘与应用(八).
1第八讲神经网络(1)2生物神经元3人工神经元v1,…,vs为输入“树突”的各信号;它们按照连接权w1j,…,wsj,通过神经元内的组合函数∑j(·)组合成uj;uj再通过神经元内的激活函数Aj(·)得到输出zj,沿“轴突”传送给其他神经元。4人工神经网络最常用的神经网络是如图所示的多层感知器。5人工神经网络各个自变量通过输入层的神经元输入到网络;输入层的各个神经元和第一层隐藏层的各个神经元连接;每一层隐藏层的各个神经元和下一层(可能是隐藏层或输出层)的各个神经元相连接;输入的自变量通过各个隐藏层的神经元进行转换后,在输出层形成输出值作为对因变量的预测值。6神经网络可以对一个或多个因变量进行预测。神经网络的因变量例如,如果因变量是有K种取值(K2)的分类变量,通常在输出层使用K-1个神经元;再如,因变量可以是多个相关联的连续变量,甚至是不同类型的变量。7单个神经元的组合函数单个神经元常用的组合函数为线性组合函数:其中bj是神经元j的偏差项。也可以假设对同一层的J个神经元而言,对vr的连接权wrj的值都一样,而只有偏差项bj不一样(j=1,…,J)。8单个神经元的激活函数单个神经元最常用的激活函数是S型函数,它们能将组合函数产生的可能无限的值通过连续单调的非线性转换变成有限的输出值,这也是试图模拟生物神经元的结果。9激活函数常用的S型函数列举如下:Logistic函数:10激活函数Tanh函数:Elliott函数:Arctan函数:11激活函数各S型激活函数的输出范围不一样:Logistic函数的输出范围在0到1之间;其他三个函数的输出范围在-1到1之间。各S型激活函数输入变量的有效范围也不一样。当u的值偏离0时:Tanh函数很快就达到边界值;Logistic函数相对而言更慢达到边界值;Elliott和Arctan函数变化则更加缓慢。12激活函数还有一些激活函数将可能无限的输入值通过连续但不单调的非线性转换变成有限的输出值:高斯函数:补高斯函数:高斯函数和补高斯函数都是关于u=0对称的,高斯函数在u=0处达到最大值,而补高斯函数在u=0处达到最小值。13激活函数正弦和余弦函数关于u都是周期性的。正弦函数:余弦函数:14激活函数其它一些激活函数有:指数函数:Softmax函数:对同一层的J个神经元而言,对j=1,…,J,Softmax函数保证了同一层的J个神经元的输出值加和为1。15激活函数恒等函数:倒数函数:平方函数:16神经网络模型(一)—多层感知器多层感知器通常在隐藏层使用线性组合函数和S型激活函数,在输出层使用线性组合函数和与因变量相适应的激活函数。多层感知器可以形成很复杂的非线性模型。17神经网络模型(一)—多层感知器例如,在上图中,如果隐藏层使用线性组合函数和Logistic激活函数,那么两个隐藏神经元的输出为:18神经网络模型(一)—多层感知器如果输出层使用线性组合函数和指数激活函数,那么整个网络的输出为:19神经网络模型(一)—多层感知器多层感知器是一种通用的近似器(UniversalApproximator),只要给予足够的数据、隐藏神经元和训练时间,含一个隐藏层的多层感知器就能够以任意精确度近似自变量和因变量之间几乎任何形式的函数。更多的隐藏层可能减少隐藏神经元和参数的数目,提高模型的可推广性。20神经网络模型(二)—径向基函数网络径向基函数网络(RadioBasisNetworkFunction,简称RBNF)是另一种常用的神经网络。它通常只含有一层隐藏层,其中各隐藏神经元使用径向组合函数:其中,(W1j,…,Wsj)是第j个隐藏神经元的中心;αj和τj是高度和精度参数,也可以假设对各隐藏神经元而言,αj或τj的取值都一样。21神经网络模型(二)—径向基函数网络各隐藏单元的激活函数为指数函数或Softmax函数。若使用指数函数,隐藏神经元j的输出值为:这正比于一个多元正态分布的概率密度函数;若使用Softmax函数,这些输出值在隐藏层进行了正则化,使得各隐藏神经元的输出值加和为1。径向基函数网络的输出层通常采用线性组合函数和与因变量相适应的激活函数。22神经网络模型(二)—径向基函数网络径向基函数网络也可以形成很复杂的非线性模型,它近似函数的功能和多层感知器类似。例如,在上图中,如果隐藏层使用径向组合函数和Softmax激活函数,那么两个隐藏神经元的输出为:23神经网络模型(二)—径向基函数网络如果输出层使用线性激活函数和指数激活函数,那么整个网络的输出为:24神经网络模型(二)—径向基函数网络隐藏层使用指数激活函数的径向基函数网络被称为普通径向基数网络(OrdinaryRBNF,简称ORBNF),其中各隐藏神经元应不使用高度参数αj,否则它们与隐藏神经元到输出单元的连接权形成冗余参数。25神经网络模型(二)—径向基函数网络举例而言,如果前图中的隐藏单元的激活函数为带高度参数的指数函数,那么两个隐藏神经元的输出为:26整个网络的输出为:神经网络模型(二)—径向基函数网络很明显,我们只能估计β1α1(或β2α2)而根本无法单独估计β1和α1(或β2和α2),于是它们形成冗余。27隐藏层使用Softmax函数的径向基函数网络称为正则化径向基函数网络(NormalizedRBNF,简称NRBNF),这时可使用高度参数αj。神经网络模型(二)—径向基函数网络28神经网络模型的优点优点1:神经网络模型的结构具有很大的灵活性。每一层的各个神经单元并非一定要全部连接到下一层的各个神经单元,可以去掉一些连接;输入神经元也并非一定要连接到隐藏神经元再连接到输出神经元,而可以跳过隐藏层直接连接到输出神经元。优点2:神经网络模型能够很好地近似自变量与因变量之间的任意函数关系。29神经网络模型的缺点因为自变量与因变量之间的关系是复杂而非线性的,神经网络模型的一大缺点是很难进行解释。30神经网络模型与广义线性模型一些典型的神经网络模型可以看作是广义线性模型的推广。令μ表示因变量Y分布的位置参数。广义线性模型:系统成分使用连接函数η=g(μ)。再令η=α+xTβ。神经网络模型:如果在输出层使用线性组合函数,可令η’为组合之后的值:其中h为隐藏层各神经元的输出值组成的向量。31神经网络模型与广义线性模型神经网络模型相当于与广义线性模型使用了同样的连接函数,但却用x的函数的线性组合替代了广义线性模型中x的线性组合(注意到向量h所含的每一个隐藏神经元的输出值都是输入x的函数)。设输出层的激活函数为A,并令神经网络的输出值为μ=A(η’)。如果让A等于g的逆函数,那么:η’=A-1(μ)=g(μ)=η。3232误差函数设数据集为{(xi,yi),i=1,…,N},μi为与观测i对应的μ值。根据μi与yi的差异可定义误差函数,误差函数越小,模型拟合效果越好。一种常用的误差函数是对数似然函数的负值;当Y的分布属于指数族分布时,还可使用偏差来定义误差函数。下面根据因变量的不同取值类型讨论神经网络模型输出层的误差函数,具体可参照广义线性模型一节内容。3333情形一:因变量为二值变量与逻辑回归相对应:不失一般性,设因变量Y的取值为0或1。神经网络的输出μ代表Y取值为1的概率。Y满足参数为μ的伯努力分布,没有刻度参数。输出层的激活函数采用Logistic函数,也就是逻辑连接函数逆函数:343434情形二:因变量为名义变量与多项逻辑回归相对应:令μ(l)表示Y取值为l的概率l=(1,…,K),它们满足μ(l)+…+μ(K)=1。对l=1,…,K,令:因变量Y的取值为1,…,K,各取值之间是无序的。那么(Y(l),…,Y(K))满足参数为(1,μ(l),…,μ(K))的多项分布,没有刻度参数。神经网络的输出层含K-1个输出单元,激活函数采用恒等函数。网络输出值ηl’(l=1,…,K-1)表示:35353535情形三:因变量为定序变量与定序逻辑回归相对应:因变量Y的取值为1,…,K,但各取值之间是有序的。神经网络的输出层含K-1个输出单元,输出值η(l)表示Y取值小于或等于l的概率(l=1,…,K-1),它们满足0≤μ(1)≤μ(2)≤…≤μ(K-1)≤μ(K)=1。对l=1,…,K,令:那么(Y(1),…,Y(K))满足参数为(1,μ(1),μ(2)-μ(1),…,1-μ(K-1))的多项分布,没有刻度参数。36情形三:因变量为定序变量输出层的组合函数为斜率相等的线性组合函数:输出层的激活函数采用Logistic函数,也就是逻辑连接函数的逆函数:37情形四:因变量为计数变量与泊松回归相对应:因变量Y的取值为1,2,…,代表某事件发生的次数。神经网络的输出μ代表Y的均值。设Y满足泊松分布,没有刻度参数。输出层的激活函数采用指数函数,也就是对数连接函数的逆函数:38情形五:因变量为非负连续变量因变量Y的取值连续非负(例如,收入、销售额)。类似于广义线性模型的各种情况,Y的分布可能是泊松、伽马或正态分布。神经网络的输出μ代表Y的均值。输出层的激活函数采用指数函数,也就是对数连接函数的逆函数:39情形六:因变量为取值可正可负的连续变量输出层的输出值μ都代表Y的分布的位置参数,激活函数都采用恒等函数,但对Y的分布可有多种假设(不限于广义线性模型中所使用的指数族分布假设)。可假设Y满足正态分布,即Y~N(μ,σ2);等价地,满足标准正态分布。YW40情形六:因变量为取值可正可负的连续变量可假设满足标准柯西分布。因为柯西分布不属于指数族分布,误差函数只能采用对数似然函数的负值,而不能采用偏差。对数似然函数的负值为:YW可假设满足标准logistic分布。因为logistic分布不属于指数族分布,误差函数只能采用对数似然函数的负值,而不能采用偏差。对数似然函数的负值为:YW41情形六:因变量为取值可正可负的连续变量标准正态分布、标准柯西分布和标准logistic分布都关于零点对称,但是峰值和尾部特性都不一样。相比正态分布而言,因为柯西分布或logistic分布为厚尾分布,它们对异常值更加稳健。
本文标题:数据挖掘与应用(八).
链接地址:https://www.777doc.com/doc-2333400 .html