您好,欢迎访问三七文档
当前位置:首页 > 商业/管理/HR > 公司方案 > Clementine-第六讲
人工神经网络主要内容人工神经网络概述B-P反向传播网络径向基函数网络Kohonen网络人工神经网络概述起源于生物神经元的研究,研究对象是人脑高度复杂的非线性并行处理系统,具有联想推理和判断决策的能力拥有1011个相互连接的生物神经元人工神经网络概述婴儿出生后大脑不断发育,外界刺激信号会不断调整或加强神经元之间的连接及强度,最终形成成熟稳定的连接结构人工神经网络概述人工神经网络(ArtificialNeuralNetwork,ANN)是一种模拟人脑思维的计算机建模方式人工神经网络的研究已达半个多世纪随着计算机的发展,希望通过计算机实现对人脑系统的模拟。通过类似于生物神经元的处理单元,以及处理单元之间的有机连接,解决现实世界的模式识别、联想记忆、优化计算等目的:抽取样本数据中蕴含的规律,并体现在恰当的网络结构和处理单元间的连接权值中。实现分类预测和聚类分析人工神经网络:概念基本概念:处理单元(ProcessingElement)处理单元(模拟神经元)组成,将ANN看作为一张图,处理单元也称为节点(Node)边:节点之间的连接,反映了各节点之间的关联性边权值:体现节点关联性的强弱人工神经网络的种类繁多,可以从拓扑结构和连接方式等角度划分人工神经网络:种类拓扑结构角度划分二层网络输入节点:接收输入变量值。个数取决于输入变量的个数输出节点:给出预测结果,个数依问题而定Clementine中,Flag型变量1个输出节点,1/0分别表示两类;Set型,多个输出节点,1/0的二进制数表示各类;数值型变量1个输出节点人工神经网络:种类拓扑结构角度划分多层网络隐节点负责实现非线性样本的线性变换,层数和节点个数可自行指定,反映模型的复杂度人工神经网络:种类从连接方式角度划分:层间连接、层内连接层间连接方式前馈式神经网络:连接是单向的,上层节点的输出是下层节点的输入反馈式神经网络:除单向连接外,输出节点的输出又作为输入节点的输入层内连接方式层内无连接层内有连接:同层节点之间相互连接人工神经网络:节点完整的节点由加法器和激活函数(activationfunction)组成人工神经网络:节点加法器:对自身输入的线性组合激活函数:jniiijjXWU1)(jjUfY)0(0)0(1)(jjjUUUf)0(1)0(1)(jjjUUUfjUjeUf11)(jjUUjeeUf11)(人工神经网络:节点设节点1,2,3的偏差均为0,激活函数为(0,1)型Sigmoid函数节点中的加法器:是一个分类超平面第j个超平面的一般式表示为:节点中激活函数:决定超平面两侧的类别值例:若采用阶跃函数计算被预测样本的加法器值。大于0为1类,小于等于0为0(或-1)类分类中,节点的作用是将两类线性分开injjjjjniiijjXWXWXWXXWU...221101x0=1人工神经网络:节点(分类)0...0)...(22110022110injjjjinjjjjjXWXWXWXWXWXWXWXU人工神经网络:节点(分类)如何定位一个超平面?加法器的参数(网络权值)定位超平面的位置分类中的目标:超平面上方的所有样本点应实际为一类,下方的所有点应实际为另一类,起到有效分类的作用目标:找到分类目标下的最恰当的网络权值不断向训练样本学习,通过不断调整网络权值,使超平面不断向正确的位置移动,最终定位到期望的位置上人工神经网络:节点(回归)节点中的加法器是一个回归平面第j个回归平面表示为:节点中激活函数:一般采用sigmoid函数决定输入和输出的非线性对应关系,给出的是输入关于输出的非线性回归预测值injjjjjniiijjXWXWXWXXWU...221101)...(2211011injjjjXWXWXWXjey目标:找到回归目标下的最佳网络权值人工神经网络建立的步骤基本步骤第一,数据准备第二,网络结构的确定第三,确定网络权值人工神经网络建立的步骤数据准备数值型变量的标准化处理[0,1],极差法分类型变量采用哑变量,对应输入节点克服哑变量使输入节点过多的问题:对类别的二进制编码)1(log2kn例:有4、5、6、7个类别的分类变量只需3个变量即可人工神经网络建立的步骤网络结构的确定隐层层数和各隐层中隐结点的个数决定复杂度网络结构不一定在模型建立之前就完全确定经验值法动态调整法人工神经网络建立的步骤网络权值的确定步骤第一,初始化网络权值:[-0.5,0.5]第二,计算各节点加法器和激活函数,得到分类预测值第三,比较预测值与实际值,根据误差值重新调整各网络权值第四,回第二步,直到预测误差小于指定ε,或达到指定迭代次数,或达到指定的运行时间,或参数的最大变化值小于指定感知机感知机:前馈式、两层层间连接结构•每个样本都提供输入输出数量关系的信息,依次向每个样本学习,并根据误差调整网络权值•可能需要学习多个周期感知机的参数优化过程第一,0时刻,初始化各个网络权值和输出结点的偏差第二,输入训练样本,t时刻:X=(X1(t),X2(t),…Xn(t))第三,计算输出结点的预测值,t时刻分类时,一般采用[0,1]阶跃函数回归时,一般采用(0,1)Sigmoid函数)0(},1,1)0({)0(jijkjniWW))()()(()(1'ttXtWftYjnjiij感知机的参数优化过程第四,计算期望值与预测值的误差,t时刻:分类中:错判为0结果为1,错判为1结果为-1回归中:实际值大于预测值,误差为正;实际值小于预测值,误差为负kjtYtYtej1)()()('感知机的参数优化过程第五,调整第i个输入结点和第j个输出结点之间的网络权值和偏差预测正确,权值不调整;预测错误,调整权值分类中:错判为0,Uj偏小,W向大调;错判为1,Uj偏大,W向小调。超平面向实际点方向移动回归中:误差为正,W向大调;误差为负,W向小调。回归平面向实际点方向移动)()()1()()()()1(tetttXtetWtWjjjijijij冲量学习率感知机的参数优化过程权值的调整采用delta规则参数的调整与输入和误差呈正比误差决定参数的调整方向,它和输入以及学习率共同决定调整幅度网络初始权值在一个小的范围内:确保各节点学习的同步性)()()1(tWtWtWijijij)()()(tXtetWijij设为1,为0.1,为0,激活函数f=U)()()(tXtetWijij•第六,判断是否满足迭代终止条件。如果没有满足,则重新回到第二步参数调整过程是超平面或回归平面不断移动的过程B-P反向传播网络主要特点:多层感知机模型(MultiLayerPerception,MLP)包含隐层:激活函数采用Sigmoid函数反向传播B-P反向传播网络:隐层隐层:实现非线性样本的线性化转化线性样本:对n维特征空间的两类样本,若能找到一个超平面将两类分开,则样本为线性样本,否则为非线性样本B-P反向传播网络:隐层如何解决非线性样本的分类问题将样本点放到更高维的空间中使其转化为线性样本,然后再分类神经网络的解决方法:将多个感知机模型按层次结构连接起来,形成隐层,让隐层节点完成非线性样本到线性样本的转化任务•例如:点(1,1),Z=0•多个隐节点和隐层可实现更复杂的非线性样本的线性转化B-P反向传播网络:激活函数B-P网络的激活函数采用(0,1)Sigmoid函数分类中为Logistic回归模型,激活函数值为预测为1类的概率。大于0.5为1类,反之为0类回归中为非线性回归模型Sigmoid函数体现了网络权值修正过程中,模型从近似线性到非线性的渐进转变进程初始权值的范围0附近Sigmoid函数不但具有非线性、单调特点,还具有无限次可微的特点B-P反向传播网络:反向传播隐层使B-P网络采用反向传播调整权值正向传播阶段:传播期间所有网络权值保持不变反向传播:误差被逐层反方向传回给输入结点。传播期间所有网络权值均得到调整。这种正向传播和反向传播过程将不断重复,直到满足终止条件为止反向传播过程即为参数优化过程目标:在一个特定模型结构M中,利用数据D,优化模型参数θ使损失函数达到最小模型参数θ为d维向量例如:回归模型:θ为回归系数和截距决策树模型:θ为各个节点的最佳分割点人工神经网络模型:θ为网络权值参数优化),|()(MDLL损失函数是关于参数θ的高维函数损失函数的常见形式:如果各个样本观测点独立,则:损失函数的复杂程度取决于误差函数e的形式模型结构参数优化))(ˆ,()(1NiiiyyeL如果模型是关于参数θ的线性函数,损失函数e为误差平方,则L是θ的二次函数参数优化较简单:单峰(只存在唯一最值)L(θ)是θ的二次函数,则偏导g(θ)是θ的线性函数•计算L对θ偏导数,并令偏导g(θ)=0•求解d个联立方程组参数优化0)(L如果模型结构、误差函数e的形式较为复杂,则L不一定是关于θ的简单平滑函数,可能是多峰的B-P网络中输出节点j的损失函数:参数优化2122)))()()(()((21))(()((21))((21)(ttOtWftYtUftYtetEjmiiijjjjjj•通常求解使L(θ)最小的参数θ等价于在高维空间中最小化一个多元复杂函数•以迭代方式,利用关于L曲率的局部信息引导在L曲面上的局部搜索参数优化例:简单评分函数L=w2+1,w(0)=4,学习率为0.1w(1)=4-0.1×(2×4)=3.2•w(2)=3.2-0.1×(2×3.2)=2.56•w(3)=2.56-0.1×(2×2.56)=2.04局部改善迭代算法步骤:1、初始化:为参数向量θ选取初始值θ02、迭代:从i=1开始,令:Vi是相对于参数空间中的下一步的方向,是移动的距离•3、收敛:重复第2步直到达到局部最小•4、多次反复,避免局部最小而非全局最小参数优化iiiiv1ii)(iL)()()1()()()()1(tetttXtetWtWjjjijijij)()()(tXtetWijij)())(()1()()())(())(()()()()()()()()('''tOtUftetWtUtUtYtYtetetEtWtEtWijjijjjjjjjijij)))((1())(())(('tUftUftUfjjj)()))((1))((()()(tOtUftUftetWijjjij)))((1))((()())(()()('tUftUftetUftetjjjjjj结点j的局部梯度)()()(tOttWijijkiiijjjjjjjjOWUUfYYYeeEj1''2)(21)()()()1()()()()1(tOttWtWtXtetWtWijijijijijijB-P反向传播网络的参数优化第l隐层第j个结点,局部梯度定义为:输出误差经神经网络依次反向传递,计算每个结点的局部梯度上述过程不断反复)()())((')(11qijilijljtWttUftB-P反向传播网络的参数优化简单评分函数L=w2+1:w(0)=4,学习率为0.1•w(1)=4-0.1×(2×4)=3.2,•w(2)=3.2-0.1×(2×3.2)=2.56•w(3)=2.56-0.1×(2×2.56)=2.04B-P其他问题:学习率学习率决定了算法收敛的速度•学习率过大,可能会越过
本文标题:Clementine-第六讲
链接地址:https://www.777doc.com/doc-3463237 .html