您好,欢迎访问三七文档
当前位置:首页 > 商业/管理/HR > 信息化管理 > 深度学习的相关算法研究
西安交通大学数学与统计学院张讲社西安交通大学统计系32415最多含单个将原始信号转换到特定问题空间特征的简单结构,只学习数据的单层表示。浅层学习的局限性在有限的样本和计算单元的情况下对复杂函数的表示能力有限缺乏发现数据中复杂结构的能力针对复杂分类问题其泛化能力受到一定限制Google的语音识别实验证明,面对大数据,浅层结构算法经常处于严重的欠拟合状态。传统的机器学习方法浅层结构算法机器学习是使计算机具有人工智能的根本途径人类大脑的信息处理系统是一多层并行系统,它利用逐层的方式对数据进行特征提取,从低层到高层的特征表示越来越抽象。抽象层面越高,越能表现语义或者意图。人类的认知过程是以深度的方式呈现的,层次化地组织思想和概念:首先学习简单的概念,然后使用学习到的简单概念表示抽象层面更高的概念。生物依据面对复杂的感知数据,人类总能做出合理的判断人类大脑的结构和信息处理机制人类的认知过程面对浅层结构算法的局限性,并受大脑分层次处理信息和人类层次化完成认知过程的启发,学者们一直致力于深度架构的研究提取抽象水平较低的特征提取抽象水平较高的特征……深度学习的概念起源于人工神经网络的研究基于数据处理群方法训练的网络模型1965年1979年卷积神经网络模型多层前向网1986年多层前向网深度信念网2006年…………复兴完全依赖带标签数据实际问题中大部分数据是无标签的学习效率不高,特别对于大数据当网络中层数较多时,学习时间过长对初值敏感,经常陷入局部极值随着层数的增多,坏的局部极小点出现的概率增大BP方法的局限性**考虑预训练模型,通过预训练模型选择权重的初始值用生成模型优化多层神经网络通过最大化模型似然来学习模型参数学习p(数据)而不是p(标签|数据)深度结构的新发展8深度学习成熟条件1——数据集的增大图6数据集与年份9深度学习成熟条件2——神经元之间的连接数增大(本质原因是计算机硬件技术的飞速发展)图7神经元连接与年份10深度学习成熟条件3——神经元个数的增加(本质原因是计算机硬件技术的飞速发展)图8神经元个数与年份11好算法的出现:2006年,GeoffreyHinton在Science上发表了一篇名为《ReducingwithDimensionalityofDatawithNeuralNetworks》的文章,从此,神经网络(主要是深度学习)便有焕发了新的青春。图9GeoffreyHinton与他的学生在Science上发表文章在学术界的研究现状及应用模型架构及训练方法应用子模型的选取与建立深度结构的整体训练语音和音频信号处理图像识别和检索自然语言处理和信息检索…………………………2010年,美国国防部DARPA计划首次资助斯坦福大学、纽约大学和NEC美国研究院开展深度学习研究2012年6月,GoogleBrain项目用16000个CPU搭建深度学习平台,在语音、图像识别领域获得重要进展2012年12月,微软亚洲研究院在天津的一次活动中利用深度学习技术进行全自动同声传译,效果良好2013年1月,李彦宏宣布成立百度的第一个研究院InstituteofDeepLearning2013年4月,《麻省理工学院技术评论》将深度学习列为2013年十大突破性技术之首2013年6月微软对WindowsPhone平台的必应语音搜索进行了更新。语音识别和反馈的速度提高一倍,精确度提升15%2014年3月Facebook的Deepface项目使得人脸识别技术的识别率达到97.25%,准确率几乎可媲美人类在工业界的发展互联网界巨头进入深度学习领域图15机器学习界的执牛耳者与互联网的大鳄的联姻18贪婪算法DBN预训练𝒗𝑾𝟏𝒉𝟏𝒉𝟐𝒉𝟑𝑾𝟐𝑾𝟑(Hintonetal.[2006],Bengioetal.[2007])贪婪算法Step1.用训练样本𝒗和一个隐层𝒉𝟏创建一个限制玻尔兹曼机(RBM)。训练此RBM得到参数𝑾𝟏;DBN预训练𝒗𝑾𝟏𝒉𝟏𝒉𝟐𝒉𝟑𝑾𝟐𝑾𝟑RBM(Hintonetal.[2006],Bengioetal.[2007])贪婪算法Step2.再堆积一个隐层,用先前RBM的隐层和此隐层构建一个新的RBM。固定𝑾𝟏,用𝒑(𝒉𝟏|𝒗)从先前的RBM中抽取样本𝒉𝟏,并作为新RBM的样本。训练新RBM得到参数𝑾𝟐;DBN预训练𝒗𝑾𝟏𝒉𝟏𝒉𝟐𝒉𝟑𝑾𝟐𝑾𝟑RBM(Hintonetal.[2006],Bengioetal.[2007])贪婪算法Step3.继续堆积隐层,并用类似的方法训练第三个RBM得到参数𝑾𝟑。DBN预训练𝒗𝑾𝟏𝒉𝟏𝒉𝟐𝒉𝟑𝑾𝟐𝑾𝟑RBM(Hintonetal.[2006],Bengioetal.[2007])根据具体任务进行相应的微调判别微调用后向传播方法极大化log𝒑(𝒍𝒂𝒃𝒆𝒍|𝒗)生成微调用至顶向下的算法极大化log𝒑(𝒗)DBN𝒗𝑾𝟏𝒉𝟏𝒉𝟐𝒉𝟑𝑾𝟐𝑾𝟑预训练后进行微调提出了一种用于训练多层前向网的新算法建立了基于率失真理论的深度学习模型提出了对图像变换稳定的分类RBM模型提出了用于训练RBM的等能量并行回火算法研究成果以生物神经系统中神经元响应机制为启发,以信息论中的编码理论为指导,建立有效的深度学习模型及其训练方法22稀疏连接稀疏响应神经元群刺激(Morrisetal.[2003]Barlow,[1972]Olshausenetal.[2004])稀疏连接:大脑皮层中单个神经元只与其余神经元中的大约极少数相连稀疏响应:对于给定的某个刺激,神经系统中仅有少量的神经元响应(连接稀疏)(响应稀疏)𝑾𝒊𝒋𝒍=𝑾𝒊𝒋𝒍−𝝐𝛁𝑾𝒊𝒋𝒍𝛁𝑾𝒊𝒋𝒍=𝝏𝒈𝝏𝑾𝒊𝒋𝒍𝒍=𝟏,𝟐,𝛜为学习率训练方法稀疏响应BP网的结构输入向量隐层输出向量𝒙𝑾𝟏𝒚𝟏𝑾𝟐𝒚𝟐𝑾𝟑后向传播误差信号前向传播信息,计算网络的实际输出𝒚𝟏=𝒇(𝒙𝑾𝟏)𝒚𝟐=𝒇(𝒚𝟏𝑾𝟐)𝒚𝟑=𝒇(𝒚𝟐𝑾𝟑)𝒇为激活函数𝒚𝟏𝟏+𝒚𝟐𝟏用𝒍𝟏范数体现隐层神经元响应的稀疏min𝑾𝟏,𝑾𝟐,𝑾𝟑𝒚𝒋𝒒𝒍𝒏𝒍𝒋=𝟏𝟐𝒍=𝟏𝒎𝒒=𝟏𝒔.𝒕.𝒚𝒒=𝒚𝒒𝟑稀疏响应BP网(SRBP)min𝑾𝟏,𝑾𝟐,𝑾𝟑𝒈=(𝒚𝒒−𝒚𝒒𝟑𝟐𝟐+𝝀𝒚𝒋𝒒𝒍𝒏𝒍𝒋=𝟏)𝒎𝒒=𝟏𝒚𝟑xy输入层隐层网络结构两类数据(红色,蓝色)样本数:384双螺旋数据训练误差线隐层神经元(第二个隐层)在所有样本上响应的直方图BP(Hintonetal.[1986])RoBP(Hirasawa[2009])GaBP(Girosietal.[1995])LaBP(Williams[1995])EnBP2(Chauvin[1995])EnBP3(Chauvin[1995])EnBP1(Chauvin[1995])SaBP非线性稀疏表示第二个隐层在整个数据区域上的响应情况SRBPBP感受野的局部化泛化能力(10,000个测试样本)IrisdatasetHepatitisdatasetGlassdatasetWinedatasetDiabetes训练误差线UCI数据集Iris隐层神经元在四个训练样本上的响应柱状图Hepatitis稀疏表示ClassWineDiabetes非线性稀疏表示IrisHepatitisGlassWineDiabetes隐层神经元在所有训练样本上的响应直方图非线性稀疏表示数据集BPGaBPLaBpRoBPEnBP1EnBP2EnBP3SRBPIris96.93%96.67%95.60%96.53%96.93%97.07%97.07%97.33%(4.90)(4.71)(7.08)(5.59)(0.24)(0.24)(0.24)(0.22)Hepatitis72.25%75.25%78.00%78.00%81.50%79.75%80.25%84.25%(22.77)(21.35)(15.48)(17.05)(1.61)(1.59)(1.22)(1.33)Glass93.75%93.37%93.85%93.65%92.88%93.26%93.55%94.01%(5.67)(5.90)(5.88)(5.78)(0.28)(0.24)(0.24)(0.26)Wine97.52%97.63%97.86%98.08%98.08%97.97%98.19%98.19%(3.43)(3.03)(3.18)(2.70)(0.00)(0.10)(0.14)(0.14)Diabetes74.93%75.97%74.43%75.40%76.49%77.17%77.17%77.40%(6.14)(5.32)(7.47)(5.71)(0.26)(0.17)(0.18)(0.17)测试集分类精度,50次实验的平均结果泛化能力泛化能力泛化能力大脑中每个神经元在响应时都会比不响应时消耗更多的能量。我们用新模型中所有隐层神经元的响应值与BP网隐层神经元的响应值的比值来判断在BP网中引入稀疏响应限制是否节省网络处理数据所需要的能量。数据集Two-spiralIrisHepatitisGlassWineDiabetesGaBP/BP1.00051.00730.83840.97370.99980.9981RoBP/BP1.97821.26672.57480.97530.99310.0999LaBP/BP1.22790.99740.94590.97690.99600.9994EnBP1/BP0.28900.19030.02900.11060.35670.0544EnBP2/BP0.37660.19190.03330.25800.45860.0603EnBP3/BP0.28080.19220.03040.13650.40470.0565SRBP/BP0.22020.14580.02110.06790.24210.0206网络所消耗的能量基于人类神经系统中对于某一个刺激只有少量神经元同时响应的机制,提出用于训练多层前向网的新算法实验结果表明提高了网络的泛化能力大幅度降低了网络的能耗训练过程更稳定、收敛速度更快可在一定程度上简化网络的结构33主要研究在限定失真条件下能够恢复信源符号所需的最小信息率,它给出了在一定失真度情况下信源编码能达到的极限码率,对编码的长度进行了约束。等价问题编码率编码机制为确定型时在RBM中,隐层神经元的响应概率(数据的表示)是确定的通过稀疏响应控制𝒁的不确定性程度,从而控制编码率失真水平RBM是概率模型,因此使用输入数据分布与模型分布之间的Kullback-Leibler散度作为失真函数•𝑰(𝑽;𝒁)是随机变量𝑽和𝒁的互信息,表示编码的压缩率•𝑬[𝒅(𝑽;𝒁)]是失真函数𝒅(𝑽;𝒁)关于分布的期望,表示编码解码的失真水平在RBM中,用输入数据的分布和深度信念网的堆积模型限制波尔兹曼机(RBM)的平稳分布之间的Kullback-Leibler散度作为失真函数,并采用神经系统中神经元的稀疏响应来实现小的编码率。𝚫𝑾𝟏𝟏(𝒕+𝟏)=𝛁𝑾𝟏𝐾𝐿𝑝0|𝑝∞|𝑾𝟏(𝒕),用CD近似𝚫𝑾𝟏𝟐(𝒕+𝟏)=𝛁𝑾𝟏𝒉𝟏|𝑾𝟏(𝒕)𝚫𝑾𝟏(𝒕+𝟏)=𝚫𝑾𝟏(𝒕)+𝝐(𝚫𝑾𝟏𝟏(𝒕+𝟏)+𝝀𝚫𝑾𝟏𝟐(𝒕+𝟏))步骤1:通过第一个RD-RBM学习第一层权重𝑾𝟏步骤2:通过第二个RD-RBM学习𝑾𝟐步骤3:用反向误差传播算法微调RD-DBN用隐层神经元响应的𝑳𝟏范数来实现神经元的稀疏响应,得到基于
本文标题:深度学习的相关算法研究
链接地址:https://www.777doc.com/doc-3634381 .html