您好,欢迎访问三七文档
当前位置:首页 > IT计算机/网络 > 数据库 > Learning-Deep-Architectures-for-AI-中文版-初译整理
LearningDeepArchitecturesforAIYoshuaBengio摘要理论结果表明,为了学习用于表示高层次的抽象(例如视觉、语言以及其他AI级别的任务)的复杂函数,我们需要深度结构。深度结构的组成包括了多层次的非线性操作,比如具有许多隐含层的神经网络,或者重用了许多子公式的复杂命题公式。搜索深度结构的参数空间是一件很困难的任务,但是最近提出的诸如用于深度信念网络等的学习算法,对于探索这类问题取得了显著的成功,在某些领域达到了最新的水平。本书讨论深度学习算法的方法和原理,尤其是那些被充分用作基石的单层模型的非监督学习算法例如受限玻尔兹曼机(RBM),它用于构建深度信念网络等深度模型。第一章介绍允许让计算机来模拟我们的世界,足以表明我们所说的智力已经超过半个世纪一直是的研究重点。为了实现这一点,很显然,有大量的关于我们的世界的信息应该以某种方式被明确地或含蓄地存储在计算机中。因为手工地将那些信息转换,并使计算机可以用它们来回答问题并推广到新的环境中是一件令人怯步的事,许多研究者纷纷转向学习算法来获取大部分信息。了解和改进的学习算法已经取得了很大的进展,但人工智能仍然面临挑战。我们有算法可以去理解场景并用自然语言来描述它们?不完全是,除非在非常有限的情况下。我们有算法可以推断出足够的语义概念以便能够使用这些概念进行大多数人类互动?不,如果我们考虑图像理解,人工智能任务里最棒的一个分支,我们认识到,我们还没有能发现许多视觉和语义概念的学习算法,而它们(指概念)似乎有必要出现在网络上解释大部分图像。这种情况就类似于其他的AI任务。图1.1我们希望原始输入图像能被转换为更高水平的表述,并表现原始输入表达式越来越多的抽象功能,如:边、局域形状、对象部分等等。在实践中,我们不能提前知道“正确”的表达式应该是什么,在所有这些抽象层中,尽管语言概念可以帮助我们猜测到更高层次表述可能隐含的信息考虑一个例子,要求解释一个如图1.1中输入的图像。当人们尝试着去解决特定的AI任务(例如机器视觉或自然语言处理),他们往往会直接利用他们的有关如何分解问题转化子问题和多级表示的经验,例如,在对象的部分和一系列模型中[138,179,197],可以重新用在不同的对象实例模型的部件。例如,最先进机器视觉领域的当前语句涉及从像素开始并以线性或内核分类结束[134,145]模块的序列,以及中间模块混合工程的转换和学习。例如,先提取低级别的功能,那些不变的小几何变化(如Gabor滤波器的边缘检测),并逐渐转变它们(例如,使它们在参照物改变或反转时保持不变,有时通过集中和子采样),然后检测最频繁的模式。一种貌似有理且常见的方式是从自然图像中提取有用的信息,包括将所述原始像素表示成逐渐更抽象的表示,例如,从边缘表达式,以及更复杂的,局部的形状的检测,到抽象类别的识别与子对象,哪些是图像的部分对象相关联,并把这些放到一起来捕获足够关于这些场景的理解来回答关于它们的问题。在这里,我们假设必要的计算机来表达复杂的行为(其中一个可能被标记为“智能”)需要高度变化的数学函数,即,数学函数是高度非线性依据原始感知输入,并横跨感兴趣的领域显示一个非常大的的变化(增长和减小)。我们观察原始输入给学习系统作为一个高维实体,提出了许多观测变量的,这些都和未知的错综复杂的统计关系有关。例如,使用固态物体和照明的三维几何的知识,就可以在与底层物理和几何因素小的变化(如位置,方向,对象的照明)用的图像的所有像素的变化像素强度。我们称之为变量,是因为它们是数据的不同方面,并可以独立地经常变化。在这种情况下,所涉及的物理因素的明确知识允许人们获得该组图像的形状,这些依赖关系的数学形式的图片,和(如在像素强度的高维空间中的点)与相关联的同样的3D对象。如果一台机器捕获变量在数据中的统计变化,以及它们是如何相互作用以产生我们观察到的数据种类,我们将能够说,机器理解是指这些变化的因素覆盖的的世界。不幸的是,在一般情况和变化最底层的因素的自然图像,我们没有对分析这些变化因素的理解。我们没有足够形式化的关于世界的先验知识来解释所观察到的各种图像,即便是这样一个看似简单的抽象:MAN,像图1.1中那样。一个高层次的抽象,例如,MAN有一个性质,他相当于一个巨大的可能图像的集合,这可能非常不同于那些简单欧几里得距离中的像素点的属性。该组图像能够识别此标签可能是适当的形式在像素空间中的高度旋绕区域即甚至没有必要是一个连接区域。MAN类可以被看作是相对于图象的空间的高层次抽象。我们所说的抽象这里可以是一个类(如MAN类别)或特征,感觉数据的函数,它可以是离散的(例如,输入的句子是在过去时),或连续的(例如,输入视频显示了运动物体的移动是2米/秒)。对于构建MAN-探测器,许多较低级和中间级的概念(我们这里也称之为抽象)将是有用的。低层次的抽象更直接关系到特定的知觉,而更高级别的那些就是我们所说的“更抽象的”,因为他们与实际知觉的连接比较微弱,是通过了其他中间层次的抽象。除了想出合适的中间抽象的难度,我们希望用一种“智能”的机器来捕获的视觉和语义类别的数目(如MAN)相当大了。深层结构学习的重点是能够自动发现这样的抽象,从最低级别的特性到最高层次的概念。理想情况下,我们希望使这一发现成真的学习算法只需很少人的努力,换言之,无需手动定义所有必要的抽象或不必提供一组相关的手工标记的巨大样本。如果这些算法可以挖掘到网络上的文本和图像的巨大资源,这肯定会有助于传递许多人类的知识转换为机器可解释的形式。1.1我们如何学习深度架构?深度学习方法的目的是学习层次与更高水平由低级别的功能组合物形成深层次结构的特点。自动多层次的抽象学习功能允许系统学习复杂的功能映射,直接从数据的输入到输出,而不完全依赖于人类制作的功能。这对于更高层次的抽象特别重要,人们经常常常不知道怎么根据原始感受数据来明确给出指令。能够自动学习强大特征的能力将随着机器学习方法的数据量和应用范围继续增长而变得越来越重要。架构的深度是指在功能学习中非线性运算组合的数目。而目前大多数学习算法对应于浅层结构(1,2或3层),哺乳动物脑是一个组织组织在深度架构[173]与多个级别的抽象,每一级对应于不同的区域的,代表一个给定的输入知觉。人类往往用分层的方式,借助多层次的抽象来描述这种概念。大脑似乎也处理通过转换和表达的多个阶段的信息。这在灵长类视觉系统[173]特别清楚,按顺序处理:检测边缘,原始形状,并且向上移动到逐渐更复杂的视觉形状。灵感来自于大脑的深度架构,神经网络研究人员努力了几十年来训练深度多层神经网络[19,191],但在2006年之前没有尝试成功[除具有特殊的结构的神经网络,称为卷积网络,讨论于4.5节]:研究人员报告了有两个或三个层次(即一个或两个隐藏层)的阳性试验结果,但更深层次的培训网络,一直都取得的是较差的结果。突破性的事情发生在2006年:Hinton等人在多伦多大学引进深信念网络(DBNs)[73],它具有学习算法,每次贪婪地学习一层,对每个层利用无监督学习算法,受限波尔兹曼机(RBM)[51]。不久后,相关的基于自动编码器的算法[17,153]也被提出,显然利用了同样的原理:采用无监督学习,这可以在本地在每个级别进行指导代表性的中等水平的培训。其他算法的深架构提出了近期的利用既没有RBMS也不是自动编码器,并且利用同样的原理[131,202](见第4章)。自2006年以来,深度网络已经不仅在分类任务[2,17,99,111,150,153,195]应用成功,而且在回归[160],降维[74,158],造型纹理[141],建模运动[182,183],对象分割[114],信息检索[154,159,190],机器人[60],自然语言处理[37,130,202],和协同过滤[162]。虽然自动编码器,如RBM和DBN,可以用未标记的数据进行训练,在上述的许多应用中,它们已被成功地用于初始化一些深度有监督的正向反馈特定神经网络任务。1.2中间表示:在任务间共享特性和抽象由于深度结构可以看作由一系列加工阶段组成,提高深度结构当前面临的问题是:每个阶段的输出(即:另一个阶段的输入)到底采用哪种数据表示?阶段之间采用哪种接口?最近深度结构研究的一个特点就是聚焦中间表示:深度结构的成功属于借鉴RBMs[73],普通自动编码器[17],稀疏自动编码器[150,153],或者降噪自动编码器[195]等学习无监督的方式表示。这些算法(详见7.2节)可以被看作是学习将一个表示(前一阶段的输出)变换为另一个表示,每次变换也许能解开潜在变化数据中的更好因素。正如在4节中我们讨论的长度,它被一次又一次观察到,一旦一个良好表示在各级中被发现,它可以用于初始化,并成功地通过监督基于梯度的优化培养深神经网络。在大脑中发现的每一级抽象包括了大量特征的小的子集的“激活”(神经激发),在一般情况下,它们不是相互排斥的。因为这些特征不是相互排斥的,它们形成所谓的分布式表示[68,156]:该信息不被局限在一个特定的神经元,但分布在许多中。除了被分发,它似乎显示大脑使用的表示较稀疏:在给定的时间里,神经元中仅一个围绕1-4%的区域是同时激活[5,113]。3.2节介绍稀疏分布表示的概念,第7.1节详细介绍了机器学习的方法。部分灵感来自于大脑中的稀疏表示的观察,已被用于采用稀疏表示构建深层结构。而稠密分布表示是一个频谱的一个极端,和稀疏表示是在该光谱的中间,纯粹本地表示是另一个极端。代表性的地方是密切与当地泛化的概念连接。许多现有的机器学习方法是局部的输入空间:获得一个有学问的功能表现不同的数据空间的不同区域,它们在每一个地区(详见3.1节)需要不同的可调参数。即使在可调参数的数目很大时,统计效率不一定差,良好的泛化可以加入某种形式的先验(例如,参数的较小值是首选)。当先验不是特定任务时,它往往迫使解决方案是很平滑的,如在第3.1节的末尾讨论那样。对比基于局部泛化的学习方法,模式总数,可以区分使用一个分布式表示比例可能呈指数级表示维度(即:学习特征的数量)。在许多机器视觉系统,学习算法都被限制在这样一个处理链的特定部分。其余的设计仍然是劳动密集型,这可能限制了这种系统的规模。另一方面,我们认为的智能机包括了一个足够大的概念指令表。认识到MAN是不够的。我们需要的算法应可以解决一个非常大的任务和概念。在这种情况下,手动定义许多任务和必要的学习看起来令人气馁。此外,在这些任务之间和需要的概念之间不利用基本的共性是看起来很愚蠢的。这已是多任务学习[7,8,32,88,186]研究的重点。具有多层次自然结构提供了共享和重用组件:低级别的视觉特征(如边缘检测)和中等水平的视觉特征(如对象的部分),用于检测人,也可用于一大组的其他视觉任务。深度学习算法都是基于学习可共享的任务的中间表示。因此,他们可以利用无监督的数据和来自类似任务[148]的数据,以来提高大型的、具有挑战性的问题性能,经常遭受贫困的标记的数据,已经显示出[37],在国家的最先进的多种自然语言处理任务。深层结构相似的多任务的方法应用在视觉任务[2]。考虑有不同任务不同输出的一个多任务环境,他们都来自于一个高层次的功能共享池。在多任务中,事实上许多这些学习特性是共享的,并为提供统计强度共享比例。现在认为,这些学习的高级功能,可以自表示在一个普通池低级别的中间表示。再次统计强度可以通过类似的方式获得,这种策略可以用于深层结构的各个层次。此外,学习大量的相关概念,可能提供人类出现能做的那种广泛概括的一个关键,我们不期望于独立的培训对象检测器,而每个视觉范畴都有个探测器。如果每一个高层次的范畴本身是代表通过一个特定的分布式结构的抽象特征从一个普通的池,推广到看不见的类别可以遵循自然,来自这些特征的新配置。尽管这些功能只有一些配置会出现于训练样本中,但如果他们代表不同方面的数据,新的例子可以有效地被这些特征的新配置代表。1.3人工智能学习中的迫切需求总结上文所提到的各个问题,并从人工智能的更为广泛的角度来观察,我们提出了我
本文标题:Learning-Deep-Architectures-for-AI-中文版-初译整理
链接地址:https://www.777doc.com/doc-4118145 .html