您好,欢迎访问三七文档
当前位置:首页 > 商业/管理/HR > 管理学资料 > 深度学习方法在图像处理中的应用与研究(总结)
深度学习方法在图像处理中的应用与研究1.概述和背景........................................................................................................12.人脑视觉机理......................................................................................................33.深度学习的基本思想..........................................................................................64.深度学习的常用方法..........................................................................................75.总结与展望.......................................................................................................91深度学习方法在图像处理中的应用与研究1.概述和背景ArtificialIntelligence,也就是人工智能,就像长生不老和星际漫游一样,是人类最美好的梦想之一。虽然计算机技术已经取得了长足的进步,但是到目前为止,还没有一台电脑能产生“自我”的意识。是的,在人类和大量现成数据的帮助下,电脑可以表现的十分强大,但是离开了这两者,它甚至都不能分辨一个喵星人和一个汪星人。图灵(图灵,大家都知道吧。计算机和人工智能的鼻祖,分别对应于其著名的“图灵机”和“图灵测试”)在1950年的论文里,提出图灵试验的设想,即,隔墙对话,你将不知道与你谈话的,是人还是电脑。这无疑给计算机,尤其是人工智能,预设了一个很高的期望值。但是半个世纪过去了,人工智能的进展,远远没有达到图灵试验的标准。这不仅让多年翘首以待的人们,心灰意冷,认为人工智能是忽悠,相关领域是“伪科学”。但是自2006年以来,机器学习领域,取得了突破性的进展。图灵试验,至少不是那么可望而不可及了。至于技术手段,不仅仅依赖于云计算对大数据的并行处理能力,而且依赖于算法。这个算法就是,DeepLearning。借助于DeepLearning算法,人类终于找到了如何处理“抽象概念”这个亘古难题的方法。在实际应用中,例如对象分类问题如对象的分类(对象可是文档、图像、音频等),我们不得不面对的一个是问题是如何用数据来表示这个对象,当然这里的数据并非初始的像素或者文字,也就是这些数据是比初始数据具有更为高层的含义,这里的数据往往指的就是对象的特征。例如人们常常将文档、网页等数据用词的集合来表示,根据文档的词集合表示到一个词组短语的向量空间(vectorspacemodel,VSM模型)中,然后才能根抓不同的学习方法设计出适用的分类器来对目标对象进行分类;又如在图像处理中,像素强度的集合的表示方法可以最初浅的表示一幅图像,这也是我们视觉意义上的图像,一可是由于各种原因人们提出了更高层的语义的特征,如SIFT为经典的几何特征、以LBP为经典的纹理特征、以特征脸为经典的统计特征等,像SIFT,特征在很多图像处理的应用中突显出其优越性,因此特征选取得好坏对于实际应用的影响是很深刻的。因此,选取什么特征或者用什么特征来表示某一对象对于解决一个实际问题非常的重要。然而,人为地选取特征的时间代价是非常昂贵,另外劳动成本也高,而所谓的启发式的算法得到的结果往往不稳定,结果好坏经常是依靠经验和运气。既然如此,人们自然考虑到自动学习来完成特征抽取这一任务。DeepLearning的产生就是缘于此任务,它又被称为无监督的特征学习(UnsupervisedFeatureLearning),一显然从这个名称就可以知道这是一个没有人为参与的特征选取方法。深度学习(DeepLearning)的概念是2006年左右由GeoffreyHinton等人在《science》上发表的一篇文章((Reducingthedimensionalityofdatawithneuralnetworks》》提出来的,主要通过神经网络(NeuralNetworkNN)来模拟人的大脑2的学习过程,希望借鉴人脑的多层抽象机制来实现对现实对象或数抓(图像、语音及文木等)的抽象表达,整合特征抽取和分类器到一个学习框架下,特征的抽取过程中应该尽量少地减少人为的干预。深度学习是通过大量的简单神经元组成,每层的神经元接收更低层的神经元的输入,通过输入与输出之间的非线性关系,将低层特征组合成更高层的抽象表示,并发现观测数据的分布式特征。通过自下而上的学习形成多层的抽象表示,并多层次的特征学习是大连理卜大学硕十学位论文一个自动地无人工干预的过程。根据学习到的网络结构,系统将输入的样本数据映射到各种层次的特征,并利用分类器或者匹配算法对顶层的输出单元进行分类识别等。32.人脑视觉机理研究表明,哺乳动物的大脑皮层,处理输入信息时是采用了一种分层机制,信息从感知器官输入后,经过多层的神经元,在经过每一层神经元时,神经元会将能够体现对象本质的特征抽取出来,然后将这些特征继续传递到下一层神经元上,同样地,后继的各层神经元都是以类似的方式处理和传递信息,最后传至大脑。深层的人工神经网络的诞生很大程度上受这一发现的启示,即构建一种包含多层结点,并且使得信息、得以逐层处理抽象的神经网络。换言之,哺乳动物的大脑是以深度方式组织的,这一类深层的结构组织里的每一层会对于输入进行不同层次的信息处理或者抽象表示,因此,实际生活中,层次化的方法经常被用于表示一些抽象的语义概念。与哺乳动物一样,人类的大脑处理信矛息时也是采用逐层传输和表达的方式,人脑的初级视觉系统,首先利用某些神经元探测物体边界、元形状,然后又利用其他的神经元组织,逐步向上处理形成更复杂的视觉形状。人脑识别物体的原理是:外部世界中的物体先在视网膜上进行投影,然后大脑的视皮层对于聚集在视网膜上的投影进行分解处理,最后利用这些分解处理后的信息进行物体识别。因此视皮层的功能不是仅限于简单的重现视网膜图像,而是提取和计算感知信号。4视觉系统的输入数据量在人类感知系统的层次结构进行了维数减约,并剔除了与物体个性无关的信息;例如对于处理潜在结构是复杂的丰富数据(如图像、视频、主意等),深度学习应该与人类视觉系统一样可以精准地获取对象的本质特征。深度学习的构想是借鉴大脑的分层组织方式,通过由下向上、由简单到高级的逐层抽象的特征学习,研究者们期望深度网络结构能通过模拟大脑来解决复杂的模式识别难题。因此,深层的人工神经网络是一种人工定义用于模拟人脑组织形式的多层神经网络。从文本来说,一个doc表示什么意思?我们描述一件事情,用什么来表示比较合适?用一个一个字嘛,我看不是,字就是像素级别了,起码应该是term,换句话说每个doc都由term构成,但这样表示概念的能力就够了嘛,可能也不够,需要再上一步,达到topic级,有了topic,再到doc就合理。但每个层次的数量差距很大,比如doc表示的概念-topic(千-万量级)-term(10万量级)-word(百万量级)。一个人在看一个doc的时候,眼睛看到的是word,由这些word在大脑里自动切词形成term,在按照概念组织的方式,先验的学习,得到topic,然后再进行高层次的learning。那我们需要有多少个特征呢?我们知道需要层次的特征构建,由浅入深,但每一层该有多少个特征呢?任何一种方法,特征越多,给出的参考信息就越多,准确性会得到提升。但特征多意味着计算复杂,探索的空间大,可以用来训练的数据在每个特征上就会稀疏,都会带来各种问题,并不一定特征越多越好。一些浅层的算法(指仅含一个隐层的神经网络、核回归、支撑向量机等),当5给定有限数量的样本和计算单元时,浅层结构难以有效地表示复杂函数,并且对于复杂分类问题表现性能及泛化能力针均有明显的不足,尤其当目标对象具有丰富的含义。深度学习通过大量的简单神经元组成的网络,利用输入与输出之间的非线性关系,对复杂函数进行近似,对观测样本进行拟合,并在学习输入样本本质特征的抽取上体现了强大的能力。有文献中就列举出一系列无法使用浅层网络表示的函数,这些研究成果揭示了浅层网络的局限性,从而也激发了人们探寻深度网络在一些复杂函数表示和复杂分类的应用前景。指出深度学习结构在对于复杂函数的表示问题上具有非常高的效率及效果,而一个不适用的结构模型否(如浅层网络)对数据建模时可能需要数目非常大的计算单元。63.深度学习的基本思想假设一个系统S,它是一个n层(S1,…,Sn)的结构,I是系统的输入,O是系统输出,形象地表示为:I=S1=S2=...=Sn=O,如果输出O等于输入I,物理意义也就是表明在经过系统变化之后,输入I的信息量没有任何损失,和原始的输入保持了不变,这表明了输入I经过每一层S;均没有丢失任何信息,,即在任何一层S;,它都是输入I也就是原始信息的另外一种表示。简单说,深度学习的精髓也就是,在一个n层的神经网络中,任何一层的输入I和输出O是“相等.’的。学习过程中,我们希望它是不需要人为干预的,它能够自动地学习对象的特征。在给定一组原始的输入I(可以理解为是一堆图像或者文本、一段语音之类),经过一个包含n层的系统S时,我们通过调整系统中参数,使得输出与输出相等,即输出O仍然是输入I,这样,我们就获取了输入I(原始数据)的一系列的层次特征,记为S,...Sn。另外,前面是假设输出严格地等于输入,即这个地方“相等”有两个含义在里面:第一个是说O和I不是在绝对形式上的相等,而是在抽象意义上的相等;另外一点指的是限制的约束的程度,比如说是不会造成歧义的完全“相等”还是有适当宽松条件的“相等”。而绝对意义上的“相等”这个限制太严格,我们可以略微地放松这个限制,例如我们只要使得输入与输出的差别尽可能地小即可,这个放松会形成另外一类不同的深度学习的方法。举个不太恰当的例子,比如说对“交通工具”这个概念上,I是“可以驾驶的四个轮子”,O是“车”,这样虽然对两者的描述不一致,但是我们都一可以理解为“交通工具”了。上述就是深度学习的基本思想,而上述中的两个思想也对应了深度学习中的两个经典的方法AutoEncoder和SparseCoding,还有一个很常用的方法就是受限玻尔兹曼机(RestrictBoltzmannMachine,RBM)。74.深度学习的常用方法4.1AutoEncoder自动编码器最简单的一种方法是利用人工神经网络的特点,人工神经网络(ANN)本身就是具有层次结构的系统,如果给定一个神经网络,我们假设其输出与输入是相同的,然后训练调整其参数,得到每一层中的权重,自然地,我们就得到了输入I的儿种不同表示(每一层是输入的一种表示),这些表示就是特征,在研究中可以发现,如果在原有的特征中加入这些自动学习得到的特t正可以大大提高精确度,甚至在分类问题中比}」前址好的分类算法效果还要好,这种方法称为自动编码(AutoEncoder)。4.2、SparseCoding稀疏编码如果我们把输出必须和输入相等的限制放松,同时利用线性代数中基的概念,即O=WxB,+砚xB,+...+W,xB,,,B是基,W;是系数,我们可以得到这样一个优化问题:Min11一Olo通过求解这个最优化式子,我们可以求得系数W和基B;,这些系数和基础就是输入的另外一种近似表达,因此,它们可以被当成特征来表达输入I,这个过程也是自动学习得到的。如果我们在上述式子上加上L1的Regularity限制,得到:Min}I一O}+u*(IW卜}砚I+…+}W,})。(2.1)种方法被称为SparseCoding,它是一种对对象的简洁表征的方法,这种方法可以自动地学习到隐藏在对象数据潜在
本文标题:深度学习方法在图像处理中的应用与研究(总结)
链接地址:https://www.777doc.com/doc-4170231 .html