您好,欢迎访问三七文档
当前位置:首页 > 商业/管理/HR > 质量控制/管理 > 北理工贾云德《计算机视觉》chapter01引论
1第一章引论人类在征服自然、改造自然和推动社会进步的过程中,面临着自身能力、能量的局限性,因而发明和创造了许多机器来辅助或代替人类完成任务.智能机器,包括智能机器人,是这种机器最理想的形式,也是人类科学研究中所面临的最大挑战之一.智能机器是指这样一种系统,它能模拟人类的功能,能感知外部世界并有效地解决人所能解决问题.人类感知外部世界主要是通过视觉、触觉、听觉和嗅觉等感觉器官,其中约80%的信息是由视觉获取的.因此,对于智能机器来说,赋予机器以人类视觉功能对发展智能机器是及其重要的,也由此形成了一门新的学科—机器视觉(也称计算机视觉或图像分析与理解等).机器视觉的发展不仅将大大推动智能系统的发展,也将拓宽计算机与各种智能机器的研究范围和应用领域.机器视觉是研究用计算机来模拟生物外显或宏观视觉功能的科学和技术.机器视觉系统的首要目标是用图像创建或恢复现实世界模型,然后认知现实世界.机器视觉系统获取的场景图像一般是灰度图像,即三维场景在二维平面上的投影.因此,场景三维信息只能通过灰度图像或灰度图像序列来恢复处理,这种恢复需要进行多点对一点的映射逆变换.在信息恢复过程中,还需要有关场景知识和投影几何知识.机器视觉是一个相当新且发展十分迅速的研究领域,并成为计算机科学的重要研究领域之一.机器视觉是在20世纪50年代从统计模式识别开始的[1],当时的工作主要集中在二维图像分析和识别上,如光学字符识别,工件表面、显微图片和航空图片的分析和解释等.60年代,Roberts(1965)通过计算机程序从数字图像中提取出诸如立方体、楔形体、棱柱体等多面体的三维结构,并对物体形状及物体的空间关系进行描述[Roberts1965].Roberts的研究工作开创了以理解三维场景为目的的三维机器视觉的研究.Roberts对积木世界的创造性研究给人们以极大的启发,许多人相信,一旦由白色积木玩具组成的三维世界可以被理解,则可以推广到理解更复杂的三维场景.于是,人们对积木世界进行了深入的研究,研究的范围从边缘、角点等特征提取,到线条、平面、曲面等几何要素分析,一直到图像明暗、纹理、运动以及成像几何等,并建立了各种数据结构和推理规则.到了70年代,已经出现了一些视觉应用系统[Guzman1969,Mackworth1973,].70年代中期,麻省理工学院(MIT)人工智能(AI)实验室正式开设“机器视觉”(MachineVision)课程,由国际著名学者B.K.P.Horn教授讲授.同时,MITAI实验室吸引了国际上许多知名学者参与机器视觉的理论、算法、系统设计的研究,DavidMarr教授就是其中的一位.他于1973年应邀在MITAI实验室领导一个以博士生为主体的研究小组,1977年提出了不同于"积木世界"分析方法的计算视觉理论(computationalvision),该理论在80年代成为机器视觉研究领域中的一个十分重要的理论框架.可以说,对机器视觉的全球性研究热潮是从20世纪80年代开始的,到了80年代中期,机器视觉获得了蓬勃发展,新概念、新方法、新理论不断涌现,比如,基于感知特征群的物体识别理论框架,主动视觉理论框架,视觉集成理论框架等.到目前为止,机器视觉仍然是一个非常活跃的研究领域.许多会议论文集都反应了该领域的最新进展,比如,InternationalConferenceonComputerVisionandPatternRecognition(CVPR);InternationalConferenceonComputerVision(ICCV);InternationalConferenceonPatternRecognition(ICPR);InternationalConferenceonRoboticsandAutomation(ICRA);WorkshoponComputerVision,andnumerousconferencesofSPIE.还有许多学术期刊也包含了这一领域的最新研究成果,如,IEEETransactiononPatternAnalysisandMachineIntelligence(PAMI);ComputerVision,Graphics,andImageProcessing(CVGIP);IEEETransactiononImageProcessing;IEEE2TransactiononSystems,Man,andCybernetics(SMC);MachineVisionandApplications;InternationalJournalonComputerVision(IJCV);ImageandVisionComputing;andPatternRecognition.每年还出版许多研究专集、学术著作、技术报告,举行专题讨论会等.所有这些都是研究机器视觉及其应用的很好信息来源.1.2Marr的视觉计算理论Marr的视觉计算理论[Marr1982]立足于计算机科学,系统地概括了心理生理学、神经生理学等方面业已取得的所有重要成果,是视觉研究中迄今为止最为完善的视觉理论.Marr建立的视觉计算理论,使计算机视觉研究有了一个比较明确的体系,并大大推动了计算机视觉研究的发展.人们普遍认为,计算机视觉这门学科的形成与Marr的视觉理论有着密切的关系.事实上,尽管20世纪70年代初期就有人使用计算机视觉这个名词[Binford,1971],但正是Marr70年代末建立的视觉理论促使计算机视觉这一名词的流行.下面简要地介绍Marr的视觉理论的基本思想及其理论框架.1.2.1三个层次Marr认为,视觉是一个信息处理系统,对此系统研究应分为三个层次:计算理论层次,表示(representation)与算法层次,硬件实现层次,如表1-1所示.表1-1按照Marr的理论,计算视觉理论要回答视觉系统的计算目的和策略是什么,或视觉系统的输入和输出是什么,如何由系统的输入求出系统的输出.在这个层次上,信息系统的特征是将一种信息(输入)映射为另一种信息(输出).比如,系统输入是二维灰度图像,输出则是三维物体的形状、位置和姿态,视觉系统的任务就是如何建立输入输出之间的关系和约束,如何由二维灰度图像恢复物体的三维信息.表示与算法层次是要进一步回答如何表示输入和输出信息,如何实现计算理论所对应的功能的算法,以及如何由一种表示变换成另一种表示,比如创建数据结构和符号.一般来说,不同的输入、输出和计算理论,对应不同的表示,而同一种输入、输出或计算理论可能对应若干种表示.在解决了理论问题和表示问题后,最后一个层次是解决用硬件实现上述表示和算法的问题,比如计算机体系结构及具体的计算装置及其细节.从信息处理的观点来看,至关重要的乃是最高层次,即计算理论层次.这是因为构成知觉的计算本质,取决于解决计算问题本身,而不取决于用来解决计算问题的特殊硬件.换句话说,通过正确理解待解决问题的本质,将有助于理解并创造算法.如果考虑解决问题的机制和物理实现,则对理解算法往往无济于事.上述三个层次之间存在着逻辑的因果关系,但它们之间的联系不是十分紧密,因此,某些现象只能在其中一个或两个层次上进行解释.比如神经解剖学原则上与第三层次即物理实现联计算理论表示和算法硬件实现计算的目的是什么?如何实现这个计算理论?在物理上如何实现为什么这一计算是合适的?输入、输出的表示是什么?这些表示和算法?执行计算的策略是什么?表示与表示之间的变换是什么?3系在一起.突触机制、动作电位、抑制性相互作用都在第三个层次上.心理物理学与第二层次(即表示与算法)有着更直接的联系.更一般地说,不同的现象必须在不同的层次上进行解释,这会有助于人们把握正确的研究方向.例如,人们常说,人脑完全不同于计算机,因为前者是并行加工的,后者是串行的.对于这个问题,应该这样回答:并行加工和串行加工是在算法这个层次上的区别,而不是根本性的区别,因为任何一个并行的计算程序都可以写成串行的程序.因此,这种并行与串行的区别并不支持这种观点,即人脑的运行与计算机的运算是不同的,因而人脑所完成的任务是不可能通过编制程序用计算机来完成.1.2.2视觉表示框架视觉过程划分为三个阶段,如表1-2所示.第一阶段(也称为早期阶段)是将输入的原始图像进行处理,抽取图像中诸如角点、边缘、纹理、线条、边界等基本特征,这些特征的集合称为基元图(primitivesketch);第二阶段(中期阶段)是指在以观测者为中心的坐标系中,由输入图像和基元图恢复场景可见部分的深度、法线方向、轮廓等,这些信息的包含了深度信息,但不是真正的物体三维表示,因此,称为二维半图(2.5dimensionalsketch);在以物体为中心的坐标系中,由输入图像、基元图、二维半图来恢复、表示和识别三维物体的过程称为视觉的第三阶段(后期阶段).表1-2由图像恢复形状信息的表示框架名称目的基元图像光强表示图像中每一点的强度值基元图表示二维图像中的重要信息,主要是图像中的强度变化位置及其几何分布和组织结构零交叉,斑点,端点和不连续点,边缘片断,有效线段,组合群,曲线组织,边界2.5维图在以观测者为中心的坐标系中,表示可见表面的方向、深度值和不连续的轮廓局部表面朝向(“针”基元)离观测者的距离深度上的不连续点表面朝向的不连续点3维模型表示在以物体为中心的坐标系中,用由体积基元和面积基元构成的模块化多层次表示,描述形状及其空间组织形式.分层次组成若干三维模型,每个三维模型都是在几个轴线空间的基础上构成的,所有体积基元或面积形状基元都附着在轴线上.Marr理论是计算机视觉研究领域的划时代成就,但该理论不是十分完善的,许多方面还有争议.比如,该理论所建立的视觉处理框架基本上是自下而上,没有反馈.还有,该理论没有足够地重视知识的应用.尽管如此,Marr理论给了我们研究计算机视觉许多珍贵的哲学思想和研究方法,同时也给计算机视觉研究领域创造了许多研究起点.1.3机器视觉的应用机器视觉技术正广泛地应用于各个方面,从医学图象到遥感图像,从工业检测到文件处理,从毫微米技术到多媒体数据库,不一而足.可以说,需要人类视觉的场合几乎都需要机器视觉.应该指出的是,许多人类视觉无法感知的场合,如精确定量感知、危险场景感知、不可见物体感知等,机器视觉更突显其优越性.下面是一些机器视觉的典型应用.4(1)零件识别与定位由于工业环境的结构、照明等因素可以得到严格的控制,因此,机器视觉在工业生产和装配中得到了成功的应用.图1.1是一个具有简单视觉的工业机器人系统示意图,其视觉系统由一个摄象机和相关的视觉信息处理系统组成.摄象机位于零件传输带上方,对于不同的零件,可以选择不同颜色的传输带,比如,明亮的物体,选择黑色传输带,暗色的零件,选择白色的背景,这样有利于视觉系统将零件从传输带上分离出来,并进行识别和定位,识别的目的是为机器人提供是否操作或进行何种操作的信息,定位的目的是导引机器人手爪实时准确地夹取零件.图1.1用于生产线上具有简单视觉系统的工业机器人系统示意图(2)产品检验机器视觉在工业领域中另一个成功的应用是产品检验.目前已经用于产品外形检验、表面缺陷检验,比如,滑块及滑槽的外形检验以及装配后的位置检验,以决定它们能否装配在一起,并且准确无误地完成装配任务;发动机内壁麻点、刻痕等缺陷检查,以决定产品的质量.通过X射线照相或超声探测获取物体内部的图像,可以实现内部缺陷检验,如钢梁内部裂纹和气孔等缺陷检验.(3)移动机器人导航我们来看一下图1.2所示的两组图像,每一组图像称为一个立体对(stereopair),是由移动机器人上的两个摄象机同步获取的,表示某一时刻关于场景的不同视点的两幅图像.机器人利用立体对可以恢复周围环境的三维信息.移动机器人可以利用场景的三维信息识别目标、识别道路、判断障碍物等,实现道路规划、自主导航,与周围环境自主交互作用等.将立体图像对和运动信息组合起来,可以构成满足特定任务分辨率要求的场景深度图.这种技术对无人汽车、无人飞机、无人战车等自主系统的自动导航十分有用.比
本文标题:北理工贾云德《计算机视觉》chapter01引论
链接地址:https://www.777doc.com/doc-5928193 .html