您好,欢迎访问三七文档
当前位置:首页 > IT计算机/网络 > AI人工智能 > 《人工智能基础与应用》(樊重俊编著)第8章+计算机视觉
计算机视觉第8章2020年10月第8章计算机视觉引言计算机视觉是一门研究如何对数字图像或视频进行高层理解的交叉学科。从人工智能的视角来看,计算机视觉要赋予机器“看”的智能,与语音识别赋予机器“听”的智能类似,都属于感知智能范畴。从工程视角来看,所谓理解图像或视频,就是用机器自动实现人类视觉系统的功能,包括图像或视频的获取、处理、分析和理解等诸多任务。类比人的视觉系统,摄像机等成像设备是机器的眼睛,而计算机视觉就是要实现人的大脑(主要是视觉皮层区)的视觉能力。计算机视觉(ComputerVision)是人工智能的一个重要学科分支,它是用人工智能的方法模拟人类视觉的能力。本章将主要介绍计算机视觉的相关内涵、图像分析与理解及其典型应用领域。8.1计算机视觉概述ONTENTS内容大纲8.2计算机视觉中图像分析与理解的方法8.3计算机视觉的典型应用8.4本章小结第8章计算机视觉8.1计算机视觉概述ONTENTS内容大纲8.2计算机视觉中图像分析与理解的方法8.3计算机视觉的典型应用8.4本章小结第8章计算机视觉第8章计算机视觉计算机视觉概述计算机视觉模拟了人类“看”的能力,这种能力包括了对外界图像、视频的获取、处理、分析理解和应用等一系列能力的综合。计算机视觉模拟包含多种学科技术,如脑视觉结构理论、图像处理技术、人工智能技术以及与领域相结合的多种应用学科技术。除此之外,计算机视觉还包括基于脑科学、认知科学以及心理学等基础性的支撑学科。这些学科一方面极大受益于数字图像处理、计算摄影学、计算机视觉等学科带来的图像处理和分析工具,另一方面它们所揭示的视觉认知规律、视皮层神经机制等对于计算机视觉领域的发展也起到了积极的推动作用。第8章计算机视觉计算机视觉概述计算机视觉模拟过程在外部世界中存在动态、静态等多种景物,它们可以通过摄像设备为代表的图像传感器转化成计算机内的数字化图像,这是一个n×m点阵结构,可用矩阵An×m表示。点阵中的每个点称像素,可用数字表示,它反映图像的灰度。这种图像是一种最基本的2D黑白图像。如果点阵中的每个点用矢量表示,矢量中的分量分别可表示颜色,颜色是由三个分量表示,分别反映红、绿、蓝三色,其分量的值则反映了对应颜色的浓度。这就组成了3D彩色的4D点阵图像。外界景物的数字化就是将外界景物转化成计算机内的用数字表示的图像,可称为数字化图像,它是由摄像设备为代表的图像传感器所完成的,这种设备可以获取外界图像,它一般可以起到人类“眼睛”的作用。除了摄像设备外,目前还有很多相应的图像传感器以实现外界景物的数字化,如热成像相机,高光谱成像仪雷达设备、激光设备、X射线仪、红外线仪器、磁共振仪器、超声仪器等多种接口设备与仪器,它们不仅具有人类“眼睛”的功能,还具有很多“眼睛”所无法观察到的能力。从这个观点看,计算机视觉的能力可以部分超过人类视觉的能力。数字化图像的获取第8章计算机视觉计算机视觉概述计算机视觉模拟过程图像增强和复原图像增强和复原可改善图像的视觉效果和提高图像的品质。图像数据的变换和压缩为了便于图像的存储和传输,可对图像数据作变换和编码压缩。图像分割图像分割是根据几何特性或图像灰度选定的特征,将图像中有意义的特征部分提取出来,这是进一步进行图像识别、分析和理解的基础。数字化图像的处理第8章计算机视觉计算机视觉概述计算机视觉模拟过程图像分解与拼接图像分解指的是将图像中的一个部分从整体中抽取出来。图像拼接指的是将若干幅图像组合成一幅图像。图像重建通过物体外部测量的数据,主要是摄像设备与物体间的距离,经数字处理将2D平面物体转换成3D立体物体的技术称为图像重建。图像管理图像管理也属于图像处理,它包括图像的有组织的存储,称为图像库,同时也包括对图像库的操作管理,如图像的调用、图像的增、删、改操作以及图像库的安全性保护和故障恢复等功能。数字化图像的处理第8章计算机视觉计算机视觉概述计算机视觉模拟过程图像的分析和理解是从现实世界中的景物提取高维数据以便产生数字或符号信息,并可以转换为与其他思维过程交互且可引出适当行动的描述。图像的分析和理解包括图像描述、目标检测、特征提取、目标跟踪、物体识别与分类等,此外还包括高层次的信息分析,如动作分析、行为分析、场景语义分析等。图像处理是通过计算机对图像进行去除噪声、增强、复原、分割、提取特征等处理的方法和技术。图像的分析和理解是由图像到模型、数据或抽象符号表示的语义信息,是人类大脑视觉的一种模拟。它一般需人工智能参与操作,因此又称智能图像处理,它也是计算机视觉的关键技术。图像处理可以分成图像分析与图像理解两个部分。图像分析包括:图像特征提取,图像描述,图像分类、识别。图像的分析和理解计算机视觉应用主要应用领域范围包括模式识别、机器视觉以及动态行为分析。8.1计算机视觉概述ONTENTS内容大纲8.2计算机视觉中图像分析与理解的方法8.3计算机视觉的典型应用8.4本章小结第8章计算机视觉第8章计算机视觉图像分析与理解的方法尽管计算机视觉任务繁多,但大多数任务本质上可以建模为广义的函数拟合问题。即对任意输入图像x,需要学习一个以θ为参数的函数F,使得y=Fθ(x),其中y可能有两大类:y为类别标签,对应模式识别或机器学习中的“分类”问题,如场景分类、图像分类、物体识别、精细物体类识别、人脸识别等视觉任务。这类任务的特点是输出y为有限种类的离散型变量。y为连续变量或向量或矩阵,对应模式识别或机器学习中的“回归”问题,如距离估计、目标检测、语义分割等视觉任务。在这些任务中,y或者是连续的变量(如距离、年龄、角度等),或者是一个向量(如物体的横纵坐标位置和长宽),或者是每个像素有一个所属物体类别的编号(如分割结果)。可被分成两大类:一类是基于浅层模型和方法,另一类是基于深度模型和学习方法。第8章计算机视觉函数F通常都是非常复杂的。为此,一种可能的解法是遵循“分而治之”的思想,对其进行分步、分阶段求解,其步骤如下:步骤1:图像预处理过程p。这个过程是用于实现目标对齐、几何归一化、亮度或颜色矫正等处理,从而提高数据的一致性,该过程一般由人为设定。步骤2:特征设计与提取过程q。这个过程是从预处理后的图像x'中提取描述图像内容的特征,这些特征可能反映图像的低层(如边缘)、中层(如部件)或高层(如场景)特性,一般依据专家知识进行人工设计。常用的浅层视觉模型处理流程图像预处理特征设计与提取特征汇聚或变换分类器/回归器xxyzz图像分析与理解的方法基于浅层模型的方法第8章计算机视觉步骤3:特征汇聚或特征变换h。这个过程是对前一步提取的局部特征z(一般是向量)进行统计汇聚或降维处理,从而得到维度更低、更利于后续分类或回归过程的特征z'。该过程一般通过专家设计的统计建模方法实现。例如,一种常用的模型是线性模型,即z'=Wz,其中W为矩阵形式表达的线性变换,一般需要在训练集合进行学习得到。步骤4:分类器或回归器函数g的设计与训练。这个过程是采用机器学习或模式识别的方法,基于一个有导师的训练{(xi,yi):i=1,⋯,N}(其中xi是训练图像,yi是其类别标签)学习得到,通过有监督的机器学习方法来实现。例如,假设我们采用线性模型,即y=Wz',则可以通过优化得到,其中z'为通过步骤3得到的xi的特征。常用的浅层视觉模型处理流程图像预处理特征设计与提取特征汇聚或变换分类器/回归器xxyzz21'*minargNiiiWWzyW图像分析与理解的方法基于浅层模型的方法第8章计算机视觉人工设计特征本质是一种专家知识驱动的方法,即研究者自己或通过咨询特定领域专家,根据对所研究问题或目标的理解,设计某种流程来提取专家觉得“好”的特征。目前,多数人工设计的特征有两大类,即全局特征和局部特征。前者通常建模的是图像中全部像素或多个不同区域像素中所蕴含的信息,后者则通常只从一个局部区域内的少量像素中提取信息。特征设计与提取方法典型的全局特征对颜色、全图结构或形状等进行建模,例如在全图上计算颜色直方图,傅立叶频谱也可以看作全局特征。与局部特征相比,全局特征往往粒度比较粗,适合于需要高效而无须精细分类的任务,比如场景分类或大规模图像检索等。相对而言,局部特征可以提取更为精细的特征,应用更为广泛。图像分析与理解的方法基于浅层模型的方法第8章计算机视觉特征汇聚方法典型的方法包括视觉词袋模型、Fisher向量和局部聚合向量(VLAD)方法。特征变换方法典型的方法包括主成分分析(PCA)、线性判别分析、核方法、流形学习等。其中,主成分分析是一种在最小均方误差意义下最优的线性变换降维方法,在计算机视觉中应用极为广泛。特征汇聚与特征变换方法图像分析与理解的方法基于浅层模型的方法第8章计算机视觉图像分析与理解的方法基于浅层模型的方法计算机视觉中的分类器基本都借鉴模式识别或机器学习领域,如最近邻分类器、线性感知机、决策树、随机森林、支持向量机、AdaBoost、神经网络等都是适用的。需要特别注意的是,根据前述特征的属性不同,分类器或回归器中涉及的距离度量方法也有所差异。例如,对于直方图类特征,一些面向分布的距离(如KLD、卡方距离等)可能更实用;对PCA、FLDA变换后的特征,欧氏距离或Cosine相似度可能更佳;对一些二值化的特征,海明距离可能带来更优的性能。分类器或回归器设计第8章计算机视觉目标检测是计算机视觉中的一个基础问题,其定义某些感兴趣的特定类别组成前景,其他类别为背景。R-CNN最早将深度学习应用在目标检测中,一般包括以下步骤:基于深度模型的目标检测技术步骤1:输入一张图像,使用无监督算法提取约2000个物体的可能位置;步骤2:将所有候选区域取出并缩放为相同的大小,输入卷积神经网络中提取特征;S步骤3:使用SVM对每个区域的特征进行分类。图像分析与理解的方法基于深度模型的方法第8章计算机视觉对于像素级的分类和回归任务,代表性的深度网络模型是全卷积网络(FullyConvolutionalNetwork,FCN)。FCN对图像进行像素级的分类,从而解决了语义级别的图像分割问题。。FCN有两大明显的优点:一是可以接受任意大小的输入图像,而不用要求所有的训练图像和测试图像具有同样的尺寸;二是更加高效,避免了由于使用像素块而带来的重复存储和计算卷积的问题。FCN的缺点也比较明显:一是得到的结果还是不够精细。二是对各个像素进行分类,没有充分考虑像素与像素之间的关系,忽略了通常的基于像素分类的分割方法中使用的空间规整(SpatialRegularization)步骤,缺乏空间一致性。基于全卷积网络的图像分割图像分析与理解的方法基于深度模型的方法第8章计算机视觉图像分析与理解的方法基于深度模型的方法图像自动标题(ImageCaptioning)的目标是生成输入图像的文字描述,即常说的“看图说话”,这也是一个深度学习取得重要进展的研究方向。深度学习方法应用于该问题的代表性思路是使用CNN学习图像表示,然后采用循环神经网络RNN或长短期记忆模型LSTM学习语言模型,并以CNN特征输入初始化RNN/LSRM的隐层节点,组成混合网络进行端到端的训练。通过这种方法,有些系统在MSCOCO数据集上的部分结果甚至优于人类给出的语言描述。融合图像和语言模型的自动图题生成8.1计算机视觉概述ONTENTS内容大纲8.2计算机视觉中图像分析与理解的方法8.3计算机视觉的典型应用8.4本章小结第8章计算机视觉第8章计算机视觉计算机视觉的典型应用计算机视觉的应用范围与规模是目前人工智能应用中最为广泛与普遍的,且早已深入日常生活与工作的多方面,以至于人们并未感觉到现代人工智能时刻刻存在着,如二维码识别、联机手写输入等。目前计算机视觉的大致应用领域包括模式识别、动态行为分析、机器视觉。第8章计算机视觉计算机视觉的典型应用模式识别二维码识别(QRDroid)是一款基于ANDROID完整的QR二维码识别软件,主要用于生成和扫描QR码。可以通过三种方法获取QR码
本文标题:《人工智能基础与应用》(樊重俊编著)第8章+计算机视觉
链接地址:https://www.777doc.com/doc-7182293 .html