您好,欢迎访问三七文档
计算机视觉进展一.立体视觉的概念•1.计算机视觉的概念•2.立体视觉的概念1.计算机视觉的概念•什么是计算机视觉?•模拟人眼接收客观世界中可见光信息,并由大脑解释可视信息的过程,使用算法对真实图像或视频中的内容给予有效的解释。•入口数据:图像、视频(可视信息)•出口数据:对可视内容的某种解释(非可视信息)•应用实例:•汽车牌照识别•车辆形状识别•人脸识别•拍摄场景中的人数统计•动态目标分割、定位、跟踪、行为分析计算机视觉的三维感知获取场景中各点相对于摄象机的距离是计算机视觉系统的重要任务之一。场景中各点相对于摄象机的距离可用深度图来表示,即深度图中的每一个象素值表示场景中某一点与摄象机之间的距离。计算机视觉系统获取深度图的方法可分为两类:(1)被动测距传感(2)主动测距传感被动测距传感是指视觉系统接收来自场景发射或反射的光能量,形成有关场景光能量分布函数(即灰度图象),然后在这些图象的基础上恢复场景的深度信息。主动测距传感是指视觉系统首先向场景发射能量,然后接收场景对所发射能量的反射能量。主动测距传感与被动测距传感的主要区别在于视觉系统是否是通过增收自身发射的能量来测距。2.立体视觉一、概述•立体视觉或双目立体视觉(Stereo或binocularVision),或简称为体视。体视是人类获取环境三维信息的主要途径。•人类视觉系统–体视可经受各种干扰,•在各种光照条件和光度学及几何学畸变的条件下仍能可靠地提供立体信息。体视可经受对比度的变化,在一幅图相对于另一幅图有明显的模糊或扩展时,仍能工作良好。–体视的处理是快速和实时的,并能很好地处理物体运动的情况–体视对深度信息检测的分辨率很高。•理想条件(孤立边缘)下能可靠地分辨小于1秒弧的视差。这相当于在1米的观察距离上确定大约相距0.8毫米的两个特征的相对深度,或在50厘米远处的0.2毫米的相对深度。立体视觉是计算机视觉领域的一个重要课题,它的目的在于重构场景的三维几何信息。立体视觉的研究具有重要的应用价值,其应用包括移动机器人的自主导航系统,航空及遥感测量,工业自动化系统等。•一般而言,立体视觉的研究有如下三类方法:(1)直接利用测距器(如激光测距仪)获得程距(rangedata)信息,建立三维描述的方法;(2)仅利用一幅图象所提供的信息推断三维形状的方法;(3)利用不同视点上的,也许是不同时间拍摄的,两幅或更多幅图象提供的信息重构三维结构的方法。•第一类方法,也就是程距法(rangedatamethod),根据已知的深度图,用数值逼近的方法重建表面信息,根据模型建立场景中的物体描述,实现图象理解功能。这是一种主动方式的立体视觉方法,其深度图是由测距器(rangefinders)获得的,如结构光(structuredlight)、激光测距器(laserrangefinders)等其他主动传感技术(activesensingtechniques)。这类方法适用于严格控制下的环境(tightlycontrolleddomains),如工业自动化的应用方面。第二类方法,依据光学成象的透视原理及统计假设,根据场景中灰度变化导出物体轮廓及表面,由影到形(shapefromshading),从而推断场景中的物体。线条图的理解就是这样的一个典型问题,曾经引起了普遍的重视而成为计算机视觉研究领域的一个焦点,由此产生了各种各样的线条标注法。这种方法的结果是定性的,不能确定位置等定量信息,该方法由于受到单一图象所能提供信息的局限性,存在难以克服的困难。第三类方法,利用多幅图象来恢复三维信息的方法,它是被动方式的。根据图象获取方式的区别又可以划分成普通立体视觉和通常所称的光流(opticalflow)两大类。普通立体视觉研究的是由两摄像机同时拍摄下的两幅图象,而光流法中研究的是单个摄像机沿任一轨道运动时顺序拍下的两幅或更多幅图象。前者可以看作后者的一个特例,它们具有相同的几何构形,研究方法具有共同点。双目立体视觉是它的一个特例。2D和3D的关系•现实存在的问题–一般的物体(Objects)都是三维的;–图像(Images)却是有关灰度,颜色等信息的阵列;–3D的深度(Depth)信息在一幅图像上不能明显的显示出来。•2D的分析需要3D的信息–物体表面是连续,平滑(Smooth)的;–物体都有特定的形状和边界。•3D的信息可以通过2D的图像计算出来–视差(Disparity),深度(Depth)信息等等。为什么需要两个眼睛?•物体的深度信息不能通过单眼所获得为什么需要两个眼睛?物体的深度信息可以通过双眼的观察得到。1、工作原理双目立体视觉三维测量是基于视差原理由上式可知,对于一组给定的摄象机参数,提高场景点深度计算精度的有效途径是增长基线距离T,即增大场景点对应的视差。同时也带来一些问题,主要有:(1)随着基线距离的增加,两个摄象机的共同可视范围减小;(2)场景点对应的视差值增大,则搜索对应点的范围增大,出现多义性的机会也增大;(3)由于透视投影引起的变形导致两个摄象机获取的两幅图象中不完全相同,这就给确定共轭对带来了困难。极线几何基线:左右两像机光心的连线;极平面:空间点,两像机光心决定的平面;极点:基线与两摄像机图像平面的交点;极线:极平面与图像平面的交线。•plprPOlOrelerPlPr极平面极线极点外极线几何(Epipolargeometry)外极线几何(Epipolargeometry)•外极面(Epipolarplans)–所有通过二个摄像机光心的平面–每个空间点有一个外极面•外极线(Epipolarlines)–外极面与图像的交线–外极面上的空间点投影到每个图像平面中的外极线上•外极点(Epipoles)–每个图像中的外极线都通过该图像中的外极点–外极点与另一个摄像机的光心的投影对应–立体视觉摄像机的光轴平行时外极点在无穷远处外极线--如果已知空间点在一个图象平面中的成象点要寻找在另一图象平面中的对应点时,只需沿此图象平面中的外极线搜索即可图示系统中,视差与光轴交角有关。对于任一光轴交角,在空间中总存在一个视差为零的表面。比这一表面远的物体,其视差大于零;比这一表面近的物体,其视差小于零。这三组视差可用于解决匹配不确定问题。•距离和深度–距离是指从观察者到物体的客观实际距离;–深度(depth)是指由观察者感觉到的主观距离,通常是测量相对于定位点或某个空间点的距离。•立体视觉处理的组成:–寻找在两幅图象中都便于区分的特征,或用于匹配的基元(primitive)–把左、右两幅图象中的有关特征进行匹配,即解决特征匹配的方法问题–确定摄象机的相对几何位置和有关参数,即摄象机的校准(Calibration)–根据视差计算成象物体相对摄象机的距离–深度信息内插。(即:摄象机模型、特征提取、特征匹配、视差和深度计算、深度信息内插五部分)上图是由两个摄象机得到的真实图象对。立体重建的关键是特征点匹配,从左图中任取一点p1,计算机如何找到在右图中与它的对应点p2。即匹配问题。立体匹配•选取何种匹配基元进行匹配?••两种主要的方法–特征匹配–稠密匹配特征匹配•常用特征边缘线(长度、方向、平均对比度)角点•匹配算法在立体图对中抽取特征定义相似度利用相似度和极线几何寻找匹配对于左图像中的每一个特征在右图像中寻找…当相似度达到最大时的偏移量就是视差左图像角点线结构右图像角点线结构稠密匹配•找到对应于场景中同一点的像素•通常假设–经过立体校正–分块平滑表面–朗氏表面•目标:找到视差图•局部算法(Local/window-basedalgorithms):–在匹配点的一个特定窗口中计算相似度。–SSD,SAD,MSE,MAD,etc.•全局算法(Globalalgorithms):–能量方程:–模拟退火(Simulatedannealing),动态规划(DynamicProgramming),最大流(Max-flow),图像分割(graph-cut),etc.特征匹配VS稠密匹配•特征匹配(Featurematch):–速度快,匹配效率高;–特征的提取可以到亚像素级别,精度较高;–匹配元素为物体的几何特征,对照明变化不敏感;–重建需要拟合。•稠密匹配(Densematch):–重建不需要拟合;–速度慢,效率低;–对于无纹理,纹理不明显的图像匹配效果不理想;–对光强、对比度、照明条件敏感。2、匹配基元的选择•搜索对应点时的多义性的解决–1.在单幅图象作预处理时通过抽取图象局部结构较为丰富的描述来减少错误对应的可能性–2.在两幅图的对应点间作匹配时应用选择性规则来限制搜索空间•匹配基元的类型1.在所有图象点上抽取的量测:这类匹配基元一般是在每个象素位置处都产生一个描述。这些特征表示图象中的局部结构状态.属于这类的匹配基元有以下几种:(1)象素灰度(2)局部区域的灰度函数。在各种大小窗口中求得的灰度分布的导数可用于产生描述各点周围结构的矢量(3)卷积图象的符号.把图象与各种大小的算子卷积后,图象中各点的符号可作为原始图象特征的描述。2.图象特征•这种匹配基元较为符号化,它检测图象中包含丰富信息的结构所在的位置,例如图象中的边缘,这些边缘可能与景物中表面之间的边界相对应。与象素相比图象特征数量较少–(1)卷积图象中的过零点。这种方法是由Marr和Poggio,Marr和Hildreth提出和发展的。它虽然也可用于检测边缘,但是更确切说这种方法的目的是检测稳定的、稠密的表面标志。按这种方法任何小的影调变化或小的纹理变化只要稳定都是一个特征–(2)边缘。这种基元试图抽取景物中表面之间或不同颜色区域之间的实际边界。这种匹配基元上还可以带有如边缘方向、对比度、长度、边缘曲率等附加信息物体的外轮廓线一般不能作为匹配的特征,如右图,曲面上的外轮廓线不是物体表面法线方向的不连续点,而是曲面可见部分与不可见部分的分界线。与视点有关。3、匹配规则(matchingrules)•约束条件---这些约束条件是根据对匹配环境所作的假设产生的1.相容性(Compatibility)约束–如果两个匹配基元确实是由同一物理标记产生的,那么它们就可以匹配起来•一种是基于光度学不变性的性质•另一种相似性的假设是根据几何学不变性2.唯一性约束-图象中的每个匹配基元最多只能有一个视差值3.连续性约束-视差值的变化在图象中几乎处处平滑4.外极线约束利用外极线约束可以将二维搜索问题变为一维搜索问题。如图,空间某一距离区间内的一条直线段对应外极线上的一个有限区间。图7.3两个视网膜上成象对应关系的多义性体现约束条件的匹配规则1.对相似性测量的本质作出规定的规则–(1)区域的统计量–(2)边界的统计量–(3)点的统计量2.视差梯度限制规则–(1)排序约束–(2)视差梯度范围限制–(3)由粗到细的匹配规则4、算法简介•立体视觉算法可分成两大类:–以密集的基元测量为基础,称为基于区域(area-based)的算法。这类算法的典型例子是利用小区域上的相关技术•可得到较稠密的深度数据,数据的精度较差•适合于景物中的深度变化小的情形–以在图象中相对比较稀少的、较为符号化的特征为基础,称为基于特征(feature-based)的算法•只能得到较稀疏的深度数据•深度数据的精度较高•可用于深度变化大的景物–混合算法•在匹配的不同阶段分别使用上述两类算法以期达到更高的性能•边缘匹配例该算法使用的边缘特征是通过高斯函数的一阶导数获得的。在有噪声的情况下,使用高斯梯度来计算边缘更加稳定。使用边缘匹配的立体视觉算法步骤如下:(1)用四个不同宽度的高斯滤波器对立体图象对中的每一幅图象进行滤波,其中前一次滤波的宽度是下一次滤波器宽度的两倍。这一计算可以反复通过对最小的滤波器进行卷积来有效地实现;(2)在某一行上计算各边缘的位置;(3)通过比较边缘的方向和强度粗略地进行边缘匹配。显然,水平边缘是无法进行匹配的;(4)通过在精细尺度上进行匹配,可以得到精细的视差估计。二、Marr-Poggio-Grimson算法(MPG算法)•以不同大小的算子与图象卷积,并从中抽取过零点作为匹配
本文标题:计算机视觉
链接地址:https://www.777doc.com/doc-3358344 .html