您好,欢迎访问三七文档
当前位置:首页 > 办公文档 > 会议纪要 > 韩青-2015-11-05-技术报告
技术报告韩青2015-11-05第十二章涵盖了其他的3D形状和表观建模方法。这包括经典的由X到形状的方法,例如由阴影到形状,由纹理到形状,由聚焦到形状,由光滑的遮挡轮廓(contour)和剪影(silhouette)到形状。与所有这些被动计算机视觉方法不同,另一种选择是使用主动的距离测定,即将模式化的光投影到场景上,通过三角测量恢复3D几何。这些3D表达的处理通常都涉及插值或几何化简,或使用诸如表面点集的其他表达。从单幅或多幅图像到部分或全部3D的方法一起常称作基于图像的建模或3D摄影学。本章探讨了三个特殊的应用领域(建筑物、人脸和人体),他们使用基于建模的重建来对感知的数据进行参数化模型拟合;还探讨了表观建模主题,即估计纹理图、反照度甚至有时是描述3D表面的表观的完整双向反射分布函数(BRDF)的方法。1、由阴影到形状,大部分由阴影到形状的算法都假设所考虑的表面具有均匀的反照率和反射率,且光源的方向要么已知,要么可以使用参考目标标定得到。在假设光源和观察者都在远处的前提下,亮度的变化(辐照度方程)变成单纯的局部表面方向的函数,I(x,y)=R(p(x,y),q(x,y))其中(p,q)=(zx,zy)是深度图的导数而R(p,q)被称为反射图。由于很少有表面具有一个统一的反照率,因此由阴影到形状需要与其他方法相结合或者通过某种方式的扩展才能变得有用,一种方式是与立体视觉匹配或者已知纹理(表面模式)相结合。立体视觉和纹理成分可以提供纹理区域的信息,而由阴影到形状则填补了具有均匀颜色的区域的信息而且也可以提供关于表面形状的更精确的信息。另一种方式是使用多个可以选择性开关的电源(光度测量立体视觉)。2、由纹理到形状,该算法需要的处理步骤:抽取重复模式或者局部频率的测量以计算局部仿射变形,推测局部表面方向。当原始模式有规则时,可以将一个规则但轻微变形的网格拟合到图像上,并通过这个网格来进行各种图像替换或者分析任务,由曲面镜的反射中观察规则模式的形变,可用于恢复表面的形状,也可以从高光流(specularflow),即从移动的摄像机观察到的高光运动推测局部形状。3、由聚焦到形状,物体深度的一个强线索是模糊的程度,它随着物体表面远离摄像机焦距而增加。需要研究的问题:A.在向远离焦平面方向移动时,两个方向上的模糊程度都会增加,因此,需要使用两幅或更多幅使用不同焦距设置捕捉的图像或者在深度方向上平移目标并寻找具有最大锐利度(sharpness)的点。B.物体的放大率可以随着焦距的变化或物体的移动而变化,这种变化可以显式地描述(使得对应更加困难)或者使用远心光学描述,它近似一个正交投影摄像机并需要在镜头前有一个光圈。C.散焦的程度必须可靠的估计出来,一个简单的方式是计算一个区域内梯度平方的均值,但这种方法有几个问题,包括图像放大问题。更好地解决办法是使用精心设计的有理多项式滤波器。4、完整人体建模与跟踪:背景差分、初始化与检测、使用流跟踪、3D运动学模型、概率模型、自适应形状建模以及动作识别领域中的一些原创及被广泛引用的论文。A.背景差分,建立背景模型以提取对应于人的移动前景物体(轮廓),一旦轮廓从一个或多个摄影机中被提取出来,就可以用可变性模板或其它轮廓模型进行建模。在时间上跟踪这样的轮廓可以支持对在场景内移动的多个人的分析,包括建立形状和表观模型以及检测他们是否携带物品。B.初始化与检测,为了以全自动的方式跟踪人,有必要首先在各个视频帧中检测(或者重新获取)他们的存在。C.使用流跟踪,人体及其姿态的逐帧跟踪可以通过计算光流或逐帧匹配人体肢体的表观得以增强。D.3D运动学模型,使用人体形状和运动的一个更精确的3D模型,人体建模和跟踪的效果可以大大提高。一个流行的方法是在运动学模型中将每个刚性肢体与一个椭圆体或超二次型结合,然后这个模型可以通过匹配从已知背景中抽取出来的轮廓或者通过匹配和跟踪遮挡边缘的位置,被拟合到一个或多个视频流的每一帧上。也可以使用时序模型,通过分析关节角度对时间的函数,以改进周期性运动,如步行的跟踪。E.概率模型,从数据得到不同肢体在不同时间的条件概率,并使用粒子滤波进行最终的姿态推断。F.自适应形状建模,全身建模和跟踪的另一个重要部分是参数模型到视觉数据的拟合。G.活动识别,人体建模中最后一个广泛研究的主题是运动(motion)、活动(activity)和动作(action)识别,经常识别的动作包括行走和奔跑、跳跃、舞蹈、拾取物品、坐下和站起以及挥手。第十三章讨论过去二十年来发展起来的众多基于图像的绘制方法,包括简单的方法,例如视觉插值、分层的深度图像、子画面(sprite)和图层,还有光场和照度图的更一般的框架和诸如环境影像形板(environmentmatte)的更高阶场。这些方法的应用包括使用照片导览来浏览照片的3D收藏和将3D模型作为物体制片来观察。本章还讨论基于视频的绘制,它是基于图像的绘制在时序上的扩展。所覆盖的主题包括基于视频的动画,周刊性视频转化为视频纹理和从多个视频流重建3D视频。这些方法的应用包括视频去噪、变形和基于o360视频的导览。1、视图插值,将两幅原始彩色图像和它们对应的预先计算好的深度图结合起来,通过差值方法生成这两张图之间视角的图像,即模拟一个虚拟摄像机在这两幅参考图像之间所拍摄到的画面。视图插值方法融合了计算机视觉和计算机图形学领域已有研究中的两个基本思想:一是在计算过程中将参考图像和计算得到的深度图结合起来,然后使用纹理映射得到的3D模型生成新视角的图像;二是变形,即使用两幅图像之间的对应关系,分别将两幅参考图像卷绕(warp)到一个中间位置,同时将这两个卷绕后的图像交溶(cross-dissolve)(淡入淡出)到一起。视图相关的纹理映射(view-dependenttexturemap)与视图插值算法密切相关。不同于为同一场景每个视图的输入图像分别关联一个深度图,在视图相关的纹理映射中,我们只为场景生成一个唯一的3D模型,但是根据对应的虚拟摄像机的位置使用不同的图像作为纹理映射源。2、层次深度图像,传统的视图插值方法需要为每一幅源图像或参考图像都关联一幅深度图像。在参考图像中为每一个像素(或者至少在前景-背景过渡区域的一些像素)关联多个深度和颜色值(深度像素)。这种数据结构叫“层次深度图像”(layereddepthimage,LDI)。使用层次深度图像和从后向前的前向卷积算法(抛雪球算法)就可以绘制出新的视图。3、基于视频的绘制,视频纹理(videotexture)是基于视频的动画的一个特例,在视频纹理中,原视频被自动的切割为若干片段,然后这些片段被重新连接起来形成一段无限长的视频动画。视频纹理可以通过重排视频中的帧来将较短的视频较短的视频剪辑任意地进行延展,同时保留视觉连续性。第十四章描述识别的不同方法。首先是检测和识别人脸的方法,然后是寻找和识别特定物体(示例识别),其次,介绍了是别的最困难的变形,即宽泛类属的识别,例如汽车、摩托车、马和其他动物,并介绍了场景上下文在识别中的作用。1、人脸检测,识别中比较成功的例子。在任意一幅图像中进行人脸识别之前,需要定位人脸的位置和大小。从理论上讲,可以再每个像素每个尺度上进行人脸识别。人脸检测的方法分为基于特征的、基于模板的和基于表观的。A.基于特征的方法,尝试寻找有区分性的图像特征的位置,比如眼睛鼻子和嘴,然后在合理的几何布局上验证这些特征是否存在。这类方法包括一些早期的人脸识别方法以及最新的一些基于模块特征空间的方法、局部滤波器束方法、支持向量机方法和boosting方法。B.基于模板的方法,比如灵活表观模型(activeappearancemodel,AAM),能够处理姿态和表情较大范围的变化。它们通常需要接近人脸的好的初始化,因此对快速人脸检测器不适合。C.基于表观的方法,扫描图像的小的有重叠的矩形区域寻找似人脸的候选区域,然后用一组更昂贵但具选择性的检测算法的层叠(cascade)求精,为了处理尺度缩放,图像通常转化为一个子八度金字塔,然后在每层上分别扫描。现在大多数基于表观的方法很依赖于在标定的人脸和非人脸的集合上训练检测器。2、boosting,在细节上讲,它涉及建立一个有简单的弱学习器(weaklearner)的和组成的分类器h(x),h(x)=sign[∑𝛼𝑗𝑚−1𝑗=0ℎ𝑗(x)],其中每个弱学习器ℎ𝑗(x)是输入的一个极为简单的函数,因此并不期望它(单独)对于分类性能有很大的贡献。在boosting的多数变形中,弱学习器是个阈值性的函数,ℎ𝑗(𝑥)=𝑎𝑗[𝑓𝑗𝜃𝑗]+𝑏𝑗[𝑓𝑗≥𝜃𝑗]={𝑎𝑗𝑖𝑓𝑓𝑗𝜃𝑗𝑏𝑗𝑜𝑡ℎ𝑒𝑟𝑤𝑖𝑠𝑒它们也成为“决策树桩”(decisionstump)(从本质上讲,是决策树最简单的版本)。在大多数情况中,习惯性的(简单的)把𝑎𝑗和𝑏𝑗设置为±1,即𝑎𝑗=−𝑠𝑗,𝑏𝑗=𝑠𝑗以便只需要选择特征𝑓𝑗,阈值𝜃𝑗和阈值极性𝑠𝑗∈±1。Boosting成功的关键是不断选择若分类器并在每个阶段后调整训练样本的权重,AdaBoost(AdaptiveBoosting)算法的做法是:通过将每个样本的权重调整作为其在每个阶段是否被正确分类的函数,然后用每个阶段的平均分类错误率在弱分类器中间决定最终权重𝑎𝑗,如下算法所述。A.输入训练的正样本和负样本以及它们的标签{(𝑥𝑖,𝑦𝑖)},其中𝑦𝑖=1表示正样本(人脸),𝑦𝑖=−1是负样本。B.初始化样本权重𝜔𝑖,1←1𝑛,其中N是训练样本的数目,用N1和N2分别表示正负样本的数目。C.对训练的每一步j=1…M(1)重新归一化权重,使其加起来为1(除以它们的和);(2)通过找到最小化加权分类错误率来选择最好的分类器ℎ𝑗(𝑥;𝑓𝑗,𝜃𝑗,𝑠𝑗)𝑒𝑗=∑𝜔𝑖,𝑗𝑁−1𝑖=0𝑒𝑖,𝑗,𝑒𝑖,𝑗=1−𝛿(𝑦𝑖,ℎ𝑗(𝑥𝑖;𝑓𝑗,𝜃𝑗,𝑠𝑗)).对于任何给定的函数,可以用一些加权平均计算在线性时间内找到最优值(𝜃𝑗,𝑠𝑗);(3)计算修正误差率𝛽𝑗和分类器的权重𝛼𝑗𝛽𝑗=𝑒𝑗1−𝑒𝑗and𝛼𝑗=−𝑙𝑜𝑔𝛽𝑗;(4)根据分类错误率𝑒𝑖,𝑗更新权重𝜔𝑖,𝑗−1←𝜔𝑖,𝑗𝛽𝑗1−𝑒𝑖,𝑗即将正确分类的训练样本与整体分类错误率成比例地降低权重。D.最终的分类器设置为h(x)=sign[∑𝛼𝑗𝑚−1𝑗=0ℎ𝑗(x)]3、使用视觉词的图像检索算法:(实例识别)A.构造词汇(离线)(1)从每个数据库图像中提取仿射协变区域;(2)计算描述子,可选择性地对它们进行白化,使得计算欧氏距离有意义;(3)用k均值算法,或者层次聚类算法或者随机的k-d树,把这些描述子聚类成一些视觉词;(4)确定哪些词是过于普通的,把它们放入停止表中。B.构造数据库(离线)(1)计算每个图像中的视觉词的词频,每个词的文档频率和每个文档的归一化的tf-idf向量;(2)计算从视觉词到图像的倒排索引(带有词的计数)。C.图像检索(在线)(1)对每个查询的图像或者区域,提取区域、描述子和视觉词,并计算tf-idf向量;(2)通过详尽的比较稀疏tf-idf向量或者使用倒排索引只检查图像的一个子集,检索最相似的图像候选;(3)用空间一致性或者仿射变换(或更简单的)模型,可选择性的再排序或者验证所以候选匹配;(4)可选择性的将排序很靠前的匹配再次作为新的查询来扩展答案集。4、类别识别,最简单的算法是词袋(也称为“特征袋”,即bagoffeatures或者“关键点袋”bagofkeypoints)方法,这个算法简单的计算在查询图像中找到的视觉词的分布(直方图),比较这个分布和训练图像中的分布。关键区域检测特征抽取直方图计算分类词袋类别识别系统的典型处理流水线首先在每个关键点抽取特征,然后量化得到在学习来的视觉词(特征类聚中心)上的分布
本文标题:韩青-2015-11-05-技术报告
链接地址:https://www.777doc.com/doc-1961136 .html