您好,欢迎访问三七文档
当前位置:首页 > 行业资料 > 造纸印刷 > 基于相位的视频运动处理
基于相位的视频运动处理NealWadhwaMichaelRubinsteinFredoDurandWilliamT.Freeman´MITComputerScienceandArtificialIntelligenceLab图1:在风中轻微摇曳的起重机的视频放大。(a)顶部:左图所示的原始序列(起重机)中方块位置的放大图;底部:沿着顶部放大的方块中标记的剖面,视频的空间-时间XT切片。(b-c)分别表示线性[Wu等人.2012]和基于相位的运动放大结果中与(a)对应的方块和空间-时间切片。前者,线性方法凸显了起重机的运动,既放大来运动信号也放大了噪声,而且对于较大的空间频率和运动会产生伪影,如图(b)中切片图的强度(明亮的像素)。相比,我们基于相位的新方法支持更大的放大因子,明显减少了伪影和噪声,如图(c)所示。完整的序列可从补充的视频中获取。摘要我们提出了一种基于复数域图像金字塔的运动分析方法的视频小运动放大技术。复数域可操控金字塔系数随时间的相位变化与运动相对应,并且通过时间上的处理和放大以显示难以察觉的运动。或者减弱以消除干扰的变化。这种处理不涉及光流的计算,相比先前的欧拉视频放大方法,它还支持更大的放大因子,并且显著降低了对噪声的敏感度。这些改进的性能拓宽了视频运动处理的应用范围。我们在合成和自然的视频序列上证明了该方法的优势,探索了在科学分析,可视化和视频增强中的应用前景。CR分类:I.4.8[图像处理和计算机视觉(IPCV)]:场景分析-时变影像;关键字:基于视频的渲染,时空分析,欧拉运动,视频放大1.引言很多现象会呈现过于微弱而无法明显被肉眼所感知的运动,这需要通过计算机去放大和显示[Liu等人.2005;Wu等人.2012]。拉格朗日的运动放大方法[Liu等人.2005;Wang等人.2006],精确计算运动并根据放大的速度矢量来扭曲视频帧。但是,运动估计仍然是一个具有挑战性和计算密集型的任务,所估计的运动误差往往也在结果中可见。最近提出的欧拉方法省去了复杂的光流计算,在空间和时间上单独处理视频。Fuchs等人在2010年利用欧拉视频处理抑制了视频中运动的时间混淆。不幸的是,线性欧拉视频放大[Wu等人.2012]在高空间频率处仅仅支持小放大因子,增加放大因子时,也会显著放大噪声。为了应对这些问题,我们提出了一种新的欧拉方法进行运动处理。该放法基于复数域可操作金字塔[Si-moncelli等人.1992;PortillaandSimoncelli2000],受到了基于相位的光流[FleetandJepson1990;GautamaandVanHulle2002]和没有运动的运动[Freeman等人.1991]的启发。正如傅里叶基函数(正弦波)的相位变化是与傅里叶移位定理的转换相关的。复数域可操作金字塔的相位变化也对应于图像空间子带中的局部运动。我们没有精确的光流计算,而是通过计算局部相位变化来测量运动,然后,进行时序处理去放大特定时间频率带内的运动,最后重构放大后的视频。图2:我们基于相位的方法通过分析不同尺度和方向下随时间推移的局部相位信号来操作视频里的运动。我们使用复数域可操作金字塔分解视频,分离局部小波的幅度和相位(a)。然后,我们在每个位置、方向和尺度上独立进行时间维的滤波(b)。我们可选择性使用幅度加权的空间平滑(c,3.4节),以增加相位的信噪比。我们经验性地发现,平滑处理可以提升结果。接着,我们放大或减弱通过时间带通滤波的相位(d)。最后,重构视频(e)。此例展示了使用两个尺度和两个方向的金字塔(为了可视化更加清晰,本图中金字塔水平之间尺寸的相对差异较小)处理薄膜序列(第4节)的流程。我们从运动与可操作金字塔中相位的关系开始,证明了通过一个乘数因子来增加相位变化可以放大微弱的运动。我们用这种关系分析我们的方法的局限,这通过可操作基函数的空间支撑来设置。为了进一步放大运动,我们将复数域可操作金字塔扩展成分倍频可操作金字塔,该金字塔由原始域上具有更大空间支持的滤波器组成。当新的图像表达因一个较大因子而过完备的时候,它在所有的空间频率上支持更大的运动放大,产生更少的伪影。基于相位的方法较之前的线性欧拉放大方法[Wu等人.2012],在两个重要的方面进行了改进(图1):基于相位的方法实现更大的放大,并具有更好的噪声性能。因为Wu等人[2012]放大时间上的亮度变化,噪声的幅度也被线性放大。相反,当前的方法是放大相位而不是幅度,并不会增加空间噪声的大小。我们证明了基于相位的方法能够实现更大倍数的运动放大,产生更少的伪影,并对能用运动放大技术可视化的小尺度物理现象集合进行了拓展。本文的主要贡献是:(a)基于对复数域可操作金字塔随随时间的相位变化的分析,提出一种对视频里的运动进行欧拉处理的新方法;(b)我们探讨了变换表示的简洁性与在倍频和分倍频带宽金字塔下放大的幅度之间存在的权衡;以及(c)我们证明了通过对每个图像子带的相位信号进行空间上的滤波可以精致已提取的小幅度运动信号,并提升了运动处理的结果。相比之前的欧拉运动放大方法,新的基于相位的方法能够进一步放大小运动,产生更少的噪声和更少的伪影。2.背景基于相位的光流:FleetandJepson[1990]通过计算时空带通视频的相位梯度来跟踪持续的相位轮廓,并证明了这种方法对运动场进行了较好的估计,且由于图像变化的对比度和尺度,相位比幅度具有更好的鲁棒性。GautamaandVanHulle[2002]使用了相似的技术估计了运动场,对于一段空间带通滤波后的视频,他们计算其相位的时间梯度。我们在相位和运动之间建立联系,但力求避免对光流向量进行精确计算,而是直接操作视频的相位变化。复数域可操作金字塔:可操作金字塔是一种过完备的变换,它根据空间尺度、方向和位置来分解图像。变换的基函数类似于Gabor小波,是加一个高斯包络窗的正弦波,并且可操控。我们的工作没有利用这些基函数的可操纵性,但是该变换包含有助于运动分析的其他属性:非混叠子带和正交相位滤波器。我们测量每个子带的相位,使用成对的偶数和奇数相位的定向空间滤波器,滤波器的输出是可操作金字塔[Simoncelli等人.1992]的复值系数。可操作金字塔的下采样方案避免了空间混叠,因此允许从金字塔系数中进行有意义信号相位的测量。每个系数的实部表示偶对称滤波(余弦),而对应的虚部表示奇对称滤波(正弦)。当复值金字塔达到实值金字塔的两倍过完备时,允许对局部幅值和相位进行简单的测量。然后,我们利用这些局部幅度和相位去处理运动。可操作金字塔具有非方向性的实值高、低通系数,用于描述没有被带通滤波器获取的剩余信号分量[Simoncelli等人.1992]。在可操作金字塔的方向带中,频率域变换函数Ψω,θ是基本滤波器通过缩放和旋转的副本,并由尺度ω和方向θ来索引。通过将这些变换函数应用到一幅图像I的离散傅立叶变换Ĩ来构建可操作金字塔,将图像分解成不同的空间频带Sω,θ,满足DFT𝑆̃𝜔,𝜃(𝑥,𝑦)=𝐼̃Ψ𝜔,𝜃。每个滤波器隔离频域的连续区域,因此具有空间上局部化的脉冲响应(图4(脉冲响应))。所得的空间频带在空间、尺度和方向上是局部化的(见[PortillaandSimoncelli2000]中滤波器设计步骤)。复数域可操作金字塔的变换函数仅仅包含对应实可操作金字塔滤波器的正频率。也就是说,2cos(𝜔𝑥)=𝑒𝑖𝜔𝑥+𝑒−𝑖𝜔𝑥的响应是𝑒𝑖𝜔𝑥,因此存在幅度和相位的理解。在频域里,给出了构建和压塌金字塔的过程:𝐼̃𝑅=∑𝑆̃𝜔,𝜃Ψ𝜔,𝜃=∑𝐼̃Ψ𝜔,𝜃2其中求和覆盖了金字塔的所有尺度和方向,得到重构的图像IR。我们在频域里进行滤波。3.基于相位的运动处理我们的处理是通过修改视频的复数域可操作金字塔表示中的局部相位变化,以放大微小运动。本章节。我们对方法进行描述,并讨论基于相位的技术相比线性欧拉运动放大技术[Wu等人.2012],为何具有更好的噪声处理和最大的放大倍率。为了直观并证明相位变化与运动相对应,我们对该技术如何适用于正弦波(傅立叶基元素)进行了演示。对于非周期的图像结构,基于相位的运动放大倍率被复数域可操作金字塔滤波器的空间支撑所限制。为了克服这个界限,我们使用具有更宽空间支撑的分倍频带宽的复数域可操作金字塔。3.1运动放大基于相位的放大依赖于复数可操作金字塔,因为它允许我们去测量和改变局部运动。为了给出基于相位的运动处理的直观表达,我们首先用全局傅立叶基底来举例,考虑一维图像强度分布f沿时间的全局变换情况𝑓(𝑥+𝛿(𝑡)),位移函数为𝛿(𝑡)(不要与𝛿函数混淆)。我们希望合成一段具有修正后运动𝑓(𝑥+(1+𝛼)𝛿(𝑡))的序列,其中放大因子为α。我们将在本节结束的时候讨论这个一般情况。使用傅立叶级数展开,我们将移位的图像分布𝑓(𝑥+𝛿(𝑡))写成复正弦波的和,(2)其中每个频带(波段)对应一个频率ω。从公式2中,频率为ω的频带是复数域的正弦波(3)因为Sω是正弦信号,它的相位ω(x+δ(t))包含运动信息。像傅立叶移位定理,我们可以通过修改相位操纵运动。为了分离特定时间频率的运动,我们用一个直流平衡滤波器对相位𝜔(𝑥+𝛿(𝑡))(公式3)进行时间滤波。为了简化推到,假设时间滤波器除了去除直流分量外ωx,没有其他作用。时间滤波的结果是:𝐵𝜔(𝑥,𝑡)=𝜔𝛿(𝑡)(4)然后我们对带通后的相位𝐵𝜔(𝑥,𝑡)乘以α倍,并将其加入子带𝑆𝜔(𝑥,𝑡)的相位中,以获得运动放大后的子带(5)Sω(x,y)是一个复正弦波,它的运动是输入的1+α倍(图3)。我通过压塌金字塔来重构运动放大后的视频。本文的分析中,我们可以通过对所有子带求和来获取运动放大的序列𝑓(𝑥+(1+𝛼)𝛿(𝑡))。通常,视频中的运动是局部的,𝛿(𝑡)实际上是𝛿(𝑥,𝑡)。我们用复可操作金字塔求处理局部运动,因为它的滤波器的脉冲响应包含有限的空间支撑(图4(脉冲响应))。特别是,我们的方法工作原理如下(图2)。我们在可操作金字塔的每个空间尺度和方向上,计算随时间推移的局部相位。然后,我们对这些相位进行时间上的带通滤波,以分离与给定应用相关的特定时间频率,并去除时间直流分量。这些时间上带通后的相位对应于不同空间尺度和方向上的运动。为了合成放大后的运动,我们将带通后的相位放大一个放大因子α倍。然后,我们通过对每帧、每个系数的相位都进行同样的操作,最后使用这些增强的相位变化去放大(或衰减)序列中的运动。3.2界限我们移动图像的特征,是通过对覆盖该特征的每个复金字塔滤波器进行相移来实现。我们最终会达到一个极限,超过这个极限就无法移动特征,因为每个金字塔滤波器的空间支撑都是有限的(图.2(a)和图4(1维小波))。
本文标题:基于相位的视频运动处理
链接地址:https://www.777doc.com/doc-7429112 .html