您好,欢迎访问三七文档
当前位置:首页 > 金融/证券 > 股票报告 > 基于块匹配算法的运动估计概要
1基于块匹配算法的运动估计摘要:本文首先介绍了运动估计和块匹配的概念和思想,然后详细介绍了块匹配的搜索算法。最后根据块匹配算法的运动估计给出了一个设计。关键字:运动估计,块匹配,算法1研究背景随着现代信息社会对通信业务要求的不断增长,图像通信与通信网容量的矛盾日益突出,尤其是具有庞大数据量的视频图像通信,更是很难传输和存储,极大的制约了图像通信的发展。例如,按CCIR601建议,普通质量的电视信号数字视频的码率约为216Mbit/s,而高清晰度电视HDTV则在1.2Gb/s以上,如果没有高效率的压缩技术,则难以传输和存储。而运动检测与估计不仅是军事领域中目标探测与跟踪的有效技术之一,同时也是视频图象编码与压缩的常用方法与核心技术。因此,该项研究对于复杂背景下的目标探测以及视频处理均具有重要的应用价值。运动估计和运动补偿是紧密联系的,它是视频图像压缩编码中使用的一项核心技术,很好的解决了视频图像中时间冗余的问题,经验表明,实用化的压缩方法可以将运动图像数据压缩30倍而不失真。运动估计技术主要分为两大类:象素递归法和块匹配法。考虑到计算复杂度和实时性要求,块匹配法已成为目前最常用的方法。显然,要想获得好的运动补偿,关键是要有准确的运动估计,因此运动估计算法的研究成为视频压缩算法的研究重点。运动估计研究的主要内容就是如何快速、有效的获得有足够精度的运动矢量。即把前一帧的运动部分根据运动矢量补过来,同时用其它方法得到其剩余的不同部分的过程称为运动补偿(MotionCompensation,MC)。就这样,采用运动估计和补偿可以有效地去除视频信号在时间方向的重复信息,达到压缩的目的。其中,在这方面的一种有效方法就是块匹配运动估计BMME(Block-MatchingMotionEstimation),它目前已被许多视频编码标准所采纳。为了提高搜索速度和效率,目前研究最多的是基于块匹配(BlockMatching,BM)的快速搜索算法,例如三步法,四步法,二维对数法,菱形法等。随着计算机网络的普及和发展,很多信息可以通过网络实现共享。形色兼具2的视频信息在网络传输的信息中所占据的比例也越来越高。但由于视频信息本身十分庞大,限制了其在网络中的传播速度。于是视频信息的压缩成为视频传输的一个重要环节。数字视频信息是由数字图像的时间序列构成的,每一幅数字图像称为一帧。视频编码的一个主(frame)要目的就是在保证一定重构质量的前提下,以尽量少的比特数来表征视频信息。视频编码是视频压缩的关键技术。视频编码与的原理是:由于表示图像和视频信息所需的大量的数据往往是高度相关的,这些相关性会引起信息的冗余,因此可以通过去除这些冗余信息来实现对视频数据的压缩。静止图像的压缩是在保持重建图像质量可以接收的同时,尽量去除图像本身存在的空间冗余,而视频信号的压缩,除了去除空间冗余之外,还可以通过去除时间冗余达到较高的压缩比。运动估计技术是视频图像压缩编码中使用的一项核心技术,很好的解决了视频图像中时间冗余的问题,运动估计技术主要分为两大类:象素递归法和块匹配算法。考虑到计算复杂度和实时性要求,块匹配法已成为目前最常用的方法。2实验原理如图1所示,运动估计的基本思想是将图像序列的每一帧图像分成许多互不重叠的宏块,并假设块内各像素只作相等的平移,然后对于当前帧中的每一块到前一帧或后一帧某一给定搜索范围内根据一定的匹配准则找出与当前块最相似的块,即匹配块,由匹配块与当前块的相对位置计算出运动位移,所得运动位移即为当前块的运动矢量。宏块大小为M×N,一般取16×16。搜索范围一般由最大偏移矢量来决定,设可能的最大偏移矢量为(dxmax,dymax),则搜索范围为(M+2dxmax)×(N+2dymax)。图1运动估计基本原理32.1块匹配介绍按照一般的想法,运动估计应当首先将图像中静止背景和运动物体区分开来,然后对运动物体的实际位移进行估计。但块匹配方法却不是这样,它的思想是将图像划分为许多互不重叠的子块(例如16×16),并认为子块内所有像素的位移量都相同。这意味着每个子块被视为运动物体。假设在图像序列中,t时刻对应于第k帧图像,t-τ时刻对应于第k-1帧图像。对于k帧中的一个子块,在k-1帧中寻找与其最相似的子块,这个过程称为寻找匹配块,并认为该匹配块在k-1帧中所处的位置就是k帧子块位移前的位置,这种位置的变化用运动矢量D来表示。将图像分割成M×N的小块,并假设块内象素作相同的运动,且只作平移运动。虽然实际上块内各点运动不一定相同,也不定只有平移运动,但当M×N较小时,上述假设可近似成立。这样做的目的只是为了简化运算。块匹配法对当前帧图像的每一块,在上一帧的一定范围内搜索最优匹配,并认为本块就是从上一帧最优匹配块位置处平移过来的。设可能的最大偏移矢量为(r,r),则搜索范围为(p+2r)×(q+2r)。图2示出了待匹配块与搜索区的几何位置关系。随着图像压缩编码技术的发展和对压缩效率愈来愈高的要求,在很多场合均要求运动矢量精确到亚象素元级。图2待匹配块与搜索区的几何位置关系块的大小受到两个矛盾的约束:块大时,块内各像素作平移运动的假设易被破坏,影响估计的精度;块小时,则易受噪声影响,估计不够可靠,而且运算量增加,所需传输的附加信息也增加了。因此必须恰到好处地选择块的大小,以做4到两者兼顾。目前的视频压缩标准,如H.26x和MPEG等,一般均以16×16大小的块作为块匹配单元,这是一个已为实践证明的较好的折衷结果。2.2离散余弦变换(DCT)离散余弦变换(DCT)是利用傅立叶变换的对称性,将图象描述为不同幅值和频率的正弦值之和的形式;是图象压缩JPEG压缩算法的基础和核心。是一个无信号损失的双向数学过程。通过DCT变换能去除视频信号的空间冗余。一个N×N矩阵的二维DCT定义如下:(1)正变换1100(21)(21)(,)()()(,)cos()cos()22NNcxyuxvyFuvcucvfxyNN(2.1)(2)反变换1100(21)(21)(,)()()(,)cos()cos()22NNcuvxuyvfxycxcyFvNN(2.2)其中1/(0)()2/(11)NkckNkN2.3块匹配的准则运动估计算法中常用的匹配准则有三种,即最小绝对差(拟D)、最小均方误差(MSE)和归一化互相关函数(NCCF)。分别定义如下:1、互相关函数(Cross-CorrelationFunction,简称CCF)1,2221,21,2(1,2,)(11,22,1)(1,2,)(11,22,1)nnBnnBnnBsnnksndndksnnksndndk(2.3)其中,1,2pnnp。(2.3)式是计算当前帧中(X×Y)矩阵域与前帧相对应的(X+2P,Y+2P)矩阵区域互相关函数。2、均方误差函数(MSE)5212121122(1,2)121(,)(,,)(,,1)nnBMSEddsnnksndndkNN(2.4)其中,1,2pnnp。(2.4)式是计算相邻帧相对应(X×Y)矩形区域的最小均方误差。这是一种非线性测量,能较好地跟踪图像的协方差模型。3、绝对平均误差函数(MAD)12121122(1,2)121(,)(,,)(,,1)nnBMADddsnnksndndkNN(2.5)(2.5)式是最简单的匹配函数,用它计算相邻帧的绝对平均误差。在(2.3),(2.4)和(2.5)式中都在寻找(x,y),得到一个最小失真矢量。(2.3)式是计算一个最大的自相关函数CCF(x,y),而(2.4)和(2.5)式是计算最小的均方误差和绝对平均误差函数MSE(x,y)和MAD(x,y)。由于块匹配算法计算简单,能够实时处理,近几年获得广泛的应用。4、最大像素匹配统计(MaximumPixelsCounting,MPC)还有一种匹配准则叫做最大匹配像素数(MPC:Matching-PixelCount)准则。首先根据下式将当前块中的像素分成匹配像素和不匹配像素:1211221((,,)(,,1))(1,2,1,2)0()snnksndndktTnnddOtherwise(2.6)(1,2)(1,2)(1,2,1,2)nnBMPCddTnndd(2.7)(1,2,1,2)1Tnndd,则位置(1,2,1,2)nndd的像素为匹配像素,否则为不匹配像素。2.4块匹配的搜索算法前两节的分析可以发现,在块匹配方法中最重要的两个问题是如何确定:(1)判别两个子块匹配的准则:(2)计算量最小的搜索方法。对这两个问题的不同解决方案构成了不同的搜索算法。下面将对一些典型的块匹配快速搜索算法进行逐次介绍。62.4.1完全搜索法(1)算法思想全搜索法(FullSearchMethod,FS)也称为穷尽搜索法,是对(p+2r)×(q+2r)搜索范围内所有可能的候选位置计算MAD(i,j)值,从中找出最小MAD,其对应偏移量即为所求运动矢量。此算法虽计算量大,但最简单、可靠,找到的必为全局最优点。(2)FS算法描述FS算法描述如下:Step1:从原点出发,按顺时针方向由近及远,在逐个像素处计算MAD值,直到遍历搜索范围内所有的点.Step2:在所有点MAD中找到最小值,该点所在位置即对应最佳运动矢量。(3)FS算法的分析FS算法是最简单、最原始的块匹配算法,由于可靠,且能够得到全局最优的结果,通常是其它算法性能比较的标准,但它的计算量的确很大,这就限制了在需要实时压缩场合的应用,所以有必要进一步研究其它快速算法。2.4.2二维对数法二维对数(Two-DimensionalLogarithmicTDL)搜索法由J.R.Jain和A.K.Jain提出,它开创了快速算法的先例,分多个阶段搜索,逐次减小搜索范围直到不能再小而结束。(1)TDL算法描述TDL算法的基本思想是从原点开始,以“十”字形分布的五个点构成每次搜索的点群,通过快速搜索跟踪最小块误差MBD(MininumBlockDistortion)点(MAD值最小的点),算法具体描述如下:Step1:从原点开始,选取一定的步长,在以十字形分布的五个点处进行块匹配计算并比较。Step2:若MBD点在边缘四个点处,则以该点作为中心点,保持步长不变,重新搜索十字形分布的五个点;若MBD点位于中心点,则保持中心点位置不变,7将步长减半,构成十字形点群,在五个点处计算。Step3:在中心及周围8个点处找出MBD点,若步长为1,该点所在位置即对应最佳运动矢量,算法结束;否则重复Step2。具体的一个搜索例子请参考图3。图中每个点上的数字表明了每个阶段搜索时计算的候选块的位置。图3TDL搜索过程(2)TDL算法的分析TDL算法搜索时,最大搜索点数为2+71og2r,若发现新的十字形点群的中心点位于搜索区的边缘,则步长也减半,后来有人提出应该在搜索的每个阶段都将步长减半,所有这些改动都是为了使算法搜索范围很快变小,提高收敛速度。TDL算法的前提是假设搜索区内只有一个谷点,如果搜索区内存在多个谷点时,该方法找到的可能是局部最小点。2.4.3三步搜索法三步搜索(ThreeStepSearch,TSS)法与二维对数法类似,是T.KOGA等人提出的,由于简单、健壮、性能良好的特点,为人们所重视。若最大搜索长度为7,搜索精度取1个像素,则步长为4,2,1,共需三步即可满足要求,因此而得名三步法。(1)TSS算法描述TSS算法的基本思想是采用一种由粗到细的搜索模式,从原点开始,按一定步长取周围8个点构成每次搜索的点群,然后进行匹配计算,跟踪最小块误差8MBD点算法具体描述如下:Step1:从原点开始,选取最大搜索长度的一半为步长,在周围距离步长的8个点处进行块匹配计算并比较。Step2:将步长减半,中心点移到上一步的MBD点,重新在周围距离步长的8个点处进行块匹配计算并比较。Step3:在中心及周围8个点处找出MBD
本文标题:基于块匹配算法的运动估计概要
链接地址:https://www.777doc.com/doc-4724962 .html