您好,欢迎访问三七文档
当前位置:首页 > 商业/管理/HR > 管理学资料 > 视频中移动目标检测综述
1基于视频的移动目标检测论文研读报告苏航00748178智能科学系信息科学技术学院北京大学摘要基于视频的移动目标检测是一个重要且有挑战性的任务,在许多应用中都起到相当关键的作用。本次论文研读围绕该主题展开,深入阅读了十余篇论文,在本文总结了视频中移动目标检测的一些主要方法及各自的优劣,并将几个重要的方法大致分为了两个不同的类别:基于像素的移动目标检测和基于区域的移动目标检测。在基于像素的方法中,图像特征完全由各个像素的坐标及灰度值(或颜色值)确定,而在基于区域的方法中,各个像素属性之间的关联成为主要特征来用以提取移动目标。另外本文还讨论了以上两类之外的一些方法。关键词视频移动目标检测背景差分高斯混合模型直方图正文1引言基于视频的移动目标检测在许多实际应用中都担当着核心的任务。譬如视频监视、人机交互、视频编码等广泛的领域都需要有效地进行该工作。帧差法(FrameDifferencing)12是视频中检测移动目标最简单直观的方法,其在视频片段中固定间隔的两帧之间计算绝对差,该差值大于一定阈限的像素就认为是运动物体可能存在的区域:𝐷𝑡(𝑥,𝑦)=𝐴𝑏𝑠.𝐹𝑡(𝑥,𝑦)−𝐹𝑡−𝑘(𝑥,𝑦)/(1)这种简单的方法有时十分有效,但在更多应用环境下并不能获得期望的效果。这主要是由于视频中各帧之间的差异并不仅仅来源于运动的物体,而同时可能来1R.JainandH.Nagel,“OntheAnalysisofAccumulativeDifferencePicturesfromImageSequencesofRealWorldScenes”,IEEETrans.PatternAnalysisandMachineIntelligence,vol.1,no.2,pp.206–214,1979.2为了避免混淆,本文中将作为主要研读对象的文章列在报告最后的“参考文献”一栏中,而其他引用的文献则作为脚注注明。2源于很多别的因素。例如在室外道路监视中,由于太阳位置及云雾遮挡阳光的情况不断改变,路面整体的亮度并不固定而是不断改变的,甚至有可能出现大的变化。类似这样可能被错误识别成移动物体的因素还有很多,如移动物体产生的阴影、水面的波纹、摄像机的抖动等。另外,在特定的应用场景下还有其他一些至关重要的问题需要考虑。例如在道路监视中,车辆往往有复杂的遮挡现象,而且车辆的阴影很大程度加剧了这种现象的出现。当然这些困难也并不总是存在的,有些应用中并不会出现这些问题,如室内视频监视就没有大尺度光照变化的问题;也有些应用中并不需要考虑这些问题,如传统的视频编码中阴影、水波等本身并不能忽略所以可以一并视为运动物体。以上这些分析可以简单看出,视频中的移动目标检测是一件非常有挑战性的工作,而且不同应用环境的需求存在很大的差异。在一个应用中性能很好的算法可能在另一个场景中完全不适用,所以很难使用单一的技术应对所有的应用环境,这也就导致相关的算法技术不断涌现。CategoryMethodAuthorandTimeSimplestMethodFrameDifferencingJainandNagel1979Pixel-basedMethodsMean-thresholdMethodWrenetal.19973GaussiansNFriedman,SRussell1997GaussianMixtureModel(GMM)StaufferandGrimson2000Non-parametricModelElgammalandDavis2000Region-basedMethodsLBP(texture)Heikkila,M.etal.2006Co-occurrencematrices(texture)LuoDi,HuangXiangnian2008CovariancematricesOncelTuzeletal.2006AccumulatedHistogramFatihPorikli2005OtherMethodsEigenspacedecompositionOliveretal.2000早期提出的移动目标检测方法大都单独地处理各个像素的灰度值或颜色而没有考虑较大尺度上的特征,故称它们为基于像素的方法。典型的方法包括均值-阈限方法、高斯混合模型[1]、非参数模型[2]等。由于这些方法没有充分利用局部像素之间的关系信息,很多有效的图像特征无法得到表示,从而导致移动目标检测精度及效度都受到影响。后期大量的检测方法都不同程度地利用了局部区域层次的信息,称为基于区域的方法。典型的基于区域的方法包括纹理方法[5][6]、直方图方法[7]等。3报告接下来的部分组织如下:第二节介绍一般问题的陈述及典型的应用,第三节与第四节分别介绍基于像素的移动目标检测方法与基于区域的移动目标检测方法,第五节进行简单的讨论与总结。2问题陈述及应用一般而言移动目标检测并不单独地构成应用,而是作为一个组件出现在许多实际的应用之中。故移动目标检测的具体要求随着应用的改变而有很大的不同。例如对足球场上球员及足球的检测与跟踪就和对视频中用户手势的跟踪有所不同,前者的关键在于如何应对复杂的光照变化有效提取运动物体,后者的难点则在于如何从整个躯体大范围的运动背景中将手势的运动识别并提取出来。尽管不同的应用可能提出不同的技术上的要求,但是相当一部分这类问题还是可以在同一的框架下进行探讨和比较的。以下就是本文讨论范围内一般问题的陈述(Figure1):a.高层次的模型一般具有检测、跟踪、识别三个模块,其中识别模块并不必须;b.检测模块可细分为移动目标区域检测与移动目标分组,其中前者是这个模块能够顺利工作的保证,其目的是将各帧内移动目标所在的区域标出;c.该模型的输入为连续的视频,输出为跟踪的物体(即轨迹)或分类的物体。Figure1系统框架图中即为一个典型的流程图,其中省略了分类模块并把运动目标区域检测规定为背景差分方法。该模型的典型应用场景是室内\外的视频监视分析(Figure2),特别是交通数据4的分析。另外体育运动视频(如足球或台球)的分析也能在该模型下解决。Figure2移动目标检测的典型应用:视频监控本文讨论的就是这样一个系统之中移动目标检测部分内容,并且将重点放在了如何判定移动目标区域的部分。这是这样的系统中的最初的处理,对于之后的处理能否获得有效的信息至关重要。该内容主要涉及两个问题:如何提取运动的前景,及如何建立一个良好的背景模型。后者一般并不是应用任务中所要求完成的,但往往是用以提取运动前景很好辅助工具,将新的一帧“减去”背景即可获得移动前景,故同时具有这两个步骤的方法也被称为“背景差分”,是移动目标检测中的一大类主流方法,本报告中涉及的大部分方法即属于这一类。3基于像素的移动目标检测3.1均值-阈限方法均值-阈限(Figure3)的基本思路是计算每个像素的平均值和标准差作为它的背景模型。Figure3均值-阈限方法5图中为某视频中单个像素在一定时间内不断更新得到的平均值和平均差值3,该像素处在天空的位置,在一段时间后有人的手挥过该区域,可以看到由于前景目标明显不如背景中的天空明亮,所以可以很容易将其分辨出来。实际上均值-阈限方法就是赋予视频中每个像素一个统计上的背景模型,例如高斯分布模型4。每个点需要两个参数来衡量:均值与方差。后面将看到,许多更先进的基于像素的移动目标检测方法其实无非采用了更复杂的分布模型来描述每个像素。3.2阴影去除及三高斯模型简单的帧差值或均值-阈限方法在很多应用中都面临一个很严重的问题:阴影。在某些光照条件下,移动物体产生的阴影相对背景具有非常显著的差别从而被识别成了前景,有时这些阴影比物体本身还大,并且导致原本独立的运动物体连接在一起无法分割。一种简单的思路是放弃使用灰度值进行背景建模,而采用颜色信息从而将阴影的移动去除掉。这类方法需要一条假设:移动目标投射到路面上的阴影主要改变了该位置的亮度而对色度没有大的影响5。部分情况下确实可以承认该假设。在不同的颜色模型下有不同提取亮度信息的方式。在HSV等空间中这个任务尤为简单,因为亮度本身就是一个独立的分量,所以在该分量以外的维度上进行背景建模与差分就能消除一定的阴影。如果在常用的RGB颜色空间中,亮度的提取就稍微复杂[3]。Figure4RGB空间中的亮度与色度3类似标准差的作用,但是计算更快捷。4C.R.Wren,A.Azarbayejani,T.Darrell,andA.P.Pentland,“Pfinder:Real-TimeTrackingoftheHumanBody,”IEEETrans.PatternAnalysisandMachineIntelligence,vol.19,no.7,pp.780-785,July1997.5J.M.Alvarez,A.López,andR.Baldrich,Illuminant-InvariantModel-BasedRoadSegmentation,IEEEIntelligentVehiclesSymposium,June2008.6将一个像素的颜色值在RGB三维空间中表示(Figure4),背景建模就是确定了穿过原点的一条色度直线,所有在该直线上的颜色都认为是背景色。当前颜色相对参考颜色(背景)的亮度分量𝛼𝑖由最小化下式给出:ϕ(𝛼𝑖)=(𝐼𝑖−𝛼𝑖𝐸𝑖)2(2)𝛼𝑖表示该像素当前值相对参考背景色的相对亮度。如果其值为1则代表亮度相同,大于1代表比背景更亮,小于1代表比背景更暗。当前颜色到色度直线的垂直距离就表示色度的偏离:𝐶𝐷𝑖=‖𝐼𝑖−𝛼𝑖𝐸𝑖‖(3)利用色度与亮度的偏离值就可以将新的颜色值分为四个类别:M(i)={𝐹𝑜𝑟𝑔𝑟𝑜𝑢𝑛𝑑:𝐶𝐷𝑖̂𝜏𝐶𝐷𝑜𝑟𝛼𝑖̂𝜏𝛼𝑙𝑜𝑤,𝑒𝑙𝑠𝑒𝐵𝑎𝑐𝑘𝑔𝑟𝑜𝑢𝑛𝑑:𝛼𝑖̂𝜏𝛼1𝑎𝑛𝑑𝛼𝑖̂𝜏𝛼2,𝑒𝑙𝑠𝑒𝑆𝑎𝑑𝑜𝑤:𝛼𝑖̂0,𝑒𝑙𝑠𝑒𝐻𝑖𝑔𝑙𝑖𝑔𝑡:𝑜𝑡𝑒𝑟𝑤𝑖𝑠𝑒(4)其中𝐶𝐷𝑖̂与𝛼𝑖̂分别代表均一化之后的两个偏离分量。这些方强烈依赖于上面提到的假设:阴影仅仅改变背景亮度而不改变色度。但是这个假设实际上并不总是有效,很多时候还需要更复杂的方法达到去除阴影,鉴别真正移动目标的目的。三高斯模型[4]就是针对去除阴影的考虑提出的。这个模型中采用三个高斯分布相结合(Figure5)对各像素进行建模。三个高斯成分分别为:道路、运动前景及阴影。这三个成分组合成为了完整的混合模型。Figure5三个高斯分布相结合7此方法之后面临的主要问题是如何通过一定时间的学习获得每个高斯分布的参数从而建立有效的模型。相关文献中提出采用EM算法(ExpectationMaximizationAlgorithm)6进行学习。EM算法是一个迭代的算法,通过有限步的迭代就能够获得较好的模型估计。一般而言,为了从一个数据集中获得该数据集满足的混合分布,可以采用最大后验概率估计的方法进行估计,但是这样的方法需要关于每个数据分类的信息(即每个值属于哪个类别)。然而在移动目标检测过程中往往都是无监督的学习从而不可能获得这样的分类信息,而只能自动设定一个预先的分类,然后通过迭代不断改进,这就是EM算法的基本思路。另外,由于各点的数据是不断改变的,于是采用原始的EM算法对每一帧都进行重复的迭代既不必要也不现实,可以采用EM算法的一个变种:增量EM算法。3.3高斯混合模型(GMM)3.3.1背景建模在某些场景之下,采用三个高斯分布的混合模型仍然无法有效地描述复杂的现实环境,于是高斯混合模型[1]被提出了。高斯混合模型采用类似3.2中三个高斯模型的思路,希望采用多个高斯分布相结合的方法来描述环境。与前面的模型不同的是,现在高斯分布的个数不是固定的一个或三个了,而是随着各个像素实际的需要动态地进行设定。另外该方法也放弃采用费
本文标题:视频中移动目标检测综述
链接地址:https://www.777doc.com/doc-647314 .html