您好,欢迎访问三七文档
1.原始视频的特征提取(1)光流场光流场是空间运动物体在观测成像面上像素运动的瞬时速度。它利用图像序列中的像素强度数据的时域变化和相关性来研究图像的灰度在时间上的变化与场景巾物体结构及其运动的关系。光流法通常假设相邻帧的图像差异非常小,从而获取对真实运动场的近似估计【31。它不用预知任何先验知识,即能提供有关运动速度及图像中运动区域的简洁描述,适用于摄像机运动的情形。但光流法易受噪声及光照变化的影响,且计算较为复杂,很难用于实时的视频监控系统。(2)点轨迹目标的运动轨迹也可以作为特征,从而大致推断出目标运动所属的行为类别。但图像平面上的轨迹对平移、旋转和缩放等变换比较敏感,因此在大多情形下,此特征显得不够可靠。常用的替代特征表达有轨迹速度、时空曲率等【4,51。运动轨迹的获取比较依赖于精确的跟踪算法。从原始视频中提取点轨迹特征同样容易受到噪声、遮挡及混乱背景等的影响。(3)人体形状表达在摄像机固定的情形下,假设背景已知,通过背景剪除法可以很容易得到运动人体形状。基于全局、边界及骨架等的描绘子都可以用来表达人体形状。全局方法16,71如剪影、矩等是在整体形状区域内计算描绘子,而边界方法仅考虑形状轮廓【8l,骨架i方法则是用一组lD骨架曲线代表一个复杂的人体形状,比如中轴变换[91等。(4)滤波器响应空时滤波器响应是一个广义上的分类。Zhang等【lo】存时间轴上计算高斯导数,将滤波器响应较高的区域作为运动区域。LaptevI¨1利用一组空时高斯导数滤波器将Harris角点检测扩展应用于三维的视频数据从而检测出空时兴趣点。这类方法大都基于简单的卷积操作,运算快速而简便。当视频分辨率较低的情形下,提取光流或剪影特征较为困难,利用滤波器响应特性可以从视频数据中提取有效的底层特征。2.低层特征的描述与识别我们将低层特征的描述与识别方法分为三类①:非参数方法、空时体方法和参数时序法,分别对现有方法进行归类,并作一个简短的综述。2.1非参数方法(1)模板匹配法这类方法需要对每种行为的特征建立相应的模板,将获取的特征数据与模板相匹配,通过计算两者之间的相似度进行识别。Polana和Nelson[4刀将整个序列分解为多个周期行为,利用二维网格特征识别各种行为。Bobick和Davis[391将图像序列转换为运动能量图像(膨酣)和运动历史图像(朋m)模板,MEI反映运动覆盖的范围及强度,而MHI反映运动在时间上的变化情况。Weinland等【拍】提出运动历史体积(MHV)模板,从多个视角重建目标并将其投影到圆柱坐标系,提取Fourier变换特征以描述行为。Wang和Suter[451也将整个行为过程融合为基于轮廓的平均运动形状(MMS)和基于运动前景的平均运动能量(彳^扭)两个模板。模板匹配法计算复杂度低、实现简单,但它本身无法描述动态系统,也不能完全反映数据在空问上的分布属性,具有一定的局限性。而且不同行为之间执行速率的不同、噪声、光照等因素都会影响模板匹配的准确性。(2)目标建模法行为可以通过建立人体动态表观模型进行描述。常见的人体模型有棍图模型【109]、2D模型例及3D模型51。3D人体建模是最常用的人体结构表征方法,通过跟踪人体模型中主要关节点的坐标、关节之间的角度、关节点运动的速度及角速度可以分析人体各种行为。3D模型包含深度信息,因此它能够有效解决自遮挡和自碰撞问题。行为本身也可以看成是一个3D空时目标,如Mahmood等【1刁在联合X.Y-T空间将整个行为表示为圆柱体模型。Yalmaz和Shahll31将跟踪获得的人体2D轮廓堆叠成联合X.Y-T空间中的目标,这种表达同时刻画了人体表观及动态运动特性。从X.Y玎空问的表达中提取的各种几何特征,如峰、凹点、谷及脊等,可以作为目标表面的捕述,但它需要建立序列帧点与点之间的对应关系。Gorelick等【6】采用背景剪除后的二值剪影替代人体轮廓,构造出X.Y-T空间一上的空时目标,虽然它不需要建立序列l;!!ji之间轮廓点之间的对应关系,但仅适用于摄像机固定的情形。(3)流形学习法行为识别中所处理的视频数据处于三维空间,若将序列中每帧图像转换为向量并按时序排列构成矩阵处理,将会遭遇“维数灾难”,同时也会引起小样本问题。而流形学习方法假设数据均匀采样J:高维欧氏空间中的低维流彤,从高维采样数据中恢复低维流形结构,并求出相应的嵌入映射,以实现降维。它可分为线性方法及非线性方法。线性流形学习假设数据位于线性空问,包括PCA、ICA等方法。但在实际情形下,数据并非位于线性空间,需要从大量样本中学习流形的内部几何结构。非线性流形学习方法大体分为两类,一类基于全局方法,如等距映射(届∞纠尸),计算每一个数据点与其他数据点关系而建立全连接图。另一类方法基于局部,即考虑每个数据点与它邻域内的点的关系,定义图中的边及其权重,如拉普拉斯特征映射。一些非线性方法的线性近似,如Lppt48,108l,加入类别信息的流形方法如LSTDE[491,可以直接求得投影矩阵用于解决新样本的低维嵌入问题。流形学习方法可用于行为分析中原始数据的降维,采用NN/kNN、SVM及Boosting等方法对低维空间中的特征数据进行分类可以识别不同行为。2.2空时体方法(1)空时滤波法视频数据可以看成由每帧图像按时序构成的空时体,具有三维空时结构的滤波器可以用来描述视频数据的空时特性,进而提取行为特征。Chomat和Crowley/¨1从视频中分割出不同的空时体,用方向和空间上的不同尺度及时问上的单一尺度构成的Gabor滤波器组在每个像素点上计算局部表观模型,通过每帧中单个像素点概率空间的平均值对行为进行识别。为了适应不同的执行速率,Manor等f”】在时间上的不同尺度得到空时梯度表示的归一化局部直方图,并使用卡方距离度量它与存储模板之间的相似度。滤波器方法虽然实现简单,但在实际应用中,滤波器的合适带宽并非先验已知,需要不同空间和时间尺度上的滤波器组获取其动态行为,且每个滤波器产生的响应与输入体的维数相同,因此这种方法必须付出较高的计算代价。(2)基于部分的方法视频数据可以看成是局部的集合,其中每个子部分都包含着明显的运动模式。Laptev[111将Harris角点检测器扩展到空时表示形式,在不同级别的尺度上计算空时梯度,由每个点及其邻域内的梯度信息产生空时二阶矩的估计,从而提取局部特征。Dollar等fl61在训练数据中的空时兴趣点上提取空时梯度,采用K均值聚类方法获取特征原型,对视频体进行建模。Niebles掣1从包含空时兴趣点的子体积中提取特征并聚类乍成Bag.of-Words模型,采用SVMs识别各种行为。不同的行为可能包含相似的空时子部分,而子部分之间的几何关系却各不相同。但以上这些方法都不能对局部的全局几何进行建模,在不同行为之间可能造成歧义性。Boiman等f18】和Wong掣1叨将全局几何引入到基于部分的视频体表示,将其看成是各子部分的星群。当子部分数目较多时,这种方法的计算量也会相应地增大。Song等1201采用三角化的方法逼近星群之问的连接关系,从而解决计算花费偏高的问题。Niebles和Li[2”提出一个层级模型,其中较高的层级是各部分的星群,星群中的各部分则由低层Bag.of-Features构成。基于部分的方法大多需要基于空时兴趣点提取梯度或强度特征,在比较平滑的运动中,兴趣点十分稀疏,在行为本身不连续或视频质量不高的情形下,梯度或强度特征也显得不够可靠。(3)分体匹配法分体匹配法一般通过匹配输入视频体与三维模板分体之间的相似度从而对人体行为进行分析。与基于部分的方法不同,它不需要在不同尺度空问中获取行为特征,而是直接判断其所包含的局部空时片段(LocalSpatio.TemporalPatches)之间的运动相似度来寻求匹配。然而,从视频体分割出分体再进一步得到空时片段,反复地匹配空时片段之间的相似度,同样也会产生巨大的计算花费。Shechtman和Irani[221通过发掘空时运动之间的相关性实现未知行为数据与模板之间的匹配。Ke掣241通过空间观上的像素点聚类得到分体,分体是空间上的连续区域,而视频体可以看成是任意形状分体的集合。给定的一段视频被重复分割成多个分体,将每个分体区域与已知行为的模板相匹配,寻找与模板达到最大匹配的最少分体的集合。Yuan等【5I】利用基于贝叶斯的互信息最大化方法将提取的空时兴趣点根据其所属的行为类别按正/负投票输出,行为检测即是寻找包含最大投票输出值的分体。分体匹配法容易受到背景变化的影响,但对噪声及遮挡等干扰因素则具有一定征【23】,则可降低这类方法对表观变化的敏感性。(4)基于张量的方法将行为表示为三维空时体,则可以很自然地作为一个三阶张量,其中两维表示空间,另一维表示时间。传统的视频处理方法需要将视频中人体行为所在的每帧图像转为向量并按时问顺序堆叠成矩阵处理,由于矩阵的向量由图像转换而来,一般具有很高的维数,以100x120大小的图像为例,对应于矩阵中的向量为12000维。与这种传统表示相比,张量以自然地形式表示数据,既避免造成了维数灾难,又保留了视频数据内部图像的窄问结构信息。Kim等【25】将典型性相关分析(CCA)扩展应用到三阶张量情形,实现测试行为与已知类别行为之间相关性的直接度量。Vasilescu[261将行为类别、人的身份及关节轨迹分别作为张量独立的一维,构成高阶(三阶或三阶以上)张量,张量分解为对应的模式则可得到行为类别或行为者的身份。Wblf等[27】把Low.RankSVM扩展到张量空间并用于行为识别。当然,张量方法也可与其它方法相结合,如凌等【521采用TensorPCA、TensorLPP及有监督的TensorLPP获取行为的低维特征表示,进而通过最近邻方法识别各种不同行为。基于张量的方法不需要中间层表示,比如部分、分体等,直接在行为之间实现整体匹配。其它特征如光流场、空时滤波响应等也可加入到张量框架中,作为张量空间中任何独立的一维构成高阶张量,以增强不同行为之问的可辨识度。2.3参数时序方法非参数方法和空时体方法一般用于识别简单行为固,而参数时序法则更适用于复杂行为,如芭蕾舞视频中的旋转动作,交响乐中的指挥手势等。(1)隐马尔可夫模型(删)隐马尔可夫模型能够匹配时变数据,是一种比较常用的状态空问法。它涉及训练和分类两个阶段。训练阶段指定模型的隐藏状态数,优化相应的状态转换和输m概率,便于产生与特定行为特征相对应的输出类别符号。分类阶段需要计算HMM对应于行为特征的不同测试符号的概率。Yamato等【281对每个行为类别的前景图像序列建模,能够识别击球、拦网等网球动作。随后,HMM也被广泛用于手势识别‘29'301。场景中一般存在着交互式行为,但HMM的结构导致它只能为单一的动态过程建模,为解决此问题,Brand等【31】提出耦合隐马尔可夫模型(CoupledHMM)为多个交互的动态过程进行建模,可以将多个动态过程的特征空问分解,减少状态个数并降低了算法复杂度。Honggeng和Nevatial321将状态间隔的先验置信度引入HMM,提出半监督隐马尔可夫模型(Semi-supervisedHMM)。Nguyen等【33】采用分层隐马尔可夫模型(Hierarchical删)分析长时间内的人体行为,能够更HMM具有很强的泛化能力,可以用于时序数据的建模,在行为单元起止时间未知的情形下,HMM同样适用。但HMM只能识别预先定义的行为,其内部状态转移矩阵和观测模型中参数估计的复杂度随目标个体的数目增加呈指数型增长。(2)线性动态系统(三D.S)线性动态系统是HMM的一般形式,状态空间不必受限于符号的有限集合,可以扩展到状态空间中的连续数值。更准确地说,LDS是带高斯观察模型的HMM在连续状态空间上的泛化。Vaswani等【34】将连续状态空间下的HMM用于检测异常行为。Cuntoor和Chellappa/351将视频分成小段,假定每段的目标动力(DynamicsofObjects)为线性,以缩影(Epitomic)的方式对行为进行建模。
本文标题:行为识别国内外现状
链接地址:https://www.777doc.com/doc-2029985 .html