您好,欢迎访问三七文档
1主要内容问题的引入国内外研究现状基于内容的视频检索简介视频结构的分析关键技术视频检索和浏览当前研究中存在的问题及未来的发展趋势2一、问题的引入近年来,数字视频信息出现了飞速膨胀,新的视频应用,如数字图书馆、视频点播、数字电视等,已经为越来越多的人所接受和熟悉。面对海量的视频数据,如何找到所需的视频信息就成为了一个急需解决的问题。3人们总是希望可以直接检索到一段包含特定信息的视频片段。足球比赛中的射门镜头、含有日出景色的片段4二十世纪九十年代以来,出现了基于内容的视频分析和检索研究,其目的就是通过对视频内容进行计算机处理、分析和理解,建立结构和索引,以实现方便有效的视频信息获取基于内容的视频分析与检索研究从一开始就得到了广泛的重视并取得了丰硕的研究成果。5二、国内外研究现状:国外已经研发出多个基于内容的视频检索系统。IBM公司的QBIC系统意大利Plermo大学开发的JAKOB美国哥伦比亚大学研究实现VideoQ系统Virage公司的VirageSearchEngine美国哥伦比亚大学图像和高级电视实验室开发的VisualSeek系统由UIUC开发的MARS6国内外研究现状:国内微软亚洲研究院的张宏江博士所带领的小组研制出Ifind信息检索系统国防科技大学多媒体研究开发中心研制开发的NewVideoCAR国防科技大学系统工程系研制开发的MIRC清华大学开发TV-FI系统7值得一提的是MPEG-7,即“多媒体内容描述接口”(MultimediaContentDescriptionInterface),作为MPEG组织提出的新标准,其目标就是制定一组标准的描述符及其描述模式(定义描述子的结构和相互关系),内容描述与媒体内容结合,使用户能够快速准确地进行检索,这也注定了其在未来通用的视频检索中将扮演主要角色、发挥重要的桥梁作用。8三、基于内容的视频检索简介我们需要研究的是,信息检索系统如何适当地表达用户所要求的内容,并在视频数据库中找出符合这个查询要求的信息返回给用户。Content-BasedVideoRetrieval,CBVR根据视频的内容和上下文关系,对大规模视频数据库中的视频数据进行检索提供这样一种算法:在没有人工参与的情况下,自动提取并描述视频的特征和内容9目前,基于内容的视频检索研究,除了识别和描述图像的颜色、纹理、形状和空间关系外,主要的研究集中在视频分割、特征提取和描述(包括视觉特征、颜色、纹理和形状及运动信息和对象信息等)、关键帧提取和结构分析等方面10四、视频结构的分析帧/镜头/场景/视频序列帧(Frame):视频数据的最小单元,是一副静止的单幅影像画面,相当于电影胶片上的每一格镜头。在时间轴上帧表现为一格或一个标记。视频可以看做是一个连续静态图像的序列,其中的每一幅静态图像称为一帧。11镜头(Shot):代表一个场景中在时间上和空间上连续的动作,是摄像机的一次操作所记录下来的一段连续的帧序列,只能拍摄相邻地点连续发生的事情。任何一段视频数据流都是由许多镜头组成的,镜头是视频数据的基本组成单元12关键帧:相当于二维动画中的原画。指角色或者物体运动或变化中的关键动作所处的那一帧。一幅能描述镜头主要内容的帧。根据内容复杂度,一个镜头可以有一个或多个关键帧关键帧与关键帧之间的帧称为过渡帧或者中间帧。13场景(Scene):由一些内容相近的镜头组成,不一定在时间上连续。从不同的角度描述同一个事件。场景描述了一个独立的故事单元,它是一段视频的语义组成单元。14视频序列(Video):由许多场景组成,叙述一个完整的故事结构相同的场景经过聚类后形成视频序列视频的最高语义就是视频序列15非结构化:除了存在时间上的先后关系外,其本身并不具有任何结构信息为了实现基于内容的视频检索,必须为视频建立不同层次的结构索引,并进一步为视频的检索和浏览提供基本访问单元16视频数据从结构上自顶向下可分为视频序列、视频场景、镜头和帧一段视频的典型结构如图1所示1718层中每一个视频层次的数据都可以用一定的属性加以描述。如:视频序列的属性,主要包括场景的个数和持续时间;场景的属性,包括标题、持续时间、镜头数目、开始镜头、结束镜头等;镜头的属性,包括持续时间、开始帧号、结束帧号、代表帧集合、特征空间向量等;帧的属性,帧有大量的属性,包括直方图、轮廓图、DC及AC分量图等。19基于内容的视频处理从所有的帧中提取主要内容,并从下至上地对视频内容进行结构化描述。为了实现这个目标,我们须对视频进行如下处理:视频切分、特征提取和视频内容组织等。处理过程如下:20图2基于内容的视频处理过程动态特征静态特征21基于内容的视频检索步骤:1.将视频序列分割为镜头2.在镜头内选择关键帧3.提取镜头的特征及关键帧的视觉特征存入视频数据库22五、关键技术视频镜头检测技术关键帧提取技术视频特征提取技术镜头聚类和场景提取视频浏览和检索235.1视频镜头检测技术对视频建立索引,首先要将视频分割为镜头镜头检测的关键是确定从镜头到镜头的转换处,并利用镜头之间的转换方式找到镜头图像之间的差别镜头的切换方式有两种:突变和渐变24镜头切换方式:突变切换突变是指从一个镜头直接切变到另一个镜头25镜头切换方式:渐变切换渐变是指从一个镜头慢慢切变到另一个镜头26常用的镜头检测方法主要有以下几种:基于像素的镜头检测方法1.模板匹配法(对应像素法)2.直方图法基于边缘的方法基于模型的方法27模板匹配法(对应像素法)将两帧图像对应象素差的绝对值之和作为帧间差,如果前后两帧的帧间差变化超出某个阈值,则认为有镜头的切换。优缺点:对检测突变镜头很有效,但对摄像机和物体的运动非常敏感,当运动较大时,相邻两帧的差异往往会超过预定的阈值,从而产生误检。28当主体运动较大时,常发生误检29直方图法该方法利用帧与帧的直方图比较来检测镜头,是使用得较多的计算帧间差的方法。基本原理:将颜色空间分为一个个离散的颜色小区间,然后计算落人每个小区间的象素数目,得到图像的直方图统计,通过比较两帧图像的直方图统计得到帧间差。优缺点:不考虑像素的位置信息,抗噪声能力比模板匹配法强。当具有不同目标的场景有近似的灰度或颜色直方图时容易造成漏检。3031基于边缘的检测方法该方法将两幅图的边缘提取,利用镜头切换时出现的新边缘与消失的旧边缘的像素比例,若两者最大值大于某阈值,则认为有镜头切换。缺点:这种方法在图像较暗或边缘不明显时往往会造成误检和漏检。32基于模型的方法利用对镜头编辑的先验知识,对各种镜头切换建立一定的数学模型,自顶向下地进行镜头切换的检测,对特定领域视频可通过数学模型加上一定的限制条件来提高方法有效性。因此这种方法对镜头渐变的检测往往能取得好的效果。建立数学模型过程较复杂,适用于专业领域33模板匹配法、直方图法、基于边缘的方法都是利用帧间差自下而上来进行镜头边界的检测,它对于突变检测可以取得较好的效果,但是对于渐变检测则有一定的困难,因为它在很大程度上忽略了渐变切换中帧之间结构上的相关性345.2关键帧提取技术关键帧的作用类似于文本检索中的关键词。用关键帧来代表镜头,使得对视频镜头可用图像的技术进行检索关键帧的选取的条件:1.必须能够反映镜头中的主要事件,因而描述应尽可能准确完全.2.为便于管理,数据量应尽量小,且计算不宜太复杂。35关键帧提取的基本方法特定帧法帧平均法和直方图平均法基于光流的运动分析36特定帧法一段视频被分割成若干镜头后,一种最直接、最简单的关键帧提取方法就是将每个镜头的首帧、中间帧以及末帧作为镜头的关键帧。特定帧法思路、实现都很简单,但这种方法不能反映镜头内视频内容的变化,不适于用在视频内容变化较多的镜头内提取代表帧37帧平均法和直方图平均法帧平均法是取一个镜头中所有帧的某个位置上的像素值的平均值,将镜头中该点位置的像素值等于平均值的帧作为关键帧直方图平均法则是将镜头中所有帧的统计直方图取平均,然后选择与该平均直方图最接近的帧作为关键帧38优缺点:使用帧平均法和直方图平均法能在一定程度上反映视频内容,计算量也不大,所选取的帧具有平均代表意义,但是由于需要记录每一帧每个像素的值或直方图,所以要实现动态选取,所需的存储量较大。无法描述有多个物体运动的镜头。39基于光流的运动分析上述方法都没有考虑运动特征。通过光流分析来计算镜头中的运动量,在运动量取局部最小值处选取关键帧,它反映了视频数据中的一个“静止”特点,视频中通过摄像机在一个新的位置上停留或通过人物的某一运动的短暂停留来强调其重要性。光流光流场40首先通过Horn-Schunck法计算光流,对每个像素光流分量的模求和,作为第k帧的运动量M(k),即其中Ox(i,j,k)是k帧内(i,j)像素光流的X分量,Oy(i,j,k)是k帧内像素(i,j)光流的Y分量。41然后寻找M(k)的局部最小值:从k=0开始,扫描曲线M(k),找到两个局部最小值M(K1)和M(K2),M(K2)的值与M(K1)的值至少相差p%(由经验设定),如果M(Kj)=min(M(K)),K1KjK2则把Kj选为关键帧。然后把K2作为当前的K1,继续寻找下一个KjWolf的这种基于运动的方法可以根据镜头的结构选择相应数目的关键帧。如果先把图像中的运动对象从背景中取出,再计算对象所在位置的光流,可以取得更好的效果。42存在问题:1.由于算法依赖于局部信息,所以鲁棒性不强;2.算法没有足够地总是由动态累加带来的内容变化435.3视频特征提取技术视频分割成镜头后就要对各个镜头进行特征提取,得到一个尽可能充分反映镜头内容的特征空间,这个特征空间将作为视频聚类和检索依据颜色特征纹理特征运动特征44颜色特征颜色是图像最显著的特征,与其它特征相比,颜色特征计算简单、性质稳定,对于旋转、平移、尺度变化都不敏感,表现出很强的鲁棒性。颜色特征包括颜色直方图、主要颜色、平均亮度等。45其中利用主要颜色和平均亮度进行图像的相似匹配是很粗略的,但是它们可以作为层次检索方法的粗查,对粗查的结果再利用子块划分的颜色直方图匹配进行进一步的细查。46纹理特征20世纪70年代初Haralick等人提出了纹理特征的共生矩阵表示法,即利用纹理在灰度级的空间相关性,先根据图像像素间的方向和距离构造一个共生矩阵,再从中提出有意义的统计数据作为纹理的特征表示。缺点:这些统计特征没有和人在视觉上对纹理特征的感知之间建立对应。47Tamura提出的纹理特征集可以很好地与人类视觉感知相对应,这些特征包括:粗糙度、对比度、方向性、线向度、规则性、粗略度。其中最重要的特征是纹理粗糙度、对比度和方向性。因为人对纹理的视觉特征的认识非常主观,目前还没有一个统一的标准来精确地表示纹理的特征48运动特征视频除了具有一般静态图像的特征外,更具有动态特征。而动态特征往往也是视频检索时用户给出的主要内容运动特征反映了视频的时域变化。运动分析的方法有基于光流方程的方法、基于块的方法、像素递归方法和贝叶斯方法等,但这些方法计算量大。Tonomura等人提出了视频X光图像分析方法,可以用来检测类似的运动。。49运动特征将整个视频序列沿时间轴进行切片,从切片图像中分析运动情况。视频的运动变化在切片上将变现为一系列有序的条纹变化。通过对视频的研究发现,当目标运动时,其北京往往变化迅速,而目标在大小上的不断变化表现为像素色彩的扩张。因此,可采用视频切片技术,通过追踪某一位置线上图像目标的色彩变化来得到运动目标的大小变化50张宏江等人用计算镜头内各帧平均亮度和主要颜色的均值和方差作为镜头运动量大小的度量,在新闻视频中取得了较好的效果。515.4镜头聚类和场景提取场景可以通过对镜头的聚类来生成。在镜头聚类及场景生成过程中,镜头不仅在时间上是连续的,更重要的是它们在内容含义上是一致的,这是镜头聚类的关键可按时间顺序和关键
本文标题:基于内容的视频检索
链接地址:https://www.777doc.com/doc-1364030 .html