您好,欢迎访问三七文档
当前位置:首页 > 商业/管理/HR > 经营企划 > 图像识别技术课件--Chapter05-基于内容的视频分析与检索.pdf
1MediaComputingCS@BIT第五章基于内容的视频分析与检索计算机学院计算机系裴明涛peimt@bit.edu.cn2MediaComputingCS@BIT主要内容•视频的基本结构•镜头分割•视频单元特征•镜头聚类•视频中特定内容分析•基于内容的视频检索3MediaComputingCS@BIT视频数据的结构4MediaComputingCS@BIT•帧是视频数据的昀小单元,是一幅静止的画面;•镜头是视频数据的基本单位,它是摄像头的一次连续的动作,只能拍摄相邻地点连续发生的事情;•场景由内容相近的镜头组成,从不同的角度描述同一个事件;•而整个视频则由许多场景组成,叙述一个完整的故事;5MediaComputingCS@BIT•结构层中每一个视频层次的数据都可以用一定的属性加以描述:–整个视频的属性:主要包括场景的个数和持续时间;–场景的属性:如标题、持续时间、镜头数目,开始镜头、结束镜头等;–镜头的属性:如持续时间、开始帧号、结束帧号、代表帧集合等;–帧的属性:帧有大量的属性,颜色特征、纹理特征、形状特征等;6MediaComputingCS@BIT镜头分割•镜头是视频数据的基本单元.大部分视频是通过编辑,由一个个镜头连接而成的;•Avideoshotisdefinedasaseriesofinter-relatedconsecutiveframestakencontiguouslybyasinglecameraandrepresentingacontinuousactionintimeandspace;7MediaComputingCS@BIT•镜头切换时,视频数据将发生一系列的变化,表现在颜色差异突然增大、新旧边缘的远离、对象形状的改变和运动的不连续性等各方面;•镜头间切换分为突变和渐变两类;–突变是一个镜头直接转换为下一个镜头,中间没有时间上的延迟;–渐变是加入了一些空间或时间上的编辑效果,由前一个镜头慢慢地转换为下一个镜头;8MediaComputingCS@BIT•Abrupttransition:oneshotfollowstheotherwithoutanyeditingeffect.•Gradualtransitions:–Fade-out:theluminanceofaframegraduallydecreasesleadingtoablackframe.–Fade-in:startingfromblackframe,theluminancegraduallyincreasesuntilacompleteframeofthenextshotappears.–Dissolve:oneshotisfadingoutwhileatthesametimethefollowingshotisfadingin.9MediaComputingCS@BIT•Thebasisofdetectingshotboundariesinvideosequencesisthefactthatframessurroundingaboundarygenerallydisplayasignificantchangeintheirvisualcontents.•Thedetectionprocessistherecognitionofconsiderablediscontinuitiesinthevisualcontentflowofavideosequence.10MediaComputingCS@BIT•镜头分割是指找到两个镜头的边界;•镜头边界检测方法可分为两步:–帧内特征的提取;–帧间差异的计算;•镜头边界检测方法主要分为以下两种:–数据驱动方法;–模型驱动方法;11MediaComputingCS@BIT数据驱动方法•根据镜头在发生切换时其视频数据所发生的变化来进行镜头分割;•判断相邻两帧之间的特征差值是否超过某一阈值来寻找镜头边界;•对突变的镜头效果较好,对渐变的镜头效果不好;12MediaComputingCS@BIT•Aclearseparationshouldexistbetweendiscontinuity-valuerangesformeasure-mentsperformedwithinshotsandatshotboundaries.•Otherwiseitwillmakeitdifficulttodetecttheshotboundarieswithoutdetectionmistakes,i.e.missedoffalselydetectedboundaries.13MediaComputingCS@BITTheproblemofun-separatedranges14MediaComputingCS@BITShotboundarydetector15MediaComputingCS@BIT•模板匹配法:以两帧对应象素差的绝对值之和作为帧间差,其计算公式如下:16MediaComputingCS@BIT•模板匹配法的缺点是对噪声和镜头或物体运动非常敏感,因为它严格地局限于象素的位置.噪声和物体运动都会使帧间差增大,从而导致错误的镜头分割;•改进方法:把各帧划分为8×8象素的小块,对每个块取平均值,再用这个平均值对前后帧的对应小块进行比较,这种方法可以去掉图象中的一些噪声,并对小的物体运动和镜头运动起到补偿作用。17MediaComputingCS@BIT•直方图法:通过比较相邻两帧的直方图来进行镜头分割;•不考虑象素的位置信息,而使用象素亮度和色彩的统计值,因而抗噪能力比模板匹配强;•有时会漏掉场景变换,因为两幅图象可能有完全不同的结构,但其颜色直方图却很接近;∑∑===NjjNjjjQQIQIS11),min(),(18MediaComputingCS@BIT•通过计算帧间差来进行镜头边界的检测适用于突变的情况。帧间差在镜头切换处会出现明显的峰值,因而可以将帧间的差值与一个预先设定的阈值相比较,当差值超过该阈值时,则认为有镜头切换。•对于渐变切换,由于两个镜头之间的切换是缓慢进行的,帧间差虽然有所增大,但没有一个明显的峰值,而是会出现一个“高原”区。19MediaComputingCS@BIT•双阈值比较技术:•镜头的缓慢运动也具有渐变的特点,从而会导致误检。20MediaComputingCS@BIT•利用帧间差的镜头边界检测算法的一个重要问题就是要选择合适的阈值.阈值过大,会漏掉镜头切换;阈值太小,会引起误检测;•不同类型的视频应选择不同的阈值:–如体育比赛的镜头运动较多,应选择较大的阈值;–新闻节目主持人的镜头运动较少,应选择较小的阈值;–为了使检测算法具有更强的适应性,阈值应根据视频的内容自适应地选定.21MediaComputingCS@BIT模型驱动方法•数据驱动的方法简单易行,但忽略了存在于视频中的相关结构的变化;阈值如果定的不准,就会出现误检或漏检的情况;•基于模型的方法是利用对镜头编辑的先验知识,对各种镜头切换建立一定的数学模型,自顶向下地进行镜头切换的检测;22MediaComputingCS@BIT•只要模型建立准确,基于模型的方法对于渐变检测往往能得到较好的效果;•但是需要对每种切换类型建立模型,而且建模过程比较复杂;23MediaComputingCS@BIT视频单元(镜头)特征•关键帧(静态)特征•运动特征24MediaComputingCS@BIT镜头代表帧的选取•代表帧是用于描述一个镜头的关键图像帧,反映一个镜头的主要内容;•代表帧的选取必须能够反映镜头中的主要事件,因而描述应尽可能地准确完全;•另一方面为便于管理,代表帧的数据量应尽量地小,且计算不宜太复杂;25MediaComputingCS@BIT•代表帧的选取方法很多,昀简单的方法是选取镜头中第一帧或昀后一帧或中间一帧作为代表帧;比较经典的有帧平均法和直方图平均法;•帧平均法是从镜头中取所有帧在某个位置上象素值的平均值,然后将镜头中该点位置的象素值昀接近平均值的帧作为代表帧;•直方图平均法则是将镜头中所有帧的统计直方图取平均,然后选择与该平均直方图昀接近的帧作为代表帧;26MediaComputingCS@BIT•对于平稳的镜头,选取一个代表帧即可;•对于镜头内部具有大运动变化的镜头,需要选取多个代表帧:•可依据帧间的显著变化来选择多个代表帧。计算前一个代表帧与剩余帧之差,如果差值大于某一个阈值,则再选取一个代表帧。•这种方法可以根据镜头内容的变化程度选择相应数目的代表帧,但是所选取的帧不一定具有代表意义,而且在有镜头运动时,容易选取过多的代表帧。27MediaComputingCS@BIT多个代表帧可以单独表示,也可用马赛克的方法将它们无缝连接起来,形成一个代表帧;28MediaComputingCS@BIT29MediaComputingCS@BIT•提取出代表帧后,可以采用通常的图象处理方法:–颜色特征–纹理特征–形状和边缘特征等30MediaComputingCS@BIT运动特征•视频数据除了具有静态特征外,还更具有运动特征,它反映了视频数据的时域变化;•用户可能要求检索有变焦的视频片段,或者在监控系统中检索某个对象从画面上消失的视频帧.因而对视频数据进行特征提取必须研究其运动特征;31MediaComputingCS@BIT•摄像头的运动往往会给视频图象带来全局的影响;•在只有对象运动时,大部分背景象素不变,而只是运动对象和被摭挡的部分会发生变化;•由于运动特征无法从一幅静止的图象中获得,所以必须对视频序列进行分析。32MediaComputingCS@BIT镜头中的运动向量33MediaComputingCS@BIT镜头聚类•由于内容颗粒度过小,镜头层次的检索不能满足视频内容使用的需要;•场景是比镜头高一个层次的视频内容结构单位,能在一定程度上缓解镜头颗粒度过小的问题;•场景是一组镜头的集合,在内容上包含相似的对象或包含类似的背景。34MediaComputingCS@BIT•镜头聚类是研究镜头间的关系,也就是如何把内容相近的镜头组合起来。根据聚类目的的不同,视频聚类可分为两类:–一类是把同属一个场景的镜头进行聚类,以形成层次型的视频结构——场景和电影,这种聚类不但要考虑镜头内容上的相似性,还要考虑其时间上的连续性;–另一类聚类是对视频进行分类.它只考虑特征相似性,而不考虑时间连续性.根据镜头的重复程度,视频一般可分为对话型、动作型和其它类型3类;35MediaComputingCS@BIT•Shotboundarydetectionalgorithmsthatrelyonlyonvisualinformationcontainedinthevideoframescansegmentthevideointoframeswithsimilarvisualcontents.•Groupingtheshotsintosemanticallymeaningfulsegmentssuchasstories,however,usuallyisnotpossiblewithoutincorporatinginformationfromthevideoprogram’sothercomponents.36MediaComputingCS@BIT•Multimodalprocessingalgorithmsinvolvingtheprocessingofnotonlythevideoframes,butalsothetext,audio,andspeechcomponentsthataccompanythemhaveproveneffectiveinachievingthisgoal.37MediaComputingCS@BIT自动校正的镜头聚类算法图中判断1判断本次迭代是否实际上未做任何操作,判断2判断前次迭代是否实际上未做任何操作,当连续两次迭代未执行任何操作时迭代终止。☆表示各次迭代的输出结果
本文标题:图像识别技术课件--Chapter05-基于内容的视频分析与检索.pdf
链接地址:https://www.777doc.com/doc-1363826 .html