您好,欢迎访问三七文档
当前位置:首页 > 行业资料 > 国内外标准规范 > 基于JND的多视点视频编解码
基于JND的多视点视频编码目录研究背景视频编码基础知识简介基于视觉特性的多视点视频编码123研究背景经过近30年的飞速发展,视频技术已进入3D时代。2010年上映的电影大片《阿凡达》标志着3D电影已成为商业电影的发展趋势。3D视频在给人们带来真实临场感的体验效果的同时,也带来了巨大的数据量。3D视频与传统的二维视频相比,最大的不同是视点的增多,从而导致编码数据量和编码时间的增大,因此制约了3D视频技术的发展。由于人眼是视频内容的最终接受体,因此,感知视频编码被认为是最有前景的解决方案之一,成为近几年重要的研究方向。感知视频编码是根据人类视觉系统(HVS)的感知机制及感知特性建立数学模型,并将此模型集成到压缩算法中,以去除视频信号中的感知冗余的一种视频编码方案。为了能够定量地度量感知冗余,研究者们提出了感知视频编码中的一个重要概念JND。最小可察觉失真(JustNoticeableDistortion——JND),也可称为恰可察觉失真,指由于人类视觉系统存在的各种视觉屏蔽效应,使得人眼只能察觉到超过某一阈值的信号变化,该阈值即为最小可察觉失真。JND模型是一种基于心理学和生理学的模型,它能有效的表征图像中的人类视觉冗余。JND模型:1、像素域的JND模型2、频率域的JND模型视频编码基础知识简介目前的研究显示视频文件中主要存在四种形式的冗余:空间冗余时间冗余统计冗余心理冗余空间冗余:视频由连续的帧图像组成,每帧图像又可被分为前景和背景,一般情况下,在前景和背景中均存在大片的内容相似区域。这种帧内相似性也就是空间相关性。时间冗余:在连续拍摄的场景中,相邻的帧与帧中的同一物体一般不会发生很大的变化,它们在内容上也是相似的。这种帧间物体的相似性就是时间相关性。统计冗余:现在的编码标准中熵编码是必不可少的环节,因为视频内容在去除了上面提到的两种冗余后得到的经变换后的码字又可分为高频和低频数据,各频域数据之间又存在着相关性,这就是统计冗余。心理冗余:人眼对图像的感知能力并不像计算机那么灵敏,比如色彩、对比度、分辨率等,这样就允许视频信息提供者在适当的时候减少所提供的数据。1、视频编码器将输入图像划分为互不重叠的块。2、利用视频的空间相关性以及时间相关性,采用帧内预测或帧间预测去除冗余信息,得到预测块。3、预测图像块和原始图像块进行差值,取得预测残差块。4、对预测残差进行DCT变换和量化,获得量化的DCT系数。5、对量化后的DCT系数进行熵编码,得到压缩码流。基于视觉特性的多视点视频编码多视点视频系统的结构图多视点视频编码系统结构框图++模式选择+DCT变换量化熵编码反量化去块滤波运动估计/运动补偿视差估计/视差补偿视点内参考图像其它视点参考图像帧内预测第i个视点码流+模式编码反DCT变换-+多视点视频编码标准中除了采用HEVC标准中的帧内预测和帧间预测编码技术外,还采用了视差补偿预测。这是因为多视点视频是摄像机对同一场景内容从不同位置拍摄而得,各视点视频间有很大的相关性,存在着大量的冗余信息,因此在多视点视频编码中采用视差估计/补偿来去除多视点视频各视点间的冗余信息。传统的视频编码技术通过去除空间冗余、时间冗余以及统计冗余来达到提高视频的压缩率的目的,但未利用人眼的视觉冗余。所以我们根据人眼视觉特性,建立JND模型,并将其嵌入到多视点视频编码框架中。JND模型可分为两大类型:像素域JND模型和频域JND模型。像素域JND模型是根据视频帧的像素值特性而建立的模型。频域JND模型是根据像素值在变换域的特性而建立的模型,通常的变换域有小波域和DCT域。由于视频编码过程中主要是在DCT域对图像进行处理,因此频域JND模型大都建立在DCT域。像素域JND模型亮度掩盖效应模型纹理掩盖效应模型时域掩盖效应模型DCT域JND模型空间CSF特性模型背景亮度自适应模型纹理掩盖模型时间CSF特性模型像素域JND模型亮度掩盖效应:人类神经系统对信号的敏感度和背景信号的强度成反比,背景信号的强度越大,人类的敏感度就越低,区分能力就越小。纹理掩盖效应:通常在纹理能量高的区域,噪声一般是很难觉察到的,因为人眼对频率比较高的纹理区的失真不敏感,在纹理区可以容纳较大的失真。而在平滑区和边缘区的噪声(,)17(1)3,(,)127127(,)3((,)127)3,128lumIxyifIxyTHxyIxyotherwise就比较容易被人眼觉察到,人眼对其失真相对比较敏感,应予以保护,避免过多失真。因此在不同的区域,JND阈值应取不同的值。由于亮度掩盖效应和纹理掩盖效应会产生重叠的效应,提出了掩盖效应的非线性叠加模型NAMM:(,)(,)(,)txtTHxyGxyWxy,(,)(,)(,)min{(,),(,)}slumtxtltlumtxtTHxyTHxyTHxyCTHxyTHxy时域掩盖效应模型:当帧间差异变化越大,人眼感知噪声的能力越小,反之,越大。最终的像素域JND模型为(,)(,)(,,)ststTHxyTHxyTHxyt0.15max(,exp(((,,)255)))(,,)022(,,)0.15max(,exp((255(,,))))(,,)022tHxytxytTHxytLxytxytDCT域JND模型空间CSF特性模型:空间对比敏感度(SpatialContrastSensitivity)表征了HVS对视觉信号的敏感程度,定义为观察者能检测出测试激励的最小对比度值的倒数,它会受视觉信号的空间频率因素影响。背景亮度自适应模型:人类神经系统对信号的敏感度和背景信号的强度成反比,背景信号的强度越大,人类的敏感度就越低,区分能力就越小。ijijijjiBasicrrbwacwsjiT2cos1exp,170,142517017060,160,115060IIIIIFlum纹理掩盖效应对图像采取块分类的方法,分别将块分成三类:平滑区、边缘区和纹理区。对一个图像块,如果包含较少的边缘像素,则可认为是平滑块。另一方面,如果包含较多的边缘像素,意味着图像块中含有很多的高频能量,则被认为是纹理块。其他,平滑区和边缘区36.022,,,,,1max,4min16,)(nFjinTjinCjinFlumhBasiccontrast时间CSF特性模型:时间CSF特性反映的是人眼对比敏感度和时间频率之间的关系,在一定条件下,两者之间近似满足指数函数关系。最终的DCT域JND模型可表示为.5,07.110&5,07.110&5,1)10(cpdfHzfcpdfHzfcpdfFsftsftsTttjinkFnkFnkFjinkTjinkJNDTconstrlumBasic,,,,,,,,,,,像素域JND模型应用于视频编码中的框架图+编码帧R(x,y)DCT像素JND滤波QVLC像素JND模型R‘(x,y)Q-1+IDCT+++去块滤波器帧内预测参考帧缓存运动补偿视差补偿运动估计视差估计像素JND滤波视间参考帧DCT域JND模型应用于视频编码中的框架图模式选择R’+DCT变换JND处理器量化熵编码反量化/反DCT变换参考帧缓冲器运动估计/补偿视差估计/补偿视点内参考帧视点间参考帧帧内预测输入视频RVLC+模式编码JND模型块的边界滤波JND处理器我们利用DCT域JND模型建立多视点视频编码系统中的预处理滤波器,对多视点视频编码DCT域残差系数和率失真优化中的失真信号进行滤波预处理。多视点视频图像经过帧内预测、帧间预测和视点间预测后得到原始视频图像和预测图像之间的残差信号,并进行DCT变换编码。由于人眼视觉系统各种视觉掩盖效应,使得人眼只能察觉到超过一定阈值的信号变化。基于这一思想,我们对多视点视频编码中的DCT域残差系数进行滤波预处理,若DCT残差系数小于等于相应的JND阈值,则该系数认为是视觉冗余信息,直接置为零舍弃,如此便去除多视点视频信息中人眼不能察觉到的视觉冗余信息,达到降低编码比特数的目的多视点视频编码中,针对帧内预测,帧间预测以及视点间预测,多视点视频编码采用拉格朗日率失真优化(RDO,RateDistortionOptimization)策略进行编码模式的选择。在实际编码中分别计算出各种编码模式的率失真代价,并选择率失真代价最小的编码模式作为最佳的编码模式。率失真代价的计算式如下其中为失真信号,为不同编码模式编码所需的比特数,是拉格朗日常数。RDRDttcoscostDcosR我们对DCT域残差系数进行了JND阈值滤波处理,在多视点视频编码中,通过JND阈值滤波处理后的残差系数会经过量化和反量化以重建视频图像,并利用重建的视频图像计算其均方误差,参与到率失真优化算法中,则拉格朗日率失真优化的代价函数计算公式修改为:其中,表示重建图像与原始图像的差值和经过JND阈值处理后的值。YjYRdRDjtcosjd由于现有的JND模型表征人类视觉系统的能力有限,因此,随着生物学、心理学的发展,JND模型还能够进一步的完善。
本文标题:基于JND的多视点视频编解码
链接地址:https://www.777doc.com/doc-4989684 .html