您好,欢迎访问三七文档
当前位置:首页 > 商业/管理/HR > 广告经营 > 多媒体信息压缩与编码2
多媒体压缩与编码课程总结0.概述多媒体是90点发展起来的一项新技术,它将文本、图形、图像、视频以及音频等运载信息的媒体结合在一起,通过计算机进行综合处理和控制。多媒体系统要求可以对各种视频(包括音频和视频等)进行实时的处理,但是通常这些数据的信息量都特别大,尤其是视频信息。因此为了克服存储设备的限制,同时减轻通信网络传输数据的负担,考虑采用多媒体压缩与编码技术。有关数据压缩的理论研究,主要还是在香农信息论的基础上开始的。而对于多媒体数据压缩技术研究,则更多的得益于数字信号处理、时间序列分析、参数估计、离散变换、模式识别、自适应技术以及感知生理-心理学的理论进展。CCITT制定了针对二值图像的一系列压缩标准,如CCITTGroup3,CCITTGroup4等。在70年代末80年代初,数学家们提出了损失压缩精度以换取压缩率的新思路。针对此想法,国际标准化组织(ISO)和CCITT联合组成了两个委员会:静态图像联合专家小组(JPEG)和动态图像联合专家小组(MPEG),并且提出了JPEG,MPEG-1,MPEG-2,MPEG-4,MPEG-7等一系列标准。1.技术准备1.1熵熵来源于Shannon创立的信息论中的一条定理,利用热力学中的名词“熵”来表示一条信息中真正需要编码的信息量。利用由0和1组成的二进制数码为含有n个符号的某条信息编码,假设符号Fn在整条信息中重复出现的概率为Pn,则该符号的熵也即表示该符号所需的二进制位数为:)(logE2nnP整条信息的熵也即表示整条信息所需二进制位数为:nnEkE1.2模型使用模型的目的在于得到字符或单词在信息中出现的概率。即确定采用多少位二进制表示一个符号。1.3编码在通过利用模型得到采用的二进制位数后,如何设计方案尽量精确的使用模型计算出来的位数对符号进行表示是编码需要解决的问题。2.几种经典压缩编码首先介绍了不同的几种压缩编码方案。包括Shannon-Fano编码以及与其相似的Huffman编码,都是采用了0和1对字符进行表示;然后着重介绍了算数编码,与前两者不同,算数编码对整条信息的输出结果仅仅是一个小数,而且是位于0到1之间的一个小数。通过对字符数目进行统计以及其概率的利用,得到某个整条信息位于某个区间,然后从中随机选择一个便于编码的小数,即我们得到的编码的结果。LZ77算法通过采用滑动窗口进行滑动匹配,得到的一种压缩方法,但是LZ77算法也存在某些问题,同时也针对问题作出一些改进。2.1信源编码为了减少信源输出符号序列中的剩余度、提高符号的平均信息量,对信源输出的符号序列所施行的变换。具体说,就是针对信源输出符号序列的统计特性来寻找某种方法,把信源输出符号序列变换为最短的码字序列,使后者的各码元所载荷的平均信息量最大,同时又能保证无失真地恢复原来的符号序列。信源编码的作用之一是设法减少码元数目和降低码元速率,即通常所说的数据压缩;作用之二是将信源的模拟信号转化成数字信号,以实现模拟信号的数字化传输。信源编码主要包括变长码,霍夫曼码以及其他几种编码方法。变长码:在信源编码中,如果一组码中的所有码字的码长各不相同,即任意码字由不同长度的码符号序列组成,刚称为变长码。哈夫曼编码(HuffmanCoding)是一种编码方式,哈夫曼编码是可变字长编码(VLC)的一种。Huffman于1952年提出一种编码方法,该方法完全依据字符出现概率来构造异字头的平均长度最短的码字,有时称之为最佳编码,一般就叫做Huffman编码(有时也称为霍夫曼编码)。2.2预测编码预测编码是数据压缩的一个重要分支,其理论基础主要是现代统计学和控制论。时间序列分析的思想也常常被用来解决动态系统的输出问题。2.2.1DPCMDPCM的基本原理在于如果知道了前面的一些符号,然后再猜紧接着后面一个符号,如果前面的符号知道的越多,则后面的符号越容易猜中。而容易猜中就意味着该信源的不确定度减小了,数码率自然也就可以减少。然而这种算法不能让我们准确的猜中下一个数据符号,因此我们只能尽量的将预测器做到最好,对后面的数据做最优的预测。DPCM系统工作时,发送端先发送一个起始值x0,接着就只发送预测误差值ek=xk–x^k,而预测值x^k可记为x^k=f(x'1,x'2,…,x'N,k),kN(1)式中kN表示x'1,x'2,…,x'N的时序在xk之前,为所谓因果型(Causal)预测,否则为非因果型预测。接收端把接收到的量化后的预测误差e^k与本地算出的x^k相加,即得恢复信号x'k。如果没有传输误差,则接收端重建信号x'k与发送端原始信号xk之间的误差为:qk。这正是发送端量化器产生的量化误差,即整个预测编码系统的失真完全由量化器产生。因此,当xk已经是数字信号时,如果去掉量化器,使e^k=ek,则qk=0,即x'k=xk。这表明,这类不带量化器的DPCM系统也可用于无损编码。但如果量化误差qk≠0,则x'k≠xk,为有损编码。如果预测方程式(2)的右方是各个x'i的线性函数,DPCM的优点是算法简单,容易硬件实现,缺点是对信道噪声很敏感,会产生误差扩散。即某一位码出错,对图像一维预测来说,将使该像素以后的同一行各个像素都产生误差;而对二维预测,该码引起的误差还将扩散到以下的各行。这样,将使图像质量大大下降。同时,DPCM的压缩率也比较低。随着变换编码的广泛应用,DPCM的作用已很有限。2.2.2语音预测编码语音信息压缩的基本原理在于两方面:1,语音信号的冗余度(时域信息冗余度和频域信息冗余度);2,人类的听觉机理;需要在处理中考虑下面几方面因素:可懂度和音质;限制比特率;降低编码过程中的计算代价。语音预测编码主要包括LPC算法,与一般DPCM系统差别在于预测器的参数每桢更新一次并传至收端,而且为了保证在进行一桢的参数计算时仍能连续的采集下一桢信号,需要设置两个缓冲寄存器来分别缓存前后两桢的语音样本,参数计算必须在一桢时间内计算完成。3.JPEG静止图像压缩标准JPEG是ISO和前CCITT于1986年底成立的于1992年正式完成的用于各种分辨率和格式的连续色调图像的ISO/IEC10918标准(对二值图像不适宜),简称JPEG标准。JPEG压缩分四个步骤实现:颜色模式转换及采样;DCT变换;量化;编码。其操作模式主要包括四种:基于DCT的连续模式,基于DCT的渐进模式,无失真模式以及分级模式。JPEG的核心是基于DCT的顺序型操作模式;该模式加上霍夫曼编码构成了JPEG的基本系统,其他操作模式或增强选项归入JPEG的扩展系统。通常JPEG一般指基本系统。JPEG的系统如下所示:JPEG源图像以帧为单位,把图像分割成8×8样值的子块。块内下标约定如下图所示。左上角为直流分量(DC系数),其余交流分量(AC系数)按频率从低到高排列。其基本系统的实现主要包括下面内容:(1)2D-FDCT/IDCT(2)变换系数的量化(3)DCT压缩系统系统的编码模型;主要包括两种,意识DC系数的DPCM编码模式,另外一种是AC系数的编码模式。(4)熵编码方法:JPEG建议使用的两种编码方法:DC系数霍夫曼编码以及AC系数编码。4.MPEG动态图像压缩标准MPEG是活动图像专家组(MovingPictureExpertsGroup)的缩写,于1988年成立。目前MPEG已颁布了三个活动图像及声音编码的正式国际标准,分别称为MPEG-1、MPEG-2和MPEG-4,而MPEG-7和MPEG-21都在研究中。4.1MPEG-2MPEG-2系统是将视频、音频及其它数据基本流组合成一个或多个适宜于存储或传输的数据流的规范。它的原理是将符合ITU-R.601标准的、帧次序为I1B2B3P4B5B6P7B8B9I10数字视频数据和符合AES/EBU标准的数字音频数据分别通过图像编码和声音编码之后,生成次序为I1P4B2B3P7B5B6I10B8B9视频基本流(ES)和音频ES。在视频ES中还要加入一个时间基准,即加入从视频信号中取出的27MHz时钟。然后,再分别通过各自的数据包形成器,将相应的ES打包成打包基本流(PES)包,并由PES包构成PES流。最后,节目复用器和传输复用器分别将视频PES和音频PES组合成相应的节目流(PS)包和传输流(TS)包,并由PS包构成PS流,由TS包构成TS流。MPEG-2系统是MPEG-2标准的关键部分。而以数据包形式存储和传送数据流是MPEG-2系统的要点。MPEG-2系统规范不仅采用了PS、TS和PES三种数据包,而且也涉及PS和TS两种可以互相转换的数据流。显然,以数据包形式存储和传送数据流是MPEG-2系统的要点。为此,MPEG-2系统规范定义了三种数据包及两种数据流。主要包括打包基本流,节目流和传输流,以及节目特定信息。为了便利于误码处理、随机搜索及编辑,MPEG-2用句法定义了一个层次性结构,用于表示视频编码数据。为了在高效压缩编码的条件下、获得可随机存取的高压缩比、高质量图像,MPEG定义了I、P、B三种图像格式,分别简称为帧内图、预测图及双向图,即I图、P图及B图,用于表示1/30s时间间隔的帧序列画面。MPEG-2的型有简单型(SP)、主型(MP)、MPEG-24:2:2型(后增)、信噪比可分级型(SNRP)、空间可分级型(SSP)、高型(HP)共6种。在同1种型里,需要处理的图像参数,如图像尺寸、帧率、码率,也有不同。例如,表5的主型中包括4种不同的图像尺寸和4种有差别的码率,只有帧率是相同的。为此,MPEG-2还定义了低级(LL)、主级(ML)、高1440级(H14L)、高级(HL)共4个级,以示对同1个型内不同参数的区别。显然,型定义了数据流可分级性和彩色空间分解力;级定义了图像分辨力和每个型的最大码率。即,每个型定义了1组新的算法,如:型的性质,彩色格式、有否双向帧等,不同的组合有不同的算法。分级编码的目的在于在不同的业务之间提供互操作性,以灵活的方式支持具有不同显示功能的各种电视接收机以及HDTV信源进行分级编码,使其能灵活地支持多种清晰度,实现HDTV与SDTV产品的兼容,避免很耗费地将两个单独的数据流专门、分别地传输给HDTV和SDTV接收机两方面。4.2MPEG-4MPEG-4是一套用于音频、视频信息的压缩编码标准,由国际标准化组织(ISO)和国际电工委员会(IEC)下属的“动态图像专家组”(MovingPictureExpertsGroup,即MPEG)制定,第一版在1998年10月通过,第二版在1999年12月通过。MPEG-4格式的主要用途在于网上流、光盘、语音发送(视频电话),以及电视广播。MPEG-4包含了MPEG-1及MPEG-2的绝大部份功能及其他格式的长处,并加入及扩充对虚拟现实模型语言的支持,面向对象的合成档案(包括音效,视讯及VRML对象),以及数字版权管理及其他互动功能。而MPEG-4比MPEG-2更先进的其中一个特点,就是不再使用宏区块做影像分析,而是以影像上个体为变化记录,因此尽管影像变化速度很快、码率不足时,也不会出现方块画面。MPEG-4的编码特性主要表现在如下几个方面:1,音频视频对象AVO。MPEG-4所涉及的音频视频信息不再是那种从一个传感器来的信号码流,而是所谓的音频视频对象AVO;2,AVO的组合,MPEG-4还引入了视频对象层VOL(VideoObjectLayer)和视频对象平面VOP(VideoObjectPlane)的概念。前者主要用在编解码上,后者用于视频对象的分割与合成。视频对象和视频对象平面都是码流中用户可以存取和操作的实体。视频对象平面的形状可以是任意的;3,一般情况下,用户所观察到的场景是由创作人员事先安排好的。不过,根据创作者所设定的自由度,用户也可能与场景交互。MPEG-4采用不同于MPEG-1和MPEG-2的编码策略,因此编码输出数据率平均要比MPEG-2低一半。其编码策略的最突出的特点是采用基于内容(content-based)的编码策略,在视频编码中引入了视频对象的概念。视频对象在某一时刻的具体图像
本文标题:多媒体信息压缩与编码2
链接地址:https://www.777doc.com/doc-2503641 .html