您好,欢迎访问三七文档
当前位置:首页 > 商业/管理/HR > 项目/工程管理 > 网络音视频压缩编码技术
网络音视频压缩编码摘要:数字压缩技术不仅是视频通信的需要也是高效利用网络资源、降低用户通讯费用的有效途径,还是使数字视频走向实用化的关键技术之一,本文将从网络音视频压缩技术的必要性、可行性、压缩编码的分类、常用的压缩编码方法、编码标准、音频编码和编码策略方面系统的分析讲解网络音视频压缩编码。关键字:视频编码;音频编码1.概述1.1压缩的必要性数字压缩技术不仅是视频通信的需要也是高效利用网络资源、降低用户通讯费用的有效途径,还是使数字视频走向实用化的关键技术之一。数据压缩基本上是挤压数据使得它占用更少的磁盘存储空间和更短的传输时间。压缩的依据是数字数据中包含大量的重复,它将这些重复信息用占用空间较少的符号或代码来代替。近几年随着移动电子设备的兴起,视频技术有了新的应用平台,各种移动视频设备层出不穷,如现在广泛流行的倒车影像、行车记录设备等。但由于视频信息庞大的数据量和移动电子设备有限的存储空间和处理能力,限制了其在移动领域的发展,于是人们尝试将已有的视频压缩方法移植到移动设备中来,在此过程中如何实现各种视频压缩方案在移动设备上的高效应用成为了研究的新热点。1.2压缩的可行性音视频图像本身存在大量的冗余:空间相关冗余,时间相关冗余,符号相关冗余,结构相关冗余,知识相关冗余,人眼的视觉冗余。空间冗余:视频图像通常与它周围的某些像素在亮度和色度上相近或非常相同,存在一定的相关性。这些相关性的光成像结果在数字化图像中就表现为数据的空间冗余。时间冗余:时间冗余是指活动图像连续的帧之间的冗余。相邻两个帧之间的图像差别不大,往往背景相同只是移动的物体所在的空间位置略有不同,所以后一帧数据与前一帧数据有诸多相同之处,这就表现为了时间冗余。符号冗余:又称为编码冗余,对于实际图像数据的每一个像素,很难得到他的信息熵,因为是对每个像素采用相同的比特数来表示。这样就必然存在冗余,这样的冗余被称为符号冗余。结构冗余:许多图像存在较强的纹理结构,在图像的纹理区,图像的像素值存在明显的分布模式,如瓦片构成的屋顶、方格构成的地板图案等等。如果对相似对称的图案加以记录就会出现结构冗余。知识冗余:由于多图像的理解和先前的知识有许多相似之处和相关性。例如:人脸的图像有同样的结构,嘴的上方有鼻子,鼻子上方有眼睛,鼻子在中线上等等。这些结构知识可由先验知识和背景知识得到,这类冗余称之为知识冗余。人眼的视觉冗余:①人眼对事物细节的分辨力是有限度的;②对颜色画面的分辨力低于对黑白画面的分辨力;③对高频信号变化的分辨率低于低频信号的分辨率;④对屏幕中心区失真的敏感度要高于屏幕四周的失真。人眼的视觉系统对色彩亮度变化比较敏感但是相对色度变化并不是很敏感,人类视觉系统并不是对任何图像变化都能感觉出来所以称之为视觉冗余。1.3压缩编码的分类有损压缩:预测编码(DPCM\ADPCM\运动补偿)变换编码(DCT变换\小波变换\子带编码)模型编码(分形编码)基于重要性(滤波\子采样\矢量量化)混合编码(H.261\MPEG)。有损压缩也成为信息量压缩方法,即解压缩后图像与源图像不一致。存在数据丢失现象,并且丢失的这些数据不可恢复,但可以利用人类的视觉特性使解压缩的后的图像看上去与源图像保持一致。有损压缩的压缩比一般为:200:1—100:1。无损编码:霍夫曼编码、行程编码、算术编码、LZW编码。无损压缩是利用图像的统计特性对图像进行压缩,即解压缩后图像与源图像保持一致不存在任何失真。但压缩率受到数据统计冗余度的理论限制,一般为2:1—5:1。这类方法广泛用于文本数据、程序和特殊应用场合的图像数据(如指纹图像和医学图像)的压缩。1.4常用的压缩编码方法霍夫曼编码的具体步骤:①将每个符号按其概率由大到小顺序排列起来。②将最小的两个概率相加,并对其中较大的概率用“1”表示,较小的概率用“0”表示。反之也可,但赋值方式应保持一致。③把求出的和值作为一个新的概率值再按①重新排列。④按照这样的步骤重复进行,直到概率加到1。⑤分配码字。由概率为1处开始沿各点参加运算的分支线从后向前(从右向左)逐一写出“0”、“1”的代号(从高位到低位写)直到各符号为止。得到的代码就是各信源符号的码字。反之也可,从符号到汇合点p=1(从左到右),但代码的写出是从低位到高位。xi:x1x2x3x4x5x6x7x8pi:0.200.190.100.150.0050.170.180.005再举例:符号A、B、C、D、E、F、G、H概率0.10、0.18、0.40、0.05、0.06、0.10、0.07、0.04单义可译性:例如:接收到下面例子中的一串数据序列1100101101110111101,则它只能惟一地分为下述码字:110,0,1011,0,11101,11101,110-B,0-A,1011-G,0-A,11101-D,11101-D。2编码标准2.1MPEG标准MPEG标准主要有以下五个,MPEG-1、MPEG-2、MPEG-4、MPEG-7及MPEG-21等。该专家组建于1988年,专门负责为CD建立视频和音频标准,而成员都是为视频、音频及系统领域的技术专家。及后,他们成功将声音和影像的记录脱离了传统的模拟方式,建立了ISO/IEC1172压缩编码标准,并制定出MPEG-格式,令视听传播方面进入了数码化时代。因此,大家现时泛指的MPEG-X版本,就是由ISO(InternationalOrganizationforStandardization)所制定而发布的视频、音频、数据的压缩标准。MPEG标准的视频压缩编码技术主要利用了具有运动补偿的帧间压缩编码技术以减小时间冗余度,利用DCT技术以减小图像的空间冗余度,利用熵编码则在信息表示方面减小了统计冗余度。这几种技术的综合运用,大大增强了压缩性能。MPEG-1MPEG-1标准于1992年正式出版,标准的编号为ISO/IEC11172,其标题为“码率约为1.5Mb/s用于数字存贮媒体活动图像及其伴音的编码”。MPEG-2MPEG-2标准于1994年公布,包括编号为13818-1系统部分、编号为13818-2的视频部分、编号为13818-3的音频部分及编号为13818-4的符合性测试部分。MPEG-2编码标准希望囊括数字电视、图像通信各领域的编码标准,MPEG-2按压缩比大小的不同分成五个档次(profile),每一个档次又按图像清晰度的不同分成四种图像格式,或称为级别(level)。五个档次四种级别共有20种组合,但实际应用中有些组合不太可能出现,较常用的是11种组合。这11种组合分别应用在不同的场合,如MP@ML(主档次与主级别)用在具有演播室质量标准清晰度电视SDTV中,美国HDTV大联盟采用MP@HL(主档次及高级别)。MPEG-4MPEG-4在1995年7月开始研究,1998年11月被ISO/IEC批准为正式标准,正式标准编号是ISO/IEC14496,它不仅针对一定比特率下的视频、音频编码,更加注重多媒体系统的交互性和灵活性。这个标准主要应用于视像电话、视像电子邮件等,对传输速率要求较低,在4800-6400bits/s之间,分辨率为176*144。MPEG-4利用很窄的带宽,通过帧重建技术、数据压缩,以求用最少的数据获得最佳的图像质量。利用MPEG-4的高压缩率和高的图像还原质量可以把DVD里面的MPEG-2视频文件转换为体积更小的视频文件。经过这样处理,图像的视频质量下降不大但体积却可缩小几倍,可以很方便地用CD-ROM来保存DVD上面的节目。另外,MPEG-4在家庭摄影录像、网络实时影像播放也大有用武之地。MPEG-7MPEG-7(它的由来是1+2+4=7,因为没有MPEG-3、MPEG-5、MPEG-6)于1996年10月开始研究。确切来讲,MPEG-7并不是一种压缩编码方法,其正规的名字叫做’多媒体内容描述接口,其目的是生成一种用来描述多媒体内容的标准,这个标准将对信息含义的解释提供一定的自由度,可以被传送给设备和电脑程序,或者被设备或电脑程序查取。MPEG-7并不针对某个具体的应用,而是针对被MPEG-7标准化了的图象元素,这些元素将支持尽可能多的各种应用。建立MPEG-7标准的出发点是依靠众多的参数对图象与声音实现分类,并对它们的数据库实现查询,就象我们今天查询文本数据库那样。可应用于数字图书馆,例如图象编目、音乐词典等;多媒体查询服务,如电话号码簿等;广播媒体选择,如广播与电视频道选取;多媒体编辑,如个性化的电子新闻服务、媒体创作等。MPEG-21MPEG在1999年10月的MPEG会议上提出了“多媒体框架”的概念,同年的12月的MPEG会议确定了MPEG-21的正式名称是“多媒体框架”或“数字视听框架”,它以将标准集成起来支持协调的技术以管理多媒体商务为目标,目的就是理解如何将不同的技术和标准结合在一起需要什么新的标准以及完成不同标准的结合工作。2.2H.261编码标准H.261编码标准又称为P*64,其中P为64kb/s的取值范围,是1到30的可变参数,它最初是针对在ISDN上实现电信会议应用特别是面对面的可视电话和视频会议而设计的。实际的编码算法类似于MPEG算法,但不能与后者兼容。H.261在实时编码时比MPEG所占用的CPU运算量少得多,此算法为了优化带宽占用量,引进了在图像质量与运动幅度之间的平衡折中机制,也就是说,剧烈运动的图像比相对静止的图像质量要差。因此这种方法是属于恒定码流可变质量编码而非恒定质量可变码流编码。H.261使用帧间预测来消除空域冗余,并使用了运动矢量来进行运动补偿。变换编码部分使用了一个8x8的离散余弦变换来消除空域的冗余,然后对变换后的系数进行阶梯量化,之后对量化后的变换系数进行Zig-zag扫描,并进行熵编码(使用Run-Level变长编码)来消除统计冗余。H.261标准仅仅规定了如何进行视频的解码,并没有定义编解码器的实现。编码器可以按照自己的需要对输入的视频进行任何预处理,解码器也有自由对输出的视频在显示之前进行任何后处理。H.261是1990年ITU-T制定的一个视频编码标准,属于视频编解码器。其设计的目的是能够在带宽为64kbps的倍数的综合业务数字网(ISDNforIntegratedServicesDigitalNetwork)上传输质量可接受的视频信号。编码程序设计的码率是能够在40kbps到2Mbps之间工作,能够对CIF和QCIF分辨率的视频进行编码,即亮度分辨率分别是352x288和176x144,色度采用4:2:0采样,分辨率分别是176x144和88x72。在1994年的时候,H.261使用向后兼容的技巧加入了一个能够发送分辨率为704x576的静止图像的技术。H.261是第一个实用的数字视频编码标准。H.261使用了混合编码框架,包括了基于运动补偿的帧间预测,基于离散余弦变换的空域变换编码,量化,zig-zag扫描和熵编码。H.261编码时基本的操作单位称为宏块。H.261使用YCbCr颜色空间,并采用4:2:0色度抽样,每个宏块包括16x16的亮度抽样值和两个相应的8x8的色度抽样值。3.音频编码3.1音频信号的数字化①采样模拟音频信号作为连续信号,数字化时必须先对这种连续信号进行采样,即按照一定的时间间隔(T)取值得到X(nT)n为整数。T称为采样周期,1/T称为采样频率,X(nT)是离散信号。②量化量化的过程如下:量化器先将整个幅度划分为有限个小幅度的集合,把落入某个间隔内的样值归为一类,并赋予相同的量化值。量化间隔的数目称为量化集,量化过程存在量化误差,在还原信号的D/A转换后,这种误差作为噪声再生,称为量化噪声。量化级数越多。量化误差就越小,质量就越好。③编码编码是根据一定的协议或格式把模拟信息转换成二进制比特流的过程。多媒体信息数字化的过程中,最简单的就是直接用量化后的二进制数作为输出的数字信号,这种编码方式就是PCM编码。3.2MP3音频压缩编码MP3(MPEG-1Layer3,MPEG-1的第3层)是目前最常用的音频压缩编码之一,他结合了MUS
本文标题:网络音视频压缩编码技术
链接地址:https://www.777doc.com/doc-2072907 .html