第8讲多媒体数据压缩.

第8讲多媒体数据压缩8.1多媒体数据压缩概述8.2多媒体数据压缩方法8.3多媒体数据压缩编码的标准8.1多媒体数据压缩概述多媒体数据量很大，需要进行压缩处理，而多媒体数据本身存在很大的冗余度，使其可以被压缩。8.1.1多媒体数据压缩的必要性8.1.2多媒体数据压缩的可能性8.1.3多媒体数据压缩的相关问题8.1.1多媒体数据压缩的必要性多媒体应用中涉及到的媒体有文字、图形、图像、音频、动画、视频等。其中文字的数据量较小，一本书的文本文件大概只要几百字节；图形文件的数据量和其表达内容以及文件格式等相关，数据量通常大于文字媒体；计算机制作的动画通常是基于两种格式，一种是基于矢量格式的，一种是基于点阵格式，基于矢量格式的动画的数据量小于基于点阵格式的动画；绝大部分的媒体如图像、音频及视频的数据量都非常大，表8-1列举了一些多媒体数据的数据量。以多媒体视频为例，如果图像的分辨率为640像素×480像素，每个像素使用三个字节（即24位）来存储，采用PAL制传输，即帧频为25帧/秒，那么一秒的数据量大约是176MB，普通的容量为650MB左右的CD-ROM光盘，只能存储不到30秒的数据，而且传输速率为176Mbit/s，普通网络的带宽很难承受。由此可见，多媒体应用中面对着存储和传输两个问题，对于这两个问题，可以从硬件和软件两个方面来解决。在硬件方面，随着计算机技术的发展，存储介质的容量、传输速率以及系统和网络的传输速度都在不断提高，但硬件在发展，多媒体应用的需求也在发展，现在硬件发展的速度和程度仍然不能和当前多媒体应用的需求相匹配。所以，面对数字化了的音频、视频信号巨大的数据量，单靠硬件技术的提高是不够的，对媒体数据的压缩才是最终的解决方案。所谓压缩就是把媒体的数据量变小，然后再进行存储和传输，当应用时再从数据量小的文件中恢复回原来的媒体表达。多媒体数据必须进行压缩才可以解决多媒体数据的存储和传输问题，才可以有效地利用有限资源，节省存储空间，提高传输效率。8.1.2多媒体数据压缩的可能性多媒体数据之所以能够被压缩，主要基于两个原因，一是由于人的视觉和听觉的生理局限性；二是由于音频、图像、视频等数据的冗余度很大，具有很大的压缩潜力。下面分别讨论。1．感官的生理局限性2．多媒体数据的冗余1．感官的生理局限性人类的听觉和视觉等感觉器官受人体机能的限制，具有一定的局限性。（1）听觉局限性：主要表现在三个方面，一是人的听觉具有掩蔽效应，强弱不同的声音同时存在时，强声会使弱声难以被听见；二是人耳对不同频段的声音敏感程度不同，通常对低频信号更敏感些；三是人耳对语音信号相位变化不敏感。（2）视觉局限性：主要表现在两个方面，一是人类视觉的掩盖效应，对图像场的某些变化感觉不灵敏；二是视觉系统的色彩分辨能力有限，一般只有6位灰度级，一个真彩系统可以表达16777216种不同颜色，而一个专家能识别的颜色也就只有几百种，通常说来人类对图像色彩的感知能力远不如对亮度的感知能力。音频、图像、视频这些多媒体数据最终是要由人类的感觉器官来感知的，因此对多媒体数据的记录和存储要充分利用听觉系统和视觉系统的特点，对于人的感官感觉不到的信息或不敏感的信息可以进行必要的舍弃，避免做无用功。2．多媒体数据的冗余除了人的感官方面的局限性之外，实际上图像、音频和视频数据本身也具有很大的冗余性。（1）空间冗余（2）时间冗余（3）统计冗余（4）结构冗余（5）知识冗余（1）空间冗余：一幅静态图像中，物体和背景的表面颜色常常具有空间连贯性，如一堵白墙的图像，尽管上面可能挂着其他东西需要存储，但是整个墙的背景颜色都是白色，如果存储每一个白点，就会造成极大的浪费。即使像素块不是由同一种颜色构成的，但一个点的颜色值和周围点的平均值离得较远的概率比靠得较近的概率小得多。这些相关性在数字化图像中就表现为空间冗余。空间冗余是静态图像存在的最主要的数据冗余形式。（2）时间冗余：音频和视频数据是一连续的渐变过程，而不是一个完全在时间上独立的过程，因而存在时间冗余。音频相邻采样点数据的幅度值很相近，视频图像序列中的两幅相邻的图像中，后一幅图像与前一幅图像之间往往有较大的相关性，动画中的相邻两帧有时几乎相同，这都是一种时间冗余。（3）统计冗余：数据中进行编码中各种符号的出现频率不同，如果给每一种符号相同的存储位数，这样也会产生冗余，叫统计冗余。（4）结构冗余：有些图像中一些区域的“条纹”较密，没有“通常”的空间冗余，但从大的区域上看存在着非常强的纹理结构，例如布纹图像和草席图像等。（5）知识冗余：有许多图像的理解与某些基础知识有相当大的相关性。例如，人脸的图像有固定的结构，嘴的上方有鼻子，鼻子的上方有眼睛，鼻子位于正面图像的中线上等。这类规律性的结构可由先验知识和背景知识得到，此类冗余被称为知识冗余。8.1.3多媒体数据压缩的相关问题1．压缩的本质2．压缩和解压缩3．压缩的衡量标准1．压缩的本质通过对多媒体数据压缩的必要性和可能性的讨论可知，数字多媒体信息对数据传输和数据存储构成了巨大的压力，因此必须进行压缩，而由于多媒体数据本身具有冗余的数据，因此多媒体数据有可能被压缩。数据压缩就是按照某种方法从给定的数字信号（如音频、图像、视频）中推出简化的数据表述，从而降低数据量的过程，这个过程也被称为数据编码。多媒体数据压缩的目的是为了最有效地利用有限的存储器资源、信道资源和计算资源等。数据压缩的本质就是去掉数字信号数据中的冗余数据，减小数据量。当然，这种数据的压缩并不是无限度地减小数据量，因为压缩文件在应用时还要恢复原始数据，所以必须保证压缩的文件能被恢复。在多媒体技术中，不需要把信号完全无损地恢复，但要能保存原来数据的关键信息。因此，多媒体技术中压缩的任务是保持源信号在一个可以接受的前提下把需要的比特数减到最少程度，即用尽可能少的比特数来表示源信号并能将其还原。2．压缩和解压缩数据压缩就是去掉信号数据的冗余性，也称为数据编码。与此对应，数据压缩的逆过程称为数据解压缩，简称为数据解码。压缩的多媒体数据需要解压缩才能使用，图8-1表达了多媒体数据压缩和解压缩的过程。按压缩和解压缩算法耗费代价的不同，可以把多媒体应用分为对称应用和非对称应用。在对称应用中编码和解码代价应基本相同，如视频会议系统，数据在各个终端被压缩和解压缩，此时要求压缩和解压缩所耗费的时间和资源基本相当；在非对称应用中，解码过程比编码过程耗费的代价要小，例如网络视频系统，它的数据压缩的过程仅一次，采样的时间不限，而解压缩经常用到并需要迅速完成，因此实时解码成为基本要求，而编码所需的时间则不限。3．压缩的衡量标准衡量一个压缩技术的好坏，有如下四个标准。（1）压缩比要大，即压缩前后所需的信息存储量之比要大，使数据尽可能地被压缩。（2）恢复效果要好。要尽可能地恢复原始数据。（3）压缩、解压速度快，即实现压缩的算法要简单，尽可能地做到实时压缩、解压。在不对称应用中，解压速度的提高显得更为重要。（4）压缩及解压的成本尽可能小，即实现压缩和解压缩的软硬件开销要尽可能小。事实上，一种压缩算法或压缩标准，不可能同时达到以上四个要求，因此常常根据应用的不同选择尽可能适用的压缩方法，即在压缩能力、实现复杂性与成本等方面进行平衡与折中。8.2多媒体数据压缩方法8.2.1压缩方法分类8.2.2RLE编码8.2.3统计编码8.2.4预测编码8.2.5变换编码8.2.1压缩方法分类多媒体数据压缩方法根据不同的标准有多种分类方法，例如从压缩算法的原理上可以分为统计压缩编码、变换压缩编码、预测压缩编码、模型压缩编码等；从压缩面向的对象上可以分为针对音频的压缩编码（如波形编码、参数编码）和针对视频的压缩编码（如帧内压缩编码技术、帧间压缩编码技术）等，根据算法是否自适应分为自适应压缩编码和非适应性压缩编码等；根据数据质量有无损失分为有损压缩编码和无损压缩编码。在实际应用中往往是采用多种不同方法对原始数据进行综合压缩编码，反复压缩，以取得较高的压缩率，这种综合压缩编码方式统称为混合编码。根据质量有无损失分类方式涵盖了所有的多媒体压缩方法，即所有的压缩方法必然可以归入这两种类型中的一种。从信息论的观点看，描述信源的数据是信息量和信息冗余量之和。在压缩过程中，去掉冗余数据，减少数据量但并不减少信息量，解压缩时仍可原样恢复数据，这样的压缩就是无损压缩，也被称为冗余压缩法。因为无损压缩是可逆的，因此也被称为可逆压缩法。如果在压缩过程中不但减少了数据量，同时数据的信息量也减少了，此时解压缩后数据则不能完全恢复，只能近似地恢复，这种压缩方法被称为有损压缩或不可逆压缩法。在信息论中，平均信息量定义为熵，因此无损压缩方法也被称为熵编码法，而有损压缩方法也被称为熵压缩法。无损的压缩常用于原始数据的存档、应用软件压缩以及专业数据的精密处理，例如医疗图像读取和解析、卫星数据判读等。而有损压缩通常用于普通音频和视频的压缩，人类的视觉和听觉器官对音频和视频中某些信息不大敏感，有损压缩以牺牲这部分信息为代价，换取了较高的压缩比。实验证明，一般情况下损失的部分信息对理解原图像或声音基本没有影响，即有损压缩丢失的信息对用户来说并不重要，用户感觉不到，因此这部分信息可以忽略。常用的无损压缩方法有RLE编码、统计编码（如Huffman编码、算术编码）和LZW编码等。常用的有损压缩方法有PCM（脉冲编码调制）、预测编码、变换编码、矢量量化和子带编码等。8.2.2RLE编码RLE（RunLengthEncoding）编码也被称为行程编码。RLE压缩编码主要适用于图像，对减少图像文件的存储空间非常有效，在图像中具有相同颜色并且是连续的像素数目被称为行程长度。一幅图像中往往具有许多颜色相同的图块。在这些图块中，许多行上都具有相同的颜色，或者在一行上有许多连续的像素都具有相同的颜色值。RLE编码在这种情况下存储的不是每一个像素的颜色值，而仅仅存储一个像素的颜色值以及具有相同颜色的像素数目就可以，或者存储一个像素的颜色值以及具有相同颜色值的行数。RLE编码解码时按照与编码时采用的相同规则进行，还原后得到的数据与压缩前的数据完全相同。因此，RLE编码属于无损压缩技术。RLE编码的优点在于技术直观算法简单。然而，RLE对颜色丰富的自然图像不太适用，颜色丰富的自然图像在同一行上具有相同颜色的连续像素往往很少，而连续几行都具有相同颜色值的连续行数就更少，此时如果仍然使用RLE编码方法，不仅不能压缩图像数据，反而可能使原来的图像数据变得更大。RLE所能获得的压缩比有多大，这主要是取决于图像本身的特点。如果图像中具有相同颜色的图像块越大，图像块数目越少，获得的压缩比就越高，反之，压缩比就越小。通常RLE编码和其他的压缩编码技术联合应用。8.2.3统计编码统计编码是根据信源符号出现概率的分布特性而进行的压缩编码，使用一种变长码，将出现次数较多的符号用较短的码字表示，以便使平均码长或码率尽量小。哈夫曼编码是由Huffman在1952年提出的一种典型的统计编码，它的基本原理是按信源符号出现的概率大小进行排序，出现概率大的分配短码，出现概率小的则分配长码。下面来看一个实际的例子。假设有一个系统只对7段文字进行编码，这7段文字内容分别为“iamababy”、“iamaboy”、“iamagirl”、“iamaman”、“iamawoman”、“iamanoldman”、“iamanoldwoman”，7段文字总长度为86，共涉及到了13种不同字符，一个系统用二进制表达13种字符，如果采用定长码，则每个字符至少需要4位，每一段文字需要的编码长度见表8-2。但这13种字符出现的频率不同（如表8-3所示），对每一种字符都用同样的码长有些浪费，所以希望让出现频繁的字符码长短一些，较少出现的字符码长长一些。哈夫曼编码就是针对信源符号出现的概率不同的情况进行的编码。哈夫曼编码过程如下：（1）首先把待编码的每一个符号看成一个节点，所有待编码字符看做原始节点序列。（2）从节点序列中选择概率最小的两个节点。（3）构造一个新节点，新节点的概率等于刚才两个节点概率之

第8讲多媒体数据压缩.

免费阅读已结束，点击付费阅读剩下 ... 页

阅读已结束，您可以下载文档离线阅读

物联网概述36

第13章样板工程设计——UI决策产品

工作任务3国际集装箱运输

第八届武汉农业博览会邀请函(定稿)XXXX年第八届中国武汉农业博览会

枣庄文化旅游

新医新药

第五章醋酸及其系列产品

智慧财产与竞争法论坛

14-促销策略(PPT 34页)

费用报销讲解2

相关文档

相关搜索