您好,欢迎访问三七文档
当前位置:首页 > 商业/管理/HR > 广告经营 > 第三章多媒体的数据压缩
1第三章多媒体数据压缩23.1多媒体数据压缩技术概述31分钟数字音频信号需要的存储空间5.76×616482020-20000数字音频广播5.76×216482020-20000DAT5.292×21644.12020-20000CD-DA1.681416750-7000会议电视伴音0.48883.2200-3400电话存储容量(MB)量化位数取样率(KHz)带宽(KHz)频带(Hz)数字音频格式单声道6声道41分钟数字视频信号需要的存储空间36008601280×720×60HDTV亮度信号1620亮度、色差共16亮度13.54:2:2PAL720×480×25NTSC720×576×30CCIR601号建议270亮度、色差共12亮度34:1:1352×288×30公用中间格式(CIF)存储容量(MB)量化位数取样率(MHz)空间×时间×分辨率数字电视格式5多媒体是先进的计算机技术和视频、音频及通信等技术集成的产物。多媒体计算机涉及的信息包括:文字、音乐、电影、动画、图形等等。这些信息经数字化处理后的数据量非常大,那么如何在多媒体系统中有效地保存和传送这些数据就成为多媒体计算机面临的最基本,也是最大的一个难题。数据压缩核心问题:利用最少时间和最小空间,传输和保存多媒体数据。3.1多媒体数据压缩技术概述6z多媒体“数据爆炸”z如果不进行数据压缩,传输和存储都难以实用化。数据压缩的必要性3.1多媒体数据压缩技术概述7数据压缩的可能性z人类不敏感的因素声音图像中大量的空白或相同无变化的数据,称为冗余数据信息声音图像数据中相邻的数据往往变化不大,称为有较高的相关性人们对音像媒体的理解往往利用其与目的有关的主要特征,去除与目的无关的信息不影响视听效果例如:人类对超声波、亚声波感觉不出来,人眼对颜色的分辨不可能达到真彩色2243.1多媒体数据压缩技术概述z数据冗余数据压缩技术就是利用多媒体数据的冗余性来减少数据量的方法8原始图像编码编码结果存储传输解码解码图像数据压缩的现实性图像编解码过程:9数据压缩的现实性图像编解码过程:原始图像编码结果解码图像103.1多媒体数据压缩技术概述数据压缩数据压缩必要性可能性现实性11[1]空间冗余——图像的空间连贯性[2]时间冗余——视频与动画画面间的相关性[4]视觉冗余——视觉敏感度和非线性感觉[6]知识冗余——凭借经验识别[3]信息熵冗余——编码冗余,数据与携带的信息[7]结构冗余——规则纹理、相互重叠的结构表面[5]听觉冗余——听觉敏感度3.1.1数据冗余的类型12[1]空间冗余——图像的空间连贯性一幅图像表面上各采样点的颜色之间往往存在着空间连贯性,基于离散像素采样来表示物体表面颜色的像素存储方式可利用空间连贯性,达到减少数据量的目的。静态图象中存在的最主要的一种数据冗余规则物体和规则背景的表面物理特性(颜色)具有相关性。13声音、视频信息的前后相关性;一组连续的画面之间往往存在着时间相关性。[2]时间冗余——视频与动画画面间的相关性运动图像一般为位于一时间轴区间的一组连续画面,其中的相邻帧往往包含相同的背景和移动物体,只不过移动物体所在的空间位置略有不同,所以后一帧的数据与前一帧的数据有许多共同的地方,这种共同性是由于相邻帧记录了相邻时刻的同一场景画面,所以称为时间冗余。运动图象中经常包含的冗余1415人类的视觉系统由于受生理特性的限制,对于图像场的注意是非均匀的,人对细微的颜色差异感觉不明显。例如,人类视觉的一般分辨能力为26灰度等级,而一般的图像的量化采用的是28灰度等级,即存在视觉冗余。人类的听觉对某些信号反映不太敏感,使得压缩后再还原有允许范围的变化,人也感觉不出来。[4]视觉冗余——视觉敏感度和非线性感觉16图像的理解与某些基础知识有关。例:人脸的图像有同样的结构:嘴的上方有鼻子,鼻子上方有眼睛,鼻子在中线上……可以根据这些器官的特点建立一些特征图像库,从而在保存人脸图像的时只保存一些特征参数,这样可以极大减少数据量。这类规律性的结构可由先验知识和背景知识得到,我们称此类冗余为知识冗余。[6]知识冗余——凭借经验识别17在某些场景中,存在着明显的图象分布模式,这种分布模式称作结构例如:方格状的地板,蜂窝,砖墙等[7]结构冗余——规则纹理、相互重叠的结构表面183.1.2数据压缩方法的分类按原始数据是否有损失:(1)有失真编码(不可逆编码)(2)无失真编码(可逆编码)按编码原理分类:(1)预测编码(2)变换编码(3)统计编码(熵编码)(4)分析—合成编码(5)混合编码等193.1.3数据压缩技术的性能指标(1)压缩比压缩比要大,即压缩前后所需要的信息存储量之比要大;(2)图像质量恢复效果好,要尽可能地恢复原始数据(3)压缩解压速度实现压缩的算法简单,压缩、解压速度快,尽可能地做到实时压缩解压20(1)压缩比设n1和n2分别代表用来表达相同信息的2个数据集合中的信息载体单位的个数。¾压缩率(压缩比):——描述压缩算法性能CR=n1/n2其中,n1是压缩前的数据量,n2是压缩后的数据量.¾相对数据冗余:RD=1–1/CR例:CR=20;RD=19/20n1相对于n2CRRD对应的情况n1=n210第1种表达相对第2种表达不含冗余数据n1n2→∞→1第1个数据集合含相当多的冗余数据n1n2→0→∞第2个数据集合包括比原始表达多得多的数据21z图象保真度无失真编码/有失真编码描述解码图象相对于原始图象的偏离程度对信息损失的测度z主观保真度准则主观测量图象的质量,因人而异,应用不方便z客观保真度准则用编码输入图与解码输出图的某个确定函数表示损失的信息量,便于计算或测量(2)图像质量22观察者对图象综合评价的平均电视图象质量评价尺度评分评价说明1优秀图象质量非常好,如同人能想象出的最好质量。2良好图象质量高,观看舒服,有干扰但不影响观看。3可用图象质量可接受,有干扰但不太影响观看。4刚可看图象质量差,干扰有些妨碍观看,观察者希望改进。5差图象质量很差,妨碍观看的干扰始终存在,几乎无法观看。6不能用图象质量极差,不能使用。主观保真度准则(2)图像质量23),(),(ˆ),(yxfyxfyxe−=∑∑−=−=−1010),(),(ˆMxNyyxfyxf[]2110102rms),(),(ˆ1⎥⎥⎦⎤⎢⎢⎣⎡−=∑∑−=−=MxNyyxfyxfMNe[]∑∑∑∑−=−=−=−=−=1010210102),(),(ˆ),(ˆMxNyMxNymsyxfyxfyxfSNR客观保真度准则(2)图像质量10lgmsSNRSNR=点误差图误差均方根误差均方信噪比24(3)压缩解压速度静态图像:要求不是很严格动态视频:必须有较高的帧速至少15帧/秒(全动态25帧/秒或30帧/秒)253.2常用的数据压缩编码方法26输入图像二进制位流指定码字编码多到一的映射有限个符号一对一的变换压缩准备变换器量化器编码器图像压缩系统的组成3.2常用的数据压缩编码方法27其他专有的编码方法MPEG-1,MPEG-2,MPEG-4,H.261-H.264JPEG,JPEG2000混合编码矢量编码子带编码子采样二进制位的位置分层编码离散小波变换离散余弦变换快速傅里叶变换变换编码增量调制差分脉冲编码调制预测编码源编码有损压缩算术编码霍夫曼编码统计编码行程长度编码熵编码无损压缩编码技术编码类型压缩类型283.2常用的数据压缩编码方法1预测编码原理:利用前面一个或多个像素值对当前待编码像素值进行预测,对差值而不是原像素值编码,在差值小于原始值时可以得到较低码率。(1)DPCM(差分脉冲编码调制)(2)ADPCM编码(自适应差分脉冲编码调制)29预测编码是指利用前面的一个或多个信号对下一个信号进行预测,然后对实际值和预测值的差进行编码。DPCM与ADPCM是两种典型的预测编码。zPCM(PulseCodeModulation),原始的模拟信号经过时间采样,然后对每一样值进行量化,作为数字信号传输。zDPCM不对每一样值都进行量化,而是预测下一样值,并量化实际值和预测值之间的差。zDPCM是基本的编码方法之一,在大量的压缩算法中被采用,比如JPEG的DC分量就是采用DPCM编码的。30PCM编码(PulseCodeModulation)31),(yxf∧−),(yxS),(yxS),(yxf),(yxe),('yxe),('yxe),(yxeq),(yxeq),('yxf),('yxf),(yxf∧(1)DPCM编码解码3233如某灰度图像PCM编码为:129、128、127、127、126、126、125、124、123、122预测方法:f'(i,j)=f(i-1,j-1)-1预测值:129、128、127、126、125、124、123、122、121、120……差值信号:0、0、0、1、1、2、2、2、2、2对差值信号进行量化、编码、发送,可以减小存储位数。34(2)ADPCM编码解码自适应差分脉码调制(ADPCM)为了进一步改善量化性能或压缩数据率,可采用自适应量化或自适应预测的方法。只要采用了其中的任一种自适应方法,均称为ADPCM。自适应预测预测参数的最佳化依赖于信源的统计特性,要得到最佳的预测参数是一件繁琐的工作。而采用固定的预测参数往往又得不到好的性能。为了既能使性能较佳,又不致于有太大的工作量,可以将上述两种方法折衷考虑,采用自适应预测。35具体方法是:预测参数仍采用固定的;但此时有多组预测参数可供选择。这些预测参数根据常见的信源特征求得。编码时具体采用哪组预测参数根据信源的特征来自适应的确定。为了自适应的选择最佳参数,通常将信源数据分区间编码,编码时自动地选择一组预测参数,使该区间实际值与预测值的均方误差最小。随着编码区间的不同,预测参数自适应的变化,以达到准最佳预测。36例如,Microsoft的ADPCM采用二预测参数,提供7组预测系数,如右表所示。编码时,根据选定的准则(如最小均方误差准则),每个编码区间自动地选取一组最佳的参数。系数集系数1系数2025601512-256200319264424005460-2086392-23237变换编码2将在空间域里描述的图像,经过某种变换(通常采用正交变换),在频域(变换域)里进行描述,降低图像的相关性,实现数据压缩。基本思想:先对信号进行某种函数变换,将信号的表示方法从一种信号空间变换到另一种正交矢量空间,从而产生一批变换系数,然后再对这些系数进行编码38原理:t–用F(f)来存贮声音,需要时逆变换恢复原声音–适当压缩高频系数,通过逆变换不影响声音的效果X(t)F(f)t为时间,f为频率,F(f)为频谱系数,数量较少f例如:将时域信号变到频域信号,因为声音和图像的大部分信号都是低频信号,在频域中,信号的能量较集中,再进行采样、编码就可以压缩数据。39时间幅值频率时域分析频域分析信号频谱X(f)代表了信号在不同频率分量成分的大小,能够提供比时域信号波形更直观,丰富的信息。40变换本身是可逆的,因而其也是一种无损技术。然而,为了取得更满意的结果,某些重要系数的编码位数比其他的要多,某些系数干脆就被忽略了。这样,该过程就成为有损的了。41变换编码:正交变换系数选择量化输入图像熵编码信道反正交变换反量化熵解码输出图像编码器解码器42按正交变换的形式,变换编码有:z傅里叶变换z哈尔变换z斜变换z余弦变换z正弦变换zK-L变换43(1)最佳变换(K-L变换)变换矩阵依赖于信号统计特性,不具有通用性,无快速算法(2)离散余弦(DCT)变换次最优变换DCT,效果接近KL变换,变换核固定,有快速算法44(1)最佳变换(K-L变换)数据压缩主要是去除信源的相关性。若考虑到信号存在于无限区间上,而变换区域又是有限的,那么表征相关性的统计特性就是协方差矩阵。当协方差矩阵中除对角线上元素之外的各元素都为零时,就等效于相关性为零。所以,为了有效地进行数据压缩,常常希望变换后的协方差矩阵为一对角矩阵,同时也希望主对角线上各元素随i,j的增加很快衰减。因此,变换编码的关键在于:在已知X
本文标题:第三章多媒体的数据压缩
链接地址:https://www.777doc.com/doc-1483215 .html