您好,欢迎访问三七文档
当前位置:首页 > 商业/管理/HR > 广告经营 > 第四章多媒体数据的压缩
第四章数字音频、视频信号的压缩多媒体计算机系统中,要处理、传输、存储的多媒体信息,主要包括数字、文本、图形、图像、视频等媒体类型。这些媒体的表示在计算机系统中以大量数据存在,所以数据的高效表示和压缩技术就成为多媒体系统的关键技术。4.1数据压缩压缩的必要性4.2常用的数据压缩技术4.3静态图像压缩标准JPEG4.4运动图像压缩标准MPEG4.5视听通信编码解码标准H.2614.6声音压缩标准本章小结4.1数据压缩压缩的必要性4.1.1为什么要数字化声音和图像?采用模拟方式表示声音和图像信息缺点:易出故障;不适合数字计算机加工处理。对多媒体信息进行数字化处理的优点:提高稳定性、精确性;适于计算机处理。例1:A4幅面(21.6cm×30cm)的彩色照片,用扫描仪采样(设12dot/cm),像素用24bit彩色信号表示。则其数据量为:4.1.2数据压缩的必要性数字化处理面临的主要问题是巨大的数据量(21.6×30)×(12×12)×24/8=例2以16位采样精度,22.05kHz采样频率,录制1分钟立体声的节目,数据大小是多少?22.05×1000×(16/8)×2×60=5.292M录制1小时?一天?一年?数据压缩要解决的问题?a.存储b.存取c.处理d.传输4.1.3数据压缩的可能性图像和视频中存在大量冗余信息,什么是冗余?1.相同或者相似信息的重复2.可以在空间范围重复,也可以在时间范围重复3.可以是严格重复,也可以是以某种相似性重复常见冗余种类(1)空间冗余(2)时间冗余(3)信息熵冗余(4)结构冗余(5)先验知识冗余(6)视觉冗余(7)其他冗余(1)空间冗余:在同一幅图像中,规则物体和规则背景的表面物理特性具有相关性,这些相关性的光成像结果在数字化图像中就表现为数据冗余。a.这是静态图像中存在的最主要的一种数据冗余;b.即对同一景物表面上采样点的颜色之间存在着空间连贯性c.例如:图像中一片连续的区域,其像素为相同的颜色,空间冗余产生(2)时间冗余a.序列图像(电视图像、动画)和语音数据中所经常包含的冗余b.一组连续的画面之间往往存在着时间和空间的相关性c.例如:唱歌的歌手(3)信息熵冗余a.信息熵:一组数据所携带的信息量。b.冗余的产生是因为:在信源符号的表示过程中未遵循信息论下最优编码而造成。c.通过熵编码进行压缩(4)结构冗余a.在某些场景中,存在着明显的分布模式——结构b.结构可以通过特定的过程来生成c.例如:方格状的地板,蜂窝,砖墙等(5)知识冗余a.有许多图像的理解与某些基础知识有相当大的相关性b.这类规律性的结构可以由先验知识和背景知识得到c.例如:人脸的图像(6)视觉冗余a.可以根据这些视觉特性来对图象信息进行取舍b.人类的视觉系统对图像场的敏感性:非均匀和非线性的对亮度变化敏感,而对色度的变化相对不敏感,在高亮度区,人眼对亮度变化敏感度下降;对物体边缘敏感,内部区域相对不敏感;对整体结构敏感,而对内部细节相对不敏感;4.1.4数据压缩技术的性能指标节省图像或视频的存储容量,增加访问速度,使数字视频能在PC机上实现,需要进行视频和图像的压缩。有三个关键参数评价一个压缩系统1.压缩比2.图像质量3.压缩和解压的速度另外也必须考虑每个压缩算法所需的硬件和软件。4.2信息与熵消息(Message)信息(Information)电报、电话、一组数据消息中不确定的内容信息是用不确定性的度量定义的,小的可能性越小,其信息量就越大;消息的可能性越大,其信息量越小;香农的信息理论(C.E.Shannon)所谓消息,是指从N个相等可能事件中选出一个事件,所需的信息度量或含量。也就是辨识N个事件中特定的一个事件过程中需要提问“是”或“否”的最少次数。信息假设由一系列随即变量代表,它们用随机出现的符号来表示,输出这些符号的源称为“信源”设信源x的符号集为,并设出现的概率为,则该信源的信息量为:i=1,2,3,…,n当随机事件x发生的概率P(Xi)大时,I(Xi)变小;当P(Xi)=1时则I(Xi)=0)...3.2.1(nixiix)(ixpiiXPXIlog离散无记忆信源:如果信源信号的出现概率大小不受其符号出现与否影响时,称为离散无记忆信源;此时其信息量称为“自信息量”离散无记忆信源中,一个符号携带的平均信息量定义为“熵”(entropy),则信源x的熵为:信息概率分布越均匀,其熵越大;反之越小.只要分布的概率不均匀就存在信息的冗余,因而存在数据压缩的可能性;11()()()()log()NNiiiiiiHxPxIxPxPx11()()()()log()NNiiiiiiHxPxIxPxPx1、考虑事件发生的概率、信息熵、信息量三者关系?2、考虑什么时候信息熵最大和最小?信息熵编码原理(香农信息论)(1)信源中含有自然冗余度,这些冗余度既来自信源本身的相关性,只要找到去除相关性和概率分布不均匀性的手段和方法,也就找到了信息熵编码的方法,如图像中存在的空间相关、帧间相关,还存在灰度概率分布不均匀性。(2)信源所含有的平均信息量(熵)是进行无失真编码的理论极限,低于此极限的无失真编码是找不到的。只要不低于此极限,就能找到逼近熵的、某种合适的编码方法;平均码长度若某个系统使用几种符号,并且每种符号经统计后得知该符号出现的概率为P(i),且符号i经过编码后的长度为L(i),则平均码长度定义为:1()()NiiiLPxlx符号m1m2m3m4m5m6m7m8代码101001000100001000001000000100000001码长12345678例题:如图的二元编码,其平均码长度为多少?编码的效率为E=H/L(E1)(其中H为该系统的平均信息量,L为该系统经编码后的平均码长度)编码效率假设某信源有8个字符,出现概率如图(1),则该信源的熵为多少?如果采用二进制编码,如图(2)所示编码效率为多少?Xm1m2m3m4m5m6m7m8P0.40.20.150.100.070.040.030.01符号m1m2m3m4m5m6m7m8代码101001000100001000001000000100000001码长12345678图(1)图(2)冗余度1信源的信息熵平均编码长度r第三节数据压缩编码的分类1948年Oliver提出脉冲编码调制(PCM)编码理论以后,人们已经研究了各种各样的方法压缩多媒体数据。若对数据压缩方法分类,从不同角度会有不同的分类结果。根据解码后数据是否能够完全无丢失地恢复原始数据,数据压缩方法可分为可逆压缩方法和不可逆压缩方法;1.可逆压缩方法:也叫无失真编码,冗余压缩,熵编码等;2.典型的冗余压缩方法有Huffman编码、算术编码、游程编码等;3.由于不会产生失真,所以可逆压缩方法主要是基于统计的编码,一般用于文本数据的压缩,能完全恢复原始数据,但压缩效率较低,压缩比一般在2:1至5:1之间;如:文件压缩,Winzip,WinRar等;1.不可逆压缩方法:也叫有失真压缩编码,熵压缩编码,有损压缩编码;2.典型的不可逆压缩编码方法有:预测编码,变换编码,子带编码等;3.有损压缩方法:通常用于数字化存储的模拟数据,主要用于图像、声音、视频等数据的压缩处理;可应用于影像节目、可视电话、多媒体网络等领域对于数据压缩的总结1、有冗余度就可以压缩;2、压缩只能在一定限度内可逆(无损压缩);3、超过此限度,必然带来失真(有损压缩);4、允许的失真越大,压缩的比例也会越大;Huffman编码1952年Huffman提出了对统计独立信源能达到最小平均码长的编码方法,即最佳码。最佳性可从理论上证明。这种码具有即时性和唯一可译性。该编码是常见的一种统计编码。对给定的数据流,计算其每个字节的出现频率。根据频率表,运用哈夫曼算法可确定分配各字符的最小位数,然后给出一个最优的编码。Huffman算法的编码过程:1、将所有符号的出现概率按递减的顺序排列。2、依次将出现概率最低的两个信源信号结合成一个新的符号,此新的符号称为节点,节点内含两个信源信号的概率和。继续这一步骤,直到概率到1为止,最后得到一个树型结构;3、依次由树根出发,到每个信源信号,每遇到一个节点,左边的分配1,右边的分配0,把由树根到到信源的路径中遇到的1和0串接自来得到该符号的编码;例题1:设有7个符号的信源,其概率分布为,做出Huffman编码,并求其平均码长度;7,...,21,xxxA05.0,07.0,08.0,10.0,15.0,20.0,35.0P信源信号Huffman编码X111X201X3101X4001X5000X61001X71000采用Huffman编码后,平均码长度为:例题1:设有7个符号的信源,其概率分布为,做出Huffman编码,计算采用Huffman编码后的编码效率及冗于度;7,...,21,xxxA01.0,10.0,15.0,17.0,18.0,19.0,20.0P缺点:Huffman码依赖于信源的统计特性,必须先统计得到信源的概率特性才能编码,这就限制了实际的应用。通常可在经验基础上预先提供Huffman码表,此时性能有所下降。Huffman编码的优缺点优点:当信源符号概率是2的负幂次方时,Huffman编码法编码效率达到100%。一般情况下,它的编码效率要比其它编码方法的效率高,是最佳变长码。算术编码a.20世纪60年代初,E1ias提出了算术编码概念;b.1976年,Rissanen和Pasco首次介绍了它的实用技术,分别用定长的寄存器实现了有限精度的算术编码(ArithmeticCoding,AC),但还无法使用;c.1979年Rissanen和Langdon将算术编码系统化;d.1987年Witten等人发表了一个实用的算术编码程序;即CACM8F(后来用于ITU-T的H.263视频压缩标准)同期IBM公司发表了著名的Q编码器(后来用于JPEG和JBIG图像压缩标准)(一)算术编码的历史(二)算术编码的特点:①不必预先定义概率模型,自适应模式具有独特的优点;②算术编码实现方法复杂一些,但JPEG成员对多幅图像的测试结果表明,算术编码比Huffman编码提高了5%左右的效率,因此在JPEG扩展系统中用算术编码取代Huffman编码。③信源符号概率接近时,建议使用算术编码,这种情况下其效率高于Huffman编码。(三)算术编码的思路用一个浮点输出数值代替一个流的输入符号;0101010101010101011100011001001101010101111把要压缩的整段数据映射到一段实数半开区间[0,1),然后构造出小于l且大于或等于0的一个数值,这个数值就是对该输入流进行压缩编码后的输出代码;例如:可将输入字符流“eai”映射到区间[0.23,0.236)然后取该区间的任一个数,如0.23,作为该输入字符流的编码。(四)算术编码的基本原理将编码的信息表示成实数0和1之间的一个间隔,信息越长,编码表示它的间隔就越小,表示这一间隔所需的二进制位就越多。(五)算术编码的具体实现(六)算术编码的几个问题1.由于实际的计算机的精度不可能无限长,运算中的溢出是一个明显的问题,但多数计算机都有16位、32位、64位的精度,因此这个问题可以用比例缩放的方法来解决;2.算术编码器对这个消息只产生一个码字,这个码字是在区间[0,1)中的一个实数,因此译码器在接受到表示这个实数的所有位之前不能进行译码;3.算术编码是一种对错误很敏感的编码方法,如果有一位发生错误就会导致整个消息译错;3.行程编码(RLE)现实中有许多这样的图像:a.在一幅图像中有许多相同的图块,在这些许多行上都具有相同的颜色;b.在一行上有许多连续的像素都具有相同的颜色值.在这种情况下就不需要存储每一个像素的颜色值,而仅仅存储一个像素的颜色值及具有相同颜色值的像素的数目就可以,或者存储一个颜色的像素值及相同颜色的行数,这种压缩编码称为行程编码;用(RunLengthEncodingRLE)表示;具有相
本文标题:第四章多媒体数据的压缩
链接地址:https://www.777doc.com/doc-3172751 .html