第四章多媒体数据压缩技术介绍

专业选修课程武汉大学多媒体技术MultimediaTechniques第四章多媒体数据压缩技术4.1多媒体数据压缩技术概述4.2常用多媒体数据压缩方法4.3语音信号编码的标准与方法4.4静态图像压缩编码技术4.5动态图像压缩编码技术第四章多媒体数据压缩技术4.1多媒体数据压缩技术概述•数据编码包括：–信源编码–信道编码•信源编码：为了表示和/或压缩从信号源产生出来的信号而进行的编码，主要解决有效性问题。•信道编码：为了使处理过的信号在传输过程中不出错或少出错，以及即使出了错也能自动检错或尽量纠错而进行的编码，主要解决可靠性问题。•多媒体数据的压缩主要是对视频数据和音频数据的压缩，二者使用的基本技术是相同的。–为什么要压缩–数据的冗余性–压缩和解压缩过程–压缩评价和分类•数据压缩常常又称为数据信源编码，或简称为数据编码。•数据压缩的逆过程称为数据解压缩，也称为数据信源解码，或简称为数据解码。4.1多媒体数据压缩技术概述4.1多媒体数据压缩技术概述4.1多媒体数据压缩技术概述4.1多媒体数据压缩技术概述4.1多媒体数据压缩技术概述4.1多媒体数据压缩技术概述4.1多媒体数据压缩技术概述4.1多媒体数据压缩技术概述4.2常用多媒体数据压缩方法4.2常用多媒体数据压缩方法4.2常用多媒体数据压缩方法4.2常用多媒体数据压缩方法4.2常用多媒体数据压缩方法4.2常用多媒体数据压缩方法4.2常用多媒体数据压缩方法4.2常用多媒体数据压缩方法4.2常用多媒体数据压缩方法4.2常用多媒体数据压缩方法4.2常用多媒体数据压缩方法4.2常用多媒体数据压缩方法4.2常用多媒体数据压缩方法4.2常用多媒体数据压缩方法4.2常用多媒体数据压缩方法4.2常用多媒体数据压缩方法4.2常用多媒体数据压缩方法4.2常用多媒体数据压缩方法词典编码分类•词典编码的根据：数据本身包含有重复代码序列。•属于通用编码技术和无损压缩技术•词典编码法分类–第一类词典法：查找正在压缩的字符序列是否在前面的输入数据中出现过，如果是，则用指向早期出现过的字符串的“指针”替代重复的字符串。–第二类算法：从输入的数据中创建一个“短语词典(dictionaryofthephrases)”。编码数据过程中当遇到已经在词典中出现的“短语”时，编码器就输出这个词典中的短语的“索引号”，而不是短语本身。LZW算法•LZW与LZ78的差别：LZW只输出代表词典中的缀-符串(String)的码字(codeword)。这意味在开始时词典不能是空的，它必须包含可能在字符流出现中的所有单个字符，即前缀根(Root)。由于所有可能出现的单个字符都事先包含在词典中，每个编码步骤开始时都使用一字符前缀(one-characterprefix)，因此在词典中搜索的第1个缀-符串有两个字符。3.5.5.1编码算法•LZW编码是围绕称为词典的转换表来完成的。这张转换表用来存放称为前缀(Prefix)的字符序列，并且为每个表项分配一个码字(Codeword)，或者叫做序号。•LZW编码器(软件编码器或硬件编码器)通过管理这个词典完成输入与输出之间的转换。•LZW编码器使用的分析(parsing)算法，称为贪婪分析算法(greedyparsingalgorithm)。贪婪分析算法•每一次分析都要串行地检查来自字符流Charstream的字符串，从中分解出已经识别的最长的字符串，也就是已经在词典中出现的最长的前缀Prefix。•用已知的前缀Prefix加上下一个输入字符C也就是当前字符(Currentcharacter)作为该前缀的扩展字符，形成新的扩展字符串——缀-符串String：Prefix.C。•新的缀-符串String是否要加到词典中，要看词典中是否存有和它相同的缀-符串String。如果有，那么这个缀-符串String就变成前缀Prefix，继续输入新的字符，否则就把这个缀-符串String写到词典中生成一个新的前缀Prefix，并给一个代码。3.5.5.1LZW编码算法步骤步骤1：开始时的词典包含所有可能的根(Root)，而当前前缀P是空的；步骤2：当前字符(C)：=字符流中的下一个字符；步骤3：判断缀-符串P+C是否在词典中把代表当前前缀P的码字输出到码字流；把缀-符串P+C添加到词典；令P：=C，即现在的P仅包含一个字符C；步骤4：判断码字流中是否还有码字要译–如果“是”，返回到步骤2；–如果“否”，则•把代表当前前缀P的码字输出到码字流；•结束。例位置123456789字符ABBABABAC步骤位置词典输出(1)A(2)B(3)C11(4)AB(1)22(5)BB(2)33(6)BA(2)44(7)ABA(4)56(8)ABAC(7)6------(3)被编码字符串LZW的编码过程3.5.5.2LZW译码算法步骤1：在开始译码时词典包含所有可能的前缀根(Root)；步骤2：cW：=码字流中的第一个码字；步骤3：输出当前缀-符串string.cW到码字流；步骤4：先前码字pW：=当前码字cW；步骤5：当前码字cW：=码字流中的下一个码字；步骤6：判断先前缀-符串string.pW是否在词典中1)如果“是”：①把先前缀-符串string.pW输出到字符流；②当前前缀P：=先前缀-符串string.pW；③当前字符C：=当前前缀-符串string.cW的第一个字符；④把缀-符串P+C添加到词典；2)如果“否”：①当前前缀P：=先前缀-符串string.pW；②当前字符C：=当前缀-符串string.cW的第一个字符；③输出缀-符串P+C到字符流，然后把它添加到词典中。步骤7：判断码字流中是否还有码字要译1)如果“是”，就返回到步骤4；2)如果“否”，结束。例（续）步骤代码词典输出(1)A(2)B(3)C1(1)----A2(2)(4)ABB3(2)(5)BBB4(4)(6)BAAB5(7)(7)ABAABA6(3)(8)ABACCLZW的译码过程4.3语音信号编码的标准与方法4.3语音信号编码的标准与方法4.3语音信号编码的标准与方法4.3语音信号编码的标准与方法4.3语音信号编码的标准与方法4.3语音信号编码的标准与方法4.3语音信号编码的标准与方法4.3语音信号编码的标准与方法4.3语音信号编码的标准与方法4.3语音信号编码的标准与方法4.3语音信号编码的标准与方法4.3语音信号编码的标准与方法4.3语音信号编码的标准与方法4.3语音信号编码的标准与方法4.3语音信号编码的标准与方法4.3语音信号编码的标准与方法4.3语音信号编码的标准与方法4.3语音信号编码的标准与方法LPC在语音处理中得到广泛应用，发展了许多算法：多脉冲线性预测编码（MPLPC）规则脉冲激励编码（RPE）码激励线性预测（CELP）代数激励线性预测（ACELP）向量和激励线性预测（VSELP）QCELP（QualcommCELP，变速率CELP）低延时码激励线性预测（LD-CELP）共轭结构代数激励线性预测（CS-ACELP）混合激励线性预测（MELP）间隔同步更新码激励线性预测（PSI-CELP）松弛码激励线性预测（RCELP）残差激励线性预测（RELP）规则脉冲激励长时预测（RPE-LTP）……4.3语音信号编码的标准与方法4.3语音信号编码的标准与方法4.3语音信号编码的标准与方法4.3语音信号编码的标准与方法4.3语音信号编码的标准与方法4.3语音信号编码的标准与方法4.3语音信号编码的标准与方法MP3音频压缩编码•MP3是一种音频压缩的国际技术标准。MP3格式开始于二十世纪80年代中期，是在德国夫朗和费研究所（FraunhoferInstitute）开始的，研究致力于高质量、低数据率的声音编码。•1989年，夫朗和费研究所在德国被获准取得了MP3的专利权，几年后这项技术被提交到国际标准组织(ISO)，整合进入了MPEG-1标准。•MP3格式是一个让音乐界产生巨大震动的一个声音格式。MP3的全称是MovingPictureExpertsGroup,AudioLayer3，它所使用的技术是在VCD（MPEG-1）的音频压缩技术上发展出的第三代，而不是MPEG-3。MP3音频压缩编码•MPEG代表的是MPEG活动影音压缩标准，MPEG音频文件指的是MPEG标准中的声音部分即MPEG音频层。MPEG音频文件根据压缩质量和编码复杂程度的不同可分为三层（MPEGAUDIOLAYER1/2/3分别与MP1、MP2和MP3这三种声音文件相对应）。•MPEG音频编码具有很高的压缩率，MP1和MP2的压缩率分别为4:1和6:1-8:1，而MP3的压缩率则高达10:1～12:1，也就是说一分钟CD音质的音乐未经压缩需要10MB存储空间，而经过MP3压缩编码后只有1MB左右，同时其音质基本保持不失真。MP3音频压缩编码•音乐信号中有许多冗余成分，其中包括间隔和一些人耳分辨不出的信息（如混杂在较强背景中的弱信号）。MP3为降低声音失真采取了名为“感官编码技术”的编码算法：编码时先对音频文件进行频谱分析，然后用过滤器滤掉噪音，接着通过量化的方式将剩下的每一位打散排列，最后形成具有较高压缩比的MP3文件，并使压缩后的文件在回放时能够达到比较接近原音源的声音效果。•虽然它是一种有损压缩，但是它的最大优势是以极小的声音失真换来了较高的压缩比。音频编码标准•G.711•G.722•G.723.1•G.728•G.729•音频编码标准比较G.7111972年CCITT为电话质量和语音压缩制定了PCM标准G.711。其速率为64kb/s，使用μ律或A律的非线性量化技术，主要用于公共电话网中。G.722•1988年CCITT为调幅广播质量的音频信号压缩制定了G.722标准，它使用子带编码(SBC)方案，其滤波器组将输入信号分成高低两个子带信号，然后分别使用ADPCM进行编码。•G.722能将224kb/s的调幅广播质量的音频信号压缩为64kb/s，主要用于视听多媒体和会议电视等。•G.722的主要目标是保持64kb/s的数据率，而音频信号的质量要明显高于G.711的质量。G.723.11996年ITU-T通过了G.723标准－“用于多媒体传输的5.3kb/s或6.3kb/s双速率话音编码”。它采用多脉冲激励最大似然量化(MP-MLQ)算法，此标准可应用于可视电话及IP电话等系统中。G.728为了进一步降低压缩的速率，CCITT于1992年制定了G.728标准，使用基于低时延码本激励线性预测编码(LD-CELP)算法，其速率为16kb/s，主要用于公共电话网中。G.729ITU-T于1996年3月通过了G.729标准，它使用8kb/s的共轭结构代数码激励线性预测(CS-ACELP)算法，此标准将在无线移动网、数字多路复用系统和计算机通信系统中应用。音频编码标准比较第四讲数字语音处理技术•数字音频压缩技术•三维音效•语音识别•自然语言理解•语音合成三维音效•人类的听觉•3D音效的分类•杜比AC-3•DTS人类的听觉•人耳的基本声音定位原理是IID（InterauralIntensityDifference，两侧声音强度差别）和ITD（InterauralTimeDifference，两侧声音时间延迟差别）。•IID指距离音源较近的哪一边耳朵，所收到的声音强度比另一侧高，感到声音更大一些。•ITD指方位的不同，使声音到达两耳的时间有差别，人们会觉得声音位于到达时间早些的那一边，IID+ITD的结果是把音源定位到以听者两耳这间连线为轴线的锥体范围之内。人类的听觉•耳廓（外耳）的作用是滤波器，根据声音的不同角度，加强/减弱音波能量，过滤之后传给大脑，让我们更准确地声源的位置。耳廓的大小有限，因此能够收到的音波范围也有限，通常是20Hz到20KHz，即波长16米到1.6厘米的音波。换言之，低于此范围是次声波，高于此范围是超声波。•由于两耳机的距离约为15厘米，当波长大于15厘米时IIT和ITD将会减弱。频率低的声音波长大，因此我们很难判断出低音的位

第四章多媒体数据压缩技术介绍

免费阅读已结束，点击付费阅读剩下 ... 页

阅读已结束，您可以下载文档离线阅读

2第二章CIMS体系结构及系统设计方法

李开复的智慧

第8章创新的电子商务系统

注册城市规划师考试讲座XXXX-2(1)

[重庆]办公楼精装修劳动力、机械设备计划

天然气庭院工程施工技术方案

某公路挖方路基施工方法_secret

矿井提升机7551656633

合同书样本委托开发合同(1)

XXXX新劳动合同法讲义-赵湘楠

相关文档

相关搜索