您好,欢迎访问三七文档
当前位置:首页 > 商业/管理/HR > 咨询培训 > 第二章 PCM编码详解
PCM与音频编码第3章话音编码重点:脉冲编码调制(PCM)增量调制与自适应增量调制自适应差分脉冲编码调制(ADPCM)难点:非均匀量化增量调制子带编码波形声音的数据压缩波形声音的码率=取样频率×量化位数×声道数全频带声音的压缩编码:第1代压缩编码:PCM编码第2代压缩编码:感知声音编码数字语音的压缩编码:波形编码参数编码(模型编码)混合编码语音压缩编码的3类方法波形编码(Perceptionmodel-basedcompression)benefits:genericdrawbacks:highestcompressionratesaredifficulttoachieve16kb/sExamples:PCM,ADPCM,Subband参数编码,源编码(Productionmodel-basedcompression)benefits:highestpossiblecompression2.4Kb/sdrawbacks:signalsource(s)mustbeknowExamples:vocoder混合编码(Hybridcompression)Examples:CELP4.8kb/s——16kb/s极低低中码率(kb/s)1248163264优良中差坏语音质量模型编码(源编码)混合编码波形编码脉冲编码调制(PCM)“防失真滤波器”是一个低通滤波器,用来滤除声音频带以外的信号;“波形编码器”可暂时理解为“采样器”;“量化器”可理解为“量化阶大小(step-size)”生成器或者称为“量化间隔”生成器。PCM编码框图声音数字化有两个步骤:第一步是采样,就是每隔一段时间间隔读一次声音的幅度;第二步是量化,就是把采样得到的声音信号幅度转换成数字值。但那时并没有涉及如何进行量化。量化有好几种方法,但可归纳成两类:一类称为均匀量化,另一类称为非均匀量化。采用的量化方法不同,量化后的数据量也就不同。因此,可以说量化也是一种压缩数据的方法。均匀量化采用相等的量化间隔对采样得到的信号作量化,那么这种量化称为均匀量化。均匀量化就是采用相同的“等分尺”来度量采样得到的幅度,也称为线性量化量化后的样本值Y和原始值X的差E=Y-X称为量化误差或量化噪声非均匀量化非线性量化:对输入信号进行量化时,大的输入信号采用大的量化间隔,小的输入信号采用小的量化间隔。这样就可以在满足精度要求的情况下用较少的位数来表示。声音数据还原时,采用相同的规则。在非线性量化中,采样输入信号幅度和量化输出数据之间定义了两种对应关系,一种称为m律压扩(companding)算法,另一种称为A律压扩算法。采样频率为8kHz,样本精度为13位、14位或者16位的输入信号,使用m律压扩编码或者使用A律压扩编码,经过PCM编码器之后每个样本的精度为8位,输出的数据率为64kb/s。这就是CCITT推荐的G.711标准。m律压扩和A律压扩m律压扩:北美和日本等地区13位PCM编码转换城8位。A律压扩欧洲和中国大陆等地区,14位PCM编码转换城8位输出信号均为64Kb/sPCM在通信中的应用提高线路利用率通常用下面两种方法频分多路复用:把传输信道的频带分成好几个窄带,每个窄带传送一路信号。例如,一个信道的频带为1400Hz,把这个信道分成4个子信道(subchannels):820~990Hz,1230~1400Hz,1640~1810Hz和2050~2220Hz,相邻子信道间相距240Hz,用于确保子信道之间不相互干扰。每对用户仅占用其中的一个子信道。这是模拟载波通信的主要手段。时分多路复用:把传输信道按时间来分割,为每个用户指定一个时间间隔,每个间隔里传输信号的一部分,这样就可以使许多用户同时使用一条传输线路。这是数字通信的主要手段。例如,话音信号的采样频率f=8000Hz,它的采样周期=125ms,这个时间称为1帧(frame)。在这个时间里可容纳的话路数有两种规格:24路制和30路制。PCM在通信中的应用PCM在通信中的应用•24路制的重要参数如下:1.每秒钟传送8000帧,每帧125ms。2.12帧组成1复帧(用于同步)。3.每帧由24个时间片(信道)和1位同步位组成。4.每个信道每次传送8位代码,1帧有24×8+1=193位(位)。5.数据传输率R=8000×193=1544kb/s。6.每一个话路的数据传输率=8000×8=64kb/s。•30路制的重要参数如下:1.每秒钟传送8000帧,每帧125ms。2.16帧组成1复帧(用于同步)。3.每帧由32个时间片(信道)组成。4.每个信道每次传送8位代码。5.数据传输率:R=8000×32×8=2048kb/s。6.每一个话路的数据传输率=8000×8=64kb/s。PCM在通信中的应用•PCM信号复用的复杂程度,通常用“群(group)”表示•一次群(基群)的30路(或24路),北美叫做T1远距离数字通信线,•在欧洲叫做E1远距离数字通信线和E1等级。•二次群的120路(或96路)•三次群的480路(或384路)数字网络等级T1/E1T2/E2T3/E3T4/E4T5/E5美国64kb/s话路数24966724.32总传输率(Mb/s)1.5446.51244.736274.176数字网络等级12345欧洲64kb/s话路数3012048019207680总传输率(Mb/s)2.0488.44834.368139.2645600日本64kb/s话路数24964801440总传输率(Mb/s)1.5446.31232.06497.728表3-02多次复用的数据传输率增量调制与自适应增量调制增量调制(DM)增量调制也称△调制(deltamodulation,DM),它是一种预测编码技术,是PCM编码的一种变形。PCM是对每个采样信号的整个幅度进行量化编码,因此它具有对任意波形进行编码的能力;DM是对实际的采样信号与预测的采样信号之差的极性进行编码,将极性变成“0”和“1”这两种可能的取值之一。如果实际的采样信号与预测的采样信号之差的极性为“正”,则用“1”表示;相反则用“0”表示,或者相反。由于DM编码只须用1位对话音信号进行编码,所以DM编码系统又称为“1位系统”。增量调制(DM)在输入信号变化快的区域,斜率过载是关心的焦点,而在输入信号变化慢的区域,关心的焦点是粒状噪声。为了尽可能避免出现斜率过载,就要加大量化阶Δ,但这样做又会加大粒状噪声;相反,如果要减小粒状噪声,就要减小量化阶Δ,这又会使斜率过载更加严重。这就促进了对自适应增量调制(adaptivedeltamodulation,ADM)的研究自适应增量调制(ADM)基本方法:在检测到斜率过载时开始增大量化阶Δ,而在输入信号的斜率减小时降低量化阶Δ。例如,宋(Song)在1971描述的自适应增量调制技术中提出:假定增量调制器的输出为1和0,每当输出不变时量化阶增大50%,使预测器的输出跟上输入信号;每当输出值改变时,量化阶减小50%,使粒状噪声减到最小,这种自适应方法使斜率过载和粒状噪声同时减到最小。又如,使用较多的另一种自适应增量调制器是由格林弗基斯(Greefkes)1970提出的,称为连续可变斜率增量调制(continuouslyvariableslopedeltamodulation,CVSD)。它的基本方法是:如果连续可变斜率增量调制器(continuouslyvariableslopedeltamodulator,CVSD)的输出连续出现三个相同的值,量化阶就加上一个大的增量,反之,就加一个小的增量。自适应差分脉冲编码调制自适应脉冲编码调制(adaptivepulsecodemodulation,APCM)是根据输入信号幅度大小来改变量化阶大小的一种波形编码技术。这种自适应可以是瞬时自适应,即量化阶的大小每隔几个样本就改变,也可以是音节自适应,即量化阶的大小在较长时间周期里发生变化。改变量化阶大小的方法有两种:一种称为前向自适应(forwardadaptation),另一种称为后向自适应(backwardadaptation)。前向自适应:根据未量化的样本值的均方根值来估算输入信号的电平,以此来确定量化阶的大小,并对其电平进行编码作为边信息(sideinformation)传送到接收端。后向自适应:从量化器刚输出的过去样本中来提取量化阶信息。由于后向自适应能在发收两端自动生成量化阶,所以它不需要传送边信息。自适应差分脉冲编码调制差分脉冲编码调制的思想:根据过去的样本去估算(estimate)下一个样本信号的幅度大小,这个值称为预测值,然后对实际信号值与预测值之差进行量化编码,从而就减少了表示每个样本信号的位数。它与脉冲编码调制(PCM)不同的是,PCM是直接对采样信号进行量化编码,而DPCM是对实际信号值与预测值之差进行量化编码,存储或者传送的是差值而不是幅度绝对值,这就降低了传送或存储的数据量。此外,它还能适应大范围变化的输入信号。自适应差分脉冲编码调制(ADPCM)ADPCM(adaptivedifferencepulsecodemodulation)综合了APCM的自适应特性和DPCM系统的差分特性,是一种性能比较好的波形编码。它的核心想法是:①利用自适应的思想改变量化阶的大小,即使用小的量化阶(step-size)去编码小的差值,使用大的量化阶去编码大的差值,②使用过去的样本值估算下一个输入样本的预测值,使实际样本值和预测值之间的差值总是最小。它的编码简化框图如下图所示。ADPCM编译码器G.721推荐标准,这个标准叫做32kb/s自适应差分脉冲编码调制。在此基础上还制定了G.721的扩充推荐标准,即G.723,使用该标准的编码器的数据率可降低到40kb/s和24kb/s。G.722SB-ADPCM编译码器G.722推荐标准,叫做“数据率为64kb/s的7kHz声音信号编码——这个标准把话音信号的质量由电话质量提高到AM无线电广播质量,而其数据传输率仍保持为64kb/s。子带编码(subbandcoding,SBC)的基本思想是:使用一组带通滤波器(band-passfilter,BPF)把输入音频信号的频带分成若干个连续的频段,每个频段称为子带。对每个子带中的音频信号采用单独的编码方案去编码。在信道上传送时,将每个子带的代码复合起来。在接收端译码时,将每个子带的代码单独译码,然后把它们组合起来,还原成原来的音频信号。子带编码的编码/译码器,可以采用ADPCM,APCM,PCM等。等带宽的子带不等带宽的子带G.722SB-ADPCM编译码器窄带和宽带音频信道频率特性全频带声音的第1代编码技术全频带声音指的是10Hz~20,000Hz范围里的所有可听声音.也叫做宽带声音或高保真(high-fidelity)声音;第1代全频带数字声音(CD,DAT)的编码采用PCM编码:采样频率:44.1kHz或48kHz量化精度:16位声道数目:1或2码率:705.6/768(kb/s)或1.41/1.54(Mb/s)全频带声音的第2代编码技术目标:在保持高保真声音质量(transparentcompression)的前提下,降低码率,减轻网络带宽的压力;不但充分使用声音信息的统计冗余,而且利用人耳的听觉特性,即使用“心理声学模型(psycho-acousticmodel)”,来达到压缩数据的目的,称为感知声音编码(perceptualaudiocoding)。时/频变换心理声学分析量化与编码比特分配熵编码原始波形声音样本压缩后的波形声音样本掩蔽阈值频域数据全频带数字音频的编码标准MP3音乐是什么?DolbyAC-3是什么?RealAudio是什么?名称压缩后的码率(每个声道)声道数目主要应用MPEG-1层1384kbps(压缩4倍)2数字盒式录音带MPEG-1层2256~192kbps(压缩6~8倍)2DAB,VC
本文标题:第二章 PCM编码详解
链接地址:https://www.777doc.com/doc-3242470 .html