您好,欢迎访问三七文档
IIJISHOUUNIVERSITY本科生毕业设计题目:基于压缩感知的语音信号压缩技术的研究作者:学号:所属学院:信息科学与工程学院专业年级:通信工程2010级指导教师:职称:讲师完成时间:2013年5月25日吉首大学教务处制22本人完全了解吉首大学有关保留、使用毕业设计的规定,即:学校有权保留送交毕业设计的复印件和磁盘,允许毕业设计被查阅和借阅,可以采用影印、缩印或扫描等复制手段保存、汇编本毕业设计。同意吉首大学可以用不同方式在不同媒体上发表、传播毕业设计的全部或部分内容。(保密的学位论文在解密后应遵守此协议)论文题目:基于压缩感知的语音信号压缩技术的研究学生签名:日期:年月日导师签名:日期:年月日1基于压缩感知的语音信号压缩技术的研究(摘要本文在详细研究了压缩感知理论本身的基础上,为了将压缩感知技术应用于实际的通信系统,将压缩感知理论与传统的语音编码方法相结合,首先研究了一种基于压缩感知的语音PCM编码方法,对观测序列进行PCM编码,然后从解码得到的观测序列重构出原始语音信号。与传统的CS算法相比,该编码方法重构语音的性能可以达到传统CS算法的重构语音性能。最后本文提出了一种基于小波包变换和压缩感知的语音编码方案。先对语音信号进行两层小波包分解,得到各个节点的系数,对满足稀疏条件的节点先进行不同压缩比的压缩感知处理,然后进行均匀PCM编码,对不满足稀疏条件的节点进行矢量量化编码。解码端进行相应的解码得到小波包分解系数,最后小波合成重构语音。仿真实验表明,该编码方法能够在保证重构语音的质量的前提下,有效的降低码率。关键词:压缩感知;观测向量;小波包变换第一章绪论1.1研究背景及目的传统的奈奎斯特采样定理指出,采样频率大于或等于整个信号最高频率的2倍就可以不失真地还原出原始信息。但是随着信息时代的到来,人们对信息量、信号采样速率以及处理速率的要求也越来越高,也就提高了信息采样成本;而信号往往在持续期中仅仅在很少的时间存在该最高频率分量,因此导致按照奈氏定理采样的序列中,具有相当大的信息冗余。另外一方面,为了降低传输和存储的成本,人们往往会对采样得到的信号进行压缩,少量重要的信息被保留,采样得到的大部分冗余数据是不重要的,都被弃了。语音信号的处理也同样如此,只保留了某些重要的数据,舍弃了大量的剩余数据,重构后的语音信号并不会引起听觉上的差异;众所周知的各种语音数字压缩编码技术如PCM、LPC、SBC、CELP等,都是基于这种先采样、然后数字压缩的,并且获得了很大的成功,成为了迄今流行的G.726、G.729等语音编码国际标准的基本技术。近年来,科学家们提出一个构想,既然采集到的数据大部分都是不重要的,可以被丢弃,能否直接地采集重要、最后没有丢弃的信息,并且能够精确重构出原始的信号。2006年Candes和Donoho正式提出了压缩感知(CompressedSensing,CS)的概念,CS理论对信号的采样和压缩发生在同一个步骤,利用信号的稀疏性以远低于奈奎斯特采样率的速率对信号进行压缩采样,并且可以几乎无失真的恢复原信号。这样极大地降低了信号的采样速率以及数据的存储和传输的代价。这个理论的提出在信号处理领2域有着重大的意义,这个理论一经提出,各个领域都纷纷将这项新理论应用到相关处理中。例如图像信号采集处理[1]、雷达信号[2]、医学图像处理[3]、视频编码[4][13]等。压缩感知理论在信号处理上有明显的优势,如果运用恰当,必将在信号处理领域有重大的突破。1.2语音编码发展概况随着信息技术的高速发展,压缩数字语音信号的传输带宽或降低传输码率,一直是人们追求的目标,语音编码在实现这一目标中担当着重要角色。语音编码就是压缩语音信号的数字表示,以尽量少的比特数来表示原始信号。语音信号是时变的准周期信号,可以近似的被看做由多个振幅和相位都随时变化的正弦波构成的信号,因此可以用语音的抽样波形或者语音的参数特征来描述语音信号。根据描述语音的不同方法,传统的语音编码方法也可以分为三类:波形编码、参数编码、混合编码。波形编码的思想是将语音信号当做一般波形信号来处理,目标是使重构语音波形保持原始语音信号的波形。波形编码的优点是适应能力强、话音质量高、抗噪性能强等,但是编码速率比较高,通常速率在16~64kb/s时编码质量比较高,当速率进一步降低时,性能会迅速下降。常用的波形编码方式包括脉冲编码调制(PulseCodeModulation,PCM)、自适应增量调制(AdaptiveDeltaModulation,ADM)、自适应差分脉码调制(AdaptiveDifferencePulseCodeModulation,ADPCM)等。参数编码的思想是先对语音信号建模,提取语音信号的模型特征参数,然后对提取出的参数进行编码,目标是解码语音的可懂度尽可能的高,即保持原始语音的语义,但是重构语音的波形与原始语音的波形可能会有很大差别。参数编码的优点是能够达到很低的编码速率,可低至1.2~2.4kb/s。但是参数编码合成的语音质量差,特别是自然度较低。典型的参数编码器有线性预测声码器。混合编码则是上述两种编码的有机结合,保留了上述两种编码方法的优点。与参数编码的相同之处是,它也基于语音产生模型的假设,并充分考虑了人耳听觉效应,采用合成分析技术,同时又利用了语音信号的波形信息。在4~16kb/s速率情况下能得到高质量的重构语音,也提高了重构语音的自然度。常用的混合编码方法有码激励线性预测编码(CodeExcitedLinearPrediction,CELP)、多脉冲激励线性预测编码(Multi-pulseLinearPredictiveCoding,MPLPC)、规则脉冲激励线性预测编码(Regular-pulseexcitationLinearPredictiveCoding,RPE-LPC)等等。通信技术中非常重要的一部分内容就是语音通信,因此语音信号的数字化就显得尤为重要。现如今,信道利用率已经成为一个非常重要的通信性能衡量标准,这就要求将语音信号进行有效的压缩压缩,能够用尽量低的速率来存储和传输。因此现在语音编码技术的主要研究热点就是低速率编码,一般指速率在4.8Kb/s以下的编码。常用的低速率语音编码方法包括:CELP[60]、混合激励线性预测编码(MixedExcitationLinearPrediction,MELP)[61][62]、多带激励声码器[63][64](Multi-BandExcitation,MBE)等。近年来语音数字压缩编码在移动通信、军事和保密通信、卫星通信中得到广泛应用,各种数字语音通信系统中采用的技术,都来源于以上几种技术的集成。为了在保证编码语音的质量情况下得到更低的速率,人们对这些成熟的编码技术进行了更深入的研究,在其基础上取得了一些新的进展[65-67]。31.3论文章节安排本文在对压缩感知理论进行深入研究的基础上,尝试使用传统的语音编码方法对语音信号压缩感知得到的观测序列进行编码,试图在进一步降低速率的情况下近似无失真的恢复出原始语音信号,保证恢复的语音信号的质量。提出了一种基于压缩感知的语音信号PCM编码方案以及基于压缩感知的语音信号矢量量化编码方案,还提出了一种基于小波变换和压缩感知的语音编码方案。并且做了大量的仿真实验。另外还对语音信号通过压缩感知处理得到的观测序列的特性进行了一些建模尝试性的研究。本文的章节安排如下:第一章绪论,简要介绍本文的研究背景以及现有的语音编码方法。第二章压缩感知理论介绍,详细的介绍压缩感知理论的三个重要组成部分:稀疏分解、观测矩阵。第三章先对观测序列的特性做了一些建模的尝试,验证观测序列是否满足线性预测模型,或者能够通过数值拟合方法得到某个拟合方程,然后将压缩感知理论与PCM编码结合,对观测序列进行非均匀量化,提出了一种基于压缩感知的语音PCM编码方案。第四章将压缩感知与小波技术结合,并在前面的研究基础上提出了一种基于小波变换和压缩感知的语音编码方法。第五章总结与展望。第2章压缩感知2.1基本概念设一维有限长离散信号RNx1,视为空间的列向量,因为空间的所有信号都可以由一组基N21,......,,的线性组合表示,假设这些基向量是规范正交的,x就可以表示成(2-1)式,即iiNix1式(2-1)4式中:ix,i是投影系数,xT为投影系数向量N21,......,,为正交基矩阵,和x是1N列向量,是NN矩阵。由上述可知x是信号在时域的表示,则是信号在域的表示,两者是等的。压缩感知理论提出,只要信号在某个基上的非零系数(或远大于零的系数)的个数KN时,称信号x在正交基上是稀疏的或者可压缩的,稀疏度为K。(2-1)式是信号的稀疏表示,为信号的稀疏基。如果信号x满足稀疏性或可压缩条件,我们就可以用一个与变换基不相关的观测矩阵对信号进行观测,从而得到观测向量y。xy式(2-2)其中是NM(NM),y是1M,从(2-2)式可以看出投影之后得到的观测序列的维数M远远小于原始信号的维数N,也就是说信号被大大的压缩了,观测序列的数据量远小于奈奎斯特采样得到的数据量。将(2-1)式代入(2-2)式中得到xy式(2-3)式中。压缩感知理论指出,当观测矩阵满足约束等距性条件(RestrictedIsometryProperty,RIP)和不相关特性[11],x是K-稀疏的并且NMK,可以由求解一个0-范数意义的优化问题得到稀疏系数,常用(2-4)式表示00minLts.xy式(2-4)将求解得到的稀疏稀疏代入(1)式就可以得到原始信号x。综上所述,可以将传统采样压缩过程与压缩感知过程用分别用图2-1和图2-2表示5图2-2表示的是压缩感知理论的详细过程,包括了稀疏分解的过程,是为了验证信号满足稀疏性的前提,而在实际运用中,第二、三步可以合并,即从原始信号直接获得观测向量y。压缩感知理论主要由三大部分组成,也就是三个主要步骤:第一步稀疏表示,找到一个基,让信号x在这个基上满足稀疏或者可压缩条件,这个满足条件的基可以称之为稀疏基;第二步寻找或者构造观测矩阵,找到一个与稀疏基完全不相关的观测矩阵,然后对原始信号进行线性变换,得到相应的观测向量y。如果一个信号本身就是非零值很少,大部分值为零,那么这个信号本身就是稀疏信号。对于本身是稀疏的信号和在某个变换基上是稀疏的信号,压缩感知的框架不完全相6同,可以用图2-3和图2-4[12]来说明,稀疏信号阵。图2-3、2-4中,白色的为零元素,颜色越深数值越大;图2-3是稀疏信号的压缩感知框架,其实是图2-4的一个特例,即如果信号本身就是稀疏信号,则等价于取单位阵的情况。72.2压缩感知基本理论2.2.1稀疏表示为了有效的对信号进行处理和分析,人们一直在寻找能够等价表示信号的方式,即在不同的变换域空间更简洁明了的表示信号。不管是傅里叶变换,正余弦变换还是拉普拉斯变换、小波变换,都是这个基于这个目的,都是为了用稀疏的方式来表示信号的本质特征。如果一个信号本身就是非零值很少,大部分值为零,那么这个信号就是稀疏信号。但是一般信号在时域内都不满足这个条件,也就是本身不是稀疏的,我们就设想是否存在某个变换域,将信号在这个域上等价的表示,让信号在这个变换域上是满足稀疏性条件的。严格的稀疏性要求信号在变换基上只有K个非零的系数,但是大多数情况下信号无法达到这个要求,但是如果信号经过变换后得到的系数经排列后能够呈现出指数级衰减趋近于零的趋势,就表示信号也是可压缩的,这种情况称之为近似稀疏的。例如一段自然的语音信号(此处主要指浊音),在时间域内零值或者近似为零的值也很少,但是将其变换到DCT(DiscreteCosineTransform,DCT)域上,就发现大部分系数是接近零值的,非零的大系数很少。文献[5]中给出了稀疏的数学定义式为式(2-5),信号x在正交基下的系数,xT在20p且R0的情况下
本文标题:47基于压缩感知
链接地址:https://www.777doc.com/doc-5454140 .html