您好,欢迎访问三七文档
当前位置:首页 > 商业/管理/HR > 项目/工程管理 > 音响技术与家庭影院(4.2)
音响技术与家庭影院(4.2)MPEG•MPEG(MovingPictureExpertGroup)是在1988年由国际标准化组织(InternationalOrganizationforStandardization,ISO)和国际电工委员会(InternationalElectrotechnicalCommission,IEC)联合成立的专家组,负责开发电视图像数据和声音数据的编码、解码和它们的同步等标准。MPEG标准•MPEG-1:数字电视标准,1992年正式发布。•MPEG-2:数字电视标准。•MPEG-3:已于1992年7月合并到高清晰度电视(High-DefinitionTV,HDTV)工作组。•MPEG-4:多媒体应用标准(1999年发布)。•MPEG-5:还没有见到定义。•MPEG-6:还没有见到定义。•MPEG-7:多媒体内容描述接口标准(正在研究)。•MPEG-1和-2标准已经正式发布,并且得到广泛应用。例如,CD-交互系统,在网络上的数字声音广播、数字电视广播和影视点播等。•MPEG标准一直是许多科研机构和大学的科研热点,也是工业界产品开发的热点。MPEG标准阐明了声音和电视图像的编码和解码过程,严格规定了声音和图像数据编码后组成比特数据流的句法,提供了解码器的测试方法等.,但没有对所有内容都作严格规定,尤其是对压缩和解压缩的算法,这样既保证了解码器能对符合MPEG标准的声音数据和电视图像数据进行正确解码,又给MPEG标准的具体实现留有很大余地。人们可以不断改进编码和解码算法,提高声音和电视图像的质量以及编码效率。MPEG-4多媒体应用标准•MPEG-4从1994年开始工作,它是为视听(audio-visual)数据的编码和交互播放开发算法和工具,是一个数据速率很低的多媒体通信标准。MPEG-4的目标是要在异构网络环境下能够高度可靠地工作,并且具有很强的交互功能。MPEG-4引入了对象基表达(object-basedrepresentation)的概念,用来表达视听对象(audio/visualobjects,AVO);MPEG-4扩充了编码的数据类型,由自然数据对象扩展到计算机生成的合成数据对象,采用合成对象/自然对象混合编码(Synthetic/NaturalHybridCoding,SNHC)算法;在实现交互功能和重用对象中引入了组合、合成和编排等重要概念。MPEG声音•波形声音压缩编码(如ADPCM)和参数编码(如LPC)不同,MPEG-1和MPEG-2的声音数据压缩编码不是依据波形本身的相关性和模拟人的发音器官的特性,而是利用人的听觉系统的特性来达到压缩声音数据的目的听觉系统的感知特性•1.对响度的感知•2.对音高的感知•3.掩蔽效应1.对响度的感知•声音的响度使用客观测量单位来度量,即dyn/cm2(达因/平方厘米)(声压)或W/cm2(瓦特/平方厘米)(声强)。在心理上,主观感觉的声音强弱使用响度级“方(phon)”或者“宋(sone)”来度量。2.对音高的感知•客观上用频率来表示声音的音高,其单位是Hz。而主观感觉的音高单位则是“美(Mel)”,主观音高与客观音高的关系是•其中的单位为Hz,这也是两个既不相同又有联系的单位。•测量主观音高时,让实验者听两个声强级为40dB的纯音,固定其中一个纯音的频率,调节另一个纯音的频率,直到他感到后者的音高为前者的两倍,就标定这两个声音的音高差为两倍。实验表明,音高与频率之间也不是线性关系。掩蔽效应•一种频率的声音阻碍听觉系统感受另一种频率的声音的现象称为掩蔽效应。前者称为掩蔽声音(maskingtone),后者称为被掩蔽声音(maskedtone)。掩蔽可分成频域掩蔽和时域掩蔽。1.频域掩蔽•一个强纯音会掩蔽在其附近同时发声的弱纯音,这种特性称为频域掩蔽,也称同时掩蔽(simultaneousmasking)。说明•一个声强为60dB、频率为1000Hz的纯音,另外还有一个1100Hz的纯音,前者比后者高18dB,在这种情况下我们的耳朵就只能听到那个1000Hz的强音。如果有一个1000Hz的纯音和一个声强比它低18dB的2000Hz的纯音,那么我们的耳朵将会同时听到这两个声音。要想让2000Hz的纯音也听不到,则需要把它降到比1000Hz的纯音低45dB。一般来说,弱纯音离强纯音越近就越容易被掩蔽。不同纯音的掩蔽效应曲线说明2•在上图中的一组曲线分别表示频率为250Hz、1kHz、4kHz和8kHz纯音的掩蔽效应,它们的声强均为60dB。从图中可以看到:①在250Hz、1kHz、4kHz和8kHz纯音附近,对其他纯音的掩蔽效果最明显,②低频纯音可以有效地掩蔽高频纯音,但高频纯音对低频纯音的掩蔽作用则不明显。2.时域掩蔽•在时间上相邻的声音之间也有掩蔽现象,并且称为时域掩蔽。时域掩蔽又分为超前掩蔽(pre-masking)和滞后掩蔽(post-masking),如图9-05所示。产生时域掩蔽的主要原因是人的大脑处理信息需要花费一定的时间。一般来说,超前掩蔽很短,只有大约5~20ms,而滞后掩蔽可以持续50~200ms。这个区别也是很容易理解的。MPEGAudio与感知特性•MPEGAudio标准是指MPEG-1Audio、MPEG-2Audio和MPEG-2AAC,它们处理10Hz~20000Hz范围里的声音数据,数据压缩的的主要依据是人耳朵的听觉特性,使用“心理声学模型(psychoacousticmodel)”来达到压缩声音数据的目的。•心理声学模型中一个基本的概念就是听觉系统中存在一个听觉阈值电平,低于这个电平的声音信号就听不到,因此就可以把这部分信号去掉。听觉阈值的大小随声音频率的改变而改变,各个人的听觉阈值也不同。大多数人的听觉系统对2kHz~5kHz之间的声音最敏感。一个人是否能听到声音取决于声音的频率,以及声音的幅度是否高于这种频率下的听觉阈值。•心理声学模型中的另一个概念是听觉掩饰特性,意思是听觉阈值电平是自适应的,即听觉阈值电平会随听到的不同频率的声音而发生变化。例如,同时有两种频率的声音存在,一种是1000Hz的声音,另一种是1100Hz的声音,但它的强度比前者低18分贝,在这种情况下,1100Hz的声音就听不到。也许你有这样的体验,在一安静房间里的普通谈话可以听得很清楚,但在播放摇滚乐的环境下同样的普通谈话就听不清楚了。MPEG声音数据压缩•MPEG声音数据压缩的基础是量化。虽然量化会带来失真,但MPEG标准要求量化失真对于人耳来说是感觉不到的。在MPEG标准的制定过程中,MPEG-Audio委员会作了大量的主观测试实验。实验表明,采样频率为48kHz、样本精度为16比特的声音数据压缩到256kb/s时,即在6:1的压缩率下,即使是专业测试员也很难分辨出是原始声音还是编码压缩后的声音。编码器示意图MPEG声音标准提供三个独立的压缩层次:层1(Layer1)、层2(Layer2)和层3(Layer3),用户对层次的选择可在复杂性和声音质量之间进行权衡。①层1的编码器最为简单,编码器的输出数据率为384kb/s,主要用于小型数字盒式磁带(digitalcompactcassette,DCC)。②层2的编码器的复杂程度属中等,编码器的输出数据率为256kb/s~192kb/s,其应用包括数字广播声音(digitalbroadcastaudio,DBA)、数字音乐、CD-I(compactdisc-interactive)和VCD(videocompactdisc)等。③层3的编码器最为复杂,编码器的输出数据率为64kb/s,主要应用于ISDN上的声音传输。MPEGaudio层3编码器和解码器的结构合成声音•MPEG-4的译码器支持合成乐音和TTS声音。•文-语转换是将文本形式的信息转换成自然语音的一种技术,其最终目标是使计算机输出清晰而又自然的声音,也就是说,要使计算机像人一样,根据文本的内容可带各种情调来朗读任意的文本。TTS是一个十分复杂的系统,涉及到语言学、语音学、信号处理、人工智能等诸多的学科。汉语TTS系统•在汉语TTS系统中,汉语语音的传统分析方法是将一个汉语的音节分为声母和韵母两部分。声母是音节开头的辅音,韵母是音节中声母以外的部分。声母不等同于辅音,韵母不等同于元音。另外,音调具有辨义功能,这也是汉语语音的一大特点。可以说,声母、韵母和声调是汉语语音的三要素。MPEG电视•电视图像的数据率•彩色数字电视信号的数据传输率为166Mb/s。•可以估计105分钟的电影需要的容量:•166Mb*105*60/8=130725MB=130GMB•可见:必须要压缩电视图像数据率的估算•考虑使用Video-CD存储器来存储数字电视,由于它的数据传输率可达到1.4112Mb/s,分配给电视信号的数据传输率为1.15Mb/s,这就意味MPEG电视编码器的输出数据率要达到1.15Mb/s。显而易见,如果存储166Mb/s的数字电视信号就需要对它进行高度压缩,压缩比高达166/1.15@144:1。MPEG-1电视图像压缩比•MPEG-1电视图像压缩技术不能达到这样高的压缩比。为此首先把NTSC和PAL数字电视转换成公用中分辨率格式CIF(CommonIntermediateFormat)的数字电视,这种格式相当于VHS(VideoHomeSystem)的质量,于是彩色数字电视的数据传输率就减小到•352×240×30×8×1.5@30Mb/s(NTSC)•352×288×25×8×1.5@30Mb/s(PAL)。•把这种彩色电视信号存储到CD盘上所需要的压缩比为:30/1.15@26:1。这就是MPEG-1技术所能获得的压缩比•MPEG-Video图像压缩技术基本方法和方法可以归纳成两个要点:①在空间方向上,图像数据压缩采用JPEG(JointPhotographicExpertsGroup)压缩算法来去掉冗余信息。②在时间方向上,图像数据压缩采用移动补偿(motioncompensation)算法来去掉冗余信息。•移动矢量的概念内置的图像格式•为了在保证图像质量基本不降低而又能够获得高的压缩比,MPEG专家组定义了三种图像:帧内图像I(intra),预测图像P(predicted)和双向预测图像B。这三种图像将采用三种不同的算法进行压缩。MPEG-4电视图像编码•MPEG-4Video编码算法支持由MPEG-1和MPEG-2提供的所有功能,包括对各种输入格式下的标准矩形图像、帧速率、位速率和隔行扫描图像源的支持。MPEG-4Video算法的核心是支持内容基(content-based)的编码和解码功能,也就是对场景中使用分割算法抽取的单独的物理对象进行编码和解码。MPEG-4Video还提供管理这些电视内容的最基本方法。•上图表示MPEG-4对电视图像序列进行编码的一个实际例子。左上角的图是背景全景图。右上角的图是一个没有背景的子图像全景图,可以把网球运动员当作是一个电视图像对象(VO),经常把这种可以独立移动的小图像称为子图像(sprite)。下面的图是接收端合成的全景图。在编码之前这个子图像全景图从背景全背景图序列中抽出来,然后分别对它们进行编码、传送和解码,最后再合成。•空间分辨率可变性(SpatialScalability)和时间分辨率可变性(TemporalScalability)的实现方法类似。图描述了多种分辨率电视图像编码方案。该方案提供三个层次的编码/解码,每一层都支持在不同空间分辨率下进行编码/解码。HDTV格式
本文标题:音响技术与家庭影院(4.2)
链接地址:https://www.777doc.com/doc-6202089 .html