您好,欢迎访问三七文档
数字媒体基础教程授课:孙清伟第4章数字音频基础关键概念:·声波·频率和音调·声音的数字化·数字音频的取样率和位深度·奈奎斯特理论·动态范围·音频文件尺寸的优化学习目标学习完本章后,应该能够掌握:·有关音频的常用术语的概念。·数字音频文件的常见类型。·声波的属性。·数字化的主要步骤:数字音频的取样和量化。·数字音频的取样率和位深度。·数字音频记录方式和MIDI格式的区别。·数字音频中的“分贝”的概念。·数字音频的量化的基本步骤。·缩减数字音频文件大小的主要技术手段。4.1简介声音是我们日常生活中感官体验的必不可少的一部分。声音也是一种模拟类型信息的自然现象。声音的最基本的本质其实是“声波”——声音的物理学定义。声音是极其重要的信息媒体。在多媒体应用系统中使用声音是多媒体应用最基本、最常用的手段。通过声音的应用,可以直接表达信息、制造音响效果和渲染气氛、演奏音乐以及配音解说等。4.1.1声音的作用4.1.2数字音频基础在计算机中,所处理的声音信号是经过离散化了的数字信号,是由一系列的数字来表示的,称为数字音频。数字音频的特点是保真度好、易于存储和分发、也易于编辑处理。数字音频信息在计算机里面以文件的形式进行保存。4.1.3数字音频分类数字音频从声音的组成和音响效果中可分为语音、音乐和效果声三种类型,这些数字音频在多媒体应用过程中都具有不同的特性和作用,在不同的应用环境中应该选用不同的数字音频文件。4.1.3.1语音语音不仅是声音的载体,而且还是一种带有情感的信息媒体。只有将真实自然的解说声,通过计算机的声卡采集压缩后生成的波形声音文件才能播放出语音解说声,而利用其它软件和硬件却不能合成具有丰富感情色彩的语音解说词。因此语音信号是数字音频中一种具有特殊功能和作用的声音文件。单击小喇叭,可以播放声音。4.1.3.2音乐音乐是数字音频中使用最广泛、作用也较大的一种信息媒体。它具有渲染环境气氛、增强作品感染力、烘托主体的作用。在应用过程中,可以单独使用、也可以配合其它媒体一同使用。在音乐文件中,MIDI音乐文件是一种单纯的音乐文件格式,也就是说MIDI文件中只有音乐声而没有唱词声。单击小喇叭,可以播放声音。4.1.3.3效果声效果声简称为音效,是一种模拟自然声响的专用声音文件。它能够表达语言和音乐无法表达的信息,塑造环境氛围,起到模拟提示的作用。效果声包括各种各样的自然声响和特殊音响,它可以是自然声响,也可以是非自然的虚幻模拟声响。鸡鸣风铃蛙叫激光4.1.4常见声音文件格式及特点存储声音信息的文件格式有很多种,不同的文件格式具有不同的特性,在实际应用中应该了解常见的音频文件格式特点,才能在具体的应用中会做到心中有数,会有效的选择合适的文件格式。4.1.1.1MIDI文件MIDI文件并不记录任何声音,只是记录电子乐器的弹奏信息,是乐谱的一种数字式描述方式。由于它不包含具体的声音数据,所以文件较小,便于存储和传输。一般来说,MIDI文件只适合于记录乐曲,而不能记录歌曲声音信息。4.1.1.2WAV文件是目前一种通用的数字音频文件格式。它记录的是真实声音的波形文件。被Windows系统及其应用程序广泛支持。WAV文件支持多种音频文件格式,可以有不同的采样频率、量化位数和声道数。声音质量真实自然、音响效果好、能记录各种声音信息。不足之处是文件的数据量大,不便于存储和传输。4.1.1.3MP3文件MP3是MPEGAudioLayer3音频文件的缩写。它是一种声音文件的压缩方法,具有音质好、压缩比高等特点。虽然它采用了有损压缩方式,但它以极小的声音失真换取了较高的压缩比,使得MP3能在Internet上广泛传播。4.1.1.4RA文件RA的全称为RealAudio,是由RealNetworks公司开发的一种流媒体文件格式,最大的特点就是可以在网络上实时传输音频信息,主要适用于网络在线播放。文件数据量小、音质好,压缩比可达到1:96。4.1.1.5WMA文件WMA的全称是WindowsMediaAudio,是微软公司开发的网上流式数字音频压缩技术。WMA文件压缩比高、音质好,更加有利于网络传输。此外,还可以通过数字防伪管理方案加入防拷贝技术,或者加入限制播放时间和播放次数,甚至是播放机器的限制,可有力地防止盗版。4.1.1.6VOC文件VOC文件是新加坡著名的多媒体公司CreativeLABS开发的声音文件格式,多用于保存Creativesoundblaster系列声卡所采集的声音数据,被Windows系统和Dos系统所支持。4.1.1.7AU文件是SUN公司开发的一种音频文件格式,Unix操作系统和Java系统下的标准文件格式。4.1.1.8AIF文件是Apple公司开发的一种音频文件格式,被Macintosh系统及其应用程序所支持。4.2声波的本质声音是物体在一种媒介(如空气)中振动而产生的波。振动的物体可以是人的声带、吉他的弦或者音叉。空气分子的这些运动会从弦的位置开始引发并逐渐向外传播、辐射下去,引起了气压的周期性变化——这就形成了声波。当这个压力波到达人的耳膜时,也同样引起耳膜的来回振动,耳膜的振动产生了一个信号并传递到人的大脑,最终,大脑将气压变化的信号识别为声音。声音是一种机械波因为声波在一种介质中的传播依赖于介质颗粒相互作用的机制,所以声波被当作一种机械波来定义其特性。这个特点还意味着声波不能在真空中传播。在一股声波中,介质颗粒的运动是平行于波的传播方向的。这种波被定义为纵波。注意:这里的颗粒运动指的是介质颗粒在传播中的振动,而不是每个颗粒本来自身的运动。4.2.1频率和音调声波是物体在一种媒介(比如空气)中振动而产生的。无论振动的物体是什么,它总是以一个固定的频率来回振动(移动),这引发物体周围的空气分子也以同样的频率振动,因而发出了声音压力波。波的频率(frequency)指的是单位时间内介质颗粒振动一个完整来回的次数。频率通常使用的单位是赫兹(Hz,Hertz),所用的相应时间单位是1秒。4.2.2声强和音量声强(soundintensity)是和直接感受到的声音的音量(loudness)相关联的,虽然这二者并不完全等同。声强通常用分贝(decibel,dB)作为单位。听觉范围的上限大概是120dB,它表示的声音强度大约是0dB所表示声强的1000000000000(即1012)倍音量与声强音量的大小是听者的一种主观感受,但是声强是一种客观的度量。因此,音量和声强并不是完全相同的属性。声强则可以完全不需要听众的存在,而仅仅用听觉仪器进行客观的测量。听众的年龄是一个会影响对声音音量的主观判断的因素。声音的频率也是一个影响因素,因为人对不同频率声音的敏感度不同。4.3声波的叠加简单的正弦波代表了一种简单的单调音——单频率的。当两个或更多的声波相遇时,它们的振幅会增大,并得到一个更复杂的波形(如图4-3所示)。我们每天感受到的声音很少是单调音。比如语音、音乐、噪声的波形都是很复杂的,因为它总是由多个不同频率的声波叠加在一起的结果。4.4数字音频的采集与量化数字音频的采集和量化是计算机获取外部模拟声音信号的重要过程,也是在实际应用中能获得合适的数字音频文件的基本方法。4.4.1声音的物理特性声音的本质是物体的机械振动,通常把振动的物体称之为“声源”。声源的振动通过传播介质如空气、水进行传播,便形成了声波。人耳接受到声波后耳膜就会跟着振动,通过听觉神经末梢的传递,就可以听到声音了。声音的波形图声音的三个基本要素音调声音的高亢与低沉,与声波的频率有关。音强声音的大小,与声波的振幅成正比。音色音色是由混入基音中的泛音决定的。声音的周期性和非周期性凡是振动波形是周期性的、在频谱上是分列的线性谱、听起来有一定音调的,就叫做“乐音”。凡是其振动的波形成非周期性的、在频谱上是连续的、听起来没有一定音调,但饱满生动,则叫做“噪声”。声音信号的对比模拟信号:是一种随时间变化的连续性的信号,传输和复制时易发生失真现象。不能被计算机处理。数字信号:是一种离散的、非连续性的信号。在传输和复制过程中不失真,声音精度高、质量好、可用计算机方便的进行播放、存储和编辑。4.4.2采样和量化模拟的音频信号要转换成离散的数字信号,必须对声音信号在时间和幅度两个方面进行离散化。在横向的时间轴上,每隔一个固定的时间间隔,在声音波形曲线上抽取一个点。然后对采样点纵轴上的电压幅度用有限的数字来表示。采样量化示意图基本概念:把模拟声音信号转化为数字音频时,需要在声音波形上按一定的时间间隔,获取一系列的采样点,这个过程称之为采样。把某一幅度范围内的电压用一个数字表示的这个过程称之为量化。将声音数据写成计算机能处理的数据形式,以适应存储和传输的过程,称之为编码。影响数字音频质量的因素采样频率量化位数声道数4.4.2.1采样频率采样频率(SamplingRate)是指一秒种内采样的次数,采样频率的单位用kHz(千赫兹)表示。采样频率越高质量越好数据量越大奈奎斯特(HarryNyquist)采样定理采样时所采用的频率必须是模拟信号最高频率的2倍,这样才能保证采样获得的声音信号在重放时不失真,才能完全恢复原始信号的波形和质量。如一段频率为22kHz的声音,在采样时必须用22kHz×2=44kHz的频率去采样。4.4.2.2量化位数量化位数(SamplingData)也称为“量化精度”,它是描述每个采样值的二进制数据的位数。也可以说量化就是把采样所得的值加以数字化,用计算机中的若干二进制的位数来表示的过程。量化位数越高质量越好数据量越大4.4.2.3声道数声音通道的个数称为声道数(Channels),是指一次采样所记录产生的声音波形个数。声道数越多声音真实感越强数据量越大4.4.2.4数字音频的数据量数字音频的数据量与采样频率、量化位数和声道数成正比关系。未经压缩的数字音频的数据量可由以下公式进行计算例题:录制30秒的单声道声音,采样频率为44.1KHz,量化位数用16位时,所采集的不压缩的波形文件的数据量是多少兆字节。解:44.1×1000×16×1×30/8=2646000(B)26460001024×10242.52MB答:不压缩声音文件的数据量为2.52MB4.4.2.6数字音频的压缩与编码声音频率的范围常见声音的采样频率和量化位数及声道数CD音质44.1kHz,16位,立体声,172KB/秒。收音质量22.05kHz,8位,单声道,21KB/秒。电话质量11.025kHz,8位,单声道,10KB/秒。采用过高和过低的采样频率,都会增加冗余的数据量或降低声音的质量,不利于数字化声音的处理和应用。4.4.2.6音频压缩的必要性与可能性必要性:数字化后的声音文件的数据量会非常之大,如果不进行压缩处理,一般的计算机无法对音频信号进行存储和交换。可能性:通过除去信号中存在的大量冗余数据,和利用人的听觉特性来降低编码率。便能够达到压缩编码率的目的。4.5动态范围在量化步骤中,一个振幅值的离散等级范围用来对样本点进行映射。这个等级提供的范围(也就是从最低的到最高的量化后数值)定义了数字音频的动态范围(dynamicrange)。如果动态范围比声波的全振幅范围小一些,有些数据就会丢失。因为数字化后的声波会被较窄的振幅范围“裁剪”。4.6数字音频文件的尺寸压缩方法以及类型取样率和位深度越高,数字音频质量就越好,失真就越少,文件越大,所需的存储空间、处理时间、传输时间都越多。除了取样率和位深度,不要忘记声音的持续时间也是影响音频文件尺寸的一个关键因素。当采用较高的取样频率和位深度的时候,文件尺寸将会快速增大。怎样减少数字声音文件的数据量4种减少数字音频文件尺寸的方法。·降低取样频率·降低位深度·使用文件压缩·降低声道数音频文件选择文件类型可以考虑的因素:文件尺寸限制。音频文件将要在网络上使用,那么可能需要考虑高压缩率的文件格式,甚至需要使用流式音频文件格式。音频文件的目标听众。音频主要的目标听众
本文标题:数字媒体基础-4
链接地址:https://www.777doc.com/doc-3701835 .html