第2章多媒体音频技术

1第二章多媒体音频技术2.1数字音频基础2.2数字音频压缩标准2.3声卡和音箱2.4MIDI与音乐合成2.5语音识别技术22.1数字音频基础2.1.1声音的基本概念2.1.2声音的数字化2.1.3数字音频的文件格式32.1.1声音的基本概念日常生活中的音频信号分为三类：自然声、音乐和语音。其中，自然声和音乐不具有复杂的语义和语法信息，信息量低、识别简单。语音是语言的物质载体，包含了丰富的语言内涵，是人类进行信息交流所特有的形式。4音频信号分类注释视听效果不规则声音一般指不携带信息的噪音语音是指具有语言内涵和人类约定俗成的特殊媒体规则声音音乐规范的符号化了的声音音效指人类熟悉的其它声音，如动物发声、机器产生的声音、自然界的风雨雷电等。音频信号的分类5我们之所以能听到日常生活中的各种声音，实质是不同频率的声波通过空气产生震动，刺激人耳的结果。声音是粒子运动的结果，是通过一定介质传播的连续的波，在物理学上可用一条连续的曲线来表示，称为声波曲线。声音6下图是用声音录制软件记录的英文单词“Hello”的语音实际波形。无论声波曲线多复杂，都可分解成一系列正弦波的线性叠加。7声波是时间和幅度上都连续变化的模拟量，单一频率的声波可用一条正弦波曲线表示(如图)，声波有三个重要的参数：振幅、周期和频率。周期t振幅声波8振幅：通常是指音量，是声波波形的高低幅度，表示声音信号的强弱程度，用分贝(dB)表示。周期：是指两个相邻声波之间的时间长度，即重复出现的时间间隔，以秒(s)为单位。周期t振幅9频率：是指每秒钟波峰出现的次数，即周期的倒数，以赫兹(Hz)为单位。表示声音音调的高低，频率越高声音越细尖。周期t振幅10振幅和频率不变的声音信号，称为单音。单音一般只能由专用电子设备产生。在日常生活中，我们听到的自然界的声音一般都属于复音，其声音信号由不同的振幅与频率合成而得到。复音中的最低频率称为复音的基频（基音），是决定声调的基本要素，它通常是个常数。复音中还存在一些其它频率，是复音中的次要成分，通常称为谐音。基频和谐音合成复音，决定了特定的声音音质和音色。11频率：是指每秒钟波峰出现的次数，即周期的倒数，以赫兹(Hz)为单位。表示声音音调的高低，频率越高声音越细尖。声波按频率分为三类：次声波、可听声波和超声波。人说话的语音频率：300Hz-3kHz。次声波可听声波超声波20Hz20000Hzf(Hz)12所谓声音的质量，简称音质。是指经传输、处理后音频信号的保真度。声音的质量用声音信号的频率范围（频带）来表示，不同种类的声源其频带也不同。一般而言，声源的频带越宽，表现力越好，层次越丰富，声音的效果越好。声音质量分为四级：声音的质量1020502003.4k7k15k20kCD-DA（激光唱盘）FM广播AM广播电话f(Hz)频带13音频测试仪(AUDIOTEST)音频测试仪（AUDIOTEST）14声音处理技术的回顾语言、音乐和各种自然声是以声波为载体传递信息的基本形式。人类很早就开始研究声音，并利用当时已掌握了的声音的某些规律来制造乐器、进行传声装置设计，使发出的声音传得更远。可是几千年来，人类只能凭耳朵来辨别声音的高低、强弱，而不能把声音记录和储存起来。所以与其他研究领域相比，对声音的研究相对滞后。151857年，法国发明家斯科特（Scott）发明了声波振记器，这是最早的原始录音机，是留声机的鼻祖。1877年，爱迪生发明了一种录音装置，可以将声波变换成金属针的震动，然后将波形刻录在圆筒形腊管的锡箔上。当针沿着刻录的轨迹行进时，便可以重新发出留下的声音。这个装置录下了爱迪生朗读的《玛丽有只小羊》的歌词：“玛丽抱着羊羔，羊羔的毛象雪一样白”，共8秒钟的声音成为世界录音史的第一声。161878年，爱迪生成立制造留声机的公司，生产商业性的锡箔唱筒。这是世界第一代声音载体和第一台商品留声机（gramophone）。之后，其他录音形式的留声机相继出现。到1912年，圆筒式录音被淘汰。1924年，贝尔实验室成功进行了电气录音，录音技术得到很大提高。1925年，世界上第一台电唱机诞生。1935年，德国柏林的通用电气公司研制成功了使用塑料磁带的磁带录音机。1963年，荷兰生产了音频盒式磁带，唱片的黄金年代渐渐流逝。17手提手摇式留声机胶木留声机18文革时期留声机大喇叭留声机19电唱机20留声机是采用机械的方法把各种声音记录在唱片上。可是声音、机械振动不容易传递，也不容易放大，机械方法很不方便。随着电学、电子学的发展，人们开始尝试用电来记录下这些真实的声音，利用把声的振动转换成电信号的原理，使声音的记录成为可能。最终电声技术获得了迅速发展。电声技术是研究可听声波频率范围内声音的产生、传播、存储、重放和接收的技术。21顾名思义，电声技术是依靠“电”来记录并播放声音的，基本原理是通过电压产生模拟声波变化的电流信号，并记录下来，这种电流信号便被称之为“模拟信号”。传统的声音记录方式就是将模拟信号直接记录下来，例如磁带和唱片，磁带上磁极的变化和唱片音槽内的纹路起伏变化都是与声音信号的变化相对应、成正比的。唱片、盒式磁带等是记录储存这种模拟声音信号的载体，而能够播放和记录这些载体的信号处理设备，诸如电唱机、磁带录音机等，则称为模拟音响设备。22电声技术把声信号转换成电信号，经扩音系统直接进行扩音；或者将其信号利用磁带、CD或其他存储形式，使声音可超越时间和空间，通过重放系统将信号放大，由扬声器或耳机转换成声信号，进入最后的终端---人耳，以实现任何时间和地点的声音重现。电声转换、音频信号的存储、重放技术、加工处理技术以及数字化音频信号的编码、压缩、传输、存取、纠错等技术，是音频技术的主要研究对象。23随着计算机技术的发展，海量存储设备和大容量内存的出现，声音的数字化处理成为可能。数字化处理的核心是对音频信息的采样，通过对采集到的样本进行加工，生成各种效果。音频信息在多媒体中的应用极为广泛，当计算机配有声卡和音箱后，就能发出各种悦耳的声音；图像配以解说和背景音乐，可使图像充满生气；立体声音乐可增加空间感，使人身临其境；此外，多媒体通信、语音电子邮件、可视电话、电视会议等环境都离不开数字化音频处理技术。24数字化声音●声音采样、量化和编码——声音数字化(模/数转换)声音采样1101110011001101把声音(模拟量)按照固定时间间隔，转换成有限个数字表示的离散序列●声音重放——声音模拟化(数/模转换)声音重放11011100把数字化声音转换成模拟量，经过音响单元重放出来●设备和软件(1)声音适配器(声卡)8bit、16bit、…128bit￥80.00～3800.00(2)声卡驱动软件以及各种声音处理软件252.1.2声音的数字化为使计算机能处理音频，必须把模拟声音信号转变为数字声音信号，这个过程称为声音的数字化。音频信号数字化后，就变为由0、1代码组成的bit信号,就可以在计算机上存储、编辑和处理了。采样和量化影响数字音频质量的技术参数数字音频文件的存储量26模拟信号数字信号A/D转换器D/A转换器借助于A/D或D/A转换器，模拟信号和数字信号可以互相转换8位可编程A/D转换芯片27模拟音频信号的数字化过程是通过对音频信号的采样、量化和编码来实现的，如下图所示：100101100011101采样和量化28声音数字化过程示意图连续的模拟声音信号声音信号的采样离散的音频信号顺序29何谓采样？对模拟音频信号的连续波形进行分割使之变成离散数字信号的方法，称为采样。采样的过程是每隔一个时间间隔在模拟音频的波形上取一个幅度值，把时间上连续的模拟信号变成时间上离散的数字信号。该时间间隔称为采样周期，其倒数为采样频率。（b）音频信号的采样（a）模拟音频信号30采样频率越高，即采样的间隔时间越短，在单位时间内得到的声音样本数据就越多，经过离散数字化的声波越接近于起源时的波形，也就意味着声音的保真度越高，声音的质量越好。（b）音频信号的采样（a）模拟音频信号31采样只是在时间坐标轴上把音频波形信号分成若干个等分的数字化过程，但是每一等分的长方形的高是多少呢?即需要用某种数字化的方法来反映某一瞬间声波幅度的电压值的大小。该值的大小影响音量的高低。为什么要进行量化？采样信号的量化音频信号的采样32何谓量化？对声波波形幅度的数字化表示称为量化。量化过程：将采样后的信号按整个声波的幅度划分成有限个位段的集合，把落入某个位段内的样值归为一类，并赋于相同的量化值。采样信号的量化音频信号的采样33量化方法：采取二进制的方式，以８位或16位的方式来划分纵轴。若以8位来划分，纵轴将被分为28(256)个量化等级，即每个采样值可以用256个不同的量化值之一来表示；若以16位为量化位数，纵轴将被分为216(65536)个量化等级。采样信号的量化音频信号的采样34在相同的采样频率下，量化位数越高，声音还原的层次越丰富，表现力越强，声音效果越好，但数据量也越大。。35对图1中的原始模拟波形(红线)进行采样和量化。采样频率：1000次/秒，量化位数：0-9共10个量化等级，并将采样的幅度值用最接近0-9中的一个数来表示，采样效果如图所示，图中每个长方形表示一次采样。采样与量化过程示例图136当以图1中得到的数值重构原来信号时，得到图2中蓝色直线段所示的波形。从图中可以看出，蓝色线与红色线(原波形)相比，波形的细节部分丢失了很多。这意味着重构后的信号波形有较大的失真。图237失真在采样过程中是不可避免的，如何减少失真呢？从图1中不难看出，如果采用更高的采样频率，即把图1中的波形划分成更为细小的区间，同时，选取更高的量化等级，即增加量化精度，就可以减少失真的程度。38从图中的轮廓线可以看出，信号的失真明显减少，信号质量得到了提高。采样率：4000次/秒量化等级：40采样率：2000次/秒量化等级：20图3图439影响数字音频质量的技术参数影响模拟音频数字化质量的主要参数有：采样频率、量化位数和声道数采样频率是指计算机每秒钟采集多少个声音样本。采样频率通常采用三种：11.025KHz(语音效果)、22.05KHz(音乐效果)、44.1KHz(高保真效果)。常见的CD唱盘的采样频率即为44.1KHz。40量化位数也称“量化等级”，是描述每个采样点样值的二进制位数。经常采用的有8位、12位和16位。量化位数越高，声音质量越好。影响数字音频质量的技术参数：量化位数41声道数是指声音通道的个数，即一次采样所记录产生的声音波形个数。若每次生成一个声波数据，称为单声道；每次生成两个声波数据，称为双声道（立体声）。很显然，立体声要比单音效果好，但所占用的存储空间也成倍增加。影响数字音频质量的技术参数：声道数42数字音频文件的存储量通过对影响声音数字化质量的三个因素的分析，可以得出模拟声音数字化后音频文件的存储量(假定未经压缩)为：例如，数字激光唱盘的标准采样频率为44.1kHz，量化位数为16位，立体声，录制一分钟所需的存储量为44.1k×16×2×60÷8=10335KB存储量=采样频率×量化位数×声道数×采样时间/8声音数字化计算公式数据量＝采样频率(Hz)×量化位数(b)×声道数/8(字节/秒)采样频率、量化位数、声道数、与声音数据量的关系采样频率(kHz)量化位数(bit)数据量(KB/s)单声道立体声11.025810.7721.531621.5343.0722.05821.5343.071643.0786.1344.1843.0786.131686.13172.2744声音的应用和频率国际互联网(语音、简单乐曲)要求11,025Hz8bit22,050Hz8bit11,025Hz8bit11,025Hz8bit22,050Hz8bit44,100Hz16bit采样频率数据长度游戏(效果音、效果音乐)多媒体自学读物(提示音)电子教案(语音、效果音)多媒体宝典、大全(乐曲、语音)多媒体音乐鉴赏(音乐、解说)应用场合●应根据使用场合和要求转换适当的声音采样频率●采样频率的转换须使用相应的软件进行452.1.3数字音频的文

第2章多媒体音频技术

免费阅读已结束，点击付费阅读剩下 ... 页

阅读已结束，您可以下载文档离线阅读

【矿山建设】土耳其库兹鲁煤矿1竖井修复工程的安全快速施工

公路工程交竣工验收办法

建筑桩基础专项施工方案-20179

保险行业XXXX年投资策略承保无惊喜,投资有改善

全国旅游景点地图

星级写字楼物业管理方案与管理制度

造价咨询系统的打印表格

0804CCTV-12频道项目简介与卖点两栏目介绍080415

总结汇报书-诺贝尔大师的塑造项目

第九章项目投资管理

相关文档

相关搜索