多媒体技术(第二章)

多媒体计算机要求处理文字、数据和图形等信息、还要综合处理图像，动画、音频、视频等信息，因此在存储容量、速度、频带、实时性、软硬件环境上要求具有如下四个关键技术：音频技术视频技术数字图像技术数据压缩技术●●●●关键技术2.1声音的基本概念2.2声音的数字化2.3MIDI音乐2.4语音处理•音频信息的应用•常见的声音文件格式•音频及音频技术2音频处理技术2.1声音的基本概念声音是听觉器官对声波的感知，而声波是通过空气或其他媒体传播的连续振动。声波振动内耳的听小骨，这些振动被转化为微小的电子脑波，它就是我们觉察到的声音。2.1.1声音要素2.1.1声音要素振幅——决定声音大小。频率——决定音的高低。2.1声音的基本概念频率范围划分次声波/次音信号0~20Hz人耳能听到的声音/音频20~20kHz超声波/超音信号20k~1GHz高超声波1G~10THz话音信号80~3400Hz2.1.2声音的频率范围2.1声音的基本概念模拟元部件，如晶体管、变压器、电阻、电容等数字信号处理器(DSP，DigitalSignalProcessor)数字信号处理是将信号以数字方式表示并处理的理论和技术，目的是对真实世界的连续模拟信号进行测量或滤波。因此在进行数字信号处理之前需要将信号从模拟域转换到数字域，这通常通过模数转换器实现。而数字信号处理的输出经常也要变换到模拟域，这是通过数模转换器实现的。。2.2.1从模拟到数字2.2声音的数字化数字信号处理的优点：是一种精确运算方法，不受时间和环境变化影响表示部件功能的数学运算采用相对容易实现的数学运算去模拟可以对数字运算部件进行编程2.2.1从模拟到数字2.2声音的数字化模拟信号：在时间和幅度上都是连续的信号。数字信号：在时间和幅度上都用离散的数字表示的信号。2.2.2模拟信号和数字信号2.2声音的数字化采样（Sampling）：在某些特定的时刻对模拟信号进行测量，连续时间的离散化。均匀采样：每隔相等的时间采样一次。量化（Quantization）：连续幅度的离散化。线性量化/非线性量化2.2.3声音信号数字化2.2声音的数字化采样频率、量化精度？采样率：对连续波形进行采样的频率。Nyquist采样定律：对于无损的数字化，采样率至少应该是最大频率响应的两倍。Δt2.2.3声音信号数字化2.2声音的数字化量化：即用多少二进位来表示声音波形的高度，bit数越多，声音质量越好。编码：将采样后量化好的数据按照一定的数据格式编排（含数据的压缩）存放到计算机。2.2.3声音信号数字化2.2声音的数字化2.2.3声音信号数字化2.2声音的数字化信噪比SNR（SignaltoNoiseRatio），又称为讯噪比：音箱回放的正常声音信号与无信号时噪声信号(功率)的比值，用dB（分贝）表示。若采样精度为n，则信噪比为：20×lg（2n），即6.02n2.2.4声音质量与数据率（单声道，双声道X2）采样频率kHz811.0251622.0544.148量化精度bit8816161616数据率kb/s6488.2256352.8705.6768字节率kB/s811.0253244.188.296数据率=采样频率X量化精度2.2声音的数字化2.2.4声音质量与数据率声音质量采样频率（kHz）样本精度（bit/s）声道数据率（kb/s）频率范围电话质量88单声道64.0200~3.4kHz调幅广播11.0258单声道88.250~7kHz调频广播22.05016立体声705.620~15kHzCD唱片44.116立体声1411.220~20kHz宽带音响4816立体声1536.020~20kHz2.2声音的数字化2.1.5多媒体所涉及到的音频处理技术•音频采集•语音编码/解码•文-语转换•音乐合成•语音识别与理解•音频数据传输、音频视频同步、音频效果与编辑2.1声音的基本概念（1）MIDI接口两个不同成分•硬件设备的连接•一个数据格式（2）与MIDI有关的术语•通道：每个通道访问一个独立的逻辑合成器。•MIDI文件：存放MIDI信息的标准文件格式。•乐器：能产生特定声音的合成器。•复音：合成器能同时支持的做多音符数。•音色：声音的音质。2.2.1MIDI的基本概念2.2MIDI音乐MusialInstrumentDigitalInterface•声音发生器•微处理器•键盘•控制板•辅助控制器•存储器•音序器2.2.2MIDI设备2.2MIDI音乐2.2.3MIDI消息MIDI消息=状态字节+数据字节状态字节通道消息通道声音消息通道模式消息系统消息系统实时消息系统公共消息系统独有消息2.2MIDI音乐•录制与表演•乐谱打印•同步装置片段编辑器和库管理程序•音乐教育应用2.2.4MIDI软件2.2MIDI音乐•基本周率——语音信号中最低的周期频率。•音素——用于给定语言中辨别言辞或单词的最小语音单元。•音位变体——记录单音的不同形式。•词法——标记着携带自己的含义的最小语音单元。•浊音——通过声带发生。•清音——发音期间声带打开。2.3.1语音合成（1）基本概念2.3语音处理a.语音输出方法•录音/重放•文-语转换b.语音合成方法的分类•发音器官参数语音合成•声道模型参数语音合成•波形编辑语音合成2.3.1语音合成（2）语音生成/输出2.3语音处理第一步：预处理合法字符串•全角转换为半角•滤掉不能识别的字符•检查控制符的合法性第二步：语言学处理带重音及语调标注的字符串•分析文本的语意、词法、语法•提取韵律特征机械匹配法分词理解式分词词库知识库推理机2.3.1语音合成（3）汉语的文-语转换系统(四步)2.3语音处理第三步：语音学处理带重音及语调标注的拼音码串•文本替换成语音•多音字处理•变音•变调第四步：波形编辑合成语音输出•音库及索引•韵律修改算法2.3.1语音合成（3）汉语的文-语转换系统(四步)2.3语音处理•声音指纹（WHO）•语音识别与理解（WHAT）•说话的心理分析（HOW）（2）语音识别中存在的问题•环境噪音•单词边界的确认•时间限制问题2.3.2语音分析（1）语音分析的应用领域2.3语音处理•汉字是单音节的，只有400多个音节。•汉语音节构成简单而规整。•汉语是有调语言。•汉语音节的协同发音和音变问题不象英语普遍。（4）汉语识别的困难•同音字多•汉语是内涵语言。•汉语语义单元是词，词的边界不确定。2.3.2语音分析（3）汉语在语音识别中的优势2.3语音处理•信号格式编码•源码（频道声音合成机）•识别/合成方法2.3.3语音传输2.3语音处理1.IP电话通过互联网或其他使用IP技术的网络，来实现新型的电话通讯。三种实现方式：（1）计算机到计算机（2）计算机到电话、电话到计算机（3）电话到电话2.4音频信息的应用2.声音欺骗系统声音分析技术和语音合成技术的合作产品，用于军事上截获敌方无线电信号，改变其话务员的原声把信号重新传送出去。3.“芝麻开门”系统声音、图象和动作的综合认知系统，负责重要部门的安全门控制。2.4音频信息的应用4.用光盘听书2.4音频信息的应用5.Internet上的实时音频广播Web上的优秀音频技术依赖于缓冲、编码/解码和音频流技术。公司产品Internet地址DSPGroupTrueSpeech音频信息的应用（1）WAVE最经典的Windows多媒体音频格式，应用非常广泛，它使用三个参数来表示声音：采样位数、采样频率和声道数。该格式记录了声音的波形，它不对数据进行压缩，所以文件很大，但只要“拾音”设备足够好，制作的声音质量可以达到专业级水平。2.5常见的语音文件格式从声能到电能的转换过程（2）MOD该格式存放乐谱和乐器使用的各种音色样本，是一种类似波表的音乐格式，但它的结构却类似MIDI，使用真实采样，体积很小。在以前的DOS年代，MOD经常被作为游戏的背景音乐。现在的MOD可以包含很多音轨，而且格式众多，如S3M、NST、669、MTM、XM、IT、XT和RT等。在音序器软件中看到的一条一条的平行“轨道”。一条音轨对应于音乐的一个声部。2.5常见的语音文件格式（3）MP3采用MPEGAudio的Layer-3压缩方案，压缩比达到14~12:1，用一张MP3CD可以容纳10张唱片的歌曲。是目前网上常用的音乐格式。MP3音乐是以数字方式储存的音乐，如果要播放，就必须有相应的数字解码播放系统，一般通过专门的软件进行MP3数字音乐的解码，再还原成波形声音信号播放输出，这种软件就称为MP3播放器，如Winamp等。2.5常见的语音文件格式（4）RA格式系列RA、RAM和RM都是RealNetwork公司成熟的网络音频格式，采用了“音频流”技术，在制作时可以加入版权、演唱者、制作者、Mail和歌曲的Title等信息。RA可以称为互联网上多媒体传播的霸主，适合于网络上进行实时播放，是目前在线收听网络音乐最好的一种格式。控制“数据流”同步类型音频的输出质量。2.5常见的语音文件格式2.5常见的语音文件格式（5）MIDIMIDI是MusicalInstrumentDigitalInterface的简称，它采用数字方式对乐器所奏出来的声音进行记录（每个音符记录为一个数字），然后，播放时再对这些记录通过FM或波表合成。作为音乐工业的数据通信标准，其科学性、兼容性、复杂程度等各方面都是最高的。回放效果也是最好的。FM合成是通过多个频率的声音混合来模拟乐器的声音；波表合成是将乐器的声音样本存储在声卡波形表中，播放时从波形表中取出产生声音。（6）VQF采用了由NipponTelegraphandTelephone同YAMAHA公司开发的变换域加权交错向量量化音频压缩技术。压缩率可以从1/12到1/96任意调节，且不影响音质。但VQF同时也有解码速率慢的缺点。2.5常见的语音文件格式（7）CDA就是激光唱片的格式，记录的是波形流，纯正、高保真度。采样位数多为16位，现在也经常看到20位、24位、36位采样录音CDA。缺点是无法编辑和文件长度太大。2.5常见的语音文件格式（8）WMAWMA是WindowsMediaAudio的缩写，相当于只包含音频的ASF(AudioSteamingFormat)文件。在压缩技术方面，WMA着眼于使用28.8kbps的MODEM达到FM水准的音质。WMA文件在80kbps、44kHz的模式下压缩比可达1：18，基本上和VQF相同；压缩速度比MP3提高一倍，下载速度比MP3快两倍左右，而存贮空间只有一半。（9）其它文件格式AIF/AIFF：苹果公司开发的一种声音文件格式，支持MAC平台，支持16位44.1kHz立体声。AU：SUN的AU压缩声音文件格式，只支持8位的声音,，是互连网上常用到的声音文件格式，多由SUN工作站创建。CMF：CREATIVE公司开发的一种类似MIDI的声音文件。DSP：DigitalSignalProcessing（数字信号处理）的简称。通过提高信号处理方法，音质会极大地改善，歌曲会更悦耳动听。2.5常见的语音文件格式从HIFI（高保真度）的角度，声音质量由高到低顺序：原声乐器演奏MIDICD唱片MODCMFMP3、MP4和RA要看节目源是MIDI，CD还是MOD1北京一夜陈升滚石香港黄金十年陈升精选试听歌词4.9Mmp32北京一夜陈升滚石香

多媒体技术(第二章)

免费阅读已结束，点击付费阅读剩下 ... 页

阅读已结束，您可以下载文档离线阅读

毕博-预算表格_Combined_V19

中国交通运输

法商学院货币金融学3吴少新版货币金融学

上市公司股权结构设计（DOC7页）

世邦魏理仕_济南高新区1号地综合体项目发展顾问终期报告_153P

橱柜上翻门气撑项目可行性研究报告申请资质用(专业版)

CH5-MBA运作能力Y

中国企业国际私募以及海外上市的策略_定稿

投标书--杭安

一般进出口货物报关报检程序(新1-6)

相关文档

相关搜索