您好,欢迎访问三七文档
9.1多媒体关键技术9.1.1多媒体技术的定义、特点和标准1.多媒体技术的定义第9章多媒体技术与系统(1)什么是媒体媒体(media)是信息的表示、存储、传播所需的载体。它包括的内容广泛多样,从传输信号的通信介质到传播消息的新闻界,都可以称为媒体。媒体本身具有层次性和多样性,人们对媒体的分类一般是在人的感觉这个层次上,即根据人对外界信息的感知途径,把这个层次媒体分为3大类。①视觉媒体占80%,比如图像、动画、视频等。②听觉媒体占10%,比如声音信息。③触觉或其它媒体占10%,像触摸屏类的设备都是属于该类媒体。(2)多媒体不是媒体的简单组合(3)多媒体技术的发展是以计算机技术为基础多媒体技术有如下定义:多媒体技术是指把文本、图形、图像、声音、视频等多种媒体信息,通过计算机进行综合处理,使这些信息建立逻辑连接,并以多种形式表现出来的一体化技术。2.多媒体技术的特点多媒体技术的出现为现代社会的信息传播和交流提供了新的功能,带来了新的革命,与传统的电脑技术相比,它主要有如下特点。(1)多样性(2)交互性(3)集成性3.多媒体技术标准(1)声音编码标准随着通信技术和计算机技术的发展以及人们对声音传输质量要求的提高,原CCITT和ISO先后提出了一系列的有关音频编码的建议和标准,主要包括G.721、G.722、G.728、G.729以及MPEG音频标准。(2)视频编码标准国际标准认证(ISO)、国际电工委员会(IEC)和国际电信联盟(ITU)等国际组织制定了下列有关视频图像压缩编码的国际标准,即联合图片专家组(JPEG)标准、H.261标准、MPEG标准等。9.1.2视频压缩技术与芯片1.视频图像压缩技术概述数据压缩一般分为有损压缩和无损压缩两种。无损压缩是指把压缩后的数据进行解压还原后,还原的数据与原来的数据完全相同。有损压缩是指把压缩后的数据解压还原后,还原的数据与原来的数据有所差异,但这种差异不影响人们对原来信息的理解。2.无损数据压缩技术简介无损压缩技术一般用在要求重构信号与原始信号完全一致的场合。在多媒体数据压缩的过程中,去掉时间和空间冗余的数据一般都要通过无损压缩技术再次压缩。目前用得最多也最成熟的无损压缩编码技术包括:Huffman编码、算术编码、RLE编码和词典编码。3.MPEG-1、MPEG-2视频压缩技术(1)JPEG压缩技术JPEG是对静态图像进行压缩的标准,它有两种压缩算法:一种是采用离散余弦变换(DCT)的有损压缩算法,另一种是采用以预测技术为基础的无损压缩算法。图9.2是JPEG压缩编码流程图。输入图像FDCT量化信息熵编码图9.2基于DCT压缩流程图①DCT变换②量化③熵编码图9.3是量化后AC系数重新进行Z字形编排示意图。图9.3AC系数Z字形编排示意图对直流系数进行DPCM编码和对交流系数进行Z字形编排和游程编码后,还使用Huffman编码进行进一步的压缩,整个熵编码的流程图见图9.4。DCDPCM编码Huffman编码ACZ字形编码游程编码Huffman编码图9.4熵编码流程图(2)运动补偿算法MPEG把视频图像分成三类。①内图像I(Intra)采用JPEG标准进行静态压缩。②测图像P(Predicted)用最近的前一个I图像或P图像进行预测得到,并可作为下一预测(B或P)的参照图像。③双向预测图像B(BidirectionallyInterpolated),B图像既可以用前面的I或P图像预测,也可以用后面的I或P图像预测,还可使用最近的前后两个I或P图像从两个方面预测。运动补偿算法主要是通过消除P图像和B图像在时间上的冗余以提高压缩效率。预测图像P,采用运动补偿技术处理,主要是通过在参照图像(I或P)的基础上补偿预测图像P与参照图像(I或P)的变化来确定P。由于连续图像之间的变化较小,所以对这种变化差值编码,要比直接对该帧直接编码的数据量要小得多。图9.5所示的预测图像P压缩编码算法示意图。移动矢量求差值压缩编码编码图像参照图像图9.5P压缩编码流程图4.MPEG-4视频压缩技术与MPEG-1、MPEG-2基于帧压缩方法不同,MPEG-4是基于对象的压缩标准,因此,它要求定义基于对象的场景描述方法。为分析和描述视频序列及其对象,MPEG-4编码采用了4层数据结构来表示。如图9.6所示。VS0VS1……VO0VO1……VOL0VOL1……VOP0VOP1……VS层VO层VOL层VOP层V图9.6MPEG4视频的层次结构5.视频编码解码芯片(1)VRP芯片VRP(VideoRISCProcessor)是美国C-Cube生产的进行实时视频压缩应用的专用芯片。它的主要组成部分包括:一个32bit的60MHz的RISC信号处理器(其DSP的处理速度可达240M操作数/秒),指令和数据高速缓存、运动估计器、可变长编码器、DMA控制器以及主机和视频接口。VRP的内部结构如图9.7所示,它的指令集除了一般的通用处理指令外还具有专门用于视频压缩的数字信号处理指令。视频RISCCPUDSP变长编码运动估计指令缓存数据缓存视频口A视频口B总线接口DMA控制接口图9.7VRP内部功能结构图(2)ADV601芯片ADV601是一种成本低、性能高的视频数字信号处理芯片。它利用了小波编码技术,其主要特点是:具有精确的压缩比特率控制;能实时对包括PAL和NTSC在内的视频信号进行压缩和解压,压缩时视频信号的奇偶场是单独进行的。图9.8所示为其内部结构图。数字视频分量DRAM管理器串行接口外接动态RAM(256K16bit)数字信号处理器DPS(可选)小波核:小波滤波器、图像抽样器、图像插值器可编程量化器数字视频输入输出接口游程编码器Huffman编码器主机接口以及FIFO主机片内交换缓存器图9.8ADV601内部结构框图9.1.3音频压缩技术与MP3播放器1.音频压缩技术概述音频压缩技术从理论上讲有3种方法:一是基于语音识别与合成技术的编码方法,这种方法要求能对语音进行精确的识别,然后像文字类型一样,用符号表示识别的结果。这样对语音的处理就变成了对相应符号的处理。这种方法虽然有很大的压缩比,但在技术上还有很大的差距,目前只是作为一种研究方向,二是基于语音参数分析与合成的编码方法。该方法通过分析语音波形来得到构成语音的参数,这些参数包括基音周期、共振峰、语音谱、声强等。由此,对声音波形的编码就转化为对这些参数的编码,单纯对参数进行编码大大减少了编码的数据量。参数编码一般采用线性预测编码(LPC)方法,由于该方法计算复杂且计算量大,很难满足实时性要求,因此,在目前的声音压缩方法中,较少使用这一方法。三是基于波形预测方法,波形预测编码算法简单,易于实现且较好地保持了原声的特点,所以被选为标准语音压缩方法。如图9.9所示,波形预测编码包括3种类型的压缩编码方式,其中前两种是较常用的编码方式。波形编码全频带编码脉冲调制PCM差分脉冲编码DPCM自适应差分ADPCM子带编码矢量量化自适应变换编码心理学模型图9.9波形预测编码分类图2.全频带编码调制全频带编码调制主要包括脉冲编码调制(PCM)、差分脉冲编码调制(DPCM)及自适应差分脉冲编码调制(ADPCM)3种方式。(1)脉冲编码调制(PCM)PCM是一种比较简单、使用广泛的调制方式。它的编码原理很简单,如图9.10所示,通过对模拟声音信号直接进行采样,量化,便可得到相应的PCM样本数据。模拟声音信号输入采样量化PCM样本图9.10PCM编码框图(2)差分脉冲编码调制(DPCM)DPCM是利用样本与样本之间存在的信息冗余度来进行编码的数据压缩方法。(3)自适应差分脉冲编码调制(ADPCM)ADPCM是综合了自适应脉冲编码和差分脉冲编码调制思想的一种调制方式。3.子带编码子带编码(SBC)是一种功能很强并且十分有效的声音编码方法。这种方法首先把输入的声音信号从时域变换到频域,然后使用一组带通滤波器(BPF)把信号的频域分成若干个连续的频段即子带;再对每个子带中的音频信号采用单独的编码方案去编码。在对不同子带进行编码时,充分利用人的听觉特性(“心理学模型”)来确切定子带的量化阶的大小及分配给子带样本的位数。MUSICAM编码过程如图9.11所示。子带滤波器组先将输入音频信号分成32个子带。同时,输入音频信号经过心理学模型计算每个子带的信号能量与噪声阈值电平的比值(比例因子)。然后,“量化与编码”部分根据比例因子确定子带信号的量化位数,再进行量化编码。最后,将音频压缩数据及比例因子等辅助信息,按帧结构组合在一起,形成音频比特流。输入音频信号子带滤波器组量化与编码帧包装音频比特流计算比例因子(心理学模型)图9.11MusicAM编码结构图4.MP3播放器MP3的全称是MPEGLayer3,即以MPEG层3的标准压缩的一种音频文件格式。前面我们已介绍了MPEG音频标准分3个层次,3个层次都是以SBC为基础,但是编码器的复杂程度逐层递增,相应的数据压缩率也逐层增加。图9.12所示为MPEG第三层编码器的结构图。Huffman编码器输入音频样本信号分析滤波器组MDCT比例器和量化器计算比例因子(心理学模型)图9.12MPEGLayer3编码结构图采用闪存的MP3播放机的基本构成如图9.14所示,其工作流程如下。①输入文件②播放MP3文件图9.13WinAmp界面9.1.4MMX多媒体扩展指令1.概述其技术重点为:(1)单指令流、多数据流(SIMD)技术;(2)新增57条新指令;(3)8个64位字长的MMX寄存器;(4)4种新的数据类型;(5)饱和运算方式。2.MMX技术要点(1)MMX寄存器和新的数据类型(2)饱和运算方式(3)指令系统3.MMX指令应用举例采用MMX指令的实际处理过程见图9.15。图9.15中PMADDWD指令从一个16位紧缩数据类型开始,结果是32位紧缩数据类型。它将所有相应元素相乘产生4个32位结果,并把左边的乘积加在一起作为一个结果,同时也把右边2个乘积加在一起作为另一个结果。PADD指令完成两对32位数据的对应相加。a0a1a2a3c0c1c2c3PMADDWDa0c0+a1c1a2c2+a3c3a4a5a6a7c4c5c6c7PMADDWDa4c4+a5c5a6c6+a7c7a0c0+a1c1+a4c4+a5c5a2c2+a3c3+a6c6+a7c7a0c0+a1c1+a4c4+a5c5+a2c2+a3c3+a6c6+a7c7PADDPADD图9.15应用MMX技术指令处理流程图9.2多媒体应用系统①交互式远程教学②远程医疗③交互式视频服务④多媒体会议系统9.2.1视频点播(VOD)系统1.VOD概述根据VOD的表现形式可分为真视频点播(TrueVOD)和准视频点播(NearVOD)。2.VOD的结构与原理图9.16所示为VOD系统结构框图。节目制作工作站视频服务器管理工作站网络远程管理PC视频点播视频点播图9.16VOD系统结构图3.VOD的实现方法网络传输一般分两个步骤:首先是建立以光纤为物理基础的宽带骨干网,提供高速传送多种类型信息的能力;然后通过用户接入网将图像、语音等多种业务数据传送给用户。如图9.17所示。用户接入宽带服务主要有以下几种方式。服务器宽带骨干网网关宽带交换用户接入网用户终端用户终端用户终端图9.17VOD网络传输结构图(1)ADSL方式非对称数字用户线(ADSL)是利用现有的传输电话音频信号的双绞线作为用户接入网传输数字信号。(2)利用CATV同轴电缆接入方法该方法是用现有的有线电视(CATV)网作为用户为接入网。(3)LAN和ATM方式采用局域网(LAN)与宽带骨干网互连,这是VOD试验网使用的最主要的方式。4.VOD的关键技术(1)视频服务器技术(2)机顶盒技术9.2.2视频会议系统1.多媒体视频会议协议体系(1)H.320(2)H.323(3)H.3242.视频会议系统的体系结构由于视频会义系统可以基于不同类型网络,与之相应也有不同的协议,不同协议之间的转换通过H.323网关来完成。图9.18是视频会义系统的整体结构图。从图中可
本文标题:多媒体技术与系统
链接地址:https://www.777doc.com/doc-1473751 .html