您好,欢迎访问三七文档
当前位置:首页 > 电子/通信 > 数据通信与网络 > 第七章多媒体信息检索
多媒体信息检索南京中医药大学文献检索教研室教学内容多媒体信息检索基础知识多媒体信息检索的方式多媒体信息检索的分类检索概述多媒体:把不同的但相互关联的媒体集成在一起而产生的一种存储、传播和表现信息的载体,通常包括文本、音频、图形、图像、动画和视频。多媒体信息:是各种媒体的组合体,即将音频、视频、图像和计算机技术、通信技术集成到同一数字环境中,以协同表示更丰富和复杂的信息。多媒体信息检索:是多媒体信息的特征元数据提取、索引建库,相似度匹配运算,识别和返回用户所需信息,通过与用户之间的反馈,不断优化、调整显示结果的过程。多媒体信息的特点数据量庞大数据类型繁多相关性强,同步性高动态性强多媒体信息的分类按作用于人体感官形式划分–视觉类媒体:点阵图像、矢量图形、动画、视频、符号和文字等–听觉类媒体:波形声音、语音和音乐等–触觉类媒体:环境媒体,如皮肤感觉的温度、湿度–活动媒体–抽象事实媒体按照国际电信联盟ITU-T建议划分–感觉媒体–表示媒体–表现媒体–存储媒体–传输媒体重点讨论的是感觉媒体和表示媒体,即声音、图形、图像、文字、视频和动画等图形与图像图形与图像文件通常混称为图片文件。特性•①分辨率:图片文件都要在计算机的显示器屏幕上显示出来,显示器是用均匀排列的像素来显示画面的,因此文件也是由许多的像素来组成。一张图片其横行的像素个数和竖列的像素个数便决定了该图片的大小。如800×600,1024×768•②颜色数:通常,图片颜色数的可能的取值有:2色(这时图片只有黑白两色)、16色、256色、16位增强色(共216即65536种颜色)、24仿真彩色(共224即16777216种颜色)等。自然图片的颜色数越多,图片的视觉效果就越好。图片文件的格式类型位图:是由许多个像素点组成的图片,相应的图片文件记录了图形或图像的每一个像素点的位置及代表该像素颜色的数值等信息。根据有无压缩或压缩的方法等,该类型的图片文件又分为许多种格式,如:.bmp图、.tif图、.gif图、.jpg图。矢量图:是计算机通过数学运算而产生的图形,而不是像位图那样逐点描述的,因此,该图形所占容量很小,而且它的显示效果不受大小或显示器分辨率的影响。矢量图的文件格式视生成它的软件的不同而不同。矢量图形格式也很多,如AdobeIllustrator的*.AI、*.EPS和SVG、AutoCAD的*.dwg和dxf、CorelDRAW的*.cdr、windows标准图元文件*.wmf和增强型图元文件*.emf等等。声音波形音频:是从真实的声音录制并数字化后而得到的一种声音文件,这样的一个过程称为声音采样。采样频率越高,录制的声音效果就越好,需要花费的代价是声音文件需要的存储空间加大了。波形音频文件常见的格式有:Wave文件(*.wav)、MPEG音频文件(.mp1/.mp2/.mp3)、RealAudio文件(ra/.rm/.ram)、WMA(.wma)格式。MIDI是乐器数字接口(MusicalInstumentsDigitalInterface)的英文缩写,是数字音乐/电子合成乐器的统一的国际标准。MIDI音乐是利用电子合成技术来模拟各种乐器音效的方法生成,它并不对声音进行采样和量化,记录的也不是声音本身,它只是像记录乐谱一样将每个音符记录为一个类似乐谱符号的数字,并且规定了各种音调的混合发音,最后通过合成器将这些数字转化为对应的音效进而组合成为音乐播出。MIDI文件的数据量要比波形音频文件小得多,可用于满足播放较长时间的音乐需要。MIDI音乐毕竟是电子合成模拟的,其声音效果远不如真实乐器的效果,而且回放的质量受声卡的影响比较大。视频帧:数字视频利用人的眼睛的视觉暂留原理,将一系列顺序排列的静态画面连续播放,从而产生动态效果,其中的每一个画面就是该视频文件的一帧。全运动播放:播放速度在30帧/s以上,播放的效果才不会感到跳跃和闪烁,这样的播放速度即所谓全运动播放。全屏幕播放:视频的播放满足画面大小为640x480以上、颜色在256色以上,即可以在整个显示器屏禁区域播放,而不仅仅是在一个小窗口播放,即为全屏幕播放。数字视频文件格式动画文件:指由相互关联的若干帧静止图象所组成的图象序列,这些静止图象连续播放便形成一组动画,通常用来完成简单的动态过程演示;该类型的图片文件又分为许多种格式,如:GIF文件——.GIF。影像文件:主要指那些包含了实时的音频、视频信息的多媒体文件,其多媒体信息通常来源于视频输入设备,由于同时包含了大量的音频、视频信息。如AVI文件(.AVI)、QuickTime文件(.MOV/.QT)、MPEG文件(.MPEG/.MPG/.DAT)、RealVideo文件(.RM)。数字视频文件格式AVI:VideoforWindows所使用的文件称为音频-视频交错文件(Audio-VideoInterleaved),文件扩展名为AVI。AVI格式的文件将视频信号和音频信号混合交错地存储在一起,是一种不需要专门硬件参与就可以实现大量视频压缩的视频文件格式。在各种多媒体演示系统中被广泛应用。AVI文件使用的压缩方法有好几种,主要使用有损压缩,压缩比高。MOV文件:MOV文件格式是QuickforWindows视频处理软件所选用的视频文件格式,与AVI文件格式相同,MOV文件也采用Intel公司的Indeo视频有损压缩技术以及视频信息与音频信息混排技术,一般认为,MOV文件的图像质量较AVI格式好。它是Macintosh计算机用的视频文件格式。MPG文件格式:PC机上的全屏幕活动视频的标准文件为MPG格式文件,也称为系统文件或隔行数据流。DAT文件格式:DAT是VideoCD或KaraokeCD(卡拉OK)数据文件的扩展名,也是基于MPEG压缩方法的一种文件格式。DIR文件格式:DIR是Macromedia公司使用的Director多媒体著作工具产生的电影文件格式。数字视频文件格式多媒体应用中使用的动画文件主要有GIF、AVI、SWF等等。GIF文件:可保存单帧或多帧图像,支持循环播放。GIF文件小,是网络唯一支持的动画图形格式,在因特网上非常流行。GIF与JPG的区别在于它支持透明格式,虽然图像压缩比不及JPG文件,但是具有更快的传送速度。SWF文件:是Macromedia公司的Flash动画文件格式,需要用专门的播放器才能播放,所占内存空间小,在网页上使用广泛。多媒体数据库是多媒体技术与数据库相结合产生的一种新型数据库。常包括图像数据库、视频数据库和音频数据库构造方法–在关系数据库的基础上构造多媒体数据库–在面向对象数据库的基础上构造多媒体数据库–分布式超媒体数据库多媒体数据库与传统数据库的区别处理的数据对象、数据类型、数据结构、数据模型和应用对象都不同、处理方式也不同。多媒体数据库存储和处理复杂对象,其存储技术需要增加新的功能,如数据压缩和解压。多媒体数据库面向应用,没有单一的数据模型适应所有情况多媒体数据库强调媒体独立性多媒体数据库强调对象的物理表现和交互方式,强调最终用户界面的灵活性和多样性。多媒体数据库具有更强的对象访问手段。多媒体数据模型扩充关系模型:关系数据库中存储了多媒体对象的位置信息,如关键词、文本标题、数据的存储路径及名称等描述信息面向对象的数据模型:OODB,利用ODQL语言实现数据库的查询,在SQL功能的基础之上增加了适合基于内容检索的机制,如复杂的信息建模能力。超媒体数据模型P297多媒体信息检索的流程主要工作流程:内容获取、内容描述、内容操作先对原始媒体进行处理,提取内容,然后用标准形式对它们进行描述,来支持用户对内容的操作。内容获取通过各种内容分析和处理,而获得媒体内容的过程,它包括信息分割、特征提取两个部分。信息分割分成图像分割与视频分割。内容获取核心是特征提取。特征提取就是提取内容显著的特征和人的视觉、听觉方面的感知特征来表示媒体和媒体对象的性质,特征提取有自动特征提取和人工交互或提取两种方式。多媒体信息检索的方式基于文本方式的多媒体信息检索基于内容的多媒体信息检索基于文本方式的多媒体信息检索首先对多媒体进行人工分析并抽取反映该多媒体物理性和内容特征的关键词,然后对这些关键词进行文字著录或标引,建立类似于文本文献的标引著录数据库,从而将对多媒体信息检索转变成对上述关键词的检索。普及程度:是现行网络检索系统中的主流方式。检索方式:信息分类、扩展名、关键词优势:实现原理相对简单,技术成熟劣势:具有主观性,仁者见仁、智者见智;多媒体信息的多维性,人工描述难以穷尽普通搜索引擎搜索图片、图像–格式:image:文件名–功能:检索含有指定文件名图像的所有网页。搜索多媒体信息–格式:media:text–功能:检索文件的名字中含有指定文字的多媒体信息图像搜索引擎图像搜索引擎是专门用来搜索图形图像的搜索引擎。它与文字搜索引擎不同的是,查到的最终结果,不是文字形式的类目名、网站名和网页内容,而是一幅幅缩微图片,以及与图片相关的介绍和地址链接。Google图片搜索()Yahoo图片搜索()百度图片搜索()WebSEEK()Lycos()Alltheweb图像搜索()视频搜索引擎Google视频搜索=zh-CN百度视频搜索SoSo视频搜索音乐搜索引擎搜刮网()百度MP3搜索雅虎MP3搜索中搜Mp3搜索搜狗音乐搜索爱问音乐搜索引擎音乐方面的专业共享网站九天音乐网()基于内容的多媒体信息检索基于内容特征的信息检索技术(ContentBasedRetrieval,简称CBR),是一种新的检索技术,是对多媒体对象的内容及上下文语义环境进行检索原理:提取特征并进行量化,表示成向量空间,建立索引库,将用户提问转化成向量,并与已有信息的向量空间进行相似度匹配计算。常用多媒体文件特征:①图像:颜色、纹理及时空关系等②视频:对象运动特征、颜色和光线变化等③音频:时域、频域、时频、短时帧和音频特征等普及程度:局限在较小的数据集合上,大多只是实验室研究成果优势:源于多媒体内容本身的特征信息,具有客观性劣势:①复杂度高②语言鸿沟③选取好的特征的难度大、特征的量化、建模、建立向量空间复杂。基于内容的多媒体信息检索系统体系结构媒体数据特征提取目标标识媒体库特征库知识库知识辅助用户查询接口检索引擎索引/过滤数据库特征提取子系统数据库查询子系统基于内容的多媒体信息检索特点(1)相似性检索:CBR采用一种近似匹配(或局部匹配)的方法和技术逐步求精来获得查询和检索结果,摒弃了传统的精确匹配技术,避免了因采用传统检索方法所带来的不确定性。(2)直接从内容中提取信息线索:CBR直接对文本、图像、视频、音频进行分析,从中抽取内容特征,然后利用这些内容特征建立索引并进行检索。(3)满足用户多层次的检索要求:CBR检索系统通常由媒体库、特征库和知识库组成。媒体库包含多媒体数据,如文本、图像、音频、视频等;特征库包含用户输入的特征和预处理自动提取的内容
本文标题:第七章多媒体信息检索
链接地址:https://www.777doc.com/doc-2118344 .html