您好,欢迎访问三七文档
当前位置:首页 > 商业/管理/HR > 广告经营 > 跨媒体分析与检索---首页-中国计算机学会信息网
23第 7 卷 第 2 期 2011 年 2 月引言互联网中所包含的网页文字、图像、音频、视频、3D模型和动画等多媒体资源出现了如下新特点(如图1):(1)多种类型媒体数据混合并存;(2)媒体数据组织结构复杂;(3)不同类型媒体数据从不同侧面表达同一语义;(4)检索中需要根据媒体之间存在的各种联系,从一种媒体跨越到另一种媒体。尤为重要的是,互联网信息存在着广泛且错综复杂的四种交叉关联[1]:(1)互联网网页之间的交叉关联:网页之内或者网页之间所包含的链接、人名、主题和事件等实体对象与实体对象的交叉关联;(2)不同类型多媒体数据之间的交叉关联:图像、音频和视频等不同类型多媒体数据以及其包含前景/背景、音乐/语音和镜头/关键帧等结构化对象之间的交叉关联;(3)用户检索过程中交互信息之间的交叉关联:基于社会化计算Web2.0的应用产生了用户提供的大量标注、评价和日志等隐性和显性交互信息,这些交互信息存在复杂关联;(4)互联网网页、不同类型多媒体数据和用户交互信息之间也存在广泛与深层的交叉关联。这些交叉关联使得互联网数据呈现跨媒体特性,即互联网上的网页文字、多媒体数据和用户交互信息之间存在着或强或弱的内容跨越和语义关联(如图2)。互联网海量资源所呈现的跨媒体特性对于网络数据语义理解具有重要意义,原因在于交叉关联信息可加强被检索特征的表示、有利于实现被检索资源的综合、归纳和过滤以及有助于个性化搜索。人脑认知的跨媒体特性现代认知科学的相关研究表明,人对外界的感知呈现出跨媒体特性[4],即人对外界事物的了解,是通过视觉、听觉、触觉、味觉等多种感觉器官获得并形成认识的。后续研究表明,人脑生理组织结构决定了其对外界事物的认知过程是通过对多种感知信息进行融合理解后完成的,同时提供听觉和视觉信息的大脑会产生更明吴飞杨易庄越挺浙江大学跨媒体分析与检索关键词:跨媒体搜索引擎语义标注海量信息图1海量资源中心跨媒体数据表现形式音频视频语义语义语义跨媒体听觉特征音调语音视觉特征人脸事件视觉与运动特征视频目录对象场景人名地名动词主题段落语义联系语义联系语义联系视频图形动画音频图像文本24专题第 7 卷 第 2 期 2011 年 2 月显的物理反应,从而有助于人们更好地理解外部信息。认知科学的研究表明人对外界事物的认知体现出跨媒体特性。从这个意义上讲,人脑可以理解成一个跨媒体系统。人类的联想活动可以理解为一个跨媒体检索系统。如看到老虎的图片,人们会联想到它的吼叫;看到青色的苹果,人们会联想到酸的味道。另一方面,计算机软硬件相关技术的发展是跨媒体研究的基础,又直接促成了跨媒体研究进一步深入:各种多媒体数据采集设备、交互设备、海量存储设备出现,使得大量不同类型的媒体信息可被便捷利用;计算机网络技术和数据库技术的发展,则可使人们更加方便地传输和管理这些多媒体资源;人工智能技术的进步,则为跨媒体智能化提供了坚实技术保障。近年来,多模态输入输出的人机交互(MultimodalInter-action)理念被提出,计算机的输入输出手段正在从简单的键盘、鼠标、显示器等传统交互设备向多种模态的交互设备发展。可以预见,随着科学技术的发展,除了视觉和听觉信息外,未来计算机的输入输出可以扩展到触觉、味觉等更多感知类型,届时计算机跨媒体系统含义将更加丰富。由于符合人类感知和思维系统的工作过程,跨媒体研究不但可以丰富计算机的服务,更是计算机功能的一种延伸。从多媒体检索到跨媒体检索为了解决早期基于文本的多媒体检索费时费力、主观差异性大的问题,20世纪90年代提出了基于内容的多媒体检索方法,其基本思路是通过视觉、听觉或者几何特征以及例子来计算被检索对象和用户查询之间的相似度[2,7]。可以说,基于内容的多媒体检索的内容在提出时指的是“底层特征(如视觉或听觉等特征)”或“检索样例”,而非语义内容。在检索过程中为了克服“语义鸿沟”,在底层特征空间和高层语义空间之间建立映射关系和相关反馈机制。相关反馈技术分为基于机器学习、反馈定制、用户驱动、基于概率模型和基于图像区域等几类。基于机器学习的相关反馈是研究热点,是为了解决用户在相关反馈过程中标注为“正样本”和“负样本”的数据数目,远远小于被检索图像数据而难以对被检索数据语义分布建模的局限性。相关反馈方法的使用,在一定程度提高了检索性能。但是基于内容的多媒体检索与语义检索相去甚远,仍然存在“语义鸿沟”。互联网上多媒体数据存在大量伴随文本以及用户标注信息,从中提取能反映多媒体数据语义的精确标注单词成为近年来研究热点。基本思路是从已标注训练数据集上学习得到所标注对象与文本数据的共生模型,进而计算语义关键字在未标注数据中出现的概率,先后出现了Co-occurrence、Translation和ALIP等方法。与语义标注中所处理对象是相对闭合集合不同,图像语义标注的研究重点转向了互联网大规模图像标注、标注不一致以及标注扩展等问题:研究认为互联网本身就是良好的图像标注训练集,可结合关键词检索和图像样例检索,对检索结果的伴随文本进行主题聚类,最终得到图像标注单词。另外,与对整幅图像进行文本标注不同,实现图像和视频中对象、人物和地名等实体信息标注也是极有意义的研究方向,如美国卡耐基梅隆大学的人脸标注“NameIt”研究[5]。应该承认,由于“一图2网络资源、用户和检索行为之间的关联示意图网页图像视频音频数据……网络资源关联查询点击浏览标注评价检索行为社会网络个性化……用户25第 7 卷 第 2 期 2011 年 2 月幅画胜过千言字”,实现多媒体数据所蕴含丰富语义的精确标注,仍然面临巨大挑战。传统的单一类型搜索引擎利用互联网文档所包含的文本信息和链接属性来检索相关网页,通过多媒体视听觉底层特征和样例,以及相关反馈技术实现基于内容的多媒体检索。这些方法忽略了媒体之间存在的关联特性,难以实现不同类型媒体数据的统一检索。为了满足人们对这些多媒体数据检索的需求,需要研究一种新的检索方法,使可以检索到相似主题、不同类型的多媒体对象。例如提交一幅小鸟的图像,除了可检索到各种相似的鸟类图像,还可以检索到鸟儿动听的叫声。这种新的检索方式能够处理和查询不同类型的多媒体数据,极大地扩展了人们获取多媒体信息的途径和范围。这类“跨媒体检索”手段需要达到如下要求[10]:首先,跨媒体检索要支持检索过程中在数据类型上的跨越。这里所谓异构多媒体数据,即指不同类型的多媒体数据,如图像与音频数据就互为异构多媒体数据。如给定一副图像、一则文本和一段音频数据,虽然它们对信息的表现形式各异,底层特征也不同。但是,异构多媒体数据却可以在语义层面统一起来:如老虎的图像、老虎习性的描述性文字和老虎吼叫的音频数据虽然表达形式各异,却在语义层面共同表达了老虎这一概念。传统的单一媒体相关技术忽略了异构多媒体数据在语义上的共性,因此不能有效处理异构多媒体数据共存的复杂多媒体数据,也无法有效跨越语义鸿沟。作为单一媒体技术在理论和功能上的延伸,跨媒体技术将异构多媒体数据统一理解分析;图像、文本、音频、视频等异构多媒体数据在语义层面的共性得以彰显利用,这不但更符合人类的思维方式,而且也便于对异构多媒体数据的统一管理,以方便用户对其使用与信息的传递。其次,跨媒体检索要支持同构多媒体数据在语义上的跨越。所谓同构多媒体数据,即指相同类型的多媒体数据,如两幅图像互为同构多媒体数据。由于不同概念之间有着复杂的关联,相应地,虽然同构多媒体数据表达方式一致,但是它们所蕴含的语义联系却错综复杂。如何挖掘同构多媒体数据之间的语义关联信息是跨媒体研究的又一重要内容。以不同的文本数据对象为例,它们虽然表达形式一致,但是所蕴含的语义关联却有可能是相反、相近、相同或者其它。跨媒体研究就是要根据同构多媒体数据在特征空间内错综复杂的分布找到它们之间的潜在的语义关联,从而完成语义的跨越。比如仅仅在文本的特征空间,“稻谷”和“午饭”这两个文本对象所描述的内容属于不同概念,而在语义层面,二者却有明显的关联。跨媒体研究则要根据全体文本对象在特征空间的分布,挖掘出同构多媒体数据之间这种固有的语义关联,从而方便对这些多媒体数据的检索和利用。最后,跨媒体检索也要支持异构多媒体数据在语义上的跨越。对异构多媒体数据在语义上的跨越,目的是找到异构多媒体数据之间错综复杂的语义关联,这是对前面所述两项研究的综合。比如老虎的叫声和灰狼的图像,它们既不是同一类多媒体数据(二者类型分别属于音频和图像),表达的语义也不相同(二者语义分别属于老虎和灰狼)。但是考虑到老虎和灰狼同属食肉动物,这两个多媒体数据之间又有一定的语义关联。这种异构多媒体数据的语义关联挖掘,传统的单媒体研究并没有涉及。因此这一研究内容是跨媒体研究对传统单一媒体研究的进一步延伸和拓展。从图像和音频等媒体数据中提取出来的视觉和听觉等特征量纲不同,存在异构性。要实现“跨媒体检索”,需要解决如何度量异构特征相似性问题。最近,一些研究通过典型相关性分析(CanonicalCorrelationAnalysis,CCA)挖掘异构数据在特征上潜在的统计关系,从而生成包含了不同类型数据的同构子空间实现异构数据相似性度量,并在特征降维后能最大程度地保持原始异构数据的相关性。由于典型相关性分析是建立在两个不同变量场所对应矩阵的基础上,因此,同样也适用于对图像与音频、音频与文本等跨媒体特征的相关性分析。26专题第 7 卷 第 2 期 2011 年 2 月从多媒体表达到跨媒体表达早期人工智能领域有一些研究者主张用统一的逻辑框架来表示各种事物。随着数据挖掘技术的进步,通过统计学习的方法获得多媒体数据表达的研究逐渐成为机器学习领域的一大热点。从多媒体数据中提取出文本和视觉、听觉等底层特征,拼合成特征向量后,需要解决如何学习得到特征向量相似度度量函数,使得其与数据在原始空间几何分布一致的问题。该方面较有代表性的工作可分为子空间学习和流形学习两类。也有一些观点认为,许多类型数据的分布并不是线性的,而是非线性的流形结构。基于这个理论,国内外研究者提出了多种流形学习的方法[6]。同时,多媒体数据中局部特征提取也成为众多学者关注热点问题。受自然语言理解中通过“词袋”(BagofWords)表示文档的启发,“视觉单词(visualwords)”以及“视觉文法(VisualGrammar)”被提出来表达图像和视频数据。该方法一般对图像和视频等提取SFIT(Scale-invariantfeaturetransform)局部特征,将其量化或聚类后的结果作为视觉单词,以反映离散数据点之间存在的关联。随着计算机视觉领域中图像分割技术取得的较大进展,对图像中的对象进行识别,构建视觉单词和视觉文法,实现图像解译也成为一类主流研究,出现了能较好实现对象、场景和图像之间复杂关系建模的随机文法以及强于数据推理的条件随机场方法。由于从图像、视频、网页和动画等多媒体数据中提取的特征相当多,传统采用向量模型来表达多媒体数据除了会因高维向量而造成“维度灾难”问题外[3],同时在降维过程中,由于特征向量过高的维度及训练样本的数据不足,将不同属性特征进行拼合会引起“过压缩(Over-compression)”问题,以致丢失大量信息。另外,不同类型特征通过简单向量拼接也在一定程度上减弱或忽略了视频中这些多种属性特征之间关联性。为了反映跨媒体数据中存在的交叉关联等复杂关系,矩阵、张量和图等形式下数据结构被使用[8],由于其能描述复杂对象各组成部分之间的拓扑结构,并能阐明关于表示的假设,使得计算效率被有效提高而成为研究热点,如何实现矩阵、张量和图等复杂结构处理是实现跨媒体理解要解决的关键问题。近年来,从统计信号处理中发展出的压缩感知(CompressiveSensing,CS)受到越来越多的关注。CS理论突破了传统的香农-奈奎斯特采样定理,提出利用随机测量矩阵将一个可压缩的或稀疏高维信号投影到低维空间上,并证明了这样的随机投影包含了重建信号的足够信息,即利用信号稀疏性先验条件,通过一定线性或非线性解码模型以很高概率重建原始信号。压缩感知也可称为稀疏表示(Sp
本文标题:跨媒体分析与检索---首页-中国计算机学会信息网
链接地址:https://www.777doc.com/doc-2248976 .html