您好,欢迎访问三七文档
当前位置:首页 > 商业/管理/HR > 广告经营 > 基于内容的图像检索综述
--------------------------------------------------------------------------------------------------基于内容的图像检索综述1.前言伴随网络时代数字家庭概念的产生,20世纪90年代多媒体硬件和软件技术得到迅速发展,多媒体已广泛地应用于多个领域,如公共信息业、广告、教育、医学、商业及娱乐等。可获取的图像等多媒体数据急剧增长。如何组织、表达、存储、管理、查询和检索这些海量的数据,是对传统数据库技术的一个重大挑战[1]。由于图像具有形象、直观、内容丰富等特点,接近人们的认知方式,成为不可或缺的多媒体内容。如果没有对图像等多媒体数据有效存储、检索的方法,大量信息将淹没在数据的海洋之中,而无法被人们识别和利用。因此,如何将数字图像处理、模式识别技术、计算机视觉技术与传统数据库技术结合起来,建立高效的图像检索机制成为迫切需要解决的问题。2.图像检索概述图像检索的本质是对图像特征的提取与基于特征的匹配技术,图像的特征包括图像的文本特征、视觉特征,所谓图像的文本特征是指与图像相关的文本信息,比如图像的名称、对图像的注解文字等,而目前比较成熟应用于网络环境下的图像检索系统比如Google、百度等均属于这类。图像的视觉特征是指图像本身所拥有的视觉信息,又可以进一步分为通用的视觉特征和领域特征,如颜色、纹理、形状等属于图像通用特征,而光谱特征则属于地理科学中遥感影像独有的特征。从发展演变历程来看,根据图像检索系统所提取图像特征可分为两类,第一类即基于图像文本特征的检索,TBIR,第二类即基于图像视觉特征的内容检索,CBIR。传统的TBIR技术应用于早期的图像检索,其研究主要在数据库领域中进行,首先对图像用文本进行手工注解,然后用基于文本的数据库管理系统进行检索。这种方法实现容易被广泛应用,但是它依赖于人对图像的注解,当图像数量急剧增大时,人工注解的方法所需工作量太大,而且不同人对同一幅图像的理解角度也是不同的,注解的主观性导致检索的查全率偏低。90年代以来,基于内容的检索成为一个研究热点,它是直接根据图像内部的各种物理特--------------------------------------------------------------------------------------------------征,在数据库中检索具有相似特征的图像。基于内容图像检索与传统的基于文本检索方式相比,具有如下特点[2]:(1)突破了关键词检索基于文本特征的局限,直接从媒体内容中提取特征线索。(2)检索方式多种多样。基于内容的图像检索可以提供浏览方式、基于实例的检索方式以及基于草图的检索方式等等。(3)人机交互式检索。基于内容的图像检索系统通常采用参数调整方法、聚类分析方法、概率学习方法和神经网络方法等,通过人机交互的方式来捕捉和建立图像低层特征和高层语义之间的关联,即相关反馈技术。(4)相似性匹配检索:基于内容的检索是按照一定的匹配算法将输入图像的特征与特征库中的特征元数据进行相似性匹配,将满足一定相似性的一组初始结果按照相似度大小排列,提供给用户。尽管CBIR相对于TBIR有了很大进步,但是这种基于机器对图像各种特征的理解在某些场景中不能替代基于文本的描述,比如一幅图像下面可能蕴含着某种寓意或者一个事件,但是单纯从内容是无法获取这一切的,如果能将对图像的注解应用于基于内容的检索,无疑将极大的提高检索查准率。在Internet环境下,MPEG专家组制定了一个基于内容的多媒体描述方案,即MPEG-7[3]标准,对各种不同类型的多媒体信息内容的描述方式进行了标准化定义,从而实现CBIR与TBIR的互连。3.基于内容的图像检索图像的内容包括图像的视觉信息等物理特征,还包括视觉特征所带来的高层语义特征。物理特征属于低层视觉信息,主要包括颜色、纹理、形状;语义信息属于图像的高层视觉信息,主要包括对象、空间关系、场景、行为、情感等图像内容。基于内容的图像检索的目的一般可为三类:(1)准确查询,找出一致的复制件;(2)范围查询,找出与输入图像特征相差在一定范围内的图像;(3)K-最近邻查询,根据输入图像与待检测图像的相似度对检索结果进行排序[2]。3.1CBIR的应用对图像内容检索的研究起步于二十世纪80年代,到了网络技术逐渐普及的90年代才取得--------------------------------------------------------------------------------------------------较大的突破,多种成果开始转化为应用技术,而日益增长的应用需求反过来推动其研究向更高的层次发展。如下领域开始应用和驱动图像检索技术的发展。防止犯罪等司法部门应用人脸识别技术,根据专家对犯罪嫌疑人的头像特征的描绘图像,定位犯罪人的真实面目。军事领域可以用于武器的精确制导,通过实时获取的图像信息,对其进行解译,保证打击的准确性。版权保护领域针对商标与设计专利类的图像进行检索,防止专利纠纷的产生。建筑和工程设计通过对建筑及工程设计物体的图像检索,可以聚类相同风格特色的建筑及工程设计产品。广告业、艺术设计应用图像检索,可以找到需要的各种素材,进行艺术设计的再创造。医学领域对各种医学透视CT图像进行检索,可以快速定位类似病例,及时快速的帮助病人找到病因,会对临床、医学研究、远程医疗、异地会诊乃至医学教育等方面产生积极和深远的影响。古生物学、考古学通过对古生物化石图像的解释,确定古生物所属类型等信息,便于发现新的物种;应用于古文物的图像检索,通过对比,签定文物的真伪、所属历史时期等。地理信息系统和遥感对遥感图像的检索,主要是解译影像数据中的建筑、村庄、耕地等不同种类地物信息,制作实时、准确、逼真效果的专题图件,应用于地理信息系统中矢量处理模块。安全技术应用指纹、眼膜识别技术,对用户的指纹或者眼膜提取图像特征进行匹配,鉴定用户真实身份。--------------------------------------------------------------------------------------------------3.2CBIR的基本原理CBIR的基本原理形式化定义:任给定一个检索图像示例P,计算其特征向量F=(F1,F2,F3,…Fn),其中Fi为图像的第i种特征;根据F检索图像特征索引库,得到与F距离最小的特征向量F’,则F’所对应的图像P’即为与P最相似的检索结果[1]。CBIR系统典型的架构如下所示。系统主要包括用户界面、检索和存储系统三部分,其中图像特征索引技术和相似度匹配技术是系统的核心部分,直接影响着系统检索的查全率和查准率。其中检索和存储系统都要对原始图像进行特征向量计算,不同之处在于索引库的生成采用离线方式,而查询检索部分需要实时在线计算。匹配度的计算将决定检索结果的产生以及结果的排序,因此也具有十分重要的意义。除此之外,图像检索一般不是一蹴而就的过程,中间需要用户的干预和交互,应用反馈模型可以增强系统的理解能力,从而提高查准率。3.3图像内容的索引表示方法3.3.1低层图像特征1)颜色特征颜色是图像最显著的特征,具有稳定,旋转、平移、尺度变化无关性,而且颜色特征计算简单,表现出很强的鲁棒性,因此基于颜色的检索成为现有图像检索系统中应用最基本的方法。基于颜色特征的图像检索需要解决三个问题:颜色的表示、颜色特征的提取和基于颜特征向量计算相似度匹配数字图像对象特征索引库原始图像库检索结果--------------------------------------------------------------------------------------------------色的相似度量[2]。颜色的表示取决于色彩空间的选择,不同的场合采用的方式也是不同,在大多数彩色图形显示器使用红、绿、蓝三原色,但RGB色彩空间中不能与人的感知颜色相联系。在所有的色彩空间中,HSV模型(Hue,Saturation,Value)对应于画家配色模型,具有与人观察颜色方式相一致的特点,能较好反映人对色彩的感知和鉴别能力,其中H代表色度(0≤H≤360°),S代表饱和度(0≤S≤1),V代表亮度值(0≤V≤1)。对于不同格式的图像文件,需要将其转化到对应的颜色空间。RGB图像到HSV色彩空间的转化方程如下:在基于颜色特征的索引算法中通常用颜色统计直方图(Swain&Ballard,1991)[4]、累积直方图(Striker&Orengo,1995)[5]来表示图像的颜色特征。颜色直方图最大的缺点是应用颜色的全局的概率分布,完全丢失了图像颜色的空间信息,后来的相关研究提出了很多改进方法。如Pass等人提出了颜色聚合矢量CCV(colorcoherencevector)方法[6];Stricker和Orengo提出了累计颜色直方图方法,并且提出了颜色矩的方法[5]。上述方法都保留了颜色在图像中出现的概率信息,但也丢失了很多颜色的空间信息,因此不同的图像有可能具有相同颜色特征表示:许多人提出了局部颜色特征索引方法。Hsu等试图结合图像的颜色信息和图像颜色的部分空间信息对颜色的直方图进行检索[8]。Smith和Chang采用颜色的自动分割方法[9],形成一个二进制的颜色索引集。在图像匹配中,比较这些图像颜色集的距离和颜色区域的空间信息。人类肉眼一般对主色调比较敏感,因此有人提出了基于主色调的检索方法[10,11]。由于颜色在按色彩量化时会产生误差,从而使得原本非常相似的颜色被量化到了不同的范围之内,导致图像匹配时漏选。采用正态分布拟和法来获取指定颜色的扩展值,对主色调进行扩展,可弥补量化等引起的误差。颜色特征索引的相似度匹配算法根据其颜色索引内容和算法的不同而不同,主要包括直方图相交法、Manhattan距离、绝对距离(L1)、二次距离(L2)、欧几里德距离等[12]。--------------------------------------------------------------------------------------------------2)纹理特征纹理是指图像像素灰度集或颜色的某种规律性变化,可认为是灰度(颜色)在空间以一定的形式变化而产生的图案。一般纹理图像中灰度分布具有某种周期性,具有一定的统计特性,而且通常和图像频谱中的高频分量是密切联系的。图像的基本纹理特征主要有六方面:粗糙度(coarseness)、对比度(contrast)、方向度(directionality)、线像度(line-likeness)、规整度(regularity)和粗略度(rough-ness)[13],其中最重要的特征主要是纹理的粗糙度、对比度和方向度。目前纹理分析的方法基本可以分为统计法、结构法、模型法和空间/频率域联合分析法等四类[14],并将统计、分析的结果作为图像的索引。基于统计的方法是对图像中的颜色强度的空间分布信息进行统计,包括共生矩阵法(Haralick&Shanmugam,1973)、Laws纹理能量法等[15,16];基于结构的方法将重点放在分析纹理元之间的相互关系和排列规则上;基于模型的方法假设纹理按某种类型分布,如Markov随机场模型、分形模型等;基于空间/频率域联合分析法主要包括Gabor变换法和小波变换法等。在70年代,Haralick等人纯粹从数学上研究了图像纹理中灰度级的空间依赖关系,提出了纹理特征的共生矩阵表示法[17]。而Tamura等人则从视觉的心理学角度提出了纹理表示方法,表示的所有纹理性质都具有直观的视觉意义,很好地对应于人类视觉感知[13]。80年代,随机场模型开始用于纹理的分类和识别。F.S.Cohen等采用GaussianMarkov随机场模型(GMRF),对9种自然纹理的识别达到了99%至100%的正确率[18]。D.K.Panjwani和G-Healy进一步
本文标题:基于内容的图像检索综述
链接地址:https://www.777doc.com/doc-3727780 .html