您好,欢迎访问三七文档
东北师范大学研究生文献阅读报告报告题目视觉注意力的建模方法研究及应用课程名称模式分析与机器智能姓名齐艳晓学号10200200922207专业计算机软件与理论年级2009级院、所计算机科学与信息技术年月日2010年6月21日研究生文献阅读报告评价标准指标评价内容评价等级(分值)得分ABCD文献是否是本专业的重要文献;阅读量是否丰富。20-1615-1110-65-0论证思路是否清晰;逻辑是否严密;结构是否严谨;论证是否充分。20-1615-1110-65-0观点是否正确理解文献;是否有自己的观点。20-1615-1110-65-0规范文字表达是否准确、流畅;体例是否规范;是否符合学术道德规范。20-1615-1110-65-0能力是否体现了文献搜集与整理能力;是否体现了文献综述与分析能力。20-1615-1110-65-0评阅教师签名:年月日总分:东北师范大学研究生院制一引言日常工作和生活中,我们都认识到“注意(Attention)”的极端重要性。老师上课要求学生注意听讲;在视觉心理物实验中,也总是要求测试者集中注意。如果我们眼睛看到的、耳朵听到的和心里想到的完全一致,那么视听的效果就会非常好;否则即便听过,也可能“视而不见”、“听而不闻”,效果截然不同。早在一百多年前,注意作为人类行为的中枢和心理活动的调节机制就己经受到人们的重视。当前,随着信息技术的发展,图像数据的规模变得越来越大,面对如此庞大的图像数据,如何能够快速而准确地完成各种图像分析任务己经成为人们研究的热点。传统的图像分析方法将图像中所有区域都被赋予相同的处理优先等级,然而很多图像分析任务(诸如目标识别、图像检索、场景分析等)所关心的内容通常仅占图像中很小的一部分,因此,这种全面加工不但增加了分析过程的复杂性,而且带来了许多不必要的计算浪费。近年来,许多研究学者发现人类视觉系统(HumanVisualSystem,HVS)在面对一个复杂场景时,人类的注意力会迅速集中在少数几个显著的视觉对象上,并对这些对象进行优先处理,该过程则被称为视觉注意(VisualAttention)(Jamesetal.1890),显著的视觉对象被称为注意焦点(FocusOfAttention,FOA)。显然,将这种机制引入到图像分析领域是非常必要且有意义的,它可以提供观察者可能感兴趣的对象区域信息,帮助制定合理的计算资源分配方案,从而可以大幅地提升己有图像处理系统的运行效率。将传统的图像处理过程和人类的视觉注意相结合,提取和图像分析任务有关的内容并优先处理,形成一套合理的资源分配方案来引导图像处理,使计算机具有类似人类选择性和主动性的信息处理能力,是本领域的主要研究目的。另外,视觉注意力的可计算模型也成为近来年很多专家学者关注的热点,并且在图像分析、图像检索、目标跟踪、机器人跟踪、视频压缩等领域得到广泛地应用。但将视觉注意力与数字水印技术相结合的研究相对来说还是一个新的应用领域,而且随着信息技术的发展,信息隐藏的安全性越来越受到各媒体的重视。由于图像或视频的最终接收端及质量评估者都是人,所以结合人类视觉特性的数字水印技术,是有意义的,也是必要的。二主题部分2.1视觉注意机制的应用将视觉注意机制引入图像分析,赋予现有分析过程一定的选择能力,将资源优先分配给那些感兴趣的区域,这使它对于解决数据筛选的问题、降低计算量并提高计算机对信息处理的效率都具有极为重要的研究意义和应用价值。其中表现较为突出的几个应用领域如下:(1)图像压缩与编码它是当前最为活跃的视觉注意建模应用研究方向。其基本思想是在图像压缩时对显著对象区域进行无损或近无损压缩,而对其他区域进行有损压缩,从而既能够保持较好的图像质量,又可以获得较高的压缩比。该技术己经被JPEG2000标准所采用(Christopoulosetal.2000;Liuetal.2003;Wangetal.2002)。(2)图像检索利用显著对象的视觉属性和空间分布描述图像内容,通过显著对象之间的相似性,度量图像之间的相似性,从而克服与图像内容不相关的区域(如:背景区)对检索过程产生的影响(Dimai1999;Stejicetal.2003;Vuetal.2003;Tianetal.2010)。(3)场景渲染在渲染过程中赋予显著对象区域与其他区域不同的渲染终止条件,从而在保证渲染结果能够被用户接受的情况下,最大限度地降低渲染的计算复杂性(Yeeetal.2001;Horvitzetal.1997;Myskowskietal.1999)。(4)场景分析针对大量的图像数据,通过对快速筛选出来的显著对象依次分析,进而获得对于整个图像场景内容的初步理解,对后续的图像分析任务提供决策层支持,避免无意义的图像计算任务(Ittietal.1998)。(5)目标检测利用自底向上视觉显著度模型自身的特点,和它对于对比度、亮度、和噪声等影响的鲁棒性解决某些目标检测中传统分割方法较难将目标与背景很好地分离的问题(Kadiretal.2001;WaiandTsotsos1994;Ittietal.2001;Tianetal.2008)。(6)监视系统在动态变化场景的时序图像中,对某个固定区域进行监视,例如交通路口的车辆监视,利用车辆位置的变化构建运动刺激特征,从而有助于对运动目标的跟踪和非运动显著目标的监视(Tianetal.2007)。(7)目标识别它的基本思想是依次识别显著对象中一组显著性逐渐下降的区域,并据此不断调整对整个目标的判断,从而避免了由目标中的非感兴趣区域信息引起识别效率下降的问题。例如,人脸识别、手写数字识别等(Salahetal.2002;Dickinsonetal.1997;Soyeretal.2003)。(8)主动视觉通过模拟视觉注意的显著对象检测,使计算机具有类似于人类的视觉功能,能够对某些特定对象进行后续的识别与判断,这是机器人等应用领域中极为关心的问题(Breazealetal.2000;Indiverietal.2001;Backeretal.2001)。2.2可计算的注意力选择模型—NVT在特征综合理论和认七lfe,sGuldedSearch模型在基础之上,计算机科学领域的研究人员提出了许多可计算的注意力选择模型,其中最有名的要数Itti等人提出的NVT模型。Itti、Koch在1998年提出基于显著性特征的注意力选择模型[7],并在2001年度Nature上对该模型理论作了进一步的完善[25]。这个注意力选择模型是基于这样的假设:原始图像输入到模型后,通过多个通道的处理,考虑不同的尺度的分析和滤波的计算后获得一个两维的显著特征映射图,这个映射图中幅度最强的区域部分,就为注意力选择的焦点,其次强的区域为第二选择,以此类推得到数个显著特征区域,它可以为注意力的分配提供很好的策略。它的基本模型如图2一3所示:输入的静态图像先通过一个线性滤波器滤去图像中的噪声,然后并行的分为三个通道获取图像的颜色、亮度、和方向的信息,然后并行地送到方向可控的金字塔状的高斯低通滤波器哈中(OvercomPletesteerablepyr田旧ids)[24],对输入图像进行逐层低通滤波处理和降采样,(具体见后面的介绍),产生一系列不同尺度的红、蓝、绿、黄四种颜色,亮度,以及四个方向(0度,45度,90度,135度)所对应的两维特征图(9个尺度),呈金字塔状输出。然后分别对各个特征通道所对应的不同尺度特征图之间的“中心点一环绕区域”差异性的进行计算(eenter-s~unddi月七renees)和归一化,颜色通道获得红绿特征、蓝黄特征各6幅特征映射图(共12幅),亮度通道6幅特征映射图,方向信息四个方向各6幅映射图(共24幅),然后通过个尺度特征图的合并以及归一化,获得颜色、亮度和方向三个输入通道各自对应的综合特征图。三总结与展望注意力选择是人的视觉感知的一个重要特性,对于注意力选择的研究与建模可以解决传统机器视觉算法无能为力的一般物体的检测和识别。本文就注意力选择的自上而下和自下而上分别做了细致的研究工作,总结如下:1.在自上而下的方面,提出了一种带有学习和视觉记忆的注意力选择模型,该模型包含3个部分,分别为感知映射,认知映射以及运动映射。在认知映射中,我们提出了基于视觉记忆的自监督竞争神经网络和眼球运动估计机制,并且利用增量多层回归树来模拟视觉记忆。我们的模型被应用于目标跟踪以及机器人自主导航,取得了良好的效果。之后,我们发现以往的视觉记忆模型比如HD侧IHDR没有遗忘函数,这样的记忆模型在处理连续不断的图像样本时,会出现检索速度越来越慢以及记忆溢出的情况。于是我们提出了一种新的带有遗忘函数的视觉记忆模型:遗忘增量多层分类回归树。该模型可以同时模拟人脑的长期记忆和短期记忆。实验表明,相比不带遗忘的记忆模型,我们的记忆模型具有稳定的规模,较快的搜索速度和较高的准确率。该记忆模型应用在我们提出的注意力选择模型上,实现了有监督的视频编码。2.在自下而上方面,提出了一种基于四元数傅立叶变换的时空显著性检测模型。首先提出了一幅图像的四元数表示,并利用其傅立叶相位谱来获得时空显著图。实验表明该方法不但在检测一般物体上效果好,而且速度很快,能够实时运算。之后,我们仔细分析了我们提出的显著性模型在多分辨率下表现,并在此基础之上,提出了层次选择模型来获取一幅图像的树状表示,利用这种表示,可以建立多辨率小波域注意力模型,这种模型可以提升图像及视频编码的效率,从而提高压缩率。关于未来工作,我觉得有几个方面的做进一步研究:1.如何从数学角度去证明傅立叶相位谱和显著图的关系。2.将我们提出了显著性检测方法与视觉记忆模型相结合,实现机器人的注意力选择系统。3.将多分辨率小波域注意力模型插入到像或视频压缩的编码器中,优化EZW、SPIHT和EBCOT的编码。四主要参考文献[1]lttiL,KochC,NieburE.1998.Amodelofsaliency-basedvisua1attentionforrapidsceneanalysis[J].IEEETrans.onPatternAnalysisandMachineIntelligence,20(11):1254-1259.[2]KochC.andUlmanS.1985.ShiftsinSelectioninVisualAttention:TowardtheUnderlyingNeuralCircuitry[J].HumanNeurobiology,4(4):219-227.[3]IttiL,KochC.200l.Computationalmodelingofvisualattention[J].NatureReviewsNeuroscience,2(3):194-230.[4]IttiL,KochC.2001.Featurecombinationstrategiesforsaliency-basedvisualattentionssystems[J].JournalofElectronicImaging,10(l):161-169.[5]MaYF,ZhangHJ.2003.Contrast-basedimageattentionanalysisbyusingfuzzygrowing[C].ProceedingsoftheeleventhACMInternationalConferenceonMultimediaBerkeley:ACMPress,374-381.[6]HouXandZhangL.2007.SalieneyDetection:ASpectralResidualApproach[C].ProceedingsofIEEEConferenceonComputerVisionandPatternRecognition,Minnesota,USA,l-8.[7]HuMK.1962.Visualpatternrecognitionbymomentinvariants[J].IEEETrans.onInformationTheo
本文标题:文献阅读报告
链接地址:https://www.777doc.com/doc-4656435 .html