您好,欢迎访问三七文档
当前位置:首页 > 商业/管理/HR > 销售管理 > 视觉注意机制理论分析
第2章视觉注意机制理论分析2.1引言随着信息技术的快速发展,数字图像、视频成为信息的重要载体。如何高效地处理和分析图像数据,理解图像内容已经成为当前的研究热点。众所周知,人类可以从复杂的场景中快速地找到我们感兴趣的区域,容易地完成对场景的理解。这是因为人类视觉系统(HumanVisualSystem/HVS)的信息选择策略,利用视觉注意机制引导人眼在海量数据中注视到显著的区域,并分配资源对重要区域优先进行处理[10]。多数情况下,当我们的眼睛接收到来自外界的大量的视觉信息,大脑并不能对所有的视觉信息进行同时,而是删除大部分无用信息,筛选出少许感兴趣的重要信息,优先对这些视觉信息进行处理。计算机作为目前处理信息最快的工具之一,在计算机图像处理中引入视觉注意机制,不仅可以提高数据筛选能力和计算机的运算速度,还在物体识别、目标跟踪、图像分析与理解等领域具有重要的应用价值,这就为汽车车牌的快速处理提供了一个很好的解决方法。但是目前的计算机视觉与人类的视觉在能力上存在着巨大的差异。视觉注意机制是涉及生物视觉处理等学科交叉领域,生物视觉与计算机视觉进行的学科交流为理论创新带来了新的思路:一个可行的方法是从研究人类的视觉系统(大脑)如何感知和识别外界视觉刺激出发,模拟人的视觉注意机制,建立一种有效的视觉注意计算模型,使计算机拥有人类所具备的观察和理解世界的能力,并将其应用于静态场景、动态场景的感兴趣区域检测及场景分类中。2.2人类视觉感知系统关于人类的视觉感知系统,尤其是人类自身的视觉神经系统,心理学等相关领域专家已经进行了长期的探索和研究。通过深入研究探索,人们发现人类视觉神经系统中的视觉感官信息在人脑中是按照某一固定路径来进行传递的,其输入的是视觉刺激,输出的是视觉感知,主要是由视觉感官、视觉通路、视感觉中枢组织和视知觉中枢组织组成的,其分别负责视觉信息的生成、传送和分析。其中视觉信息分析过程可分为视感觉分析和视知觉分析,如图2.1所示。图2.1人类视觉感知系统信息感知流程2.2.1视觉系统生理结构人类视觉系统的感觉器宫是眼睛,一般人眼睛直径大约24毫米,近似球形,由眼球壁和眼球两部分组成。角膜和巩膜位于眼球壁的外层,其中角膜具有屈光作用,能够将光线折射到眼睛内,巩膜保护眼球。眼球壁的中间层由控制瞳孔大小的虹膜和吸收外来散光的脉络膜组成,内层有视网膜由视锥细胞和视杆细胞组成,有感光作用。视觉信息的传递过程如下:视觉刺激从光感受细胞出发,作用在视网膜引起视感觉,再经由视神经、视束以及皮层下中枢,最终到达视皮层,引起视知觉[11]。所谓的视感觉,指光的明暗,视知觉指颜色、形状等特性。眼睛的角膜是透明的、高度弯曲的折射窗口,光线通过它进入人眼内,随后有部分被带色的不透明的虹膜表面所阻挡。瞳孔随光照强度而改变,光线暗时扩张,在正常的光照条件下它处于收缩状态,以限制眼内因球面像差引起的图像模图2.2人眼结构示意图糊。一只人眼视网膜中不均匀分布了大约有上亿个视杆细胞及500万个圆锥细胞。视网膜中心区域是黄斑,圆锥细胞密集程度密度特别高。视网膜上还有一个盲点,神经中枢细胞轴突从视网膜盲点中离开,组成视神经[12]。视网膜具有感光层、双极细胞层和节细胞层的三层生理结构,感光层中的感光细胞将视觉信号(光信号)转变为电信号,接着双极细胞分析处理这些转换的电信号,并进行分类成形状、深浅和色彩等信号。接着节细胞把传入视网膜分类过后不同的信号传输到大脑形成图像。除了上述细胞外,视网膜还有其它细胞:水平细胞和无长突细胞。人眼是包含有限球壁、眼内容物和神经系统等,是一个前后直径大约24毫米,垂直直径大约23毫米的近似球状体。眼睛的主要感光系统是眼球壁内层的视网膜,它由视锥细胞和视杆细胞组成的,视锥细胞主要用于分辨颜色。我们会有对外界事物的色觉,其原因在于视网膜上有三种视锥细胞分别感受了蓝色、红色和绿色。另外,视杆细胞也是主要用于感受运动物体和弱光[13]。晶状体富有弹性,中央厚边缘薄,像一块双面凸起的球镜,它的作用是聚焦光线和调节屈光,并且玻璃体充满晶状体和视网膜之间,占据眼内腔的4/5,内含99%的水分,是眼球壁的主要支撑物[14]。2.2.2视觉感知系统加工特点人类视觉感知系统在视觉信息处理过程中,并不是原封不动的传送,而是结合输入信息进行相应的处理,再输出给其他神经元。人眼的视觉系统只能选择少数显著性信息进行处理,摒弃大部分无用信息。在视网膜上,每个神经元有不同形式的感受野,并呈现同心圆拮抗的形式[11]。这种形式根据刺激对细胞的影响分为“on中心-off环绕”和“off中心-on环绕”两种类型。“on中心-off环绕”类型,当光照充满中央区域时,激活反应最强;当光照充满了周边的区域时,则产生最大的抑制作用。“off中心-on环绕”由中央抑制区和周边兴奋区组成,与“on中心一off环绕”相反。大脑皮层上的感受野分简单细胞的感受野和复杂细胞的感受野。其中简单细胞的感受野也分为兴奋区与抑制区,对刺激的方向和位置有很强的敏感性;复杂细胞的感受野对刺激敏感性取决于刺激的形式,和刺激的位置无关。一般来说,不同的视觉信息要经过腹侧通路和背侧通路的加工处理操作。腹侧通路由V1,V2,V3,V4和颞下回组成,主要对刺激信息负责接收。视觉意识的产生须要腹侧一背侧这二条通路的共同参与。这两条通路之间相辅相成、互相依赖与作用:人眼调整视觉注意焦点可以通过目标识别来完成,而视觉焦点可以有效地对目标识别进行指导,两者相辅相成帮助人类理解场景中的事物[15]。作为一种生理机制,视觉注意与个人主观因素有关,也与眼球感知到的物象、环境条件和心理感受等外部刺激有关,视觉注意流程如图2-3所示。在视觉处理中,视皮层中腹侧通路和背侧通路对视觉刺激信号的输入和视觉信息的进一步的处理起着重要作用。腹侧通路中接收的信息由初级视皮层V1区经过V2区和V3区从腹侧延伸到V4和IT区直至颞叶,腹侧通路输入的信息来源主要是来源于视网膜的P型神经节细胞,该通路主要负责的是物体的识别功能,这也是另外叫“what通路”的缘由[15]。背侧通路则由初级视皮层V2和V3区从背侧延伸向MT和MST区一直到顶叶后部,它的信息输入源主要由视网膜的M型神经节细胞,也称为“Where”通路,主要负责空间位置的信息。根据神经生理学的相关研究结果,通过串行和并行的加工机制,可以将形状、颜色、深度和运动的相关视觉信息分离出来,并且在V2区以上层级的视皮层的分离趋向更为明显点[16]。为比较快速完成不同的视觉任务处理,视通路各个层次上存在着基本互相独立的并行通道。在人类视觉处理机制中,视网膜读入的信息是存在着反馈的双向传输,大脑中更高层区域都有许多反馈通路到达初级视皮层V1区和V2区,这些不同的反馈通路在一定程度与人类的意识行为有关联。2.3视觉注意机制模型视觉注意实质上是一种生物机制,这种机制能够从外界复杂的环境中选出重图2.3人类神经视觉注意识别框图要的和所需要关注的信息,逐步排除相对不重要的信息,通过这种方式能够将十分复杂的外界视觉场景进行简化和分解,进而在接下来对重要的信息进行进一步处理。这种机制的优势在于它能够使得我们在十分复杂的外界视觉场景环境中,可以十分迅速的注意所需要关注的重要的信息和物体。在图像理解和分析中,人类视觉系统的视觉注意使得人们可以在复杂的场景中选择少数的感兴趣区域作为注意焦点(FocusOfAttention,FOA),并对其进行优先处理,从而极大地提高视觉系统处理的效率。在日常生活中,我们会常常的感受到视觉注意机制的存在。比如说一幅图像,我们会轻易的发现,墙壁上的小坑和黑点,白色打印纸上的纸张缺陷,蓝色车牌上的车牌号码等等。图2.4列举了几个关于视觉注意的示例图,当人们观察以下几张图片时,观察者会迅速将自己的注意力集中在左边图中的空心圆、中间图中的实心圆以及右边图中间部分的斜线,这种人眼的选择过程就是视觉注意,而被选中的对象或者区域就被称为注意焦点【17】。关于视觉注意机制,研究者们最初从生物神经科学、心理科学等方面进行了大量的探索。心理学家将视觉注意划分为两种:一种是以自底向上(数据驱动)的方式驱使的,另一种是以自顶向下(任务驱动)的信息来控制的。自底向上的视觉注意机制是基于刺激的、与任务无关的,比如在绿油油的草地上有一只白色的羊,大部人会第一时间注意到与周围环境不一样的羊。自顶向下的视觉注意机制是基于任务的,受意识支配。比如在机场接人时,我们会立刻看到我们要接的人,而对其他的人则视而不见。2.3.1数据驱动的视觉注意机制模型数据驱动的视觉注意机制的初级计算模型的研究从80年代后就开始成为很热的研究点,Koach等人在1985年提出了这种计算模型的理论框架[18],其中的神经网络理论的焦点抑制机制为众多模型所参考和借鉴。Milaness等学者也提出了特征显著图的理念并利用中央—周边差分算法进行特征的提取[19],数据驱动的注意模型原理是从输入图像提取多方面的特征,如图片颜色、图像朝向、光照图2.4视觉注意机制示例图亮度等,并形成各个特征维上的显著图,再对所得显著图进行分析和融合得到兴趣图。兴趣图中一般可能含有多个待注意的候选目标,通过竞争机制选出唯一的注意目标,并随后在注意焦点之间进行转移。数据驱动的视觉注意机制模型,观察者从场景中的信息开始,外部场景信息源对人的眼睛对进行刺激,人眼对不同的场景信息进行重新组合加工进行信息并行处理。这种因此注意模型没有先验信息的指导,也没有特定的任务,操作比较简单,处理速度比较快。数据驱动注意模型也称为自底向上视觉注意模型,对该模型的研究主要是基于Koch和Itti等人提出的特征整合的理论,它具有两大特点[20][21]:1)数据驱动:数据驱动注意模型的注意机制与高层知识的观察无关,与底层数据驱动有关,不需要运用人的意识来控制其处理过程。对输入的图像首先提取一些低级的诸如颜色、亮度、方向等视觉特征,并分别对每一类的特征构造生成相关的显著图。再采用特征融合的方式把不同的显著图进行特征图合并,在这幅整合的显著图中出现的目标就是引起人类注意的目标[22]。图2.5数据驱动注意模型的原理流程图2)自主加工:数据驱动的视觉注意模型是一种自动加工过程,不需要先验信息和预期期望,未加入主观意识,对视觉信息的处理速度相对较快,以空间并行方式在多个通道中同时处理视觉信息。数据驱动注意机制模型通过图像采样、特征提取、注意焦点搜索与描述三个模块的协同操作从输入图像中找到注意目标,形成了可操作性较强且计算速度较快的数据驱动的注意焦点检测方法。通常我们是将图片信息的亮度、颜色和朝向等不同的特征进行简单的叠加,但是这种简单的叠加方式比较粗糙,和生物视觉处理机制不大相同;而且,为寻找那些仅在整幅图像中占据很小一块面积的期望目标而进行的匹配操作仍然需要进行全局处理,匹配过程比较复杂度,容易造成减少计算浪费。由于生物视觉系统中各种特征之间的关系更为复杂,目前基于注意机制的感知模型还没有较好的适应算法,特别是对注意机制的任务驱动的研究也不多,导致这种注意机制在目标检测和复杂场景下的跟踪等运用中受到限制。2.3.2任务驱动的视觉注意机制模型任务驱动的视觉注意模型是根据来自具体任务的先验信息,预先建立视觉期望,将期望目标从图像中分离出来,完成图像或是视频场景的感兴趣区域选取,进而对该区域进行后续的处理。通常情况,优先级较高的场景区域一般包含期望目标值内,这也符合人类视觉注意规律,自顶向下注意模型通常受人的主观意识、主观选择等因素影响,也是目标驱动的主动意识下的主动选择[23]。这种模型主要在物体特征、场景先验信息和任务需求这三个方面来实现不同目标的注意[24]。物体特征是指在注意机制模型中不加入颜色、亮度和方向等初级特征,而是加入所要识别的物体中有别于其它场景的特征,例如在一个复杂街道场景中寻找汽车,众所周知汽车有四个轮子,因此在模型中加入轮子的特征后,就可以使模型在搜图2.6数据驱动的视觉注意流程索汽车时提高效率,较快速的排除其它干扰项。任务驱动视觉注意机制的场景先验信息是通过统计学得到或是
本文标题:视觉注意机制理论分析
链接地址:https://www.777doc.com/doc-2039547 .html