您好,欢迎访问三七文档
当前位置:首页 > 商业/管理/HR > 信息化管理 > 计算机手势输入及其在人机交互技术中的应用
计算机手势输入及其在人机交互技术中的应用*方志刚摘要本文简介计算机手势识别技术的基本手段、方法和技术,讨论手势作为人机交互通道所具有的特点,并介绍作者在多通道用户界面的研究中实现的对手势的整合技术.关键词人机交互多通道用户界面多通道整合手势姿势分类号TP311COMPUTERGESTUREINPUTANDITSAPPLICATIONINHUMANCOMPUTERINTERACTIONFANGZhigang(StateKeyLaboratoryofCAD&CG,ZhejiangUniversityHangzhou310027)(DepartmentofElectronicEngineering,ZhejiangUniversityHangzhou310028)AbstractThispaperrewiewsthemeansandmethodsofcomputergesturerecognitiontechnology,discussesthefeaturesofgestureasamodalityinhumancomputerintegration,anddiscribesthetechnologyofmultimodalintegrationofgestureintomultimodaluserinterface.KeywordsHumancomputerinteractionMultimodaluserinterfaceMultimodalintegrationGesturePosture1引言当前在人机交互技术领域,多媒体技术的相对成熟极大地改善了计算机信息表现能力,同时也更显出交互输入手段的严重不足,呈现出人与计算机输入输出通信带宽的严重脱节〔11〕.多通道人机交互技术研究打破常规,突破传统交互设备(键盘和鼠标器)的限制,力图使人在人机交互过程中综合运用手势、语音、姿势甚至视线等多种通道,使用相应的交互设备全方位地与计算机进行通信,彻底解决计算机处理高维信息所要求的双向高通信带宽.近年来虚拟现实技术的迅猛发展,大大促进了人们在人脸识别、表情解释、口形(唇读)识别、头部方位检测、视线跟踪、三维定位、手势解释和人体姿势解释等方面研究工作的积极性和动力.不论在日常交际活动中,还是在人机交互活动中,手势都理应具有十分重要的作用.遗憾的是,传统用户界面只利用了手势中极少的信息.例如用户使用二维鼠标器时,计算机仅能获得二个维度的移动信息和少数手指的点击,除此之外,计算机不能识别任何别的动作,不但缺少按键的力度,甚至连第三维空间信息都不能提供,将人的手和眼局限在狭小的桌面上.从手势以及更多的输入通道获得用户更丰富的交互意图是当前人机交互技术发展的新动向、新课题.2手势的定义和分类人体语言包括对肢体的状态和动作的运用,其中我们有必要区分手势(gesture)和姿势(posture)的区别.手势当然只能由手产生,而姿势则既可由手产生,也可由整个身体产生.两者的区别似乎在于手势更为强调手的运动,而姿势则更为强调手或身体的形状和状态.不过,只有当我们说明问题需要时才作这种区分,在多数情况下我们笼统地定义为:手势是人的上肢(包括手臂、手和手指)的运动状态.表1手的运动分类(HandMotionTaxonomy)〔5〕HandPosition&OrientedFingerFlexAnglesdon'tcaremotionlessfingersmovingfingersdon'tcareXfingerposturee.g.fistfingergesturemotionlesshandhandpostureorientedposturee.g.thumbstdownorientedgesturee.g.bye-byevs.comeheremovinghandhandgesturemovingposturee.g.bangingfistorasalutemovinggestureeg.strongcomehere人们对手势做了不同的分类〔1〕:①交互性手势与操作性手势,前者手的运动表示特定的信息(如乐队指挥),靠视觉来感知;后者不表达任何信息(如弹琴).②自主性手势和非自主性手势,后者与语音配合用来加强或补充某些信息(如演讲者用手势描述动作、空间结构等信息).③离心手势和向心手势,前者直接针对说话人,有明确的交流意图,后者只是反应说话人的情绪和内心的愿望.另一种分类方法〔5〕是将手的运动分解为两个可测量分量:①手掌位置和方向;②手势弯曲度,并根据这两个分量的不同组合对手势做了表1所示的完备的分类.可见手势的各种组合相当复杂,因此,在实际的手势识别系统中通常需要对手势做适当的分割、假设和约束〔1〕.例如,可以给出如下的约束〔6〕.①如果整个手处于运动状态,那么手指的运动和状态就不重要;②如果手势主要由各手指之间的相对运动构成,那么手就应该处于静止状态.3计算机手势输入技术利用计算机识别和解释手势输入是将手势应用于人机交互的关键前提.目前人们采用了不同手段来识别手势〔2,3,4〕:①基于鼠标器和笔,缺点是只能识别手的整体运动而不能识别手指的动作;优点是仅利用软件算法来实现,从而适合于一般桌面系统.需要说明,仅当用鼠标光标或笔尖的运动或方向变化来传达信息时,才可将鼠标器或笔看作手势表达工具.这类技术可用于文字校对等应用.②基于数据手套(DataGlove),主要优点是可以测定手指的姿势和手势,但是相对而言较为昂贵,并且有时会给用户带来不便(如出汗).③基于计算机视觉〔1,9〕,即利用摄象机输入手势,其优点是不干扰用户,这是一种很有前途的技术,目前有许多研究者致力于此项工作.但在技术上存在很多困难,目前的计算机视觉技术还难以胜任手势识别和理解的任务.所采用的手势识别技术目前主要有〔2〕:①模板匹配技术,这是一种最简单的识别技术,它将传感器输入的原始数据与预先存储的模板进行匹配,通过测量两者之间的相似度来完成识别任务.②神经网络技术,这是一种较新的模式识别技术,具有自组织和自学习能力,具有分布性特点,能有效抗噪声和处理不完整的模式以及具有模式推广能力.③统计分析技术,通过统计样本特征向量来确定分类器的一种基于概率的分类方法.在模式识别中一般采用贝叶斯极大似然理论确定分类函数.该技术的缺点是要求人们从原始数据中提取特定的特征向量,而不能直接对原始数据进行识别.目前较为实用的手势识别是基于数据手套的,因为数据手套不仅可以输入包括三维空间运动在内的较为全面的手势信息,而且比基于计算机视觉的手势在技术上要容易得多.手势输入不能象鼠标器这样的精确指点设备精确控制到屏幕象素一级,而只能反映具有一定范围的所谓“兴趣区域(AreaofInterest-AOI)”,如图1(a),而且这个范围的界限是模糊的.另一方面“兴趣”所指具有一定的概率分布(比如为正态分布),如图1(b),反映了可能存在一个兴趣中心.图1手势输入的“兴趣”分布特点4手势输入在人机交互技术中的应用传统的用户界面已经走过了基于字符的以形式语言为主的命令行用户界面和基于二维图形的以直接操纵技术为主的图形用户界面(2DGUI),目前新的发展趋势是扩充三维图形,集多媒体和多通道交互为一体的综合技术,并将进一步引入语音交互、手势交互甚至视线交互等形式,利用和发挥人类日常交际技能,体现了人机交互由抽象向形象,由低维信息向高维信息发展的趋势.尽管人机交互从一开始就离不开手的参与,但正如前所述,只有利用手的运动轨迹的输入设备才称得上具有手势输入功能.Weimer分析了在人机交互中使用手的几种方式:〔3〕①直接操纵(DirectManipulation),2DGUI提供了较为完善的二维空间的直接操纵技术;虚拟现实技术也较好地发展了三维空间的直接操纵技术,如利用六自由度空间控制器实现的三维物体操纵.直接操纵技术利用的是所谓“操纵性手势”,即手势本身不传达语义信息.②语言性手势(手语),它利用的是所谓“交互性手势”,即计算机必须对手势做出语义解释,如利用指关节的模式匹配技术实现手势词汇识别.③补充性手势,它利用的是所谓“非自主性手势”,它介于直接操纵和语言性手势之间.对这种手势的解释更多地依赖于语音识别,换言之,它为语音提供补充信息.例如,Put-That-There〔8〕系统依靠“指点”手势来解释“PutThatThere”中“That”的确切所指(Referant).就语言和手势输入这两个典型通道比较而言,它们各有自身的优势和不足.语言对于表达抽象概念及离散属性(或命令)是具有绝对优势的,而且可以涉及视觉不及的对象,但表达空间或形状信息的能力却是较弱的.例如〔7〕,驾驶汽车时,我们不会习惯于发出“左转30°”的命令,然后再发出一个“观察车窗外景”的命令,而是自然而然地向左转动方向盘,至于车窗外景的反应是及时的,我们可以根据这个反馈调整角度.手势非常适合于指点、表达形状、几何变换和装配等任务.一般说来,将手势用于人机交互可能有以下的优点:①手势在不同文化习俗间是相似的,与语言无关;②手势填补了图形交互与自然语言交互之间的空白,起到中介作用,从而使两者相互结合;③用户能较快学会和掌握手势交互;④可同时用双手完成许多任务,可大大提高人机交互的效率,等等.应该指出,无论是自然语言、语音还是手势输入都存在固有的不精确性,难以达到100%的识别率,这一点恰与形式语言形成鲜明的对比.在精确性方面,手势输入也不能与传统的基于精确输入的鼠标器相提并论.但这种不精确输入手段带来的较低的认知负荷正是构成自然人机交互风格的本质〔10〕.因此,手势在人机交互中的应用的精髓不在于用来独立地用作空间指点,而是为语言通道提供空间的或其它的约束信息,以消除在单通道输入时存在的歧义.5多通道用户界面如前所述,真正意义上的手势是利用手的运动轨迹的信息,因而直接操纵界面对手势的使用方式不是真正的手势交互.而语言性手势需建立一整套手势词汇(手语),除了识别与理解困难而外,特别当词汇集较大时,作为一般计算机用户并不能以很低代价(不经严格训练)自然地与计算机交互,而只有在少数场合(如专业校对)和少数用户群(特殊领域的专业人员或聋哑人)才有实用价值.总之,更具有广泛意义的自然风格的人机交互对手势的利用应当是补充性手势,即手势和语言(或其它通道)相互配合,形成互补.我们先讨论语言性手势交互的应用.前面谈到过,除非对于经过训练的用户,一般用户较难掌握大量的手势词汇.例如手语词汇集虽不过3000个词,但普通用户只能使用其中少量手势.不过,对于特定应用领域或只需建立有限词汇用于完成特定任务的场合仍是实用的.如三维空间交互中基本交互任务包括浏览场景、选择目标和操纵目标(移动、旋转、缩放),可与不同的手势对应.考虑到手势输入信息不精确的特点,我们在将手势应用于多通道用户界面的研究中,倾向于将手势输入作为一个辅助通道加以利用,以便为其它通道(特别是语音通道)提供附加的互补的约束信息.为此,我们提出一种基于概率整合思想的多通道整合算法〔12〕,用来对包括语音输入、手势(包括操纵性手势)输入、视线输入等来自多个通道的串行或并行的输入信息进行整合,试图从多个精确的或不精确的输入流中“精确地”识别出用户的交互意图.为了使整合算法具有交互设备无关和通道无关特性,我们将各种具体交互设备抽象为几种类型的抽象交互设备,包括按键设备、字符串设备以及2D/3D空间定位设备.根据这种抽象,鼠标器、指点手势输入及视线输入等均被视为空间定位设备,键盘(用于输入字符串时)和语音输入被视为字符串设备,而键盘与语言性手势(基于数据手套的手势词汇)则可被视为按键设备.整合算法基于抽象交互设备意味着,用户是使用鼠标器直接指点目标还是用手势指点来选择目标是无关紧要的,“概率整合”融合了不同设备在精确性方面的差别.也就是说,当系统能够独立地根据一种设备输入(如鼠标器)唯一地确定用户的交互意图时,则认为信息已经足以确定交互意图;而当系统不能独立地根据一种设备获得确切的交互意图时,便继续检查并等待后继的更充足的输入
本文标题:计算机手势输入及其在人机交互技术中的应用
链接地址:https://www.777doc.com/doc-5806855 .html