您好,欢迎访问三七文档
一种实时连续手势识别系统摘要:本文讨论了一种使用数据手套并具有大量词汇的实时连续手势识别手语解释器。本文首先解决了手势输入流终点检测,它是最关键的问题,之后对手势中的4项参数进行了统计分析,它们分别是:姿势,位置,方向和动作。我们设计了一个具有250个台湾手势语的原型系统。此系统对51个基本姿势,6个方向,8个原始动作应用隐式马尔可夫模型。在签名依赖方式下,该系统能够实时连续地识别基于这些词汇的手语句,平均识别率为80.4%。1.引言当禁止语音通话时,当书写、打字无法进行但视觉正常时,手势语将成为最常使用的沟通工具。更重要的是,对于听觉受损者,手势语是最自然并具有表现力的沟通方式。手势语动作像其他口语语言一样,具有连续性和交换性,手势语识别者必须有能力连续实时的分辨出手语词汇。本文作者力图构建一个针对台湾手势语的连续实时识别系统。下文首先给出贯穿本文的两个基本定义。手势通常被认为是手和身体的移动,这种移动能将信息从一方传递到另一方。因为我们的兴趣在于手势,所以本文中“姿势”一词常用来指代手势。姿势:姿势是某一时刻观察到的手的特定的弯曲。手势:手势是某小一时段内运动连接的姿势序列。通常一个手势包括一个或多个姿势构成的时间上的序列。本文中为了方便描述,使用“手势”,“词语”和“词汇”等词同等地表示手语中的语义。同样,本文中使用语句表示手势序列。2.前期工作Fels手套谈话[3]关注手势—语言接口。此外,Beale和Edward姿态识别器[1]使用多层感知器模型来将传感得到的数据分类到美国手势语中的五种姿态。为帮助残疾人,Newby致力于基于统计相似性[5]的方法识别美国手语字母表中的字母和数字。Watson[1]提出过一种使用样条逼近的简化方法。手势通过手和手腕运动的关键点序列(局部的极小值和极大值)来表征[6][7]。这种方法在手势匹配上具有较大的时间和控件灵活性,因此减少了对计算的要求。Starner和Pentland的美国手语系统[8][9][10]能够识别具有40个词汇的美国手语短句,每个词汇都附属于语言的一部分,这大大地降低了计算复杂性。通过将特征向量传入隐式马尔可夫模型(HMM)可以识别手势词汇。该系统将一个计算机语言学概念有机的融合到了手势识别当中。另外,Nam系统[11]试图识别手部运动模式。有人曾提出一种基于隐式马尔可夫模型的方法用于识别手部运动的时空模态,该方法成功地识别了10种运动原语。Liang和Ouhyoung提出了一种使用隐式马尔可夫模型的手语识别系统[12],并将计算机语言学中的统计方法融入其中。该系统试图通过识别构建的手势和上下文信息来识别出手语中大量的词汇。本文所讨论的系统是上述系统的扩展。除了使用姿态模型外,我们还将用位置、方向、运动模型来提高系统的性能。3.台湾手势语一个台湾手语词汇可以认为是包含了一个或多个姿势的手势,它具有独立完整的语义。与Stokoe分析美国手语[13]相类似,4个基本参数是姿势,位置,方向和运动。台湾手语中有51个基本姿势(见附图A.1)。大部分手势只包含一个姿势,比如:我,你,谁等等。当然也有包含多个姿势的手势,比如:原来,爸爸,妈妈,谢谢,再见等。台湾手语中有22个典型的位置(见附图A.2)。比如,词汇“我”的动作是做序号1的姿势(食指)朝向序号7的位置(鼻子),而“眼睛”是同样的动作只是朝向序号6的位置(眼睛)。在手语中不同方向的动作经常意味着不同的客体。比如,词汇“你们两个”和“我们两个”只是相差在手掌的方向上。台湾手语中经常使用食指的六种不同的方向:上、下、左、右,前和后。手势运动轨迹也在分类中起到了重要的作用。比如,词汇“一千”和“一万”的各个参数只在运动轨迹上有所不同。在台湾手语课本的前三课中分类了8种动作(见附图A.3)。注意到要将上述4个参数融合到识别过程中,则首先需要解决终点问题。4.终点问题为了确定手势输入流中的终点,我们使用连续性检测进行分割。连续性检测是通过时变参数(TVP)检测完成的;当手部弯曲的时变参数值低于某一阈值时,则认为姿态的运动是近似静止的,我们使用相应的数据帧进行识别。当然,我们使用滤波器来处理带有抖动的传感数据。手势输入流可以认为是一种反复出现的模态,它由下列状态构成:过渡过程和保持姿势(图一)。在检测保持姿势的起点时,系统会提取特征,包括位置,方向,姿势等,同时开始跟踪运动轨迹。直到下一过渡过程出现前,被跟踪的运动轨迹都将得以分析。此时,所有的四个参数都可以用来进行更高层次的手势匹配,这将在第六部分中阐述。5.识别策略考虑如图2所示的结束帧e。在姿势识别层面,可以认为每一帧中都包含了一些待识别姿势,按照台湾手语词汇,这些帧组成了一些手势。之后,使用典型的动态规划来分析图2所示的3种情况。为解决该动态规划问题,我们首先定义Solution(e)表示结束帧e处的最好解。我们假定g1是图2(a)中的手势,g2是图2(b)中的手势,g3是图2(c)中的手势;gu是Solution(e-1)的最后手势,g12是Solution(e-2)的最后手势,g13是Solution(e-3)的最后手势。结束帧e处出现最优解的概率可通过下式计算P(Solution(e))=max(P(Solution(e-1))ag11g1P(g1),P(Solution(e-2))ag12g2P(g2),P(Solution(e-3))ag13g3P(g3)))(1)aij为手势i和手势j相邻的概率,称为语法模型。P(g1)为手势g1出现在特定手语系统中的概率,称为语言模型。6.系统概貌类似于姿势模型,另外的3个模型也通过连续性检测激励(通过监视TVP数值)。本系统架构如图4所示。姿势分析如图5所示,将在后文中阐述。在姿势分析之后,结果将被解析成一些候选姿势。手势结构包含一些可能的手势。手势层匹配通过相关姿势,位置,方向和运动的概率,以及在该语言中的对应概率进行手势评估。图3中,在手势层匹配和句子层匹配间的两个箭头表示动态规划中必要的前向和后向过程。我们通过以存储的语法解释相邻多个手势之间的关系。查阅已存储语法的概率是与手势层匹配的概率相结合的,句子层匹配将按照最高概率产生句子并根据语义输出。因此,对特定词汇的评价可以表达成上文所述概率的熵(熵的定义见参考文献[16])的加权和。E(v)=wpr*Epr(v)+wps*Eps(v)+wo*Eo(v)+wm*Em(v)+wu*Eu(v)+wb*Eb(v0,v)(2)Wpr表示姿势的权重,Epr(v)表示词汇V的姿势概率的熵,相似的,wpr,wo,wm,wu,和wb分别表示位置,方向,运动,单语法和双语法的权重。v0是v之前的词汇。6.1.特征提取我们将下述手势特征提取,分别作为姿势,方向,和运动输入隐式马尔可夫模型。●通过数据手套获得手部十指关节弯曲数据用作姿势识别。●通过Polhemus3D跟踪器获得的手掌方位角、高度和滚动数据用于方向识别。●将运动轨迹规范化并分成10个相邻的向量。每对相邻向量的相对余弦值,轨迹中转折点的数目和运动路径起点和终点的相对方向将用来进行运动识别。7.结果该系统运行于奔腾个人计算机133PC。有250个词汇用来构建单词库,196个句子进行统计学习。下述4个模型均使用左右隐式马尔可夫模型,其输入特征向量列写于前面章节。姿势.一共收集有613个姿势样本,其中51个是训练阶段的基本姿势,另外收集的281个样本用来测试。识别成功率为95%,覆盖率(3个候选)为100%。位置.位置模型较难运行,然而,我们可以粗略的将位置分为两部分:即颚之上和颚之下。这将64对不可区分的手势减少到了3对。方向.在方向训练阶段,共在6个方向上收集了143个样本。在71个测试样本中,识别成功率为90.1%,覆盖率(3个候选)为100%。运动.一共收集了279条运动轨迹进行运动训练。40个测试运动被分类到了8种运动中的一种(见附图A.3.)。识别成功率为87.5%,覆盖率为100%。孤立手势.测试分为3部分:在第一课中包括71个词汇,第一课到第二课包括155个词汇,第一课到第三课包括250个词汇。句子.句子识别率的评价包括两部分,短句(表2)和长句(表3)。对第一课中96个短句(平均每句2.41个词汇)进行内部测试,测试结果列于表2中第2列。另外,还对第二课中108个短句(平均每句2.83个词汇),第三课中99个短句(平均每句2.97个词汇)进行了内部测试。同样在这三课中(表3)也进行了长句内部测试。在第一课中测试了87个长句(平均每句5.24个词汇),在第二课中测试了120个长句(平均每句4.98个词汇),在第三课中测试了138个长句(平均每句4.02个词汇)。结果总结.表4中给出了上文提到的台湾手语课本3课的平均测试结果。尽管在姿势,方向,运动模型上的覆盖率能达到100%,但孤立手势识别成功率仅为94.8%。这也许是因为缺乏另一只手的信息。这三课中将近有24%的词汇需要左手的辅助。在每一帧下保持有三个候选方案并通过手工调节方程(14)的权系数,短句(平均每句2.66个词汇)的识别率达到75.4%,长句(平均每句4.67个词汇)的识别率达到84.7%。该数据源自对303个短句和345个长句进行内部测试的结果。因此,如果考虑前三个选择,则加权识别率分别为80.4%和85.7%。8.未来工作如之前章节所述,手掌上仅一个3D跟踪器使得位置模型难以运行,因为手语者可能会在做手势时改变身体的姿态。无论是通过多个3D跟踪器还是摄像机,只有手语者的身体信息可以获得时,才能使位置模型得以实现。另外,台湾手语中的一些手势需要双手同时操作,而且大部分使用两种不同的基本姿势。这可以通过使用两个数据手套加以解决,然后应用该模型进行识别。致谢:本项目部分受国家科学委员会支持,NSC-830425E002140andNSC-830408E002006参考文献[1]R.Watson.ASurveyofGestureRecognitionTechniques.technicalreportTCD-CD-93-11,DepartmentofComputerScience,TrinityCollege,Dublin2,1993.[2]R-H.LiangandM.Ouhyoung.AReal-timeContinuousAlphabeticSignLanguagetoSpeechConversionVRSystem.ComputerGraphicsForum,pp.C67-C77,Vol.14,No.3,UK,Aug1995.(alsoinEUROGRAPHICS’95,Holland).~f1506028.[3]S.S.FelsandG.E.Hinton.BuildingAdaptiveInterfaceswithNeuralNetworks:TheGlove-talkPilotStudy.pp.683-688,Human-ComputerInteraction-INTERACT'90,IFIP,ElsevierSciencePublishersB.V.(North-Holland),1990.[4]K.VäänänenandK.Böhm.GestureDrivenInteractionasaHumanFactorinVirtualEnvironments-AnApproachwithNeuralNetworks.pp.93-106,VirtualRealitySystem,AcademicPress,1993.[5]G.B.Newby.GestureRecognitionBaseduponStatisticalSimilarity.pp.236-243,Presence,Vol.3,No.3,MITPress,1994.[6]R.WatsonandP.O’Neill.AFlexibleGestureInterface.Proc.ofGraphicsInterface‘
本文标题:手势识别论文
链接地址:https://www.777doc.com/doc-5920056 .html