您好,欢迎访问三七文档
当前位置:首页 > 行业资料 > 酒店餐饮 > 多模态表情识别(译文)
多模态的情感识别近年随着科技的发展,激发了人与计算机之间在以前意想不到的交互形式,除了键盘,鼠标,新的人机交互模式也已经产生了,例如声音,姿势,强力反馈等。尽管有了重大的发展,但是对于人类交互一个必须的因素仍然还是被遗忘的,这就是情感。情感在人与人进行交流和交互时扮演着重要的角色,允许人们依靠口头形式来表达自己。对人类感情能力的理解是值得计算机进行应用的。这章对人机交互的新的方法进行了探索,能够使计算机更好的理解用户的情感和来关注用户的表情。我们介绍了在这个领域的基本研究和最近对情感识别的新进展,包括从面部,声音和生理信号来进行研究,不同模式是相互独立的。我们然后对多模态的感情识别所面临的挑战进行了描述,当融合不同模态的信息时,我们主张用概率图模型来完成。我们也讨论了获得可靠的情感数据库的困难,获得情感识别的真相及如何使用未标识的样本。介绍或许现在电影未探索人类比BladeRunner(一部电影)强的意义是什么。TyrellCorporation的格言是“Morehumanthanhuman”,作为探索人类实验的基础,我们可以通过真正的人,创造的人,或Replicants来进行。Replicants是机器人,他们被构造的像人类,可以进行工作或进行战争。他们开始可以及时的获取情感(和人类十分相象)但是分辨起来十分困难。伴随着情感,他们开始感觉到压力,他们中的一些人变得十分危险,采取极端暴力的行为来获得自由。幸运的是,EldenTyrell博士,Replicants的创造者,在这些模型中安装了一个内置的安全装置:使它们只有4年的寿命。(电影的大致内容是:2019年,洛杉机变成乌烟障气的九反之地.人类制造了与真人无异的复制人为人类工作,但当这些复制人有了思想感情时就要将他们毁灭.人造人虽然生性残暴,却对自己只拥有的四年的生命充满着渴望和留恋.人类不允许这些复制品拥有做正常人的权利,所以必须毁灭这些被定罪为妄图成为人类的生命.)从上面的故事我们可以明显的发现对于一个机器(计算机)让它看起来像人(例如,有皮肤,脸盒面部特征,肢体等)是不够的。有些时候还是需要一些本质的东西:能力的获取或情感的表现。此外,机器也必须学会识别人脸,理解情感,能够像人一样与它的人类副本进行交流。机器可能不需要有情感技能,但是人们不可避免它们具有这样的功能,当与人进行交互时,以显示它们的聪明。真正的达到人机智能交互(HCII)的效果是有争议的,这需要计算机能够自然的与用户进行交互,类似于发生在人与人之间的交互。例如,如果一个机器与你谈话但是从来不听你的,它就会看起来很讨厌,类似于有个人和你谈话但不听你的,你就会觉得这个人很讨厌。ReevesandNass55进行了一些典型的人与人之间的交互实验,将一个人用一台计算机来代替,他们得到的结论是,对于一个智能的交互,必须将基本的人与人之间的问题把握住。人类彼此之间的交互主要是通过谈话,但是也有通过身体的姿势来强调谈话的某个部分和进行情感表现的。一个新的交互技术能够平稳的向信息交互来发展,需要通过自然的感知模式来完成,包括看,听,和接触。在面对面的交流中,人类同时使用了这些信息途径,将他们组合起来,用一个去补充和提高另一个。交互的信息是大量的压缩的,多模态的形式。典型的,对于一个会话交互模式它的主要完成的任务是人的信息传递,所以对于视觉,凝视,表情和手势等通常作为辅助信息起着重要的作用,另外例如情感,语气,姿势等也常常起到辅助作用。但是多种形式的任务和它们之间的交互仍然可以量化和科学的解释。需要什么,是人与计算机交流的研究方向,要建立一个面向多模态的“语言”和“对话”的框架,使它看起来十分像我们进行交流的框架。在一些应用中,也许不需要计算机来识别情感。例如,将计算机嵌入到一个自动取款机或飞机上时,它就不需要识别情感。但是有些应用中,计算机将扮演一个社会角色,例如“教师”,“助手”或者“共事者”,这就需要提高它们的功能,使它们能够识别用户的情感。在最近的书中,Picard52给出了一些应用,它有利于计算机对人类情感进行识别。例如,知道了用户的情感,计算机可以变成一个很好的教师。带有情感的语音合成比一个单调的语音更令人高兴。计算机的“Agents”能够通过用户情感来学习用户的喜好。其它的应用可以帮助人类用户来监测他们的压力水平。在临床应用上,识别一个人无法表达的某个面部表情也许能够帮助及早的诊断心理疾病。心理学者和工程师都同样在努力通过分析面部表情,声音情绪,姿势和生理信号去理解和获得情感。这个知识能够用来教计算机学会从摄像机中获得的视频图像和从麦克中获得的语音信息中来识别人类的情感。一个自然的通过多模态的人与计算机之间的双向交互描述如图1所示。在这个图中,输入计算机的是一个视觉(视频),从视觉,姿势,手势,面部和嘴角的运动来获得。计算机可以进行姿势识别,手势识别,表情识别和眼睛接触识别等等。同样的,讲话和声音(音频)通过麦克可以作为语言信息进行传达,也就是超语言信息。在输出的一面,计算机可以用一个“agent”——一个动画脸或者是一个拟人的动画身份出现。这个“agent”能够通过合成语音与人进行谈话,并在屏幕上显示相应的面部运动和嘴部运动。即使它们没有明确的在图中表示出来,一些其它的形式,例如触觉或生理信号也可以与视频和音频信号来一起联合使用。麦克视频摄像机生动的Agent语音合成语音识别语音影响身体姿势眼神交流手势识别面部表情头部运动计算机图1:多模态的人机交互这章的主要目的是探索人机交互的新方法,能够使计算机更好的明白人类用户情感同时进行表达。特别是,我们集中讨论的问题是将视听作为输入来检测用户的面部表情和声音情绪以及关注程度。通过“情感表达”我们能够理解当一些刺激事件发生时人类表现出来的一些表情。这些包括典型的表情,例如“笑”表示的是高兴,或者表示喜欢看到的东西。我们从基本的研究来入手解决这些问题,这些问题包括什么是情感,它们在人与人进行交互时的重要性和人是如何来表现情感的(第2部分)。这些基本的研究都是为通过计算机自动的进行情感识别打基础的,并且作为一个模式识别问题来进行研究。接下来,我们回顾了情感表情识别领域的发展,从面部,语音和生理信号等方面来回顾。在这里不同的模式处理是相互独立的(第3部分)。我们也讨论了获得可靠的情感数据库这一难题。获得情感识别的真相及如何使用未标记样本的(第4部分)。贯穿本章,我们尝试着对下列问题进行了解答和探索:通过面部和声音表现出一个人的情感,偏好和关注程度的线索是什么?如何恰当的用这些线索来训练计算机从音频和视频中来识别人类的情感?将视听作为联合输入比用单模态作为输入对于情感识别更准确有效吗?在实际应用中,两种模态可以分别处理吗?如何收集情感表情的多模态数据库和如何进行标识?我们能够用标识的小样本数据和未标识的数据来训练模板进行情感表情识别吗?要收集什么样的数据?自然的还是人为的?人类情感的研究我们只回顾支持本文工作的有关情感的实质是什么?最近的研究提出情感是杂乱的连接着其它功能,例如注意力,感知,记忆,做出的决定和学习等。这个理论对于计算机去识别人类用户的情感,其它相关联的状态和表情是十分有益的。在本章,我们集中考虑情感的自然表达形式,特别是在声音和脸部的表达。2.1情感的人机交互在一些重要的HCI应用中,例如用计算机辅助教学,计算机如果能够理解人类的情感或认知状态将是十分有用的。情感通过视觉,声音或者其它的生物手段来展现。对于这些情感技能的体现就是什么是“智能”58,25的一部分。现在的计算机已经过能够识别很多内容了,例如它说的是什么及其一些扩展,是谁说的。但是他们完全是在黑暗中的,当说某件事情时没有情感信息。事实上,无论是在讲话中,还是在视频通讯中,人脸表情,姿势,和手势交流对于人们的感受都是一些重要的数据。当人机进行交换时,在进行情感传达时,明确的考虑了如何来识别和表达情感。当发展一个系统的时候,对于情感信息的获得,Bianchi-Berthouze和Lisetti2定义了3个关键点:化身(进行真实感体验),运动(给它的样本进行映射,体验情感状态),适当的交互(传输情感响应,回应一个识别到的情感状态)。今天在大多数情况下,如果你进行一个人与人的交互时,用一个计算机来代替一个人,然而它的情感交流就消失了。此外,人们停止交流——我们已经发现一个人对它的机器表现出愤怒的情绪。这个问题的产生是计算机在人类发生高兴,生气,感兴趣或厌恶时计算机没有能力来识别。注意这点,如果一个人忽略这个信息,在我们十分困倦时,继续长时间的胡说,我们不会认为这个人十分聪明。能够进行情感识别是智能52的主要组成部分。计算机目前的影响被消弱。而且,如果我们将一台计算机嵌入到二个或多个人之间(如作为一个沟通的通道),那么相应的情感带宽就可能被减少很多。Email也许是在电子通讯中常常使用的一种手段,但是当我们的想法被转换为数字媒体进行传输时,所有典型的情绪信息都被丢失了。因此需要研究一种新的方法通过计算机媒介环境来进行交流。当前的计算机媒介沟通几乎都比“在那里,面对面”的情感带宽要低得多。情感可穿戴的计算机的出现,能够帮助从一个人的生理状态来感知放大情感信息,但是对于这个改变的一个可能性只是为了进行自然的交流。2.2情感的理论这里有少量的关于情感的定义。一些情感的理论被提出。它们的一些观点无法被验证,直到最近当可以对一些生物信号进行测量时才变得可能。通常,情感是短期的,但是心情却是长期的,性情或者个性也是长期的29。一个特别的心情可能会持续好几天,性情可以持续几个月或几年。最后,情感混乱能够使一个人在这样情绪的影响下,将不再能过正常人的生活。Darwin14指出情感表达是一种行为学的观点,争论是这种表达是从幼年形成的还是存在于成年时期。在物种起源后,他写了人与动物的情感表达。依据他的理论,情感表达是与生存息息相关的。因为,在人们进行交流时,这些非语言的表达与语言交流一样重要。James28的观点是情感不是起因但是是有影响的。这种情况出现在我们周围,起因是因为生理信号的改变。依据James的理论,“一个刺激或一组刺激引起了生理上的唤醒,同时伴随着生理上的变化。”CarlLange在相同的时间独立的提出了类似的理论。因此这个理论常常被叫做“James-Lange”情感理论。Cannon5与James相反,他认为情感是第一感觉,然后通过某个确定的行为表现出来。尽管有许多理论,但是人们以不同程度的方式来进行表达是显而易见的。一个最常见的研究任务是对情感的判断——如何能很好的从声音或脸部等信息来进行情绪表达的观测?相关问题是:这些表达了他们正确的情绪吗?他们描述的令人信服吗?人们如何来很好的隐藏它们的情绪?在类似的任务中,研究者通常用两种不同的方法来描述情感。一种方法是在离散的范畴内标识情感,也就是人们进行判断是要从指定的词汇列表中进行选择,例如,高兴,恐惧,喜欢,吃惊,伤心等等。伴随着这个方法的一个问题是对于一种刺激可能会产生包含多种混合的情绪,也就是说在选择词汇时也许会受到限制或者要依靠分析来进行选择。另一种方法是可以采用多种尺度去描述情感。代替从离散的列表中进行选择,观测者可以在几个连续的尺度下对他们观测到的每种刺激下的印象都做出反应,例如,从高兴到不高兴,关注到漠视,简单到复杂等等。两个共同的尺度是valence和arousal。Valence表述的是对刺激做出的反应有正(高兴)和负(不高兴)。例如,高兴是一个正valence,那么厌恶就是反valence。另外一个尺度是arousal或者activation。例如,伤心是一个低的arousal,那么反之吃惊就是一个高的arousal。这样不同的情感标识就可以在二维空间平面上划分为不同的位置,通过这些可以构建一个2D情感模型31。Scholsberg62提出了一种三维模型,除了上面两种尺度外,他增加了一种关注和漠视的尺度。另外感兴趣的主题是研究者如何从观测者那获得这些数据。一些人采用人为定义的方法来获得,包括请一些专业或非专业的演员
本文标题:多模态表情识别(译文)
链接地址:https://www.777doc.com/doc-3793328 .html