您好,欢迎访问三七文档
当前位置:首页 > 商业/管理/HR > 咨询培训 > 语音情感识别+眼动仪实验
10月12日在广州举行的2017小蛮腰科技大会上,人工智能(AI)成为最热的议题。美国高通集团全球副总裁、投资部中国区总经理沈劲表示,人工智能下一步的投资机会在垂直领域。科大讯飞高级副总裁杜兰说,人工智能领域未来有两大产业发展机遇,一是三五年内,以语音为主、键盘触摸为辅的人机交互时代即将到来;二是五到十年内,人工智能将像水和电一样进入每一个行业,深刻改变世界。语音识别,这个是开复先生多年前的一个小小贡献。其实,我听懂讲的每个字不代表听懂了意思,甚至把英文翻译成中文,中文翻译成英文还是没有搞懂。你们不要看科大迅飞的演讲说懂得语音了,他一点不懂,他只能把音变成字,字变成音。你问他讲什么,一个字不懂。所以,语音识别还是要做的更好。语音识别是所有技术里面最不成熟的。当我看到一个一个的计划非常担忧,99%很多会死掉。自然语言理解没有完全被克服,自然语言理解到平台化使用还有十万八千里,所以你们如果投了这个项目,好好考虑一下。2017-03-03人工智能其实已经无所不在,打开你的手机,每个APP里面都是人工智能。人工智能经历了运算智能、感知智能、认知智能三个发展阶段。阿法狗打败围棋冠军等事例说明,机器的运算智能已经超越人类;能听会说、能看会认的感知智能,机器也部分超越人类,像把语音翻译成文字方面,讯飞输入法的准确率已达98%。但在认知智能方面,机器跟人还有很大差距,也是人工智能努力的方向。语音情感识别2013-11-01语音情感识别研究进展综述[EI检索]1.情感描述方式大致可分为离散和维度两种形式前者将情感描述为离散的、形容词标签的形式,如高兴、愤怒等。后者则将情感状态描述为多维情感空间中的点。返回2.依据情感描述模型的不同,将数据语料资源划分为离散情感数据库和维度情感数据库两个分支,二者的区别在于情感标注形式的不同,前者以离散的语言标签(如高兴、悲伤等)作为情感标注,而后者则以连续的实数坐标值表示情感。返回CASIA汉语情感语料库:该数据库由中国科学院自动化研究所录制,由4位录音人(2男2女)在纯净录音环境下(信噪比约为35db)分别在5类不同情感下(高兴、悲哀、生气、惊吓、中性)对500句文本进行的演绎得到,16kHz采样,16bit量化.经过听辨筛选,最终保留其中9600句.ACCorpus系列汉语情感数据库:该系列情感数据库由清华大学和中国科学院心理研究所合作录制,包含5个相关子库:1)ACCorpus_MM多模态、多通道的情感数据库;2)ACCorpus_SR情感语音识别数据库;3)ACCorpus_SA汉语普通话情感分析数据库;4)ACCorpus_FV人脸表情视频数据库;5)ACCorpus_FI人脸表情图像数据库.其中,ACCorpus_SR子库共由50位录音人(25男25女)对5类情感(中性、高兴、生气、恐惧和悲伤)演绎得到,16kHz采样,16bit量化.每个发音者的数据均包含语音情感段落和语音情感命令两种类型.VAM数据库:通过对一个德语电视谈话节目“VeraamMittag”的现场录制得到,语音和视频被同时保存,因此,数据库包含语料库、视频库、表情库这3个部分.谈话内容均为无脚本限制、无情绪引导的纯自然交流.以VAM-audio库为例,该子库包含来自47位节目嘉宾的录音数据947句,wav格式,16kHz采样,16bit量化.所有数据以句子为单位进行保存(1018句),标注在Valence,Activation和Dominance这3个情感维度上进行,标注值处于−1~1之间.标注工作由多个标注者共同完成,最终的情感值是相关标注者的平均值.现已公布的情感语料数据堪称稀少。对离散情感语音数据库而言,如何同时满足语料的自然度和情感的纯净度是其面临的最大挑战。对维度情感语音数据库的建立而言,困难不在于语料的获取,而在于语料的整理和情感的标注。为了将语料中的情感量化为精确的实数值,标注者担负了繁重的听辨和打分工作,并且标注结果的好坏、正误也难以评判。面对语料资源的上述现状,应该如何对现有资源进行补充和丰富?能否通过技术手段对训练语料的选择进行系统的指引和帮助?都是研究者们亟待解决的实际问题。3.当前,用于语音情感识别的声学特征大致可归纳为韵律学特征、基于谱的相关特征和音质特征这3种类型.返回(1)韵律是指语音中凌驾于语义符号之上的音高、音长、快慢和轻重等方面的变化,是对语音流表达方式的一种结构性安排。它的存在与否并不影响我们对字、词、句的听辨,却决定着一句话是否听起来自然顺耳、抑扬顿挫。但是韵律特征区的情感区分能力是十分有限的。例如,愤怒、害怕、高兴和惊奇的基频特征具有相似的表现。(2)基于谱的相关特征被认为是声道形状变化和发声运动之间相关性的体现,已在包括语音识别、话者识别等在内的语音信号处理领域有着成功的运用。表达高兴情感的语音在高频段表现出高能量,而表达悲伤的语音在同样的频段却表现出差别明显的低能量。(3)声音质量是人们赋予语音的一种主观评价指标,用于衡量语音是否纯净、清晰、容易辨识等。对声音质量产生影响的声学表现有喘息、颤音、哽咽等,并且常常出现在说话者情绪激动、难以抑制的情形之下。(4)上述3种特征分别从不同侧面对语音情感信息进行表达,自然会想到使用它们的融合用于语音情感的识别,从而达到提高系统识别性能的目的。目前,使用融合特征进行语音情感识别研究是本领域的主流方法。一般情况下,研究者们使用包括韵律学、声音质量、频谱在内的多种相关声学特征的合集作为语音情感特征的代表。因此,如何从现有的声学特征中选择区分能力最优的特征子集、如何探究与情感表达关联更加密切的新特征都是当前领域内十分重要的研究课题。并且一般认为,基于语句时长的全局特征与情感状态之间的关联最为紧密,因为它可以在一定程度上削弱文本差异对声学特征的干扰。然而,这种所谓的干扰削弱,却是以减弱部分表征情感状态的声学特征的细节效用为代价的。从该角度来看,如何界定情感声学特征的最优提取时长,抑或是对不同时长的声学特征进行融合,也都是不容忽略的研究课题。4.依据情感描述模型的不同,当今语音情感识别系统所采用的识别算法可以分为两类:离散语音情感分类器和维度语音情感预测器(1)基于离散情感描述模型的语音情感识别研究称作离散语音情感识别,它们一般被建模为标准的模式分类问题,即使用标准的模式分类器进行情感的识别。常用于语音情感识别领域的分类器,线性的有:NaïveBayesClassifier,LinearANN(artificialneuralnetwork),LinearSVM(supportvectormachine)等;非线性的有:DecisionTrees,k-NN(k-nearestneighboralgorithm),Non-linearANN,Non-linearSVM,GMM(Gaussianmixturemodel),HMM(hiddenMarkovmodel)以及稀疏表示分类器等。其中,使用最为广泛的有HMM,GMM,ANN和SVM。(2)本文将基于维度情感描述模型的语音情感识别研究称为维度语音情感识别,它的出现与传统的离散语音情感识别相比较为新兴,但也已得到领域内研究者们越来越多的关注。该研究一般被建模为标准的回归预测问题,即使用回归预测算法对情感属性值进行估计,在当前的维度语音情感识别领域使用较多的预测算法有:LinearRegression,k-NN,ANN,SVR(supportvectorregression)等。其中,SVR因为性能稳定、训练时间短等优点应用得最为广泛。返回构建合理、高效的语音情感识别模型是语音情感识别研究的重中之重,它负责对大量的训练语料进行学习,从中挖掘由各种声学特征通往对应情感状态的映射通路,从而实现对测试语料情感状态的正确判断与识别。理想的语音情感识别模型应该是对人脑语音情感处理机制的模拟和重建,然而,由于人脑情感处理机制的复杂性以及目前的认知科学水平,当前领域内构建的识别模型仍停留在功能模拟的水平,与机制模拟的目标还存在一定的差距。例如,离散情感识别任务一般被建模为普通的模式分类器,而维度情感识别任务一般被建模为标准的回归预测问题。那么,如何在现有的认知科学水平之上,以尽可能贴近人脑情感处理机制的方式来构建语音情感识别模型,是一项艰巨却有着重大意义的任务。眼动仪【2017】基于数据分析的哈尔滨城市景观特色评价简介:利用眼动调查数据,分析现有的城市代表性特色,进行城市特色构成与权重分析,明确城市核心景观特色、解析产生调研结果的动因机制,提出城市景观特色保护规划策略。(1)将哈尔滨的城市景观特色分为5类:气候环境景观特色、殖民遗产景观特色、中原文化景观特色、现代文化景观特色、后殖民景观特色(2)统计哈尔滨各类型城市特色的代表性景观节点,主要入选依据为能够反映公众和社会认可程度的五项指标,包括市区内的AAA级以上旅游节点、全国重点文物保护单位、哈尔滨市一类保护建筑、典型文化或景观类型代表、政府网站和百度百科推荐的哈尔滨重要旅游节点,得到初选城市特色节点69处。(3)将哈尔滨城市特色节点评价分为5个评价指标,包括文化价值、艺术价值、经济价值、类型丰富度和特色典型性。(4)运用AHP法确定各评价因子的权重,首先通过专家咨询法将上述各评价因子分别两两相互比较,确定因子间的相关重要程度,在两两比较的过程中,难免会带有主观性差异。因此,根据哈尔滨特色景观节点的实际情况,给出了两两因子的相对重要性比较标准(表1),使评价结果更为客观。然后通过Matlab软件计算出各项因子的权重值(表2)。并通过了一致性检验CR=0.0177<0.1000,一致性可以接受。(5)研究通过5位课题组成员,针对特色节点的5项评价标准,以每项10分制进行评分,完成69处节点的定量评价。单个节点最终得分的公式为:(6)最后确定选择前24处特色节点作为最终的眼动调研对象,并对节点进行特色分类(7)将24处主要城市特色节点各选一张代表性照片,按节点类型将图片平均分成两组进行眼动试验调查,让被调查者在每组12张城市节点图片中找出一个或多个哈尔滨的城市特色景观,找到后可延长关注时间,经过多次试验发现,对于每张图片12个节点的信息量,10s能更好捕捉被试者对于节点特色的第一印象,更长时间被试者容易更多关注图片的内部细节,更短时间被试者则不能完成景观特色的选择。调查对象:本调研属于城市景观节点与城市特色的关联性调查研究,按照经验样本量≥30,结合本问卷工具使用空间限制,本次共调研43人,40人调研数据有效,其中男22人、女18人;哈尔滨常住人口20人,来哈尔滨短期游玩者20人;被调查对象均为成年人,都对哈尔滨城市景观特色有一定认识。(8)以调查数据为基础,首先将各个特色节点的被注视时间进行排序,将整体城市特色节点分为4个级别,每级平均6个特色节点(表4)。给每个城市特色级别进行赋分,一级4分,二级3分,三级2分,四级1分。通过统计表4中数据,分析五个城市特色景观类型的数量比例、级别,对五个城市特色景观类型进行价值排序打分,殖民遗产特色7项23分,后殖民景观特色6项17分,气候环境景观特色5项8分,现代文化特色4项5分,中原文化特色2项7分。合计24项60分,各特色类型的数量和价值比例见表5。【2011】EyeTrackingOverSmallandLargeShoppingDisplays简介:在购买两种不同尺寸的模拟货架显示器上的产品时,将消费者的视觉行为进行比较:11.5英尺投影画布和15.4英寸笔记本电脑屏幕。将结果与在虚拟(投影)和物理货架上获得的搜索时间进行比较,其中记录的搜索时间揭示了一个趋势是通过使用较大的显示器能够提高性能。对普遍眼睛跟踪系统的影响表明要考虑到更大,更现实的环境。实验对象:20名学生(15-36岁),参与者分为两组(每组有相同人数的男性和女性)。一组在笔记本电脑(画布)上搜索三个产品,然后在画布(笔记本电脑)上搜索其他三个产品。第二组搜索相同的产品,但切换显示顺序。搜索顺序是平衡的(组间交替,见表1)。实验流程:在开始之前,
本文标题:语音情感识别+眼动仪实验
链接地址:https://www.777doc.com/doc-4150293 .html