您好,欢迎访问三七文档
当前位置:首页 > 电子/通信 > 数据通信与网络 > 基于语音的模糊案例推理情感识别算法研究
摘要一台智能的计算机应能观察、理解人类情感并根据使用者的情感自动调整交互环境。如何使计算机能够准确地识别人类的情感具有重大的理论和实际意义。人类情感识别主要包括:表情情感识别,语音情感识别,生理信号情感识别等。语音情感识别作为人类情感识别的重要部分越来越受到国内外研究人员的重视,在计算机已知人类语音的前提下,通过分析语音中包含的情感信息,自动识别出说话人的情感类别,是智能人机交互的重要组成部分。语音情感识别的研究包含:语音信号情感特征分析,提取语音情感特征方法,建立语音情感识别模型,语音情感识别算法。本文的主要研究工作有以下部分:(1)语音特征识别;(2)在语音情感识别阶段,提出用模糊规则用于语音情感识别,因为模糊规则在模型不清楚的环境中有着出色的表现;()在语音情感识别阶段,本文在深入研究基于案例的推理(CBR)和WANG算法的基础上,提出了一种将两者融合的方法,即基于模糊规则的案例推理;(4)本文采用柏林语音情感库作为训练和测试样本库。关键词:情感特征,语音情感识别,模糊规则,WANG算法AbstractOneintelligencecomputershouldnoticesandunderstandstheusers'emotion;theintelligencecomputershouldalsochangethehuman-machineinterfaceenvironmentiftheusers'emotionschange.Howtomakethecomputerexactlyrecognizetheemotionofhumanhassignificantmeaningsnotonlyintheorybutalsoinpractical.Theresearchofhumanemotionrecognitionmainlycontain:FacialExpressionRecognition,speechemotionrecognition,physiologicalsignalsemotionrecognition.Asonepartofhumanaffectivecomputing,Speechemotionrecognitionhasattractedlotofresearchers'interestinthisfield,supposecomputerhashumanspeechinformation,afterdetailwiththespeechthatcontainhumanemotioninformation,thecomputershouldautomaticallyrecognizespeaker'semotionthatisimportantpartofintelligencehuman-machineinteraction.Theresearchofspeechemotionrecognitiongenerallyconsideredseveralparts:speechsignalEmotionalcharacteristicsanalysis,extractionspeechsignalEmotionalcharacteristicsmethod,buildspeechemotionrecognitionmodel,speechemotionrecognitionalgorithm.Themainresearchesofthispaperareasfollows:(1)extractspeechsignalEmotionalcharacteristics;(2)Inspeechemotionrecognitionmodelaspect,weproposeusefuzzyrulestoreplacethespeechemotionrecognitionmodelforfuzzyrulescandoagoodperformanceinasystemwhenthesystemmodelisnotclear;(3)Inspeechemotionrecognitionalgorithmaspect,afterstudyofCaseBaseReasoning(CBR)theoryandWANGalgorithm,wecombinetwoofthemtogether,thatisFuzzyCaseBasedReasoning.(4)InthispaperweuseBerlinspeechemotiondatabaseasthetrainingandtestdatabase.Keywords:Speechfeatureextraction,Speechemotionrecognition,Fuzzyrules,WANGalgorithm1、引言近年来计算机的快速发展为人们的日常生活、学习、工作带来了不可替代的作用,然而人们对计算机的要求也越来越高。现在的计算机已经不能满足人们对智能计算机的要求。智能的计算机首先要识别人类的情感,这就是美国麻省理工大学媒体实验室Picard教授提出的情感计算(Affectivecomputing)的概念,即“情感计算是与情感相关,来源于情感或能够对情感施加影响的计算”。人们不仅希望智能的计算机具有强大的计算和存储能力,人们还希望它具有类似人类的智能,使人机之间的交流也能像人与人之间的交流一样自然和亲切。为了使计算机能够达到上述要求,计算机首先要能够正确地识别人类的情感。情感计算的研究主要包括:获取有人类情感一起的生理及行为状态特征,建立情感识别模型,根据识别算法对人类情感状态进行识别。语音情感识别的研究主要色含:语音情感特征的提取方法,建立语音情感识别模型,语音情感识别算法。本文的主要研究工作有:(1)在语音特征提取部分,如何提取能充分代表人类情感的特征参数对于语音情感识别具有不可替代的道要意义。(2)在语音情感识别阶段,提出用模糊规则用于语音情感识别,因为模糊规则在模型不清楚的环境中有着出色的表现。由于WANG算法在决策融和阶段采用乘积的方式,存在易于将有用案例剔除的情况,因此,我们提出在决策融合阶段用均值的方式对WANG算法进行改进,用于语音情感识别。用改进的WANG算法对语音特征提取模糊规则,然后应用得到的模糊规则对语音进行情感识别。然后应用学习得到的模糊规则对语音情感进行分类,取得不错的分类率。(3)在语音情感识别阶段,本文在深入研究基于案例的推理(CBR)和WANG算法的基础上,提出了一种将两者结合的方法,基于模糊规则的案例推理。该方法不但充分体现了模糊规则在模型不清楚情况下的优点,同时还拥有基于案例的推理在已解决案例可用为解决新问题的优越性。(4)本文采用柏林语音情感库作为训练和测试样本库,对上述方法进行了检验,通过实验结果可以看到本文提出的方法具有较好的情感识别率。2、语音情感识别方法在人与人的交流中,语音是主要交流方式,语音中往往带有说话者的情感状态,对于人类来说,识别说话者的情感状态不是一件很难的事情可是让计算机识别说话者的情感状态却不是一件简单的事。计算机为了识别说话者的情感状态,首先,要对说话者的语音信号预处理,提取语音信号的情感特征;然后建立一定的语音情感识别模型;最后根据某些识别方法判断语音的情感类别。本章首先介绍几种情感的分类,然后介绍语音识别系统,语音识别系统主要包括:语音信号预处理,语音信号特征提取,语音情感识别。最后介绍常用的语音信号识别模型。2.1情感的定义和分类情感是态度这一整体中的一部分,它与态度中的内向感受、意向具有协调一致性,是态度在生理上一种较复杂而又稳定的生理评价和体验。情感包括道德感和价值感两个方面,具体表现为爱情、幸福、仇恨、厌恶、美感等等。至今对于情感的分类,仍然没有一个统一的结论,不同的研究人员根据自身的研究情况,提出了不同的情感分类方法,到底哪一种情感分类方法最为合理,目前仍然没有科学的证明。本来情感状态就是一个渐变的过程,对于某一种情感不能用一个情感词汇描绘出来。表2.1是不同学者对基本情感分类的情况。在本文中,由于采用德国柏林语音情感数据库作为训练和测试数据库,所以根据柏林语音情感数据库的情况,选用高兴,愤怒,恐惧,焦虑,无聊,厌恶和正常等七种情感状态进行研究。表2.1基本情感分类2.2语音情感识别一个完整的语音情感识别系统一般由三部分组成:语音信号预处理过程,语音信号特征提取过程,语音信号情感分类过程。语音情感识别系统如图2.2所示。一般的语音信号情感识别第一步要对语音信号进行预处理过程,这个预处理的目的是去除语音信号中的噪声、环境杂音,经过预处理的语音信号更能满足后续步骤的需要,以便更好地进行语音信号的特征提取,获得高精度的语音识别结果。语音信号的情感状态可以根据语音信号的特征体现出来,语音信号的特征主要有时域特征和频域特征,普遍认为情感的变化主要由时域特征体现,时域特征主要包括:语音时间构造、振幅构造、共振峰构造。语音信号处理的最后一步是,语音情感识别,在语音信号情感识别的方法中主要有:主成分分析法(PrincipalComponentAnalysis,PCA),K最近邻(K-nearestneighborhood),支持向量机(SupportVectorMachines,SVM),神经网络(neuralnetwork,NN),隐马尔科夫模型(HMM)等方法。图2.2语音情感识别系统图3、语音情感特征提取本章通过对研究人员目前普遍采用的语音情感特征参数的研究分析,认为时域特征参数最能够提语音信号的情感状态,在柏林语音情感数据库上提取了主要的时域参数:时间构造、振幅构造、共振峰构造。3.1振幅构造参数提取在语音情感研究中,振幅构造被认为是必不可少的语音信号特征参数。因为人类在愤怒或者惊奇的时候,发音的音量就毁变大,当人类在悲伤或者沮丧的时候,发音就会变低。本文中,我们选取短时平均振幅的能量均值,能量的最大值,曲线局部极点个数三个特征作为振幅构造的参数。假设语音信号波形时域信号为x(1),加窗分帧处理后的第n帧语音信号为xn(m),则xn(m)满足:其中,n=0,T,2T,3T,...,N为帧的长度,T为帧移的长度。假设第n帧语音信号xn(m)的短时能量用En表示,则有下面的计算公式:这里En是一个度量语音信号幅度值变化的函数,它有自身的一个缺点:对高电平非常敏感,这是由于计算时用的是信号的平方。因此,我们可以采用另外一个度量语音信号幅度值变化的函数——短时平均幅度函数Mn计算公式为:所以能量的均值为:这里M为帧数。在得到语音信号的短时平均能量均值,能量曲线的局部极点就是曲线倒数为零的点,为能量的最值点。语音信号的短时能量和短时平均幅度函数Mn的主要作用:(1)用于区分清音段和池音段。(2)用于区分声母和韵母的分界,无声和有声的分界,连字的分界。(3)用于语音识别。3.2时间构造参数提取语音信号的时间构造主要有语音持续时间,短时过零率。我们主要研究语音持续时间。当说话者处于不同的情感状态时,语音的持续时间是不同的,因此语音持续时间对于语音情感识别是有作用的。对于相同的一个语句,说话者不同的状态语音的持续时间是不同的;当然,对于不同长度的语句,语音的持续时间是不同的,这时我们可以使用语速代替语音持续时间。3.3共振峰构造参数提取所谓共振峰就是元音激励进入声道产生的一组共振频率,不同情感状态的语音使声道产生的变化是不相同的,所以共振峰位置就会不相同。在声学参数中是与语音质量相关的重要参数。因此共振峰可以作为语音情感识别的特征参数,用于语音情感识别的研究中。共振峰主要包括:共振峰频率和频带宽度,共振峰是区别不同韵母的重要参数。本文中采用线性预测法(LPC)求出14阶的预测系数,然后用预测系数估计出声道的频响曲线,用峰值检测法(PeakPicking)计算出共振峰的频率。本文选取第一共振峰的均值,最大值,最小值,变化范围以及变化率作为共振峰参数用于语音情感识别。4、基于模糊规则的语音情感识在大部分的
本文标题:基于语音的模糊案例推理情感识别算法研究
链接地址:https://www.777doc.com/doc-2537333 .html