您好,欢迎访问三七文档
当前位置:首页 > 商业/管理/HR > 公司方案 > 移动声源的双耳信号合成方法
移动声源的双耳信号合成方法付中华西北工业大学计算机学院西安710072【摘要】固定方位声源的双耳信号合成仅与该方位对应的头相关传输函数冊TF有关,而移动声源的双耳信号合成则有所不同。由于声源的移动,声源方位会不断变化,与之对应的HRTF也会不断变化:另一方面,声源的快速移动会产生多普勒效应,如果考虑距离、环境反射等因素,问题将会更加复杂。如何综合考虑这些因素,合成出逼真的移动声源双耳信号,是本文的研究目的。首先去掉所有方位HRTF的初始延时以保证不同方位HRTF切换时的平滑插值,然后把声源到达双耳的绝对时间延迟分成到头部中心的时间延迟和与方位角相关的相对延迟两部分分别计算,接着用插值延迟线结构实现双耳多普勒效应,最后根据距离调节声压变化及混响器干湿比,以达到更加通真的效果.【关键词】传输函数声源方位双耳信号HRTF1引言营造逼真的声音效果是数字声频信号处理的重要内容之一,也是沉浸式虚拟现实、听觉定位机理研究、3D人机交互和娱乐等应用的关键技术。通常相关的技术可以粗分成三类:第一类是双耳(binaural)技术,主要从人的双耳定位机理出发;第二类是声场重建(soundfieldsynthesis)技术,从物理声场传播机理(如惠更斯原理)出发;第三类是立体声像(stereophony)技术,可以看成是前两类技术的综合,本文讨论的移动声源声效合成技术属于第一类.在基于双耳听觉的空间声像呈现中,头相关单位冲击响应(HeadRelatedImpulseResponses,HRIR)是基础。它假定声源到人耳的声传输路径是一个线性时不变系统,因此可以用单位冲击响应来描述,要呈现声源空间方位感,就把声源信号分别与相应空间方位对应的双耳HRIR卷积就可以得到双耳信号,最后用耳机馈给听者即可。对于移动声源的情况,似乎只需要不断地切换不同方位的HRIR就行,然而实际上还有很多困难。首先,目前HRIR主要是通过声学测量得到,而测量方位总是对应有限个空间方位点和一定精度的时间采样,因此除非测量的空间方位点足够密集、采样率足够髙,否则直接切换相邻方位点的HRIR会导致结果声音出现较明显的突变,许多研究都讨论过这一问题⑴。其次,当声源相对听者有相对运动时,还会发生多普勒现象,该现象与双耳技术很难直接结合。文献[2]中假定听者头部是球体,然后通过几何切线计算得到声源到双耳的声传输延迟,当声源不断移动时,需要不断地进行这种计算。再次,HRIR本身没有反映环境的声反射,而声源髙速移动往往伴随距离的显著变化,这些环境和距离因素也是营造声音效果的重要因素。本文提出了一种新的f{RIR处理方法,不仅可以快速算出声源到双耳的声传输延迟,还采用可变分数延迟线方法实现双耳多普勒效应,并且结合了人工混响算法和响度控制,实现了逼其的移动声源声音效果。2总体合成算法介绍在介绍各部分关键算法前,我们先介绍总体合成算法的流程,如图1所示。可以看到图中有两条延迟线,分别用于实现左右耳的多普勒效应,其中每条延迟线都有随时间变化的读写指针,指针的位置与声源和听者的相对运动有关;另外还有HRIRmiJURjr),分别对应声源第n时刻所处方位对应的左右耳HRIR,用于呈现声源的空间方位;人工混响器则是用来营造环境声反射,通过a(«)干湿比来调节不同距离时混响程度变化;+)是响度控制,可以根据距离调节音量大小。注意,这些合成模块都和声源空间方位有关,因此实际输入的信息除了声源信号之外,还必须知道声源各个时刻所处的空间方位信息,后者可用来计算速度和轨迹等。3冊IR处理方法a)声#^延迟计算声传输延迟是指声源发出的声信号到达人双耳的时间延迟,直接影响延迟线结构中读写指针之间的距离.该延迟的计算至关重要,如果计算有误,不仅会影响多普勒效应,还会影响相邻方位的HRIR插值,导致声音断续。然而,原始HRIR数据本身就含有不同的初始延迟,这给计算移动声源到两耳的实际延迟带来麻烦。文献[2]提出把原始HRIR初始延迟全部去掉,然后假定听者头部为球形,再根据该球的半径以及声源的空间位置计算实际传输延迟,如图2(a)所示》不难发现,每当声源位置改变,该方法都需要计算点到球的两个切线以及一段弧长,不仅计算童大,而且把头部近似为球形也引入了误差。我们考虑一个更为简单的方法,为了讨论方便,我们只考虑水平面情况.首先把声源到双耳的传输延迟分成两个部分,一个是声源到达听者头部中心的绝对延迟7;,该延迟相当于听者注视声源方向时的双耳延迟,此时声源相对听者方位角为0°,如图2(b)所示;然后,听者头部转动到实际注视方向,转过角度为0,此时转向声源方位的耳朵对应延迟会减少,另一侧耳朵对应的延迟会增加,我们把这种延迟变化量称为相对延迟,记为和A7i(0),如图2(c)所示。不难看出,相对延迟实际上等价于原始HRIR数据中0方位角HRIR相对于0°方位角HRIR的初始延迟差,如图3所示。这意味着,所有方位角0对应的相对延迟可以从原始HRIR数据中直接得到,可全部事先计算好,在实际合成音效时只需要计算绝对延迟和当前时刻听者注视方向与声源方向夹角0即可,最终的双耳延迟为n=r.+ATL(d),TK=Ta+AT*(0)(1)计算双耳相对延迟的方法与通常计算双耳时间差的方法类似,根据不同方位HRIR与0°方位角冊IR的互相关函数的峰值位置即可确定。实际当中为了提高精度,往往先对原始HRIR数据进行上采样,提髙8倍采样率,计算后在降采样回来。此外要注意当声源位于单耳异侧附近时相对延迟会突然变化(这是由于最短声传输路径突然完全改变),例如声源位于90°方位角附近时,左耳的相对延迟会突然变化。我们将在第6小节给出我们的计算结果。b)HRIR插值前面已经介绍过,实测的HRIR只包含有限的离散方位角,因此为了合成连续运动时的双耳信号,必然要采用冊IR插值方法得到任意方位角对应的HRIR。很多文献研究表明,对去掉初始延迟的相邻HRIR进行线性插值就可以得到较高精度,去掉原始冊IR的初始延迟可以与前文计算相对延迟时同时进行。相对延迟是各个方位角相对于0°方位角的初始延迟差,因此只要算出了0°方位角HRIR的初始延迟,其他方位图2双耳传输延迟计算示意图图3相对延迟示意图角的初始延迟也可以很快得到。另外更简单的方式是直接用最小相位HRIR代替原始HRIR。对方位角^•和0之前的任意方位角0对应的HRIR进行线性差值,其过程如下:HRIR(6)=XHRIRiOm)+(1-k)HR!R(dr),m*n(2)其中ift■—0/n\A=⑶为了提髙精度,也可以用先上采样,处理完再降采样回来。声源相对听者注视方向的方位角是双耳信号合成的重要参数之一,在仿真实验中,我们假定听者总是正对着自己前进的方向,如果听者停止不动,他将保持前一时刻的注视方向。于是,声源相对听者的方位角就可以根据各自所处的方位和运动轨迹通过几何计算得到。4延迟线控制图1总体合成算法框图本文中使用时变延迟线来实现多普勒效应。延迟线就是一个实现简单延迟关系的环形缓冲队列,延迟关系如下y(n)=x(n-lX)⑷式中A是输出信号(;!)相对于输入信号咖)的延迟,下标《表示该延迟随时间不断变化。如果以不是整数,则需要采用内插方法。通常延迟线有读和写两个指针,写指针用于输入信号,读指针用于输出信号,每隔一个采样间隔,两指针更新一次。两个指针间距离反映了传输延迟,而多普勒效应的本质就在于声源到听者的声传输延迟不断随时间变化,因此只要不断的估计当前的传输延迟,正确的更新读写指针间的距离,就可以实现多普勒效应。读指针和写指针可以有各自不同的步长,分别对应延迟线的内插读操作和内插写操作™,简单起见,我们将读指针的步长固定为1,而写指针步长则由实际传输延迟控制。3.1节介绍了声源到达左(右)耳的传输延迟21(TR),如果每一时刻/i都计算该延迟就可以得到71(«)(7i(;0)。以左耳为例,左耳延迟线写指针步长就是1+21/,是采样频率。注意,刚开始时读写指针的距离由最初的传输延迟决定,而且无论声源怎么移动,传输延迟都不会小于0,因此在这样的物理约束下,不会发生读指针超过写指针的问题。5距离感合声源到听者的距离变化是声源移动给听者造成的最直接印象,特别是距离远近明显变化时,响度也会随之明显变化,此外影响距离感的因素还与直混比有关,即直达声和混响声的比例。混响声反映了周遭环境的结构和自然属性。一般而言,声源距离听者越远,直混比越低,反之声源距离越近,直混比越高。因此我们这里简单采用声压衰减控制和直混比控制来模拟距离感。最基本的声压衰减可以用指数衰减来模拟,衰减系数定义如下w(n)=c*w)'(5)其中;fc是衰减因子(0yfcl),rf(«)是第/j时刻声源到听者的距离。对于在空气中的传播,我们取;fc=0.015。直混比我们采用0〜1的线性函数表示,即0表示最远距离,1表示最近距离。困难主要是混响信号的合成。要想很好的模拟高速移动声源的混响信号是非常困难的,特别是夹杂了反射声的多普勒频移时•考虑到合成算法计算复杂度问题,我们在仿真实验中采用了传统人工混响算法,关于人工混响算法可以参考[4】,我们采用了典型的4级反馈延迟网络(FeedbackDelayNetworks)算法,结构如图4所示。注意混响器参数可以根据不同环境进行必要的调节,本文不再详述之。6仿真实般贿我们采用了三种HRIR数据库:我们实验室自己录制的数据库、CIPIC公开数据库、11IT公开数据库。其中我们自己的数据库是用中国人工头模BHead210录制的[5】,另外两个是用KEMAR头模录制的。我们只考虑水平面情况,其他情况可以类似处理。首先我们把数据库里的原始HRIR数据相对0°方位角的相对初始延迟算出来,其结果如图5所示•可以看出,左耳和右耳的相对延迟基本对称,而且我们的数据结果与MIT数据的结果比较靠近,CIPIC数据的偏差略大,不过实际测听实验并未发现明显差异。然后,根据前文所述方法,我们将所有HRIR数据的初始延迟全部去掉,以用于HRIR插值。图6显示了我们录制的原始HRIR和去掉初始延迟后的HRIR数据(仅左耳)。----------------o----------------°50™L250300350图44级反馈延迟网络混响器图5水平面各方位角相对延迟为了评测本文方法的效果,我们先模拟一个发出固定频率正弦信号的声源以时速100公里从听者前方经过,运动轨迹为直线,从左到右,离听者最近距离为2米。默认声速为340米/秒,采样频率为44.1kHz,1024点FFT用于频谱分析,声源信号频率为2756.25Hz(64*44100/1024)0根据多普勒效应,该声源靠近听者时频率约为3001Hz,当远离时,频率下降为2548Hz,而且由于声源从左至右,因此左耳信号首先达到最大值。图6给出了该实验的语谱图结果,可以看到仿真结果与上述分析相同。此外我们还从赛车游戏中截取一段视频,然后估计赛车追逐轨迹,用本文方法生成双耳信号替换游戏中原有的立体声信号,最后让10名研究生观看测听,对测听效果进行评价。第一个实验中仅测听声音,结果显示本文方法合成的立体感效果比原立体声更佳;第二个实验中同步观看视频,结果显示有了视频信息,方位感更明显,特别是超车过程印象非常深刻。7总结本文介绍了一种针对移动声源的双耳信号合成方法,不仅能令听者感知声源的距离和方位变化,还实现了双耳多普勒效应,使效果更加逼真。为了保证切换不同方位HRIR数据时信号的平衡和连续,我们提出了一种新的计算声源到双耳传输延迟的方法,比传统的基于切线和球体假设的方法简单有效,此外还采用了两个时变延迟线实现双耳多普勒效应,最后根据距离调节响度和混响器干湿比,用来营造距离感。实验仿真结果验证了本文方法的有效性。图6原始_和去掉初始延迟的HRIR(左耳)m7图QnptnalSna丨r:—料嫌:[1]Nishimura,R-,Kato,H.,Inoue,N.:InterpolationofHead-RelatedTransferFunctionsbySpatialLinearPredict
本文标题:移动声源的双耳信号合成方法
链接地址:https://www.777doc.com/doc-2150620 .html