您好,欢迎访问三七文档
当前位置:首页 > 行业资料 > 其它行业文档 > 头相关传输函数与虚拟听觉重放
中国科学G辑:物理学力学天文学2009年第39卷第9期:1268~1285www.scichina.comphys.scichina.comSCIENCEINCHINAPRESS引用格式:谢菠荪.头相关传输函数与虚拟听觉重放.中国科学G辑,2009,39(9):1268—1285头相关传输函数与虚拟听觉重放谢菠荪①②*①华南理工大学理学院物理系声学研究所,广州510641;②华南理工大学亚热带建筑科学国家重点实验室,广州510641*E-mail:phbsxie@scut.edu.cn收稿日期:2009-08-12;接受日期:2009-08-20国家自然科学基金(批准号:10774049)和亚热带建筑科学国家重点实验室自主研究课题资助项目摘要头相关传输函数(HRTF)是自由场情况下点声源到双耳的声学传输函数,包含有声源定位的主要物理信息,在双耳听觉物理的研究中是非常重要的.虚拟听觉重放是HRTF的一个重要应用,它采用HRTF信号处理的方法模拟声源到双耳声学传输过程,从而在声重放中产生相应的空间听觉事件.目前HRTF与虚拟听觉重放已成为物理学(声学)、信号处理、听觉生理等研究领域的热门与前沿课题,受到国内外多学科研究工作者的共同关注,并在众多的领域得到广泛的应用.该文综述HRTF与虚拟听觉重放的基本原理与国内外研究进展,并概述了虚拟听觉重放的一些重要应用.关键词头相关传输函数虚拟听觉重放空间听觉在现实的声学环境中,声源辐射的声波在空间传输,包括直达声和各种环境边界反射和散射声的传输,形成空间声场.在物理上声场是由声压的时间和空间分布所描述的,它包含有声源和环境的时间和空间声学信息.当倾听者进入声场后,其自身的生理结构包括头部、躯干、耳廓等对声波的散射和反射起到对原始声场的扰动作用.倾听者双耳所接收到的是包括其自身生理结构反射和散射的声压,生理结构的反射和散射将声源和环境的声学信息转换成鼓膜处的双耳声压信号.双耳声压信号经中耳传输,并转换为内耳的基底膜振动,再经内耳毛细胞转换为神经脉冲并传输到高层神经系统进行处理,形成相应的空间听觉事件,如声源定位、声学环境的主观感觉等.在以上的听觉过程中,声源到双耳鼓膜传输(包括生理结构的散射和反射)是属于物理过程,中耳的传输、内耳及高层神经系统的信号处理涉及到生理过程,昀终空间听觉事件的形成涉及心理过程.由于高层神经系统的生理过程非常复杂,在现阶段听觉物理和心理声学的研究和应用中,经常将听觉的生理过程当作一个“黑匣子”处理,而直接研究鼓膜处的双耳声压与主观空间听觉事件之间的关系.因而双耳声压是从纯物理上研究听觉问题的终点.在线性声学的范畴内,任何复杂的物理声场都可用傅里叶变换的方法分解为一系列的平面声波的叠加,或更普遍地分解为一系列点声源辐射的球面声波的叠加.因而声场中倾听者双耳的声压计算归结为包含生理结构的散射和反射的情况下,从点声源到双耳的声学传输问题.这个过程可以用一个物理量——头相关传输函数(head-relatedtransferfunc-tion,简记为HRTF)表示.它定义为自由场(不考虑周围声学环境的反射)情况下从点声源到双耳的声学传输函数(格林函数),也就是在自由空间中人体耳道端中国科学G辑:物理学力学天文学2009年第39卷第9期的归一化声压,它是声源位置、频率以及人体表面形状和性质的函数.由于HRTF包含了有关声源定位的主要空间信息,因而在双耳空间听觉的研究方面有非常重要的意义.虚拟听觉重放是HRTF的一个重要应用,它采用HRTF信号处理的方法模拟声源到双耳的声学传输过程,从而在声重放中产生相应的空间听觉事件.近20年,由于计算机与信号处理技术的发展,HRTF与虚拟听觉重放已成为物理学(声学)、信号处理、听觉生理等跨学科研究领域的热门与前沿课题,受到多学科研究工作者的共同关注,并在双耳听觉的科学实验、通信、多媒体与虚拟现实、声音重放、医学诊断等领域得到广泛的应用.国际纯粹与应用物理联合会组织专家所编写的《2000年物理学》也把HRTF与虚拟听觉重放列为21世纪头10~20年内物理学中可望取得进展的研究领域之一[1].早几年,国内从事HRTF及虚拟听觉方面研究的课题组很少.而从20世纪90年代中期开始,特别是2003年起在两项国家自然科学基金的资助下,本文作者及带领的课题组(与北京邮电大学管善群教授合作)在HRTF的测量、物理特性分析、虚拟听觉信号处理等方面已做了大量的基础和应用研究工作.近两三年,HRTF及虚拟听觉重放已引起了国内研究工作者的兴趣,已有一些研究单位开始或计划开展这方面的工作.以下将综述HRTF与虚拟听觉重放的基本原理与国内外研究进展,并概述了虚拟听觉重放的一些重要应用.1声源定位因素与HRTF听觉定位是多个因素共同作用的结果[2].如图1所示,声源发出的声波传输到双耳.当声源不在中垂面时,由于传输距离的差异而导致到双耳的传输时间差(双耳时间差,interauraltimedifference,简记为ITD).同时由于头部等的散射和衍射作用,声源在双耳产生的声压并不相同,形成双耳声级差(interauralleveldifference,简记为ILD).一般情况下ITD和ILD是声源位置以及频率的函数.早在100多年前,物理学家瑞利就提出低频的ITD和高频ILD是声源方向定位的两个因素.但这并不能完全解析人类听觉定位的物理机理.如果头部等是近似左右对称的,则在整个中垂面上ITD和ILD都近似为零.事实上,ITD和ILD并不是和声源空间方向一一对应的.在空间中存在着无限个点组成的集合,所有这些点到双耳的距离(时间)差是常数.如果将头部简化为一球体,双耳看成是球面上相对的两点,给定双耳时间差并略去头表面的弯曲,点集组成一个空间锥型表面,文献上称这样的点集为混乱锥(coneofconfusion).在混乱锥上,单靠ITD和ILD是不能完全决定声源的方向的.例如水平面上的一对前后镜像方向的声源正好位于同一混乱锥上,因而单靠ITD和ILD是不能解释水平面前后镜像方向和中垂面的定位问题.图1声波从声源到双耳的传输进一步的研究指出,倾听过程中头部转动引起ITD和ILD的改变,这提供了声源方向定位的一个动态因素(dynamiccue).另一方面,耳廓(甚至肩部)等对声波的反射和散射所引起的声压频谱特征是声源方向定位的一个因素[3,4],特别是对中垂面和水平面前后镜像方向的定位.因而听觉定位是高层神经系统利用多种物理信息综合作用的结果.当然这些信息也有一定的冗余性,甚至在部分信息不可用的情况下听觉系统仍然可以对声源方向进行定位.当部分定位信息存在冲突的情况下,高层神经系统有可能选择一致性好的信息进行定位,也就是说高层神经系统在利用定位信息的时候有一定的纠错能力.但信息缺失过多的情况下就有可能出现定位错误.如前所述,HRTF定义为自由场条件下从点声源到双耳的声学传输函数,包含了有关声源定位的主1269谢菠荪:头相关传输函数与虚拟听觉重放要空间信息:00(,,,,)(,,,,),(,)(,,,,)(,,,,),(,)LLRRPrfsHrfsPrfPrfsHrfsPrfθφθφθφθφ==(1)其中PL和PR分别是声源在左耳或右耳处的声压,P0(r,f)为声源在头中心位置处(头不存在时)产生的声压.f是频率;r为声源到头中心的距离;0°≤θ360°和−90°≤φ≤90°分别表示声源相对于头中心的方位角和仰角,其中φ=0°和90°分别表示水平面和正上方,而(θ=0°,φ=0°)和(θ=90°,φ=0°)分别表示水平面上正前和正右方向.因而一般情况下HRTF与频率和声源的位置有关.对于r≥1.0m的远场,HRTF只与声源的方向有关,近似与距离r无关.由于不同个体的头部、耳廓等生理结构和尺寸有所不同,对声波的散射作用也不相同,因而HRTF还是一个具有个性化特征的物理量.而在(1)式中用参数s表示不同的个体.HRTF的时域形式是头相关脉冲响应(head-relatedimpulseresponse,简记为HRIR),与HRTF由傅里叶变换相联系.对于存在环境反射声的情况,HRIR可推广为双耳房间脉冲响应(binauralroomimpulseresponse,简单记为BRIR),它表示声源到双耳传输(包含反射传输)的脉冲响应.环境反射声的时间和空间特性给倾听者带来周围声学环境的声学信息.人工头是采用特定的材料制成的、模仿真人的头部、外耳等生理结构的听觉仿真模型.它的外形和尺寸是根据一定人群的统计平均结果或按照某个“标准”的人而设计,所用材料的声学性质也与真人相当.在声学测量中,经常采用人工头模型来模拟头部、耳廓等生理结构对声波的散射和反射过程,得到双耳接收到的声压信号.人工头可用于各种模拟外耳听觉的研究和测量,目前国际上已有各种不同的人工头产品,根据其精确程度而适用于不同的测量用途.其中KEMAR人工头昀常用于双耳空间听觉的研究,它是根据早年(1950~1960年)的西方人平均生理结构和尺寸设计而成,包括头部、躯干、耳廓、耳道等部分,从下面的图3(b)也可以看出KEMAR人工头的外形.由于设计KEMAR人工头所采用的数据的时效性问题,目前国际上有计划根据近年测量得到的生理数据设计新一代的人工头模型[5].2HRTF的测量、计算与定制目前实验测量是获取HRTF昀重要且昀准确的方法.测量对象包括人工头模型和真人受试者.HRTF的测量原理与通常的声学传输函数测量类似.声源(通常是小型扬声器系统)产生激励信号,采用一对传声器捡拾双耳处的声压信号,然后用信号处理的方法求出传输函数,通过改变声源与受试者之间的相对位置,则可得到不同声源位置的HRTF数据.测量通常在自由场(消声室)内进行,如果在非消声室内进行测量,则需要用信号处理(时间窗)的方法消除环境反射声的影响.至于双耳声压信号的捡拾,对人工头模型,可以将传声器放置在耳道模拟器的末端,相当于鼓膜的位置测量;而对真人受试者,较方便的方法是将微缩传声器放置在封闭耳道口进行测量.由于封闭耳道口到鼓膜可近似为一维的声学传输,并不影响声源的空间信息[6].由于远场HRTF近似与声源距离无关,测量上相对简单,近十多来,国外有多个课题组对人工头模型和真人受试者的HRTF进行了测量,建立了相应数据库[7~12],部分结果在互联网上公布.其中MIT媒体实验室公布了对KEMAR人工头测量的数据库,并被国际上广泛采用.但人工头是对一定人群的生理尺寸进行平均的结果,不能反映不同受试者的个性化特性.上面所列的文献中,大多数真人受试者数据库的空间方向分辨率偏低,有些数据库的人数偏少.只有文献[12]给出的CIPIC数据库是高空间方向分辨率的,包括43名真人受试者.但是由于测量采用的是双耳极坐标系统,侧向的空间分辨率还是不足,特别是没有测量正侧向的HRTF数据.而国外现有的真人受试者数据库中,受试者的性别比例差别较大.如果某些参量的统计结果存在显著的性别差异,那么整体的统计结果就会出现偏差.昀重要的一点,上述数据都是来自国外的测量,主要是在西方人群中挑选受试者(或平均)的结果.由于HRTF与受试者的生理结构和尺寸密切相关;不同民族的生理外形、尺寸是有一定差别的,所以国外的数据及其统计规律不一定完全适用于中国人.为解决上述问题,从2003年开始,我们课题组1270中国科学G辑:物理学力学天文学2009年第39卷第9期在国家自然科学基金的资助下,开展了中国人样本的高空间方向分辨率远场(r=1.5m)HRTF测量工作[13].图2是测量环境和放置在耳道入口的传声器的照片.到2005年底已建立了相应的数据库.数据库包括52名受试者(男、女各半),每名受试者493个空间方向的HRIR,其中水平面方位角的分辨率5°.HRIR是以44.1kHz采样率、16bit量化、512点长度的数据文件给出.同时,通过测量还建立了52名受试者的头部、耳廓等17项生理参数的数据库.因此这是国际上现有的两个包括40名以上真人受试者的高空间分辨率HRTF和生理参数的数据库之一(另一个为上述C
本文标题:头相关传输函数与虚拟听觉重放
链接地址:https://www.777doc.com/doc-28980 .html