CN111886882A

CN111886882A - 用于确定特定于收听者的头部相关传递函数的方法

Info

Publication number: CN111886882A
Application number: CN201980020500.2A
Authority: CN
Inventors: 彼得·马贾科; 沃尔夫冈·克罗伊策; 罗伯特·鲍姆加特纳; 米夏埃尔·米霍契奇; 安德烈亚斯·赖兴格尔
Original assignee: Vrvis Virtual Reality And Visualization Co; Oeaw Austrian Academy Of Sciences
Current assignee: Vrvis Virtual Reality And Visualization Co; Oeaw Austrian Academy Of Sciences; VRVis Zentrum fuer Virtual Reality und Visualisierung Forschungs GmbH
Priority date: 2018-03-19
Filing date: 2019-03-18
Publication date: 2020-11-03

Abstract

描述了一种用于确定特定于收听者的头部相关传递函数的方法。该方法包括以下步骤：A)提供耳廓中的每一个和头部的视觉表示，其中，对于每个耳廓，视觉表示包括耳廓的整体形状和耳廓的解剖部位的视觉信息；B)使用所述视觉表示来计算三维多边形网格，三维多边形网格包括分别对头部和耳廓的形状进行建模的头部网格和独立耳廓网格，其中，耳廓网格(60)优选地包括耳廓部位例如耳道的入口(65)、外耳(66)、耳窝(63)和耳廓的背部(69)的形状信息；C)将多边形网格合并为三维组合网格，在三维组合网格中，耳廓网格相对于头部网格位于适当位置处；D)基于组合网格来计算HRTF。

Description

用于确定特定于收听者的头部相关传递函数的方法

本发明的领域以及现有技术的描述

本发明涉及用于确定头部相关传递函数(缩写为HRFT)的方法，HRFT对于特定个体特定于收听者。

当声音到达收听者(通常是人类)的耳鼓时，声音被收听者的身体的头部、耳廓过滤以及在较小程度上被躯干过滤。可以通过HRTF来描述这种过滤，HRTF描述了原始声音的声谱与到达耳鼓(并且被感知到)的声音的声谱之间的关系。通常，HRTF取决于声源的空间位置和收听者的解剖结构；实际上，HRTF在很大程度上取决于身体部位的特定几何形状，主要是耳廓和头部的几何形状，因此HRTF是强烈地特定于收听者的。因此，HRTF与个体的身体特征——主要是个体的头部和耳廓的形状——相关。在本公开内容中，术语“收听者”用于针对其要得到或者已经得到HRTF的个体。个体通常是(特定的)人类，但是应用也可以扩展到动物，特别是哺乳动物。术语“耳廓”或“耳郭(pinna)”表示外耳在头部外侧处的部位，包括被耳郭完全地围绕的耳道的入口。

HRTF的一种用途是用在用于经由耳机创建空间音频(称为双耳虚拟声学(BVA)的技术)的滤波器中。BVA的挑战是获取精确的特定于收听者的HRTF。

一种测量HRTF的方法是在人的耳道或人的头部的复制物中使用麦克风、将声源相对于其HRTF要被测量的人放置在各个位置(尤其是具有不同方向的各个位置)处的声学测量。HRTF的测量是一个困难且需要资源的过程，对于收听者而言通常是不舒服的。

作为测量的替选，还可以通过使用收听者的三维(3D)几何模型的数值计算来获得HRTF。用于根据给定的3D模型计算HRTF的合适软件是公知的。为了获取几何形状，现有技术使用3D激光扫描或在CT装置中扫描的硅印模或借助于MRI的扫描。这些方法通常不适用于没有这样的复杂设备的家庭用户。其他现有技术方法使用基于收听者的多个二维照片的摄影测量重建以用于计算收听者的3D几何表示。发现根据这样的3D模型计算的HRTF通常较差，因为它们无法使听众产生足够的空间感，通常由于底层3D表示的不精确而导致所谓的“内部化”(即，声源的伪位置位于头部内部)。

此外，为了检查HRTF的有效性，现有技术方法考虑了借助于可视地分析幅度谱的人工分析。这种评估HRTF的方法对于估计实际HRTF质量是不精确的，并且在可再现性方面存在问题。

US 9,544,706 B1描述了如下构思：拍摄耳郭的照片；创建耳郭的3D模型；计算HRTF，即“描述用户的耳郭的多个形态学参数”或“确定定制的HRTF”；将HRTF与用户的简档关联；以及将由此获得的HRTF应用于耳机信号。尽管该方法提出了从图片到双耳信号的完整链，但是它没有提供足够的细节来成功实现功能性HRFT，特别是对于有效3D模型的要求以及从3D模型得到HRTF的过程，没有提供足够的细节。在US 2012/0183161 A1中描述了用于创建HRTF的另一种类似方法。US 2017/0034641 A1描述了根据表示收听者的头部几何形状和耳朵几何形状的网格模型计算HRTF，该网格模型是根据以各种角度拍摄的头部和耳朵的图像获得的。

WO 2017/116308 A1公开了一种用于通过如下操作来生成定制的HRTF的方法：拍摄头部的照片，确定比例因子，拍摄耳朵的第二照片，借助于具有人工设置的控制点的主动形状模型对耳郭模型进行参数化，以及以基于该模型结合比例因子来得到个性化HRTF。使用霍夫变换(Hough Transform)来寻找耳郭的弧与来自HRTF数据库的弧之间的最佳匹配。该方法未描述HRTF的计算，而是描述了需要先验的与现有HRTF数据库的匹配过程。

因此，本发明的目的是克服现有技术的缺点。特别地，寻求一种用于确定HRTF的方法，该方法向收听者提供可靠的声音空间体验。因此，本发明将提供用于获得适于HRTF计算的收听者的头部和耳廓的足够精确的3D模型的方法。优选地，该方法应当允许在家中，即，在没有专门设备的情况下，获取HRTF。另外，对HRTF的评估可能适于寻找对过程和/或数据的修改以获得精确的HRTF。

发明内容

通过如独立权利要求1中描述的方法实现了以上提及的目的。具体地，该方法包括以下步骤：

A)提供耳廓中的每一个和头部的视觉表示，其中，对于每个耳廓，视觉表示包括耳廓的整体形状和耳廓中的每一个的解剖部位的视觉信息；

B)使用所述视觉表示来计算包括多边形网格的三维表示，多边形网格包括耳廓网格和头部网格(具体地，头部网格、左耳网格和右耳网格)，耳廓网格和头部网格优选地彼此独立并且分别对头部和耳廓的形状进行建模，耳廓网格包括关于所提及的耳廓部位的形状的信息；

C)将多边形网格合并为三维组合网格，其中，在该组合网格中，耳廓网格相对于头部网格位于适当位置处；

D)基于组合网格来计算HRTF。

本发明基于发明人认识到3D模型必须满足用于表示收听者的几何形状的要求，其中，耳廓几何形状的精确度至关重要，并且具有与头部几何形状的要求不同的要求。

感兴趣对象的视觉表示被理解为包括通过基本上在视觉光谱范围中的光学装置(例如，照片摄像机或视频摄像机(但不限于此))获得的感兴趣对象的的一个或更多个图像的表示。特别地，所提及的耳廓的解剖部位的视觉信息不仅涉及耳廓的整体形状，而且还涉及典型的耳廓特征的形状。耳廓的这些解剖部位可以有利地包括耳道的入口、外耳、耳窝和耳廓的背部。发明人指出：HRTF的质量将在很大程度上取决于分别在多边形网格和视觉表示的数据中存在关于这些特征的形状的足够信息；还可以包括耳廓的其他部位，以进一步提高HRTF的质量/精确度。在下文中，术语“描绘”用于表示视觉表示的分别与耳廓和头部有关的部分。此外，具有视觉表示的分别与耳廓和头部有关的部分(在下文中被称为描绘)通常是有利的。

通常，可以从任何可用源获得视觉表示，并且更具体地获得描绘。例如，可以通过摄影装置从摄影图像获得视觉表示以及/或者从视频记录获得视觉表示。例如，视觉表示可能已经存在，或者针对根据本发明的HRTF的得到处理准备好。可以整合耳廓和头部的描绘，但是优选地将它们作为单独的实例来获取和处理。在后一种情况下，为了促进对描绘的准备和处理，将耳廓的描绘彼此分开并且与头部的描绘分开进行准备可能是有利的。

此外，利用耳廓和头部的单独的网格来操作可能是有利的，因为这可以促进对耳廓和头部的不同要求的处理。特别地，对于耳廓网格的精确度要求比对于头部网格的精确度要求更高。因此，在这种情况下，在步骤(B)中，获得三维表示的耳廓网格和头部网格作为彼此独立的网格，然后通过使耳廓网格替换头部网格中的对应部分并且将耳廓网格拼接至头部网格而将耳廓网格和头部网格合并为三维组合网格来执行步骤(c)。

在本发明的许多合适的实施方式中，耳廓网格和头部网格可以由相应的多个三角形构成；多边形或三角形将具有头部网格和耳廓网格中的每一个中的平均尺寸。有利地，头部网格中的平均尺寸大于耳廓网格中的平均尺寸，因为这可以帮助减少头部网格的计算时间，并且帮助避免头部网格对耳廓网格的不利影响。取决于实际应用，头部网格中的平均尺寸可以略大一些，或者是至少1.4倍大，优选地是至少2倍大。此外，可以根据至少一个距离值来缩放网格——即，单独的头部网格和耳廓网格或组合网格，该距离值是先前例如在拍摄会话期间或结束时在收听者的头部和/或耳廓处获取的。

在本发明的许多优选实施方式中，通过拍摄一组或更多组特定个体的耳廓和头部的照片(例如，通过相应的“拍摄会话”)来准备描绘，其中，每组包括以摄像机朝向个体的耳廓或头部的不同方向拍摄的照片。例如，可以分别针对耳廓和头部拍摄单独的组。可以使用合适的照片摄像机或视频摄像机来拍摄照片。实际上，可以使用以个人为特征的视频的帧来获得视觉表示，特别是描绘或照片组。

在准备描绘例如拍摄照片期间，使用照明系统以照亮头部和/或耳廓可能是有利的。特别地，对于耳廓，照明系统优选地以合适的方式被配置以照亮耳廓的特定部位。例如，照明系统可以提供进入耳道的光、沿舟状窝的光、进入下部外耳的光和/或在耳廓后面(耳廓背部)的光。这样的照明系统可以包括漫射照明装置和至少一个附加光源，所述附加光源中的每一个被配置成特定地照亮如所提及的耳廓的相应选择的部位。这些附加光源可以集成在漫射照明装置中或者被实现为单独的光源；另一方面，在漫射照明装置已经足以照亮耳廓的相应特征的情况下，可以省略光源。

有利地，可以在准备描绘例如拍摄照片(或者通常准备视觉表示)之前，对个体进行准备。因此，可以对个体的头部和耳廓进行准备以在光学上显示耳廓。对于每个耳廓，该处理可以包括：可逆地从耳廓移除头发，例如，通过将头发绑在后面、梳理头发等来可逆地从耳廓移除头发；修剪在耳廓处存在的毛发；对整个耳廓或耳廓的选定区域剃毛。

此外，在步骤(A)中，在准备描绘之前，还可以通过施用哑光液或哑光粉来处理至少耳廓的皮肤表面。这用来避免光在皮肤的不同层处散射；此外，皮肤将获得更均匀的肤色。移除毛发可以在施用哑光液/哑光粉之前和/或之后进行。

注意到，发现仅头部和耳廓的几何描述通常就足以计算良好的HRTF，因为皮肤仅被视为反射声波。因此，在计算HRTF的背景下，另外的声学特性例如皮肤阻抗可忽略不计。

在步骤(D)(即，计算HRTF)之前，还包括如下步骤(D0)可以是有利的：通过将组合网格的方向调节至给定的坐标轴系统来调整组合网格。该步骤(D0)还可以包括：针对每个耳廓挖空组合网格中的耳道的操作，使得其与收听者的耳道的形状相对应。

在本发明的另一方面，提出了一种立即验证计算的HRTF的感知相关性的方法。因此，可以将HRTF计算与HRTF评估相结合，使得迭代地执行方法的一些部分，直到产生足够精确的HRTF。包括这样的评估的方法可以包括以下附加步骤：

E)评估HRTF并且判定HRTF是否具有足够的质量；

F)修改组合网格并且重复从步骤(D)开始的过程。

根据本发明的实施方式的以下描述，本发明的其他适当的方面和益处将变得明显。

附图说明

在下文中，为了进一步说明本发明，如附图所示，论述了说明性且非限制性的实施方式，附图示出：

图1示出了指示根据本发明的实施方式的方法的主要步骤的流程图；

图1a示出了用于实现图1所示的处理的设置的框图；

图2示出了哑光液的应用；

图3a和图3b以侧视图(图3a)和顶视图(图3b)示出了用于对收听者拍摄的拍摄会话的照明系统；

图4a和图4b再次以侧视图(图4a)和顶视图(图4b)示出了用于一个耳廓(在这种情况下为左耳)的拍摄会话；

图5a和图5b再次以侧视图(图5a)和顶视图(图5b)示出了用于头部的拍摄会话；

图6示出了左耳的耳廓网格的示例(对应于侧视图的呈现)；

图7示出了头部网格的示例(作为透视图的呈现)；

图8a和图8b以相应的透视(图8a)呈现和侧视(图8b)呈现示出了由于组合图6和图7的网格而得到的组合网格；以及

图9示出了针对组合网格的坐标。

具体实施方式

下面给出的本发明的示例性实施方式的详细论述意在说明本发明的基本构思和其他有利发展。对于本领域技术人员而言将明显的是，自由地组合被认为适于本发明的特定应用的关于实施方式和本文论述的变型论述的特征中的若干或全部特征。贯穿本公开内容，术语如“有利的”、“示例性”或“优选的”指示特别适于(但不是必要的)本发明或本发明的实施方式的要素或方面，并且除非明确要求的地方之外，可以在本领域技术人员认为合适的任何地方修改这些要素或方面。应当理解的是，本发明不限于出于说明性目的而给出的仅表示用于实现本发明的适当方式的示例性实施方式。此外，应当清楚的是，在权利要求中使用的附图标记仅意在提高权利要求的可读性，但是附图标记及其在权利要求书中的使用方式均不应被解释为限制权利要求书的范围。

以下论述的本发明的实施方式使用由数字摄像机拍摄的照片，以经由收听者的耳廓和头部的单独的3D网格来得到HRTF。具体地，如图1所示，本发明的实施方式的方法的步骤10至步骤19如下。

在第一步骤10中，提供头部和耳廓的视觉表示。该步骤包括准备阶段和拍摄会话阶段：在准备阶段11中，对收听者、空间和摄像机系统进行准备。然后，拍摄会话12a、拍摄会话12b分别产生收听者的左耳廓和右耳廓的两个视觉表示，并且第三拍摄会话13捕捉收听者的头部。拍摄会话阶段的拍摄会话12a、拍摄会话12b、拍摄会话13可以以可能合适的任何顺序进行。应当清楚的是，在其他(未示出)实施方式中，视觉表示可以在一个整体拍摄会话中进行。在步骤14中，基于视觉表示来计算头部、左耳廓和右耳廓的3D网格，然后在步骤15中将这些网格合并成单个联合3D对象(“组合网格”)。步骤16针对随后的数值计算准备组合网格，随后的数值计算在步骤17中进行以获得HRTF。

可选地，步骤18评估HRTF质量；根据从步骤18获得的结果，可以迭代地重复步骤16至步骤18，直到获得足够质量或精确度的HRTF。下面详细描述根据本发明的实施方式的在各个步骤和阶段中执行的操作。在论述仅涉及耳朵/耳廓之一的情况下，应当理解，由于两只耳朵之间的主镜像对称性，相同的考虑加以必要的修改也适用于另一只耳朵。

参照图1a，在所示的实施方式中，步骤10中的视觉表示的准备是通过在适当装备的空间1(图1a)——例如，摄影师的工作室或仅具有足够照明的空间——中拍摄照片来完成的，在空间1中，收听者可以使他/她的位置处于座位等上。另外的步骤将在计算机系统例如PC 2上进行，并且将HRTF存储在数据存储介质3上，该数据存储介质3可以在计算机系统2的内部或外部。

A.获得头部和耳廓的视觉表示

A1.收听者的耳朵和头部的准备，并且建立用于照片拍摄的空间和摄像机系统

在第一阶段11中，对收听者进行准备，这用于确保良好的耳廓可见性和合适的皮肤表面质量。收听者使用鼻耳毛修剪器来修剪耳廓上的所有毛发。在头发可能阻碍耳廓的一些部分的可见性的情况下，使用带状物或类似饰品把头发向后拉，使得两个耳廓从所有角度均可见(即，未被头发遮盖或遮挡)。

为了保护耳道，将耳塞分别插入左耳道和右耳道中。每个耳塞由一次性泡沫制成，并且具有长度大约为1厘米的大致圆柱形的形状；在每个耳塞的面向外的底面的中心，切出洞并且用黑笔标记；该标记用于指示耳塞的位置，以能够在之后的步骤中识别耳道的入口的位置。将由此制备的耳塞放置在相应的耳道中，使得耳塞封闭耳道但不从耳道突出。

参照图2，每个耳廓——在图中，仅象征性地示出了左耳21——和头部的周围区域22喷有哑光液23，也称为覆盖喷雾、涂层喷雾或扫描喷雾，以使皮肤表面失去光泽或哑光化。哑光液23不限于液体，而可以是粉末或具有其他稠度。在本实施方式中，例如，哑光液是黑林3D激光扫描防反射喷雾(德国，黑林)，但是可以使用任何其他与皮肤相容的去光性覆盖物。在对耳朵喷射时，对毛发和头部的喷射被适当形状如L形的覆盖物20阻挡；图2所示的覆盖物20具有40cm的高度和宽度。在喷射之后，可以重复修剪，以去除耳朵中任何残留的毛发；实际上，喷射的哑光液23将残留在耳廓和/或周围皮肤上的任何毛发渲染地更可见。相比之下，不需要移除穿孔和其他永久性配件。

参照图3a和图3b，用于与后续摄影测量重建有关的照片拍摄的摄像机系统100和空间的有利设置如下。收听者L在具有至少1000lux的主照明装置110的空间内就位(将适当地坐着或站着)；主照明装置是漫射的(间接照明和/或宽光源区域)，以避免关于收听者的清晰的阴影轮廓。附加光源设置在例如1m-2m的适当距离处的具有预定义的角度方向的相应位置处；仰角θ和方位角

的有利的角度范围分别在图3a和图3b中指示。在所示的实施方式中，附加光源包括光源101、光源102、光源103、光源104，这些光源分别提供进入耳道的光(102)、沿舟状窝的光(104)、进入下部外耳的光(101)以及在耳廓后方的光(103)。图3a和图3b所示的位置与照亮左耳有关并且以耳道的入口作为参考点；为了照亮右耳，将明显的是，使用镜像布置。图3a中给出的光源的描绘意在指定仰角θ的适当范围，而图3a中的方位角位置可能由于空间不足而不正确(特别是对于光源101和光源102而言)并且要根据图3b得到。

使用的摄像机可以是产生数字图像的任何摄像机；适当的参数如下：8.0或大于8.0的光圈；80mm或大于80mm的变焦(与全帧型传感器有关)；ISO 800或大于ISO 800的感光度，优选地为ISO 1600；快门速度自动调节至上述设定。优选地，摄像机允许调节显示器的角度。优选地，摄像机产生呈原始图像格式的照片。在本实施方式中，例如，摄像机是佳能博秀(Canon PowerShot)G1 X Mark II(日本，佳能)。

A2.拍摄收听者的左耳廓和右耳廓的照片

在接下来的阶段12a和阶段12b中，完成(至少)两次拍摄会话，即，分别针对左耳和右耳的耳廓。

参照图4a和图4b，用于左耳的耳部会话的有利照片序列如下。会话通过在高仰角处并且在收听者L后方拍摄照片而开始。将距离选择成以允许将整个耳廓拍摄在清晰的照片中；距离的典型值为约1m。对于每张照片，摄像机以恒定的仰角向收听者的前方移动一小步，每个仰角提供大约10张照片。位置41和位置42指示在例如θ＝45°的起始仰角处的该第一“层”中的第一个摄像机位置和最后一个摄像机位置。然后使摄像机降低，并且以恒定的仰角再次从各个方向拍摄10张照片。然后使摄像机再次降低，依此类推，直到到达在例如θ＝-45°的最终仰角处的最后一层。总共，拍摄了来自至少8个仰角层的照片，从而产生了至少80张照片。重要的是，照片将包括耳廓的细节，尤其是外耳、耳道入口、舟状窝以及耳郭背部与头部之间的区域(耳廓的各种特征在下文中将关于步骤B和图6来说明)。如果需要，可以测量耳廓的两个或更多个特定点之间的距离，该距离可以稍后用于提供耳廓的比例，以便稍后在耳廓网格中进行缩放。

在调整附加光源101至附加光源104的位置之后，以与左耳的方式相似的方式完成右耳的拍摄会话。

A3.拍摄收听者的头部的照片

图5示出了用于头部的拍摄会话——图1中的阶段13。对于头部的拍摄会话，使用如上所提及的至少1000lux的漫射照明装置和用于耳郭背部的光源103，而不需要其他附加光源。与耳部会话相比，以更大距离来拍摄头部的照片，以使每张照片都能够覆盖整个头部，例如以1.5m来拍摄。有利地，典型的照片序列将包括三个仰角处的来自头部周围所有方向的照片，总共约40张照片。图5a示出了例如θ＝55°处的顶部仰角55和例如θ＝-30°处的底部仰角；可以理解在例如0°至15°的范围内的仰角处的第三(中间)仰角。针对收听者L的头部的中心(耳朵之间的中点)作为参考点，给出图5a和图5b所示的位置。另外，借助于任何合适的已知测量方法来测量左右太阳穴之间的距离。

B.头部、左耳和右耳的3D网格的计算

在该步骤14中，对来自三个拍摄会话的照片进行处理以获得三个3D网格。可以使用允许将2D照片处理成3D几何表示的任何摄影测量软件来完成3D网格的计算。例如，在本实施方式中，使用基于面片的多视角立体视觉软件(software Patch-Based Multi-ViewStereo)(PMVS，https：//www.di.ens.fr/pmvs)。分别针对左耳、右耳和头部完成计算，并且产生三个3D网格。

根据这些计算直接获得的网格可能包括孔或其他缺陷，并且以典型的扫描后清理过程对网格进行清理，该典型的扫描后清理过程可以包括：封闭表面上的小孔，重新网格化以获得光滑的表面，以及/或者移除孤立的顶点和面以获得单个对象。此外，在头部网格中，移除与躯干和颈部相对应的所有元素，并且封闭与颈部相对应的开口。如果需要，还可以抽取网格以简化这些操作中的任何操作中的处理。

与通过左右太阳穴之间的前述距离给出的头部宽度对应地对头部网格进行缩放。将耳廓网格缩放至头部网格中的耳朵部分的形状的相应尺寸；可替选地，可以使用如以上所提及的在耳廓的两个或更多个特定点之间测量的距离来对耳廓网格进行缩放。

头部网格被平滑并且被重新网格化成给定数量的元素。发明人发现，在60000与80000之间的数量是优选的，其对应于2mm或小于2mm的平均边长度。耳廓网格也被平滑并且被重新网格化，优选地被重新网格化至1mm的平均边长度，这通常将产生5000至6000之间的元素数量。

图6和图7示出了由此获得的典型网格——即，左耳耳廓网格60和头部网格70——的示例。如图6可见，耳廓网格60不仅提供了对作为整体的耳廓的如实描述，而且还提供了对耳廓的部位的关于它们的形状的如实描述，例如：耳轮61、对耳轮62、耳窝63、耳舟64、耳道入口65、外耳66、耳屏67和对耳屏68、以及耳廓的背部69(在图6中不可见)。相比之下，头部网格70(图7)可能不那么详细，并且特别地，仅需要粗略地表示眼睛区域和鼻开口。

C.将三个网格合并成联合对象

将三个3D网格合并成联合3D对象，其被称为组合网格——图1的步骤15。可以以任何适当的软件例如，Blender、Meshlab和OpenFlipper完成合并，但是不限于这些示例。在该软件中，将耳廓网格对齐以覆盖头部网格中的耳朵的区域，然后，将这些区域从头部网格中移除。然后，将耳廓网格拼接至头部网格，以创建单个网格。然后，对单个网格进行重新网格化，以创建具有均匀密度的近似规则的元素，其中，元素的数量只有微小的变化。图8a和图8b在对应于透视图和侧视图的相应呈现80、80'中示出了根据合并网格60和网格70获得的示例性组合网格。

D0.调整组合网格以用于数值计算

该步骤16是可选的，但是发现在许多情况下是有利的。然后根据需要通过旋转和平移调整组合网格，以使其与所需方向对齐，如图9所示：Y轴是耳间轴，X轴是正中矢状平面和法兰克福平面(该平面是从上方接触左耳道、并且从下方接触眼眶的下边缘的平面)的相交处，并且Z轴是与X轴和Y轴相交的竖直线。在每只耳朵中，耳道被挖空，使得其与收听者的耳道相对应。如果需要，可以对外耳、舟状窝和耳舟的表示增加手工校正：对它们在网格中的表示进行修改，使得它们与来自照片中的表示相对应。在每个耳廓网格中，将对应于耳道的部位的中心的单个元素指定为用于计算的接收器元素。

D.HRTF的计算

在该步骤17中，借助于本领域已知的边界元方法(BEM)、基于组合网格来完成HRTF计算。为此，可以使用任何合适的软件，例如，Mesh2HRTF(http://mesh2hrtf.sourceforge.net)。针对双耳和各种声源计算HRTF。针对单个距离使用至少1000个源位置。针对在100Hz与20kHz之间的范围内的至少50个频率完成了计算。当使用Mesh2HRTF时，创建描述收听者的所有HRTF的SOFA文件。计算是在合适的计算机系统2(图1a)例如现代台式PC上完成的，其中，计算时间通常为若干个小时。由此获得的HRTF被存储至数据存储介质3，例如，PC 2的硬盘或永久存储器、或者外部存储装置。在实施方式中，例如，将HRTF写在数据存储介质例如数据DVD或记忆棒上，以便随后传送至能够进行双耳虚拟声学的数字音乐播放器系统。在这些系统中，双耳信号被创建以经由耳机呈现给收听者，并且创建双耳信号的处理包括利用所述HRTF对音频信号进行滤波。

E.对HRTF质量的评估

可选地，可以评估HRTF的质量——图1的步骤18。该步骤的结果可以用作后续步骤F中的标准。

评估步骤例如可以包括两个部分：基于感知相关性检查计算出的HRTF集的空间熵以及与数据库的HRTF集的相容性。对于这些检查，使用需要双耳刺激和参考HRTF作为输入的已建立的空间感知的计算听觉模型。合适的模型的一个示例是矢状平面声音定位模型，如在以下中说明的：Baumgartner,Majdak,and Laback,"Modeling sound-sourcelocalization in sagittal planes for human listeners,"J.Acoust.Soc.Am.(2014)136,791-802；其他模型也可能是合适的。通过使用计算出的HRTF作为双耳刺激和参考HRTF两者来评估空间熵。因此，它针对完全适应计算出的HRTF的收听者评估计算出的HRTF的感知空间质量(最佳情况)。通过将计算出的HRTF仅用于刺激来评估相容性；对于参考HRTF，从数据库中提取其他HRTF；适于此目的的数据库可在包括互联网的最新技术中获取(例如，https：//www.sofaconventions.org/mediawiki/index.php/Files)。这针对未适应计算出的HRTF的收听者评估计算出的HRTF的感知空间质量(最坏情况)。

例如，可以通过使用Baumgartner、Majdak和Laback的声音定位模型(同上)来实现该评估例程。该模型基于双耳刺激和参考HRTF集来预测人类声音定位性能的度量，例如象限误差率和局部极性RMS误差。

F.迭代重复

在来自步骤18的结果指示HRTF不令人满意的情况下，对计算步骤17和评估步骤18，必要时还对在计算步骤17和评估步骤18之前的调整步骤16进行重复，直到已经获得足够精确的HRTF。为此，在该步骤19中进行对耳廓网格的其他修改。这样的修改通常将用于补偿网格与照片(视觉表示)中所示的部位的形状的可能偏差。例如，典型的修改会影响外耳、舟状窝和/或耳舟的表示，与相应耳部部位的实际形状相比，这些表示可能较浅；然后通过挖空、创建更深的外耳、舟状窝和/或耳舟来改善网格的这些部分，这也会导致“更清晰的”对耳轮和对耳屏(即，具有更强的曲率)。一旦引入了修改，要再次执行至少计算步骤和评估步骤。对此进行重复，直到满足预定义标准。例如，该标准可以是某些数量落到预定义阈值以下(或者升到预定义阈值以上)，其中，可以根据使用的数据库的HRTF得到合适的阈值。

在使用声音定位模型来预测象限误差率和局部极性RMS误差的示例中，标准是：(i)空间熵足够高以获得低于18％的预测的象限误差率和低于35°的局部极性RMS误差；以及(ii)相容性检查产生低于30％的平均象限误差率和低于44°的局部极性RMS误差。

在满足标准的情况下，如在步骤D下所描述的，将HRTF存储至数据存储介质3。

Claims

1.一种用于确定头部相关传递函数(HRTF)的方法，其中，所述HRTF针对特定个体而特定于收听者，其中，所述HRTF与所述个体的身体特征相关，所述身体特征包括所述个体的头部和耳廓的形状，所述方法包括以下步骤：

A)提供所述耳廓中的每一个和所述头部的视觉表示，其中，所述视觉表示包括所述耳廓的整体形状和所述耳廓中的每一个的解剖部位的视觉信息；

B)使用所述视觉表示来计算由多边形网格形成的三维表示，所述多边形网格包括彼此独立的、分别对所述头部和所述耳廓的形状进行建模的耳廓网格(60)和头部网格(70)，所述耳廓网格(60)包括关于所述耳廓的所述解剖部位的形状的信息；

C)将所述多边形网格合并为三维组合网格(80)，在所述三维组合网格(80)中，所述耳廓网格相对于所述头部网格位于适当位置处；

D)基于所述组合网格来计算HRTF。

2.根据权利要求1所述的方法，其中，所述耳廓的所述解剖部位包括耳道的入口(65)、外耳(66)、耳窝(63)和所述耳廓的背部(69)。

3.根据权利要求1或2所述的方法，其中，步骤(A)包括分别准备所述耳廓中的每一个和所述头部的描绘，其中，所述耳廓的描绘彼此分开并且与所述头部的描绘分开进行准备。

4.根据权利要求3所述的方法，其中，在准备所述描绘期间，使用照明系统(100)以照亮所述头部和/或所述耳廓，其中，在准备耳廓的描绘期间，所述照明系统被配置成照亮所述耳廓，所述耳廓包括如权利要求2所述的所述耳廓的特定解剖部位。

5.根据权利要求4所述的方法，其中，所述照明系统包括漫射照明装置(110)和至少一个附加光源(101、102、103、104)，所述附加光源中的每一个被配置成特定地照亮所述耳廓的相应选择的解剖部位。

6.根据权利要求3至5中任一项所述的方法，其中，在步骤(A)中，在准备所述描绘之前，通过施用哑光液或哑光粉来处理至少所述耳廓的皮肤表面。

7.根据权利要求3至6中任一项所述的方法，其中，在步骤(A)中，在准备所述描绘之前，对所述个体的外观进行准备以在光学上显示所述耳廓，所述准备包括以下至少之一：从相应耳廓移除头发，修剪所述相应耳廓处存在的毛发，对所述相应耳廓的至少一个区域剃毛。

8.根据权利要求3至7中任一项所述的方法，其中，所述描绘是根据视频的帧获得的。

9.根据前述权利要求中任一项所述的方法，其中，所述视觉表示通过摄影装置和/或视频记录来获得。

10.根据前述权利要求中任一项所述的方法，其中，在步骤(B)中，所述耳廓网格和所述头部网格具有形成相应网格的多边形元素的相应平均尺寸，其中，所述头部网格中的平均尺寸比所述耳廓网格中的平均尺寸大，例如，所述头部网格中的平均尺寸是所述耳廓网格中的平均尺寸的至少1.4倍大，优选地是至少2倍大。

11.根据前述权利要求中任一项所述的方法，其中，在步骤(B)或步骤(D)中，根据在步骤(A)期间在所述收听者的头部和/或耳廓处获取的至少一个距离值来对所述网格进行缩放。

12.根据前述权利要求中任一项所述的方法，包括以下附加步骤：

E)评估所述HRTF并且判定所述HRTF是否具有足够的质量；

F)修改所述组合网格并且重复从步骤(D)开始的过程。

13.根据前述权利要求中任一项所述的方法，包括以下附加步骤：

D0)在计算HRTF之前，通过将所述组合网格的方向调节至给定的坐标轴系统来调整所述组合网格；

其中，步骤(D0)是在步骤(D)之前执行的。

14.根据权利要求13所述的方法，其中，步骤(D0)包括针对每个耳廓挖空所述组合网格中的耳道的操作，使得所述耳道与所述收听者的耳道的形状相对应。

15.根据前述权利要求中任一项所述的方法，其中，

在步骤(B)中，根据所述视觉表示获得所述耳廓网格(60)和所述头部网格(70)作为彼此独立的网格，并且

通过使所述耳廓网格替换所述头部网格中的对应部分并且将所述耳廓网格拼接至所述头部网格而将所述耳廓网格(60)和所述头部网格(70)合并为三维组合网格(80)来执行步骤(c)。