CN104054039B

CN104054039B - 具有声音和几何分析的扩增现实

Info

Publication number: CN104054039B
Application number: CN201280064705.9A
Authority: CN
Inventors: 延奇宣; 金泰殊; 黄奎雄; 真珉豪; 朝玄默; 太元·李
Original assignee: Qualcomm Inc
Current assignee: Qualcomm Inc
Priority date: 2012-01-12
Filing date: 2012-11-21
Publication date: 2017-04-19
Anticipated expiration: 2032-11-21
Also published as: JP5996669B2; KR102078427B1; US20130182858A1; US9563265B2; EP2802962A1; JP2015510629A; WO2013106133A1; KR20140117369A; IN2014CN04458A; CN104054039A

Abstract

本发明揭示一种用于在移动装置的扩增现实AR应用中对外部声音作出响应的方法。所述移动装置检测目标。在所述AR应用中起始虚拟对象。此外，通过所述移动装置的至少一个声音传感器从声音源接收所述外部声音。确定所述声音源与所述目标之间的几何信息，且基于所述几何信息而产生所述虚拟对象在所述AR应用中执行的至少一个响应。

Description

具有声音和几何分析的扩增现实

相关申请案的交叉参考

本申请案是基于2012年8月15日申请的第13/585,927号美国申请案以及2012年1月12日申请的第61/585,945号美国临时专利申请案，且主张所述申请案的优先权权益，所述申请案的全部内容以引用的方式并入本文中。

技术领域

本发明大体上涉及在移动装置中实施扩增现实。更具体来说，本发明涉及基于外部声音在移动装置的扩增现实环境中产生对虚拟对象的响应。

背景技术

最近，移动装置的使用已由于它们在便携性和功能性方面的便利而广泛增加。同时，消费者对娱乐和现实应用的需求已与移动装置的广泛使用一起增加。为了提供娱乐和现实应用，一些移动装置提供扩增现实技术。

扩增现实(“AR”)是旨在将现实世界环境与数字信息进行合并的一类型虚拟现实。不同于在虚拟空间中提供虚拟对象的典型虚拟现实，一种扩增现实系统产生将由用户观看的现实世界图像与计算机产生的图像进行组合以用额外信息扩增现实世界图像的复合视图。

除了提供视觉扩增现实之外，一些AR环境已提供了用以辨识移动装置的外部声音的能力。然而，此类AR环境通常尚未充分反映外部声音环境。因此，这些AR环境可能未为用户提供充分水平的现实。举例来说，在常规的AR环境中，AR对象可仅好像所有外部声音源自移动装置一样作出反应。因此，此些AR应用尚未为用户提供令人满意的扩增现实体验。

发明内容

本发明提供用于在移动装置的扩增现实(AR)应用中对外部声音作出响应的方法和设备。在这些方法和设备中，基于所接收的外部声音，确定移动装置间的几何信息、目标以及外部声音的声音源。随后基于几何信息来产生虚拟对象在AR应用的AR环境中执行的响应。

根据本发明的一个方面，揭示一种用于在移动装置的扩增现实(AR)应用中对外部声音作出响应的方法。所述方法包含检测目标。在所述AR应用中起始虚拟对象。此外，通过所述移动装置的至少一个声音传感器从声音源接收所述外部声音。确定所述声音源与所述目标之间的第一几何信息，且基于所述第一几何信息而产生所述虚拟对象在所述AR应用中执行的至少一个响应。本发明还描述与此方法相关的装置、装置的组合，以及计算机可读媒体。

根据本发明的另一方面，揭示一种用于在扩增现实(AR)应用中对外部声音作出响应的装置。所述装置包含传感器和控制单元。包含图像传感器和至少一个声音传感器的所述传感器经配置以接收包含目标的图像以及来自一个声音源的外部声音。所述控制单元包含目标对象检测器、应用起始单元、几何信息计算单元以及AR响应产生器。所述目标对象检测器经配置以检测图像中的目标。所述应用起始单元经配置以响应于所检测到的目标而在AR应用中起始虚拟对象。所述几何信息计算单元经配置以确定一个声音源与目标之间的第一几何信息。而且，由所述AR响应产生器基于所述第一几何信息产生所述虚拟对象在所述AR应用中执行的至少一个响应。

附图说明

在结合附图进行阅读时，参考以下详细描述将理解本发明的发明性方面的实施例。

图1说明现实世界环境的图，其中根据本发明的一个实施例在移动装置中执行扩增现实(AR)应用。

图2A和2B说明根据本发明的一个实施例在移动装置中观看和终止扩增现实环境的图。

图3说明根据本发明的一个实施例的对来自声音源的外部声音作出响应的虚拟对象的图。

图4说明根据本发明的一个实施例的用于将扩增现实环境提供给用户的移动装置的框图。

图5说明根据本发明的一个实施例的用于将扩增现实环境提供给用户的移动装置的控制单元的框图。

图6是说明根据本发明的一个实施例的用于基于外部声音而产生将由虚拟对象执行的响应的方法的流程图。

图7A和7B是说明根据本发明的一个实施例的基于外部声音而产生将由虚拟对象执行的响应的图。

图8A和8B是说明根据本发明的一个实施例的确定目标、声音源与移动装置之间的几何关系的图。

图9A和9B是说明根据本发明的另一实施例的基于外部声音而产生将由虚拟对象执行的AR响应的图。

图10A和10B是说明根据本发明的另一实施例的基于外部声音而产生将由虚拟对象执行的AR响应的图。

图11是说明根据本发明的一个实施例的用于基于AR环境中的外部声音而产生将由虚拟对象执行的响应的方法的流程图。

图12是说明根据本发明的另一实施例的用于将扩增现实环境提供给用户的移动装置的控制单元的框图。

图13是说明根据本发明的一个实施例的用于识别外部声音的不同声音源且产生与所述多个声音中的每一者相关联的虚拟对象的响应的方法的流程图。

图14A和14B是说明根据本发明的一个实施例的基于来自多个声音源的外部声音而产生将由虚拟对象执行的AR响应的次序的图。

图15是说明根据本发明的另一实施例的基于来自多个声音源的外部声音而产生将由虚拟对象执行的AR响应的次序的图。

图16A和16B是说明根据本发明的一个实施例的基于移动装置和目标之间的距离来调整虚拟对象的音量的图。

图17是说明根据本发明的一个实施例的用于基于移动装置和目标之间的距离来调整虚拟对象的音量的方法的流程图。

图18是示范性移动计算装置的框图，可在所述移动计算装置中执行根据本发明的一些实施例的本发明的AR应用。

具体实施方式

现在参看图式来描述各种实施例，其中相同参考标号始终用于指代相同元件。在以下描述中，出于解释的目的，阐述许多特定细节以便提供对一或多个实施例的彻底理解。然而，可显而易见，可在无这些特定细节的情况下实践此类实施例。在其它例子中，以框图形式展示众所周知的结构和装置以便促进描述一或多个实施例。

图1说明现实世界环境100，其中根据本发明的一个实施例在移动装置110中执行扩增现实(AR)应用以对外部声音作出响应。用户120操作移动装置110，所述移动装置包含至少一个摄像机、显示屏、至少一个麦克风以及一AR应用。移动装置110可为例如平板PC、智能电话、游戏装置等便携式计算装置，且可包含此类装置的任何标准组件和功能。

如图1中所说明，用户120与显示于移动装置110上的扩增现实环境交互。目标130提供于桌子150上，且由移动装置110使用以在检测到目标130时起始AR应用。目标130可为预定AR标签或标记，其可由移动装置110检测以起始AR应用。只要检测到目标130，AR应用便继续在移动装置110上运行。举例来说，当用户120移动移动装置110以通过例如摄像机等图像传感器俘获目标130时，移动装置110起始AR应用，所述AR应用在AR环境中显示虚拟对象140和虚拟背景170。在起始AR应用之后，AR环境实时地显示于移动装置110的显示器上而无实质性时间延迟，且经配置以反映外部声音或用户的动作。举例来说，移动装置110可从用户120或外部声音源160(例如，存在于现实世界环境100中的人)接收外部声音。

图2A说明根据本发明的一个实施例的用户220使用移动装置210来观看扩增现实环境。在图2A中，用户220操纵移动装置210以经由移动装置210的图像传感器来俘获位于桌子250上的目标230的图像。当检测到目标230的图像时，移动装置210将所俘获的目标230与存储于其中的多个预定目标进行比较。随后，如果移动装置210确定所俘获的目标230与多个预定目标中的一者匹配，那么起始AR应用。或者，移动装置210可响应于经由声音传感器接收的预定外部声音而起始AR应用。在此情况下，可将外部声音与预定声音模型进行比较以起始AR应用。另外，可响应于移动装置210上的用户输入(例如，通过用户接口(例如，触摸屏、按钮、小键盘、操纵杆、触摸垫等)输入信息)或响应于光输入的改变而起始AR应用。

AR应用用虚拟对象240和虚拟背景270实时地扩增所俘获的图像以在移动装置210上产生和显示AR环境。举例来说，虚拟对象240和虚拟背景270可叠加在现实世界环境200的所俘获的背景图像上以用于在移动装置210的显示器上显示。在此布置中，虚拟对象240可经配置以响应于外部声音和用户的用户以用于交互式体验。在起始AR应用后，如图2A中所示，虚拟对象240即刻起初显示于对象230上。或者，虚拟对象240可位于相对于目标230的任何合适位置中。此外，目标230可在扩增现实环境中显示，或可不在扩增现实环境中显示。

从对移动装置210的显示器上实时地显示的AR环境的用户观点来看，虚拟对象240和虚拟背景270是虚拟的，因为它们仅显示于移动装置210的显示器上。仅出于说明性目的而描绘虚拟对象240和目标230，如由桌子250上的虚线所指示。虚拟对象240可为任何计算机产生的图像，包含类人人物或例如汽车等对象。

图2B说明根据本发明的一个实施例的终止移动装置210中的AR环境且返回到正常的视频操作。起初，在图2B中，包含虚拟对象240和虚拟背景270的AR环境显示于移动装置210的显示器上，同时检测到目标230。然而，当用户220将移动装置210移动远离目标230时，移动装置210终止显示AR环境且返回到其正常的视频操作。在图2B中所说明的实例中，用户220移动移动装置210以俘获远离目标的电话280，且因此，移动装置210终止显示AR环境且替代地在其正常的视频操作中显示电话280的图像。另一方面，如果在电话280上或旁边检测到另一对象，那么移动装置210可用虚拟对象240和/或虚拟背景270起始AR环境。在一些实施例中，当在已起始AR环境之后不再检测到目标230或预定外部声音时，移动装置210可在继续在背景中运行AR环境的同时执行其它任务。在此情况下，如果检测到目标230或声音，那么移动装置210可返回显示AR环境。

图3说明根据本发明的一个实施例的对来自外部声音源360的外部声音作出响应的虚拟对象340的图。为了易于理解，在图3中未说明桌子和目标，但应了解，在移动装置310已检测到目标之后，AR环境运行在移动装置310中。在此AR环境中，移动装置310从存在于现实世界环境中的外部声音源360接收外部声音。外部声音源360可为如图3中说明的另一人，或产生可由移动装置310检测到的声音的任何声音源。响应于外部声音，虚拟对象340可经配置以执行动作，所述动作指示知晓从其产生外部声音的外部声音源360。举例来说，虚拟对象340可从虚拟对象340起初放置在其处的目标中心在外部声音源360的方向上观看或移动。虚拟对象340还可经配置以响应于所接收的外部声音而采取任何动作或交互。举例来说，如果移动装置310接收到被感知为噪声的周围声音，那么虚拟对象340可不响应于所接收的周围声音而采取任何动作。

图4说明根据本发明的一个实施例的用于将扩增现实环境提供给用户的移动装置110的框图。移动装置110包含控制单元400、传感器420、存储单元440和显示器460。传感器420进一步包含图像传感器420A和声音传感器420B。应理解，这些组件可与本发明中所描述的任何移动装置进行组合。

当在正常的视频模式中操作时，移动装置110的图像传感器420A俘获现实世界图像，且声音传感器420B接收外部声音。控制单元400经配置以从所俘获的现实世界图像来确定所述图像是否包含目标。如果未检测到目标，那么移动装置110可继续在正常的视频模式中操作。另一方面，如果控制单元400确定所俘获的图像中的至少一者包含目标，那么控制单元400经配置以起始存储在存储单元440中的AR应用，且在移动装置110的显示器上为用户显示AR环境。举例来说，如图1中所示，当移动装置110俘获目标130时，控制单元400可将虚拟对象140和虚拟背景170实时地叠加到移动装置110的显示器460上的所俘获的图像上。

此外，控制单元400经配置以分析由声音传感器420B接收的外部声音。基于所接收的外部声音，控制单元400经配置以产生虚拟对象在AR环境中执行的响应。具体来说，控制单元400确定与目标130、移动装置110和外部声音的声音源160相关的几何信息。

所述几何信息指示移动装置110、目标130与声音源160之间的方向和位置关系。可通过使用相机姿势估计技术来确定移动装置110与目标130之间的几何信息，所述相机姿势估计技术使用存储在移动装置110中的与目标130的特征点(例如，特征点的数目、特征点的坐标)和目标130的物理大小相关的信息。相机姿势估计技术用于减少常规的相机模型的再投影误差。举例来说，所述技术可通过确定2-D图像中和3-D图像中的特征点之间的对应来估计具有预定数目的自由度(DOF)的相机姿势。基于所述对应，可使用众所周知的相机姿势变换方法将3-D特征点投影到2-D特征点中。

举例来说，可基于移动装置110的图像传感器420A的焦距以及所检测到的目标130的所存储的物理大小与显示器460上的所俘获的目标的大小的比率来确定移动装置110与目标130之间的距离。此外，移动装置110与声音源160之间的几何信息可使用波束成形技术而获得。举例来说，所述波束成形技术可基于移动装置110的声音传感器420B从声音源接收到的声音来估计声音源160的位置。基于以上所获得的几何信息，可确定目标130与声音源160之间的几何信息。将参考图8A和8B更详细地描述确定几何信息。

此外，控制单元400经配置以确定来自不同声音源的多个声音包含于所接收的外部声音中。在此情况下，可将所接收的外部声音分离为多个声音。此外，控制单元400经配置以分别确定对应于多个声音的声音源中的每一者的几何信息。基于所确定的几何信息，可针对声音源中的每一者来确定可为虚拟对象要执行的动作或不活动的响应。随后，控制单元400可确定虚拟对象140要执行的响应的输出次序。在响应是不活动的情况下，响应的输出次序可完全省略不活动响应。

另外，基于外部声音(例如，音乐、鼓掌等)的声音特性，控制单元400还可确定虚拟对象140在AR环境中执行的响应。可将一组参考声音和对应的AR响应存储在存储单元440中，且可将所接收的外部声音与所存储的参考声音进行比较。此外，可将所述组参考声音用作参考模型以与所接收的外部声音进行比较。基于所述比较，控制单元400可确定对匹配的参考声音的对应响应，且输出虚拟对象140在AR环境中执行的响应。虚拟对象140基于外部声音而执行的响应不限于以上实例，且可基于移动装置110相对于目标130的距离来执行响应的次序。举例来说，在其中外部声音是未辨识的声音(例如，噪声)的情况下，控制单元400可不产生动作或产生与未辨识的声音相关联的不活动。此外，控制单元400可包含其它组件且执行图4中未展示的常规移动装置的功能。

图5是根据本发明的一个实施例的移动装置110的控制单元400的更详细框图。控制单元400包含目标对象检测器510、AR应用起始单元520、声音分析器530、几何信息计算单元540以及AR响应产生器550。

目标对象检测器510经配置以从所俘获的图像检测预定目标。如果目标对象检测器510确定所俘获的图像包含目标130，那么AR应用起始单元520经配置以起始AR应用，从而在移动装置110的显示器460上为用户120产生AR环境。举例来说，如图1中所展示，虚拟对象140和虚拟背景170显示于移动装置110的显示器上。

控制单元400中的声音分析器530经配置以从声音传感器420B检测外部声音。如果检测到外部声音，那么几何信息计算单元540经配置以确定移动装置110、目标130与外部声音的声音源160之间的几何信息。为了获得所俘获的图像中的目标130的位置和定向，将目标130与(例如)距移动装置110特定距离和与所述移动装置成特定角度的目标的预存储的图像进行比较。基于所述比较，几何信息计算单元540经配置以确定移动装置110的位置、定向和移动。另外，可基于来自移动装置110内的运动感测装置(例如，加速度计、磁力计或陀螺仪)的信息来监视移动装置110的移动。此外，几何信息计算单元540可确定移动装置110的位置和定向以确定移动装置110、目标130与声音源160之间的几何信息。此外，可将来自运动感测装置的信息与任何合适的方法进行组合，其可断定移动装置110的位置和移动。

接下来，几何信息计算单元540经配置以使用相机姿势估计技术来确定移动装置110与目标130之间的几何信息以及使用波束成形技术来确定移动装置110与声音源160之间的几何信息(包含声音源的位置)。基于移动装置110的所确定的位置和定向，移动装置110与目标130之间的几何信息以及移动装置110与声音源160之间的几何信息，几何信息计算单元540经配置以确定目标130与声音源160之间的几何信息。

移动装置110与目标130之间的几何信息可包含移动装置110与目标130之间的距离和角度中的至少一者。在此情况下，基于移动装置110的位置和定向，可将移动装置110的主平面(例如，移动装置110的背平面)用作参考平面。此外，几何信息计算单元540可确定正交于参考平面的向量以及从参考平面到目标的向量。随后，可将所述两个向量之间的角度确定为移动装置110与目标130之间的几何信息的一部分。移动装置110与声音源160之间的几何信息可以类似方式确定。

基于移动装置110与目标130之间以及移动装置110与声音源160之间的所确定的几何信息，几何信息计算单元540可确定目标130与声音源160之间的几何信息。举例来说，基于三个点(即，移动装置110、目标和声音源)，可使用两个先前确定的向量来确定目标130与声音源160之间的距离。将参考图8A和8B来描述用于确定几何信息的更多细节。

基于移动装置110、目标130与声音源160之间的所确定的几何信息，AR响应产生器550经配置以产生虚拟对象140在AR环境中执行的响应。举例来说，AR响应产生器550可产生站立在目标中心处的虚拟对象140看向声音源160的方向的响应。或者，站立在目标中心处的虚拟对象140可在声音源的方向上移动以作为响应。AR响应产生器550可基于外部声音而产生虚拟对象140执行的任何动作或不活动。举例来说，如果外部声音(例如，噪声)未被辨识，那么响应产生器550可不产生任何动作或可产生虚拟对象140执行的与未辨识的声音相关联的不活动。此外，可使用任何合适的方法来识别声音源160与移动装置110和/或目标130与移动装置110之间的位置信息。

图6是说明根据本发明的一个实施例的用于基于外部声音而产生虚拟对象执行的响应的方法的流程图600。起初在610处，移动装置在正常视频模式中操作。在620处，在视频模式中，连续地跟踪现实世界环境的实时俘获的图像以确定是否检测到目标。如果在所俘获的图像中检测到预定目标，那么起始AR应用且在630处显示虚拟对象和虚拟环境。或者，在检测到预定外部声音之后可即刻显示虚拟对象和虚拟环境。在一些实施例中，如果在图像中未检测到目标，那么正常的视频操作继续。通过将实时地俘获的图像与虚拟对象进行组合而产生AR环境。举例来说，参看图2A，当移动装置210俘获包含目标230的现实世界图像时，随后虚拟对象240和虚拟背景270出现在移动装置210的显示器上的AR环境中的目标230上。

随后在640处，移动装置确定是否接收到外部声音。在650处，移动装置确定目标、声音源与移动装置之间的几何信息(例如，位置和方向关系)。举例来说，可基于移动装置与目标之间的几何信息以及移动装置与声音源之间的几何信息来确定目标与声音源之间的几何信息，如上文所描述。基于所确定的几何信息，在660处产生虚拟对象的响应。随后，在670处，与虚拟背景(例如，虚拟背景170)一起执行响应的虚拟对象显示于移动装置的显示器上。

图7A和7B说明根据本发明的一个实施例的基于外部声音而产生虚拟对象将执行的响应的图。起初，移动装置710执行正常的相机操作。一旦移动装置710检测到预定目标730，便可起始AR应用，且在移动装置710的显示器上显示包含虚拟对象740和虚拟背景770的AR环境，如图7A中所示。

当AR应用正运行时，移动装置710经配置以检测来自外部声音源760的外部声音。基于所述外部声音，移动装置710确定移动装置710、目标730与外部声音源760之间的几何信息。移动装置710、目标730与外部声音源760之间的几何信息可用于确定虚拟对象740在AR环境中执行的响应。举例来说，在图7B中，虚拟对象740看向外部声音源760的方向以作为对外部声音的响应。

图8A和8B说明根据本发明的一个实施例的用于确定目标、声音源与移动装置之间的几何关系以用于基于外部声音来产生AR响应的图。几何信息一般包含两个对象之间的距离和角度中的至少一者。在本发明的一个实施例中，可使用移动装置810的图像传感器和声音传感器来确定几何信息。在图8A中，通过使用图像传感器来确定移动装置810与目标830之间的几何信息，同时通过使用声音传感器来确定移动装置810与外部声音源860之间的几何信息。

在图8A中，距离a指示移动装置810与外部声音源860之间的距离，距离b指示移动装置810与目标830的位置之间的距离，且距离c指示目标830的位置与外部声音源860之间的距离。将参考图8B更详细地描述测量这些距离的细节。从移动装置810的背侧的中心到外部声音源860的所估计位置来测量距离a，且从移动装置810的背侧的中心到目标830的中心来测量距离b。此外，还确定角度θ以便计算虚拟对象840与外部声音源860之间的距离c以及目标830相对于移动装置810和外部声音源860而形成的角度φ。将参考图8B更详细地描述用于计算距离c的方法。

图8B说明来自图8A的移动装置810、目标830与外部声音源860之间的简化几何关系。在图8B中，确定距离a、b和c以基于从外部声音源860接收到的外部声音来产生虚拟对象840执行的响应。为了计算目标830与外部声音源860之间的距离c，确定距离a和b以及角度θ。可通过使用此项技术中众所周知的任何信号处理技术(包含但不限于波束成形技术)来确定移动装置810与外部声音源860之间的距离a。波束成形技术基于由移动装置810的声音传感器从声音源接收到的声音来估计所述声音源的位置。

一旦确定了距离a，还可确定角度α。首先，将移动装置810的背侧用作参考平面，且确定正交于参考平面的向量v。随后，通过计算向量v与距离a之间的角度来确定角度α，以作为从参考平面到外部声音源860的向量。

此外，可使用图像传感器通过此项技术中众所周知的相机姿势估计技术(如上文所描述)来确定移动装置810与目标830之间的距离b。而且，通过计算向量v与距离b之间的角度来确定角度β，以作为从参考平面到目标830的向量。在根据本发明的一个实施例中，可通过比较目标的所存储的特征点的坐标与移动装置810的显示屏上的所检测到的目标830的坐标来估计角度β。

通过添加角度α和β来计算角度θ。基于距离a、距离b以及角度θ，可估计目标830与外部声音源860之间的距离c。此外，基于距离a、距离b以及距离c，还可估计目标830相对于移动装置810和外部声音源860而形成的角度φ。使用距离c和角度φ，移动装置810可确定虚拟对象840执行的响应。

返回参看图8A，虚拟对象840的响应是从目标830看向外部声音源860的方向。因此，在为用户820显示的AR环境中，虚拟对象840基于外部声音源860与虚拟对象840之间的几何信息而看向外部声音源860的方向，以便增强AR环境的现实世界感知。

图9A和9B说明根据本发明的另一实施例的基于外部声音而产生虚拟对象940将执行的响应的图。为了易于理解，在图9A和9B中未说明桌子和目标，但应了解，在移动装置910已检测到目标之后，AR环境运行在移动装置910中。类似于图7B，在图9A中，起始AR应用且虚拟对象940看向外部声音源960的方向以作为基于外部声音的响应。可确定移动装置910、目标与外部声音源960之间的几何信息以产生虚拟对象940的响应，如上文所描述。

响应于外部声音，可产生虚拟对象940的额外响应，如图9B中所示。在连续地从外部声音源960接收到外部声音的情况下，虚拟对象940连续看向外部声音源960的方向，如参考图7B所描述。如果从外部声音检测到预定词语，例如“微笑”，那么可在移动装置910的存储单元中搜索虚拟对象940基于词语“微笑”而执行的对应响应。举例来说，如图9B中所示，对词语“微笑”的响应是虚拟对象940的微笑面部表达。因此，虚拟对象940基于词语“微笑”在AR环境中微笑。或者，可将所接收的声音传输到外部装置(例如，服务器)，所述外部装置存储声音和对应响应的预定列表。在此情况下，外部装置可搜索对应于所接收的声音的响应且在移动装置中提供虚拟对象940执行的响应。

图10A和10B说明根据本发明的另一实施例的基于外部声音而产生虚拟对象1040将执行的响应的图。在图10A中，响应于检测到目标而起始包含虚拟对象1040和虚拟背景1070的AR应用。在此所说明的实施例中，虚拟背景1070包含多个区，例如圆圈，其识别不同类型的声音特性，例如噪声、流行、经典和鼓掌的声音，且虚拟对象1040位于中心区处。或者，虚拟背景1070的区可具有任何形状或形态(包含几何形状、地图和虚拟对象)，以便促进识别不同类型的声音特性。

一旦接收到来自外部声音源1060的外部声音，移动装置1010确定是否可将外部声音识别为具有在AR环境中的多个区中的一者中所指示的声音特性。举例来说，当接收到外部声音时，从外部声音提取至少一个声音特征。随后，可将外部声音的所提取的声音特征与和在虚拟背景1070的多个区中所识别的声音特性(或声音类别)相关联的多个参考声音模型(例如，统计模型(例如，高斯混合模型(GMM)))进行比较。参考声音模型可预存储在移动装置1010的存储单元中，或可存储在移动装置1010外部，例如外部存储器、服务器等。为了识别所提取的声音特征的声音特性，移动装置1010可经配置以执行得分操作以确定所提取的声音特征如何与参考声音模型中的每一者匹配。

在得分操作中，可基于匹配结果将数值指派给参考声音模型中的每一者。在一些实施例中，移动装置1010随后可确定具有在得分操作中接收的最高数值的参考声音模型(以识别预定声音类别)且输出虚拟对象1040执行的对应响应。举例来说，如图10B中所示，指示流行音乐的参考声音模型接收最高数值以作为得分操作的结果，且虚拟对象1040移动到标记为“流行”的区。在另一实施例中，得分操作可仅将数值提供给一些参考声音模型。或者，得分操作可仅提供在参考声音模型中的一者中表征所提取的声音特征的可能性。

图11是说明根据本发明的一个实施例的用于基于外部声音而产生虚拟对象将执行的响应的方法的流程图1100。起初，起始包含虚拟对象和虚拟背景的AR应用。当移动装置1010接收到外部声音时，在1120处，从外部声音提取声音特征。随后将所提取的声音特征与参考声音模型进行比较，且基于比较结果而给予参考声音模型一数值。在1140处，移动装置1010搜寻基于得分操作的结果而接收的具有最高数值的参考声音模型。一旦确定具有最高数值的参考声音模型，在1160处确定虚拟对象1040执行的与此类参考声音模型相关联的响应。虚拟对象随后在1180处在AR环境中执行对应响应。

图12说明根据本发明的一个实施例的用于产生虚拟对象执行的响应的控制单元400的详细框图。在所说明的实施例中，更详细地描述包含声音分析器530、几何信息计算单元540和AR响应产生器550的图5的控制单元400的一部分。具体来说，声音分析器530包含声音分离器1210和声音源识别单元1220，且AR响应产生器550包含响应产生单元1230、响应次序选择器1240和响应输出控制单元1250。

接下来，可由移动装置110的声音传感器接收包含来自不同声音源的多个声音的外部声音。随后将外部声音提供给声音分离器1210，所述声音分离器经配置以将外部声音分离为源自不同声音源的多个声音。一旦将经分离的声音提供给声音源识别单元1220，声音源识别单元1220通过确定声音源中的每一者相对于移动装置110的距离和方向来识别与经分离的声音中的每一者相关联的声音源。随后将声音源识别信息提供给几何信息计算单元540以用于确定移动装置110、目标与多个声音的每一声音源之间的几何信息，如参考图8A和8B所描述。

AR响应产生器550经配置以从几何信息计算单元540接收几何信息且产生虚拟对象在AR环境中执行的响应。具体来说，AR响应产生器550的响应产生单元1230经配置以基于来自几何信息计算单元540的几何信息而产生用于声音源中的每一者的响应，如在(例如)图5中所描述。基于所产生的响应，响应次序选择器1240确定用于声音源中的每一者的响应的输出次序。举例来说，响应次序选择器1240可确定虚拟对象根据预定条件(例如，所识别的声音源与目标的接近度)而执行的响应的输出次序。在一个实施例中，响应次序选择器1240可根据声音源与目标之间的相对距离来确定响应的输出次序。另一方面，输出次序的条件可为仅输出与某一类型的声音相关联的响应。此外，可在接收到外部声音之前或之后或随机地由用户选择或预定输出次序。一旦确定响应的输出次序，响应输出控制单元1250经配置以输出虚拟对象在AR环境中执行的响应。此外，如果经分离的声音中的一或多者不响应于任何可识别的声音源，那么可将非对应的声音识别为周围声音以进行忽视。

图13是说明根据本发明的一个实施例的用于产生虚拟对象的与多个声音相关联的响应的方法的流程图1300。在1310处，移动装置的声音传感器从多个声音源接收外部声音，同时运行AR应用。如果外部声音包含来自多个声音源的多个声音，那么在1320处将外部声音分离为多个声音。在1330处，随后用不同声音源识别所述多个声音中的每一者。一旦识别出多个声音的声音源，便使用(例如)波束成形技术来确定关于声音源的位置和方向的信息，如上文所描述。通过使用声音源的声音源信息，确定移动装置、目标与声音源中的每一者之间的几何信息，如上文所描述。

在1340处，通过使用此几何信息，针对每一声音源和分离的声音来确定虚拟对象执行的响应。一旦确定声音源和/或声音的响应，在1350处，便确定虚拟对象根据预定条件在AR环境中执行的响应的输出次序。在1360处，虚拟对象随后根据输出次序来执行响应。

图14A和14B说明根据本发明的一个实施例的基于来自多个声音源的外部声音而产生将由虚拟对象1440执行的响应的次序的图。类似于图2A，起初由起始AR应用的移动装置1410的图像传感器检测目标1430。在起始AR应用后，虚拟对象1440和虚拟背景1470即刻在AR环境中再现于移动装置1410的显示器上。当AR应用正运行时，移动装置1410的声音传感器接收来自多个声音源1480和1490的外部声音，如图14A中所说明。当接收到外部声音时，移动装置1410将声音分离为来自不同声音源的多个声音。对于所接收的每一外部声音，识别经分离的声音中的每一者的对应声音源。基于对声音源的识别，产生对经分离的声音和/或声音源中的每一者的响应。一旦已产生响应，便选择虚拟对象1440执行的响应的输出次序，且基于所述响应的输出次序，虚拟对象1440随后在AR环境中执行所述响应。

在一些实施例中，可将基于声音源1480和1490与虚拟对象1440的距离来产生将被输出为虚拟对象执行的响应的预定输出序列。举例来说，如图14A中所示，声音源1480定位成比声音源1490更靠近目标1430。在此所说明的实施例中，虚拟对象1440的输出次序包含首先看向较靠近目标1440的声音源1480，且随后看向进一步远离目标1430的声音源1490。因此，虚拟对象1440基于来自图14A中的声音源1480的声音而首先注视定位成较靠近目标1430的声音源1480。随后因此，虚拟对象1440响应于来自图14B中所示的声音源1490的声音而看向定位成进一步远离目标1430的声音源1490。

图15说明根据本发明的另一实施例的基于来自多个声音源的外部声音而产生将由虚拟对象1540执行的响应的次序的图。在图15中，由移动装置1510接收的外部声音包含来自声音源1580的声音和来自声音源1590的声音。对于所接收的每一外部声音，识别经分离的声音中的每一者的对应声音源。此外，分析经分离的声音以确定所述声音是否包含存储在移动装置1510的存储装置中的声音特性。在此情况下，可执行类似于参考图9A和9B所描述的声音特性识别操作的声音特性识别操作。基于对多个声音的声音源和声音特性的识别，可产生对经分离的声音和/或声音源中的每一者的响应。也就是说，将来自声音源1580的声音确定为噪声且不与虚拟对象1540执行的任何响应相关联，而对来自声音源1590的声音的响应是看向声音源1590。因此，如图15中所说明，虚拟对象1540基于来自声音源的声音而仅看向声音源1590，且不响应于外部声音而看向声音源1580。

图16A和16B说明根据本发明的一个实施例的基于移动装置1610和目标1630之间的距离来调整虚拟对象1640的音量的图。可基于移动装置1610和目标1630之间的距离来改变由虚拟对象1640产生的音量。可通过使用如上文所提及的相机姿势估计技术来估计移动装置1610和目标1630之间的距离。举例来说，通过比较先前俘获的目标的大小与当前俘获的目标的大小来计算移动装置1610和目标1630之间的相对距离。如果先前俘获的目标的大小小于当前俘获的目标的大小，那么确定移动装置1610和目标1630之间的距离已减小。相反，如果先前俘获的目标的大小大于当前俘获的目标的大小，那么确定移动装置1610和目标1630之间的距离已增加。基于移动装置1610和目标1630之间的相对距离，可调整AR环境中的音量以反映所述距离。

在图16A中，起初，响应于检测到目标1630而起始包含虚拟对象1640和虚拟背景1670的AR应用。在此所说明的实施例中，移动装置1610经配置以根据由虚拟对象1640在AR环境中执行的动作来输出声音，例如，引擎声音。如图16B中所示，当移动装置1610移动而进一步远离目标1630时，虚拟对象1640将在AR环境中显得更小。为了增强现实，由虚拟对象1640产生的音量也随着移动装置1610移动进一步远离目标1630而减小。相反，由虚拟对象1640产生的音量随着移动装置1610移动更靠近目标1630而增加。因此，可基于移动装置1610相对于目标1630的位置来调整音量。

图17是说明根据本发明的一个实施例的用于基于移动装置和目标之间的距离来调整虚拟对象的音量的方法的流程图1700。将参考图16A和16B来描述图17。在1710处，当检测到目标1630时，起始AR应用，且虚拟对象1640和虚拟背景1670在AR环境中显示于移动装置1610的显示器上。此时，虚拟对象1640还以特定音量输出引擎声音。在1730处，当移动装置1610移动进一步远离目标1630时，在1750处，移动装置1610基于移动装置1610的移动而调整以减小由虚拟对象1640产生的音量。此外，在1750处，移动装置1610调整AR环境以使虚拟对象1640在其中显得更小。随后，在1770处，将经调整的AR环境和音量输出到移动装置1610的显示器。

图18说明其中可执行本发明的AR应用的示范性移动装置1800的配置。可根据参考图1到18而描述的以上实施例在移动装置中实施移动装置1800的配置。移动装置1800可以是蜂窝式电话、终端、手持机、个人数字助理(PDA)、无线调制解调器、无绳电话等。无线通信系统可以是码分多址(CDMA)系统、全球移动通信系统(GSM)系统、宽带CDMA(WCDMA)系统、长期演进(LTE)系统、LTE高级系统等。此外，移动装置1800可例如使用Wi-Fi直接、蓝牙或FlashLinq技术与另一移动装置直接通信。

移动装置1800能够经由接收路径和发射路径提供双向通信。在接收路径上，由基站发射的信号被天线1812接收且被提供给接收器(RCVR)1814。接收器1814调节并数字化所接收的信号，且将例如经调节和数字化的数字信号等样本提供给数字区段以进行进一步处理。在发射路径上，发射器(TMTR)1816接收将从数字区1820发射的数据、处理并调节所述数据，且产生调制信号，所述调制信号经由天线1812而被发射到基站。接收器1814和发射器1816可以是可支持CDMA、GSM、LTE、LTE高级等的收发器的一部分。

数字区段1820包含各种处理、接口和存储器单元，例如，调制解调器处理器1822、精简指令集计算机/数字信号处理器(RISC/DSP)1824、控制器/处理器1826、内部存储器1828、一般化音频编码器1832、一般化音频解码器1834、图形/显示处理器1836和外部总线接口(EBI)1838。调制解调器处理器1822可执行用于数据发射和接收的处理，例如，编码、调制、解调和解码。RISC/DSP 1824可执行用于移动装置1800的一般和专门的处理。控制器/处理器1826可执行数字区段1820内的各种处理和接口单元的操作。内部存储器1828可将用于各种单元的数据和/或指令存储在数字区段1820内。

一般化音频编码器1832可执行用于来自音频源1842、麦克风1843等的输入信号的编码。一般化音频解码器1834可执行对经译码的音频数据的解码，且可将输出信号提供给扬声器/耳机1844。图形/显示处理器1836可执行对图形、视频、图像和文本的处理，其可呈现给显示单元1846。EBI 1838可促进在数字区段1820与主存储器1848之间传递数据。

可用一或多个处理器、DSP、微处理器、RISC等实施数字区段1820。数字区段1820还可被制造在一或多个专用集成电路(ASIC)和/或一些其它类型的集成电路(IC)上。

一般来说，本文中所描述的任何装置可表示各种类型的装置，例如无线电话、蜂窝式电话、膝上型计算机、无线多媒体装置、无线通信个人计算机(PC)卡、PDA、外部或内部调制解调器、通过无线信道进行通信的装置等。装置可具有各种名称，例如接入终端(AT)、接入单元、订户单元、移动台、移动装置、移动单元、移动电话、移动体、远程站、远程终端、远程单元、用户装置、用户设备、手持式装置等。本文中所描述的任何装置可具有用于存储指令和数据的存储器，以及硬件、软件、固件或其组合。

本文中所描述的技术可由各种装置实施。举例来说，可以硬件、固件、软件或其组合来实施这些技术。所属领域的技术人员将进一步了解，结合本文中的揭示内容而描述的各种说明性逻辑块、模块、电路和算法步骤可实施为电子硬件、计算机软件，或两者的组合。为清楚说明硬件与软件的此互换性，上文已大致关于其功能性而描述了各种说明性组件、块、模块、电路及步骤。所述功能性是实施为硬件还是软件取决于特定应用及强加于整个系统的设计约束。所属领域的技术人员可针对每一特定应用以不同方式实施所描述的功能性，但所述实施决策不应被解释为导致偏离本发明的范围。

对于硬件实施方案来说，用以执行所述技术的处理单元可实施于一或多个ASIC、DSP、数字信号处理装置(DSPD)、可编程逻辑装置(PLD)、现场可编程门阵列(FPGA)、处理器、控制器、微控制器、微处理器、电子装置、经设计以执行本文中所描述的功能的其它电子单元、计算机，或其组合中。

可使用通用处理器、DSP、ASIC、FPGA或其它可编程逻辑装置、离散门或晶体管逻辑、离散硬件组件，或其经设计以执行本文中所描述的功能的任何组合来实施或执行结合本文中的揭示内容而描述的各种说明性逻辑块、模块和电路。通用处理器可以是微处理器，但在替代方案中，处理器可以是任何常规处理器、控制器、微控制器或状态机。处理器还可实施为计算装置的组合，例如，DSP与微处理器的组合、多个微处理器的组合、一或多个微处理器与DSP核心的联合，或任何其它此配置。

对于固件和/或软件实施方案来说，所述技术可作为指令而实施于处理器可读媒体上，例如，随机存取存储器(RAM)、只读存储器(ROM)、非易失性随机存取存储器(NVRAM)、可编程只读存储器(PROM)、电可擦除PROM(EEPROM)、快闪存储器、压缩光盘(CD)、磁性或光学数据存储装置等。所述指令可为可由一或多个处理器执行的且可使致使所述处理器执行本文中所描述的功能性的某些方面。

如果实施于软件中，则可将功能作为计算机可读媒体上的一或多个指令或代码而加以存储或传输。计算机可读媒体包含计算机存储媒体与包含促进计算机程序从一处传递到另一处的任何媒体的通信媒体两者。存储媒体可为可由计算机存取的任何可用媒体。举例来说(且并非限制)，所述计算机可读媒体可包括RAM、ROM、EEPROM、CD-ROM或其它光盘存储装置、磁盘存储装置或其它磁性存储装置，或可用于载送或存储呈指令或数据结构的形式的所要程序代码且可由计算机存取的任何其它媒体。同样，可恰当地将任何连接称作计算机可读媒体。

举例来说，如果使用同轴电缆、光纤电缆、双绞线、数字订户线(DSL)或例如红外线、无线电及微波的无线技术从网站、服务器或其它远程源传输软件，则同轴电缆、光纤电缆、双绞线、DSL或例如红外线、无线电及微波的无线技术包含于媒体的定义中。如本文中所使用，磁盘及光盘包含压缩光盘(CD)、激光光盘、光学光盘、数字多功能光盘(DVD)、软盘及蓝光光盘，其中磁盘通常磁性地再现数据，而光盘使用激光光学地再现数据。以上各者的组合也应包含在计算机可读媒体的范围内。

软件模块可驻留在RAM存储器、快闪存储器、ROM存储器、EPROM存储器、EEPROM存储器、寄存器、硬盘、可移除磁盘、CD-ROM，或此项技术中已知的任一其它形式的存储媒体中。示范性存储媒体耦合到处理器，使得处理器可从存储媒体读取信息并将信息写入到存储媒体。替代地，存储媒体可与处理器成一体式。处理器及存储媒体可驻留于ASIC中。ASIC可驻留于用户终端中。替代地，处理器及存储媒体可作为离散组件驻留于用户终端中。

本发明的先前描述经提供以使所属领域的技术人员能够制造或使用本发明。所属领域的技术人员将容易了解对本发明的各种修改，且本文中界定的一般原理可应用于其它变化而不背离本发明的精神或范围。因此，本发明无意限于本文中所描述的实例，而是应被赋予与本文中所揭示的原理和新颖特征一致的最广泛范围。

虽然示范性实施方案可能涉及在一或多个独立计算机系统的背景下利用目前揭示的标的物的若干方面，但标的物不受如此限制，而是可结合任何计算环境来实施，例如网络或分布式计算环境。此外，目前揭示的标的物的若干方面可实施于多个处理芯片或装置中或上，且可在多个装置上类似地实现存储。此些装置可包含PC、网络服务器和手持式装置。

尽管已用结构特征和/或方法动作特有的语言描述了标的物，但应理解，所附权利要求书中所界定的标的物不一定限于上文所描述的特定特征或动作。而是，上文所描述的特定特征和动作是作为实施权利要求书的实例形式而揭示的。

Claims

1.一种用于在移动装置的扩增现实AR应用中对外部声音作出响应的方法，所述方法包括：

检测目标；

基于检测到所述目标而在所述AR应用中起始虚拟对象；

通过所述移动装置的至少一个声音传感器从声音源接收所述外部声音；

在所述移动装置处确定第一几何信息，所述第一几何信息包括所述声音源与所述目标之间的第一方向，所述第一方向不同于所述目标与所述移动装置之间的第二方向；以及

基于所述第一几何信息而致使所述虚拟对象在所述AR应用中执行对所述外部声音的至少一个响应。

2.根据权利要求1所述的方法，其进一步包含：

确定所述第二方向；

确定所述移动装置与所述声音源之间的第三方向；以及

基于所述第二方向和所述第三方向来计算所述第一方向。

3.根据权利要求2所述的方法，其中进一步基于以下各项计算所述第一方向：

所述移动装置与所述目标之间的距离；以及

所述移动装置与所述声音源之间的距离。

4.根据权利要求2所述的方法，其中基于相机姿势估计来确定所述第二方向。

5.根据权利要求1所述的方法，其中致使所述虚拟对象执行所述至少一个响应包含：

从所述所接收的外部声音提取至少一个声音特征；

将所述所提取的声音特征识别为对应于至少一个声音类别；以及

基于所述至少一个声音类别识别所述至少一个响应。

6.根据权利要求1所述的方法，其进一步包含在接收所述外部声音之后：

确定所述外部声音是否是从两个或两个以上声音源接收；

如果所述外部声音是从所述两个或两个以上声音源接收，那么将所述所接收的外部声音分离为多个声音；

识别与所述多个经分离的声音相关联的额外声音源；以及

确定所述所识别的声音源与所述目标之间的第四几何信息。

7.根据权利要求6所述的方法，其进一步包含：

确定所述虚拟对象的所述至少一个响应的次序，其中致使所述虚拟对象基于所述所确定的次序而执行所述至少一个响应。

8.根据权利要求1所述的方法，其进一步包括：

基于检测到所述目标而在所述移动装置处显示所述虚拟对象但不显示所述目标。

9.根据权利要求1所述的方法，其中确定所述第一几何信息包含确定以下各项中的一者或多者：所述声音源与所述目标之间的距离、所述移动装置的位置、所述目标的位置、所述声音源的位置。

10.根据权利要求1所述的方法，其进一步包括在接收所述外部声音之后：

确定所述外部声音是否是从两个或两个以上声音源接收；

确定两个或两个以上声音源中的每一者与所述目标之间的第二几何信息；

将所述经分离的声音中的每一者识别为对应于至少一个声音类别；以及

基于所述至少一个声音类别而识别所述至少一个响应。

11.一种用于在扩增现实AR应用中对外部声音作出响应的装置，所述装置包括：

图像传感器，其经配置以接收包含目标的至少一个图像；

至少一个声音传感器，其经配置以接收来自声音源的所述外部声音；以及

控制单元，其包含：

目标对象检测器，其经配置以检测所述至少一个图像中的所述目标；

应用起始单元，其经配置以基于检测到的所述目标而在所述AR应用中起始虚拟对象；

几何信息计算单元，其经配置以确定第一几何信息，所述第一几何信息包含所述声音源与所述目标之间的第一方向，所述第一方向不同于所述目标与所述装置之间的第二方向；以及

AR响应产生器，其经配置以基于所述第一几何信息而致使所述虚拟对象在所述AR应用中执行包括对所述外部声音的至少一个响应的动作。

12.根据权利要求11所述的装置，其中所述几何信息计算单元进一步经配置以：

确定所述第二方向；

确定所述装置与所述声音源之间的第三方向；以及

基于所述第二方向和所述第三方向来计算所述第一方向。

13.根据权利要求12所述的装置，其中进一步基于以下各项来计算所述第一方向：

所述装置与所述目标之间的距离；以及

所述装置与所述声音源之间的距离。

14.根据权利要求12所述的装置，其中所述第二方向是基于相机姿势估计而确定的。

15.根据权利要求11所述的装置，其中所述AR响应产生器进一步经配置以：

从所述所接收的外部声音提取至少一个声音特征；

将所述所提取的声音特征识别为对应于所述至少一个声音类别；以及

基于所述至少一个声音类别而识别所述至少一个响应。

16.根据权利要求11所述的装置，其进一步包括：

声音分析器，其经配置以：确定所述外部声音是否是从两个或两个以上声音源接收；如果所述外部声音是从所述两个或两个以上声音源接收，那么将所述所接收的外部声音分离为多个声音；识别与所述多个经分离的声音相关联的额外声音源；以及确定所述所识别的声音源与所述目标之间的第二几何信息。

17.根据权利要求16所述的装置，其中所述AR响应产生器进一步经配置以：

确定动作的次序，其中致使所述虚拟对象基于所述所确定的次序而执行所述至少一个动作。

18.根据权利要求11所述的装置，其中：

所述AR应用经配置以基于所述目标对象检测器检测到所述目标而致使显示所述虚拟对象但不显示所述目标。

19.根据权利要求11所述的装置，其中所述几何信息计算单元进一步经配置以确定以下各项中的一者或多者：所述声音源与所述目标之间的距离、所述装置的位置、所述目标的位置、所述声音源的位置。

20.根据权利要求11所述的装置，其进一步包括：

声音分析器，其经配置以确定所述外部声音是否是从两个或两个以上声音源接收；如果所述外部声音是从所述两个或两个以上声音源接收，那么将所述所接收的外部声音分离为多个声音；确定两个或两个以上声音源中的每一者与所述目标之间的第二几何信息；将所述经分离的声音中的每一者识别为对应于至少一个声音类别；以及基于所述至少一个声音类别和所述第二几何信息而产生所述虚拟对象的所述至少一个响应。

21.一种用于在扩增现实AR应用中对外部声音作出响应的设备，所述设备包括：

用于检测目标的装置；

用于基于检测到所述目标而在所述AR应用中起始虚拟对象的装置；

用于从声音源接收所述外部声音的装置；

用于确定第一几何信息的装置，所述第一几何信息包含所述声音源与所述目标之间的第一方向，所述第一方向不同于所述目标与所述设备之间的第二方向；以及

用于基于所述第一几何信息而致使所述虚拟对象在所述AR应用中执行对所述外部声音的至少一个响应的装置。

22.根据权利要求21所述的设备，其中所述用于确定所述第一几何信息的装置经配置以：

确定所述第二方向；

确定所述设备与所述声音源之间的第三方向；以及

基于所述第二方向和所述第三方向来计算所述第一方向。

23.根据权利要求22所述的设备，其中所述用于确定所述第一几何信息的装置经配置以：

确定所述设备与所述目标之间的距离；以及

确定所述设备与所述声音源之间的距离。

24.根据权利要求21所述的设备，其中所述用于确定所述第一几何信息的装置经配置以基于相机姿势估计来确定所述第二方向。

25.根据权利要求21所述的设备，其中所述用于致使所述虚拟对象在所述AR应用中执行所述至少一个响应的装置经配置以：

从所述所接收的外部声音提取至少一个声音特征；

基于所述至少一个声音类别识别所述至少一个响应。

26.根据权利要求21所述的设备，其中所述用于确定所述第一几何信息的装置经配置以：

确定所述外部声音是否是从两个或两个以上声音源接收；

识别与所述多个经分离的声音相关联的声音源；以及

确定所述所识别的声音源与所述目标之间的第二几何信息。

27.根据权利要求26所述的设备，其中所述用于致使所述虚拟对象在所述AR应用中执行所述至少一个响应的装置经配置以：

28.根据权利要求21所述的设备，其中：

所述用于确定所述第一几何信息的装置经配置以确定所述外部声音是否是从两个或两个以上声音源接收，且如果所述外部声音是从所述两个或两个以上声音源接收，那么将所述所接收的外部声音分离为多个声音，并确定两个或两个以上声音源中的每一者与所述目标之间的第二几何信息；且

所述用于致使所述虚拟对象执行的装置经配置以将所述经分离的声音中的每一者识别为对应于至少一个声音类别，并基于所述至少一个声音类别和所述第二几何信息而识别所述至少一个响应。