CN113412633B

CN113412633B - 固定环境中的虚拟远距传送

Info

Publication number: CN113412633B
Application number: CN201980091337.9A
Authority: CN
Inventors: B·福鲁坦保尔; S·塔加迪尔施瓦帕; P·H·阮
Original assignee: Qualcomm Inc
Current assignee: Qualcomm Inc
Priority date: 2019-02-12
Filing date: 2019-12-20
Publication date: 2024-07-05
Anticipated expiration: 2039-12-20
Also published as: TW202041036A; US11182972B2; CN113412633A; KR102472496B1; EP3925240C0; US20200258306A1; EP3925240A1; EP3925240B1; KR20210128390A; WO2020167383A1

Abstract

本文公开的技术包括一种用于从第二设备接收通信信号的第一设备，第一设备包括一个或多个处理器，其被配置为：在通信信号中接收作为被嵌入在虚拟图像中的一个或多个视觉对象的虚拟远距传送的一部分的表示虚拟图像的分组。一个或多个处理器可以被配置为：对表示虚拟图像的分组进行解码；以及在固定环境内的物理位置处输出虚拟图像。第一设备还可以包括存储器，其被配置为：存储作为被嵌入在虚拟图像中的一个或多个视觉对象的虚拟远距传送的一部分的表示虚拟图像的分组。

Description

固定环境中的虚拟远距传送

依据35 U.S.C.§119要求优先权

本专利申请要求享受于2019年12月19日递交的、名称为“VIRTUAL TELEPORTATIONIN FIXED ENVIRONMENTS”的非临时申请No.16/720,551、以及于2019年2月12日递交的、名称为“VIRTUAL TELEPORTATION IN FIXED ENVIRONMENTS”的临时申请No.62/804,657的优先权，上述申请被转让给本申请的受让人并且据此通过引用的方式被明确地并入本文中。

技术领域

本申请涉及固定环境中的虚拟远距传送。

背景技术

无线通信系统被广泛地部署以提供诸如语音、视频、分组数据、消息传送、广播等各种类型的通信内容。这些系统能够通过共享可用的系统资源(例如，时间、频率和功率)来支持与多个用户的通信。这样的多址系统的示例包括码分多址(CDMA)系统、时分多址(TDMA)系统、频分多址(FDMA)系统和正交频分多址(OFDMA)系统(例如，长期演进(LTE)系统或新无线电(NR)系统)。

无线多址通信系统可以包括多个基站或接入网络节点，每个基站或接入网络节点同时支持针对多个通信设备(其可以另外被称为用户设备(UE))的通信。另外，无线通信系统可以包括用于基于车辆的通信的支持网络。例如，车辆到车辆(V2V)和车辆到基础设施(V2I)通信是使得能够在车辆与其周围环境之间交换数据的无线技术。V2V和V2I被统称为车辆到万物(V2X)。V2X针对快速移动的对象(例如，车辆)使用无线通信链路。最近出现了V2X通信蜂窝V2X(C-V2X)，以将其与基于WLAN的V2X区分开。

5G汽车协会(5GAA)推动了C-V2X。C-V2X最初是在LTE版本14中定义的，并且被设计为在若干模式下操作：(a)设备到设备(V2V)；(b)设备到小区塔(V2I)；以及(c)设备到网络(V2N)。在3GPP版本15中，C-V2X包括对V2V和基于传统蜂窝网络的通信两者的支持，并且该功能被扩展以支持5G空中接口标准。C-V2X中的PC5接口允许在不使用基站的情况下车辆与其它设备之间的直接通信(经由“侧行链路信道”)。

基于车辆的通信网络可以提供始终在线的远程信息处理，其中UE(诸如车辆UE(v-UE))直接向网络(V2N)、行人UE(V2P)、基础设施设备(V2I)和其它v-UE进行传送(例如，经由网络)。基于车辆的通信网络可以通过提供智能连接来支持安全的、始终连接的驾驶体验，其中交通信号/计时、实时交通和路线、行人/骑自行车者的安全性警报、碰撞避免信息等被交换。

然而，这种支持基于车辆的通信的网络还可以与各种要求(例如，通信要求、安全和隐私要求等)相关联。其它示例要求可以包括但不限于减少的时延要求、更高的可靠性要求等。例如，基于车辆的通信可以包括传送可以支持自动驾驶汽车的传感器数据。也可以在车辆之间使用传感器数据来提高自动驾驶汽车的安全性。

V2X和C-V2X允许出现各种应用，包括在本公开内容中描述的应用。

发明内容

概括而言，本公开内容描述了与固定环境中的虚拟远距传送相关的技术。

在一个示例中，本公开内容描述了一种用于从第二设备接收通信信号的第一设备，所述第一设备包括一个或多个处理器，所述一个或多个处理器被配置为：在所述通信信号中接收作为被嵌入在虚拟图像中的一个或多个视觉对象的虚拟远距传送的一部分的表示所述虚拟图像的分组。所述一个或多个处理器可以被配置为：对表示所述虚拟图像的所述分组进行解码；以及在固定环境内的物理位置处输出所述虚拟图像。所述第一设备还可以包括存储器，所述存储器被配置为：存储作为被嵌入在所述虚拟图像中的一个或多个视觉对象的所述虚拟远距传送的一部分的表示所述虚拟图像的所述分组。

在一个示例中，本公开内容描述了一种用于在第一设备处从第二设备接收通信信号的方法，所述方法包括：在所述通信信号中接收作为被嵌入在虚拟图像中的一个或多个视觉对象的虚拟远距传送的一部分的表示所述虚拟图像的分组；以及存储作为被嵌入在所述虚拟图像中的一个或多个视觉对象的所述虚拟远距传送的一部分的表示所述虚拟图像的所述分组。所述方法还包括：对表示所述虚拟图像的所述分组进行解码；以及在固定环境内的物理位置处输出所述虚拟图像。

在一个示例中，本公开内容描述了一种用于在第一设备处从第二设备接收通信信号的装置，所述装置包括：用于在所述通信信号中接收作为被嵌入在虚拟图像中的一个或多个视觉对象的虚拟远距传送的一部分的表示所述虚拟图像的分组的单元；以及用于存储作为被嵌入在所述虚拟图像中的一个或多个视觉对象的所述虚拟远距传送的一部分的表示所述虚拟图像的所述分组的单元。所述装置还包括：用于对表示所述虚拟图像的所述分组进行解码的单元；以及用于在固定环境内的物理位置处输出所述虚拟图像的单元。

在一个示例中，本公开内容描述了一种具有存储在其上的指令的非暂时性计算机可读存储介质，所述指令在被执行时使得第一设备的一个或多个处理器进行以下操作：在所述通信信号中接收作为被嵌入在虚拟图像中的一个或多个视觉对象的虚拟远距传送的一部分的表示所述虚拟图像的分组；以及存储作为被嵌入在所述虚拟图像中的一个或多个视觉对象的所述虚拟远距传送的一部分的表示所述虚拟图像的所述分组。所述指令在被执行时可以使得一个或多个处理器进行以下操作：对表示所述虚拟图像的所述分组进行解码；以及在固定环境内的物理位置处输出所述虚拟图像。

在附图和以下描述中阐述了本公开内容的一个或多个示例的细节。根据说明书、附图和权利要求，所述技术的各个方面的其它特征、目标和优点将是显而易见的。

附图说明

图1a示出了第一设备的概念图，该第一设备基于对另一设备(例如，第二设备)的选择的检测来与该另一设备进行通信。

图1b示出了第一设备的概念图，该第一设备可以基于对另一设备(例如，第二设备)的选择(通过跟踪器辅助)的检测来与该另一设备进行通信。

图1c示出了平视显示器(HUD)架构的概念图。

图1d示出了根据在本公开内容中描述的技术的经由无线连接来将人投影到车辆中的乘客座椅上的概念图。

图1e示出了根据在本公开内容中描述的技术的经由无线连接来在车辆中投影虚拟后座乘客的数字显示器的概念图。

图1f示出了根据在本公开内容中描述的技术进行操作的显示器的概念图，该显示器在该显示器的背景中覆盖乘客。

图1g示出了根据在本公开内容中描述的技术进行操作的自主车辆中的显示系统的概念图。

图1h示出了根据在本公开内容中描述的技术进行操作的自主车辆中的显示系统的概念图。

图2示出了第一设备基于在本公开内容中描述的技术来接收作为被嵌入在虚拟图像通信中的一个或多个视觉对象的虚拟远距传送的一部分的表示虚拟图像的分组的过程的流程图。

图3a示出了第一车辆的概念图，其中在该第一车辆上或之中具有根据在本公开内容中描述的技术进行操作的不同组件。

图3b示出了跨越根据在本公开内容中描述的技术进行操作的多个车辆的虚拟群组通话体验的概念图。

图3c示出了跨越根据在本公开内容中描述的技术进行操作的不同物理实体的虚拟群组体验的概念图。

图4a示出了第一设备的框图，其中在该第一设备上或之中具有根据在本公开内容中描述的技术进行操作的不同组件。

图4b示出了第一设备的框图，其中在该第一设备上或之中具有根据在本公开内容中描述的技术进行操作的不同组件。

图4c示出了由第一设备执行的操作的流程图，其中在该第一设备上或之中具有根据在本公开内容中描述的技术进行操作的不同组件。

图5示出了根据在本公开内容中描述的技术的世界坐标到像素坐标的变换的概念图。

图6a示出了对远程车辆/乘客(例如，第二车辆)的距离和角度的估计的一个实施例的概念图。

图6b示出了对远程设备在x-y平面中的距离和角度的估计的概念图。

图6c示出了对远程设备在y-z平面中的距离和角度的估计的概念图。

图7a示出了根据在本公开内容中描述的技术的音频空间化器的实施例。

图7b示出了音频空间化器的实施例，该音频空间化器包括根据在本公开内容中描述的技术使用的解码器。

图8示出了其中第一车辆中的人的位置和被选择的(远程)车辆可以在相同坐标系中的实施例。

具体实施方式

某些无线通信系统可以用于传送与高可靠性和低时延相关联的数据。此类数据的一个非限制性示例包括C-V2X和V2X通信。例如，自动驾驶汽车可能依赖于无线通信。自动驾驶汽车可以包括一些传感器，例如，作为视线传感器的光检测和测距(LIDAR)、无线电检测和测距(RADAR)、相机等。然而，C-V2X和V2X通信可能包括视线和非视线无线通信。目前，C-V2X和V2X通信是使用非视线无线通信来处置接近公共交叉口但不在彼此视线内的车辆之间的通信的示例。C-V2X和V2X通信可以用于在车辆之间共享传感器信息。该通信场景和其它通信场景引发了某些考虑。例如，对于特定位置或地理区域，可能存在若干车辆感测到相同的信息，诸如障碍物或行人。这引发了以下问题：哪个车辆应当广播此类信息(例如，传感器数据)、如何共享此类信息(例如，哪个信道配置提供减少的时延和提高的可靠性)等等。

C-V2X通信系统可以具有逻辑信道和传输信道。逻辑信道和传输信道可以用作在第一设备(例如，耳机或车辆)与网络中的基站或另一中间节点之间的上行链路和下行链路数据传输的一部分。本领域普通技术人员可以认识到，逻辑信道可以包括不同类型的控制信道，例如，xBCCH、xCCH、xDCCH。当第一设备正在从另一实体(例如，服务器或基站)下载广播系统控制信息时，可以使用xBCCH类型的信道。xCCCH控制信道可以用于在第一设备(例如，车辆、移动设备或耳机)与网络(例如，网络基站中的节点)之间发送控制信息。当第一设备(例如，车辆、移动设备或耳机)不具有与网络的无线电资源控制连接时，可以使用xCCCH控制信道。xDCCH控制信道包括第一设备与网络之间的控制信息。xDCCH控制信道由具有与网络的无线电资源控制连接的第一设备使用。xDCCH也是双向的，即，控制信息可以由第一设备和网络发送和接收。

通常，在上文提及的不同类型的控制信道中输送的一些信息比特可以提供对数据信道(或资源)的位置的指示。由于数据可以跨越若干子载波(取决于发送的数据量)，并且控制信道的大小当前是固定的，因此这可能在控制信道和对应的数据信道之间引入时间/频率上的瞬变或间隙。这导致控制信道的未被使用的频率/时间资源。有可能将未被使用的频率/时间资源用于在车辆之间或在设备之间传送媒体的其它目的。还可能在V2X或C-V2X系统中创建新信道，具体地，用于在车辆之间或在设备之间交换媒体，诸如视觉对象和音频对象的虚拟远距传送。

虚拟远距传送用于描述在第一设备处接收的、针对另一设备的真实世界对象(例如，人)的表示的实时传输。该表示可以是视觉表示(诸如一个或多个相机实时捕获的位于另一设备中或附近的真实世界对象的视频图像)、或者在另一设备中或附近的三维扫描器扫描真实世界对象中得到的化身数据。该表示也可以是音频数据。音频数据也可以是由另一设备中或附近的一个或多个麦克风实时捕获的。可以处理音频数据，并且可以确定与真实世界对象相关联的音频源的位置。音频源可以是人的语音，在这种情况下，音频源被确定为单个音频对象。如果存在多个人，则可以存在多个音频源，并且因此可以存在多个音频对象。另外，位于另一设备中或附近的一个或多个麦克风可以捕获其它音频源，诸如音乐、道路噪声、在车辆或固定环境外部的大的语音。在这样的情况下，音频数据可以包括多个音频对象的位置。

如上文提及的，车辆正在使用来自其它领域的许多进步来改进其安全性、信息娱乐系统和整体用户体验。

例如，可以在车辆中使用并入诸如RADAR、LIDAR或计算机视觉之类的传感器的对象检测算法来在行驶时执行对象检测。这些对象可以包括道路车道、停车标志、其他车辆或行人。V2X和C-V2X用例中的一些用例设想了协作式V2X系统，以向车辆或车辆的驾驶员警告在车辆与另一对象(例如，汽车、自行车或人)之间何时可能存在可能的碰撞。由于V2X和C-V2X系统的相对新生的性质，许多细化尚未设想。

针对细化的一个领域是在当处于不同车辆中时的人员之间或者在处于不同固定环境中的人员之间的通信。例如，车辆的车舱是固定环境，即，诸如座椅、仪表板的位置之类的结构大多是静态的。固定环境的另一示例是在家里、在办公室或教室里，其中可能存在椅子、沙发或其它家具。虽然固定环境中的某个人有可能与不同的固定环境中的另一个人进行通信，但是通信是通过拨打电话来完成的。电话的发起者知道要拨哪个电话号码来与另一个人进行通信，然后拨打该电话号码。

本公开内容设想对设备(例如，车辆)允许从第二设备(例如，另一车辆或耳机设备)接收通信信号的方式的细化。第一设备可以包括一个或多个处理器，其被配置为在通信信号中接收作为被嵌入在虚拟图像中的一个或多个视觉对象的虚拟远距传送的一部分的表示虚拟图像的分组。一个或多个处理器可以被配置为对表示虚拟图像的分组进行解码。另外，一个或多个处理器可以被配置为在固定环境内的物理位置处输出虚拟图像。

第一设备可以包括两个或更多个扬声器，其被配置为呈现三维音频信号，其中三维音频信号包括一个或多个音频对象，所述一个或多个音频对象在空间上位于经远距传送的对象的虚拟图像看起来在物理上位于固定环境内的位置。例如，经远距传送的对象的虚拟图像可以看起来被投影在车辆内的物理位置处。替代地，经远距传送的对象的虚拟图像可以看起来在视网膜投影器上或者在车辆的显示表面(例如，桌子、挡风玻璃、显示设备、镜子)上或者在耳机(例如，HMD、XR、AR、VR设备)的显示表面上。

另外，三维音频信号可以被感知为是从远距传送虚拟图像的方向发出的。此外，音频信号可以包括在虚拟图像的远距传送期间、在虚拟图像的远距传送之前或在虚拟图像的远距传送之后的声音模式。声音模式可以包括音调或者可以是预先记录的声音。例如，如今的蜂窝电话具有与联系人相关联的铃声。尽管声音模式可以是铃声或某种其它声音模式，但是在虚拟图像的远距传送期间、在虚拟图像的远距传送之前或在虚拟图像的远距传送之后，不发生铃声。

此外，铃声或其它声音模式目前不从虚拟图像被远距传送的方向发出。例如，在虚拟图像的远距传送之前，可以存在第一声音模式，其可以充当关于远距传送即将发生的标识。第一声音模式可以是铃声或某种其它声音模式；然而，第一声音模式也可以是可以被感知为从虚拟图像即将被远距传送的方向发出的声音。在另一示例中，声音模式不必是三维的，其也不必被感知为如同其是从虚拟图像即将被远距传送、正在远距传送或刚刚被远距传送的方向发出的。声音模式可以仅指示存在即将发生的远距传送、正在发生远距传送或者刚刚发生了远距传送。

作为一个示例，考虑存在虚拟图像(其在远距传送期间被远距传送到车辆中)，并且虚拟图像可以在视觉上看起来是从右侧“进入”。也可能的是，声音模式也可以从右侧发出。

另外，可以存在与在虚拟图像的远距传送之前听到的声音模式不同的单独的声音模式。例如，这些单独的声音模式可以包括在虚拟图像的远距传送正在发生时发生的第二声音模式。另外，可以存在发生在虚拟图像的远距传送发生之后的第三声音模式。

本文参照附图描述了额外的技术和背景。

图1a示出了第一设备的概念图，该第一设备可以与另一设备(例如，第二设备)进行通信。该概念图还包括在第一设备内检测对另一设备的选择。例如，第一设备可以是能够通过V2X或C-V2X通信系统与第二设备进行通信的第一车辆303a。第一车辆303a可以包括不同的组件或人111，如在上面的圆圈103中所示。人111可以正在驾驶，或者如果第一车辆303a是自动驾驶的，则人111可以不在驾驶。人111可以通过第一车辆303a的镜子127或车窗132看到在道路上行驶的其它车辆，并且希望听到正在另一车辆内的收音机上播放的音乐类型。在第一车辆303a的一些配置中，第一车辆303a的相机124可以辅助人111看到其它车辆，其中通过镜子127或车窗132看到这些车辆可能是具有挑战性的。

人111可以选择在车辆外部的至少一个目标对象，或者如果人111正佩戴着耳机，则至少一个目标对象在耳机外部。目标对象可以是车辆本身，即，第二车辆可以是目标对象。替代地，目标对象可以是另一个人。这种选择可以是可以被编码在由第一车辆中的处理器执行的指令中的图像检测算法的结果。图像检测算法可以由安装在第一车辆上的外部相机辅助。图像检测算法可以检测不同类型的车辆，或者可以仅检测面部。

另外或替代地，人111可以说出描述符来识别目标车辆。例如，如果第二车辆是黑色本田雅阁，则该人可以说出“本田雅阁”、“在我前面的黑色本田雅阁”、“在我左侧的雅阁”等，以及语音识别算法可以被编码在指令中，所述指令在第一车辆中的处理器上执行以检测和/或识别短语或关键字(例如，汽车的品牌和型号)。因此，第一设备可以包括基于根据关键字检测而检测命令信号来选择至少一个目标对象。

执行用于图像检测算法的指令的处理器可能不一定是执行用于语音识别算法的指令的相同处理器。如果处理器不是相同的，则这些处理器可以独立地工作或以协调的方式工作，例如，以辅助另一处理器的图像或语音识别。一个或多个处理器(其可以包括在图像检测或语音识别中使用的相同处理器或不同的处理器)可以被配置为检测第一设备对至少一个目标对象的选择。也就是说，一个或多个处理器可以用于检测选择了哪个目标对象(例如，面部或另一车辆或耳机)。该选择可以发起与第二设备(另一车辆或耳机)之间的通信。在一些情况下，可能已经建立了第一设备与第二设备之间的通信信道。在一些情况下，图像检测算法还可以并入图像识别的各方面，例如，检测车辆与检测“本田雅阁”。为了简单起见，在本公开内容中，除非另有明确说明，否则图像检测算法可以包括图像识别方面。

如上文提及的，当两个人希望彼此进行通信和说话时，一个人通过拨打电话号码来呼叫另一个人。替代地，两个设备可以彼此无线连接，并且如果两个设备都连接到通信网络，则每个设备可以注册另一设备的互联网协议(IP)地址。在图1a中，第一设备与第二设备之间的通信也可以通过这些设备中的每个设备在V2X、C-V2X通信网络或具有在例如不使用基站的情况下直接连接两个设备的能力的网络中的相应的IP地址来建立。然而，与即时消息传送、聊天或电子邮件不同，第一设备与第二设备之间的通信是基于对与第二设备相关联的目标对象的选择或直接基于对第二设备本身的选择来发起的。

例如，车辆303a中的人111可以看到第二车辆303b或不同的第二车辆303c，并且可能希望基于以下方式来发起与这些车辆之一中的人的通信：对该车辆的图像检测、图像识别或语音识别。

在选择目标对象之后，第一设备中的一个或多个处理器可以被配置为发起通信，包括基于IP地址。在人111是第一车辆的驾驶员的情况下，用手通过对话窗口发起消息传送、电子邮件或聊天是不安全的。然而，用于在不使用手的情况下说话的音频用户接口正变得越来越流行，并且在图1a所示的系统中，有可能基于V2X或C-V2X通信系统来发起两个设备之间的通信并且与另一个人说话。车辆可以使用V2V通信或使用C-V2X的侧行链路信道进行通信。C-V2X系统的一个优点是，车辆可以在车辆之间发送通信信号，而与车辆是否连接到蜂窝网络无关。

还可能的是，当车辆无线地连接到蜂窝网络时，这些车辆使用V2V或C-V2X通信或侧行链路信道进行通信。

有可能在侧行链路信道中包括其它数据。例如，作为虚拟远距传送的一部分来接收的音频分组可以经由侧行链路信道被接收。在人111没有在驾驶(由于车辆本身在驾驶或者由于人111是乘客)的情况下，也有可能在侧行链路信道中在设备之间发送即时消息。即时消息可以是第一设备与第二设备之间的媒体交换(其可以包括音频分组)的一部分。

在顶部圆圈103中还示出的是显示设备119。显示设备119可以表示车辆的图像或图标。当发起通信时或在第一车辆303a与第二车辆(例如，303b或303c)之间的通信期间，图案133可以点亮或者可以闪烁。

此外，在选择目标对象之后，由于在第一设备外部的至少一个目标对象与第二设备之间的通信信道，可以从第二设备接收音频分组。例如，下面的圆圈163包括处理器167，处理器167可以被配置为：对从第二设备接收的音频分组进行解码以生成音频信号；以及基于对在第一设备外部的至少一个目标对象的选择来输出音频信号。也就是说，能够通过扬声器169的回放听到在第二车辆(或耳机设备)中正在播放什么语音或音乐。

如在本公开内容中稍后解释的，其它选择模式是可能的，包括人111的手势检测和人111的眼睛注视检测。

图1b示出了第一设备的概念图，该第一设备可以与另一设备(例如，第二设备)进行通信。该概念图还包括由跟踪器辅助的在第一设备内检测对另一设备的选择。

图1b具有与图1a相关联的描述相似的描述，其中添加了其它元素。例如，顶部的圆圈104没有示出设备119，因为在下方的圆圈129中示出了设备119。顶部的圆圈104示出了在车窗132、镜子127和内部相机124(它们可以如关于图1a描述的那样来运作)之外的车辆。

下方的圆圈129示出了显示设备119。除了仅表示车辆133的图标或图像之外，显示设备还可以表示可能被第一车辆303a中的人111潜在选择的实际车辆的图像。例如，在显示设备119上表示由一个或多个外部相机(例如，图3a中的310b、图4a中的402)捕获的车辆的图像。车辆的图像可以具有封装这些车辆的图像中的每个图像的边界框137a-137d。边界框可以有助于选择目标对象，例如，在显示设备上表示的车辆之一。另外，代替车辆的图标和图像之间的图案133，从选择第二车辆的人111的角度来看，可以存在单独的图案149。因此，边界框137d可以示出所选择的第二车辆303b，并且单独的图案149的方向可以点亮或者也可以闪烁，以指示已经发起或者正在发生与第二车辆303b的通信。

此外，处理器可以包括跟踪器151和特征提取器(未示出)，特征提取器可以对显示设备119上的图像执行特征提取。所提取的特征单独地或在一些配置中结合RADAR/LIDAR传感器可以辅助估计所选择的车辆(例如，303b)的相对位置。在其它配置中，跟踪器151可以辅助或仅对来自所选择的车辆的GPS位置的输入进行操作，该GPS位置也可以通过V2X或C-V2X系统中的通信信道被发送给第一车辆303a。

例如，第二车辆303b或另一第二车辆303c可能无法利用相机看到。在这样的场景中，车辆303b和303c可以各自具有检测每个车辆的位置的GPS接收机。每个车辆的位置可以由第一设备(例如，车辆303a)经由辅助GPS接收，或者如果V2X或C-V2X系统允许，则直接通过V2X或C-V2X系统接收。车辆的位置的接收可以由GPS坐标表示，GPS坐标由一个或多个GPS卫星160单独地或者结合基站(如例如在辅助GPS中使用的)来确定。第一设备可以基于经由其自己的GPS接收机知道第一设备(其自己的)GPS坐标，来计算其自己相对于其它车辆(车辆303b和303c)的位置。另外或替代地，第一设备可以基于耦合到第一设备的RADAR传感器、LIDAR传感器或相机的使用来计算其自己的位置。应理解，计算也可以被称为估计。因此，第一设备可以基于耦合到第一设备的RADAR传感器、LIDAR传感器、相机或者接收GPS坐标来估计其自己的位置。另外，每个车辆或设备可以通过使用辅助GPS来知道其自己的位置，即，使基站或其它中间结构接收GPS坐标并且将它们中继到每个车辆或设备。

此外，显示设备119可以在第一设备的相对位置上表示第二设备的图像。也就是说，与显示设备119协作的面向外部的相机310b或402可以在第一设备的相对位置上表示第二设备。因此，显示设备119可以被配置为表示第二设备的相对位置。另外，第二设备的相对位置可以在显示设备119上被表示为第二设备的图像。

另外，可以被集成到一个或多个处理器的音频引擎155可以基于设备的相对位置来处理经解码的音频分组。音频引擎155可以是音频空间化器的一部分，音频空间化器可以被集成为处理器的一部分，音频引擎155可以基于在显示设备119上表示的第二设备的相对位置来将音频信号作为三维空间化音频信号输出。

如上所讨论的，相对位置还可以是基于GPS接收机，GPS接收机可以耦合到跟踪器151并且可以与一个或多个处理器集成，并且第一设备可以执行辅助GPS以确定第二设备的相对位置。音频引擎155(其可以是音频空间化器的一部分，音频空间化器可以被集成为处理器的一部分)可以基于由第二设备161的辅助GPS确定的相对位置来将音频信号作为三维空间化音频信号输出。

此外，在一些配置中，面向外部的相机310b和402可以捕获在第一车辆303a前面或后面的设备或车辆。在这样的场景中，可能期望听到从在第一车辆303a后面(或者如果是耳机，则在佩戴耳机的人后面)的车辆或设备发出的声音，这些声音具有与在第一车辆303a前面的车辆或设备不同的空间分辨率。因此，与相对于第二设备的第二位置(例如，在第一设备后面)相比，当第二设备位于相对于第一设备的第一位置(例如，在第一设备前面)时，以不同的空间分辨率输出三维空间化音频信号。

另外，当正在跟踪在第一设备外部的至少一个目标对象(例如，第二设备或第二车辆)的相对位置时，一个或多个处理器可以被配置为：接收在第一设备外部的至少一个目标对象的相对位置的经更新的估计。基于经更新的估计，可以输出三维空间化音频信号。因此，第一设备可以通过扬声器157呈现三维空间化音频信号。第一车辆303a中的人或佩戴耳机的人可以听到由第二设备(例如，在第一设备右前方的车辆303c)接收的声音，如同音频来自右前方一样。如果第一设备是车辆303a，则右前方是关于车辆303a的潜在驾驶员从车窗132向外看去，如同他或她正在驾驶车辆303a一样。如果第一设备是耳机，则右前方是关于佩戴耳机的人直视前方。

在一些场景中，音频引擎155有可能接收多个音频流，即，来自多个设备或车辆的音频/语音分组。也就是说，可以存在被选择的多个目标对象。在第一设备外部的多个目标对象可以是车辆、耳机或者耳机和车辆的组合。在存在多个目标对象的这样的场景中，扬声器157可以被配置为基于多个车辆(例如，303b和303c)或设备(例如，耳机)中的每一者的相对位置来呈现三维空间化音频信号。还可能的是，将音频流混合到一个听觉信道中并且一起被听到，如同在辅助车辆(例如，303b和303c)中的至少一个人之间存在多方对话一样。

在一些配置中，可以在单独的通信信道中从多个车辆中的每个车辆接收音频/语音分组。也就是说，第一车辆303a可以在一个通信信道中从辅助车辆303b接收音频/语音分组，并且还可以在不同的通信信道303c中从不同的辅助车辆303c接收音频/语音分组。音频分组(为了简单起见)可以表示由辅助车辆中的每个车辆中的至少一个人所说的语音。

在这样的场景中，第一车辆303a中的乘客或耳机可以通过遍及本公开内容的其它部分所提出的技术来选择两个目标对象。例如，第一车辆303a中的人111可以在显示设备119上由边界框137a-137d封装的区域中点击，以选择要具有与其的多方通信的至少两个车辆(例如，303b和303c)。替代地，人111可以使用语音识别来选择要具有与其的多方通信的至少两个车辆(例如，303b和303c)。

在一些配置中，一个或多个处理器可以被配置为对辅助车辆中的人或车辆中的每一者进行认证，以促进辅助车辆(例如，303b和303c)中的至少一个人与第一车辆303a中的人111之间的可信多方对话。如果人们愿意将对方的语音采样存储在其车辆上，则认证可以是基于语音识别。其它认证方法可能涉及多方对话中的人或车辆的面部或图像识别。

图1c示出了车辆中的平视显示器(HUD)架构的概念图。该车辆(其可以是第一设备的示例)可以包括用于车辆中的人111观察经远距传送进入固定环境中的对象的显示设备(例如，数字显示器176)。显示设备(例如，数字显示器176)可以是如图1c所示的平视显示器。在固定环境中，显示设备可以在虚拟图像看起来被远距传送到的物理位置的若干厘米的可变距离内。例如，如果经远距传送的对象的虚拟图像看起来被远距传送到车辆的乘客座椅上，并且存在位于乘客座椅附近的投影器，则虚拟图像的投影与投影器之间的可变距离可以在60厘米内。例如，投影器可以位于车辆的车顶上，并且投影可以位于乘客座椅或后座附近。投影也可以在车辆的挡风玻璃182上。投影表面可以在投影器与虚拟图像184的投影的60厘米内。例如，车辆可以具有挡风玻璃182(在每个挡风玻璃与投影器之间的不同距离处)。因此，对于在驾驶员前面的挡风玻璃182，距离可以在60厘米内。然而，如果存在更靠近后座的挡风玻璃(例如，后挡风玻璃(未绘制)或后侧挡风玻璃)，则投影器与挡风玻璃之间的距离可能是较大的距离，例如，在90厘米内。在这样的情况下，在车辆的车舱内比汽车大的情况下(例如，小型货车或公共汽车)，所投影的图像可以在投影器的120cm内。在该示例中，HUD位于固定环境(即，车辆)的车舱内的物理位置上。然而，虚拟图像184可以被投影到车辆的车舱外部。尽管从技术上讲，投影可能在车辆的车舱外部，但是虚拟图像184的投影仍然是固定环境的一部分，因为HUD、镜子和挡风玻璃182都是固定环境的一部分。虚拟图像184可以随着车辆移动。HUD可以包括光学组合器和被配置为显示虚拟图像的不同的光学组件。此外，HUD可以被集成到车辆的挡风玻璃182中，并且虚拟图像184可以被显示在挡风玻璃上(在替代配置中)。在一个示例中，HUD可以与挡风玻璃182物理分离，并且虚拟图像184被显示在车辆的挡风玻璃182后面的平面中的自由空间中，如上文提及的。虚拟图像184可以是二维化身数据或三维化身数据。此外，车辆可以包括两个或更多个扬声器，其被配置为呈现与虚拟图像相关联的音频信号。

如图1c所示，HUD可以包括光学组合器和具有不同光学组件(诸如折叠镜178和非球面镜180)的显示系统。另外，挡风玻璃182可以是组合器。

如先前描述的，虚拟图像可以耦合到二维音频信号或三维音频信号。二维音频信号或三维音频信号可以包括一个或多个音频对象，这些音频对象表现为在空间上位于虚拟图像看起来在物理上位于固定环境内的位置。

另外，三维音频信号可以被感知为是从远距传送虚拟图像的方向发出的。例如，如在图4a中进一步解释的，第一车辆的驾驶员或第一设备可以选择目标对象，即，位于远离第一车辆或第一设备的一距离和角度处的真实世界对象。当虚拟远距传送即将发生时，音频信号可以包括在虚拟图像的远距传送期间(也就是在虚拟图像的远距传送之前)的声音模式，该声音模式表现为来自所选择的目标对象的距离和角度。在经远距传送的对象的远距传送之前的声音模式可以包括音调或者可以是预先记录的声音。

图1d示出了根据在本公开内容中描述的技术的经由无线连接而被投影到车辆中的乘客座椅上的人的概念图。在不同的实施例中，车辆可以包括投影器。如图1d所示，投影器可以被配置为投影虚拟图像。所投影的虚拟图像可以被投影到半透明投影屏幕或显示器186上。在另一实施例中，可以利用投影器照明。在图1d中，虚拟图像是看起来是乘客的人的图像。虚拟乘客可以是另一车辆或其它固定环境(例如，学校、办公室或家)中的不同乘客或驾驶员。投影屏幕或显示器186可以从车辆的车舱内升起或降下。虚拟图像(即，虚拟乘客)可以包括二维化身数据或三维化身数据。当虚拟乘客说话时，听起来如同乘客在虚拟图像所在的乘客座椅上一样。也就是说，虚拟乘客可以耦合到二维音频信号或三维音频信号。二维音频信号或三维音频信号可以包括一个或多个音频对象(例如，人的声音)，所述音频对象在空间上位于虚拟图像看起来在物理上位于固定环境内的位置。在一些系统中，投影器或投影器屏幕或显示器186可能阻挡声波，或者对于某种其它技术限制，可能无法使声音从虚拟图像看起来在物理上位于固定环境内的位置发出。因此，为了克服技术限制，在不同的实施例中，一个或多个音频对象可以在空间上位于与虚拟图像看起来在物理上位于固定环境内的位置不同的位置。

此外，三维音频信号可以被感知为是从远距传送虚拟图像的方向发出的。此外，音频信号可以包括在虚拟图像的远距传送期间、在虚拟图像的远距传送之前或在虚拟图像的远距传送之后的声音模式。在经远距传送的对象的远距传送之前的声音模式可以包括音调或者可以是预先记录的声音。图1e示出了根据在本公开内容中描述的技术的经由无线连接来在车辆中投影虚拟后座乘客的数字显示器的概念图。在车辆中，可以存在数字后视镜(例如，充当镜子的数字显示器189)。后视镜可以被配置为显示(例如，虚拟后座乘客的)虚拟图像187。另外，车辆可以包括两个或更多个扬声器，其被配置为呈现三维音频信号，该三维音频信号在空间上位于数字显示器189(例如，后视镜189)的图像平面处。数字后视镜的图像平面可以包括虚拟图像187的反射。

当虚拟远距传送即将发生时，音频信号可以包括在虚拟图像的远距传送期间(也就是在虚拟图像的远距传送之前)的声音模式，该声音模式表现为来自所选择的目标对象的距离和角度。在经远距传送的对象的远距传送之前的声音模式可以包括音调或者可以是预先记录的声音。

此外，在虚拟图像的虚拟远距传送之后，即，一旦例如乘客的虚拟图像位于固定环境(例如，车辆的后座)中，虚拟乘客的语音就可以表现为从后座发出。虚拟后座乘客可以被感知为听起来如同他们在车辆的后座上一样，即使真实世界目标对象在另一位置上，并且在虚拟远距传送之前，声音模式表现为来自该方向。另外，在不同的实施例中，即使虚拟后座乘客通过数字显示器189在视觉上出现在后座上，他们的语音也可以表现为听起来如同其是从数字显示器189所位于的位置发出的。

虚拟图像可以是另一车辆或其它固定环境(例如，学校、办公室或家)中的不同乘客或驾驶员。虚拟图像(即，虚拟乘客)可以包括二维化身数据或三维化身数据。当虚拟乘客说话时，听起来如同该乘客在虚拟图像所在的乘客座椅上。也就是说，虚拟乘客可以耦合到二维音频信号或三维音频信号。二维音频信号或三维音频信号可以包括一个或多个音频对象(例如，人的语音)，所述音频对象在空间上位于虚拟图像被感知为在物理上位于固定环境内的位置。

在另一车辆或固定环境中的不同乘客或驾驶员可以具有相机188(例如，类似于在图1e中所示的相机，但是在另一车辆中，不是在第一车辆中所示的相机188)以实时捕获视频图像。类似地，另一车辆或其它固定环境可以在另一设备中或附近具有三维扫描器(未示出)，以实时捕获可以由第一设备接收的化身数据。关于图4b和4c进一步讨论了对实时化身数据或视频图像的接收。另外，在另一设备中或附近可以存在捕获虚拟乘客的实时音频的一个或多个麦克风。关于其它图(至少包括图4a、4b和4c)进一步讨论了对实时音频的接收。

图1f示出了根据在本公开内容中描述的技术进行操作的显示器的概念图，该显示器在该显示器的背景中覆盖乘客192。还有可能的是，当驾驶员或另一乘客佩戴耳机设备195时，看到在数字显示器191a、191b上的虚拟图像的投影。例如，耳机设备195可以是头戴式显示器(HMD)、增强现实(AR)、混合现实(XR)、虚拟现实(VR)眼镜。所投影的乘客192可以被投影到集成在耳机设备195中的数字显示器191a上。在替代实施例中，数字显示器191b可以是车辆内的表面(例如，桌子、车窗)的一部分，或者可以是另一移动设备(例如，平板设备、智能电话或独立显示设备)的一部分。在显示器192上所投影的乘客可以被投影到数字显示器191b上。例如，使用增强现实技术，可以通过耦合到耳机设备195的一个或多个相机193来辅助乘客192在显示器191b上的投影。经远距传送的对象的虚拟图像可以看起来在物理上位于固定环境内。例如，经远距传送的对象的虚拟图像可以看起来被投影在车辆内的物理位置(诸如桌子)或车辆中的其它表面(诸如显示器191a)处。替代地，经远距传送的对象的虚拟图像可以看起来在耳机设备195(例如，HMD、XR、AR、VR设备)的显示表面上。在这样的情况下，在显示表面位于耳机设备195上的情况下，经远距传送的对象的虚拟图像可以在投影设备所在的位置的小于2厘米内。

虚拟图像可以是另一车辆或其它固定环境(例如，学校、办公室或家庭)中的不同乘客或驾驶员。虚拟图像(即，虚拟乘客)可以包括二维化身数据或三维化身数据。当虚拟乘客说话时，听起来如同虚拟乘客192在耳机设备195的数字显示器191a上投影的位置(即，屏幕上的朝向)上，或者在通过耦合到耳机设备195的相机193观看的数字显示器191b上。也就是说，虚拟乘客192可以耦合到二维音频信号或三维音频信号。二维音频信号或三维音频信号可以包括一个或多个音频对象(例如，人的语音)，所述音频对象在空间上位于虚拟图像看起来相对于耳机设备195上的数字显示器191a或者耦合到耳机设备195的数字显示器191b的屏幕的位置而定向的位置。可以将生成二维或三维音频信号的扬声器安装并集成到耳机设备195中。

另外，三维音频信号可以被感知为是从远距传送虚拟图像的方向发出的。此外，音频信号可以包括在虚拟图像的远距传送期间、在虚拟图像的远距传送之前或在虚拟图像的远距传送之后的声音模式。

例如，当虚拟远距传送即将发生时，音频信号可以包括在虚拟图像的远距传送期间(也就是在虚拟图像的远距传送之前)的声音模式，该声音模式表现为来自所选择的目标对象的距离和角度。在经远距传送的对象的远距传送之前的声音模式可以包括音调或者可以是预先记录的声音。

自主车辆50的车舱可以包括显示设备和用户接口单元56。显示设备可以表示可以在其上投影图像的任何类型的无源反射式屏幕、或者能够投影图像的有源反射式、发射式或透射式显示器(诸如发光二极管(LED)显示器、有机LED(OLED)显示器、液晶显示器(LCD)或任何其它类型的有源显示器)。

如图所示，显示设备可以被集成到车辆的车窗52中。尽管被示为包括单个显示设备(例如，单个车窗)，但是自主车辆可以包括多个显示器，这些显示器可以被定位在自主车辆50的整个车舱中。

在一些示例中，显示设备的无源版本或显示设备的某些类型的有源版本(例如，OLED显示器)可以集成到座椅、桌子、车顶内衬、地板、车窗中(或在没有车窗或有很少车窗的车辆中，集成到内壁中)或自主车辆的车舱的其它方面中。

为了确定在自主车辆50的车舱内投影虚拟乘客40的位置，可能存在预先配置的车舱上下文，其定义自主车辆50的车舱的几何形状以及指定要进行投影的显示设备的位置。例如，如图所示，显示设备可以被集成到车窗52中。然而，显示设备可以被集成到座椅54A-54D、用户接口单元56、仪表板58、控制台60、车舱地板62中或者作为高架投影器64的一部分。可以存在耦合到高架投影器64的相机66，其可以辅助识别自主车辆的车舱内的人的位置，以辅助一个或多个显示表面可以包括要投影到其上的一个或多个虚拟乘客40。

扬声器可以位于车辆的车舱内部，扬声器被配置为呈现三维音频信号，使得自主车辆50的车舱中的乘员可以感知如同在虚拟视觉对象看起来在物理上位于(例如，被投影在显示设备上)的位置发出的声音。例如，扬声器可以被配置为呈现三维音频信号以包括一个或多个音频对象，所述音频对象在空间上位于虚拟图像(即，虚拟人)被感知为在物理上位于固定环境内的位置。在该实施例中，固定环境是自主车辆50的车舱。虚拟人可以被表示为二维化身数据或三维化身数据。

此外，音频信号可以包括在虚拟图像的远距传送期间、在虚拟图像的远距传送之前或在虚拟图像的远距传送之后的声音模式。

显示设备还可以包括投影器64或能够在无源显示器上投影或以其它方式再现图像40的其它图像投影设备。在一些实施例中，投影器64可以在自主车辆50的车舱内创建3D全息图或其它3D视图。另外，尽管在图1h中没有明确示出，但是显示设备也可以表示与自主车辆50的车舱内的一个或多个处理器进行有线或无线通信的显示器。例如，在自主车辆内可以存在移动设备或其它设备。移动设备或其它设备的显示器可以例如表示计算设备，诸如膝上型计算机、平视显示器、头戴式显示器、增强现实计算设备或显示器(诸如“智能眼镜”)、虚拟现实计算设备或显示器、移动电话(包括所谓的“智能电话”)、平板计算机、游戏系统、或能够充当集成到自主车辆中的显示器的扩展或替代集成到自主车辆中的显示器的另一种类型的计算设备。

用户接口单元56可以表示用户可以与其对接以控制自主车辆的各种功能的任何类型的物理或虚拟接口。用户接口单元56可以包括物理按钮、旋钮、滑块或其它物理控制工具。用户接口单元56还可以包括虚拟接口，其中自主车辆的乘员经由触摸屏(作为一个示例)或者经由无接触接口与虚拟按钮、旋钮、滑块或其它虚拟接口元件进行交互。乘员可以与用户接口单元56对接以控制以下各项中的一项或多项：自主车辆50的车舱内的气候功能、自主车辆50的车舱内的扬声器的音频回放、自主车辆50的车舱内的显示设备上的视频回放、通过自主车辆50的车舱中的用户接口单元56的传输(诸如蜂窝电话呼叫、视频会议呼叫和/或网页会议呼叫)、或者在一些实施例中自主车辆能够执行的任何其它操作。

本领域普通技术人员将从上文讨论的各个示例中认识到，被远距传送到第一设备的虚拟图像可以被呈现在显示设备的显示屏幕的表面上。此外，本领域普通技术人员将从上文讨论的各个示例中认识到，显示设备可以被集成到耳机设备(例如，HMD、XR、VR、AR等)中。另外，显示设备可以被集成到第一设备中的挡风玻璃或车窗中。此外，显示设备可以被集成到第一设备中的桌子、平板计算机或第一设备中的另一移动设备中。同样如所讨论的，显示设备可以被集成到第一设备中的后视镜中。耳机设备(HMD、XR、VR、AR设备)或其它设备(平板计算机、数字后视镜)可以在这些显示设备之一的显示屏幕的表面上呈现被远距传送到第一设备的虚拟图像。另外，表面(挡风玻璃、车窗、桌子)还可以具有被远距传送到第一设备的虚拟图像的投影或呈现。

另外，第一设备可以包括两个或更多个扬声器，其被配置为呈现在空间上位于显示设备的图像平面处的三维音频信号。例如，可以存在看起来具有从人的嘴发出的声音的虚拟图像，并且该虚拟图像与声音在相同的平面中。在不同的实施例中，耳机设备可以在被集成到耳机设备中的显示设备上呈现虚拟图像。虚拟图像具有在显示设备的表面上的图像平面。然而，虚拟图像可以看起来如同其与显示设备相距某一距离。在这样的情况下，两个或更多个扬声器可以被配置为呈现在空间上位于显示设备的图像平面之外的三维音频信号，即，声音表现为相距某一距离，例如，在2cm-120cm内(根据虚拟图像可以看起来位于固定环境中的位置的各个示例)。

图2示出了第一设备基于在本公开内容中描述的技术来接收作为被嵌入在虚拟图像通信中的一个或多个视觉对象的虚拟远距传送的一部分的表示虚拟图像的分组的过程的流程图。用于从第二设备接收通信信号的第一设备可以包括一个或多个处理器，其被配置为：在通信信号中接收作为被嵌入在虚拟图像中的一个或多个视觉对象的虚拟远距传送的一部分的表示虚拟图像的分组210。存储作为被嵌入在虚拟图像中的一个或多个视觉对象的虚拟远距传送的一部分的表示虚拟图像的分组215。一个或多个处理器可以对表示虚拟图像的分组进行解码220，并且在固定环境内的物理位置处输出虚拟图像230。

图3a示出了第一车辆的概念图，其中在第一车辆上或之中具有根据在本公开内容中描述的技术进行操作的不同组件。如图3a所示，人111可以正在车辆303a中移动。对在车辆303a外部的目标对象的选择可以直接在驾驶员的视野内，该视野可以由耦合到车辆303a内的相机310a的眼睛注视跟踪器(即，人111正在看目标对象)或手势检测器(人111作出手势，例如，指向目标对象)来捕获。

第一设备可以包括对至少一个目标对象的选择，该选择是基于根据眼睛注视检测而检测命令信号。至少一个目标对象可以包括真实世界对象，例如，车辆中的乘客。另外，至少一个目标对象可以是佩戴另一耳机设备(例如，第二耳机设备)的人，或者至少一个目标对象可以是第二耳机设备。佩戴第二耳机设备或在所选择的车辆中的人可以被虚拟地远距传送以在第一耳机设备或第一车辆中被看见。

如果目标对象是在车辆303a外部的人，或者存在与车辆303b相关联的某个其它可识别图像，则安装在车辆303a上的相机310b也可以辅助选择目标对象本身(例如，车辆303b)或与目标对象相关联的另一设备。

通过无线局域网(WLAN)(其可以是蜂窝网络(诸如C-V2X)的一部分、或蜂窝网络和Wi-Fi网络的共存、或仅Wi-Fi网络)或V2X网络，可选地与深度传感器340耦合的一个或多个天线356可以辅助确定目标对象相对于车辆303a的相对位置。

应当注意，取决于可用的带宽，通过一个或多个天线356，安装在车辆303a内的相机310a、或安装在车辆303a上的相机310b、或两个相机310a、310b可以形成作为车辆303a的一部分的个域网(PAN)。通过PAN，车辆303a中的相机310a或车辆303a上的相机310b有可能与同目标对象相关联的设备或目标对象本身具有间接无线连接。尽管外部相机310b被示为在车辆303a的前面附近，但是车辆303a有可能具有安装在车辆303a的后面附近或后面的一个或多个外部相机310b，以便查看哪些设备或车辆在车辆303a后面。例如，第二设备可以是车辆303c。

外部相机310b可以辅助选择，或者如先前和下文解释的，GPS也可以辅助定位第二设备，诸如第二车辆303c所位于的位置。

可以在显示设备319上表示第二设备的相对位置。第二设备的相对位置可以是基于通过一个或多个天线356接收位置。在另一实施例中，可以使用深度传感器340来辅助或确定第二设备的位置。还可能的是，使用检测第二设备的位置的其它位置检测技术(例如，GPS)或辅助GPS来确定第二设备的相对位置。

第二设备的相对位置的表示可以表现为与第二设备相关联的合成图像、图标或其它表示，使得车辆303a中的人可以通过朝向显示设备319上的表示的眼睛注视或朝向显示设备319上的表示的手势(指向或触摸)来作出对第二设备的选择。

该选择也可以是通过语音识别，并且使用位于车辆303a内的一个或多个麦克风360。当第二设备与车辆3030a进行通信时，音频信号可以由(第一)车辆303a通过安装在车辆303a中或车辆303a上的耦合到一个或多个天线356的收发机接收。

第一设备的驾驶员或乘客有可能选择后面的车辆303a或前面的车辆303b，并且在第一设备与这些车辆中的任一者之间建立通信，以发起被嵌入在被远距传送的虚拟图像中的一个或多个视觉对象的虚拟远距传送。

本领域普通技术人员还将理解，随着自主车辆的不断进步，车辆303a的驾驶员可能不会实际手动指挥(即“驾驶”)车辆303a。确切而言，车辆303a可以在某一部分时间内是自动驾驶的。

例如，在位置4(354)处，当前车辆可以包括坐在数字显示器前面的驾驶员，该驾驶员佩戴根据在本公开内容描述的技术进行操作的耳机设备。可以将来自位置1(351)处的车辆的一个或多个乘客的投影或示例显示在位置4(354)处的耳机设备的数字显示器上，或者替代地利用上述HUD技术(无需耳机设备)投影在位置4(354)处的车辆中的挡风玻璃上或挡风玻璃前面。另外，来自其它位置(例如，位置2和3，其中示出了不同的车辆)的其它虚拟乘客在位置2和3处。这些不同的车辆具有如下的相同能力：通过使用位置2和3的车辆内的相机来捕获真实乘客，或者通过发送个性化化身并且将其远距传送到位置4(354)处的当前车辆。

经虚拟远距传送的乘客360的虚拟图像可以各自包括二维化身数据或三维化身数据。当虚拟乘客360中的虚拟乘客说话时，听起来如同该乘客在乘客座椅上或在车辆内的显示设备上(其中虚拟图像看起来在物理上位于该显示设备上)。也就是说，虚拟乘客可以耦合到二维音频信号或三维音频信号。二维音频信号或三维音频信号可以包括一个或多个音频对象(例如，人的语音)，所述音频对象在空间上位于虚拟图像被感知为在物理上位于固定环境内的位置。生成二维或三维音频信号的扬声器可以位于位置4(354)处的当前车辆中，或者可以安装并集成到位于位置4处的当前车辆的车辆内的耳机设备中。

另外，三维音频信号可以被感知为是从远距传送虚拟图像的方向发出的。此外，音频信号可以包括在虚拟图像的远距传送期间、在虚拟图像的远距传送之前或在虚拟图像的远距传送之后的声音模式。该声音模式可以包括音调或者可以是预先记录的声音。

图3c示出了跨越根据在本公开内容中描述的技术进行操作的不同物理实体的虚拟群组体验的概念图。与图3b类似，图3c描述了在不同建筑物处的固定环境。

例如，在位置8(378)处，当前建筑物可以包括坐在数字显示器前面的人，该人佩戴根据在本公开内容描述的技术进行操作的耳机设备。可以将来自位置5(375)处的建筑物的一个或多个人的投影显示在耳机设备的数字显示器上，或者替代地投影到投影屏幕、镜子或某种数字显示设备上(而不需要耳机设备)。另外，来自其它位置(例如，位置6和7，其中示出了不同的建筑物)的其它虚拟人在位置6和7处。这些不同的建筑物具有如下的相同能力：通过使用在建筑物内的相机来捕获真实世界对象(例如，人)，或通过发送由建筑物中的三维扫描器扫描的个性化化身并且将一个或多个人的化身或视频远距传送到位置8(378)处的当前建筑物。

经虚拟远距传送的人的虚拟图像可以各自包括二维化身数据或三维化身数据。当虚拟乘客说话时，听起来如同乘客在虚拟图像所在的乘客座椅上。也就是说，虚拟乘客可以耦合到二维音频信号或三维音频信号。二维音频信号或三维音频信号可以包括一个或多个音频对象(例如，人的语音)，所述音频对象在空间上位于虚拟图像看起来在物理上位于固定环境内的位置。生成二维或三维音频信号的扬声器可以位于位置5处的当前建筑物中，或者可以安装并集成到耳机设备中。

另外，三维音频信号可以被感知为是从远距传送虚拟图像的方向发出的。此外，音频信号可以包括在虚拟图像的远距传送期间、在虚拟图像的远距传送之前或在虚拟图像的远距传送之后的声音模式。例如，当虚拟远距传送即将发生时，音频信号可以包括在虚拟图像的远距传送期间(也就是在虚拟图像的远距传送之前)的声音模式，该声音模式表现为来自所选择的目标对象的距离420a和角度420b(参见图4b、图4c)。在经远距传送的对象的远距传送之前的声音模式可以包括音调或者可以是预先记录的声音。

图4a示出了第一设备的框图400a，其中在第一设备上或之中具有根据在本公开内容中描述的技术进行操作的不同组件。不同组件中的一个或多个组件可以被集成在第一设备的一个或多个处理器中。

如图4a所示，车辆可以包括用户接口单元56。先前，与自主车辆的车舱相关联地描述了用户接口单元56。然而，用户接口单元56也可以在非自主车辆中。用户接口单元56可以包括以下各者中的一者或多者：语音命令检测器408、注视跟踪器404或手势检测器406。用户接口单元56可以辅助选择在第一设备外部的目标对象。

基于第一设备(即，第一车辆)中的驾驶员或其他乘客选择目标对象，选择在设备外部的目标对象可以辅助传输虚拟乘客。目标对象可以是佩戴耳机的人，或者如果该人在第二车辆中，则目标对象可以是第二车辆。该人可以作为“虚拟乘客”被远距传送到第一车辆中。在图4a中，第一车辆中的驾驶员或其他人可以命令要与之发起通信的附近的第二设备。该通信可以用于基于第二设备的方向和角度来收听虚拟乘客，或者可以被远距传送到第一车辆中。用户接口56中的组件可以被集成到处理器中的一个或多个处理器中，或者在其它配置(如图4a所示)中，可以单独地集成到一个或多个处理器中。也就是说，这些组件(语音命令检测器408、注视跟踪器404或手势检测器406)中的一个或多个组件可以全部被集成到一个处理器中，或者可以各自位于单独的处理器中，或者这些组件的子集可以被集成到不同的处理器中。

例如，对在第一设备外部的目标对象的选择可以是基于眼睛注视跟踪器404，该跟踪器检测并且跟踪耳机的佩戴者正在看何处或者第一车辆中的人111正在看何处。当目标对象在人的视野内时，眼睛注视跟踪器404可以检测和跟踪眼睛注视，并且经由目标对象选择器414来辅助选择目标对象。类似地，耦合到车辆303a内的一个或多个面向内部的相机403或安装在耳机(未示出)上的手势检测器406可以检测手势，例如，指向目标对象的方向。另外，语音命令检测器408可以辅助基于人111说出短语(例如，“在我前面的黑色本田雅阁”)来选择目标对象，如上所述的。语音命令检测器408的输出可以被目标对象选择器414用于选择预期的第二设备，例如车辆303b或303c。

如先前提及的，车辆303a有可能具有安装在车辆303a的后面附近或后面的一个或多个面向外部的相机402，以便查看哪些设备或车辆在车辆303a后面。例如，第二设备可以是车辆303c。

可以基于图像的特征、图像、或者图像和图像的特征两者，相对于第一设备来表示目标对象(例如，第二设备)，其中图像是由耦合到第一设备的一个或多个相机捕获的。

外部402可以辅助选择第二车辆303c所位于的位置，例如，在车辆303a的后面(在其它图中)。

还可能的是，基于一个或多个发射机天线425以及可能基于深度传感器340(在图4a中未示出)或者检测第二设备的位置的其它位置检测技术(例如，GPS)，可以在显示设备410上表示第二设备的相对位置。第二设备的相对位置的表示可以表现为与第二设备相关联的合成图像、图标或其它表示，使得车辆303a中的人可以通过朝向显示设备410上的表示的眼睛注视或朝向显示设备410上的表示的手势(指向或触摸)来作出对第二设备的选择。

如果对远程设备(即，第二设备)的选择是基于触摸，则包括针对外部设备(即，第一设备)的至少一个目标对象的表示的显示设备可以被配置为基于显示设备上的电容性传感器或超声波传感器改变状态来选择在该设备外部的至少一个目标对象。

第一设备可以包括耦合到一个或多个处理器的一个或多个发射机天线425。第一设备的一个或多个处理器可以被配置为：基于由一个或多个处理器发起第一设备和与在第一设备外部的至少一个目标对象相关联的第二设备之间的通信信道来向第二设备发送通信数据。也就是说，在选择第二设备之后，一个或多个处理器可以使用C-V2X和/或V2X通信在第一设备和第二设备之间的通信信道中发起第一设备和第二设备之间的协议或其它形式的通信。

该选择也可以是通过语音识别，并且使用位于车辆303a内的一个或多个麦克风(在图4a中未示出)。当第二设备与车辆3030a进行通信时，音频信号可以由(第一)车辆303a通过安装在车辆303a中或上的耦合到收发机(例如，能够进行V2X或C-V2X通信的调制解调器)的一个或多个接收机天线430接收。也就是说，耦合到一个或多个处理器的一个或多个接收天线430可以被配置为基于在第一设备的外部的至少一个目标对象(例如，第二设备)和第一设备之间的通信信道的发起的结果来接收音频分组。

另外，第一设备可以包括一个或多个面向外部的相机402。面向外部的相机402可以安装在车辆303a上，也可以辅助选择目标对象本身(例如，车辆303b)或与目标对象相关联的另一设备(如果目标对象是在车辆303a外部的人或者存在与车辆303b相关联的其它可识别图像的话)。一个或多个面向外部的相机可以耦合到包括特征提取器(未示出)的一个或多个处理器，该特征提取器可以对显示设备410上的图像执行特征提取。所提取的特征单独地或在一些配置中结合外部传感器422(例如，RADAR/LIDAR传感器)可以辅助估计第二设备(例如，被选择的车辆303b)的相对位置。

所提取的特征或外部传感器422的输出可以被输入到被选择目标对象的相对位置/朝向确定器420。被选择目标对象的相对位置/朝向确定器420可以集成到一个或多个处理器中，并且可以是跟踪器的一部分，或者在其它配置(如图4a所示)中可以单独地集成到一个或多个处理器中。在图4a中，未示出跟踪器151。

距离420a和角度420b可以由被选择目标对象的相对位置/朝向确定器420提供。距离420a和角度420b可以由音频空间化器420用于输出基于第二设备的相对位置的三维音频信号。可以存在耦合到一个或多个处理器的至少两个扬声器440，其被配置为基于第二设备的相对位置来呈现三维空间化音频信号，或者如果存在多个第二设备(例如，多个车辆)，则可以如上所述地呈现三维空间化音频信号。

在目标对象选择器414执行对在第一设备外部的至少一个目标对象的选择之后，被集成到第一设备中的处理器中的一个或多个处理器中的命令解释器416进行在第一设备和与在第一设备外部的至少一个目标对象相关联的第二设备之间的通信信道。响应于对在第一设备外部的至少一个目标对象的选择，可以从第二设备接收音频分组。

来自第二设备的音频分组432a可以由编解码器438解码以生成音频信号。可以基于对在第一设备外部的至少一个目标对象的选择来输出音频信号。在一些场景中，音频分组可以表示来自与远程设备(即，辅助设备)436a相关联的云的流。编解码器438可以对音频分组进行解压缩，并且音频空间化器可以对未经压缩的音频分组432b或436b进行操作。在其它场景中，可以基于作出对辅助车辆的选择的人的乘客位置来将音频空间化。

编解码器可以与在图4a中所示的另一组件(例如，音频空间化器424)一起被集成到处理器中的一个或多个处理器中，或者在其它配置中可以单独地被集成到单独的处理器中。

因此，第一设备中的驾驶员可以选择哪个车辆旨在用于从其传送虚拟乘客(例如，第二设备)。虽然有可能与第二设备(例如，车辆)中的另一乘客进行通信而不传送第二车辆中的另一乘客的虚拟表示“虚拟乘客”，但是第一设备的驾驶员也可以发起传送虚拟乘客，如图4b和图4c中更详细地描述的。

要由音频编解码器使用的音频分组的传输可以包括以下各项中的一项或多项：MPEG-2/AAC立体声、MPEG-4BSAC立体声、Real Audio、SBC蓝牙、WMA和WMA 10Pro。由于C-V2X和V2V系统可以使用数据业务信道或语音信道，因此音频分组(可以携带语音信号)可以使用以下编解码器中的一个或多个编解码器来对音频信号进行解压缩：AMR窄带语音编解码器(5.15kbp)、AMR宽带语音编解码器(8.85Kbps)、G.729AB语音编解码器(8kbps)、GSM-EFR语音编解码器(12.2kbps)，GSM-FR语音编解码器(13kbps)、GSM-HR语音编解码器(5.6kpbs)、EVRC-NB、EVRC-WB、增强型语音服务(EVS)。语音编解码器有时被称为声码器。在空中被发送之前，声码器分组被插入到较大的分组中。在语音信道中发送语音，但是也可以使用VOIP(IP语音)来在数据信道中发送语音。编解码器438可以表示语音编解码器、音频编解码器或用于对语音分组或音频分组进行解码的功能的组合。通常，为了便于解释，术语音频分组还包括分组的定义。

可以将音频分组与虚拟乘客结合发送，并且可以与从第二设备到第一设备的元数据结合接收。

还可能的是，在一种配置中，在第二车辆与第一车辆相距特定距离之后，可以禁用空间化效果。

被包括在第一设备中的一个或多个处理器可以被配置为在第二车辆相距第一设备超过可配置距离之后禁用空间化效果。特定距离可以是基于例如八分之一英里的距离而可配置的。可以将可配置距离作为距离测量或时间测量输入。特定距离可以是基于时间(例如，取决于第一和第二车辆的速度)而可配置的。例如，可以按时间来测量两者之间的距离，而不是指示八分之一英里是空间效果应当持续的距离。以50英里/小时(mph)行驶的车辆，八分之一英里相当于9秒，即，125英里/50英里/小时＝.0025小时＝.0025*60分钟＝.15分钟＝9秒。因此，在该示例中，在9秒之后，空间效果可能逐渐消失或突然停止。

在一个实施例中，如果第二车辆与第一车辆相距特定距离，则空间化效果也可以针对远距传送被禁用。也就是说，第一车辆中的驾驶员可能无法选择第二车辆，并且也无法发起远距传送的各个方面。例如，如上文提及的，音频信号可以包括在虚拟图像的远距传送期间、在虚拟图像的远距传送之前或在虚拟图像的远距传送之后的声音模式。在一个实施例中，如果第二车辆太远，则在虚拟乘客的远距传送期间、在虚拟乘客的远距传送之前或在虚拟乘客的远距传送之后，可能禁用扬声器呈现声音模式。

图4b示出了第一设备的框图400b，其中在第一设备上或之中具有根据在本公开内容中描述的技术进行操作的不同组件。不同组件中的一个或多个组件可以被集成在第一设备的一个或多个处理器中。

框图400b包括传送器418和接收天线430。通过接收天线430，一个或多个处理器可以被配置为从经由侧行链路信道无线地连接到第一设备的第二设备接收元数据435。一个或多个处理器可以使用元数据来直接识别接收到的虚拟对象的位置，即，虚拟对象的坐标(视觉或音频)可以被嵌入在元数据中。另外或替代地，如果如在图4a中所描述的，车辆中的驾驶员或另一乘客正在通过使用目标对象选择器414选择虚拟对象，则元数据可以辅助被选择目标的相对位置/朝向确定器420的推导。

传送器418可以输出被压缩(即，以比特流的形式)或未被压缩的视频流。未示出视频编解码器，然而，在显示设备410、传送器418、远距传送虚拟对象合成器415中可以存在视频编解码器。替代地，可以存在被配置为对视频流进行解压缩(如果该视频流被压缩的话)的视频编解码器。视频编解码器可以耦合到传送器418，或者耦合到远距传送虚拟对象合成器415，或者耦合到显示设备415。视频流可以包括虚拟乘客的表示。

视频编解码器可以与在图4b中所示的另一组件(例如，远距传送虚拟对象合成器415)一起被集成到处理器中的一个或多个处理器中，或者在其它配置中，可以单独地被集成到单独的处理器中。传送器418、远距传送虚拟对象合成器415、确定器420和视频编解码器中的一者或多者可以各自被集成到一个或多个处理器中的处理器中，或者在一些配置中，这些组件中的任何组合可以被集成到一个或多个处理器中的一个处理器中。

传送器418的输出还可以包括虚拟乘客化身数据。如先前讨论的，经虚拟远距传送的人的虚拟图像可以各自包括二维化身数据或三维化身数据。化身数据或视频流可以被输入到远距传送虚拟对象合成器415中。远距传送虚拟对象合成器415的输出可以是在显示设备410上表示的增强图像。传送器418可以被集成到一个或多个处理器中。远距传送虚拟对象合成器415可以耦合到传送器418，并且还可以与一个或多个处理器集成。在一些实施例中，远距传送虚拟对象合成器415可以与显示设备410集成。

如先前讨论的，当虚拟乘客说话时，听起来如同该乘客在虚拟图像所在的乘客座椅上。也就是说，虚拟乘客可以耦合到二维音频信号或三维音频信号。二维音频信号或三维音频信号可以包括一个或多个音频对象(例如，人的语音)，所述音频对象在空间上位于虚拟图像看起来在物理上位于固定环境内的位置。生成二维或三维音频信号的扬声器440可以位于第一设备(例如，车辆)中，或者可以安装并集成到耳机设备中。

另外，三维音频信号可以被感知为是从远距传送虚拟图像的方向发出的。此外，音频信号可以包括在虚拟图像的远距传送期间、在虚拟图像的远距传送之前或在虚拟图像的远距传送之后的声音模式。例如，当虚拟远距传送即将发生时，音频信号可以包括在虚拟图像的远距传送期间(也就是在虚拟图像的远距传送之前)的声音模式，该声音模式表现为来自所选择的目标对象的距离420a和角度420b。在经远距传送的对象的远距传送之前的声音模式可以包括音调或者可以是预先记录的声音。

如先前关于图4a所讨论的，第一设备可以包括被配置为表示第二设备的相对位置的显示设备。

在从编解码器438解码音频分组432a或436a之后，音频空间化器424可以可选地生成三维音频信号。在相同或替代实施例中，可以从编解码器438解码与被嵌入在化身数据或视频流中的虚拟视觉对象相关联的音频分组432a。编解码器438可以实现关于图4a描述的音频编解码器或语音编解码器。一个或多个处理器可以被配置为基于第二设备的相对位置在显示设备410上被表示在何处来输出三维空间化音频内容。所输出的三维空间化音频内容可以由耦合到第一设备的两个或更多个扬声器440呈现。

在一些配置中，与是否在显示设备410上表示第二设备的位置无关，与音频对象相关联的音频信号的输出可以是基于第二设备的相对位置的三维空间化音频信号。在其它实施例中，音频对象可以是基于在从传送器418输出的元数据中包括的坐标的三维空间化音频信号。坐标可以包括针对音频对象的六个自由度。例如，可以存在虚拟音频对象在相对于固定坐标系的偏航、俯仰和滚动方面的三个自由度的旋转。类似地，虚拟对象可以考虑相对于虚拟视觉对象被投影的位置的三个自由度。

图4c示出了第一设备的框图400c，其中在第一设备上或之中具有根据在本公开内容中描述的技术进行操作的不同组件。不同组件中的一个或多个组件可以被集成在第一设备的一个或多个处理器中。

如图所示，视频数据可以由耦合到第二设备的相机生成。例如，为了便于说明，第二设备可以被称为设备B。使用设备B的人后面的视觉环境也可以由耦合到第二设备的相机捕获。替代地，使用设备B的人可以由二维(2D)或三维(3D)图形表示来表示。2D图形表示可以是化身。化身可以是动画卡通人物。3D图形表示可以是表示使用设备B的人的表面的3D数学模型。3D模型可以被纹理映射以获得额外的表面色彩和细节。纹理图允许沿着3D模型的表面包裹二维图像的像素。一个或多个接收天线430可以被配置为从设备B接收消息。

在第一设备和设备B之间可以存在握手或传送协议，其中使用一个或多个发射天线425从第一设备和设备B发送消息。类似地，在第一设备和设备B之间可以存在利用一个或多个接收天线430接收的消息。握手或传送协议可以包括一个或多个消息，其指示一个或多个虚拟对象或包括一个或多个虚拟对象的图像即将被远距传送到第一设备。为了便于解释，第一设备被称为设备A。通信解释器418a可以从设备B接收消息。基于消息内容，通信解释器418a可以将分组传递给数据提取器418b。该分组可以包括字段，所述字段包括一个或多个比特，所述比特指示分组包括虚拟乘客视频流和/或虚拟乘客化身数据。数据提取器418b可以解析该分组并且输出虚拟乘客视频流和/或虚拟乘客化身数据。在一些实施例中，数据提取器418b被集成到包括通信解释器418a的另一块中。

在一个实施例中，可以存在视频流或化身数据选择器464。选择器464可以输出视频流或化身数据。另外或替代地，选择器464可以输出视频流和/或化身数据两者。可以存在其中第一设备可以不具有选择器464并且输出化身数据、视频流、或者化身和视频流两者的配置。

化身数据可以包括一个或多个虚拟乘客的运动属性。运动属性可以由化身渲染器468渲染为动画，其中人体部分的3D模型可以移动。化身数据可以包括3D模型、2D纹理图和动画信息。化身数据可以被渲染以生成虚拟乘客的图像或彩色动画图像序列。本领域普通技术人员应当理解，虚拟乘客可以是任何对象，例如，虚拟动物、或虚拟器械、或卡通。彩色动画图像序列可以被称为车辆B乘客彩色图像。

除了彩色图像之外，还可以通过使用蒙版(matte)生成器43a来渲染化身数据以生成一个或多个车辆B乘客蒙版图像。蒙版图像可以用于将两个或更多个图像组合成单个最终图像。蒙版图像可以用于描述彩色图像中的感兴趣区域。例如，车辆B的蒙版图像是乘客彩色图像，并且感兴趣区域是从车辆B接收的对象(例如，人)。车辆B乘客彩色图像中的感兴趣区域可以具有在车辆B乘客蒙版图像中被着色为白色的对应像素。车辆B乘客蒙版图像中的其它像素可以全部被着色为黑色。感兴趣区域的边界区域和车辆B乘客蒙版图像的其余部分可以具有用于在白色像素和黑色像素之间平滑过渡的灰色像素值。车辆B乘客蒙版图像也可以被描述为具有透明度或alpha像素。当这样描述时，黑色指示透明度值，并且白色意指不透明的alpha值。

另外，车辆A中的一个或多个接收天线可以被配置为从第二设备(例如，车辆B)接收视频流。第二设备可以包括其自己的车舱内摄像机，或者可以耦合到在其上具有相机的设备。在一个实施例中，从视频流或化身选择器464输出所接收的视频流，并且选择器464将视频流传递给视频流色彩分离器470。在替代实施例中，所接收的视频流直接传递到视频流色彩分离器470。视频流色彩分离器生成彩色图像。彩色图像被输入到蒙版生成器472a中。在替代实施例中，可以存在耦合到视频流色彩分离器470的单独的蒙版生成器，而不是在视频流色彩分离器470和化身渲染器468之间共享。

可以将蒙版生成器432a的基于视频流色彩图像的输出图像475输入到合成器482中。类似地，还可以将蒙版生成器432a的基于化身渲染器468的输出图像476输入到合成器482中。蒙版生成器432a可以在感兴趣区域中应用图像分割来识别车辆B中的人并且生成车辆B乘客蒙版图像474。

在一个实施例中，合成器482可以将蒙版生成器472a图像的输出图像474与任一视频流彩色图像组合，并且生成合成图像。另外或替代地，合成器482可以将蒙版生成器472a的输出图像469与经化身渲染的彩色图像组合，并且生成合成图像。合成图像可以是增强视频图像。合成图像可以是基于经化身渲染的彩色图像和视频流彩色图像两者的组合。替代地，合成图像可以是基于经化身渲染的彩色图像而没有视频流图像，或者是基于视频流彩色图像而没有经化身渲染的彩色图像。

另外，车辆A可以使用面向内部的相机来捕获车舱内彩色视频428。图像分割技术可以用于描述车辆A中的感兴趣区域。来自面向内部的相机403的车舱内彩色视频当中的单色图像可以被传递给蒙版生成器473b并且生成车辆乘客蒙版图像484。

合成器482可以接收车辆B乘客彩色图像(474、469)和对应的车辆B蒙版图像(475、476)，并且利用车辆A乘客彩色图像488和车辆A蒙版图像484来执行图像合成。所得到的增强视频图像是放置在车辆A的适当环境中的虚拟对象(例如，虚拟乘客)的合成。例如，车辆B中的虚拟乘客可以具有座椅为蓝色的背景，但是在车辆A中所投影的虚拟乘客周围的座椅和/或门为棕色。虚拟乘客的背景(包括蓝色座椅)可以不出现在合成图像中。

合成器482可以使用over操作符合成，其中在数学上一个图像出现在另一图像之上。合成图像色彩可以由以下关系确定：

C_output＝C_foreground+C_background(1-A_foreground)

其中：C_output表示输出合成图像的像素色彩；

C_foreground表示前景图像的像素色彩；

C_background表示背景图像的像素色彩；

A_foreground表示前景图像的alpha(透明度)(即，蒙版图像)。

车辆B乘客蒙版图像(无论其是基于视频流474的蒙版图像475，还是基于经化身渲染的彩色图像469的蒙版图像476)是基于化身存在的位置的存在或不存在。

代替上述涉及蒙版生成器472a、472b的技术，可以使用深度图像辅助图像分割来完成蒙版生成。深度图像是如下的图像：其中每个像素描述从相机到空间中的该点的距离。接近相机的对象具有小的值或浅的深度。远离相机的对象具有大的深度。图像中的虚拟对象(例如，人)可以具有与相机相似且接近的深度图像像素值，而非人像素可以具有非常不同的值。可以使用两个车舱内深度摄像机(例如，面向内部的相机)来创建深度图像。为了从两个相机生成深度，可以使用三角剖分算法，以使用视差来确定深度图像像素值。视差是同一3D点在透视下投影到两个不同的相机上时的图像位置的差异。例如，可以使用以下关系来计算3D点位置：

x＝xl*(z/f)或B+xr*z/f

y＝yl*z/f或yr*z/f

z＝f*B/(xl-xr)＝f*B/d：

其中：

f是焦距；

B是基线；

D是两个相机之间的距离；

对应的左图像的图像点(xl,yl)和右图像的图像点(xr,yr)。

结合本文中的其它附图和描述，图4c中的块可以使得车辆A中的一个或多个人能够与车辆B中的一个或多个人进行通信。可能存在这样的场景：其中车辆A中的驾驶员希望与车辆B中的驾驶员或乘客说话，并且使虚拟对象(即，车辆B中的驾驶员或乘客)远距传送到车辆a的前座。

在一个实施例中，车辆A可能没有前座乘客。如结合图1c-图1h描述的，在不同的配置中，显示设备410可以被并入车辆中并且在车辆中使用。

作为一个示例，车辆A的驾驶员可以简单地看向他或她的右侧，并且与来自车辆B的另一个人的所呈现的视图说话。在一些实施例中，来自车辆B的人可以使其头部、肩部、手臂和身体左侧对于车辆A中的驾驶员(或其他乘客)是可见的。

还可能的是，将显示设备410用作车辆A中的数字后视镜(参见图1e)，其允许车辆A的驾驶员与车辆B中的人说话。然而，车辆B中的一个或多个人可以通过车辆A中的数字后视镜反射而被投影到后座中。车辆B中的人可以坐在车辆B中的任何位置，无论是前面驾驶员、前面乘客还是后面乘客位置。显示设备410可以充当数字后视镜。显示设备410可以耦合到安装在显示设备上方指向车辆的后部的相机。由相机捕获的实时视频可以被显示在显示设备410上。与物理镜子一样，当驾驶员在后视镜显示器(即，显示设备410)中观看时，他/她可以看到他或她自己的面部的一部分。因此，被远距传送到车辆A中的虚拟乘客可以被视为在车辆A中的驾驶员后面。

为了保持透视和遮挡的适当次序，通过使用车辆A驾驶员的侧影将在视频流或化身数据中表示的乘客适当地进行蒙版处理，可以在显示设备410上显示传送器418的视频流或化身数据输出。结果是车辆A乘客蒙版图像484。因此，虚拟乘客可以适当地合成前景和背景，使得他们出现在车辆A的驾驶员后面。合成器482的输出可以生成增强视频流，其将来自车辆B的虚拟乘客连同来自车辆A的任何后视乘客一起显示。

在另一实施例中，混合现实、增强现实或虚拟现实可穿戴设备(例如，眼镜或HMD)可以用于将来自车辆B的乘客或驾驶员置于车辆A中的任何座椅上。例如，可以对可穿戴设备的3D坐标系的朝向初始化，使得3D化身看起来在车辆A中的驾驶员的右侧，并且来自车辆B的后面乘客位于车辆A的驾驶员的后面。

可以存在描述正在从车辆B向车辆A发送的虚拟乘客中的每一者的空间位置和朝向的元数据。元数据的每个分组可以包括时间戳(例如，整数)和作为三维空间中的浮点数的X、Y、Z位置。另外，可以存在旋转或朝向信息，其可以被表达为作为三个浮点数的欧拉旋转X、Y、Z。

替代地，旋转或朝向可以被表达为描述角度和轴的四个浮点数的四元数旋转。可以存在描述每个人在汽车中的位置的两个整数。排号，其中前排表示汽车的有驾驶员的前排。座位号，其表示乘客沿着给定一排的从左到右的位置。最后，布尔值，其表示给定的乘客是真实的还是虚拟的。真实的乘客是在物理上坐在给定汽车中的乘客，而虚拟乘客是被再现为坐在车辆A中的乘客，即使该人在物理上坐在车辆B中。元数据可以用作针对被选择目标对象的相对位置/朝向确定器420(参见图4a)的输入。替代地，在一个实施例中，元数据可以被输入到音频空间化器424中，并且通过扬声器440播放。

图5示出了根据在本公开内容中描述的技术的将世界坐标变换为像素坐标的概念图500。安装在第一车辆上的外部相机(例如，图3a中的310b、图4a中的402)可以捕获图像(例如，视频帧)并且以三维(3D)世界坐标[x，y，z]502来表示对象。世界坐标可以被变换为3D相机坐标[xc，yc，zc]504。3D相机坐标504可以被投影到2D x-y平面(垂直于相机(310b，402)的面的方向法向量)，并且以像素坐标(x_p，y_p)506表示图像的对象。本领域的普通技术人员将认识到，从世界坐标到像素坐标的这种变换是基于使用输入旋转矩阵[R]、平移向量[t]和相机坐标[x_c，y_c，z_c]来变换世界坐标[x y z]。例如，相机坐标可以被表示为[xc，yc，zc]＝[x y z]*[R]+t，其中旋转矩阵[R]是3x3矩阵，并且平移向量是1x3向量。

感兴趣区域(ROI)的边界框可以在显示设备510上以像素坐标(x_p，y_p)表示。可以存在视觉指示(例如，在边界框512内增强的色彩变化或图标或合成指针)，以向车辆中的乘客提醒已经选择了目标对象(例如，第二车辆)来发起与其的通信。

图6a示出了对远程车辆/乘客(例如，第二车辆)的距离和角度的估计的一个实施例的概念图。可以从视频帧中的边界框622d推导距离。距离估计器630可以接收传感器参数632a、外视相机(310b、402)的固有和非固有参数632d以及边界框622d的大小632b。在一些实施例中，可以存在车辆信息数据库，其包括不同车辆的大小632c并且还可以包含可以辅助识别车辆的某些图像特性。

距离和角度参数可以按照视频帧速率来估计并且进行插值以匹配音频帧速率。从车辆的数据库中，可以获得远程车辆的实际大小，即宽度和高度。边界框的一角的像素坐标(x_p，y_p)可以对应于3D世界坐标中的具有给定方位角和仰角的一条线。

例如，使用边界框的左下角和右下角，并且具有车辆的宽度w，可以估计距离640c(d)和方位角(θ)640a，如图6b所示。

图6b示出了对远程设备在x-y平面中的距离640c和角度640a的估计的概念图。

图6b中的点A可以由世界坐标(a，b，c)表示。图6b中的点B也可以由世界坐标(x，y，z)表示。方位角(θ)640a可以被表示为(θ₁+θ₂)/2。对于小角度，距离d_xy*(sinθ₁-sinθ₂)近似为w，其是图6b中的远程设备的宽度。世界坐标(x，y，z)和(a，b，c)可以依据x-y平面中的宽度来表达，例如使用以下公式：

x＝a

|y-b|＝w

z＝c

在图5中描述的像素坐标可以被表达为x_p＝x＝a和y_p＝y＝w+/-b。

类似地，使用边界框的左下角和左上角，并且知道第二车辆303b的高度h，可以计算第二车辆303b的仰角640b和第二车辆的距离d_yz，如图6c所示。

图6c示出了对远程设备在y-z平面中的距离640c和角度640b的估计的概念图。

图6c中的点A可以由世界坐标(a，b，c)表示。图6c中的点B也可以由世界坐标(x，y，z)表示。仰角640b可以被表示为对于小角度，距离近似为h，其是图6c中的远程设备670的高度。世界坐标(x，y，z)和(a，b，c)可以依据y-z平面中的高度来表达，例如使用以下公式：

x＝a

y＝b

|z-c|＝h

在图5中描述的像素坐标可以被表达为x_p＝x＝a和y_p＝y＝b。

根据声源的位置，对于来自远程设备670的左半部分、右半部分或中间的声音，可以对仰角640b和方位角640a进一步调整。例如，如果远程设备670是远程车辆(例如，第二车辆)，则声源的位置可以取决于驾驶员正在说话还是乘客正在说话。例如，针对远程车辆的驾驶员侧(左)方位角640a可以被表示为(3*θ₁+θ2)/4。这提供了在图8中表示的车辆的左半部分中的方位角640a。

视频帧速率通常与音频帧速率不匹配。为了补偿不同域(音频和视频)中的帧速率的不对齐，可以针对每个音频帧对参数距离640c、仰角和方位角640a(θ)进行插值，作为从与先前的两个视频帧相对应的值的线性插值。替代地，可以使用来自最近视频帧的值(采样并保持)。此外，可以通过取过去若干视频帧的中值(异常值剔除)或平均值来将这些值平滑，代价是响应性降低。

在图6a中所示的距离640c(d)可以是d_xy或d_yz，或者d_xy和d_yz的某种组合(例如平均值)。在一些实施例中，可能期望忽略第一车辆与远程设备670之间的高度差，例如，如果远程设备670处于第一车辆的相同高度。另一示例可以是，第一车辆中的收听者配置用于通过将从远程设备670发出的声场的z分量投影到x-y平面来接收空间音频的设置。在其它示例中，远程设备670可以是无人机(例如，在播放音乐时四处飞行)，或者在高层建筑中可以存在正在流式传输音乐的设备。在这样的示例中，可能期望使角度估计器630输出仰角640b，或者使其它可选块也对其进行操作。也就是说，使针对视频到音频的帧速率转换的参数平滑640也对仰角640b操作，并且产生仰角640b的较平滑版本。由于车辆和/或远程设备将很可能正在四处移动，因此声音频率的相对变化可以由多普勒估计器650来考虑。因此，可能期望使第一车辆中的收听者另外以多普勒效应来听到远程设备670(例如，第二车辆)的声音。随着远程设备670距第一车辆越来越近或越来越远，多普勒估计器650可以增加或减少第一车辆中的收听者听到的频率(即，音高)的变化。随着远程设备670与第一车辆越来越近，声音(如果通过空气传播的话)以较高的频率到达收听者，因为接近第一车辆的远程设备压缩了压力声波。在音频信号(或音频内容)被压缩并且作为射频信号的一部分被接收的情况下，不存在人类听觉可感知的多普勒频移。因此，多普勒估计器650必须补偿并且使用距离和角度来创建多普勒效应。类似地，当远程设备670正移动远离第一车辆时，音频信号(或音频内容)的压力声波(如果通过空气传播的话)将被扩展，并且产生较低音高的声音。多普勒估计器650将补偿将作为较低频率效应的声音，因为音频信号(或音频内容)在比特流中被压缩，以及也被远程设备发送并且由第一车辆接收(使用根据作为用于C-V2X或V2X通信链路的空中接口的一部分的调制方案的射频波)。或者，如果远程设备670不是车辆，则可以使用不同类型的通信链路和空中接口。

图7a示出了根据本公开内容中的技术的音频空间化器724a的实施例。在图7a中，经重构的声场被渲染成被提供给扬声器440或耳机或任何其它音频递送机构的扬声器馈送。经重构的声场可以包括空间效果，空间效果被提供以考虑设备(例如，远程车辆或可穿戴设备)相对于车辆303a中的人111(或另一可穿戴设备)的距离和方位角/仰角。

距离702a(例如，其来自距离估计器630、针对视频到音频的帧速率转换的参数平滑器650、或多普勒估计器660)可以被提供给距离补偿器720。针对距离补偿器720的输入可以是音频信号(或音频内容)。音频信号(或音频内容)可以是编解码器438的输出。编解码器438可以输出经脉冲编码调制的音频信号。PCM音频信号可以在时域或频域中表示。可以将距离效应添加为滤波过程、有限脉冲响应(FIR)或具有与距离成比例的额外衰减(例如，1/距离可以是所应用的衰减)的无限脉冲响应(IIR)。还可以应用可选参数(增益)，以调大增益以提高可理解性。此外，混响滤波器是距离模拟器滤波器的一个示例。

可以建模并且添加到音频信号(或音频内容)的另一距离提示是关于图6c中的多普勒估计器650描述的多普勒效应。远程车辆的相对速度通过计算每单位时间的距离变化率来确定，并且距离和角度用于提供如上所述的多普勒效应。

声场旋转器710可以使用距离补偿器720的输出和输入角度702b(例如，方位角640a、仰角640b或基于这些角度的组合)，并且可以将来自远程设备(例如，第二车辆)的音频平移(pan)到预期的方位角和仰角。可以通过针对视频到音频的帧速率转换的参数平滑650对输入角度720b进行转换，以便以音频帧间隔而不是视频帧间隔输出。在图7b中示出了可以包括不依赖于距离的声场旋转器710的另一实施例。除了其它手段外，可以通过使用基于对象的渲染技术(诸如基于向量的幅度平移(VBAP)、基于全景声的渲染器)、或者通过使用用于基于耳机的空间化和渲染的高分辨率头部相关传递函数(HRTF)来实现平移(panning)。

图7b示出了音频空间化器424的实施例，该音频空间化器424包括根据在本公开内容中描述的技术使用的解码器。在图7b中，解码器724b可以在解码过程中利用距离702a信息。如在图7a中描述的，可以应用额外的距离效应。解码器730可以被配置为在解码大于某个门限的距离时忽略最高频率段(bin)。距离滤波器可以抹去这些较高的频率，并且可以不需要在这些频率段中保持最高的保真度。另外，可以在解码过程期间在频域中应用多普勒频移，以提供多普勒效应的计算高效的实现。也可以在频域中高效地实现混响和其它距离滤波效果，并且使其自身易于与解码过程集成。在解码过程期间，还可以在解码器内的时域或频域中应用渲染和/或双耳化，以在解码器的输出处产生被适当平移的扬声器馈送。

解码器730可以是语音解码器、音频解码器、或能够解码包括经压缩的语音和音乐的音频分组的组合语音/音频解码器。针对解码器730的输入可以是来自与一个或多个远程设备相关联的云服务器的流。也就是说，可以存在多个流作为输入432b。云服务器可以包括音乐或其它媒体的流式传输。针对解码器730的输入也可以是直接来自远程设备(例如，远程车辆)的经压缩的语音和/或音乐。

图8描述了实施例800，其中第一车辆中的人111的位置和被选择的(远程)车辆810可以在相同的坐标系中。可能需要相对于第一车辆中的人111的头部位置820(X’，Y’，Z’)重新调整相对于先前描述的外部相机的角度和距离。可以如下根据距离和方位角/仰角来计算所选择的远程设备(例如，远程车辆303b)的位置(X，Y，Z)802和第一车辆303a的位置(X，Y，Z)。X＝d*cos(方位角)，Y＝d*sin(方位角)以及Z＝d*sin(仰角)。可以确定来自(第一车辆的)面向内部的相机188的头部位置820，并且将其转换到与第一车辆的坐标相同的坐标系，以获得820X’、Y’和Z’。给定X、Y、Z 802和X’、Y’、Z’820，可以使用三角学关系来确定相对于人111的经更新的距离和角度。d＝sqrt[(X-X’)^2+(Y-Y’)^2+(Z-Z’)^2]，并且方位角＝asin[(Y-Y’)/d]，并且仰角＝asin[(Z-Z’)/d]。这些经更新的d和角度可以用于更精细的空间化和距离分辨率以及更好的精度。

本文描述的技术可以用硬件、软件、固件或其任何组合来实现。这些技术可以在各种设备中的任何一种中实现，诸如通用计算机、无线通信设备手持机、或具有多种用途(包括在无线通信设备手持机和其它设备中的应用)的集成电路器件。被描述为模块或组件的任何特征可以在集成逻辑设备中一起实现，或者单独地作为分立但可互操作的逻辑设备来实现。如果用软件来实现，则所述技术可以至少部分地通过计算机可读数据存储介质来实现，计算机可读数据存储介质包括程序代码，程序代码包括在被执行时执行上述方法中的一种或多种方法的指令。计算机可读数据存储介质可以形成计算机程序产品的一部分，计算机程序产品可以包括封装材料。计算机可读介质可以包括存储器或数据存储介质，诸如随机存取存储器(RAM)(诸如同步动态随机存取存储器(SDRAM))、只读存储器(ROM)、非易失性随机存取存储器(NVRAM)、电可擦除可编程只读存储器(EEPROM)、闪存、磁性或光学数据存储介质等。另外或替代地，可以至少部分地通过计算机可读通信介质来实现这些技术，计算机可读通信介质携带或传送具有指令或数据结构的形式并且可以由具有计算能力的设备访问、读取和/或执行的程序代码。

本领域普通技术人员将认识到，设备中的一个或多个组件可以在处理器的电路中实现，或者在一个或多个处理器中部分或全部作为专用集成电路(ASIC)的一部分实现。

程序代码或指令可以由处理器执行，处理器可以包括一个或多个处理器，诸如一个或多个数字信号处理器(DSP)、通用微处理器、专用集成电路(ASIC)、现场可编程逻辑阵列(FPGA)、或其它等效集成或分立逻辑电路。这样的处理器可以被配置为执行在本公开内容中描述的任何技术。通用处理器可以是微处理器；但在替代方案中，处理器可以是任何常规的处理器、控制器、微控制器或状态机。处理器还可以被实现为计算设备的组合，例如，DSP和微处理器的组合、多个微处理器、一个或多个微处理器与DSP核的结合、或任何其它此类配置。因此，如本文所使用的术语“处理器”可以指代前述结构中的任何一个、前述结构的任何组合、或适于实现本文描述的技术的任何其它结构或装置。另外，在一些方面中，本文描述的功能可以在专用软件模块或硬件模块内提供，所述专用软件模块或硬件模块被配置用于编码和解码或并入在组合视频编码器-解码器(CODEC)中。

本文讨论的译码技术可以是示例视频编码和解码系统中的实施例。系统包括源设备，该源设备提供经编码的视频数据以在稍后时间由目的地设备解码。具体地，源设备经由计算机可读介质向目的地设备提供视频数据。源设备和目的地设备可以包括各种各样的设备中的任何一种，包括台式计算机、笔记本(即，膝上型)计算机、平板计算机、机顶盒、电话手持机(诸如所谓的“智能”电话)、所谓的“智能”平板、电视机、相机、显示设备、数字媒体播放器、视频游戏控制台、视频流式设备等。在一些情况下，源设备和目的地设备可以被配备用于无线通信。

目的地设备可以接收要经由计算机可读介质解码的经编码的视频数据。计算机可读介质可以包括能够将经编码的视频数据从源设备移动到目的地设备的任何类型的介质或设备。在一个示例中，计算机可读介质可以包括通信介质，以使得源设备能够实时地将经编码的视频数据直接发送给目的地设备。可以根据通信标准(诸如无线通信协议)来对经编码的视频数据进行调制，并且将其发送给目的地设备。通信介质可以包括任何无线或有线通信介质，诸如射频(RF)频谱或一条或多条物理传输线。通信介质可以形成基于分组的网络的一部分，诸如局域网、广域网或全球网络(诸如互联网)。通信介质可以包括路由器、交换机、基站或可以用于促进从源设备到目的地设备的通信的任何其它装置。

在一些示例中，可以将经编码的数据从输出接口输出到存储设备。类似地，可以通过输入接口从存储设备访问经编码的数据。存储设备可以包括各种分布式或本地访问的数据存储介质中的任何一种，诸如硬盘驱动器、蓝光光盘、DVD、CD-ROM、闪存、易失性或非易失性存储器、或者用于存储经编码的视频数据的任何其它适当的数字存储介质。在另外的示例中，存储设备可以对应于文件服务器或者可以存储由源设备生成的经编码的视频的另一中间存储设备。目的地设备可以经由流式传输或下载来从存储设备访问所存储的视频数据。文件服务器可以是能够存储经编码的视频数据并且将该经编码的视频数据发送给目的地设备的任何类型的服务器。示例文件服务器包括网页服务器(例如，用于网站)、FTP服务器、网络附加存储(NAS)设备或本地磁盘驱动器。目的地设备可以通过包括互联网连接的任何标准数据连接来访问经编码的视频数据。这可以包括适于访问存储在文件服务器上的经编码的视频数据的无线信道(例如，Wi-Fi连接)、有线连接(例如，DSL、电缆调制解调器等)或两者的组合。来自存储设备的经编码的视频数据的传输可以是流式传输、下载传输或其组合。

本公开内容的技术可以在多种多样的设备或装置中实现，包括无线手持机、集成电路(IC)或一组IC(例如，芯片组)。在本公开内容中描述了各种组件、模块或单元，以强调被配置为执行所公开的技术的设备的功能性方面，但不一定需要由不同的硬件单元实现。确切而言，如上所述，各种单元可以被组合在编解码器硬件单元中，或者由互操作硬件单元的集合(包括如上所述的一个或多个处理器)结合适当的软件和/或固件来提供。

下文参照附图描述了本公开内容的特定实现。在该描述中，贯穿附图，共同的特征通过共同的附图标记来指定。如本文所使用的，各种术语仅用于描述特定实现的目的，而不旨在进行限制。例如，单数形式的“一(a)”、“一个(an)”和“所述(the)”也旨在包括复数形式，除非上下文另外明确地指出。还可以理解的是，术语“包括(comprise)”、“包括(comprises)”、和“包括(comprising)”可以与“包括(include)”、“包括(includes)”或“包括(including)”互换地使用。另外，将理解的是，术语“其中(wherein)”可以与“其中(where)”互换地使用。如本文所使用的，“示例性”可以指示示例、实现和/或方面，而不应当被解释为限制或指示优选方式或优选实现。如本文所使用的，用于修饰诸如结构、组件、操作等的元素的序数词(例如，“第一”、“第二”、“第三”等)本身不指示该元素相对于另一元素的任何优先级或次序，而仅是将该元素与具有相同名称(如果没有使用序数词的话)的另一元素区分开。如本文所使用的，术语“集合”指代一个或多个元素的分组，以及术语“多个”指代多个元素。

如本文所使用的，“耦合”可以包括“通信地耦合”、“电耦合”或“物理地耦合”，并且还可以(或替代地)包括其任何组合。两个设备(或组件)可以直接地耦合(例如，通信地耦合、电耦合或物理地耦合)，或者经由一个或多个其它设备、组件、导线、总线、网络(例如，有线网络、无线网络或其组合)等间接地耦合。作为说明性的非限制性示例，被电耦合的两个设备(或组件)可以被包括在同一设备或不同设备中，并且可以经由电子器件、一个或多个连接器或感应耦合进行连接。在一些实现中，被通信地耦合(诸如进行电子通信)的两个设备(或组件)可以直接地或间接地(诸如经由一条或多条导线、总线、网络等)发送和接收电信号(数字信号或模拟信号)。如本文所使用的，“直接耦合”可以包括在没有介于中间的组件的情况下耦合(例如，通信地耦合、电耦合或物理地耦合)的两个设备。

如本文所使用的，“集成”可以包括“制造或销售设备”。如果用户购买了将设备作为封装件的一部分捆绑或包括的封装件，则该设备可以是集成的。在一些描述中，两个设备可以是耦合的，但不一定是集成的(例如，不同的外围设备可以不集成到命令设备中，但仍然可以是“耦合的”)。另一示例可以是本文描述的收发机或天线中的任何一者，其可以“耦合”到处理器，但不一定是包括视频设备的封装件的一部分。当使用术语“集成”时，可以从本文所公开的上下文(包括本段)推断出其它示例。

如本文所使用的，设备之间的“无线”连接可以是基于各种无线技术，诸如可以基于不同的蜂窝通信系统(诸如V2X和C-V2X)进行“无线连接”。C-V2X允许车辆与其它设备之间的直接通信(经由“侧行链路信道”)，而无需使用基站。在这样的情况下，设备可以“经由侧行链路信道进行无线连接”。

长期演进(LTE)系统、码分多址(CDMA)系统、全球移动通信系统(GSM)系统、无线局域网(WLAN)系统或某种其它无线系统。CDMA系统可以实现宽带CDMA(WCDMA)、CDMA 1X、演进数据优化(EVDO)、时分同步CDMA(TD-SCDMA)、或CDMA的某个其它版本。另外，两个设备可以基于蓝牙、无线保真度(Wi-Fi)或Wi-Fi的变体(例如，Wi-Fi直连)进行无线连接。当两个设备在视线内时，“无线连接”还可以是基于其它无线技术，诸如超声、红外线、脉冲射频电磁能、结构光、或在信号处理(例如，音频信号处理或射频处理)中使用的到达方向技术。

如本文所使用的，A“和/或”B意味着“A和B”、或“A或B”、或“A和B”和“A或B”两者是适用的或可接受的。

如本文所使用的，单元可以包括例如专用硬接线电路、与可编程电路结合的软件和/或固件、或其组合。

术语“计算设备”在本文中一般用于指代以下各项中的任何一项或全部：服务器、个人计算机、膝上型计算机、平板计算机、移动设备、蜂窝电话、智能本、超级本、掌上计算机、个人数据助理(PDA)、无线电子邮件接收器、具有多媒体互联网能力的蜂窝电话、全球定位系统(GPS)接收机、无线游戏控制器、以及包括用于无线地发送和/或接收信息的可编程处理器和电路的类似电子设备。

已经描述了各种示例。这些和其它示例在跟随的权利要求的范围内。

Claims

1.一种用于从第二设备接收通信信号的第一设备，所述第一设备包括：

一个或多个处理器，其被配置为：

在所述通信信号中接收作为被嵌入在虚拟图像中的一个或多个视觉对象的虚拟远距传送的一部分的表示所述虚拟图像的分组；

对表示所述虚拟图像的所述分组进行解码；

在固定环境内的物理位置处输出所述虚拟图像；以及

生成音频信号，其中，所述音频信号包括声音模式，并且其中，所述声音模式在所述虚拟图像的所述远距传送期间是第一声音模式，并且所述声音模式在所述虚拟图像的所述远距传送之前或之后是不同的声音模式，所述音频信号是被感知为从远距传送所述虚拟图像的方向发出的三维音频信号；以及

存储器，其被配置为：存储作为被嵌入在所述虚拟图像中的一个或多个视觉对象的所述虚拟远距传送的一部分的表示所述虚拟图像的所述分组。

2.根据权利要求1所述的第一设备，其中，在固定环境内的所述物理位置处的所述虚拟图像被呈现在显示设备的屏幕的表面上。

3.根据权利要求2所述的第一设备，还包括所述显示设备，其中，所述显示设备被集成到以下各项中的一项中：耳机设备、所述第一设备中的挡风玻璃、所述第一设备中的平板设备、所述第一设备中的窗户、所述第一设备中的数字后视镜、所述第一设备中的桌子、以及所述第一设备中的移动设备。

4.根据权利要求1所述的第一设备，还包括：被配置为呈现所述音频信号的两个或更多个扬声器。

5.根据权利要求4所述的第一设备，其中，所述音频信号是在空间上位于显示设备的图像平面处的三维音频信号。

6.根据权利要求4所述的第一设备，其中，所述音频信号是在空间上位于显示设备的图像平面之外的三维音频信号。

7.根据权利要求4所述的第一设备，其中，所述音频信号是包括一个或多个音频对象的三维音频信号，所述一个或多个音频对象在空间上位于所述虚拟图像看起来在物理上位于所述固定环境内的位置。

8.根据权利要求4所述的第一设备，其中，所述音频信号包括在所述虚拟图像的所述远距传送期间、在所述虚拟图像的所述远距传送之前或在所述虚拟图像的所述远距传送之后的声音模式。

9.根据权利要求1所述的第一设备，其中，所述虚拟图像用于生成与所述第二设备相关联的一个或多个对象的蒙版图像，其中，所述蒙版图像是基于将所述虚拟图像与在所述虚拟图像被置于所述固定环境内的所述物理位置周围的舱内图像进行组合。

10.根据权利要求1所述的第一设备，还包括平视显示器，其中，所述平视显示器包括光学组合器以及被配置为显示所述虚拟图像的多个光学组件。

11.根据权利要求10所述的第一设备，其中，所述平视显示器被集成在车辆的挡风玻璃中，并且所述虚拟图像被显示在所述挡风玻璃上。

12.根据权利要求10所述的第一设备，其中，所述平视显示器与车辆的挡风玻璃物理地分离，并且所述虚拟图像被显示在所述挡风玻璃后面的平面中的自由空间中。

13.根据权利要求1所述的第一设备，还包括投影器，其中，所述投影器被配置为投影所述虚拟图像。

14.根据权利要求13所述的第一设备，其中，所述投影器从车辆的舱内被升起或被降下。

15.根据权利要求1所述的第一设备，其中，所述虚拟图像包括二维化身数据或三维化身数据。

16.根据权利要求1所述的第一设备，还包括显示设备，其被配置为呈现作为虚拟远距传送的一部分的被嵌入在所述虚拟图像中的所述一个或多个视觉对象。

17.一种用于在第一设备处从第二设备接收通信信号的方法，所述方法包括：

存储作为被嵌入在所述虚拟图像中的一个或多个视觉对象的所述虚拟远距传送的一部分的表示所述虚拟图像的所述分组；

对表示所述虚拟图像的所述分组进行解码；

在固定环境内的物理位置处输出所述虚拟图像。

18.根据权利要求17所述的方法，其中，在所述固定环境内的所述物理位置处的所述虚拟图像被呈现在所述第一设备中的显示设备的屏幕的表面上。

19.根据权利要求17所述的方法，还包括：呈现所述音频信号。

20.根据权利要求19所述的方法，其中，对所述三维音频信号的所述呈现是利用被包括在所述第一设备中的至少两个或更多个扬声器来执行的，所述三维音频信号在空间上位于所述第一设备中的显示设备的图像平面处。

21.根据权利要求19所述的方法，其中，对所述三维音频信号的所述呈现是利用被包括在所述第一设备中的至少两个或更多个扬声器来执行的，并且所述三维音频信号在空间上位于所述第一设备中的显示设备的图像平面之外。

22.根据权利要求19所述的方法，其中，对所述三维音频信号的所述呈现是利用被包括在所述第一设备中的至少两个或更多个扬声器来执行的，并且所述三维音频信号包括一个或多个音频对象，所述一个或多个音频对象在空间上位于所述虚拟图像看起来在物理上位于所述第一设备中的所述固定环境内的位置。

23.根据权利要求19所述的方法，其中，所述音频信号包括在所述虚拟图像的所述远距传送期间、在所述虚拟图像的所述远距传送之前或在所述虚拟图像的所述远距传送之后的声音模式。

24.根据权利要求17所述的方法，其中，所述虚拟图像用于生成与所述第二设备相关联的一个或多个对象的蒙版图像，其中，所述蒙版图像是基于将所述虚拟图像与在所述虚拟图像被置于所述固定环境内的所述物理位置周围的舱内图像进行组合。

25.一种用于在第一设备处从第二设备接收通信信号的装置，所述装置包括：

用于在所述通信信号中接收作为被嵌入在虚拟图像中的一个或多个视觉对象的虚拟远距传送的一部分的表示所述虚拟图像的分组的单元；

用于存储作为被嵌入在所述虚拟图像中的一个或多个视觉对象的所述虚拟远距传送的一部分的表示所述虚拟图像的所述分组的单元；

用于对表示所述虚拟图像的所述分组进行解码的单元；

用于生成音频信号的单元，其中，所述音频信号包括声音模式，并且其中，所述声音模式在所述虚拟图像的所述远距传送期间是第一声音模式，并且所述声音模式在所述虚拟图像的所述远距传送之前或之后是不同的声音模式，所述音频信号是被感知为从远距传送所述虚拟图像的方向发出的三维音频信号；以及

用于在固定环境内的物理位置处输出所述虚拟图像的单元。

26.一种具有被存储在其上的指令的非暂时性计算机可读存储介质，所述指令在被执行时使得第一设备的一个或多个处理器进行以下操作：

在通信信号中接收作为被嵌入在虚拟图像中的一个或多个视觉对象的虚拟远距传送的一部分的表示所述虚拟图像的分组；

对表示所述虚拟图像的所述分组进行解码；

在固定环境内的物理位置处输出所述虚拟图像。