[go: up one dir, main page]

CN119497843A - Xr体验中的自由度控制 - Google Patents

Xr体验中的自由度控制 Download PDF

Info

Publication number
CN119497843A
CN119497843A CN202380052162.7A CN202380052162A CN119497843A CN 119497843 A CN119497843 A CN 119497843A CN 202380052162 A CN202380052162 A CN 202380052162A CN 119497843 A CN119497843 A CN 119497843A
Authority
CN
China
Prior art keywords
dof
boundary
basic
user
merged
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Pending
Application number
CN202380052162.7A
Other languages
English (en)
Inventor
P·希特兹林
G·布拉
P·乔伊特
S·莱列夫
E·费弗尔达西
L·方丹
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
InterDigital CE Patent Holdings SAS
Original Assignee
InterDigital CE Patent Holdings SAS
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by InterDigital CE Patent Holdings SAS filed Critical InterDigital CE Patent Holdings SAS
Publication of CN119497843A publication Critical patent/CN119497843A/zh
Pending legal-status Critical Current

Links

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F3/00Input arrangements for transferring data to be processed into a form capable of being handled by the computer; Output arrangements for transferring data from processing unit to output unit, e.g. interface arrangements
    • G06F3/01Input arrangements or combined input and output arrangements for interaction between user and computer
    • G06F3/011Arrangements for interaction with the human body, e.g. for user immersion in virtual reality
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06TIMAGE DATA PROCESSING OR GENERATION, IN GENERAL
    • G06T17/00Three dimensional [3D] modelling, e.g. data description of 3D objects
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06TIMAGE DATA PROCESSING OR GENERATION, IN GENERAL
    • G06T19/00Manipulating 3D models or images for computer graphics
    • G06T19/006Mixed reality
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06TIMAGE DATA PROCESSING OR GENERATION, IN GENERAL
    • G06T2210/00Indexing scheme for image generation or computer graphics
    • G06T2210/21Collision detection, intersection

Landscapes

  • Engineering & Computer Science (AREA)
  • Physics & Mathematics (AREA)
  • Theoretical Computer Science (AREA)
  • General Engineering & Computer Science (AREA)
  • General Physics & Mathematics (AREA)
  • Computer Graphics (AREA)
  • Software Systems (AREA)
  • Computer Hardware Design (AREA)
  • Geometry (AREA)
  • Human Computer Interaction (AREA)
  • Mobile Radio Communication Systems (AREA)

Abstract

公开了用于扩展现实(XR)体验中的自由度(DoF)控制的系统、方法和工具。在示例中,设备可确定与用户相关联的第一基本自由度(DoF)边界。该第一基本DoF边界可以是基于运行时之前的信息或运行时信息中的至少一者来确定的。该设备可至少基于该运行时之前的信息或该运行时信息来确定与该用户相关联的第二基本DoF边界。该设备可基于该第一基本DoF边界和该第二基本DoF边界来确定合并的DoF边界。在该合并的DoF边界的该确定成功的条件下,该设备可确定基于该合并的边界来控制该用户的移动。

Description

XR体验中的自由度控制
相关申请的交叉引用
本申请要求于2022年6月17日提交的欧洲临时专利申请22305881.9号的权益,该欧洲临时专利申请的内容以引用方式并入本文。
背景技术
视频译码系统可用于压缩数字视频信号,例如,以减少此类信号所需要的存储和/或发送带宽。视频译码系统可包括例如基于小波的系统、基于对象的系统和/或基于块的系统(诸如基于块的混合视频译码系统)。在扩展现实(XR)应用中,用于提供自由度边界的控制的机制可能是不够的。
发明内容
公开了用于扩展现实(XR)体验中的自由度(DoF)控制的系统、方法和工具。在示例中,设备可确定与用户相关联的第一基本自由度(DoF)边界。该第一基本DoF边界可以是基于运行时之前的信息或运行时信息中的至少一者来确定的。该设备可至少基于该运行时之前的信息或该运行时信息来确定与该用户相关联的第二基本DoF边界。该设备可基于该第一基本DoF边界和该第二基本DoF边界来确定合并的DoF边界。在该合并的DoF边界的该确定成功的条件下,该设备可确定基于该合并的边界来控制该用户的移动。
在该合并的DoF边界的该确定不成功的条件下,该设备可修改该第一基本DoF边界或该第二基本DoF边界以获得修改后的DoF边界。该设备可基于该修改后的DoF边界以及该第一基本DoF边界或该第二基本DoF边界来确定新的合并的DoF边界。该设备可通过确定不考虑该第一基本DoF边界或该第二基本DoF边界中的一者或多者的体积资产来确定该修改后的DoF边界。该设备可通过修改与该第一基本DoF边界或该第二基本DoF边界相关联的空间约束来确定该修改后的DoF边界。该设备可通过提示该用户修改该用户的物理环境来修改该空间约束。
在该合并的DoF边界的该确定不成功的条件下,该设备可修改与该用户相关联的XR环境内的虚拟物品。该设备可通过确定该第一基本DoF边界的物理环境和该第二基本DoF边界的物理环境不同来基于该第一基本DoF边界和该第二基本DoF边界确定合并的DoF边界。基于该差异,该设备可确定在该合并的DoF边界中不允许该第一基本DoF边界。
该设备可通过确定该第一基本DoF边界的物理环境和该第二基本DoF边界的物理环境不同来基于该第一基本DoF边界和该第二基本DoF边界确定合并的DoF边界。基于该差异,该设备可基于该第一基本DoF边界和该第二基本DoF边界的公共交集来确定该合并的DoF边界。
描述了本文的任何地方公开的每个特征,并且该特征可以分开地/单独地以及以与本文公开的任何其他特征和/或与本文可隐含地或明确地提到的或可以其他方式落入本文公开的主题的范围内的其他地方公开的任何特征的任何组合实施。
附图说明
图1A是例示在其中一个或多个所公开的实施方案可得以实现的示例通信系统的系统图。
图1B是例示根据实施方案的可在图1A所例示的通信系统内使用的示例无线发送/接收单元(WTRU)的系统图。
图1C是例示根据实施方案的可在图1A所例示的通信系统内使用的示例无线电接入网络(RAN)和示例核心网络(CN)的系统图。
图1D是例示根据实施方案的可在图1A所例示的通信系统内使用的另外的示例RAN和另外的示例CN的系统图。
图2是示出示例视频编码器的示意图。
图3是示出视频解码器的示例的示意图。
图4是示出可在其中实现各个方面和示例的系统的示例的示意图。
图5示出了主角的示例,其中玩家控制该主角后方的跟踪相机。
图6示出了用于用户DoF控制的运行时处理模型的示例。
图7示出了用于用户DoF控制的运行时处理模型的示例。
图8示出了与体积资产相关联的DoF约束。
图9示出了内容网格节点级别的示例边界扩展。
图10示出了常规节点级别的边界扩展的示例。
图11示出了根节点级别的边界扩展的示例。
图12示出了网格级别的边界扩展的示例。
图13示出了合并的DoF边界的计算的示例。
具体实施方式
现在将参考各种附图来描述例示性实施方案的详细描述。尽管本说明书提供了可能的具体实施的详细示例,但应当指出的是,细节旨在为示例性的,并且绝不限制本申请的范围。
图1A是例示其中可实现一个或多个所公开的实施方案的示例通信系统100的图。通信系统100可以是向多个无线用户提供诸如语音、数据、视频、消息接发、广播等内容的多址接入系统。通信系统100可使得多个无线用户能够通过系统资源(包括无线带宽)的共享来访问此类内容。例如,通信系统100可采用一种或多种信道接入方法,诸如码分多址接入(CDMA)、时分多址接入(TDMA)、频分多址接入(FDMA)、正交FDMA(OFDMA)、单载波FDMA(SC-FDMA)、零尾唯一字DFT扩展OFDM(ZT UW DTS-s OFDM)、唯一字OFDM(UW-OFDM)、资源块滤波OFDM、滤波器组多载波(FBMC)等。
如图1A所示,通信系统100可包括无线发送/接收单元(WTRU)102a、102b、102c、102d、RAN 104/113、CN 106/115、公共交换电话网络(PSTN)108、互联网110和其他网络112,但应当理解,所公开的实施方案设想了任何数量的WTRU、基站、网络和/或网络元件。WTRU102a、102b、102c、102d中的每一者可以是被配置为在无线环境中操作和/或通信的任何类型的设备。以举例的方式,WTRU 102a、102b、102c、102d(其中任何一者均可被称为“站”和/或“STA”)可被配置为发送和/或接收无线信号,并且可包括用户装备(UE)、移动站、固定或移动订户单元、基于订阅的单元、寻呼机、蜂窝电话、个人数字助理(PDA)、智能电话、膝上型电脑、上网本、个人计算机、无线传感器、热点或Mi-Fi设备、物联网(IoT)设备、手表或其他可穿戴设备、头戴式显示器(HMD)、交通工具、无人机、医疗设备和应用(例如,远程手术)、工业设备和应用(例如,在工业和/或自动化处理链环境中操作的机器人和/或其他无线设备)、消费电子设备、在商业和/或工业无线网络上操作的设备等。WTRU 102a、102b、102c和102d中的任一者可互换地被称为UE。
通信系统100还可包括基站114a和/或基站114b。基站114a、114b中的每一者可以是任何类型的设备,其被配置为与WTRU 102a、102b、102c、102d中的至少一者无线对接以促进对一个或多个通信网络(诸如CN 106/115、互联网110和/或其他网络112)的接入。以举例的方式,基站114a、114b可以是收发器基站(BTS)、节点B、演进节点B、家庭节点B、家庭演进节点B、gNB、NR节点B、站点控制器、接入点(AP)、无线路由器等。虽然基站114a、114b各自被描绘为单个元件,但应当理解,基站114a、114b可包括任何数量的互连基站和/或网络元件。
基站114a可以是RAN 104/113的一部分,该RAN还可包括其他基站和/或网络元件(未示出),诸如基站控制器(BSC)、无线电网络控制器(RNC)、中继节点等。基站114a和/或基站114b可被配置为在一个或多个载波频率(其可被称为小区(未示出))上发送和/或接收无线信号。这些频率可在许可频谱、未许可频谱或许可频谱和未许可频谱的组合中。小区可向特定地理区域提供无线服务的覆盖,该特定地理区域可以是相对固定的或者可随时间改变。小区可进一步被划分为小区扇区。例如,与基站114a相关联的小区可被划分为三个扇区。因此,在一个实施方案中,基站114a可包括三个收发器,即,小区的每个扇区一个收发器。在实施方案中,基站114a可采用多输入多输出(MIMO)技术并且可针对小区的每个扇区利用多个收发器。例如,可使用波束成形在所需的空间方向上发送和/或接收信号。
基站114a、114b可通过空中接口116与WTRU 102a、102b、102c、102d中的一者或多者通信,该空中接口可以是任何合适的无线通信链路(例如,射频(RF)、微波、厘米波、微米波、红外(IR)、紫外(UV)、可见光等)。可使用任何合适的无线电接入技术(RAT)来建立空中接口116。
更具体地,如上所指出,通信系统100可以是多址接入系统,并且可采用一个或多个信道接入方案,诸如CDMA、TDMA、FDMA、OFDMA、SC-FDMA等。例如,RAN 104/113中的基站114a以及WTRU 102a、102b、102c可实现诸如通用移动电信系统(UMTS)陆地无线电接入(UTRA)的无线电技术,该无线电技术可使用宽带CDMA(WCDMA)来建立空中接口115/116/117。WCDMA可包括通信协议,诸如高速分组接入(HSPA)和/或演进的HSPA(HSPA+)。HSPA可包括高速下行链路(DL)分组接入(HSDPA)和/或高速UL分组接入(HSUPA)。
在实施方案中,基站114a和WTRU 102a、102b、102c可实现诸如演进的UMTS陆地无线电接入(E-UTRA)的无线电技术,该无线电技术可使用长期演进(LTE)和/或高级LTE(LTE-A)和/或高级LTE Pro(LTE-A Pro)来建立空中接口116。
在实施方案中,基站114a和WTRU 102a、102b、102c可实现诸如NR无线电接入的无线电技术,该无线电技术可使用新无线电(NR)建立空中接口116。
在实施方案中,基站114a和WTRU 102a、102b、102c可实现多种无线电接入技术。例如,基站114a和WTRU 102a、102b、102c可例如使用双连通性(DC)原理一起实现LTE无线电接入和NR无线电接入。因此,WTRU 102a、102b、102c所利用的空中接口可由多种类型的无线电接入技术和/或向/从多种类型的基站(例如,eNB和gNB)传送的发送来表征。
在其他实施方案中,基站114a和WTRU 102a、102b、102c可实现诸如IEEE 802.11(即,无线保真(WiFi))、IEEE 802.16(即,全球微波接入互操作性(WiMAX))、CDMA2000、CDMA2000 1X、CDMA2000 EV-DO、暂行标准2000(IS-2000)、暂行标准95(IS-95)、暂行标准856(IS-856)、全球移动通信系统(GSM)、增强型数据速率GSM演进(EDGE)、GSM EDGE(GERAN)等无线电技术。
图1A中的基站114b可以是例如无线路由器、家庭节点B、家庭演进节点B或接入点,并且可利用任何合适的RAT来促进诸如商业场所、家庭、交通工具、校园、工业设施、空中走廊(例如,供无人机使用)、道路等局部区域中的无线连通性。在一个实施方案中,基站114b和WTRU 102c、102d可实现诸如IEEE 802.11的无线电技术以建立无线局域网(WLAN)。在实施方案中,基站114b和WTRU 102c、102d可实现诸如IEEE 802.15的无线电技术以建立无线个域网(WPAN)。在另一实施方案中,基站114b和WTRU 102c、102d可利用基于蜂窝的RAT(例如,WCDMA、CDMA2000、GSM、LTE、LTE-A、LTE-A Pro、NR等)来建立微微小区或毫微微小区。如图1A所示,基站114b可具有与互联网110的直接连接。因此,基站114b可不需要经由CN 106/115接入互联网110。
RAN 104/113可与CN 106/115通信,该CN可以是被配置为向WTRU 102a、102b、102c、102d中的一者或多者提供语音、数据、应用和/或互联网协议语音(VoIP)服务的任何类型的网络。数据可具有不同的服务质量(QoS)要求,诸如不同的吞吐量要求、时延要求、误差容限要求、可靠性要求、数据吞吐量要求、移动性要求等。CN 106/115可提供呼叫控制、账单服务、基于移动位置的服务、预付费呼叫、互联网连通性、视频分发等,并且/或者执行高级安全功能,诸如用户认证。尽管未在图1A中示出,但应当理解,RAN 104/113和/或CN 106/115可与采用与RAN 104/113相同的RAT或不同RAT的其他RAN进行直接或间接通信。例如,除了连接到可利用NR无线电技术的RAN 104/113之外,CN 106/115还可与采用GSM、UMTS、CDMA2000、WiMAX、E-UTRA或WiFi无线电技术的另一RAN(未示出)通信。
CN 106/115也可充当WTRU 102a、102b、102c、102d的网关以接入PSTN 108、互联网110和/或其他网络112。PSTN 108可包括提供普通老式电话服务(POTS)的电路交换电话网络。互联网110可包括使用常见通信协议(诸如发送控制协议(TCP)、用户数据报协议(UDP)和/或TCP/IP互联网协议组中的互联网协议(IP))的互连计算机网络和设备的全球系统。网络112可包括由其他服务提供商拥有和/或运营的有线和/或无线通信网络。例如,网络112可包括连接到一个或多个RAN的另一CN,该一个或多个RAN可采用与RAN 104/113相同的RAT或不同的RAT。
通信系统100中的WTRU 102a、102b、102c、102d中的一些或所有WTRU可包括多模式能力(例如,WTRU 102a、102b、102c、102d可包括用于通过不同无线链路与不同无线网络通信的多个收发器)。例如,图1A所示的WTRU 102c可被配置为与可采用基于蜂窝的无线电技术的基站114a通信,并且与可采用IEEE 802无线电技术的基站114b通信。
图1B是例示示例WTRU 102的系统图。如图1B所示,WTRU 102可包括处理器118、收发器120、发送/接收元件122、扬声器/麦克风124、小键盘126、显示器/触摸板128、不可移动存储器130、可移动存储器132、电源134、全球定位系统(GPS)芯片组136和/或其他外围设备138等。应当理解,在与实施方案保持一致时,WTRU 102可包括前述元件的任何子组合。
处理器118可以是通用处理器、专用处理器、常规处理器、数字信号处理器(DSP)、多个微处理器、与DSP核心相关联的一个或多个微处理器、控制器、微控制器、专用集成电路(ASIC)、现场可编程门阵列(FPGA)电路、任何其他类型的集成电路(IC)、状态机等。处理器118可执行信号译码、数据处理、功率控制、输入/输出处理和/或使得WTRU 102能够在无线环境中操作的任何其他功能性。处理器118可耦合到收发器120,该收发器可耦合到发送/接收元件122。虽然图1B将处理器118和收发器120描绘为单独组件,但应当理解,处理器118和收发器120可在电子封装件或芯片中集成在一起。
发送/接收元件122可被配置为通过空中接口116向基站(例如,基站114a)发送信号或从该基站接收信号。例如,在一个实施方案中,发送/接收元件122可以是被配置为发送和/或接收RF信号的天线。在实施方案中,发送/接收元件122可以是被配置为发送和/或接收例如IR信号、UV信号或可见光信号的发射器/检测器。在另一实施方案中,发送/接收元件122可被配置为发送和/或接收RF信号和光信号两者。应当理解,发送/接收元件122可被配置为发送和/或接收无线信号的任何组合。
尽管发送/接收元件122在图1B中被描绘为单个元件,但WTRU 102可包括任何数量的发送/接收元件122。更具体地,WTRU 102可采用MIMO技术。因此,在一个实施方案中,WTRU102可包括用于通过空中接口116发送和接收无线信号的两个或更多个发送/接收元件122(例如,多个天线)。
收发器120可被配置为调制将由发送/接收元件122发送的信号并且解调由发送/接收元件122接收的信号。如上所指出,WTRU 102可具有多模式能力。例如,因此,收发器120可包括多个收发器以用于使得WTRU 102能够经由多种RAT(诸如NR和IEEE 802.11)进行通信。
WTRU 102的处理器118可耦合到扬声器/麦克风124、小键盘126和/或显示器/触摸板128(例如,液晶显示器(LCD)显示单元或有机发光二极管(OLED)显示单元)并且可从其接收用户输入数据。处理器118还可将用户数据输出到扬声器/麦克风124、小键盘126和/或显示器/触摸板128。此外,处理器118可从任何类型的合适存储器(诸如不可移动存储器130和/或可移动存储器132)访问信息,并且将数据存储在该任何类型的合适存储器中。不可移动存储器130可包括随机存取存储器(RAM)、只读存储器(ROM)、硬盘或任何其他类型的存储器存储设备。可移动存储器132可包括订户身份模块(SIM)卡、记忆棒、安全数字(SD)存储卡等。在其他实施方案中,处理器118可从物理上没有定位在WTRU 102上(诸如服务器或家庭计算机(未示出)上)的存储器访问信息,并且将数据存储在该存储器中。
处理器118可从电源134接收电力,并且可被配置为向WTRU 102中的其他组件分配电力和/或控制到WTRU 102中的其他组件的电力。电源134可以是用于为WTRU 102供电的任何合适的设备。例如,电源134可包括一个或多个干电池组(例如,镍镉(NiCd)、镍锌(NiZn)、镍金属氢化物(NiMH)、锂离子(Li-ion)等)、太阳能电池、燃料电池等。
处理器118还可耦合到GPS芯片组136,该GPS芯片组可被配置为提供关于WTRU 102的当前位置的位置信息(例如,经度和纬度)。除了来自GPS芯片组136的信息之外或代替该信息,WTRU 102可通过空中接口116从基站(例如,基站114a、114b)接收位置信息和/或基于从两个或更多个附近基站接收到信号的定时来确定WTRU的位置。应当理解,在与实施方案保持一致时,WTRU 102可通过任何合适的位置确定方法来获取位置信息。
处理器118可进一步耦合到其他外围设备138,这些其他外围设备可包括提供附加特征、功能性和/或有线或无线连通性的一个或多个软件模块和/或硬件模块。例如,外围设备138可包括加速度计、电子指南针、卫星收发器、数字相机(用于照片和/或视频)、通用串行总线(USB)端口、振动设备、电视收发器、免提头戴式耳机、模块、调频(FM)无线电单元、数字音乐播放器、媒体播放器、视频游戏播放器模块、互联网浏览器、虚拟现实和/或增强现实(VR/AR)设备、活动跟踪器等。外围设备138可包括一个或多个传感器,这些传感器可以是以下中的一者或多者:陀螺仪、加速度计、霍尔效应传感器、磁力计、取向传感器、接近传感器、温度传感器、时间传感器;地理位置传感器;测高计、光传感器、触摸传感器、磁力计、气压计、手势传感器、生物识别传感器和/或湿度传感器。
WTRU 102可包括全双工无线电,对于该全双工无线电,信号中的一些或所有信号的发送和接收(例如,与用于UL(例如,用于发送)和下行链路(例如,用于接收)的特定子帧相关联)可以是并发的和/或同时的。全双工无线电可包括干扰管理单元,该干扰管理单元用于经由硬件(例如,扼流圈)或经由处理器(例如,单独的处理器(未示出)或经由处理器118)进行的信号处理来减少和/或基本上消除自干扰。在实施方案中,WRTU 102可包括半双工无线电,对于该半双工无线电,一些或所有信号的发送和接收(例如,与用于UL(例如,用于发送)或下行链路(例如,用于接收)的特定子帧相关联)。
图1C是例示根据实施方案的RAN 104和CN 106的系统图。如上所指出,RAN 104可采用E-UTRA无线电技术通过空中接口116与WTRU 102a、102b、102c通信。RAN 104还可与CN106通信。
RAN 104可包括演进节点B 160a、160b、160c,但应当理解,在与实施方案保持一致时,RAN 104可包括任何数量的演进节点B。演进节点B160a、160b、160c各自可包括一个或多个收发器以用于通过空中接口116与WTRU 102a、102b、102c通信。在一个实施方案中,演进节点B 160a、160b、160c可实现MIMO技术。因此,演进节点B 160a例如可使用多个天线来向WTRU 102a发送无线信号和/或从该WTRU接收无线信号。
演进节点B 160a、160b、160c中的每一者可与特定小区(未示出)相关联,并且可被配置为处理无线电资源管理决策、移交决策、UL和/或DL中的用户的调度等。如图1C所示,演进节点B 160a、160b、160c可通过X2接口彼此通信。
图1C所示的CN 106可包括移动性管理实体(MME)162、服务网关(SGW)164和分组数据网络(PDN)网关(或PGW)166。虽然前述元件中的每个元件被描绘为CN 106的一部分,但是应理解,这些元件中的任一者可由CN运营商之外的实体拥有和/或运营。
MME 162可经由S1接口连接到RAN 104中的演进节点B 162a、162b、162c中的每一者,并且可充当控制节点。例如,MME 162可负责认证WTRU 102a、102b、102c的用户、承载激活/停用、在WTRU 102a、102b、102c的初始附接期间选择特定服务网关等。MME 162可提供用于在RAN104和采用其他无线电技术(诸如GSM和/或WCDMA)的其他RAN(未示出)之间进行交换的控制面功能。
SGW 164可经由S1接口连接到RAN 104中的演进节点B 160a、160b、160c中的每一者。SGW 164通常可向/从WTRU 102a、102b、102c路由和转发用户数据分组。SGW 164可执行其他功能,诸如在演进节点B间移交期间锚定用户面、当DL数据可用于WTRU 102a、102b、102c时触发寻呼、管理并存储WTRU 102a、102b、102c的上下文等。
SGW 164可连接到PGW 166,该PGW可向WTRU 102a、102b、102c提供对分组交换网络(诸如互联网110)的接入,以促进WTRU 102a、102b、102c和启用IP的设备之间的通信。
CN 106可促进与其他网络的通信。例如,CN 106可向WTRU 102a、102b、102c提供对电路交换网络(诸如,PSTN 108)的接入,以促进WTRU 102a、102b、102c和传统陆线通信设备之间的通信。例如,CN 106可包括充当CN 106和PSTN 108之间的接口的IP网关(例如,IP多媒体子系统(IMS)服务器)或者可与该IP网关通信。此外,CN 106可向WTRU 102a、102b、102c提供对其他网络112的接入,这些其他网络可包括由其他服务提供商拥有和/或运营的其他有线和/或无线网络。
尽管WTRU在图1A至图1D中被描述为无线终端,但可设想在某些代表性实施方案中,此类终端可(例如,临时或永久)使用与通信网络的有线通信接口。
在代表性实施方案中,其他网络112可以是WLAN。
处于基础结构基本服务集(BSS)模式的WLAN可具有用于BSS的接入点(AP)以及与AP相关联的一个或多个站(STA)。AP可具有通向分发系统(DS)或将业务携带到和/或携带出BSS的另一种类型的有线/无线网络的接入或接口。源自BSS外部的通向STA的业务可通过AP到达并且可被传递到STA。源自STA的通向BSS外部的目的地的业务可被传送到AP以被传递到相应目的地。BSS内的STA之间的业务可通过AP传送,例如,其中源STA可向AP传送业务,并且AP可将业务传递到目的地STA。BSS内的STA之间的业务可被视为和/或称为点对点业务。可利用直接链路建立(DLS)在源STA和目的地STA之间(例如,直接在它们之间)传送点对点业务。在某些代表性实施方案中,DLS可使用802.11e DLS或802.11z隧道DLS(TDLS)。使用独立BSS(IBSS)模式的WLAN可不具有AP,并且IBSS内或使用IBSS的STA(例如,所有STA)可彼此直接通信。IBSS通信模式在本文中有时可被称为“自组织”通信模式。
当使用802.11ac基础结构操作模式或相似操作模式时,AP可在固定信道(诸如主信道)上发送信标。主信道可以是固定宽度(例如,20MHz宽的带宽)或经由信令动态设置的宽度。主信道可以是BSS的操作信道,并且可由STA用来建立与AP的连接。在某些代表性实施方案中,例如在802.11系统中可实现载波侦听多址接入/冲突避免(CSMA/CA)。对于CSMA/CA,STA(例如,每个STA)(包括AP)可侦听主信道。如果主信道被特定STA侦听/检测和/或确定为繁忙,则特定STA可回退。一个STA(例如,仅一个站)可在给定BSS中在任何给定时间进行发送。
高吞吐量(HT)STA可使用40MHz宽的信道进行通信,例如,经由主20MHz信道与相邻或不相邻的20MHz信道的组合以形成40MHz宽的信道。
甚高吞吐量(VHT)STA可支持20MHz、40MHz、80MHz和/或160MHz宽的信道。40MHz信道和/或80MHz信道可通过组合连续的20MHz信道来形成。160MHz信道可通过组合8个连续的20MHz信道,或通过组合两个非连续的80MHz信道(这可被称为80+80配置)来形成。对于80+80配置,在信道编码之后,数据可通过可将数据分成两个流的段解析器。可单独地对每个流进行快速傅里叶逆变换(IFFT)处理和时间域处理。可将这些流映射到两个80MHz信道,并且可通过发送方STA来发送数据。在接收方STA的接收器处,可颠倒上述用于80+80配置的操作,并且可将组合的数据传送到介质访问控制(MAC)。
802.11af和802.11ah支持1GHz以下的操作模式。相对于802.11n和802.11ac中使用的那些,802.11af和802.11ah中减少了信道操作带宽和载波。802.11af支持电视白空间(TVWS)频谱中的5MHz、10MHz和20MHz带宽,并且802.11ah支持使用非TVWS频谱的1MHz、2MHz、4MHz、8MHz和16MHz带宽。根据代表性实施方案,802.11ah可支持仪表类型控制/机器类型通信,诸如宏覆盖区域中的MTC设备。MTC设备可具有某些能力,例如有限的能力,包括支持(例如,仅支持)某些带宽和/或有限的带宽。MTC设备可包括电池寿命高于阈值(例如,以保持非常长的电池寿命)的电池。
可支持多个信道的WLAN系统以及信道带宽(诸如802.11n、802.11ac、802.11af和802.11ah)包括可被指定为主信道的信道。主信道可具有等于由BSS中的所有STA支持的最大公共操作带宽的带宽。主信道的带宽可由来自在BSS中操作的所有STA的STA(其支持最小带宽操作模式)设置和/或限制。在802.11ah的示例中,对于支持(例如,仅支持)1MHz模式的STA(例如,MTC型设备),主信道可为1MHz宽,即使AP和BSS中的其他STA支持2MHz、4MHz、8MHz、16MHz和/或其他信道带宽操作模式。载波侦听和/或网络分配向量(NAV)设置可取决于主信道的状态。如果主信道繁忙,例如由于STA(其仅支持1MHz操作模式)正在向AP进行发送,即使大多数频带保持空闲并且可能可用,整个可用频带也可被视为繁忙。
在美国,可供802.11ah使用的可用频带为902MHz至928MHz。在韩国,可用频带为917.5MHz至923.5MHz。在日本,可用频带为916.5MHz至927.5MHz。802.11ah可用的总带宽为6MHz至26MHz,具体取决于国家代码。
图1D是例示根据实施方案的RAN 113和CN 115的系统图。如上所指出,RAN 113可采用NR无线电技术以通过空中接口116与WTRU 102a、102b、102c通信。RAN 113还可与CN115通信。
RAN 113可包括gNB 180a、180b、180c,但应当理解,在与实施方案保持一致时,RAN113可包括任何数量的gNB。gNB 180a、180b、180c各自可包括一个或多个收发器以用于通过空中接口116与WTRU 102a、102b、102c通信。在一个实施方案中,gNB 180a、180b、180c可实现MIMO技术。例如,gNB 180a、108b可利用波束成形来向gNB 180a、180b、180c发送信号和/或从这些gNB接收信号。因此,gNB 180a例如可使用多个天线来向WTRU 102a发送无线信号和/或从该WTRU接收无线信号。在实施方案中,gNB 180a、180b、180c可实现载波聚合技术。例如,gNB 180a可向WTRU 102a(未示出)发送多个分量载波。这些分量载波的子集可在未许可频谱上,而其余分量载波可在许可频谱上。在实施方案中,gNB 180a、180b、180c可实现协同多点(CoMP)技术。例如,WTRU 102a可从gNB 180a和gNB 180b(和/或gNB 180c)接收协同发送。
WTRU 102a、102b、102c可使用与可扩展的参数集相关联的发送来与gNB 180a、180b、180c通信。例如,OFDM符号间隔和/或OFDM子载波间隔可因不同发送、不同小区和/或无线发送频谱的不同部分而变化。WTRU 102a、102b、102c可使用各种长度或可扩展的长度的子帧或发送时间区间(TTI)(例如,包含不同数量的OFDM符号和/或持续变化的绝对时间长度)来与gNB 180a、180b、180c通信。
gNB 180a、180b、180c可被配置为以独立配置和/或非独立配置与WTRU 102a、102b、102c通信。在独立配置中,WTRU 102a、102b、102c可与gNB 180a、180b、180c通信,同时也不接入其他RAN(例如,诸如演进节点B 160a、160b、160c)。在独立配置中,WTRU 102a、102b、102c可将gNB 180a、180b、180c中的一者或多者用作移动性锚点。在独立配置中,WTRU102a、102b、102c可在未许可频带中使用信号与gNB 180a、180b、180c通信。在非独立配置中,WTRU 102a、102b、102c可与gNB 180a、180b、180c通信/连接,同时也与另一个RAN(诸如,演进节点B160a、160b、160c)通信/连接。例如,WTRU 102a、102b、102c可实现DC原理以基本上同时与一个或多个gNB 180a、180b、180c以及一个或多个演进节点B 160a、160b、160c通信。在非独立配置中,演进节点B 160a、160b、160c可充当WTRU 102a、102b、102c的移动性锚点,并且gNB 180a、180b、180c可提供用于服务WTRU 102a、102b、102c的附加覆盖和/或吞吐量。
gNB 180a、180b、180c中的每一者可与特定小区(未示出)相关联,并且可被配置为处理无线电资源管理决策、移交决策、UL和/或DL中的用户的调度、网络切片的支持、双连通性、NR和E-UTRA之间的互通、用户面数据朝向用户面功能(UPF)184a、184b的路由、控制面信息朝向接入和移动性管理功能(AMF)182a、182b的路由等。如图1D所示,gNB 180a、180b、180c可通过Xn接口彼此通信。
图1D所示的CN 115可包括至少一个AMF 182a、182b、至少一个UPF 184a、184b、至少一个会话管理功能(SMF)183a、183b以及可能的数据网络(DN)185a、185b。虽然前述元件中的每个元件被描绘为CN 115的一部分,但应当理解,这些元件中的任一者可由CN运营商之外的实体拥有和/或运营。
AMF 182a、182b可经由N2接口连接到RAN 113中的gNB 180a、180b、180c中的一者或多者,并且可充当控制节点。例如,AMF 182a、182b可负责认证WTRU 102a、102b、102c的用户、支持网络切片(例如,处理具有不同要求的不同PDU会话)、选择特定SMF 183a、183b、管理注册区域、终止NAS信令、移动性管理等。AMF 182a、182b可使用网络切片,以便基于WTRU102a、102b、102c所利用的服务的类型来为WTRU 102a、102b、102c定制CN支持。例如,可针对不同的用例(诸如,依赖超高可靠低时延(URLLC)接入的服务、依赖增强型移动宽带(eMBB)接入的服务、用于机器类型通信(MTC)接入的服务等等)建立不同的网络切片。AMF 162可提供用于在RAN 113和采用其他无线电技术(诸如LTE、LTE-A、LTE-A Pro和/或非3GPP接入技术(诸如WiFi))的其他RAN(未示出)之间进行切换的控制面功能。
SMF 183a、183b可在CN 115中经由N11接口连接到AMF 182a、182b。SMF 183a、183b还可在CN 115中经由N4接口连接到UPF 184a、184b。SMF 183a、183b可选择并控制UPF184a、184b,并且配置通过UPF 184a、184b进行的业务路由。SMF 183a、183b可执行其他功能,诸如管理和分配UE IP地址、管理PDU会话、控制策略实施和QoS、提供下行链路数据通知等。PDU会话类型可以是基于IP的、非基于IP的、基于以太网的等。
UPF 184a、184b可经由N3接口连接到RAN 113中的gNB 180a、180b、180c中的一者或多者,这些gNB可向WTRU 102a、102b、102c提供对分组交换网络(诸如互联网110)的接入,以促进WTRU 102a、102b、102c和启用IP的设备之间的通信。UPF 184、184b可执行其他功能,诸如路由和转发分组、实施用户面策略、支持多宿主PDU会话、处理用户面QoS、缓冲下行链路分组、提供移动性锚定等。
CN 115可促进与其他网络的通信。例如,CN 115可包括充当CN 115和PSTN 108之间的接口的IP网关(例如,IP多媒体子系统(IMS)服务器)或者可与该IP网关通信。此外,CN115可向WTRU 102a、102b、102c提供对其他网络112的接入,这些其他网络可包括由其他服务提供商拥有和/或运营的其他有线和/或无线网络。在一个实施方案中,WTRU 102a、102b、102c可通过UPF 184a、184b经由至UPF 184a、184b的N3接口以及在UPF184a、184b与本地数据网络(DN)185a、185b之间的N6接口连接到DN 185a、185b。
鉴于图1A至图1D以及图1A至图1D的对应描述,本文参照以下中的一者或多者描述的功能中的一个或多个功能或所有功能可由一个或多个仿真设备(未示出)执行:WTRU102a-102d、基站114a-114b、演进节点B160a-160c、MME 162、SGW 164、PGW 166、gNB 180a-180c、AMF 182a-182b、UPF 184a-184b、SMF 183a-183b、DN 185a-185b和/或本文中所描述的任何其他设备。仿真设备可以是被配置为模仿本文中所描述的功能中的一个或多个功能或所有功能的一个或多个设备。例如,仿真设备可用于测试其他设备和/或模拟网络和/或WTRU功能。
仿真设备可被设计为在实验室环境中和/或在运营商网络环境中实现其他设备的一个或多个测试。例如,一个或多个仿真设备可执行一个或多个功能或所有功能,同时被完全或部分地实现和/或部署为有线和/或无线通信网络的一部分,以便测试通信网络内的其他设备。一个或多个仿真设备可执行一个或多个功能或所有功能,同时临时被实现/部署为有线和/或无线通信网络的一部分。仿真设备可直接耦合到另一个设备以用于测试目的和/或可使用空中无线通信来执行测试。
一个或多个仿真设备可执行一个或多个(包括所有)功能,同时不被实现/部署为有线和/或无线通信网络的一部分。例如,仿真设备可在测试实验室和/或非部署(例如,测试)有线和/或无线通信网络中的测试场景中使用,以便实现一个或多个组件的测试。一个或多个仿真设备可以是测试装备。经由RF电路(例如,其可包括一个或多个天线)进行的直接RF耦合和/或无线通信可由仿真设备用于发送和/或接收数据。
本申请描述了多个方面,包括工具、特征、示例或实施方案、模型、方法等。这些方面中的许多方面以特定的方式进行描述,并且至少为了示出个体特征,通常以听起来可能具有限制性的方式来描述。然而,这是为了描述的清晰性,并不限制这些方面的应用或范围。实际上,所有不同的方面可组合和互换以提供进一步的方面。此外,这些方面也可与较早提交中描述的方面组合和互换。
本申请中描述和设想的方面可以许多不同的形式实现。本文中所描述的图5至图8可提供一些实施方案,但也设想了其他实施方案。图5至图8的讨论并不限制具体实施的广度。这些方面中的至少一个方面通常涉及视频编码和解码,并且至少一个其他方面通常涉及发送生成或编码的比特流。这些方面和其他方面可被实现为方法、装置、其上存储有用于根据方法中的任一方法对视频数据进行编码或解码的指令的计算机可读存储介质,和/或其上存储有根据方法中的任一方法生成的比特流的计算机可读存储介质。
在本申请中,术语“重建”和“解码”可以互换使用,术语“像素”和“样本”可以互换使用,术语“图像”、“图片”和“帧”可以互换使用。
本文描述了各种方法,并且方法中的每种方法包括用于实现方法的一个或多个步骤或动作。除非正确操作方法需要特定顺序的步骤或动作,否则可修改或组合特定步骤和/或动作的顺序和/或用途。附加地,术语诸如“第一”、“第二”等可在各种实施方案中用于修改元件、组件、步骤、操作等,诸如,例如“第一解码”和“第二解码”。除非具体要求,否则使用此类术语并不暗示对所修改的操作的排序。因此,在这个示例中,第一解码不需要在第二解码之前执行,并且可例如在第二解码之前、期间或在重叠的时间段中发生。
本申请中所描述的各种方法和其他方面可(例如,用于)修改模块,例如,如图2和图3分别所示的视频编码器200和视频解码器300的预编码处理201、帧内预测260、熵译码245和/或熵解码模块330、帧内预测360、解码后处理385。此外,本文中所公开的主题呈现了不限于VVC或HEVC的方面,并且可应用于例如任何类型、格式或版本的视频译码(无论是在标准中描述的还是在建议中描述的,无论是预先存在的还是未来开发的),以及任何此类标准和建议的扩展(例如,包括VVC和HEVC)。除非另有指示或技术上排除,否则本申请中所描述的方面可单独使用或组合使用。
在本申请中所描述的示例中使用各种数值,诸如最小值范围和最大值范围(例如,0至1、0至N或0至255)、针对指示或确定的比特值、默认值、ID号(例如,针对自适应ID)等。这些和其他特定值是为了描述示例的目的,并且所描述的方面不限于这些特定值。
图2是示出示例视频编码器的示意图。设想了示例编码器200的变型,但下文为了清楚起见描述了编码器200,而不描述所有预期的变型。
在经过编码之前,视频序列可经过预编码处理(201),例如,将颜色变换应用于输入的彩色图片(例如,从RGB 4:4:4转换到YCbCr 4:2:0),或执行输入图片分量的重新映射,以便获取对压缩更有弹性的信号分布(例如,使用颜色分量中的一个颜色分量的直方图均衡化)。元数据可与预处理相关联,并且附加到比特流。
在编码器200中,图片由如下文所描述的编码器元件进行编码。以例如译码单元(CU)为单位对待编码图片进行分区(202)和处理。例如,使用帧内模式或帧间模式对每个单元进行编码。当以帧内模式对单元进行编码时,该单元执行帧内预测(260)。以帧间模式执行运动估计(275)和补偿(270)。编码器决定(205)要使用帧内模式或帧间模式中的哪一者对单元进行编码,以及通过例如预测模式标志来指示帧内/帧间决策。预测残差例如通过从原始图像块中减去(210)预测块进行计算。
然后,对预测残差进行变换(225)和量化(230)。对经量化的变换系数以及运动向量和其他语法元素进行熵译码(245)以输出比特流。编码器可跳过变换,并将量化直接应用于未变换的残差信号。编码器可绕过变换和量化两者,即,在不应用变换或量化过程的情况下直接对残差进行译码。
编码器对编码块进行解码,以提供进一步预测的参考。对经量化的变换系数进行解量化(240)和逆变换(250)以对预测残差进行解码。通过将解码的预测残差和预测块进行组合(255)来重建图像块。将环内滤波器(265)应用于重建的图片以执行例如解块/SAO(样本自适应偏移)滤波,从而减少编码伪影。经滤波的图像存储在参考图片缓冲器(280)处。
图3是示出视频解码器的示例的示意图。在示例解码器300中,比特流由解码器元件解码,如下文所描述。视频解码器300通常执行与图2中描述的编码过程相反的解码过程。编码器200通常还可执行视频解码作为对视频数据编码的一部分。例如,编码器200可执行本文呈现的视频解码步骤中的一个或多个视频解码步骤。编码器例如重建经解码的图像,例如以相对于以下中的一者或多者维持与解码器的同步:参考图片、熵译码上下文和其他解码器相关状态变量。
具体地,解码器的输入包括视频比特流,该视频比特流可由视频编码器200生成。首先,对比特流进行熵解码(330)以获得变换系数、运动向量和其他经译码信息。图片分区信息指示如何对图片进行分区。因此,解码器可以根据经解码的图片分区信息来划分(335)图片。对变换系数进行解量化(340)和逆变换(350)以对预测残差进行解码。通过将解码的预测残差和预测块进行组合(355)来重建图像块。可从帧内预测(360)或运动补偿预测(即,帧间预测)(375)获得(370)预测块。环内滤波器(365)被应用于重建的图像。经滤波的图像存储在参考图片缓冲器(380)处。
经解码的图片还可经过解码后处理(385),例如,逆颜色变换(例如,从YCbCr 4:2:0转换到RGB 4:4:4)或执行与在预编码处理(201)中执行的重新映射过程相逆的逆重新映射。解码后处理可以使用在预编码处理中导出并在比特流中用信号发出的元数据。
图4是示出可在其中实现本文中所描述的各个方面和实施方案的系统的示例的示意图。系统400可体现为一种设备,该设备包括下文所描述的各种组件并且被配置为执行本文档中所描述的方面中的一个或多个方面。此类设备的示例包括但不限于各种电子设备,诸如个人计算机、膝上型计算机、智能电话、平板计算机、数字多媒体机顶盒、数字电视接收器、个人视频录制系统、互联家用电器、和服务器。系统400的元件可单独地或组合地体现在单个集成电路(IC)、多个IC和/或分立组件中。例如,在至少一个示例中,系统400的处理元件和编码器/解码器元件分布在多个IC和/或分立组件上。在各种实施方案中,系统400经由例如通信总线或通过专用输入和/或输出端口通信地耦合到一个或多个其他系统或其他电子设备。在各种实施方案中,系统400被配置为实现本文档中所描述的方面中的一个或多个方面。
系统400包括至少一个处理器410,该至少一个处理器被配置为执行加载在其中的指令以用于实现例如本文档中所描述的各个方面。处理器410可包括嵌入式存储器、输入输出接口以及如本领域所已知的各种其他电路。系统400包括至少一个存储器420(例如,易失性存储器设备和/或非易失性存储器设备)。系统400包括存储设备440,该存储设备可包括非易失性存储器和/或易失性存储器,包括但不限于电可擦除可编程只读存储器(EEPROM)、只读存储器(ROM)、可编程只读存储器(PROM)、随机存取存储器(RAM)、动态随机存取存储器(DRAM)、静态随机存取存储器(SRAM)、闪存、磁盘驱动器和/或光盘驱动器。作为非限制性示例,存储设备440可包括内部存储设备、附接的存储设备(包括可拆卸和不可拆卸的存储设备)和/或网络可访问的存储设备。
系统400包括编码器/解码器模块430,该编码器/解码器模块被配置为例如处理数据以提供经编码的视频或经解码的视频,并且编码器/解码器模块430可包括其自身的处理器和存储器。编码器/解码器模块430表示可包括在设备中以执行编码和/或解码功能的模块。众所周知,设备可包括编码模块和解码模块中的一者或两者。附加地,编码器/解码器模块430可被实现为系统400的单独元件,或者可被结合在处理器410内作为本领域技术人员已知的硬件和软件的组合。
要加载到处理器410或编码器/解码器430上以执行本文档中所描述的各个方面的程序代码可存储在存储设备440中,并且随后加载到存储器420上以供处理器410执行。根据各种实施方案,处理器410、存储器420、存储设备440和编码器/解码器模块430中的一者或多者可在本文档所描述的过程的执行期间存储各个项目中的一个或多个项目。此类存储项目可包括但不限于输入视频、经解码的视频或部分经解码的视频、比特流、矩阵、变量以及处理等式、公式、运算和运算逻辑的中间或最终结果。
在一些实施方案中,处理器410和/或编码器/解码器模块430内部的存储器用于存储指令以及提供在编码或解码期间所需的用于处理的工作存储器。然而,在其他实施方案中,在处理设备外部的存储器(例如,处理设备可以是处理器410或编码器/解码器模块430)用于这些功能中的一个或多个功能。外部存储器可以是存储器420和/或存储设备440,例如,动态易失性存储器和/或非易失性闪存存储器。在若干实施方案中,外部非易失性闪存存储器用于存储例如电视的操作系统。在至少一个实施方案中,快速外部动态易失性存储器诸如RAM用作视频译码和解码操作的工作存储器,诸如例如MPEG-2(MPEG是指运动图片专家组,MPEG-2也称为ISO/IEC 13818,并且13818-1也称为H.222,13818-2也称为H.262)、HEVC(HEVC是指高效视频译码,也称为H.265和MPEG-H部分2)或VVC(通用视频译码,由联合视频专家小组JVET开发的新标准)。
系统400的元件的输入可通过如框445中指示的各种输入设备来提供。此类输入设备包括但不限于:(i)射频(RF)部分,其接收例如由广播器通过空中发送的RF信号;(ii)分量(COMP)输入端子(或一组COMP输入端子);(iii)通用串行总线(USB)输入端子;和/或(iv)高清晰度多媒体接口(HDMI)输入端子。其他示例(图4中未示出)包括复合视频。
在各种实施方案中,框445的输入设备具有如本领域中已知的相关联的相应输入处理元件。例如,RF部分可与适用于以下项的元件相关联:(i)选择所需的频率(也称为选择信号,或将信号频带限制到一个频带),(ii)对所选择的信号进行下变频,(iii)再次频带限制到更窄频带以选择(例如)在某些实施方案中可称为信道的信号频带,(iv)解调经下变频和频带限制的信号,(v)执行纠错,以及(vi)解复用以选择所需的数据包流。各种实施方案的RF部分包括用于执行这些功能的一个或多个元件,例如频率选择器、信号选择器、频带限制器、信道选择器、滤波器、下变频器、解调器、纠错器和解复用器。RF部分可包括执行这些功能中的各种功能的调谐器,这些功能包括例如将接收信号下变频至更低频率(例如,中频或近基带频率)或至基带。在一个机顶盒实施方案中,RF部分及其相关联的输入处理元件接收通过有线(例如,电缆)介质发送的RF信号,并且通过滤波、下变频和再次滤波至所需的频带来执行频率选择。各种实施方案重新布置上述(和其他)元件的顺序,移除这些元件中的一些元件,以及/或者添加执行相似或不同功能的其他元件。添加元件可包括在现有元件之间插入元件,例如,插入放大器和模数转换器。在各种实施方案中,RF部分包括天线。
附加地,USB和/或HDMI端子可包括用于跨USB和/或HDMI连接将系统400连接到其他电子设备的相应接口处理器。应当理解,输入处理(例如,里德-所罗门(Reed-Solomon)纠错)的各个方面可按照需要例如在单独的输入处理IC内或在处理器410内实现。类似地,USB或HDMI接口处理的各方面可按照需要在单独的接口IC内或在处理器410内实现。将经解调的、经纠错的和经解复用的流提供给各种处理元件,包括例如处理器410和编码器/解码器430,该各种处理元件与存储器和存储元件结合操作以根据需要处理数据流以用于在输出设备上呈现。
系统400的各种元件可设在集成壳体内。在集成壳体内,各种元件可使用合适的连接布置425(例如,本领域已知的内部总线,包括IC间(I2C)总线、布线和印刷电路板)互连并且在这些元件之间发送数据。
系统400包括通信接口450,该通信接口使得能够经由通信信道460与其他设备通信。通信接口450可包括但不限于收发器,该收发器被配置为通过通信信道460发送和接收数据。通信接口450可包括但不限于调制解调器或网卡,并且通信信道460可例如在有线和/或无线介质内实现。
在各种实施方案中,使用无线网络(诸如Wi-Fi网络,例如,IEEE 802.11(IEEE是指电气和电子工程师协会))将数据流式传输或以其他方式提供到系统400。这些示例的Wi-Fi信号通过适于Wi-Fi通信的通信信道460和通信接口450来接收。这些实施方案的通信信道460通常连接到接入点或路由器,该接入点或路由器提供对外部网络(包括互联网)的接入,以用于允许流式应用和其他过顶通信。其他实施方案使用机顶盒向系统400提供流式传输的数据,该机顶盒通过输入框445的HDMI连接来递送数据。其他实施方案使用输入框445的RF连接向系统400提供流式传输的数据。如上所述,各种实施方案以非流式方式提供数据。附加地,各种实施方案使用除Wi-Fi以外的无线网络,例如蜂窝网络或蓝牙网络。
系统400可将输出信号提供给各种输出设备,包括显示器475、扬声器485和其他外围设备495。各种实施方案的显示器475包括例如触摸屏显示器、有机发光二极管(OLED)显示器、曲面显示器和/或可折叠显示器中的一者或多者。显示器475可用于电视、平板电脑、膝上型电脑、蜂窝电话(移动电话)或其他设备。显示器475还可与其他组件集成(例如,如在智能电话中),或者是独立的(例如,用于膝上型计算机的外部监测器)。在实施方案的各种示例中,其他外围设备495包括独立数字视频光盘(或数字多功能光盘)(DVR,适用于这两个术语)、光盘播放器、立体声系统和/或照明系统中的一者或多者。各种实施方案使用一个或多个外围设备495,该一个或多个外围设备基于系统400的输出来提供功能。例如,光盘播放器执行播放系统400的输出的功能。
在各种实施方案中,控制信号使用信令诸如AV.Link、消费电子控制(CEC)或在具有或没有用户干预的情况下实现设备到设备控制的其他通信协议,在系统400与显示器475、扬声器485或其他外围设备495之间进行传达。输出设备可通过相应的接口470、480和490经由专用连接通信地耦合到系统400。另选地,输出设备可使用通信信道460经由通信接口450连接到系统400。显示器475和扬声器485可与电子设备(诸如例如电视)中的系统400的其他组件集成在单个单元中。在各种实施方案中,显示接口470包括显示驱动器,诸如例如定时控制器(T Con)芯片。
例如,如果输入445的RF部分是单独的机顶盒的一部分,则显示器475和扬声器485可另选地与其他组件中的一个或多个组件分开。在其中显示器475和扬声器485是外部组件的各种实施方案中,输出信号可以经由专用输出连接(包括例如,HDMI端口、USB端口或COMP输出)来提供。
这些实施方案可通过由处理器410实现的计算机软件或通过硬件或通过硬件和软件的组合来执行。作为非限制性示例,这些实施方案可由一个或多个集成电路实现。存储器420可以是适合于技术环境的任何类型,并且可使用任何适当的数据存储技术来实现,作为非限制性示例,诸如光存储器设备、磁存储器设备、基于半导体的存储器设备、固定存储器和可移动存储器。处理器410可为适合技术环境的任何类型,并且作为非限制性示例,可涵盖微处理器、通用计算机、专用计算机和基于多核架构的处理器中的一者或多者。
各种具体实施涉及解码。如本申请中所用,“解码”可涵盖例如对所接收的编码序列执行以便产生适于显示的最终输出的过程的全部或部分。在各种实施方案中,此类过程包括典型地由解码器执行的一个或多个过程,例如,熵解码、逆量化、逆变换和差分解码。在各种实施方案中,此类过程还包括或另选地包括由本申请中所描述的各种具体实施的解码器执行的过程,例如,确定与用户相关联的第一基本自由度(DoF)边界,其中该第一基本DoF边界是基于运行时之前的信息和运行时信息来确定的;确定在运行时期间与该用户相关联的第二基本DoF边界;基于该第一基本DoF边界和该第二基本DoF边界来确定合并的DoF边界;以及在该合并的DoF边界的该确定成功的条件下,基于该合并的DoF边界来修改与该运行时相关联的扩展现实(XR)环境。
作为另外的实施方案,在一个示例中,“解码”仅指熵解码,在另一个实施方案中,“解码”仅指差分解码,并且在另一个实施方案中,“解码”是指熵解码和差分解码的组合。短语“解码过程”旨在具体地指代操作的子集还是广义地指代更广泛的解码过程基于具体描述的上下文将是清楚的,并且被认为会被本领域的技术人员很好地理解。
各种具体实施涉及编码。以与上面关于“解码”的讨论类似的方式,如在本申请中使用的“编码”可涵盖例如对输入视频序列执行以便产生编码比特流的过程的全部或部分。在各种实施方案中,此类过程包括典型地由编码器执行的一个或多个过程,例如,分区、差分编码、变换、量化和熵编码。在各种实施方案中,此类过程还包括或另选地包括由本申请中所描述的各种具体实施的编码器执行的过程,例如,确定与用户相关联的第一基本自由度(DoF)边界,其中该第一基本DoF边界是基于运行时之前的信息和运行时信息来确定的;确定在运行时期间与该用户相关联的第二基本DoF边界;基于该第一基本DoF边界和该第二基本DoF边界来确定合并的DoF边界;以及在该合并的DoF边界的该确定成功的条件下,基于该合并的DoF边界来修改与该运行时相关联的扩展现实(XR)环境。
作为另外的示例,在一个实施方案中,“编码”仅指熵编码,在另一实施方案中,“编码”仅指差分编码,并且在又一个实施方案中,“编码”是指差分编码和熵编码的组合。短语“编码过程”是具体地指代操作的子集还是广义地指代更广泛的编码过程基于具体描述的上下文将是清楚的,并且据信将被本领域的技术人员很好地理解。
需注意,如本文中所使用的语法元素(诸如可在表1至表5中指示且以其他方式在本文中所呈现的论述或图中指示的语法元素)为描述性术语。因此,它们不排除使用其他语法元素名称。
当附图呈现为流程图时,应当理解,其还提供了对应装置的框图。类似地,当附图呈现为框图时,应当理解,其还提供了对应的方法/过程的流程图。
在编码过程期间,通常考虑速率和失真之间的平衡或权衡,这常常考虑到计算复杂性的约束。速率失真优化通常表述为最小化速率失真函数,该速率失真函数是速率和失真的加权和。存在不同的方法解决速率失真优化问题。例如,这些方法可基于对所有编码选项(包括所有考虑的模式或译码参数值)的广泛测试,并且完整评估其译码成本以及经重建信号在译码和解码之后的相关失真。更快的方法还可用于降低编码复杂性,特别是对基于预测或预测残差信号而不是重建的残差信号的近似失真的计算。也可使用这两种方法的混合,诸如通过针对可能的编码选项中的仅一些编码选项使用近似失真,而针对其他编码选项使用完全失真。其他方法仅评估可能的编码选项的子集。更一般地,许多方法采用各种技术中的任一种来执行优化,但是优化不一定是对译码成本和相关失真两者的完整评估。
本文中所描述的具体实施和方面可在例如方法或过程、装置、软件程序、数据流或信号中实现。即使仅在单一形式的具体实施的上下文中讨论(例如,仅作为方法讨论),讨论的特征的具体实施也可以其他形式(例如,装置或程序)实现。装置可在例如适当的硬件、软件和固件中实现。这些方法可在例如处理器中实现,该处理器通常指处理设备,包括例如计算机、微处理器、集成电路或可编程逻辑设备。处理器还包括通信设备,诸如例如计算机、手机、便携式/个人数字助理(“PDA”)以及便于最终用户之间信息通信的其他设备。
提及“一个实施方案”、“实施方案”、“示例”或“一个具体实施”或“具体实施”以及它们的其他变型,意味着结合实施方案描述的特定的特征、结构、特性等包括在至少一个实施方案中。因此,短语“在一个实施方案中”、“在实施方案中”、“在示例中”或“在一个具体实施中”或“在具体实施中”的出现以及出现在本申请通篇的各个地方的任何其他变型不一定都是指同一实施方案或示例。
附加地,本申请可以涉及“确定”各种信息。确定信息可包括例如估计信息、计算信息、预测信息或从存储器检索信息中的一者或多者。获得可包括接收、检索、构造、生成和/或确定。
此外,本申请可涉及“访问”各种信息。访问信息可以包括例如接收信息、检索信息(例如,从存储器)、存储信息、移动信息、复制信息、计算信息、确定信息、预测信息或估计信息中的一者或多者。
附加地,本申请可涉及“接收”各种信息。与“访问”一样,接收旨在为广义的术语。接收信息可以包括例如访问信息或检索信息(例如,从存储器)中的一者或多者。此外,在诸如例如存储信息、处理信息、发送信息、移动信息、复制信息、擦除信息、计算信息、确定信息、预测信息或估计信息的操作期间,“接收”通常以一种方式或另一种方式参与。
应当理解,例如,在“A/B”、“A和/或B”以及“A和B中的至少一者”的情况下,使用以下“/”、“和/或”和“中的至少一者”中的任一者旨在涵盖仅选择所列出的第一选项(A),或仅选择所列出的第二选项(B),或选择两个选项(A和B)。作为进一步的示例,在“A、B和/或C”和“A、B和C中的至少一者”的情况下,此类短语旨在涵盖仅选择所列出的第一选项(A),或仅选择所列出的第二选项(B),或仅选择所列出的第三选项(C),或仅选择所列出的第一选项和所列出的第二选项(A和B),或仅选择所列出的第一选项和所列出的第三选项(A和C),或仅选择所列出的第二选项和所列出的第三选项(B和C),或选择所有三个选项(A和B和C)。如对于本领域和相关领域的普通技术人员显而易见的是,这可扩展到所列出的尽可能多的项目。
而且,如本文所用,词语“发信号通知”尤其是指向对应解码器指示某物。例如,在一些实施方案中,编码器(例如,向解码器)发信号通知MPD、自适应集、表示、预选、G-PCC组件、G-PCCComponent描述符、G-PCC描述符或基本属性描述符、补充属性描述符、G-PCC图块库存描述符、G-PCC静态空间区域描述符、GPCCTileId描述符、GPCC3DRegionID描述符、其他描述符、元素和属性、元数据、模式等(例如,如本文中所公开的,包括在表1至表5中)。这样,在实施方案中,在编码器侧和解码器侧两者处使用相同的参数。因此,例如,编码器可将特定参数发送(显式信令)到解码器,使得解码器可使用相同的特定参数。相反,如果解码器已具有特定参数以及其他参数,则可在不发送(隐式信令)的情况下使用信令,以简单地允许解码器知道并选择特定参数。通过避免发送任何实际功能,在各个实施方案中实现了比特节省。应当理解,信令可以多种方式实现。例如,在各种实施方案中,使用一个或多个语法元素、标志等将信息发信号通知到对应解码器。虽然前面涉及词语的动词形式“发信号通知”,但是该词语在本文也可用作名词“信号”。
对于本领域的普通技术人员将显而易见的是,具体实施可产生格式化为携带例如可存储或可发送的信息的多种信号。信息可以包括例如用于执行方法的指令或由所描述的具体实施中的一个具体实施产生的数据。例如,可格式化信号以携带所描述的实施方案的比特流。此类信号可格式化为例如电磁波(例如,使用频谱的射频部分)或基带信号。格式化可包括例如对数据流进行编码并且使用经编码的数据流调制载体。信号携带的信息可为例如模拟或数字信息。众所周知,信号可通过多种不同的有线或无线链路发送。信号可存储在处理器可读介质上。
在扩展现实(XR)应用中,用户移动可被定义为自由度(DoF),其可受以下约束中的一个或多个约束影响(例如,限制):用户在XR体验中所允许的能力;XR资产的观看限制(例如,由于继承捕获配置而具有有限视角的体积视频流或其他媒体资产);与专用用户移动相关联的XR体验的类型;用以在运行时提供准确的用户姿势估计而实现的空间跟踪的性能;和/或用户可在其中自由且安全地移动的可用空间。用户在XR体验中所允许的能力可包括6DoF能力和/或3DoF能力。XR游戏可包括模式,诸如玩家模式和观众模式。两个或更多个参与者可加入以在玩家模式下玩XR游戏。观众可加入以在观众模式下观看XR游戏。具有玩家模式的参与者可具有DoF能力(例如,6DoF能力)以在房间内自由移动。观众模式下的参与者可具有修改后的DoF能力(例如,3个能力)以观看处于玩家模式的参与者玩游戏。诸如体积视频流(例如,MPEG点云压缩(PCC)、MPEG沉浸式视频(MIV)等)之类的一个或多个XR资产或其他媒体资产的观看可能由于继承捕获配置而具有有限视角。XR体验的类型(例如,需要专用用户移动)可包括例如可使用坐式用户的XR赛车模拟器、可使用房间级用户移动的XR舞蹈游戏、和/或可使用世界级用户移动的博物馆参观XR体验。用以在运行时提供准确的用户姿势估计的空间跟踪的性能可包括存在的不同类型的跟踪,诸如由外向内、由内向外、世界跟踪、同步定位和/或地图绘制(SLAM)等。可用空间可以是用户可在其中自由且安全地移动的空间,这可与完全沉浸式虚拟现实(VR)体验有关,其中用户无法看到其真实的(例如,其物理)周围环境。
本文中所描述的约束可以是静态的。例如,一组约束在XR体验期间可以不改变。在应用运行时之前可知道来自体积资产的观看(例如,观看限制)和空间跟踪性能。约束可以是定时的。例如,可预期在XR体验的回放期间在给定时间实例处应用一组约束。定时约束的回放的定时可通过除了场景描述之外的手段来封装。用户表示的能力可基于XR体验经过的时间而演变。用户表示(例如,化身/相机)可沿着虚拟世界内的预定义路径。约束可以是非定时的。例如,可在XR体验回放期间在事件发生时应用(例如,预期应用)一组约束。约束的触发可通过除了场景描述之外的手段来封装。可用空间可在运行时由于用户的真实环境中的变化(例如,任何变化)(例如,可用空间的准确估计、真实对象的位移等)而被修改。用户的能力可基于运行时的用户动作(例如,获得经验、找到特定虚拟物品等)而演变。可在包括触发和动作的组合的XR交互框架内预定义这些事件。
约束可针对体验不同用例的用户的DoF定义不同的有限范围。例如,当多个用户共享共同的XR体验(例如,一致地)时,可使用框架来定义并控制多个DoF边界。
XR体验中的玩家可在不同的示例中观察XR体验。在示例中,可通过主角的视角观察XR体验(诸如第一人称射击游戏)。在示例中,可在游戏期间在屏幕上观看主角(诸如在第三人称射击游戏中)。第一形式中的用户体验模式在本文中可被称为观看者,并且第二形式中的用户体验模式在本文中可被称为“观看者+化身”,其中化身是玩游戏的主角的模型(例如,如图5所示)。
DoF约束可适用于一种情况(例如,个别情况)和/或多种情况(例如,组合的多种情况)。在考虑两种形式的用户体验模式的情况下,可使用术语“用户表示”。在示例中,一用户(例如,经由3D场景中的化身或相机来表示)可具有飞行的能力,并且另一用户可具有爬行的能力。
图5示出了主角的示例,其中玩家控制位于该主角正后方的跟踪相机。DoF约束可包括DoF边界。DoF边界可通过有界体积来表示。在有界体积内,DoF约束可以是可适用的。
可使用框架来控制共享XR体验的用户的DoF边界。该框架可包括以下各项中的一者或多者:根据用户的DoF约束确定基本边界;计算用户的合并的DoF边界;或者相对于合并的DoF边界控制用户移动(例如,如果用户到达允许的边界或者如果计算结果表明没有可能的合并的DoF边界,则可发起一个或多个预定义动作)。
XR场景描述语义可被增强以提供例如与框架相关联的预定义数据。例如,在场景级别,预定义数据可以是用户(例如,所有用户)共有的,以避免数据重复,例如,在用户(例如,所有用户)具有相同类型的XR设备的情况下与空间跟踪性能相关的数据,和/或在用户(例如,所有用户)共享相同的真实环境的情况下与可用空间相关的数据。对于场景描述中的用户表示(例如,可涉及化身/相机的用户表示),除了XR体验中的常规用户表示数据(例如,视锥、化身大小、网格碰撞器)之外,特定于用户的预定义数据可被包括作为与用户移动能力相关的数据。
使用Khonos glTF扩展机制的场景描述框架可与本文中所描述的一个或多个特征相关联地进行利用。如图6所示,可为共享XR体验的用户示出运行时处理模型。
图6例示了用于在XR环境内管理DoF边界的技术的示例框。在602处,可进行初始化阶段。初始化阶段可建立与执行该技术相关联的参数和数据结构。在604处,可确定基本DoF边界。例如,可对来自诸如用户设置、传感器数据或系统配置等来源的数据输入执行分析。在606处,可计算合并的DoF边界。可基于基本边界的子集来计算合并的DoF边界,例如,集成为综合边界。可利用一个或多个合并的DoF边界来引导用户在XR环境内的移动。
在608处,可进行检查以确定合并的边界的计算是否成功。如果合并的边界的计算不成功,如由通向610的标记为“否”的路径所指示的,则可发起边界失败动作。合并的边界的计算可能不成功,这可能发生在没有找到基本边界之间的公共交集体积的情况下;可发起边界失败动作。
可在610处开始的边界失败动作可包括在612处终止应用之前显示错误消息。用户可具有其自身的边界失败动作,这些边界失败动作在用户的表示(例如,化身/相机)glTF扩展中经由boundaryFailedActions参数引用。boundaryFailedActions参数可包括与在交互框架中定义的动作相对应的一组数字,看起来可能类似于“boundaryFailedActions”。
在610处,在边界失败动作的情况下,该技术可在612处停止。如果在608处合并的边界的计算成功,如由通向614的标记为“是”的路径所指示的,则可相对于合并的DoF边界控制XR环境内的用户移动。在616处,可进行计算以评估用户是否已经到达合并的边界。如果用户已经到达边界,如由通向618的标记为“是”的路径所表示的,则可发起边界到达动作。
在618处,一旦已经发起边界到达动作,或者如果在616处用户尚未到达合并的边界,则可在620处确定DoF边界是否是静态的。在620处,如果边界是静态的,如由返回到614的标记为“是”的路径所表示的,则可维持基于合并的DoF边界来控制XR环境内的用户移动。如果边界不是静态的,如由返回到604的标记为“否”的路径所指示的,则可重新开始确定基本自由度边界的过程。
图6示出了用于用户DoF控制的运行时处理模型的示例。该处理模型可包括以下各项中的一者或多者:确定基本DoF边界;计算合并的DoF边界;以及/或者相对于合并的DoF边界控制用户移动。
可提供基本DoF边界的确定。对于用户而言,引发基本DoF边界确定的DoF约束可基于一组输入。可存在多种(例如,两种)DoF约束,其可包括以下各项中的一者或多者。约束可包括在应用的运行时之前定义的DoF约束,这些DoF约束可由预处理技术计算。可向应用提供关于DoF约束的信息以供用户体验XR场景。例如,可使用预先计算的DoF约束,使得用户表示可自由且安全地移动。可能已经基于用户环境的经扫描表示(例如,或基于其他手段)计算DoF约束。预先计算的DoF约束可以是与用户表示的3D对象相关联的受限观看空间。约束可包括由应用在运行时定义的DoF约束。应用可依赖于诸如OpenXR之类的XR框架来确定DoF约束。
可提供在运行时之前定义的DoF约束。可在XR场景描述文件中提供用于受约束DoF的预定义数据。XR场景描述文件可以是用户的应用运行并渲染XR体验的入口点。为了提供关于受约束DoF的数据,可通过添加glTF扩展来增强XR场景描述文件。
图7例示了用于在XR环境内管理DoF边界的技术的示例框图。在702处,可存在初始化过程。该初始化过程可为该技术设置系统参数和数据结构。在704处,可确定在运行时之前定义的基本DoF边界。这些边界可基于预设配置、系统设置或用户偏好。在706处,可确定在运行时定义的基本DoF边界。在运行时定义的基本DoF边界可涉及使用实时输入,诸如传感器数据或用户交互。
在708处,可确定是否在运行时之前和在运行时都确定了基本DoF边界。如果在运行时之前和在运行时都确定了基本DoF边界,如由通向710的标记为“是”的路径所指示的,则可计算最终的基本DoF边界。在712处,可基于基本边界和最终的基本DoF边界来计算合并的DoF边界。在714处,可进行检查以评估合并的边界的计算是否成功。如果计算不成功,如由通向716的标记为“否”的路径所指示的,则可发起边界失败动作。可在716处开始的边界失败动作可包括显示错误消息或修改基本DoF边界以创建有效的合并的边界。这些修改可包括修改用户周围环境的用户指令、对姿势或某些体积资产的调整、和/或更改与用户表示能力有关的DoF约束(例如,从XR场景中移除与用户的物理周围环境相关的部分)。
在718处,可确定是否可计算新的合并的DoF边界。如果没有计算(例如,不能计算,或者不能准确地计算)合并的DoF边界,如由通向720的标记为“否”的路径所指示的,则该过程可停止。在720处,如果新的合并的DoF边界的计算不成功,则该过程可终止并且可显示错误消息。如果新的合并的边界的计算成功,如由通向722的标记为“是”的路径所指示的,则可相对于合并的DoF边界控制XR环境内的用户移动。可允许XR环境内的交互(例如,除了在计算新的合并的DoF边界之前允许的交互之外的交互),因为新的合并的DoF边界可为用户交互提供更大的空间。新的合并的DoF边界的计算可使得能够进行渲染(例如,更精细的渲染),因为可能已经对可用物理空间有了准确的(例如,更准确的)理解。新的合并的DoF边界的计算可实现安全特征,诸如当用户接近合并的DoF边界时的警报或视觉指示。
在722处,在控制用户移动之后,可在724处作出评估,可作出用户是否已经到达合并的边界的评估。在724处,如果用户已经到达合并的边界,如由通向726的标记为“是”的路径所指示的,则可发起边界到达动作。
在726处,一旦已经发起边界到达动作,或者如果在724处用户尚未到达合并的边界,则可在728处确定DoF边界是否是静态的。在728处,如果边界是静态的,如由返回到722的标记为“是”的路径所指示的,则可继续基于合并的DoF边界来控制用户移动。如果边界不是静态的,如由返回到704的标记为“否”的路径所指示的,则可再次开始确定在运行时之前定义的基本自由度边界。
对于基于体积资产的DoF约束,可存在作为体积场景或体积3D对象的部分表示的体积资产。如果体积资产不能在无界空间中被观看者使用,则体积资产可提供关于受限观看空间的参数,在该受限观看空间中用户可具有该体积资产的观看体验(例如,最佳观看体验)。
在示例中,如果3D对象被部分地捕获,则3D对象作者的意图可能是不允许用户观看未执行捕获的3D对象表面。不允许用户观看3D对象可能引发在有界体积中的受限用户移动,因为有界体积之外的视角中可能不存在3D对象的对应数据。图8中可示出潜在的有界体积。
图8示出了来自体积资产的DoF约束的示例。DoF约束可被表示为对节点的扩展。该节点可指表示“观看者”模式的场景的相机,或者节点的扩展指表示“观看者+化身”模式的场景的主角。在示例中,可通过在表示3D对象的网格级别添加glTF扩展来向XR应用提供DoF约束。
可存在多种提供DoF约束的技术。例如,可通过以下各项中的一者或多者来提供DoF边界的坐标。可通过glTF文件中的网格对象来提供坐标。网格对象可表示有界体积几何结构。有界体积几何结构的数据可与3D对象本身一起嵌入或者可通过外部手段来提供。可通过表示有界体积的参数来提供坐标。可存在多种类型的有界体积,诸如长方体、球体等。对于长方体,参数可包括顶点位置。对于球体,参数可包括有界球体的半径。这些参数可影响用户的移动并且将用户限制到被包围在DoF边界内的观看空间。
用户的取向可能在有界体积内受限。在示例中,可提供最小旋转角度和最大旋转角度。glTF文件中的旋转可通过四元数来表示。
在示例中,当有界体积附接到观看者节点或化身节点时,有界体积和DoF约束可在XR场景的世界坐标空间中表示。
图9示出了内容网格节点级别的示例边界扩展。在示例中,当有界体积作为扩展被附接到常规节点时,常规节点可指网格3D对象,如图9所示。有界几何结构的坐标空间可与网格3D对象的坐标空间相同。在3D对象几何结构和有界体积几何结构之间可能存在隐式偏移。有界体积和DoF约束可在附接节点(例如,图9中的节点2)的本地坐标空间中表示。DoF约束可适用于常规节点的子节点。
图10示出了常规节点级别的边界扩展的示例。在示例中,如果有界体积作为扩展被附接到节点分层结构中的常规节点,则另一常规节点(例如,图10中的节点2)可指网格3D对象,如图10所示。有界几何结构的坐标空间可不同于网格3D对象的坐标空间,因为两个几何结构都可遵循它们继承节点的坐标空间。可在附接节点(例如,图10中的节点1)的本地坐标空间中提供有界体积和DoF约束。DoF约束可适用于常规节点的子节点。
图11示出了根节点级别的边界扩展的示例。在示例中,当有界体积作为扩展被附接到根节点时,常规节点(例如,图11中的节点2)可指网格3D对象,如图11所示。有界几何结构的坐标空间可与根节点的坐标空间相同。可在附接节点(例如,图11中的根节点)的本地坐标空间中提供有界体积和DoF约束。
图12示出了网格级别的边界扩展的示例。在示例中,如图12所示,如果有界作为扩展被附接到网格,则有界几何结构的坐标空间可与网格3D对象的坐标空间相同。在3D对象几何结构和有界体积几何结构之间可能存在隐式偏移。可在附接节点(例如,图12中的节点1)的本地坐标空间中提供有界体积和DoF约束。
在示例中,DoF约束数据可被嵌入在体积资产格式中。XR应用可在解码步骤之后检索DoF约束。例如,沉浸式视频(例如,MIV)可定义对应于观看域约束的观看空间元数据。XR应用可基于所提供的元数据来计算相关的DoF边界。DoF边界的数据可作为对场景描述文件的补丁更新来提供。补丁更新可更新场景描述以生成如本文中所描述的语法。
内容可具有DoF特性。内容可采用与主场景不同的DoF约束。在示例中,观看者可在观看空间内自由地执行6DoF移动。在示例中,双目望远镜可被定位在场景中。观看者可能想要从双目望远镜来查看。为了模拟观看者从双目望远镜观看的条件,可显示360度视频。观看者可与场景交互并且选择从双目望远镜的视角来观察。在选择时,观看者的DoF更改为内容特定DoF,例如,在360度视频的情况下为3DoF。观看者的头部移动的旋转被应用记录并注册。观看者的头部移动的旋转对应于帧将被渲染的旋转。内容可明确地指定内容渲染可能的旋转范围。意图旋转超过该范围的观看者可触发交互,从而引发动作。可在扩展中指定动作和交互之间的关系。
用户可在其物理环境中移动。可记录平移移动。在360度视频的情况下的平移移动可能对渲染没有影响,因为内容可支持3DoF。XR运行时可监测用户的所记录的平移移动,以确定用户在由主场景传达的受限观看空间的界限内。如果用户平移出观看空间,则该平移可被记录为交互。可在扩展中指定对交互的适当动作。
当观看者意图从双目望远镜体验中退出时,场景DoF约束可接管。用户可被定位回到用户从其进入双目望远镜体验的场景。观看者的姿势移动可被记录并注册以提供场景帧的正确渲染。帧渲染可由用户的平移和旋转属性来控制。
内容可对应于6DoF约束。内容的6DoF约束的属性可不同于本文中所描述的分层结构中的场景或场景对象的父6DoF属性的属性。叶节点中的元素的DoF约束可优先。
表1可表示扩展的语义,该扩展表示包含与DoF边界相关的信息的DoF约束。
表1:MPEG_mesh/node_boundary_extension
对于从XR应用类型和/或用户跟踪系统的性能得出的DoF约束,XR应用的类型和/或用户跟踪系统的性能可能影响用户移动以允许准确的姿势估计。
可提供多个用户约束空间,这些用户约束空间可被称为XR参考空间。在示例中,可例如使用OpenXR框架和/或WebXR框架来提供多个用户约束空间。在示例中,WebXR参考空间的特性可包括以下各项中的一者或多者。本地参考空间可对应于坐式XR体验(例如,沉浸式2D视频观看器、赛车模拟器和/或太阳系探索器),这些体验可能不涉及用户在空间中四处移动。其可对应于与用户头部移动相关的3DoF/3DoF+用户约束。有界参考空间可对应于房间级XR体验(例如,XR舞蹈游戏、VR绘画/雕刻等),其中用户在其物理环境中四处移动超出固定边界以与虚拟内容交互(例如,完全交互)。有界参考空间可对应于受约束的6DoF。边界可以是固定的和预先建立的,取决于XR体验的空间(例如,空间要求)。无界参考空间可对应于世界级XR体验(例如,博物馆参观、城市游览等),其中用户在其物理环境中自由地四处移动并行进一定距离。无界参考空间可对应于不具有边界(例如,或具有无限边界)的6DoF。地理空间跟踪系统可用于室外XR体验。视图参考空间可对应于XR体验(例如,信息的抬头显示、使用点击和拖拽控件来查看四周的家具观看器等),其中XR内容可停留在固定点处,从而看起来像没有跟踪。参考空间的原点可以(例如,可以总是)处于观看器设备的姿势。用户DoF约束可取决于用户跟踪系统的性能。
可通过例如在场景级别(在用户(例如,所有用户)具有相同类型的参考空间的情况下)或者在专用用户参考空间的用户表示(例如,化身/相机)级别添加glTF扩展来向XR应用提供DoF约束。可使用枚举器或显式文本来提供本地视图类型、有界视图类型和无界视图类型之间的参考空间的类型。
对于本地参考空间和有界参考空间,可定义边界参数。可在以下示例中的一个或多个示例中提供DoF约束。可通过glTF文件中的网格对象来提供DoF边界的坐标。网格对象可表示有界体积几何结构。可通过表示有界体积的参数来提供坐标。可存在多种类型的有界体积,诸如长方体、球体等。对于长方体,参数可包括顶点全局位置。对于球体,参数可以是有界球体的半径。
表2例示了在XR应用世界空间中提供数据的示例。
表2:在XR应用世界空间中提供数据
DoF约束可与可用空间相关。可在运行时之前基于对真实环境的经扫描表示的分析来知道用户可在其中自由且安全地移动的可用空间。例如,可在先前计算期间通过执行以下各项中的一者或多者来确定地面的没有障碍物(例如,任何障碍物)的最大区域:通过对经扫描网格顶点进行迭代以及通过标识具有相同高度(例如,相同最低y坐标)的顶点;通过计算包围不同地面区域候选的轮廓;或者通过在区域候选(例如,所有区域候选)之间取最大区域。
所得到的区域可由包括连接顶点的多边形轮廓界定。可确定在所得到的最大区域上方的天花板或悬挂障碍物(例如,任何悬挂障碍物)的高度以标识可用3D空间。可在场景描述文件中提供可用空间边界。
可通过例如在场景级别(在用户共享相同的真实环境的情况下)或者在专用用户的真实环境的用户表示(例如,化身/相机)级别添加glTF扩展来向XR应用提供可用空间约束。可存在多种表示DoF约束的方式。例如,可通过glTF文件中的网格对象来提供DoF边界的坐标。网格对象可表示有界体积几何结构。可通过表示有界体积的参数来提供坐标。可存在不同类型的有界体积,诸如长方体、球体等。对于长方体,参数可包括顶点全局位置。对于球体,参数可以是有界球体的半径。
表3例示了在XR应用世界空间中提供数据的示例。
表3:在XR应用世界空间中提供数据
对于与XR体验中的用户表示能力相关的DoF约束,用户表示在XR体验中可能不具有相同的DoF。在示例中,可允许用户表示在虚拟世界中四处(例如,到处)走动。可允许用户表示在单个房间内四处走动。用户表示可飞行,并且用户表示可爬行等。
约束可以是以下各项中的一者或多者。约束可以是静态的(例如,因为约束在XR体验期间不改变)。约束可以是定时的(例如,如预期在XR体验的回放期间在给定时间实例处应用)。用户表示的能力可基于XR体验经过的时间而演变。用户表示可遵循虚拟世界内的预定义路径。这些约束可以是非定时约束,这些非定时约束预期在XR体验回放期间在事件发生时应用。用户的能力可基于运行时的用户动作(例如,获得经验、找到特定虚拟物品等)而演变。可在包括触发和动作的组合的XR交互框架内预定义事件。
表4例示了与运行时的用户能力的修改相关的动作的示例语义。
表4:与运行时的用户能力的修改相关的动作的语义
可通过在用户表示(例如,化身/相机)级别添加glTF扩展来向XR应用提供具有以下参数中的一个或多个参数的能力约束。capabilitiesBoundaries参数可定义在XR应用世界空间中表示的边界的顶点坐标。可通过glTF文件中的网格对象来提供这些坐标。网格对象可表示有界体积几何结构。可通过表示有界体积的参数来提供坐标。可存在不同类型的有界体积,诸如长方体、球体等。对于长方体,参数可包括顶点全局位置。对于球体,参数可以是有界球体的半径。capabilitiesTimeBehavior参数可使用静态行为、定时行为或非定时行为之间的枚举或显式文本来定义边界的时间行为。如果定义了定时capabilitiesTimeBehavior,则可由以下各项中的一者或多者提供定时数据。可由指示在glTF访问器数组中具有MPEG_accessor_timed扩展的相关访问器的capabilitiesTimedAccessor参数来提供定时数据或者由指示MPEG_media扩展中的相关媒体的capabilitiesMediaSource参数来提供定时数据。当能力数据按每一帧演变时,可使用capabilitiesTimedAccessor参数。当能力数据按预定义时间戳(诸如合成时间戳(CTS)(例如,如表5所示))演变时,可使用capabilitiesMediaSource参数。可在JSON文件中提供与capabilitiesMediaSource参数相关的能力数据,其中mimetype等于“application/json”。
表5
可在运行时定义DoF约束。一个或多个DoF约束可在运行时由XR应用使用专用XR框架(例如,OpenXR)确定。在示例中,当在先前步骤中(例如,在运行时之前)没有分析经扫描环境时,可确定用户表示可在其中自由且安全地移动的可用空间。
该应用可依赖于OpenXR API和GetReferenceSpaceBoundsRect()技术来计算该可用空间。
在示例中,可根据运行时之前的信息和运行时信息两者来确定DoF约束。
在示例中,可确定用户可在其中自由且安全地移动的可用空间。当前用户环境可能是随时间演变的,并且可能已经从在运行时之前完成的经扫描数据操作改变(例如,桌子或椅子已经移位)。相关DoF边界在预定义信息(例如,在场景描述文件中提供)和运行时信息(例如,从GetReferenceSpaceBoundsRect()OpenXR API提供)之间可能不一致。
可使用计算来确定最终的相关DoF边界。可使用用于计算的技术,例如:不考虑在运行时之前确定的DoF约束并且采用在运行时提供的最近的DoF约束;以及/或者取这2个DoF约束之间的公共交集体积。
可提供对合并的DoF边界的计算。用户表示的合并的DoF边界可对应于在本文中所描述的技术中确定的基本边界(例如,所有基本边界)之间的公共交集体积,如图13所示。
图13示出了合并的DoF边界的计算的示例。如果基本约束是静态的或者对于随时间演变或动态定义的边界周期性地(例如,至多每帧)改变,则可例如在XR应用的开始处计算合并的DoF边界。
如果用户的合并的边界的计算失败(例如,如果在所有基本边界之间不存在公共交集体积),则XR应用可发起一组预定义的边界失败动作。可在交互框架内定义该组预定义的边界失败动作。
例如,边界失败动作可以是显示错误消息。边界失败动作可修改一个或若干个基本DoF边界以获得有效的(例如,非空的)合并的DoF边界,例如:通知用户移动或重新布置其真实环境以扩大/修改可用空间约束;修改姿势或不考虑体积资产以修改/抑制其相关的DoF约束;以及/或者修改与用户表示能力相关的DoF约束。如果在进行边界失败动作修改的情况下仍没有有效的合并的DoF边界,则可在停止应用之前显示错误消息。
用户可具有专用的边界失败动作。可通过添加boundaryFailedActions参数来在用户表示(例如,化身/相机)glTF扩展内引用专用的边界失败动作。该boundaryFailedActions参数可包括一组数字(例如,整数数组)。该组数字可对应于在交互框架的动作数组中定义的动作的位置。“boundaryFailedActions”:[1,3]
可提供相对于合并的DoF边界控制用户移动。XR应用可周期性地(例如,至多每帧)控制用户的位置以检查用户是否位于合并的DoF边界内。
用户是否位于合并的DoF边界内的确定可基于一个或多个用户移动。如果检测到用户移动(例如,显著的用户移动),则可执行(例如,仅执行)边界检查。在示例中,XR应用可依赖于轨迹预测计算来提前确定用户是否将要到达合并的边界。
一旦用户到达或接近到达合并的边界,XR应用可发起一组边界到达动作(例如,预定义的边界到达动作)。可在交互框架内定义该组边界到达动作。该组边界到达动作可包括以下各项中的一者或多者:到黑屏渲染的渐进式过渡;警告消息的显示;触觉振动信号;或音频信号。
用户可具有专用的边界到达动作。可通过添加boundaryReachedActions参数来在先前用户表示/相机glTF扩展内引用这些动作。boundaryReachedActions参数可包括一组数字(例如,整数数组)。该组数字可对应于在交互框架的动作数组中定义的动作的位置,如下:
“boundaryReachedActions”:[0,2]
尽管上文以特定组合描述了特征和元件,但是本领域的普通技术人员将理解,每个特征或元件可单独使用或以与其他特征和元件的任何组合来使用。此外,本文中所描述的方法可在结合于计算机可读介质中以供计算机或处理器执行的计算机程序、软件或固件中实现。计算机可读介质的示例包括电子信号(通过有线连接或无线连接发送)和计算机可读存储介质。计算机可读存储介质的示例包括但不限于只读存储器(ROM)、随机存取存储器(RAM)、寄存器、高速缓存存储器、半导体存储器设备、磁介质(诸如内置硬盘和可移动磁盘)、磁光介质和光介质(诸如CD-ROM磁盘和数字通用光盘(DVD))。与软件相关联的处理器可用于实现用于WTRU、UE、终端、基站、RNC或任何主计算机的射频收发器。

Claims (18)

1.一种设备,所述设备包括:
处理器,所述处理器被配置为:
确定与用户相关联的第一基本自由度(DoF)边界,其中所述第一基本DoF边界是基于运行时之前的信息或运行时信息中的至少一者来确定的;
至少基于所述运行时之前的信息或所述运行时信息来确定与所述用户相关联的第二基本DoF边界;
基于所述第一基本DoF边界和所述第二基本DoF边界来确定合并的DoF边界;以及
在所述合并的DoF边界的所述确定成功的条件下,确定基于所述合并的边界来控制所述用户的移动。
2.根据权利要求1所述的设备,其中在所述合并的DoF边界的所述确定不成功的条件下,所述处理器被进一步配置为修改所述第一基本DoF边界或所述第二基本DoF边界以获得修改后的DoF边界。
3.根据权利要求2所述的设备,其中所述处理器被进一步配置为:
基于所述修改后的DoF边界以及所述第一基本DoF边界或所述第二基本DoF边界来确定新的合并的DoF边界。
4.根据权利要求3所述的设备,其中所述处理器被进一步配置为:
通过确定不考虑所述第一基本DoF边界或所述第二基本DoF边界中的一者或多者的体积资产来确定所述修改后的DoF边界。
5.根据权利要求3所述的设备,其中所述处理器被进一步配置为:
通过修改与所述第一基本DoF边界或所述第二基本DoF边界相关联的空间约束来确定所述修改后的DoF边界。
6.根据权利要求5所述的设备,其中所述处理器被配置为修改所述空间约束包括:所述处理器被配置为提示所述用户修改所述用户的物理环境。
7.根据权利要求1所述的设备,其中在所述合并的DoF边界的所述确定不成功的条件下,所述处理器被进一步配置为修改与所述用户相关联的XR环境内的虚拟物品。
8.根据权利要求1所述的设备,其中所述处理器被配置为基于所述第一基本DoF边界和所述第二基本DoF边界来确定合并的DoF边界包括:所述处理器被配置为:
确定所述第一基本DoF边界的物理环境和所述第二基本DoF边界的物理环境不同;以及
基于所述差异,确定在所述合并的DoF边界中不允许所述第一基本DoF边界。
9.根据权利要求1所述的设备,其中所述处理器被配置为基于所述第一基本DoF边界和所述第二基本DoF边界来确定合并的DoF边界包括:所述处理器被配置为:
确定所述第一基本DoF边界的物理环境和所述第二基本DoF边界的物理环境不同;以及
基于所述差异,基于所述第一基本DoF边界和所述第二基本DoF边界的公共交集来确定所述合并的DoF边界。
10.一种方法,所述方法包括:
确定与用户相关联的第一基本自由度(DoF)边界,其中所述第一基本DoF边界是基于运行时之前的信息或运行时信息中的至少一者来确定的;
至少基于所述运行时之前的信息或所述运行时信息来确定与所述用户相关联的第二基本DoF边界;
基于所述第一基本DoF边界和所述第二基本DoF边界来确定合并的DoF边界;以及
在所述合并的DoF边界的所述确定成功的条件下,确定基于所述合并的边界来控制所述用户的移动。
11.根据权利要求10所述的方法,其中在所述合并的DoF边界的所述确定不成功的条件下,所述方法还包括:修改所述第一基本DoF边界或所述第二基本DoF边界以获得修改后的DoF边界。
12.根据权利要求11所述的方法,其中所述方法还包括:
基于所述修改后的DoF边界以及所述第一基本DoF边界或所述第二基本DoF边界来确定新的合并的DoF边界。
13.根据权利要求12所述的方法,其中所述方法还包括:
通过确定不考虑所述第一基本DoF边界或所述第二基本DoF边界中的一者或多者的体积资产来确定所述修改后的DoF边界。
14.根据权利要求12所述的方法,其中所述方法还包括:
通过修改与所述第一基本DoF边界或所述第二基本DoF边界相关联的空间约束来确定所述修改后的DoF边界。
15.根据权利要求14所述的方法,其中修改所述空间约束包括:提示所述用户修改所述用户的物理环境。
16.根据权利要求10所述的方法,其中在所述合并的DoF边界的所述确定不成功的条件下,所述方法还包括:修改与所述用户相关联的XR环境内的虚拟物品。
17.根据权利要求10所述的方法,其中基于所述第一基本DoF边界和所述第二基本DoF边界来确定合并的DoF边界包括:
确定所述第一基本DoF边界的物理环境和所述第二基本DoF边界的物理环境不同;以及
基于所述差异,确定在所述合并的DoF边界中不允许所述第一基本DoF边界。
18.根据权利要求10所述的方法,其中基于所述第一基本DoF边界和所述第二基本DoF边界来确定合并的DoF边界包括:
确定所述第一基本DoF边界的物理环境和所述第二基本DoF边界的物理环境不同;以及
基于所述差异,基于所述第一基本DoF边界和所述第二基本DoF边界的公共交集来确定所述合并的DoF边界。
CN202380052162.7A 2022-06-17 2023-06-16 Xr体验中的自由度控制 Pending CN119497843A (zh)

Applications Claiming Priority (3)

Application Number Priority Date Filing Date Title
EP22305881.9 2022-06-17
EP22305881 2022-06-17
PCT/EP2023/066331 WO2023242431A1 (en) 2022-06-17 2023-06-16 Degree-of-freedom control in xr experiences

Publications (1)

Publication Number Publication Date
CN119497843A true CN119497843A (zh) 2025-02-21

Family

ID=82403710

Family Applications (1)

Application Number Title Priority Date Filing Date
CN202380052162.7A Pending CN119497843A (zh) 2022-06-17 2023-06-16 Xr体验中的自由度控制

Country Status (4)

Country Link
EP (1) EP4526758A1 (zh)
KR (1) KR20250021587A (zh)
CN (1) CN119497843A (zh)
WO (1) WO2023242431A1 (zh)

Family Cites Families (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
WO2018200315A1 (en) * 2017-04-26 2018-11-01 Pcms Holdings, Inc. Method and apparatus for projecting collision-deterrents in virtual reality viewing environments
CN118573920A (zh) * 2019-01-24 2024-08-30 交互数字Vc控股公司 用于自适应空间内容流传输的方法和装置

Also Published As

Publication number Publication date
WO2023242431A1 (en) 2023-12-21
EP4526758A1 (en) 2025-03-26
KR20250021587A (ko) 2025-02-13

Similar Documents

Publication Publication Date Title
CN111713111B (zh) 用于360度视频译码的面不连续性滤波
CN112740701A (zh) 用于360度视频译码的样本导出
EP3632111A1 (en) Hybrid cubemap projection for 360-degree video coding
US12267504B2 (en) Adaptive streaming of geometry-based point clouds
US12348772B2 (en) Partial access support in ISOBMFF containers for video-based point cloud streams
US20240430478A1 (en) Adaptive streaming of geometry-based point clouds
WO2023122077A1 (en) Temporal attention-based neural networks for video compression
CN114097241A (zh) 流传输服务中的体积内容分量子比特流的动态适配
CN119497843A (zh) Xr体验中的自由度控制
TW202520040A (zh) 可追蹤物件的姿勢
WO2025078394A1 (en) Poses of trackable objects
WO2025073951A1 (en) Avatar canonical pose in scene descriptions
WO2025078482A1 (en) Framework information for split inference
CN119563323A (zh) 用信号通知基于几何的点云流的参数集
WO2024236014A1 (en) Measurement and adjustment of extended reality roundtrip delays
WO2025078347A1 (en) Geometry avatar media codec for transmission
WO2025021673A1 (en) Semantic face parameter encoding
CN119563326A (zh) Xr体验中的定时照明
KR20250087625A (ko) Rtp를 이용한 v3c 데이터의 뷰포트 및/또는 관심 영역 종속 전달
WO2025073621A1 (en) Pdpc for intra prediction with perspectives
CN118575195A (zh) 从量化点云重建进行坐标细化和上采样
WO2025016874A1 (en) Low complexity multiplane image profile
KR20240089399A (ko) 깊이 모션 기반 다중 유형 트리 분할
CN116830588A (zh) 用于基于视觉体积视频(v3c)媒体和基于几何的点云(g-pcc)媒体的流式传输的mmt信令
CN119137963A (zh) 使用多个相关图案的胶片颗粒合成

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination