[go: up one dir, main page]

CN118575195A - 从量化点云重建进行坐标细化和上采样 - Google Patents

从量化点云重建进行坐标细化和上采样 Download PDF

Info

Publication number
CN118575195A
CN118575195A CN202380017313.5A CN202380017313A CN118575195A CN 118575195 A CN118575195 A CN 118575195A CN 202380017313 A CN202380017313 A CN 202380017313A CN 118575195 A CN118575195 A CN 118575195A
Authority
CN
China
Prior art keywords
point
feature
point cloud
neural network
points
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Pending
Application number
CN202380017313.5A
Other languages
English (en)
Inventor
M·A·洛迪
庞家昊
田东
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
InterDigital VC Holdings Inc
Original Assignee
InterDigital VC Holdings Inc
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by InterDigital VC Holdings Inc filed Critical InterDigital VC Holdings Inc
Priority claimed from PCT/US2023/010488 external-priority patent/WO2023133350A1/en
Publication of CN118575195A publication Critical patent/CN118575195A/zh
Pending legal-status Critical Current

Links

Landscapes

  • Mobile Radio Communication Systems (AREA)

Abstract

公开了用于从量化点云重建进行坐标细化和/或上采样的系统、方法和手段。在示例中,可提供基于点的坐标细化。解码器后点云细化模块可包括以下中的一者或多者。该模块可包括访问点云的解码的量化版本。该模块可包括访问和/或获取点中每个点的相邻区域内的点。可使用基于点的神经网络模块来计算特征,例如,基于所获取的点的三维(3D)(例如,或KD)位置,例如,其概括了细节(例如,复杂细节)。可基于使用全连接(FC)模块的综合特征来预测当前点的细化偏移。

Description

从量化点云重建进行坐标细化和上采样
交叉引用
本申请要求2022年1月10日提交的美国专利申请号63/297,894和2022年10月18日提交的美国专利申请号63/417,226的权益,这些专利申请的内容全文以引用方式并入本文。
背景技术
视频译码系统可用于压缩数字视频信号,例如,以减少此类信号所需要的存储和/或传输带宽。视频译码系统可包括例如基于小波的系统、基于对象的系统和/或基于块的系统(诸如基于块的混合视频译码系统)。用于压缩和处理点云的当前工具可能是不够的。
发明内容
公开了用于从量化点云重建进行坐标细化和/或上采样的系统、方法和手段。在示例中,可提供基于点的坐标细化。解码器后点云细化模块可包括以下中的一者或多者。该模块可包括访问点云的粗略或解码的量化版本。该模块可包括访问和/或获取点中每个点的相邻区域内的点。该模块可包括使用基于卷积的神经网络模块来计算特征,例如,基于所获取的点的体素化版本,例如,其概括了细节(例如,复杂细节)。可使用基于点的神经网络模块来计算另一特征,例如,基于所获取的点的三维(3D)(例如,或KD)位置,例如,其概括了细节(例如,复杂细节)。在示例中,可将特征级联起来以组成综合特征。可基于使用全连接(FC)模块的综合特征来预测当前点的细化偏移。
在示例中,可提供坐标上采样。解码器后点云上采样模块(例如,粗点云上采样模型)可包括以下中的一者或多者。可访问点云(例如,粗点云)的解码的量化版本。该模块可包括访问和/或获取点中每个点的相邻区域内的点。可基于所获取的点使用神经网络模块来计算特征(例如,混合特征)。可使用计算特征通过FC模块来预测新点相对于当前点的偏移。
可执行分层特征传播。例如,可使用某些架构(例如,增强的架构)来执行分层特征传播,以进行位置细化和上采样。例如,可修改(例如,增强)PointCRM架构和/或PointUPM架构以执行分层特征传播。分层特征传播可包括对来自前一级别(例如,父级别、已解码级别)的特征进行上采样以匹配当前八叉树级别的分辨率。上采样的特征可传播到例如子节点,用于预测当前级别处的点细化。
描述了本文的任何地方公开的每个特征,并且该特征可以分开地/单独地以及以与本文公开的任何其他特征和/或与本文可隐含地或明确地提到的或可以其他方式落入本文公开的主题的范围内的其他地方公开的任何特征的任何组合实施。
附图说明
图1A是示出在其中一个或多个所公开的实施方案可得以实现的示例通信系统的系统图。
图1B是示出根据一个实施方案的可在图1A所例示的通信系统内使用的示例无线发送/接收单元(WTRU)的系统图。
图1C是示出根据一个实施方案的可在图1A所例示的通信系统内使用的示例无线电接入网(RAN)和示例核心网(CN)的系统图。
图1D是示出根据一个实施方案的可在图1A所例示的通信系统内使用的另外一个示例RAN和另外一个示例CN的系统图。
图2是示出示例视频编码器的示意图。
图3是示出视频解码器的示例的示意图。
图4是示出可在其中实现各个方面和示例的系统的示例的示意图。
图5示出了VoxelContextNet的示例。
图6示出了基于基本点的坐标细化模块(PointCRM)的示例。
图7示出了多分辨率分组增强的(MRG增强的)PointCRM的示例。
图8示出了多尺度分组增强的(MSG增强的)PointCRM的示例。
图9示出了混合架构的示例。
图10示出了基于卷积的分支的示例。
图11示出了基于基本点的上采样模块(PointUPM)的示例。
图12示出了具有精确点匹配的基本PointUPM的示例。
图13示出了折叠增强的PointUPM的示例。
图14示出了基于预测的UPM的示例。
图15示出了分层特征传播的示例。
图16例示了基于稀疏卷积的示例体素分支。
图17例示了基于由稀疏卷积组成的ResNet的示例体素分支。
图18例示了基于由稀疏卷积组成的启发式ResNet的体素分支的示例。
图19例示了基于变换器块的示例点分支的示意图。
图20例示了用于动态点云压缩的示例帧间译码图。
图21例示了用于动态点云压缩的帧间译码的示例解码器。
图22例示了示例更新的帧间译码图。
图23例示了使用基于增强的参考PC的帧间预测的示例解码器。
具体实施方式
现在将参考各种附图来描述例示性实施方案的详细描述。尽管本说明书提供了可能的具体实施的详细示例,但应当指出的是,细节旨在为示例性的,并且绝不限制本申请的范围。
图1A是示出可在其中实现一个或多个所公开的实施方案的示例通信系统100的图。通信系统100可为向多个无线用户提供诸如语音、数据、视频、消息、广播等内容的多址接入系统。通信系统100可使多个无线用户能够通过系统资源(包括无线带宽)的共享来访问此类内容。例如,通信系统100可采用一种或多种信道接入方法,诸如码分多址接入(CDMA)、时分多址接入(TDMA)、频分多址接入(FDMA)、正交FDMA(OFDMA)、单载波FDMA(SC-FDMA)、零尾唯一字DFT扩展OFDM(ZT UW DTS-s OFDM)、唯一字OFDM(UW-OFDM)、资源块滤波OFDM、滤波器组多载波(FBMC)等。
如图1A所示,通信系统100可包括无线发送/接收单元(WTRU)102a、102b、102c、102d、RAN 104/113、CN 106/115、公共交换电话网(PSTN)108、互联网110和其他网络112,但应当理解,所公开的实施方案设想了任何数量的WTRU、基站、网络和/或网络元件。WTRU102a、102b、102c、102d中的每一个WTRU可以是被配置为在无线环境中操作和/或通信的任何类型的设备。作为示例,WTRU 102a、102b、102c、102d(其中任何一个均可被称为“站”和/或“STA”)可被配置为发送和/或接收无线信号,并且可包括用户装备(UE)、移动站、固定或移动用户单元、基于订阅的单元、寻呼机、蜂窝电话、个人数字助理(PDA)、智能手机、膝上计算机、上网本、个人计算机、无线传感器、热点或Mi-Fi设备、物联网(IoT)设备、手表或其他可穿戴设备、头戴式显示器(HMD)、车辆、无人机、医疗设备和应用(例如,远程手术)、工业设备和应用(例如,在工业和/或自动处理链环境中操作的机器人和/或其他无线设备)、消费电子设备、在商业和/或工业无线网络上操作的设备等。WTRU 102a、102b、102c和102d中的任一者可互换地称为UE。
通信系统100还可包括基站114a和/或基站114b。基站114a、114b中的每一个基站可为任何类型的设备,其被配置为与WTRU 102a、102b、102c、102d中的至少一个WTRU无线对接以促进对一个或多个通信网络(诸如CN 106/115、互联网110和/或其他网络112)的访问。作为示例,基站114a、114b可为收发器基站(BTS)、节点B、演进节点B、家庭节点B、家庭演进节点B、gNB、NR节点B、站点控制器、接入点(AP)、无线路由器等。虽然基站114a、114b各自被描绘为单个元件,但应当理解,基站114a、114b可包括任何数量的互连基站和/或网络元件。
基站114a可以是RAN 104/113的一部分,该RAN还可包括其他基站和/或网络元件(未示出),诸如基站控制器(BSC)、无线电网络控制器(RNC)、中继节点等。基站114a和/或基站114b可被配置为在一个或多个载波频率(其可被称为小区(未示出))上发送和/或接收无线信号。这些频率可在许可频谱、未许可频谱或许可和未许可频谱的组合中。小区可向特定地理区域提供无线服务的覆盖,该特定地理区域可为相对固定的或可随时间改变。小区可进一步被划分为小区扇区。例如,与基站114a相关联的小区可被划分为三个扇区。因此,在一个实施方案中,基站114a可包括三个收发器,即,小区的每个扇区一个收发器。在一个实施方案中,基站114a可采用多输入多输出(MIMO)技术并且可针对小区的每个扇区利用多个收发器。例如,可使用波束成形在所需的空间方向上发送和/或接收信号。
基站114a、114b可通过空中接口116与WTRU 102a、102b、102c、102d中的一者或多者通信,该空中接口可为任何合适的无线通信链路(例如,射频(RF)、微波、厘米波、微米波、红外(IR)、紫外(UV)、可见光等)。可使用任何合适的无线电接入技术(RAT)来建立空中接口116。
更具体地,如上所指出,通信系统100可为多址接入系统,并且可采用一个或多个信道接入方案,诸如CDMA、TDMA、FDMA、OFDMA、SC-FDMA等。例如,RAN 104/113中的基站114a和WTRU 102a、102b、102c可实现诸如通用移动电信系统(UMTS)陆地无线电接入(UTRA)的无线电技术,其可使用宽带CDMA(WCDMA)来建立空中接口115/116/117。WCDMA可包括诸如高速分组接入(HSPA)和/或演进的HSPA(HSPA+)的通信协议。HSPA可包括高速下行链路(DL)分组接入(HSDPA)和/或高速UL分组接入(HSUPA)。
在一个实施方案中,基站114a和WTRU 102a、102b、102c可实现诸如演进的UMTS陆地无线电接入(E-UTRA)的无线电技术,其可使用长期演进(LTE)和/或高级LTE(LTE-A)和/或高级LTE Pro(LTE-A Pro)来建立空中接口116。
在一个实施方案中,基站114a和WTRU 102a、102b、102c可实现诸如NR无线电接入之类的无线电技术,其可使用新无线电(NR)来建立空中接口116。
在一个实施方案中,基站114a和WTRU 102a、102b、102c可实现多种无线电接入技术。例如,基站114a和WTRU 102a、102b、102c可例如使用双连接(DC)原理一起实现LTE无线电接入和NR无线电接入。因此,WTRU 102a、102b、102c所利用的空中接口可由多种类型的无线电接入技术和/或向多种类型的基站(例如,eNB和gNB)传送的发送/来自多种类型的基站的发送来表征。
在其他实施方案中,基站114a和WTRU 102a、102b、102c可实现诸如IEEE 802.11(即,无线保真(WiFi))、IEEE 802.16(即,全球微波接入互操作性(WiMAX))、CDMA2000、CDMA2000 1X、CDMA2000 EV-DO、暂行标准2000(IS-2000)、暂行标准95(IS-95)、暂行标准856(IS-856)、全球移动通信系统(GSM)、GSM增强数据率演进(EDGE)、GSM EDGE(GERAN)等无线电技术。
图1A中的基站114b可为例如无线路由器、家庭节点B、家庭演进节点B或接入点,并且可利用任何合适的RAT来促进诸如商业场所、家庭、车辆、校园、工业设施、空中走廊(例如,供无人机使用)、道路等局部区域中的无线连接。在一个实施方案中,基站114b和WTRU102c、102d可实现诸如IEEE 802.11的无线电技术以建立无线局域网(WLAN)。在一个实施方案中,基站114b和WTRU 102c、102d可实现诸如IEEE 802.15的无线电技术以建立无线个域网(WPAN)。在又一个实施方案中,基站114b和WTRU 102c、102d可利用基于蜂窝的RAT(例如,WCDMA、CDMA2000、GSM、LTE、LTE-A、LTE-A Pro、NR等)来建立微微小区或毫微微小区。如图1A所示,基站114b可具有与互联网110的直接连接。因此,基站114b可不需要经由CN 106/115访问互联网110。
RAN 104/113可与CN 106/115通信,该CN可以是被配置为向WTRU 102a、102b、102c、102d中的一者或多者提供语音、数据、应用和/或互联网协议语音(VoIP)服务的任何类型的网络。数据可具有不同的服务质量(QoS)要求,诸如不同的吞吐量要求、延迟要求、误差容限要求、可靠性要求、数据吞吐量要求、移动性要求等。CN 106/115可提供呼叫控制、账单服务、基于移动位置的服务、预付费呼叫、互联网连接、视频分发等,和/或执行高级安全功能,诸如用户认证。尽管未在图1A中示出,但是应当理解,RAN 104/113和/或CN 106/115可与采用与RAN 104/113相同的RAT或不同RAT的其他RAN进行直接或间接通信。例如,除了连接到可利用NR无线电技术的RAN 104/113之外,CN 106/115还可与采用GSM、UMTS、CDMA2000、WiMAX、E-UTRA或WiFi无线电技术的另一RAN(未示出)通信。
CN 106/115也可充当WTRU 102a、102b、102c、102d的网关,以访问PSTN 108、互联网110和/或其他网络112。PSTN 108可包括提供普通老式电话服务(POTS)的电路交换电话网络。互联网110可包括使用常见通信协议(诸如传输控制协议(TCP)、用户数据报协议(UDP)和/或TCP/IP互联网协议组中的互联网协议(IP))的互连计算机网络和设备的全球系统。网络112可包括由其他服务提供商拥有和/或运营的有线和/或无线通信网络。例如,网络112可包括连接到一个或多个RAN的另一CN,该一个或多个RAN可采用与RAN 104/113相同的RAT或不同的RAT。
通信系统100中的WTRU 102a、102b、102c、102d中的一些或所有WTRU可包括多模式能力(例如,WTRU 102a、102b、102c、102d可包括用于通过不同无线链路与不同无线网络通信的多个收发器)。例如,图1A所示的WTRU 102c可被配置为与可采用基于蜂窝的无线电技术的基站114a通信,并且与可采用IEEE 802无线电技术的基站114b通信。
图1B是示出示例WTRU 102的系统图。如图1B所示,WTRU 102可包括处理器118、收发器120、发送/接收元件122、扬声器/麦克风124、小键盘126、显示器/触摸板128、不可移动存储器130、可移动存储器132、电源134、全球定位系统(GPS)芯片组136和/或其他外围设备138等。应当理解,在与实施方案保持一致的同时,WTRU 102可包括前述元件的任何子组合。
处理器118可以是通用处理器、专用处理器、常规处理器、数字信号处理器(DSP)、多个微处理器、与DSP核心相关联的一个或多个微处理器、控制器、微控制器、专用集成电路(ASIC)、现场可编程门阵列(FPGA)电路、任何其他类型的集成电路(IC)、状态机等。处理器118可执行信号译码、数据处理、功率控制、输入/输出处理和/或任何其他功能,这些其他功能使WTRU 102能够在无线环境中操作。处理器118可耦合到收发器120,该收发器可耦合到发送/接收元件122。虽然图1B将处理器118和收发器120描绘为单独的部件,但是应当理解,处理器118和收发器120可在电子封装件或芯片中集成在一起。
发送/接收元件122可被配置为通过空中接口116向基站(例如,基站114a)发送信号或从基站接收信号。例如,在一个实施方案中,发送/接收元件122可以是被配置为发送和/或接收RF信号的天线。在一个实施方案中,发送/接收元件122可为被配置为发送和/或接收例如IR、UV或可见光信号的发射体/检测器。在又一个实施方案中,发送/接收元件122可被配置为发送和/或接收RF和光信号两者。应当理解,发送/接收元件122可被配置为发送和/或接收无线信号的任何组合。
尽管发送/接收元件122在图1B中被描绘为单个元件,但是WTRU 102可包括任何数量的发送/接收元件122。更具体地,WTRU 102可采用MIMO技术。因此,在一个实施方案中,WTRU 102可包括用于通过空中接口116发送和接收无线信号的两个或更多个发送/接收元件122(例如,多个天线)。
收发器120可被配置为调制将由发送/接收元件122发送的信号并且解调由发送/接收元件122接收的信号。如上所指出,WTRU 102可具有多模式能力。例如,因此,收发器120可包括多个收发器,以便使WTRU 102能够经由多种RAT(诸如NR和IEEE 802.11)进行通信。
WTRU 102的处理器118可耦合到扬声器/麦克风124、小键盘126和/或显示器/触摸板128(例如,液晶显示器(LCD)显示单元或有机发光二极管(OLED)显示单元)并且可从其接收用户输入数据。处理器118还可将用户数据输出到扬声器/麦克风124、小键盘126和/或显示器/触摸板128。此外,处理器118可从任何类型的合适存储器(诸如不可移动存储器130和/或可移动存储器132)访问信息,并且将数据存储在任何类型的合适存储器中。不可移动存储器130可包括随机存取存储器(RAM)、只读存储器(ROM)、硬盘或任何其他类型的存储器存储设备。可移动存储器132可包括用户身份模块(SIM)卡、记忆棒、安全数字(SD)存储卡等。在其他实施方案中,处理器118可从物理上没有定位在WTRU 102上(诸如,服务器或家用计算机(未示出)上)的存储器访问信息,并且将数据存储在该存储器中。
处理器118可从电源134接收电力,并且可被配置为向WTRU 102中的其他部件分配和/或控制电力。电源134可为用于为WTRU 102供电的任何合适的设备。例如,电源134可包括一个或多个干电池组(例如,镍镉(NiCd)、镍锌(NiZn)、镍金属氢化物(NiMH)、锂离子(Li-ion)等)、太阳能电池、燃料电池等。
处理器118还可耦合到GPS芯片组136,该GPS芯片组可被配置为提供关于WTRU 102的当前位置的位置信息(例如,经度和纬度)。除了来自GPS芯片组136的信息之外或代替该信息,WTRU 102可通过空中接口116从基站(例如,基站114a、114b)接收位置信息和/或基于从两个或更多个附近基站接收到信号的定时来确定其位置。应当理解,在与实施方案保持一致的同时,WTRU 102可通过任何合适的位置确定方法来获取位置信息。
处理器118还可耦合到其他外围设备138,该其他外围设备可包括提供附加特征、功能和/或有线或无线连接的一个或多个软件模块和/或硬件模块。例如,外围设备138可包括加速度计、电子指南针、卫星收发器、数字相机(用于照片和/或视频)、通用串行总线(USB)端口、振动设备、电视收发器、免提耳麦、模块、调频(FM)无线电单元、数字音乐播放器、媒体播放器、视频游戏播放器模块、互联网浏览器、虚拟现实和/或增强现实(VR/AR)设备、活动跟踪器等。外围设备138可包括一个或多个传感器,该传感器可为以下中的一者或多者:陀螺仪、加速度计、霍尔效应传感器、磁力计、方位传感器、接近传感器、温度传感器、时间传感器;地理位置传感器;测高计、光传感器、触摸传感器、磁力计、气压计、手势传感器、生物识别传感器和/或湿度传感器。
WTRU 102可包括全双工无线电台,对于该全双工无线电台,一些或所有信号的发射和接收(例如,与用于UL(例如,用于发送)和下行链路(例如,用于接收)的特定子帧相关联)可为并发的和/或同时的。全双工无线电台可包括干扰管理单元,该干扰管理单元用于经由硬件(例如,扼流圈)或经由处理器(例如,单独的处理器(未示出)或经由处理器118)进行的信号处理来减少和/或基本上消除自干扰。在一个实施方案中,WRTU 102可包括半双工无线电台,对于该半双工无线电台,一些或所有信号的发送和接收(例如,与用于UL(例如,用于发送)或下行链路(例如,用于接收)的特定子帧相关联)。
图1C是示出根据一个实施方案的RAN 104和CN 106的系统图。如上所指出,RAN104可采用E-UTRA无线电技术通过空中接口116与WTRU 102a、102b、102c通信。RAN 104还可与CN 106通信。
RAN 104可包括演进节点B 160a、160b、160c,但是应当理解,在与实施方案保持一致的同时,RAN 104可包括任何数量的演进节点B。演进节点B 160a、160b、160c各自可包括一个或多个收发器以便通过空中接口116与WTRU 102a、102b、102c通信。在一个实施方案中,演进节点B 160a、160b、160c可实现MIMO技术。因此,演进节点B 160a例如可使用多个天线来向WTRU 102a发送无线信号和/或从该WTRU接收无线信号。
演进节点B 160a、160b、160c中的每一者可与特定小区(未示出)相关联,并且可被配置为处理无线电资源管理决策、切换决策、UL和/或DL中的用户的调度等。如图1C所示,演进节点B 160a、160b、160c可通过X2接口彼此通信。
图1C所示的CN 106可包括移动性管理实体(MME)162、服务网关(SGW)164和分组数据网络(PDN)网关(或PGW)166。虽然前述元件中的每一个元件被描绘为CN 106的一部分,但应当理解,这些元件中的任一元件可由除CN运营商之外的实体拥有和/或运营。
MME 162可经由S1接口连接到RAN 104中的演进节点B 162a、162b、162c中的每一个演进节点,并且可用作控制节点。例如,MME 162可负责认证WTRU 102a、102b、102c的用户、承载激活/停用、在WTRU 102a、102b、102c的初始附加期间选择特定服务网关等。MME162可提供用于在RAN 104和采用其他无线电技术(诸如GSM和/或WCDMA)的其他RAN(未示出)之间进行切换的控制平面功能。
SGW 164可经由S1接口连接到RAN 104中的演进节点B 160a、160b、160c中的每一个演进节点。SGW 164通常可向/从WTRU 102a、102b、102c路由和转发用户数据分组。SGW164可执行其他功能,诸如在演进节点B间切换期间锚定用户平面、当DL数据可用于WTRU102a、102b、102c时触发寻呼、管理和存储WTRU 102a、102b、102c的上下文等。
SGW 164可连接到PGW 166,该PGW可向WTRU 102a、102b、102c提供对分组交换网络(诸如互联网110)的访问,以促进WTRU 102a、102b、102c和启用IP的设备之间的通信。
CN 106可促进与其他网络的通信。例如,CN 106可向WTRU 102a、102b、102c提供对电路交换网络(诸如,PSTN 108)的访问,以促进WTRU 102a、102b、102c与传统陆线通信设备之间的通信。例如,CN 106可包括用作CN 106和PSTN 108之间的接口的IP网关(例如,IP多媒体子系统(IMS)服务器)或者可与该IP网关通信。此外,CN 106可向WTRU 102a、102b、102c提供对其他网络112的访问,该其他网络可包括由其他服务提供商拥有和/或运营的其他有线和/或无线网络。
尽管WTRU在图1A至图1D中被描述为无线终端,但是可以设想到,在某些代表性实施方案中,这种终端可(例如,临时或永久)使用与通信网络的有线通信接口。
在代表性实施方案中,其他网络112可为WLAN。
处于基础结构基本服务集(BSS)模式的WLAN可具有用于BSS的接入点(AP)以及与AP相关联的一个或多个站点(STA)。AP可具有至分发系统(DS)或将流量携带至和/或携带流量离开BSS的另一种类型的有线/无线网络的接入或接口。源自BSS外部并通向STA的流量可通过AP到达并且可被递送到STA。源自STA并通向BSS外部的目的地的流量可被传送到AP以被递送到相应目的地。BSS内的STA之间的流量可通过AP传送,例如,其中源STA可向AP传送流量,并且AP可将流量递送到目的地STA。BSS内的STA之间的流量可被视为和/或称为点对点流量。可利用直接链路建立(DLS)在源STA和目的地STA之间(例如,直接在它们之间)传送点对点流量。在某些代表性实施方案中,DLS可使用802.11e DLS或802.11z隧道DLS(TDLS)。使用独立BSS(IBSS)模式的WLAN可不具有AP,并且IBSS内或使用IBSS的STA(例如,STA中的所有STA)可彼此直接通信。IBSS通信模式在本文中有时可称为“ad-hoc”通信模式。
当使用802.11ac基础结构操作模式或相似操作模式时,AP可在固定信道(诸如主信道)上发送信标。主信道可以为固定宽度(例如,20MHz宽带宽)或经由信令动态设置的宽度。主信道可为BSS的操作信道,并且可由STA用来建立与AP的连接。在某些代表性实施方案中,例如在802.11系统中可实现载波侦听多路访问/冲突避免(CSMA/CA)。对于CSMA/CA,STA(例如,每个STA)(包括AP)可侦听主信道。如果主信道被特定STA侦听/检测和/或确定为繁忙,则特定STA可退避。一个STA(例如,仅一个站点)可在给定BSS中在任何给定时间发送。
高吞吐量(HT)STA可使用40MHz宽的信道进行通信,例如,经由主20MHz信道与相邻或不相邻的20MHz信道的组合以形成40MHz宽的信道。
极高吞吐量(VHT)STA可支持20MHz、40MHz、80MHz和/或160MHz宽的信道。40MHz和/或80MHz信道可通过组合连续的20MHz信道来形成。可通过组合8个连续的20MHz信道,或通过组合两个非连续的80MHz信道(这可称为80+80配置)来形成160MHz信道。对于80+80配置,在信道编码之后,数据可通过可将数据分成两个流的段解析器。可单独地对每个流进行快速傅里叶逆变换(IFFT)处理和时间域处理。可以将这些流映射到两个80MHz信道,并且可通过发送STA来发送数据。在接收STA的接收器处,可颠倒上述用于80+80配置的操作,并且可将组合的数据传送到介质访问控制(MAC)。
802.11af和802.11ah支持低于1GHz的操作模式。相对于802.11n和802.11ac中使用的那些,802.11af和802.11ah中减少了信道操作带宽和载波。802.11af支持电视白空间(TVWS)频谱中的5MHz、10MHz和20MHz带宽,并且802.11ah支持使用非TVWS频谱的1MHz、2MHz、4MHz、8MHz和16MHz带宽。根据代表性实施方案,802.11ah可支持仪表类型控制/机器类型通信,诸如宏覆盖区域中的MTC设备。MTC设备可具有某些能力,例如有限的能力,包括支持(例如,仅支持)某些带宽和/或有限的带宽。MTC设备可包括电池寿命高于阈值(例如,以保持非常长的电池寿命)的电池。
可支持多个信道的WLAN系统以及诸如802.11n、802.11ac、802.11af和802.11ah之类的信道带宽包括可被指定为主信道的信道。主信道可具有等于由BSS中的所有STA支持的最大公共操作带宽的带宽。主信道的带宽可由来自在BSS中操作的所有STA的STA(其支持最小带宽操作模式)设置和/或限制。在802.11ah的示例中,对于支持(例如,仅支持)1MHz模式的STA(例如,MTC型设备),主信道可为1MHz宽,即使AP和BSS中的其他STA支持2MHz、4MHz、8MHz、16MHz和/或其他信道带宽操作模式。载波侦听和/或网络分配向量(NAV)设置可取决于主信道的状态。如果主信道繁忙,例如,由于STA(仅支持1MHz操作模式)正在向AP发送,即使大多数频段保持空闲并且可能可用,整个可用频段也可被视为繁忙。
在美国,可供802.11ah使用的可用频带为902MHz至928MHz。在韩国,可用频带为917.5MHz至923.5MHz。在日本,可用频带为916.5MHz至927.5MHz。802.11ah可用的总带宽为6MHz至26MHz,具体取决于国家代码。
图1D是示出根据一个实施方案的RAN 113和CN 115的系统图。如上所指出,RAN113可采用NR无线电技术以通过空中接口116与WTRU 102a、102b、102c通信。RAN 113还可以与CN 115通信。
RAN 113可包括gNB 180a、180b、180c,但应当理解,RAN 113可包括任何数量的gNB,同时与实施方案保持一致。gNB 180a、180b、180c各自可包括一个或多个收发器以便通过空中接口116与WTRU 102a、102b、102c通信。在一个实施方案中,gNB 180a、180b、180c可实现MIMO技术。例如,gNB 180a、108b可利用波束成形来向gNB 180a、180b、180c发送信号和/或从中接收信号。因此,gNB 180a例如可使用多个天线来向WTRU 102a发送无线信号和/或从该WTRU接收无线信号。在一个实施方案中,gNB 180a、180b、180c可实现载波聚合技术。例如,gNB 180a可向WTRU 102a(未示出)发送多个分量载波。这些分量载波的子集可在未许可频谱上,而其余分量载波可在许可频谱上。在一个实施方案中,gNB 180a、180b、180c可实现协作多点(CoMP)技术。例如,WTRU 102a可从gNB 180a和gNB 180b(和/或gNB 180c)接收协作发送。
WTRU 102a、102b、102c可使用与可扩展参数集相关联的发送来与gNB 180a、180b、180c通信。例如,OFDM符号间隔和/或OFDM子载波间隔可因不同发送、不同小区和/或无线发送频谱的不同部分而变化。WTRU 102a、102b、102c可使用各种或可扩展长度的子帧或发送时间间隔(TTI)(例如,包含不同数量的OFDM符号和/或持续变化的绝对时间长度)来与gNB180a、180b、180c通信。
gNB 180a、180b、180c可被配置为以独立配置和/或非独立配置与WTRU 102a、102b、102c通信。在独立配置中,WTRU 102a、102b、102c可与gNB 180a、180b、180c通信,同时也不访问其他RAN(例如,诸如演进节点B 160a、160b、160c)。在独立配置中,WTRU 102a、102b、102c可将gNB 180a、180b、180c中的一者或多者用作移动性锚定点。在独立配置中,WTRU 102a、102b、102c可在未许可频带中使用信号与gNB 180a、180b、180c通信。在非独立配置中,WTRU 102a、102b、102c可与gNB 180a、180b、180c通信/连接,同时也与另外的RAN(诸如,演进节点B160a、160b、160c)通信/连接。例如,WTRU 102a、102b、102c可实现DC原理以基本上同时与一个或多个gNB 180a、180b、180c和一个或多个演进节点B 160a、160b、160c通信。在非独立配置中,演进节点B 160a、160b、160c可用作WTRU 102a、102b、102c的移动性锚点,并且gNB 180a、180b、180c可提供用于服务WTRU 102a、102b、102c的附加覆盖和/或吞吐量。
gNB 180a、180b、180c中的每一个gNB可与特定小区(未示出)相关联,并且可被配置为处理无线电资源管理决策、切换决策、UL和/或DL中的用户的调度、网络切片的支持、双连接、NR和E-UTRA之间的互通、用户平面数据朝向用户平面功能(UPF)184a、184b的路由、控制平面信息朝向接入和移动性管理功能(AMF)182a、182b的路由等。如图1D所示,gNB 180a、180b、180c可通过Xn接口彼此通信。
图1D所示的CN 115可包括至少一个AMF 182a、182b、至少一个UPF 184a、184b、至少一个会话管理功能(SMF)183a、183b以及可能数据网络(DN)185a、185b。虽然前述元件中的每个元件被描绘为CN 115的一部分,但应当理解,这些元件中的任一元件可由CN运营商之外的实体拥有和/或运营。
AMF 182a、182b可经由N2接口连接到RAN 113中的gNB 180a、180b、180c中的一者或多者,并且可用作控制节点。例如,AMF 182a、182b可负责认证WTRU 102a、102b、102c的用户、网络切片的支持(例如,具有不同要求的不同PDU会话的处理)、选择特定SMF 183a、183b、注册区域的管理、NAS信令的终止、移动性管理等。AMF 182a、182b可使用网络切片,以便基于WTRU 102a、102b、102c所使用的服务的类型来为WTRU 102a、102b、102c定制CN支持。例如,可针对不同的用例(诸如,依赖超高可靠低延迟(URLLC)接入的服务、依赖增强型移动宽带(eMBB)接入的服务、用于机器类型通信(MTC)接入的服务等)建立不同的网络切片。AMF162可提供用于在RAN 113和采用其他无线电技术(诸如LTE、LTE-A、LTE-A Pro和/或非3GPP接入技术(诸如WiFi))的其他RAN(未示出)之间进行切换的控制平面功能。
SMF 183a、183b可经由N11接口连接到CN 115中的AMF 182a、182b。SMF 183a、183b还可以经由N4接口连接到CN 115中的UPF 184a、184b。SMF 183a、183b可选择并控制UPF184a、184b,并且配置通过UPF 184a、184b进行的流量路由。SMF 183a、183b可执行其他功能,诸如管理和分配UE IP地址、管理PDU会话、控制策略实施和QoS、提供下行链路数据通知等。PDU会话类型可基于IP、基于非IP、基于以太网等。
UPF 184a、184b可经由N3接口连接到RAN 113中的gNB 180a、180b、180c中的一者或多者,这些gNB可向WTRU 102a、102b、102c提供对分组交换网络(诸如互联网110)的访问,以促进WTRU 102a、102b、102c和启用IP的设备之间的通信。UPF 184、184b可执行其他功能,诸如路由和转发分组、实施用户平面策略、支持多宿主PDU会话、处理用户平面QoS、缓冲下行链路分组、提供移动性锚定等。
CN 115可以促进与其他网络的通信。例如,CN 115可包括用作CN 115和PSTN 108之间的接口的IP网关(例如,IP多媒体子系统(IMS)服务器)或者可与该IP网关通信。此外,CN 115可以向WTRU 102a、102b、102c提供对其他网络112的访问,该其他网络可包括由其他服务提供商拥有和/或运营的其他有线和/或无线网络。在一个实施方案中,WTRU 102a、102b、102c可通过UPF 184a、184b经由至UPF 184a、184b的N3接口以及在UPF 184a、184b与本地数据网络(DN)185a、185b之间的N6接口连接到DN 185a、185b。
鉴于图1A至图1D以及图1A至图1D的对应描述,本文参照以下中的一者或多者描述的功能中的一个或多个功能或所有功能可由一个或多个仿真设备(未示出)执行:WTRU102a-d、基站114a-b、演进节点B 160a-c、MME 162、SGW 164、PGW 166、gNB 180a-c、AMF182a-b、UPF 184a-b、SMF 183a-b、DN 185a-b和/或本文所述的任何其他设备。仿真设备可以是被配置为模仿本文所述的功能中的一个或多个功能或所有功能的一个或多个设备。例如,仿真设备可用于测试其他设备和/或模拟网络和/或WTRU功能。
仿真设备可被设计为在实验室环境和/或运营商网络环境中实现其他设备的一个或多个测试。例如,该一个或多个仿真设备可执行一个或多个功能或所有功能,同时被完全或部分地实现和/或部署为有线和/或无线通信网络的一部分,以便测试通信网络内的其他设备。该一个或多个仿真设备可执行一个或多个功能或所有功能,同时临时被实现/部署为有线和/或无线通信网络的一部分。仿真设备可直接耦合到另一个设备以用于测试目的和/或可使用空中无线通信来执行测试。
该一个或多个仿真设备可执行一个或多个(包括所有)功能,同时不被实现/部署为有线和/或无线通信网络的一部分。例如,仿真设备可在测试实验室和/或非部署(例如,测试)有线和/或无线通信网络中的测试场景中使用,以便实现一个或多个部件的测试。该一个或多个仿真设备可为测试装备。经由RF电路系统(例如,其可包括一个或多个天线)进行的直接RF耦合和/或无线通信可由仿真设备用于发送和/或接收数据。
本申请描述了多个方面,包括工具、特征、示例或实施方案、模型、方法等。这些方面中的许多方面以特定的方式进行描述,并且至少为了示出个体特征,通常以听起来可能具有限制性的方式来描述。然而,这是为了描述清楚,并不限制这些方面的应用或范围。实际上,所有不同的方面可组合和互换以提供进一步的方面。此外,这些方面也可与较早提交中描述的方面组合和互换。
本申请中描述和设想的方面可以许多不同的形式实现。本文所述的图5至图8可提供一些实施方案,但也设想了其他实施方案。图5至图8的讨论并不限制具体实施的广度。这些方面中的至少一个方面通常涉及视频编码和解码,并且至少一个其他方面通常涉及发送生成或编码的比特流。这些方面和其他方面可被实现为方法、装置、其上存储有用于根据方法中的任一方法对视频数据进行编码或解码的指令的计算机可读存储介质,和/或其上存储有根据方法中的任一方法生成的比特流的计算机可读存储介质。
在本申请中,术语“重建”和“解码”可以互换使用,术语“像素”和“样本”可以互换使用,术语“图像”、“图片”和“帧”可以互换使用。
本文描述了各种方法,并且每种方法包括用于实现方法的一个或多个步骤或动作。除非正确操作方法需要特定顺序的步骤或动作,否则可修改或组合特定步骤和/或动作的顺序和/或用途。另外地,术语诸如“第一”、“第二”等可用于各种实施方案以修改元件、部件、步骤、操作等,诸如“第一解码”和“第二解码”。除非具体要求,否则使用此类术语并不暗示对修改操作的排序。因此,在这个示例中,第一解码不需要在第二解码之前执行,并且可例如在第二解码之前、期间或在重叠的时间段中发生。
本申请中描述的各种方法和其他方面可(例如,用于)修改模块,例如,如图2和图3分别所示的视频编码器200和视频解码器300的预编码处理201、帧内预测260、熵译码245和/或熵解码模块330、帧内预测360、解码后处理385。此外,本文所公开的主题呈现了不限于VVC或HEVC的方面,并且可应用于例如任何类型、格式或版本的视频译码(无论是在标准中描述的还是在建议中描述的,无论是预先存在的还是未来开发的),以及任何此类标准和建议的扩展(例如,包括VVC和HEVC)。除非另有指示或技术上排除,否则本申请中所述的方面可单独使用或组合使用。
在本申请描述的示例中使用各种数值,诸如最小值范围和最大值范围(例如,0至1、0至N或0至255)、针对指示或确定的比特值、默认值、ID号(例如,针对自适应ID)等。这些和其他特定值是为了描述示例的目的,并且所描述的方面不限于这些特定值。
图2是示出示例视频编码器的示意图。设想了示例编码器200的变型,但下文为了清楚起见描述了编码器200,而不描述所有预期的变型。
在经过编码之前,视频序列可经过预编码处理(201),例如,将颜色变换应用于输入的彩色图片(例如,从RGB 4:4:4转换到YCbCr 4:2:0),或执行输入图片分量的重新映射,以便获取更能弹性应对压缩的信号分布(例如,使用颜色分量中的一个颜色分量的直方图均衡化)。元数据可与预处理相关联,并且附加到比特流。
在编码器200中,图片由如下文所述的编码器元件进行编码。以例如译码单元(CU)为单位对待编码图片进行分区(202)和处理。例如,使用帧内模式或帧间模式对每个单元进行编码。当以帧内模式对单元进行编码时,该单元执行帧内预测(260)。以帧间模式执行运动估计(275)和补偿(270)。编码器决定(205)要使用帧内模式或帧间模式中的哪一者对单元进行编码,以及通过例如预测模式标志来指示帧内/帧间决策。预测残差例如通过从原始图像块中减去(210)预测的块进行计算。
然后,对预测残差进行变换(225)和量化(230)。对量化的变换系数以及运动矢量和其他语法元素进行熵译码(245)以输出比特流。编码器可跳过变换,并将量化直接应用于未变换的残差信号。编码器可绕过变换和量化两者,即,在不应用变换或量化过程的情况下直接对残差进行译码。
编码器对编码块进行解码,以提供进一步预测的参考。对量化的变换系数进行解量化(240)和逆变换(250)以对预测残差进行解码。通过将解码的预测残差和预测的块进行组合(255)重建图像块。将环内滤波器(265)应用于重建的图像以执行例如,解块/SAO(样本自适应偏移)滤波,从而减少编码伪影。滤波的图像存储在参考图片缓冲器(280)处。
图3是示出视频解码器的示例的示意图。在示例解码器300中,比特流由解码器元件解码,如下所述。视频解码器300通常执行与图2中描述的编码过程相反的解码过程。编码器200通常还可执行视频解码作为对视频数据编码的一部分。例如,编码器200可执行本文呈现的视频解码步骤中的一个或多个视频解码步骤。编码器例如重建所解码的图像,以相对于以下项中的一者或多者维持与解码器的同步:参考图片、熵译码上下文和其他解码器相关状态变量。
具体地,解码器的输入包括视频比特流,该视频比特流可由视频编码器200生成。首先,对比特流进行熵解码(330)以获得变换系数、运动矢量和其他译码信息。图片分区信息指示如何对图片进行分区。因此,解码器可根据解码图片分区信息来划分(335)图片。对变换系数进行解量化(340)和逆变换(350)以对预测残差进行解码。通过将解码的预测残差和预测的块进行组合(355)重建图像块。可从帧内预测(360)或运动补偿预测(即,帧间预测)(375)获得(370)预测的块。环内滤波器(365)被应用于重建的图像。滤波的图像存储在参考图片缓冲器(380)处。
解码的图片还可经过解码后处理(385),例如,逆颜色变换(例如,从YCbCr 4:2:0转换到RGB 4:4:4)或执行与在预编码处理(201)中执行的重新映射过程相逆的逆重新映射。解码后处理可以使用在预编码处理中导出并在比特流中发信号通知的元数据。
图4是示出可在其中实现本文所述的各个方面和实施方案的系统的示例的示意图。系统400可体现为一种设备,该设备包括下文所述的各种部件并且被配置为执行本文档中所述方面中的一个或多个方面。此类设备的示例包括但不限于各种电子设备,诸如个人计算机、膝上型计算机、智能电话、平板电脑、数字多媒体机顶盒、数字电视机接收器、个人视频录制系统、连接的家用电器和服务器。系统400的元件可单独地或组合地体现在单个集成电路(IC)、多个IC和/或分立部件中。例如,在至少一个示例中,系统400的处理和编码器/解码器元件分布在多个IC和/或分立部件上。在各种实施方案中,系统400经由例如通信总线或通过专用输入和/或输出端口通信地耦合到一个或多个其他系统或其他电子设备。在各种实施方案中,系统400被配置为实现本文档所述的方面中的一个或多个方面。
系统400包括至少一个处理器410,该至少一个处理器被配置为执行加载在其中的指令以用于实现例如本文档中所述的各个方面。处理器410可包括嵌入式存储器、输入输出接口以及如本领域所已知的各种其他电路。系统400包括至少一个存储器420(例如,易失性存储器设备和/或非易失性存储器设备)。系统400包括存储设备440,该存储设备可包括非易失性存储器和/或易失性存储器,包括但不限于电可擦可编程只读存储器(EEPROM)、只读存储器(ROM)、可编程只读存储器(PROM)、随机存取存储器(RAM)、动态随机存取存储器(DRAM)、静态随机存取存储器(SRAM)、闪存、磁盘驱动器和/或光盘驱动器。作为非限制性示例,存储设备440可包括内部存储设备、附接的存储设备(包括可拆卸和不可拆卸的存储设备)和/或网络可访问的存储设备。
系统400包括编码器/解码器模块430,该编码器/解码器模块被配置为例如处理数据以提供编码的视频或解码的视频,并且编码器/解码器模块430可包括其自身的处理器和存储器。编码器/解码器模块430表示可被包括在设备中以执行编码和/或解码功能的模块。众所周知,设备可包括编码模块和解码模块中的一者或两者。另外地,编码器/解码器模块430可被实现为系统400的独立元件,或者可被结合在处理器410内作为本领域技术人员已知的硬件和软件的组合。
要加载到处理器410或编码器/解码器430上以执行本文档中所述的各个方面的程序代码可存储在存储设备440中,并且随后加载到存储器420上以供处理器410执行。根据各种实施方案,处理器410、存储器420、存储设备440和编码器/解码器模块430中的一者或多者可在本文档所述的过程的执行期间存储各个项目中的一个或多个项目。此类存储项目可包括但不限于输入视频、解码的视频或部分解码的视频、比特流、矩阵、变量以及处理等式、公式、运算和运算逻辑的中间或最终结果。
在一些实施方案中,处理器410和/或编码器/解码器模块430内部的存储器用于存储指令以及提供在编码或解码期间所需的用于处理的工作存储器。然而,在其他实施方案中,在处理设备外部的存储器(例如,处理设备可以是处理器410或编码器/解码器模块430)用于这些功能中的一个或多个功能。外部存储器可为存储器420和/或存储设备440,例如,动态易失性存储器和/或非易失性闪存存储器。在若干实施方案中,外部非易失性闪存存储器用于存储例如电视机的操作系统。在至少一个实施方案中,快速外部动态易失性存储器诸如RAM用作视频译码和解码操作的工作存储器,诸如例如MPEG-2(MPEG是指运动图片专家组,MPEG-2也称为ISO/IEC 13818,并且13818-1也称为H.222,13818-2也称为H.262)、HEVC(HEVC是指高效视频译码,也称为H.265和MPEG-H部分2)或VVC(通用视频译码,由联合视频专家小组JVET开发的新标准)。
系统400的元件的输入可通过如框445中指示的各种输入设备来提供。此类输入设备包括但不限于:(i)射频(RF)部分,其接收例如由广播器通过空中发送的RF信号;(ii)分量(COMP)输入端子(或一组COMP输入端子);(iii)通用串行总线(USB)输入端子;和/或(iv)高清晰度多媒体接口(HDMI)输入端子。其他示例(图4中未示出)包括复合视频。
在各种实施方案中,框445的输入设备具有如本领域中已知的相关联的相应输入处理元件。例如,RF部分可与适用于以下项的元件相关联:(i)选择所需的频率(也称为选择信号,或将信号频带限制到一个频带),(ii)下变频选择的信号,(iii)再次频带限制到更窄频带以选择(例如)在某些实施方案中可称为信道的信号频带,(iv)解调下变频和频带限制的信号,(v)执行纠错,以及(vi)解复用以选择所需的数据包流。各种实施方案的RF部分包括用于执行这些功能的一个或多个元件,例如频率选择器、信号选择器、频带限制器、信道选择器、滤波器、下变频器、解调器、纠错器和解复用器。RF部分可包括执行这些功能中的各种功能的调谐器,这些功能包括例如下变频接收信号至更低频率(例如,中频或近基带频率)或至基带。在一个机顶盒实施方案中,RF部分及其相关联的输入处理元件接收通过有线(例如,电缆)介质发送的RF信号,并且通过滤波、下变频和再次滤波至所需的频带来执行频率选择。各种实施方案重新布置上面所描述的(和其他)元件的顺序,移除这些元件中的一些元件,和/或添加执行相似或不同功能的其他元件。添加元件可包括在现有元件之间插入元件,例如,插入放大器和模数变换器。在各种实施方案中,RF部分包括天线。
另外地,USB和/或HDMI端子可包括用于跨USB和/或HDMI连接将系统400连接到其他电子设备的相应的接口处理器。应当理解,输入处理(例如,Reed-Solomon纠错)的各个方面可按照需要例如在单独的输入处理IC内或在处理器410内实现。相似地,USB或HDMI接口处理的各方面可按照需要在独立的接口IC内或在处理器410内实现。将经解调的、经纠错的和经解复用的流提供给各种处理元件,包括例如处理器410和编码器/解码器430,各种处理元件与存储器和存储元件结合操作以根据需要处理数据流以用于在输出设备上呈现。
系统400的各种元件可设置在集成壳体内。在集成壳体内,各种元件可使用合适的连接布置425(例如,本领域已知的内部总线,包括IC间(I2C)总线、布线和印刷电路板)互连并且在这些元件之间发送数据。
系统400包括通信接口450,该通信接口使得能够经由通信信道460与其他设备通信。通信接口450可包括但不限于收发器,该收发器被配置为通过通信信道460发送和接收数据。通信接口450可包括但不限于调制解调器或网卡,并且通信信道460可例如在有线和/或无线介质内实现。
在各种实施方案中,数据使用诸如Wi-Fi网络(例如,IEEE 802.11(IEEE是指电气与电子工程师协会))的无线网络被流式传输或以其他方式提供给系统400。这些示例的Wi-Fi信号通过适于Wi-Fi通信的通信信道460和通信接口450来接收。这些实施方案的通信信道460通常连接到接入点或路由器,该接入点或路由器提供对外部网络(包括互联网)的访问,以用于允许流式应用和其他过顶通信。其他实施方案使用机顶盒向系统400提供流式传输的数据,该机顶盒通过输入框445的HDMI连接来递送数据。还有其他实施方案使用输入框445的RF连接向系统400提供流式传输的数据。如上所述,各种实施方案以非流方式提供数据。另外地,各种实施方案使用除Wi-Fi以外的无线网络,例如蜂窝网络或蓝牙网络。
系统400可将输出信号提供给各种输出设备,包括显示器475、扬声器485和其他外围设备495。各种实施方案的显示器475包括例如触摸屏显示器、有机发光二极管(OLED)显示器、曲面显示器和/或可折叠显示器中的一者或多者。显示器475可用于电视机、平板电脑、膝上型电脑、蜂窝电话(移动电话)或其他设备。显示器475还可与其他部件集成(例如,如在智能电话中),或者是独立的(例如,用于膝上型计算机的外部监视器)。在实施方案的各种示例中,其他外围设备495包括独立数字视频光盘(或数字多功能光盘)(DVR,用于两者的术语)、光盘播放器、立体声系统和/或照明系统中的一者或多者。各种实施方案使用一个或多个外围设备495,该一个或多个外围设备基于系统400的输出来提供功能。例如,光盘播放器执行播放系统400的输出的功能。
在各种实施方案中,控制信号使用信令诸如AV.Link、消费电子控制(CEC)或在具有或没有用户干预的情况下实现设备到设备控制的其他通信协议,在系统400与显示器475、扬声器485或其他外围设备495之间传达。输出设备可通过相应的接口470、480和490经由专用连接通信地耦合到系统400。另选地,输出设备可使用通信信道460经由通信接口450连接到系统400。显示器475和扬声器485可与电子设备(诸如例如电视)中的系统400的其他部件集成在单个单元中。在各种实施方案中,显示接口470包括显示驱动器,诸如例如定时控制器(T Con)芯片。
例如,如果输入445的RF部分是单独的机顶盒的一部分,则显示器475和扬声器485可另选地与其他部件中的一个或多个部件分开。在其中显示器475和扬声器485是外部组件的各种实施方案中,输出信号可以经由专用输出连接(包括例如,HDMI端口、USB端口或COMP输出)来提供。
这些实施方案可通过由处理器410实现的计算机软件或通过硬件或通过硬件和软件的组合来执行。作为非限制性示例,这些实施方案可由一个或多个集成电路实现。存储器420可以是适合于技术环境的任何类型,并且可使用任何适当的数据存储技术来实现,作为非限制性示例,诸如光存储器设备、磁存储器设备、基于半导体的存储器设备、固定存储器和可移动存储器。处理器410可为适合技术环境的任何类型,并且作为非限制性示例,可涵盖微处理器、通用计算机、专用计算机和基于多核架构的处理器中的一者或多者。
各种具体实施涉及解码。如本申请中所用,“解码”可涵盖例如对所接收的编码序列执行的过程的全部或部分,以便产生适于显示的最终输出。在各种实施方案中,此类过程包括典型地由解码器执行的一个或多个过程,例如,熵解码、逆量化、逆变换和差分解码。在各种实施方案中,此类过程还包括或者另选地包括由本申请中描述的各种具体实施的解码器执行的过程,例如,接收、解码和解译指示与点云组件相关联的元素、属性和元数据的信号(例如,如本文中所述);标识媒体呈现描述符(MPD)内的点云流及其组件子流;标识点云和/或其组件的版本;对MPD进行解码以标识主自适应集和其他自适应集,从而标识基于几何的点云压缩(G-PCC)内容中的G-PCC组件;对MPD进行解码以标识自适应集或表示中的点云组件的类型;对MPD进行解码以标识一个或多个预选择;对MPD进行解码以标识G-PCC媒体的一个或多个版本;对MPD进行解码以标识一个或多个G-PCC图块组;对MPD进行解码以标识针对自适应集中的G-PCC组件的一个或多个图块ID;对MPD进行解码以标识空间区域的一个或多个特性和区域与G-PCC图块之间的映射、空间区域的特性和区域与G-PCC组件的对应的自适应集之间的映射以及/或者空间区域与G-PCC组件的对应的自适应集之间的映射;对MPD进行解码以标识针对动态空间区域的定时元数据轨道;等等。
作为进一步实施方案,在一个示例中,“解码”仅是指熵解码,在另一个实施方案中,“解码”仅是指差分解码,并且在另一个实施方案中,“解码”是指熵解码和差分解码的组合。短语“解码过程”旨在具体地指代操作的子集还是广义地指代更广泛的解码过程基于具体描述的上下文将是清楚的,并且被认为会被本领域的技术人员很好地理解。
各种具体实施涉及编码。以与上面关于“解码”的讨论类似的方式,如在本申请中使用的“编码”可涵盖例如对输入视频序列执行以便产生编码比特流的全部或部分过程。在各种实施方案中,此类过程包括典型地由编码器执行的一个或多个过程,例如,分区、差分编码、变换、量化和熵编码。在各种实施方案中,此类过程还包括或者另选地包括由本申请中描述的各种具体实施的编码器执行的过程,例如,生成、编码和传送指示与点云组件相关联的元素、属性和元数据的信号(例如,如本文所述);对MPD进行编码以指示点云流及其组件子流;对MPD进行编码以指示主自适应集和其他自适应集以支持对基于几何的点云压缩(G-PCC)内容中的G-PCC组件的标识;对MPD进行编码以支持对自适应集或表示中的点云组件的类型的标识;对MPD进行编码以标识一个或多个预选择;对MPD进行编码以支持对G-PCC媒体的一个或多个版本的标识;对MPD进行编码以支持对一个或多个G-PCC图块组的标识;对MPD进行编码以支持对自适应集中的G-PCC组件的一个或多个图块ID的标识;对MPD进行编码以支持对以下各项的标识:空间区域的一个或多个特性和区域与G-PCC图块之间的映射、空间区域的特性和区域与G-PCC组件的对应的自适应集之间的映射,以及/或者空间区域与G-PCC组件的对应的自适应集之间的映射;对MPD进行解码以标识针对动态空间区域的定时元数据轨道;等等。
作为进一步的示例,在一个实施方案中,“编码”仅是指熵编码,在另一实施方案中,“编码”仅是指差分编码,并且在又一个实施方案中,“编码”是指差分编码和熵编码的组合。短语“编码过程”是具体地指代操作的子集还是广义地指代更广泛的编码过程基于具体描述的上下文将是清楚的,并且据信将被本领域的技术人员很好地理解。
需注意,如本文中所使用的语法元素(诸如可在本文中所呈现的论述或图中指示的语法元素)为描述性术语。因此,它们不排除使用其他语法元素名称。
当附图呈现为流程图时,应当理解,其还提供了对应装置的框图。类似地,当附图呈现为框图时,应当理解,其还提供了对应的方法/过程的流程图。
在编码过程期间,通常考虑速率和失真之间的平衡或权衡,这常常考虑到计算复杂性的约束。速率失真优化通常表述为最小化速率失真函数,该速率失真函数是速率和失真的加权和。存在不同的方法解决速率失真优化问题。例如,这些方法可基于对所有编码选项(包括所有考虑的模式或译码参数值)的广泛测试,并且完整评估其译码成本以及重建信号在译码和解码之后的相关失真。更快的方法还可用于降低编码复杂性,特别是对基于预测或预测残差信号而不是重建的残差信号的近似失真的计算。也可使用这两种方法的混合,诸如通过针对可能的编码选项中的仅一些编码选项使用近似失真,而针对其他编码选项使用完全失真。其他方法仅评估可能的编码选项的子集。更一般地,许多方法采用各种技术中任一种来执行优化,但是优化不一定是对译码成本和相关失真两者的完整评估。
本文所述的具体实施和方面可在例如方法或过程、装置、软件程序、数据流或信号中实现。即使仅在单个形式的具体实施的上下文中讨论(例如,仅作为方法讨论),讨论的特征的具体实施也可以其他形式(例如,装置或程序)实现。装置可在例如适当的硬件、软件和固件中实现。这些方法可在例如处理器中实现,该处理器通常指处理设备,包括例如计算机、微处理器、集成电路或可编程逻辑设备。处理器还包括通信设备,诸如例如计算机、手机、便携式/个人数字助理(“PDA”)以及便于最终用户之间信息通信的其他设备。
提及“一个实施方案”、“实施方案”、“示例”或“一个具体实施”或“具体实施”以及它们的其他变型,意味着结合实施方案描述的特定的特征、结构、特性等包括在至少一个实施方案中。因此,短语“在一个实施方案中”、“在实施方案中”、“在示例中”或“在一个具体实施中”或“在具体实施中”的出现以及出现在本申请通篇的各个地方的任何其他变型不一定都是指同一实施方案或示例。
另外地,本申请可以涉及“确定”各种信息片段。确定信息可包括例如估计信息、计算信息、预测信息或从存储器检索信息中的一者或多者。获得可包括接收、检索、构造、生成和/或确定。
此外,本申请可涉及“访问”各种信息。访问信息可以包括例如接收信息、检索信息(例如,从存储器)、存储信息、移动信息、复制信息、计算信息、确定信息、预测信息或估计信息中的一者或多者。
另外地,本申请可涉及“接收”各种信息。与“访问”一样,接收旨在为广义的术语。接收信息可以包括例如访问信息或检索信息(例如,从存储器)中的一者或多者。此外,在诸如例如存储信息、处理信息、发送信息、移动信息、复制信息、擦除信息、计算信息、确定信息、预测信息或估计信息的操作期间,“接收”通常以一种方式或另一种方式参与。
应当理解,例如,在“A/B”、“A和/或B”以及“A和B中的至少一者”的情况下,使用以下“/”、“和/或”和“至少一种”中的任一种旨在涵盖仅选择第一列出的选项(A),或仅选择第二列出的选项(B),或选择两个选项(A和B)。作为进一步的示例,在“A、B和/或C”和“A、B和C中的至少一者”的情况下,此类短语旨在涵盖仅选择第一列出的选项(A),或仅选择第二列出的选项(B),或仅选择第三列出的选项(C),或仅选择第一列出的选项和第二列出的选项(A和B),或仅选择第一列出的选项和第三列出的选项(A和C),或仅选择第二列出的选项和第三列出的选项(B和C),或选择所有三个选项(A和B和C)。如对于本领域和相关领域的普通技术人员显而易见的是,这可扩展到所列出的尽可能多的项目。
而且,如本文所用,词语“发信号通知”是指(除了别的以外)向对应解码器指示某物。例如,在一些实施方案中,编码器(例如,向解码器)发信号通知MPD、自适应集、表示、预选择、G-PCC组件、G-PCCComponent描述符、G-PCC描述符或基本属性描述符、补充属性描述符、G-PCC图块库存描述符、G-PCC静态空间区域描述符、GPCCTileId描述符、GPCC3DRegionID描述符、其他描述符、元素和属性、元数据、模式等。这样,在一个实施方案中,在编码器侧和解码器侧两者处使用相同的参数。因此,例如,编码器可将特定参数发送(显式信令)到解码器,使得解码器可使用相同的特定参数。相反,如果解码器已具有特定参数以及其他参数,则可在不发送(隐式信令)的情况下使用信令,以简单地允许解码器知道并选择特定参数。通过避免发送任何实际功能,在各种实施方案中实现了比特节省。应当理解,信令可以多种方式实现。例如,在各种实施方案中,使用一个或多个语法元素、标志等将信息发信号通知至对应解码器。虽然前面涉及词语“发信号通知(signal)”的动词形式,但是词语“信号(signal)”在本文也可用作名词。
对于本领域的普通技术人员将显而易见的是,具体实施可产生格式化为携带例如可存储或可发送的信息的多种信号。信息可以包括例如用于执行方法的指令或由所描述的具体实施中的一个具体实施产生的数据。例如,可格式化信号以携带该实施方案的比特流。此类信号可格式化为例如电磁波(例如,使用频谱的射频部分)或基带信号。格式化可包括例如对数据流进行编码并且使用编码数据流调制载体。信号携带的信息可为例如模拟或数字信息。众所周知,信号可通过多种不同的有线或无线链路发送。信号可存储在处理器可读介质上。
公开了用于从量化点云重建进行坐标细化和/或上采样的系统、方法和手段。在示例中,可提供基于点的坐标细化。解码器后点云细化模块(例如,粗点云细化模块)可包括以下中的一者或多者。该模块可包括访问点云的粗略或解码的量化版本。该模块可包括访问和/或获取点中每个点的相邻区域内的点。该模块可包括使用基于卷积的神经网络模块来计算特征,例如,基于所获取的点的体素化版本,例如,其概括了细节(例如,复杂细节)。可使用基于点的神经网络模块来计算另一特征,例如,基于所获取的点的三维(3D)(例如,或KD)位置,例如,其概括了细节(例如,复杂细节)。在示例中,可将特征级联起来以组成综合特征。可基于使用全连接(FC)模块的综合特征来预测当前点的细化偏移。
在示例中,可提供坐标上采样。解码器后点云上采样模块(例如,粗点云上采样模块)可包括以下中的一者或多者。可访问点云(例如,粗点云)的解码的量化版本。该模块可包括访问和/或获取点中每个点的相邻区域内的点。可基于所获取的点使用神经网络模块来计算特征(例如,混合特征)。可使用计算特征通过FC模块来预测新点相对于当前点的偏移。
本文描述了许多实施方案。实施方案的特征可跨各种权利要求类别和类型单独或以任何组合提供。此外,实施方案可包括在本文跨各种权利要求类别和类型(诸如例如以下项中的任一者)单独或以任何组合描述的特征、设备或方面中的一者或多者。
解码器(诸如示例解码器300)被配置为:接收、解码和解译指示与点云组件相关联的元素、属性和元数据的信号(例如,如本文所述);标识媒体呈现描述符(MPD)内的点云流及其组件子流;标识点云和/或其组件的版本;对MPD进行解码以标识主自适应集和其他自适应集,从而标识基于几何的点云压缩(G-PCC)内容中的G-PCC组件;对MPD进行解码以标识自适应集或表示中的点云组件的类型;对MPD进行解码以标识一个或多个预选择;对MPD进行解码以标识G-PCC媒体的一个或多个版本;对MPD进行解码以标识一个或多个G-PCC图块组;对MPD进行解码以标识针对自适应集中的G-PCC组件的一个或多个图块ID;对MPD进行解码以标识空间区域的一个或多个特性和区域与G-PCC图块之间的映射、空间区域的特性和区域与G-PCC组件的对应自适应集之间的映射、和/或空间区域与G-PCC组件的对应自适应集之间的映射;对MPD进行解码以标识针对动态空间区域的定时元数据轨道;等等。
包括熵解码、逆量化、逆变换和差分解码中的一者或多者的解码工具和技术用于在解码器中实现本文所述的示例。
编码器(诸如示例编码器200)被配置为:例如,生成、编码和传送指示与点云组件相关联的元素、属性和元数据的信号(例如,如本文所述);对MPD进行编码以指示点云流及其组件子流;对MPD进行编码以指示主自适应集和其他自适应集,从而支持对基于几何的点云压缩(G-PCC)内容中的G-PCC组件的标识;对MPD进行编码以支持对自适应集或表示中的点云组件的类型的标识;对MPD进行编码以标识一个或多个预选择;对MPD进行编码以支持对G-PCC媒体的一个或多个版本的标识;对MPD进行编码以支持对一个或多个G-PCC图块组的标识;对MPD进行编码以支持对自适应集中的G-PCC组件的一个或多个图块ID的标识;对MPD进行编码以支持对以下各项的标识:空间区域的一个或多个特性和区域与G-PCC图块之间的映射、空间区域的特性和区域与G-PCC组件的对应自适应集之间的映射、和/或空间区域与G-PCC组件的对应自适应集之间的映射;对MPD进行解码以标识针对动态空间区域的定时元数据轨道;等等。
包括量化、熵译码、逆量化、逆变换和差分译码中的一者或多者的编码工具和技术用于在编码器中实现本文所述的示例。
将语法元素插入信令中,例如,以使解码器能够识别与执行本文所述的示例中的任一示例相关联的指示。
将语法元素插入信令中,例如,以使编码器能够生成与执行本文所述的示例中的任一示例相关联的指示或对其进行编码。
比特流或信号可包括所描述的语法元素中的一个或多个语法元素或其与执行本文所述的示例中的任一示例相关联的变型形式。
一种方法、过程、装置、存储指令的介质、存储数据的介质或用于创建和/或发送和/或接收和/或解码包括所述的语法元素中的一个或多个语法元素或其变型的比特流或信号的信号。
一种方法、过程、装置、存储指令的介质、存储数据的介质或用于根据本文所述的示例中的任一个示例创建和/或发送和/或接收和/或解码的信号。
TV、机顶盒、蜂窝电话、平板计算机或其他电子设备,其在点云流传输服务中执行根据本文所述的示例中的任一示例的基于几何的点云(诸如点云组件子流)的自适应流传输。
TV、机顶盒、蜂窝电话、平板计算机或其他电子设备,其在点云流传输服务中执行根据本文所述的示例中的任一示例的基于几何的点云(诸如点云组件子流)的自适应流传输,以及显示(例如,使用监视器、屏幕或其他类型的显示器)所得图像。
TV、机顶盒、蜂窝电话、平板计算机或其他电子设备,其选择(例如,使用调谐器)信道以接收包括编码图像的信号,以及在点云流传输服务中执行根据本文所述的示例中的任一示例的基于几何的点云(诸如点云组件子流)的自适应流传输。
TV、机顶盒、蜂窝电话、平板计算机或其他电子设备,其通过无线电接收(例如,使用天线)包括编码图像的信号,以及在点云流传输服务中执行根据本文所述的示例中的任一示例的基于几何的点云(诸如点云组件子流)的自适应流传输。
可开发和/或使用用于点云压缩和/或信号的压缩、分析、插值、表示和/或理解的工具。
点云数据可与格式相关联。点云可与跨(例如,多个)业务领域使用的(例如,通用)数据格式相关联,例如来自自主驾驶、机器人、增强现实/虚拟现实(AR/VR)、土木工程、计算机图形、动画/电影行业等。三维(3D)光检测和测距(LiDAR)传感器可部署在例如自动驾驶汽车、个人计算设备、LiDAR相机等设备中。3D点云数据可变得更实用(例如,随着感测技术的进步)并且可被预期实现本文所述的应用。
点云数据可消耗大部分网络流量,例如,在通过网络连接的汽车之间以及/或者在沉浸式通信(例如,VR/AR)中。高效的表示格式可用于点云理解和/或通信。例如,可组织和/或处理原始点云数据,例如,用于世界建模和/或感测。例如,如果如本文所述使用数据的存储和/或发送,则可使用对原始点云的压缩。
此外,点云可表示可包括多个移动对象的同一场景的顺序扫描。与从静态场景和/或静态对象捕获的静态点云相比,该点云可称为动态点云。动态点云可被组织成帧,其中在不同时间捕获不同帧。动态点云可能需要实时和/或具有低延迟的处理和/或压缩。
可如本文所述使用点云数据。例如可在汽车行业和/或自动驾驶汽车行业中使用点云。自动驾驶汽车可以(例如,能够)探测其环境,以基于其周围环境的实际情况作出正确的驾驶决策。传感器(例如,像激光雷达)可产生可由感知引擎使用的点云(例如,动态点云)。点云中的至少一些点云可能并非旨在被人眼看到,并且它们可以是稀疏的、非彩色的和/或动态的,具有高捕获频率。点云可具有其他属性,例如,诸如由LiDAR提供的反射率,因为该属性指示被感测对象的材料并且可有助于作出决策。
VR和沉浸式世界可被使用(例如,包括)在二维(2D)平面视频(例如,该二维(2D)平面视频的未来)中。VR和沉浸式世界可让观看者沉浸在观看者周围环境中和/或包括观看者的环境中,这与例如标准电视(TV)相反,在标准电视(TV)中,观看者可能仅能够看到观看者前方的虚拟世界。根据观看者在环境中的自由度,沉浸感有多个层次。点云是分布VR世界的实用格式候选。点云可以是静态的或动态的,并且具有平均大小(例如,一次不超过数百万个点)。
点云可用于文化遗产/建筑物,其中雕像和/或建筑物等对象以3D形式扫描,以便在不传送或访问对象的情况下共享该对象的空间配置。这可以是一种确保在对象被破坏的情况下保存其知识的方式;例如,地震后的寺庙。该点云可以是静态的、彩色的和/或庞大的。
点云可在地形和/或制图中,其中使用3D表示,地图可包括地形起伏(例如,可以不限于平面)。例如,3D地图可使用网格来代替或补充点云。点云可以是用于3D地图的合适数据格式。该点云可以是静态的、彩色的和/或庞大的。
经由点云的世界建模和/或感测可允许机器获得关于它们周围的3D世界的知识,这可由应用使用(例如,如本文所描述)。
3D点云数据可包括对象和/或场景表面上的一个或多个离散样本。在示例中,可使用大量的点来用点样本完全表示真实世界。例如,VR沉浸式场景可包括大量(例如,数百万)的点,而点云可包括更大数量(例如,数亿)的点。处理这种大规模的点云在计算上可能是昂贵的,特别是对于消费设备(例如,智能电话、平板计算机和汽车导航系统,其计算能力有限)。
点云的处理和/或推断可使用高效的存储技术。在示例中(例如,与以可负担的计算成本存储和处理输入点云相关联的示例中),一种技术可包括(例如,首先)对点云进行降采样,其中降采样的点云概括输入点云的几何形状,例如,同时具有少得多的点。降采样的点云可馈送到后续机器任务以供利用。可通过经由用于无损压缩的熵译码技术将原始点云数据(例如,原始的或降采样的点云数据)转换为比特流来实现存储空间的减少。熵模型可产生更小的比特流和更有效的压缩。熵模型可与下游任务配对,例如,这些下游任务可允许熵编码器在压缩时维持任务特定信息。
除了无损译码之外,一种情形可寻求有损译码以改善压缩率,同时在质量水平下保持诱导失真。
可使用基于八叉树的点云压缩。点云可经由八叉树分解树来表示。根节点可覆盖边界框中的全部空间。该空间可在不同(例如,每个)方向(例如,x方向、y方向和z方向)上均等地分割,从而产生8个体素。对于体素(例如,每个体素)(例如,如果存在一个或多个点),该体素可被标记为被占用,例如,用“1”表示;否则,可将其标记为空,例如,用“0”表示。可通过8比特值来描述根体素节点。
对于被占用体素(例如,每个被占用体素),其空间可被进一步分割成8个子体素(例如,移动到八叉树的下一级别)。例如,基于子体素的占用,当前体素还可由8比特值表示。
被占用体素的分割可继续,例如,直到特定(例如,最后一个)八叉树深度级别。八叉树的叶子可表示点云。在编码器侧,可将八叉树节点(例如,节点值)传送到熵译码器以生成比特流。解码器可使用解码的八叉树节点值来重建八叉树结构,并且可以例如基于八叉树结构的叶节点来重建点云。
在示例中,为了有效地对八叉树节点进行熵译码,可利用概率分布模型来为以较高概率出现的八叉树结点值分配较短的符号。
点云数据的基于八叉树的译码可导致针对不同比特率要求的相同点云的多个量化版本。量化版本可包括比原始点云更少的点,并且可被认为是针对比特率的最终重建。本文可提供细化量化重建以改善点云的质量而不会产生额外的比特率成本。
可执行(例如,提供)基于学习的坐标细化和上采样。如果(例如,当)涉及输入点云的量化版本时,坐标细化可能会受到影响。在示例中,可在低比特率的有损压缩期间获得点云的量化版本。可(例如)在压缩之前(或期间)对输入点云执行(例如,完成)量化以获得适合算术译码技术的整数坐标位置。与点云相关联的更精细的细节(例如,复杂细节)可能会因量化而丢失。可使用坐标细化技术来恢复细节(例如,按点操作)。一种这样的基于学习的技术可能已经在VoxelContextNet中提出(例如,如图5中所例示)。基于学习的技术可在空间邻居体素上使用3D卷积来获得用于局部表面形状的特征,该特征用于细化一个或多个量化点(例如,每个量化点)的位置。坐标细化网络可用参考原始点云的均方误差(MSE)损失来训练并且可充当两者之间一致的度量。
可执行基于学习的上采样(例如,因为从3D扫描获得的点云数据可能是稀疏的并且非均匀分布的)。上采样可使得从稀疏点云生成密集点集。在示例中,为了实现该结果,可使用多种类型的架构,例如,诸如卷积、图形卷积、生成对抗网络(GAN)等,其可以对整个点云或来自点云的部分进行操作以用于上采样。
可使用基于点的坐标细化模块(例如,PointCRM)。可例如使用(例如,通过)基于深度学习的细化(例如,基于深度学习的细化模块)来细化量化点云的坐标。可利用基于深度学习的细化(例如,模块)来提取表征局部表面的特征描述符。与VoxelContextNet中的CRM相比,例如可考虑邻域中的节点的3D位置,而非使用二进制体素化的邻域表示邻域中的节点。CRM可使用3D卷积来从体素化邻域进行特征提取。基于3D卷积的架构可用于3D空间中的可重复模式,例如,但可能会错过场景内的细节。CRM(例如,称为PointCRM)可使用基于多层感知(MLP)的架构,例如,其可适于提取细节。
可提供和/或使用基本PointCRM架构。PointCRM可经由基于点的神经网络来部署,例如,其可利用MLP架构。在示例中,可使用集合抽象(SA)模块,其可输出如图6所示的基于MLP的特征f。图6示出了基于基本点的坐标细化模块(例如,PointCRM)的示例。基于点的网络可用于(例如,能够)表示表面内的复杂结构。PointCRM可取点集合Vi作为输入(例如,其来自当前量化点的邻域)。可以相邻量化点相对于当前量化点的3D位置的形式提供Vi。可通过进一步的层来处理输出特征f,以产生一个或多个量化点(例如,每个量化点)的坐标细化。
对于如图6所示的基于点的架构的设计,网络可由三个SA层以及随后的四个全连接(FC)层组成。图6例示了一个或多个层(例如,每个层)的配置。如图6所示,SA(64,0.2,8)可指示将输入点(例如,所有输入点)抽象为64个点,每个点通过使用8个最近邻居具有0.2的邻域半径。SA(1024)可指示将点(例如,所有点)抽象为具有大小为1024的特征向量的单个点。FC(128)可指示具有输出大小为128的全连接层。最后一个FC层可具有大小为3的输出,例如,对应于对量化点位置的预测的偏移/细化。可将所预测的偏移添加到量化点位置,例如,以获得更新的位置。当与原始点云相比时,该更新的位置可改善重建质量。
可使用和/或提供多分辨率分组(MRG)增强的PointCRM架构。可通过如图7所示的MRG策略来增强(例如,改进)基本PointCRM模块。图7示出了多分辨率分组增强的(MRG增强的)PointCRM的示例。利用MRG策略,来自跨抽象层的特征可级联在一起以形成输出特征f。
可提供多尺度分组(MSG)增强的PointCRM架构。在示例中,可使用如图8所示的MSG策略来增强PointCRM。图8示出了多尺度分组增强的(MSG增强的)PointCRM的示例。利用MSG策略,可在同一抽象级别从不同尺度提取和组合特征以形成输出特征f。
可提供混合PointCRM架构(PVCRM)。在示例中,可使用如图9所示的混合策略来增强PointCRM。图9示出了混合架构的示例。VN可指基于体素的卷积分支,并且PN可指基于点的MLP分支。利用混合策略,可从基于卷积的分支(例如,如图10所示)和基于点的分支并行地提取和组合特征以形成输出特征f。图10示出了基于卷积的分支的示例。
可提供基于点的上采样模块(PointUPM)。CRM可细化量化点云中解码的点(例如,每个解码的点)的位置。例如,点云可以是粗点云。量化点云中的点数可小于(例如,不大于)原始点云(例如,粗点云)中的点数,例如,这可对仅通过细化点位置即可实现的峰值信噪比(PSNR)设置上限。例如,粗点云可以是较细的点云(例如,包含的点数少于原始点云中的点数)。例如,基于译码,点云可以是粗糙的。例如,基于从原始点云中丢失一些点,点云可以是粗糙的。可针对量化点云中解码的点(例如,每个解码的点)添加点(例如,添加点可能更好),例如,具体地以具有较多量化的较低比特率来添加点。预测多个偏移(例如,而不是像在CRM中的一个偏移)的基于点的上采样模块可用于添加具有细化位置的多个点。UPM中的第一头可为(例如,类似于CRM)以下中的一者或多者:基于3D CNN的UPM、基于SA的PointUPM、MRG增强的PointUPM、MSG增强的PointUPM或混合PointUPM。
可使用和/或提供基本UPM架构。在基本UPM架构中,网络中的最后一层可输出3k个值,其中k是所需上采样率的值。注意,使k=1可指示(例如,产生)CRM架构,并且使k>1可指示(例如,产生)UPM架构。图11示出了基于基本点的上采样模块(PointUPM)的示例。
可使用(例如,提供)具有精确点匹配的基本UPM架构。在示例中,可增强(例如,改进)UPM架构以输出与原始输入点云完全相同数量的点。实现这一点可涉及在比特流内发信号通知与量化点(例如,每个量化点)相关联的上采样的点数。利用每个量化点的上采样的点数u,可修改UPM中最后一个FC层的架构以生成u个不同的点。例如,可制作特征向量f的U个副本,每个副本附加有范围为[0,u-1]的索引。扩展副本可输入到FC层以生成对应于与u个新点相关联的u个偏移的3u个值。图12示出了具有精确点匹配的基本PointUPM的示例。
可提供具有精确点匹配的折叠增强的UPM架构。在示例中,最后一个FC层可用FoldingNet替换以生成上采样的(例如,新的)点(例如,每个上采样/新的点)的偏移。图13示出了折叠增强的PointUPM的示例。
可提供基于预测的UPM架构。在示例中,可将附加FC头添加到UPM架构,该UPM架构预测要用于上采样的最佳数量uu’。可使用每个量化点的上采样的点数u(例如,实际的上采样的点数)连同L1损失来训练FC头。此UPM的架构如图14所示。图14示出了基于预测的UPM的示例。
在推断期间,第一FC头可输出固定数量的偏移,例如,可基于预测FC头的输出从其中挑选u’个偏移。该架构可使得无需传输附加信息,并且比特率成本不会增加。
可提供具有精确点匹配的基于残差译码的UPM架构。在示例中,基于预测的UPM架构可用于计算预测的上采样的点数与实际的上采样的点数之间的残差。可将残差添加到比特流以获得解码器侧原始的上采样的点数以匹配与输入点云完全相同数量的点。
可提供高级的PointCRM和/或PointUPM架构。例如,通过将模块(例如,现有模块)与微架构(例如,更高级的微架构)交换,可增强(例如,进一步增强)PointCRM和/或PointUPM架构。例如,通过考虑来自八叉树级别(例如,先前八叉树级别、已解码的八叉树级别)的特征,可实现该架构的一个版本(例如,高级版本)。例如,如本文所述,可增强这些架构。
可执行分层特征传播。图15示出了分层特征传播的示例。在示例中(例如,对于PointCRM和PointUPM架构),当前解码级别处的占用信息用于(例如,仅占用信息用于)位置细化和上采样。在示例中(例如,对于如本文所述的模型的更高级版本),可对来自前一级别(例如,父级别、已解码级别)的特征进行上采样,例如,以匹配当前八叉树级别的分辨率。上采样的特征可传播到子节点,例如,用于预测当前级别处的点细化。
如果(例如,当)对当前级别处的节点进行解码,则来自前一级别(例如,父级别)的特征可以是可用的(例如,已经可用)。例如,可对来自父级别的特征进行上采样,以获得当前级别处的(例如,所有)子节点的区别特征。可(例如)使用以下中的一者或多者来完成(例如,执行)此上采样:基于MLP的模块(例如,其可采用特征向量和对应于子节点的索引来输出对应子节点的特征;基于常规或稀疏卷积的模块(例如,其可采用父级别处的特征图(例如,所有特征图、整个特征图)并输出上采样的特征图,该上采样的特征图具有当前级别处的(例如,所有)节点的特征);等等。该特征可以例如经由MLP或基于常规/稀疏卷积的模块与当前节点的特征(例如,从其邻域占用信息中获得)配对(例如,级联或相加)。组合的特征可通过例如特征聚合器架构来传播(例如,再次传播)以达到最终的深度特征。深度特征可用于FC偏移预测模块来输出点位置更新。所提出的分层特征传播的描绘如图15所示。
可确定和/或提供高级的微架构。例如,类似卷积、稀疏卷积、ResNet(例如,残差网络)、启发式ResNet和变换器(例如,基于注意力的模型)等的架构(例如,更高级的架构)可用于提取和传播特征,例如,而非使用MLP和基于卷积的层来提取和传播PointCRM和PointUPM的特征。例如,可使用某些架构(例如,更高级的架构,诸如卷积、稀疏卷积、ResNet(残差网络)、启发式ResNet和变换器(基于注意的模型))来提供增强的特征提取聚合能力。可在体素分支中使用基于卷积的微架构(例如,所有基于卷积的微架构)。基于MLP的微架构可用于例如本文所述的点分支中。
在示例中,基于体素的特征提取器可包括卷积层(例如,一系列稀疏3D卷积层),例如,具有ReLU激活函数(例如,在每个3D卷积之后,如图16所示)。图16例示了基于稀疏卷积的示例体素分支。CONV D可表示具有D个输出通道的稀疏3D卷积层。
在示例中,特征聚合模块可采用ResNet架构,如图17所示。图17例示了基于由稀疏卷积组成的ResNet的示例体素分支。ResNet块的架构可聚合具有D个通道的特征。图17例示了来自输入且与卷积层的输出相加的残差连接。此残差连接可针对例如基于MLP的架构而非卷积架构而形成。
在示例中,特征聚合模块可采取启发式-ResNet(IRN)架构,如图18所示。图18例示了基于由稀疏卷积组成的启发式ResNet的体素分支的示例(例如,用于聚合具有D个通道的特征的IRN块的示例架构)。
在示例中,特征传播模块可采取变换器架构的形式(例如,类似于如本文所述的体素变换器)。图19例示了基于变换器块的示例点分支的示意图。示例变换器块可包括具有残差连接的自注意力块和具有残差连接的MLP块(例如,由MLP层组成)。本文描述了图19所示的自注意力块的框图。
给定与体素位置A相关联的当前特征向量fA以及与体素位置Ai相关联的其相邻k个特征fAi,其中,Ai(例如,0≤i≤k-1)是输入稀疏张量中A的k个最近邻居,自注意力块可(例如,尽力)基于所有相邻特征fAi更新特征fA。点Ai可通过k个最近邻居(kNN)搜索来获得,例如,基于A的坐标。可使用等式1来计算A的查询嵌入QA
QA=MLPQ(fA) 等式1
例如,可使用等式2来计算A的(例如,所有)最近邻居的密钥嵌入KAi和值嵌入VAi
KAi=MLPK(fAi)+EAi,VAI=MLPV(fAi)+EAI(0≤i≤k-1) 等式2
其中MLPQ(·)、MLPK(·)和MLPV(·)可以是分别获得查询、密钥和值的MLP层,并且EAi可以是例如使用等式3计算的体素A和体素Ai之间的位置编码。
EAi=MLPP(PA-PAi) 等式3
其中MLPP(·)可以是获得位置编码的MLP层,并且PA和PAi可以是3D坐标(例如,分别是体素A和体素Ai的中心)。可使用等式4确定自注意力块的位置A的输出特征。
其中σ(·)可以是Softmax归一化函数,d可以是特征向量fA的长度,并且c可以是预定义常数。
变换器块可更新稀疏张量中的(例如,所有)所占据位置的特征(例如,以相同方式)。变换器块可以(例如,然后)输出更新的稀疏张量。在示例中(例如,在简化示例中),MLPQ(·)、MLPK(·)、MLPV(·)和MLPP(·)可包括全连接层(例如,仅一个全连接层),例如,其可对应于线性投影。
在示例中,特征聚合块(例如,若干特征聚合块)可级联在一起(例如,串联)以进一步增强性能。特征聚合块可以是相同类型的,例如(例如,这些特征聚合块中的所有特征聚合块都是)变换器块。在这种情况下,可共享或不共享它们的神经网络层的参数。特征聚合块可以(例如,也可以)是不同(例如,合适)类型的特征聚合块的混合物,例如,IRN块和变换器块的混合物。
可执行用于点云压缩的环内使用。
CRM(例如,如本文所述)可用于(例如,作为后处理)在输出之前提高点云质量。例如,如果(例如,当)帧间预测将部署用于动态点云压缩时,CRM可用于以环内方式增强参考点云。CRM可表示前面章节中所呈现的用以进行坐标细化或上采样的方法(例如,如本文所述的任何方法)。
图20例示了用于动态点云压缩的示例帧间译码图。例如,可提供参考点云帧以对当前点云帧进行编码。可将两个PC帧馈送到运动估计模块。可将所生成的运动矢量提供给“预测”模块,其可输出残差信息。例如,可将运动矢量和残差信息编码成比特流。图21例示了用于动态点云压缩的帧间译码的示例解码器。如图所例示,可解码(例如,首先解码)运动矢量和残差。运动矢量和残差可与参考点云帧一起馈送到补偿模块。可生成当前点云帧的重建作为输出。
CRM(例如,如本文所述)可以例如在将参考点云帧用作参考之前增强该参考点云帧。图22例示了示例更新的帧间译码图。如图22所示,编码器可使用基于增强的参考PC的帧间预测。参考点云帧可由CRM模块处理(例如,如本文所述)。增强的参考点云可代替原始参考点云来执行运动估计。如图23所例示,可在更新的解码器中使用相同更新。图23例示了使用基于增强的参考PC的帧间预测的示例解码器。
用于点云数据的译码技术可在每个比特率下产生原始点云的量化和/或降采样重建。在示例中,例如,由于点云数据表示具有平滑表面的真实世界对象,因此每个量化重建可包括可用于点坐标(例如,每个点坐标)的进一步细化的局部表面信息。可利用局部信息来对点云进行上采样以改善重建质量。可提供多种架构以实现如本文所述的坐标细化以及通过分析局部量化表面进行上采样。
从已解码的分辨率(例如,八叉树级别)的分层特征传播可以例如通过对来自父级别的特征进行上采样来执行,例如,以使它们达到当前级别的分辨率(例如,在进一步的特征聚合之前),例如,这可以(例如,进一步)改善当前(例如,级别)特征的丰富度。
尽管上文以特定组合描述了特征和元件,但是本领域的普通技术人员将理解,每个特征或元件可单独使用或以与其他特征和元件的任何组合来使用。此外,本文所述的方法可在结合于计算机可读介质中以供计算机或处理器执行的计算机程序、软件或固件中实现。计算机可读介质的示例包括电子信号(通过有线或无线连接发送的)和计算机可读存储介质。计算机可读存储介质的示例包括但不限于只读存储器(ROM)、随机存取存储器(RAM)、寄存器、高速缓存存储器、半导体存储器设备、磁介质(诸如内置硬盘和可移动磁盘)、磁光介质和光介质(诸如CD-ROM磁盘和数字通用光盘(DVD))。与软件相关联的处理器可用于实现用于WTRU、UE、终端、基站、RNC或任何主计算机的射频收发器。

Claims (18)

1.一种设备,所述设备包括:
处理器,所述处理器被配置为:
获得粗点云,其中所述粗点云包括当前点;
确定与所述粗点云的所述当前点相关联的相邻点集合;
确定与所述当前点相关联的第一特征,其中使用基于点的神经网络技术来确定所述第一特征;以及
基于所述第一特征预测与所述当前点相关联的偏移。
2.根据权利要求1所述的设备,其中所述基于点的神经网络技术使用所述相邻点集合的基于点的表示。
3.根据权利要求2所述的设备,其中所述相邻点集合的所述基于点的表示与所述相邻点集合的3D或KD位置相关联。
4.根据权利要求1所述的设备,其中所述处理器被进一步配置为:
部署基于点的神经网络,其中所述基于点的神经网络技术使用所述基于点的神经网络。
5.根据权利要求1所述的设备,其中所述第一特征包括与对象的复杂细节相关联的信息。
6.根据权利要求1所述的设备,其中所述处理器被进一步配置为:
确定与对象相关联的第二特征,其中使用基于体素的神经网络技术来确定所述第二特征;以及
将所述第一特征和所述第二特征组合成组合的特征,其中基于所述组合的特征进一步预测与所述当前点相关联的所述偏移。
7.根据权利要求6所述的设备,其中所述基于体素的神经网络技术使用所述相邻点集合的体素化版本,并且其中所述基于体素的神经网络技术使用卷积神经网络。
8.根据权利要求1所述的设备,其中所述处理器被进一步配置为:
基于所述粗点云生成上采样的点;以及
基于所述第一特征预测与所述上采样的点相关联的偏移。
9.根据权利要求1所述的设备,其中所述处理器被进一步配置为:
基于所述粗点云生成上采样的点;
确定与对象相关联的第二特征,其中使用基于体素的神经网络技术来确定所述第二特征;以及
将所述第一特征和所述第二特征组合成组合的特征;以及
基于所述组合的特征预测与所述上采样的点相关联的偏移。
10.一种方法,所述方法包括:
获得粗点云,其中所述粗点云包括当前点;
确定与所述粗点云的所述当前点相关联的相邻点集合;
确定与所述当前点相关联的第一特征,其中使用基于点的神经网络技术来确定所述第一特征;以及
基于所述第一特征预测与所述当前点相关联的偏移。
11.根据权利要求10所述的方法,其中所述基于点的神经网络技术使用所述相邻点集合的基于点的表示。
12.根据权利要求11所述的方法,其中所述相邻点集合的所述基于点的表示与所述相邻点集合的3D或KD位置相关联。
13.根据权利要求10所述的方法,所述方法还包括:
部署基于点的神经网络,其中所述基于点的神经网络技术使用所述基于点的神经网络。
14.根据权利要求10所述的方法,其中所述第一特征包括与对象的复杂细节相关联的信息。
15.根据权利要求10所述的方法,所述方法还包括:
确定与对象相关联的第二特征,其中使用基于体素的神经网络技术来确定所述第二特征;以及
将所述第一特征和所述第二特征组合成组合的特征,其中基于所述组合的特征进一步预测与所述当前点相关联的所述偏移。
16.根据权利要求15所述的方法,其中所述基于体素的神经网络技术使用所述相邻点集合的体素化版本,并且其中所述基于体素的神经网络技术使用卷积神经网络。
17.根据权利要求10所述的方法,所述方法还包括:
基于所述粗点云生成上采样的点;以及
基于所述第一特征预测与所述上采样的点相关联的偏移。
18.根据权利要求10所述的方法,所述方法还包括:
基于所述粗点云生成上采样的点;
确定与对象相关联的第二特征,其中使用基于体素的神经网络技术来确定所述第二特征;以及
将所述第一特征和所述第二特征组合成组合的特征;以及
基于所述组合的特征预测与所述上采样的点相关联的偏移。
CN202380017313.5A 2022-01-10 2023-01-10 从量化点云重建进行坐标细化和上采样 Pending CN118575195A (zh)

Applications Claiming Priority (4)

Application Number Priority Date Filing Date Title
US63/297,894 2022-01-10
US202263417226P 2022-10-18 2022-10-18
US63/417,226 2022-10-18
PCT/US2023/010488 WO2023133350A1 (en) 2022-01-10 2023-01-10 Coordinate refinement and upsampling from quantized point cloud reconstruction

Publications (1)

Publication Number Publication Date
CN118575195A true CN118575195A (zh) 2024-08-30

Family

ID=92466115

Family Applications (1)

Application Number Title Priority Date Filing Date
CN202380017313.5A Pending CN118575195A (zh) 2022-01-10 2023-01-10 从量化点云重建进行坐标细化和上采样

Country Status (1)

Country Link
CN (1) CN118575195A (zh)

Similar Documents

Publication Publication Date Title
CN111713111B (zh) 用于360度视频译码的面不连续性滤波
US20250119579A1 (en) Coordinate refinement and upsampling from quantized point cloud reconstruction
US12267504B2 (en) Adaptive streaming of geometry-based point clouds
US20240430478A1 (en) Adaptive streaming of geometry-based point clouds
EP4454276A1 (en) Temporal attention-based neural networks for video compression
CN119631399A (zh) 空间几何分区模式
US20250055994A1 (en) Video block partitioning based on depth or motion information
CN118216142A (zh) 交叉分量深度亮度译码
CN118575195A (zh) 从量化点云重建进行坐标细化和上采样
US20250168343A1 (en) Transform coding based on depth or motion information
US20250056042A1 (en) Delineation map signaling
WO2025078347A1 (en) Geometry avatar media codec for transmission
WO2025021673A1 (en) Semantic face parameter encoding
WO2025016874A1 (en) Low complexity multiplane image profile
EP4527075A1 (en) Signaling parameter sets for geometry-based point cloud streams
KR20240089399A (ko) 깊이 모션 기반 다중 유형 트리 분할
CN118369920A (zh) 具有输入运动矢量数据的运动矢量译码
WO2025036767A1 (en) Coding tree unit grid shifting
WO2023194192A1 (en) Film grain synthesis using multiple correlated patterns
WO2025078482A1 (en) Framework information for split inference
WO2024133043A1 (en) Decoder side intra mode derivation with contextual adjustment of the number of derived modes
WO2025073951A1 (en) Avatar canonical pose in scene descriptions
CN116830588A (zh) 用于基于视觉体积视频(v3c)媒体和基于几何的点云(g-pcc)媒体的流式传输的mmt信令
CN119631407A (zh) 使用子采样进行模板匹配预测

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination