CN118864692B

CN118864692B - 一种基于多视图立体视觉的深度图生成方法、装置和设备

Info

Publication number: CN118864692B
Application number: CN202411344680.9A
Authority: CN
Inventors: 惠军华; 刘嘉琦; 李博宇; 李忍冬; 马建锋
Original assignee: National University of Defense Technology
Current assignee: National University of Defense Technology
Priority date: 2024-09-25
Filing date: 2024-09-25
Publication date: 2024-11-29
Anticipated expiration: 2044-09-25
Also published as: CN118864692A

Abstract

本发明涉及一种基于多视图立体视觉的深度图生成方法、装置和设备。所述方法包括：对输入的一组多视图图像进行图像分割，得到若干图像片段以及每个图像片段对应的置信度。通过预先训练的视觉语言大模型获取保留图像片段的语义特征，以及多视图图像的上下文语义特征，并将上下文语义特征分配给每个图像片段中的每个像素点。根据每个像素点所属的保留图像片段的语义特征与上下文语义特征，执行多级语义特征聚合，得到每个像素点的语义聚合特征。将其和外观特征进行特征聚合，得到目标聚合特征。根据目标聚合特征生成多视图图像中参考图像的深度图。采用本方法能够在有杂乱、变化的光照条件和开放词汇对象的大型室内场景下，提高多模态特征聚合精度。

Description

一种基于多视图立体视觉的深度图生成方法、装置和设备

技术领域

本发明涉及计算机立体视觉技术领域，特别是涉及一种基于多视图立体视觉的深度图生成方法、装置和设备。

背景技术

多视图立体视觉（Multi-View Stereo, MVS）技术的核心是通过建立跨不同视图的像素级对应关系来重建三维场景。传统的MVS方法通常依赖于从RGB图像中提取的基于学习的外观特征，以便在不同视角的图像间找到匹配点。这些外观特征通常包含颜色、纹理等信息，通过深度学习模型提取和聚合后，可以在不同视图之间建立初步的像素级对应关系。然而，由于这些方法主要依赖于RGB图像中的视觉特征，因此在光照条件变化和遮挡情况下容易出现严重的问题。

光照条件的变化是多视图立体视觉中一个主要的挑战。在真实场景中，光照往往是动态且不一致的，这导致了在不同视图下，相同物体的外观特征可能表现出显著的差异。例如，在一组多视图图像中，某个物体可能在一张图像中被阳光直射而显得非常明亮，而在另一张图像中由于阴影而显得暗淡。这种光照的不一致性使得基于RGB图像的外观特征聚合难以保证跨视图匹配的准确性，从而降低了像素级匹配的精度。

此外，遮挡现象也对MVS的像素级匹配提出了极大的挑战。在复杂场景中，物体之间的遮挡是常见的，例如家具、墙壁或其他物体可能部分遮挡视野中的目标物体。这些遮挡导致某些视角下的目标物体在图像中完全不可见，传统基于RGB图像的特征提取方法在这些情况下往往无法提供可靠的匹配信息，进一步影响了立体视觉重建的精度。

现有技术为了解决这些问题，已经引入了一些改进方法。例如，结合深度图、法向图或使用多尺度特征提取技术以增加对复杂场景的适应性。然而，这些方法在实际应用中仍然受限，无法完全克服光照变化和遮挡带来的问题。即使在引入了多模态的辅助信息后，如深度图或法向图等，系统仍然面临由于光照条件变化和遮挡导致的特征不一致问题。这种不一致性会在特征聚合过程中引入噪声，导致最终的匹配精度大幅下降。

因此，尽管现有技术在多模态特征匹配上进行了许多优化，但在应对光照条件变化和不可见物体的遮挡时，依然存在显著的局限性。面对这些挑战，如何进一步提高多模态特征匹配的鲁棒性，成为了实现高精度三维重建的关键技术难题。

发明内容

基于此，有必要针对上述技术问题，提供一种能够提高促进了跨视图像素级匹配精度的一种基于多视图立体视觉的深度图生成方法、装置和设备。

一种基于多视图立体视觉的深度图生成方法，所述方法包括：

对输入的一组多视图图像进行图像分割，得到若干图像片段以及每个图像片段对应的置信度。

通过预先训练的视觉语言大模型获取保留图像片段的语义特征，以及多视图图像的上下文语义特征，并将上下文语义特征分配给每个图像片段中的每个像素点。

根据每个像素点所属的保留图像片段的语义特征与上下文语义特征，执行多级语义特征聚合，得到每个像素点的语义聚合特征。

将每个像素点的语义聚合特征和外观特征进行特征聚合，得到每个像素点对应的目标聚合特征。

根据每个像素点的目标聚合特征生成多视图图像中参考图像的深度图。

一种基于多视图立体视觉的深度图生成装置，所述装置包括：

图像分割模块，用于对输入的一组多视图图像进行图像分割，得到若干图像片段以及每个图像片段对应的置信度。

语义特征提取模块，用于通过预先训练的视觉语言大模型获取保留图像片段的语义特征，以及多视图图像的上下文语义特征，并将上下文语义特征分配给每个图像片段中的每个像素点。

语义特征聚合模块，用于根据每个像素点所属的保留图像片段的语义特征与上下文语义特征，执行多级语义特征聚合，得到每个像素点的语义聚合特征。

语义-外观特征聚合模块，用于将每个像素点的语义聚合特征和外观特征进行特征聚合，得到每个像素点对应的目标聚合特征。

深度图聚合模块，根据每个像素点的目标聚合特征生成多视图图像中参考图像的深度图。

一种计算机设备，包括存储器和处理器，所述存储器存储有计算机程序，所述处理器执行所述计算机程序时实现以下步骤：

上述基于多视图立体视觉的深度图生成方法、装置和设备，首先，在多视图图像分割阶段，通过对输入的多视图图像进行分割，得到若干图像片段，并计算每个片段的置信度。这一过程确保了在处理图像时，能够识别出在不同视角下的关键信息，从而为后续的语义特征提取奠定了基础。接下来，利用预训练的视觉语言大模型来获取这些图像片段的语义特征，同时提取整个多视图图像的上下文语义特征，并将这些上下文语义特征分配给每个图像片段的每个像素点。这一步骤的核心在于，通过引入视觉语言大模型，使系统能够理解和关联复杂场景中的语义信息，不仅仅依赖于视觉特征，同时结合了语言和上下文信息，尤其在处理光照变化和看不见的物体时，显得尤为有效，光照变化和遮挡通常会导致传统视觉方法在像素级匹配上产生误差，而通过引入上下文语义特征，系统能够更准确地理解场景中的各个元素及其相对关系，减少了因光照不一致或遮挡而产生的匹配错误。随后，根据每个像素点所属的保留图像片段的语义特征与上下文语义特征，执行多级语义特征聚合。这一步骤能够通过层次化的特征聚合，将像素级别的局部信息与全局语义信息相结合，生成更具代表性的语义聚合特征。这种多级特征聚合的方式，有助于在复杂场景中区分出光照影响下的物体轮廓和遮挡区域，使得语义特征与视觉特征更加紧密地结合在一起。最后，将每个像素点的语义聚合特征和外观特征进行进一步的特征聚合，得到每个像素点对应的目标聚合特征。有效地将语义信息与视觉信息整合在一起，使得在生成参考图像的深度图时，能够更加准确地反映出场景中的深度关系，从而大大提高了多视图图像匹配的精度。

附图说明

图1为一个实施例中基于学习的VL-MVSNet框架示意图；

图2为一个实施例中基于多视图立体视觉的深度图生成方法的流程示意图；

图3为一个实施例中信道转换网络框架示意图；

图4为一个实施例中基于多视图立体视觉的深度图生成装置的结构框图；

图5为一个实施例中计算机设备的内部结构图。

具体实施方式

为了使本发明的目的、技术方案及优点更加清楚明白，以下结合附图及实施例，对本发明进行进一步详细说明。应当理解，此处描述的具体实施例仅仅用以解释本发明，并不用于限定本发明。

本发明提供的基于多视图立体视觉的深度图生成方法，可以应用于如图1所示的基于学习的VL-MVSNet框架中。其中，给定多个重叠的RGB图像，VL-MVSNet首先执行分割以生成多级片段和相应的置信度图，然后通过对比视觉语言模型（CLIP）提取每个片段的多级CLIP特征。然后，这些特征以及从每个像素的置信驱动特征聚合模块导出的语义特征以及由2D U-Net提取的外观特征，被输入到信道转换网络 (CTN) 中。该网络生成多模态特征，最终将其输入多视图立体视觉网络（MVSNet）或其他多视图立体视觉（MVS）框架中，以生成参考图像的深度图。

在一个实施例中，如图2所示，提供了一种基于多视图立体视觉的深度图生成方法，以该方法应用于图1中的VL-MVSNet框架为例进行说明，包括以下步骤：

步骤202，对输入的一组多视图图像进行图像分割，得到若干图像片段以及每个图像片段对应的置信度。

步骤204，通过预先训练的视觉语言大模型获取保留图像片段的语义特征，以及多视图图像的上下文语义特征，并将上下文语义特征分配给每个图像片段中的每个像素点。

步骤206，根据每个像素点所属的保留图像片段的语义特征与上下文语义特征，执行多级语义特征聚合，得到每个像素点的语义聚合特征。

步骤208，将每个像素点的语义聚合特征和外观特征进行特征聚合，得到每个像素点对应的目标聚合特征。

步骤210，根据每个像素点的目标聚合特征生成多视图图像中参考图像的深度图。

上述基于多视图立体视觉的深度图生成方法中，首先，在多视图图像分割阶段，通过对输入的多视图图像进行分割，得到若干图像片段，并计算每个片段的置信度。这一过程确保了在处理图像时，能够识别出在不同视角下的关键信息，从而为后续的语义特征提取奠定了基础。接下来，利用预训练的视觉语言大模型来获取这些图像片段的语义特征，同时提取整个多视图图像的上下文语义特征，并将这些上下文语义特征分配给每个图像片段的每个像素点。这一步骤的核心在于，通过引入视觉语言大模型，使系统能够理解和关联复杂场景中的语义信息，不仅仅依赖于视觉特征，同时结合了语言和上下文信息，尤其在处理光照变化和看不见的物体时，显得尤为有效，光照变化和遮挡通常会导致传统视觉方法在像素级匹配上产生误差，而通过引入上下文语义特征，系统能够更准确地理解场景中的各个元素及其相对关系，减少了因光照不一致或遮挡而产生的匹配错误。随后，根据每个像素点所属的保留图像片段的语义特征与上下文语义特征，执行多级语义特征聚合。这一步骤能够通过层次化的特征聚合，将像素级别的局部信息与全局语义信息相结合，生成更具代表性的语义聚合特征。这种多级特征聚合的方式，有助于在复杂场景中区分出光照影响下的物体轮廓和遮挡区域，使得语义特征与视觉特征更加紧密地结合在一起。最后，将每个像素点的语义聚合特征和外观特征进行进一步的特征聚合，得到每个像素点对应的目标聚合特征。有效地将语义信息与视觉信息整合在一起，使得在生成参考图像的深度图时，能够更加准确地反映出场景中的深度关系，从而大大提高了多视图图像匹配的精度。

在其中一个实施例中，采用快速分段任意模型根据预设的RGB图像源对输入的一组多视图图像进行分割，生成若干个多级图像片段以及每个图像片段对应的置信度。

值得说明的是，采用快速分段任意模型(FastSAM) ，这是一种基于CNN的轻量级解决方案，用于分段任意任务，可减少计算需求，同时保持有竞争力的性能。FastSAM包含两个顺序模块：全实例分割和提示引导选择。本方案仅使用全实例分割模块，该模块使用YOLOv8-seg生成图像中所有实例的分割掩码。在FastSAM推理过程中，生成多尺度的实例（例如对象、片段）。这是通过使用较小的置信度阈值进行对象检测来实现的，从而允许涉及更多片段。

在其中一个实施例中，通过预先训练的视觉语言大模型提取每一级图像片段集合中置信度最大值排序前三对应的保留图像片段的语义特征，以及生成多视图图像的上下文语义特征，并将上下文语义特征分配给每个图像片段中的每个像素点。

值得说明的是，通过将分割实例的裁剪图像输入CLIP模型并将CLIP特征对应于裁剪图像的每个像素来实现这一点。因此，输出的逐像素特征将包含场景的多级语义。对于每个像素，本方案保留最多 3个裁剪图像提取的CLIP特征，在FastSAM分割中具有最高的检测置信度。此外，将未分割的图像输入CLIP，生成整个场景的上下文特征，上下文特征被分配给输入图像的每个点，在具有多个对象的场景中表现出良好的准确性和计算成本平衡。

在其中一个实施例中，根据每个像素点所属的保留图像片段的语义特征与上下文语义特征，通过快速分段任意模型执行多级语义特征聚合，得到每个像素点的语义聚合特征：

；

其中，为每个像素点的语义聚合特征，为快速分段任意模型对，为快速分段任意模型对每一个保留图像片段检测的置信度，为全部图像片段的全局信息，为每一个保留图像片段的语义特征，为元素乘法，为多层感知器。

值得说明的是，假设是输入图像，是FastSAM检测到的片段。是检测到的片段的数量。是的CLIP特征。整个场景的特征是。具体来说，包括指示整个场景的类型和布局的全局信息，其余包括图像中特定对象的多尺度语义。对于每个像素，选择最多3个片段提取的CLIP特征，该片段包含具有最高检测置信度的像素。将它们表示为和。注意，对于属于少于3个段的像素，将冗余特征设置为向量0。在Fast-SAM中的检测置信度的指导下执行多级CLIP特征聚合。

在其中一个实施例中，构建信道转换网络。信道转换网络包括三个交叉注意力层：

；

其中，为交叉注意力向量，为查询向量，为关键向量，为值向量，分别为查询向量的学习权重、关键向量的学习权重和值向量的学习权重。

值得说明的是，如图3所示，信道转换网络（CTN）的框架，它包含三个交叉注意力层，每个层后面跟着两个AddNorm层和一个前馈层。如果BN层中的通道具有较小的缩放因子，则将从所有子网络中挑选出BN层之前的特征图中对应的信道（如图中虚线所示），然后将这些信道中的特征输入到CTN中以获得新的特征。给定来自M（M=2）模态的第i个输入数据，表示为表示为输入第模态的数据。其中C表示信道的数量，H和W表示特征图的高度和宽度。用表示第个子网络的第l层特征图，以及第c个信道。BN层执行的归一化，然后进行仿射转换，即：

；

其中和分别为计算当前小批量数据的所有像素位置（H和W）上所有激活的平均值和标准偏差；和分别是可训练的偏移量和缩放因子；是一个小常数，以避免除数为零。第（l + 1）层将作为非线性函数后的输入。因子评估了训练过程中输入和输出之间的相关性。如果，则相对于的损失梯度将趋近于 0，这意味着将失去对最终预测的影响并因此变得冗余。因此，挑选出小缩放因子的通道和其他子网络的相应通道，将其输入到CTN中，然后用CTN中的特征替换这些通道。

在其中一个实施例中，将每个像素点的语义聚合特征和多视图图像的外观特征输入至信道转换网络进行特征聚合，得到每个像素点对应的目标聚合特征：

；

其中，为目标聚合特征，为在第m个子网络的第c个信道上的第l层特征图，为当前图像片段中所有像素位置上所有激活的平均值，为信道转换子网络的缩放因子，为信道转换子网络的偏移量，为当前图像片段中所有像素位置上所有激活的标准偏差，为常数。

在其中一个实施例中，根据每个像素点的目标聚合特征构建3D成本体积，并采用监督学习方法训练信道转换网络后，输出优化后的目标聚合特征，优化后的目标聚合特征通过3D点云生成多视图图像中参考图像的深度图。

值得说明的是，由于视觉语言模型包含开放词汇对象的知识，因此提取的语义特征能够增强像素级的对应关系，且它们支持给定开放式文本查询类别的深度图或3D点云查询，有利于各种下游应用。

应该理解的是，虽然图2的流程图中的各个步骤按照箭头的指示依次显示，但是这些步骤并不是必然按照箭头指示的顺序依次执行。除非本文中有明确的说明，这些步骤的执行并没有严格的顺序限制，这些步骤可以以其它的顺序执行。而且，图2中的至少一部分步骤可以包括多个子步骤或者多个阶段，这些子步骤或者阶段并不必然是在同一时刻执行完成，而是可以在不同的时刻执行，这些子步骤或者阶段的执行顺序也不必然是依次进行，而是可以与其它步骤或者其它步骤的子步骤或者阶段的至少一部分轮流或者交替地执行。

在一个实施例中，如图4所示，提供了一种基于多视图立体视觉的深度图生成装置，包括：图像分割模块402、语义特征提取模块404、语义特征聚合模块406、语义-外观特征聚合模块408和深度图聚合模块410，其中：

图像分割模块402，用于对输入的一组多视图图像进行图像分割，得到若干图像片段以及每个图像片段对应的置信度。

语义特征提取模块404，用于通过预先训练的视觉语言大模型获取保留图像片段的语义特征，以及多视图图像的上下文语义特征，并将上下文语义特征分配给每个图像片段中的每个像素点。

语义特征聚合模块406，用于根据每个像素点所属的保留图像片段的语义特征与上下文语义特征，执行多级语义特征聚合，得到每个像素点的语义聚合特征。

语义-外观特征聚合模块408，用于将每个像素点的语义聚合特征和外观特征进行特征聚合，得到每个像素点对应的目标聚合特征。

深度图聚合模块410，根据每个像素点的目标聚合特征生成多视图图像中参考图像的深度图。

关于一种基于多视图立体视觉的深度图生成装置的具体限定可以参见上文中对于一种基于多视图立体视觉的深度图生成方法的限定，在此不再赘述。上述一种基于多视图立体视觉的深度图生成装置中的各个模块可全部或部分通过软件、硬件及其组合来实现。上述各模块可以硬件形式内嵌于或独立于计算机设备中的处理器中，也可以以软件形式存储于计算机设备中的存储器中，以便于处理器调用执行以上各个模块对应的操作。

在一个实施例中，提供了一种计算机设备，该计算机设备可以是终端，其内部结构图可以如图5所示。该计算机设备包括通过系统总线连接的处理器、存储器、网络接口、显示屏和输入装置。其中，该计算机设备的处理器用于提供计算和控制能力。该计算机设备的存储器包括非易失性存储介质、内存储器。该非易失性存储介质存储有操作系统和计算机程序。该内存储器为非易失性存储介质中的操作系统和计算机程序的运行提供环境。该计算机设备的网络接口用于与外部的终端通过网络连接通信。该计算机程序被处理器执行时以实现一种基于多视图立体视觉的深度图生成方法。该计算机设备的显示屏可以是液晶显示屏或者电子墨水显示屏，该计算机设备的输入装置可以是显示屏上覆盖的触摸层，也可以是计算机设备外壳上设置的按键、轨迹球或触控板，还可以是外接的键盘、触控板或鼠标等。

本领域技术人员可以理解，图4-图5中示出的结构，仅仅是与本发明方案相关的部分结构的框图，并不构成对本发明方案所应用于其上的计算机设备的限定，具体的计算机设备可以包括比图中所示更多或更少的部件，或者组合某些部件，或者具有不同的部件布置。

在一个实施例中，提供了一种计算机设备，包括存储器和处理器，该存储器存储有计算机程序，该处理器执行计算机程序时实现以下步骤：

本领域普通技术人员可以理解实现上述实施例方法中的全部或部分流程，是可以通过计算机程序来指令相关的硬件来完成，所述的计算机程序可存储于一非易失性计算机可读取存储介质中，该计算机程序在执行时，可包括如上述各方法的实施例的流程。其中，本发明所提供的各实施例中所使用的对存储器、存储、数据库或其它介质的任何引用，均可包括非易失性和/或易失性存储器。非易失性存储器可包括只读存储器（ROM）、可编程ROM（PROM）、电可编程ROM（EPROM）、电可擦除可编程ROM（EEPROM）或闪存。易失性存储器可包括随机存取存储器（RAM）或者外部高速缓冲存储器。作为说明而非局限，RAM以多种形式可得，诸如静态RAM（SRAM）、动态RAM（DRAM）、同步DRAM（SDRAM）、双数据率SDRAM（DDRSDRAM）、增强型SDRAM（ESDRAM）、同步链路（Synchlink） DRAM（SLDRAM）、存储器总线（Rambus）直接RAM（RDRAM）、直接存储器总线动态RAM（DRDRAM）、以及存储器总线动态RAM（RDRAM）等。

以上实施例的各技术特征可以进行任意的组合，为使描述简洁，未对上述实施例中的各个技术特征所有可能的组合都进行描述，然而，只要这些技术特征的组合不存在矛盾，都应当认为是本说明书记载的范围。

以上所述实施例仅表达了本发明的几种实施方式，其描述较为具体和详细，但并不能因此而理解为对发明专利范围的限制。应当指出的是，对于本领域的普通技术人员来说，在不脱离本发明构思的前提下，还可以做出若干变形和改进，这些都属于本发明的保护范围。因此，本发明专利的保护范围应以所附权利要求为准。

Claims

1.一种基于多视图立体视觉的深度图生成方法，其特征在于，所述方法包括：

对输入的一组多视图图像进行图像分割，得到若干图像片段以及每个图像片段对应的置信度；采用快速分段任意模型根据预设的RGB图像源对输入的一组多视图图像进行分割，生成若干个多级图像片段以及每个图像片段对应的置信度；

通过预先训练的视觉语言大模型获取保留图像片段的语义特征，以及所述多视图图像的上下文语义特征，并将所述上下文语义特征分配给每个图像片段中的每个像素点；通过预先训练的视觉语言大模型提取每一级图像片段集合中置信度最大值排序前三对应的保留图像片段的语义特征，以及生成所述多视图图像的上下文语义特征，并将所述上下文语义特征分配给每个图像片段中的每个像素点；

根据每个像素点所属的保留图像片段的语义特征与所述上下文语义特征，执行多级语义特征聚合，得到每个像素点的语义聚合特征；根据每个像素点所属的保留图像片段的语义特征与所述上下文语义特征，通过快速分段任意模型执行多级语义特征聚合，得到每个像素点的语义聚合特征：

其中，为每个像素点的语义聚合特征，为快速分段任意模型对，为快速分段任意模型对每一个保留图像片段检测的置信度，为全部图像片段的全局信息，为每一个保留图像片段的语义特征，为元素乘法，MLP[·]为多层感知器；

将每个像素点的语义聚合特征和外观特征进行特征聚合，得到每个像素点对应的目标聚合特征；

2.根据权利要求1所述的方法，其特征在于，在将每个像素点的语义聚合特征和外观特征进行聚合，得到每个像素点对应的目标聚合特征的步骤前，还包括：

构建信道转换网络；所述信道转换网络包括三个交叉注意力层：

3.根据权利要求2所述的方法，其特征在于，将每个像素点的语义聚合特征和外观特征进行特征聚合，得到每个像素点对应的目标聚合特征，包括：

将每个像素点的语义聚合特征和所述多视图图像的外观特征输入至所述信道转换网络进行特征聚合，得到每个像素点对应的目标聚合特征：

其中，为目标聚合特征，为在第m个子网络的第c个信道上的第l层特征图，为当前图像片段中所有像素位置上所有激活的平均值，为信道转换子网络的缩放因子，为信道转换子网络的偏移量，为当前图像片段中所有像素位置上所有激活的标准偏差，ϵ为常数。

4.根据权利要求3所述的方法，其特征在于，根据每个像素点的目标聚合特征生成多视图图像中参考图像的深度图，包括：

根据每个像素点的目标聚合特征构建3D成本体积，并采用监督学习方法训练所述信道转换网络后，输出优化后的目标聚合特征，优化后的目标聚合特征通过3D点云生成多视图图像中参考图像的深度图。

5.一种基于多视图立体视觉的深度图生成装置，其特征在于，所述装置包括：

图像分割模块，用于对输入的一组多视图图像进行图像分割，得到若干图像片段以及每个图像片段对应的置信度；采用快速分段任意模型根据预设的RGB图像源对输入的一组多视图图像进行分割，生成若干个多级图像片段以及每个图像片段对应的置信度；

语义特征提取模块，用于通过预先训练的视觉语言大模型获取保留图像片段的语义特征，以及所述多视图图像的上下文语义特征，并将所述上下文语义特征分配给每个图像片段中的每个像素点；通过预先训练的视觉语言大模型提取每一级图像片段集合中置信度最大值排序前三对应的保留图像片段的语义特征，以及生成所述多视图图像的上下文语义特征，并将所述上下文语义特征分配给每个图像片段中的每个像素点；

语义特征聚合模块，用于根据每个像素点所属的保留图像片段的语义特征与所述上下文语义特征，执行多级语义特征聚合，得到每个像素点的语义聚合特征；根据每个像素点所属的保留图像片段的语义特征与所述上下文语义特征，通过快速分段任意模型执行多级语义特征聚合，得到每个像素点的语义聚合特征：

语义-外观特征聚合模块，用于将每个像素点的语义聚合特征和外观特征进行特征聚合，得到每个像素点对应的目标聚合特征；

6.一种计算机设备，包括存储器和处理器，所述存储器存储有计算机程序，其特征在于，所述处理器执行所述计算机程序时实现权利要求1至4中任一项所述方法的步骤。