CN110443805B

CN110443805B - 一种基于像素密切度的语义分割方法

Info

Publication number: CN110443805B
Application number: CN201910614753.4A
Authority: CN
Inventors: 武伯熹; 蔡登�; 赵帅; 储文青
Original assignee: Zhejiang University ZJU
Current assignee: Zhejiang University ZJU
Priority date: 2019-07-09
Filing date: 2019-07-09
Publication date: 2021-08-17
Anticipated expiration: 2039-07-09
Also published as: CN110443805A

Abstract

本发明公开了一种基于像素密切度的语义分割方法，包括以下步骤：(1)将深度神经网络在目标分类任务上进行预训练；(2)在深度神经网络上加入ASPP结构和Decoder结构；(3)在最顶层的高维特征向量上加入额外的像素密切度分支；(4)从语义分割的标注数据中得出像素密切度的标签并用于训练；(5)训练结束后，在应用过程中使用一个密切度传播后处理函数结合两种输出信息，产生优化过后的语义分割结果。利用本发明，可以对现有的全卷积网络解决方案进行优化，提升语义分割的精准度和稳定性。

Description

一种基于像素密切度的语义分割方法

技术领域

本发明涉及计算机视觉领域中的语义分割领域，尤其是涉及一种基于像素密切度的语义分割方法。

背景技术

近年来，计算机视觉技术进步突飞猛进，相继在图像分类领域和目标检测领域获得突破性进展。因此学界也将目光集中在了更加困难更加高精度的领域，语义分割任务就是其中的典型代表。与之前的任务不同的是，语义分割技术要求对输入图片上的每一个像素进行分类，这使得该任务输出的信息量远高于分类任务的一维标签和目标检测任务的二维位置信息，这对模型的信息分辨能力提出了巨大的挑战。出于同样的原因，该任务的人工标注难度也异常的高，使得科研工作者需要处理可能的过拟合现象。目前领域中前沿的解决方案由Liang-Chieh Chen等人在2018年European Conference on Computer Vison会议上提出的《Encoder-decoder with atrous separable convolution for semantic imagesegmentation》中DeepLab v3+方法，该方法为其系列工作的第四版，融合了该领域多年来的技术积累，在多项数据集上都创造了优异的成绩。

以DeepLab v3+为代表的解决方案都具有一个共同的特性，将语义分割任务视为像素级别的分类任务。也就是对于每一个像素，神经网络将会根据以该像素为中心的图像信息对该像素进行分类。每一个像素和其对应的图像信息会组合成为一份训练数据，不同的训练数据之间相互独立，现有方法没有显式的将他们联系在一起。这样的做法显然会对一些较难分辨的情况造成影响。首先是对于边界位置的像素进行分类时，图像信息变化并不显著，但分类的标签可能产生巨大的变化。另一方面，深度神经网络经常会产生噪音预测，即便是在容易分类的目标中心也可能产生出错误的预测。这些都是没有显式的考虑样本之间的联系所带来的后果。

大量的工作基于这一出发点对图像分割技术进行加强。代表性的有2010年Philipp和Vladlen在Neural Information Processing Systems会议上提出的Conditional Random Fields。该方法出现时被应用在传统视觉技术上，利用原始像素信息去优化分割结果，当时现有的深度学习框架尚未出现。直到2017年才被Liang-Chieh Chen等人在第一代DeepLab系统上进行应用。受到这一技术的启发，大量应用在这之上进行了改进尝试，并采取以Fields作为命名尾缀的区域性方法。代表性的有Ziwei等于2015年提出的Markov Random Fields方法的《Semantic image segmentation via deep parsingnetwork》，Shuai等人提出的《Conditional Random Fields as Recurrent NeuralNetworks》(CRFasRNN)，Gedas等人提出的《Semantic Segmentation with BoundaryNeural Fields》(BNF)等。这些方法通常采用手动设计先验知识，使得神经网络关注结构信息。这样的手动设计方法通常只能解决一部分的失败情况，对方法的提升有限，并在基础解决方案较强的时候难以产生进一步的提升。另一方面，以CRF为代表的方法还会产生计算效率的影响。CRF又被成为DenseCRF，指的是在参考图像结构信息过程中，CRF从整个图片区域上进行全连接并进行优化，这样的优化方式可能带来极大的计算消耗。一些方法尝试在损失函数上进行改进使得神经网络能够加强图像结构信息的利用。Olaf等人在《U-net:Convolutional networks for biomedical image segmentation》中尝试对边界样本进行加权来提高边界的分离能力。这种假设相对简单，带来的提升效果有限。Tsung-Wei等人提出了利用像素密切度来改造损失函数的方法。这类方法的缺陷在于分析像素间相似性是在低维的概率向量上进行而不是高维的特征向量，使得其产生的密切度信息在精度上存在偏差。

发明内容

本发明提供了一种基于像素密切度的语义分割方法，通过语义分割和像素密切度的联合训练，将图像结构信息显式的注入到训练的模型当中，使得产生的语义分割模型精准度提升，从而提升语义分割结果。

一种基于像素密切度的语义分割方法，包括以下步骤：

(1)选择深度神经网络，将深度神经网络在图像分类数据集上进行预训练；

(2)在预训练后的深度神经网络上加入ASPP模块和Decoder模块；

(3)在最顶层的高维特征向量上加入额外的像素密切度分支，用于获取图片中每个像素点对应周围像素的密切度信息；

(4)从语义分割的标注数据中得出像素密切度的标签，对加入像素密切度分支后的深度神经网络进行训练；

(5)训练结束后，在应用过程中，使用一个密切度传播后处理函数将输出的预测语义分割及像素密切度信息进行结合，产生优化过后的语义分割结果。

在语义分割领域，像素密切度指的是两个像素是否同属于一个类别。本发明所提出的方法兼具改进的损失函数的低损耗效果以及CRF类方法的效果提升性，并且不需要任何额外的数据进行辅助。同时，本发明不对图像结构信息进行任何显式的假设，而是采用直接训练的方式产生额外的结构信息。这样的做法可以使得产生的结构信息更具一般性，在利用的过程中可以处理更复杂的情景。

步骤(1)中，所述深度神经网络在进行预训练时，图像分类数据集中的特征图像先经过全局均值池化后得到一维向量并利用全连接层进行分类；在预训练结束后，去除全局均值池化层和全连接层。

步骤(2)中，所述ASPP模块和Decoder模块分别用于扩大感知野和提升预测分辨率，两个结构中采用扩散卷积，定义如下：

其中，k为卷积核索引，i为像素位置索引，r为扩散率，x为对应位置的输入值，w为相应的权重，y为输出结果。

步骤(3)中，每个像素点对应的周围像素采用稀疏采样的方法获得，每个像素点对应若干组周围像素，每组像素包含8个不同方向的像素。计算每个像素点与周围像素的密切度时采用sigmoid函数。

步骤(4)中，训练时，采用的总损失函数如下：

Loss＝H(p,q)+λ*loss

其中，H(p,q)为语义分割的损失，loss为密切度的损失，λ表示为权重参数；语义分割的损失函数为：

其中p为网络输出的预测概率，q为分类标签。

密切度的损失函数为：

FL(p_t)＝-(1-p_t)^γlog(p_t)

p_t为网络的概率预测，γ为focal loss的设定参数，本发明中采用2，freq为频率统计函数，r为扩散率，c为8个采样方向的索引，β为总权重，n代表不同个数的同类临近像素。

在训练时，其他的训练设置主要包含了左右反转、缩放比在0.5至2的数据增强技术。数据增强后的图像将被随机截取边长为513像素值的图像区域。在经历网络计算后得出损失函数的值，并乘以学习率。学习率采用幂学习率策略，具体形式如下：

其中初始学习率为0.007，power值设置为0.9，其中iter为当前的训练步数，max_iter代表总的训练步数。

步骤(5)中，所述后处理函数的具体公式如下：

其中，N为归一化函数，max函数返回一个向量中的最大值，λ为权重参数，通过交叉验证得出，p_i,j为图像上第i行第j列的预测向量，s为扩散密切度采样集合中的索引，a_s和p_s分别为第s个采样对应的密切度和分类预测。

后处理函数的特点是在计算过程中不但考虑了本像素的分类结果，还考虑了相邻局部区域内，由扩散密切度将其他像素的预测结果考虑进来。后处理函数可以分为两部分。前部分为原本的预测，为了保证清晰的本地预测可以继续保留，我们将其分类概率的最大值作为一个因子加入到计算当中。后部分为基于扩散密切度的加和。对于每一个采样的像素，我们用其对应的密切度乘以其分类向量作为辅助预测结果，并将所有采样像素的辅助预测值进行加和。两个部分通过一个额外的参数λ进行平衡。由于所有因子均为正，因此产生的向量为正值，可以使用一个简单的归一化函数确保其加和为1。

与现有技术相比，本发明具有以下有益效果：

1、本发明弥补了现有的主流语义分割技术中没有对图像结构信息进行利用的缺陷，提高的语义分割的准确性和稳定性。

2、本发明所需要的额外计算代价较小，远低于传统的DenseCRF等各种基于全连接的方案。

3、本发明被未对图像结构信息进行过多的假设，使得其可以处理更为一般的情形。实验证明了本发明对于现有的前沿方法都有有效的提升。

附图说明

图1为本发明一种基于像素密切度的语义分割方法的流程示意图；

图2为本发明方法的整体网络结构示意图；

图3为本发明方法对像素点的周围像素进行采样的示意图；

图4为本发明方法采用的权重分配依据图；

图5为本发明在对像素密切性进行预测时的准确率。

具体实施方式

下面结合附图和实施例对本发明做进一步详细描述，需要指出的是，以下所述实施例旨在便于对本发明的理解，而对其不起任何限定作用。

如图1所示，一种基于像素密切度的语义分割方法，包括以下步骤：

S01，将深度神经网络在目标分类任务上进行预训练。

使用图像分类数据集进行预训练是由于图像分割数据标注困难的问题，使得标注数据匮乏。大部分数据集的量级在1万以内。因此需要额外的数据集进行预训练，并将其产生的模型作为参数的初始化值用于后续的训练。最常用的图像分类数据集是ImageNet数据集。

图像分类任务中每个图片只产生一个分类向量。即一个一维向量，向量的长度与分类的个数相当。对于包含了1000个类别的ImageNet数据集来说，产生的向量也为1000维。向量中的每个值在0、1之间且加和为1。对于图像分割任务，由于需要对每个像素进行分类预测，因此需要产生(H×W)个向量，其中H和W为图像的像素高度和像素宽度。为了解决二者之间输出的差异性，在进行图像分类任务时，采用的特征图像会先经过全局均值池化后得到一维向量并进行分类。而在预训练结束后，全局均值池化层和用于分类的全连接层则被抛弃。本发明采用业界前沿的ResNet101网络进行特征提取任务。

S02，在深度神经网络上加入ASPP模块和Decoder模块。

加入的ASPP和Decoder模块是DeepLab v3+中研究产生的模块，分别具有扩大感知野及精准提升预测分辨率的作用。这些模块中大量采用扩散卷积，其定义如下：

这些模块采用随机初始化。

S03，在最顶层的高维特征向量上加入额外的像素密切度分支。

采用分支结构实现多任务网络，如图2所示，本发明在DeepLabv3+网络的基础上进行了多任务改造，使得其可以同时预测图像分割以及稀疏密切性。

在原有的DeepLabv3+中，Decoder模块产生的特征图在长和宽上是原始图像的四分之一，单个像素上由一个256维的向量进行代表信息，我们将这层特征图记为F。随后使用一个1x1的卷积网络进行维度压缩至分类维度。并通过双线性插值法将长和宽恢复至原始大小。

本发明中，会在特征图F上继续进行一个额外的1x1卷积网络层，生成的新特征图将代表密切度信息。对于一个单独像素来说，我们需要分析其和剩余像素的密切度。但如果要考虑其他所有像素会造成非常巨大的计算开销，类似DenseCRF的缺陷。同时，如果考虑紧邻的像素那么并不会有可学习的信息。因为相邻像素大概率属于同一种类。因此，本发明中采用了一种类似扩散卷积的稀疏采样方法去采集周围像素的密切度信息。假设采样的像素个数为D，则新的分支在单个像素上的信息维度为D。

同时，为了提高本发明的鲁棒性，系统会采样多个不同尺度扩散卷积采样的方式方法。对于单个尺度，会采样8个不同方向上的像素进行密切性分析。这8个像素被认为是同一组像素。同时会考虑多个具有不同扩散比的组，假设组的个数为G，则有：D＝8×G。

如图3所示，对于一副图像上某个具体像素x，我们以该像素为中心，采样同样距离处八个方向上的像素。当采样像素x’的类别与中心像素的类别相同时，我们认定密切度信号为1，当与中心像素类别不同时，认定密切度信号为0.

密切度(Affinity)＝1if c(x)＝c(x′)else 0

在原始的语义分割网络或图像识别任务中，会将产生的分类向量经由softmax函数计算，一方面是保证单个输出为正且加和为0，同时也是为了加速梯度更新。Softmax函数形式如下：

但对于密切度问题来说，不同的像素的密切度间并不存在关联，因此继续使用softmax是不正确的，应该使用sigmoid函数进行替代。Sigmoid函数的形式如下：

sigmoid函数：

经过sigmoid函数处理的值介于0、1之间，其大小代表着网络对亲密度信心的高低。

S04，从语义分割的标注数据中得出像素密切度的标签并用于训练。

像素密切度的标签可以直接从像素分类的标签中得出。这也体现了本发明并未要求额外的信息，而是充分利用现有的信息。在得出两个信息的标签后，可以进行分别的计算其损失值。语义分割的计算与常用方法无异。使用的是多类别的交叉熵损失函数，形式如下：

对于密切度的损失函数选择上，由于绝大多数密切度由正信号占据，因此会产生较大的学习偏差。类似的问题也出现在单阶段目标检测任务当中。因此，本发明中借鉴了这一领域中使用的focal损失函数。其具体形式如下：

FL(p_t)＝-(1-p_t)^γlog(p_t)

该损失函数可以有效缓解密切度信号偏差所带来的训练困难问题。

另一方面为了辅助解决这一问题，我们同样需要对不同的密切度样本产生的损失函数进行不同的权重计算。计算权重的过程中可以采用根据密切度信号本身的频率反比进行平衡。

但在本发明中采用了一种更为合理的权重分配方案。首先我们根据上一步骤中对像素采样时的分组进行单个组内的分析。随后，对于一个单一组内来说，我们根据其标签数据中产生信号为正的个数，将不同的样本分为9类，分别代表拥有1个同类别“邻居”的像素到拥有8个同类别“邻居”的像素样本。我们在训练集中统计这9中类别的占比，并在训练过程中根据占比的反比进行权重分配。权重的绝对值在这里并不是关键，这是由于在与图像分割的损失函数加和过程之前，扩散像素密切性的损失函数会乘上一个统一的权重值用于平衡两种损失值。如图4所示，展示了9个类别的密切性随着中心像素距离的变化而变化的趋势，可以看到根据这种方式对损失函数计算进行权重平衡的变化范围。

具体权重分配形式如下：

最终的损失函数形式如下：

损失函数＝语义分割损失+λ*密切性损失

其他的训练设置主要包含了左右反转、缩放比在0.5至2的数据增强技术。数据增强后的图像将被随机截取边长为513像素值的图像区域。在经历网络计算后得出损失函数的值，并乘以学习率。学习率采用幂学习率策略，具体形式如下：

其中初始学习率为0.007，power值设置为0.9。

如图5所示，展示了训练好的网络对最终密切度信息预测结果的精准度，可以看到随着中心距离的改变，精准的也在发生变化。同时对位于同类像素中间的像素的密切性具有极高的准度。

S05，训练结束后，在应用过程中使用一个密切度传播后处理函数结合两种输出信息，产生优化过后的语义分割结果。

具体的结合形式如下：

可以看到，后处理函数的特点是在计算过程中不但考虑了本像素的分类结果，还考虑了相邻局部区域内，由扩散密切度将其他像素的预测结果考虑进来。后处理函数可以分为两部分。前部分为原本的预测，为了保证清晰的本地预测可以继续保留，我们将其分类概率的最大值作为一个因子加入到计算当中。后部分为基于扩散密切度的加和。对于每一个采样的像素，我们用其对应的密切度乘以其分类向量作为辅助预测结果，并将所有采样像素的辅助预测值进行加和。两个部分通过一个额外的参数λ进行平衡。由于所有因子均为正，因此产生的向量为正值，可以使用一个简单的归一化函数确保其加和为1。

上述过程中，关于分类的预测沿着密切度为正的方向进行传播，可以有效利用局域像素间的关系。这一过程可以运行多次，类似CRF的优化过程。实验中表明，本发明可以随着后处理次数的过程增多，稳定提升语义分割带来的效果。在进行次数在10次左右达到稳定。

本发明所提出的基于利用扩散密切度提升语义分割方法及系统使用一种适用性广泛的密切度信息将局部区域内的像素进行关联。出于效率和效果的因素，我们从扩散卷积/孔卷积中借鉴了采样方法，产生一种稀疏的扩散密切度。本发明基于有监督训练，对图像结构信息进行了尽可能少的假设，因此产生了较好的一般性和适用性。其稀疏采样和并行输出的结构模式使得网络以较直接的方式获得结构信息。本发明对现有的图像语义分割系统的提升是两方面的。第一方面，语义分割在和扩散密切度进行联合训练时可以产生更为稳定精准的结果。第二方面，原有的语义分割结果可以被扩散密切度进行优化。这一优化过程可以进行多次。

为体现本发明的技术效果和优越性，下面将本发明提出的方法应用到实际例子当中，同时与其他同类型的方法进行对比。

如表1所示，展示了在权威数据集PASCAL VOC 2012语义分割数据集上进行的测试结果。展示的结果使用平均IoU分数，在21个不同类别上取平均值进行统计。

表1

DeepLabv3+	77.93％
		扩散密切性	79.21％

如表2所示，展示了在另一个权威数据集Cityscapes中进行测试的结果。

表2

DeepLabv3+	77.15％
		扩散密切性	78.70％

可以看出，与现有的方法反比，采用本发明的方法，对语义分割的准确性有较大的提升。

以上所述的实施例对本发明的技术方案和有益效果进行了详细说明，应理解的是以上所述仅为本发明的具体实施例，并不用于限制本发明，凡在本发明的原则范围内所做的任何修改、补充和等同替换，均应包含在本发明的保护范围之内。

Claims

1.一种基于像素密切度的语义分割方法，其特征在于，包括以下步骤：

(2)在预训练后的深度神经网络上加入ASPP模块和Decoder模块；

(4)从语义分割的标注数据中得出像素密切度的标签，对加入像素密切度分支后的深度神经网络进行训练；训练时，采用的总损失函数如下：

Loss＝H(p,q)+λ1*loss

其中，H(p,q)为语义分割的损失，loss为密切度的损失，λ1表示为权重参数；语义分割的损失函数为：

其中p为网络输出的预测概率，q为分类标签；

密切度的损失函数为：

FL(p_t)＝-(1-p_t)^γlog(p_t)

p_t为网络的概率预测，γ为focal loss的设定参数，设定为2，freq为频率统计函数，r为扩散率，c为8个采样方向的索引，β为总权重，n代表不同个数的同类临近像素；

2.根据权利要求1所述的基于像素密切度的语义分割方法，其特征在于，步骤(1)中，所述深度神经网络在进行预训练时，图像分类数据集中的特征图像先经过全局均值池化后得到一维向量并利用全连接层进行分类；在预训练结束后，去除全局均值池化层和全连接层。

3.根据权利要求1所述的基于像素密切度的语义分割方法，其特征在于，步骤(2)中，所述ASPP模块和Decoder模块分别用于扩大感知野和提升预测分辨率，两个结构中采用扩散卷积，定义如下：

其中，k为卷积核索引，m为像素位置索引，r为扩散率，x为对应位置的输入值，w为相应的权重，y为输出结果。

4.根据权利要求1所述的基于像素密切度的语义分割方法，其特征在于，步骤(3)中，每个像素点对应的周围像素采用稀疏采样的方法获得，每个像素点对应若干组周围像素，每组像素包含8个不同方向的像素。

5.根据权利要求1所述的基于像素密切度的语义分割方法，其特征在于，步骤(3)中，计算每个像素点与周围像素的密切度时采用sigmoid函数。

6.根据权利要求1所述的基于像素密切度的语义分割方法，其特征在于，步骤(4)中，训练过程中，在得出损失函数后，与幂学习率相乘，幂学习率的具体形式如下：

其中，初始学习率为0.007，power值设置为0.9，其中iter为当前的训练步数，max_iter代表总的训练步数。

7.根据权利要求1所述的基于像素密切度的语义分割方法，其特征在于，步骤(5)中，所述后处理函数的具体公式如下：

其中Q(·)为归一化函数，max函数返回一个向量中的最大值，λ为权重参数，通过交叉验证得出，p_i,j为图像上第i行第j列的预测向量，s为扩散密切度采样集合中的索引，a_s和p_s分别为第s个采样对应的密切度和分类预测。