CN112950653B

CN112950653B - 一种注意力图像分割方法、装置及介质

Info

Publication number: CN112950653B
Application number: CN202110217268.0A
Authority: CN
Inventors: 王立; 郭振华; 赵雅倩; 李仁刚
Original assignee: Shandong Yingxin Computer Technology Co Ltd
Current assignee: Shandong Yingxin Computer Technology Co Ltd
Priority date: 2021-02-26
Filing date: 2021-02-26
Publication date: 2023-05-23
Anticipated expiration: 2041-02-26
Also published as: CN112950653A

Abstract

本发明公开了一种注意力图像分割方法，包括以下步骤：对图像进行卷积并提取图像的若干特征图；选择若干所述特征图并进行融合，得到融合特征图；通过注意力网络以及所述融合特征图得到所述图像的第一分割结果；选择分割网络；将所述图像的第一分割结果进行尺寸变换，得到区域信息；将所述图像通过所述分割网络以及所述区域信息进行加权融合得到第四矩阵；将所述第四矩阵输入所述分割网络得到所述图像的第二分割结果；通过上述方式，本发明能够通过对特征图进行融合，并根据分割网络进行加权融合，从而提高分割精度。

Description

一种注意力图像分割方法、装置及介质

技术领域

本发明涉及图像处理领域，特别是涉及一种注意力图像分割方法、装置及介质。

背景技术

图像分割(image segmentation)技术是计算机视觉领域的重要的研究方向，是图像语义理解的重要一环。图像分割是指将图像分成若干具有相似性质的区域的过程，近些年，图像分割技术有了突飞猛进的发展，该技术相关的场景物体分割、人体前背景分割、人脸人体分析、三维重建等技术已经在无人驾驶、增强现实、安防监控等行业都得到广泛的应用。

图像分割是指根据灰度、彩色、空间纹理、几何形状等特征把图像划分成若干个互不相交的区域，使得这些特征在同一区域内表现出一致性或相似性，而在不同区域间表现出明显的不同。简单的说就是在一副图像中，把目标从背景中分离出来。对于灰度图像来说，区域内部的像素一般具有灰度相似性，而在区域的边界上一般具有灰度不连续性。

总体而言，图像分割需要预测出图像中的像素点是否属于某一目标类或场景类。由于图像场景的复杂多样如：光照，视角，尺寸，遮挡等，对于场景的理解和像素点的判别造成很大困难。

发明内容

本发明主要解决是如何能够更准确的对图像像素进行分类和判断，从而进行更加精准的图像分割的问题。

为解决上述技术问题，本发明采用的一个技术方案是：提供一种注意力图像分割方法，包括以下步骤：

对图像进行卷积并提取所述图像的若干特征图；

选择若干所述特征图并进行融合，得到融合特征图；

通过注意力网络以及所述融合特征图得到所述图像的第一分割结果；

选择分割网络；

将所述图像的第一分割结果进行尺寸变换，得到区域信息；

将所述图像通过所述分割网络以及所述区域信息进行加权融合得到第四矩阵；

将所述第四矩阵输入所述分割网络得到所述图像的第二分割结果。

优选的，所述将所述图像通过所述分割网络以及所述区域信息进行加权融合得到第四矩阵的步骤进一步包括：

将所述图像输入所述分割网络进行计算，得到特征矩阵；

所述特征矩阵包括第一矩阵、第二矩阵和第三矩阵；

将所述第一矩阵、第二矩阵和区域信息进行权重计算，并得出加权策略；

基于所述加权策略和所述第三矩阵得到所述第四矩阵。

优选的，所述将所述第一矩阵、第二矩阵和区域信息进行权重计算的步骤进一步包括：

获取所述第二矩阵中第一元素的向量维度；

查询所述区域信息中与所述第一元素种类相同的元素，记为第二元素；

查询所述第一矩阵中与所述第二元素种类相同的元素，记为第三元素；

获取所述第三元素的向量维度；

计算所述第一元素的向量维度和所述第三元素的向量维度的向量内积，得到第一数据；

对所述第一数据进行归一化处理，得到第一向量；

返回获取所述第二矩阵中第一元素的向量维度，直至遍历完所述第二矩阵。

优选的，所述基于所述加权策略和所述第三矩阵得到所述第四矩阵的步骤进一步包括：

将遍历完所述第二矩阵获得的所有所述第一向量分别和所述第三矩阵进行加权融合，得到若干第二向量；

根据所述第一元素在所述第二矩阵中的位置对若干所述第二向量进行排列，得到所述第四矩阵；

优选的，所述基于所述加权策略和所述第三矩阵得到所述第四矩阵的步骤进一步还包括：

根据所述第一元素在所述第二矩阵中的位置对遍历完所述第二矩阵获得的所有所述第一向量进行排列，得到加权矩阵；

将所述加权矩阵和所述第三矩阵进行加权融合，得到所述第四矩阵。

优选的，所述选择若干特征图并进行融合的步骤进一步包括：通过双线性插值法或反卷积网络法使若干所述特征图的尺寸相同；

对尺寸相同的所述特征图进行相加，得到所述融合特征图。

优选的，所述尺寸变换为通过下采样方式使所述第一分割结果的尺寸与所述图像输入所述分割网络的尺寸相同。

优选的，所述通过注意力网络以及所述融合特征图得到所述图像的第一分割结果的步骤进一步包括：将所述融合特征图输入至所述注意力网络；

通过双线性插值法将所述融合特征图的尺寸变为所述图像的尺寸；

通过归一化函数将所述融合特征图的取值范围进行归一化；

通过求参函数得到所述图像的第一分割结果。

本发明还提供一种注意力图像分割系统，包括：提取模块、融合模块、第一分割模块、变换模块和第二分割模块；

所述提取模块用于通过卷积核对图像进行卷积并提取图像的若干特征图；

所述融合模块用于选择若干特征图并进行融合，得到融合特征图；

所述第一分割模块用于通过注意力网络以及所述融合特征图得到所述图像的第一分割结果；

所述变换模块用于选择分割网络，用于将所述图像的第一分割结果进行尺寸变换，得到区域信息；

所述第二分割模块用于将所述图像通过所述分割网络以及所述区域信息进行加权融合得到第四矩阵，并将所述第四矩阵输入所述分割网络得到所述图像的第二分割结果。

本发明还提供一种计算机可读存储介质，所述计算机可读存储介质存储有计算机程序，所述计算机程序被处理器执行时，实现所述的一种注意力图像分割方法的步骤。

本发明的有益效果是：

1、本发明所述的一种注意力图像分割方法，能够通过对特征图进行融合，并根据分割网络进行加权融合，从而提高分割精度。

2、本发明所述的一种注意力图像分割网络训练系统，可以实现通过使用注意力加权方法，使辅助注意力网络获得的注意力结果能够对主分割网络中的特征进行加权，能够提高图像分割的精度。

3、本发明所述的一种计算机可读存储介质，可以实现计算矩阵中的元素以及向量内积，并且通过注意力网络进行计算粗分割结果，并通过粗分割进行计算细分割结果，提高了计算的效率，并且计算过程由软件实现不会产生错误。

附图说明

为了更清楚地说明本发明具体实施方式或现有技术中的技术方案，下面将对具体实施方式或现有技术描述中所需要使用的附图作简单地介绍，显而易见地，下面描述中的附图是本发明的一些实施方式，对于本领域普通技术人员来讲，在不付出创造性劳动的前提下，还可以根据这些附图获得其他的附图。

图1是本发明实施例1所述的注意力图像分割方法示意图；

图2是本发明实施例1所述的注意力图像分割方法中注意力网络结构示意图；

图3是本发明实施例1所述的注意力图像分割方法中分割网络结构示意图；

图4是本发明实施例1所述的注意力图像分割方法中加权融合流程图；

图5是本发明实施例1所述的注意力图像分割方法中权重计算方法流程图；

图6是本发明实施例2所述的注意力图像分割系统架构示意图。

具体实施方式

下面将结合附图对本发明的技术方案进行清楚、完整地描述，显然，所描述的实施例是本发明一部分实施例，而不是全部的实施例。基于本发明中的实施例，本领域普通技术人员在没有做出创造性劳动前提下所获得的所有其他实施例，都属于本发明保护的范围。

在本发明的描述中，需要说明的是，术语“第一”、“第二”仅用于描述目的，而不能理解为指示或暗示相对重要性。

需要说明的是，在本发明的描述中

注意力机制(attention)近几年来在图像领域中取得了重要的突破，被证明有益于提高模型的性能。注意力机制本身也是符合人脑和人眼的感知机制。

注意力机制的本质就是定位感兴趣的信息，抑制无用信息，使网络能够聚焦在更需要关注的部位。更具体一点来讲，在图像处理中，注意力机制会学习某一像素点和图像中其他所有位置(包括较远位置)的像素点之间的关系，并利用学习到的这种关系特征来帮助分割图像的细节，从而使分割的结果更加准确和精细。

ResNet是一种残差网络，可以理解为一个子网络，这个子网络经过堆叠可以构成一个很深的网络。

卷积核就是图像处理时，给定输入图像，输入图像中一个小区域中像素加权平均后成为输出图像中的每个对应像素，其中权值由一个函数定义，这个函数称为卷积核。

在CNN的每个卷积层，数据都是以三维形式存在的，可以看成许多个二维图片叠在一起，其中每一个称为一个feature map。

feature map在本实施例中代表特征图；

双线性插值，又称为双线性内插。在数学上，双线性插值是有两个变量的插值函数的线性插值扩展，其核心思想是在两个方向分别进行一次线性插值。

双线性插值作为数值分析中的一种插值算法，广泛应用在信号处理，数字图像和视频处理等方面。

反卷积是一种特殊的正向卷积，先按照一定的比例通过补0扩大输入图像的尺寸，接着旋转卷积核，再进行正向卷积。

归一化是一种简化计算的方式，即将有量纲的表达式，经过变换，化为无量纲的表达式，成为标量。

argmax是一种函数，是对函数求参数(集合)的函数。

softmax函数，又称归一化指数函数。

需要说明的是，在本发明的描述中

第一分割结果为粗分割结果，第二分割结果为细分割结果。

u_new为第二向量；第一元素的向量内积为e，第三元素的向量内积为f；

第一数据为h，。

实施例1

本发明实施例提供一种注意力图像分割方法，请参阅图1，包括以下步骤：

S100，训练注意力网络，注意力网络是一个可训练的粗分割网络；在本实施例中注意力网络基于ResNet网络，但不限于此种类型的网络；包含原始待分割图像，以及主干网络结构；

S110，主干网络通过卷积核对图像进行卷积，并提取图像的特征图；设置卷积的步长，通过卷积的步长控制卷积后的特征图的尺寸；在主干网络中，每次经过一次卷积，图像的特征图尺寸会下降一倍，例如之前图像为200*200的图像，经过一次卷积后，变为100*100的图像；

S120，将原始待分割图像进行多次卷积，得到heatMap；

具体步骤如下：

S121，将原始待分割图像进行卷积conv1，得到第一图像；第一图像变为原始待分割图像的1/2；

S122，对第一图像进行二次卷积conv2，得到第二图像；第二图像变为第一图像的1/2，变为原始待分割图像的1/4；

S123，对第二图像进行三次卷积conv3，得到第三图像；第三图像变为第二图像的1/2，变为原始待分割图像的1/8；输出当前图像的第一featureMap；

S124，对第三图像进行四次卷积conv4，得到第四图像；第四图像变为第三图像的1/2，变为原始待分割图像的1/16；输出当前图像的第二featureMap；

S125，对第四图像进行五次卷积conv5，得到第五图像；第五图像变为第四图像的1/2，变为原始待分割图像的1/32；输出当前图像的第三featureMap；

S126，对第五图像进行六次卷积conv6，第三featureMap的通道数量改变，

进行第六次卷积后，图像的featureMap通道数量改变，这是ResNet网络中的惯用手段。在卷积神经网络中，特征图的尺寸和通道数可以通过人为分别设定而改变。在本发明中，采用了最为常用的一种设定手段(resnet50)来控制每一层的特征图的通道数和特征图尺寸的输出。

得到第六图像，第六图像的尺寸依旧为原始待分割图像的1/32，输出当前图像的第四featureMap；并且此时第六图像的第四featureMap为heatMap热图；

通常，在图像分割卷积神经网络中最后一层特征图称为热图。在本实施例中热图为特征图；因为，最后一层图会拿出来进行计算，同时研究人员会画出最后一层特征图的图像表象。

S130，选择若干特征图，使用若干特征图进行融合；

进行融合的方法为：融合不同尺寸的特征图；

假设若干特征图中的第一特征图的尺寸为(C*W*H)为1*28*28，其中C为第一特征图的通道数，H为第一特征图的高度，W为第一特征图的宽度；第二特征图尺寸为(C*W/2*H/2)为1*14*14，第三特征图为(C*W/4*H/4)为1*7*7，进行特征图融合时，不能直接进行简单的相加，因为特征图尺寸不同，为了将特征图的尺寸进行相加，将小的特征图进行采样，通常使用反卷积网络或双线性插值法得到与大尺寸特征图相同的尺寸，然后在进行相加融合；

例如：将第三特征图通过双线性插值(F.interpolate)或反卷积网络(Deconvolution)，得到与第二特征图相同的尺寸并与第二特征图进行相加，实现特征融合，将融合后的特征再通过注意力网络计算图像的粗分割结果；

在本实施例中不限于上述一种特征融合方式，可以通过多种方式，例如：

第二特征图和第一特征图融合，第三特征图和第二特征图融合，第三特征图和第一特征图融合等；

也可以不进行特征融合，直接单独使用第一特征图、第二特征图或第三特征图的特征通过注意力网络计算原始待分割图像的粗分割结果；

融合后的特征图通过注意力网络可以获得原始待分割图像的粗分割结果；

具体步骤如下：

S131，请参阅图2，注意力网络包括卷积层，还原层、softmax归一化函数层和argmax求参函数层

将融合后的特征图输入至注意力网络，通过双线性插值(F.interpolate)将第二特征图还原到原始尺寸；通过注意力网络中softmax层将特征图的取值范围归一化到[0，1]范围内，通过argmax函数获得第二特征图的粗分割结果；通过损失函数计算出注意力网络的损失值；其中损失函数采用图像分割通用的交叉熵损失函数。

S200，分割网络，分割网络众多，例如FCN、SegNet、ENet等，本实施例中不限于采用何种类型的分割网络；

请参阅图3，本实施例中采用与注意力结构网络相似的网络用作分割网络；分割网络具体结构包括：conv2d卷积层，双线性插值(F.interpolate)层，输出层，softmax层和argmax层；

其中Conv2d代表2d的卷积层网络，可以对输入的特征图进行卷积从而提取输入的特征图的特征。

S300，请参阅图4，加权融合，通过粗分割注意力网络进行加权融合得到精细分割的图像分割结果；

通过分割网络输入特征图的尺寸为C*H*W，分别经过3个1*1的卷积层conv2d并输出三个特征矩阵，记为第一矩阵，第二矩阵和第三矩阵；

第一矩阵和第二矩阵经过权重计算，计算出加权策略；

所述加权策略为：特征图中每个特征元素应该如何加权，

并将特征图中每个特征元素如何加权应用到第三矩阵上，

请参阅图5，权重计算的方法包括以下步骤：

S310，注意力网络经过argmax层后会获得输入图像的粗分割结果，尺寸与原始图像相等，粗分割结果经过尺寸变换获得区域信息，并且尺寸变换为C*H*W，与分割网络输入的特征图的尺寸一致，尺寸变换方法采用下采样方法；

S320，遍历第二矩阵中每个位置的元素u，例如第二矩阵尺寸为C*H*W，其中C代表通道数，只遍历H*W代表的元素的位置；假设遍历第二矩阵中第一个位置的元素u，该元素u位置向量维度为1*C，也就是向量维度C；

这部分因为矩阵为C*H*W是三维矩阵，但是遍历H*W代表的元素的位置，所以当遍历H*W元素时，元素u位置所在的向量维度为1*C；

S330，根据元素u的位置去区域信息中查询与元素u位置相关联的元素位置，并通过该位置找到与元素u位置相关联的区域，并输出；

具体方法为查询区域信息中与元素u具有相同类别的元素，并输出相同类别的元素的位置信息，假如区域信息中有N个与元素u具有相同类别，则输出N个元素的位置信息；位置信息为坐标；

S340，获取第二矩阵中元素u位置处的向量维度C，并获得C*1向量维度，用f表示，获取第一矩阵中与元素u相关联的N个向量维度C，获取方法同步骤S330，通过步骤S330获取N个元素的位置信息，之后获取N个位置信息对应的向量维度C；将N个信息对应的向量维度C，N*C记为e；

S350，求出e和f的向量内积，[C*1]·[C*N]＝[1*N]，并用h表示，向量内积h中包含N个元素，N个元素中每个元素都包含了各自的位置信息，位置信息和第一矩阵中获取的N个元素的位置信息相同；

S360，求h的softmax，并进行归一化，得到[1*N]的向量；

使用加权融合公式：

并使用h的[1*N]的向量和第三矩阵进行加权融合；

其中G_i代表从第三矩阵中获取h_i，并与h_i所对应的位置的向量，G_i的维度为1*C，经过加权融合后u_new的维度也是1*C；

S370，遍历第三矩阵中每个位置的元素，共H*W个，并将每个位置的元素和与对应的h中每个元素的向量带入分别上述加权融合公式，得到经过加权融合后的若干个u_new，根据元素u在第二矩阵中的位置对若干个u_new进行排列，得到加权融合后的矩阵，记为第四矩阵，第四矩阵的维度为C*H*W；

或者根据元素u在第二矩阵中的位置对h中每个元素的向量进行排列，得到加权矩阵，将加权矩阵中每个向量和第三矩阵中的对应的每个位置的元素进行加权融合，得到加权融合后的矩阵，这个矩阵为第四矩阵。

S380，将第四矩阵作为分割网络的输入，经过分割网络计算处理得到更加精细的分割结果，因为是使用注意力网络的粗分割结果进行尺度变换并与分割网络输入的矩阵进行加权融合后得到的u_new，而且进行通过注意力网络进行粗分割前，对图像进行多次卷积进行提取图像中特征图，并将不同次卷积得到特征图进行融合，将图像的特征进行融合，并且再通过注意力网络得到粗分割结果，相比于以前，粗分割精度进一步提升，并且加权融合后得到的u_new，所以相当于对粗分割的结果再次进行加权，从而对图像的精度更进一步提升，最后使用分割网络进行分割相比于之前的分割精度更加提升了，从而得到更加精细的分割结果。

实施例2

本发明实施例还提供一种注意力图像分割系统，请参阅图6，包括：提取模块、融合模块、第一分割模块、变换模块和第二分割模块；

提取模块用于通过卷积核对图像进行卷积并提取图像的若干特征图；

融合模块用于选择若干特征图并进行融合，得到融合特征图；

第一分割模块用于通过注意力网络以及所述融合特征图得到所述图像的第一分割结果；

变换模块用于选择分割网络，用于将所述图像的第一分割结果进行尺寸变换，得到区域信息；

第二分割模块用于将所述图像通过所述分割网络以及所述区域信息进行加权融合得到第四矩阵，并将所述第四矩阵输入所述分割网络得到所述图像的第二分割结果。

基于与前述实施例中方法同样的发明构思，本说明书实施例还提供一种计算机可读存储介质，计算机可读存储介质上存储有计算机程序，计算机程序被处理器执行时实现如前述公开的一种注意力图像分割方法的步骤。

上述本发明实施例公开实施例序号仅仅为了描述，不代表实施例的优劣。

本领域普通技术人员可以理解实现上述实施例的全部或部分步骤可以通过硬件来完成，也可以通过程序来指令相关的硬件完成的程序可以存储于一种计算机可读存储介质中，上述提到的存储介质可以是只读存储器，磁盘或光盘等。

以上所述仅为本发明的实施例，并非因此限制本发明的专利范围，凡是利用本发明说明书及附图内容所作的等效结构或等效流程变换，或直接或间接运用在其他相关的技术领域，均同理包括在本发明的专利保护范围内。

Claims

1.一种注意力图像分割方法，其特征在于，包括以下步骤：

对图像进行卷积并提取所述图像的若干特征图；

选择若干所述特征图并进行融合，得到融合特征图；

选择分割网络；

将所述图像的第一分割结果进行尺寸变换，得到区域信息；

将所述第四矩阵输入所述分割网络得到所述图像的第二分割结果；

所述将所述图像通过所述分割网络以及所述区域信息进行加权融合得到第四矩阵的步骤进一步包括：

将所述图像输入所述分割网络进行计算，得到特征矩阵；

所述特征矩阵包括第一矩阵、第二矩阵和第三矩阵；

基于所述加权策略和所述第三矩阵得到所述第四矩阵；

所述将所述图像输入所述分割网络进行计算，得到特征矩阵；所述特征矩阵包括第一矩阵、第二矩阵和第三矩阵，进一步包括：

通过分割网络输入特征图的尺寸为C*H*W，分别经过3个1*1的conv2d卷积层并输出三个特征矩阵，记为第一矩阵，第二矩阵和第三矩阵；所述conv2d卷积层代表2d的卷积层网络，用于对输入的特征图进行卷积从而提取输入的特征图的特征；所述C为特征图的通道数，H为特征图的高度，W为特征图的宽度。

2.根据权利要求1所述的一种注意力图像分割方法，其特征在于：所述将所述第一矩阵、第二矩阵和区域信息进行权重计算的步骤进一步包括：

获取所述第二矩阵中第一元素的向量维度；

获取所述第三元素的向量维度；

对所述第一数据进行归一化处理，得到第一向量；

3.根据权利要求2所述的一种注意力图像分割方法，其特征在于：所述基于所述加权策略和所述第三矩阵得到所述第四矩阵的步骤进一步包括：

根据所述第一元素在所述第二矩阵中的位置对若干所述第二向量进行排列，得到所述第四矩阵。

4.根据权利要求2所述的一种注意力图像分割方法，其特征在于：所述基于所述加权策略和所述第三矩阵得到所述第四矩阵的步骤进一步还包括：

5.根据权利要求1所述的一种注意力图像分割方法，其特征在于：所述选择若干特征图并进行融合的步骤进一步包括：通过双线性插值法或反卷积网络法使若干所述特征图的尺寸相同；

对尺寸相同的所述特征图进行相加，得到所述融合特征图。

6.根据权利要求1所述的一种注意力图像分割方法，其特征在于：所述尺寸变换为通过下采样方式使所述第一分割结果的尺寸与所述图像输入所述分割网络的尺寸相同。

7.根据权利要求1所述的一种注意力图像分割方法，其特征在于：所述通过注意力网络以及所述融合特征图得到所述图像的第一分割结果的步骤进一步包括：将所述融合特征图输入至所述注意力网络；

通过归一化函数将所述融合特征图的取值范围进行归一化；

通过求参函数得到所述图像的第一分割结果。

8.一种注意力图像分割系统，其特征在于，包括：提取模块、融合模块、第一分割模块、变换模块和第二分割模块；

所述第二分割模块用于将所述图像通过所述分割网络以及所述区域信息进行加权融合得到第四矩阵，并将所述第四矩阵输入所述分割网络得到所述图像的第二分割结果；

所述将所述图像通过所述分割网络以及所述区域信息进行加权融合得到第四矩阵进一步包括：将所述图像输入所述分割网络进行计算，得到特征矩阵；所述特征矩阵包括第一矩阵、第二矩阵和第三矩阵；将所述第一矩阵、第二矩阵和区域信息进行权重计算，并得出加权策略；基于所述加权策略和所述第三矩阵得到所述第四矩阵；

9.一种计算机可读存储介质，所述计算机可读存储介质存储有计算机程序，其特征在于，所述计算机程序被处理器执行时，实现权利要求1-6任一项所述的一种注意力图像分割方法的步骤。