CN119202212B

CN119202212B - 一种基于对偶反事实的视觉问答去偏方法

Info

Publication number: CN119202212B
Application number: CN202411730037.XA
Authority: CN
Inventors: 王博岳; 句晓千; 吴博文; 刘恒; 史瑞泽
Original assignee: Beijing University of Technology
Current assignee: Beijing University of Technology
Priority date: 2024-11-29
Filing date: 2024-11-29
Publication date: 2025-02-11
Anticipated expiration: 2044-11-29
Also published as: CN119202212A

Abstract

本发明公开了一种基于对偶反事实的视觉问答去偏方法，涉及计算机视觉领域，分别用遮盖关键视觉区域的视觉反事实样本和遮盖关键词的问题反事实样本作为共享同一组参数的偏见模型的输入，同时从两个角度捕捉语言偏见本发明利用偏见模型的偏见预测生成伪标签，结合边际损失分离不同答案样本的特征空间，最大程度降低语言偏见对目标视觉问答模型的影响。

Description

一种基于对偶反事实的视觉问答去偏方法

技术领域

本发明涉及计算机视觉领域，具体是一种基于对偶反事实的视觉问答去偏方法。

背景技术

视觉问答（Visual Question Answering，VQA）作为人工智能、计算机视觉领域的热门研究方向，近几年取得了跨越性的进展。然而，视觉问答模型中的语言偏见问题依然存在。Aishwarya Agrawal等人于2016年首次提出语言偏见问题，指训练数据分布不均导致模型在回答问题时过分依赖于问题中的语言线索，忽视了图像内容的重要性。这种偏见会导致模型在处理与训练数据分布不一致的新场景时表现不佳。例如，对于“香蕉是什么颜色？”这个问题，训练样本中80%的答案是“黄色”，其余20%是其它颜色，这时如果测试样本给定一张其它颜色香蕉的图片，模型仍然会回答“黄色”。当训练集和测试集的每个问题类型的答案分布不同时，语言偏差所导致的负面影响便会暴露出来，这导致模型无法应用于现实场景。

为了评估模型受语言偏见的影响程度，研究者们提出了VQA-CP v2数据集，其重组VQA v2数据集使测试集中的问题在类型和分布上与训练集存在明显的差异。因此，在VQA-CP v2数据集上的评估效果可以直观展示模型的鲁棒性、推理能力、克服语言偏见的能力。

近年提出的各种视觉问答去偏方法大致分为以下两类，即基于集成的方法和基于数据增强的方法。

（1）基于数据增强的方法

基于数据增强的方法通过增加数据的多样性和复杂性来避免模型在训练过程中学习到有偏的语言模式。然而，这种方法利用了VQA-CP v2数据集中训练集和验证集答案分布明显不同的特殊先验信息，违背了提升模型鲁棒性的初衷，也导致计算成本大幅度上升。

（2）基于集成的方法

基于集成的方法旨在设计一个偏见模型为目标视觉问答模型去偏。其偏差模型要尽可能的去捕捉训练样本中的语言偏见，使偏见模型仅根据语言偏差去预测答案。根据偏见模型的预测结果指导目标模型的推理过程，有效地避免语言偏见。然而，单模态的输入会限制模型的表达能力,难以捕捉完整的语言偏见。

发明内容

为了完整且精准的捕捉语言偏见，同时又不改变训练样本分布，本发明提出一种基于对偶反事实的视觉问答去偏方法，该方法分别用遮盖关键视觉区域的视觉反事实样本和遮盖关键词的问题反事实样本作为共享同一组参数的偏见模型的输入，同时从两个角度捕捉语言偏见。

具体来说，视觉反事实样本可以使视觉问答模型在语言偏见影响下只根据问题预测答案的场景；问题反事实样本可以使模型仅根据问题中的疑问词来回答问题的场景。利用两种反事实样本分别训练偏见模型，可以全面模拟视觉问答模型在语言偏见影响下的推理行为，进而更加完整地建模语言偏见。最后，本发明利用偏见模型的偏见预测生成伪标签，结合边际损失分离不同答案样本的特征空间，最大程度降低语言偏见对目标视觉问答模型的影响。

为实现上述目的，本发明提供如下技术方案：

（1）步骤一：反事实样本合成

假设第个VQA样本为，同时合成视觉反事实样本和问题反事实样本。对于视觉反事实样本，首先使用spaCy提取问题关键词并使用GloVe词嵌入进行编码，计算其与用Faster R-CNN提取的图像中36个视觉目标特征的相似度得分，选取高分视觉目标作为候选关键目标；然后使用Grad-CAM梯度来衡量视觉目标对于正确答案的贡献。同样，对于问题反事实样本，利用Grad-CAM梯度对答案分类层进行追踪，计算每个对象单词（疑问词除外）对真实答案预测概率的贡献程度：

（1）

（2）

其中，表示第个样本对应的图像中第个视觉目标，表示第个样本对应的问题中第个单词。、分别表示由Grad-Cam( )计算梯度得到的重要性得分。分别保留重要性得分最高的K_v和K_q个视觉目标和单词，并且用均匀分布的随机噪声代替其原本的特征。

（2）步骤二：训练偏见模型

在语言偏见的影响下，视觉问答模型通常会直接依赖文本信息回答问题，而不关注视觉信息。为了让偏见模型更好地捕捉语言偏见，尽可能地模拟在语言偏见影响下模型的推理过程，因此，将两种反事实样本作为偏见模型的输入，即：

（3）

其中，表示偏见模型，,分别表示输入视觉反事实样本和问题反事实样本后偏见模型预测的答案分布。两种反事实样本的有偏答案经过超参数∈（0，1）进行加权融合，得到从两种反事实角度建模的偏见答案分布为：

（4）

得到偏见答案Y _i ^b后，使用传统交叉熵损失和KL散度（Kullback-LeiblerDivergence）训练偏见模型。交叉熵损失是训练分类模型的常用方法，它衡量模型预测概率分布和真实标签之间的差异。对于偏见模型的训练，交叉熵损失推动模型学习数据集中的统计规律，即问题和答案之间的关联性，因此它会自动学习数据集中的偏见，并通过这种偏见反向传播到网络中。交叉熵损失函数如下所示：

（5）

此外，为了使偏见模型进一步捕捉到目标模型存在的复杂偏见，本发明利用KL散度作为损失函数，使偏见模型遵循目标模型的行为：

（6）

KL散度是一种衡量两个概率分布差异的方法。在这里KL散度用于使偏见模型的输出与目标模型的答案分布更加接近，进而模拟目标模型可能存在的复杂偏见。

综上所示，训练偏见模型的最终损失函数为：

（7）

通过将两种反事实样本作为输入，结合两种损失函数，偏见模型能够更精确地捕获数据集中的语言偏见。

（3）步骤三：训练目标模型

利用偏见模型训练目标模型，旨在使目标模型利用完整的视觉和文本信息来回答问题，而不受语言偏见的影响。

偏见模型预测结果依赖数据集中的语言偏见，因此将其预测结果结合真实答案合成伪标签，

(8)

其中，、、分别表示第个样本的伪标签、真实标签、偏见模型预测结果,表示sigmoid函数。

为了进一步去除目标模型中的语言偏见，引入边际损失来分离不同问题类型下不同答案的特征空间，从而减少语言偏见的影响。具体来说，在视觉和文本特征经过融合得到联合表征后，将分类过程表述为与权重向量之间的角度的余弦函数，然后为不同答案计算相应的边际：

（9）

（10）

其中，每个答案对应的边际是由特定问题类型下答案所占比例计算得到的。得到每个答案类别的边际值后，边际损失可以被表述为：

（11）

通过为每个样本添加对应的边际值，可以将不同答案类别划分的不同的特征空间，有效去除目标模型中的偏见。

与现有技术相比，本发明的有益效果是：本发明利用两种反事实样本分别训练偏见模型，可以全面模拟视觉问答模型在语言偏见影响下的推理行为，进而更加完整地建模语言偏见；本发明利用偏见模型的偏见预测生成伪标签，结合边际损失分离不同答案样本的特征空间，最大程度降低语言偏见对目标视觉问答模型的影响。

附图说明

图1为本发明中基于对偶反事实的视觉问答去偏模型框架图。

具体实施方式

下面将结合本发明实施例中的附图，对本发明实施例中的技术方案进行清楚、完整地描述，显然，所描述的实施例仅仅是本发明一部分实施例，而不是全部的实施例。基于本发明中的实施例，本领域普通技术人员在没有做出创造性劳动前提下所获得的所有其他实施例，都属于本发明保护的范围。

本发明实施例中，一种基于对偶反事实的视觉问答去偏方法，包括如下步骤：

（1）步骤一：反事实样本合成

（1）

（2）

（2）步骤二：训练偏见模型

（3）

（4）

（5）

（6）

综上所示，训练偏见模型的最终损失函数为：

（7）

（3）步骤三：训练目标模型

(8)

（9）

（10）

（11）

作为本发明进一步的实施例，本发明对上述方法进行了实验验证，选取VQA-CPv2、VQA-CP v1、VQA v2三个数据集，包含了来自COCO图像数据集的图像以及与之相关的问题和答案。

为了对模型性能进行公平的评估，采用共识度量这一常用度量标准。对于每个问题-图像对，预测答案的准确性计算公式为：

(12)

其中，表示回答的人数，如果至少有三个被试者提供了这个答案，那么这个答案就被认为是100%正确的。

为了验证所提出的视觉问答去偏方法的性能，将UpDn和LXMERT作为基线模型，对比方法包括基于数据增强的去偏方法：SSL、CSS、CSST、MUTANT、MMBS，以及基于集成的去偏方法：LMH、LPF、CF-VQA、GenB、RMLVQA等。

表1对比了本发明提出基于对偶反事实的视觉问答去偏模型（MCD）与其他先进去偏方法在VQA-CP v2、VQA-CP v1的结果。MCD在两个基线模型UpDn和LXMERT上的效果获得显著提升，UpDn的总体准确率分别提升29.28%和21.64%，LXMERT的总体准确率分别提升20.67%和27.51%。同时，MCD方法准确率优于所有对比方法，对于Num和Other这种需要借助图像信息来回答的问题，MCD取得了最好的效果，说明MCD方法达到了很好的去偏效果。

表2展示了本发明提出的MCD在VQA V2数据集上的准确率。由于VQA V2训练集和测试集答案分布非常相似，依赖语言偏见的模型在这个数据集可以取得更好的准确率。因此，MCD在UpDn上时准确率展现出了4.25%的下降，当LXMERT模型最为基线时仍然取得了2.91%的提升。

表3展示了基于对偶反事实的视觉问答去偏模型消融实验的结果，Bias Model、V-Counterfactual、Q-Counterfactual、Dual-Counterfactual分别代表偏见模型、视觉反事实样本输入、问题反事实样本输入、两种反事实样本同时输入。由该表可以看出两种反事实样本都可以起到去偏效果，当两种反事实样本同时输入时可以更加全面的捕捉语言偏见。

对于本领域技术人员而言，显然本发明不限于上述示范性实施例的细节，而且在不背离本发明的精神或基本特征的情况下，能够以其他的具体形式实现本发明。因此，无论从哪一点来看，均应将实施例看作是示范性的，而且是非限制性的，本发明的范围由所附权利要求而不是上述说明限定，因此旨在将落在权利要求的等同要件的含义和范围内的所有变化囊括在本发明内。不应将权利要求中的任何附图标记视为限制所涉及的权利要求。

此外，应当理解，虽然本说明书按照实施方式加以描述，但并非每个实施方式仅包含一个独立的技术方案，说明书的这种叙述方式仅仅是为清楚起见，本领域技术人员应当将说明书作为一个整体，各实施例中的技术方案也可以经适当组合，形成本领域技术人员可以理解的其他实施方式。

Claims

1.一种基于对偶反事实的视觉问答去偏方法，其特征在于，包括以下步骤：

（1）步骤一：反事实样本合成

假设第个VQA样本为，同时合成视觉反事实样本和问题反事实样本；

对于视觉反事实样本，首先使用spaCy提取问题关键词并使用GloVe词嵌入进行编码，计算其与用Faster R-CNN提取的图像中视觉目标特征的相似度得分，选取高分视觉目标作为候选关键目标；然后使用Grad-CAM梯度来衡量视觉目标对于正确答案的贡献；

对于问题反事实样本，利用Grad-CAM梯度对答案分类层进行追踪，计算除疑问词外每个对象单词对真实答案预测概率的贡献程度：

（1）

（2）

其中，表示第个样本对应的图像中第个视觉目标，表示第个样本对应的问题中第个单词，、分别表示由Grad-Cam( )计算梯度得到的重要性得分，分别保留重要性得分最高的K_v和K_q个视觉目标和单词，并且用均匀分布的随机噪声代替其原本的特征；

（2）步骤二：训练偏见模型

将两种反事实样本作为偏见模型的输入，即：

（3）

其中，表示偏见模型，, 分别表示输入视觉反事实样本和问题反事实样本后偏见模型预测的答案分布，两种反事实样本的有偏答案经过超参数∈（0，1）进行加权融合，得到从两种反事实角度建模的偏见答案分布为：

（4）

得到偏见答案后，使用传统交叉熵损失和KL散度（Kullback-Leibler Divergence）训练偏见模型，交叉熵损失函数如下所示：

（5）

利用KL散度作为损失函数，使偏见模型遵循目标模型的行为：

（6）

KL散度用于使偏见模型的输出与目标模型的答案分布更加接近，进而模拟目标模型可能存在的复杂偏见；

训练偏见模型的最终损失函数为：

（7）

（3）步骤三：训练目标模型

偏见模型预测结果依赖数据集中的语言偏见，将其预测结果结合真实答案合成伪标签，

(8)

其中，、、分别表示第个样本的伪标签、真实标签、偏见模型预测结果,表示sigmoid函数；

引入边际损失来分离不同问题类型下不同答案的特征空间，减少语言偏见的影响；在视觉和文本特征经过融合得到联合表征后，将分类过程表述为与权重向量之间的角度的余弦函数，然后为不同答案计算相应的边际：

（9）

（10）

其中，每个答案对应的边际是由特定问题类型下答案所占比例计算得到的，得到每个答案类别的边际值后，边际损失可以被表述为：

（11）

通过为每个样本添加对应的边际值，将不同答案类别划分的不同的特征空间，去除目标模型中的偏见。