CN119202212B - 一种基于对偶反事实的视觉问答去偏方法 - Google Patents
一种基于对偶反事实的视觉问答去偏方法 Download PDFInfo
- Publication number
- CN119202212B CN119202212B CN202411730037.XA CN202411730037A CN119202212B CN 119202212 B CN119202212 B CN 119202212B CN 202411730037 A CN202411730037 A CN 202411730037A CN 119202212 B CN119202212 B CN 119202212B
- Authority
- CN
- China
- Prior art keywords
- bias
- model
- visual
- answer
- sample
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Active
Links
Classifications
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F16/00—Information retrieval; Database structures therefor; File system structures therefor
- G06F16/30—Information retrieval; Database structures therefor; File system structures therefor of unstructured textual data
- G06F16/33—Querying
- G06F16/332—Query formulation
- G06F16/3329—Natural language query formulation
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06V—IMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
- G06V30/00—Character recognition; Recognising digital ink; Document-oriented image-based pattern recognition
- G06V30/10—Character recognition
- G06V30/14—Image acquisition
- G06V30/148—Segmentation of character regions
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06V—IMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
- G06V30/00—Character recognition; Recognising digital ink; Document-oriented image-based pattern recognition
- G06V30/10—Character recognition
- G06V30/19—Recognition using electronic means
- G06V30/191—Design or setup of recognition systems or techniques; Extraction of features in feature space; Clustering techniques; Blind source separation
- G06V30/19147—Obtaining sets of training patterns; Bootstrap methods, e.g. bagging or boosting
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06V—IMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
- G06V30/00—Character recognition; Recognising digital ink; Document-oriented image-based pattern recognition
- G06V30/10—Character recognition
- G06V30/19—Recognition using electronic means
- G06V30/191—Design or setup of recognition systems or techniques; Extraction of features in feature space; Clustering techniques; Blind source separation
- G06V30/19173—Classification techniques
Landscapes
- Engineering & Computer Science (AREA)
- Physics & Mathematics (AREA)
- Theoretical Computer Science (AREA)
- General Physics & Mathematics (AREA)
- Computer Vision & Pattern Recognition (AREA)
- Multimedia (AREA)
- Mathematical Physics (AREA)
- Artificial Intelligence (AREA)
- Human Computer Interaction (AREA)
- Computational Linguistics (AREA)
- Data Mining & Analysis (AREA)
- Databases & Information Systems (AREA)
- General Engineering & Computer Science (AREA)
- Image Analysis (AREA)
- Electrically Operated Instructional Devices (AREA)
Abstract
本发明公开了一种基于对偶反事实的视觉问答去偏方法,涉及计算机视觉领域,分别用遮盖关键视觉区域的视觉反事实样本和遮盖关键词的问题反事实样本作为共享同一组参数的偏见模型的输入,同时从两个角度捕捉语言偏见本发明利用偏见模型的偏见预测生成伪标签,结合边际损失分离不同答案样本的特征空间,最大程度降低语言偏见对目标视觉问答模型的影响。
Description
技术领域
本发明涉及计算机视觉领域,具体是一种基于对偶反事实的视觉问答去偏方法。
背景技术
视觉问答(Visual Question Answering,VQA)作为人工智能、计算机视觉领域的热门研究方向,近几年取得了跨越性的进展。然而,视觉问答模型中的语言偏见问题依然存在。Aishwarya Agrawal等人于2016年首次提出语言偏见问题,指训练数据分布不均导致模型在回答问题时过分依赖于问题中的语言线索,忽视了图像内容的重要性。这种偏见会导致模型在处理与训练数据分布不一致的新场景时表现不佳。例如,对于“香蕉是什么颜色?”这个问题,训练样本中80%的答案是“黄色”,其余20%是其它颜色,这时如果测试样本给定一张其它颜色香蕉的图片,模型仍然会回答“黄色”。当训练集和测试集的每个问题类型的答案分布不同时,语言偏差所导致的负面影响便会暴露出来,这导致模型无法应用于现实场景。
为了评估模型受语言偏见的影响程度,研究者们提出了VQA-CP v2数据集,其重组VQA v2数据集使测试集中的问题在类型和分布上与训练集存在明显的差异。因此,在VQA-CP v2数据集上的评估效果可以直观展示模型的鲁棒性、推理能力、克服语言偏见的能力。
近年提出的各种视觉问答去偏方法大致分为以下两类,即基于集成的方法和基于数据增强的方法。
(1)基于数据增强的方法
基于数据增强的方法通过增加数据的多样性和复杂性来避免模型在训练过程中学习到有偏的语言模式。然而,这种方法利用了VQA-CP v2数据集中训练集和验证集答案分布明显不同的特殊先验信息,违背了提升模型鲁棒性的初衷,也导致计算成本大幅度上升。
(2)基于集成的方法
基于集成的方法旨在设计一个偏见模型为目标视觉问答模型去偏。其偏差模型要尽可能的去捕捉训练样本中的语言偏见,使偏见模型仅根据语言偏差去预测答案。根据偏见模型的预测结果指导目标模型的推理过程,有效地避免语言偏见。然而,单模态的输入会限制模型的表达能力,难以捕捉完整的语言偏见。
发明内容
为了完整且精准的捕捉语言偏见,同时又不改变训练样本分布,本发明提出一种基于对偶反事实的视觉问答去偏方法,该方法分别用遮盖关键视觉区域的视觉反事实样本和遮盖关键词的问题反事实样本作为共享同一组参数的偏见模型的输入,同时从两个角度捕捉语言偏见。
具体来说,视觉反事实样本可以使视觉问答模型在语言偏见影响下只根据问题预测答案的场景;问题反事实样本可以使模型仅根据问题中的疑问词来回答问题的场景。利用两种反事实样本分别训练偏见模型,可以全面模拟视觉问答模型在语言偏见影响下的推理行为,进而更加完整地建模语言偏见。最后,本发明利用偏见模型的偏见预测生成伪标签,结合边际损失分离不同答案样本的特征空间,最大程度降低语言偏见对目标视觉问答模型的影响。
为实现上述目的,本发明提供如下技术方案:
(1)步骤一:反事实样本合成
假设第个VQA样本为,同时合成视觉反事实样本和问题反事实样本。对于视觉反事实样本,首先使用spaCy提取问题关键词并使用GloVe词嵌入进行编码,计算其与用Faster R-CNN提取的图像中36个视觉目标特征的相似度得分,选取高分视觉目标作为候选关键目标;然后使用Grad-CAM梯度来衡量视觉目标对于正确答案的贡献。同样,对于问题反事实样本,利用Grad-CAM梯度对答案分类层进行追踪,计算每个对象单词(疑问词除外)对真实答案预测概率的贡献程度:
(1)
(2)
其中,表示第个样本对应的图像中第个视觉目标,表示第个样本对应的问题中第个单词。、分别表示由Grad-Cam( )计算梯度得到的重要性得分。分别保留重要性得分最高的Kv和Kq个视觉目标和单词,并且用均匀分布的随机噪声代替其原本的特征。
(2)步骤二:训练偏见模型
在语言偏见的影响下,视觉问答模型通常会直接依赖文本信息回答问题,而不关注视觉信息。为了让偏见模型更好地捕捉语言偏见,尽可能地模拟在语言偏见影响下模型的推理过程,因此,将两种反事实样本作为偏见模型的输入,即:
(3)
其中,表示偏见模型,,分别表示输入视觉反事实样本和问题反事实样本后偏见模型预测的答案分布。两种反事实样本的有偏答案经过超参数∈(0,1)进行加权融合,得到从两种反事实角度建模的偏见答案分布为:
(4)
得到偏见答案Y i b后,使用传统交叉熵损失和KL散度(Kullback-LeiblerDivergence)训练偏见模型。交叉熵损失是训练分类模型的常用方法,它衡量模型预测概率分布和真实标签之间的差异。对于偏见模型的训练,交叉熵损失推动模型学习数据集中的统计规律,即问题和答案之间的关联性,因此它会自动学习数据集中的偏见,并通过这种偏见反向传播到网络中。交叉熵损失函数如下所示:
(5)
此外,为了使偏见模型进一步捕捉到目标模型存在的复杂偏见,本发明利用KL散度作为损失函数,使偏见模型遵循目标模型的行为:
(6)
KL散度是一种衡量两个概率分布差异的方法。在这里KL散度用于使偏见模型的输出与目标模型的答案分布更加接近,进而模拟目标模型可能存在的复杂偏见。
综上所示,训练偏见模型的最终损失函数为:
(7)
通过将两种反事实样本作为输入,结合两种损失函数,偏见模型能够更精确地捕获数据集中的语言偏见。
(3)步骤三:训练目标模型
利用偏见模型训练目标模型,旨在使目标模型利用完整的视觉和文本信息来回答问题,而不受语言偏见的影响。
偏见模型预测结果依赖数据集中的语言偏见,因此将其预测结果结合真实答案合成伪标签,
(8)
其中,、、分别表示第个样本的伪标签、真实标签、偏见模型预测结果,表示sigmoid函数。
为了进一步去除目标模型中的语言偏见,引入边际损失来分离不同问题类型下不同答案的特征空间,从而减少语言偏见的影响。具体来说,在视觉和文本特征经过融合得到联合表征后,将分类过程表述为与权重向量之间的角度的余弦函数,然后为不同答案计算相应的边际:
(9)
(10)
其中,每个答案对应的边际是由特定问题类型下答案所占比例计算得到的。得到每个答案类别的边际值后,边际损失可以被表述为:
(11)
通过为每个样本添加对应的边际值,可以将不同答案类别划分的不同的特征空间,有效去除目标模型中的偏见。
与现有技术相比,本发明的有益效果是:本发明利用两种反事实样本分别训练偏见模型,可以全面模拟视觉问答模型在语言偏见影响下的推理行为,进而更加完整地建模语言偏见;本发明利用偏见模型的偏见预测生成伪标签,结合边际损失分离不同答案样本的特征空间,最大程度降低语言偏见对目标视觉问答模型的影响。
附图说明
图1为本发明中基于对偶反事实的视觉问答去偏模型框架图。
具体实施方式
下面将结合本发明实施例中的附图,对本发明实施例中的技术方案进行清楚、完整地描述,显然,所描述的实施例仅仅是本发明一部分实施例,而不是全部的实施例。基于本发明中的实施例,本领域普通技术人员在没有做出创造性劳动前提下所获得的所有其他实施例,都属于本发明保护的范围。
本发明实施例中,一种基于对偶反事实的视觉问答去偏方法,包括如下步骤:
(1)步骤一:反事实样本合成
假设第个VQA样本为,同时合成视觉反事实样本和问题反事实样本。对于视觉反事实样本,首先使用spaCy提取问题关键词并使用GloVe词嵌入进行编码,计算其与用Faster R-CNN提取的图像中36个视觉目标特征的相似度得分,选取高分视觉目标作为候选关键目标;然后使用Grad-CAM梯度来衡量视觉目标对于正确答案的贡献。同样,对于问题反事实样本,利用Grad-CAM梯度对答案分类层进行追踪,计算每个对象单词(疑问词除外)对真实答案预测概率的贡献程度:
(1)
(2)
其中,表示第个样本对应的图像中第个视觉目标,表示第个样本对应的问题中第个单词。、分别表示由Grad-Cam( )计算梯度得到的重要性得分。分别保留重要性得分最高的Kv和Kq个视觉目标和单词,并且用均匀分布的随机噪声代替其原本的特征。
(2)步骤二:训练偏见模型
在语言偏见的影响下,视觉问答模型通常会直接依赖文本信息回答问题,而不关注视觉信息。为了让偏见模型更好地捕捉语言偏见,尽可能地模拟在语言偏见影响下模型的推理过程,因此,将两种反事实样本作为偏见模型的输入,即:
(3)
其中,表示偏见模型,,分别表示输入视觉反事实样本和问题反事实样本后偏见模型预测的答案分布。两种反事实样本的有偏答案经过超参数∈(0,1)进行加权融合,得到从两种反事实角度建模的偏见答案分布为:
(4)
得到偏见答案Y i b后,使用传统交叉熵损失和KL散度(Kullback-LeiblerDivergence)训练偏见模型。交叉熵损失是训练分类模型的常用方法,它衡量模型预测概率分布和真实标签之间的差异。对于偏见模型的训练,交叉熵损失推动模型学习数据集中的统计规律,即问题和答案之间的关联性,因此它会自动学习数据集中的偏见,并通过这种偏见反向传播到网络中。交叉熵损失函数如下所示:
(5)
此外,为了使偏见模型进一步捕捉到目标模型存在的复杂偏见,本发明利用KL散度作为损失函数,使偏见模型遵循目标模型的行为:
(6)
KL散度是一种衡量两个概率分布差异的方法。在这里KL散度用于使偏见模型的输出与目标模型的答案分布更加接近,进而模拟目标模型可能存在的复杂偏见。
综上所示,训练偏见模型的最终损失函数为:
(7)
通过将两种反事实样本作为输入,结合两种损失函数,偏见模型能够更精确地捕获数据集中的语言偏见。
(3)步骤三:训练目标模型
利用偏见模型训练目标模型,旨在使目标模型利用完整的视觉和文本信息来回答问题,而不受语言偏见的影响。
偏见模型预测结果依赖数据集中的语言偏见,因此将其预测结果结合真实答案合成伪标签,
(8)
其中,、、分别表示第个样本的伪标签、真实标签、偏见模型预测结果,表示sigmoid函数。
为了进一步去除目标模型中的语言偏见,引入边际损失来分离不同问题类型下不同答案的特征空间,从而减少语言偏见的影响。具体来说,在视觉和文本特征经过融合得到联合表征后,将分类过程表述为与权重向量之间的角度的余弦函数,然后为不同答案计算相应的边际:
(9)
(10)
其中,每个答案对应的边际是由特定问题类型下答案所占比例计算得到的。得到每个答案类别的边际值后,边际损失可以被表述为:
(11)
通过为每个样本添加对应的边际值,可以将不同答案类别划分的不同的特征空间,有效去除目标模型中的偏见。
作为本发明进一步的实施例,本发明对上述方法进行了实验验证,选取VQA-CPv2、VQA-CP v1、VQA v2三个数据集,包含了来自COCO图像数据集的图像以及与之相关的问题和答案。
为了对模型性能进行公平的评估,采用共识度量这一常用度量标准。对于每个问题-图像对,预测答案的准确性计算公式为:
(12)
其中,表示回答的人数,如果至少有三个被试者提供了这个答案,那么这个答案就被认为是100%正确的。
为了验证所提出的视觉问答去偏方法的性能,将UpDn和LXMERT作为基线模型,对比方法包括基于数据增强的去偏方法:SSL、CSS、CSST、MUTANT、MMBS,以及基于集成的去偏方法:LMH、LPF、CF-VQA、GenB、RMLVQA等。
表1对比了本发明提出基于对偶反事实的视觉问答去偏模型(MCD)与其他先进去偏方法在VQA-CP v2、VQA-CP v1的结果。MCD在两个基线模型UpDn和LXMERT上的效果获得显著提升,UpDn的总体准确率分别提升29.28%和21.64%,LXMERT的总体准确率分别提升20.67%和27.51%。同时,MCD方法准确率优于所有对比方法,对于Num和Other这种需要借助图像信息来回答的问题,MCD取得了最好的效果,说明MCD方法达到了很好的去偏效果。
表2展示了本发明提出的MCD在VQA V2数据集上的准确率。由于VQA V2训练集和测试集答案分布非常相似,依赖语言偏见的模型在这个数据集可以取得更好的准确率。因此,MCD在UpDn上时准确率展现出了4.25%的下降,当LXMERT模型最为基线时仍然取得了2.91%的提升。
表3展示了基于对偶反事实的视觉问答去偏模型消融实验的结果,Bias Model、V-Counterfactual、Q-Counterfactual、Dual-Counterfactual分别代表偏见模型、视觉反事实样本输入、问题反事实样本输入、两种反事实样本同时输入。由该表可以看出两种反事实样本都可以起到去偏效果,当两种反事实样本同时输入时可以更加全面的捕捉语言偏见。
对于本领域技术人员而言,显然本发明不限于上述示范性实施例的细节,而且在不背离本发明的精神或基本特征的情况下,能够以其他的具体形式实现本发明。因此,无论从哪一点来看,均应将实施例看作是示范性的,而且是非限制性的,本发明的范围由所附权利要求而不是上述说明限定,因此旨在将落在权利要求的等同要件的含义和范围内的所有变化囊括在本发明内。不应将权利要求中的任何附图标记视为限制所涉及的权利要求。
此外,应当理解,虽然本说明书按照实施方式加以描述,但并非每个实施方式仅包含一个独立的技术方案,说明书的这种叙述方式仅仅是为清楚起见,本领域技术人员应当将说明书作为一个整体,各实施例中的技术方案也可以经适当组合,形成本领域技术人员可以理解的其他实施方式。
Claims (1)
1.一种基于对偶反事实的视觉问答去偏方法,其特征在于,包括以下步骤:
(1)步骤一:反事实样本合成
假设第个VQA样本为,同时合成视觉反事实样本和问题反事实样本;
对于视觉反事实样本,首先使用spaCy提取问题关键词并使用GloVe词嵌入进行编码,计算其与用Faster R-CNN提取的图像中视觉目标特征的相似度得分,选取高分视觉目标作为候选关键目标;然后使用Grad-CAM梯度来衡量视觉目标对于正确答案的贡献;
对于问题反事实样本,利用Grad-CAM梯度对答案分类层进行追踪,计算除疑问词外每个对象单词对真实答案预测概率的贡献程度:
(1)
(2)
其中,表示第个样本对应的图像中第个视觉目标,表示第个样本对应的问题中第个单词,、分别表示由Grad-Cam( )计算梯度得到的重要性得分,分别保留重要性得分最高的Kv和Kq个视觉目标和单词,并且用均匀分布的随机噪声代替其原本的特征;
(2)步骤二:训练偏见模型
将两种反事实样本作为偏见模型的输入,即:
(3)
其中,表示偏见模型,, 分别表示输入视觉反事实样本和问题反事实样本后偏见模型预测的答案分布,两种反事实样本的有偏答案经过超参数∈(0,1)进行加权融合,得到从两种反事实角度建模的偏见答案分布为:
(4)
得到偏见答案后,使用传统交叉熵损失和KL散度(Kullback-Leibler Divergence)训练偏见模型,交叉熵损失函数如下所示:
(5)
利用KL散度作为损失函数,使偏见模型遵循目标模型的行为:
(6)
KL散度用于使偏见模型的输出与目标模型的答案分布更加接近,进而模拟目标模型可能存在的复杂偏见;
训练偏见模型的最终损失函数为:
(7)
(3)步骤三:训练目标模型
偏见模型预测结果依赖数据集中的语言偏见,将其预测结果结合真实答案合成伪标签,
(8)
其中,、、分别表示第个样本的伪标签、真实标签、偏见模型预测结果,表示sigmoid函数;
引入边际损失来分离不同问题类型下不同答案的特征空间,减少语言偏见的影响;在视觉和文本特征经过融合得到联合表征后,将分类过程表述为与权重向量之间的角度的余弦函数,然后为不同答案计算相应的边际:
(9)
(10)
其中,每个答案对应的边际是由特定问题类型下答案所占比例计算得到的,得到每个答案类别的边际值后,边际损失可以被表述为:
(11)
通过为每个样本添加对应的边际值,将不同答案类别划分的不同的特征空间,去除目标模型中的偏见。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202411730037.XA CN119202212B (zh) | 2024-11-29 | 2024-11-29 | 一种基于对偶反事实的视觉问答去偏方法 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202411730037.XA CN119202212B (zh) | 2024-11-29 | 2024-11-29 | 一种基于对偶反事实的视觉问答去偏方法 |
Publications (2)
Publication Number | Publication Date |
---|---|
CN119202212A CN119202212A (zh) | 2024-12-27 |
CN119202212B true CN119202212B (zh) | 2025-02-11 |
Family
ID=94061769
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN202411730037.XA Active CN119202212B (zh) | 2024-11-29 | 2024-11-29 | 一种基于对偶反事实的视觉问答去偏方法 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN119202212B (zh) |
Families Citing this family (1)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN119623652A (zh) * | 2025-02-17 | 2025-03-14 | 山东交通学院 | 一种基于生成对抗与样本优化的视觉问答方法及系统 |
Citations (2)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN115481277A (zh) * | 2022-09-23 | 2022-12-16 | 电子科技大学 | 一种基于对比学习与多模态对齐的视觉问答方法 |
CN118885586A (zh) * | 2024-07-10 | 2024-11-01 | 华中科技大学 | 基于知识蒸馏的语言模态去偏视觉问答方法 |
Family Cites Families (1)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
US20240095553A1 (en) * | 2022-09-19 | 2024-03-21 | Capital One Services, Llc | Systems and methods for evaluating counterfactual samples for explaining machine learning models |
-
2024
- 2024-11-29 CN CN202411730037.XA patent/CN119202212B/zh active Active
Patent Citations (2)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN115481277A (zh) * | 2022-09-23 | 2022-12-16 | 电子科技大学 | 一种基于对比学习与多模态对齐的视觉问答方法 |
CN118885586A (zh) * | 2024-07-10 | 2024-11-01 | 华中科技大学 | 基于知识蒸馏的语言模态去偏视觉问答方法 |
Also Published As
Publication number | Publication date |
---|---|
CN119202212A (zh) | 2024-12-27 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
CN111709409B (zh) | 人脸活体检测方法、装置、设备及介质 | |
Dehghan et al. | Who do i look like? determining parent-offspring resemblance via gated autoencoders | |
Li et al. | Image manipulation localization using attentional cross-domain CNN features | |
CN119202212B (zh) | 一种基于对偶反事实的视觉问答去偏方法 | |
CN115050064A (zh) | 人脸活体检测方法、装置、设备及介质 | |
CN112150450A (zh) | 一种基于双通道U-Net模型的图像篡改检测方法及装置 | |
Xie et al. | Multiple objects-aware visual question generation | |
CN113592765A (zh) | 图像处理方法、装置、设备及存储介质 | |
CN112925935B (zh) | 基于模态内及模态间混合融合的图像菜谱检索方法 | |
CN116010578A (zh) | 一种基于弱监督双流视觉语言交互的答案定位方法及装置 | |
CN116310975B (zh) | 一种基于一致片段选择的视听事件定位方法 | |
CN111488460A (zh) | 数据处理方法、装置和计算机可读存储介质 | |
CN115457425B (zh) | 一种用于实验操作规范评价的视频动态抽帧方法 | |
CN118779834B (zh) | 一种农作物病害视觉问答方法、系统、计算机设备及介质 | |
CN111259264A (zh) | 一种基于生成对抗网络的时序评分预测方法 | |
CN113449047A (zh) | 知识图谱补全方法与装置 | |
CN117058398B (zh) | 一种基于中心点的三维目标检测方法、系统、储存介质 | |
CN115270943B (zh) | 一种基于注意力机制的知识标签提取模型 | |
CN112288145A (zh) | 基于多视角认知诊断的学生成绩预测方法 | |
CN110211146B (zh) | 视交叉仿真的视频前景分割方法及装置 | |
CN113283394A (zh) | 一种融合上下文信息的行人重识别方法及系统 | |
Sun et al. | Visual realism assessment for face-swap videos | |
Lu et al. | MT-DSNet: Mix-mask teacher–student strategies and dual dynamic selection plug-in module for fine-grained image recognition | |
CN117876750B (zh) | 一种基于神经元覆盖的深度学习目标检测对抗样本生成方法 | |
CN118942162B (zh) | 基于前景语义增强的双路多标记时空动作检测方法 |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination | ||
GR01 | Patent grant | ||
GR01 | Patent grant |