CN118898240B

CN118898240B - 一种视觉问答处理方法

Info

Publication number: CN118898240B
Application number: CN202411402437.8A
Authority: CN
Inventors: 胡跃; 屠静; 王亚
Original assignee: Zhuoshi Zhixing Qingtian Metaverse Technology Co ltd
Current assignee: Zhuoshi Zhixing Qingtian Metaverse Technology Co ltd
Priority date: 2024-10-09
Filing date: 2024-10-09
Publication date: 2025-03-11
Anticipated expiration: 2044-10-09
Also published as: CN118898240A

Abstract

本发明提供一种视觉问答处理方法，涉及人工智能技术领域。该方法包括：获取问题文本以及所述问题文本关联的问题图像数据；对问题文本进行意图识别处理，得到问题文本对应的意图类型；针对每张问题图像，利用意图类型以及问题文本，从问题图像中提取目标信息；对每张问题图像进行文本识别处理，得到问题图像对应的图像文本；融合所述目标信息以及所述图像文本，生成所述问题文本对应的答复文本。本发明中提取的图像文本可为理解问题文本提供更多细节，提取的目标信息可在后续推理中聚焦问题文本相关的信息，避免无关信息的干扰，进而可降低模型幻觉，提升视觉问答的准确性。

Description

一种视觉问答处理方法

技术领域

本发明涉及人工智能技术领域，具体涉及一种视觉问答处理方法。

背景技术

视觉语言模型（Visual Language Model，VLM）也被称为多模态大模型，能够理解视觉图像和文本内容，实现视觉信息和语言信息的融合，可完成例如图像描述生成、视觉问答等图像理解任务。

然而，在视觉问答任务中，VLM存在很明显的视觉缺陷，例如无法数清楚图像中的物体数量、文字识别不准确等，同时视觉语言模型还存在较为严重的幻觉问题，容易生成一些错误的内容，导致视觉问答的准确度较低。

发明内容

针对上述问题，本发明的目的在于提供一种视觉问答处理方法，以提升视觉问答的准确性。

为解决上述技术问题，本发明提供如下技术方案：

一方面，本发明实施例提供一种视觉问答处理方法，该方法包括：

获取问题文本以及所述问题文本关联的问题图像数据，所述问题图像数据中包括至少一张问题图像；

对所述问题文本进行意图识别处理，得到所述问题文本对应的意图类型；

针对每张所述问题图像，利用所述意图类型以及所述问题文本，从所述问题图像中提取目标信息；

对每张所述问题图像进行文本识别处理，得到所述问题图像对应的图像文本；

融合所述目标信息以及所述图像文本，生成所述问题文本对应的答复文本。

可选地，所述获取问题文本以及所述问题文本关联的问题图像数据，包括：

获取问题文本以及与所述问题文本关联的原始图像数据，所述原始图像数据中包括至少一张原始图像；

若所述原始图像数据中仅包含一张原始图像，将所述原始图像数据确定为问题图像数据；

若所述原始图像数据包含多张原始图像，从所述多张原始图像中筛选出问题图像；

以所有所述问题图像，生成所述问题图像数据。

可选地，所述从所述多张原始图像中筛选出问题图像，包括：

对所述多张原始图像进行采样处理，得到待处理图像；

针对每张所述待处理图像，将所述待处理图像的前一张图像作为所述待处理图像的指定图像；

融合所述待处理图像和所述指定图像计算所述待处理图像的重要性得分；

基于每张所述待处理图像的重要性得分，从所述多张原始图像中筛选出问题图像。

可选地，所述融合所述待处理图像和所述指定图像计算所述待处理图像的重要性得分，包括：

计算所述待处理图像与所述指定图像之间的变化程度参数；

利用所述待处理图像的图像特征，计算待处理图像的图像特征参数；

利用所述待处理图像的运动特征，计算待处理图像的运动特征参数；

对所述待处理图像的变化程度参数、图像特征参数以及所述运动特征参数进行加权计算，得到所述待处理图像的重要性参数。

可选地，所述对所述问题文本进行意图识别处理，得到所述问题文本对应的意图类型，包括：

获取第一提示词模板，所述第一提示词模板中包括第一问题槽位、多个意图识别示例以及意图类型对应的意图识别规则；

将所述问题文本填充至所述第一问题槽位中，生成意图提示词；

将所述意图提示词输入意图识别模型中，以便所述意图识别模型基于所述多个意图识别示例理解所述意图识别规则，并利用所述意图识别规则推理出所述问题文本对应的意图类型。

可选地，所述意图类型包括细节类型和整体类型，所述针对每张所述问题图像，利用所述意图类型以及所述问题文本，从所述问题图像中提取目标信息，包括：

针对每张所述问题图像，若所述意图类型为细节类型，对所述问题文本进行实体抽取处理，得到实体抽取结果；

若所述实体抽取结果中不包含问题实体，将所述问题图像作为目标信息；

若所述实体抽取结果中包含问题实体，在所述问题图像中检测所述问题实体对应的实体对象，得到检测结果；

利用所述检测结果，从所述问题图像中提取目标信息；

若所述意图类型为整体类型，将所述问题图像作为目标信息。

可选地，所述对所述问题文本进行实体抽取处理，得到实体抽取结果，包括：

获取第二提示词模板，所述第二提示词模板中包括第二问题槽位、抽取规则、抽取示例以及输出格式；

将所述问题文本填充至所述第二问题槽位中，得到抽取提示词；

将所述抽取提示词输入至实体抽取模型中，以便所述实体抽取模型基于所述抽取示例理解所述抽取规则，并基于所述抽取规则从所述问题文本中抽取问题实体；

按照所述输出格式组织所述问题实体，得到实体抽取结果。

可选地，所述利用所述检测结果，从所述问题图像中提取目标信息，包括：

若所述检测结果为空，将所述问题图像和指定语句作为目标信息；

若所述检测结果不为空，基于预设置信度和所述检测结果中每个实体对象的置信度，对所述检测结果进行过滤处理，得到目标检测结果；

若所述目标检测结果为空，将所述问题图像和指定语句作为目标信息；

若所述目标检测结果不为空，以所述目标检测结果中的每个实体对象的位置信息以及类别信息，从所述问题图像中提取目标信息。

可选地，所述以所述目标检测结果中的每个实体对象的位置信息以及类别信息，从所述问题图像中提取目标信息，包括：

利用每个实体对象的位置信息，计算裁剪区域的位置信息；

利用所述裁剪区域的位置信息，从所述问题图像中裁剪出所述裁剪区域；

按照类别信息，对所述实体对象的数量进行统计，得到对象统计信息；

将所述对象统计信息和所述裁剪区域作为所述目标信息。

可选地，所述融合所述目标信息以及所述图像文本，生成所述问题文本对应的答复文本，包括：

获取视觉提示词模板，所述视觉提示词模板包括第三问题槽位、目标槽位以及文本槽位；

将所述目标信息填充至所述目标槽位，将所述问题文本填充至所述第三问题槽位，将所述图像文本填充至所述文本槽位，得到视觉提示词；

将所述视觉提示词输入视觉语言模型中，以便所述视觉语言模型在所述目标信息和图像文本的基础上，生成所述问题文本对应的答复文本。

另一方面，本发明实施例还提供一种视觉问答处理装置，该装置包括：

获取模块，用于获取问题文本以及所述问题文本关联的问题图像数据，所述问题图像数据中包括至少一张问题图像；

意图模块，用于对所述问题文本进行意图识别处理，得到所述问题文本对应的意图类型；

提取模块，用于针对每张所述问题图像，利用所述意图类型以及所述问题文本，从所述问题图像中提取目标信息；

识别模块，用于对每张所述问题图像进行文本识别处理，得到所述问题图像对应的图像文本；

答复模块，用于融合所述目标信息以及所述图像文本，生成所述问题文本对应的答复文本。

另一方面，本发明实施例还提供一种电子设备，包括处理器和存储器，所述存储器存储有多条指令；所述处理器从所述存储器中加载指令，以执行本发明实施例所提供的任一种视觉问答处理方法中的步骤。

另一方面，本发明实施例还提供一种计算机可读存储介质，所述计算机可读存储介质存储有多条指令，所述指令适于处理器进行加载，以执行本发明实施例所提供的任一种视觉问答处理方法中的步骤。

另一方面，本发明实施例还提供一种计算机程序产品，包括计算机程序/指令，所述计算机程序/指令被处理器执行时实现本发明实施例所提供的任一种视觉问答处理方法中的步骤。

本发明提供的技术方案带来的有益效果至少包括：

本发明实施例可以获取问题文本以及问题文本关联的问题图像数据，对问题文本进行意图识别处理以得到问题文本对应的意图类型；针对每张问题图像，利用意图类型和问题文本，从问题图像中提取目标信息；对每张问题图像进行文本识别处理，以得到问题图像对应的图像文本；融合目标信息和问题文本，生成问题文本对应的答复文本。提取的图像文本可为理解问题文本提供更多细节，提取的目标信息可在后续推理中聚焦问题文本相关的信息，避免无关信息的干扰，进而可降低模型幻觉，提升视觉问答的准确性。

附图说明

为了更清楚地说明本发明实施例中的技术方案，下面将对实施例描述中所需要使用的附图作简单地介绍，显而易见地，下面描述中的附图仅仅是本发明的一些实施例，对于本领域技术人员来讲，在不付出创造性劳动的前提下，还可以根据这些附图获得其他的附图。

图1是本发明实施例提供的视觉问答处理方法的应用场景示意图；

图2是本发明实施例提供的视觉问答处理方法的流程示意图；

图3是本发明实施例提供的提取目标信息的流程示意图；

图4是本发明实施例提供的计算裁剪区域的位置信息的示意图；

图5是本发明实施例提供的视觉问答处理方法的整体架构示意图；

图6是本发明实施例提供的视觉问答处理装置的结构示意图；

图7是本发明实施例提供的电子设备的结构示意图。

具体实施方式

下面将结合本发明实施例中的附图，对本发明实施例中的技术方案进行清楚、完整地描述，显然，所描述的实施例仅仅是本发明一部分实施例，而不是全部的实施例。基于本发明中的实施例，本领域技术人员在没有作出创造性劳动前提下所获得的所有其他实施例，都属于本发明保护的范围。

可以理解的是，在本发明的具体实施方式中，涉及到用户信息等相关的数据，需要获得用户许可或者同意，且相关数据的收集、使用和处理需要遵守相关国家和地区的相关法律法规和标准。

本发明实施例提供了一种视觉问答处理方法，可参阅图1，示出了视觉问答处理方法的应用场景示意图。其中，该应用场景可以包括终端101和服务器102，终端101和服务器102之间可通过网络进行数据交换，终端101上可安装有和问答相关的应用程序，该应用程序可被称为智能体。其中，终端101可以是手机、平板电脑、智能蓝牙设备、电脑、大屏等设备、机器人等；服务器102可以是单一服务器，也可以是多个服务器组成的服务器集群。

用户可通过终端101将问题文本和问题图像数据发送至服务器102，从而，服务器102可获取到问题文本和问题图像数据；然后服务器102可对问题文本进行意图识别处理，得到问题文本对应的意图类型；针对每张问题图像，可利用意图类型和问题文本，从问题图像中提取目标信息；对每张问题图像进行文本识别处理，得到问题图像对应的图像文本；融合目标信息以及图像文本，生成问题文本对应的答复文本。然后服务器102可将答复文本发送至终端101，以便终端101将答复文本展示给用户。

在本实施例中，提供了一种视觉问答处理方法，如图2所示，该视觉问答处理方法的具体流程可以如下：

S110、获取问题文本以及所述问题文本关联的问题图像数据。

问题文本是需要进行解答的疑问的文本形式的数据，问题图像数据是解答该疑问所需要使用的图像形式的数据。问题图像数据中可包含至少一张问题图像，问题图像则是指后续在解答疑问会使用的图像。问题文本可以通过语音或文本的形式输入，若问题文本输入时为语音形式，则需要通过语音识别技术（Automatic Speech Recognition，ASR）将语音转换为文本以得到问题文本。问题图像数据可以是图像形式或视频形式等，在此不做具体限定。

问题文本和问题图像数据可以是由用户输入的，其中，用户和智能体可进行多轮对话，该问题文本和问题图像数据可以是在同一轮对话中输入的，也可以是在不同轮次的对话中输入的，具体可根据实际的需要进行设置。

作为一种实施方式，在获取问题文本和问题图像数据时，可以是获取问题文本以及与所述问题文本关联的原始图像数据，所述原始图像数据中包括至少一张原始图像；若所述原始图像数据中仅包含一张原始图像，将所述原始图像数据确定为问题图像数据；若所述原始图像数据包含多张原始图像，从所述原始图像数据中筛选出问题图像；以所有所述问题图像，生成所述问题图像数据。

用户输入至智能体中的图像数据可称为原始图像数据，若原始图像数据中仅包含一张原始图像，可直接将该原始图像数据作为问题图像数据。原始图像数据包含多张原始图像时，例如为视频数据时，为了避免数据冗余增加额外的数据处理量，可以从原始图像数据中筛选出部分图像作为问题图像数据。

其中，多张原始图像可能是视频数据，也可以是先后输入的原始图像，不论何种情况，多张原始图像在时间维度上均具有一定的顺序，可视为视频数据，下面以视频数据为例进行详细说明。可选地，在从多张原始图像中筛选问题图像时，可以是对所述多张原始图像进行采样处理，得到待处理图像；针对每张所述待处理图像，将所述待处理图像的前一张图像作为所述待处理图像的指定图像；融合所述待处理图像和所述指定图像计算所述待处理图像的重要性得分；基于每张所述待处理图像的重要性得分，从所述多张原始图像中筛选出问题图像。

对多张原始图像进行采样处理，可以减少原始图像的数量，以视频数据为例，可按照固定的帧间隔进行采样，例如，以2帧或4帧为间隔，以得到待处理图像。针对每张待处理图像，均可以利用待处理图像和指定图像，计算出待处理图像的重要性得分。其中，指定图像是待处理图像的前一张图像，例如，原来有10帧原始图像，采样后剩下第1、3、5、7、9帧原始图像，此时第3帧待处理图像的指定图像为第1帧；第5帧待处理图像的指定图像为第3帧图像。

其中，为了全面准确地预估待处理图像的重要性，可基于待处理图像在多个维度上的参数综合确定。可选地，可以是计算所述待处理图像与所述指定图像之间的变化程度参数；利用所述待处理图像的图像特征，计算待处理图像的图像特征参数；利用所述待处理图像的运动特征，计算待处理图像的运动特征参数；对所述待处理图像的变化程度参数、图像特征参数以及所述运动特征参数进行加权计算，得到所述待处理图像的重要性参数。

指定图像是待处理图像的前一张图像，在视频中，两帧图像之间的场景可能会发生变化，比较这两张图像之间的差异，在差异显著的情况下，可认为场景发生了变化。可选地，可以使用OpenCV中的absdiff函数来计算两张图像之间的差异，得到差异图像；遍历差异图像的每个像素，将其值累加起来，得到总数；以总数除以差异图像中的像素总数，得到变化程度参数。该变化程度参数反映了两张图像之间整体差异的程度，变化程度参数的值越大，差异越大。

视频数据中的每张待处理图像，可使用预先训练好的图像分类模型提取每张待处理图像的特征向量，将特征向量进行绝对值操作再求和，可得到一个标量值，该标量值即为图像特征参数。其中，该图像特征参数的值越大，表明图像中包含的信息量越丰富。

光流算法可用于分析图像序列中的像素或特征点随时间的运动模式来估计运动场，以此计算出待处理图像的运动特征，并计算出运动得分来量化每张图像的运动程度。

首先，可将每张待处理图像转换成灰度图，以降低颜色带来的干扰，然后可使用OpenCV中的calcOpticalFlowFarneback算法分别计算当前待处理图像和其对应的指定图像之间的稠密光流矩阵，再计算光流向量的幅度并取平均值，得到待处理图像的运动特征参数。其中，运动特征参数越大，表明两张图像之间的像素点或特征点发生了较为显著的位置变化，包含了更多的动态信息。

可为每个维度预先设置对应的权重，结合变化程度参数、图像特征参数以及运动特征参数，再进行加权求和处理以得到待处理图像的重要性参数。例如，变化程度参数为x，其对应的权重为a；图像特征参数为y，其对应的权重为b；运动特征参数为z，其对应的权重为c，则重要性参数可表示为ax+by+cz，重要性参数的值越大，该待处理图像越重要。

然后将重要性参数按照从大到小的顺序排序，并取Top N个重要性参数，再将该Top N个得重要性参数对应的待处理图像作为问题图像即可，以得到问题图像数据。其中，N为正整数，可以根据实际需要进行设置，在此不做具体限定，并且，问题图像数据中，问题图像仍按照时间顺序排列。

S120、对所述问题文本进行意图识别处理，得到所述问题文本对应的意图类型。

意图识别可用于确定问题文本所表达的意图或目的，该意图识别处理可被视为一个分类任务，可预定义至少两个意图类型，将问题文本划分至对应的意图类型中来识别该问题文本的具体意图。

作为一种实施方式，可预先训练有意图识别模型，并预先定义好意图类型，将问题文本直接输入意图识别模型中，将意图识别模型输出的意图类型作为问题文本的意图。

作为另一种实施方式，可利用大语言模型进行意图识别处理。例如，可以是获取第一提示词模板，所述第一提示词模板中包括第一问题槽位、多个意图识别示例以及意图类型对应的意图识别规则；将所述问题文本填充至所述第一问题槽位中，生成意图提示词；将所述意图提示词输入意图识别模型中，以便所述意图识别模型基于所述多个意图识别示例理解所述意图识别规则，并利用所述意图识别规则推理出所述问题文本对应的意图类型。

第一提示词模板是预先设置的在意图识别中会使用到的提示词的模板，该第一提示词模板中可以包括第一问题槽位、多个意图识别示例以及意图类型对应的意图识别规则。

其中，第一问题槽位中可用于填充需要进行意图识别的文本，意图识别示例是为大语言模型提供的意图识别的样本，以便大语言模型通过观察这些样本，学会执行更加复杂的意图识别任务，该意图识别示例可以包括问题以及对应的意图类型。意图类型可以是预先设置的，且不同的意图类型可对应不同的意图识别规则，该意图识别规则可让大语言模型理解具体的识别方式，以便对问题槽位中的文本进行意图识别，确定出文本的意图。

其中，第一提示词模板如下所示：

“你是一个智能助手，专门用于判断用户在视觉问答场景中的问题意图。你的任务是分析用户的问题，并确定是否需要使用目标检测工具来裁剪出特定对象区域的子图。

请仔细分析用户的问题，并将其归类为以下两种意图之一：

1. 需要目标检测：如果问题涉及特定物体、人物或区域的细节，需要对图像进行裁剪以获得更精确的回答。

2. 不需要目标检测：如果问题是关于整体场景、通用问题，或不需要特别关注图像中的某个特定部分。

在回答时，请直接给出你的判断（"需要目标检测"或"不需要目标检测"）

用户问题：图片中的狗是什么品种？

回答：需要目标检测。

用户问题：图片中的人在红色汽车的旁边吗？

回答：需要目标检测。

用户问题：这个场景是室内还是室外？

回答：不需要目标检测。

用户问题：输出图片里面的文字？

回答：不需要目标检测。

</example>

用户问题：{{ query }}

回答：

”

为了确定出问题文本的意图，可将问题文本填充至第一问题槽位中，以生成意图提示词。也即，将问题文本填充至前述的第一提示词模板中的“{{query}}”中，即可得到意图提示词。

然后，可将意图提示词输入至意图识别模型中，以确定出问题文本对应的意图类型。其中，意图识别模型为大语言模型，将意图提示词输入至意图识别模型后，意图识别模型可基于意图识别提示词中的意图识别示例理解意图识别规则，并利用该意图识别规则推理出问题文本对应的识别结果。

前述第一提示词模板中，意图识别模型得到的识别结果为需要目标检测或不需要目标检测。若识别结果为需要目标检测，可确定问题文本的意图类型为细节类型；若识别结果为不需要目标检测，可确定问题文本的意图类型为整体类型。通过意图识别可准确的确定问题文本对应的意图类型，以便后续针对不同的意图类型进行不同的处理，可自适应不同的问题文本。

S130、针对每张所述问题图像，利用所述意图类型以及所述问题文本，从所述问题图像中提取目标信息。

其中，目标信息是指问题图像中，用于回答该问题文本的关键信息，为了提升处理效率并提升问答的准确性，可利用意图类型和问题文本从问题图像中提取目标信息，提取出的目标信息可使得后续在理解问题文本时，更加聚焦于关键信息，避免无关信息的干扰，从而提升推理的准确性。可参阅图3，示出了提取目标信息的流程示意图，下面将结合图3进行详细说明。

在一些实施方式中，从问题图像数据中提取目标信息时，可以是针对每张所述问题图像，若所述意图类型为细节类型，对所述问题文本进行实体抽取处理，得到实体抽取结果；若所述实体抽取结果中不包含问题实体，将所述问题图像作为目标信息；若所述实体抽取结果中包含问题实体，在所述问题图像中检测所述问题实体对应的实体对象，得到检测结果；利用所述检测结果，从所述问题图像中提取目标信息；若所述意图类型为整体类型，将所述问题图像作为目标信息。

若意图类型为细节类型，表明答复该问题文本时，需要关注问题文本中的实体。在对问题文本进行实体抽取处理时，可以是获取第二提示词模板，所述第二提示词模板中包括第二问题槽位、抽取规则、抽取示例以及输出格式；将所述问题文本填充至所述第二问题槽位中，得到抽取提示词；将所述抽取提示词输入至实体抽取模型中，以便所述实体抽取模型基于所述抽取示例理解所述抽取规则，并基于所述抽取规则从所述问题文本中抽取问题实体；按照所述输出格式组织所述问题实体，得到实体抽取结果。

第二提示词模板是预先设置的在实体抽取中会使用到的提示词的模板，该第二提示词模板中可以包括第二问题槽位、抽取规则、抽取示例以及输出格式。

其中，第二问题槽位中可用于填充需要进行实体抽取的文本，抽取示例是为大语言模型提供的样本，以便大语言模型通过观察这些样本，学会执行更加复杂的实体抽取任务，该抽取示例中可以包括待抽取的文本以及对应的实体抽取结果。抽取规则是指进行实体抽取时所要遵循的规则，例如，仅抽取名词性的实体等。输出格式为预先设置的组织抽取结果的格式，统一的输出格式可简化后续对抽取结果的处理流程，提升处理效率。

其中，第二提示词模板如下所示：

“你是一个专业的信息抽取助手。你的任务是从用户的问题中提取出关键实体或对象，这些实体或对象可能与图片中的内容相关。请仔细分析用户的问题，并以JSON格式输出结果。

输出格式要求：

```json

{

"entities": ["entities1", " entities2", ...]

}

注意事项：

1. 只提取名词性的实体或对象，不包括形容词、动词等。

2. 如果问题中包含多个相关实体或对象，请全部列出。

3. 如果问题中没有明确的实体或对象，请输出"无明确实体或对象"。

4. 保持提取的实体或对象的原始形式，用英文输出，不要进行解释或扩展。

5. 确保输出的JSON格式正确，可以被直接解析。

用户问题：图片中的狗是什么品种？

输出：

```json

{

"entities": ["dog"]

}

用户问题：桌子上有几本书和一个苹果吗？

输出：

```json

{

"entities": ["table", "book", "apple"]

}

用户问题：描述一下这张照片

输出：

```json

{

"entities": []

}

用户问题：{{ query }}

输出：

”

为了从问题文本中抽取出问题实体，可将问题文本填充至第二问题模板中，以生成抽取提示词。也即，将问题文本填充至第二提示词模板中的{{ query }}中，即可得到抽取提示词。

然后，可将抽取提示词输入至实体抽取模型中，以从问题文本中抽取出问题实体。其中，实体抽取模型为大语言模型，将抽取提示词输入至实体抽取模型中后，实体抽取模型可基于抽取提示词中的抽取示例理解抽取规则，并利用该抽取规则从问题文本中抽取出问题实体。

再将抽取出的问题实体按照输出格式进行组织，即可得到实体抽取结果。基于前述第二提示词模板中的抽取规则可知，在问题文本中没有明确的实体或对象时，实体抽取结果为一预设语句。在获取到实体抽取结果后，可通过检测实体抽取结果中的预设语句，来判定实体抽取结果中是否包含有问题实体。例如，前述第二提示词中，预设语句为“无明确实体或对象”，可在实体抽取结果中检测“无明确实体或对象”这个预设语句；若在实体抽取结果中检测到预设语句，判定实体抽取结果中不包含问题实体；若未在实体抽取结果中检测到预设语句，判定实体抽取结果中不包含问题实体。

若实体抽取结果中不包含问题实体，可以直接将问题图像作为目标信息使用。若实体抽取结果中包含问题实体，可以在问题图像中检测问题实体对应的实体对象，得到检测结果。

作为一种实施方式，在问题图像中检测问题实体对应的实体对象，得到检测结果时，可以是将实体抽取结果作为检测提示词；针对每张问题图像数据，将问题图像数据和检测提示词一并输入至检测模型中，得到检测结果。该检测结果可以包括实体对象的检测框序列、置信度序列以及类别序列。

其中，检测框序列是指检测到各个实体对象的位置信息，并按照实体抽取结果的顺序排列所得到的序列。一个位置信息可包含4个值，可记为[x1,y1,x2,y2]，（x1，y1）表示检测框在问题图像数据中的左上角坐标，（x2，y2）表示检测框在问题图像数据中的右下角坐标。

置信度序列是指对应的实体对象的可信度或准确度所组成的序列；类别序列是指检测出的实体对象所对应的类别，例如，书、苹果等。

例如，实体抽取结果为["table", "book", "apple"]，得到的检测结果可以是检测框序列boxes=[[0.8521, 0.5847, 0.1285, 0.1697], [0.5988, 0.4731, 0.9261,0.4761], [0.3398, 0.6043, 0.1304, 0.1807], [0.7347, 0.6629, 0.0943, 0.0458]]。置信度序列Confidences= [0.8231, 0.8778, 0.6979, 0.5847]。类别序列Labels = ["table", "book", "apple", "apple"]。

需要说明的是，若在问题图像数据中检测到实体对象，检测模型可输出上述举例中的检测结果；若未在问题图像中检测到实体对象，检测模型输出的检测结果为空。

针对每张问题图像数据，可以利用检测模型输出的检测结果，从问题图像数据中提取目标信息。例如，可以是若所述检测结果为空，将所述问题图像和指定语句作为目标信息；若所述检测结果不为空，基于预设置信度和所述检测结果中每个实体对象的置信度，对所述检测结果进行过滤处理，得到目标检测结果；若所述目标检测结果为空，将所述问题图像和指定语句作为目标信息；若所述目标检测结果不为空，以所述目标检测结果中的每个实体对象的位置信息以及类别信息，从所述问题图像中提取目标信息。

若检测结果为空，可将问题图像和指定语句作为目标信息使用，其中，指定语句为预先设置的语句，可以是“图像中不包含目标检测结果”。

若检测结果不为空，可对检测结果进行过滤处理，以得到目标检测结果。基于前述的描述可知，检测结果中可包括检测到实体对象的位置信息、置信度以及类别信息，为了确保检测结果的准确性，在一些实施方式中，可基于预设置信度对检测结果进行过滤处理。其中，预设置信度可根据实际的需要进行设置，在本发明实施例中，可将其设置为一个较高的数值，例如0.8、0.6等。将检测结果中，小于预设置信度的实体对象的数据删除，以得到目标检测结果。

例如，前述举例的检测结果中，若预设置信度为0.8，则得到的目标检测结果为检测框序列boxes=[[0.8521, 0.5847, 0.1285, 0.1697], [0.5988, 0.4731, 0.9261,0.4761]]。置信度序列Confidences= [0.8231, 0.8778]。类别序列Labels = ["table", "book"]。

在过滤检测结果后，可能出现目标检测结果为空的情况，若目标检测结果为空，可直接将整个问题图像和指定语句作为目标信息。若目标检测结果不为空，可利用目标检测结果中每个实体对象的位置信息和类别信息，从问题图像中提取目标信息。

作为一种实施方式，利用实体对象的位置信息以及类别信息，从问题图像中提取目标信息时，可以是利用每个实体对象的位置信息，计算裁剪区域的位置信息；利用所述裁剪区域的位置信息，从所述问题图像中裁剪出所述裁剪区域；按照类别信息，对所述实体对象的数量进行统计，得到对象统计信息；将所述对象统计信息和所述裁剪区域作为所述目标信息。

裁剪区域是问题图像中包含了所有实体对象的检测框的最小区域，每个实体对象的位置信息均包含检测框的左上角坐标和右下角坐标，每个坐标均包含在指定坐标系中第一坐标轴和第二坐标轴上的值。在计算裁剪区域的位置信息时，可以是获取所有实体对象的位置信息在第一坐标轴上的最小值和最大值，作为第一最小值和第一最大值；获取所有实体对象的位置信息，在第二坐标轴上的最小值和最大值，作为第二最小值和第二最大值；将第一最小值和第二最大值最为第一坐标，将第一最大值和第二最小值作为第二坐标，得到裁剪区域的位置信息。

其中，第一坐标轴可以是x轴，第二坐标轴可以y轴，例如，可参阅图4，示出了计算裁剪区域的位置信息的示意图。其中，灰色区域则为各个实体对象的检测框，粗实线框的区域为整个问题图像，在x轴方向上，最小值为x1，最大值x4；在y轴方向上，最小值为y6，最大值为y3，则裁剪区域的第一坐标为（x1，y3），第二坐标为（x4，y6），其中，第一坐标为裁剪区域的左上角坐标，第二坐标为裁剪区域的右下角坐标。虚线框的区域则为裁剪区域。

基于裁剪区域的位置信息，可对问题图像进行裁剪，以得到裁剪区域。通过裁剪问题图像得到裁剪区域，使得裁剪区域的内容是和问题文本相关的，后续在进行答复推理时，可仅包含裁剪区域中的内容，避免其他图像区域的影响，这在理解高分辨率图像时尤为有用。按照每个实体对象的类别信息，可以对实体对象的数量进行统计，得到对象统计信息，例如，类别序列为Labels = ["table", "book", "apple", "apple"]，对象统计信息则为2apples，1table，1book，该对象统计信息可提升在计数统计类问题中答复的准确性。然后可将对象统计信息和裁剪区域作为目标信息使用。

S140、对每张所述问题图像进行文本识别处理，得到所述问题图像对应的图像文本。

问题图像数据中通常可包括多张问题图像，而问题图像中可以包括文本、人物、物体、场景中的至少一个。针对问题图像数据中每张问题图像，可以对问题图像进行文本识别处理，以从问题图像中提取出图像文本。

作为一种实施方式，可以使用文本识别模型对每张问题图像进行识别，，以提取出每张问题图像中的文本，作为该问题图像对应的图像文本，其中，文本识别模型可以是光学字符识别（Optical Character Recognition，OCR）模型。该步骤对于需要理解图像中文字的任务，例如读取菜单、报告或公告板上的内容时，OCR提取的文字可直接供视觉语言模型分析，降低模型幻觉，并且后续分析将图像和提取出的文字结合，可更好地理解图像中的场景，提升视觉问答的准确性。

S150、融合所述目标信息以及所述图像文本，生成所述问题文本对应的答复文本。

前述针对每个问题图像，均会得到对应的目标信息和图像文本，融合所有目标信息和图像文本，可生成问题文本对应的答复文本。

可选地，可以是获取视觉提示词模板，所述视觉提示词模板包括第三问题槽位、目标槽位以及文本槽位；将所述目标信息填充至所述目标槽位，将所述问题文本填充至所述第三问题槽位，将所述图像文本填充至所述文本槽位，得到视觉提示词；将所述视觉提示词输入视觉语言模型中，以便所述视觉语言模型在所述目标信息和图像文本的基础上，生成所述问题文本对应的答复文本。

其中，视觉提示词模板是预先设置的生成问题文本对应的答复文本时，会使用到的提示词的模板。第三问题槽位中可以用于填充问题文本，目标槽位中可用于填充提取的目标信息，文本槽位中可用于填充图像文本。

根据前述内容可知，前述的问题图像数据中可能包含一张问题图像，也可能包含多张问题图像，其提取的目标信息也有有所不同。视觉提示词模板可根据不同的情况设置有多个，或者仅设置一个通用模板对特殊情况进行说明。下面将对视觉提示词模板进行详细说明。

如前所述，前述的问题图像数据中包含至少一张问题图像，则问题图像肯能是多张也可能是单张。并且，目标信息在不同的情况下所包含的内容不同，若，下面将结合提示词模板和具体的情况进行详细说明。

情况1：在问题图像数据中仅包含一张问题图像，且意图类型为整体类型的情况下，目标视觉提示词模板可以如下：

prompt_vlm = """

<image>

图片中包含文本信息如下：

{ocr_text}

问题：

{query}

"""

其中，<image>为目标槽位，可将目标信息中的问题图像填入；{ocr_text}为文本槽位，可将图像文本填入，若图像文本为空，则此处填入的也是空。

若问题图像数据中仅包含一张问题图像，且该问题图像对应的目标信息为问题图像和指定语句。可将目标信息中的问题图像填入<image>，并将该指定语句加入视觉提示词模板中。

情况2：在问题图像数据中仅包含一张问题图像且意图类型为细节类型时，视觉提示词模板可以如下：

prompt_vlm = """

<image>

图片中包含以下文本信息中的部分文字：

{ocr_text}

额外的目标检测信息：

{labels_info}

问题:

{query}

"""

其中，<image>中可填入目标信息中的裁剪区域；{ocr_text}可填入图像文本；{labels_info}中可填入目标信息中的对象统计信息；{query}中可填入问题文本。

情况3：在问题图像数据中包含多张问题图像，且意图类型为整体类型时，视觉提示词模板可以如下：

prompt_vlm = """

…

第1-3帧图像中包含文本信息如下：

{ocr_text1}

第N帧图像中包含文本信息如下：

{ocr_textN}

问题:

{query}

"""

其中，<image1>至<imageN>中可依序填入多张问题图像；{ocr_text1}和{ocr_textN}中可填入对应问题图像中提取出的图像文本；{ query }中可填入问题文本。

情况4：在问题图像数据中包含多张问题图像，且意图类型为细节类型时，视觉提示词模板可以如下：

prompt_vlm = """

<sub_image1>

< sub_image2>

…

< sub_imageN>

第1-3帧图像中包含部分文本信息如下：

{ocr_text1}

第N帧中包含文本信息如下：

{ocr_textN}

<额外的目标检测信息>

第1帧图像中：

{labels_info1}

第N帧图像中：

{labels_infoN}

问题:

{query}

"""

其中，<sub_image1>至<sub_imageN>中可依序填入对应问题图像的裁剪区域；{ocr_text1}和{ocr_textN}中可填入对应问题图像中提取出的图像文本；{labels_info1}和{labels_infoN}中可填入对应问题图像的对象统计信息；{ query }中可填入问题文本。

根据不同的情况，可将对应的内容填入视觉提示词模板中，以生成对应的视觉提示词。生成的视觉提示词可以输入至视觉语言模型中，以便视觉语言模型可基于目标信息和图像文本等信息，生成问题文本对应的答复文本。

为了更加清楚地说明该视觉问答处理方法，可参阅图5，示出了视觉问答处理方法的整体架构示意图。其中，视觉问答处理方法可运行在一智能体系统中，该智能体系统中可以包括意图识别模型、实体抽取模型、文本识别模型以及视觉语言模型。用户输入问题文本和问题图像数据后，通过意图识别模型对问题文本进行处理，可确定出问题文本的意图类型。在意图类型为细节类型时，可通过实体抽取模型从问题文本中抽取出问题实体，以得到实体抽取结果。利用检测模型对问题图像进行检测，以在问题图像中检测实体抽取结果中的问题实体，进而可得到目标检测结果，基于目标检测结果中的内容对问题图像进行裁剪并统计类别信息得到目标信息。使用文本识别模型对问题图像进行文本识别，从中提取出图像文本，将目标信息和图像文本一并输入视觉语言模型中，即可得到答复文本。

本发明实施例提供的视觉问答处理方法，可应用于图文问答场景中，例如，高分辨率图像理解、文档和图表视觉理解、视觉计数统计、通用视觉问答等场景中。该方法可利用多种模型构建出智能体系统，通过多个模型之间的协作，可增强模型的图像理解能力。通过OCR模型提取图像文本，可为生成答复文本提供更多细节信息，裁剪问题图像有助于视觉语言模型在图像理解中聚焦于关键的区域，避免无关信息的干扰，进而提升视觉问答的准确性。

为了更好地实施以上方法，本发明实施例还提供一种视觉问答处理装置，该视觉问答处理装置具体可以集成在电子设备中，该电子设备可以为终端、服务器等设备。其中，终端可以为手机、平板电脑、智能蓝牙设备、笔记本电脑、个人电脑等设备；服务器可以是单一服务器，也可以是由多个服务器组成的服务器集群。

比如，在本实施例中，将以视觉问答处理装置具体集成在服务器为例，对本发明实施例的方法进行详细说明。

例如，如图6所示，该视觉问答处理装置200可以包括获取模块210、意图模块220、提取模块230、识别模块240以及答复模块250。

获取模块210，用于获取问题文本以及所述问题文本关联的问题图像数据，所述问题图像数据中包括至少一张问题图像；

意图模块220，用于对所述问题文本进行意图识别处理，得到所述问题文本对应的意图类型；

提取模块230，用于针对每张所述问题图像，利用所述意图类型以及所述问题文本，从所述问题图像中提取目标信息；

识别模块240，用于对每张所述问题图像进行文本识别处理，得到所述问题图像对应的图像文本；

答复模块250，用于融合所述目标信息以及所述图像文本，生成所述问题文本对应的答复文本。

在一些实施例中，获取模块210具体用于：

以所有所述问题图像，生成所述问题图像数据。

在一些实施例中，获取模块210具体用于：

对所述多张原始图像进行采样处理，得到待处理图像；

在一些实施例中，获取模块210具体用于：

计算所述待处理图像与所述指定图像之间的变化程度参数；

在一些实施例中，意图模块220具体用于：

在一些实施例中，意图类型包括细节类型和整体类型，提取模块230具体用于：

利用所述检测结果，从所述问题图像中提取目标信息；

在一些实施例中，提取模块230具体用于：

按照所述输出格式组织所述问题实体，得到实体抽取结果。

在一些实施例中，提取模块230具体用于：

利用每个实体对象的位置信息，计算裁剪区域的位置信息；

将所述对象统计信息和所述裁剪区域作为所述目标信息

在一些实施例中，答复模块250具体用于：

具体实施时，以上各个单元可以作为独立的实体来实现，也可以进行任意组合，作为同一或若干个实体来实现，以上各个单元的具体实施可参见前面的方法实施例，在此不再赘述。

由上可知，本实施例的视觉问答处理装置可以获取问题文本以及问题文本关联的问题图像数据，对问题文本进行意图识别处理以得到问题文本对应的意图类型；针对每张问题图像，利用意图类型和问题文本，从问题图像中提取目标信息；对每张问题图像进行文本识别处理，以得到问题图像对应的图像文本；融合目标信息和问题文本，生成问题文本对应的答复文本。提取的图像文本可为理解问题文本提供更多细节，提取的目标信息可在后续推理中聚焦问题文本相关的信息，避免无关信息的干扰，进而可降低模型幻觉，提升视觉问答的准确性。

本发明实施例还提供一种电子设备，该电子设备可以为终端、服务器等设备。其中，终端可以为手机、平板电脑、智能蓝牙设备、笔记本电脑、个人电脑，等等；服务器可以是单一服务器，也可以是由多个服务器组成的服务器集群，等等。

在一些实施例中，该视觉问答处理装置还可以集成在多个电子设备中，比如，视觉问答处理装置可以集成在多个服务器中，由多个服务器来实现本发明的视觉问答处理方法。

在本实施例中，将以本实施例的电子设备是服务器为例进行详细描述，比如，如图7所示，其示出了本发明实施例所涉及的电子设备的结构示意图，具体来讲：

该电子设备可以包括一个或者一个以上处理核心的处理器310、一个或一个以上计算机可读存储介质的处理器320、电源330、输入模块340以及通信模块350等部件。本领域技术人员可以理解，图4中示出的电子设备结构并不构成对电子设备的限定，可以包括比图示更多或更少的部件，或者组合某些部件，或者不同的部件布置。其中：

处理器310是该电子设备的控制中心，利用各种接口和线路连接整个电子设备的各个部分，通过运行或执行存储在处理器320内的软件程序和/或模块，以及调用存储在处理器320内的数据，执行电子设备的各种功能和处理数据。在一些实施例中，处理器310可包括一个或多个处理核心；在一些实施例中，处理器310可集成应用处理器和调制解调处理器，其中，应用处理器主要处理操作系统、用户界面和应用程序等，调制解调处理器主要处理无线通信。可以理解的是，上述调制解调处理器也可以不集成到处理器310中。

处理器320可用于存储软件程序以及模块，处理器310通过运行存储在处理器320的软件程序以及模块，从而执行各种功能应用以及数据处理。处理器320可主要包括存储程序区和存储数据区，其中，存储程序区可存储操作系统、至少一个功能所需的应用程序（比如声音播放功能、图像播放功能等）等；存储数据区可存储根据电子设备的使用所创建的数据等。此外，处理器320可以包括高速随机存取存储器，还可以包括非易失性存储器，例如至少一个磁盘存储器件、闪存器件、或其他易失性固态存储器件。相应地，处理器320还可以包括存储器控制器，以提供处理器310对处理器320的访问。

电子设备还包括给各个部件供电的电源330，在一些实施例中，电源330可以通过电源管理系统与处理器310逻辑相连，从而通过电源管理系统实现管理充电、放电、以及功耗管理等功能。电源330还可以包括一个或一个以上的直流或交流电源、再充电系统、电源故障检测电路、电源转换器或者逆变器、电源状态指示器等任意组件。

该电子设备还可包括输入模块340，该输入模块340可用于接收输入的数字或字符信息，以及产生与用户设置以及功能控制有关的键盘、鼠标、操作杆、光学或者轨迹球信号输入。

该电子设备还可包括通信模块350，在一些实施例中通信模块350可以包括无线模块，电子设备可以通过该通信模块350的无线模块进行短距离无线传输，从而为用户提供了无线的宽带互联网访问。比如，该通信模块350可以用于帮助用户收发电子邮件、浏览网页和访问流式媒体等。

尽管未示出，电子设备还可以包括显示单元等，在此不再赘述。具体在本实施例中，电子设备中的处理器310会按照如下的指令，将一个或一个以上的应用程序的进程对应的可执行文件加载到处理器320中，并由处理器310来运行存储在处理器320中的应用程序，从而实现本发明各实施例方法中的步骤。

以上各个操作的具体实施可参见前面的实施例，在此不再赘述。

由上可知，本发明实施例提供的电子设备可以获取问题文本以及问题文本关联的问题图像数据，对问题文本进行意图识别处理以得到问题文本对应的意图类型；针对每张问题图像，利用意图类型和问题文本，从问题图像中提取目标信息；对每张问题图像进行文本识别处理，以得到问题图像对应的图像文本；融合目标信息和问题文本，生成问题文本对应的答复文本。提取的图像文本可为理解问题文本提供更多细节，提取的目标信息可在后续推理中聚焦问题文本相关的信息，避免无关信息的干扰，进而可降低模型幻觉，提升视觉问答的准确性。

本领域普通技术人员可以理解，上述实施例的各种方法中的全部或部分步骤可以通过指令来完成，或通过指令控制相关的硬件来完成，该指令可以存储于一计算机可读存储介质中，并由处理器进行加载和执行。

为此，本发明实施例提供一种计算机可读存储介质，其中存储有多条指令，该指令能够被处理器进行加载，以执行本发明实施例所提供的任一种视觉问答处理方法中的步骤。

其中，该存储介质可以包括：只读存储器（ROM，Read Only Memory）、随机存取记忆体（RAM，Random Access Memory）、磁盘或光盘等。

根据本发明的一个方面，提供了一种计算机程序产品或计算机程序，该计算机程序产品或计算机程序包括计算机程序/指令，该计算机程序/指令存储在计算机可读存储介质中。电子设备的处理器从计算机可读存储介质读取该计算机程序/指令，处理器执行该计算机程序/指令，使得该电子设备执行上述实施例中提供的视觉问答处理方面的各种可选实现方式中提供的方法。

由于该存储介质中所存储的指令，可以执行本发明实施例所提供的任一种视觉问答处理方法中的步骤，因此，可以实现本发明实施例所提供的任一种视觉问答处理方法所能实现的有益效果，详见前面的实施例，在此不再赘述。

以上对本发明实施例所提供的一种视觉问答处理方法进行了详细介绍，本文中应用了具体个例对本发明的原理及实施方式进行了阐述，以上实施例的说明只是用于帮助理解本发明的方法及其核心思想；同时，对于本领域的技术人员，依据本发明的思想，在具体实施方式及应用范围上均会有改变之处，综上所述，本说明书内容不应理解为对本发明的限制。

Claims

1.一种视觉问答处理方法，其特征在于，所述方法包括：

对所述问题文本进行意图识别处理，得到所述问题文本对应的意图类型，包括：获取第一提示词模板，所述第一提示词模板中包括第一问题槽位、多个意图识别示例以及意图类型对应的意图识别规则；将所述问题文本填充至所述第一问题槽位中，生成意图提示词；将所述意图提示词输入意图识别模型中，以便所述意图识别模型基于所述多个意图识别示例理解所述意图识别规则，并利用所述意图识别规则推理出所述问题文本对应的意图类型，所述意图类型包括细节类型和整体类型；

针对每张所述问题图像，利用所述意图类型以及所述问题文本，从所述问题图像中提取目标信息，包括：针对每张所述问题图像，若所述意图类型为细节类型，对所述问题文本进行实体抽取处理，得到实体抽取结果；若所述实体抽取结果中不包含问题实体，将所述问题图像作为目标信息；若所述实体抽取结果中包含问题实体，在所述问题图像中检测所述问题实体对应的实体对象，得到检测结果；利用所述检测结果，从所述问题图像中提取目标信息；若所述意图类型为整体类型，将所述问题图像作为目标信息；

2.根据权利要求1所述的方法，其特征在于，所述获取问题文本以及所述问题文本关联的问题图像数据，包括：

以所有所述问题图像，生成所述问题图像数据。

3.根据权利要求2所述的方法，其特征在于，所述从所述多张原始图像中筛选出问题图像，包括：

对所述多张原始图像进行采样处理，得到待处理图像；

4.根据权利要求3所述的方法，其特征在于，所述融合所述待处理图像和所述指定图像计算所述待处理图像的重要性得分，包括：

计算所述待处理图像与所述指定图像之间的变化程度参数；

5.根据权利要求1所述的方法，其特征在于，所述对所述问题文本进行实体抽取处理，得到实体抽取结果，包括：

按照所述输出格式组织所述问题实体，得到实体抽取结果。

6.根据权利要求1所述的方法，其特征在于，所述利用所述检测结果，从所述问题图像中提取目标信息，包括：

7.根据权利要求6所述的方法，其特征在于，所述以所述目标检测结果中的每个实体对象的位置信息以及类别信息，从所述问题图像中提取目标信息，包括：

利用每个实体对象的位置信息，计算裁剪区域的位置信息；

将所述对象统计信息和所述裁剪区域作为所述目标信息。

8.根据权利要求1所述的方法，其特征在于，所述融合所述目标信息以及所述图像文本，生成所述问题文本对应的答复文本，包括：