CN110851760A

CN110851760A - 在web3D环境融入视觉问答的人机交互系统

Info

Publication number: CN110851760A
Application number: CN201911099861.9A
Authority: CN
Inventors: 谢宁; 孔文喆; 申恒涛
Original assignee: University of Electronic Science and Technology of China
Current assignee: University of Electronic Science and Technology of China
Priority date: 2019-11-12
Filing date: 2019-11-12
Publication date: 2020-02-28
Anticipated expiration: 2039-11-12
Also published as: CN110851760B

Abstract

本发明涉及VR教育领域，其公开了一种在web3D环境融入视觉问答的人机交互系统，解决传统多媒体教学存在的交互模式单一，交互性不强，缺乏趣味性的问题。该系统包括：web端和服务器端，所述web端与服务器端通过Socket建立连接；所述web端利用WebGL技术，通过模型加载器导入建模工具制作的教育场景模型，通过渲染器渲染场景，从而在浏览器中展示3D教育场景，通过获取用户的问题和图片输入信息传输给服务器端，获取服务器端的反馈答案在所述3D教育场景中结合交互动画进行答案展示；所述服务器端中设置有用于教育系统的视觉问答模型，在收到web端传入的问题和图片输入信息后，利用视觉问答模型获取相应答案，并反馈给web端。

Description

在web3D环境融入视觉问答的人机交互系统

技术领域

本发明涉及VR教育领域，具体涉及一种在web3D环境融入视觉问答的人机交互系统。

背景技术

得益于教育信息化和智能硬件的发展，基于多媒体技术的人机交互学习系统己经被广泛应用于教学中。然而，目前的多媒体教学存在以下缺陷：(1)交互模式单一，学生仅能够通过鼠标和键盘进行操作；(2)交互界面的设计单调，缺乏趣味性难以吸引学生的注意力。

而经过国内外教育学家和心理学家的相关研究表明，学生学习中的兴趣程度是除智力外影响学生学习效果最重要的因素之一。因此，如果能够从教学的人机交互方面进行改进，提升学生的兴趣，则必然能够带来学习效率的提升。

发明内容

本发明所要解决的技术问题是：提出一种在web3D环境融入视觉问答的人机交互系统，解决传统多媒体教学存在的交互模式单一，交互性不强，缺乏趣味性的问题。

本发明解决上述技术问题采用的技术方案是：

在web3D环境融入视觉问答的人机交互系统包括：web端和服务器端，所述web端与服务器端通过Socket建立连接；所述web端利用WebGL技术，通过模型加载器导入建模工具制作的教育场景模型，通过渲染器渲染场景，从而在浏览器中展示3D教育场景，通过获取用户的问题和图片输入信息传输给服务器端，获取服务器端的反馈答案在所述3D教育场景中结合交互动画进行答案展示；所述服务器端中设置有用于教育系统的视觉问答模型，在收到web端传入的问题和图片输入信息后，利用视觉问答模型获取相应答案，并反馈给web端。

作为进一步优化，所述web端通过麦克风和摄像头分别获取用户的问题和图片输入信息。

作为进一步优化，所述视觉问答模型包括：问题编码模块、图像特征提取模块、特征融合模块和解码器模块；所述问题编码模块用于采用LSTM网络对问题进行编码；所述图像特征提取模块用于采用Faster R-CNN模型提取图片的特征信息；所述特征融合模块用于基于注意力机制对问题的编码信息和图片的特征信息进行融合与推理；所述解码器模块用于根据特征融合模块输出的经过特征融合与推理后的信息进行解码输出相应答案。

作为进一步优化，所述视觉问答模型采用教育过程中的图片信息和文本信息进行训练，使其具有针对教育场景的视觉感知和语义识别功能。

作为进一步优化，所述web端展示的3D教育场景可任意切换。

作为进一步优化，所述图像特征提取模块采用Faster R-CNN模型提取图片的特征信息，具体包括：Fast R-CNN模型先对整张图像进行卷积计算，然后通过感兴趣区域池化层将选择性搜索算法推荐出来的候选区域和卷积网络计算出的特征映射图进行融合，得到候选区域对应的特征矢量，然后再对特征矢量进行分类和回归。

作为进一步优化，所述特征融合模块采用软性注意力机制对问题的编码信息和图片的特征信息进行融合与推理，所述软性注意力机制包括：

假设X表示输入信息，X＝[x₁，x₂，x₃...x_N]，注意力变量z∈[1，N]是索引位置的集合，z取值的位置即代表被选择的信息的位置,在给定q和x的情况下，某一个位置被选中的概率a_i的计算方式如下：

s(x_i,q)是一个打分函数，用以计算该位置处注意力的值。

本发明的有益效果是：

(1)将视觉问答与Web3D技术相结合，设计出一种面向未来教育的Web3D应用系统的AI，该AI是具有视觉识别、语义理解的多感知融合的智能小教师，在与学习者的互动中，它能敏锐反应并进行相应沟通。

(2)所采用的视觉问答模型是基于教育系统的模型，其数据集包含了教育过程中大多数的图片信息、文本信息，训练出来的模型与教育系统十分契合。

(3)利用WebGL技术不需要在浏览器上添加任何插件，在相同硬件条件下提高3D数据的渲染性能与效果，达到较好的三维场景呈现效果的特点，本发明利用WebGL技术在web端构建三维教育场景，使用户更加直观的浏览所需内容，有身临其境的感觉，更加加强了项目的能动性和交互性。

因此，本发明实现的人机交互与传统多媒体教学相比，首先是交互性的提升，可以让学习者与系统进行一对一交流，提升学习者注意力和沉浸感；其次，系统能够通过学习者给出的图像和语言自动进行视觉语义理解，从而能够反馈给学习者不同知识的见解与答案，提高学习的效率。

附图说明

图1为本发明的在web3D环境融入视觉问答的人机交互原理图；

图2为Faster R-CNN算法的流程框架图；

图3为LSTM模型记忆单元结构图。

具体实施方式

本发明旨在提出一种在web3D环境融入视觉问答的人机交互系统，解决传统多媒体教学存在的交互模式单一，交互性不强，缺乏趣味性的问题。本发明利用WebGL技术，在web端的浏览器中通过模型加载器导入建模工具制作的场景模型，通过渲染器渲染场景，最终展示一个大规模的VR世界；在服务器端设置适用于教育系统的视觉问答模型，该视觉问答模型采用了注意力机制的特征融合与推理，基于此视觉问答模型获取学习者的问题并进行解答，并反馈到web端的三维教育场景中，从而实现web3D+AI的智能人机交互。

本发明中的在web3D环境融入视觉问答的人机交互系统包括：web端和服务器端，所述web端与服务器端通过Socket建立连接；所述web端利用WebGL技术，通过模型加载器导入建模工具制作的教育场景模型，通过渲染器渲染场景，从而在浏览器中展示3D教育场景，通过获取用户的问题和图片输入信息传输给服务器端，获取服务器端的反馈答案在所述3D教育场景中结合交互动画进行答案展示；所述服务器端中设置有用于教育系统的视觉问答模型，在收到web端传入的问题和图片输入信息后，利用所述视觉问答模型获取相应答案，并反馈给web端。在具体实现上，所述视觉问答模型包括：问题编码模块、图像特征提取模块、特征融合模块和解码器模块；所述问题编码模块用于采用LSTM网络对问题进行编码；所述图像特征提取模块用于采用Faster R-CNN模型提取图片的特征信息；所述特征融合模块用于基于注意力机制对问题的编码信息和图片的特征信息进行融合与推理；所述解码器模块用于根据特征融合模块输出的经过特征融合与推理后的信息进行解码输出相应答案。

为了建立3D视觉的感知和交互，系统的核心是搭建了面向教育系统的VQA(视觉问答)模型。VQA模型是以一张图片和一个关于这张图片形式自由、开放式的自然语言问题作为输入，以生成一条自然语言答案作为输出。对于该模型中的图像特征提取部分、问题编码部分、特征融合与推理部分的实现如下：

a.图像特征提取：

Faster R-CNN算法是微软研究院的任少卿、何恺明、Ross Girshick和孙剑等人在Fast R-CNN基础上实现的更快更好的目标检测利器。Faster R-CNN算法实现了真正意义上的端对端的目标检测计算流程，主要分为三个部分：1)卷积神经网络；2)区域推荐网络(Region Proposal Network，RPN)；3)Fast R-CNN目标检测网络。算法依然延续着R-CNN先进行区域推荐然后分类的思想，但是成功地实现了用卷积神经网络进行区域推荐任务，而不需要使用另外的算法单独进行操作。其中，RPN和Fast R-CNN共用卷积神经网络进行特征提取，减少了卷积计算次数，提高了整个算法的速度。Fast R-CNN是先对整张图像进行卷积计算，然后通过感兴趣区域池化层(RoI Pooling Layer)将选择性搜索算法推荐出来的候选区域和卷积网络计算出的特征映射图进行融合，得到候选区域对应的特征矢量，这种共享卷积计算的操作极大地减少了卷积计算的次数。而且这些特征矢量的维度统一，方便后续的分类工作。

Fast R-CNN是受到SPP-Net的启发而产生的，提出的感兴趣区域池化层将卷积特征和候选区域边框进行融合池化，得到对应区域的特征矢量，这相当于是一个特殊的SPP-Net的空间金字塔池化层，一个只有一层的金字塔结构。此外，为了实现更好的训练效果，Fast R-CNN还使用了一些方法来提升速度，其中很重要的两个技术是：多任务训练和最小批采样。

1)感兴趣区域池化层：

感兴趣区域池化层用最大池化操作把每个有效候选区域中的特征转换为一个大小固定为W*H的特征矢量。这里的感兴趣区域是指卷积特征图中的一个矩形窗口，在FastR-CNN中是由选择性搜索算法计算出的分割区域。每个感兴趣区域用一个四元向量(x,y,w,h)来表示，其中(x,y)表示左上角的坐标，(w,h)表示矩形窗口的高度和宽度。感兴趣区域池化层将大小为w*h的感兴趣窗口划分为W*H个网格子窗口，每个子窗口大小约为(w/W)*(h/H)，然后把每个子窗口中的特征值最大池化到对应的输出网格中。对每个特征通道都应用这样的操作，和标准的最大池化操作一样。

2)多任务训练：

多任务训练是指同时将目标分类和候选区域边框回归计算作为两个并行的输出层，而不再是R-CNN中把分类器SVM的训练和回归量计算分在不同阶段的了。第一个任务输出每个感兴趣的区域在K+1类上的概率分布(其中，K是数据集的类别，加一是添加了背景这一类别)，使用的是softmax函数来计算概率；第二个任务是计算边框的t^k＝(t_x ^k,t_y ^k,t_h ^k,t_w ^k)回归量偏移，参数k表示K个类别。使用的仍是R-CNN中定义的k_t。综合两个任务，多任务的损失函数就联合训练分类和候选区域边框回归计算：

L(p,u,tu,v)＝L_dx(p,u)+λ[u≥1]L_loc(t^u,v)

其中，参数u标记候选区域内容为目标的真实类别，通常u≥1，若u＝0表示区域内容为背景；L_cls(p,u)＝-logp_u是类别u的概率对数损失函数；L_loc(t_u,v)是通过平滑L1损失函数计算的边框位置损失函数，t^u是类别u预测的边框；艾佛森方括号[u≥1]标记满足方括号内的条件u≥1则为1，反之则为0；参数λ控制两个损失函数之间的平衡，因为两个损失函数的作用同等重要，因此，在所有实验中都设置为1。

3)最小批学习：

最小批学习是为了实现更好的梯度反向传播效果。卷积神经网络使用的是梯度下降的方法来进行参数的反向传播。而训练过程中，可以把整个数据集全部送入网络模型中进行训练学习，让网络利用全部样本计算出迭代更新的梯度值，这是传统的梯度下降方法。另外，也可以一次只用一个样本去计算网络更新的梯度值，这种方法叫做随机梯度下降法，也称为在线学习法。使用整个数据集来学习，能够比较准确地朝极值所在的地方收敛，迭代的次数也少，但是每次迭代花费的时间很长。在同等的计算量下，使用整个数据集训练的收敛速度比使用少量样本的情况更慢。使用少量样本训练虽然收敛速度很快，但是每次迭代过程中朝着当前样本指出的梯度方向进行修正，各自朝着不同的方向，各自为政，带来大量的噪声导致性能下降，反而难以达到收敛。因此，使用一种中庸的方法——最小批学习，来寻求两个极端之间的平衡点。Fast R-CNN设置的最小批大小为128，从两张原图上分别采集64个感兴趣区域共同进行训练学习。

Fast R-CNN的算法流程如图2所示，通过感兴趣区域池化层处理卷积特征，并将得到的特征送往两个并行计算任务进行训练，分类和定位回归。通过这些方法和改进的框架，Fast R-CNN用更短的训练和测试时长，取得了比R-CNN更好的效果。

B.文本特征提取：

关于文本选取，我们采用了LSTM网络。普通的循环神经网络每次学习结果不仅与当前时刻的数据相关，而且还与之前时刻的数据有关。循环神经网络的特殊结构，使其可以充分利用历史数据，因此循环神经网络在处理序列问题时有明显的优势。然而循环神经网络模型存在梯度消失问题，即数据所属时刻越远，其对权值变化所能引起的影响就越小，最终导致训练结果往往取决于较近时刻的数据，即缺少对历史数据的长期记忆。Hochereiter等人最早提出了长短期记忆网络,LSTM是RNN的优化模型，继承了RNN的大部分特性，同时解决了反向传递过程中产生的梯度消失问题，之后由A.Graves进一步改良与推广了LSTM。与最初的RNN相比，LSTM长短期记忆多了三组控制器：遗忘门，输入门，输出门。一个LSTM模型记忆单元结构如图3所示。

遗忘门的作用在于选择性的舍弃细胞状态C中的数据，其选择过程使用如下公式计算：

f_t＝σ(W_f·[h_t-1,x_t]+b_f)

以语言模型为例，在预测新词的过程中，如果细胞状态中包含了上一个句子中主语的性，在新的句子结构下，需要遗忘之前主语的性。在遗忘门之后需要选择如何更新细胞状态，这个输入门为一个sigmoid层，它与决定更新哪些值的信息，新的候选值由一个tanh层来产生。上述更新过程可以由以下公式来实现：

i_t＝σ(W_i·[h_t-1,x_t]+b_i)

接着以上语言模型为例，新主语的性需要添加到细胞状态中用以替代旧的相关信息。其更新过程如下：

在将LSMT细胞单元更新之后，需要计算输出值。输出值由细胞状态C决定，首先是使用sigmoid层确定需要输出部分的位置，接着用tanh转化为(-1,1)之间的值，然后与sigmoid门输出相乘。

输出的过程由公式o_t＝σ(W_o[h_t,x_t]+b_o)计算，同时，h_t＝σ_t*tanh(c_t)。

C.特征融合和推理：

问题特征和图像特征之间的融合是各种各样的，例如将两种特征相乘或串联在一起。然而，这种融合是不充分的，因为问题和图像之间的关系是复杂的，通过简单的操作可能无法充分利用它们之间的交互。目前的模型大部分是通过将VQA视为多类分类问题来回答一个单词。当然，我们也可以通RNN解码器模型来回答完整的句子。而近年来，注意力机制(Attention Mechanism)成为深度学习各个领域中比较热门的话题。以人们之间的互相对话为例，如果第二个人需要回答第一个人的问题，在有单词遗漏和所有单词都完全听清的情况下都是不能很好的回答问题的，需要根据问题的侧重点来回答，此处侧重点就是所谓的注意力。所以我们通过注意力机制来实现特征融合和推理。在这里，我们设计SoftAttention机制，它是一种比较容易添加到现有网络结构中的模型。

s(x_i,q)是一个打分函数，用以计算该位置处注意力的值。

基于上述，本发明在已有的VQA模型基础上，建立属于教育系统的数据集，结合图像识别算法和文本分析算法的优点构建自己的特征提取算法，并通过注意力机制将特征融合并推理，从而使得搭建的VQA模型具有对教育过程中的视觉识别和语义感知功能，能够根据提问者的问题和图片输入给出对应的答案。

本发明实现的在web3D环境融入视觉问答的人机交互原理如图1所示，学习者可以直接在web端的浏览器中加载3D教育场景，在学习过程中，学习者可以通过麦克风向AI小教师提出问题，同时摄像头采集图片信息，图片和问题在web端通过socket上传至服务器。服务器利用VQA模型对图片进行特征提取，对问题进行编码处理，并通过注意力机制进行两者特征的融合与推理，最后由解码器生成对应答案。服务器将答案通过socket反馈给web端，在3D教育场景中结合AI小教师的动画进行展示，从而实现人机交互。

综上所述，本发明采用Web3D技术与视觉问答技术相结合的方法，利用Web3D技术在浏览器内设计并实现了一个基于教育内容的“真实世界”，同时使用深度学习网络构建一套适用于该VR世界的视觉问答模型，最终将模型与此Web3D技术相融合，从而开发出集交互、三维、动态、物体识别于一体的智能VR教育项目。其意义在于，将这些原本需要在PC以及主机等其他客户端才能打开的项目搬到浏览器这个新的舞台，无需安装任何东插件,在浏览器内打开一个网址便能获得不错的项目体验。

Claims

1.在web3D环境融入视觉问答的人机交互系统，其特征在于，

包括：web端和服务器端，所述web端与服务器端通过Socket建立连接；所述web端利用WebGL技术，通过模型加载器导入建模工具制作的教育场景模型，通过渲染器渲染场景，从而在浏览器中展示3D教育场景，通过获取用户的问题和图片输入信息传输给服务器端，获取服务器端的反馈答案在所述3D教育场景中结合交互动画进行答案展示；所述服务器端中设置有用于教育系统的视觉问答模型，在收到web端传入的问题和图片输入信息后，利用视觉问答模型获取相应答案，并反馈给web端。

2.如权利要求1所述的在web3D环境融入视觉问答的人机交互系统，

其特征在于，所述web端通过麦克风和摄像头分别获取用户的问题和图片输入信息。

3.如权利要求1所述的在web3D环境融入视觉问答的人机交互系统，

其特征在于，所述视觉问答模型包括：问题编码模块、图像特征提取模块、特征融合模块和解码器模块；所述问题编码模块用于采用LSTM网络对问题进行编码；所述图像特征提取模块用于采用Faster R-CNN模型提取图片的特征信息；所述特征融合模块用于基于注意力机制对问题的编码信息和图片的特征信息进行融合与推理；所述解码器模块用于根据特征融合模块输出的经过特征融合与推理后的信息进行解码输出相应答案。

4.如权利要求3所述的在web3D环境融入视觉问答的人机交互系统，

其特征在于，所述图像特征提取模块采用Faster R-CNN模型提取图片的特征信息，具体包括：Fast R-CNN模型先对整张图像进行卷积计算，然后通过感兴趣区域池化层将选择性搜索算法推荐出来的候选区域和卷积网络计算出的特征映射图进行融合，得到候选区域对应的特征矢量，然后再对特征矢量进行分类和回归。

5.如权利要求3所述的在web3D环境融入视觉问答的人机交互系统，

其特征在于，所述特征融合模块采用软性注意力机制对问题的编码信息和图片的特征信息进行融合与推理，所述软性注意力机制包括：

s(x_i,q)是一个打分函数，用以计算该位置处注意力的值。

6.如权利要求1所述的在web3D环境融入视觉问答的人机交互系统，

其特征在于，所述视觉问答模型采用教育过程中的图片信息和文本信息进行训练，使其具有针对教育场景的视觉感知和语义识别功能。

7.如权利要求1-6任意一项所述的在web3D环境融入视觉问答的人机交互系统，

其特征在于，所述web端展示的3D教育场景可任意切换。