CN110851760A - 在web3D环境融入视觉问答的人机交互系统 - Google Patents
在web3D环境融入视觉问答的人机交互系统 Download PDFInfo
- Publication number
- CN110851760A CN110851760A CN201911099861.9A CN201911099861A CN110851760A CN 110851760 A CN110851760 A CN 110851760A CN 201911099861 A CN201911099861 A CN 201911099861A CN 110851760 A CN110851760 A CN 110851760A
- Authority
- CN
- China
- Prior art keywords
- model
- visual question
- information
- web3d
- answering
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Granted
Links
- 230000000007 visual effect Effects 0.000 title claims abstract description 41
- 230000003993 interaction Effects 0.000 title claims abstract description 31
- 238000005516 engineering process Methods 0.000 claims abstract description 13
- 230000002452 interceptive effect Effects 0.000 claims abstract description 5
- 238000000034 method Methods 0.000 claims description 24
- 230000004927 fusion Effects 0.000 claims description 20
- 238000000605 extraction Methods 0.000 claims description 14
- 230000006870 function Effects 0.000 claims description 14
- 230000008569 process Effects 0.000 claims description 14
- 230000007246 mechanism Effects 0.000 claims description 13
- 238000011176 pooling Methods 0.000 claims description 11
- 239000013598 vector Substances 0.000 claims description 9
- 238000004364 calculation method Methods 0.000 claims description 8
- 238000010845 search algorithm Methods 0.000 claims description 4
- 230000016776 visual perception Effects 0.000 claims description 2
- 238000013507 mapping Methods 0.000 claims 1
- 230000008676 import Effects 0.000 abstract description 4
- 238000013527 convolutional neural network Methods 0.000 description 25
- 238000012549 training Methods 0.000 description 14
- 238000005457 optimization Methods 0.000 description 7
- 230000000306 recurrent effect Effects 0.000 description 4
- 238000013528 artificial neural network Methods 0.000 description 3
- 238000013461 design Methods 0.000 description 3
- 238000001514 detection method Methods 0.000 description 3
- 230000000694 effects Effects 0.000 description 3
- 238000013135 deep learning Methods 0.000 description 2
- 230000008034 disappearance Effects 0.000 description 2
- 230000007787 long-term memory Effects 0.000 description 2
- 230000015654 memory Effects 0.000 description 2
- 230000008447 perception Effects 0.000 description 2
- 238000009877 rendering Methods 0.000 description 2
- 238000011160 research Methods 0.000 description 2
- 230000006403 short-term memory Effects 0.000 description 2
- 238000004458 analytical method Methods 0.000 description 1
- 230000009286 beneficial effect Effects 0.000 description 1
- 230000015556 catabolic process Effects 0.000 description 1
- 230000008859 change Effects 0.000 description 1
- 230000007547 defect Effects 0.000 description 1
- 238000006731 degradation reaction Methods 0.000 description 1
- 238000011161 development Methods 0.000 description 1
- 238000010586 diagram Methods 0.000 description 1
- 238000002474 experimental method Methods 0.000 description 1
- 230000004438 eyesight Effects 0.000 description 1
- 238000011478 gradient descent method Methods 0.000 description 1
- 238000009499 grossing Methods 0.000 description 1
- 238000007654 immersion Methods 0.000 description 1
- 230000006872 improvement Effects 0.000 description 1
- 230000004807 localization Effects 0.000 description 1
- 238000003062 neural network model Methods 0.000 description 1
- 238000005070 sampling Methods 0.000 description 1
- 238000012360 testing method Methods 0.000 description 1
- 238000012546 transfer Methods 0.000 description 1
Images
Classifications
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F16/00—Information retrieval; Database structures therefor; File system structures therefor
- G06F16/90—Details of database functions independent of the retrieved data types
- G06F16/95—Retrieval from the web
- G06F16/958—Organisation or management of web site content, e.g. publishing, maintaining pages or automatic linking
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F16/00—Information retrieval; Database structures therefor; File system structures therefor
- G06F16/30—Information retrieval; Database structures therefor; File system structures therefor of unstructured textual data
- G06F16/33—Querying
- G06F16/332—Query formulation
- G06F16/3329—Natural language query formulation
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F16/00—Information retrieval; Database structures therefor; File system structures therefor
- G06F16/50—Information retrieval; Database structures therefor; File system structures therefor of still image data
- G06F16/58—Retrieval characterised by using metadata, e.g. metadata not derived from the content or metadata generated manually
- G06F16/583—Retrieval characterised by using metadata, e.g. metadata not derived from the content or metadata generated manually using metadata automatically derived from the content
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06V—IMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
- G06V10/00—Arrangements for image or video recognition or understanding
- G06V10/40—Extraction of image or video features
- G06V10/44—Local feature extraction by analysis of parts of the pattern, e.g. by detecting edges, contours, loops, corners, strokes or intersections; Connectivity analysis, e.g. of connected components
-
- G—PHYSICS
- G09—EDUCATION; CRYPTOGRAPHY; DISPLAY; ADVERTISING; SEALS
- G09B—EDUCATIONAL OR DEMONSTRATION APPLIANCES; APPLIANCES FOR TEACHING, OR COMMUNICATING WITH, THE BLIND, DEAF OR MUTE; MODELS; PLANETARIA; GLOBES; MAPS; DIAGRAMS
- G09B5/00—Electrically-operated educational appliances
- G09B5/08—Electrically-operated educational appliances providing for individual presentation of information to a plurality of student stations
- G09B5/14—Electrically-operated educational appliances providing for individual presentation of information to a plurality of student stations with provision for individual teacher-student communication
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06N—COMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
- G06N3/00—Computing arrangements based on biological models
- G06N3/02—Neural networks
- G06N3/04—Architecture, e.g. interconnection topology
- G06N3/044—Recurrent networks, e.g. Hopfield networks
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06N—COMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
- G06N3/00—Computing arrangements based on biological models
- G06N3/02—Neural networks
- G06N3/04—Architecture, e.g. interconnection topology
- G06N3/045—Combinations of networks
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06N—COMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
- G06N3/00—Computing arrangements based on biological models
- G06N3/02—Neural networks
- G06N3/08—Learning methods
- G06N3/084—Backpropagation, e.g. using gradient descent
Landscapes
- Engineering & Computer Science (AREA)
- Theoretical Computer Science (AREA)
- Physics & Mathematics (AREA)
- General Physics & Mathematics (AREA)
- Databases & Information Systems (AREA)
- Data Mining & Analysis (AREA)
- General Engineering & Computer Science (AREA)
- Mathematical Physics (AREA)
- Library & Information Science (AREA)
- Multimedia (AREA)
- Human Computer Interaction (AREA)
- Artificial Intelligence (AREA)
- Computational Linguistics (AREA)
- Computer Vision & Pattern Recognition (AREA)
- Business, Economics & Management (AREA)
- Educational Administration (AREA)
- Educational Technology (AREA)
- Image Analysis (AREA)
Abstract
本发明涉及VR教育领域,其公开了一种在web3D环境融入视觉问答的人机交互系统,解决传统多媒体教学存在的交互模式单一,交互性不强,缺乏趣味性的问题。该系统包括:web端和服务器端,所述web端与服务器端通过Socket建立连接;所述web端利用WebGL技术,通过模型加载器导入建模工具制作的教育场景模型,通过渲染器渲染场景,从而在浏览器中展示3D教育场景,通过获取用户的问题和图片输入信息传输给服务器端,获取服务器端的反馈答案在所述3D教育场景中结合交互动画进行答案展示;所述服务器端中设置有用于教育系统的视觉问答模型,在收到web端传入的问题和图片输入信息后,利用视觉问答模型获取相应答案,并反馈给web端。
Description
技术领域
本发明涉及VR教育领域,具体涉及一种在web3D环境融入视觉问答的人机交互系统。
背景技术
得益于教育信息化和智能硬件的发展,基于多媒体技术的人机交互学习系统己经被广泛应用于教学中。然而,目前的多媒体教学存在以下缺陷:(1)交互模式单一,学生仅能够通过鼠标和键盘进行操作;(2)交互界面的设计单调,缺乏趣味性难以吸引学生的注意力。
而经过国内外教育学家和心理学家的相关研究表明,学生学习中的兴趣程度是除智力外影响学生学习效果最重要的因素之一。因此,如果能够从教学的人机交互方面进行改进,提升学生的兴趣,则必然能够带来学习效率的提升。
发明内容
本发明所要解决的技术问题是:提出一种在web3D环境融入视觉问答的人机交互系统,解决传统多媒体教学存在的交互模式单一,交互性不强,缺乏趣味性的问题。
本发明解决上述技术问题采用的技术方案是:
在web3D环境融入视觉问答的人机交互系统包括:web端和服务器端,所述web端与服务器端通过Socket建立连接;所述web端利用WebGL技术,通过模型加载器导入建模工具制作的教育场景模型,通过渲染器渲染场景,从而在浏览器中展示3D教育场景,通过获取用户的问题和图片输入信息传输给服务器端,获取服务器端的反馈答案在所述3D教育场景中结合交互动画进行答案展示;所述服务器端中设置有用于教育系统的视觉问答模型,在收到web端传入的问题和图片输入信息后,利用视觉问答模型获取相应答案,并反馈给web端。
作为进一步优化,所述web端通过麦克风和摄像头分别获取用户的问题和图片输入信息。
作为进一步优化,所述视觉问答模型包括:问题编码模块、图像特征提取模块、特征融合模块和解码器模块;所述问题编码模块用于采用LSTM网络对问题进行编码;所述图像特征提取模块用于采用Faster R-CNN模型提取图片的特征信息;所述特征融合模块用于基于注意力机制对问题的编码信息和图片的特征信息进行融合与推理;所述解码器模块用于根据特征融合模块输出的经过特征融合与推理后的信息进行解码输出相应答案。
作为进一步优化,所述视觉问答模型采用教育过程中的图片信息和文本信息进行训练,使其具有针对教育场景的视觉感知和语义识别功能。
作为进一步优化,所述web端展示的3D教育场景可任意切换。
作为进一步优化,所述图像特征提取模块采用Faster R-CNN模型提取图片的特征信息,具体包括:Fast R-CNN模型先对整张图像进行卷积计算,然后通过感兴趣区域池化层将选择性搜索算法推荐出来的候选区域和卷积网络计算出的特征映射图进行融合,得到候选区域对应的特征矢量,然后再对特征矢量进行分类和回归。
作为进一步优化,所述特征融合模块采用软性注意力机制对问题的编码信息和图片的特征信息进行融合与推理,所述软性注意力机制包括:
假设X表示输入信息,X=[x1,x2,x3...xN],注意力变量z∈[1,N]是索引位置的集合,z取值的位置即代表被选择的信息的位置,在给定q和x的情况下,某一个位置被选中的概率ai的计算方式如下:
s(xi,q)是一个打分函数,用以计算该位置处注意力的值。
本发明的有益效果是:
(1)将视觉问答与Web3D技术相结合,设计出一种面向未来教育的Web3D应用系统的AI,该AI是具有视觉识别、语义理解的多感知融合的智能小教师,在与学习者的互动中,它能敏锐反应并进行相应沟通。
(2)所采用的视觉问答模型是基于教育系统的模型,其数据集包含了教育过程中大多数的图片信息、文本信息,训练出来的模型与教育系统十分契合。
(3)利用WebGL技术不需要在浏览器上添加任何插件,在相同硬件条件下提高3D数据的渲染性能与效果,达到较好的三维场景呈现效果的特点,本发明利用WebGL技术在web端构建三维教育场景,使用户更加直观的浏览所需内容,有身临其境的感觉,更加加强了项目的能动性和交互性。
因此,本发明实现的人机交互与传统多媒体教学相比,首先是交互性的提升,可以让学习者与系统进行一对一交流,提升学习者注意力和沉浸感;其次,系统能够通过学习者给出的图像和语言自动进行视觉语义理解,从而能够反馈给学习者不同知识的见解与答案,提高学习的效率。
附图说明
图1为本发明的在web3D环境融入视觉问答的人机交互原理图;
图2为Faster R-CNN算法的流程框架图;
图3为LSTM模型记忆单元结构图。
具体实施方式
本发明旨在提出一种在web3D环境融入视觉问答的人机交互系统,解决传统多媒体教学存在的交互模式单一,交互性不强,缺乏趣味性的问题。本发明利用WebGL技术,在web端的浏览器中通过模型加载器导入建模工具制作的场景模型,通过渲染器渲染场景,最终展示一个大规模的VR世界;在服务器端设置适用于教育系统的视觉问答模型,该视觉问答模型采用了注意力机制的特征融合与推理,基于此视觉问答模型获取学习者的问题并进行解答,并反馈到web端的三维教育场景中,从而实现web3D+AI的智能人机交互。
本发明中的在web3D环境融入视觉问答的人机交互系统包括:web端和服务器端,所述web端与服务器端通过Socket建立连接;所述web端利用WebGL技术,通过模型加载器导入建模工具制作的教育场景模型,通过渲染器渲染场景,从而在浏览器中展示3D教育场景,通过获取用户的问题和图片输入信息传输给服务器端,获取服务器端的反馈答案在所述3D教育场景中结合交互动画进行答案展示;所述服务器端中设置有用于教育系统的视觉问答模型,在收到web端传入的问题和图片输入信息后,利用所述视觉问答模型获取相应答案,并反馈给web端。在具体实现上,所述视觉问答模型包括:问题编码模块、图像特征提取模块、特征融合模块和解码器模块;所述问题编码模块用于采用LSTM网络对问题进行编码;所述图像特征提取模块用于采用Faster R-CNN模型提取图片的特征信息;所述特征融合模块用于基于注意力机制对问题的编码信息和图片的特征信息进行融合与推理;所述解码器模块用于根据特征融合模块输出的经过特征融合与推理后的信息进行解码输出相应答案。
为了建立3D视觉的感知和交互,系统的核心是搭建了面向教育系统的VQA(视觉问答)模型。VQA模型是以一张图片和一个关于这张图片形式自由、开放式的自然语言问题作为输入,以生成一条自然语言答案作为输出。对于该模型中的图像特征提取部分、问题编码部分、特征融合与推理部分的实现如下:
a.图像特征提取:
Faster R-CNN算法是微软研究院的任少卿、何恺明、Ross Girshick和孙剑等人在Fast R-CNN基础上实现的更快更好的目标检测利器。Faster R-CNN算法实现了真正意义上的端对端的目标检测计算流程,主要分为三个部分:1)卷积神经网络;2)区域推荐网络(Region Proposal Network,RPN);3)Fast R-CNN目标检测网络。算法依然延续着R-CNN先进行区域推荐然后分类的思想,但是成功地实现了用卷积神经网络进行区域推荐任务,而不需要使用另外的算法单独进行操作。其中,RPN和Fast R-CNN共用卷积神经网络进行特征提取,减少了卷积计算次数,提高了整个算法的速度。Fast R-CNN是先对整张图像进行卷积计算,然后通过感兴趣区域池化层(RoI Pooling Layer)将选择性搜索算法推荐出来的候选区域和卷积网络计算出的特征映射图进行融合,得到候选区域对应的特征矢量,这种共享卷积计算的操作极大地减少了卷积计算的次数。而且这些特征矢量的维度统一,方便后续的分类工作。
Fast R-CNN是受到SPP-Net的启发而产生的,提出的感兴趣区域池化层将卷积特征和候选区域边框进行融合池化,得到对应区域的特征矢量,这相当于是一个特殊的SPP-Net的空间金字塔池化层,一个只有一层的金字塔结构。此外,为了实现更好的训练效果,Fast R-CNN还使用了一些方法来提升速度,其中很重要的两个技术是:多任务训练和最小批采样。
1)感兴趣区域池化层:
感兴趣区域池化层用最大池化操作把每个有效候选区域中的特征转换为一个大小固定为W*H的特征矢量。这里的感兴趣区域是指卷积特征图中的一个矩形窗口,在FastR-CNN中是由选择性搜索算法计算出的分割区域。每个感兴趣区域用一个四元向量(x,y,w,h)来表示,其中(x,y)表示左上角的坐标,(w,h)表示矩形窗口的高度和宽度。感兴趣区域池化层将大小为w*h的感兴趣窗口划分为W*H个网格子窗口,每个子窗口大小约为(w/W)*(h/H),然后把每个子窗口中的特征值最大池化到对应的输出网格中。对每个特征通道都应用这样的操作,和标准的最大池化操作一样。
2)多任务训练:
多任务训练是指同时将目标分类和候选区域边框回归计算作为两个并行的输出层,而不再是R-CNN中把分类器SVM的训练和回归量计算分在不同阶段的了。第一个任务输出每个感兴趣的区域在K+1类上的概率分布(其中,K是数据集的类别,加一是添加了背景这一类别),使用的是softmax函数来计算概率;第二个任务是计算边框的tk=(tx k,ty k,th k,tw k)回归量偏移,参数k表示K个类别。使用的仍是R-CNN中定义的kt。综合两个任务,多任务的损失函数就联合训练分类和候选区域边框回归计算:
L(p,u,tu,v)=Ldx(p,u)+λ[u≥1]Lloc(tu,v)
其中,参数u标记候选区域内容为目标的真实类别,通常u≥1,若u=0表示区域内容为背景;Lcls(p,u)=-logpu是类别u的概率对数损失函数;Lloc(tu,v)是通过平滑L1损失函数计算的边框位置损失函数,tu是类别u预测的边框;艾佛森方括号[u≥1]标记满足方括号内的条件u≥1则为1,反之则为0;参数λ控制两个损失函数之间的平衡,因为两个损失函数的作用同等重要,因此,在所有实验中都设置为1。
3)最小批学习:
最小批学习是为了实现更好的梯度反向传播效果。卷积神经网络使用的是梯度下降的方法来进行参数的反向传播。而训练过程中,可以把整个数据集全部送入网络模型中进行训练学习,让网络利用全部样本计算出迭代更新的梯度值,这是传统的梯度下降方法。另外,也可以一次只用一个样本去计算网络更新的梯度值,这种方法叫做随机梯度下降法,也称为在线学习法。使用整个数据集来学习,能够比较准确地朝极值所在的地方收敛,迭代的次数也少,但是每次迭代花费的时间很长。在同等的计算量下,使用整个数据集训练的收敛速度比使用少量样本的情况更慢。使用少量样本训练虽然收敛速度很快,但是每次迭代过程中朝着当前样本指出的梯度方向进行修正,各自朝着不同的方向,各自为政,带来大量的噪声导致性能下降,反而难以达到收敛。因此,使用一种中庸的方法——最小批学习,来寻求两个极端之间的平衡点。Fast R-CNN设置的最小批大小为128,从两张原图上分别采集64个感兴趣区域共同进行训练学习。
Fast R-CNN的算法流程如图2所示,通过感兴趣区域池化层处理卷积特征,并将得到的特征送往两个并行计算任务进行训练,分类和定位回归。通过这些方法和改进的框架,Fast R-CNN用更短的训练和测试时长,取得了比R-CNN更好的效果。
B.文本特征提取:
关于文本选取,我们采用了LSTM网络。普通的循环神经网络每次学习结果不仅与当前时刻的数据相关,而且还与之前时刻的数据有关。循环神经网络的特殊结构,使其可以充分利用历史数据,因此循环神经网络在处理序列问题时有明显的优势。然而循环神经网络模型存在梯度消失问题,即数据所属时刻越远,其对权值变化所能引起的影响就越小,最终导致训练结果往往取决于较近时刻的数据,即缺少对历史数据的长期记忆。Hochereiter等人最早提出了长短期记忆网络,LSTM是RNN的优化模型,继承了RNN的大部分特性,同时解决了反向传递过程中产生的梯度消失问题,之后由A.Graves进一步改良与推广了LSTM。与最初的RNN相比,LSTM长短期记忆多了三组控制器:遗忘门,输入门,输出门。一个LSTM模型记忆单元结构如图3所示。
遗忘门的作用在于选择性的舍弃细胞状态C中的数据,其选择过程使用如下公式计算:
ft=σ(Wf·[ht-1,xt]+bf)
以语言模型为例,在预测新词的过程中,如果细胞状态中包含了上一个句子中主语的性,在新的句子结构下,需要遗忘之前主语的性。在遗忘门之后需要选择如何更新细胞状态,这个输入门为一个sigmoid层,它与决定更新哪些值的信息,新的候选值由一个tanh层来产生。上述更新过程可以由以下公式来实现:
it=σ(Wi·[ht-1,xt]+bi)
在将LSMT细胞单元更新之后,需要计算输出值。输出值由细胞状态C决定,首先是使用sigmoid层确定需要输出部分的位置,接着用tanh转化为(-1,1)之间的值,然后与sigmoid门输出相乘。
输出的过程由公式ot=σ(Wo[ht,xt]+bo)计算,同时,ht=σt*tanh(ct)。
C.特征融合和推理:
问题特征和图像特征之间的融合是各种各样的,例如将两种特征相乘或串联在一起。然而,这种融合是不充分的,因为问题和图像之间的关系是复杂的,通过简单的操作可能无法充分利用它们之间的交互。目前的模型大部分是通过将VQA视为多类分类问题来回答一个单词。当然,我们也可以通RNN解码器模型来回答完整的句子。而近年来,注意力机制(Attention Mechanism)成为深度学习各个领域中比较热门的话题。以人们之间的互相对话为例,如果第二个人需要回答第一个人的问题,在有单词遗漏和所有单词都完全听清的情况下都是不能很好的回答问题的,需要根据问题的侧重点来回答,此处侧重点就是所谓的注意力。所以我们通过注意力机制来实现特征融合和推理。在这里,我们设计SoftAttention机制,它是一种比较容易添加到现有网络结构中的模型。
假设X表示输入信息,X=[x1,x2,x3...xN],注意力变量z∈[1,N]是索引位置的集合,z取值的位置即代表被选择的信息的位置,在给定q和x的情况下,某一个位置被选中的概率ai的计算方式如下:
s(xi,q)是一个打分函数,用以计算该位置处注意力的值。
基于上述,本发明在已有的VQA模型基础上,建立属于教育系统的数据集,结合图像识别算法和文本分析算法的优点构建自己的特征提取算法,并通过注意力机制将特征融合并推理,从而使得搭建的VQA模型具有对教育过程中的视觉识别和语义感知功能,能够根据提问者的问题和图片输入给出对应的答案。
本发明实现的在web3D环境融入视觉问答的人机交互原理如图1所示,学习者可以直接在web端的浏览器中加载3D教育场景,在学习过程中,学习者可以通过麦克风向AI小教师提出问题,同时摄像头采集图片信息,图片和问题在web端通过socket上传至服务器。服务器利用VQA模型对图片进行特征提取,对问题进行编码处理,并通过注意力机制进行两者特征的融合与推理,最后由解码器生成对应答案。服务器将答案通过socket反馈给web端,在3D教育场景中结合AI小教师的动画进行展示,从而实现人机交互。
综上所述,本发明采用Web3D技术与视觉问答技术相结合的方法,利用Web3D技术在浏览器内设计并实现了一个基于教育内容的“真实世界”,同时使用深度学习网络构建一套适用于该VR世界的视觉问答模型,最终将模型与此Web3D技术相融合,从而开发出集交互、三维、动态、物体识别于一体的智能VR教育项目。其意义在于,将这些原本需要在PC以及主机等其他客户端才能打开的项目搬到浏览器这个新的舞台,无需安装任何东插件,在浏览器内打开一个网址便能获得不错的项目体验。
Claims (7)
1.在web3D环境融入视觉问答的人机交互系统,其特征在于,
包括:web端和服务器端,所述web端与服务器端通过Socket建立连接;所述web端利用WebGL技术,通过模型加载器导入建模工具制作的教育场景模型,通过渲染器渲染场景,从而在浏览器中展示3D教育场景,通过获取用户的问题和图片输入信息传输给服务器端,获取服务器端的反馈答案在所述3D教育场景中结合交互动画进行答案展示;所述服务器端中设置有用于教育系统的视觉问答模型,在收到web端传入的问题和图片输入信息后,利用视觉问答模型获取相应答案,并反馈给web端。
2.如权利要求1所述的在web3D环境融入视觉问答的人机交互系统,
其特征在于,所述web端通过麦克风和摄像头分别获取用户的问题和图片输入信息。
3.如权利要求1所述的在web3D环境融入视觉问答的人机交互系统,
其特征在于,所述视觉问答模型包括:问题编码模块、图像特征提取模块、特征融合模块和解码器模块;所述问题编码模块用于采用LSTM网络对问题进行编码;所述图像特征提取模块用于采用Faster R-CNN模型提取图片的特征信息;所述特征融合模块用于基于注意力机制对问题的编码信息和图片的特征信息进行融合与推理;所述解码器模块用于根据特征融合模块输出的经过特征融合与推理后的信息进行解码输出相应答案。
4.如权利要求3所述的在web3D环境融入视觉问答的人机交互系统,
其特征在于,所述图像特征提取模块采用Faster R-CNN模型提取图片的特征信息,具体包括:Fast R-CNN模型先对整张图像进行卷积计算,然后通过感兴趣区域池化层将选择性搜索算法推荐出来的候选区域和卷积网络计算出的特征映射图进行融合,得到候选区域对应的特征矢量,然后再对特征矢量进行分类和回归。
6.如权利要求1所述的在web3D环境融入视觉问答的人机交互系统,
其特征在于,所述视觉问答模型采用教育过程中的图片信息和文本信息进行训练,使其具有针对教育场景的视觉感知和语义识别功能。
7.如权利要求1-6任意一项所述的在web3D环境融入视觉问答的人机交互系统,
其特征在于,所述web端展示的3D教育场景可任意切换。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN201911099861.9A CN110851760B (zh) | 2019-11-12 | 2019-11-12 | 在web3D环境融入视觉问答的人机交互系统 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN201911099861.9A CN110851760B (zh) | 2019-11-12 | 2019-11-12 | 在web3D环境融入视觉问答的人机交互系统 |
Publications (2)
Publication Number | Publication Date |
---|---|
CN110851760A true CN110851760A (zh) | 2020-02-28 |
CN110851760B CN110851760B (zh) | 2022-12-27 |
Family
ID=69600399
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN201911099861.9A Active CN110851760B (zh) | 2019-11-12 | 2019-11-12 | 在web3D环境融入视觉问答的人机交互系统 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN110851760B (zh) |
Cited By (9)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN111459283A (zh) * | 2020-04-07 | 2020-07-28 | 电子科技大学 | 一种融合人工智能和Web3D的人机交互实现方法 |
CN112463936A (zh) * | 2020-09-24 | 2021-03-09 | 北京影谱科技股份有限公司 | 一种基于三维信息的视觉问答方法及系统 |
CN112873211A (zh) * | 2021-02-24 | 2021-06-01 | 清华大学 | 一种机器人人机交互方法 |
CN112926655A (zh) * | 2021-02-25 | 2021-06-08 | 电子科技大学 | 一种图像内容理解与视觉问答vqa方法、存储介质和终端 |
CN113010656A (zh) * | 2021-03-18 | 2021-06-22 | 广东工业大学 | 一种基于多模态融合和结构性控制的视觉问答方法 |
CN113392288A (zh) * | 2020-03-11 | 2021-09-14 | 阿里巴巴集团控股有限公司 | 视觉问答及其模型训练的方法、装置、设备及存储介质 |
CN113837259A (zh) * | 2021-09-17 | 2021-12-24 | 中山大学附属第六医院 | 一种模态交互的图注意融合的教育视频问答方法及系统 |
CN114398471A (zh) * | 2021-12-24 | 2022-04-26 | 哈尔滨工程大学 | 一种基于深层推理注意力机制的视觉问答方法 |
CN114840697A (zh) * | 2022-04-14 | 2022-08-02 | 山东大学 | 一种云服务机器人的视觉问答方法及系统 |
Citations (9)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
US20170124432A1 (en) * | 2015-11-03 | 2017-05-04 | Baidu Usa Llc | Systems and methods for attention-based configurable convolutional neural networks (abc-cnn) for visual question answering |
CN107016170A (zh) * | 2017-03-14 | 2017-08-04 | 上海大学 | 一种基于WebGL的LED灯具三维定制仿真方法 |
US20180130259A1 (en) * | 2016-06-15 | 2018-05-10 | Dotty Digital Pty Ltd | System, Device or Method for Collaborative Augmented Reality |
CN108549658A (zh) * | 2018-03-12 | 2018-09-18 | 浙江大学 | 一种基于语法分析树上注意力机制的深度学习视频问答方法及系统 |
CN109902166A (zh) * | 2019-03-12 | 2019-06-18 | 北京百度网讯科技有限公司 | 视觉问答模型、电子设备及存储介质 |
KR20190092043A (ko) * | 2018-01-30 | 2019-08-07 | 연세대학교 산학협력단 | 추론 과정 설명이 가능한 시각 질의 응답 장치 및 방법 |
CN110196717A (zh) * | 2019-06-22 | 2019-09-03 | 中国地质大学(北京) | 一种Web3D网络交流平台及其建设方法 |
CN110309850A (zh) * | 2019-05-15 | 2019-10-08 | 山东省计算中心(国家超级计算济南中心) | 基于语言先验问题识别和缓解的视觉问答预测方法及系统 |
CN110377710A (zh) * | 2019-06-17 | 2019-10-25 | 杭州电子科技大学 | 一种基于多模态融合的视觉问答融合增强方法 |
-
2019
- 2019-11-12 CN CN201911099861.9A patent/CN110851760B/zh active Active
Patent Citations (9)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
US20170124432A1 (en) * | 2015-11-03 | 2017-05-04 | Baidu Usa Llc | Systems and methods for attention-based configurable convolutional neural networks (abc-cnn) for visual question answering |
US20180130259A1 (en) * | 2016-06-15 | 2018-05-10 | Dotty Digital Pty Ltd | System, Device or Method for Collaborative Augmented Reality |
CN107016170A (zh) * | 2017-03-14 | 2017-08-04 | 上海大学 | 一种基于WebGL的LED灯具三维定制仿真方法 |
KR20190092043A (ko) * | 2018-01-30 | 2019-08-07 | 연세대학교 산학협력단 | 추론 과정 설명이 가능한 시각 질의 응답 장치 및 방법 |
CN108549658A (zh) * | 2018-03-12 | 2018-09-18 | 浙江大学 | 一种基于语法分析树上注意力机制的深度学习视频问答方法及系统 |
CN109902166A (zh) * | 2019-03-12 | 2019-06-18 | 北京百度网讯科技有限公司 | 视觉问答模型、电子设备及存储介质 |
CN110309850A (zh) * | 2019-05-15 | 2019-10-08 | 山东省计算中心(国家超级计算济南中心) | 基于语言先验问题识别和缓解的视觉问答预测方法及系统 |
CN110377710A (zh) * | 2019-06-17 | 2019-10-25 | 杭州电子科技大学 | 一种基于多模态融合的视觉问答融合增强方法 |
CN110196717A (zh) * | 2019-06-22 | 2019-09-03 | 中国地质大学(北京) | 一种Web3D网络交流平台及其建设方法 |
Non-Patent Citations (5)
Title |
---|
ABACHA A B,HASAN S A, DALTA VV,ET AL.: ""VQA-Med:Overview of the Medical Visual Queswering Task at ImageCIEF 2019"", 《LECTURE NOTES IN COMPUTER ENCE,2019》 * |
C.A.R. HOARE: ""Viewpoint:Restrospective :An axiomatic basis for computer programming"", 《COMMUNICATION OF THE ACM》 * |
IQBAL CHOWDHURY; KIEN NGUYEN; CLINTON FOOKES; SRIDHA SRIDHARAN: ""A cascaded long short-term memory (LSTM) driven generic visual question answering (VQA)"", 《 2017 IEEE INTERNATIONAL CONFERENCE ON IMAGE PROCESSING (ICIP)》 * |
YI LIAN,LONG HE, JINSONG PING ET AL.: ""Research and implementation on the WEB3D visualization of digtal moon based on WebGL"", 《2017 IEEE INTERNATIONAL GEOSCIENCE AND REMOTE SENSING SYMPOSIUM (IGARSS)》 * |
王一蕾 等: ""基于深度神经网络的图像碎片化信息问答算法"", 《计算机研究与发展》 * |
Cited By (14)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN113392288A (zh) * | 2020-03-11 | 2021-09-14 | 阿里巴巴集团控股有限公司 | 视觉问答及其模型训练的方法、装置、设备及存储介质 |
CN111459283A (zh) * | 2020-04-07 | 2020-07-28 | 电子科技大学 | 一种融合人工智能和Web3D的人机交互实现方法 |
CN112463936A (zh) * | 2020-09-24 | 2021-03-09 | 北京影谱科技股份有限公司 | 一种基于三维信息的视觉问答方法及系统 |
CN112463936B (zh) * | 2020-09-24 | 2024-06-07 | 北京影谱科技股份有限公司 | 一种基于三维信息的视觉问答方法及系统 |
CN112873211B (zh) * | 2021-02-24 | 2022-03-11 | 清华大学 | 一种机器人人机交互方法 |
CN112873211A (zh) * | 2021-02-24 | 2021-06-01 | 清华大学 | 一种机器人人机交互方法 |
CN112926655B (zh) * | 2021-02-25 | 2022-05-17 | 电子科技大学 | 一种图像内容理解与视觉问答vqa方法、存储介质和终端 |
CN112926655A (zh) * | 2021-02-25 | 2021-06-08 | 电子科技大学 | 一种图像内容理解与视觉问答vqa方法、存储介质和终端 |
CN113010656A (zh) * | 2021-03-18 | 2021-06-22 | 广东工业大学 | 一种基于多模态融合和结构性控制的视觉问答方法 |
CN113837259A (zh) * | 2021-09-17 | 2021-12-24 | 中山大学附属第六医院 | 一种模态交互的图注意融合的教育视频问答方法及系统 |
CN113837259B (zh) * | 2021-09-17 | 2023-05-30 | 中山大学附属第六医院 | 一种模态交互的图注意融合的教育视频问答方法及系统 |
CN114398471A (zh) * | 2021-12-24 | 2022-04-26 | 哈尔滨工程大学 | 一种基于深层推理注意力机制的视觉问答方法 |
CN114840697A (zh) * | 2022-04-14 | 2022-08-02 | 山东大学 | 一种云服务机器人的视觉问答方法及系统 |
CN114840697B (zh) * | 2022-04-14 | 2024-04-26 | 山东大学 | 一种云服务机器人的视觉问答方法及系统 |
Also Published As
Publication number | Publication date |
---|---|
CN110851760B (zh) | 2022-12-27 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
CN110851760B (zh) | 在web3D环境融入视觉问答的人机交互系统 | |
CN109947954B (zh) | 多任务协同识别方法及系统 | |
CN110399518B (zh) | 一种基于图卷积的视觉问答增强方法 | |
CN105632251B (zh) | 具有语音功能的3d虚拟教师系统及其方法 | |
CN110377710A (zh) | 一种基于多模态融合的视觉问答融合增强方法 | |
CN114332578A (zh) | 图像异常检测模型训练方法、图像异常检测方法和装置 | |
CN111144553B (zh) | 一种基于时空记忆注意力的图像描述方法 | |
CN110287814A (zh) | 一种基于图像目标特征和多层注意力机制的视觉问答方法 | |
CN109766427A (zh) | 一种基于堆叠Bi-LSTM网络和协同注意力的虚拟学习环境智能问答方法 | |
CN117055724A (zh) | 虚拟教学场景中生成式教学资源系统及其工作方法 | |
CN111598183A (zh) | 一种多特征融合图像描述方法 | |
CN113780059A (zh) | 一种基于多特征点的连续手语识别方法 | |
CN114528490A (zh) | 一种基于用户长短期兴趣的自监督序列推荐方法 | |
CN118052907B (zh) | 一种文本配图生成方法和相关装置 | |
CN110826510A (zh) | 一种基于表情情感计算的三维教学课堂实现方法 | |
CN111563146A (zh) | 一种基于推理的难度可控问题生成方法 | |
CN112905762A (zh) | 一种基于同等注意力图网络的视觉问答方法 | |
CN109597998A (zh) | 一种视觉特征和语义表征联合嵌入的图像特征构建方法 | |
Rastgoo et al. | All you need in sign language production | |
CN117540703A (zh) | 文本生成方法、模型训练方法、装置及电子设备 | |
CN117036545A (zh) | 一种基于图像场景特征的图像描述文本生成方法及系统 | |
CN118233706A (zh) | 直播间场景互动应用方法、装置、设备及存储介质 | |
CN115731596A (zh) | 基于渐进式标签分布和深度网络的自发表情识别方法 | |
CN113779224A (zh) | 一种基于用户对话历史的个性化对话生成方法与系统 | |
CN111078008B (zh) | 一种早教机器人的控制方法 |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination | ||
GR01 | Patent grant | ||
GR01 | Patent grant |