CN115690552A - 多意图识别方法、装置、计算机设备及存储介质 - Google Patents
多意图识别方法、装置、计算机设备及存储介质 Download PDFInfo
- Publication number
- CN115690552A CN115690552A CN202211717897.0A CN202211717897A CN115690552A CN 115690552 A CN115690552 A CN 115690552A CN 202211717897 A CN202211717897 A CN 202211717897A CN 115690552 A CN115690552 A CN 115690552A
- Authority
- CN
- China
- Prior art keywords
- feature
- information
- features
- intention
- fusion
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Pending
Links
- 238000000034 method Methods 0.000 title claims abstract description 54
- 230000004927 fusion Effects 0.000 claims abstract description 70
- 239000011159 matrix material Substances 0.000 claims abstract description 35
- 238000000605 extraction Methods 0.000 claims abstract description 30
- 238000013145 classification model Methods 0.000 claims abstract description 15
- 230000007246 mechanism Effects 0.000 claims description 31
- 238000004364 calculation method Methods 0.000 claims description 25
- 238000012545 processing Methods 0.000 claims description 16
- 238000010606 normalization Methods 0.000 claims description 9
- 230000008569 process Effects 0.000 claims description 9
- 238000004590 computer program Methods 0.000 claims description 7
- 238000001228 spectrum Methods 0.000 claims description 7
- 238000010276 construction Methods 0.000 claims description 6
- 238000003062 neural network model Methods 0.000 claims description 4
- 238000010586 diagram Methods 0.000 description 6
- 238000010801 machine learning Methods 0.000 description 4
- 238000004891 communication Methods 0.000 description 3
- 230000006835 compression Effects 0.000 description 2
- 238000007906 compression Methods 0.000 description 2
- 238000013135 deep learning Methods 0.000 description 2
- 238000003745 diagnosis Methods 0.000 description 2
- 238000005516 engineering process Methods 0.000 description 2
- 230000006870 function Effects 0.000 description 2
- 238000004519 manufacturing process Methods 0.000 description 2
- 230000003287 optical effect Effects 0.000 description 2
- 230000002787 reinforcement Effects 0.000 description 2
- 238000011160 research Methods 0.000 description 2
- 238000013528 artificial neural network Methods 0.000 description 1
- 238000004422 calculation algorithm Methods 0.000 description 1
- 230000007547 defect Effects 0.000 description 1
- 230000000694 effects Effects 0.000 description 1
- 239000000835 fiber Substances 0.000 description 1
- 230000010365 information processing Effects 0.000 description 1
- 230000003993 interaction Effects 0.000 description 1
- 238000007726 management method Methods 0.000 description 1
- 238000012986 modification Methods 0.000 description 1
- 230000004048 modification Effects 0.000 description 1
- 238000003058 natural language processing Methods 0.000 description 1
- 230000003068 static effect Effects 0.000 description 1
- 238000012706 support-vector machine Methods 0.000 description 1
- 238000012549 training Methods 0.000 description 1
Images
Landscapes
- Image Analysis (AREA)
Abstract
本发明公开了一种多意图识别方法、装置、设备及介质,包括:获取多模信息,其中,多模信息包括语音信息、文本信息和图片信息中的至少两项,对多模信息进行特征提取和特征融合,得到融合特征,采用多分类模型对融合特征进行分类,得到分类结果,分类结果至少包括两种意图,根据预设的意图关系,对分类结果构建多维关系矩阵,基于多维关系矩阵,确定关联意图和非关联意图,采用本发明提高了多意图分类识别的准确性。
Description
技术领域
本发明涉及自然语言处理领域,尤其涉及一种多意图识别方法、装置、计算机设备及存储介质。
背景技术
任务式智能对话系统的应用场景越来越多,已经成为目前的研究热点,尤其是在线上医疗诊断系统,智能问诊、预诊助理已经成为热门研究领域。任务式对话系统以目标任务为导向,实现业务目标,完成基于业务的对话流程,一般由六大组件构成,分别是ASR(语音识别)、NLU(自然语言理解)、DST(对话状态追踪)、DPL(对话策略学习)、NLG(自然语言生成)、TTS(语音生成),技术包含基于规则、机器学习、深度学习、强化学习、混合等方法。
现有方式中,进行意图识别主要采用的方式包括:基于规则的对话技术,基于机器学习的对话技术和基于单一意图的对话的对话技术。
发明人在实现本发明的过程中,意识到现有技术至少存在如下技术问题:
基于规则的对话技术,如:一种制造智能自动助手的方法和装置、一种使用的脚本语言编写的对话管理方法等,存在缺点:1、需要专家手工编写复杂规则,可扩展性差、2、不能从有限的数据中学习知识,使得对于未知的数据集难以识别意图或者意图识别不准确。
基于机器学习的对话技术,如:一种基于KNN的对话意图识别系统、一种基于支持向量机的任务式对话系统、一种使用深度学习方法的对话技术、一种使用强化学习进行对话策略的系统等,存在缺点:1、基于机器学习技术的对话技术算法存在计算复杂性和领域依赖性。2、利用有监督学习,大量的基于现有数据集资源,对计算资源要求相对较高,数据量较少的情况小,极易容易过拟合,使得意图识别准确率达不到实际应用的需求。
基于单一意图的对话的对话技术,如:一种单一意图识别的对话系统、一种简单的多意图识别对话系统等,存在缺陷,单一意图识别仅适用于简单的任务式对话流程,并不能满足较为复杂对话流程,针对复杂对话流程,意图识别准确率低。
因此,亟需一种针对多意图进行精准识别的意图识别方法。
发明内容
本发明实施例提供一种多意图识别方法、装置、计算机设备和存储介质,以提高多意图识别的准确性。
为了解决上述技术问题,本申请实施例提供一种多意图识别方法,包括:
获取多模信息,其中,所述多模信息包括语音信息、文本信息和图片信息中的至少两项;
对所述多模信息进行特征提取和特征融合,得到融合特征;
采用多分类模型对所述融合特征进行分类,得到分类结果,所述分类结果,所述分类结果至少包括两种意图;
根据预设的意图关系,对所述分类结果构建多维关系矩阵;
基于所述多维关系矩阵,确定关联意图和非关联意图。
可选地,所述对所述多模信息进行特征提取和特征融合,得到融合特征包括:
若所述多模信息中存在文本信息,采用bert模型进行特征文本信息提取,得到文本特征;
若所述多模信息中存在语音信息,对所述语音信息进行梅尔倒谱系数特征和Bark谱进行特征提取,将提取到的特征作为语音特征;
若所述多模信息中存在图片信息,采用深度残差网络对所述图片信息进行特征提取,将提取到的特征作为图片特征;
对所述文本特征、所述语音特征、所述图片特征进行归一化和特征融合,得到融合特征。
可选地,所述对所述文本特征、所述语音特征、所述图片特征进行归一化和特征融合,得到融合特征包括:
对所述文本特征、所述语音特征、所述图片特征进行归一化;
以矩阵拼接的方式,对归一化后的文本特征、归一化后语音特征、归一化后所述图片特征进行拼接,得到融合特征。
可选地,所述对所述文本特征、所述语音特征、所述图片特征进行归一化和特征融合,得到融合特征还包括:
对所述文本特征、所述语音特征、所述图片特征进行归一化;
以矩阵拼接的方式,对归一化后的文本特征、归一化后语音特征、归一化后所述图片特征进行拼接,得到拼接特征;
按预设方式从归一化后的文本特征、归一化后语音特征、归一化后所述图片特征中选取一种作为第一特征,剩下两种作为第二特征;
采用注意力机制的方式,将第一特征指向注意力机制的K向量和V向量,将所述第二特征指向注意力机制的Q向量,得到第一注意力计算结果;
采用注意力机制的方式,将第一特征指向注意力机制的Q向量,将所述第二特征指向注意力机制的K向量和V向量,得到第二注意力计算结果;
将所述拼接特征、所述第一注意力计算结果、所述第二注意力计算结果进行拼接,得到所述融合特征。
可选地,所述多分类模型为神经网络模型,所述多分类模型的分类器由全连接层构成。
可选地,在所述基于所述多维关系矩阵,确定关联意图和非关联意图之后,所述多意图识别方法还包括:
针对所述关联意图,获取关联意图的时间,根据关联意图的时间顺序依次放入全局队列进行识别处理;
针对非关联意图,采用虚拟对话管理器,对每个非关联意图进行分别识别处理。
可选地,所述针对所述关联意图,获取关联意图的时间,根据关联意图的时间顺序依次放入全局队列进行识别处理包括:
针对关联意图,将关联意图之间的时间和意图信息作为共享信息,放入共享槽位;
以所述共享槽位的槽位标识为键,以所述共享信息为值,生成键值对,并将所述键值对放入全局队列执行识别处理。
为了解决上述技术问题,本申请实施例还提供一种多意图识别装置,包括:
多模信息获取模块,用于获取多模信息,其中,所述多模信息包括语音信息、文本信息和图片信息中的至少两项;
特征提取融合模块,用于对所述多模信息进行特征提取和特征融合,得到融合特征;
融合信息分类模块,用于采用多分类模型对所述融合特征进行分类,得到分类结果,所述分类结果,所述分类结果至少包括两种意图;
关系矩阵构建模块,用于根据预设的意图关系,对所述分类结果构建多维关系矩阵;
关联意图识别模块,用于基于所述多维关系矩阵,确定关联意图和非关联意图。
可选地,所述特征提取融合模块包括:
第一提取单元,用于若所述多模信息中存在文本信息,采用bert模型进行特征文本信息提取,得到文本特征;
第二提取单元,用于若所述多模信息中存在语音信息,对所述语音信息进行梅尔倒谱系数特征和Bark谱进行特征提取,将提取到的特征作为语音特征;
第三提取单元,用于若所述多模信息中存在图片信息,采用深度残差网络对所述图片信息进行特征提取,将提取到的特征作为图片特征;
特征融合单元,用于对所述文本特征、所述语音特征、所述图片特征进行归一化和特征融合,得到融合特征。
可选地,所述特征融合单元包括:
第一归一化子单元,用于对所述文本特征、所述语音特征、所述图片特征进行归一化;
第一拼接子单元,用于以矩阵拼接的方式,对归一化后的文本特征、归一化后语音特征、归一化后所述图片特征进行拼接,得到融合特征。
可选地,所述特征融合单元还包括:
第二归一化子单元,用于对所述文本特征、所述语音特征、所述图片特征进行归一化;
第二拼接子单元,用于以矩阵拼接的方式,对归一化后的文本特征、归一化后语音特征、归一化后所述图片特征进行拼接,得到拼接特征;
特征选取子单元,用于按预设方式从归一化后的文本特征、归一化后语音特征、归一化后所述图片特征中选取一种作为第一特征,剩下两种作为第二特征;
第一注意力计算子单元,用于采用注意力机制的方式,将第一特征指向注意力机制的K向量和V向量,将所述第二特征指向注意力机制的Q向量,得到第一注意力计算结果;
第二注意力计算子单元,用于采用注意力机制的方式,将第一特征指向注意力机制的Q向量,将所述第二特征指向注意力机制的K向量和V向量,得到第二注意力计算结果;
拼接融合子单元,用于将所述拼接特征、所述第一注意力计算结果、所述第二注意力计算结果进行拼接,得到所述融合特征。
可选地所述多意图识别装置还包括:
第一意图识别模块,用于针对所述关联意图,获取关联意图的时间,根据关联意图的时间顺序依次放入全局队列进行识别处理;
第二意图识别模块,用于针对非关联意图,采用虚拟对话管理器,对每个非关联意图进行分别识别处理。
可选地,所述第一意图识别模块包括:
共享信息确定单元,用于针对关联意图,将关联意图之间的时间和意图信息作为共享信息,放入共享槽位;
键值对构建单元,用于以所述共享槽位的槽位标识为键,以所述共享信息为值,生成键值对,并将所述键值对放入全局队列执行识别处理。
为了解决上述技术问题,本申请实施例还提供一种计算机设备,包括存储器、处理器以及存储在所述存储器中并可在所述处理器上运行的计算机程序,所述处理器执行所述计算机程序时实现上述多意图识别方法的步骤。
为了解决上述技术问题,本申请实施例还提供一种计算机可读存储介质,所述计算机可读存储介质存储有计算机程序,所述计算机程序被处理器执行时实现上述多意图识别方法的步骤。
本发明实施例提供的多意图识别方法、装置、计算机设备及存储介质,通过获取多模信息,其中,多模信息包括语音信息、文本信息和图片信息中的至少两项,对多模信息进行特征提取和特征融合,得到融合特征,采用多分类模型对融合特征进行分类,得到分类结果,分类结果至少包括两种意图,根据预设的意图关系,对分类结果构建多维关系矩阵,基于多维关系矩阵,确定关联意图和非关联意图,实现多意图的分类识别,提高了意图识别的准确性。
附图说明
为了更清楚地说明本发明实施例的技术方案,下面将对本发明实施例的描述中所需要使用的附图作简单地介绍,显而易见地,下面描述中的附图仅仅是本发明的一些实施例,对于本领域普通技术人员来讲,在不付出创造性劳动性的前提下,还可以根据这些附图获得其他的附图。
图1是本申请可以应用于其中的示例性系统架构图;
图2是本申请的多意图识别方法的一个实施例的流程图;
图3是根据本申请的多意图识别装置的一个实施例的结构示意图;
图4是根据本申请的计算机设备的一个实施例的结构示意图。
具体实施方式
除非另有定义,本文所使用的所有的技术和科学术语与属于本申请的技术领域的技术人员通常理解的含义相同;本文中在申请的说明书中所使用的术语只是为了描述具体的实施例的目的,不是旨在于限制本申请;本申请的说明书和权利要求书及上述附图说明中的术语“包括”和“具有”以及它们的任何变形,意图在于覆盖不排他的包含。本申请的说明书和权利要求书或上述附图中的术语“第一”、“第二”等是用于区别不同对象,而不是用于描述特定顺序。
在本文中提及“实施例”意味着,结合实施例描述的特定特征、结构或特性可以包含在本申请的至少一个实施例中。在说明书中的各个位置出现该短语并不一定均是指相同的实施例,也不是与其它实施例互斥的独立的或备选的实施例。本领域技术人员显式地和隐式地理解的是,本文所描述的实施例可以与其它实施例相结合。
下面将结合本发明实施例中的附图,对本发明实施例中的技术方案进行清楚、完整地描述,显然,所描述的实施例是本发明一部分实施例,而不是全部的实施例。基于本发明中的实施例,本领域普通技术人员在没有作出创造性劳动前提下所获得的所有其他实施例,都属于本发明保护的范围。
请参阅图1,如图1所示,系统架构100可以包括终端设备101、102、103,网络104和服务器105。网络104用以在终端设备101、102、103和服务器105之间提供通信链路的介质。网络104可以包括各种连接类型,例如有线、无线通信链路或者光纤电缆等等。
用户可以使用终端设备101、102、103通过网络104与服务器105交互,以接收或发送消息等。
终端设备101、102、103可以是具有显示屏并且支持网页浏览的各种电子设备,包括但不限于智能手机、平板电脑、电子书阅读器、MP3播放器( Moving Picture ExpertsGroup Audio Layer III,动态影像专家压缩标准音频层面3 )、MP4( Moving PictureExperts Group Audio Layer IV,动态影像专家压缩标准音频层面4 )播放器、膝上型便携计算机和台式计算机等等。
服务器105可以是提供各种服务的服务器,例如对终端设备101、102、103上显示的页面提供支持的后台服务器。
需要说明的是,本申请实施例所提供的多意图识别方法由服务器执行,相应地,多意图识别装置设置于服务器中。
应该理解,图1中的终端设备、网络和服务器的数目仅仅是示意性的。根据实现需要,可以具有任意数目的终端设备、网络和服务器,本申请实施例中的终端设备101、102、103具体可以对应的是实际生产中的应用系统。
请参阅图2,图2示出本发明实施例提供的一种多意图识别方法,以该方法应用在图1中的服务端为例进行说明,详述如下:
S201:获取多模信息,其中,多模信息包括语音信息、文本信息和图片信息中的至少两项。
S202:对多模信息进行特征提取和特征融合,得到融合特征。
在一具体可选实施方式中,对多模信息进行特征提取和特征融合,得到融合特征包括:
若多模信息中存在文本信息,采用bert模型进行特征文本信息提取,得到文本特征;
若多模信息中存在语音信息,对语音信息进行梅尔倒谱系数特征和Bark谱进行特征提取,将提取到的特征作为语音特征;
若多模信息中存在图片信息,采用深度残差网络对图片信息进行特征提取,将提取到的特征作为图片特征;
对文本特征、语音特征、图片特征进行归一化和特征融合,得到融合特征。
具体地,针对文本数据,首先对文本进行切词并将其输入到词嵌入层,之后利用bert encoder层进行上下文语义编码,bert模型我们将其理解为深度神经网络,其具体原理通过构建自注意机制模块完成模型构建。
针对语音数据,首先准备语音信号数据,利用预加重滤波器(公式1-1)方法放大高频信息,加重滤波器有平衡频谱、避免 在傅立叶变换操作期间出现数值问题和还可改善信号噪声比(SNR)。
y(t)=x(t)-ax(t-1) (1-1)
然后需要将信号分成短时帧。通过在此短时帧上进行傅立叶变换,我们可以通过串联相邻帧来获得信号频率轮廓的良好近似值。之后将信号切成帧后,我们对每个帧应用诸如汉明窗之类的窗函数。汉明窗具有以下如公式1-2的形式,其中0≤n≤𝑁−1,𝑁是窗长:
在每个帧上进行傅立叶变换(或更具体地说是短时傅立叶变换),并计算功率谱;然后计算滤波器组。为了获得MFCC,可将离散余弦变换(DCT)应用于滤波器组,以保留多个所得系数,而其余系数则被丢弃,最终形成MFCC特征。
针对图像数据,首先利用图像数据集训练ResNet模型,之后直接提取中间特征层数据作为图像特征,ResNet也是深度神经网络模型,其主要采用残差连接方式提升训练效果。具体公式如下(公式1-3),其原理是输入x和编码后的H层进行相加:
Y=H(x,w h )+x (1-3)
进一步地,对文本特征、语音特征、图片特征进行归一化和特征融合,得到融合特征包括:
对文本特征、语音特征、图片特征进行归一化;
以矩阵拼接的方式,对归一化后的文本特征、归一化后语音特征、归一化后图片特征进行拼接,得到融合特征。
在一具体可选实施方式中,对文本特征、语音特征、图片特征进行归一化和特征融合,得到融合特征还包括:
对文本特征、语音特征、图片特征进行归一化;
以矩阵拼接的方式,对归一化后的文本特征、归一化后语音特征、归一化后图片特征进行拼接,得到拼接特征;
按预设方式从归一化后的文本特征、归一化后语音特征、归一化后图片特征中选取一种作为第一特征,剩下两种作为第二特征;
采用注意力机制的方式,将第一特征指向注意力机制的K向量和V向量,将第二特征指向注意力机制的Q向量,得到第一注意力计算结果;
采用注意力机制的方式,将第一特征指向注意力机制的Q向量,将第二特征指向注意力机制的K向量和V向量,得到第二注意力计算结果;
将拼接特征、第一注意力计算结果、第二注意力计算结果进行拼接,得到融合特征。
S203:采用多分类模型对融合特征进行分类,得到分类结果,分类结果至少包括两种意图。
可选地,多分类模型为神经网络模型,多分类模型的分类器由全连接层构成。
S204:根据预设的意图关系,对分类结果构建多维关系矩阵。
S205:基于多维关系矩阵,确定关联意图和非关联意图。
可选地,步骤S205之后,也即,在基于多维关系矩阵,确定关联意图和非关联意图之后,多意图识别方法还包括:
针对关联意图,获取关联意图的时间,根据关联意图的时间顺序依次放入全局队列进行识别处理;
针对非关联意图,采用虚拟对话管理器,对每个非关联意图进行分别识别处理。
可选地,步骤S205之后,也即,针对关联意图,获取关联意图的时间,根据关联意图的时间顺序依次放入全局队列进行识别处理包括:
针对关联意图,将关联意图之间的时间和意图信息作为共享信息,放入共享槽位;
以共享槽位的槽位标识为键,以共享信息为值,生成键值对,并将键值对放入全局队列执行识别处理。
本实施例中,获取多模信息,其中,多模信息包括语音信息、文本信息和图片信息中的至少两项,对多模信息进行特征提取和特征融合,得到融合特征,采用多分类模型对融合特征进行分类,得到分类结果,分类结果至少包括两种意图,根据预设的意图关系,对分类结果构建多维关系矩阵,基于多维关系矩阵,确定关联意图和非关联意图,实现多意图的分类识别,提高了意图识别的准确性。
应理解,上述实施例中各步骤的序号的大小并不意味着执行顺序的先后,各过程的执行顺序应以其功能和内在逻辑确定,而不应对本发明实施例的实施过程构成任何限定。
图3示出与上述实施例多意图识别方法一一对应的多意图识别装置的原理框图。如图3所示,该多意图识别装置包括多模信息获取模块31、特征提取融合模块32、融合信息分类模块33、关系矩阵构建模块34和关联意图识别模块35。各功能模块详细说明如下:
多模信息获取模块31,用于获取多模信息,其中,多模信息包括语音信息、文本信息和图片信息中的至少两项;
特征提取融合模块32,用于对多模信息进行特征提取和特征融合,得到融合特征;
融合信息分类模块33,用于采用多分类模型对融合特征进行分类,得到分类结果,分类结果至少包括两种意图;
关系矩阵构建模块34,用于根据预设的意图关系,对分类结果构建多维关系矩阵;
关联意图识别模块35,用于基于多维关系矩阵,确定关联意图和非关联意图。
可选地,特征提取融合模块32包括:
第一提取单元,用于若多模信息中存在文本信息,采用bert模型进行特征文本信息提取,得到文本特征;
第二提取单元,用于若多模信息中存在语音信息,对语音信息进行梅尔倒谱系数特征和Bark谱进行特征提取,将提取到的特征作为语音特征;
第三提取单元,用于若多模信息中存在图片信息,采用深度残差网络对图片信息进行特征提取,将提取到的特征作为图片特征;
特征融合单元,用于对文本特征、语音特征、图片特征进行归一化和特征融合,得到融合特征。
可选地,特征融合单元包括:
第一归一化子单元,用于对文本特征、语音特征、图片特征进行归一化;
第一拼接子单元,用于以矩阵拼接的方式,对归一化后的文本特征、归一化后语音特征、归一化后图片特征进行拼接,得到融合特征。
可选地,特征融合单元还包括:
第二归一化子单元,用于对文本特征、语音特征、图片特征进行归一化;
第二拼接子单元,用于以矩阵拼接的方式,对归一化后的文本特征、归一化后语音特征、归一化后图片特征进行拼接,得到拼接特征;
特征选取子单元,用于按预设方式从归一化后的文本特征、归一化后语音特征、归一化后图片特征中选取一种作为第一特征,剩下两种作为第二特征;
第一注意力计算子单元,用于采用注意力机制的方式,将第一特征指向注意力机制的K向量和V向量,将第二特征指向注意力机制的Q向量,得到第一注意力计算结果;
第二注意力计算子单元,用于采用注意力机制的方式,将第一特征指向注意力机制的Q向量,将第二特征指向注意力机制的K向量和V向量,得到第二注意力计算结果;
拼接融合子单元,用于将拼接特征、第一注意力计算结果、第二注意力计算结果进行拼接,得到融合特征。
可选地多意图识别装置还包括:
第一意图识别模块,用于针对关联意图,获取关联意图的时间,根据关联意图的时间顺序依次放入全局队列进行识别处理;
第二意图识别模块,用于针对非关联意图,采用虚拟对话管理器,对每个非关联意图进行分别识别处理。
可选地,第一意图识别模块包括:
共享信息确定单元,用于针对关联意图,将关联意图之间的时间和意图信息作为共享信息,放入共享槽位;
键值对构建单元,用于以共享槽位的槽位标识为键,以共享信息为值,生成键值对,并将键值对放入全局队列执行识别处理。
关于多意图识别装置的具体限定可以参见上文中对于多意图识别方法的限定,在此不再赘述。上述多意图识别装置中的各个模块可全部或部分通过软件、硬件及其组合来实现。上述各模块可以硬件形式内嵌于或独立于计算机设备中的处理器中,也可以以软件形式存储于计算机设备中的存储器中,以便于处理器调用执行以上各个模块对应的操作。
为解决上述技术问题,本申请实施例还提供计算机设备。具体请参阅图4,图4为本实施例计算机设备基本结构框图。
所述计算机设备4包括通过系统总线相互通信连接存储器41、处理器42、网络接口43。需要指出的是,图中仅示出了具有组件连接存储器41、处理器42、网络接口43的计算机设备4,但是应理解的是,并不要求实施所有示出的组件,可以替代的实施更多或者更少的组件。其中,本技术领域技术人员可以理解,这里的计算机设备是一种能够按照事先设定或存储的指令,自动进行数值计算和/或信息处理的设备,其硬件包括但不限于微处理器、专用集成电路(Application Specific Integrated Circuit,ASIC)、可编程门阵列(Field-Programmable Gate Array,FPGA)、数字处理器 (Digital Signal Processor,DSP)、嵌入式设备等。
所述计算机设备可以是桌上型计算机、笔记本、掌上电脑及云端服务器等计算设备。所述计算机设备可以与用户通过键盘、鼠标、遥控器、触摸板或声控设备等方式进行人机交互。
所述存储器41至少包括一种类型的可读存储介质,所述可读存储介质包括闪存、硬盘、多媒体卡、卡型存储器(例如,SD或D界面显示存储器等)、随机访问存储器(RAM)、静态随机访问存储器(SRAM)、只读存储器(ROM)、电可擦除可编程只读存储器(EEPROM)、可编程只读存储器(PROM)、磁性存储器、磁盘、光盘等。在一些实施例中,所述存储器41可以是所述计算机设备4的内部存储单元,例如该计算机设备4的硬盘或内存。在另一些实施例中,所述存储器41也可以是所述计算机设备4的外部存储设备,例如该计算机设备4上配备的插接式硬盘,智能存储卡(Smart Media Card, SMC),安全数字(Secure Digital, SD)卡,闪存卡(Flash Card)等。当然,所述存储器41还可以既包括所述计算机设备4的内部存储单元也包括其外部存储设备。本实施例中,所述存储器41通常用于存储安装于所述计算机设备4的操作系统和各类应用软件,例如电子文件的控制的程序代码等。此外,所述存储器41还可以用于暂时地存储已经输出或者将要输出的各类数据。
所述处理器42在一些实施例中可以是中央处理器(Central Processing Unit,CPU)、控制器、微控制器、微处理器、或其他数据处理芯片。该处理器42通常用于控制所述计算机设备4的总体操作。本实施例中,所述处理器42用于运行所述存储器41中存储的程序代码或者处理数据,例如运行电子文件的控制的程序代码。
所述网络接口43可包括无线网络接口或有线网络接口,该网络接口43通常用于在所述计算机设备4与其他电子设备之间建立通信连接。
本申请还提供了另一种实施方式,即提供一种计算机可读存储介质,所述计算机可读存储介质存储有界面显示程序,所述界面显示程序可被至少一个处理器执行,以使所述至少一个处理器执行如上述的多意图识别方法的步骤。
通过以上的实施方式的描述,本领域的技术人员可以清楚地了解到上述实施例方法可借助软件加必需的通用硬件平台的方式来实现,当然也可以通过硬件,但很多情况下前者是更佳的实施方式。基于这样的理解,本申请的技术方案本质上或者说对现有技术做出贡献的部分可以以软件产品的形式体现出来,该计算机软件产品存储在一个存储介质(如ROM/RAM、磁碟、光盘)中,包括若干指令用以使得一台终端设备(可以是手机,计算机,服务器,空调器,或者网络设备等)执行本申请各个实施例所述的方法。
显然,以上所描述的实施例仅仅是本申请一部分实施例,而不是全部的实施例,附图中给出了本申请的较佳实施例,但并不限制本申请的专利范围。本申请可以以许多不同的形式来实现,相反地,提供这些实施例的目的是使对本申请的公开内容的理解更加透彻全面。尽管参照前述实施例对本申请进行了详细的说明,对于本领域的技术人员来而言,其依然可以对前述各具体实施方式所记载的技术方案进行修改,或者对其中部分技术特征进行等效替换。凡是利用本申请说明书及附图内容所做的等效结构,直接或间接运用在其他相关的技术领域,均同理在本申请专利保护范围之内。
Claims (10)
1.一种多意图识别方法,其特征在于,包括:
获取多模信息,其中,所述多模信息包括语音信息、文本信息和图片信息中的至少两项;
对所述多模信息进行特征提取和特征融合,得到融合特征;
采用多分类模型对所述融合特征进行分类,得到分类结果,所述分类结果,所述分类结果至少包括两种意图;
根据预设的意图关系,对所述分类结果构建多维关系矩阵;
基于所述多维关系矩阵,确定关联意图和非关联意图。
2.如权利要求1所述的多意图识别方法,其特征在于,所述对所述多模信息进行特征提取和特征融合,得到融合特征包括:
若所述多模信息中存在文本信息,采用bert模型进行特征文本信息提取,得到文本特征;
若所述多模信息中存在语音信息,对所述语音信息进行梅尔倒谱系数特征和Bark谱进行特征提取,将提取到的特征作为语音特征;
若所述多模信息中存在图片信息,采用深度残差网络对所述图片信息进行特征提取,将提取到的特征作为图片特征;
对所述文本特征、所述语音特征、所述图片特征进行归一化和特征融合,得到融合特征。
3.如权利要求2所述的多意图识别方法,其特征在于,所述对所述文本特征、所述语音特征、所述图片特征进行归一化和特征融合,得到融合特征包括:
对所述文本特征、所述语音特征、所述图片特征进行归一化;
以矩阵拼接的方式,对归一化后的文本特征、归一化后语音特征、归一化后所述图片特征进行拼接,得到融合特征。
4.如权利要求2所述的多意图识别方法,其特征在于,所述对所述文本特征、所述语音特征、所述图片特征进行归一化和特征融合,得到融合特征还包括:
对所述文本特征、所述语音特征、所述图片特征进行归一化;
以矩阵拼接的方式,对归一化后的文本特征、归一化后语音特征、归一化后所述图片特征进行拼接,得到拼接特征;
按预设方式从归一化后的文本特征、归一化后语音特征、归一化后所述图片特征中选取一种作为第一特征,剩下两种作为第二特征;
采用注意力机制的方式,将第一特征指向注意力机制的K向量和V向量,将所述第二特征指向注意力机制的Q向量,得到第一注意力计算结果;
采用注意力机制的方式,将第一特征指向注意力机制的Q向量,将所述第二特征指向注意力机制的K向量和V向量,得到第二注意力计算结果;
将所述拼接特征、所述第一注意力计算结果、所述第二注意力计算结果进行拼接,得到所述融合特征。
5.如权利要求1所述的多意图识别方法,其特征在于,所述多分类模型为神经网络模型,所述多分类模型的分类器由全连接层构成。
6.如权利要求1至5任一项所述的多意图识别方法,其特征在于,在所述基于所述多维关系矩阵,确定关联意图和非关联意图之后,所述多意图识别方法还包括:
针对所述关联意图,获取关联意图的时间,根据关联意图的时间顺序依次放入全局队列进行识别处理;
针对非关联意图,采用虚拟对话管理器,对每个非关联意图进行分别识别处理。
7.如权利要求6所述的多意图识别方法,其特征在于,所述针对所述关联意图,获取关联意图的时间,根据关联意图的时间顺序依次放入全局队列进行识别处理包括:
针对关联意图,将关联意图之间的时间和意图信息作为共享信息,放入共享槽位;
以所述共享槽位的槽位标识为键,以所述共享信息为值,生成键值对,并将所述键值对放入全局队列执行识别处理。
8.一种多意图识别装置,其特征在于,所述多意图识别装置包括:
多模信息获取模块,用于获取多模信息,其中,所述多模信息包括语音信息、文本信息和图片信息中的至少两项;
特征提取融合模块,用于对所述多模信息进行特征提取和特征融合,得到融合特征;
融合信息分类模块,用于采用多分类模型对所述融合特征进行分类,得到分类结果,所述分类结果,所述分类结果至少包括两种意图;
关系矩阵构建模块,用于根据预设的意图关系,对所述分类结果构建多维关系矩阵;
关联意图识别模块,用于基于所述多维关系矩阵,确定关联意图和非关联意图。
9.一种计算机设备,包括存储器、处理器以及存储在所述存储器中并可在所述处理器上运行的计算机程序,其特征在于,所述处理器执行所述计算机程序时实现如权利要求1至7任一项所述的多意图识别方法。
10.一种计算机可读存储介质,所述计算机可读存储介质存储有计算机程序,其特征在于,所述计算机程序被处理器执行时实现如权利要求1至7任一项所述的多意图识别方法。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202211717897.0A CN115690552A (zh) | 2022-12-30 | 2022-12-30 | 多意图识别方法、装置、计算机设备及存储介质 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202211717897.0A CN115690552A (zh) | 2022-12-30 | 2022-12-30 | 多意图识别方法、装置、计算机设备及存储介质 |
Publications (1)
Publication Number | Publication Date |
---|---|
CN115690552A true CN115690552A (zh) | 2023-02-03 |
Family
ID=85057206
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN202211717897.0A Pending CN115690552A (zh) | 2022-12-30 | 2022-12-30 | 多意图识别方法、装置、计算机设备及存储介质 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN115690552A (zh) |
Cited By (2)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN117197481A (zh) * | 2023-08-28 | 2023-12-08 | 中国移动通信集团浙江有限公司 | 任务处理方法、装置、电子设备及存储介质 |
CN119089395A (zh) * | 2024-11-06 | 2024-12-06 | 湖南工商大学 | 多模态信息提取方法、装置、计算机设备及存储介质 |
Citations (11)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
JP2007148118A (ja) * | 2005-11-29 | 2007-06-14 | Infocom Corp | 音声対話システム |
US20160349941A1 (en) * | 2015-05-29 | 2016-12-01 | Flipboard, Inc. | Queuing Actions Received While a Client Device is Offline for Execution When Connectivity is Restored Between the Client Device and a Digital Magazine Server |
CN111737458A (zh) * | 2020-05-21 | 2020-10-02 | 平安国际智慧城市科技股份有限公司 | 基于注意力机制的意图识别方法、装置、设备及存储介质 |
CN112035645A (zh) * | 2020-09-01 | 2020-12-04 | 平安科技(深圳)有限公司 | 数据查询方法以及系统 |
US20210011941A1 (en) * | 2019-07-14 | 2021-01-14 | Alibaba Group Holding Limited | Multimedia file categorizing, information processing, and model training method, system, and device |
CN113408385A (zh) * | 2021-06-10 | 2021-09-17 | 华南理工大学 | 一种音视频多模态情感分类方法及系统 |
WO2022078346A1 (zh) * | 2020-10-13 | 2022-04-21 | 深圳壹账通智能科技有限公司 | 文本意图识别方法、装置、电子设备及存储介质 |
CN114398961A (zh) * | 2021-12-28 | 2022-04-26 | 西南交通大学 | 一种基于多模态深度特征融合的视觉问答方法及其模型 |
CN114627868A (zh) * | 2022-03-03 | 2022-06-14 | 平安普惠企业管理有限公司 | 意图识别方法、装置、模型及电子设备 |
CN115292463A (zh) * | 2022-08-08 | 2022-11-04 | 云南大学 | 一种基于信息抽取的联合多意图检测和重叠槽填充的方法 |
CN115510224A (zh) * | 2022-07-14 | 2022-12-23 | 南京邮电大学 | 一种基于视觉、音频与文本融合的跨模态bert情感分析方法 |
-
2022
- 2022-12-30 CN CN202211717897.0A patent/CN115690552A/zh active Pending
Patent Citations (11)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
JP2007148118A (ja) * | 2005-11-29 | 2007-06-14 | Infocom Corp | 音声対話システム |
US20160349941A1 (en) * | 2015-05-29 | 2016-12-01 | Flipboard, Inc. | Queuing Actions Received While a Client Device is Offline for Execution When Connectivity is Restored Between the Client Device and a Digital Magazine Server |
US20210011941A1 (en) * | 2019-07-14 | 2021-01-14 | Alibaba Group Holding Limited | Multimedia file categorizing, information processing, and model training method, system, and device |
CN111737458A (zh) * | 2020-05-21 | 2020-10-02 | 平安国际智慧城市科技股份有限公司 | 基于注意力机制的意图识别方法、装置、设备及存储介质 |
CN112035645A (zh) * | 2020-09-01 | 2020-12-04 | 平安科技(深圳)有限公司 | 数据查询方法以及系统 |
WO2022078346A1 (zh) * | 2020-10-13 | 2022-04-21 | 深圳壹账通智能科技有限公司 | 文本意图识别方法、装置、电子设备及存储介质 |
CN113408385A (zh) * | 2021-06-10 | 2021-09-17 | 华南理工大学 | 一种音视频多模态情感分类方法及系统 |
CN114398961A (zh) * | 2021-12-28 | 2022-04-26 | 西南交通大学 | 一种基于多模态深度特征融合的视觉问答方法及其模型 |
CN114627868A (zh) * | 2022-03-03 | 2022-06-14 | 平安普惠企业管理有限公司 | 意图识别方法、装置、模型及电子设备 |
CN115510224A (zh) * | 2022-07-14 | 2022-12-23 | 南京邮电大学 | 一种基于视觉、音频与文本融合的跨模态bert情感分析方法 |
CN115292463A (zh) * | 2022-08-08 | 2022-11-04 | 云南大学 | 一种基于信息抽取的联合多意图检测和重叠槽填充的方法 |
Non-Patent Citations (2)
Title |
---|
俞凯;陈露;陈博;孙锴;朱苏;: "任务型人机对话系统中的认知技术――概念、进展及其未来" * |
周权;陈永生;郭玉臣;: "基于多特征融合的意图识别算法研究" * |
Cited By (2)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN117197481A (zh) * | 2023-08-28 | 2023-12-08 | 中国移动通信集团浙江有限公司 | 任务处理方法、装置、电子设备及存储介质 |
CN119089395A (zh) * | 2024-11-06 | 2024-12-06 | 湖南工商大学 | 多模态信息提取方法、装置、计算机设备及存储介质 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
CN112685565B (zh) | 基于多模态信息融合的文本分类方法、及其相关设备 | |
CN110570869B (zh) | 一种声纹识别方法、装置、设备及存储介质 | |
CN110277088A (zh) | 智能语音识别方法、装置及计算机可读存储介质 | |
CN112328761A (zh) | 一种意图标签设置方法、装置、计算机设备及存储介质 | |
CN112653798A (zh) | 智能客服语音应答方法、装置、计算机设备及存储介质 | |
CN113901836B (zh) | 基于上下文语义的词义消歧方法、装置及相关设备 | |
CN112084752B (zh) | 基于自然语言的语句标注方法、装置、设备及存储介质 | |
CN112836521A (zh) | 问答匹配方法、装置、计算机设备及存储介质 | |
CN112699213A (zh) | 语音意图识别方法、装置、计算机设备及存储介质 | |
CN112906368B (zh) | 行业文本增量方法、相关装置及计算机程序产品 | |
CN115690552A (zh) | 多意图识别方法、装置、计算机设备及存储介质 | |
CN112199954A (zh) | 基于语音语义的疾病实体匹配方法、装置及计算机设备 | |
CN112037772A (zh) | 基于多模态的响应义务检测方法、系统及装置 | |
CN113887237A (zh) | 多意图文本的槽位预测方法、装置及计算机设备 | |
CN113220828B (zh) | 意图识别模型处理方法、装置、计算机设备及存储介质 | |
CN112669850A (zh) | 语音质量检测方法、装置、计算机设备及存储介质 | |
CN115438149A (zh) | 一种端到端模型训练方法、装置、计算机设备及存储介质 | |
CN114021582A (zh) | 结合语音信息的口语理解方法、装置、设备及存储介质 | |
CN111898363B (zh) | 文本长难句的压缩方法、装置、计算机设备及存储介质 | |
CN115687934A (zh) | 意图识别方法、装置、计算机设备及存储介质 | |
CN119089395B (zh) | 多模态信息提取方法、装置、计算机设备及存储介质 | |
CN114218356B (zh) | 基于人工智能的语义识别方法、装置、设备及存储介质 | |
CN115827872A (zh) | 一种意图识别模型的训练方法、意图识别方法及装置 | |
CN112364649B (zh) | 命名实体的识别方法、装置、计算机设备及存储介质 | |
CN114048757A (zh) | 一种手语合成方法、装置、计算机设备及存储介质 |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination |