CN115359786B - 多意图语义理解模型训练和使用方法以及装置 - Google Patents
多意图语义理解模型训练和使用方法以及装置 Download PDFInfo
- Publication number
- CN115359786B CN115359786B CN202211000586.2A CN202211000586A CN115359786B CN 115359786 B CN115359786 B CN 115359786B CN 202211000586 A CN202211000586 A CN 202211000586A CN 115359786 B CN115359786 B CN 115359786B
- Authority
- CN
- China
- Prior art keywords
- intent
- joint
- label
- semantic understanding
- understanding model
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Active
Links
- 238000000034 method Methods 0.000 title claims abstract description 76
- 238000012549 training Methods 0.000 title claims abstract description 53
- 230000015654 memory Effects 0.000 claims description 14
- 238000012545 processing Methods 0.000 claims description 8
- 238000004590 computer program Methods 0.000 claims description 7
- 238000013507 mapping Methods 0.000 claims description 5
- 230000002457 bidirectional effect Effects 0.000 claims description 4
- 230000008569 process Effects 0.000 claims description 4
- 238000002372 labelling Methods 0.000 description 17
- 238000010586 diagram Methods 0.000 description 9
- 230000006870 function Effects 0.000 description 6
- 238000012512 characterization method Methods 0.000 description 4
- 238000004891 communication Methods 0.000 description 4
- 238000004458 analytical method Methods 0.000 description 3
- 230000003993 interaction Effects 0.000 description 3
- 238000010295 mobile communication Methods 0.000 description 3
- 238000004364 calculation method Methods 0.000 description 2
- 238000013461 design Methods 0.000 description 2
- 230000002452 interceptive effect Effects 0.000 description 2
- 238000011160 research Methods 0.000 description 2
- 238000013528 artificial neural network Methods 0.000 description 1
- 230000009286 beneficial effect Effects 0.000 description 1
- 238000004422 calculation algorithm Methods 0.000 description 1
- 238000007796 conventional method Methods 0.000 description 1
- 238000013527 convolutional neural network Methods 0.000 description 1
- 230000007547 defect Effects 0.000 description 1
- 238000011161 development Methods 0.000 description 1
- 230000000694 effects Effects 0.000 description 1
- 238000005516 engineering process Methods 0.000 description 1
- 230000007787 long-term memory Effects 0.000 description 1
- 239000011159 matrix material Substances 0.000 description 1
- 238000012986 modification Methods 0.000 description 1
- 230000004048 modification Effects 0.000 description 1
- 230000003287 optical effect Effects 0.000 description 1
- 230000006403 short-term memory Effects 0.000 description 1
- 239000007787 solid Substances 0.000 description 1
- 238000006467 substitution reaction Methods 0.000 description 1
- 238000012546 transfer Methods 0.000 description 1
- 230000009466 transformation Effects 0.000 description 1
- 230000007704 transition Effects 0.000 description 1
Classifications
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L15/00—Speech recognition
- G10L15/08—Speech classification or search
- G10L15/18—Speech classification or search using natural language modelling
- G10L15/1822—Parsing for meaning understanding
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F40/00—Handling natural language data
- G06F40/10—Text processing
- G06F40/166—Editing, e.g. inserting or deleting
- G06F40/169—Annotation, e.g. comment data or footnotes
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06N—COMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
- G06N3/00—Computing arrangements based on biological models
- G06N3/02—Neural networks
- G06N3/08—Learning methods
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L15/00—Speech recognition
- G10L15/06—Creation of reference templates; Training of speech recognition systems, e.g. adaptation to the characteristics of the speaker's voice
- G10L15/063—Training
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L15/00—Speech recognition
- G10L15/08—Speech classification or search
- G10L15/16—Speech classification or search using artificial neural networks
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L15/00—Speech recognition
- G10L15/08—Speech classification or search
- G10L15/18—Speech classification or search using natural language modelling
- G10L15/1815—Semantic context, e.g. disambiguation of the recognition hypotheses based on word meaning
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L15/00—Speech recognition
- G10L15/06—Creation of reference templates; Training of speech recognition systems, e.g. adaptation to the characteristics of the speaker's voice
- G10L15/063—Training
- G10L2015/0631—Creating reference templates; Clustering
Landscapes
- Engineering & Computer Science (AREA)
- Physics & Mathematics (AREA)
- Artificial Intelligence (AREA)
- Computational Linguistics (AREA)
- Health & Medical Sciences (AREA)
- Audiology, Speech & Language Pathology (AREA)
- Human Computer Interaction (AREA)
- Acoustics & Sound (AREA)
- Multimedia (AREA)
- Theoretical Computer Science (AREA)
- General Engineering & Computer Science (AREA)
- General Physics & Mathematics (AREA)
- General Health & Medical Sciences (AREA)
- Evolutionary Computation (AREA)
- Life Sciences & Earth Sciences (AREA)
- Biomedical Technology (AREA)
- Biophysics (AREA)
- Data Mining & Analysis (AREA)
- Molecular Biology (AREA)
- Computing Systems (AREA)
- Mathematical Physics (AREA)
- Software Systems (AREA)
- Machine Translation (AREA)
Abstract
本发明公开多意图语义理解模型训练和使用方法、电子设备和存储介质,其中,一种多意图语义理解模型训练方法,包括:对带有联合标签标注的输入句子进行编码得到所述输入句子的向量表征;对所述向量表征进行解析得到联合标签的输出序列;基于所述联合标签标注和所述联合标签的输出序列对所述多意图语义理解模型进行训练。通过对带有联合标签标注的输入句子进行编码得到输入句子的向量表征,然后对向量表征进行解析得到联合标签的输出序列,最后基于联合标签标注和联合标签的输出序列对多意图语义理解模型进行训练,从而可以实现在同一句话出现多个同名的意图时也可以被联合标签表示和区分。
Description
技术领域
本发明属于语音数据处理技术领域,尤其涉及多意图语义理解模型训练和使用方法以及装置。
背景技术
近几年,由于对话系统的技术发展,越来越多的口语人机交互设备进入了广大人民群众的生活之中,比如家庭智能音箱、家庭智能电视,以及诸多的新能源汽车、地铁购票机等都开始大量搭载语音交互设备和功能。
在口语语义理解领域,一个句子单个意图的交互需求已经不能满足用户的需求。因此,支持一句话多意图的口语语义理解技术和方法成为了新的研究和应用热点。
现有技术支持的多意图中必须是不同的意图,没有考虑一句话中相同的意图多次出现,比如“打开空调再打开台灯”就是“设备控制”的意图出现了两次。以往的方法会把同一个意图名称的语义槽归到一起,但这是不对的,比如“打开空调在关闭台灯”,如果把“操作=打开,对象=空调,操作=关闭,对象=台灯”全部归到一个“设备控制”意图下面,则由于语义槽的无序性,无法知道“操作=打开”应该控制空调还是台灯。再比如“打开风扇和空气净化器再把风扇档位调到二”,如果把“操作=打开,对象=风扇,对象=空气净化器,档位=二”全部归到一起,同样无法知道“档位=二”是和风扇搭配还是和空气净化器搭配。
发明内容
本发明实施例提供一种多意图语义理解模型训练和使用方法以及装置,用于至少解决上述技术问题之一。
第一方面,本发明实施例提供一种多意图语义理解模型训练方法,包括:对带有联合标签标注的输入句子进行编码得到所述输入句子的向量表征,其中,所述联合标签标注包括语义槽标签标注和意图块编号标注,不同的意图具有不同的意图块编号;对所述向量表征进行解析得到联合标签的输出序列;基于所述联合标签标注和所述联合标签的输出序列对所述多意图语义理解模型进行训练。
第二方面,本发明实施例提供一种多意图语义理解模型使用方法,包括:将用户输入句子输入至根据所述方法训练后的多意图语义理解模型,获取所述多意图语义理解模型输出的联合标签的输出序列;对所述联合标签的输出序列进行处理得到多个意图块信息,其中,每一个意图块信息包括意图块编号和语义槽标签。
第三方面,本发明实施例提供一种多意图语义理解模型训练装置,包括:输入程序模块,配置为对带有联合标签标注的输入句子进行编码得到所述输入句子的向量表征,其中,所述联合标签标注包括语义槽标签标注和意图块编号标注,不同的意图具有不同的意图块编号;输出程序模块,配置为对所述向量表征进行解析得到联合标签的输出序列;训练程序模块,配置为基于所述联合标签标注和所述联合标签的输出序列对所述多意图语义理解模型进行训练。
第四方面,本发明实施例提供一种多意图语义理解模型使用装置,包括:获取程序模块,配置为将用户输入句子输入至根据所述方法训练后的多意图语义理解模型,获取所述多意图语义理解模型输出的联合标签的输出序列;处理程序模块,配置为对所述联合标签的输出序列进行处理得到多个意图块信息,其中,每一个意图块信息包括意图块编号和语义槽标签。
第五方面,提供一种电子设备,其包括:至少一个处理器,以及与所述至少一个处理器通信连接的存储器,其中,所述存储器存储有可被所述至少一个处理器执行的指令,所述指令被所述至少一个处理器执行,以使所述至少一个处理器能够执行本发明任一实施例的多意图语义理解模型训练和使用方法的步骤。
第六方面,本发明实施例还提供一种计算机程序产品,所述计算机程序产品包括存储在非易失性计算机可读存储介质上的计算机程序,所述计算机程序包括程序指令,当所述程序指令被计算机执行时,使所述计算机执行本发明任一实施例的多意图语义理解模型训练和使用方法的步骤。
本申请的方法和装置通过联合标签把意图块编号化,能够实现同一句话出现多个同名的意图也可以被联合标签表示和区分,因此现有的相似技术不能支持相同意图在一句话多次说的缺陷可以被联合标签解决掉;进一步地,联合标签设计中运行多个语义槽的拼接,故而可以支持一段文本同时属于不同的语义槽,使得多意图之间指代消解的问题也能得到一定程度的解决。
附图说明
为了更清楚地说明本发明实施例的技术方案,下面将对实施例描述中所需要使用的附图作一简单地介绍,显而易见地,下面描述中的附图是本发明的一些实施例,对于本领域普通技术人员来讲,在不付出创造性劳动的前提下,还可以根据这些附图获得其他的附图。
图1为本发明一实施例提供的一种多意图语义理解模型训练方法的流程图;
图2为本发明一实施例提供的一种多意图语义理解模型使用方法的流程图;
图3为本发明一实施例提供的另一种多意图语义理解模型使用方法的流程图;
图4为相关技术在机票领域的样本示例图;
图5为相关技术在智能家居领域的样本示例图;
图6为本发明一实施例提供的多意图语义理解模型训练和使用方法的一个具体示例的基于联合标签的多意图口语语义理解模型结构图;
图7为本发明一实施例提供的多意图语义理解模型训练和使用方法的一个具体示例的流程图;
图8为本发明一实施例提供的一种多意图语义理解模型训练装置的框图;
图9为本发明一实施例提供的一种多意图语义理解模型使用装置的框图;
图10是本发明一实施例提供的电子设备的结构示意图。
具体实施方式
为使本发明实施例的目的、技术方案和优点更加清楚,下面将结合本发明实施例中的附图,对本发明实施例中的技术方案进行清楚、完整地描述,显然,所描述的实施例是本发明一部分实施例,而不是全部的实施例。基于本发明中的实施例,本领域普通技术人员在没有作出创造性劳动前提下所获得的所有其他实施例,都属于本发明保护的范围。
请参考图1,其示出了本申请的多意图语义理解模型训练方法一实施例的流程图,本实施例的多意图语义理解模型训练方法可以适用于具备语音对话功能的终端、如智能音箱、智能手机、平板、电脑、智能电视、车机等。
如图1所示,在步骤101中,对带有联合标签标注的输入句子进行编码得到所述输入句子的向量表征,其中,所述联合标签标注包括语义槽标签标注和意图块编号标注,不同的意图具有不同的意图块编号;
在步骤102中,对所述向量表征进行解析得到联合标签的输出序列;
在步骤103中,基于所述联合标签标注和所述联合标签的输出序列对所述多意图语义理解模型进行训练。
在本实施例中,对于步骤101,多意图语义理解模型训练装置对带有联合标签标注的输入句子进行编码得到输入句子的向量表征,例如,可以利用一个上下文编码器将带有联合标签标注的输入句子映射为稠密的向量表征,其中,联合标签标注包括语义槽标签标注和意图块编号标注,不同的意图具有不同的意图块编号,如表1所示,以“打开空调和车窗”为例,其中“操作=打开,对象=空调”和“操作=打开,对象=车窗”是两个意图,那么可以在序列标注的时候增加一个意图块编号标注的辅助标签,例如,“操作=打开”同时属于意图1和意图2,因此可以把原始的语义槽标签和意图块编号标注共同组合成一个联合标签,我们可以利用序列标注模型建模多意图语义理解,因此我们最终的多意图语义槽联合标签,除了无意义的O标签外,其它的定义为:
(B|I)-SlotName-IntentNumber(;(B|I)-SlotName-IntenvtNumber)*
其中(B|I)表示开头为(begin\inside)标记,SlotName为语义槽名称(比如“操作、对象、城市名、日期”等),IntentNumber为意图块编号(为正整数),(...)*表示圆括号的内容可以重复0到多次。圆括号的内容是可以重复多次的,如表2所示,“上海”既是“导航”意图的“终点名称”,也是“天气查询”意图的“城市名”,因此“上”的最终标签是“B-终点名称-1;B-城市名-2”。由于我们把意图块编号化,因此同一句话出现多个同名的意图也可以被我们的联合标签表示和区分。
表1
表2
其中,上下文编码器可以是任何一种序列模型,例如双向长短时记忆网络(Bidirectional Long Short-Term Memory,BLSTM)、卷积神经网络或者转换器(Transformer)等,本申请在此没有限制。
然后,对于步骤102,多意图语义理解模型训练装置对向量表征进行解析得到联合标签的输出序列,例如,可以利用一个条件随机场模型来考虑相邻输出标签之间的依赖关系,条件随机场模型可以为输入的句子解析出最可能的联合标签序列,其中,条件随机场(conditional random fields,简称CRF,或CRFs),是一种判别式概率模型,是随机场的一种,常用于标注或分析序列资料,如自然语言文字或是生物序列;条件随机场的图模型布局是可以任意给定的,一般常用的布局是链结式的架构,链结式架构不论在训练(training)、推论(inference)、或是解码(decoding)上,都存在效率较高的算法可供演算,条件随机场是一个典型的判别式模型,其联合概率可以写成若干势函数联乘的形式,其中最常用的是线性链条件随机场。
最后,对于步骤103,多意图语义理解模型训练装置基于联合标签标注和联合标签的输出序列对多意图语义理解模型进行训练,例如,可以基于联合标签的数据标注与联合标签的定义(即将原始的语义槽标签和意图块编号共同组成),对多意图说法的句子进行序列级的人工标注,构建多意图语义理解的训练数据,之后基于多意图语义理解的训练数据,对多意图语义理解模型中包含的输入编码模块和输出解析模块的参数进行训练优化。
本实施例的方法通过对带有联合标签标注的输入句子进行编码得到输入句子的向量表征,然后对向量表征进行解析得到联合标签的输出序列,最后基于联合标签标注和联合标签的输出序列对多意图语义理解模型进行训练,从而可以实现在同一句话出现多个同名的意图时也可以被联合标签表示和区分。
在上述实施例的方法中,所述对带有联合标签标注的输入句子进行编码包括:
多意图语义理解模型训练装置采用基于转换器的双向编码表示器对带有联合标签标注的输入句子进行编码,本申请实施例采用了基于转换器的双向编码表示器(Bidirectional Encoder Representations from Transformers,BERT)作为上文本编码器;在一个具体示例中,公式如下:
(h0,h1,...,h|x|)=E(x)=BERT([CLS],x)
其中,x表示输入句子,E(x)表示输入句子x映射为稠密的向量表征,E表示双向编码表示器,[CLS]是表示句子开始的特殊词,专门用来获取句子整体的向量表征h0,然后hi表示句子中每个词的BERT词向量,i=1,...,|x|。
本实施例的方法通过采用基于转换器的双向编码表示器对带有联合标签标注的输入句子进行编码,从而可以将输入的句子映射为稠密的向量表征。
在一些可选的实施例中,所述对所述向量表征进行解析包括:
多意图语义理解模型训练装置采用条件随机场模型对所述输入句子的向量表征进行解析,其中,条件随机场模型可以为输入的句子解析出最可能的联合标签序列,在一具体示例中,联合标签序列y的后验概率公式p θ(y|x)为:
其中fE(yi,x)是输入句子第i个词的语义槽标签yi的发射得分,fT(yi-1,yi)是相邻联合标签yi-1和yi之间的转移得分。
条件随机场的转移得分都是固定的标签到标签的对应参数,而发射得分fE(yi,x)则是经过一个前馈神经网络计算得到的,即:
fE(yi,x)=hiWo+bo
其中Wo和bo分别是线性变换矩阵和偏置向量。
本实施例的方法通过采用条件随机场模型对所述输入句子的向量表征进行解析,从而可以为输入的句子解析出最可能的联合标签序列。
在一些可选的实施例中,在对带有联合标签标注的输入句子进行编码之前,所述方法还包括:
多意图语义理解模型训练装置获取对多意图说法的输入句子进行序列级标注后得到的带有联合标签标注的输入句子,例如,可以利用序列标注模型建模多意图语义理解,即对输入句子的字序列(或者词序列)预测等长的联合标签的输出序列。我们将一句话表示为一个字序列(或者词序列),即x=(x1,x2,...,x|x|),其中,|x|表示句子的长度,y=(y1,y2,...,y|x|)表示它的联合标签输出序列。
本实施例的方法通过获取对多意图说法的输入句子进行序列级标注后得到的带有联合标签标注的输入句子,从而可以构建多意图语义理解的训练数据。
进一步参考图2,其示出了本申请一实施例提供的一种多意图语义理解模型使用方法的流程图。
如图2所示,在步骤201中,将用户输入句子输入至根据所述方法训练后的多意图语义理解模型,获取所述多意图语义理解模型输出的联合标签的输出序列;
在步骤202中,对所述联合标签的输出序列进行处理得到多个意图块信息,其中,每一个意图块信息包括意图块编号和语义槽标签。
在本实施例中,对于步骤201,多意图语义理解模型使用装置将用户输入句子输入至训练后的多意图语义理解模型,获取多意图语义理解模型输出的联合标签的输出序列,例如,可以利用一个条件随机场模型来考虑相邻输出标签之间的依赖关系,其中,条件随机场模型可以为输入的句子解析出最可能的联合标签序列。
然后,对于步骤202,多意图语义理解模型使用装置对联合标签的输出序列进行处理得到多个意图块信息,其中,每一个意图块信息包括意图块编号和语义槽标签,例如,可以通过将联合标签和对应的文字按意图块编号进行汇总,会得到多个意图块信息,以“打开空调和车窗”为例,“打开空调和车窗”联合标签序列对应的多个意图块信息为“意图块1={操作=打开,对象=空调},意图块2={操作=打开,对象=车窗}”。
本实施例的方法通过为输入的句子解析出最可能的联合标签序列,从而可以实现在同一句话出现多个同名的意图时也可以被联合标签表示和区分。
进一步参考图3,其示出了本申请一实施例提供的另一种多意图语义理解模型使用方法的流程图。该流程图主要是对流程图2“对所述联合标签的输出序列进行处理得到多个意图块信息”之后的流程进一步限定的步骤的流程图。
如图3所示,在步骤301中,基于预设的槽位信息映射表获取与所述多个意图块信息对应的意图名称;
在步骤302中,给每一个意图块赋予对应的意图名称得到多意图语义信息。
在本实施例中,对于步骤301,多意图语义理解模型使用装置基于预设的槽位信息映射表获取与多个意图块信息对应的意图名称,以打开空调和车窗为例,“操作”加上“对象=(空调|车窗|灯|车门)”的意图映射为“设备控制”。
然后,对于步骤302,多意图语义理解模型使用装置给每一个意图块赋予对应的意图名称得到多意图语义信息。
本实施例的方法通过基于预设的槽位信息映射表获取与多个意图块信息对应的意图名称,之后给每一个意图块赋予对应的意图名称得到多意图语义信息,从而可以实现联合标签设计中运行多个语义槽的拼接,进一步地,可以支持一段文本同时属于不同的语义槽。
需要说明的是,上述方法步骤并不用于限制各步骤的执行顺序,实际上,某些步骤可能会同时执行或者以与步骤限定的相反的顺序执行,本申请在此没有限制。
请参考图4,其示出了本发明一实施例提供的多意图语义理解模型训练和使用方法的一个具体示例的单意图口语语义理解在机票领域的样本示例图。
如图4所示,口语语义理解是针对任务型对话系统中用户说的话的语义理解,旨在从用户句子中提取出当前领域的意图和语义槽等结构化的信息。比如用户说“查一下从上海去深圳的机票”,其对应的意图为“机票查询(FindFlight)”,语义槽信息为“出发城市(FromCity)=上海;到达城市(ToCity)=深圳”。所以,口语语义理解有分为两个子任务:意图分类和语义槽填充。其中意图分类就是一个句子分类任务,语义槽填充则是一个序列标注任务。如图4所示,由于一个语义槽可能覆盖多个字词,语义槽的标注遵循了BIO(begin\inside\outside)的标注形式。
请参考图5,其示出了本发明一实施例提供的多意图语义理解模型训练和使用方法的一个具体示例的多意图口语语义理解在智能家居领域的样本示例图。
如图5所示,在口语语义理解领域,一个句子单个意图的交互需求已经不能满足用户的需求。因此,支持一句话多意图的口语语义理解技术和方法成为了新的研究和应用热点。一句话多意图是指一句话的语义信息不再是一个单独的意图和其相关的语义槽了,而是有多个独立的意图及每个意图涉及的语义槽共同组成。比如用户说“打开空调然后拉上窗帘”,其意图有两个,分别是“打开空调”和“拉上窗帘”。如图5所示,我们可以看到有两个意图以及每个意图对应的语义槽序列。尤其需要指出,多意图的多个意图名称可以是一样的,就像图5例子所示,“打开空调”和“拉上窗帘”的意图名称都是“家居设备控制”。传统基于分类器思想和方法的技术只能输出一个或者多个不同名的意图,因此以往相似技术无法处理相同的意图在一句话中多次说的情况。同样地,为了支持相同的意图在一句话中多次说的情况,我们必须提出和以往方法有很大不同的新技术。
请参考图6,其示出了本发明一实施例提供的多意图语义理解模型训练和使用方法的一个具体示例的基于联合标签的多意图口语语义理解模型结构图。
如图6所示,基于最终的联合标签,我们可以利用序列标注模型建模多意图语义理解,即对输入句子的字序列(或者词序列)预测等长的联合标签的输出序列。
请参考图7,其示出了本发明一实施例提供的多意图语义理解模型训练和使用方法的一个具体示例的流程图。
如图7所示,步骤1:基于联合标签的数据标注,根据联合标签的定义(即将原始的语义槽标签和意图块编号共同组成),对多意图说法的句子进行序列级的人工标注,构建多意图语义理解的训练数据。
步骤2:模型训练,基于多意图语义理解的训练数据,对输入编码模块和输出解析模块的参数进行训练优化。
步骤3:输入编码模块,上下文编码器将输入的句子映射为稠密的向量表征。在该专利中,我们采用了基于转换器的双向编码表示器(BERT)作为上文本编码器。
步骤4:输出解析模块,基于上述的输入句子的向量表征,我们利用一个条件随机场模型来考虑相邻输出标签之间的依赖关系。条件随机场模型可以为输入的句子解析出最可能的联合标签序列。
步骤5:意图块结构化输出模块,基于上面步骤,得到了联合标签的输出序列。进一步通过将联合标签和对应的文字按意图块编号进行汇总,会得到多个意图块信息。最后经过一个意图预测模块,根据意图块信息预测该意图块的意图名称。
请参考图8,其示出了本发明一实施例提供的一种多意图语义理解模型训练装置的框图。
如图8所示,多意图语义理解模型训练装置800,包括输入程序模块810、输出程序模块820和训练程序模块830。
其中,输入程序模块810,配置为对带有联合标签标注的输入句子进行编码得到所述输入句子的向量表征,其中,所述联合标签标注包括语义槽标签标注和意图块编号标注,不同的意图具有不同的意图块编号;输出程序模块820,配置为对所述向量表征进行解析得到联合标签的输出序列;训练程序模块830,配置为基于所述联合标签标注和所述联合标签的输出序列对所述多意图语义理解模型进行训练。
请参考图9,其示出了本发明一实施例提供的一种多意图语义理解模型使用装置的框图。
如图9所示,一种多意图语义理解模型使用装置900,包括获取程序模块910和处理程序模块920。
其中,获取程序模块910,配置为将用户输入句子输入至根据权所述方法训练后的多意图语义理解模型,获取所述多意图语义理解模型输出的联合标签的输出序列;处理程序模块920,配置为对所述联合标签的输出序列进行处理得到多个意图块信息,其中,每一个意图块信息包括意图块编号和语义槽标签。
应当理解,图8和图9中记载的诸模块与参考图1、图2和图3中描述的方法中的各个步骤相对应。由此,上文针对方法描述的操作和特征以及相应的技术效果同样适用于图8和图9中的诸模块,在此不再赘述。
值得注意的是,本公开的实施例中的模块并不用于限制本公开的方案,例如输入程序模块可以描述为对带有联合标签标注的输入句子进行编码得到所述输入句子的向量表征,其中,所述联合标签标注包括语义槽标签标注和意图块编号标注,不同的意图具有不同的意图块编号的模块。另外,还可以通过硬件处理器来实现相关功能模块,例如输入程序模块也可以用处理器实现,在此不再赘述。
在另一些实施例中,本发明实施例还提供了一种非易失性计算机存储介质,计算机存储介质存储有计算机可执行指令,该计算机可执行指令可执行上述任意方法实施例中的多意图语义理解模型训练和使用方法;
作为一种实施方式,本发明的非易失性计算机存储介质存储有计算机可执行指令,计算机可执行指令设置为:
对带有联合标签标注的输入句子进行编码得到所述输入句子的向量表征,其中,所述联合标签标注包括语义槽标签标注和意图块编号标注,不同的意图具有不同的意图块编号;
对所述向量表征进行解析得到联合标签的输出序列;
基于所述联合标签标注和所述联合标签的输出序列对所述多意图语义理解模型进行训练。
作为另一种实施方式,本发明的非易失性计算机存储介质存储有计算机可执行指令,计算机可执行指令设置为:
将用户输入句子输入至根据所述方法训练后的多意图语义理解模型,获取所述多意图语义理解模型输出的联合标签的输出序列;
对所述联合标签的输出序列进行处理得到多个意图块信息,其中,每一个意图块信息包括意图块编号和语义槽标签。
非易失性计算机可读存储介质可以包括存储程序区和存储数据区,其中,存储程序区可存储操作系统、至少一个功能所需要的应用程序;存储数据区可存储根据多意图语义理解模型训练和使用装置的使用所创建的数据等。此外,非易失性计算机可读存储介质可以包括高速随机存取存储器,还可以包括非易失性存储器,例如至少一个磁盘存储器件、闪存器件、或其他非易失性固态存储器件。在一些实施例中,非易失性计算机可读存储介质可选包括相对于处理器远程设置的存储器,这些远程存储器可以通过网络连接至多意图语义理解模型训练和使用装置。上述网络的实例包括但不限于互联网、企业内部网、局域网、移动通信网及其组合。
本发明实施例还提供一种计算机程序产品,计算机程序产品包括存储在非易失性计算机可读存储介质上的计算机程序,计算机程序包括程序指令,当程序指令被计算机执行时,使计算机执行上述任一项多意图语义理解模型训练和使用方法。
图10是本发明实施例提供的电子设备的结构示意图,如图10所示,该设备包括:一个或多个处理器1010以及存储器1020,图10中以一个处理器1010为例。多意图语义理解模型训练和使用方法的设备还可以包括:输入装置1030和输出装置1040。处理器1010、存储器1020、输入装置1030和输出装置1040可以通过总线或者其他方式连接,图10中以通过总线连接为例。存储器1020为上述的非易失性计算机可读存储介质。处理器1010通过运行存储在存储器1020中的非易失性软件程序、指令以及模块,从而执行服务器的各种功能应用以及数据处理,即实现上述方法实施例多意图语义理解模型训练和使用方法。输入装置1030可接收输入的数字或字符信息,以及产生与通讯补偿装置的用户设置以及功能控制有关的键信号输入。输出装置1040可包括显示屏等显示设备。
上述产品可执行本发明实施例所提供的方法,具备执行方法相应的功能模块和有益效果。未在本实施例中详尽描述的技术细节,可参见本发明实施例所提供的方法。
作为一种实施方式,上述电子设备应用于多意图语义理解模型训练和使用装置中,用于客户端,包括:至少一个处理器;以及,与至少一个处理器通信连接的存储器;其中,存储器存储有可被至少一个处理器执行的指令,指令被至少一个处理器执行,以使至少一个处理器能够:
对带有联合标签标注的输入句子进行编码得到所述输入句子的向量表征,其中,所述联合标签标注包括语义槽标签标注和意图块编号标注,不同的意图具有不同的意图块编号;
对所述向量表征进行解析得到联合标签的输出序列;
基于所述联合标签标注和所述联合标签的输出序列对所述多意图语义理解模型进行训练。
作为另一种实施方式,上述电子设备应用于多意图语义理解模型训练和使用装置中,用于客户端,包括:至少一个处理器;以及,与至少一个处理器通信连接的存储器;其中,存储器存储有可被至少一个处理器执行的指令,指令被至少一个处理器执行,以使至少一个处理器能够:
将用户输入句子输入至根据所述方法训练后的多意图语义理解模型,获取所述多意图语义理解模型输出的联合标签的输出序列;
对所述联合标签的输出序列进行处理得到多个意图块信息,其中,每一个意图块信息包括意图块编号和语义槽标签。
本申请实施例的电子设备以多种形式存在,包括但不限于:
(1)移动通信设备:这类设备的特点是具备移动通信功能,并且以提供话音、数据通信为主要目标。这类终端包括:智能手机(例如iPhone)、多媒体手机、功能性手机,以及低端手机等。
(2)超移动个人计算机设备:这类设备属于个人计算机的范畴,有计算和处理功能,一般也具备移动上网特性。这类终端包括:PDA、MID和UMPC设备等,例如iPad。
(3)便携式娱乐设备:这类设备可以显示和播放多媒体内容。该类设备包括:音频、视频播放器(例如iPod),掌上游戏机,电子书,以及智能玩具和便携式车载导航设备。
(4)服务器:提供计算服务的设备,服务器的构成包括处理器、硬盘、内存、系统总线等,服务器和通用的计算机架构类似,但是由于需要提供高可靠的服务,因此在处理能力、稳定性、可靠性、安全性、可扩展性、可管理性等方面要求较高。
(5)其他具有数据交互功能的电子装置。
以上所描述的装置实施例仅仅是示意性的,其中作为分离部件说明的单元可以是或者也可以不是物理上分开的,作为单元显示的部件可以是或者也可以不是物理单元,即可以位于一个地方,或者也可以分布到多个网络单元上。可以根据实际的需要选择其中的部分或者全部模块来实现本实施例方案的目的。本领域普通技术人员在不付出创造性的劳动的情况下,即可以理解并实施。
通过以上的实施方式的描述,本领域的技术人员可以清楚地了解到各实施方式可借助软件加必需的通用硬件平台的方式来实现,当然也可以通过硬件。基于这样的理解,上述技术方案本质上或者说对现有技术做出贡献的部分可以以软件产品的形式体现出来,该计算机软件产品可以存储在计算机可读存储介质中,如ROM/RAM、磁碟、光盘等,包括若干指令用以使得一台计算机设备(可以是个人计算机,服务器,或者网络设备等)执行各个实施例或者实施例的某些部分的方法。
最后应说明的是:以上实施例仅用以说明本发明的技术方案,而非对其限制;尽管参照前述实施例对本发明进行了详细的说明,本领域的普通技术人员应当理解:其依然可以对前述各实施例所记载的技术方案进行修改,或者对其中部分技术特征进行等同替换;而这些修改或者替换,并不使相应技术方案的本质脱离本发明各实施例技术方案的精神和范围。
Claims (10)
1.一种多意图语义理解模型训练方法,包括:
对带有联合标签标注的输入句子进行编码得到所述输入句子的向量表征,其中,所述联合标签标注包括语义槽标签标注和意图块编号标注,不同的意图具有不同的意图块编号;
对所述向量表征进行解析得到联合标签的输出序列,其中,所述联合标签,除了无意义的O标签外,其它的定义为:
(B|I)-SlotName-IntentNumber(;(B|I)-SlotName-IntentNumber)*,其中,(B|I)表示开头为(begin\inside)标记,SlotName为语义槽名称,IntentNumber为所述意图块编号,所述意图块编号为正整数,(...)*表示圆括号的内容重复0到多次;
基于所述联合标签标注和所述联合标签的输出序列对所述多意图语义理解模型进行训练。
2.根据权利要求1所述的方法,其中,所述对带有联合标签标注的输入句子进行编码包括:
采用基于转换器的双向编码表示器对带有联合标签标注的输入句子进行编码。
3.根据权利要求1所述的方法,其中,所述对所述向量表征进行解析包括:
采用条件随机场模型对所述输入句子的向量表征进行解析。
4.根据权利要求1所述的方法,其中,在对带有联合标签标注的输入句子进行编码之前,所述方法还包括:
获取对多意图说法的输入句子进行序列级标注后得到的带有联合标签标注的输入句子。
5.一种多意图语义理解模型使用方法,包括:
将用户输入句子输入至根据权利要求1或2所述方法训练后的多意图语义理解模型,获取所述多意图语义理解模型输出的联合标签的输出序列;
对所述联合标签的输出序列进行处理得到多个意图块信息,其中,每一个意图块信息包括意图块编号和语义槽标签。
6.根据权利要求5所述的方法,其中,在对所述联合标签的输出序列进行处理得到多个意图块信息之后,所述方法还包括:
基于预设的槽位信息映射表获取与所述多个意图块信息对应的意图名称;
给每一个意图块赋予对应的意图名称得到多意图语义信息。
7.一种多意图语义理解模型训练装置,包括:
输入程序模块,配置为对带有联合标签标注的输入句子进行编码得到所述输入句子的向量表征,其中,所述联合标签标注包括语义槽标签标注和意图块编号标注,不同的意图具有不同的意图块编号;
输出程序模块,配置为对所述向量表征进行解析得到联合标签的输出序列,其中,所述联合标签,除了无意义的O标签外,其它的定义为:(B|I)-SlotName-IntentNumber(;(B|I)-SlotName-IntentNumber)*,其中,(B|I)表示开头为(begin\inside)标记,SlotName为语义槽名称,IntentNumber为所述意图块编号,所述意图块编号为正整数,(...)*表示圆括号的内容重复0到多次;
训练程序模块,配置为基于所述联合标签标注和所述联合标签的输出序列对所述多意图语义理解模型进行训练。
8.一种多意图语义理解模型使用装置,包括:
获取程序模块,配置为将用户输入句子输入至根据权利要求1或2所述方法训练后的多意图语义理解模型,获取所述多意图语义理解模型输出的联合标签的输出序列;
处理程序模块,配置为对所述联合标签的输出序列进行处理得到多个意图块信息,其中,每一个意图块信息包括意图块编号和语义槽标签。
9.一种电子设备,其包括:至少一个处理器,以及与所述至少一个处理器通信连接的存储器,其中,所述存储器存储有可被所述至少一个处理器执行的指令,所述指令被所述至少一个处理器执行,以使所述至少一个处理器能够执行权利要求1至6任一项所述方法的步骤。
10.一种存储介质,其上存储有计算机程序,其特征在于,所述程序被处理器执行时实现权利要求1至6任一项所述方法的步骤。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202211000586.2A CN115359786B (zh) | 2022-08-19 | 2022-08-19 | 多意图语义理解模型训练和使用方法以及装置 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202211000586.2A CN115359786B (zh) | 2022-08-19 | 2022-08-19 | 多意图语义理解模型训练和使用方法以及装置 |
Publications (2)
Publication Number | Publication Date |
---|---|
CN115359786A CN115359786A (zh) | 2022-11-18 |
CN115359786B true CN115359786B (zh) | 2025-03-14 |
Family
ID=84002442
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN202211000586.2A Active CN115359786B (zh) | 2022-08-19 | 2022-08-19 | 多意图语义理解模型训练和使用方法以及装置 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN115359786B (zh) |
Families Citing this family (1)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN118737134A (zh) * | 2023-03-31 | 2024-10-01 | 北京罗克维尔斯科技有限公司 | 指令处理方法、装置、设备、存储介质及车辆 |
Citations (3)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN112163086A (zh) * | 2020-10-30 | 2021-01-01 | 海信视像科技股份有限公司 | 多意图的识别方法、显示设备 |
CN113204952A (zh) * | 2021-03-26 | 2021-08-03 | 南京邮电大学 | 一种基于聚类预分析的多意图与语义槽联合识别方法 |
CN113515611A (zh) * | 2021-06-22 | 2021-10-19 | 镁佳(北京)科技有限公司 | 一种任务型多意图对话的意图识别方法和识别系统 |
Family Cites Families (8)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
US20200257856A1 (en) * | 2019-02-07 | 2020-08-13 | Clinc, Inc. | Systems and methods for machine learning based multi intent segmentation and classification |
CN111159358A (zh) * | 2019-12-31 | 2020-05-15 | 苏州思必驰信息科技有限公司 | 多意图识别训练和使用方法及装置 |
US11475220B2 (en) * | 2020-02-21 | 2022-10-18 | Adobe Inc. | Predicting joint intent-slot structure |
CN111738016B (zh) * | 2020-06-28 | 2023-09-05 | 中国平安财产保险股份有限公司 | 多意图识别方法及相关设备 |
CN111814489A (zh) * | 2020-07-23 | 2020-10-23 | 苏州思必驰信息科技有限公司 | 口语语义理解方法及系统 |
CN114186563A (zh) * | 2020-09-15 | 2022-03-15 | 华为技术有限公司 | 电子设备及其语义解析方法、介质和人机对话系统 |
CN112183061B (zh) * | 2020-09-28 | 2024-03-01 | 云知声智能科技股份有限公司 | 一种多意图口语理解方法、电子设备和存储介质 |
CN114818665B (zh) * | 2022-04-22 | 2023-05-12 | 电子科技大学 | 一种基于bert+bilstm+crf与xgboost模型的多意图识别方法和系统 |
-
2022
- 2022-08-19 CN CN202211000586.2A patent/CN115359786B/zh active Active
Patent Citations (3)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN112163086A (zh) * | 2020-10-30 | 2021-01-01 | 海信视像科技股份有限公司 | 多意图的识别方法、显示设备 |
CN113204952A (zh) * | 2021-03-26 | 2021-08-03 | 南京邮电大学 | 一种基于聚类预分析的多意图与语义槽联合识别方法 |
CN113515611A (zh) * | 2021-06-22 | 2021-10-19 | 镁佳(北京)科技有限公司 | 一种任务型多意图对话的意图识别方法和识别系统 |
Also Published As
Publication number | Publication date |
---|---|
CN115359786A (zh) | 2022-11-18 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
CN108846130B (zh) | 一种问题文本生成方法、装置、设备和介质 | |
CN110516253B (zh) | 中文口语语义理解方法及系统 | |
CN107680580B (zh) | 文本转换模型训练方法和装置、文本转换方法和装置 | |
CN108962224B (zh) | 口语理解和语言模型联合建模方法、对话方法及系统 | |
CN110807332A (zh) | 语义理解模型的训练方法、语义处理方法、装置及存储介质 | |
US20190005946A1 (en) | Method and apparatus for correcting speech recognition result, device and computer-readable storage medium | |
WO2021139108A1 (zh) | 情绪智能识别方法、装置、电子设备及存储介质 | |
CN111931517B (zh) | 文本翻译方法、装置、电子设备以及存储介质 | |
CN110795945A (zh) | 一种语义理解模型训练方法、语义理解方法、装置及存储介质 | |
CN109241330A (zh) | 用于识别音频中的关键短语的方法、装置、设备和介质 | |
CN108470188B (zh) | 基于图像分析的交互方法及电子设备 | |
CN112633003A (zh) | 一种地址识别方法、装置、计算机设备及存储介质 | |
CN110807333A (zh) | 一种语义理解模型的语义处理方法、装置及存储介质 | |
CN108197123A (zh) | 一种基于智能手表的云翻译系统和方法 | |
CN111402861A (zh) | 一种语音识别方法、装置、设备及存储介质 | |
CN113326367B (zh) | 基于端到端文本生成的任务型对话方法和系统 | |
CN116913278B (zh) | 语音处理方法、装置、设备和存储介质 | |
CN112037773A (zh) | 一种n最优口语语义识别方法、装置及电子设备 | |
CN113591472A (zh) | 歌词生成方法、歌词生成模型训练方法、装置及电子设备 | |
CN114625759A (zh) | 模型训练方法、智能问答方法、设备、介质及程序产品 | |
CN115359786B (zh) | 多意图语义理解模型训练和使用方法以及装置 | |
CN111625629B (zh) | 任务型对话机器人应答方法、装置及机器人、存储介质 | |
CN118520976B (zh) | 文本对话生成模型训练方法、文本对话生成方法及设备 | |
CN112257432A (zh) | 一种自适应意图识别方法、装置及电子设备 | |
CN116992283A (zh) | 语言模型动态更新方法、装置、电子设备及存储介质 |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination | ||
GR01 | Patent grant | ||
GR01 | Patent grant |