CN114722827B - 任务处理模型的模型训练方法、装置、设备及存储介质 - Google Patents
任务处理模型的模型训练方法、装置、设备及存储介质 Download PDFInfo
- Publication number
- CN114722827B CN114722827B CN202210373086.7A CN202210373086A CN114722827B CN 114722827 B CN114722827 B CN 114722827B CN 202210373086 A CN202210373086 A CN 202210373086A CN 114722827 B CN114722827 B CN 114722827B
- Authority
- CN
- China
- Prior art keywords
- model
- subtask
- training
- task
- models
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Active
Links
- 238000012549 training Methods 0.000 title claims abstract description 323
- 238000000034 method Methods 0.000 title claims abstract description 139
- 238000012545 processing Methods 0.000 title claims abstract description 90
- 238000000605 extraction Methods 0.000 claims abstract description 44
- 230000008859 change Effects 0.000 claims abstract description 18
- 239000013598 vector Substances 0.000 claims description 62
- 238000013528 artificial neural network Methods 0.000 claims description 45
- 230000006870 function Effects 0.000 claims description 25
- 230000008569 process Effects 0.000 claims description 19
- 230000008451 emotion Effects 0.000 claims description 14
- 230000000737 periodic effect Effects 0.000 claims description 14
- 238000013145 classification model Methods 0.000 claims description 13
- 238000001514 detection method Methods 0.000 claims description 12
- 238000004590 computer program Methods 0.000 claims description 11
- 230000000630 rising effect Effects 0.000 claims 2
- 230000000694 effects Effects 0.000 abstract description 7
- 230000011218 segmentation Effects 0.000 description 12
- 238000010586 diagram Methods 0.000 description 7
- 239000011159 matrix material Substances 0.000 description 7
- 239000000284 extract Substances 0.000 description 4
- 230000010365 information processing Effects 0.000 description 4
- 238000004891 communication Methods 0.000 description 3
- 230000008878 coupling Effects 0.000 description 3
- 238000010168 coupling process Methods 0.000 description 3
- 238000005859 coupling reaction Methods 0.000 description 3
- 238000005516 engineering process Methods 0.000 description 3
- 238000003058 natural language processing Methods 0.000 description 3
- 230000009467 reduction Effects 0.000 description 3
- 238000009825 accumulation Methods 0.000 description 2
- 238000007664 blowing Methods 0.000 description 2
- 101001121408 Homo sapiens L-amino-acid oxidase Proteins 0.000 description 1
- 101000827703 Homo sapiens Polyphosphoinositide phosphatase Proteins 0.000 description 1
- 102100026388 L-amino-acid oxidase Human genes 0.000 description 1
- 102100023591 Polyphosphoinositide phosphatase Human genes 0.000 description 1
- 101100012902 Saccharomyces cerevisiae (strain ATCC 204508 / S288c) FIG2 gene Proteins 0.000 description 1
- 101100233916 Saccharomyces cerevisiae (strain ATCC 204508 / S288c) KAR5 gene Proteins 0.000 description 1
- 230000009286 beneficial effect Effects 0.000 description 1
- 230000007423 decrease Effects 0.000 description 1
- 238000012986 modification Methods 0.000 description 1
- 230000004048 modification Effects 0.000 description 1
- 238000003062 neural network model Methods 0.000 description 1
- 230000003287 optical effect Effects 0.000 description 1
- 230000001360 synchronised effect Effects 0.000 description 1
Classifications
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F16/00—Information retrieval; Database structures therefor; File system structures therefor
- G06F16/30—Information retrieval; Database structures therefor; File system structures therefor of unstructured textual data
- G06F16/35—Clustering; Classification
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F40/00—Handling natural language data
- G06F40/20—Natural language analysis
- G06F40/279—Recognition of textual entities
- G06F40/289—Phrasal analysis, e.g. finite state techniques or chunking
- G06F40/295—Named entity recognition
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06N—COMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
- G06N3/00—Computing arrangements based on biological models
- G06N3/02—Neural networks
- G06N3/04—Architecture, e.g. interconnection topology
- G06N3/0464—Convolutional networks [CNN, ConvNet]
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06N—COMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
- G06N3/00—Computing arrangements based on biological models
- G06N3/02—Neural networks
- G06N3/08—Learning methods
- G06N3/084—Backpropagation, e.g. using gradient descent
-
- Y—GENERAL TAGGING OF NEW TECHNOLOGICAL DEVELOPMENTS; GENERAL TAGGING OF CROSS-SECTIONAL TECHNOLOGIES SPANNING OVER SEVERAL SECTIONS OF THE IPC; TECHNICAL SUBJECTS COVERED BY FORMER USPC CROSS-REFERENCE ART COLLECTIONS [XRACs] AND DIGESTS
- Y02—TECHNOLOGIES OR APPLICATIONS FOR MITIGATION OR ADAPTATION AGAINST CLIMATE CHANGE
- Y02D—CLIMATE CHANGE MITIGATION TECHNOLOGIES IN INFORMATION AND COMMUNICATION TECHNOLOGIES [ICT], I.E. INFORMATION AND COMMUNICATION TECHNOLOGIES AIMING AT THE REDUCTION OF THEIR OWN ENERGY USE
- Y02D10/00—Energy efficient computing, e.g. low power processors, power management or thermal management
Landscapes
- Engineering & Computer Science (AREA)
- Theoretical Computer Science (AREA)
- Physics & Mathematics (AREA)
- General Physics & Mathematics (AREA)
- General Engineering & Computer Science (AREA)
- General Health & Medical Sciences (AREA)
- Health & Medical Sciences (AREA)
- Artificial Intelligence (AREA)
- Computational Linguistics (AREA)
- Data Mining & Analysis (AREA)
- Biomedical Technology (AREA)
- Molecular Biology (AREA)
- Computing Systems (AREA)
- Evolutionary Computation (AREA)
- Biophysics (AREA)
- Mathematical Physics (AREA)
- Software Systems (AREA)
- Life Sciences & Earth Sciences (AREA)
- Audiology, Speech & Language Pathology (AREA)
- Databases & Information Systems (AREA)
- Machine Translation (AREA)
Abstract
本申请提供了一种任务处理模型的模型训练方法、装置、设备及存储介质,该方法包括:通过共享特征提取模型提取训练语料中多种类别的共享特征信息;按照预设输入方式,将共享特征信息和基于训练语料标注的训练文本信息输入至多个子任务模型中,并行对多个子任务模型进行训练,根据每一子任务模型的任务训练损失的梯度变化情况,对该子任务模型的权重系数进行调整,以使多个子任务模型的训练率位于同一数值范围区间内,直至多个子任务模型的整体损失函数满足训练截止条件。这样,本申请在保障每个子任务模型能够独立训练的同时,可以为不同的子任务模型提供与其执行的子任务相关的多种共享特征信息,进而,提高任务处理模型的整体模型训练效果。
Description
技术领域
本申请涉及自然语言处理技术领域,具体而言,涉及一种任务处理模型的模型训练方法、装置、设备及存储介质。
背景技术
在自然语言处理领域内,在使用文本信息作为模型训练数据时,可以训练模型针对文本信息进行多种不同类型的模型训练任务,如识别特定业务场景下命名实体的文本识别任务、识别不同语句表达的句子情感的情感分类任务等。具体的,以上述的文本识别任务以及情感分类任务为例,虽然这两类任务的模型训练难度以及模型训练目的都不相同,但是,考虑到命名实体的文本识别(相当于分词的语义识别)属于句子情感识别的识别基础,因此,在相关技术中,对于这类模型训练任务之间存在相关性的模型通常采用整体训练的方式来执行模型的训练步骤。
目前,在相关技术中,常使用“流水线式的学习模式”对上述类型的任务模型进行整体训练。这里,仍以文本识别任务以及情感分类任务为例,在采用流水线式的学习模式对任务模型进行整体训练时,首先训练一级子任务模型进行命名实体的识别任务,然后,再借助于一级子任务模型对于命名实体的识别结果,进一步训练二级子任务模型学习对文本信息中不同命名实体的语义情感、情感表达主题等进行识别与分类。这样,基于流水线式的学习模式,往往会使得任务模型在整体训练过程中容易产生识别错误的级联累积问题,导致每一级子任务模型产生的识别错误都会顺延到下一层级,进而造成流水线式的学习模式下的整体模型训练效果不理想。
发明内容
有鉴于此,本申请的目的在于提供一种任务处理模型的模型训练方法、装置、设备及存储介质,以通过构建的多任务学习模型框架,在保障每个子任务模型能够进行独立训练的同时,为不同的子任务模型提供与其执行的子任务相关的多种共享特征信息,有利于提高任务处理模型的整体模型训练效果。
第一方面,本申请实施例提供了一种任务处理模型的模型训练方法,应用于多任务学习模型框架,所述多任务学习模型框架包括任务处理模型和预先训练好的共享特征提取模型,所述任务处理模型包括多个子任务模型;所述模型训练方法包括:
获取训练语料,并将所述训练语料输入至所述共享特征提取模型中,通过所述共享特征提取模型提取所述训练语料中多种类别的共享特征信息;
按照预设的输入方式,将所述多种类别的共享特征信息和基于所述训练语料标注的训练文本信息输入至所述多个子任务模型中,并行对所述多个子任务模型进行训练,以使所述多个子任务模型的整体损失函数满足训练截止条件;
在所述多个子任务模型独立训练的过程中,获取每一所述子任务模型的任务训练损失,根据每一所述子任务模型的任务训练损失的梯度变化情况,对该子任务模型的权重系数进行调整,以使所述多个子任务模型的训练率位于同一数值范围区间内,直至所述多个子任务模型的整体损失函数满足所述训练截止条件,将训练好的多个子任务模型作为训练好的任务处理模型。
在一种可选的实施方式中,所述多种类别的共享特征信息包括:训练语料被切分成字序列后的字特征向量;训练语料中表征词语与词语之间的句法依赖关系的词语特征向量;训练语料中的句特征向量。
在一种可选的实施方式中,通过如下方法确定所述共享特征提取模型待提取的共享特征信息的多种类别:
根据所述多个子任务模型待执行的多个子任务之间的目标任务依赖关系,从预设的任务依赖关系表中确定所述目标任务依赖关系对应的多种信息类别作为所述待提取的共享特征信息的多种类别;其中,所述任务依赖关系表预先存储有多种任务依赖关系对应的多种信息类别。
在一种可选的实施方式中,通过如下方法确定所述共享特征提取模型待提取的共享特征信息的多种类别:
根据所述任务处理模型待执行的目标任务,以所述任务处理模型包括的多个子任务模型作为第一搜索空间,以能够执行所述目标任务作为第一搜索策略,对所述第一搜索空间内不同子任务模型之间的子任务模型组合方式进行神经网络结构搜索,得到符合所述第一搜索策略的最优子任务模型组合方式;
将所述最优子任务模型组合方式下包括的每个子任务模型作为第一子任务模型;
根据每一所述第一子任务模型待执行的子任务之间的第一任务依赖关系,从预设的任务依赖关系表中确定所述第一任务依赖关系对应的多种信息类别作为所述待提取的共享特征信息的多种类别。
在一种可选的实施方式中,通过如下方法确定所述共享特征提取模型待提取的共享特征信息的多种类别:
根据所述任务处理模型待执行的目标任务,获取与完成所述目标任务相关的多种文本特征信息;
以所述多种文本特征信息作为第二搜索空间,以所述多个子任务模型能够基于不同文本特征信息的信息组合完成所述目标任务作为第二搜索策略,对所述第二搜索空间内不同文本特征信息之间的信息组合方式进行神经网络结构搜索,得到符合所述第二搜索策略的最优信息组合方式;
将所述最优信息组合方式下包括的每种文本特征信息所属的信息类别作为所述待提取的共享特征信息的多种类别。
在一种可选的实施方式中,所述按照预设的输入方式,将所述多种类别的共享特征信息和基于所述训练语料标注的训练文本信息输入至所述多个子任务模型中,包括:
在每一所述子任务模型的首层模型输入节点处,将所述训练文本信息输入至每一所述子任务模型中;
将所述多种类别的共享特征信息按照信息类别与训练节点之间的对应关系,以分层输入的第一输入方式,分层级输入至每一所述子任务模型中的不同训练节点处;其中,每一所述子任务模型中的不同训练节点是按照子任务模型中神经网络由浅到深的层级进行排序的。
在一种可选的实施方式中,所述按照预设的输入方式,将所述多种类别的共享特征信息和基于所述训练语料标注的训练文本信息输入至所述多个子任务模型中,还包括:
在每一所述子任务模型的首层模型输入节点处,以首层输入的第二输入方式,将所述多种类别的共享特征信息和所述训练文本信息同步输入至每一所述子任务模型中。
在一种可选的实施方式中,所述以首层输入的第二输入方式,将所述多种类别的共享特征信息和所述训练文本信息同步输入至每一所述子任务模型中,包括:
在对不同子任务模型待执行的子任务所属的任务类型不进行区分时,以所述第二输入方式,将所述多种类别的共享特征信息和所述训练文本信息同步输入至每一所述子任务模型中;
或者,
在对不同子任务模型待执行的子任务所属的任务类型进行区分时,针对每一所述子任务模型,根据该子任务模型待执行的子任务,确定所述多种类别的共享特征信息中与该子任务模型待执行的子任务相匹配的目标共享特征信息;
以所述第二输入方式,将所述多种类别的共享特征信息、所述训练文本信息以及所述目标共享特征信息同步输入至该子任务模型中。
在一种可选的实施方式中,所述多个子任务模型的整体损失函数是根据每一所述子任务模型的任务训练损失的梯度以及所述多任务学习模型框架中该子任务模型的权重系数的乘积确定的;所述根据每一所述子任务模型的任务训练损失的梯度变化情况,对该子任务模型的权重系数进行调整,包括:
针对每一所述子任务模型,以该子任务模型的任务训练损失的梯度作为目标梯度,在梯度检测周期内,获取所述目标梯度在所述检测周期内的周期变化幅度;
当检测到所述目标梯度的周期变化幅度大于或者等于参考梯度变化量时,则按照梯度降低调节系数,对该子任务模型的权重系数进行下降式的动态调整;
当检测到所述目标梯度的周期变化幅度小于所述参考梯度变化量时,则按照梯度升高调节系数,对该子任务模型的权重系数进行升高式的动态调整。
在一种可选的实施方式中,所述任务处理模型中的每个子任务模型用于执行相应的子任务,且不同子任务模型互相配合能够处理所述任务处理模型待执行的目标任务;当所述目标任务与识别文本信息表达的语义情感有关时,所述任务处理模型中至少包括一个命名实体识别模型以及一个情感分类模型;其中,所述命名实体识别模型用于执行针对所述训练文本信息中包括的命名实体的文本识别任务;所述情感分类模型用于执行针对所述训练文本信息中每一语句表征的句子情感的情感分类任务。
第二方面,本申请实施例提供了一种任务处理模型的模型训练装置,应用于多任务学习模型框架,所述多任务学习模型框架包括任务处理模型和预先训练好的共享特征提取模型,所述任务处理模型包括多个子任务模型;所述模型训练装置包括:
提取模块,用于获取训练语料,并将所述训练语料输入至所述共享特征提取模型中,通过所述共享特征提取模型提取所述训练语料中多种类别的共享特征信息;
输入模块,用于按照预设的输入方式,将所述多种类别的共享特征信息和基于所述训练语料标注的训练文本信息输入至所述多个子任务模型中,并行对所述多个子任务模型进行训练,以使所述多个子任务模型的整体损失函数满足训练截止条件;
训练模块,用于在所述多个子任务模型独立训练的过程中,获取每一所述子任务模型的任务训练损失,根据每一所述子任务模型的任务训练损失的梯度变化情况,对该子任务模型的权重系数进行调整,以使所述多个子任务模型的训练率位于同一数值范围区间内,直至所述多个子任务模型的整体损失函数满足所述训练截止条件,将训练好的多个子任务模型作为训练好的任务处理模型。
第三方面,本申请实施例提供了一种计算机设备,包括存储器、处理器及存储在所述存储器上并可在所述处理器上运行的计算机程序,所述处理器执行所述计算机程序时实现上述的模型训练方法的步骤。
第四方面,本申请实施例提供了一种计算机可读存储介质,所述计算机可读存储介质上存储有计算机程序,所述计算机程序被处理器运行时执行上述的模型训练方法的步骤。
本申请的实施例提供的技术方案可以包括以下有益效果:
本申请实施例提供的一种任务处理模型的模型训练方法、装置、设备及存储介质,先获取训练语料,并将训练语料输入至共享特征提取模型中,通过共享特征提取模型提取训练语料中多种类别的共享特征信息;再按照预设的输入方式,将多种类别的共享特征信息和基于训练语料标注的训练文本信息输入至多个子任务模型中,并行对多个子任务模型进行训练,以使多个子任务模型的整体损失函数满足训练截止条件;在多个子任务模型独立训练的过程中,获取每一子任务模型的任务训练损失,根据每一子任务模型的任务训练损失的梯度变化情况,对该子任务模型的权重系数进行调整,以使多个子任务模型的训练率位于同一数值范围区间内,直至多个子任务模型的整体损失函数满足所述训练截止条件,将训练好的多个子任务模型作为训练好的任务处理模型。
通过这种方式,本申请可以通过构建的多任务学习模型框架,在保障每个子任务模型能够进行独立训练的同时,为不同的子任务模型提供与其执行的子任务相关的多种共享特征信息,有利于提高任务处理模型的整体模型训练效果。
为使本申请的上述目的、特征和优点能更明显易懂,下文特举较佳实施例,并配合所附附图,作详细说明如下。
附图说明
为了更清楚地说明本申请实施例的技术方案,下面将对实施例中所需要使用的附图作简单地介绍,应当理解,以下附图仅示出了本申请的某些实施例,因此不应被看作是对范围的限定,对于本领域普通技术人员来讲,在不付出创造性劳动的前提下,还可以根据这些附图获得其他相关的附图。
图1示出了本申请实施例所提供的一种任务处理模型的模型训练方法的流程示意图;
图2示出了本申请实施例所提供的一种对多任务学习模型框架中每个子任务模型的权重系数进行动态调整的方法的流程示意图;
图3示出了本申请实施例所提供的第一种神经网络结构搜索的方法的流程示意图;
图4示出了本申请实施例所提供的第二种神经网络结构搜索的方法的流程示意图;
图5示出了本申请实施例所提供的一种按照第一输入方式,输入共享特征信息的方法的流程示意图;
图6示出了本申请实施例提供的一种任务处理模型的模型训练装置的结构示意图;
图7示出了本申请实施例提供的一种计算机设备700的结构示意图。
具体实施方式
为使本申请实施例的目的、技术方案和优点更加清楚,下面将结合本申请实施例中的附图,对本申请实施例中的技术方案进行清楚、完整地描述,应当理解,本申请中附图仅起到说明和描述的目的,并不用于限定本申请的保护范围。另外,应当理解,示意性的附图并未按实物比例绘制。本申请中使用的流程图示出了根据本申请的一些实施例实现的操作。应该理解,流程图的操作可以不按顺序实现,没有逻辑的上下文关系的步骤可以反转顺序或者同时实施。此外,本领域技术人员在本申请内容的指引下,可以向流程图添加一个或多个其他操作,也可以从流程图中移除一个或多个操作。
另外,所描述的实施例仅仅是本申请一部分实施例,而不是全部的实施例。通常在此处附图中描述和示出的本申请实施例的组件可以以各种不同的配置来布置和设计。因此,以下对在附图中提供的本申请的实施例的详细描述并非旨在限制要求保护的本申请的范围,而是仅仅表示本申请的选定实施例。基于本申请的实施例,本领域技术人员在没有做出创造性劳动的前提下所获得的所有其他实施例,都属于本申请保护的范围。
需要说明的是,本申请实施例中将会用到术语“包括”,用于指出其后所声明的特征的存在,但并不排除增加其它的特征。
目前,在相关技术中,常使用“流水线式的学习模式”对上述类型的任务模型进行整体训练。这里,仍以文本识别任务以及情感分类任务为例,在采用流水线式的学习模式对任务模型进行整体训练时,首先训练一级子任务模型进行命名实体的识别任务,然后,再借助于一级子任务模型对于命名实体的识别结果,进一步训练二级子任务模型学习对文本信息中不同命名实体的语义情感、情感表达主题等进行识别与分类。这样,基于流水线式的学习模式,往往会使得任务模型在整体训练过程中容易产生识别错误的级联累积问题,导致每一级子任务模型产生的识别错误都会顺延到下一层级,进而造成流水线式的学习模式下的整体模型训练效果不理想。
基于此,本申请实施例提供了一种任务处理模型的模型训练方法、装置、设备及存储介质,先获取训练语料,并将训练语料输入至共享特征提取模型中,通过共享特征提取模型提取训练语料中多种类别的共享特征信息;再按照预设的输入方式,将多种类别的共享特征信息和基于训练语料标注的训练文本信息输入至多个子任务模型中,并行对多个子任务模型进行训练,以使多个子任务模型的整体损失函数满足训练截止条件;在多个子任务模型独立训练的过程中,获取每一子任务模型的任务训练损失,根据每一子任务模型的任务训练损失的梯度变化情况,对该子任务模型的权重系数进行调整,以使多个子任务模型的训练率位于同一数值范围区间内,直至多个子任务模型的整体损失函数满足所述训练截止条件,将训练好的多个子任务模型作为训练好的任务处理模型。
通过这种方式,本申请可以通过构建的多任务学习模型框架,在保障每个子任务模型能够进行独立训练的同时,为不同的子任务模型提供与其执行的子任务相关的多种共享特征信息,有利于提高任务处理模型的整体模型训练效果。
下面对本申请实施例提供的一种任务处理模型的模型训练方法、装置、设备及存储介质进行详细介绍。
参照图1所示,图1示出了本申请实施例所提供的一种任务处理模型的模型训练方法的流程示意图,所述模型训练方法应用于多任务学习模型框架,所述多任务学习模型框架包括任务处理模型和预先训练好的共享特征提取模型,所述任务处理模型包括多个子任务模型;所述模型训练方法包括步骤S101-S103;具体的:
S101,获取训练语料,并将所述训练语料输入至所述共享特征提取模型中,通过所述共享特征提取模型提取所述训练语料中多种类别的共享特征信息。
这里,不同子任务模型在多任务学习模型框架中的训练过程是互相独立的,也即,不同子任务模型待执行的子任务可以相同,也可以不同,对此,本申请实施例并不进行任何限定。
在本申请实施例中,步骤S101中获取的训练语料表征的是:上述多个子任务模型在训练过程中使用的同一文本类型的语料信息;上述共享特征信息的信息类别是根据不同子任务模型待执行的子任务之间存在的任务依赖关系确定的。
具体的,在本申请实施例中,上述多种类别的共享特征信息可以包括:训练语料被切分成字序列后的字特征向量;训练语料中表征词语与词语之间的句法依赖关系的词语特征向量;训练语料中的句特征向量。
这里针对上述多个子任务模型,需要说明的是,在本申请实施例中,多任务学习模型框架中的子任务模型并不是没有任何限定条件的任意模型的集合;也即,本申请实施例所适用的具体技术应用场景(即上述多个子任务模型的模型范围)为:一个多任务学习模型框架下的多个“执行与处理文本信息相关的任务”且“使用同一文本类型的语料信息进行训练”的子任务模型(相当于上述“多个子任务模型在训练过程中用于基于同一文本类型的语料信息执行不同的子任务”)。
这里,针对上述共享特征信息中的字特征向量、词语特征向量以及句特征向量,需要说明的是:
字特征向量可以是按照任意固定步长对训练语料进行切分后得到的,例如,可以按照2个字的固定步长对训练语料进行切分得到字特征向量,也可以按照3个字的固定步长对训练语料进行切分得到字特征向量,对于上述字特征向量的具体切分方式,本申请实施例不作任何限定;
词语特征向量既可以是通过对训练语料进行依存句法分析后得到的高阶词特征向量,也可以是通过常用分词方式得到的简易词特征向量,对于词语特征向量的具体向量形式,本申请实施例不作任何限定;
句特征向量可以表征训练语料中不同语句在多个维度特征下映射的高维特征向量,对于句特征向量中向量的具体维度数值,本申请实施例不作任何限定。
具体的,针对上述共享特征信息的具体信息类别,还需要说明的是,在特殊情况下,当两个不同子任务模型待执行的子任务相同时:
在第一种可选的实施方式中,可以确定执行该子任务所需的文本特征信息,即为当前两个不同子任务模型所对应的共享特征信息;
在第二种可选的实施方式中,还可以确定当前两个不同子任务模型待执行的子任务之间不具备任务依赖关系,也即,确定当前两个不同子任务模型之间不存在需要提取的共享特征信息。
S102,按照预设的输入方式,将所述多种类别的共享特征信息和基于所述训练语料标注的训练文本信息输入至所述多个子任务模型中,并行对所述多个子任务模型进行训练,以使所述多个子任务模型的整体损失函数满足训练截止条件。
这里,上述训练语料的具体标注方式根据当前待输入的子任务模型对应执行的子任务确定,例如,若子任务模型A用于执行针对训练语料中包括的命名实体的文本识别任务,则对训练语料中包括的命名实体进行实体标注,将实体标注后的训练语料作为训练文本信息输入至子任务模型A中。
这里,上述预设的输入方式至少包括:分层输入的第一输入方式以及首层输入的第二输入方式。
具体的,在本申请实施例中,当预设的输入方式为上述第一输入方式时,则可以按照以下方式1,来执行上述步骤S102:
方式1、在每一所述子任务模型的首层模型输入节点处,将所述训练文本信息输入至每一所述子任务模型中;
将所述多种类别的共享特征信息按照信息类别与训练节点之间的对应关系,以分层输入的第一输入方式,分层级输入至每一所述子任务模型中的不同训练节点处。
这里,每一所述子任务模型中的不同训练节点是按照模型中神经网络由浅到深的层级进行排序的;作为一可选实施例,针对不同信息类别的共享特征信息,可以设置共享特征信息的信息量越低,则该共享特征信息的信息类别对应的训练节点所在的神经网络层级越浅。
示例性的说明,以子任务模型A与子任务模型B对应的共享特征信息为字特征向量以及词语特征向量为例,若子任务模型A是由神经网络a、神经网络b以及神经网络c组成的3层神经网络模型,且子任务模型A中神经网络的深度排序为:神经网络a<神经网络b<神经网络c为例,则当神经网络a是子任务模型A的首层神经网络时,将共享特征信息中信息量较低的字特征向量以及训练文本信息,从神经网络a所在的输入节点处,输入至子任务模型A中;将共享特征信息中信息量较高的词语特征向量,从神经网络b所在的输入节点处,输入至子任务模型A中。
具体的,在本申请实施例中,当预设的输入方式为上述第二输入方式时,则可以按照以下方式2,来执行上述步骤S102:
方式2、在每一所述子任务模型的首层模型输入节点处,以首层输入的第二输入方式,将所述多种类别的共享特征信息和所述训练文本信息同步输入至每一所述子任务模型中。
示例性的说明,仍以子任务模型A与子任务模型B对应的共享特征信息为字特征向量以及词语特征向量为例,则按照上述第二输入方式,可以在不确定子任务模型A的具体模型结构(即模型中的神经网络层数)的情况下,直接将字特征向量、词语特征向量以及训练文本信息,从子任务模型A的首层模型输入节点(如最低层级神经网络的输入节点)处,输入至子任务模型A中。
S103,在所述多个子任务模型独立训练的过程中,获取每一所述子任务模型的任务训练损失,根据每一所述子任务模型的任务训练损失的梯度变化情况,对该子任务模型的权重系数进行调整,以使所述多个子任务模型的训练率位于同一数值范围区间内,直至所述多个子任务模型的整体损失函数满足所述训练截止条件,将训练好的多个子任务模型作为训练好的任务处理模型。
需要说明的是,每个子任务模型在多任务学习模型框架下的模型训练过程是互相独立的,因此,不同子任务模型使用的任务训练损失函数可以相同,也可以不同,对此,本申请实施例不作任何限定。
在本申请实施例中,所述多个子任务模型的整体损失函数是根据每一所述子任务模型的任务训练损失的梯度以及所述多任务学习模型框架中该子任务模型的权重系数的乘积确定的。
这里,考虑到不同子任务模型待执行的子任务可能不同,而任务完成难度越高的子任务模型,其对应的具体模型结构也就越复杂,因此,不同模型结构的子任务模型之间,子任务模型的任务训练损失的梯度变化速度(相当于模型训练任务反向传播的梯度量级)难以进行平衡(很难保证以相似或者相同的训练速度进行模型收敛),也即,难以在同一多任务学习模型框架下使得多个子任务模型的训练率保持同步(即训练率相同或者训练率位于同一数值范围区间内)。
基于此,为了保证模型结构复杂程度不同的子任务模型能够在多任务学习模型框架下按照相似的训练速度(即训练率位于同一数值范围区间内)进行模型训练,提高各个子任务模型的模型学习充分度,在一种可选的实施方式中,还可以按照如图2所示的动态调整方法,来对多任务学习模型框架中每个子任务模型的权重系数进行动态调整,具体的:
参照图2所示,图2示出了本申请实施例所提供的一种对多任务学习模型框架中每个子任务模型的权重系数进行动态调整的方法的流程示意图,该方法包括步骤S201-S203;具体的:
S201,针对每一所述子任务模型,以该子任务模型的任务训练损失的梯度作为目标梯度,在梯度检测周期内,获取所述目标梯度在所述检测周期内的周期变化幅度。
这里,在多任务学习模型框架下,不同子任务模型对应的梯度检测周期相同,也即,在同一梯度检测周期内,对每个子任务模型的任务训练损失的梯度进行梯度检测;对于梯度检测周期的具体时间长度,本申请实施例不作任何限定。
S202,当检测到所述目标梯度的周期变化幅度大于或者等于参考梯度变化量时,则按照梯度降低调节系数,对该子任务模型的权重系数进行下降式的动态调整。
这里,当检测到目标梯度的周期变化幅度大于或者等于参考梯度变化量时,可以确定在当前的梯度检测周期内,该子任务模型的任务训练损失的梯度发生较大幅度的变化(即大幅增高),此时,通过对该子任务模型的权重系数进行下降式的动态调整,即可保持该子任务模型的任务训练损失在多任务学习模型框架(或者任务处理模型)的整体损失中所占的比重(相当于该子任务模型的任务训练损失的梯度与该子任务模型的权重系数的乘积)达到动态的平衡,从而,保证模型结构复杂程度不同的子任务模型能够在多任务学习模型框架下按照相似的训练速度进行模型训练,提高了各个子任务模型的模型学习充分度。
S203,当检测到所述目标梯度的周期变化幅度小于所述参考梯度变化量时,则按照梯度升高调节系数,对该子任务模型的权重系数进行升高式的动态调整。
这里,与上述步骤S202相对应的,当检测到目标梯度的周期变化幅度小于参考梯度变化量时,可以确定在当前的梯度检测周期内,该子任务模型的任务训练损失的梯度同样发生较大幅度的变化(即大幅降低),此时,通过对该子任务模型的权重系数进行升高式的动态调整,即可保持该子任务模型的任务训练损失在多任务学习模型框架的整体损失中所占的比重(相当于该子任务模型的任务训练损失的梯度与该子任务模型的权重系数的乘积)同样达到动态的平衡,从而,保证模型结构复杂程度不同的子任务模型能够在多任务学习模型框架下按照相似的训练速度进行模型训练,提高了各个子任务模型的模型学习充分度。
为了更加清晰的体现本申请实施例中上述步骤S101-S103的实施细节,下面以文本信息处理过程中出现较为频繁的“语义情感分析任务”作为上述多任务学习模型框架的整体学习任务为例,对上述步骤S101-S103的实施细节,进行详细的介绍:
首先需要说明的是,本申请实施例中,任务处理模型中的每个子任务模型用于执行相应的子任务,且不同子任务模型互相配合能够处理任务处理模型待执行的目标任务;任务处理模型待执行的目标任务可以是“与文本信息处理”相关的任意学习任务,并不仅局限于上述“语义情感分析任务”,这里仅是选用相对较为复杂的文本信息处理任务(即“语义情感分析”任务)作为示例,以更加清晰的突显本申请实施例在“训练多个子任务模型”的过程中的具体实施细节,本申请实施例对于任务处理模型待执行的目标任务具体属于“文本信息处理任务”中的哪一种,并不进行任何限定。
针对上述步骤S101的实施过程,当任务处理模型待执行的目标任务与识别文本信息表达的语义情感有关时,所述任务处理模型(即所述多个子任务模型)中至少包括一个命名实体识别模型以及一个情感分类模型;其中,所述命名实体识别模型用于执行针对所述训练文本信息中包括的命名实体的文本识别任务;所述情感分类模型用于执行针对所述训练文本信息中每一语句表征的句子情感的情感分类任务。
基于此,在本申请实施例中,当针对共享特征提取模型预先进行的训练方式不同时,根据不同的模型训练方式,在步骤S101中,至少可以按照以下3种不同的可选方式,来确定共享特征提取模型待提取的共享特征信息的具体信息类别,具体的:
可选方式(1)、根据所述多个子任务模型待执行的多个子任务之间的目标任务依赖关系,从预设的任务依赖关系表中确定所述目标任务依赖关系对应的多种信息类别作为所述待提取的共享特征信息的多种类别。
这里,任务依赖关系表预先存储有多种任务依赖关系对应的多种信息类别,如任务依赖关系表中预先存储有任务依赖关系a对应的多种信息类别为:信息类别x1、x2和x3。
针对上述可选方式(1)的实施,这里,以任务处理模型中多个子任务模型为:命名实体识别模型M以及情感分类模型Q为例,在上述可选方式(1)的实施过程中,命名实体识别模型M需要执行针对训练文本信息中包括的命名实体的文本识别任务;情感分类模型Q需要执行针对训练文本信息中每一语句表征的句子情感的情感分类任务;此时,情感分类模型Q执行的情感分类任务是以“语句”作为最小分析单元进行文本处理的,命名实体识别模型M执行的文本识别任务则是以“字-词”的文本识别顺序进行文本处理的,基于此,可以确定命名实体识别模型M与情感分类模型Q之间存在的目标任务依赖关系为:情感分类模型Q待执行的子任务(即语句级别的文本分析任务)依赖于命名实体识别模型M的字/词的文本识别结果(即字/词级别的文本识别任务);从任务依赖关系表中,确定该目标任务依赖关系对应的信息类别:字特征向量、词语特征向量作为待提取的共享特征信息的信息类别。
这里,结合上述分析内容,在本申请实施例中,作为一可选实施例,当所述任务处理模型的目标任务与识别文本信息表达的语义情感有关时,所述多种类别的共享特征信息,至少可以包括:
1、字符级共享特征信息,也即,上述步骤S101中的字特征向量。
这里,所述字符级共享特征信息用于表征能够组成目标分词的字符排列特征信息。
示例性的说明,以使用邻接字bigram(二次元语法)向量为例,可以将训练语料切成bigram字序列,例如,训练文本信息中的语句“北京今天北风劲吹蓝天霸屏”会被切成序列:“北京/京今/今天/天北/北风风劲/劲吹/吹蓝/蓝天/天霸/霸屏”,然后,使用word2vec(一群用来产生词向量的相关模型)的方法进行训练,可以得到50维的邻接字bigram向量。
需要说明的是,针对字符级共享特征信息,除上述示例中的邻接字bigram向量之外,也可以使用tri-gram(即每3个字符为一组,进行语句的切分)特征向量,4-gram(即每4个字符为一组,进行语句的切分)特征向量……n-Gram(即以每n个字符为一组,进行语句的切分)特征向量。对于上述字符级共享特征信息的具体获取方式,本申请实施例不作任何限定。
2、分词级共享特征信息,也即,上述步骤S101中的词语特征向量。
这里,所述分词级共享特征信息用于表征同一上下文语境中不同分词之间的从属关系的词性特征信息。
这里,作为一可选实施例,可以采用StandFordNLP(一种自然语言处理工具)对输入的训练文本信息进行依存句法分析,获得训练文本信息中词语与词语之间的句法依赖关系,从而,得到上述分词级共享特征信息。
这里,作为另一可选实施例,还可以采用有向图的邻接矩阵,来存储和获取词语之间的句法依赖关系。
示例性的说明,首先,忽略词语与词语之间依赖关系的具体类型(例如,无论是主谓关系还是动宾关系,都认为具有“从属关系”),然后,根据预设的依存关系指示方向(例如,矩阵中i指向j可以表示i是j的从属词),将每个语句的分词结果分别作为矩阵的行与矩阵的列,创建邻接矩阵;此时,若词语i与词语j之间存在上述的“从属关系”,则对应的邻接矩阵元素aij的取值为1;若词语i与词语j之间不存在上述的“从属关系”,则对应的邻接矩阵元素aij的取值为0;最后,将邻接矩阵中的每一行作为每一列词语对应的词特征向量,即可得到上述分词级共享特征信息。
3、语句级高维度共享特征信息,也即,上述步骤S101中的句特征向量。
这里,所述语句级高维度共享特征信息用于表征文本信息中不同语句在多个维度特征下映射的高维特征向量;所述目标分词用于表征具备语义含义的分词。
示例性的说明,作为一可选实施例,可以采用BERT预训练语言模型,对训练文本信息进行文本嵌入处理,获取每个语句的句向量作为上述语句级高维度共享特征信息。
可选方式(2)、训练共享特征提取模型通过NAS(神经网络结构搜索)的方式,在任务处理模型待执行的目标任务可以进行拆分的情况下,以搜索能够完成目标任务所需的最优子任务模型组合的方式,来进行共享特征信息的信息类别的确定与提取。
参照图3所示,图3示出了本申请实施例所提供的第一种神经网络结构搜索的方法的流程示意图,该方法包括步骤S301-S303;具体的:
S301,根据所述任务处理模型待执行的目标任务,以所述任务处理模型包括的多个子任务模型作为第一搜索空间,以能够执行所述目标任务作为第一搜索策略,对所述第一搜索空间内不同子任务模型之间的子任务模型组合方式进行神经网络结构搜索,得到符合所述第一搜索策略的最优子任务模型组合方式。
这里,第一搜索策略中的目标任务既可以用于表征任务处理模型能够执行的最高级学习任务,也可以用于表征位于上述最高级学习任务下的次级学习任务。
示例性的说明,以任务处理模型能够执行的最高级学习任务是上述“语义情感分析”任务(命名实体识别任务+语句情感分类任务)为例,则在步骤S301中,第一搜索策略中的目标任务可以是“语义情感分析”任务,也可以是上述最高级学习任务下的次级学习任务:命名实体识别任务或者语句情感分类任务。
这里,最优子任务模型组合方式中“最优”的定义可以根据用户的实际模型训练需求确定,例如,当检测到用户的实际模型训练需求趋向于提高模型训练速度时,则可以确定最优子任务模型组合方式是符合上述第一搜索策略的同时,且多个子任务模型的整体训练速度最快的模型组合方式;当检测到用户的实际模型训练需求趋向于提高模型训练准确度时,则可以确定最优子任务模型组合方式是符合上述第一搜索策略的同时,且多个子任务模型的整体训练结果最为准确的模型组合方式。
S302,将所述最优子任务模型组合方式下包括的每个子任务模型作为第一子任务模型。
S303,根据每一所述第一子任务模型待执行的子任务之间的第一任务依赖关系,从预设的任务依赖关系表中确定所述第一任务依赖关系对应的多种信息类别作为所述待提取的共享特征信息的多种类别。
这里,在确定上述最优子任务模型组合方式之后,步骤S302-S303的具体实施过程与上述可选方式(1)相同,重复之处在此不再赘述。
这里,针对上述步骤S301-S303的实施,还需要说明的是,具体到每一个子任务模型的具体模型结构中,每个子任务模型又可以看作是多个不同类型/层级的神经网络的组合,则针对一个子任务模型而言,以不同神经网络之间的结构组合能够完成该子任务模型待执行的子任务(即子任务模型的模型训练任务)作为上述第一搜索策略,同样可以确定出每个子任务模型的最优模型结构,重复之处不再赘述。
可选方式(3)、训练共享特征提取模型通过NAS(神经网络结构搜索)的方式,在多任务学习模型框架的框架结构固定(即任务处理模型待执行的目标任务不能拆分执行)的情况下,来进行共享特征信息的信息类别的确定与提取。
参照图4所示,图4示出了本申请实施例所提供的第二种神经网络结构搜索的方法的流程示意图,该方法包括步骤S401-S403;具体的:
S401,根据所述任务处理模型待执行的目标任务,获取与完成所述目标任务相关的多种文本特征信息。
示例性的说明,仍以任务处理模型待执行的目标任务是上述“语义情感分析”任务(命名实体识别任务+语句情感分类任务)为例,则在不拆分执行目标任务的条件下,可以获取“字符级共享特征信息a、b、c”(相当于信息类别为字特征向量的文本特征信息),“分词级共享特征信息d、e、f”(相当于信息类别为词语特征向量的文本特征信息),“语句级共享特征信息g、h”(相当于信息类别为句特征向量的文本特征信息)作为与完成该目标任务相关的多种文本特征信息。
S402,以所述多种文本特征信息作为第二搜索空间,以所述多个子任务模型能够基于不同文本特征信息的信息组合完成所述目标任务作为第二搜索策略,对所述第二搜索空间内不同文本特征信息之间的信息组合方式进行神经网络结构搜索,得到符合所述第二搜索策略的最优信息组合方式。
这里,与上述步骤S301相似,最优信息组合方式中“最优”的定义同样可以根据用户的实际模型训练需求确定,例如,当检测到用户的实际模型训练需求趋向于提高模型训练速度时,则可以确定最优信息组合方式是符合上述第二搜索策略的同时,且需要提取的共享特征信息的信息类别最少的信息组合方式;当检测到用户的实际模型训练需求趋向于提高模型训练准确度时,则可以确定最优信息组合方式是符合上述第二搜索策略的同时,且多个子任务模型的整体训练结果最为准确的信息组合方式。
S403,将所述最优信息组合方式下包括的每种文本特征信息所属的信息类别作为所述待提取的共享特征信息的多种类别。
示例性的说明,仍以上述S401中的示例为例,若确定最优信息组合方式下包括的文本特征信息为:字符级共享特征信息a和分词级共享特征信息d,则可以确定待提取的共享特征信息的多种类别为:字特征向量和词语级特征向量。
针对上述步骤S102的实施过程,在按照分层输入的第一输入方式进行共享特征信息部分的输入时,除上述步骤S102中的方式1之外,参照图5所示,图5示出了本申请实施例所提供的一种按照第一输入方式,输入共享特征信息的方法的流程示意图,该方法包括步骤S501-S503;具体的:
S501,针对每一所述子任务模型,在该子任务模型的第一训练节点处,将信息类别为所述字特征向量的第一共享特征信息输入至该子任务模型中。
这里,所述第一训练节点用于表征该子任务模型中浅层神经网络的输入节点。
S502,在该子任务模型的第二训练节点处,将信息类别为所述词语特征向量的第二共享特征信息输入至该子任务模型中。
这里,所述第二训练节点用于表征该子任务模型中的中间层神经网络的输入节点。
S503,在该子任务模型的第三训练节点处,将信息类别为所述句特征向量的第三共享特征信息输入至该子任务模型中。
这里,所述第三训练节点用于表征该子任务模型中深层神经网络的输入节点。
针对上述步骤S501-S503的实施,需要说明的是,当子任务模型中神经网络的层数小于3层时,以2层神经网络的模型结构为例,则可以将“字符级共享特征信息”(即信息类别为所述字特征向量的第一共享特征信息)与“分词级共享特征信息”(即信息类别为所述词语特征向量的第二共享特征信息)输入第一层(即最浅层)神经网络中,将“语句级共享特征信息”(即信息类别为所述句特征向量的第三共享特征信息)输入第二层(即最深层)神经网络中;
此外,还可以将“字符级共享特征信息”输入第一层神经网络中,将“分词级共享特征信息”与“语句级共享特征信息”输入第二层神经网络中,对于子任务模型中神经网络的具体层数,本申请实施例不作任何限定。
针对上述步骤S102的实施过程,在按照首层输入的第二输入方式进行共享特征信息部分的输入时,针对上述步骤S102中的方式2的具体实施,还可以按照是否区分不同子任务模型待执行的子任务的任务类型差异,分为以下2种可选实施方案,具体的:
可选实施方案1、在对不同子任务模型待执行的子任务所属的任务类型不进行区分时,以所述第二输入方式,将所述多种类别的共享特征信息和所述训练文本信息同步输入至每一所述子任务模型中。
可选实施方案2、共分为步骤a与步骤b,具体的:
步骤a、在对不同子任务模型待执行的子任务所属的任务类型进行区分时,针对每一所述子任务模型,根据该子任务模型待执行的子任务,确定所述多种类别的共享特征信息中与该子任务模型待执行的子任务相匹配的目标共享特征信息。
步骤b、以所述第二输入方式,将所述多种类别的共享特征信息、所述训练文本信息以及所述目标共享特征信息同步输入至该子任务模型中。
本申请实施例提供的上述任务处理模型的模型训练方法,
先获取训练语料,并将训练语料输入至共享特征提取模型中,通过共享特征提取模型提取训练语料中多种类别的共享特征信息;再按照预设的输入方式,将多种类别的共享特征信息和基于训练语料标注的训练文本信息输入至多个子任务模型中,并行对多个子任务模型进行训练,以使多个子任务模型的整体损失函数满足训练截止条件;在多个子任务模型独立训练的过程中,获取每一子任务模型的任务训练损失,根据每一子任务模型的任务训练损失的梯度变化情况,对该子任务模型的权重系数进行调整,以使多个子任务模型的训练率位于同一数值范围区间内,直至多个子任务模型的整体损失函数满足所述训练截止条件,将训练好的多个子任务模型作为训练好的任务处理模型。
通过这种方式,本申请可以通过构建的多任务学习模型框架,在保障每个子任务模型能够进行独立训练的同时,为不同的子任务模型提供与其执行的子任务相关的多种共享特征信息,有利于提高任务处理模型的整体模型训练效果。
基于同一发明构思,本申请实施例中还提供了与上述实施例中任务处理模型的模型训练方法对应的模型训练装置,由于本申请实施例中的模型训练装置解决问题的原理与本申请上述实施例中的模型训练方法相似,因此,模型训练装置的实施可以参见前述模型训练方法的实施,重复之处不再赘述。
参照图6所示,图6示出了本申请实施例提供的一种任务处理模型的模型训练装置的结构示意图;其中,所述模型训练装置应用于多任务学习模型框架,所述多任务学习模型框架包括任务处理模型和预先训练好的共享特征提取模型,所述任务处理模型包括多个子任务模型;所述模型训练装置包括:
提取模块601,用于获取训练语料,并将所述训练语料输入至所述共享特征提取模型中,通过所述共享特征提取模型提取所述训练语料中多种类别的共享特征信息;
输入模块602,用于按照预设的输入方式,将所述多种类别的共享特征信息和基于所述训练语料标注的训练文本信息输入至所述多个子任务模型中,并行对所述多个子任务模型进行训练,以使所述多个子任务模型的整体损失函数满足训练截止条件;
训练模块603,用于在所述多个子任务模型独立训练的过程中,获取每一所述子任务模型的任务训练损失,根据每一所述子任务模型的任务训练损失的梯度变化情况,对该子任务模型的权重系数进行调整,以使所述多个子任务模型的训练率位于同一数值范围区间内,直至所述多个子任务模型的整体损失函数满足所述训练截止条件,将训练好的多个子任务模型作为训练好的任务处理模型。
在一种可选的实施方式中,所述多种类别的共享特征信息包括:训练语料被切分成字序列后的字特征向量;训练语料中表征词语与词语之间的句法依赖关系的词语特征向量;训练语料中的句特征向量。
在一种可选的实施方式中,提取模块601用于通过如下方法确定所述共享特征提取模型待提取的共享特征信息的多种类别:
根据所述多个子任务模型待执行的多个子任务之间的目标任务依赖关系,从预设的任务依赖关系表中确定所述目标任务依赖关系对应的多种信息类别作为所述待提取的共享特征信息的多种类别;其中,所述任务依赖关系表预先存储有多种任务依赖关系对应的多种信息类别。
在一种可选的实施方式中,提取模块601用于通过如下方法确定所述共享特征提取模型待提取的共享特征信息的多种类别:
根据所述任务处理模型待执行的目标任务,以所述任务处理模型包括的多个子任务模型作为第一搜索空间,以能够执行所述目标任务作为第一搜索策略,对所述第一搜索空间内不同子任务模型之间的子任务模型组合方式进行神经网络结构搜索,得到符合所述第一搜索策略的最优子任务模型组合方式;
将所述最优子任务模型组合方式下包括的每个子任务模型作为第一子任务模型;
根据每一所述第一子任务模型待执行的子任务之间的第一任务依赖关系,从预设的任务依赖关系表中确定所述第一任务依赖关系对应的多种信息类别作为所述待提取的共享特征信息的多种类别。
在一种可选的实施方式中,提取模块601用于通过如下方法确定所述共享特征提取模型待提取的共享特征信息的多种类别:
根据所述任务处理模型待执行的目标任务,获取与完成所述目标任务相关的多种文本特征信息;
以所述多种文本特征信息作为第二搜索空间,以所述多个子任务模型能够基于不同文本特征信息的信息组合完成所述目标任务作为第二搜索策略,对所述第二搜索空间内不同文本特征信息之间的信息组合方式进行神经网络结构搜索,得到符合所述第二搜索策略的最优信息组合方式;
将所述最优信息组合方式下包括的每种文本特征信息所属的信息类别作为所述待提取的共享特征信息的多种类别。
在一种可选的实施方式中,在所述按照预设的输入方式,将所述多种类别的共享特征信息和基于所述训练语料标注的训练文本信息输入至所述多个子任务模型中时,输入模块602具体用于:
在每一所述子任务模型的首层模型输入节点处,将所述训练文本信息输入至每一所述子任务模型中;
将所述多种类别的共享特征信息按照信息类别与训练节点之间的对应关系,以分层输入的第一输入方式,分层级输入至每一所述子任务模型中的不同训练节点处;其中,每一所述子任务模型中的不同训练节点是按照子任务模型中神经网络由浅到深的层级进行排序的。
在一种可选的实施方式中,在所述按照预设的输入方式,将所述多种类别的共享特征信息和基于所述训练语料标注的训练文本信息输入至所述多个子任务模型中时,输入模块602还用于:
在每一所述子任务模型的首层模型输入节点处,以首层输入的第二输入方式,将所述多种类别的共享特征信息和所述训练文本信息同步输入至每一所述子任务模型中。
在一种可选的实施方式中,在所述以首层输入的第二输入方式,将所述多种类别的共享特征信息和所述训练文本信息同步输入至每一所述子任务模型中时,输入模块602具体用于:
在对不同子任务模型待执行的子任务所属的任务类型不进行区分时,以所述第二输入方式,将所述多种类别的共享特征信息和所述训练文本信息同步输入至每一所述子任务模型中;
或者,
在对不同子任务模型待执行的子任务所属的任务类型进行区分时,针对每一所述子任务模型,根据该子任务模型待执行的子任务,确定所述多种类别的共享特征信息中与该子任务模型待执行的子任务相匹配的目标共享特征信息;
以所述第二输入方式,将所述多种类别的共享特征信息、所述训练文本信息以及所述目标共享特征信息同步输入至该子任务模型中。
在一种可选的实施方式中,所述多个子任务模型的整体损失函数是根据每一所述子任务模型的任务训练损失的梯度以及所述多任务学习模型框架中该子任务模型的权重系数的乘积确定的;在所述根据每一所述子任务模型的任务训练损失的梯度变化情况,对该子任务模型的权重系数进行调整时,训练模块603具体用于:
针对每一所述子任务模型,以该子任务模型的任务训练损失的梯度作为目标梯度,在梯度检测周期内,获取所述目标梯度在所述检测周期内的周期变化幅度;
当检测到所述目标梯度的周期变化幅度大于或者等于参考梯度变化量时,则按照梯度降低调节系数,对该子任务模型的权重系数进行下降式的动态调整;
当检测到所述目标梯度的周期变化幅度小于所述参考梯度变化量时,则按照梯度升高调节系数,对该子任务模型的权重系数进行升高式的动态调整。
在一种可选的实施方式中,所述任务处理模型中的每个子任务模型用于执行相应的子任务,且不同子任务模型互相配合能够处理所述任务处理模型待执行的目标任务;当所述目标任务与识别文本信息表达的语义情感有关时,所述任务处理模型中至少包括一个命名实体识别模型以及一个情感分类模型;其中,所述命名实体识别模型用于执行针对所述训练文本信息中包括的命名实体的文本识别任务;所述情感分类模型用于执行针对所述训练文本信息中每一语句表征的句子情感的情感分类任务。
如图7所示,本申请实施例提供了一种计算机设备700,用于执行本申请中任务处理模型的模型训练方法,该设备包括存储器701、处理器702及存储在该存储器701上并可在该处理器702上运行的计算机程序,其中,上述处理器702执行上述计算机程序时实现上述任务处理模型的模型训练方法的步骤。
具体地,上述存储器701和处理器702可以为通用的存储器和处理器,这里不做具体限定,当处理器702运行存储器701存储的计算机程序时,能够执行上述任务处理模型的模型训练方法。
对应于本申请中任务处理模型的模型训练方法,本申请实施例还提供了一种计算机可读存储介质,该计算机可读存储介质上存储有计算机程序,该计算机程序被处理器运行时执行上述任务处理模型的模型训练方法的步骤。
具体地,该存储介质能够为通用的存储介质,如移动磁盘、硬盘等,该存储介质上的计算机程序被运行时,能够执行上述任务处理模型的模型训练方法。
在本申请所提供的实施例中,应该理解到,所揭露系统和方法,可以通过其它的方式实现。以上所描述的系统实施例仅仅是示意性的,例如,所述单元的划分,仅仅为一种逻辑功能划分,实际实现时可以有另外的划分方式,又例如,多个单元或组件可以结合或者可以集成到另一个系统,或一些特征可以忽略,或不执行。另一点,所显示或讨论的相互之间的耦合或直接耦合或通信连接可以是通过一些通信接口,系统或单元的间接耦合或通信连接,可以是电性,机械或其它的形式。
所述作为分离部件说明的单元可以是或者也可以不是物理上分开的,作为单元显示的部件可以是或者也可以不是物理单元,即可以位于一个地方,或者也可以分布到多个网络单元上。可以根据实际的需要选择其中的部分或者全部单元来实现本实施例方案的目的。
另外,在本申请提供的实施例中的各功能单元可以集成在一个处理单元中,也可以是各个单元单独物理存在,也可以两个或两个以上单元集成在一个单元中。
所述功能如果以软件功能单元的形式实现并作为独立的产品销售或使用时,可以存储在一个计算机可读取存储介质中。基于这样的理解,本申请的技术方案本质上或者说对现有技术做出贡献的部分或者该技术方案的部分可以以软件产品的形式体现出来,该计算机软件产品存储在一个存储介质中,包括若干指令用以使得一台计算机设备(可以是个人计算机,服务器,或者网络设备等)执行本申请各个实施例所述方法的全部或部分步骤。而前述的存储介质包括:U盘、移动硬盘、只读存储器(Read-Only Memory,ROM)、随机存取存储器(Random Access Memory,RAM)、磁碟或者光盘等各种可以存储程序代码的介质。
应注意到:相似的标号和字母在下面的附图中表示类似项,因此,一旦某一项在一个附图中被定义,则在随后的附图中不需要对其进行进一步定义和解释,此外,术语“第一”、“第二”、“第三”等仅用于区分描述,而不能理解为指示或暗示相对重要性。
最后应说明的是:以上所述实施例,仅为本申请的具体实施方式,用以说明本申请的技术方案,而非对其限制,本申请的保护范围并不局限于此,尽管参照前述实施例对本申请进行了详细的说明,本领域的普通技术人员应当理解:任何熟悉本技术领域的技术人员在本申请揭露的技术范围内,其依然可以对前述实施例所记载的技术方案进行修改或可轻易想到变化,或者对其中部分技术特征进行等同替换;而这些修改、变化或者替换,并不使相应技术方案的本质脱离本申请实施例技术方案的精神和范围。都应涵盖在本申请的保护范围之内。因此,本申请的保护范围应以所述权利要求的保护范围为准。
Claims (12)
1.一种任务处理模型的模型训练方法,其特征在于,应用于多任务学习模型框架,所述多任务学习模型框架包括任务处理模型和预先训练好的共享特征提取模型,所述任务处理模型包括多个子任务模型;所述模型训练方法包括:
获取训练语料,并将所述训练语料输入至所述共享特征提取模型中,通过所述共享特征提取模型提取所述训练语料中多种类别的共享特征信息;
按照预设的输入方式,将所述多种类别的共享特征信息和基于所述训练语料标注的训练文本信息输入至所述多个子任务模型中,并行对所述多个子任务模型进行训练,以使所述多个子任务模型的整体损失函数满足训练截止条件;
在所述多个子任务模型独立训练的过程中,获取每一所述子任务模型的任务训练损失,多任务学习模型框架根据每一所述子任务模型的任务训练损失的梯度变化情况,对多任务学习模型框架该子任务模型的权重系数进行调整,以使所述多个子任务模型的训练率位于同一数值范围区间内,直至所述多个子任务模型的整体损失函数满足所述训练截止条件,将训练好的多个子任务模型作为训练好的任务处理模型;
其中,所述按照预设的输入方式,将所述多种类别的共享特征信息和基于所述训练语料标注的训练文本信息输入至所述多个子任务模型中,包括:
在每一所述子任务模型的首层模型输入节点处,将所述训练文本信息输入至每一所述子任务模型中;
将所述多种类别的共享特征信息按照信息类别与训练节点之间的对应关系,以分层输入的第一输入方式,分层级输入至每一所述子任务模型中的不同训练节点处;其中,每一所述子任务模型中的不同训练节点是按照子任务模型中神经网络由浅到深的层级进行排序的。
2.根据权利要求1所述的模型训练方法,其特征在于,所述多种类别的共享特征信息包括:训练语料被切分成字序列后的字特征向量;训练语料中表征词语与词语之间的句法依赖关系的词语特征向量;训练语料中的句特征向量。
3.根据权利要求1所述的模型训练方法,其特征在于,通过如下方法确定所述共享特征提取模型待提取的共享特征信息的多种类别:
根据所述多个子任务模型待执行的多个子任务之间的目标任务依赖关系,从预设的任务依赖关系表中确定所述目标任务依赖关系对应的多种信息类别作为所述待提取的共享特征信息的多种类别;其中,所述任务依赖关系表预先存储有多种任务依赖关系对应的多种信息类别。
4.根据权利要求1所述的模型训练方法,其特征在于,通过如下方法确定所述共享特征提取模型待提取的共享特征信息的多种类别:
根据所述任务处理模型待执行的目标任务,以所述任务处理模型包括的多个子任务模型作为第一搜索空间,以能够执行所述目标任务作为第一搜索策略,对所述第一搜索空间内不同子任务模型之间的子任务模型组合方式进行神经网络结构搜索,得到符合所述第一搜索策略的最优子任务模型组合方式;
将所述最优子任务模型组合方式下包括的每个子任务模型作为第一子任务模型;
根据每一所述第一子任务模型待执行的子任务之间的第一任务依赖关系,从预设的任务依赖关系表中确定所述第一任务依赖关系对应的多种信息类别作为所述待提取的共享特征信息的多种类别。
5.根据权利要求1所述的模型训练方法,其特征在于,通过如下方法确定所述共享特征提取模型待提取的共享特征信息的多种类别:
根据所述任务处理模型待执行的目标任务,获取与完成所述目标任务相关的多种文本特征信息;
以所述多种文本特征信息作为第二搜索空间,以所述多个子任务模型能够基于不同文本特征信息的信息组合完成所述目标任务作为第二搜索策略,对所述第二搜索空间内不同文本特征信息之间的信息组合方式进行神经网络结构搜索,得到符合所述第二搜索策略的最优信息组合方式;
将所述最优信息组合方式下包括的每种文本特征信息所属的信息类别作为所述待提取的共享特征信息的多种类别。
6.根据权利要求1所述的模型训练方法,其特征在于,所述按照预设的输入方式,将所述多种类别的共享特征信息和基于所述训练语料标注的训练文本信息输入至所述多个子任务模型中,还包括:
在每一所述子任务模型的首层模型输入节点处,以首层输入的第二输入方式,将所述多种类别的共享特征信息和所述训练文本信息同步输入至每一所述子任务模型中。
7.根据权利要求6所述的模型训练方法,其特征在于,所述以首层输入的第二输入方式,将所述多种类别的共享特征信息和所述训练文本信息同步输入至每一所述子任务模型中,包括:
在对不同子任务模型待执行的子任务所属的任务类型不进行区分时,以所述第二输入方式,将所述多种类别的共享特征信息和所述训练文本信息同步输入至每一所述子任务模型中;
或者,
在对不同子任务模型待执行的子任务所属的任务类型进行区分时,针对每一所述子任务模型,根据该子任务模型待执行的子任务,确定所述多种类别的共享特征信息中与该子任务模型待执行的子任务相匹配的目标共享特征信息;
以所述第二输入方式,将所述多种类别的共享特征信息、所述训练文本信息以及所述目标共享特征信息同步输入至该子任务模型中。
8.根据权利要求1所述的模型训练方法,其特征在于,所述多个子任务模型的整体损失函数是根据每一所述子任务模型的任务训练损失的梯度以及所述多任务学习模型框架中该子任务模型的权重系数的乘积确定的;所述根据每一所述子任务模型的任务训练损失的梯度变化情况,对该子任务模型的权重系数进行调整,包括:
针对每一所述子任务模型,以该子任务模型的任务训练损失的梯度作为目标梯度,在梯度检测周期内,获取所述目标梯度在所述检测周期内的周期变化幅度;
当检测到所述目标梯度的周期变化幅度大于或者等于参考梯度变化量时,则按照梯度降低调节系数,对该子任务模型的权重系数进行下降式的动态调整;
当检测到所述目标梯度的周期变化幅度小于所述参考梯度变化量时,则按照梯度升高调节系数,对该子任务模型的权重系数进行升高式的动态调整。
9.根据权利要求1所述的模型训练方法,其特征在于,所述任务处理模型中的每个子任务模型用于执行相应的子任务,且不同子任务模型互相配合能够处理所述任务处理模型待执行的目标任务;当所述目标任务与识别文本信息表达的语义情感有关时,所述任务处理模型中至少包括一个命名实体识别模型以及一个情感分类模型;其中,所述命名实体识别模型用于执行针对所述训练文本信息中包括的命名实体的文本识别任务;所述情感分类模型用于执行针对所述训练文本信息中每一语句表征的句子情感的情感分类任务。
10.一种任务处理模型的模型训练装置,其特征在于,应用于多任务学习模型框架,所述多任务学习模型框架包括任务处理模型和预先训练好的共享特征提取模型,所述任务处理模型包括多个子任务模型;所述模型训练装置包括:
提取模块,用于获取训练语料,并将所述训练语料输入至所述共享特征提取模型中,通过所述共享特征提取模型提取所述训练语料中多种类别的共享特征信息;
输入模块,用于按照预设的输入方式,将所述多种类别的共享特征信息和基于所述训练语料标注的训练文本信息输入至所述多个子任务模型中,并行对所述多个子任务模型进行训练,以使所述多个子任务模型的整体损失函数满足训练截止条件;
训练模块,用于在所述多个子任务模型独立训练的过程中,获取每一所述子任务模型的任务训练损失,根据每一所述子任务模型的任务训练损失的梯度变化情况,对该子任务模型的权重系数进行调整,以使所述多个子任务模型的训练率位于同一数值范围区间内,直至所述多个子任务模型的整体损失函数满足所述训练截止条件,将训练好的多个子任务模型作为训练好的任务处理模型;
其中,在所述按照预设的输入方式,将所述多种类别的共享特征信息和基于所述训练语料标注的训练文本信息输入至所述多个子任务模型中时,所述输入模块用于:
在每一所述子任务模型的首层模型输入节点处,将所述训练文本信息输入至每一所述子任务模型中;
将所述多种类别的共享特征信息按照信息类别与训练节点之间的对应关系,以分层输入的第一输入方式,分层级输入至每一所述子任务模型中的不同训练节点处;其中,每一所述子任务模型中的不同训练节点是按照子任务模型中神经网络由浅到深的层级进行排序的。
11.一种电子设备,其特征在于,包括:处理器、存储器和总线,所述存储器存储有所述处理器可执行的机器可读指令,当电子设备运行时,所述处理器与所述存储器之间通过总线通信,所述机器可读指令被所述处理器执行时执行如权利要求1至9任一所述的模型训练方法的步骤。
12.一种计算机可读存储介质,其特征在于,该计算机可读存储介质上存储有计算机程序,该计算机程序被处理器运行时执行如权利要求1至9任一所述的模型训练方法的步骤。
Priority Applications (2)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202411193999.6A CN119106135A (zh) | 2022-04-11 | 2022-04-11 | 任务处理模型的模型训练方法、装置、设备及存储介质 |
CN202210373086.7A CN114722827B (zh) | 2022-04-11 | 2022-04-11 | 任务处理模型的模型训练方法、装置、设备及存储介质 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202210373086.7A CN114722827B (zh) | 2022-04-11 | 2022-04-11 | 任务处理模型的模型训练方法、装置、设备及存储介质 |
Related Child Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN202411193999.6A Division CN119106135A (zh) | 2022-04-11 | 2022-04-11 | 任务处理模型的模型训练方法、装置、设备及存储介质 |
Publications (2)
Publication Number | Publication Date |
---|---|
CN114722827A CN114722827A (zh) | 2022-07-08 |
CN114722827B true CN114722827B (zh) | 2024-08-02 |
Family
ID=82240937
Family Applications (2)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN202210373086.7A Active CN114722827B (zh) | 2022-04-11 | 2022-04-11 | 任务处理模型的模型训练方法、装置、设备及存储介质 |
CN202411193999.6A Pending CN119106135A (zh) | 2022-04-11 | 2022-04-11 | 任务处理模型的模型训练方法、装置、设备及存储介质 |
Family Applications After (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN202411193999.6A Pending CN119106135A (zh) | 2022-04-11 | 2022-04-11 | 任务处理模型的模型训练方法、装置、设备及存储介质 |
Country Status (1)
Country | Link |
---|---|
CN (2) | CN114722827B (zh) |
Citations (2)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN111324696A (zh) * | 2020-02-19 | 2020-06-23 | 腾讯科技(深圳)有限公司 | 实体抽取方法、实体抽取模型的训练方法、装置及设备 |
CN112069811A (zh) * | 2020-08-24 | 2020-12-11 | 武汉大学 | 多任务交互增强的电子文本事件抽取方法 |
Family Cites Families (3)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN110347839B (zh) * | 2019-07-18 | 2021-07-16 | 湖南数定智能科技有限公司 | 一种基于生成式多任务学习模型的文本分类方法 |
US11593666B2 (en) * | 2020-01-10 | 2023-02-28 | Accenture Global Solutions Limited | System for multi-task distribution learning with numeric-aware knowledge graphs |
CN112364653A (zh) * | 2020-11-09 | 2021-02-12 | 北京有竹居网络技术有限公司 | 用于语音合成的文本分析方法、装置、服务器和介质 |
-
2022
- 2022-04-11 CN CN202210373086.7A patent/CN114722827B/zh active Active
- 2022-04-11 CN CN202411193999.6A patent/CN119106135A/zh active Pending
Patent Citations (2)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN111324696A (zh) * | 2020-02-19 | 2020-06-23 | 腾讯科技(深圳)有限公司 | 实体抽取方法、实体抽取模型的训练方法、装置及设备 |
CN112069811A (zh) * | 2020-08-24 | 2020-12-11 | 武汉大学 | 多任务交互增强的电子文本事件抽取方法 |
Also Published As
Publication number | Publication date |
---|---|
CN114722827A (zh) | 2022-07-08 |
CN119106135A (zh) | 2024-12-10 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
Arora et al. | Character level embedding with deep convolutional neural network for text normalization of unstructured data for Twitter sentiment analysis | |
US10558757B2 (en) | Symbol management | |
US9542477B2 (en) | Method of automated discovery of topics relatedness | |
RU2571373C2 (ru) | Метод анализа тональности текстовых данных | |
US10282468B2 (en) | Document-based requirement identification and extraction | |
US9373075B2 (en) | Applying a genetic algorithm to compositional semantics sentiment analysis to improve performance and accelerate domain adaptation | |
WO2018207723A1 (ja) | 要約生成装置、要約生成方法及びコンピュータプログラム | |
US20140351228A1 (en) | Dialog system, redundant message removal method and redundant message removal program | |
US10719668B2 (en) | System for machine translation | |
RU2679988C1 (ru) | Извлечение информационных объектов с помощью комбинации классификаторов | |
KR20210023452A (ko) | 속성 단위 리뷰 분석 장치 및 방법 | |
US20220083738A1 (en) | Systems and methods for colearning custom syntactic expression types for suggesting next best corresponence in a communication environment | |
WO2016199160A2 (en) | Language processing and knowledge building system | |
CN116882414B (zh) | 基于大规模语言模型的评语自动生成方法及相关装置 | |
WO2023045184A1 (zh) | 一种文本类别识别方法、装置、计算机设备及介质 | |
CN112579733A (zh) | 规则匹配方法、规则匹配装置、存储介质及电子设备 | |
CN107112009A (zh) | 使用多标记结构的转录纠正 | |
Krishna et al. | A dataset for Sanskrit word segmentation | |
CN113282762A (zh) | 知识图谱构建方法、装置、电子设备和存储介质 | |
CN116644148A (zh) | 关键词识别方法、装置、电子设备及存储介质 | |
CN113515630A (zh) | 三元组生成和校验方法、装置、电子设备和存储介质 | |
CN114722827B (zh) | 任务处理模型的模型训练方法、装置、设备及存储介质 | |
CN113505889B (zh) | 图谱化知识库的处理方法、装置、计算机设备和存储介质 | |
CN114328902A (zh) | 文本标注模型构建方法和装置 | |
US12158906B2 (en) | Systems and methods for generating query responses |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination | ||
GR01 | Patent grant | ||
GR01 | Patent grant |