CN112069821B

CN112069821B - 一种命名实体的提取方法、装置、电子设备及存储介质

Info

Publication number: CN112069821B
Application number: CN202010949598.4A
Authority: CN
Inventors: 张鹏涛; 景艳山
Original assignee: Beijing Minglue Zhaohui Technology Co Ltd
Current assignee: Beijing Minglue Zhaohui Technology Co Ltd
Priority date: 2020-09-10
Filing date: 2020-09-10
Publication date: 2025-02-25
Anticipated expiration: 2040-09-10
Also published as: CN112069821A

Abstract

本申请提供了一种命名实体的提取方法、装置、电子设备及存储介质，其中，该提取方法包括：将目标文本输入到预先训练好的编码模型中，获取编码模型输出的目标文本对应的第一文本矩阵；基于目标文本对应的第一文本矩阵，确定目标文本对应的第一首指针集合和第一尾指针集合；第一首指针集合中包括目标文本中满足预设类别的目标分词的首字的第一特征值；第一尾指针集合中包括目标文本中满足预设类别的目标分词的尾字的第二特征值；根据第一首指针集合中的第一特征值，以及第一尾指针集合中的第二特征值，从目标文本中提取命名实体，并确定命名实体对应的类别。本申请可以对更新的命名实体进行识别，数据的泛化能力强，命名实体的识别效率高。

Description

一种命名实体的提取方法、装置、电子设备及存储介质

技术领域

本申请涉及计算机信息技术领域，具体而言，涉及一种命名实体的提取方法、装置、电子设备及存储介质。

背景技术

现阶段，命名实体识别是自然语言处理领域的一项基本任务，旨在识别文本中的命名实体，并对识别出的命名实体进行分类，命名实体识别的效果直接决定了自然语言处理的下游任务的处理精度。

实际中，命名实体的识别方法通常为：由工作人员搜集各个领域已有的命名实体，将搜集到的多个命名实体编撰成命名实体词典，基于命名实体词典，从待处理文本中提取命名实体，并确定命名实体所属的类别。

但是，该种命名实体的识别方法仅能识别已记录的命名实体，对更新的命名实体无法识别，数据的泛化能力弱。

发明内容

有鉴于此，本申请实施例的目的在于提供一种命名实体的提取方法、装置、电子设备及存储介质，能够基于目标文本对应的首指针集合和尾指针集合，从目标文本中提取命名实体，可以对更新的命名实体进行识别，数据的泛化能力强，命名实体的识别效率高。

第一方面，本申请实施例提供了一种命名实体的提取方法，所述提取方法包括：

将目标文本输入到预先训练好的编码模型中，获取所述编码模型输出的所述目标文本对应的第一文本矩阵；

基于所述目标文本对应的第一文本矩阵，确定所述目标文本对应的第一首指针集合和第一尾指针集合；所述第一首指针集合中包括所述目标文本中满足预设类别的目标分词的首字的第一特征值；所述第一尾指针集合中包括所述目标文本中满足预设类别的目标分词的尾字的第二特征值；

根据所述第一首指针集合中的所述第一特征值，以及所述第一尾指针集合中的所述第二特征值，从所述目标文本中提取命名实体，并确定所述命名实体对应的类别。

在一种可能的实施方式中，所述基于所述目标文本对应的第一文本矩阵，确定所述目标文本对应的第一首指针集合和第一尾指针集合，包括：

基于预先训练好的标准矩阵，对所述目标文本对应的第一文本矩阵进行矩阵变换，得到所述目标文本中每个字归属于所述预设类别的第一概率；

针对所述目标文本中的每个字，根据该字归属于所述预设类别的第一概率，所述目标文本中其他字归属于所述预设类别的第一概率，以及所述其他字与该字的位置关系，确定该字是否为满足预设类别的目标分词的首字或者尾字；

根据该字是否为满足预设类别的目标分词的首字或者尾字的判断结果，以及每一个判断结果对应的特征值，生成所述目标文本对应的第一首指针集合和第一尾指针集合。

在一种可能的实施方式中，所述根据所述第一首指针集合中的所述第一特征值，以及所述第一尾指针集合中的所述第二特征值，从所述目标文本中提取命名实体，并确定所述命名实体对应的类别，包括：

针对所述第一首指针集合中的每个第一特征值，从所述第一尾指针集合中选取类别与该第一特征值的类别相一致，且与该第一特征值的位置关系满足第一预设条件的第二特征值；

将该第一特征值与选取出的第二特征值对应的分词确定为所述目标文本中的命名实体，并将该第一特征值的类别确定为所述命名实体的类别。

在一种可能的实施方式中，通过如下方式对所述编码模型以及所述标准矩阵进行训练：

构造第一训练数据，所述第一训练数据中包括多个第一样本文本，以及每个第一样本文本对应的第二首指针集合和第二尾指针集合；

将所述第一训练数据中的第一样本文本输入到编码模型中，获取所述编码模型输出的第一样本文本对应的第二文本矩阵；

基于标准矩阵，对所述第一样本文本对应的第二文本矩阵进行矩阵变换，得到所述第一样本文本对应的第三首指针集合和第三尾指针集合；

根据所述第一样本文本对应的第二首指针集合和第二尾指针集合，以及所述第一样本文本对应的第三首指针集合和第三尾指针集合，确定所述第一样本文本对应的损失值；

基于所述损失值对所述编码模型以及所述标准矩阵进行调整，直至任一所述第一样本文本对应的损失值均小于预设阈值，得到所述预先训练好的编码模型和所述预先训练好的标准矩阵。

在一种可能的实施方式中，通过如下方式构造所述第一训练数据：

构造第二训练数据，所述第二训练数据中包括多个第二样本文本；

将所述第二训练数据中的第二样本文本输入到编码模型中，获取所述编码模型输出的所述第二样本文本对应的第三文本矩阵；

基于所述标准矩阵，对所述第二样本文本对应的第三文本矩阵进行矩阵变换，得到所述第二样本文本中每个字归属于所述预设类别的第二概率；

基于所述第二样本文本中每个字归属于所述预设类别的第二概率，确定所述第二样本文本对应的第四首指针集合和第四尾指针集合；

若所述第二样本文本中每个字归属于所述预设类别的第二概率满足第二预设条件，则将所述第二样本文本确定为所述第一样本文本，将所述第二样本文本对应的第四首指针集合和第四尾指针集合，分别确定为所述第一样本文本对应的第二首指针集合和第二尾指针集合。

第二方面，本申请实施例提供了一种命名实体的提取装置，所述提取装置包括：

第一获取模块，用于将目标文本输入到预先训练好的编码模型中，获取所述编码模型输出的所述目标文本对应的第一文本矩阵；

第一确定模块，用于基于所述目标文本对应的第一文本矩阵，确定所述目标文本对应的第一首指针集合和第一尾指针集合；所述第一首指针集合中包括所述目标文本中满足预设类别的目标分词的首字的第一特征值；所述第一尾指针集合中包括所述目标文本中满足预设类别的目标分词的尾字的第二特征值；

提取模块，用于根据所述第一首指针集合中的所述第一特征值，以及所述第一尾指针集合中的所述第二特征值，从所述目标文本中提取命名实体，并确定所述命名实体对应的类别。

在一种可能的实施方式中，所述第一确定模块，在基于所述目标文本对应的第一文本矩阵，确定所述目标文本对应的第一首指针集合和第一尾指针集合时，包括：

在一种可能的实施方式中，所述提取模块，在根据所述第一首指针集合中的所述第一特征值，以及所述第一尾指针集合中的所述第二特征值，从所述目标文本中提取命名实体，并确定所述命名实体对应的类别时，包括：

第三方面，本申请实施例提供了一种电子设备，包括：处理器、存储器和总线，所述存储器存储有所述处理器可执行的机器可读指令，当电子设备运行时，所述处理器与所述存储器之间通过总线通信，所述处理器执行所述机器可读指令，以执行第一方面任一项所述的命名实体的提取方法的步骤。

第四方面，本申请实施例提供了一种计算机可读存储介质，所述计算机可读存储介质上存储有计算机程序，该计算机程序被处理器运行时执行第一方面任一项所述的命名实体的提取方法的步骤。

本申请实施例提供的一种命名实体的提取方法、装置、电子设备及存储介质，将目标文本输入到预先训练好的编码模型中，获取所述编码模型输出的所述目标文本对应的第一文本矩阵；基于所述目标文本对应的第一文本矩阵，确定所述目标文本对应的第一首指针集合和第一尾指针集合；所述第一首指针集合中包括所述目标文本中满足预设类别的目标分词的首字的第一特征值；所述第一尾指针集合中包括所述目标文本中满足预设类别的目标分词的尾字的第二特征值；根据所述第一首指针集合中的所述第一特征值，以及所述第一尾指针集合中的所述第二特征值，从所述目标文本中提取命名实体，并确定所述命名实体对应的类别。本申请实施例能够基于目标文本对应的首指针集合和尾指针集合，从目标文本中提取命名实体，可以对更新的命名实体进行识别，数据的泛化能力强，命名实体的识别效率高。

为使本申请的上述目的、特征和优点能更明显易懂，下文特举较佳实施例，并配合所附附图，作详细说明如下。

附图说明

为了更清楚地说明本申请实施例的技术方案，下面将对实施例中所需要使用的附图作简单地介绍，应当理解，以下附图仅示出了本申请的某些实施例，因此不应被看作是对范围的限定，对于本领域普通技术人员来讲，在不付出创造性劳动的前提下，还可以根据这些附图获得其他相关的附图。

图1示出了本申请实施例提供的一种命名实体的提取方法的流程图；

图2示出了本申请实施例提供的另一种命名实体的提取方法的流程图；

图3示出了本申请实施例提供的另一种命名实体的提取方法的流程图；

图4示出了本申请实施例提供的另一种命名实体的提取方法的流程图；

图5示出了本申请实施例提供的另一种命名实体的提取方法的流程图；

图6示出了本申请实施例提供的一种命名实体的提取装置的结构示意图；

图7示出了本申请实施例提供的一种电子设备的示意图。

具体实施方式

为使本申请实施例的目的、技术方案和优点更加清楚，下面将结合本申请实施例中附图，对本申请实施例中的技术方案进行清楚、完整地描述，显然，所描述的实施例仅仅是本申请一部分实施例，而不是全部的实施例。通常在此处附图中描述和示出的本申请实施例的组件可以以各种不同的配置来布置和设计。因此，以下对在附图中提供的本申请的实施例的详细描述并非旨在限制要求保护的本申请的范围，而是仅仅表示本申请的选定实施例。基于本申请的实施例，本领域技术人员在没有做出创造性劳动的前提下所获得的所有其他实施例，都属于本申请保护的范围。

现阶段，命名实体识别是自然语言处理领域的一项基本任务，旨在识别文本中的命名实体，并对识别出的命名实体进行分类，命名实体识别的效果直接决定了自然语言处理的下游任务的处理精度。实际中，命名实体的识别方法通常为：由工作人员搜集各个领域已有的命名实体，将搜集到的多个命名实体编撰成命名实体词典，基于命名实体词典，从待处理文本中提取命名实体，并确定命名实体所属的类别。但是，该种命名实体的识别方法仅能识别已记录的命名实体，对更新的命名实体无法识别，数据的泛化能力弱。

基于上述问题，本申请实施例提供的一种命名实体的提取方法、装置、电子设备及存储介质，将目标文本输入到预先训练好的编码模型中，获取所述编码模型输出的所述目标文本对应的第一文本矩阵；基于所述目标文本对应的第一文本矩阵，确定所述目标文本对应的第一首指针集合和第一尾指针集合；所述第一首指针集合中包括所述目标文本中满足预设类别的目标分词的首字的第一特征值；所述第一尾指针集合中包括所述目标文本中满足预设类别的目标分词的尾字的第二特征值；根据所述第一首指针集合中的所述第一特征值，以及所述第一尾指针集合中的所述第二特征值，从所述目标文本中提取命名实体，并确定所述命名实体对应的类别。本申请实施例能够基于目标文本对应的首指针集合和尾指针集合，从目标文本中提取命名实体，可以对更新的命名实体进行识别，数据的泛化能力强，命名实体的识别效率高。

针对以上方案所存在的缺陷，均是发明人在经过实践并仔细研究后得出的结果，因此，上述问题的发现过程以及下文中本申请针对上述问题所提出的解决方案，都应该是发明人在本申请过程中对本申请做出的贡献。

下面将结合本申请中附图，对本申请中的技术方案进行清楚、完整地描述，显然，所描述的实施例仅仅是本申请一部分实施例，而不是全部的实施例。通常在此处附图中描述和示出的本申请的组件可以以各种不同的配置来布置和设计。因此，以下对在附图中提供的本申请的实施例的详细描述并非旨在限制要求保护的本申请的范围，而是仅仅表示本申请的选定实施例。基于本申请的实施例，本领域技术人员在没有做出创造性劳动的前提下所获得的所有其他实施例，都属于本申请保护的范围。

应注意到：相似的标号和字母在下面的附图中表示类似项，因此，一旦某一项在一个附图中被定义，则在随后的附图中不需要对其进行进一步定义和解释。

为便于对本实施例进行理解，首先对本申请实施例所公开的一种命名实体的提取方法进行详细介绍。

参见图1所示，图1为本申请实施例提供的命名实体的提取方法的流程图，该提取方法包括以下步骤：

S101、将目标文本输入到预先训练好的编码模型中，获取所述编码模型输出的所述目标文本对应的第一文本矩阵。

本申请实施例中，目标文本为包含命名实体的文本，其中，命名实体为人名、机构名、地名以及其他所有以名称为标识的实体，更广泛的实体还包括数字、日期、货币、地址等等。

可选的，目标文本为与3C产品相关的文本，比如，3C产品的介绍文本，3C产品的评价文本，3C指计算机(Computer)、通信(Communication)、消费类电子产品(ConsumerElectronics)三者的结合，3C产品具体包括：电脑、平板电脑、移动电话、数码相机、随身听、电子辞典、影音播放器、数字音频播放器等硬件设备。

目标文本由多个字组成，基于预设的字-字向量词典，确定目标文本中每个字对应的字向量，并将目标文本中每个字的字向量输入到编码模型中，获取编码模型输出的目标文本的第一文本矩阵，其中，第一文本矩阵用于表征目标文本对应的文本语义。

可选的，编码模型为ROBERTA模型，ROBERTA模型输出的第一文本矩阵为B×N×768矩阵，其中，B为批尺寸(batch_size)的大小，批尺寸为使用梯度下降法进行学习训练时每批采用的数据数量，B可以为1、32、64等不同的目标文本数量，N为每个目标文本的目标长度，不同的目标文本对应的N是相同的，N的确定方式包括：获取每个目标文本的实际长度，即每个目标文本中字的个数，将多个目标文本的实际长度中的最大值确定为N，或者，从多个目标文本的实际长度中选取N，这里，N大于99％的目标文本的实际长度，768为ROBERTA模型的输出维度。

S102、基于所述目标文本对应的第一文本矩阵，确定所述目标文本对应的第一首指针集合和第一尾指针集合；所述第一首指针集合中包括所述目标文本中满足预设类别的目标分词的首字的第一特征值；所述第一尾指针集合中包括所述目标文本中满足预设类别的目标分词的尾字的第二特征值。

本申请实施例中，针对每个目标文本，对该目标文本对应的第一文本矩阵进行矩阵变换，得到目标文本对应的第一首指针集合和第一尾指针集合。目标文本中包括多个分词，不同的分词对应不同的类别，比如，品牌类、属性类、无意义类，每个目标文本均对应有第一首指针集合和第一尾指针集合，目标文本中每个字在第一首指针集合中和第一尾指针集合中均对应有特征值，目标文本中预设类别的目标分词的首字在第一首指针集合中对应的特征值为第一特征值，目标文本中预设类别的目标分词的尾字在第一尾指针集合中对应的特征值为第二特征值，不同类别的目标分词的首字对应的第一特征值不同，不同类别的目标分词的尾字对应的第二特征值不同，同一类别的目标分词的首字对应的第一特征值，与该目标分词的尾字对应的第二特征值相同，比如，品牌类的目标分词的首字对应的第一特征值(或尾字对应的第二特征值)为1、属性类的目标分词的首字对应的第一特征值(或尾字对应的第二特征值)为2、无意义类的目标分词中的每个字对应的第一特征值(第二特征值)均为0，预设类别(品牌类和属性类)的目标分词的中间字(除首字和尾字之外的字)对应的第一特征值(或第二特征值)均为0。

举例来讲，目标文本1“我喜欢华为手机的屏幕”，预设类别为品牌类和属性类，目标文本1的多个分词中类别为“品牌类”的目标分词1为“华为”、类别为“属性类”的目标分词2为“屏幕”，且“品牌类”对应的第一特征值和第二特征值均为1、“属性类”对应的第一特征值和第二特征值均为2，则目标文本1对应的第一首指针集合为(0,0,0,1,0,0,0,0,2,0)、第一尾指针集合为(0,0,0,0,1,0,0,0,0,2)。

S103、根据所述第一首指针集合中的所述第一特征值，以及所述第一尾指针集合中的所述第二特征值，从所述目标文本中提取命名实体，并确定所述命名实体对应的类别。

本申请实施例中，根据目标文本中满足预设类别的目标分词的首字在第一首指针集合中对应的第一特征值，以及目标文本中满足预设类别的目标分词的尾字在第一尾指针集合中对应的第二特征值，从目标文本中提取命名实体，并且，针对每个命名实体，根据该命名实体对应的第一特征值和第二特征值共同对应的类别，确定该命名实体对应的类别，比如，命名实体对应的第一特征值和第二特征值均为1，则该命名实体为品牌类。

本申请实施例提供的命名实体的提取方法，基于目标文本对应的首指针集合和尾指针集合，从目标文本中提取命名实体，可以对更新的命名实体进行识别，数据的泛化能力强，命名实体的识别效率高。

进一步的，参见图2所示，本申请实施例提供的命名实体的提取方法中，所述基于所述目标文本对应的第一文本矩阵，确定所述目标文本对应的第一首指针集合和第一尾指针集合，包括：

S201、基于预先训练好的标准矩阵，对所述目标文本对应的第一文本矩阵进行矩阵变换，得到所述目标文本中每个字归属于所述预设类别的第一概率。

本申请实施例中，将目标文本对应的第一文本矩阵乘以预先训练好的标准矩阵，得到目标矩阵。其中，标准矩阵的列数与上述预设类别的个数相一致，比如，预设类别为8个类别，标准矩阵的列数为8列，目标文本的第一文本矩阵为1×10×768矩阵(目标文本包括10个字)，第一文本矩阵与标准矩阵相乘后，得到的目标矩阵为1×10×8矩阵，目标矩阵的每一行代表目标文本中的每一个字，目标矩阵的每一列代表目标文本中的每一个字归属于每个预设类别的概率，目标矩阵不同的列对应不同的预设类别，假定目标矩阵的第三行为(0.1，0.2，0.1，0.9，……)，则目标文本的第三个字归属于第一预设类别的概率为0.1，归属于第二预设类别的概率为0.2，归属于第三预设类别的概率为0.1，归属于第四预设类别的概率为0.9。

S202、针对所述目标文本中的每个字，根据该字归属于所述预设类别的第一概率，所述目标文本中其他字归属于所述预设类别的第一概率，以及所述其他字与该字的位置关系，确定该字是否为满足预设类别的目标分词的首字或者尾字。

本申请实施例中，针对每个预设类别，若目标文本中连续的多个字归属于该预设类别的第一概率均大于预设阈值，则将上述连续的多个字确定为该预设类别的目标分词，将上述连续的多个字中的首字确定为满足该预设类别的目标分词的首字，将上述连续的多个字中的尾字确定为满足该预设类别的目标分词的尾字。

比如，目标矩阵的第二列为(0.1，0.2，0.1，0.2，0.1，0.2，0.1，0.1，0.8，0.9)，且目标矩阵的第二列对应的预设类别为“属性类”，其中，第九位置的第一概率、第十位置的第一概率均大于预设阈值0.7，对于目标文本1“我喜欢华为手机的屏幕”，第九位置的“屏”为预设类别“属性类”的目标分词的首字，第十位置的“幕”为预设类别“属性类”的目标分词的尾字。

S203、根据该字是否为满足预设类别的目标分词的首字或者尾字的判断结果，以及每一个判断结果对应的特征值，生成所述目标文本对应的第一首指针集合和第一尾指针集合。

本申请实施例中，针对每个字，若该字为满足预设类别的目标分词的首字，则将该字在第一首指针集合中对应的特征值确定为与该预设类别相匹配的第一特征值，若该字为满足预设类别的目标分词的尾字，则将该字在第一尾指针集合中对应的特征值确定为与该预设类别相匹配的第二特征值。比如，目标文本1“我喜欢华为手机的屏幕”，其中，“华”为目标分词1“华为”的首字，“屏”为目标分词2“屏幕”的首字，“为”为目标分词1“华为”的尾字，“幕”为目标分词2“屏幕”的尾字，并且，“品牌类”对应的第一特征值(或第一特征值)为“1”，“属性类”对应的第一特征值(或第一特征值)为“2”，目标文本中除上述目标分词的首字和尾字之外的其他字对应的特征值均为“0”，则目标文本1对应的第一首指针集合为(0,0,0,1,0,0,0,0,2,0)，对应的第一尾指针集合为(0,0,0,0,1,0,0,0,0,2)。

进一步的，参见图3所示，本申请实施例提供的命名实体的提取方法中，所述根据所述第一首指针集合中的所述第一特征值，以及所述第一尾指针集合中的所述第二特征值，从所述目标文本中提取命名实体，并确定所述命名实体对应的类别，包括：

S301、针对所述第一首指针集合中的每个第一特征值，从所述第一尾指针集合中选取类别与该第一特征值的类别相一致，且与该第一特征值的位置关系满足第一预设条件的第二特征值。

本申请实施例中，针对目标文本对应的第一首指针集合中的每个第一特征值，从该目标文本对应的第一尾指针集合中，选取数值与该第一特征值相一致，且距离该第一特征值的位置最近的第二特征值。

比如，目标文本2对应的第一首指针集合为(0,0,0,1,0,0,0,0,1,0)，对应的第一尾指针集合为(0,0,0,0,1,0,0,0,0,1)，第一首指针集合中包括两个第一特征值“1”，分别在第四位值和第九位置，第一尾指针集合中包括两个第二特征值“1”，分别在第五位值和第十位置，对于第四位置的第一特征值“1”，第一尾指针集合中有两个数值与该第一特征值“1”相一致的第二特征值，其中，第五位置的第二特征值“1”与上述第四位置的第一特征值“1”距离最近，将第五位置的第二特征值“1”与四位置的第一特征值“1”相匹配，第十位置的第二特征值“1”与上述第九位置的第一特征值“1”距离最近，将第十位置的第二特征值“1”与九位置的第一特征值“1”相匹配。

S302、将该第一特征值与选取出的第二特征值对应的分词确定为所述目标文本中的命名实体，并将该第一特征值的类别确定为所述命名实体的类别。

本申请实施例中，针对每个第一特征值，选取出与该第一特征值相匹配的第二特征值，第一特征值在目标文本中对应的字为命名实体的首字，第二特征值在目标文本中对应的字为命名实体的尾字，进而从目标文本中提取出命名实体，并将命名实体对应的第一特征值和第二特征值的类别，确定命名实体的类别。

比如，目标文本2为“我喜欢华为手机和小米”，第五位置的第二特征值“1”与四位置的第一特征值“1”相匹配，从目标文本2中提取出命名实体“华为”，第十位置的第二特征值“1”与九位置的第一特征值“1”相匹配，从目标文本2中提取出命名实体“小米”，根据第一特征值(或第二特征值)“1”，确定“华为”和“小米”都是品牌类命名实体。

进一步的，参见图4所示，本申请实施例提供的命名实体的提取方法中，通过如下方式对所述编码模型以及所述标准矩阵进行训练：

S401、构造第一训练数据，所述第一训练数据中包括多个第一样本文本，以及每个第一样本文本对应的第二首指针集合和第二尾指针集合。

本申请实施例中，对应有两类训练数据，即第一训练数据和第二训练数据，其中，第一训练数据中的第一样本文本是有标签的样本文本，即对应有第二首指针集合和第二尾指针集合，第二训练数据中的第二样本文本是没有标签的样本文本。

S402、将所述第一训练数据中的第一样本文本输入到编码模型中，获取所述编码模型输出的第一样本文本对应的第二文本矩阵。

本申请实施例中，第一样本文本由多个字组成，基于预设的字-字向量词典，确定第一样本文本中每个字对应的字向量，并将第一样本文本中每个字的字向量输入到编码模型中，获取编码模型输出的第一样本文本的第二文本矩阵，其中，第二文本矩阵用于表征第一样本文本对应的文本语义。可选的，编码模型为ROBERTA模型，这里，编码模型可以是初始化的编码模型，也可以是训练中的编码模型，还可以是训练好的编码模型，在使用第一样本文本对编码模型进行训练的过程中，编码模型是动态变化的。

S403、基于标准矩阵，对所述第一样本文本对应的第二文本矩阵进行矩阵变换，得到所述第一样本文本对应的第三首指针集合和第三尾指针集合。

本申请实施例中，基于标准矩阵，对第一样本文本对应的第二文本矩阵进行矩阵变换，即将第一样本文本对应的第二文本矩阵乘以标准矩阵，得到第一样本文本中每个字归属于预设类别的第三概率，这里，标准矩阵可以是初始化的标准矩阵，也可以是训练中的标准矩阵，还可以是训练好的标准矩阵，在使用第一样本文本对标准矩阵进行训练的过程中，标准矩阵是动态变化的。

针对每个预设类别，若第一样本文本中连续的多个字归属于该预设类别的第三概率均大于预设阈值，则将上述连续的多个字确定为该预设类别的目标分词，将上述连续的多个字中的首字确定为目标分词的首字，将上述连续的多个字中的尾字确定为目标分词的尾字。

针对每个字，若该字为满足预设类别的目标分词的首字，则将该字在第一首指针集合中对应的特征值确定为与该预设类别相匹配的第一特征值，若该字为满足预设类别的目标分词的尾字，则将该字在第一尾指针集合中对应的特征值确定为与该预设类别相匹配的第二特征值，得到第一样本文本对应的第三首指针集合和第三尾指针集合。

S404、根据所述第一样本文本对应的第二首指针集合和第二尾指针集合，以及所述第一样本文本对应的第三首指针集合和第三尾指针集合，确定所述第一样本文本对应的损失值。

本申请实施例中，基于所述第一样本文本分别对应的第二首指针集合和第三首指针集合，确定所述第一样本文本对应的第一损失值；基于所述第一样本文本分别对应的第二尾指针集合和第三尾指针集合，确定所述第一样本文本对应的第二损失值；基于所述第一样本文本对应的第一损失值和第二损失值，确定所述第一样本文本对应的损失值。可选的，使用交叉熵函数，确定第一样本文本对应的损失值。

S405、基于所述损失值对所述编码模型以及所述标准矩阵进行调整，直至任一所述第一样本文本对应的损失值均小于预设阈值，得到所述预先训练好的编码模型和所述预先训练好的标准矩阵。

本申请实施例中，获取第一训练数据中每个第一样本文本对应的损失值，若第一训练数据中任一第一样本文本对应的损失值大于预设阈值，则对编码模型的参数，以及标准函数进行调整，直到第一训练数据中任一第一样本文本对应的损失值均小于预设阈值，则停止对编码模型的参数，以及标准函数进行调整，得到训练好的编码模型和训练好的标准矩阵。

进一步的，参见图5所示，本申请实施例提供的命名实体的提取方法中，不仅可以人工对每个第一样本文本对应的第二首指针集合和第二尾指针集合进行标记，构造第一训练数据，还可以通过如下方式构造所述第一训练数据：

S501、构造第二训练数据，所述第二训练数据中包括多个第二样本文本。

本申请实施例中，第二训练数据中的第二样本文本是没有标签的样本文本，在基于有标签的第一样本文本得到训练好的编码模型和标准矩阵后，获取第二训练数据中的第二样本文本，将第二样本文本转化为有标签的第一样本文本，基于转化得到的第一样本文本，对已训练的编码模型和标准矩阵再次进行训练。

S502、将所述第二训练数据中的第二样本文本输入到编码模型中，获取所述编码模型输出的所述第二样本文本对应的第三文本矩阵。

本申请实施例中，第二样本文本由多个字组成，基于预设的字-字向量词典，确定第二样本文本中每个字对应的字向量，并将第二样本文本中每个字的字向量输入到编码模型中，获取编码模型输出的第二样本文本的第三文本矩阵，其中，第三文本矩阵用于表征第二样本文本对应的文本语义，这里，编码模型为经过步骤401-步骤405训练后的编码模型。可选的，编码模型为ROBERTA模型。

S503、基于所述标准矩阵，对所述第二样本文本对应的第三文本矩阵进行矩阵变换，得到所述第二样本文本中每个字归属于所述预设类别的第二概率。

本申请实施例中，基于标准矩阵，对第二样本文本对应的第三文本矩阵进行矩阵变换，即将第二样本文本对应的第三文本矩阵乘以标准矩阵，得到第二样本文本中每个字归属于所述预设类别的第二概率。这里，标准矩阵为经过步骤401-步骤405训练后的标准矩阵。

S504、基于所述第二样本文本中每个字归属于所述预设类别的第二概率，确定所述第二样本文本对应的第四首指针集合和第四尾指针集合。

本申请实施例中，针对每个预设类别，若第二样本文本中连续的多个字归属于该预设类别的第二概率均大于预设阈值，则将上述连续的多个字确定为该预设类别的目标分词，将上述连续的多个字中的首字确定为目标分词的首字，将上述连续的多个字中的尾字确定为目标分词的尾字。

针对每个字，若该字为满足预设类别的目标分词的首字，则将该字在第一首指针集合中对应的特征值确定为与该预设类别相匹配的第一特征值，若该字为满足预设类别的目标分词的尾字，则将该字在第一尾指针集合中对应的特征值确定为与该预设类别相匹配的第二特征值，得到第二样本文本对应的第四首指针集合和第四尾指针集合。

S505、若所述第二样本文本中每个字归属于所述预设类别的第二概率满足第二预设条件，则将所述第二样本文本确定为所述第一样本文本，将所述第二样本文本对应的第四首指针集合和第四尾指针集合，分别确定为所述第一样本文本对应的第二首指针集合和第二尾指针集合。

本申请实施例中，获取第二样本文本中每个字归属于所述预设类别的第二概率，如果第二样本文本中存在第二概率大于预设阈值的字，说明第二样本文本中包括命名实体，则将该第二样本文本作为第一训练数据中的第一样本文本，将第二样本文本对应的第四首指针集合标记为第一样本文本对应的第二首指针集合，将第二样本文本对应的第四尾指针集合标记为第一样本文本对应的第二尾指针集合。

本申请实施例采用自训练(self-training)的方式，有效地利用未标记的第二训练数据，增加第一训练数据中第一样本文本的数量，使得训练得到的编码模型和标准矩阵稳定性高、准确性高。

基于同一发明构思，本申请实施例中还提供了与命名实体的提取方法对应的命名实体的提取装置，由于本申请实施例中的装置解决问题的原理与本申请实施例上述命名实体的提取方法相似，因此装置的实施可以参见方法的实施，重复之处不再赘述。

参见图6所示，图6为本申请一实施例提供的一种命名实体的提取装置的结构示意图，该提取装置包括：

第一获取模块601，用于将目标文本输入到预先训练好的编码模型中，获取所述编码模型输出的所述目标文本对应的第一文本矩阵；

第一确定模块602，用于基于所述目标文本对应的第一文本矩阵，确定所述目标文本对应的第一首指针集合和第一尾指针集合；所述第一首指针集合中包括所述目标文本中满足预设类别的目标分词的首字的第一特征值；所述第一尾指针集合中包括所述目标文本中满足预设类别的目标分词的尾字的第二特征值；

提取模块603，用于根据所述第一首指针集合中的所述第一特征值，以及所述第一尾指针集合中的所述第二特征值，从所述目标文本中提取命名实体，并确定所述命名实体对应的类别。

在一种可能的实施方式中，所述第一确定模块602，在基于所述目标文本对应的第一文本矩阵，确定所述目标文本对应的第一首指针集合和第一尾指针集合时，包括：

在一种可能的实施方式中，所述提取模块603，在根据所述第一首指针集合中的所述第一特征值，以及所述第一尾指针集合中的所述第二特征值，从所述目标文本中提取命名实体，并确定所述命名实体对应的类别时，包括：

在一种可能的实施方式中，所述命名实体的提取装置还包括：

第一构造模块，用于构造第一训练数据，所述第一训练数据中包括多个第一样本文本，以及每个第一样本文本对应的第二首指针集合和第二尾指针集合；

第二获取模块，用于将所述第一训练数据中的第一样本文本输入到编码模型中，获取所述编码模型输出的第一样本文本对应的第二文本矩阵；

第一矩阵变换模块，用于基于标准矩阵，对所述第一样本文本对应的第二文本矩阵进行矩阵变换，得到所述第一样本文本对应的第三首指针集合和第三尾指针集合；

第二确定模块，用于根据所述第一样本文本对应的第二首指针集合和第二尾指针集合，以及所述第一样本文本对应的第三首指针集合和第三尾指针集合，确定所述第一样本文本对应的损失值；

调整模块，用于基于所述损失值对所述编码模型以及所述标准矩阵进行调整，直至任一所述第一样本文本对应的损失值均小于预设阈值，得到所述预先训练好的编码模型和所述预先训练好的标准矩阵。

第二构造模块，用于构造第二训练数据，所述第二训练数据中包括多个第二样本文本；

第三获取模块，用于将所述第二训练数据中的第二样本文本输入到编码模型中，获取所述编码模型输出的所述第二样本文本对应的第三文本矩阵；

第二矩阵变换模块，用于基于所述标准矩阵，对所述第二样本文本对应的第三文本矩阵进行矩阵变换，得到所述第二样本文本中每个字归属于所述预设类别的第二概率；

第三确定模块，用于基于所述第二样本文本中每个字归属于所述预设类别的第二概率，确定所述第二样本文本对应的第四首指针集合和第四尾指针集合；

第四确定模块，用于若所述第二样本文本中每个字归属于所述预设类别的第二概率满足第二预设条件，则将所述第二样本文本确定为所述第一样本文本，将所述第二样本文本对应的第四首指针集合和第四尾指针集合，分别确定为所述第一样本文本对应的第二首指针集合和第二尾指针集合。

本申请实施例提供的命名实体的提取装置，基于目标文本对应的首指针集合和尾指针集合，从目标文本中提取命名实体，可以对更新的命名实体进行识别，数据的泛化能力强，命名实体的识别效率高。

参见图7所示，图7为本申请实施例提供的一种电子设备700，该电子设备700包括：处理器701、存储器702和总线，所述存储器702存储有所述处理器701可执行的机器可读指令，当电子设备运行时，所述处理器701与所述存储器702之间通过总线通信，所述处理器701执行所述机器可读指令，以执行如上述命名实体的提取方法的步骤。

具体地，上述存储器702和处理器701能够为通用的存储器和处理器，这里不做具体限定，当处理器701运行存储器702存储的计算机程序时，能够执行上述命名实体的提取方法。

对应于上述命名实体的提取方法，本申请实施例还提供了一种计算机可读存储介质，所述计算机可读存储介质上存储有计算机程序，所述计算机程序被处理器运行时执行上述命名实体的提取方法的步骤。

所属领域的技术人员可以清楚地了解到，为描述的方便和简洁，上述描述的系统和装置的具体工作过程，可以参考前述方法实施例中的对应过程，在此不再赘述。在本申请所提供的几个实施例中，应该理解到，所揭露的系统、装置和方法，可以通过其它的方式实现。以上所描述的装置实施例仅仅是示意性的，例如，所述模块的划分，仅仅为一种逻辑功能划分，实际实现时可以有另外的划分方式，又例如，多个模块或组件可以结合或者可以集成到另一个系统，或一些特征可以忽略，或不执行。另一点，所显示或讨论的相互之间的耦合或直接耦合或通信连接可以是通过一些通信接口，装置或模块的间接耦合或通信连接，可以是电性，机械或其它的形式。

所述作为分离部件说明的模块可以是或者也可以不是物理上分开的，作为模块显示的部件可以是或者也可以不是物理模块，即可以位于一个地方，或者也可以分布到多个网络模块上。可以根据实际的需要选择其中的部分或者全部模块来实现本实施例方案的目的。

另外，在本申请各个实施例中的各功能模块可以集成在一个处理模块中，也可以是各个模块单独物理存在，也可以两个或两个以上模块集成在一个模块中。

所述功能如果以软件功能模块的形式实现并作为独立的产品销售或使用时，可以存储在一个处理器可执行的非易失的计算机可读取存储介质中。基于这样的理解，本申请的技术方案本质上或者说对现有技术做出贡献的部分或者该技术方案的部分可以以软件产品的形式体现出来，该计算机软件产品存储在一个存储介质中，包括若干指令用以使得一台计算机设备(可以是个人计算机，服务器，或者网络设备等)执行本申请各个实施例所述方法的全部或部分步骤。而前述的存储介质包括：U盘、移动硬盘、只读存储器(Read-OnlyMemory，ROM)、随机存取存储器(Random Access Memory，RAM)、磁碟或者光盘等各种可以存储程序代码的介质。

最后应说明的是：以上所述实施例，仅为本申请的具体实施方式，用以说明本申请的技术方案，而非对其限制，本申请的保护范围并不局限于此，尽管参照前述实施例对本申请进行了详细的说明，本领域的普通技术人员应当理解：任何熟悉本技术领域的技术人员在本申请揭露的技术范围内，其依然可以对前述实施例所记载的技术方案进行修改或可轻易想到变化，或者对其中部分技术特征进行等同替换；而这些修改、变化或者替换，并不使相应技术方案的本质脱离本申请实施例技术方案的精神和范围，都应涵盖在本申请的保护范围之内。因此，本申请的保护范围应以权利要求的保护范围为准。

Claims

1.一种命名实体的提取方法，其特征在于，所述提取方法包括：

根据所述第一首指针集合中的所述第一特征值，以及所述第一尾指针集合中的所述第二特征值，从所述目标文本中提取命名实体，并确定所述命名实体对应的类别；

所述基于所述目标文本对应的第一文本矩阵，确定所述目标文本对应的第一首指针集合和第一尾指针集合，包括：

根据该字是否为满足预设类别的目标分词的首字或者尾字的判断结果，以及每一个判断结果对应的特征值，生成所述目标文本对应的第一首指针集合和第一尾指针集合；

所述根据所述第一首指针集合中的所述第一特征值，以及所述第一尾指针集合中的所述第二特征值，从所述目标文本中提取命名实体，并确定所述命名实体对应的类别，包括：

2.根据权利要求1所述的命名实体的提取方法，其特征在于，通过如下方式对所述编码模型以及所述标准矩阵进行训练：

3.根据权利要求2所述的命名实体的提取方法，其特征在于，通过如下方式构造所述第一训练数据：

4.一种命名实体的提取装置，其特征在于，所述提取装置包括：

提取模块，用于根据所述第一首指针集合中的所述第一特征值，以及所述第一尾指针集合中的所述第二特征值，从所述目标文本中提取命名实体，并确定所述命名实体对应的类别；

所述第一确定模块，在基于所述目标文本对应的第一文本矩阵，确定所述目标文本对应的第一首指针集合和第一尾指针集合时，包括：

所述提取模块，在根据所述第一首指针集合中的所述第一特征值，以及所述第一尾指针集合中的所述第二特征值，从所述目标文本中提取命名实体，并确定所述命名实体对应的类别时，包括：

5.一种电子设备，其特征在于，包括：处理器、存储器和总线，所述存储器存储有所述处理器可执行的机器可读指令，当电子设备运行时，所述处理器与所述存储器之间通过总线通信，所述处理器执行所述机器可读指令，以执行如权利要求1至3任一项所述的命名实体的提取方法的步骤。

6.一种计算机可读存储介质，其特征在于，所述计算机可读存储介质上存储有计算机程序，该计算机程序被处理器运行时执行如权利要求1至3任一项所述的命名实体的提取方法的步骤。