CN114357194B

CN114357194B - 种子数据的扩充方法、装置、计算机设备及存储介质

Info

Publication number: CN114357194B
Application number: CN202210027728.8A
Authority: CN
Inventors: 朱杰; 王燕蒙; 王少军
Original assignee: Ping An Technology Shenzhen Co Ltd
Current assignee: Ping An Technology Shenzhen Co Ltd
Priority date: 2022-01-11
Filing date: 2022-01-11
Publication date: 2024-10-25
Anticipated expiration: 2042-01-11
Also published as: CN114357194A

Abstract

本申请实施例属于大数据领域和人工智能技术领域，涉及一种种子数据的扩充方法，包括接收种子数据，从种子数据中提取符合预设条件的种子三元组；在开放领域知识库中召回同族三元组；提取所述种子三元组中的种子关系字符串以及同族三元组中的同族关系字符串；确定种子关系字符串以及同族关系字符串的同属类别属性，并以同属类别属性作为召回关系字符串，召回三元组；通过预训练的实体识别模型识别是否符合预定义图谱模式；若是，则将召回三元组并入所述种子数据。本申请还提供一种种子数据的扩充装置、计算机设备及存储介质。此外，本申请还涉及区块链技术，知识图谱扩充后的种子数据可存储于区块链中。本申请完成对种子数据的扩充。

Description

种子数据的扩充方法、装置、计算机设备及存储介质

技术领域

本申请涉及大数据领域和人工智能技术领域，尤其涉及一种种子数据的扩充方法、装置、计算机设备及存储介质。

背景技术

知识图谱自动构建指的是通过预定义图谱模式(Schema)和少量的知识图谱种子数据，从非结构化的文本数据中自动构建知识图谱的过程，其中，种子数据的数量是影响系统生成的知识图谱质量的一个关键因素。在现有技术中，知识图谱自动构建通常是直接从种子数据开始训练，由于知识图谱数据标注(尤其是三元组数据)费时费力，因此常会面临种子数据的数量不能满足模型训练最低要求的情况，进而导致生成的知识图谱质量不佳。

发明内容

本申请实施例的目的在于提出一种种子数据的扩充方法、装置、计算机设备及存储介质，以解决种子数据的数量不足以满足模型训练的最低要求而导致的知识图谱质量不佳的技术问题。

为了解决上述技术问题，本申请实施例提供一种种子数据的扩充方法，采用了如下所述的技术方案：所述方法包括下述步骤：

接收种子数据，从所述种子数据中提取符合预设条件的种子三元组，其中，所述种子三元组包括种子第一实体、种子关系字符串以及种子第二实体，所述种子关系字符串将所述种子第一实体与所述种子第二实体建立了关系；

在开放领域知识库中召回具有相同所述种子第一实体以及所述种子第二实体的同族三元组，其中，所述同族三元组包括同族第一实体、同族第二实体以及同族关系字符串；

提取所述种子三元组中的所述种子关系字符串以及所述同族三元组中的所述同族关系字符串；

确定所述种子关系字符串以及所述同族关系字符串的同属类别属性，并以所述同属类别属性作为召回关系字符串，召回开放领域知识库中应用所述召回关系字符串的类别属性的召回三元组，其中，所述召回三元组包括召回关系字符串、召回第一实体以及召回第二实体；

通过预训练的实体识别模型识别所述召回第一实体以及所述召回第二实体是否符合预定义图谱模式；

在识别到所述召回第一实体以及所述召回第二实体符合预定义图谱模式时，将所述召回三元组并入所述种子数据。

进一步的，所述从所述种子数据中提取符合预设条件的种子三元组的步骤包括：

判别种子数据中符合预设条件的种子实体；

根据人工编辑或者学习得到的关系模板对种子数据中的种子实体与种子关系字符串进行提取，并将提取的种子实体及种子关系字符串设置为种子三元组。

进一步的，所述判别种子数据中符合预设条件的种子实体的步骤包括：

将种子数据中的文本语料分割为句子；

获得名词的词性，根据名词的词性探测句子中的种子实体；

提取符合预设条件的名词词组块和种子实体。

进一步的，在所述在开放领域知识库中召回具有相同所述种子第一实体以及所述种子第二实体的同族三元组，其中，所述同族三元组包括同族第一实体、同族第二实体以及同族关系字符串的步骤之后还包括：

判断所述同族关系字符串是否存在两组及两组以上同一同族关系字符串的三元组；

如是，删除所述同族三元组；

如否，则执行所述提取所述种子三元组中的所述种子关系字符串以及所述同族三元组中的所述同族关系字符串的步骤。

进一步的，所述确定所述种子关系字符串以及所述同族关系字符串的同属类别属性，并以所述同属类别属性作为扩充后的召回关系字符串的步骤具体包括：

获取所述种子关系字符串所属的类别属性以及所述同族关系字符串所属的类别属性；

以覆盖原则确定能够同时包含所述种子关系字符串所属的类别属性与所述同族关系字符串所属的类别属性同属的同属类别属性；

以所述同属类别属性作为扩充后的召回关系字符串。

进一步的，所述通过预训练的实体识别模型识别所述召回第一实体以及所述召回第二实体是否符合预定义图谱模式的步骤之前，还包括：

挖掘所述种子第一实体的第一实体种子数据，以及所述种子第二实体的第二实体种子数据；

根据所述第一实体种子数据与所述第二实体种子数据构建实体识别模型。

进一步的，所述挖掘所述种子第一实体的第一实体种子数据，以及所述种子第二实体的第二实体种子数据的步骤具体包括：

将所述种子第一实体按第一比例分为所述种子第一实体的第一训练集、第二比例分为所述种子第一实体的第一测试集，将所述种子第二实体的按第一比例分为所述种子第二实体的第二训练集、第二比例分为所述种子第二实体的第二测试集；

预处理所述第一训练集以及所述第二训练集；

定义所述第一训练集内所述种子第一实体的数据类型与第一标签，及定义所述第二训练集内所述种子第二实体的数据类型与第二标签；

建立所述种子第一实体的数据类型与所述第一标签的第一关系，所述种子第二实体的数据类型与所述第二标签的第二关系；

将所述第一关系回归所述第一测试集中进行数据挖掘，所述第二关系回归所述第二测试集中进行数据挖掘；

获取所述第一测试集中的种子第一实体的第一实体种子数据，所述第二测试集中的种子第二实体的第二实体种子数据。

为了解决上述技术问题，本申请实施例还提供一种种子数据的扩充装置，包括：

接收模块，接收种子数据，从所述种子数据中提取符合预设条件的种子三元组，其中，所述种子三元组包括种子第一实体、种子关系字符串以及种子第二实体，所述种子关系字符串将所述种子第一实体与所述种子第二实体建立了关系；

寻同模块，在开放领域知识库中召回具有相同所述种子第一实体以及所述种子第二实体的同族三元组，其中，所述同族三元组包括同族第一实体、同族第二实体以及同族关系字符串；

提取模块，提取所述种子三元组中的所述种子关系字符串以及所述同族三元组中的所述同族关系字符串；

扩充模块，确定所述种子关系字符串以及所述同族关系字符串的同属类别属性，并以所述同属类别属性作为召回关系字符串，召回开放领域知识库中应用所述召回关系字符串的类别属性的召回三元组，其中，所述召回三元组包括召回关系字符串、召回第一实体以及召回第二实体；

识别模块，通过预训练的实体识别模型识别所述召回第一实体以及所述召回第二实体是否符合预定义图谱模式；

并入模块，在识别到所述召回第一实体以及所述召回第二实体符合预定义图谱模式时，将所述召回三元组并入所述种子数据。

为了解决上述技术问题，本申请实施例还提供一种计算机设备，采用了如下所述的技术方案：包括存储器和处理器，所述存储器中存储有计算机可读指令，所述处理器执行所述计算机可读指令时实现如上述的种子数据的扩充方法的步骤。

为了解决上述技术问题，本申请实施例还提供一种计算机可读存储介质，采用了如下所述的技术方案：所述计算机可读存储介质上存储有计算机可读指令，所述计算机可读指令被处理器执行时实现如上所述的种子数据的扩充方法的步骤。

与现有技术相比，本申请实施例主要有以下有益效果：通过以种子数据的第一实体、种子第二实体为基础，查询具有相同的种子数据的第一实体、种子第二实体的同族关系字符串，确定种子字符串与同族关系字符串的同属类别属性，并以同属类别属性作为扩充的召回关系字符串，完成三元组扩充的基础关系建立；在开放领域知识库中查询应用召回关系字符串的召回第一实体与召回第二实体，由种子第一实体与种子第二实体训练并建立的实体识别模型进行检验召回第一实体与召回第二实体是否符合预定义图谱模式，进而进一步确保扩充的数据的准确性，符合则保留召回三元组，并将召回三元组为在种子数据中扩充的数据，即完成对种子数据的扩充，进而提升知识图谱质量。

附图说明

为了更清楚地说明本申请中的方案，下面将对本申请实施例描述中所需要使用的附图作一个简单介绍，显而易见地，下面描述中的附图是本申请的一些实施例，对于本领域普通技术人员来讲，在不付出创造性劳动的前提下，还可以根据这些附图获得其他的附图。

图1是本申请可以应用于其中的示例性系统架构图；

图2是种子数据的扩充方法的一个实施例的流程图；

图3是种子数据的扩充装置的一个实施例的结构示意图；

图4是根据本申请的计算机设备的一个实施例的结构示意图。

具体实施方式

除非另有定义，本文所使用的所有的技术和科学术语与属于本申请的技术领域的技术人员通常理解的含义相同；本文中在申请的说明书中所使用的术语只是为了描述具体的实施例的目的，不是旨在于限制本申请；本申请的说明书和权利要求书及上述附图说明中的术语“包括”和“具有”以及它们的任何变形，意图在于覆盖不排他的包含。本申请的说明书和权利要求书或上述附图中的术语“第一”、“第二”等是用于区别不同对象，而不是用于描述特定顺序。

在本文中提及“实施例”意味着，结合实施例描述的特定特征、结构或特性可以包含在本申请的至少一个实施例中。在说明书中的各个位置出现该短语并不一定均是指相同的实施例，也不是与其它实施例互斥的独立的或备选的实施例。本领域技术人员显式地和隐式地理解的是，本文所描述的实施例可以与其它实施例相结合。

为了使本技术领域的人员更好地理解本申请方案，下面将结合附图，对本申请实施例中的技术方案进行清楚、完整地描述。

如图1所示，系统架构100可以包括终端设备101、102、103，网络104和服务器105。网络104用以在终端设备101、102、103和服务器105之间提供通信链路的介质。网络104可以包括各种连接类型，例如有线、无线通信链路或者光纤电缆等等。

用户可以使用终端设备101、102、103通过网络104与服务器105交互，以接收或发送消息等。终端设备101、102、103上可以安装有各种通讯客户端应用，例如网页浏览器应用、购物类应用、搜索类应用、即时通信工具、邮箱客户端、社交平台软件等。

终端设备101、102、103可以是具有显示屏并且支持网页浏览的各种电子设备，包括但不限于智能手机、平板电脑、电子书阅读器、MP3播放器(Moving PictureExpertsGroup Audio Layer III，动态影像专家压缩标准音频层面3)、MP4(MovingPictureExperts Group Audio Layer IV，动态影像专家压缩标准音频层面4)播放器、膝上型便携计算机和台式计算机等等。

服务器105可以是提供各种服务的服务器，例如对终端设备101、102、103上显示的页面提供支持的后台服务器。

需要说明的是，本申请实施例所提供的基于语音语义的信息检索方法一般由服务器执行，相应地，基于语音语义的信息检索装置一般设置于服务器中。

应该理解，图1中的终端设备、网络和服务器的数目仅仅是示意性的。根据实现需要，可以具有任意数目的终端设备、网络和服务器。

继续参考图2，示出了根据本申请的种子数据的扩充方法的一个实施例的流程图。所述的种子数据的扩充方法，包括以下步骤：

步骤S1，接收种子数据，从所述种子数据中提取符合预设条件的种子三元组，其中，所述种子三元组包括种子第一实体、种子关系字符串以及种子第二实体，所述种子关系字符串将所述种子第一实体与所述种子第二实体建立了关系。

知识图谱中的种子数据包括两部分：种子实体数据和种子三元组数据，本实施例中扩充的对象是三元组数据，当扩充程序开启后，根据接收到的种子数据为扩充的触发条件，其中，种子数据中包含至少一个种子三元组，在本实施例中以种子数据包含一个种子三元组为例，在另一实施例中，种子数据包含两个或两个以上的种子三元组。

种子三元组为三个元素有序排列，三个元素分别为种子第一实体、种子第二实体以及种子关系字符串，由种子关系字符串将种子第一实体与种子第二实体建立关系，使得种子第一实体、种子第二实体以及种子关系字符串有序组合，在本实施例中，在种子三元组中寻找将种子第一实体与种子第二实体作为关联的种子关系字符串，将种子关系字符串从种子三元组中进行提取，并将种子第一实体以及种子第二实体分别归类留作后续实体识别模型的建立，将提取的种子关系字符串进行同属类别属性的扩充，具体扩充方法详见后续步骤；其中，在当前知识图谱中由种子关系字符串为关联的种子第一实体与种子第二实体仅有一组，当种子关系字符串关联有两组或两组以上的种子第一实体与种子第二实体时，则舍弃该组种子三元组，并在种子数据中重新获取新的种子三元组作为扩充对象。

其中，从所述种子数据中提取符合预设条件的种子三元组的步骤包括:

判别种子数据中符合预设条件的种子实体；根据人工编辑或者学习得到的关系模板对种子数据中的种子实体与种子关系字符串进行提取，并将提取的种子实体及种子关系字符串设置为种子三元组.

具体地，判别种子数据中符合预设条件的种子实体通过将种子数据中的文本语料分割为句子；获得名词的词性，根据名词的词性探测句子中的种子实体；提取符合预设条件的名词词组块和种子实体。预设条件为在一个或多个限定的领域内判别种子数据中的文本语料所出现的实体之间是何种语义关系，限定的领域由用户/工作人员预定义；在本实施例中，语义关系可采用对偶的方式进行表示，可以利用种子实体在文本语料中获取的关系模板，再利用获得的关系模板抽取更多的种子实体。关系模板为抽取句子中的种子实体之间的表达关系，关系模板是基于词汇获取的，也可以是基于句法或语义获取的，具体包括：句子边界探测(将给定的种子数据中的文本语料分割为句子)、词性标注(获得名词的词性)、名词词组块识别(探测句子中种子实体)、命名实体识别(提取合适的名词词组块和种子实体，例如，人物(Person)、组织(Organization)、位置(Location)、设施(Facility)和地缘政治实体(Geo-Political Entity))。在此基础上，分别抽取词汇级关系模板和句法级关系模板，对获得的关系模板进行聚类，将表示同一语义关系的关系模板聚类到一起。例如：句子：The crime took place in View Royal on Vancouver Island；词性标注：DT NN VBD NNIN NNP NNP IN NNP NNP；实体或词组块：The crime took place in[View Royal]on[Vancouver Island]；变量替换：View Royal＝X Vancouver Island＝Y；字面形式：Thecrime took place in X on Y；词性序列：DT NN VBD NN IN X IN Y；词汇模式：X on Y，X，Y；语法模式：X in Y，X，Y。

根据人工编辑或者学习得到的关系模板对种子数据中的种子实体与种子关系字符串进行提取包括通过人工编辑或学习得到的关系模板对文本语料中的实体关系进行抽取和判别。人工编辑:假设X和Y表示公司类型，可使用如下关系模板表示收购(ACQUISITION)关系。当满足(X is acquired by Y,X is purchased by Y,X is boughtby Y)关系模板，则表示两个实体指称在这个句子中具有收购(ACQUISITION)关系。学习得到：由于人工定义模板的方法不能针对多类关系列举所有的关系模板，则需采用自动的方法学习抽取关系模板；外延性(Extensionally)表示：使用所有包含该种关系的实体对表示该关系，例如，用符号R表示关系，E(R)表示所有包含关系R的实体对；内涵性(Intensionally)表示：使用所有能抽取出这种关系的关系模板表示该关系；用符号R表示关系，使用所有能抽取这种关系的关系模板P(R)。

步骤S2，在开放领域知识库中召回具有相同所述种子第一实体以及所述种子第二实体的同族三元组，其中，所述同族三元组包括同族第一实体、同族第二实体以及同族关系字符串。

具体地，开放领域知识库的种子数据存储量大于知识图谱内的种子数据存储量，在开放领域知识库中召回具有种子第一实体与种子第二实体的同族三元组，由于开放领域知识库中种子第一实体与种子第二实体关联之间不只一个种子关系字符串，因此在开发领域知识库中召回相当于增加了包含种子第一实体与种子第二实体的同族三元组的数量，同族三元组包括同族第一实体、同族第二实体以及同族关系字符串，在本步骤中，种子第一实体为同族第一实体，种子第二实体为同族第二实体，而同族关系字符串与种子关系字符串不同，且同族关系字符串的数量多于种子关系字符串的数量。

其中，开放领域知识库主要来源于互联网上的相关新闻报道以及一些专业知识网站，比如公开的中英文关系抽取知识库ACE2005、SemEval-2010Task8和中文关系抽取知识库Chinese-Literature-NER-RE-Dataset等，这些知识库中的数据类型基本包含了现实生活中的各个领域。

需要注意的是，根据获取的同族三元组中同族关系字符串，筛选同族关系字符串是否存在两组及两组以上同一同族关系字符串的三元组，即同族关系字符串关联同族第一实体与同族第二实体以外还存在关联另一实体数据，如果存在上述情况的同族关系字符串，则说明上述同族关系字符串的同族三元组不可用，应删除该组同族三元组，如果不存在上述情况的同族关系字符串，则说明上述同族关系字符串可以作为扩充使用。

步骤S3，提取所述种子三元组中的所述种子关系字符串以及所述同族三元组中的所述同族关系字符串。

将种子三元组中的种子关系字符串提取，将同族三元组中的同族关系字符串提取，在本实施例中以种子关系字符串结合同族关系字符串作为扩充的依据，整理归类同族关系字符串与种子关系字符串。

步骤S4，确定所述种子关系字符串以及所述同族关系字符串的同属类别属性，并以所述同属类别属性作为召回关系字符串，召回开放领域知识库中应用所述召回关系字符串的类别属性的召回三元组，其中，所述召回三元组包括召回关系字符串、召回第一实体以及召回第二实体。

根据整理归类后的同族关系字符串与种子关系字符串进行同属类别的确定，具体地，通过获取种子关系字符串所属的类别属性以及同族关系字符串所属的类别属性，分析种子关系字符串所属的类别属性以及同族关系字符串所属的类别属性，以覆盖原则确定能够同时包含种子关系字符串所属的类别属性以及同族关系字符串所属的类别属性的同属类别属性，其中，覆盖原则具体为同属类别属性的属性覆盖范围大于等于种子关系字符串所属的类别属性，或同属类别属性的属性覆盖范围大于等于同族关系字符串所属的类别属性，以最大地扩大种子数据内的种子三元组数量，在确定种子关系字符串所属的类别属性与同族关系字符串所属的类别属性同属的同属类别属性后，则同属类别属性为新的种子关系字符串，并命名同属类别属性为召回关系字符串。若同属类别属性还是无法全面覆盖种子关系字符串所属的类别属性以及同族关系字符串所属的类别属性，则删除无法覆盖的类别属性，并重新获取同属类别属性。

在开放领域知识库中召回与召回关系字符串关联的召回第一实体以及召回第二实体，需要说明的是召回第一实体以及召回第二实体不同于种子第一实体以及种子第二实体，当然，为了去重，当召回关系字符串关联多组召回第一实体以及召回第二实体时，则删除该组召回三元组，如果不存在上述情况的召回关系字符串，则说明上述召回关系字符串可以作为扩充使用。

步骤S5，通过预训练的实体识别模型识别所述召回第一实体以及所述召回第二实体是否符合预定义图谱模式。

在本申请中通过实体识别模型确定召回第一实体与召回第二实体是否符合本实施例所需的知识图谱内种子数据的扩充类型，因此对种子第一实体与种子第二实体进行训练并建立实体识别模型。

需要说明的是，本步骤具体包括：挖掘种子第一实体的第一实体种子数据，以及种子第二实体的第二实体种子数据，根据第一实体种子数据与第二实体种子数据构建实体识别模型。通过实体种子数据构建实体识别模型的过程利用知识图谱中三元组回标文本语料构建训练数据集，以用实体种子数据评估实体识别模型的准确率。

具体地，将种子第一实体按第一比例分为种子第一实体的第一训练集、第二比例分为种子第一实体的第一测试集，将种子第二实体的按第一比例分为种子第二实体的第二训练集、第二比例分为种子第二实体的第二测试集；预处理第一训练集以及第二训练集；定义第一训练集内种子第一实体的数据类型与第一标签，及定义第二训练集内种子第二实体的数据类型与第二标签；建立种子第一实体的数据类型与第一标签的第一关系，种子第二实体的数据类型与第二标签的第二关系；将第一关系回归第一测试集中进行数据挖掘，第二关系回归第二测试集中进行数据挖掘；获取第一测试集中的种子第一实体的第一实体种子数据，第二测试集中的种子第二实体的第二实体种子数据。

其中，训练集用于数据挖掘分类和回归技术训练，训练阶段在建立实体识别模型前需要准备数据并做预处理，在预处理时定义识别实体分配给有关的信息，如挖掘类型与数据所处标签，将测试的数据结果输入另外的数据组，以作为测试集的描述，其结果作为实例以决定运算法则结束时间；测试集对训练集的训练结果后进行检验测试，测试时为实体识别模型的对象字段读入系列数据组，在应用中评估每个数据组，将预测数据和对象字段里的实际数据做比较，其结果可为使用者或应用提供实例，以此决定实体识别模型以质量为基础能否应用于实际。第一比例与第二比例设置数值根据用户需求设定。

具体地，挖掘类型与数据所处标签通过一个Bi-LSTM(Bi-directional long-short term memory)编码后直接Softmax(逻辑回归模型)输出每个实体种子数据的类别标签，将标签后的每个种子数据构建一个新的种子实体训练语料，加入种子数据一起训练得到实体识别模型。例如，对于开放领域知识库中存在关系的两个实体，若一条句子同时包含了这两个实体，那么就假定这条句子中包含了对应关系并进行标签，由此就可以获得大量的标签数据；和/或，自动构建标签数据的方法其实就是先用主实体去文本中寻找包含主实体的句子，然后看看这些句子是否同时包含副实体和关系词，若存在多个，则标注副实体和关系词距离主实体最近的一组；和/或，把主实体当做一个问题，实际相当于“这句话中主实体是人民大学它的副实体和关系词是？”这样一个问句，副实体和关系词我们分别用OBJ和RL的BIO标签进行表示。

其中，种子数据的训练方式为利用朴素贝叶斯分类器进行训练，训练使用的特征举例如下：关系指示词的词性、长度；实体的类型，是否是专有名词；左实体左边词语的词性。朴素贝叶斯分类器为对已知类别假设所有属性相互独立.换言之，假设每个属性独立地对分类结果发生影响。基于属性条件独立性假设，来估计后验概率P(c|x)为：

其中d为属性数目，x_i为x在第i个属性上的取值。

由于对所有类别来说P(x)相同，因此贝叶斯判定准则有

，以上为朴素贝叶斯分类器的表达式。朴素贝叶斯分类器的训练过程就是基于训练集d来估计类先验概率P(c)，并为每个属性估计条件概率P(x_i|c)。

在本实施例中，训练阶段：通过预处理第一训练集内的种子数据，挖掘分类第一训练集内的种子数据，得到挖掘后的种子第一实体的数据类型与第一标签；测试阶段：将挖掘后的种子第一实体的数据类型与第一标签进行第一关系的建立，而在测试中通过第一关系回归第一测试集中进行数据挖掘，进而获取高质量的第一实体种子数据。

回归分析(regression analysis)指的是确定两种或两种以上变量间相互依赖的定量关系的一种统计分析方法，在本实施例中，主要采用ElasticNet回归的分析方法，具体地，ElasticNet(弹性网络)使用L1来训练并且L2优先作为正则化矩阵。当有多个相关的特征时，在选择合适的模型时，比如识别变量的关系和影响时，可以分析不同的指标参数，如统计意义的参数，R-square，Adjusted R-square，AIC，BIC以及误差项，另一个是Mallows’Cp准则，主要是通过将模型与所有可能的子模型进行对比(或谨慎选择他们)，检查在模型中可能出现的偏差。交叉验证是评估预测模型最好的方法，将数据集分成两份(一份做训练和一份做验证)，使用观测值和预测值之间的一个简单均方差来衡量你的预测精度。ElasticNet在高维和数据集变量之间多重共线性情况下运行良好。

通过预处理第二训练集内的种子数据，挖掘分类第二训练集内的种子数据，得到挖掘后的种子第二实体的数据类型与第二标签；测试阶段：将挖掘后的种子第二实体的数据类型与第二标签进行第二关系的建立，而在测试中通过第二关系回归第二测试集中进行数据挖掘，进而获取高质量的第二实体种子数据。

步骤S6，在识别到所述召回第一实体以及所述召回第二实体符合预定义图谱模式时，将所述召回三元组并入所述种子数据。

将召回第一实体与召回第二实体输入实体识别模型中评估检验，以证实召回第一实体与召回第二实体的可信度，输入召回第一实体与召回第二实体，将召回第一实体与召回第二实体放至测试阶段进行测试，通过检验召回第一实体是否处于第一标签内，召回第一实体是否能够通过种子第一实体的数据类型与第一标签以及第一关系建立联系；检验召回第二实体是否处于第二标签内，召回第二实体是否能够通过种子第二实体的数据类型与第二标签以及第二关系建立联系。

当识别结果中，所述召回第一实体以及所述召回第二实体符合预定义图谱模式，则将所述召回三元组并入所述种子数据。输入召回第一实体，将召回第一实体放至测试阶段进行测试，通过检验召回第一实体处于第一标签内，召回第一实体能够通过种子第一实体的数据类型与第一标签以及第一关系建立联系；输入召回第二实体，将召回第二实体放至测试阶段进行测试，通过检验召回第二实体处于第二标签内，召回第二实体能够通过种子第二实体的数据类型与第二标签以及第二关系建立联系。则召回第一实体以及召回第二实体符合预定义图谱模式，并保留召回三元组。

将所述召回三元组并入所述种子数据中，实现所述种子数据的扩充。此时的召回三元组内的召回关系字符串的类别属性范围相对于种子关系字符串的类别属性范围扩大，与召回关系字符串关联的召回第一实体与召回第二实体数量增多，因此，将召回三元组并入种子数据中，实现种子数据的扩充。

当识别结果中，所述召回第一实体以及所述召回第二实体不符合预定义图谱模式，则删除所述召回三元组。输入召回第一实体，将召回第一实体放至测试阶段进行测试，通过检验召回第一实体不处于第一标签内，召回第一实体能够通过种子第一实体的数据类型与第一标签以及第一关系无法建立联系；输入召回第二实体，将召回第二实体放至测试阶段进行测试，通过检验召回第二实体不处于第二标签内，召回第二实体能够通过种子第二实体的数据类型与第二标签以及第二关系无法建立联系。则召回第一实体以及召回第二实体符合不符合预定义图谱模式，并删除召回三元组。

本实施例通过以种子数据的第一实体、种子第二实体为基础，查询具有相同的种子数据的第一实体、种子第二实体的同族关系字符串，确定种子字符串与同族关系字符串的同属类别属性，并以同属类别属性作为扩充的召回关系字符串，完成三元组扩充的基础关系建立；在开放领域知识库中查询应用召回关系字符串的召回第一实体与召回第二实体，由种子第一实体与种子第二实体训练并建立的实体识别模型进行检验召回第一实体与召回第二实体是否符合预定义图谱模式，进而进一步确保扩充的数据的准确性，符合则保留召回三元组，并将召回三元组为在种子数据中扩充的数据，即完成对种子数据的扩充，进而提升知识图谱质量。

需要强调的是，为进一步保证上述知识图谱的私密和安全性，上述扩充后的种子数据还可以存储于一区块链的节点中。

本申请所指区块链是分布式数据存储、点对点传输、共识机制、加密算法等计算机技术的新型应用模式。区块链(Blockchain)，本质上是一个去中心化的数据库，是一串使用密码学方法相关联产生的数据块，每一个数据块中包含了一批次网络交易的信息，用于验证其信息的有效性(防伪)和生成下一个区块。区块链可以包括区块链底层平台、平台产品服务层以及应用服务层等。

本申请实施例可以基于人工智能技术对相关的数据进行获取和处理。其中，人工智能(Artificial Intelligence，AI)是利用数字计算机或者数字计算机控制的机器模拟、延伸和扩展人的智能，感知环境、获取知识并使用知识获得最佳结果的理论、方法、技术及应用系统。

人工智能基础技术一般包括如传感器、专用人工智能芯片、云计算、分布式存储、大数据处理技术、操作/交互系统、机电一体化等技术。人工智能软件技术主要包括计算机视觉技术、机器人技术、生物识别技术、语音处理技术、自然语言处理技术以及机器学习/深度学习等几大方向。

本领域普通技术人员可以理解实现上述实施例方法中的全部或部分流程，是可以通过计算机可读指令来指令相关的硬件来完成，该计算机可读指令可存储于一计算机可读取存储介质中，该程序在执行时，可包括如上述各方法的实施例的流程。其中，前述的存储介质可为磁碟、光盘、只读存储记忆体(Read-Only Memory，ROM)等非易失性存储介质，或随机存储记忆体(Random Access Memory，RAM)等。

应该理解的是，虽然附图的流程图中的各个步骤按照箭头的指示依次显示，但是这些步骤并不是必然按照箭头指示的顺序依次执行。除非本文中有明确的说明，这些步骤的执行并没有严格的顺序限制，其可以以其他的顺序执行。而且，附图的流程图中的至少一部分步骤可以包括多个子步骤或者多个阶段，这些子步骤或者阶段并不必然是在同一时刻执行完成，而是可以在不同的时刻执行，其执行顺序也不必然是依次进行，而是可以与其他步骤或者其他步骤的子步骤或者阶段的至少一部分轮流或者交替地执行。

进一步参考图3，作为对上述图2所示方法的实现，本申请提供了一种种子数据的扩充装置的一个实施例，该装置实施例与图2所示的方法实施例相对应，该装置具体可以应用于各种电子设备中。

如图3所示，本实施例所述的种子数据的扩充装置400包括：接收模块401、寻同模块402、提取模块403、扩充模块404、训练模块405、识别模块406。其中：

接收模块401，用于接收种子数据，从所述种子数据中提取符合预设条件的种子三元组，其中，所述种子三元组包括种子第一实体、种子关系字符串以及种子第二实体，所述种子关系字符串将所述种子第一实体与所述种子第二实体建立了关系；

寻同模块402，用于在开放领域知识库中召回具有相同所述种子第一实体以及所述种子第二实体的同族三元组，其中，所述同族三元组包括同族第一实体、同族第二实体以及同族关系字符串；

提取模块403，用于提取所述种子三元组中的所述种子关系字符串以及所述同族三元组中的所述同族关系字符串；

扩充模块404，用于确定所述种子关系字符串以及所述同族关系字符串的同属类别属性，并以所述同属类别属性作为召回关系字符串，召回开放领域知识库中应用所述召回关系字符串的类别属性的召回三元组，其中，所述召回三元组包括召回关系字符串、召回第一实体以及召回第二实体；

识别练模块405，用于通过预训练的实体识别模型识别所述召回第一实体以及所述召回第二实体是否符合预定义图谱模式；

并入模块406，用于在识别到所述召回第一实体以及所述召回第二实体符合预定义图谱模式时，将所述召回三元组并入所述种子数据.

在本实施例中，以种子数据的第一实体、种子第二实体为基础，查询具有相同的种子数据的第一实体、种子第二实体的同族关系字符串，确定种子字符串与同族关系字符串的同属类别属性，并以同属类别属性作为扩充的召回关系字符串，完成三元组扩充的基础关系建立；在开放领域知识库中查询应用召回关系字符串的召回第一实体与召回第二实体，由种子第一实体与种子第二实体训练并建立的实体识别模型进行检验召回第一实体与召回第二实体是否符合预定义图谱模式，进而进一步确保扩充的数据的准确性，符合则保留召回三元组，并将召回三元组为在种子数据中扩充的数据，即完成对种子数据的扩充，进而提升知识图谱质量。

在本实施例的一些可选的实现方式中，所述接收模块401包括：

判别子模块，用于判别种子数据中符合预设条件的种子实体；

提取子模块，用于根据人工编辑或者学习得到的关系模板对种子数据中的种子实体与种子关系字符串进行提取，并将提取的种子实体及种子关系字符串设置为种子三元组。

本实施例中，通过判别种子数据中符合预设条件的种子实体，根据人工编辑或者学习得到的关系模板对种子数据中的种子实体与种子关系字符串进行提取，并将提取的种子实体及种子关系字符串设置为种子三元组，进而得到精准需求的种子三元组。

在本实施例的一些可选的实现方式中，所述判别子模块包括：

分割子模块，用于将种子数据中的文本语料分割为句子；

探测子模块，用于获得名词的词性，根据名词的词性探测句子中的种子实体；

提取实体子模块，用于提取符合预设条件的名词词组块和种子实体。

本实施例中，通过将种子数据中的文本语料分割为句子，获得名词的词性，根据名词的词性探测句子中的种子实体，提取符合预设条件的名词词组块和种子实体，进而完成在种子数据中精准提取种子实体，得到高质量的种子实体。

在本实施例的一些可选的实现方式中，所述种子数据的扩充装置400还包括：

判断模块，用于判断所述同族关系字符串是否存在两组及两组以上同一同族关系字符串的三元组；如是，删除所述同族三元组；如否，则执行所述提取所述种子三元组中的所述种子关系字符串以及所述同族三元组中的所述同族关系字符串的步骤。

本实施例中，通过判断同族关系字符串是否存在两组及两组以上同一同族关系字符串的三元组，并进行去重操作，确保同族关系字符串所关联的关系唯一性，增强同族三元组的可靠性。

在本实施例的一些可选的实现方式中，所述扩充模块405包括：

获取单元，用于获取所述种子关系字符串所属的类别属性以及所述同族关系字符串所属的类别属性；

确定单元，用于以覆盖原则确定能够同时包含所述种子关系字符串所属的类别属性与所述同族关系字符串所属的类别属性同属的同属类别属性；

扩充单元，用于以所述同属类别属性作为扩充后的召回关系字符串。

本实施例中，通过确定种子关系字符串所属的类别属性与同族关系字符串所属的类别属性同属的同属类别属性，同属类别属性作为扩充后的召回关系字符串，进而扩充召回关系字符串的类别属性范围。

在本实施例的一些可选的实现方式中，所述识别模块405包括：

挖掘单元，用于挖掘所述种子第一实体的第一实体种子数据，以及所述种子第二实体的第二实体种子数据；

模型建立单元，用于根据所述第一实体种子数据与所述第二实体种子数据构建实体识别模型。

本实施例中，通过挖掘种子第一实体的第一实体种子数据以及种子第二实体的第二实体种子数据，根据第一实体种子数据与第二实体种子数据构建实体识别模型，通过实体识别模型检验召回第一实体与召回第二实体的可靠性。

在本实施例的一些可选的实现方式中，所述挖掘单元包括：

分配子单元，用于将所述种子第一实体按第一比例分为所述种子第一实体的第一训练集、第二比例分为所述种子第一实体的第一测试集，将所述种子第二实体的按第一比例分为所述种子第二实体的第二训练集、第二比例分为所述种子第二实体的第二测试集；

预处理子单元，用于预处理所述第一训练集以及所述第二训练集；

定义子单元，用于定义所述第一训练集内所述种子第一实体的数据类型与第一标签，及定义所述第二训练集内所述种子第二实体的数据类型与第二标签；

建立子单元，用于建立所述种子第一实体的数据类型与所述第一标签的第一关系，所述种子第二实体的数据类型与所述第二标签的第二关系；

挖掘子单元，用于将所述第一关系回归所述第一测试集中进行数据挖掘，所述第二关系回归所述第二测试集中进行数据挖掘；

获取子单元，用于获取所述第一测试集中的种子第一实体的第一实体种子数据，所述第二测试集中的种子第二实体的第二实体种子数据。

本实施例中，通过种子第一实体与种子第二实体在训练阶段训练以及测试阶段测试，得到高质量的第一实体种子数据与第二实体种子数据。

为解决上述技术问题，本申请实施例还提供计算机设备。具体请参阅图4，图4为本实施例计算机设备基本结构框图。

所述计算机设备6包括通过系统总线相互通信连接存储器41、处理器42、网络接口43。需要指出的是，图4中仅示出了具有组件41-43的计算机设备4，但是应理解的是，并不要求实施所有示出的组件，可以替代的实施更多或者更少的组件。其中，本技术领域技术人员可以理解，这里的计算机设备是一种能够按照事先设定或存储的指令，自动进行数值计算和/或信息处理的设备，其硬件包括但不限于微处理器、专用集成电路(ApplicationSpecific Integrated Circuit，ASIC)、可编程门阵列(Field－Programmable GateArray，FPGA)、数字处理器(Digital Signal Processor，DSP)、嵌入式设备等。

所述计算机设备可以是桌上型计算机、笔记本、掌上电脑及云端服务器等计算设备。所述计算机设备可以与用户通过键盘、鼠标、遥控器、触摸板或声控设备等方式进行人机交互。

所述存储器41至少包括一种类型的可读存储介质，所述可读存储介质包括闪存、硬盘、多媒体卡、卡型存储器(例如，SD或DX存储器等)、随机访问存储器(RAM)、静态随机访问存储器(SRAM)、只读存储器(ROM)、电可擦除可编程只读存储器(EEPROM)、可编程只读存储器(PROM)、磁性存储器、磁盘、光盘等。在一些实施例中，所述存储器41可以是所述计算机设备4的内部存储单元，例如该计算机设备6的硬盘或内存。在另一些实施例中，所述存储器41也可以是所述计算机设备6的外部存储设备，例如该计算机设备4上配备的插接式硬盘，智能存储卡(Smart Media Card,SMC)，安全数字(Secure Digital,SD)卡，闪存卡(FlashCard)等。当然，所述存储器41还可以既包括所述计算机设备4的内部存储单元也包括其外部存储设备。本实施例中，所述存储器41通常用于存储安装于所述计算机设备4的操作系统和各类应用软件，例如种子数据的扩充方法的计算机可读指令等。此外，所述存储器41还可以用于暂时地存储已经输出或者将要输出的各类数据。

所述处理器42在一些实施例中可以是中央处理器(Central Processing Unit，CPU)、控制器、微控制器、微处理器、或其他数据处理芯片。该处理器42通常用于控制所述计算机设备4的总体操作。本实施例中，所述处理器42用于运行所述存储器41中存储的计算机可读指令或者处理数据，例如运行所述种子数据的扩充方法的计算机可读指令。

所述网络接口43可包括无线网络接口或有线网络接口，该网络接口43通常用于在所述计算机设备4与其他电子设备之间建立通信连接。

本申请还提供了另一种实施方式，即提供一种计算机可读存储介质，所述计算机可读存储介质存储有计算机可读指令，所述计算机可读指令可被至少一个处理器执行，以使所述至少一个处理器执行如上述的种子数据的扩充方法的步骤。

通过以上的实施方式的描述，本领域的技术人员可以清楚地了解到上述实施例方法可借助软件加必需的通用硬件平台的方式来实现，当然也可以通过硬件，但很多情况下前者是更佳的实施方式。基于这样的理解，本申请的技术方案本质上或者说对现有技术做出贡献的部分可以以软件产品的形式体现出来，该计算机软件产品存储在一个存储介质(如ROM/RAM、磁碟、光盘)中，包括若干指令用以使得一台终端设备(可以是手机，计算机，服务器，空调器，或者网络设备等)执行本申请各个实施例所述的方法。

显然，以上所描述的实施例仅仅是本申请一部分实施例，而不是全部的实施例，附图中给出了本申请的较佳实施例，但并不限制本申请的专利范围。本申请可以以许多不同的形式来实现，相反地，提供这些实施例的目的是使对本申请的公开内容的理解更加透彻全面。尽管参照前述实施例对本申请进行了详细的说明，对于本领域的技术人员来而言，其依然可以对前述各具体实施方式所记载的技术方案进行修改，或者对其中部分技术特征进行等效替换。凡是利用本申请说明书及附图内容所做的等效结构，直接或间接运用在其他相关的技术领域，均同理在本申请专利保护范围之内。

Claims

1.一种种子数据的扩充方法，其特征在于，所述方法包括下述步骤：

在识别到所述召回第一实体以及所述召回第二实体符合预定义图谱模式时，将所述召回三元组并入所述种子数据；

所述从所述种子数据中提取符合预设条件的种子三元组的步骤包括：

判别种子数据中符合预设条件的种子实体；

根据人工编辑或者学习得到的关系模板对种子数据中的种子实体与种子关系字符串进行提取，并将提取的种子实体及种子关系字符串设置为种子三元组；

所述判别种子数据中符合预设条件的种子实体的步骤包括：

将种子数据中的文本语料分割为句子；

获得名词的词性，根据名词的词性探测句子中的种子实体；

提取符合预设条件的名词词组块和种子实体。

2.根据权利要求1所述的种子数据的扩充方法，其特征在于，在所述在开放领域知识库中召回具有相同所述种子第一实体以及所述种子第二实体的同族三元组，其中，所述同族三元组包括同族第一实体、同族第二实体以及同族关系字符串的步骤之后还包括：

如是，删除所述同族三元组；

3.根据权利要求1所述的种子数据的扩充方法，其特征在于，所述确定所述种子关系字符串以及所述同族关系字符串的同属类别属性，并以所述同属类别属性作为扩充后的召回关系字符串的步骤具体包括：

以所述同属类别属性作为扩充后的召回关系字符串。

4.根据权利要求1所述的种子数据的扩充方法，其特征在于，所述通过预训练的实体识别模型识别所述召回第一实体以及所述召回第二实体是否符合预定义图谱模式的步骤之前，还包括：

5.根据权利要求4所述的种子数据的扩充方法，其特征在于，所述挖掘所述种子第一实体的第一实体种子数据，以及所述种子第二实体的第二实体种子数据的步骤具体包括：

预处理所述第一训练集以及所述第二训练集；

6.一种种子数据的扩充装置，其特征在于，包括：

并入模块，在识别到所述召回第一实体以及所述召回第二实体符合预定义图谱模式时，将所述召回三元组并入所述种子数据；

所述接收模块包括：判别子模块以及提取子模块，其中：

所述判别子模块，用于判别种子数据中符合预设条件的种子实体；

所述提取子模块，用于根据人工编辑或者学习得到的关系模板对种子数据中的种子实体与种子关系字符串进行提取，并将提取的种子实体及种子关系字符串设置为种子三元组；

所述判别子模块包括：分割子模块、探测子模块以及提取实体子模块，其中：

所述分割子模块，用于将种子数据中的文本语料分割为句子；

所述探测子模块，用获得名词的词性，根据名词的词性探测句子中的种子实体；

所述提取实体子模块，用于提取符合预设条件的名词词组块和种子实体。

7.一种计算机设备，其特征在于，包括存储器和处理器，所述存储器中存储有计算机可读指令，所述处理器执行所述计算机可读指令时实现如权利要求1至5中任一项所述的种子数据的扩充方法的步骤。

8.一种计算机可读存储介质，其特征在于，所述计算机可读存储介质上存储有计算机可读指令，所述计算机可读指令被处理器执行时实现如权利要求1至5中任一项所述的种子数据的扩充方法的步骤。