[go: up one dir, main page]

CN110543638B - 一种命名实体识别的方法和装置 - Google Patents

一种命名实体识别的方法和装置 Download PDF

Info

Publication number
CN110543638B
CN110543638B CN201910854243.4A CN201910854243A CN110543638B CN 110543638 B CN110543638 B CN 110543638B CN 201910854243 A CN201910854243 A CN 201910854243A CN 110543638 B CN110543638 B CN 110543638B
Authority
CN
China
Prior art keywords
language
text
executing
original text
language word
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Expired - Fee Related
Application number
CN201910854243.4A
Other languages
English (en)
Other versions
CN110543638A (zh
Inventor
徐祥
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Hangzhou Chengying Data Technology Co ltd
Original Assignee
Hangzhou Chengying Data Technology Co ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Hangzhou Chengying Data Technology Co ltd filed Critical Hangzhou Chengying Data Technology Co ltd
Priority to CN201910854243.4A priority Critical patent/CN110543638B/zh
Publication of CN110543638A publication Critical patent/CN110543638A/zh
Application granted granted Critical
Publication of CN110543638B publication Critical patent/CN110543638B/zh
Expired - Fee Related legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Landscapes

  • Machine Translation (AREA)

Abstract

本申请提供一种命名实体识别的方法和装置,所述方法包括:接收原始文本,分离所述原始文本获取文本单元;根据所述文本单元确定文本单元表示向量;获取所述文本单元对应的拆分特征,根据所述文本单元的拆分特征确定所述原始文本的特征表示向量;根据所述原始文本的特征表示向量和所述文本单元表示向量确定所述原始文本中的命名实体。以文本单元对应的拆分特征作为最小元素进行处理,这样可以最大程度保留文本单元作为象形字或形声字的内在特征,保留文本单元间内在的特征,提高命名实体识别的准确度。

Description

一种命名实体识别的方法和装置
技术领域
本申请涉及自然语言处理技术领域,特别涉及一种命名实体识别的方法和装置、计算设备及计算机可读存储介质。
背景技术
命名实体识别是自然语言处理中的一项基础任务,应用范围非常广泛。命名实体一般指的是文本中具有特定意义或者指代性强的实体,通常包括人名、地名、组织机构名、日期时间、专有名词等。命名实体识别就是从非结构化的输入文本中抽取出上述实体。现有技术中,命名实体识别方法中无法联系原始文档中字与字间内在特征,造成原始文档中命名实体识别的准确度低。
发明内容
有鉴于此,本申请实施例提供了一种命名实体识别的方法和装置、计算设备及计算机可读存储介质,以解决现有技术中存在的技术缺陷。
本申请实施例公开了一种命名实体识别的方法,包括:接收原始文本,分离所述原始文本获取文本单元;
根据所述文本单元确定文本单元表示向量;
获取所述文本单元对应的拆分特征,根据所述文本单元的拆分特征确定所述原始文本的特征表示向量;
根据所述原始文本的特征表示向量和所述文本单元表示向量确定所述原始文本中的命名实体。
本申请实施例还公开了一种命名实体识别的装置,包括:分离模块,被配置为接收原始文本,分离所述原始文本获取文本单元;
第一确定模块,被配置为根据所述文本单元确定文本单元表示向量;
处理模块,被配置为获取所述文本单元对应的拆分特征,根据所述文本单元的拆分特征确定所述原始文本的特征表示向量;
第二确定模块,被配置为根据所述原始文本的特征表示向量和所述文本单元表示向量确定所述原始文本中的命名实体。
本申请实施例公开了一种计算设备,包括存储器、处理器及存储在存储器上并可在处理器上运行的计算机指令,所述处理器执行所述指令时实现如上所述的命名实体识别的方法的步骤。
本申请实施例公开了一种计算机可读存储介质,其存储有计算机指令,该指令被处理器执行时实现如上所述的命名实体识别的方法的步骤。
本申请提供的一种命名实体识别的方法和装置,通过接收原始文本,分离所述原始文本获取文本单元;根据所述文本单元确定文本单元表示向量;获取所述文本单元对应的拆分特征,根据所述文本单元的拆分特征确定所述原始文本的特征表示向量;根据所述原始文本的特征表示向量和所述文本单元表示向量确定所述原始文本中的命名实体。以文本单元对应的拆分特征作为最小元素进行处理,这样可以最大程度保留文本单元作为象形字或形声字的内在特征,保留文本单元间内在的特征,提高命名实体识别的准确度。
附图说明
图1是本申请一实施例的计算设备的结构示意图;
图2是本申请一实施例的命名实体识别的方法的流程示意图;
图3是本申请命名实体识别的方法中确定原始文本的特征表示向量的流程示意图;
图4是本申请命名实体识别的方法中确定所述原始文本中的命名实体的示意图;
图5是本申请一实施例的命名实体识别的方法的流程示意图;
图6是本申请一实施例的命名实体识别的方法的流程示意图;
图7是本申请一实施例的命名实体识别的装置结构示意图。
具体实施方式
在下面的描述中阐述了很多具体细节以便于充分理解本申请。但是本申请能够以很多不同于在此描述的其它方式来实施,本领域技术人员可以在不违背本申请内涵的情况下做类似推广,因此本申请不受下面公开的具体实施的限制。
在本说明书一个或多个实施例中使用的术语是仅仅出于描述特定实施例的目的,而非旨在限制本说明书一个或多个实施例。在本说明书一个或多个实施例和所附权利要求书中所使用的单数形式的“一种”、“所述”和“该”也旨在包括多数形式,除非上下文清楚地表示其他含义。还应当理解,本说明书一个或多个实施例中使用的术语“和/或”是指并包含一个或多个相关联的列出项目的任何或所有可能组合。
应当理解,尽管在本说明书一个或多个实施例中可能采用术语第一、第二等来描述各种信息,但这些信息不应限于这些术语。这些术语仅用来将同一类型的信息彼此区分开。例如,在不脱离本说明书一个或多个实施例范围的情况下,第一也可以被称为第二,类似地,第二也可以被称为第一。取决于语境,如在此所使用的词语“如果”可以被解释成为“在……时”或“当……时”或“响应于确定”。
在本申请中,提供了一种提取摘要文本的方法和装置、计算设备及计算机可读存储介质,在下面的实施例中逐一进行详细说明。
图1是示出了根据本说明书一实施例的计算设备100的结构框图。该计算设备100的部件包括但不限于存储器110和处理器120。处理器120与存储器110通过总线130相连接,数据库150用于保存数据。
计算设备100还包括接入设备140,接入设备140使得计算设备100能够经由一个或多个网络160通信。这些网络的示例包括公用交换电话网(PSTN)、局域网(LAN)、广域网(WAN)、个域网(PAN)或诸如因特网的通信网络的组合。接入设备140可以包括有线或无线的任何类型的网络接口(例如,网络接口卡(NIC))中的一个或多个,诸如IEEE802.11无线局域网(WLAN)无线接口、全球微波互联接入(Wi-MAX)接口、以太网接口、通用串行总线(USB)接口、蜂窝网络接口、蓝牙接口、近场通信(NFC)接口,等等。
在本说明书的一个实施例中,计算设备100的上述部件以及图1中未示出的其他部件也可以彼此相连接,例如通过总线。应当理解,图1所示的计算设备结构框图仅仅是出于示例的目的,而不是对本说明书范围的限制。本领域技术人员可以根据需要,增添或替换其他部件。
计算设备100可以是任何类型的静止或移动计算设备,包括移动计算机或移动计算设备(例如,平板计算机、个人数字助理、膝上型计算机、笔记本计算机、上网本等)、移动电话(例如,智能手机)、可佩戴的计算设备(例如,智能手表、智能眼镜等)或其他类型的移动设备,或者诸如台式计算机或PC的静止计算设备。计算设备100还可以是移动式或静止式的服务器。
其中,处理器120可以执行图2所示方法中的步骤。图2是示出了根据本申请一实施例的命名实体识别的方法的示意性流程图,包括步骤202至步骤208。
步骤202:接收原始文本,分离所述原始文本获取文本单元。
其中,接收的原始文本可以为中文文本、英文文本、韩文文本和日文文本中的至少一种,当然,原始文本也可以为其它语言的文本。
可选地,分离所述原始文本获取第一语言单字和第二语言单词中的至少一种。
分离所述原始文本获取第一语言单字,下面以第一语言为中文为例说明。
比如接收的原始文本为“我想听张仨的六月的雨”,分离原始文本获取的第一语言单字为“我”、“想”、“听”、“张”、“仨”、“的”、“六”、“月”、“的”和“雨”。
分离所述原始文本获取文本单元的方式有多种,本申请通过正则表达式来分离所述原始文本获取文本单元。
步骤204:根据所述文本单元确定文本单元表示向量。
将文本单元嵌入确定文本单元表示向量,通过文本单元嵌入来对单字进行数值化表示,即文本单元表示向量是将所述文本单元映射到一个高维的向量中来表示这个文本单元。
上述文本单元“我”、“想”、“听”、“张”、“仨”、“的”、“六”、“月”、“的”和“雨”确定的文本单元表示向量分别为w1、w2、w3、w4、w5、w6、w7、w8、w9和w10
步骤206:获取所述文本单元对应的拆分特征,根据所述文本单元的拆分特征确定所述原始文本的特征表示向量。
所述拆分特征可以为对第一语言单字的偏旁部首进行拆分获取的特征,所述拆分特征也可以为对第一语言单字的拼音进行拆分获取的特征,这样可以表示出第一语言单字形声字的内在联系,提高下述步骤中命名实体确认的准确度。
参见图3所示,步骤206包括步骤302至步骤310。
步骤302:判断第i个第一语言单字是否可以拆分,1≤i≤n,n为原始文本包含的第一语言单字总数,若是,执行步骤304,若否,执行步骤306。
由于第一语言单字会出现无法拆分的情况,比如上述接收的原始文档“我想听张仨的六月的雨”分离出的第一语言单字“我”、“六”、“月”和“雨”是独体字,独体字是以笔画为直接单位构成的汉字,上述独体字就无法拆分,因此,需要对第一语言单字能否拆分进行判断再执行下述具体步骤。
步骤304:拆分所述第一语言单字获取所述第一语言单字的偏旁部首,根据所述第一语言单字的偏旁部首确定所述第一语言单字的拆分特征表示向量,执行步骤308。
比如上述接收的原始文档“我想听张仨的六月的雨”分离出的第一语言单字“想”,拆分第一语言单字“想”获取的偏旁和部首分别为“相”和“心”。
以第一语言单字基本的偏旁部首作为最小元素,这样可以最大程度保留第一语言单字作为象形字的内在特征,保留第一语言单字与字间内在的特征。
所述步骤304具体包括步骤3041和步骤3042。
步骤3041:根据所述第一语言单字的偏旁部首确定所述第一语言单字的偏旁部首对应的嵌入表示。
步骤3042:将所述第一语言单字的偏旁部首对应的嵌入表示输入卷积层获取第一语言单字的偏旁部首对应的拆分特征表示向量。
根据第一语言单字的偏旁“相”对应的嵌入表示为h21,第一语言单字的部首“心”对应的嵌入表示为h22,第一语言单字的偏旁部首对应的嵌入表示输入卷积层获取第一语言单字的偏旁部首对应的拆分特征表示向量h2为[h21,h22]。
以此类推,得到第一语言单字“听”、“张”、“仨”、“的”和“的”的拆分特征表示向量h3、h4、h5、h6和h9分别为[h31,h32]、[h41,h42]、[h51,h52]、[h61,h62]和[h91,h92]。
从第一语言单字的偏旁部首开始建模,将第一语言单字的偏旁部首对应的嵌入表示输入卷积神经网络的卷积层,下述步骤中将每个所述文本单元对应的文本单元表示向量和所述原始文本的特征表示向量输入长短期记忆模型,提取出第一语言单字间的内在特征,最大限度地表示出第一语言单字间的关系,下述确定命名实体的步骤中,提高命名实体识别的准确度。
步骤306:将所述第一语言单字对应的表示向量作为所述第一语言单字对应的拆分特征表示向量,执行步骤308。
比如上述接收的原始文档“我想听张仨的六月的雨”分离出的第一语言单字“我”的表示向量h1,将第一语言单字“我”的表示向量h1直接作为所述第一语言单字对应的拆分特征表示向量。
以此类推,得到“六”、“月”和“雨”的拆分特征表示向量分别为h7、h8和h10
步骤308:将i自增1,判断i是否大于n,若否,执行步骤302,若是,执行步骤310。
步骤310:根据每个第一语言单字对应的拆分特征表示向量确定所述原始文本的特征表示向量。
根据每个第一语言单字对应的拆分特征表示向量确定原始文本的特征表示向量H为{h1,h2,h3,h4,h5,h6,h7,h8,h9,h10}。
步骤208:根据所述原始文本的特征表示向量和所述文本单元表示向量确定所述原始文本中的命名实体。
参见图4所示,步骤208包括步骤402至步骤406。
步骤402:将每个所述文本单元对应的文本单元表示向量和所述原始文本的特征表示向量输入长短期记忆模型,所述长短期记忆模型输出每个所述文本单元对应的融合向量。
将所述文本单元“我”对应的文本单元表示向量w1和原始文本的特征表示向量H为{h1,h2,h3,h4,h5,h6,h7,h8,h9,h10}输入长短期记忆模型,输出文本单元“我”对应的融合向量为f1,以此类推,得到文本单元“想”、“听”、“张”、“仨”、“的”、“六”、“月”、“的”和“雨”的融合向量分别为f2、f3、f4、f5、f6、f7、f8、f9和f10
步骤404:将所述文本单元对应的融合向量输入条件随机场模型,所述条件随机场模型输出每个所述文本单元对应的标签。
上述条件随机场模型为线性链条件随机场。所述命名实体是指人名、地名和机构名,而针对媒体领域,所述的命名实体专指人名、歌曲名(包括影视名、网站名、电视台);命名实体识别是将分离的文本单元归属的类型进行识别。
将上述文本单元“我”、“想”、“听”、“张”、“仨”、“的”、“六”、“月”、“的”、“雨”分别对应的融合向量f1、f2、f3、f4、f5、f6、f7、f8、f9和f10输入训练好的线性链条件随机场,所述原始文本“我想听张仨的六月的雨”这句话就会被标注为:我\O想\O听\O张\B-PER仨\I-PER的\O六\B-NAME月\I-NAME的\I-NAME雨I-NAME。
其中,“O”表示other;“B”表示“begin”,即实体的开始;“I”表示内部,“PER”和“NAME”分别表示实体的类别为人名和领域名。
通过将所述文本单元对应的融合向量输入条件随机场模型,自动标注出文本单元的类别,从而得到原始文本“我想听张仨的六月的雨”中“张仨”是人名实体以及“六月的雨”是歌曲名实体。
步骤406:根据每个所述文本单元对应的标签确定所述原始文本中的命名实体。
表1具体示出了条件随机场模型输出的文本单元“我”、“想”、“听”、“张”、“仨”、“的”、“六”、“月”、“的”和“雨”对应的标签。
表1
文本单元
标签 0 0 0 1 1 0 1 1 1 1
根据标签为1的文本单元,确定所述原始文本中的人名实体“张仨”以及歌曲名实体“六月的雨”。
本实施例的命名实体识别的方法,通过根据所述文本单元确定文本单元表示向量;获取所述文本单元对应的拆分特征,根据所述文本单元的拆分特征确定所述原始文本的特征表示向量,从第一语言单字的偏旁部首开始建模,提取出第一语言单字间的内在特征,最大限度地表示出第一语言单字间的关系,根据所述原始文本的特征表示向量和所述文本单元表示向量确定所述原始文本中的命名实体,提高了命名实体识别的准确度。
图5示出了本申请另一实施例的命名实体识别的方法的示意性流程图,包括步骤502至步骤516。
步骤502:接收原始文本,分离所述原始文本获取m个第二语言单词。
上述第二语言可以为英文。
步骤504:根据所述文本单元确定文本单元表示向量。
步骤506:判断第j个第二语言单词是否可以拆分,1≤j≤m,若是,执行步骤508,若否,执行步骤510。
步骤508:拆分所述第二语言单词获取所述第二语言单词的字符,根据所述第二语言单词的字符确定所述第二语言单词的拆分特征表示向量,执行步骤512。
步骤510:将所述第二语言单词对应的表示向量作为所述第二语言单词对应的拆分特征表示向量,执行步骤512。
步骤512:将j自增1,判断j是否大于m,若否,执行步骤506,若是,执行步骤514。
步骤514:根据每个第二语言单词对应的拆分特征表示向量确定所述原始文本的特征表示向量。
步骤516:根据所述原始文本的特征表示向量和所述文本单元表示向量确定所述原始文本中的命名实体。
本实施例的命名实体识别的方法,从第二语言单词的字符开始建模,提取出第二语言单词的字符的内在特征,最大限度地表示出第二语言单词字符的关系,根据所述原始文本的特征表示向量和所述文本单元表示向量确定所述原始文本中的命名实体,提高了命名实体识别的准确度。
图6示出了本申请另一实施例的命名实体识别的方法的示意性流程图,包括步骤602至步骤624。
步骤602:接收原始文本,分离所述原始文本获取h个文本单元,所述文本单元为第一语言单字或第二语言单词。
第一语言为中文,第二语言为英文为例说明,假设原始文本为“我想听My love”。
步骤604:根据所述文本单元确定文本单元表示向量。
表2示出了分离所述原始文本获取的文本单元以及文本单元对应的文本单元表示向量。
表2
文本单元 My love
文本单元表示向量 w<sub>1</sub> w<sub>2</sub> w<sub>3</sub> w<sub>4</sub> w<sub>5</sub>
上述文本单元“我”、“想”、“听”、“My”、“love”确定的文本单元表示向量分别为w1、w2、w3、w4和w5
步骤606:判断第k个文本单元为第一语言单字或第二语言单词,1≤k≤h,若第k个文本单元为第一语言单字,执行步骤608,若第k个文本单元为第二语言单词,执行步骤614。
判断上述文本单元为第一语言字的是“我”、“想”和“听”,第二语言单词是“My”和“love”。
步骤608:判断第k个第一语言单字是否可以拆分,若是,执行步骤610,若否,执行步骤612。
步骤610:拆分所述第一语言单字获取所述第一语言单字的偏旁部首,根据所述第一语言单字的偏旁部首确定所述第一语言单字的拆分特征表示向量,执行步骤620。
拆分第一语言单字“想”获取的偏旁和部首分别为“相”和“心”,根据第一语言单字的偏旁“相”对应的嵌入表示为h21,第一语言单字的部首“心”对应的嵌入表示为h22,第一语言单字的偏旁部首对应的嵌入表示输入卷积层获取第一语言单字的偏旁部首对应的拆分特征表示向量h2为[h21,h22]。
拆分第一语言单字“听”获取的偏旁和部首分别为“口”和“斤”,根据第一语言单字的偏旁“口”对应的嵌入表示为h31,第一语言单字的部首“斤”对应的嵌入表示为h32,第一语言单字的偏旁部首对应的嵌入表示输入卷积层获取第一语言单字的偏旁部首对应的拆分特征表示向量h3为[h31,h32]。
步骤612:将所述第一语言单字对应的表示向量作为所述第一语言单字对应的拆分特征表示向量,执行步骤620。
第一语言单字“我”的表示向量h1,将第一语言单字“我”的表示向量h1直接作为所述第一语言单字对应的拆分特征表示向量。
步骤614:判断第k个第二语言单词是否可以拆分,若是,执行步骤616,若否,执行步骤618。
步骤616:拆分所述第二语言单词获取所述第二语言单词的字符,根据所述第二语言单词的字符确定所述第二语言单词的拆分特征表示向量,执行步骤620。
第二语言单词“My”拆分后得到的第二语言单词的字符“M”和“y”,第二语言单词的字符“M”和“y”对应的嵌入表示分别为h41和h42,所述第二语言单词“My”对应的拆分特征表示向量h4为[h41,h42]。
第二语言单词“love”拆分后得到的第二语言单词的字符“l”、“o”、“v”和“e”,第二语言单词的字符“l”、“o”、“v”和“e”对应的嵌入表示分别为h51、h52、h53和h54,所述第二语言单词“love”对应的拆分特征表示向量h5为[h51,h52,h53,h54]。
步骤618:将所述第二语言单词对应的表示向量作为所述第二语言单词对应的拆分特征表示向量,执行步骤620。
比如遇到第二语言单词出现“a”则是无法拆分的情况,则进行步骤618,上述举例的原始文本中的第二语言单词均能够拆分,因此未执行步骤618。
步骤620:将k自增1,判断k是否大于h,若否,执行步骤606,若是,执行步骤622。
步骤622:根据每个第一语言单字对应的拆分特征表示向量和每个第二语言单词对应的拆分特征表示向量确定所述原始文本的特征表示向量,执行步骤624。
将第一语言单字“我”、“想”、“听”分别对应的拆分特征表示向量h1、h2和h3以及第二语言单词“My”和“love”对应的拆分特征表示向量h4和h5确定原始文本“我想听My love”的特征表示向量H为{h1,h2,h3,h4,h5}。
步骤624:根据所述原始文本的特征表示向量和所述文本单元表示向量确定所述原始文本中的命名实体。
将所述文本单元“我”对应的文本单元表示向量w1和原始文本的特征表示向量H为{h1,h2,h3,h4,h5}输入长短期记忆模型,输出文本单元“我”对应的融合向量为f1,以此类推,得到文本单元“想”、“听”、“My”和“love”的融合向量分别为f2、f3、f4和f5
将上述文本单元“我”、“想”、“听”、“My”和“love”分别对应的融合向量f1、f2、f3、f4和f5输入训练好的线性链条件随机场。
原始文本“我想听My love”这句话就会被标注为:我\O想\O听\O My\B-NAMElove\I-NAME。其中“O”表示other;“B”表示“begin”,即实体的开始;“I”表示内部,“NAME”表示实体的类别为领域名。
通过将所述文本单元对应的融合向量输入条件随机场模型,自动标注出文本单元的类别,从而得到原始文本“我想听My love”中“My love”是歌曲名实体。
本实施例的命名实体识别的方法,原始文本中包括第一语言字和第二语言词,即原始文本为两种语言的混合文本,比如原始文本为中英文混合文本,本申请解决了中英文混合情况下的自然语言处理问题,同时最大限度的表示出汉字间的关系,英文单词间的关系,汉字英文单词间的关系,根据每个第一语言单字对应的拆分特征表示向量和每个第二语言单词对应的拆分特征表示向量确定所述原始文本的特征表示向量,根据所述原始文本的特征表示向量和所述文本单元表示向量确定所述原始文本中的命名实体,提高了命名实体识别的准确度。
图7示出了本申请一实施例提供的命名实体识别的装置,所述装置包括:
分离模块701,被配置为接收原始文本,分离所述原始文本获取文本单元;
第一确定模块702,被配置为根据所述文本单元确定文本单元表示向量;
处理模块703,被配置为获取所述文本单元对应的拆分特征,根据所述文本单元的拆分特征确定所述原始文本的特征表示向量;
第二确定模块704,被配置为根据所述原始文本的特征表示向量和所述文本单元表示向量确定所述原始文本中的命名实体。
上述命名实体识别的装置中以文本单元对应的拆分特征作为最小元素进行处理,这样可以最大程度保留文本单元作为象形字或形声字的内在特征,保留文本单元间内在的特征,提高命名实体识别的准确度。
可选地,所述分离模块701被进一步配置为分离所述原始文本获取第一语言单字,所述原始文本包括n个第一语言单字;
所述处理模块702被进一步配置为执行下述步骤,S301:判断第i个第一语言单字是否可以拆分,1≤i≤n,若是,执行S302,若否,执行S303;
S302:拆分所述第一语言单字获取所述第一语言单字的偏旁部首,根据所述第一语言单字的偏旁部首确定所述第一语言单字的拆分特征表示向量,执行S304;
S303:将所述第一语言单字对应的表示向量作为所述第一语言单字对应的拆分特征表示向量,执行S304;
S304;将i自增1,判断i是否大于n,若否,执行S301,若是,执行S305;
S305:根据每个第一语言单字对应的拆分特征表示向量确定所述原始文本的特征表示向量。
可选地,所述分离模块701被进一步配置为分离所述原始文本获取第二语言单词。
所述处理模块703被进一步配置为执行下述步骤,S401:判断第j个第二语言单词是否可以拆分,1≤j≤m,所述原始文本包括m个第二语言单词,若是,执行S402,若否,执行S403;
S402:拆分所述第二语言单词获取所述第二语言单词的字符,根据所述第二语言单词的字符确定所述第二语言单词的拆分特征表示向量,执行S404;
S403:将所述第二语言单词对应的表示向量作为所述第二语言单词对应的拆分特征表示向量,执行S404;
S404:将j自增1,判断j是否大于m,若否,执行S401,若是,执行S405;
S405:根据每个第二语言单词对应的拆分特征表示向量确定所述原始文本的特征表示向量。
可选地,所述分离模块701被进一步配置为分离所述原始文本获取h个文本单元,所述文本单元为第一语言单字或第二语言单词;
所述处理模块703被进一步配置为执行下述步骤,S501:判断第k个文本单元为第一语言单字或第二语言单词,1≤k≤h,若第k个文本单元为第一语言单字,执行S502,若第k个文本单元为第二语言单词,执行S505;
S502:判断第k个第一语言单字是否可以拆分,若是,执行S503,若否,执行S504;
S503:拆分所述第一语言单字获取所述第一语言单字的偏旁部首,根据所述第一语言单字的偏旁部首确定所述第一语言单字的拆分特征表示向量,执行步骤507;
S504:将所述第一语言单字对应的表示向量作为所述第一语言单字对应的拆分特征表示向量;
S505:判断第k个第二语言单词是否可以拆分,若是,执行S506,若否,执行S507;
S506:拆分所述第二语言单词获取所述第二语言单词的字符,根据所述第二语言单词的字符确定所述第二语言单词的拆分特征表示向量,执行S508;
S507:将所述第二语言单词对应的表示向量作为所述第二语言单词对应的拆分特征表示向量,执行S508;
S508:将k自增1,判断k是否大于h,若否,执行S501,若是,执行S509;
S509:根据每个第一语言单字对应的拆分特征表示向量和每个第二语言单词对应的拆分特征表示向量确定所述原始文本的特征表示向量。
可选地,所述处理模块703被进一步配置为根据所述第一语言单字的偏旁部首确定所述第一语言单字的偏旁部首对应的嵌入表示;
将所述第一语言单字的偏旁部首对应的嵌入表示输入卷积层获取第一语言单字的偏旁部首对应的拆分特征表示向量。
可选地,所述处理模块703被进一步配置为根据所述第二语言单词的字符确定所述第二语言单词的字符对应的嵌入表示;
将所述第二语言单词的字符对应的嵌入表示输入卷积层获取第二语言单词的字符对应的拆分特征表示向量。
可选地,所述第二确定模块704被进一步配置为将每个所述文本单元对应的文本单元表示向量和所述原始文本的特征表示向量输入长短期记忆模型,所述长短期记忆模型输出每个所述文本单元对应的融合向量;
将所述文本单元对应的融合向量输入条件随机场模型,所述条件随机场模型输出每个所述文本单元对应的标签;
根据每个所述文本单元对应的标签确定所述原始文本中的命名实体。
可选地,所述分离模块701还被配置为通过正则表达式分离所述原始文本获取文本单元。
本申请一实施例还提供一种计算设备,包括存储器、处理器及存储在存储器上并可在处理器上运行的计算机指令,所述处理器执行所述指令时实现如前所述命名实体识别的方法的步骤。
本申请一实施例还提供一种计算机可读存储介质,其存储有计算机指令,该指令被处理器执行时实现如前所述命名实体识别的方法的步骤。
上述为本实施例的一种计算机可读存储介质的示意性方案。需要说明的是,该存储介质的技术方案与上述命名实体识别的方法的技术方案属于同一构思,存储介质的技术方案未详细描述的细节内容,均可以参见上述命名实体识别的方法的技术方案的描述。
所述计算机指令包括计算机程序代码,所述计算机程序代码可以为源代码形式、对象代码形式、可执行文件或某些中间形式等。所述计算机可读介质可以包括:能够携带所述计算机程序代码的任何实体或装置、记录介质、U盘、移动硬盘、磁碟、光盘、计算机存储器、只读存储器(ROM,Read-Only Memory)、随机存取存储器(RAM,Random Access Memory)、电载波信号、电信信号以及软件分发介质等。需要说明的是,所述计算机可读介质包含的内容可以根据司法管辖区内立法和专利实践的要求进行适当的增减,例如在某些司法管辖区,根据立法和专利实践,计算机可读介质不包括电载波信号和电信信号。
需要说明的是,对于前述的各方法实施例,为了简便描述,故将其都表述为一系列的动作组合,但是本领域技术人员应该知悉,本申请并不受所描述的动作顺序的限制,因为依据本申请,某些步骤可以采用其它顺序或者同时进行。其次,本领域技术人员也应该知悉,说明书中所描述的实施例均属于优选实施例,所涉及的动作和模块并不一定都是本申请所必须的。
在上述实施例中,对各个实施例的描述都各有侧重,某个实施例中没有详述的部分,可以参见其它实施例的相关描述。
以上公开的本申请优选实施例只是用于帮助阐述本申请。可选实施例并没有详尽叙述所有的细节,也不限制该发明仅为所述的具体实施方式。显然,根据本说明书的内容,可作很多的修改和变化。本说明书选取并具体描述这些实施例,是为了更好地解释本申请的原理和实际应用,从而使所属技术领域技术人员能很好地理解和利用本申请。本申请仅受权利要求书及其全部范围和等效物的限制。

Claims (15)

1.一种命名实体识别的方法,其特征在于,包括:
接收原始文本,分离所述原始文本获取文本单元;
根据所述文本单元确定文本单元表示向量;
获取所述文本单元对应的拆分特征,根据所述文本单元的拆分特征确定所述原始文本的特征表示向量;
根据所述原始文本的特征表示向量和所述文本单元表示向量确定所述原始文本中的命名实体;
其中,所述根据所述原始文本的特征表示向量和所述文本单元表示向量确定所述原始文本中的命名实体,包括:
将每个所述文本单元对应的文本单元表示向量和所述原始文本的特征表示向量输入长短期记忆模型,所述长短期记忆模型输出每个所述文本单元对应的融合向量;
将所述文本单元对应的融合向量输入条件随机场模型,所述条件随机场模型输出每个所述文本单元对应的标签;
根据每个所述文本单元对应的标签确定所述原始文本中的命名实体。
2.根据权利要求1所述的方法,其特征在于,所述原始文本包括n个第一语言单字;
分离所述原始文本获取文本单元,包括:
分离所述原始文本获取第一语言单字;
获取所述文本单元对应的拆分特征,根据所述文本单元的拆分特征确定所述原始文本的特征表示向量,包括:
S301:判断第i个第一语言单字是否可以拆分,1≤i≤n,若是,执行S302,若否,执行S303;
S302:拆分所述第一语言单字获取所述第一语言单字的偏旁部首,根据所述第一语言单字的偏旁部首确定所述第一语言单字的拆分特征表示向量,执行S304;
S303:将所述第一语言单字对应的表示向量作为所述第一语言单字对应的拆分特征表示向量,执行S304;
S304;将i自增1,判断i是否大于n,若否,执行S301,若是,执行S305;
S305:根据每个第一语言单字对应的拆分特征表示向量确定所述原始文本的特征表示向量。
3.根据权利要求1所述的方法,其特征在于,所述原始文本包括m个第二语言单词;
分离所述原始文本获取文本单元,包括:
分离所述原始文本获取第二语言单词;
获取所述文本单元对应的拆分特征,根据所述文本单元的拆分特征确定所述原始文本的特征表示向量,包括:
S401:判断第j个第二语言单词是否可以拆分,1≤j≤m,若是,执行S402,若否,执行S403;
S402:拆分所述第二语言单词获取所述第二语言单词的字符,根据所述第二语言单词的字符确定所述第二语言单词的拆分特征表示向量,执行S404;
S403:将所述第二语言单词对应的表示向量作为所述第二语言单词对应的拆分特征表示向量,执行S404;
S404:将j自增1,判断j是否大于m,若否,执行S401,若是,执行S405;
S405:根据每个第二语言单词对应的拆分特征表示向量确定所述原始文本的特征表示向量。
4.根据权利要求1所述的方法,其特征在于,分离所述原始文本获取文本单元,包括:
分离所述原始文本获取h个文本单元,所述文本单元为第一语言单字或第二语言单词;
获取所述文本单元对应的拆分特征,根据所述文本单元的拆分特征确定所述原始文本的特征表示向量,包括:
S501:判断第k个文本单元为第一语言单字或第二语言单词,1≤k≤h,若第k个文本单元为第一语言单字,执行S502,若第k个文本单元为第二语言单词,执行S505;
S502:判断第k个第一语言单字是否可以拆分,若是,执行S503,若否,执行S504;
S503:拆分所述第一语言单字获取所述第一语言单字的偏旁部首,根据所述第一语言单字的偏旁部首确定所述第一语言单字的拆分特征表示向量,执行步骤507;
S504:将所述第一语言单字对应的表示向量作为所述第一语言单字对应的拆分特征表示向量;
S505:判断第k个第二语言单词是否可以拆分,若是,执行S506,若否,执行S507;
S506:拆分所述第二语言单词获取所述第二语言单词的字符,根据所述第二语言单词的字符确定所述第二语言单词的拆分特征表示向量,执行S508;
S507:将所述第二语言单词对应的表示向量作为所述第二语言单词对应的拆分特征表示向量,执行S508;
S508:将k自增1,判断k是否大于h,若否,执行S501,若是,执行S509;
S509:根据每个第一语言单字对应的拆分特征表示向量和每个第二语言单词对应的拆分特征表示向量确定所述原始文本的特征表示向量。
5.根据权利要求2或4所述的方法,其特征在于,根据所述第一语言单字的偏旁部首确定所述第一语言单字的拆分特征表示向量,包括:
根据所述第一语言单字的偏旁部首确定所述第一语言单字的偏旁部首对应的嵌入表示;
将所述第一语言单字的偏旁部首对应的嵌入表示输入卷积层获取第一语言单字的偏旁部首对应的拆分特征表示向量。
6.根据权利要求3或4所述的方法,其特征在于,根据所述第二语言单词的字符确定所述第二语言单词的拆分特征表示向量,包括:
根据所述第二语言单词的字符确定所述第二语言单词的字符对应的嵌入表示;
将所述第二语言单词的字符对应的嵌入表示输入卷积层获取第二语言单词的字符对应的拆分特征表示向量。
7.根据权利要求1所述的方法,其特征在于,分离所述原始文本获取文本单元,包括:
通过正则表达式分离所述原始文本获取文本单元。
8.一种命名实体识别的装置,其特征在于,包括:
分离模块,被配置为接收原始文本,分离所述原始文本获取文本单元;
第一确定模块,被配置为根据所述文本单元确定文本单元表示向量;
处理模块,被配置为获取所述文本单元对应的拆分特征,根据所述文本单元的拆分特征确定所述原始文本的特征表示向量;
第二确定模块,被配置为根据所述原始文本的特征表示向量和所述文本单元表示向量确定所述原始文本中的命名实体;
所述第二确定模块,进一步被配置为将每个所述文本单元对应的文本单元表示向量和所述原始文本的特征表示向量输入长短期记忆模型,所述长短期记忆模型输出每个所述文本单元对应的融合向量;将所述文本单元对应的融合向量输入条件随机场模型,所述条件随机场模型输出每个所述文本单元对应的标签;根据每个所述文本单元对应的标签确定所述原始文本中的命名实体。
9.根据权利要求8所述的装置,其特征在于,所述原始文本包括n个第一语言单字,所述分离模块被进一步配置为分离所述原始文本获取第一语言单字;
所述处理模块被进一步配置为执行下述步骤,S301:判断第i个第一语言单字是否可以拆分,1≤i≤n,若是,执行S302,若否,执行S303;
S302:拆分所述第一语言单字获取所述第一语言单字的偏旁部首,根据所述第一语言单字的偏旁部首确定所述第一语言单字的拆分特征表示向量,执行S304;
S303:将所述第一语言单字对应的表示向量作为所述第一语言单字对应的拆分特征表示向量,执行S304;
S304;将i自增1,判断i是否大于n,若否,执行S301,若是,执行S305;
S305:根据每个第一语言单字对应的拆分特征表示向量确定所述原始文本的特征表示向量。
10.根据权利要求8所述的装置,其特征在于,所述分离模块被进一步配置为分离所述原始文本获取第二语言单词,所述原始文本包括m个第二语言单词;
所述处理模块被进一步配置为执行下述步骤,S401:判断第j个第二语言单词是否可以拆分,1≤j≤m,若是,执行S402,若否,执行S403;
S402:拆分所述第二语言单词获取所述第二语言单词的字符,根据所述第二语言单词的字符确定所述第二语言单词的拆分特征表示向量,执行S404;
S403:将所述第二语言单词对应的表示向量作为所述第二语言单词对应的拆分特征表示向量,执行S404;
S404:将j自增1,判断j是否大于m,若否,执行S401,若是,执行S405;
S405:根据每个第二语言单词对应的拆分特征表示向量确定所述原始文本的特征表示向量。
11.根据权利要求8所述的装置,其特征在于,所述分离模块被进一步配置为分离所述原始文本获取h个文本单元,所述文本单元为第一语言单字或第二语言单词;
所述处理模块被进一步配置为执行下述步骤,S501:判断第k个文本单元为第一语言单字或第二语言单词,1≤k≤h,若第k个文本单元为第一语言单字,执行S502,若第k个文本单元为第二语言单词,执行S505;
S502:判断第k个第一语言单字是否可以拆分,若是,执行S503,若否,执行S504;
S503:拆分所述第一语言单字获取所述第一语言单字的偏旁部首,根据所述第一语言单字的偏旁部首确定所述第一语言单字的拆分特征表示向量,执行步骤507;
S504:将所述第一语言单字对应的表示向量作为所述第一语言单字对应的拆分特征表示向量;
S505:判断第k个第二语言单词是否可以拆分,若是,执行S506,若否,执行S507;
S506:拆分所述第二语言单词获取所述第二语言单词的字符,根据所述第二语言单词的字符确定所述第二语言单词的拆分特征表示向量,执行S508;
S507:将所述第二语言单词对应的表示向量作为所述第二语言单词对应的拆分特征表示向量,执行S508;
S508:将k自增1,判断k是否大于h,若否,执行S501,若是,执行S509;
S509:根据每个第一语言单字对应的拆分特征表示向量和每个第二语言单词对应的拆分特征表示向量确定所述原始文本的特征表示向量。
12.根据权利要求9或11所述的装置,其特征在于,所述处理模块被进一步配置为根据所述第一语言单字的偏旁部首确定所述第一语言单字的偏旁部首对应的嵌入表示;
将所述第一语言单字的偏旁部首对应的嵌入表示输入卷积层获取第一语言单字的偏旁部首对应的拆分特征表示向量。
13.根据权利要求10或11所述的装置,其特征在于,所述处理模块被进一步配置为根据所述第二语言单词的字符确定所述第二语言单词的字符对应的嵌入表示;
将所述第二语言单词的字符对应的嵌入表示输入卷积层获取第二语言单词的字符对应的拆分特征表示向量。
14.一种计算设备,包括存储器、处理器及存储在存储器上并可在处理器上运行的计算机指令,其特征在于,所述处理器执行所述指令时实现权利要求1-7任意一项所述方法的步骤。
15.一种计算机可读存储介质,其存储有计算机指令,其特征在于,该指令被处理器执行时实现权利要求1-7任意一项所述方法的步骤。
CN201910854243.4A 2019-09-10 2019-09-10 一种命名实体识别的方法和装置 Expired - Fee Related CN110543638B (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN201910854243.4A CN110543638B (zh) 2019-09-10 2019-09-10 一种命名实体识别的方法和装置

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN201910854243.4A CN110543638B (zh) 2019-09-10 2019-09-10 一种命名实体识别的方法和装置

Publications (2)

Publication Number Publication Date
CN110543638A CN110543638A (zh) 2019-12-06
CN110543638B true CN110543638B (zh) 2022-12-27

Family

ID=68713595

Family Applications (1)

Application Number Title Priority Date Filing Date
CN201910854243.4A Expired - Fee Related CN110543638B (zh) 2019-09-10 2019-09-10 一种命名实体识别的方法和装置

Country Status (1)

Country Link
CN (1) CN110543638B (zh)

Citations (5)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
WO2013086998A1 (zh) * 2011-12-13 2013-06-20 北大方正集团有限公司 一种命名实体识别的方法及装置
CN103309926A (zh) * 2013-03-12 2013-09-18 中国科学院声学研究所 基于条件随机场的中英文混合命名实体识别方法及系统
CN106874256A (zh) * 2015-12-11 2017-06-20 北京国双科技有限公司 识别领域命名实体的方法及装置
CN107797992A (zh) * 2017-11-10 2018-03-13 北京百分点信息科技有限公司 命名实体识别方法及装置
CN109726397A (zh) * 2018-12-27 2019-05-07 网易(杭州)网络有限公司 中文命名实体的标注方法、装置、存储介质和电子设备

Patent Citations (5)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
WO2013086998A1 (zh) * 2011-12-13 2013-06-20 北大方正集团有限公司 一种命名实体识别的方法及装置
CN103309926A (zh) * 2013-03-12 2013-09-18 中国科学院声学研究所 基于条件随机场的中英文混合命名实体识别方法及系统
CN106874256A (zh) * 2015-12-11 2017-06-20 北京国双科技有限公司 识别领域命名实体的方法及装置
CN107797992A (zh) * 2017-11-10 2018-03-13 北京百分点信息科技有限公司 命名实体识别方法及装置
CN109726397A (zh) * 2018-12-27 2019-05-07 网易(杭州)网络有限公司 中文命名实体的标注方法、装置、存储介质和电子设备

Also Published As

Publication number Publication date
CN110543638A (zh) 2019-12-06

Similar Documents

Publication Publication Date Title
US20210081611A1 (en) Methods and systems for language-agnostic machine learning in natural language processing using feature extraction
CN104598445B (zh) 自动问答系统和方法
WO2018032937A1 (zh) 一种文本信息分类方法及其装置
CN110781663A (zh) 文本分析模型的训练方法及装置、文本分析方法及装置
CN110347802B (zh) 一种文本分析方法及装置
CN109192225B (zh) 语音情感识别和标注的方法及装置
CN111310440A (zh) 文本的纠错方法、装置和系统
CN111209740A (zh) 文本模型训练方法、文本纠错方法、电子设备及存储介质
CN113255331B (zh) 文本纠错方法、装置及存储介质
CN114090776A (zh) 文档解析方法、系统及装置
CN113051384B (zh) 基于对话的用户画像抽取方法及相关装置
CN112906381B (zh) 对话归属的识别方法、装置、可读介质和电子设备
CN114139545B (zh) 信息提取方法及装置
CN110543638B (zh) 一种命名实体识别的方法和装置
CN110969005A (zh) 一种确定实体语料之间的相似性的方法及装置
CN113268989A (zh) 多音字处理方法及装置
CN113537263A (zh) 二分类模型的训练方法及装置、实体链接方法及装置
KR102755985B1 (ko) 인공지능 기반의 언어 패턴 분석을 통한 커뮤니케이션 서비스 제공 장치 및 방법
CN116956068A (zh) 基于规则引擎的意图识别方法、装置、电子设备及介质
CN112800186B (zh) 阅读理解模型的训练方法及装置、阅读理解方法及装置
CN111723164A (zh) 地址信息的处理方法和装置
CN115934904A (zh) 文本处理方法以及装置
CN111222342B (zh) 一种翻译方法和装置
CN112002306B (zh) 语音类别的识别方法、装置、电子设备及可读存储介质
CN114492410A (zh) 合约信息提取方法及装置

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
GR01 Patent grant
GR01 Patent grant
CF01 Termination of patent right due to non-payment of annual fee

Granted publication date: 20221227

CF01 Termination of patent right due to non-payment of annual fee