CN108959257B - 一种自然语言解析方法、装置、服务器及存储介质 - Google Patents
一种自然语言解析方法、装置、服务器及存储介质 Download PDFInfo
- Publication number
- CN108959257B CN108959257B CN201810713935.2A CN201810713935A CN108959257B CN 108959257 B CN108959257 B CN 108959257B CN 201810713935 A CN201810713935 A CN 201810713935A CN 108959257 B CN108959257 B CN 108959257B
- Authority
- CN
- China
- Prior art keywords
- concept
- intention
- label
- natural language
- entity
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Active
Links
- 238000000034 method Methods 0.000 title claims abstract description 47
- 238000003860 storage Methods 0.000 title claims abstract description 21
- 230000011218 segmentation Effects 0.000 claims abstract description 79
- 238000005520 cutting process Methods 0.000 claims abstract description 26
- 238000002372 labelling Methods 0.000 claims abstract description 19
- 238000009795 derivation Methods 0.000 claims description 11
- 238000013507 mapping Methods 0.000 claims description 9
- 238000007781 pre-processing Methods 0.000 claims description 9
- 238000012163 sequencing technique Methods 0.000 claims description 6
- 238000006243 chemical reaction Methods 0.000 claims description 4
- 238000004590 computer program Methods 0.000 claims description 4
- 230000003287 optical effect Effects 0.000 description 6
- 238000010586 diagram Methods 0.000 description 5
- 238000012545 processing Methods 0.000 description 5
- 238000004458 analytical method Methods 0.000 description 3
- 230000006870 function Effects 0.000 description 3
- 238000005516 engineering process Methods 0.000 description 2
- 230000003993 interaction Effects 0.000 description 2
- 239000013307 optical fiber Substances 0.000 description 2
- 238000005457 optimization Methods 0.000 description 2
- 230000002093 peripheral effect Effects 0.000 description 2
- 230000000644 propagated effect Effects 0.000 description 2
- 238000003491 array Methods 0.000 description 1
- 235000015241 bacon Nutrition 0.000 description 1
- 230000009286 beneficial effect Effects 0.000 description 1
- 238000004891 communication Methods 0.000 description 1
- 238000011161 development Methods 0.000 description 1
- 230000018109 developmental process Effects 0.000 description 1
- 239000012634 fragment Substances 0.000 description 1
- 230000008707 rearrangement Effects 0.000 description 1
- 238000012216 screening Methods 0.000 description 1
- 239000004065 semiconductor Substances 0.000 description 1
- 238000007711 solidification Methods 0.000 description 1
- 230000008023 solidification Effects 0.000 description 1
- 238000006467 substitution reaction Methods 0.000 description 1
Images
Classifications
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F40/00—Handling natural language data
- G06F40/20—Natural language analysis
- G06F40/279—Recognition of textual entities
- G06F40/289—Phrasal analysis, e.g. finite state techniques or chunking
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F40/00—Handling natural language data
- G06F40/30—Semantic analysis
Landscapes
- Engineering & Computer Science (AREA)
- Theoretical Computer Science (AREA)
- Health & Medical Sciences (AREA)
- Artificial Intelligence (AREA)
- Audiology, Speech & Language Pathology (AREA)
- Computational Linguistics (AREA)
- General Health & Medical Sciences (AREA)
- Physics & Mathematics (AREA)
- General Engineering & Computer Science (AREA)
- General Physics & Mathematics (AREA)
- Machine Translation (AREA)
Abstract
本发明实施例公开了一种自然语言解析方法、装置、服务器及存储介质,其中,所述方法包括:将待解析的自然语言文本进行切词,得到对应的多个切词片段;对每个切词片段进行概念标注,得到至少一个概念标签;对所述至少一个概念标签进行排列组合,得到多个概念标签序列;针对每个概念标签序列,结合预先建立的实体意图知识网络进行意图推导,得到所述自然语言文本的意图和槽位,其中,所述实体意图知识网络中包括多个不同业务场景的实体意图集合,且不同业务场景的实体意图集合之间通过实体相互关联。本发明实施例通过对实体进行抽象,不同的实体可以复用通用的意图知识,不同业务场景只需引入需要的实体知识,即可快速推导相关实体的真实意图。
Description
技术领域
本发明实施例涉及自然语言技术领域,尤其涉及一种自然语言解析方法、装置、服务器及存储介质。
背景技术
自然语言理解技术是将人类语言文字转换成计算机能够识别和理解的数据格式,以便在不同的应用系统中,计算机能够为使用者的不同需求提供服务。例如,在人机交互产品中,计算机需要将用户输入的自然语言转换成结构化的数据,进而确定用户想要表达的真实意图,以供后续的具体业务逻辑处理。
现有技术中,通常是利用简单的模板匹配方法从用户输入的自然语言对应的文本信息中识别用户的意图。然而,模板是根据具体要进行自然语言理解的应用场景或业务场景预设的,每个场景都需要事先独立编写对应的模板,模板之间不能复用,于是增加了开发成本。
发明内容
本发明实施例提供了一种自然语言解析方法、装置、服务器及存储介质,以解决现有技术中存在的必须独立编写与需要进行自然语言理解的应用场景或业务场景对应的模板,且各模板之间不能复用的技术问题。
第一方面,本发明实施例提供了一种自然语言解析方法,包括:
将待解析的自然语言文本进行切词,得到对应的多个切词片段;
对每个切词片段进行概念标注,得到至少一个概念标签,其中,所述概念标签用于映射切词片段的抽象概念;
对所述至少一个概念标签进行排列组合,得到多个概念标签序列,其中,在不同的概念标签序列之间,各概念标签序列中的概念标签所覆盖的切词边界不重合;
针对每个概念标签序列,结合预先建立的实体意图知识网络进行意图推导,得到所述自然语言文本的意图和槽位,其中,所述实体意图知识网络中包括多个不同业务场景的实体意图集合,且不同业务场景的实体意图集合之间通过实体相互关联。
第二方面,本发明实施例还提供了一种自然语言解析装置,包括:
切词模块,用于将待解析的自然语言文本进行切词,得到对应的多个切词片段;
概念标注模块,用于对每个切词片段进行概念标注,得到至少一个概念标签,其中,所述概念标签用于映射切词片段的抽象概念;
组合模块,用于对所述至少一个概念标签进行排列组合,得到多个概念标签序列,其中,在不同的概念标签序列之间,各概念标签序列中的概念标签所覆盖的切词边界不重合;
意图推导模块,用于针对每个概念标签序列,结合预先建立的实体意图知识网络进行意图推导,得到所述自然语言文本的意图和槽位,其中,所述实体意图知识网络中包括多个不同业务场景的实体意图集合,且不同业务场景的实体意图集合之间通过实体相互关联。
第三方面,本发明实施例还提供了一种服务器,包括:
一个或多个处理器;
存储器,用于存储一个或多个程序,
当所述一个或多个程序被所述一个或多个处理器执行,使得所述一个或多个处理器实现如本发明任一实施例所述的自然语言解析方法。
第四方面,本发明实施例还提供了一种计算机可读存储介质,其上存储有计算机程序,该程序被处理器执行时实现如本发明任一实施例所述的自然语言解析方法。
本发明实施例提供的一种自然语言解析方法、装置、服务器及存储介质,通过对待解析的自然语言文本进行切词,并为获得的切词片段打上概念标签,将获得的概念标签排列组合成多个概念标签序列,基于预先建立的实体意图知识网络,对每个概念标签序列进行意图推导,得到所述自然语言文本对应的真实意图和槽位。由此通过对实体进行抽象,不同的实体可以复用通用的意图知识,每个具体的业务场景可以通过引入需要的实体知识,快速推导相关实体的真实意图。
附图说明
图1是本发明实施例一提供的一种自然语言解析方法的流程示意图;
图2是本发明实施例二提供的一种自然语言解析方法的流程示意图;
图3是本发明实施例三提供的一种自然语言解析方法的流程示意图;
图4是本发明实施例四提供的一种自然语言解析装置的结构示意图;
图5是本发明实施例五提供的一种服务器的结构示意图。
具体实施方式
下面结合附图和实施例对本发明作进一步的详细说明。可以理解的是,此处所描述的具体实施例仅仅用于解释本发明,而非对本发明的限定。另外还需要说明的是,为了便于描述,附图中仅示出了与本发明相关的部分而非全部结构。
实施例一
图1是本发明实施例一提供的一种自然语言解析方法的流程图,本实施例可适用于需要根据用户的自然语言理解用户真实意图的情况,该方法可以由相应的自然语言解析装置执行,该装置可以采用软件和/或硬件的方式实现,并可配置于服务器上上。如图1所示,本发明实施例中提供的自然语言解析方法可以包括:
S110、将待解析的自然语言文本进行切词,得到对应的多个切词片段。
在一些人机交互产品中,计算机需要将用户输入的自然语言转换成结构化的数据,进而确定用户想要表达的真实意图,以供后续的具体业务逻辑处理。因此需要对用户输入的自言语言进行预处理。
在本实施例中,对于用户输入的自然语言进行预处理包括:基于语音识别技术,将自然语言转换成对应的自然语言文本;去掉所述自然语言文本中包含的标点符号,并对文本中的字母进行大小写转换,如将文本中所有的大写字母转换成小写字母。由此获得待解析的自然语言文本。
对待解析的自然语言文本进行切词,可以利用现有技术中的任一种切词算法进行切词,得到对应的多个切词片段。例如,通过n-gram切词算法对待解析的自然语言文本“巴西队的守门员有多高”进行切词,得到的切词片段分别为“巴西队”、“守门员”、“有多高”。
S120、对每个切词片段进行概念标注,得到至少一个概念标签,其中,所述概念标签用于映射切词片段的抽象概念。
在本实施例中,对S110中获得的多个切词片段分别进行概念分析,如果无法识别其中某一个切词片段对应的概念,则跳过该切词片段,继续识别下一个切词片段,由此可识别出至少一个切词片段对应的概念,并对已识别出的切词片段进行概念标注,即为识别出的分词片段标记概念标签,由于一个切词片段可能对应多个概念,因此最终可得到至少一个概念标签,其中,所述概念标签用于映射切词片段的抽象概念。示例性的,切词片段“巴西队”对应的抽象概念是球队,因此切词片段“巴西队”对应的概念标签即为“球队”,同理,“守门员”对应的概念标签为“位置”,“有多高”对应的概念标签为“身高”和“积分”。
S130、对所述至少一个概念标签进行排列组合,得到多个概念标签序列,其中,在不同的概念标签序列之间,各概念标签序列中的概念标签所覆盖的切词边界不重合。
在本实施例中,对S120获得的所有的概念标签进行排列组合,得到多个不冲突概念标签序列,即每个切词片段在同一个序列中只能有一个概念标签,例如,切词片段“有多高”对应的概念标签为“身高”和“积分”两个概念标签,因此需要将这两个概念标签分到不同的概念标签序列中。示例性的,切词片段“巴西队”、“守门员”和“有多高”对应的概念标签序列分别为“球队、位置、身高”和“球队、位置、积分”。
S140、针对每个概念标签序列,结合预先建立的实体意图知识网络进行意图推导,得到所述自然语言文本的意图和槽位,其中,所述实体意图知识网络中包括多个不同业务场景的实体意图集合,且不同业务场景的实体意图集合之间通过实体相互关联。
在本实施例中,所述预先建立的实体意图知识网络是将现实世界的实体通过一种对人友好的描述语言,映射生成的实体意图知识网络。具体的,实体意图知识网络中包括多个不同业务场景的实体意图集合,且不同业务场景的实体意图集合之间通过实体相互关联。其中,每个实体意图集合中会记载与实体相关的、可能存在的意图,以及哪些概念标签会与这些意图有关联。示例性的,对于人物这类实体,有询问人物性别、年龄、身高、体重等意图。在足球比赛场景下,球员也是一种人物类的实体,必然有询问球员性别、年龄、身高、体重等意图,同时,球员这一实体还包含特有的询问球员球衣号码、询问球员惯用脚等意图。同理,对于演员这一实体,有询问演员性别、年龄、身高、体重等意图,演员这一实体还包含特有询问演员代表作或获得代表奖项的意图。对于球员和演员特有的实体意图可通过人物这一实体进行关联,且这两个实体均可直接复用人物实体通用的意图知识。
因此,只需将每个概念标签序列中的概念标签分别与实体意图知识网络进行匹配即可推导用户的真实意图和槽位。
在本实施例中,通过对待解析的自然语言文本进行切词,并为获得的切词片段打上概念标签,将获得的概念标签排列组合成多个概念标签序列,基于预先建立的实体意图知识网络,对每个概念标签序列进行意图推导,得到所述自然语言文本的真实意图和槽位。由此通过对实体进行抽象,不同的实体可以复用通用的意图知识,每个具体的业务场景可以通过引入需要的实体知识,快速推导相关实体的真实意图。
实施例二
图2为本发明实施例二提供的一种自然语言解析方法的流程示意图。本实施例以上述实施例为基础进行优化,如图2所示,本发明实施例中提供的自然语言解析方法可以包括:
S210、将待解析的自然语言文本进行切词,得到对应的多个切词片段。
S220、将每个切词片段,以及所述多个切词片段中相邻切词片段的组合,与预先建立的知识词表进行匹配。
在本实施例中,在得到多个切词片段后,根据相邻分词片段之间的凝固度进行组合,得到不同的组合词,例如,“北京”和“路”是两个分词片段,组合后的“北京路”作为一个组合词,将得到的多个切词片段和不同的组合词分别与预先建立的知识词表进行匹配。其中,知识词表包括多个概念标签以及每个概念标签各自对应的词组,示例性的,知识词表中的一个概念标签为“球队”,“球队”下边对应的词组包括“中国队”、“英国队”、“德国队”等球队的名称。
S230、如果所述知识词表中存在匹配的概念标签,则将该匹配的概念标签作为所述至少一个概念标签。
示例性的,如果某一切词片段是“中国队”,通过与知识词表的匹配结果可知,切词片段“中国队”对应的概念标签为“球队”。还例如,“北京”在知识词表中对应的概念标签为“city(城市)”,“路”在知识词表中不存在匹配结果,那么不对“路”这个切词片段进行标注,而如果在知识词表中还存在“北京路”这个词,并且其对应“road(道路)”这一概念标签,那么,还会对“北京路”这一相邻切词片段的组合标记上“road”的概念标签。由此可将在知识词表中存在匹配的概念标签的所有切词片段及相邻切词片段的组合都进行标注。
S240、对所述至少一个概念标签进行排列组合,得到多个概念标签序列,其中,在不同的概念标签序列之间,各概念标签序列中的概念标签所覆盖的切词边界不重合。
在本实施例中,由于不能将同一个切词片段对应的多个概念标签都放进同一个概念标签序列中,因此,各个概念标签序列中的概念标签所覆盖的切词边界不重合。也即,如果某一个切词片段对应A、B两个概念标签,那么这两个概念标签A和B不会同时出现在同一个概念标签序列中。再例如,对于一些复杂情形,某一概念标签序列中的概念标签包括“city”和“road”,其分别对应切词片段“北京”和相邻切词片段的组合“北京路”,而“北京”和“北京路”这两个词具有相同的切词边界“北”,因此,“city”和“road”这两个概念标签也不会同时出现在同一个概念标签序列中。按照上述原则,对所述至少一个概念标签进行排列组合,得到多个概念标签序列。
S250、针对每个概念标签序列中的多个概念标签,按照与所述自然语言文本相同的表达顺序,依次将单个概念标签以及相邻多个概念标签,分别与所述实体意图知识网络进行匹配。
示例性的,在实施例一的基础上,自然语言文本“巴西队的守门员有多高”经过切词和概念标注后对应的概念标签序列分别为“球队、位置、身高”和“球队、位置、积分”。将“球队、位置、身高”与实体意图知识网络进行匹配,以便推导该概念标签序列对应的用户意图;再将“球队、位置、积分”与实体意图知识网络进行匹配,以便推导该概念标签序列对应的用户意图。
这里需要说明的是,按照与自然语言文本相同的表达顺序,目的是正确推导用户意图,因为若将概念标签的顺序打乱,则不符合人类自然语言的表达习惯,自然地,对乱序的概念标签进行推导也不会推导出正确的意图结果。
S260、如果匹配到意图,则获取该意图在所述实体意图知识网络中对应的实体,将该实体对应的概念标签与尚未进行匹配的概念标签合并为新的概念标签序列,并对该新的概念标签序列执行上述匹配操作,直到当前概念标签序列中的全部概念标签匹配完毕、或者匹配不到意图为止。
示例性的,对于第一个概念标签序列“球队、位置、身高”,根据概念标签“球队”和“位置”与实体意图知识网络的匹配结果,确定用户有“询问球员”意图,则获取该意图在实体意图知识网络中对应的实体,即球员,并返回球员对应的概念标签“球员”;根据概念标签“球员”推导出用户有“询问人物”意图,则获取该意图在实体意图知识网络中对应的实体,即人物,并返回实体人物对应的概念标签“人物”,将概念标签“人物”和尚未进行匹配的概念标签“身高”合并为新的概念标签序列,并与实体意图知识网络进行匹配,得出“询问人物身高”意图。此时概念标签全部使用,无法继续推导,则确定最终意图为“询问人物身高”意图。
示例性的,对于第二个概念标签序列“球队、位置、积分”,根据概念标签“球队”和“位置”得到用户意图的过程与根据第一个概念标签序列的推导过程相同,区别在于,在推导出用户有“查询人物”意图并返回概念标签“人物”后,将概念标签“人物”和尚未进行匹配的概念标签“积分”合并为新的概念标签序列,并继续与实体意图知识网络进行匹配,结果匹配不到意图,则将上一步获得的“查询人物意图”返回,即最终确定的意图为“查询人物意图”。
S270、将在上述匹配过程中匹配得到的全部意图,按照匹配到意图时对应的概念标签在当前概念标签序列中的覆盖率,确定出最终的意图,并将其余的概念标签作为槽位。
示例性的,所述覆盖率为推导用户意图实际用到的概念标签所对应的切词片段的总字数与待解析自然语言文本总字数的商,覆盖率越高,确定的用户意图越准确。例如,第一个概念标签序列中,三个概念标签在推导用户意图过程中全部用到,而三个概念标签对应的切词片段“巴西队”、“守门员”、“有多高”共9个字,自然语言文本有10字,因此覆盖率为9/10=0.9;同理,第二个概念标签序列,在匹配到意图时,只用到了“球队”和“位置”两个概念标签,因此覆盖率为6/10=0.6。
因此最终确定的意图为根据第一个概念标签序列确定的用户意图,即最终确定的意图为“查询人物意图”,槽位名称分别为“球队”、“位置”,对应的槽位值分别为巴西队、守门员。
在本实施例中,在对待解析的自然语言文本进行切词后将相邻切词片段进行组合,得到组合词,分别为切词片段和组合词打上概念标签,并将获得的概念标签排列组合成多个概念标签序列,基于预先建立的实体意图知识网络进行匹配,并按照匹配到意图时对应的概念标签在当前概念标签序列中的覆盖率,确定最终意图。由此通过对实体进行抽象,不同的实体可以复用通用的意图知识,每个具体的业务场景可以通过引入需要的实体知识,快速推导相关实体的真实意图。
实施例三
图3为本发明实施例三提供的一种自然语言解析方法的流程示意图。本实施例以上述实施例为基础进行优化,如图3所示,本发明实施例中提供的自然语言解析方法可以包括:
S310、将待解析的自然语言文本进行切词,得到对应的多个切词片段。
S320、对每个切词片段进行概念标注,得到至少一个概念标签,其中,所述概念标签用于映射切词片段的抽象概念。
S330、对所述至少一个概念标签进行排列组合,得到多个概念标签序列,其中,在不同的概念标签序列之间,各概念标签序列中的概念标签所覆盖的切词边界不重合。
S340、对每一个概念标签序列,依据概念标签覆盖率、概念标签个数和概念标签分值进行排序,从排序后的多个概念标签序列中,选取排在前面的N个概念标签序列,其中,概念标签覆盖率、概念标签个数和概念标签分值的优先级依次降低,N为正整数。
本实施例中,对于获得的多个概念标签序列,需要对其进行筛选,示例性的,可依据概念标签覆盖率、概念标签个数和概念标签分值对获得的多个概念标签序列进行排序,从中选出排序靠前的N个序列。其中,概念标签覆盖率的优先级最高,因此优先通过概念标签覆盖率确定排序,概念标签覆盖率即序列中的概念标签在待解析的自然语言文本中对应切词片段的字数与该自然语言文本的总字数的商,覆盖率越高排序越靠前。覆盖率相同时,再比较概念标签个数,即序列中概念标签的个数越多,排序越靠前。如果概念标签个数也相同,则再比较概念标签分值,其中,概念标签分值可以预先根据历史数据的统计结果记录在知识词表中,因此,在进行概念标注时,可以获取到其对应的分值,分值越高则排序越靠前。
可以得知,对于字数较多的待解析自然语言文本,在标注概念标签之后,通过排列组合可以得到的概念标签序列个数可能有很多种,如果对每一种概念标签序列都进行意图推导,其效率必然会很低,而通过排序则可以排除掉一些意图不准确的序列,对排序在前面的一些序列进行意图推导,再从中选择出最优的意图推导结果,从而提高效率和系统资源的利用率。
S350、对所述N个概念标签序列中的每一个概念标签序列,结合预先建立的实体意图知识网络进行意图推导,得到所述自然语言文本的意图和槽位。
对所述N个概念标签序列中的每一个概念标签序列,分别与实体意图知识网络进行匹配,按照匹配到意图时对应的概念标签在当前概念标签序列中的覆盖率,确定出最终的意图。
在本实施例中,根据概念标签覆盖率、概念标签个数和概念标签分值对获得的多个概念标签序列进行排序,从中选出排序靠前的N个序列对用户意图进行推导,即先进行筛选再进行意图推导,可提升推导用户意图的效率,同时提高推导的准确性。
实施例四
图4是本发明实施例四提供的一种自然语言解析装置的结构示意图。如图4所示,该装置包括:
切词模块410,用于将待解析的自然语言文本进行切词,得到对应的多个切词片段;
概念标注模块420,用于对每个切词片段进行概念标注,得到至少一个概念标签,其中,所述概念标签用于映射切词片段的抽象概念;
组合模块430,用于对所述至少一个概念标签进行排列组合,得到多个概念标签序列,其中,在不同的概念标签序列之间,各概念标签序列中的概念标签所覆盖的切词边界不重合;
意图推导模块440,用于针对每个概念标签序列,结合预先建立的实体意图知识网络进行意图推导,得到所述自然语言文本的意图和槽位,其中,所述实体意图知识网络中包括多个不同业务场景的实体意图集合,且不同业务场景的实体意图集合之间通过实体相互关联。
本实施例提供的客户端,通过概念标注模块对切词模块获得的切词片段进行概念标注,并通过组合模块生成概念标签序列,通过意图推导模块对获得的概念标签序列进行意图推导,得到用户的实际意图。
在上述各实施例的基础上,所述概念标注模块具体用于:
将每个切词片段,以及所述多个切词片段中相邻切词片段的组合,与预先建立的知识词表进行匹配;
如果所述知识词表中存在匹配的概念标签,则作为所述至少一个概念标签。
在上述各实施例的基础上,所述意图推导模块具体用于:
针对每个概念标签序列中的多个概念标签,按照与所述自然语言文本相同的表达顺序,依次将单个概念标签以及相邻多个概念标签,分别与所述实体意图知识网络进行匹配;
如果匹配到意图,则获取该意图在所述实体意图知识网络中对应的实体,将该实体对应的概念标签与尚未进行匹配的概念标签合并为新的概念标签序列,并对该新的概念标签序列执行上述匹配操作,直到当前概念标签序列中的全部概念标签匹配完毕、或者匹配不到意图为止;
将在上述匹配过程中匹配得到的全部意图,按照匹配到意图时对应的概念标签在当前概念标签序列中的覆盖率,确定出最终的意图,并将其余的概念标签作为槽位。
在上述各实施例的基础上,所述装置还包括:
排序获取模块,用于对每一个概念标签序列,依据概念标签覆盖率、概念标签个数和概念标签分值进行排序,从排序后的多个概念标签序列中,选取排在前面的N个概念标签序列,其中,概念标签覆盖率、概念标签个数和概念标签分值的优先级依次降低,N为正整数;
相应的,所述意图推导模块用于:
对所述N个概念标签序列中的每一个概念标签序列,结合预先建立的实体意图知识网络进行意图推导,得到所述自然语言文本的意图和槽位。
在上述各实施例的基础上,所述装置还包括:
预处理模块,用于对所述待解析的自然语言文本进行预处理,其中,所述预处理至少包括去掉标点符号、大小写转换。
本发明实施例所提供的自然语言解析装置可执行本发明任意实施例所提供的自然语言解析方法,具备执行方法相应的功能模块和有益效果。
实施例五
图5为本发明实施例五提供的服务器的结构示意图。图5示出了适于用来实现本发明实施方式的示例性服务器12的框图。图5显示的服务器12仅仅是一个示例,不应对本发明实施例的功能和使用范围带来任何限制。
如图5所示,服务器12以通用计算设备的形式表现。服务器12的组件可以包括但不限于:一个或者多个处理器或者处理单元16,存储器28,连接不同系统组件(包括存储器28和处理单元16)的总线18。
总线18表示几类总线结构中的一种或多种,包括存储器总线或者存储器控制器,外围总线,图形加速端口,处理器或者使用多种总线结构中的任意总线结构的局域总线。举例来说,这些体系结构包括但不限于工业标准体系结构(ISA)总线,微通道体系结构(MAC)总线,增强型ISA总线、视频电子标准协会(VESA)局域总线以及外围组件互连(PCI)总线。
服务器12典型地包括多种计算机系统可读介质。这些介质可以是任何能够被服务器12访问的可用介质,包括易失性和非易失性介质,可移动的和不可移动的介质。
存储器28可以包括易失性存储器形式的计算机系统可读介质,例如随机存取存储器(RAM)30和/或高速缓存存储器32。服务器12可以进一步包括其它可移动/不可移动的、易失性/非易失性计算机系统存储介质。仅作为举例,存储系统34可以用于读写不可移动的、非易失性磁介质(图5未显示,通常称为“硬盘驱动器”)。尽管图5中未示出,可以提供用于对可移动非易失性磁盘(例如“软盘”)读写的磁盘驱动器,以及对可移动非易失性光盘(例如CD-ROM,DVD-ROM或者其它光介质)读写的光盘驱动器。在这些情况下,每个驱动器可以通过一个或者多个数据介质接口与总线18相连。存储器28可以包括至少一个程序产品,该程序产品具有一组(例如至少一个)程序模块,这些程序模块被配置以执行本发明各实施例的功能。
具有一组(至少一个)程序模块42的程序/实用工具40,可以存储在例如存储器28中,这样的程序模块42包括但不限于操作系统、一个或者多个应用程序、其它程序模块以及程序数据,这些示例中的每一个或某种组合中可能包括网络环境的实现。程序模块42通常执行本发明所描述的实施例中的功能和/或方法。
服务器12也可以与一个或多个外部设备14(例如键盘、指向设备、显示器24等)通信,还可与一个或者多个使得用户能与该服务器12交互的设备通信,和/或与使得该服务器12能与一个或多个其它计算设备进行通信的任何设备(例如网卡,调制解调器等等)通信。这种通信可以通过输入/输出(I/O)接口22进行。并且,服务器12还可以通过网络适配器20与一个或者多个网络(例如局域网(LAN),广域网(WAN)和/或公共网络,例如因特网)通信。如图所示,网络适配器20通过总线18与服务器12的其它模块通信。应当明白,尽管图中未示出,可以结合服务器12使用其它硬件和/或软件模块,包括但不限于:微代码、设备驱动器、冗余处理单元、外部磁盘驱动阵列、RAID系统、磁带驱动器以及数据备份存储系统等。
处理单元16通过运行存储在存储器28中的程序,从而执行各种功能应用以及数据处理,例如实现本发明实施例所提供的自然语言解析方法,包括:
将待解析的自然语言文本进行切词,得到对应的多个切词片段;
对每个切词片段进行概念标注,得到至少一个概念标签,其中,所述概念标签用于映射切词片段的抽象概念;
对所述至少一个概念标签进行排列组合,得到多个概念标签序列,其中,在不同的概念标签序列之间,各概念标签序列中的概念标签所覆盖的切词边界不重合;
针对每个概念标签序列,结合预先建立的实体意图知识网络进行意图推导,得到所述自然语言文本的意图和槽位,其中,所述实体意图知识网络中包括多个不同业务场景的实体意图集合,且不同业务场景的实体意图集合之间通过实体相互关联。
实施例六
本发明实施例中提供一种包含计算机可执行指令的存储介质,所述计算机可执行指令在由计算机处理器执行时用于执行一种应用于终端的自然语言解析方法,该方法包括:
将待解析的自然语言文本进行切词,得到对应的多个切词片段;
对每个切词片段进行概念标注,得到至少一个概念标签,其中,所述概念标签用于映射切词片段的抽象概念;
对所述至少一个概念标签进行排列组合,得到多个概念标签序列,其中,在不同的概念标签序列之间,各概念标签序列中的概念标签所覆盖的切词边界不重合;
针对每个概念标签序列,结合预先建立的实体意图知识网络进行意图推导,得到所述自然语言文本的意图和槽位,其中,所述实体意图知识网络中包括多个不同业务场景的实体意图集合,且不同业务场景的实体意图集合之间通过实体相互关联。
当然,本发明实施例中所提供的一种包含计算机可执行指令的存储介质,其计算机可执行指令不限于如上所述的方法操作,还可以执行本发明任意实施例中所提供的应用于终端的文本播放方法中的相关操作。
本发明实施例的计算机存储介质,可以采用一个或多个计算机可读的介质的任意组合。计算机可读介质可以是计算机可读信号介质或者计算机可读存储介质。计算机可读存储介质例如可以是——但不限于——电、磁、光、电磁、红外线、或半导体的系统、装置或器件,或者任意以上的组合。计算机可读存储介质的更具体的例子(非穷举的列表)包括:具有一个或多个导线的电连接、便携式计算机磁盘、硬盘、随机存取存储器(RAM)、只读存储器(ROM)、可擦式可编程只读存储器(EPROM或闪存)、光纤、便携式紧凑磁盘只读存储器(CD-ROM)、光存储器件、磁存储器件、或者上述的任意合适的组合。在本文件中,计算机可读存储介质可以是任何包含或存储程序的有形介质,该程序可以被指令执行系统、装置或者器件使用或者与其结合使用。
计算机可读的信号介质可以包括在基带中或者作为载波一部分传播的数据信号,其中承载了计算机可读的程序代码。这种传播的数据信号可以采用多种形式,包括但不限于电磁信号、光信号或上述的任意合适的组合。计算机可读的信号介质还可以是计算机可读存储介质以外的任何计算机可读介质,该计算机可读介质可以发送、传播或者传输用于由指令执行系统、装置或者器件使用或者与其结合使用的程序。
计算机可读介质上包含的程序代码可以用任何适当的介质传输,包括——但不限于无线、电线、光缆、RF等等,或者上述的任意合适的组合。
可以以一种或多种程序设计语言或其组合来编写用于执行本发明操作的计算机程序代码,所述程序设计语言包括面向对象的程序设计语言—诸如Java、Smalltalk、C++,还包括常规的过程式程序设计语言—诸如“C”语言或类似的程序设计语言。程序代码可以完全地在用户计算机上执行、部分地在用户计算机上执行、作为一个独立的软件包执行、部分在用户计算机上部分在远程计算机上执行、或者完全在远程计算机或服务器上执行。在涉及远程计算机的情形中,远程计算机可以通过任意种类的网络——包括局域网(LAN)或广域网(WAN)—连接到用户计算机,或者,可以连接到外部计算机(例如利用因特网服务提供商来通过因特网连接)。注意,上述仅为本发明的较佳实施例及所运用技术原理。本领域技术人员会理解,本发明不限于这里所述的特定实施例,对本领域技术人员来说能够进行各种明显的变化、重新调整和替代而不会脱离本发明的保护范围。因此,虽然通过以上实施例对本发明进行了较为详细的说明,但是本发明不仅仅限于以上实施例,在不脱离本发明构思的情况下,还可以包括更多其他等效实施例,而本发明的范围由所附的权利要求范围决定。
Claims (10)
1.一种自然语言解析方法,其特征在于,所述方法包括:
将待解析的自然语言文本进行切词,得到对应的多个切词片段;
对每个切词片段进行概念标注,得到至少一个概念标签,其中,所述概念标签用于映射切词片段的抽象概念;
对所述至少一个概念标签进行排列组合,得到多个概念标签序列,其中,在不同的概念标签序列之间,各概念标签序列中的概念标签所覆盖的切词边界不重合;
针对每个概念标签序列,结合预先建立的实体意图知识网络进行意图推导,得到所述自然语言文本的意图和槽位,其中,所述实体意图知识网络中包括多个不同业务场景的实体意图集合,且不同业务场景的实体意图集合之间通过实体相互关联;
所述针对每个概念标签序列,结合预先建立的实体意图知识网络进行意图推导,得到所述自然语言文本的意图和槽位,包括:
针对每个概念标签序列中的多个概念标签,按照与所述自然语言文本相同的表达顺序,依次将单个概念标签以及相邻多个概念标签,分别与所述实体意图知识网络进行匹配;
如果匹配到意图,则获取该意图在所述实体意图知识网络中对应的实体,将该实体对应的概念标签与尚未进行匹配的概念标签合并为新的概念标签序列,并对该新的概念标签序列执行上述匹配操作,直到当前概念标签序列中的全部概念标签匹配完毕、或者匹配不到意图为止;
将在上述匹配过程中匹配得到的全部意图,按照匹配到意图时对应的概念标签在当前概念标签序列中的覆盖率,确定出最终的意图,并将其余的概念标签作为槽位。
2.根据权利要求1所述的方法,其特征在于,对每个切词片段进行概念标注,得到至少一个概念标签,包括:
将每个切词片段,以及所述多个切词片段中相邻切词片段的组合,与预先建立的知识词表进行匹配;
如果所述知识词表中存在匹配的概念标签,则将该匹配的概念标签作为所述至少一个概念标签。
3.根据权利要求1所述的方法,其特征在于,在针对每个概念标签序列,结合预先建立的实体意图知识网络进行意图推导,得到所述自然语言文本的意图和槽位之前,所述方法还包括:
对每一个概念标签序列,依据概念标签覆盖率、概念标签个数和概念标签分值进行排序,从排序后的多个概念标签序列中,选取排在前面的N个概念标签序列,其中,概念标签覆盖率、概念标签个数和概念标签分值的优先级依次降低,N为正整数;
相应的,针对每个概念标签序列,结合预先建立的实体意图知识网络进行意图推导,得到所述自然语言文本的意图和槽位,包括:
对所述N个概念标签序列中的每一个概念标签序列,结合预先建立的实体意图知识网络进行意图推导,得到所述自然语言文本的意图和槽位。
4.根据权利要求1-3中任一所述的方法,其特征在于,在对待解析的自然语言文本进行切词之前,所述方法还包括:
对所述自然语言文本进行预处理,其中,所述预处理至少包括去掉标点符号、大小写转换。
5.一种自然语言解析装置,其特征在于,所述装置包括:
切词模块,用于将待解析的自然语言文本进行切词,得到对应的多个切词片段;
概念标注模块,用于对每个切词片段进行概念标注,得到至少一个概念标签,其中,所述概念标签用于映射切词片段的抽象概念;
组合模块,用于对所述至少一个概念标签进行排列组合,得到多个概念标签序列,其中,在不同的概念标签序列之间,各概念标签序列中的概念标签所覆盖的切词边界不重合;
意图推导模块,用于针对每个概念标签序列,结合预先建立的实体意图知识网络进行意图推导,得到所述自然语言文本的意图和槽位,其中,所述实体意图知识网络中包括多个不同业务场景的实体意图集合,且不同业务场景的实体意图集合之间通过实体相互关联;
所述意图推导模块具体用于:
针对每个概念标签序列中的多个概念标签,按照与所述自然语言文本相同的表达顺序,依次将单个概念标签以及相邻多个概念标签,分别与所述实体意图知识网络进行匹配;
如果匹配到意图,则获取该意图在所述实体意图知识网络中对应的实体,将该实体对应的概念标签与尚未进行匹配的概念标签合并为新的概念标签序列,并对该新的概念标签序列执行上述匹配操作,直到当前概念标签序列中的全部概念标签匹配完毕、或者匹配不到意图为止;
将在上述匹配过程中匹配得到的全部意图,按照匹配到意图时对应的概念标签在当前概念标签序列中的覆盖率,确定出最终的意图,并将其余的概念标签作为槽位。
6.根据权利要求5所述的装置,其特征在于,所述概念标注模块具体用于:
将每个切词片段,以及所述多个切词片段中相邻切词片段的组合,与预先建立的知识词表进行匹配;
如果所述知识词表中存在匹配的概念标签,则将该匹配的概念标签作为所述至少一个概念标签。
7.根据权利要求5所述的装置,其特征在于,所述装置还包括:
排序获取模块,用于对每一个概念标签序列,依据概念标签覆盖率、概念标签个数和概念标签分值进行排序,从排序后的多个概念标签序列中,选取排在前面的N个概念标签序列,其中,概念标签覆盖率、概念标签个数和概念标签分值的优先级依次降低,N为正整数;
相应的,所述意图推导模块用于:
对所述N个概念标签序列中的每一个概念标签序列,结合预先建立的实体意图知识网络进行意图推导,得到所述自然语言文本的意图和槽位。
8.根据权利要求5-7中任一所述的装置,其特征在于,所述装置还包括:
预处理模块,用于对所述待解析的自然语言文本进行预处理,其中,所述预处理至少包括去掉标点符号、大小写转换。
9.一种服务器,其特征在于,包括:
一个或多个处理器;
存储器,用于存储一个或多个程序,
当所述一个或多个程序被所述一个或多个处理器执行,使得所述一个或多个处理器实现如权利要求1-4中任一所述的自然语言解析方法。
10.一种计算机可读存储介质,其上存储有计算机程序,其特征在于,该程序被处理器执行时实现如权利要求1-4中任一所述的自然语言解析方法。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN201810713935.2A CN108959257B (zh) | 2018-06-29 | 2018-06-29 | 一种自然语言解析方法、装置、服务器及存储介质 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN201810713935.2A CN108959257B (zh) | 2018-06-29 | 2018-06-29 | 一种自然语言解析方法、装置、服务器及存储介质 |
Publications (2)
Publication Number | Publication Date |
---|---|
CN108959257A CN108959257A (zh) | 2018-12-07 |
CN108959257B true CN108959257B (zh) | 2022-11-22 |
Family
ID=64485018
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN201810713935.2A Active CN108959257B (zh) | 2018-06-29 | 2018-06-29 | 一种自然语言解析方法、装置、服务器及存储介质 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN108959257B (zh) |
Families Citing this family (14)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN109815481B (zh) * | 2018-12-17 | 2023-05-26 | 北京百度网讯科技有限公司 | 对文本进行事件抽取的方法、装置、设备和计算机存储介质 |
CN110209446B (zh) * | 2019-04-23 | 2021-10-01 | 华为技术有限公司 | 一种人机对话系统中组合槽位的配置方法及装置 |
CN110188278A (zh) * | 2019-05-31 | 2019-08-30 | 三角兽(北京)科技有限公司 | 应用程序推荐方法、装置、电子设备及计算机可读存储介质 |
CN112036186B (zh) * | 2019-06-04 | 2024-12-06 | 腾讯科技(深圳)有限公司 | 语料标注方法、装置、计算机存储介质及电子设备 |
CN112558488B (zh) * | 2019-09-10 | 2022-02-15 | 珠海格力电器股份有限公司 | 一种控制智能设备的方法及装置 |
CN110633476B (zh) * | 2019-09-27 | 2024-04-05 | 北京百度网讯科技有限公司 | 用于获取知识标注信息的方法及装置 |
CN112580298B (zh) * | 2019-09-29 | 2024-05-07 | 大众问问(北京)信息科技有限公司 | 一种标注数据获取方法、装置及设备 |
CN110866090A (zh) | 2019-11-14 | 2020-03-06 | 百度在线网络技术(北京)有限公司 | 用于语音交互的方法、装置、电子设备和计算机存储介质 |
CN111859984B (zh) * | 2020-07-23 | 2023-02-14 | 中国平安人寿保险股份有限公司 | 意图挖掘方法、装置、设备及存储介质 |
CN114090728A (zh) * | 2020-08-24 | 2022-02-25 | 华为技术有限公司 | 文本意图识别方法、装置及存储介质 |
CN113807089A (zh) * | 2021-09-16 | 2021-12-17 | 华为技术有限公司 | 文本数据的处理方法、神经网络的训练方法以及相关设备 |
CN113626564B (zh) * | 2021-10-09 | 2021-12-17 | 腾讯科技(深圳)有限公司 | 一种概念标签生成方法、装置、电子设备和存储介质 |
CN116206608A (zh) * | 2021-12-01 | 2023-06-02 | 中国电信股份有限公司 | 网络意图处理方法及相关设备 |
CN115840806B (zh) * | 2022-12-16 | 2023-09-05 | 深圳市人马互动科技有限公司 | 基于自然语言交互获取剧情信息的方法及相关装置 |
Citations (4)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN102236677A (zh) * | 2010-04-28 | 2011-11-09 | 北京大学深圳研究生院 | 一种基于问答系统的信息匹配方法及系统 |
CN103942204A (zh) * | 2013-01-18 | 2014-07-23 | 佳能株式会社 | 用于挖掘意图的方法和设备 |
CN107301227A (zh) * | 2017-06-21 | 2017-10-27 | 北京百度网讯科技有限公司 | 基于人工智能的搜索信息解析方法及装置 |
CN108038183A (zh) * | 2017-12-08 | 2018-05-15 | 北京百度网讯科技有限公司 | 结构化实体收录方法、装置、服务器和存储介质 |
Family Cites Families (4)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
US8112324B2 (en) * | 2006-03-03 | 2012-02-07 | Amazon Technologies, Inc. | Collaborative structured tagging for item encyclopedias |
CN104850554B (zh) * | 2014-02-14 | 2020-05-19 | 北京搜狗科技发展有限公司 | 一种搜索方法和系统 |
CN107193865B (zh) * | 2017-04-06 | 2020-03-10 | 上海奔影网络科技有限公司 | 人机交互中自然语言意图理解方法及装置 |
CN107818781B (zh) * | 2017-09-11 | 2021-08-10 | 远光软件股份有限公司 | 智能交互方法、设备及存储介质 |
-
2018
- 2018-06-29 CN CN201810713935.2A patent/CN108959257B/zh active Active
Patent Citations (4)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN102236677A (zh) * | 2010-04-28 | 2011-11-09 | 北京大学深圳研究生院 | 一种基于问答系统的信息匹配方法及系统 |
CN103942204A (zh) * | 2013-01-18 | 2014-07-23 | 佳能株式会社 | 用于挖掘意图的方法和设备 |
CN107301227A (zh) * | 2017-06-21 | 2017-10-27 | 北京百度网讯科技有限公司 | 基于人工智能的搜索信息解析方法及装置 |
CN108038183A (zh) * | 2017-12-08 | 2018-05-15 | 北京百度网讯科技有限公司 | 结构化实体收录方法、装置、服务器和存储介质 |
Non-Patent Citations (6)
Title |
---|
Coupled POS Tagging on Heterogeneous Annotations;Zhenghua Li, Jiayuan Chao;《IEEE/ACM TRANSACTIONS ON AUDIO, SPEECH, AND LANGUAGE PROCESSING》;20170331;第25卷(第3期);557-571 * |
LEARNING CONCEPT TEMPLATES FROM WEB IMAGES TO QUERY PERSONAL IMAGE;Yi Wu;《2007 IEEE International Conference on Multimedia and Expo》;20070808;1986-1989 * |
本体匹配中基于词义组合的词法分析算法;刘秀磊;《电子学报》;20120831;第40卷(第8期);1524-1630 * |
查询意图识别的关键技术研究;崔建青;《中国优秀硕士学位学位论文全文数据库》;20170315(第3期);I138-6011 * |
知识图谱补全算法综述;丁建辉;《研究与开发》;20180215;56-62 * |
面向知识图谱的知识推理研究进展;官赛萍;《软件学报》;20180208;第29卷(第10期);2966-2994 * |
Also Published As
Publication number | Publication date |
---|---|
CN108959257A (zh) | 2018-12-07 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
CN108959257B (zh) | 一种自然语言解析方法、装置、服务器及存储介质 | |
CN110245259B (zh) | 基于知识图谱的视频打标签方法及装置、计算机可读介质 | |
US10657325B2 (en) | Method for parsing query based on artificial intelligence and computer device | |
CN111858843B (zh) | 一种文本分类方法及装置 | |
CN108090043B (zh) | 基于人工智能的纠错举报处理方法、装置及可读介质 | |
KR20220125672A (ko) | 비디오 분류 방법, 장치, 기기 및 기록 매체 | |
US11475588B2 (en) | Image processing method and device for processing image, server and storage medium | |
CN113051356A (zh) | 开放关系抽取方法、装置、电子设备及存储介质 | |
CN110569335B (zh) | 基于人工智能的三元组校验方法、装置及存储介质 | |
CN113656547B (zh) | 文本匹配方法、装置、设备及存储介质 | |
CN112699645B (zh) | 语料标注方法、装置及设备 | |
CN113535925B (zh) | 语音播报方法、装置、设备及存储介质 | |
CN111539193A (zh) | 基于本体的文档分析和注释生成 | |
CN111597309A (zh) | 相似企业推荐方法、装置、电子设备及介质 | |
CN109815481B (zh) | 对文本进行事件抽取的方法、装置、设备和计算机存储介质 | |
CN113204667A (zh) | 音频标注模型的训练与音频标注的方法、装置 | |
CN114970514A (zh) | 基于人工智能的中文分词方法、装置、计算机设备及介质 | |
CN111368066A (zh) | 获取对话摘要的方法、装置和计算机可读存储介质 | |
CN109657127B (zh) | 一种答案获取方法、装置、服务器及存储介质 | |
CN115858773A (zh) | 适用于长文档的关键词挖掘方法、装置及介质 | |
CN113627186A (zh) | 基于人工智能的实体关系检测方法及相关设备 | |
CN112818167A (zh) | 实体检索方法、装置、电子设备及计算机可读存储介质 | |
CN110059180B (zh) | 文章作者身份识别及评估模型训练方法、装置及存储介质 | |
CN111552780B (zh) | 医用场景的搜索处理方法、装置、存储介质及电子设备 | |
CN110378378B (zh) | 事件检索方法、装置、计算机设备及存储介质 |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination | ||
GR01 | Patent grant | ||
GR01 | Patent grant |