CN108717441B - 问题模板所对应的谓词的确定方法及装置 - Google Patents
问题模板所对应的谓词的确定方法及装置 Download PDFInfo
- Publication number
- CN108717441B CN108717441B CN201810468186.1A CN201810468186A CN108717441B CN 108717441 B CN108717441 B CN 108717441B CN 201810468186 A CN201810468186 A CN 201810468186A CN 108717441 B CN108717441 B CN 108717441B
- Authority
- CN
- China
- Prior art keywords
- predicate
- answer
- question
- determining
- target
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Active
Links
Images
Classifications
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F40/00—Handling natural language data
- G06F40/30—Semantic analysis
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F40/00—Handling natural language data
- G06F40/20—Natural language analysis
- G06F40/205—Parsing
- G06F40/216—Parsing using statistical methods
Landscapes
- Engineering & Computer Science (AREA)
- Theoretical Computer Science (AREA)
- Physics & Mathematics (AREA)
- Health & Medical Sciences (AREA)
- Artificial Intelligence (AREA)
- Audiology, Speech & Language Pathology (AREA)
- Computational Linguistics (AREA)
- General Health & Medical Sciences (AREA)
- General Engineering & Computer Science (AREA)
- General Physics & Mathematics (AREA)
- Probability & Statistics with Applications (AREA)
- Information Retrieval, Db Structures And Fs Structures Therefor (AREA)
Abstract
本发明公开了一种问题模板所对应的谓词的确定方法及装置。其中,该方法包括:获取具有对应关系的目标问题模板和回答信息,以及获取具有对应关系的谓词和内容信息;根据所述回答信息中每个回答信息和所述内容信息之间的相似度确定所述每个回答信息所对应的谓词;将所述谓词中对应回答信息的数量最多的谓词确定为所述目标问题模板所对应的目标谓词。本发明解决了相关技术中确定问题模板所对应的谓词时效率较低的技术问题。
Description
技术领域
本发明涉及计算机领域,具体而言,涉及一种问题模板所对应的谓词的确定方法及装置。
背景技术
相关技术在处理模板意图的时候通常是采用规则的方法,就是人工手写规则,制定映射规则。比如:人为的把你今年多大了,你今天多少岁了,你多大岁数了,你哪一年出生的呢,你今年多大年龄了,你今年年龄几岁了等问题映射为“岁数”,但是这种方案的缺陷非常明显:受限于人工的经验,而且不可能完备。假如用户变个说法:你芳龄多少,如果该问法不在规则之内,则无法处理这一条语句。目前的技术问题主要在于人工的知识和能力有限,而用户的问法又是千差万别,花样百出。因此,人工的方案只可能应对部分情况,不可能应对所有的情况,对于人工没有总结的规则就无法提供支持的。此外,过多的人工也会为团队增加经费预算,这是一种事倍功半的做法,花了钱也不一定有好的效果。
针对上述的问题,目前尚未提出有效的解决方案。
发明内容
本发明实施例提供了一种问题模板所对应的谓词的确定方法及装置,以至少解决相关技术中确定问题模板所对应的谓词时效率较低的技术问题。
根据本发明实施例的一个方面,提供了一种问题模板所对应的谓词的确定方法,包括:获取具有对应关系的目标问题模板和回答信息,以及获取具有对应关系的谓词和内容信息;根据所述回答信息中每个回答信息和所述内容信息之间的相似度确定所述每个回答信息所对应的谓词;将所述谓词中对应回答信息的数量最多的谓词确定为所述目标问题模板所对应的目标谓词。
根据本发明实施例的另一方面,还提供了一种问题模板所对应的谓词的确定装置,包括:第一获取模块,用于获取具有对应关系的目标问题模板和回答信息,以及获取具有对应关系的谓词和内容信息;第一确定模块,用于根据所述回答信息中每个回答信息和所述内容信息之间的相似度确定所述每个回答信息所对应的谓词;第二确定模块,用于将所述谓词中对应回答信息的数量最多的谓词确定为所述目标问题模板所对应的目标谓词。
根据本发明实施例的另一方面,还提供了一种存储介质,其特征在于,所述存储介质中存储有计算机程序,其中,所述计算机程序被设置为运行时执行上述任一项中所述的方法。
根据本发明实施例的另一方面,还提供了一种电子装置,包括存储器和处理器,其特征在于,所述存储器中存储有计算机程序,所述处理器被设置为通过所述计算机程序执行上述任一项中所述的方法。
在本发明实施例中,采用获取具有对应关系的目标问题模板和回答信息,以及获取具有对应关系的谓词和内容信息;根据所述回答信息中每个回答信息和所述内容信息之间的相似度确定所述每个回答信息所对应的谓词;将所述谓词中对应回答信息的数量最多的谓词确定为所述目标问题模板所对应的目标谓词的方式,获取具有对应关系的目标问题模板和回答信息以及具有对应关系的谓词和内容信息,再根据每个回答信息与内容信息之间的相似度建立每个回答信息与谓词之间的对应关系,将对应的回答信息的数量最多的谓词确定为目标问题模板对应的位置,从而采用投票的方式,对于每个目标问题模板自动按照相似度对谓词进行投票,并建立每个目标问题模板与票数最高的谓词之间的对应关系,从而自动为问题模板确定其对应的谓词,从而实现了提高确定问题模板所对应的谓词时的效率的技术效果,进而解决了相关技术中确定问题模板所对应的谓词时效率较低的技术问题。
附图说明
此处所说明的附图用来提供对本发明的进一步理解,构成本申请的一部分,本发明的示意性实施例及其说明用于解释本发明,并不构成对本发明的不当限定。在附图中:
图1是根据本发明实施例的一种可选的问题模板所对应的谓词的确定方法的示意图;
图2是根据本发明实施例的一种可选的问题模板所对应的谓词的确定方法的应用环境示意图;
图3是根据本发明可选的实施方式的一种可选的问题模板所对应的谓词的确定方法的示意图;
图4是根据本发明可选的实施方式的另一种可选的问题模板所对应的谓词的确定方法的示意图;
图5是根据本发明实施例的一种可选的问题模板所对应的谓词的确定装置的示意图;
图6是根据本发明实施例的一种可选的问题模板所对应的谓词的确定方法的应用场景示意图;以及
图7是根据本发明实施例的一种可选的电子装置的示意图。
具体实施方式
为了使本技术领域的人员更好地理解本发明方案,下面将结合本发明实施例中的附图,对本发明实施例中的技术方案进行清楚、完整地描述,显然,所描述的实施例仅仅是本发明一部分的实施例,而不是全部的实施例。基于本发明中的实施例,本领域普通技术人员在没有做出创造性劳动前提下所获得的所有其他实施例,都应当属于本发明保护的范围。
需要说明的是,本发明的说明书和权利要求书及上述附图中的术语“第一”、“第二”等是用于区别类似的对象,而不必用于描述特定的顺序或先后次序。应该理解这样使用的数据在适当情况下可以互换,以便这里描述的本发明的实施例能够以除了在这里图示或描述的那些以外的顺序实施。此外,术语“包括”和“具有”以及他们的任何变形,意图在于覆盖不排他的包含,例如,包含了一系列步骤或单元的过程、方法、系统、产品或设备不必限于清楚地列出的那些步骤或单元,而是可包括没有清楚地列出的或对于这些过程、方法、产品或设备固有的其它步骤或单元。
根据本发明实施例的一个方面,提供了一种问题模板所对应的谓词的确定方法,如图1所示,该方法包括:
S102,获取具有对应关系的目标问题模板和回答信息,以及获取具有对应关系的谓词和内容信息;
S104,根据回答信息中每个回答信息和内容信息之间的相似度确定每个回答信息所对应的谓词;
S106,将谓词中对应回答信息的数量最多的谓词确定为目标问题模板所对应的目标谓词。
可选地,在本实施例中,上述问题模板所对应的谓词的确定方法可以应用于如图2所示的设备202所构成的硬件环境中。如图2所示,设备202获取具有对应关系的目标问题模板和回答信息,以及获取具有对应关系的谓词和内容信息;根据回答信息中每个回答信息和内容信息之间的相似度确定每个回答信息所对应的谓词;将谓词中对应回答信息的数量最多的谓词确定为目标问题模板所对应的目标谓词。
可选地,在本实施例中,上述问题模板所对应的谓词的确定方法可以但不限于应用于确定问题模板与谓词之间对应关系的场景中。其中,上述问题模板所对应的谓词的确定方法可以但不限于应用于各种类型的应用,例如,在线教育应用、即时通讯应用、社区空间应用、游戏应用、购物应用、浏览器应用、金融应用、多媒体应用、直播应用、医疗应用、以及智能硬件的交互应用等(其中,智能硬件可以但不限于包括:智能家居设备、智能穿戴设备、智能交通工具等)。具体的,可以但不限于应用于在上述浏览器应用中确定问题模板与谓词之间对应关系的场景中,或还可以但不限于应用于在上述游戏应用确定问题模板与谓词之间对应关系的场景中,以提高确定问题模板所对应的谓词时的效率。上述仅是一种示例,本实施例中对此不做任何限定。
可选地,在本实施例中,上述问题模板所对应的谓词的确定方法可以但不限于应用于自然语言处理的场景中。比如:知识库问答(KnowledgeBase Question Answering,简称为KB-QA),给定自然语言问题(Query),通过对问题进行语义理解和解析,进而利用知识库进行查询、推理得出答案(Answer)。
例如:如图3所示,有部分刘某某的知识图谱,现在有一个用户在问:刘某某的老婆是谁。这个Query经过模板生成处理之后的模板是:[singer]的老婆是谁,如果将该模板映射的谓词为妻子,所以[singer]的老婆是谁对应妻子。在知识库(knowledge base,简称为KB)中找到singer为刘某某的实体,谓词为妻子,可以找到结果为朱某某,最后返回结果朱某某。
可选地,在本实施例中,知识图谱中信息三元组通常表示为:主语(subject),谓词(predicate),宾语(object),主语和宾语一般都是实体,谓词表示的是两实体之间的关系或者主语的属性。其中,实体指表示一个概念的基本单位。比如:从数据处理的角度看,现实世界中的客观事物可以被称为实体,它是现实世界中任何可区分、可识别的事物。实体可以指人,如教师、学生等,也可以指物,如书、仓库等。其不仅可以指能触及的客观对象,还可以指抽象的事件,如演出、足球赛等。
可选地,在本实施例中,模板可以是具有扩展样例的一种通用句式,问题模板就是具有扩展样例的一种通用的问题句式。比如:对于问题1:张三的老婆是谁,问题2:李四的老婆是谁,问题3:王五的老婆是谁,问题4:赵六的老婆是谁来说,虽然主语不同,但都是要询问谁谁谁的老婆是谁,那么,可以将问题1至问题4归纳到同一个问题模板:[person]老婆是谁。
可选地,在本实施例中,具有对应关系的目标问题模板和回答信息可以从预先获取的问答对中得到,比如:预先获取600万的问答对,将600万问答对中的问题一一转换为问题模板。对转换后的问题模板进行整合,那么同一个问题模板下可能对应了一个或者多个问题,将这一个或者多个问题对应的答案确定为该模板对应的回答信息,从而得到具有对应关系的目标问题模板和回答信息。
可选地,在本实施例中,具有对应关系的谓词和内容信息可以但不限于从知识库中获取,具有对应关系的谓词和内容信息可以但不限于是按照主语进行整合的,也可以但不限于是按照谓词进行整合的。
例如:以疾病知识为例,获取到9600条疾病的相关知识作为知识库,从这9600条疾病的相关知识的每一条中提取该条知识的谓词,并将该条知识作为该谓词对应的内容信息,多条知识可能会提取出相同的谓词,对谓词进行整合,得到每个谓词对应的一个或者多个内容信息,从而得到具有对应关系的谓词和内容信息。或者,还可以按照主语对相关知识进行整合,再在每个主语下提取谓词,并建立谓词与内容信息之间的对应关系,将具有对应关系的主语、谓词和内容信息确定为上述具有对应关系的谓词和内容信息。
在一个可选的实施方式中,如图4所示,以疾病领域为例,获取600万的问答对,从600万的问答对中提取具有对应关系的目标问题模板和回答信息。获取9600条疾病的相关知识作为知识库,从知识库中提取具有对应关系的谓词和内容信息。根据回答信息中每个回答信息和内容信息之间的相似度确定每个回答信息所对应的谓词,再统计各个谓词对应的回答信息的数量,将谓词中对应回答信息的数量最多的谓词确定为目标问题模板所对应的目标谓词。
可见,通过上述步骤,获取具有对应关系的目标问题模板和回答信息以及具有对应关系的谓词和内容信息,再根据每个回答信息与内容信息之间的相似度建立每个回答信息与谓词之间的对应关系,将对应的回答信息的数量最多的谓词确定为目标问题模板对应的位置,从而采用投票的方式,对于每个目标问题模板自动按照相似度对谓词进行投票,并建立每个目标问题模板与票数最高的谓词之间的对应关系,从而自动为问题模板确定其对应的谓词,从而实现了提高确定问题模板所对应的谓词时的效率的技术效果,进而解决了相关技术中确定问题模板所对应的谓词时效率较低的技术问题。
作为一种可选的方案,获取具有对应关系的目标问题模板和回答信息包括:
S1,将问答对中的每个问题转换为问题模板,其中,问答对为具有对应关系的问题和回答;
S2,从问题模板中获取互不相同的问题模板,得到目标问题模板;
S3,将属于目标问题模板的问题所对应的回答确定为目标问题模板对应的回答信息,得到具有对应关系的目标问题模板和回答信息。
可选地,在本实施例中,在将问题转换成问题模板的过程中,可能会出现多个问题转换成了同一个问题模板的情况,比如:肩周炎怎么治疗、颈椎病的治疗方式有哪些、怎么治疗水痘等等问题均可以转换为同一个问题模板:[sickname]怎么治疗。也就是说,对于M个问题可能能够转换为Q个互不相同的问题模板,其中Q小于或者等于M,将这Q个互不相同的问题模板确定为目标问题模板。
可选地,在本实施例中,将所有转换成同一问题模板的问题所对应的答案确定为该问题对应的回答信息。例如:问题:肩周炎怎么治疗、颈椎病的治疗方式有哪些、怎么治疗水痘转换为目标问题模板:[sickname]怎么治疗。问题:肩周炎怎么预防、颈椎病的预防方式有哪些、怎么预防水痘转换为目标问题模板:[sickname]怎么预防。那么可以将肩周炎怎么治疗对应的答案1、颈椎病的治疗方式有哪些对应的答案2、怎么治疗水痘对应的答案3确定为目标问题模板:[sickname]怎么治疗对应的回答信息,将肩周炎怎么预防对应的答案4、颈椎病的预防方式有哪些对应的答案5、怎么预防水痘对应的答案6确定为目标问题模板:[sickname]怎么预防对应的回答信息。得到具有对应关系的目标问题模板:[sickname]怎么治疗和回答信息:答案1、答案2、答案3,以及具有对应关系的目标问题模板:[sickname]怎么预防和回答信息:答案4、答案5、答案6。
作为一种可选的方案,从问题模板中获取互不相同的问题模板,得到目标问题模板包括:
S1,从问题模板中获取互不相同的问题模板;
S2,获取互不相同的问题模板中问题模板类型属于二元事实型问题的问题模板;
S3,将二元事实型问题的问题模板中对应的问题数量最多的目标数量的问题模板确定为目标问题模板。
可选地,在本实施例中,二元事实型问题(Binary Factoid Question,简称为BFQ),一般是指询问实体某一方面的属性的问题。
可选地,在本实施例中,可以从海量目标问题模板中选出频次最高且属于BFQ问题的200个模板。
作为一种可选的方案,获取具有对应关系的谓词和内容信息包括:
S1,获取目标领域的知识数据;
S2,依据知识数据建立目标领域的知识图谱;
S3,从知识图谱的信息三元组中获取具有对应关系的主语、谓词和宾语;
S4,将具有对应关系的谓词和宾语确定为具有对应关系的谓词和内容信息,或者,将主语下的具有对应关系的谓词和宾语确定为主语对应的具有对应关系的谓词和内容信息。
可选地,在本实施例中,知识图谱又称为科学知识图谱,在图书情报界称为知识域可视化或知识领域映射地图,是显示知识发展进程与结构关系的一系列各种不同的图形,用可视化技术描述知识资源及其载体,挖掘、分析、构建、绘制和显示知识及它们之间的相互联系。
例如:获取疾病领域的9600条相关知识数据,将9600条原始数据的内容也进行关键词提取。比如:肩周炎的谓词有:治疗,常见症状,并发症等等,其中“治疗”这个谓词的关键词提取结果为:止痛,粘连,药物,手术,中医;“常见症状”这个谓词的关键词提取结果为:慢性,疼痛,扩散,肩关节活动受限,肩膀酸疼,肩部运动受限,肩痛。
可选地,在本实施例中,具有对应关系的谓词和内容信息可以但不限于是按照主语进行分类的,即每条知识数据提取出主语、谓词和内容信息,将各个知识数据按照主语进行分类,相同主语的知识数据整合到一起,每个主语对应了谓词,每个谓词又对应了内容信息。或者,具有对应关系的谓词和内容信息也可以但不限于是不按照主语进行区分的,也就是说,每条知识数据提取一个具有对应关系的谓词和内容信息。
可选地,在本实施例中,可以但不限于通过以下方式之一确定每个回答信息所对应的谓词:
方式一,在将具有对应关系的谓词和宾语确定为具有对应关系的谓词和内容信息的情况下,确定每个回答信息与每个第一谓词对应的内容信息的第一相似度,其中,第一谓词为具有对应关系的谓词和内容信息中的谓词;
将对应的第一相似度最高的第一谓词确定为每个回答信息所对应的谓词。
方式二,在将主语下的具有对应关系的谓词和宾语确定为主语对应的具有对应关系的谓词和内容信息的情况下,获取具有对应关系的第二谓词和内容信息,其中,第二谓词与每个回答信息对应相同的主语;
确定每个回答信息与每个第二谓词对应的内容信息的第二相似度;
将对应的第二相似度最高的第二谓词确定为每个回答信息所对应的谓词。
作为一种可选的方案,根据回答信息中每个回答信息和内容信息之间的相似度确定每个回答信息所对应的谓词包括:
S1,从每个回答信息中提取关键词,得到具有对应关系的每个回答信息和第一关键词集合;
S2,从每个谓词对应的内容信息中提取关键词,得到具有对应关系的内容信息和第二关键词集合;
S3,分别获取每个回答信息对应的第一关键词集合与每个内容信息对应的第二关键词集合之间的相似度,并将第一关键词集合与第二关键词集合之间的相似度确定为每个回答信息和内容信息之间的相似度;
S4,将与每个回答信息之间的相似度最高的目标内容信息对应的谓词确定为每个回答信息所对应的谓词。
可选地,在本实施例中,确定每个回答信息和内容信息的相似度的方式可以但不限于包括确定每个回答信息的关键词与内容信息的关键词之间的相似度。
可选地,在本实施例中,确定关键词与关键词之间的相似度的方式可以但不限于包括:获取关键词与关键词之间的杰卡相似度。对于两个集合x和y来说,其杰卡相似度计算公式为即杰卡相似度J为两个集合的交除以两个集合的并。
需要说明的是,上述计算相似度的时候还可以采用其他的相似度计算方法,比如可以采用基于词向量的计算方法。
作为一种可选的方案,在将谓词中对应回答信息的数量最多的谓词确定为目标问题模板所对应的目标谓词之后,还包括:
S1,利用具有对应关系的目标问题模板和目标谓词获取用户输入的第一问题所对应的第一回答;
S2,将第一回答作为第一问题的响应信息返回给用户。
可选地,在本实施例中,可以利用获取到的具有对应关系的目标问题模板和目标谓词进行进一步的自然语言处理,比如:获取用户所提问题的答案等等。
作为一种可选的方案,利用具有对应关系的目标问题模板和目标谓词获取用户输入的第一问题所对应的第一回答包括:
S1,获取用户输入的第一问题,并从第一问题中提取第一主语;
S2,将第一问题转换为第一问题模板;
S3,从具有对应关系的目标问题模板和目标谓词中获取第一问题模板对应的第一谓词;
S4,从第一问题所属领域的知识库中获取第一主语对应的知识图谱;
S5,从第一主语对应的知识图谱中获取第一谓词对应的回答信息,并将第一谓词对应的回答信息确定为第一回答。
可选地,在本实施例中,获取到具有对应关系的目标问题模板和目标谓词之后就可以对用户输入的问题进行快速的谓词预测了,将用户输入的第一问题转换成第一问题模板,再从具有对应关系的目标问题模板和目标谓词中预测出该第一问题模板对应的第一谓词,再在第一问题的主语所对应的知识图谱中获取该第一谓词对应的回答信息作为第一回答返回给用户。
需要说明的是,对于前述的各方法实施例,为了简单描述,故将其都表述为一系列的动作组合,但是本领域技术人员应该知悉,本发明并不受所描述的动作顺序的限制,因为依据本发明,某些步骤可以采用其他顺序或者同时进行。其次,本领域技术人员也应该知悉,说明书中所描述的实施例均属于优选实施例,所涉及的动作和模块并不一定是本发明所必须的。
通过以上的实施方式的描述,本领域的技术人员可以清楚地了解到根据上述实施例的方法可借助软件加必需的通用硬件平台的方式来实现,当然也可以通过硬件,但很多情况下前者是更佳的实施方式。基于这样的理解,本发明的技术方案本质上或者说对现有技术做出贡献的部分可以以软件产品的形式体现出来,该计算机软件产品存储在一个存储介质(如ROM/RAM、磁碟、光盘)中,包括若干指令用以使得一台终端设备(可以是手机,计算机,服务器,或者网络设备等)执行本发明各个实施例所述的方法。
根据本发明实施例的另一个方面,还提供了一种用于实施上述问题模板所对应的谓词的确定方法的问题模板所对应的谓词的确定装置,如图5所示,该装置包括:
第一获取模块52,用于获取具有对应关系的目标问题模板和回答信息,以及获取具有对应关系的谓词和内容信息;
第一确定模块54,用于根据回答信息中每个回答信息和内容信息之间的相似度确定每个回答信息所对应的谓词;
第二确定模块56,用于将谓词中对应回答信息的数量最多的谓词确定为目标问题模板所对应的目标谓词。
可选地,在本实施例中,上述问题模板所对应的谓词的确定装置可以应用于如图2所示的设备202所构成的硬件环境中。如图2所示,设备202获取具有对应关系的目标问题模板和回答信息,以及获取具有对应关系的谓词和内容信息;根据回答信息中每个回答信息和内容信息之间的相似度确定每个回答信息所对应的谓词;将谓词中对应回答信息的数量最多的谓词确定为目标问题模板所对应的目标谓词。
可选地,在本实施例中,上述问题模板所对应的谓词的确定装置可以但不限于应用于确定问题模板与谓词之间对应关系的场景中。其中,上述问题模板所对应的谓词的确定方法可以但不限于应用于各种类型的应用,例如,在线教育应用、即时通讯应用、社区空间应用、游戏应用、购物应用、浏览器应用、金融应用、多媒体应用、直播应用、医疗应用、以及智能硬件的交互应用等(其中,智能硬件可以但不限于包括:智能家居设备、智能穿戴设备、智能交通工具等)。具体的,可以但不限于应用于在上述浏览器应用中确定问题模板与谓词之间对应关系的场景中,或还可以但不限于应用于在上述游戏应用确定问题模板与谓词之间对应关系的场景中,以提高确定问题模板所对应的谓词时的效率。上述仅是一种示例,本实施例中对此不做任何限定。
可选地,在本实施例中,上述问题模板所对应的谓词的确定装置可以但不限于应用于自然语言处理的场景中。比如:知识库问答(Knowledge Base Question Answering,简称为KB-QA),给定自然语言问题(Query),通过对问题进行语义理解和解析,进而利用知识库进行查询、推理得出答案(Answer)。
例如:如图3所示,有部分刘某某的知识图谱,现在有一个用户在问:刘某某的老婆是谁。这个Query经过模板生成处理之后的模板是:[singer]的老婆是谁,如果将该模板映射的谓词为妻子,所以[singer]的老婆是谁对应妻子。在知识库(knowledge base,简称为KB)中找到singer为刘某某的实体,谓词为妻子,可以找到结果为朱某某,最后返回结果朱某某。
可选地,在本实施例中,知识图谱中信息三元组通常表示为:主语(subject),谓词(predicate),宾语(object),主语和宾语一般都是实体,谓词表示的是两实体之间的关系或者主语的属性。其中,实体指表示一个概念的基本单位。比如:从数据处理的角度看,现实世界中的客观事物可以被称为实体,它是现实世界中任何可区分、可识别的事物。实体可以指人,如教师、学生等,也可以指物,如书、仓库等。其不仅可以指能触及的客观对象,还可以指抽象的事件,如演出、足球赛等。
可选地,在本实施例中,模板可以是具有扩展样例的一种通用句式,问题模板就是具有扩展样例的一种通用的问题句式。比如:对于问题1:张三的老婆是谁,问题2:李四的老婆是谁,问题3:王五的老婆是谁,问题4:赵六的老婆是谁来说,虽然主语不同,但都是要询问谁谁谁的老婆是谁,那么,可以将问题1至问题4归纳到同一个问题模板:[person]老婆是谁。
可选地,在本实施例中,具有对应关系的目标问题模板和回答信息可以从预先获取的问答对中得到,比如:预先获取600万的问答对,将600万问答对中的问题一一转换为问题模板。对转换后的问题模板进行整合,那么同一个问题模板下可能对应了一个或者多个问题,将这一个或者多个问题对应的答案确定为该模板对应的回答信息,从而得到具有对应关系的目标问题模板和回答信息。
可选地,在本实施例中,具有对应关系的谓词和内容信息可以但不限于从知识库中获取,具有对应关系的谓词和内容信息可以但不限于是按照主语进行整合的,也可以但不限于是按照谓词进行整合的。
例如:以疾病知识为例,获取到9600条疾病的相关知识作为知识库,从这9600条疾病的相关知识的每一条中提取该条知识的谓词,并将该条知识作为该谓词对应的内容信息,多条知识可能会提取出相同的谓词,对谓词进行整合,得到每个谓词对应的一个或者多个内容信息,从而得到具有对应关系的谓词和内容信息。或者,还可以按照主语对相关知识进行整合,再在每个主语下提取谓词,并建立谓词与内容信息之间的对应关系,将具有对应关系的主语、谓词和内容信息确定为上述具有对应关系的谓词和内容信息。
在一个可选的实施方式中,如图4所示,以疾病领域为例,获取600万的问答对,从600万的问答对中提取具有对应关系的目标问题模板和回答信息。获取9600条疾病的相关知识作为知识库,从知识库中提取具有对应关系的谓词和内容信息。根据回答信息中每个回答信息和内容信息之间的相似度确定每个回答信息所对应的谓词,在统计各个谓词对应的回答信息的数量,将谓词中对应回答信息的数量最多的谓词确定为目标问题模板所对应的目标谓词。
可见,通过上述装置,获取具有对应关系的目标问题模板和回答信息以及具有对应关系的谓词和内容信息,再根据每个回答信息与内容信息之间的相似度建立每个回答信息与谓词之间的对应关系,将对应的回答信息的数量最多的谓词确定为目标问题模板对应的位置,从而采用投票的方式,对于每个目标问题模板自动按照相似度对谓词进行投票,并建立每个目标问题模板与票数最高的谓词之间的对应关系,从而自动为问题模板确定其对应的谓词,从而实现了提高确定问题模板所对应的谓词时的效率的技术效果,进而解决了相关技术中确定问题模板所对应的谓词时效率较低的技术问题。
作为一种可选的方案,第一获取模块包括:
第一转换单元,用于将问答对中的每个问题转换为问题模板,其中,问答对为具有对应关系的问题和回答;
第一获取单元,用于从问题模板中获取互不相同的问题模板,得到目标问题模板;
第一确定单元,用于将属于目标问题模板的问题所对应的回答确定为目标问题模板对应的回答信息,得到具有对应关系的目标问题模板和回答信息。
可选地,在本实施例中,在将问题转换成问题模板的过程中,可能会出现多个问题转换成了同一个问题模板的情况,比如:肩周炎怎么治疗、颈椎病的治疗方式有哪些、怎么治疗水痘等等问题均可以转换为同一个问题模板:[sickname]怎么治疗。也就是说,对于M个问题可能能够转换为Q个互不相同的问题模板,其中Q小于或者等于M,将这Q个互不相同的问题模板确定为目标问题模板。
可选地,在本实施例中,将所有转换成同一问题模板的问题所对应的答案确定为该问题对应的回答信息。例如:问题:肩周炎怎么治疗、颈椎病的治疗方式有哪些、怎么治疗水痘转换为目标问题模板:[sickname]怎么治疗。问题:肩周炎怎么预防、颈椎病的预防方式有哪些、怎么预防水痘转换为目标问题模板:[sickname]怎么预防。那么可以将肩周炎怎么治疗对应的答案1、颈椎病的治疗方式有哪些对应的答案2、怎么治疗水痘对应的答案3确定为目标问题模板:[sickname]怎么治疗对应的回答信息,将肩周炎怎么预防对应的答案4、颈椎病的预防方式有哪些对应的答案5、怎么预防水痘对应的答案6确定为目标问题模板:[sickname]怎么预防对应的回答信息。得到具有对应关系的目标问题模板:[sickname]怎么治疗和回答信息:答案1、答案2、答案3,以及具有对应关系的目标问题模板:[sickname]怎么预防和回答信息:答案4、答案5、答案6。
作为一种可选的方案,第一获取单元包括:
第一获取子单元,用于从问题模板中获取互不相同的问题模板;
第二获取子单元,用于获取互不相同的问题模板中问题模板类型属于二元事实型问题的问题模板;
确定子单元,用于将二元事实型问题的问题模板中对应的问题数量最多的目标数量的问题模板确定为目标问题模板。
可选地,在本实施例中,二元事实型问题(Binary Factoid Question,简称为BFQ),一般是指询问实体某一方面的属性的问题。
可选地,在本实施例中,可以从海量目标问题模板中选出频次最高且属于BFQ问题的200个模板。
作为一种可选的方案,第一获取模块包括:
第二获取单元,用于获取目标领域的知识数据;
建立单元,用于依据知识数据建立目标领域的知识图谱;
第三获取单元,用于从知识图谱的信息三元组中获取具有对应关系的主语、谓词和宾语;
第二确定单元,用于将具有对应关系的谓词和宾语确定为具有对应关系的谓词和内容信息,或者,将主语下的具有对应关系的谓词和宾语确定为主语对应的具有对应关系的谓词和内容信息。
可选地,在本实施例中,知识图谱又称为科学知识图谱,在图书情报界称为知识域可视化或知识领域映射地图,是显示知识发展进程与结构关系的一系列各种不同的图形,用可视化技术描述知识资源及其载体,挖掘、分析、构建、绘制和显示知识及它们之间的相互联系。
例如:获取疾病领域的9600条相关知识数据,将9600条原始数据的内容也进行关键词提取。比如:肩周炎的谓词有:治疗,常见症状,并发症等等,其中“治疗”这个谓词的关键词提取结果为:止痛,粘连,药物,手术,中医;“常见症状”这个谓词的关键词提取结果为:慢性,疼痛,扩散,肩关节活动受限,肩膀酸疼,肩部运动受限,肩痛。
可选地,在本实施例中,具有对应关系的谓词和内容信息可以但不限于是按照主语进行分类的,即每条知识数据提取出主语、谓词和内容信息,将各个知识数据按照主语进行分类,相同主语的知识数据整合到一起,每个主语对应了谓词,每个谓词又对应了内容信息。或者,具有对应关系的谓词和内容信息也可以但不限于是不按照主语进行区分的,也就是说,每条知识数据提取一个具有对应关系的谓词和内容信息。
可选地,在本实施例中,第二确定模块用于:在将具有对应关系的谓词和宾语确定为具有对应关系的谓词和内容信息的情况下,确定每个回答信息与每个第一谓词对应的内容信息的第一相似度,其中,第一谓词为具有对应关系的谓词和内容信息中的谓词;将对应的第一相似度最高的第一谓词确定为每个回答信息所对应的谓词。
可选地,在本实施例中,第二确定模块用于:在将主语下的具有对应关系的谓词和宾语确定为主语对应的具有对应关系的谓词和内容信息的情况下,获取具有对应关系的第二谓词和内容信息,其中,第二谓词与每个回答信息对应相同的主语;确定每个回答信息与每个第二谓词对应的内容信息的第二相似度;将对应的第二相似度最高的第二谓词确定为每个回答信息所对应的谓词。
作为一种可选的方案,第二确定模块包括:
第一提取单元,用于从每个回答信息中提取关键词,得到具有对应关系的每个回答信息和第一关键词集合;
第二提取单元,用于从每个谓词对应的内容信息中提取关键词,得到具有对应关系的内容信息和第二关键词集合;
第四获取单元,用于分别获取每个回答信息对应的第一关键词集合与每个内容信息对应的第二关键词集合之间的相似度,并将第一关键词集合与第二关键词集合之间的相似度确定为每个回答信息和内容信息之间的相似度;
第三确定单元,用于将与每个回答信息之间的相似度最高的目标内容信息对应的谓词确定为每个回答信息所对应的谓词。
可选地,在本实施例中,确定每个回答信息和内容信息的相似度的方式可以但不限于包括确定每个回答信息的关键词与内容信息的关键词之间的相似度。
可选地,在本实施例中,确定关键词与关键词之间的相似度的方式可以但不限于包括:获取关键词与关键词之间的杰卡相似度。对于两个集合x和y来说,其杰卡相似度计算公式为即杰卡相似度J为两个集合的交除以两个集合的并。
需要说明的是,上述计算相似度的时候还可以采用其他的相似度计算方法,比如可以采用基于词向量的计算方法。
作为一种可选的方案,上述装置还包括:
第二获取模块,用于利用具有对应关系的目标问题模板和目标谓词获取用户输入的第一问题所对应的第一回答;
返回模块,用于将第一回答作为第一问题的响应信息返回给用户。
可选地,在本实施例中,可以利用获取到的具有对应关系的目标问题模板和目标谓词进行进一步的自然语言处理,比如:获取用户所提问题的答案等等。
作为一种可选的方案,第二获取模块包括:
第五获取单元,用于获取用户输入的第一问题,并从第一问题中提取第一主语;
第二转换单元,用于将第一问题转换为第一问题模板;
第六获取单元,用于从具有对应关系的目标问题模板和目标谓词中获取第一问题模板对应的第一谓词;
第七获取单元,用于从第一问题所属领域的知识库中获取第一主语对应的知识图谱;
第八获取单元,用于从第一主语对应的知识图谱中获取第一谓词对应的回答信息,并将第一谓词对应的回答信息确定为第一回答。
可选地,在本实施例中,获取到具有对应关系的目标问题模板和目标谓词之后就可以对用户输入的问题进行快速的谓词预测了,将用户输入的第一问题转换成第一问题模板,再从具有对应关系的目标问题模板和目标谓词中预测出该第一问题模板对应的第一谓词,再在第一问题的主语所对应的知识图谱中获取该第一谓词对应的回答信息作为第一回答返回给用户。
本发明实施例的应用环境可以但不限于参照上述实施例中的应用环境,本实施例中对此不再赘述。本发明实施例提供了用于实施上述实时通信的连接方法的一种可选的具体应用示例。
作为一种可选的实施例,上述问题模板所对应的谓词的确定方法可以但不限于应用于如图6所示的自然语言处理中确定接收到的问题对应的答案的场景中。在本场景中,提出了一种基于知识问答库的模板意图挖掘方法,寻找模板与知识库谓词之间的映射关系,理解用户的真实意图(预测谓词),然后在数据库中依据谓词来寻找答案。本方法生成各个问题对应的模板,然后对模板利用基于知识图谱的模板意图挖掘方法进行模板与谓词之间的映射,在映射方法中采用了关键词提取、杰卡相似度计算以及投票的算法,最终选择票数最高的谓词作为该模板的谓词,最终能把所有模板和谓词之间的映射关系进行整合。
可选地,在本实施例中,采用了基于知识图谱的已有知识,结合挖掘的相关领域query以及回答,采用投票的方法进行谓词的预测,最终得到投票最多的模板和谓词之间的一种映射关系,作为已有的知识库的补充。这样处理后任意来一个query,可以通过发现其模板在知识库中的映射关系来找到其对应的谓词,最终在数据库中找到答案。显然本方法更加的智能和有效,在数据量充足的情况下能够应对用户的海量问法。
可选地,在本场景中,提出了一种基于知识图谱来预测模板意图的映射方法,用户query来了直接生成模板,然后基于知识图谱的方法通过模板到谓词的映射过程,就可以找到该模板对应的谓词,最后再在知识图谱中找到相应的实体的谓词结果作为该query的结果。
可选地,在本场景中,上述方法可以应用于dobby智能助手的各个领域的模板挖掘。当新建某个领域的时候,可能会搜集到该领域的大量语料以及该领域的大量相关实体,但是用户的问法千变万化,有限的句子不可能囊括所有的问法。因此,模板对于一个领域的作用显得十分重要,好的模板能囊括该领域千变万化的问法,因此通过语料和相关的实体来挖掘适合该领域的模板显得十分重要。对于已经存在的领域,如果发现一些问法还不能支持,也可以通过这些问法和相关实体来挖掘模板,提升该领域的召回率和语义理解能力。因此,模板的挖掘能力对于已有领域以及新的领域都显得十分重要。
本方法主要运用于产品的闲聊端的回答以及相关的知识问答,对健康、疾病等领域非常重要,此外,对于通用领域的知识问答也是非常的重要。任何领域的query来了之后都能生成相应的模板,然后通过已经训练好的映射关系来找到对应模板的谓词,通过对应实体和谓词能方便的找到答案,返回给用户。
为了说明本场景中是如何利用知识图谱进行模板意图预测的,此处举例进行说明,本实施例中,挖掘了600万和疾病相关的qa对(问答对),以及9600条疾病的相关知识作为KB,目的是要获取疾病领域的模板和对应谓词之间的映射关系。如图6所示,整个过程包括如下步骤:
步骤1,模板挖掘:首先要进行600万query的模板挖掘,(其中的实体就是9600个疾病),也就是完成从query到模板的转换。(比如得到了:[sick_name],[sick_name]怎么治疗,……,等等的模板。)
步骤2,找出top200的BFQ模板:知识问答支持的是BFQ的问题,因此可以从海量模板中选出频次最高且属于BFQ问题的200个模板。(比如选择了:[sick_name]怎么治疗,[sick_name]的症状有哪些,……)
步骤3,召回每一个模板的所有answer并提取回答关键词:找到每一个模板的所有answer,以便作为投票的基础。并将冗长的回答进行关键词提取。(比如:“[sick_name]怎么治疗”这个query的回答有好几百个,分别是:1.肩周炎得了之后应该西医治疗肩周炎一般采用药物治疗跟手术治疗,药物治疗主要是让患者口服消炎止痛类的药物,但是大多数患者在停药之后都会复发,而运用手术方法进行治疗则容易引起粘连,所以一般治疗肩周炎都比较推荐中医治疗方法。2……。然后对每一个答案进行关键词提取,比如第一个回答的关键词提取结果如下:肩周炎,药物,手术,口服,止痛,复发,粘连,中医)。此处的关键词提取可以采用Textrank4算法,提取每段话中50个关键词。
步骤4,9600条原始数据进行谓词和关键词提取,作为KB:为了方便处理,将9600条原始数据的内容也进行关键词提取。(比如:肩周炎的谓词有:治疗,常见症状,并发症……其中“治疗”这个谓词的关键词提取结果为:止痛,粘连,药物,手术,中医;“常见症状”这个谓词的关键词提取结果为:慢性,疼痛,扩散,肩关节活动受限,肩膀酸疼,肩部运动受限,肩痛)。
步骤5,模板意图投票:模板的每一个回答只会对某一个意图投票,最终对于某一个模板来说得票最高的意图就是它的预测意图或者真实意图,比如:[sick_name]怎么治疗{谓词“treatment”:30,谓词“Diet”:20,谓词“CommonCause”:10……},那么对于这个模板[sick_name]怎么治疗来说,最终的投票结果就是“treatment”,也就是说这个模板问的就是治疗相关的信息。每个模板有几百上千个回答,每一个回答需要对KB的每一个意图进行杰卡相似度计算,并根据计算结果投票给相似度最高的谓词,最终所有回答投票后统计得票最高的谓词作为模板的预测意图结果。(比如:第一个模板举例来说,肩周炎,药物,手术,口服,止痛,复发,粘连,中医这几个关键词需要和KB中对应的实体“肩周炎”的所有可能谓词的关键词进行杰卡相似度进行计算(对于两个集合x和y来说,其杰卡相似度计算公式为即两个集合的交除以两个集合的并),选择得分最高的,比如第一个回答和谓词“治疗”的得分最高,最终几百上千个回答分别投票,“治疗”:500票,“常见症状”:100票,“并发症”:50票……这时可以选出第一个模板的最终预测意图结果为:“治疗”)。
根据本发明实施例的又一个方面,还提供了一种用于实施上述问题模板所对应的谓词的确定的电子装置,如图7所示,该电子装置包括:一个或多个(图中仅示出一个)处理器702、存储器704、传感器706、编码器708以及传输装置710,该存储器中存储有计算机程序,该处理器被设置为通过计算机程序执行上述任一项方法实施例中的步骤。
可选地,在本实施例中,上述电子装置可以位于计算机网络的多个网络设备中的至少一个网络设备。
可选地,在本实施例中,上述处理器可以被设置为通过计算机程序执行以下步骤:
S1,获取具有对应关系的目标问题模板和回答信息,以及获取具有对应关系的谓词和内容信息;
S2,根据回答信息中每个回答信息和内容信息之间的相似度确定每个回答信息所对应的谓词;
S3,将谓词中对应回答信息的数量最多的谓词确定为目标问题模板所对应的目标谓词。
可选地,本领域普通技术人员可以理解,图7所示的结构仅为示意,电子装置也可以是智能手机(如Android手机、iOS手机等)、平板电脑、掌上电脑以及移动互联网设备(Mobile Internet Devices,MID)、PAD等终端设备。图7其并不对上述电子装置的结构造成限定。例如,电子装置还可包括比图7中所示更多或者更少的组件(如网络接口、显示装置等),或者具有与图7所示不同的配置。
其中,存储器702可用于存储软件程序以及模块,如本发明实施例中的问题模板所对应的谓词的确定方法和装置对应的程序指令/模块,处理器704通过运行存储在存储器702内的软件程序以及模块,从而执行各种功能应用以及数据处理,即实现上述的目标组件的控制方法。存储器702可包括高速随机存储器,还可以包括非易失性存储器,如一个或者多个磁性存储装置、闪存、或者其他非易失性固态存储器。在一些实例中,存储器702可进一步包括相对于处理器704远程设置的存储器,这些远程存储器可以通过网络连接至终端。上述网络的实例包括但不限于互联网、企业内部网、局域网、移动通信网及其组合。
上述的传输装置710用于经由一个网络接收或者发送数据。上述的网络具体实例可包括有线网络及无线网络。在一个实例中,传输装置710包括一个网络适配器(NetworkInterface Controller,NIC),其可通过网线与其他网络设备与路由器相连从而可与互联网或局域网进行通讯。在一个实例中,传输装置710为射频(Radio Frequency,RF)模块,其用于通过无线方式与互联网进行通讯。
其中,具体地,存储器702用于存储应用程序。
本发明的实施例还提供了一种存储介质,该存储介质中存储有计算机程序,其中,该计算机程序被设置为运行时执行上述任一项方法实施例中的步骤。
可选地,在本实施例中,上述存储介质可以被设置为存储用于执行以下步骤的计算机程序:
S1,获取具有对应关系的目标问题模板和回答信息,以及获取具有对应关系的谓词和内容信息;
S2,根据回答信息中每个回答信息和内容信息之间的相似度确定每个回答信息所对应的谓词;
S3,将谓词中对应回答信息的数量最多的谓词确定为目标问题模板所对应的目标谓词。
可选地,存储介质还被设置为存储用于执行上述实施例中的方法中所包括的步骤的计算机程序,本实施例中对此不再赘述。
可选地,在本实施例中,本领域普通技术人员可以理解上述实施例的各种方法中的全部或部分步骤是可以通过程序来指令终端设备相关的硬件来完成,该程序可以存储于一计算机可读存储介质中,存储介质可以包括:闪存盘、只读存储器(Read-Only Memory,ROM)、随机存取器(Random Access Memory,RAM)、磁盘或光盘等。
上述本发明实施例序号仅仅为了描述,不代表实施例的优劣。
上述实施例中的集成的单元如果以软件功能单元的形式实现并作为独立的产品销售或使用时,可以存储在上述计算机可读取的存储介质中。基于这样的理解,本发明的技术方案本质上或者说对现有技术做出贡献的部分或者该技术方案的全部或部分可以以软件产品的形式体现出来,该计算机软件产品存储在存储介质中,包括若干指令用以使得一台或多台计算机设备(可为个人计算机、服务器或者网络设备等)执行本发明各个实施例所述方法的全部或部分步骤。
在本发明的上述实施例中,对各个实施例的描述都各有侧重,某个实施例中没有详述的部分,可以参见其他实施例的相关描述。
在本申请所提供的几个实施例中,应该理解到,所揭露的客户端,可通过其它的方式实现。其中,以上所描述的装置实施例仅仅是示意性的,例如所述单元的划分,仅仅为一种逻辑功能划分,实际实现时可以有另外的划分方式,例如多个单元或组件可以结合或者可以集成到另一个系统,或一些特征可以忽略,或不执行。另一点,所显示或讨论的相互之间的耦合或直接耦合或通信连接可以是通过一些接口,单元或模块的间接耦合或通信连接,可以是电性或其它的形式。
所述作为分离部件说明的单元可以是或者也可以不是物理上分开的,作为单元显示的部件可以是或者也可以不是物理单元,即可以位于一个地方,或者也可以分布到多个网络单元上。可以根据实际的需要选择其中的部分或者全部单元来实现本实施例方案的目的。
另外,在本发明各个实施例中的各功能单元可以集成在一个处理单元中,也可以是各个单元单独物理存在,也可以两个或两个以上单元集成在一个单元中。上述集成的单元既可以采用硬件的形式实现,也可以采用软件功能单元的形式实现。
以上所述仅是本发明的优选实施方式,应当指出,对于本技术领域的普通技术人员来说,在不脱离本发明原理的前提下,还可以做出若干改进和润饰,这些改进和润饰也应视为本发明的保护范围。
Claims (15)
1.一种问题模板所对应的谓词的确定方法,其特征在于,包括:
获取具有对应关系的目标问题模板和回答信息,以及获取具有对应关系的谓词和内容信息;
根据所述回答信息中每个回答信息和所述内容信息之间的相似度确定所述每个回答信息所对应的谓词;
将所述谓词中对应回答信息的数量最多的谓词确定为所述目标问题模板所对应的目标谓词。
2.根据权利要求1所述的方法,其特征在于,获取具有对应关系的目标问题模板和回答信息包括:
将问答对中的每个问题转换为问题模板,其中,所述问答对为具有对应关系的问题和回答;
从所述问题模板中获取互不相同的问题模板,得到所述目标问题模板;
将属于所述目标问题模板的问题所对应的回答确定为所述目标问题模板对应的所述回答信息,得到具有对应关系的所述目标问题模板和所述回答信息。
3.根据权利要求2所述的方法,其特征在于,从所述问题模板中获取互不相同的问题模板,得到所述目标问题模板包括:
从所述问题模板中获取所述互不相同的问题模板;
获取所述互不相同的问题模板中问题模板类型属于二元事实型问题的问题模板;
将所述二元事实型问题的问题模板中对应的问题数量最多的目标数量的问题模板确定为所述目标问题模板。
4.根据权利要求1所述的方法,其特征在于,获取具有对应关系的谓词和内容信息包括:
获取目标领域的知识数据;
依据所述知识数据建立所述目标领域的知识图谱;
从所述知识图谱的信息三元组中获取具有对应关系的主语、谓词和宾语;
将具有对应关系的谓词和宾语确定为所述具有对应关系的谓词和内容信息,或者,将所述主语下的具有对应关系的谓词和宾语确定为所述主语对应的所述具有对应关系的谓词和内容信息。
5.根据权利要求4所述的方法,其特征在于,根据所述回答信息中每个回答信息和所述内容信息之间的相似度确定所述每个回答信息所对应的谓词包括:
在将具有对应关系的谓词和宾语确定为所述具有对应关系的谓词和内容信息的情况下,确定所述每个回答信息与每个第一谓词对应的内容信息的第一相似度,其中,所述第一谓词为所述具有对应关系的谓词和内容信息中的谓词;
将对应的所述第一相似度最高的所述第一谓词确定为所述每个回答信息所对应的谓词。
6.根据权利要求4所述的方法,其特征在于,根据所述回答信息中每个回答信息和所述内容信息之间的相似度确定所述每个回答信息所对应的谓词包括:
在将所述主语下的具有对应关系的谓词和宾语确定为所述主语对应的所述具有对应关系的谓词和内容信息的情况下,获取具有对应关系的第二谓词和内容信息,其中,所述第二谓词与所述每个回答信息对应相同的主语;
确定所述每个回答信息与每个所述第二谓词对应的内容信息的第二相似度;
将对应的所述第二相似度最高的所述第二谓词确定为所述每个回答信息所对应的谓词。
7.根据权利要求1所述的方法,其特征在于,根据所述回答信息中每个回答信息和所述内容信息之间的相似度确定所述每个回答信息所对应的谓词包括:
从所述每个回答信息中提取关键词,得到具有对应关系的所述每个回答信息和第一关键词集合;
从每个谓词对应的所述内容信息中提取关键词,得到具有对应关系的所述内容信息和第二关键词集合;
分别获取所述每个回答信息对应的第一关键词集合与每个所述内容信息对应的第二关键词集合之间的相似度,并将所述第一关键词集合与所述第二关键词集合之间的相似度确定为所述每个回答信息和所述内容信息之间的相似度;
将与所述每个回答信息之间的相似度最高的目标内容信息对应的谓词确定为所述每个回答信息所对应的谓词。
8.根据权利要求1至6中任一项所述的方法,其特征在于,在将所述谓词中对应回答信息的数量最多的谓词确定为所述目标问题模板所对应的目标谓词之后,所述方法还包括:
利用具有对应关系的所述目标问题模板和所述目标谓词获取用户输入的第一问题所对应的第一回答;
将所述第一回答作为所述第一问题的响应信息返回给所述用户。
9.根据权利要求8所述的方法,其特征在于,利用具有对应关系的所述目标问题模板和所述目标谓词获取用户输入的第一问题所对应的第一回答包括:
获取用户输入的第一问题,并从所述第一问题中提取第一主语;
将所述第一问题转换为第一问题模板;
从具有对应关系的所述目标问题模板和所述目标谓词中获取所述第一问题模板对应的第一谓词;
从所述第一问题所属领域的知识库中获取所述第一主语对应的知识图谱;
从所述第一主语对应的知识图谱中获取所述第一谓词对应的回答信息,并将所述第一谓词对应的回答信息确定为所述第一回答。
10.一种问题模板所对应的谓词的确定装置,其特征在于,包括:
第一获取模块,用于获取具有对应关系的目标问题模板和回答信息,以及获取具有对应关系的谓词和内容信息;
第一确定模块,用于根据所述回答信息中每个回答信息和所述内容信息之间的相似度确定所述每个回答信息所对应的谓词;
第二确定模块,用于将所述谓词中对应回答信息的数量最多的谓词确定为所述目标问题模板所对应的目标谓词。
11.根据权利要求10所述的装置,其特征在于,所述第一获取模块包括:
第一转换单元,用于将问答对中的每个问题转换为问题模板,其中,所述问答对为具有对应关系的问题和回答;
第一获取单元,用于从所述问题模板中获取互不相同的问题模板,得到所述目标问题模板;
第一确定单元,用于将属于所述目标问题模板的问题所对应的回答确定为所述目标问题模板对应的所述回答信息,得到具有对应关系的所述目标问题模板和所述回答信息。
12.根据权利要求10所述的装置,其特征在于,所述第一获取模块包括:
第二获取单元,用于获取目标领域的知识数据;
建立单元,用于依据所述知识数据建立所述目标领域的知识图谱;
第三获取单元,用于从所述知识图谱的信息三元组中获取具有对应关系的主语、谓词和宾语;
第二确定单元,用于将具有对应关系的谓词和宾语确定为所述具有对应关系的谓词和内容信息,或者,将所述主语下的具有对应关系的谓词和宾语确定为所述主语对应的所述具有对应关系的谓词和内容信息。
13.根据权利要求10所述的装置,其特征在于,所述第二确定模块包括:
第一提取单元,用于从所述每个回答信息中提取关键词,得到具有对应关系的所述每个回答信息和第一关键词集合;
第二提取单元,用于从每个谓词对应的所述内容信息中提取关键词,得到具有对应关系的所述内容信息和第二关键词集合;
第四获取单元,用于分别获取所述每个回答信息对应的第一关键词集合与每个所述内容信息对应的第二关键词集合之间的相似度,并将所述第一关键词集合与所述第二关键词集合之间的相似度确定为所述每个回答信息和所述内容信息之间的相似度;
第三确定单元,用于将与所述每个回答信息之间的相似度最高的目标内容信息对应的谓词确定为所述每个回答信息所对应的谓词。
14.一种存储介质,其特征在于,所述存储介质中存储有计算机程序,其中,所述计算机程序被设置为运行时执行所述权利要求1至9任一项中所述的方法。
15.一种电子装置,包括存储器和处理器,其特征在于,所述存储器中存储有计算机程序,所述处理器被设置为通过所述计算机程序执行所述权利要求1至9任一项中所述的方法。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN201810468186.1A CN108717441B (zh) | 2018-05-16 | 2018-05-16 | 问题模板所对应的谓词的确定方法及装置 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN201810468186.1A CN108717441B (zh) | 2018-05-16 | 2018-05-16 | 问题模板所对应的谓词的确定方法及装置 |
Publications (2)
Publication Number | Publication Date |
---|---|
CN108717441A CN108717441A (zh) | 2018-10-30 |
CN108717441B true CN108717441B (zh) | 2023-01-17 |
Family
ID=63900077
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN201810468186.1A Active CN108717441B (zh) | 2018-05-16 | 2018-05-16 | 问题模板所对应的谓词的确定方法及装置 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN108717441B (zh) |
Families Citing this family (9)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN109947914B (zh) | 2019-02-21 | 2023-08-18 | 扬州大学 | 一种基于模板的软件缺陷自动问答方法 |
CN110110096B (zh) * | 2019-05-13 | 2021-07-09 | 上海松鼠课堂人工智能科技有限公司 | 人工智能k12知识图谱制作管理系统以及实现方法 |
CN110309321B (zh) * | 2019-07-10 | 2021-05-18 | 电子科技大学 | 一种基于图谱表示学习的知识表示学习方法 |
CN110597957B (zh) * | 2019-09-11 | 2022-04-22 | 腾讯科技(深圳)有限公司 | 一种文本信息检索的方法及相关装置 |
CN110807325B (zh) * | 2019-10-18 | 2023-05-26 | 腾讯科技(深圳)有限公司 | 谓词识别方法、装置及存储介质 |
CN110991183B (zh) * | 2019-12-06 | 2023-07-04 | 北京百度网讯科技有限公司 | 问题的谓词确定方法、装置、设备及存储介质 |
CN111538844B (zh) * | 2020-03-20 | 2022-03-25 | 华为技术有限公司 | 目标领域知识库的生成、问题解答方法及装置 |
CN113761144A (zh) * | 2020-11-16 | 2021-12-07 | 北京沃东天骏信息技术有限公司 | 应答信息确定方法和装置 |
CN115129828A (zh) * | 2021-03-25 | 2022-09-30 | 科沃斯商用机器人有限公司 | 人机交互方法、装置、智能机器人和存储介质 |
Citations (4)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN1794233A (zh) * | 2005-12-28 | 2006-06-28 | 刘文印 | 一种网上用户交互问答方法及其系统 |
CN106934012A (zh) * | 2017-03-10 | 2017-07-07 | 上海数眼科技发展有限公司 | 一种基于知识图谱的自然语言问答实现方法和系统 |
CN106997399A (zh) * | 2017-05-24 | 2017-08-01 | 海南大学 | 一种基于数据图谱、信息图谱、知识图谱和智慧图谱关联架构的分类问答系统设计方法 |
CN107729468A (zh) * | 2017-10-12 | 2018-02-23 | 华中科技大学 | 基于深度学习的答案抽取方法及系统 |
Family Cites Families (2)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
JP2007141090A (ja) * | 2005-11-21 | 2007-06-07 | Fuji Xerox Co Ltd | 質問応答システム、およびデータ検索方法、並びにコンピュータ・プログラム |
KR102033395B1 (ko) * | 2014-11-20 | 2019-10-18 | 한국전자통신연구원 | 심층 자연어 질문 분석 기반 구조화된 지식베이스 질의응답 시스템 및 그 방법 |
-
2018
- 2018-05-16 CN CN201810468186.1A patent/CN108717441B/zh active Active
Patent Citations (4)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN1794233A (zh) * | 2005-12-28 | 2006-06-28 | 刘文印 | 一种网上用户交互问答方法及其系统 |
CN106934012A (zh) * | 2017-03-10 | 2017-07-07 | 上海数眼科技发展有限公司 | 一种基于知识图谱的自然语言问答实现方法和系统 |
CN106997399A (zh) * | 2017-05-24 | 2017-08-01 | 海南大学 | 一种基于数据图谱、信息图谱、知识图谱和智慧图谱关联架构的分类问答系统设计方法 |
CN107729468A (zh) * | 2017-10-12 | 2018-02-23 | 华中科技大学 | 基于深度学习的答案抽取方法及系统 |
Non-Patent Citations (1)
Title |
---|
基于谓词逻辑的答疑系统;冯小萍等;《现代工业经济和信息化》;20150501(第09期);全文 * |
Also Published As
Publication number | Publication date |
---|---|
CN108717441A (zh) | 2018-10-30 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
CN108717441B (zh) | 问题模板所对应的谓词的确定方法及装置 | |
Gu et al. | Visualizing the intellectual structure and evolution of electronic health and telemedicine research | |
Akuffo et al. | Use of electronic resources by students in a premier postgraduate theological university in Ghana | |
Ackland et al. | Online collective identity: The case of the environmental movement | |
Lee et al. | Exploring the web visibility of world-class universities | |
CN111339252B (zh) | 一种搜索方法、装置及存储介质 | |
Yang et al. | Health literacy and its socio-demographic risk factors in Hebei: a cross-sectional survey | |
CN116595131A (zh) | 使用大型语言模型进行医疗问答的方法及系统 | |
CN110765272A (zh) | 基于知识图谱的签约方法、装置、计算机设备及计算机存储介质 | |
Gu et al. | Discovering and visualizing knowledge evolution of chronic disease research driven by emerging technologies | |
US20170357770A1 (en) | Health risk cloud analysis system capable of integrating gene information and acquired lifestyle | |
Noar et al. | eHealth applications: An introduction and overview | |
Smith III et al. | Physicians, physician extenders and health outcomes: race, gender and patient-health provider concordance in North Carolina Medicaid | |
CN115760306A (zh) | 一种基于用户健康状况的定制化保险产品推荐方法、系统 | |
CN105701330B (zh) | 健康信息处理方法及系统 | |
CN114664431A (zh) | 一种人工智能辅助问答方法、装置、设备及介质 | |
CN113362938A (zh) | 一种医疗信息推送方法、装置、电子设备及存储介质 | |
CN110516153B (zh) | 视频的智能推送方法和装置、存储介质及电子装置 | |
CN111667029A (zh) | 一种聚类方法、装置、设备及存储介质 | |
CN112035567A (zh) | 一种数据处理方法、装置及计算机可读存储介质 | |
CN109448857B (zh) | 医疗咨询信息聚合分析方法 | |
CN117649921A (zh) | 推拿信息推荐方法、装置、电子设备及介质 | |
CN116702743A (zh) | 文本相似度检测方法和装置、电子设备及存储介质 | |
CN113792130A (zh) | 一种智能机器人在线问答互动系统 | |
Hansen et al. | Big social data in public health: a mixed-methods case study of Sundhed. dk's Facebook strategy, engagement, and performance |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination | ||
GR01 | Patent grant | ||
GR01 | Patent grant |