CN107977415B - 自动问答方法及装置 - Google Patents
自动问答方法及装置 Download PDFInfo
- Publication number
- CN107977415B CN107977415B CN201711172339.XA CN201711172339A CN107977415B CN 107977415 B CN107977415 B CN 107977415B CN 201711172339 A CN201711172339 A CN 201711172339A CN 107977415 B CN107977415 B CN 107977415B
- Authority
- CN
- China
- Prior art keywords
- question
- answer
- sentence
- question sentence
- subject
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Active
Links
Classifications
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F16/00—Information retrieval; Database structures therefor; File system structures therefor
- G06F16/30—Information retrieval; Database structures therefor; File system structures therefor of unstructured textual data
- G06F16/33—Querying
- G06F16/332—Query formulation
- G06F16/3329—Natural language query formulation
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F40/00—Handling natural language data
- G06F40/20—Natural language analysis
- G06F40/205—Parsing
- G06F40/211—Syntactic parsing, e.g. based on context-free grammar [CFG] or unification grammars
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F40/00—Handling natural language data
- G06F40/20—Natural language analysis
- G06F40/279—Recognition of textual entities
- G06F40/284—Lexical analysis, e.g. tokenisation or collocates
Landscapes
- Engineering & Computer Science (AREA)
- Theoretical Computer Science (AREA)
- Physics & Mathematics (AREA)
- General Physics & Mathematics (AREA)
- Computational Linguistics (AREA)
- General Engineering & Computer Science (AREA)
- Artificial Intelligence (AREA)
- General Health & Medical Sciences (AREA)
- Audiology, Speech & Language Pathology (AREA)
- Health & Medical Sciences (AREA)
- Mathematical Physics (AREA)
- Human Computer Interaction (AREA)
- Data Mining & Analysis (AREA)
- Databases & Information Systems (AREA)
- Information Retrieval, Db Structures And Fs Structures Therefor (AREA)
- Machine Translation (AREA)
Abstract
本发明提出一种自动问答方法及装置,其中方法包括:获取用户的提问语句中的关键词;根据关键词判断提问语句的句法结构是否完整,以及是否存在关键主题词;在提问语句的句法结构完整且存在关键主题词时,获取本体知识库中与关键主题词匹配的第一主题词,以及提问语句中与第一主题词对应的第一意图属性;将本体知识库中第一意图属性的值确定为提问语句对应的答案,并提供给用户,从而能够根据用户提问语句中的主题词以及意图,结合本体知识库,获取对应的答案,提高了获取到的答案的准确性,使得获取到的答案与提问语句的相关性较高,使得用户能够得到比较满意的答案,提高了用户使用自动问答系统的体验。
Description
技术领域
本发明涉及人工智能技术领域,尤其涉及一种自动问答方法及装置。
背景技术
目前,随着人工智能技术的发展,服务型行业等行业已采用机器人自动回答用户的大部分事实性问题,例如:缴费问题、办理业务流程等。现有技术中的自动问答方法主要包括:获取用户的提问语句,将提问语句与问答库中的各问题进行比对,获取相应的答案。然而针对用户复杂的语言习惯,例如语句成分缩略、表达个性化等、口语化语言等,现有的自动问答方法难以匹配到合适的答案,降低了获取到的答案的准确性,导致获取到的答案与提问语句的相关性较低,影响用户使用自动问答系统的体验。
发明内容
本发明旨在至少在一定程度上解决相关技术中的技术问题之一。
为此,本发明的第一个目的在于提出一种自动问答方法,用于解决现有技术中获取到的答案与提问语句的相关性低,用户体验差的问题。
本发明的第二个目的在于提出一种自动问答装置。
本发明的第三个目的在于提出另一种自动问答装置。
本发明的第四个目的在于提出一种非临时性计算机可读存储介质。
本发明的第五个目的在于提出一种计算机程序产品。
为达上述目的,本发明第一方面实施例提出了一种自动问答方法,包括:
获取用户的提问语句,对所述提问语句进行分析,获取所述提问语句中的关键词;
根据所述关键词,判断所述提问语句的句法结构是否完整,以及判断所述提问语句中是否存在关键主题词;
在所述提问语句的句法结构完整且存在关键主题词时,将所述关键主题词与本体知识库中的主题词进行比对,判断所述本体知识库中是否存在与所述关键主题词匹配的第一主题词;所述本体知识库中包括:主题词集合,所述主题词集合中的每个主题词对应至少一个意图属性;所述意图属性表征所述用户提出提问语句的目的;所述意图属性的值表征提问语句的答案;
在所述本体知识库中存在所述第一主题词时,将所述提问语句中的关键词与所述第一主题词对应的至少一个意图属性进行比对,判断所述提问语句中是否存在与所述第一主题词对应的第一意图属性;
在所述提问语句中存在第一意图属性时,将所述第一意图属性的值确定为所述提问语句对应的答案,并提供给所述用户。
进一步的,所述的方法还包括:
在所述提问语句中不存在第一意图属性时,将所述提问语句中的关键词与是非问答对集合对应的是非属性进行比对,判断所述提问语句中是否存在是非属性;
若所述提问语句中存在是非属性,则获取所述提问语句与所述是非问答对集合中各个是非问题的相似度;
根据所述提问语句与所述是非问答对集合中各个是非问题的相似度,确定与所述提问语句匹配的是非问答对,将匹配的是非问答对中的答案确定为所述提问语句对应的答案,并提供给所述用户。
进一步的,所述的方法还包括:
在所述本体知识库中不存在与所述关键主题词匹配的第一主题词,或者所述提问语句中不存在第一意图属性和是非属性,或者所述提问语句的句法结构不完整且存在关键主题词时,获取所述提问语句中缺失的属性、主题词或者句子成分;
根据所述提问语句中缺失的属性、主题词或者句子成分,确定待询问的问题并提供所述用户,以获取所述待询问的问题对应的补充答案;
根据所述待询问的问题对应的补充答案以及所述提问语句,结合所述本体知识库,确定所述提问语句的第二主题词以及第二意图属性;
将所述本体知识库中第二主题词对应的第二意图属性的值,确定为所述提问语句对应的答案,并提供给所述用户。
进一步的,所述的方法还包括:
在所述提问语句中不存在关键主题词时,将所述提问语句输入预设的分类模型,获取所述提问语句的类型;
在所述提问语句的类型为知识咨询类型时,获取所述提问语句与领域扩展问答对集合中各个扩展问题的相似度;
根据所述提问语句与领域扩展问答对集合中各个扩展问题的相似度,确定是否存在与所述提问语句匹配的扩展问答对;
在存在与所述提问语句匹配的扩展问答对时,将匹配的扩展问答对中的答案确定为所述提问语句对应的答案,并提供给所述用户。
进一步的,所述的方法还包括:
在不存在与所述提问语句匹配的扩展问答对时,获取所述提问语句中缺失的主题词、属性或者句子成分;
根据所述提问语句中缺失的主题词、属性或者句子成分,确定待询问的问题并提供所述用户,以获取所述待询问的问题对应的补充答案;
根据所述待询问的问题对应的补充答案以及所述提问语句,结合所述本体知识库,确定所述提问语句的第二主题词以及第二意图属性;
将所述本体知识库中第二主题词对应的第二意图属性的值,确定为所述提问语句对应的答案,并提供给所述用户。
进一步的,所述的方法还包括:
在所述提问语句的类型为闲聊类型时,
将所述提问语句输入预设的问答模型,获取所述提问语句对应的答案;或者,
获取所述提问语句与闲聊问答对集合中各个闲聊问题的相似度;根据所述提问语句与闲聊问答对集合中各个闲聊问题的相似度,确定与所述提问语句匹配的闲聊问答对;将匹配的闲聊问答对中的答案确定为所述提问语句对应的答案,并提供给所述用户。
进一步的,所述提问语句与所述是非问答对集合中各个是非问题的相似度的计算方式可以为,关键词向量相似度计算,或者杰卡德相似度计算。
本发明实施例的自动问答方法,通过获取用户的提问语句,对提问语句进行分析,获取提问语句中的关键词;根据关键词,判断提问语句的句法结构是否完整,以及判断提问语句中是否存在关键主题词;在提问语句的句法结构完整且存在关键主题词时,将关键主题词与本体知识库中的主题词进行比对,判断本体知识库中是否存在与关键主题词匹配的第一主题词;本体知识库中包括:主题词集合,主题词集合中的每个主题词对应至少一个意图属性;意图属性表征用户提出提问语句的目的;意图属性的值表征提问语句的答案;在本体知识库中存在第一主题词时,将提问语句中的关键词与第一主题词对应的至少一个意图属性进行比对,判断提问语句中是否存在与第一主题词对应的第一意图属性;在提问语句中存在第一意图属性时,将第一意图属性的值确定为提问语句对应的答案,并提供给所述用户,从而能够获取用户提问语句中的主题词以及意图,根据用户提问语句中的主题词以及意图,结合本体知识库,获取对应的答案,提高了获取到的答案的准确性,使得获取到的答案与提问语句的相关性较高,使得用户能够得到比较满意的答案,提高了用户使用自动问答系统的体验。
为达上述目的,本发明第二方面实施例提出了一种自动问答装置,包括:
获取模块,用于获取用户的提问语句,对所述提问语句进行分析,获取所述提问语句中的关键词;
判断模块,用于根据所述关键词,判断所述提问语句的句法结构是否完整,以及判断所述提问语句中是否存在关键主题词;
比对模块,用于在所述提问语句的句法结构完整且存在关键主题词时,将所述关键主题词与本体知识库中的主题词进行比对,判断所述本体知识库中是否存在与所述关键主题词匹配的第一主题词;所述本体知识库中包括:主题词集合,所述主题词集合中的每个主题词对应至少一个意图属性;所述意图属性表征所述用户提出提问语句的目的;所述意图属性的值表征提问语句的答案;
所述比对模块,还用于在所述本体知识库中存在所述第一主题词时,将所述提问语句中的关键词与所述第一主题词对应的至少一个意图属性进行比对,判断所述提问语句中是否存在与所述第一主题词对应的第一意图属性;
确定模块,用于在所述提问语句中存在第一意图属性时,将所述第一意图属性的值确定为所述提问语句对应的答案,并提供给所述用户。
进一步的,所述比对模块,还用于在所述提问语句中不存在第一意图属性时,将所述提问语句中的关键词与是非问答对集合对应的是非属性进行比对,判断所述提问语句中是否存在是非属性;
所述获取模块,还用于在所述提问语句中存在是非属性时,获取所述提问语句与所述是非问答对集合中各个是非问题的相似度;
所述确定模块,还用于根据所述提问语句与所述是非问答对集合中各个是非问题的相似度,确定与所述提问语句匹配的是非问答对,将匹配的是非问答对中的答案确定为所述提问语句对应的答案,并提供给所述用户。
进一步的,所述获取模块,还用于在所述本体知识库中不存在与所述关键主题词匹配的第一主题词,或者所述提问语句中不存在第一意图属性和是非属性,或者所述提问语句的句法结构不完整且存在关键主题词时,获取所述提问语句中缺失的属性、主题词或者句子成分;
所述确定模块,还用于根据所述提问语句中缺失的属性、主题词或者句子成分,确定待询问的问题并提供所述用户,以获取所述待询问的问题对应的补充答案;
所述确定模块,还用于根据所述待询问的问题对应的补充答案以及所述提问语句,结合所述本体知识库,确定所述提问语句的第二主题词以及第二意图属性;
所述确定模块,还用于将所述本体知识库中第二主题词对应的第二意图属性的值,确定为所述提问语句对应的答案,并提供给所述用户。
进一步的,所述的装置还包括:输入模块;
所述输入模块,用于在所述提问语句中不存在关键主题词时,将所述提问语句输入预设的分类模型,获取所述提问语句的类型;
所述获取模块,还用于在所述提问语句的类型为知识咨询类型时,获取所述提问语句与领域扩展问答对集合中各个扩展问题的相似度;
所述确定模块,还用于根据所述提问语句与领域扩展问答对集合中各个扩展问题的相似度,确定是否存在与所述提问语句匹配的扩展问答对;
所述确定模块,还用于在存在与所述提问语句匹配的扩展问答对时,将匹配的扩展问答对中的答案确定为所述提问语句对应的答案,并提供给所述用户。
进一步的,所述获取模块,还用于在不存在与所述提问语句匹配的扩展问答对时,获取所述提问语句中缺失的主题词、属性或者句子成分;
所述确定模块,还用于根据所述提问语句中缺失的主题词、属性或者句子成分,确定待询问的问题并提供所述用户,以获取所述待询问的问题对应的补充答案;
所述确定模块,还用于根据所述待询问的问题对应的补充答案以及所述提问语句,结合所述本体知识库,确定所述提问语句的第二主题词以及第二意图属性;
所述确定模块,还用于将所述本体知识库中第二主题词对应的第二意图属性的值,确定为所述提问语句对应的答案,并提供给所述用户。
进一步的,所述获取模块,还用于在所述提问语句的类型为闲聊类型时,
将所述提问语句输入预设的问答模型,获取所述提问语句对应的答案;或者,
获取所述提问语句与闲聊问答对集合中各个闲聊问题的相似度;根据所述提问语句与闲聊问答对集合中各个闲聊问题的相似度,确定与所述提问语句匹配的闲聊问答对;将匹配的闲聊问答对中的答案确定为所述提问语句对应的答案,并提供给所述用户。
进一步的,所述提问语句与所述是非问答对集合中各个是非问题的相似度的计算方式可以为,关键词向量相似度计算,或者杰卡德相似度计算。
本发明实施例的自动问答装置,通过获取用户的提问语句,对提问语句进行分析,获取提问语句中的关键词;根据关键词,判断提问语句的句法结构是否完整,以及判断提问语句中是否存在关键主题词;在提问语句的句法结构完整且存在关键主题词时,将关键主题词与本体知识库中的主题词进行比对,判断本体知识库中是否存在与关键主题词匹配的第一主题词;本体知识库中包括:主题词集合,主题词集合中的每个主题词对应至少一个意图属性;意图属性表征用户提出提问语句的目的;意图属性的值表征提问语句的答案;在本体知识库中存在第一主题词时,将提问语句中的关键词与第一主题词对应的至少一个意图属性进行比对,判断提问语句中是否存在与第一主题词对应的第一意图属性;在提问语句中存在第一意图属性时,将第一意图属性的值确定为提问语句对应的答案,并提供给所述用户,从而能够获取用户提问语句中的主题词以及意图,根据用户提问语句中的主题词以及意图,结合本体知识库,获取对应的答案,提高了获取到的答案的准确性,使得获取到的答案与提问语句的相关性较高,使得用户能够得到比较满意的答案,提高了用户使用自动问答系统的体验。
为达上述目的,本发明第三方面实施例提出了另一种自动问答装置,包括:存储器、处理器及存储在存储器上并可在处理器上运行的计算机程序,其特征在于,所述处理器执行所述程序时实现如上所述的自动问答方法。
为了实现上述目的,本发明第四方面实施例提出了一种计算机可读存储介质,其上存储有计算机程序,该程序被处理器执行时实现如上所述的自动问答方法。
为了实现上述目的,本发明第五方面实施例提出了一种计算机程序产品,当所述计算机程序产品中的指令处理器执行时,执行一种自动问答方法,所述方法包括:
获取用户的提问语句,对所述提问语句进行分析,获取所述提问语句中的关键词;
根据所述关键词,判断所述提问语句的句法结构是否完整,以及判断所述提问语句中是否存在关键主题词;
在所述提问语句的句法结构完整且存在关键主题词时,将所述关键主题词与本体知识库中的主题词进行比对,判断所述本体知识库中是否存在与所述关键主题词匹配的第一主题词;所述本体知识库中包括:主题词集合,所述主题词集合中的每个主题词对应至少一个意图属性;所述意图属性表征所述用户提出提问语句的目的;所述意图属性的值表征提问语句的答案;
在所述本体知识库中存在所述第一主题词时,将所述提问语句中的关键词与所述第一主题词对应的至少一个意图属性进行比对,判断所述提问语句中是否存在与所述第一主题词对应的第一意图属性;
在所述提问语句中存在第一意图属性时,将所述第一意图属性的值确定为所述提问语句对应的答案,并提供给所述用户。
本发明附加的方面和优点将在下面的描述中部分给出,部分将从下面的描述中变得明显,或通过本发明的实践了解到。
附图说明
本发明上述的和/或附加的方面和优点从下面结合附图对实施例的描述中将变得明显和容易理解,其中:
图1为本发明一实施例提供的一种自动问答方法的流程示意图;
图2为本发明一实施例提供的另一种自动问答方法的流程示意图;
图3为本发明一实施例提供的另一种自动问答方法的流程示意图;
图4为本发明一实施例提供的另一种自动问答方法的流程示意图;
图5为本发明一实施例提供的一种自动问答装置的结构示意图;
图6为本发明一实施例提供的另一种自动问答装置的结构示意图;
图7为本发明一实施例提供的另一种自动问答装置的结构示意图。
具体实施方式
下面详细描述本发明的实施例,所述实施例的示例在附图中示出,其中自始至终相同或类似的标号表示相同或类似的元件或具有相同或类似功能的元件。下面通过参考附图描述的实施例是示例性的,旨在用于解释本发明,而不能理解为对本发明的限制。
下面参考附图描述本发明实施例的自动问答方法及装置。
图1为本发明一实施例提供的一种自动问答方法的流程示意图。如图1所示,该自动问答方法包括以下步骤:
S101、获取用户的提问语句,对提问语句进行分析,获取提问语句中的关键词。
本发明提供的自动问答方法的执行主体为自动问答装置,自动问答装置可以为终端设备或者终端设备对应的后台服务器,还可以为终端设备或者后台服务器上安装的软件。其中,终端设备例如,手机、电脑、自动问答器等,后台服务器例如后台电话服务器等。
本实施例中,用户可以通过文字或者语音等方式,将提问语句提供给自动问答装置,例如通过自动问答装置的键盘、输入编辑框、话筒等输入提问语句。自动问答装置获取到用户的提问语句后,可以利用句法分析工具,例如哈工大语言技术平台(LanguageTechnology Plantform,LTP)等对提问语句进行分词、去停用词和词性标注等操作,获取提问语句中的关键词。
S102、根据关键词,判断提问语句的句法结构是否完整,以及判断提问语句中是否存在关键主题词。
本实施例中,自动问答装置根据提问语句中各个关键词的词性确定提问语句中的句法结构是否完整,即提问语句中是否具备完整的主谓宾结构。自动问答装置还可以判断关键词中是否存在能够作为主题的关键主题词,例如缴费等。
S103、在提问语句的句法结构完整且存在关键主题词时,将关键主题词与本体知识库中的主题词进行比对,判断本体知识库中是否存在与关键主题词匹配的第一主题词;本体知识库中包括:主题词集合,主题词集合中的每个主题词对应至少一个意图属性;意图属性表征用户提出提问语句的目的;意图属性的值表征提问语句的答案。
本实施例中,步骤103之前,所述的方法还可以包括:创建本体知识库。创建本体知识库的过程具体可以为,收集大量的问题以及对应的答案,生成问题答案对集合,对问题答案对集合中的问题进行分词、去停用词和词性标注等操作,获取问题中的主题词、意图属性以及是非属性;根据问题中的主题词、意图属性以及是非属性,以及问题答案对集合,建立主题词、意图属性以及是非属性与答案之间的对应关系,生成本体知识库。
需要说明的是,本实施例中的本体知识库,可以为单个领域内的本体知识库,也可以为多个领域内的本体知识库。
另外,本体知识库中还可以包括:各主题词涉及的自定义属性,该自定义属性可以根据业务需求自行定义。例如,涉及维修业务,则需要定义该主题下故障可能涉及的所有属性。本体知识库中还可以包括:各主题词与其他主题词之间的关系,例如,包含、相关、相似、从属等。本体知识库中还可以包括:各主题词的客观描述,可以在结合补充答案以及提问语句无法得到用户意图的情况下使用。
S104、在本体知识库中存在第一主题词时,将提问语句中的关键词与第一主题词对应的至少一个意图属性进行比对,判断提问语句中是否存在与第一主题词对应的第一意图属性。
例如,在第一主题词为“缴费”的情况下,本体知识库中第一主题词对应的至少一个意图属性及其值可以如以下表1所示。
表1
意图属性 | 意图属性的值 |
What | 根据XXX物价局文件规定… |
When | 本年度正常收费是… |
How | 可以到XXX大厅现场办理,或者通过绑定微信公众号线上缴费 |
Who | XXX |
Where | 在XXX市XXX路… |
Howmuch | 单价为XXX元/月·平,计算方式为:建筑面积×XXX=应缴费用 |
Why | “” |
其中,将提问语句中的关键词与第一主题词对应的至少一个意图属性进行比对的过程具体可以为,将提问语句中的关键词与第一主题词对应的至少一个意图属性的模式集合进行比对,确定提问语句中是否存在与第一主题词对应的第一意图属性。各个意图属性的模式集合例如可以如以下表2所示。
表2
S105、在提问语句中存在第一意图属性时,将第一意图属性的值确定为提问语句对应的答案,并提供给用户。
本发明实施例的自动问答方法,通过获取用户的提问语句,对提问语句进行分析,获取提问语句中的关键词;根据关键词,判断提问语句的句法结构是否完整,以及判断提问语句中是否存在关键主题词;在提问语句的句法结构完整且存在关键主题词时,将关键主题词与本体知识库中的主题词进行比对,判断本体知识库中是否存在与关键主题词匹配的第一主题词;本体知识库中包括:主题词集合,主题词集合中的每个主题词对应至少一个意图属性;意图属性表征用户提出提问语句的目的;意图属性的值表征提问语句的答案;在本体知识库中存在第一主题词时,将提问语句中的关键词与第一主题词对应的至少一个意图属性进行比对,判断提问语句中是否存在与第一主题词对应的第一意图属性;在提问语句中存在第一意图属性时,将第一意图属性的值确定为提问语句对应的答案,并提供给所述用户,从而能够获取用户提问语句中的主题词以及意图,根据用户提问语句中的主题词以及意图,结合本体知识库,获取对应的答案,提高了获取到的答案的准确性,使得获取到的答案与提问语句的相关性较高,使得用户能够得到比较满意的答案,提高了用户使用自动问答系统的体验。
图2为本发明一实施例提供的一种自动问答方法的流程示意图。如图2所示,在图1所示实施例的基础上,该自动问答方法还包括以下步骤:
S106、在提问语句中不存在第一意图属性时,将提问语句中的关键词与是非问答对集合对应的是非属性进行比对,判断提问语句中是否存在是非属性。
其中,将提问语句中的关键词与是非问答对集合对应的是非属性进行比对的过程具体可以为,将提问语句中的关键词与是非问答对集合对应的是非属性的模式集合进行比对,确定提问语句中是否存在是非属性。是非属性的模式集合例如可以如以下表3所示。
表3
其中,是非问答对集合与是非属性的对应关系可以如以下表4所示。
表4
S107、若提问语句中存在是非属性,则获取提问语句与是非问答对集合中各个是非问题的相似度。
本实施例中,在提问语句中存在是非属性时,自动问答装置可以先针对提问语句中的关键词,获取所述关键词的同义词,得到扩展关键词集合;将扩展关键词集合与是非问答对集合中的是非问答对进行比对,获取与扩展关键词集合匹配的候选是非问答对集合;然后将提问语句与候选是非问答对集合中的是非问答对进行比对,获取提问语句与候选是非问答对集合中各个是非问题的相似度。
本实施例中,自动问答装置获取提问语句与候选是非问答对集合中各个是非问题的相似度的过程具体可以为,获取提问语句中的各个关键词的关键词向量,根据各个关键词向量生成提问语句向量;获取候选是非问答对集合中各个是非问题的向量。
本实施例中,提问语句与是非问答对集合中各个是非问题的相似度的计算方式可以为,关键词向量相似度计算,或者杰卡德相似度计算。
其中,在关键词向量相似度计算公式中,可以根据以下公式(1)计算提问语句向量与是非问题的向量之间的相似度。
其中,X表示提问语句;Y表示是非问题;表示提问语句向量;表示是非问题向量。
其中,可以根据以下公式(2)计算提问语句向量。
其中,表示提问语句中第一个关键词向量;表示提问语句中第n个关键词向量。
其中,在杰卡德相似度计算方式中,两个集合A和B交集元素的个数在A、B并集中所占的比例,称为这两个集合的杰卡德系数,用符号J(A,B)表示。杰卡德相似系数是衡量两个集合相似度的一种指标。本实施例中,可以采用以下公式(3)计算提问语句与是非问答对集合中各个是非问题的相似度。
sim(X,Y)=cos(x,y)+J(x,y) (3)
其中,x表示提问语句中的关键词集合,y表示是非问题中的关键词集合。
S108、根据提问语句与是非问答对集合中各个是非问题的相似度,确定与提问语句匹配的是非问答对,将匹配的是非问答对中的答案确定为提问语句对应的答案,并提供给用户。
本发明实施例的自动问答方法,通过获取用户的提问语句,对提问语句进行分析,获取提问语句中的关键词;根据关键词,判断提问语句的句法结构是否完整,以及判断提问语句中是否存在关键主题词;在提问语句的句法结构完整且存在关键主题词时,将关键主题词与本体知识库中的主题词进行比对,判断本体知识库中是否存在与关键主题词匹配的第一主题词;本体知识库中包括:主题词集合,主题词集合中的每个主题词对应至少一个意图属性;意图属性表征用户提出提问语句的目的;意图属性的值表征提问语句的答案;在本体知识库中存在第一主题词时,将提问语句中的关键词与第一主题词对应的至少一个意图属性进行比对,判断提问语句中是否存在与第一主题词对应的第一意图属性;在提问语句中不存在第一意图属性时,将提问语句中的关键词与是非问答对集合对应的是非属性进行比对,判断提问语句中是否存在是非属性;若提问语句中存在是非属性,则获取提问语句与是非问答对集合中各个是非问题的相似度;根据提问语句与是非问答对集合中各个是非问题的相似度,确定与提问语句匹配的是非问答对,将匹配的是非问答对中的答案确定为提问语句对应的答案,并提供给用户,从而能够获取用户提问语句中的主题词以及意图,在未确定意图的情况下,获取主题词对应的是非问答对集合,获取是非问答对集合中与提问语句相似度满足预设条件的是非问题,将该是非问题对应的答案确定为提问语句的答案,提高了获取到的答案的准确性,使得获取到的答案与提问语句的相关性较高,使得用户能够得到比较满意的答案,提高了用户使用自动问答系统的体验。
图3为本发明一实施例提供的一种自动问答方法的流程示意图。如图3所示,在图2所示实施例的基础上,该自动问答方法还可以包括以下步骤:
S109、在本体知识库中不存在与关键主题词匹配的第一主题词,或者提问语句中不存在第一意图属性和是非属性,或者提问语句的句法结构不完整且存在关键主题词时,获取提问语句中缺失的属性、主题词或者句子成分。
本实施例中,在本体知识库中不存在与关键主题词匹配的第一主题词时,提问语句中缺失的部分为主题词;在提问语句中不存在第一意图属性和是非属性时,提问语句中缺失的部分为意图属性或者是非属性;在提问语句的句法结构不完整且存在关键主题词时,提问语句中缺失的部分为句子成分。
S110、根据提问语句中缺失的属性、主题词或者句子成分,确定待询问的问题并提供所述用户,以获取待询问的问题对应的补充答案。
本实施例中,自动问答装置可以预先保存有与缺失部分对应的待询问问题。例如,在用户A的提问语句为“交费”的情况下,提问语句中缺失的部分为意图属性或者是非属性;自动问答装置针对缺失部分的待询问问题可以为“请问您需要了解关于资费的哪些问题?”,在用户提供的补充答案为“我需要交多少钱?”的情况下,自动问答装置确定用户询问的是主题词为交费,意图属性为howmuch的问题;进而获取本体知识库中“交费”主题词对应的“howmuch”意图属性的值“居民供热费单价为4.05元/月·平,计算方式为:建筑面积×4.05×6=应缴费用”作为提问语句的答案提供给用户。
本实施例中,若根据上述待询问问题进行询问未获取到缺失部分,自动问答装置可以获取多个待询问问题,直至获取到缺失部分或者询问次数超过预设询问次数为止。
S111、根据待询问的问题对应的补充答案以及提问语句,结合本体知识库,确定提问语句的第二主题词以及第二意图属性。
本实施例中,自动问答装置可以对提问语句以及补充答案进行分词、去停用词和词性标注等分析,获取提问语句的第二主题词以及第二意图属性。若未获取到第二意图属性,可以参考图2所示实施例进行处理。
S112、将本体知识库中第二主题词对应的第二意图属性的值,确定为提问语句对应的答案,并提供给用户。
本发明实施例的自动问答方法,通过获取用户的提问语句,对提问语句进行分析,获取提问语句中的关键词;根据关键词,判断提问语句的句法结构是否完整,以及判断提问语句中是否存在关键主题词;在提问语句的句法结构完整且存在关键主题词时,将关键主题词与本体知识库中的主题词进行比对,判断本体知识库中是否存在与关键主题词匹配的第一主题词;本体知识库中包括:主题词集合,主题词集合中的每个主题词对应至少一个意图属性;意图属性表征用户提出提问语句的目的;意图属性的值表征提问语句的答案;在本体知识库中不存在与关键主题词匹配的第一主题词,或者提问语句中不存在第一意图属性和是非属性,或者提问语句的句法结构不完整且存在关键主题词时,获取提问语句中缺失的属性、主题词或者句子成分;根据提问语句中缺失的属性、主题词或者句子成分,确定待询问的问题并提供用户,以获取待询问的问题对应的补充答案;根据待询问的问题对应的补充答案以及提问语句,结合本体知识库,确定提问语句的第二主题词以及第二意图属性;将本体知识库中第二主题词对应的第二意图属性的值,确定为提问语句对应的答案,并提供给用户,从而能够获取用户提问语句中的主题词以及意图,在未获取到主题词、意图或者句子成分缺失时,向用户询问问题以补充缺失部分,然后根据提问语句的主题词以及意图,结合本体知识库,获取对应的答案,提高了获取到的答案的准确性,使得获取到的答案与提问语句的相关性较高,使得用户能够得到比较满意的答案,提高了用户使用自动问答系统的体验。
图4为本发明一实施例提供的一种自动问答方法的流程示意图。如图4所示,在图1所示实施例的基础上,该自动问答方法还包括以下步骤:
S113、在提问语句中不存在关键主题词时,将提问语句输入预设的分类模型,获取提问语句的类型。
本实施例中,步骤113之前,自动问答装置可以先获取训练语料,训练语料中包括超过一定数量的问题以及所述问题的类型;将所述训练语料输入初始的分类模型,对初始的分类模型进行训练,得到所述预设的分类模型。其中,分类模型例如可以为时间递归神经网络模型,时间递归神经网络模型可以为双层长短期记忆(Long Short-Term Memory,LSTM)网络模型。分类模型例如还可以为向量机(libSVM),将提问语句中的特征关键词抽取出来,按照libSVM规范形式输入向量机,判别提问语句的类型。其中,关键词抽取可以通过使用TF-IDF,主题模型(topic modelling),以及RAKE算法实现。
S114、在提问语句的类型为知识咨询类型时,获取提问语句与领域扩展问答对集合中各个扩展问题的相似度。
本实施例中,领域扩展问答对集合中保存有最新更新的问题以及对应的答案。提问语句与领域扩展问答对集合中各个扩展问题的相似度的计算方法,可以参考图2所示实施例中提问语句与是非问题的相似度的计算方法,此处不再做详细说明。
另外,在提问语句的类型为闲聊类型时,
将提问语句输入预设的问答模型,获取提问语句对应的答案;或者,
获取提问语句与闲聊问答对集合中各个闲聊问题的相似度;根据提问语句与闲聊问答对集合中各个闲聊问题的相似度,确定与提问语句匹配的闲聊问答对;将匹配的闲聊问答对中的答案确定为提问语句对应的答案,并提供给用户。
本实施例中,自动问答装置可以预先根据训练语料对初始的问答模型进行训练,得到所述预设的问答模型;训练语料中可以包括:一定数量的闲聊问答对。
本实施例中,在提问语句的类型为闲聊类型时,结合闲聊问答对集合获取对应的答案,避免在用户想要闲聊时,一直询问用户知识相关问题,确定提问语句的主题词以及属性,提高用户使用自动问答系统的体验。
S115、根据提问语句与领域扩展问答对集合中各个扩展问题的相似度,确定是否存在与提问语句匹配的扩展问答对。
另外,所述的方法还可以包括:在不存在与提问语句匹配的扩展问答对时,获取提问语句中缺失的主题词、属性或者句子成分;根据提问语句中缺失的主题词、属性或者句子成分,确定待询问的问题并提供用户,以获取待询问的问题对应的补充答案;根据待询问的问题对应的补充答案以及提问语句,结合本体知识库,确定提问语句的第二主题词以及第二意图属性;将本体知识库中第二主题词对应的第二意图属性的值,确定为提问语句对应的答案,并提供给用户。
S116、在存在与提问语句匹配的扩展问答对时,将匹配的扩展问答对中的答案确定为提问语句对应的答案,并提供给用户。
本发明实施例的自动问答方法,通过获取用户的提问语句,对提问语句进行分析,获取提问语句中的关键词;根据关键词,判断提问语句的句法结构是否完整,以及判断提问语句中是否存在关键主题词;在提问语句中不存在关键主题词时,将提问语句输入预设的分类模型,获取提问语句的类型;在提问语句的类型为知识咨询类型时,获取提问语句与领域扩展问答对集合中各个扩展问题的相似度;根据提问语句与领域扩展问答对集合中各个扩展问题的相似度,确定是否存在与提问语句匹配的扩展问答对;在存在与提问语句匹配的扩展问答对时,将匹配的扩展问答对中的答案确定为提问语句对应的答案,并提供给用户,从而能够获取用户提问语句中的主题词以及意图,在提问语句中不包括主题词时,获取提问语句的类型,在提问语句的类型为知识咨询类型时,获取与提问语句具有一定相似度的扩展问题,将扩展问题的答案确定为提问语句的答案,提高了获取到的答案的准确性,使得获取到的答案与提问语句的相关性较高,使得用户能够得到比较满意的答案,提高了用户使用自动问答系统的体验。
图5为本发明一实施例提供的一种自动问答装置的结构示意图。如图5所示,包括:获取模块51、判断模块52、比对模块53和确定模块54。
其中,获取模块51,用于获取用户的提问语句,对所述提问语句进行分析,获取所述提问语句中的关键词;
判断模块52,用于根据所述关键词,判断所述提问语句的句法结构是否完整,以及判断所述提问语句中是否存在关键主题词;
比对模块53,用于在所述提问语句的句法结构完整且存在关键主题词时,将所述关键主题词与本体知识库中的主题词进行比对,判断所述本体知识库中是否存在与所述关键主题词匹配的第一主题词;所述本体知识库中包括:主题词集合,所述主题词集合中的每个主题词对应至少一个意图属性;所述意图属性表征所述用户提出提问语句的目的;所述意图属性的值表征提问语句的答案;
所述比对模块53,还用于在所述本体知识库中存在所述第一主题词时,将所述提问语句中的关键词与所述第一主题词对应的至少一个意图属性进行比对,判断所述提问语句中是否存在与所述第一主题词对应的第一意图属性;
确定模块54,用于在所述提问语句中存在第一意图属性时,将所述第一意图属性的值确定为所述提问语句对应的答案,并提供给所述用户。
本发明提供的自动问答装置可以为终端设备或者终端设备对应的后台服务器,还可以为终端设备或者后台服务器上安装的软件。其中,终端设备例如,手机、电脑、自动问答器等,后台服务器例如后台电话服务器等。
本实施例中,用户可以通过文字或者语音等方式,将提问语句提供给自动问答装置,例如通过自动问答装置的键盘、输入编辑框、话筒等输入提问语句。自动问答装置获取到用户的提问语句后,可以利用句法分析工具,例如哈工大语言技术平台(LanguageTechnology Plantform,LTP)等对提问语句进行分词、去停用词和词性标注等操作,获取提问语句中的关键词。
本实施例中,自动问答装置还可以用于,创建本体知识库。创建本体知识库的过程具体可以为,收集大量的问题以及对应的答案,生成问题答案对集合,对问题答案对集合中的问题进行分词、去停用词和词性标注等操作,获取问题中的主题词、意图属性以及是非属性;根据问题中的主题词、意图属性以及是非属性,以及问题答案对集合,建立主题词、意图属性以及是非属性与答案之间的对应关系,生成本体知识库。
进一步的,在上述实施例的基础上,所述比对模块53,还用于在所述提问语句中不存在第一意图属性时,将所述提问语句中的关键词与是非问答对集合对应的是非属性进行比对,判断所述提问语句中是否存在是非属性;
所述获取模块51,还用于在所述提问语句中存在是非属性时,获取所述提问语句与所述是非问答对集合中各个是非问题的相似度;
所述确定模块54,还用于根据所述提问语句与所述是非问答对集合中各个是非问题的相似度,确定与所述提问语句匹配的是非问答对,将匹配的是非问答对中的答案确定为所述提问语句对应的答案,并提供给所述用户。
本实施例中,在提问语句中存在是非属性时,自动问答装置可以先针对提问语句中的关键词,获取所述关键词的同义词,得到扩展关键词集合;将扩展关键词集合与是非问答对集合中的是非问答对进行比对,获取与扩展关键词集合匹配的候选是非问答对集合;然后将提问语句与候选是非问答对集合中的是非问答对进行比对,获取提问语句与候选是非问答对集合中各个是非问题的相似度。
本实施例中,自动问答装置获取提问语句与候选是非问答对集合中各个是非问题的相似度的过程具体可以为,获取提问语句中的各个关键词的关键词向量,根据各个关键词向量生成提问语句向量;获取候选是非问答对集合中各个是非问题的向量。
本实施例中,提问语句与是非问答对集合中各个是非问题的相似度的计算方式可以为,关键词向量相似度计算,或者杰卡德相似度计算。
进一步的,在上述实施例的基础上,所述获取模块51,还用于在所述本体知识库中不存在与所述关键主题词匹配的第一主题词,或者所述提问语句中不存在第一意图属性和是非属性,或者所述提问语句的句法结构不完整且存在关键主题词时,获取所述提问语句中缺失的属性、主题词或者句子成分;
所述确定模块54,还用于根据所述提问语句中缺失的属性、主题词或者句子成分,确定待询问的问题并提供所述用户,以获取所述待询问的问题对应的补充答案;
所述确定模块54,还用于根据所述待询问的问题对应的补充答案以及所述提问语句,结合所述本体知识库,确定所述提问语句的第二主题词以及第二意图属性;
所述确定模块54,还用于将所述本体知识库中第二主题词对应的第二意图属性的值,确定为所述提问语句对应的答案,并提供给所述用户。
本实施例中,在本体知识库中不存在与关键主题词匹配的第一主题词时,提问语句中缺失的部分为主题词;在提问语句中不存在第一意图属性和是非属性时,提问语句中缺失的部分为意图属性或者是非属性;在提问语句的句法结构不完整且存在关键主题词时,提问语句中缺失的部分为句子成分。
本实施例中,自动问答装置可以预先保存有与缺失部分对应的待询问问题。例如,在用户A的提问语句为“交费”的情况下,提问语句中缺失的部分为意图属性或者是非属性;自动问答装置针对缺失部分的待询问问题可以为“请问您需要了解关于资费的哪些问题?”,在用户提供的补充答案为“我需要交多少钱?”的情况下,自动问答装置确定用户询问的是主题词为交费,意图属性为howmuch的问题;进而获取本体知识库中“交费”主题词对应的“howmuch”意图属性的值“居民供热费单价为4.05元/月·平,计算方式为:建筑面积×4.05×6=应缴费用”作为提问语句的答案提供给用户。
本发明实施例的自动问答装置,通过获取用户的提问语句,对提问语句进行分析,获取提问语句中的关键词;根据关键词,判断提问语句的句法结构是否完整,以及判断提问语句中是否存在关键主题词;在提问语句的句法结构完整且存在关键主题词时,将关键主题词与本体知识库中的主题词进行比对,判断本体知识库中是否存在与关键主题词匹配的第一主题词;本体知识库中包括:主题词集合,主题词集合中的每个主题词对应至少一个意图属性;意图属性表征用户提出提问语句的目的;意图属性的值表征提问语句的答案;在本体知识库中存在第一主题词时,将提问语句中的关键词与第一主题词对应的至少一个意图属性进行比对,判断提问语句中是否存在与第一主题词对应的第一意图属性;在提问语句中存在第一意图属性时,将第一意图属性的值确定为提问语句对应的答案,并提供给所述用户,从而能够获取用户提问语句中的主题词以及意图,根据用户提问语句中的主题词以及意图,结合本体知识库,获取对应的答案,提高了获取到的答案的准确性,使得获取到的答案与提问语句的相关性较高,使得用户能够得到比较满意的答案,提高了用户使用自动问答系统的体验。
进一步的,结合参考图6,在上述实施例的基础上,所述的装置还可以包括:输入模块55;
所述输入模块55,用于在所述提问语句中不存在关键主题词时,将所述提问语句输入预设的分类模型,获取所述提问语句的类型;
所述获取模块51,还用于在所述提问语句的类型为知识咨询类型时,获取所述提问语句与领域扩展问答对集合中各个扩展问题的相似度;
所述确定模块54,还用于根据所述提问语句与领域扩展问答对集合中各个扩展问题的相似度,确定是否存在与所述提问语句匹配的扩展问答对;
所述确定模块54,还用于在存在与所述提问语句匹配的扩展问答对时,将匹配的扩展问答对中的答案确定为所述提问语句对应的答案,并提供给所述用户。
本实施例中,自动问答装置可以先获取训练语料,训练语料中包括超过一定数量的问题以及所述问题的类型;将所述训练语料输入初始的分类模型,对初始的分类模型进行训练,得到所述预设的分类模型。其中,分类模型例如可以为时间递归神经网络模型,时间递归神经网络模型可以为双层长短期记忆(Long Short-Term Memory,LSTM)网络模型。分类模型例如还可以为向量机(libSVM),将提问语句中的特征关键词抽取出来,按照libSVM规范形式输入向量机,判别提问语句的类型。其中,关键词抽取可以通过使用TF-IDF,主题模型(topic modelling),以及RAKE算法实现。
进一步的,在上述实施例的基础上,所述获取模块51,还用于在不存在与所述提问语句匹配的扩展问答对时,获取所述提问语句中缺失的主题词、属性或者句子成分;
所述确定模块54,还用于根据所述提问语句中缺失的主题词、属性或者句子成分,确定待询问的问题并提供所述用户,以获取所述待询问的问题对应的补充答案;
所述确定模块54,还用于根据所述待询问的问题对应的补充答案以及所述提问语句,结合所述本体知识库,确定所述提问语句的第二主题词以及第二意图属性;
所述确定模块54,还用于将所述本体知识库中第二主题词对应的第二意图属性的值,确定为所述提问语句对应的答案,并提供给所述用户。
进一步的,在上述实施例的基础上,所述获取模块51,还用于在所述提问语句的类型为闲聊类型时,
将所述提问语句输入预设的问答模型,获取所述提问语句对应的答案;或者,
获取所述提问语句与闲聊问答对集合中各个闲聊问题的相似度;根据所述提问语句与闲聊问答对集合中各个闲聊问题的相似度,确定与所述提问语句匹配的闲聊问答对;将匹配的闲聊问答对中的答案确定为所述提问语句对应的答案,并提供给所述用户。
本发明实施例的自动问答装置,通过获取用户的提问语句,对提问语句进行分析,获取提问语句中的关键词;根据关键词,判断提问语句的句法结构是否完整,以及判断提问语句中是否存在关键主题词;在提问语句中不存在关键主题词时,将提问语句输入预设的分类模型,获取提问语句的类型;在提问语句的类型为知识咨询类型时,获取提问语句与领域扩展问答对集合中各个扩展问题的相似度;根据提问语句与领域扩展问答对集合中各个扩展问题的相似度,确定是否存在与提问语句匹配的扩展问答对;在存在与提问语句匹配的扩展问答对时,将匹配的扩展问答对中的答案确定为提问语句对应的答案,并提供给用户,从而能够获取用户提问语句中的主题词以及意图,在提问语句中不包括主题词时,获取提问语句的类型,在提问语句的类型为知识咨询类型时,获取与提问语句具有一定相似度的扩展问题,将扩展问题的答案确定为提问语句的答案,提高了获取到的答案的准确性,使得获取到的答案与提问语句的相关性较高,使得用户能够得到比较满意的答案,提高了用户使用自动问答系统的体验。
图7为本发明一实施例提供的另一种自动问答装置的结构示意图。该自动问答装置包括:
存储器1001、处理器1002及存储在存储器1001上并可在处理器1002上运行的计算机程序。
处理器1002执行所述程序时实现上述实施例中提供的自动问答方法。
进一步地,自动问答装置还包括:
通信接口1003,用于存储器1001和处理器1002之间的通信。
存储器1001,用于存放可在处理器1002上运行的计算机程序。
存储器1001可能包含高速RAM存储器,也可能还包括非易失性存储器(non-volatile memory),例如至少一个磁盘存储器。
处理器1002,用于执行所述程序时实现上述实施例所述的自动问答方法。
如果存储器1001、处理器1002和通信接口1003独立实现,则通信接口1003、存储器1001和处理器1002可以通过总线相互连接并完成相互间的通信。所述总线可以是工业标准体系结构(Industry Standard Architecture,简称为ISA)总线、外部设备互连(Peripheral Component,简称为PCI)总线或扩展工业标准体系结构(Extended IndustryStandard Architecture,简称为EISA)总线等。所述总线可以分为地址总线、数据总线、控制总线等。为便于表示,图7中仅用一条粗线表示,但并不表示仅有一根总线或一种类型的总线。
可选的,在具体实现上,如果存储器1001、处理器1002及通信接口1003,集成在一块芯片上实现,则存储器1001、处理器1002及通信接口1003可以通过内部接口完成相互间的通信。
处理器1002可能是一个中央处理器(Central Processing Unit,简称为CPU),或者是特定集成电路(Application Specific Integrated Circuit,简称为ASIC),或者是被配置成实施本发明实施例的一个或多个集成电路。
本发明还提供一种非临时性计算机可读存储介质,其上存储有计算机程序,该程序被处理器执行时实现如上所述的自动问答方法。
本发明还提供一种计算机程序产品,当所述计算机程序产品中的指令处理器执行时,执行一种自动问答方法,所述方法包括:
获取用户的提问语句,对所述提问语句进行分析,获取所述提问语句中的关键词;
根据所述关键词,判断所述提问语句的句法结构是否完整,以及判断所述提问语句中是否存在关键主题词;
在所述提问语句的句法结构完整且存在关键主题词时,将所述关键主题词与本体知识库中的主题词进行比对,判断所述本体知识库中是否存在与所述关键主题词匹配的第一主题词;所述本体知识库中包括:主题词集合,所述主题词集合中的每个主题词对应至少一个意图属性;所述意图属性表征所述用户提出提问语句的目的;所述意图属性的值表征提问语句的答案;
在所述本体知识库中存在所述第一主题词时,将所述提问语句中的关键词与所述第一主题词对应的至少一个意图属性进行比对,判断所述提问语句中是否存在与所述第一主题词对应的第一意图属性;
在所述提问语句中存在第一意图属性时,将所述第一意图属性的值确定为所述提问语句对应的答案,并提供给所述用户。
在本说明书的描述中,参考术语“一个实施例”、“一些实施例”、“示例”、“具体示例”、或“一些示例”等的描述意指结合该实施例或示例描述的具体特征、结构、材料或者特点包含于本发明的至少一个实施例或示例中。在本说明书中,对上述术语的示意性表述不必须针对的是相同的实施例或示例。而且,描述的具体特征、结构、材料或者特点可以在任一个或多个实施例或示例中以合适的方式结合。此外,在不相互矛盾的情况下,本领域的技术人员可以将本说明书中描述的不同实施例或示例以及不同实施例或示例的特征进行结合和组合。
此外,术语“第一”、“第二”仅用于描述目的,而不能理解为指示或暗示相对重要性或者隐含指明所指示的技术特征的数量。由此,限定有“第一”、“第二”的特征可以明示或者隐含地包括至少一个该特征。在本发明的描述中,“多个”的含义是至少两个,例如两个,三个等,除非另有明确具体的限定。
流程图中或在此以其他方式描述的任何过程或方法描述可以被理解为,表示包括一个或更多个用于实现定制逻辑功能或过程的步骤的可执行指令的代码的模块、片段或部分,并且本发明的优选实施方式的范围包括另外的实现,其中可以不按所示出或讨论的顺序,包括根据所涉及的功能按基本同时的方式或按相反的顺序,来执行功能,这应被本发明的实施例所属技术领域的技术人员所理解。
在流程图中表示或在此以其他方式描述的逻辑和/或步骤,例如,可以被认为是用于实现逻辑功能的可执行指令的定序列表,可以具体实现在任何计算机可读介质中,以供指令执行系统、装置或设备(如基于计算机的系统、包括处理器的系统或其他可以从指令执行系统、装置或设备取指令并执行指令的系统)使用,或结合这些指令执行系统、装置或设备而使用。就本说明书而言,"计算机可读介质"可以是任何可以包含、存储、通信、传播或传输程序以供指令执行系统、装置或设备或结合这些指令执行系统、装置或设备而使用的装置。计算机可读介质的更具体的示例(非穷尽性列表)包括以下:具有一个或多个布线的电连接部(电子装置),便携式计算机盘盒(磁装置),随机存取存储器(RAM),只读存储器(ROM),可擦除可编辑只读存储器(EPROM或闪速存储器),光纤装置,以及便携式光盘只读存储器(CDROM)。另外,计算机可读介质甚至可以是可在其上打印所述程序的纸或其他合适的介质,因为可以例如通过对纸或其他介质进行光学扫描,接着进行编辑、解译或必要时以其他合适方式进行处理来以电子方式获得所述程序,然后将其存储在计算机存储器中。
应当理解,本发明的各部分可以用硬件、软件、固件或它们的组合来实现。在上述实施方式中,多个步骤或方法可以用存储在存储器中且由合适的指令执行系统执行的软件或固件来实现。如,如果用硬件来实现和在另一实施方式中一样,可用本领域公知的下列技术中的任一项或他们的组合来实现:具有用于对数据信号实现逻辑功能的逻辑门电路的离散逻辑电路,具有合适的组合逻辑门电路的专用集成电路,可编程门阵列(PGA),现场可编程门阵列(FPGA)等。
本技术领域的普通技术人员可以理解实现上述实施例方法携带的全部或部分步骤是可以通过程序来指令相关的硬件完成,所述的程序可以存储于一种计算机可读存储介质中,该程序在执行时,包括方法实施例的步骤之一或其组合。
此外,在本发明各个实施例中的各功能单元可以集成在一个处理模块中,也可以是各个单元单独物理存在,也可以两个或两个以上单元集成在一个模块中。上述集成的模块既可以采用硬件的形式实现,也可以采用软件功能模块的形式实现。所述集成的模块如果以软件功能模块的形式实现并作为独立的产品销售或使用时,也可以存储在一个计算机可读取存储介质中。
上述提到的存储介质可以是只读存储器,磁盘或光盘等。尽管上面已经示出和描述了本发明的实施例,可以理解的是,上述实施例是示例性的,不能理解为对本发明的限制,本领域的普通技术人员在本发明的范围内可以对上述实施例进行变化、修改、替换和变型。
Claims (15)
1.一种自动问答方法,其特征在于,包括:
获取用户的提问语句,对所述提问语句进行分析,获取所述提问语句中的关键词;
根据所述关键词,判断所述提问语句的句法结构是否完整,以及判断所述提问语句中是否存在关键主题词;
在所述提问语句的句法结构完整且存在关键主题词时,将所述关键主题词与本体知识库中的主题词进行比对,判断所述本体知识库中是否存在与所述关键主题词匹配的第一主题词;所述本体知识库中包括:主题词集合,所述主题词集合中的每个主题词对应至少一个意图属性;所述意图属性表征所述用户提出提问语句的目的;所述意图属性的值表征提问语句的答案;
在所述本体知识库中存在所述第一主题词时,将所述提问语句中的关键词与所述第一主题词对应的至少一个意图属性进行比对,判断所述提问语句中是否存在与所述第一主题词对应的第一意图属性;
在所述提问语句中存在第一意图属性时,将所述第一意图属性的值确定为所述提问语句对应的答案,并提供给所述用户。
2.根据权利要求1所述的方法,其特征在于,还包括:
在所述提问语句中不存在第一意图属性时,将所述提问语句中的关键词与是非问答对集合对应的是非属性进行比对,判断所述提问语句中是否存在是非属性;
若所述提问语句中存在是非属性,则获取所述提问语句与所述是非问答对集合中各个是非问题的相似度;
根据所述提问语句与所述是非问答对集合中各个是非问题的相似度,确定与所述提问语句匹配的是非问答对,将匹配的是非问答对中的答案确定为所述提问语句对应的答案,并提供给所述用户。
3.根据权利要求2所述的方法,其特征在于,还包括:
在所述本体知识库中不存在与所述关键主题词匹配的第一主题词,或者所述提问语句中不存在第一意图属性和是非属性,或者所述提问语句的句法结构不完整且存在关键主题词时,获取所述提问语句中缺失的属性、主题词或者句子成分;
根据所述提问语句中缺失的属性、主题词或者句子成分,确定待询问的问题并提供给所述用户,以获取所述待询问的问题对应的补充答案;
根据所述待询问的问题对应的补充答案以及所述提问语句,结合所述本体知识库,确定所述提问语句的第二主题词以及第二意图属性;
将所述本体知识库中第二主题词对应的第二意图属性的值,确定为所述提问语句对应的答案,并提供给所述用户。
4.根据权利要求1所述的方法,其特征在于,还包括:
在所述提问语句中不存在关键主题词时,将所述提问语句输入预设的分类模型,获取所述提问语句的类型;
在所述提问语句的类型为知识咨询类型时,获取所述提问语句与领域扩展问答对集合中各个扩展问题的相似度;
根据所述提问语句与领域扩展问答对集合中各个扩展问题的相似度,确定是否存在与所述提问语句匹配的扩展问答对;
在存在与所述提问语句匹配的扩展问答对时,将匹配的扩展问答对中的答案确定为所述提问语句对应的答案,并提供给所述用户。
5.根据权利要求4所述的方法,其特征在于,还包括:
在不存在与所述提问语句匹配的扩展问答对时,获取所述提问语句中缺失的主题词、属性或者句子成分;
根据所述提问语句中缺失的主题词、属性或者句子成分,确定待询问的问题并提供给所述用户,以获取所述待询问的问题对应的补充答案;
根据所述待询问的问题对应的补充答案以及所述提问语句,结合所述本体知识库,确定所述提问语句的第二主题词以及第二意图属性;
将所述本体知识库中第二主题词对应的第二意图属性的值,确定为所述提问语句对应的答案,并提供给所述用户。
6.根据权利要求4所述的方法,其特征在于,还包括:
在所述提问语句的类型为闲聊类型时,
将所述提问语句输入预设的问答模型,获取所述提问语句对应的答案;或者,
获取所述提问语句与闲聊问答对集合中各个闲聊问题的相似度;根据所述提问语句与闲聊问答对集合中各个闲聊问题的相似度,确定与所述提问语句匹配的闲聊问答对;将匹配的闲聊问答对中的答案确定为所述提问语句对应的答案,并提供给所述用户。
7.根据权利要求2所述的方法,其特征在于,所述提问语句与所述是非问答对集合中各个是非问题的相似度的计算方式为,关键词向量相似度计算,或者杰卡德相似度计算。
8.一种自动问答装置,其特征在于,包括:
获取模块,用于获取用户的提问语句,对所述提问语句进行分析,获取所述提问语句中的关键词;
判断模块,用于根据所述关键词,判断所述提问语句的句法结构是否完整,以及判断所述提问语句中是否存在关键主题词;
比对模块,用于在所述提问语句的句法结构完整且存在关键主题词时,将所述关键主题词与本体知识库中的主题词进行比对,判断所述本体知识库中是否存在与所述关键主题词匹配的第一主题词;所述本体知识库中包括:主题词集合,所述主题词集合中的每个主题词对应至少一个意图属性;所述意图属性表征所述用户提出提问语句的目的;所述意图属性的值表征提问语句的答案;
所述比对模块,还用于在所述本体知识库中存在所述第一主题词时,将所述提问语句中的关键词与所述第一主题词对应的至少一个意图属性进行比对,判断所述提问语句中是否存在与所述第一主题词对应的第一意图属性;
确定模块,用于在所述提问语句中存在第一意图属性时,将所述第一意图属性的值确定为所述提问语句对应的答案,并提供给所述用户。
9.根据权利要求8所述的装置,其特征在于,
所述比对模块,还用于在所述提问语句中不存在第一意图属性时,将所述提问语句中的关键词与是非问答对集合对应的是非属性进行比对,判断所述提问语句中是否存在是非属性;
所述获取模块,还用于在所述提问语句中存在是非属性时,获取所述提问语句与所述是非问答对集合中各个是非问题的相似度;
所述确定模块,还用于根据所述提问语句与所述是非问答对集合中各个是非问题的相似度,确定与所述提问语句匹配的是非问答对,将匹配的是非问答对中的答案确定为所述提问语句对应的答案,并提供给所述用户。
10.根据权利要求9所述的装置,其特征在于,
所述获取模块,还用于在所述本体知识库中不存在与所述关键主题词匹配的第一主题词,或者所述提问语句中不存在第一意图属性和是非属性,或者所述提问语句的句法结构不完整且存在关键主题词时,获取所述提问语句中缺失的属性、主题词或者句子成分;
所述确定模块,还用于根据所述提问语句中缺失的属性、主题词或者句子成分,确定待询问的问题并提供给所述用户,以获取所述待询问的问题对应的补充答案;
所述确定模块,还用于根据所述待询问的问题对应的补充答案以及所述提问语句,结合所述本体知识库,确定所述提问语句的第二主题词以及第二意图属性;
所述确定模块,还用于将所述本体知识库中第二主题词对应的第二意图属性的值,确定为所述提问语句对应的答案,并提供给所述用户。
11.根据权利要求8所述的装置,其特征在于,还包括:输入模块;
所述输入模块,用于在所述提问语句中不存在关键主题词时,将所述提问语句输入预设的分类模型,获取所述提问语句的类型;
所述获取模块,还用于在所述提问语句的类型为知识咨询类型时,获取所述提问语句与领域扩展问答对集合中各个扩展问题的相似度;
所述确定模块,还用于根据所述提问语句与领域扩展问答对集合中各个扩展问题的相似度,确定是否存在与所述提问语句匹配的扩展问答对;
所述确定模块,还用于在存在与所述提问语句匹配的扩展问答对时,将匹配的扩展问答对中的答案确定为所述提问语句对应的答案,并提供给所述用户。
12.根据权利要求11所述的装置,其特征在于,
所述获取模块,还用于在不存在与所述提问语句匹配的扩展问答对时,获取所述提问语句中缺失的主题词、属性或者句子成分;
所述确定模块,还用于根据所述提问语句中缺失的主题词、属性或者句子成分,确定待询问的问题并提供给所述用户,以获取所述待询问的问题对应的补充答案;
所述确定模块,还用于根据所述待询问的问题对应的补充答案以及所述提问语句,结合所述本体知识库,确定所述提问语句的第二主题词以及第二意图属性;
所述确定模块,还用于将所述本体知识库中第二主题词对应的第二意图属性的值,确定为所述提问语句对应的答案,并提供给所述用户。
13.根据权利要求11所述的装置,其特征在于,
所述获取模块,还用于在所述提问语句的类型为闲聊类型时,
将所述提问语句输入预设的问答模型,获取所述提问语句对应的答案;或者,
获取所述提问语句与闲聊问答对集合中各个闲聊问题的相似度;根据所述提问语句与闲聊问答对集合中各个闲聊问题的相似度,确定与所述提问语句匹配的闲聊问答对;将匹配的闲聊问答对中的答案确定为所述提问语句对应的答案,并提供给所述用户。
14.根据权利要求9所述的装置,其特征在于,所述提问语句与所述是非问答对集合中各个是非问题的相似度的计算方式为,关键词向量相似度计算,或者杰卡德相似度计算。
15.一种非临时性计算机可读存储介质,其上存储有计算机程序,其特征在于,该程序被处理器执行时实现如权利要求1-7中任一项所述的自动问答方法。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN201711172339.XA CN107977415B (zh) | 2017-11-22 | 2017-11-22 | 自动问答方法及装置 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN201711172339.XA CN107977415B (zh) | 2017-11-22 | 2017-11-22 | 自动问答方法及装置 |
Publications (2)
Publication Number | Publication Date |
---|---|
CN107977415A CN107977415A (zh) | 2018-05-01 |
CN107977415B true CN107977415B (zh) | 2019-02-05 |
Family
ID=62010890
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN201711172339.XA Active CN107977415B (zh) | 2017-11-22 | 2017-11-22 | 自动问答方法及装置 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN107977415B (zh) |
Families Citing this family (26)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN108897867B (zh) * | 2018-06-29 | 2021-02-09 | 北京百度网讯科技有限公司 | 用于知识问答的数据处理方法、装置、服务器和介质 |
CN109033075B (zh) * | 2018-06-29 | 2022-04-15 | 北京百度网讯科技有限公司 | 意图匹配的方法、装置、存储介质和终端设备 |
CN109033305B (zh) * | 2018-07-16 | 2022-04-01 | 深圳前海微众银行股份有限公司 | 问题回答方法、设备及计算机可读存储介质 |
CN109213847A (zh) * | 2018-09-14 | 2019-01-15 | 广州神马移动信息科技有限公司 | 答案的分层方法及其装置、电子设备、计算机可读介质 |
CN109460452A (zh) * | 2018-10-10 | 2019-03-12 | 长沙师范学院 | 基于本体的智能客服系统 |
CN111125320A (zh) * | 2018-10-31 | 2020-05-08 | 重庆小雨点小额贷款有限公司 | 数据处理方法、装置、服务器及计算机可读存储介质 |
CN111159363A (zh) * | 2018-11-06 | 2020-05-15 | 航天信息股份有限公司 | 一种基于知识库的问题答案确定方法及装置 |
CN109635088A (zh) * | 2018-12-13 | 2019-04-16 | 深圳市思迪信息技术股份有限公司 | 机器人长文本数据聊天的训练方法及装置 |
CN111382244B (zh) * | 2018-12-29 | 2023-04-14 | 深圳市优必选科技有限公司 | 一种深度检索匹配分类方法、装置及终端设备 |
CN111428010B (zh) * | 2019-01-10 | 2024-01-12 | 北京汇钧科技有限公司 | 人机智能问答的方法和装置 |
CN109753561B (zh) * | 2019-01-16 | 2021-04-27 | 长安汽车金融有限公司 | 一种自动回复的生成方法及装置 |
CN109933653A (zh) * | 2019-01-24 | 2019-06-25 | 平安科技(深圳)有限公司 | 问答系统的问答查询方法、系统及计算机设备 |
CN109902087B (zh) * | 2019-02-02 | 2023-05-30 | 上海来也伯特网络科技有限公司 | 用于问答的数据处理方法及装置、服务器 |
CN110096584B (zh) * | 2019-05-14 | 2021-10-15 | 京东数字科技控股有限公司 | 一种应答方法和装置 |
CN110444292B (zh) * | 2019-07-29 | 2022-04-08 | 北京爱医生智慧医疗科技有限公司 | 信息问答方法及系统 |
US11526804B2 (en) * | 2019-08-27 | 2022-12-13 | Bank Of America Corporation | Machine learning model training for reviewing documents |
CN110674272B (zh) * | 2019-09-05 | 2022-12-06 | 科大讯飞股份有限公司 | 一种问题答案确定方法及相关装置 |
CN111368043A (zh) * | 2020-02-19 | 2020-07-03 | 中国平安人寿保险股份有限公司 | 基于人工智能的事件问答方法、装置、设备及存储介质 |
CN111368045B (zh) * | 2020-02-21 | 2024-05-07 | 平安科技(深圳)有限公司 | 用户意图识别方法、装置、设备及计算机可读存储介质 |
CN111897930A (zh) * | 2020-06-13 | 2020-11-06 | 南京奥拓电子科技有限公司 | 一种自动问答方法与系统、智能设备及存储介质 |
CN111914062B (zh) * | 2020-07-13 | 2021-04-06 | 上海乐言科技股份有限公司 | 一种基于关键词的长文本问答对生成系统 |
CN112052324B (zh) * | 2020-09-15 | 2025-01-21 | 深圳平安医疗健康科技服务有限公司 | 智能问答的方法、装置和计算机设备 |
CN113158690B (zh) * | 2021-03-15 | 2024-05-17 | 京东科技信息技术有限公司 | 对话机器人的测试方法和装置 |
CN112989014A (zh) * | 2021-04-30 | 2021-06-18 | 武汉龙津科技有限公司 | 对话处理方法、装置、电子设备及可读存储介质 |
CN113282733B (zh) * | 2021-06-11 | 2024-04-09 | 上海寻梦信息技术有限公司 | 客服问题匹配方法、系统、设备及存储介质 |
CN115840808B (zh) * | 2022-12-27 | 2023-08-11 | 广州汉申科技中介服务有限公司 | 科技项目咨询方法、装置、服务器及计算机可读存储介质 |
Family Cites Families (5)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CA2487739A1 (en) * | 2002-05-28 | 2003-12-04 | Vladimir Vladimirovich Nasypny | Method for synthesising a self-learning system for knowledge acquisition for text-retrieval systems |
CN102722558B (zh) * | 2012-05-29 | 2016-08-03 | 百度在线网络技术(北京)有限公司 | 一种为用户推荐提问的方法和装置 |
CN104978396A (zh) * | 2015-06-02 | 2015-10-14 | 百度在线网络技术(北京)有限公司 | 一种基于知识库的问答题目生成方法和装置 |
CN106095932B (zh) * | 2016-06-13 | 2019-12-20 | 竹间智能科技(上海)有限公司 | 百科知识问句识别方法及装置 |
CN106997399A (zh) * | 2017-05-24 | 2017-08-01 | 海南大学 | 一种基于数据图谱、信息图谱、知识图谱和智慧图谱关联架构的分类问答系统设计方法 |
-
2017
- 2017-11-22 CN CN201711172339.XA patent/CN107977415B/zh active Active
Also Published As
Publication number | Publication date |
---|---|
CN107977415A (zh) | 2018-05-01 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
CN107977415B (zh) | 自动问答方法及装置 | |
CN108804641B (zh) | 一种文本相似度的计算方法、装置、设备和存储介质 | |
Berry et al. | The case for dumb requirements engineering tools | |
WO2019084810A1 (zh) | 一种信息处理方法及终端、计算机存储介质 | |
CN103150333B (zh) | 微博媒体中的意见领袖识别方法 | |
CN112667794A (zh) | 一种基于孪生网络bert模型的智能问答匹配方法及系统 | |
CN109657232A (zh) | 一种意图识别方法 | |
CN111339284A (zh) | 产品智能匹配方法、装置、设备及可读存储介质 | |
CN108960574A (zh) | 问答的质量确定方法、装置、服务器和存储介质 | |
CN111783424B (zh) | 一种文本分句方法和装置 | |
Wang et al. | Automatic detection of ambiguous terminology for software requirements | |
CN112288584B (zh) | 保险报案处理方法、装置、计算机可读介质及电子设备 | |
CN110795544B (zh) | 内容搜索方法、装置、设备和存储介质 | |
CN116561288B (zh) | 事件查询方法、装置、计算机设备、存储介质及程序产品 | |
CN111274822A (zh) | 语义匹配方法、装置、设备及存储介质 | |
CN113157887B (zh) | 知识问答意图识别方法、装置、及计算机设备 | |
CN113434653A (zh) | 处理查询语句的方法、装置、设备及存储介质 | |
CN106407316A (zh) | 基于主题模型的软件问答推荐方法和装置 | |
CN117828042A (zh) | 用于金融服务的问答处理方法、装置、设备及介质 | |
CN117725169A (zh) | 基于大模型和知识指导的法律问答方法和装置 | |
CN117076636A (zh) | 一种智能客服的信息查询方法、系统和设备 | |
CN112163415B (zh) | 针对反馈内容的用户意图识别方法、装置及电子设备 | |
CN109189910B (zh) | 一种面向移动应用问题报告的标签自动推荐方法 | |
CN118035397A (zh) | 一种数据处理方法、装置、电子设备及存储介质 | |
CN116955559A (zh) | 问答匹配方法、装置、电子设备及存储介质 |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination | ||
GR01 | Patent grant | ||
GR01 | Patent grant |