CN111417940B

CN111417940B - 用于生成问题答案的方法、系统和介质

Info

Publication number: CN111417940B
Application number: CN201880077803.3A
Authority: CN
Inventors: J.W.默多克; 河银英; 杭仲玮; K.哈桑; N.马坎戴亚; C.M.诺兰; 潘林; S.P.佩迪; M.D.斯威夫特
Original assignee: International Business Machines Corp
Current assignee: International Business Machines Corp
Priority date: 2017-12-15
Filing date: 2018-12-12
Publication date: 2023-11-14
Anticipated expiration: 2038-12-12
Also published as: DE112018006345T5; US20190188271A1; GB202009777D0; US10810215B2; WO2019116253A1; JP7232831B2; GB2581464A; JP2021507350A; CN111417940A

Abstract

用于生成问题答案的系统和方法。一种方法包括：接收具有疑问术语的问题；确定具有答案术语的所述问题的候选答案；搜索数据源以确定在所述候选答案中包括所述疑问术语或所述答案术语的段落；使用评分机制对所述候选答案的所述段落进行评分，所述评分机制计算所述段落与所述疑问术语的第一相关程度，计算所述段落与所述候选答案之一的所述答案术语的第二相关程度，并确定通过将所述第一相关度和所述第二相关度相结合来获得段落分数；根据与每个所述候选答案的每个所述段落评分相关的所述分数对所述问题的候选答案进行排名；并根据所述候选答案的排名为所述问题提供答案。

Description

用于生成问题答案的方法、系统和介质

技术领域

本文描述的实施例涉及用于信息搜索的系统和方法。更具体地说，本文描述的实施例涉及处理搜索到的证据的查询结果。

发明内容

为问题的答案评分的方法之一包括在包含那些答案的段落中搜索证据并对这些证据评分。如果答案是单个具体实体，通常具有一个单词(例如，一个名称)或带有少量变体的短语，则此方法效果很好。例如，给定问题“纽约的首府是哪里？”答案“Albany”可以对包含“Albany”一词并支持所述问题答案的段落执行支持证据搜索，并且他们会计算所述段落回答所述问题的累计分数。但是，上述方法可能不适用于与可以用许多不同方式表达的更长、更复杂的答案相关的问题。例如，考虑到“为什么黄金价格昂贵”的问题，而候选者回答“因为它价高、美观并且在制作珠宝中非常有用”，那么期望一个数据集包含许多(如果有的话)文件其完全包含上面提供的完整答案是不现实的。

为了解决这些和其他问题，本文描述的实施例提供了用于生成问题答案的系统和方法。在本文提供的系统和方法中，将答案中的术语设置为可选，以便支持证据搜索可以找到可能仅部分包含被评分的答案的段落。而且，段落评分者不仅用于确定段落回答问题的程度，而且用于确定段落指代候选答案的程度。因此，本文中所描述的系统和方法提供了一种改进的问题答案(QA)系统，与先前的设计和技术相比，所述系统能够针对有效的问题的复杂答案生成支持证据。

例如，一个实施例提供一种用于生成问题答案的系统。所述系统包括电子处理器，所述电子处理器被配置为接收具有多个疑问术语的问题并识别对所述问题的多个候选答案，其中，所述多个候选答案中的每一个都包括多个答案术语。所述电子处理器还被配置为针对所述多个候选答案中的每一个搜索多个数据源以确定支持证据段落，所述证据段落包括所述多个疑问术语中的一个或多个中的至少一个，以及包含在候选答案中的所述多个疑问术语中的一个或多个。所述电子处理器还被配置为针对多个候选答案中的每一个对每个所述支持证据段落使用评分机制进行评分。所述评分机制包括计算所述支持证据段落与所述多个疑问术语的第一相关度，计算所述支持证据段落与多个候选答案中的一个的所述多个答案术语的相关性的第二相关度。所述评分机制还包括通过组合所述第一相关度和所述第二相关度来确定所述支持证据的分数。所述电子处理器还被配置为基于与针对所述多个候选答案中的每一个对每个支持证据段落进行评分相关联的分数来对所述问题的多个候选答案进行排名，并且基于对所述多个候选答案的排名来提供对所述问题的答案。

另一个实施例提供了一种用于生成问题答案的方法。所述方法包括：接收具有多个疑问术语的问题；识别对所述问题的多个候选答案，其中所述多个候选答案中的每一个包括多个答案术语。所述方法还包括针对所述多个候选答案中的每一个搜索多个数据源以确定支持证据段落，所述支持证据段落包括所述多个疑问术语中一个或多个的至少一个，以及所述候选答案中包含的所述多个答案术语的一个或多个。所述方法还包括使用评分机制针对所述多个候选答案中的每一个对每个所述支持证据段落进行评分，所述评分机制计算所述支持证据段落与所述多个疑问术语的第一相关度，计算所述支持证据段落与多个候选答案中的一个的所述多个答案术语的相关性的第二相关度，并通过结合所述第一相关度和所述第二相关度来确定支持证据段落的分数。所述方法还包括基于与对所述多个候选答案中的每一个对每个所述支持证据段落所述评分相关联的所述分数来对所述问题的所述多个候选答案进行排名，以及基于所述多个候选答案的排名来提供对所述问题的答案。

另一实施例提供一种存储指令的非暂时性计算机可读介质，所述指令在由电子处理器执行时执行一组功能。所述组功能包括：接收具有多个疑问术语的问题；识别对所述问题的多个候选答案，其中所述多个候选答案中的每一个包括多个答案术语。所述方法还包括针对所述多个候选答案中的每一个搜索多个数据源以确定支持证据段落，所述支持证据段落包括所述多个疑问术语中一个或多个的至少一个，以及所述候选答案中包含的所述多个答案术语的一个或多个。所述方法还包括使用评分机制针对所述多个候选答案中的每一个对每个所述支持证据段落进行评分，所述评分机制计算所述支持证据段落与所述多个疑问术语的第一相关度，计算所述支持证据段落与多个候选答案中的一个的所述多个答案术语的相关性的第二相关度，并通过结合所述第一相关度和所述第二相关度来确定支持证据段落的分数。所述方法还包括基于与对所述多个候选答案中的每一个对每个所述支持证据段落所述评分相关联的所述分数来对所述问题的所述多个候选答案进行排名，以及基于所述多个候选答案的排名来提供对所述问题的答案。

通过考虑详细描述和附图，本发明的其他方面将变得显而易见。

附图说明

图1示出了根据一些实施例的问答(QA)系统的示意图。

图2是根据一些实施例的包括在图1的QA系统中的计算设备的框图。

图3A是根据一些实施例的图1的QA系统的体系结构的系统图。

图3B是根据一些实施例的在图3A的系统图中表示的QA系统的操作图。

图4是图1的QA系统中包括的依赖于内容的候选答案处理模块的图。

图5是根据一些实施例的由图1的QA系统执行的用于处理问题和候选答案的方法的流程图。

图6是示出根据一些实施例的，图5中的用于生成由QA系统执行的问题的答案的方法的进一步细节的流程图。

具体实施方式

在以下描述和附图中描述和示出了一个或多个实施例。这些实施例不限于本文提供的具体细节，并且可以以各种方式进行修改。此外，可能存在本文未描述的其他实施例。而且，本文描述为由一个组件执行的功能可以由多个组件以分布式方式执行。同样，多个组件执行的功能可以合并并由单个组件执行。类似地，被描述为执行特定功能的组件也可以执行本文未描述的附加功能。例如，以某种方式“配置”的设备或结构至少以这种方式配置，但是也可以以未列出的方式配置。此外，本文描述的一些实施例可以包括一个或多个电子处理器，被配置为通过执行存储在非暂时性计算机可读介质中的指令来执行所描述的功能。类似地，本文描述的实施例可以被实现为存储可由一个或多个电子处理器执行以执行所描述的功能的指令的非暂时性计算机可读介质。如本申请中所使用的，“非暂时性计算机可读介质”包括所有计算机可读介质，但是不包括暂时性的传播信号。因此，非暂时性计算机可读介质可以包括例如硬盘、CD-ROM、光存储设备、磁存储设备、ROM(只读存储器)、RAM(随机存取存储器)、寄存器存储器、处理器高速缓存或其任何组合。

另外，本文所使用的措词和术语是出于描述的目的，并且不应被视为限制。例如，本文中“包括”、“包含”、“包含”、“具有”及其变体的使用意味着涵盖其后列出的项目及其等同物以及其他项目。术语“连接”和“耦合”被广泛地使用，并且包括直接和间接连接和耦合。此外，“连接”和“耦接”不限于物理或机械连接或耦接，并且可以包括直接或间接的电连接或耦接。此外，可以使用有线连接、无线连接或它们的组合，并且可以直接或通过一个或多个中间设备在各种类型的网络、通信信道和连接上进行传输。而且，诸如第一和第二、顶部和底部等的关系术语在本文中可以仅用于将一个实体或动作与另一实体或动作区分开，而不必要求或暗示在这些实体或动作之间的任何实际的这种关系或顺序。

另外，应当理解，以下描述将多个不同示例用于说明性实施例的各个元件，以进一步说明说明性实施例的示例实现，并有助于理解说明性实施例的机制。这些示例旨在是非限制性的，并且并不穷举用于实现说明性实施例的机制的各种可能性。鉴于本说明书，对于本领域普通技术人员而言显而易见的是，除了本文所提供的示例之外或替代本文所提供的示例，还可以利用这些各种要素的许多其他替代实施方式，而不脱离本发明的的精神和范围。

作为概述，问题回答系统(QA)是在数据处理硬件(如图2所示)上执行的人工智能应用程序，其回答与以自然语言呈现的给定主题领域相关的问题。所述QA系统从各种来源接收输入，包括通过网络的输入、电子文档或其他数据集、来自内容创建者的数据、来自一个或多个内容用户的信息以及来自其他可能的输入来源的其他此类输入。数据存储设备存储数据语料库。内容创建者在文档中创建内容，以用作所述QA系统的数据语料库的一部分。所述文档可以包括要在QA系统中使用的任何文件、文本、文章或数据源。例如，QA系统访问有关领域或主题领域(例如，金融领域、医学领域、法律领域等)的知识体系，在所述领域中，知识体系(知识库)可以以各种配置进行组织，例如但不限于特定于域的信息的结构化存储库，例如本体或与所述域相关的非结构化数据，或者有关所述域的自然语言文档的集合。

内容用户向所述QA系统输入问题，并且所述QA系统使用数据语料库中的内容通过评估文档、文档区块、语料库中的数据部分等来回答所述输入问题。在评估文档的给定区块的语义内容期间，可以使用多种约定从所述QA系统查询此类文档(例如，将所述查询作为格式正确的问题发送到所述QA系统，然后由QA系统解释，并提供一个包含一个或多个所述问题答案的回复)。语义内容是基于指示符(例如单词、短语、标记和符号)之间的关系以及它们所代表的含义、意义或内涵。换句话说，语义内容是解释表达的内容，例如使用自然语言处理。

例如，如以下将更详细描述的，所述QA系统接收输入问题、解析所述问题以提取所述问题的主要特征，使用所述提取的特征来制定查询，然后将这些查询应用于所述数据语料库。根据所述查询对所述数据语料库的应用，所述QA系统通过查找所述数据语料库中某些具有潜在隐含了输入问题的有价值回应的部分数据语料库，生成一组假设或对输入问题的候选答案。然后，所述QA系统使用各种推理算法对所述输入问题的所述语言以及在查询应用期间发现的所述数据语料库的每个所述部分中使用的所述语言进行深入分析。可能存在数百甚至数千个推理算法，每个推理算法执行不同的分析，例如比较、自然语言分析、词法分析等，并生成分数。例如，某些推理算法可能会查看所述输入问题的所述语言内所找到的术语和同义词以及所述数据语料库中找到的部分的匹配情况。其他推理算法可以查看所述语言中的时间或空间特征，而其他推理算法可以评估数据语料库各部分的来源并评估其准确性。

从各种推理算法获得的分数表示基于所述推理算法的特定关注区域对所述输入问题推断潜在响应的程度。在一些实施例中，然后针对统计模型对每个所得分数进行加权。所述统计模型捕获了在所述QA系统的所述训练期间针对特定域在两个相似段落之间建立推理时所述推理算法的执行情况。所述统计模型用于总结所述QA系统对问题所能推断出潜在答案(即候选答案)的证据的置信度。对每个所述候选答案重复此过程，直到所述QA系统将表面上的候选答案识别为明显强于其他答案为止，从而为所述输入问题生成最终答案或排名排序的答案。

如上所述，QA系统和机制通过访问来自数据或信息语料库的信息，对其进行分析，然后基于对所述数据的分析来生成答案结果来进行操作。从数据语料库中访问信息通常包括：数据库查询，用于回答有关结构化记录的集合中的内容的问题；搜索，提供文档集合的链接，以响应针对非结构化数据(文本，标记语言等)的集合的查询。传统的问答系统能够基于所述数据语料库和所述输入问题生成答案，验证针对所述数据语料库的问题集合的答案，使用语料库数据纠正数字文本中的错误，以及从潜在答案池，即候选答案，中选择问题的答案。在一些实施例中，QA系统可以包括可从纽约州阿蒙克市的国际商业机器公司获得的IBM Watson^TM QA系统，其被配置为执行本文所述的功能。如上所述，对于一般的QA系统，IBM Watson^TM QA系统接收输入问题并解析所述输入问题以提取所述问题的主要特征，所述系统将其用于制定应用于数据语料库的查询。根据对所述数据语料库的所述查询应用，所述系统通过在所述数据语料库中查找所述数据语料库中对所述输入问题的有价值回应有一定潜力的部分，从而生成一组假设或所述输入问题的候选答案。然后，IBMWatson^TM QA系统使用各种推理算法对输入问题的语言以及在应用查询期间发现的数据语料库的每个部分中使用的语言进行深入分析。然后，所述系统可以对照统计模型对从各种推理中获得的分数进行加权，所述统计模型总结关于所述问题推断出潜在答案(即候选答案)的证据的置信度。可以针对每个候选答案重复所述过程，以生成候选答案的排名列表，其可以呈现给提交输入问题的用户，或者从中选择最终答案并呈现给用户。关于IBM Watson^TM QA系统的其他信息在Yuan等人的“Watson and Healthcare”(IBM developerWorks，2011年)和RobHigh的“认知系统时代：对IBM Watson及其工作原理的深入了解”中进行了描述，IBM红皮书2012。

图1是根据一些实施例的问题回答(QA)系统100的示意图。QA系统100通过网络102包括一个或多个计算设备104和电子文档集106。在各种实施例中，网络102包括本地网络连接和远程连接，以使QA系统100可以在任何大小的环境中运行，包括本地和全球范围(例如Internet)。

图2是其中实现了说明性实施例的各方面的计算设备104的框图。如图1所示，计算设备104可以是服务器或客户端或用户设备，在其中放置有实现本发明的说明性实施例的过程的计算机可用代码或指令。在一些实施例中，计算设备104包括电子处理器202、存储器204、用户接口210、通信接口212和总线214。如图2所示，存储器204可以包括操作系统206和一个或更多软件程序208。电子处理器202可以包括至少一个处理器或微处理器，其解释并执行存储在存储器204中的一组指令。电子处理器202访问并执行存储在存储器204中的软件程序208中的计算机可读指令(“软件”)。软件可以包括固件、一个或多个应用程序、程序数据、过滤器、规则、一个或多个程序模块以及其他可执行指令。例如，软件可以包括用于执行一组功能的指令和相关数据，包括在此描述的方法。所述存储器204包括非暂时性计算机可读介质，例如只读存储器(“ROM”)、随机存取存储器(“RAM”)(例如动态RAM(“DRAM”)、同步DRAM(“SDRAM”)等)、电可擦可编程只读存储器(“EEPROM”)、闪存、硬盘、安全数字(“SD”)卡、其他合适的存储设备或它们的组合。所述存储器204可以具有分布式架构，其中各种组件彼此远离，但是可以由电子处理器202访问。

所述用户界面210可以包括一个或多个人机界面(HMI)，诸如触摸屏、鼠标、键盘、计算机屏幕、麦克风等。所述通信接口212向所述计算设备104提供具有外部网络(例如，无线网络、互联网等)的通信网关。所述通信接口212可以包括例如以太网卡或适配器或无线局域网(WLAN)卡或适配器(例如，IEEE标准802.11a/b/g/n)。所述通信接口212可以包括地址、控制和/或数据连接，以使得能够在所述外部网络上进行适当的通信。

所述总线214或其他组件互连可以允许所述计算设备104的组件之间进行通信。如本领域所公知的，所述总线214可以是例如一个或多个总线或其他有线或无线连接。所述总线214可以具有为了简化而被省略的附加元件，诸如控制器、缓冲器(例如，高速缓存)、驱动器、转发器和接收器或其他类似组件，以实现通信。总线214还可以包括地址、控制、数据连接或前述的组合，以使得能够在前述组件之间进行适当的通信。

图3A示出了根据一些实施例的提供所述QA系统100(所述服务器104)的架构300的系统图。图3A所示的系统包括答案源知识库21，结构化和非结构化数据的主要源11，问题分析模块312，候选答案生成模块325，证据收集模块(包括支持段落搜索模块340，候选回答处理和计分模块350)，和一个应答排名模块360。如在图3A中所示，所述架构300包括一个问题分析模块312实现用于接收和分析用户查询或问题功能。根据一些实施例，“用户”是指与系统100交互的一个或多个人，并且术语“用户查询”是指由用户提出的查询(及其上下文)19。然而，如本文所使用的，术语“用户”还可以指代用户设备110通过电子方式生成查询，并且其中术语“用户查询”指代这种电子生成的查询。候选答案生成模块325基于对搜索到的数据的分析来生成包含候选答案的多个输出数据结构。所述证据收集模块50与包括所述主要来源11和所述知识库21的电子文档语料库106的接口，以基于具有候选答案的段落同时分析证据，并且对每个候选答案进行评分以作为并行处理操作。

作为实现候选模块的功能模块的结果，模块335被配置为生成查询并且针对(本地和分布式)源数据库或类似的存储器中的结构化和非结构化主要数据源11运行查询设备)。可以针对结构化(KB)、半结构化(例如Wikipedia、IMDB数据库、XBRL中的SEC文件的集合等)或非结构化数据(文本存储库)运行此查询，以生成候选答案列表39。

在一些实施例中，图3A中的所述体系结构可以使用通用分析系统(CAS)候选答案结构，并且可以实现支持段落搜索，如将在下文中更详细地描述的。在图3A中描绘了所述处理，其中，所述证据收集模块50包括所述支持段落搜索模块340和所述候选答案处理和评分模块350作为单独的处理模块，用于同时分析段落并为每个候选答案评分作为并行处理操作。所述答案源知识库21(图1所示的电子文档集的一部分)可以包括一个或多个结构化或半结构化源(预先计算或其他方式)的数据库，所述数据库包含关系的集合(例如，类型列表)。在示例实施方式中，所述答案源知识库21可以包括存储在例如硬盘驱动器的存储器存储系统中的数据库。所述答案排名模块360提供用于对候选答案进行排名并确定经由用户设备110-112提供的显示界面(未示出)返回给用户的响应99的功能。当找不到所述问题的高质量答案时，答案可以是答案，也可以是对先前答案的解释或对问题的澄清要求。

如上所述，本文所述的实施例可以使用通用分析系统(CAS)，即非结构化信息管理体系结构(UIMA)的子系统，所述子系统处理各种UIMA组件(例如分析引擎和非结构化信息管理应用程序)之间的数据交换。CAS通过独立于编程语言的类型系统支持数据建模，通过强大的索引机制提供数据访问，并支持在文本数据上创建注释。CAS还允许对文档及其注释之间的链接进行多种定义，这对于分析图像、视频或其他非文本形式很有用。

在一些实施例中，通用分析结构(CAS)类型的数据结构形式是如美国专利No.5,235,230中所述来实现的。美国专利No.7,139,752，其全部内容和公开内容通过引用结合于此，如同在此完全阐述一样。如本文中所描述的，可以基于多种标准来实现多个并行处理模块以利用在CAS类型数据结构59中提供的分数来计算所述候选答案的所述分数。例如，所述标准可以考虑所述答案是否满足相似的词汇和语义关系，所述答案与所述查询的一致性程度，所述术语匹配的程度以及所述术语怎样以相似的顺序存在等。因此，可以理解的是，使用多个模块来处理不同的候选答案，并因此根据潜在得分模块的数量潜在地提供许多分数。

如图3A所示，所述答案排名模块360接收从所述证据收集模块50输出的多个CAS类型的数据结构59(其包括所述支持段落搜索模块340和所述候选答案处理和评分模块350)，并为每个候选答案生成分数。

图3B是基于图3A所示的架构的一些实施例的操作图300。图3B还表示一个数据模型，所述数据模型定义了作为输入提供给或由图3A所示的系统组件产生的数据结构。如图3B中所示，问题处理模块310接收包括例如由用户经由他们的基于网络的浏览器设备输入的问题19的输入。输入问题19可以包括诸如“为什么黄金昂贵？”。所述问题处理模块310包括问题分析模块312和搜索引擎314。搜索引擎314可以包括搜索主要的结构化和非结构化源，例如谷歌、维基百科的本地副本或数据库查找。所述搜索引擎314具有查询生成器，所述查询生成器从抽象查询生成特定于引擎的查询，并将其格式化为所述搜索引擎的查询语法，然后处理所述查询并将搜索结果命中列表添加到CAS类型的数据结构中。搜索对象包含搜索引擎查询、搜索引擎的标识符和搜索结果。如图3B所示，示例CAS类型数据结构中的数据是所述问题分析处理模块310的所述搜索结果模块的输出，并且可以并行处理。搜索命中CAS拆分器315可以用于发起对候选答案的并行搜索。对于并行操作，所述搜索列表(搜索结果段落)由所述CAS拆分器315分发，以便应用模块320中的并行搜索结果处理(工作划分)以处理每个找到的搜索结果并在所述候选答案生成模块325中使用本文所述的技术执行候选答案(并行)生成。

所述搜索结果处理模块320和所述候选答案生成模块325的数据(在示例CAS类型的数据结构39中)输出的数据再次由所述候选答案CAS拆分器330并行处理，所述数据被用于并行处理用于输入给所述支持段落搜索模块340的候选答案。对于每组候选答案，可以将所述CAS类型的数据结构拆分为单独的CAS类型的数据结构，以使每种CAS类型的数据结构包括一个或多个候选答案和被发送到证据收集模块50(包括所述支持段落搜索模块340和所述答案处理和计分模块350)。在模块342中，支持段落被搜索到。在候选CAS拆分器330之后启动功能。由支持段落搜索器342创建的支持段落记录可以由所述支持段落拆分器344分离，并且由于可能存在很多，所以所述拆分器344可以路由新的CAS类型数据结构(具有先前计算出的所有信息：上下文、查询、候选答案、支持段落)到所述答案处理和评分模块350。

所述结果包含一个或多个CAS类型的数据结构，所述数据结构包含(除其他要素外)以下三个项目：候选答案，所述问题术语和支持段落。由于每个问题可以生成成千上万个这样的CAS类型数据结构，因此可以并行地对这些候选项进行评分。在一个实施例中，由所述答案处理和评分模块350执行的所述候选评分可以分为两类：上下文相关的候选答案处理模块352(其中答案分数取决于段落内容)和上下文无关的候选答案处理模块354(可以独立于段落对答案进行评分)。例如，如果从文档标题获得候选答案，则分数可能不取决于段落的内容，因此与上下文无关。相反，基于文本一致性、语法关系或词汇和语义关系的其他类型的候选答案评分可能涉及所述查询和所述段落之间的比较，因此与上下文相关。由于这些方法中的某些方法可能取决于所述段落中语法和语义关系的所述计算，因此可以在模块352中进行上下文相关的候选答案处理之前，先处理搜索结果(在所述搜索结果处理模块340的搜索结果处理模块中)。

使用数据结构的CAS保存答案处理和评分模块350的结果。在答案排名和处理360期间，可以汇总和合并候选答案特征，并且可以应用最终候选答案评分功能来生成提供给用户的最终分数。

图4是基于图3B中所示的内容依赖候选答案处理模块352的一些实施例的框图。如图4所示，所述内容依赖候选答案处理模块352从所述搜索结果处理模块340接收所述查询词和候选答案术语。所述内容依赖候选答案处理模块352向所述合并和排名模块360提供输出。在某些实施方案中，候选答案处理模块352包括段落术语问题答案(QA)匹配模块402、字嵌入语义QA匹配模块404、主题标签QA匹配模块406、翻译度量QA匹配模块408和统计QA匹配模块410。

在一些实施例中，所述段落术语QA匹配模块402包括计分器，其计算问题19中的疑问术语的匹配分数，并分别计算候选答案39中的候选答案术语的匹配分数，然后组合两个分数加在一起(例如，乘以或取谐波平均值)。在一些实施例中，所述段落术语QA匹配模块402被配置为对远离所述问题19的焦点的疑问术语进行折价。在一些实施例中，通过所述段落术语QA匹配模块402使用分布语义来判断与之相关的语义相似性以评估任何一对术语匹配的程度。

在一些实施例中，所述词嵌入语义QA匹配模块404包括计分器，所述计分器通过将所述段落、问题和候选答案中的每个表示为单词嵌入空间内的聚合术语向量并计算所述聚合术语向量上的距离度量，分别所述计算问题19和所述候选答案39的段落的语义分数。在一些实施例中，两个分数被组合(例如，通过乘以或取谐波平均值)。在一个示例中，所述计分器使用余弦作为距离度量。在另一个示例中，所述计分器使用移词者的距离(WMD)作为距离度量。在一些实施例中，所述计分器使用如Lidan Wang，Ming Tan和Chin-Yew Lin的《News Citation Recommendation wi th Impl icit and Expl icitSemantics.》的第3.3节，计算语言学协会(ACL)2016，所述的合并和相似度计算，以引用方式并入本文，如同在此阐述。在一些实施例中，所述计分器使用Dheeraj Mekala，Vivek Gupta，Harish Karnick在《Words are not Equal:Graded Weighting Model for bui lding Compos ite DocumentVectors》第3.2.1节中描述的术语加权方案，该论文已提交给ACL2017欧洲章节(EuropeanChapter of ACL 2017)，以引用方式并入本文。

图5是示出基于用于处理问题和候选答案的方法500的一些实施例的流程图。方法500可以由所述QA系统100执行，诸如使用图3A和3B所示的架构。如图5所示，给定问题19和候选答案39，所述方法500包括生成关键词搜索查询(框510)。所述框510的输出被提供给框520，所述框520使用所述关键字搜索查询来执行查询。基于所述关键字查询，QA系统被配置为从电子文档106的语料库中搜索段落(例如，使用支持段落搜索340)(框530)。框530的输出被提供给框540，框540提供用于答案处理和评分模块350中的答案处理的通道。框530的输出被提供给框540，框540执行与上下文有关的候选答案处理。框540的输出被提供给框550，框550执行候选答案的合并和排名。

图6是示出根据一些实施例的用于使用依赖于上下文的候选答案处理来生成对问题的答案的方法500的进一步细节的流程图。在框610处，所述方法500包括在所述问题处理模块310处接收具有多个疑问术语的问题19。在框620处，方法500包括使用所述候选答案生成模块325来识别对所述问题19的多个候选答案，其中，所识别出的候选答案中的每一个包括若干答案术语。对于几个候选答案中的每一个，所述方法500包括搜索所述语料库数据106以确定支持证据段落，所述支持证据段落包括多个疑问术语中的一个或多个以及所述候选项答案中包括的一个或多个多个答案术语中的至少一个答案(方框630)。在一些实施例中，方法500包括使用所述问题和所述候选答案生成关键字搜索查询，其中将所述问题和所述候选答案中的所有术语标记为可选。在一些实施例中，使用来自所述问题处理模块310的关键字搜索查询从所述数据语料库106中搜索所述多个证据段落。

在一些实施例中，所述方法500包括针对每个支持证据段落遍历一组段落计分器。方法500还包括对每个所述段落计分器确定所述证据段落支持回答所述问题的替代答案的程度进行评分，以使得所述替代答案与所述候选答案匹配。在一些实施例中，对于所述一组段落计分器，所述支持证据段落的所述分数被组合成一个最终分数，其指示所述段落计分器对所述替代答案的结论。在一个示例中，通过对所述分数求和或取所述分数的最大值来组合所述支持证据段落的所述分数。在一些实施例中，所述方法500包括基于所述问题计算所述段落的语义分数，并基于所述候选答案计算所述段落的另一语义分数。在一个示例中，方法500包括使用余弦作为距离度量来组合两个所述语义分数。在另一个示例中，方法500包括使用单词移动者的距离(WMD)作为距离度量来组合两个所述语义分数。在一些实施例中，段落计分器使用BLEU度量得分或Rouge度量分数中的至少一个来计算一组段落与所述问题和所述候选答案的相似性。BLEU指标分数在Papineni等.《BLEU:a method forautomaticevaluat ion of machine trans lation》，ACL2012，进行了描述，并通过引用并入本文。如同在此阐述的那样。Rouge度量值计分在Chin-Yew Lin的《Rouge:A package forautomatic evaluat ion of summaries》，InWorkshop of Text summarization branchesout,2004中进行了描述，如同在此阐述的那样其通过引用并入本文。在一些实施例中，所述段落计分器使用自动标记的主题来将所述段落与所述问题和所述候选答案相关联。段落、问题和答案会自动标上捕捉其主要思想的主题。所述主题标签可以使用多种方法自动生成，例如根据从Wikipedia和其他语料库资源中计算出的单词和文档嵌入，或通过LatentDirichlet Alocation(LDA)技术获得。LDA技术在David M.Blei，Michael I.Jordan，Thomas L.Griffiths和Joshua B.Tenenbau(2003)，《Hierarchical topic models andthe nested Chineserestaurant process》，第16届神经信息处理系统会议(NIPS'03)国际会议论文集和S.Thrun，LKSaul和B.Schlolkopf(Eds.),麻省理工学院出版社，马萨诸塞州剑桥，美国，2004年17-24，中进行了描述，如同在此阐述通过引用并入本文。

在一些实施例中，所述方法500还包括通过评估所述段落中的所述主题词与所述问题和所述候选答案中的所述主题词的重叠(例如，寻找精确匹配)来计算所述段落的匹配分数。分别为所述问题和所述候选答案计算所述主题词重叠分数，然后将它们组合为所述最终分数(例如，通过乘或取谐波平均值)。

在一些实施例中，所述方法500还包括计算两个短文本之间的相似度。使用成对的问题和对这些问题的已知正确答案来训练模型。所述模型可以用于计算所述问题和所述支持段落之间的相似度。所述模型还可以用于计算所述候选答案和所述支持段落之间的所述相似度。然后将两个相似度分数合并(例如，通过乘或取谐波平均值)。

在一些实施例中，所述方法500还包括：针对所述多个疑问术语和所述多个答案术语分别计算匹配分数，并将针对所述多个疑问术语和所述多个答案术语中的每一个而获得的所述匹配分数进行组合。在一些实施例中，所述组合匹配分数包括将所述多个疑问术语和所述多个答案术语的所述匹配分数相乘。在一些实施例中，所述组合匹配分数包括确定所述多个疑问术语的所述匹配分数和所述多个答案术语的所述匹配分数的谐波平均值。

所述方法500进一步包括使用评分机制对所述多个候选答案中的每一个对每个所述支持证据段落进行评分(框640)。在一些实施例中，所述评分机制计算所述支持证据段落与所述多个疑问术语的第一相关度，并且还计算所述支持证据段落与所述多个候选答案之一的多个答案术语的第二相关度。在一些实施例中，所述方法500包括使用选自包括术语的词汇接近度、分布语义和统计模型组成的组中的一个或多个权重来确定所述第一相关度和所述第二相关度。在一些实施例中，所述方法500包括通过组合所述第一相关度和所述第二相关度来确定所述支持证据段落的分数。

所述方法500还包括基于与针对所述多个候选答案中的每一个的所述证据段落评分相关联的分数，对所述问题的所述多个候选答案进行排名(框650)。在方框660处，所述方法包括基于所述多个候选答案的排名来提供对所述问题19的答案。在一些实施例中，所述方法500包括通过计算每个疑问术语的权重并将在所述段落中找到的每个疑问术语的权重之和除以所有疑问术语的权重之和来确定段落的匹配分数。

本文提供的所述方法500允许使用QA系统100确定问题的答案。如上所述，所述QA系统100接收具有几个疑问术语的所述问题19并标识候选答案，每个所述候选问题具有多个答案项。所述QA系统100被配置为搜索所述电子文档106的语料库以获得与一个或多个所述疑问术语和一个或多个答案术语有关的支持证据段落。所述QA系统100还被配置为利用评分算法对所述支持证据段落进行评分，所述评分算法将对所述疑问术语的相关度的计算与对所述答案术语的相关度的计算相结合。所述QA系统100还被配置为对所述问题的所述潜在答案进行评分和排名，并基于在模块360中执行的所述评分和排名来提供对所述问题的答案。

在以下权利要求中阐述了各种特征和优点。

Claims

1.一种生成问题答案的方法，所述方法包括：

通过电子处理器接收具有多个疑问术语的问题；

通过所述电子处理器识别所述问题的多个候选答案，其中所述多个候选答案中的每一个包括多个答案术语；

对于所述多个候选答案中的每一个，搜索多个数据源以确定支持证据段落包括所述多个疑问术语中的一个或多个中的至少一个，以及包括在所述候选答案中的所述多个答案术语中的一个或多个；

通过所述电子处理器，使用评分机制对所述多个候选答案中的每一个的每个所述支持证据段落进行评分，所述评分机制计算所述支持证据段落与所述多个疑问术语的第一相关程度，计算所述支持证据段落与所述多个候选答案中的一个的所述多个答案术语的第二相关程度，并通过结合所述第一相关程度和所述第二相关程度来确定所述支持证据段落的分数；

通过所述电子处理器，基于与对所述多个候选答案中的每一个对每个所述支持证据段落进行所述评分相关联的所述分数，对所述问题的所述多个候选答案进行排名；以及

基于所述多个候选答案的排名来提供对所述问题的答案。

2.根据权利要求1所述的方法，还包括以下步骤：

使用所述问题和所述候选答案生成关键字搜索查询，其中将所述问题和所述候选答案中的所有所述术语标记为可选。

3.根据权利要求2所述的方法，还包括以下步骤：

使用一个或多个权重来确定所述第一相关程度和第二相关程度，所述一个或多个权重选自包括术语的词汇接近度、分布语义和统计模型组成的组。

4.根据权利要求3所述的方法，还包括以下步骤：

为每个所述支持证据段落遍历一组段落计分器；以及

对每个所述段落计分器确定所述支持证据段落回答所述问题以支持替代答案的程度进行评分，其中所述替代答案与所述候选答案匹配。

5.根据权利要求1所述的方法，还包括以下步骤：

计算所述多个疑问术语的第一匹配分数；

计算所述多个答案术语的第二匹配分数；以及

结合所述第一匹配分数和所述第二匹配分数。

6.根据权利要求2所述的方法，还包括以下步骤：

使用所述关键字搜索查询从数据语料库搜索所述多个支持证据段落。

7.根据权利要求6所述的方法，还包括以下步骤：

为每个所述支持证据段落遍历一组段落计分器，以及

8.根据权利要求7所述的方法，还包括以下步骤：

通过计算每个疑问术语的权重并将所述段落中找到的每个疑问术语的权重之和除以所有疑问术语的权重之和，确定段落的匹配分数。

9.根据权利要求7所述的方法，还包括以下步骤：

对于所述一组段落计分器中的每一个，将所述支持证据段落的所述分数组合成一个最终分数，表明所述段落计分器对所述替代答案的结论。

10.根据权利要求9所述的方法，还包括以下步骤：

通过将所述分数相加和取所述分数的最大值中的至少一项来组合所述支持证据段落的所述分数。

11.如权利要求5所述的方法，还包括以下步骤：

通过将所述第一匹配分数和所述第二匹配分数相乘来组合所述第一匹配分数和所述第二匹配分数。

12.根据权利要求5所述的方法，还包括以下步骤：

通过确定所述第一匹配分数和所述第二匹配分数谐波平均值，将所述第一匹配分数和所述第二匹配分数相结合。

13.如权利要求7所述的方法，还包括以下步骤：

计算段落的第一语义分数，所述第一语义分数与所述问题相关联；

计算所述段落的第二语义分数，所述第二语义分数与所述候选答案相关联；以及

结合所述第一语义分数和所述第二语义分数。

14.根据权利要求13所述的方法，还包括以下步骤：

使用余弦作为距离度量来组合所述第一语义分数和所述第二语义分数。

15.根据权利要求13所述的方法，还包括以下步骤：

使用词移动器的距离WMD作为距离度量来组合所述第一语义分数和所述第二语义分数。

16.根据权利要求7所述的方法，其中，所述计分器使用BLEU度量分数或Rouge度量分数中的至少一个来计算针对所述问题和所述候选答案的一组段落的相似度。

17.一种用于生成问题答案的系统，包括适于执行根据权利要求1-16中任一项所述的方法的所有步骤的装置。

18.一种用于生成问题答案的非暂时性计算机可读介质，包括指令，当在计算机系统上执行所述指令时，所述指令用于执行根据权利要求1-16中任一项所述的方法的所有步骤。