CN110647618B

CN110647618B - 对话查询应答系统

Info

Publication number: CN110647618B
Application number: CN201910120679.0A
Authority: CN
Inventors: W·W·常; J·勃兰特; 金斗淳
Original assignee: Adobe Systems Inc
Current assignee: Adobe Inc
Priority date: 2018-06-27
Filing date: 2019-02-18
Publication date: 2025-02-25
Anticipated expiration: 2039-02-18
Also published as: AU2019201531A1; GB201902764D0; CN110647618A; US20200004873A1; US11120059B2; GB2575141A; DE102019001267A1; AU2019201531B2

Abstract

本申请的各实施例涉及对话查询应答系统。基于由用户输入的查询的语义解释来将用户引导到内容的技术涉及响应于用户字符串查询来生成到文档集合中的特定内容的链接，该链接基于答案建议前瞻索引而被生成。答案建议前瞻索引引用多组语义等同术语与到文档集合的特定内容的相应链接之间的映射。这些技术对于自然语言问题应答的一般化任务是有用的。

Description

对话查询应答系统

技术领域

本说明书涉及使用自然语言处理(NLP)的查询应答系统。

背景技术

当用户向搜索助理的文本框中键入单词时，一些搜索助理可以生成可能的搜索字符串。例如，当用户键入问题“How do I remove devil eyes(我如何去除恶魔之眼)”时，搜索助理可以呈现预期该问题的新搜索字符串集合。具体地，响应于用户键入“How do Iremove(我如何去除)”，搜索助理可以呈现字符串“How do I remove app(我如何去除应用)”。

传统的搜索助理基于对由大量用户提交的搜索字符串的聚合执行的查找操作来生成可能的搜索字符串。例如，为了响应于用户键入“How do I remove”而生成可能的搜索字符串，搜索助理查找包含单词“How do I remove”的所有可能的搜索字符串。如果用户在文本框中键入附加单词，则搜索助理动态执行包括新单词的查找操作以产生新的搜索字符串集合。响应于用户选择搜索字符串，搜索助理基于标准搜索算法来显示搜索结果集合。

当由用户键入的问题不包含搜索字符串的聚合中存在的单词时，如上所述的传统搜索助理无法返回准确的搜索字符串。已经尝试过获得在这种情况中可以能够生成准确的搜索结果的更智能的搜索助理。不幸的是，这种尝试充其量只取得了微不足道的成功。

发明内容

在一个总体方面中，一种方法可以包括接收表示文档集合的文档数据，该文档集合中的每个文档包括相应主题和与该主题有关的内容。该方法还可以包括基于文档集合来生成答案建议前瞻索引数据，答案建议前瞻索引数据表示多个术语/链接对，多个术语/链接对中的每个术语/链接对包括语义等同术语和到文档集合的内容的对应链接。该方法还可以包括接收用户查询字符串。该方法还可以包括：响应于接收到用户查询字符串，定位多个术语/链接对中的术语/链接对的语义等同术语，语义等同术语基于与用户查询字符串的语义等同性而被定位。该方法还可以包括向输出设备输出定位的术语/链接对的链接的表示。

在附图和以下描述中阐述了一个或多个实现的细节。其他特征根据说明书和附图以及根据权利要求将是很清楚的。

附图说明

图1是示出其中可以实现本文中描述的改进技术的示例电子环境的示图；

图2是示出根据改进技术来构建用于搜索辅助的语义前瞻引擎的示例方法的流程图；

图3是示出帮助系统的文档集合中的文档的示例部分的示图；

图4是示出生成语义注释文件的示例过程的流程图；

图5是示出从语义注释文件生成文档对象模型(DOM)的示例过程的流程图；

图6是示出针对文档集合中的文档的示例DOM的示图；

图7是示出基于针对文档的DOM来生成针对该文档的知识图的示例过程的流程图；

图8是示出生成针对自然语言处理(NLP)流水线而被格式化的知识图的示例过程的流程图；

图9是示出格式化知识图的示例部分的示图；

图10是示出针对关键字搜索和建议索引生成<S，P，O>三元组的示例过程的流程图；

图11是示出示例NLP流水线的流程图；

图12是示出生成具有注释的序列化知识图的示例过程的流程图；

图13是示出生成主建议前瞻索引的示例过程的流程图；

图14是示出针对场加权搜索结果生成权重的示例过程的流程图；

图15是示出在输出设备上向用户呈现答案卡的示例过程的流程图；

图16A是示出按照JSON格式的示例“how to(如何)”答案卡的示图；

图16B是示出按照JSON格式的示例“what is(是什么)”答案卡的示图；以及

图17是示出执行改进技术的示例方法的示图。

具体实施方式

上述传统搜索助理不适合作为针对特定产品和服务的帮助助理。例如，典型的搜索助理可能需要数千或数万个专用服务器，这些服务器从大量用户收集和聚合搜索字符串。这样的大量的服务器操作起来可能非常昂贵，从而使得成本超出了大多数服务提供商的范围。此外，在很多情况中，包含被键入到文本框中的单词的可能的搜索字符串的数目可能很大，其中搜索字符串相关性很少或没有相关性。并且即使在搜索字符串相关时，基于该搜索字符串的搜索结果也很可能将无法解决用户所考虑的问题。

例如，考虑其中用户想要从数字照片去除红眼，但是用户不知道术语“红眼(redeyes)”的情况。相反，用户将以下内容键入搜索助理中：“How do I remove devil eyes？”如果以前从未表达过这种表达查询的不寻常方式，则搜索助理可能会寻找与键入字符的紧密匹配，如“How do I remove evil eyes(如何去除邪恶之眼？)”在这种情况中，搜索助理可以提供到提及“the evil eyes(邪恶之眼)”的占星术和宗教网站的链接，其中没有一个将会帮助用户。

根据本文中描述的实现并且与需要大量服务器基础设施(这针对大多数企业来说太多并且经常无法按照用户的意图回答问题)的上述传统搜索助理形成对比，改进技术涉及当由用户键入的问题不包含搜索字符串聚合中存在的单词时返回准确的搜索字符串。具体地，改进技术包括响应于用户字符串查询来生成到文档集合中的特定内容的链接，该链接基于答案建议前瞻索引而被生成。答案建议前瞻索引引用一组语义等同术语与到文档集合的特定内容的相应链接之间的映射。在示例场景中，计算机接收与产品或产品系列有关的帮助文档集合。每个帮助文档包括主题和与主题有关的内容。计算机基于帮助文档集合来生成答案建议前瞻索引。然后，响应于接收到用户查询，计算机生成到帮助文档集合中的特定内容的链接。在一些实现中，计算机还可以输出与链接对应的答案卡，答案卡是在输出设备上被显示的窗口，在该窗口中示出了回答用户的查询的内容。

有利地，用户不需要利用答案建议前瞻索引来将们的查询精确地公式化他。尽管上面描述的传统搜索助理(其基于由用户键入的单词来执行查找)将很可能返回到与用户的意图无关的内容的链接，但是改进技术使用自然语言处理器来处理输入的搜索字符串。因此，基于上述映射的帮助系统很可能产生单个结果，例如，到集合中的文档的链接或者到文档内的位置的链接，其精确地回答用户的查询。这样的帮助系统学习流行的同义词术语而不必看到数十亿个查询，并且可以基于问题意图而不是文字关键词来自动提示答案，后者由传统搜索助理处理。帮助系统还可以按照紧凑的答案卡格式提供准确的答案，从而消除了用户必须翻阅结果文档的需要，从而消除了对庞大且昂贵的搜索基础设施的依赖，并且从而使用户对搜索结果更有信心。帮助系统(被称为“语义前瞻”)也可以在用户键入他们的查询时动态地生成链接，这使得用户可以比仅在已经录入完全输入之后输出搜索结果的系统更快地获取相关搜索结果。

为了实现上述特征，系统首先针对每个内容页面生成语义文档对象模型(DOM)以捕获主题关系和描述。系统然后根据汇编的DOM构造知识图，并且利用DOM结构内的发现的父/子主题关系、how-to过程和相关主题。在构建最终的问题/答案事实知识图之前，系统通过文档理解过程利用非常有用的主题结构和域信息。

此外，针对具有专有性质的高竞争性产品的文档(例如，针对敏感的政府、制药、科学内容或法律应用的文档)无法由大型公共搜索引擎访问。针对这样的文档，期望能够在单个企业内或跨联合企业环境在本地并且完全地部署智能问答系统。以文档集合作为输入，改进技术专门提供这样的能力。

另一有利特征是上述系统是用于使用机器学习技术和优化argmax()函数从示例问题/答案对自动地学习答案编索引权重的过程。这些答案编索引权重形成上述语义前瞻帮助系统的主干，因为用户输入的各个部分(例如，主语、谓语、标题)在关于对知识图中的用户输入的那些部分的语义等价物进行定位的重要性方面被加权。这允许系统通过直接地使用来自较小目的驱动受众的产品帮助搜索查询日志来快速地生成准确的答案提议。答案编索引权重与在传统搜索助理中被使用的技术完全地区分，因为这样的传统搜索助理没有如本文中描述的语义前瞻能力。相反，由传统搜索助理实现的任何“前瞻”在利用搜索数据库中的单词查找输入字符串中的单词的精确匹配的上下文中被使用。

总之，本文中描述的改进技术针对基于不精确的用户输入的快速、准确的搜索结果。这些搜索结果通过基于文档集合中的内容的编索引(即，语义前瞻数据)来构建知识图而被构建。如上所述，内容的编索引可以通过对搜索字符串的各个部分的适当加权而被执行，并且适合于在用户键入时实时地返回搜索结果；这是用户输入字符串的语义前瞻。被这样构造的知识图包括语义等同术语与到文档集合中的内容的链接的对。以这种方式，用户可以在搜索字符串正被输入的同时不精确地形成搜索字符串并且获取相关的搜索结果。

在一些实现中，生成答案建议前瞻索引数据包括基于文档集合来生成主题知识图数据，主题知识图数据表示主题知识图，主题知识图包括：(i)文档集合中的每个文档的相应主题和子主题集合，以及(ii)到文档集合的内容的链接，每个链接对应于文档集合中的每个文档的相应主题或子主题集合中的子主题中的一个。

在一些实现中，生成答案建议前瞻索引数据包括生成表示对文档集合中的每个文档的主题和子主题集合的各个语义注释的语义注释数据，每个语义注释包括谓语集合中的相应谓语和宾语集合中的相应宾语；针对谓语集合中的每个谓语，标识当被与该谓语组合时与文档集合中的每个文档的主题或子主题集合中的子主题中的一个对应的宾语集合中的至少一个宾语；以及针对宾语集合中的每个宾语，标识当被与该宾语组合时与文档集合中的每个文档的主题或子主题集合中的子主题中的一个对应的谓语集合中的至少一个谓语。

在一些实现中，生成主题知识图数据包括：针对文档集合中的每个文档，生成文档对象模型(DOM)集合中的相应DOM，相应DOM对应于该文档，对应于该文档的DOM包括主题、子主题集合和到该文档的内容的链接；以及对DOM集合执行聚合操作以产生针对主题知识图的主链接列表，该主链接列表包括到文档集合的内容的多个唯一链接。

在一些实现中，生成主题知识图数据包括：针对文档集合中的每个文档，生成文档对象模型(DOM)集合中的相应DOM，相应DOM对应于该文档，对应于该文档的DOM包括主题、子主题集合和到该文档的内容的链接；以及对DOM集合执行知识图格式化操作以产生针对自然语言处理(NLP)流水线而被格式化的聚合平坦化知识图，该聚合平坦化知识图包括DOM集合中的每个DOM的主题和子主题集合中的每个，NLP流水线被配置为产生<S，P，O>三元组，<S，P，O>三元组包括DOM集合中的每个DOM的主题和子主题集合中的每个的主语、谓语和宾语。

在一些实现中，生成主题知识图数据包括对聚合平坦化知识图执行分割操作以产生多个聚合平坦化知识图部分；以及通过NP流水线对多个聚合平坦化知识图部分中的每个聚合平坦化知识图部分执行NLP操作以产生知识图，MLP操作对多个聚合平坦化知识图部分中的每个聚合平坦化知识图部分并行地被执行。

在一些实现中，生成DOM集合中的DOM包括对文档集合中的每个文档执行发现操作以标识该文档的非信息内容；以及对该文档的非信息内容执行去除操作以产生主题、子主题集合和到该文档的内容的链接，该去除操作包括术语频率逆文档频率(TF-IDF)算法适用于该文档。

在一些实现中，生成DOM集合中的DOM包括对文档集合中的每个文档执行重新格式化操作以产生以Markdown标记语言(MDML)格式化的文档。

在一些实现中，生成答案建议前瞻索引数据包括获取搜索查询日志数据，搜索查询日志数据表示用户查询数据与到文档集合的内容的链接之间的映射，用户查询数据表示多个用户查询；以及对搜索查询日志数据执行文本挖掘操作以产生针对文档集合中的文档的主题或子主题集合中的相应子主题中的一个的公共用户查询集合，主题和子主题集合中的每个与对应于相应链接的相应内容相关联。

在一些实现中，生成答案建议前瞻索引数据包括形成以下两项的对：(i)公共用户查询集合中的相应用户查询，以及(ii)到文档集合的内容的相应链接，每个对基于主题知识图的注释的主题和子主题集合，注释的主题和子主题集合包括主题标题和<S，P，O>三元组，<S，P，O>三元组包括针对主题和子主题集合中的每个的主语、谓语和宾语。在这样的实现中，产生到文档集合中的特定内容的链接包括标识用户查询和到内容的链接的对，该对是与到接收的用户查询字符串的谓语和宾语的谓语和宾语的语义最佳匹配。

在一些实现中，形成用户查询和到内容的链接的对包括生成与对应于用户查询和到内容的链接的对的主题标题的主题标题、主语、谓语和文本内容中的每个对应的相应权重。在这样的实现中，标识作为与到接收的用户查询字符串的谓语和宾语的谓语和宾语的语义最佳匹配的用户查询和到内容的链接的对包括使用与公共用户查询集合的主题标题、主语、谓语和文本内容中的每个对应的相应权重来生成主题标题、主语、谓语和文本内容的线性组合，该线性组合和与用户查询字符串对应的主题标题、主语、谓语和文本内容的相同的线性组合最紧密匹配。

在一些实现中，生成与对应于用户查询和到内容的链接对的主题标题的主题标题、主语、谓语和文本内容中的每个对应的相应权重包括：生成具有多个行的矩阵，多个行中的每个行具有与主题标题、主语、谓语和文本内容的相应权重相等的元素；针对公共用户查询集合的每户查询和到内容的链接的对中的每个对，形成优值函数(merit function)，该优值函数用以下各项作为自变量：(i)用户查询数据的搜索函数、到文档集合的内容的链接和矩阵的行，以及(ii)到文档集合的内容的特定链接，搜索函数返回链接作为输出，优值函数响应于搜索函数的链接输出等于特定链接而具有值1，并且响应于搜索函数的链接输出不等于特定链接而具有值0；以及标识使得优值函数呈现最大值的矩阵的该行作为与主题标题、主语、谓语和文本内容中的每个对应的权重。

在一些实现中，获取搜索查询日志数据包括对原始搜索查询数据执行机器学习操作以产生用户查询数据与到文档集合的内容的链接之间的映射。

在一些实现中，知识图还包括针对主题的、到与其他主题对应的内容的链接。

在一些实现中，链接集合包括单个链接。在这样的实现中，向输出设备输出链接集合包括显示与单个链接对应的答案卡，答案卡包括其中包含与该链接对应的内容的窗口。

在一些实现中，产生到文档集合中的特定内容的链接包括定位包括指示过程的步骤的文本的内容；并且标识内容对应的主题。

图1是示出其中可以实现上述改进技术的示例电子环境100的示图。如所示，在图1中，电子环境100包括计算机120和由用户192查看的显示器190。

计算机120被配置为在显示设备上显示用户指定的绘图。计算机120包括网络接口122、一个或多个处理单元124、存储器126和显示接口128。网络接口122包括例如以太网适配器、令牌环适配器等，以用于将从网络接收的电子和/或光信号转换成电子形式以用于由编辑计算机120使用。该组处理单元124包括一个或多个处理芯片和/或组件。存储器126包括易失性存储器(例如，RAM)和非易失性存储器(诸如一个或多个ROM、磁盘驱动、固态驱动等)二者。该组处理单元124和存储器126一起形成控制电路，该控制电路被配置和布置为执行如本文中描述的各种方法和功能。

在一些实施例中，计算机120的一个或多个组件可以是或者可以包括被配置为处理被存储在存储器126中的指令的处理器(例如，处理单元124)。如图1中所示的这样指令的示例包括文档集合获取管理器130、知识图生成管理器140、搜索查询日志获取管理器150、答案建议前瞻索引管理器160、用户查询获取管理器170、答案卡呈现管理器180和显示管理器182。此外，如图1中所示，存储器126被配置为存储各种数据，这些数据关于使用这样的数据的各个管理器而被描述。

文档集合获取管理器130被配置为获取表示文档集合的文档数据132，该文档集合包括可以被呈现给能够访问文档集合的用户的内容。在一些实现中，文档集合获取管理器130使用网络接口122经由网络连接获取文档数据132。在一些实现中，文档集合获取管理器130经由存储介质(例如，磁盘驱动、闪存驱动等)获取文档数据132。

文档数据132表示要响应于用户查询而被搜索的文档集合。在一些实现中，文档集合包括针对产品或产品系列的帮助文档。在一些实现中，文档集合包括形成针对企业的专用内联网的文档。文档数据132包括主题数据134、内容数据138和链接数据139。在一些实现中，文档数据132包括子主题数据136。

主题数据134表示主题标题。文档集合中的每个文档包括指示在该文档中被公开的主题内容的主题标题、以及与主题标题有关的内容。

子主题数据136表示文档集合中的每个文档的子主题标题集合。文档的子主题集合中的每个子主题与文档的主题有关。此外，文档的内容的一部分与文档的子主题集合中的相应子主题有关。

内容数据138表示被包括在文档集合中的每个文档中的各种内容，与由主题数据134表示的主题和由子主题数据136表示的子主题集合有关。在一些实现中，内容包括文本描述。在一些实现中，内容包括其他媒体，诸如图形媒体、视频媒体、音频媒体等。

链接数据139表示到可以由浏览器或搜索引擎根据本文中描述的改进技术访问的内容的链接。在一些实现中，链接包括存储有文档的统一资源定位符(URL)地址(例如，web服务器，不一定是计算机120)。在一些实现中，链接还包括锚点，该锚点指示文档内与子主题有关的感兴趣内容被定位在的位置。

知识图生成管理器140被配置为基于文档数据132来生成知识图数据142。知识图生成管理器140的操作关于图4至图12被详细描述。

知识图数据142表示知识图。知识图是主题、子主题和链接的分层布置，其还包括关于文档集合的文本内容的语义内容以及它们的与可以用来访问内容的链接的关系的信息。知识图数据142包括语义注释数据144和聚合链接数据146。

语义注释数据144表示主题和子主题标题的语法部分以及由自然语言处理器(NLP)提取的文本内容。例如，NLP可以从主题标题提取主语、谓语和宾语(<S，P，O>三元组)。作为具体实例，考虑主题标题“Use the text on shape tool(使用形状工具上的文本)”。谓语可以是“use(使用)”，并且宾语可以是“text(文本)”或“text on shape tool(形状工具上的文本)”。虽然没有明确地以命令格式被陈述，但是可以推断主语为“you(你)”或“user(用户)”。知识图生成管理器140被配置为将NLP的输出布置到语义注释文件中以用于由搜索引擎参考。

聚合链接数据146表示到文档集合(即，文档数据132)中的主题和子主题的链接中的所有链接。知识图生成管理器140被配置为提取和聚合这些链接，从而消除重复并且生成编索引方案，通过该编索引方案在知识图中引用链接。

搜索查询日志获取管理器150被配置为获取搜索查询日志数据152。在一些实现中，搜索查询日志获取管理器150使用网络接口122、经由网络连接获取搜索查询日志数据152。在一些实现中，搜索查询日志获取管理器150经由存储介质(例如，磁盘驱动、闪存驱动等)获取搜索查询日志数据152。

搜索查询日志数据152表示由用户搜索文档集合而被生成的搜索查询日志。例如，某些用户录入查询，并且作为响应，单击由搜索引擎提供的链接。作为响应，某些用户可能找不到有用的链接，并且可能会采取另一动作，诸如尝试另一查询或不点击任何链接。搜索查询日志数据152包括查询数据154和链接数据156。

查询数据154表示由多个用户在尝试查找文档集合中的内容时输入的查询。在一些实现中，查询数据154采用被形成为离散单词的字符的字符串的形式，如通常在搜索查询中被表达的。搜索查询日志获取管理器150收集由用户输入到搜索引擎中的查询，并且将它们存储在中央日志中。在一些实现中，搜索查询日志获取管理器150格式化用于自然语言处理的收集的查询以从查询提取诸如<S，P，O>三元组的语义信息。以这样的语义形式存储查询提供了查询与知识图之间的连接。

链接数据156表示响应于查询而被选择的链接。链接包括指示存储有文档的位置(例如，在远程web服务器上)的URL。每个链接对应于定义文档的内容的主题。在一些实现中，链接包括与文档中的子主题的位置对应的锚点。例如，锚点可以用“#”符号而被表示，后面是链接中的URL之后的子主题中的字符。

答案建议前瞻索引管理器160被配置为基于知识图数据142和搜索查询日志数据152来产生答案建议前瞻索引数据162。答案建议前瞻索引数据162表示响应于由用户输入的查询而向用户提供到文档集合的内容的链接或一组链接的答案建议前瞻索引。因为知识图数据142和搜索查询日志数据152具有语义注释(例如，<S，P，O>三元组)，所以用户查询不需要在主题标题或相关联的内容中包括关键字。相反，答案建议前瞻索引数据162提供与查询输入在语义上相关的主题和子主题。答案建议前瞻索引数据162包括语义等同术语数据164。

语义等同术语数据164表示因为已知它们与相同的链接相关联而被发现为在语义上等同的短语。例如，短语“remove red eye(去除红眼)”、“filter reflections fromeyes in pictures(过滤图片中的来自眼睛的反射)”和“eliminate red eyes(消除红眼)”都可以与到主题“How to remove red eyes from photographs(如何从照片去除红眼)”的链接相关联。每个短语以及主题具有已经针对主题标题的语义注释而被分析的语义注释。通过分析诸如“How do I remove the devil eyes(如何去除恶魔之眼)”等的新输入查询的语义内容，答案建议前瞻索引管理器160能够向用户显示链接，即使查询包括不在搜索查询日志中的单词。

用户查询获取管理器170被配置为从搜索引擎获取表示用户查询的用户查询数据172。在一些实现中，用户查询获取管理器170被配置为从用户查询提取语义内容(例如，<S，P，O>三元组)。

答案卡呈现管理器180被配置为响应于仅响应于查询而呈现单个链接或者用户从呈现的多个链接选择链接而在答案卡中显示内容。答案卡是被专门配置用于呈现这样的内容的窗口。在一些实现中，答案卡可以采取不同的形式，这取决于相关联的主题是“how to(如何)”主题还是“what is(是什么)”主题。

在一些实现中，显示管理器182被配置为在答案卡内向显示设备190发送内容。

计算机120的组件(例如，模块、处理单元124)可以被配置为基于一个或多个平台(例如，一个或多个类似或不同的平台)来操作，平台可以包括一种或多种类型的硬件、软件、固件、操作系统、运行时库等。在一些实现中，计算机120的组件可以被配置为在设备集群(例如，服务器群)内操作。在这样的实现中，计算机120的组件的功能和处理可以被分布到设备集群的若干设备。

计算机120的组件可以是或者可以包括被配置为处理属性的任何类型的硬件和/或软件。在一些实现中，被示出在图1中的计算机120的组件中的组件的一个或多个部分可以是或者可以包括基于硬件的模块(例如，数字信号处理器(DSP)、现场可编程门阵列(FPGA)、存储器)、固件模块和/或基于软件的模块(例如，计算机代码模块、可以在计算机上被执行的一组计算机可读指令)。例如，在一些实现中，计算机120的组件的一个或多个部分可以是或者可以包括被配置为由至少一个处理器(未示出)执行的软件模块。在一些实现中，组件的功能可以被包括在与图1所示的那些不同的模块和/或不同的组件中。

在一些实施例中，计算机120的一个或多个组件可以是或者可以包括被配置为处理被存储在存储器中的指令的处理器。例如，文档集合获取管理器130(和/或它的一部分)、知识图生成管理器140(和/或它的一部分)、搜索查询日志获取管理器150(和/或它的一部分)、回答建议前瞻索引管理器160(和/或它的一部分)、用户查询获取管理器170(和/或它的一部分)、答案卡呈现管理器180(和/或它的一部分)、以及显示管理器182(和/或它的一部分)可以是被配置为执行与实现一个或多个功能的过程有关的指令的处理器和存储器的组合。

在一些实现中，存储器126可以是任何类型的存储器，诸如随机存取存储器、磁盘驱动存储器、闪存等。在一些实现中，存储器126可以被实现为与编辑计算机120的组件相关联的多于一个存储器组件(例如，多于一个RAM组件或磁盘驱动存储器)。在一些实现中，存储器126可以是数据库存储器。在一些实现中，存储器126可以是或者可以包括非本地存储器。例如，存储器126可以是或者可以包括由多个设备(未示出)共享的存储器。在一些实现中，存储器126可以与网络内的服务器设备(未示出)相关联，并且被配置为服务于编辑计算机120的组件。如图1中所示，存储器126被配置为存储各种数据，包括文档数据132、知识图数据142、搜索查询日志数据152、语义等同术语数据162和用户查询数据172。

图2是描绘针对文档集合中的内容的查询创建语义前瞻索引的示例过程200的流程图。过程200针对帮助系统中的帮助文档集合而被描述，但是过程200可以被应用于诸如企业内联网的任何文档集合。过程200可以由结合图1描述的软件构造来执行，这些软件构造驻留在计算机120的存储器126中并且由一组处理单元124运行。

在202处，文档集合获取管理器130获取帮助文档集合。

在204处，知识图生成管理器140对帮助文档进行爬行(crawl)、过滤和注释以产生以markdown/标记语言(MDML)被格式化的文档集合，过滤了不相关的文本。对帮助文档的这种过滤和注释的进一步细节关于图4被更详细地描述。

在206处，知识图生成管理器140针对文档集合中的每个帮助文档生成文档对象模型(DOM)。如关于图5和图6所述，文档的DOM是主题、子主题以及到与主题和子主题相关联的内容的链接的集合。

在208处，知识图生成管理器140针对每个帮助文档生成知识图，即，对应于来自DOM的、针对与该主题相关联的文档的主题。如关于图7所述，知识图是指到与主题相关联的文档中的内容的链接的聚合索引以及内容本身以及到可能与主题有某些关联的其他主题的链接。

在210处，知识图生成管理器140形成用于帮助文档集合的序列化知识图。格式化序列化知识图以输入到NLP流水线中。

在212处，知识图生成管理器140将序列化知识图分割成多个文件以输入到NLP流水线中。然后，NLP流水线可以并行地对每个分割执行自然语言处理。

在214处，NLP流水线对每个分割执行映射/缩减操作以针对分割中的每个句子产生<S，P，O>三元组。

在216处，知识图生成管理器140将<S，P，O>三元组合并到序列化知识图中。通过合并，语义注释文档链接到序列化知识图，使得每个句子与其三元组相关联。

在218处，答案建议前瞻管理器160基于具有语义注释的序列化知识图来生成语义前瞻建议。

在220处，答案建议前瞻管理器160针对语义前瞻建议部署知识图主题答案。

在222处，答案建议前瞻管理器160针对弹性搜索文本字段索引生成权重。计算权重以使用户查询产生精确地解决查询意图的链接和/或答案卡的可能性最大化。

图3是示出要作为答案建议前瞻索引的一部分而被处理的示例帮助文档202的示图。如图3中所示的帮助文档202具有定义文档中的内容的主题标题310(“ADD TEXT(添加文本)”)。在这种情况中，主题标题310具有简单谓语(“add(添加)”)和简单宾语(“text(文本)”)，并且描述软件工具中的特征或特征系列。文档202描述“how to(如何)”帮助场景。

在主题标题310下面是与主题标题310对应的文本内容312。文本内容312包括描述特征或特征集合的句子。这些句子以及主题标题310将针对NLP流水线重新格式化以及由NLP流水线处理，使得主题310和内容312的语义结构可以被标准化为公共平台，例如，<S，P，O>三元组。

在内容312下面是写为“About Text(关于文本)”的子主题标题320。子主题320标题与主题标题310相关并且可以使用锚点来被链接到，例如，“#”后跟标识文档202中放置子主题标题的位置的字符。还存在与子主题标题320对应的文本内容322。与文本内容312一样，文本内容322包括将针对NLP流水线重新格式化以及由NLP流水线处理的句子，使得主题310和内容312的语义结构可以标准化为公共平台，例如<S，P，O>三元组。

文档202还具有另一子主题标题(“Add Text(添加文本)”)和与该子主题标题对应的文本内容332。在这种情况中，文本内容332包括“how to(如何)”过程中的枚举步骤。NLP流水线处理操作可以将句子标识为步骤并且相应地格式化包括该文本的答案卡。

图4是描绘从帮助文档集合202创建语义注释文件的过程204的细节的流程图。语义注释文件412用于提取在响应于用户查询而标识和呈现答案卡时使用的语义前瞻索引的主题、子主题和链接信息。过程204可以由结合图1描述的软件构造来执行，这些软件构造驻留在计算机120的存储器126中并且由一组处理单元124运行。

在404处，知识图生成管理器140对文档集合202中的每个文档执行爬行操作以标识最终在知识图中组织的文本语料库。

在406处，知识图生成管理器140以Markdown标记语言(MDML)对文档集合中的每个文档执行重新格式化操作以产生格式化文档集合。MDML是一种轻量级标记语言，其具有人类可读性并且可转换为标准标记语言，诸如XHTML或富文本格式(RTF)。

在408处，知识图生成管理器140对格式化文档集合中的每个格式化文档的所提取的文本语料库执行发现操作以标识该文档中的非信息内容。为了实现这一点，知识图生成管理器140获取(例如，学习)模型以过滤掉这样的内容。这样的语言的示例包括法律免责声明和联系信息。

在410处，知识图生成管理器140对格式化文档集合中的每个格式化文档的所标识的非信息内容执行过滤或去除操作。在一些实现中，用于从文本语料库中过滤掉这样的内容的模型是术语频率逆文档频率(TF-IDF)算法。在一些实现中，知识图生成管理器140计算文本语料库的逆文档频率(IDF)：

其中t是候选噪声项(即，N元语法，例如“联系公司支持”)，并且N＝|D|是文档集合中的文档的总数。分母中的项|{d∈D：t∈d}|是出现候选噪声项t的文档的数目，即非零项频率。

在412处，知识图生成管理器140对格式化文档集合中的每个格式化文档执行解析操作以标识主题标题、子主题、文本描述和链接。解析操作产生语义注释文件414，语义注释文件414组织所标识的主题标题、子主题、文本描述和链接以供建议语义前瞻索引进行参考。在一些实现中，知识图生成管理器140使用Beautiful Soup包来为主题标题、子主题、文本描述和链接的标识产生解析树。

图5是描绘从语义注释文件414创建文档对象模型(DOM)集合的过程206的细节的流程图。每个DOM包括顶级主题和相关子主题。过程206可以由结合图1描述的软件构造来执行，这些软件构造驻留在计算机120的存储器126中并且由一组处理单元124运行。

在502处，知识图生成管理器140标识与文档集合202中的每个文档相关联的语义注释文件414的主题和子主题。

在504处，知识图生成管理器140将所标识的主题和子主题从文档集合202中的每个文档布置到DOM 506中。与文档集合202中的文档对应的DOM具有主题和子主题的层级组织。在一些实现中，DOM 506以递归JSON格式表示。

图6是描绘从与文档集合中的相应文档对应的每个DOM创建文档知识图表(KG)集合的过程208的细节的流程图。每个文档KG包括标识到文档集合中的每个文档中的内容的链接的链接标识符。过程208可以由结合图1描述的软件构造来执行，这些软件构造驻留在计算机120的存储器126中并且由一组处理单元124运行。

在602处，知识图生成管理器140聚合并且索引在语义注释文件414中标识的链接。在聚合链接时，知识图生成管理器140标识冗余(例如，非唯一)链接并且从主参考链接列表去除它们。从该主列表，知识图生成管理器140从主参考列表生成链接的公共索引。

在604处，知识图生成管理器140生成主题之间的链接。这样，与与文档对应的主题对应的KG可以提供到其他主题的链接列表。以这种方式，知识图生成管理器140使用链接索引从每个DOM产生文档KG 606。

图7是示出JSON格式的示例DOM 506的示图。如图7中所示，DOM在层次结构的顶部列出主题标题702(“Add text(添加文本)”)。在层次结构的下面是子主题704，例如，“Abouttext(关于文本)”、“Add text(添加文本)”、“Use the Text on Shape Tool(使用形状工具上的文本)”等。在与子主题704相同的分层级别处是主题的文本描述706(其对应于图3中的文本内容312)。

每个子主题704包括链接引用708，例如，具有“About text(关于文本)”子主题的“1585”等。每个链接引用708取自链接的公共索引，并且对应于产生子主题的链接。

子主题的文本描述在710(“About text(关于文本)”)和712(“Add Text(添加文本)”)处示出。文本描述的每一行对应于在文档集合202中的相应文档中描述的过程中的步骤。此外，文本描述的一些行包括链接引用(例如，子主题710文本描述的第[0]行中的“633”)。这些链接引用对应于文档集合202中的相应文档中的实际链接。

针对其他主题存在“See also(另请参见)”条目714。在扩展条目714时，可以观察到到文档集合202中的其他文档中的其他主题和子主题的链接。此外，在716处，存在到未被包括在文档集合202中的其他内容的全局链接列表。

图8是描绘创建用于自然语言处理(NLP)的格式化KG的过程210的细节的流程图。过程210可以由结合图1描述的软件构造来执行，这些软件构造驻留在计算机120的存储器126中并且由一组处理单元124运行。

在802处，知识图生成管理器140针对文档集合202中的每个文档对KG执行聚合操作以产生平坦化KG 806。平坦化或序列化KG 806以适合于提交给NLP流水线的格式布置。这样的NLP流水线将解析每个主题文本描述(例如，文本描述706)，并且然后执行从文本描述的语义标识和提取(例如，<S，P，O>生成)。

在804处，知识图生成管理器140记录所有链接引用和相应链接(即，URL和链接锚)。该记录将允许从用户接收的搜索结果将用户直接带到文档集合202中的文档中的相关内容。在一些实现中，引用和链接以JSON格式记录。

图9是示出如上面关于图8所述的示例性平坦化KG 806的一部分900的示图。该部分可以与图7中所示的JSON格式的DOM 506进行比较。如图9中所示，平坦化KG 806在单独的行上列出每个主题标题、子主题和文本描述。每一行具有附图标记902以代替JSON格式的分层布置。

平坦化KG 806还具有指示符904，指示符904指示平坦化KG 806中的一行是“Topix”、“Doctx”、“Triples(三元组)”或“Index(索引)”类型。“Topix”类型是指与主题标题相关联的行。“Doctx”是指与文本内容相关联的行。“Triples”是指与将针对语义内容进行解析的文本内容相关联的行。“Index”是指与子主题相关联的行。

平坦化KG 806还具有与文档集合202和链接引用908的文档的DOM结构对应的分层DOM路径906。

图10是描绘对格式化KG 806执行语义分析的过程212的细节的流程图。过程212可以由结合图1描述的软件构造来执行，这些软件构造驻留在计算机120的存储器126中并且由一组处理单元124运行。

在1002处，NLP流水线(例如，Adobe SedonaNLP)对格式化KG 806执行MAP/REDUCE分割操作以产生N个单独文件，其中N是对其执行语义分析的处理器核的数目。在一些实现中，N取值至少为8。在一些实现中，N至少为16。在一些实现中，N是52。这样的分割是有利的，因为文档集合202可以具有数百个文档，每个文档包括大约10-20个子主题、描述和详细说明。格式化KG 806可以包括将被解析和注释的数十万个主题、子主题、描述和指令。

在1004处(即，图2中的214)，NLP流水线并行地对N个单独文件中的每个执行语义分析。这种分析涉及生成MAP/REDUCE脚本，该脚本将N个单独文件中的每个分派给相应的MAP过程实例以便并行执行。在MAP过程实例处执行MAP/REDUCE脚本产生N个映射文件。然后将N个映射文件输入到相应的REDUCE过程实例中——在一些实现中，在MAP过程实例中生成的密钥的排序过程之后——以从平坦化KG 806创建关键字、短语和动词/宾语<S，P，O>术语以用于最终关键字搜索和建议索引。

在1006处，NLP流水线将每个主题和子主题的所有NLP注释(例如，<S，P，O>术语)收集到关键字搜索和建议索引1008中。NLP注释由ID针对文档集合202中的每个文档的每个主题和相关子主题进行标识。在一些实现中，NLP注释类型如下：

·exprType＝＝ID指示KG中的主题元素。元素如下：

·exprPOS-句子/短语表达式的词性标记元素

·exprRole-expr元素是主语、谓语(例如，动词或介词)还是宾语的指示符

·exprType-指示元素是名词(NX)、动词(VX)、介词(IN)还是形容词(AX)表达式的注释然后，将整个文档集合202中的所有主题和子主题聚合成主文档索引。

图11是示出示例NLP流水线过程1100的流程图。过程1100可以由结合图1描述的软件构造来执行，这些软件构造在一些实现中驻留在计算机120的存储器126中并且由一组处理单元124运行。

文本内容1102(例如，句子)提供输入文本，输入文本首先通过文本转换模块1104被标准化为UTF-8，然后通过区段分段器1106、段落分段器1108、语句分段器1110和单词分词器1112分段并且标记化为语法语言单元。应用停用词过滤器1114和词干1116以生成输入文本内容元素1118的结构化模型。然后，该文本模型1118由文本模型索引1120索引并且被发送到一个或多个NLP分析流程。在一些实现中，这些流程包括N元语法提取器1126、N元语法分类器1128、主题提取器1130、主题分类器和N元语法持续程序1134。在一些实现中，这些流程包括部分语音树库触发器1136、<S，P，O>三元组提取器1138、语法变换器1140、三元组数据库1142、命名实体提取器1144、上/下本体模块1146、实体分类器1148和语言注释持续程序1150。

在一些实现中，后者流程(即，1136-1150)用于在1136处使用词性标签(例如，使用Penn Treebank)来注释每个主题标题和描述的单词，然后使用1138从注释文本提取<主语，谓语，宾语>语义三元组，同时使用外部词词典本体(诸如WordNet和自定义本体1144和1146)标记所有发现的名词术语。所标记的动词、名词和形容词术语被实体分类器1148分类和注释以指示它们对特定主题或子主题的词汇表角色，并且然后以JSON-LD形式表示的整个注释输出在1150被保存以供后续处理。

图12是描绘生成具有注释1206的序列化KG的过程216的细节的流程图。过程216可以由结合图1描述的软件构造来执行，这些软件构造驻留在计算机120的存储器126中并且由一组处理单元124运行。

在1202处，知识图生成管理器140使用关键字搜索和建议索引1008的<S，P，O>三元组以生成具有JSON格式的<S，P，O>三元组注释的序列化文件。由于在1002(图10)处生成的每个分割文档由单独的NLP MAP处理处理，因此在一些实现中，在1150(图11)处保存的所生成的JSON文件中的所有<S，P，O>结果注释被组合回最终聚合KG注释文件以生成<S，P，O>索引。该索引允许用户：

·查找适用于单个宾语(例如，图像、掩码)的所有动词动作(例如，创建、编辑、去除)，或者

·针对单个动词动作(例如，更新)，查找该动词可以被应用于的所有相关宾语(例如，颜色曲线、色调和饱和度、肤色的颜色)。

从NLP MAP/REDUCE处理阶段的生成的主题<S，P，O>注释以JSON格式表示。解析未解析的父节及其相应的引用ID锚点。子主题“Define path for spin blur(定义旋转模糊路径)”的示例NLP和谓语、宾语注释如下：

在1204处，知识图生成管理器140将这些<S，P，O>注释添加到序列化KG 806以产生具有注释的序列化KG1206。总共得到的这些<S，P，O>注释产生多对一的关系以用于创建动词到名词搜索结果。查找针对特定名词宾语(例如，“path(路径)”)的所有动词命令(例如，“appear in(出现在)”、“convert between(在……之间转换)”、“create(创建)”等)的示例搜索体验如下，其中斜体短语是与相应搜索结果对应的主题：

Paths panel<＝appear in–drawing modes(路径板<＝出现在–绘制模式)

paths<＝Convert between–see also(路径<＝在……之间转换–另外参见)

path to selection<＝convert–understanding shapes and paths(到选择的路径<＝转换–理解形状和路径)

paths to selection borders<＝Convert–see also(到选择边界的路径<＝转换–另外参见)

path<＝Create type along or inside–create type along or inside a path(路径<＝沿着或在内部创建类型–沿着路径或在路径内部创建类型)

path<＝define–spin blur(路径<＝定义–肤色)

path<＝duplicate–create panorama ocr.png(路径<＝复制–创建全景ocr.png)

paths<＝edit–tutorials photography jumpstart(路径<＝编辑–摄影教程安装)

path<＝fill or stroke–understanding shapes and paths(路径<＝填充和描边–理解形状和路径)

path<＝find out how to create type along-tutorials photographyjumpstart(路径<＝查找如何沿着……创建类型–摄影教程安装)

paths<＝learn how to convert between-tutorials photography jumpstart(路径<＝学习如何在……之间转换-摄影教程安装)

paths<＝learn how to edit or adjust-tutorials photography jumpstart(路径<＝学习如何编辑或调节-摄影教程安装)

path<＝move-create panorama ocr.png(路径<＝移动-创建全景ocr.png)

搜索体验类似地允许用户查找动词命令(例如，“define(定义)”)可以应用于使用动词与名词之间的一对多关系的所有产品名词宾语(例如，“perspective planes(透视平面)”、“additional data sets(附加数据集)”、“constraints(约束)”)。如下所示，斜体短语是与相应搜索结果对应的主题：

define and adjust＝>perspective planes–define and adjust perspectiveplanes in vanishing point(定义和调节＝>透视平面–在消失点中定义和调节透视平面)

define＝>additional data sets–define a data set(定义＝>附加数据集–定义数据集)

define＝>constraints to indicate straight lines-create panoramaocr.png(定义＝>用于指示直线的约束–创建全景ocr.png)

define＝>data set–define a data set(定义＝>数据集–定义数据集)

define＝>feathered edge–soften the edges of selections(定义＝>羽状边缘–软化选择的边缘)

define＝>four corner nodes of plane surface-create panorama ocr.png(定义＝>平面表面的四个角节点–创建全景ocr.png)

define＝>horizon line–tutorials photography jumpset(定义＝>水平线–摄影教程安装)

define＝>path–spin blur(定义＝>路径–肤色)

define＝>planes–adjust perspective(定义＝>平面–调节视角)

define＝>point size unit–specify type size(定义＝>点大小单元–指定类型大小)

define＝>specific RGB–about color profiles(定义＝>特定RGB–关于颜色配置文件)

define＝>variables–import a data set(定义＝>变量–导入数据集)

define＝>variables–define variables(定义＝>变量–定义变量)

图13是描绘从具有注释的序列化KG1206生成主索引建议前瞻索引1310的过程218的细节的流程图。过程218可以由结合图1描述的软件构造来执行，这些软件构造驻留在计算机120的存储器126中并且由一组处理单元124运行。

在1302处，答案建议前瞻索引管理器160对搜索查询日志(例如，图1中的搜索查询日志数据152)执行文本挖掘操作以标识公共搜索问题。在一些实现中，文本挖掘操作基于搜索查询日志中的问题或关键字频率。公共问题用于发现和提取搜索系统或文档集合202未知的新用户词汇表。例如，使用该技术，诸如“how do I remove devil eyes？(我如何去除恶魔之眼？)”等问题(其中“devil eyes(恶魔之眼)”是未知术语)很容易被发现并且可以映射到关于“red-eye removal(红眼消除)”工具的等效问题。

在1304处，答案建议前瞻索引管理器160使用序列化KG1206来标识和形成(回答，链接)对。

在1306处，答案建议前瞻索引管理器160使用公共搜索问题作为要与答案建议中的基础单词相关联的候选术语。在一些实现中，这种使用可以通过文档集合202和用于主题、标题和/或句子的新学习词汇表来完成。

在1308处，答案建议前瞻索引管理器160策划(curate)从候选术语到正式文档单词的映射以产生主索引建议前瞻索引1310。候选术语由文本挖掘发现。在一些实现中，策划可以由内容编辑器执行。策划可以允许新的词汇表映射是评论并且监督的方式被添加。

用于自动映射从用户搜索日志学习的候选词汇表术语的过程可以通过以下方式来完成：增加被文本挖掘的查询搜索日志数据的量并且然后统计地确定术语计数阈值以决定何时接受要与对应于特定主题的文档集合202中的文档上的正式基础术语相关联的新术语。

为了自动获取客户使用的新词汇表术语，处理和聚类由(查询词，链接)对组成的查询日志条目对集合以确定对应于特定主题页面的文档集合202中的文档的每个主题或子主题的等同词语或关键术语。然后选择出现计数高于基于样本的阈值的所发现的措辞或候选术语，并且将其包括在知识图主题、子主题、<S，P，O>三元组注释和描述索引中。

返回图2，在220处，答案建议前瞻管理器160部署用于语义前瞻建议的知识图主题答案。该部署将答案发送到前端浏览器或移动电话客户端。如果需要，该过程允许问题/答案建议前瞻管理器160独立于后端搜索系统进行工作。所生成的答案建议前瞻索引1310支持广义概念匹配，而不仅仅是像现有搜索系统或开源前瞻模块那样严格的关键字匹配。

图14是描绘从搜索查询日志1402生成用于字段加权搜索结果的最佳权重1410的过程222的细节的流程图。过程222可以由结合图1描述的软件构造来执行，这些软件构造驻留在计算机120的存储器126中并且由一组处理单元124运行。

在1404处，答案建议前瞻管理器160生成与四种类型的文档文本元素的所有可能的权重组合对应的矩阵ω，以便在搜索期间利用字段级索引：主题、宾语、谓语和文本描述。权重的原因在于，上面标识的文档文本元素具有不同的重要性。权重用于索引和查询处理。权重的选择通过使用基于实际(查询，链接)对的问题/答案对来执行。在一些实现中，这样的对由产品文档质量团队创建。在一些实现中，这样的对在Adobe搜索日志中寻找。这些对用于在查询处理期间确定搜索引擎的索引字段权重，以显著改善答案或搜索结果相关性。

因此，矩阵ω具有四列和M⁴行，其中针对每个权重，M是在0和1之间的样本的数目。例如，当M＝3时，矩阵ω采用以下形式：

矩阵ω的每列对应于相应的文档文本元素：主题标题字段权重ω_topic、<S，P，O>谓语字段权重ω_predicate、<S，P，O>宾语字段权重ω_object和主题文本字段权重ω_text。

在1406处，答案建议前瞻管理器160基于使用来自矩阵ω的行的权重的搜索函数输出是否产生正确的基本事实查询来形成优值函数。基本事实是人类策划的并且已知是金标准的一组对(查询q_i，链接L_GTi)。也就是说，基本事实表示在用户将查询输入到搜索引擎中之后由用户选择的一组链接。例如，响应于查询q_i＝“add caption to image(向图像添加标题)”，用户选择链接L_GTi＝https：//helpx.adobe.com/photoshop-elements/using/add-text.html。

考虑上述定义权重的搜索引擎的搜索函数可以定义如下：

其中S_k，k∈{1，2，…，m}是与搜索引擎返回的链接L_k对应的得分。也就是说，搜索引擎基于所使用的权重根据得分返回顶部m个链接。

确定哪些权重将返回最正确的基本事实查询是有意义的。在一些实现中，这样的确定可以使用以下优值函数来做出：

其中有K个基本事实，并且

L_k表示由f_search函数返回的链接。

在1408处，答案建议前瞻管理器160使用优值函数来标识使基本事实查询的数目最大化的矩阵的行1410。因此，ω′表示使基本事实查询的数目最大化的四个权重的值。在一些实现中，已经发现这样的权重值可以相等(ω_topic，ω_predicate，ω_object，ω_text)＝(0.44，0.22，0.22，0.11)。

以上讨论已经针对将基于用户的意图来提供对用户查询的答案的形成答案建议前瞻索引和搜索引擎。然而，搜索引擎的前端接受查询作为输入，并且在一些实现中提供直接提供对用户想要的用户查询的答案的答案卡。

图15是描绘响应于用户查询而向用户呈现答案卡的过程1500的细节的流程图。过程1500可以由结合图1描述的软件构造来执行，这些软件构造驻留在计算机120的存储器126中并且由一组处理单元124运行。

在1502处，答案卡呈现管理器180生成“how to(如何)”和“what is(是什么)”答案卡作为JSON格式化文件。每个答案卡基于与文档集合202中的文档的主题或子主题对应的文本描述。答案卡关于图16A和图16B进一步详细描述。

在1504处，答案卡呈现管理器180定义启发式方法以标识帮助指令步骤。例如，一种启发式方法涉及将以“<number>”或“Step<number>”开头的文本分类为步骤。其他启发式方法包括在帮助网页文本中学习标记，该标记指示步骤元素，例如，CSS类名称，诸如“step-title”或“headline”。

在1506处，答案卡呈现管理器180通过提取步骤节点的父标题DOM节点来提取过程标题。针对每个步骤节点，包括步骤的跨度以包括更多DOM节点。作为示例，在1502处考虑JSONHow-To(如何)表示。在列表中，以“1.To apply a Curves adjustment…(1.为了应用曲线调节...)”、“2.Do one of the following(2.执行以下之一)”等开头的DOM节点被提取作为步骤(通过启发式规则)。然后，扩展每个步骤的跨度——例如，步骤2的跨度被扩展为包括直到步骤3的下一行“Click the Curves Icon(点击曲线图标)”。一旦标识出步骤，流水线就通过提取步骤节点的父标题DOM节点来提取它们的过程标题。在上面的示例中，提取“Adjust image color and tone with Curves(用曲线调节图像颜色和色调)”作为步骤的标题。

在1508处，答案卡呈现管理器180创建并且保持答案卡的知识库，从知识库中能够检索针对任何给定查询的最佳答案。使用该知识库，针对任何输入问题意图，对问题数据库的搜索使用语义相似性搜索来定位规范问题和相关答案卡。

在1510处，答案卡呈现管理器180在输出设备(例如，图1中的显示器190)上将答案卡呈现给用户。

图16A是以JSON格式示出如上所述的示例“how to(如何)”答案卡1600的示图。在这种格式中，存在“steps(步骤)”字段，其分离出如上所述的过程中的每个步骤。

图16B是以JSON格式示出示例“what is(是什么)”答案卡1650的示图。在这种情况中，存在“answer contents(答案内容)”字段，其以“term(术语)”和“similar terms(类似术语)”作为子字段，后者通过查询日志来确定。

图17是示出执行本文中描述的改进技术的示例方法1700的流程图。方法1700可以由结合图1描述的软件构造来执行，这些软件构造驻留在计算机120的存储器126中并且由一组处理单元124运行。

在1702处，计算机120接收表示文档集合的文档数据，文档集合中的每个文档包括相应主题和与主题有关的内容。

在1704处，计算机120基于文档集合生成答案建议前瞻索引数据，答案建议前瞻索引数据表示多个术语/链接对，多个术语/链接对中的每个术语/链接对包括语义等同术语和到文档集合的内容的相应链接。

在1706处，计算机120接收用户查询字符串。

在1708处，计算机120响应于用户查询字符串，定位多个术语/链接对中的术语/链接对的语义等同术语，该语义等同术语基于用户查询字符串的语义等同性而被定位。

在1710处，计算机120向输出设备输出定位的术语/链接对的链接的表示。

已经描述了很多实施例。然而，应当理解，在不脱离本说明书的精神和范围的情况中，可以进行各种修改。

还应当理解，当元件被称为在另一元件上、连接到、电连接到、耦合到或电耦合到另一元件时，它可以直接在另一元件上、连接或耦合到另一元件，或者可以存在一个或多个中间元件。相反，当元件被称为直接在另一元件上，直接连接到或直接耦合到另一元件时，不存在中间元件。尽管在整个详细描述中可以不使用术语直接在……上、直接连接到或直接耦合到，但是被示出为直接在……上、直接连接到或直接耦合到的元件可以这样称呼。可以修改本申请的权利要求以叙述说明书中描述的或附图中示出的示例性关系。

虽然已经如本文中描述示出了所描述的实现的某些特征，但是本领域技术人员现在将想到很多修改、替换、改变和等同物。因此，应当理解，所附权利要求旨在覆盖落入实现的范围内的所有这样的修改和变化。应当理解，它们仅作为示例而非限制来呈现，并且可以进行形式和细节上的各种改变。除了互斥组合之外，本文中描述的装置和/或方法的任何部分可以以任何组合进行组合。本文中描述的实现可以包括所描述的不同实现的功能、组件和/或特征的各种组合和/或子组合。

另外，图中描绘的逻辑流程不需要所示的特定顺序或顺序次序来实现期望的结果。另外，可以提供其他步骤，或者可以从所描述的流程中删除步骤，并且可以向所描述的系统添加或从其去除其他组件。因此，其他实施例在以下权利要求的范围内。

Claims

1.一种计算机实现的方法，包括：

接收表示文档集合的文档数据，所述文档集合中的每个文档包括相应主题和与所述主题有关的内容；

针对所述文档集合中的每个文档，生成文档对象模型DOM集合中的相应DOM，所述相应DOM对应于每个文档，对应于每个文档的所述DOM包括主题、子主题集合和到每个文档的所述内容的链接；

聚合所述DOM集合以生成针对主题知识图的主链接列表，所述主链接列表包括到所述文档集合的所述内容的多个唯一链接；

基于所述文档集合来生成答案建议前瞻索引数据，所述答案建议前瞻索引数据表示多个术语/链接对，其中所述答案建议前瞻索引数据包括所述主题知识图和所述主链接列表；

接收用户查询字符串；

响应于接收到所述用户查询字符串，定位所述多个术语/链接对中的术语/链接对的语义等同术语，所述语义等同术语基于与所述用户查询字符串的语义等同性而被定位；以及

向输出设备输出定位的所述术语/链接对的链接的表示。

2.根据权利要求1所述的方法，其中生成所述答案建议前瞻索引数据包括：

基于所述文档集合来生成所述主题知识图数据，所述主题知识图数据表示主题知识图，所述主题知识图包括：(i)所述文档集合中的每个文档的所述相应主题和所述子主题集合，以及(ii)到所述文档集合的所述内容的所述链接，所述链接中的每个链接对应于所述文档集合中的每个文档的所述相应主题或所述子主题集合中的子主题中的一个。

3.根据权利要求2所述的方法，其中生成所述答案建议前瞻索引数据还包括：

生成表示对所述文档集合中的每个文档的所述主题和所述子主题集合的各个语义注释的语义注释数据，所述语义注释中的每个语义注释包括谓语集合中的相应谓语和宾语集合中的相应宾语；

针对所述谓语集合中的每个谓语，标识当被与所述谓语组合时与所述文档集合中的每个文档的主题或所述子主题集合中的子主题中的一个对应的所述宾语集合中的至少一个宾语；以及

针对所述宾语集合中的每个宾语，标识当被与所述宾语组合时与所述文档集合中的每个文档的主题或所述子主题集合中的子主题中的一个对应的所述谓语集合中的至少一个谓语。

4.根据权利要求2所述的方法，其中生成所述主题知识图数据包括：

格式化所述DOM集合以产生针对自然语言处理NLP流水线而被格式化的聚合平坦化知识图。

5.根据权利要求4所述的方法，其中所述聚合平坦化知识图包括所述DOM集合中的每个DOM的所述主题和子主题集合中的至少一个，所述NLP流水线被配置为产生<S，P，O>三元组，所述<S，P，O>三元组包括针对所述DOM集合中的每个DOM的所述主题和子主题集合中的每个的主语、谓语和宾语。

6.根据权利要求4所述的方法，其中生成所述主题知识图数据还包括：

分割所述聚合平坦化知识图以产生多个聚合平坦化知识图部分；以及

通过所述NLP流水线对所述多个聚合平坦化知识图部分中的每个聚合平坦化知识图部分执行自然语言处理以产生所述知识图，所述自然语言处理对所述多个聚合平坦化知识图部分中的每个聚合平坦化知识图部分并行地被执行。

7.根据权利要求4所述的方法，其中生成所述DOM集合中的所述DOM包括：

标识所述文档集中的每个文档的非信息内容；以及

去除所述文档的所述非信息内容以产生所述主题、所述子主题集合和到所述文档的所述内容的所述链接，所述去除包括将术语频率逆文档频率TF-IDF算法应用于所述文档。

8.根据权利要求4所述的方法，其中生成所述DOM集合中的所述DOM包括：

重新格式化所述文档集合中的每个文档以产生以Markdown标记语言MDML格式化的文档。

9.一种计算机程序产品，包括非暂态存储介质，所述计算机程序产品包括代码，所述代码在由被配置为基于由用户输入的查询的语义解释来将所述用户引导到内容的计算机的处理电路执行时，使得所述处理电路执行方法，所述方法包括：

获取搜索查询日志数据，所述搜索查询日志数据表示用户查询数据与到所述文档集合的内容的链接之间的映射，所述用户查询数据表示多个用户查询；

对所述搜索查询日志数据执行文本挖掘操作以产生针对所述文档集合中的文档的主题或子主题集合中的相应子主题中的一个的公共用户查询集合，所述主题和所述子主题集合中的每个与对应于相应链接的相应内容相关联；

基于所述文档集合来生成答案建议前瞻索引数据，所述答案建议前瞻索引数据表示多个术语/链接对，所述多个术语/链接对中的每个术语/链接对包括到所述文档集合的内容的链接，其中所述答案建议前瞻索引数据至少部分地基于使用搜索查询日志数据而被获取的公共用户查询集合而被生成；

接收用户查询字符串；

向输出设备输出定位的所述术语/链接对的链接的表示。

10.根据权利要求9所述的计算机程序产品，其中生成所述答案建议前瞻索引数据包括：

基于所述文档集合来生成主题知识图数据，所述主题知识图数据表示主题知识图，所述主题知识图包括：(i)所述文档集合中的每个文档的相应主题和子主题集合，以及(ii)到所述文档集合的所述内容的链接，所述链接中的每个链接对应于所述文档集合中的每个文档的相应主题或所述子主题集合中的子主题中的一个。

11.根据权利要求10所述的计算机程序产品，其中生成所述答案建议前瞻索引数据还包括：

形成以下两项的对：(i)所述公共用户查询集合中的相应用户查询，以及(ii)到所述文档集合的内容的相应链接，每个对基于所述主题知识图的注释的主题和子主题集合，所述注释的主题和子主题集合包括主题标题和<S，P，O>三元组，所述<S，P，O>三元组包括针对所述主题和所述子主题集合中的每个的主语、谓语和宾语，并且

其中产生到所述文档集合中的特定内容的链接包括：

标识用户查询和到所述内容的链接的对，所述对是与到接收的所述用户查询字符串的谓语和宾语的谓语和宾语的语义最佳匹配。

12.根据权利要求11所述的计算机程序产品，其中形成用户查询和到所述内容的链接的所述对包括：

生成与对应于所述用户查询和到所述内容的所述链接的所述对的所述主题标题的主题标题、主语、谓语和文本内容中的每个对应的相应权重，并且

其中标识作为与到接收的所述用户查询字符串的谓语和宾语的谓语和宾语的语义最佳匹配的所述用户查询和到所述内容的所述链接的所述对包括：

使用与所述公共用户查询集合的所述主题标题、所述主语、所述谓语和所述文本内容中的每个对应的相应权重来生成所述主题标题、所述主语、所述谓语和所述文本内容的线性组合，所述线性组合和与所述用户查询字符串对应的主题标题、主语、谓语和文本内容的相同的所述线性组合最紧密匹配。

13.根据权利要求12所述的计算机程序产品，其中生成与对应于所述用户查询和到所述内容的所述链接的所述对的所述主题标题的所述主题标题、所述主语、所述谓语和所述文本内容中的每个对应的所述相应权重包括：

生成具有多个行的矩阵，所述多个行中的每个行具有与所述主题标题、所述主语、所述谓语和所述文本内容的相应权重相等的元素；

针对所述公共用户查询集合的用户查询和到所述内容的链接的所述对中的每个对，形成优值函数，所述优值函数用以下各项作为自变量：(i)所述用户查询数据的搜索函数、到所述文档集合的内容的所述链接和所述矩阵的行，以及(ii)到所述文档集合的内容的特定链接，所述搜索函数返回链接作为输出，所述优值函数响应于所述搜索函数的链接输出等于所述特定链接而具有值1并且响应于所述搜索函数的所述链接输出不等于所述特定链接而具有值0；以及

标识使得所述优值函数呈现最大值的所述矩阵的所述行作为与所述主题标题、所述主语、所述谓语和所述文本内容中的每个对应的所述权重。

14.一种电子装置，被配置为基于由用户输入的查询的语义解释来将所述用户引导到内容，所述电子装置包括：

网络接口；

存储器；以及

控制电路，所述控制电路被耦合到所述存储器，所述控制电路被配置为：

基于所述文档集合来生成答案建议前瞻索引数据，所述答案建议前瞻索引数据表示多个术语/链接对，并且其中所述答案建议前瞻索引数据包括主题知识图，所述主题知识图包括针对一个或多个主题的、到与其他主题对应的内容的链接；

接收用户查询字符串；

向输出设备输出定位的所述术语/链接对的链接的表示；以及

显示与定位的所述术语/链接对的所述链接对应的答案卡，所述答案卡包括其中包含有与所述链接对应的所述内容的窗口。

15.根据权利要求14所述的电子装置，其中被配置为生成所述答案建议前瞻索引数据的所述控制电路还被配置为：

基于所述文档集合来生成主题知识图数据，所述主题知识图数据表示所述主题知识图，所述主题知识图包括：(i)所述文档集合中的每个文档的所述相应主题和子主题集合，以及(ii)所述链接，所述链接中的每个链接对应于所述文档集合中的每个文档的相应主题或所述子主题集合中的子主题中的一个。

16.根据权利要求14所述的电子装置，其中被配置为定位所述多个术语/链路对中的术语/链路对的所述语义等同术语的所述控制电路还被配置为：

定位包括指示过程的步骤的文本的内容；以及

标识所述内容对应的所述主题。