CN104572630B

CN104572630B - 确定代表自然语句的主题的术语的组合的方法和系统

Info

Publication number: CN104572630B
Application number: CN201410548666.0A
Authority: CN
Inventors: J.E.博斯蒂克; 小约翰.M.甘西; I.萨拉; C.M.特里姆
Original assignee: International Business Machines Corp
Current assignee: International Business Machines Corp
Priority date: 2013-10-16
Filing date: 2014-10-16
Publication date: 2017-08-29
Anticipated expiration: 2034-10-16
Also published as: CN104572630A; US20150106079A1; US9547640B2

Abstract

本发明涉及一种确定代表自然语句的主题的术语的组合的方法。确定从句子开头到句子中的与术语组合中的术语匹配的相应术语的相应的单词数量。将句子划分成自然语言短语，其包括复杂短语和从所述复杂短语中抽取的第一和第二简单短语。部分基于(a)从句子开头到句子中的与术语组合中的术语匹配的相应术语的相应的单词数量、(b)组合中的所有术语是否都包含在第一和/或第二简单短语中、以及(c)组合中的所有术语是否都包含在复杂短语中但是没有包含在第一和/或第二简单短语中，确定术语组合代表所述句子的主题有多好。

Description

确定代表自然语句的主题的术语的组合的方法和系统

技术领域

本发明涉及注释自然语言的文本，更具体而言涉及确定代表较大文本主体的主题的关键术语。

背景技术

自然语言处理(NLP)在文件的非结构性文本中标识实体或对象，并且确定这些实体之间的关系。NLP引擎通过使得所述非结构性文本中的语言符号或单词与含有关键术语和该关键术语的变体的词典中的条目相匹配来标识所述实体或对象以及该实体或对象的变体。该对应词典条目代表该非结构性文本中的实体或对象。人们就基于被匹配的条目的注释或概念是否应该被应用到所述语言符号或单词做出受限的固定(inflexible)布尔决定。

授予Salkeld等的美国专利US8,332,434教导了一种将一组单词映射到一组本体术语的系统。针对本体上下文的不同起始点确定与本体上下文中的一组单词对应的术语集合。使用考虑到一致性和通俗性的适合度函数，对从每个起始点开始获取的术语集合进行排序。如果具有非常高的术语排序的术语的本体与起始点本体具有无价值的(trivial)相关性，则被降低级别或丢弃。

发明内容

本发明的实施例是一种用于确定代表自然语句的主题的术语的组合的方法、计算机系统以及计算机程序产品。

确定从句子的开头到所述句子中的与所述术语的组合中的术语匹配的相应术语的相应的单词数量。所述句子被划分成多种多样的自然语言短语，所述自然语言短语包括复杂短语和从所述复杂短语中抽取的第一和第二简单短语。所述复杂短语比整个句子短。部分基于(a)从句子的开头到所述句子中的与所述术语的组合中的术语匹配的相应术语的相应的单词数量、(b)所述组合中的所有术语是否都包含在所述第一和/或第二简单短语中、以及(c)所述组合中的所有术语是否都包含在所述复杂短语中但是没有包含在所述第一和/或第二简单短语中，确定所述术语的组合代表所述句子的主题有多好。

本发明的实施例提供用于注释非结构性文本的自然语言处理，其增加了优于现有基于词典的语言符号匹配方法的查全率(recall)，同时生成置信度来评估精度。与现有注释方法的僵化布尔决定相比，该置信度提供了精度的更灵活评估

附图说明

图1是根据本发明实施例的用于生成术语的组合的置信度的系统的框图。

图2A-2B描述了根据本发明实施例的在图1的系统中包括的计算机系统中执行的置信度生成器程序的流程图。

图3描述了由根据本发明实施例的在图1的系统中包括的计算机系统中执行的置信度生成程序生成的分析树的实例。

图4根据本发明实施例的用于生成术语的组合的置信度的图1的系统中所包括的计算机系统的框图。

具体实施方式

概述

本发明的实施例确定置信度，该置信度指示了术语的预定组合代表诸如自认/人类语言的句子或句子组的非结构性自然语言文本的可能性。非结构性文本可以是对专家系统的采用在自然语言中的句子而不是关键词表达的用户查询，其中非结构性文本的整个含义与用户希望某些事情，诸如求助指导或产品，相关联。代替针对查询中的文本的整体搜索文档的搜索引擎，本发明的实施例使得查询的非结构性文本与被用来的搜索文档的预定术语或关键词的组合相关联。所述术语的预定组合有时被称为语义类型，并且根据最高置信度所选择的术语的具体组合可以被用作一组搜索术语。如下面详细描述的那样，用于代表性搜索术语的置信度基于与预定术语组合中的术语(或其同义词)匹配的非结构性文本中的语言符号(例如，单词)之间的接近度的两种不同测量。通常，在句子中彼此相近的那些单词(或其同义词)会比在句子中彼此更远的那些单词(或其同义词)被赋予更多的权重。而且，在包含在句子的复杂短语中的简单短语中一起出现的那些单词(或其同义词)会比在复杂短语中一起出现而不是在句子的任何简单短语中一起出现的那些单词(或其同义词)被赋予更多的权重。

用于生成术语组合的置信度的系统

图1是本剧本发明实施例的用于生成术语组合的置信度的系统10的框图。系统100包括计算机102，其可以包括任何类型的继续按系统，包括例如：个人计算机，大型计算机、膝上计算机、服务器等等。计算机102包括：中央处理单元(CPU)(未示出)、有形数据存储器件(未示出)以及内存(未示出)。计算机102利用CPU执行经由内存(未示出)存储在有形存储器件中的基于软件的置信度生成程序104(即，计算机程序指令)，以便接收自然语言的非结构性文本106以及生成相应的预定术语组合110的置信度108，其中所生成的置信度108指示了相应术语组合110为非结构性文本106的主题、概念或本质的可能性。置信度生成程序104(1)基于本体112中的规则标识在非结构性文本106中出现的术语组合110；(2)生成包括作为根部的非结构性文本106和作为节点的非结构性文本106的术语和短语的分析树114；(3)基于术语组合110中的术语距非结构性文本106的开头的距离确定第一接近度测量值；以及(4)基于该术语距分析树114的根部的距离确定第二接近度测量值。置信度生成程序104基于第一和第二接近度测量值生成术语组合110的置信度108。在一个实施例中，分析树114是通过深度分析形成的短语结构分析树。短语结构分析树中的每个节点包含单词或短语(例如名词短语或动词短语)。短语结构分析树中的每个短语可以包括一个或多个单词和/或一个或多个其他短语。

作为一个实例，计算机102接收作为非结构性文本106的用户提供的句子，其中，该句子查询制造商专家系统(未示出)关于由制造商提供的产品以及用户希望的进一步信息。置信度生成程序104标识具有与在用户提供的句子中出现的相应第一和第二单词匹配的第一和第二术语(或该术语的同义词)的预定术语组合110。置信度生成程序104生成分析树114使得该句子为分析树114的根部而该句子的单词、短语的元素以及短语为节点。置信度生成程序104基于第一单词距该句子的开头的第一距离与第二单词距该句子的开头的距离之间的差值来确定第一接近度测量值。置信度生成程序104基于分析树114的第一级别数和第二级别数之间的差值来确定第二接近度测量值。第一级别数是分析树114的第一单词与根部之间的级别数。第二级别数是分析树114的第二单词与根部之间的级别数。基于第一和第二接近度测量值，置信度生成程序104确定所标识的两个术语(two-term)组合指示用户提供的句子的概念(concept)或主题(subject matter)的可能性(likehood)。本发明可等同地应用到三、四或更多数两的术语的组合。

计算机102的内部和外部组件将在下面参照图4进行进一步描述。系统10的组合的功能将在下面参照图2A-2B的阐述中进一步描述。

图2A-2B描述了根据本发明实施例的在图1的系统中所包括的计算机系统中执行的置信度生成器程序的流程图。在步骤202中，置信度生成器程序104(参见图1)接收用户输入的自然语言句子作为非结构性文本106(参见图1)。可替换地，程序104(参见图1)可以接收多个句子和其他类型的非结构性文本。

在步骤204之前，置信度生成器程序104(参见图1)通过利用本体112(参见图1)中的规则生成多个术语组合110(参见图1)，其中该术语组合110(参见图1)为潜在代表在步骤202中接收的句子的主题的概念。Each rule in本体112(参见图1)中的每个规则指定了在步骤202中接收的句子中包括的单词和具体术语组合110(参见图1)之间的关系。例如，置信度生成器程序104(参见图1)标识在步骤202中接收到的句子中的“pipe(管道)”和“stuck(卡塞)”并使用本体112(参见图1)中的规则StuckPipe具有Child Pipe来生成术语组合(即，概念)“StuckPipe”。

在步骤204中，置信度生成器程序104(参见图1)从多个术语组合110(参见图1)中选择第一预定术语组合，并且确定置信度108(参见图1)的初始值。返回到步骤204的每个循环(下面所述)从多个术语组合110(参见图1)中选择下一个术语组合。在一个实施例中，置信度108(参见图1)的初始值为100％。如果在步骤204中所选择的术语组合基于一个或多个先前处理的术语组合，则置信度108(参见图1)的初始值可以小于100％。例如，置信度生成器程序104(参见图1)根据“pump(泵)”和“pressure(压力)”形成的组合“pump pressure”其置信度为70％而根据“pressure(压力)”和“increase(增加)”形成的组合“pump pressure”其置信度为80％。在该实施例中，置信度生成器程序104(参见图1)随后根据先前形成的初始值为75％的置信度108(参见图1)的“pump pressure”和“pressure increase”形成“pumppressure increase”。在该实例中，选择75％以便处于用于“pump pressure”的70％水平和用于“pressure increase”的80％水平的中间，但是可以考虑其他因素(例如，一个术语由于更高的出现频率而导致其更重要)来对“pump pressure”和“pressure increase”赋予不同权重，以便选择70％和80％之间的另一个值。在一个实施例中，所述多个术语组合采用资源描述框架((RDF)数据模型表达。

在步骤206中，置信度生成器程序104(参见图1)确定在步骤204中所选择的术语组合110(参见图1)的每个术语是否与在步骤202中接收到的句子中的相应术语(即，语言符号或单词)匹配。也就是说，置信度生成器程序104(参见图1)在步骤206中确定在步骤204中所选择的术语组合110(参见图1)的每个术语(或其近义词)是否出现在步骤202中接收到的句子中。如果置信度生成器程序104(参见图1)在步骤206中确定术语组合110(参见图1)的每个术语(或其近义词)与在步骤202中接收到的句子中的对应术语匹配，则采取步骤206的Yes分支，并且执行步骤208。此后，在步骤206中与术语组合110(参见图1)中的术语或同义词匹配的句子中的术语也被称为“被匹配的单词”。

在步骤208中，置信度生成器程序104(参见图1)从在步骤202中接收到的句子的开头到该句子中的相应被匹配的单词的相应单词数量(即，距离)。在一个实施例中，置信度生成器程序104(参见图1)确定从该句子的开头到被匹配的单词的单词数量(即，距离)等于所述被匹配的单词在包括该句子的单词顺序中的序数值(即，在该句子中的第一单词的距离为1、在该句子中的第二单词的距离为2、…、在该句子中的第N单词的距离为N)。例如，在句子“pipe got stuck”中的“stuck”的距离为三，因为“stuck”是该句子中的第三个单词。

在一个实施例中，在步骤208中确定单词数量，并且作为语音抄录(transcription)的句子中的被匹配的单词序数值忽略作为语音不流利的结果的句子中的术语(例如，在中部发声中被切除的单词和句子，被重新开始或重复的短语、重复的音节、咕哝声以及诸如“uh(呃)”的非词汇发声)。

在一个实施例中，在步骤208中确定单词数量，并且句子中的被匹配的单词的序数值忽略其词类不是开放类的句子中的单词。在一个实施例中，作为开放类的英语单词包括名词、动词、形容词以及副词。例如在句子“The pipe got stuck”中，因为单词“The”是代词，其不属于开放类，因此在步骤208中确定从句子的开头到单词“pipe”的单词数量时忽略单词“The”(即，从句子的开头到“pipe”的单词数量为一，因为“pipe”是句子中的第一个开放类单词)。

在步骤210中，置信度生成器程序104(参见图1)将在步骤202中接收到的句子划分成多种多样的自然语言短语，包括复杂短语和从复杂短语中抽取的第一和第二简单短语。所述多种多样的自然语言短语可以包括一个或多个复杂短语，并且每个复杂断垣可以包括一个或多个简单短语和/或多个其他的复杂短语。复杂短语比在步骤202中接收到的句子的整体短。

在一个实施例中，置信度生成程序104(参见图1)生成分析树114(参见图1)，其包括在在步骤210中由在步骤202中接收到的句子划分成的所述多种多样的自然语言短语。所述分析树114(参见图1)可以为表格形式，其具有在行中的条目。表的首行包括一些条目，这些条目包含在步骤202中接收到的句子中的相应单词。

在步骤212中，置信度生成器程序104(参见图1)确定(a)在步骤204处所选择的组合的所有术语是否包含在前述自然语言短语中所包括的第一和/或第二简单短语中，或(b)在步骤204处所选择的组合的所有术语是否包含在前述自然语言短语中所包括的复杂短语中而不是包含在第一和/或第二简单短语中。

在一个实施例中，置信度生成器程序104(参见图1)在步骤212处通过标识该置信度生成器程序104(参见图1)根据在步骤202中接收到的句子生成的分析树114(参见图1)中的复杂短语和第一和第二简单短语作出决定。置信度生成器程序104(参见图1)确定在步骤204处所选择的组合的所有术语是否包括在含有第一简单短语的分析树114(参见图1)的第一节点中和/或包括在含有第二简单短语的分析树114(参见图1)的第二节点中。如果置信度生成器程序104(参见图1)确定组合的所有术语不包括在分析树114(参见图1)的前述第一节点和/或第二节点中，则置信度生成器程序104(参见图1)确定所述组合的所有术语是否包括在含有复杂短语的分析树114(参见图1)的第三节点中而不是包括在分析树114(参见图1)的前述第一节点和/或第二节点中。

在步骤218中，部分基于(a)在步骤208(参见图2A)中确定的相应单词数量、(b)在步骤204处所选择的组合的所有术语是否包含在前述自然语言短语中所包括的第一和/或第二简单短语中、以及(c)在步骤204处所选择的组合的所有术语是否包含在前述自然语言短语中所包括的复杂短语中而不是包含在第一和/或第二简单短语中，置信度生成器程序104(参见图1)确定置信度，该置信度指示在步骤204中所选择的术语组合代表在步骤202(参见图2A)中接收到的句子的主题有多好。

在步骤218之前，置信度生成程序104(参见图1)可以接收或确定初始置信度(例如100)，该置信度指示该术语组合代表在步骤202(参见图2A)中接收到的句子的主题有多好。该初始置信度在步骤218中被调节以便确定所述置信度。

在一个实施例中，置信度生成程序104(参见图1)在步骤208中确定在步骤208中确定的第一和第二单词数量之间的差值。第一单词数量是从在步骤202(参见图2A)中接收到的句子的开头到该句子的第一被匹配的单词的单词数量。第二单词数量是从在步骤202(参见图2A)中接收到的句子的开头到该句子的第二被匹配的单词的单词数量。置信度生成程序104(参见图1)在步骤218处使用第一和第二单词数量之间的差值作为用于确定置信度的基础。置信度生成程序104(参见图1)确定前述差值是否超过预定阈值。如果前述差值超过预定阈值，则置信度生成程序104(参见图1)确定所述差值超过预定阈值的第一量。置信度生成程序104(参见图1)通过将第一量乘以预定因子而确定第二量(也称之为第一得分)。置信度生成程序104(参见图1)通过从置信度中减去第二量来调节所述置信度。在步骤218之前置信度生成程序104(参见图1)接收来自用户输入的预定阈值和预定因子。

在一个实施例中，置信度生成程序104(参见图1)在步骤210(参见图2A)生成分析树114(参见图1)作为深度分析树，其具有作为分析树的根部的在步骤202中接收到的句子并且具有作为分析树114(参见图1)的节点的该句子的单词和短语。

在一个实施例中，分析树114(参见图1)代表作为树的represents a deep parseof在步骤202(参见图2A)中接收到的句子的深度分析，其具有一些节点，这些节点代表(1)复杂短语、(2)包含在每个复杂短语中的简单短语和/或不包括在任何其它短语以及不包括在任何其他更简单的短语中的简单短语、(3)与包含在简单短语中或包含在句子中但是不包含在任何短语中的单词对应的语言的一些部分、以及(4)包含在简单短语或包含在该句子中但是不包含在任何短语中的单词。在步骤218中，置信度生成器程序104(参见图1)确定被匹配单词在分析树114(参见图1)中的深度，其中每个深度都是分析树114(参见图1)中的节点的序数值，该序数值基于从根部到所匹配的单词所遍历的分析树114(参见图1)中的级别的顺序。例如，从用于句子“pipe got stuck”的分析树114(参见图1)的根部到单词“pipe”的遍历(traversal)包括该分析树的第一、第二和第三级别：“名词短语”节点，其为与处于第一级别的“pipe”对应的短语；“名词”节点，作为与在第二级别处的“pipe”对应的语音部分；以及处于第三级别的“pipe”节点。因为单词“pipe”在所述遍历中处于第三级别，因此在分析树114(参见图1)中，“pipe”的深度”等于三。

在一个实施例中，置信度生成器程序104(参见图1)在步骤218中确定在步骤202中接收到的句子中相应的第一和第二被匹配单词的第一和第二深度之间的差值，将该差值乘以预定因子(即在步骤202之前由置信度生成程序104(参见图1)接收到的因子)以便确定一个量(也称之为第二得分)。置信度生成程序104(参见图1)通过从置信度减去所述量进一步调节所述置信度108(参见图1)。

在一个实施例中，在步骤218处，置信度生成器程序104(参见图1)通过下述公式确定置信度：置信度＝(初始置信度–第一得分)–第二得分，其中第一得分和第二得分为如上所述。对于确定置信度作为百分数的步骤，在步骤218处，第一和第二得分被认为是从初始置信度减去以便获得置信度的百分数。例如，第一得分为5、第二得分为45以及初始置信度为100％，意味着步骤218认为第一得分5为5％以及第二得分45为45％，并且从100％减去5％和45％从而获得置信度50％(即，(100％–5％)–45％＝50％)。

在步骤220中，置信度生成程序104(参见图1)确定是否存在否定(即，确定在步骤202(参见图2A)中接收到的句子中是否存在否定术语组合110(参见图1)的一个或多个术语)。如果置信度生成程序104(参见图1)在步骤220中确定存在否定，则采取步骤220的Yes(是)分支并且执行步骤222。在步骤222中，置信度生成程序104(参见图1)将由步骤218所导致的被进一步调节的置信度降低预定否定量。在步骤20(参见图2A)2之前，置信度生成程序104(参见图1)接收所述预定否定量。步骤224跟随步骤222。

返回步骤220，如果置信度生成程序104(参见图1)确定没有否定，则采取步骤220的No(否)分支并执行步骤224。

在步骤222之后或在采取步骤220的No(否)分支之后以及在步骤224之前，根据步骤222所产生的(如果步骤224跟在步骤222之后)或根据步骤218产生的(如果步骤224跟在步骤220的No(否)分支之后)置信度是术语组合110(参见图1)代表在步骤202(参见图2A)中接收到的句子的主题的可能性的指示。由术语组合110(参见图1)所代表的主题是与句子中的与术语组合匹配的单词相关联的注释(annotation)。

在步骤224中，置信度生成程序104(参见图1)确定根据步骤222(如果步骤224跟在步骤222之后)或根据步骤218(如果步骤224跟在步骤220的No(否)分支之后)所产生的置信度是否超过预定阈值。如果置信度生成程序104(参见图1)在步骤224处确定该置信度超过所述预定阈值，则采取步骤224的Yes(是)分支并执行步骤226。超过素数预定阈值的置信度标识该术语组合110(参见图1)很可能代表在步骤202(参见图2A)中接收到的句子的主题。该置信度生成程序104(参见图1)在步骤202(参见图2A)之前接收所述预定阈值。

在步骤226处，置信度生成程序104(参见图1)从知识库检索上下文，并且使用所检索的上下文，基于可能代表在步骤202(参见图2A)中接收到的句子的主题的术语组合110(参见图1)作出推断。在一个实施例中，在步骤202(参见图2A)中接收到的句子标识条件或问题并且在步骤226处检索的上下文是该条件或问题的可能的原因。例如，在油气钻探领域，置信度生成程序104(参见图1)在步骤202(参见图2A)处接收句子“pressure at thepump has gained considerably(在所述泵处的压力显著增加)”；生成术语组合“PumpPressureIncrease”，在步骤224处确定该句子的主题为泵压力增加(pump pressureincrease)，其置信度超过阈值；在步骤226处检索附加上下文“settled cuttings(沉淀切割)”；并且在步骤226处推断沉淀切割是泵压力上升的原因。步骤228跟随在步骤226之后。

返回到步骤224，如果置信度生成程序104(参见图1)确定所述置信度没有超过预定阈值，则采取步骤224的No(否)分支并执行步骤228。置信度没有超过预定阈值的表示所述术语组合110(参见图1)不可能代表在步骤202(参见图2A)中接收到的句子的主题。

在步骤228中，置信度生成程序104(参见图1)确定是否存在另一个预定术语组合110(参见图1)将被图2A-2B的处理所选择。如果置信度生成程序104(参见图1)在步骤228确定有供选择的另一个预定术语组合110(参见图1)，则采取步骤228的Yes(是)分支并图2A-2B的处理循环返回步骤204(参见图2A)。如果置信度生成程序104(参见图1)在步骤228确定没有供选择的预定术语组合110(参见图1)，则采取步骤228的No(否)分支并执行步骤230。在步骤230处，结束图2A-2B的处理。

实例1

作为实例，用户输入下述句子“pipe got stuck and no downward movementcannot pull up(管道被卡塞并且没有向下运动不能拉起)”，该句子可能为在步骤202(参见图2A)中接收到的句子。置信度生成程序104(参见图1)选择术语组合“pipe”和“stuck”。该术语组合的选择可以包括在步骤204(参见图2A)中。使用管理概念的构造的本体112(参见图1)，置信度生成程序104(参见图1)通过使用本体中的下述规则形成概念“StuckPipe”：StuckPipe hasChild pipe,stuck(StuckPipe具有子pipe、stuck)。在步骤202(参见图2A)中接收的句子中的“pipe”和/或“stuck”的变体出发相同规则。所述概念“StuckPipe”的形成可以包括在步骤204(参见图2A)中。

置信度生成程序104(参见图1)确定“pipe”和“stuck”的组合中的每个术语都在句子“pipe got stuck and no downward movement cannot pull up”，该确定可以包括在步骤206(参见图2A)中。

置信度生成程序104(参见图1)确定“pipe”和“stuck”在句子“pipe got stuckand no downward movement cannot pull up”中的距离，该确定可以包括在步骤208(参见图2A)中。“pipe”在句子中的距离等于”1，因为“pipe”是该句子中的第一个术语。“stuck”在该句子中的距离等于3，因为“stuck“是句子中的第三个术语。

在该实例中，置信度生成程序104(参见图1)使用预定最大阈值3和预定因子10来确定pipe”和“stuck”在该句子中的第一接近度。The difference between the distanceof“stuck”的距离和“pipe”的距离之间的差值为3-1＝2(即，“stuck”和“pipe”在该句子中的线性距离为2)。该差值2没有超过所述预定最大阈值3，因此超过量为0并且第一得分为0(即，超过量×预定因子＝第一得分，或0×10＝0)，该计算可包括在在步骤210(参见图2A)中确定第一接近度的过程中。

在该实例中，置信度生成程序104(参见图1)生成图3所示的分析树114。分析树114的生成可以包括在步骤212(参见图2A)中。分析树114包括根部302(在此也被称为句子302)，其是在该实例中接收到的句子“pipe got stuck and no downward movementcannot pull up”。分析树114中的第一(即，最上面的)行中的分析树114中的第一组节点包括句子中的语言符号(token)。例如，pipe(管道)304表示“pipe”是句子302的语言符号。包括“Noun(名词)”、“Verb(动词)”、“Coordinating Conjunction(并列连词)”、“Determiner(限定词)”、“Adjective(形容词)”、“Modal(情态动词)”以及“Particle(虚词)”的分析树114的第二组节点是在分析树114中直接出现在相应语音部分上的相应语言符号的语音部分。例如，名词306表示pipe 304的语音部分是名词，因为“pipe”是直接位于分析树114中的名词306之上的语言符号。A third set of nodes of分析树114的第三组节点包括“Subject(主语)”、“Noun Phrase(名词短语)”、以及“Verb Phrase(动词短语)”，它们表示一些短语结构，其包括句子302中的一些语言符号。分析树114的短语结构表示直接在该分析结构的上方出现在分析树114的第一行中的所述一个或多个语言符号，它们包括在该短语结构中。例如，名词短语308表示“pipe”包括在名词短语中，因为pipe 304直接位于名词短语308的上方。作为另一个实例，动词短语310表示“got stuck”是动词短语，因为“gotstuck”(即got 312和stuck 314)在分析树114出现在动词短语310的上方。

置信度生成程序104(参见图1)确定“pipe”的深度为4(即，从root(根部)302到pipe 304的遍历中出现的分析树114中的根部302之上的第四级别)以及and the depth of“stuck”的深度为5(即，从root(根部)302到stuck 314的遍历中出现的分析树114中的根部302之上的第五级别)。前述确定深度4和5的过程可以包括在步骤214(参见图2A)中。

置信度生成程序104(参见图1)使用预定因子5来确定句子302中的“pipe”和“stuck”之间的第二接近度。第二接近度的确定可以包括在步骤216(参见图2A)中。置信度生成程序104(参见图1)确定“stuck”的深度和“pipe“的深度之间的差值(即，“stuck”的深度–“pipe“的深度＝5–4＝1)。置信度生成程序104(参见图1)通过将所述深度之间的差值乘以预订因子来确定第二得分(即，1×5＝5)，该第二得分的确定可以包括在步骤216(参见图2A)中的第二接近度的确定中。

置信度生成程序104(参见图1)通过使用100％的初始置信度、首先减去第一得分、以及从结果中减去第二得分来确定95％的置信度(即，(100％–0％)–5％＝95％)。95％的置信度的确定可以包括在步骤218(参见图2B)中。

置信度生成程序104(参见图1)确定句子中是否存在否定语言符号(即，“no(不)”)，该否定并不应用于“pipe”或“stuck”。不存在应用到“pipe”或“stuck”的否定的确定可以包括在步骤220(参见图2B)中。因为没有应用于“pipe”或“stuck”的否定，因此95％的置信度没有降低(即，采取步骤220(参见图2B)的No(否)分支并且不执行步骤222(参见图2B))。

置信度生成程序104(参见图1)使用50％的预定置信度并且确定95％的置信度超过预定阈值(即，95％>50％)。95％的置信度超过该阈值的确定可以包括在步骤224(参见图2B)中。因此，置信度生成程序104(参见图1)确定用户打算“stuck pipe”是句子302的概念的95％置信度并且从知识库中检索与所述概念“stuck pipe”相关的附加信息并将该附加信息呈现给用户。附加信息的检索可以包括在步骤226(参见图2B)中。

实例2

作为另一个实例，使用由用户输入的相同句子“pipe got stuck and nodownward movement cannot pull up”并且使用实例1中提到的相同的阈值和因子，置信度生成程序104(参见图1)选择另一个术语组合“pipe stuck”和“downward”，并且确定如实例1所示的95％的置信度用于“pipe stuck”并选择100％作为用于“downward”的初始置信度。对该实例，置信度生成程序104(参见图1)基于赋予“pipe stuck”和“downward”的权重选择用于“pipe stuck downward”的97％的初始置信度。置信度生成程序104(参见图1)确定到“pipe stuck”的距离为3(即，到“stuck”的距离为3)以及到“downward”的距离为6；确定差值为(6–3)或3；确定所述差值3不超过最大阈值3；将0赋予所述超过量；以及确定用于“pipestuck”和“downward”的第一得分为0(即，超过量×因子＝0×10＝0)。使用分析树114，置信度生成程序104(参见图1)确定到pipe stuck”的深度为1以及到“downward”的深度为4。置信度生成程序104(参见图1)确定深度之间的差值为3(即，(4–1)＝3)；确定用于“pipestuck”和“downward”的第二得分为15(即，深度之间的差值×因子＝3×5＝15)；以及确定该置信度为(97％–第一得分)–第二得分＝(97％–0％)–15％＝82％。在这种情况下，置信度生成程序104(参见图1)确定存在术语“downward”的否定，因为分析树114在的相同名词短语316中出现了“no”和“downward”。因为存在否定，因此置信度生成程序104(参见图1)将所述置信度降低用于否定的预定量。在该请下，所述预定量为50％。置信度生成程序104(参见图1)确定所降低的置信度为(82％–50％)或32％。32％的置信度的确定可以包括在图2B中的步骤222中。置信度生成程序104(参见图1)确定存在句子302具有概念的“pipe stuckdownward”的32％置信度。置信度生成程序104(参见图1)确定32％的置信度不超过阈值50％，因此，置信度生成程序104(参见图1)推断用户不打算句子302将具有概念“pipestuck downward”。

实例3

作为另一个实例，使用由用户输入的相同句子“pipe got stuck and nodownward movement cannot pull up”并且使用实例1中提到的相同的阈值和因子，置信度生成程序104(参见图1)选择另一个术语组合“move”和“up”并确定“move”的变体(即，“movement”)以及“up”出现在该句子中。置信度生成程序104(参见图1)确定到“up”的距离为10以及到“movement”的距离为7；确定差值为(10–7)或3；确定所述差值3不超过最大阈值3；将0赋予所述超过量；以及确定用于“movement”和“up”的第一得分为0(即，超过量×因子＝0×10＝0)。使用分析树114，置信度生成程序104(参见图1)确定到“up”的深度为5以及到“movement”的深度为4。置信度生成程序104(参见图1)确定深度之间的差值为1(即，(5–4)＝1)；确定用于“movement”和“up”的第二得分为5(即，深度之间的差值×因子＝1×5＝5)；以及确定该置信度为(100％–第一得分)–第二得分＝(100％–0％)–5％＝95％。在这种情况下，置信度生成程序104(参见图1)确定存在术语“movement”的否定，因为分析树114在的相同名词短语316中出现了“no”和“movement”。因为存在否定，因此置信度生成程序104(参见图1)将所述置信度降低用于否定的预定量。在该情况下，所述预定量为50％。置信度生成程序104(参见图1)确定所降低的置信度为(95％–50％)或45％。45％的置信度的确定可以包括在图2B中的步骤222中。置信度生成程序104(参见图1)确定存在句子302具有概念的“move up”的45％置信度。置信度生成程序104(参见图1)确定45％的置信度不超过阈值50％，因此，置信度生成程序104(参见图1)推断用户不打算句子302将具有概念“move up”。

实例4

作为另一个实例，使用由用户输入的相同句子“pipe got stuck and nodownward movement cannot pull up”并且使用实例1中提到的相同的阈值和因子，置信度生成程序104(参见图1)选择另一个术语组合“pull”和“pipe”并确定“pull”和“pipe”出现在该句子302中。置信度生成程序104(参见图1)确定到“pull”的距离为9以及到“pipe”的距离为1；确定差值为(9–1)或8；确定所述差值8超过最大阈值3以超过量5(即，差值8–阈值3＝5)；以及确定用于“pull”和“pipe”的第一得分为50(即，超过量×因子＝5×10＝50)。使用分析树114，置信度生成程序104(参见图1)确定到“pull”的深度为5以及到“pipe”的深度为4。置信度生成程序104(参见图1)确定深度之间的差值为1(即，(5–4)＝1)；确定用于“pull”和“pipe”的第二得分为5(即，深度之间的差值×因子＝1×5＝5)；以及确定该置信度为(100％–第一得分)–第二得分＝(100％–50％)–5％＝45％。置信度生成程序104(参见图1)确定存在术语“pull”的否定(即，“cannot”)，因为分析树114在的相同动词短语318中出现了“cannot”和“pull”。因为存在“pull”的否定，因此置信度生成程序104(参见图1)将所述置信度降低预定量50％。置信度生成程序104(参见图1)确定所述置信度为(45％–50％)或-5％。任何低于0％的结果性置信度都由置信度生成程序104(参见图1)处理为置信度0％。因此，置信度生成程序104(参见图1)确定存在用户打算句子302具有概念“pull pipe”的0％的置信度。

计算机系统

图4是根据本发明实施例的包含在图1的系统中的用于生成术语组合的置信度的计算机102的框图。计算机102(参见图1)包括图4所示的内部组件的集合400和外部组件的集合500。所述内部组件的集合400包括：在总线426上的一个或多个处理器420、一个或多个计算机可读随机存取存储器(RAM)422以及一个或多个计算机可读的只读存储器(ROM)424；一个或多个操作系统428；以及一个或多个计算机可读存储器件430。所述一个或多个操作系统428和程序指令104(用于图1中的计算机102)存储在相应计算机可读存储器件430的一个或多个上，用于由相应处理器420的一个或多个经由相应RAM422(通常包括超高速缓冲存储器)的一个或多个执行。在图示实施例中，每个计算机可读存储器件430为内置硬盘驱动器的磁盘存储器件。可选择地，每个计算机可读存储器件430为诸如ROM 424半导体存储器件、可擦除可编程只读存储器(EPROM)、闪存或能够存储和保存但是不发送计算机程序和数字信息的任何其他计算机可读存储器件。

所述内部组件的集合400还包括读/写(R/W)驱动器或接口432，用于从能够存储但是不发送计算机程序的一个或多个便携式有形计算机可读存储器件536读取和向其写入，该存储器件536诸如CD-ROM、DVD、记忆棒、磁带、磁盘、光盘或半导体存储器件。程序指令104(用于图1中的计算机102)可以存储在一个或多个相应便携式有形计算机可读存储器件536、经由所述相应读/写(R/W)驱动器或接口432被读取和加载到各个硬件驱动器或半导体存储器件430中。术语“计算机可读存储器件”以及“多个计算机可读存储器件”并不包括信号传播介质，诸如铜传输缆线、光传输光纤以及无线传输介质。

所述内部组件的集合400还包括网络适配器或接口436，诸如传输控制协议/英特网协议((TCP/IP)适配器卡或无线传输适配器(诸如使用正交频分多存取(OFDMA)技术的4G无线传输适配器)。程序104(用于图1中的计算机102)可以从外部计算机可读存储器件经由网络(例如，英特网、局域网或其他网络、广域网或无线网络)和网络适配器或接口436下载。从网络适配器或接口436，程序104(参见图1)被加载到相应的硬驱动器或半导体存储器件430。网络可以包括铜传输缆线、光传输光纤以及无线传输、路由器、防火墙、切换器、网关计算机和/或边缘(edge)服务器。

外部组件的集合500包括显示屏520、键盘或键区530以及计算机鼠标或触垫534。所述内部组件的集合400还包括设备驱动器440，用于接口到用于成像的显示屏520、键盘或键区530、计算机鼠标或触垫534、和/或用于字母字符输入的压力感测和用户选择的显示屏。设备驱动器440、R/W驱动器或接口432以及网络适配器或接口436包括硬件和软件(存储在存储器件430和/或ROM 424中)。

程序104(参见图1)可以采用包括低级、高级、面向对象或非面向对象语言的各种编程语言(诸如C++)编写。可替换地，程序104(参见图1)的功能可以整体或部分通过计算机电路和其他硬件(未示出)实现。

基于如前所述，已经描述了用于生成术语组合的置信度的计算机系统、方法和程序产品。不过，在不偏离本发明的范围的情况下可以进行各种修改和替换。因此本发明的披露仅仅是举例而不是限制。

Claims

1.一种确定代表自然语言句子的主题的术语的组合的方法，该方法包括步骤：

计算机确定从句子的开头到所述句子中的与所述术语的组合中的术语匹配的相应术语的相应的单词数量；

计算机将所述句子划分成多种多样的自然语言短语，所述自然语言短语包括复杂短语和从所述复杂短语中抽取的第一和第二简单短语，所述复杂短语比整个句子短；以及

部分基于(a)从句子的开头到所述句子中的与所述术语的组合中的术语匹配的相应术语的相应的单词数量、(b)所述组合中的所有术语是否都包含在所述第一和/或第二简单短语中、以及(c)所述组合中的所有术语是否都包含在所述复杂短语中但是没有包含在所述第一和/或第二简单短语中，所述计算机确定所述术语的组合代表所述句子的主题有多好。

2.根据权利要求1所述的方法，还包括步骤：

所述计算机确定在所述句子的短语中是否包含否定，所述句子的短语包括在所述句子的与所述术语的组合中的术语匹配的术语中包含的术语，其中所述确定所述术语的组合代表所述句子的主题有多好的步骤部分基于在所述句子的短语中包含的否定。

3.根据权利要求1所述的方法，其中，所述确定相应的单词数量的步骤包括：

确定从句子的开头到所述句子中的与所述术语的组合中的第一术语匹配的第一术语的第一单词数量；

确定从句子的开头到所述句子中的与所述术语的组合中的第二术语匹配的第二术语的第二单词数量；以及

确定第一和第二单词数量之间的差，其中所述确定所述术语的组合代表所述句子的主题有多好的步骤还部分基于所述第一和第二单词数量之间的差。

4.根据权利要求3所述的方法，还包括步骤：

所述计算机确定所述第一和第二单词数量之间的差是否超过一阈值；

响应于确定所述第一和第二单词数量之间的差超过所述阈值，所述计算机确定所述差超过所述阈值的第一量；

所述计算机通过将所述第一量乘以一因子而确定第二量；以及

所述计算机通过从表示所述术语的组合代表所述句子的主题有多好的置信度中减去所述第二量来调节置信度。

5.根据权利要求1所述的方法，还包括：

所述计算机确定置信度超过一阈值，该置信度表示所述术语的组合代表所述句子的主题有多好；

基于该置信度超过所述阈值，所述计算机从知识库检索与所述句子的主题相关的上下文信息；以及

基于所述置信度和所检索的上下文信息，所述计算机就所述句子的主题作出推断。

6.根据权利要求1所述的方法，还包括步骤：

所述计算机接收包括规则的本体；以及

计算机基于包含在所述本体中的规则形成所述术语的组合。

7.根据权利要求1所述的方法，还包括步骤：

所述计算机生成具有首行和其他行的表，所述首行包括一些输入项，所述首行中的输入项包括所述句子中的与所述组合中的术语匹配的相应单词，所述其他行包括一些输入项，所述其他行中的输入项包括所述多种多样的自然语言短语，所述其他行包括第一和第二行，所述第一行包括第一和第二简单短语，并且第二行包括所述复杂短语；以及

如果所述组合中的所有术语包含在所述第一和/或第二简单短语中，则所述计算机确定从与所述组合中的术语匹配的所述首行中的单词到第一行的相应行数，或如果所述组合中的所有术语包含在所述复杂短语中但没有包含在所述第一和/第二简单短语中，所述计算机确定从与所述组合中的术语匹配的所述首行中的单词到第二行的相应行数，

其中，所述确定所述术语的组合代表所述句子的主题有多好的步骤还部分基于所述从所述首行中的单词到第一或第二行的行数。

8.根据权利要求7所述的方法，其中所述确定相应行数的步骤包括：

所述计算机确定包含在所述行数中的第一和第二行数之间的差；

所述计算机通过将所述差乘以一因子而确定一数量；以及

所述计算机通过从置信度中减去所述数量来调节置信度，该置信度表示所述术语的组合代表所述句子的主题有多好。

9.一种确定代表自然语言句子的主题的术语的组合的系统，该系统包括被配置为执行权利要求1-8中的任意一个的方法步骤的装置。

10.一种确定代表自然语句的主题的术语的组合的计算机系统，该计算机系统包括：

一个或多个处理器；

一个或多个计算机可读内存；

一个或多个计算机可读存储器件；以及

存储在所述一个或多个存储器件上的程序指令，用于由一个或多个处理器经由所述一个或多个内存执行，所述程序指令包括：

第一程序指令，用于确定从句子的开头到所述句子中的与所述术语的组合中的术语匹配的术语的相应的单词数量；

第二程序指令，用于将所述句子划分成多种多样的自然语言短语，所述自然语言短语包括复杂短语和从所述复杂短语中抽取的第一和第二简单短语，所述复杂短语比整个句子短；以及

第三程序指令，用于部分基于(a)从句子的开头到所述句子中的与所述术语的组合中的术语匹配的相应术语的相应的单词数量、(b)所述组合中的所有术语是否都包含在所述第一和/或第二简单短语中、以及(c)所述组合中的所有术语是否都包含在所述复杂短语中但是没有包含在所述第一和/或第二简单短语中，确定所述术语的组合代表所述句子的主题有多好。

11.如权利要求10所述的计算机系统，还包括：

存储在所述一个或多个存储器件的至少一个上用于由一个或多个处理器的至少一个经由所述一个或多个内存的至少一个执行的第四程序指令，用于确定在所述句子的短语中是否包含否定，所述句子的短语包括在所述句子的与所述术语的组合中的术语匹配的术语中包含的术语，其中用于确定所述术语的组合代表所述句子的主题有多好的所述第三程序指令包括用于部分基于在所述句子的短语中包含的否定来确定所述术语的组合代表所述句子的主题有多好的第五程序指令。

12.如权利要求10所述的计算机系统，所述用于确定相应的单词数量的第一程序指令包括：

第四程序指令，用于确定从句子的开头到所述句子中的与所述术语的组合中的第一术语匹配的第一术语的第一单词数量；

第五程序指令，用于确定从句子的开头到所述句子中的与所述术语的组合中的第二术语匹配的第二术语的第二单词数量；以及

第六程序指令，用于确定第一和第二单词数量之间的差，其中所述确定所述术语的组合代表所述句子的主题有多好的的所述第三程序指令包括用于部分基于所述第一和第二单词数量之间的差确定所述术语的组合代表所述句子的主题有多好的第七程序指令。

13.根据权利要求12所述的计算机系统，还包括：

存储在所述一个或多个存储器件的至少一个上用于由一个或多个处理器的至少一个经由所述一个或多个内存的至少一个执行的第八程序指令，用于确定所述第一和第二单词数量之间的差是否超过一阈值；

存储在所述一个或多个存储器件的至少一个上用于由一个或多个处理器的至少一个经由所述一个或多个内存的至少一个执行的第九程序指令，用于响应于通过第八程序指令的执行而确定所述第一和第二单词数量之间的差超过所述阈值，确定所述差超过所述阈值的第一量；

存储在所述一个或多个存储器件的至少一个上用于由一个或多个处理器的至少一个经由所述一个或多个内存的至少一个执行的第十程序指令，用于通过将所述第一量乘以一因子而确定第二量；以及

存储在所述一个或多个存储器件的至少一个上用于由一个或多个处理器的至少一个经由所述一个或多个内存的至少一个执行的第十一程序指令，用于通过从表示所述术语的组合代表所述句子的主题有多好的置信度中减去所述第二量来调节置信度。

14.根据权利要求10所述的计算机系统，还包括：

存储在所述一个或多个存储器件的至少一个上用于由一个或多个处理器的至少一个经由所述一个或多个内存的至少一个执行的第四程序指令，用于确定置信度超过一阈值，该置信度表示所述术语的组合代表所述句子的主题有多好；

存储在所述一个或多个存储器件的至少一个上用于由一个或多个处理器的至少一个经由所述一个或多个内存的至少一个执行的第五程序指令，用于基于该置信度超过所述阈值，从知识库检索与所述句子的主题相关的上下文信息；以及

存储在所述一个或多个存储器件的至少一个上用于由一个或多个处理器的至少一个经由所述一个或多个内存的至少一个执行的第六程序指令，用于基于所述置信度和所检索的上下文信息，就所述句子的主题作出推断。

15.根据权利要求10所述的计算机系统，还包括：

存储在所述一个或多个存储器件的至少一个上用于由一个或多个处理器的至少一个经由所述一个或多个内存的至少一个执行的第四程序指令，用于接收包括规则的本体；以及

存储在所述一个或多个存储器件的至少一个上用于由一个或多个处理器的至少一个经由所述一个或多个内存的至少一个执行的程序指令，用于基于包含在所述本体中的规则形成所述术语的组合。