CN1815477B - 用于提供基于标记语言的限定词的方法和系统 - Google Patents
用于提供基于标记语言的限定词的方法和系统 Download PDFInfo
- Publication number
- CN1815477B CN1815477B CN2006100066358A CN200610006635A CN1815477B CN 1815477 B CN1815477 B CN 1815477B CN 2006100066358 A CN2006100066358 A CN 2006100066358A CN 200610006635 A CN200610006635 A CN 200610006635A CN 1815477 B CN1815477 B CN 1815477B
- Authority
- CN
- China
- Prior art keywords
- term
- vocabulary
- vocabularies
- data
- mark
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Expired - Fee Related
Links
- 238000000034 method Methods 0.000 title claims abstract description 61
- 238000012545 processing Methods 0.000 claims abstract description 8
- 238000013507 mapping Methods 0.000 claims description 9
- 240000005369 Alstonia scholaris Species 0.000 claims description 7
- 230000008569 process Effects 0.000 description 9
- 230000008878 coupling Effects 0.000 description 8
- 238000010168 coupling process Methods 0.000 description 8
- 238000005859 coupling reaction Methods 0.000 description 8
- 238000007726 management method Methods 0.000 description 5
- 238000013499 data model Methods 0.000 description 4
- 238000010586 diagram Methods 0.000 description 4
- 238000005516 engineering process Methods 0.000 description 4
- 238000005267 amalgamation Methods 0.000 description 3
- 230000008859 change Effects 0.000 description 3
- 230000000295 complement effect Effects 0.000 description 3
- 230000008901 benefit Effects 0.000 description 2
- 238000004422 calculation algorithm Methods 0.000 description 2
- 238000004891 communication Methods 0.000 description 2
- 230000008676 import Effects 0.000 description 2
- 230000007246 mechanism Effects 0.000 description 2
- 229910052701 rubidium Inorganic materials 0.000 description 2
- IGLNJRXAVVLDKE-UHFFFAOYSA-N rubidium atom Chemical compound [Rb] IGLNJRXAVVLDKE-UHFFFAOYSA-N 0.000 description 2
- 238000010845 search algorithm Methods 0.000 description 2
- 238000013519 translation Methods 0.000 description 2
- UFHFLCQGNIYNRP-UHFFFAOYSA-N Hydrogen Chemical compound [H][H] UFHFLCQGNIYNRP-UHFFFAOYSA-N 0.000 description 1
- 229910052729 chemical element Inorganic materials 0.000 description 1
- 238000004590 computer program Methods 0.000 description 1
- 238000013461 design Methods 0.000 description 1
- 230000000694 effects Effects 0.000 description 1
- 238000003306 harvesting Methods 0.000 description 1
- 229910052739 hydrogen Inorganic materials 0.000 description 1
- 239000001257 hydrogen Substances 0.000 description 1
- 230000002452 interceptive effect Effects 0.000 description 1
- 230000013011 mating Effects 0.000 description 1
- 238000012986 modification Methods 0.000 description 1
- 230000004048 modification Effects 0.000 description 1
- 230000008520 organization Effects 0.000 description 1
- 230000035945 sensitivity Effects 0.000 description 1
- 230000003068 static effect Effects 0.000 description 1
- 239000000126 substance Substances 0.000 description 1
- 238000012546 transfer Methods 0.000 description 1
Images
Classifications
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F40/00—Handling natural language data
- G06F40/10—Text processing
- G06F40/103—Formatting, i.e. changing of presentation of documents
- G06F40/117—Tagging; Marking up; Designating a block; Setting of attributes
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F40/00—Handling natural language data
- G06F40/20—Natural language analysis
- G06F40/205—Parsing
Landscapes
- Engineering & Computer Science (AREA)
- Theoretical Computer Science (AREA)
- Health & Medical Sciences (AREA)
- Artificial Intelligence (AREA)
- Audiology, Speech & Language Pathology (AREA)
- Computational Linguistics (AREA)
- General Health & Medical Sciences (AREA)
- Physics & Mathematics (AREA)
- General Engineering & Computer Science (AREA)
- General Physics & Mathematics (AREA)
- Machine Translation (AREA)
- Information Retrieval, Db Structures And Fs Structures Therefor (AREA)
Abstract
本发明提供一种用于限定词的方法、设备和程序存储装置,它们要求向多个标记语言添加可扩展的词汇表标记,其中该多个标记语言组成知识表示,并且处理所提供的来自一个或多个词汇表的术语,以便在知识表示中使用。
Description
技术领域
本公开内容一般涉及内容管理应用中的语义搜索,特别涉及一种用于处理作为术语(terms)出现在文档内容中的语义主题(subject)的方法、设备和程序存储装置。
背景技术
内容管理应用管理数据集合,并且用来节省数据搜索和检索时间。在计算机应用中,客户端处理在本地或客户端计算机上运行,其访问和更新例如位于运行服务器处理的远程或服务器计算机上的数据库。客户端处理和服务器处理可以通过网络或网络集合如因特网而连接到一起。客户端处理的例子是万维网浏览器或电子表格程序,并且服务器处理的例子是万维网服务器或数据库服务器。
因特网通过超文本传输协议(HTTP)交换信息。针对商业和非商业用途的因特网计算机网络的使用正在迅速扩展。通过其网络,因特网计算机网络使世界各地的很多用户能够访问在不同位置存储的数据源(例如,内容管理应用)中所存储的信息。
万维网(即,“WWW”或“Web”)是在因特网计算机网络上使用的超文本信息和通信系统,其中根据客户端/服务器模型进行数据通信。典型地,万维网客户端计算机将向万维网服务器软件所驻留的万维网服务器计算机请求在数据源中存储的数据。万维网服务器软件与这样的接口交互,其中该接口例如连接到与其它数据源相连接的内容管理应用系统。然后,在万维网服务器计算机上驻留的计算机程序可以检索数据,并且将数据传送到客户端计算机。所检索的数据可以是任何类型的信息,包括数据库数据、静态数据、HTML数据、或动态生成的数据。
伴随着因特网和万维网(也被称为“WWW”或“Web”)的日益普及的是对数据库进行万维网访问的快速增长的需求。因此,数据库搜索变得日益重要。并且随着数据继续增长,变得更加难以向信息提供基于简单菜单的导航系统,并且通过用户的数据库搜索是更高效的信息查找方法。
为了解决该需求,以可扩展标记语言(XML)创作万维网内容,其中可扩展标记语言向用户提供了定义他们自己的标签的能力。标签是关键字,其识别与标签相关联的数据是什么,并且典型地由以特殊字符包围的字符串组成,例如,给定文本是否是标题或段落。这使XML成为非常强大的语言,其使用户能够容易地定义可以针对每个文档而变化的数据模型,这为创作者提供了创建定制标记语言以适合特定类型的文档的方法。
可以将XML比作超文本标记语言(HTML)文件,因为这两者都是基于标准通用标记语言(SGML),并且都使用标签来传达有关万维网文档结构的基本信息。然而,HTML文档的样式和逻辑是硬编码的,并且有限数目的HTML元素标签可用。结果,HTML标签没有定义每个页元素的含义。在XML中,每个文档是对象,并且文档的每个元素是对象。典型地,在XML语法如文档类型定义(DTD)、XML模式(Schema)定义或Relax NG语法中规定文档的逻辑结构。创作者可以使用DTD为文档定义一组标签的语法,以便给定的应用程序可以验证标签的正确使用。DTD包括一组元素及其属性,以及每个元素与其它元素的关系的规定。一旦定义了元素,它就可以与样式单、脚本、HTML代码等相关联。这样,创作者可以用XML定义他或她自己的标签和属性,以识别文档的语义元素,然后,可以自动地对其进行验证。
当应用程序根据特定的XML数据模型为文档生成XML标签(和对应的数据)并且将该文档传送到也理解该数据模型的另一应用程序时,XML表示法起到管道作用,这使信息能够从一个应用程序平滑传输到另一应用程序。通过从所接收的文档解析数据模型的标签,接收应用程序可以按照生成应用程序所计划的那样,重建用于显示、打印或其它处理的信息。相反地,HTML使用特定一组预定义的标签,因此它不是用户可扩展语言。
XML是结构良好(well-formed)的表示法,这意味着所有开始标签具有对应的结束标签(特殊的“空”标签除外,其通过单个标签开始和结束,如“<email/>”),并且嵌套在另一标签内的每个标签在外标签结束之前结束。另一方面,HTML不是结构良好的表示法。某些HTML标签不要求结束标签,并且不要求被嵌套标签遵循如针对XML所述的严格要求(也就是,在HTML中,标签可以在第一外标签内开始,并且在不同的外标签内结束)。
XML被认为是最佳地支持语义搜索:能够区分词的不同含义(例如,词“element”的化学、标记、以及程序设计含义),因此准确地找到感兴趣的信息。这一许诺(promise)与诸如GoogleTM的全文搜索引擎的行为不同,其中全文搜索引擎匹配所有出现的词汇串“element”而不考虑含义。
XML提供了对文档的语义进行标记的能力。然而,在历史上支持语义搜索的唯一方法是编写对定制标记敏感的搜索实现。
更近地,诸如资源描述框架(RDF)和TopicMaps的语义网技术引入了标准的方法来用适于数据库的结构表示语义信息。针对这些语义表示编写了搜索实现。然而,语义网技术没有提供方法来桥接文档内容的标记和这些一般语义表示之间的差距。
可以看出,需要一种用于生成和表示与知识表示内的主题相关的语义信息的方法、设备和程序存储装置。
发明内容
为了克服上述限制,以及克服在阅读和理解本说明书时将会变得清楚的其它限制,本发明公开了一种用于桥接文档内容的标记和一般语义表示例如资源描述框架(RDF)和TopicMaps之间的差距的方法、设备和程序存储装置。
根据本发明的实施例,提供了一种执行用于限定(delimit)词的操作的方法,包括:向多个标记语言添加可扩展的词汇表标记,其中所述多个标记语言组成知识表示;以及基于所述词汇表标记处理所提供的来自一个或多个词汇表的术语(term),以便在知识表示中使用,其中,所述词汇表标记是基于所述限定词形成的,并且用以限定所述术语所属的词汇表。
在本发明的另一实施例中,提供了一种用于提供基于标记语言的限定词(delimited word)的设备,包括:存储器,用于在其中存储数据;以及处理器,被配置成用于向多个标记语言添加可扩展的词汇表标记,其中所述多个标记语言组成知识表示,以及基于所述词汇表标记处理从所述存储器提供的来自一个或多个词汇表的术语,以便在知识表示中使用,其中,所述词汇表标记是基于所述限定词形成的,并且用以限定所述术语所属的词汇表。
在本发明的另一实施例中,提供了一种用于限定词的操作的处理系统,包括:用于向多个标记语言添加可扩展的词汇表标记的装置,其中所述多个标记语言组成知识表示;以及用于基于所述词汇表标记处理所提供的来自一个或多个词汇表的术语以便在知识表示中使用的装置,其中,所述词汇表标记是基于所述限定词形成的,并且用以限定所述术语所属的词汇表。
本发明的另一实施例是一种用于提供基于标记语言的限定词的系统,包括:用于提供存储器的装置,其中所述存储器用于在其中存储数据;以及用于提供处理器的装置,其中所述处理器被配置成用于向多个标记语言添加可扩展的词汇表标记,其中所述多个标记语言组成知识表示,以及基于所述词汇表标记处理从所述存储器提供的来自一个或多个词汇表的术语,以便在知识表示中使用,其中,所述词汇表标记是基于所述限定词形成的,并且用以限定所述术语所属的词汇表。
作为本发明特征的这些和各种其它优点和新颖特性在附于本发明并且形成其一部分的权利要求书中具体指出。然而,为了更好地理解本发明、其优点、以及通过其使用而实现的目的,应当参考形成本发明的另一部分的附图以及伴随的描述性内容,其中示出和描述了根据本发明的设备的特定例子。
附图说明
现在参考附图,其中相同的标号始终表示对应的部分:
图1a示出了根据本发明实施例的用于限定词的方法;
图1b示出了用于根据标记语言产生知识表示的方法;
图2示出了根据本发明实施例的允许用户选择其中出现搜索词的一个或多个词汇表的用户界面;
图3示出了根据本发明实施例的允许以宽窄分级结构排列词汇表的可选用户界面300;
图4示出了根据本发明实施例的包括允许自动完成查询词的框架的用户界面;
图5是根据本发明实施例的具有通过使用针对每个主题域的网页而设置的隐式标记语言的用户界面图;
图6示出了根据本发明实施例的用于使用宽窄关系定义词汇表元素的方法;
图7是根据本发明实施例的用于预定义受控词汇表中的词的方法的流程图;
图8是根据本发明实施例的用于使用同义词进行搜索的方法的流程图;
图9示出了根据本发明实施例的用于使用翻译进行多语言搜索的另一方法;
图10示出了根据本发明实施例的考虑了搜索相关性的另一方法;
图11示出了根据本发明实施例的支持分类搜索的方法;以及
图12示出了允许通过索引来扩展本发明的实施例的方法。
具体实施方式
在下面的实施例描述中,参考形成其一部分的附图,并且其中以示例说明的方式示出了可以实施本发明的特定实施例。应当理解,因为在不背离本发明的范围的情况下可以进行结构上的改变,所以可以利用其它实施例。
本发明的实施例提供了一种方法、设备和程序存储装置,其向可扩展标记语言添加受控词汇表的标记,从而允许在文档中将词标记为词汇表中的术语的出现,以便将所标记的词处理为在知识表示内出现的语义主题。
图1a示出了根据本发明实施例的用于限定词的基于标记语言的方法100。向多个标记语言添加可扩展的词汇表标记(110)。该多个标记语言形成知识表示。处理所提供的来自一个或多个词汇表的术语,以便在知识表示中使用(120)。
图1b示出了用于根据标记语言产生知识表示的方法。在文档标记阶段125中,通过解析词汇表中的文本如词element 140,对文档进行标记(130),其中词element 140可以表示化学术语如氢。在知识表示145中使用的情况下,在程序设计数组155中使用的术语element 150在文档165中将表示化学词汇表160中的化学元素。
根据本发明的实施例,一种可扩展词汇表标记,达尔文信息分类体系结构(DITA)XML,可以以诸如DTD、XML模式、Relax NG或其它模式语言的XML语法表达。例如,对于DITA XML文档,本发明通过利用DITA元素的可扩展性来支持(leverage)DITA XML文档,以便可以将新的受控词汇表添加到文档标记和现有词汇表的语义表示。结果,信息提供者获得支持语义网技术以便实现支持对文档进行语义搜索的XML许诺的附加能力。
可以使用所添加的词汇表元素标记所提供的词,以便限定属于词汇表的词。以下将属于词汇表的词称为术语。对来自受控术语(terminology)的词进行限定的元素可以例如包括<xmlterm>element</xmlterm>和<progterm>element</progterm>。本发明使用DITA域可扩展性来引入允许基本元素的词汇表。
本发明可以使用映射文件为由DITA词汇表元素标记的词定义诸如资源描述框架(RDF)或TopicMaps(TM)的知识表示内的标识符(ID)。例如,下面映射片断为属于XML和程序设计词汇表的词定义基本RDFID:
<vocab element=“progterm”>
<resource>http://www.ibm.com/dita/examples/search/progterm</resource>
<title>Programming</title>
</vocab>,以及
<vocab element=“xmlterm”>
<resource>http://www.ibm.com/dita/examples/search/xmlterm</resource>
<title>XML</title>
</vocab>
与元素相关联的URI可以前置到限定术语,以产生可以作为元数据值而充当术语用户的唯一、全局的标识符的统一资源标识符(URI)。可选地,可以使用XML语法而通过缺省属性将词汇表元素与URI相关联,如下面的DTD例子所示:
<!ELEMENT progterm(#PCDATA)*>
<!ATTLIST progterm
href CD ATA#FIXED
http://www.ibm.com/dita/examples/search/progterm
type CDATA#FIXED“Programming”
>,以及
<!ELEMENT xmlterm(#PCDATA)*>
<!ATTLIST xmlterm
href CDATA#FIXED
http://www.ibm.com/dita/examples/search/xmlterm
type CDATA#FIXED“XML”
>
不管是在外部映射文件中还是在具有缺省值的属性中维护元素之间的关联,诸如可扩展样式单语言变换(XSLT)的处理都可以构造每个限定术语的URI。
在实现词汇表标签时,可以词干化(stem)由元素限定的词,以将词汇变体合并成单个术语。例如,将<xmlterm>element</xmlterm>和<xmlterm>elements</xmlterm>识别为相同术语的出现。
收集(harvesting)文档中的术语(由词汇表元素限定的词干化词)可以用来生成其中出现术语的每个文档的知识表示。例如,下面RDF片断包含针对程序设计词汇表所生成的知识表示、属于该词汇表的术语,以及出现该术语的文档:
<term:Vocabulary rdf:about=“http://www.ibm.com/dita/examples/search/progterm”>
<term:vocabTitle>Programming</term:vocabTitle>
<term:hasTerm>
<term:Term rdf:about=“http://www.ibm.com/dita/examples/search/progterm#element”>
<term:word>element</term:word>
<term:occursIn rdf:resource=“joblogexample.html”/>
<term:occursIn rdf:resource=“pcmldttg.html”/>
</term:Term>
</term:hasTerm>
<term:Vocabulary>
图2示出了根据本发明实施例的允许用户选择其中出现搜索词的一个或多个词汇表的用户界面200。用户界面200包括下拉式词汇表菜单210和术语区域220。用户可以从下拉式词汇表菜单210选择词汇表并且在术语区域210中输入一个或多个术语,从而将所分配的术语提供给处理与域实体相关的术语的系统。此后,一旦选择了搜索按钮230,系统就可以使用所输入和所选择的搜索标准进行搜索。
可选地,如果术语不是从下拉式词汇表菜单210的词汇表特定列表中选择的,则例如,缺省地可以使用词干化,以便将搜索词简化为术语。与基于词汇词对文档进行匹配相比较,基于术语对诸如文档的数据进行匹配提供了更高的精度。另外,词汇表内的术语可以用于其中出现了相同术语的文档之间的关联链接。
继续图2,一旦输入搜索标准,就可以进行搜索并且显示搜索结果列表240。然后,可以选择并显示匹配文档(未示出)。
图3示出了根据本发明实施例的允许以宽窄分级结构排列词汇表的可选用户界面300。当在术语框310中键入查询词时,应用程序可以通过列出与所提供的词的一部分相关联的匹配术语而自动完成词。匹配可以基于从词汇表树选择的词汇表的类型。词汇表树320列出宽窄分级结构,其中首先是较宽的程序设计词汇表,接着是较窄的Java、C、Fortan以及Pascal程序设计词汇表。C程序设计词汇表进一步被窄化为C++程序设计词汇表。当选择了词汇表时,可以根据所选词汇表窄化为了自动完成而列出的术语或词列表。可选地,自动完成可以如下进行,即首先完成术语,然后将所完成的术语与词汇表列表相匹配以供选择。此外,可以使用针对术语和词汇表两者的自动完成。当键入词的一部分时,列出术语和词汇表。当选择了术语或词汇表时,程序可以窄化未选择的标准,以匹配所选词汇表或术语。然后,用户可以选择窄化的第二标准。可以改变词汇表和术语,并且可以根据新的标准刷新词汇表或术语的匹配列表。这样,当与先前选择的词汇表相比选择较窄的词汇表时,与所提供的术语或术语的一部分相匹配的术语的数目将减少。相反,与先前选择的词汇表相比选择较宽的词汇表将产生数目更多的术语。在本例中,完成术语将类似于使用支持词典的词处理程序的词完成,但是术语将会根据特定的Java词汇表330完成。可以手动或自动地触发自动完成。
图4示出了根据本发明实施例的包括允许自动完成查询词的框架的用户界面400。当在图4的用户界面400的术语区域410中键入术语时,并且在相同词在不同的词汇表中具有不同含义的情况下,在词汇表区域420中显示可能词汇表的列表。典型地,一个或多个所选词汇表与查询词相关联。当在任何词汇表中都没有找到查询词并且因此没有匹配术语可用时,与支持词典的词处理程序中未知词的标识相类似,可以对词加下划线。对于特别大的词汇表,在为所输入的一个或多个术语找到大量的匹配的情况下,与诸如Java帮助的帮助系统中的索引机制相类似,可以将术语显示在列表中以供选择。
一旦输入了与词汇表相关联的术语,则置于术语之前的图标或符号可以表示相关联的词汇表并且提供可点击机制,以便保持相同的术语但改变词汇表,保持相同的术语但添加词汇表,或者以来自相同或不同词汇表的不同术语替换术语。图4将“#”符号430与术语Element 415相关联。与术语Element 415相关联的同义词或术语如Character 435被分配了“*”符号440。类似地,所选程序设计425词汇表可以与“$”符号455相关联。特定类型的程序设计词汇表可以与其它符号相关联。例如,Java 460可以与“%”符号465相关联。这样,根据本发明的实施例,可以将与所输入的Element 415术语相关联的术语如Character 435显示在用户界面400中。此外,可以将具有更宽或更窄范围的词汇表显示在用户界面上,并且它们可以具有与其相关联的符号。从而,用户界面允许用户快速地在相关联的术语之间以及在相关联的词汇表之间切换,并且还有可能自动地在所标记的术语之间生成链接。可以将与特定词汇表相关联的特定术语的结果显示在显示区域470中。
图5是根据本发明实施例的具有通过使用针对每个主题域的网页500而设置的隐式词汇表的用户界面图。使用万维网浏览器导航涉及适当主题域的网页500,例如Java网页。可以基于针对主题域的网页指定词汇表(包括较窄的词汇表)而应用自动完成,从而允许完成部分输入的查询词。与依靠拼写词典的自动完成不同,查询词自动完成将允许多词术语。在词与多词术语中的第一个词相匹配的情况下,匹配算法可以临时地将空格视为词字符而非词边界,但是如果匹配失败则返回到将空格视为词边界。
图6示出了根据本发明实施例的方法600,其用于使用可扩展的词汇表标记,以便使用宽窄关系定义词汇表元素。可以使用DITA特殊化(specialization)来定义具有宽窄关系的词汇表元素(610),然后以这种方式,可以在所生成的知识表示中的词汇表之间声明(assert)。针对词汇表元素,在所生成的知识表示中声明宽窄关系(620)。根据本发明的实施例,当运行对来自词汇表的术语的搜索时,匹配出现了该词汇表和更窄词汇表内的搜索词的文档(630)。例如,对程序设计词汇表中的词“element”的搜索也将匹配Java程序设计词汇表中的“element”的出现。这种扩展也可以通过在其较宽的词汇表内对来自较窄词汇表的术语进行索引来实现。可选地,搜索可以检查较窄词汇表的索引以及搜索标准的词汇表,并且合并结果。
图7是根据本发明实施例的用于预定义受控词汇表中的词的方法700的流程图。可以将术语的知识表示(词汇表和词)预定义为受控词汇表(710)。因为与从文档词生成的知识表示相比较,有更多的信息可用,所以这可以扩展词汇表。可以替代使用基本方法来定义词汇表元素(720),并且可以将元素映射到包括知识表示中的预定义术语的一组术语(730)。词可以被词干化,以便将词识别为术语的实例。在限定词不匹配预定义的术语的情况下,可以通过编辑工具或通过构建实用程序提供错误处理,以便确保文档有效(740)。针对文档内的术语出现生成知识表示与在基本方法中相同。
图8是根据本发明实施例的允许使用同义词进行搜索的方法800的流程图。在词汇表的映射中,可以将已知同义词预定义为术语等价物(810)。可以将预定义的同义词映射为等价术语(820)。如同在基本方法中一样,词干化文档词(830)。确定词干化的文档词是否具有同义词(840),如果是,则用术语词替换同义词并且以与在基本方法中相同的方式对其进行处理(850)。在词干化的文档词没有同义词的情况下,正常地处理词干化的文档词(860)。根据本发明,当执行搜索时,可以检查所输入的搜索标准词的同义词。如果存在同义词,则在匹配文档之前,可以用术语词替换搜索标准词,从而确保同义词将匹配相同的含义,并且由此匹配相同的文档。
图9示出了根据本发明实施例的允许使用翻译进行多语言搜索的另一方法900。在词汇表的映射中,可以将本国语言词映射到术语(语义主题)(910)并且如同在同义词扩展中一样对其进行处理(920)。当对标准进行处理时,用术语(语义主题)替换本国语言词(930),并且如同在义词扩展中一样对其进行处理(940)。这样,与采用自动化翻译软件相比,一种语言的搜索可以以更高的语义精度对多种语言的文档进行匹配。结果,懂多种语言的人可以用其优选语言创建搜索标准并且在可能的情况下接收其优选语言的文档,并且如果其它语言的文档不可用,则接收英文的文档。
图10示出了根据本发明实施例的考虑了搜索相关性的另一方法1000。有可能通过将词汇表的唯一号码与术语词的唯一号码组合,为来自受控或不受控的词汇表的每个术语分配唯一号码或权重(1010)。使用任何全文搜索算法对文档中的术语(而非词)进行索引(1020)。例如,可以用向量空间搜索算法对文档进行索引,从而用号码表示每个术语,使得可以将相同的词汇词表示为两个完全不同的术语。其结果是词的每个含义将是不同的向量。当执行搜索时,使用相同的方案将搜索词转换成号码,并且通过应用标准全文搜索算法来使用号码对文档进行匹配。这将导致比词汇全文搜索更高的准确度。
根据本发明的实施例,图11示出了方法1100可以如何支持分类搜索。在受控词汇表的知识表示中,在不同词汇表中的受控术语之间定义宽窄关系(1110)。例如,对于Java“hash”,程序设计“set”可能是更宽的术语。当运行对术语的搜索时,匹配具有该术语的文档和具有更窄术语的文档(1120),并且可以合并结果(1130)。例如,对程序设计词汇表中的术语“set”的搜索可能也匹配Java词汇表中的术语“hash”。可以合并“set”和“hash”的结果并且将其显示在用户界面上。
图12示出了允许通过索引扩展本发明的实施例的方法1200。将术语的实例索引为其更宽术语的实例(1210),并且根据更宽术语的实例对文档进行匹配(1220)。可选地,除了搜索术语并之外,搜索还可以查找更窄的术语,并且合并结果。
从而,文档内容可以是可提取的并且被表达为知识表示,因此避免了费力且易于出错的元数据维护。
本发明的示例性实施例的前面描述是为了示例说明和描述的目的而提供的。它不意欲是彻底无遗漏的,或者将本发明局限于所公开的确切形式。根据上面教导,很多修改和变化是可能的。本发明的范围不意欲由本详细描述限制,而由所附权利要求限制。
Claims (35)
1.一种执行用于限定词的操作的方法,包括:
向多个标记语言添加可扩展的词汇表标记,每个标记语言都具有与术语相关的词汇表,其中所述添加步骤包括:在出现来自所述标记语言的所述词汇表的术语时,使用所述可扩展的词汇表标记来标记多个文档中的文档的术语,以使得使用所述可扩展的词汇表标记所标记的文档中的每个术语被限定为属于所述词汇表中的词汇表;以及
基于所述词汇表标记处理所提供的来自一个或多个所述词汇表的术语,其中所述处理步骤包括:产生所述多个文档中的其中出现所提供的术语的特定文档的知识表示,所述知识表示包括所述词汇表中的特定词汇表的标识,所述特定词汇表具有所提供的术语,所述知识表示还包括属于所述特定词汇表的所提供的术语和其中出现所提供的术语的特定文档的标识,
其中,所述词汇表标记是基于所述限定词形成的,并且用以限定所述术语所属的词汇表。
2.如权利要求1所述的方法,其中向多个标记语言添加可扩展的词汇表标记包括通过DTD中的DITA特殊化向多个标记语言添加可扩展的词汇表标记。
3.如权利要求1所述的方法,其中向多个标记语言添加可扩展的词汇表标记包括通过XML模式或RelaxNG向多个标记语言添加可扩展的词汇表标记。
4.如权利要求1所述的方法,其中所述一个或多个词汇表包括在主题域内。
5.如权利要求1所述的方法,其中所述一个或多个词汇表包括使用映射而定义的一个或多个词汇表。
6.如权利要求5所述的方法,其中使用映射而定义的一个或多个词汇表包括使用RDF ID的映射而定义的一个或多个词汇表。
7.如权利要求5所述的方法,其中使用映射而定义的一个或多个词汇表包括使用语义URI的固定属性而定义的一个或多个词汇表,其中语义URI与词汇表的固定属性相关联。
8.如权利要求1所述的方法,其中处理所提供的术语包括基于与术语相关联的所提供的词而处理所提供的术语。
9.如权利要求1所述的方法,其中处理所提供的术语包括处理作为所提供的词的同义词的所提供的术语。
10.如权利要求1所述的方法,其中处理所提供的来自一个或多个词汇表的术语包括作为具有所分配的词汇表的术语,处理所提供的术语。
11.如权利要求1所述的方法,其中所提供的术语包括词干化的术语。
12.如权利要求1所述的方法,其中处理所提供的来自一个或多个词汇表的术语以便在知识表示中使用,包括:
处理所提供的术语的一部分;
启动自动完成,其中自动完成识别具有所提供的术语的所述一部分的一个或多个术语;
显示所识别的一个或多个术语;以及
接收所完成的术语。
13.如权利要求1所述的方法,还包括在所述一个或多个词汇表的至少一个内检索与所提供的术语相关联的数据。
14.如权利要求13所述的方法,其中检索与术语相关联的数据包括检索与术语相关联的多个文档。
15.如权利要求13所述的方法,其中检索与术语相关联的数据包括推断与术语相关联的文档之间的关联链接。
16.如权利要求13所述的方法,其中检索与术语相关联的数据包括从词汇表检索数据,其中术语与作为要用来检索数据的词汇表的子集的词汇表相关联。
17.如权利要求13所述的方法,其中检索与术语相关联的数据包括从词汇表的子集检索数据。
18.如权利要求13所述的方法,其中检索与术语相关联的数据包括从一个或多个词汇表检索数据。
19.如权利要求13所述的方法,还包括将权重与基于被检索数据与术语的关系而检索的数据相关联。
20.一种用于限定词的操作的处理系统,包括:
用于向多个标记语言添加可扩展的词汇表标记的装置,每个标记语言都具有与术语相关的词汇表,其中所述添加可扩展的词汇表标记的装置包括:用于在出现来自所述标记语言的所述词汇表的术语时,使用所述可扩展的词汇表标记来标记多个文档中的文档的术语,以使得使用所述可扩展的词汇表标记所标记的文档中的每个术语被限定为属于所述词汇表中的词汇表的装置;以及
用于基于所述词汇表标记处理所提供的来自一个或多个所述词汇表的术语以便在知识表示中使用的装置,其中所述处理所提供的来自一个或多个所述词汇表的术语的装置包括:用于产生所述多个文档中的其中出现所提供的术语的特定文档的知识表示的装置,所述知识表示包括所述词汇表中的特定词汇表的标识,所述特定词汇表具有所提供的术语,所述知识表示还包括属于所述特定词汇表的所提供的术语和其中出现所提供的术语的特定文档的标识,
其中,所述词汇表标记是基于所述限定词形成的,并且用以限定所述术语所属的词汇表。
21.如权利要求20所述的系统,其中在知识表示中使用的一个或多个词汇表包括使用映射而定义的一个或多个词汇表。
22.如权利要求21所述的系统,其中使用映射而定义的一个或多个词汇表包括使用RDF ID的映射而定义的多个词汇表。
23.如权利要求21所述的系统,其中使用映射而定义的一个或多个词汇表包括使用语义URI的固定属性而定义的一个或多个词汇表,其中语义URI的固定属性与标记语言的固定属性相关联。
24.如权利要求20所述的系统,其中处理所提供的术语包括基于与术语相关联的所提供的词而处理所提供的术语。
25.如权利要求20所述的系统,其中所提供的术语包括作为所提供的词的同义词的所提供的术语。
26.如权利要求20所述的系统,其中处理所提供的来自一个或多个词汇表的术语包括作为具有所分配的词汇表的术语,处理所提供的术语。
27.如权利要求20所述的系统,其中所提供的术语包括词干化的术语。
28.如权利要求20所述的系统,其中用于处理所提供的来自一个或多个词汇表的术语以便在知识表示中使用的装置,包括:
用于处理所提供的术语的一部分的装置;
用于启动自动完成的装置,其中自动完成识别具有所提供的术语的所述一部分的一个或多个术语;
用于显示所识别的一个或多个术语的装置;以及
用于接收所完成的术语的装置。
29.如权利要求20所述的系统,还包括用于在所述一个或多个词汇表的至少一个内检索与所提供的术语相关联的数据的装置。
30.如权利要求29所述的系统,其中检索与术语相关联的数据包括检索与术语相关联的多个文档。
31.如权利要求30所述的系统,其中检索与术语相关联的文档包括检索在与术语相关联的文档之间具有关联链接的文档。
32.如权利要求29所述的系统,其中检索与所提供的术语相关联的数据包括从词汇表检索与所提供的术语相关联的数据,其中术语与作为要在其中检索数据的词汇表的子集的词汇表相关联。
33.如权利要求29所述的系统,其中检索与所提供的术语相关联的数据包括从词汇表的子集检索与所提供的术语相关联的数据。
34.如权利要求29所述的系统,其中检索与所提供的术语相关联的数据包括从一个或多个词汇表检索与所提供的术语相关联的数据。
35.如权利要求29所述的系统,还包括用于将权重与基于被检索数据与术语的关系而检索的数据相关联的装置。
Applications Claiming Priority (2)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
US11/048,367 | 2005-01-31 | ||
US11/048,367 US7689910B2 (en) | 2005-01-31 | 2005-01-31 | Processing semantic subjects that occur as terms within document content |
Publications (2)
Publication Number | Publication Date |
---|---|
CN1815477A CN1815477A (zh) | 2006-08-09 |
CN1815477B true CN1815477B (zh) | 2010-06-09 |
Family
ID=36757853
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN2006100066358A Expired - Fee Related CN1815477B (zh) | 2005-01-31 | 2006-01-27 | 用于提供基于标记语言的限定词的方法和系统 |
Country Status (2)
Country | Link |
---|---|
US (1) | US7689910B2 (zh) |
CN (1) | CN1815477B (zh) |
Families Citing this family (29)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
US7756886B1 (en) * | 2005-09-02 | 2010-07-13 | Intuit Inc. | Filtered list assisted element selection |
US10380231B2 (en) * | 2006-05-24 | 2019-08-13 | International Business Machines Corporation | System and method for dynamic organization of information sets |
US9251296B2 (en) * | 2006-08-18 | 2016-02-02 | National Instruments Corporation | Interactively setting a search value in a data finder tool |
KR100823289B1 (ko) * | 2006-08-28 | 2008-04-17 | 한국과학기술정보연구원 | 유알아이 기반 성과 정보 관리 시스템 및 그 방법 |
US7991724B2 (en) * | 2006-12-21 | 2011-08-02 | Support Machines Ltd. | Method and a computer program product for providing a response to a statement of a user |
US7933904B2 (en) * | 2007-04-10 | 2011-04-26 | Nelson Cliff | File search engine and computerized method of tagging files with vectors |
CN101398835B (zh) * | 2007-09-30 | 2012-08-29 | 日电(中国)有限公司 | 基于自然语言的服务选择系统与方法以及服务查询系统与方法 |
US20110119261A1 (en) * | 2007-10-12 | 2011-05-19 | Lexxe Pty Ltd. | Searching using semantic keys |
US9396262B2 (en) * | 2007-10-12 | 2016-07-19 | Lexxe Pty Ltd | System and method for enhancing search relevancy using semantic keys |
US9875298B2 (en) * | 2007-10-12 | 2018-01-23 | Lexxe Pty Ltd | Automatic generation of a search query |
US10460020B2 (en) * | 2007-11-14 | 2019-10-29 | International Business Machines Corporation | Generating schema-specific DITA specializations during generic schema transformations |
US8127225B2 (en) * | 2008-01-24 | 2012-02-28 | International Business Machines Corporation | Document specialization processing in a content management system |
JP2009245308A (ja) * | 2008-03-31 | 2009-10-22 | Fujitsu Ltd | 文書校正支援プログラム、文書校正支援方法および文書校正支援装置 |
US20100031227A1 (en) * | 2008-08-01 | 2010-02-04 | International Business Machines Corporation | Structured Representation of Integration Scenarios of Software Products |
EP2478451A2 (en) | 2009-09-18 | 2012-07-25 | Lexxe PTY Ltd | Method and system for scoring texts |
US9152734B2 (en) | 2010-05-24 | 2015-10-06 | Iii Holdings 2, Llc | Systems and methods for identifying intersections using content metadata |
US8566348B2 (en) | 2010-05-24 | 2013-10-22 | Intersect Ptp, Inc. | Systems and methods for collaborative storytelling in a virtual space |
CN102231145A (zh) * | 2010-12-01 | 2011-11-02 | 无敌科技(西安)有限公司 | 一种自动对内容实现加值标注的方法 |
US10198506B2 (en) | 2011-07-11 | 2019-02-05 | Lexxe Pty Ltd. | System and method of sentiment data generation |
US10311113B2 (en) | 2011-07-11 | 2019-06-04 | Lexxe Pty Ltd. | System and method of sentiment data use |
CN102999547A (zh) * | 2011-09-16 | 2013-03-27 | 莱克西私人有限公司 | 搜索查询的自动生成 |
US8381095B1 (en) | 2011-11-07 | 2013-02-19 | International Business Machines Corporation | Automated document revision markup and change control |
CN102760166B (zh) * | 2012-06-12 | 2014-07-09 | 北大方正集团有限公司 | 一种支持多语言的xml数据库全文检索方法 |
CA2796502C (en) * | 2012-11-23 | 2019-09-10 | Ibm Canada Limited - Ibm Canada Limitee | Managing a classification system and associated selection mechanism |
US10545920B2 (en) | 2015-08-04 | 2020-01-28 | International Business Machines Corporation | Deduplication by phrase substitution within chunks of substantially similar content |
US10990630B2 (en) * | 2018-02-27 | 2021-04-27 | International Business Machines Corporation | Generating search results based on non-linguistic tokens |
US11785194B2 (en) | 2019-04-19 | 2023-10-10 | Microsoft Technology Licensing, Llc | Contextually-aware control of a user interface displaying a video and related user text |
US11678031B2 (en) | 2019-04-19 | 2023-06-13 | Microsoft Technology Licensing, Llc | Authoring comments including typed hyperlinks that reference video content |
US10904631B2 (en) * | 2019-04-19 | 2021-01-26 | Microsoft Technology Licensing, Llc | Auto-completion for content expressed in video data |
Family Cites Families (11)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
US5708822A (en) | 1995-05-31 | 1998-01-13 | Oracle Corporation | Methods and apparatus for thematic parsing of discourse |
US6101515A (en) | 1996-05-31 | 2000-08-08 | Oracle Corporation | Learning system for classification of terminology |
US6363378B1 (en) | 1998-10-13 | 2002-03-26 | Oracle Corporation | Ranking of query feedback terms in an information retrieval system |
US6405190B1 (en) | 1999-03-16 | 2002-06-11 | Oracle Corporation | Free format query processing in an information search and retrieval system |
AU6973900A (en) | 1999-09-29 | 2001-04-30 | Xml-Global Technologies, Inc. | Authoring, altering, indexing, storing and retrieving electronic documents embedded with contextual markup |
US6418448B1 (en) * | 1999-12-06 | 2002-07-09 | Shyam Sundar Sarkar | Method and apparatus for processing markup language specifications for data and metadata used inside multiple related internet documents to navigate, query and manipulate information from a plurality of object relational databases over the web |
SG96597A1 (en) * | 2000-02-17 | 2003-06-16 | Ibm | Archiving and retrieval method and apparatus |
US7032174B2 (en) * | 2001-03-27 | 2006-04-18 | Microsoft Corporation | Automatically adding proper names to a database |
EP1454263A4 (en) * | 2001-11-21 | 2008-02-13 | Contecs Dd Llc | DATA DICTIONARY OF DIGITAL RIGHTS MANAGEMENT |
US20040186705A1 (en) * | 2003-03-18 | 2004-09-23 | Morgan Alexander P. | Concept word management |
US20040221228A1 (en) * | 2003-04-30 | 2004-11-04 | International Business Machines Corporation | Method and apparatus for domain specialization in a document type definition |
-
2005
- 2005-01-31 US US11/048,367 patent/US7689910B2/en not_active Expired - Fee Related
-
2006
- 2006-01-27 CN CN2006100066358A patent/CN1815477B/zh not_active Expired - Fee Related
Also Published As
Publication number | Publication date |
---|---|
CN1815477A (zh) | 2006-08-09 |
US7689910B2 (en) | 2010-03-30 |
US20060173821A1 (en) | 2006-08-03 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
CN1815477B (zh) | 用于提供基于标记语言的限定词的方法和系统 | |
Myllymaki | Effective Web data extraction with standard XML technologies | |
JP4658420B2 (ja) | 文字列の正規化表示を生成するシステム | |
Uren et al. | Semantic annotation for knowledge management: Requirements and a survey of the state of the art | |
US8484552B2 (en) | Extensible stylesheet designs using meta-tag information | |
Hyvönen et al. | Semantic autocompletion | |
Uren et al. | The usability of semantic search tools: a review | |
US8700673B2 (en) | Mechanisms for metadata search in enterprise applications | |
Kiyavitskaya et al. | Cerno: Light-weight tool support for semantic annotation of textual documents | |
JP2006276867A (ja) | 入力モードバイアスを適用するための方法およびシステム | |
WO2014160379A1 (en) | Dimensional articulation and cognium organization for information retrieval systems | |
KR20100038378A (ko) | 지능적인 텍스트 주석을 위한 방법, 시스템 및 컴퓨터 프로그램 | |
Tari et al. | Incremental information extraction using relational databases | |
US20110307243A1 (en) | Multilingual runtime rendering of metadata | |
Gregg et al. | Adaptive web information extraction | |
Mukherjee et al. | Automated knowledge provider system with natural language query processing | |
CN1326078C (zh) | 包装器的生成方法 | |
Miled et al. | An ontology for semantic integration of life science web databases | |
Kachroudi et al. | Bridging the multilingualism gap in ontology alignment | |
Tari et al. | Parse tree database for information extraction | |
EP1377917A2 (en) | Extensible stylesheet designs using meta-tag information | |
Arefin et al. | Multilingual Content Management in Web Environment | |
Fugazza et al. | Coupling human–and machine–driven mapping of SKOS thesauri | |
Mammadov Hasan et al. | Tsv2rdf: Generating rdf data model from tsv file format using semantic web technologies | |
Rao | Recall oriented approaches for improved indian language information access |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
C06 | Publication | ||
PB01 | Publication | ||
C10 | Entry into substantive examination | ||
SE01 | Entry into force of request for substantive examination | ||
C14 | Grant of patent or utility model | ||
GR01 | Patent grant | ||
CF01 | Termination of patent right due to non-payment of annual fee |
Granted publication date: 20100609 Termination date: 20190127 |
|
CF01 | Termination of patent right due to non-payment of annual fee |