CN1526104A

CN1526104A - 分析结构化数据

Info

Publication number: CN1526104A
Application number: CNA028070895A
Authority: CN
Inventors: T��ά��÷��; T·维科梅基
Original assignee: Nokia Oyj
Current assignee: Nokia Oyj
Priority date: 2001-03-23
Filing date: 2002-01-30
Publication date: 2004-09-01
Anticipated expiration: 2022-01-30
Also published as: KR20040004559A; US20040098668A1; US7263691B2; KR100750962B1; CN1526104B; WO2002077856A1; FI20010609L; FI20010609A0; EP1374088A1; FI115416B

Abstract

本发明公开了一种用于分析结构化数据的方法，具有以下步骤：以第一计算机语言接收输入数据；根据输入数据生成多个令牌；使用包括规则集的文法语法编制上下文，所述上下文包括多个上下文分段，其形式为至少一个或多个上下文分段链，所述编制上下文的步骤包括以下子步骤：根据文法语法检测一个令牌在上下文中是否是容许的；如果所述令牌是容许的，则建立对应于该令牌的一个新上下文分段；以及为了恢复不容许令牌，还包括以下其他的步骤：为所述不容许令牌识别合适上下文，在该合适上下文中该令牌是容许的；和将此令牌应用于已识别的合适上下文中。

Description

分析结构化数据

技术领域

本发明涉及文件分析，并且特别涉及文件的文法分析。

背景技术

互联网已经带来了大量的用于各种目的新应用。互联网的快速增长的基础是用于定义数字形式文件的超文本标记语言(HTML)标准。HTML是标准通用标记语言(SGML)的子集。在SGML内具有另一种快速增长的定义族，称之为可扩充标记语言(XML)。此外，还存在无线标记语言WML，它被特别设计以便在移动通信中使用。HTML和WML都是XML的子集。

HTML用于在互联网上公布的大量文件。这些文件通常可被公众得到，并且提供高多样性的信息源。数字形式的信息经常被称作内容。

与HTML不同，WML是专门为无线终端设计的。与HTML形式的内容相比，WML形式的内容的量至今仍然非常有限。仅支持WML的无线终端(WML终端)不能使用HTML中的内容。

为了使可供WML终端使用的HTML格式化的内容令人感兴趣，存在两种选择。第一，能够按WML改写内容文件。第二，当WML终端请求HTML内容时，一个将HTML内容转送到WML终端的网络执行从HTML到WML的自动转换，这可以通过在WML终端与互联网之间使用一个网关服务器来安排，该网关服务器具有把内容从HTML格式转换成WML格式的能力。

都在不断研究HTML和XML。HTML正在朝XML会聚，或者HTML正在变成XML语言族的一个实例。

下面说明HTML和XML的生成和重构。首先将一个文件分解，以便分别以不同的标记标签(tag)或者仅以标签来存储其格式编排和含义(实际内容)。在HTML文件中，多个标签成一个序列，并因此顺序发送这些标签。某些标签含有用于定义文件的结构的结构信息，而某些其它标签含有根据已定义结构输出给用户的信息剪辑(clip)的含义。通常，这些剪辑是文本。

接收HTML、XML或者WML内容的终端接收一系列令牌(token)。为了以标记语言重构文件或者内容，需要一种汇编器。此汇编器将文件的格式编排和含义一起放回到原处。汇编器的核心存在一个分析器，该分析器根据某些分析规则和分析语言(即，文法)来分析数据。此分析器通常是控制终端的处理器的程序。该分析器接收顺序标记标签形式的输入(与字符数据令牌交织)并且将该输入分解成诸多部分(例如，名词(对象)，动词(方法)及其属性或选项)，这些部分随后能够利用其它的软件组成部分来管理。该分析器还可以查看是否已提供所需要的所有输入。在本说明书的上下文中，分析器将输入分解成令牌并根据这些令牌来构建结构。这些令牌通常是分析器的标签或文本数据(字符数据令牌)的内部表示。

需要将一个分析器用于多个不同的HTML或者XML处理应用，比如网关、HTML浏览器、移动终端、编辑工具(authoring tool)以及在某些场合中的web服务器。

不幸地，HTML和XML持续不断的发展导致这样一种需求，即需要频繁地更新用于在这些语言之间转换的设备来处理新文件。因此，包含在该设备中的分析器将被频繁更新，以应付这些语言的不同方言。这经常在需要时通过创建新版本的汇编器来实现。为此，存在至少两种工具程序，即“yacc”(Yet AnotherCompiler Compiler另一种编译器的编译程序)和“lex”。尽管这些工具程序极大地方便了新分析器的创建，但是待分析的语言的语法(syntax)首先需要用专用语言来描述。语法定义应如何完成分析。当新的分析器准备就绪时，借助于过滤工具来处理语法描述(专用语言)，以生成分析器的源代码表示。过滤工具通常生成C编程语言。产品化的分析器是单片软件，它组合了语法规则和分析器逻辑。最后，所生成的分析器源代码被编译并与应用代码相关联，以产生具有分析器功能的可运行程序。该处理过程的缺点是需要花费大量工作以使设备适应输入语言(HTML，XML)的变化。

一般来说，现代XML文件识别将从网络中搜索的文法定义，并因而需要动态可替代的文法定义。通常，将文件中的一个特定基准(reference)用于文法定义的识别。

US5687378提供了一种可替代的处理过程，此处理过程允许改变专用语法描述语言而无需重新编译或重新链接汇编器，这是以可交换的语法模块的使用为基础的，每个模块包括不同的分析规则集。这些分析规则定义分析器使用的文法。以这种方式，实际的分析器引擎与使用的规则相分离，并且能够容易地改变规则。尽管这些分析规则可以被如此改变以及使新描述语言或方言的适配变得更加容易，但还是留下了某些问题。

利用标准工具生成的分析器变得相当复杂并造成存储器浪费，这是因为这些分析器提供复杂的语法描述语言来覆盖比XML更多的描述语言。在XML的情况下，少量的描述性语法描述语言就足够了。如果此分析器优化用于XML，则此分析器将更小。此外，大量存在于互联网之中的页面是有缺陷的。这些页面中的缺陷阻碍和/或减慢文法分析。人们还知道，某些内容供应商可能故意生成一定的错误，以防止或者损害某些应用程序(诸如，某些WWW-浏览器)的使用。

发明内容

根据本发明的第一方面，提供了一种用于分析结构化数据的方法，包括以下步骤：

以第一计算机语言接收输入数据；

根据所述输入数据生成多个令牌；

使用包括规则集的文法语法来编制上下文，所述上下文以至少一个或多个上下文分段(step)链的形式包括多个上下文分段，编制上下文的步骤包括以下子步骤：

根据所述文法语法来检测一个令牌在所述上下文中是否是容许的；和

如果所述令牌是容许的，则建立对应于所述令牌的新上下文分段；

其特征在于，为了恢复不容许令牌，所述方法包括以下的其他步骤：

为所述不容许令牌识别一个合适上下文，在所述合适上下文中所述令牌是容许的；以及

在已识别的合适上下文中应用所述令牌。

有利的是，该方法使用了局部错误数据的所有正确信息并试图校正错误，以便甚至能够使用错误表示的信息。作为该方法一部分的分析与错误校正是快速的，并且要求减少的计算量和存储资源。

最好是，识别合适上下文包括利用所述文法语法来搜索用于令牌的最小差异(least different)容许上下文。

有利地，搜索最小差异容许上下文使有关恢复的信息在结构上的(错误)变化最小。

优选地，应用令牌包括将所述上下文修改为等于此最小差异容许上下文。

最好是，搜索最小差异容许上下文试图根据所述不容许令牌专用的规则来生成新上下文分段，以补足此上下文，从而使所述不容许令牌变成容许的。以这一种方式，能够自动插入被遗忘或故意丢弃的令牌，以估算最有可能的上下文。

优选地，搜索最小差异容许上下文的处理最好沿着上下文分段的链式结构一步一步地后退进行，直至找到容许上下文。这样，可以克服被遗忘或者被故意丢弃的尾令牌的缺陷。

最好是，该方法首先尝试通过增加这样的上下文分段来补足此上下文，其中根据语法允许这样的上下文分段加到前一上下文分段和不容许上下文分段。如果这样的补足失败，则后向继续执行搜索。

最好是，在后向继续每个上下文分段之后，该方法再次试图补足此上下文以遵从该令牌。这样，有可能克服丢失尾令牌或者其它令牌的缺陷。以这一种方式，最小改变数据的结构，这是因为在结构化数据的上下文中，最后的上下文分段最不重要。最有可能的是，上下文链式结构中的逆顺序的第一容许上下文分段对于在某一上下文中是不容许的令牌来说是正确的，其中在这某一上下文中使用此令牌。

最好是，专用于第一计算机语言的通用语法的规则被用于确定一种令牌在一个上下文中是否是容许的。这容许检测涉及第一计算机语言的通用类型的这样的错误。

最好是，专用于一种类型令牌的规则在搜索步骤中用于确定一种令牌在上下文中是否是容许的。这还允许纠正使用专用于第一计算机语言的通用语法的规则不能纠正的错误。

最好是，令牌的语法与类型特定的恢复方法用于恢复不容许令牌。

最好是，该方法包括动态转换为使用另一文法语法的还一步骤，以适应不同的语言或者此语言的不同方言。

根据本发明的第二方面，提供一种分析器，包括：

一个输入，用于以第一计算机语言接收输入数据；

一个令牌赋予器(tokeniser)，用于根据所述输入数据生成多个令牌；

一个上下文编制器，用于使用包括规则集的文法语法来编制上下文，所述上下文以至少一个上下文分段链的形式包括多个上下文分段，所述上下文编制器被配置成：

如果所述令牌是容许的，则建立对应于所述令牌的一个新上下文分段；

其特征在于，为了恢复不容许令牌，所述分析器还包括：

一个识别单元，用于为所述不容许令牌识别一个合适上下文，在所述合适上下文中所述令牌是容许的；以及

所述令牌赋予器被配置成在识别的合适上下文中应用所述令牌。

根据本发明的第三方面，提供一种具有分析器的处理单元，所述分析器包括：

一个输入，用于以第一计算机语言接收输入数据；

一个处理器，用于根据所述输入数据生成多个令牌；

其特征在于，为了恢复不容许令牌，所述分析器还包括：

所述处理器被配置成在识别的合适上下文中应用所述令牌。

最好地，所述处理单元是从由翻译器、网关、移动站和web服务器构成的一个组中选出的一个装置，该装置具有能够从输入数据的某些错误中恢复的优点。

根据本发明的第四方面，提供一种用于控制分析器的计算机程序产品，包括：

使所述分析器能够以第一计算机语言接收输入数据的分析器可运行计算机程序代码；

使所述分析器能够根据所述输入数据生成多个令牌的分析器可运行计算机程序代码；

使所述分析器能够使用包括规则集的文法语法来编制上下文的分析器可运行计算机程序代码，所述上下文以至少一个上下文分段链的形式包括多个上下文分段，此代码被配置成：

其特征在于，为了恢复不容许令牌，所述计算机程序产品还包括：

使所述分析器能够为所述不容许令牌识别一个合适上下文的分析器可运行计算机程序代码，在所述合适上下文中所述令牌是容许的；以及

使所述分析器能够在识别的合适上下文中应用所述令牌的分析器可运行计算机程序代码。

根据本发明的第五方面，提供一种包括移动电信网络和具有分析器的网关的系统，所述分析器包括：

一个输入，用于以第一计算机语言接收输入数据；

一个处理器，用于根据所述输入数据生成多个令牌；

其特征在于，为了恢复不容许令牌，所述分析器还包括：

所述处理器被配置成在识别的合适上下文中应用所述令牌。

附图说明

现在将结合附图仅以实例来说明本发明，其中

图1表示定义一个示例性结构的HTML定义的集合；

图2表示图1的结构图；

图3表示根据现有技术以连续顺序分析结构化数据的通用时序图；

图4表示根据本发明一个优选实施例以部分并行顺序分析结构化数据的时序图；

图5表示根据此优选实施例的令牌的通用校正的一个示例；

图6表示根据此优选实施例为错误令牌定义正确上下文的恢复处理的流程图；

图7表示根据本发明的此优选实施例的一个系统；以及

图8表示图7所示的系统的分析器的方框图。

具体实施方式

图1表示HTML定义或(标记)令牌10的一个集合，用于定义一个示例性HTML文件的结构。每个令牌被<and>标志或者被引号包围。被<and>标志包围的令牌通常包含有关数据结构的信息，以形成用户数据上下文，而被引号包围的令牌代表有关上下文的用户数据。在图1的结构中，令牌的序列包含：第一列表项令牌L1 10、列表项令牌的第一尾部/L 11、第二列表项令牌L112和列表令牌的第二尾部/L1 14。

在HTML中，利用确定树的各种分支的定义将一个文件按树形结构进行安排。图2表示树形的文件结构的图，该文件的令牌在图1中示出。例如，令牌HTML2代表树形结构的最高层，而令牌HEAD 2.1和BODY 2.2代表两个主分支。令牌HEAD 2.1定义此文件的标题，又包括两个分支，其中一个分支是用于定义标题的题目的TITLE 2.1.1，另一个分支是以各种方式描述此文件的META 2.1.2。在TITLE 2.1.1之下，在标题分支的底端，存在一个包含文本串“EXAMPLETEXT”的令牌2.1.1.1，它将被用作标题。第二主分支分成令牌2.2.1 H1和2.2.2OL。H1具有一个从属令牌(subordinate token)2.2.1.1 HEADER(标题)。OL2.2.2具有两个从属令牌2.2.2.1和2.2.2.2，其每个从属令牌代表有序列表OL中的一个列表项L1。列表项(令牌2.2.2.1和2.2.2.2)具有定义列表项的内容的相应从属令牌。在该实例中，第一列表项2.2.2.1.1的文本是SEC，并且第二列表项2.2.2.2.1的文本是FIRST。

了解诸如HTML和XML的结构化语言形成树形结构的原因，对于理解本发明是有帮助的，其中与位于此树的分支尾部的最不重要的定义相反，最重要的定义处于第一分层级上。例如，令牌2.2.2.2.1只影响一个列表项，但是令牌2.2定义了包含有序列表OL的整体的开始。

通过安排将HTML文件转换成其它语言所需的步骤来利用HTML文件的结构化层次，如图3所示。如果HTML文件被转换成另一种语言或者转换成HTML的方言，则在令牌赋予阶段TOK首先生成令牌。在令牌赋予阶段之后，具有分析阶段PAR，在该阶段中分析这些令牌以生成一种结构。接下来是翻译阶段TRA，在该阶段中能够利用目的地语言或者方言来描述此结构。在完成翻译阶段TRA之后，在传送阶段COM中经由一个通信信道能够发送结果。通过允许不考虑令牌顺序而对令牌进行分析，此技术方案的管理是容易的并提供增强稳定性的机会。然而，该处理的一个缺点是它所花费的时间量多达所有其阶段之总和。为了解决此问题，具有一种替代的翻译处理，该翻译处理利用源语言和目的地语言的结构来加速语法分析，如图4所示。

图4表示根据本发明一个优选实施例以并行方式分析结构化数据的时序图。该处理与图3所示处理的不同之处在于，在令牌赋予开始之后不久就启动后续阶段，同时继续进行令牌赋予。在令牌赋予期间，按分析阶段PAR、翻译阶段TRA和传送阶段COM的顺序启动这些阶段。因而，所有这些阶段并行发生。在这个实例中，传送阶段在令牌赋予结束之前开始。这些处理可以部分地并行完成，这是因为此树形结构的每个分支能够作为独立单元来处理。

下面将说明错误校正(recovery)处理。返回参见图1，缺少列表令牌11的第一尾部将在分析这些令牌时造成错误。严格地说，第二列表令牌12可以不从属于第一列表项10。在该特定实例中，能够认为新列表项的出现将自动地使分析关闭前一列表项分支。当前一列表分支关闭之后，应为新的列表项创建一个新分支。这样的归纳(induction)能够校正至少某些错误。下面说明两种类型的校正方法。在第一类型的方法中，校正以解释的语言的通用特性为基础。在第二类型的方法中，校正以一个特定规则(即，专用于此令牌类型)为基础。本发明的此优选实施例包括这两种类型方法的能力。下面将结合图5和图6对这两种方法进行解释。

图5表示根据本发明的此优选实施例的令牌的通用校正的一个示例。在此情况下，依次接收令牌HTML50、BODY52、对象列表令牌OL 54、列表项令牌LI 56、对象列表(Object List)令牌OL 58和ImaGe IMG59的序列，但是最后的令牌IMG 59与前一令牌OL 58失配。测试每个令牌与最后令牌59匹配的适应性，以找到失配的最后令牌59的可能的正确位置。在该实例中，最后令牌IMG59是一个图像令牌，根据文法规则，该图像令牌不能从属于LI 56。它不能接下来跟随在OL 54之后，OL 54在LI 56之前。相反地，它能够从属于在OL 54之前的令牌BODY 52。因此，通过沿此分析的结构后向执行以有效的处理方式找到此位置。最常见的是，不容许令牌的正确位置靠近它所在的尾部。通过利用逆处理过程(沿一个分支后向继续)，能够以最小的处理量找到最可能的正确位置。这种处理过程还引起结果的最小可能的(错误)变化，这是因为这些变化主要是在此上下文的最不有效的部分上实现的(距树形结构的根最远)。

图6表示根据本发明的此优选实施例为错误令牌定义正确上下文的规则特定的恢复处理。在此情况下，接收令牌THML 62、BODY 63和LI 64的序列。LI64不能从属于BODY令牌。因此，规则特定的校正方法被用来附加一个适当的在前令牌(在此种情况中，为一个用户列表令牌UL 66)。通常，在考虑其从属关系时具有这样的附加令牌(在本情况中是BODY 63)是否是适当的附加测试。如果此测试成功，则认为此附加令牌是有效的。LI 64实际上是UL 66的有效从属并且此测试成功。结果，令牌的新序列是HTML 62、BODY 63、UL 66和LI 64。在本情况中，LI 64能够仅从属于一种类型的令牌，即，UL。因此，UL 66被自动附加。

在本发明的一个实施例中，检测一个合适令牌是否不是唯一替代物。如果存在其它的替代，则使用启发性分析来确定应被使用的最可能的替代物。例如，分析器可以保存后续令牌的每个可能的不同系列的概率表。然后，分析器选择将要附加的这一令牌，该令牌具有最高概率并与预存的相邻令牌串联。在另一个更简单的实施例中，分析器不采用启发性分析，而是在容许令牌(替代物)的组中基本随机地挑选一个附加令牌。

如果附加令牌不适合，则可以只是放弃该附加令牌。更智能的技术方案是试图在BODY 63与附加令牌之间附加另一个令牌，以便结束于有效分支。这甚至在以下情况下也允许恢复：一个以上的令牌正在丢失，但丢失的令牌可以从上下文中合理地演绎出。

图7表示本发明的此优选实施例的系统。该系统包括两个数据通信网络：GSM电话网络72和IP(互联网协议)网络71，诸如互联网或内联网。这两个数据通信网通过网关70进行链接。网关70包括第一分析器73(用于HTML)和第二分析器74(用于WML)，第二分析器74用于在HTML与WML之间翻译数据(内容)。终端75耦合到GSM电话网络72。此终端是双模式终端，诸如具有GSM模块的膝上型个人计算机PC。在此优选实施例中，同一终端还具有连接到IP网络71的功能。该终端包括用于处理WML文件的分析器76。

图8表示图7的第一分析器73的方框图。第一分析器具有：一个处理器μP；一个输入IN，用于接收至此处理器μP的数据；一个输出OUT，用于从处理器μP中输出数据并因而从分析器73向分析器73之外部输出数据；分析器软件P1；存储器MEM；和分析规则的数据库DB，所述分析规则包括两个不同的分析规则R1和R2的集合。

操作时，处理器μP以一种输入语言(在本案中为HIML)接收一个令牌集。处理器μP确定此语言和/或此输入语言的方言，并且从数据库DB中检索相应的分析规则集。使用分析器软件P1和存储器MEM，处理器μP根据所接收的令牌集生成一种结构。然后，处理器μP将该结构发送给第二分析器74，以使第二分析器74能够根据其分析规则以输出语言生成一个新的令牌集。

第二分析器的结构可以与第一分析器的结构相一致。在此优选实施例中，第二分析器74也具有一个数据库，但该数据库包括两个和多个分析与翻译规则集，以使之适于产生正确的语言或方言。

通过使用分析器73和74，网关70能够将数据从一种标记语言翻译成另一种标记语言。网关70可以动态地适应它处理的不同语言。使第二分析器适应不同语言的可能性还允许使用一个网关来为各种不同类型的网络提供服务。

根据此优选实施例，数据库DB按需要动态地进行更新。例如，此处理器可以识别一种输入语言或者方言，此处理器没有规则集用于此输入语言或者方言。在这种情况中，网关可以有一个到另一个规则集数据库的连接(可以被中央管理)，并且检索合适的规则集给它自己的数据库。这样，分析器能够自动维护使其自我更新，而不需要任何人工再配置。

本发明的特定实施和实施例已经被描述，但是本领域熟练技术人员将会明白：本发明不限于上述实施例的细节，而是可以在不背离本发明特征的条件下使用等同手段在其它实施例中实施本发明。本发明的范围由所附的权利要求书来限定。

Claims

1、一种用于分析结构化数据的方法，包括以下步骤：

以第一计算机语言接收输入数据；

根据所述输入数据生成多个令牌；

使用包括规则集的文法语法来编制上下文，所述上下文以至少一个或多个上下文分段链的形式包括多个上下文分段，所述编制上下文的步骤包括以下子步骤：

在识别的合适上下文中应用所述令牌。

2、根据权利要求1所述的方法，其中识别合适上下文包括使用所述文法语法来搜索用于所述令牌的最小差异容许上下文。

3、根据权利要求2所述的方法，其中应用所述令牌包括将所述上下文修改为等于所述最小差异容许上下文。

4、根据权利要求2所述的方法，其中搜索最小差异容许上下文试图根据所述不容许令牌特定的规则生成新的上下文分段，以补足所述上下文，从而使所述不容许令牌变成容许的。

5、根据任何一项上述权利要求所述的方法，其中所述方法首先通过根据所述语法将容许的上下文分段加到前一上下文分段和不容许上下文分段来试图补足所述上下文。

6、根据权利要求5所述的方法，其中，如果这样的补足失败，则后向继续搜索合适上下文。

7、根据任何一项上述权利要求所述的方法，其中，至少第一计算机语言的通用语法特定的规则和令牌类型之一被用于确定令牌在上下文中是否是容许的。

8、根据任何一项上述权利要求所述的方法，其中，所述方法包括动态转换为使用另一文法语法以适应于不同的语言或者所述语言的不同方言的另一步骤。

9、一种分析器，包括：

一个输入，用于以第一计算机语言接收输入数据；

一个令牌赋予器，用于根据所述输入数据生成多个令牌；

根据所述文法语法检测一个令牌在所述上下文中是否是容许的；和

其特征在于，为了恢复不容许令牌，所述分析器还包括：

10、一种用于控制分析器的计算机程序产品，包括：

使所述分析器能够使用包括规则集的文法语法来编制上下文的分析器可运行计算机程序代码，所述上下文以至少一个上下文分段链的形式包括多个上下文分段，所述代码被配置成：

使所述分析器能够为所述不容许令牌识别合适上下文的分析器可运行计算机程序代码，在所述合适上下文中所述令牌是容许的；以及

11、一种具有分析器的处理单元，所述分析器包括：

一个输入，用于以第一计算机语言接收输入数据；

一个处理器，用于根据所述输入数据生成多个令牌；

其特征在于，为了恢复不容许令牌，所述分析器还包括：

识别单元，用于为所述不容许令牌识别一个合适上下文，在所述合适上下文中所述令牌是容许的；以及

所述处理器被配置成在识别的合适上下文中应用所述令牌。

12、根据权利要求11所述的处理器单元，包括一个从由翻译器、网关、移动站和web服务器的一组装置中选出的装置。

13、一种包括移动电信网络和具有分析器的网关的系统，所述分析器包括：

一个输入，用于以第一计算机语言接收输入数据；

一个处理器，用于根据所述输入数据生成多个令牌；

其特征在于，为了恢复不容许令牌，所述分析器还包括：

所述处理器被配置成在识别的合适上下文中应用所述令牌。