CN101154239B

CN101154239B - 将表状数据变换成结构化文档的系统及方法

Info

Publication number: CN101154239B
Application number: CN2007101630484A
Authority: CN
Inventors: 酒井美由纪; 江口敦子
Original assignee: Toshiba Corp; Toshiba Solutions Corp
Current assignee: Toshiba Corp; Toshiba Digital Solutions Corp
Priority date: 2006-09-29
Filing date: 2007-09-29
Publication date: 2012-06-20
Anticipated expiration: 2027-09-29
Also published as: JP4256416B2; US7886224B2; US20080082571A1; JP2008090500A; CN101154239A

Abstract

定义数据存储单元(110)存储定义数据，该定义数据定义了将表状数据变换为结构化文档的规则。所述定义数据包括有条件重复指定描述，该描述指定了与具有单一值的共同项相对应的部分表状数据行的重组。所述有条件重复指定描述包括所述共同项，作为重复条件的属性值。所述定义数据还包括所述表状数据被插入其中作为元素内容的部分。所述部分包括值插入指定描述，该描述用来对应所述表状数据中所包含的项的项名。变换单元(108)基于所述定义数据变换表状数据，使部分行组成一组，并在所述值插入指定描述所指定的某部分中嵌入所述项名的值。

Description

将表状数据变换成结构化文档的系统及方法

技术领域

本发明涉及到用来将表状数据变换成结构化文档的系统及方法。

背景技术

在结构化文档中，分级结构(hierarchical structure)采用称作标签的字符串来表达。作为一种典型的结构化文档，具有可扩展置标语言(Extensible Markup Language，XML)形式的文档，即XML文档，是众所周知的。XML的特征在于使用有意义标签的数据分级以及结构的自由可扩展性。

通常，为了对公司所用数据进行管理使得数据可以被搜寻，使用诸如关系数据库(RDB)之类的数据库，并且将数据处理为表状数据，表状数据是通过将数据安排在表中而获得的。然而，随着信息技术的发展以及要管理的数据的复杂性的增加，对XML文档以及XML数据库的需求在增加，XML文档能使数据被自由地写入，如上面所提及的，而XML数据库则用于搜寻和分析XML文档。根据这个趋势，需要有这样的功能，即，将例如公司所用的各种数据项变换成XML文档(XML文档数据)并对其进行存储/管理以便随着将来公司的成长能容易地处理这些数据。

为此，最近开发出了各种数据集成工具。这些工具用于从公司的各种数据源(例如，RDBs)收集(抽取)数据(表状数据)，并将之变换为预设的形式(XML形式)。这些工具也用于将最后所得的XML形式的数据存储到XML数据库中。在这些工具中，支持一种映射形式，在这种映射形式中，原始数据项和变换了的数据项被排列在对照表中，相应的数据项通过连接它们的线而彼此联系起来。在例如RDB中所用的表格形式中，将每个行处理为用于映射的schema(模式)。

日本专利申请KOKAI公开No.2005-56085(现有技术文档)公布了一种技术，将RDB中的表(表状数据)变换为结构化文档，以及将结构化文档变换为表。在这种技术中，一个变换定义例如根据RDB中的一行表状数据来描述。在将表状数据变换为结构化文档(XML文档)数据的过程中，当调用每个变换定义时，通过发布结构化查询语言(structuredquery language，SQL)从RDB中获取数据，籍此，根据变换定义以数据行为单位来执行变换。在这种情形中，变换定义可以用嵌入结构来描述。

在现有技术文档中所描述的数据结构变换技术(现有技术)中，将表状数据的各个行与一组XML标签对应。于是，公司的每个职员的表状数据被变换为XML形式的数据(XML文档)，其中每个职员的数据重复地出现。由数据结构变换所获得的XML文档是一种平铺直叙的文档，其中相同的结构被有规则地重复。就是说，由数据结构变换所获得的XML形式的数据所包含的描述类似于表状数据中的描述，这些数据项只是在形式上不同。因此，上述现有技术在利用XML的优势(即描述上的高度灵活性)上不成功。

发明内容

本发明的目标是，将表状数据中所含的每个重复项划分成组，因此，能使表状数据变换为包含这样一种结构的结构化文档，在这种结构中表状数据中的多个行被聚集起来。

根据本发明的实施例，提供一种将按行排列的表状数据变换成结构化文档的系统。所述系统包括定义数据存储单元，该单元存储定义数据，该定义数据定义用来将表状数据变换为结构化文档的规则，所述定义数据包括有条件重复指定描述，该描述指定了与具有单一值的共同项相对应的部分行的重组，所述有条件重复指定描述配置有所述共同项，作为重复条件的属性值，所述定义数据还包括一个部分，在该部分中所述表状数据被插入作为元素内容，所述部分包括值插入指定描述，该描述指定值的插入，所述值插入指定描述用来对应所述表状数据中所包含的项的项名，所述系统还包括变换单元，用来根据所述定义数据将外部器件所指明的要变换的表状数据变换为结构化文档，所述变换单元变换所述表状数据，使部分行组成一组，并在所述值插入指定描述所指定的所述结构化文档的一部分中嵌入与所述值插入指定描述相对应的所述项名的值。

附图说明

结合进来并构成说明书的一部分的附图显示了本发明的实施例，并与上面给出的总的描述以及在下面给出的实施例的详细描述一起，用来解释本发明的原理。

图1是一个方框图，显示了根据本发明的实施例所述的包含数据结构转换系统的客户服务器系统的硬件配置；

图2是一个方框图，主要显示了图1所示数据结构变换系统的功能配置；

图3显示了表状数据的例子；

图4显示了预期通过变换图3中的表状数据而获得的XML文档(XML结构)的例子；

图5显示了用于将图3中的表状数据变换为具有图4所示结构的XML文档的定义文件的例子；

图6A和6B是流程图，显示了将表状数据变换为XML文档(XML结构)的数据结构变换处理的过程；

图7显示了从图5中的定义文件所产生的关键字列表的例子；

图8显示了关键字列表、表状数据(原始数据)和排序了的表状数据之间的关系，用于说明基于关键字列表中所含的关键字进行的排序；

图9用于说明将关键字列表中的关键字的值更新为要变换的第一行中所包含的对应项的值；

图10用于说明关键字列表中的关键字的值与要变换的第二行中所包含的对应项的值的比较；

图11用于说明关键字列表中的关键字的值与要变换的第三行中所包含的对应项的值的比较，也说明了关键字列表的更新；

图12A显示了一个状态，其中，按照图6A和6B中的流程图基于项“部门”对图3中的表状数据进行分组，将该表状数据变换成图4中的XML文档；

图12B显示了一个状态，其中，使用现有技术、以行为单位将图3中的表状数据变换成XML形式的数据，从而获得XML文档；

图13显示了表状数据的例子，用来说明本实施例的修正例中所用的定义文件；

图14显示了通过变换图13中的表状数据而预期获得的XML文档(XML结构)的例子；以及

图15显示了用于本实施例的修正例中的定义文件，该定义文件是用于将图13中的表状数据变换为图14中的XML文档的例子。

本发明的详细描述

下面将参考附图描述的本发明的实施例。图1是一个方框图，显示了本发明的实施例所述的包含数据结构变换系统的客户服务器系统的硬件配置。客户服务器系统主要包括数据结构变换系统10、XML数据库(XMLDB)管理系统20、关系数据库(RDB)管理系统30、客户终端40以及网络50。数据结构变换系统10、XML数据库(XMLDB)管理系统20、关系数据库(RDB)管理系统30、客户终端40通过网络50彼此连接在一起。

数据结构变换系统10包括数据结构变换服务器(数据结构变换服务器计算机)11、以及外部存储器件12(诸如硬盘驱动器)。外部存储器件12存储数据结构变换(表状-结构化文档的变换)程序121以及定义文件122。

数据结构变换程序121用来使数据结构变换服务器11执行数据结构变换处理(表状-结构化文档的变换处理)，将表状数据变换为结构化文档。定义文件122为XML形式的数据(XML文档)，它定义将表状数据变换为结构化文档时所用的规则(变换规则)。在本实施例中，定义文件122中保存的描述内容指定与具有单一值的每个重复项相对应的表状数据中的多行的分组。更具体地说，定义文件122中保存的描述内容(值插入指定描述(value insertion specifying description))用于指定一个值在某个部分中的插入(嵌入)，其中，表状数据被映射到该部分中，并且该部分被包含在通过变换表状数据而获得的XML文档(即，具有预期结构的XML文档)中。定义文件122在指定重复的部分中保存的描述内容(指定重复的描述)包括指定重复的节点和条件。数据结构变换服务器11从外部存储器件12中读出数据结构变换程序121，并执行之。通过执行数据结构变换程序121，数据结构变换服务器11基于定义文件122中所包含的定义来执行数据结构变换处理，将表状数据变换为结构化文档。

XMLDB管理系统20包含XMLDB管理服务器(XMLDB管理服务器计算机)21、以及外部存储器件22(诸如硬盘驱动器)。外部存储器件22存储XMLDB(XML数据库)220。XMLDB 220存储一组从外部数据源(XML文档数据源)收集来的XML文档、以及一组经数据结构变换服务器11变换的XML文档。XMLDB管理服务器21执行将XML文档存储在XMLDB 220中的处理，并在从外部器件(例如，客户终端40)接收到搜寻请求时执行从XMLDB 220搜寻满足所述请求指定的搜寻条件的XML文档(或XML文档的一部分)的处理过程。

RDB管理系统30包括RDB管理服务器(RDB管理服务器计算机)31、以及外部存储器件32(诸如硬盘驱动器)。外部存储器件32存储RDB(关系数据库)320。RDB管理服务器31执行将表状数据存储到RDB 320中的处理过程，并基于来自外部器件(例如，客户终端40)的搜寻请求执行从RDB 320搜寻满足所述请求指定的搜寻条件的表状数据的处理。

图2是一个方框图，主要显示了图1所示数据结构变换系统10的功能配置。数据结构变换系统10包含关键字列表产生单元(key listgeneration unit)101、排序单元102、行数据读取单元103、对比单元104、XML文档产生确定单元105、模板确定单元106、关键字列表更新单元107、变换单元108以及XML文档输出单元109。数据结构变换系统10还包括定义文件存储单元110、关键字列表存储单元111、表状数据存储单元112以及XML文档存储单元113。

图1中的数据结构变换服务器11从外部存储器件12读出数据结构变换程序121并执行该程序，从而实现处理单元101到109。处理单元101到109的功能将在后面描述。可以在计算机可读的记录介质中预先存储数据结构变换程序121并分发之。此外，可以通过网络50下载数据结构变换程序121到数据结构变换服务器11中。使用存储器(诸如并入数据结构变换服务器11的主存储器)的存储区(未显示)来实现存储单元110到113。

然后参考图3到图5，将描述定义文件122的具体例子。图3显示了要变换的表状数据的例子，图4显示了预期通过变换图3中的表状数据而获得的XML文档(XML结构)的例子，图5显示了用于将图3中的表状数据变换为具有图4所示结构的XML文档的定义文件122的例子。

当预期的XML文档(即，通过变换图3所示的表状数据而获得的XML文档)如图4那样设计时，用来将图3中的表状数据变换为图4中的XML文档(XML结构)的定义文件122具有图5所示的XML形式。定义文件122包括由一对标签(即，开始标签和结束标签)括起来的、指示元素名的部分。在这部分中，数据(项值，item value)被插入作为元素的内容。具体说，这部分中的“${item name}”作为描述(指定值的插入的描述)，用来指定值的插入。使所述描述“${item name}”对应着由所述描述“${item name}”所指示的表状数据的项名(item name)。当表状数据具有，例如，使用逗号分隔的值(comma separated value，CSV)的形式时，所述描述“${item name}”中的项名根据该项名是否写在表状数据的顶部而改变。如果该项名写在顶部，那么，所述描述“${item name}”中的项名就是写在顶部的该项名自身。另一方面，如果项名没有写在顶部，那么，表状数据中的列的编号(${0}、${1}、...)就被用作所述描述“${item name}”中的项名。在表状数据为RDB数据的情形中，所述描述“${item name}”中的项名为列的名称(column name)。

定义文件122在其指定重复的部分中也包含描述，用于指定有条件的重复(指定有条件重复的描述)，该描述用来将重复出现的每一项的数据划分成一组，以用于变换。所述指定有条件重复的描述包括节点(指定重复的标签)用来指定重复和条件(重复的条件)。在变换之后所获得的图4所示的XML文档中，包括在某个部门(section)中的多行数据(图3)被嵌入多个“staffMember”标签内。嵌入每个“部门”项内作为重复条件的部分就是嵌入“sectionName”标签内的元素。在这种情形中，如图5所示，指定重复的标签51(<sys1：repeat condition＝“section”>)被嵌入“sectionName”标签52内。指定重复的标签51包括上述条件(condition＝“section”)作为属性。即，指定重复的标签51是一个有条件重复指定标签。“condition＝“section””的左端，即“condition”是属性名，而右端，即“section”为属性值。

在图5所示的定义文件122的例子中，没有条件的指定重复标签53(即，无条件重复指定标签)被嵌入首个标签(作为根标签的“section”标签)内。本实施例中所用的指定重复的标签是定义文件122的带有命名空间(sys1)的重复标签。

下面参考图6A和6B中的流程图，描述在数据结构变换系统10内执行的将表状数据变换为结构化文档(XML文档)的数据结构变换处理。这里假设将某表状数据变换为XML文档的变换请求是从，例如，客户终端40发布给数据结构变换系统10的。这个请求包括指定变该换所用的定义文件122的文件名以及要变换的表状数据的信息。

数据结构变换系统10中的关键字列表产生单元101将文件名与包含在变换请求中的文件名相同的定义文件122从外部存储器件12装载到定义文件存储单元110(步骤S1)。在步骤S1中，关键字列表产生单元101对装载到定义文件存储单元110中的定义文件122(即，XML形式的定义文件122)进行分析。

在对定义文件122的分析期间，关键字列表产生单元101从定义文件122从首个数据开始顺序地读出数据，并从所读出的数据中抽取有条件重复指定标签(步骤S2)。在步骤S2中，关键字列表产生单元101将属性值(在图5的定义文件122的例子中，“section”对应着该值)加到关键字列表存储单元111中所存储的关键字列表中，该属性值指明了条件并包含在所抽取出来的有条件重复指定标签中，该属性用作关键字列表项(关键字名)。通过分析定义文件122的整个数据，关键字列表产生单元101产生了关键字列表。

所产生的关键字列表用于对要变换成XML文档的表状数据进行排序。关键字列表中的每个关键字由作为关键字项的关键字名和关键字值构成。在这个阶段中，关键字列表中没有关键字值。存储在关键字列表中的关键字(属性值)的顺序指示了基于这些关键字的排序的优先顺序。假设关键字列表中存储了N个关键字(N为不小于2的整数)，第i个关键字(i＝1、2、...、N)指示了第1个关键字、...、或第N个关键字。关键字列表中的首个关键字被用作第1个关键字，关键字列表中的最后一个关键字被用作第N个关键字。

产生了关键字列表之后，关键字列表产生单元101将控制传给排序单元102。排序单元102从客户终端40或RDB管理系统30(即，RDB管理系统30中的RDB 320)获取要变换的表状数据，并将之存储在表状数据存储单元112中(步骤S3)。为了指定表状数据，在CSV文件格式的情形中使用文件名，在RDB文件格式的情形中使用SQL。在步骤S3中，排序单元102基于步骤S2中所产生的关键字列表中的关键字的顺序(更具体地说，是用作重复条件的属性值，即项值，的顺序)将存储在表状数据存储单元112中的表状数据顺序排序。当关键字列表中含有N个关键字时，表状数据按第1关键字、第2关键字、...、第N关键字的顺序存储。排序之后，表状数据被再次存储在表状数据存储单元112中。

在将表状数据排序后，排序单元102将控制传给行数据读取单元103。行数据读取单元103开始读取处理，以行为单位、从数据的首行开始读取排序了的表状数据作为要变换的行数据(步骤S4和S5)。具体说，当行数据读取单元103读取数据的首行(第一行)作为要变换的行数据时(步骤S6)，它将控制传给模板确定单元106。模板确定单元106确定(抽取)嵌入定义文件122中的首个标签(根标签)内的元素作为模板，该模板用于将要变换的行数据变换为XML形式(步骤S7)。

此外，当行数据读取单元103读取除首行数据之外的数据(第2行或后面行的数据)作为要变换的行数据时(步骤S6)，它将控制传给对比单元104。对比单元104从首个关键字(第一个关键字)开始，将关键字列表中的每个关键字(项)的值与所读出的行数据(要变换的行数据)中所包含的对应项的值进行对比，一直进行该对比直到判断出它们彼此不同为止(步骤S8)。从比较结果中，对比单元104判断关键字列表中的首个关键字的值是否等于要变换的行数据中所含的对应项的值(步骤S9)。

如果在步骤S9中判断出它们彼此相等，那么，模板确定单元106执行步骤S10。具体说，在步骤S10中，模板确定单元106基于关键字列表中的当前关键字的值与要变换的行数据中所包含的对应项的值的对比结果，确定用于将行数据变换为XML形式的模板。就是说，模板确定单元106将嵌入定义文件122中的有条件重复指定标签内的元素确定(抽取)为模板，该标签指定与最后判断为相等的关键字相对应的(行数据中的)项的重复。

另一方面，如果在步骤S9中判断出它们彼此不相等，那么，XML文档产生确定单元105就执行步骤S11。具体说，在步骤S11中，XML文档产生确定单元105判断定义文件122中的无条件重复指定标签是否为根标签。

如果判断出定义文件122中的无条件重复指定标签不是根标签(步骤S11)，那么，XML文档产生确定单元105将控制传给模板确定单元106。模板确定单元106反过来确定(抽取)嵌入定义文件122中的无条件重复指定标签内的元素作为用于使要变换的行数据变换为XML形式的数据的模板(步骤S12)。相反，如果无条件重复指定标签是根标签，那么，XML文档产生确定单元105确定使用随后确定(抽取)的模板产生新的XML文档(XML文件)(步骤S13)。此时，模板确定单元106将嵌入定义文件122中的无条件重复指定标签内的元素确定(抽取)为用于使要变换的行数据变换为XML形式的数据的模板(步骤S12)。

在模板确定单元106确定(抽取)了模板(步骤S7、S10或S12)之后，模板确定单元106将控制传给关键字列表更新单元107。关键字列表更新单元107基于要变换的行数据更新存储在关键字列表存储单元111中的关键字列表(步骤S14)。具体说，关键字列表更新单元107使用要变换的行数据的对应项的值来更新关键字列表中关键字(项)的值(即，关键字值)。在第一个循环中的步骤S14中，关键字列表中的关键字没有值，因此，要变换的行数据的对应项的值被设置为所述关键字的值。

在关键字列表更新单元107更新了关键字列表(步骤S14)之后，关键字列表更新单元107将控制传给变换单元108。变换单元108反过来将要变换的行数据的指定项的值插入(嵌入)由模板确定单元106所确定的模板中的值插入指定部分(步骤S15)。作为值插入的结果(步骤S15)，要变换的行数据(表状数据)就被变换为XML形式的数据了。在步骤S15中，变换单元108将XML形式的数据设置在XML文档存储单元113所存储的当前正在产生的XML文档中，其中该XML形式的数据是通过对要变换的行数据进行变换而得到的。

执行了步骤S15之后，变换单元108将控制传给行数据读取单元103。行数据读取单元103确定被排序了的表状数据中的下一行数据作为在下一个循环中要变换的行数据(步骤S16)。如果下一个行数据存在，即，如果被排序了的表状数据的最后一行数据还没有被处理(步骤S4)，那么，就对所述下一个行数据执行上述步骤S5及其后的步骤。

当所述最后的行数据被处理之后(步骤S4)，数据结构变换处理就完成了。此时，XML文档存储单元113中所存储的XML文档就被认为是基于定义文件122对表状数据存储单元112中所存储的表状数据进行变换而得到的XML形式的数据。该XML文档通过XML文档输出单元109发送到例如XMLDB管理系统20并被存储在所述系统20的XMLDB 220中。

下面参考图7到图12，描述上述数据结构变换过程的例子，其中，利用图5所示的定义文件122将图3中的表状数据变换为XML文档。如上所述，关键字列表产生单元101从定义文件122中抽取所有的有条件重复指定标签。之后，关键字列表产生单元101在关键字列表存储单元111中产生关键字列表，在该关键字列表中，属性值(该属性值指明所抽取的有条件重复指定标签中所包含的条件)被用作关键字列表的项(关键字名)(步骤S2)。在本实施例中，定义文件122只包含一个有条件重复指定标签，即，指定重复的标签51(<sys1：repeat condition＝“section”>)。在这种情形中，关键字列表产生单元101将“部门”设置为关键字列表中的第一个关键字。图7显示了关键字列表。

排序单元102基于图7的关键字列表中的关键字的顺序对图3中的表状数据进行顺序排序(步骤3)。在这种情形中，只利用所述第一个关键字“部门”对表状数据按字母顺序排序。图8显示了关键字列表、表状数据(原始数据)和排序了的表状数据之间的关系。

当行数据读取单元103读取图8所示的排序了的表状数据的首行(第一行)数据作为要变换的数据时(步骤S5和S6)，模板确定单元106确定嵌入定义文件122中的首个标签(根标签)内的元素(“部门”元素)被设置为模板(步骤S7)。

于是，关键字列表更新单元107将第一行数据“1(职员编号)、Tanaka(名字)、销售(部门)”所包含的部门值“sales(销售)”设置为关键字列表中的关键字(第一关键字)的值(步骤S14)。

随后，变换单元108将所述第一行数据(要变换的行数据)所包含的指定项的值插入由模板确定单元106当前所确定的模板的值插入指定部分中，即插入“部门”元素的值插入指定部分(即，“部门”元素的拷贝)中(步骤S12)，该“部门”元素是定义文件122中的首个标签内所嵌入的元素。在这种情形中，“销售”、“1”、“Tanaka”被分别插入${部门}、${职员编号}、${名字}部分中。因此，第一行数据就被变换为包含“部门”元素的XML形式的数据了。该“部门”元素包括部门元素，而部门元素包括部门名元素和职员元素。

之后，要变换的行数据被切换到排序了的表状数据的第二行数据(步骤S16)。排序了的表状数据的第二行数据为“3(职员编号)、Suzuki(名字)和销售(部门)”(参见图8)。在这种情形中，关键字列表中的第一个关键字的值“销售”等于要变换的行数据(第二行数据)中的对应项“部门”的值“销售”(步骤S8和S9)。由于此时关键字列表只包含第一个关键字，所以，最后被确定为在值上等于所述行数据中的对应项的关键字就是首先被确定为相等的第一个关键字。因此，在图5中的定义文件122中，与第一个关键字相对应的项“部门”的有条件重复指定标签51内所嵌入的元素(职员元素)被确定为模板(步骤S10)。

之后，关键字列表中的第1个关键字的值被更新为包含在第2行数据“1(职员编号)、Tanaka(名字)、销售(部门)”中并对应着所述第1个关键字的项“部门”的值“销售”(步骤S14)。注意，更新前的关键字列表中的第1个关键字的值为“销售”(参见图10)，更新后的关键字列表中的第1个关键字的值也为“销售”，即，它与更新前的值相同。

随后，第2行数据中指定项的值被插入由模板确定单元106当前所确定的模板的值插入指定部分中，即插入职员元素的值插入指定部分(即，职员元素的拷贝)中，作为定义文件122中的有条件重复指定标签51(<sys1：repeat condition＝“section”>)内所嵌入的元素(步骤S15)。在这种情形中，“3”和“Suzuki”被分别插入${职员编号}和${名字}部分中。

因此，第2行数据被变换为由职员元素构成的XML形式的数据。该XML形式的数据(职员元素)被附加地设置在职员元素之后，作为与当前正在被产生的XML文档中所包含的第1行数据相对应的XML形式的数据。职员元素由职员编号元素和名字元素构成。即，在本实施例中，在排序了的表状数据中，第1行数据“1(职员编号)、Tanaka(名字)、销售(部门)”和第2行数据“3(职员编号)、Suzuki(名字)、销售(部门)”中，赋予有条件重复指定标签51(<sys1：repeat condition＝“section”>)的条件所指定的项“部门”的各值是相等的，基于项“部门”的共同的值“销售”，它们被组成一组。

随后，要变换的行数据被切换到第3行(最后一行)数据(步骤S16)。由于第3行数据为“2(职员编号)、Sato(名字)、技术(部门)”，所以，关键字列表中的第一个关键字的值“销售”不等于要变换的行数据(第3行数据)中的对应项“部门”的值“技术”(步骤S8和S9)，如图11所示。此外，定义文件122中的无条件重复指定标签53不是根标签(步骤S11)。在这种情形中，嵌入定义文件122中的无条件重复指定标签53(<sys1：repeat>)内的元素(部门元素)被确定为模板(步骤S10)。

如果关键字列表中的第一个关键字的值不等于要变换的行数据中的对应项的值，以及如果无条件重复指定标签53不是根标签，那么，标签53就指定要变换的行数据变换成新的一组的XML文档部分，该XML文档部分接续着前面一组的XML文档部分。相反，如果不像本实施例那样，无条件重复指定标签53是一个根标签的话，那么标签53就指定行数据变换成新的XML文档所包含的XML文档部分，该文档不同于包含了前面一组的XML文档部分的XML文档。

之后，关键字列表中的第1个关键字的值“销售”被更新为第3行数据“2(职员编号)、Sato(名字)、技术(部门)”中所包含的项“部门”的值“技术”(步骤S14)，如图11所示。

在步骤S15中，第3行数据所包括的指定项的值被插入由模板确定单元106当前所确定的模板的值插入指定部分中，即插入部门元素的值插入指定部分(即，部门元素的拷贝)中，作为嵌入定义文件122中的无条件重复指定标签53(<sys1：repeat>)内的元素(步骤S15)。在这种情形中，“技术”、“2”和“Sato”分别被插入${部门}、${职员编号}和${名字}部分中。因此，第3行数据就被变换为包含部门元素的XML形式的数据了。这个XML形式的数据被附加地设置在当前正在产生的、基于部门“技术”将第1和第2行数据组成一组而获得的XML形式数据的部门元素之后。

在上述的方式中，图3所示的表状数据被变换为图4所示的XML文档。该XML文档不同于现有技术，而在现有技术中，表状数据的每行都被变换成一种结构。即，在本实施例中，表状数据被变换成一种结构化的文档，该结构化文档所包含的结构中，表状数据中的多行被聚集起来。具体说，在本实施例中，如果图3所示的表状数据中所包含的目标重复项(target repeated item)(由定义文件122中的有条件重复指定标签51来指定)，例如“部门”，具有单一值，那么，基于所述项对表状数据进行分组，籍此，表状数据被变换成XML文档。因此，图3中的表状数据被变换成图4中的XML文档，该文档所包含的结构中多个行被组成组。图4中的XML文档充分显示了灵活的描述能力，这是XML的特点。

图12A显示了一个状态，其中，图3中的表状数据按照图6A和6B中的流程图基于项“部门”被划分成组，并被变换成图4中的XML文档。图12B显示了一个状态，其中，图3中的表状数据由现有技术以数据的行作为单位变换成XML形式的数据，籍此获得XML文档。

下面将简短地描述无条件重复指定标签53为根标签的情形，该情形与图5中的例子不同。在这种情形中，使用嵌入定义文件122中的根标签内的元素，将排序了的表状数据的第3行数据“2(职员编号)、Sato(名字)、技术(部门)”变换成新的XML文档，该文档不同于由变换第1和第2行数据而获得的XML文档。

[修正例]

上述实施例中所使用的定义文件122在其中只设置了一个有条件重复指定标签。然而，该定义文件在其中可以设置多个按嵌套结构排列的有条件重复指定标签。参考图13到15，将描述所述定义文件的修正例，该修正例中包含了按嵌套结构排列的有条件重复指定标签。图13显示了要变换的表状数据的例子，图14显示了通过变换图13中的表状数据而获得的预期的XML文档(XML结构)的例子，而图15显示了用于将图13中的表状数据变换为图14中的XML文档的定义文件222的例子。

当预期的XML文档(通过变换图13中的表状数据而获得的XML文档)按图14所示设计时，用来将图13中的表状数据变换为图14中的XML文档(XML结构)的定义文件222具有图15所示的XML形式。在图14的XML文档中，与某个职员编号对应的多行数据被重复地嵌入“clientsSortedByDistricts(按地区来排序的客户)”标签内。基于“职员编号”作为重复条件的要重复的部分是比clientsSortedByDistricts”标签排序更低的元素。在这种情形中，在图15中的定义文件222中，有条件重复指定标签151(<sys1：repeat condition＝“staff member number”>)被嵌入“clientsSortedByDistricts”标签152内。

类似地，在图14中的XML文档中，对应着某个“district ofresponsibility(责任地区)”的数据被重复地嵌入“districtOfResponsibility(责任地区)”标签内，对应着某个“client name(客户名)”的数据被重复地嵌入“clientName”标签内。在图15中的定义文件222中，有条件重复指定标签153(<sys1：repeat condition＝“district ofresponsibility”>)被嵌入“districtOfResponsibility”标签154内。类似地，有条件重复指定标签155(<sys1：repeat condition＝“client name”>)被嵌入“clientName”标签156内。

因此，在图15中的定义文件222中，嵌套了三个有条件重复指定标签151、153和155。然而，嵌套的有条件重复指定标签的数目不限于三个。即，在定义文件中可以嵌套多个有条件重复指定标签(包括两个、四个或更多的有条件重复指定标签)。

在上述实施例及修正例中，XML文档被假定为结构化文档。然而，本发明也可以用于其它的结构化文档，诸如标准通用置标语言(standardgeneralized markup language，SGML)文档。

对那些熟悉本技术的人员来说，可以随时发现其它的优点和修正方法。所以，本发明就其更广泛的方面而言不限于这里所显示和描述的具体细节和有代表性的实施例。因此，在不偏离由附属权利要求书及其等价说法所定义的总的发明性概念的精神或范围的情况下，可以进行各种修正。

Claims

1.一种将按行排列的表状数据变换成第一结构化文档的系统，其特征在于包括：

定义数据存储单元，该单元存储定义数据，该定义数据定义用来将表状数据变换为第一结构化文档的规则，所述定义数据由具有用标签表达的结构的第二结构化文档构成，所述定义数据包括有条件重复指定标签，该标签用来指定将与具有单一值的共同项相对应的部分行组成组，在所述有条件重复指定标签中设置有所述共同项的项名，作为重复条件，所述定义数据还包括作为第二结构化文档的元素的特定元素，所述特定元素包括包含在表状数据中的项的项名作为所述特定元素的元素名，以及作为所述特定元素的内容的值插入指定描述，该值插入指定描述指定值的插入，并被设置为对应所述表状数据中所包含的所述项的所述项名；

表状数据存储单元，其存储由外部器件指明的要变换的表状数据；以及

变换单元，其被配置来根据所述定义数据将存储在所述表状数据存储单元中的所述要变换的表状数据变换为第一结构化文档，所述变换单元将所述要变换表状数据中的对应于具有所述项名的共同项的一部分行组成组，所述项名配置有包含在所述定义数据中的有条件重复指定标签，并且所述变换单元在所述定义数据中包含的所述特定元素的每一份拷贝中的所述值插入指定描述的一部分中嵌入设置为与所述值插入指定描述相对应的所述项名的值，在所述值插入指定描述的所述一部分中嵌入的所述值包含在所述组的每一行中，所述特定元素的拷贝数目等于所述组的行的数目，

其中所述特定元素的拷贝用于多个组中的每一个组，所述多个组包括当要变换表状数据中的所述一部分行被组成多个组时的组。

2.根据权利要求1所述的系统，其特征在于：

所述有条件重复指定标签包括作为属性名的所述条件和作为所述条件的属性值的所述共同项的所述项名；

所述值插入指定描述由所述特定元素的开始标签和结束标签括起来。

3.根据权利要求2所述的系统，其特征在于还包括：

关键字列表产生单元，其被配置来通过从所述定义数据中所含的首个数据开始分析所述定义数据而产生关键字列表，所述关键字列表包含若干项，这些项被设置为关键字名，并作为由所述定义数据中所包含的有条件重复指定标签所指定的条件；

关键字列表存储单元，其存储所述关键字列表；

排序单元，按包含在所述关键字列表中的所述项在所述关键字列表中的顺序对所述要变换的表状数据进行排序；

行数据读取单元，读取所述排序了的表状数据的每一行，作为要变换的行数据；

对比单元，被配置来对比所述关键字列表中的每一项的值与所述要变换的行数据中的对应项的值，从所述关键字列表的首项开始，直到检测出所述关键字列表中某项的值不等于所述要变换的行数据的值为止；以及

关键字列表更新单元，其将所述关键字列表中的每一项的值更新为所述要变换行数据中的对应项的值，

其中，当所述对比单元判断出所述关键字列表的首项的值等于所述要变换行数据中的对应项的值时，所述变换单元根据所述定义数据中的有条件重复指定标签内所嵌入的元素的一份拷贝，其中该元素对应着所述关键字列表中其值最后被确定为相等的某个项，将所述要变换的行数据变换为新的结构化文档部分，所述新的结构化文档部分是接续着所述要变换行数据的最后变换的结构化文档部分的一个部分，所述新的结构化文档部分中的一部分被嵌入了与所述值插入指定描述相对应的项名的值，所述新的结构化文档部分的所述一部分是嵌入在所述有条件重复指定标签中的所述元素的一份拷贝中的所述值插入指定描述的所述部分。

4.根据权利要求3所述的系统，其特征在于：

所述定义数据包括无条件重复指定标签，该标签中没有用于重复的条件；以及

当所述对比单元判断出所述关键字列表中首项的值不等于所述要变换行数据中的对应项的值时，所述变换单元根据所述定义数据中的无条件重复指定标签内所嵌入的元素，将所述要变换的行数据变换为新的一组的结构化文档部分，所述新的一组的结构化文档部分是接续着前面一组的结构化文档部分的部分，所述新的一组的结构化文档部分中的一部分被嵌入了与所述值插入指定描述相对应的项名的值，所述新的一组的结构化文档部分中的所述一部分是所述无条件重复指定标签内所嵌入的所述元素的所述拷贝中的所述值插入指定描述中的所述部分。

5.根据权利要求4所述的系统，其特征在于，当所述无条件重复指定标签是提供所述定义数据的结构化文档中的根标签时，所述变换单元根据所述定义数据中的无条件重复指定标签内所嵌入的元素的拷贝将所述要变换的行数据变换为结构化文档部分，该部分被包括在新的结构化文档中，该新的结构化文档不同于包含了前面的组的结构化文档部分的结构化文档。

6.根据权利要求2所述的系统，其特征在于：

所述定义数据包含多个有条件重复指定标签，这些标签中包含了首次提及的有条件重复指定标签；以及

所述多个有条件重复指定标签被设置在嵌套结构中。

7.一种将按行排列的表状数据变换成第一结构化文档的方法，其特征在于包括：

将定义数据存储到定义数据存储单元，该定义数据定义将表状数据变换为第一结构化文档的规则，该定义数据由第二结构化文档构成，该第二结构化文档具有使用标签表达的结构，所述定义数据包括有条件重复指定标签，该标签用来指定将与具有单一值的共同项相对应的部分行的组成组，所述有条件重复指定标签配置有所述共同项的项名，作为重复条件，所述定义数据还包括作为第二结构化文档的元素的特定元素，所述特定元素包括包含在所述表状数据中的项的项名作为所述特定元素的元素名以及值插入指定描述作为所述特定元素的内容，该值插入指定描述指定值的插入并被设置为对应所述表状数据中所包含的所述项的项名；

将外部器件所指定的要变换的表状数据存储到表状数据存储单元中；以及

根据所述定义数据将存储在所述表状数据存储单元中的要变换的表状数据变换为第一结构化文档，对所述要变换的表状数据的变换包括将所述要变换的表状数据中对应于具有所述项名的所述共同项的一部分行组成组，所述项名配置有包含在所述定义数据中的有条件重复指定标签，并且在所述定义数据中包含的所述特定元素的每一份拷贝中的所述值插入指定描述的一部分中嵌入设置为与所述值插入指定描述相对应的所述项名的值，在所述值插入指定描述的所述一部分中嵌入的所述值包含在所述组的每一行中，所述特定元素的拷贝数目等于所述组的行的数目，

其中所述特定元素的拷贝用于多个组中的每一个组，所述多个组包括当所述要变换的表状数据中的所述一部分行被组成多个组时的组。

8.根据权利要求7所述的方法，其特征在于：

所述有条件重复指定标签包括作为属性名的所述条件和作为针对所述条件的属性值的所述共同项的所述项名；

9.根据权利要求8所述的方法，其特征在于还包括：

产生关键字列表，所述关键字列表包含若干项，这些项被设置为关键字名并用为由所述定义数据中所包含的有条件重复指定标签所指定的条件，所述关键字列表的产生包括，从所述定义数据中所含的首个数据开始分析所述定义数据，以及将所述关键字列表存储在关键字列表存储单元中；

按包含在所述关键字列表中的所述项在所述关键字列表中的顺序对存储在所述表状数据存储单元中的所述表状数据进行排序；

读取所述排序了的表状数据的每一行作为要变换的行数据；

对比所述关键字列表中的每一项的值与所述要变换的行数据中的对应项的值，从所述关键字列表的首项开始，直到检测出所述关键字列表中某项的值不等于所述要变换的行数据的值为止；以及

将所述关键字列表中的每一项的值更新为所述要变换行数据中的对应项的值，

其中，对所述要变换的表状数据的所述变换包括，当所述对比的结果表明所述关键字列表的首项的值等于所述要变换行数据中的对应项的值时，根据所述定义数据中的有条件重复指定标签内所嵌入的元素的拷贝，其中该元素对应着所述关键字列表中其值最后被确定为相等的某个项，将所述要变换的行数据变换为新的结构化文档部分，所述新的结构化文档部分是接续着所述要变换行数据的最后被变换的结构化文档部分的一个部分，所述新的结构化文档部分中的一部分被嵌入了与所述值插入指定描述相对应的项名的值，所述新的结构化文档部分中的所述部分是嵌入在所述有条件重复指定标签中的所述元素的拷贝中的所述值插入指定描述的所述部分。

10.根据权利要求9所述的方法，其特征在于：

所述定义数据包括无条件重复指定标签，该标签中没有重复条件；以及

对所述要变换的表状数据的所述变换包括，当对比的结果表明所述关键字列表中首项的值不等于所述要变换行数据中的对应项的值时，根据所述定义数据中的无条件重复指定标签内所嵌入的元素的拷贝，将所述要变换的行数据变换为新的一组的结构化文档部分，所述新的一组的结构化文档部分是接续着前面组的结构化文档部分的一个部分，所述新的结构化文档部分中的一部分被嵌入了与所述值插入指定描述相对应的项名的值，所述新的组的所述结构化文档部分的所述部分是嵌入在所述无条件重复指定标签中的所述元素的拷贝中的所述值插入指定描述的所述部分。

11.根据权利要求10所述的方法，其特征在于，对所述要变换的表状数据的所述变换包括，当所述无条件重复指定标签是提供所述定义数据的所述结构化文档中的根标签时，根据所述定义数据中的无条件重复指定标签内所嵌入的元素的拷贝将所述要变换的行数据变换为结构化文档部分，该结构化文档部分被包括在新的结构化文档中，该新的结构化文档不同于包含了前面的组的结构化文档部分的结构化文档。