CN1808424A

CN1808424A - 一种从文档中提取关键信息的方法

Info

Publication number: CN1808424A
Application number: CN 200510002458
Authority: CN
Inventors: 张昀
Original assignee: BEIJING SOFTWARE TESTING CENTER
Current assignee: BEIJING SOFTWARE TESTING CENTER
Priority date: 2005-01-21
Filing date: 2005-01-21
Publication date: 2006-07-26

Abstract

本发明公开了一种从文档中提取关键信息的方法，通过制作文档模板，模板的版面按照特定样式划分成表格，表格中的各单元格分别用于存放文档中的信息；各单元格的信息类别和位置信息保存在标记字符串中，标记字符串保存在该文档模板的特定区域；基于模板生成文档，通过读取标记字符串中的信息类别，获取特定关键信息所在的单元格位置，从而获取该文档中的关键信息。另外，本发明还提供了一种用于实施该方法的文档模板。本方法利用表格来规划版面，灵活性大、功能强、能够制作出完全符合国家规定的公文。办公套件通过标记字符串可以方便地获取文档中的关键信息，从而充分满足电子政务的实际需要。

Description

一种从文档中提取关键信息的方法

技术领域

本发明涉及一种文档信息的处理方法，特别涉及一种利用模板从文档文件中获取关键信息，实现办公自动化(OA)的方法，属于计算机数据处理技术领域。

背景技术

以电子政务为核心的政府信息化则是推动我国国民经济信息化的关键。而办公自动化是电子政务的核心应用之一，对于提高政府办公效率，简化公务员的劳动等各个方面，都有重要的意义。

目前，国家对政府公文的格式有严格的要求，并制订了有关的国家标准，各类政府公文都必须符合标准规定的格式。另一方面，开展电子政务实际也需要对公文进行分类、检索、查询和统计，这就必须借助数据库来进行。数据库要求能够区分出关键信息和非关键信息，因而要求传递给数据库的数据是“结构化”的，即能够区分出关键信息，并且每个关键信息都有明确的标识或者说明。但是，目前使用最为普遍的办公套件类软件如MS Office等所提供的文档格式是非结构化的，即其中的每一段信息对程序来说都是相同的，无法区分哪些信息是关键的，哪些是次要的。因此，现有的办公套件类软件虽然能够满足公文格式上的要求，但无法满足数据库检索的需要，无法充分满足办公自动化的实际需要。

针对上述的客观需求，人们先后想过很多办法来解决。就本申请人所知，这些技术主要有以下三种：1.Lotus Notes的“域”技术；2.使用电子表单软件；3.直接在网页中填写关键信息。下面分别进行说明。

“域”是Lotus Notes中的一个专门概念，通常表现为可以输入文字的编辑框。Lotus Notes可以读取或者设置域的内容，并将其保存到数据库中。Lotus Notes的“域”在MS Office中也有对应。在MS Office中对应的域是一段特殊的文字，这段文字在MS Office中被特殊标记出来。Lotus Notes的“域”和MS Office中的“域”是一一对应的。OA系统只需要将全部的关键信息都使用“域”的方式提供给用户，就能够实现从办公套件文档中提取关键信息。但是，“域”通常是针对特定办公套件的特定功能。各个不同的办公套件，都有不同的处理方法，兼容性不好。而且，“域”通常都是纯文字的形态，没有附加的控制力。如果公文中使用了多个“域”，那么这些域之间是没有结构性关联的，很难进行一些复杂的、关联的操作，例如从域中生成XML信息等。

电子表单软件中比较典型的是Microsoft InfoPath，它们实际上是通过复杂的格式控件来制作版面复杂的表单，并且可从表单中提取信息。但电子表单软件的缺点是没有强大的版面表达能力，对于版式复杂的文档，例如政府公文，无法实现相关的版面效果，也没有对应的特殊功能，例如“修订”等。

直接在网页中填写关键信息是先在网页中填写关键信息，然后将关键信息插入到文档中，再编辑成公文。该方法本质是让用户手工指定关键信息。但关键信息只能单向从网页传输到办公套件，而不能直接从办公套件文档中提取关键信息，因此存在一些比较严重的缺陷，如无法确保数据的一致性，操作步骤太多，流程容错性差，使用十分不便，不能做到所见即所得等。

在申请号为02159844的发明专利申请中，也公开了一种文档信息处理方法。该方法是根据文档信息产生含有与文档信息相同的字符信息中间信息；从文档信息或中间信息抽取代表字的字信息；和将抽取的字信息加到中间信息上产生归纳信息，因此能够用于使用字符信息的搜索处理，如全文搜索。显然，该方法只能部分满足公文处理的功能要求，存在较大的局限性。

发明内容

鉴于上述现有技术的不足，本发明的目的是提供一种可以从文档中提取关键信息的方法。采用该方法可以让用户直接在现有办公套件中编辑公文，以满足公文的格式要求，编辑完成后，OA系统可以方便地提取出数据库需要的关键信息。

为实现上述的发明目的，本发明采用下述的技术方案：

一种从文档中提取关键信息的方法，其特征在于：

(1)制作文档模板，所述文档模板的版面按照特定样式划分成表格，所述表格中的各单元格分别用于存放文档中的信息；

(2)所述各单元格的信息类别和位置信息保存在标记字符串中，所述标记字符串保存在该文档模板的特定区域；

(3)基于所述文档模板生成文档，通过读取所述标记字符串中的信息类别，获取特定关键信息所在的单元格位置，从而获取该文档中的关键信息。

其中，所述文档为Doc格式的文档。

较优地，所述标记字符串存放在所述文档模板的备注区域。

较优地，所述特定样式为符合国家规定的公文样式。

较优地，所述标记字符串为基于所述文档模板而生成的XML文件。

较优地，每一个所述关键信息都具有唯一的单元格地址。

较优地，办公套件软件通过ActiveX控件识别并读取所述标记字符串，从而获取文档中的特定关键信息。

一种用于实施上述方法的文档模板，其特征在于：

所述文档模板的版面按照特定样式划分成表格，所述表格中的各单元格分别用于存放文档中的信息；所述各单元格的信息类别和位置信息保存在标记字符串中，所述标记字符串保存在所述文档模板的特定区域。

较优地，所述文档模板为Dot格式的文档模板，所述标记字符串为基于所述文档模板而生成的XML文件，该文件保存在所述文档模板的备注区域。

较优地，所述文档模板为版面符合国家规定的公文样式的文档模板。

本发明所述的从文档中提取关键信息的方法利用表格来规划版面，灵活性大、功能强、能够制作出完全符合国家规定的公文。在不同的办公套件中应用本方法进行处理时，信息不会丢失，从而使OA系统能够混合使用不同的办公套件，适用面广。

附图说明

下面结合附图和具体实施方式对本发明作进一步的说明。

图1为本发明所述方法的基本流程示意图。

图2为基于表格的一个公文模板的示意图。

图3为图2所示的公文模板所对应的标记字符串。

图4为在办公套件中选择预先制作的不同公文模板的步骤示意图。

具体实施方式

当前，用于制作公文的办公套件类软件有多种，典型的如MSOFFICE，共创OFFICE，WPS等。在这其中，源自MS OFFICE的Doc格式由于使用最为广泛，已经成为事实上的工业标准。为照顾广大用户的使用习惯，共创OFFICE、WPS等其它办公套件都能够完全支持Doc格式，即读取并编辑Doc格式的文档，将编辑后的文档存成Doc格式等。另一方面，Doc格式的基本数据存储结构已经作为公知技术，为业界普遍遵循和使用。鉴于上述情况，在下述的具体实施方式中，主要以Doc格式文档为例对本发明所述方法进行说明。

本发明的基本技术思想在于通过使用特殊制作的模板使非结构化的文档结构化，从而一方面能够通过模板满足公文格式上的要求，另一方面能够方便地从基于模板的文档中提取信息。

基于上述思路，本发明所述的从文档中提取关键信息的方法如图1所示，包括如下的步骤：

(1)制作文档模板，将模板的版面按照特定样式划分成表格，表格中的各单元格分别用于存放文档中的信息；

(2)将各单元格的信息类别和位置信息保存在标记字符串中，并将标记字符串保存在该文档模板的特定区域；

(3)基于上述文档模板生成文档，通过读取所述标记字符串中的信息类别，获取特定关键信息所在的单元格位置，从而获取该文档中的关键信息。

因此，本发明的首要工作是制作符合上述要求的文档模板。该文档模板具有如下技术特点：使用表格来规划版面，这样能够制作出严格符合国家规定的公文版面效果；使用标记字符串指定关键信息在文档中的位置，通过XML文件，可以指定表格的哪个单元格对应哪个关键信息；将标记字符串无损失地保存在Doc文档中，从而确保使用不同办公套件打开公文时，标记字符串不会丢失。

下面，分别对上述技术步骤展开说明。

在本发明中，制作模板的主要目的在于使用表格来对版面进行划分，使得关键信息唯一地位于表格的一个单元格之中。这样就可以通过程序来区分关键信息和非关键信息，从而自动获取符合用户要求的关键信息。

以制作政府使用的公文为例，利用表格制作的一个公文模板如图1所示。在图2中，该公文中的各类关键信息都被放到不同的单元格中，例如“公文份数序号”放在第1行第1个单元格中Cell(1，1)，“秘密等级”和“保密期限”都被放到第1行第2个单元格中Cell(1，2)，而“发文机关”放在第4行第1个单元格中Cell(4，1)。

在制作模板的过程中，必须确保每个关键信息都只位于唯一的单元格中，这样才能让关键信息具有唯一的地址。不过多个关键信息可以位于同一个单元格中，只要有关办公套件的开发商自己能够通过定义区分这些关键信息即可。例如图2中“秘密等级”和“保密期限”这两个关键信息就可以位于同一个单元格中。

在上述表格中，各单元格都是有“地址”信息的，也就是说，表格中的每个单元格都有一个唯一的标识，使得程序能够找到它。例如，表1所示的表格中，黑色的单元格的地址就是Cell(2，2)。这只是一个例子，对于不同的办公套件类软件，其对单元格地址的定义不尽相同，但是，只要能够清楚地区分不同单元格的地址就能满足要求。

表1

通过上述表格的排版，把关键信息唯一地放到表格的单元格之中，就相当于对关键信息也指定了可以通过程序寻找的地址。

采用表格来划分版面的另一个优点是：表格具有很强的排版功能，因此可以制作出完全符合国家规定的公文版面。而使用其他方法，都很难制作出完全符合国家规定的公文版面。另外，使用表格也不会导致版面的变形，因为现有的绝大部分办公套件都支持隐藏表格的虚框。只要表格的虚框被隐藏起来，对于用户来说，他们是不知道存在表格的，因此所有的操作都和以前一样，不会有任何不便之处。

在通过使用表格来规划版面之后，用户可以直接在现有办公套件中编辑公文，以满足公文的格式要求。因此，下一步的工作是让OA系统可以方便地从该公文模板中提取出数据库需要的关键信息，这就需要让程序知道到底每个关键信息和单元格是如何对应的。为此，以让OA系统知道Cell(4，1)单元格中存放的是“发文机关”这个关键信息为例，可以采取以下几种具体做法：

第一种方法是直接把“发文机关”关键信息绑定在单元格中，例如在Cell(4，1)单元格中添加一个属性，名称就叫“发文机关”。该种方法最为简单，但是适用面却有限，仅仅对于可以随意更改文档格式的办公套件是适用的，然而对于Doc这样通用的文档格式就不合适了，因为Doc文档格式不支持单元格自定义属性。

另外一种方法是本发明特别针对Doc格式的文档而设计的。该方法通过设置“标记字符串”来解决这个问题。标记字符串是一个字符串，用来将关键信息和单元格对应起来。标记字符串可以是任何格式的，比较好的方法是采用XML格式。

XML是可扩展标记语言的英文缩写，它是一种自描述数据格式。“自描述”是指说明内容的元数据与内容本身来一起存在。也就是说，XML文档(或者包含XML标记的文件)，在其文件内部包含着传达给接受者关于如何解释被标记的内容和XML结构的信息。因此，XML可以作为电子数据交换的统一格式，适合于各种平台环境的数据交换。当前。XML作为一项比较成熟的技术，已经成为电子公文交换系统的通用公文标准，并且也得到了主流的办公套件类软件如MS OFFICE(2000及以上版本)的支持。因此，在本发明中，也采用XML作为公文数据交换的基本工具。

基于XML技术，我们设定“发文机关”的标记字符串就是：

<发文机关名称>!Table(t1)!Cell(4，1)</发文机关名称>

由此，图2所示公文所对应的完整标记字符串如图3所示。从图3可以看出，标记字符串实际上是记录各类关键信息的信息类别以及所在的版面位置的数据，如“发文机关”所对应的标记字符串就表明该信息的信息类别为发文机关名称，其位于Cell(4，1)这个单元格内，有关的办公套件通过读取该标记字符串，就可以按图索骥，方便地找到需要的信息。

在实践中，如图4所示，需要根据不同类型的公文样式预先制作不同的公文模板，该公文模板在制作过程中，根据各类信息在版面上位置的不同，会形成不同的标记字符串。公文模板一旦确定，标记字符串也相应确定，并且保存在模板之中。这样，每一个通过该模板新建的公文文档尽管具体的文字内容有所不同，但信息的分布格局却是固定不变的，因此也将自动继承该标记字符串。有关的办公套件一旦能够识别并读取标记字符串的内容，就能够知道有关信息在版面上的分布情况，从而读取、检索其中的信息，满足OA系统实现办公自动化的需要。

通过上面所述的各步骤，一个公文文档实际上被划分为两个相互联系的部分，其中一部分是基于由表格构成的公文模板而生成的文档本身，利用公文模板可以确保制作的公文符合规定的格式；另外一部分是与该模板对应的标记字符串，该标记字符串与公文模板本身形成一一对应的关系。

由于本发明所述方法的实质是将同一文档分成两部分分别进行处理，对于用户来说，如果在进行文件保存、编辑、修改时要处理两个不同的文件，无疑会给用户带来不小的麻烦。为此，本发明所述方法采取将其中的标记字符串保存到文档本身的技术思路。这样，用户只需对单独的一个公文文档进行编辑、修改，而该公文文档所对应的标记字符串作为该文档模板的“镜像”，在后台自动与该文档的编辑、修改过程相对应，并且保存在该文档本身。

为了贯彻上述的技术思路，对于不同的办公套件可以有不同的处理方式。对于可以随意更改文档格式的办公套件，标记字符串可以直接保存在文档格式的数据流中，但是对于Doc这样通用的文档格式，如果通过数据流保存，有可能在保存时出现数据丢失的情况。另外，标记字符串也不能保存在正文中，因为有可能导致版面的变形或者被用户误删除。

本发明所提供的方法是，对于Doc文档，将该标记字符串保存在“备注”信息中，即对于Word而言，选择“文件”>“属性”菜单，然后在“摘要”选项中，将标记字符串放置在“备注”区域中。这样，无论文档本身如何进行修改，位于“备注”区域的标记字符串是不会变动的，这样就能确保有关的办公套件始终能够获得有关信息在版面上的分布情况，便于后台的数据库进行处理。

上述的“备注”区域并不是Doc文档所独有的。对于现有的文档编辑软件，其在文档存储格式中普遍安排有此区域，以便存储有关的信息。而且该区域不会随着文档内容的变化而发生变化。例如，对于共创OFFICE的SXW文档，具有同样的“备注”区域，因此可以将标记字符串存放在该区域。对于Adobe的PDF文档，在其“文件属性”选项中，具有“自定义属性”的填充区域，有关的信息也可以存储在其中。

通过上述步骤获得的基于公文模板、内含标记字符串的Doc文档具有版面完全符合国家规定的公文样式的优点，除此之外，其中的标记字符串作为文档中有关关键信息的位置索引，可以供有关的办公套件读取并分析，从而提取出符合用户需要的关键信息。因此，上述的Doc文档可以称作是一种“智能公文”。

对于该“智能公文”，现有的办公套件并不能自动从其“备注”区域中获得标记字符串，以进行有关信息的读取和检索，为此，需要对现有的办公套件类软件进行必要的修改和升级。为此，本申请人采取了在现有办公套件中增加控件的办法。该控件在Windows环境下为ActiveX控件，在Linux环境下，为Mozilla Plugin。因此，办公套件开发商只需要使用现成的API接口，对有关的控件进行操作，就能够实现办公套件对“智能公文”的支持。

对于不同的办公套件，其ActiveX的名称是不同的，API也略有差异，但大体上是相同的。下面以共创Office为例，简单介绍ActiveX的API函数。

API函数分为如下几类：

●文档操作

■新建文档

■打开文档

■保存文档

■关闭文档

●文档属性设置及功能

■界面属性

■修订(痕迹保留)和只读

■功能执行

●文档的传输

●从Doc文档中提取信息

■元素信息的处理

■关键信息的处理

●文件名和路径

由于目前OA系统大多数采用B/S结构，因此下面的API函数都以JavaScript为例进行介绍。其他语言的调用方式基本相同。

对于新建文档来说，其对应的API为：

void newDoc(

string aDocType="private:factory/swriter",

bool bEmbed=True,

bool bInProcess=True

);

参数说明：

参数	类型	默认值	说明
参数	类型	默认值	说明	aDocType(输入)	String	"private:factory/swriter"	新建文档的类型：文字处理："private:factory/swriter"电子表格："private:factory/scalc"演示文稿："private:factory/simpress"
bEmbed(输入)	Bool	True	是否将办公套件嵌入到浏览器之中。True：嵌入浏览器之中。False：在浏览器外部以独立程序方式打开。	aDocType(输入)	String	"private:factory/swriter"
bEmbed(输入)	Bool	True	是否将办公套件嵌入到浏览器之中。True：嵌入浏览器之中。False：在浏览器外部以独立程序方式打开。	bInProcess(输入)	Bool	True	办公套件是否受浏览器控制。True：浏览器可以控制办公套件。False：办公套件不受浏览器控制。

返回值：无

调用时状态：无

设置关键信息的元素值，其对应的API为：

bool setElement(

string aDocName,

string aKey,

string aValue,

bool bOAInfo,

bool bDraft

);

参数说明：

参数	类型	默认值	说明
参数	类型	默认值	说明	aDocName(输入)	String	文件的URL名称
aKey(输入)	String		关键信息的元素名	aDocName(输入)	String	文件的URL名称
aKey(输入)	String		关键信息的元素名	aValue(输入)	String	对应元素值
bOAInfo(输入)	Bool		设置OA的属性0：流程1：OA	aValue(输入)	String	对应元素值

bDraft(输入)

Bool

设置草稿的属性1：存入草稿0：存入文档

返回值说明：

返回值	类型	默认值	说明
返回值	类型	默认值	说明	bSucc	Bool		记录是否成功

调用时状态：文档关闭

获取关键信息的元素值，其API为：

string getElement(

string aDocName,

string aKey,

bool bOAInfo,

bool bDraft

);

参数说明：

参数	类型	默认值	说明
参数	类型	默认值	说明	aDocName(输入)	String	文件名
aKey(输入)	String		关键信息的元素名	aDocName(输入)	String	文件名
aKey(输入)	String		关键信息的元素名	bOAInfo(输入)	Bool	OA的属性0：流程1：OA
bDraft(输入)	Bool		草稿属性1：存入草稿0：存入文档	bOAInfo(输入)	Bool	OA的属性0：流程1：OA

返回值：

返回值	类型	默认值	说明
返回值	类型	默认值	说明	bSucc	String		元素值

调用时状态：文档关闭

象上述这样的API还有很多，它们的具体实现是本领域的一般技术人员都能轻易解决的，在此就不赘述了。

通过上述的技术步骤，使本发明所提供的从文档中提取关键信息的方法能够适用于现有的多种办公套件，用户只需要进行简单的升级即可，从而最大限度地方便了用户，扩大了本方法的适用范围。

在上述的实施例中，以文档格式是Doc格式，标记字符串为XML文件为例进行了说明，但显然本发明所能适用的文档格式并不限于此。例如，对于共创OFFICE而言，文档格式是SXW，对于WPS OFFICE而言，文档格式可以是WPS，另外，标记字符串虽然优选是XML格式的，但对于其它的格式，只要能够被相应的办公套件读取，就能满足本发明所述方法的要求。

为了充分说明本发明的具体实现方式，描述了上述具体实施例。应该明白，本发明的其它变化和修改对本领域技术人员是显而易见的，本发明并不限于所描述的具体实施方式。因此，在本发明所公开内容的真正实质和基本原则范围内的任何/所有修改、变化或等效变换，都属于本发明的权利要求保护范围。

Claims

1.一种从文档中提取关键信息的方法，其特征在于：

2.如权利要求1所述的从文档中提取关键信息的方法，其特征在于：

所述文档为Doc格式的文档。

3.如权利要求2所述的从文档中提取关键信息的方法，其特征在于：

所述标记字符串存放在所述文档模板的备注区域。

4.如权利要求1所述的从文档中提取关键信息的方法，其特征在于：

所述特定样式为符合国家规定的公文样式。

5.如权利要求1所述的从文档中提取关键信息的方法，其特征在于：

所述标记字符串为基于所述文档模板而生成的XML文件。

6.如权利要求1所述的从文档中提取关键信息的方法，其特征在于：

每一个所述关键信息都具有唯一的单元格地址。

7.如权利要求1所述的从文档中提取关键信息的方法，其特征在于：

办公套件软件通过ActiveX控件识别并读取所述标记字符串，从而获取文档中的特定关键信息。

8.一种用于实施如权利要求1所述的方法的文档模板，其特征在于：

9.如权利要求8所述的文档模板，其特征在于：

所述文档模板为Dot格式的文档模板，所述标记字符串为基于所述文档模板而生成的XML文件，该文件保存在所述文档模板的备注区域。

10.如权利要求9所述的文档模板，其特征在于：

所述文档模板为版面符合国家规定的公文样式的文档模板。