CN101894143A

CN101894143A - 一种联邦检索及检索结果集成展现方法及系统

Info

Publication number: CN101894143A
Application number: CN 201010211359
Authority: CN
Inventors: 王仲
Original assignee: BEIJING UFIDA SOFTWARE CO LTD
Current assignee: BEIJING UFIDA SOFTWARE CO LTD
Priority date: 2010-06-28
Filing date: 2010-06-28
Publication date: 2010-11-24

Abstract

本发明公开了一种检索及检索结果展现方法及系统，尤其是公开了一种联邦检索及检索结果集成展现方法及系统。现有技术中尚未有对结构化数据、非结构化数据和半结构化数据三种类型数据的统一检索和原生态展现的方法和系统。本发明首先输入检索词；然后并行向结构化、半结构化和非结构化信息源中发送检索请求，根据检索词同时在结构化、半结构化和非结构化信息源中检索定位与所述检索词相匹配的信息，将所有与所述检索词相匹配的信息组成检索结果；再对检索结果进行消重、排序、分类、聚合预处理；最后将所述经过预处理的检索结果以原生态的形式进行集成展现。本发明适用于所有存在数据库、XML文档集和文本数据存储和处理的信息系统。

Description

一种联邦检索及检索结果集成展现方法及系统

技术领域

本发明涉及一种检索及检索结果展现方法及系统，尤其是涉及一种联邦检索及检索结果集成展现方法及系统。

背景技术

在现有检索方法中，大多仅针对单一的结构化数据、非结构化数据或者二者的结合，尚未有对包括半结构化数据三种类型数据的统一检索和展现方法。

所谓结构化数据，通常是指数据库中所管理的信息，包括生产、业务、交易等方面的记录。非结构化数据所涵盖的信息非常广泛，通常是以各种形式的多媒体内容存在，如文书、合约、发票、书信等文本类内容，电子表格、简报档案与电子邮件等二进制文件，声音、图形、图象、视频等多媒体格式数据等。而半结构化数据则是指以SGML、XML等置标语言为载体形式的文本，通常表现为一种语义单元相互嵌套的层次关系，其区别于结构化数据之处在于该类数据是以文本形式存在，区别于非结构化数据之处在于其以特定的标记标明数据中各节点的数值或内容。基于置标语言的自描述特性，半结构化数据成为介于结构化与非结构化信息之间的一种数据类型，可以借助计算机工具对其进行构建、解析和检索，从而可以在一些智能化信息系统中得以应用。

中国专利申请(公开号：CN101477568，公开日：2009.7.8)公开了一种结构化数据和非结构化数据综合检索的方法。该方法通过对非结构化数据进行配置、解析和索引后存储到数据库中再以关键词(而非全文)检索方法展现结果。该方法无法针对半结构化数据特点进行相应的处理，另外其对非结构化数据存储到数据库中再进行检索会造成额外的数据转换时间开销而且也会带来大量的数据存储冗余，更严重的是该方法没有运用最适合非结构化数据检索的全文检索方式，在检索准确度方面将无法满足需要。如：按关键词方法检索“中国”，可能会检索出“…其中国民收入占比重…”、“大中国美电器”等，却无法检索出“中华人民共和国”这一“中国”的同义词。

中国专利申请(公开号：CN101341486，公开日：2009.1.7)公开了一种用于从非结构化数据自动生成多语言电子内容的方法和系统。该方法及系统涉及到数据的展现，它是从非结构化数据中提取与一个或多个预选主题有关的信息，通过信息合并的结构化处理再根据制定形式生成内容。其缺陷是丢失了数据的原始展现形式。

发明内容

针对现有技术中存在的缺陷，本发明所要解决的技术问题是提供一种基于数据库、全文和XQuery相结合的联邦检索方法以及检索结果中包含结构化、半结构化和非结构化信息的原生态集成展现方法。

为解决上述技术问题，本发明采用的技术方案如下：

一种联邦检索及检索结果集成展现方法，包括以下步骤：

(1)输入检索词；

(2)并行向结构化、半结构化和非结构化信息源中发送检索请求，根据检索词同时在结构化、半结构化和非结构化信息源中检索定位与所述检索词相匹配的信息，将所有与所述检索词相匹配的信息组成检索结果；

(3)将所述检索结果以原生态的形式进行集成展现。

如上所述的方法，步骤(2)中，在结构化信息源中检索采用标准SQL检索方式，在半结构化信息源中检索采用XQuery/XPath检索方式，在非结构化信息源中检索采用全文检索方式。

如上所述的方法，步骤(2)中还包括对检索结果进行消重、排序、分类、聚合处理的操作。

如上所述的方法，步骤(3)中将检索结果集成展现的方法包括以下步骤：

①对检索结果进行分析，提取检索结果中包含的路径信息；

②分析路径信息，据此判断信息源调用形式属于下列哪种情况：接口、URL、功能片断或调用系统；

③根据信息源调用形式采取不同展现方式：对于接口形式，运行接口桩调用相应接口；对于URL形式，直接转到相应URL；对于功能片断，将该功能片断引入容器并运行；对于调用系统形式，直接运行；

④将结构化、半结构化和非结构化信息源的原始信息以多窗口、多页签形式集成在一起统一展现。

一种联邦检索及检索结果集成展现系统，包括：

用于输入检索词的输入装置；

用于并行向结构化、半结构化和非结构化信息源中发送检索请求，根据检索词同时在结构化、半结构化和非结构化信息源中检索定位与检索词相匹配信息，并将所有与检索词相匹配信息组成检索结果的检索装置；

以及用于将检索结果以原生态的形式进行集成展现的展现装置。

如上所述的系统，还包括用于对检索结果进行消重处理的消重装置，用于对检索结果进行排序处理的排序装置，用于对检索结果进行分类处理的分类装置，以及用于对检索结果进行聚合处理的聚合装置。

本发明的效果在于：同现有检索方式相比，本发明完全覆盖各种异构信息源的数据检索，并针对异构信息源各自特点采取最佳检索技术，检索请求采用并行处理技术，使得检索过程性能好、效率高，检索结果具备更高的查准率和查全率。具体来讲，对于结构化信息源，本发明采用标准SQL检索技术，对于半结构化信息源采用XQuery/XPath检索方式，对于非结构化信息源采用全文检索方式，而检索请求是同时发送到三种不同结构信息源进行并行处理并同步接收返回结果集。在检索结果展现方面，本发明采用了更为周全的处理技术，对检索结果分别采取消重、排序、分类和聚合处理，最后以最能体现信息源各自特点的原生态形式集成展现。而现有方法在信息展现前未采取上述技术处理，并且在展现时是以加工后的形式展示，失去了异构信息源的特质化布局和样式，而这一点往往是用户最关心的需求。

附图说明

图1是具体实施方式中所述联邦检索及检索结果集成展现系统的结构框图；

图2是具体实施方式中所述联邦检索及检索结果集成展现方法的主流程图；

图3是具体实施方式中所述联邦检索结果集成展现方法的具体流程图。

具体实施方式

下面结合具体实施方式和附图对本发明进行详细描述。

图1出示了本实施方式中所述联邦检索及检索结果集成展现系统的结构。如图1所示，该系统包括输入装置11，与输入装置11连接的检索装置12，与检索装置12连接的结构化信息源、半结构化信息源、非结构化信息源，以及消重装置14、排序装置15、分类装置16、聚合装置17和展现装置13。

输入装置11，用于输入检索词。

检索装置12，用于并行向结构化、半结构化和非结构化信息源中发送检索请求，根据检索词同时在结构化、半结构化和非结构化信息源中检索定位与检索词相匹配信息，并将所有与检索词相匹配信息组成检索结果。

消重装置14，用于对检索结果进行消重处理；所述消重处理是指在检索结果中如果存在重复的信息，则只保留一条信息。

排序装置15，用于对检索结果进行排序处理；所述排序处理是指对检索结果按指定关键信息项进行升序或降序排列，以便按顺序规则快速定位检索结果。

分类装置16，用于对检索结果进行分类处理；所述分类处理是指对检索结果按一种或多种编目体系进行归类，便于检索信息的后续加工利用。

聚合装置17，用于对检索结果进行聚合处理；所述聚合处理是指按检索结果的内在特征分组，形成一个要求组内数据内容相似性尽可能大，而组间相似度尽可能小的集合。

展现装置13，用于将检索结果以原生态的形式进行集成展现。

图2出示了采用图1所示系统检索和集成展现检索结果的方法流程。如图2所示，该方法包括以下步骤：

(1)在输入装置11中输入检索词。

检索词可以是一个单一词，如“结构化”；也可以是一个布尔表达式形式的组合词或其他形式的组合词，如“结构化and半结构化and非结构化”、“结构化or半结构化or非结构化”。

(2)检索装置12并行向结构化、半结构化和非结构化信息源中发送检索请求，根据检索词同时在结构化、半结构化和非结构化信息源中检索定位与检索词相匹配的信息，将所有与检索词相匹配的信息组成检索结果。

在结构化信息源中检索采用标准SQL检索方式，在半结构化信息源中检索采用XQuery/XPath检索方式，在非结构化信息源中检索采用全文检索方式。

输入装置11将检索请求同时发送至三种异构信息源进行并行处理。

输入装置11发送到结构化信息源的请求采用标准SQL规范，结构化信息源处理装置(通常是数据库管理系统或数据库查询引擎)接收到检索请求数据包后，将视具体情况对数据进行预处理或直接处理。预处理主要是指加入特定数据库扩展的SQL语句或特定数据库版本引入的增强功能，如Oracle中的Hint提示、内存模式等，目的是提高检索的性能和稳定性。结构化检索是利用数据库的关系模型原理，对数据库字段建立索引，然后通过SQL脚本进行检索，数据库对SQL进行分析，形成查询计划，并根据已建立的索引情况使用相应的索引表，从而达到高效率检索的目的。

SQL(Structured Query Language，结构化查询语言)是一种数据库查询和程序设计语言，用于存取数据以及查询、更新和管理关系数据库系统。发源于二十世纪七十年代，历经SQL/86、SQL/89、SQL/92、SQL/99直至最新的SQL/2008，它具有如下特点：综合统一、高度非过程化、面向集合的操作方式、同一种语法结构提供两种使用方式、语言简捷易学易用。本实施方式中针对结构化信息源的检索请求包采取了SQL规范中的DML数据操纵语言，形如：select<col1，col2，...>from<table1，table2，...>where Title like‘中国％’and price＜30。

输入装置11发送到非结构化信息源的请求采用全文检索技术，非结构化信息源处理装置(通常是全文检索引擎)接收到检索请求数据包后，自动解析检索条件并进行语义分析，将检索词按词库拆分为分词结构，提交单元检索到预先创建好的全文检索索引库，最后将检索结果进行过滤、集合和格式化处理后返回请求方。

全文检索方式是直接利用中文分词和语义分析技术，对外部非结构化数据文件(本地或远程)创建全文索引，并利用检索引擎从接口层面通过函数调用的方式提供检索服务。利用全文检索在大文本字段上的优势，不但可以摆脱数据库直接从文件系统中获取所需信息，大大提高检索的适应性和性能，并且能够提全文检索引擎特定的检索机制，如：单字检索、短语检索、整句检索、段落检索、邻接检索、权重检索、多域检索、逻辑检索、表达式检索、同义词检索、反义词检索等。本实施方式中采用类SQL的全文检索请求包，形如：select Title，FileUrl，Frequency，PosInFile from IndexLib whereContent：(中国)。

输入装置11发送到半结构化信息源的请求采用XQuery/XPath技术，半结构化信息源处理装置(通常是XML Query查询引擎)接收到检索请求数据包后，自动解析检索条件，提交检索到XML文档或存储库，最后将检索结果返回请求方。本实施方式中针对半结构化信息源的检索请求包采取了W3C的XQuery/XPath规范，形如：

let $reportxml:＝document(′report.xml′)

for $report in $reportxml//author[age lt 30]

order by$author/name

return $report/title/text()

XPath和XQuery是由W3C国际组织推出的查询语言，是面向XML数据的XML Query查询模式描述语言，用户可借助它来描述自己感兴趣的模式，将用户的模式交由实际的XML数据处理系统处理，返回与模式相匹配的结果。其主体特征是通过采用正则路径表达式进而获取XML数据单元间的结构关系和内容。其中，XPath是实现XML数据遍历的基本语言，是XQuery的基础，是XQuery完整而不可分割的一部分。XQuery是一种高端的、强类型的函数语言，它借助XPath的特性可以处理更为复杂的记录选择条件的表达式、转换结果集或者进行递归查询。XQuery代码完全由表达式组成，没有语句，所有的值都是序列，是查询XML文档或者大型XML存储库(repository)的最佳方案。

将上述在三种不同结构信息源中检索出的与检索词相匹配的信息组成检索结果。对于所述检索结果，可以进行预处理，如消重、排序、分类和聚合等处理。所述消重处理是指在检索结果中如果存在重复的信息，则只保留一条信息。所述排序处理是指对检索结果按指定关键信息项进行升序或降序排列，以便按顺序规则快速定位检索结果。所述分类处理是指对检索结果按一种或多种编目体系进行归类，便于检索信息的后续加工利用。所述聚合处理是指按检索结果的内在特征分组，形成一个要求组内数据内容相似性尽可能大，而组间相似度尽可能小的集合。

(3)展现装置13将检索结果以原生态的形式进行集成展现。

展现装置13通过调用数据所在系统接口或功能URL路径等方式，将检索结果以原生态形式集成展现。图3出示了检索结果集成展现的方法流程。

检索结果的展现随信息来源的技术架构、表现形式、接口方式的不同而不同，大致可分为以下几种：

a.提供调用接口，接口通常是Web Service、API、RMI等形式，可以是与平台、语言无关，如Web Service，也可以是与特定平台、语言绑定，如Java API、C++API。

b.提供调用URL，URL以HTTP URL为主，更为广泛的是与协议无关的URI。

c.提供功能片断，功能片断可以是某应用系统的一个功能模块，通常是嵌入到容器或标准框架中，如Portlet。

d.提供调用系统，所述调用系统通常是经过封装、可独立运行的小型应用系统。

如图3所示，具体的展现过程包括以下步骤：

①展现装置13对经过预处理的检索结果进行分析，提取其中包含的路径信息。

②展现装置13分析路径信息，据此判断信息源调用形式属于下列哪种情况：接口、URL、功能片断或调用系统。

③展现装置13根据信息源调用形式采取不同展现方式：对于接口形式，运行接口桩调用相应接口；对于URL形式，直接跳转或Forward到相应URL；对于功能片断，则将该片断引入展现装置13内置的容器并运行；对于调用系统形式，则直接运行。

④展现装置13将各种异构信息源的原始信息以多窗口(嵌套或层叠)、多页签(横向或纵向)形式集成在一起统一展现。

实施例

(1)输入检索词。

本实施例中，检索词设为“公司”，分别从位于关系型数据库Oracle、XBRL商业报告存储库和Microsoft Word文档库中检索。见下表：

信息源	信息源类型	信息源参数	检索语句
				关系型数据库Oracle	结构化数据	数据表：ReportLib检索字段：Title检索条件：包含“公司”	select Title，ReportID fromReportLib where Title like“％公司％”

XBRL商业报告存储库	半结构化数据	存储库名：report.xml检索节点：xbrl/context检索条件：doc(″report.xml″)/xbrl/context[substring(csrc-common，1，2)＝′公司′]	let $reportxml：＝doc(′report.xml′)for $report in$reportxml/xbrl/context[substring(csrc-common，1，2)＝′公司′]order by$report/xbrl/context/csrc-commonreturn<td>{$report//context/csrc-c
				ommon}</td><td>{$report/xbrl/csrc-pfs/text()}</td>
Microsoft Word文档库	非结构化数据	全文索引库名：IndexLib检索对象：正文检索条件：包含“公司”	selectTitle，FileUrl，Frequency，PosInFile from IndexLib whereContent：(公司)

(2)向关系型数据库Oracle、XBRL商业报告存储库和Microsoft Word文档库并行提交检索请求，在三种信息源中检索定位与检索词相匹配的信息，并将所有与检索词相匹配的信息组成检索结果。

提交检索语句到关系型数据库后，Oracle数据库返回符合检索条件的结果集，形如下表的检索结果一：

Title	ReportID
		软件公司2009年度财务报告	101
制造业公司一季度销售完成情况	110
		股份公司年度工作计划	150
股份公司年度工作计划	150

提交检索语句到XBRL商业报告存储库后，XML Query检索引擎接收到检索请求数据包后，自动解析检索条件，检索到存储库，最后将检索结果返回请求方，形如下列的检索结果二：

<td>上证能源公司</td><td>2464527，202，500</td>

<td>建投能源公司</td><td>4，734，452，100</td>

提交检索语句到Microsoft Word文档全文索引库后，全文检索引擎自动解析检索条件并进行语义分析，将检索词按词库拆分为分词结构，提交单元检索到预先创建好的全文检索索引库，最后将检索结果进行过滤、集合和格式化处理后返回请求方。形如下列的检索结果三：

上市公司年报10宗“最”

沪深股市上市公司2009年年报截至4月30日已悉数出炉，财报数据形形色色，年报业绩起起落落。每一张年报脸谱下，都映照出不同的心境和处境，......

14家上市银行去年共赚4348亿

截至今日，上市银行出齐2009年年报。据资讯统计数据显示，14家上市银行共实现归属母公司股东的净利润4348.33亿元，同比增长16.45％。......

(3)对检索结果进行预处理。

本系统提供消重装置14、排序装置15、分类装置16、聚合装置17对联邦检索结果进行预处理，即对联邦检索结果进行集成展现前的处理。以检索结果一为例：

消重：检索结果一中存在两条重复数据，ReportID＝150&Title＝股份公司年度工作计划，经过消重处理后合并为一条。

排序：按字典升序排列后的三条数据依次为，ReportID＝150&Title＝股份公司年度工作计划、ReportID＝101&Title＝软件公司2009年度财务报告、ReportID＝110&Title＝制造业公司一季度销售完成情况。

分类：根据系统预置分类树，可将上述检索结果分别归到软件业(ReportID＝101&Title＝软件公司2009年度财务报告)、制造业(ReportID＝110&Title＝制造业公司一季度销售完成情况)、未分类(ReportID＝150&Title＝股份公司年度工作计划)。

聚合：针对前面分类处理中存在的未能识别的分类(ReportID＝150&Title＝股份公司年度工作计划)，聚合装置17将重新计算样本的相似度并按检索结果的内在特征对其进行分组，形成新的分类组——股份公司类。最后将检索结果(ReportID＝150&Title＝股份公司年度工作计划)聚类成为股份公司类。

(4)将预处理后的检索结果集成展现。

展现装置13对上述经过预处理的检索结果进行分析，提取其中包含的URL路径信息，并判断信息源的调用形式，进而采取不同的展现方式。本实施例中，检索结果的集成展现形式如下表所示：

序号	信息源	检索结果	调用形式	展现方法
					1	关系型数据库Oracle	ReportID＝150&Title＝股份公司年度工作计划	接口	(newwebservice()).invoke(150)
2	关系型数据库Oracle	ReportID＝101&Title＝软件公司2009年度财务报告	接口	(newwebservice()).invoke(101)
					3	关系型数据库Oracle	ReportID＝110&Title＝制造业公司一季度销售完成情况	接口	(newwebservice()).invoke(110)

4	XBRL商业报告存储库	<td>建投能源公司</td><td>4，734，452，100</td>	URL	http://xbrl.com/XBRL/info.jsp？stkid＝000600&year＝2005&reportType＝GB0110
					5	XBRL商业报告存储库	<td>上证能源公司</td><td>2464527，202，500</td>	URL	http://xbrl.com/XBRL/info.jsp？stkid＝000032&year＝2005&reportType＝GB0110
6	MicrosoftWord文档库	14家上市银行去年共赚4348亿	功能片断	在内嵌OLE容器中打开文档
					7	MicrosoftWord文档库	上市公司年报10宗“最”	功能片断	在内嵌OLE容器中打开文档

展现装置13根据上述展现方法将各种异构信息源的原始信息以多窗口(嵌套或层叠)、多页签(横向或纵向)形式集成在一起统一展现。

显然，本领域的技术人员可以对本发明进行各种改动和变型而不脱离本发明的精神和范围。这样，倘若本发明的这些修改和变型属于本发明权利要求及其同等技术的范围之内，则本发明也意图包含这些改动和变型在内。

Claims

1.一种联邦检索及检索结果集成展现方法，包括以下步骤：

(1)输入检索词；

(3)将所述检索结果以原生态的形式进行集成展现。

2.如权利要求1所述的方法，其特征在于：步骤(2)中，在结构化信息源中检索采用标准SQL检索方式，在半结构化信息源中检索采用XQuery/XPath检索方式，在非结构化信息源中检索采用全文检索方式。

3.如权利要求1所述的方法，其特征在于：步骤(2)中还包括对检索结果进行消重处理的操作。

4.如权利要求1所述的方法，其特征在于：步骤(2)中还包括对检索结果进行排序处理的操作。

5.如权利要求1所述的方法，其特征在于：步骤(2)中还包括对检索结果进行分类处理的操作。

6.如权利要求1所述的方法，其特征在于：步骤(2)中还包括对检索结果进行聚合处理的操作。

7.如权利要求1至6之一所述的方法，其特征在于：步骤(3)中将检索结果集成展现的方法包括以下步骤：

①对检索结果进行分析，提取检索结果中包含的路径信息；

④将结构化、半结构化和非结构化信息源的检索结果的原始信息集成在一起统一展现。

8.如权利要求7所述的方法，其特征在于：步骤④中所述检索结果的原始信息以多窗口、多页签形式集成在一起统一展现。

9.一种联邦检索及检索结果集成展现系统，包括：

用于输入检索词的输入装置(11)；

用于并行向结构化、半结构化和非结构化信息源中发送检索请求，根据检索词同时在结构化、半结构化和非结构化信息源中检索定位与检索词相匹配信息，并将所有与检索词相匹配信息组成检索结果的检索装置(12)；

以及用于将检索结果以原生态的形式进行集成展现的展现装置(13)。

10.如权利要求9所述的系统，其特征在于：所述系统还包括用于对检索结果进行消重处理的消重装置(14)，用于对检索结果进行排序处理的排序装置(15)，用于对检索结果进行分类处理的分类装置(16)，以及用于对检索结果进行聚合处理的聚合装置(17)。