CN101261629A

CN101261629A - 基于自动分类技术的特定信息搜索方法

Info

Publication number: CN101261629A
Application number: CNA2008100363692A
Authority: CN
Inventors: 孟浩华; 曾雪强; 李国正
Original assignee: SHANGHAI UNIVERSITY
Current assignee: SHANGHAI UNIVERSITY
Priority date: 2008-04-21
Filing date: 2008-04-21
Publication date: 2008-09-10

Abstract

本发明涉及一种基于自动分类技术的特定信息搜索方法。它是首先通过网络蜘蛛收集一些典型的网页构成训练文档集合，再对训练集合中的网页进行人工标注领域相关网页或领域非相关网页，然后利用机器学习算法在训练集合上进行建模并得到网页自动分类器；接着，再通过网络蜘蛛大量收集该领域相关网页，利用前面建立的自动分类器判别网页是否该领域相关网页，并建立基于倒排表的全文索引库将这些相关网页保存下来；最后，提供一个检索接口，方便用户从全文索引库中查询出该领域相关网页；具体操作包含以下三个模块：分类器训练模块、网页采集及索引模块和信息检索模块。本发明的方法相对于通用搜索方法来说，搜索命中率较高，重复信息较少，而且相关信息排列较靠前。

Description

基于自动分类技术的特定信息搜索方法

技术领域

本发明内容是一种针对特定专业领域的信息搜索方法，涉及基于倒排表的全文检索和文本自动分类等相关技术。

背景技术

Internet的爆炸式发展，使网络上的各种信息资源越来越丰富，但也给人们在网络上获取资源带来了难度，人们很难在纷絮复杂的信息海洋中便捷地找到需要的信息。搜索方法正是为解决广大网络用户这一实际问题而出现的。一般而言，搜索方法是一种在万维网上的应用系统，它接收用户提交的信息需求，试图让用户在有限的时间内得到与其需求最相关的信息。

如今Internet上常用的搜索方法有Yahoo、Google、百度等等。但这些通用方法引擎搜集的策略没有考虑到用户对于特定信息的特殊需求，即很难做到精确化和专业化。一般情况下，通用搜索方法查询的结果中绝大部分都是与用户需求不相关的网页。基于这一缺陷，越来越多的专业搜索产品也不断地涌现，比如音乐搜索，歌词搜索，图片搜索，视频等多媒体文件的搜索等。

但大部分专业搜索方法都是基于文件类型或其他特定领域的专业知识，尚未出现一种能针对任意给定领域的特定信息搜索方法构建技术。

发明内容

本发明的目的在于提供一种能针对任意特定领域的基于自动分类技术的特定信息搜索方法，通过较为成熟的文本分类模型判别出Internet中真正包含特定领域信息的网页，建立基于倒排表的全文索引库存储这些网页，并向用户提供基于全文检索的专业搜索接口。

为了实现这个目的，本发明采用下述技术方案：一种基于自动分类技术的特定信息搜索方法，其特征在于首先通过网络蜘蛛(spider)收集一些典型的网页构成训练文档集合，再对训练集合中的网页进行人工标注(领域相关网页或领域非相关网页)，然后利用机器学习算法在训练集合上进行建模并得到网页自动分类器；接着，再通过网络蜘蛛大量收集该领域相关网页(利用前面建立的自动分类器判别网页是否该领域相关网页)，并建立基于倒排表的全文索引库将这些相关网页保存下来；最后，提供一个检索接口，方便用户从全文索引库中查询出该领域相关网页；

具体操作包含以下三个模块：分类器训练模块、网页采集及索引模块和信息检索模块。

上述的分类器训练模块的功能是得到一个能够自动判别网页是否是“领域相关”的自动分类模块，其相应的流程图见图1；

具体步骤如下：

a)通过网络蜘蛛采集一定数量有代表性的训练网页；

b)对网页进行人工标注；请该领域的相关人员，将网页分为“领域相关网页”和“领域非相关网页”两类(由于只是简单的两类标注，对该领域相关人员的要求并不高)；

c)对网页进行预处理，建立基于向量空间模型的训练文档矩阵；具体的处理操作包括，去除HTML标记、去除网页中的非相关信息、中文分词、去除停用词和建立文档向量；

d)分类器训练；采用分类准确度较高的Support Vector Machine(SVM)分类模型进行分类器训练(SVM分类器是一种在机器学习领域广泛采用的分类模型，在充分训练的情况下的分类准确率可以达到90％以上)；

e)分类模型保存；保存分类器参数以及建立文档向量时所需的相关信息。

上述的网页采集及索引模块的功能是得到一个领域相关网页的基于倒排表的全文索引库，为用户的信息检索提供数据来源，其相应的流程图见图2；

具体步骤如下：

a)通过网络蜘蛛采集海量网页；为网络蜘蛛设定一些特定的网页作为起始搜索页面，网络蜘蛛读取这些起始页面的内容并抽取出其中的超链接地址，然后通过这些链接地址寻找下一个页面，这样一直循环下去，直到触发某种终止条件而停止网页采集；

b)对采集的网页进行预处理，建立向量空间模型下的文档向量；具体的操作包括，去除HTML标记、去除网页中的非相关信息、中文分词、去除停用词和建立文档向量(需要用到训练过程中建立文档向量矩阵的相关信息)；

c)对采集的网页进行判别；利用“分类器训练模块”建立的SVM分类模型，对文档向量进行判别，丢弃判别为“领域非相关”的网页，只保留其中判别为“领域相关”的网页；

d)建立全文索引库；构建基于倒排表技术的全文索引库，保存“领域相关”的网页；为了适应海量信息保存的需要，采用开源的全文索引引擎工具Lucene建立索引数据库。

上述的信息检索模块的功能是为用户提供一个进行特定领域信息检索的接口，从全文索引库中查询出该领域相关的网页呈现给用户，其相应的流程图见图3；

本模块的具体步骤如下：

a)用户提供查询条件；用户在系统提供的WEB查询接口输入查询条件；

b)查询条件分析处理；包括查询条件的分隔(分词)，“非、与、或”组合条件的分析处理步骤，最终得到一个处理后的查询条件；

c)全文检索；根据给定的查询条件，在全文索引库中查询符合条件的网页；查询方式包括传统的关键字匹配和基于同义词扩展的语义查询；

d)结果呈现；将检索到的相关网页按照相关度排序，以列表方式在网页中呈现给用户。

本发明与现有技术相比较，具有如下显而易见的突出实质性特点和显著优点：本发明提供的专业搜索方法是通过较为成熟的文本分类模型判别出Internet中真正包含特定领域信息的网页，建立基于倒排表的全文索引库存储这些网页，并向用户提供基于全文检索的专业搜索接口。本发明的方法相对于通用搜索方法来说，搜索命中率较高，重复信息较少，而且相关信息排列较靠前。

附图说明

图1是信息采集训练模块框图。

图2是信息采集和存储模块框图。

图3是信息检索模块框图。

图4是搜索页面示图。

图5是本发明实施例搜索结果列表图。

图6是百度搜索结果列表图。

图7是google搜索结果列表图。

具体实施方式

本发明的一个优选实施例是以酒店领域为例，我们开发了一个酒店信息搜索方法。该项目作为格林豪泰酒店上海有限公司投资的酒店搜索引擎网站(http://www.hotelgoogle.com.cn/)的一个子模块已经投入商业运行。下面介绍一下酒店信息搜索方法的实现流程。

本基于自动分类技术的专业搜索方法是先通过网络蜘蛛收集一些典型的网页构成训练文档集合，再对训练集合中的网页进行人工标注领域相关网页或领域非相关网页，然后利用机器学习算法在训练集合上进行建模并得到网页自动分类器；接着，再通过网络蜘蛛大量收集该领域相关网页，利用前面建立的自动分类器判别网页是否该领域相关网页，并建立基于倒排表的全文索引库将这些相关网页保存下来；最后，提供一个检索接口，方便用户从全文索引库中查询出该领域相关网页；具体操作包含以下三个模块：分类器训练模块、网页采集及索引模块和信息检索模块。

参见图1，上述的分类器训练模块：

采用“酒店”为关键字在google上搜索，通过网络蜘蛛采集搜索到网页，总共得到6000多个网页，去除一些乱码或者链接失效的网页，最终筛选出4000多个网页。

人工判断这4000多个网页，将其分为“酒店相关类”和“酒店非相关类”，对于“酒店相关类”的网页将其标注为1，“酒店非相关类”的网页将其标注为-1。标注结束之后，对网页进行预处理，包括去除HTML标记、去除网页中的非相关信息、中文分词、去除停用词和建立文档向量等。然后得到一个训练矩阵作为训练集。最后用SVM在训练集上进行训练得到分类模型并保存。

参见图2，上述的信息采集和存储模块：

选择了一些国内比较知名的酒店介绍类网站，比如携程、e龙旅行网等，以这些网页作为起始搜索页面。网络蜘蛛读取这些起始页面的内容并抽取出其中的超链接地址，然后通过这些链接地址寻找下一个页面，这样一直循环下去，直到达到每次采集的持续最长时间或者抓取的最大网页数量为止。

对采集下来的网页进行预处理得到文档向量，利用“分类器训练模块”建立的SVM分类模型，对文档向量进行判别，丢弃判别为“酒店非相关”的网页，只保留其中判别为“酒店相关”的网页。采用开源的全文索引工具Lucene对保留下来的网页建立索引数据库。

参见图3，上述的信息检索模块：

用户可以进入搜索页面，以“格林豪泰”为关键字进行搜索，见图4。

点击搜索按钮，就会出现搜索结果页面，见图5。

下面用同样的关键字“格林豪泰”，在百度和google中搜索来进行比较。百度和google的搜索结果页面见图6和图7。

从用户需求的角度来看(即用户需要找到关于“格林豪泰”酒店的具体信息)，可以看到，本发明搜索到8个网页，百度搜索到1,300,000个网页，而google搜索到484,000个网页。考虑到用户的搜索习惯和便于比较，这里只取第一页进行比较。

在表2、表3、表4中分别列出了本发明、百度和google的搜索结果统计表。从中可以看到，本发明的命中率为75％，重复信息有1个；百度的命中率为30％，无重复信息；google的命中率为70％，重复信息有2个。从相关信息的搜索结果顺序来看，本发明搜索结果中，与酒店信息相关的顺序为1-5，8；百度的为4，8，9；google的为3-9。

从上述可以看出，本发明相对于百度和google这样的通用搜索方法来说，搜索命中率更高，重复信息较少，而且相关信息排列更加靠前。

Claims

1.一种基于自动分类技术的特定信息搜索方法，其特征在于首先通过网络蜘蛛收集一些典型的网页构成训练文档集合，再对训练集合中的网页进行人工标注领域相关网页或领域非相关网页，然后利用机器学习算法在训练集合上进行建模并得到网页自动分类器；接着，再通过网络蜘蛛大量收集该特定领域相关网页，利用前面建立的自动分类器判别网页是否该领域相关网页，并建立基于倒排表的全文索引库将这些相关网页保存下来；最后，提供一个检索接口，方便用户从全文索引库中查询出该领域相关网页；具体操作包含以下三个模块：分类器训练模块、网页采集及索引模块和信息检索模块。

2.根据权利要求1所述的基于自动分类技术的特定信息搜索方法，其特征在于所述的分类器训练模块的功能是得到一个能够自动判别网页是否是“领域相关”的自动分类模块，具体步骤如下：

a)通过网络蜘蛛采集一定数量有代表性的训练网页；

b)对网页进行人工标注；请该领域的相关人员，将网页分为“领域相关网页”和“领域非相关网页”两类；

c)对网页进行预处理，建立基于向量空间模型的训练文档矩阵；具体的处理操作包括：去除HTML标记、去除网页中的非相关信息、中文分词、去除停用词和建立文档向量；

d)分类器训练；采用分类准确度较高的SVM分类模型进行分类器训练；

3.根据权利要求1所述的基于自动化分类技术的特定信息搜索方法，其特征在于所述的网页采集及索引模块的功能是得到一个领域相关网页的基于倒排表的全文索引库，为用户的信息检索提供数据来源；具体步骤如下：

b)对采集的网页进行预处理，建立向量空间模型下的文档向量；具体的操作包括，去除HTML标记、去除网页中的非相关信息、中文分词、去除停用词和建立文档向量；

4.根据权利要求1所述的基于自动分类技术的特定信息搜索方法，其特征在于所述的信息检索模块的功能是为用户提供一个进行特定领域信息检索的接口，从全文索引库中查询出该领域相关的网页呈现给用户；具体步骤如下：

b)查询条件分析处理；包括查询条件的分隔，“非、与、或”组合条件的分析处理步骤，最终得到一个处理后的查询条件；