[go: up one dir, main page]

CN101261629A - 基于自动分类技术的特定信息搜索方法 - Google Patents

基于自动分类技术的特定信息搜索方法 Download PDF

Info

Publication number
CN101261629A
CN101261629A CNA2008100363692A CN200810036369A CN101261629A CN 101261629 A CN101261629 A CN 101261629A CN A2008100363692 A CNA2008100363692 A CN A2008100363692A CN 200810036369 A CN200810036369 A CN 200810036369A CN 101261629 A CN101261629 A CN 101261629A
Authority
CN
China
Prior art keywords
webpage
field
full
information
training
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Pending
Application number
CNA2008100363692A
Other languages
English (en)
Inventor
孟浩华
曾雪强
李国正
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
SHANGHAI UNIVERSITY
Original Assignee
SHANGHAI UNIVERSITY
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by SHANGHAI UNIVERSITY filed Critical SHANGHAI UNIVERSITY
Priority to CNA2008100363692A priority Critical patent/CN101261629A/zh
Publication of CN101261629A publication Critical patent/CN101261629A/zh
Pending legal-status Critical Current

Links

Images

Landscapes

  • Information Retrieval, Db Structures And Fs Structures Therefor (AREA)

Abstract

本发明涉及一种基于自动分类技术的特定信息搜索方法。它是首先通过网络蜘蛛收集一些典型的网页构成训练文档集合,再对训练集合中的网页进行人工标注领域相关网页或领域非相关网页,然后利用机器学习算法在训练集合上进行建模并得到网页自动分类器;接着,再通过网络蜘蛛大量收集该领域相关网页,利用前面建立的自动分类器判别网页是否该领域相关网页,并建立基于倒排表的全文索引库将这些相关网页保存下来;最后,提供一个检索接口,方便用户从全文索引库中查询出该领域相关网页;具体操作包含以下三个模块:分类器训练模块、网页采集及索引模块和信息检索模块。本发明的方法相对于通用搜索方法来说,搜索命中率较高,重复信息较少,而且相关信息排列较靠前。

Description

基于自动分类技术的特定信息搜索方法
技术领域
本发明内容是一种针对特定专业领域的信息搜索方法,涉及基于倒排表的全文检索和文本自动分类等相关技术。
背景技术
Internet的爆炸式发展,使网络上的各种信息资源越来越丰富,但也给人们在网络上获取资源带来了难度,人们很难在纷絮复杂的信息海洋中便捷地找到需要的信息。搜索方法正是为解决广大网络用户这一实际问题而出现的。一般而言,搜索方法是一种在万维网上的应用系统,它接收用户提交的信息需求,试图让用户在有限的时间内得到与其需求最相关的信息。
如今Internet上常用的搜索方法有Yahoo、Google、百度等等。但这些通用方法引擎搜集的策略没有考虑到用户对于特定信息的特殊需求,即很难做到精确化和专业化。一般情况下,通用搜索方法查询的结果中绝大部分都是与用户需求不相关的网页。基于这一缺陷,越来越多的专业搜索产品也不断地涌现,比如音乐搜索,歌词搜索,图片搜索,视频等多媒体文件的搜索等。
但大部分专业搜索方法都是基于文件类型或其他特定领域的专业知识,尚未出现一种能针对任意给定领域的特定信息搜索方法构建技术。
发明内容
本发明的目的在于提供一种能针对任意特定领域的基于自动分类技术的特定信息搜索方法,通过较为成熟的文本分类模型判别出Internet中真正包含特定领域信息的网页,建立基于倒排表的全文索引库存储这些网页,并向用户提供基于全文检索的专业搜索接口。
为了实现这个目的,本发明采用下述技术方案:一种基于自动分类技术的特定信息搜索方法,其特征在于首先通过网络蜘蛛(spider)收集一些典型的网页构成训练文档集合,再对训练集合中的网页进行人工标注(领域相关网页或领域非相关网页),然后利用机器学习算法在训练集合上进行建模并得到网页自动分类器;接着,再通过网络蜘蛛大量收集该领域相关网页(利用前面建立的自动分类器判别网页是否该领域相关网页),并建立基于倒排表的全文索引库将这些相关网页保存下来;最后,提供一个检索接口,方便用户从全文索引库中查询出该领域相关网页;
具体操作包含以下三个模块:分类器训练模块、网页采集及索引模块和信息检索模块。
上述的分类器训练模块的功能是得到一个能够自动判别网页是否是“领域相关”的自动分类模块,其相应的流程图见图1;
具体步骤如下:
a)通过网络蜘蛛采集一定数量有代表性的训练网页;
b)对网页进行人工标注;请该领域的相关人员,将网页分为“领域相关网页”和“领域非相关网页”两类(由于只是简单的两类标注,对该领域相关人员的要求并不高);
c)对网页进行预处理,建立基于向量空间模型的训练文档矩阵;具体的处理操作包括,去除HTML标记、去除网页中的非相关信息、中文分词、去除停用词和建立文档向量;
d)分类器训练;采用分类准确度较高的Support Vector Machine(SVM)分类模型进行分类器训练(SVM分类器是一种在机器学习领域广泛采用的分类模型,在充分训练的情况下的分类准确率可以达到90%以上);
e)分类模型保存;保存分类器参数以及建立文档向量时所需的相关信息。
上述的网页采集及索引模块的功能是得到一个领域相关网页的基于倒排表的全文索引库,为用户的信息检索提供数据来源,其相应的流程图见图2;
具体步骤如下:
a)通过网络蜘蛛采集海量网页;为网络蜘蛛设定一些特定的网页作为起始搜索页面,网络蜘蛛读取这些起始页面的内容并抽取出其中的超链接地址,然后通过这些链接地址寻找下一个页面,这样一直循环下去,直到触发某种终止条件而停止网页采集;
b)对采集的网页进行预处理,建立向量空间模型下的文档向量;具体的操作包括,去除HTML标记、去除网页中的非相关信息、中文分词、去除停用词和建立文档向量(需要用到训练过程中建立文档向量矩阵的相关信息);
c)对采集的网页进行判别;利用“分类器训练模块”建立的SVM分类模型,对文档向量进行判别,丢弃判别为“领域非相关”的网页,只保留其中判别为“领域相关”的网页;
d)建立全文索引库;构建基于倒排表技术的全文索引库,保存“领域相关”的网页;为了适应海量信息保存的需要,采用开源的全文索引引擎工具Lucene建立索引数据库。
上述的信息检索模块的功能是为用户提供一个进行特定领域信息检索的接口,从全文索引库中查询出该领域相关的网页呈现给用户,其相应的流程图见图3;
本模块的具体步骤如下:
a)用户提供查询条件;用户在系统提供的WEB查询接口输入查询条件;
b)查询条件分析处理;包括查询条件的分隔(分词),“非、与、或”组合条件的分析处理步骤,最终得到一个处理后的查询条件;
c)全文检索;根据给定的查询条件,在全文索引库中查询符合条件的网页;查询方式包括传统的关键字匹配和基于同义词扩展的语义查询;
d)结果呈现;将检索到的相关网页按照相关度排序,以列表方式在网页中呈现给用户。
本发明与现有技术相比较,具有如下显而易见的突出实质性特点和显著优点:本发明提供的专业搜索方法是通过较为成熟的文本分类模型判别出Internet中真正包含特定领域信息的网页,建立基于倒排表的全文索引库存储这些网页,并向用户提供基于全文检索的专业搜索接口。本发明的方法相对于通用搜索方法来说,搜索命中率较高,重复信息较少,而且相关信息排列较靠前。
附图说明
图1是信息采集训练模块框图。
图2是信息采集和存储模块框图。
图3是信息检索模块框图。
图4是搜索页面示图。
图5是本发明实施例搜索结果列表图。
图6是百度搜索结果列表图。
图7是google搜索结果列表图。
具体实施方式
本发明的一个优选实施例是以酒店领域为例,我们开发了一个酒店信息搜索方法。该项目作为格林豪泰酒店上海有限公司投资的酒店搜索引擎网站(http://www.hotelgoogle.com.cn/)的一个子模块已经投入商业运行。下面介绍一下酒店信息搜索方法的实现流程。
本基于自动分类技术的专业搜索方法是先通过网络蜘蛛收集一些典型的网页构成训练文档集合,再对训练集合中的网页进行人工标注领域相关网页或领域非相关网页,然后利用机器学习算法在训练集合上进行建模并得到网页自动分类器;接着,再通过网络蜘蛛大量收集该领域相关网页,利用前面建立的自动分类器判别网页是否该领域相关网页,并建立基于倒排表的全文索引库将这些相关网页保存下来;最后,提供一个检索接口,方便用户从全文索引库中查询出该领域相关网页;具体操作包含以下三个模块:分类器训练模块、网页采集及索引模块和信息检索模块。
参见图1,上述的分类器训练模块:
采用“酒店”为关键字在google上搜索,通过网络蜘蛛采集搜索到网页,总共得到6000多个网页,去除一些乱码或者链接失效的网页,最终筛选出4000多个网页。
人工判断这4000多个网页,将其分为“酒店相关类”和“酒店非相关类”,对于“酒店相关类”的网页将其标注为1,“酒店非相关类”的网页将其标注为-1。标注结束之后,对网页进行预处理,包括去除HTML标记、去除网页中的非相关信息、中文分词、去除停用词和建立文档向量等。然后得到一个训练矩阵作为训练集。最后用SVM在训练集上进行训练得到分类模型并保存。
参见图2,上述的信息采集和存储模块:
选择了一些国内比较知名的酒店介绍类网站,比如携程、e龙旅行网等,以这些网页作为起始搜索页面。网络蜘蛛读取这些起始页面的内容并抽取出其中的超链接地址,然后通过这些链接地址寻找下一个页面,这样一直循环下去,直到达到每次采集的持续最长时间或者抓取的最大网页数量为止。
对采集下来的网页进行预处理得到文档向量,利用“分类器训练模块”建立的SVM分类模型,对文档向量进行判别,丢弃判别为“酒店非相关”的网页,只保留其中判别为“酒店相关”的网页。采用开源的全文索引工具Lucene对保留下来的网页建立索引数据库。
参见图3,上述的信息检索模块:
用户可以进入搜索页面,以“格林豪泰”为关键字进行搜索,见图4。
点击搜索按钮,就会出现搜索结果页面,见图5。
下面用同样的关键字“格林豪泰”,在百度和google中搜索来进行比较。百度和google的搜索结果页面见图6和图7。
从用户需求的角度来看(即用户需要找到关于“格林豪泰”酒店的具体信息),可以看到,本发明搜索到8个网页,百度搜索到1,300,000个网页,而google搜索到484,000个网页。考虑到用户的搜索习惯和便于比较,这里只取第一页进行比较。
在表2、表3、表4中分别列出了本发明、百度和google的搜索结果统计表。从中可以看到,本发明的命中率为75%,重复信息有1个;百度的命中率为30%,无重复信息;google的命中率为70%,重复信息有2个。从相关信息的搜索结果顺序来看,本发明搜索结果中,与酒店信息相关的顺序为1-5,8;百度的为4,8,9;google的为3-9。
从上述可以看出,本发明相对于百度和google这样的通用搜索方法来说,搜索命中率更高,重复信息较少,而且相关信息排列更加靠前。

Claims (4)

1.一种基于自动分类技术的特定信息搜索方法,其特征在于首先通过网络蜘蛛收集一些典型的网页构成训练文档集合,再对训练集合中的网页进行人工标注领域相关网页或领域非相关网页,然后利用机器学习算法在训练集合上进行建模并得到网页自动分类器;接着,再通过网络蜘蛛大量收集该特定领域相关网页,利用前面建立的自动分类器判别网页是否该领域相关网页,并建立基于倒排表的全文索引库将这些相关网页保存下来;最后,提供一个检索接口,方便用户从全文索引库中查询出该领域相关网页;具体操作包含以下三个模块:分类器训练模块、网页采集及索引模块和信息检索模块。
2.根据权利要求1所述的基于自动分类技术的特定信息搜索方法,其特征在于所述的分类器训练模块的功能是得到一个能够自动判别网页是否是“领域相关”的自动分类模块,具体步骤如下:
a)通过网络蜘蛛采集一定数量有代表性的训练网页;
b)对网页进行人工标注;请该领域的相关人员,将网页分为“领域相关网页”和“领域非相关网页”两类;
c)对网页进行预处理,建立基于向量空间模型的训练文档矩阵;具体的处理操作包括:去除HTML标记、去除网页中的非相关信息、中文分词、去除停用词和建立文档向量;
d)分类器训练;采用分类准确度较高的SVM分类模型进行分类器训练;
e)分类模型保存;保存分类器参数以及建立文档向量时所需的相关信息。
3.根据权利要求1所述的基于自动化分类技术的特定信息搜索方法,其特征在于所述的网页采集及索引模块的功能是得到一个领域相关网页的基于倒排表的全文索引库,为用户的信息检索提供数据来源;具体步骤如下:
a)通过网络蜘蛛采集海量网页;为网络蜘蛛设定一些特定的网页作为起始搜索页面,网络蜘蛛读取这些起始页面的内容并抽取出其中的超链接地址,然后通过这些链接地址寻找下一个页面,这样一直循环下去,直到触发某种终止条件而停止网页采集;
b)对采集的网页进行预处理,建立向量空间模型下的文档向量;具体的操作包括,去除HTML标记、去除网页中的非相关信息、中文分词、去除停用词和建立文档向量;
c)对采集的网页进行判别;利用“分类器训练模块”建立的SVM分类模型,对文档向量进行判别,丢弃判别为“领域非相关”的网页,只保留其中判别为“领域相关”的网页;
d)建立全文索引库;构建基于倒排表技术的全文索引库,保存“领域相关”的网页;为了适应海量信息保存的需要,采用开源的全文索引引擎工具Lucene建立索引数据库。
4.根据权利要求1所述的基于自动分类技术的特定信息搜索方法,其特征在于所述的信息检索模块的功能是为用户提供一个进行特定领域信息检索的接口,从全文索引库中查询出该领域相关的网页呈现给用户;具体步骤如下:
a)用户提供查询条件;用户在系统提供的WEB查询接口输入查询条件;
b)查询条件分析处理;包括查询条件的分隔,“非、与、或”组合条件的分析处理步骤,最终得到一个处理后的查询条件;
c)全文检索;根据给定的查询条件,在全文索引库中查询符合条件的网页;查询方式包括传统的关键字匹配和基于同义词扩展的语义查询;
d)结果呈现;将检索到的相关网页按照相关度排序,以列表方式在网页中呈现给用户。
CNA2008100363692A 2008-04-21 2008-04-21 基于自动分类技术的特定信息搜索方法 Pending CN101261629A (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CNA2008100363692A CN101261629A (zh) 2008-04-21 2008-04-21 基于自动分类技术的特定信息搜索方法

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CNA2008100363692A CN101261629A (zh) 2008-04-21 2008-04-21 基于自动分类技术的特定信息搜索方法

Publications (1)

Publication Number Publication Date
CN101261629A true CN101261629A (zh) 2008-09-10

Family

ID=39962089

Family Applications (1)

Application Number Title Priority Date Filing Date
CNA2008100363692A Pending CN101261629A (zh) 2008-04-21 2008-04-21 基于自动分类技术的特定信息搜索方法

Country Status (1)

Country Link
CN (1) CN101261629A (zh)

Cited By (17)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN102054015A (zh) * 2009-10-28 2011-05-11 财团法人工业技术研究院 使用有机物件数据模型来组织社群智能信息的系统及方法
CN102054016A (zh) * 2009-10-28 2011-05-11 财团法人工业技术研究院 用于撷取及管理社群智能信息的系统及方法
CN102236719A (zh) * 2011-07-25 2011-11-09 西交利物浦大学 基于网页分类的网页搜索引擎及快速查找方法
CN102279887A (zh) * 2011-08-18 2011-12-14 北京百度网讯科技有限公司 一种文档分类方法、装置及系统
CN101777060B (zh) * 2009-12-23 2012-05-23 中国科学院自动化研究所 基于网页视觉特征的网页分类方法及其系统
CN101908047B (zh) * 2009-06-08 2012-05-30 北京搜狗科技发展有限公司 无效模板生成方法及装置、无效网页识别方法及装置
CN102945246A (zh) * 2012-09-28 2013-02-27 北界创想(北京)软件有限公司 网络信息数据的处理方法及装置
CN103150369A (zh) * 2013-03-07 2013-06-12 人民搜索网络股份公司 作弊网页识别方法及装置
CN103299304A (zh) * 2011-01-13 2013-09-11 三菱电机株式会社 分类规则生成装置、分类规则生成方法、分类规则生成程序以及记录介质
CN103793444A (zh) * 2012-11-05 2014-05-14 江苏苏大大数据科技有限公司 用户需求获取方法
CN104123366A (zh) * 2014-07-23 2014-10-29 谢建平 一种搜索方法及搜索服务器
CN105304084A (zh) * 2015-11-13 2016-02-03 深圳狗尾草智能科技有限公司 一种实现机器人记忆主人强相关信息的方法
WO2017118427A1 (zh) * 2016-01-07 2017-07-13 腾讯科技(深圳)有限公司 网页训练的方法和装置、搜索意图识别的方法和装置
CN108198268A (zh) * 2017-12-19 2018-06-22 江苏极熵物联科技有限公司 一种生产设备数据标定方法
CN109271523A (zh) * 2018-11-23 2019-01-25 中电科大数据研究院有限公司 一种基于信息检索的政府公文主题分类方法
CN109684529A (zh) * 2018-12-14 2019-04-26 安徽仁昊智能科技有限公司 一种基于神经网络的智能学习系统
US20210073839A1 (en) * 2017-12-12 2021-03-11 Drilling Info, Inc. Map visualization for well data

Cited By (24)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN101908047B (zh) * 2009-06-08 2012-05-30 北京搜狗科技发展有限公司 无效模板生成方法及装置、无效网页识别方法及装置
CN102054016B (zh) * 2009-10-28 2016-01-20 财团法人工业技术研究院 用于撷取及管理社群智能信息的系统及方法
CN102054016A (zh) * 2009-10-28 2011-05-11 财团法人工业技术研究院 用于撷取及管理社群智能信息的系统及方法
CN102054015A (zh) * 2009-10-28 2011-05-11 财团法人工业技术研究院 使用有机物件数据模型来组织社群智能信息的系统及方法
CN102054015B (zh) * 2009-10-28 2014-05-07 财团法人工业技术研究院 使用有机物件数据模型来组织社群智能信息的系统及方法
CN101777060B (zh) * 2009-12-23 2012-05-23 中国科学院自动化研究所 基于网页视觉特征的网页分类方法及其系统
CN103299304B (zh) * 2011-01-13 2016-09-28 三菱电机株式会社 分类规则生成装置和分类规则生成方法
CN103299304A (zh) * 2011-01-13 2013-09-11 三菱电机株式会社 分类规则生成装置、分类规则生成方法、分类规则生成程序以及记录介质
CN102236719A (zh) * 2011-07-25 2011-11-09 西交利物浦大学 基于网页分类的网页搜索引擎及快速查找方法
CN102279887A (zh) * 2011-08-18 2011-12-14 北京百度网讯科技有限公司 一种文档分类方法、装置及系统
CN102279887B (zh) * 2011-08-18 2016-06-01 北京百度网讯科技有限公司 一种文档分类方法、装置及系统
CN102945246A (zh) * 2012-09-28 2013-02-27 北界创想(北京)软件有限公司 网络信息数据的处理方法及装置
CN103793444A (zh) * 2012-11-05 2014-05-14 江苏苏大大数据科技有限公司 用户需求获取方法
CN103793444B (zh) * 2012-11-05 2017-02-08 江苏苏大大数据科技有限公司 用户需求获取方法
CN103150369A (zh) * 2013-03-07 2013-06-12 人民搜索网络股份公司 作弊网页识别方法及装置
CN104123366A (zh) * 2014-07-23 2014-10-29 谢建平 一种搜索方法及搜索服务器
CN105304084A (zh) * 2015-11-13 2016-02-03 深圳狗尾草智能科技有限公司 一种实现机器人记忆主人强相关信息的方法
CN105304084B (zh) * 2015-11-13 2020-04-24 深圳狗尾草智能科技有限公司 一种实现机器人记忆主人强相关信息的方法
WO2017118427A1 (zh) * 2016-01-07 2017-07-13 腾讯科技(深圳)有限公司 网页训练的方法和装置、搜索意图识别的方法和装置
CN106951422A (zh) * 2016-01-07 2017-07-14 腾讯科技(深圳)有限公司 网页训练的方法和装置、搜索意图识别的方法和装置
US20210073839A1 (en) * 2017-12-12 2021-03-11 Drilling Info, Inc. Map visualization for well data
CN108198268A (zh) * 2017-12-19 2018-06-22 江苏极熵物联科技有限公司 一种生产设备数据标定方法
CN109271523A (zh) * 2018-11-23 2019-01-25 中电科大数据研究院有限公司 一种基于信息检索的政府公文主题分类方法
CN109684529A (zh) * 2018-12-14 2019-04-26 安徽仁昊智能科技有限公司 一种基于神经网络的智能学习系统

Similar Documents

Publication Publication Date Title
CN101261629A (zh) 基于自动分类技术的特定信息搜索方法
CN103226578B (zh) 面向医学领域的网站识别和网页细分类的方法
US8676815B2 (en) Suffix tree similarity measure for document clustering
CN100498790C (zh) 一种搜索方法和系统
CN103823824B (zh) 一种借助互联网自动构建文本分类语料库的方法及系统
CN100440224C (zh) 一种搜索引擎性能评价的自动化处理方法
CN101344889B (zh) 一种网络信息抽取的方法和系统
CN103294778B (zh) 一种推送资讯信息的方法及系统
CN104063497B (zh) 观点处理方法和装置以及搜索方法和装置
CA2886603A1 (en) A method and system for monitoring social media and analyzing text to automate classification of user posts using a facet based relevance assessment model
WO2015043066A1 (zh) 关键词扩展方法及系统、及分类语料标注方法及系统
CN102043812A (zh) 一种医疗信息的检索方法及系统
CN101593200A (zh) 基于关键词频度分析的中文网页分类方法
CN109960756A (zh) 新闻事件信息归纳方法
CN101944099A (zh) 一种使用本体进行文本文档自动分类的方法
CN104281702A (zh) 基于电力关键词分词的数据检索方法及装置
CN102541929A (zh) 提取版式文档目录的方法及装置
CN101673306B (zh) 网页信息查询方法及其系统
CN101751455A (zh) 采用人工智能技术自动产生标题的方法
CN102591948A (zh) 一种基于用户行为分析的搜索结果改进的方法及其系统
CN110609950B (zh) 一种舆情系统搜索词推荐方法及系统
CN103942274B (zh) 一种基于lda的生物医疗图像的标注系统及方法
CN102722526B (zh) 基于词性分类统计的重复网页和近似网页的识别方法
CN102737045A (zh) 一种相关度计算方法和装置
CN107943937B (zh) 一种基于司法公开信息分析的债务人资产监控方法及系统

Legal Events

Date Code Title Description
C06 Publication
PB01 Publication
C10 Entry into substantive examination
SE01 Entry into force of request for substantive examination
C02 Deemed withdrawal of patent application after publication (patent law 2001)
WD01 Invention patent application deemed withdrawn after publication

Open date: 20080910