CN105912662A - 基于Coreseek的垂直搜索引擎研究与优化的方法 - Google Patents
基于Coreseek的垂直搜索引擎研究与优化的方法 Download PDFInfo
- Publication number
- CN105912662A CN105912662A CN201610222675.XA CN201610222675A CN105912662A CN 105912662 A CN105912662 A CN 105912662A CN 201610222675 A CN201610222675 A CN 201610222675A CN 105912662 A CN105912662 A CN 105912662A
- Authority
- CN
- China
- Prior art keywords
- coreseek
- information
- user
- crawled
- search engine
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Pending
Links
Classifications
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F16/00—Information retrieval; Database structures therefor; File system structures therefor
- G06F16/90—Details of database functions independent of the retrieved data types
- G06F16/95—Retrieval from the web
- G06F16/953—Querying, e.g. by the use of web search engines
- G06F16/9535—Search customisation based on user profiles and personalisation
Landscapes
- Engineering & Computer Science (AREA)
- Databases & Information Systems (AREA)
- Theoretical Computer Science (AREA)
- Data Mining & Analysis (AREA)
- Physics & Mathematics (AREA)
- General Engineering & Computer Science (AREA)
- General Physics & Mathematics (AREA)
- Information Retrieval, Db Structures And Fs Structures Therefor (AREA)
Abstract
一种基于Coreseek的垂直搜索引擎研究与优化的方法:通过对图书领域的网站进行分析,将待爬取的关于图书的网页作为种子链接,进行爬取信息;对主题爬虫爬取到的图书网页信息进行结构化抽取,把非结构化的数据转化为结构化数据;扩充LibMMSeg分词库,将结构化的数据存入数据库,并进行中文分词,使用Coreseek建立索引,通过主题爬虫系统从互动出版社网站爬取出版社和作者信息,结合搜狗细胞词库,按照LibMMSeg的词库格式添加到词典文件中;对用户输入的关键字通过索引在数据库中查询,对查询到的数据按照制定的排序算法进行排序后,返回给用户查看。本发明适应于短文本的图书搜索,更加能满足用户使用搜索引擎寻找图书信息的需求。
Description
技术领域
本发明涉及一种垂直搜索引擎研究与优化。特别是涉及一种基于Coreseek的垂直搜索引擎研究与优化的方法。
背景技术
目前在相关技术中,有搜索引擎和网络爬虫技术。其中搜索引擎主要分为两类:一种是通用搜索引擎。通用搜索引擎采用关键词匹配的方式检索信息,搜索系统会根据查询词将匹配到的所有结果全部返回给用户,由于一个词的含义可能有许多种,因此在这些返回结果中就存在很多不是用户想要的信息。
另一类搜索引擎是垂直搜索引擎。垂直搜索引擎的出现解决了通用搜索引擎所面临的问题,垂直搜索引擎并不索引网络中的全部信息,它只关注某一类的特定信息,因此所需要的硬软件资源耗费相对较少。同时由于垂直搜索引擎只关注特定主题的信息,当用户需要较高准确度的检索结果时,垂直搜索引擎就可以满足这种特殊需求。
网络爬虫技术主要分为两类:一种是通用网络爬虫技术。在通用网络实际工作中,需要动态地维护一个等待爬取的Uniform Resoure Locator(URL)队列,开始时要提取队列中已经选取好的URL种子链接,运用宽度优先或者深度优先的方法进行遍历,对其所指向的网页进行抓取工作,抓取后从这个网页中解析出一个新的URL,然后把它存入到URL队列中。而页面库可以将所有经过解析的页面以一定的数据结构的方式进行保存。爬虫过程是不断重复上述步骤直至待爬取队列已空或者达到了终止条件。
另一类网络爬虫技术技术是主题网络爬虫技术。由于工作机制的不同,主体网络爬虫相比于通用网络爬虫具有两个不同的功能模块,分别为主题相关性计算模块和候选链接优先级计算模块。这两个模块也是主题网络爬虫实现核心功能的关键模块,它们对爬虫的输出结果的优劣有着直接影响。主题相关性计算模块用来计算已得到的网页与主题的相关性。在进行主题相关性计算前,首先需要设定阈值条件用来筛选网页。候选链接优先级计算模块用来计算主题相关性计算模块所得出的链接的处理优先级。
发明内容
本发明所要解决的技术问题是,提供一种更适应于短文本的图书搜索,可以返回给用户更满意答案的基于Coreseek的垂直搜索引擎研究与优化的方法。
本发明所采用的技术方案是:一种基于Coreseek的垂直搜索引擎研究与优化的方法,包括如下步骤:
1)通过对图书领域的网站进行分析,将待爬取的关于图书的网页作为种子链接,然后利用基于分类预测的主题爬虫系统进行爬取信息;
2)对主题爬虫爬取到的图书网页信息进行结构化抽取,把非结构化的数据转化为结构化数据;
3)扩充LibMMSeg分词库,对结构化的数据进行中文分词,并将结构化的数据存入数据库,并使用Coreseek建立索引,通过主题爬虫系统从互动出版社网站爬取出版社和作者信息,结合搜狗细胞词库,按照LibMMSeg的词库格式添加到词典文件中;
4)对用户输入的关键字通过索引在数据库中查询,对查询到的数据按照制定的排序算法进行排序后,返回给用户查看。
步骤1)所述的对图书领域的网站进行分析,是分析待爬取的网页的网址的结构。
步骤1)所述的将待爬取的关于图书的网页作为种子链接是在种子链接的页面上必须包括各种图书信息的起始链接,页面上的链接能够直接链接需要爬取的网页。
步骤1)所述的利用基于分类预测的主题爬虫系统进行爬取信息,是使用Python编程语言实现基于分类预测的网络爬虫系统DouCrawler,爬取网站上关于图书信息的网页。
步骤4)包括:
(1)利用Coreseek全文搜索引擎工具对图书信息进行检索,Coreseek基础的排序算法与TF-IDF算法结合,并且考虑到关键字在文档的前面位置出现还是后面位置出现的因素,加入评分因子hit_loc和hit_else,形成CORE_RANK算法如下:
CORE_RANK=∑((α×tf_idf+β×(hit_loc==1)+hit_else)×user_weight)×1000+BM25
其中,tf_idf为使用TF-IDF计算出的查询与文件之间的相似度值,hit_loc为关键字第一次匹配的位置,hit_else为关键字在其他位置是否还有匹配,BM25为统计评分算法,user_weight为每个域中用户定义的权重,α为tf_idf的权重,β为关键字在文档中第一个位置命中的权重;
(2)对用户输入的关键字通过索引在数据库中查询,对查询到的数据按照改进的排序算法进行排序,返回给用户查看。
本发明的基于Coreseek的垂直搜索引擎研究与优化的方法,在研究垂直搜索引擎的关键技术的基础上,扩充了LibMMSeg分词包并优化了CORE_RANK排序算法,优化后的CORE_RANK排序算法更适应于短文本的图书搜索,并实现了一个面向图书信息的垂直搜索系统,并能提供图书搜索服务。能更好的返回用户的搜索结果,更加能满足用户使用搜索引擎寻找图书信息的需求。
附图说明
图1是本发明基于Coreseek的垂直搜索引擎研究与优化的方法的流程图;
图2是SPH_RANK_PROXIMITY_BM25算法的检索结果图;
图3是SPH_RANK_FIELDMASK算法检索结果图;
图4是CORE_RANK算法检索结果图。
具体实施方式
下面结合实施例和附图对本发明的基于Coreseek的垂直搜索引擎研究与优化的方法做出详细说明。
本发明的基于Coreseek的垂直搜索引擎研究与优化的方法,包括如下步骤:
1)通过对图书领域的网站进行了解和分析,将待爬取的关于图书的网页作为种子链接, 然后利用基于分类预测的主题爬虫系统进行爬取信息;其中,
所述的对图书领域的网站进行了解和分析,是由于不同的网站的网址的结构不同,所以要分析待爬取的网页的网址的结构。
在爬取网站之前首先需要对爬取的种子链接进行选取,种子链接的选取关系到爬取的网页的相关性,所述的将待爬取的关于图书的网页作为种子链接是在种子链接的页面上必须包括各种图书信息的起始链接,页面上的链接能够直接链接需要爬取的网页。
所述的利用基于分类预测的主题爬虫系统进行爬取信息,是使用Python编程语言实现基于分类预测的网络爬虫系统DouCrawler,爬取网站上关于图书信息的网页。
2)对主题爬虫爬取到的图书网页信息进行结构化抽取,把非结构化的数据转化为结构化数据;
3)扩充LibMMSeg分词库,对结构化的数据进行中文分词,并将结构化的数据存入数据库进行索引,通过主题爬虫系统从互动出版社网站爬取出版社和作者信息,结合搜狗细胞词库,按照LibMMSeg的词库格式添加到词典文件中;
4)对用户输入的关键字通过索引在数据库中查询,对查询到的数据按照制定的排序算法进行排序后,返回给用户查看。包括:
(1)利用Coreseek全文搜索引擎工具对图书信息进行检索,针对Coreseek自身的基础排序算法不适合短文本搜索排序的弱点,基于TF-IDF(Term Freqency-Inverse Document Frequency)算法对图书名称的权重增大,并改进原有排序算法,具体是把Coreseek基础的排序算法与TF-IDF算法结合,并且考虑到关键字在文档的前面位置出现还是后面位置出现的因素,加入评分因子hit_loc和hit_else,形成CORE_RANK算法。这里使用TF-IDF算法的原因是要把图书名称的权重增大,CORE_RANK算法如下公式所示:
CORE_RANK=∑((α×tf_idf+β×(hit_loc==1)+hit_else)×user_weight)×1000+BM25
其中,tf_idf为使用TF-IDF计算出的查询与文件之间的相似度值,hit_loc为关键字第一次匹配的位置,hit_else为关键字在其他位置是否还有匹配,BM25为统计评分算法,user-weight为每个域中用户定义的权重,α为tf_idf的权重,β为关键字在文档中第一个位置命中的权重,经过实验测试,取为2,为4时,可以得到很好的效果。
(2)对用户输入的关键字通过索引在数据库中查询,对查询到的数据按照改进的排序算法进行排序,返回给用户查看。
本发明的基于Coreseek的垂直搜索引擎研究与优化的方法,在研究垂直搜索引擎的关键技术的基础上,优化了分词算法和CORE_RANK排序算法,优化后的CORE_RANK排序算法更适应于短文本的图书搜索,并实现了一个面向图书信息的垂直搜索系统,并能提供图书搜索服务。
下面通过搭建面向图书信息的搜索引擎,对比Coreseek的基本排序算法和改进的排序算法CORE_RANK在返回结果的评分和内容上不同,判断本发明方法的效果和实用性。
本发明在实施过程中选取搜索关键词为“女孩”,图2为SPH_RANK_PROXIMITY_BM25算法的实验结果,如图2所示,当搜索关键字“女孩”时,检索结果的评分为1637分,且所有的评分都是一样,没有按图书名称的字数排列,对用户来说搜索没有差别性。
SPH_RANK_FIELDMASK算法检索“女孩”的结果如图3所示。
SPH_RANK_FIELDMASK排序算法认定图书内容权重大于图书名称的权重,返回结果没有特征性。即,SPH_RANK_FIELDMASK排序方式的结果评分都为2,算法规定如果在内容匹配,则评分为2,所以算法认定图书内容权重大于图书名称的权重,返回结果没有特征性。
改进后的排序算法CORE_RANK算法搜索“女孩”的检索结果如图4所示。
CORE_RANK算法为本发明中在以上几个算法的基础上做出的改进算法,检索结果显示,《女孩》这本书的评分最高,为6243分,因为搜索关键字和图书名称完全匹配,所以在返回结果的第一位并且分数最高,显示的其他书籍分数一样,为1243分,以最快的速度找到需要的结果。
本发明针对Coreseek的基本排序算法对短文本搜索不敏感的缺点,结合图书信息搜索用词的相关特点对其进行改进。通过多个对比实验说明改进后的排序算法能更好的返回用户的搜索结果,更加能满足用户使用搜索引擎寻找图书信息的需求。
Claims (5)
1.一种基于Coreseek的垂直搜索引擎研究与优化的方法,其特征在于,包括如下步骤:
1)通过对图书领域的网站进行分析,将待爬取的关于图书的网页作为种子链接,然后利用基于分类预测的主题爬虫系统进行爬取信息;
2)对主题爬虫爬取到的图书网页信息进行结构化抽取,把非结构化的数据转化为结构化数据;
3)扩充LibMMSeg分词库,对结构化的数据进行中文分词,并将结构化的数据存入数据库,并使用Coreseek建立索引,通过主题爬虫系统从互动出版社网站爬取出版社和作者信息,结合搜狗细胞词库,按照LibMMSeg的词库格式添加到词典文件中;
4)对用户输入的关键字通过索引在数据库中查询,对查询到的数据按照制定的排序算法进行排序后,返回给用户查看。
2.根据权利要求1所述的基于Coreseek的垂直搜索引擎研究与优化的方法,其特征在于,步骤1)所述的对图书领域的网站进行分析,是分析待爬取的网页的网址的结构。
3.根据权利要求1所述的基于Coreseek的垂直搜索引擎研究与优化的方法,其特征在于,步骤1)所述的将待爬取的关于图书的网页作为种子链接是在种子链接的页面上必须包括各种图书信息的起始链接,页面上的链接能够直接链接需要爬取的网页。
4.根据权利要求1所述的基于Coreseek的垂直搜索引擎研究与优化的方法,其特征在于,步骤1)所述的利用基于分类预测的主题爬虫系统进行爬取信息,是使用Python编程语言实现基于分类预测的网络爬虫系统DouCrawler,爬取网站上关于图书信息的网页。
5.根据权利要求1所述的基于Coreseek的垂直搜索引擎研究与优化的方法,其特征在于,步骤4)包括:
(1)利用Coreseek全文搜索引擎工具对图书信息进行检索,Coreseek基础的排序算法与TF-IDF算法结合,并且考虑到关键字在文档的前面位置出现还是后面位置出现的因素,加入评分因子hit_loc和hit_else,形成CORE_RANK算法如下:
CORE_RANK=∑((α×tf_idf+β×(hit_loc==1)+hit_else)×user_weight)×1000+BM25
其中,tf_idf为使用TF-IDF计算出的查询与文件之间的相似度值,hit_loc为关键字第一次匹配的位置,hit_else为关键字在其他位置是否还有匹配,BM25为统计评分算法,user_weight为每个域中用户定义的权重,α为tf_idf的权重,β为关键字在文档中第一个位置命中的权重;
(2)对用户输入的关键字通过索引在数据库中查询,对查询到的数据按照改进的排序算法进行排序,返回给用户查看。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN201610222675.XA CN105912662A (zh) | 2016-04-11 | 2016-04-11 | 基于Coreseek的垂直搜索引擎研究与优化的方法 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN201610222675.XA CN105912662A (zh) | 2016-04-11 | 2016-04-11 | 基于Coreseek的垂直搜索引擎研究与优化的方法 |
Publications (1)
Publication Number | Publication Date |
---|---|
CN105912662A true CN105912662A (zh) | 2016-08-31 |
Family
ID=56745035
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN201610222675.XA Pending CN105912662A (zh) | 2016-04-11 | 2016-04-11 | 基于Coreseek的垂直搜索引擎研究与优化的方法 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN105912662A (zh) |
Cited By (9)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN107870941A (zh) * | 2016-09-27 | 2018-04-03 | 北京搜狗科技发展有限公司 | 一种网页排序方法、装置及设备 |
CN108846134A (zh) * | 2018-07-05 | 2018-11-20 | 连云港杰瑞电子有限公司 | 一种基于网络爬虫的运维方案推荐系统及方法 |
CN108920576A (zh) * | 2018-06-25 | 2018-11-30 | 中科点击(北京)科技有限公司 | 一种自适应文本检索方法 |
CN110134858A (zh) * | 2019-03-26 | 2019-08-16 | 国网重庆市电力公司 | 非结构化数据的转化方法、系统、存储介质及电子设备 |
CN110222181A (zh) * | 2019-06-06 | 2019-09-10 | 福州大学 | 一种基于Python的影评情感分析方法 |
KR102047012B1 (ko) * | 2019-07-31 | 2019-11-20 | 심경 | 정보 제공 시스템 |
CN111177514A (zh) * | 2019-12-31 | 2020-05-19 | 沈阳航空航天大学 | 基于网站特征分析的信源评价方法、装置及存储设备、程序 |
CN114911917A (zh) * | 2022-07-13 | 2022-08-16 | 树根互联股份有限公司 | 资产元信息搜索方法、装置、计算机设备及可读存储介质 |
CN116595142A (zh) * | 2023-05-19 | 2023-08-15 | 大安健康科技(北京)有限公司 | 基于医疗语义分析的检索匹配方法及系统 |
Citations (5)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN102968465A (zh) * | 2012-11-09 | 2013-03-13 | 同济大学 | 网络信息服务平台及其基于该平台的搜索服务方法 |
WO2013103588A1 (en) * | 2012-01-06 | 2013-07-11 | Microsoft Corporation | Search ranking features |
CN103838732A (zh) * | 2012-11-21 | 2014-06-04 | 大连灵动科技发展有限公司 | 一种生活服务领域垂直搜索引擎 |
CN104361081A (zh) * | 2014-11-13 | 2015-02-18 | 河海大学 | 一种基于web文档的自动摘要方法 |
CN104765848A (zh) * | 2015-04-17 | 2015-07-08 | 中国人民解放军空军航空大学 | 混合云存储中支持结果高效排序的对称可搜索加密方法 |
-
2016
- 2016-04-11 CN CN201610222675.XA patent/CN105912662A/zh active Pending
Patent Citations (5)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
WO2013103588A1 (en) * | 2012-01-06 | 2013-07-11 | Microsoft Corporation | Search ranking features |
CN102968465A (zh) * | 2012-11-09 | 2013-03-13 | 同济大学 | 网络信息服务平台及其基于该平台的搜索服务方法 |
CN103838732A (zh) * | 2012-11-21 | 2014-06-04 | 大连灵动科技发展有限公司 | 一种生活服务领域垂直搜索引擎 |
CN104361081A (zh) * | 2014-11-13 | 2015-02-18 | 河海大学 | 一种基于web文档的自动摘要方法 |
CN104765848A (zh) * | 2015-04-17 | 2015-07-08 | 中国人民解放军空军航空大学 | 混合云存储中支持结果高效排序的对称可搜索加密方法 |
Non-Patent Citations (2)
Title |
---|
姜月: ""基于Coreseek的垂直搜索引擎研究与优化"", 《中国优秀硕士学位论文全文数据库 信息科技辑》 * |
樊峻: ""基于CORESEEK的中文信息搜索系统的研究与应用"", 《中国优秀硕士学位论文全文数据库 信息科技辑》 * |
Cited By (11)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN107870941A (zh) * | 2016-09-27 | 2018-04-03 | 北京搜狗科技发展有限公司 | 一种网页排序方法、装置及设备 |
CN107870941B (zh) * | 2016-09-27 | 2021-11-02 | 北京搜狗科技发展有限公司 | 一种网页排序方法、装置及设备 |
CN108920576A (zh) * | 2018-06-25 | 2018-11-30 | 中科点击(北京)科技有限公司 | 一种自适应文本检索方法 |
CN108846134A (zh) * | 2018-07-05 | 2018-11-20 | 连云港杰瑞电子有限公司 | 一种基于网络爬虫的运维方案推荐系统及方法 |
CN110134858A (zh) * | 2019-03-26 | 2019-08-16 | 国网重庆市电力公司 | 非结构化数据的转化方法、系统、存储介质及电子设备 |
CN110222181A (zh) * | 2019-06-06 | 2019-09-10 | 福州大学 | 一种基于Python的影评情感分析方法 |
KR102047012B1 (ko) * | 2019-07-31 | 2019-11-20 | 심경 | 정보 제공 시스템 |
CN111177514A (zh) * | 2019-12-31 | 2020-05-19 | 沈阳航空航天大学 | 基于网站特征分析的信源评价方法、装置及存储设备、程序 |
CN111177514B (zh) * | 2019-12-31 | 2023-06-09 | 沈阳航空航天大学 | 基于网站特征分析的信源评价方法、装置及存储设备、程序 |
CN114911917A (zh) * | 2022-07-13 | 2022-08-16 | 树根互联股份有限公司 | 资产元信息搜索方法、装置、计算机设备及可读存储介质 |
CN116595142A (zh) * | 2023-05-19 | 2023-08-15 | 大安健康科技(北京)有限公司 | 基于医疗语义分析的检索匹配方法及系统 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
Manjari et al. | Extractive Text Summarization from Web pages using Selenium and TF-IDF algorithm | |
CN103136352B (zh) | 基于双层语义分析的全文检索系统 | |
CN103838833B (zh) | 基于相关词语语义分析的全文检索系统 | |
CN103678576B (zh) | 基于动态语义分析的全文检索系统 | |
CN105912662A (zh) | 基于Coreseek的垂直搜索引擎研究与优化的方法 | |
US9069857B2 (en) | Per-document index for semantic searching | |
CN102693304B (zh) | 一种搜索引擎的反馈信息处理方法及搜索引擎 | |
CN104199833B (zh) | 一种网络搜索词的聚类方法和聚类装置 | |
US20110161309A1 (en) | Method Of Sorting The Result Set Of A Search Engine | |
US20090254540A1 (en) | Method and apparatus for automated tag generation for digital content | |
CN100394427C (zh) | 网络搜寻系统及方法 | |
US20080010268A1 (en) | Document ranking with sub-query series | |
WO2006108069A2 (en) | Searching through content which is accessible through web-based forms | |
WO2008097856A2 (en) | Search result delivery engine | |
CN102768679B (zh) | 一种搜索方法及搜索系统 | |
CN105808615A (zh) | 一种基于分词权重的文档索引生成方法和装置 | |
CN105279231A (zh) | 一种音乐资源聚合搜索的方法 | |
Musto et al. | STaR: a social tag recommender system | |
Yamamoto et al. | Rerank-by-example: Efficient browsing of web search results | |
JP5315726B2 (ja) | 情報提供方法、情報提供装置、および情報提供プログラム | |
Li et al. | Complex query recognition based on dynamic learning mechanism | |
Zheng et al. | An improved focused crawler based on text keyword extraction | |
Abdou et al. | Unsupervised automatic keywords and keyphrases extractor for web documents | |
Praba et al. | Evaluation of Web Searching Method Using a Novel WPRR Algorithm for Two Different Case Studies | |
AU2021100441A4 (en) | A method of text mining in ranking of web pages using machine learning |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
C06 | Publication | ||
PB01 | Publication | ||
C10 | Entry into substantive examination | ||
SE01 | Entry into force of request for substantive examination | ||
RJ01 | Rejection of invention patent application after publication | ||
RJ01 | Rejection of invention patent application after publication |
Application publication date: 20160831 |