CN112163065A

CN112163065A - 信息检索方法、系统及介质

Info

Publication number: CN112163065A
Application number: CN202010927319.4A
Authority: CN
Inventors: 鲁小玲
Original assignee: Xiaogan Tianchuang Information Technology Co ltd
Current assignee: Xiaogan Tianchuang Information Technology Co ltd
Priority date: 2020-09-07
Filing date: 2020-09-07
Publication date: 2021-01-01

Abstract

本发明公开了一种信息检索方法、系统及介质，通过提供多个查询关键词，得到伪相关文档集；根据权重检索模型和概念网的语义查询对所述伪相关文档集进行处理，得到多个目标扩展候选词；对所述多个目标扩展候选词进行检索，得到最终检索结果。本发明公开的信息检索方法、系统及介质使得用户查询的效率和效果大幅度提高。

Description

信息检索方法、系统及介质

技术领域

本发明涉及信息检索技术领域，特别涉及一种信息检索方法、系统及介质。

背景技术

在互联网技术飞速发展的年代，网络信息呈现爆炸式增长态势，借助搜索引擎浏览和获取所需信息已成为人们日常生活的重要组成部分。然而，网络资源数量庞大、种类繁多，在给人们带来便利的同时也使得用户难以高效准确的获取真正需要的信息，为了更加有效地处理日益增长的海量数据，信息检索方法作为经典文本处理技术，已经成为信息处理技术的研究关键点。

伪相关反馈(Pseudo Relevance Feedback，简称PRF)提供一种自动局部分析方法，它可以自动化相关反馈的人工操作部分，用户不需要参加额外的交互就能够获得更佳的检索性能。该方法首先进行普通的检索过程，返回与用户初始查询最相关的文档并将其作为一个初始结果集，然后在此基础上假设排名前篇的文档是相关的，最后在这个假设上像前面一样进行相关反馈。BERT模型是一种预训练语言表示的新方法，提出了一种在大量上下文相关的语言的预训练模型中，BERT通过根据前后单词的意思创建上下文检索表达语义，开源了多种语言的源码和模型。

然而通过单一的模型得到的信息量过于庞大，得到的扩展词的精确度也不够，因此，如果直接使用BERT对所有文档进行计算，则会出现信息量过大、精确度不足等问题。

发明内容

鉴于上述现有技术的不足之处，本发明的目的在于提供一种信息检索方法、系统及介质，解决现有技术中直接使用BERT对所有文档进行计算，则会出现信息量过大、精确度不足的技术问题。

为了达到上述目的，本发明采取了以下技术方案：

一种信息检索方法，包括如下步骤：S1，提供多个查询关键词，得到伪相关文档集；S2，根据权重检索模型和概念网的语义查询对所述伪相关文档集进行处理，得到多个目标扩展候选词；S3，对所述多个目标扩展候选词进行检索，得到最终检索结果。

优选的，所述S1具体包括以下步骤：S11，提供多个查询关键词，得到目标文档集；S12，将所述目标文档集运用于BM25模型，得到所述目标文档集中每一文档的BM25得分，按得分由高至低选出前篇文档，记为第一文档集；S13，将所述第一文档集运用于BERT模型，得到所述第一文档集中每一文档的BERT得分；S14，将所述目标文档集中每一文档的BM25得分与所述第一文档集中每一文档的BERT得分进行线性融合，得到第二文档集及其每一文档的得分；S15，对所述第二文档集按得分由高至低选出前篇文档，作为伪相关文档集。

优选的，所述S2具体包括以下步骤：S21，将所述伪相关文档集中全部的词作为扩展候选词，计算每一扩展候选词本身在所述伪相关文档集中的重要度得分，并按得分由高至低选取前个扩展候选词作为第一扩展候选词集；S22，将从所述伪相关文档集中选取的第篇文档中的扩展候选词运用于概念网中，得到其在概念网中的语义向量，并将查询关键词运用于概念网中，得到查询关键词在概念网中的语义向量，计算两语义向量间的语义距离；S23，计算每一扩展候选词与全部的查询关键词的语义距离，并按语义距离由小到大选取前个扩展候选词作为第二扩展候选词集；S24，将所述第一扩展候选词集与所述第二扩展候选词集进行融合，得到多个目标扩展候选词。

优选的，所述S21中，所述扩展候选词本身在伪相关文档集中的重要度得分计算公式为：

其中，

表示重要度得分，

表示伪相关文档集的向量，

表示伪相关文档集D₁中的第i篇文档d_i中的词

的向量，N表示伪相关文档集合D₁中文档的个数。

优选的，所述S22中，所述语义距离的计算公式为：

其中，

表示语义距离，

表示伪相关文档集中选取第i篇文档中的扩展候选词

在概念网中的语义向量，

表示查询关键词在概念网中的语义向量,N表示伪相关文档集合D₁中文档的个数，Q_s表示查询关键词Q中第s个词，

表示

和

通过余弦相似度进行语义计算。

优选的，所述S23中，扩展候选词与全部的查询关键词的语义距离的计算公式为：

其中，|Q|表示查询关键词的总个数，

表示扩展候选词，Q_s表示查询关键词Q中第s个词，

表示候选扩展词

与所有查询关键词Q的语义距离。

本发明为解决上述技术问题，提供又一技术方案如下：一种基于信息检索系统，所述信息检索系统包括处理器和存储器；所述存储器上存储有可被所述处理器执行的计算机可读程序；所述处理器执行所述计算机可读程序时实现如上述任意一项所述的信息检索方法中的步骤。

本发明为解决上述技术问题，提供又一技术方案如下：一种计算机可读存储介质，所述计算机可读存储介质存储有一个或者多个程序，所述一个多个程序可被一个或者多个处理器执行，以实现如上所述的信息检索方法中的步骤。

与现有技术相比，本发明所提供的信息检索方法、系统及介质通过提供多个查询关键词，得到伪相关文档集；根据权重检索模型和概念网的语义查询对所述伪相关文档集进行处理，得到多个目标扩展候选词；对所述多个目标扩展候选词进行检索，得到最终检索结果。本发明将权重检索模型和概念网的语义查询融入到查询扩展中，使得文档得分和查询扩展词都携带语义特征，和初始查询相比具有更高的语义相关性，能够克服多语义环境下语义混乱的不足，在实际需要中能提取出与查询更相关更有效的信息，提高了检索的精度，节省了检索时间。

附图说明

图1为本发明提供的信息检索方法的一较佳实施例的流程图；

图2为图1中所示S1的步骤流程示意图；

图3为图1中所示S2的步骤流程示意图。

具体实施方式

以下结合附图对本发明的具体实施方式进行详细说明。应当理解的是，此处所描述的具体实施方式仅用于说明和解释本发明，并不用于限制本发明。

在本申请的描述中，术语“第一”、“第二”仅用于描述目的，而不能理解为指示相对重要性，或者隐含指明所指示的技术特征的数量。由此，除非另有说明，限定有“第一”、“第二”的特征可以明示或者隐含地包括一个或者更多个该特征；“多个”的含义是两个或两个以上。术语“包括”及其任何变形，意为不排他的包含，可能存在或添加一个或更多其他特征、整数、步骤、操作、单元、组件和/或其组合。

另外，“中心”、“横向”、“上”、“下”、“左”、“右”、“竖直”、“水平”、“顶”、“底”、“内”、“外”等指示的方位或位置关系的术语，是基于附图所示的方位或相对位置关系描述的，仅是为了便于描述本申请的简化描述，而不是指示所指的装置或元件必须具有特定的方位、以特定的方位构造和操作，因此不能理解为对本申请的限制。

此外，除非另有明确的规定和限定，术语“安装”、“相连”、“连接”应做广义理解，例如可以是固定连接，也可以是可拆卸连接，或一体地连接；可以是机械连接，也可以是电连接；可以是直接相连，也可以通过中间媒介间接相连，或是两个元件内部的连通。对于本领域的普通技术人员而言，可以根据具体情况理解上述术语在本申请中的具体含义。

实施例1

请参阅图1，图1为本发明提供的检索方法的一较佳实施例的流程图。本发明提供的信息检索方法的流程图S10，包括如下步骤：

S1，提供多个查询关键词，得到伪相关文档集；

S2，根据权重检索模型和概念网的语义查询对所述伪相关文档集进行处理，得到多个目标扩展候选词；

S3，对所述多个目标扩展候选词进行检索，得到最终检索结果。

本发明所提供的信息检索方法通过提供多个查询关键词，得到伪相关文档集；根据权重检索模型和概念网的语义查询对所述伪相关文档集进行处理，得到多个目标扩展候选词；对所述多个目标扩展候选词进行检索，得到最终检索结果。本发明将权重检索模型和概念网的语义查询融入到查询扩展中，使得文档得分和查询扩展词都携带语义特征，和初始查询相比具有更高的语义相关性，能够克服多语义环境下语义混乱的不足，在实际需要中能提取出与查询更相关更有效的信息，提高了检索的精度，节省了检索时间。

具体地，如图2所示，所述S1具体包括以下步骤：

S11，提供多个查询关键词，得到目标文档集；

S12，将所述目标文档集运用于BM25模型，得到所述目标文档集中每一文档的BM25得分，按得分由高至低选出前篇文档，记为第一文档集；

S13，将所述第一文档集运用于BERT模型，得到所述第一文档集中每一文档的BERT得分；

S14，将所述目标文档集中每一文档的BM25得分与所述第一文档集中每一文档的BERT得分进行线性融合，得到第二文档集及其每一文档的得分；

S15，对所述第二文档集按得分由高至低选出前N`篇文档，作为伪相关文档集。

当用户根据相关查询主题进行检索时，信息检索系统会根据目标文档集合建立查询索引，当用户提交相关查询主题时，系统会将查询主题进行预处理为查询关键词，通过查询关键词能检索得到目标文档集。随后检索系统会通过经典检索模型BM25模型来对目标文档集进行集合筛选，计算得到目标文档集中的每一个文档的BM25得分，按得分结果从高到低排列得到第一次查询结果，取出得分高的前篇文档，记为第一文档集，接着使用BERT模型对第一文档集中的每一文档再次进行评估，基于BERT语义相似度对第一文档集中的文档中的每个句子与原始查询进行打分，得到第二文档集及其每一文档的得分，对所述第二文档集按得分由高至低选出前篇文档，作为伪相关文档集。对于及的选取，本领域技术人员可预设取值，适宜即可。

如图3所示，所述S2具体包括以下步骤：

S21，将所述伪相关文档集中全部的词作为扩展候选词，计算每一扩展候选词本身在所述伪相关文档集中的重要度得分，并按得分由高至低选取前m1个扩展候选词作为第一扩展候选词集；

S22，将从所述伪相关文档集中选取的第篇文档中的扩展候选词运用于概念网中，得到其在概念网中的语义向量，并将查询关键词运用于概念网中，得到查询关键词在概念网中的语义向量，计算两语义向量间的语义距离；及

S23，计算每一扩展候选词与全部的查询关键词的语义距离，并按语义距离由小到大选取前个扩展候选词作为第二扩展候选词集；

S24，将所述第一扩展候选词集与所述第二扩展候选词集进行融合，得到多个目标扩展候选词。

通过对伪相关文档集运用权重检索模型和概念网的语义查询来挑选目标扩展候选词，相较于传统BM25模型，得到的扩展候选词精度更高，检索效果更好。

具体地，所述S21中，所述扩展候选词本身在伪相关文档集中的重要度得分计算公式为：

其中，

表示重要度得分，

表示伪相关文档集的向量，

表示伪相关文档集D₁中的第i篇文档d_i中的词

的向量，N表示伪相关文档集合D₁中文档的个数。

所述S22中，所述语义距离的计算公式为：

其中，

表示语义距离，

表示伪相关文档集中选取第i篇文档中的扩展候选词

在概念网中的语义向量，

表示

和

通过余弦相似度进行语义计算。

所述S23中，扩展候选词与全部的查询关键词的语义距离的计算公式为：

其中，|Q|表示查询关键词的总个数，

表示扩展候选词，Q_s表示查询关键词Q中第s个词，

表示候选扩展词

与所有查询关键词Q的语义距离。

通过检索多个目标扩展候选词，得到最终的检索结果，该检索结果依据BM25模型、BERT模型与概念网语义查询，相较于传统的BM25模型，检索精度更高，反馈效率更好。

实施例2

本发明还提供了一种信息检索系统，包括处理器以及存储器，所述存储器上存储有计算机程序，所述计算机程序被所述处理器执行时，实现实施例1提供的信息检索方法。

本实施例提供的信息检索系统，用于实现所述信息检索方法，因此，上述信息检索方法所具备的技术效果，信息检索系统同样具备，在此不再赘述。

实施例3

本发明还提供了一种计算机存储介质，其上存储有计算机程序，所述计算机程序被处理器执行时，实现实施例1的信息检索方法。

本实施例提供的计算机存储介质，用于实现上述信息检索方法，因此，上述信息检索方法所具备的技术效果，计算机存储介质同样具备，在此不再赘述。

综上所述，本发明提供的信息检索方法、系统及介质中通过提供多个查询关键词，得到伪相关文档集；根据权重检索模型和概念网的语义查询对所述伪相关文档集进行处理，得到多个目标扩展候选词；对所述多个目标扩展候选词进行检索，得到最终检索结果。本发明将权重检索模型和概念网的语义查询融入到查询扩展中，使得文档得分和查询扩展词都携带语义特征，和初始查询相比具有更高的语义相关性，能够克服多语义环境下语义混乱的不足，在实际需要中能提取出与查询更相关更有效的信息，提高了检索的精度，节省了检索时间。

以上详细描述了本发明的优选实施方式，但是，本发明并不限于此。在本发明的技术构思范围内，可以对本发明的技术方案进行多种简单变型，包括各个技术特征以任何其它的合适方式进行组合，这些简单变型和组合同样应当视为本发明所公开的内容，均属于本发明的保护范围。