CN108776705B

CN108776705B - 一种文本全文精确查询的方法、装置、设备及可读介质

Info

Publication number: CN108776705B
Application number: CN201810600280.8A
Authority: CN
Inventors: 朱智佳; 吴鸿伟; 王海滨; 张永光
Original assignee: Xiamen Meiya Pico Information Co Ltd
Current assignee: Xiamen Meiya Pico Information Co Ltd
Priority date: 2018-06-12
Filing date: 2018-06-12
Publication date: 2020-11-17
Anticipated expiration: 2038-06-12
Also published as: CN108776705A

Abstract

本发明提供了一种文本精确查询的方法、装置、设备及可读介质，该方法包括：获取步骤，获取需要进行精确查询的文本；查询词生成步骤，对所述文本进行分词操作获得n个分词，再将n分词中相邻的分词进行组合得到n‑1个组合分词，将所述n个分词和n‑1个组合分词作为查询词；查询步骤，使用所述查询词在倒排索引表中进行查询，并返回查询命中的文档；其中，n为大于1的整数。本发明创造性的提出了将分词后的相邻的词语组合成一个新的词，即连续的两个词当做一个词存到倒排索引表中，检索时不需要判断位置，大大提高了检索效率，由于不用存储位置信息，大大减少了索引表所占的存储空间，节约了存储资源。

Description

一种文本全文精确查询的方法、装置、设备及可读介质

技术领域

本发明涉及检索技术领域，特别是一种文本精确查询的方法、装置、设备及可读介质。

背景技术

目前，现有技术中，一般文本全文检索引擎，是通过倒排索引的形式来实现的。倒排索引是指用来存储某一个词在一个或者多个文档中的映射关系。一篇文档建立全文检索，首先对文章进行分词，然后把每个词所在当前的文档号和文档位置累加到倒排索引中。这样查询一条语句，就可以把语句进行分词，然后通过倒排索引快速的找到各个分词所在的文档号，从而聚合找到语句所在的文档。

精确查询是指查询的一条语句完整的出现在一篇文档中，按上面倒排索引查询到词所在的文档中还不够，还要读取每个词所在的文档中的位置，判断前后两个分词所在的同个文档中的位置也应该连续，这样才能符合要求。

现有技术中，为了实现精确查询，建立索引时，除了存储分词的倒排索引，还要存储每个分词在文档中的所有位置，这样有两方面技术缺陷。

1、要比较连续词出现的位置是否也连续，增加了计算性能。

2、要存储分词所在的所有位置，对于大部分文档，分词所有位置的存储空间远大分词所在文档号的空间，浪费很大存储空间。

发明内容

本发明针对上述现有技术中的缺陷，提出了如下技术方案。

一种文本精确查询的方法，该方法包括：

获取步骤，获取需要进行精确查询的文本；

查询词生成步骤，对所述文本进行分词操作获得n个分词，再将n分词中相邻的分词进行组合得到 n-1个组合分词，将所述n个分词和n-1个组合分词作为查询词；

查询步骤，使用所述查询词在倒排索引表中进行查询，并返回查询命中的文档；其中，n为大于1 的整数。

更进一步地，所述方法还包括：

倒排索引表生成步骤，对待查询的文档进行分词操作获得m个分词，再将m分词中相邻的分词进行组合得到m-1个组合分词，使用m个分词和m-1个组合分词构建倒排序索引表；

其中，倒排索引表生成步骤在所述获取步骤之前，m为大于1的整数。

更进一步地，所述查询命中的文档是指同时命中了n-1个组合分词的文档。

更进一步地，所述文档包括word、txt、web和pdf格式的文档至少之一。

更进一步地，所述查询步骤的操作为：首先使用n个分词进行查询获取第一查询结果集，再使用所述n-1个组合分词在所述第一查询结果集中进行查询获取第二查询结果集，将需要精确查询的文本与第二查询结果集中的文档进行匹配，筛选出匹配率大于或等于第一阈值的文档作为查询命中的文档返回。

更进一步地，所述第一阈值为100％。

本发明还提出了一种文本精确查询的装置，该装置包括：

获取单元，获取需要进行精确查询的文本；

查询词生成单元，对所述文本进行分词操作获得n个分词，再将n分词中相邻的分词进行组合得到 n-1个组合分词，将所述n个分词和n-1个组合分词作为查询词；

查询单元，使用所述查询词在倒排索引表中进行查询，并返回查询命中的文档；其中，n为大于1 的整数。

更进一步地，所述装置还包括：

倒排索引表生成单元，对待查询的文档进行分词操作获得m个分词，再将m分词中相邻的分词进行组合得到m-1个组合分词，使用m个分词和m-1个组合分词构建倒排序索引表；

其中，倒排索引表生成单元的操作在所述获取单元的操作之前进行，m为大于1的整数。

更进一步地，所述查询单元的操作为：首先使用n个分词进行查询获取第一查询结果集，再使用所述n-1个组合分词在所述第一查询结果集中进行查询获取第二查询结果集，将需要精确查询的文本与第二查询结果集中的文档进行匹配，筛选出匹配率大于或等于第一阈值的文档作为查询命中的文档返回。

更进一步地，所述第一阈值为100％。

本发明还提出了一种文本精确查询的设备，所述设备包括处理器、存储器，所述处理器与所述存储器通过总线相连接，所述存储器中存储机器可读代码，所述处理器执行存储器中的机器可读代码以执行上述之任一所述的方法。

本发明还提出了一种计算机可读存储介质，所述存储介质上存储有计算机程序代码，当所述计算机程序代码被计算机执行时以执行上述之任一所述的方法。

本发明的技术效果为：本发明创造性的提出了将分词后的相邻的词语组合成一个新的词，即连续的两个词当做一个词存到倒排索引表中，检索时不需要判断位置，大大提高了检索效率，由于不用存储位置信息，大大减少了索引表所占的存储空间，节约了存储资源。

附图说明

图1是根据本发明的实施例的一种文本精确查询的方法的流程图。

图2是根据本发明的实施例的一种文本精确查询的装置的结构图。

图3是根据本发明的实施例的一种文本精确查询的设备的结构图。

具体实施方式

下面结合附图1-3进行具体说明。

图1示出了本发明的一种文本精确查询的方法，该方法包括：

获取步骤S1，获取需要进行精确查询的文本。

查询词生成步骤S2，对所述文本进行分词操作获得n个分词，再将n分词中相邻的分词进行组合得到n-1个组合分词，将所述n个分词和n-1个组合分词作为查询词。

查询步骤S3，使用所述查询词在倒排索引表中进行查询，并返回查询命中的文档；其中，n为大于1 的整数。

获取步骤S1中，获取需要精确查询的文本可以是键盘输入的文本，也可以是语音输入经识别后的文本，当然也可以是从某个文档中复制过来的文本等等。

如图1所示，本发明的方法还包括：倒排索引表生成步骤S0，对待查询的文档进行分词操作获得m 个分词，再将m分词中相邻的分词进行组合得到m-1个组合分词，使用m个分词和m-1个组合分词构建倒排序索引表；其中，倒排索引表生成步骤在所述获取步骤之前，m为大于1的整数。

倒排索引表生成步骤S0及查询词生成步骤S2分词方法的一个具体的实施方式为：例如“你好，我们都是中国人”，分成4个词，“你好我们都是中国人”，连续两分词组成新分词：“你好我们我们都是都是中国人”得到3个组合分词，使用上述7个词建立倒排索引表。

倒排索引表生成步骤S0及查询词生成步骤S2所使用的上述构建倒排索引表的方法是将分词后的相邻的词语组合成一个新的词，即连续的两个词当做一个词存到倒排索引表中，检索时不需要判断位置，大大提高了检索效率，由于不用存储位置信息，大大减少了索引表所占的存储空间，节约了存储资源，这是本发明的重要发明点之一。

本发明是为了进行精确检索，因此查询时需要同时命中了n-1个组合分词的文档。所查询文档的类型包括word、txt、web和pdf格式的文档至少之一，这些文档可以是存储在数据库。

所述查询步骤S3的操作为：首先使用n个分词进行查询获取第一查询结果集，再使用所述n-1个组合分词在所述第一查询结果集中进行查询获取第二查询结果集，将需要精确查询的文本与第二查询结果集中的文档进行匹配，筛选出匹配率大于或等于第一阈值(如，第一阈值为100％)的文档作为查询命中的文档返回。通过该操作，逐步缩写查询范围，最后进行精确匹配，获得完全命中文本的文档，这是本发明的另一重要发明点。

图2示出了本发明的一种文本精确查询的装置，该装置包括：

获取单元21，获取需要进行精确查询的文本。

查询词生成单元22，对所述文本进行分词操作获得n个分词，再将n分词中相邻的分词进行组合得到n-1个组合分词，将所述n个分词和n-1个组合分词作为查询词。

查询单元23，使用所述查询词在倒排索引表中进行查询，并返回查询命中的文档；其中，n为大于1 的整数。

获取单元21中，获取需要精确查询的文本可以是键盘输入的文本，也可以是语音输入经识别后的文本，当然也可以是从某个文档中复制过来的文本等等。

如图2所示，所述装置还包括：倒排索引表生成单元20，对待查询的文档进行分词操作获得m个分词，再将m分词中相邻的分词进行组合得到m-1个组合分词，使用m个分词和m-1个组合分词构建倒排序索引表；其中，倒排索引表生成单元20的操作在所述获取单元21的操作之前进行，m为大于1的整数。

倒排索引表生成单元20及查询词生成单元22所使用的分词方法的一个具体的实施方式为：例如“你好，我们都是中国人”，分成4个词，“你好我们都是中国人”，连续两分词组成新分词：“你好我们我们都是都是中国人”得到3个组合分词，使用上述7个词建立倒排索引表。

倒排索引表生成单元20及查询词生成单元22所执行的上述构建倒排索引表的方法是将分词后的相邻的词语组合成一个新的词，即连续的两个词当做一个词存到倒排索引表中，检索时不需要判断位置，大大提高了检索效率，由于不用存储位置信息，大大减少了索引表所占的存储空间，节约了存储资源，这是本发明的重要发明点之一。

所述查询单元23的操作为：首先使用n个分词进行查询获取第一查询结果集，再使用所述n-1个组合分词在所述第一查询结果集中进行查询获取第二查询结果集，将需要精确查询的文本与第二查询结果集中的文档进行匹配，筛选出匹配率大于或等于第一阈值(如，第一阈值为100％)的文档作为查询命中的文档返回。通过该操作，逐步缩写查询范围，最后进行精确匹配，获得完全命中文本的文档，这是本发明的另一重要发明点。

图3示出了本发明的一种文本精确查询的设备，包括：存储器a和处理器b，所述存储器a中存储计算机程序，所述计算机程序被所述处理器b执行时，所述处理器b执行存储器a中的机器可读代码以执行上述之一的方法。

本发明还提出了一种计算机可读存储介质，所述存储介质上存储有计算机程序代码，当所述计算机程序代码被计算机执行时可执行上述之一的方法。

为了描述的方便，描述以上装置时以功能分为各种单元分别描述。当然，在实施本申请时可以把各单元的功能在同一个或多个软件和/或硬件中实现，本发明中所称的客户、客户端指代相同的内容，本发明中的服务端、服务器、服务器端指代相同的内容。

通过以上的实施方式的描述可知，本领域的技术人员可以清楚地了解到本申请可借助软件加必需的通用硬件平台的方式来实现。基于这样的理解，本申请的技术方案本质上或者说对现有技术做出贡献的部分可以以软件产品的形式体现出来，该计算机软件产品可以存储在存储介质中，如ROM/RAM、磁碟、光盘等，包括若干指令用以使得一台计算机设备(可以是个人计算机，服务器，或者网络设备等)执行本申请各个实施例或者实施例的某些部分所述的方法。

最后所应说明的是：以上实施例仅以说明而非限制本发明的技术方案，尽管参照上述实施例对本发明进行了详细说明，本领域的普通技术人员应当理解：依然可以对本发明进行修改或者等同替换，而不脱离本发明的精神和范围的任何修改或局部替换，其均应涵盖在本发明的权利要求范围当中。

Claims

1.一种文本精确查询的方法，其特征在于，该方法包括：

获取步骤，获取需要进行精确查询的文本；

查询词生成步骤，对所述文本进行分词操作获得n个分词，再将n分词中相邻的分词进行组合得到n-1个组合分词，将所述n个分词和n-1个组合分词作为查询词；

查询步骤，使用所述查询词在倒排索引表中进行查询，并返回查询命中的文档，其中，n为大于1的整数；

倒排索引表生成步骤，对待查询的文档进行分词操作获得m个分词，再将m分词中相邻的分词进行组合得到m-1个组合分词，使用m个分词和m-1个组合分词构建倒排序索引表，即连续的两个词当做一个词存到倒排索引表中，检索时不需要判断位置，由于不用存储位置信息，节约了存储资源；

其中，倒排索引表生成步骤在所述获取步骤之前，m为大于1的整数；

所述查询步骤的操作为：首先使用n个分词进行查询获取第一查询结果集，再使用所述n-1个组合分词在所述第一查询结果集中进行查询获取第二查询结果集，将需要精确查询的文本与第二查询结果集中的文档进行匹配，筛选出匹配率大于或等于第一阈值的文档作为查询命中的文档返回。

2.根据权利要求1所述的方法，其特征在于，所述查询命中的文档是指同时命中了n-1个组合分词的文档。

3.根据权利要求2所述的方法，其特征在于，所述文档包括word、txt、web和pdf格式的文档至少之一。

4.根据权利要求3所述的方法，其特征在于，所述第一阈值为100％。

5.一种文本精确查询的装置，其特征在于，该装置包括：

获取单元，获取需要进行精确查询的文本；

查询词生成单元，对所述文本进行分词操作获得n个分词，再将n分词中相邻的分词进行组合得到n-1个组合分词，将所述n个分词和n-1个组合分词作为查询词；

查询单元，使用所述查询词在倒排索引表中进行查询，并返回查询命中的文档，其中，n为大于1的整数；

倒排索引表生成单元，对待查询的文档进行分词操作获得m个分词，再将m分词中相邻的分词进行组合得到m-1个组合分词，使用m个分词和m-1个组合分词构建倒排序索引表，即连续的两个词当做一个词存到倒排索引表中，检索时不需要判断位置，由于不用存储位置信息，节约了存储资源；

其中，倒排索引表生成单元的操作在所述获取单元的操作之前进行，m为大于1的整数；

所述查询单元的操作为：首先使用n个分词进行查询获取第一查询结果集，再使用所述n-1个组合分词在所述第一查询结果集中进行查询获取第二查询结果集，将需要精确查询的文本与第二查询结果集中的文档进行匹配，筛选出匹配率大于或等于第一阈值的文档作为查询命中的文档返回。

6.根据权利要求5所述的装置，其特征在于，所述查询命中的文档是指同时命中了n-1个组合分词的文档。

7.根据权利要求6所述的装置，其特征在于，所述文档包括word、txt、web和pdf格式的文档至少之一。

8.根据权利要求7所述的装置，其特征在于，所述第一阈值为100％。

9.一种文本精确查询的设备，其特征在于，所述设备包括处理器、存储器，所述处理器与所述存储器通过总线相连接，所述存储器中存储机器可读代码，所述处理器执行存储器中的机器可读代码以执行权利要求1-4之任一项所述的方法。

10.一种计算机可读存储介质，其特征在于，所述存储介质上存储有计算机程序代码，当所述计算机程序代码被计算机执行时以执行权利要求1-4之任一所述的方法。