WO2021077585A1

WO2021077585A1 - 一种查询自动补全的方法和装置

Info

Publication number: WO2021077585A1
Application number: PCT/CN2019/126590
Authority: WO
Inventors: 秦建斌; 王尧舒; 毛睿
Original assignee: 深圳计算科学研究院
Priority date: 2019-10-23
Filing date: 2019-12-19
Publication date: 2021-04-29
Also published as: CN110750704A; CN110750704B

Abstract

一种查询自动补全的方法和装置，其中一种查询自动补全的方法，包括：接收来自用户端的查询前缀；基于嵌套字典树结构匹配所述查询前缀的字符结果；将所述字符结果按照嵌套字典树节点加入到区间列表；根据用户目标字符串的分析对所述区间列表进行排序，得到结果集合。嵌入式字典树能更精确地定位到匹配前缀的字符串区间，支持关键词缩减的查询自动补全技术，极大减少了用户需要输入的查询长度，提高了用户体验的舒适度。

Description

一种查询自动补全的方法和装置

本申请要求于2019年10月23日提交中国专利局、申请号为2019110140612，发明名称为“一种查询自动补全的方法和装置”的中国专利申请的优先权，其全部内容通过引用结合在本申请中。

技术领域

本发明涉及搜索技术领域，特别是涉及一种查询自动补全的方法和一种查询自动补全的装置。

背景技术

查询自动补全技术是指导用户正确输入查询并且减少需要输入的字符的一个重要组成部分。在搜索引擎中(如Google，百度等)，用户往往想要输入少量的信息，而返回他们想要的结果。比如用户输入MJ这个查询而期望搜索引擎返回关于Michael Jordan的结果。当用户在搜索框中输入查询的时候，查询自动补全会给出合适的，把查询输入字符作为前缀的建议。

为了更好地提高人机交互的体验度，查询自动补全经常被用在各种需要大量人力输入且易错的应用中，比如命令行，桌面搜索和移动设备等。由于它的重要性，查询自动补全技术已经被广泛地重视，并应用在信息抽取，数据库搜索中。

对于现有的查询自动补全方法，用户需要手动地分开查询输入的关键词，并且这些方法把查询字符作为关键词的前缀进行匹配操作。当用户不倾向于或者不方便于在查询中手动分开关键词的时候，这些方法就不会有效了。

技术问题

本申请的主要目的为提供一种查询自动补全的方法和一种查询自动补全的装置，旨在解决现有的查询自动补全方法，用户需要手动地分开查询输入的关键词，并且这些方法把查询字符作为关键词的前缀进行匹配操作的技术问题。

技术解决方案

为了实现上述申请目的，本申请提出一种查询自动补全的方法，包括：

接收来自用户端的查询前缀；

基于嵌套字典树结构匹配所述查询前缀的字符结果；

将所述字符结果按照嵌套字典树节点加入到区间列表；

根据用户目标字符串的分析对所述区间列表进行排序，得到结果集合。

本申请还提供了一种查询自动补全的装置，包括：

接收模块，用于接收来自用户端的查询前缀；

匹配模块，用于基于嵌套字典树结构匹配所述查询前缀的字符结果；

区间列表合并模块，用于将所述字符结果按照嵌套字典树节点加入到区间列表；

区间结果排序模块，用于根据用户目标字符串的分析对所述区间列表进行排序，得到结果集合。

本申请还提供一种电子设备，包括处理器、存储器及存储在所述存储器上并能够在所述处理器上运行的计算机程序，所述计算机程序被所述处理器执行时实现如上述方法中任一项所述的查询自动补全的方法的步骤。

本申请还提供一种计算机可读存储介质，所述计算机可读存储介质上存储计算机程序，所述计算机程序被处理器执行时实现如上述方法中任一项所述的查询自动补全的方法的步骤。

有益效果

本发明实施例包括以下优点：嵌入式字典树能更精确地定位到匹配前缀的字符串区间，支持关键词缩减的查询自动补全技术，极大减少了用户需要输入的查询长度，提高了用户体验的舒适度。

附图说明

图1是本发明一具体实施例中嵌套字典树结构示意图；

图2是本发明一具体实施例中一个快速查询字典树算法；

图3是本发明的一种查询自动补全方法实施例的步骤流程图；

图4是本发明的一种查询自动补全方法另一实施例的步骤流程图；

图5是本发明的一种查询自动补全装置实施例的结构框图；

图6是本发明的一种查询自动补全装置另一实施例的结构框图。

本发明的最佳实施方式

为使本发明的上述目的、特征和优点能够更加明显易懂，下面结合附图和具体实施方式对本发明作进一步详细的说明。

本发明实施例的核心构思之一在于，提供了一种查询自动补全的方法和装置，其中一种查询自动补全的方法，包括：接收来自用户端的查询前缀；基于嵌套字典树结构匹配查询前缀的字符结果；将字符结果按照嵌套字典树节点加入到区间列表；根据用户目标字符串的分析对区间列表进行排序，得到结果集合。嵌入式字典树能更精确地定位到匹配前缀的字符串区间，支持关键词缩减的查询自动补全技术，极大减少了用户需要输入的查询长度，提高了用户体验的舒适度。

参照图1-4，示出了本发明的一种查询自动补全的方法实施例的步骤流程图，具体可以包括如下步骤：

S100，接收来自用户端的查询前缀；

在本实施例中，Σ是一个有限的字符集合；一条字符串s是一个从Σ中抽取的有序的字符数组。|s|表示字符串s的长度，s[i]表示s中的第i个字符。s[i..j]表示s中从第i个字符到第j个字符的子串。给定2个字符串s和t，s是t的前缀表达为s≤t，当且仅当s[1..i]＝t[1..i],1≤i≤|s|。用st表示用s和t顺序拼接的字符串。一组字符串数组[s ₁,s ₂,..s _n](n>1),如果s＝s ₁s ₂..s _n的拼接，把[s ₁,s ₂,..s _n]称作s的一个切割。用s<表示任意一个s的前缀子字符串。给定S是一个字符串数据集，每一个字符串s∈S可以被切割成一个关键字集合，假设Σ包含的是英文字母集合。分割符号可以是空格，标点，大写字母等。比如"AddNextValue"被分割成"Add"、"Next"和"Value"这三个部分。考虑一个字符串s可以分割成一组关键字[s1,...,sn]。给定一个查询字符串q，说q是s的前缀缩写匹配，表达为

当且仅当q＝s1<s2<..si<，1≤i≤n；q是s的前i个关键字的前缀缩写的拼接。比如gene是字符串”GetNextValue”的一个前缀缩写匹配，因为ge和ne是Get和Next的前缀。用PAM来代表前缀缩写匹配。给定一个字符串数据集合S，一个查询字符串q，一个前缀缩写查询自动补全(QACPA)是找到所有字符串集合si∈S，满足

输出的结果是根据用户当前的输入字符来增量计算得到的。

本申请公开的一种查询自动补全的方法，允许用户输入可缩减的关键词前缀的链接作为查询，提升体验度。根据关键词前缀链接这一场景，设计了一个的索引结构和查询方法来完成其功能。并提出了一个排序算法，把它结合在上述查询中，保证结果输出的质量排序，即为排在前列的结果以最大的可能是用户所期望的。以Top-K方法来返回少量，即为K，且高质量的结果。

在本实施例中，通过建立嵌套字典树索引结构，查询算法，区间列表合并方法，区间结果排序方法和区间Top-K算法，在线下，当原始数据给定之后，针对不同的需求对数据进行预处理，比如去除噪音、脏数据等，并且建立索引结构。在线上用户查询的时候，从查询算法开始执行，直到输出结果呈现给用户。

本实施例中的索引数据结构为嵌套字典树结构，包含多个内部字典树嵌套在一个外部字典树中。参照图1显示的嵌套字典树结构示意图。为了构建嵌套字典树，给定每一个字符串输入S，选取字符串每一个关键字的首字母加入到外部字典树。然后对于每一个首字母所在的外节点，将相应的关键字的其他字母加入到内部字典树中。把在外部字典树的节点和边叫外部节点和边，把内部字典树的节点和边叫做内部节点和边。嵌套字典树的根节点是外部字典树的根节点。还在树的节点之间增加了从内部节点到外部节点的链接。对于一个内部节点n，用初始节点代表包含n的内部字段数的根节点。对于任何一个非初始字符所在的数据字符串，如果它后面有一个紧连的关键词，对这个内部节点所对应的初始节点，增加一个快捷链接到外部节点。这个快捷链接的标签就是下一个关键词的首字母。

为了减少快捷链接的空间，大部分的链接不需要被实际保存下来。链接的目标节点总是外部边的一个子集。基于这个现象，对于一个外部边，使用一个位，即为bit向量来保存。第i个bit的表示节点的链接的目的地是跟第i条外边的目的地是一样的。这样可以避免重复的保存相同功能的边。跟传统的字典树相比，嵌套字典树将共享同一个首字母的关键字合并起来。在后面的算法描述中，这样的数据结构可以有效的降低激活节点的数量。同时，激活结点也可以快速被找到。

S200，基于嵌套字典树结构匹配查询前缀的字符结果；

在本实施例中，在嵌套字典树结构中，一个激活结点n是一个节点存在至少一条路径(通过边或者链接)从根节点到n能够精确匹配用户输入的查询字符串。算法从外部根节点出发，对于每一个用户输入的字符，从已有的激活结点出发找到新的激活结点。给定这个输入的字符，可以匹配首字符或者非首字符。嵌套字典树能够很好的支持这样的匹配。对于一个非首字符，通过走内部边找到一个新的激活结点。对于一个首字母，可以通过走外部边找到一个新的激活结点。另外也可以通过一条快捷链接从内部节点跳到外部节点产生新的激活结点。

在本实施例中，每一个节点下的数据并不全是所要的结果。通过列表合并的方法来去除不是结果的字符串。给定In为一个排好序的区间序列，定义

操作为合并两个interval的序列。

这里xi和yj表示两个区间。性质1，给定一个一条从根节点到n的路径，n1,...,nk。查询q的结果是仅存在于

当中。基于性质1，本实施例中的一个快速查询字典树算法，这个算法的复杂度是：O(log|In'|).具体算法参见图2。

S300，将字符结果按照嵌套字典树节点加入到区间列表；

在本实施例中，嵌套式字典树算法中的查询可能不会匹配积极节点下面的所有字符串。为了不报告非结果的数据，把字典树中每个节点加入一个排好序的区间列表来显示描述前缀和字典树中一条路径有匹配的字符串。为了计算列表中的区间，给定一个字符串，遍历字典树中的节点，并且把该字符串的ID加入到对应节点的区间列表中。一个基础方法是用sweepline算法来处理区间列表合并，他的时间复杂度是O(|I _n|+|I _n'|),其中|*|表示列表中区间的个数。由于合并操作，|I _n|一般在实际情况中是很小并且远远小于|I _n'|。如果把|I _n|看做一个常数，时间复杂度变成O(|I _n'|)。当在嵌套字典树中遍历深层节点的时候，存储裂变中的区间会变得很分散，并且|I _n'|在变大，这里就会引入大量的合并的代价。针对上述问题，本实施例中的一个列表合并的算法。对于列表中的一个区间[u,v]，使用二分查找的方式把u作为键值在I _n'中查找第一个和[u,v]有交集的区间。

S400，根据用户目标字符串的分析对区间列表进行排序，得到结果集合。

在本实施例中，基于对用户需求的分析，对输出的结果根据估计用户的目标字符串来对结果排序。

在本实施例中，S100，接收来自用户端的查询前缀的步骤之前，包括：

建立嵌套字典树结构。

在本实施例中，建立嵌套字典树结构的步骤，包括：

将关键词划分并建立字典树；

将字典树链接在一起形成嵌套字典树结构。

在本实施例中，字典树包括内部字典树和外部字典树，将关键词划分并建立字典树的步骤，包括：

将关键词的首字母加到外部字典树，将相应的关键词的其他字母加到内部字典树。

在本实施例中，将字典树链接在一起形成嵌套字典树结构的步骤，包括：

将外部字典树与内部字典树链接在一起形成嵌套字典树。

在本实施例中，S400，根据用户目标字符串的分析对区间列表进行排序，得到结果集合的步骤，包括：

利用贝叶斯定理和混合高斯模型计算出目标字符串的分割匹配概率；

按照分割匹配概率降序的方式对区间列表进行排序。

在本实施例中，给定一个数据字符串s切割成[s ₁,...,s _n]，假设前m个关键字已经被缩写到查询中，剩下的(n-m)个关键字还没有被输入。因此

q可以被切割成[q ₁,...,q _m]，并满足q _i≤s _i，1≤i≤m≤n。增加(n-m)个空字符串，用q _m+1,...,q _n来表示。这样q和s就会拥有同样的数量的切割。排序s的分数定义为字符串s是查询字符串关于分割[q ₁,...,q _n]和[s ₁,...,s _n]匹配的概率，用score(s,q)＝P(s ₁...s _n|q ₁...q _n)来表示。如果有多种切割的方式，选取一种切割方式能得到最大的分数。对于所有的q的PAM结果，用score(s,q)函数进行排序，得到一个降序的结果集合。

为了计算score(s,q)，应用贝叶斯定理：

score(s,q)＝P(s ₁...s _n|q ₁...q _n)

＝P(q ₁...q _n|s ₁...s _n)*P(s ₁...s _n)/P(q ₁...q _n)

∝P(q ₁...q _n|s ₁...s _n)*P(s ₁...s _n)

＝P(q ₁...q _n|s ₁...s _n)*P(s)

score(s,q)∝P(q ₁|s ₁)·...·P(q _n|s _n)·P(s)

每一个P(q _i|s _i)描述的用户输入查询字符串q _i的情况下是字符串s _i前缀的概率。对于没有输入的字符假设P(q _i|s _i)＝1，m<i≤n。这样设置的原因是这些关键词是在接下会被作为用户输入。为了让s的分数不会因为序列操作导致的数值很低，尤其是当n远远大于m的时候，把这些概率数值设置成1。

为了更好地计算P(q _i|s _i)，发现用户习惯性缩减一些特殊的字符序列，比如忽略辅音部分，并且这种省略存在一定的模式。因此使用向量来描述当前的特征：(1)q _i的长度，(2)q _i中有多少个元音，(3)q _i中有多少个辅音，(4)q _i是否以辅音结束，(5)i的值，也就是字符s _i在字符串中的位置。由上所述，用5维度的向量来表示当前的特征。这里s _i并没有完全地编码在该向量中。这里的原因如下：让p _i表示用户把si缩减成q _i的模式向量。因为知道一个关键词是如何进行缩减的，即为P(q _i,s _i)＝P(p _i)·P(s _i)。因为P(q _i,s _i)＝P(q _i|s _i)·P(s _i),P(p _i)。因此P(p _i)的结果就是P(q _i|s _i)。

给定一个模式向量，使用混合高斯模型(GMM)来计算P(p _i)的值。此高斯混合模型使用未知的参数，计算p的密度函数，即为概率如下：

其中l是高斯分布的个数，w _i是每个高斯分布的权重，N(p|μ _i,∑ _i)是以μ _i为均值以及∑ _i为方差矩阵且为p的概率密度函数。其中参数l是可以在训练中精调的。同时，其他参数可以以一个聚类方式和用EM算法来学习：一系列数据字符串被用户给定，之后收集其数据的所有前缀并且把他们转换成关键词和前缀的数据对作为训练数据的特征。

在本实施例中，S400，根据用户目标字符串的分析对区间列表进行排序，得到结果集合的步骤之后，还包括：

S500，根据用户需求采用Top-K算法返回目标结果集合。

在本实施例中，在用户输入查询的过程中，用户并不会对所有的结果感兴趣，通常仅对最前面的K个结果感兴趣。在这种假设下，可以提前对不可能进入前K个的结果进行提前过滤。估计某一个激活结点下的分数的上限，如果这个上限已经低于当前前K个结果的下限，就可以把这个激活结点提前过滤掉。在区间列表算法中，一个合并之后的区间列表在每个有效节点中被获得作为验证集。如果要想得到结果的TopK，遍历每个有效节点中的区间列表，对区间内的每个字符串计算相应的分数值，之后根据计算的分数排序，抽取Top-K的结果。当前方法执行中最大的代价是使用高斯混合模型去计算概率P(q _i|s _i)。因为区间内的字符串数量在实际情况中会很大，尤其是对于长度较短的查询字符串，这里很有必要去设计一个高效的Top-K算法来降低高斯混合模型的计算次数。

在一具体实施例中，限定合并区间列表中最大可能的分数。根据合并列表的特点，有如下特性：对于每个区间[u,v]∈J _n，总是存在一个区间[u',v']∈I _n，满足条件u'≤u，且v'≥v。因此，在列表J _n中字符串的最大可能分数值是列表I _n的上界。为了计算每个区间的分数，考虑一个字典树的根节点为n。用d表示字典树的深度，这里可以推出所有列表I _n中的字符串都有至少d个关键词，并且当n变成一个激活节点的时候，查询q有精确的d个非空分割。因此对于每个区间[u,v]∈I _n，可以用线下的方式处理字符串s ^u...s ^v，并且使用最大数值来限定线上查询的边界。给定一个字符串s ⁱ，对于每d个关键词

枚举字符串s ⁱ所有可能的前缀

之后计算概率

这里注意当j＝d的时候，由于在节点n上产生匹配，所以只存在一个可能的前缀。最大概率

的乘积被字符串s ⁱ的流行度所计算，这里取出最大值并把它存储在字典树中的区间[u,v]中。

本实施例公开的一种在线的Top-K结果抽取算法。在最开始的时候，初始化一个优先队列R用于存储Top-K的结果。对于每个激活结点n，对于列表J _n中的区间按照最大分数的降序进行排序。其次，对于J _n中的每个区间[u,v]，顺序地计算每个字符串的分数，之后更新到优先队列中。如果达到了一个区间，他的最大分数不大于第k个结果的时候，对于n的处理可以安全地结束。

在另一具体实施例中，跳过一些高斯混合模型的计算，在相同区间内的字符串以很大的概率分享一些关键词，即为有相同的概率p＝(q _i|s _i)。对于在一个区间[u,v]∈I _n的两个相邻字符串s ⁱ和s ⁱ⁺¹，线下检查他们共享作为前缀的关键词的数量，并且把这个数值记录在si+1中，用s ⁱ⁺¹·spr来表示。对于在线查询处理，如果s ⁱ和s ⁱ⁺¹同时出现在J _n的同一个区间中，能够对于第一个s ⁱ⁺¹·spr关键字的高斯混合模型计算进行跳过，因为已经被计算过了。为了更好地利用关键词共享，把S中的字符串按照早点顺序进行排序。

本申请允许用户决定结果数量。如果用户期望得到全部结果，并一一筛选，则可以跳过上述S500根据用户需求采用Top-K算法返回目标结果集合步骤，如果用户只想要有限个高质量的结果，则上述返回用户最想要的K个结果。

本申请公开的一种查询自动补全的方法，基于查询补全技术的前缀缩写匹配的模型，查询自动补全技术的前缀匹配模型是自动补全技术中的新算法。相比于现有的技术，本申请充分考虑到各种情景，尤其是对于用户不会显示地表明关键词的分隔符。本申请能够节约20％用户输入的字符数。嵌入式字典树是提出支持自动补全技术的新数据结构。相比于传统的字典树索引结构，本申请的嵌入式字典树能更精确地定位到匹配前缀的字符串区间。为了返回更有意义的结果，设计了一个排序算法，此排序算法利用查询字符串对于数据字符串相对于分割的概率来计算，并且利用贝叶斯公式和高斯混合模型结构来计算其概率数值。该排序算法能够把用户更想要的结果返回。考虑到用户感兴趣的结果，设计两种Top-K的优化算法，即为设计每个区间列表的分数上界和跳过复杂度较高的高斯混合模型的计算次数。该Top-K优化算法相比于现有的算法具有更高效性和准确度。

本申请不限于应用在数据库查询输入的提示、搜索引擎的搜索框优化、集成开发环境中的代码提示、生物化学医学领域内的查询提示系统、输入法的快速输入接口、受限的终端输入接口等技术领域。

需要说明的是，对于方法实施例，为了简单描述，故将其都表述为一系列的动作组合，但是本领域技术人员应该知悉，本发明实施例并不受所描述的动作顺序的限制，因为依据本发明实施例，某些步骤可以采用其他顺序或者同时进行。其次，本领域技术人员也应该知悉，说明书中所描述的实施例均属于优选实施例，所涉及的动作并不一定是本发明实施例所必须的。

参照图5-6，示出了本发明的一种查询自动补全的装置实施例的结构框图，具体可以包括如下模块：

接收模块100，用于接收来自用户端的查询前缀；

匹配模块200，用于基于嵌套字典树结构匹配查询前缀的字符结果；

区间列表合并模块300，用于将字符结果按照嵌套字典树节点加入到区间列表；

区间结果排序模块400，用于根据用户目标字符串的分析对区间列表进行排序，得到结果集合。

在本实施例中，还包括：

结果筛选模块500，用于根据用户需求采用Top-K算法返回目标结果集合。

在本实施例中，还包括：

结构建立模块，用于建立嵌套字典树结构。

在本实施例中，结构建立模块包括：

拆分单元，用于将关键词划分并建立字典树；

链接单元，用于将字典树链接在一起形成嵌套字典树结构。

在本实施例中，拆分单元包括：

拆分子单元，用于将关键词的首字母加到外部字典树，将相应的关键词的其他字母加到内部字典树。

在本实施例中，链接单元包括：

链接子单元，用于将外部字典树与内部字典树链接在一起形成嵌套字典树。

在本实施例中，区间结果排序模块包括：

分割概率计算单元，用于利用贝叶斯定理和混合高斯模型计算出目标字符串的分割匹配概率；

排序单元，用于按照分割匹配概率降序的方式对区间列表进行排序。

对于装置实施例而言，由于其与方法实施例基本相似，所以描述的比较简单，相关之处参见方法实施例的部分说明即可。

本发明实施例公开了一种电子设备，包括处理器、存储器及存储在存储器上并能够在处理器上运行的计算机程序，计算机程序被处理器执行时实现上述的查询自动补全的方法的步骤。

本发明实施例公开了一种计算机可读存储介质，计算机可读存储介质上存储计算机程序，计算机程序被处理器执行时实现上述的查询自动补全的方法的步骤。

本说明书中的各个实施例均采用递进的方式描述，每个实施例重点说明的都是与其他实施例的不同之处，各个实施例之间相同相似的部分互相参见即可。

本领域内的技术人员应明白，本发明实施例的实施例可提供为方法、装置、或计算机程序产品。因此，本发明实施例可采用完全硬件实施例、完全软件实施例、或结合软件和硬件方面的实施例的形式。而且，本发明实施例可采用在一个或多个其中包含有计算机可用程序代码的计算机可用存储介质(包括但不限于磁盘存储器、CD-ROM、光学存储器等)上实施的计算机程序产品的形式。

本发明实施例是参照根据本发明实施例的方法、终端设备(系统)、和计算机程序产品的流程图和/或方框图来描述的。应理解可由计算机程序指令实现流程图和/或方框图中的每一流程和/或方框、以及流程图和/或方框图中的流程和/或方框的结合。可提供这些计算机程序指令到通用计算机、专用计算机、嵌入式处理机或其他可编程数据处理终端设备的处理器以产生一个机器，使得通过计算机或其他可编程数据处理终端设备的处理器执行的指令产生用于实现在流程图一个流程或多个流程和/或方框图一个方框或多个方框中指定的功能的装置。

这些计算机程序指令也可存储在能引导计算机或其他可编程数据处理终端设备以特定方式工作的计算机可读存储器中，使得存储在该计算机可读存储器中的指令产生包括指令装置的制造品，该指令装置实现在流程图一个流程或多个流程和/或方框图一个方框或多个方框中指定的功能。

这些计算机程序指令也可装载到计算机或其他可编程数据处理终端设备上，使得在计算机或其他可编程终端设备上执行一系列操作步骤以产生计算机实现的处理，从而在计算机或其他可编程终端设备上执行的指令提供用于实现在流程图一个流程或多个流程和/或方框图一个方框或多个方框中指定的功能的步骤。

尽管已描述了本发明实施例的优选实施例，但本领域内的技术人员一旦得知了基本创造性概念，则可对这些实施例做出另外的变更和修改。所以，所附权利要求意欲解释为包括优选实施例以及落入本发明实施例范围的所有变更和修改。

最后，还需要说明的是，在本文中，诸如第一和第二等之类的关系术语仅仅用来将一个实体或者操作与另一个实体或操作区分开来，而不一定要求或者暗示这些实体或操作之间存在任何这种实际的关系或者顺序。而且，术语“包括”、“包含”或者其任何其他变体意在涵盖非排他性的包含，从而使得包括一系列要素的过程、方法、物品或者终端设备不仅包括那些要素，而且还包括没有明确列出的其他要素，或者是还包括为这种过程、方法、物品或者终端设备所固有的要素。在没有更多限制的情况下，由语句“包括一个……”限定的要素，并不排除在包括所述要素的过程、方法、物品或者终端设备中还存在另外的相同要素。

以上对本发明所提供的一种查询自动补全的方法和相应的一种查询自动补全的装置，进行了详细介绍，本文中应用了具体个例对本发明的原理及实施方式进行了阐述，以上实施例的说明只是用于帮助理解本发明的方法及其核心思想；同时，对于本领域的一般技术人员，依据本发明的思想，在具体实施方式及应用范围上均会有改变之处，综上所述，本说明书内容不应理解为对本发明的限制。

Claims

一种查询自动补全的方法，其特征在于，包括：

接收来自用户端的查询前缀；

基于嵌套字典树结构匹配所述查询前缀的字符结果；

将所述字符结果按照嵌套字典树节点加入到区间列表；

根据用户目标字符串的分析对所述区间列表进行排序，得到结果集合。
根据权利要求1所述的方法，其特征在于，所述根据用户目标字符串的分析对所述区间列表进行排序，得到结果集合的步骤之后，还包括：

根据用户需求采用Top-K算法返回目标结果集合。
根据权利要求1所述的方法，其特征在于，所述接收来自用户端的查询前缀的步骤之前，包括：

建立所述嵌套字典树结构。
根据权利要求3所述的方法，其特征在于，所述建立所述嵌套字典树结构的步骤，包括：

将关键词划分并建立字典树；

将所述字典树链接在一起形成嵌套字典树结构。
根据权利要求4所述的方法，其特征在于，所述字典树包括内部字典树和外部字典树，所述将关键词划分并建立字典树的步骤，包括：

将所述关键词的首字母加到外部字典树，将相应的所述关键词的其他字母加到内部字典树。
根据权利要求5所述的方法，其特征在于，所述将所述字典树链接在一起形成嵌套字典树结构的步骤，包括：

将所述外部字典树与所述内部字典树链接在一起形成嵌套字典树。
根据权利要求1所述的方法，其特征在于，所述根据用户目标字符串的分析对所述区间列表进行排序，得到结果集合的步骤，包括：

利用贝叶斯定理和混合高斯模型计算出目标字符串的分割匹配概率；

按照所述分割匹配概率降序的方式对所述区间列表进行排序。
一种查询自动补全的装置，其特征在于，包括：

接收模块，用于接收来自用户端的查询前缀；

匹配模块，用于基于嵌套字典树结构匹配所述查询前缀的字符结果；

区间列表合并模块，用于将所述字符结果按照嵌套字典树节点加入到区间列表；

区间结果排序模块，用于根据用户目标字符串的分析对所述区间列表进行排序，得到结果集合。
电子设备，其特征在于，包括处理器、存储器及存储在所述存储器上并能够在所述处理器上运行的计算机程序，所述计算机程序被所述处理器执行时实现如权利要求1至7中任一项所述的查询自动补全的方法的步骤。
计算机可读存储介质，其特征在于，所述计算机可读存储介质上存储计算机程序，所述计算机程序被处理器执行时实现如权利要求1至7中任一项所述的查询自动补全的方法的步骤。