CN114036371A - 搜索词推荐方法、装置、设备和计算机可读存储介质 - Google Patents
搜索词推荐方法、装置、设备和计算机可读存储介质 Download PDFInfo
- Publication number
- CN114036371A CN114036371A CN202111264694.6A CN202111264694A CN114036371A CN 114036371 A CN114036371 A CN 114036371A CN 202111264694 A CN202111264694 A CN 202111264694A CN 114036371 A CN114036371 A CN 114036371A
- Authority
- CN
- China
- Prior art keywords
- word
- recommendation
- identification information
- recommended
- words
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Pending
Links
- 238000000034 method Methods 0.000 title claims abstract description 81
- 230000011218 segmentation Effects 0.000 claims abstract description 150
- 238000013507 mapping Methods 0.000 claims abstract description 36
- 230000015654 memory Effects 0.000 claims description 27
- 238000012545 processing Methods 0.000 claims description 27
- 238000004590 computer program Methods 0.000 claims description 9
- 238000012163 sequencing technique Methods 0.000 abstract description 22
- 238000012937 correction Methods 0.000 abstract description 4
- 238000010586 diagram Methods 0.000 description 15
- 238000007781 pre-processing Methods 0.000 description 7
- 230000006870 function Effects 0.000 description 6
- 238000004891 communication Methods 0.000 description 4
- 230000003287 optical effect Effects 0.000 description 3
- 239000013589 supplement Substances 0.000 description 3
- 230000000295 complement effect Effects 0.000 description 2
- 238000012217 deletion Methods 0.000 description 2
- 230000037430 deletion Effects 0.000 description 2
- 238000005516 engineering process Methods 0.000 description 2
- 230000001502 supplementing effect Effects 0.000 description 2
- 238000004458 analytical method Methods 0.000 description 1
- 230000009286 beneficial effect Effects 0.000 description 1
- 238000010276 construction Methods 0.000 description 1
- 230000007547 defect Effects 0.000 description 1
- 238000006073 displacement reaction Methods 0.000 description 1
- 239000010931 gold Substances 0.000 description 1
- 229910052737 gold Inorganic materials 0.000 description 1
- 238000004519 manufacturing process Methods 0.000 description 1
- 230000000153 supplemental effect Effects 0.000 description 1
Images
Classifications
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F16/00—Information retrieval; Database structures therefor; File system structures therefor
- G06F16/90—Details of database functions independent of the retrieved data types
- G06F16/95—Retrieval from the web
- G06F16/953—Querying, e.g. by the use of web search engines
- G06F16/9532—Query formulation
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F16/00—Information retrieval; Database structures therefor; File system structures therefor
- G06F16/30—Information retrieval; Database structures therefor; File system structures therefor of unstructured textual data
- G06F16/33—Querying
- G06F16/3331—Query processing
- G06F16/334—Query execution
- G06F16/3344—Query execution using natural language analysis
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F16/00—Information retrieval; Database structures therefor; File system structures therefor
- G06F16/90—Details of database functions independent of the retrieved data types
- G06F16/95—Retrieval from the web
- G06F16/953—Querying, e.g. by the use of web search engines
- G06F16/9535—Search customisation based on user profiles and personalisation
Landscapes
- Engineering & Computer Science (AREA)
- Databases & Information Systems (AREA)
- Theoretical Computer Science (AREA)
- Physics & Mathematics (AREA)
- Data Mining & Analysis (AREA)
- General Engineering & Computer Science (AREA)
- General Physics & Mathematics (AREA)
- Mathematical Physics (AREA)
- Artificial Intelligence (AREA)
- Computational Linguistics (AREA)
- Information Retrieval, Db Structures And Fs Structures Therefor (AREA)
Abstract
本发明实施例公开了一种搜索词推荐方法、装置、设备和计算机可读存储介质。该方法包括:获取搜索词,对搜索词进行切分处理,可以将复杂的搜索词组合切分为多个切分元。将多个切分元按照所属的不同预设类型分别在预设类型对应的标识映射表中进行标识信息的查询,能够针对复杂的搜索词组合的情况进行搜索词纠错,从而使得后续在进行候选推荐词匹配时,提高候选推荐词的准确性。根据多个切分元各自的标识信息,在推荐表中进行匹配,得到候选推荐词,进而根据词频信息对候选推荐词进行排序,得到排序结果,以使根据排序结果进行搜索词推荐,提高了推荐搜索词的准确性。
Description
技术领域
本发明涉及计算机技术领域,尤其涉及一种搜索词推荐方法、装置、设备和计算机可读存储介质。
背景技术
一个检索引擎的入口对应一个搜索栏,推荐的搜索词的质量直接影响到返回给用户的数据是否满足用户需求,搜索词下拉推荐是指当搜索栏有任意的输入内容时,搜索栏下方的推荐栏显示出与输入内容相关的词语。搜索词下拉推荐也可以理解为根据搜索词的自动补全,为了在用户搜索输入过程中节省输入成本,预测并且扩展用户的意图,是搜索引擎为了让用户输入更少的字而提供的一种关键词联想服务,提高了用户搜索效率。
现有技术中,检索引擎后台需要维护一个推荐词库,将推荐词库存储在前缀树的结构中,当用户输入搜索词后,根据搜索词在前缀树的结构中进行匹配,返回与搜索词匹配的推荐词,并将推荐词进行排序后,显示到下拉推荐栏中。
然而,通过前缀树进行搜索词推荐的方式,针对复杂的搜索词组合,不能进行准确的识别和推荐,降低了搜索词推荐的准确性。
发明内容
本发明实施例提供一种搜索词推荐方法、装置、设备和计算机可读存储介质,通过切分处理,将搜索词切分为多个切分元,并分别在切分元所属的预设类型对应的标识映射表中查询切分元的标识信息,从而根据标识信息匹配到候选推荐词,进而根据候选推荐词的排序结果进行搜索词推荐,提高搜索词推荐的准确性。
本发明实施例的技术方案是这样实现的:
第一方面,本发明实施例提供一种搜索词推荐方法,所述方法包括:获取搜索词;对所述搜索词进行切分处理,得到多个切分元;根据所述多个切分元所属的预设类型,分别在预设类型对应的标识映射表中查询所述多个切分元各自的标识信息;根据所述多个切分元各自的标识信息,在推荐表中进行匹配,得到候选推荐词;根据词频信息对所述候选推荐词进行排序,得到排序结果,使得根据所述排序结果进行推荐。
第二方面,本发明实施例提供一种搜索词推荐装置,所述装置包括:获取模块,用于获取搜索词;切分模块,用于对所述搜索词进行切分处理,得到多个切分元;查询模块,用于根据所述多个切分元所属的预设类型,分别在预设类型对应的标识映射表中查询所述多个切分元各自的标识信息;匹配模块,用于根据所述多个切分元各自的标识信息,在推荐表中进行匹配,得到候选推荐词;推荐模块,用于根据词频信息对所述候选推荐词进行排序,得到排序结果,使得根据所述排序结果进行推荐。
第三方面,本发明实施例提供一种搜索词推荐设备,所述设备包括存储器,用于存储可执行指令,处理器,用于执行所述存储器中存储的可执行指令时,实现上述搜索词推荐方法。
第四方面,本发明实施例提供一种计算机可读存储介质,其上存储有可执行指令,用于被处理器执行时,实现上述搜索词推荐方法。
本发明实施例提供了一种搜索词推荐方法、装置、设备和计算机可读存储介质。根据本发明实施例提供的方案,获取搜索词,对搜索词进行切分处理,得到多个切分元;根据多个切分元所属的预设类型,分别在预设类型对应的标识映射表中查询多个切分元各自的标识信息。通过切分处理,可以将复杂的搜索词组合切分为多个切分元,并将多个切分元按照不同的类型进行标识信息的查询,能够针对复杂的搜索词组合的情况进行搜索词纠错,从而使得后续在进行候选推荐词匹配时,提高候选推荐词的准确性。根据多个切分元各自的标识信息,在推荐表中进行匹配,得到候选推荐词,根据词频信息对候选推荐词进行排序,得到排序结果,以使根据排序结果进行搜索词推荐。通过切分处理,以及在预设类型对应的标识映射表中查询切分元各自的标识信息,然后根据标识信息匹配到候选推荐词,进而根据候选推荐词的排序结果进行搜索词推荐,提高了推荐搜索词的准确性。
附图说明
图1为本发明实施例提供的一种搜索词推荐方法的可选的步骤流程图;
图2为本发明实施例提供的另一种搜索词推荐方法的可选的步骤流程图;
图3为本发明实施例提供的再一种搜索词推荐方法的可选的步骤流程图;
图4为本发明实施例提供的一种滑动窗口匹配原理的可选的步骤流程图;
图5为本发明实施例提供的又一种搜索词推荐方法的可选的步骤流程图;
图6为本发明实施例提供的一种搜索词推荐方法的可选的系统架构图;
图7为本发明实施例提供的又一种搜索词推荐方法的可选的步骤流程图;
图8为本发明实施例提供的一种搜索词推荐装置的结构示意图;
图9为本发明实施例提供的一种搜索词推荐设备组成结构示意图。
具体实施方式
下面将结合本发明实施例中的附图,对本发明实施例中的技术方案进行清楚、完整地描述。应当理解的是,此处所描述的一些实施例仅仅用以解释本发明的技术方案,并不用于限定本发明的技术范围。
为了更好地理解本发明实施例中提供的搜索词推荐方法,在对本发明实施例的技术方案进行介绍之前,先对相关技术进行说明。
搜索词的自动补全必须是快速响应的,并且在用户输入下一个字符后立即对推荐词列表进行更新,以便快速向用户进行搜索词推荐。相关技术方案采用前缀树的方式。前缀树可以称为单词查找树,用于存储大量的字符串,前缀树是一种利用字符串的公共前缀来加速补全速度的树形数据结构。在节点树中排列一组单词,单词沿着从根节点到叶子节点的路径存储,树的层次对应于前缀的字母位置。前缀的补全是顺着前缀定义的路径来查找的,示例性的,基于前缀树的自动补全的核心是一个函数,它接受用户输入的搜索词的前缀,并搜索以给定前缀开头的词语列表。如果在树中找不到由前缀定义的路径,则说明推荐词库中不包含以该前缀开头的单词。
然而,在采用前缀树的方式实现搜索词推荐时,针对复杂的搜索词组合,例如,汉字拼音混合输入的场景,不能对搜索词进行准确识别和有效推荐,降低了搜索词推荐的准确性。
基于相关技术中存在的缺点,本发明实提供一种搜索词推荐方法,能够应用于各种检索引擎的搜索词下拉推荐,可以针对复杂的搜索词组合进行搜索词纠错,示例性的,可以应用于电商领域,以及其他需要同时支持中文、拼音和英文的场景。如图1所示,图1为本发明实施例提供的一种搜索词推荐方法的步骤流程图,搜索词推荐方法包括以下步骤:
S101、获取搜索词。
本发明实施例中的搜索词表征用户在进行搜索时,在搜索栏中输入的词语。搜索词可以是汉字、拼音、拼音首字母缩写、英文、英文缩写,以及以上任意两种及以上的组合。
需要说明的是,本发明实施例中的拼音是指23个声母、24个韵母和16个整体认读音节各种组合构成的音节,示例性的,拼音有410个。
S102、对搜索词进行切分处理,得到多个切分元。
搜索词可以理解为查询字符串,搜索词可以包括多种不同类型的字符,在对搜索词进行切分处理时,切分方法可以由本领域技术人员根据实际需求进行适当设置,能够对搜索词进行有效切分即可。示例性的,可以采用通用的切分方法,首先维护了410个拼音,然后从前往后进行比对,以及一些特殊情况的处理,从而实现对搜索词的切分处理。
对于单一字符组成的搜索词,例如,“今天天气”、“jintiantianqi”、“today'sweather”,可以采用通用的切分方法对搜索词进行切分处理,以“今天天气”为例进行说明,在对搜索词进行切分处理后,得到4个切分元,4个切分元包括“今”、“天”、“天”和“气”。对于复杂的搜索词组合,例如,以输入“京dongj”为例,在对搜索词进行切分处理后,得到多个切分元,多个切分元包括“京”、“dong”和“j”。
S103、根据多个切分元所属的预设类型,分别在预设类型对应的标识映射表中查询多个切分元各自的标识信息。
不同的切分元属于不同的类型,以切分元“京”、“dong”和“j”为例进行说明,切分元“京”的类型属于字,可以理解为汉字,切分元“dong”的类型属于拼音,切分元“j”的类型属于拼音首字母。对应的,预设类型对应的标识映射表可以包括字表和拼音表,字表中存储每个字、以及与每个字对应的标识信息。拼音表中存储每个拼音、以及与每个拼音对应的标识信息。由于字母对应字母即可,因此字母没有对应的标识映射表。示例性的,标识信息表征切分元的唯一信息,例如,标识信息可以是身份标识号(Identity document,ID)。
与通过前缀树进行搜索词推荐的方案相比,本发明实施例通过切分处理,可以将复杂的搜索词组合切分为多个切分元,并将多个切分元按照不同的类型进行标识信息的查询,能够针对复杂的搜索词组合的情况进行搜索词纠错,可以将汉字拼音混合输入的搜索词纠正成正确的词语,从而使得后续进行候选推荐词匹配时,提高候选推荐词的准确性。
S104、根据多个切分元各自的标识信息,在推荐表中进行匹配,得到候选推荐词。
针对复杂的搜索词组合,多个切分元各自的标识信息属于不同的类型,需要在不同的推荐表中进行匹配,本发明实施例中的推荐表包括中文推荐表和英文推荐表。本发明实施例根据多个切分元各自的标识信息,在中文推荐表和/或英文推荐表中进行匹配,从而得到候选推荐词。候选推荐词可以是一个或多个,本发明实施例对于候选推荐词的数量不做限制。
S105、根据词频信息对候选推荐词进行排序,得到排序结果,使得根据排序结果进行推荐。
通常情况下,根据S101-S104得到的候选推荐词可能有很多,而用户界面能够显示的候选推荐词有限,因此,需要显示最常搜索或者最有价值的候选推荐词。本发明实施例中推荐表中的候选推荐词均对应词频信息,词频信息用于表征候选推荐词的权重(weight),也可以理解为推荐系数、重要程度或历史搜索次数等。本发明实施例中按照词频信息对候选推荐词进行排序,得到排序结果,该排序结果是按照候选推荐词的重要程度高低进行排序的,可以用于向用户进行推荐,从而对搜索词进行自动补全,提高了搜索词推荐的准确性。
根据本发明实施例提供的方案,获取搜索词,对搜索词进行切分处理,得到多个切分元;根据多个切分元所属的预设类型,分别在预设类型对应的标识映射表中查询多个切分元各自的标识信息。通过切分处理,可以将复杂的搜索词组合切分为多个切分元,并将多个切分元按照不同的类型进行标识信息的查询,能够针对复杂的搜索词组合的情况进行搜索词纠错,从而使得后续在进行候选推荐词匹配时,提高候选推荐词的准确性。根据多个切分元各自的标识信息,在推荐表中进行匹配,得到候选推荐词,根据词频信息对候选推荐词进行排序,得到排序结果,以使根据排序结果进行搜索词推荐。通过切分处理,以及在预设类型对应的标识映射表中查询切分元各自的标识信息,然后根据标识信息匹配到候选推荐词,进而根据候选推荐词的排序结果进行搜索词推荐,提高了推荐搜索词的准确性。
在一些实施例中,预设类型包括字、拼音和拼音首字母,标识映射表包括字表和拼音表,标识信息包括第一标识信息、第二标识信息和第三标识信息。上述S103可以通过以下方式实现,在此分别以切分元的类型是字、拼音和拼音首字母进行说明。若多个切分元中存在预设类型为字的切分元,则在字表中查询该切分元的第一标识信息;若多个切分元中存在预设类型为拼音的切分元,则在拼音表中查询该切分元的第二标识信息;若多个切分元中存在预设类型为拼音首字母的切分元,则切分元的第三标识信息为拼音首字母本身。
搜索词可以理解为查询字符串,对于复杂的搜索词组合,切分处理后的切分元所属的预设类型,可以是字、拼音和拼音首字母三种类型中的任意一种或多种。切分处理后的查询字符串可以理解为智能信息(Intelligent Info)类型的数据结构。
字表中存储每个字、以及与每个字对应的标识信息,拼音表中存储每个字的拼音、以及与每个字的拼音对应的标识信息。以字是汉字为例,示例性的,字表中存储6000多个汉字以及与每个汉字对应的id,也可以理解为6000多个常用汉字到id的映射;拼音表中存储410个拼音以及每个拼音对应的id,也可以理解为410个拼音到拼音id的映射。本发明实施例按照切分元的类型,在对应的字表或拼音表中查询标识信息,提高了标识信息的准确性。
在一些实施例中,上述S104中的推荐表可以通过S201-S203生成,如图2所示,图2为本发明实施例提供的另一种搜索词推荐方法的可选的步骤流程图。
S201、获取预设词库和用户历史查询词库。
预设词库包括多个推荐词以及每个推荐词的词频信息,词频信息用于表征候选推荐词的权重(weight)。示例性的,预设词库中的推荐词可以是从语料库中选取的高频词语,该语料库可以是对预设的纯文本语料进行词语切分和词性标注后生成的。预设词库可以理解为预先定义的高频词语的集合,高频词语可以通过大量的词语的搜索次数或搜索频率中进行分析确定,只要能够反映预设词库中词语的搜索频次即可。
用户历史查询词库表征用户历史上的搜索数据,也可以理解为用户的查询日志,可以包括多个搜索词以及搜索词的词频信息。用户历史查询词库与用户在进行搜索时的搜索词语相关,可以通过检索引擎采集到的大量的用户的搜索数据进行分析确定,对此本发明实施例不做限制。
S202、根据用户历史查询词库,对预设词库中的推荐词以及推荐词的词频信息进行更新,生成推荐词库。
本发明实施例可以对用户历史查询词库进行分析,选取用户历史查询词库中的高频词语,然后对预设词库中的推荐词进行补充添加或删除等更新操作,还可以根据用户历史查询词库中搜索词的词频信息,对预设词库中推荐词的词频信息进行补充添加或删除等更新操作,不断的优化更新推荐词库,从而生成推荐词库。示例性的,推荐词库的更新频率可以根据应用的实际情况进行调整,例如,可以设置为每天更新一次。
本发明实施例结合用户历史查询词库中分析出的高频词语,对预设词库中的推荐词以及推荐词的词频信息进行更新,提高了生成推荐词库的准确性。
该推荐词库综合考虑了预设词库和用户历史查询词库,是用户个性化的推荐词库,与用户的查询习惯密切相关,使得在通过该推荐词库对用户进行搜索词推荐,提高了搜索词推荐的准确性。
S203、根据推荐词库和标识映射表,生成推荐表。
推荐词库中存储的是多个推荐词,标识映射表中存储的是每个字、以及与每个字对应的标识信息,每个字的拼音、以及与每个字的拼音对应的标识信息。推荐词库中的每个推荐词包括一个或多个字,根据标识映射表对每个推荐词中的每个字、每个字的拼音进行映射,并结合每个字的拼音首字母,生成推荐表。推荐表中存储多个推荐词、以及每个推荐词中每个字的标识信息、每个字的拼音对应的标识信息和每个字的拼音首字母。
在一些实施例中,标识映射表包括字表和拼音表,推荐词库包括中文推荐词库和英文推荐词库,推荐表包括中文推荐表和英文推荐表。上述S203可以通过以下方式实现:根据中文推荐词库、字表和拼音表,按照第一预设数据结构,生成中文推荐表,其中,第一预设数据结构包括:推荐词中每个字对应的第一标识信息、推荐词中每个字的拼音对应的第二标识信息,以及推荐词中每个字的拼音的拼音首字母;根据英文推荐词库,按照第二预设数据结构,生成英文推荐表,第二预设数据结构包括:推荐词中的每个字母。
本发明实施例中推荐词库包括中文推荐词库和英文推荐词库,中文推荐词库中存储中文词语,英文推荐词库中存储英文词语。标识映射表包括字表和拼音表。
在生成推荐表时,可以通过以下两个示例实现,第一个示例,根据中文推荐词库、字表和拼音表,按照第一预设数据结构,生成中文推荐表。中文推荐表中存储多个中文推荐词、以及每个中文推荐词中每个字的标识信息、每个字的拼音对应的标识信息和每个字的拼音首字母。其中,第一预设数据结构包括:推荐词中每个字对应的第一标识信息、推荐词中每个字的拼音对应的第二标识信息,以及推荐词中每个字的拼音的拼音首字母。示例性的,第一预设数据结构如表1所示,表1为本发明实施例提供的一种中文推荐表的可选的数据表格式的示意图,表1中的Field表示不同的存储结构,word中存储多个推荐词,charact_id存储推荐词中每个字对应的id,phonetic_id中存储推荐词中每个字的拼音对应的id,initial_char中存储推荐词中每个字的拼音首字母。Type表示不同的数据类型,varchar表示可变长字符串,Smallint表示短整型数据,char表示字母。
表1
Field | Type |
word | varchar |
charact_id | smallint |
phonetic_id | smallint |
initial_char | char |
第二个示例,根据英文推荐词库,按照第二预设数据结构,生成英文推荐表。英文推荐表中存储多个英文推荐词、以及每个英文推荐词中每个字母。其中,第二预设数据结构包括:推荐词中的每个字母。示例性的,第二预设数据结构如表2所示,表2为本发明实施例提供的一种英文推荐表的可选的数据表格式的示意图,表2中文字内容所表示的含义与表1相同,在此不再赘述。不同的是,由于英文推荐表中只需要存储字母即可,因此在表2的initial_char中依次存储每个字母。
表2
Field | Type |
initial_char | char |
需要说明的是,本发明实施例中的第一和第二只是为了区分名称,并不代表顺序关系,不能理解为指示或暗示相对重要性或者隐含指明所指示的技术特征的数量,例如,第一标识信息、第二标识信息,第一预设数据结构、第二预设数据结构。
表1中Word中存储推荐词库中所有的词语,也就是可能会推荐给用户的词语。示例性的,以中文推荐词“京东金融”为例,即word是“京东金融”,以下是中文推荐表中的一个中文推荐词的示例。
word:京东金融
charact_id_01:101
charact_id_02:22
charact_id_03:5968
charact_id_04:5162
phonetic_id_01:23
phonetic_id_02:14
phonetic_id_03:22
phonetic_id_04:265
initial_char_01:j
initial_char_02:d
initial_char_03:j
initial_char_04:r
中文推荐表中包括“京东金融”中每个字对应的标识信息,例如,“京”对应于charact_id_01,其标识信息为101,“东”对应于charact_id_02,其标识信息为22,“金”对应于charact_id_03,其标识信息为5968,“融”对应于charact_id_04,其标识信息为5162。中文推荐表中还包括“京东金融”中每个字的拼音对应的标识信息,例如,“jing”对应于phonetic_id_01,其标识信息为23,“dong”对应于phonetic_id_02,其标识信息为14,“jin”对应于phonetic_id_03,其标识信息为22,“rong”对应于phonetic_id_04,其标识信息为265。中文推荐表中还包括“京东金融”中每个字的拼音首字母,例如,“j”对应于initial_char_01,即“j”,“d”对应于initial_char_02,即“d”,“j”对应于initial_char_03,即“j”,“r”对应于initial_char_04,即“r”。
需要说明的是,上述标识信息可以由本领域技术人员根据实际情况进行设置,在此,仅是以“101、22、5968、5162、23、14、22、265”为例进行说明,并不代表本发明实施例中的标识信息的具体内容。
在一些实施例中,上述S104和S105还可以通过S301和S302实现,也可以理解为本发明实施例提供的搜索词推荐方法包括S101、S102、S103、S301和S302。在图1的基础上,如图3所示,图3为本发明实施例提供的再一种搜索词推荐方法的可选的步骤流程图。
S301、根据多个切分元各自的标识信息,在中文推荐表中进行匹配,得到中文候选推荐词。
其中,候选推荐词包括中文候选推荐词,推荐表包括中文推荐表,中文推荐表用于存储推荐词与标识信息之间的映射关系,以及推荐词中每个字的拼音的拼音首字母,标识信息包括推荐词中每个字对应的第一标识信息,以及推荐词中每个字的拼音对应的第二标识信息。
S302、若中文候选推荐词的数量为正整数,则将中文候选推荐词进行排序,得到排序结果。
本发明实施例通过对搜索词进行切分处理,得到多个切分元,然后在预设类型对应的标识映射表中查询切分元各自的标识信息,能够针对复杂的搜索词组合的情况进行搜索词纠错,例如,可以将汉字拼音混合输入的搜索词“京dongjr”纠正成正确的词语。
由于中文推荐表中存储有推荐词与标识信息之间的映射关系,以及推荐词中每个字的拼音的拼音首字母,标识信息包括推荐词中每个字对应的第一标识信息,以及推荐词中每个字的拼音对应的第二标识信息,因此可以根据多个切分元各自的标识信息,在中文推荐表中进行匹配,得到中文候选推荐词。若中文候选推荐词的数量不为0,则说明输入的搜索词中包含汉字,就不认为用户想输入的是英文,而是类似“京dong”这种包含拼音的情况。需要查询与中文相关的内容,向搜索栏中推荐中文候选推荐词,此时不需要在英文推荐表中进行查找,直接根据词频信息对中文候选推荐词进行排序,得到排序结果。
本发明实施例提供的搜索词推荐方法不仅可以对常规的单一字符组成的搜索词进行搜索词推荐,对于复杂的搜索词组合,同样能够进行搜索词推荐,提高了推荐搜索词的准确性。根据用户的输入习惯,若搜索词中的第一个字是中文,则用户大概率是要搜索中文。因此,若根据多个切分元各自的标识信息,在中文推荐表中匹配到的中文候选推荐词的数量为正整数,说明用户此次是要搜索中文,则将中文候选推荐词进行排序,得到排序结果,提高了推荐效率。
在一些实施例中,上述S301还可以通过以下方式实现:根据多个切分元各自的标识信息,以第一个切分元的标识信息为前缀,在中文推荐表中进行匹配,得到原始中文候选推荐词;将多个切分元各自的标识信息,按照标识信息的位置顺序,向后滑动一个或多个标识信息的位置之后,在中文推荐表中进行匹配,得到补充中文候选推荐词;其中,中文候选推荐词包括原始中文候选推荐词和补充中文候选推荐词。
示例性的,以搜索词是“京dongj”为例进行说明,对搜索词进行切分处理,得到多个切分元“京”“dong”和“j”,分别代表字、拼音全拼、拼音首字母三种类型。然后在字表和拼音表中查询“京”和“dong”对应的id为id1和id2,由于“j”对应字母,不需要进行查询。本示例中在中文推荐表中进行匹配时,可以通过以下伪代码实现。
select word from intelligent_table where charact_id[1]=id1 andphonetic_id[2]=id2 and initial_char[3]="j"。
通过以上伪代码可以查询到以“京”为前缀的符合条件的中文候选推荐词。
但是对于“京”处于中间位置的推荐词仍然无法匹配上,例如,对于“荣京东街”这个推荐词是匹配不到的,因为“京”处在第二个位置,而不是第一个位置。因此本发明实施例采用搜索条件向后滑动的方式继续匹配,可以通过以下伪代码实现。
其中,N为预先设置的最大词语长度,一般设置为8,也就是超过8个字的词语就不进行推荐了,len为搜索条件的词长,doc_set为根据搜索词匹配到补充中文候选推荐词。
如图4所示,图4为本发明实施例提供的一种滑动窗口匹配原理的可选的步骤流程图。图4中的N为预先设置的最大词语长度,图4中以N等于8、搜索词是“京dongj”为例进行说明,图4中的id1表示charact_id_01,即“京”的标识信息,id2表示phonetic_id_02,即“dong”的标识信息,id3表示initial_char_03,即“j”的标识信息。以按照顺序的多个切分元的标识信息id1 id2id3为搜索条件为例进行说明。
当I=1时,搜索条件右移一位,即将多个切分元的各自的标识信息,按照标识信息id1 id2 id3的位置顺序,向右滑动一个标识信息的位置,然后在中文推荐表中进行匹配,得到补充中文候选推荐词,上述补充中文候选推荐词的匹配方法通过以下伪代码实现。
select word from intelligent_table where charact_id[2]=id1 andphonetic_id[3]=id2 and initial_char[4]="j"。
其他情况以此类推。例如,当I=3时,搜索条件右移三位,即将多个切分元的各自的标识信息,按照标识信息id1 id2 id3的位置顺序,向右滑动三个标识信息的位置,然后在中文推荐表中进行匹配,得到补充中文候选推荐词,上述中文候选推荐词的匹配方法通过以下伪代码实现。
select word from intelligent_table where charact_id[4]=id1 andphonetic_id[5]=id2 and initial_char[6]="j"。
在根据搜索词进行推荐时,相关技术中,例如前缀树和DFA,只能返回以搜索词为前缀的推荐词,降低了推荐词的准确性和丰富性。本发明实施例中采用滑动窗口的方法,动态调整搜索条件,即调整搜索词中多个切分元的标识信息的位置,例如,向后滑动一个或多个标识信息的位置之后,按照标识信息的位置顺序,在中文推荐表中进行匹配,使得匹配到的补充中文候选推荐词更加丰富,提高了推荐效率,并且提高了搜索词推荐的准确性。
本发明实施例不仅能够返回搜索词在推荐词前缀的原始中文候选推荐词,还能够返回搜索词在推荐词中间部位的补充中文候选推荐词,提高了中文候选推荐词的丰富性和准确性。
在一些实施例中,在上述执行完S301之后,本发明实施例还可以执行S303-S305,也可以理解为本发明实施例提供的搜索词推荐方法包括S101、S102、S103、S301、S303、S304和S305。在图1和图3的基础上,如图5所示,图5为本发明实施例提供的又一种搜索词推荐方法的可选的步骤流程图,需要说明的是,S302与S303-S305为并列方案,在S301之后,可以执行S303-S305,也可以执行S302,具体执行方法根据中文候选推荐词的数量确定,对此本发明实施例不做限制。
S303、若中文候选推荐词的数量为零,对多个切分元进行单个字母的切分处理,得到多个字母。
S304、根据多个字母在英文推荐表中进行匹配,得到英文候选推荐词。
其中,候选推荐词还包括英文候选推荐词,推荐表还包括英文推荐表,英文推荐表用于存储推荐词的每个字母。
S305、将英文候选推荐词进行排序,得到排序结果。
若根据多个切分元各自的标识信息,在中文推荐表中进行匹配,得到的中文候选推荐词的数量为零,说明用户大概率是要搜索英文,因此需要对多个切分元进行单个字母的切分处理,得到多个字母。由于英文推荐表中存储的是推荐词的每个字母,因此根据多个字母在英文推荐表中进行匹配,得到英文候选推荐词,进而将英文候选推荐词进行排序,得到排序结果。
本发明实施例根据中文候选推荐词的数量,分别在中文推荐表中匹配得到中文候选推荐词,以及在英文推荐表中匹配得到英文候选推荐词,与通过前缀树进行搜索词推荐的方案相比,提高了匹配结果的准确性,
需要说明的是,对于特殊的搜索词,例如输入的搜索词是“women”,首先需要按拼音切分成wo和men,并在中文推荐表中进行匹配,若中文候选推荐词的数量为零,则按照英文推荐表进行切分,则是逐个字母切分,分别切分成w、o、m、e、n。
下面,将说明本发明实施例在一个实际的应用场景中的示例性应用。
本发明实施例提供了一种搜索词推荐方法,结合预设词库及用户历史查询词库,生成推荐词库,并对推荐词库实时进行更新。将推荐词库转换为与字、拼音、拼音首字母等标识信息具有映射关系的推荐表。然后对用户输入的搜索词进行切分处理,根据切分元所属的预设类型,在对应的字表或拼音表中查询切分元各自的标识信息。该方法可以针对汉字拼音混合输入的搜索词,进行纠错,从而提高基于推荐表匹配到的候选推荐词的准确性。本发明实施例还基于推荐表提供滑动窗口的搜索词推荐,不仅能够返回以搜索词为前缀的搜索词,还能够返回搜索词在中间位置的推荐词,提高了搜索词推荐的丰富性和准确性。
为便于理解本方案,在详细介绍搜索词推荐方法之前,先对搜索词推荐系统进行描述,如图6所示,图6为本发明实施例提供的一种搜索词推荐方法的可选的系统架构图。
1、推荐词库更新模块。
推荐词库更新模块用于更新推荐词库,根据预设词库和用户历史查询词库,更新推荐词库。首先在语料库中选择高频词语作为预设词库,后续通过对用户历史查询词库中用户查询日志进行分析,选取高频词语,对预设词库进行推荐词的补充,以及对预设词库中推荐词的词频信息进行更新,不断优化预设词库,得到推荐词库。推荐词库的更新频率可根据应用的实际情况进行调整,可以设置为每天更新一次。推荐词库是用户个性化的推荐词库,与用户的查询习惯密切相关,使得在通过该推荐词库对用户进行搜索词推荐,提高了搜索词推荐的准确性。
加载解析所有的推荐词库,构建相关的数据结构。根据推荐词库、字表和拼音表,生成推荐表。其中,推荐词库包括中文推荐词库和英文推荐词库,推荐表包括中文推荐表和英文推荐表。
2、预处理模块。
预处理模块可以理解为切分模块,搜索词可以理解为查询字符串。对于用户输入的查询字符串进行预处理,也就是按照查询字符串的类型进行切分操作,将输入的查询字符串切分为字、拼音和拼音首字母三部分。经过预处理后的查询字符串会转换为IntelligentInfo类型的数据结构。如上表1中IntelligentInfo类型的数据结构所示,charact_id存储推荐词中每个字对应的id,phonetic_id中存储推荐词中每个字对应拼音的id,initial_char中存储推荐词中每个字对应的拼音首字母。
3、推荐词匹配模块。
基于推荐表对用户输入的查询字符串进行匹配,将匹配到的词语加入候选集合。同时通过滑动窗口的方式扩展候选集合。针对候选集合中的候选推荐词按照词频信息进行从大到小的排序,将排序结果返回给用户。由于推荐词的词频信息会随着用户的查询情况动态变化,因此推荐词也需要进行动态更新。其中,候选集合包括原始中文候选推荐词、补充中文候选推荐词和英文候选推荐词中的一项或多项。
基于图6的系统架构图,本发明实施例提供了一种搜索词推荐方法,该方法所处的环节属于输入查询和提交查询的中间环节,也就是在提交给检索系统之前,对用户输入的查询字符串进行分析处理。在用户输入搜索词之后,提供给用户最接近的候选推荐词,从而提高推荐效率和搜索词的准确性。如图7所示,图7为本发明实施例提供的又一种搜索词推荐方法的可选的步骤流程图。
以查询字符串表示搜索词、查询条件表示多个切分元各自的标识信息、匹配到的词语表示中文候选推荐词或英文候选推荐词,为例进行说明。
1、根据预设词库和用户历史查询词库,生成中文推荐词库和英文推荐词库,搜索词推荐系统在运行过程中先加载解析推荐词库,结合字表和拼音表,生成推荐表。由于生成推荐表的步骤可以在搜索词推荐阶段之前完成,因此图7中未示出该步骤。本步骤中的推荐词库包括中文推荐词库和英文推荐词库,推荐表包括中文推荐表和英文推荐表。
2、对用户输入的查询字符串进行预处理,也就是按照查询字符串的类型进行切分操作,将输入的查询字符串切分为字、拼音和拼音首字母三部分。
3、将预处理后的查询条件,输入到中文推荐表中进行匹配,将查询条件进行滑动移位后再次进行匹配,并将匹配到的词语全部加入候选集合。
4、判断候选集合中推荐词的数量,如果不等于0,则跳转到第6步,否则执行第5步。
5、如果查询条件只包含字母,将查询条件按英文推荐表的格式进行预处理,也就是对查询条件进行单个字母的切分处理,并将再次预处理后的查询条件放到英文推荐表中进行匹配,并将匹配到的词语全部加入候选集合。
6、将候选集合中候选推荐词按照词频信息排序,将排序结果输出。
根据本发明实施例提供的搜索词推荐方法,在初始化部分,根据中文推荐词库、英文推荐词库、字库、拼音库,加载解析中文推荐词库和英文推荐词库,按照表1所示的数据表结构进行数据构建,生成中文推荐表和英文推荐表。接收用户输入的查询字符串,对查询字符串进行预处理,将其切分为字、拼音全拼和拼音首字母,完成对复杂的查询字符串进行纠错的过程。预处理完成后,分别在中文推荐表和英文推荐表中进行匹配,并将匹配到的词语全部加入候选集合,提高了候选集合的准确性。其中,在中文推荐表中进行匹配时,还基于滑动窗口原理调整查询条件后,继续进行匹配,并将匹配到的词语全部加入候选集合,提高了候选集合的丰富性和准确性。进而将候选集合中的候选推荐词,按词频信息从大到小的顺序进行排序,将排序结果输出,排序结果可以用于向用户进行搜索词推荐。
本发明实施例提供的搜索词推荐方法包括初始化阶段和搜索词推荐阶段,以下分别进行介绍。
在初始化阶段构建推荐表,本发明实施例是先建立中文推荐词库和英文推荐词库,加载解析推荐词库,结合字表和拼音表,从而构建中文推荐表和英文推荐表,完成初始化工作。对于推荐词库的生成,首先通过语料库中的高频词语中获得,后续通过对用户的查询日志分析选取高频词语进行补充,不断优化推荐词库,从而提高了推荐表的准确性。
在搜索词推荐阶段,本发明实施例根据用户输入的查询字符串,将查询字符串切分为字、拼音和拼音首字母,可以针对汉字拼音混合输入的搜索词,进行纠错,从而提高搜索词推荐的准确性。并查询字对应的charact_id和拼音对应得phontic_id,得到转换后的查询内容,即查询字符串中各个切分元的标识信息。然后,将转换后的查询内容在推荐表中进行匹配,并将匹配到的词语全部加入候选集合,提高了候选集合的准确性。其中,在中文推荐表中进行匹配时,还基于滑动窗口原理进行搜索词推荐,可以向用户推荐的推荐词不仅包括以搜索词为前缀的推荐词,还包括搜索词在中间位置的推荐词,大大扩充了候选集合,提高了候选推荐词的丰富性和准确性。
与通过前缀树进行搜索词推荐的方案相比,本发明实施例提供的搜索词推荐方法,不仅增强了对复杂的搜索词组合的纠错能力。并且基于滑动窗口原理的匹配方法,实现了对用户输入的查询字符串进行扩展,在将候选集合中的候选推荐词按照词频信息进行排序后,返回给用户,能够帮助用户快速定位到要查询的内容,提高了搜索效率,并且提高了搜索词推荐的准确性。
为实现本发明实施例的搜索词推荐方法,本发明实施例还提供一种搜索词推荐装置,如图8所示,图8为本发明实施例提供的一种搜索词推荐装置的结构示意图,该搜索词推荐装置80包括:获取模块801,用于获取搜索词;切分模块802,用于对所述搜索词进行切分处理,得到多个切分元;查询模块803,用于根据所述多个切分元所属的预设类型,分别在预设类型对应的标识映射表中查询所述多个切分元各自的标识信息;匹配模块804,用于根据所述多个切分元各自的标识信息,在推荐表中进行匹配,得到候选推荐词;推荐模块805,用于根据词频信息对所述候选推荐词进行排序,得到排序结果,使得根据所述排序结果进行推荐。
在一些实施例中,匹配模块804,还用于根据所述多个切分元各自的标识信息,在中文推荐表中进行匹配,得到中文候选推荐词;其中,所述候选推荐词包括所述中文候选推荐词,所述推荐表包括所述中文推荐表,所述中文推荐表用于存储推荐词与标识信息之间的映射关系,以及所述推荐词中每个字的拼音的拼音首字母,所述标识信息包括所述推荐词中每个字对应的第一标识信息,以及所述推荐词中每个字的拼音对应的第二标识信息;推荐模块805,还用于若所述中文候选推荐词的数量为正整数,则将所述中文候选推荐词进行排序,得到所述排序结果。
在一些实施例中,切分模块802,还用于若所述中文候选推荐词的数量为零,则对所述多个切分元进行单个字母的切分处理,得到多个字母;匹配模块804,还用户根据所述多个字母在英文推荐表中进行匹配,得到英文候选推荐词;其中,所述候选推荐词还包括所述英文候选推荐词,所述推荐表还包括所述英文推荐表,所述英文推荐表用于存储推荐词的每个字母;推荐模块805,还用于将所述英文候选推荐词进行排序,得到所述排序结果。
在一些实施例中,匹配模块804,还用于根据所述多个切分元各自的标识信息,以第一个切分元的标识信息为前缀,在所述中文推荐表中进行匹配,得到原始中文候选推荐词;将所述多个切分元各自的标识信息,按照标识信息的位置顺序,向后滑动一个或多个标识信息的位置之后,在所述中文推荐表中进行匹配,得到补充中文候选推荐词;其中,所述中文候选推荐词包括所述原始中文候选推荐词和所述补充中文候选推荐词。
在一些实施例中,所述预设类型包括字、拼音和拼音首字母,所述标识映射表包括字表和拼音表,所述标识信息包括第一标识信息、第二标识信息和第三标识信息,查询模块803,还用于若所述多个切分元中存在预设类型为字的切分元,则在所述字表中查询该切分元的第一标识信息;若所述多个切分元中存在预设类型为拼音的切分元,则在所述拼音表中查询该切分元的第二标识信息;若所述多个切分元中存在预设类型为拼音首字母的切分元,则所述切分元的第三标识信息为所述拼音首字母本身。
在一些实施例中,搜索词推荐装置80还包括生成模块,生成模块还用于获取预设词库和用户历史查询词库;根据所述用户历史查询词库,对所述预设词库中的推荐词以及所述推荐词的词频信息进行更新,生成推荐词库;根据所述推荐词库和所述标识映射表,生成所述推荐表。
在一些实施例中,所述标识映射表包括字表和拼音表,所述推荐词库包括中文推荐词库和英文推荐词库,所述推荐表包括中文推荐表和英文推荐表,生成模块还用于根据所述中文推荐词库、所述字表和所述拼音表,按照第一预设数据结构,生成所述中文推荐表,其中,所述第一预设数据结构包括:推荐词中每个字对应的第一标识信息、所述推荐词中每个字的拼音对应的第二标识信息,以及所述推荐词中每个字的拼音的拼音首字母;根据所述英文推荐词库,按照第二预设数据结构,生成所述英文推荐表,所述第二预设数据结构包括:推荐词中的每个字母。
需要说明的是,上述实施例提供的搜索词推荐装置在进行搜索词推荐时,仅以上述各程序模块的划分进行举例说明,实际应用中,可以根据需要而将上述处理分配由不同的程序模块完成,即将装置的内部结构划分成不同的程序模块,以完成以上描述的全部或者部分处理。另外,上述实施例提供的搜索词推荐装置与搜索词推荐方法实施例属于同一构思,其具体实现过程及有益效果详见方法实施例,这里不再赘述。对于本装置实施例中未披露的技术细节,请参照本发明方法实施例的描述而理解。
在本发明实施例中,图9为本发明实施例提出的搜索词推荐设备组成结构示意图,如图9示,本发明实施例提出的搜索词推荐设备90可以包括处理器901和存储器902,存储器902存储有可在处理器901上运行的计算机程序,在一些实施例中,搜索词推荐设备90还可以包括通信接口903,和用于连接处理器901、存储器902以及通信接口903的总线904。
在本发明实施例中,上述处理器901可以为特定用途集成电路(ApplicationSpecific Integrated Circuit,ASIC)、数字信号处理器(Digital Signal Processor,DSP)、数字信号处理装置(Digital Signal Processing Device,DSPD)、可编程逻辑装置(ProgRAMmable Logic Device,PLD)、现场可编程门阵列(Field ProgRAMmable GateArray,FPGA)、中央处理器(Central Processing Unit,CPU)、控制器、微控制器、微处理器中的至少一种。可以理解地,对于不同的设备,用于实现上述处理器功能的电子器件还可以为其它,本发明实施例不作具体限定。
在本发明实施例中,存储器902可以与处理器901连接,其中,存储器902用于存储可执行程序代码和数据,该程序代码包括计算机操作指令,存储器902可能包含高速RAM存储器,也可能还包括非易失性存储器,例如,至少两个磁盘存储器。
在本发明实施例中,总线904用于连接通信接口903、处理器901以及存储器902以及这些器件之间的相互通信。
在本发明实施例中,上述处理器901,用于获取搜索词;对所述搜索词进行切分处理,得到多个切分元;根据所述多个切分元所属的预设类型,分别在预设类型对应的标识映射表中查询所述多个切分元各自的标识信息;根据所述多个切分元各自的标识信息,在推荐表中进行匹配,得到候选推荐词;根据词频信息对所述候选推荐词进行排序,得到排序结果,使得根据所述排序结果进行推荐。
在实际应用中,上述存储器902可以是易失性存储器(volatile memory),例如随机存取存储器(Random-Access Memory,RAM);或者非易失性存储器(non-volatilememory),例如只读存储器(Read-Only Memory,ROM),快闪存储器(flash memory),硬盘(Hard Disk Drive,HDD)或固态硬盘(Solid-State Drive,SSD);或者上述种类的存储器的组合,并向处理器901提供指令和数据。
另外,在本实施例中的各功能模块可以集成在一个处理单元中,也可以是各个单元单独物理存在,也可以两个或两个以上单元集成在一个单元中。上述集成的单元既可以采用硬件的形式实现,也可以采用软件功能模块的形式实现。
集成的单元如果以软件功能模块的形式实现并非作为独立的产品进行销售或使用时,可以存储在一个计算机可读取存储介质中,基于这样的理解,本实施例的技术方案本质上或者说对现有技术做出贡献的部分或者该技术方案的全部或部分可以以软件产品的形式体现出来,该计算机软件产品存储在一个存储介质中,包括若干指令用以使得一台计算机设备(可以是个人计算机,服务器,或者网络设备等)或processor(处理器)执行本实施例方法的全部或部分步骤。而前述的存储介质包括:U盘、移动硬盘、只读存储器(Read OnlyMemory,ROM)、随机存取存储器(Random Access Memory,RAM)、磁碟或者光盘等各种可以存储程序代码的介质。
本发明实施例提供一种计算机可读存储介质,其上存储有程序,该程序被处理器执行时实现如上任一实施例所述的搜索词推荐方法。
示例性的,本实施例中的一种搜索词推荐方法对应的程序指令可以被存储在光盘,硬盘,U盘等存储介质上,当存储介质中的与一种搜索词推荐方法对应的程序指令被一电子设备读取或被执行时,可以实现如上述任一实施例所述的搜索词推荐方法。
本领域内的技术人员应明白,本发明实施例可提供为方法、系统、或计算机程序产品。因此,本发明可采用硬件实施例、软件实施例、或结合软件和硬件方面的实施例的形式。而且,本发明可采用在一个或多个其中包含有计算机可用程序代码的计算机可用存储介质(包括但不限于磁盘存储器和光学存储器等)上实施的计算机程序产品的形式。
本发明是参照根据本发明实施例的方法、设备(系统)、和计算机程序产品的实现流程示意图和/或方框图来描述的。应理解可由计算机程序指令实现流程示意图和/或方框图中的每一流程和/或方框、以及实现流程示意图和/或方框图中的流程和/或方框的结合。可提供这些计算机程序指令到通用计算机、专用计算机、嵌入式处理机或其他可编程数据处理设备的处理器以产生一个机器,使得通过计算机或其他可编程数据处理设备的处理器执行的指令产生用于实现在实现流程示意图一个流程或多个流程和/或方框图一个方框或多个方框中指定的功能的装置。
这些计算机程序指令也可存储在能引导计算机或其他可编程数据处理设备以特定方式工作的计算机可读存储器中,使得存储在该计算机可读存储器中的指令产生包括指令装置的制造品,该指令装置实现在实现流程示意图一个流程或多个流程和/或方框图一个方框或多个方框中指定的功能。
这些计算机程序指令也可装载到计算机或其他可编程数据处理设备上,使得在计算机或其他可编程设备上执行一系列操作步骤以产生计算机实现的处理,从而在计算机或其他可编程设备上执行的指令提供用于实现在实现流程示意图一个流程或多个流程和/或方框图一个方框或多个方框中指定的功能的步骤。
以上所述,仅为本发明的较佳实施例而已,并非用于限定本发明的保护范围。
Claims (10)
1.一种搜索词推荐方法,其特征在于,所述方法包括:
获取搜索词;
对所述搜索词进行切分处理,得到多个切分元;
根据所述多个切分元所属的预设类型,分别在预设类型对应的标识映射表中查询所述多个切分元各自的标识信息;
根据所述多个切分元各自的标识信息,在推荐表中进行匹配,得到候选推荐词;
根据词频信息对所述候选推荐词进行排序,得到排序结果,使得根据所述排序结果进行推荐。
2.根据权利要求1所述的方法,其特征在于,所述根据所述多个切分元各自的标识信息,在推荐表中进行匹配,得到候选推荐词,根据词频信息对所述候选推荐词进行排序,得到排序结果,包括:
根据所述多个切分元各自的标识信息,在中文推荐表中进行匹配,得到中文候选推荐词;
其中,所述候选推荐词包括所述中文候选推荐词,所述推荐表包括所述中文推荐表,所述中文推荐表用于存储推荐词与标识信息之间的映射关系,以及所述推荐词中每个字的拼音的拼音首字母,所述标识信息包括所述推荐词中每个字对应的第一标识信息,以及所述推荐词中每个字的拼音对应的第二标识信息;
若所述中文候选推荐词的数量为正整数,则将所述中文候选推荐词进行排序,得到所述排序结果。
3.根据权利要求2所述的方法,其特征在于,所述方法还包括:
若所述中文候选推荐词的数量为零,则对所述多个切分元进行单个字母的切分处理,得到多个字母;
根据所述多个字母在英文推荐表中进行匹配,得到英文候选推荐词;其中,所述候选推荐词还包括所述英文候选推荐词,所述推荐表还包括所述英文推荐表,所述英文推荐表用于存储推荐词的每个字母;
将所述英文候选推荐词进行排序,得到所述排序结果。
4.根据权利要求2所述的方法,其特征在于,所述根据所述多个切分元各自的标识信息,在中文推荐表中进行匹配,得到中文候选推荐词,包括:
根据所述多个切分元各自的标识信息,以第一个切分元的标识信息为前缀,在所述中文推荐表中进行匹配,得到原始中文候选推荐词;
将所述多个切分元各自的标识信息,按照标识信息的位置顺序,向后滑动一个或多个标识信息的位置之后,在所述中文推荐表中进行匹配,得到补充中文候选推荐词;
其中,所述中文候选推荐词包括所述原始中文候选推荐词和所述补充中文候选推荐词。
5.根据权利要求1所述的方法,其特征在于,所述预设类型包括字、拼音和拼音首字母,所述标识映射表包括字表和拼音表,所述标识信息包括第一标识信息、第二标识信息和第三标识信息,所述根据所述多个切分元所属的预设类型,分别在预设类型对应的标识映射表中查询多个切分元各自的标识信息,包括:
若所述多个切分元中存在预设类型为字的切分元,则在所述字表中查询该切分元的第一标识信息;
若所述多个切分元中存在预设类型为拼音的切分元,则在所述拼音表中查询该切分元的第二标识信息;
若所述多个切分元中存在预设类型为拼音首字母的切分元,则所述切分元的第三标识信息为所述拼音首字母本身。
6.根据权利要求1-5任一项所述的方法,其特征在于,所述方法还包括:
获取预设词库和用户历史查询词库;
根据所述用户历史查询词库,对所述预设词库中的推荐词以及所述推荐词的词频信息进行更新,生成推荐词库;
根据所述推荐词库和所述标识映射表,生成所述推荐表。
7.根据权利要求6所述的方法,其特征在于,所述标识映射表包括字表和拼音表,所述推荐词库包括中文推荐词库和英文推荐词库,所述推荐表包括中文推荐表和英文推荐表,所述根据所述推荐词库和所述标识映射表,生成所述推荐表,包括:
根据所述中文推荐词库、所述字表和所述拼音表,按照第一预设数据结构,生成所述中文推荐表,其中,所述第一预设数据结构包括:推荐词中每个字对应的第一标识信息、所述推荐词中每个字的拼音对应的第二标识信息,以及所述推荐词中每个字的拼音的拼音首字母;
根据所述英文推荐词库,按照第二预设数据结构,生成所述英文推荐表,所述第二预设数据结构包括:推荐词中的每个字母。
8.一种搜索词推荐装置,其特征在于,所述装置包括:
获取模块,用于获取搜索词;
切分模块,用于对所述搜索词进行切分处理,得到多个切分元;
查询模块,用于根据所述多个切分元所属的预设类型,分别在预设类型对应的标识映射表中查询所述多个切分元各自的标识信息;
匹配模块,用于根据所述多个切分元各自的标识信息,在推荐表中进行匹配,得到候选推荐词;
推荐模块,用于根据词频信息对所述候选推荐词进行排序,得到排序结果,使得根据所述排序结果进行推荐。
9.一种搜索词推荐设备,其特征在于,所述设备包括存储器和处理器,所述存储器存储有可在处理器上运行的计算机程序,所述处理器执行所述程序时实现权利要求1-7任一项所述方法中的步骤。
10.一种计算机可读存储介质,其特征在于,其上存储有可执行指令,用于被处理器执行时,实现权利要求1-7任一项所述的方法。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202111264694.6A CN114036371A (zh) | 2021-10-28 | 2021-10-28 | 搜索词推荐方法、装置、设备和计算机可读存储介质 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202111264694.6A CN114036371A (zh) | 2021-10-28 | 2021-10-28 | 搜索词推荐方法、装置、设备和计算机可读存储介质 |
Publications (1)
Publication Number | Publication Date |
---|---|
CN114036371A true CN114036371A (zh) | 2022-02-11 |
Family
ID=80142243
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN202111264694.6A Pending CN114036371A (zh) | 2021-10-28 | 2021-10-28 | 搜索词推荐方法、装置、设备和计算机可读存储介质 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN114036371A (zh) |
Cited By (4)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN114861031A (zh) * | 2022-04-24 | 2022-08-05 | 支付宝(杭州)信息技术有限公司 | 用户搜索处理方法及装置 |
CN115017398A (zh) * | 2022-06-24 | 2022-09-06 | 咪咕文化科技有限公司 | 英文搜索词的纠错搜索方法及装置 |
CN115269959A (zh) * | 2022-07-23 | 2022-11-01 | 企知道网络技术有限公司 | 一种搜索联想推荐方法、装置、电子设备及存储介质 |
CN117708308A (zh) * | 2024-02-06 | 2024-03-15 | 四川蓉城蕾茗科技有限公司 | 一种基于rag自然语言智能知识库管理的方法和系统 |
Citations (2)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN103365925A (zh) * | 2012-04-09 | 2013-10-23 | 高德软件有限公司 | 获取多音字拼音、基于拼音检索的方法及其相应装置 |
CN111581490A (zh) * | 2019-02-15 | 2020-08-25 | 北京无限光场科技有限公司 | 一种信息搜索方法、装置、存储介质及电子设备 |
-
2021
- 2021-10-28 CN CN202111264694.6A patent/CN114036371A/zh active Pending
Patent Citations (2)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN103365925A (zh) * | 2012-04-09 | 2013-10-23 | 高德软件有限公司 | 获取多音字拼音、基于拼音检索的方法及其相应装置 |
CN111581490A (zh) * | 2019-02-15 | 2020-08-25 | 北京无限光场科技有限公司 | 一种信息搜索方法、装置、存储介质及电子设备 |
Non-Patent Citations (2)
Title |
---|
ARSENAULT CLEMENT: "Aggregation consistency and frequency of Chinese words and characters", 《JOURNAL OF DOCUMENTATION》, vol. 62, no. 5, 1 September 2006 (2006-09-01), pages 606 - 633 * |
杨晓晖 等: "基于知识图谱的社交网络用户行为研究进展", 《河北大学学报(自然科学版)》, vol. 41, no. 01, 25 January 2021 (2021-01-25), pages 77 - 86 * |
Cited By (5)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN114861031A (zh) * | 2022-04-24 | 2022-08-05 | 支付宝(杭州)信息技术有限公司 | 用户搜索处理方法及装置 |
CN115017398A (zh) * | 2022-06-24 | 2022-09-06 | 咪咕文化科技有限公司 | 英文搜索词的纠错搜索方法及装置 |
CN115269959A (zh) * | 2022-07-23 | 2022-11-01 | 企知道网络技术有限公司 | 一种搜索联想推荐方法、装置、电子设备及存储介质 |
CN117708308A (zh) * | 2024-02-06 | 2024-03-15 | 四川蓉城蕾茗科技有限公司 | 一种基于rag自然语言智能知识库管理的方法和系统 |
CN117708308B (zh) * | 2024-02-06 | 2024-05-14 | 四川蓉城蕾茗科技有限公司 | 一种基于rag自然语言智能知识库管理的方法和系统 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
CN114036371A (zh) | 搜索词推荐方法、装置、设备和计算机可读存储介质 | |
US9424351B2 (en) | Hybrid-distribution model for search engine indexes | |
CN101978348B (zh) | 管理关于近似串匹配的档案 | |
JP3672242B2 (ja) | パターン検索方法、パターン検索装置、コンピュータプログラム及び記憶媒体 | |
US7895195B2 (en) | Method and apparatus for constructing a link structure between documents | |
CN110059163B (zh) | 生成模板的方法和装置、电子设备、计算机可读介质 | |
CN105589894B (zh) | 文档索引建立方法和装置、文档检索方法和装置 | |
CN112115232A (zh) | 一种数据纠错方法、装置及服务器 | |
CN103733193A (zh) | 统计拼写检查器 | |
US8090722B2 (en) | Searching related documents | |
US11741064B2 (en) | Fuzzy search using field-level deletion neighborhoods | |
CN107239549A (zh) | 数据库术语检索的方法、装置及终端 | |
US20080270396A1 (en) | Indexing versioned document sequences | |
CN105404677A (zh) | 一种基于树形结构的检索方法 | |
CN116738065B (zh) | 一种企业搜索方法、装置、设备及存储介质 | |
CN105224624A (zh) | 一种实现倒排链快速归并的方法和装置 | |
CN112925882B (zh) | 一种信息处理方法及装置 | |
JP2007535009A (ja) | リレーショナルデータベースの超集合のためのデータ構造と管理システム | |
CN114036256A (zh) | 基于Solr的非结构化文件检索方法、装置、设备及存储介质 | |
CN114297143A (zh) | 一种搜索文件的方法、显示文件的方法、装置及移动终端 | |
CN113641782B (zh) | 基于检索语句的信息检索方法、装置、设备和介质 | |
CN105426490A (zh) | 一种基于树形结构的索引方法 | |
CN117112904A (zh) | 基于大语言模型的智能资讯推荐及资讯搜索系统 | |
CN113641783B (zh) | 基于关键语句的内容块检索方法、装置、设备和介质 | |
CN110866088B (zh) | 一种语料库之间的快速全文检索方法及系统 |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination |