CN107862015A

CN107862015A - 一种关键词关联扩展方法和装置

Info

Publication number: CN107862015A
Application number: CN201711039845.1A
Authority: CN
Inventors: 倪嘉呈
Original assignee: Beijing QIYI Century Science and Technology Co Ltd
Current assignee: Beijing QIYI Century Science and Technology Co Ltd
Priority date: 2017-10-30
Filing date: 2017-10-30
Publication date: 2018-03-30

Abstract

本发明提供了一种关键词关联扩展方法和装置。具体为获取语料数据，对语料数据进行切词处理，得到词条合集；利用word2vec工具对词条合集进行训练，得到词条合集的词向量合集；对预置的关键词合集中每个关键词进行切词处理，并根据切词结果和词向量合集得到每个关键词的关键词向量，所有关键词向量构成关键词合集的关键词向量合集；根据每个关键词的关键词向量计算选定的关键词的与其他关键词之间的欧氏距离；根据欧氏距离从关键词合集中选取相关关键词。由于通过切词处理得到的词向量表达了每个词条和关键词词条的语义特征，因此相对于仅考虑仅依赖于文本相关性和点击日志的其他扩展技术方案来说，增强了语义关联特征，从而使得到的扩展结果更为丰富全面。

Description

一种关键词关联扩展方法和装置

技术领域

本发明涉及搜索引擎技术领域，特别是涉及一种关键词关联扩展方法和装置。

背景技术

关键词扩充、同义词挖掘等关键词关联扩展技术是搜索引擎和广告关键词定向中的重要技术手段，用于使搜索引擎为用户提供更丰富的内容，或者使广告投放的效果更佳。本发明的申请人在实施本申请技术方案的时候发现，目前在进行关键词关联扩展时，主要依赖于对关键词的文本相关性和点击日志的贡献，而对关键词的语义关联扩展明显不足，从而导致扩展结果不够丰富全面。

发明内容

有鉴于此，本发明提供了一种关键词关联扩展方法和装置，以解决目前进行关键词关联扩展的扩展结果不够丰富全面的问题。

为了解决上述问题，本发明公开了一种关键词关联扩展方法，具体包括步骤：

获取语料数据，对所述语料数据进行切词处理，得到词条合集；

利用word2vec工具对所述词条合集进行训练，得到所述词条合集的词向量合集；

对预置的关键词合集中每个关键词进行切词处理，并根据切词结果和所述词向量合集得到每个关键词的关键词向量，所有关键词向量构成所述关键词合集的关键词向量合集；

根据每个关键词向量分别计算选定的关键词的与其他关键词之间的欧氏距离；

根据所述欧氏距离从所述关键词合集中选取相关关键词。

可选的，所述获取语料数据，对所述语料数据进行切词处理，得到词条合集，包括：

获取主题相关的语料数据，所述语料数据由搜索点击日志中的搜索关键词和搜索之后用户所点击的网页标题拼接而成；

利用预设的切词工具对所述语料数据进行切词处理，得到所述词条合集。

可选的，所述对预置的关键词合集中每个关键词进行切词处理，并根据切词结果和所述词向量合集得到每个关键词的关键词向量，包括：

对每个关键词进行切词处理，得到多个关键词词条；

根据所述多个关键词词条从所述词向量合集中进行查找，得到每个关键词词条的词条向量；

计算每个关键词词条的词条权重；

根据预设的计算公式对所述词条向量和所述词条权重进行计算，得到每条关键词的关键词向量，所有关键词向量构成所述关键词向量合集。

可选的，所述关键词向量为归一化值。

可选的，所述根据所述欧氏距离从所述关键词合集中选取相关关键词，包括：

在得到多个欧氏距离后，选取前K个数值最小的欧氏距离，所述K为非负整数；

将选取的欧氏距离对应的关键词确定为所述相关关键词。

相应的，为了保证上述方法的实施，本发明还提供了一种关键词关联扩展装置，包括：

语料处理模块，用于获取语料数据，对所述语料数据进行切词处理，得到词条合集；

词条训练模块，用于利用word2vec工具对所述词条合集进行训练，得到所述词条合集的词向量合集；

关键词处理模块，用于对预置的关键词合集中每个关键词进行切词处理，并根据切词结果和所述词向量合集得到每个关键词的关键词向量，所有关键词向量构成所述关键词合集的关键词向量合集；

距离计算模块，用于根据每个关键词向量分别计算选定的关键词的与其他关键词之间的欧氏距离；

相关选取模块，用于根据所述欧氏距离从所述关键词合集中选取相关关键词。

可选的，所述语料处理模块包括：

语料获取单元，用于获取主题相关的语料数据，所述语料数据由搜索点击日志中的搜索关键词和搜索之后用户所点击的网页标题拼接而成；

语料切词单元，用于利用预设的切词工具对所述语料数据进行切词处理，得到所述词条合集。

可选的，所述关键词处理模块包括：

关键词切词单元，用于对每个关键词进行切词处理，得到多个关键词词条；

向量查找单元，用于根据所述多个关键词词条从所述词向量合集中进行查找，得到每个关键词词条的词条向量；

权重计算单元，用于计算每个关键词词条的词条权重；

向量计算单元，用于根据预设的计算公式对所述词条向量和所述词条权重进行计算，得到每条关键词的关键词向量，所有关键词向量构成所述关键词向量合集。

可选的，所述关键词向量为归一化值。

可选的，所述相关选取模块包括：

欧氏距离选取单元，用于在得到多个欧氏距离后，选取前K个数值最小的欧氏距离，所述K为非负整数；

相关词选取单元，用于将选取的欧氏距离对应的关键词确定为所述相关关键词。

从上述技术方案可以看出，本发明提供了一种关键词关联扩展方法和装置，该方法和装置具体为获取语料数据，对语料数据进行切词处理，得到词条合集；利用word2vec工具对词条合集进行训练，得到词条合集的词向量合集；对预置的关键词合集中每个关键词进行切词处理，并根据切词结果和词向量合集得到每个关键词的关键词向量，所有关键词向量构成关键词合集的关键词向量合集；根据每个关键词的关键词向量计算选定的关键词的与其他关键词之间的欧氏距离；根据欧氏距离从关键词合集中选取相关关键词。由于通过切词处理得到的词向量表达了每个词条和关键词词条的语义特征，因此相对于仅考虑仅依赖于文本相关性和点击日志的其他扩展技术方案来说，增强了语义关联特征，从而使得到的扩展结果更为丰富全面。

附图说明

为了更清楚地说明本发明实施例或现有技术中的技术方案，下面将对实施例或现有技术描述中所需要使用的附图作简单地介绍，显而易见地，下面描述中的附图仅仅是本发明的一些实施例，对于本领域普通技术人员来讲，在不付出创造性劳动的前提下，还可以根据这些附图获得其他的附图。

图1为本发明提供的一种关键词关联扩展方法实施例的步骤流程图；

图2为本发明提供的一种关键词关联扩展装置实施例的结构框图。

具体实施方式

下面将结合本发明实施例中的附图，对本发明实施例中的技术方案进行清楚、完整地描述，显然，所描述的实施例仅仅是本发明一部分实施例，而不是全部的实施例。基于本发明中的实施例，本领域普通技术人员在没有做出创造性劳动前提下所获得的所有其他实施例，都属于本发明保护的范围。

实施例一

图1为本发明提供的一种关键词关联扩展方法实施例的步骤流程图。

参照图1所示，本实施例提供的关键词关联扩展方法用于根据对用户在使用搜索引擎时输入的关键词进行关联扩展或者同义词挖掘，具体的关联扩展方法包括如下步骤：

S101：对获取到的语料数据进行切词处理的，得到词条合集。

这里的语料数据包括搜索引擎的搜索点击日志中的搜索关键词，即用户在使用搜索引擎时输入的搜索关键词，还包括在得到搜索结果后用户点击的网页标题。

具体的过程为：首先，获取与主题相关的语料数据，该语料数据包括上述搜索关键词和网页标题，在得到两者后将其进行拼接处理，从而得到该语料数据。

然后，利用预设的切词工具对语料数据进行切词处理，该切词工具可选用jieba分词等工具，切词处理后的到语料数据的多个词条，这些词条构成语料数据的词条合集。

S102：对词条合集进行训练，得到词条合集的词向量合集。

在得到语料数据的词条合集后，利用word2vec工具对词条合集中的大规模词条进行训练，可以得到每个词条的向量表达，即每个词条的词条向量。

如果将词条合集记为T，每个词条t∈T，每个词条的向量表达、即词条向量表达为v(t)，并将T的向量化集合、即词向量合集记为V(T)＝{v(t)|t∈T}。

所谓词向量，对于词典D中的任意词w，制定一个固定长度的实值向量V(w)∈R^m，则V(w)为w的词向量，m为词向量的长度。词向量可以通过LSA工具、LDA工具或者神将网络算法计算取得，本申请中选用word2vec工具对词条进行训练的方法取得词向量。

S103：对关键词合集中的关键词进行处理，得到关键词向量合集。

基于上述得到的关键词合集，通过对该合集中的每个关键词见切词处理，并根据切词结果词向量结合得到每个关键词的关键词向量，所有的关键词向量构成关键词合集的关键词向量合集。具体步骤如下：

首先，对词向量合集K中每个关键词k(k∈K)进行切词处理，切词的方法与上面切词可以相同，从而得到多个词条，为描述方法可以将其称为关键词词条t(k)＝{t1，t2，….t_nk}。

然后，在得到所有关键词的关键词词条后，根据关键词词条从上述的词向量合集V(T)＝{v(t)|t∈T}中进行查找，从而得到每个关键词词条的词条向量v(t₁),…,v(t_nk)。

再后，计算每个关键词词条t1，t2，….t_nk的词条权重w(t₁),…w(t_nk)，其中w(t_i)＝freq(t_i)*idf(t_i),，freq(t_i)表示t_i在t(k)中出现的频次，idf(t_i)表示t_i的逆文档序。

最后，根据预算公式对词条向量和词条权重进行计算，从而得到每条关键词的关键词向量，计算过程为：

关键词向量v(k)＝w(t₁)*v(t₁)+...+w(t_nq)*v(t_nk)；

所有关键词的关键词向量构成关键词全集的关键词向量合集。另外，在得到关键词向量后对其进行归一化处理：

v(k)＝v(k)/||v(k)||，其中||.||表示取向量的模，因此，这里关键词向量合集中的关键词向量为经过归一化处理后的归一化值。

归一化处理是一种无量纲处理手段，使物理系统数值的绝对值变成某种相对值关系，是简化计算，缩小量值的有效办法。例如滤波器中各个频率值以截止频率作归一化后，频率都是截止频率的相对值，没有了量纲。阻抗以电源内阻作归一化后，各个阻抗都成了一种相对阻抗值，“欧姆”这个量纲也没有了。当各种运算都结束后，通过反归一化处理即可得到复原后的数值了。

S104：计算选定的关键词与其他关键词之间的欧氏距离。

在得到上述关键词向量合集后，根据每个关键词的关键词向量通过遍历的方法计算被选定的关键词与其他关键词之间的欧氏距离。其中选定的关键词是指词条合集中的关键词，而其他关键词是指该词条合集中被选定的关键词外的其他关键词。

S105：根据欧氏距离确定选定的关键词的相关关键词。

在得到选定的关键词与其他每个关键词之间的欧氏距离后，即得到多个欧氏距离后，从中选取前K个最短的欧氏距离，K为非负整数。即这些欧氏距离所对应的关键词比另一些关键词的与选定的关键词之间的欧氏距离更短；

选定上述K个欧氏距离后，将这些欧氏距离所对应的关键词确定为与选定的关键性相关联的关联关键词。

从上述技术方案可以看出，本实施例提供了一种关键词关联扩展方法，具体为获取语料数据，对语料数据进行切词处理，得到词条合集；利用word2vec工具对词条合集进行训练，得到词条合集的词向量合集；对预置的关键词合集中每个关键词进行切词处理，并根据切词结果和词向量合集得到每个关键词的关键词向量，所有关键词向量构成关键词合集的关键词向量合集；根据每个关键词的关键词向量计算选定的关键词的与其他关键词之间的欧氏距离；根据欧氏距离从关键词合集中选取相关关键词。由于通过切词处理得到的词向量表达了每个词条和关键词词条的语义特征，因此相对于仅考虑仅依赖于文本相关性和点击日志的其他扩展技术方案来说，增强了语义关联特征，从而使得到的扩展结果更为丰富全面。

需要说明的是，对于方法实施例，为了简单描述，故将其都表述为一系列的动作组合，但是本领域技术人员应该知悉，本发明实施例并不受所描述的动作顺序的限制，因为依据本发明实施例，某些步骤可以采用其他顺序或者同时进行。其次，本领域技术人员也应该知悉，说明书中所描述的实施例均属于优选实施例，所涉及的动作并不一定是本发明实施例所必须的。

实施例二

参照图2所示，本实施例提供的关键词关联扩展装置用于根据对用户在使用搜索引擎时输入的关键词进行关联扩展或者同义词挖掘，关联扩展装置包括语料处理模块10、词条训练模块20、关键词处理模块30、距离计算模块40和关键词选取模块50。语料处理模块用于获取语料数据，并对语料数据进行切词处理的，得到词条合集。

该模块包括语料获取单元和语料切词单元，语料获取单元用获取与主题相关的语料数据，该语料数据包括上述搜索关键词和网页标题，在得到两者后将其进行拼接处理，从而得到该语料数据。

语料切词单元则用于利用预设的切词工具对语料数据进行切词处理，该切词工具可选用jieba分词等工具，切词处理后的到语料数据的多个词条，这些词条构成语料数据的词条合集。

词条训练模块用于对词条合集进行训练，得到词条合集的词向量合集。

关键词处理模块用于对关键词合集中的关键词进行处理，得到关键词向量。

基于上述得到的关键词合集，通过对该合集中的每个关键词见切词处理，并根据切词结果词向量结合得到每个关键词的关键词向量，所有的关键词向量构成关键词合集的关键词向量合集。该模块包括关键词切词单元、向量查找单元、权重计算单元和向量计算单元。

关键词切词单元用于对词向量合集K中每个关键词k(k∈K)进行切词处理，切词的方法与上面切词可以相同，从而得到多个词条，为描述方法可以将其称为关键词词条t(k)＝{t1，t2，….t_nk}。

向量查找单元用于在得到所有关键词的关键词词条后，根据关键词词条从上述的词向量合集V(T)＝{v(t)|t∈T}中进行查找，从而得到相应关键词词条的每个关键词词条的词条向量v(t₁),…,v(t_nk)。

权重计算单元用于计算每个关键词词条t1，t2，….t_nk的词条权重w(t₁),…w(t_nk)，其中w(t_i)＝freq(t_i)*idf(t_i),，freq(t_i)表示t_i在t(k)中出现的频次，idf(t_i)表示t_i的逆文档序。

向量查找单元用于根据预算公式对词条向量和词条权重进行计算，从而得到每条关键词的关键词向量，计算过程为：

关键词向量v(k)＝w(t₁)*v(t₁)+...+w(t_nq)*v(t_nk)；

v(k)＝v(k)/||v(k)||，其中||.||表示取向量的模，因此，这里关键词向量合集中的关键词向量时经过归一化处理后的归一化值。

距离计算模块用于计算选定的关键词与其他关键词之间的欧氏距离。

在得到上述关键词向量合集后，根据每个关键词的关键词向量通过遍历的方法计算被选定的关键词与其他关键词之间的欧氏距离。

关键词选取模块用于根据欧氏距离确定选定的关键词的相关关键词。

该模块包括欧氏距离选取单元和相关词选取单元，欧氏距离选取单元用于在得到选定的关键词与其他每个关键词之间的欧氏距离后，即得到多个欧氏距离后，从中选取前K个最短的欧氏距离，K为非负整数。即这些欧氏距离所对应的关键词比另一些关键词的与选定的关键词之间的欧氏距离更短；

相关词选取单元则用于在选定上述K个欧氏距离后，将这些欧氏距离所对应的关键词确定为与选定的关键性相关联的关联关键词。

从上述技术方案可以看出，本实施例提供了一种关键词关联扩展装置，具体为获取语料数据，对语料数据进行切词处理，得到词条合集；利用word2vec工具对词条合集进行训练，得到词条合集的词向量合集；对预置的关键词合集中每个关键词进行切词处理，并根据切词结果和词向量合集得到每个关键词的关键词向量，所有关键词向量构成关键词合集的关键词向量合集；根据每个关键词的关键词向量计算选定的关键词的与其他关键词之间的欧氏距离；根据欧氏距离从关键词合集中选取相关关键词。由于通过切词处理得到的词向量表达了每个词条和关键词词条的语义特征，因此相对于仅考虑仅依赖于文本相关性和点击日志的其他扩展技术方案来说，增强了语义关联特征，从而使得到的扩展结果更为丰富全面。

对于装置实施例而言，由于其与方法实施例基本相似，所以描述的比较简单，相关之处参见方法实施例的部分说明即可。

本说明书中的各个实施例均采用递进的方式描述，每个实施例重点说明的都是与其他实施例的不同之处，各个实施例之间相同相似的部分互相参见即可。

本领域内的技术人员应明白，本发明实施例的实施例可提供为方法、装置、或计算机程序产品。因此，本发明实施例可采用完全硬件实施例、完全软件实施例、或结合软件和硬件方面的实施例的形式。而且，本发明实施例可采用在一个或多个其中包含有计算机可用程序代码的计算机可用存储介质(包括但不限于磁盘存储器、CD-ROM、光学存储器等)上实施的计算机程序产品的形式。

本发明实施例是参照根据本发明实施例的方法、终端设备(系统)、和计算机程序产品的流程图和/或方框图来描述的。应理解可由计算机程序指令实现流程图和/或方框图中的每一流程和/或方框、以及流程图和/或方框图中的流程和/或方框的结合。可提供这些计算机程序指令到通用计算机、专用计算机、嵌入式处理机或其他可编程数据处理终端设备的处理器以产生一个机器，使得通过计算机或其他可编程数据处理终端设备的处理器执行的指令产生用于实现在流程图一个流程或多个流程和/或方框图一个方框或多个方框中指定的功能的装置。

这些计算机程序指令也可存储在能引导计算机或其他可编程数据处理终端设备以特定方式工作的计算机可读存储器中，使得存储在该计算机可读存储器中的指令产生包括指令装置的制造品，该指令装置实现在流程图一个流程或多个流程和/或方框图一个方框或多个方框中指定的功能。

这些计算机程序指令也可装载到计算机或其他可编程数据处理终端设备上，使得在计算机或其他可编程终端设备上执行一系列操作步骤以产生计算机实现的处理，从而在计算机或其他可编程终端设备上执行的指令提供用于实现在流程图一个流程或多个流程和/或方框图一个方框或多个方框中指定的功能的步骤。

尽管已描述了本发明实施例的优选实施例，但本领域内的技术人员一旦得知了基本创造性概念，则可对这些实施例做出另外的变更和修改。所以，所附权利要求意欲解释为包括优选实施例以及落入本发明实施例范围的所有变更和修改。

最后，还需要说明的是，在本文中，诸如第一和第二等之类的关系术语仅仅用来将一个实体或者操作与另一个实体或操作区分开来，而不一定要求或者暗示这些实体或操作之间存在任何这种实际的关系或者顺序。而且，术语“包括”、“包含”或者其任何其他变体意在涵盖非排他性的包含，从而使得包括一系列要素的过程、方法、物品或者终端设备不仅包括那些要素，而且还包括没有明确列出的其他要素，或者是还包括为这种过程、方法、物品或者终端设备所固有的要素。在没有更多限制的情况下，由语句“包括一个……”限定的要素，并不排除在包括所述要素的过程、方法、物品或者终端设备中还存在另外的相同要素。

以上对本发明所提供的技术方案进行了详细介绍，本文中应用了具体个例对本发明的原理及实施方式进行了阐述，以上实施例的说明只是用于帮助理解本发明的方法及其核心思想；同时，对于本领域的一般技术人员，依据本发明的思想，在具体实施方式及应用范围上均会有改变之处，综上所述，本说明书内容不应理解为对本发明的限制。

Claims

1.一种关键词关联扩展方法，其特征在于，具体包括：

根据所述欧氏距离从所述关键词合集中选取相关关键词。

2.如权利要求1所述的关键词关联扩展方法，其特征在于，所述获取语料数据，对所述语料数据进行切词处理，得到词条合集，包括：

3.如权利要求1所述的关键词关联扩展方法，其特征在于，所述对预置的关键词合集中每个关键词进行切词处理，并根据切词结果和所述词向量合集得到每个关键词的关键词向量，包括：

对每个关键词进行切词处理，得到多个关键词词条；

计算每个关键词词条的词条权重；

4.如权利要求3所述的关键词关联扩展方法，其特征在于，所述关键词向量为归一化值。

5.如权利要求1所述的关键词关联扩展方法，其特征在于，所述根据所述欧氏距离从所述关键词合集中选取相关关键词，包括：

将选取的欧氏距离对应的关键词确定为所述相关关键词。

6.一种关键词关联扩展装置，其特征在于，包括：

关键词选取模块，用于根据所述欧氏距离从所述关键词合集中选取相关关键词。

7.如权利要求6所述的关键词关联扩展装置，其特征在于，所述语料处理模块包括：

8.如权利要求6所述的关键词关联扩展装置，其特征在于，所述关键词处理模块包括：

权重计算单元，用于计算每个关键词词条的词条权重；

9.如权利要求8所述的关键词关联扩展装置，其特征在于，所述关键词向量为归一化值。

10.如权利要求6所述的关键词关联扩展装置，其特征在于，所述关键词选取模块包括：