CN107862015A - 一种关键词关联扩展方法和装置 - Google Patents
一种关键词关联扩展方法和装置 Download PDFInfo
- Publication number
- CN107862015A CN107862015A CN201711039845.1A CN201711039845A CN107862015A CN 107862015 A CN107862015 A CN 107862015A CN 201711039845 A CN201711039845 A CN 201711039845A CN 107862015 A CN107862015 A CN 107862015A
- Authority
- CN
- China
- Prior art keywords
- keyword
- intersection
- entry
- crucial
- term vector
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Pending
Links
- 238000000034 method Methods 0.000 title claims abstract description 45
- 239000013598 vector Substances 0.000 claims abstract description 151
- 238000005520 cutting process Methods 0.000 claims abstract description 66
- 238000012545 processing Methods 0.000 claims abstract description 54
- 238000004364 calculation method Methods 0.000 claims description 14
- 239000000463 material Substances 0.000 claims description 14
- 238000012549 training Methods 0.000 claims description 8
- 238000010606 normalization Methods 0.000 claims 2
- 238000005516 engineering process Methods 0.000 abstract description 6
- 238000003892 spreading Methods 0.000 abstract description 6
- 230000007480 spreading Effects 0.000 abstract description 6
- 235000007926 Craterellus fallax Nutrition 0.000 abstract description 2
- 240000007175 Datura inoxia Species 0.000 abstract description 2
- 230000008569 process Effects 0.000 description 7
- 238000004590 computer program Methods 0.000 description 6
- 238000010586 diagram Methods 0.000 description 6
- 230000006870 function Effects 0.000 description 3
- 230000009471 action Effects 0.000 description 2
- 238000004422 calculation algorithm Methods 0.000 description 2
- 238000009472 formulation Methods 0.000 description 2
- 239000000203 mixture Substances 0.000 description 2
- 238000003860 storage Methods 0.000 description 2
- 238000009412 basement excavation Methods 0.000 description 1
- 230000008859 change Effects 0.000 description 1
- 238000013479 data entry Methods 0.000 description 1
- 230000007812 deficiency Effects 0.000 description 1
- 230000001419 dependent effect Effects 0.000 description 1
- 238000004519 manufacturing process Methods 0.000 description 1
- 230000004048 modification Effects 0.000 description 1
- 238000012986 modification Methods 0.000 description 1
- 230000003287 optical effect Effects 0.000 description 1
- 238000002360 preparation method Methods 0.000 description 1
- 230000000750 progressive effect Effects 0.000 description 1
- 238000011084 recovery Methods 0.000 description 1
Classifications
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F16/00—Information retrieval; Database structures therefor; File system structures therefor
- G06F16/90—Details of database functions independent of the retrieved data types
- G06F16/95—Retrieval from the web
- G06F16/953—Querying, e.g. by the use of web search engines
- G06F16/9535—Search customisation based on user profiles and personalisation
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F18/00—Pattern recognition
- G06F18/20—Analysing
- G06F18/22—Matching criteria, e.g. proximity measures
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F40/00—Handling natural language data
- G06F40/20—Natural language analysis
- G06F40/237—Lexical tools
- G06F40/247—Thesauruses; Synonyms
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F40/00—Handling natural language data
- G06F40/30—Semantic analysis
Landscapes
- Engineering & Computer Science (AREA)
- Theoretical Computer Science (AREA)
- General Physics & Mathematics (AREA)
- Physics & Mathematics (AREA)
- General Engineering & Computer Science (AREA)
- Artificial Intelligence (AREA)
- Databases & Information Systems (AREA)
- Data Mining & Analysis (AREA)
- Computational Linguistics (AREA)
- General Health & Medical Sciences (AREA)
- Health & Medical Sciences (AREA)
- Audiology, Speech & Language Pathology (AREA)
- Life Sciences & Earth Sciences (AREA)
- Bioinformatics & Cheminformatics (AREA)
- Bioinformatics & Computational Biology (AREA)
- Computer Vision & Pattern Recognition (AREA)
- Evolutionary Biology (AREA)
- Evolutionary Computation (AREA)
- Information Retrieval, Db Structures And Fs Structures Therefor (AREA)
Abstract
本发明提供了一种关键词关联扩展方法和装置。具体为获取语料数据,对语料数据进行切词处理,得到词条合集;利用word2vec工具对词条合集进行训练,得到词条合集的词向量合集;对预置的关键词合集中每个关键词进行切词处理,并根据切词结果和词向量合集得到每个关键词的关键词向量,所有关键词向量构成关键词合集的关键词向量合集;根据每个关键词的关键词向量计算选定的关键词的与其他关键词之间的欧氏距离;根据欧氏距离从关键词合集中选取相关关键词。由于通过切词处理得到的词向量表达了每个词条和关键词词条的语义特征,因此相对于仅考虑仅依赖于文本相关性和点击日志的其他扩展技术方案来说,增强了语义关联特征,从而使得到的扩展结果更为丰富全面。
Description
技术领域
本发明涉及搜索引擎技术领域,特别是涉及一种关键词关联扩展方法和装置。
背景技术
关键词扩充、同义词挖掘等关键词关联扩展技术是搜索引擎和广告关键词定向中的重要技术手段,用于使搜索引擎为用户提供更丰富的内容,或者使广告投放的效果更佳。本发明的申请人在实施本申请技术方案的时候发现,目前在进行关键词关联扩展时,主要依赖于对关键词的文本相关性和点击日志的贡献,而对关键词的语义关联扩展明显不足,从而导致扩展结果不够丰富全面。
发明内容
有鉴于此,本发明提供了一种关键词关联扩展方法和装置,以解决目前进行关键词关联扩展的扩展结果不够丰富全面的问题。
为了解决上述问题,本发明公开了一种关键词关联扩展方法,具体包括步骤:
获取语料数据,对所述语料数据进行切词处理,得到词条合集;
利用word2vec工具对所述词条合集进行训练,得到所述词条合集的词向量合集;
对预置的关键词合集中每个关键词进行切词处理,并根据切词结果和所述词向量合集得到每个关键词的关键词向量,所有关键词向量构成所述关键词合集的关键词向量合集;
根据每个关键词向量分别计算选定的关键词的与其他关键词之间的欧氏距离;
根据所述欧氏距离从所述关键词合集中选取相关关键词。
可选的,所述获取语料数据,对所述语料数据进行切词处理,得到词条合集,包括:
获取主题相关的语料数据,所述语料数据由搜索点击日志中的搜索关键词和搜索之后用户所点击的网页标题拼接而成;
利用预设的切词工具对所述语料数据进行切词处理,得到所述词条合集。
可选的,所述对预置的关键词合集中每个关键词进行切词处理,并根据切词结果和所述词向量合集得到每个关键词的关键词向量,包括:
对每个关键词进行切词处理,得到多个关键词词条;
根据所述多个关键词词条从所述词向量合集中进行查找,得到每个关键词词条的词条向量;
计算每个关键词词条的词条权重;
根据预设的计算公式对所述词条向量和所述词条权重进行计算,得到每条关键词的关键词向量,所有关键词向量构成所述关键词向量合集。
可选的,所述关键词向量为归一化值。
可选的,所述根据所述欧氏距离从所述关键词合集中选取相关关键词,包括:
在得到多个欧氏距离后,选取前K个数值最小的欧氏距离,所述K为非负整数;
将选取的欧氏距离对应的关键词确定为所述相关关键词。
相应的,为了保证上述方法的实施,本发明还提供了一种关键词关联扩展装置,包括:
语料处理模块,用于获取语料数据,对所述语料数据进行切词处理,得到词条合集;
词条训练模块,用于利用word2vec工具对所述词条合集进行训练,得到所述词条合集的词向量合集;
关键词处理模块,用于对预置的关键词合集中每个关键词进行切词处理,并根据切词结果和所述词向量合集得到每个关键词的关键词向量,所有关键词向量构成所述关键词合集的关键词向量合集;
距离计算模块,用于根据每个关键词向量分别计算选定的关键词的与其他关键词之间的欧氏距离;
相关选取模块,用于根据所述欧氏距离从所述关键词合集中选取相关关键词。
可选的,所述语料处理模块包括:
语料获取单元,用于获取主题相关的语料数据,所述语料数据由搜索点击日志中的搜索关键词和搜索之后用户所点击的网页标题拼接而成;
语料切词单元,用于利用预设的切词工具对所述语料数据进行切词处理,得到所述词条合集。
可选的,所述关键词处理模块包括:
关键词切词单元,用于对每个关键词进行切词处理,得到多个关键词词条;
向量查找单元,用于根据所述多个关键词词条从所述词向量合集中进行查找,得到每个关键词词条的词条向量;
权重计算单元,用于计算每个关键词词条的词条权重;
向量计算单元,用于根据预设的计算公式对所述词条向量和所述词条权重进行计算,得到每条关键词的关键词向量,所有关键词向量构成所述关键词向量合集。
可选的,所述关键词向量为归一化值。
可选的,所述相关选取模块包括:
欧氏距离选取单元,用于在得到多个欧氏距离后,选取前K个数值最小的欧氏距离,所述K为非负整数;
相关词选取单元,用于将选取的欧氏距离对应的关键词确定为所述相关关键词。
从上述技术方案可以看出,本发明提供了一种关键词关联扩展方法和装置,该方法和装置具体为获取语料数据,对语料数据进行切词处理,得到词条合集;利用word2vec工具对词条合集进行训练,得到词条合集的词向量合集;对预置的关键词合集中每个关键词进行切词处理,并根据切词结果和词向量合集得到每个关键词的关键词向量,所有关键词向量构成关键词合集的关键词向量合集;根据每个关键词的关键词向量计算选定的关键词的与其他关键词之间的欧氏距离;根据欧氏距离从关键词合集中选取相关关键词。由于通过切词处理得到的词向量表达了每个词条和关键词词条的语义特征,因此相对于仅考虑仅依赖于文本相关性和点击日志的其他扩展技术方案来说,增强了语义关联特征,从而使得到的扩展结果更为丰富全面。
附图说明
为了更清楚地说明本发明实施例或现有技术中的技术方案,下面将对实施例或现有技术描述中所需要使用的附图作简单地介绍,显而易见地,下面描述中的附图仅仅是本发明的一些实施例,对于本领域普通技术人员来讲,在不付出创造性劳动的前提下,还可以根据这些附图获得其他的附图。
图1为本发明提供的一种关键词关联扩展方法实施例的步骤流程图;
图2为本发明提供的一种关键词关联扩展装置实施例的结构框图。
具体实施方式
下面将结合本发明实施例中的附图,对本发明实施例中的技术方案进行清楚、完整地描述,显然,所描述的实施例仅仅是本发明一部分实施例,而不是全部的实施例。基于本发明中的实施例,本领域普通技术人员在没有做出创造性劳动前提下所获得的所有其他实施例,都属于本发明保护的范围。
实施例一
图1为本发明提供的一种关键词关联扩展方法实施例的步骤流程图。
参照图1所示,本实施例提供的关键词关联扩展方法用于根据对用户在使用搜索引擎时输入的关键词进行关联扩展或者同义词挖掘,具体的关联扩展方法包括如下步骤:
S101:对获取到的语料数据进行切词处理的,得到词条合集。
这里的语料数据包括搜索引擎的搜索点击日志中的搜索关键词,即用户在使用搜索引擎时输入的搜索关键词,还包括在得到搜索结果后用户点击的网页标题。
具体的过程为:首先,获取与主题相关的语料数据,该语料数据包括上述搜索关键词和网页标题,在得到两者后将其进行拼接处理,从而得到该语料数据。
然后,利用预设的切词工具对语料数据进行切词处理,该切词工具可选用jieba分词等工具,切词处理后的到语料数据的多个词条,这些词条构成语料数据的词条合集。
S102:对词条合集进行训练,得到词条合集的词向量合集。
在得到语料数据的词条合集后,利用word2vec工具对词条合集中的大规模词条进行训练,可以得到每个词条的向量表达,即每个词条的词条向量。
如果将词条合集记为T,每个词条t∈T,每个词条的向量表达、即词条向量表达为v(t),并将T的向量化集合、即词向量合集记为V(T)={v(t)|t∈T}。
所谓词向量,对于词典D中的任意词w,制定一个固定长度的实值向量V(w)∈Rm,则V(w)为w的词向量,m为词向量的长度。词向量可以通过LSA工具、LDA工具或者神将网络算法计算取得,本申请中选用word2vec工具对词条进行训练的方法取得词向量。
S103:对关键词合集中的关键词进行处理,得到关键词向量合集。
基于上述得到的关键词合集,通过对该合集中的每个关键词见切词处理,并根据切词结果词向量结合得到每个关键词的关键词向量,所有的关键词向量构成关键词合集的关键词向量合集。具体步骤如下:
首先,对词向量合集K中每个关键词k(k∈K)进行切词处理,切词的方法与上面切词可以相同,从而得到多个词条,为描述方法可以将其称为关键词词条t(k)={t1,t2,….tnk}。
然后,在得到所有关键词的关键词词条后,根据关键词词条从上述的词向量合集V(T)={v(t)|t∈T}中进行查找,从而得到每个关键词词条的词条向量v(t1),…,v(tnk)。
再后,计算每个关键词词条t1,t2,….tnk的词条权重w(t1),…w(tnk),其中w(ti)=freq(ti)*idf(ti),,freq(ti)表示ti在t(k)中出现的频次,idf(ti)表示ti的逆文档序。
最后,根据预算公式对词条向量和词条权重进行计算,从而得到每条关键词的关键词向量,计算过程为:
关键词向量v(k)=w(t1)*v(t1)+...+w(tnq)*v(tnk);
所有关键词的关键词向量构成关键词全集的关键词向量合集。另外,在得到关键词向量后对其进行归一化处理:
v(k)=v(k)/||v(k)||,其中||.||表示取向量的模,因此,这里关键词向量合集中的关键词向量为经过归一化处理后的归一化值。
归一化处理是一种无量纲处理手段,使物理系统数值的绝对值变成某种相对值关系,是简化计算,缩小量值的有效办法。例如滤波器中各个频率值以截止频率作归一化后,频率都是截止频率的相对值,没有了量纲。阻抗以电源内阻作归一化后,各个阻抗都成了一种相对阻抗值,“欧姆”这个量纲也没有了。当各种运算都结束后,通过反归一化处理即可得到复原后的数值了。
S104:计算选定的关键词与其他关键词之间的欧氏距离。
在得到上述关键词向量合集后,根据每个关键词的关键词向量通过遍历的方法计算被选定的关键词与其他关键词之间的欧氏距离。其中选定的关键词是指词条合集中的关键词,而其他关键词是指该词条合集中被选定的关键词外的其他关键词。
S105:根据欧氏距离确定选定的关键词的相关关键词。
在得到选定的关键词与其他每个关键词之间的欧氏距离后,即得到多个欧氏距离后,从中选取前K个最短的欧氏距离,K为非负整数。即这些欧氏距离所对应的关键词比另一些关键词的与选定的关键词之间的欧氏距离更短;
选定上述K个欧氏距离后,将这些欧氏距离所对应的关键词确定为与选定的关键性相关联的关联关键词。
从上述技术方案可以看出,本实施例提供了一种关键词关联扩展方法,具体为获取语料数据,对语料数据进行切词处理,得到词条合集;利用word2vec工具对词条合集进行训练,得到词条合集的词向量合集;对预置的关键词合集中每个关键词进行切词处理,并根据切词结果和词向量合集得到每个关键词的关键词向量,所有关键词向量构成关键词合集的关键词向量合集;根据每个关键词的关键词向量计算选定的关键词的与其他关键词之间的欧氏距离;根据欧氏距离从关键词合集中选取相关关键词。由于通过切词处理得到的词向量表达了每个词条和关键词词条的语义特征,因此相对于仅考虑仅依赖于文本相关性和点击日志的其他扩展技术方案来说,增强了语义关联特征,从而使得到的扩展结果更为丰富全面。
需要说明的是,对于方法实施例,为了简单描述,故将其都表述为一系列的动作组合,但是本领域技术人员应该知悉,本发明实施例并不受所描述的动作顺序的限制,因为依据本发明实施例,某些步骤可以采用其他顺序或者同时进行。其次,本领域技术人员也应该知悉,说明书中所描述的实施例均属于优选实施例,所涉及的动作并不一定是本发明实施例所必须的。
实施例二
图2为本发明提供的一种关键词关联扩展装置实施例的结构框图。
参照图2所示,本实施例提供的关键词关联扩展装置用于根据对用户在使用搜索引擎时输入的关键词进行关联扩展或者同义词挖掘,关联扩展装置包括语料处理模块10、词条训练模块20、关键词处理模块30、距离计算模块40和关键词选取模块50。语料处理模块用于获取语料数据,并对语料数据进行切词处理的,得到词条合集。
这里的语料数据包括搜索引擎的搜索点击日志中的搜索关键词,即用户在使用搜索引擎时输入的搜索关键词,还包括在得到搜索结果后用户点击的网页标题。
该模块包括语料获取单元和语料切词单元,语料获取单元用获取与主题相关的语料数据,该语料数据包括上述搜索关键词和网页标题,在得到两者后将其进行拼接处理,从而得到该语料数据。
语料切词单元则用于利用预设的切词工具对语料数据进行切词处理,该切词工具可选用jieba分词等工具,切词处理后的到语料数据的多个词条,这些词条构成语料数据的词条合集。
词条训练模块用于对词条合集进行训练,得到词条合集的词向量合集。
在得到语料数据的词条合集后,利用word2vec工具对词条合集中的大规模词条进行训练,可以得到每个词条的向量表达,即每个词条的词条向量。
如果将词条合集记为T,每个词条t∈T,每个词条的向量表达、即词条向量表达为v(t),并将T的向量化集合、即词向量合集记为V(T)={v(t)|t∈T}。
所谓词向量,对于词典D中的任意词w,制定一个固定长度的实值向量V(w)∈Rm,则V(w)为w的词向量,m为词向量的长度。词向量可以通过LSA工具、LDA工具或者神将网络算法计算取得,本申请中选用word2vec工具对词条进行训练的方法取得词向量。
关键词处理模块用于对关键词合集中的关键词进行处理,得到关键词向量。
基于上述得到的关键词合集,通过对该合集中的每个关键词见切词处理,并根据切词结果词向量结合得到每个关键词的关键词向量,所有的关键词向量构成关键词合集的关键词向量合集。该模块包括关键词切词单元、向量查找单元、权重计算单元和向量计算单元。
关键词切词单元用于对词向量合集K中每个关键词k(k∈K)进行切词处理,切词的方法与上面切词可以相同,从而得到多个词条,为描述方法可以将其称为关键词词条t(k)={t1,t2,….tnk}。
向量查找单元用于在得到所有关键词的关键词词条后,根据关键词词条从上述的词向量合集V(T)={v(t)|t∈T}中进行查找,从而得到相应关键词词条的每个关键词词条的词条向量v(t1),…,v(tnk)。
权重计算单元用于计算每个关键词词条t1,t2,….tnk的词条权重w(t1),…w(tnk),其中w(ti)=freq(ti)*idf(ti),,freq(ti)表示ti在t(k)中出现的频次,idf(ti)表示ti的逆文档序。
向量查找单元用于根据预算公式对词条向量和词条权重进行计算,从而得到每条关键词的关键词向量,计算过程为:
关键词向量v(k)=w(t1)*v(t1)+...+w(tnq)*v(tnk);
所有关键词的关键词向量构成关键词全集的关键词向量合集。另外,在得到关键词向量后对其进行归一化处理:
v(k)=v(k)/||v(k)||,其中||.||表示取向量的模,因此,这里关键词向量合集中的关键词向量时经过归一化处理后的归一化值。
距离计算模块用于计算选定的关键词与其他关键词之间的欧氏距离。
在得到上述关键词向量合集后,根据每个关键词的关键词向量通过遍历的方法计算被选定的关键词与其他关键词之间的欧氏距离。
关键词选取模块用于根据欧氏距离确定选定的关键词的相关关键词。
该模块包括欧氏距离选取单元和相关词选取单元,欧氏距离选取单元用于在得到选定的关键词与其他每个关键词之间的欧氏距离后,即得到多个欧氏距离后,从中选取前K个最短的欧氏距离,K为非负整数。即这些欧氏距离所对应的关键词比另一些关键词的与选定的关键词之间的欧氏距离更短;
相关词选取单元则用于在选定上述K个欧氏距离后,将这些欧氏距离所对应的关键词确定为与选定的关键性相关联的关联关键词。
从上述技术方案可以看出,本实施例提供了一种关键词关联扩展装置,具体为获取语料数据,对语料数据进行切词处理,得到词条合集;利用word2vec工具对词条合集进行训练,得到词条合集的词向量合集;对预置的关键词合集中每个关键词进行切词处理,并根据切词结果和词向量合集得到每个关键词的关键词向量,所有关键词向量构成关键词合集的关键词向量合集;根据每个关键词的关键词向量计算选定的关键词的与其他关键词之间的欧氏距离;根据欧氏距离从关键词合集中选取相关关键词。由于通过切词处理得到的词向量表达了每个词条和关键词词条的语义特征,因此相对于仅考虑仅依赖于文本相关性和点击日志的其他扩展技术方案来说,增强了语义关联特征,从而使得到的扩展结果更为丰富全面。
对于装置实施例而言,由于其与方法实施例基本相似,所以描述的比较简单,相关之处参见方法实施例的部分说明即可。
本说明书中的各个实施例均采用递进的方式描述,每个实施例重点说明的都是与其他实施例的不同之处,各个实施例之间相同相似的部分互相参见即可。
本领域内的技术人员应明白,本发明实施例的实施例可提供为方法、装置、或计算机程序产品。因此,本发明实施例可采用完全硬件实施例、完全软件实施例、或结合软件和硬件方面的实施例的形式。而且,本发明实施例可采用在一个或多个其中包含有计算机可用程序代码的计算机可用存储介质(包括但不限于磁盘存储器、CD-ROM、光学存储器等)上实施的计算机程序产品的形式。
本发明实施例是参照根据本发明实施例的方法、终端设备(系统)、和计算机程序产品的流程图和/或方框图来描述的。应理解可由计算机程序指令实现流程图和/或方框图中的每一流程和/或方框、以及流程图和/或方框图中的流程和/或方框的结合。可提供这些计算机程序指令到通用计算机、专用计算机、嵌入式处理机或其他可编程数据处理终端设备的处理器以产生一个机器,使得通过计算机或其他可编程数据处理终端设备的处理器执行的指令产生用于实现在流程图一个流程或多个流程和/或方框图一个方框或多个方框中指定的功能的装置。
这些计算机程序指令也可存储在能引导计算机或其他可编程数据处理终端设备以特定方式工作的计算机可读存储器中,使得存储在该计算机可读存储器中的指令产生包括指令装置的制造品,该指令装置实现在流程图一个流程或多个流程和/或方框图一个方框或多个方框中指定的功能。
这些计算机程序指令也可装载到计算机或其他可编程数据处理终端设备上,使得在计算机或其他可编程终端设备上执行一系列操作步骤以产生计算机实现的处理,从而在计算机或其他可编程终端设备上执行的指令提供用于实现在流程图一个流程或多个流程和/或方框图一个方框或多个方框中指定的功能的步骤。
尽管已描述了本发明实施例的优选实施例,但本领域内的技术人员一旦得知了基本创造性概念,则可对这些实施例做出另外的变更和修改。所以,所附权利要求意欲解释为包括优选实施例以及落入本发明实施例范围的所有变更和修改。
最后,还需要说明的是,在本文中,诸如第一和第二等之类的关系术语仅仅用来将一个实体或者操作与另一个实体或操作区分开来,而不一定要求或者暗示这些实体或操作之间存在任何这种实际的关系或者顺序。而且,术语“包括”、“包含”或者其任何其他变体意在涵盖非排他性的包含,从而使得包括一系列要素的过程、方法、物品或者终端设备不仅包括那些要素,而且还包括没有明确列出的其他要素,或者是还包括为这种过程、方法、物品或者终端设备所固有的要素。在没有更多限制的情况下,由语句“包括一个……”限定的要素,并不排除在包括所述要素的过程、方法、物品或者终端设备中还存在另外的相同要素。
以上对本发明所提供的技术方案进行了详细介绍,本文中应用了具体个例对本发明的原理及实施方式进行了阐述,以上实施例的说明只是用于帮助理解本发明的方法及其核心思想;同时,对于本领域的一般技术人员,依据本发明的思想,在具体实施方式及应用范围上均会有改变之处,综上所述,本说明书内容不应理解为对本发明的限制。
Claims (10)
1.一种关键词关联扩展方法,其特征在于,具体包括:
获取语料数据,对所述语料数据进行切词处理,得到词条合集;
利用word2vec工具对所述词条合集进行训练,得到所述词条合集的词向量合集;
对预置的关键词合集中每个关键词进行切词处理,并根据切词结果和所述词向量合集得到每个关键词的关键词向量,所有关键词向量构成所述关键词合集的关键词向量合集;
根据每个关键词向量分别计算选定的关键词的与其他关键词之间的欧氏距离;
根据所述欧氏距离从所述关键词合集中选取相关关键词。
2.如权利要求1所述的关键词关联扩展方法,其特征在于,所述获取语料数据,对所述语料数据进行切词处理,得到词条合集,包括:
获取主题相关的语料数据,所述语料数据由搜索点击日志中的搜索关键词和搜索之后用户所点击的网页标题拼接而成;
利用预设的切词工具对所述语料数据进行切词处理,得到所述词条合集。
3.如权利要求1所述的关键词关联扩展方法,其特征在于,所述对预置的关键词合集中每个关键词进行切词处理,并根据切词结果和所述词向量合集得到每个关键词的关键词向量,包括:
对每个关键词进行切词处理,得到多个关键词词条;
根据所述多个关键词词条从所述词向量合集中进行查找,得到每个关键词词条的词条向量;
计算每个关键词词条的词条权重;
根据预设的计算公式对所述词条向量和所述词条权重进行计算,得到每条关键词的关键词向量,所有关键词向量构成所述关键词向量合集。
4.如权利要求3所述的关键词关联扩展方法,其特征在于,所述关键词向量为归一化值。
5.如权利要求1所述的关键词关联扩展方法,其特征在于,所述根据所述欧氏距离从所述关键词合集中选取相关关键词,包括:
在得到多个欧氏距离后,选取前K个数值最小的欧氏距离,所述K为非负整数;
将选取的欧氏距离对应的关键词确定为所述相关关键词。
6.一种关键词关联扩展装置,其特征在于,包括:
语料处理模块,用于获取语料数据,对所述语料数据进行切词处理,得到词条合集;
词条训练模块,用于利用word2vec工具对所述词条合集进行训练,得到所述词条合集的词向量合集;
关键词处理模块,用于对预置的关键词合集中每个关键词进行切词处理,并根据切词结果和所述词向量合集得到每个关键词的关键词向量,所有关键词向量构成所述关键词合集的关键词向量合集;
距离计算模块,用于根据每个关键词向量分别计算选定的关键词的与其他关键词之间的欧氏距离;
关键词选取模块,用于根据所述欧氏距离从所述关键词合集中选取相关关键词。
7.如权利要求6所述的关键词关联扩展装置,其特征在于,所述语料处理模块包括:
语料获取单元,用于获取主题相关的语料数据,所述语料数据由搜索点击日志中的搜索关键词和搜索之后用户所点击的网页标题拼接而成;
语料切词单元,用于利用预设的切词工具对所述语料数据进行切词处理,得到所述词条合集。
8.如权利要求6所述的关键词关联扩展装置,其特征在于,所述关键词处理模块包括:
关键词切词单元,用于对每个关键词进行切词处理,得到多个关键词词条;
向量查找单元,用于根据所述多个关键词词条从所述词向量合集中进行查找,得到每个关键词词条的词条向量;
权重计算单元,用于计算每个关键词词条的词条权重;
向量计算单元,用于根据预设的计算公式对所述词条向量和所述词条权重进行计算,得到每条关键词的关键词向量,所有关键词向量构成所述关键词向量合集。
9.如权利要求8所述的关键词关联扩展装置,其特征在于,所述关键词向量为归一化值。
10.如权利要求6所述的关键词关联扩展装置,其特征在于,所述关键词选取模块包括:
欧氏距离选取单元,用于在得到多个欧氏距离后,选取前K个数值最小的欧氏距离,所述K为非负整数;
相关词选取单元,用于将选取的欧氏距离对应的关键词确定为所述相关关键词。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN201711039845.1A CN107862015A (zh) | 2017-10-30 | 2017-10-30 | 一种关键词关联扩展方法和装置 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN201711039845.1A CN107862015A (zh) | 2017-10-30 | 2017-10-30 | 一种关键词关联扩展方法和装置 |
Publications (1)
Publication Number | Publication Date |
---|---|
CN107862015A true CN107862015A (zh) | 2018-03-30 |
Family
ID=61696576
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN201711039845.1A Pending CN107862015A (zh) | 2017-10-30 | 2017-10-30 | 一种关键词关联扩展方法和装置 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN107862015A (zh) |
Cited By (7)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN108804550A (zh) * | 2018-05-21 | 2018-11-13 | 北京奇艺世纪科技有限公司 | 一种查询词拓展方法、装置以及电子设备 |
CN110032734A (zh) * | 2019-03-18 | 2019-07-19 | 百度在线网络技术(北京)有限公司 | 近义词扩展及生成对抗网络模型训练方法和装置 |
CN110134798A (zh) * | 2019-05-15 | 2019-08-16 | 八戒科技服务有限公司 | 一种创新需求挖掘方法、系统、终端及介质 |
CN110516029A (zh) * | 2019-08-14 | 2019-11-29 | 出门问问(武汉)信息科技有限公司 | 一种数据处理方法、设备及计算机存储介质 |
CN111078893A (zh) * | 2019-12-11 | 2020-04-28 | 竹间智能科技(上海)有限公司 | 一种大规模高效获取识别对话意图用语料的方法 |
CN111814473A (zh) * | 2020-09-11 | 2020-10-23 | 平安国际智慧城市科技股份有限公司 | 特定领域的词向量增量方法、装置及存储介质 |
CN113033445A (zh) * | 2021-03-31 | 2021-06-25 | 广东电网有限责任公司 | 基于航拍电力通道影像数据的交叉跨越识别方法 |
Citations (5)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
WO2013136532A1 (en) * | 2012-03-14 | 2013-09-19 | Nec Corporation | Term synonym acquisition method and term synonym acquisition apparatus |
CN105912630A (zh) * | 2016-04-07 | 2016-08-31 | 北京搜狗科技发展有限公司 | 一种信息扩展方法及装置 |
CN106095865A (zh) * | 2016-06-03 | 2016-11-09 | 中细软移动互联科技有限公司 | 一种商标文本相似性评审方法 |
CN106610972A (zh) * | 2015-10-21 | 2017-05-03 | 阿里巴巴集团控股有限公司 | 查询改写方法及装置 |
CN107168943A (zh) * | 2017-04-07 | 2017-09-15 | 平安科技(深圳)有限公司 | 话题预警的方法和装置 |
-
2017
- 2017-10-30 CN CN201711039845.1A patent/CN107862015A/zh active Pending
Patent Citations (5)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
WO2013136532A1 (en) * | 2012-03-14 | 2013-09-19 | Nec Corporation | Term synonym acquisition method and term synonym acquisition apparatus |
CN106610972A (zh) * | 2015-10-21 | 2017-05-03 | 阿里巴巴集团控股有限公司 | 查询改写方法及装置 |
CN105912630A (zh) * | 2016-04-07 | 2016-08-31 | 北京搜狗科技发展有限公司 | 一种信息扩展方法及装置 |
CN106095865A (zh) * | 2016-06-03 | 2016-11-09 | 中细软移动互联科技有限公司 | 一种商标文本相似性评审方法 |
CN107168943A (zh) * | 2017-04-07 | 2017-09-15 | 平安科技(深圳)有限公司 | 话题预警的方法和装置 |
Cited By (11)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN108804550A (zh) * | 2018-05-21 | 2018-11-13 | 北京奇艺世纪科技有限公司 | 一种查询词拓展方法、装置以及电子设备 |
CN108804550B (zh) * | 2018-05-21 | 2021-04-16 | 北京奇艺世纪科技有限公司 | 一种查询词拓展方法、装置以及电子设备 |
CN110032734A (zh) * | 2019-03-18 | 2019-07-19 | 百度在线网络技术(北京)有限公司 | 近义词扩展及生成对抗网络模型训练方法和装置 |
CN110032734B (zh) * | 2019-03-18 | 2023-02-28 | 百度在线网络技术(北京)有限公司 | 近义词扩展及生成对抗网络模型训练方法和装置 |
CN110134798A (zh) * | 2019-05-15 | 2019-08-16 | 八戒科技服务有限公司 | 一种创新需求挖掘方法、系统、终端及介质 |
CN110516029A (zh) * | 2019-08-14 | 2019-11-29 | 出门问问(武汉)信息科技有限公司 | 一种数据处理方法、设备及计算机存储介质 |
CN110516029B (zh) * | 2019-08-14 | 2022-06-10 | 出门问问创新科技有限公司 | 一种数据处理方法、设备及计算机存储介质 |
CN111078893A (zh) * | 2019-12-11 | 2020-04-28 | 竹间智能科技(上海)有限公司 | 一种大规模高效获取识别对话意图用语料的方法 |
CN111814473A (zh) * | 2020-09-11 | 2020-10-23 | 平安国际智慧城市科技股份有限公司 | 特定领域的词向量增量方法、装置及存储介质 |
CN111814473B (zh) * | 2020-09-11 | 2020-12-22 | 平安国际智慧城市科技股份有限公司 | 特定领域的词向量增量方法、装置及存储介质 |
CN113033445A (zh) * | 2021-03-31 | 2021-06-25 | 广东电网有限责任公司 | 基于航拍电力通道影像数据的交叉跨越识别方法 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
CN107862015A (zh) | 一种关键词关联扩展方法和装置 | |
JP5638616B2 (ja) | 情報検索方法およびシステム | |
CN110442777B (zh) | 基于bert的伪相关反馈模型信息检索方法及系统 | |
CN103678576B (zh) | 基于动态语义分析的全文检索系统 | |
US9396262B2 (en) | System and method for enhancing search relevancy using semantic keys | |
CN109299383B (zh) | 生成推荐词的方法、装置、电子设备及存储介质 | |
US20110302155A1 (en) | Related links recommendation | |
US20080222138A1 (en) | Method and Apparatus for Constructing a Link Structure Between Documents | |
US8812508B2 (en) | Systems and methods for extracting phases from text | |
US10445367B2 (en) | Search engine for textual content and non-textual content | |
US8478704B2 (en) | Decomposable ranking for efficient precomputing that selects preliminary ranking features comprising static ranking features and dynamic atom-isolated components | |
CN106815252A (zh) | 一种搜索方法和设备 | |
CN105468790B (zh) | 一种评论信息检索方法和装置 | |
CN103425687A (zh) | 一种基于关键词的检索方法和系统 | |
WO2014114137A1 (en) | Method and apparatus for recommending keywords | |
JP2016131045A (ja) | オンライン取引プラットフォームのための検索方法、装置およびサーバ | |
US7792826B2 (en) | Method and system for providing ranked search results | |
US8176031B1 (en) | System and method for manipulating database search results | |
CN119415623A (zh) | 一种用于rag的多知识粒度的文本检索方法及装置 | |
CN104750692A (zh) | 一种信息处理方法、信息检索方法及其对应的装置 | |
Chaa et al. | Verbose Query Reduction by Learning to Rank for Social Book Search Track. | |
CN109815312A (zh) | 一种文档查询的方法、装置、计算设备及计算机存储介质 | |
Alecci et al. | Development of an IR System for Argument Search. | |
CN110413735B (zh) | 一种问答检索方法及其系统、计算机设备、可读存储介质 | |
CN110083679A (zh) | 搜索请求的处理方法、装置、电子设备和存储介质 |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination | ||
RJ01 | Rejection of invention patent application after publication |
Application publication date: 20180330 |
|
RJ01 | Rejection of invention patent application after publication |