CN106294650B

CN106294650B - 基于搜索埋点的新词挖掘方法

Info

Publication number: CN106294650B
Application number: CN201610630226.9A
Authority: CN
Inventors: 张天祥; 张立
Original assignee: Beijing Gold And Network Ltd Co
Current assignee: Beijing Gold And Network Ltd Co
Priority date: 2016-08-03
Filing date: 2016-08-03
Publication date: 2019-08-20
Anticipated expiration: 2036-08-03
Also published as: CN106294650A

Abstract

本发明提供了一种基于搜索埋点的新词挖掘方法，步骤包括：1)埋点系统搜集用户输入的搜索行为并存储；2)查询词库；3)所述新词挖掘系统定期从所述存储系统取出行为数据，并将所述行为数据解析成至少包括以下字段的格式数据：{关键字，用户ID，会话ID，行为}；4)当行为数据的字段“行为”与预设的行为一致，则所述字段“行为”对应的字段“关键字”的行为频率累加一次；5)计算字段“关键字”对应的不同的“用户ID”数目，所述数目为该“关键字”的词频；6)数据合并；7)过滤；8)更新新词到词库。本发明适用于覆盖范围广、更新速度快的网页文本数据集，能够实现快速、准确的从网页文本中发现新词，适用于热词挖掘等方面的应用。

Description

基于搜索埋点的新词挖掘方法

技术领域

本发明涉及信息处理领域，特别是一种基于搜索埋点的新词挖掘方法。

背景技术

在自然语言处理或计算机语言中，新词是指以前从来没有出现过的词汇，或者在词典中没有收录的词汇。随着计算机网络技术的快速发展和推广，网络数据急剧膨胀，这些数据具有更新速度快，数据量庞大、数据组织形式不规范等特点，但却蕴藏着极多的有价值信息。另外由于人们相互交流需求的增加，网络成为信息发布、传播的平台。由此产生的一些网络用语、热门词汇，被广泛的运用到了实际生活中，影响着人们的生活，一些新词逐渐被人们所接受，扩充了汉语词汇。这些新出现的词汇呈现出产生速度快、覆盖领域广的特点，往往散落在海量的网络文本中，靠人工去查看和检索是不可想象的。

新词常常是对新事物或新事件的概述，在构成方面没有普遍同一的规律，常常不符合汉子的构词规则，并且新词产生速度快，覆盖范围广，语料收集工作较难同步。因此传统的基于统计和基于规则进行新词识别的方法已无法满足快速、准确地发现新词的需求。

发明内容

针对所提到的问题，本发明提供了一种基于搜索埋点的新词挖掘方法，步骤包括：

1)埋点系统搜集用户输入的搜索行为，并将搜集到的行为数据存储到存储系统；

2)新词挖掘系统从所述存储系统取出行为数据，并解析出所述行为数据中所携带的搜索关键字，如果所述关键字不存在词库中，则进行以下操作；

3)数据分析

所述新词挖掘系统定期从所述存储系统取出行为数据，并将所述行为数据解析成至少包括以下字段的格式数据：{关键字，用户ID，会话ID，行为}；

4)行为统计分析

当行为数据的字段“行为”与预设的行为一致，则所述字段“行为”对应的字段“关键字”的行为频率累加一次；

5)独立词频统计

计算字段“关键字”对应的不同的“用户ID”数目，所述数目为该“关键字”的词频；

6)数据合并

根据步骤4和步骤5，计算出相同关键字的所述行为频率和词频，合并以后的结果为{关键字，行为频率，词频}；

7)过滤

将步骤6计算出的所述行为频率和词频与预设值进行对比，当满足条件时，判断所述关键字为新词；

8)更新新词到词库。

优选方案是：所述定期从所述存储系统取出行为数据包括上次获取结束到当前时间段的时间内的所有数据。

优选方案是：通过会话ID将所述行为数据联系起来。

优选方案是：所述过滤规则还包括关键字字符长度限制规则，所述过滤规则还包括关键字字符长度限制规则，如果所述关键字的字符长度低于最低长度阈值或高于最长长度阈值，则判断所述关键字不是新词。

优选方案是：所述行为频率大于所述预设值时，所述行为频率对应的关键字判断不是新词。

优选方案是：所述词频大于所述预设值时，所述词频对应的关键字判断是新词。

本发明适用于覆盖范围广、更新速度快的网页文本数据集，能够实现快速、准确的从网页文本中发现新词，适用于热词挖掘等方面的应用。

附图说明

图1为本发明的流程示意图。

具体实施方式

下面结合附图对本发明做进一步的详细说明，以令本领域技术人员参照说明书文字能够据以实施。

应当理解，本文所使用的诸如“具有”、“包含”以及“包括”术语并不配出一个或多个其它元件或其组合的存在或添加。

本发明提供了一种基于搜索埋点的新词挖掘方法，步骤包括：

3)数据分析

4)行为统计分析

5)独立词频统计

6)数据合并

7)过滤

8)更新新词到词库。

所述行为数据包括用户搜索的关键字。

所述定期从所述存储系统取出行为数据包括上次获取结束到当前时间段的时间内的所有数据。

通过会话ID将所述行为数据联系起来。

所述过滤规则还包括关键字字符长度限制规则，所述过滤规则还包括关键字字符长度限制规则，如果所述关键字的字符长度低于最低长度阈值或高于最长长度阈值，则判断所述关键字不是新词。

所述行为频率大于所述预设值时，所述行为频率对应的关键字判断不是新词。

所述词频大于所述预设值时，所述词频对应的关键字判断是新词。

实施例

1)在购物某网站，用户输入想要购买的商品名称“AAA”，所述“AAA”即为关键字；

2)埋点系统将用户的搜索行为数据存储到存储系统；

3)新词挖掘系统判断所述商品名称“AAA”是否存在词库中，如果所述商品名称“AAA”存在所述词库中，则直接丢弃，如果所述商品名称“AAA”不存在词库，则进行以下操作；

4)所述新词挖掘系统定期从所述存储系统取出行为数据，并将所述行为数据解析成至少包括以下字段的格式数据：{关键字，用户ID，会话ID，行为}；

5)当用户将商品名称“AAA”的产品放入购物车中，则关键字为“AAA”的行为频率累加一次，本实施例关键字为“AAA”的行为频率为8；

6)本实施中共有9个用户在定期时间内搜索关键字“AAA”则关键字为“AAA”的词频为9；

7)将计算出的关键字“AAA”的行为频率和词频合并，合并结果为{AAA，8，9}；

8)本实施例中行为频率的预设值为10，词频为7，则关键字为“AAA”的行为频率8＜预设值10，关键字为“AAA”的词频9＞预设值7，则判断关键字为“AAA”为新词；

9)将关键字为“AAA”更新到词库中。

尽管本发明的实施方案已公开如上，但其并不仅仅限于说明书和实施方式中所列运用，它完全可以被适用于各种适合本发明的领域，对于熟悉本领域的人员而言，可容易地实现另外的修改，因此在不背离权利要求及等同范围所限定的一般概念下，本发明并不限于特定的细节和这里示出与描述的图例。

Claims

1.基于搜索埋点的新词挖掘方法，其特征在于，步骤包括：

3)数据分析

4)行为统计分析

5)独立词频统计

计算字段“关键字”对应的不同的“用户ID”数目，所述数目为该“关键字”的词频

6)数据合并

7)过滤

8)更新新词到词库。

2.根据权利要求1所述的基于搜索埋点的新词挖掘方法，其特征在于，所述定期从所述存储系统取出行为数据包括上次获取结束到当前时间段的时间内的所有数据。

3.根据权利要求1所述的基于搜索埋点的新词挖掘方法，其特征在于，通过会话ID将所述行为数据联系起来。

4.根据权利要求1所述的基于搜索埋点的新词挖掘方法，其特征在于，所述过滤规则还包括关键字字符长度限制规则，如果所述关键字的字符长度低于最低长度阈值或高于最长长度阈值，则判断所述关键字不是新词。