CN106294650B - 基于搜索埋点的新词挖掘方法 - Google Patents
基于搜索埋点的新词挖掘方法 Download PDFInfo
- Publication number
- CN106294650B CN106294650B CN201610630226.9A CN201610630226A CN106294650B CN 106294650 B CN106294650 B CN 106294650B CN 201610630226 A CN201610630226 A CN 201610630226A CN 106294650 B CN106294650 B CN 106294650B
- Authority
- CN
- China
- Prior art keywords
- keyword
- behavior
- neologisms
- search
- data
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Active
Links
Classifications
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F16/00—Information retrieval; Database structures therefor; File system structures therefor
- G06F16/20—Information retrieval; Database structures therefor; File system structures therefor of structured data, e.g. relational data
- G06F16/24—Querying
- G06F16/245—Query processing
- G06F16/2458—Special types of queries, e.g. statistical queries, fuzzy queries or distributed queries
- G06F16/2465—Query processing support for facilitating data mining operations in structured databases
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F16/00—Information retrieval; Database structures therefor; File system structures therefor
- G06F16/90—Details of database functions independent of the retrieved data types
- G06F16/95—Retrieval from the web
- G06F16/951—Indexing; Web crawling techniques
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F40/00—Handling natural language data
- G06F40/20—Natural language analysis
- G06F40/279—Recognition of textual entities
- G06F40/284—Lexical analysis, e.g. tokenisation or collocates
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F40/00—Handling natural language data
- G06F40/30—Semantic analysis
Landscapes
- Engineering & Computer Science (AREA)
- Theoretical Computer Science (AREA)
- Physics & Mathematics (AREA)
- Databases & Information Systems (AREA)
- General Physics & Mathematics (AREA)
- General Engineering & Computer Science (AREA)
- Computational Linguistics (AREA)
- General Health & Medical Sciences (AREA)
- Health & Medical Sciences (AREA)
- Audiology, Speech & Language Pathology (AREA)
- Artificial Intelligence (AREA)
- Data Mining & Analysis (AREA)
- Fuzzy Systems (AREA)
- Mathematical Physics (AREA)
- Probability & Statistics with Applications (AREA)
- Software Systems (AREA)
- Information Retrieval, Db Structures And Fs Structures Therefor (AREA)
Abstract
本发明提供了一种基于搜索埋点的新词挖掘方法,步骤包括:1)埋点系统搜集用户输入的搜索行为并存储;2)查询词库;3)所述新词挖掘系统定期从所述存储系统取出行为数据,并将所述行为数据解析成至少包括以下字段的格式数据:{关键字,用户ID,会话ID,行为};4)当行为数据的字段“行为”与预设的行为一致,则所述字段“行为”对应的字段“关键字”的行为频率累加一次;5)计算字段“关键字”对应的不同的“用户ID”数目,所述数目为该“关键字”的词频;6)数据合并;7)过滤;8)更新新词到词库。本发明适用于覆盖范围广、更新速度快的网页文本数据集,能够实现快速、准确的从网页文本中发现新词,适用于热词挖掘等方面的应用。
Description
技术领域
本发明涉及信息处理领域,特别是一种基于搜索埋点的新词挖掘方法。
背景技术
在自然语言处理或计算机语言中,新词是指以前从来没有出现过的词汇,或者在词典中没有收录的词汇。随着计算机网络技术的快速发展和推广,网络数据急剧膨胀,这些数据具有更新速度快,数据量庞大、数据组织形式不规范等特点,但却蕴藏着极多的有价值信息。另外由于人们相互交流需求的增加,网络成为信息发布、传播的平台。由此产生的一些网络用语、热门词汇,被广泛的运用到了实际生活中,影响着人们的生活,一些新词逐渐被人们所接受,扩充了汉语词汇。这些新出现的词汇呈现出产生速度快、覆盖领域广的特点,往往散落在海量的网络文本中,靠人工去查看和检索是不可想象的。
新词常常是对新事物或新事件的概述,在构成方面没有普遍同一的规律,常常不符合汉子的构词规则,并且新词产生速度快,覆盖范围广,语料收集工作较难同步。因此传统的基于统计和基于规则进行新词识别的方法已无法满足快速、准确地发现新词的需求。
发明内容
针对所提到的问题,本发明提供了一种基于搜索埋点的新词挖掘方法,步骤包括:
1)埋点系统搜集用户输入的搜索行为,并将搜集到的行为数据存储到存储系统;
2)新词挖掘系统从所述存储系统取出行为数据,并解析出所述行为数据中所携带的搜索关键字,如果所述关键字不存在词库中,则进行以下操作;
3)数据分析
所述新词挖掘系统定期从所述存储系统取出行为数据,并将所述行为数据解析成至少包括以下字段的格式数据:{关键字,用户ID,会话ID,行为};
4)行为统计分析
当行为数据的字段“行为”与预设的行为一致,则所述字段“行为”对应的字段“关键字”的行为频率累加一次;
5)独立词频统计
计算字段“关键字”对应的不同的“用户ID”数目,所述数目为该“关键字”的词频;
6)数据合并
根据步骤4和步骤5,计算出相同关键字的所述行为频率和词频,合并以后的结果为{关键字,行为频率,词频};
7)过滤
将步骤6计算出的所述行为频率和词频与预设值进行对比,当满足条件时,判断所述关键字为新词;
8)更新新词到词库。
优选方案是:所述定期从所述存储系统取出行为数据包括上次获取结束到当前时间段的时间内的所有数据。
优选方案是:通过会话ID将所述行为数据联系起来。
优选方案是:所述过滤规则还包括关键字字符长度限制规则,所述过滤规则还包括关键字字符长度限制规则,如果所述关键字的字符长度低于最低长度阈值或高于最长长度阈值,则判断所述关键字不是新词。
优选方案是:所述行为频率大于所述预设值时,所述行为频率对应的关键字判断不是新词。
优选方案是:所述词频大于所述预设值时,所述词频对应的关键字判断是新词。
本发明适用于覆盖范围广、更新速度快的网页文本数据集,能够实现快速、准确的从网页文本中发现新词,适用于热词挖掘等方面的应用。
附图说明
图1为本发明的流程示意图。
具体实施方式
下面结合附图对本发明做进一步的详细说明,以令本领域技术人员参照说明书文字能够据以实施。
应当理解,本文所使用的诸如“具有”、“包含”以及“包括”术语并不配出一个或多个其它元件或其组合的存在或添加。
本发明提供了一种基于搜索埋点的新词挖掘方法,步骤包括:
1)埋点系统搜集用户输入的搜索行为,并将搜集到的行为数据存储到存储系统;
2)新词挖掘系统从所述存储系统取出行为数据,并解析出所述行为数据中所携带的搜索关键字,如果所述关键字不存在词库中,则进行以下操作;
3)数据分析
所述新词挖掘系统定期从所述存储系统取出行为数据,并将所述行为数据解析成至少包括以下字段的格式数据:{关键字,用户ID,会话ID,行为};
4)行为统计分析
当行为数据的字段“行为”与预设的行为一致,则所述字段“行为”对应的字段“关键字”的行为频率累加一次;
5)独立词频统计
计算字段“关键字”对应的不同的“用户ID”数目,所述数目为该“关键字”的词频;
6)数据合并
根据步骤4和步骤5,计算出相同关键字的所述行为频率和词频,合并以后的结果为{关键字,行为频率,词频};
7)过滤
将步骤6计算出的所述行为频率和词频与预设值进行对比,当满足条件时,判断所述关键字为新词;
8)更新新词到词库。
所述行为数据包括用户搜索的关键字。
所述定期从所述存储系统取出行为数据包括上次获取结束到当前时间段的时间内的所有数据。
通过会话ID将所述行为数据联系起来。
所述过滤规则还包括关键字字符长度限制规则,所述过滤规则还包括关键字字符长度限制规则,如果所述关键字的字符长度低于最低长度阈值或高于最长长度阈值,则判断所述关键字不是新词。
所述行为频率大于所述预设值时,所述行为频率对应的关键字判断不是新词。
所述词频大于所述预设值时,所述词频对应的关键字判断是新词。
实施例
1)在购物某网站,用户输入想要购买的商品名称“AAA”,所述“AAA”即为关键字;
2)埋点系统将用户的搜索行为数据存储到存储系统;
3)新词挖掘系统判断所述商品名称“AAA”是否存在词库中,如果所述商品名称“AAA”存在所述词库中,则直接丢弃,如果所述商品名称“AAA”不存在词库,则进行以下操作;
4)所述新词挖掘系统定期从所述存储系统取出行为数据,并将所述行为数据解析成至少包括以下字段的格式数据:{关键字,用户ID,会话ID,行为};
5)当用户将商品名称“AAA”的产品放入购物车中,则关键字为“AAA”的行为频率累加一次,本实施例关键字为“AAA”的行为频率为8;
6)本实施中共有9个用户在定期时间内搜索关键字“AAA”则关键字为“AAA”的词频为9;
7)将计算出的关键字“AAA”的行为频率和词频合并,合并结果为{AAA,8,9};
8)本实施例中行为频率的预设值为10,词频为7,则关键字为“AAA”的行为频率8<预设值10,关键字为“AAA”的词频9>预设值7,则判断关键字为“AAA”为新词;
9)将关键字为“AAA”更新到词库中。
尽管本发明的实施方案已公开如上,但其并不仅仅限于说明书和实施方式中所列运用,它完全可以被适用于各种适合本发明的领域,对于熟悉本领域的人员而言,可容易地实现另外的修改,因此在不背离权利要求及等同范围所限定的一般概念下,本发明并不限于特定的细节和这里示出与描述的图例。
Claims (4)
1.基于搜索埋点的新词挖掘方法,其特征在于,步骤包括:
1)埋点系统搜集用户输入的搜索行为,并将搜集到的行为数据存储到存储系统;
2)新词挖掘系统从所述存储系统取出行为数据,并解析出所述行为数据中所携带的搜索关键字,如果所述关键字不存在词库中,则进行以下操作;
3)数据分析
所述新词挖掘系统定期从所述存储系统取出行为数据,并将所述行为数据解析成至少包括以下字段的格式数据:{关键字,用户ID,会话ID,行为};
4)行为统计分析
当行为数据的字段“行为”与预设的行为一致,则所述字段“行为”对应的字段“关键字”的行为频率累加一次;
5)独立词频统计
计算字段“关键字”对应的不同的“用户ID”数目,所述数目为该“关键字”的词频
6)数据合并
根据步骤4和步骤5,计算出相同关键字的所述行为频率和词频,合并以后的结果为{关键字,行为频率,词频};
7)过滤
将步骤6计算出的所述行为频率和词频与预设值进行对比,当满足条件时,判断所述关键字为新词;
8)更新新词到词库。
2.根据权利要求1所述的基于搜索埋点的新词挖掘方法,其特征在于,所述定期从所述存储系统取出行为数据包括上次获取结束到当前时间段的时间内的所有数据。
3.根据权利要求1所述的基于搜索埋点的新词挖掘方法,其特征在于,通过会话ID将所述行为数据联系起来。
4.根据权利要求1所述的基于搜索埋点的新词挖掘方法,其特征在于,所述过滤规则还包括关键字字符长度限制规则,如果所述关键字的字符长度低于最低长度阈值或高于最长长度阈值,则判断所述关键字不是新词。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN201610630226.9A CN106294650B (zh) | 2016-08-03 | 2016-08-03 | 基于搜索埋点的新词挖掘方法 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN201610630226.9A CN106294650B (zh) | 2016-08-03 | 2016-08-03 | 基于搜索埋点的新词挖掘方法 |
Publications (2)
Publication Number | Publication Date |
---|---|
CN106294650A CN106294650A (zh) | 2017-01-04 |
CN106294650B true CN106294650B (zh) | 2019-08-20 |
Family
ID=57664663
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN201610630226.9A Active CN106294650B (zh) | 2016-08-03 | 2016-08-03 | 基于搜索埋点的新词挖掘方法 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN106294650B (zh) |
Families Citing this family (1)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN113076335B (zh) * | 2021-04-02 | 2024-05-24 | 西安交通大学 | 一种网络模因检测方法、系统、设备及存储介质 |
Citations (9)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN1912872A (zh) * | 2006-07-25 | 2007-02-14 | 北京搜狗科技发展有限公司 | 一种提取新词的方法和系统 |
CN1924858A (zh) * | 2006-08-09 | 2007-03-07 | 北京搜狗科技发展有限公司 | 一种获取新词的方法、装置以及一种输入法系统 |
CN102946319A (zh) * | 2012-09-29 | 2013-02-27 | 焦点科技股份有限公司 | 网络用户行为信息分析系统及其分析方法 |
CN103544165A (zh) * | 2012-07-12 | 2014-01-29 | 腾讯科技(深圳)有限公司 | 新词挖掘方法和系统 |
CN103631699A (zh) * | 2012-08-28 | 2014-03-12 | 纽海信息技术(上海)有限公司 | 日志管理系统及日志监控、获取和查询方法 |
CN103763124A (zh) * | 2013-12-26 | 2014-04-30 | 孙伟力 | 一种互联网用户行为分析预警系统及方法 |
CN103916293A (zh) * | 2014-04-15 | 2014-07-09 | 浪潮软件股份有限公司 | 一种监控分析网站用户行为的方法 |
CN104951570A (zh) * | 2015-07-27 | 2015-09-30 | 广州九尾信息科技有限公司 | 基于数据挖掘及lbs的兼职智能推荐系统 |
CN105550184A (zh) * | 2014-10-31 | 2016-05-04 | 阿里巴巴集团控股有限公司 | 一种信息获取方法及装置 |
-
2016
- 2016-08-03 CN CN201610630226.9A patent/CN106294650B/zh active Active
Patent Citations (10)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN1912872A (zh) * | 2006-07-25 | 2007-02-14 | 北京搜狗科技发展有限公司 | 一种提取新词的方法和系统 |
CN100405371C (zh) * | 2006-07-25 | 2008-07-23 | 北京搜狗科技发展有限公司 | 一种提取新词的方法和系统 |
CN1924858A (zh) * | 2006-08-09 | 2007-03-07 | 北京搜狗科技发展有限公司 | 一种获取新词的方法、装置以及一种输入法系统 |
CN103544165A (zh) * | 2012-07-12 | 2014-01-29 | 腾讯科技(深圳)有限公司 | 新词挖掘方法和系统 |
CN103631699A (zh) * | 2012-08-28 | 2014-03-12 | 纽海信息技术(上海)有限公司 | 日志管理系统及日志监控、获取和查询方法 |
CN102946319A (zh) * | 2012-09-29 | 2013-02-27 | 焦点科技股份有限公司 | 网络用户行为信息分析系统及其分析方法 |
CN103763124A (zh) * | 2013-12-26 | 2014-04-30 | 孙伟力 | 一种互联网用户行为分析预警系统及方法 |
CN103916293A (zh) * | 2014-04-15 | 2014-07-09 | 浪潮软件股份有限公司 | 一种监控分析网站用户行为的方法 |
CN105550184A (zh) * | 2014-10-31 | 2016-05-04 | 阿里巴巴集团控股有限公司 | 一种信息获取方法及装置 |
CN104951570A (zh) * | 2015-07-27 | 2015-09-30 | 广州九尾信息科技有限公司 | 基于数据挖掘及lbs的兼职智能推荐系统 |
Non-Patent Citations (1)
Title |
---|
推荐系统-埋点;NBtingwu;《https://blog.csdn.net/searcher_recommeder/article/details/46814877》;20150709;第1-2页 |
Also Published As
Publication number | Publication date |
---|---|
CN106294650A (zh) | 2017-01-04 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
Vural et al. | Sentiment-focused web crawling | |
CN109325201A (zh) | 实体关系数据的生成方法、装置、设备及存储介质 | |
CN110263248A (zh) | 一种信息推送方法、装置、存储介质和服务器 | |
CN111475608B (zh) | 一种基于功能语义关联计算的Mashup服务特征表示方法 | |
CN108536868A (zh) | 社交网络上短文本数据的数据处理方法及应用 | |
Carey et al. | HTML web content extraction using paragraph tags | |
Joshi et al. | Web document text and images extraction using DOM analysis and natural language processing | |
US20190362187A1 (en) | Training data creation method and training data creation apparatus | |
Matyukhina et al. | Adversarial authorship attribution in open-source projects | |
JP5079642B2 (ja) | 履歴処理装置、履歴処理方法および履歴処理プログラム | |
CN110619212A (zh) | 一种基于字符串的恶意软件识别方法、系统及相关装置 | |
CN106294650B (zh) | 基于搜索埋点的新词挖掘方法 | |
Utami et al. | Formal and non-formal Indonesian word usage frequency in twitter profile using non-formal affix rule | |
KR20110023304A (ko) | 개념 네트워크 기반 사용자 프로파일 구성 방법 및 시스템과 이를 이용한 개인화 질의 확장 시스템 | |
KR101110026B1 (ko) | 지역 정보 검색 장치 및 방법 | |
KR101614843B1 (ko) | 사회 이슈에 대한 은폐를 탐지하는 방법 및 판단 장치 | |
CN104462289B (zh) | 直达号关键词的推荐方法和装置 | |
JP6103766B2 (ja) | 行動プロセス抽出方法及び行動プロセス抽出装置 | |
Lingwal | Noise reduction and content retrieval from web pages | |
Kaddu et al. | To extract informative content from online web pages by using hybrid approach | |
CN113868431A (zh) | 面向金融知识图谱的关系抽取方法、装置及存储介质 | |
Barouni-Ebarhimi et al. | A novel approach for frequent phrase mining in web search engine query streams | |
Kasthuri et al. | An improved rule based iterative affix stripping stemmer for Tamil language using K-mean clustering | |
CN114302227A (zh) | 基于容器采集的网络视频采集与解析的方法和系统 | |
CN112527952A (zh) | 文件比对系统 |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
C06 | Publication | ||
PB01 | Publication | ||
C10 | Entry into substantive examination | ||
SE01 | Entry into force of request for substantive examination | ||
GR01 | Patent grant | ||
GR01 | Patent grant |