CN107729509B - 基于隐性高维分布式特征表示的篇章相似度判定方法 - Google Patents
基于隐性高维分布式特征表示的篇章相似度判定方法 Download PDFInfo
- Publication number
- CN107729509B CN107729509B CN201710994119.9A CN201710994119A CN107729509B CN 107729509 B CN107729509 B CN 107729509B CN 201710994119 A CN201710994119 A CN 201710994119A CN 107729509 B CN107729509 B CN 107729509B
- Authority
- CN
- China
- Prior art keywords
- word
- discourse
- sample
- recessive
- dimensional distributed
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Active
Links
Images
Classifications
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F16/00—Information retrieval; Database structures therefor; File system structures therefor
- G06F16/30—Information retrieval; Database structures therefor; File system structures therefor of unstructured textual data
- G06F16/33—Querying
- G06F16/3331—Query processing
- G06F16/334—Query execution
- G06F16/3344—Query execution using natural language analysis
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F16/00—Information retrieval; Database structures therefor; File system structures therefor
- G06F16/30—Information retrieval; Database structures therefor; File system structures therefor of unstructured textual data
- G06F16/33—Querying
- G06F16/3331—Query processing
- G06F16/334—Query execution
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F16/00—Information retrieval; Database structures therefor; File system structures therefor
- G06F16/30—Information retrieval; Database structures therefor; File system structures therefor of unstructured textual data
- G06F16/33—Querying
- G06F16/3331—Query processing
- G06F16/334—Query execution
- G06F16/3347—Query execution using vector based model
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F16/00—Information retrieval; Database structures therefor; File system structures therefor
- G06F16/30—Information retrieval; Database structures therefor; File system structures therefor of unstructured textual data
- G06F16/35—Clustering; Classification
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F40/00—Handling natural language data
- G06F40/20—Natural language analysis
- G06F40/279—Recognition of textual entities
- G06F40/289—Phrasal analysis, e.g. finite state techniques or chunking
Landscapes
- Engineering & Computer Science (AREA)
- Theoretical Computer Science (AREA)
- Physics & Mathematics (AREA)
- General Engineering & Computer Science (AREA)
- General Physics & Mathematics (AREA)
- Computational Linguistics (AREA)
- Data Mining & Analysis (AREA)
- Databases & Information Systems (AREA)
- Artificial Intelligence (AREA)
- Audiology, Speech & Language Pathology (AREA)
- General Health & Medical Sciences (AREA)
- Health & Medical Sciences (AREA)
- Machine Translation (AREA)
- Information Retrieval, Db Structures And Fs Structures Therefor (AREA)
Abstract
本发明公开了基于隐性高维分布式特征表示的篇章相似度判定方法,首先利用神经网络类训练技术对特定种类数据样本进行训练,对样本生成词隐性高维分布式特征表示集合以及样本对应的语言模型;对样本生成二阶隐性高维分布式特征表示矩阵;对于待判定的篇章,利用神经网络语言模型,生成篇章中每一个词生成隐性高维分布式特征,然后组合得到篇章二阶隐性高维分布式特征表示矩阵。利用篇章和样本的二阶隐性高维分布式特征表示矩阵计算篇章的隐性语义特征向量;计算篇章隐性语义特征向量与全1向量的余弦值,以此作为篇章与样本集合的相似度。该方法可以用来进行长篇章间语义相似度计算、长篇章语义分类与聚类等操作。
Description
技术领域
本发明属于自然语言处理挖掘领域文本语义理解技术中的篇章语义相似度检测技术,尤其涉及基于隐性高维分布式特征表示的篇章相似度判定方法。
背景技术
自然语言处理技术是人工智能领域的重要分支,随着互联网的飞速发展,文本数据大量涌现,其间蕴含了大量有效信息,如何自动、智能、准确的发现、处理、汇聚这些信息是大数据时代下文本挖掘的热点之一。
文本信息的分类和聚类是一类重要的文本挖掘问题,其离不开文本相似度的计算。目前文本相似度计算方法多基于词、短语或句子进行,采用基于规则或者统计(如基于TF-IDF指标)的方式处理。此类方法认为词是文本的唯一基础语义单元。然而,许多情况下相同的词在不同的语境中,往往含义并不相同;词的频率并不能绝对反映词在语义表达上的重要程度,特别是许多停用词在表达情感、情绪时,往往非常重要。在判断长篇章的相似度时,词的作用更加弱化,并且语义的关联往往会跨越多个段落。再者,基于词频的语义相似度判定方法,往往需要考虑词性,目前,词性的标注工作在大数据场景下代价非常大,几乎无法完成。
因此,在判断长篇章之间的相似度时,迫切需要一种综合考虑上下文语境、词、短语以及相关组合,并且能跨段落关联语义的新方法,来提升语义相似度判断的准确性。
发明内容
本发明提出基于隐性高维分布式特征表示的篇章相似度判定方法,该方法能够基于篇章全文整体衡量篇章语义,以词为基本单位构造隐性高维分布式特征表示(以下如无特殊说明,特征表示均指隐性高维分布式特征表示),并基于词的特征表示,构造篇章的语义特征向量。通过计算向量间距离来计算篇章之间的相似性。,本发明主要用于判定两段文本的语义相似度,其可用于海量文档分类聚类、文章阅读推荐等应用。例如如下应用场景:用户A喜欢浏览政治经济类文章,其历史上曾经浏览的文档集合记为H,每天新产生的文章集合记为N,逐篇计算N中文档与H的相似度,将N中的文档按相似度由高到低排序,推荐给A阅读。
本发明具体包括如下步骤:
步骤1,利用类神经网络工具对特定种类数据样本(如财经、政治、体育、娱乐、军事等)进行训练,对样本生成词隐性高维分布式特征表示集合以及样本对应的语言模型;
步骤2,对样本生成二阶隐性高维分布式特征表示矩阵;
步骤3,输入待判定的篇章,利用步骤1得到的语言模型,生成篇章中每一个词隐性高维分布式特征,组合得到待判定的篇章的二阶隐性高维分布式特征表示矩阵;
步骤4,利用待判定的篇章和样本的二阶隐性高维分布式特征表示矩阵计算待判定的篇章的隐性语义特征向量;
步骤5,根据隐性语义特征向量计算待判定的篇章与样本的相似度。
步骤1包括:
步骤1-1,对特定种类数据样本进行分词,分词后的结果以文本文件的方式存储,文本的每一行代表一个完整的句子分词后的结果,句子的每个词之间以\tab分隔;
步骤1-2,利用类神经网络工具对预处理过后的文本文件训练,采用后向传播算法更新神经网络相关矩阵与偏差值(语言模型生成工具可以采用类神经工具训练,如卷积神经网络、递归神经网络、残余神经网络、LSTM网络等),最终形成的语言模型如下:
Model(Seq(DOC))
其中,DOC表示任意文本,Seq(DOC)返回文本的词特征表示序列。
Model(即语言模型)能够以任意文本篇章为输入,输出两类结果,一类是输入文本篇章的词特征表示,另一类是输入文本在语言模型下出现概率的对数似然loglikelihood,词特征表示如下:
Vect=<v0,…,vM-1>T
其中,T表示转置,vi为实数(i的取值范围为0~M-1),物理含义为词在特定维度上的特征值;M为特征表示的维度,为固定值(如30,60,100)。对于不存在于样本词汇空间中的词,其特征向量记为空值null。Vect为词t在语言模型里的特征表示。
步骤2包括:通过语言模型计算样本词汇空间中每一个词的特征表示,将特征表示按照词的字母序排列后,得到一个二维矩阵,称为样本二阶隐性高维分布式特征表示矩阵,记为MatrixS:
步骤3包括:
步骤3-1,将待判定的篇章分词并去重,形成篇章词汇集合Vpara;
步骤3-2,对于Vpara中的每一个词t,利用语言模型计算其对应的词特征表示Vect;
步骤3-3,将Vecti T组成判定的篇章的二阶隐性高维分布式特征表示矩阵MatrixI,其中,i为词t的字母序。其中,Vecti T是Vecti的转置向量。
步骤4包括:
步骤4-1,用一个N维浮点向量保存篇章的隐性语义特征向量;
步骤4-2,对篇章词汇集合进行遍历,如果该词存在于篇章词汇集合中,则取值为1;如果不存在,则取值为待判定的篇章样本集合中与该词距离最近的词。
待判定的篇章的隐性语义特征向量为N维向量,N为样本的词汇集合中的词汇数量,每一维度取值为浮点值,取值范围为[-1,1];
步骤5包括:计算待判定的篇章与样本的相似度:
Sim=cossin((1)N,HV),
其中(1)N为N维全1向量,Sim为浮点型,位于[-1,1]。
本发明方法可以用来进行长篇章间语义相似度计算、长篇章语义分类与聚类等操作。
有益效果:本发明针对目前长篇章语义相似度判定技术中存在的问题,彻底抛开统计方式,通过构造基于类神经网络模型的语言模型,实现词或短语在上下文语境中的语义特征数字化定量表示;基于该隐性语义特征定量表示所蕴涵的语义特征,计算长篇章之间的相似度。本方法完全不需要人工标注词性与统计词频,也不依赖于上下文的长度,实现了完全的语义相似度自动化判定。
附图说明
下面结合附图和具体实施方式对本发明做更进一步的具体说明,本发明的上述或其他方面的优点将会变得更加清楚。
图1是语义相似度计算过程原理图。
具体实施方式
下面结合附图及实施例对本发明做进一步说明。本发明可用于海量文档分类聚类、文章阅读推荐等应用。例如如下应用场景:用户A喜欢浏览政治经济类文章,其历史上曾经浏览的文档集合记为H,每天新产生的文章集合记为N,逐篇计算N中文档与H的相似度,将N中的文档按相似度由高到低排序,推荐给A阅读。
如图1所示,本发明提出基于隐性高维分布式特征表示的篇章相似度判定方法,包括如下步骤:
步骤1,利用类神经网络工具对特定种类数据样本(如财经、政治、体育、娱乐、军事等)进行训练,对样本生成词隐性高维分布式特征表示集合以及样本对应的语言模型;
步骤2,对样本生成二阶隐性高维分布式特征表示矩阵;
步骤3,输入待判定的篇章,利用步骤1得到的语言模型,生成篇章中每一个词隐性高维分布式特征,组合得到待判定的篇章的二阶隐性高维分布式特征表示矩阵;
步骤4,利用待判定的篇章和样本的二阶隐性高维分布式特征表示矩阵计算待判定的篇章的隐性语义特征向量;
步骤5,根据隐性语义特征向量计算待判定的篇章与样本的相似度。
步骤1包括:
步骤1-1,对特定种类数据样本进行分词,分词后的结果以文本文件的方式存储,文本的每一行代表一个完整的句子分词后的结果,句子的每个词之间以\tab分隔;
步骤1-2,利用类神经网络工具对预处理过后的文本文件训练,采用后向传播算法更新神经网络相关矩阵与偏差值(语言模型生成工具可以采用类神经工具训练,如卷积神经网络、递归神经网络、残余神经网络、LSTM网络等),最终形成的语言模型如下:
Model(Seq(DOC))
其中,DOC表示任意文本,Seq(DOC)返回文本的词特征表示序列。
Model(即语言模型)能够以任意文本篇章为输入,输出两类结果,一类是输入文本篇章的词特征表示,另一类是输入文本在语言模型下出现概率的对数似然loglikelihood,词特征表示如下:
Vect=<v0,…,vM-1>T
其中,T表示转置,vi为实数(i的取值范围为0~M-1),物理含义为词在特定维度上的特征值;M为特征表示的维度,为固定值(如30,60,100)。对于不存在于样本词汇空间中的词,其特征向量记为空值null。Vect为词t在语言模型里的特征表示。
步骤2包括:通过语言模型计算样本词汇空间中每一个词的特征表示,将特征表示按照词的字母序排列后,得到一个二维矩阵,称为样本二阶隐性高维分布式特征表示矩阵,记为MatrixS:
步骤3包括:
步骤3-1,将待判定的篇章分词并去重,形成篇章词汇集合Vpara;
步骤3-2,对于Vpara中的每一个词t,利用语言模型计算其对应的词特征表示Vect;
步骤3-3,将Vecti T组成判定的篇章的二阶隐性高维分布式特征表示矩阵MatrixI,其中,i为词t的字母序。其中,Vecti T是Vecti的转置向量。
步骤4包括:
步骤4-1,用一个N维浮点向量保存篇章的隐性语义特征向量;
步骤4-2,对篇章词汇集合进行遍历,如果该词存在于篇章词汇集合中,则取值为1;如果不存在,则取值为待判定的篇章样本集合中与该词距离最近的词。
待判定的篇章的隐性语义特征向量为N维向量,N为样本词汇空间的词汇数量,每一维度取值为浮点值,取值范围为[-1,1];
待判定的篇章的隐性语义特征向量的每一维度对应样本词汇空间中的一个特定词,如果该词存在于篇章词汇空间中,则取值为1;如果不存在,则取值为待判定的篇章样本空间中所有词与该词的最近距离。
步骤5包括:计算待判定的篇章与样本的相似度:
Sim=cossin((1)N,HV),
其中(1)N为N维全1向量,Sim为浮点型,位于[-1,1]。
本发明涉及自然语言处理挖掘领域文本语义理解技术中的一种篇章相似度检测技术。长篇章语义相似度的判定是自然语言处理领域的研究热点之一,传统的相似度检测方法往往只考虑词、词性、词频、特定长度的上下文等显性特征,忽略了词语义及其上下文情境对篇章语义的影响。本专利提出的方法以训练样本为依托,综合考虑了词的语义信息、词在情境中的重要程度,并能处理跨篇章、同义、反义等各类复杂情形。
本发明提供了基于隐性高维分布式特征表示的篇章相似度判定方法,具体实现该技术方案的方法和途径很多,以上所述仅是本发明的优选实施方式,应当指出,对于本技术领域的普通技术人员来说,在不脱离本发明原理的前提下,还可以做出若干改进和润饰,这些改进和润饰也应视为本发明的保护范围。本实施例中未明确的各组成部分均可用现有技术加以实现。
Claims (1)
1.基于隐性高维分布式特征表示的篇章相似度判定方法,其特征在于,包括如下步骤:
步骤1,利用类神经网络工具对特定种类数据样本进行训练,对样本生成词隐性高维分布式特征表示集合以及样本对应的语言模型;
步骤2,对样本生成二阶隐性高维分布式特征表示矩阵;
步骤3,输入待判定的篇章,利用步骤1得到的语言模型,生成篇章中每一个词隐性高维分布式特征,组合得到待判定的篇章的二阶隐性高维分布式特征表示矩阵;
步骤4,利用待判定的篇章和样本的二阶隐性高维分布式特征表示矩阵计算待判定的篇章的隐性语义特征向量;
步骤5,根据隐性语义特征向量计算待判定的篇章与样本的相似度;
步骤1包括:
步骤1-1,对特定种类数据样本进行分词,分词后的结果以文本文件的方式存储,文本的每一行代表一个完整的句子分词后的结果;
步骤1-2,利用类神经网络工具对预处理过后的文本文件训练,采用后向传播算法更新神经网络每一层的权重,最终形成的神经网络语言模型能够以任意文本篇章为输入,输出两类结果,一类是输入文本篇章的词隐性高维分布式特征表示,另一类是输入文本在语言模型下出现概率的对数似然log likelihood,词特征表示如下:
Vect=<v0,…,vM-1>T
其中,T表示转置,vi为实数,i的取值范围为0~M-1,物理含义为词在特定维度上的特征值;M为特征表示的维度,为固定值,对于不存在于样本词汇空间中的词,其特征向量记为空值null,Vect为词t在语言模型里的特征表示;
步骤1-2中,最终形成的语言模型如下:
Model(Seq(DOC))
其中,DOC表示任意文本,Seq(DOC)返回文本的词特征表示序列;
步骤2包括:通过语言模型计算样本词汇空间中每一个词的特征表示,将特征表示按照词的字母序排列后,得到一个二维矩阵,称为样本二阶隐性高维分布式特征表示矩阵,记为MatrixS:
步骤3包括:
步骤3-1,将待判定的篇章分词并去重,形成篇章词汇集合Vpara;
步骤3-2,对于Vpara中的每一个词t,利用语言模型计算其对应的词特征表示Vect;
步骤3-3,将Vecti T组成判定的篇章的二阶隐性高维分布式特征表示矩阵MatrixI,其中,i为词t的字母序,Vecti T是Vecti的转置向量;
步骤4包括:
步骤4-1,用一个N维浮点向量保存篇章的隐性语义特征向量;
步骤4-2,对篇章词汇集合进行遍历,如果该词存在于篇章词汇集合中,则取值为1;如果不存在,则取值为待判定的篇章样本集合中与该词距离最近的词;
步骤5包括:计算待判定的篇章与样本的相似度:
Sim=cossin((1)N,HV),
其中(1)N为N维全1向量,Sim为浮点型,位于[-1,1]。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN201710994119.9A CN107729509B (zh) | 2017-10-23 | 2017-10-23 | 基于隐性高维分布式特征表示的篇章相似度判定方法 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN201710994119.9A CN107729509B (zh) | 2017-10-23 | 2017-10-23 | 基于隐性高维分布式特征表示的篇章相似度判定方法 |
Publications (2)
Publication Number | Publication Date |
---|---|
CN107729509A CN107729509A (zh) | 2018-02-23 |
CN107729509B true CN107729509B (zh) | 2020-07-07 |
Family
ID=61212435
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN201710994119.9A Active CN107729509B (zh) | 2017-10-23 | 2017-10-23 | 基于隐性高维分布式特征表示的篇章相似度判定方法 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN107729509B (zh) |
Families Citing this family (2)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN110569447B (zh) * | 2019-09-12 | 2022-03-15 | 腾讯音乐娱乐科技(深圳)有限公司 | 一种网络资源的推荐方法、装置及存储介质 |
CN111400445B (zh) * | 2020-03-10 | 2023-09-19 | 中国人民大学 | 一种基于相似文本的案件繁简分流方法 |
Citations (5)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN102968410A (zh) * | 2012-12-04 | 2013-03-13 | 江南大学 | 一种基于rbf神经网络算法与语义特征选取的文本分类方法 |
CN103838789A (zh) * | 2012-11-27 | 2014-06-04 | 大连灵动科技发展有限公司 | 一种文本相似度计算方法 |
CN104391963A (zh) * | 2014-12-01 | 2015-03-04 | 北京中科创益科技有限公司 | 一种自然语言文本关键词关联网络构建方法 |
CN106776545A (zh) * | 2016-11-29 | 2017-05-31 | 西安交通大学 | 一种通过深度卷积神经网络进行短文本间相似度计算的方法 |
CN107102989A (zh) * | 2017-05-24 | 2017-08-29 | 南京大学 | 一种基于词向量、卷积神经网络的实体消歧方法 |
Family Cites Families (1)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
JP5936698B2 (ja) * | 2012-08-27 | 2016-06-22 | 株式会社日立製作所 | 単語意味関係抽出装置 |
-
2017
- 2017-10-23 CN CN201710994119.9A patent/CN107729509B/zh active Active
Patent Citations (5)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN103838789A (zh) * | 2012-11-27 | 2014-06-04 | 大连灵动科技发展有限公司 | 一种文本相似度计算方法 |
CN102968410A (zh) * | 2012-12-04 | 2013-03-13 | 江南大学 | 一种基于rbf神经网络算法与语义特征选取的文本分类方法 |
CN104391963A (zh) * | 2014-12-01 | 2015-03-04 | 北京中科创益科技有限公司 | 一种自然语言文本关键词关联网络构建方法 |
CN106776545A (zh) * | 2016-11-29 | 2017-05-31 | 西安交通大学 | 一种通过深度卷积神经网络进行短文本间相似度计算的方法 |
CN107102989A (zh) * | 2017-05-24 | 2017-08-29 | 南京大学 | 一种基于词向量、卷积神经网络的实体消歧方法 |
Also Published As
Publication number | Publication date |
---|---|
CN107729509A (zh) | 2018-02-23 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
US11403680B2 (en) | Method, apparatus for evaluating review, device and storage medium | |
CN107229610B (zh) | 一种情感数据的分析方法及装置 | |
CN108446271B (zh) | 基于汉字部件特征的卷积神经网络的文本情感分析方法 | |
Jin et al. | A novel lexicalized HMM-based learning framework for web opinion mining | |
WO2020244073A1 (zh) | 基于语音的用户分类方法、装置、计算机设备及存储介质 | |
CN108255813B (zh) | 一种基于词频-逆文档与crf的文本匹配方法 | |
Ombabi et al. | Deep learning framework based on Word2Vec and CNNfor users interests classification | |
CN111125349A (zh) | 基于词频和语义的图模型文本摘要生成方法 | |
KR20200007713A (ko) | 감성 분석에 의한 토픽 결정 방법 및 장치 | |
CN112434164B (zh) | 一种兼顾话题发现和情感分析的网络舆情分析方法及系统 | |
Atia et al. | Increasing the accuracy of opinion mining in Arabic | |
CN111291177A (zh) | 一种信息处理方法、装置和计算机存储介质 | |
CN108108468A (zh) | 一种基于概念和文本情感的短文本情感分析方法和装置 | |
CN110874408B (zh) | 模型训练方法、文本识别方法、装置及计算设备 | |
CN108388554A (zh) | 基于协同过滤注意力机制的文本情感识别系统 | |
Huang et al. | Text classification with document embeddings | |
Twinandilla et al. | Multi-document summarization using k-means and latent dirichlet allocation (lda)–significance sentences | |
Al Mostakim et al. | Bangla content categorization using text based supervised learning methods | |
CN107729509B (zh) | 基于隐性高维分布式特征表示的篇章相似度判定方法 | |
Kameswari et al. | Predicting Election Results using NLTK | |
Mishra et al. | Evaluating Performance of Machine Leaming Techniques used in Opinion Mining | |
Zhang et al. | An effective convolutional neural network model for Chinese sentiment analysis | |
El Kah et al. | Arabic authorship attribution on twitter: what is really matters? | |
Arora et al. | Evaluation of product reviews using deep learning classifier models | |
Nsaif et al. | Political post classification based on firefly and xg boost |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination | ||
GR01 | Patent grant | ||
GR01 | Patent grant | ||
CP02 | Change in the address of a patent holder | ||
CP02 | Change in the address of a patent holder |
Address after: No.1 Lingshan South Road, Qixia District, Nanjing, Jiangsu Province, 210000 Patentee after: THE 28TH RESEARCH INSTITUTE OF CHINA ELECTRONICS TECHNOLOGY Group Corp. Address before: 210007 No. 1 East Street, alfalfa garden, Jiangsu, Nanjing Patentee before: THE 28TH RESEARCH INSTITUTE OF CHINA ELECTRONICS TECHNOLOGY Group Corp. |