CN111159412B - 分类方法、装置、电子设备及可读存储介质 - Google Patents
分类方法、装置、电子设备及可读存储介质 Download PDFInfo
- Publication number
- CN111159412B CN111159412B CN201911420328.8A CN201911420328A CN111159412B CN 111159412 B CN111159412 B CN 111159412B CN 201911420328 A CN201911420328 A CN 201911420328A CN 111159412 B CN111159412 B CN 111159412B
- Authority
- CN
- China
- Prior art keywords
- classification
- word
- text
- words
- feature
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Active
Links
- 238000000034 method Methods 0.000 title claims abstract description 65
- 238000000605 extraction Methods 0.000 claims abstract description 60
- 238000012549 training Methods 0.000 claims description 193
- 239000000523 sample Substances 0.000 claims description 133
- 238000002372 labelling Methods 0.000 claims description 110
- 230000008451 emotion Effects 0.000 claims description 99
- 239000013074 reference sample Substances 0.000 claims description 79
- 239000013598 vector Substances 0.000 claims description 71
- 238000013145 classification model Methods 0.000 claims description 45
- 238000005065 mining Methods 0.000 claims description 44
- 238000013527 convolutional neural network Methods 0.000 claims description 43
- 230000011218 segmentation Effects 0.000 claims description 42
- 238000012545 processing Methods 0.000 claims description 28
- 238000003062 neural network model Methods 0.000 claims description 22
- 230000006870 function Effects 0.000 claims description 19
- 230000004927 fusion Effects 0.000 claims description 18
- 238000004590 computer program Methods 0.000 claims description 11
- 230000000694 effects Effects 0.000 abstract description 9
- 238000011156 evaluation Methods 0.000 description 22
- 238000004458 analytical method Methods 0.000 description 13
- 238000011176 pooling Methods 0.000 description 11
- 230000008569 process Effects 0.000 description 10
- 239000012634 fragment Substances 0.000 description 6
- 238000012360 testing method Methods 0.000 description 6
- 238000010586 diagram Methods 0.000 description 5
- 238000010801 machine learning Methods 0.000 description 5
- 238000005516 engineering process Methods 0.000 description 4
- 230000007935 neutral effect Effects 0.000 description 4
- 238000013473 artificial intelligence Methods 0.000 description 3
- 238000013528 artificial neural network Methods 0.000 description 3
- 230000006872 improvement Effects 0.000 description 3
- 238000013507 mapping Methods 0.000 description 3
- 238000012986 modification Methods 0.000 description 3
- 230000004048 modification Effects 0.000 description 3
- 230000003287 optical effect Effects 0.000 description 3
- 238000009412 basement excavation Methods 0.000 description 2
- 239000000284 extract Substances 0.000 description 2
- 230000003068 static effect Effects 0.000 description 2
- 238000013459 approach Methods 0.000 description 1
- 230000006399 behavior Effects 0.000 description 1
- 230000009286 beneficial effect Effects 0.000 description 1
- 238000010276 construction Methods 0.000 description 1
- 238000013135 deep learning Methods 0.000 description 1
- 238000001514 detection method Methods 0.000 description 1
- 238000000802 evaporation-induced self-assembly Methods 0.000 description 1
- 230000006698 induction Effects 0.000 description 1
- 239000011159 matrix material Substances 0.000 description 1
- 238000003058 natural language processing Methods 0.000 description 1
- 230000002787 reinforcement Effects 0.000 description 1
- 238000012546 transfer Methods 0.000 description 1
- 238000013526 transfer learning Methods 0.000 description 1
Images
Classifications
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F16/00—Information retrieval; Database structures therefor; File system structures therefor
- G06F16/30—Information retrieval; Database structures therefor; File system structures therefor of unstructured textual data
- G06F16/35—Clustering; Classification
- G06F16/355—Creation or modification of classes or clusters
Landscapes
- Engineering & Computer Science (AREA)
- Theoretical Computer Science (AREA)
- Data Mining & Analysis (AREA)
- Databases & Information Systems (AREA)
- Physics & Mathematics (AREA)
- General Engineering & Computer Science (AREA)
- General Physics & Mathematics (AREA)
- Information Retrieval, Db Structures And Fs Structures Therefor (AREA)
Abstract
本申请实施例提供了一种分类方法、装置、电子设备及可读存储介质。该方法包括:确定待分类文本中所包含的各第一目标对象的第一分类特征词;提取待分类文本的文本特征,以及各第一分类特征词的词特征;将各第一目标对象的第一分类特征词的词特征分别与文本特征拼接,得到各第一目标对象所对应的组合特征,对于每个第一目标对象,基于第一目标对象所对应的组合特征,得到第一目标对象所对应的分类结果。本申请实施例中,在分类时基于文本特征和词特征拼接后得到的组合特征,确定最终的分类结果,相对于仅仅基于待分类文本自身的文本特征来确定分类结果,能够更好地挖掘分类结果的信息,提升特征抽取的准确性,提高了分类的效果。
Description
技术领域
本申请涉及文本分类技术领域,具体而言,本申请涉及一种分类方法、装置、电子设备及可读存储介质。
背景技术
文本分类(Text Classification)是指将文本按照一定的分类体系或标准进行自动分类标记。作为一种经典的自然语言处理任务,文本分类技术已经被广泛应用于已经应用在如情感分析、用户评论挖掘等各类场景中。而随着应用要求的提高,分类的粒度也越来越细化,以情感分析为例,细粒度情感分析,又称属性级情感分析,属于文本情感分析,是在更具体的维度上挖掘评价对象的情感属性,因此分析结果也更有参考意义和价值,其被广泛地应用于电商平台、新闻推荐、社交平台等领域。
现有技术中,文本分类通常是对训练样本人工进行评价要素的标注,然后基于标注后的训练样本进行分类模型训练,并基于训练后的分类模型确定最终的分类结果。但是在实际应用中发现,目前分类模型中对评价要素提取的提取效果都不太理想,导致文本分类结果的准确性都有待提升。
发明内容
本申请的目的提供一种分类方法、装置、电子设备及可读存储介质,以提升文本分类结果的准确性。
第一方面,本申请实施例提供了一种分类方法,该方法包括:
确定待分类文本中所包含的各第一目标对象的第一分类特征词;
提取待分类文本的文本特征,以及各第一分类特征词的词特征;
将各第一目标对象的第一分类特征词的词特征分别与文本特征拼接,得到各第一目标对象所对应的组合特征;
对于每个第一目标对象,基于第一目标对象所对应的组合特征第一目标对象所对应的分类结果。
第一方面可选的实施例中,待分类文本为句子,提取待分类文本的文本特征,包括:
对待分类文本进行分词处理,并提取待分类文本中各第一分词的词向量,第一分词包括第一目标对象的分词;
将待分类文本中的每个第一分词的词向量分别与第一目标对象的词向量拼接,得到各第一分词对应的拼接向量;
基于各第一分词对应的拼接向量,提取得到待分类文本的文本特征。
第一方面可选的实施例中,确定待分类文本中各第一目标对象的第一分类特征词,包括:
基于类序列规则(Class Sequential Rules,CSR),确定待分类文本中各第一目标对象的第一分类特征词;
其中,类序列规则是基于基准样本文本中的标注序列确定的,标注序列表征了基准样本文本中所包含的各基准特征词的词性和词类别。
第一方面可选的实施例中,基于类序列规则,确定待分类文本中各第一目标对象的第一分类特征词,包括:
确定各第一分词中所包含的基准特征词;
基于各第一分词的词性、以及各基准特征词的词类别,对待分类文本进行标注,得到待分类文本的标注序列;
基于类序列规则和待分类文本的标注序列,确定各第一分类特征词。
第一方面可选的实施例中,在待分类文本中存在指定类型词时,提取第一分类特征词的词特征,包括:
将指定类型词和对应的第一分类特征词合并,得到合并后的第一分类特征词,其中,指定类型词是指影响第一分类特征词所对应的分类结果的词;
提取合并后的第一分类特征词的词特征作为第一分类特征词的词特征。
第一方面可选的实施例中,该方法是通过分类模型实现的,其中,分类模型是通过以下方式训练得到的:
获取各初始训练样本;
确定各初始训练样本中所包含的第二目标对象的第二分类特征词;
基于每个初始训练样本各自所包含的第二分类特征词,标注每个初始训练样本的分类标签,得到各标注后的训练样本;
基于标注后的各训练样本和各训练样本所对应的第二分类特征词,对初始神经网络模型进行训练,直至对应的损失函数收敛,损失函数的值表征了模型输出的训练样本的分类结果和分类标签对应的分类结果之间的差异。
第一方面可选的实施例中,基准样本文本为句子,确定各初始训练样本中所包含的第二目标对象的第二分类特征词,包括:
确定基准样本文本;
基于基准样本文本,确定类序列规则;
基于类序列规则,确定各初始训练样本中所包含的第二目标对象的第二分类特征词。
第一方面可选的实施例中,基于基准样本文本,确定类序列规则,包括:
对基准样本文本进行分词处理,得到各第二分词;
确定各第二分词中所包含的基准特征词;
基于各第二分词的词性、以及各基准特征词的词类别,对基准样本文本进行标注,得到基准样本文本的标注序列;
基于基准样本文本的标注序列,挖掘类序列规则。
第一方面可选的实施例中,基于基准样本文本的标注序列,挖掘类序列规则,包括:
采用频繁序列模式对基准样本文本的标注序列进行类序列规则挖掘,得到类序列规则,其中,频繁序列模式中的支持度是基于最小支持率和初始训练样本的数量确定的。
第一方面可选的实施例中,在初始训练样本中包括指定类型词时,基于每个初始训练样本各自所包含的第二分类特征词,标注每个初始训练样本的分类标签,得到各标注后的训练样本,包括:
对于每个初始训练样本,将指定类型词与对应的第二分类特征词合并,得到合并后的第二分类特征词;
基于合并后的第二分类特征词标注每个初始训练样本的分类标签,得到各标注后的训练样本;
基于标注后的各训练样本和各样本所对应的第二分类特征词,对初始神经网络模型进行训练,包括:
基于标注后的各训练样本和各训练样本所对应的合并后的第二分类特征词,对初始神经网络模型进行训练。
第一方面可选的实施例中,分类模型为卷积神经网络CNN(Convolutional NeuralNetworks,卷积神经网络)模型,CNN模型包括文本特征提取模块、分类词特征提取模块、特征融合模块和分类模块,其中:
文本特征提取模块,用于提取待分类文本的文本特征;
分类词特征提取模块,用于确定待分类文本中所包含的各第一目标对象的第一分类特征词,以及提取各第一分类特征词的词特征;
特征融合模块,用于将各第一目标对象的第一分类特征词的词特征分别与文本特征拼接,得到各第一目标对象所对应的组合特征;
分类模块,用于对于每个第一目标对象,基于第一目标对象所对应的组合特征,得到第一目标对象所对应的分类结果。
第一方面可选的实施例中,分类模型为情感分类模型,第一分类特征词和第二分类特征词为情感特征词。
第一方面可选的实施例中,在第一分类特征词的词特征是基于将第一分类特征词和对应的指定类型词合并后的第一分类特征词提取得到的时,第一指定词包括影响第一分类特征词的情感程度的程度词或否定词中的至少一项。
第二方面,本申请实施例提供了一种分类装置,该装置包括:
分类特征词确定模块,用于确定待分类文本中所包含的各第一目标对象的第一分类特征词;
特征提取模块,用于提取待分类文本的文本特征,以及各第一分类特征词的词特征;
特征融合模块,用于将各第一目标对象的第一分类特征词的词特征分别与文本特征拼接,得到各第一目标对象所对应的组合特征;
分类结果确定模块,对于每个第一目标对象,基于第一目标对象所对应的组合特征,得到第一目标对象所对应的分类结果。
第二方面可选的实施例中,待分类文本为句子,特征提取模块在提取待分类文本的文本特征时,具体用于:
对待分类文本进行分词处理,并提取待分类文本中各第一分词的词向量,第一分词包括第一目标对象的分词;
将待分类文本中的每个第一分词的词向量分别与第一目标对象的词向量拼接,得到各第一分词对应的拼接向量;
基于各第一分词对应的拼接向量,提取得到待分类文本的文本特征。
第二方面可选的实施例中,分类特征词确定模块在确定待分类文本中各第一目标对象的第一分类特征词时,具体用于:
基于类序列规则,确定待分类文本中各第一目标对象的第一分类特征词;
其中,类序列规则是基于基准样本文本中的标注序列确定的,标注序列表征了基准样本文本中所包含的各基准特征词的词性和词类别。
第二方面可选的实施例中,分类特征词确定模块在基于类序列规则,确定各待分类文本中第一目标对象的第一分类特征词时,具体用于:
确定各第一分词中所包含的基准特征词;
基于各第一分词的词性、以及各基准特征词的词类别,对待分类文本进行标注,得到待分类文本的标注序列;
基于类序列规则和待分类文本的标注序列,确定各第一分类特征词。
第二方面可选的实施例中,在待分类文本中存在指定类型词时,特征提取模块在提取第一分类特征词的词特征时,具体用于:
将指定类型词和对应的第一分类特征词合并,得到合并后的第一分类特征词,其中,第一指定词是指影响第一分类特征词所对应的分类结果的词;
提取合并后的第一分类特征词的词特征作为第一分类特征词的词特征。
第二方面可选的实施例中,分类特征词确定模块、特征提取模块和分类结果确定模块包含于分类模型中,分类模型是通过模型训练模块得到的,模型训练模块具体用于:
获取各初始训练样本;
确定各初始训练样本中所包含的第二目标对象的第二分类特征词;
基于每个初始训练样本各自所包含的第二分类特征词,标注每个初始训练样本的分类标签,得到各标注后的训练样本;
基于标注后的各训练样本和各训练样本所对应的第二分类特征词,对初始神经网络模型进行训练,直至对应的损失函数收敛,损失函数的值表征了模型输出的训练样本的分类结果和分类标签对应的分类结果之间的差异。
第二方面可选的实施例中,模型训练模块在确定各初始训练样本中所包含的第二目标对象的第二分类特征词时,具体用于:
确定基准样本文本;
基于基准样本文本,确定类序列规则;
基于类序列规则,确定各初始训练样本中所包含的第二目标对象的第二分类特征词。
第二方面可选的实施例中,基准样本文本为句子,模型训练模块在基于基准样本文本,确定类序列规则时,具体用于:
对基准样本文本进行分词处理,得到各第二分词;
确定各第二分词中所包含的基准特征词;
基于各第二分词的词性、以及各基准特征词的词类别,对基准样本文本进行标注,得到基准样本文本的标注序列;
基于基准样本文本的标注序列,挖掘类序列规则。
第二方面可选的实施例中,模型训练模块在基于基准样本文本的标注序列,挖掘类序列规则时,具体用于:
采用频繁序列模式对基准样本文本的标注序列进行类序列规则挖掘,得到类序列规则,其中,频繁序列模式中的支持度是基于最小支持率和初始训练样本的数量确定的。
第二方面可选的实施例中,在初始训练样本中包括指定类型词时,模型训练模块在基于每个初始训练样本各自所包含的第二分类特征词,标注每个初始训练样本的分类标签,得到各标注后的训练样本时,具体用于:
对于每个初始训练样本,将指定类型与对应的第二分类特征词合并,得到合并后的第二分类特征词;
基于合并后的第二分类特征词标注每个初始训练样本的分类标签,得到各标注后的训练样本;
模型训练模块在基于标注后的各训练样本和各样本所对应的第二分类特征词,对初始神经网络模型进行训练时,具体用于:
基于标注后的各训练样本和各训练样本所对应的合并后的第二分类特征词,对初始神经网络模型进行训练。
第二方面可选的实施例中,该分类模型为CNN模型,CNN模型包括文本特征提取模块、分类词特征提取模块、特征融合模块和分类模块,其中:
文本特征提取模块,用于提取待分类文本的文本特征;
分类词特征提取模块,用于对于每个第一分类特征词,融合文本特征和第一分类特征词的词特征,得到融合后的特征;
特征融合模块,用于将各第一目标对象的第一分类特征词的词特征分别与文本特征拼接,得到各第一目标对象所对应的组合特征;
分类模块,用于对于每个第一目标对象,基于第一目标对象所对应的组合特征,得到第一目标对象所对应的分类结果。
第二方面可选的实施例中,分类模型为情感分类模型,第一分类特征词和第二分类特征词为情感特征词。
第二方面可选的实施例中,在第一分类特征词的词特征是基于将分类特征词和对应的指定类型词合并后的第一分类特征词提取得到的时,指定类型词包括影响第一分类特征词的情感程度的程度词或否定词中的至少一项。
第三方面,本申请实施例提供了一种电子设备,该电子设备包括:
处理器;以及存储器,该存储器配置用于存储计算机程序,该计算机程序在由该处理器执行时,使得该处理器执行第一方面中任一项的方法。
第四方面,本申请实施例提供了一种计算机可读存储介质,计算机存储介质用于存储计算机程序,当计算机程序在计算机上运行时,使得计算机可以执行上述第一方面的任一项的方法。
本申请实施例提供的技术方案带来的有益效果是:
在本申请实施例中,在确定待分类文本对应的分类结果时,可以提取待分类文本中的文本特征,以及提取第一分类特征词的词特征,然后基于文本特征和词特征拼接后得到的组合特征,确定最终的分类结果。相应的,由于在分类的过程中融合了第一分类特征词的词特征,相对于仅仅基于待分类文本自身的文本特征来确定分类结果,能够更好地挖掘分类结果的信息,提升特征抽取的准确性,提升文本分类结果的准确性,提高了分类的效果。
附图说明
为了更清楚地说明本申请实施例中的技术方案,下面将对本申请实施例描述中所需要使用的附图作简单地介绍。
图1为本申请实施例提供的一种分类方法的流程示意图;
图2为本申请实施例提供的一种训练分类模型的流程示意图;
图3为本申请实施例提供的一种迭代挖掘基准特征词的流程示意图;
图4为本申请实施例提供的一种CNN的网络结构示意图;
图5为本申请实施例提供的一种分类装置的结构示意图;
图6为本申请实施例提供的一种电子设备的结构示意图。
具体实施方式
下面详细描述本申请的实施例,所述实施例的示例在附图中示出,其中自始至终相同或类似的标号表示相同或类似的元件或具有相同或类似功能的元件。下面通过参考附图描述的实施例是示例性的,仅用于解释本申请,而不能解释为对本申请的限制。
本技术领域技术人员可以理解,除非特意声明,这里使用的单数形式“一”、“一个”、“所述”和“该”也可包括复数形式。应该进一步理解的是,本申请的说明书中使用的措辞“包括”是指存在所述特征、整数、步骤、操作、元件和/或组件,但是并不排除存在或添加一个或多个其他特征、整数、步骤、操作、元件、组件和/或它们的组。应该理解,当我们称元件被“连接”或“耦接”到另一元件时,它可以直接连接或耦接到其他元件,或者也可以存在中间元件。此外,这里使用的“连接”或“耦接”可以包括无线连接或无线耦接。这里使用的措辞“和/或”包括一个或更多个相关联的列出项的全部或任一单元和全部组合。
机器学习(Machine Learning,ML)是一门多领域交叉学科,涉及概率论、统计学、逼近论、凸分析、算法复杂度理论等多门学科。专门研究计算机怎样模拟或实现人类的学习行为,以获取新的知识或技能,重新组织已有的知识结构使之不断改善自身的性能。机器学习是人工智能的核心,是使计算机具有智能的根本途径,其应用遍及人工智能的各个领域。机器学习和深度学习通常包括人工神经网络、置信网络、强化学习、迁移学习、归纳学习、式教学习等技术。
本申请实施例提供的方案涉及人工智能的机器学习等技术,具体通过如下实施例进行说明。
随着文本分类应用要求的提高,文本分类的粒度也越来越细化。
细粒度文本分析技术中,首先进行评价要素抽取,即从文本中挖掘评价要素,评价要素通常包括评价对象和评价词,例如,在情感分析中,对于“服务很好,…”这段文本,需要提取的评价要素包括“服务”、“很好”…,其中,“服务”为评价对象,“很好”为评价词,之后则基于提取的评价要素,对评价对象进行情感打分。但是目前已有的评价要素提取方案的提取效果都不太理想,导致文本分类结果的准确性都有待提升。
目前,细粒度文本分析技术中,评价要素的提取主要有两种方法:“一种是基于词典、模板提取细粒度评价要素;另一种则将细粒度要素的挖掘和提取转变成序列标注问题,采用基于条件随机场、隐马尔可夫模型等序列标注方法提取评价要素。但是,基于词典、模板的要素提取方式扩展性和泛化能力较差,对于网络新词和领域新词无法识别,导致提取的评价要素不完整,而基于序列标注的要素提取方式则无法解决评价词和评价对象之间长距离依赖的问题,提取效果也不佳。
基于此,本申请实施例提供一种分类方法,旨在解决上述中描述的部分或全部技术问题。下面以具体地实施例对本申请的技术方案以及本申请的技术方案如何解决上述技术问题进行详细说明。下面这几个具体的实施例可以相互结合,对于相同或相似的概念或过程可能在某些实施例中不再赘述。下面将结合附图,对本申请的实施例进行描述。
需要说明的是,在本申请实施例下文的描述中,会以情感文本分类为例对所提供的分类方法进行示例描述,但是对于其它文本分类的应用场景同样适用。
图1示出了本申请实施例中所提供的一种分类方法的流程示意图。如图1所示,该方法包括:
步骤S101,确定待分类文本中所包含的各第一目标对象的第一分类特征词。
其中,待分类文本是指需要进行文本内容分类的文本,待分类文本的具体形式本申请实施例不做限定,例如可以为存在多个分句的一段文章,也可以是单独的句子,也就是说,文本的粒度本申请实施例不做限定,可以根据实际应用需要配置。作为一可选方式,待分类文本可以是一个句子,在需要对一篇文章或者文本片段进行分类时,则可以对该文章或者文本片段进行分句处理,将处理后的每一个分句作为一个待分类文本。
目标对象指的是待分类文本中的待评价对象,分类特征词指的是与分类类别有关的、能够影响待评价对象的分类结果的词,通常为待分类文本中所包含的指定类别的特征词,对于不同的分类应用场景,分类特征词的类别通常也是不同的。
例如,假设分类应用场景为情感分类,分类特征词则为情感特征词。作为一个示例,假设待分类文本为“服务很好”,则待分类文本中的目标对象为“服务”,该目标对象的分类特征词为“好”。
可以理解是,在实际应用中,也有可能会出现待分类文本中存在多个第一目标对象和对应的第一分类特征词的情况,此时确定的第一目标对象的第一分类特征词为待分类文本中所包含的每个第一目标对象的第一分类特征词。在一示例中,假设分类场景为情感分类,待分类文本为“这里房间很好性价比很高!”,此时该待分类文本中则存在两个第一目标对象和对应的第一分类特征词,两个第一目标对象分别为“房间”和“性价比”两个第一目标对象对应第一分类特征词分别为“好”和“高”,此时可以确定出一个第一目标对象的第一分类特征词为“好”,另一个第一目标对象第一分类特征词为“高”。
步骤S102,提取待分类文本的文本特征,以及各第一分类特征词的词特征。
其中,文本特征指的是与待分类文本对应的分类结果相关的特征。在本申请实施例中,文本特征和词特征的提取方式不做限定,如可以分别通过特征提取网络进行提取,如通过卷积网络进行提取,再例如,对于词特征可以是对应的词向量,并采用Word2vec(wordto vector,词转向量)模型得到。
在实际应用中,待分类文本可以是句子或文章或文本片段,如果是文章或文本片段,则可以对文章或文本片段进行分句处理,此时很可能会存在不存在第一目标对象和/或第一分类特征词的分句,对于此类分句,由于不存在待评价对象,或者不存在待评价对象的分类特征词,则可以不对该分句进行处理,即可以跳过该分句,进行下一分句的处理。
在一示例中,假设获取的待分类文本为“您好,这个酒店的环境很棒!”,此时获取的待分类文本包括两个分句,分别为“您好”和“这个酒店的环境很棒”,其中,分句“您好”中不存在待评价对象和待评价对象的分类特征词,此时可以不对该分句“您好”的进行处理,进行下一分句的处理。
在本申请实施例中,在待分类文本中不存在待评价对象,或者不存在待评价对象的分类特征词时,可以不执行提取文本特征的过程,因此,相比于不考虑待分类文本自身的因素,对所有待分类文本均提取文本特征的方式,可以有效地节约了资源,提升了分类效率。
可以理解是,在实际应用中,也有可能会出现一个分句中存在多个第一目标对象和对应的第一分类特征词的情况,此时在提取第一分类特征词的词特征时,可以分别提取所包括的每个第一分类特征词的词特征。
在一示例中,假设待分类文本为“这里房间很好性价比很高!”,此时该待分类文本中存在两个第一目标对象和对应的第一分类特征词,分别为“房间”和“好”,以及“性价比”和“高”;进一步的,可以提取该待分类文本的文本特征,以及分别提取第一分类特征词“好”和第一分类特征词“高”的词特征。
步骤S103,将各第一目标对象的第一分类特征词的词特征分别与文本特征拼接,得到各第一目标对象所对应的组合特征;
在实际应用中,确定待分类文本中所包含的各第一目标对象的第一分类特征词、以及待分类文本的文本特征后,对于每一个目标对象,可以将该目标对象对应的第一分类特征词与待分类文本的文本特征进行拼接,进而得到每个第一目标对象所对应的组合特征。也就是说,最终确定的各组合特征是分别与第一目标对象一一对应的。
在一示例中,假设待分类文本为“这里房间很好性价比很高!”,此时该待分类文本中存在两个第一目标对象和对应的第一分类特征词,分别为“房间”和“好”,以及“性价比”和“高”;进一步的,可以提取该待分类文本的文本特征,以及分别提取第一分类特征词“好”和第一分类特征词“高”的词特征;进一步的,对于第一目标对象“房间”,可以将第一分类特征词“好”的词特征与待分类文本的文本特征进行拼接,得到第一目标对象“房间”所对应的组合特征;对于第一目标对象“性价比”,可以将第一分类特征词“高”的词特征与待分类文本的文本特征进行拼接,得到第一目标对象“性价比”所对应的组合特征。
可选的,在本申请实施例中,每个第一分类特征词的词特征的特征长度与文本特征的特征长度的差值小于设定值。
其中,特征长度在本实例中可以指词特征和文本特征的维度,而设定值的具体取值可以预先配置,本申请实施例不限定。可选的,在本申请实施例中,对于每个第一分类特征词,其对应的词特征的特征长度与文本特征的特征长度的差值小于设定值,也就是说,每个第一分类特征词的词特征长度与第一分类特征词的词特征的特征长度是相近的。可以理解的是,若当前希望第一分类特征词的词特征的特征长度与文本特征的特征长度相同,此时可以将设定值设置为0。例如,当第一分类特征词的词特征的特征长度为100维时,文本特征的特征长度也为100维,此时两者之间的特征长度的差值为0。
在本申请实施例中,由于第一分类特征词的词特征的特征长度与第一分类特征词的词特征的特征长度之间的差值小于设定值,即两者之间的特征长度是相近的,这样可以有效地避免了其中一个词特征因特征长度较短,而在分类过程中起不到作用或作用不明显,进而可以进一步提高分类结果的准确性。
步骤S104,对于每个第一目标对象,基于第一目标对象所对应的第一组合特征,得到第一目标对象所对应的分类结果。
在实际应用中,在得到每个第一目标对象所对应的组合特征后,可以基于每个第一目标对象所对应的组合特征,得到每个第一目标对象所对应的分类结果。也就是说,当待分类文本中存在多个(包括两个或两个以上)第一目标对象时,可以分别得到相应数量的分类结果,且得到的每个分类结果对应于一个第一目标对象。
其中,第一目标对象对应的分类结果对应于不同的应用场景时表现形式是不同的,本申请实施例对分类结果的表现形式不做限定。在一示例中,假设当前的应用场景为情感分类的应用场景,其对应的分类结果可以包括褒义、贬义和中性。如当待分类文本的第一目标对象的第一分类特征词为“好”时,该第一目标对象对应的分类结果为褒义,当待分类文本的第一目标对象的第一分类特征词为“一般”时,该第一目标对象对应的分类结果为中性,当待分类文本的第一目标对象的第一分类特征词为“差”时,该第一目标对象对应的分类结果则为贬义。
延续上一示例,对于第一目标对象“房间”,基于其所对应的组合特征,可以得到第一目标对象“房间”的分类结果为褒义;对于第一目标对象“性价比”,基于其所对应的组合特征,可以得到第一目标对象“性价比”的分类结果也为褒义。
需要说明是,当获取到的文本为存在多个句子的片段或文章时,此时可以将获取到的文本进行分句处理,得到其所包括的各分句。相应的,此时每个句子为一个待分类文本,且对应于一个文本特征,而将第一目标对象的第一分类特征词的词特征与文本特征拼接时,是将第一目标对象所在的句子所对应的文本特征进行拼接。
在本申请实施例中,在确定待分类文本对应的分类结果时,可以提取待分类文本中的文本特征,以及提取各第一分类特征词的词特征,然后基于文本特征和词特征拼接后得到的组合特征,确定最终的分类结果。相应的,由于在分类的过程中将文本特征中融合了第一分类特征词的词特征,即相当于加入了先验知识。因此,相对于仅仅基于待分类文本自身的文本特征来确定分类结果,能够更好地挖掘分类结果的信息,提升特征抽取的准确性,降低了对分类器的要求,提高了分类的效果。
在本申请可选的实施例中,待分类文本为句子,提取待分类文本的文本特征,包括:
对待分类文本进行分词处理,并提取待分类文本中各第一分词的词向量,第一分词包括第一目标对象的分词;
将待分类文本中的每个第一分词的词向量分别与第一目标对象的分词的词向量拼接,得到各第一分词对应的拼接向量;
基于各第一分词对应的拼接向量,提取得到待分类文本的文本特征。
在实际应用中,若获取到的文本为存在多个句子的文章或片段,此时可以向对待分类文本进行分句处理,得到多个分句,此时每个分句对应于本申请实施例中的一个待分类文本。例如,对待分类文本进行分词处理时,可以以标点符号为间隔切分每个句子,得到待分类文本包括的每个分句,其中,为了更好的知晓每个分句,可以采用“|”标注每个分句。
进一步的,可以对每个分句进行分词处理,得到待分类文本所包含的各个第一分词。例如,假设待分类文本为“房间很舒服,服务很好,价格不便宜”,此时可以基于“,”作为切分依据对该待分类文本进行分句,得到“房间很舒服|服务很好|价格不便宜”三个分句;进一步的,可以对该三个分句进行分词,分别得到各第一分词“房间”、“很”、“舒服”、“服务”、“很”、“好”、“价格”、“不”和“便宜”。
相应的,可以将待分类文本中的每个第一分词的词向量分别与第一目标对象的分词的词向量拼接,得到各第一分词对应的拼接向量,然后对各第一分词对应的拼接向量进行特征提取,得到待分类文本的文本特征。
在一示例中,假设对待分类文本进行分词处理得到的各第一分词“房间”、“很”和“舒服”,第一目标对象的分词为“房间”。进一步的,可以分别提取“房间”、“很”和“舒服”的词向量,然后将“很”和“舒服”的词向量分别与“房间”的词向量进行拼接,分别得到“很”和“舒服”的对应的拼接向量,并基于“很”和“舒服”的对应的拼接向量提取得到待分类文本的文本特征。
在本申请实施例中,可以将待分类文本中的各第一分词的词向量分别与第一目标对象的分词的词向量拼接,得到各第一分词对应的拼接向量,并且由于文本特征是与待分类文本对应的分类结果相关的特征,此时每个第一分词对应的拼接向量中均包括目标对象的特征,进而基于各第一分词对应的拼接向量,提取得到待分类文本的文本特征时,可以指导后续的特征提取结构提取出与该目标对象相关的更好的特征,提高对该目标对象的分类效果。
在本申请可选的实施例中,确定待分类文本中所包含的各第一目标对象的第一分类特征词,包括:
基于类序列规则,确定待分类文本中所包含的各第一目标对象的第一分类特征词;
其中,类序列规则是基于基准样本文本中的标注序列确定的,标注序列表征了基准样本文本中所包含的各基准特征词的词性和词类别。
具体的,类序列规则是由类别标签和序列数据组成的规则,这两者构成一种映射关系,形式化表述为:X→Y,该映射关系的具体描述如下:
X为一个序列,表述为<S1x1S2x2...Sixi>,其中,S指的是序列数据库,为一系列元组<sid,s>组成的集合,如表1所示,sid(Sequence id)为一个序列数据的标号,而s(Sequence)指的是序列数据,xi表示的是这个序列数据可能对应的类别;
表1、序列数据库示例
Sequence id | Sequence |
1 | <abdC1gh> |
2 | <abeghk> |
3 | <C2kea> |
4 | <dC2kb> |
5 | <abC1fgh> |
Y为另一个序列,表述为<S1c1S2c2...Sicr>,其中,S定义同上,cr为确定的类别标签,为(cr∈C,1≤i≤r),而C={c1,c2,...,cr}为类别标签的集合。由此,CSR要求确定类序列规则必须带有指定的类别信息。
进一步的,当指定类别信息以后,CSR将满足支持度阈值和置信度阈值的序列数据挖掘出来作为类序列规则。以表1为例,该序列数据库中含有5条带有类别信息的序列数据,按照以上定义,可以挖掘的类序列规则为<<ab>x<gh>>→<<ab>c1<gh>>,显然,序列标号为1和5的序列数据包含了该类序列规则,且指定类别信息都是c1,而序列标号为1,2和5的序列都覆盖了该类序列规则,但序列标号为2的序列没有指定类别信息。故在这5条序列数据里,类序列规则的支持度为2/5,置信度为2/3。基于此,通过上述中对类序列规则的定义可知,CSR是先确定了指定类别信息,再根据指定类别信息来挖掘规则,与传统序列模式挖掘有很大的区别。进一步的,在这种类序列规则中,由于左侧是序列模式,右侧是对应的类别标签,进而可以通过这种对应的映射关系将序列模式和类别信息绑定在一起。而CSR挖掘的目标是找到与指定类别信息具有高度相关性的序列模式,挖掘序列模式和类别之间对应的规则。由此可见,类序列规则的特点是有监督和事先给定类别指定类别信息。
进一步的,在本申请实施例中,基准样本文本指的是用于挖掘类序列规则的文本,基准特征词为基准样本文中所包括的各类别特征词中预先指定类别的基准词,其可以用于对基准样本文本进行标注,得到对应的标注序列。其中,该基准特征词所包括的类别本申请实施例不限定,如可以是来源于已有的词典数据库中的少数领域属性词、情感词、程度副词和否定词等。
在实际应用中,在确定类序列规则时,可以获取基准样本文本,然后对基准样本文本进行分词处理,得到基准样本文本所包括的各分词,并标注各分词的词性,如将名词标注为n,将形容词标注为a,副词标注为d等。进一步的,确定基准样本文本所包括的各分词中属于基准特征词的分词,并基于基准特征词的词类别对基准样本文本所包括的基准特征词进行标注,进而得到对应的标注序列。其中,标注过程中可以将属性词标注为#,情感词标注为*,程度副词标注为&,否定词标注为!等。进一步的,在得到基准样本文本中的标注序列后,可以将得到的标注序列作为序列数据,然后基于确定的指定类别、支持度和置信度对得到的标注序列进行挖掘,得到类序列规则。
在本申请可选的实施例中,基于类序列规则,确定待分类文本中所包含的各第一目标对象的第一分类特征词,包括:
确定各第一分词中所包含的基准特征词;
基于各第一分词的词性、以及各基准特征词的词类别,对待分类文本进行标注,得到待分类文本的标注序列;
基于类序列规则和待分类文本的标注序列,确定各第一分类特征词。
在实际应用中,可以获取基准特征词,并确定各第一分词中所包含的基准特征词,然后根据各第一分词的词性、以及各基准特征词的词类别,对待分类文本进行标注,进而得到待分类文本的标注序列。
在一示例中,假设待分类分本为“房间很舒服,服务很好,价格不便宜”,且得到的各第一分词包括“房间”、“很”、“舒服”、“服务”、“很”、“好”、“价格”、“不”、“便宜”,基准特征词包括属于属性词类别的“房间、价格”,属于情感词类别的“舒服、便宜”、以及属于程度副词类别的“很”、属于否定词类别的“不”。其中,属性词类别被标注为“#”,情感词类别被标注为“*”,程度副词类别被标注为“*”,否定词类别被标注为“!”;进一步的,可以确定各第一分词中的词性并进行标注,得到“/n,/d,/a,|,/n,/d,/a,|,/n,/d,/a”,并确定第一分词中包括的第一基准特征词为“房间”、“很”、“舒服”、“价格”、“不”和“便宜”然后根据第一分词中所包含的各基准特征词的词类别,在待分类文本中相对应的位置上进行词类别标注,得到待分类文本的标注序列“#/n,&/d,*/a,|,/n,&/d,/a,|,#/n,!/d,*/a”。
进一步的,由于基准特征词仅仅是从基准样本文中所包括的各类别特征词中预先指定类别的少数部分基准词,进而可能无法全部确定出第一分词中所包含的各第一分类特征词。基于此,本申请实施例中在得到待分类文本的标注序列后,可以基于确定的类序列规则匹配得到的标注序列,并将类序列规则对应的特征词提取出来,形成新的基准特征词,然后基于新的基准特征词再重新对各第一分词进行标注,并重复得到待分类文本的标注序列、以及得到新的基准特征词步骤,以达到迭代挖掘基准特征词的目的,进而可以保证当前每个第一分词中所包含的各第一分类特征词均可被识别出。
延续上面的示例,假设第一分类特征词为情感类别特征词,得到的待分类文本的标注序列“#/n,&/d,*/a,|,/n,&/d,/a,|,#/n,!/d,*/a”,并确定的类序列规则为“#/n,&/d,*/a”,且设置置信度为0.1,此时“/n,&/d,/a,”以及“#/n,!/d,*/a”均满足要求,也可以作为类序列规则;进一步的,可以基于确定的类序列规则匹配得到的标注序列,并将各类序列规则在标注序列中对应位置的特征词提取出来作为新的基准特征词,即将属于属性词类别的“房间、价格、服务”、属于情感词类别的“舒服、便宜、好”、以及属于程度副词类别的“很”、属于否定词类别的“不”提取出来作为新的基准特征词;相应的,由于得到新的基准特征词中包括当前待分类文本中所包含的所有第一分类特征词,进而可以得到第一分类特征词中还包括“好”。
在本申请可选的实施例中,在待分类文本中存在指定类型词时,提取第一分类特征词的词特征,包括:
将指定类型词和对应的第一分类特征词合并,得到合并后的第一分类特征词,其中,指定类型词是指影响第一分类特征词所对应的分类结果的词;
提取合并后的第一分类特征词的词特征作为第一分类特征词的词特征。
其中,指定类型词是指潜在的能够影响第一分类特征词所对应的分类结果的词。指定类型词通常为位于分类特征词之前的、用于限定分类特征词或者加深分类特征词含义程度的词,该指定类型词包括但不限于位于分类特征词之前的定语、形容词或者副词(如程度副词)等。指定类型词的具体类型,在不同的应用程序中,可以根据实际应用需求指定。
在本申请可选的实施例中,在第一分类特征词的词特征是基于将第一分类特征词和对应的指定类型词合并后的第一分类特征词提取得到的时,指定类型词包括影响第一分类特征词的情感程度的程度词或否定词中的至少一项。如,若当前的应用场景为文本情感分析的场景,第一指定词可以为影响情感程度的程度词或否定词中的至少一项。
在实际应用中,在提取第一分类特征词的词特征之前,还可以确定当前待分类文本中是否包括指定类型词,若存在,可以将指定类型词和对其对应的第一分类特征词合并,得到合并后的第一分类特征词,然后提取合并后的第一分类特征词的词特征作为第一分类特征词的词特征。其中,若当前待分类文本中包括多个指定类型词和多个第一分类特征词,则需要将将指定类型词和对应的第一分类特征词进行一一合并。
在一示例中,假设第一分类特征词为情感类特征词,指定类型词为否定词,待分类文本为“房间不舒服,价格不便宜”。此时,该待分类文本中包括两个否定词“不”,情感类特征词为“舒服”和“便宜”,则可以将第一否定词“不”与“舒服”进行合并,得到第一个合并后的第一分类特征词“不舒服”,以及将第二否定词“不”与“便宜”进行合并,得到第二个合并后的第一分类特征词“不便宜”,然后分别提取“不舒服”和“不便宜”的词特征。
在本申请可选的实施例中,该方法是通过分类模型实现的,其中,分类模型是通过以下方式训练得到的:
获取各初始训练样本;
确定各初始训练样本中所包含的第二目标对象的第二分类特征词;
基于每个初始训练样本各自所包含的第二分类特征词,标注每个初始训练样本的分类标签,得到各标注后的训练样本;
基于标注后的各训练样本和各训练样本所对应的第二分类特征词,对初始神经网络模型进行训练,直至对应的损失函数收敛,损失函数的值表征了模型输出的训练样本的分类结果和分类标签对应的分类结果之间的差异。
在本申请可选的实施例中,若分类模型为情感分类模型,则第一分类特征词和第二分类特征词可以为情感特征词。
在实际应用中,本申请实施例上述中所提供的分类方法可以通过分类模型来实现,并且分类模型的类别本申请实施例也不做限定,如分类模型可以为CNN模型等。
在实际应用中训练分类模型时,可以获取各初始训练样本,各初始样本中包括第二目标对象、以及第二目标对象的第二分类特征词,其中,第二分类特征词的类别与第一分类特征证词的类别相同,如当第一分类特征词为情感类特征词时,第二分类特征词也应为情感类特征词。
进一步的,可以基于每个初始训练样本各自所包含的第二分类特征词,标注每个初始训练样本的分类标签,得到各标注后的训练样本。其中,不同的应用场景时,初始训练样本不同,此时标注的分类标签也是不同的。例如,若应用场景为情感分析的应用场景,此时获取到的各初始训练样本中所包括的第二分类特征词可以为情感类特征词,各初始训练样本所对应的分类标签可以为各初始训练样本中所包括的情感类特征词对应的情感分类结果,如可以为“褒义”、“中性”和“贬义”。而基于每个初始训练样本各自所包含的第二分类特征词,标注每个初始训练样本的分类标签时,可以基于公知的词典数据库中特征词已标注的情感分类标签确定每个第二分类特征词所对应的情感分类结果,并将确定的情感分类结果作为每个初始训练样本的分类标签。
进一步的,可以将标注后的各训练样本输入至初始神经网络模型,输出各训练样本所对应的分类结果,然后确定本次训练所对应的损失函数是否收敛,若不收敛,则说明当前的初始神经网络模型的精度仍旧不满足要求,则可以调整初始神经网络参数,并再次将标注后的各训练样本输入至调整后神经网络模型,再次判断本次训练所对应的损失函数对否收敛,若不收敛则继续调整初始神经网络模型参数,直至对应的损失函数收敛。其中,损失函数的值表征了模型输出的训练样本的分类结果和分类标签对应的分类结果之间的差异,当损失函数收敛时,说明模型输出的训练样本的分类结果和训练样本的分类标签对应的分类结果之间的差异满足要求。
在本申请实施例中,在神经网络训练过程中,由于分类特征词是可以基于类序列规则挖掘出的,不需要人工先确定待分类文中的各分类特征词,再对各分类特征词进行标注,即可以自动化地完成标注分类标签的环节,因此,可以有效地提高分类效率。同时由于训练样本的分类标签为现有公知文本数据库中已有情感词的情感极性标签,防止了人工标注出错的问题,提高了分类的准确率。
在本申请可选的实施例中,确定各初始训练样本中所包含的第二目标对象的第二分类特征词,包括:
确定基准样本文本;
基于基准样本文本,确定类序列规则;
基于类序列规则,确定各初始训练样本中所包含的第二目标对象的第二分类特征词。
其中,基准样本文本的获取方式本申请实施例不限定,可以是训练样本中的部分样本,也可以独立于各训练样本的样本。类序列规则用于确定第二目标对象的第二分类特征词,其可以与上述中第一类序列规则相同,也可以不同,本申请实施例不限定。
在实际应用中,在确定基准样本文本后,可以基于基准样本文本,确定类序列规则,然后基于类序列规则,确定第二目标对象的第二分类特征词。
在本申请可选的实施例中,基准样本文本为句子,基于基准样本文本,确定第二类序列规则,包括:
对基准样本文本进行分词处理,得到各第二分词;
确定各第二分词中所包含的基准特征词;
基于各第二分词的词性、以及各基准特征词的词类别,对基准样本文本进行标注,得到基准样本文本的标注序列;
基于基准样本文本的标注序列,挖掘第二类序列规则。
在实际应用中,在确定类序列规则时,可以对基准样本文本进行分词处理,得到各第二分词。其中,对基准样本文本进行分词处理,得到各第二分词的具体实现方式可参见上述中对待分类文本进行分词处理,得到各第一分词的具体实现方式,在此就不再赘述。
需要说明的是,基准样本文本可以是对存在多个句子的片段或文章进行分句处理后得到的,此时每一个分句对应于一个基准样本文本。其中,对基准样本文本进行分句处理,得到各分句的具体实现方式可参见上述中对待分类文本进行分句处理,在此就不再赘述。
进一步的,可以确定各第二分词中所包含的基准特征词,然后基于各第二分词的词性、以及各第二基准特征词的词类别,对基准样本文本进行标注,得到基准样本文本的标注序列。其中,得到基准样本文本的标注序列的具体实现方式与上述中得到待分类文本的标注序列的具体实现方式相同,详细说明可以参见上述描述,在此就不再赘述。相应的,在得到基准样本文本的标注序列后,可以对基准样本文本的标注序列进行挖掘类序列规则,得到类序列规则。
进一步的,可以将确定的类序列规则与基准样本文本的标注序列进行匹配,并将基准样本文本的标注序列中与类序列规则对应位置的特征词提取出来,形成新的基准特征词,然后基于新的基准特征词再重新对各第二分词进行标记,并重复执行得到基准样本文本的标注序列、以及得到新的基准特征词步骤,以达到迭代挖掘基准特征词的目的,进而保证当前各初始样本中所包含的所有第二分类特征词均包括在基准特征词中。
在本申请实施例中,基于基准样本文本的标注序列,挖掘类序列规则,包括:
采用频繁序列模式对基准样本文本的标注序列进行类序列规则挖掘,得到类序列规则;其中,频繁序列模式中的支持度是基于最小支持率和初始训练样本的数量确定的。
在实际应用中,可以基于频繁序列模式对基准样本文本的标注序列进行挖掘,得到类序列规则。例如,将纯组合项同时含有标注类别的序列(如上述示例中的“#/n,&/d,*/a”)提取作为类序列规则。其中,频繁序列模式挖掘算法Prefixspan(Prefix-ProjectedPattern Growth,前缀投影的模式挖掘)、GSP(Generalized Sequential Pattern miningalgorithm,广义序列模式挖掘算法)等都可以用于CSR的挖掘。
在实际应用中,在基于频繁模式prefixspan算法来挖掘满足最小支持度的频繁序列模式时,考虑到各个序列模式中序列长度的差别较大,若使用单一固定的最小支持度进行类序列规则挖掘并不合适。具体表现为需要降低支持度阈值来挖掘低频序列,但是这样会引入大量由高频词产生的规则,进而引入噪音。为此,本申请实施例中使用最小支持度策略确定支持度。其中,最小支持度(min_sup)的计算方法可以通过最小支持率a乘以初始训练样本的数量n得到,具体如下公式所示:
其中,a的取值可以通过大量的实验测试确定,如可以设置为0.01到0.1之间。
在本申请实施例中,由于每一轮挖掘类序列规则都设置较高的支持度,可以保证挖掘得到的类序列规则的准确性和召回率,进而可以保证基于类序列规则经过多轮迭代挖掘得到的基准特征词的查准率和查全率,同时由于类序列是由特征词本身的词性规则确定的,进而具备通用性,泛化性能较高。进一步的,类序列规则对于频繁序列挖掘具有良好的效果,能够很好地根据标注的词类别信息抽取属性词、情感词、否定词、程度词等特征词。
在本申请可选的实施例中,在初始训练样本中包括第二指定词时,基于每个初始训练样本各自所包含的第二分类特征词,标注每个初始训练样本的分类标签,得到各标注后的训练样本,包括:
对于每个初始训练样本,将第二指定词与对应的第二分类特征词合并,得到合并后的第二分类特征词;
基于合并后的第二分类特征词标注每个初始训练样本的分类标签,得到各标注后的训练样本;
基于标注后的各训练样本和各样本所对应的第二分类特征词,对初始神经网络模型进行训练,包括:
基于标注后的各训练样本和各样本所对应的合并后的第二分类特征词,对初始神经网络模型进行训练。
其中,第二指令词是指影响第二分类特征词所对应的分类结果的词。在本申请可选的实施例中,若初始神经网络模型为用于情感分类的神经网络模型,则第二指定词可以包括影响第二分类特征词的情感程度的程度词或否定词中的至少一项。
在实际应用中,若初始训练样本中包括第二指定词,可以将第二指定词与对应的第二分类特征词合并,得到合并后的第二分类特征词,并基于合并后的第二分类特征词标注每个初始训练样本的分类标签,得到各标注后的训练样本。其中,将第二指定词与对应的第二分类特征词合并,得到合并后的第二分类特征词的具体实现方式与将第一指定词与对应的第一分类特征词合并,得到合并后的第一分类特征词的具体实现方式相同,关于此部分的描述可以参见上述中的描述,在此就不在赘述。
进一步的,可以基于合并后的第二分类特征词标注每个初始训练样本的分类标签,得到各标注后的训练样本(即每个训练样本的分类标签为合并后的第二分类特征词对应的分类标签),然后基于标注后的各训练样本和各样本所对应的合并后的第二分类特征词,对初始神经网络模型进行训练。
在一示例中,假设第二分类特征词为情感类特征词,第二指定词为否定词,初始训练样本包括“房间不舒服”和“价格不便宜”。此时,该初始训练样本中包括两个否定词“不”,情感类特征词“舒服”和“便宜”,此时可以将第一否定词“不”与“舒服”进行合并,得到第一个合并后的第二分类特征词“不舒服”,并确定合并后的第二分类特征词“不舒服”的分类标签为“贬义”,以及将第二否定词“不”与“便宜”进行合并,得到第二个合并后的第二分类特征词“不便宜”,并确定合并后的第二分类特征词“不便宜”的分类标签为“贬义”。此时,训练样本“房间不舒服”的分类标签即为“贬义”,训练样本“价格不便宜”的分类标签即为“贬义”。
在本申请可选的实施例中,分类模型为CNN模型时,CNN模型可以包括文本特征提取模块、分类词特征提取模块、特征融合模块和分类模块,其中:
文本特征提取模块,用于提取待分类文本的文本特征;
分类词特征提取模块,用于确定待分类文本中所包含的各第一目标对象的第一分类特征词,以及提取各第一分类特征词的词特征;
特征融合模块,用于将各第一目标对象的第一分类特征词的词特征分别与文本特征拼接,得到各第一目标对象所对应的组合特征;
分类模块,用于对于每个第一目标对象,基于第一目标对象所对应的组合特征,得到目标对象所对应的分类结果。
其中,若分类模型为CNN模型,该CNN模型中可以包括文本特征提取模块、分类词特征提取模块、特征融合模块和分类模块。在实际应用中,在基于CNN模型进行分类时,可以通过文本特征提取模块提取待分类文本的文本特征,基于所包括的分类词特征提取模块确定待分类文本中所包含的各第一目标对象的各第一分类特征词,以及提取各第一分类特征词的词特征;进一步的,基于特征融合模块对各第一目标对象的第一分类特征词的词特征分别与文本特征拼接,得到各第一目标对象所对应的组合特征,然后可以通过分类模块基于每个第一目标对象所对应的组合特征,得到每个目标对象所对应的分类结果。
可以理解的是,CNN模型所包括文本特征提取模块和分类词特征提取模块可以是单独的两个模块,也可以是一个模块,还可以是具有共同的部分结构的两个模块。
在一示例中,假设当前应用场景为情感分类场景,待分类文本为文章片段时,CNN模型包含两个特征提取分支,一条分支包括依次级联的词嵌入模块、两个层级的卷积结构,即卷积层(Convolution layer)和池化层(Pooling layer),以及两个层级的全连接层(Full Connected layer),另一条分支则包括与上述词嵌入模块连接的情感词嵌入模块,此时文本特征提取模块相当于依次级联的词嵌入模块,分类词特征提取模块相当于另一条分支中与上述词嵌入模块连接的情感词嵌入模块。相应的,对待分类文本及进行分词处理、第一分类特征词检测可以均是在该文本特征提取模块中完成,进一步的,文本特征提取模块将第一分类特征词进行词嵌入后输出至情感词嵌入模块(即分类词特征提取模块),然后由情感词嵌入模块进行第一分类特征词的词嵌入,得到第一分类特征词的词向量。
当然,在实际应用中,如果待分类文本中不存在第一分类特征词(如情感特征词),则可以结束处理,此时CNN模型输出相应的提示信息,如果存在多个第一目标对象的第一分类特征词,则CNN模型可以输出分别对应于每一个第一目标对象的分类结果。
为了更好地理解本申请实施例所提供的分类方法,下面结合对文本情感分析即情感分类的应用场景,对本申请实施例所提供的分类方法进行详细描述。在本示例中,假设初始训练样本为“这个酒店的位置很近,空气特别好,房间挺舒适,性价比很高!”,基准特征词包括属性词:房间,程度词:很,以及情感词:好;且最小置信度被设置为0.1,基准样本文本与初始训练样本为初始训练样本中的“这个酒店的位置很近,空气特别好,房间挺舒适!”。
图2中示出了本示例中一种用于情感分类的分类模型的训练流程示意图,如图2中所示,该训练流程可以包括以下步骤:
步骤S201,确定基准样本文本对应的标注序列,即对基准样本文本进行分词和标注处理,得到基准样本文本对应的标注序列;
在具体实现中,可以首先对基准样本文本以标点符号为间隔切分句子,得到基准样本文本包括的每个分句。此时得到的每个分句分别为“这个酒店的位置很近|空气特别好|房间挺舒适”;然后对得到的每个分句进行分词和词性标注,得到的词性标注后的分词结果,如此时可以得到“这个/r,/酒店n,的/u,位置/n,很/d,近/a,|,空气/n,特别/d,好/a,|,房间/n,挺/d,舒适/a”。其中,r表示代词,n表示名词,u表示助词,d表示程度副词,a表示形容词。
进一步的,可以对词性标注后的分词结果进行基准特征词标注,具体为:确定基准样本文本的各分词中与基准特征词相同的特征词,根据基准特征词的词类别对相同的特征词在标注序列中对应的位置进行词类别标注。如将属性词(即评价对象)标注为“#”、情感词标注为“*”、程度副词标注为“&”、否定词标注为“!”,此时得到的基准样本文本的标注序列为:“/r,/n,/u,/n,&/d,/a,|,/n,/d,*/a,|,#/n,/d,/a”。
步骤S202,类序列规则挖掘和基准特征词挖掘,即基于基准样本文本对应的标注序列,进行类序列规则挖掘和基准特征词挖掘;
进一步的,可以基于得到的基准样本文本的标注序列确定类序列规则,并基于确定的类序列规则迭代挖掘基准特征词,具体流程如图3所示,所示:
步骤S301,确定词类别信息,即确定词类别信息为情感特征词类别信息;
步骤S302,确定最小支持度,具体的,可以通过最小支持率和初始训练样本数量确定最小支持度;
步骤S303,确定满足支持度的频繁序列,例如,可以基于频繁模式prefixspan算法挖掘得到基准样本文本对应的标注序列中的“/n,/d,/a”为满足最小支持度的频繁序列;
步骤S304,确定挖掘规则,具体的,可以将纯组合项同时含有标注词类别的序列“#/n,&/d,*/a”提取作为挖掘规则;
步骤S305,基于置信度确地满足要求的类序列规则,具体的,由于最小置信度设置为0.1,此时标注序列中出现至少一个相同的词类别标注就可以作为挖掘的类序列规则,则该标注序列中“/n,&/d,/a”、“/n,/d,*/a”、“#/n,/d,/a”均满足挖掘规则“#/n,&/d,*/a”的支持度和置信度要求;
步骤S306,将类序列规则并添加至规则库,例如,可以将“/n,&/d,/a”、“/n,/d,*/a”、“#/n,/d,/a”均作为类序列规则并添加至规则库;
步骤S307,基于类序列规则进行基准特征词的迭代挖掘。
其中,基于挖掘得到的类序列规则进行基准特征词的迭代挖掘的一种可选的实施方式包括:将得到的各类序列规则与基准样本文本的标注序列进行匹配,并将标注序列中与各类序列规则对应位置的特征词提取出来作为新的基准特征词,此时得到的新的基准特征词则包括属性词:位置、空气,程度词:特别、挺,以及情感词:近、舒适。然后基于新的基准特征词与属性词:位置,程度词:很,情感词:好,对基准样本文本对应的标注序列重新标注词类别,并重复执行上述中基于类序列规则挖掘基准特征词挖掘的过程,以达到迭代挖掘基准特征词的目的。
步骤S203,构建训练样本集和测试样本集;
在实际应用中,将初始训练样本中所包括的分句中包含类序列规则的分句作为单独的样本,若样本中所包括的情感特征词的情感分类结果在现有词典数据库中已经标注,则将该部分样本作为训练样本,此时各训练样本中的情感特征词的情感分类结果即各训练样本的分类标签,若样本中所包括的情感特征词的情感分类结果不能从在现有词典数据库中未经标注中获取,则将该部分样本作为测试样本。
在本申请实施例中,由于训练样本中为包含类序列规则的分句,可以确保输入分类模型的每个训练样本都至少包含一个目标对象(如属性特征词)和一个对应的分类特征词(如情感特征词),这样就确保了每个训练样本都有对应的分类标签,可以更加规范的进行分类模型的训练和测试。
步骤S204,训练情感分类模型;
其中,情感分类模型的具体网络结构本申请不作限定,如可以是基于CNN的分类模型,基于标注后的各训练样本和各训练样本所对应的情感特征词,对初始CNN进行训练,直至对应的损失函数收敛,得到CNN。进一步的,基于测试样本对得到的CNN进行测试,若CNN满足测试条件,则得到最终的CNN,否则对得到的CNN继续进行训练,最终得到的CNN模型即可用于情感分类。
本申请实施例中,在采用基于CNN的分类模型进行待分类文本的分类时,可以首先利用类序列规则挖掘评价要素,主要可以包括待分类文本中的待评价对象(即目标对象)以及待评价对象的分类特征词(如情感分类中的情感特征词),之后则可以利用CNN来提取待分类文本与分类相关的文本特征,还可以通过CNN来提取所挖掘出的待评价对象的分类特征词的词特征,并由CNN将文本特征和词特征进行拼接组合,基于组合后的特征输出得到分类结果。
作为一个示例,图4中示出了本申请实施例提供的一种CNN的结构示意图,如图4中所示,该CNN可以包含两个特征提取分支,一条分支包括依次级联的词嵌入模块(图中所示的词嵌入11)、两个层级的卷积结构,即卷积层12(Convolution layer)和池化层13(Pooling layer),以及两个层级的全连接层14(Full Connected layer),另一条分支则包括与上述词嵌入模块连接的情感词嵌入模块(图中所示的情感词嵌入15),其中,情感词嵌入模块的输出与最后一个全连接层的输出合并后,经过输出层(本示例中的Softmax层16)得到分类结果,其中,输出层的节点个数为分类标签个数,也就是情感分类的种类(如包含褒义、中性、贬义这三类);然后将两部分100维的信息进行拼接,得到200维的特征组合向量,输入给Output层进行分类。可以理解的是,本示例中的输出层是以Softmax层16为例进行的说明,在实际应用中,该输出层可以不限定于Softmax层,任何能够起到分类作用的分类层均可作为本示例中的输出层,如可以将Softmax层替换成xgboost等。
另外,需要说明的是,本示例中给出的网络结构只是适用于本申请方案的一个可选方案,对于本领域技术人员而言,基于本申请实施例的方案是很容易想到其他可用的网络结构、以及各种现有网络结构的变形结构,这些仍属于本申请实施例的保护范围之内。例如,在该示例中,如果词嵌入模块和情感词嵌入模块输出的词向量的维度相同,则词嵌入模块所提取的情感特征词的词向量可以直接用于与最后一层全连接层的拼接,再例如,情感词嵌入模块也可以用其他结构替换,如可以采用卷积结构。
具体的,当基于最终训练的CNN进行对待分类文本进行情感分类时,待分类文本中的每个分句可以作为独立的文本输入至训练后的CNN(如图4所示)中,通过词嵌入模块提取得到文本中所包括的每个分词的词向量,并通过各卷积层、各池化层和全连接层后,得到该待分类文本与分类标签相关的深层特征即文本特征。而对于待分类文本中的情感特征词,在经过词嵌入模块得到初始词向量后,再通过情感词嵌入模块进一步提取得到维度与最后一层全连接层所输出的文本特征(具体为一维列向量形式)的维度相同的情感词词向量(即第一分类特征词的词特征),之后,情感词词向量和最后一层全连接层所输出的文本特征拼接后输出至Softmax层,得到待分类文本的情感分类结果。
基于本申请实施例所提供的分类原理的CNN分类模型中,整个分类模型主要可以包括以下几个部分:
其中一部分主要包括输入层(如图4中所示的词嵌入)、卷积层、池化层以及全连接层,一部分是分类特征词的词特征提取结构(如图4中所示的情感词嵌入),还有一部分则是特征融合结构。其中,输入层用于对待分类文本中所包含的每个分词转换为固定长度(即维度的)词向量,如待分类文本中包括7个词,每个特征词转换为一个50维的词向量,则输出层的输出可以理解为一个7行50列的矩阵,每一行数据即为一个词的词向量,对于卷积层,在分类模型中,每层卷积层一般会使用不同尺寸的卷积核,卷积核的高度一般为词向量的维度,卷积核的宽度则表示在进行处理时所选择的纵向词语的个数,在经过每个卷积核的卷积处理后,各卷积核对应得到一个一维的特征图(列向量),之后,再经过卷积层连接的池化层进行池化处理,对卷积层的输出进行下采样处理,其中,最后一个池化层通常是选用最大池化层,通过最大池化层选择出上述每个卷积核所对应的一维特征图中的最大值,得到一个包含各特征图中最大值的一维列向量,之后再通过全连接层(在实际应用中,全连接层一般会有两层及以上,以有效解决非线性问题)将池化层输出的所有特征图的数据通过扁平化(flattening)变成一维数据。而对于待分类文本中的分类特征词,在通过词嵌入层得到其词向量后,可以将该词向量通过词特征提取结构得到对应的词特征,如可以再次通过词嵌入的方式将特征词的词向量转换成设定维度(与最后一个层级的全连接层所输出的特征的维度接近或相等)的新的词向量,之后通过特征融合结构将最后一个全连接层输出的特征和词特征提取结构所输出的词特征进行拼接后,再经过Softmax层作出分类决策,得到待分类文本中待分类对象的分类标签。
具体的,对于一个待分类的句子,假设最后一个全连接层的输出向量维度为100维,则情感嵌入模块输出的词向量维度也为100维,然后将两部分100维的信息进行拼接,得到200维的特征组合向量,输入给输出层(即Softmax层)进行分类,得到句子中目标对象对应的情感分类结果。例如,假设需要进行情感分类的句子为“这个酒店的位置很近!”,则该句子中的属性词(即目标对象)为“位置”,对应的情感特征词为“很近”,通过训练好的分类模型的输出可以得到“位置”对应的情感分类结果为褒义。
另外,由前文描述可知,作为了另一可选方式,在通过词嵌入层得到各分词的词向量之后,还可以将待分类对象(可以是在确定各目标对象的分类特征词时确定出,如通过类序列规则确定出目标对象以及目标对象的分类特征词)所对应的词向量分别与各分词的词向量拼接,将每个拼接后的词向量作为各分词的词向量再输入至卷积层,以更好的指导后续各结构进行文本特征的提取。
在本申请实施例中,利用CNN抽取待分类与分类结果相关的文本特征,通过拼接得到的组合特征,能够更好地挖掘属性情感分类相关的信息,提高了文本特征的准确性,降低了对分类器的要求,提高了分类的效果。
可以理解的是,本申请实施例所提供的分类方法,除了适用于情感分类的应用场景,还同样适用于通过将类序列规则与CNN结合构建组合特征向量,并基于组合特征向量进行分类的其他应用场景,即结合类序列规则进行序列标注和通过CNN挖掘构建深层交叉特征的方法都在本申请的保护范围之内。
本申请实施例提供了一种分类装置,如图5所示,该分类装置60可以包括:分类特征词确定模块601、特征提取模块602、特征融合模块603以及分类结果确定模块604,其中,
分类特征词确定模块601,用于确定待分类文本中所包含的各第一目标对象的第一分类特征词;
特征提取模块602,用于提取待分类文本的文本特征,以及各第一分类特征词的词特征;
特征融合模块603,用于将各第一目标对象的第一分类特征词的词特征分别与文本特征拼接,得到各第一目标对象所对应的组合特征;
分类结果确定模块604,对于每个第一目标对象,基于第一目标对象所对应的组合特征,得到第一目标对象所对应的分类结果。
本申请可选的实施例中,其特征在于,分类特征词确定模块在确定待分类文本中各第一目标对象的第一分类特征词时,具体用于:
基于类序列规则,确定待分类文本中各第一目标对象的第一分类特征词;
其中,类序列规则是基于基准样本文本中的标注序列确定的,标注序列表征了基准样本文本中所包含的各基准特征词的词性和词类别。
本申请可选的实施例中,分类特征词确定模块在基于类序列规则,确定待分类文本中各第一目标对象的第一分类特征词时,具体用于:
确定各第一分词中所包含的基准特征词;
基于各第一分词的词性、以及各基准特征词的词类别,对待分类文本进行标注,得到待分类文本的标注序列;
基于类序列规则和待分类文本的标注序列,确定各第一分类特征词。
本申请可选的实施例中,在待分类文本中存在指定类型词时,特征提取模块在提取第一分类特征词的词特征时,具体用于:
将指定类型词和对应的第一分类特征词合并,得到合并后的第一分类特征词,其中,指定类型词是指影响第一分类特征词所对应的分类结果的词;
提取合并后的第一分类特征词的词特征作为第一分类特征词的词特征。
本申请可选的实施例中,分类特征词确定模块、特征提取模块和分类结果确定模块包含于分类模型中,分类模型是通过模型训练模块得到的,模型训练模块具体用于:
获取各初始训练样本;
确定各初始训练样本中所包含的第二目标对象的第二分类特征词;
基于每个初始训练样本各自所包含的第二分类特征词,标注每个初始训练样本的分类标签,得到各标注后的训练样本;
基于标注后的各训练样本和各训练样本所对应的第二分类特征词,对初始神经网络模型进行训练,直至对应的损失函数收敛,损失函数的值表征了模型输出的训练样本的分类结果和分类标签对应的分类结果之间的差异。
本申请可选的实施例中,模型训练模块在确定各初始训练样本中所包含的第二目标对象的第二分类特征词时,具体用于:
确定基准样本文本;
基于基准样本文本,确定类序列规则;
基于类序列规则,确定各初始训练样本中所包含的第二目标对象的第二分类特征词。
本申请可选的实施例中,基准样本文本为句子,模型训练模块在基于基准样本文本,确定类序列规则时,具体用于:
对基准样本文本进行分词处理,得到各第二分词;
确定各第二分词中所包含的基准特征词;
基于各第二分词的词性、以及各基准特征词的词类别,对基准样本文本进行标注,得到基准样本文本的标注序列;
基于基准样本文本的标注序列,挖掘类序列规则。
本申请可选的实施例中,模型训练模块在基于基准样本文本的标注序列,挖掘类序列规则时,具体用于:
采用频繁序列模式对基准样本文本的标注序列进行类序列规则挖掘,得到类序列规则,其中,频繁序列模式中的支持度是基于最小支持率和初始训练样本的数量确定的。
本申请可选的实施例中,在初始训练样本中包括指定类型词时,模型训练模块在基于每个初始训练样本各自所包含的第二分类特征词,标注每个初始训练样本的分类标签,得到各标注后的训练样本时,具体用于:
对于每个初始训练样本,将指定类型词与对应的第二分类特征词合并,得到合并后的第二分类特征词;
基于合并后的第二分类特征词标注每个初始训练样本的分类标签,得到各标注后的训练样本;
模型训练模块在基于标注后的各训练样本和各样本所对应的第二分类特征词,对初始神经网络模型进行训练时,具体用于:
基于标注后的各训练样本和各训练样本所对应的合并后的第二分类特征词,对初始神经网络模型进行训练。
本申请可选的实施例中,该分类模型为CNN模型,该CNN模型包括文本特征提取模块、分类词特征提取模块、特征融合模块和分类模块,其中:
文本特征提取模块,用于提取待分类文本的文本特征;
分类词特征提取模块,用于确定待分类文本中所包含的各第一目标对象的第一分类特征词,以及提取各第一分类特征词的词特征;
特征融合模块,用于将各第一目标对象的第一分类特征词的词特征分别与文本特征拼接,得到各第一目标对象所对应的组合特征;
分类模块,用于对于每个第一目标对象,基于第一目标对象所对应的组合特征,得到第一目标对象所对应的分类结果。
本申请可选的实施例中,分类模型为情感分类模型,第一分类特征词和第二分类特征词为情感特征词。
本申请可选的实施例中,在第一分类特征词的词特征是基于将分类特征词和对应的指定类型词合并后的第一分类特征词提取得到的时,指定类型词包括影响第一分类特征词的情感程度的程度词或否定词中的至少一项。
本申请实施例的分类装置可执行本申请实施例提供的一种分类方法,其实现原理相类似,此处不再赘述。
本申请实施例提供了一种电子设备,如图6所示,图6所示的电子设备2000包括:处理器2001和存储器2003。其中,处理器2001和存储器2003相连,如通过总线2002相连。可选地,电子设备2000还可以包括收发器2004。需要说明的是,实际应用中收发器2004不限于一个,该电子设备2000的结构并不构成对本申请实施例的限定。
其中,处理器2001应用于本申请实施例中,用于实现图5所示的各模块的功能。
处理器2001可以是CPU,通用处理器,DSP,ASIC,FPGA或者其他可编程逻辑器件、晶体管逻辑器件、硬件部件或者其任意组合。其可以实现或执行结合本申请公开内容所描述的各种示例性的逻辑方框,模块和电路。处理器2001也可以是实现计算功能的组合,例如包含一个或多个微处理器组合,DSP和微处理器的组合等。
总线2002可包括一通路,在上述组件之间传送信息。总线2002可以是PCI总线或EISA总线等。总线2002可以分为地址总线、数据总线、控制总线等。为便于表示,图6中仅用一条粗线表示,但并不表示仅有一根总线或一种类型的总线。
存储器2003可以是ROM或可存储静态信息和计算机程序的其他类型的静态存储设备,RAM或者可存储信息和计算机程序的其他类型的动态存储设备,也可以是EEPROM、CD-ROM或其他光盘存储、光碟存储(包括压缩光碟、激光碟、光碟、数字通用光碟、蓝光光碟等)、磁盘存储介质或者其他磁存储设备、或者能够用于携带或存储或以数据结构形式的期望的计算机程序并能够由计算机存取的任何其他介质,但不限于此。
存储器2003用于存储执行本申请方案的应用程序的计算机程序,并由处理器2001来控制执行。处理器2001用于执行存储器2003中存储的应用程序的计算机程序,以实现图5所示实施例提供的分类装置的动作。
本申请实施例提供了一种电子设备,本申请实施例中的电子设备包括:处理器;以及存储器,该存储器配置用于存储机器计算机程序,该计算机程序在由该处理器执行时,使得该处理器执行分类方法。
本申请实施例提供了一种计算机可读存储介质,该计算机可读存储介质上用于存储计算机程序,当计算机程序在计算机上运行时,使得计算机可以执行实现分类方法。
本申请中的一种计算机可读存储介质所涉及的名词及实现原理具体可以参照本申请实施例中的一种分类方法,在此不再赘述。
应该理解的是,虽然附图的流程图中的各个步骤按照箭头的指示依次显示,但是这些步骤并不是必然按照箭头指示的顺序依次执行。除非本文中有明确的说明,这些步骤的执行并没有严格的顺序限制,其可以以其他的顺序执行。而且,附图的流程图中的至少一部分步骤可以包括多个子步骤或者多个阶段,这些子步骤或者阶段并不必然是在同一时刻执行完成,而是可以在不同的时刻执行,其执行顺序也不必然是依次进行,而是可以与其他步骤或者其他步骤的子步骤或者阶段的至少一部分轮流或者交替地执行。
以上所述仅是本申请的部分实施方式,应当指出,对于本技术领域的普通技术人员来说,在不脱离本申请原理的前提下,还可以做出若干改进和润饰,这些改进和润饰也应视为本申请的保护范围。
Claims (14)
1.一种分类方法,其特征在于,包括:
确定待分类文本中所包含的各第一目标对象的第一分类特征词;
提取所述待分类文本的文本特征,以及各所述第一分类特征词的词特征;
将各所述第一目标对象的第一分类特征词的词特征分别与所述文本特征拼接,得到各所述第一目标对象所对应的组合特征;
对于每个所述第一目标对象,基于所述第一目标对象所对应的所述组合特征,得到所述第一目标对象所对应的分类结果;
所述待分类文本为句子,所述提取所述待分类文本的文本特征,包括:
对所述待分类文本进行分词处理,并提取所述待分类文本中各第一分词的词向量,所述第一分词包括所述第一目标对象的分词;
将所述待分类文本中的每个第一分词的词向量分别与所述第一目标对象的词向量拼接,得到各第一分词对应的拼接向量;
基于所述各第一分词对应的拼接向量,提取得到所述待分类文本的文本特征。
2.根据权利要求1所述的方法,其特征在于,所述确定待分类文本所包含的各第一目标对象的第一分类特征词,包括:
基于类序列规则,确定待分类文本中各第一目标对象的第一分类特征词;
其中,所述类序列规则是基于基准样本文本中的标注序列确定的,所述标注序列表征了基准样本文本中所包含的各基准特征词的词性和词类别。
3.根据权利要求2所述的方法,其特征在于,所述基于类序列规则,确定待分类文本中各第一目标对象的第一分类特征词,包括:
确定各第一分词中所包含的基准特征词;
基于各第一分词的词性、以及各基准特征词的词类别,对所述待分类文本进行标注,得到所述待分类文本的标注序列;
基于所述类序列规则和所述待分类文本的标注序列,确定各所述第一分类特征词。
4.根据权利要求1所述的方法,其特征在于,在所述待分类文本中存在指定类型词时,提取第一分类特征词的词特征,包括:
将指定类型词和对应的所述第一分类特征词合并,得到合并后的第一分类特征词,其中,指定类型词是指影响所述第一分类特征词所对应的分类结果的词;
提取合并后的第一分类特征词的词特征作为所述第一分类特征词的词特征。
5.根据权利要求1至4中任一项所述的方法,其特征在于,所述方法是通过分类模型实现的,其中,所述分类模型是通过以下方式训练得到的:
获取各初始训练样本;
确定各所述初始训练样本中所包含的第二目标对象的第二分类特征词;
基于每个所述初始训练样本各自所包含的第二分类特征词,标注每个所述初始训练样本的分类标签,得到各标注后的训练样本;
基于标注后的各训练样本和各训练样本所对应的第二分类特征词,对初始神经网络模型进行训练,直至对应的损失函数收敛,所述损失函数的值表征了模型输出的训练样本的分类结果和分类标签对应的分类结果之间的差异。
6.根据权利要求5所述的方法,其特征在于,所述确定各所述初始训练样本中所包含的第二目标对象的第二分类特征词,包括:
确定基准样本文本;
基于所述基准样本文本,确定类序列规则;
基于所述类序列规则,确定各所述初始训练样本中所包含的第二目标对象的第二分类特征词。
7.根据权利要求6所述的方法,其特征在于,所述基准样本文本为句子,所述基于所述基准样本文本,确定类序列规则,包括:
对所述基准样本文本进行分词处理,得到各第二分词;
确定各第二分词中所包含的基准特征词;
基于各第二分词的词性、以及各基准特征词的词类别,对所述基准样本文本进行标注,得到所述基准样本文本的标注序列;
基于所述基准样本文本的标注序列,挖掘所述类序列规则。
8.根据权利要求7所述的方法,其特征在于,所述基于所述基准样本文本的标注序列,挖掘所述类序列规则,包括:
采用频繁序列模式对所述基准样本文本的标注序列进行类序列规则挖掘,得到所述类序列规则,其中,所述频繁序列模式中的支持度是基于最小支持率和初始训练样本的数量确定的。
9.根据权利要求5所述的方法,其特征在于,在所述初始训练样本中包括指定类型词时,所述基于每个所述初始训练样本各自所包含的第二分类特征词,标注每个所述初始训练样本的分类标签,得到各标注后的训练样本,包括:
对于每个初始训练样本,将指定类型词与对应的所述第二分类特征词合并,得到合并后的第二分类特征词;
基于合并后的第二分类特征词标注每个所述初始训练样本的分类标签,得到各标注后的训练样本;
所述基于标注后的各训练样本和各样本所对应的第二分类特征词,对初始神经网络模型进行训练,包括:
基于标注后的各训练样本和各训练样本所对应的合并后的第二分类特征词,对所述初始神经网络模型进行训练。
10.根据权利要求5所述的方法,其特征在于,所述分类模型为卷积神经网络CNN模型,所述CNN模型包括文本特征提取模块、分类词特征提取模块、特征融合模块和分类模块,其中:
所述文本特征提取模块,用于提取所述待分类文本的文本特征;
所述分类词特征提取模块,用于确定所述待分类文本中所包含的各第一目标对象的第一分类特征词,以及提取各所述第一分类特征词的词特征;
所述特征融合模块,用于将各所述第一目标对象的第一分类特征词的词特征分别与所述文本特征拼接,得到各所述第一目标对象所对应的组合特征;
所述分类模块,用于对于每个所述第一目标对象,基于所述第一目标对象所对应的所述组合特征,得到所述目标对象所对应的分类结果。
11.根据权利要求5所述的方法,其特征在于,所述分类模型为情感分类模型,所述第一分类特征词和所述第二分类特征词为情感特征词;
在所述第一分类特征词的词特征是基于将第一分类特征词和对应的指定类型词合并后的第一分类特征词提取得到时,所述指定类型词包括影响所述第一分类特征词的情感程度的程度词或否定词中的至少一项。
12.一种分类装置,其特征在于,包括:
分类特征词确定模块,用于确定待分类文本中所包含的各第一目标对象的第一分类特征词;
特征提取模块,用于提取所述待分类文本的文本特征,以及各所述第一分类特征词的词特征;
特征融合模块,用于将各所述第一目标对象的第一分类特征词的词特征分别与所述文本特征拼接,得到各所述第一目标对象所对应的组合特征;
分类结果确定模块,对于每个所述第一目标对象,基于所述第一目标对象所对应的所述组合特征,得到所述第一目标对象所对应的分类结果;
特征提取模块具体用于:
对所述待分类文本进行分词处理,并提取所述待分类文本中各第一分词的词向量,所述第一分词包括所述第一目标对象的分词;
将所述待分类文本中的每个第一分词的词向量分别与所述第一目标对象的词向量拼接,得到各第一分词对应的拼接向量;
基于所述各第一分词对应的拼接向量,提取得到所述待分类文本的文本特征。
13.一种电子设备,其特征在于,包括处理器以及存储器:
所述存储器被配置用于存储计算机程序,所述计算机程序在由所述处理器执行时,使得所述处理器执行权利要求1-11任一项所述的方法。
14.一种计算机可读存储介质,其特征在于,所述计算机存储介质用于存储计算机程序,当所述计算机程序在计算机上运行时,使得计算机可以执行上述权利要求1-11中任一项所述的方法。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN201911420328.8A CN111159412B (zh) | 2019-12-31 | 2019-12-31 | 分类方法、装置、电子设备及可读存储介质 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN201911420328.8A CN111159412B (zh) | 2019-12-31 | 2019-12-31 | 分类方法、装置、电子设备及可读存储介质 |
Publications (2)
Publication Number | Publication Date |
---|---|
CN111159412A CN111159412A (zh) | 2020-05-15 |
CN111159412B true CN111159412B (zh) | 2023-05-12 |
Family
ID=70560407
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN201911420328.8A Active CN111159412B (zh) | 2019-12-31 | 2019-12-31 | 分类方法、装置、电子设备及可读存储介质 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN111159412B (zh) |
Families Citing this family (9)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN111382959B (zh) * | 2020-05-29 | 2020-09-01 | 双胞胎(集团)股份有限公司 | 基于数据队列的进度控制方法及猪饲料生产方法 |
CN111813932B (zh) * | 2020-06-17 | 2023-11-14 | 北京小米松果电子有限公司 | 文本数据的处理方法、分类方法、装置及可读存储介质 |
CN112083806B (zh) * | 2020-09-16 | 2021-10-26 | 华南理工大学 | 一种基于多模态识别的自学习情感交互方法 |
CN112487143B (zh) * | 2020-11-30 | 2022-11-18 | 重庆邮电大学 | 一种基于舆情大数据分析的多标签文本分类方法 |
CN112860887B (zh) * | 2021-01-18 | 2023-09-05 | 北京奇艺世纪科技有限公司 | 一种文本标注方法及装置 |
CN113761349B (zh) * | 2021-03-01 | 2025-03-18 | 北京沃东天骏信息技术有限公司 | 一种推荐信息的挖掘方法和装置 |
CN112860905B (zh) * | 2021-04-08 | 2025-03-21 | 深圳壹账通智能科技有限公司 | 文本信息抽取方法、装置、设备及可读存储介质 |
CN114491040B (zh) * | 2022-01-28 | 2022-12-02 | 北京百度网讯科技有限公司 | 信息挖掘方法及装置 |
CN114911937B (zh) * | 2022-05-18 | 2025-02-14 | 合肥讯飞数码科技有限公司 | 一种要素抽取方法、装置、设备和存储介质 |
Citations (6)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN106557463A (zh) * | 2016-10-31 | 2017-04-05 | 东软集团股份有限公司 | 情感分析方法及装置 |
CN107193801A (zh) * | 2017-05-21 | 2017-09-22 | 北京工业大学 | 一种基于深度信念网络的短文本特征优化及情感分析方法 |
CN108647205A (zh) * | 2018-05-02 | 2018-10-12 | 深圳前海微众银行股份有限公司 | 细粒度情感分析模型构建方法、设备及可读存储介质 |
CN109472018A (zh) * | 2018-09-26 | 2019-03-15 | 深圳壹账通智能科技有限公司 | 企业舆情监测方法、装置、计算机设备和存储介质 |
CN110059927A (zh) * | 2019-03-18 | 2019-07-26 | 平安科技(深圳)有限公司 | 绩效线上评定方法、装置、设备和存储介质 |
CN110209805A (zh) * | 2018-04-26 | 2019-09-06 | 腾讯科技(深圳)有限公司 | 文本分类方法、装置、存储介质和计算机设备 |
Family Cites Families (1)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
NO316480B1 (no) * | 2001-11-15 | 2004-01-26 | Forinnova As | Fremgangsmåte og system for tekstuell granskning og oppdagelse |
-
2019
- 2019-12-31 CN CN201911420328.8A patent/CN111159412B/zh active Active
Patent Citations (6)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN106557463A (zh) * | 2016-10-31 | 2017-04-05 | 东软集团股份有限公司 | 情感分析方法及装置 |
CN107193801A (zh) * | 2017-05-21 | 2017-09-22 | 北京工业大学 | 一种基于深度信念网络的短文本特征优化及情感分析方法 |
CN110209805A (zh) * | 2018-04-26 | 2019-09-06 | 腾讯科技(深圳)有限公司 | 文本分类方法、装置、存储介质和计算机设备 |
CN108647205A (zh) * | 2018-05-02 | 2018-10-12 | 深圳前海微众银行股份有限公司 | 细粒度情感分析模型构建方法、设备及可读存储介质 |
CN109472018A (zh) * | 2018-09-26 | 2019-03-15 | 深圳壹账通智能科技有限公司 | 企业舆情监测方法、装置、计算机设备和存储介质 |
CN110059927A (zh) * | 2019-03-18 | 2019-07-26 | 平安科技(深圳)有限公司 | 绩效线上评定方法、装置、设备和存储介质 |
Non-Patent Citations (2)
Title |
---|
Wei Zhang et al..Does government information release really matter in regulating contagion-evolution of negative emotion during public emergencies? From the perspective of cognitive big data analytics.《International Journal of Information Management》.2019,498-514. * |
邢昌帅.大规模网络文本的细粒度情感分析技术研究.《中国优秀硕士学位论文全文数据库 信息科技辑》.2019,I138-1840. * |
Also Published As
Publication number | Publication date |
---|---|
CN111159412A (zh) | 2020-05-15 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
CN111159412B (zh) | 分类方法、装置、电子设备及可读存储介质 | |
CN112115700B (zh) | 一种基于依存句法树和深度学习的方面级情感分析方法 | |
CN112287670A (zh) | 文本纠错方法、系统、计算机设备及可读存储介质 | |
JP2010250814A (ja) | 品詞タグ付けシステム、品詞タグ付けモデルのトレーニング装置および方法 | |
CN112100377B (zh) | 文本分类方法、装置、计算机设备和存储介质 | |
CN118113855B (zh) | 一种舰船试验训练场景问答方法、系统、设备和介质 | |
CN112559734B (zh) | 简报生成方法、装置、电子设备及计算机可读存储介质 | |
CN112101042B (zh) | 文本情绪识别方法、装置、终端设备和存储介质 | |
CN108108468A (zh) | 一种基于概念和文本情感的短文本情感分析方法和装置 | |
CN108664512B (zh) | 文本对象分类方法及装置 | |
CN113761868B (zh) | 文本处理方法、装置、电子设备及可读存储介质 | |
US20200364216A1 (en) | Method, apparatus and storage medium for updating model parameter | |
CN110874408B (zh) | 模型训练方法、文本识别方法、装置及计算设备 | |
CN111611393A (zh) | 一种文本分类方法、装置及设备 | |
CN108875743B (zh) | 一种文本识别方法及装置 | |
CN110489559A (zh) | 一种文本分类方法、装置及存储介质 | |
CN116681061A (zh) | 一种基于多任务学习和注意力机制的英文语法纠正技术 | |
CN113627192B (zh) | 基于两层卷积神经网络的关系抽取方法和装置 | |
CN115203388A (zh) | 机器阅读理解方法、装置、计算机设备和存储介质 | |
JP6426074B2 (ja) | 関連文書検索装置、モデル作成装置、これらの方法及びプログラム | |
CN117851543A (zh) | 文本情绪识别模型的训练方法、情绪识别方法及装置 | |
Jung et al. | Improving visual relationship detection using linguistic and spatial cues | |
CN113505889B (zh) | 图谱化知识库的处理方法、装置、计算机设备和存储介质 | |
CN116975275A (zh) | 多语种文本分类模型训练方法、装置和计算机设备 | |
CN117033961A (zh) | 一种上下文语境感知的多模态图文分类方法 |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination | ||
GR01 | Patent grant | ||
GR01 | Patent grant |