CN113886569B - 一种文本分类方法和装置 - Google Patents
一种文本分类方法和装置 Download PDFInfo
- Publication number
- CN113886569B CN113886569B CN202010547485.1A CN202010547485A CN113886569B CN 113886569 B CN113886569 B CN 113886569B CN 202010547485 A CN202010547485 A CN 202010547485A CN 113886569 B CN113886569 B CN 113886569B
- Authority
- CN
- China
- Prior art keywords
- word
- sample
- category
- frequent
- feature
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Active
Links
Classifications
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F16/00—Information retrieval; Database structures therefor; File system structures therefor
- G06F16/30—Information retrieval; Database structures therefor; File system structures therefor of unstructured textual data
- G06F16/35—Clustering; Classification
- G06F16/355—Creation or modification of classes or clusters
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F16/00—Information retrieval; Database structures therefor; File system structures therefor
- G06F16/30—Information retrieval; Database structures therefor; File system structures therefor of unstructured textual data
- G06F16/31—Indexing; Data structures therefor; Storage structures
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F40/00—Handling natural language data
- G06F40/20—Natural language analysis
- G06F40/279—Recognition of textual entities
- G06F40/289—Phrasal analysis, e.g. finite state techniques or chunking
-
- Y—GENERAL TAGGING OF NEW TECHNOLOGICAL DEVELOPMENTS; GENERAL TAGGING OF CROSS-SECTIONAL TECHNOLOGIES SPANNING OVER SEVERAL SECTIONS OF THE IPC; TECHNICAL SUBJECTS COVERED BY FORMER USPC CROSS-REFERENCE ART COLLECTIONS [XRACs] AND DIGESTS
- Y02—TECHNOLOGIES OR APPLICATIONS FOR MITIGATION OR ADAPTATION AGAINST CLIMATE CHANGE
- Y02D—CLIMATE CHANGE MITIGATION TECHNOLOGIES IN INFORMATION AND COMMUNICATION TECHNOLOGIES [ICT], I.E. INFORMATION AND COMMUNICATION TECHNOLOGIES AIMING AT THE REDUCTION OF THEIR OWN ENERGY USE
- Y02D10/00—Energy efficient computing, e.g. low power processors, power management or thermal management
Landscapes
- Engineering & Computer Science (AREA)
- Theoretical Computer Science (AREA)
- Physics & Mathematics (AREA)
- General Engineering & Computer Science (AREA)
- General Physics & Mathematics (AREA)
- Databases & Information Systems (AREA)
- Data Mining & Analysis (AREA)
- Health & Medical Sciences (AREA)
- Artificial Intelligence (AREA)
- Audiology, Speech & Language Pathology (AREA)
- Computational Linguistics (AREA)
- General Health & Medical Sciences (AREA)
- Software Systems (AREA)
- Information Retrieval, Db Structures And Fs Structures Therefor (AREA)
Abstract
本申请实施例公开了一种文本分类方法和装置;本申请实施例与大数据相关,可以对对象文本进行分词处理,得到对象文本的分词;将分词与类别特征词库中的类别特征词进行匹配;当分词匹配到不同候选对象类别对应的目标类别特征词时,将分词与样本对象文本集中样本对象文本对应的频繁词进行匹配;当分词匹配到目标频繁词时,根据目标类别特征词、以及目标频繁词,生成对象文本对应的特征词序列;将特征词序列与频繁特征词序列进行匹配;当特征词序列匹配到目标频繁特征词序列时,基于特征词序列中匹配特征词所属的候选对象类别,确定对象文本中对象所属的目标对象类别,其中,匹配特征词为与目标频繁特征词序列中关联类别特征词相匹配的特征词。
Description
技术领域
本发明涉及人工智能技术领域,具体涉及一种文本分类方法和装置。
背景技术
随着线上支付方式的普及,以及各种电子商务平台的应用,商户文本数据伴随着人们生活而大量增加,碎片化的商户文本信息需要被整理归类才能挖掘并提取其中隐藏的有用信息,基于商户文本数据对商户进行分类便是其中一种,商户分类被广泛应用于商户画像构建、用户消费偏好、权益推荐等领域。
目前对商户进行分类的方法,一种是将商户文本向量化,基于商户文本的特征向量构建类别标签以训练一个多分类或者多个二分类模型,通过多分类模型对待分类商户文本进行分类;另一种是通过爬虫对线上商户平台进行爬取,并批量查询地图数据获取商户的相关信息,从而获取到商户所属的商户类别。
在对现有技术的研究和实践过程中,本发明的发明人发现,采用目前对商户文本进行分类的方法,难以对商户文本进行准确的分类。比如,采用训练多分类模型的做法对于短文本而言,难以构造出一个准确的多分类模型,从而使得对商户文本进行分类的准确度大大降低。
发明内容
本申请实施例提供一种文本分类方法和装置,可以提高文本分类的准确度。
本申请实施例提供一种文本分类方法,包括:
对对象文本进行分词处理,得到所述对象文本的分词;
将所述分词与类别特征词库中的类别特征词进行匹配,其中,所述类别特征词库包括至少一个候选对象类别对应的类别特征词;
当所述分词匹配到不同候选对象类别对应的目标类别特征词时,将所述分词与样本对象文本集中样本对象文本对应的频繁词进行匹配;
当所述分词匹配到目标频繁词时,根据所述目标类别特征词、以及所述目标频繁词,生成所述对象文本对应的特征词序列;
将所述特征词序列与频繁特征词序列进行匹配,其中,所述频繁特征词序列包括样本对象文本集中样本对象文本对应的频繁词、以及与频繁词相关联的类别特征词;
当所述特征词序列匹配到目标频繁特征词序列时,基于所述特征词序列中匹配特征词所属的候选对象类别,确定所述对象文本中对象所属的目标对象类别,其中,所述匹配特征词为与目标频繁特征词序列中关联类别特征词相匹配的特征词。
相应的,本申请实施例还提供了一种文本分类装置,包括:
分词单元,用于对对象文本进行分词处理,得到所述对象文本的分词;
特征词匹配单元,用于将所述分词与类别特征词库中的类别特征词进行匹配,其中,所述类别特征词库包括至少一个候选对象类别对应的类别特征词;
频繁词匹配单元,用于当所述分词匹配到不同候选对象类别对应的目标类别特征词时,将所述分词与样本对象文本集中样本对象文本对应的频繁词进行匹配;
生成单元,用于当所述分词匹配到目标频繁词时,根据所述目标类别特征词、以及所述目标频繁词,生成所述对象文本对应的特征词序列;
序列匹配单元,用于将所述特征词序列与频繁特征词序列进行匹配,其中,所述频繁特征词序列包括样本对象文本集中样本对象文本对应的频繁词、以及与频繁词相关联的类别特征词;
确定单元,用于当所述特征词序列匹配到目标频繁特征词序列时,基于所述特征词序列中匹配特征词所属的候选对象类别,确定所述对象文本中对象所属的目标对象类别,其中,所述匹配特征词为与目标频繁特征词序列中关联类别特征词相匹配的特征词。
在一些实施例中,所述文本分类装置还包括:
词库构建单元,用于基于样本对象文本集中样本对象文本的样本分词,构建样本对象文本集对应的类别特征词库,所述类别特征词库包括至少一个样本对象类别对应的类别特征词;
样本匹配单元,用于将样本对象文本集中样本对象文本的样本分词与类别特征词库中的类别特征词进行匹配;
频繁词构建单元,用于当样本对象文本的样本分词匹配到不同样本对象类别对应的样本目标类别特征词时,构建样本对象文本对应的频繁词;
序列构建单元,用于基于所述样本目标类别特征词、以及样本对象文本对应的频繁词,构建频繁特征词序列。
在一些实施例中,所述词库构建单元,包括:
获取子单元,用于获取样本对象文本集中样本对象文本对应的样本对象类别;
计算子单元,用于针对每个样本对象类别,计算样本对象文本中样本分词对应的词频、以及逆文本频率,其中,所述词频为所述样本分词在所述样本对象类别对应的样本对象文本中出现的频率,所述逆文本频率为所述样本分词在所有样本对象类别中出现的频率;
确定子单元,用于基于所述样本分词对应的词频、以及逆文本频率,确定所述样本分词中目标样本分词所属的样本对象类别,得到每个样本对象类别对应的类别特征词;
构建子单元,用于根据每个样本对象类别对应的类别特征词,构建样本对象文本集对应的类别特征词库。
在一些实施例中,所述确定子单元,用于:
将所述样本分词对应的词频、以及逆文档频率进行融合,得到所述样本分词对应的融合后频率;
根据所述融合后频率,确定所述样本分词中目标样本分词所属的样本对象类别,得到每个样本对象类别对应的类别特征词。
在一些实施例中,所述频繁词构建单元,具体用于:
针对每个样本分词,统计所述样本分词在样本对象文本中出现的样本对象文本数;
根据所述样本对象文本数,从所述样本分词中确定样本对象文本对应的初始频繁词;
基于初始频繁词,以及初始频繁词在样本对象文本中对应的后缀词,构建样本对象文本对应的频繁词。
在一些实施例中,所述序列构建单元,用于:
从样本对象文本对应的频繁词中,确定样本对象文本所包含的样本目标频繁词;
将所述样本目标类别特征词、以及所述样本目标频繁词相关联,以生成样本对象文本对应的初始频繁特征词序列;
对所述初始频繁特征词序列进行去重处理,得到频繁特征词序列。
在一些实施例中,所述序列构建单元,具体用于:
将所述样本目标类别特征词、以及所述样本目标频繁词进行融合,以生成样本对象文本对应的样本融合后特征词序列;
对所述样本融合后特征词序列中的样本目标类别特征词进行特征词表示,得到样对象文本对应的样本特征词序列;
根据样本对象文本对应的样本对象类别、以及所述样本目标频繁词,标记所述样本特征词序列中与样本目标频繁词相关联的样本关联类别特征词,得到样本对象文本对应的初始频繁特征词序列。
在一些实施例中,所述文本分类装置还包括类别确定单元,所述类别确定单元包括:
相似度计算子单元,用于当所述分词未匹配到任一候选对象类别对应的类别特征词时,计算所述分词与每个候选对象类别对应的类别特征词的相似度;
类别确定子单元,用于基于所述相似度、频繁特征词序列以及样本对象文本集中样本对象文本对应的频繁词,确定所述对象文本中对象所属的目标对象类别。
在一些实施例中,所述类别确定子单元,用于:
当所述分词与不同候选对象类别对应的目标类别特征词的相似度大于预设相似度阈值时,基于样本对象文本集中样本对象文本对应的频繁词,确定所述对象文本中所包含的目标频繁词;
根据所述目标类别特征词、以及所述目标频繁词,生成所述对象文本对应的特征词序列;
将所述特征词序列与频繁特征词序列进行匹配,以确定所述对象文本中对象所属的目标对象类别。
相应的,本申请还提供一种计算机设备,包括存储器,处理器及存储在存储器上并可在处理器上运行的计算机程序,其中,所述处理器执行所述程序时实现本申请实施例提供的任一种文本分类方法中的步骤。
此外,本申请实施例还提供一种计算机可读存储介质,其上存储有计算机程序,其中,所述计算机程序被处理器执行时实现本申请实施例提供的任一种文本分类方法中的步骤。
本申请实施例可以对对象文本进行分词处理,得到对象文本的分词;将分词与类别特征词库中的类别特征词进行匹配,其中,类别特征词库包括至少一个候选对象类别对应的类别特征词;当分词匹配到不同候选对象类别对应的目标类别特征词时,将分词与样本对象文本集中样本对象文本对应的频繁词进行匹配;当分词匹配到目标频繁词时,根据目标类别特征词、以及目标频繁词,生成对象文本对应的特征词序列;将特征词序列与频繁特征词序列进行匹配,其中,频繁特征词序列包括样本对象文本集中样本对象文本对应的频繁词、以及与频繁词相关联的类别特征词;当特征词序列匹配到目标频繁特征词序列时,基于特征词序列中匹配特征词所属的候选对象类别,确定对象文本中对象所属的目标对象类别,其中,匹配特征词为与目标频繁特征词序列中关联类别特征词相匹配的特征词。由于该方案能够通过将对象文本的分词与构建的类别特征词库中的类别特征词进行匹配、以及将分词与样本对象文本集中样本对象文本对应的频繁词进行匹配,并且当分词匹配到不同候选对象类别对应的目标类别特征词、以及匹配到目标频繁词时,根据目标类别特征词、以及目标频繁词,生成对象文本对应的特征词序列,通过将特征词序列与构建的频繁特征词序列进行匹配,当匹配到目标频繁特征词序列时,根据特征词序列中匹配特征词(与目标频繁特征词序列中关联类别特征词相匹配的特征词)所属的候选对象类别,确定对象文本中对象所属的目标对象类别,从而大大提高了文本分类的准确度。
附图说明
为了更清楚地说明本申请实施例中的技术方案,下面将对实施例描述中所需要使用的附图作简单地介绍,显而易见地,下面描述中的附图仅仅是本发明的一些实施例,对于本领域技术人员来讲,在不付出创造性劳动的前提下,还可以根据这些附图获得其他的附图。
图1a是本申请实施例提供的文本分类方法的场景示意图;
图1b是本申请实施例提供的文本分类方法的流程示意图;
图2是本申请实施例提供的文本分类方法的另一流程示意图;
图3a是本申请实施例提供的文本分类装置的结构示意图;
图3b是本申请实施例提供的文本分类装置的另一结构示意图;
图3c是本申请实施例提供的文本分类装置的另一结构示意图;
图3d是本申请实施例提供的文本分类装置的另一结构示意图;
图4是本申请实施例提供的计算机设备的结构示意图。
具体实施方式
下面将结合本申请实施例中的附图,对本申请实施例中的技术方案进行清楚、完整地描述,显然,所描述的实施例仅仅是本发明一部分实施例,而不是全部的实施例。基于本发明中的实施例,本领域技术人员在没有作出创造性劳动前提下所获得的所有其他实施例,都属于本发明保护的范围。
本申请实施例提供一种文本分类方法、装置、计算机设备和计算机可读存储介质。具体地,本申请实施例的文本分类方法可以由计算机设备执行,其中,服务器可以是独立的物理服务器,也可以是多个物理服务器构成的服务器集群或者分布式系统,还可以是提供云计算服务的云服务器。终端可以是智能手机、平板电脑、笔记本电脑、台式计算机、智能音箱、智能手表等,但并不局限于此。终端以及服务器可以通过有线或无线通信方式进行直接或间接地连接,本申请在此不做限制。
本申请实施例提供的文本分类方案涉及人工智能的机器学习(ML,MachineLearning)。可以通过人工智能的机器学习技术实现对频繁特征词序列的构建。
其中,机器学习是一门多领域交叉学科,涉及概率论、统计学、逼近论、凸分析、算法复杂度理论等多门学科。专门研究计算机怎样模拟或实现人类的学习行为,以获取新的知识或技能,重新组织已有的知识结构使之不断改善自身的性能。机器学习是人工智能的核心,是使计算机具有智能的根本途径,其应用遍及人工智能的各个领域。机器学习和深度学习通常包括人工神经网络、置信网络、强化学习、迁移学习、归纳学习、式教学习等技术。
例如,参见图1a,以该文本分类装置集成在计算机设备中为例,该计算机设备可以对对象文本进行分词处理,得到对象文本的分词;将分词与类别特征词库中的类别特征词进行匹配,其中,类别特征词库包括至少一个候选对象类别对应的类别特征词;当分词匹配到不同候选对象类别对应的目标类别特征词时,将分词与样本对象文本集中样本对象文本对应的频繁词进行匹配;当分词匹配到目标频繁词时,根据目标类别特征词、以及目标频繁词,生成对象文本对应的特征词序列;将特征词序列与频繁特征词序列进行匹配,其中,频繁特征词序列包括样本对象文本集中样本对象文本对应的频繁词、以及与频繁词相关联的类别特征词;当特征词序列匹配到目标频繁特征词序列时,基于特征词序列中匹配特征词所属的候选对象类别,确定对象文本中对象所属的目标对象类别,其中,匹配特征词为与目标频繁特征词序列中关联类别特征词相匹配的特征词。
以下分别进行详细说明。需说明的是,以下实施例的描述顺序不作为对实施例优选顺序的限定。
在本实施例中,将从文本分类装置的角度进行描述,该文本分类装置具体可以集成在计算机设备中,例如,文本分类装置可以是设置于计算机设备中的实体装置,或者文本分类装置可以以客户端的形式集成在计算机设备中。该计算机设备可以是服务器,也可以是终端等设备。
如图1b所示,该文本分类方法的具体流程可以如下:
101、对对象文本进行分词处理,得到对象文本的分词。
其中,对象文本是指包含有对象信息的文本,其中,该对象可以是人物、事件、或者是指具体的实体,比如商户、店铺,等等。为了便于理解和描述,本申请实施例中,具体以该对象为商户为例进行说明,则对象文本可以理解为,是包含有商户信息的商户文本。
其中,商户信息可以包括商户的名称(比如商店的店名)、商户的地址、以及商户主要销售的产品,等等。例如,该商户文本可以为“XX县XX大排档餐馆”、“XX市XX串串火锅店”、“XX路XX甜品店”,等等。
获取对象文本的方式可以有多种,例如,可以通过对线上商户平台中的商户信息进行采集,并采用文本的方式进行表示得到,或者,也可以通过对电子交易凭证中记录的商户信息进行收集得到,比如,通过线上支付的方式、或者在电子商务平台中的商品交易所产生的交易凭证,对交易凭证中所包含的商户信息进行收集,得到包含该商户信息的商户文本数据,等等。
通过对对象文本进行分词处理,可以得到对象文本的分词(即词)。例如,可以对对象文本按照语法规则(例如,按照中文语法规则)进行分词,从而得到对象文本中的一个或者多个词。
102、将分词与类别特征词库中的类别特征词进行匹配,其中,类别特征词库包括至少一个候选对象类别对应的类别特征词。
其中,候选对象类别为对象文本中对象所属的类别,该候选对象类别可以通过制定和划分得到,例如,可以按照一级或者多级类目进行划分得到,以商户文本为例,商户文本中商户所属的商户类别,可以划分为餐饮类、综合零售类、专营零售类、生活服务类、交通运输类、医疗类、教育培训类、金融类、工业科技类、票务/旅游类、其他等大类(即一级类目),针对每个一级类目,又可以划分为一个或者多个小类,从而得到一级类目下的二级类目,例如,餐饮类可以被详细划分为多个二级类目,比如,餐馆、饮品甜点、调味料、以及其他餐饮,等等。
其中,类别特征词为表征候选对象类别特征的词,例如,“冰红茶”、“冰淇淋”、“饼干”、“奶茶”等词,可以为表征“饮品甜点”这一类别特征的词;而“钵钵鸡”、“菜馆”、“菜肴”、“家常菜”等词,可以为表征“餐馆”这一类别特征的词;“酱油”、“调料”、“食盐”、“味精”等词,可以为表征“调味料”这一类别特征的词,等等。
在一实施例中,该类别特征词库可以通过构建得到,例如,可以基于样本对象文本集中样本对象文本的样本分词,构建样本对象文本集对应的类别特征词库,具体地,该文本分类方法,还可以包括:
基于样本对象文本集中样本对象文本的样本分词,构建样本对象文本集对应的类别特征词库,所述类别特征词库包括至少一个样本对象类别对应的类别特征词;
将样本对象文本集中样本对象文本的样本分词与类别特征词库中的类别特征词进行匹配;
当样本对象文本的样本分词匹配到不同样本对象类别对应的样本目标类别特征词时,构建样本对象文本对应的频繁词;
基于样本目标类别特征词、以及样本对象文本对应的频繁词,构建频繁特征词序列。
在一实施例中,构建类别特征词库的方式可以有多种,例如,可以通过TF-IDF(term frequency–inverse document frequency)算法,即通过计算词的词频(TF)、以及词的逆文本频率(IDF),提取出文本集中具有类别区分能力的词,例如,可以先对样本对象文本集中的样本对象文本进行分词处理,得到样本对象文本的样本分词,然后,基于样本对象文本集中样本对象文本对应的样本对象类别,计算样本分词对应的词频、以及逆文本频率,通过样本分词的词频和逆文本频率,确定目标样本分词所属的样本对象类别,从而得到每个样本对象类别对应的类别特征词,最后,根据每个样本对象类别对应的类别特征词,构建样本对象文本集对应的类别特征词库。具体地,步骤“基于样本对象文本集中样本对象文本的样本分词,构建样本对象文本集对应的类别特征词库”,可以包括:
获取样本对象文本集中样本对象文本对应的样本对象类别;
针对每个样本对象类别,计算样本对象文本中样本分词对应的词频、以及逆文本频率,其中,词频为样本分词在该样本对象类别对应的样本对象文本中出现的频率,逆文本频率为样本分词在所有样本对象类别中出现的频率;
基于样本分词对应的词频、以及逆文本频率,确定样本分词中目标样本分词所属的样本对象类别,得到每个样本对象类别对应的类别特征词;
基于每个样本对象类别对应的类别特征词,构建样本对象文本集对应的类别特征词库。
其中,样本对象文本集可以根据预先制定和划分的样本对象类别构建得到,即根据样本对象类别,构建样本对象类别对应的样本对象文本,并标注出样本对象文本所属的样本对象类别。
其中,TF-IDF是一种用于信息检索与数据挖掘的常用加权技术,TF是指词频(TermFrequency),IDF是指逆文本频率(Inverse Document Frequency)。通过TFI-DF构建各个样本对象类别对应的类别特征词的主要思想在于:如果一个样本分词在某一样本对象类别的样本对象文本中经常出现,而在其他样本对象类别的样本对象文本中很少出现,则说明该样本分词对该样本对象类别具有较好的类别区分能力。具体地,步骤“基于样本分词对应的词频、以及逆文本频率,确定样本分词中目标样本分词所属的样本对象类别,得到每个样本对象类别对应的类别特征词”,可以包括:
将样本分词对应的词频、以及逆文档频率进行融合,得到样本分词对应的融合后频率;
根据融合后频率,确定样本分词中目标样本分词所属的样本对象类别,得到每个样本对象类别对应的类别特征词。
本申请实施例中,TF-IDF的计算公式如下:
TF-IDF=词频(TF)*逆文本频率(IDF)
通过TF-IDF公式可以计算出样本对象文本中样本分词对应的词频、以及逆文本频率,并将词频和逆文本频率进行融合如相乘,得到样本分词对应的TF-IDF值,基于TF-IDF值可以确定样本分词对某一样本对象类别是否具有类别区分能力,当样本分词对该样本对象类别具有类别区分能力(如TF-IDF值高于预设阈值),则可以确定该样分词属于该样本对象类别,即,可以将该样本分词作为该样本对象类别对应的类别区分特征词。例如,当计算出该样本分词对应的TF-IDF值高于预设阈值时,可以确定该样本分词属于该样本对象类别,并将该样本分词作为该样本对象类别对应的类别特征词;而当样本分词对应的TF-IDF值低于预设阈值时,则说明该样本分词对该样本对象类别不具有类别区分能力,也就不能作为该样本对象类别对应的类别区分特征词。由此,通过TF-IDF算法可以从样本对象文本的样本分词中确定出每个样本对象类别对应的类别区分特征词。
其中,预设阈值可以根据实际应用的需求进行设置,本实施例对此不做限制。
103、当分词匹配到不同候选对象类别对应的目标类别特征词时,将分词与样本对象文本集中样本对象文本对应的频繁词进行匹配。
其中,频繁词为样本对象文本中频繁出现的词,该频繁词可以是指单个词,也可以是由多个词构成(即该频繁词中包含词序列),例如,“加盟店”一词是由“加盟”(词)和“店”(词)构成。当分词匹配到不同候选对象类别对应的目标类别特征词时,将该分词与样本对象文本集中样本对象文本对应的频繁词进行匹配。
在一实施例中,样本对象文本集中样本对象文本对应的频繁词可以通过构建得到,例如,可以当样本对象文本的样本分词匹配到不同样本对象类别对应的样本目标类别特征词时,构建样本对象文本对应的频繁词。
构建频繁词的方式可以有多种,例如,可以通过序列模式挖掘算法挖掘出样本对象文本对应的频繁词,具体地,为了提高挖掘频繁词的准确性,具体可以采用PrefixSpan(Prefix-Projected Pattern Growth)算法,即前缀投影的模式挖掘算法,挖掘出样本对象文本对应的频繁词。具体地,在步骤102中,步骤“当样本对象文本的样本分词匹配到不同样本对象类别对应的样本目标类别特征词时,构建样本对象文本对应的频繁词”,可以包括:
针对每个样本分词,统计样本分词在样本对象文本中出现的样本对象文本数;
根据样本对象文本数,从样本分词中确定样本对象文本对应的初始频繁词;
基于初始频繁词,以及初始频繁词在样本对象文本中对应的后缀词,构建样本对象文本对应的频繁词。
其中,Prefixspan算法可以从大量的由序列组成的序列数据集中挖掘出所有满足支持度阈值(又称最小支持度)的频繁序列集。本申请实施例中,某个样本对象文本中的样本分词可以构成的一个词序列,多个样本对象文本可以构成一个词序列集,本实施例将以词序列集中的词序列作为频繁词挖掘的对象,基于Prefixspan算法从匹配到不同样本对象类别对应的样本目标类别特征词的样本对象文本中,挖掘出高于支持度阈值的样本分词,从而构成样本对象文本对应的频繁词。其中,词序列集中包含某个词的词序列的数量,称为该词的支持度。
例如,可以统计出每个样本分词在所有样本对象文本中出现的样本对象文本数,得到每个样本分词的支持度。根据该支持度,筛选出高于支持度阈值的样本分词,得到样本对象文本对应的初始频繁词,根据初始频繁词,将样本对象文本中出现在初始频繁词之后的词作为该初始频繁词对应的后缀词(即投影),并对后缀词中的各个样本分词进行递归挖掘频繁词,最终得到样本对象文本对应的频繁词。
其中,支持度阈值可以根据样本对象文本集中的样本对象文本数计算得出,计算的公式如下:
min_sup=a×n
其中,min_sup为最小支持度,n为样本对象文本集所包含的样本对象文本数,a为最小支持率,该最小支持率可以根据样本对象文本集的量级进行调整,本申请实施例对此不做限制。
104、当分词匹配到目标频繁词时,根据目标类别特征词、以及目标频繁词,生成对象文本对应的特征词序列。
例如,当对象文本的分词匹配到目标频繁词时,可以将匹配到的目标类别特征词、以及匹配到的目标频繁词进行融合,以生成对象文本对应的特征词序列。
其中,融合的方式可以有多种,例如,当目标频繁词和目标类别特征词中的类别特征词存在相同的词时,对相同的词进行去重处理,并根据去重后各个词在对象文本中出现的先后顺序构建对象文本对应的特征词序列;当目标频繁词和目标类别特征词中的类别特征词不存在重复的词时,则根据目标类别特征词和目标频繁词在对象文本中出现的先后顺序,构建对象文本对应的特征词序列。
例如,若对象文本所匹配到的目标类别特征词为:咖啡、甜品,匹配到的目标频繁词为:加盟店,则生成的特征词序列为:咖啡、甜品、加盟店;若对象文本所匹配到的目标类别特征词为:超市、茶油、面馆,匹配到的目标频繁词为:面馆,则生成的特征词序列为:超市、茶油、面馆。
105、将特征词序列与频繁特征词序列进行匹配,其中,频繁特征词序列包括样本对象文本集中样本对象文本对应的频繁词、以及与频繁词相关联的类别特征词。
在一实施例中,频繁特征词序列可以通过构建得到,例如,可以根据样本对象文本集中样本对象文本对应的频繁词、以及样本对象文本的样本分词所匹配到的不同样本对象类别对应的样本目标类别特征词构建得到。具体地,步骤102中,步骤“基于样本目标类别特征词、以及样本对象文本对应的频繁词,构建频繁特征词序列”,可以包括:
从样本对象文本对应的频繁词中,确定样本对象文本所包含的样本目标频繁词;
将样本目标类别特征词、以及样本目标频繁词相关联,以生成样本对象文本对应的初始频繁特征词序列;
对初始频繁特征词序列进行去重处理,得到频繁特征词序列。
其中,将样本目标类别特征词与样本目标频繁词相关联的方式可以有多种,例如,可以将样本目标类别特征词与样本目标频繁词进行融合,具体地,步骤“将样本目标类别特征词、以及样本目标频繁词相关联,以生成样本对象文本对应的初始频繁特征词序列”,可以包括:
将样本目标类别特征词、以及样本目标频繁词进行融合,以生成样本对象文本对应的样本融合后特征词序列;
对样本融合后特征词序列中的样本目标类别特征词进行特征词表示,得到样对象文本对应的样本特征词序列;
根据样本对象文本对应的样本对象类别、以及样本目标频繁词,标记样本特征词序列中与样本目标频繁词相关联的样本关联类别特征词,得到样本对象文本对应的初始频繁特征词序列。
其中,融合的方式可以有多种,例如,可以将样本目标类别特征词、以及样本目标频繁词中相同的词进行合并处理,对于进行合并处理后所得到的各个词,按照每个词在样本对象文本中出现的先后顺序,构建样本对象文本对应的样本融合后特征词序列。
其中,为了对样本融合后特征词序列中的样本目标类别特征词进行统一表示,可以对样本融合后特征词序列中的样本目标类别特征词进行特征词表示,从而得到样本特征词序列。例如,可以将样本融合后特征词序列中的样本目标类别特征词:“购物广场”、“鸡公煲”、“餐馆”,表示为:特征词1、特征词2、特征词3。
在一实施例中,根据样本对象文本对应的样本对象类别、以及样本目标频繁词,可以确定并标记样本特征词序列中与样本目标频繁词相关联的样本关联类别特征词,得到样本对象文本对应的初始频繁特征词序列。例如,某一样本商户文本对应的样本商户类别为“餐饮-餐馆”,该样本商户文本所匹配到的不同样本商户类别对应的样本目标类别特征词为:“超市”、“茶油”、“面馆”(面馆所属的商户类别为“餐饮-餐馆”),表示为:特征词1、特征词2、特征词3,且该样本商户文本中包含的目标频繁词为:面馆,则可以确定样本目标类别特征词中的“面馆”(即特征词3)为与目标频繁词相关联的关联类别特征词,并标记出该关联类别特征词,例如,可以采用星号“*”进行标记,从而得到该样本商户文本对应的初始频繁特征词序列:特征词1、特征词2、特征词3*(面馆)。其中,初始频繁特征词序列的表现形式不唯一,例如,初始频繁特征词序列:特征词1、特征词2、特征词3*(面馆),也可以表示为:特征词1、特征词2、面馆*。
又例如,某一样本商户文本对应的样本商户类别为“餐饮-餐馆”,该样本商户文本所匹配到的不同样本商户类别对应的样本目标类别特征词为:“眼镜”、“火锅”(火锅所属的商户类别为“餐饮-餐馆”),表示为:特征词1、特征词2、特征词3,且该样本商户文本中包含的目标频繁词为:“加盟店”(在特征词1和特征词2之后出现),则将目标频繁词前面最近的一个特征词作为关联类别特征词,并对其进行标记,得到初始频繁特征词序列为:特征词1、特征词2*、加盟店。
其中,“(面馆)”为表征特征词3即为“面馆”,且该特征词3也是与目标频繁词(即括号中的“面馆”)相关联的关联类别特征词,通过特征词3所属的商户类别如“餐饮-餐馆”,可以确定该样本商户文本中商户所属的商户类别为“餐饮-餐馆”(即一级类目“餐饮”下的“餐馆”类别)。
在一实施例中,可以将频繁特征词序列转化为正则表达式(即规则表达式),得到频繁特征模式规则,并基于该频繁特征模式规则对待分类的对象文本进行分类。
106、当特征词序列匹配到目标频繁特征词序列时,基于特征词序列中匹配特征词所属的候选对象类别,确定对象文本中对象所属的目标对象类别,其中,匹配特征词为与目标频繁特征词序列中关联类别特征词相匹配的特征词。
例如,当特征词序列中的特征词匹配到目标频繁特征词序列中的关联类别特征词时,根据特征词序列中的匹配特征词所属的候选对象类别,确定对象文本中对象所属的目标对象类别。
比如,待分类商户文本对应的特征词序列为:航空、面馆,匹配到的目标频繁特征词序列为:特征词1、面馆*(即特征词1、特征词2*(面馆)),则可以根据特征词序列中与目标频繁特征词序列的关联类别特征词(即带“*”的词)相匹配的匹配特征词“面馆”所属的商户类别,确定待分类商户文本中商户所属的商户类别,即,若“面馆”所属的商户类别为“餐饮-餐馆”,则待分类商户文本所属的商户类别也为“餐饮-餐馆”。
又比如,商户文本对应的特征词序列为:超市、甜品、加盟店,匹配到的目标频繁特征词序列为:特征词1、特征词2*、加盟店,其中,目标频繁特征词序列中与频繁词“加盟店”的关联类别特征词为特征词2(即加盟店前面最近的一个特征词),因此,根据特征词2在序列中的出现顺序,可以确定特征词序列中的“甜品”为与特征词2相匹配的匹配特征词,即,根据词“甜品”所属的商户类别,可以确定商户文本所属的商户类别。
在一实施例中,当对象文本的分词未匹配到任一候选对象类别对应的类别特征词时,通过计算样本分词与每个候选对象类别对应的类别特征词的相似度,来确定对象文本中对象所属的目标对象类别。具体地,该文本分类方法,还可以包括:
当分词未匹配到任一候选对象类别对应的类别特征词时,计算分词与每个候选对象类别对应的类别特征词的相似度;
基于相似度、频繁特征词序列以及样本对象文本集中样本对象文本对应的频繁词,确定对象文本中对象所属的目标对象类别。
其中,计算分词与每个候选对象类别对应的类别特征词的相似度的方式可以有多种,例如,可以通过词向量模型来计算词之间的相似度,具体地,可以采用Word2vec构建词对应的词向量,并计算词向量之间的相似度来确定词之间的相似度,等等。
在一实施例中,当计算出分词与多个不同候选对象类别对应的目标类别特征词之间的相似度大于预设相似度阈值时,可以通过构建得到的频繁特征词序列、以及样本对象文本集中样本对象文本对应的频繁词,确定对象文本中对象所属的对象类别。具体地,步骤“基于相似度、频繁特征词序列以及样本对象文本集中样本对象文本对应的频繁词,确定对象文本所属的目标对象类别”,可以包括:
当分词与不同候选对象类别对应的目标类别特征词的相似度大于预设相似度阈值时,基于样本对象文本集中样本对象文本对应的频繁词,确定对象文本中所包含的目标频繁词;
根据目标类别特征词、以及目标频繁词,生成对象文本对应的特征词序列;
将特征词序列与频繁特征词序列进行匹配,以确定对象文本中对象所属的目标对象类别。
其中,预设相似度阈值可以设置为0.9,或者0.95,该预设相关度阈值可以根据实际应用的需求进行设置,在此不一一赘述。
在一实施例中,当对象文本的分词匹配到的类别特征词属于相同候选对象类别时,可以直接将该相同候选对象类别确定为该对象文本中对象所属的目标对象类别。
由上可知,本申请实施例可以对对象文本进行分词处理,得到对象文本的分词;将分词与类别特征词库中的类别特征词进行匹配,其中,类别特征词库包括至少一个候选对象类别对应的类别特征词;当分词匹配到不同候选对象类别对应的目标类别特征词时,将分词与样本对象文本集中样本对象文本对应的频繁词进行匹配;当分词匹配到目标频繁词时,根据目标类别特征词、以及目标频繁词,生成对象文本对应的特征词序列;将特征词序列与频繁特征词序列进行匹配,其中,频繁特征词序列包括样本对象文本集中样本对象文本对应的频繁词、以及与频繁词相关联的类别特征词;当特征词序列匹配到目标频繁特征词序列时,基于特征词序列中匹配特征词所属的候选对象类别,确定对象文本中对象所属的目标对象类别,其中,匹配特征词为与目标频繁特征词序列中关联类别特征词相匹配的特征词。由于该方案能够通过将对象文本的分词与构建的类别特征词库中的类别特征词进行匹配、以及将分词与样本对象文本集中样本对象文本对应的频繁词进行匹配,并且当分词匹配到不同候选对象类别对应的目标类别特征词、以及匹配到目标频繁词时,根据目标类别特征词、以及目标频繁词,生成对象文本对应的特征词序列,通过将特征词序列与构建的频繁特征词序列进行匹配,当匹配到目标频繁特征词序列时,根据特征词序列中匹配特征词(与目标频繁特征词序列中关联类别特征词相匹配的特征词)所属的候选对象类别,确定对象文本中对象所属的目标对象类别,从而大大提高了文本分类的准确度。
根据上述实施例所描述的方法,以下将举例作进一步详细说明。
在本实施例中,将以该文本分类装置具体集成在计算机设备中为例进行说明。
如图2所示,该文本分类方法,具体流程可以如下:
201、计算机设备对对象文本进行分词处理,得到对象文本的分词。
其中,对象文本是指包含有对象信息的文本,其中,该对象可以是人物、事件、或者是指具体的实体,比如商户、店铺,等等。为了便于理解和描述,本申请实施例中,具体以该对象为商户为例进行说明,则对象文本可以理解为,是包含有商户信息的商户文本。
其中,商户信息可以包括商户的名称(比如商店的店名)、商户的地址、以及商户主要销售的产品,等等。例如,该商户文本可以为“XX县XX大排档餐馆”、“XX市XX串串火锅店”、“XX路XX甜品店”,等等。
计算机设备获取对象文本的方式可以有多种,以商户文本为例,可以通过对线上商户平台中的商户信息进行采集,并采用文本的方式表示得到,或者,也可以通过对电子交易凭证中记录的商户信息进行收集得到,等等,比如,对于采用线上支付的方式、或者在电子商务平台中的商品交易所产生的交易凭证,计算机设备可以对交易凭证中所包含的商户信息进行收集,得到包含该商户信息的商户文本数据。
通过对对象文本进行分词处理,可以得到对象文本的分词(即词)。例如,可以对对象文本按照语法规则(例如,按照中文语法规则)进行分词,从而得到对象文本中的一个或者多个词。
202、计算机设备将分词与类别特征词库中的类别特征词进行匹配,其中,类别特征词库包括至少一个候选对象类别对应的类别特征词。
其中,候选对象类别为对象文本中对象所属的类别,该候选对象类别可以通过预先制定和划分得到,例如,可以按照一级或者多级类目进行划分得到,以商户文本为例,商户文本中商户所属的商户类别,可以划分为餐饮类、综合零售类、专营零售类、生活服务类、交通运输类、医疗类、教育培训类、金融类、工业科技类、票务/旅游类、其他等大类(即一级类目),针对每个一级类目,又可以划分为一个或者多个小类,从而得到一级类目下的二级类目,例如,餐饮类可以被详细划分为多个二级类目,比如,餐馆、饮品甜点、调味料、以及其他餐饮,等等,如表1所示。
一级类目 | 二级类目 |
餐饮 | 餐馆 |
餐饮 | 饮品甜点 |
餐饮 | 调味料 |
餐饮 | 其他餐饮 |
表1
其中,类别特征词为表征候选对象类别特征的词,例如,“冰红茶”、“冰淇淋”、“饼干”、“奶茶”等词,可以为表征“餐饮-饮品甜点”这一类别特征的词;而“钵钵鸡”、“菜馆”、“菜肴”、“家常菜”等词,可以为表征“餐饮-餐馆”这一类别特征的词;“酱油”、“调料”、“食盐”、“味精”等词,可以为表征“餐饮-调味料”这一类别特征的词,等等。
在一实施例中,该类别特征词库可以通过构建得到,例如,可以基于样本对象文本集中样本对象文本的样本分词,构建样本对象文本集对应的类别特征词库,例如,可以通过TF-IDF算法,计算样本分词对应的词频(TF)、以及逆文本频率(IDF),根据样本分词对应的词频、以及逆文本频率,确定目标样本对象文本所属的样本对象类别,从而得到每个样本对象类别对应的类别特征词,最后,根据每个样本对象类别对应的类别特征词,构建样本对象文本集对应的类别特征词库。
其中,样本对象文本集可以根据预先制定和划分的样本对象类别构建得到,即根据样本对象类别,构建样本对象类别对应的样本对象文本,并标注出样本对象文本所属的样本对象类别,如表2所示,为构建的各个商户类别对应的商户文本。
表2
本申请实施例中,通过TF-IDF公式可以计算出样本对象文本中样本分词对应的词频、以及逆文本频率,并将词频和逆文本频率进行融合如相乘,得到样本分词对应的TF-IDF值,基于TF-IDF值可以确定样本分词对某一样本对象类别是否具有类别区分能力,当样本分词对该样本对象类别具有类别区分能力(如TF-IDF值高于预设阈值),则可以确定该样分词属于该样本对象类别,即,可以将该样本分词作为该样本对象类别对应的类别区分特征词。例如,当计算出该样本分词对应的TF-IDF值高于预设阈值时,可以确定该样本分词属于该样本对象类别,并将该样本分词作为该样本对象类别对应的类别特征词;而当样本分词对应的TF-IDF值低于预设阈值时,则说明该样本分词对该样本对象类别不具有类别区分能力,也就不能作为该样本对象类别对应的类别区分特征词。由此,通过TF-IDF算法可以从样本对象文本的样本分词中确定出每个样本对象类别对应的类别区分特征词。具体地,TF-IDF的计算公式如下:
TF-IDF=词频(TF)*逆文本频率(IDF)
其中,预设阈值可以根据实际应用的需求进行设置,本实施例对此不做限制。
通过TF-IDF算法构建得到各个样本对象类别对应的类别特征词的示例,如表3所示。
类别特征词 | 一级类目 | 二级类目 |
冰红茶 | 餐饮 | 饮品甜点 |
冰激淋 | 餐饮 | 饮品甜点 |
饼干 | 餐饮 | 饮品甜点 |
钵钵鸡 | 餐饮 | 餐馆 |
菜馆 | 餐饮 | 餐馆 |
菜肴 | 餐饮 | 餐馆 |
酱油 | 餐饮 | 调味料 |
调料 | 餐饮 | 调味料 |
食盐 | 餐饮 | 调味料 |
餐饮业 | 餐饮 | 其他餐饮 |
方便面 | 餐饮 | 其他餐饮 |
副食店 | 餐饮 | 其他餐饮 |
表3
203、计算机设备当分词匹配到不同候选对象类别对应的目标类别特征词时,将分词与样本对象文本集中样本对象文本对应的频繁词进行匹配。
其中,频繁词为样本对象文本集中频繁出现的词,该频繁词可以是指单个词,也可以是由多个词构成(即该频繁词中包含词序列),例如,“中国人”一词是由“中国”(词)和“人”(词)构成。当样本对象文本的样本分词匹配到不同样本对象类别对应的样本目标类别特征词时,构建样本对象文本对应的频繁词。如表4所示,为样本商户文本的样本分词匹配到不同样本商户类别对应的样本目标类别特征词的示例。
表4
构建频繁词的方式可以有多种,例如,可以通过序列模式挖掘算法挖掘出样本对象文本对应的频繁词,具体地,为了提高挖掘频繁词的准确性,具体可以采用PrefixSpan(Prefix-Projected Pattern Growth)算法,即前缀投影的模式挖掘算法,挖掘出样本对象文本对应的频繁词。
本申请实施例中,某个样本对象文本中的样本分词可以构成的一个词序列,多个样本对象文本可以构成一个词序列集,本实施例将以词序列集中的词序列作为频繁词挖掘的对象,基于Prefixspan算法从匹配到不同样本对象类别对应的样本目标类别特征词的样本对象文本中,挖掘出高于支持度阈值的样本分词,从而构成样本对象文本对应的频繁词。其中,词序列集中包含某个词的词序列个数,称为该词的支持度。
例如,以表4中的商户文本为例,且支持度阈值设为1/4,即某个词在表4的6个商户文本中至少要出现2次,才能高于该支持度阈值,否则过滤该词,并对高于支持度阈值的词进行支持度统计,结果如表5所示:
初始频繁词 | 餐馆 | 店 | 加盟 | 面馆 |
出现文本数 | 2 | 2 | 2 | 2 |
表5
然后,从表4的商户文本中过滤掉低于支持度阈值的词,得到过滤后的商户文本如表6所示:
商户文本 |
面馆 |
面馆 |
餐馆 |
加盟店 |
餐馆 |
加盟店 |
表6
从过滤后的商户文本中,确定出初始频繁词对应的后缀词,如表7所示:
一项前缀 | 对应后缀 |
餐馆 | |
店 | |
加盟 | 店店 |
面馆 |
表7
根据一项前缀、以及对应的后缀,确定出高于支持度阈值的二项前缀,以及二项前缀对应的后缀,如表8所示:
二项前缀 | 对应后缀 |
加盟店 |
表8
最终,得到不同长度的频繁词(序列),以及相应的支持度,如表9所示:
表9
204、计算机设备当分词匹配到目标频繁词时,根据目标类别特征词、以及目标频繁词,生成对象文本对应的特征词序列。
例如,当对象文本的分词匹配到目标频繁词时,可以将匹配到的目标类别特征词、以及匹配到的目标频繁词进行融合,以生成对象文本对应的特征词序列。
其中,融合的方式可以有多种,例如,当目标频繁词和目标类别特征词中的类别特征词存在相同的词时,对相同的词进行去重处理,并根据去重后各个词在对象文本中出现的先后顺序构建对象文本对应的特征词序列;当目标频繁词和目标类别特征词中的类别特征词不存在重复的词时,则根据目标类别特征词和目标频繁词在对象文本中出现的先后顺序,构建对象文本对应的特征词序列。
例如,若对象文本所匹配到的目标类别特征词为:咖啡、甜品,匹配到的目标频繁词为:加盟店,则生成的特征词序列为:咖啡、甜品、加盟店;若对象文本所匹配到的目标类别特征词为:超市、茶油、面馆,匹配到的目标频繁词为:面馆,则生成的特征词序列为:超市、茶油、面馆。
205、计算机设备将特征词序列与频繁特征词序列进行匹配,其中,频繁特征词序列包括样本对象文本集中样本对象文本对应的频繁词、以及与频繁词相关联的类别特征词。
在一实施例中,频繁特征词序列可以通过构建得到,例如,可以根据样本对象文本集中样本对象文本对应的频繁词、以及样本对象文本的样本分词所匹配到的不同样本对象类别对应的样本目标类别特征词构建得到。例如:从样本对象文本对应的频繁词中,确定样本对象文本所包含的样本目标频繁词;将样本目标类别特征词、以及样本目标频繁词相关联,以生成样本对象文本对应的初始频繁特征词序列;对初始频繁特征词序列进行去重处理,得到频繁特征词序列。
其中,步骤“将样本目标类别特征词、以及样本目标频繁词相关联,以生成样本对象文本对应的初始频繁特征词序列”,可以包括:将样本目标类别特征词、以及样本目标频繁词进行融合,以生成样本对象文本对应的样本融合后特征词序列;对样本融合后特征词序列中的样本目标类别特征词进行特征词表示,得到样对象文本对应的样本特征词序列;根据样本对象文本对应的样本对象类别、以及样本目标频繁词,标记样本特征词序列中与样本目标频繁词相关联的样本关联类别特征词,得到样本对象文本对应的初始频繁特征词序列。
例如,在得到表4中各个样本商户文本对应的频繁词后,根据表9中构建得到的频繁词,以及表4中各个样本商户文本所匹配到的样本目标类别特征词,构建频繁特征词序列,比如,确定各个样本商户文本所包含的长度最长的频繁词为样本目标频繁词,将样本目标类别特征词、以及样本目标频繁词进行融合,以生成样本对象文本对应的样本融合后特征词序列,并对该序列中的类别特征词进行特征词表示,得到样本特征词序列;根据样本对象文本对应的样本对象类别、以及样本目标频繁词,标记出样本特征词序列中与样本目标频繁词相关联的样本关联类别特征词,得到样本对象文本对应的初始频繁特征词序列。例如,采用星号“*”标记出来,从而得到样本商户文本对应的初始频繁特征词序列,如表10所示:
初始频繁特征词序列 | 商户类别 |
特征词1特征词2*(面馆) | 餐饮-餐馆 |
特征词1特征词2特征词3*(面馆) | 餐饮-餐馆 |
特征词1特征词2*特征词3*(餐馆) | 餐饮-餐馆 |
特征词1特征词2*加盟店 | 餐饮-餐馆 |
特征词1特征词2*特征词3*(餐馆) | 餐饮-餐馆 |
特征词1特征词2*加盟店 | 餐饮-餐馆 |
表10
基于样本商户文本对应的初始频繁特征词序列,对其中重复的初始频繁特征词序列进行去重处理,得到最终的频繁特征词序列,如表11所示:
频繁特征词序列 |
特征词1特征词2*(面馆) |
特征词1特征词2特征词3*(面馆) |
特征词1特征词2*加盟店 |
特征词1特征词2*特征词3*(餐馆) |
表11
其中,标有星号“*”的特征词,为与样本目标频繁词相关联的关联类别特征词,该关联类别特征词能够决定样本商户文本中商户所属的商户类别,而样本目标频繁词如“面馆、加盟店、餐馆”为标记关联类别特征词的词。
其中,“特征词2*(面馆)”表示该特征词2为“面馆”,同时该特征词2也是关联类别特征词,若某个商户文本所匹配到的类别特征词符合该序列模式,则“面馆”这个词决定了该商户文本中商户所属的最终类别为“餐饮-餐馆”;“特征词2*加盟店”表示如果出现“加盟店”这个词,则“加盟店”这个词的前面最近一个特征词(即特征词2)可以决定了该商户文本所属的商户类别;“特征词1特征词2*特征词3*(餐馆)”则表示该特征词3为“餐馆”,同时该特征词3也是关联类别特征词,那么“餐馆”这个词和前面最近的一个特征词(即特征词2)决定了该商户文本所属的商户类别,显然,特征词2和特征词3为属于相同商户类别对应的类别特征词。
206、计算机设备当特征词序列匹配到目标频繁特征词序列时,基于特征词序列中匹配特征词所属的候选对象类别,确定对象文本中对象所属的目标对象类别,其中,匹配特征词为与目标频繁特征词序列中关联类别特征词相匹配的特征词。
例如,当特征词序列中的特征词匹配到目标频繁特征词序列中的关联类别特征词时,根据特征词序列中的匹配特征词所属的候选对象类别,确定对象文本中对象所属的目标对象类别。
比如,商户文本对应的特征词序列为:超市、茶油、餐馆,匹配到的目标频繁特征词序列为:特征词1、特征词2、餐馆*(即特征词1、特征词2、特征词3*(餐馆)),则根据特征词序列中与目标频繁特征词序列中带有“*”号的“餐馆”(即特征词3)相匹配的词“餐馆”所属的商户类别,可以确定该商户文本所属的商户类别。
又比如,商户文本对应的特征词序列为:家私城、凉皮、餐馆,匹配到的目标频繁特征词序列为:特征词1、特征词2*、特征词3*(餐馆),则根据特征词2*以及特征词3*,可以确定该文本对应的特征词序列中“凉皮”和“餐馆”为决定该商户文本所属商户类别的匹配特征词,即,根据“凉皮”和“餐馆”所属的商户类别,可以确定该商户文本所属的商户类别。
在一实施例中,当对象文本的分词未匹配到任一候选对象类别对应的类别特征词时,通过计算样本分词与每个候选对象类别对应的类别特征词的相似度,来确定对象文本中对象所属的目标对象类别。具体地,该文本分类方法,还可以包括:
当分词未匹配到任一候选对象类别对应的类别特征词时,计算分词与每个候选对象类别对应的类别特征词的相似度;
基于相似度、频繁特征词序列以及样本对象文本集中样本对象文本对应的频繁词,确定对象文本中对象所属的目标对象类别。
其中,计算分词与每个候选对象类别对应的类别特征词的相似度的方式可以有多种,例如,可以通过词向量模型来计算词之间的相似度,具体地,可以采用Word2vec构建词对应的词向量,并计算词向量之间的相似度来确定词之间的相似度,等等。
在一实施例中,当计算出分词与多个不同候选对象类别对应的目标类别特征词之间的相似度大于预设相似度阈值时,可以通过构建得到的频繁特征词序列确定对象文本中对象所属的对象类别。具体地,步骤“基于相似度,以及频繁特征词序列,确定对象文本所属的目标对象类别”,可以包括:
当分词与不同候选对象类别对应的目标类别特征词的相似度大于预设相似度阈值时,基于样本对象文本集中样本对象文本对应的频繁词,确定对象文本中所包含的目标频繁词;
根据目标类别特征词、以及目标频繁词,生成对象文本对应的特征词序列;
将特征词序列与频繁特征词序列进行匹配,以确定对象文本中对象所属的目标对象类别。
其中,预设相似度阈值可以设置为0.9,该预设相关度阈值可以根据实际应用的需求进行设置,在此不一一赘述。
在一实施例中,当对象文本的分词匹配到的类别特征词属于相同候选对象类别时,可以直接将该相同候选对象类别确定为该对象文本中对象所属的目标对象类别,如表12所示:
商户文本 | 类别特征词 | 一级类目 | 二级类目 |
XX县XX大排档餐馆 | 大排档、餐馆 | 餐饮 | 餐馆 |
XX县XX牛肉面馆 | 牛肉、面馆 | 餐饮 | 餐馆 |
XX县家常菜面馆 | 家常菜、面馆 | 餐饮 | 餐馆 |
XX县XX四味串串火锅店 | 串串、火锅 | 餐饮 | 餐馆 |
表12
由上可知,本申请实施例可以对对象文本进行分词处理,得到对象文本的分词;将分词与类别特征词库中的类别特征词进行匹配,其中,类别特征词库包括至少一个候选对象类别对应的类别特征词;当分词匹配到不同候选对象类别对应的目标类别特征词时,将分词与样本对象文本集中样本对象文本对应的频繁词进行匹配;当分词匹配到目标频繁词时,根据目标类别特征词、以及目标频繁词,生成对象文本对应的特征词序列;将特征词序列与频繁特征词序列进行匹配,其中,频繁特征词序列包括样本对象文本集中样本对象文本对应的频繁词、以及与频繁词相关联的类别特征词;当特征词序列匹配到目标频繁特征词序列时,基于特征词序列中匹配特征词所属的候选对象类别,确定对象文本中对象所属的目标对象类别,其中,匹配特征词为与目标频繁特征词序列中关联类别特征词相匹配的特征词。由于该方案能够通过将对象文本的分词与构建的类别特征词库中的类别特征词进行匹配、以及将分词与样本对象文本集中样本对象文本对应的频繁词进行匹配,并且当分词匹配到不同候选对象类别对应的目标类别特征词、以及匹配到目标频繁词时,根据目标类别特征词、以及目标频繁词,生成对象文本对应的特征词序列,通过将特征词序列与构建的频繁特征词序列进行匹配,当匹配到目标频繁特征词序列时,根据特征词序列中匹配特征词(与目标频繁特征词序列中关联类别特征词相匹配的特征词)所属的候选对象类别,确定对象文本中对象所属的目标对象类别,从而大大提高了文本分类的准确度。
为便于更好地实施以上方法,本申请实施例还提供了一种文本分类装置。
例如,如图3a所示,该文本分类装置可以包括分词单元301、特征词匹配单元302、频繁词匹配单元303、生成单元304、序列匹配单元305、以及确定单元306等,如下:
分词单元301,用于对对象文本进行分词处理,得到所述对象文本的分词;
特征词匹配单元302,用于将所述分词与类别特征词库中的类别特征词进行匹配,其中,所述类别特征词库包括至少一个候选对象类别对应的类别特征词;
频繁词匹配单元303,用于当所述分词匹配到不同候选对象类别对应的目标类别特征词时,将所述分词与样本对象文本集中样本对象文本对应的频繁词进行匹配;
生成单元304,用于当所述分词匹配到目标频繁词时,根据所述目标类别特征词、以及所述目标频繁词,生成所述对象文本对应的特征词序列;
序列匹配单元305,用于将所述特征词序列与频繁特征词序列进行匹配,其中,所述频繁特征词序列包括样本对象文本集中样本对象文本对应的频繁词、以及与频繁词相关联的类别特征词;
确定单元306,用于当特征词序列匹配到目标频繁特征词序列时,基于特征词序列中匹配特征词所属的候选对象类别,确定对象文本中对象所属的目标对象类别,其中,匹配特征词为与目标频繁特征词序列中关联类别特征词相匹配的特征词。
在一些实施例中,参见图3b,所述文本分类装置还包括:
词库构建单元307,用于基于样本对象文本集中样本对象文本的样本分词,构建样本对象文本集对应的类别特征词库,所述类别特征词库包括至少一个样本对象类别对应的类别特征词;
样本匹配单元308,用于将样本对象文本集中样本对象文本的样本分词与类别特征词库中的类别特征词进行匹配;
频繁词构建单元309,用于当样本对象文本的样本分词匹配到不同样本对象类别对应的样本目标类别特征词时,构建样本对象文本对应的频繁词;
序列构建单元310,用于基于所述样本目标类别特征词、以及样本对象文本对应的频繁词,构建频繁特征词序列。
在一些实施例中,参见图3c,所述词库构建单元307,包括:
获取子单元3071,用于获取样本对象文本集中样本对象文本对应的样本对象类别;
计算子单元3072,用于针对每个样本对象类别,计算样本对象文本中样本分词对应的词频、以及逆文本频率,其中,所述词频为所述样本分词在所述样本对象类别对应的样本对象文本中出现的频率,所述逆文本频率为所述样本分词在所有样本对象类别中出现的频率;
确定子单元3073,用于基于所述样本分词对应的词频、以及逆文本频率,确定所述样本分词中目标样本分词所属的样本对象类别,得到每个样本对象类别对应的类别特征词;
构建子单元3074,用于根据每个样本对象类别对应的类别特征词,构建样本对象文本集对应的类别特征词库。
在一些实施例中,所述确定子单元3073,用于:
将所述样本分词对应的词频、以及逆文档频率进行融合,得到所述样本分词对应的融合后频率;
根据所述融合后频率,确定所述样本分词中目标样本分词所属的样本对象类别,得到每个样本对象类别对应的类别特征词。
在一些实施例中,所述频繁词构建单元309,具体用于:
针对每个样本分词,统计所述样本分词在样本对象文本中出现的样本对象文本数;
根据所述样本对象文本数,从所述样本分词中确定样本对象文本对应的初始频繁词;
基于初始频繁词,以及初始频繁词在样本对象文本中对应的后缀词,构建样本对象文本对应的频繁词。
在一些实施例中,所述序列构建单元310,用于:
从样本对象文本对应的频繁词中,确定样本对象文本所包含的样本目标频繁词;
将所述样本目标类别特征词、以及所述样本目标频繁词相关联,以生成样本对象文本对应的初始频繁特征词序列;
对所述初始频繁特征词序列进行去重处理,得到频繁特征词序列。
在一些实施例中,所述序列构建单元310,具体用于:
将所述样本目标类别特征词、以及所述样本目标频繁词进行融合,得到样本对象文本对应的样本融合后特征词序列;
对所述样本融合后特征词序列中的样本目标类别特征词进行特征词表示,得到样对象文本对应的样本特征词序列;
根据样本对象文本对应的样本对象类别、以及所述样本目标频繁词,标记所述样本特征词序列中与样本目标频繁词相关联的样本关联类别特征词,得到样本对象文本对应的初始频繁特征词序列。
在一些实施例中,参见图3d,所述文本分类装置还包括类别确定单元311,所述类别确定单元311包括:
相似度计算子单元3111,用于当所述分词未匹配到任一候选对象类别对应的类别特征词时,计算所述分词与每个候选对象类别对应的类别特征词的相似度;
类别确定子单元3112,用于基于所述相似度、频繁特征词序列以及样本对象文本集中样本对象文本对应的频繁词,确定所述对象文本中对象所属的目标对象类别。
在一些实施例中,所述类别确定子单元3112,用于:
当所述分词与不同候选对象类别对应的目标类别特征词的相似度大于预设相似度阈值时,基于样本对象文本集中样本对象文本对应的频繁词,确定所述对象文本中所包含的目标频繁词;
根据所述目标类别特征词、以及所述目标频繁词,生成所述对象文本对应的特征词序列;
将所述特征词序列与频繁特征词序列进行匹配,以确定所述对象文本中对象所属的目标对象类别。
具体实施时,以上各个单元可以作为独立的实体来实现,也可以进行任意组合,作为同一或若干个实体来实现,以上各个单元的具体实施可参见前面的方法实施例,在此不再赘述。
由上可知,本申请实施例的文本分类装置可以通过分词单元301对对象文本进行分词处理,得到对象文本的分词;由特征词匹配单元302将分词与类别特征词库中的类别特征词进行匹配,其中,类别特征词库包括至少一个候选对象类别对应的类别特征词;由频繁词匹配单元303当所述分词匹配到不同候选对象类别对应的目标类别特征词时,将分词与样本对象文本集中样本对象文本对应的频繁词进行匹配;由生成单元304当分词匹配到目标频繁词时,根据目标类别特征词、以及所述目标频繁词,生成对象文本对应的特征词序列;由序列匹配单元305将特征词序列与频繁特征词序列进行匹配,其中,频繁特征词序列包括样本对象文本集中样本对象文本对应的频繁词、以及与频繁词相关联的类别特征词;由确定单元306当特征词序列匹配到目标频繁特征词序列时,基于特征词序列中匹配特征词所属的候选对象类别,确定对象文本中对象所属的目标对象类别,其中,匹配特征词为与目标频繁特征词序列中关联类别特征词相匹配的特征词。由于该方案能够通过将对象文本的分词与构建的类别特征词库中的类别特征词进行匹配、以及将分词与样本对象文本集中样本对象文本对应的频繁词进行匹配,并且当分词匹配到不同候选对象类别对应的目标类别特征词、以及匹配到目标频繁词时,根据目标类别特征词、以及目标频繁词,生成对象文本对应的特征词序列,通过将特征词序列与构建的频繁特征词序列进行匹配,当匹配到目标频繁特征词序列时,根据特征词序列中匹配特征词(与目标频繁特征词序列中关联类别特征词相匹配的特征词)所属的候选对象类别,确定对象文本中对象所属的目标对象类别,从而大大提高了文本分类的准确度。
本申请实施例还提供一种计算机设备,如图4所示,其示出了本申请实施例所涉及的计算机设备的结构示意图,具体来讲:
该计算机设备可以包括一个或者一个以上处理核心的处理器401、一个或一个以上计算机可读存储介质的存储器402、电源403和输入单元404等部件。本领域技术人员可以理解,图4中示出的计算机设备结构并不构成对计算机设备的限定,可以包括比图示更多或更少的部件,或者组合某些部件,或者不同的部件布置。其中:
处理器401是该计算机设备的控制中心,利用各种接口和线路连接整个计算机设备的各个部分,通过运行或执行存储在存储器402内的软件程序和/或模块,以及调用存储在存储器402内的数据,执行计算机设备的各种功能和处理数据,从而对计算机设备进行整体监控。可选的,处理器401可包括一个或多个处理核心;优选的,处理器401可集成应用处理器和调制解调处理器,其中,应用处理器主要处理操作系统、用户界面和应用程序等,调制解调处理器主要处理无线通信。可以理解的是,上述调制解调处理器也可以不集成到处理器401中。
存储器402可用于存储软件程序以及模块,处理器401通过运行存储在存储器402的软件程序以及模块,从而执行各种功能应用以及数据处理。存储器402可主要包括存储程序区和存储数据区,其中,存储程序区可存储操作系统、至少一个功能所需的应用程序(比如声音播放功能、影像播放功能等)等;存储数据区可存储根据计算机设备的使用所创建的数据等。此外,存储器402可以包括高速随机存取存储器,还可以包括非易失性存储器,例如至少一个磁盘存储器件、闪存器件、或其他易失性固态存储器件。相应地,存储器402还可以包括存储器控制器,以提供处理器401对存储器402的访问。
计算机设备还包括给各个部件供电的电源403,优选的,电源403可以通过电源管理系统与处理器401逻辑相连,从而通过电源管理系统实现管理充电、放电、以及功耗管理等功能。电源403还可以包括一个或一个以上的直流或交流电源、再充电系统、电源故障检测电路、电源转换器或者逆变器、电源状态指示器等任意组件。
该计算机设备还可包括输入单元404,该输入单元404可用于接收输入的数字或字符信息,以及产生与用户设置以及功能控制有关的键盘、鼠标、操作杆、光学或者轨迹球信号输入。
尽管未示出,计算机设备还可以包括显示单元等,在此不再赘述。具体在本实施例中,计算机设备中的处理器401会按照如下的指令,将一个或一个以上的应用程序的进程对应的可执行文件加载到存储器402中,并由处理器401来运行存储在存储器402中的应用程序,从而实现各种功能,如下:
对对象文本进行分词处理,得到对象文本的分词;将分词与类别特征词库中的类别特征词进行匹配,其中,类别特征词库包括至少一个候选对象类别对应的类别特征词;当分词匹配到不同候选对象类别对应的目标类别特征词时,将分词与样本对象文本集中样本对象文本对应的频繁词进行匹配;当分词匹配到目标频繁词时,根据目标类别特征词、以及目标频繁词,生成对象文本对应的特征词序列;将特征词序列与频繁特征词序列进行匹配,其中,频繁特征词序列包括样本对象文本集中样本对象文本对应的频繁词、以及与频繁词相关联的类别特征词;当特征词序列匹配到目标频繁特征词序列时,基于特征词序列中匹配特征词所属的候选对象类别,确定对象文本中对象所属的目标对象类别,其中,匹配特征词为与目标频繁特征词序列中关联类别特征词相匹配的特征词。
以上各个操作具体可参见前面的实施例,在此不作赘述。
由上可知,本申请实施例的计算机设备可以对对象文本进行分词处理,得到对象文本的分词;将分词与类别特征词库中的类别特征词进行匹配,其中,类别特征词库包括至少一个候选对象类别对应的类别特征词;当分词匹配到不同候选对象类别对应的目标类别特征词时,将分词与样本对象文本集中样本对象文本对应的频繁词进行匹配;当分词匹配到目标频繁词时,根据目标类别特征词、以及目标频繁词,生成对象文本对应的特征词序列;将特征词序列与频繁特征词序列进行匹配,其中,频繁特征词序列包括样本对象文本集中样本对象文本对应的频繁词、以及与频繁词相关联的类别特征词;当特征词序列匹配到目标频繁特征词序列时,基于特征词序列中匹配特征词所属的候选对象类别,确定对象文本中对象所属的目标对象类别,其中,匹配特征词为与目标频繁特征词序列中关联类别特征词相匹配的特征词。由于该方案能够通过将对象文本的分词与构建的类别特征词库中的类别特征词进行匹配、以及将分词与样本对象文本集中样本对象文本对应的频繁词进行匹配,并且当分词匹配到不同候选对象类别对应的目标类别特征词、以及匹配到目标频繁词时,根据目标类别特征词、以及目标频繁词,生成对象文本对应的特征词序列,通过将特征词序列与构建的频繁特征词序列进行匹配,当匹配到目标频繁特征词序列时,根据特征词序列中匹配特征词(与目标频繁特征词序列中关联类别特征词相匹配的特征词)所属的候选对象类别,确定对象文本中对象所属的目标对象类别,从而大大提高了文本分类的准确度。
本领域普通技术人员可以理解,上述实施例的各种方法中的全部或部分步骤可以通过指令来完成,或通过指令控制相关的硬件来完成,该指令可以存储于一计算机可读存储介质中,并由处理器进行加载和执行。
为此,本申请实施例提供一种计算机可读存储介质,其中存储有计算机程序,该计算机程序能够被处理器进行加载,以执行本申请实施例所提供的任一种文本分类方法中的步骤。例如,该计算机程序可以执行如下步骤:
对对象文本进行分词处理,得到对象文本的分词;将分词与类别特征词库中的类别特征词进行匹配,其中,类别特征词库包括至少一个候选对象类别对应的类别特征词;当分词匹配到不同候选对象类别对应的目标类别特征词时,将分词与样本对象文本集中样本对象文本对应的频繁词进行匹配;当分词匹配到目标频繁词时,根据目标类别特征词、以及目标频繁词,生成对象文本对应的特征词序列;将特征词序列与频繁特征词序列进行匹配,其中,频繁特征词序列包括样本对象文本集中样本对象文本对应的频繁词、以及与频繁词相关联的类别特征词;当特征词序列匹配到目标频繁特征词序列时,基于特征词序列中匹配特征词所属的候选对象类别,确定对象文本中对象所属的目标对象类别,其中,匹配特征词为与目标频繁特征词序列中关联类别特征词相匹配的特征词。
以上各个操作的具体实施可参见前面的实施例,在此不再赘述。
其中,该计算机可读存储介质可以包括:只读存储器(ROM,Read Only Memory)、随机存取记忆体(RAM,Random Access Memory)、磁盘或光盘等。
由于该计算机可读存储介质中所存储的指令,可以执行本申请实施例所提供的任一种文本分类方法中的步骤,因此,可以实现本申请实施例所提供的任一种文本分类方法所能实现的有益效果,详见前面的实施例,在此不再赘述。
以上对本申请实施例所提供的一种文本分类方法、装置、计算机设备和计算机可读存储介质进行了详细介绍,本文中应用了具体个例对本发明的原理及实施方式进行了阐述,以上实施例的说明只是用于帮助理解本发明的方法及其核心思想;同时,对于本领域的技术人员,依据本发明的思想,在具体实施方式及应用范围上均会有改变之处,综上所述,本说明书内容不应理解为对本发明的限制。
Claims (10)
1.一种文本分类方法,其特征在于,包括:
对对象文本进行分词处理,得到所述对象文本的分词;
将所述分词与类别特征词库中的类别特征词进行匹配,其中,所述类别特征词库包括至少一个候选对象类别对应的类别特征词;
当所述分词匹配到不同候选对象类别对应的目标类别特征词时,将所述分词与样本对象文本集中样本对象文本对应的频繁词进行匹配;
当所述分词匹配到目标频繁词时,根据所述目标类别特征词、以及所述目标频繁词,生成所述对象文本对应的特征词序列;
将所述特征词序列与频繁特征词序列进行匹配,其中,所述频繁特征词序列包括样本对象文本集中样本对象文本对应的频繁词、以及与频繁词相关联的类别特征词;
当所述特征词序列匹配到目标频繁特征词序列时,基于所述特征词序列中匹配特征词所属的候选对象类别,确定所述对象文本中对象所属的目标对象类别,其中,所述匹配特征词为与目标频繁特征词序列中关联类别特征词相匹配的特征词。
2.根据权利要求1所述的方法,其特征在于,所述方法还包括:
基于样本对象文本集中样本对象文本的样本分词,构建样本对象文本集对应的类别特征词库,所述类别特征词库包括至少一个样本对象类别对应的类别特征词;
将样本对象文本集中样本对象文本的样本分词与类别特征词库中的类别特征词进行匹配;
当样本对象文本的样本分词匹配到不同样本对象类别对应的样本目标类别特征词时,构建样本对象文本对应的频繁词;
基于所述样本目标类别特征词、以及样本对象文本对应的频繁词,构建频繁特征词序列。
3.根据权利要求2所述的方法,其特征在于,所述基于样本对象文本集中样本对象文本的样本分词,构建样本对象文本集对应的类别特征词库,包括:
获取样本对象文本集中样本对象文本对应的样本对象类别;
针对每个样本对象类别,计算样本对象文本中样本分词对应的词频、以及逆文本频率,其中,所述词频为所述样本分词在所述样本对象类别对应的样本对象文本中出现的频率,所述逆文本频率为所述样本分词在所有样本对象类别中出现的频率;
基于所述样本分词对应的词频、以及逆文本频率,确定所述样本分词中目标样本分词所属的样本对象类别,得到每个样本对象类别对应的类别特征词;
根据每个样本对象类别对应的类别特征词,构建样本对象文本集对应的类别特征词库。
4.根据权利要求3所述的方法,其特征在于,所述基于所述样本分词对应的词频、以及逆文本频率,确定所述样本分词中目标样本分词所属的样本对象类别,得到每个样本对象类别对应的类别特征词,包括:
将所述样本分词对应的词频、以及逆文档频率进行融合,得到所述样本分词对应的融合后频率;
根据所述融合后频率,确定所述样本分词中目标样本分词所属的样本对象类别,得到每个样本对象类别对应的类别特征词。
5.根据权利要求2所述的方法,其特征在于,所述构建样本对象文本对应的频繁词,包括:
针对每个样本分词,统计所述样本分词在样本对象文本中出现的样本对象文本数;
根据所述样本对象文本数,从所述样本分词中确定样本对象文本对应的初始频繁词;
基于初始频繁词,以及初始频繁词在样本对象文本中对应的后缀词,构建样本对象文本对应的频繁词。
6.根据权利要求2所述的方法,其特征在于,所述基于所述样本目标类别特征词、以及样本对象文本对应的频繁词,构建频繁特征词序列,包括:
从样本对象文本对应的频繁词中,确定样本对象文本所包含的样本目标频繁词;
将所述样本目标类别特征词、以及所述样本目标频繁词相关联,以生成样本对象文本对应的初始频繁特征词序列;
对所述初始频繁特征词序列进行去重处理,得到频繁特征词序列。
7.根据权利要求6所述的方法,其特征在于,所述将所述样本目标类别特征词、以及所述样本目标频繁词相关联,以生成样本对象文本对应的初始频繁特征词序列,包括:
将所述样本目标类别特征词、以及所述样本目标频繁词进行融合,以生成样本对象文本对应的样本融合后特征词序列;
对所述样本融合后特征词序列中的样本目标类别特征词进行特征词表示,得到样对象文本对应的样本特征词序列;
根据样本对象文本对应的样本对象类别、以及所述样本目标频繁词,标记所述样本特征词序列中与样本目标频繁词相关联的样本关联类别特征词,得到样本对象文本对应的初始频繁特征词序列。
8.根据权利要求1所述的方法,其特征在于,所述方法还包括:
当所述分词未匹配到任一候选对象类别对应的类别特征词时,计算所述分词与每个候选对象类别对应的类别特征词的相似度;
基于所述相似度、频繁特征词序列以及样本对象文本集中样本对象文本对应的频繁词,确定所述对象文本中对象所属的目标对象类别。
9.根据权利要求8所述的方法,其特征在于,所述基于所述相似度、频繁特征词序列以及样本对象文本集中样本对象文本对应的频繁词,确定所述对象文本所属的目标对象类别,包括:
当所述分词与不同候选对象类别对应的目标类别特征词的相似度大于预设相似度阈值时,基于样本对象文本集中样本对象文本对应的频繁词,确定所述对象文本中所包含的目标频繁词;
根据所述目标类别特征词、以及所述目标频繁词,生成所述对象文本对应的特征词序列;
将所述特征词序列与频繁特征词序列进行匹配,以确定所述对象文本中对象所属的目标对象类别。
10.一种文本分类装置,其特征在于,包括:
分词单元,用于对对象文本进行分词处理,得到所述对象文本的分词;
特征词匹配单元,用于将所述分词与类别特征词库中的类别特征词进行匹配,其中,所述类别特征词库包括至少一个候选对象类别对应的类别特征词;
频繁词匹配单元,用于当所述分词匹配到不同候选对象类别对应的目标类别特征词时,将所述分词与样本对象文本集中样本对象文本对应的频繁词进行匹配;
生成单元,用于当所述分词匹配到目标频繁词时,根据所述目标类别特征词、以及所述目标频繁词,生成所述对象文本对应的特征词序列;
序列匹配单元,用于将所述特征词序列与频繁特征词序列进行匹配,其中,所述频繁特征词序列包括样本对象文本集中样本对象文本对应的频繁词、以及与频繁词相关联的类别特征词;
确定单元,用于当所述特征词序列匹配到目标频繁特征词序列时,基于所述特征词序列中匹配特征词所属的候选对象类别,确定所述对象文本中对象所属的目标对象类别,其中,所述匹配特征词为与目标频繁特征词序列中关联类别特征词相匹配的特征词。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202010547485.1A CN113886569B (zh) | 2020-06-16 | 2020-06-16 | 一种文本分类方法和装置 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202010547485.1A CN113886569B (zh) | 2020-06-16 | 2020-06-16 | 一种文本分类方法和装置 |
Publications (2)
Publication Number | Publication Date |
---|---|
CN113886569A CN113886569A (zh) | 2022-01-04 |
CN113886569B true CN113886569B (zh) | 2023-07-25 |
Family
ID=79011798
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN202010547485.1A Active CN113886569B (zh) | 2020-06-16 | 2020-06-16 | 一种文本分类方法和装置 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN113886569B (zh) |
Citations (6)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
TW201135478A (en) * | 2010-04-01 | 2011-10-16 | Inst Information Industry | Methods and systems for automatically constructing domain phrases, and computer program products thereof |
CN102346766A (zh) * | 2011-09-20 | 2012-02-08 | 北京邮电大学 | 基于极大团发现的网络热点话题检测方法及装置 |
CN103136266A (zh) * | 2011-12-01 | 2013-06-05 | 中兴通讯股份有限公司 | 邮件分类的方法及装置 |
CN109284384A (zh) * | 2018-10-10 | 2019-01-29 | 拉扎斯网络科技(上海)有限公司 | 文本分析方法、装置、电子设备及可读存储介质 |
CN110096695A (zh) * | 2018-01-30 | 2019-08-06 | 腾讯科技(深圳)有限公司 | 超链接标记方法和装置、文本分类方法和装置 |
CN111143569A (zh) * | 2019-12-31 | 2020-05-12 | 腾讯科技(深圳)有限公司 | 一种数据处理方法、装置及计算机可读存储介质 |
Family Cites Families (1)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
NO316480B1 (no) * | 2001-11-15 | 2004-01-26 | Forinnova As | Fremgangsmåte og system for tekstuell granskning og oppdagelse |
-
2020
- 2020-06-16 CN CN202010547485.1A patent/CN113886569B/zh active Active
Patent Citations (6)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
TW201135478A (en) * | 2010-04-01 | 2011-10-16 | Inst Information Industry | Methods and systems for automatically constructing domain phrases, and computer program products thereof |
CN102346766A (zh) * | 2011-09-20 | 2012-02-08 | 北京邮电大学 | 基于极大团发现的网络热点话题检测方法及装置 |
CN103136266A (zh) * | 2011-12-01 | 2013-06-05 | 中兴通讯股份有限公司 | 邮件分类的方法及装置 |
CN110096695A (zh) * | 2018-01-30 | 2019-08-06 | 腾讯科技(深圳)有限公司 | 超链接标记方法和装置、文本分类方法和装置 |
CN109284384A (zh) * | 2018-10-10 | 2019-01-29 | 拉扎斯网络科技(上海)有限公司 | 文本分析方法、装置、电子设备及可读存储介质 |
CN111143569A (zh) * | 2019-12-31 | 2020-05-12 | 腾讯科技(深圳)有限公司 | 一种数据处理方法、装置及计算机可读存储介质 |
Non-Patent Citations (3)
Title |
---|
Web genre classification with methods for structured output prediction;Gjorgji Madjarov et al.;《Information Sciences》;551-573 * |
基于分词频的特征选择算法在文本分类中的研究;刘艺彬;《中国优秀硕士学位论文全文数据库 信息科技辑》;I138-2094 * |
面向中文网络评论情感分类的集成学习框架;黄佳锋 等;《中文信息学报》;113-122 * |
Also Published As
Publication number | Publication date |
---|---|
CN113886569A (zh) | 2022-01-04 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
CN111400507B (zh) | 实体匹配方法及其装置 | |
CN111460221B (zh) | 评论信息处理方法、装置及电子设备 | |
CN106294425B (zh) | 商品相关网络文章之自动图文摘要方法及系统 | |
CN111259281B (zh) | 商户标签的确定方法、装置及存储介质 | |
TW201501059A (zh) | 訊息推薦方法及裝置 | |
CN108280124B (zh) | 产品分类方法及装置,排行榜生成方法及装置,电子设备 | |
CN108648058B (zh) | 产品排序方法及装置,电子设备、存储介质 | |
JP2019507425A (ja) | サービス処理方法と、データ処理方法及び装置 | |
CN110750697B (zh) | 商户分类方法、装置、设备及存储介质 | |
CN107391582A (zh) | 基于上下文本体树计算用户偏好相似度的信息推荐方法 | |
CN110197404A (zh) | 可降低流行度偏差的个性化长尾商品推荐方法和系统 | |
CN110807095A (zh) | 一种物品匹配方法和装置 | |
CN110135646A (zh) | 一种餐厅预估快速上菜的方法、装置及存储介质 | |
US10606832B2 (en) | Search system, search method, and program | |
Vartak et al. | CHIC: a combination-based recommendation system | |
CN113886569B (zh) | 一种文本分类方法和装置 | |
CN116521937A (zh) | 视频表单的生成方法、装置、设备及存储介质、程序产品 | |
Zhang et al. | Ideagraph plus: A topic-based algorithm for perceiving unnoticed events | |
CN111753195A (zh) | 标签体系构建方法、装置、设备以及存储介质 | |
CN101185073A (zh) | 信息处理装置和方法,以及程序存储介质 | |
CN110727863A (zh) | 一种基于复杂网络协同过滤的项目推荐方法 | |
CN112559755B (zh) | 一种构建品类关联图谱的方法和装置 | |
CN116976961A (zh) | 选址方法、装置、电子设备及存储介质 | |
CN111178974B (zh) | 一种提高多平台融合性的方法和装置 | |
CN114581190A (zh) | 商品推荐方法、装置、设备和存储介质 |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination | ||
GR01 | Patent grant | ||
GR01 | Patent grant |