CN107657284A

CN107657284A - 一种基于语义相似性扩展的商品名称分类方法及系统

Info

Publication number: CN107657284A
Application number: CN201710943802.XA
Authority: CN
Inventors: 庞胜民; 王涛; 王芳; 李纪超; 高哲; 张�浩
Original assignee: NINGBO AISINO Co Ltd
Current assignee: Ningbo Aisino Co., Ltd.; Aisino Corp
Priority date: 2017-10-11
Filing date: 2017-10-11
Publication date: 2018-02-02

Abstract

本发明公开了一种基于语义相似性扩展的商品名称分类方法及系统。本发明对已有类别的商品的历史发票数据集进行离线算法计算得到每类商品的朴素贝叶斯模型和词向量。分情况分析商户输入的商品品名词向量是否存在在已有类别的商品的朴素贝叶斯模型内，若朴素贝叶斯模型没有该商品名分词后的单元词，则将该商品名与已有商品类别关键词进行词向量相似度计算，求出商户输入的商品名属于已有商品类别的概率，其最大值所对应的类别即为商品所属类别。实验结果表明,基于语义扩展的商品类别关键词相似度计算准确率较高,而且计算结果符合常识判断。

Description

一种基于语义相似性扩展的商品名称分类方法及系统

技术领域

本发明涉及电子商务平台技术领域，尤其涉及一种基于语义相似性扩展的商品名称分类方法及系统。

背景技术

随着互联网时代的发展和国家“互联网+”战略的提出，税务系统也在“以票控税”的基础上，提出了“信息管税”、“互联网+税务”等战略思路，来促进我国税收征管水平的升级，避免商家通过不开发票、错开发票、虚开发票的来逃税避税的现象，因此如何规范开具发票减少税务风险成为亟需解决的问题。

其中，确保商户开具的商品品名真实可信是规范开票的有效途径之一，即同类商品在开票过程中需要保持开票一致性。以往开票时，商户自主输入商品名称，无法确定此商品品名是否与历史记录保持一致，利用商品分类则可以解决这一问题。通过传统的模糊匹配或精确匹配可以解决部分商品品名的分类问题。对于在历史记录中未出现的商品品名，由于商品名称自身的短文本特性，若采用传统的分类模型，则会造成大量的信息缺失，因此本专利提出通过语义扩展技术对不存在的商品品名关键词进行扩展，弥补已有商品品类关键词不足的缺陷，完善商户选择商品类别列表，达到避免商户不规范选择商品品类的现象，进一步规范开具正确而有效的发票。

语义扩展指语义在原有的基础上进行了延伸，其最直接也是最明显的一个结果就是使原有词汇使用的范围更广或者使表达的内容更加深刻。语义扩展技术主要应用于文本分类、信息检索、搜索引擎等领域。它是以关键词匹配为技术基础，由于商户对相关领域了解较少以及大量同义词和多义词的存在，商户对查询请求的表达形式多种多样。

随着计算机应用领域的不断扩大，Google公司在对统计语言模型不断研究的背景下2013年开发了Word2vec这款可以用于训练词向量的软件工具，Word2vec可以根据给定的语料库，通过优化后的训练模型快速有效地将一个关键词表达成向量形式。Word2vec模型利用词的上下文信息将一个词转化成一个低维实数向量，越相似的词在向量空间中越相近。将词向量应用于自然语言处理非常成功，已经被广泛应用于中文分词、POSTagging、情感分类、句法依存分析等。词的向量化就是将语言中的词进行数学化，也即把一个词表示成一个向量。Word2vec模型有两种，分别是CBOW模型以及Skip-gram模型。由于词向量捕获了自然语言中词语之间的语义特征，通过保存到文件中，词向量可以供其他相关应用研究使用。Word2vec的出现为快速获取自然语言语义特征提供了可能。

发明内容

为解决以上发票开具中存在的问题，本发明提出了一种基于语义相关性扩展的商品名称分类方法。对已有类别的商品的历史发票数据集进行离线算法计算得到每类商品的朴素贝叶斯模型和词向量。分情况分析商户输入的商品品名的词向量是否存在于已有类别的商品的朴素贝叶斯模型内，若朴素贝叶斯模型没有该商品名分词后的单元词，则将该商品名与已有商品类别关键词进行词向量相似度计算，求出商户输入的商品名属于已有商品类别的概率，其最大值所对应的类别即为商品所属类别。实验结果表明,基于语义扩展的商品类别关键词相似度计算准确率较高,而且计算结果符合常识判断。

具体的，一种基于语义相似性扩展的商品名称分类方法，包括：

步骤一、对已有类别的商品的历史发票数据集进行离线算法计算，得到每类商品的朴素贝叶斯模型和词向量；

步骤二、分析商户输入的商品品名的词向量是否存在于已有类别的商品的朴素贝叶斯模型内，如果是则进入步骤三，如果否则进入步骤四；

步骤三、根据对已有类别的历史发票数据中的商品名进行分词后得到的若干单元词集合中对应的单元词概率直接得到各个类别；

步骤四、将该商品名与已有商品类别关键词进行词向量相似度计算，求出商户输入的商品名属于已有商品类别的概率，其最大值所对应的类别即为商品所属类别。

根据本发明的另一个方面，还提供了一种基于语义相似性扩展的商品名称分类系统，包括如下模块：

离线计算模块，用于对已有类别的商品的历史发票数据集进行离线算法计算，得到每类商品的朴素贝叶斯模型和词向量；

词向量分析模块，用于分析商户输入的商品品名的词向量是否存在于已有类别的商品的朴素贝叶斯模型内，如果是则发送消息给第一类别获取模块，如果否则发送消息给第二类别获取模块；

第一类别获取模块，用于根据对已有类别的历史发票数据中的商品名进行分词后得到的若干单元词集合中对应的单元词概率直接得到各个类别；

第二类别获取模块，用于将该商品名与已有商品类别关键词进行词向量相似度计算，求出商户输入的商品名属于已有商品类别的概率，其最大值所对应的类别即为商品所属类别。

本发明的有益效果如下：针对当前商户开具发票时商品类别关键词不足的现象，本发明结合离线和在线两种计算模式，先对已有历史发票数据中的商品名分词，得到贝叶斯模型，Word2vec模型所生成的词向量化能有效的表示商品类别的特征，在维基百科语料库的实验表明，基于语义扩展的商品类别关键词的扩展方法有效。这类基于语义相似性的商品分类方法更加准确的为商户提供有用信息的同时,还降低了商户的工作量,节约商户开票的时间。因此基于语义扩展的商品类别关键词扩展方法的研究对促进发票开票行业的发展,推进互联网技术有着重要的意义。本发明提供给商家商品品类的选择列表，进一步提高商家在开具发票时商品品类选择的正确性和有效性，从而增加发票的合法性和有效性。发票的规范开具，充分实现其使用价值，是反映经济业务活动的重要环节，直接关系到能否达到发票管理的预期目的。

附图说明

通过阅读下文优选实施方式的详细描述，各种其他的优点和益处对于本领域普通技术人员将变得清楚明了。附图仅用于示出优选实施方式的目的，而并不认为是对本发明的限制。而且在整个附图中，用相同的参考符号表示相同的部件。在附图中：

附图1示出了根据本发明实施方式的基于语义相似性扩展的商品名称分类方法流程图。

附图2示出了根据本发明实施方式的基于语义相似性扩展的商品名称分类系统结构图。

具体实施方式

下面将参照附图更详细地描述本公开的示例性实施方式。虽然附图中显示了本公开的示例性实施方式，然而应当理解，可以以各种形式实现本公开而不应被这里阐述的实施方式所限制。相反，提供这些实施方式是为了能够更透彻地理解本公开，并且能够将本公开的范围完整的传达给本领域的技术人员。

如图1所示，本发明的基于语义相似性扩展的商品名称分类方法包括如下步骤：

S1、对已有类别的商品的历史发票数据集进行离线算法计算，得到每类商品的朴素贝叶斯模型和词向量；

S2、分析商户输入的商品品名的词向量是否存在于已有类别的商品的朴素贝叶斯模型内，如果是则进入步骤S3，如果否则进入步骤S4；

S3、根据对已有类别的历史发票数据中的商品名进行分词后得到的若干单元词集合中对应的单元词概率直接得到各个类别；

S4、将该商品名与已有商品类别关键词进行词向量相似度计算，求出商户输入的商品名属于已有商品类别的概率，其最大值所对应的类别即为商品所属类别。

根据本发明的一个具体实施方式，本发明的实现过程如下：

首先，给定已有类别的商品的历史发票数据集C(设有n个商品类别，用c₁,c₂,...,c_n表示)，得到每类商品的朴素贝叶斯模型和词向量。离线算法如下：

1、对已有类别的历史发票数据中的商品名进行分词，得到若干单元词，将这些单元词的集合记为X，统计各单元词x∈X在各已有类别中出现的概率p(x|c)＝p(x,c)/p(c)，其中x为单元词，c为任一类别，且对于任意类别c，有∑_xp(x|c)＝1，p(x,c)为词x和类别c出现的联合概率分布，p(c)为类别c在数据中出现的概率，此处的p(c)和下面三行出现的p(c)意义相同。

2、对于任意给定的商品类别，统计其出现的概率，即

p(c)＝每类商品出现的次数/所有商品出现的次数，

3、利用维基百科语料，利用Word2vec模型通过训练将每个单元词映射成l维实数向量(l一般为模型中的超参数)，计算得到语料中所有词(包括X中所有单元词)的词向量。例如X中的任一单元词x_i,向量化为x_i＝(x_1i,x_2i,...,x_li,)^T。

其次，商户输入商品品名，输出其最可能的类别。在线算法步骤如下：

1、对给定的商品品名A进行分词，得到若干单元词，不妨设单元词个数为m，则A所产生的单元词表示为a₁,a₂,...,a_m。

2、对A中每一个的单元词a_i,利用Word2vec模型通过训练将每单元词映射成l维实数向量(l一般为模型中的超参数)a_i＝(a_1i,a_2i,...,a_li,)^T,并对其做如下分析：

2.1、若已有类别商品的朴素贝叶斯模型中含有该单元词，根据X中对应单元词概率p(x|c)中令x＝a_i直接得到各个c类对应的p(a_i|c),

2.2、若已有类别商品的朴素贝叶斯模型中没有该单元词，计算p(a_i|c)的加权平均估计，步骤如下：

首先计算a_i与X中所有其他单元词的词向量相似度，

设a_i＝(a_1i,a_2i,...,a_li,)^T x_j＝(x_1j,x_2j,...,x_lj,)^T,

则a_i与x_j之间的相似度用余弦系数表示如下：

然后计算各个c类对应的加权平均估计：

p(a_i|c)＝∑_xp(x|c)s(a_i,x)。其中s(a,x)是词向量a_i和x归一化后的相似度，即∑_xs(x|c)＝1。

计算概率

将该乘积的值按从大到小排列，最相关的类别c排列在前，类别c为A的最可能类别，即arg max_cp(c|A),

如图2所示，根据本发明的另一个方面，还提供了一种基于语义相似性扩展的商品名称分类系统100，包括如下模块：

离线计算模块101，用于对已有类别的商品的历史发票数据集进行离线算法计算，得到每类商品的朴素贝叶斯模型和词向量；

词向量分析模块102，用于分析商户输入的商品品名的词向量是否存在于已有类别的商品的朴素贝叶斯模型内，如果是则发送消息给第一类别获取模块103，如果否则发送消息给第二类别获取模块104；

第一类别获取模块103，用于根据对已有类别的历史发票数据中的商品名进行分词后得到的若干单元词集合中对应的单元词概率直接得到各个类别；

第二类别获取模块104，用于将该商品名与已有商品类别关键词进行词向量相似度计算，求出商户输入的商品名属于已有商品类别的概率，其最大值所对应的类别即为商品所属类别。

本发明的技术关键点在于：

(1)研究表明已有历史发票数据商品类别关键词越少，当商户输入商品品名未在已有历史发票数据商品类别中，选择商品类别时错误率将越大。为了提高开具规范发票的效率，需要尽量增加已有关键词的数量。商户开票时在商品类别的选择结果往往不尽人意,在正确率和时效性上离商户的需求差距很大。商户需要耗费大量时间在已有历史发票数据的商品类别中筛选相似的内容。为了解决已有商品类别关键词难以满足商户开票的新需求，本发明提出了基于语义相似性的关键词扩展方法。商户输入商品品名，当商品品名所属类别不在已有历史发票数据的商品类别中时，利用分词及相似性计算和归一化过程计算得到可能的商品类别列表，对已有历史发票数据的商品类别关键词进行语义扩展。

(2)Word2vec模型的应用。利用Word2vec模型对商户输入的商品品名以及已有历史发票数据商品类别关键词进行数学化，量化为某些词向量，将其应用于商品分类。

在本说明书的描述中，参考术语“一个实施例”、“一些实施例”、“示例”、“具体示例”、或“一些示例”等的描述意指结合该实施例或示例描述的具体特征、结构、材料或者特点包含于本发明的至少一个实施例或示例中。在本说明书中，对上述术语的示意性表述不一定指的是相同的实施例或示例。而且，描述的具体特征、结构、材料或者特点可以在任何的一个或多个实施例或示例中以合适的方式结合。

以上所述，仅为本发明较佳的具体实施方式，但本发明的保护范围并不局限于此，任何熟悉本技术领域的技术人员在本发明揭露的技术范围内，可轻易想到的变化或替换，都应涵盖在本发明的保护范围之内。因此，本发明的保护范围应以所述权利要求的保护范围为准。

Claims

1.一种基于语义相似性扩展的商品名称分类方法，其特征在于，包括：

2.根据权利要求1所述的一种基于语义相似性扩展的商品名称分类方法，其特征在于，所述离线算法包括如下步骤：

(1)、对已有类别的历史发票数据中的商品名进行分词，得到若干单元词，将这些单元词的集合记为X，统计各单元词x∈X在各已有类别中出现的概率p(x|c)＝p(x,c)/p(c)，其中x为单元词，c为任一类别，且对于任意类别c，有∑_xp(x|c)＝1，

(2)、对于任意给定的商品类别，统计其出现的概率，即

p(c)＝每类商品出现的次数/所有商品出现的次数,

(3)、利用维基百科语料，以及利用Word2vec模型通过训练将每个单元词映射成l维实数向量，计算得到语料中所有词的词向量。

3.根据权利要求2所述的一种基于语义相似性扩展的商品名称分类方法，其特征在于，所述商户输入的商品品名的词向量的获取过程包括如下步骤：

(1)、对所述商户输入的商品品名A进行分词，得到若干单元词；

(2)、对A中每一个的单元词，利用Word2vec模型通过训练将每单元词映射成l维实数向量。

4.根据权利要求3所述的一种基于语义相似性扩展的商品名称分类方法，其特征在于，所述步骤四中的相似度计算过程如下：

(1)设a_i＝(a_1i,a_2i,...,a_li,)^T为该商户输入的商品品名的词向量，x_j＝(x_1j,x_2j,...,x_lj,)^T为已有商品类别关键词的词向量，则a_i与x_j之间的相似度用余弦系数表示如下：

<mrow> <mi>c</mi> <mi>o</mi> <mi>s</mi> <mrow> <mo>(</mo> <msub> <mi>a</mi> <mi>i</mi> </msub> <mo>.</mo> <msub> <mi>x</mi> <mi>j</mi> </msub> <mo>)</mo> </mrow> <mo>=</mo> <mfrac> <mrow> <munderover> <mo>&Sigma;</mo> <mrow> <mi>k</mi> <mo>=</mo> <mn>1</mn> </mrow> <mi>l</mi> </munderover> <msub> <mi>a</mi> <mrow> <mi>k</mi> <mi>i</mi> </mrow> </msub> <msub> <mi>x</mi> <mrow> <mi>k</mi> <mi>j</mi> </mrow> </msub> </mrow> <msqrt> <mrow> <munderover> <mo>&Sigma;</mo> <mrow> <mi>k</mi> <mo>=</mo> <mn>1</mn> </mrow> <mi>l</mi> </munderover> <msup> <msub> <mi>a</mi> <mrow> <mi>k</mi> <mi>i</mi> </mrow> </msub> <mn>2</mn> </msup> <munderover> <mo>&Sigma;</mo> <mrow> <mi>k</mi> <mo>=</mo> <mn>1</mn> </mrow> <mi>l</mi> </munderover> <msup> <msub> <mi>x</mi> <mrow> <mi>k</mi> <mi>j</mi> </mrow> </msub> <mn>2</mn> </msup> </mrow> </msqrt> </mfrac> </mrow>

(2)计算各个c类对应的加权平均估计：

p(a_i|c)＝∑_xp(x|c)s(a_i,x)，其中s(a,x)是词向量a_i和x归一化后的相似度，即∑_xs(x|c)＝1。

5.根据权利要求4所述的一种基于语义相似性扩展的商品名称分类方法，其特征在于，所述步骤四中的概率计算过程如下：

p(c|A)∝p(a₁|c)*p(a₂|c)*...p(a_m|c)p(c)，

将该乘积的值按从大到小排列，最相关的类别c排列在前，类别c为A的最可能类别，即argmax_cp(c|A),

6.一种基于语义相似性扩展的商品名称分类系统，包括如下模块：

7.根据权利要求6所述的一种基于语义相似性扩展的商品名称分类系统，其特征在于，

所述离线计算模块、第一类别获取模块、第二类别获取模块分别与所述词向量分析模块连接。