CN107657284A - 一种基于语义相似性扩展的商品名称分类方法及系统 - Google Patents
一种基于语义相似性扩展的商品名称分类方法及系统 Download PDFInfo
- Publication number
- CN107657284A CN107657284A CN201710943802.XA CN201710943802A CN107657284A CN 107657284 A CN107657284 A CN 107657284A CN 201710943802 A CN201710943802 A CN 201710943802A CN 107657284 A CN107657284 A CN 107657284A
- Authority
- CN
- China
- Prior art keywords
- classification
- commodity
- mrow
- trade name
- existing
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Pending
Links
- 238000000034 method Methods 0.000 title claims abstract description 22
- 239000013598 vector Substances 0.000 claims abstract description 48
- 238000004422 calculation algorithm Methods 0.000 claims abstract description 11
- 238000011524 similarity measure Methods 0.000 claims abstract description 10
- 238000004458 analytical method Methods 0.000 claims abstract description 9
- 238000013480 data collection Methods 0.000 claims abstract description 9
- 238000004364 calculation method Methods 0.000 claims abstract description 7
- 239000000463 material Substances 0.000 claims description 7
- 238000012549 training Methods 0.000 claims description 5
- 238000013145 classification model Methods 0.000 claims description 2
- 238000012360 testing method Methods 0.000 abstract description 2
- 238000005516 engineering process Methods 0.000 description 5
- 238000011160 research Methods 0.000 description 4
- 230000008901 benefit Effects 0.000 description 2
- 230000007812 deficiency Effects 0.000 description 2
- 238000011161 development Methods 0.000 description 2
- 230000018109 developmental process Effects 0.000 description 2
- 230000032683 aging Effects 0.000 description 1
- 230000009286 beneficial effect Effects 0.000 description 1
- 238000004883 computer application Methods 0.000 description 1
- 230000007547 defect Effects 0.000 description 1
- 230000000694 effects Effects 0.000 description 1
- 238000002474 experimental method Methods 0.000 description 1
- 238000003058 natural language processing Methods 0.000 description 1
- 238000010606 normalization Methods 0.000 description 1
- 238000005457 optimization Methods 0.000 description 1
- 230000001737 promoting effect Effects 0.000 description 1
- 230000011218 segmentation Effects 0.000 description 1
- 235000015170 shellfish Nutrition 0.000 description 1
Classifications
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F18/00—Pattern recognition
- G06F18/20—Analysing
- G06F18/24—Classification techniques
- G06F18/241—Classification techniques relating to the classification model, e.g. parametric or non-parametric approaches
- G06F18/2415—Classification techniques relating to the classification model, e.g. parametric or non-parametric approaches based on parametric or probabilistic models, e.g. based on likelihood ratio or false acceptance rate versus a false rejection rate
- G06F18/24155—Bayesian classification
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F40/00—Handling natural language data
- G06F40/20—Natural language analysis
- G06F40/279—Recognition of textual entities
- G06F40/289—Phrasal analysis, e.g. finite state techniques or chunking
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F40/00—Handling natural language data
- G06F40/30—Semantic analysis
Landscapes
- Engineering & Computer Science (AREA)
- Theoretical Computer Science (AREA)
- Physics & Mathematics (AREA)
- Artificial Intelligence (AREA)
- General Physics & Mathematics (AREA)
- General Engineering & Computer Science (AREA)
- Computational Linguistics (AREA)
- General Health & Medical Sciences (AREA)
- Health & Medical Sciences (AREA)
- Audiology, Speech & Language Pathology (AREA)
- Data Mining & Analysis (AREA)
- Probability & Statistics with Applications (AREA)
- Life Sciences & Earth Sciences (AREA)
- Bioinformatics & Cheminformatics (AREA)
- Bioinformatics & Computational Biology (AREA)
- Computer Vision & Pattern Recognition (AREA)
- Evolutionary Biology (AREA)
- Evolutionary Computation (AREA)
- Information Retrieval, Db Structures And Fs Structures Therefor (AREA)
Abstract
本发明公开了一种基于语义相似性扩展的商品名称分类方法及系统。本发明对已有类别的商品的历史发票数据集进行离线算法计算得到每类商品的朴素贝叶斯模型和词向量。分情况分析商户输入的商品品名词向量是否存在在已有类别的商品的朴素贝叶斯模型内,若朴素贝叶斯模型没有该商品名分词后的单元词,则将该商品名与已有商品类别关键词进行词向量相似度计算,求出商户输入的商品名属于已有商品类别的概率,其最大值所对应的类别即为商品所属类别。实验结果表明,基于语义扩展的商品类别关键词相似度计算准确率较高,而且计算结果符合常识判断。
Description
技术领域
本发明涉及电子商务平台技术领域,尤其涉及一种基于语义相似性扩展的商品名称分类方法及系统。
背景技术
随着互联网时代的发展和国家“互联网+”战略的提出,税务系统也在“以票控税”的基础上,提出了“信息管税”、“互联网+税务”等战略思路,来促进我国税收征管水平的升级,避免商家通过不开发票、错开发票、虚开发票的来逃税避税的现象,因此如何规范开具发票减少税务风险成为亟需解决的问题。
其中,确保商户开具的商品品名真实可信是规范开票的有效途径之一,即同类商品在开票过程中需要保持开票一致性。以往开票时,商户自主输入商品名称,无法确定此商品品名是否与历史记录保持一致,利用商品分类则可以解决这一问题。通过传统的模糊匹配或精确匹配可以解决部分商品品名的分类问题。对于在历史记录中未出现的商品品名,由于商品名称自身的短文本特性,若采用传统的分类模型,则会造成大量的信息缺失,因此本专利提出通过语义扩展技术对不存在的商品品名关键词进行扩展,弥补已有商品品类关键词不足的缺陷,完善商户选择商品类别列表,达到避免商户不规范选择商品品类的现象,进一步规范开具正确而有效的发票。
语义扩展指语义在原有的基础上进行了延伸,其最直接也是最明显的一个结果就是使原有词汇使用的范围更广或者使表达的内容更加深刻。语义扩展技术主要应用于文本分类、信息检索、搜索引擎等领域。它是以关键词匹配为技术基础,由于商户对相关领域了解较少以及大量同义词和多义词的存在,商户对查询请求的表达形式多种多样。
随着计算机应用领域的不断扩大,Google公司在对统计语言模型不断研究的背景下2013年开发了Word2vec这款可以用于训练词向量的软件工具,Word2vec可以根据给定的语料库,通过优化后的训练模型快速有效地将一个关键词表达成向量形式。Word2vec模型利用词的上下文信息将一个词转化成一个低维实数向量,越相似的词在向量空间中越相近。将词向量应用于自然语言处理非常成功,已经被广泛应用于中文分词、POSTagging、情感分类、句法依存分析等。词的向量化就是将语言中的词进行数学化,也即把一个词表示成一个向量。Word2vec模型有两种,分别是CBOW模型以及Skip-gram模型。由于词向量捕获了自然语言中词语之间的语义特征,通过保存到文件中,词向量可以供其他相关应用研究使用。Word2vec的出现为快速获取自然语言语义特征提供了可能。
发明内容
为解决以上发票开具中存在的问题,本发明提出了一种基于语义相关性扩展的商品名称分类方法。对已有类别的商品的历史发票数据集进行离线算法计算得到每类商品的朴素贝叶斯模型和词向量。分情况分析商户输入的商品品名的词向量是否存在于已有类别的商品的朴素贝叶斯模型内,若朴素贝叶斯模型没有该商品名分词后的单元词,则将该商品名与已有商品类别关键词进行词向量相似度计算,求出商户输入的商品名属于已有商品类别的概率,其最大值所对应的类别即为商品所属类别。实验结果表明,基于语义扩展的商品类别关键词相似度计算准确率较高,而且计算结果符合常识判断。
具体的,一种基于语义相似性扩展的商品名称分类方法,包括:
步骤一、对已有类别的商品的历史发票数据集进行离线算法计算,得到每类商品的朴素贝叶斯模型和词向量;
步骤二、分析商户输入的商品品名的词向量是否存在于已有类别的商品的朴素贝叶斯模型内,如果是则进入步骤三,如果否则进入步骤四;
步骤三、根据对已有类别的历史发票数据中的商品名进行分词后得到的若干单元词集合中对应的单元词概率直接得到各个类别;
步骤四、将该商品名与已有商品类别关键词进行词向量相似度计算,求出商户输入的商品名属于已有商品类别的概率,其最大值所对应的类别即为商品所属类别。
根据本发明的另一个方面,还提供了一种基于语义相似性扩展的商品名称分类系统,包括如下模块:
离线计算模块,用于对已有类别的商品的历史发票数据集进行离线算法计算,得到每类商品的朴素贝叶斯模型和词向量;
词向量分析模块,用于分析商户输入的商品品名的词向量是否存在于已有类别的商品的朴素贝叶斯模型内,如果是则发送消息给第一类别获取模块,如果否则发送消息给第二类别获取模块;
第一类别获取模块,用于根据对已有类别的历史发票数据中的商品名进行分词后得到的若干单元词集合中对应的单元词概率直接得到各个类别;
第二类别获取模块,用于将该商品名与已有商品类别关键词进行词向量相似度计算,求出商户输入的商品名属于已有商品类别的概率,其最大值所对应的类别即为商品所属类别。
本发明的有益效果如下:针对当前商户开具发票时商品类别关键词不足的现象,本发明结合离线和在线两种计算模式,先对已有历史发票数据中的商品名分词,得到贝叶斯模型,Word2vec模型所生成的词向量化能有效的表示商品类别的特征,在维基百科语料库的实验表明,基于语义扩展的商品类别关键词的扩展方法有效。这类基于语义相似性的商品分类方法更加准确的为商户提供有用信息的同时,还降低了商户的工作量,节约商户开票的时间。因此基于语义扩展的商品类别关键词扩展方法的研究对促进发票开票行业的发展,推进互联网技术有着重要的意义。本发明提供给商家商品品类的选择列表,进一步提高商家在开具发票时商品品类选择的正确性和有效性,从而增加发票的合法性和有效性。发票的规范开具,充分实现其使用价值,是反映经济业务活动的重要环节,直接关系到能否达到发票管理的预期目的。
附图说明
通过阅读下文优选实施方式的详细描述,各种其他的优点和益处对于本领域普通技术人员将变得清楚明了。附图仅用于示出优选实施方式的目的,而并不认为是对本发明的限制。而且在整个附图中,用相同的参考符号表示相同的部件。在附图中:
附图1示出了根据本发明实施方式的基于语义相似性扩展的商品名称分类方法流程图。
附图2示出了根据本发明实施方式的基于语义相似性扩展的商品名称分类系统结构图。
具体实施方式
下面将参照附图更详细地描述本公开的示例性实施方式。虽然附图中显示了本公开的示例性实施方式,然而应当理解,可以以各种形式实现本公开而不应被这里阐述的实施方式所限制。相反,提供这些实施方式是为了能够更透彻地理解本公开,并且能够将本公开的范围完整的传达给本领域的技术人员。
如图1所示,本发明的基于语义相似性扩展的商品名称分类方法包括如下步骤:
S1、对已有类别的商品的历史发票数据集进行离线算法计算,得到每类商品的朴素贝叶斯模型和词向量;
S2、分析商户输入的商品品名的词向量是否存在于已有类别的商品的朴素贝叶斯模型内,如果是则进入步骤S3,如果否则进入步骤S4;
S3、根据对已有类别的历史发票数据中的商品名进行分词后得到的若干单元词集合中对应的单元词概率直接得到各个类别;
S4、将该商品名与已有商品类别关键词进行词向量相似度计算,求出商户输入的商品名属于已有商品类别的概率,其最大值所对应的类别即为商品所属类别。
根据本发明的一个具体实施方式,本发明的实现过程如下:
首先,给定已有类别的商品的历史发票数据集C(设有n个商品类别,用c1,c2,...,cn表示),得到每类商品的朴素贝叶斯模型和词向量。离线算法如下:
1、对已有类别的历史发票数据中的商品名进行分词,得到若干单元词,将这些单元词的集合记为X,统计各单元词x∈X在各已有类别中出现的概率p(x|c)=p(x,c)/p(c),其中x为单元词,c为任一类别,且对于任意类别c,有∑xp(x|c)=1,p(x,c)为词x和类别c出现的联合概率分布,p(c)为类别c在数据中出现的概率,此处的p(c)和下面三行出现的p(c)意义相同。
2、对于任意给定的商品类别,统计其出现的概率,即
p(c)=每类商品出现的次数/所有商品出现的次数,
3、利用维基百科语料,利用Word2vec模型通过训练将每个单元词映射成l维实数向量(l一般为模型中的超参数),计算得到语料中所有词(包括X中所有单元词)的词向量。例如X中的任一单元词xi,向量化为xi=(x1i,x2i,...,xli,)T。
其次,商户输入商品品名,输出其最可能的类别。在线算法步骤如下:
1、对给定的商品品名A进行分词,得到若干单元词,不妨设单元词个数为m,则A所产生的单元词表示为a1,a2,...,am。
2、对A中每一个的单元词ai,利用Word2vec模型通过训练将每单元词映射成l维实数向量(l一般为模型中的超参数)ai=(a1i,a2i,...,ali,)T,并对其做如下分析:
2.1、若已有类别商品的朴素贝叶斯模型中含有该单元词,根据X中对应单元词概率p(x|c)中令x=ai直接得到各个c类对应的p(ai|c),
2.2、若已有类别商品的朴素贝叶斯模型中没有该单元词,计算p(ai|c)的加权平均估计,步骤如下:
首先计算ai与X中所有其他单元词的词向量相似度,
设ai=(a1i,a2i,...,ali,)T xj=(x1j,x2j,...,xlj,)T,
则ai与xj之间的相似度用余弦系数表示如下:
然后计算各个c类对应的加权平均估计:
p(ai|c)=∑xp(x|c)s(ai,x)。其中s(a,x)是词向量ai和x归一化后的相似度,即∑xs(x|c)=1。
计算概率
将该乘积的值按从大到小排列,最相关的类别c排列在前,类别c为A的最可能类别,即arg maxcp(c|A),
如图2所示,根据本发明的另一个方面,还提供了一种基于语义相似性扩展的商品名称分类系统100,包括如下模块:
离线计算模块101,用于对已有类别的商品的历史发票数据集进行离线算法计算,得到每类商品的朴素贝叶斯模型和词向量;
词向量分析模块102,用于分析商户输入的商品品名的词向量是否存在于已有类别的商品的朴素贝叶斯模型内,如果是则发送消息给第一类别获取模块103,如果否则发送消息给第二类别获取模块104;
第一类别获取模块103,用于根据对已有类别的历史发票数据中的商品名进行分词后得到的若干单元词集合中对应的单元词概率直接得到各个类别;
第二类别获取模块104,用于将该商品名与已有商品类别关键词进行词向量相似度计算,求出商户输入的商品名属于已有商品类别的概率,其最大值所对应的类别即为商品所属类别。
本发明的技术关键点在于:
(1)研究表明已有历史发票数据商品类别关键词越少,当商户输入商品品名未在已有历史发票数据商品类别中,选择商品类别时错误率将越大。为了提高开具规范发票的效率,需要尽量增加已有关键词的数量。商户开票时在商品类别的选择结果往往不尽人意,在正确率和时效性上离商户的需求差距很大。商户需要耗费大量时间在已有历史发票数据的商品类别中筛选相似的内容。为了解决已有商品类别关键词难以满足商户开票的新需求,本发明提出了基于语义相似性的关键词扩展方法。商户输入商品品名,当商品品名所属类别不在已有历史发票数据的商品类别中时,利用分词及相似性计算和归一化过程计算得到可能的商品类别列表,对已有历史发票数据的商品类别关键词进行语义扩展。
(2)Word2vec模型的应用。利用Word2vec模型对商户输入的商品品名以及已有历史发票数据商品类别关键词进行数学化,量化为某些词向量,将其应用于商品分类。
在本说明书的描述中,参考术语“一个实施例”、“一些实施例”、“示例”、“具体示例”、或“一些示例”等的描述意指结合该实施例或示例描述的具体特征、结构、材料或者特点包含于本发明的至少一个实施例或示例中。在本说明书中,对上述术语的示意性表述不一定指的是相同的实施例或示例。而且,描述的具体特征、结构、材料或者特点可以在任何的一个或多个实施例或示例中以合适的方式结合。
以上所述,仅为本发明较佳的具体实施方式,但本发明的保护范围并不局限于此,任何熟悉本技术领域的技术人员在本发明揭露的技术范围内,可轻易想到的变化或替换,都应涵盖在本发明的保护范围之内。因此,本发明的保护范围应以所述权利要求的保护范围为准。
Claims (7)
1.一种基于语义相似性扩展的商品名称分类方法,其特征在于,包括:
步骤一、对已有类别的商品的历史发票数据集进行离线算法计算,得到每类商品的朴素贝叶斯模型和词向量;
步骤二、分析商户输入的商品品名的词向量是否存在于已有类别的商品的朴素贝叶斯模型内,如果是则进入步骤三,如果否则进入步骤四;
步骤三、根据对已有类别的历史发票数据中的商品名进行分词后得到的若干单元词集合中对应的单元词概率直接得到各个类别;
步骤四、将该商品名与已有商品类别关键词进行词向量相似度计算,求出商户输入的商品名属于已有商品类别的概率,其最大值所对应的类别即为商品所属类别。
2.根据权利要求1所述的一种基于语义相似性扩展的商品名称分类方法,其特征在于,所述离线算法包括如下步骤:
(1)、对已有类别的历史发票数据中的商品名进行分词,得到若干单元词,将这些单元词的集合记为X,统计各单元词x∈X在各已有类别中出现的概率p(x|c)=p(x,c)/p(c),其中x为单元词,c为任一类别,且对于任意类别c,有∑xp(x|c)=1,
(2)、对于任意给定的商品类别,统计其出现的概率,即
p(c)=每类商品出现的次数/所有商品出现的次数,
(3)、利用维基百科语料,以及利用Word2vec模型通过训练将每个单元词映射成l维实数向量,计算得到语料中所有词的词向量。
3.根据权利要求2所述的一种基于语义相似性扩展的商品名称分类方法,其特征在于,所述商户输入的商品品名的词向量的获取过程包括如下步骤:
(1)、对所述商户输入的商品品名A进行分词,得到若干单元词;
(2)、对A中每一个的单元词,利用Word2vec模型通过训练将每单元词映射成l维实数向量。
4.根据权利要求3所述的一种基于语义相似性扩展的商品名称分类方法,其特征在于,所述步骤四中的相似度计算过程如下:
(1)设ai=(a1i,a2i,...,ali,)T为该商户输入的商品品名的词向量,xj=(x1j,x2j,...,xlj,)T为已有商品类别关键词的词向量,则ai与xj之间的相似度用余弦系数表示如下:
<mrow>
<mi>c</mi>
<mi>o</mi>
<mi>s</mi>
<mrow>
<mo>(</mo>
<msub>
<mi>a</mi>
<mi>i</mi>
</msub>
<mo>.</mo>
<msub>
<mi>x</mi>
<mi>j</mi>
</msub>
<mo>)</mo>
</mrow>
<mo>=</mo>
<mfrac>
<mrow>
<munderover>
<mo>&Sigma;</mo>
<mrow>
<mi>k</mi>
<mo>=</mo>
<mn>1</mn>
</mrow>
<mi>l</mi>
</munderover>
<msub>
<mi>a</mi>
<mrow>
<mi>k</mi>
<mi>i</mi>
</mrow>
</msub>
<msub>
<mi>x</mi>
<mrow>
<mi>k</mi>
<mi>j</mi>
</mrow>
</msub>
</mrow>
<msqrt>
<mrow>
<munderover>
<mo>&Sigma;</mo>
<mrow>
<mi>k</mi>
<mo>=</mo>
<mn>1</mn>
</mrow>
<mi>l</mi>
</munderover>
<msup>
<msub>
<mi>a</mi>
<mrow>
<mi>k</mi>
<mi>i</mi>
</mrow>
</msub>
<mn>2</mn>
</msup>
<munderover>
<mo>&Sigma;</mo>
<mrow>
<mi>k</mi>
<mo>=</mo>
<mn>1</mn>
</mrow>
<mi>l</mi>
</munderover>
<msup>
<msub>
<mi>x</mi>
<mrow>
<mi>k</mi>
<mi>j</mi>
</mrow>
</msub>
<mn>2</mn>
</msup>
</mrow>
</msqrt>
</mfrac>
</mrow>
(2)计算各个c类对应的加权平均估计:
p(ai|c)=∑xp(x|c)s(ai,x),其中s(a,x)是词向量ai和x归一化后的相似度,即∑xs(x|c)=1。
5.根据权利要求4所述的一种基于语义相似性扩展的商品名称分类方法,其特征在于,所述步骤四中的概率计算过程如下:
p(c|A)∝p(a1|c)*p(a2|c)*...p(am|c)p(c),
将该乘积的值按从大到小排列,最相关的类别c排列在前,类别c为A的最可能类别,即argmaxcp(c|A),
6.一种基于语义相似性扩展的商品名称分类系统,包括如下模块:
离线计算模块,用于对已有类别的商品的历史发票数据集进行离线算法计算,得到每类商品的朴素贝叶斯模型和词向量;
词向量分析模块,用于分析商户输入的商品品名的词向量是否存在于已有类别的商品的朴素贝叶斯模型内,如果是则发送消息给第一类别获取模块,如果否则发送消息给第二类别获取模块;
第一类别获取模块,用于根据对已有类别的历史发票数据中的商品名进行分词后得到的若干单元词集合中对应的单元词概率直接得到各个类别;
第二类别获取模块,用于将该商品名与已有商品类别关键词进行词向量相似度计算,求出商户输入的商品名属于已有商品类别的概率,其最大值所对应的类别即为商品所属类别。
7.根据权利要求6所述的一种基于语义相似性扩展的商品名称分类系统,其特征在于,
所述离线计算模块、第一类别获取模块、第二类别获取模块分别与所述词向量分析模块连接。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN201710943802.XA CN107657284A (zh) | 2017-10-11 | 2017-10-11 | 一种基于语义相似性扩展的商品名称分类方法及系统 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN201710943802.XA CN107657284A (zh) | 2017-10-11 | 2017-10-11 | 一种基于语义相似性扩展的商品名称分类方法及系统 |
Publications (1)
Publication Number | Publication Date |
---|---|
CN107657284A true CN107657284A (zh) | 2018-02-02 |
Family
ID=61117820
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN201710943802.XA Pending CN107657284A (zh) | 2017-10-11 | 2017-10-11 | 一种基于语义相似性扩展的商品名称分类方法及系统 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN107657284A (zh) |
Cited By (15)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN108595414A (zh) * | 2018-03-22 | 2018-09-28 | 浙江大学 | 基于源汇空间变量推理的土壤重金属企业污染源识别方法 |
CN108595418A (zh) * | 2018-04-03 | 2018-09-28 | 上海透云物联网科技有限公司 | 一种商品分类方法及系统 |
CN109101480A (zh) * | 2018-06-14 | 2018-12-28 | 华东理工大学 | 一种企业名称的切分方法、装置及计算机可读存储介质 |
CN109871446A (zh) * | 2019-01-31 | 2019-06-11 | 平安科技(深圳)有限公司 | 意图识别中的拒识方法、电子装置及存储介质 |
CN110009796A (zh) * | 2019-04-11 | 2019-07-12 | 北京邮电大学 | 发票类别识别方法、装置、电子设备及可读存储介质 |
CN110489758A (zh) * | 2019-09-10 | 2019-11-22 | 深圳市和讯华谷信息技术有限公司 | 应用程序的价值观计算方法及装置 |
CN110659948A (zh) * | 2018-06-13 | 2020-01-07 | 中国软件与技术服务股份有限公司 | 一种进销商品匹配度计算方法及虚开发票风险发现方法 |
CN110895781A (zh) * | 2019-10-29 | 2020-03-20 | 北京三快在线科技有限公司 | 菜品类别推荐方法、装置、电子设备及存储介质 |
CN111027326A (zh) * | 2018-10-09 | 2020-04-17 | 福建凯米网络科技有限公司 | 商品归类方法、存储介质及电子设备 |
CN111177367A (zh) * | 2019-11-11 | 2020-05-19 | 腾讯科技(深圳)有限公司 | 案件分类方法、分类模型训练方法及相关产品 |
CN111428486A (zh) * | 2019-01-08 | 2020-07-17 | 北京沃东天骏信息技术有限公司 | 物品信息数据处理方法、装置、介质及电子设备 |
CN112184360A (zh) * | 2020-08-31 | 2021-01-05 | 北京三快在线科技有限公司 | 一种商品品类确定方法、装置、电子设备及存储介质 |
CN113436021A (zh) * | 2021-08-30 | 2021-09-24 | 深圳百胜扬工业电子商务平台发展有限公司 | 一种商业产品数据智能辨识收纳方法和系统 |
CN114219038A (zh) * | 2021-12-17 | 2022-03-22 | 税友信息技术有限公司 | 一种发票商品名称分类方法及装置 |
TWI822507B (zh) * | 2022-12-08 | 2023-11-11 | 東方線上股份有限公司 | 商品串擴展系統及其方法 |
Citations (3)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
US20060010145A1 (en) * | 2001-11-02 | 2006-01-12 | Thomson Global Resources, Ag. | Systems, methods, and software for classifying text from judicial opinions and other documents |
CN103984703A (zh) * | 2014-04-22 | 2014-08-13 | 新浪网技术(中国)有限公司 | 邮件分类方法和装置 |
CN106202481A (zh) * | 2016-07-18 | 2016-12-07 | 量子云未来(北京)信息科技有限公司 | 一种感知数据的评价方法和系统 |
-
2017
- 2017-10-11 CN CN201710943802.XA patent/CN107657284A/zh active Pending
Patent Citations (3)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
US20060010145A1 (en) * | 2001-11-02 | 2006-01-12 | Thomson Global Resources, Ag. | Systems, methods, and software for classifying text from judicial opinions and other documents |
CN103984703A (zh) * | 2014-04-22 | 2014-08-13 | 新浪网技术(中国)有限公司 | 邮件分类方法和装置 |
CN106202481A (zh) * | 2016-07-18 | 2016-12-07 | 量子云未来(北京)信息科技有限公司 | 一种感知数据的评价方法和系统 |
Non-Patent Citations (1)
Title |
---|
冯梦轲 等: "一种基于词向量的分布式中文贝叶斯文本分类器", 《中国科技论文在线》 * |
Cited By (20)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN108595414A (zh) * | 2018-03-22 | 2018-09-28 | 浙江大学 | 基于源汇空间变量推理的土壤重金属企业污染源识别方法 |
CN108595414B (zh) * | 2018-03-22 | 2020-07-10 | 浙江大学 | 基于源汇空间变量推理的土壤重金属企业污染源识别方法 |
CN108595418A (zh) * | 2018-04-03 | 2018-09-28 | 上海透云物联网科技有限公司 | 一种商品分类方法及系统 |
CN110659948A (zh) * | 2018-06-13 | 2020-01-07 | 中国软件与技术服务股份有限公司 | 一种进销商品匹配度计算方法及虚开发票风险发现方法 |
CN109101480A (zh) * | 2018-06-14 | 2018-12-28 | 华东理工大学 | 一种企业名称的切分方法、装置及计算机可读存储介质 |
CN109101480B (zh) * | 2018-06-14 | 2022-09-06 | 华东理工大学 | 一种企业名称的切分方法、装置及计算机可读存储介质 |
CN111027326A (zh) * | 2018-10-09 | 2020-04-17 | 福建凯米网络科技有限公司 | 商品归类方法、存储介质及电子设备 |
CN111428486A (zh) * | 2019-01-08 | 2020-07-17 | 北京沃东天骏信息技术有限公司 | 物品信息数据处理方法、装置、介质及电子设备 |
CN109871446A (zh) * | 2019-01-31 | 2019-06-11 | 平安科技(深圳)有限公司 | 意图识别中的拒识方法、电子装置及存储介质 |
CN109871446B (zh) * | 2019-01-31 | 2023-06-06 | 平安科技(深圳)有限公司 | 意图识别中的拒识方法、电子装置及存储介质 |
CN110009796B (zh) * | 2019-04-11 | 2020-12-04 | 北京邮电大学 | 发票类别识别方法、装置、电子设备及可读存储介质 |
CN110009796A (zh) * | 2019-04-11 | 2019-07-12 | 北京邮电大学 | 发票类别识别方法、装置、电子设备及可读存储介质 |
CN110489758A (zh) * | 2019-09-10 | 2019-11-22 | 深圳市和讯华谷信息技术有限公司 | 应用程序的价值观计算方法及装置 |
CN110489758B (zh) * | 2019-09-10 | 2023-04-18 | 深圳市和讯华谷信息技术有限公司 | 应用程序的价值观计算方法及装置 |
CN110895781A (zh) * | 2019-10-29 | 2020-03-20 | 北京三快在线科技有限公司 | 菜品类别推荐方法、装置、电子设备及存储介质 |
CN111177367A (zh) * | 2019-11-11 | 2020-05-19 | 腾讯科技(深圳)有限公司 | 案件分类方法、分类模型训练方法及相关产品 |
CN112184360A (zh) * | 2020-08-31 | 2021-01-05 | 北京三快在线科技有限公司 | 一种商品品类确定方法、装置、电子设备及存储介质 |
CN113436021A (zh) * | 2021-08-30 | 2021-09-24 | 深圳百胜扬工业电子商务平台发展有限公司 | 一种商业产品数据智能辨识收纳方法和系统 |
CN114219038A (zh) * | 2021-12-17 | 2022-03-22 | 税友信息技术有限公司 | 一种发票商品名称分类方法及装置 |
TWI822507B (zh) * | 2022-12-08 | 2023-11-11 | 東方線上股份有限公司 | 商品串擴展系統及其方法 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
CN107657284A (zh) | 一种基于语义相似性扩展的商品名称分类方法及系统 | |
Park et al. | Tourism demand forecasting with online news data mining | |
CN110852856B (zh) | 一种基于动态网络表征的发票虚开识别方法 | |
CN103631859B (zh) | 一种面向科技项目的评审专家智能推荐方法 | |
CN111061962B (zh) | 一种基于用户评分分析的推荐方法 | |
CN109165294B (zh) | 一种基于贝叶斯分类的短文本分类方法 | |
CN109684440A (zh) | 基于层级标注的地址相似度度量方法 | |
CN103207914B (zh) | 基于用户反馈评价的偏好向量生成方法和系统 | |
CN101354714B (zh) | 一种基于概率潜在语义分析的问题推荐方法 | |
CN102663022B (zh) | 一种基于url的分类识别方法 | |
CN107704512A (zh) | 基于社交数据的金融产品推荐方法、电子装置及介质 | |
CN104077407B (zh) | 一种智能数据搜索系统及方法 | |
CN110990529B (zh) | 企业的行业明细划分方法及系统 | |
WO2021169659A1 (zh) | 资源信息推送方法、装置、服务器及存储介质 | |
CN110598219A (zh) | 一种面向豆瓣网电影评论的情感分析方法 | |
CN103377249A (zh) | 关键词投放方法及系统 | |
CN106844407A (zh) | 基于数据集相关性的标签网络产生方法和系统 | |
CN110110225A (zh) | 基于用户行为数据分析的在线教育推荐模型及构建方法 | |
CN109740642A (zh) | 发票类别识别方法、装置、电子设备及可读存储介质 | |
CN117611243B (zh) | 一种量化分析内容标签的互动和销售指标的分析方法 | |
CN110110220A (zh) | 融合社交网络和用户评价的推荐模型 | |
Chen et al. | An intelligent government complaint prediction approach | |
CN114328808A (zh) | 地址模糊匹配方法、地址处理方法、装置和电子设备 | |
CN108733652A (zh) | 基于机器学习的影评情感倾向性分析的测试方法 | |
CN111754208A (zh) | 一种招聘简历自动筛选方法 |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination | ||
TA01 | Transfer of patent application right |
Effective date of registration: 20180725 Address after: 315000 34, 35, 14 lane, 299 lane, Guanghua Road, Ningbo hi tech Zone, Zhejiang Applicant after: Ningbo Aisino Co., Ltd. Applicant after: Hangtian Information Co., Ltd. Address before: 315000 34, 35, 14 lane, 299 lane, Guanghua Road, Ningbo hi tech Zone, Zhejiang Applicant before: Ningbo Aisino Co., Ltd. |
|
TA01 | Transfer of patent application right | ||
RJ01 | Rejection of invention patent application after publication |
Application publication date: 20180202 |
|
RJ01 | Rejection of invention patent application after publication |