CN105630768B

CN105630768B - 一种基于层叠条件随机场的产品名识别方法及装置

Info

Publication number: CN105630768B
Application number: CN201510974820.5A
Authority: CN
Inventors: 黄河燕; 杨献祥
Original assignee: Beijing Institute of Technology BIT
Current assignee: Beijing Institute of Technology BIT
Priority date: 2015-12-23
Filing date: 2015-12-23
Publication date: 2018-10-12
Anticipated expiration: 2035-12-23
Also published as: CN105630768A

Abstract

本发明涉及一种基于层叠条件随机场的上下文相关产品名识别方法及装置，属于互联网数据处理与分析技术领域，本发明方法利用词向量方法进行词的表示，并采用向量的相似度度量词的语义相似度，通过词向量结合词聚类的方法融合全局上下文信息；同时针对产品名结构复杂存在嵌套的问题，采用层叠条件随机场模型进行产品名的识别。对比现有技术，本发明有效的解决了产品名识别中上下文信息不足，产品名存在嵌套结构复杂等问题，提高了复杂结构的产品名识别的性能，并且本发明产品名识别的准确率和F1值高于传统方法。

Description

一种基于层叠条件随机场的产品名识别方法及装置

技术领域

本发明属于互联网数据处理与分析领域，涉及一种基于层叠条件随机场的上下文相关产品名识别方法及装置。

背景技术

Web2.0时代，随着微博等社交网络平台的兴起，每个互联网用户不再仅仅是信息的浏览者，同时也成为信息的发布者，互联网已经从一个信息发布平台转变为互动交流的平台。在过去的十年里，我国的电子商务产业不断发展壮大，越来越多的公司在互联网上开展业务，通过网络推广销售产品。截至2013年12月，全国开展在线销售的企业比例达到23.5％，通过互联网进行营销推广的企业也占到了20.9％。越来越多的人习惯网络购物，在互联网上讨论自己购买的产品，在论坛、微博、购物网站等地方评论自己用过和买过的产品的优点和不足，人们习惯在购买商品之前通过搜索引擎查看自己要买的商品的用户评价，而网友对某一商品的评价好坏则会影响自己的购买决策。各类企业也纷纷开通了自己的官方微博，开始在微博这一个新的媒体中推广自己的产品。目前不仅政府开始关注互联网的话题传播，各类商业企业也开始关注并分析各类论坛、微博、博客等网络信息，希望从中掌握公司产品的市场口碑，了解广大网民对公司产品的意见和建议，时刻监测本公司产品的负面评论以及时的进行危机公关，保护公司的声誉。互联网已经成为各行各业的公司从公开途径获取本行业竞争情报的重要方式，各类公司都在密切关注竞争对手的产品的市场表现、新产品的发布以期及时作出合适的决策。对于各类企业，其关注互联网信息最根本的就是关注其所属行业和自己生产的产品，因此从互联网上海量的数据中准确的识别出产品名是进行行业舆情监控、口碑营销以及商务智能的基础和前提。

产品名识别是要在文本中识别出产品名称实体，产品名识别是信息抽取中的专有名词识别的一个细分领域，旨在将文本中表示产品名称的实体识别出来以便为商务智能等上层应用提供支撑。目前针对专有名词识别的研究主要针对人名、地名、组织机构名等传统的命名实体进行识别，随着互联网和电子商务的发展针对产品名称的识别工作也越来越重要，目前关于产品名称的识别还相对较少。与传统命名实体不同，产品名通常结构比较复杂，通常包含数字、字母、特殊字符、汉字等，而且长度相对较长嵌套现象比较严重；另外，Web2.0时代互联网上充斥着大量的用户生成文本，由于用户的文字功底不同、表达习惯各异其处理难度远高于新闻等传统媒体，其应用价值也比传统的新闻媒体要高的多。为了更好的从互联网海量信息中准确的识别出产品名，需要综合考虑局部和全局上下文信息，对产品名识别的方法进行改进。

发明内容

本发明的目的在于着重考虑产品名的嵌套问题，同时综合利用上下文信息进行产品名识别方法的改进，提出一种基于层叠条件随机场的上下文相关产品名识别方法，有效的解决产品名中存在的嵌套问题，同时充分利用局部和全局上下文信息来进行特征的改进，提升产品名识别的性能。

本发明的思想是采用词向量模型和词聚类融合全局上下文信息，补充局部上下文信息的不足，同时采用层叠条件随机场模型进行具有嵌套结构的产品名的识别。

本发明的目的是通过以下技术方案实现的：

一种基于层叠条件随机场的上下文相关产品名识别方法，包括以下步骤：

步骤1：对语料文本进行分词和词性标注预处理；

步骤2：对语料文本以词为单位进行一次特征表示；

步骤3：对当前词以已训练的低层条件随机场模型要求的特征模板表示后利用已训练的低层条件随机场模型进行识别得到初步识别结果，记为标记1；

步骤4：将用一次特征表示的词加上标记1作为二次特征表示；

步骤5：对当前词以已训练的低层条件随机场模型要求的特征模板表示后利用已训练的高层条件随机场模型进行识别获得最终识别结果，记为标记2；

步骤6：将语料文本中被识别出是产品实体的词增加其对应的标记后输出。

作为优选，所述一次特征包括基础特征、领域特征、类别特征，所述基础特征用于表示词所具有的特征，包括词本身、词性、是否包含字母、是否包含数字、是否包含特殊字符；领域特征用于表示词所属领域的特征，包括当前词是否品牌名、是否系列名、是否型号名、是否产品属性；类别特征用于表示词所属的类别特征。

作为优选，所述领域特征基于领域产品知识库通过字符串匹配方式确定，所述领域产品知识库通过以下过程构建：

从领域相关网站抓取产品相关数据；

对抓取到的数据进行解析得到初步的产品实体列表；

对初步的产品实体列表进行人工修正，明确产品实体所属品牌、系列以及型号，构建包括产品实体及其所属品牌、系列以及型号在内的产品实体列表并存储；

参考抓取得到的数据人工整理一个领域产品的常见属性列表并存储。

作为优选，所述当前词所属的类别特征通过以下过程确定：

基于词向量模型，对其中的词根据彼此之间的相似度进行聚类，两个词A和B对应的词向量和向量之间的相似度通过以下公式计算：

聚类完成后为每一个类别设置一个唯一的类别编号；

将当前词所属的类别的类别编号输出。

作为优选，所述词向量模型通过以下过程获得：

下载领域相关的网页并解析成纯文本；

对下载得到的文本进行分词处理；

使用分好词的文本训练词向量模型。

作为优选，所述标记1和标记2采用BIO方式进行标注，B表示实体开始，I表示实体中除开始之外的部分，O表示非实体部分，由此方式得到的标记1为下述之一：

B-BRA：表示品牌名的开始元素；

I-BRA：表示品牌名的除开始元素以外的其它元素；

B-SER：表示系列名的开始元素；

I-SER：表示系列名的除开始元素以外的其它元素；

B-TYP：表示型号名的开始元素；

I-TYP：表示型号名的除开始元素以外的其它元素；

B-COM：表示公司名的开始元素；

I-COM：表示公司名的除开始元素以外的其它元素；

B-PRO：表示产品名的开始元素；

I-PRO：表示产品名的除开始元素以外的其它元素；

O：表示非实体元素。

作为优选，所述已训练的低层条件随机场模型和高层条件随机场模型通过如下过程得到：

收集产品相关的文本作为训练语料；

对训练语料进行分词和词性标注；

标记分词后的文本中出现的品牌、系列、型号、公司、产品名等实体，得到包含产品实体的句子；

对产品实体进行一次特征、标记1和标记2表示；

将以一次特征、标记1表示的产品实体用于条件随机场模型的训练得到已训练的低层条件随机场模型，其特征模板应包括上一个词、当前词和下一个词的特征；

将以一次特征、标记1、标记2表示的产品实体用于条件随机场模型的训练得到已训练的高层条件随机场模型，其特征模板应包括上一个词、当前词和下一个词的特征。

一种基于层叠条件随机场的上下文相关产品名识别装置，包括领域产品知识库、词向量模型、已训练的低层条件随机场模型、已训练的高层条件随机场模型、文本预处理模块、一次特征表示模块、二次特征表示模块、初步产品名识别模块、最终产品名识别模块和识别结果输出模块；文本预处理模块、一次特征表示模块、初步产品名识别模块、二次特征表示模块、最终产品名识别模块和识别结果输出模块依次相连，领域产品知识库、词向量模型分别与一次特征表示模块相连，已训练的低层条件随机场模型与初步产品名识别模块相连，已训练的高层条件随机场模型与最终产品名识别模块相连；

所述领域产品知识库为根据权利要求3所述构建领域产品知识库的过程构建，包括产品实体列表和常见属性列表；

所述词向量模型为根据权利要求5所述训练词向量模型的过程获得；

所述已训练的低层条件随机场模型和已训练的高层条件随机场模型根据权利要求7所述过程获得；

所述文本预处理模块用于接受待识别产品名的文本并对之进行分词以及词性标注；

一次特征表示模块用于对文本预处理模块得到的所有的词及其词性基于领域产品知识库和词向量模型分别得到其特征值，即将词以一次特征进行表示；

初步产品名识别模块用于对一次特征表示模块输出的所有的词及其一次特征，融合其前一词以及后一词的一次特征后通过已训练的低层条件随机场模型进行识别，得到初步识别结果标记1；

二次特征表示模块用于对初步产品名识别模块输出的所有的词的一次特征和标记1组合得到对应词的二次特征表示；

最终产品名识别模块用于对二次特征表示模块输出的所有的词及其二次特征，融合其前一词以及后一词的二次特征后通过已训练的高层条件随机场模型进行识别，得到最终识别结果标记2；

识别结果输出模块用于对最终产品名识别模块输出的所有的词及其标记2，滤除非产品名实体元素后得到识别结果列表，以识别结果列表中的词及其标记替换输入文本中的对应词后输出。

作为优选，所述领域产品知识库定期补充领域内最新产品内容进行补充，所述词向量模型定期补充最新的相关文本重新根据权利要求5所述训练词向量模型的过程进行训练。

作为优选，所述一次特征根据权利要求2所述特征表示，所述标记1和标记2采用权利要求6所述方式进行标注。

有益效果

本发明针对产品名称结构复杂，同时上下文信息未得到充分利用等问题，采用词向量的方法融合全局上下文信息，并采用层叠条件随机场解决复杂结构产品名的识别问题，对比现有技术，该方法有效的解决了产品名识别中上下文信息不足，产品名存在嵌套结构复杂等问题，提高了复杂结构的产品名识别的性能。本发明方法的准确率和F1值高于传统的方法，。本发明广泛适用于新闻、微博、论坛以及其他社交媒体的产品名识别。

附图说明

图1为本发明实施例一种基于层叠条件随机场的上下文相关产品名识别方法的处理流程示意图。

图2为本发明实施例一种基于层叠条件随机场的上下文相关产品名识别装置的组成结构示意图。

具体实施方式

为了使本发明的目的、技术方案和优点等更加清楚明了，下文结合具体实施例对本发明及其原理做进一步的说明，下文描述的具体实施例仅用于对本发明进行必要的解释说明，并不用于限定本发明。

下文中以手机领域的产品名识别为例对本发明一种基于层叠条件随机场的上下文相关产品名识别方法进行说明，如图1所示为处理流程示意图，具体包括以下步骤：

步骤1：人工收集产品名相关的文本作为产品名识别语料；

步骤2：搜集领域相关的产品名信息构建领域产品知识库；

步骤3：收集产品相关的文本训练词向量模型；

步骤4：进行特征选择，采用所选择的特征表示语料；

步骤5：分别训练用于识别简单实体的低层条件随机场模型和识别复杂结构产品名的高层条件随机场模型；

步骤6：采用条件随机场模型自动识别产品名称。

下面对各步骤分别进行详细描述：

步骤1：人工收集产品名相关的文本作为产品名识别语料；

本步骤主要进行语料的准备，用于后续步骤中的模型训练和效果测试。

由于本实施例是以手机领域的产品名识别为例，因此本例通过以下步骤完成：

步骤1-1：从手机领域产品相关网站中关村在线下载手机领域的相关网页，并进行解析，只保留网页正文中的文本内容；

步骤1-2：对得到的文本进行分词和词性标注，可以使用ICTCLAS 2015进行；

步骤1-3：人工标记分词后的文本中出现的品牌、系列、型号、公司、产品名等实体，得到4000句包含产品实体的句子；

步骤2：从互联网上搜集领域相关的产品名信息，构建领域产品知识库；

产品知识库主要为后续的步骤提供领域相关知识，在进行特征选择时需要用到本步骤构建的领域产品知识库。

由于本实施例是以手机领域的产品名识别为例，因此领域产品知识库主要包含手机领域的产品，具体通过以下步骤完成：

步骤2-1：从中关村在线手机频道抓取手机产品相关数据；

步骤2-2：对抓取到的数据进行解析得到初步的产品实体列表，下表为产品实体列表的示例；

步骤2-3：对初步的产品实体列表进行人工修正，明确产品实体所属品牌、系列以及型号，构建包括产品实体及其所属品牌、系列以及型号在内的产品实体列表并存储；具体形式如下表所示；

产品实体	品牌名	系列名	型号名
				三星Galaxy Note2	三星	Galaxy	Note2
诺基亚Lumia 920	诺基亚	Lumia	920
				联想S890	联想		S890

步骤2-4：参考抓取得到的数据人工整理一个领域产品的常见属性列表并存储，产品属性列表示例如下:

步骤3：收集产品相关的文本训练词向量模型；

词向量模型主要用于融合全局上下文信息，进一步补充上下文信息，提高产品实体识别的效果。

步骤3-1：从中关村在线手机频道和手机中国网站抓取大量的手机相关的网页，并解析成纯文本，同时从新浪微博中抓取部分手机相关的微博，共得到了100万个手机相关的句子；

步骤3-2：对下载得到的文本进行分词处理，此处可以使用ICTCLAS 2015进行；

步骤3-3：使用分好词的文本训练词向量模型，此处使用开源词向量工具Word2vec工具进行，设置窗口大小为10，向量维度为100，使用skip-gram模型。训练后得到一个词向量模型，每一个词被表示成一个100维的向量，后续工作中可以用100维的向量表示对应的词；

步骤4：进行特征选择，采用所选择的特征表示语料；

本步骤主要目的在于选择特征，并将训练数据和测试数据用统一的特征表示，选择的特征好坏直接影响最终的识别效果。

步骤4-1：采用当前词本身、词性、是否包含字母、是否包含数字、是否包含特殊字符作为基础特征；其中当前词是指对分好词的句子以词为单位依次处理时处理到的那个词，例如：“我买了一个三星手机，新上市的Note2”,处理过程中会逐词处理，当处理到“三星”时，当前词就是指“三星”，而“一个”为上一个词，“手机”为下一个词。

步骤4-2：利用步骤2中得到的知识库，将当前词是否品牌名、是否系列名、是否型号名、是否产品属性等分别作为领域特征；

步骤4-3：利用步骤3中得到的词向量模型，对词向量模型中包含的所有词使用kmeans算法进行聚类，其中词语之间的相似度采用该词对应的向量之间的相似度度量，对于给定的向量和向量定义和的相似度计算公式如下：

聚类完成后为每一个类别设置一个唯一的类别编号，将当前词所属的类别作为类别特征；

步骤4-4：步骤4-1至步骤4-3中所述特征用于低层条件随机场中进行简单实体的识别，识别出品牌名、系列名、型号名、公司名称等实体，在这些特征的基础上，将低层条件随机场的标记序列作为一个新的特征用于高层条件随机场模型，进行复杂结构产品名的识别，识别出产品名；

步骤4-5：将步骤1中得到的4000个包含产品实体的句子分成两份，3000句用作训练数据，1000句用作测试数据，分别用步骤4-1至步骤4-4所述特征进行标示，训练数据和测试数据中的词分别用表1所示序列和表2所示序列标示，标记序列中采用BIO方式进行标注，B表示实体开始，I表示实体中除开始之外的部分，O表示非实体部分，本例中采用B-BRA和I-BRA、B-SER和I-SER、B-TYP和I-TYP、B-COM和I-COM、B-PRO和I-PRO，分别表示品牌名、系列名、型号名、公司名、产品名的开始和除开始外的其他元素，用O表示非实体元素：

表1：

词

特征1取值

特征2取值

特征3取值

……

特征n取值

标记序列

表2：

词

特征1取值

特征2取值

特征3取值

……

特征n取值

最终要进行识别的数据采用表2所示序列标记，最后一列空白，将由本发明中的方法进行标记，以达到最终的识别目的。

步骤4-6：根据步骤4-5中定义的规则将步骤1中所得句子进行特征化表示；

步骤4-7：产品名实体的识别与产品实体前后的词有密切的关系，因此此处定义特征模板融合局部上下信息，本实施例使用CRF++0.53进行条件随机场模型的训练和测试，此处只需要按照CRF++的特征模板语法定义特征模板，模板项融合上一个词、当前词和下一个词的特征。

步骤5：分别训练用于识别简单实体的低层条件随机场模型和识别复杂结构产品名的高层条件随机场模型；其中低层条件随机场模型用于识别品牌名、系列名、型号名、公司名等简单结果实体，高层条件随机场模型用于识别产品名实体。特征化表示后的训练语料样例如下表所示：

词

特征1

特征2

…

特征n

标记1

标记2

我

N

Y

O

喜欢

N

…

N

O

三星

Y

N

…

N

B-BRA

B-PRO

Galaxy

N

Y

…

N

B-SER

I-PRO

S3

N

…

Y

B-TYP

I-PRO

。

N

…

N

O

步骤5-1：采用上表中已经特征化表示的除标记2之外的训练语料进行步骤4-7所述的特征模板表示后训练低层的条件随机场模型，用于简单结构的实体的识别；

步骤5-2：采用上表中已经特征化表示的训练语料进行步骤4-7所述的特征模板表示后训练高层条件随机场模型，用于复杂结构产品名的识别；

步骤6：采用条件随机场模型自动识别产品名称；

步骤6-1：根据步骤4中定义的特征将特征化表示的待识别数据输入低层条件随机场模型进行简单实体的识别；其中输入的数据形式为步骤5示例数据中除最后两列的数据，模型会在输入数据的基础上增加“标记1”一列数据作为输出，此时可以根据“标记1”的结果判断简单实体；

步骤6-2：将步骤6-1中得到的低层条件随机场的识别结果即步骤6-1中的输出作为高层条件随机场模型的输入进行复杂结构产品名的识别；模型会在输入数据的基础上增加“标记2”一列数据作为输出。

步骤6-3：根据步骤4-5中约定的标记序列的表示含义对步骤6-2中的识别结果进行解析，滤除标记为O非实体元素，得到最终的产品名识别结果。

根据上述方法实现了一种基于层叠条件随机场的上下文相关产品名识别装置，结构如图2所示，该装置领域产品知识库、词向量模型、已训练的低层条件随机场模型、已训练的高层条件随机场模型，包括文本预处理模块、一次特征表示模块、二次特征表示模块、初步产品名识别模块、最终产品名识别模块和识别结果输出模块；文本预处理模块、一次特征表示模块、初步产品名识别模块、二次特征表示模块、最终产品名识别模块和识别结果输出模块依次相连，领域产品知识库、词向量模型分别与一次特征表示模块相连，已训练的低层条件随机场模型与初步产品名识别模块相连，已训练的高层条件随机场模型与最终产品名识别模块相连；

所述领域产品知识库为根据权利要求3所述构建领域产品知识库的过程构建，包括产品实体列表和常见属性列表；为了使其能始终包含领域的最新产品变化，定期向所述领域产品知识库中补充最新产品的内容；

所述词向量模型为根据权利要求5所述训练词向量模型的过程获得；为了使词向量模型能够始终跟踪领域词汇的最新变化，定期补充领域相关文本对其重新进行训练；

一次特征表示模块用于对文本预处理模块得到的所有的词及其词性基于领域产品知识库和词向量模型分别得到其特征值，即将词以一次特征进行表示，较优的，采用上述基础特征、领域特征和类别特征表示；

较优的，所述标记1和标记2采用上述BIO方式标注。

试验结果

为了验证本发明的有效性，本实施例中抓取了新浪微博从2012年2月至2013年4月共7000万条微博数据，随机筛选了4000条手机领域产品相关的微博进行了人工标注，并采用3000条做训练，1000条用作测试。对比实验采用条件随机场模型，采用步骤4-1中的基础特征作为对比实验的特征进行产品名实体的识别。相关领域的评价指标包括准确率、召回率、F1值，由于F1值是一个综合评价指标，因此本实验中采用F1值作为本实验的评价指标，F1值越高表示效果越好。实验结果如下表所示：

从表中数据可以看出，品牌名、系列名、型号名和产品实体的识别效果都有明显提升，其中产品名实体的F1值上升最为明显。实验表明本发明能够有效提高产品名实体识别的效果。

Claims

1.一种基于层叠条件随机场的上下文相关产品名识别方法，该方法包括以下步骤：

步骤一、对语料文本进行分词和词性标注预处理；

步骤二、对语料文本以词为单位进行一次特征表示；

步骤三、对当前词以已训练的低层条件随机场模型要求的特征模板表示后利用已训练的低层条件随机场模型进行识别得到初步识别结果，记为标记1；

步骤四、将用一次特征表示的词加上标记1作为二次特征表示；

步骤五、对当前词以已训练的低层条件随机场模型要求的特征模板表示后利用已训练的高层条件随机场模型进行识别获得最终识别结果，记为标记2；

步骤六、将语料文本中被识别出是产品实体的词增加其对应的标记2后输出；

所述一次特征包括基础特征、领域特征、类别特征，所述基础特征用于表示词所具有的特征，包括词本身、词性、是否包含字母、是否包含数字、是否包含特殊字符；领域特征用于表示词所属领域的特征，包括当前词是否品牌名、是否系列名、是否型号名、是否产品属性；类别特征用于表示词所属的类别特征；

所述领域特征基于领域产品知识库通过字符串匹配方式确定，所述领域产品知识库通过以下过程构建：

从领域相关网站抓取产品相关数据；

对抓取到的数据进行解析得到初步的产品实体列表；

参考抓取得到的数据人工整理一个领域产品的常见属性列表并存储；

所述当前词所属的类别特征通过以下过程确定：

聚类完成后为每一个类别设置一个唯一的类别编号；

将当前词所属的类别的类别编号输出；

所述词向量模型通过以下过程获得：