CN102637205B

CN102637205B - 一种基于Hadoop的文档分类方法

Info

Publication number: CN102637205B
Application number: CN201210072522.3A
Authority: CN
Inventors: 高阳; 江凯; 杨育彬; 商琳
Original assignee: JIANGYIN INSTITUTE OF INFORMATION TECHNOLOGY OF NANJING UNIVERSITY; Nanjing University
Current assignee: Nanjing University
Priority date: 2012-03-19
Filing date: 2012-03-19
Publication date: 2014-10-15
Anticipated expiration: 2032-03-19
Also published as: CN102637205A

Abstract

本发明公开了一种基于Hadoop的文档分类方法，包括如下步骤：对训练用文档集进行预处理，将原始的文档转化成向量形式；将向量形式的数据上传至集群文件系统；所述集群文件系统对向量形式的数据进行分块处理；对分块处理后的数据进行map-reduce处理过程得到统计信息；根据统计信息训练分类器；利用得到的分类器对测试用的文档进行分类。本发明能够利用大量无标记的文本提高分类器的分类准确度；能够利用集群和并行计算模型提高训练分类器的速度。

Description

一种基于Hadoop的文档分类方法

技术领域

本发明涉及一种基于Hadoop的文档分类方法，特别涉及一种应用在大规模文档分类任务中的并行化的半监督的朴素贝叶斯分类方法。

背景技术

朴素贝叶斯方法作为一种优秀的分类方法一直受到人们的关注和研究，特别在应用于文本分类任务时，朴素贝叶斯方法的简单，快速和准确率高等特点使之成为最好和最流行的文本分类方法之一。

近年来随着信息技术的快速发展和互联网的高度普及，文档分类任务呈现出新的特点，这些特点主要体现在以下两个方面：一，每天都有海量的数据进发出来，这些数据通常是TB级甚至是PB级的，同时数据的增长速度也呈上升趋势；二，用于训练分类器所需要的带标记的数据通常是很少的，大量的文本数据都是无标记的。这些特点给传统的朴素贝叶斯分类技术带来了挑战，一方面，传统的基于单机运算的计算模式难以在可接受的时间范围内给出处理结果。另一方面，分类器的准确率很大程度上依赖于训练所用的数据，传统的方法只能使用带标记的文本进行训练，这种标记一般都是人工标注的，所以其代价很高，而如果带标记文本的数量不足则会影响分类器的效用。

发明内容

发明目的：针对目前数据的规模巨大和大多数文本数据是无标记的这两个问题，本发明提供一种基于Hadoop的文档分类方法——一种新型的并行化的半监督的朴素贝叶斯分类方法——PSNB(Parallelized Semi-supervised Bayes)来适应新形势下文本分类任务的需要。

技术方案：为实现上述发明目的，本发明通过利用少部分的带标记样本和大部分的无标记的样本来提高分类器的准确性，同时通过基于集群的map-reduce计算模型来提高训练分类器的速度。该方法包括如下步骤：

(1)对训练用文档集(简称“训练集”)进行预处理，将原始的文档转化成向量形式；

(2)将向量形式的数据上传至集群文件系统；

(3)所述集群文件系统对向量形式的数据进行分块处理；

(4)对分块处理后的数据进行map-reduce处理过程得到统计信息；

(5)根据统计信息训练分类器；

(6)利用得到的分类器对测试用的文档进行分类。

进一步地，所述步骤(4)包括如下步骤：

1)从向量集中取出一个向量，判断该向量是带标记的数据还是无标记的数据，如果是带标记的数据转2)，否则转3)；

2)对于原始的文档中的每个单词发送两个键值对，转4)；

3)对于原始的文档中的每个单词发送一个键值对，转4)；

4)Hadoop自动收集由map过程发送过来的键值对，并且按照这些键值对的key值再重新发送到所述集群文件系统中的各个节点上去进行reduce过程；

5)在所述集群文件系统中的各个节点对接收到的键值对进行reduce处理。

有益效果：(1)能够利用大量无标记的文本提高分类器的分类准确度；(2)能够利用集群和并行计算模型提高训练分类器的速度。

附图说明

图1为本发明方法的分类器训练时的数据流与过程流图。

具体实施方式

下面结合附图和具体实施例，进一步阐明本发明，应理解这些实施例仅用于说明本发明而不用于限制本发明的范围，在阅读了本发明之后，本领域技术人员对本发明的各种等价形式的修改均落于本申请所附权利要求所限定的范围。

如图1所示，本发明方法中的核心过程map-reduce过程包含数据预处理动作，数据上传动作，数据划分动作，数据分配动作、map动作、中间数据传输动作、reduce动作、构造分类器动作。

本发明方法的具体细节如图1所示，下面详细说明：

步骤1，用户将编写好的程序传输给master节点，master节点开始根据程序准备数据，并且同时调度集群文件系统(图中为“文件系统”)，将map/reduce过程拷贝至各个slave节点。

步骤2，经过预处理将原始的文档转化成向量形式：其中d₁表示训练集中的一篇文章，|d₁|表示文章d₁中单词的数目，表示在该文章出现的次数，c是该文章的类标，倘若该文章是无标记的，那么c就是一个特殊的用来表示无标记的标记。

步骤3，初始化三个数组用于记录map-reduce过程中的词频统计信息，这三个数组分别是termFrequency、labelFrequency、termFreOfGivenLabel。向量termFrequency用于对每个单词在整个训练集中词频的统计；向量labelFrequency表示某个类标在训练用文档集中出现的频率；二维向量termFreOfGivenLabel用于统计单词t在标签为c的文章中出现的次数即termFreOfGivenLabel(t，c)。

步骤4，map过程：从向量集中取出一个向量d，判断它是带标记的数据还是无标记的数据，如果是带标记的数据转5，否则转6

步骤5，发送键值对，其中key＝<Type_lf，c_d>，value＝1；对于文档d中的每个单词t发送两个键值对其中一组key＝<Type_tf，w>，value＝f_cd；另一组key＝<Type_tofl，c_d，w>，value＝f_cd。转步骤7

步骤6，对于文档d中的每个单词t发送键值对，其中key＝<Type_tf，w>，value＝f_cd；转步骤7

步骤7，hadoop会自动收集由map过程发送过来的键值对，并且按照它们的key值再重新发送到各个节点上去进行reduce过程。

步骤8，在集群中的各个节点对接收到的键值对进行reduce处理，如果键的type为Type_lf那么转9，如果是Type_tf转10，否则转11。

步骤9，对values中的每个value值进行操作labelFrequency[key’s label]+＝value。

步骤10，对values中的每个value值进行操作termFrequency[key’s term]+＝value。

步骤11，对values中的每个value值进行操作termFreOfGivenLabel[key’slabel][key’s term]+＝value。

步骤12，待各个节点上的reduce过程完成之后，根据统计信息所获得的三个向量就可推导出分类器模型：

对于类标集合C中每一个类标c有

P (c) = \frac{labelFrequency (c)}{sum (labelFrequency)}

并且对单词表中的每个单词w有：

P (t | c) = \frac{\frac{termFreOfGivenLabel (t, c)}{sum (termFreOfGivenLabel (t))} termFrequency (t) + laplace}{Σ_{w} \frac{termFreOfGivenLabel (w, c)}{sum (termFreOfGivenLabel (w))} termFrequency (w) + | V |}

步骤13，至此已经建立起分类器模型，下面就是对待分类的文档进行分类了，当然首先将待分类文档d转化成向量形式然后根据所建立的分类器模型预测其类标为

公式中C(d)表示对文档d预测的类标，argmax_cP(c|d)的意思是取使得P(c|d)达到最大值得那个c。

表1是本发明方法所应用的5个数据集：

表1

表2是带标记文本数量/无标记文本数量＝0.05时本方法(PSNB)与传统方法(朴素贝叶斯方法——NB方法)的精确度对比表：

表2

表3是带标记文本数量/无标记文本数量＝0.10时本方法与传统方法的精确度对比表：

表3

表4是本发明方法与传统方法在训练分类器是时间耗费上的比较：

表4

Claims

1.一种基于Hadoop的文档分类方法，其特征在于，包括如下步骤：

(1)对训练用文档集进行预处理，将原始的文档转化成向量形式；

(2)将向量形式的数据上传至集群文件系统；

(3)所述集群文件系统对向量形式的数据进行分块处理；

(4)对分块处理后的数据进行map-reduce处理过程得到统计信息；

(5)根据统计信息训练分类器；

(6)利用得到的分类器对测试用的文档进行分类；

所述步骤(1)中向量形式如下：

其中d_l表示训练集中的一篇文章，|d_l|表示文章d_l中单词的数目，表示w_i在该文章出现的次数，c是该文章的类标，倘若该文章是无标记的，那么c就是一个特殊的用来表示无标记的标记；

所述步骤(4)包括如下步骤：

1)初始化三个向量用于记录map-reduce过程中的词频统计信息，这三个向量分别是termFrequency、labelFrequency、termFreOfGivenLabel；向量termFrequency用于对每个单词在整个训练集中词频的统计；向量labelFrequency表示某个类标在训练用文档集中出现的频率；二维向量termFreOfGivenLabel用于统计单词t在标签为c的文章中出现的次数即termFReOfGivenLabel(t,c)；

2)从向量集中取出一个向量,判断该向量是带标记的数据还是无标记的数据，如果是带标记的数据转3)，否则转4)；

3)对于原始的文档中的每个单词发送两个键值对，其中key＝<Type_lf,c_d>，value＝1；对于文档d中的每个单词t发送两个键值对，其中一组key＝<Type_tf,w>，value＝f_td；另一组key＝<Type_tofl,c_d,w>，value＝f_td，转5)；

4)对于原始的文档中的每个单词发送一个键值对，对于文档d中的每个单词t发送键值对，其中key＝<Type_tf,w>，value＝f_td，转5)；

5)Hadoop自动收集由map过程发送过来的键值对，并且按照这些键值对的key值再重新发送到所述集群文件系统中的各个节点上去进行reduce过程；

6)在所述集群文件系统中的各个节点对接收到的键值对进行reduce处理；

所述步骤(5)中分类器分类过程如下：

1)根据统计信息所获得的三个向量就可推导出分类器模型：

对于类标集合C中每一个类标c有

P (c) = \frac{labelFrequency (c)}{sum (labelFrequency)}

并且对单词表中的每个单词w有：

P (t | c) \frac{\frac{termFreOfGivenLabel (t, c)}{sum (termFreOfGivenLabel (t))} termFrequency (t) + laplace}{Σ_{w} \frac{termFreOfGivenLabel (w, c)}{sum (termFreOfGivenLabel (w))} termFrequency (w) + | V |}

2)至此已经建立起分类器模型，下面就是对待分类的文档进行分类了，当然首先将待分类文档d转化成向量形式然后根据所建立的分类器模型预测其类标为

C (d) = \arg \max_{c} P (c | d) = \arg ma x_{c} P (c) Π_{i = 1}^{n} P (w_{i} | c) f_{wi}