CN111782812A

CN111782812A - K-Means文本聚类方法、装置及终端设备

Info

Publication number: CN111782812A
Application number: CN202010641289.0A
Authority: CN
Inventors: 杨俊闯; 赵超
Original assignee: Hebei University of Engineering
Current assignee: Hebei University of Engineering
Priority date: 2020-07-06
Filing date: 2020-07-06
Publication date: 2020-10-16

Abstract

本发明适用于文本处理技术领域，提供了一种K‑Means文本聚类方法、装置及终端设备，该方法包括：提取原始文本数据集中各个原始文本对应的特征词；根据各个原始文本对应的特征词确定各个原始文本对应的文本向量；计算各个文本向量的局部密度和相对最小距离，并根据各个文本向量的局部密度和相对最小距离，从所有文本向量中选出初始聚类中心；采用所述初始聚类中心对各个文本向量进行聚类，输出文本聚类结果，本申请通过上述方法能够避免随机选取初始聚类中心所导致的聚类结果不稳定的问题，提高文本聚类的精度。

Description

K-Means文本聚类方法、装置及终端设备

技术领域

本发明属于文本处理技术领域，尤其涉及一种K-Means文本聚类方法、装置及终端设备。

背景技术

K-Means是一种划分式聚类算法，因其思想简单、高效、易收敛等特点常被应用于文本聚类。

传统的K-Means算法将数据集分为K组，分别从K组数据中随机选取K个对象作为初始聚类中心，然后计算数据集中各个对象到聚类中心的距离，将每个对象分配到与它距离最近的聚类中心所在的簇中，重新计算各个簇的均值作为新的中心，不断重复上述步骤直至达到聚类终止条件，但是这种算法极易陷入局部最优解，导致聚类结果不稳定。

发明内容

有鉴于此，本发明实施例提供了一种K-Means文本聚类方法、装置及终端设备，以解决现有技术中K-Means聚类结果不稳定的问题。

本发明实施例的第一方面提供了一种K-Means文本聚类方法，包括：

提取原始文本数据集中各个原始文本对应的特征词，所述原始文本数据集包括至少一个原始文本；

根据各个原始文本对应的特征词确定各个原始文本对应的文本向量；

计算各个文本向量的局部密度和相对最小距离，并根据各个文本向量的局部密度和相对最小距离，从所有文本向量中选出初始聚类中心；

采用所述初始聚类中心对各个文本向量进行聚类，输出文本聚类结果。

本发明实施例的第二方面提供了一种K-Means文本聚类装置，包括：

特征词确定模块，用于提取原始文本数据集中各个原始文本对应的特征词，所述原始文本数据集包括至少一个原始文本；

文本向量获取模块，用于根据各个原始文本对应的特征词确定各个原始文本对应的文本向量；

初始聚类中心选取模块，用于计算各个文本向量的局部密度和相对最小距离，并根据各个文本向量的局部密度和相对最小距离，从所有文本向量中选出初始聚类中心；

文本聚类模块，用于采用所述初始聚类中心对各个文本向量进行聚类，输出文本聚类结果。

本发明实施例的第三方面提供了一种终端设备，包括存储器、处理器以及存储在所述存储器中并可在所述处理器上运行的计算机程序，所述处理器执行所述计算机程序时实现如上所述K-Means文本聚类方法的步骤。

本发明实施例的第四方面提供了一种计算机可读存储介质，所述计算机可读存储介质存储有计算机程序，所述计算机程序被处理器执行时实现如上所述K-Means文本聚类方法的步骤。

本发明实施例与现有技术相比存在的有益效果是：本申请首先提取原始文本数据集中各个原始文本对应的特征词；根据各个原始文本对应的特征词确定各个原始文本对应的文本向量；然后计算各个文本向量的局部密度和相对最小距离，并根据各个文本向量的局部密度和相对最小距离，从所有文本向量中选出初始聚类中心；最后采用所述初始聚类中心对各个文本向量进行聚类，输出文本聚类结果，本申请通过上述方法能够避免随机选取初始聚类中心所导致的聚类结果不稳定的问题，提高文本聚类的精度。

附图说明

为了更清楚地说明本发明实施例中的技术方案，下面将对实施例或现有技术描述中所需要使用的附图作简单地介绍，显而易见地，下面描述中的附图仅仅是本发明的一些实施例，对于本领域普通技术人员来讲，在不付出创造性劳动性的前提下，还可以根据这些附图获得其他的附图。

图1是本发明实施例提供的K-Means文本聚类方法的流程示意图；

图2是本发明实施例提供的K-Means文本聚类装置的结构示意图；

图3是本发明实施例提供的决策图；

图4是本发明实施例提供的终端设备的示意图。

具体实施方式

以下描述中，为了说明而不是为了限定，提出了诸如特定系统结构、技术之类的具体细节，以便透彻理解本发明实施例。然而，本领域的技术人员应当清楚，在没有这些具体细节的其它实施例中也可以实现本发明。在其它情况中，省略对众所周知的系统、装置、电路以及方法的详细说明，以免不必要的细节妨碍本发明的描述。

为了说明本发明所述的技术方案，下面通过具体实施例来进行说明。

在本发明的一个实施例中，如图1所示，图1示出了本实施例提供的K-Means文本聚类方法的具体实现流程，其过程详述如下：

S101：提取原始文本数据集中各个原始文本对应的特征词，所述原始文本数据集包括至少一个原始文本。

在一个实施例中，图1中S101的具体实现流程包括：

S201：对原始文本数据集进行分词处理，得到初始分词。

在本实施例中，首先使用分词工具对原始文本数据集进行分词处理，标注文本分词后每个词的词性并根据停用词表进行停用词过滤，删除分词结果中只有一个字的词并去除数词、介词等对文本特征没有贡献的词，最后得到每个原始文本对应的初始分词，经过分词处理后的原始文本以若干词语集合的形式出现。

进一步地，剔除所有的原始文本中分词数少于第一预设数量的文本。

具体地，第一预设数量可以为100。

S202：基于词频逆文档频率算法和各个原始文本对应的初始分词，确定各个原始文本对应的特征词。

在本实施例中，词频逆文档频率(TF-IDF)是一种应用于信息检索与文本挖掘的常用加权技术。TF-IDF的基本思想是：如果一个词i在某篇原始文本中出现频率很高，但在其它原始文本中几乎不出现，那么可以将词i作为该原始文本的特征词，用来和其它文本进行区分。

在一个实施例中，上述步骤S202的具体实现流程包括：

S301：根据TF-IDF计算公式计算各个初始分词在对应原始文本中的权重；

S302：根据各个初始分词在对应原始文本中的权重，确定各个原始文本对应的特征词；

所述TF-IDF计算公式为：

式(1)中，TFIDF(i,d)表示原始文本d中初始分词i的权重，T_i表示初始分词i出现的次数，T_d表示原始文本d中总的初始分词数量，D_d表示原始文本总数量，D_t表示包含初始分词i的原始文本数量。

在一个实施例中，上述步骤S302的具体实现流程包括：

对第一原始文本的初始分词按照权重由大到小的顺序进行排序，得到所述第一原始文本的分词序列；所述第一原始文本为所述原始文本数据集中的任一原始文本；

选取所述第一原始文本的分词序列中前N个初始分词作为所述第一原始文本的特征词，所述N≥1。

在本实施例中，N可以取20，选取分词序列中权重值最大的前20个初始分词作为该原始文本的特征词。

S102：根据各个原始文本对应的特征词确定各个原始文本对应的文本向量。

在一个实施例中，S102的具体实现流程包括：

S401：对第一原始文本对应的特征词使用word2vec模型进行词向量化，所述第一原始文本为所述原始文本数据集中的任一原始文本。

在本实施例中，词向量是一种分布式的低维实数向量，利用词向量可以提高文本间相似度计算的准确率。词向量为语义空间内的一组潜在变量，用于表示其对应的特征词，训练得出的词向量包含一定的语义信息，语义相似的词在语义空间中应该是相近的。

本实施例的word2vec模型采用Word2vec中的CBOW训练模型，将第一原始文本对应的特征词输入CBOW训练模型，输出各个特征词对应的词向量。

S402：将所述第一原始文本对应的词向量输入文本向量计算公式，输出所述第一原始文本的文本向量。

在一个实施例中，所述文本向量计算公式为：

式(2)中，V_d表示所述原始文本d的文本向量，V_i表示原始文本d对应的词向量i，TFIDF(i,d)表示原始文本d中词向量i的权重。

S103：计算各个文本向量的局部密度和相对最小距离，并根据各个文本向量的局部密度和相对最小距离，从所有文本向量中选出初始聚类中心。

在本实施例中，首先计算各个文本向量的局部密度和相对最小距离，其具体计算过程为：

将文本向量作为样本点组成数据集，则对于具有n个样本点的数据集，局部密度ρ_a的定义为：

式(3)中，Dis(a,j)表示样本点a和j之间的距离，d_c表示截断距离，通常选取数据集中所有样本点之间的前1％～2％的距离。相对最小距离σ_a的定义为：

当样本点a的局部密度ρ_a为最大时，样本点a的相对最小距离如式(5)所示：

由上式(3)和式(4)确定文本向量的局部密度和相对最小距离；特殊的，当样本点a为所有样本点中局部密度最大的样本点时，采用公式(5)计算相对最小距离。

在一个实施例中，S103的具体实现流程还包括：

S501：将第一文本向量的局部密度和相对最小距离相乘，得到所述第一文本向量的决策参数；所述第一文本向量为任一文本向量；

在本实施例中，根据决策参数计算式(6)计算决策参数，如下所示：

γ_a＝ρ_a×σ_a (6)

其中，γ_a表示决策参数。

S502：选取决策参数最大的文本向量作为初始聚类中心。

在本实施例中，将γ_a作为纵坐标，将文本向量对应的样本点的编号作为横坐标，得到决策图如图3所示，γ_a越大越有可能成为聚类中心点，因此选取决策参数最大的文本向量作为初始聚类中心。

S104：采用所述初始聚类中心对各个文本向量进行聚类，输出文本聚类结果。

在本实施例中，使用得到的最具有代表性的初始聚类中心进行K-Means聚类，当聚类中心点不再发生变化或达到最大迭代次数时算法终止，输出各个原始文本的聚类结果。

相比于传统K-Means聚类算法，本实施例提供的文本聚类方法在文本聚类上的准确率，召回率，F度量值等三个指标上均有不同程度的提升，并且初始聚类中心的确定提高了聚类结果稳定性和聚类质量。

应理解，上述实施例中各步骤的序号的大小并不意味着执行顺序的先后，各过程的执行顺序应以其功能和内在逻辑确定，而不应对本发明实施例的实施过程构成任何限定。

在本发明的一个实施例中，如图2所示，图2示出了本实施例提供的K-Means文本聚类装置100的结构，其包括：

特征词确定模块110，用于提取原始文本数据集中各个原始文本对应的特征词，所述原始文本数据集包括至少一个原始文本；

文本向量获取模块120，用于根据各个原始文本对应的特征词确定各个原始文本对应的文本向量；

初始聚类中心选取模块130，用于计算各个文本向量的局部密度和相对最小距离，并根据各个文本向量的局部密度和相对最小距离，从所有文本向量中选出初始聚类中心；

文本聚类模块140，用于采用所述初始聚类中心对各个文本向量进行聚类，输出文本聚类结果。

在一个实施例中，本实施例提供的特征词确定模块110包括：

初始分词单元，用于对原始文本数据集进行分词处理，得到初始分词；

特征词获取单元，用于基于词频逆文档频率算法和各个原始文本对应的初始分词，确定各个原始文本对应的特征词。

在一个实施例中，特征词获取单元包括：

权重计算子单元，用于根据TF-IDF计算公式计算各个初始分词在对应原始文本中的权重；

特征词获取子单元，用于根据各个初始分词在对应原始文本中的权重，确定各个原始文本对应的特征词；

所述TF-IDF计算公式为：

其中，TFIDF(i,d)表示原始文本d中初始分词i的权重，T_i表示初始分词i出现的次数，T_d表示原始文本d中总的初始分词数量，D_d表示原始文本总数量，D_t表示包含初始分词i的原始文本数量。

在一个实施例中，权重计算子单元包括：

分词序列获取子单元，用于对第一原始文本的初始分词按照权重由大到小的顺序进行排序，得到所述第一原始文本的分词序列；所述第一原始文本为所述原始文本数据集中的任一原始文本；

特征词选取子单元，用于选取所述第一原始文本的分词序列中前N个初始分词作为所述第一原始文本的特征词，所述N≥1。

在一个实施例中，文本向量获取模块120包括：

向量化单元，用于对第一原始文本对应的特征词使用word2vec模型进行词向量化，所述第一原始文本为所述原始文本数据集中的任一原始文本；

文本向量获取单元，用于将所述第一原始文本对应的词向量输入文本向量计算公式，输出所述第一原始文本的文本向量。

所述文本向量计算公式为：

其中，V_d表示所述原始文本d的文本向量，V_i表示原始文本d对应的词向量i，TFIDF(i,d)表示原始文本d中词向量i的权重。

在一个实施例中，初始聚类中心选取模块130包括：

决策参数计算单元，用于将第一文本向量的局部密度和相对最小距离相乘，得到所述第一文本向量的决策参数；所述第一文本向量为任一文本向量；

初始聚类中心选取单元，用于选取决策参数最大的文本向量作为初始聚类中心。

图4是本发明一实施例提供的终端设备4的示意图。如图4所示，该实施例的终端设备4包括：处理器40、存储器41以及存储在所述存储器41中并可在所述处理器40上运行的计算机程序42。所述处理器40执行所述计算机程序42时实现上述各个文本聚类方法实施例中的步骤，例如图1所示的步骤101至104。或者，所述处理器40执行所述计算机程序42时实现上述各装置实施例中各模块/单元的功能，例如图2所示模块110至140的功能。

所述计算机程序42可以被分割成一个或多个模块/单元，所述一个或者多个模块/单元被存储在所述存储器41中，并由所述处理器40执行，以完成本发明。所述一个或多个模块/单元可以是能够完成特定功能的一系列计算机程序指令段，该指令段用于描述所述计算机程序42在所述终端设备4中的执行过程。

所述终端设备4可以是桌上型计算机、笔记本、掌上电脑及云端服务器等计算设备。所述终端设备可包括，但不仅限于，处理器40、存储器41。本领域技术人员可以理解，图4仅仅是终端设备4的示例，并不构成对终端设备4的限定，可以包括比图示更多或更少的部件，或者组合某些部件，或者不同的部件，例如所述终端设备还可以包括输入输出设备、网络接入设备、总线等。

所称处理器40可以是中央处理单元(Central Processing Unit，CPU)，还可以是其他通用处理器、数字信号处理器(Digital Signal Processor，DSP)、专用集成电路(Application Specific Integrated Circuit，ASIC)、现成可编程门阵列(Field-Programmable Gate Array，FPGA)或者其他可编程逻辑器件、分立门或者晶体管逻辑器件、分立硬件组件等。通用处理器可以是微处理器或者该处理器也可以是任何常规的处理器等。

所述存储器41可以是所述终端设备4的内部存储单元，例如终端设备4的硬盘或内存。所述存储器41也可以是所述终端设备4的外部存储设备，例如所述终端设备4上配备的插接式硬盘，智能存储卡(Smart Media Card,SMC)，安全数字(Secure Digital,SD)卡，闪存卡(Flash Card)等。进一步地，所述存储器41还可以既包括所述终端设备4的内部存储单元也包括外部存储设备。所述存储器41用于存储所述计算机程序以及所述终端设备4所需的其他程序和数据。所述存储器41还可以用于暂时地存储已经输出或者将要输出的数据。

所属领域的技术人员可以清楚地了解到，为了描述的方便和简洁，仅以上述各功能单元、模块的划分进行举例说明，实际应用中，可以根据需要而将上述功能分配由不同的功能单元、模块完成，即将所述装置的内部结构划分成不同的功能单元或模块，以完成以上描述的全部或者部分功能。实施例中的各功能单元、模块可以集成在一个处理单元中，也可以是各个单元单独物理存在，也可以两个或两个以上单元集成在一个单元中，上述集成的单元既可以采用硬件的形式实现，也可以采用软件功能单元的形式实现。另外，各功能单元、模块的具体名称也只是为了便于相互区分，并不用于限制本申请的保护范围。上述系统中单元、模块的具体工作过程，可以参考前述方法实施例中的对应过程，在此不再赘述。

在上述实施例中，对各个实施例的描述都各有侧重，某个实施例中没有详述或记载的部分，可以参见其它实施例的相关描述。

本领域普通技术人员可以意识到，结合本文中所公开的实施例描述的各示例的单元及算法步骤，能够以电子硬件、或者计算机软件和电子硬件的结合来实现。这些功能究竟以硬件还是软件方式来执行，取决于技术方案的特定应用和设计约束条件。专业技术人员可以对每个特定的应用来使用不同方法来实现所描述的功能，但是这种实现不应认为超出本发明的范围。

在本发明所提供的实施例中，应该理解到，所揭露的装置/终端设备和方法，可以通过其它的方式实现。例如，以上所描述的装置/终端设备实施例仅仅是示意性的，例如，所述模块或单元的划分，仅仅为一种逻辑功能划分，实际实现时可以有另外的划分方式，例如多个单元或组件可以结合或者可以集成到另一个系统，或一些特征可以忽略，或不执行。另一点，所显示或讨论的相互之间的耦合或直接耦合或通讯连接可以是通过一些接口，装置或单元的间接耦合或通讯连接，可以是电性，机械或其它的形式。

所述作为分离部件说明的单元可以是或者也可以不是物理上分开的，作为单元显示的部件可以是或者也可以不是物理单元，即可以位于一个地方，或者也可以分布到多个网络单元上。可以根据实际的需要选择其中的部分或者全部单元来实现本实施例方案的目的。

另外，在本发明各个实施例中的各功能单元可以集成在一个处理单元中，也可以是各个单元单独物理存在，也可以两个或两个以上单元集成在一个单元中。上述集成的单元既可以采用硬件的形式实现，也可以采用软件功能单元的形式实现。

所述集成的模块/单元如果以软件功能单元的形式实现并作为独立的产品销售或使用时，可以存储在一个计算机可读取存储介质中。基于这样的理解，本发明实现上述实施例方法中的全部或部分流程，也可以通过计算机程序来指令相关的硬件来完成，所述的计算机程序可存储于一计算机可读存储介质中，该计算机程序在被处理器执行时，可实现上述各个方法实施例的步骤。。其中，所述计算机程序包括计算机程序代码，所述计算机程序代码可以为源代码形式、对象代码形式、可执行文件或某些中间形式等。所述计算机可读介质可以包括：能够携带所述计算机程序代码的任何实体或装置、记录介质、U盘、移动硬盘、磁碟、光盘、计算机存储器、只读存储器(ROM，Read-Only Memory)、随机存取存储器(RAM，Random Access Memory)、电载波信号、电信信号以及软件分发介质等。需要说明的是，所述计算机可读介质包含的内容可以根据司法管辖区内立法和专利实践的要求进行适当的增减，例如在某些司法管辖区，根据立法和专利实践，计算机可读介质不包括电载波信号和电信信号。

以上所述实施例仅用以说明本发明的技术方案，而非对其限制；尽管参照前述实施例对本发明进行了详细的说明，本领域的普通技术人员应当理解：其依然可以对前述各实施例所记载的技术方案进行修改，或者对其中部分技术特征进行等同替换；而这些修改或者替换，并不使相应技术方案的本质脱离本发明各实施例技术方案的精神和范围，均应包含在本发明的保护范围之内。

Claims

1.一种K-Means文本聚类方法，其特征在于，包括：

2.如权利要求1所述的K-Means文本聚类方法，其特征在于，所述提取原始文本数据集中各个原始文本对应的特征词，包括：

对原始文本数据集进行分词处理，得到初始分词；

基于词频逆文档频率算法和各个原始文本对应的初始分词，确定各个原始文本对应的特征词。

3.如权利要求2所述的K-Means文本聚类方法，其特征在于，所述基于词频逆文档频率算法和各个原始文本对应的初始分词，确定各个原始文本对应的特征词，包括：

根据TF-IDF计算公式计算各个初始分词在对应原始文本中的权重；

根据各个初始分词在对应原始文本中的权重，确定各个原始文本对应的特征词；

所述TF-IDF计算公式为：

4.如权利要求3所述的K-Means文本聚类方法，其特征在于，所述根据各个初始分词在对应原始文本中的权重，确定各个原始文本对应的特征词，包括：

5.如权利要求1所述的K-Means文本聚类方法，其特征在于，所述根据各个原始文本对应的特征词确定各个原始文本对应的文本向量，包括：

对第一原始文本对应的特征词使用word2vec模型进行词向量化，所述第一原始文本为所述原始文本数据集中的任一原始文本；

将所述第一原始文本对应的词向量输入文本向量计算公式，输出所述第一原始文本的文本向量。

6.如权利要求5所述的K-Means文本聚类方法，其特征在于，所述文本向量计算公式为：

7.如权利要求1至6任一项所述的K-Means文本聚类方法，其特征在于，所述根据各个文本向量的局部密度和相对最小距离，从所有文本向量中选出初始聚类中心，包括：

将第一文本向量的局部密度和相对最小距离相乘，得到所述第一文本向量的决策参数；所述第一文本向量为任一文本向量；

选取决策参数最大的文本向量作为初始聚类中心。

8.一种K-Means文本聚类装置，其特征在于，包括：

9.一种终端设备，包括存储器、处理器以及存储在所述存储器中并可在所述处理器上运行的计算机程序，其特征在于，所述处理器执行所述计算机程序时实现如权利要求1至7任一项所述方法的步骤。

10.一种计算机可读存储介质，所述计算机可读存储介质存储有计算机程序，其特征在于，所述计算机程序被处理器执行时实现如权利要求1至7任一项所述方法的步骤。