CN114330294B

CN114330294B - 一种基于文本句法分析的人物言论抽取方法

Info

Publication number: CN114330294B
Application number: CN202111651242.3A
Authority: CN
Inventors: 汤世松; 贺成龙; 梁增玉; 李惠柯; 刘蛰; 高峰
Original assignee: Nanjing Laiwangxin Technology Research Institute Co ltd; CETC 28 Research Institute
Current assignee: Nanjing Laiwangxin Technology Research Institute Co ltd; CETC 28 Research Institute
Priority date: 2021-12-30
Filing date: 2021-12-30
Publication date: 2024-09-17
Anticipated expiration: 2041-12-30
Also published as: CN114330294A

Abstract

本发明提供了一种基于文本句法分析的人物言论抽取方法，针对提供的人物信息和文本信息，抽取文本中出现的人物言论。包括构建触发词字典，即针对初始的言论触发词，以近义词技术，扩展触发词，构建完善的触发词字典；文本分句，即将整个文本按完整的句子进行切分；句子过滤，根据句子中是否命中提供的人物信息，是否命中触发词信息，进行候选句筛选；言论判定，即依据句法分析，判定人物和触发词之间的关系，判定该语句是否为人物言论。本发明的人物言论抽取方法能够简单，高效，准确地抽取文本中的人物言论信息。

Description

一种基于文本句法分析的人物言论抽取方法

技术领域

本发明涉及文本信息抽取技术领域，尤其涉及一种基于文本句法分析的人物言论抽取方法。

背景技术

随着时代的演进，经济、社会、生产、生活越来越依赖网络，通过网络获取信息，也成为人们日常生活工作中必不可少的环节。面对海量的信息，冗长的报道，如何快速，有效地获取涉事主要人物的言论，成为提升阅读效率必不可少的一项需求，因此，针对人物言论抽取的研究具有十分重要的意义。

目前关于人物言论抽取的方法主要有基于规则的方法和基于机器学习、深度学习的方法。其中基于规则的方法多采用触发词的方式，但是很少有对触发词字典的构建有较深的研究，同时，该类方法大多没有关注句子中触发词与人物词之间的关系，导致抽取的精度降低。而对于基于机器学习个深度学习的方法，尽管不受触发词典的约束，但是前期的训练预料标注需要投入大量的人力资源，而且当目标文本和训练样本偏差较大时，效果往往效果一般，同时，深度学习的方法往往算法的复杂度较高，实际操作环节中，依赖更好的硬件资源作基础。

发明内容

发明目的：本发明的主要目的在于解决现有技术的缺陷，并发明一种基于规则的，能够自动扩充触发词，并引入句法分析判断触发词和人物之间的关系作为补充，最终以提供一种准确的，高效的人物言论抽取方法。

本发明提供了一种基于文本句法分析的人物言论抽取方法，包括以下步骤：

步骤S1，构建言论触发词字典：针对初始的言论触发词，以近义词技术，扩展触发词，构建触发词字典；

步骤S2，文本分句：将整个文本按完整的句子进行切分；

步骤S3，句子过滤；

步骤S4，言论判定。

步骤S1中，所述构建触发词字典是采用初始的触发词列表L：[W₁,W₂,…,W_n-1,W_n]，其中W₁,W₂,…,W_n-1,W_n依次对应第1个，第2个，第3个，…，第n个初始触发词；初始触发词为新闻类舆情数据中初筛获得的言论类触发词。初始触发词的个数在20个以内，包括：“说”、“表示”、“告诉”、“指出”、“透露”、“坦言”、“声明”等整理的词汇。通过多种近义词方式对初始言论类触发词进行扩充。

步骤S1中，所述通过多种近义词扩充方式进行扩充包括基于同义词词林搜索近义词的扩充方式和基于词向量的word2vec搜索近义词的扩充方式，所述word2vec采用的训练语料是自己标注的舆情领域新闻类业务数据，因此，更适用于人物言论触发词对应的近义词的扩充。

针对第1个初始触发词W₁，具体包括如下步骤：

步骤a1，以W₁作为输入，通过同义词词林搜索W₁的近义词，返回W₁的近义词集合L₁，其中，L₁的计算公式为：

L₁＝{W₁ ⁱ|sim(W₁,W₁ ⁱ)>0.6}

为统一表述，采用列表代替集合，记L₁为：[W₁ ¹，W₁ ²，W₁ ³，W₁ ⁴，…，W₁ ^k]，W₁ ⁱ表示W₁通过同义词词林搜索的第i个近义词，其中：此处k的取值最小设置为20，最大对应为W₁的所有近义词中与W₁相似度大于60％的个数。特别地，当W₁的所有近义词中与W₁相似度阈值大于60％的个数不足20时，则从相似度从高到低选取W₁的近义词，以补足20个。

步骤a2，以W₁作为输入，通过word2vec搜索W₁的近义词，返回W₁的近义词集合L’₁：其中，L’₁计算公式为：

L’₁＝{W₁ ⁱ|sim_word2vec(W₁,W₁ ⁱ)>0.6}

为统一表述，采用列表代替集合，记L’₁为：[W’₁ ¹，W’₁ ²，W’₁ ³，W’₁ ⁴，…，W’₁ ^k]，W’₁ ⁱ表示W₁通过word2vec搜索的第i个近义词，其中：此处k的取值最小设置为20，最大对应为W₁的所有word2vec搜索的近义词中与W₁相似度大于60％的个数。特别地，当W₁的所有word2vec搜索的近义词中与W₁相似度阈值大于60％的个数不足20时，从相似度从高到低选取W₁的近义词，以补足20个。

步骤a3，依次对步骤a1所得的L₁列表中的各词汇进行步骤a2的操作，得到L₁列表中的所有词汇对应的近义词列表L_{1_total}；

步骤a4，依次步骤a2所得的L’₁列表中的词汇，进行步骤a1的操作，得到L’₁列表中的所有词汇对应的近义词列表L’_{1_total}；

步骤a5，对L₁、L'₁、L_{1_total}和L’_{1_total}进行合并去重，得到W₁的候选词库，并进一步进行筛选，最终得到触发词W₁对应的所有的近义触发词；

针对初始的触发词列表L中的触发词，进行步骤a1～步骤a5的操作，得到W₁,W₂,…,W_n-1,W_n对应的所有的近义触发词，最终将W₁,W₂,…,W_n-1,W_n对应的所有触发词进行合并去重，构建触发词字典。

步骤S2中，所述文本分句采用先定位句子分隔符的位置，得到有序的分隔符位置列表信息，再根据位置列表信息进行初步分句；其中定位句子分隔符采用标点符号、换行、及空格的方式。

步骤S2中，采用一种双引号识别方法，以用于确定分隔符是否能做作为实际的分隔符。

步骤S2中，所述采用一种双引号识别方法，以用于确定分隔符是否能做作为实际的分隔符，具体包括：将文本初步按照分隔符进行分隔，得到有序的分隔符位置列表信息，记为P：[x₁,x₂,x₃,…,x_m-1,x_m]，其中，x₁,x₂,x₃,…,x_m-1,x_m分别表示分隔符在句子中出现的位置，[1,x₁]对应第一句话的起止位置，从左往右遍历分隔符位置列表，第一次遍历，句子的开始L所在的位置固定为1，句子的结束R对应的位置为x₁，起始位置L和结束位置R构成预分句S，判定预分句S中双引号是否满足：

1)双引号个数是否为偶数；

2)第一个是否为左引号，最后一个是否为右引号；

如果上述两个条件均满足，则S作为一个完整的句子输出，下一次遍历将本次句子的结束x₁+1作为句子的开始L，x₁的下一个元素x₂作为句子的结束R，构成预分句S，继而进行同样的判定操作。

步骤S3包括：对每个句子进行分词，判定分词后的句子是否包含已知的人物信息和触发词信息，如果均包含，则将所述句子作为候选言论语句。

步骤S3中，所述对每个句子进行分词，具体包括：通过大规模语料库，分析并抽取各个词条的词性及出现的次数，以构造一个分词词字典，用于对句子分词的词图扫描，生成句子中所有汉字所可能成词情况所构成的有向无环图；对于所述有向无环图，根据各个词条出现的概率求得每一种分词情况的初始分词概率，再引入分词惩罚因子C，得到最终的分词概率，选取最终的分词概率中的最大值作为分词的结果。

步骤S3中，采用如下公式计算初始分词概率P_ini：

P_{ini_i}＝P(w_{i_1})×P(w_{i_2})×…×P(w_{i_n})

其中，w_{i_n}表示第i种可能的分词情况下的第n词，P(w_{i_n})表示第n个词汇w_{i_n}的分词概率；

如待分词语句“在南京大学玩”，其存在多条路径，即多个分词结果，如下：

路径1：在/南/京/大/学/玩

路径2：在/南京/大/学/玩

路径3：在/南京/大学/玩

路径4：在/南京大学/玩

路径1-4对应的初始分词概率分别为：

P_{ini_1}＝P(在)×P(南)×P(京)×P(大)×P(学)×P(玩)

P_{ini_2}＝P(在)×P(南京)×P(大)×P(学)×P(玩)

P_{ini_3}＝P(在)×P(南京)×P(大学)×P(玩)

P_{ini_4}＝P(在)×P(南京大学)×P(玩)

所述分词词字典包括公共词分词字典和领域词分词字典；公共词分词字典满足大部分情境下分词要求。公共词分词字典包含近40万词的词频，词性，该部分词主要由新闻语料、微信语料、论坛语料等构成的公共预料训练后，再经人工审核得来。领域词分词字典则更侧重于特定人物，地点，机构和专有领域的相关词汇。

最终的分词概率P_final计算公式为：

P_{final_i}＝Cⁿ×P_{ini_i}

其中P_final__i为第i种可能的分词情况下的最终分词概率；C取值在[0.5,0.9]之间，一般选取0.8，n为语句中未将成功领域词切分出来的个数；如待分词语句“在南京大学玩”，如果“南京大学”为领域词，选取惩罚因子C为0.5，则针对上述四种分词路径，最终的分词概率分别为：

P_{final_1}＝0.5¹×P_{ini_1}

P_{final_2}＝0.5¹×P_{ini_2}

P_{final_3}＝0.5¹×P_{ini_3}

P_{final_4}＝0.5⁰×P_{ini_4}

最终，选取最大的P_{final_i}对应的分词路径即为最终的分词结果。

步骤S4包括：对候选言论语句采用句法分析，判定人物和触发词之间是否为主谓关系，如果为主谓关系，则判定句子为人物言论。

有益效果：本发明人物言论抽取方法能够从全面的触发词构建，精准的句子切分，快速的句子过滤和合理的言论判定等多个步骤进行人物言论的抽取，从而提供一种准确的，高效的人物言论抽取方法。

附图说明

下面结合附图和具体实施方式对本发明做更进一步的具体说明，本发明的上述和/或其他方面的优点将会变得更加清楚。

图1为本发明的人物言论抽取整体流程方框图。

图2为发明的触发词字典构建流程图。

图3为本发明的文本分句流程图。

图4为本发明的句子过滤流程图。

图5为本发明的言论判定流程图。

具体实施方式

如图1所示为本发明实施例的一种基于文本句法分析的人物言论抽取方法整体流程框图，包括构建触发词字典，文本分句，句子过滤，言论判定。

如图2所示为本发明实施例的构建触发词字典步骤，采用同义词林查找和word2vec查找两种扩充方式实现触发词的扩充，具体步骤为将初始触发词分别作为同义词林查找和word2vec查找的输入数据，分别得到两组候选词集，再将得到的候选词集作为另一种扩充方式的输入，最终得到更多的候选词集，最终通过人工研判，构成触发词字典。

如图3所为本发明实施例的文本分句步骤，根据标点符号，空格、换行等信息作为分句分隔符，匹配得到分隔符位置列表信息，记为：

P＝[x₁,x₂,x₃,…,x_m-1,x_m]

从左往右遍历分隔符位置列表P，第一次遍历，句子的开始L所在的位置固定为1，句子的结束R对应的位置为x₁，起始位置L和结束位置R构成预分句S。

判定预分句S中双引号是否满足：

1)双引号个数是否为偶数，确保双引号成对出现；

2)第一个是否为左引号，最后一个是都为右引号；

若均满足，则S作为一个完整的句子输出，下一次遍历将本次句子的结束位置x₁的下一个位置x₁+1作为句子的开始位置L，并采用分隔符列表P中x₁的下一个元素x₂作为句子的结束位置R，起始位置L和结束位置R构成预分句构成预分句S，继而进行同样的判定操作。

若任一个不满足，则S不能作为一个完整的句子输出，选择分隔符列表P中x₁的下一个元素x₂作为句子的结束R，构成预分句S，继而进行同样的判定操作。

循环往复，直至完成遍历。

如图4所示为本发明的句子过滤流程图，对文本分句得到的句子列表进行遍历，对每个句子进行分词，判定分词后是否包含已知的人物信息和触发词信息，如果均包含，则作为候选言论语句。

如图5所示为本发明的言论判定流程图，对文本句子过滤后得到的句子列表进行遍历，对每个句子进行分词并对分词结果进行句法分析，判定所出现的人物和触发词之间是否是主谓关系，若为主谓关系，则判定该句为言论语句。

实施例

本实施例提供了一种基于文本句法分析的人物言论抽取方法，包括如下步骤：

步骤S2，文本分句：将整个文本按完整的句子进行切分；

步骤S3，句子过滤；

步骤S4，言论判定。

步骤S1中，所述构建触发词字典是采用初始的触发词列表L：[W₁,W₂,…,W_n-1,W_n]，通过多种近义词方式进行扩充，其中，W₁,W₂,…,W_n-1,W_n为人工由新闻类舆情数据中初筛获得的初始言论类触发词，比如“说”、“表示”、“告诉”、“指出”、“透露”、“坦言”、“声明”等词汇。

步骤S1中，所述通过多种近义词扩充方式进行扩充包括基于同义词词林搜索近义词的扩充方式和基于词向量的word2vec搜索近义词的扩充方式，针对初始触发词W₁，具体包括如下步骤：

步骤a1，以W₁作为输入，通过同义词词林搜索W₁的近义词，返回W₁的近义词列表L₁：[W₁ ¹，W₁ ²，W₁ ³，W₁ ⁴，…，W₁ ^k]；

步骤a2，以W₁作为输入，通过word2vec搜索W₁的近义词，返回W₁的近义词列表L’₁：[W’₁ ¹，W’₁ ²，W’₁ ³，W’₁ ⁴，…，W’₁ ^k]，其中，所述word2vec采用的训练语料是自己标注的舆情领域新闻类业务数据，因此，更适用于人物言论触发词对应的近义词的扩充；

步骤a5，对L₁、L'₁、L_{1_total}和L’_{1_total}进行合并去重，得到W₁的候选词库，并进一步进行人工筛选，最终得到触发词W₁对应的所有的近义触发词；

步骤S2中，所述文本分句采用先定位句子分隔符的位置，得到有序的分隔符位置列表信息，再根据位置列表信息进行初步分句；其中定位句子分隔符采用标点符号、换行、及空格的方式，其集合如下所示：{。？；！！.？\n\r\r\n......space～}。如下一段话所示。

“据我所知，在7月初，全国应该达到(覆盖率)40％，今年年底能够达到80％。按照疫苗保护率达到70％计算，中国的新冠疫苗覆盖率需要达到近80％，才有可能形成群体免疫。”钟南山对中新社记者说。本着自愿的原则，18至60周岁符合身体条件的中国公民均可免费接种新冠疫苗.居民甲、乙准备接种疫苗，其居住地及工作单位附近有两个大型医院和两个社区卫生服务中心均可免费接种疫苗。

上述语段经过分隔符分句后，得到的句子列表为：

(1)“据我所知，在7月初，全国应该达到(覆盖率)40％，今年年底能够达到80％。

(2)按照疫苗保护率达到70％计算，中国的新冠疫苗覆盖率需要达到近80％，才有可能形成群体免疫。

(3)”钟南山对中新社记者说。

(4)本着自愿的原则，18至60周岁符合身体条件的中国公民均可免费接种新冠疫苗.居民甲、乙准备接种疫苗，其居住地及工作单位附近有两个大型医院和两个社区卫生服务中心均可免费接种疫苗。

在针对人物言论采用双引号进行表示，而对于双引号中的分隔符，并不能代表句子的结束，因此采用一种双引号识别方法，判定是否为双引号中的分隔符，如果是，则不在该分隔符处进行分句。如上述示例语句中，第一个句号和第二个句号均出现在双引号里面，因此均不作为分隔符。第三个句号则出现在双引号外面，因此可作为分隔符。

步骤S2中，所述采用一种双引号识别方法，以用于确定分隔符是否能做作为实际的分隔符。其具体实施为：将文本初步按照分隔符进行分隔，得到有序的分隔符位置列表信息，记为P：[x₁,x₂,x₃,…,x_m-1,x_m]，其中，x₁,x₂,x₃,…,x_m-1,x_m分别表示分隔符在句子中出现的位置。因此，[1,x₁]对应第一句候选语句的起止位置，[x₁+1,x₂]对应第二个候选语句的起止位置。从左往右遍历分隔符位置列表，第一次遍历，选择1作为句子的开始位置L，选择分隔符位置列表信息中的x₁则作为句子的结束R，构成预分句S，判定预分句S中双引号是否满足：

1)双引号个数是否为偶数；

2)第一个是否为左引号，最后一个是否为右引号；

如果上述两个条件均满足，则S作为一个完整的句子输出，下一次遍历将本次句子的结束位置x₁的下一个位置x₁+1作为句子的开始位置L，并采用分隔符列表P中x₁的下一个元素x₂作为句子的结束位置R，构成下一个预分句S，继而进行同样的判定操作；

以如下段文字作为案例。

若不采用本发明所述方法，分句结果为：

(3)”钟南山对中新社记者说。

若采用本发明所述方法，分句结果为：

(1)“据我所知，在7月初，全国应该达到(覆盖率)40％，今年年底能够达到80％。按照疫苗保护率达到70％计算，中国的新冠疫苗覆盖率需要达到近80％，才有可能形成群体免疫。”钟南山对中新社记者说。

(2)本着自愿的原则，18至60周岁符合身体条件的中国公民均可免费接种新冠疫苗.居民甲、乙准备接种疫苗，其居住地及工作单位附近有两个大型医院和两个社区卫生服务中心均可免费接种疫苗。

步骤S3包括：对每个句子进行分词，判定分词后的句子是否包含已知的人物信息和触发词信息，如果均包含，则将所述句子作为候选言论语句。其中，分词采用jieba分词，并在jieba分词技术基础上，引入自定义词汇信息，以提升分词在业务场景的准确性。自定义词汇信息包括触发词，舆情领域关键人物，舆情领域关键词等词汇信息。

步骤S4包括：对候选言论语句采用句法分析，判定人物和触发词之间是否为主谓关系，如果为主谓关系，则判定句子为人物言论。如下语句(1)中：“钟南山”作为人物词，“说”作为触发词，二者在句法分析中关系为主谓关系，则该句判定为言论语句。而语句(2)中，尽管同样命中人物“钟南山”和触发词“说”，但二者并非主谓关系，因此该句判为非言论句。

(1)“据我所知，在7月初，全国应该达到(覆盖率)40％，今年年底能够达到80％。按照疫苗保护率达到70％计算，中国的新冠疫苗覆盖率需要达到近80％，才有可能形成群体免疫。”钟南山对中新社记者说。(2)近日，钟南山院士在接受采访时讲了一句很可爱的话，也被很多人津津乐道，这位84位的老人也有很可爱的一面。

本发明提供了一种基于文本句法分析的人物言论抽取方法，具体实现该技术方案的方法和途径很多，以上所述仅是本发明的优选实施方式，应当指出，对于本技术领域的普通技术人员来说，在不脱离本发明原理的前提下，还可以做出若干改进和润饰，这些改进和润饰也应视为本发明的保护范围。本实施例中未明确的各组成部分均可用现有技术加以实现。

Claims

1.一种基于文本句法分析的人物言论抽取方法，其特征在于，包括如下步骤：

步骤S2，文本分句：将整个文本按完整的句子进行切分；

步骤S3，句子过滤；

步骤S4，言论判定；

步骤S1中，所述构建触发词字典是采用初始的触发词列表L：[W₁,W₂,…,W_n-1,W_n]，其中W₁,W₂,…,W_n-1,W_n依次对应第1个，第2个，第3个，…，第n个初始触发词；初始触发词为新闻类舆情数据中初筛获得的言论类触发词；

步骤S1中，通过多种近义词扩充方式进行扩充，包括基于同义词词林搜索近义词的扩充方式和基于词向量的word2vec搜索近义词的扩充方式；

针对第1个初始触发词W₁，具体包括如下步骤：

L₁＝{W₁ ⁱ|sim(W₁,W₁ ⁱ)>0.6}

为统一表述，采用列表代替集合，记L₁为：[W₁ ¹，W₁ ²，W₁ ³，W₁ ⁴，…，W₁ ^k]，W₁ ⁱ表示W₁通过同义词词林搜索的第i个近义词；

L’₁＝{W₁ ⁱ|sim_word2vec(W₁,W₁ ⁱ)>0.6}

为统一表述，采用列表代替集合，记L’₁为：[W’₁ ¹，W’₁ ²，W’₁ ³，W’₁ ⁴，…，W’₁ ^k]，W’₁ ⁱ表示W₁通过word2vec搜索的第i个近义词；

步骤a4，依次对步骤a2所得的L’₁列表中的词汇，进行步骤a1的操作，得到L’₁列表中的所有词汇对应的近义词列表L’_{1_total}；

针对初始的触发词列表L中的触发词，进行步骤a1～步骤a5的操作，得到W₁,W₂,…,W_n-1,W_n对应的所有的近义触发词，最终将W₁,W₂,…,W_n-1,W_n对应的所有触发词进行合并去重，构建触发词字典；

2.根据权利要求1所述的方法，其特征在于，步骤S2中，所述文本分句采用先定位句子分隔符的位置，得到有序的分隔符位置列表信息，再根据位置列表信息进行初步分句；其中定位句子分隔符采用标点符号、换行、及空格的方式。

3.根据权利要求2所述的方法，其特征在于，步骤S2中，采用一种双引号识别方法，以用于确定分隔符是否能做作为实际的分隔符。

4.根据权利要求3所述的方法，其特征在于，步骤S2中，所述采用一种双引号识别方法，以用于确定分隔符是否能做作为实际的分隔符，具体包括：将文本初步按照分隔符进行分隔，得到有序的分隔符位置列表信息，记为P：[x₁,x₂,x₃,…,x_m-1,x_m]，其中，x₁,x₂,x₃,…,x_m-1,x_m分别表示分隔符在句子中出现的位置，[1,x₁]对应第一句话的起止位置，从左往右遍历分隔符位置列表，第一次遍历，句子的开始L所在的位置固定为1，句子的结束R对应的位置为x₁，起始位置L和结束位置R构成预分句S，判定预分句S中双引号是否满足：

双引号个数是否为偶数；

第一个是否为左引号，最后一个是否为右引号；

如果上述两个条件均满足，则S作为一个完整的句子输出，下一次遍历将本次句子的结束x₁作为句子的开始L，x₁的下一个元素x₂作为句子的结束R，构成预分句S，继而进行同样的判定操作。

5.根据权利要求4所述的方法，其特征在于，步骤S3包括：对每个句子进行分词，判定分词后的句子是否包含已知的人物信息和触发词信息，如果均包含，则将所述句子作为候选言论语句。

6.根据权利要求5所述的方法，其特征在于，步骤S3中，所述对每个句子进行分词，具体包括：通过大规模语料库，分析并抽取各个词条的词性及出现的次数，以构造一个分词词字典，用于对句子分词的词图扫描，生成句子中所有汉字所可能成词情况所构成的有向无环图；对于所述有向无环图，根据各个词条出现的概率求得每一种分词情况的初始分词概率，再引入分词惩罚因子C，得到最终的分词概率，选取最终的分词概率中的最大值作为分词的结果。

7.根据权利要求6所述的方法，步骤S3中，采用如下公式计算初始分词概率P_ini：

P_{ini_i}＝P(w_{i_1})×P(w_{i_2})×…×P(w_{i_n})，

最终的分词概率P_final计算公式为：

P_{final_i}＝C^v×P_{ini_i}

其中P_{final_i}为第i种可能的分词情况下的最终分词概率；v为语句中未将成功领域词切分出来的个数。