[go: up one dir, main page]

CN114330294B - 一种基于文本句法分析的人物言论抽取方法 - Google Patents

一种基于文本句法分析的人物言论抽取方法 Download PDF

Info

Publication number
CN114330294B
CN114330294B CN202111651242.3A CN202111651242A CN114330294B CN 114330294 B CN114330294 B CN 114330294B CN 202111651242 A CN202111651242 A CN 202111651242A CN 114330294 B CN114330294 B CN 114330294B
Authority
CN
China
Prior art keywords
sentence
word
trigger
speech
list
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Active
Application number
CN202111651242.3A
Other languages
English (en)
Other versions
CN114330294A (zh
Inventor
汤世松
贺成龙
梁增玉
李惠柯
刘蛰
高峰
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Nanjing Laiwangxin Technology Research Institute Co ltd
CETC 28 Research Institute
Original Assignee
Nanjing Laiwangxin Technology Research Institute Co ltd
CETC 28 Research Institute
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Nanjing Laiwangxin Technology Research Institute Co ltd, CETC 28 Research Institute filed Critical Nanjing Laiwangxin Technology Research Institute Co ltd
Priority to CN202111651242.3A priority Critical patent/CN114330294B/zh
Publication of CN114330294A publication Critical patent/CN114330294A/zh
Application granted granted Critical
Publication of CN114330294B publication Critical patent/CN114330294B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Landscapes

  • Machine Translation (AREA)

Abstract

本发明提供了一种基于文本句法分析的人物言论抽取方法,针对提供的人物信息和文本信息,抽取文本中出现的人物言论。包括构建触发词字典,即针对初始的言论触发词,以近义词技术,扩展触发词,构建完善的触发词字典;文本分句,即将整个文本按完整的句子进行切分;句子过滤,根据句子中是否命中提供的人物信息,是否命中触发词信息,进行候选句筛选;言论判定,即依据句法分析,判定人物和触发词之间的关系,判定该语句是否为人物言论。本发明的人物言论抽取方法能够简单,高效,准确地抽取文本中的人物言论信息。

Description

一种基于文本句法分析的人物言论抽取方法
技术领域
本发明涉及文本信息抽取技术领域,尤其涉及一种基于文本句法分析的人物言论抽取方法。
背景技术
随着时代的演进,经济、社会、生产、生活越来越依赖网络,通过网络获取信息,也成为人们日常生活工作中必不可少的环节。面对海量的信息,冗长的报道,如何快速,有效地获取涉事主要人物的言论,成为提升阅读效率必不可少的一项需求,因此,针对人物言论抽取的研究具有十分重要的意义。
目前关于人物言论抽取的方法主要有基于规则的方法和基于机器学习、深度学习的方法。其中基于规则的方法多采用触发词的方式,但是很少有对触发词字典的构建有较深的研究,同时,该类方法大多没有关注句子中触发词与人物词之间的关系,导致抽取的精度降低。而对于基于机器学习个深度学习的方法,尽管不受触发词典的约束,但是前期的训练预料标注需要投入大量的人力资源,而且当目标文本和训练样本偏差较大时,效果往往效果一般,同时,深度学习的方法往往算法的复杂度较高,实际操作环节中,依赖更好的硬件资源作基础。
发明内容
发明目的:本发明的主要目的在于解决现有技术的缺陷,并发明一种基于规则的,能够自动扩充触发词,并引入句法分析判断触发词和人物之间的关系作为补充,最终以提供一种准确的,高效的人物言论抽取方法。
本发明提供了一种基于文本句法分析的人物言论抽取方法,包括以下步骤:
步骤S1,构建言论触发词字典:针对初始的言论触发词,以近义词技术,扩展触发词,构建触发词字典;
步骤S2,文本分句:将整个文本按完整的句子进行切分;
步骤S3,句子过滤;
步骤S4,言论判定。
步骤S1中,所述构建触发词字典是采用初始的触发词列表L:[W1,W2,…,Wn-1,Wn],其中W1,W2,…,Wn-1,Wn依次对应第1个,第2个,第3个,…,第n个初始触发词;初始触发词为新闻类舆情数据中初筛获得的言论类触发词。初始触发词的个数在20个以内,包括:“说”、“表示”、“告诉”、“指出”、“透露”、“坦言”、“声明”等整理的词汇。通过多种近义词方式对初始言论类触发词进行扩充。
步骤S1中,所述通过多种近义词扩充方式进行扩充包括基于同义词词林搜索近义词的扩充方式和基于词向量的word2vec搜索近义词的扩充方式,所述word2vec采用的训练语料是自己标注的舆情领域新闻类业务数据,因此,更适用于人物言论触发词对应的近义词的扩充。
针对第1个初始触发词W1,具体包括如下步骤:
步骤a1,以W1作为输入,通过同义词词林搜索W1的近义词,返回W1的近义词集合L1,其中,L1的计算公式为:
L1={W1 i|sim(W1,W1 i)>0.6}
为统一表述,采用列表代替集合,记L1为:[W1 1,W1 2,W1 3,W1 4,…,W1 k],W1 i表示W1通过同义词词林搜索的第i个近义词,其中:此处k的取值最小设置为20,最大对应为W1的所有近义词中与W1相似度大于60%的个数。特别地,当W1的所有近义词中与W1相似度阈值大于60%的个数不足20时,则从相似度从高到低选取W1的近义词,以补足20个。
步骤a2,以W1作为输入,通过word2vec搜索W1的近义词,返回W1的近义词集合L’1:其中,L’1计算公式为:
L’1={W1 i|simword2vec(W1,W1 i)>0.6}
为统一表述,采用列表代替集合,记L’1为:[W’1 1,W’1 2,W’1 3,W’1 4,…,W’1 k],W’1 i表示W1通过word2vec搜索的第i个近义词,其中:此处k的取值最小设置为20,最大对应为W1的所有word2vec搜索的近义词中与W1相似度大于60%的个数。特别地,当W1的所有word2vec搜索的近义词中与W1相似度阈值大于60%的个数不足20时,从相似度从高到低选取W1的近义词,以补足20个。
步骤a3,依次对步骤a1所得的L1列表中的各词汇进行步骤a2的操作,得到L1列表中的所有词汇对应的近义词列表L1_total
步骤a4,依次步骤a2所得的L’1列表中的词汇,进行步骤a1的操作,得到L’1列表中的所有词汇对应的近义词列表L’1_total
步骤a5,对L1、L'1、L1_total和L’1_total进行合并去重,得到W1的候选词库,并进一步进行筛选,最终得到触发词W1对应的所有的近义触发词;
针对初始的触发词列表L中的触发词,进行步骤a1~步骤a5的操作,得到W1,W2,…,Wn-1,Wn对应的所有的近义触发词,最终将W1,W2,…,Wn-1,Wn对应的所有触发词进行合并去重,构建触发词字典。
步骤S2中,所述文本分句采用先定位句子分隔符的位置,得到有序的分隔符位置列表信息,再根据位置列表信息进行初步分句;其中定位句子分隔符采用标点符号、换行、及空格的方式。
步骤S2中,采用一种双引号识别方法,以用于确定分隔符是否能做作为实际的分隔符。
步骤S2中,所述采用一种双引号识别方法,以用于确定分隔符是否能做作为实际的分隔符,具体包括:将文本初步按照分隔符进行分隔,得到有序的分隔符位置列表信息,记为P:[x1,x2,x3,…,xm-1,xm],其中,x1,x2,x3,…,xm-1,xm分别表示分隔符在句子中出现的位置,[1,x1]对应第一句话的起止位置,从左往右遍历分隔符位置列表,第一次遍历,句子的开始L所在的位置固定为1,句子的结束R对应的位置为x1,起始位置L和结束位置R构成预分句S,判定预分句S中双引号是否满足:
1)双引号个数是否为偶数;
2)第一个是否为左引号,最后一个是否为右引号;
如果上述两个条件均满足,则S作为一个完整的句子输出,下一次遍历将本次句子的结束x1+1作为句子的开始L,x1的下一个元素x2作为句子的结束R,构成预分句S,继而进行同样的判定操作。
步骤S3包括:对每个句子进行分词,判定分词后的句子是否包含已知的人物信息和触发词信息,如果均包含,则将所述句子作为候选言论语句。
步骤S3中,所述对每个句子进行分词,具体包括:通过大规模语料库,分析并抽取各个词条的词性及出现的次数,以构造一个分词词字典,用于对句子分词的词图扫描,生成句子中所有汉字所可能成词情况所构成的有向无环图;对于所述有向无环图,根据各个词条出现的概率求得每一种分词情况的初始分词概率,再引入分词惩罚因子C,得到最终的分词概率,选取最终的分词概率中的最大值作为分词的结果。
步骤S3中,采用如下公式计算初始分词概率Pini
Pini_i=P(wi_1)×P(wi_2)×…×P(wi_n)
其中,wi_n表示第i种可能的分词情况下的第n词,P(wi_n)表示第n个词汇wi_n的分词概率;
如待分词语句“在南京大学玩”,其存在多条路径,即多个分词结果,如下:
路径1:在/南/京/大/学/玩
路径2:在/南京/大/学/玩
路径3:在/南京/大学/玩
路径4:在/南京大学/玩
路径1-4对应的初始分词概率分别为:
Pini_1=P(在)×P(南)×P(京)×P(大)×P(学)×P(玩)
Pini_2=P(在)×P(南京)×P(大)×P(学)×P(玩)
Pini_3=P(在)×P(南京)×P(大学)×P(玩)
Pini_4=P(在)×P(南京大学)×P(玩)
所述分词词字典包括公共词分词字典和领域词分词字典;公共词分词字典满足大部分情境下分词要求。公共词分词字典包含近40万词的词频,词性,该部分词主要由新闻语料、微信语料、论坛语料等构成的公共预料训练后,再经人工审核得来。领域词分词字典则更侧重于特定人物,地点,机构和专有领域的相关词汇。
最终的分词概率Pfinal计算公式为:
Pfinal_i=Cn×Pini_i
其中Pfinal_i为第i种可能的分词情况下的最终分词概率;C取值在[0.5,0.9]之间,一般选取0.8,n为语句中未将成功领域词切分出来的个数;如待分词语句“在南京大学玩”,如果“南京大学”为领域词,选取惩罚因子C为0.5,则针对上述四种分词路径,最终的分词概率分别为:
Pfinal_1=0.51×Pini_1
Pfinal_2=0.51×Pini_2
Pfinal_3=0.51×Pini_3
Pfinal_4=0.50×Pini_4
最终,选取最大的Pfinal_i对应的分词路径即为最终的分词结果。
步骤S4包括:对候选言论语句采用句法分析,判定人物和触发词之间是否为主谓关系,如果为主谓关系,则判定句子为人物言论。
有益效果:本发明人物言论抽取方法能够从全面的触发词构建,精准的句子切分,快速的句子过滤和合理的言论判定等多个步骤进行人物言论的抽取,从而提供一种准确的,高效的人物言论抽取方法。
附图说明
下面结合附图和具体实施方式对本发明做更进一步的具体说明,本发明的上述和/或其他方面的优点将会变得更加清楚。
图1为本发明的人物言论抽取整体流程方框图。
图2为发明的触发词字典构建流程图。
图3为本发明的文本分句流程图。
图4为本发明的句子过滤流程图。
图5为本发明的言论判定流程图。
具体实施方式
如图1所示为本发明实施例的一种基于文本句法分析的人物言论抽取方法整体流程框图,包括构建触发词字典,文本分句,句子过滤,言论判定。
如图2所示为本发明实施例的构建触发词字典步骤,采用同义词林查找和word2vec查找两种扩充方式实现触发词的扩充,具体步骤为将初始触发词分别作为同义词林查找和word2vec查找的输入数据,分别得到两组候选词集,再将得到的候选词集作为另一种扩充方式的输入,最终得到更多的候选词集,最终通过人工研判,构成触发词字典。
如图3所为本发明实施例的文本分句步骤,根据标点符号,空格、换行等信息作为分句分隔符,匹配得到分隔符位置列表信息,记为:
P=[x1,x2,x3,…,xm-1,xm]
从左往右遍历分隔符位置列表P,第一次遍历,句子的开始L所在的位置固定为1,句子的结束R对应的位置为x1,起始位置L和结束位置R构成预分句S。
判定预分句S中双引号是否满足:
1)双引号个数是否为偶数,确保双引号成对出现;
2)第一个是否为左引号,最后一个是都为右引号;
若均满足,则S作为一个完整的句子输出,下一次遍历将本次句子的结束位置x1的下一个位置x1+1作为句子的开始位置L,并采用分隔符列表P中x1的下一个元素x2作为句子的结束位置R,起始位置L和结束位置R构成预分句构成预分句S,继而进行同样的判定操作。
若任一个不满足,则S不能作为一个完整的句子输出,选择分隔符列表P中x1的下一个元素x2作为句子的结束R,构成预分句S,继而进行同样的判定操作。
循环往复,直至完成遍历。
如图4所示为本发明的句子过滤流程图,对文本分句得到的句子列表进行遍历,对每个句子进行分词,判定分词后是否包含已知的人物信息和触发词信息,如果均包含,则作为候选言论语句。
如图5所示为本发明的言论判定流程图,对文本句子过滤后得到的句子列表进行遍历,对每个句子进行分词并对分词结果进行句法分析,判定所出现的人物和触发词之间是否是主谓关系,若为主谓关系,则判定该句为言论语句。
实施例
本实施例提供了一种基于文本句法分析的人物言论抽取方法,包括如下步骤:
步骤S1,构建言论触发词字典:针对初始的言论触发词,以近义词技术,扩展触发词,构建触发词字典;
步骤S2,文本分句:将整个文本按完整的句子进行切分;
步骤S3,句子过滤;
步骤S4,言论判定。
步骤S1中,所述构建触发词字典是采用初始的触发词列表L:[W1,W2,…,Wn-1,Wn],通过多种近义词方式进行扩充,其中,W1,W2,…,Wn-1,Wn为人工由新闻类舆情数据中初筛获得的初始言论类触发词,比如“说”、“表示”、“告诉”、“指出”、“透露”、“坦言”、“声明”等词汇。
步骤S1中,所述通过多种近义词扩充方式进行扩充包括基于同义词词林搜索近义词的扩充方式和基于词向量的word2vec搜索近义词的扩充方式,针对初始触发词W1,具体包括如下步骤:
步骤a1,以W1作为输入,通过同义词词林搜索W1的近义词,返回W1的近义词列表L1:[W1 1,W1 2,W1 3,W1 4,…,W1 k];
步骤a2,以W1作为输入,通过word2vec搜索W1的近义词,返回W1的近义词列表L’1:[W’1 1,W’1 2,W’1 3,W’1 4,…,W’1 k],其中,所述word2vec采用的训练语料是自己标注的舆情领域新闻类业务数据,因此,更适用于人物言论触发词对应的近义词的扩充;
步骤a3,依次对步骤a1所得的L1列表中的各词汇进行步骤a2的操作,得到L1列表中的所有词汇对应的近义词列表L1_total
步骤a4,依次步骤a2所得的L’1列表中的词汇,进行步骤a1的操作,得到L’1列表中的所有词汇对应的近义词列表L’1_total
步骤a5,对L1、L'1、L1_total和L’1_total进行合并去重,得到W1的候选词库,并进一步进行人工筛选,最终得到触发词W1对应的所有的近义触发词;
针对初始的触发词列表L中的触发词,进行步骤a1~步骤a5的操作,得到W1,W2,…,Wn-1,Wn对应的所有的近义触发词,最终将W1,W2,…,Wn-1,Wn对应的所有触发词进行合并去重,构建触发词字典。
步骤S2中,所述文本分句采用先定位句子分隔符的位置,得到有序的分隔符位置列表信息,再根据位置列表信息进行初步分句;其中定位句子分隔符采用标点符号、换行、及空格的方式,其集合如下所示:{。?;!!.?\n\r\r\n......space~}。如下一段话所示。
“据我所知,在7月初,全国应该达到(覆盖率)40%,今年年底能够达到80%。按照疫苗保护率达到70%计算,中国的新冠疫苗覆盖率需要达到近80%,才有可能形成群体免疫。”钟南山对中新社记者说。本着自愿的原则,18至60周岁符合身体条件的中国公民均可免费接种新冠疫苗.居民甲、乙准备接种疫苗,其居住地及工作单位附近有两个大型医院和两个社区卫生服务中心均可免费接种疫苗。
上述语段经过分隔符分句后,得到的句子列表为:
(1)“据我所知,在7月初,全国应该达到(覆盖率)40%,今年年底能够达到80%。
(2)按照疫苗保护率达到70%计算,中国的新冠疫苗覆盖率需要达到近80%,才有可能形成群体免疫。
(3)”钟南山对中新社记者说。
(4)本着自愿的原则,18至60周岁符合身体条件的中国公民均可免费接种新冠疫苗.居民甲、乙准备接种疫苗,其居住地及工作单位附近有两个大型医院和两个社区卫生服务中心均可免费接种疫苗。
在针对人物言论采用双引号进行表示,而对于双引号中的分隔符,并不能代表句子的结束,因此采用一种双引号识别方法,判定是否为双引号中的分隔符,如果是,则不在该分隔符处进行分句。如上述示例语句中,第一个句号和第二个句号均出现在双引号里面,因此均不作为分隔符。第三个句号则出现在双引号外面,因此可作为分隔符。
步骤S2中,所述采用一种双引号识别方法,以用于确定分隔符是否能做作为实际的分隔符。其具体实施为:将文本初步按照分隔符进行分隔,得到有序的分隔符位置列表信息,记为P:[x1,x2,x3,…,xm-1,xm],其中,x1,x2,x3,…,xm-1,xm分别表示分隔符在句子中出现的位置。因此,[1,x1]对应第一句候选语句的起止位置,[x1+1,x2]对应第二个候选语句的起止位置。从左往右遍历分隔符位置列表,第一次遍历,选择1作为句子的开始位置L,选择分隔符位置列表信息中的x1则作为句子的结束R,构成预分句S,判定预分句S中双引号是否满足:
1)双引号个数是否为偶数;
2)第一个是否为左引号,最后一个是否为右引号;
如果上述两个条件均满足,则S作为一个完整的句子输出,下一次遍历将本次句子的结束位置x1的下一个位置x1+1作为句子的开始位置L,并采用分隔符列表P中x1的下一个元素x2作为句子的结束位置R,构成下一个预分句S,继而进行同样的判定操作;
以如下段文字作为案例。
“据我所知,在7月初,全国应该达到(覆盖率)40%,今年年底能够达到80%。按照疫苗保护率达到70%计算,中国的新冠疫苗覆盖率需要达到近80%,才有可能形成群体免疫。”钟南山对中新社记者说。本着自愿的原则,18至60周岁符合身体条件的中国公民均可免费接种新冠疫苗.居民甲、乙准备接种疫苗,其居住地及工作单位附近有两个大型医院和两个社区卫生服务中心均可免费接种疫苗。
若不采用本发明所述方法,分句结果为:
(1)“据我所知,在7月初,全国应该达到(覆盖率)40%,今年年底能够达到80%。
(2)按照疫苗保护率达到70%计算,中国的新冠疫苗覆盖率需要达到近80%,才有可能形成群体免疫。
(3)”钟南山对中新社记者说。
(4)本着自愿的原则,18至60周岁符合身体条件的中国公民均可免费接种新冠疫苗.居民甲、乙准备接种疫苗,其居住地及工作单位附近有两个大型医院和两个社区卫生服务中心均可免费接种疫苗。
若采用本发明所述方法,分句结果为:
(1)“据我所知,在7月初,全国应该达到(覆盖率)40%,今年年底能够达到80%。按照疫苗保护率达到70%计算,中国的新冠疫苗覆盖率需要达到近80%,才有可能形成群体免疫。”钟南山对中新社记者说。
(2)本着自愿的原则,18至60周岁符合身体条件的中国公民均可免费接种新冠疫苗.居民甲、乙准备接种疫苗,其居住地及工作单位附近有两个大型医院和两个社区卫生服务中心均可免费接种疫苗。
步骤S3包括:对每个句子进行分词,判定分词后的句子是否包含已知的人物信息和触发词信息,如果均包含,则将所述句子作为候选言论语句。其中,分词采用jieba分词,并在jieba分词技术基础上,引入自定义词汇信息,以提升分词在业务场景的准确性。自定义词汇信息包括触发词,舆情领域关键人物,舆情领域关键词等词汇信息。
步骤S4包括:对候选言论语句采用句法分析,判定人物和触发词之间是否为主谓关系,如果为主谓关系,则判定句子为人物言论。如下语句(1)中:“钟南山”作为人物词,“说”作为触发词,二者在句法分析中关系为主谓关系,则该句判定为言论语句。而语句(2)中,尽管同样命中人物“钟南山”和触发词“说”,但二者并非主谓关系,因此该句判为非言论句。
(1)“据我所知,在7月初,全国应该达到(覆盖率)40%,今年年底能够达到80%。按照疫苗保护率达到70%计算,中国的新冠疫苗覆盖率需要达到近80%,才有可能形成群体免疫。”钟南山对中新社记者说。(2)近日,钟南山院士在接受采访时讲了一句很可爱的话,也被很多人津津乐道,这位84位的老人也有很可爱的一面。
本发明提供了一种基于文本句法分析的人物言论抽取方法,具体实现该技术方案的方法和途径很多,以上所述仅是本发明的优选实施方式,应当指出,对于本技术领域的普通技术人员来说,在不脱离本发明原理的前提下,还可以做出若干改进和润饰,这些改进和润饰也应视为本发明的保护范围。本实施例中未明确的各组成部分均可用现有技术加以实现。

Claims (7)

1.一种基于文本句法分析的人物言论抽取方法,其特征在于,包括如下步骤:
步骤S1,构建言论触发词字典:针对初始的言论触发词,以近义词技术,扩展触发词,构建触发词字典;
步骤S2,文本分句:将整个文本按完整的句子进行切分;
步骤S3,句子过滤;
步骤S4,言论判定;
步骤S1中,所述构建触发词字典是采用初始的触发词列表L:[W1,W2,…,Wn-1,Wn],其中W1,W2,…,Wn-1,Wn依次对应第1个,第2个,第3个,…,第n个初始触发词;初始触发词为新闻类舆情数据中初筛获得的言论类触发词;
步骤S1中,通过多种近义词扩充方式进行扩充,包括基于同义词词林搜索近义词的扩充方式和基于词向量的word2vec搜索近义词的扩充方式;
针对第1个初始触发词W1,具体包括如下步骤:
步骤a1,以W1作为输入,通过同义词词林搜索W1的近义词,返回W1的近义词集合L1,其中,L1的计算公式为:
L1={W1 i|sim(W1,W1 i)>0.6}
为统一表述,采用列表代替集合,记L1为:[W1 1,W1 2,W1 3,W1 4,…,W1 k],W1 i表示W1通过同义词词林搜索的第i个近义词;
步骤a2,以W1作为输入,通过word2vec搜索W1的近义词,返回W1的近义词集合L’1:其中,L’1计算公式为:
L’1={W1 i|simword2vec(W1,W1 i)>0.6}
为统一表述,采用列表代替集合,记L’1为:[W’1 1,W’1 2,W’1 3,W’1 4,…,W’1 k],W’1 i表示W1通过word2vec搜索的第i个近义词;
步骤a3,依次对步骤a1所得的L1列表中的各词汇进行步骤a2的操作,得到L1列表中的所有词汇对应的近义词列表L1_total
步骤a4,依次对步骤a2所得的L’1列表中的词汇,进行步骤a1的操作,得到L’1列表中的所有词汇对应的近义词列表L’1_total
步骤a5,对L1、L'1、L1_total和L’1_total进行合并去重,得到W1的候选词库,并进一步进行筛选,最终得到触发词W1对应的所有的近义触发词;
针对初始的触发词列表L中的触发词,进行步骤a1~步骤a5的操作,得到W1,W2,…,Wn-1,Wn对应的所有的近义触发词,最终将W1,W2,…,Wn-1,Wn对应的所有触发词进行合并去重,构建触发词字典;
步骤S4包括:对候选言论语句采用句法分析,判定人物和触发词之间是否为主谓关系,如果为主谓关系,则判定句子为人物言论。
2.根据权利要求1所述的方法,其特征在于,步骤S2中,所述文本分句采用先定位句子分隔符的位置,得到有序的分隔符位置列表信息,再根据位置列表信息进行初步分句;其中定位句子分隔符采用标点符号、换行、及空格的方式。
3.根据权利要求2所述的方法,其特征在于,步骤S2中,采用一种双引号识别方法,以用于确定分隔符是否能做作为实际的分隔符。
4.根据权利要求3所述的方法,其特征在于,步骤S2中,所述采用一种双引号识别方法,以用于确定分隔符是否能做作为实际的分隔符,具体包括:将文本初步按照分隔符进行分隔,得到有序的分隔符位置列表信息,记为P:[x1,x2,x3,…,xm-1,xm],其中,x1,x2,x3,…,xm-1,xm分别表示分隔符在句子中出现的位置,[1,x1]对应第一句话的起止位置,从左往右遍历分隔符位置列表,第一次遍历,句子的开始L所在的位置固定为1,句子的结束R对应的位置为x1,起始位置L和结束位置R构成预分句S,判定预分句S中双引号是否满足:
双引号个数是否为偶数;
第一个是否为左引号,最后一个是否为右引号;
如果上述两个条件均满足,则S作为一个完整的句子输出,下一次遍历将本次句子的结束x1作为句子的开始L,x1的下一个元素x2作为句子的结束R,构成预分句S,继而进行同样的判定操作。
5.根据权利要求4所述的方法,其特征在于,步骤S3包括:对每个句子进行分词,判定分词后的句子是否包含已知的人物信息和触发词信息,如果均包含,则将所述句子作为候选言论语句。
6.根据权利要求5所述的方法,其特征在于,步骤S3中,所述对每个句子进行分词,具体包括:通过大规模语料库,分析并抽取各个词条的词性及出现的次数,以构造一个分词词字典,用于对句子分词的词图扫描,生成句子中所有汉字所可能成词情况所构成的有向无环图;对于所述有向无环图,根据各个词条出现的概率求得每一种分词情况的初始分词概率,再引入分词惩罚因子C,得到最终的分词概率,选取最终的分词概率中的最大值作为分词的结果。
7.根据权利要求6所述的方法,步骤S3中,采用如下公式计算初始分词概率Pini
Pini_i=P(wi_1)×P(wi_2)×…×P(wi_n),
其中,wi_n表示第i种可能的分词情况下的第n词,P(wi_n)表示第n个词汇wi_n的分词概率;
最终的分词概率Pfinal计算公式为:
Pfinal_i=Cv×Pini_i
其中Pfinal_i为第i种可能的分词情况下的最终分词概率;v为语句中未将成功领域词切分出来的个数。
CN202111651242.3A 2021-12-30 2021-12-30 一种基于文本句法分析的人物言论抽取方法 Active CN114330294B (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN202111651242.3A CN114330294B (zh) 2021-12-30 2021-12-30 一种基于文本句法分析的人物言论抽取方法

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN202111651242.3A CN114330294B (zh) 2021-12-30 2021-12-30 一种基于文本句法分析的人物言论抽取方法

Publications (2)

Publication Number Publication Date
CN114330294A CN114330294A (zh) 2022-04-12
CN114330294B true CN114330294B (zh) 2024-09-17

Family

ID=81019262

Family Applications (1)

Application Number Title Priority Date Filing Date
CN202111651242.3A Active CN114330294B (zh) 2021-12-30 2021-12-30 一种基于文本句法分析的人物言论抽取方法

Country Status (1)

Country Link
CN (1) CN114330294B (zh)

Families Citing this family (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN115033571A (zh) * 2022-06-07 2022-09-09 北京奥星贝斯科技有限公司 一种数据拆分方法及装置
CN119248843B (zh) * 2024-11-29 2025-04-04 河北省气象信息中心 气象数据推荐方法、装置、设备及存储介质

Citations (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN104268160A (zh) * 2014-09-05 2015-01-07 北京理工大学 一种基于领域词典和语义角色的评价对象抽取方法
CN105760439A (zh) * 2016-02-02 2016-07-13 西安交通大学 一种基于特定行为共现网络的人物共现关系图谱构建方法

Family Cites Families (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2008203717A (ja) * 2007-02-22 2008-09-04 Oki Electric Ind Co Ltd コーパスベース音声合成のためのテキスト文セット選択方法、そのプログラム、及びその装置
CN111950273B (zh) * 2020-07-31 2023-09-01 南京莱斯网信技术研究院有限公司 基于情感信息抽取分析的网络舆情突发事件自动识别方法

Patent Citations (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN104268160A (zh) * 2014-09-05 2015-01-07 北京理工大学 一种基于领域词典和语义角色的评价对象抽取方法
CN105760439A (zh) * 2016-02-02 2016-07-13 西安交通大学 一种基于特定行为共现网络的人物共现关系图谱构建方法

Also Published As

Publication number Publication date
CN114330294A (zh) 2022-04-12

Similar Documents

Publication Publication Date Title
CN111949758B (zh) 医疗问答推荐方法、推荐系统和计算机可读存储介质
CN111949759B (zh) 病历文本相似度的检索方法、系统及计算机设备
CN107729468B (zh) 基于深度学习的答案抽取方法及系统
CN109408642B (zh) 一种基于距离监督的领域实体属性关系抽取方法
CN104391942B (zh) 基于语义图谱的短文本特征扩展方法
CN114580382A (zh) 文本纠错方法以及装置
CN103324626B (zh) 一种建立多粒度词典的方法、分词的方法及其装置
CN114817556B (zh) 一种变电站工程选址知识图谱构建方法
CN103106189B (zh) 一种挖掘同义属性词的方法和装置
CN109271524B (zh) 知识库问答系统中的实体链接方法
CN114266256B (zh) 一种领域新词的提取方法及系统
CN113033183A (zh) 一种基于统计量与相似性的网络新词发现方法及系统
CN113468891A (zh) 文本处理方法以及装置
CN119557500B (zh) 一种基于ai技术的互联网海量数据精准搜索方法及系统
CN114330294B (zh) 一种基于文本句法分析的人物言论抽取方法
JP6994289B2 (ja) キャラクタ属性に応じた対話シナリオを作成するプログラム、装置及び方法
CN112486919A (zh) 文档管理方法、系统及存储介质
CN109522396B (zh) 一种面向国防科技领域的知识处理方法及系统
CN118838993A (zh) 一种用于构建关键词库的方法及其相关产品
CN103020311B (zh) 一种用户检索词的处理方法及系统
CN116738979A (zh) 基于核心数据识别的电网数据搜索方法、系统及电子设备
CN111325019A (zh) 词库的更新方法及装置、电子设备
CN106126501B (zh) 一种基于依存约束和知识的名词词义消歧方法和装置
Al-Sultany et al. Enriching tweets for topic modeling via linking to the wikipedia
JP6168057B2 (ja) 不具合発生原因抽出装置、不具合発生原因抽出方法および不具合発生原因抽出プログラム

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
GR01 Patent grant
GR01 Patent grant