CN114970502B

CN114970502B - 一种应用于数字政府的文本纠错方法

Info

Publication number: CN114970502B
Application number: CN202111633076.4A
Authority: CN
Inventors: 吴琼; 常诚; 王元卓
Original assignee: China Science And Technology Big Data Research Institute
Current assignee: China Science And Technology Big Data Research Institute
Priority date: 2021-12-29
Filing date: 2021-12-29
Publication date: 2023-03-28
Anticipated expiration: 2041-12-29
Also published as: CN114970502A

Abstract

本发明属于计算机技术领域，具体涉及一种应用于数字政府的文本纠错方法，包含模型训练、数据采集、数据清洗、文本纠错、数据存储的方法和流程，将字音、字形和字符作为特征加入预训练模型训练，可以提高字音相近、字形相近的纠错准确率，有效减轻监管、检测人员的工作量，模型纠错准确率约为70%，加入字音、字形作为特征训练纠错模型准确率达到83%。

Description

一种应用于数字政府的文本纠错方法

技术领域

本发明属于计算机技术领域，具体涉及一种应用于数字政府的文本纠错方法。

背景技术

通常通过人工检查、系统监测、公众媒体反馈等方式对网站信息内容进行检测。由于政务公开内容点多面广、信息量庞大、时效性要求高，仅靠人工检查无法达到要求。所以系统检测是最主要的检测方法，其中检测结果的准确性尤其重要，如果错检或漏检都会增加检测人员工作量。

错别字监测常用的方法有错别字词典、编辑距离、语言模型，基于错别字词典的纠错算法，构建字典的人工成本较高，适用于错别字有限的部分垂直领域；基于编辑距离匹配的纠错算法采用类似字符串模糊匹配的方法，通过对照正确样本可以纠正部分常见错别字和语病，但是通用性不足，基于此，研究一种应用于数字政府的文本纠错方法及系统是必要的。

发明内容

针对现有设备存在的缺陷和问题，本发明提供一种应用于数字政府的文本纠错方法，有效的解决了现有的纠错模型存在的人工成本高，通用性差的问题。

本发明解决其技术问题所采用的方案是：一种应用于数字政府的文本纠错方法，包括如下内容步骤：

S1、模型训练

（1）获取语料库

将百科、头条、知乎和新闻作为资源库进行整合，得到语料库；

（2）制定混淆判定规则

所述混淆判定规则包括字形混淆规则、字音混淆规则和字符混淆规则；其中字形混淆规则采用五笔反向编码对字形进行反向五笔分解，并将分解结果输入至字形向量；根据五笔易错库随机替换一个或多个字根，形成对应的字形混淆集，其中替换一个字根的编码距离记作1，对应替换N个字根的编码距离记作N；

所述字音混淆规则通过拼音词典获取字的拼音，进而获得该字拼音的声母、韵母和声调，并将结果输入至字音向量中；根据拼音词典制定如下规则；

①发音相同、音调相同，编辑距离等于0；

②发音相同、音调不同，编辑距离等于1；

③平卷舌、前后鼻音，编辑距离等于1；

④声母或者韵母改变其中一个，编辑距离等于1；

⑤声母和韵母均改变，编辑距离大于1；

选取不同长度的编辑距离生成字音混淆集；

所述字符混淆规则的编辑距离为1，其混淆规则为从字符库中随机选取一个字符进行替换；

（3）获得混淆集

每次从语料库中随机抽取样本字符，对其预处理后获得样本集，将样本集按照比例分别按照字形混淆规则、字音混淆规则和字符混淆规则进行替换，并将对应的混淆集；

（4）模型训练

将混淆集作为输入集合，将样本集作为对照集合，并形成一一对应的句子对，使用端到端的方式进行模型训练，最终得到纠错模型；

S2、数据采集

接收网站域名，并递归采集所有网页中的链接，根据URL HASH去除重复链接，将采集过程信息、采集结果组成JSON格式，作为数据采集结果，推送到KAFKA消息系统；

S3、数据清洗

订阅KAFKA消息，消费数据采集结果，并执行以下步骤：

1、订阅KAFKA消息，消费数据采集结果，识别内容类型，过滤非HTML类型；

2、网页预处理：使用采集信息中的charset属性对页面源代码的字符进行编码，然后对采集结果进行序列化，将网页解析成一棵DOM树；

3、网页标签提取：从DOM树中提取meta标签，并进行分类存储

4、网页正文提取：判断meta标签提取结果中是否包含内容页标签，确定该网页否是包含正文的内容页；从内容页HTML源代码中取出body，去除body中的所有tag，tag包括style样式、JavaScript脚本和注释内容，保留原有的换行符，降噪后对网页进行正文内容提取；

5、处理结果输出：将标签提取结果和正文提取结果组成JSON，作为数据清洗结果，追加到数据采集结果JSON，推送到KAFKA消息系统；

S4、文本纠错

订阅KAFKA消息，消费数据清洗结果，执行以下步骤：

1、将网页正文按照标点符号、段落截断成句子，把句子输入纠错模型，判断是否有错误，如果有错误，则将纠正后的结果放到句子中再次输入纠错模型，进行递归纠错，如果两次纠错结果相同则停止递归，获取纠错模型纠正结果；

2、将含有错别字的句子、纠错结果组成句子JSON，多个JSON组成句子数组；

3、将句子数组中每个句子的错别字位置、第一概率、第二概率、第三概率、融合概率、第一特征、第二特征、第三特征、融合特征，纠正文本组成JSON，多个JSON组成数组追加到对应的句子JSON；

其中第一概率为字符错误的概率，第一特征为对应的字符错误特征，第二概率为字音错误的概率，第二特征为对应的字音错误特征，第三概率为字形错误的概率，第三概率为对应的字形错误特征，融合概率为第一概率、第二概率和第三概率的最大值，融合特征为对应最大值的融合错误特征；

4、处理结果输出：将提文本纠错结果追加到数据清洗结果JSON，推送到KAFKA消息系统；

S5、数据存储

订阅KAFKA消息，将数据采集结果、数据清洗结果、文本纠错结果存入Elasticsearch存储系统，以URL HASH为主键进行储存。

进一步的，在S1中获得混淆集的过程中，每次从语料库中随机抽取15%的字符，并将其中60%的字符进行字音混淆，20%的字符进行字形混淆，20%的字符进行字符混淆。

进一步的，在S2中，所述采集过程信息包括URL、IP、协议、代理、请求方式、请求时间、采集耗时、采集状态和服务器；采集结果包括请求头部、响应头部和相应内容。

进一步的，在S3中，进行分类储存的规则为：

①网站标签：SiteName、SiteDomain、SiteIDCode、ColumnName

②栏目标签：ColumnDescription、ColumnKeywords、ColumnType

③内容页标签：ArticleTitle、PubDate、ContentSource、Keywords、Author、Description、Image、Url。

进一步的，在S3中，降噪后使用基于网页文本密度与符号密度正文提取算法对网页进行正文内容提取。

本发明的有益效果：本发明是一种政务公开信息的文本纠错方法及系统，该方法是一套包含模型训练、数据采集、数据清洗、文本纠错、数据存储的方法和流程。

中文错别字主要分为语音错误和视觉错误两种类型，分别是由字音相似字、字形相似字和字符相似字的误用引起，为了解决这个问题，本发明并将字音、字形和字符作为特征加入预训练模型训练，可以提高字音相近、字形相近的纠错准确率，有效减轻监管、检测人员的工作量，模型纠错准确率约为70%，加入字音、字形作为特征训练纠错模型准确率达到83%。

同时本发明在纠错过程中对字音、字形和字符附加了对应的权重，尤其对于目前输入习惯多为拼音输入，对于字音的权重超过半数，从而能够对错字进行准确判断，提高了准确率。

附图说明

图1为本发明的纠错流程示意图。

图2为字符、字音和字形的融合纠错示意图。

实施方式

下面结合附图和实施例对本发明进一步说明。

实施例1：本实施例旨在提供一种应用于数字政府的文本纠错方法，主要用于对数字网页文本进行纠错，针对现有的纠错模型存在的问题，本实施例主要在纠错时考虑字音、字符和字形，并提供一种应用于数字政府的文本纠错方法。

本实施例在实施时，包括如下步骤

S1、模型训练

（1）首先获取语料库

将百科、头条、知乎和新闻等作为资源库进行整合，得到语料库；

（2）制定混淆判定规则

所述混淆判定规则包括字形混淆规则、字音混淆规则和字符混淆规则；其中字形混淆规则采用五笔反向编码对字形进行反向五笔分解，并将分解结果输入至字形向量；根据五笔易错库随机替换一个或多个字根，形成对应的字形混淆集，其中替换一个字根的编码距离记作1，对应替换N个字根的编码距离记作N；使用五笔编码将字拆分成多个独立部分，相对于使用笔画编码可有效降低维度，显著提升模型的效果和性能。

所述字音混淆规则通过拼音词典获取字的拼音，进而获得该字拼音的声母、韵母和声调，并将结果输入至字音向量中；根据拼音词典制定如下规则，并以三心二意”sān xīnèr yì举例说明；

①发音相同、音调相同，编辑距离等于0,记作0000；例如叁(sān)心二意；

②发音相同、音调不同，编辑距离等于1，记作0100；例如散(sàn)心二意；

③平卷舌、前后鼻音，编辑距离等于1,记作001*；例如善(shàn)心二意；

④声母或者韵母改变其中一个，编辑距离等于1，记作 ***0；例如森(sēn)心二意；

⑤声母和韵母均改变，编辑距离大于1，记作***1；例如伤(shāng)心二意；

并选取不同长度的编辑距离生成字音混淆集。

所述字符混淆规则的编辑距离为1，其混淆规则为从字符库中随机选取一个字符进行替换。

（3）获得混淆集

每次从语料库中随机抽取样本字符，对其预处理后获得样本集，将样本集按照特定比例分别按照字形混淆规则、字音混淆规则和字符混淆规则进行替换，并将对应的混淆集；

作为优选的，具体实施时每次从语料库中随机抽取15%的字符，并将其中60%的字符进行字音混淆，20%的字符进行字形混淆，20%的字符进行字符混淆。

（4）模型训练

将混淆集作为输入集合，将样本集作为对照集合，并形成一一对应的句子对，句子对包括正确句子、混搅后包含错误字符的错误句子，使用端到端的方式进行模型训练，最终得到纠错模型。

S2、数据采集

将需要检测的网站URL导入网站数据采集系统，范围限制在网站域名内，递归采集所有网页中的链接（根据URL HASH去除重复链接），将采集过程信息（URL、IP、协议、代理、请求方式、请求时间、采集耗时、采集状态、服务器等）、采集结果（请求头部、响应头部、相应内容）组成JSON格式，作为数据采集结果，推送到KAFKA消息系统。

S3、数据清洗

订阅KAFKA消息，消费数据采集结果，执行以下步骤：

1、订阅KAFKA消息，消费数据采集结果，识别内容类型，过滤非HTML类型。

2、网页预处理：使用采集信息中的charset属性对页面源代码的字符进行编码，防止网页出现乱码，然后对采集结果进行序列化，将网页解析成一棵DOM树。

3、网页标签提取：从DOM树中提取meta标签并分类存储

①网站标签：SiteName、SiteDomain、SiteIDCode、ColumnName

②栏目标签：ColumnDescription、ColumnKeywords、ColumnType

4、网页正文提取：判断meta标签提取结果中是否包含内容页标签，确定该网页否是包含正文的内容页；从内容页HTML源代码中取出body，去除body中的所有tag，包括style样式、JavaScript脚本、注释内容等，保留原有的换行符，降噪后使用基于网页文本密度与符号密度正文提取算法对网页进行正文内容提取。

5、处理结果输出：将标签提取结果和正文提取结果组成JSON，作为数据清洗结果，追加到数据采集结果JSON，推送到KAFKA消息系统。

S4、文本纠错

订阅KAFKA消息，消费数据清洗结果，执行以下步骤：

1、将网页正文按照标点符号、段落截断成句子，首先把句子输入纠错模型，并判断是否有错误，如果有错误则将纠正后的结果放到句子中再次输入模型，进行递归纠错，如果两次纠错结果相同则停止递归，获取模型纠正结果；包括字符、字音、字形的错误概率（即第一概率、第二概率、第三概率）和纠正字符（即第一特征、第二特征、第三特征）。

3、将句子数组中每个句子的错别字位置、第一概率、第二概率、第三概率、融合概率、第一特征、第二特征、第三特征、融合特征，纠正文本组成JSON，多个JSON组成数组追加到对应的句子JSON。

其中第一概率为字形错误的概率，第一特征为对应的字形错误特征，第二概率为字符错误的概率，第二特征为对应的字符错误特征，第三概率为字符错误的概率，第三概率为对应的字符错误特征，融合概率为第一概率、第二概率和第三概率的最大值，融合特征为对应融合错误特征。

4、处理结果输出：将提文本纠错结果追加到数据清洗结果JSON，推送到KAFKA消息系统。

S5、数据存储

Claims

1. 一种应用于数字政府的文本纠错方法，其特征在于：包括如下内容步骤：

S1，模型训练

（1）首先获取语料库

（2）制定混淆判定规则

①发音相同、音调相同，编辑距离等于0；

②发音相同、音调不同，编辑距离等于1；

③平卷舌、前后鼻音，编辑距离等于1；

④声母或者韵母改变其中一个，编辑距离等于1；

⑤声母和韵母均改变，编辑距离大于1；

并选取不同长度的编辑距离生成字音混淆集；

（3）获得混淆集

（4）模型训练

S2，数据采集

S3,数据清洗

订阅KAFKA消息，消费数据采集结果，并执行以下步骤：

3、网页标签提取：从DOM树中提取meta标签，并进行分类存储

S4,文本纠错

订阅KAFKA消息，消费数据清洗结果，执行以下步骤：

S5,数据存储

2.根据权利要求1所述的应用于数字政府的文本纠错方法，其特征在于：在S1中获得混淆集的过程中，每次从语料库中随机抽取15%的字符，并将其中60%的字符进行字音混淆，20%的字符进行字形混淆，20%的字符进行字符混淆。

3.根据权利要求1所述的应用于数字政府的文本纠错方法，其特征在于：在S2中，所述采集过程信息包括URL、IP、协议、代理、请求方式、请求时间、采集耗时、采集状态和服务器；采集结果包括请求头部、响应头部和相应内容。

4. 根据权利要求1所述的应用于数字政府的文本纠错方法，其特征在于：在S3中，进行分类储存的规则为：

①网站标签：SiteName、SiteDomain、SiteIDCode、ColumnName

②栏目标签：ColumnDescription、ColumnKeywords、ColumnType

5.根据权利要求1所述的应用于数字政府的文本纠错方法，其特征在于：在S3中，降噪后使用基于网页文本密度与符号密度正文提取算法对网页进行正文内容提取。