CN114970502B - 一种应用于数字政府的文本纠错方法 - Google Patents
一种应用于数字政府的文本纠错方法 Download PDFInfo
- Publication number
- CN114970502B CN114970502B CN202111633076.4A CN202111633076A CN114970502B CN 114970502 B CN114970502 B CN 114970502B CN 202111633076 A CN202111633076 A CN 202111633076A CN 114970502 B CN114970502 B CN 114970502B
- Authority
- CN
- China
- Prior art keywords
- error correction
- character
- confusion
- result
- probability
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Active
Links
- 238000012937 correction Methods 0.000 title claims abstract description 62
- 238000000034 method Methods 0.000 title claims abstract description 30
- 238000012549 training Methods 0.000 claims abstract description 15
- 238000004140 cleaning Methods 0.000 claims abstract description 13
- 230000004927 fusion Effects 0.000 claims description 16
- 238000000605 extraction Methods 0.000 claims description 15
- 238000003860 storage Methods 0.000 claims description 7
- 238000003491 array Methods 0.000 claims description 6
- 238000000354 decomposition reaction Methods 0.000 claims description 6
- 238000007781 pre-processing Methods 0.000 claims description 6
- 238000012545 processing Methods 0.000 claims description 6
- 238000004422 calculation algorithm Methods 0.000 claims description 5
- 238000013480 data collection Methods 0.000 claims description 4
- 238000005520 cutting process Methods 0.000 claims description 3
- 238000001914 filtration Methods 0.000 claims description 3
- 238000002372 labelling Methods 0.000 claims description 3
- 238000005096 rolling process Methods 0.000 claims description 3
- 238000013515 script Methods 0.000 claims description 3
- 238000001514 detection method Methods 0.000 abstract description 8
- 238000013500 data storage Methods 0.000 abstract description 2
- 238000010586 diagram Methods 0.000 description 2
- 238000007689 inspection Methods 0.000 description 2
- 238000012544 monitoring process Methods 0.000 description 2
- 208000027418 Wounds and injury Diseases 0.000 description 1
- 230000009286 beneficial effect Effects 0.000 description 1
- 239000003795 chemical substances by application Substances 0.000 description 1
- 230000006378 damage Effects 0.000 description 1
- 230000007547 defect Effects 0.000 description 1
- 230000000694 effects Effects 0.000 description 1
- 208000014674 injury Diseases 0.000 description 1
- 208000011977 language disease Diseases 0.000 description 1
- 238000002156 mixing Methods 0.000 description 1
- 239000000843 powder Substances 0.000 description 1
- 238000011160 research Methods 0.000 description 1
- 238000003756 stirring Methods 0.000 description 1
- 230000009897 systematic effect Effects 0.000 description 1
Images
Classifications
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F40/00—Handling natural language data
- G06F40/20—Natural language analysis
- G06F40/232—Orthographic correction, e.g. spell checking or vowelisation
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F16/00—Information retrieval; Database structures therefor; File system structures therefor
- G06F16/90—Details of database functions independent of the retrieved data types
- G06F16/95—Retrieval from the web
- G06F16/958—Organisation or management of web site content, e.g. publishing, maintaining pages or automatic linking
- G06F16/986—Document structures and storage, e.g. HTML extensions
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F40/00—Handling natural language data
- G06F40/10—Text processing
- G06F40/12—Use of codes for handling textual entities
- G06F40/14—Tree-structured documents
- G06F40/146—Coding or compression of tree-structured data
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06Q—INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR ADMINISTRATIVE, COMMERCIAL, FINANCIAL, MANAGERIAL OR SUPERVISORY PURPOSES; SYSTEMS OR METHODS SPECIALLY ADAPTED FOR ADMINISTRATIVE, COMMERCIAL, FINANCIAL, MANAGERIAL OR SUPERVISORY PURPOSES, NOT OTHERWISE PROVIDED FOR
- G06Q50/00—Information and communication technology [ICT] specially adapted for implementation of business processes of specific business sectors, e.g. utilities or tourism
- G06Q50/10—Services
- G06Q50/26—Government or public services
Landscapes
- Engineering & Computer Science (AREA)
- Theoretical Computer Science (AREA)
- Physics & Mathematics (AREA)
- General Physics & Mathematics (AREA)
- Business, Economics & Management (AREA)
- General Engineering & Computer Science (AREA)
- Health & Medical Sciences (AREA)
- General Health & Medical Sciences (AREA)
- Tourism & Hospitality (AREA)
- Databases & Information Systems (AREA)
- Artificial Intelligence (AREA)
- Audiology, Speech & Language Pathology (AREA)
- Computational Linguistics (AREA)
- Economics (AREA)
- General Business, Economics & Management (AREA)
- Strategic Management (AREA)
- Primary Health Care (AREA)
- Data Mining & Analysis (AREA)
- Marketing (AREA)
- Human Resources & Organizations (AREA)
- Educational Administration (AREA)
- Development Economics (AREA)
- Machine Translation (AREA)
Abstract
本发明属于计算机技术领域,具体涉及一种应用于数字政府的文本纠错方法,包含模型训练、数据采集、数据清洗、文本纠错、数据存储的方法和流程,将字音、字形和字符作为特征加入预训练模型训练,可以提高字音相近、字形相近的纠错准确率,有效减轻监管、检测人员的工作量,模型纠错准确率约为70%,加入字音、字形作为特征训练纠错模型准确率达到83%。
Description
技术领域
本发明属于计算机技术领域,具体涉及一种应用于数字政府的文本纠错方法。
背景技术
通常通过人工检查、系统监测、公众媒体反馈等方式对网站信息内容进行检测。由于政务公开内容点多面广、信息量庞大、时效性要求高,仅靠人工检查无法达到要求。所以系统检测是最主要的检测方法,其中检测结果的准确性尤其重要,如果错检或漏检都会增加检测人员工作量。
错别字监测常用的方法有错别字词典、编辑距离、语言模型,基于错别字词典的纠错算法,构建字典的人工成本较高,适用于错别字有限的部分垂直领域;基于编辑距离匹配的纠错算法采用类似字符串模糊匹配的方法,通过对照正确样本可以纠正部分常见错别字和语病,但是通用性不足,基于此,研究一种应用于数字政府的文本纠错方法及系统是必要的。
发明内容
针对现有设备存在的缺陷和问题,本发明提供一种应用于数字政府的文本纠错方法,有效的解决了现有的纠错模型存在的人工成本高,通用性差的问题。
本发明解决其技术问题所采用的方案是:一种应用于数字政府的文本纠错方法,包括如下内容步骤:
S1、模型训练
(1)获取语料库
将百科、头条、知乎和新闻作为资源库进行整合,得到语料库;
(2)制定混淆判定规则
所述混淆判定规则包括字形混淆规则、字音混淆规则和字符混淆规则;其中字形混淆规则采用五笔反向编码对字形进行反向五笔分解,并将分解结果输入至字形向量;根据五笔易错库随机替换一个或多个字根,形成对应的字形混淆集,其中替换一个字根的编码距离记作1,对应替换N个字根的编码距离记作N;
所述字音混淆规则通过拼音词典获取字的拼音,进而获得该字拼音的声母、韵母和声调,并将结果输入至字音向量中;根据拼音词典制定如下规则;
①发音相同、音调相同,编辑距离等于0;
②发音相同、音调不同,编辑距离等于1;
③平卷舌、前后鼻音,编辑距离等于1;
④声母或者韵母改变其中一个,编辑距离等于1;
⑤声母和韵母均改变,编辑距离大于1;
选取不同长度的编辑距离生成字音混淆集;
所述字符混淆规则的编辑距离为1,其混淆规则为从字符库中随机选取一个字符进行替换;
(3)获得混淆集
每次从语料库中随机抽取样本字符,对其预处理后获得样本集,将样本集按照比例分别按照字形混淆规则、字音混淆规则和字符混淆规则进行替换,并将对应的混淆集;
(4)模型训练
将混淆集作为输入集合,将样本集作为对照集合,并形成一一对应的句子对,使用端到端的方式进行模型训练,最终得到纠错模型;
S2、数据采集
接收网站域名,并递归采集所有网页中的链接,根据URL HASH去除重复链接,将采集过程信息、采集结果组成JSON格式,作为数据采集结果,推送到KAFKA消息系统;
S3、数据清洗
订阅KAFKA消息,消费数据采集结果,并执行以下步骤:
1、订阅KAFKA消息,消费数据采集结果,识别内容类型,过滤非HTML类型;
2、网页预处理:使用采集信息中的charset属性对页面源代码的字符进行编码,然后对采集结果进行序列化,将网页解析成一棵DOM树;
3、网页标签提取:从DOM树中提取meta标签,并进行分类存储
4、网页正文提取:判断meta标签提取结果中是否包含内容页标签,确定该网页否是包含正文的内容页;从内容页HTML源代码中取出body,去除body中的所有tag,tag包括style样式、JavaScript脚本和注释内容,保留原有的换行符,降噪后对网页进行正文内容提取;
5、处理结果输出:将标签提取结果和正文提取结果组成JSON,作为数据清洗结果,追加到数据采集结果JSON,推送到KAFKA消息系统;
S4、文本纠错
订阅KAFKA消息,消费数据清洗结果,执行以下步骤:
1、将网页正文按照标点符号、段落截断成句子,把句子输入纠错模型,判断是否有错误,如果有错误,则将纠正后的结果放到句子中再次输入纠错模型,进行递归纠错,如果两次纠错结果相同则停止递归,获取纠错模型纠正结果;
2、将含有错别字的句子、纠错结果组成句子JSON,多个JSON组成句子数组;
3、将句子数组中每个句子的错别字位置、第一概率、第二概率、第三概率、融合概率、第一特征、第二特征、第三特征、融合特征,纠正文本组成JSON,多个JSON组成数组追加到对应的句子JSON;
其中第一概率为字符错误的概率,第一特征为对应的字符错误特征,第二概率为字音错误的概率,第二特征为对应的字音错误特征,第三概率为字形错误的概率,第三概率为对应的字形错误特征,融合概率为第一概率、第二概率和第三概率的最大值,融合特征为对应最大值的融合错误特征;
4、处理结果输出:将提文本纠错结果追加到数据清洗结果JSON,推送到KAFKA消息系统;
S5、数据存储
订阅KAFKA消息,将数据采集结果、数据清洗结果、文本纠错结果存入Elasticsearch存储系统,以URL HASH为主键进行储存。
进一步的,在S1中获得混淆集的过程中,每次从语料库中随机抽取15%的字符,并将其中60%的字符进行字音混淆,20%的字符进行字形混淆,20%的字符进行字符混淆。
进一步的,在S2中,所述采集过程信息包括URL、IP、协议、代理、请求方式、请求时间、采集耗时、采集状态和服务器;采集结果包括请求头部、响应头部和相应内容。
进一步的,在S3中,进行分类储存的规则为:
①网站标签:SiteName、SiteDomain、SiteIDCode、ColumnName
②栏目标签:ColumnDescription、ColumnKeywords、ColumnType
③内容页标签:ArticleTitle、PubDate、ContentSource、Keywords、Author、Description、Image、Url。
进一步的,在S3中,降噪后使用基于网页文本密度与符号密度正文提取算法对网页进行正文内容提取。
本发明的有益效果:本发明是一种政务公开信息的文本纠错方法及系统,该方法是一套包含模型训练、数据采集、数据清洗、文本纠错、数据存储的方法和流程。
中文错别字主要分为语音错误和视觉错误两种类型,分别是由字音相似字、字形相似字和字符相似字的误用引起,为了解决这个问题,本发明并将字音、字形和字符作为特征加入预训练模型训练,可以提高字音相近、字形相近的纠错准确率,有效减轻监管、检测人员的工作量,模型纠错准确率约为70%,加入字音、字形作为特征训练纠错模型准确率达到83%。
同时本发明在纠错过程中对字音、字形和字符附加了对应的权重,尤其对于目前输入习惯多为拼音输入,对于字音的权重超过半数,从而能够对错字进行准确判断,提高了准确率。
附图说明
图1为本发明的纠错流程示意图。
图2为字符、字音和字形的融合纠错示意图。
实施方式
下面结合附图和实施例对本发明进一步说明。
实施例1:本实施例旨在提供一种应用于数字政府的文本纠错方法,主要用于对数字网页文本进行纠错,针对现有的纠错模型存在的问题,本实施例主要在纠错时考虑字音、字符和字形,并提供一种应用于数字政府的文本纠错方法。
本实施例在实施时,包括如下步骤
S1、模型训练
(1)首先获取语料库
将百科、头条、知乎和新闻等作为资源库进行整合,得到语料库;
(2)制定混淆判定规则
所述混淆判定规则包括字形混淆规则、字音混淆规则和字符混淆规则;其中字形混淆规则采用五笔反向编码对字形进行反向五笔分解,并将分解结果输入至字形向量;根据五笔易错库随机替换一个或多个字根,形成对应的字形混淆集,其中替换一个字根的编码距离记作1,对应替换N个字根的编码距离记作N;使用五笔编码将字拆分成多个独立部分,相对于使用笔画编码可有效降低维度,显著提升模型的效果和性能。
所述字音混淆规则通过拼音词典获取字的拼音,进而获得该字拼音的声母、韵母和声调,并将结果输入至字音向量中;根据拼音词典制定如下规则,并以三心二意”sān xīnèr yì举例说明;
①发音相同、音调相同,编辑距离等于0,记作0000;例如叁(sān)心二意;
②发音相同、音调不同,编辑距离等于1,记作0100;例如散(sàn)心二意;
③平卷舌、前后鼻音,编辑距离等于1,记作001*;例如善(shàn)心二意;
④声母或者韵母改变其中一个,编辑距离等于1,记作 ***0;例如森(sēn)心二意;
⑤声母和韵母均改变,编辑距离大于1,记作***1;例如伤(shāng)心二意;
并选取不同长度的编辑距离生成字音混淆集。
所述字符混淆规则的编辑距离为1,其混淆规则为从字符库中随机选取一个字符进行替换。
(3)获得混淆集
每次从语料库中随机抽取样本字符,对其预处理后获得样本集,将样本集按照特定比例分别按照字形混淆规则、字音混淆规则和字符混淆规则进行替换,并将对应的混淆集;
作为优选的,具体实施时每次从语料库中随机抽取15%的字符,并将其中60%的字符进行字音混淆,20%的字符进行字形混淆,20%的字符进行字符混淆。
(4)模型训练
将混淆集作为输入集合,将样本集作为对照集合,并形成一一对应的句子对,句子对包括正确句子、混搅后包含错误字符的错误句子,使用端到端的方式进行模型训练,最终得到纠错模型。
S2、数据采集
将需要检测的网站URL导入网站数据采集系统,范围限制在网站域名内,递归采集所有网页中的链接(根据URL HASH去除重复链接),将采集过程信息(URL、IP、协议、代理、请求方式、请求时间、采集耗时、采集状态、服务器等)、采集结果(请求头部、响应头部、相应内容)组成JSON格式,作为数据采集结果,推送到KAFKA消息系统。
S3、数据清洗
订阅KAFKA消息,消费数据采集结果,执行以下步骤:
1、订阅KAFKA消息,消费数据采集结果,识别内容类型,过滤非HTML类型。
2、网页预处理:使用采集信息中的charset属性对页面源代码的字符进行编码,防止网页出现乱码,然后对采集结果进行序列化,将网页解析成一棵DOM树。
3、网页标签提取:从DOM树中提取meta标签并分类存储
①网站标签:SiteName、SiteDomain、SiteIDCode、ColumnName
②栏目标签:ColumnDescription、ColumnKeywords、ColumnType
③内容页标签:ArticleTitle、PubDate、ContentSource、Keywords、Author、Description、Image、Url。
4、网页正文提取:判断meta标签提取结果中是否包含内容页标签,确定该网页否是包含正文的内容页;从内容页HTML源代码中取出body,去除body中的所有tag,包括style样式、JavaScript脚本、注释内容等,保留原有的换行符,降噪后使用基于网页文本密度与符号密度正文提取算法对网页进行正文内容提取。
5、处理结果输出:将标签提取结果和正文提取结果组成JSON,作为数据清洗结果,追加到数据采集结果JSON,推送到KAFKA消息系统。
S4、文本纠错
订阅KAFKA消息,消费数据清洗结果,执行以下步骤:
1、将网页正文按照标点符号、段落截断成句子,首先把句子输入纠错模型,并判断是否有错误,如果有错误则将纠正后的结果放到句子中再次输入模型,进行递归纠错,如果两次纠错结果相同则停止递归,获取模型纠正结果;包括字符、字音、字形的错误概率(即第一概率、第二概率、第三概率)和纠正字符(即第一特征、第二特征、第三特征)。
2、将含有错别字的句子、纠错结果组成句子JSON,多个JSON组成句子数组;
3、将句子数组中每个句子的错别字位置、第一概率、第二概率、第三概率、融合概率、第一特征、第二特征、第三特征、融合特征,纠正文本组成JSON,多个JSON组成数组追加到对应的句子JSON。
其中第一概率为字形错误的概率,第一特征为对应的字形错误特征,第二概率为字符错误的概率,第二特征为对应的字符错误特征,第三概率为字符错误的概率,第三概率为对应的字符错误特征,融合概率为第一概率、第二概率和第三概率的最大值,融合特征为对应融合错误特征。
4、处理结果输出:将提文本纠错结果追加到数据清洗结果JSON,推送到KAFKA消息系统。
S5、数据存储
订阅KAFKA消息,将数据采集结果、数据清洗结果、文本纠错结果存入Elasticsearch存储系统,以URL HASH为主键进行储存。
Claims (5)
1. 一种应用于数字政府的文本纠错方法,其特征在于:包括如下内容步骤:
S1,模型训练
(1)首先获取语料库
将百科、头条、知乎和新闻作为资源库进行整合,得到语料库;
(2)制定混淆判定规则
所述混淆判定规则包括字形混淆规则、字音混淆规则和字符混淆规则;其中字形混淆规则采用五笔反向编码对字形进行反向五笔分解,并将分解结果输入至字形向量;根据五笔易错库随机替换一个或多个字根,形成对应的字形混淆集,其中替换一个字根的编码距离记作1,对应替换N个字根的编码距离记作N;
所述字音混淆规则通过拼音词典获取字的拼音,进而获得该字拼音的声母、韵母和声调,并将结果输入至字音向量中;根据拼音词典制定如下规则;
①发音相同、音调相同,编辑距离等于0;
②发音相同、音调不同,编辑距离等于1;
③平卷舌、前后鼻音,编辑距离等于1;
④声母或者韵母改变其中一个,编辑距离等于1;
⑤声母和韵母均改变,编辑距离大于1;
并选取不同长度的编辑距离生成字音混淆集;
所述字符混淆规则的编辑距离为1,其混淆规则为从字符库中随机选取一个字符进行替换;
(3)获得混淆集
每次从语料库中随机抽取样本字符,对其预处理后获得样本集,将样本集按照特定比例分别按照字形混淆规则、字音混淆规则和字符混淆规则进行替换,并将对应的混淆集;
(4)模型训练
将混淆集作为输入集合,将样本集作为对照集合,并形成一一对应的句子对,使用端到端的方式进行模型训练,最终得到纠错模型;
S2,数据采集
接收网站域名,并递归采集所有网页中的链接,根据URL HASH去除重复链接,将采集过程信息、采集结果组成JSON格式,作为数据采集结果,推送到KAFKA消息系统;
S3,数据清洗
订阅KAFKA消息,消费数据采集结果,并执行以下步骤:
1、订阅KAFKA消息,消费数据采集结果,识别内容类型,过滤非HTML类型;
2、网页预处理:使用采集信息中的charset属性对页面源代码的字符进行编码,然后对采集结果进行序列化,将网页解析成一棵DOM树;
3、网页标签提取:从DOM树中提取meta标签,并进行分类存储
4、网页正文提取:判断meta标签提取结果中是否包含内容页标签,确定该网页否是包含正文的内容页;从内容页HTML源代码中取出body,去除body中的所有tag,tag包括style样式、JavaScript脚本和注释内容,保留原有的换行符,降噪后对网页进行正文内容提取;
5、处理结果输出:将标签提取结果和正文提取结果组成JSON,作为数据清洗结果,追加到数据采集结果JSON,推送到KAFKA消息系统;
S4,文本纠错
订阅KAFKA消息,消费数据清洗结果,执行以下步骤:
1、将网页正文按照标点符号、段落截断成句子,把句子输入纠错模型,判断是否有错误,如果有错误,则将纠正后的结果放到句子中再次输入纠错模型,进行递归纠错,如果两次纠错结果相同则停止递归,获取纠错模型纠正结果;
2、将含有错别字的句子、纠错结果组成句子JSON,多个JSON组成句子数组;
3、将句子数组中每个句子的错别字位置、第一概率、第二概率、第三概率、融合概率、第一特征、第二特征、第三特征、融合特征,纠正文本组成JSON,多个JSON组成数组追加到对应的句子JSON;
其中第一概率为字符错误的概率,第一特征为对应的字符错误特征,第二概率为字音错误的概率,第二特征为对应的字音错误特征,第三概率为字形错误的概率,第三概率为对应的字形错误特征,融合概率为第一概率、第二概率和第三概率的最大值,融合特征为对应最大值的融合错误特征;
4、处理结果输出:将提文本纠错结果追加到数据清洗结果JSON,推送到KAFKA消息系统;
S5,数据存储
订阅KAFKA消息,将数据采集结果、数据清洗结果、文本纠错结果存入Elasticsearch存储系统,以URL HASH为主键进行储存。
2.根据权利要求1所述的应用于数字政府的文本纠错方法,其特征在于:在S1中获得混淆集的过程中,每次从语料库中随机抽取15%的字符,并将其中60%的字符进行字音混淆,20%的字符进行字形混淆,20%的字符进行字符混淆。
3.根据权利要求1所述的应用于数字政府的文本纠错方法,其特征在于:在S2中,所述采集过程信息包括URL、IP、协议、代理、请求方式、请求时间、采集耗时、采集状态和服务器;采集结果包括请求头部、响应头部和相应内容。
4. 根据权利要求1所述的应用于数字政府的文本纠错方法,其特征在于:在S3中,进行分类储存的规则为:
①网站标签:SiteName、SiteDomain、SiteIDCode、ColumnName
②栏目标签:ColumnDescription、ColumnKeywords、ColumnType
③内容页标签:ArticleTitle、PubDate、ContentSource、Keywords、Author、Description、Image、Url。
5.根据权利要求1所述的应用于数字政府的文本纠错方法,其特征在于:在S3中,降噪后使用基于网页文本密度与符号密度正文提取算法对网页进行正文内容提取。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202111633076.4A CN114970502B (zh) | 2021-12-29 | 2021-12-29 | 一种应用于数字政府的文本纠错方法 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202111633076.4A CN114970502B (zh) | 2021-12-29 | 2021-12-29 | 一种应用于数字政府的文本纠错方法 |
Publications (2)
Publication Number | Publication Date |
---|---|
CN114970502A CN114970502A (zh) | 2022-08-30 |
CN114970502B true CN114970502B (zh) | 2023-03-28 |
Family
ID=82974441
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN202111633076.4A Active CN114970502B (zh) | 2021-12-29 | 2021-12-29 | 一种应用于数字政府的文本纠错方法 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN114970502B (zh) |
Families Citing this family (2)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN115438650B (zh) * | 2022-11-08 | 2023-04-07 | 深圳擎盾信息科技有限公司 | 融合多源特征的合同文本纠错方法、系统、设备及介质 |
CN117236319B (zh) * | 2023-09-25 | 2024-04-19 | 中国—东盟信息港股份有限公司 | 一种基于Transformer生成模型的真实场景中文文本纠错方法 |
Citations (10)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
JPH11328317A (ja) * | 1998-05-11 | 1999-11-30 | Nippon Telegr & Teleph Corp <Ntt> | 日本語文字認識誤り訂正方法及び装置、並びに、誤り訂正プログラムを記録した記録媒体 |
CN1687877A (zh) * | 2005-04-14 | 2005-10-26 | 刘伊翰 | 中英通双向汉字输入法 |
CN104916169A (zh) * | 2015-05-20 | 2015-09-16 | 江苏理工学院 | 卡片式德语学习工具 |
CN110489760A (zh) * | 2019-09-17 | 2019-11-22 | 达而观信息科技(上海)有限公司 | 基于深度神经网络文本自动校对方法及装置 |
CN110765740A (zh) * | 2019-10-11 | 2020-02-07 | 深圳市比一比网络科技有限公司 | 一种基于dom树的全类型文本替换方法、系统、装置及存储介质 |
CN112016310A (zh) * | 2020-09-03 | 2020-12-01 | 平安科技(深圳)有限公司 | 文本纠错方法、系统、设备及可读存储介质 |
CN112199945A (zh) * | 2020-08-19 | 2021-01-08 | 宿迁硅基智能科技有限公司 | 一种文本纠错的方法和装置 |
CN112287670A (zh) * | 2020-11-18 | 2021-01-29 | 北京明略软件系统有限公司 | 文本纠错方法、系统、计算机设备及可读存储介质 |
CN113361266A (zh) * | 2021-06-25 | 2021-09-07 | 达闼机器人有限公司 | 文本纠错方法、电子设备及存储介质 |
CN113642316A (zh) * | 2021-07-28 | 2021-11-12 | 平安国际智慧城市科技股份有限公司 | 中文文本纠错方法、装置、电子设备及存储介质 |
-
2021
- 2021-12-29 CN CN202111633076.4A patent/CN114970502B/zh active Active
Patent Citations (11)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
JPH11328317A (ja) * | 1998-05-11 | 1999-11-30 | Nippon Telegr & Teleph Corp <Ntt> | 日本語文字認識誤り訂正方法及び装置、並びに、誤り訂正プログラムを記録した記録媒体 |
CN1687877A (zh) * | 2005-04-14 | 2005-10-26 | 刘伊翰 | 中英通双向汉字输入法 |
CN104916169A (zh) * | 2015-05-20 | 2015-09-16 | 江苏理工学院 | 卡片式德语学习工具 |
CN110489760A (zh) * | 2019-09-17 | 2019-11-22 | 达而观信息科技(上海)有限公司 | 基于深度神经网络文本自动校对方法及装置 |
CN110765740A (zh) * | 2019-10-11 | 2020-02-07 | 深圳市比一比网络科技有限公司 | 一种基于dom树的全类型文本替换方法、系统、装置及存储介质 |
CN112199945A (zh) * | 2020-08-19 | 2021-01-08 | 宿迁硅基智能科技有限公司 | 一种文本纠错的方法和装置 |
CN112016310A (zh) * | 2020-09-03 | 2020-12-01 | 平安科技(深圳)有限公司 | 文本纠错方法、系统、设备及可读存储介质 |
WO2021189851A1 (zh) * | 2020-09-03 | 2021-09-30 | 平安科技(深圳)有限公司 | 文本纠错方法、系统、设备及可读存储介质 |
CN112287670A (zh) * | 2020-11-18 | 2021-01-29 | 北京明略软件系统有限公司 | 文本纠错方法、系统、计算机设备及可读存储介质 |
CN113361266A (zh) * | 2021-06-25 | 2021-09-07 | 达闼机器人有限公司 | 文本纠错方法、电子设备及存储介质 |
CN113642316A (zh) * | 2021-07-28 | 2021-11-12 | 平安国际智慧城市科技股份有限公司 | 中文文本纠错方法、装置、电子设备及存储介质 |
Non-Patent Citations (2)
Title |
---|
Junjie Yu等.Chinese Spelling Error Detection and Correction Based on Language Model, Pronunciation, and Shape.《Proceedings of The Third CIPS-SIGHAN Joint Conference on Chinese Language Processing》.2014,220-223. * |
李建义等.关于中文拼写纠错数据增强的方法.《北华航天工业学院学报》.2021,第31卷(第31期),1-5. * |
Also Published As
Publication number | Publication date |
---|---|
CN114970502A (zh) | 2022-08-30 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
CN112163424B (zh) | 数据的标注方法、装置、设备和介质 | |
CN111783394A (zh) | 事件抽取模型的训练方法、事件抽取方法和系统及设备 | |
CN110609983B (zh) | 一种政策文件结构化分解方法 | |
CN103020034A (zh) | 中文分词方法和装置 | |
US20150100304A1 (en) | Incremental computation of repeats | |
CN102253937A (zh) | 获取网页中的感兴趣信息的方法及相关装置 | |
CN114970502B (zh) | 一种应用于数字政府的文本纠错方法 | |
CN107145584A (zh) | 一种基于n‑gram模型的简历解析方法 | |
CN113268576B (zh) | 一种基于深度学习的部门语义信息抽取的方法及装置 | |
CN107688630B (zh) | 一种基于语义的弱监督微博多情感词典扩充方法 | |
CN113255331B (zh) | 文本纠错方法、装置及存储介质 | |
CN102486787B (zh) | 用于提取文档结构的方法和装置 | |
CN113033185B (zh) | 标准文本纠错方法、装置、电子设备和存储介质 | |
CN105786971B (zh) | 一种面向国际汉语教学的语法点识别方法 | |
CN110941703A (zh) | 一种基于机器学习和模糊规则的集成简历信息抽取方法 | |
CN111310457B (zh) | 词语搭配不当识别方法、装置、电子设备和存储介质 | |
CN111274354B (zh) | 一种裁判文书结构化方法及装置 | |
CN112818693A (zh) | 一种电子元器件型号词的自动提取方法及系统 | |
CN117034948B (zh) | 基于多特征自适应融合的段落识别方法、系统及存储介质 | |
CN107451215B (zh) | 特征文本抽取方法及装置 | |
CN112988999B (zh) | 佛学问答对的构建方法、装置、设备及存储介质 | |
CN114842982B (zh) | 一种面向医疗信息系统的知识表达方法、装置及系统 | |
CN117313676A (zh) | 一种文本数据清洗方法、系统、装置及存储介质 | |
CN110941713A (zh) | 基于主题模型的自优化金融资讯版块分类方法 | |
CN112667769B (zh) | 基于机器学习的文本断句方法、系统及计算机存储介质 |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination | ||
GR01 | Patent grant | ||
GR01 | Patent grant | ||
OL01 | Intention to license declared | ||
OL01 | Intention to license declared |