[go: up one dir, main page]

CN111144100B - 一种问题文本识别方法、装置、电子设备及存储介质 - Google Patents

一种问题文本识别方法、装置、电子设备及存储介质 Download PDF

Info

Publication number
CN111144100B
CN111144100B CN201911344917.2A CN201911344917A CN111144100B CN 111144100 B CN111144100 B CN 111144100B CN 201911344917 A CN201911344917 A CN 201911344917A CN 111144100 B CN111144100 B CN 111144100B
Authority
CN
China
Prior art keywords
text
character
sub
preset
dividing
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Active
Application number
CN201911344917.2A
Other languages
English (en)
Other versions
CN111144100A (zh
Inventor
赵忠信
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Wuba Co Ltd
Original Assignee
Wuba Co Ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Wuba Co Ltd filed Critical Wuba Co Ltd
Priority to CN201911344917.2A priority Critical patent/CN111144100B/zh
Publication of CN111144100A publication Critical patent/CN111144100A/zh
Application granted granted Critical
Publication of CN111144100B publication Critical patent/CN111144100B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F18/00Pattern recognition
    • G06F18/20Analysing
    • G06F18/24Classification techniques
    • G06F18/241Classification techniques relating to the classification model, e.g. parametric or non-parametric approaches
    • G06F18/2415Classification techniques relating to the classification model, e.g. parametric or non-parametric approaches based on parametric or probabilistic models, e.g. based on likelihood ratio or false acceptance rate versus a false rejection rate
    • YGENERAL TAGGING OF NEW TECHNOLOGICAL DEVELOPMENTS; GENERAL TAGGING OF CROSS-SECTIONAL TECHNOLOGIES SPANNING OVER SEVERAL SECTIONS OF THE IPC; TECHNICAL SUBJECTS COVERED BY FORMER USPC CROSS-REFERENCE ART COLLECTIONS [XRACs] AND DIGESTS
    • Y02TECHNOLOGIES OR APPLICATIONS FOR MITIGATION OR ADAPTATION AGAINST CLIMATE CHANGE
    • Y02DCLIMATE CHANGE MITIGATION TECHNOLOGIES IN INFORMATION AND COMMUNICATION TECHNOLOGIES [ICT], I.E. INFORMATION AND COMMUNICATION TECHNOLOGIES AIMING AT THE REDUCTION OF THEIR OWN ENERGY USE
    • Y02D10/00Energy efficient computing, e.g. low power processors, power management or thermal management

Landscapes

  • Engineering & Computer Science (AREA)
  • Physics & Mathematics (AREA)
  • Theoretical Computer Science (AREA)
  • Data Mining & Analysis (AREA)
  • Bioinformatics & Cheminformatics (AREA)
  • Artificial Intelligence (AREA)
  • Life Sciences & Earth Sciences (AREA)
  • Bioinformatics & Computational Biology (AREA)
  • Computer Vision & Pattern Recognition (AREA)
  • Evolutionary Biology (AREA)
  • Evolutionary Computation (AREA)
  • General Engineering & Computer Science (AREA)
  • General Physics & Mathematics (AREA)
  • Probability & Statistics with Applications (AREA)
  • Machine Translation (AREA)

Abstract

本申请提供了一种问题文本识别方法、装置、电子设备及存储介质,其中,首先按照预设分段规则划分待识别文本,得到多个第一子文本。然后,结合每一所述第一子文本中每一字符对应的上下文语境数据,计算每一所述字符的出现概率,并结合每一所述第一子文本中每一字符的出现概率,计算每一所述第一子文本的最终困惑度值。最后,通过对比最终困惑度值与预设困惑度阈值,确定所述待识别文本中的问题文本。可见,本申请所提供的错误文本识别方法,可以根据文本中每一字符的上下文语境,更加准确的确定字符的出现概率,从而提高文本困惑度值的计算准确性,进而提高对问题文本的识别准确性。

Description

一种问题文本识别方法、装置、电子设备及存储介质
技术领域
本申请涉及文本处理技术领域,尤其涉及一种问题文本识别方法、装置、电子设备及存储介质。
背景技术
人为输入错误、数据系统错误、网络不稳定等多种因素均会造成文本错误,例如文本中出现错别字、丢字、多字、乱码等,这些错误文本均会降低文本质量,为用户传达不明确甚至是错误的信息。此时,需要在文本中准确确定问题文本,以提示文本输入者修改。
通常,可以通过大量收集低质量文本数据,从字面上总结这些低质量文本的规律,并将这些规律整理为表示具有同样特定模式的文本数据的统一语言规则,从而利用这些统一语言规则来校验待识别文本,确定待识别文本中不符合统一语言规则的问题文本。或者,利用传统语言模型来预测待识别文本中每个字符的出现概率,进而计算待识别文本中每个语句的困惑度值,并根据困惑度值确定待识别文本中的问题文本。
但是,利用统一语言规则来确定错误文本的方法具有较高的局限性,即只能校验具有特定模式的待识别文本;而利用传统语言模型来确定问题文本的方法,由于传统语言模型的建立规则,在校验过程中,仅能够结合待识别文本中每一个字符的上文环境来计算每一字符的出现概率,而丧失了字符的下文环境对字符的出现概率的影响,这样所确定的问题文本也仅基于上文环境,严重影响问题文本识别的准确性。
发明内容
本申请提供了一种问题文本识别方法、装置、电子设备及存储介质,以提高识别问题文本的准确性。
第一方面,本申请提供了一种问题文本识别方法,所述方法包括:
按照预设分段规则划分待识别文本,得到多个第一子文本;
结合每一所述第一子文本中每一字符对应的上下文语境数据,计算每一所述字符的出现概率;
结合每一所述第一子文本中每一字符的出现概率,计算每一所述第一子文本的最终困惑度值;
确定所述待识别文本中的问题文本,所述问题文本为大于预设困惑度阈值的最终困惑度值所对应的第一子文本。
在本发明实施例第一方面一种可能的实现方式中,所述按照预设分段规则划分待识别文本,得到多个第一子文本包括:
获取所述待识别文本;
预处理所述待识别文本,得到正规化文本,所述正规化文本为具有预设文本格式的文本;
按照预设分段规则划分所述正规化文本,得到多个第一子文本。
在本发明实施例第一方面一种可能的实现方式中,所述预设分段规则为按照标点符号分段,所述按照预设分段规则划分待识别文本,得到多个第一子文本包括:
确定所述待识别文本中的标点符号;
以所述标点符号为节点划分所述待识别文本,得到多个第一子文本。
在本发明实施例第一方面一种可能的实现方式中,所述预设分段规则为按照第一预设字符串长度划分,所述按照预设分段规则划分待识别文本,得到多个第一子文本包括:
结合所述第一预设字符串长度,确定所述待识别文本中目标起始字符和目标结尾字符,所述目标起始字符为匹配字符串中的首个字符,所述目标结尾字符为所述匹配字符串中的末尾字符,其中,所述匹配字符串为字符串长度符合所述第一预设字符串长度的字符串,各相邻所述匹配字符串之间存在预设长度的重叠字符串,全部所述匹配字符串组成所述第一子文本;
以相邻所述目标起始字符和所述目标结尾字符为节点划分所述待识别文本,得到多个第一子文本。
在本发明实施例第一方面一种可能的实现方式中,所述结合每一所述第一子文本中每一字符对应的上下文语境数据,计算每一所述字符的出现概率包括:
利用双向概率语言模型,计算所述第一子文本中每一字符对应的上下文语境数据;
依次遮挡每一所述字符,结合被遮挡字符的上下文语境数据,计算每一所述字符的出现概率。
在本发明实施例第一方面一种可能的实现方式中,所述结合每一所述第一子文本中每一字符的出现概率,计算每一所述第一子文本的最终困惑度值包括:
按照第二预设字符串长度划分每一所述第一子文本,得到每一所述第一子文本对应的第二子文本;
结合每一所述第二子文本中每一字符的出现概率,计算每一所述第二子文本的子困惑度;
确定每一所述第一子文本的最终困惑度值,所述最终困惑度值为每一所述第一子文本所对应的全部所述子困惑度值中的最大值。
第二方面,本申请提供了一种问题文本识别装置,所述装置包括:
第一划分模块,用于按照预设分段规则划分待识别文本,得到多个第一子文本;
概率计算模块,用于结合每一所述第一子文本中每一字符对应的上下文语境数据,计算每一所述字符的出现概率;
最终困惑度值计算模块,用于结合每一所述第一子文本中每一字符的出现概率,计算每一所述第一子文本的最终困惑度值;
问题文本确定模块,用于确定所述待识别文本中的问题文本,所述问题文本为大于预设困惑度阈值的最终困惑度值所对应的第一子文本。
在本发明实施例第二方面一种可能的实现方式中,所述第一划分模块包括:
文本获取模块,用于获取所述待识别文本;
预处理模块,用于预处理所述待识别文本,得到正规化文本,所述正规化文本为具有预设文本格式的文本;
第一获得模块,用于按照预设分段规则划分所述正规化文本,得到多个第一子文本。
在本发明实施例第二方面一种可能的实现方式中,所述第一划分模块包括:
标点符号确定模块,用于确定所述待识别文本中的标点符号;
第二获得模块,用于以所述标点符号为节点划分所述待识别文本,得到多个第一子文本。
在本发明实施例第二方面一种可能的实现方式中,所述第一划分模块包括:
目标字符确定模块,用于结合所述第一预设字符串长度,确定所述待识别文本中目标起始字符和目标结尾字符,所述目标起始字符为匹配字符串中的首个字符,所述目标结尾字符为所述匹配字符串中的末尾字符,其中,所述匹配字符串为字符串长度符合所述第一预设字符串长度的字符串,各相邻所述匹配字符串之间存在预设长度的重叠字符串,全部所述匹配字符串组成所述第一子文本;
第三获得模块,用于以相邻所述目标起始字符和所述目标结尾字符为节点划分所述待识别文本,得到多个第一子文本。
在本发明实施例第二方面一种可能的实现方式中,所述概率计算模块包括:
上下文语境数据计算模块,用于利用双向概率语言模型,计算所述第一子文本中每一字符对应的上下文语境数据;
出现概率计算模块,用于依次遮挡每一所述字符,结合被遮挡字符的上下文语境数据,计算每一所述字符的出现概率。
在本发明实施例第二方面一种可能的实现方式中,所述最终困惑度值计算模块包括:
第二划分模块,用于按照第二预设字符串长度划分每一所述第一子文本,得到每一所述第一子文本对应的第二子文本;
子困惑度值计算模块,用于结合每一所述第二子文本中每一字符的出现概率,计算每一所述第二子文本的子困惑度;
最大值确定模块,用于确定每一所述第一子文本的最终困惑度值,所述最终困惑度值为每一所述第一子文本所对应的全部所述子困惑度值中的最大值。
第三方面,本发明实施例提供了一种电子设备,包括:
处理器,以及
存储器,用于存储所述处理器的可执行指令;
其中,所述处理器配置为经由执行所述可执行指令来执行所述的问题文本识别方法。
第四方面,本发明实施例提供了一种计算机可读存储介质,其上存储有计算机程序,所述计算机程序被处理器执行时实现所述的问题文本识别方法。
本申请提供了一种问题文本识别方法、装置、电子设备及存储介质,其中,首先按照预设分段规则划分待识别文本,得到多个第一子文本。然后,结合每一所述第一子文本中每一字符对应的上下文语境数据,计算每一所述字符的出现概率,并结合每一所述第一子文本中每一字符的出现概率,计算每一所述第一子文本的最终困惑度值。最后,通过对比最终困惑度值与预设困惑度阈值,确定所述待识别文本中的问题文本。可见,本申请所提供的错误文本识别方法,可以根据文本中每一字符的上下文语境,更加准确的确定字符的出现概率,从而提高文本困惑度值的计算准确性,进而提高对问题文本的识别准确性。
附图说明
为了更清楚地说明本申请的技术方案,下面将对实施例中所需要使用的附图作简单地介绍,显而易见地,对于本领域普通技术人员而言,在不付出创造性劳动性的前提下,还可以根据这些附图获得其他的附图。
图1为本申请实施例提供的一种问题文本识别方法的流程图;
图2为本申请实施例提供的一种文本预处理方法的流程图;
图3为本申请实施例提供的一种文本划分方法的流程图;
图4为本申请实施例提供的另一种文本划分方法的流程图;
图5为本申请实施例提供的一种字符出现概率的计算方法的流程图;
图6为本申请实施例提供的一种计算第一子文本的最终困惑度值的方法的流程图;
图7为本申请实施例提供的一种问题文本识别装置实施例一的结构示意图;
图8为本申请实施例提供的一种问题文本识别装置实施例二的结构示意图;
图9为本申请实施例提供的一种问题文本识别装置实施例三的结构示意图;
图10为本申请实施例提供的一种问题文本识别装置实施例四的结构示意图;
图11为本申请实施例提供的一种问题文本识别装置实施例五的结构示意图;
图12为本申请实施例提供的一种问题文本识别装置实施例六的结构示意图;
图13为本发明实施例提供的电子设备的硬件结构示意图。
具体实施方式
下面将结合本发明实施例中的附图,对本发明实施例中的技术方案进行清楚、完整的描述,显然,所描述的实施例仅仅是本发明一部分实施例,而不是全部的实施例。基于本发明中的实施例,本领域普通技术人员在没有做出创造性劳动前提下所获得的所有其他实施例,都属于本发明保护的范围。
图1为本申请实施例提供的一种问题文本识别方法的流程图,如图1所示,所述方法包括:
S1、按照预设分段规则划分待识别文本,得到多个第一子文本。
本申请中所提供的待识别文本包括电子文档、图片、表格等多种形式的文本。由于待识别文本可以存在多种格式,因此,就存在待识别文本的文本格式不符合计算机器或者计算模型的规定格式,这样就容易出现计算错误等问题。因此,在将待识别文本输入计算机器或者计算模型之前,需要首先对待识别文本进行预处理。
具体地,如图2所示,为本申请实施例提供的一种文本预处理方法的流程图,所述方法包括:
S101、获取所述待识别文本;
S102、预处理所述待识别文本,得到正规化文本,所述正规化文本为具有预设文本格式的文本;
S103、按照预设分段规则划分所述正规化文本,得到多个第一子文本。
待识别文本可能是某一文本中的部分文本,此时,需要准确获取待识别文本,才不会出现漏检或者多检的问题。
预处理待识别文本主要是为了将待识别文本处理为具有预设文本格式的正规化文本。例如,去除文本中所包含的HTML标记字符,如文本中的富文本标记<br/><div>等,通常可以采用正则匹配的方法去除这些标记字符;或者如果文本中出现英文字符,为了统一字符格式,则可以将英文字符全部统一为小写格式,或者将英文字符全部统一为大写格式;或者对于文本中出现的一些英文单词和一些专有数字,如word、2019年等,需要对这些具有整体性的字符划分为一个分词,此时,可以将划分后的分词作为一个字符,以防后续划分待识别文本时将最小语义单元,即分词误分割,造成语义分析的错误,以及造成问题文本的识别准确率低。
进一步地,对于一些包含字符数量较多的待识别文本,如果将全部待识别文本同时输入计算机器、或者计算模型,则会严重增加计算机器或者计算模型的计算负担,而且,如果存在的问题文本仅为一个字符,则这种大量字符同时识别的过程,会令该问题文本不明显,降低识别准确度,因此,需要将待识别文件划分为第一子文本之后,再进行问题文本识别。
具体地,如图3所示,为本申请实施例提供的一种文本划分方法的流程图,所述方法包括:
S111、确定所述待识别文本中的标点符号;
S112、以所述标点符号为节点划分所述待识别文本,得到多个第一子文本。
在一种实施方式中,可以将按照标点符号分段设置为预设分段规则,例如,待识别文本为“我饿了,我想吃雹子和馅饼。”可以确定标点符号为“,。”将这些标点符号作为节点划分待识别文本可以得到第一子文本,分别为“我饿了”,“我想吃雹子和馅饼”。
需要注意的是,本申请实施例中所使用的标点符号可以为普通的文本标点符号,例如“,。、”等,也可以为一些指定的特殊符号,例如“¥#%”等。
本申请实施例提供的文本划分方法,可以有效保证第一子文本的完整性,进而保证第一子文本中每一个字符的语义完整性,从而保证每一个字符的出现概率的计算准确性。
但是,如果文本中不包含标点符号则无法使用这种划分方法;而且,如果相邻两个标点符号之间的字符数量差异较大,则划分所得的第一子文本之间的差异也较大,如果第一子文本所含的字符数量仍然较多,则这种划分方法将失去效果。此时,需要采用其他的文本划分方法。
具体地,如图4所示,为本申请实施例提供的另一种文本划分方法的流程图,所述方法包括:
S121、结合所述第一预设字符串长度,确定所述待识别文本中目标起始字符和目标结尾字符,所述目标起始字符为匹配字符串中的首个字符,所述目标结尾字符为所述匹配字符串中的末尾字符,其中,所述匹配字符串为字符串长度符合所述第一预设字符串长度的字符串,各相邻所述匹配字符串之间存在预设长度的重叠字符串,全部所述匹配字符串组成所述第一子文本,所述第一预设字符串长度大于所述第二预设字符串长度;
S122、以相邻所述目标起始字符和所述目标结尾字符为节点划分所述待识别文本,得到多个第一子文本。
在一种实施方式中,可以将按照第一预设字符串长度分段设置为预设分段规则,即将待识别文本划分为具有相等字符长度的第一子文本。因为第一预设字符串长度不一定与待识别文本中每一语句的字符长度相等,因此,容易出现第一子文本不是一个完整的语句。例如带识别文本为“我饿了,我想吃雹子和馅饼。”第一预设字符串长度为7,则划分后可以得到第一子文本,分别为“我饿了,我想吃”和“雹子和馅饼。”可见,“我想吃雹子和馅饼。”这个完整的语句被拆为两个子文本。这样的划分会影响语义的表达,从而影响后续计算每个字符的出现概率的准确性。
为了尽量降低文本划分对语义表达连贯性的影响,可以令相邻两个第一子文本之间存在重叠部分,例如设置第一预设字符串长度为7,但是划分后得到第一子文本为“我饿了,我想吃雹子”,“吃雹子和馅饼。”这样,“吃雹子”即为重叠字符串,虽然“吃雹子”在第一子文本“我饿了,我想吃雹子”未能对应到正确的语境,但是,在第一子文本“吃雹子和馅饼。”中可以进一步对应到正确的语境,从而可以提高对语义表达连贯性的保护。
S2、结合每一所述第一子文本中每一字符对应的上下文语境数据,计算每一所述字符的出现概率。
根据下式,
其中,PPL代表困惑度值,w代表第一子文本,wi代表第一子文本中的第i个字符,N代表第一子文本的字符长度,contextbi(wi)代表被遮挡字符的上下文环境数据。
可见,第一子文本的困惑度值与第一子文本中每个字符的出现概率相关,具体地,如图5所示,为本申请实施例提供的一种字符出现概率的计算方法的流程图,所述方法包括:
S201、利用双向概率语言模型,计算所述第一子文本中每一字符对应的上下文语境数据;
S202、依次遮挡每一所述字符,结合被遮挡字符的上下文语境数据,计算每一所述字符的出现概率。
可以利用双向概率语言模型,例如Masked Language Model计算第一子文本中每一个字符的上下文语境数据,例如第一子文本为“我饿了,我想吃雹子”中字符“雹”的上下文语境数据就是根据“我饿了,我想吃”和“子”在双向概率语言模型中计算得到;第一子文本为“吃雹子和馅饼。”中字符“雹”的上下文语境数据就是根据“吃”和“子和馅饼。”在双向概率语言模型中计算得到。
依次遮挡每一字符以计算每一字符的出现概率,本申请实施例中的遮挡相当于标记、隐藏等动作。例如需要计算“雹”的出现概率,则在第一子文本“我饿了,我想吃雹子”遮挡“雹”,得到“我饿了,我想吃子”,此时,可以利用双向概率语言模型,通过上文计算得到的上下文语境数据,计算“雹”的出现概率,例如为0。再例如计算“饿”的出现概率,则在第一子文本“我饿了,我想吃雹子”遮挡“饿”,得到“我了,我想吃雹子”,此时,可以利用双向概率语言模型,通过上文计算得到的上下文语境数据,计算“饿”的出现概率,例如为0.8。
通过本申请实施例提供的字符出现概率的计算方法可以准确获得每个字符的出现概率,从而可以准确计算第一子文本的困惑度值。
S3、结合每一所述第一子文本中每一字符的出现概率,计算每一所述第一子文本的最终困惑度值。
在计算出第一子文本中每个字符的出现概率之后,可以通过上文中提到的公式,计算每一第一子文本的最终困惑度值。
但是,由上式可知,每一第一子文本的困惑度值都需要涉及大量的计算,不仅耗时长,而且机器计算压力大;同时,如果第一子文本的字符长度过长,则由于上式中需要通过计算平均值来计算困惑度,那么如果问题字符较短,则通过平均值计算所带来的平滑效果将无法准确检测到第一子文本中的局部问题情况。为了解决上述问题,可以采用MovingAverage的方式,即将每一第一子文本进一步拆分为多个字符串长度更小的文本,再进行计算。
具体地,如图6所示,为本申请实施例提供的一种计算第一子文本的最终困惑度值的方法的流程图,所述方法包括:
S301、按照第二预设字符串长度划分每一所述第一子文本,得到每一所述第一子文本对应的第二子文本;
S302、结合每一所述第二子文本中每一字符的出现概率,计算每一所述第二子文本的子困惑度;
S303、确定每一所述第一子文本的最终困惑度值,所述最终困惑度值为每一所述第一子文本所对应的全部所述子困惑度值中的最大值。
继续按照第二预设字符串长度划分每一个第一子文本。例如第一子文本“吃雹子和馅饼。”,第二预设字符串长度为3,则划分得到第二子文本分别为“吃雹子”和“和馅饼”,并通过双向概率语言模型计算每一第二子文本的子困惑度,具体过程参见上文,此处将不再赘述。
最后利用子困惑度中的最大值近似等于第一子文本的最终困惑度,以达到准确率和性能之间的平衡。
S4、确定所述待识别文本中的问题文本,所述问题文本为大于预设困惑度阈值的最终困惑度值所对应的第一子文本。
通过上述过程计算得到每一第一子文本的最终困惑度值之后,就可以准确确定待识别文本中的问题文本,以供文本输入者修改和更新。
图7为本申请实施例提供的一种问题文本识别装置实施例一的结构示意图,所述装置包括:第一划分模块1,用于按照预设分段规则划分待识别文本,得到多个第一子文本;概率计算模块2,用于结合每一所述第一子文本中每一字符对应的上下文语境数据,计算每一所述字符的出现概率;最终困惑度值计算模块3,用于结合每一所述第一子文本中每一字符的出现概率,计算每一所述第一子文本的最终困惑度值;问题文本确定模块4,用于确定所述待识别文本中的问题文本,所述问题文本为大于预设困惑度阈值的最终困惑度值所对应的第一子文本。
图8为本申请实施例提供的一种问题文本识别装置实施例二的结构示意图,所述第一划分模块1包括:文本获取模块11,用于获取所述待识别文本;预处理模块12,用于预处理所述待识别文本,得到正规化文本,所述正规化文本为具有预设文本格式的文本;第一获得模块13,用于按照预设分段规则划分所述正规化文本,得到多个第一子文本。
图9为本申请实施例提供的一种问题文本识别装置实施例三的结构示意图,所述第一划分模块1包括:标点符号确定模块14,用于确定所述待识别文本中的标点符号;第二获得模块15,用于以所述标点符号为节点划分所述待识别文本,得到多个第一子文本。
图10为本申请实施例提供的一种问题文本识别装置实施例四的结构示意图,所述第一划分模块1包括:目标字符确定模块16,用于结合所述第一预设字符串长度,确定所述待识别文本中目标起始字符和目标结尾字符,所述目标起始字符为匹配字符串中的首个字符,所述目标结尾字符为所述匹配字符串中的末尾字符,其中,所述匹配字符串为字符串长度符合所述第一预设字符串长度的字符串,各相邻所述匹配字符串之间存在预设长度的重叠字符串,全部所述匹配字符串组成所述第一子文本;第三获得模块17,用于以相邻所述目标起始字符和所述目标结尾字符为节点划分所述待识别文本,得到多个第一子文本。
图11为本申请实施例提供的一种问题文本识别装置实施例五的结构示意图,所述概率计算模块2包括:上下文语境数据计算模块21,用于利用双向概率语言模型,计算所述第一子文本中每一字符对应的上下文语境数据;出现概率计算模块22,用于依次遮挡每一所述字符,结合被遮挡字符的上下文语境数据,计算每一所述字符的出现概率。
图12为本申请实施例提供的一种问题文本识别装置实施例六的结构示意图,所述最终困惑度值计算模块3包括:第二划分模块31,用于按照第二预设字符串长度划分每一所述第一子文本,得到每一所述第一子文本对应的第二子文本;子困惑度值计算模块32,用于结合每一所述第二子文本中每一字符的出现概率,计算每一所述第二子文本的子困惑度;最大值确定模块33,用于确定每一所述第一子文本的最终困惑度值,所述最终困惑度值为每一所述第一子文本所对应的全部所述子困惑度值中的最大值。
图13为本发明实施例提供的电子设备的硬件结构示意图。该电子设备包括:存储器101和处理器102;
存储器101,用于存储计算机程序;
处理器102,用于执行存储器存储的计算机程序,以实现上述实施例中的问题文本识别方法。具体可以参见前述方法实施例中的相关描述。
可选地,存储器101既可以是独立的,也可以跟处理器102集成在一起。
当所述存储器101是独立于处理器102之外的器件时,所述电子设备还可以包括:
总线103,用于连接所述存储器101和处理器102。
本发明实施例提供的电子设备可用于执行上述实施例中任一所示的问题文本识别方法,其实现方式和技术效果类似,本发明实施例此处不再赘述。
本发明实施例还提供一种可读存储介质,可读存储介质中存储有计算机程序,当消息发送的装置的至少一个处理器执行该计算机程序时,消息发送的装置执行上述实施例任一所述的问题文本识别方法。
本领域普通技术人员可以理解:实现上述各方法实施例的全部或部分步骤可以通过程序指令相关的硬件来完成。前述的程序可以存储于以计算机可读取存储介质中。该程序在执行时,执行包括上述各方法实施例的步骤;而前述的存储介质包括:ROM、RAM、磁碟或者光盘等各种可以存储程序代码的介质。
最后应说明的是:以上各实施例仅用以说明本发明的技术方案,而非对其限制;尽管参照前述各实施例对本发明进行了详细的说明,本领域的普通技术人员应当理解,其依然可以对前述各实施例所记载的技术方案进行修改,或者对其中部分或者全部技术特征进行等同替换,而这些修改或者替换,并不使相应技术方案的本质脱离本发明各实施例技术方案的范围。

Claims (8)

1.一种问题文本识别方法,其特征在于,所述方法包括:
按照预设分段规则划分待识别文本;所述按照预设分段规则划分待识别文本包括按照第一预设字符串长度划分待识别文本;所述划分待识别文本包括结合所述第一预设字符串长度,确定所述待识别文本中目标起始字符和目标结尾字符;以相邻所述目标起始字符和所述目标结尾字符为节点划分所述待识别文本,得到多个第一子文本;所述目标起始字符为匹配字符串中的首个字符,所述目标结尾字符为所述匹配字符串中的末尾字符;所述匹配字符串为字符串长度符合所述第一预设字符串长度的字符串,各相邻所述匹配字符串之间存在预设长度的重叠字符串,全部所述匹配字符串组成第一子文本;
结合每一所述第一子文本中每一字符对应的上下文语境数据,计算每一所述字符的出现概率;
结合每一所述第一子文本中每一字符的出现概率,计算每一所述第一子文本的最终困惑度值;
确定所述待识别文本中的问题文本,所述问题文本为大于预设困惑度阈值的最终困惑度值所对应的第一子文本。
2.根据权利要求1所述的方法,其特征在于,所述结合每一所述第一子文本中每一字符对应的上下文语境数据,计算每一所述字符的出现概率包括:
利用双向概率语言模型,计算所述第一子文本中每一字符对应的上下文语境数据;
依次遮挡每一所述字符,结合被遮挡字符的上下文语境数据,计算每一所述字符的出现概率。
3.根据权利要求1所述的方法,其特征在于,所述结合每一所述第一子文本中每一字符的出现概率,计算每一所述第一子文本的最终困惑度值包括:
按照第二预设字符串长度划分每一所述第一子文本,得到每一所述第一子文本对应的第二子文本;
结合每一所述第二子文本中每一字符的出现概率,计算每一所述第二子文本的子困惑度;
确定每一所述第一子文本的最终困惑度值,所述最终困惑度值为每一所述第一子文本所对应的全部所述子困惑度值中的最大值。
4.一种问题文本识别装置,其特征在于,所述装置包括:
第一划分模块,用于按照预设分段规则划分待识别文本;所述按照预设分段规则划分待识别文本包括按照第一预设字符串长度划分待识别文本;所述划分待识别文本包括结合所述第一预设字符串长度,确定所述待识别文本中目标起始字符和目标结尾字符;以相邻所述目标起始字符和所述目标结尾字符为节点划分所述待识别文本,得到多个第一子文本;所述目标起始字符为匹配字符串中的首个字符,所述目标结尾字符为所述匹配字符串中的末尾字符;所述匹配字符串为字符串长度符合所述第一预设字符串长度的字符串,各相邻所述匹配字符串之间存在预设长度的重叠字符串,全部所述匹配字符串组成第一子文本;
概率计算模块,用于结合每一所述第一子文本中每一字符对应的上下文语境数据,计算每一所述字符的出现概率;
最终困惑度值计算模块,用于结合每一所述第一子文本中每一字符的出现概率,计算每一所述第一子文本的最终困惑度值;
问题文本确定模块,用于确定所述待识别文本中的问题文本,所述问题文本为大于预设困惑度阈值的最终困惑度值所对应的第一子文本。
5.根据权利要求4所述的装置,其特征在于,所述概率计算模块包括:
上下文语境数据计算模块,用于利用双向概率语言模型,计算所述第一子文本中每一字符对应的上下文语境数据;
出现概率计算模块,用于依次遮挡每一所述字符,结合被遮挡字符的上下文语境数据,计算每一所述字符的出现概率。
6.根据权利要求4所述的装置,其特征在于,所述最终困惑度值计算模块包括:
第二划分模块,用于按照第二预设字符串长度划分每一所述第一子文本,得到每一所述第一子文本对应的第二子文本;
子困惑度值计算模块,用于结合每一所述第二子文本中每一字符的出现概率,计算每一所述第二子文本的子困惑度;
最大值确定模块,用于确定每一所述第一子文本的最终困惑度值,所述最终困惑度值为每一所述第一子文本所对应的全部所述子困惑度值中的最大值。
7.一种电子设备,其特征在于,所述电子设备包括:
处理器,以及
存储器,用于存储所述处理器的可执行指令;
其中,所述处理器配置为经由执行所述可执行指令来执行权利要求1-3任一所述的问题文本识别方法。
8.一种计算机可读存储介质,其上存储有计算机程序,其特征在于,所述计算机程序被处理器执行时实现权利要求1-3任一所述的问题文本识别方法。
CN201911344917.2A 2019-12-24 2019-12-24 一种问题文本识别方法、装置、电子设备及存储介质 Active CN111144100B (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN201911344917.2A CN111144100B (zh) 2019-12-24 2019-12-24 一种问题文本识别方法、装置、电子设备及存储介质

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN201911344917.2A CN111144100B (zh) 2019-12-24 2019-12-24 一种问题文本识别方法、装置、电子设备及存储介质

Publications (2)

Publication Number Publication Date
CN111144100A CN111144100A (zh) 2020-05-12
CN111144100B true CN111144100B (zh) 2023-08-18

Family

ID=70519589

Family Applications (1)

Application Number Title Priority Date Filing Date
CN201911344917.2A Active CN111144100B (zh) 2019-12-24 2019-12-24 一种问题文本识别方法、装置、电子设备及存储介质

Country Status (1)

Country Link
CN (1) CN111144100B (zh)

Families Citing this family (5)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN111881293B (zh) * 2020-07-24 2023-11-07 腾讯音乐娱乐科技(深圳)有限公司 一种风险内容识别方法及装置、服务器、存储介质
CN111783458B (zh) * 2020-08-20 2024-05-03 支付宝(杭州)信息技术有限公司 叠字错误检测方法及装置
CN112528980B (zh) * 2020-12-16 2022-02-15 北京华宇信息技术有限公司 Ocr识别结果纠正方法及其终端、系统
CN112966509B (zh) * 2021-04-16 2023-04-07 重庆度小满优扬科技有限公司 文本质量评估方法、装置、存储介质及计算机设备
CN113609864B (zh) * 2021-08-06 2022-02-11 珠海市鸿瑞信息技术股份有限公司 一种基于工业控制系统的文本语义识别处理系统及方法

Citations (5)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN104408087A (zh) * 2014-11-13 2015-03-11 百度在线网络技术(北京)有限公司 作弊文本的识别方法和系统
CN105095826A (zh) * 2014-04-17 2015-11-25 阿里巴巴集团控股有限公司 一种文字识别方法及装置
CN105589845A (zh) * 2015-12-18 2016-05-18 北京奇虎科技有限公司 垃圾文本识别方法、装置及系统
CN107861941A (zh) * 2017-10-10 2018-03-30 武汉斗鱼网络科技有限公司 用户昵称真实性评估方法、存储介质、电子设备及系统
CN109992769A (zh) * 2018-12-06 2019-07-09 平安科技(深圳)有限公司 基于语义解析的语句合理性判断方法、装置、计算机设备

Family Cites Families (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2017204018A (ja) * 2016-05-09 2017-11-16 富士通株式会社 検索処理方法、検索処理プログラムおよび情報処理装置

Patent Citations (5)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN105095826A (zh) * 2014-04-17 2015-11-25 阿里巴巴集团控股有限公司 一种文字识别方法及装置
CN104408087A (zh) * 2014-11-13 2015-03-11 百度在线网络技术(北京)有限公司 作弊文本的识别方法和系统
CN105589845A (zh) * 2015-12-18 2016-05-18 北京奇虎科技有限公司 垃圾文本识别方法、装置及系统
CN107861941A (zh) * 2017-10-10 2018-03-30 武汉斗鱼网络科技有限公司 用户昵称真实性评估方法、存储介质、电子设备及系统
CN109992769A (zh) * 2018-12-06 2019-07-09 平安科技(深圳)有限公司 基于语义解析的语句合理性判断方法、装置、计算机设备

Also Published As

Publication number Publication date
CN111144100A (zh) 2020-05-12

Similar Documents

Publication Publication Date Title
CN111144100B (zh) 一种问题文本识别方法、装置、电子设备及存储介质
Ling et al. Latent predictor networks for code generation
US5784489A (en) Apparatus and method for syntactic signal analysis
US20130204611A1 (en) Textual entailment recognition apparatus, textual entailment recognition method, and computer-readable recording medium
KR101509727B1 (ko) 자율학습 정렬 기반의 정렬 코퍼스 생성 장치 및 그 방법과, 정렬 코퍼스를 사용한 파괴 표현 형태소 분석 장치 및 그 형태소 분석 방법
CN114091448B (zh) 文本对抗样本生成方法、系统、计算机设备和存储介质
CN106030568B (zh) 自然语言处理系统、自然语言处理方法、以及自然语言处理程序
CN111177375A (zh) 一种电子文档分类方法及装置
CN110866390B (zh) 中文语法错误的识别方法、装置、计算机设备和存储介质
JP7040155B2 (ja) 情報処理装置、情報処理方法及びプログラム
CN112733517B (zh) 需求模板符合性检查的方法、电子设备及存储介质
CN114049642A (zh) 一种表格证件影像件的文本识别方法及计算设备
CN114528824B (zh) 文本纠错方法、装置、电子设备及存储介质
US7389220B2 (en) Correcting incomplete negation errors in French language text
CN117422064A (zh) 搜索文本纠错方法、装置、计算机设备及存储介质
JP3692399B2 (ja) 教師あり機械学習法を用いた表記誤り検出処理装置、その処理方法、およびその処理プログラム
CN112101019B (zh) 一种基于词性标注和组块分析的需求模板符合性检查优化方法
CN117195875A (zh) 一种数据处理方法、终端及存储介质
CN112395865B (zh) 报关单校验方法及装置
US11526657B2 (en) Method and apparatus for error correction of numerical contents in text, and storage medium
CN115358226A (zh) 一种文本查错方法及装置
US12008305B2 (en) Learning device, extraction device, and learning method for tagging description portions in a document
WO2021056740A1 (zh) 语言模型构建方法、系统、计算机设备及可读存储介质
CN117371445B (zh) 一种信息纠错方法、装置、计算机设备和存储介质
CN118780272B (zh) 一种外语写作自动纠错方法及系统

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
GR01 Patent grant
GR01 Patent grant