CN112560493B - 命名实体纠错方法、装置、计算机设备和存储介质 - Google Patents
命名实体纠错方法、装置、计算机设备和存储介质 Download PDFInfo
- Publication number
- CN112560493B CN112560493B CN202011493193.0A CN202011493193A CN112560493B CN 112560493 B CN112560493 B CN 112560493B CN 202011493193 A CN202011493193 A CN 202011493193A CN 112560493 B CN112560493 B CN 112560493B
- Authority
- CN
- China
- Prior art keywords
- corrected
- candidate
- named entity
- fuzzy
- final
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Active
Links
- 238000012937 correction Methods 0.000 title claims abstract description 127
- 238000000034 method Methods 0.000 title claims abstract description 80
- 238000004590 computer program Methods 0.000 claims description 16
- 238000004364 calculation method Methods 0.000 description 9
- 238000005516 engineering process Methods 0.000 description 7
- 238000010586 diagram Methods 0.000 description 6
- 238000004458 analytical method Methods 0.000 description 5
- 230000008520 organization Effects 0.000 description 5
- 230000008569 process Effects 0.000 description 5
- 238000013519 translation Methods 0.000 description 5
- 238000004891 communication Methods 0.000 description 4
- 238000013459 approach Methods 0.000 description 2
- 238000012550 audit Methods 0.000 description 2
- 230000008859 change Effects 0.000 description 2
- 230000003993 interaction Effects 0.000 description 2
- 230000003068 static effect Effects 0.000 description 2
- 241000282414 Homo sapiens Species 0.000 description 1
- 241000209510 Liliopsida Species 0.000 description 1
- 230000006399 behavior Effects 0.000 description 1
- 238000004422 calculation algorithm Methods 0.000 description 1
- 238000012512 characterization method Methods 0.000 description 1
- 238000006243 chemical reaction Methods 0.000 description 1
- 230000001149 cognitive effect Effects 0.000 description 1
- 238000011161 development Methods 0.000 description 1
- 229920001971 elastomer Polymers 0.000 description 1
- 239000000806 elastomer Substances 0.000 description 1
- 230000002708 enhancing effect Effects 0.000 description 1
- 238000000605 extraction Methods 0.000 description 1
- 239000004973 liquid crystal related substance Substances 0.000 description 1
- 238000012986 modification Methods 0.000 description 1
- 230000004048 modification Effects 0.000 description 1
- 230000003287 optical effect Effects 0.000 description 1
- 238000012545 processing Methods 0.000 description 1
Classifications
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F40/00—Handling natural language data
- G06F40/20—Natural language analysis
- G06F40/279—Recognition of textual entities
- G06F40/289—Phrasal analysis, e.g. finite state techniques or chunking
- G06F40/295—Named entity recognition
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F40/00—Handling natural language data
- G06F40/20—Natural language analysis
- G06F40/232—Orthographic correction, e.g. spell checking or vowelisation
Landscapes
- Engineering & Computer Science (AREA)
- Theoretical Computer Science (AREA)
- Health & Medical Sciences (AREA)
- Artificial Intelligence (AREA)
- Audiology, Speech & Language Pathology (AREA)
- Computational Linguistics (AREA)
- General Health & Medical Sciences (AREA)
- Physics & Mathematics (AREA)
- General Engineering & Computer Science (AREA)
- General Physics & Mathematics (AREA)
- Document Processing Apparatus (AREA)
- Machine Translation (AREA)
Abstract
本申请涉及一种命名实体纠错方法、装置、计算机设备和存储介质。方法包括:获取与待纠错命名实体的音节相匹配的候选命名实体;获取待纠错命名实体所对应的待纠错声母集合,以及获取候选命名实体所对应的候选声母集合;确定待纠错声母集合中的待纠错声母所对应的模糊声母;确定模糊声母与对应的候选声母之间的声母差异值;获取待纠错命名实体所对应的待纠错韵母集合,以及获取候选命名实体所对应的候选韵母集合;确定待纠错韵母集合中的待纠错韵母所对应的模糊韵母;确定模糊韵母与对应的候选韵母之间的韵母差异值;当确定声母差异值和韵母差异值满足纠错条件时,将候选命名实体作为纠错后的命名实体。采用本方法能够提高命名实体输入的准确性。
Description
技术领域
本申请涉及计算机技术领域,特别是涉及一种命名实体纠错方法、装置、计算机设备和存储介质。
背景技术
近年来,随着语音交互技术的应用与发展,将搜索与语音识别技术相结合,使得用户通过语音和自然语言就能实现搜索目的,从而推动搜索技术向认知搜索的方向发展。然而,由于受到用户方言习惯的影响,命名实体的识别(尤其是对企业业务实体、人名、组织名和机构名等)的能力通常无法满足真实业务的需要。例如,“陈其宁昨天创建的单子”可能会被识别为“陈其林昨天创建的单子”。此外,由于用户文本输入的随意性,可能会将用户查询中的实体(包括应用名、应用菜单名、人名、组织名和机构名等)输入为拼音相同、字形不同的谐音字。例如,“王小美昨天审核的”可能被识别为“王小眉昨天审核的”。因此,导致输入的命名实体不准确。
发明内容
基于此,有必要针对上述技术问题,提供一种命名实体纠错方法、装置、计算机设备和存储介质。
一种命名实体纠错方法,所述方法包括:
获取待纠错命名实体;
获取与所述待纠错命名实体的音节相匹配的候选命名实体;
获取所述待纠错命名实体所对应的待纠错声母集合,以及获取所述候选命名实体所对应的候选声母集合;
确定所述待纠错声母集合中的待纠错声母所对应的模糊声母;
确定所述模糊声母与对应的候选声母之间的声母差异值;所述候选声母在所述候选声母集合中;
获取所述待纠错命名实体所对应的待纠错韵母集合,以及获取所述候选命名实体所对应的候选韵母集合;
确定所述待纠错韵母集合中的待纠错韵母所对应的模糊韵母;
确定所述模糊韵母与对应的候选韵母之间的韵母差异值;所述候选韵母在所述候选韵母集合中;
当确定所述声母差异值和所述韵母差异值满足纠错条件时,将所述候选命名实体作为纠错后的命名实体。
一种命名实体纠错装置,所述装置包括:
获取模块,用于获取待纠错命名实体;
所述获取模块,用于获取与所述待纠错命名实体的音节相匹配的候选命名实体;
所述获取模块,用于获取所述待纠错命名实体所对应的待纠错声母集合,以及获取所述候选命名实体所对应的候选声母集合;
模糊声母确定模块,用于确定所述待纠错声母集合中的待纠错声母所对应的模糊声母;
声母差异值确定模块,用于确定所述模糊声母与对应的候选声母之间的声母差异值;所述候选声母在所述候选声母集合中;
所述获取模块,用于获取所述待纠错命名实体所对应的待纠错韵母集合,以及获取所述候选命名实体所对应的候选韵母集合;
模糊韵母确定模块,用于确定所述待纠错韵母集合中的待纠错韵母所对应的模糊韵母;
韵母差异值确定模块,用于确定所述模糊韵母与对应的候选韵母之间的韵母差异值;所述候选韵母在所述候选韵母集合中;
纠错后的命名实体确定模块,用于当确定所述声母差异值和所述韵母差异值满足纠错条件时,将所述候选命名实体作为纠错后的命名实体。
一种计算机设备,包括存储器和处理器,所述存储器存储有计算机程序,所述处理器执行所述计算机程序时实现本申请各个实施例中的方法。
一种计算机可读存储介质,其上存储有计算机程序,所述计算机程序被处理器执行时实现本申请各个实施例中的方法。
上述命名实体纠错方法、装置、计算机设备和存储介质,通过获取与待纠错命名实体的音节相匹配的候选命名实体,即先进行了一遍命名实体的过滤;再分别确定待纠错声母所对应的模糊声母和候选声母之间的差异,以及待纠错韵母所对应的模糊韵母和候选韵母之间的差异,基于声母、韵母级别的模糊拼音匹配,相较于整个音节的差异计算,可以提高命名实体的纠错效率;将模糊声母和模糊韵母暂时视为正确的结果,与候选命名实体进行差异值计算,能够筛选出正确的纠错后的命名实体,避免了传统方法中直接将音节差异满足一定条件、但是非模糊拼音的候选命名实体作为纠错后的命名实体,提高命名实体输入的准确性。
附图说明
图1为一个实施例中命名实体纠错方法的应用环境图;
图2为一个实施例中命名实体纠错方法的流程示意图;
图3为一个实施例中获得目标文本的流程示意图;
图4为一个实施例中命名实体纠错装置的结构框图;
图5为一个实施例中计算机设备的内部结构图。
具体实施方式
为了使本申请的目的、技术方案及优点更加清楚明白,以下结合附图及实施例,对本申请进行进一步详细说明。应当理解,此处描述的具体实施例仅仅用以解释本申请,并不用于限定本申请。
本申请提供的命名实体纠错方法,可以应用于如图1所示的应用环境中。其中,终端102通过网络与服务器104进行通信。其中,终端102可以但不限于是各种个人计算机、笔记本电脑、智能手机、平板电脑和便携式可穿戴设备,服务器104可以用独立的服务器或者是多个服务器组成的服务器集群来实现。服务器104可从终端102获取待纠错命名实体;并获取与待纠错命名实体的音节相匹配的候选命名实体;获取待纠错命名实体所对应的待纠错声母集合,以及获取候选命名实体所对应的候选声母集合;确定待纠错声母集合中的待纠错声母所对应的模糊声母;确定模糊声母与对应的候选声母之间的声母差异值;候选声母在候选声母集合中;获取待纠错命名实体所对应的待纠错韵母集合,以及获取候选命名实体所对应的候选韵母集合;确定待纠错韵母集合中的待纠错韵母所对应的模糊韵母;确定模糊韵母与对应的候选韵母之间的韵母差异值;对应的候选韵母在候选韵母集合中;当确定声母差异值和韵母差异值满足纠错条件时,将候选命名实体作为纠错后的命名实体。
在一个实施例中,传统的对命名实体进行纠错的方式大多依赖通用或特定领域的数据来训练语言模型,通过设定阈值对用户输入文本中可能存在的错误进行检测,然后利用音节差异对错误文本进行纠正。这种方法通常会将音节差异值满足一定条件的所有候选命名实体作为纠错后的命名实体,从而引入噪声,导致得到的纠错后的命名实体不准确。
如图2所示,提供了一种命名实体纠错方法,以该方法应用于图1中的终端为例进行说明,可以理解的是,该方法也可以应用于服务器,还可以应用于包括终端和服务器的系统,并通过终端和服务器的交互实现。本实施例中,该方法包括以下步骤:
步骤202,获取待纠错命名实体。
具体地,终端从文本输入界面获取用户输入的待纠错命名实体。其中,命名实体(named entity)是指应用名、应用菜单名、人名、组织名、机构名、地名以及其他所有以名称为标识的实体。更广泛的实体还包括数字、日期、货币、地址等等。待纠错命名实体具体可以文本形式呈现,也可以语音形式呈现。待纠错命名实体的语言不限,可以是中文、英文等,本申请实施例中以中文为例进行说明。
步骤204,获取与待纠错命名实体的音节相匹配的候选命名实体。
其中,音节是指是表音语系中单个元音音素和辅音音素组合发音的最小语音单位,单个元音音素也可自成音节。汉语中的音节一般由辅音和元音构成,一些情况下也由元音直接构成。并且汉语中一个字是一个音节。
具体地,终端获取与待纠错命名实体的音节之间的相似度达到预设相似度的候选音节,并获取候选音节所对应的候选命名实体。待纠错命名实体的音节是指整个待纠错命名实体的发音音节。如待纠错命名实体为陈其林,对应的音节为“chenqilin”,那么与待纠错命名实体的音节相匹配的音节可以是“cenqiling”“chenqining”等,对应的候选命名实体可以为“岑其林”“陈其宁”等。
步骤206,获取待纠错命名实体所对应的待纠错声母集合,以及获取候选命名实体所对应的候选声母集合。
其中,待纠错声母集合是指待纠错命名实体的音节中包含的声母集合。候选声母集合是指候选命名实体的音节中包含的声母集合。
具体地,终端获取待纠错命名实体所对应的待纠错声母集合,以及获取候选命名实体所对应的候选声母集合。例如,待纠错命名实体为陈其林,所对应的待纠错声母集合为{ch,q,l};候选命名实体为陈其宁,所对应的候选声母集合为{ch,q,n}。
步骤208,确定待纠错声母集合中的待纠错声母所对应的模糊声母。
其中,模糊拼音是指利用拼音输入法或者语音进行打字时,将部分容易混淆、不易区分清楚的一对音节在输入时相互通用的一种功能设置。模糊声母可以视为发音与待纠错声母相似的声母。
具体地,终端确定待纠错声母集合中位于声母模糊拼音字典中的待纠错声母所对应的模糊声母。例如,待纠错声母集合{ch,q,l}中存在ch和l处于声母模糊拼音字典中,因此获取ch所对应的模糊声母c,l所对应的模糊声母n。服务器可不对待纠错声母集合中的未在声母模糊拼音字典中的待纠错声母进行操作。如q未在声母模糊拼音字典中,因此不对q进行操作。
步骤210,确定模糊声母与对应的候选声母之间的声母差异值;候选声母在候选声母集合中。
其中,声母差异值用于表征模糊声母和处于相匹配的位置的候选声母之间的声母差异值。如模糊声母用fuzzy(Itk)表示,那么对应的候选声母为Idk,其中I表示声母,t表示待纠错命名实体,k表示第几个声母,d表示候选命名实体。
具体地,服务器确定各模糊声母与对应的候选声母之间的声母差异值。声母差异值具体可以通过编辑距离表示。编辑距离是针对2个字符串之间的差异程度的量化值,量测方式是看至少需要多少次的处理才能将一个字符串变成另一个字符串。
步骤212,获取待纠错命名实体所对应的待纠错韵母集合,以及获取候选命名实体所对应的候选韵母集合。
其中,待纠错韵母集合是指待纠错命名实体的音节中包含的韵母集合。候选韵母集合是指候选命名实体的音节中包含的韵母集合。
具体地,终端获取待纠错命名实体所对应的待纠错韵母集合,以及获取候选命名实体所对应的候选韵母集合。例如,待纠错命名实体为陈其林,所对应的待纠错韵母集合为{en,i,in};候选命名实体为陈其宁,所对应的候选韵母集合为{en,i,ing}。
步骤214,确定待纠错韵母集合中的待纠错韵母所对应的模糊韵母。
其中,模糊韵母可以视为发音与待纠错韵母相似的韵母。
具体地,终端确定待纠错韵母集合中位于韵母模糊拼音字典中的待纠错韵母所对应的模糊韵母。例如,待纠错韵母集合{en,i,in}中存在en和in处于韵母模糊拼音字典中,因此获取en所对应的模糊韵母eng,in所对应的模糊韵母ing。服务器可不对待纠错韵母集合中的未在韵母模糊拼音字典中的待纠错韵母进行操作。如i未在韵母模糊拼音字典中,因此不对i进行操作。
步骤216,确定模糊韵母与对应的候选韵母之间的韵母差异值;候选韵母在候选韵母集合中。
其中,韵母差异值用于表征模糊韵母和处于相匹配的位置的候选韵母之间的韵母差异值。如模糊韵母用fuzzy(Ftk)表示,那么对应的候选韵母为Fdk,其中F表示韵母,t表示待纠错命名实体,k表示第几个韵母,d表示候选命名实体。
具体地,服务器确定各模糊韵母与对应的候选韵母之间的韵母差异值。韵母差异值具体可以通过编辑距离表示。编辑距离是针对2个字符串之间的差异程度的量化值。编辑距离用于表征至少需要多少次的处理才能将一个字符串变成另一个字符串。
步骤218,当确定声母差异值和韵母差异值满足纠错条件时,将候选命名实体作为纠错后的命名实体。
具体地,满足纠错条件即表示声母差异和韵母差异在一个范围内。终端可对声母差异值和韵母差异值求和,再判断求和结果是否满足纠错条件。当声母差异值和韵母差异值之和满足纠错条件时,将候选命名实体作为纠错后的命名实体。
上述命名实体纠错方法,针对传统方式会直接将满足音节差异的所有候选命名实体作为纠错后的命名实体中,从而引入噪声的问题,本申请实施例通过获取与待纠错命名实体的音节相匹配的候选命名实体,即先进行了一遍命名实体的过滤;再分别确定待纠错声母所对应的模糊声母和候选声母之间的差异,以及待纠错韵母所对应的模糊韵母和候选韵母之间的差异,基于声母、韵母级别的模糊拼音匹配,相较于整个音节的差异计算,可以提高命名实体的纠错效率;将模糊声母和模糊韵母暂时视为正确的结果,与候选命名实体进行差异值计算,能够筛选出正确的纠错后的命名实体,避免了传统方法中直接将音节差异满足一定条件、但是非模糊拼音的候选命名实体作为纠错后的命名实体,提高命名实体输入的准确性。
在一个实施例中,如图3所示,为一个实施例中获得目标文本的流程示意图,包括:
步骤302,获取输入的语音数据。
具体地,终端从文本输入界面获取输入的语音数据。
步骤304,将语音数据转换为对应的待纠错文本。
其中,待纠错文本可以是一个句子,一段话等。待纠错文本中包含待纠错实名实体。
具体地,终端对语音数据进行语音识别,从而转换为语音数据对应的待纠错文本。其中,语音识别也称自动语音识别,用于将人类的语音内容转换为相应的文字。终端可采用语音识别模型对语音数据进行识别,在此不做限定。
步骤306,从待纠错文本中识别出待纠错命名实体。
具体地,终端从待纠错文本中识别出待纠错命名实体。终端采用词法分析工具对待纠错文本进行词性标注和提取,得到待纠错命名实体。词法分析工具如结巴分词、LTP(Language Technology Platform,语音技术平台)等。
例如,待纠错文本“陈其林昨天创建的单子”,所对应的词法分析结果为:
SEG(句子):['陈其林','昨天','创建','的','单子']
POS(词性):['nh','nt','v','u','n']
NER(命名实体识别):[('Nh',0,0)]
其中,“('Nh',0,0)”表示第一个命名实体为人名Nh。Nh表示人名,nt表示时间名词,v表示动词,u表示助词,n表示名词。结果表明通过词法分析工具能够将待纠错文本中的人名识别出来。
该命名实体纠错方法还包括:
步骤308,将待纠错文本中的待纠错命名实体替换为纠错后的命名实体,得到目标文本。
具体地,终端将待纠错文本中的待纠错命名实体替换为纠错后的命名实体,其他文字部分保持不变,得到目标文本。例如,当纠错后的命名实体为“陈其宁”,那么目标文本即为“陈其宁昨天创建的单子”。
本实施中的命名实体纠错方法,获取输入的语音数据,将语音数据转换为对应的纠错文本,从纠错文本中识别出待纠错命名实体,并将待纠错文本中的待纠错命名实体替换为纠错后的命名实体,即可应用于语音识别的场景,并能够对采用方言口音输入的待纠错文本进行纠错,得到正确的目标文本,提高输入的命名实体的准确性。
在一个实施例中,获取与待纠错命名实体的音节相匹配的候选命名实体,包括:从分布式全文检索引擎中获取与待纠错命名实体的音节之间的相似度达到预设相似度的候选命名实体。
其中,分布式全文检索引擎是指Elasticsearch(简称ES),是一个开源的高扩展的分布式全文检索引擎,它可以近乎实时的存储和检索数据。预设相似度可根据需求设置,例如90%、80%等不限于此。
具体地,终端从分布式全文检索引擎中获取与待纠错命名实体的音节之间的相似度达到预设相似度的候选命名实体。
例如,命名实体数据存储:将应用名、应用菜单名、人名、组织名和机构名等实体按照不同的实体名称和属性存入ES中。例如,人名“陈其宁”的存储方式如下:
那么,终端可根据“entity_namestring”即命名实体标识从ES中获取与待纠错实体发音相同或相近的候选命名实体集合。
本实施例中的命名实体纠错方法,通过从分布式全文检索引擎获取与待纠错命名实体的音节之间的相似度达到预设相似度的候选命名实体,能够初步筛选出与待纠错命名实体相似的候选命名实体,后续不需要对所有命名实体计算差异值,提高了命名实体纠错效率。
在一个实施例中,终端基于群体级搜索,从分布式全文检索引擎中获取与待纠错命名实体的音节之间的相似度达到预设相似度的候选命名实体。具体终端通过确定用户所处的群体,从分布式全文检索引擎中该群体对应的命名实体集合中获取与待纠错命名实体的音节之间的相似度达到预设相似度的候选命名实体。企业级搜索,就是在整个企业系统中,识别来自各种来源的非结构化数据,并将结果显示给授权用户。其意义在于通过一个搜索解决企业内部所有应用或数据的信息查询问题,从而极大地改善了组织内部的“数据孤岛”难题,帮助提高员工效率,为企业创造更大的价值。
本实施例中的命名实体纠错方法,基于群体级别进行搜索,则能够得到群体的常用命名实体,并从中选取与待纠错命名实体音节相似度达到预设相似度的候选命名实体,不仅可以提高命名实体纠错效率,还可以提高命名实体的准确性。
在一个实施例中,确定待纠错声母集合中的待纠错声母所对应的模糊声母,包括:当待纠错声母集合中的待纠错声母与对应的候选声母不相同,且待纠错声母位于声母模糊拼音字典中时,从声母模糊拼音字典中获取待纠错声母所对应的模糊声母。
确定待纠错韵母集合中的待纠错韵母所对应的模糊韵母,包括:当待纠错韵母集合中的待纠错韵母与对应的候选韵母不相同,且待纠错韵母位于韵母模糊拼音字典中时,从韵母模糊拼音字典中获取待纠错韵母所对应的模糊韵母。
其中,声母模糊拼音字典和韵母模糊拼音字典均可根据模糊拼音规则,包括边音、前鼻音、后鼻音和卷舌音等构建。仅有部分声母和部分韵母有对应的模糊拼音。
如声母模糊拼音字典FDI={'z':'zh','c':'ch','s':'sh','k':'g','l':'n','h':'f'}
如韵母模糊拼音字典FDF={'an':'ang','en':'eng','in':'ing','uan':'uang','ei':'ui'}
具体地,当待纠错声母集合中待纠错声母与对应的候选声母不相同,且待纠错声母位于声母模糊拼音字典中时,从声母模糊拼音字典中获取待纠错声母所对应的模糊声母。
当待纠错声母集合中的待纠错声母未位于声母模糊字典中时,不对未位于声母模糊字典中的待纠错声母进行纠错,直接将待纠错声母对应的文字作为纠正后的命名实体中对应的文字。
当待纠错韵母集合中待纠错韵母与对应的候选韵母不相同,且待纠错韵母位于韵母模糊拼音字典中时,从韵母模糊拼音字典中获取待纠错韵母所对应的模糊韵母。
当待纠错韵母集合中的待纠错韵母未位于韵母模糊字典中时,不对未位于韵母模糊字典中的待纠错韵母进行纠错,直接将待纠错韵母对应的文字作为纠正后的命名实体中对应的文字。
例如,t表示待纠错命名实体,d表示候选命名实体,分别获取t的待纠错声母集合和待纠错韵母集合,以及d的候选声母集合和候选韵母集合。
对Id中每个音节(字)的声母Idk:
若Itk与Idk不相等且Itk在FDI的键中,则将其替换为FDI中Idk所对应的模糊声母,记为fuzzy(Itk)。
对Fd中每个音节(字)的韵母Fdk:
若Ftk与Fdk不相等且Ftk在FDF的键中,则将其替换为FDF中Fdk所对应的模糊韵母,记为fuzzy(Ftk)。
又例如,待纠错命名实体为“陈其林”,候选命名实体为“陈其宁”,待纠错声母集合为{ch,q,l},候选声母集合为{ch,q,n}。第一个待纠错声母ch与对应的候选声母ch相同,则不操作。同样地,第二个待纠错声母q与对应的q相同,也不操作。第三个待纠错声母l与对应的候选声母n不同,因此从声母模糊字典中获取待纠错声母l所对应的模糊声母n。
本实施例中的命名实体纠错方法,当待纠错声母集合中的待纠错声母与对应的候选声母不相同,说明该待纠错声母所对应的文字有很大可能性是错误的,且待纠错声母位于声母模糊拼音字典中时,从声母模糊拼音字典中获取待纠错声母所对应的模糊声母,因此需要暂时设置为模糊声母,并且将模糊声母视为正确声母,再计算模糊声母和对应的候选声母之间的差异值,即可得到候选声母的可信度即候选命名实体的可信度;模糊韵母同理可证,满足条件时将该候选命名实体作为纠错后的命名实体,能够提高纠错后的命名实体的准确性。
在一个实施例中,该命名实体纠错方法还包括:当获取到与待纠错命名实体相同的候选命名实体时,将相同的候选命名实体作为纠错后的命名实体。其中,相同的候选命名实体是指与待纠错命名实体的文字相同的命名实体。
本实施例中的命名实体纠错方法,当获取到与待纠错命名实体相同的候选命名实体时,即该待纠错命名实体很有可能是一个正确的命名实体,因此直接将相同的候选命名实体作为纠错后的命名实体,则不需要进行声母韵母等判断,提高命名实体的输入效率。
在一个实施例中,当确定声母差异值和韵母差异值满足纠错条件时,将候选命名实体作为纠错后的命名实体,包括:对声母差异值求和,得到声母差异和;对韵母差异值求和,得到韵母差异和;当声母差异和和韵母差异和之和满足预设差异值条件时,将候选命名实体作为纠错后的命名实体。
具体地,终端对声母差异值求和,得到声母差异和。终端对韵母差异值求和,得到韵母差异和。当声母差异和和韵母差异和之和满足预设差异值条件时,终端将候选命名实体作为纠错后的命名实体。例如,声母差异值有两个,分别是声母差异值A和声母差异值B,韵母差异值也有两个,分别为韵母差异值C和韵母差异值D,以预设差异值条件为等于零为例进行说明,那么A+B+C+D=0则将该候选命名实体作为纠错后的命名实体。
本实施例中的命名实体纠错方法,对声母差异值求和,得到声母差异和,对韵母差异值求和,得到韵母差异和,当声母差异和和韵母差异和之和满足预设差异值条件时,将候选命名实体作为纠错后的命名实体,能够筛选出正确的命名实体。
在一个实施例中,待纠错声母集合中待纠错声母的数量为至少两个,一个待纠错声母对应一个模糊声母;待纠错韵母集合中的待纠错韵母的数量为至少两个;一个待纠错韵母对应一个模糊韵母;
确定模糊声母与对应的候选声母之间的声母差异值,包括:确定各模糊声母与对应的候选声母之间的声母差异值,得到至少两个声母差异值。
确定模糊韵母与对应的候选韵母之间的韵母差异值,包括:
确定各模糊韵母与对应的候选韵母之间的韵母差异值,得到至少两个韵母差异值。
当确定声母差异值和韵母差异值满足纠错条件时,将候选命名实体作为纠错后的命名实体,包括:对至少两个声母差异值求和,得到声母差异和;对至少两个韵母差异值求和,得到韵母差异和;当声母差异和和韵母差异和之和满足预设差异值条件时,将候选命名实体作为纠错后的命名实体。
其中,预设差异值条件可根据差异值的计算方式设置。例如,当差异值是指编辑距离时,预设差异值条件可以是编辑距离为0。
具体地,待纠错声母集合中待纠错声母的数量为至少两个,一个待纠错声母对应一个模糊声母;即模糊声母的数量为至少两个。待纠错韵母集合中待纠错韵母的数量为至少两个,一个待纠错韵母对应一个模糊韵母;即模糊韵母的数量为至少两个。终端确定至少两个模糊声母中每个模糊声母与对应的候选声母之间的声母差异值,得到至少两个声母差异值。终端确定至少两个模糊韵母中每个模糊韵母与对应的候选韵母之间的韵母差异值,得到至少两个韵母差异值。终端对至少两个声母差异值求和,得到声母差异和;对至少两个韵母差异值求和,得到韵母差异和;当声母差异和和韵母差异和之和满足预设差异值条件时,将候选命名实体作为纠错后的命名实体。
例如,计算It和Id中Idk与fuzzy(Itk)之间的编辑距离之和disi,以及计算Ft和Fd中Fdk与fuzzy(Ftk)之间的编辑距离之和disf。再计算声母差异和和韵母差异和之和disi与disf之和为0,则将该候选命名实体作为纠错后的命名实体。
本实施例中的命名实体纠错方法,对至少两个声母差异值求和,得到声母差异和,对至少两个韵母差异值求和,得到韵母差异和,当声母差异和和韵母差异和之和满足预设差异值条件时,将候选命名实体作为纠错后的命名实体,能够筛选出正确的命名实体。
在一个实施例中,候选命名实体的数量为至少两个;获取候选命名实体所对应的候选声母集合,包括:对于至少两个候选命名实体中每个候选命名实体,获取候选命名实体所对应的候选声母集合。
该命名实体纠错方法还包括:
当纠错后的命名实体的数量为至少两个时,显示至少两个纠错后的命名实体;响应于对至少两个纠错后的命名实体的选择操作,将所选中的命名实体作为目标命名实体。
具体地,候选命名实体的数量可以为至少两个。那么对于至少两个候选命名实体中每个候选命名实体,获取每个候选命名实体所对应的候选声母集合。即需要对每个候选命名实体进行处理,并计算差异值。当纠错后的命名实体的数量为至少两个时,终端在文本输入界面显示至少两个纠错后的命名实体。并响应于对至少两个纠错后的命名实体的选择操作,终端将在文本输入界面所选中的命名实体作为目标命名实体。
本实施例中的命名实体纠错方法,对于至少两个候选命名实体中每个候选命名实体,获取候选命名实体所对应的候选声母集合,即对每个候选命名实体均进行处理;当纠错后的命名实体的数量为至少两个时,显示至少两个纠错后的命名实体,响应于对至少两个纠错后的命名实体的选择操作,将所选中的命名实体作为目标命名实体,则将命名实体选择权交给用户,以获得正确的命名实体。
在一个实施例中,一种命名实体纠错方法,包括:
步骤(a1),获取输入的语音数据。
步骤(a2),将语音数据转换为对应的待纠错文本。
步骤(a3),从待纠错文本中识别出待纠错命名实体。候选命名实体的数量为至少两个。
步骤(a4),从分布式全文检索引擎中获取与待纠错命名实体的音节之间的相似度达到预设相似度的候选命名实体。
步骤(a4),对于至少两个候选命名实体中每个候选命名实体,获取待纠错命名实体所对应的待纠错声母集合,以及获取候选命名实体所对应的候选声母集合。
步骤(a5),当待纠错声母集合中的待纠错声母与对应的候选声母不相同,且待纠错声母位于声母模糊拼音字典中时,从声母模糊拼音字典中获取待纠错声母所对应的模糊声母。
步骤(a6),当模糊声母的数量为至少两个时,确定各模糊声母与对应的候选声母之间的声母差异值,得到至少两个声母差异值。候选声母在候选声母集合中。
步骤(a7),获取待纠错命名实体所对应的待纠错韵母集合,以及获取候选命名实体所对应的候选韵母集合。
步骤(a8),当待纠错韵母集合中的待纠错韵母与对应的候选韵母不相同,且待纠错韵母位于韵母模糊拼音字典中时,从韵母模糊拼音字典中获取待纠错韵母所对应的模糊韵母。
步骤(a9),当模糊韵母的数量为至少两个时,确定各模糊韵母与对应的候选韵母之间的韵母差异值,得到至少两个韵母差异值。候选韵母在候选韵母集合中。
步骤(a10),对至少两个声母差异值求和,得到声母差异和。
步骤(a11),对至少两个韵母差异值求和,得到韵母差异和。
步骤(a12),当声母差异和和韵母差异和之和满足预设差异值条件时,将候选命名实体作为纠错后的命名实体。
步骤(a13),将待纠错文本中的待纠错命名实体替换为纠错后的命名实体,得到目标文本。
步骤(a14),当获取到与待纠错命名实体相同的候选命名实体时,将相同的候选命名实体作为纠错后的命名实体。
上述命名实体纠错方法,针对传统方式会直接将满足音节差异的所有候选命名实体作为纠错后的命名实体中,从而引入噪声的问题,本申请实施例通过获取与待纠错命名实体的音节相匹配的候选命名实体,即先进行了一遍命名实体的过滤;再分别确定待纠错声母所对应的模糊声母和候选声母之间的差异,以及待纠错韵母所对应的模糊韵母和候选韵母之间的差异,基于声母、韵母级别的模糊拼音匹配,相较于整个音节的差异计算,可以提高命名实体的纠错效率;将模糊声母和模糊韵母暂时视为正确的结果,与候选命名实体进行差异值计算,能够筛选出正确的纠错后的命名实体,避免了传统方法中直接将音节差异满足一定条件、但是非模糊拼音的候选命名实体作为纠错后的命名实体,提高命名实体输入的准确性。
在一个实施例中,传统的命名实体纠错方式通常有以下几种方式:
(1)基于统计和规则相结合的方法。该方法利用汉语的语法规则,在统计语言模型中采用两种基于词和词性的混合语言模型,对拼音中出现的错误进行纠正,然后实现汉语拼音到文本内容的翻译过程的方法。
(2)基于转换的方法。该方法采用困惑网络(Confusion Network)模型对识别错误的模式进行学习,然后采用该模型进行检错和纠错,对用户话语中的概念表征进行增强。
(3)基于拼音编辑距离的方法。该方法通过计算待纠错词与候选集中词语之间的拼音编辑距离对输入文本中可能存在的错误进行纠正。
(4)基于拼音编辑距离和语言模型相结合的方法。该方法首先采用语言模型对输入文本中可能存在的错误进行检测,然后采用拼音编辑距离和语言模型对错误文本进行纠正。
(5)基于统计机器翻译的方法。该方法将用户概念表征学习看成同种语言中错误句子翻译为正确句子的过程,其核心由语言模型和翻译模型组成。语言模型学习语言规则、语言知识;翻译模型从平行语料中学习用户的纠错行为。
然而,上述使用方式,大多依赖通用或特定领域的数据来训练语言模型,通过设定阈值对用户输入文本中可能存在的错误进行检测,然后利用拼音规则或拼音编辑距离对错误文本进行纠正。这种方法通常会将拼音编辑距离满足一定条件下的所有候选放入结果集中,从而引入噪声。而基于统计机器翻译的方法的缺点是需要依赖大规模的有监督语料。
通过采用本申请实施例的方式,针对企业级搜索场景,提出一种基于模糊拼音和错别字的实体文本纠错算法。该方案首先利用词法分析工具对用户查询中的相关实体进行词性标注和提取,然后分别利用声母、韵母模糊拼音字典,采用声母、韵母级别编辑距离将待纠错实体文本与ES中的候选词文本进行比对,从中选取经模糊拼音字典替换后,编辑距离为0的候选词放入结果集中。该方法仅基于声母、韵母模糊拼音词典进行判断,避免了传统方法将拼音编辑距离满足一定条件、非模糊拼音的候选放入结果集中。即避免传统方法将拼音编辑距离满足一定条件、非模糊拼音的候选作为目标命名实体。
应该理解的是,虽然图2和3的流程图中的各个步骤按照箭头的指示依次显示,但是这些步骤并不是必然按照箭头指示的顺序依次执行。除非本文中有明确的说明,这些步骤的执行并没有严格的顺序限制,这些步骤可以以其它的顺序执行。而且,图2和3中的至少一部分步骤可以包括多个步骤或者多个阶段,这些步骤或者阶段并不必然是在同一时刻执行完成,而是可以在不同的时刻执行,这些步骤或者阶段的执行顺序也不必然是依次进行,而是可以与其它步骤或者其它步骤中的步骤或者阶段的至少一部分轮流或者交替地执行。
在一个实施例中,如图4所示,提供了一种命名实体纠错装置,包括:获取模块402、模糊声母确定模块404、声母差异值确定模块406、模糊韵母确定模块408、韵母差异值确定模块410和纠错后的命名实体确定模块412,其中:
获取模块402,用于获取待纠错命名实体;
获取模块402,用于获取与待纠错命名实体的音节相匹配的候选命名实体;
获取模块402,用于获取待纠错命名实体所对应的待纠错声母集合,以及获取候选命名实体所对应的候选声母集合;
模糊声母确定模块404,用于确定待纠错声母集合中的待纠错声母所对应的模糊声母;
声母差异值确定模块406,用于确定模糊声母与对应的候选声母之间的声母差异值;候选声母在候选声母集合中;
获取模块402,用于获取待纠错命名实体所对应的待纠错韵母集合,以及获取候选命名实体所对应的候选韵母集合;
模糊韵母确定模块408,用于确定待纠错韵母集合中的待纠错韵母所对应的模糊韵母;
韵母差异值确定模块410,用于确定模糊韵母与对应的候选韵母之间的韵母差异值;候选韵母在候选韵母集合中;
纠错后的命名实体确定模块412,用于当确定声母差异值和韵母差异值满足纠错条件时,将候选命名实体作为纠错后的命名实体。
上述命名实体纠错装置,针对传统方式会直接将满足音节差异的所有候选命名实体作为纠错后的命名实体中,从而引入噪声的问题,本申请实施例通过获取与待纠错命名实体的音节相匹配的候选命名实体,即先进行了一遍命名实体的过滤;再分别确定待纠错声母所对应的模糊声母和候选声母之间的差异,以及待纠错韵母所对应的模糊韵母和候选韵母之间的差异,基于声母、韵母级别的模糊拼音匹配,相较于整个音节的差异计算,可以提高命名实体的纠错效率;将模糊声母和模糊韵母暂时视为正确的结果,与候选命名实体进行差异值计算,能够筛选出正确的纠错后的命名实体,避免了传统装置中直接将音节差异满足一定条件、但是非模糊拼音的候选命名实体作为纠错后的命名实体,提高命名实体输入的准确性。
在一个实施例中,获取模块402用于获取输入的语音数据;将语音数据转换为对应的待纠错文本;从待纠错文本中识别出待纠错命名实体;将待纠错文本中的待纠错命名实体替换为纠错后的命名实体,得到目标文本。该命名实体纠错装置还包括目标文本确定模块,目标文本确定模块用于将待纠错文本中的待纠错命名实体替换为纠错后的命名实体,得到目标文本。
本实施中的命名实体纠错装置,获取输入的语音数据,将语音数据转换为对应的纠错文本,从纠错文本中识别出待纠错命名实体,并将待纠错文本中的待纠错命名实体替换为纠错后的命名实体,即可应用于语音识别的场景,并能够对采用方言口音输入的待纠错文本进行纠错,得到正确的目标文本,提高输入的命名实体的准确性。
在一个实施例中,获取模块402用于从分布式全文检索引擎中获取与待纠错命名实体的音节之间的相似度达到预设相似度的候选命名实体。
本实施例中的命名实体纠错装置,通过从分布式全文检索引擎获取与待纠错命名实体的音节之间的相似度达到预设相似度的候选命名实体,能够初步筛选出与待纠错命名实体相似的候选命名实体,后续不需要对所有命名实体计算差异值,提高了命名实体纠错效率。
在一个实施例中,模糊声母确定模块404用于当待纠错声母集合中的待纠错声母与对应的候选声母不相同,且待纠错声母位于声母模糊拼音字典中时,从声母模糊拼音字典中获取待纠错声母所对应的模糊声母。模糊韵母确定模块408用于当待纠错韵母集合中的待纠错韵母与对应的候选韵母不相同,且待纠错韵母位于韵母模糊拼音字典中时,从韵母模糊拼音字典中获取待纠错韵母所对应的模糊韵母。
本实施例中的命名实体纠错装置,当待纠错声母集合中的待纠错声母与对应的候选声母不相同,说明该待纠错声母所对应的文字有很大可能性是错误的,且待纠错声母位于声母模糊拼音字典中时,从声母模糊拼音字典中获取待纠错声母所对应的模糊声母,因此需要暂时设置为模糊声母,并且将模糊声母视为正确声母,再计算模糊声母和对应的候选声母之间的差异值,即可得到候选声母的可信度即候选命名实体的可信度;模糊韵母同理可证,满足条件时将该候选命名实体作为纠错后的命名实体,能够提高纠错后的命名实体的准确性。
在一个实施例中,纠错后的命名实体确定模块412还用于当获取到与待纠错命名实体相同的候选命名实体时,将相同的候选命名实体作为纠错后的命名实体。其中,相同的候选命名实体是指与待纠错命名实体的文字相同的命名实体。
本实施例中的命名实体纠错装置,当获取到与待纠错命名实体相同的候选命名实体时,即该待纠错命名实体很有可能是一个正确的命名实体,因此直接将相同的候选命名实体作为纠错后的命名实体,则不需要进行声母韵母等判断,提高命名实体的输入效率。
在一个实施例中,待纠错声母集合中待纠错声母的数量为至少两个;一个待纠错声母对应一个模糊声母;待纠错韵母集合中待纠错云目录的数量为至少两个;一个待纠错韵母对应一个模糊韵母;。声母差异值确定模块406用于确定各模糊声母与对应的候选声母之间的声母差异值,得到至少两个声母差异值。韵母差异值用于确定各模糊韵母与对应的候选韵母之间的韵母差异值,得到至少两个韵母差异值。纠错后的命名实体确定模块412用于对至少两个声母差异值求和,得到声母差异和;对至少两个韵母差异值求和,得到韵母差异和;当声母差异和和韵母差异和之和满足预设差异值条件时,将候选命名实体作为纠错后的命名实体。
本实施例中的命名实体纠错装置,对至少两个声母差异值求和,得到声母差异和,对至少两个韵母差异值求和,得到韵母差异和,当声母差异和和韵母差异和之和满足预设差异值条件时,将候选命名实体作为纠错后的命名实体,能够筛选出正确的命名实体。
在一个实施例中,候选命名实体的数量为至少两个;获取模块402用于对于至少两个候选命名实体中每个候选命名实体,获取候选命名实体所对应的候选声母集合。该命名实体纠错装置还包括选择模块,选择模块用于当纠错后的命名实体的数量为至少两个时,显示至少两个纠错后的命名实体;响应于对至少两个纠错后的命名实体的选择操作,将所选中的命名实体作为目标命名实体。
本实施例中的命名实体纠错装置,对于至少两个候选命名实体中每个候选命名实体,获取候选命名实体所对应的候选声母集合,即对每个候选命名实体均进行处理;当纠错后的命名实体的数量为至少两个时,显示至少两个纠错后的命名实体,响应于对至少两个纠错后的命名实体的选择操作,将所选中的命名实体作为目标命名实体,则将命名实体选择权交给用户,以获得正确的命名实体。
关于命名实体纠错装置的具体限定可以参见上文中对于命名实体纠错方法的限定,在此不再赘述。上述命名实体纠错装置中的各个模块可全部或部分通过软件、硬件及其组合来实现。上述各模块可以硬件形式内嵌于或独立于计算机设备中的处理器中,也可以以软件形式存储于计算机设备中的存储器中,以便于处理器调用执行以上各个模块对应的操作。
在一个实施例中,提供了一种计算机设备,该计算机设备可以是终端,其内部结构图可以如图5所示。该计算机设备包括通过系统总线连接的处理器、存储器、通信接口、显示屏和输入装置。其中,该计算机设备的处理器用于提供计算和控制能力。该计算机设备的存储器包括非易失性存储介质、内存储器。该非易失性存储介质存储有操作系统和计算机程序。该内存储器为非易失性存储介质中的操作系统和计算机程序的运行提供环境。该计算机设备的通信接口用于与外部的终端进行有线或无线方式的通信,无线方式可通过WIFI、运营商网络、NFC(近场通信)或其他技术实现。该计算机程序被处理器执行时以实现一种命名实体纠错方法。该计算机设备的显示屏可以是液晶显示屏或者电子墨水显示屏,该计算机设备的输入装置可以是显示屏上覆盖的触摸层,也可以是计算机设备外壳上设置的按键、轨迹球或触控板,还可以是外接的键盘、触控板或鼠标等。
本领域技术人员可以理解,图5中示出的结构,仅仅是与本申请方案相关的部分结构的框图,并不构成对本申请方案所应用于其上的计算机设备的限定,具体的计算机设备可以包括比图中所示更多或更少的部件,或者组合某些部件,或者具有不同的部件布置。
在一个实施例中,还提供了一种计算机设备,包括存储器和处理器,存储器中存储有计算机程序,该处理器执行计算机程序时实现上述各方法实施例中的步骤。
在一个实施例中,提供了一种计算机可读存储介质,存储有计算机程序,该计算机程序被处理器执行时实现上述各方法实施例中的步骤。
在一个实施例中,提供了一种计算机程序产品或计算机程序,该计算机程序产品或计算机程序包括计算机指令,该计算机指令存储在计算机可读存储介质中。计算机设备的处理器从计算机可读存储介质读取该计算机指令,处理器执行该计算机指令,使得该计算机设备执行上述各方法实施例中的步骤。
本领域普通技术人员可以理解实现上述实施例方法中的全部或部分流程,是可以通过计算机程序来指令相关的硬件来完成,所述的计算机程序可存储于一非易失性计算机可读取存储介质中,该计算机程序在执行时,可包括如上述各方法的实施例的流程。其中,本申请所提供的各实施例中所使用的对存储器、存储、数据库或其它介质的任何引用,均可包括非易失性和易失性存储器中的至少一种。非易失性存储器可包括只读存储器(Read-Only Memory,ROM)、磁带、软盘、闪存或光存储器等。易失性存储器可包括随机存取存储器(Random Access Memory,RAM)或外部高速缓冲存储器。作为说明而非局限,RAM可以是多种形式,比如静态随机存取存储器(Static Random Access Memory,SRAM)或动态随机存取存储器(Dynamic Random Access Memory,DRAM)等。
以上实施例的各技术特征可以进行任意的组合,为使描述简洁,未对上述实施例中的各个技术特征所有可能的组合都进行描述,然而,只要这些技术特征的组合不存在矛盾,都应当认为是本说明书记载的范围。
以上所述实施例仅表达了本申请的几种实施方式,其描述较为具体和详细,但并不能因此而理解为对发明专利范围的限制。应当指出的是,对于本领域的普通技术人员来说,在不脱离本申请构思的前提下,还可以做出若干变形和改进,这些都属于本申请的保护范围。因此,本申请专利的保护范围应以所附权利要求为准。
Claims (10)
1.一种命名实体纠错方法,其特征在于,所述方法包括:
获取待纠错命名实体;
获取与所述待纠错命名实体的音节相匹配的候选命名实体;
获取所述待纠错命名实体所对应的待纠错声母集合,以及获取所述候选命名实体所对应的候选声母集合;
确定所述待纠错声母集合中的待纠错声母所对应的模糊声母;
确定所述模糊声母与对应的候选声母之间的声母差异值;所述候选声母在所述候选声母集合中;
获取所述待纠错命名实体所对应的待纠错韵母集合,以及获取所述候选命名实体所对应的候选韵母集合;
确定所述待纠错韵母集合中的待纠错韵母所对应的模糊韵母;
确定所述模糊韵母与对应的候选韵母之间的韵母差异值;所述候选韵母在所述候选韵母集合中;
当确定所述声母差异值和所述韵母差异值满足纠错条件时,将所述候选命名实体作为纠错后的命名实体。
2.根据权利要求1所述的方法,其特征在于,所述获取待纠错命名实体,包括:
获取输入的语音数据;
将所述语音数据转换为对应的待纠错文本;
从所述待纠错文本中识别出待纠错命名实体;
所述方法还包括:
将所述待纠错文本中的待纠错命名实体替换为所述纠错后的命名实体,得到目标文本。
3.根据权利要求1所述的方法,其特征在于,所述获取与所述待纠错命名实体的音节相匹配的候选命名实体,包括:
从分布式全文检索引擎中获取与所述待纠错命名实体的音节之间的相似度达到预设相似度的候选命名实体。
4.根据权利要求1所述的方法,其特征在于,所述确定所述待纠错声母集合中的待纠错声母所对应的模糊声母,包括:
当所述待纠错声母集合中的待纠错声母与对应的候选声母不相同,且所述待纠错声母位于声母模糊拼音字典中时,从所述声母模糊拼音字典中获取所述待纠错声母所对应的模糊声母;
所述确定所述待纠错韵母集合中的待纠错韵母所对应的模糊韵母,包括:
当所述待纠错韵母集合中的待纠错韵母与对应的候选韵母不相同,且所述待纠错韵母位于韵母模糊拼音字典中时,从所述韵母模糊拼音字典中获取所述待纠错韵母所对应的模糊韵母。
5.根据权利要求1所述的方法,其特征在于,所述方法还包括:
当获取到与所述待纠错命名实体相同的候选命名实体时,将相同的候选命名实体作为纠错后的命名实体。
6.根据权利要求1至5任一项所述的方法,其特征在于,所述当确定所述声母差异值和所述韵母差异值满足纠错条件时,将所述候选命名实体作为纠错后的命名实体,包括:
对所述声母差异值求和,得到声母差异和;
对所述韵母差异值求和,得到韵母差异和;
当所述声母差异和和所述韵母差异和之和满足预设差异值条件时,将所述候选命名实体作为纠错后的命名实体。
7.根据权利要求1至5任一项所述的方法,其特征在于,所述候选命名实体的数量为至少两个;
所述获取所述候选命名实体所对应的候选声母集合,包括:
对于至少两个候选命名实体中每个候选命名实体,获取所述候选命名实体所对应的候选声母集合;
所述方法还包括:
当所述纠错后的命名实体的数量为至少两个时,显示至少两个纠错后的命名实体;
响应于对至少两个纠错后的命名实体的选择操作,将所选中的命名实体作为目标命名实体。
8.一种命名实体纠错装置,其特征在于,所述装置包括:
获取模块,用于获取待纠错命名实体;
所述获取模块,用于获取与所述待纠错命名实体的音节相匹配的候选命名实体;
所述获取模块,用于获取所述待纠错命名实体所对应的待纠错声母集合,以及获取所述候选命名实体所对应的候选声母集合;
模糊声母确定模块,用于确定所述待纠错声母集合中的待纠错声母所对应的模糊声母;
声母差异值确定模块,用于确定所述模糊声母与对应的候选声母之间的声母差异值;所述候选声母在所述候选声母集合中;
所述获取模块,用于获取所述待纠错命名实体所对应的待纠错韵母集合,以及获取所述候选命名实体所对应的候选韵母集合;
模糊韵母确定模块,用于确定所述待纠错韵母集合中的待纠错韵母所对应的模糊韵母;
韵母差异值确定模块,用于确定所述模糊韵母与对应的候选韵母之间的韵母差异值;所述候选韵母在所述候选韵母集合中;
纠错后的命名实体确定模块,用于当确定所述声母差异值和所述韵母差异值满足纠错条件时,将所述候选命名实体作为纠错后的命名实体。
9.一种计算机设备,包括存储器和处理器,所述存储器存储有计算机程序,其特征在于,所述处理器执行所述计算机程序时实现权利要求1至7中任一项所述的方法的步骤。
10.一种计算机可读存储介质,其上存储有计算机程序,其特征在于,所述计算机程序被处理器执行时实现权利要求1至7中任一项所述的方法的步骤。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202011493193.0A CN112560493B (zh) | 2020-12-17 | 2020-12-17 | 命名实体纠错方法、装置、计算机设备和存储介质 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202011493193.0A CN112560493B (zh) | 2020-12-17 | 2020-12-17 | 命名实体纠错方法、装置、计算机设备和存储介质 |
Publications (2)
Publication Number | Publication Date |
---|---|
CN112560493A CN112560493A (zh) | 2021-03-26 |
CN112560493B true CN112560493B (zh) | 2024-04-30 |
Family
ID=75064316
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN202011493193.0A Active CN112560493B (zh) | 2020-12-17 | 2020-12-17 | 命名实体纠错方法、装置、计算机设备和存储介质 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN112560493B (zh) |
Citations (13)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN103473003A (zh) * | 2013-09-12 | 2013-12-25 | 天津三星通信技术研究有限公司 | 一种字符输入的纠错方法及其装置 |
CN104464736A (zh) * | 2014-12-15 | 2015-03-25 | 北京百度网讯科技有限公司 | 语音识别文本的纠错方法和装置 |
CN106548777A (zh) * | 2016-11-25 | 2017-03-29 | 北京光年无限科技有限公司 | 一种用于智能机器人的数据处理方法及装置 |
CN106598939A (zh) * | 2016-10-21 | 2017-04-26 | 北京三快在线科技有限公司 | 一种文本纠错方法及装置、服务器、存储介质 |
CN107729321A (zh) * | 2017-10-23 | 2018-02-23 | 上海百芝龙网络科技有限公司 | 一种语音识别结果纠错方法 |
CN109145276A (zh) * | 2018-08-14 | 2019-01-04 | 杭州智语网络科技有限公司 | 一种基于拼音的语音转文字后的文本校正方法 |
CN109710929A (zh) * | 2018-12-18 | 2019-05-03 | 金蝶软件(中国)有限公司 | 一种语音识别文本的校正方法、装置、计算机设备和存储介质 |
CN109712616A (zh) * | 2018-11-29 | 2019-05-03 | 平安科技(深圳)有限公司 | 基于数据处理的电话号码纠错方法、装置及计算机设备 |
CN109977412A (zh) * | 2019-03-29 | 2019-07-05 | 北京林业大学 | 一种字段值纠错方法、装置、可读介质及存储控制器 |
CN110032722A (zh) * | 2018-01-12 | 2019-07-19 | 北京京东尚科信息技术有限公司 | 文本纠错方法和装置 |
CN111079412A (zh) * | 2018-10-18 | 2020-04-28 | 北京嘀嘀无限科技发展有限公司 | 文本纠错方法及装置 |
CN111369996A (zh) * | 2020-02-24 | 2020-07-03 | 网经科技(苏州)有限公司 | 一种特定领域的语音识别文本纠错方法 |
CN111444705A (zh) * | 2020-03-10 | 2020-07-24 | 中国平安人寿保险股份有限公司 | 纠错方法、装置、设备及可读存储介质 |
-
2020
- 2020-12-17 CN CN202011493193.0A patent/CN112560493B/zh active Active
Patent Citations (13)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN103473003A (zh) * | 2013-09-12 | 2013-12-25 | 天津三星通信技术研究有限公司 | 一种字符输入的纠错方法及其装置 |
CN104464736A (zh) * | 2014-12-15 | 2015-03-25 | 北京百度网讯科技有限公司 | 语音识别文本的纠错方法和装置 |
CN106598939A (zh) * | 2016-10-21 | 2017-04-26 | 北京三快在线科技有限公司 | 一种文本纠错方法及装置、服务器、存储介质 |
CN106548777A (zh) * | 2016-11-25 | 2017-03-29 | 北京光年无限科技有限公司 | 一种用于智能机器人的数据处理方法及装置 |
CN107729321A (zh) * | 2017-10-23 | 2018-02-23 | 上海百芝龙网络科技有限公司 | 一种语音识别结果纠错方法 |
CN110032722A (zh) * | 2018-01-12 | 2019-07-19 | 北京京东尚科信息技术有限公司 | 文本纠错方法和装置 |
CN109145276A (zh) * | 2018-08-14 | 2019-01-04 | 杭州智语网络科技有限公司 | 一种基于拼音的语音转文字后的文本校正方法 |
CN111079412A (zh) * | 2018-10-18 | 2020-04-28 | 北京嘀嘀无限科技发展有限公司 | 文本纠错方法及装置 |
CN109712616A (zh) * | 2018-11-29 | 2019-05-03 | 平安科技(深圳)有限公司 | 基于数据处理的电话号码纠错方法、装置及计算机设备 |
CN109710929A (zh) * | 2018-12-18 | 2019-05-03 | 金蝶软件(中国)有限公司 | 一种语音识别文本的校正方法、装置、计算机设备和存储介质 |
CN109977412A (zh) * | 2019-03-29 | 2019-07-05 | 北京林业大学 | 一种字段值纠错方法、装置、可读介质及存储控制器 |
CN111369996A (zh) * | 2020-02-24 | 2020-07-03 | 网经科技(苏州)有限公司 | 一种特定领域的语音识别文本纠错方法 |
CN111444705A (zh) * | 2020-03-10 | 2020-07-24 | 中国平安人寿保险股份有限公司 | 纠错方法、装置、设备及可读存储介质 |
Non-Patent Citations (2)
Title |
---|
WEB语音检索中查询概念纠错的研究;沈玺;王永成;;计算机仿真;20060228(第02期);227-231 * |
基于搜索引擎日志的中文纠错方法研究;杨苏稳;张晓如;;软件导刊;20200615(第06期);188-193 * |
Also Published As
Publication number | Publication date |
---|---|
CN112560493A (zh) | 2021-03-26 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
US10176804B2 (en) | Analyzing textual data | |
CN102982021B (zh) | 用于消除语言转换中的多个读法的歧义的方法 | |
CN107729313B (zh) | 基于深度神经网络的多音字读音的判别方法和装置 | |
US20180181544A1 (en) | Systems for Automatically Extracting Job Skills from an Electronic Document | |
CN109670040B (zh) | 写作辅助方法、装置及存储介质、计算机设备 | |
Singh et al. | Systematic review of spell-checkers for highly inflectional languages | |
Jain et al. | “UTTAM” an efficient spelling correction system for hindi language based on supervised learning | |
CN111401012A (zh) | 文本纠错方法、电子设备及计算机可读存储介质 | |
Uthayamoorthy et al. | Ddspell-a data driven spell checker and suggestion generator for the tamil language | |
Wu et al. | Integrating dictionary and web N-grams for chinese spell checking | |
Jamro | Sindhi language processing: A survey | |
Choudhury et al. | Context-sensitive spelling checker for assamese language | |
CN110750967B (zh) | 一种发音的标注方法、装置、计算机设备和存储介质 | |
Aziz et al. | Urdu spell checker: A scarce resource language | |
CN112560493B (zh) | 命名实体纠错方法、装置、计算机设备和存储介质 | |
Demilie et al. | Automated all in one misspelling detection and correction system for Ethiopian languages | |
Muhamad et al. | Proposal: A hybrid dictionary modelling approach for malay tweet normalization | |
JP5293607B2 (ja) | 略語生成装置およびプログラム、並びに、略語生成方法 | |
Hladek et al. | Unsupervised spelling correction for Slovak | |
de Mendonça Almeida et al. | Evaluating phonetic spellers for user-generated content in Brazilian Portuguese | |
CN114970541A (zh) | 文本语义理解方法、装置、设备及存储介质 | |
CN114548049A (zh) | 一种数字正则化方法、装置、设备及存储介质 | |
Oluwaseyi et al. | Automatic Spelling Corrector for Yorùbá Language Using Edit Distance and N-Gram Language Models | |
CN113536776A (zh) | 混淆语句的生成方法、终端设备及计算机可读存储介质 | |
CN112817996A (zh) | 一种违法关键词库的更新方法、装置、设备及存储介质 |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination | ||
GR01 | Patent grant | ||
GR01 | Patent grant |