CN104252484A - 一种拼音纠错方法及系统 - Google Patents
一种拼音纠错方法及系统 Download PDFInfo
- Publication number
- CN104252484A CN104252484A CN201310268072.XA CN201310268072A CN104252484A CN 104252484 A CN104252484 A CN 104252484A CN 201310268072 A CN201310268072 A CN 201310268072A CN 104252484 A CN104252484 A CN 104252484A
- Authority
- CN
- China
- Prior art keywords
- string
- error correction
- character
- retrieval
- pinyin
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Granted
Links
- 238000012937 correction Methods 0.000 title claims abstract description 244
- 238000000034 method Methods 0.000 title claims abstract description 49
- 230000003993 interaction Effects 0.000 claims description 20
- 239000012141 concentrate Substances 0.000 claims description 19
- 230000008878 coupling Effects 0.000 claims description 15
- 238000010168 coupling process Methods 0.000 claims description 15
- 238000005859 coupling reaction Methods 0.000 claims description 15
- 238000004458 analytical method Methods 0.000 claims description 9
- 238000004364 calculation method Methods 0.000 claims description 5
- 230000008901 benefit Effects 0.000 abstract description 3
- 238000013461 design Methods 0.000 abstract description 2
- 238000001514 detection method Methods 0.000 description 5
- 230000008569 process Effects 0.000 description 5
- 238000005516 engineering process Methods 0.000 description 4
- 238000010586 diagram Methods 0.000 description 2
- 239000000463 material Substances 0.000 description 2
- 230000004044 response Effects 0.000 description 2
- 238000011524 similarity measure Methods 0.000 description 2
- 230000006399 behavior Effects 0.000 description 1
- 230000008859 change Effects 0.000 description 1
- 230000007547 defect Effects 0.000 description 1
- 238000012217 deletion Methods 0.000 description 1
- 230000037430 deletion Effects 0.000 description 1
- 230000000694 effects Effects 0.000 description 1
- 230000006870 function Effects 0.000 description 1
- 239000000203 mixture Substances 0.000 description 1
- 230000004048 modification Effects 0.000 description 1
- 238000012986 modification Methods 0.000 description 1
- 230000008520 organization Effects 0.000 description 1
- 238000012545 processing Methods 0.000 description 1
- 238000007670 refining Methods 0.000 description 1
- 230000011218 segmentation Effects 0.000 description 1
- 238000000638 solvent extraction Methods 0.000 description 1
- 238000013518 transcription Methods 0.000 description 1
- 230000035897 transcription Effects 0.000 description 1
Classifications
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F16/00—Information retrieval; Database structures therefor; File system structures therefor
- G06F16/30—Information retrieval; Database structures therefor; File system structures therefor of unstructured textual data
- G06F16/36—Creation of semantic tools, e.g. ontology or thesauri
- G06F16/374—Thesaurus
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F16/00—Information retrieval; Database structures therefor; File system structures therefor
- G06F16/30—Information retrieval; Database structures therefor; File system structures therefor of unstructured textual data
- G06F16/31—Indexing; Data structures therefor; Storage structures
- G06F16/316—Indexing structures
- G06F16/322—Trees
Landscapes
- Engineering & Computer Science (AREA)
- Theoretical Computer Science (AREA)
- Data Mining & Analysis (AREA)
- Databases & Information Systems (AREA)
- Physics & Mathematics (AREA)
- General Engineering & Computer Science (AREA)
- General Physics & Mathematics (AREA)
- Software Systems (AREA)
- Computational Linguistics (AREA)
- Machine Translation (AREA)
Abstract
本发明提出了一种拼音纠错方法及系统,该拼音纠错方法包括如下步骤:构建词库,将用户可能检索的所有拼音串及其反转字符串分别组织并存储于正向、反向两棵三叉搜索树中;分析和检测用户输入的检索串,判断其是否可拆分为若干音节串,获取检索串的错误类型,所述错误类型分为合法错误和非法错误;对合法错误检索串进行合法纠错,对非法错误检索串进行非法纠错,采用正向、反向两棵三叉搜索树的查询操作获取纠错结果;计算纠错结果中的所有拼音串与用户输入的检索串的相似度,获取相似度最大的K个拼音串并输出。本发明的拼音纠错方算法设计简洁、高效,纠错速度快,准确率高。
Description
技术领域
本发明涉及数据处理技术领域,具体涉及一种速度快、准确率高的拼音纠错方法及系统。
背景技术
拼音纠错技术是指检测用户输入的拼音字符串,并对其中输入有误或不合理的拼音字符进行修改和优化,从而保证输出结果。在搜索应用中,拼音检索技术可以有效避开输入法,实现拼音原始性检索,在一定程度上改变搜索行为;而在输入法应用中,拼音纠错技术能够自动识别并修改用户输入的错误字符串,以保证正确汉字输出,提高输入法的容错性。拼音纠错技术能够有效增强应用扩展性与用户体验性。
目前,常用的拼音纠错技术解决方案有两种:一种是基于统计的纠错技术,这种技术通过特定概率算法,如N-gram算法,计算用户输入拼音串中连续拼音字符出现的概率,从而获取纠错结果,这种基于统计的纠错方式能够较好地适应各种拼音应用,但计算量较大,响应时间较长,降低用户的体验性。另一种方法是基于规则的纠错技术,这种技术是通过提炼拼音词条的规则,对用户输入的拼音串执行规则检验以获取相应的纠错结果,这种基于规则的纠错方式响应时间相对较短,计算量小,拼音规则与匹配词库的设计又相对简单,所以采用基于规则的纠错方式效果较好。
对用户输入的包含错误字符的拼音串纠错,纠错类型包括多、少或错一个字母,纠错方式为一步纠错,即用户输入的拼音串通过增加、删除、修改一个字符即可转化为用户想要输入的正确拼音串。例如用户输入“chongqqing”、“chongqig”或“chongqang”均可纠错为“chongqing”。由于汉语音节字符串有410种,而中文常用汉字则有3500个,无论在拼音检索还是拼音输入法选字等应用中,如果纠错范围较大,则纠错结果集就会相应增加,用户欲输入的字符串与用户实际输入的字符串的相似度则越小,在建议结果集中的排序则越靠后,这样不仅增加用户选择的难度,而且降低纠错系统的性能与应用性,例如:对于检索串“xiamin”纠错范围确定为单字符纠错(用户输入的拼音串通过增加、删除、修改1个字符)时,结果集为“xiami”、“xiaming”、“xiamen”、“ximin”、“xiaomin”、“xiemin”等,但若纠错范围较大,则“xiaoming”甚至“xiangming”等均会出现在结果集中,这样用户欲检索的音节串的相似度较低,无疑降低用户的体验性。
发明内容
为了克服上述现有技术中存在的缺陷,本发明的目的是提供一种拼音纠错方法及系统,该拼音流纠错方法算法简洁,能够提高拼音纠错的速度和准确率。
为了实现本发明的上述目的,根据本发明的一个方面,本发明提供了一种拼音纠错方法,包括如下步骤:
S1,构建词库,将所有拼音串及其反转字符串分别组织并存储于正向、反向两棵三叉搜索树中;
S2,分析和检测用户输入的检索串,判断其是否可拆分为若干音节串,获取检索串的错误类型,所述错误类型分为合法错误和非法错误;
S3,对合法错误检索串进行合法纠错,对非法错误检索串进行非法纠错,采用正向、反向两棵三叉搜索树的查询操作获取纠错结果;
S4,计算纠错结果中的所有拼音串与用户输入的检索串的相似度,获取相似度最大的K个拼音串并输出。
本发明的拼音纠错方法简洁、高效,纠错速度快,准确率高。
在本发明的一种优选实施例中,所述正向、反向两棵三叉搜索树包括如下特点:
树中非叶子节点均有1-3个儿子节点;
每个节点存储当前节点的关键字及其指向儿子节点的指针;
非叶子节点的关键字不小于其左儿子节点的关键字,不大于其右儿子节点的关键字。
本发明通过构建正向、反向两棵三叉搜索树,采用正向、反向两棵三叉搜索树的查询操作获取纠错结果,快速准确。
在本发明的一种优选实施方式中,在所述步骤S2中,如果检索串可拆分为若干个音节串,则将其拆分为最少音节串个数的形式;如果检索串不能划分为若干个音节子串,则标注其不能划分的音符。
本发明通过检测判断检索串是否可划分为若干音节串组合形式,从而采取不同的纠错策略;本发明选择最少音节串的划分方式能够节省查找遍历的次数以提高纠错效率。
在本发明的一种优选实施方式中,所述非法检索串的纠错流程为:
S41,获取用户输入的经过检测后的检索串;
S42,对步骤S41中的检索串进行预处理,获取检索串中的所有非法字符,并将所有的非法字符标记为*字符;
S43,如果检索串中*字符位于检索串中间,则分别采用正向、反向三叉搜索树查找相应前缀的所有拼音串,将查找结集的交集作为纠错结果集,如果检索串中*字符位于检索串的最左/右侧,则使用反向/正向三叉搜索树查找,获取特定前缀的所有拼音串作为结果集;
S44,对纠错结果集进行预处理,删除纠错结果集中与检索串长度之差的绝对值大于1的拼音串;
S45,判断纠错结果集是否为空,如果纠错结果集为空,则提示当前纠错失败。
在本发明的另一种优选实施方式中,所述合法检索串的纠错流程为:
S51,获取用户输入的经过检测后的检索串;
S52,分别将检索串中的每个音节单独替换为*字符,依次执行后续步骤;
S53,如果检索串中*字符位于检索串中间,即*字符两侧均有音节串,分别采用正反向三叉搜索树查找相应前缀的所有拼音串,将查找结集的交集作为纠错结果集,
如果检索串中*字符位于检索串的最左/右侧,则使用反向/正向三叉搜索树查找,获取特定前缀的所有拼音串作为结果集;
S54,对纠错结果集进行预处理,删除纠错结果集中与检索串长度之差的绝对值大于1的拼音串;
S55,判断纠错结果集是否为空,如果纠错结果集为空,则提示当前纠错失败。
本发明通过对合法检索串和非法检索串采用不同的纠错方法,纠错速度快,准确率高。
在本发明的一种优选实施方式中,所述相似度计算的步骤为:
S61,读取检索串与纠错结果集中的拼音串;
S62,正向匹配:从第一个字符开始判断检索串与纠错串是否相同,如果相同继续匹配后续字符,否则标记当前位置与已经匹配的字符个数;
S63,反向匹配:从最后一个字符至正向匹配标记位置,开始判断检索串与纠错串是否相同,如果相同继续匹配之前字符,否则获取反向匹配字符个数;
S64,计算相似度:获取正向、反向匹配后相同的字符个数之和以及对应检索串与纠错串的最大长度,两者求比获取相似度;
S65,依据步骤S61至步骤S64计算纠错结果集中的所有拼音串的相似度,并将相似度最大的K个拼音串置入建议结果集,返回给用户。
在本发明的另一种优选实施方式中,所述建议结果集中拼音串按照相似度大小逆序排列。相似度最高的拼音串排在前面,提高用户使用的体验性。
为了实现本发明的上述目的,根据本发明的另一个方面,本发明提供了一种拼音纠错系统,其包括人机交互界面、控制器和存储器,所述人机交互界面与所述控制器连接,所述控制器与所述存储器连接;所述存储器内存储有所有拼音串及其反转字符串,并将所述拼音串及其反转字符串分别组织并存储于正向、反向两棵三叉搜索树;所述控制器用于:分析和检测用户通过人机交互界面输入的检索串,判断其是否可拆分为若干音节串,获取检索串的错误类型;对合法错误检索串进行合法纠错,对非法错误检索串进行非法纠错,采用正向、反向两棵三叉搜索树的查询操作获取纠错结果;计算纠错结果中的拼音串与用户输入的检索串的相似度,获取相似度最大的K个拼音串,并指令人机交互界面对相似度最大的K个拼音串进行显示。
本发明的拼音纠错系统纠错速度快,准确率高。
在本发明的一种优选实施方式中,所述控制器包括:预处理模块、合法纠错模块、非法纠错模块和相似度计算模块;
所述预处理模块,用于分析和检测用户通过人机交互界面输入的检索串,判断其是否可拆分为若干音节串,获取检索串的错误类型;
所述预处理模块分别与所述存储器、合法纠错模块和非法纠错模块相连,用于对合法错误检索串进行合法纠错,对非法错误检索串进行非法纠错,查询正向、反向两棵三叉搜索树的获取纠错结果;
所述似度计算模块分别与所述合法纠错模块和非法纠错模块相连,用于接收并计算纠错结果中的所有拼音串与用户输入的检索串的相似度,获取相似度最大的K个拼音串,并指令人机交互界面对相似度最大的K个拼音串进行显示。
本发明的附加方面和优点将在下面的描述中部分给出,部分将从下面的描述中变得明显,或通过本发明的实践了解到。
附图说明
本发明的上述和/或附加的方面和优点从结合下面附图对实施例的描述中将变得明显和容易理解,其中:
图1是本发明拼音纠错系统的方框图;
图2是本发明控制器的结构示意图;
图3是本发明一种优选实施例中的拼音流纠错方法流程图;
图4是本发明一种优选实施例中的三叉搜索树的示意图。
具体实施方式
下面详细描述本发明的实施例,所述实施例的示例在附图中示出,其中自始至终相同或类似的标号表示相同或类似的元件或具有相同或类似功能的元件。下面通过参考附图描述的实施例是示例性的,仅用于解释本发明,而不能理解为对本发明的限制。
为便于对本发明进行正确理解,首先对几个术语进行如下定义:
音节串:本发明中音节串是符合语法规则的由一个或几个音素按一定规律组合而成的拼音字符串,所有的音节串均存在中文汉字与之相对应,例如,音节串“chong”与中文汉字“重”相对应,音节串不包含声调,例如,“chong”、“qing”均为一个音节串,但“chongqing”,“chog”则都不为音节串,表1是汉语拼音中的所有音节串,共410种,表1中左面一列为首字母,右面一列为以首字母开头的音节串。
表1.汉语拼音音节串表
检索串:检索串是用户输入的用于检索的字符串,例如“chongqing”为一个检索串,在本实施方式中,检索串可以为音节串,例如检索串“chong”,也可以不为音节串,例如检索串“chongqing”或“chog”等。本发明不考虑检索串为空的情况,也不考虑检索串中包含其他非英文字母的情况(英文字母v对应汉语拼音ü),例如检索串为“我zai”或者检索串为“m2m”等。
目标串:目标串是用户想要查询的正确字符串,本发明选取相似度最高的若干字符串返回。在本实施方式中,目标串为符合拼音规则的拼音串,能够拆分为若干音节串,检索串却不一定能够拆分为音节串。例如:目标串“chongqing”可拆分为“chong”和“qing”,但检索串“chongqig”则不能拆分为音节串。
纠错结果集:纠错结果集是合法纠错或非法纠错后的拼音串集合,例如:检索串为“chongqig”时,纠错结果集可以为{“chongqing”、“chongqingshi”、“chongqiang”、“chongqin”、“chongqi”、“chongqiguai”},纠错结果集中的拼音串与目标串具有一定的相似度。
建议结果集:建议结果集是纠错结果集中与检索串相似度最高的若干个拼音串集合,建议结果集为有序集合,该集合按相似度大小非递增排列,由于建议结果集中的所有元素均来源于纠错结果集,因此建议结果集为纠错结果集的子集。当建议结果集中元素个数不超过3时,从纠错结果集的例子看出检错串“chongqig”的建议结果集可以为{“chongqing”、“chongqin”、“chongqiang”},建议结果集与纠错结果集中的所有元素均可以拆分为若干音节串。
为实现拼音纠错,本发明提供了一种拼音流纠错系统,如图1所示,其包括人机交互界面1、控制器2和存储器3,其中,人机交互界面1与控制器2连接,控制器2与存储器3连接。
存储器3内存储有表1中所有拼音串及其反转字符串(即前述拼音串的倒序字符串),并将所有拼音串及其反转字符串分别组织并存储于正向、反向两棵三叉搜索树(TernarySearchTrie,TST)中;控制器3用于:分析和检测用户通过人机交互界面1输入的检索串,判断其是否可拆分为若干音节串,获取检索串的错误类型;对合法错误检索串进行合法纠错,对非法错误检索串进行非法纠错,采用正向、反向两棵三叉搜索树的查询操作获取纠错结果;计算纠错结果中的所有拼音串与用户输入的检索串的相似度,获取相似度最大的K个拼音串,并指令人机交互界面对相似度最大的K个拼音串进行显示。
在本实施方式中,如图2所示,控制器2包括预处理模块21、合法纠错模块22、非法纠错模块23和相似度计算模块24;预处理模块21用于分析和检测用户通过人机交互界面输入的检索串,判断其是否可拆分为若干音节串,获取检索串的错误类型。预处理模块21分别与存储器3、合法纠错模块22和非法纠错模块23相连,用于对合法错误检索串进行合法纠错,对非法错误检索串进行非法纠错,查询正向、反向两棵三叉搜索树的获取纠错结果。相似度计算模块24分别与合法纠错模块22和非法纠错模块23相连,用于接收并计算纠错结果中的所有拼音串与用户输入的检索串的相似度,获取相似度最大的K个拼音串,并指令人机交互界面1对相似度最大的K个拼音串进行显示。
所述预处理模块21,具体用于当检索串可拆分为若干个音节串时,将其拆分为最少音节串个数的形式;当检索串不能划分为若干个音节子串时,标注其不能划分的音符;
所述非法纠错模块23,具体用于获取用户输入的经过检测后的检索串;所述检索串进行预处理,获取检索串中的所有非法字符,并将所有的非法字符标记为*字符;如果检索串中*字符位于检索串中间,则分别采用正向、反向三叉搜索树查找相应前缀的所有拼音串,将查找结集的交集作为纠错结果集,如果检索串中*字符位于检索串的最左/右侧,则使用反向/正向三叉搜索树查找,获取相应前缀的所有拼音串作为结果集;对纠错结果集进行预处理,删除纠错结果集中与检索串长度之差的绝对值大于1的拼音串;判断纠错结果集是否为空,如果纠错结果集为空,则提示当前纠错失败;
所述合法纠错模块22,具体用于获取用户输入的经过检测后的检索串;分别将检索串中的每个音节单独替换为*字符;如果检索串中*字符位于检索串中间,即*字符两侧均有音节串,分别采用正反向三叉搜索树查找相应前缀的所有拼音串,将查找结集的交集作为纠错结果集,如果检索串中*字符位于检索串的最左/右侧,则使用反向/正向三叉搜索树查找,获取相应前缀的所有拼音串作为结果集;对纠错结果集进行预处理,删除纠错结果集中与检索串长度之差的绝对值大于1的拼音串;判断纠错结果集是否为空,如果纠错结果集为空,则提示当前纠错失败;
所述似度计算模块24,具体用于读取检索串与纠错结果集中的拼音串;正向匹配:从第一个字符开始判断检索串与纠错串是否相同,如果相同继续匹配后续字符,否则标记当前位置与已经匹配的字符个数;反向匹配:从最后一个字符至正向匹配标记位置,开始判断检索串与纠错串是否相同,如果相同继续匹配之前字符,否则获取反向匹配字符个数;计算相似度:获取正向、反向匹配后相同的字符个数之和以及对应检索串与纠错串的最大长度,两者求比获取相似度;计算纠错结果集中的所有拼音串的相似度,并将相似度最大的K个拼音串置入建议结果集,返回给用户。
本发明还提供了一种拼音纠错方法,如图3所示,包括如下步骤:
S1,构建词库,将所有拼音串及其反转字符串分别组织并存储于正向、反向两棵三叉搜索树中;
S2,分析和检测用户输入的检索串,判断其是否可拆分为若干音节串,获取检索串的错误类型,所述错误类型分为合法错误和非法错误;
S3,对合法错误检索串进行合法纠错,对非法错误检索串进行非法纠错,采用正向、反向两棵三叉搜索树的查询操作获取纠错结果;
S4,计算纠错结果中的所有拼音串与用户输入的检索串的相似度,获取相似度最大的K个拼音串并输出。
在本实施方式中,具体的拼音纠错方法为:
首先,构建词库,将表1中的所有拼音串及其反转字符串分别组织并存储于正向、反向两棵三叉搜索树中。构建词库是指将用户可能查询到的所有词条以一定的数据结构组织起来,以便查找、插入、删除、修改等操作。构建的词库是纠错系统的基础模块,也是用户检索词条的数据源。如图4所示,本发明采用三叉搜索树的形式组织存储词库中所有词条,图中包含字符串:anran、dadao、daxue、enchou、jubei、lamei、mifan、nimen、nvbao、shimei、tashi。在本实施方式中,具体字符串的存储方法和读取方法可以采用现有技术中的存储方法和读取方法。TST是二叉搜索树和数字搜索树的混合体,其空间复杂度和二叉搜索树相似,而查找时间复杂度和数字搜索树相似。TST不仅能够满足数据插入、删除、查找的工作而且还能够满足动态增长。
在本实施方式中,正向、反向两棵三叉搜索树包括如下特点:
1),树中非叶子节点均有1-3个儿子节点;
2),每个节点存储当前节点的关键字及其指向儿子节点的指针;
3),非叶子节点的关键字不小于其左儿子节点的关键字,不大于其右儿子节点的关键字,在本实施方式,关键字即是存储于结点中的字母,按照字母顺序表中字母的顺序依次排列大小,即A最小,Z最大。
本发明构建正反向两棵TST,即分别构建正向TST和反向TST,正向TST中以词条的拼音串构建,拼音不包含声调,例如,词条“重庆”以“chongqing”构建,反向TST以词条拼音串的反转形式构建,例如,词条“重庆”以“gniqgnohc”构建。
在本实施方式中,TST的查找、插入、删除、更新等操作可以采用现有技术中的方法。本发明通过构建正向、反向两棵三叉搜索树,采用正向、反向两棵三叉搜索树的查询操作获取纠错结果,快速准确。
然后,预处理模块分析和检测用户输入的检索串,判断其是否可拆分为若干音节串,获取检索串的错误类型,所述错误类型分为合法错误和非法错误。如果检索串可拆分为若干个音节串,即为合法错误,例如“chongqingshi”可划分为拆分为“chong”、“qing”和“shi”三个音节串,则将其拆分为最少音节串个数的形式,例如检索串“xianshi”可以拆分为“xi”“an”“shi”和“xian”“shi”两种,采用音节串最少的形式,即为“xian’shi”。如果检索串不能划分为若干个音节串,即为非法错误,则标注其不能划分的音符,例如,检索串“chongqingt”则标注尾字符“t”,检索串“chonging”则标注最后三个字符“ing”。
在本实施方式中,对检索串拆分为若干个音节串的方法可以采用但不限于如下拼音流切分方法:
数据存储:分别在存储器的字符存储阵列的M个字符存储单元中存储一个字母和一个指针,在存储器的音节存储阵列的M个音节存储子阵列中存储音节串,所述字符存储单元与所述音节存储子阵列一一对应,所述字符存储单元中的指针指向所述字符存储单元所对应的音节存储子阵列,所述音节存储阵列的第N个音节存储子阵列包括PN个音节存储单元,所述PN个音节存储单元中依次存储有所述音节存储子阵列对应的字符存储单元中存储的字母为首字母的音节串,所述M、N、PN均为正整数,所述N=1,2,…,M;
数据查询:控制器在接收到通过人机交互界面输入的检索串时,根据字符存储单元与音节存储子阵列的对应关系在存储器中查找与所述检索串对应的音节串,对检索串进行切分,并指令人机交互界面对所有音节串组合进行显示。
具体控制器在接收到通过人机交互界面输入的检索串时,根据字符存储单元与音节存储子阵列的对应关系在存储器中查找与所述检索串对应的音节串组合的步骤为:
S21:控制器获取检索串;
S22:从所述检索串中提取待分割检索串;
S23:控制器判断所述待分割检索串是否为空,如果待分割检索串为空,则结束拼音流切分算法,将结果集通过人机交互界面进行显示;
S24:控制器获取待分割检索串中的首字符并根据字符存储单元与音节存储子阵列的对应关系在存储器中查找所述首字符的字符匹配集;
S25:判断所述字符匹配集中首字符音节串的后续字符的字符匹配集是否为空,如果为空,则当前音节分割方式错误,将所述后续字符的字符匹配集是空的音节串删除,并将所述音节串相应的待分割检索串删除,返回步骤S22;
S26:判断字符匹配集中的音节串个数是否为1,如果为1,则将音节串置入结果集并将所述音节串从所述检索串中删除,返回步骤S22;
S27:将字符匹配集中的音节串存入结果集中,分别将音节串从检索串中删除,返回步骤S22。
本发明对拼音串的切分方法可按照本申请人申请的申请号为“201310121923.8”,名称为“一种拼音流切分方法及系统”的专利申请中所记载的方法进行,在此不作赘述。拼音的检测是纠错算法的基础,通过检测判断检索串是否可划分为若干音节串组合形式,从而采取不同的纠错策略。
再后,控制器的合法纠错模块对合法错误检索串进行合法纠错,非法纠错模块对非法错误检索串进行非法纠错,采用正向、反向两棵三叉搜索树的查询操作获取纠错结果。
非法纠错是指对用户输入的不能拆分为若干音节串的检索串的纠错,例如:检索串“chogqig”不能拆分为若干音节串。非法纠错的输入为检测后的检索串,即非法字符标注后的检索串,输出为纠错结果集。由于错误字符串仅包含一处错误,因此错误位置必定出现在非法字符所在位置或其前、后:例如“beijig”的非法字符为“g”,若目标串为“beiji”则错误位置在“g”处;若目标串为“beijing”错误位置在“g”之前;若目标串为“beijige”则错误字符在“g”之后。此外非法字符不一定为单个字符,例如检索串“beiing”中,非法字符包括“i”、“n”和“g”三个。
在本实施方式中,非法检索串的纠错流程为:
S41,获取用户输入的经过检测后的检索串;
S42,对步骤S41中的检索串进行预处理,获取检索串中的所有非法字符,并将所有的非法字符标记为*字符;
S43,如果检索串中*字符位于检索串中间,例如“chong*qing”中*字符的两侧均有音节串“chong”和“qing”,则分别采用正向、反向三叉搜索树查找相应前缀的所有拼音串,将查找结集的交集作为纠错结果集,例如:“chong*qing”使用正向TST查找前缀为“chong”的所有拼音串,使用反向TST查找前缀为“gniq”的所有字符串,并去二者的交集作为纠错结果集。
如果检索串中*字符位于检索串的最左(右)侧,则使用反(正)向TST查找,获取特定前缀的所有拼音串作为结果集返回。例如:“chongqing*”中的*字符位于检索串的最右侧,则使用正向TST查找前缀为“chongqing”的所有拼音串,置入纠错结果集;又如“*chongqing”中*字符位于检索串最左侧,则使用反向TST查找所有前缀为“gniqgnohc”的所有拼音串,并将其置入纠错结果集中。
S44,对纠错结果集进行预处理,删除纠错结果集中与检索串长度之差的绝对值大于1的拼音串,例如:检索串为“chongqing”,则删除纠错结果集中“chongqingshi”“chongqingren”等。
S45,判断纠错结果集是否为空,如果纠错结果集为空,则提示当前纠错失败。
合法纠错是指对用户输入能够拆分为若干个音节串的检索串纠错。例如用户将“beijing”输入为“bijing”,或者将“chongqing”输入为“chongqin”,尽管该字符串错误,但检索串可以拆分为若干个音节串。合法纠错的输入为检测后的检索串,即切分后的检索串,合法纠错的输出为纠错结果集。
在本实施方式中,所述合法检索串的纠错流程为:
S51,获取用户输入的经过检测后的检索串;
S52,分别将检索串中的每个音节单独替换为*字符,依次执行后续步骤,例如,对于“xian’shi”中的音节串“xian”和“shi”依次替换为*字符,得到“xian*”和“*shi”,分别执行后续操作;
S53,如果检索串中*字符位于检索串中间,即*字符两侧均有音节串,分别采用正反向三叉搜索树查找相应前缀的所有拼音串,将查找结集的交集作为纠错结果集,例如:“chong*qing”使用正向TST查找前缀为“chong”的所有拼音串,使用反向TST查找前缀为“gniq”的所有字符串,并去二者的交集作为纠错结果集;
如果检索串中*字符位于检索串的最左(右)侧,则使用反(正)向TST查找,获取特定前缀的所有拼音串作为结果集返回。例如:“chongqing*”中的*字符位于检索串的最右侧,则使用正向TST查找前缀为“chongqing”的所有拼音串,置入纠错结果集;又如“*chongqing”中*字符位于检索串最左侧,则使用反向TST查找所有前缀为“gniqgnohc”的所有拼音串,并将其置入纠错结果集中。
S54,对纠错结果集进行预处理,删除纠错结果集中与检索串长度之差的绝对值大于1的拼音串,例如:检索串为“chongqing”,则删除纠错结果集中“chongqingshi”“chongqingren”等。
S55,判断纠错结果集是否为空,如果纠错结果集为空,则提示当前纠错失败。
在本实施方式中,检测模块中选择最少音节串的划分方式是为了节省查找遍历的次数以提高纠错效率。例如,如果将检索串“xianshi”切分为“xi’an’shi”则需查询“*anshi”、“xi*anshi”、“xian*”三次,但若将检索串“xianshi”切分为“xian’shi”则只需查询“xian*”和“*shi”两次即可,而且目标串均在纠错结果集中。
最后,相似度计算模块计算纠错结果中的所有拼音串与用户输入的检索串的相似度,获取相似度最大的K个拼音串并输出。在本实施方式中,相似度计算的步骤为:
S61,读取检索串与纠错结果集中的拼音串(简称纠错串),例如,检索串:“chongnqing”纠错串:“chongqing”;检索串:“xiasshi”纠错串:“xianshi”;
S62,正向匹配:从第一个字符开始判断检索串与纠错串是否相同,如果相同继续匹配后续字符,否则标记当前位置与已经匹配的字符个数。例如,检索串:“chongnqing”纠错串:“chongqing”,正向匹配后得到“chong”,即相同字符个数为5个,匹配至第6个字符;检索串:“xiasshi”纠错串:“xianshi”,正向匹配后得到“xia”相同字符个数为3个,匹配至第4个字符。
S63,反向匹配:从最后一个字符至正向匹配标记位置,开始判断检索串与纠错串是否相同,如果相同继续匹配之前字符,否则获取反向匹配字符个数。例如,检索串:“chongnqing”纠错串:“chongqing”,反向匹配后得到“qing”相同字符个数为4;检索串:“xiasshi”纠错串:“xianshi”,反向匹配后得到“shi”相同字符个数为3。
S64,计算相似度:获取正向、反向匹配后相同的字符个数之和以及对应检索串与纠错串的最大长度,两者求比获取相似度。例如,检索串:“chongnqing”纠错串:“chongqing”,正反向匹配后相同字符个数为5+4=9,检索串长度为10,纠错串长度为9,相似度为9/10=0.9;检索串:“xiasshi”纠错串:“xianshi”,正反向匹配后的相同字符个数为3+3=6,检索串长度为7,纠错串长度为7,相似度为6/7=0.86。
S65,依据步骤S61至步骤S64计算纠错结果集中的所有拼音串的相似度,并将相似度最大的K个拼音串置入建议结果集,返回给用户。在本实施方式中,建议结果集中拼音串按照相似度大小逆序排列。相似度最高的拼音串排在前面,便于用户查看。
由于方法实施例和系统实施例的相似内容较多,因此系统实施例介绍的较为简略,相关之处请参见方法实施例部分。
在本说明书的描述中,参考术语“一个实施例”、“一些实施例”、“示例”、“具体示例”、或“一些示例”等的描述意指结合该实施例或示例描述的具体特征、结构、材料或者特点包含于本发明的至少一个实施例或示例中。在本说明书中,对上述术语的示意性表述不一定指的是相同的实施例或示例。而且,描述的具体特征、结构、材料或者特点可以在任何的一个或多个实施例或示例中以合适的方式结合。
尽管已经示出和描述了本发明的实施例,本领域的普通技术人员可以理解:在不脱离本发明的原理和宗旨的情况下可以对这些实施例进行多种变化、修改、替换和变型,本发明的范围由权利要求及其等同物限定。
Claims (9)
1.一种拼音纠错方法,其特征在于,包括:
S1,构建词库,将所有拼音串及其反转字符串分别组织并存储于正向、反向两棵三叉搜索树中;
所述方法包括:
S2,分析和检测用户输入的检索串,判断其是否可拆分为若干音节串,获取检索串的错误类型,所述错误类型分为合法错误和非法错误;
S3,对合法错误检索串进行合法纠错,对非法错误检索串进行非法纠错,采用正向、反向两棵三叉搜索树的查询操作获取纠错结果;
S4,计算纠错结果中的所有拼音串与用户输入的检索串的相似度,获取相似度最大的K个拼音串并输出。
2.如权利要求1所述的拼音纠错方法,其特征在于,所述正向、反向两棵三叉搜索树包括如下特点:
树中非叶子节点均有1-3个儿子节点;
每个节点存储当前节点的关键字及其指向儿子节点的指针;
非叶子节点的关键字不小于其左儿子节点的关键字,不大于其右儿子节点的关键字。
3.如权利要求1所述的拼音纠错方法,其特征在于,在所述步骤S2中,如果检索串可拆分为若干个音节串,则将其拆分为最少音节串个数的形式;如果检索串不能划分为若干个音节子串,则标注其不能划分的音符。
4.如权利要求1所述的拼音纠错方法,其特征在于,所述对非法错误检索串进行非法纠错为:
S41,获取用户输入的经过检测后的检索串;
S42,对步骤S41中的检索串进行预处理,获取检索串中的所有非法字符,并将所有的非法字符标记为*字符;
S43,如果检索串中*字符位于检索串中间,则分别采用正向、反向三叉搜索树查找相应前缀的所有拼音串,将查找结集的交集作为纠错结果集,如果检索串中*字符位于检索串的最左/右侧,则使用反向/正向三叉搜索树查找,获取相应前缀的所有拼音串作为结果集;
S44,对纠错结果集进行预处理,删除纠错结果集中与检索串长度之差的绝对值大于1的拼音串;
S45,判断纠错结果集是否为空,如果纠错结果集为空,则提示当前纠错失败。
5.如权利要求1所述的拼音纠错方法,其特征在于,所述对合法错误检索串进行合法纠错为:
S51,获取用户输入的经过检测后的检索串;
S52,分别将检索串中的每个音节单独替换为*字符,依次执行后续步骤;
S53,如果检索串中*字符位于检索串中间,即*字符两侧均有音节串,分别采用正反向三叉搜索树查找相应前缀的所有拼音串,将查找结集的交集作为纠错结果集,
如果检索串中*字符位于检索串的最左/右侧,则使用反向/正向三叉搜索树查找,获取相应前缀的所有拼音串作为结果集;
S54,对纠错结果集进行预处理,删除纠错结果集中与检索串长度之差的绝对值大于1的拼音串;
S55,判断纠错结果集是否为空,如果纠错结果集为空,则提示当前纠错失败。
6.如权利要求1所述的拼音纠错方法,其特征在于,所述S4步骤为:
S61,读取检索串与纠错结果集中的拼音串;
S62,正向匹配:从第一个字符开始判断检索串与纠错串是否相同,如果相同继续匹配后续字符,否则标记当前位置与已经匹配的字符个数;
S63,反向匹配:从最后一个字符至正向匹配标记位置,开始判断检索串与纠错串是否相同,如果相同继续匹配之前字符,否则获取反向匹配字符个数;
S64,计算相似度:获取正向、反向匹配后相同的字符个数之和以及对应检索串与纠错串的最大长度,两者求比获取相似度;
S65,依据步骤S61至步骤S64计算纠错结果集中的所有拼音串的相似度,并将相似度最大的K个拼音串置入建议结果集,返回给用户。
7.一种拼音纠错系统,其特征在于,包括:
人机交互界面、控制器和存储器,所述人机交互界面与所述控制器连接,所述控制器与所述存储器连接;
所述存储器内存储有所有拼音串及其反转字符串,并将所述拼音串及其反转字符串分别组织并存储于正向、反向两棵三叉搜索树;
所述控制器用于:分析和检测用户通过人机交互界面输入的检索串,判断其是否可拆分为若干音节串,获取检索串的错误类型,所述错误类型分为合法错误和非法错误;对合法错误检索串进行合法纠错,对非法错误检索串进行非法纠错,采用正向、反向两棵三叉搜索树的查询操作获取纠错结果;计算纠错结果中的拼音串与用户输入的检索串的相似度,获取相似度最大的K个拼音串,并指令人机交互界面对相似度最大的K个拼音串进行显示。
8.如权利要求7所述的拼音纠错系统,其特征在于,所述控制器包括:预处理模块、合法纠错模块、非法纠错模块和相似度计算模块;
所述预处理模块,用于当检索串可拆分为若干个音节串时,将其拆分为最少音节串个数的形式;当检索串不能划分为若干个音节子串时,标注其不能划分的音符;
所述非法纠错模块,用于获取用户输入的经过检测后的检索串;所述检索串进行预处理,获取检索串中的所有非法字符,并将所有的非法字符标记为*字符;如果检索串中*字符位于检索串中间,则分别采用正向、反向三叉搜索树查找相应前缀的所有拼音串,将查找结集的交集作为纠错结果集,如果检索串中*字符位于检索串的最左/右侧,则使用反向/正向三叉搜索树查找,获取相应前缀的所有拼音串作为结果集;对纠错结果集进行预处理,删除纠错结果集中与检索串长度之差的绝对值大于1的拼音串;判断纠错结果集是否为空,如果纠错结果集为空,则提示当前纠错失败;
所述合法纠错模块,用于获取用户输入的经过检测后的检索串;分别将检索串中的每个音节单独替换为*字符;如果检索串中*字符位于检索串中间,即*字符两侧均有音节串,分别采用正反向三叉搜索树查找相应前缀的所有拼音串,将查找结集的交集作为纠错结果集,如果检索串中*字符位于检索串的最左/右侧,则使用反向/正向三叉搜索树查找,获取相应前缀的所有拼音串作为结果集;对纠错结果集进行预处理,删除纠错结果集中与检索串长度之差的绝对值大于1的拼音串;判断纠错结果集是否为空,如果纠错结果集为空,则提示当前纠错失败;
所述似度计算模块,用于读取检索串与纠错结果集中的拼音串;正向匹配:从第一个字符开始判断检索串与纠错串是否相同,如果相同继续匹配后续字符,否则标记当前位置与已经匹配的字符个数;反向匹配:从最后一个字符至正向匹配标记位置,开始判断检索串与纠错串是否相同,如果相同继续匹配之前字符,否则获取反向匹配字符个数;计算相似度:获取正向、反向匹配后相同的字符个数之和以及对应检索串与纠错串的最大长度,两者求比获取相似度;计算纠错结果集中的所有拼音串的相似度,并将相似度最大的K个拼音串置入建议结果集,返回给用户。
9.如权利要求7所述的拼音纠错系统,其特征在于,所述正向、反向两棵三叉搜索树包括如下特点:
树中非叶子节点均有1-3个儿子节点;
每个节点存储当前节点的关键字及其指向儿子节点的指针;
非叶子节点的关键字不小于其左儿子节点的关键字,不大于其右儿子节点的关键字。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN201310268072.XA CN104252484B (zh) | 2013-06-28 | 2013-06-28 | 一种拼音纠错方法及系统 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN201310268072.XA CN104252484B (zh) | 2013-06-28 | 2013-06-28 | 一种拼音纠错方法及系统 |
Publications (2)
Publication Number | Publication Date |
---|---|
CN104252484A true CN104252484A (zh) | 2014-12-31 |
CN104252484B CN104252484B (zh) | 2018-10-19 |
Family
ID=52187386
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN201310268072.XA Active CN104252484B (zh) | 2013-06-28 | 2013-06-28 | 一种拼音纠错方法及系统 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN104252484B (zh) |
Cited By (16)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN105653061A (zh) * | 2015-12-29 | 2016-06-08 | 北京京东尚科信息技术有限公司 | 针对拼音输入法的词条检索及错词检测的方法和系统 |
CN105955986A (zh) * | 2016-04-18 | 2016-09-21 | 乐视控股(北京)有限公司 | 一种字符的转换方法及装置 |
CN106527757A (zh) * | 2016-10-28 | 2017-03-22 | 上海智臻智能网络科技股份有限公司 | 一种输入纠错方法及装置 |
CN109739368A (zh) * | 2018-12-29 | 2019-05-10 | 咪咕文化科技有限公司 | 一种汉语拼音的拆分的方法、装置 |
CN109814734A (zh) * | 2019-01-15 | 2019-05-28 | 上海趣虫科技有限公司 | 一种修正汉语拼音输入的方法及处理终端 |
CN109857264A (zh) * | 2019-01-02 | 2019-06-07 | 众安信息技术服务有限公司 | 一种基于空间键位的拼音纠错方法及装置 |
CN109871131A (zh) * | 2017-12-05 | 2019-06-11 | 北京搜狗科技发展有限公司 | 一种字符串拆分的方法及装置 |
CN109901725A (zh) * | 2017-12-07 | 2019-06-18 | 北京搜狗科技发展有限公司 | 一种拼音串切分方法和装置 |
CN109901727A (zh) * | 2019-03-06 | 2019-06-18 | 上海依智医疗技术有限公司 | 一种获取文字纠错信息的方法和装置 |
CN111444705A (zh) * | 2020-03-10 | 2020-07-24 | 中国平安人寿保险股份有限公司 | 纠错方法、装置、设备及可读存储介质 |
CN111626049A (zh) * | 2020-05-27 | 2020-09-04 | 腾讯科技(深圳)有限公司 | 多媒体信息的标题修正方法、装置、电子设备及存储介质 |
CN111859920A (zh) * | 2020-06-19 | 2020-10-30 | 北京国音红杉树教育科技有限公司 | 单词拼写错误的识别方法、系统及电子设备 |
CN112100231A (zh) * | 2020-07-17 | 2020-12-18 | 四川长宁天然气开发有限责任公司 | 页岩气地面工程实体信息和数字化模型的关联方法及系统 |
CN113012705A (zh) * | 2021-02-24 | 2021-06-22 | 海信视像科技股份有限公司 | 一种语音文本的纠错方法及装置 |
CN113589954A (zh) * | 2020-04-30 | 2021-11-02 | 北京搜狗科技发展有限公司 | 一种数据处理方法、装置和电子设备 |
CN116757189A (zh) * | 2023-08-11 | 2023-09-15 | 四川互慧软件有限公司 | 一种基于汉字特征的患者姓名消歧方法 |
Citations (4)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN101710262A (zh) * | 2009-12-11 | 2010-05-19 | 北京搜狗科技发展有限公司 | 字符纠错方法及装置 |
CN101727271A (zh) * | 2008-10-22 | 2010-06-09 | 北京搜狗科技发展有限公司 | 一种提供纠错提示的方法、装置及输入法系统 |
CN102156551A (zh) * | 2011-03-30 | 2011-08-17 | 北京搜狗科技发展有限公司 | 一种字词输入的纠错方法及系统 |
US20130060560A1 (en) * | 2011-09-01 | 2013-03-07 | Google Inc. | Server-based spell checking |
-
2013
- 2013-06-28 CN CN201310268072.XA patent/CN104252484B/zh active Active
Patent Citations (4)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN101727271A (zh) * | 2008-10-22 | 2010-06-09 | 北京搜狗科技发展有限公司 | 一种提供纠错提示的方法、装置及输入法系统 |
CN101710262A (zh) * | 2009-12-11 | 2010-05-19 | 北京搜狗科技发展有限公司 | 字符纠错方法及装置 |
CN102156551A (zh) * | 2011-03-30 | 2011-08-17 | 北京搜狗科技发展有限公司 | 一种字词输入的纠错方法及系统 |
US20130060560A1 (en) * | 2011-09-01 | 2013-03-07 | Google Inc. | Server-based spell checking |
Cited By (24)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN105653061B (zh) * | 2015-12-29 | 2020-03-31 | 北京京东尚科信息技术有限公司 | 针对拼音输入法的词条检索及错词检测的方法和系统 |
CN105653061A (zh) * | 2015-12-29 | 2016-06-08 | 北京京东尚科信息技术有限公司 | 针对拼音输入法的词条检索及错词检测的方法和系统 |
CN105955986A (zh) * | 2016-04-18 | 2016-09-21 | 乐视控股(北京)有限公司 | 一种字符的转换方法及装置 |
CN106527757A (zh) * | 2016-10-28 | 2017-03-22 | 上海智臻智能网络科技股份有限公司 | 一种输入纠错方法及装置 |
CN109871131A (zh) * | 2017-12-05 | 2019-06-11 | 北京搜狗科技发展有限公司 | 一种字符串拆分的方法及装置 |
CN109901725A (zh) * | 2017-12-07 | 2019-06-18 | 北京搜狗科技发展有限公司 | 一种拼音串切分方法和装置 |
CN109739368A (zh) * | 2018-12-29 | 2019-05-10 | 咪咕文化科技有限公司 | 一种汉语拼音的拆分的方法、装置 |
CN109857264B (zh) * | 2019-01-02 | 2022-09-20 | 众安信息技术服务有限公司 | 一种基于空间键位的拼音纠错方法及装置 |
CN109857264A (zh) * | 2019-01-02 | 2019-06-07 | 众安信息技术服务有限公司 | 一种基于空间键位的拼音纠错方法及装置 |
CN109814734A (zh) * | 2019-01-15 | 2019-05-28 | 上海趣虫科技有限公司 | 一种修正汉语拼音输入的方法及处理终端 |
CN109814734B (zh) * | 2019-01-15 | 2022-04-15 | 上海趣虫科技有限公司 | 一种修正汉语拼音输入的方法及处理终端 |
CN109901727A (zh) * | 2019-03-06 | 2019-06-18 | 上海依智医疗技术有限公司 | 一种获取文字纠错信息的方法和装置 |
CN111444705A (zh) * | 2020-03-10 | 2020-07-24 | 中国平安人寿保险股份有限公司 | 纠错方法、装置、设备及可读存储介质 |
CN113589954A (zh) * | 2020-04-30 | 2021-11-02 | 北京搜狗科技发展有限公司 | 一种数据处理方法、装置和电子设备 |
CN111626049A (zh) * | 2020-05-27 | 2020-09-04 | 腾讯科技(深圳)有限公司 | 多媒体信息的标题修正方法、装置、电子设备及存储介质 |
CN111626049B (zh) * | 2020-05-27 | 2022-12-16 | 深圳市雅阅科技有限公司 | 多媒体信息的标题修正方法、装置、电子设备及存储介质 |
CN111859920A (zh) * | 2020-06-19 | 2020-10-30 | 北京国音红杉树教育科技有限公司 | 单词拼写错误的识别方法、系统及电子设备 |
CN111859920B (zh) * | 2020-06-19 | 2024-06-04 | 北京国音红杉树教育科技有限公司 | 单词拼写错误的识别方法、系统及电子设备 |
CN112100231A (zh) * | 2020-07-17 | 2020-12-18 | 四川长宁天然气开发有限责任公司 | 页岩气地面工程实体信息和数字化模型的关联方法及系统 |
CN112100231B (zh) * | 2020-07-17 | 2023-10-13 | 四川长宁天然气开发有限责任公司 | 页岩气地面工程实体信息和数字化模型的关联方法及系统 |
CN113012705A (zh) * | 2021-02-24 | 2021-06-22 | 海信视像科技股份有限公司 | 一种语音文本的纠错方法及装置 |
CN113012705B (zh) * | 2021-02-24 | 2022-12-09 | 海信视像科技股份有限公司 | 一种语音文本的纠错方法及装置 |
CN116757189A (zh) * | 2023-08-11 | 2023-09-15 | 四川互慧软件有限公司 | 一种基于汉字特征的患者姓名消歧方法 |
CN116757189B (zh) * | 2023-08-11 | 2023-10-31 | 四川互慧软件有限公司 | 一种基于汉字特征的患者姓名消歧方法 |
Also Published As
Publication number | Publication date |
---|---|
CN104252484B (zh) | 2018-10-19 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
CN104252484A (zh) | 一种拼音纠错方法及系统 | |
TWI480746B (zh) | 使用經結構化之資料儲存器達到較快速全文檢索 | |
Navarro | Spaces, trees, and colors: The algorithmic landscape of document retrieval on sequences | |
US8239188B2 (en) | Example based translation apparatus, translation method, and translation program | |
CN103365925B (zh) | 获取多音字拼音、基于拼音检索的方法及其相应装置 | |
US9110980B2 (en) | Searching and matching of data | |
US20080263032A1 (en) | Unstructured and semistructured document processing and searching | |
KR100903961B1 (ko) | 시그니처 파일을 이용한 고차원 데이터 색인 및 검색방법과 그 시스템 | |
CN108446316B (zh) | 联想词的推荐方法、装置、电子设备及存储介质 | |
CN101794307A (zh) | 基于互联网分词思想的车载导航poi搜索引擎 | |
JP2016522524A (ja) | 同義表現の探知及び関連コンテンツを検索する方法及び装置 | |
CN112507065A (zh) | 一种基于注释语义信息的代码搜索方法 | |
WO2009021204A2 (en) | Autocompletion and automatic input method correction for partially entered search query | |
CN106528846B (zh) | 一种检索方法及装置 | |
JPH0675992A (ja) | テキストをインデックス及び検索するための関連ワード形態の限定状態トランスジューサ | |
CN103198149A (zh) | 一种查询纠错方法和系统 | |
JP2021192283A (ja) | 情報照会方法、装置及び電子機器 | |
CN113221559A (zh) | 利用语义特征的科技创新领域中文关键短语抽取方法及系统 | |
CN105404677A (zh) | 一种基于树形结构的检索方法 | |
CN102385597B (zh) | 一种poi的容错搜索方法 | |
CN110738042A (zh) | 纠错词典创建方法、装置、终端及计算机存储介质 | |
CN113420219A (zh) | 用于查询信息纠错的方法、装置、电子设备及可读存储介质 | |
KR101694179B1 (ko) | 모음 제거 기반 인덱스 생성 방법 및 장치 | |
CN101770478B (zh) | 数据检索方法、数据检索装置及嵌入式终端 | |
KR20220085258A (ko) | 질의에 대한 문서 검색 방법 및 장치 |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
C06 | Publication | ||
PB01 | Publication | ||
C10 | Entry into substantive examination | ||
SE01 | Entry into force of request for substantive examination | ||
GR01 | Patent grant | ||
GR01 | Patent grant | ||
TR01 | Transfer of patent right |
Effective date of registration: 20200605 Address after: Room 502-1, floor 5, building 2, courtyard 10, KEGU 1st Street, economic development zone, Daxing District, Beijing 100081 Patentee after: Singularity Xinyuan International Technology Development (Beijing) Co.,Ltd. Address before: The 401121 northern New District of Chongqing municipality Mount Huangshan Road 5 south of Mercury Technology Building 1 floor office No. 3 Patentee before: A-MEDIA COMMUNICATION TECH Co.,Ltd. |
|
TR01 | Transfer of patent right |