CN104252484A

CN104252484A - 一种拼音纠错方法及系统

Info

Publication number: CN104252484A
Application number: CN201310268072.XA
Authority: CN
Inventors: 熊小鹏; 刘磊
Original assignee: CHONGQING XINMEI AGRICULTURAL INFORMATION TECHNOLOGY CO LTD
Current assignee: Singularity Xinyuan International Technology Development (Beijing) Co.,Ltd.
Priority date: 2013-06-28
Filing date: 2013-06-28
Publication date: 2014-12-31
Anticipated expiration: 2033-06-28
Also published as: CN104252484B

Abstract

本发明提出了一种拼音纠错方法及系统，该拼音纠错方法包括如下步骤：构建词库，将用户可能检索的所有拼音串及其反转字符串分别组织并存储于正向、反向两棵三叉搜索树中；分析和检测用户输入的检索串，判断其是否可拆分为若干音节串，获取检索串的错误类型，所述错误类型分为合法错误和非法错误；对合法错误检索串进行合法纠错，对非法错误检索串进行非法纠错，采用正向、反向两棵三叉搜索树的查询操作获取纠错结果；计算纠错结果中的所有拼音串与用户输入的检索串的相似度，获取相似度最大的K个拼音串并输出。本发明的拼音纠错方算法设计简洁、高效，纠错速度快，准确率高。

Description

一种拼音纠错方法及系统

技术领域

本发明涉及数据处理技术领域，具体涉及一种速度快、准确率高的拼音纠错方法及系统。

背景技术

拼音纠错技术是指检测用户输入的拼音字符串，并对其中输入有误或不合理的拼音字符进行修改和优化，从而保证输出结果。在搜索应用中，拼音检索技术可以有效避开输入法，实现拼音原始性检索，在一定程度上改变搜索行为；而在输入法应用中，拼音纠错技术能够自动识别并修改用户输入的错误字符串，以保证正确汉字输出，提高输入法的容错性。拼音纠错技术能够有效增强应用扩展性与用户体验性。

目前，常用的拼音纠错技术解决方案有两种：一种是基于统计的纠错技术，这种技术通过特定概率算法，如N-gram算法，计算用户输入拼音串中连续拼音字符出现的概率，从而获取纠错结果，这种基于统计的纠错方式能够较好地适应各种拼音应用，但计算量较大，响应时间较长，降低用户的体验性。另一种方法是基于规则的纠错技术，这种技术是通过提炼拼音词条的规则，对用户输入的拼音串执行规则检验以获取相应的纠错结果，这种基于规则的纠错方式响应时间相对较短，计算量小，拼音规则与匹配词库的设计又相对简单，所以采用基于规则的纠错方式效果较好。

对用户输入的包含错误字符的拼音串纠错，纠错类型包括多、少或错一个字母，纠错方式为一步纠错，即用户输入的拼音串通过增加、删除、修改一个字符即可转化为用户想要输入的正确拼音串。例如用户输入“chongqqing”、“chongqig”或“chongqang”均可纠错为“chongqing”。由于汉语音节字符串有410种，而中文常用汉字则有3500个，无论在拼音检索还是拼音输入法选字等应用中，如果纠错范围较大，则纠错结果集就会相应增加，用户欲输入的字符串与用户实际输入的字符串的相似度则越小，在建议结果集中的排序则越靠后，这样不仅增加用户选择的难度，而且降低纠错系统的性能与应用性，例如：对于检索串“xiamin”纠错范围确定为单字符纠错（用户输入的拼音串通过增加、删除、修改1个字符）时，结果集为“xiami”、“xiaming”、“xiamen”、“ximin”、“xiaomin”、“xiemin”等，但若纠错范围较大，则“xiaoming”甚至“xiangming”等均会出现在结果集中，这样用户欲检索的音节串的相似度较低，无疑降低用户的体验性。

发明内容

为了克服上述现有技术中存在的缺陷，本发明的目的是提供一种拼音纠错方法及系统，该拼音流纠错方法算法简洁，能够提高拼音纠错的速度和准确率。

为了实现本发明的上述目的，根据本发明的一个方面，本发明提供了一种拼音纠错方法，包括如下步骤：

S1，构建词库，将所有拼音串及其反转字符串分别组织并存储于正向、反向两棵三叉搜索树中；

S2，分析和检测用户输入的检索串，判断其是否可拆分为若干音节串，获取检索串的错误类型，所述错误类型分为合法错误和非法错误；

S3，对合法错误检索串进行合法纠错，对非法错误检索串进行非法纠错，采用正向、反向两棵三叉搜索树的查询操作获取纠错结果；

S4，计算纠错结果中的所有拼音串与用户输入的检索串的相似度，获取相似度最大的K个拼音串并输出。

本发明的拼音纠错方法简洁、高效，纠错速度快，准确率高。

在本发明的一种优选实施例中，所述正向、反向两棵三叉搜索树包括如下特点：

树中非叶子节点均有1-3个儿子节点；

每个节点存储当前节点的关键字及其指向儿子节点的指针；

非叶子节点的关键字不小于其左儿子节点的关键字，不大于其右儿子节点的关键字。

本发明通过构建正向、反向两棵三叉搜索树，采用正向、反向两棵三叉搜索树的查询操作获取纠错结果，快速准确。

在本发明的一种优选实施方式中，在所述步骤S2中，如果检索串可拆分为若干个音节串，则将其拆分为最少音节串个数的形式；如果检索串不能划分为若干个音节子串，则标注其不能划分的音符。

本发明通过检测判断检索串是否可划分为若干音节串组合形式，从而采取不同的纠错策略；本发明选择最少音节串的划分方式能够节省查找遍历的次数以提高纠错效率。

在本发明的一种优选实施方式中，所述非法检索串的纠错流程为：

S41，获取用户输入的经过检测后的检索串；

S42，对步骤S41中的检索串进行预处理，获取检索串中的所有非法字符，并将所有的非法字符标记为*字符；

S43，如果检索串中*字符位于检索串中间，则分别采用正向、反向三叉搜索树查找相应前缀的所有拼音串，将查找结集的交集作为纠错结果集，如果检索串中*字符位于检索串的最左/右侧，则使用反向/正向三叉搜索树查找，获取特定前缀的所有拼音串作为结果集；

S44，对纠错结果集进行预处理，删除纠错结果集中与检索串长度之差的绝对值大于1的拼音串；

S45，判断纠错结果集是否为空，如果纠错结果集为空，则提示当前纠错失败。

在本发明的另一种优选实施方式中，所述合法检索串的纠错流程为：

S51，获取用户输入的经过检测后的检索串；

S52，分别将检索串中的每个音节单独替换为*字符，依次执行后续步骤；

S53，如果检索串中*字符位于检索串中间，即*字符两侧均有音节串，分别采用正反向三叉搜索树查找相应前缀的所有拼音串，将查找结集的交集作为纠错结果集，

如果检索串中*字符位于检索串的最左/右侧，则使用反向/正向三叉搜索树查找，获取特定前缀的所有拼音串作为结果集;

S54,对纠错结果集进行预处理，删除纠错结果集中与检索串长度之差的绝对值大于1的拼音串；

S55,判断纠错结果集是否为空，如果纠错结果集为空，则提示当前纠错失败。

本发明通过对合法检索串和非法检索串采用不同的纠错方法，纠错速度快，准确率高。

在本发明的一种优选实施方式中，所述相似度计算的步骤为：

S61，读取检索串与纠错结果集中的拼音串；

S62，正向匹配：从第一个字符开始判断检索串与纠错串是否相同，如果相同继续匹配后续字符，否则标记当前位置与已经匹配的字符个数；

S63，反向匹配：从最后一个字符至正向匹配标记位置，开始判断检索串与纠错串是否相同，如果相同继续匹配之前字符，否则获取反向匹配字符个数；

S64，计算相似度：获取正向、反向匹配后相同的字符个数之和以及对应检索串与纠错串的最大长度，两者求比获取相似度；

S65，依据步骤S61至步骤S64计算纠错结果集中的所有拼音串的相似度，并将相似度最大的K个拼音串置入建议结果集，返回给用户。

在本发明的另一种优选实施方式中，所述建议结果集中拼音串按照相似度大小逆序排列。相似度最高的拼音串排在前面，提高用户使用的体验性。

为了实现本发明的上述目的，根据本发明的另一个方面，本发明提供了一种拼音纠错系统，其包括人机交互界面、控制器和存储器，所述人机交互界面与所述控制器连接，所述控制器与所述存储器连接；所述存储器内存储有所有拼音串及其反转字符串，并将所述拼音串及其反转字符串分别组织并存储于正向、反向两棵三叉搜索树；所述控制器用于：分析和检测用户通过人机交互界面输入的检索串，判断其是否可拆分为若干音节串，获取检索串的错误类型；对合法错误检索串进行合法纠错，对非法错误检索串进行非法纠错，采用正向、反向两棵三叉搜索树的查询操作获取纠错结果；计算纠错结果中的拼音串与用户输入的检索串的相似度，获取相似度最大的K个拼音串，并指令人机交互界面对相似度最大的K个拼音串进行显示。

本发明的拼音纠错系统纠错速度快，准确率高。

在本发明的一种优选实施方式中，所述控制器包括：预处理模块、合法纠错模块、非法纠错模块和相似度计算模块；

所述预处理模块，用于分析和检测用户通过人机交互界面输入的检索串，判断其是否可拆分为若干音节串，获取检索串的错误类型；

所述预处理模块分别与所述存储器、合法纠错模块和非法纠错模块相连，用于对合法错误检索串进行合法纠错，对非法错误检索串进行非法纠错，查询正向、反向两棵三叉搜索树的获取纠错结果；

所述似度计算模块分别与所述合法纠错模块和非法纠错模块相连，用于接收并计算纠错结果中的所有拼音串与用户输入的检索串的相似度，获取相似度最大的K个拼音串，并指令人机交互界面对相似度最大的K个拼音串进行显示。

本发明的附加方面和优点将在下面的描述中部分给出，部分将从下面的描述中变得明显，或通过本发明的实践了解到。

附图说明

本发明的上述和/或附加的方面和优点从结合下面附图对实施例的描述中将变得明显和容易理解，其中：

图1是本发明拼音纠错系统的方框图；

图2是本发明控制器的结构示意图；

图3是本发明一种优选实施例中的拼音流纠错方法流程图；

图4是本发明一种优选实施例中的三叉搜索树的示意图。

具体实施方式

下面详细描述本发明的实施例，所述实施例的示例在附图中示出，其中自始至终相同或类似的标号表示相同或类似的元件或具有相同或类似功能的元件。下面通过参考附图描述的实施例是示例性的，仅用于解释本发明，而不能理解为对本发明的限制。

为便于对本发明进行正确理解，首先对几个术语进行如下定义：

音节串：本发明中音节串是符合语法规则的由一个或几个音素按一定规律组合而成的拼音字符串，所有的音节串均存在中文汉字与之相对应，例如，音节串“chong”与中文汉字“重”相对应，音节串不包含声调，例如，“chong”、“qing”均为一个音节串，但“chongqing”，“chog”则都不为音节串，表1是汉语拼音中的所有音节串，共410种，表1中左面一列为首字母，右面一列为以首字母开头的音节串。

表1.汉语拼音音节串表

检索串：检索串是用户输入的用于检索的字符串，例如“chongqing”为一个检索串，在本实施方式中，检索串可以为音节串，例如检索串“chong”，也可以不为音节串，例如检索串“chongqing”或“chog”等。本发明不考虑检索串为空的情况，也不考虑检索串中包含其他非英文字母的情况（英文字母v对应汉语拼音ü），例如检索串为“我zai”或者检索串为“m2m”等。

目标串：目标串是用户想要查询的正确字符串，本发明选取相似度最高的若干字符串返回。在本实施方式中，目标串为符合拼音规则的拼音串，能够拆分为若干音节串，检索串却不一定能够拆分为音节串。例如：目标串“chongqing”可拆分为“chong”和“qing”，但检索串“chongqig”则不能拆分为音节串。

纠错结果集：纠错结果集是合法纠错或非法纠错后的拼音串集合，例如：检索串为“chongqig”时，纠错结果集可以为{“chongqing”、“chongqingshi”、“chongqiang”、“chongqin”、“chongqi”、“chongqiguai”}，纠错结果集中的拼音串与目标串具有一定的相似度。

建议结果集：建议结果集是纠错结果集中与检索串相似度最高的若干个拼音串集合，建议结果集为有序集合，该集合按相似度大小非递增排列，由于建议结果集中的所有元素均来源于纠错结果集，因此建议结果集为纠错结果集的子集。当建议结果集中元素个数不超过3时，从纠错结果集的例子看出检错串“chongqig”的建议结果集可以为{“chongqing”、“chongqin”、“chongqiang”}，建议结果集与纠错结果集中的所有元素均可以拆分为若干音节串。

为实现拼音纠错，本发明提供了一种拼音流纠错系统，如图1所示，其包括人机交互界面1、控制器2和存储器3，其中，人机交互界面1与控制器2连接，控制器2与存储器3连接。

存储器3内存储有表1中所有拼音串及其反转字符串（即前述拼音串的倒序字符串），并将所有拼音串及其反转字符串分别组织并存储于正向、反向两棵三叉搜索树（TernarySearchTrie，TST）中；控制器3用于：分析和检测用户通过人机交互界面1输入的检索串，判断其是否可拆分为若干音节串，获取检索串的错误类型；对合法错误检索串进行合法纠错，对非法错误检索串进行非法纠错，采用正向、反向两棵三叉搜索树的查询操作获取纠错结果；计算纠错结果中的所有拼音串与用户输入的检索串的相似度，获取相似度最大的K个拼音串，并指令人机交互界面对相似度最大的K个拼音串进行显示。

在本实施方式中，如图2所示，控制器2包括预处理模块21、合法纠错模块22、非法纠错模块23和相似度计算模块24；预处理模块21用于分析和检测用户通过人机交互界面输入的检索串，判断其是否可拆分为若干音节串，获取检索串的错误类型。预处理模块21分别与存储器3、合法纠错模块22和非法纠错模块23相连，用于对合法错误检索串进行合法纠错，对非法错误检索串进行非法纠错，查询正向、反向两棵三叉搜索树的获取纠错结果。相似度计算模块24分别与合法纠错模块22和非法纠错模块23相连，用于接收并计算纠错结果中的所有拼音串与用户输入的检索串的相似度，获取相似度最大的K个拼音串，并指令人机交互界面1对相似度最大的K个拼音串进行显示。

所述预处理模块21，具体用于当检索串可拆分为若干个音节串时，将其拆分为最少音节串个数的形式；当检索串不能划分为若干个音节子串时，标注其不能划分的音符；

所述非法纠错模块23，具体用于获取用户输入的经过检测后的检索串；所述检索串进行预处理，获取检索串中的所有非法字符，并将所有的非法字符标记为*字符；如果检索串中*字符位于检索串中间，则分别采用正向、反向三叉搜索树查找相应前缀的所有拼音串，将查找结集的交集作为纠错结果集，如果检索串中*字符位于检索串的最左/右侧，则使用反向/正向三叉搜索树查找，获取相应前缀的所有拼音串作为结果集；对纠错结果集进行预处理，删除纠错结果集中与检索串长度之差的绝对值大于1的拼音串；判断纠错结果集是否为空，如果纠错结果集为空，则提示当前纠错失败；

所述合法纠错模块22，具体用于获取用户输入的经过检测后的检索串；分别将检索串中的每个音节单独替换为*字符；如果检索串中*字符位于检索串中间，即*字符两侧均有音节串，分别采用正反向三叉搜索树查找相应前缀的所有拼音串，将查找结集的交集作为纠错结果集，如果检索串中*字符位于检索串的最左/右侧，则使用反向/正向三叉搜索树查找，获取相应前缀的所有拼音串作为结果集;对纠错结果集进行预处理，删除纠错结果集中与检索串长度之差的绝对值大于1的拼音串；判断纠错结果集是否为空，如果纠错结果集为空，则提示当前纠错失败；

所述似度计算模块24，具体用于读取检索串与纠错结果集中的拼音串；正向匹配：从第一个字符开始判断检索串与纠错串是否相同，如果相同继续匹配后续字符，否则标记当前位置与已经匹配的字符个数；反向匹配：从最后一个字符至正向匹配标记位置，开始判断检索串与纠错串是否相同，如果相同继续匹配之前字符，否则获取反向匹配字符个数；计算相似度：获取正向、反向匹配后相同的字符个数之和以及对应检索串与纠错串的最大长度，两者求比获取相似度；计算纠错结果集中的所有拼音串的相似度，并将相似度最大的K个拼音串置入建议结果集，返回给用户。

本发明还提供了一种拼音纠错方法，如图3所示，包括如下步骤：

在本实施方式中，具体的拼音纠错方法为：

首先，构建词库，将表1中的所有拼音串及其反转字符串分别组织并存储于正向、反向两棵三叉搜索树中。构建词库是指将用户可能查询到的所有词条以一定的数据结构组织起来，以便查找、插入、删除、修改等操作。构建的词库是纠错系统的基础模块，也是用户检索词条的数据源。如图4所示，本发明采用三叉搜索树的形式组织存储词库中所有词条，图中包含字符串：anran、dadao、daxue、enchou、jubei、lamei、mifan、nimen、nvbao、shimei、tashi。在本实施方式中，具体字符串的存储方法和读取方法可以采用现有技术中的存储方法和读取方法。TST是二叉搜索树和数字搜索树的混合体，其空间复杂度和二叉搜索树相似，而查找时间复杂度和数字搜索树相似。TST不仅能够满足数据插入、删除、查找的工作而且还能够满足动态增长。

在本实施方式中，正向、反向两棵三叉搜索树包括如下特点：

1），树中非叶子节点均有1-3个儿子节点；

2），每个节点存储当前节点的关键字及其指向儿子节点的指针；

3），非叶子节点的关键字不小于其左儿子节点的关键字，不大于其右儿子节点的关键字，在本实施方式，关键字即是存储于结点中的字母，按照字母顺序表中字母的顺序依次排列大小，即A最小，Z最大。

本发明构建正反向两棵TST，即分别构建正向TST和反向TST，正向TST中以词条的拼音串构建，拼音不包含声调，例如，词条“重庆”以“chongqing”构建，反向TST以词条拼音串的反转形式构建，例如，词条“重庆”以“gniqgnohc”构建。

在本实施方式中，TST的查找、插入、删除、更新等操作可以采用现有技术中的方法。本发明通过构建正向、反向两棵三叉搜索树，采用正向、反向两棵三叉搜索树的查询操作获取纠错结果，快速准确。

然后，预处理模块分析和检测用户输入的检索串，判断其是否可拆分为若干音节串，获取检索串的错误类型，所述错误类型分为合法错误和非法错误。如果检索串可拆分为若干个音节串，即为合法错误，例如“chongqingshi”可划分为拆分为“chong”、“qing”和“shi”三个音节串，则将其拆分为最少音节串个数的形式，例如检索串“xianshi”可以拆分为“xi”“an”“shi”和“xian”“shi”两种，采用音节串最少的形式，即为“xian’shi”。如果检索串不能划分为若干个音节串，即为非法错误，则标注其不能划分的音符，例如，检索串“chongqingt”则标注尾字符“t”，检索串“chonging”则标注最后三个字符“ing”。

在本实施方式中，对检索串拆分为若干个音节串的方法可以采用但不限于如下拼音流切分方法：

数据存储：分别在存储器的字符存储阵列的M个字符存储单元中存储一个字母和一个指针，在存储器的音节存储阵列的M个音节存储子阵列中存储音节串，所述字符存储单元与所述音节存储子阵列一一对应，所述字符存储单元中的指针指向所述字符存储单元所对应的音节存储子阵列，所述音节存储阵列的第N个音节存储子阵列包括P_N个音节存储单元，所述P_N个音节存储单元中依次存储有所述音节存储子阵列对应的字符存储单元中存储的字母为首字母的音节串，所述M、N、P_N均为正整数，所述N=1，2，…,M；

数据查询：控制器在接收到通过人机交互界面输入的检索串时,根据字符存储单元与音节存储子阵列的对应关系在存储器中查找与所述检索串对应的音节串，对检索串进行切分，并指令人机交互界面对所有音节串组合进行显示。

具体控制器在接收到通过人机交互界面输入的检索串时，根据字符存储单元与音节存储子阵列的对应关系在存储器中查找与所述检索串对应的音节串组合的步骤为：

S21：控制器获取检索串；

S22：从所述检索串中提取待分割检索串；

S23：控制器判断所述待分割检索串是否为空，如果待分割检索串为空，则结束拼音流切分算法，将结果集通过人机交互界面进行显示；

S24：控制器获取待分割检索串中的首字符并根据字符存储单元与音节存储子阵列的对应关系在存储器中查找所述首字符的字符匹配集；

S25：判断所述字符匹配集中首字符音节串的后续字符的字符匹配集是否为空，如果为空，则当前音节分割方式错误，将所述后续字符的字符匹配集是空的音节串删除，并将所述音节串相应的待分割检索串删除，返回步骤S22；

S26：判断字符匹配集中的音节串个数是否为1，如果为1，则将音节串置入结果集并将所述音节串从所述检索串中删除，返回步骤S22；

S27：将字符匹配集中的音节串存入结果集中，分别将音节串从检索串中删除，返回步骤S22。

本发明对拼音串的切分方法可按照本申请人申请的申请号为“201310121923.8”，名称为“一种拼音流切分方法及系统”的专利申请中所记载的方法进行，在此不作赘述。拼音的检测是纠错算法的基础，通过检测判断检索串是否可划分为若干音节串组合形式，从而采取不同的纠错策略。

再后，控制器的合法纠错模块对合法错误检索串进行合法纠错，非法纠错模块对非法错误检索串进行非法纠错，采用正向、反向两棵三叉搜索树的查询操作获取纠错结果。

非法纠错是指对用户输入的不能拆分为若干音节串的检索串的纠错，例如：检索串“chogqig”不能拆分为若干音节串。非法纠错的输入为检测后的检索串，即非法字符标注后的检索串，输出为纠错结果集。由于错误字符串仅包含一处错误，因此错误位置必定出现在非法字符所在位置或其前、后：例如“beijig”的非法字符为“g”，若目标串为“beiji”则错误位置在“g”处；若目标串为“beijing”错误位置在“g”之前；若目标串为“beijige”则错误字符在“g”之后。此外非法字符不一定为单个字符，例如检索串“beiing”中，非法字符包括“i”、“n”和“g”三个。

在本实施方式中，非法检索串的纠错流程为：

S41，获取用户输入的经过检测后的检索串；

S43，如果检索串中*字符位于检索串中间，例如“chong*qing”中*字符的两侧均有音节串“chong”和“qing”，则分别采用正向、反向三叉搜索树查找相应前缀的所有拼音串，将查找结集的交集作为纠错结果集，例如：“chong*qing”使用正向TST查找前缀为“chong”的所有拼音串，使用反向TST查找前缀为“gniq”的所有字符串，并去二者的交集作为纠错结果集。

如果检索串中*字符位于检索串的最左（右）侧，则使用反（正）向TST查找，获取特定前缀的所有拼音串作为结果集返回。例如：“chongqing*”中的*字符位于检索串的最右侧，则使用正向TST查找前缀为“chongqing”的所有拼音串，置入纠错结果集；又如“*chongqing”中*字符位于检索串最左侧，则使用反向TST查找所有前缀为“gniqgnohc”的所有拼音串，并将其置入纠错结果集中。

S44，对纠错结果集进行预处理，删除纠错结果集中与检索串长度之差的绝对值大于1的拼音串，例如：检索串为“chongqing”，则删除纠错结果集中“chongqingshi”“chongqingren”等。

合法纠错是指对用户输入能够拆分为若干个音节串的检索串纠错。例如用户将“beijing”输入为“bijing”，或者将“chongqing”输入为“chongqin”，尽管该字符串错误，但检索串可以拆分为若干个音节串。合法纠错的输入为检测后的检索串，即切分后的检索串，合法纠错的输出为纠错结果集。

在本实施方式中，所述合法检索串的纠错流程为：

S51，获取用户输入的经过检测后的检索串；

S52，分别将检索串中的每个音节单独替换为*字符，依次执行后续步骤，例如，对于“xian’shi”中的音节串“xian”和“shi”依次替换为*字符，得到“xian*”和“*shi”，分别执行后续操作；

S53，如果检索串中*字符位于检索串中间，即*字符两侧均有音节串，分别采用正反向三叉搜索树查找相应前缀的所有拼音串，将查找结集的交集作为纠错结果集，例如：“chong*qing”使用正向TST查找前缀为“chong”的所有拼音串，使用反向TST查找前缀为“gniq”的所有字符串，并去二者的交集作为纠错结果集；

S54,对纠错结果集进行预处理，删除纠错结果集中与检索串长度之差的绝对值大于1的拼音串，例如：检索串为“chongqing”，则删除纠错结果集中“chongqingshi”“chongqingren”等。

在本实施方式中，检测模块中选择最少音节串的划分方式是为了节省查找遍历的次数以提高纠错效率。例如，如果将检索串“xianshi”切分为“xi’an’shi”则需查询“*anshi”、“xi*anshi”、“xian*”三次，但若将检索串“xianshi”切分为“xian’shi”则只需查询“xian*”和“*shi”两次即可，而且目标串均在纠错结果集中。

最后，相似度计算模块计算纠错结果中的所有拼音串与用户输入的检索串的相似度，获取相似度最大的K个拼音串并输出。在本实施方式中，相似度计算的步骤为：

S61，读取检索串与纠错结果集中的拼音串（简称纠错串），例如，检索串：“chongnqing”纠错串：“chongqing”；检索串：“xiasshi”纠错串：“xianshi”；

S62，正向匹配：从第一个字符开始判断检索串与纠错串是否相同，如果相同继续匹配后续字符，否则标记当前位置与已经匹配的字符个数。例如，检索串：“chongnqing”纠错串：“chongqing”，正向匹配后得到“chong”，即相同字符个数为5个，匹配至第6个字符；检索串：“xiasshi”纠错串：“xianshi”，正向匹配后得到“xia”相同字符个数为3个，匹配至第4个字符。

S63，反向匹配：从最后一个字符至正向匹配标记位置，开始判断检索串与纠错串是否相同，如果相同继续匹配之前字符，否则获取反向匹配字符个数。例如，检索串：“chongnqing”纠错串：“chongqing”，反向匹配后得到“qing”相同字符个数为4；检索串：“xiasshi”纠错串：“xianshi”，反向匹配后得到“shi”相同字符个数为3。

S64，计算相似度：获取正向、反向匹配后相同的字符个数之和以及对应检索串与纠错串的最大长度，两者求比获取相似度。例如，检索串：“chongnqing”纠错串：“chongqing”，正反向匹配后相同字符个数为5+4=9，检索串长度为10，纠错串长度为9，相似度为9/10=0.9；检索串：“xiasshi”纠错串：“xianshi”，正反向匹配后的相同字符个数为3+3=6，检索串长度为7，纠错串长度为7，相似度为6/7=0.86。

S65，依据步骤S61至步骤S64计算纠错结果集中的所有拼音串的相似度，并将相似度最大的K个拼音串置入建议结果集，返回给用户。在本实施方式中，建议结果集中拼音串按照相似度大小逆序排列。相似度最高的拼音串排在前面，便于用户查看。

由于方法实施例和系统实施例的相似内容较多，因此系统实施例介绍的较为简略，相关之处请参见方法实施例部分。

在本说明书的描述中，参考术语“一个实施例”、“一些实施例”、“示例”、“具体示例”、或“一些示例”等的描述意指结合该实施例或示例描述的具体特征、结构、材料或者特点包含于本发明的至少一个实施例或示例中。在本说明书中，对上述术语的示意性表述不一定指的是相同的实施例或示例。而且，描述的具体特征、结构、材料或者特点可以在任何的一个或多个实施例或示例中以合适的方式结合。

尽管已经示出和描述了本发明的实施例，本领域的普通技术人员可以理解：在不脱离本发明的原理和宗旨的情况下可以对这些实施例进行多种变化、修改、替换和变型，本发明的范围由权利要求及其等同物限定。

Claims

1.一种拼音纠错方法，其特征在于，包括：

所述方法包括：

2.如权利要求1所述的拼音纠错方法，其特征在于，所述正向、反向两棵三叉搜索树包括如下特点：

树中非叶子节点均有1-3个儿子节点；

每个节点存储当前节点的关键字及其指向儿子节点的指针；

3.如权利要求1所述的拼音纠错方法，其特征在于，在所述步骤S2中，如果检索串可拆分为若干个音节串，则将其拆分为最少音节串个数的形式；如果检索串不能划分为若干个音节子串，则标注其不能划分的音符。

4.如权利要求1所述的拼音纠错方法，其特征在于，所述对非法错误检索串进行非法纠错为：

S41，获取用户输入的经过检测后的检索串；

S43，如果检索串中*字符位于检索串中间，则分别采用正向、反向三叉搜索树查找相应前缀的所有拼音串，将查找结集的交集作为纠错结果集，如果检索串中*字符位于检索串的最左/右侧，则使用反向/正向三叉搜索树查找，获取相应前缀的所有拼音串作为结果集；

5.如权利要求1所述的拼音纠错方法，其特征在于，所述对合法错误检索串进行合法纠错为：

S51，获取用户输入的经过检测后的检索串；

如果检索串中*字符位于检索串的最左/右侧，则使用反向/正向三叉搜索树查找，获取相应前缀的所有拼音串作为结果集;

6.如权利要求1所述的拼音纠错方法，其特征在于，所述S4步骤为：

S61，读取检索串与纠错结果集中的拼音串；

7.一种拼音纠错系统，其特征在于，包括：

人机交互界面、控制器和存储器，所述人机交互界面与所述控制器连接，所述控制器与所述存储器连接；

所述存储器内存储有所有拼音串及其反转字符串，并将所述拼音串及其反转字符串分别组织并存储于正向、反向两棵三叉搜索树；

所述控制器用于：分析和检测用户通过人机交互界面输入的检索串，判断其是否可拆分为若干音节串，获取检索串的错误类型，所述错误类型分为合法错误和非法错误；对合法错误检索串进行合法纠错，对非法错误检索串进行非法纠错，采用正向、反向两棵三叉搜索树的查询操作获取纠错结果；计算纠错结果中的拼音串与用户输入的检索串的相似度，获取相似度最大的K个拼音串，并指令人机交互界面对相似度最大的K个拼音串进行显示。

8.如权利要求7所述的拼音纠错系统，其特征在于，所述控制器包括：预处理模块、合法纠错模块、非法纠错模块和相似度计算模块；

所述预处理模块，用于当检索串可拆分为若干个音节串时，将其拆分为最少音节串个数的形式；当检索串不能划分为若干个音节子串时，标注其不能划分的音符；

所述非法纠错模块，用于获取用户输入的经过检测后的检索串；所述检索串进行预处理，获取检索串中的所有非法字符，并将所有的非法字符标记为*字符；如果检索串中*字符位于检索串中间，则分别采用正向、反向三叉搜索树查找相应前缀的所有拼音串，将查找结集的交集作为纠错结果集，如果检索串中*字符位于检索串的最左/右侧，则使用反向/正向三叉搜索树查找，获取相应前缀的所有拼音串作为结果集；对纠错结果集进行预处理，删除纠错结果集中与检索串长度之差的绝对值大于1的拼音串；判断纠错结果集是否为空，如果纠错结果集为空，则提示当前纠错失败；

所述合法纠错模块，用于获取用户输入的经过检测后的检索串；分别将检索串中的每个音节单独替换为*字符；如果检索串中*字符位于检索串中间，即*字符两侧均有音节串，分别采用正反向三叉搜索树查找相应前缀的所有拼音串，将查找结集的交集作为纠错结果集，如果检索串中*字符位于检索串的最左/右侧，则使用反向/正向三叉搜索树查找，获取相应前缀的所有拼音串作为结果集;对纠错结果集进行预处理，删除纠错结果集中与检索串长度之差的绝对值大于1的拼音串；判断纠错结果集是否为空，如果纠错结果集为空，则提示当前纠错失败；

所述似度计算模块，用于读取检索串与纠错结果集中的拼音串；正向匹配：从第一个字符开始判断检索串与纠错串是否相同，如果相同继续匹配后续字符，否则标记当前位置与已经匹配的字符个数；反向匹配：从最后一个字符至正向匹配标记位置，开始判断检索串与纠错串是否相同，如果相同继续匹配之前字符，否则获取反向匹配字符个数；计算相似度：获取正向、反向匹配后相同的字符个数之和以及对应检索串与纠错串的最大长度，两者求比获取相似度；计算纠错结果集中的所有拼音串的相似度，并将相似度最大的K个拼音串置入建议结果集，返回给用户。

9.如权利要求7所述的拼音纠错系统，其特征在于，所述正向、反向两棵三叉搜索树包括如下特点：

树中非叶子节点均有1-3个儿子节点；

每个节点存储当前节点的关键字及其指向儿子节点的指针；