CN1920827A

CN1920827A - 获取新编码字符串的方法及输入法系统、词库生成装置

Info

Publication number: CN1920827A
Application number: CNA2006101115629A
Authority: CN
Inventors: 郭奇; 佟子健; 杨磊
Original assignee: Beijing Sogou Technology Development Co Ltd
Current assignee: Beijing Sogou Technology Development Co Ltd
Priority date: 2006-08-23
Filing date: 2006-08-23
Publication date: 2007-02-28
Anticipated expiration: 2026-08-23
Also published as: CN100424703C; WO2008028421A1

Abstract

本发明公开了一种获取输入法字词的新编码字符串的方法，包括：提取用户在输入过程中所选择的字词，以及用户输入的编码字符串；将用户所选字词、用户输入的编码字符串与现有词库进行比对，所述现有词库中存储有现有字词及其相应的编码字符串；根据预置规则，确定字词相应的新编码字符串。本发明从用户输入的角度提供解决方案，能够及时的、较为全面的获悉用户在输入过程中的使用的新编码字符串，包括反映用户的方言习惯的新编码字符串，以及未知的、无法想象到的，但是用户经常使用的新编码字符串，进而提高首选词的准确率。

Description

获取新编码字符串的方法及输入法系统、词库生成装置

技术领域

本发明涉及输入法领域，特别是涉及一种获取输入法字词的新编码字符串的方法及输入法系统、词库生成装置。

背景技术

现有的输入法系统都是根据用户输入的编码字符串，匹配得到用户所需的字词，例如，中文、目文以及韩文等等输入法系统。在现有输入法的系统词库中为每一个字词设定了一个相应的编码字符串，用户只有输入正确的编码字符串才能获得所需的字词。

但是用户对于正确的编码字符串有一个学习的过程，很难保证用户认知的所有编码字符串与字词的对应都是正确的，所以现有的输入法系统为了提高容错性和满足一些用户对编码字符串的习惯，提出了模糊音的解决方案，例如，z＝zh，s＝sh，in＝ing等等。模糊音的解决方案固然可以解决一些由于南北语言习惯导致的相同字词对应的编码字符串存在差异的问题。

但是由于各地区都有各自的方言(尤其对于中文这样方言众多的文字而言)，这样当用户利用拼音码输入字词，多多少少在输入编码时都会存在着不太准确的问题，上述模糊音解决方案并不能解决所有的问题。例如，“折了”一词，有的用户习惯输入“shele”、有的用户习惯输入“zhele”；“落下”一词，有的情况需要输入“laxia”、有的情况需要输入“luoxia”；“和牌”一词对应的“hupai”和“hepai”；这些都无法通过模糊音的方式解决。输入法系统词库中不可能获知所有的方言习惯，所以需要用户多次从候选字词中排序靠后的位置选取所需字词，严重影响用户的输入速度。

因此，如何尽快尽多的获知用户的方言习惯用法，提高此时的输入法系统首选词的命中率，成为本领域技术人员迫切需要解决的技术问题之一。

发明内容

本发明所要解决的技术问题是提供一种获取输入法字词的新编码字符串的方法及装置，能够获取各用户使用的新编码字符串，并汇总生成词库，从而可以满足用户的新编码字符串的习惯用法，提高用户首选词的命中率。

本发明的另一目的在于，提供一种输入法系统，可以简单方便、及时有效的自动获取该用户针对一些字词习惯使用的编码字符串，通过比较即可获取各用户使用的新编码字符串。

本发明的另一目的还在于提供一种词库生成装置，可以高效率的提供比较准确的、包括适合用户输入习惯的新编码字符串的全词库或者新词库。

为解决上述技术问题，本发明提供了一种获取输入法字词的新编码字符串的方法，包括：提取用户在输入过程中所选择的字词，以及用户输入的编码字符串；将用户所选字词、用户输入的编码字符串与现有词库进行比对，所述现有词库中存储有现有字词及其相应的编码字符串；根据预置规则，确定字词相应的新编码字符串。

优选的，所述的方法，还包括：将用户所选字词、用户输入的编码字符串记录至用户词库；并在用户输入过程中，记录用户词频至用户词库，所述用户词频为用户输入该字词及其相应编码字符串的频率信息。

优选的，所述的方法，还包括：根据用户输入的当前应用程序，分别加以相应的权重修正后统计词频信息，得到用户词频。

优选的，所述的方法，还包括：收集各个用户的具有新编码字符串的字词记录，所述记录包括该字词、相应的新编码字符串以及相应的词频信息；去除重复的字词记录。

优选的，所述的方法，还包括：计算用户累积词频；去除用户累积词频小于或者等于预置阈值的编码字符串。

优选的，所述的方法，还包括：统计过滤后的字词记录中的字词在预置的互联网页面数据库中出现的次数，得到互联网词频。

优选的，所述的方法，还包括：比较该字词的新编码字符串的用户累积词频与原编码字符串的用户累积词频，根据比较结果，分配其互联网词频至该字词的两个或者多个相应编码字符串。

优选的，所述的方法，还包括：根据过滤后的字词记录生成新词库或者将过滤后的字词记录添加至原有词库，得到新词库或者新版的全词库。

其中，所述收集的信息还包括用户所在的区域信息，将用户划分为若干区域；针对每个区域进行过滤步骤；针对每个区域生成区域新词库或者新版的区域全词库。

优选的，通过以下步骤获得预置的互联网页面数据库：对互联网页面进行权重赋值；将权重值大于或者等于预置阈值的互联网页面存储至互联网页面数据库。

所述收集为：输入法计算设备实时或者定时的将用户的具有新编码字符串的字词记录发送至收集计算设备。

本发明还提供了一种获取输入法字词的新编码字符串的方法，包括：

提取用户在输入过程中所选择的字词，以及用户输入的编码字符串，并存储至用户词库；收集各个用户的用户词库；对比所述收集的用户词库和输入法现有词库，所述系统词库中存储有字词及其相应的编码字符串；根据预置规则，确定字词相应的新编码字符串。

优选的，所述的方法，还包括：所述用户词库中还包括用户词频，所述用户词频为用户输入该字词及其相应编码字符串的频率信息；计算用户累积词频；去除用户累积词频小于或者等于预置阈值的编码字符串。

其中，所述预置的规则为：

如果用户所选字词在现有词库中存在，但是用户输入的编码字符串与现有词库中存储的该字词相应的编码字符串不同，则确定用户输入的编码字符串为该字词相应的新编码字符串；

或者，如果用户所选字词及用户输入的编码字符串在现有词库中都存在，则进一步比较该字词相应的编码字符串的用户累积词频和系统词频，所述系统词频为在现有词库中预置的现有字词相应的词频信息，如果用户累积词频与系统词频的比值大于或者等于预定阈值，则确定用户输入的编码字符串为该字词相应的新编码字符串。

优选的，所述的方法，还包括：统计具有新编码字符串的字词在预置的互联网页面数据库中出现的次数，得到互联网词频。

本发明还提供了一种输入法系统，包括输入接口单元、显示单元以及系统词库，还包括：字词提取单元，与输入法系统相连，用于提取用户在输入过程中所选择的字词，以及用户输入的编码字符串；字词比对单元，与字词提取单元相连，用于将用户所选字词、用户输入的编码字符串与系统词库进行比对，所述系统词库中存储有字词及其相应的编码字符串；根据预置规则，确定字词相应的新编码字符串。

优选的，所述输入法系统的输入接口单元、显示单元以及系统词库位于同一计算设备中；或者所述输入法系统的输入接口单元、显示单元位于第一计算设备中，系统词库位于第二计算设备中，所述输入法系统根据用户输入的信息，从位于第二计算设备中获取相应信息，在第一计算设备显示相应字符。

优选的，所述的输入法系统，还包括：通信单元，用于实时或者定时的发送具有新编码字符串的字词记录，所述字词记录包括该字词以及其相应的新编码字符串。

优选的，所述的输入法系统，还包括：词频记录单元，与输入法系统相连，用于在用户输入过程中，记录用户词频，所述用户词频为用户输入该字词及其相应编码字符串的频率信息；用户词库，用于存储用户所选字词、用户输入的编码字符串及其相应的用户词频。

优选的，所述的输入法系统，还包括：应用程序判断单元，用于判断用户输入的当前应用程序，并将判断结果发送至词频记录单元；词频记录单元，与输入法系统相连，用于在用户输入过程中，根据用户输入的当前应用程序，分别加以相应的权重修正后统计词频信息，得到用户词频。

本发明还提供了一种词库生成装置，包括：字词收集单元，用于收集各个用户的具有新编码字符串的字词记录，所述字词记录包括该字词以及其相应的新编码字符串；第一过滤单元，用于去除重复的字词记录；词库生成单元，用于根据过滤后的字词记录生成新词库或者将过滤后的字词记录添加至原有词库，得到新词库或者新版的全词库。

优选的，所述的装置，还包括：词频收集单元，用于收集用户输入行为中的用户词频，所述用户词频为用户输入该字词及其相应编码字符串的频率信息；累积词频计算单元，用于计算用户累积词频；第二过滤单元，用于去除用户累积词频小于或者等于预置阈值的编码字符串。

优选的，所述的装置，还包括：统计单元，用于统计过滤后的字词记录中的字词在预置的互联网页面数据库中出现的次数，得到互联网词频。

优选的，所述的装置，还包括：词频分配单元：用于比较该字词的新编码字符串的用户累积词频与原编码字符串的用户累积词频，根据比较结果，分配其互联网词频至该字词的两个或者多个相应编码字符串。

本发明还提供了一种词库生成装置，包括：

收集单元，用于收集各用户的输入行为信息，所述输入行为信息包括用户选择的字词，用户输入的编码字符串以及相应的用户词频，所述用户词频为用户输入该字词及其相应编码字符串的频率信息；

累积词频计算单元，对字词与编码字符串整体相应的各用户词频进行权重修正，计算该字词与编码字符串整体用户累积词频；

词库生成单元，所述词库包括字词、编码字符串及其相应的词频信息。

优选的，所述的装置，还包括：比对单元，用于对比所述生成的词库和现有词库，所述现有词库中存储有字词、编码字符串及其相应的系统词频；确定单元，用于根据预置规则，确定字词相应的新编码字符串。

优选的，所述的装置，还包括：过滤单元，用于去除用户累积词频小于或者等于预置阈值的编码字符串。统计单元，统计具有新编码字符串的字词在预置的互联网页面数据库中出现的次数，得到互联网词频；词频分配单元：用于比较该字词的新编码字符串的用户累积词频与原编码字符串的用户累积词频，根据比较结果，分配其互联网词频至该字词的两个或者多个相应编码字符串。

或者，优选的，所述的装置，还包括：比对单元，用于对比所述生成的词库和现有词库，所述现有词库中存储有字词、编码字符串及其相应的系统词频；确定单元，用于确定过期字词；所述过期字词为在所述生成的词库中不存在，但是在现有词库中存在的字词，或者所述过期字词为在所述生成的词库中用户累积词频符合预置条件的字词。

与现有技术相比，本发明具有以下优点：

首先，本发明提出了分布式的架构，包括多个用户端和一个收集端，通过在用户端提取用户输入的字词和编码字符串，通过和现有词库比较，从而得知适合该用户使用习惯的新编码字符串；然后收集汇总各用户的新编码字符串及其对应字词，分析过滤后即可获得具有普遍意义的新编码字符串；本发明从用户输入的角度提供解决方案，能够及时的、较为全面的获悉用户在输入过程中的使用的新编码字符串，包括反映用户的方言习惯的新编码字符串，以及未知的、无法想象到的，但是用户经常使用的新编码字符串，进而提高首选词的准确率。

其次，本发明将获得的新编码字符串及其字词放置到一精选互联网页面数据库中，对其出现次数进行统计，得到互联网词频；并根据用户词频在该字词新旧编码字符串上的分布，将互联网词频修正后分别赋予新旧编码字符串，则可以得到最科学的词频结果，从而避免由于部分用户的使用习惯而影响其他正常用户的输入效率和输入体验。

最后，本发明还可以用于只收集统计一定区域的用户的新编码字符串，得到该区域内用户的语言习惯或者编码习惯，从而可以提供各个区域不同的发音或者编码版本的输入法系统或者在输入法系统中让用户设定自己所在的区域，则该输入法系统可以方便各种习惯使用区域思考习惯的用户较快较准的得到所需字词。

附图说明

图1是所述获取输入法字词的新编码字符串的方法的一种优选实施例的步骤流程图；

图2是另一种获取输入法字词的新编码字符串的方法的步骤流程图；

图3是所述输入法系统的结构框图；

图4是所述词库生成装置的结构框图；

图5是用于确定新编码字符串的词库生成装置的结构框图；

图6是用于确定过期字词的词库生成装置的结构框图。

具体实施方式

为使本发明的上述目的、特征和优点能够更加明显易懂，下面结合附图和具体实施方式对本发明作进一步详细的说明。

参照图1，是本发明所述获取输入法字词的新编码字符串的方法的一种优选实施例的步骤流程图，包括以下步骤：

步骤101、在用户输入过程中，提取用户选择的字词，以及用户输入的编码字符串。

步骤101可以通过输入法系统完成，输入法系统可以在用户输入过程中，采用任何可行的方式提取用户选择的字词，以及用户输入的编码字符串。提取得到的信息可以直接进行步骤102，或者先存储至用户词库，间隔一定时间之后将用户词库与系统词库进行比对。

对于需要通过编码输入文字的语言而言，用户都需要输入编码字符串，并在候选词中选择需要的字词，从而完成输入。步骤101就是记录用户的输入行为信息之一--用户所选择的字词及其输入的编码字符串。所述编码字符串可以为拼音码也可以为字形码，即本发明可以适用与各种输入法，当然，优选适用与采用音码输入的中文输入法。

用户所选字词中会包括一些该用户采用方言习惯标注拼音码的字词，例如：“折了”，用户输入自认为正确的编码字符串--“zhele”；但是输入法原有的词库中该字词对应的字符串为“shele”，所以在候选词中无法直接显示给用户，用户需要对每个字进行选择从而得到需要的词汇。这样的词还有很多，例如，调头“diaotou”、“tiaotou”；尿尿“niaoniao”、“niaosui”等等，还有许多我们无法统计的情况。通过本发明就可以尽快尽多的发现这样的新编码字符串，从而提高用户输入中首选词的准确率。

再者，用户还可以通过输入法提供的人工造词功能(例如微软拼音输入法或者双拼输入法)，创造一些原有词库中没有，但是该用户需要使用的字词对应的新编码字符串，这样用户在输入过程中才可以选择到所需的字词。例如，“繁峙”这个词，是山西一地名，在输入法中一般对应的编码字符串是“fanshi”，“峙”这个字在输入法中一般对应的编码字符串为“shi、zhi”两个，但是该区域的当地人一般习惯使用“fansi”来标识“繁峙”，但是现有输入法中“峙”这个字一般没有“si”这样的对应编码，所以用户可以通过人工造词功能实现“峙”和“si”的对应，或者“繁峙”和“fansi”的对应。通过本发明也能够从用户所选择输入的字词及其编码字符串中挑选出该用户针对该字词自造的编码字符串。

步骤102、将用户所选字词、用户输入的编码字符串与现有词库进行比对，所述现有词库中存储有现有字词及其相应的编码字符串。在下面的描述中，本说明书统一采用系统词库代理现有词库进行说明，因为一般的系统词库中就存储有现有字词及其相应的编码字符串。

步骤103、如果用户所选字词在系统词库中存在，但是用户输入的编码字符串与系统词库中存储的该字词相应的编码字符串不同，则确定用户输入的编码字符串为该字词相应的新编码字符串。

通过以上步骤101-103就可以简单、方便的自动获知该用户的编码习惯。然后采取各种方式收集多个用户的新编码字符串及其相应的字词，去除重复的字词记录等过滤步骤之后，就可以得到具有普遍意义上的新编码字符串。

所述收集可以为：输入法用户计算设备实时或者定时的将该用户的新编码字符串及其相应的字词发送至字词收集计算设备中，即优选的，输入法计算设备具有一个自动发送的模块。优选的，所述收集计算设备以服务器的形式存在。

所述收集还可以为输入法用户定时或者不定时的将自己的新编码字符串及其相应的字词发送至收集端，即所述发送由用户人工发起，例如，各用户将自己的新编码字符串及其相应的字词发送至统一的邮件地址或者统一的服务器中实现收集。

当然，如果用户将新编码字符串及其相应的字词存储在用户词库或者系统词库的情况时，可以将该存储有用户个性字词的词库实时或者定时的发送至收集计算设备，例如，各个用户通过定时或者不定时的将词库在服务器备份即可实现收集。

再者，对于网络输入法(仅仅提供给用户输入接口和显示接口，通过连接服务器完成整个输入过程)而言，其用户新编码字符串及其相应的字词的收集就更简单了，因为此时用户使用的输入法系统本身就是一个服务器，可以供多个用户使用，在使用过程中就可以收集各用户的输入行为信息了。

实际上，本发明采用任何能够实现信息收集的方式都是可行的，不再一一列举说明。

为了达到最佳的效果，图1示出一个优选于上述步骤的实施例。图1所示的优选实施例中，步骤101还包括：在用户输入过程中，记录用户词频至用户词库，所述用户词频为用户所输入的编码字符串相应的频率信息。则得到的用户词库中包括多条字词记录，所述字词记录包括该字词、相应的新编码字符串以及相应的用户词频。优选的，步骤101采集用户词频的过程可以为：根据用户输入的当前应用程序，分别加以相应的权重修正后统计词频信息，得到用户词频。

图1所示的优选实施例中，还包括：

步骤104、收集各个用户的具有新编码字符串的字词记录，所述记录包括该字词、相应的新编码字符串以及相应的用户词频；

步骤105、去除重复的字词记录。

步骤106、计算编码字符串相应的用户累积词频；

所述用户累积词频的计算过程可以通过简单叠加各用户的用户词频即可获得收集汇总后的该字词的用户累积词频。

所述用户累积词频的计算过程也可以对字词相应的各用户词频分别进行权重修正，计算各字词的用户累积词频；所述权重修正可以通过对某一字词相应的各用户词频进行分析后完成，例如，首先对该字词相应的各用户词频进行分析，找到分布趋势，通过某个词频值出现的概率或者该词频值距离平均范围的大小对其进行修正。上述修正后计算得到的用户累积词频，可以去除一些用户的偶然行为或者恶意行为，得到比价客观、准确的用户累积词频，进而保证词库的准确性。

步骤107、去除用户累积词频小于或者等于预置阈值的编码字符串。该步骤可以去除一些不具有普遍意义的个别用户的特殊输入习惯，可以保证获取的新编码字符串的客观性和准确性。

步骤108、统计过滤后的字词记录中的字词在预置的互联网页面数据库中出现的次数，得到互联网词频。

上述步骤105-108的顺序并不是限定的，各步骤之间并没有严格的前后顺序，所以上述步骤105-108的顺序仅仅是一个示意而已，本领域技术人员可以根据需要自行调整即可，并不影响本发明的核心构思。

其中，步骤108之前还可以包括权重赋予步骤：对互联网页面进行权重赋值；将权重值大于或者等于预置阈值的互联网页面存储至互联网页面数据库。该过程为可选步骤，其目的是为了获得一个精选的互联网页面数据库，从而可以保证对新词筛选的准确性。当然，也可以采用其他方法形成预置的互联网页面数据库。

在权重赋予的步骤中，根据网页形成的时间和网页的类型赋予相应的权重值是一个比较重要的情形。因为对于互联网词频统计而言，网页时间对其的影响非常重要，所以网页时间对权重值的影响也就较大，距离词频统计的时间点越远，则权重值就越低，如果时间差大于一定的值，则可以赋予该网页较低的权重值，甚至排除在词频统计之外。其次网页类型对词频统计的影响也很大，所述网页类型一般是指门户网站、论坛或者其他一些已经确定的网页，这些网页的权重值就较高，因为这些网页中参与者较多、信息更新较快、能够较好的反应词频的最新变化趋势。对于网页类型的判定，可以通过设定一个规则库，该库中存储了一些网页的URL地址，从而确定这些URL的网页是对词频统计比较重要的，在这些网页上出现的字词会是优选统计的，则对该网页赋予更大的权重值。

其次，本发明还可以通过赋予较低权重值的方式去除一些重复网页、黄色网页和垃圾网页，从而可以进一步保证新词验证的准确性。

通过步骤108得到字词的互联网词频后，可以设置词库包括字词、字词相应的互联网词频、以及该字词相应的用户累积词频。例如，“重重”一词在词库就具有一个互联网词频和两个用户累积词频，分别对应“chongchong”“zhongzhong”。采用互联网词频可以提高词频的准确度，但是由于字词在互联网中无法体现编码字符串，故可以通过用户累积词频来体现用户的输入习惯，提高首选词的命中率。

当然，也可以不需要步骤108，则设置词库包括字词、字词原来的词频、以及该字词相应的用户累积词频即可。

上述一个字词对应两个词频使用过程比较复杂，需要两类词频数据配合使用才可以达到最佳的效果，为了进一步简化，图1所示的优选实施例还可以包括步骤109，将上述两类词频数据调整为一种词频数据。

步骤109、根据该字词的新编码字符串的用户累积词频与原编码字符串的用户累积词频的比例，分配其互联网词频至该字词的两个或者多个相应编码字符串。

即认为互联网中出现的字词对应了两个或者多个相应编码字符串，根据用户输入该编码字符串的累积词频的不同，将反映该字词总词频的互联网词频分配至该字词的两个或者多个相应编码字符串，从而客观、准确的体现用户的输入习惯，提高用户输入过程中首选词的准确率。

当然，步骤109在互联网词频的分配上仅仅给出了一个例子，而实际应用中，在互联网验证后的词频分配上，原编码词频和新编码词频的比较方法可以有很多种，例如，线性、非线性、平滑调整等等，然后计算出一个比例，再分配其互联网词频至该字词的两个或者多个相应编码字符串，在此不进行详述了。

步骤1010、根据过滤后的字词记录生成新词库或者将过滤后的字词记录添加至原有词库，得到新词库或者新版的全词库。所述字词记录包括该字词、相应的新编码字符串以及相应的词频信息。

图1所示实施例可以用于收集全国范围内的用户新编码字符串，然后得出适合大多数人使用的新词库或者新版的全词库，从而提高各区域用户的输入体验。

图1所示实施例还可以用于以下情况：收集的仍然是全国范围内的用户新编码字符串，所述收集的信息还包括用户所在的区域信息，将用户划分为若干区域；针对每个区域进行过滤步骤；针对每个区域生成区域新词库或者新版的区域全词库。即可以分别统计各个区域的人们的不同的发音，提供各个区域不同的编码版本的输入法系统或者在输入法系统中让用户设定自己所在的区域，从而更加个性的满足各区域内用户的编码输入习惯。

上述步骤得到的新词库或者新版的全词库，可以用于更新输入法。

例如，用于更新普通输入法：设置包含系统词库的输入法系统位于第一计算设备中，得到的新词库或者新版的全词库位于第二计算设备中；需要更新词库的输入法系统通过第一计算设备连接所述第二计算设备完成系统词库的更新。

所述存储得到的新词库或者新版的全词库的第二计算设备可以通过服务器的形式存在于网络中，向其他任何需要输入法新词信息的客户端程序提供词库更新服务。当然，并不需要一定通过固定服务器的形式出现，也可以存在于某个本地计算设备中，通过P2P(点对点)技术向其他终端的任何需要输入法新词信息的客户端程序提供词库更新服务。

上述更新的实施例中，所述更新的方式可以为：当输入法系统更新时，同时更新所述系统词库；或者，由服务器主动推送的方式进行系统词库的在线更新；或者，由用户发起请求，服务器根据请求返回数据进行系统词库的更新。当然，也可以采用移动存储器更新的方式或者版本更新的方式。总之，可以采用各种数据更新的方式，本发明对此并不加以限定，本领域技术人员可以根据需要选择即可。

再例如，用于更新网络输入法：设置输入法系统中用于接收用户输入信息和显示相应字符的单元位于第一计算设备中；得到的新词库或者新版的全词库为输入法系统的系统词库，所述系统词库位于第二计算设备中；所述输入法系统根据用户输入的信息，从位于第二计算设备中的系统词库获取相应信息，在第一计算设备显示相应字符，完成文字输入。

上例中可以直接将根据本发明获得的新词库或者新版的全词库直接作为输入法系统的系统词库，则可以实现在线词库使用，而不需要更新操作了。其中，将输入法系统分为了两部分，接收和显示单元位于第一计算设备，词库信息则位于第二计算设备，可以完美的实现输入法的在线应用；当然，对于输入法系统需要的编码匹配过程可以根据需要任意设置在某个计算设备中均可。

参照图2，为本发明另一种获取输入法字词的新编码字符串的方法的步骤流程图，包括以下步骤：

步骤201、提取用户在输入过程中所选择的字词，以及用户输入的编码字符串，并存储至用户词库；

步骤202、收集各个用户的用户词库；

步骤203、对比所述收集的用户词库和输入法系统词库，所述系统词库中存储有字词及其相应的编码字符串；

步骤204、根据预置规则，确定字词相应的新编码字符串。

如果用户所选字词在系统词库中存在，但是用户输入的编码字符串与系统词库中存储的该字词相应的编码字符串不同，则确定用户输入的编码字符串为该字词相应的新编码字符串。

或者所述预置的规则也可以为：如果用户所选字词及用户输入的编码字符串在现有词库中都存在，则进一步比较该字词相应的编码字符串的用户累积词频和系统词频，所述系统词频为在现有词库中预置的现有字词相应的词频信息，如果用户累积词频与系统词频的比值大于或者等于预定阈值，则确定用户输入的编码字符串为该字词相应的新编码字符串。

本领域技术人员也可以将上述的预置规则进行结合而加以使用，也可以根据需要自行设定规则，本发明并不加以限定。

图2所示实施例与图1所示实施例的构思基本相似，主要区别在于，先收集多个用户的用户词库，再统一进行比对，根据比对结果获取用户的新编码字符串；该方式可以减少比对计算的次数，并可以减少本地输入法系统的负担，可以直接用于现有的输入法系统，但是由于汇集了大量用户所选字词之后才进行比对，会增加服务器的系统负担。对于二者，本领域技术人员根据需要选择使用即可。

优选的，图2所示的实施例还可以包括过滤步骤：其中，所述用户词库中还包括用户词频，所述用户词频为用户所输入的编码字符串相应的频率信息；计算编码字符串相应的用户累积词频；去除用户累积词频小于或者等于预置阈值的编码字符串。

优选的，图2所示的实施例还可以包括词频赋予步骤：统计具有新编码字符串的字词在预置的互联网页面数据库中出现的次数，得到互联网词频；比较该字词的新编码字符串的用户累积词频与原编码字符串的用户累积词频，根据比较结果，分配其互联网词频至该字词的两个或者多个相应编码字符串。

参照图3，为本发明一种输入法系统的结构框图，包括输入接口单元301、显示单元302以及系统词库303，其特征在于，还包括：

字词提取单元304，与输入法系统相连，用于在用户输入过程中，提取用户选择的字词，以及用户输入的编码字符串；

字词比对单元305，与字词提取单元304相连，用于将用户所选字词、用户输入的编码字符串与系统词库进行比对，所述系统词库中存储有字词及其相应的编码字符串；根据预置规则，确定字词相应的新编码字符串。

所述预置规则可以为：如果用户所选字词在系统词库中存在，但是用户输入的编码字符串与系统词库中存储的该字词相应的编码字符串不同，则确定用户输入的编码字符串为该字词相应的新编码字符串。

即上述输入法系统除了用于普通的字词输入，还可以用于提取用户的新编码字符串。上述输入法系统可以为普通输入法系统，例如，所述输入法系统的输入接口单元301、显示单元302以及系统词库303位于同一计算设备中，该输入法系统根据用户输入的编码信息通过本地查询匹配在本地显示相应字符。上述输入法系统也可以为网络输入法系统，例如，所述输入法系统的输入接口单元301、显示单元302位于第一计算设备中，系统词库303位于第二计算设备中，所述输入法系统根据用户输入的信息，从位于第二计算设备中获取相应信息，在第一计算设备显示相应字符。

为了能够将提取的该用户的新编码字符串发送至收集设备，进而得到具有普遍意义上的新编码字符串，则所述输入法系统优选的，还包括：通信单元306，用于实时或者定时的发送具有新编码字符串的字词记录，所述字词记录包括该字词以及其相应的新编码字符串。

为了可以通过用户词频对各用户的新编码字符串进行过滤，得到客观正确的结果，则所述输入法系统优选的，还包括：词频记录单元307，与输入法系统相连，用于在用户输入过程中，记录用户词频，所述用户词频为该用户所输入的编码字符串相应的频率信息；用户词库308，用于存储用户所选字词、用户输入的编码字符串及其相应的用户词频。

上述的输入法系统中的输入接口单元301最重要的是可以用于提供使用者进行信息输入、字词选取的动作；还可以用于进行各种模式的切换工作，例如：输入语言的切换(如：简体繁体、中文英文的切换)、输入模式的切换(如：单字输入、词输入、句子输入的切换)、输入状态的切换(如：文字、标点符号、特殊符号的切换)等等。显示单元302以及系统词库303都为本领域技术人员所熟知之信息，在此不再详述。

图3所示的输入法系统，还可以包括：应用程序判断单元309，用于判断用户输入的当前应用程序，并将判断结果发送至词频记录单元307；所述词频记录单元307，用于在用户输入过程中，根据用户输入的当前应用程序，分别统计词频信息，并做相应的权重修正，形成用户词频。

即该输入法系统可以根据用户输入的当前应用程序，而分别加以相应的权重赋值后统计词频，例如，由于本发明优选的可以统计得到互联网词频，故考虑到用户在word中输入的内容难以在互联网中出现，则可以赋予较高的权重值；而用户在网络社区论坛输入的字词，因为可以从互联网统计出来，则可以赋予相对较低的权重值。

参照图4，是本发明一种词库生成装置的结构框图，包括以下部件：

收集单元401，用于收集各个用户的具有新编码字符串的字词记录，所述字词记录包括该字词以及其相应的新编码字符串。

所述词库生成装置可以采用服务器实现，所述收集可以采用前述的各种方式实现。所述用户的具有新编码字符串的字词记录可以通过输入法获取，自动发送至收集单元401；也可以由用户自行设定或者整理，发送至收集单元401；或者各用户将其具有新编码字符串的字词记录汇集至一固定的网络空间，所述收集单元401从该网络空间中获取各个用户的具有新编码字符串的字词记录。即本实施例中的用户具有新编码字符串的字词记录并不一定是通过用户输入行为获取的，也可以是用户自行设定或者整理的。

第一过滤单元402，用于去除重复的字词记录；

词库生成单元403，用于根据过滤后的字词记录生成新词库或者将过滤后的字词记录添加至原有词库，得到新词库或者新版的全词库。

为了去除使用频率较低的编码字符串，得到客观正确的结果，则所述词库生成装置优选的，还包括：所述收集单元401还用于收集用户输入行为中的用户词频，所述用户词频为该用户所输入的编码字符串相应的频率信息；累积词频计算单元404，用于计算编码字符串相应的用户累积词频；第二过滤单元405，用于去除用户累积词频小于或者等于预置阈值的编码字符串。其中，对用户词频的统计，优选的，还可以根据用户输入的当前应用程序，而分别加以相应的权重赋值后统计词频。

为了赋予上述新编码字符串相应的、比较精确的词频信息，则所述词库生成装置优选的，还包括：

互联网页面数据库生成单元406，用于对互联网页面进行权重赋值；并将权重值大于或者等于预置阈值的互联网页面存储至互联网页面数据库。

统计单元407，用于统计过滤后的字词记录中的字词在预置的互联网页面数据库中出现的次数，得到互联网词频。

词频分配单元408：用于比较该字词的新编码字符串的用户累积词频与原编码字符串的用户累积词频，根据比较结果，分配其互联网词频至该字词的两个或者多个相应编码字符串。其中，所述的原编码字符串对应的用户累积词频可以通过其他途径获得，或者在收集单元401中，可以同时收集该字词的原编码字符串以及其对应的用户词频信息，对各个用户的用户词频进行计算得到用户累积词频。

参照图5，本发明还提供了一种词库生成装置，包括以下部件：

收集单元501，用于收集各用户的输入行为信息，所述输入行为信息包括用户选择的字词，用户输入的编码字符串以及相应的用户词频，所述用户词频为用户输入该字词及其相应编码字符串的频率信息；

累积词频计算单元502，对字词与编码字符串整体相应的各用户词频进行权重修正，计算该字词与编码字符串整体用户累积词频；

词库生成单元503，所述词库包括字词、编码字符串及其相应的词频信息。

图5所示的词库生成装置还可以包括：比对单元504，用于对比所述生成的词库和现有词库，所述现有词库中存储有字词、编码字符串及其相应的系统词频；新编码字符串确定单元505，用于根据预置规则，确定字词相应的新编码字符串。则所述词库生成装置可以实现新编码字符串的获取。

所述词库生成装置优选的，还包括：过滤单元506，用于去除用户累积词频小于或者等于预置阈值的编码字符串。

统计单元507，统计具有新编码字符串的字词在预置的互联网页面数据库中出现的次数，得到互联网词频。所述互联网页面数据库通过对互联网页面进行权重赋值；并将权重值大于或者等于预置阈值的互联网页面存储而形成互联网页面数据库。

词频分配单元508：用于比较该字词的新编码字符串的用户累积词频与原编码字符串的用户累积词频，根据比较结果，分配其互联网词频至该字词的两个或者多个相应编码字符串。

参照图6，示出了另一种词库生成装置，包括以下部件：

收集单元601，用于收集各用户的输入行为信息，所述输入行为信息包括用户选择的字词，用户输入的编码字符串以及相应的用户词频，所述用户词频为用户输入该字词及其相应编码字符串的频率信息；

累积词频计算单元602，对字词与编码字符串整体相应的各用户词频进行权重修正，计算该字词与编码字符串整体用户累积词频；

词库生成单元603，所述词库包括字词、编码字符串及其相应的词频信息。

比对单元604，用于对比所述生成的词库和现有词库，所述现有词库中存储有字词、编码字符串及其相应的系统词频；

过期字词确定单元605，用于确定过期字词，所述过期字词为在所述生成的词库中不存在，但是在现有词库中存在的字词；或者在所述生成的词库中用户累积词频符合预置条件的字词。例如，用户累积词频小于或者等于预定阈值。

图6所示装置得到过期字词之后，就可以根据这些过期字词对现有词库进行精简，以防止现有词库越来越大的问题出现，例如，从现有词库中过滤、删除所述过期字词，从而缩减词库容量，提高词库利用率，提高输入效率。

由于本发明篇幅有限，在方法的描述部分较为详细，系统部分的描述未详尽之处。请参见前述相关部分。

以上对本发明所提供的一种获取输入法字词的新编码字符串的方法、一种输入法系统以及一种词库生成装置，进行了详细介绍，本文中应用了具体个例对本发明的原理及实施方式进行了阐述，以上实施例的说明只是用于帮助理解本发明的方法及其核心思想；同时，对于本领域的一般技术人员，依据本发明的思想，在具体实施方式及应用范围上均会有改变之处，综上所述，本说明书内容不应理解为对本发明的限制。

Claims

1、一种获取输入法字词的新编码字符串的方法，其特征在于，包括：

提取用户在输入过程中所选择的字词，以及用户输入的编码字符串；

将用户所选字词、用户输入的编码字符串与现有词库进行比对，所述现有词库中存储有现有字词及其相应的编码字符串；

根据预置规则，确定字词相应的新编码字符串。

2、如权利要求1所述的方法，其特征在于，还包括：

将用户所选字词、用户输入的编码字符串记录至用户词库；

并在用户输入过程中，记录用户词频至用户词库，所述用户词频为用户输入该字词及其相应编码字符串的频率信息。

3、如权利要求2所述的方法，其特征在于，还包括：

根据用户输入的当前应用程序，分别加以相应的权重修正后统计词频信息，得到用户词频。

4、如权利要求2所述的方法，其特征在于，还包括：

收集各个用户的具有新编码字符串的字词记录，所述记录包括该字词、相应的新编码字符串以及相应的词频信息；

去除重复的字词记录。

5、如权利要求4所述的方法，其特征在于，还包括：

计算用户累积词频；

去除用户累积词频小于或者等于预置阈值的编码字符串。

6、如权利要求4或5所述的方法，其特征在于，还包括：

统计过滤后的字词记录中的字词在预置的互联网页面数据库中出现的次数，得到互联网词频。

7、如权利要求6所述的方法，其特征在于，还包括：

比较该字词的新编码字符串的用户累积词频与原编码字符串的用户累积词频，根据比较结果，分配其互联网词频至该字词的两个或者多个相应编码字符串。

8、如权利要求7所述的方法，其特征在于，还包括：

根据过滤后的字词记录生成新词库或者将过滤后的字词记录添加至原有词库，得到新词库或者新版的全词库。

9、如权利要求8所述的方法，其特征在于，

所述收集的信息还包括用户所在的区域信息，将用户划分为若干区域；

针对每个区域进行过滤步骤；

针对每个区域生成区域新词库或者新版的区域全词库。

10、如权利要求6所述的方法，其特征在于，通过以下步骤获得预置的互联网页面数据库：

对互联网页面进行权重赋值；

将权重值大于或者等于预置阈值的互联网页面存储至互联网页面数据库。

11、如权利要求4所述的方法，其特征在于，所述收集为：输入法计算设备实时或者定时的将用户的具有新编码字符串的字词记录发送至收集计算设备。

12、一种获取输入法字词的新编码字符串的方法，其特征在于，包括：

提取用户在输入过程中所选择的字词，以及用户输入的编码字符串，并存储至用户词库；

收集各个用户的用户词库；

对比所述收集的用户词库和输入法现有词库，所述系统词库中存储有字词及其相应的编码字符串；

根据预置规则，确定字词相应的新编码字符串。

13、如权利要求12所述的方法，其特征在于，还包括：

所述用户词库中还包括用户词频，所述用户词频为用户输入该字词及其相应编码字符串的频率信息；

计算用户累积词频；

去除用户累积词频小于或者等于预置阈值的编码字符串。

14、如权利要求13所述的方法，其特征在于，所述预置的规则为：

15、如权利要求12或者14所述的方法，其特征在于，还包括：

统计具有新编码字符串的字词在预置的互联网页面数据库中出现的次数，得到互联网词频。

16、如权利要求15所述的方法，其特征在于，还包括：

17、一种输入法系统，包括输入接口单元、显示单元以及系统词库，其特征在于，还包括：

字词提取单元，与输入法系统相连，用于提取用户在输入过程中所选择的字词，以及用户输入的编码字符串；

字词比对单元，与字词提取单元相连，用于将用户所选字词、用户输入的编码字符串与系统词库进行比对，所述系统词库中存储有字词及其相应的编码字符串；根据预置规则，确定字词相应的新编码字符串。

18、如权利要求17所述的输入法系统，其特征在于，

所述输入法系统的输入接口单元、显示单元以及系统词库位于同一计算设备中；

或者所述输入法系统的输入接口单元、显示单元位于第一计算设备中，系统词库位于第二计算设备中，所述输入法系统根据用户输入的信息，从位于第二计算设备中获取相应信息，在第一计算设备显示相应字符。

19、如权利要求17所述的输入法系统，其特征在于，还包括：

通信单元，用于实时或者定时的发送具有新编码字符串的字词记录，所述字词记录包括该字词以及其相应的新编码字符串。

20、如权利要求17所述的输入法系统，其特征在于，还包括：

词频记录单元，与输入法系统相连，用于在用户输入过程中，记录用户词频，所述用户词频为用户输入该字词及其相应编码字符串的频率信息；

用户词库，用于存储用户所选字词、用户输入的编码字符串及其相应的用户词频。

21、如权利要求17所述的输入法系统，其特征在于，还包括：

应用程序判断单元，用于判断用户输入的当前应用程序，并将判断结果发送至词频记录单元；

词频记录单元，与输入法系统相连，用于在用户输入过程中，根据用户输入的当前应用程序，分别加以相应的权重修正后统计词频信息，得到用户词频。

22、一种词库生成装置，其特征在于，包括：

字词收集单元，用于收集各个用户的具有新编码字符串的字词记录，所述字词记录包括该字词以及其相应的新编码字符串；

第一过滤单元，用于去除重复的字词记录；

词库生成单元，用于根据过滤后的字词记录生成新词库或者将过滤后的字词记录添加至原有词库，得到新词库或者新版的全词库。

23、如权利要求22所述的装置，其特征在于，还包括：

词频收集单元，用于收集用户输入行为中的用户词频，所述用户词频为用户输入该字词及其相应编码字符串的频率信息；

累积词频计算单元，用于计算用户累积词频；

第二过滤单元，用于去除用户累积词频小于或者等于预置阈值的编码字符串。

24、如权利要求22或者23所述的装置，其特征在于，还包括：

统计单元，用于统计过滤后的字词记录中的字词在预置的互联网页面数据库中出现的次数，得到互联网词频。

25、如权利要求22所述的装置，其特征在于，还包括：

词频分配单元：用于比较该字词的新编码字符串的用户累积词频与原编码字符串的用户累积词频，根据比较结果，分配其互联网词频至该字词的两个或者多个相应编码字符串。

26、一种词库生成装置，其特征在于，包括：

27、如权利要求26所述的装置，其特征在于，还包括：

比对单元，用于对比所述生成的词库和现有词库，所述现有词库中存储有字词、编码字符串及其相应的系统词频；

确定单元，用于根据预置规则，确定字词相应的新编码字符串。

28、如权利要求27所述的装置，其特征在于，还包括：

过滤单元，用于去除用户累积词频小于或者等于预置阈值的编码字符串。

29、如权利要求27或28所述的装置，其特征在于，还包括：

统计单元，统计具有新编码字符串的字词在预置的互联网页面数据库中出现的次数，得到互联网词频；

30、如权利要求26所述的装置，其特征在于，还包括：

确定单元，用于确定过期字词；所述过期字词为在所述生成的词库中不存在，但是在现有词库中存在的字词，或者所述过期字词为在所述生成的词库中用户累积词频符合预置条件的字词。