CN101611417A

CN101611417A - 用于字符识别的方法

Info

Publication number: CN101611417A
Application number: CNA200780048950XA
Authority: CN
Inventors: J·施特恩比
Original assignee: Zi Decuma AB
Current assignee: Zi Decuma AB
Priority date: 2006-12-01
Filing date: 2007-11-19
Publication date: 2009-12-23
Anticipated expiration: 2027-11-19
Also published as: TW200832239A; EP2097853A1; WO2008066441A1; US20080130996A1; CN101611417B; EP2097853A4; US8180160B2

Abstract

本发明一般地描述了一种用于将手写线条的线条片段分类成参考特征集合的方法，其中所述手写线条包括表示多个符号的一个或若干个曲线。首先，接收表示所述手写线条的样本数据。接着，通过检测样本线条片段开始点(SLSSP)和样本线条片段终止点(SLSEP)，在所述接收的样本数据中识别样本线条片段。然后，确定所述识别的样本线条片段的样本特征集合。最后，将所述确定的样本特征集合与多个参考特征集合中的一个参考特征集合进行匹配。

Description

用于字符识别的方法

技术领域

本发明涉及一种用于将手写线条的线条片段分类成参考特征集合的方法，以及所述方法的模块、装置和计算机程序。

背景技术

现今，手写正在成为用于将数据输入到数据处理单元(特别是到移动电话和个人数字助理(PDA))的一种越来越流行的方法。为了处理输入数据，必须识别和解释手写。用于识别手写的大多数现有方法需要有待输入的字符被逐个写出，并被独立地识别。这种方法的示例在US 4,731,857中提供，不过最著名的示例是由Palm公司制造的

为了加速对数据的输入，希望允许草书体手写。现今，存在允许草书体手写的多种商用系统。由于对草书体手写的识别与对独立字符的识别相比而言要复杂得多，所以现今的大多数商用系统使用复杂的统计系统，所述统计系统使用具有集成字典的隐式马可夫模型和神经网络。

然而，上述系统的缺点之一在于，它们需要较高的计算性能。另外，所述系统需要大量训练集合，并且高度依赖于所使用的字典。

发明内容

考虑到上述内容，本发明的目的在于，解决或者至少减少以上讨论的问题。具体而言，目的在于，使得对表示一个或若干个符号的手写线条的解释更加有效。

根据本发明的第一方面，通过一种用于将手写线条的线条片段分类成参考特征集合的方法提供了上述目的，其中所述手写线条包括表示多个符号的一个或若干个曲线，所述方法包括：

接收表示所述手写线条的样本数据；

通过检测样本线条片段开始点(SLSSP)和样本线条片段终止点(SLSEP)，在所述所接收的样本数据中识别样本线条片段；

确定所述识别的样本线条片段的样本特征集合；以及

将所述确定的样本特征集合匹配到多个参考特征集合中的参考特征集合。

此方法的优点在于，样本特征集合可以包含少量数据，这样从存储器使用的角度看来是高效的。

另外，由于多个参考特征集合之间的相似性，这些参考特征集合可以被存储在数据库中，这样从存储器使用的角度看来是高效的。

另一优点在于，相对少量的特征被包括在所述样本特征集合中。这意味着，几乎没有参数被牵扯到匹配过程中，这样随即意味着，匹配过程可以变得快速而高效。

所述方法的接收、识别、确定、匹配和分配的步骤可以被连续地执行。

另外，多个参考特征集合可以被预定。

根据第一方面的所述方法对所述样本特征集合的所述确定可以进一步包括：

确定所述SLSSP和所述SLSEP之间的长度；以及

将所述长度关联于所述样本特征集合。

通过考虑之前确定的长度，生成所述长度的规格化(normalized)长度。

确定所述SLSSP中所述线条片段的斜度和与所述SLSSP和所述SLSEP相交的、对于片段特定的参考线条之间的第一角度；以及

将所述第一角度关联于所述样本特征集合。

确定所述SLSEP中所述线条片段的斜度和与所述SLSSP和所述SLSEP相交的、对于片段特定的参考线条之间的第二角度；以及

将所述第二角度关联于所述样本特征集合。

确定与所述SLSSP和所述SLSEP相交的、对于片段特定的参考线条和对应于书写方向的参考线条之间的一般角；以及

将所述一般角关联于所述样本特征集合。

确定匹配于所述线条片段的类型曲线；以及

将所述类型曲线关联于所述样本特征集合。

所述参考特征集合可以包括针对每个特征的最小值和最大值。

所述样本数据可以包括坐标数据。

根据本发明的第二方面，通过一种用于将手写线条的线条片段分类成参考线条片段集合的一个参考线条片段的模块提供了上述目的，其中所述手写线条包括表示多个符号的一个或若干个曲线，所述模块包括：

接收器，被配置用于接收表示所述手写线条的数据；

识别器，被配置用于通过检测样本线条片段开始点(SLSSP)和样本线条片段终止点(SLSEP)，在所述接收的数据中识别样本线条片段；

确定器，被配置用于确定所述识别的样本线条片段的样本特征集合；

匹配器，被配置用于将所述确定的样本特征集合匹配到多个参考特征集合中的参考特征集合；以及

发送器，被配置用于输出所述匹配参考特征集合。

本发明的第一方面的优点同样适用于本发明的该第二方面。

根据第二方面的模块的所述确定器可以进一步包括：

长度确定器，被配置用于确定所述SLSSP和所述SLSEP之间的长度；以及

关联器，被配置用于将所述确定的长度关联于所述样本特征集合。

根据第二方面的所述模块的所述确定器可以进一步包括：

存储介质，包括多个之前确定的长度；

长度变换器，被配置用于通过考虑在所述存储介质中包括的所述之前确定的长度，将所述长度规格化为规格化长度；以及

关联器，被配置用于将所述确定的规格化长度关联于所述样本特征集合。

根据第二方面的所述模块的所述确定器可以进一步包括：

角度确定器，被配置用于确定所述线条片段和与所述SLSSP和所述SLSEP相交的参考线条之间的角度；以及

关联器，被配置用于将所述确定的角度关联于所述样本特征集合。

所述角度确定器可以被配置用于确定第一角度和/或第二角度。

根据第二方面的所述模块的所述确定器可以进一步包括：

一般角确定器，被配置用于确定与所述SLSSP和所述SLSEP相交的、对于片段特定的参考线条和对应于书写方向的参考线条之间的一般角；以及

关联器，被配置用于将所述确定的一般角关联于所述样本特征集合。

根据第二方面的所述模块的所述确定器可以进一步包括：

类型曲线确定器，被配置用于确定匹配于所述线条片段的类型曲线；以及

关联器，被配置用于将所述确定的类型曲线关联于所述样本特征集合。

根据本发明的第三方面，通过一种装置提供了上述目的，所述装置包括：

笔移动捕获设备，被配置用于接收表示手写线条的数据；

如上所述的模块，被配置用于从所述触摸感应区域接收所述数据，并输出参考特征集合；

符号匹配器，被配置用于将所述参考特征集合匹配到对应于符号的符号集合；以及

显示器，被配置用于呈现所述符号。

本发明的第一方面的优点同样适用于本发明的该第三方面。

所述笔移动捕获设备可以是所述装置的触摸感应区域，在此情形中，所述装置的触摸感应区域可以与所述装置的显示器相结合。

所述装置可以进一步包括：

符号集合数据库，包括多个参考线条片段组合及其相关联的符号集合。

根据本发明的第四方面，通过一种计算机程序提供了上述目的，所述计算机程序被安排用于：当被下载到计算设备中并在其上运行时，执行根据本发明的第一方面所述的任一方法。

通过以下的详细公开，通过所附的从属权利要求以及通过附图，本发明的其它目的、特征和优点将很明显。

一般而言，在权利要求中使用的所有术语将根据其在技术领域中的通常意思来进行解释，除非在此明确地进行了另外的限定。对于“一个/一/所述[单元、设备、组件、装置、步骤等等]”的所有引用应被开放地解释为是指所述单元、设备、组件、装置、步骤等等的至少一个实例，除非明确地进行了另外的阐述。此处所公开的任一方法的步骤不是必须以所公开的确切顺序来执行，除非明确地进行了阐述。

附图说明

通过以下对于本发明的优选实施例的示意性和非限制性的详细描述，并结合附图，本发明的上述和附加的目的、特征和优点将被更好地理解，在附图中，相同的标号将被用于类似的单元，其中：

图1一般地示出了本发明的一般原理的第一部分，即，从输入样本数据中生成样本特征集合。

图2更详细地示出了从样本数据中生成样本线条片段。

图3一般地示出了本发明的一般原理的第二部分，即，将样本特征集合与参考特征集合进行匹配。

图4一般地示出了从多个参考特征集合中生成符号集合。

图5一般地示出了样本线条片段以及相关联的样本特征的示例。

图6示出了表示多个符号的手写线条的示例。

图7示出了图6所举例的手写线条，具有指示出的分段点(示为1至27)。

图8示出了用于解释根据图7举例的手写线条的分段点的上述一般原理。

图9是根据本发明的方法的流程图。

图10示意性地示出了根据本发明的模块。

图11示意性地示出了根据本发明的装置。

具体实施方式

图1示出了本发明的一般原理的第一部分，即，从输入样本数据100中生成样本特征集合108。

样本数据100可以是任意类型的数字数据，其表示形成一个或若干个符号的手写线条。例如，样本数据100可以是经由PDA或移动电话的触摸屏输入的连续坐标数据。

样本数据100可以被输入到样本线条片段识别器102，其中样本线条片段104可以基于样本数据100被生成。样本线条片段识别器102在图2中进一步示出，并且其原理的示例在图6-8中示出。

进一步地，样本线条片段104可以被输入到特征提取器106，其中样本线条片段的多个特征被提取。例如，所述特征可以是长度、多个角度、以及表示样本线条片段的形状的类型曲线(type curve)。这些特征在图5中进一步示出。在下文中，样本线条片段的特征被称为样本特征集合108。

在图2中，更详细地示出了从样本数据100中生成样本线条片段104。

样本数据100可以被输入到分段点检测器200。在分段点检测器200中，可以检测样本线条片段开始点(SLSSP)202和样本线条片段终止点(SLSEP)204。SLSSP 202指示出线条片段的开始，SLSEP 204指示出线条片段的终止。

分段点检测器200可以被配置用于检测样本数据100在与主要书写方向(在图5中示为x)正交的方向(在图5中示为y)上的极值点。

如果所检测的线条片段倾向于为连续的，则SLSSP 202可以是先前检测的样本线条片段的SLSEP 204。以此方式，仅仅有待检测当前样本线条片段的SLSEP 204。

另外，当检测样本数据100的第一线条片段时，首先接收的坐标数据可以被设置为SLSSP 202。类似地，当检测样本数据100的最后线条片段时，最后接收的坐标数据可以被设置为SLSEP 204。

通过将样本数据100、SLSSP 202和SLSEP 204输入到样本线条片段生成器206，可以生成样本线条片段104。

图3一般地示出了本发明的一般原理的第二部分，即，将样本特征集合108与参考特征集合304进行匹配。

更详细地，样本特征集合108可以被输入到匹配器300。

其次，匹配器将输入的样本特征集合108与在参考特征集合数据库302中包括的多个参考特征集合进行比较。

第三，当找到匹配的参考特征集合时，此匹配的参考特征集合304从匹配器300被输出。

由于在参考特征集合304中包括的每个参考特征通过数据库302已知，因此参考特征集合可以仅由一组参考标号来表示，这样意味着高效的存储器使用。

对参考特征集合的生成可以持续依次地执行，即，一旦用户输入新的样本数据时，样本数据就可以被传输到样本线条片段识别器102，其中一旦检测到SLSSP 202和SLSEP 204，就生成样本线条片段104，依此类推。

概括而言，样本线条片段104通过在所述样本数据100中识别SLSSP202和SLSEP 204而生成，如图1和2所示。接着，针对样本线条片段104确定样本特征集合108，如图1所示。然后，确定对应于样本特征集合108的参考特征集合304，如图3所示。

用参考特征集合304来替换样本特征集合108的优点在于，进一步的处理(诸如确定多个线条片段所对应的最佳符号匹配)可以更高效地完成，因为多个计算结果可以被预先计算并存储在查找表中。

图4一般地示出了从多个参考特征集合400中生成符号集合406。

一般而言，在已经确定了多个参考特征集合400之后，这些参考特征集合400可以被用于找到最佳匹配符号集合406。符号集合406包括多个特征参考集合，其具有到特征集合400的最小特征距离。

更详细地，多个参考特征集合400被输入到符号匹配器404，其可以连接于符号集合数据库402。如果在符号数据库402中找到的、相对于参考特征集合400的最佳匹配参考特征集合对应于符号集合406，则该特定符号从符号匹配器404中被输出。

可选地，符号匹配器404可以被设置为检测某组的符号，诸如希腊字母。通过设置此符号组，可以提高符号匹配器的精确度。

可选地，字典(未示出)可以关联于符号匹配器404。这可以进一步提高符号匹配器404的功能。

取代于照此处理样本线条片段，可以确定描述样本线条片段的多个特征。例如，所述特征可以是长度λ、第一角度α^-、第二角度α⁺、一般角d、以及类型曲线。

长度λ可以被确定为线条片段的SLSSP和SLSEP之间的距离。

第一角度α^-可以被确定为所述SLSSP中所述线条片段的斜度与对于片段特定的参考线条x’之间的角度，其中对于片段特定的参考线条x’对应于与SLSSP和SLSEP相交的线条。

第二角度α⁺可以被确定为所述SLSEP中所述线条片段的斜度与对于片段特定的参考线条x’之间的角度。

一般角d可以被确定为对于片段特定的参考线条x’与对应于主要书写方向的参考线条x之间的角度。

线条片段的形状可以关联于类型曲线。通过首先计算当前线条片段与数据库中多个预定的类型曲线之间的多个类型曲线距离，可以实现此关联。然后，数据库中给出最小的类型曲线距离(即，最接近匹配)的类型曲线被选择作为当前线条片段的类型曲线。

由于类型曲线可以被包括在数据库中，类型曲线可以通过仅使用参考数字来表示，这样意味着更好的存储器使用。

图6示出了表示多个符号的手写线条的示例。在此示例中，多个符号由六个字母组成：“d”、“e”、“c”、“u”、“m”和“a”。

图7示出了图6所举例的手写线条，其具有指示出的分段点(示为1至27)。分段点可以被连续地检测，即，当用户书写时，检测分段点。以此方式，手写线条的分段点以与它们被用户输入的相同顺序被定位。

被示为1的首先检测到的分段点可以被检测作为由用户做出的手写线条的第一输入。类似地，被示为27的最后检测到的分段点可以被检测作为由用户做出的手写线条的最后输入。

被示为2-26的其余居中分段点可以是保留了所述手写线条的方向改变信息的点。例如，在分段点2中，手写线条的方向从向下改变为向上。

另外，所述手写线条在与主要书写方向正交的方向上的局部极值点也可以被设置作为分段点。

可以设置这样的条件，其规定在每对局部极值点之间呈现特定数量的分段点，例如一至三个。

另外，这样的点可以被设置作为分段点，其中手写线条的导数的绝对值超出了阈值。

而且，这样的点可以被设置作为分段点，其中在两个相邻分段点之间手写线条与直线的偏差超出了阈值。

对于分段点的确定可以包括以上给出的选择准则的任意结合。

图8示出了用于解释根据图6举例的手写线条的分段点的上述一般原理。

在第一步骤中，基于分段点1-27，生成多个样本线条片段A-Z。通过将分段点1设置为SLSSP以及将分段点2设置为SLSEP，生成第一样本线条片段A，通过将分段点2设置为SLSSP以及将分段点3设置为SLSEP，生成第二样本线条片段B，依此类推。

在第二步骤中，针对样本线条片段A-Z中的每个，确定样本特征集合SF-A-SF-Z。所述样本特征集合SF-A-SF-Z可以包括长度、多个角度、以及表示样本线条片段的形状的类型曲线。这些特征在图5中进一步示出。

在第三步骤中，针对样本特征集合中的每个，确定参考特征集合。可以通过将所确定的样本特征集合中的每个匹配到参考特征集合的数据库来执行上述步骤。样本特征集合之一与参考特征集合之一的关联可以被视为将所输入的线条片段与多个预定的线条片段模板之一联系起来的一种方式。

对于不同设备而言，参考特征集合的数量可以不同。例如，具有大型存储器和较高的计算性能的设备可以包括大量的参考特征集合，而具有小型存储器和较低的计算性能的设备可以包括少量的参考特征集合。

另外，参考特征集合的数量还可以取决于将识别的符号。例如，如果少量符号有待识别，则可以使用少量的参考特征集合，而在相反情况下，如果大量符号有待识别，则可以使用大量的参考特征集合。

而且，参考特征集合的类型还可以取决于符号的特性。例如，如果有待识别的语言的多个符号包括类似的线条片段，则可以添加对应于这些类似的线条片段的多个参考特征集合。通过添加此数量的参考特征集合，可以更容易地区分这些类似的线条片段，从而可以更精确地完成对符号的识别。

在第四步骤中，确定包括多个参考特征集合的多个符号集合SS1-SS6，其中所述符号集合SS1-SS6中的每个表示一个符号。

为了确定符号集合，可以利用符号集合数据库。符号集合数据库可以包括参考集合及其相关的符号的多个组合。

例如，参考特征集合RF-A-RF-C可以被结合为符合集合SS1。此符号集合SS1可以随后借助于符号集合数据库被关联于符号“d”。类似地，包括参考特征集合RF-D-RF-F的符号集合SS2可以被关联于符号“e”，依此类推。

然而，并不是所有参考特征集合都必然地属于一个符号集合。例如，参考特征集合RF-G和RF-H对应于手写线条中将符号“e”与符号“c”相连接的线条片段。

为了检测到不属于符号集合的这种参考特征集合，可以研究符号的构成，例如，通过使用字典。此类研究还可以用于符号集合与符号的关联。

在图9中示出了根据本发明的方法。

在第一步骤900中，接收表示手写线条的样本数据。

在第二步骤902中，在所述手写线条中识别样本线条片段。

为了识别样本线条片段，可以执线条两个子步骤。在第一子步骤904中，检测样本线条片段开始点(SLSSP)，而在第二子步骤906中，检测样本线条片段终止点(SLSEP)。

在第三步骤908中，确定所述样本线条片段的样本特征集合。可选地，该第三步骤可以包括：子步骤910，确定SLSSP和SLSEP之间的长度；子步骤912，确定样本线条片段和与SLSSP和SLSEP相交的对于片段特定的参考线条x’之间的第一和/或第二角度；子步骤914，确定对于片段特定的参考线条x’和参考线条x之间的一般角，如图5所示；以及子步骤916，确定匹配样本线条片段的类型曲线。

最后，在第四步骤918中，可以将所述样本特征集合匹配到参考特征集合。

在图10中示出了根据本发明的模块1000。所述模块可以是软件实现的模块、硬件实现的模块、或者它们的组合，诸如ASIC。

由模块1000中包括的接收器1004接收表示手写线条的样本数据1002。所接收的样本数据随后被传输到识别器1006，其中样本线条片段如上所述被识别。

接着，样本线条片段被传输到确定器1008，其中可以确定多个样本特征。例如，所述特征可以是由长度确定器1010确定的长度。为了获得长度的相对值，可以与之前确定的长度进行比较。所述比较可以通过长度变换器1012关联于包括之前确定的长度的数据库1014来执行。另一所述特征可以是由角度确定器1016确定的角度，诸如第一和/或第二角度。又一所述特征可以是由一般角确定器1018确定的一般角。再一所述特征可以是由类型曲线确定器1020关联于包括参考类型曲线的数据库1022确定的类型曲线。

在确定器1008中确定的特征集合接着可以被传输到匹配器1024，匹配器1024关联于包括参考特征集合的数据库1026，可以找到针对所确定的样本特征集合的匹配参考特征集合1030。

最后，参考特征集合1030可以借助于发送器1028从所述模块被输出。

在图11中示出了根据本发明的装置1100。所述装置可以是通信终端，诸如PDA(“个人数字助理”)、移动电话、或任意其它数据处理设备。

装置1100可以包括笔移动捕获设备1102，诸如触摸感应区域，其被配置用于接收表示手写线条的样本数据。经由笔移动捕获设备1102接收的样本数据可以被传输到模块1000，如上所述。

从模块1000输出的参考特征集合可以被传输到符号匹配器1104，其与符号集合数据库1106相关联，可以被配置用于将多个输出的参考特征集合匹配到符号集合。

当已经找到符号集合时，相应的符号可以在显示器1108上显示给用户。

如果笔移动捕获设备被实现为触摸感应区域，则触摸感应区域可以与所述装置的显示器相结合。

进一步地，符号集合可以被传输到应用1110，诸如消息传送软件应用。

以上参考几个实施例主要描述了本发明。然而，如本领域技术人员易于了解的，落在本发明的范围内、与以上公开不同的其它实施例是同样可能的，本发明的范围由所附的专利权利要求所限定。

Claims

1.一种用于将手写线条的线条片段分类成参考特征集合的方法，其中所述手写线条包括表示多个符号的一个或若干个曲线，所述方法包括：

接收表示所述手写线条的样本数据；

通过检测样本线条片段开始点(SLSSP)和样本线条片段终止点(SLSEP)，在所述接收的样本数据中识别样本线条片段；

确定所述识别的样本线条片段的样本特征集合；以及

2.根据权利要求1所述的方法，其中所述接收、识别、确定、匹配和分配的步骤被连续地执行。

3.根据任一前述权利要求所述的方法，其中所述多个参考特征集合被预定。

4.根据任一前述权利要求所述的方法，其中对所述样本特征集合的所述确定进一步包括：

确定所述SLSSP和所述SLSEP之间的长度；以及

将所述长度关联于所述样本特征集合。

5.根据权利要求4所述的方法，其中对所述长度的所述确定进一步包括：

通过考虑之前确定的长度，生成所述长度的规格化长度。

6.根据任一前述权利要求所述的方法，其中对所述样本特征集合的所述确定进一步包括：

将所述第一角度关联于所述样本特征集合。

7.根据任一前述权利要求所述的方法，其中对所述样本特征集合的所述确定进一步包括：

将所述第二角度关联于所述样本特征集合。

8.根据任一前述权利要求所述的方法，其中对所述样本特征集合的所述确定进一步包括：

将所述一般角关联于所述样本特征集合。

9.根据任一前述权利要求所述的方法，其中对所述样本特征集合的所述确定进一步包括：

确定匹配于所述线条片段的类型曲线；以及

将所述类型曲线关联于所述样本特征集合。

10.根据任一前述权利要求所述的方法，其中所述参考特征集合包括针对每个特征的最小值和最大值。

11.根据任一前述权利要求所述的方法，其中所述样本数据包括坐标数据。

12.一种用于将手写线条的线条片段分类成参考线条片段集合中的一个参考线条片段的模块，其中所述手写线条包括表示多个符号的一个或若干个曲线，所述模块包括：

接收器，被配置用于接收表示所述手写线条的数据；

匹配器，被配置用于将所述确定的样本特征集合匹配到多个参考特征集合中的一个参考特征集合；以及

发送器，被配置用于输出所述匹配的参考特征集合。

13.根据权利要求12所述的模块，其中所述确定器进一步包括：

14.根据权利要求13所述的模块，其中所述确定器进一步包括：

存储介质，包括多个之前确定的长度；

15.根据权利要求12至14中任一项所述的模块，其中所述确定器进一步包括：

16.根据权利要求12至15中任一项所述的模块，其中所述确定器进一步包括：

17.根据权利要求12至16中任一项所述的模块，其中所述确定器进一步包括：

18.一种装置，包括：

笔移动捕获设备，被配置用于接收表示手写线条的数据；

根据权利要求11至17中任一项所述的模块，被配置用于从所述触摸感应区域接收所述数据，并输出参考特征集合；

符号匹配器，被配置用于将所述参考特征集合匹配到对应于一个符号的符号集合；以及

显示器，被配置用于呈现所述符号。

19.根据权利要求18所述的装置，其中所述笔移动捕获设备是触摸感应区域。

20.根据权利要求18或19中任一项所述的装置，进一步包括：

21.一种计算机程序，其被安排用于：当被下载到计算设备中并在其上运行时，执行根据权利要求1至11中任一项所述的任一方法。