CN103324925A - 用于获得用于手写字符识别的字符数据的方法和装置 - Google Patents
用于获得用于手写字符识别的字符数据的方法和装置 Download PDFInfo
- Publication number
- CN103324925A CN103324925A CN2012100780589A CN201210078058A CN103324925A CN 103324925 A CN103324925 A CN 103324925A CN 2012100780589 A CN2012100780589 A CN 2012100780589A CN 201210078058 A CN201210078058 A CN 201210078058A CN 103324925 A CN103324925 A CN 103324925A
- Authority
- CN
- China
- Prior art keywords
- character data
- data
- conversion
- curve
- curvilinear
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Pending
Links
- 238000000034 method Methods 0.000 title claims abstract description 92
- 230000009466 transformation Effects 0.000 claims abstract description 128
- 238000011426 transformation method Methods 0.000 claims abstract description 50
- 238000006243 chemical reaction Methods 0.000 claims description 119
- 230000008569 process Effects 0.000 claims description 24
- 230000002159 abnormal effect Effects 0.000 claims description 16
- 238000004364 calculation method Methods 0.000 claims description 6
- 238000013461 design Methods 0.000 claims description 6
- 230000000052 comparative effect Effects 0.000 claims description 3
- 238000007781 pre-processing Methods 0.000 abstract description 6
- 238000010586 diagram Methods 0.000 description 18
- 238000004422 calculation algorithm Methods 0.000 description 12
- 238000012545 processing Methods 0.000 description 11
- 238000005516 engineering process Methods 0.000 description 9
- 238000010606 normalization Methods 0.000 description 9
- 230000008859 change Effects 0.000 description 5
- 230000003750 conditioning effect Effects 0.000 description 4
- 238000011156 evaluation Methods 0.000 description 4
- 230000000694 effects Effects 0.000 description 3
- 238000000429 assembly Methods 0.000 description 2
- 230000000712 assembly Effects 0.000 description 2
- 230000008901 benefit Effects 0.000 description 2
- 230000004048 modification Effects 0.000 description 2
- 238000012986 modification Methods 0.000 description 2
- 230000002093 peripheral effect Effects 0.000 description 2
- 238000009987 spinning Methods 0.000 description 2
- 241001269238 Data Species 0.000 description 1
- 238000005352 clarification Methods 0.000 description 1
- 235000013399 edible fruits Nutrition 0.000 description 1
- 238000002474 experimental method Methods 0.000 description 1
- 239000004744 fabric Substances 0.000 description 1
- 230000006870 function Effects 0.000 description 1
- 238000005070 sampling Methods 0.000 description 1
Images
Landscapes
- Character Discrimination (AREA)
Abstract
本发明提供一种用于使用曲线变换方法获得用于手写字符识别的字符数据、使用获得的字符数据生成手写字符识别分类器的方法和装置。用于获得用于手写字符识别的字符数据的方法包括:获取步骤,获取至少一个原始手写字符数据;和曲线变换步骤,向获取的原始手写字符数据中的每一个应用至少一种曲线变换方法,并针对获取的原始手写字符数据中的每一个获得至少一个变换字符数据,作为用于手写字符识别的字符数据,其中,曲线变换步骤非线性变换原始手写字符数据的形状,而不破坏原始手写字符数据的结构,并且变换字符数据不能通过预处理方法被恢复到原始手写字符数据。
Description
技术领域
本发明一般涉及用于获得用于手写字符识别的字符数据的方法和装置。更具体地,本发明涉及一种使用曲线变换方法获得用于手写字符识别的字符数据的方法和装置。本发明还涉及一种用于使用获得的字符数据生成手写字符识别分类器的方法和装置。
背景技术
手写字符识别在很多领域得到广泛使用。迄今已经提出很多用于手写字符识别的技术。为了克服手写字符数据的数据量局限和提高手写字符识别系统对环境多样性(诸如不同的书写者和不同的书写风格)的鲁棒性,广泛采用用于生成人工手写字符数据的技术。
美国专利No.5903884使用改变长宽比的方法和旋转方法以变化字符轨迹的坐标。
美国专利No.7418128使用随机变形方法以变化字符轨迹的坐标。
在图1中,字符图像(a)是原始手写字符数据,字符图像(b)是在使用改变长宽比的方法时的变换字符数据,字符图像(c)是在使用旋转方法时的变换字符数据。可知,变换字符图像(b)通过执行诸如尺寸归一化算法的预处理算法容易被恢复到原始手写字符图像(a)。变换字符图像(c)通过执行诸如倾斜归一化算法的预处理算法容易被恢复到原始手写字符图像(a)。在传统的手写字符识别系统中尺寸归一化算法和倾斜归一化算法已经是普遍使用的。显然,如果结合上述的方法,变换的效果将失去。
在图1中,字符图像(d)和(e)示出在使用不同的随机变形方法时的变换字符数据。在没有参考字符图像(a)的情况下难以识别在字符图像(d)中的字符是什么。该方法未考虑手写字符数据的形状和沿着字符轨迹的相邻点之间的关系。这容易导致对手写字符数据的错误的变换或变形并且在使用较大的随机偏移时可能破坏手写字符数据的结构。实际上,书写者不可能写出这种字符。结合这种用于手写字符识别的字符不能显示任何效果。
发明内容
如上所述,本发明的发明者已经发现上述用于手写字符识别的已知典型技术不能有效克服手写字符数据的数据量局限。
根据已知典型技术,如果结合诸如尺寸归一化算法和倾斜归一化算法的预处理算法执行改变原始手写字符数据的长宽比或旋转原始手写字符数据的处理,则变换的效果将失去。此外,如果向原始手写字符数据应用随机变形的处理,则可能破坏原始手写字符数据的结构,使得难以识别处理字符。
为了解决上述技术问题中的至少一个,本发明提供一种用于获得用于手写字符识别的字符数据的方法,包括:获取步骤,获取至少一个原始手写字符数据;和曲线变换步骤,向获取的原始手写字符数据中的每一个应用至少一种曲线变换方法,并针对获取的原始手写字符数据中的每一个获得至少一个变换字符数据,作为用于手写字符识别的字符数据,其中,曲线变换步骤非线性变换原始手写字符数据的形状,而不破坏原始手写字符数据的结构,并且变换字符数据不能通过预处理方法被恢复到原始手写字符数据。
另外,为了解决上述技术问题中的至少一个,本发明提供一种用于生成手写字符识别分类器的方法,包括:数据获得步骤,使用上述用于获得用于手写字符识别的字符数据的方法获得原始手写字符数据和关于原始手写字符数据的变换字符数据;和分类器生成步骤,使用获得的原始手写字符数据和获得的变换字符数据生成手写字符识别分类器。
另外,为了解决上述技术问题中的至少一个,本发明提供一种用于获得用于手写字符识别的字符数据的装置,包括:获取单元,配置为获取至少一个原始手写字符数据;和曲线变换单元,配置为向获取的原始手写字符数据中的每一个应用至少一种曲线变换方法,并针对获取的原始手写字符数据中的每一个获得至少一个变换字符数据,作为用于手写字符识别的字符数据,其中,曲线变换单元非线性变换原始手写字符数据的形状,而不破坏原始手写字符数据的结构,并且变换字符数据不能通过预处理方法被恢复到原始手写字符数据。
另外,为了解决上述技术问题中的至少一个,本发明提供一种用于生成手写字符识别分类器的装置,包括:数据获得单元,配置为利用上述用于获得用于手写字符识别的字符数据的装置获得原始手写字符数据和关于原始手写字符数据的变换字符数据;和分类器生成单元,配置为使用获得的原始手写字符数据和获得的变换字符数据生成手写字符识别分类器。
显然,本发明不同于当前存在的方案。本发明的目的是使用曲线变换方法来克服当前存在的方案的上述局限。本发明的变换或变形由多级曲线控制并在任何方向执行。因此,本发明可以仅变化手写字符数据的形状而不破坏手写字符数据的结构,并且变换点之间的连接非常平滑。在使用诸如倾斜归一化算法的预处理算法时变换字符数据不能被恢复到原始手写字符数据。利用本发明的曲线变换方法,可以有效地应对诸如在真实环境中不同的书写者和不同的书写风格的手写多样性。
从以下参照附图的描述,本发明的其他特性特征和优点将变得清晰。
附图说明
并入到说明书中并且构成说明书一部分的附图示出了本发明的实施例,并且与描述一起用于说明本发明的原理。
图1示意性示出原始手写字符数据和经过各种变换方法的字符的图像。
图2示意性示出原始手写字符数据、经过本发明的曲线变换方法的字符、以及经过曲线变换方法和倾斜归一化的预处理方法的字符的图像。
图3是示出根据本发明的示例用于获得用于手写字符识别的字符数据的方法的基本处理的流程图。
图4是示出根据本发明的示例用于曲线变换步骤S120的示范性处理的流程图。
图5示出曲线变换参数的示例。
图6示出控制方向的示例。
图7是示出根据本发明的一个示例用于曲线变换参数获得处理的示范性处理的流程图。
图8是示出根据本发明的一个示例用于曲线变换参数获得步骤S211的示范性处理的流程图。
图9是示出根据本发明的一个示例用于变换字符数据获得步骤S122的示范性处理的流程图。
图10示意性示出根据本发明的一个示例的曲线变换参数和原始手写字符数据的采样点的细节。
图11示出获取的原始手写字符数据和使用不同的β值从图10获得的变换字符数据之间的比较。
图12示出使用不同的曲线变换方法的变换字符数据的示例。
图13示出利用使用不同的方法生成的分类器的手写字符识别精度的实验评价。
图14示出利用使用不同的方法生成的分类器的手写字符识别精度的另一实验评价。
图15是根据本发明的示例用于获得用于手写字符识别的字符数据的装置1的示意性功能框图。
图16是示出根据本发明的示例用于生成手写字符识别分类器的基本处理的流程图。
图17是根据本发明的示例用于生成手写字符识别分类器的装置10的示意性功能框图。
图18是示出能够实施本发明的实施例的计算机系统1000的硬件配置的框图。
具体实施方式
以下将参照附图详细描述本发明的实施例。
请注意,类似的参考数字和字母指代图中类似的项目,因而一旦在一幅图中定义了一个项目,不必在之后的图中再讨论该项目。
图2示意性示出原始手写字符数据、经过本发明的曲线变换方法的字符、以及经过曲线变换方法和倾斜归一化的预处理方法的字符的图像。
在图2中,变换字符图像(b)是在对原始手写字符图像(a)使用曲线变换方法时获得的,字符图像(c)是在对变换字符图像(b)使用诸如倾斜归一化方法的预处理方法时获得的。显然,字符图像(c)中的字符显著不同于字符图像(a)中的原始手写字符。因此,本发明可以结合预处理算法使用。在结合后将获得更多效果并可以有效应对诸如在真实环境中不同的书写者和不同的书写风格的手写多样性。
图3是示出根据本发明的示例用于获得用于手写字符识别的字符数据的方法的基本处理的流程图。
如图3所示,用于获得用于手写字符识别字符数据的方法可以包括获取步骤S110和曲线变换步骤S120。
在获取步骤S110,可以获取至少一个原始手写字符数据。
在曲线变换步骤S120,可以向获取的原始手写字符数据中的每一个应用至少一种曲线变换方法,并针对获取的原始手写字符数据中的每一个获得至少一个变换字符数据,作为用于手写字符识别的字符数据。在曲线变换步骤S120,原始手写字符数据的形状可以被非线性变换,而不破坏原始手写字符数据的结构,并且变换字符数据不能通过预处理方法被恢复到原始手写字符数据。已知,预处理方法可以包括尺寸归一化方法和倾斜归一化方法。
图4是示出根据本发明的示例用于曲线变换步骤S120的示范性处理的流程图。
如图4所示,针对获取的原始手写字符数据中的每一个,曲线变换步骤S120可以包括曲线变换参数设置步骤S121和变换字符数据获得步骤S122。
在曲线变换参数设置步骤S121,可以设置用于控制至少一种曲线变换方法的至少一组曲线变换参数。
在变换字符数据获得步骤S122,通过使用至少一组曲线变换参数对获取的原始手写字符数据执行至少一种曲线变换方法可以获得至少一个变换字符数据。
在曲线变换参数设置步骤S121,可以手动定义曲线变换参数。
图5示出曲线变换参数的示例。例如,曲线变换参数可以包括控制方向、控制曲线、控制参数1(即第一控制参数)和控制参数2(即第二控制参数)。
控制方向:
图6示出控制方向的四个示例。在图像(a)的手写字符数据的左侧,控制方向是在水平方向从左向右推。在图像(b)的手写字符数据的右侧,控制方向是在水平方向从右向左推。在图像(c)和(d)的手写字符数据的上侧和下侧,控制方向分别是在垂直方向从上向下推和从下向上推。
可以使用各种控制方向,而不偏离本发明的精神和范围。例如,可以使用平行于手写字符数据的对角线方向的控制方向。
控制曲线:
如图5所示,控制曲线是一条弓状曲线。可以使用各种控制曲线,而不偏离本发明的精神和范围。
例如,控制曲线可以选自弧线、弓状曲线、指数曲线、对数曲线、正弦曲线和余弦曲线。此外,控制曲线可以选自直线、弧线、弓状曲线、指数曲线、对数曲线、正弦曲线和余弦曲线的结合。作为示例,控制曲线可以是直线和正弦曲线的结合的曲线。作为另一示例,控制曲线可以是两条正弦曲线的结合的曲线。
控制参数1:
控制参数1可以设计沿着控制方向的最大变换偏移量,如图5所示。
通常,控制参数1=β*沿控制方向的最大手写字符跨度,其中0<β≤1。如图5所示,手写字符数据的中线上的点将具有最大变换偏移量,而手写字符数据的顶部和底部将具有零偏移量。
控制参数2:
控制参数2可以设计在垂直于控制方向的方向上该获取的原始手写字符数据要变换的范围。
通常,控制参数2=γ*沿垂直于控制方向的方向上的最大手写字符跨度,其中0<γ≤1。如图5所示,控制参数2示出覆盖全部手写字符数据的范围,即,γ=1。换言之,手写字符数据的所有采样点将被变换。
利用定义的曲线变换参数,可以控制至少一种曲线变换方法。然后,在变换字符数据获得步骤S122,通过使用至少一组曲线变换参数对获取的原始手写字符数据执行至少一种曲线变换方法可以获得至少一个变换字符数据。
替代地,可以对正常数据执行至少一种曲线变换方法获得变换字符数据。因而,曲线变换步骤S120可以还包括数据选择步骤,从获取的原始手写字符数据选择数据,其中,具有置信分数高于或等于定义的阈值的第一正确识别候选的数据被选择为正常数据。
置信分数可以根据似然比准则确定。置信分数可以被归一化,于是定义的阈值可以设置在0和1之间。
替代地,曲线变换参数可以通过曲线变换参数设置步骤S121中的曲线变换参数获得处理设置。
图7是示出根据本发明的一个示例用于曲线变换参数获得处理的示范性处理的流程图。
如所示图7,针对获取的原始手写字符数据中的每一个,曲线变换参数获得处理可以包括:数据选择步骤S210和曲线变换参数获得步骤S211。
在数据选择步骤S210,从获取的原始手写字符数据选择数据,其中,具有置信分数高于或等于定义的阈值的第一正确识别候选的数据被选择为正常数据,并且具有置信分数低于定义的阈值的第一正确识别候选或具有由用户从其他剩余的N个最好的(N-best)识别候选选择的正确识别候选的数据被选择为异常数据。
置信分数可以根据似然比准则确定。置信分数可以被归一化,于是定义的阈值可以设置在0和1之间。
已知,获取的原始手写字符数据可以通过手写字符识别引擎识别。具有较高分数的N个分类的识别候选可以被称作N-best候选。
在曲线变换参数获得步骤S211,可以从正常数据和异常数据获得至少一组最佳曲线变换参数用于控制至少一种曲线变换方法。
图8是示出根据本发明的一个示例用于曲线变换参数获得步骤S211的示范性处理的流程图。
如所示图8,曲线变换参数获得步骤S211可以包括曲线变换参数定义步骤S310、学习数据获得步骤S320和最佳曲线变换参数获得步骤S330。
在曲线变换参数定义步骤S310,类似于图5示出的定义参数的处理,可以定义用于控制至少一种曲线变换方法的至少一组曲线变换参数。
在学习数据获得步骤S320,可以通过使用至少一组曲线变换参数对正常数据执行至少一种曲线变换方法获得至少一组学习数据。
在最佳曲线变换参数获得步骤S330,可以通过找到至少一个与异常数据最接近的学习数据获得至少一组最佳曲线变换参数。例如,最接近学习数据可以通过根据距离测量比较学习数据和异常数据找到。
学习数据(例如通过使用多组曲线变换参数获得的数据)和异常数据分别具有同样的T个采样点。另[xi(t),yi(t)]为在二维平面中第i个学习数据的采样点在时间t的坐标,其中0≤t≤T,另[x(t),y(t)]为异常数据的采样点在时间t的坐标。第i个学习数据和异常数据之间的距离可以通过使用如下定义的欧几里得距离(Euclidean distance)来计算:
通过对正常数据使用多组曲线变换参数获得多个学习数据。因此,根据上述公式可以获得多个距离值。通过比较这些距离值di,可以从di获得具有最小距离值的序号j:
这意味着第j个学习数据与异常数据最接近或者最类似。因此,第j组曲线变换参数最佳。
利用获得的最佳曲线变换参数,可以控制至少一种曲线变换方法。然后,在变换字符数据获得步骤S122,通过根据至少一组最佳曲线变换参数对正常数据执行至少一种曲线变换方法,可以获得至少一个变换字符数据。
变换字符数据获得步骤S122可以各种方式执行。图9是示出根据本发明的一个示例用于变换字符数据获得步骤S122的示范性处理的流程图。
如图9所示,变换字符数据获得步骤S122可以包括曲线尺寸调整步骤S220、变换偏移量计算步骤S221和坐标修改步骤S222。
在曲线尺寸调整步骤S220,可以根据控制参数1和控制参数2调整控制曲线的尺寸。
在变换偏移量计算步骤S221,可以根据调整的控制曲线针对在该获取的原始手写字符数据要变换的范围中的所有采样点计算一组变换偏移量。
在坐标修改步骤S222,可以根据计算的一组变换偏移量,通过使用对应于采样点的变换偏移量,来修改在该获取的原始手写字符数据要变换的范围中的每个采样点的坐标。
图10示意性示出根据本发明的一个示例的曲线变换参数和原始手写字符数据的采样点的细节。
假定在获取的原始手写字符数据中具有总共T个采样点,使用平面坐标系统(x,y)来描述在获取的原始手写字符数据中的每个采样点的坐标。
在获取的原始手写字符数据中的每个采样点的坐标被描述为(xi,yi),其中1≤i≤T。
在示例中,曲线变换参数是针对控制曲线变换方法定义的。例如,控制方向是在水平方向从左向右推(即,图10中的x轴正方向,由箭头指示);控制曲线被选择为一条弓状曲线;沿着控制方向的最大变换偏移量定义为控制参数1;垂直于控制方向的方向上该获取的原始手写字符数据要变换的范围(即,图10中的y轴正方向)定义为控制参数2。
如上所述,控制参数1=β*沿控制方向的最大手写字符跨度,其中0<β≤1,控制参数2=γ*沿垂直于控制方向的方向上的最大手写字符跨度,其中0<γ≤1。在示例中,假定获取的原始手写字符数据的所有采样点将被变换,即,γ=1。
使用定义的曲线变换参数控制曲线变换方法。此后,将描述如何对获取的原始手写字符数据执行曲线变换。
在类似于曲线尺寸调整步骤S220的步骤,可以根据控制参数1沿控制方向以及根据控制参数2沿垂直于控制方向的方向调整控制曲线的尺寸。
在调整控制曲线的尺寸之后,可以将获取的原始手写字符数据和控制曲线放在参考系统中,用于简化对本发明的描述和理解。
在参考系统中,针对每个采样点(xi,yi),通过绘制平行于x轴并穿过采样点的第一参考线,可以找到与采样点具有相同的y坐标值的对应点。对于图10中的采样点CC,通过绘制平行于x轴并通过采样点CC的第一参考线RL1,可以从第二参考线RL2找到对应点BB,并从控制曲线找到对应点bb,第二参考线RL2平行于y轴并穿过控制曲线的至少一个端点。
在类似于变换偏移量计算步骤S221的步骤,针对获取的原始手写字符数据中的所有采样点,可以根据调整的控制曲线计算变换偏移量。
利用定义的最大变换偏移量、第一参考线和第二参考线,针对控制曲线中的每个点,通过确定控制曲线中的点到第二参考线的距离,可以找到获取的原始手写字符数据中出现最大变换偏移量的采样点。
例如,如图10所示,点aa到第二参考线的距离,即,点aa和AA的距离等于最大变换偏移量。于是,可以确定最大变换偏移量将出现在获取的原始手写字符数据的采样点DD,采样点DD与点AA和aa在同一第一参考线上。
根据控制曲线、最大变换偏移量和点AA与点BB的距离,可以计算采样点CC的变换偏移量。
类似地,针对获取的原始手写字符数据中的所有采样点可以计算变换偏移量。
用于计算的处理取决于控制曲线。针对不同控制曲线的情形可以使用不同的计算处理。
根据计算的变换偏移量,针对获取的原始手写字符数据中的所有采样点,修改每个采样点的坐标。
在示例中,由于控制方向沿着x轴,因此仅修改采样点的x坐标。如果控制方向沿着y轴,将根据变换偏移量仅修改采样点的y坐标,利用与上述方式类似的方式计算变换偏移量。如果控制方向沿着其他方向,将根据变换偏移量修改采样点的x坐标和y坐标,利用与上述方式类似的方式计算变换偏移量。
利用所有采样点的修改的坐标,可以获得对获取的原始手写字符数据的变换字符数据。
图11示出获取的原始手写字符数据和使用不同的β值从图10获得的变换字符数据之间的比较。
如图11所示,随着β值的增大,变换程度变大。
图12示出使用不同的曲线变换方法的变换字符数据的示例。
在图像(a)和(b),分别使用沿水平方向从左向右推和从右向左推、利用1/2弓状曲线变换方法。可以看出,随着β值的增大,变换程度变大。
如上所述,对于更复杂的手写字符变换操作,不同类型的曲线变换方法可以容易地结合。例如,在图像(c),使用沿水平方向从右向左推、利用1/2弓状曲线的一种类型的曲线变换方法与使用沿水平方向从左向右推、利用1弓状曲线的另一种类型的曲线变换方法结合。显然,利用这种结合的变换方法获得的变换字符数据也不同于获取的原始手写字符数据和使用单独变换方法获得的变换字符数据。
可以使用实验评价来表示上述方法的优点。
图13和图14示出利用使用不同的方法生成的分类器的手写字符识别精度的实验评价。
在图13,控制曲线是1/2弓状曲线。“基线”表示仅将原始事先录制的获取的手写字符数据而不使用变换字符数据用于分类器生成。其他实验都将获取的原始手写字符数据和同样数量的变换字符数据用于分类器生成。分别使用不同的曲线变换方法获得变换字符数据,其中手动设置曲线变换参数。可以看出,额外的变换字符数据非常有用。如果使用额外的变换字符数据(使用沿水平方向从右向左推、β=0.2的曲线变换方法获得的变换字符数据),手写字符识别的精度可以从80.32%显著改善到84.51%。
在图14中,控制曲线是1弓状曲线。类似地,如果使用额外的变换字符数据(使用沿水平方向从右向左推、β=0.3的曲线变换方法获得的变换字符数据),手写字符识别的精度可以从80.32%显著改善到82.81%。
可以通过各种装置实现上述的用于获得用于手写字符识别的字符数据的各种方法。
图15是根据本发明的示例用于获得用于手写字符识别的字符数据的装置1的示意性功能框图。
如所示图15,用于获得用于手写字符识别的字符数据的装置1可以包括获取单元110和曲线变换单元120,配置为分别实现图3示出的获取步骤S110和曲线变换步骤S120。
优选地,曲线变换单元120还包括曲线变换参数设置单元121和变换字符数据获得单元122,配置为分别实现图4示出的变换参数设置步骤S121和变换字符数据获得步骤S122。
更优选地,曲线变换单元120还包括数据选择单元(未在图中示出),配置为实现数据选择步骤,从获取的原始手写字符数据选择数据,其中,具有置信分数高于或等于定义的阈值的第一正确识别候选的数据被选择为正常数据。
可以使用曲线变换参数设置单元121手动定义曲线变换参数。
替代地,可以使用曲线变换参数设置单元121来通过曲线变换参数获得处理设置曲线变换参数。
优选地,曲线变换参数设置单元121还包括数据选择单元210和曲线变换参数获得单元211,配置为分别实现图7示出的数据选择步骤S210和曲线变换参数获得步骤S211。
优选地,曲线变换参数获得单元211还包括曲线变换参数定义单元310、学习数据获得单元320和最佳曲线变换参数获得单元330,配置为分别实现图8示出的曲线变换参数定义步骤S310、学习数据获得步骤S320和最佳曲线变换参数获得步骤S330。
优选地,变换字符数据获得单元122还包括曲线尺寸调整单元220、变换偏移量计算单元221和坐标修改单元222,配置为分别实现图9示出的曲线尺寸调整步骤S220、变换偏移量计算步骤S221和坐标修改步骤S222。
上述的单元和下面要描述的单元是用于实现各种步骤的示范性的和/或优选的模块。这些模块可以是硬件单元(诸如处理器、专用集成电路等)和/或软件模块(诸如计算机可读程序)。以上并未详尽地描述用于实施各个步骤的模块。然而,只要有执行某个处理的步骤,就可以有用于实现同一处理的对应的功能模块或单元(由和/或软件实现)。通过以下描述的步骤以及与这些步骤对应的装置的所有组合限定的技术方案都包括在本说明书的公开内容中,只要它们构成的这些技术方案是完整并且可应用的。
此外,由各个单元构成的上述装置可以被并入到诸如计算机之类的硬件设备中作为功能模块。除了这些功能模块之外,这些计算机当然可以具有其他硬件或软件组件。
参考图1-15描述的方法和装置可以单独应用或彼此结合应用到用于生成手写字符识别分类器的方法和装置。
现在将参考图16和17描述根据本发明的示范性实施例用于生成手写字符识别分类器的方法和装置。图16是示出根据本发明的示例用于生成手写字符识别分类器的基本处理的流程图。图17是根据本发明的示例用于生成手写字符识别分类器的装置10的示意性功能框图。
如所示图16,用于生成手写字符识别分类器的方法可以包括数据获得步骤S101和分类器生成步骤S102。
在数据获得步骤S101,参考图1-14描述的方法可以单独应用或彼此结合应用以获得原始手写字符数据和针对原始手写字符数据的变换字符数据。
在分类器生成步骤S102,可以使用获得的原始手写字符数据和获得的变换字符数据生成手写字符识别分类器。
如图17所示,根据本发明的示范性实施例的用于生成手写字符识别分类器的装置10可以包括数据获得单元101和分类器生成单元102,配置为分别实现图16示出的数据获得步骤S101和分类器生成步骤S102。
图18是示出能够实施本发明的实施例的计算机系统1000的硬件配置的框图。
如图18所示,计算机系统包括计算机1110。计算机1110包括经由系统总线1121连接的处理单元1120、系统存储器1130、固定非易失性存储器接口1140、移动非易失性存储器接口1150、用户输入接口1160、网络接口1170、视频接口1190和输出外围接口1195。
系统存储器1130包括ROM(只读存储器)1131和RAM(随机存取存储器)1132。BIOS(基本输入输出系统)1133驻留在ROM1131内。操作系统1134、应用程序1135、其它程序模块1136和某些程序数据1137驻留在RAM1132内。
诸如硬盘之类的固定非易失性存储器1141连接到固定非易失性存储器接口1140。固定非易失性存储器1141例如可以存储操作系统1144、应用程序1145、其它程序模块1146和某些程序数据1147。
诸如软盘驱动器1151和CD-ROM驱动器1155之类的移动非易失性存储器连接到移动非易失性存储器接口1150。例如,软盘可以被插入到软盘驱动器1151中,以及CD(光盘)可以被插入到CD-ROM驱动器1155内。
诸如鼠标1161和键盘1162之类的输入设备被连接到用户输入接口1160。
计算机1110可以通过网络接口1170连接到远程计算机1180。例如,网络接口1170可以通过局域网1171连接到远程计算机1180。或者,网络接口1170可以连接到调制解调器(调制器-解调器)1172,以及调制解调器1172经由广域网1173连接到远程计算机1180。
远程计算机1180可以包括诸如硬盘之类的存储器1181,其可以存储远程应用程序1185。
视频接口1190连接到监视器1191。
输出外围接口1195连接到打印机1196和扬声器1197。
图18所示的计算机系统仅仅是说明性的并且决不意味着对本发明、其应用或用途的任何限制。
图18所示的计算机系统可以被实施于任何实施例,可作为独立计算机,也可作为电子设备中的处理系统,可以移除一个或多个不必要的组件,也可以向其添加一个或多个附加的组件。
可以通过许多方式来实施本发明的方法和系统。例如,可以通过软件、硬件、固件、或其任何组合来实施本发明的方法和系统。上述的方法步骤的次序仅是说明性的,本发明的方法步骤不限于以上具体描述的次序,除非以其他方式明确说明。此外,在一些实施例中,本发明还可以被实施为记录在记录介质中的程序,其包括用于实现根据本发明的方法的机器可读指令。因而,本发明还覆盖存储用于实现根据本发明的方法的程序的记录介质。
虽然已通过示例详细展示了本发明的一些具体实施例,但是本领域技术人员应当理解,上述示例仅意图是示例性的而不限制本发明的范围。本领域技术人员应该理解,上述实施例可以被修改而不脱离本发明的范围和实质。本发明的范围是通过所附的权利要求限定的。
Claims (22)
1.一种用于获得用于手写字符识别的字符数据的方法,包括:
获取步骤,获取至少一个原始手写字符数据;和
曲线变换步骤,向获取的原始手写字符数据中的每一个应用至少一种曲线变换方法,并针对所述获取的原始手写字符数据中的每一个获得至少一个变换字符数据,作为用于手写字符识别的字符数据,
其中,曲线变换步骤非线性变换原始手写字符数据的形状,而不破坏原始手写字符数据的结构,并且变换字符数据不能通过预处理方法被恢复到原始手写字符数据。
2.根据权利要求1的方法,其中,针对所述获取的原始手写字符数据中的每一个,曲线变换步骤包括:
曲线变换参数定义步骤,定义用于控制至少一种曲线变换方法的至少一组曲线变换参数;和
变换字符数据获得步骤,通过使用至少一组曲线变换参数对所述获取的原始手写字符数据执行至少一种曲线变换方法获得至少一个变换字符数据。
3.根据权利要求1的方法,其中,针对所述获取的原始手写字符数据中的每一个,曲线变换步骤包括:
数据选择步骤,从所述获取的原始手写字符数据选择数据,其中,具有置信分数高于或等于定义的阈值的第一正确识别候选的数据被选择为正常数据;
曲线变换参数定义步骤,定义用于控制至少一种曲线变换方法的至少一组曲线变换参数;和
变换字符数据获得步骤,通过使用至少一组曲线变换参数对正常数据执行至少一种曲线变换方法获得至少一个变换字符数据。
4.根据权利要求1的方法,其中,针对所述获取的原始手写字符数据中的每一个,曲线变换步骤包括:
数据选择步骤,从所述获取的原始手写字符数据选择数据,其中,具有置信分数高于或等于定义的阈值的第一正确识别候选的数据被选择为正常数据,并且具有置信分数低于定义的阈值的第一正确识别候选或具有由用户从其他剩余的N个最好的识别候选选择的正确识别候选的数据被选择为异常数据;
曲线变换参数获得步骤,从正常数据和异常数据获得至少一组最佳曲线变换参数用于控制至少一种曲线变换方法;和
变换字符数据获得步骤,通过根据至少一组最佳曲线变换参数对正常数据执行至少一种曲线变换方法获得至少一个变换字符数据。
5.根据权利要求4的方法,其中,曲线变换参数获得步骤包括:
曲线变换参数定义步骤,定义用于控制至少一种曲线变换方法的至少一组曲线变换参数;
学习数据获得步骤,通过使用至少一组曲线变换参数对正常数据执行至少一种曲线变换方法获得至少一组学习数据;和
最佳曲线变换参数获得步骤,通过找到至少一个与异常数据最接近的学习数据获得至少一组最佳曲线变换参数。
6.根据权利要求2、3和5中的任何一项的方法,其中,曲线变换参数定义步骤包括:
定义控制方向;
定义控制曲线;
定义第一控制参数,以设计沿着控制方向的最大变换偏移量;和
定义第二控制参数,以设计在垂直于控制方向的方向上所述获取的原始手写字符数据要变换的范围。
7.根据权利要求6的方法,其中,变换字符数据获得步骤包括:
曲线尺寸调整步骤,根据第一控制参数和第二控制参数调整控制曲线的尺寸;
变换偏移量计算步骤,根据调整的控制曲线针对在所述获取的原始手写字符数据要变换的范围中的所有采样点计算一组变换偏移量;和
坐标修改步骤,根据计算的一组变换偏移量,通过使用对应于采样点的变换偏移量,来修改在所述获取的原始手写字符数据要变换的范围中的每个采样点的坐标。
8.根据权利要求6的方法,其中,控制曲线选自弧线、弓状曲线、指数曲线、对数曲线、正弦曲线和余弦曲线,或选自直线、弧线、弓状曲线、指数曲线、对数曲线、正弦曲线和余弦曲线的结合。
9.根据权利要求5的方法,其中,在最佳曲线变换参数获得步骤中,通过根据距离测量比较学习数据与异常数据找到最接近的学习数据。
10.根据权利要求3或4的方法,其中,在数据选择步骤中,根据似然比准则确定置信分数。
11.一种用于生成手写字符识别分类器的方法,包括:
数据获得步骤,使用根据权利要求1-10中的任一项的方法获得原始手写字符数据和关于原始手写字符数据的变换字符数据;和
分类器生成步骤,使用获得的原始手写字符数据和获得的变换字符数据生成手写字符识别分类器。
12.一种用于获得用于手写字符识别的字符数据的装置,包括:
获取单元,配置为获取至少一个原始手写字符数据;和
曲线变换单元,配置为向获取的原始手写字符数据中的每一个应用至少一种曲线变换方法,并针对所述获取的原始手写字符数据中的每一个获得至少一个变换字符数据,作为用于手写字符识别的字符数据,
其中,曲线变换单元非线性变换原始手写字符数据的形状,而不破坏原始手写字符数据的结构,并且变换字符数据不能通过预处理方法被恢复到原始手写字符数据。
13.根据权利要求12的装置,其中,针对所述获取的原始手写字符数据中的每一个,曲线变换单元包括:
曲线变换参数定义单元,配置为定义用于控制至少一种曲线变换方法的至少一组曲线变换参数;
变换字符数据获得单元,配置为通过使用至少一组曲线变换参数对所述获取的原始手写字符数据执行至少一种曲线变换方法获得至少一个变换字符数据。
14.根据权利要求12的装置,其中,针对所述获取的原始手写字符数据中的每一个,曲线变换单元包括:
数据选择单元,配置为从所述获取的原始手写字符数据选择数据,其中,具有置信分数高于或等于定义的阈值的第一正确识别候选的数据被选择为正常数据;
曲线变换参数定义单元,配置为定义用于控制至少一种曲线变换方法的至少一组曲线变换参数;和
变换字符数据获得单元,配置为通过使用至少一组曲线变换参数对正常数据执行至少一种曲线变换方法获得至少一个变换字符数据。
15.根据权利要求12的装置,其中,针对所述获取的原始手写字符数据中的每一个,曲线变换单元包括:
数据选择单元,配置为从所述获取的原始手写字符数据选择数据,其中,具有置信分数高于或等于定义的阈值的第一正确识别候选的数据被选择为正常数据,并且具有置信分数低于定义的阈值的第一正确识别候选或具有由用户从其他剩余的N个最好的识别候选选择的正确识别候选的数据被选择为异常数据;
曲线变换参数获得单元,配置为从正常数据和异常数据获得至少一组最佳曲线变换参数用于控制至少一种曲线变换方法;和
变换字符数据获得单元,配置为通过根据至少一组最佳曲线变换参数对正常数据执行至少一种曲线变换方法获得至少一个变换字符数据。
16.根据权利要求15的装置,其中,曲线变换参数获得单元还包括:
曲线变换参数定义单元,配置为定义用于控制至少一种曲线变换方法的至少一组曲线变换参数;
学习数据获得单元,配置为通过使用至少一组曲线变换参数对正常数据执行至少一种曲线变换方法获得至少一组学习数据;和
最佳曲线变换参数获得单元,配置为通过找到至少一个与异常数据最接近的学习数据获得至少一组最佳曲线变换参数。
17.根据权利要求13、14和16中的任何一项的装置,其中,曲线变换参数定义单元配置为:
定义控制方向;
定义控制曲线;
定义第一控制参数,以设计沿着控制方向的最大变换偏移量;和
定义第二控制参数,以设计在垂直于控制方向的方向上所述获取的原始手写字符数据要变换的范围。
18.根据权利要求17的装置,其中,变换字符数据获得单元包括:
曲线尺寸调整单元,配置为根据第一控制参数和第二控制参数调整控制曲线的尺寸;
变换偏移量计算单元,配置为根据调整的控制曲线针对在所述获取的原始手写字符数据要变换的范围中的所有采样点计算一组变换偏移量;和
坐标修改单元,配置为根据计算的一组变换偏移量,通过使用对应于采样点的变换偏移量,来修改在所述获取的原始手写字符数据要变换的范围中的每个采样点的坐标。
19.根据权利要求17的装置,其中,控制曲线选自弧线、弓状曲线、指数曲线、对数曲线、正弦曲线和余弦曲线,或选自直线、弧线、弓状曲线、指数曲线、对数曲线、正弦曲线和余弦曲线的结合。
20.根据权利要求16的装置,其中,在最佳曲线变换参数获得单元中,通过根据距离测量比较学习数据与异常数据找到最接近的学习数据。
21.根据权利要求14或15的装置,其中,在数据选择单元中,根据似然比准则确定置信分数。
22.一种用于生成手写字符识别分类器的装置,包括:
数据获得单元,配置为使用根据权利要求12-21中的任一项的装置获得原始手写字符数据和关于原始手写字符数据的变换字符数据;和
分类器生成单元,配置为使用获得的原始手写字符数据和获得的变换字符数据生成手写字符识别分类器。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN2012100780589A CN103324925A (zh) | 2012-03-22 | 2012-03-22 | 用于获得用于手写字符识别的字符数据的方法和装置 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN2012100780589A CN103324925A (zh) | 2012-03-22 | 2012-03-22 | 用于获得用于手写字符识别的字符数据的方法和装置 |
Publications (1)
Publication Number | Publication Date |
---|---|
CN103324925A true CN103324925A (zh) | 2013-09-25 |
Family
ID=49193656
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN2012100780589A Pending CN103324925A (zh) | 2012-03-22 | 2012-03-22 | 用于获得用于手写字符识别的字符数据的方法和装置 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN103324925A (zh) |
Cited By (2)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN110197224A (zh) * | 2019-05-29 | 2019-09-03 | 华南理工大学 | 基于特征空间深度对抗学习的空中手写字符轨迹恢复方法 |
CN113139533A (zh) * | 2021-04-06 | 2021-07-20 | 广州大学 | 一种快速识别手写矢量的方法及装置、介质和设备 |
Citations (3)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN1315024A (zh) * | 1998-08-26 | 2001-09-26 | 德库玛股份公司 | 字符识别 |
JP2002288668A (ja) * | 2001-03-23 | 2002-10-04 | Yoshinobu Takeuchi | 曲線変形方法 |
CN101536012A (zh) * | 2005-07-01 | 2009-09-16 | 微软公司 | 用于标准化和美化/墨水美化的墨水扭曲 |
-
2012
- 2012-03-22 CN CN2012100780589A patent/CN103324925A/zh active Pending
Patent Citations (3)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN1315024A (zh) * | 1998-08-26 | 2001-09-26 | 德库玛股份公司 | 字符识别 |
JP2002288668A (ja) * | 2001-03-23 | 2002-10-04 | Yoshinobu Takeuchi | 曲線変形方法 |
CN101536012A (zh) * | 2005-07-01 | 2009-09-16 | 微软公司 | 用于标准化和美化/墨水美化的墨水扭曲 |
Non-Patent Citations (3)
Title |
---|
ADEL M.ALIMI: "A Neuro-Fuzzy Approach to Recognize Arabic Handwritten Characters", 《INTERNATIONAL CONFERENCE ON NEURAL NETWORKS》, vol. 3, 9 June 1997 (1997-06-09), XP010238662, DOI: doi:10.1109/ICNN.1997.613998 * |
刘来元 等: "基于曲线矩的手写体数字识别", 《模式识别与人工智能》, vol. 8, no. 2, 15 June 1995 (1995-06-15) * |
苗夺谦 等: "基于主曲线的脱机手写数字识别", 《电子学报》, vol. 33, no. 9, 25 September 2005 (2005-09-25) * |
Cited By (4)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN110197224A (zh) * | 2019-05-29 | 2019-09-03 | 华南理工大学 | 基于特征空间深度对抗学习的空中手写字符轨迹恢复方法 |
CN110197224B (zh) * | 2019-05-29 | 2021-05-14 | 华南理工大学 | 基于特征空间深度对抗学习的空中手写字符轨迹恢复方法 |
CN113139533A (zh) * | 2021-04-06 | 2021-07-20 | 广州大学 | 一种快速识别手写矢量的方法及装置、介质和设备 |
CN113139533B (zh) * | 2021-04-06 | 2022-08-02 | 广州大学 | 一种快速识别手写矢量的方法及装置、介质和设备 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
JP6403233B2 (ja) | ユーザー認証方法、これを実行する装置及びこれを保存した記録媒体 | |
US8194934B2 (en) | Apparatus for and method of using reliability information to produce and update image recognition data | |
US6178263B1 (en) | Method of estimating at least one run-based font attribute of a group of characters | |
US7437001B2 (en) | Method and device for recognition of a handwritten pattern | |
CN113128442B (zh) | 基于卷积神经网络的汉字书法风格识别方法和评分方法 | |
Zhao et al. | Two-stage segmentation of unconstrained handwritten Chinese characters | |
EP2569930B1 (en) | Segmentation of a word bitmap into individual characters or glyphs during an ocr process | |
US20150371360A1 (en) | Systems and methods for obtaining structural information from a digital image | |
EP2434431A1 (en) | Method and device for classifying image | |
CN105761219A (zh) | 文本图像倾斜矫正方法和系统 | |
CN106875546A (zh) | 一种增值税发票的识别方法 | |
CN110399878A (zh) | 表格版式恢复方法,计算机可读介质以及计算机 | |
CN106503694B (zh) | 基于八邻域特征的数字识别方法 | |
CN113657274A (zh) | 表格生成方法、装置、电子设备、存储介质及产品 | |
CN112307977B (zh) | 一种车道限速的自动生成方法及装置 | |
CA2790210C (en) | Resolution adjustment of an image that includes text undergoing an ocr process | |
CN103324925A (zh) | 用于获得用于手写字符识别的字符数据的方法和装置 | |
Viard-Gaudin et al. | Recognition-directed recovering of temporal information from handwriting images | |
CN114708186B (zh) | 一种电子签章定位方法及装置 | |
CN114005127B (zh) | 一种基于深度学习的图像光学文字识别方法,存储装置及服务器 | |
CN111353493A (zh) | 文本图像方向校正方法及装置 | |
CN104346320A (zh) | 手写文档处理装置、手写文档处理方法和手写文档处理程序 | |
CN110059600B (zh) | 一种基于指向手势的单行文字识别方法 | |
US9454706B1 (en) | Arabic like online alphanumeric character recognition system and method using automatic fuzzy modeling | |
CN109829503B (zh) | 一种密集恐惧图片判别方法、系统、设备及其存储介质 |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
C06 | Publication | ||
PB01 | Publication | ||
C10 | Entry into substantive examination | ||
SE01 | Entry into force of request for substantive examination | ||
C02 | Deemed withdrawal of patent application after publication (patent law 2001) | ||
WD01 | Invention patent application deemed withdrawn after publication |
Application publication date: 20130925 |