CN100409251C - 用于退化文字行的字符识别装置和方法 - Google Patents
用于退化文字行的字符识别装置和方法 Download PDFInfo
- Publication number
- CN100409251C CN100409251C CNB2005100935293A CN200510093529A CN100409251C CN 100409251 C CN100409251 C CN 100409251C CN B2005100935293 A CNB2005100935293 A CN B2005100935293A CN 200510093529 A CN200510093529 A CN 200510093529A CN 100409251 C CN100409251 C CN 100409251C
- Authority
- CN
- China
- Prior art keywords
- character
- feature
- dictionary
- image
- reconstruct
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Expired - Fee Related
Links
Images
Landscapes
- Character Discrimination (AREA)
Abstract
用于退化文字行的字符识别装置和方法。该字符识别装置包括:特征提取单元,利用第一字典从所输入的归一化图像中提取特征;粗分类单元,通过将所提取的特征与存储在第二字典中的特征进行比较,来选择特定数量的字符候选类别;特征重构单元,通过使用第三字典以及所选择的特定数量的字符候选类别来重构数量为该特定数量的重构特征;精细识别单元,根据由该特征提取单元提取的特征与该重构特征来识别并输出最终的识别字符编码;图像重构单元,通过使用该第一字典以及由该特征重构单元生成的重构特征来重构数量为该特定数量的重构图像;识别距离计算单元,用于根据所输入的归一化图像和该图像重构单元生成的重构图像来计算并输出识别距离。
Description
技术领域
本发明总体上涉及用于字符识别的装置和方法,更具体地涉及用于退化文字行的字符识别装置和方法。
背景技术
随着数码相机和数码摄像机在文档图像拍摄方面的日益普及,退化文字行识别得到了越来越多的重视。对退化文字行的识别包括单个字符识别和文字行分割两个部分。这两个部分又是有机结合在一起的。
对于文字行分割来说,基于识别的分割方法是使用最为广泛的一种方法。图1是传统的基于识别的分割方法的原理图。首先对所输入的图像进行二值化处理,然后通过对二值图像的连接部分进行分析来获得字符的笔画(图1中的最上一行)。图像的连接部分的分析算法可以参见:Rafael C.Gonzalez和Richard E.Woods著,《数字图像处理(第二版)》,阮秋琦,阮宇智等译,电子工业出版社,第435页。每一个连接部分都可以看作是一个基本分割字符(图1中的中间一行)。连接部分的组合被看作是合成分割字符(图1中的最下面一行)。然后,对每一个基本分割字符和合成分割字符都进行字符识别,并给出一个识别距离。一个文本行可以被分解为多条由不同基本分割字符和合成分割字符组合在一起的分割路径,每一个分割路径的识别距离是构成它的基本分割字符和合成分割字符的识别距离之和。该文本行的正确分割结果是通过选择总的识别距离最小的分割路径来获得的。在实现了分割的同时,对每个基本分割字符和合成分割字符的识别结果也就是对字符的最后识别结果。
图1是传统的基于识别的分割方法的原理图。
如图1所示,由“ハ”、“リ”和“を”组成的分割路径具有最小的识别距离值72。因此它们被输出为最后的分割和识别的结果。
从上述的原理图我们可以看出识别距离的值不仅对于识别结果,而且对于正确分割也是非常重要的。例如,在图1中,对于“ハ”的最小识别距离是21,该字符的左右两个笔画的识别距离分别是19和22。如果这两个笔画的识别距离之和小于21,则即使“ハ”的识别结果是正确的,它仍然会被错误地分割为“丿”和“丶”两个部分。
目前已经有很多关于文本行分割的文章和专利,比如:
Y.Lu,“Machine Printed Character Segmentation-AnOverview”.Pattern Recognition,Vol.28,No.1,pp.67-80,Jan,1995。
S.W.Lee,D.J.Lee,H.S.Park,“A New Methodology forGray-Scale Character Segmentation and Recognition”.IEEEtransaction on pattern analysis and machine intelligence,Vol.18,No.10,pp.1045-1050,Oct,1996。
Kamitani“Character segmentation device and charactersegmentation system”.US Pat.No.6,327,385。
Hanson,“Apparatus for performing character segmentationusing slant histograms”.US Pat.No.5,692,069。
Tan,“Fast character segmentation of skewed text lines foroptical character recognition”.US Pat.No.5,172,422。
这些文献和专利中的大部分都是针对粘连文字的处理,而且大多的处理对象都是二值化图像,而对于退化的文本行图像,传统的二值化方法常常会引起严重的断笔(笔画像素点丢失)或者笔画的粘连。因此识别的效果不佳。
基于双子空间(dual eigenspace)的方法对于退化字符具有很好的识别效果。该方法从灰度字符图像中直接提取字符特征。图2是利用双子空间方法来进行字符识别的流程图。其输入是经过归一化的字符图像。首先,通过第一字典(图2中的字典一)来提取字符图像的特征。然后,通过第二字典(图2中的字典二)将该字符图像粗略分类为M个候选类别。随后,通过第三字典(图2中的字典三)将所输入的字符特征精细地分类为该M个候选类别中的某一类别。最后,输出识别出的字符编码和识别距离。
由于基于双子空间的方法从灰度图像中直接提取特征,避免了二值化的环节,因此它对于由于图像退化而引起的噪声具有更好的抵抗能力。但是,直接在基于识别的分割方法中利用双子空间方法存在一些问题。
如图3所示,第一行的图像是文本行图像。第二行是二值化的结果。二值化图像用来进行粗分割。所示的边框是粗分割的结果。第三行是经过归一化后的基本分割字符的灰度图像。在每一个分割图像的下面是识别字符和对应的识别距离。第四行是经过归一化后的合成分割字符“年”和“開”的归一化灰度字符图像,以及对应的识别结果和识别距离。如果使用传统的基于识别的分割方法,则不能正确地识别“開”,因为在第二行中,“開”会被分割为四个部分,这四个部分的识别距离之和是5.39+61.01+45.69+20.37=132.46。由于“開”本身的识别距离是409.71,大于其四个部分的识别距离之和。因此整个文本行将被识别为“年1回I!II ㄑ”。
发明内容
本发明的目的在于提供一种针对退化文字行的字符识别装置和方法,其通过使用更好的特征来产生更合理的识别距离,从而解决了利用双子空间进行分割而出现的问题。
根据本发明的一个方面,提供了一种用于退化文字行的字符识别装置,该字符识别装置包括:特征提取单元,利用第一字典从所输入的归一化图像中提取特征;粗分类单元,通过将所提取的特征与存储在第二字典中的特征进行比较,来选择特定数量的字符候选类别;特征重构单元,通过使用第三字典以及所选择的特定数量的字符候选类别来重构数量为所述特定数量的重构特征;精细识别单元,根据由所述特征提取单元提取的特征与所述重构特征来识别并输出最终的识别字符编码;图像重构单元,通过使用所述第一字典以及由所述特征重构单元生成的重构特征来重构数量为所述特定数量的重构图像;识别距离计算单元,用于根据所输入的归一化图像和所述图像重构单元生成的重构图像来计算并输出识别距离。
根据本发明的另一方面,提供了一种用于退化文字行的字符识别方法,该字符识别方法包括以下步骤:利用第一字典从所输入的归一化图像中提取特征;通过将所提取的特征与存储在第二字典中的特征进行比较,来选择特定数量的字符候选类别;通过使用第三字典以及所选择的特定数量的字符候选类别来重构数量为所述特定数量的重构特征;根据所提取的特征与所述重构特征来识别并输出最终的识别字符编码;通过使用所述第一字典以及所述重构特征来重构数量为所述特定数量的重构图像;根据所输入的归一化图像和所述重构图像来计算并输出识别距离。
由于在本发明中,根据所提取的特征与重构特征来识别并输出最终的识别字符编码,并且根据所输入的归一化图像和重构图像来计算并输出识别距离,所以本发明使用更好的特征产生了更适用于分割的识别距离,使得能够正确地分割退化文本行的字符。
附图说明
图1是传统的基于识别的分割方法的原理图。
图2是利用双子空间方法来进行字符识别的流程图。
图3是利用双子空间方法来进行字符识别的示例。
图4是根据本发明实施例的字符识别装置中所使用的字符识别方法的流程图。
图5是根据本发明实施例的字符识别装置中所使用的字符识别方法的示例。
具体实施方式
下面将参照附图说明本发明的实施例。
图4是根据本发明实施例的字符识别装置中所使用的字符识别方法的流程图。
如图4所示,根据本发明实施例的字符识别装置包括:特征提取单元402,其利用第一字典403从所输入的归一化图像401中提取特征;粗分类单元404,通过将所提取的特征和存储在第二字典405中的特征进行比较,来选择M个字符候选类别;特征重构单元406,通过使用第三字典407以及该M个字符候选类别来重构M个重构特征;图像重构单元408,通过使用第一字典403来重构M个重构图像;精细识别单元409,通过比较由特征提取单元提取的特征与重构特征之间的差异,来输出最终的识别字符编码411;识别距离计算单元410,用于输出识别距离412。
根据图4所示的流程图,对于所输入的经过归一化的字符图像401,特征提取单元402利用第一字典403提取该字符图像的特征:
Y=UT(X-X) (1)
其中 表示长度和宽度分别为w和h的经过归一化的字符图像。 是所有归一化字符图像的平均值。U=[u1,u2,...,un]T是转换矩阵,其中 第一字典403由U和X构成。公式(1)中所使用的特征提取方法称为主成份分析方法(Principal ComponentAnalysis,简称PCA)。关于PCA的具体实现参见R.O.Duda,P.E.Hart和D.G.Stork.A所著的“Pattern classification”,second edition,A Wiley-Interscience Publication John Wiley & Sons,Inc.2001.pp.115~117,568~569。
在特征提取之后,通过粗分类单元404将所提取的特征Y和预先存储在第二字典405中的每一个字符类别的特征进行比较。特征比较的算法很多,其中一种是基于欧式距离的比较方法:Di=|Y-Yi|,其中Di是特征Y与第i字符类别的特征Yi的欧式距离。假设粗分类单元404输出的候选字符类别的数量是M,则选择具有最小欧式距离的M个字符类别作为粗分类的输出。
公式(3)可以从公式(1)推导出来。公式(4)用于将重构图像的像素点的取值范围归一化为0~255。该范围与原始图像的像素点的取值范围是一致的。
图5示出了通过根据本发明实施例的字符识别装置中所使用的字符识别方法得到的识别距离。可以看出,图5中的识别距离对于分割来说更加合理。“開”的识别距离是104.78,而它的四个组成部分的识别距离之和是494.02,远远大于“開”本身的识别距离104.78。因此可以正确地分割和识别该字符。
尽管实施例中采用的示例字符是日文字符,但是本方法不仅仅限于日语,其还可以适用于中文和韩文等其它文字。
Claims (14)
1. 一种用于退化文字行的字符识别装置,该字符识别装置包括:
特征提取单元,利用第一字典从所输入的归一化图像中提取特征;
粗分类单元,通过将所提取的特征与存储在第二字典中的特征进行比较,来选择特定数量的字符候选类别;
特征重构单元,通过使用第三字典以及所选择的特定数量的字符候选类别来重构数量为所述特定数量的重构特征,
其特征在于,还包括:
精细识别单元,根据由所述特征提取单元提取的特征与所述重构特征来识别并输出最终的识别字符编码;
图像重构单元,通过使用所述第一字典以及由所述特征重构单元生成的重构特征来重构数量为所述特定数量的重构图像;
识别距离计算单元,用于根据所输入的归一化图像和所述图像重构单元生成的重构图像来计算并输出识别距离。
2. 根据权利要求1所述的字符识别装置,其中所述精细识别单元比较由所述特征提取单元提取的特征与所述重构特征之间的差异,并输出与差异最小的重构特征相对应的字符编码作为所述最终的识别字符编码。
3. 根据权利要求1所述的字符识别装置,其中所述图像重构单元将所述重构图像的像素点的取值范围归一化为0到255的范围。
4. 根据权利要求1所述的字符识别装置,其中所述识别距离计算单元计算所输入的归一化图像与所述图像重构单元生成的重构图像之间的距离,并将其中的最小距离输出为所述识别距离。
5. 根据权利要求1到4中的任何一个所述的字符识别装置,其中所述第一字典由一转换矩阵和所有归一化图像的平均值构成。
6. 根据权利要求1到4中的任何一个所述的字符识别装置,其中所述第二字典存储有每一个字符类别的特征。
7. 根据权利要求1到4中的任何一个所述的字符识别装置,其中所述第三字典存储有每一个字符类别的转换矩阵和平均特征向量。
8. 一种用于退化文字行的字符识别方法,该字符识别方法包括以下步骤:
利用第一字典从所输入的归一化图像中提取特征;
通过将所提取的特征与存储在第二字典中的特征进行比较,来选择特定数量的字符候选类别;
通过使用第三字典以及所选择的特定数量的字符候选类别来重构数量为所述特定数量的重构特征;
根据所提取的特征与所述重构特征来识别并输出最终的识别字符编码;
通过使用所述第一字典以及所述重构特征来重构数量为所述特定数量的重构图像;
根据所输入的归一化图像和所述重构图像来计算并输出识别距离。
9. 根据权利要求8所述的字符识别方法,其中识别并输出最终的识别字符编码的所述步骤比较所提取的特征与所述重构特征之间的差异,并输出与差异最小的重构特征相对应的字符编码作为所述最终的识别字符编码。
10. 根据权利要求8所述的字符识别方法,其中重构图像的所述步骤将所述重构图像的像素点的取值范围归一化为0到255的范围。
11. 根据权利要求8所述的字符识别方法,其中计算并输出识别距离的所述步骤计算所输入的归一化图像与所述重构图像之间的距离,并将其中的最小距离输出为所述识别距离。
12. 根据权利要求8到11中的任何一个所述的字符识别方法,其中所述第一字典由一转换矩阵和所有归一化图像的平均值构成。
13. 根据权利要求8到11中的任何一个所述的字符识别方法,其中所述第二字典存储有每一个字符类别的特征。
14. 根据权利要求8到11中的任何一个所述的字符识别方法,其中所述第三字典存储有每一个字符类别的转换矩阵和平均特征向量。
Priority Applications (2)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CNB2005100935293A CN100409251C (zh) | 2005-08-26 | 2005-08-26 | 用于退化文字行的字符识别装置和方法 |
JP2006226997A JP5028911B2 (ja) | 2005-08-26 | 2006-08-23 | 文字列認識プログラム、方法および装置 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CNB2005100935293A CN100409251C (zh) | 2005-08-26 | 2005-08-26 | 用于退化文字行的字符识别装置和方法 |
Publications (2)
Publication Number | Publication Date |
---|---|
CN1920855A CN1920855A (zh) | 2007-02-28 |
CN100409251C true CN100409251C (zh) | 2008-08-06 |
Family
ID=37778575
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CNB2005100935293A Expired - Fee Related CN100409251C (zh) | 2005-08-26 | 2005-08-26 | 用于退化文字行的字符识别装置和方法 |
Country Status (2)
Country | Link |
---|---|
JP (1) | JP5028911B2 (zh) |
CN (1) | CN100409251C (zh) |
Families Citing this family (7)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN100535931C (zh) * | 2006-09-06 | 2009-09-02 | 中国科学院自动化研究所 | 一种多分辨率退化字符自适应识别系统及方法 |
CN101359373B (zh) * | 2007-08-03 | 2011-01-12 | 富士通株式会社 | 退化字符的识别方法和装置 |
US8270719B2 (en) * | 2008-10-14 | 2012-09-18 | Gemological Appraisal Association, Inc. | Gem pattern matching algorithm to determine the percentage match of a target gem pattern to a database of gem patterns |
US20120072013A1 (en) * | 2010-09-16 | 2012-03-22 | Kabushiki Kaisha Toshiba | Character recognition apparatus, sorting apparatus, sorting control apparatus, and character recognition method |
JP6341059B2 (ja) * | 2014-10-31 | 2018-06-13 | オムロン株式会社 | 文字認識装置、文字認識方法、およびプログラム |
CN108304882B (zh) * | 2018-02-07 | 2022-03-04 | 腾讯科技(深圳)有限公司 | 一种图像分类方法、装置及服务器、用户终端、存储介质 |
CN110826567B (zh) * | 2019-11-06 | 2023-04-07 | 北京字节跳动网络技术有限公司 | 光学字符识别方法、装置、设备及存储介质 |
Citations (3)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
JPH09237322A (ja) * | 1995-12-28 | 1997-09-09 | Nec Corp | 認識装置の候補修正方式 |
US6038343A (en) * | 1996-02-06 | 2000-03-14 | Hewlett-Parkard Company | Character recognition method and apparatus using writer-specific reference vectors generated during character-recognition processing |
CN1459761A (zh) * | 2002-05-24 | 2003-12-03 | 清华大学 | 基于Gabor滤波器组的字符识别技术 |
Family Cites Families (4)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
JPS62130481A (ja) * | 1985-11-30 | 1987-06-12 | Nec Corp | 文字認識方式 |
JPH08194781A (ja) * | 1995-01-17 | 1996-07-30 | N T T Data Tsushin Kk | 文字認識装置の評価方法及び装置 |
JP2001223885A (ja) * | 1999-11-29 | 2001-08-17 | Canon Inc | 画像処理装置及びその方法とその記憶媒体 |
JP4442208B2 (ja) * | 2003-12-08 | 2010-03-31 | 株式会社日立製作所 | 文字列表記解析手法及び装置 |
-
2005
- 2005-08-26 CN CNB2005100935293A patent/CN100409251C/zh not_active Expired - Fee Related
-
2006
- 2006-08-23 JP JP2006226997A patent/JP5028911B2/ja not_active Expired - Fee Related
Patent Citations (3)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
JPH09237322A (ja) * | 1995-12-28 | 1997-09-09 | Nec Corp | 認識装置の候補修正方式 |
US6038343A (en) * | 1996-02-06 | 2000-03-14 | Hewlett-Parkard Company | Character recognition method and apparatus using writer-specific reference vectors generated during character-recognition processing |
CN1459761A (zh) * | 2002-05-24 | 2003-12-03 | 清华大学 | 基于Gabor滤波器组的字符识别技术 |
Non-Patent Citations (6)
Title |
---|
a gray-scale image based character recognition algorithmto low quality and low-resolution images. Xuewen Wang, Xiaoqing Ding, Changsong Liu.Proceedings of SPIE,Vol.4307 . 2001 |
a gray-scale image based character recognition algorithmto low quality and low-resolution images. Xuewen Wang, Xiaoqing Ding, Changsong Liu.Proceedings of SPIE,Vol.4307 . 2001 * |
质量退化的车牌字符分割方法. 李文举,梁德群,王新年,于东.计算机辅助设计与图形学学报,第16卷第5期. 2004 |
质量退化的车牌字符分割方法. 李文举,梁德群,王新年,于东.计算机辅助设计与图形学学报,第16卷第5期. 2004 * |
退化字符图象的骨架法形态分析识别方法. 卢达,浦炜,谢铭培.计算机工程,第25卷第9期. 1999 |
退化字符图象的骨架法形态分析识别方法. 卢达,浦炜,谢铭培.计算机工程,第25卷第9期. 1999 * |
Also Published As
Publication number | Publication date |
---|---|
JP2007066310A (ja) | 2007-03-15 |
JP5028911B2 (ja) | 2012-09-19 |
CN1920855A (zh) | 2007-02-28 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
Raghunandan et al. | Riesz fractional based model for enhancing license plate detection and recognition | |
CN107133622B (zh) | 一种单词的分割方法和装置 | |
US8587685B2 (en) | Method and apparatus for retrieving label | |
Gebhardt et al. | Document authentication using printing technique features and unsupervised anomaly detection | |
Demirel et al. | Pose invariant face recognition using probability distribution functions in different color channels | |
Mostofa et al. | Deep gan-based cross-spectral cross-resolution iris recognition | |
CN112907598B (zh) | 一种基于注意力cnn文档证件类图像篡改检测方法 | |
Zheng et al. | A parallel-line detection algorithm based on HMM decoding | |
AlKhateeb et al. | DBN-Based learning for Arabic handwritten digit recognition using DCT features | |
CN113033567B (zh) | 一种融合分割网络和生成网络的甲骨拓片图像字符训练方法 | |
CN101140625A (zh) | 一种多分辨率退化字符自适应识别系统及方法 | |
JP2009037621A (ja) | 低品質文字の識別方法及び装置 | |
Dastmalchi et al. | Super-resolution of very low-resolution face images with a wavelet integrated, identity preserving, adversarial network | |
JP5028911B2 (ja) | 文字列認識プログラム、方法および装置 | |
Zahedi et al. | Farsi/Arabic optical font recognition using SIFT features | |
Roy et al. | Date-field retrieval in scene image and video frames using text enhancement and shape coding | |
Nguyen et al. | Rubik Gaussian-based patterns for dynamic texture classification | |
Ramteke et al. | Recognition of off-line MODI script: a structure similarity approach | |
Dahi et al. | Primitive printed arabic optical character recognition using statistical features | |
Malik | Handwritten Marathi compound character segmentation using minutiae detection algorithm | |
CN112070116A (zh) | 一种基于支持向量机的艺术画作自动分类系统及方法 | |
Tiecheng et al. | Color context binary pattern using progressive bit correction for image classification | |
Choudhury et al. | Recognition of handwritten Bangla numerals using adaptive coefficient matching technique | |
CN100430958C (zh) | 调整候选字符的初始识别距离的方法和装置 | |
Oprean et al. | Handwritten word preprocessing for database adaptation |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
C06 | Publication | ||
PB01 | Publication | ||
C10 | Entry into substantive examination | ||
SE01 | Entry into force of request for substantive examination | ||
C14 | Grant of patent or utility model | ||
GR01 | Patent grant | ||
CF01 | Termination of patent right due to non-payment of annual fee | ||
CF01 | Termination of patent right due to non-payment of annual fee |
Granted publication date: 20080806 |