[go: up one dir, main page]

CN1505431A - 用于从图象屏识别字符图象的装置和方法 - Google Patents

用于从图象屏识别字符图象的装置和方法 Download PDF

Info

Publication number
CN1505431A
CN1505431A CNA031581250A CN03158125A CN1505431A CN 1505431 A CN1505431 A CN 1505431A CN A031581250 A CNA031581250 A CN A031581250A CN 03158125 A CN03158125 A CN 03158125A CN 1505431 A CN1505431 A CN 1505431A
Authority
CN
China
Prior art keywords
character
image
character data
pixel
input
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Granted
Application number
CNA031581250A
Other languages
English (en)
Other versions
CN1330203C (zh
Inventor
�ֲɻ�
林采焕
徐正旭
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Samsung Electronics Co Ltd
Original Assignee
Samsung Electronics Co Ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Priority claimed from KR1020030053137A external-priority patent/KR100593986B1/ko
Application filed by Samsung Electronics Co Ltd filed Critical Samsung Electronics Co Ltd
Publication of CN1505431A publication Critical patent/CN1505431A/zh
Application granted granted Critical
Publication of CN1330203C publication Critical patent/CN1330203C/zh
Anticipated expiration legal-status Critical
Expired - Fee Related legal-status Critical Current

Links

Images

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V30/00Character recognition; Recognising digital ink; Document-oriented image-based pattern recognition
    • G06V30/10Character recognition
    • G06V30/12Detection or correction of errors, e.g. by rescanning the pattern
    • G06V30/127Detection or correction of errors, e.g. by rescanning the pattern with the intervention of an operator
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V30/00Character recognition; Recognising digital ink; Document-oriented image-based pattern recognition
    • G06V30/10Character recognition
    • G06V30/16Image preprocessing
    • G06V30/162Quantising the image signal
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V30/00Character recognition; Recognising digital ink; Document-oriented image-based pattern recognition
    • G06V30/10Character recognition

Landscapes

  • Engineering & Computer Science (AREA)
  • Computer Vision & Pattern Recognition (AREA)
  • Physics & Mathematics (AREA)
  • General Physics & Mathematics (AREA)
  • Multimedia (AREA)
  • Theoretical Computer Science (AREA)
  • Character Discrimination (AREA)
  • Character Input (AREA)

Abstract

一种用于启动具有照相机的移动终端存储文档信息的装置和方法。显示由该照相机检测的文档的图象。响应文档“RECOGNIZE”键输入,从所显示的文档图象识别字符图象并将该字符图象转换成字符数据。在第一显示区上显示字符数据,以及在第二显示区上显示SAVE项。从所显示的SAVE项选择SAVE项以及选择与所选定的SAVE项有关的字符数据,以便能在第三显示区上显示所选定的SAVE面和与所选定的SAVE项有关的字符数据。当输入“CORRECT”键时,在第三显示区上显示与错误识别的字符数据有关的候选字符。在用选定的候选字符校正或代替错误识别的字符后,在第三显示区显示校正结果。当输入“CONFIRM”键,存储在第三显示区上显示的SAVE项和字符数据。

Description

用于从图象屏识别字符图象的装置和方法
技术领域
本发明涉及字符识别装置和方法,以及更具体地说,涉及用于从图象或画面屏识别字符图象的装置和方法。
背景技术
移动终端近来已经发展成能传送高速数据。具体来说,基于国际移动通信-2000(IMT-2000)标准的移动通信网络能使用小型移动终端实现高速数据通信。用于执行数据通信的数据可是分组数据和图象或画面数据。
由于当上述移动终端接收输入信息时,使用能力受限的键盘,因此字符输入该当  很复杂。当移动终端使用基于软键盘的输入单元时,字符输入速率很慢而且字符输入方法非常复杂。因此,可使用字符识别设备和/或语音识别设备来解决该软键盘的缺陷。但是,因为在使用手写字符识别设备的情况下,字符识别和输入速率很慢。类似地,在使用语音识别设备的情况下,也存在问题,因为仅能识别有限多个字。为此,能使用包括单独的硬件设备的键盘输入单元来输入字符。然而,上述方法具有必须在移动终端中提供用于输入字符的另外的设备的问题。
近来图象处理功能增加到了移动终端,从而移动终端能具有合成功能。在这种情况下,移动终端的图象处理装置包括用于检测图象的照相机以及用于显示由该照相机检测的画面的信号的显示单元。此时,该照相机能使用电荷耦合器件(CCD)图象传感器或互补金属氧化物半导体(CMOS)图象传感器,以及该显示单元能使用液晶显示器(LCD)。由于已经开发了小型照相机设备,因此目前使图象检测设备小型化。在这种情况下,移动终端能执行图象检测操作、在屏幕上显示活动画面和静止画面并传送检测的图象。然而,具有该照相机的移动终端仅执行检测、存储、管理和传送图象或画面的功能。
移动终端能是移动电话或个人数字助理(PDA)。在PDA的字符输入方法中,用记录表输入基于软键盘的字符或通过手写字符识别输入字符。然而,在用传统字符输入方法输入大量字符的情况下,由于慢处理速率以及复杂的过程,用户感到不方便。特别地,当将带有个人姓名和其他信息的名片的内容输入PDA时,需要更多的时间和精力。因此,急切地需要一种能改进当前输入方法或使用户更方便的方法。
发明内容
因此,鉴于上述问题,做出了本发明,以及本发明的目的是提供能通过具有图象处理功能的设备,从图象或画面屏识别字符图象的装置和方法。
本发明的另一目的是提供能通过具有图象处理功能的设备,从图象或画面屏识别字符画面,以及能以设定的文档形式保存所识别的字符图象的装置和方法。
本发明的另一目的是提供能通过具有图象处理功能的设备,从图象或画面屏识别字符图象,并能校正包含在所识别的字符图象中的错误识别的字符的装置和方法。
本发明的另一目的是提供能通过具有画面处理功能的装置,从图象或画面屏抽取字符图象,并能预处理所抽取的字符图象以便将其转换成可识别形式的装置和方法。
本发明的另一目的是提供能使用终端设备所具有的照相机检测文档,从所检测的文档的图象识别字符,并在校正过程中使用候选字符表校正错误识别字符的装置和方法。
本发明的另一目的是提供能使用终端所具有的照相机和语音识别器检测文档,从所检测的文档的图象识别字符,并在校正过程中使用语音识别器校正错误识别的字符的装置和方法。
本发明的另一目的是提供能使用终端所具有的照相机检测文档,从所检测的文档的图象识别字符,并通过识别由用户输入的手写字符,在校正过程中校正错误识别的字符的装置和方法。
本发明的另一目的是提供能使用终端所具有的照相机检测文档,将所检测的文档的图象识别为字符,并在校正过程中使用软键盘校正错误的字符的装置和方法。
本发明的另一目的是提供能使用移动通信终端所具有的照相机检测包含电话簿的文档,并识别和保存包含在所检测的文档的图象内的电话簿信息的装置和方法。
附图说明
从下述结合附图的详细的描述,将更容易理解本发明的上述和其他目的、特征和其他优点,其中:
图1是示例说明用于根据本发明的实施例的识别字符的装置的示例性结构的框图;
图2是示例说明根据本发明的第一实施例的示例性字符识别方法的流程图;
图3是示例说明如图2所示的根据本发明的实施例的示例性文档检测过程的详细流程图;
图4是示例说明包含在根据本发明的实施例的示例性的文档图象处理设备中的预处理器121的结构的框图;
图5是示例说明根据本发明的实施例的示例性用于检测模糊图象的图4中所示的模糊图象检测部件的结构的框图;
图6是示例说明根据本发明的实施例的示例性图5所示的块分类部件的结构的框图;
图7是示例说明根据本发明的实施例的示例性图5所示的字符块(CB)能量计算(energy calculation)的结构的框图;
图8是示例说明根据本发明的实施例的示例性的通过模糊图象检测部件,检测模糊图象的过程的流程图;
图9是示例说明根据本发明的实施例的示例性的用于校正包含在图4所示的图象中的歪斜(skew)目标的歪斜校正部件的结构的框图;
图10是示例说明图9所示的根据本发明的实施例的示例性的二进制部件的结构的框图;
图11是示例说明图10所示的根据本发明的实施例的示例性的块分类部件的结构的框图;
图12是示例说明通过图9所示的根据本发明的实施例的示例性的歪斜角判定部件,计算条纹(stripe)的歪斜角的过程的图;
图13是示例说明示例说明根据本发明的实施例的示例性的通过歪斜校正部件校正图象内的目标歪斜的过程的流程图;
图14是示例说明根据本发明的实施例的示例性的用于扩展包含在图4所示的图象内的字符区的内容区(ROC)扩展部件的结构的框图;
图15是示例说明图14所示的根据本发明的实施例的示例性的块分类部件的结构的框图;
图16是示例说明根据本发明的实施例的示例性的通过ROC扩展部件扩展字符区的过程的流程图;
图17A是示例说明与图4所示的噪声降低部件有关的根据本发明的实施例的示例性的相邻象素的视图;
图17B是示例说明与图4所示的噪声降低部件有关的根据本发明的实施例的示例性的中心象素的四个方向的视图;
图18A-18D是示例说明在与图4所示的噪声降低部件有关的根据本发明的实施例的示例性的各个方向中的象素的视图;
图19是示例说明图4所示的根据本发明的实施例的示例性的图象二进制部件的结构的框图;
图20是示例说明图19所示的根据本发明的实施例的示例性的边缘强化部件的结构的框图;
图21是示例说明图19所示的根据本发明的实施例的示例性的边缘强化部件的结构的框图;
图22是示例说明根据本发明的实施例的示例性的在边缘强化部件中增强字符块的边缘的过程的流程图;
图23是示例说明根据本发明的实施例的示例性的通过使用二次滤波器的图象二进制部件,二进制图象的过程的流程图;
图24A和24B是示例说明根据本发明的实施例的示例性的字符识别和SAVE项选择过程的流程图;
图25A和25B是示例说明根据本发明的实施例的示例性的错误校正过程的流程图;
图26A至26E是示例说明根据本发明的实施例的示例性的在文档检测过程中显示该显示单元的屏幕状态的视图;
图27A和27B是示例说明根据本发明的实施例的示例性的在字符识别和SAVE项选择过程显示该显示单元的屏幕状态的视图;
图28A至28D是示例说明根据本发明的实施例的示例性的错误校正过程中显示该显示单元的屏幕状态的视图;
图29A至29B是示例说明根据本发明的实施例的示例性的错误校正过程后显示该显示单元的屏幕状态的视图;
图30是示例说明根据本发明的第二实施例的示例性的文档识别过程的流程图;
图31是示例说明图30所示的文档检测过程的流程图;
图32是示例说明图30所示的根据本发明的实施例的示例性的字符识别、SAVE项选择和存储过程的流程图;
图33是示例说明图32所示的根据本发明的实施例的示例性的SAVE项选择过程的流程图;以及
图34A至34D是示例说明图30所示的根据本发明的实施例的示例性的错误校正过程的流程图。
具体实施方式
根据本发明的实施例,具有图象处理功能的终端设备从图象或画面屏识别字符图象,然后以文档的形式保存所识别的字符图象。换句话说,当根据本发明的优选实施例识别字符图象并将所识别的字符图象存储为文档时,能提高用户输入字符的能力,能简化用户操作输入单元,通过语音识别,能容易校正字符识别过程中错误识别的字符,以及能输入大量文本。
为实现该功能,本发明的终端设备具有在从图象屏识别字符图象后,用于预处理包含在图象屏中的字符图象的功能、用于从预处理图象识别字符图象的功能,以及用于校正所识别的字符图象的错误识别的字符图象的功能。此外,将校正错误识别的字符信息,本发明的终端设备能具有用于校正的用户接口,该用户接口具有用于通过语音校正错误识别的字符所需的语音识别功能、用于在手写字符输入的基础上,校正错误识别的字符所需的手写字符识别功能、显示和选择与错误识别的字符类似的显示和选择候选字符的功能和/或用软键盘输入与错误识别的字符对应的字符的功能。
本发明的终端设备包括上述元件、从图象或画面屏识别的字符图象、编辑所识别的字符图象的文档并保存所编辑的文档。文档可是基于预定格式。终端设备具有照相机并可是用于通过照相机检测将识别的文档并从检测的文档图象识别字符图象的设备。另外,终端设备是具有通信功能的设备,并能从所接收的图象识别字符图象以及将所识别的字符图象存储为文档。此外,终端设备包括外部输入设备,并能存储从该外部输入设备输入的图象,从所存储的图象识别字符图象,以及将所识别的图象存储为文档。
为实现上述功能,优选地,将能执行微调焦点的照相机用在该终端设备中。使用微调焦点来是增强将识别的文档图象的分辨率。
如上所述,用于字符识别的图象预处理功能需要硬件和软件规格的支持。硬件规格必须支持用于检测的图象的微调焦点、确保12fps的最小显示速率以便在焦点调整过程中能确认最佳焦点状态,并确保采集用于字符识别的最佳图象质量所需的优质透镜。软件预处理必须能从经针孔透镜获得的原始照相机图象去除图象失真,从图象去除在近视场中检测的图象的焦点不匹配引起的失真,确定字符大小和焦点调整是否适合于字符识别、从图象去除由于不垂直投影引起的图象失真,并在各种照明条件下,二进制化做为目标的字符数据。
如上所述,需要字符识别功能来识别由照相机检测的文档的图象。为了字符识别,必须开发用于识别光学字符的工具,与该工具有关的可处理数据量必须低于可处理数据的预定量(例如,5兆字节),打印的英文字母、韩文字符和数字的各种字体必须能识别,以及每个字符的最小识别百分比必须是80%。此外,优选地,在终端设备中提供语音识别模块以便能在错误校正过程中校正错误的字符。此外,必须实现用于由字符识别和语音识别输入的文本的用户接口。
假定根据本发明的实施例的终端设备是个人数字助理(PDA),以及检测文档是带有个人姓名和其他信息的名片。检测名片的图象,预处理检测的图象,从预处理的图象抽取字符图象,识别所抽取的字符图象,将所识别的字符图象转换成字符数据,校正错误识别的字符数据,并将所校正的字符存储在电话簿中。现在将详细地描述该例子。
根据本发明的实施例,下述方法能使用各种输入单元(例如,字符识别器、语音识别器、笔和键盘),容易将具有大量信息的文档,诸如带有个人姓名和其他信息的名片输入到PDA中。
首先,使用PDA中内置的照相机检测名片或文档的图象,通过预处理器预处理包含在所检测的图象中的字符图象以便能产生清楚的字符图象,由字符识别器识别预处理的字符图象,以及将所识别的字符图象转换成字符数据。使用各种装置,诸如记录笔、语音识别器、手写字符识别器、软键盘等等校正错误识别的字符数据,以及将字符数据存储在数据库的所需存储区中。
图1是示例说明根据本发明的实施例的用于从图象屏识别字符图象的移动终端的示例性结构的框图。
参考图1,移动终端包括控制器101,用于控制识别文档的移动终端的整个操作。存储器103执行存储用于控制移动终端的操作的程序,或暂时存储执行该程序时生成的数据的功能。
照相机107执行检测文档的图象的功能。此时,该文档可是带有个人姓名和其他信息的名片。照相机107能执行预处理功能。换句话说,照相机107能调整目标的焦点和焦距,并提高所检测的图象的质量。图象处理器109能执行将所检测的图象转换成数字数据并压缩该数字数据的功能。图象处理器109能使用在本发明的申请人先前提交的韩国专利申请No.2002-22844中公开的图象处理器。
音频处理器111用于校正执行该程序时生成的错误字符的语音信号,以及处理用于显示执行该程序时的执行和导航结果的语音信号。能和显示单元115一体化的触摸屏模块的如输入单元113。
输入单元113允许用户使用记录笔输入所需字符和功能键。输入单元113包括“SHOOT”键、“RECOGNIZE”键、“CONFIRM”键、“CORRECT”键、“END”键、“INSERT”键、“CANCEL”键等等。“SHOOT”键用于检测检测图象、显示所检测的图象并存储在屏幕上显示的所检测的图象。“RECOGNIZE”键用于从当前显示的图象屏识别字符图象。在所识别的文档具有不同特定格式的情况下,能提供不同文档识别键。例如,在文档是带有个人姓名和其他信息的名片的情况下,文档信息可构成移动终端的电话簿。在这种情况下,在输入单元113上提供名片“RECOGNIZE”键。如果可选择地在表中存储记录在名片上的公用信息项,那么能容易创建移动终端电话簿。“CONFIRM”键用于记录所选择的项的字符数据。“CORRECT”键用于校正所选择的项的字符数据。“INSERT”键用于将字符插入光标所处的选定文本位置。换句话说,在从字符识别结果的文本删除至少一个字符的情况下,可将新字符插入光标位置前。“CANCEL”键用于取消选定项的字符数据。“END”键用于完成当前操作。
键输入单元105包括用于设置移动终端的各种功能的功能键。此时,能安置在键输入单元105上的功能键包括语音“RECOGNIZE”键,用于驱动语音识别器129、焦点和焦距调整键,用于控制照相机107的预处理操作,以及“SHOOT”键,用于存储由照相机107输出的预览图象。当然,可在输入单元113中提供能安置在键输入单元105上的键。在本发明的实施例中,为了便于说明,所有功能键均安置在输入单元113上。在这里,照相机107、输入单元113、音频处理器111以及键输入单元105可分别操作为输入设备。
显示单元115执行显示根据本发明的实施例所执行的字符识别过程的结果的功能。换句话说,显示单元115将由照相机107检测的图象显示为预览屏并在字符识别模式中显示字符识别的结果。显示单元115包括能显示错误校正过程的结果的显示区。显示单元115包括第一显示区71、第二显示区75以及第三显示区73(如图27A所示)。第一显示区71显示识别的字符数据,第三显示区73显示与选定的SAVE项有关的字符数据或用于错误校正过程的候选字符数据,以及第二显示区75能包括用于有选择地显示SAVE项信息、输入来校正错误的手写字符和/或用于使用软按键输入所需字符的软键盘的显示区。根据本发明的实施例,能将用于在字符识别过程中显示用于各个命令输入的菜单信息的特定区适当地放置在第一、第二和第三显示区71、75和73中。
当从输入单元113输入字符“RECOGNIZE”键时,控制器101驱动预处理器121和字符识别器123。
首先,预处理器121接收在显示单元115上显示的输入图象或画面并预处理输入的画面或图象。预处理器121确定输入图象或画面是否具有可识别的分辨率或是否为模糊图象或画面。预处理器121将确定结果告知控制器101。如果确定输入图象或画面为模糊图象或画面,控制器101在显示单元115上显示表示不可识别状态的信息。另一方面,如果确定输入图象不是模糊图象,那么预处理器121确定存在目标歪斜,然后,校正该目标歪斜。预处理器121去除没有图象的区域,并扩展存在图象的区域或内容区(ROC)。预处理器121缩小图象的噪声分量,并二进制化图象的象素以便输出二进制象素。此时,预处理器121执行上述图象模糊确定、歪斜校正、ROC扩展、噪声降低以及图象二进制化功能。预处理器121仅能执行部分上述功能。
其次,字符识别器123执行从由预处理器121预处理过的输入图象识别至少一个字符图象并将所识别的字符图象转换成字符数据的功能。另外,在控制器101的控制下,在显示单元115的第一显示区71上显示所识别的字符数据。在这里,字符识别器123可由印刷字符识别模块和手写字符识别模块构成。印刷字符识别模块能用于从由预处理器121预处理过的输入图象识别字符图象,以及手写字符识别模块能用于识别在错误校正过程中输入的手写字符图象。字符识别器123能包括能将由软键盘输入的软键数据转换成字符的模块。
当从输入单元113输入错误“CORRECT”键时,控制器101驱动识别错误处理器125。识别错误处理器125通过用由语音识别器129或字符识别器123产生的校正字符校正或代替从在第一显示区71上显示的字符数据选择的错误字符来在字符识别过程中校正错误字符。
控制器101当在输入错误“CORRECT”键的状态下输入语音“RECOGNIZE”键时,驱动语音识别器129。语音识别器129识别从音频处理器111接收的语音信号。输入语音信号以便能选择用于错误校正的所需项并能校正与选定项有关的错误字符。语音识别器129执行将用于校正错误字符输入的语音信号转换成字符数据的功能。在控制器101的控制下,语音合成器127执行将字符数据的语音信号合成为识别的结果并在语音输出模式中输出合成的语音信号的功能。换句话说,在控制器101的控制下,语音合成器129执行将用于在识别过程中校正错误字符数据输入的语音信号转换成字符数据,并执行错误校正过程的功能。在完成语音识别后,语音合成器127执行合成在完成语音识别后存储的字符数据的语音信号,并输出合成的语音信号的功能。
在控制器101的控制下,数据库131执行存储功能,以便多个所识别的字符数据对应于各个项。在这里,在具有所识别的字符数据的文档为具有个人姓名和其他信息的名片的情况下,数据库131能是电话簿存储器或地址簿存储器。用户接口133执行将耦合到终端设备的用户数据与移动终端连接的功能。
如上所述,由照相机模块、输入模块(包含触摸屏)、音频模块、预处理模块、字符识别模块、识别错误校正模块、合成模块、用户接口模块等等构成根据本发明的实施例的移动终端。通过六个过程,大规模地操作移动终端。这六个过程可是图象输入过程、图象预处理、字符识别过程、SAVE项选择过程、错误校正过程以及存储过程。最初可将这些过程彼此耦合,并能通过各种方法实现。将简单地描述用于各个过程的主模块。通过照相机模块执行图象输入过程,通过预处理模块执行图象预处理,通过字符识别模块和语音识别模块执行字符识别过程,通过语音识别模块和输入模块(包含记录笔)执行SAVE项选择过程,以及通过语音识别模块、输入模块(包含记录笔)、手写字符识别模块以及软键识别模块执行错误校正过程,以及通过数据库模块执行存储过程。
可用各种方法实现文档识别过程。根据图2所示的本发明的第一实施例,检测文档图象,预处理包含在文档图象中的字符图象,从字符图象识别字符,选择与所识别的字符有关的SAVE项,校正与选定项有关的多个错误识别的字符数据,以及同时存储多个校正的字符数据。另外,根据本发明的第二实施例,检测文档图象,预处理包含在文档图象中的字符图象,从预处理的字符图象识别字符数据,选择错误校正项,校正错误识别的字符,存储所校正的字符,随后存储下一错误校正项。在这里,根据本发明的第一和第二实施例,例如,将识别的文档检测为图象。然而,能省略检测文档图象的过程。换句话说,在终端设备选择所存储的图象或外部输入的图象后选择字符识别功能,同样能执行上述操作,以便识别文档图象。
在下文中,解释根据本发明的第一实施例,由文档识别器实现,以及根据本发明的第二实施例,由文档识别器和语音识别器实现的错误校正项选择和错误校正过程。然而,在第一实施例中,能使用文档识别器和语音识别器来执行文档识别和校正,以及在第二实施例中,能仅使用文档识别器来执行文档识别和校正。
首先,将描述根据本发明的第一实施例描述文档识别方法。
图2是示例说明根据本发明的第一实施例的字符识别方法的流程图。
参考图2,控制器101允许照相机107检测文档图象以便在步骤200能产生将识别的文档图象。将由照相机107检测的文档图象由图象处理器109转换成数字数据,并在显示单元115上显示该数字数据。在这种情况下,所检测的图像能是活动图像或静止图像。在检测活动图像的情况下,控制器101允许显示器115以预览图象的形式显示所检测的运动图像。当在显示单元115显示活动图像的状态下发布静止图像俘获命令时,控制器101使得显示单元115显示静止图像。在显示单元115上显示的图象可是一般图象,以及可是包括对应于带有个人姓名和其他信息等等的名片的字符图象的另外的图象。假定根据本发明的补入例,所检测的图象包括字符图象。
能有选择地省略上述步骤200。在这种情况下,能由用户在显示单元115上显示存储的图象或输入图象。换句话说,如果用户期望识别文档,有选择地显示所存储的图象或输入图象,以及在显示图象的同时能执行字符识别过程。
在上述情况下,当终端设备的用户通过输入单元113输入用于在当前显示的图象中识别字符图象的按键时,根据本发明的实施例,执行文档识别方法。在这里,假定识别键为文档“RECOGNIZE”键。在步骤210,响应输入的文档输入键,控制器101驱动预处理器121。预处理器121由模糊图象检测部件、歪斜校正部件、内容区(ROC)扩展部件、噪声降低部件以及图象二进制部件构成。将参考图4详细地描述预处理器121的详细操作。
在完全预处理图象后,将预处理的图象输入字符识别器123。字符识别器123从预处理的图象识别字符图象并将所识别的字符图象转换成字符数据。在这里,字符识别器123能使用基于语言的相应的识别器。在本发明的实施例中,在字符数据为英语的情况下,能使用主要识别英文的ABBYY的FineReader5.0TM办公室试用版,以及在字符数据为韩文的情况下,能使用用于识别韩文和英文的HIART的GN2000TM版。基于文档输入键的类型,控制器101允许显示单元115的第一显示区71显示由字符识别  123识别的字符数据,以及允许显示单元115的第二显示区75显示项目信息。
然后,当用户选择在显示单元115的第一显示区71上显示的所识别的字符数据以及在第二显示区75上显示的SAVE项时,在步骤230,控制器101使得显示单元115的第三显示区73显示所选定的字符数据以及SAVE项。能仅选择和存储与所识别的文档项有关的所需SAVE项。例如,卡片,比如名片,包括许多项,诸如个人姓名、移动电话号码、电子邮件地址、公司地址、公司电话号码、传真号码等等。在这种情况下,用户能从许多项中选择所需项并在终端设备中存储选定项。
当输入“CORRECT”键时,控制器101执行步骤240以便能校正所识别的字符数据的错误识别的字符。此时,校正方法显示与错误识别的字符有关的候选的或者可能的字符组。如果选择一个候选字符,控制器101通过选定的候选字符校正或代替错误识别的字符。然而,在不能用任何候选字符校正或代替错误识别的字符的情况下,用户通过输入单元113输入用于校正的手写字符,以及控制器101驱动字符识别器123以便能识别该手写字符并能执行错误校正过程。另外,除手写字符识别模块外,提供软键盘。在这种情况下,启动用于分析由软键盘输入的软键数据以及用该软键数据校正或代替错误识别的字符的方法。
即使改变在上述步骤230的SAVE项选择过程以及在上述步骤240的错误校正过程的顺序,也能实现相同的有利效果。
在完成错误校正过程后,控制器101将全部校正过的字符数据存储在数据库131中。
图3是示例说明在图2所示的根据本发明的实施例的示例性的上述步骤210执行的文档检测过程的流程图。
参考图3,用户将要识别的所需文档放置在适当的位置上,并使用在终端设备中提供的照相机107检测所需文档。由图象处理器109处理由照相机107检测的所需文档的图象,并在显示单元115上显示所处理的图象。此时,如果终端设备的用户输入安置在键输入单元105或输入单元113上的照相机调整键,控制器101自动检测在步骤313输入的检测照相机调整键,并在步骤315控制该照相机107。在这里,焦距调整方法执行变焦功能并调整目标和终端设备间的焦距,或能是允许用户位移该终端设备的方法。另外,曝光时间调整方法能控制在照相机107中提供的图象传感器的曝光。能省略上述调整方法或仅使用一种调整方法。文档检测方法能检测整个文档或能检测所需文档部分。如图26A和26B所示,所检测的文档是带有个人姓名和其他信息的名片以及示出了检测部分名片的例子。
如图26A所示,在显示单元115上显示所检测的文档的图象。在这种情况下,当用户使用记录笔输入该输入单元113的“SHOOT”键,或输入该键输入单元105的静止图像俘获键时,在步骤317,控制器101自动检测该键输入并在步骤319,使得该显示单元115显示与在“SHOOT”键输入时间点的文档图象对应的静止图像,如图26C所示。如果如图26A所示的在显示单元115上显示的文档图象很好,用户使用记录笔输入安置在输入单元113上的“SAVE”键,如果输入“SAVE”键,在步骤321,控制器101自动检测该“SAVE”键,并将该文档图象连同该文档图象的名称存储在显示器103的图象存储区中。此时,当执行上述步骤321和323时,显示单元115执行如图26C至26E所示的显示操作。然而,当用户输入“CANCEL”键时,控制器101自动检测在步骤325输入的“CANCEL”键并停止或中止用于显示该文档图象的操作。
在上述图2的步骤200的文档检测过程中,通过照相机输入用户所需的图象,以及在通过微调提供输入图象的分辨率后,用户存储用于字符识别的图象以便获得清楚的图象。然后,通过字符识别过程从所检测的图象抽取字符,并做出关于是否将字符存储为字符数据(文本)或照片的决定。
在这里,已经描述了用于使用照相机检测将识别的文档图象并采集所检测的图象的过程。然而,文档图象能是存储的文档图象或外部输入的文档图象。此时,如果移动终端的用户做出识别请求,在步骤210执行预处理,随后,在如图2所示的步骤220执行从预处理过的图象识别字符的过程。
图4是示例说明图1所示的根据本发明的实施例的示例性的预处理器121的结构的框图。
参考图4,能从通信接口,诸如照相机、扫描仪、调制解调器、网络等等或能从计算机生成由预处理器121接收的输入信号,即。图象信号。另外,由预处理器121接收的输入图象能是存储在存储器103中的图象信号。
模糊图象检测部件910将输入图象分类成字符块(CB)和背景块(BB)。模糊图象检测部件910计算机用于CB的平均能量比,将该平均能量比与给定阈值进行比较,并根据比较结果,确定所输入的图象是否模糊。此时,如果输入图象是为模糊的,那么模糊图象检测部件910告知控制器101该输入图象是模糊的,并做出重新输入图象的请求。另一方面,如果输入图象不模糊,那么将输入图象传送到歪斜校正部件920。根据从模糊图象校正部件910输出的确定结果,控制器101执行控制操作以便重新生成图象或由预处理器121预处理该图象。
歪斜校正部件920将该输入图象分成基于预定大小的块,将这些块分类成CB和BB,并二进制化这些块的象素。执行用于二进制CB区的膨胀操作,并生成连接相邻字符的候选条纹(candidate stripe)。从候选条纹的总长选择具有预定长度或以上的候选条纹。计算选定候选条纹的方向角,按角度累计所计算的方向角的计算值,以及将选定的方向角确定成图象内的物理的歪斜角。在确定的歪斜角的基础上,旋转图象信号并校正图象内的目标歪斜。在不存在象素的图象区中填充特定象素,以及生成具有与输入图象相同大小的图象。
内容区(ROC)扩充部件930将由歪斜校正部件920生成的图象分成块,分析包含在这些块内的象素,将这些块分类成CB和BB,并二进制化CB的象素。执行用于二进制图象的中值滤波操作,以及去除由图象边缘(image rim)或噪声引起的错误分类的字符区。水平和垂直扫描中值滤波图象,以及搜索字符区的位置。抽取对应于所搜索的字符区的图象。根据输入图象的大小扩展所抽取的图象。
噪声降低部件940执行从ROC扩展部件930降低包含在输出图象中的噪声分量的功能。
当从照相机获得图象时通常发生噪声。在噪声分量中的典型噪声分量包括高斯噪声分量。为降低高斯噪声分量,能使用各种类型的噪声降低滤波器。在图象对应于带有个人姓名和其他信息的名片的情况下,大量信息存在于字符区的边缘处。因此,如果在图象对应于名片的情况下使用简单的噪声降低滤波器,能严重损坏字符信息。优选地,噪声降低部件940使用能缩小图象噪声同时保存边缘处的信息的滤波器。在这里,假定噪声降低部件940使用专用噪声降低滤波器,诸如方向Lee滤波器。
能将噪声降低部件940放在模糊图象检测部件910和歪斜校正部件920之间或歪斜校正部件920和ROC扩展部件930之间。可选地,能省略噪声降低部件940。
图象二进制部件950将来自ROC扩展部件930的输出图象或来自噪声降低部件940的输出图象划分成具有预定大小的块、分析这些块的象素,并将这些块分类成CB和BB。使用CB的字符象素和它们的周围象素间的关系增强CB的边缘,以及生成降低噪声分量的象素。另外,计算用于二进制化这些象素的阈值。图象边缘强化和噪声降低能使用二次滤波器(QF)或改进的二次滤波器(IQF)。将增强边缘并降低噪声分量的CB和BB的象素与阈值进行比较并二进制化,以致能产生第一和第二亮度值的象素。
将从图象二进制部件950输出的二进制图象信息应用于字符识别器123以及字符识别器123从该二进制图象信息识别字符。
根据本发明的实施例,包含在预处理器121中的模糊图象检测部件910、歪斜校正部件920、ROC扩展部件930、噪声降低部件940以及图象二进制部件950能如下图所示实现。
图5表示模糊图象检测部件910的结构;图9表示歪斜校正部件920的结构;图14表示ROC扩展部件930的结构;图17A至18D是解释噪声降低部件940的操作的视图;以及图19表示图象二进制部件950的结构。
图5表示根据本发明的实施例的示例性的图4所示的模糊图象检测部件910的结构。
参考图5,模糊图象检测部件910包括块分类部件1110,用于执行将输入图象划分为块、分析这些块的象素以及将这些块分类为CB以及BB的功能。块分类部件1110将这些块分类成CB和BB是为了使用字符区确定图象是否模糊。假定每个块具有8×8象素的大小。
CB平均能量计算部件1120计算用于从块分类部件1110输出的CB的平均能量比。计算用于CB的平均能量比为了使用字符区,通过计算用于CB的平均能量比,确定图象是否模糊。
图象模糊确定部件1130将用于从CB平均能量计算部件1120输出的CB的平均能量比与预定阈值进行比较,并根据比较结果,确定图象是否模糊。如果图象模糊确定部件1130确定图象是模糊的,图象模糊确定部件1130告知控制器101该模糊图象并请求重新输入该图象。
图6表示块分类部件1110的结构。块分类部件1110执行将图象划分成具有预定大小的块并将这些块分类成CB和BB的操作。块分类部件110分类这些块的原因是当做出关于图象是否为模糊的决定时,仅使用字符区。
参考图6,图象划分部件1111将图象划分成具有预定大小的块。在这种情况下,图象由640×640象素组成。这些块的每一个由8×8象素组成。图象划分部件1111将图象划分成4800块。
从图象划分部件1111输出的块应用于离散余弦变换(DCT)操作部件1113,以及DCT操作部件1113执行用于这些块的DCT操作以便产生DCT块。能量计算部件1115计算DCT块内主要DCT系数的绝对值之和。在这种情况下,CB内的DCT系数的能量分布值大于BB内的DCT系数的能量分布值。如上所述,可以看出CB的DCT系数的值大于BB的DCT系数的值,以及CB的某些DCT系数的绝对值的平均值相对较大。因此,在本发明的实施例中,根据实验结果,用在块分类过程中的主要DCT系数是D1-D9。因此,能由下述的等式计算第k块内的主要DCT系数的绝对值之和。
等式1
S k = Σ i = 1 | D i k |
在上述等式1中,|Di k|表示第k块的第i个主要DCT系数,以及Sk表示第k块内主要DCT系数的绝对值之和。因此,在本发明的实施例中,计算主要DCT系数D1-D9之和。
能量计算部件1115计算用于所有块在(在k=0,1,2,…,4799)的如上述等式1中所示的计算操作。将逐块计算的能量值Sk(k=0,1,2,…,4799)应用于块阈值计算部件1117。
块阈值计算部件1117执行用于逐块计算的能量值Sk(k=0,1,2,…,4799)的另外的操作,并通过将增加的能量值除以称为“TBN”的块总数产生平均值<Sk>。按下述等式2生成平均值<Sk>。平均值<Sk>变为用于将这些块确定为CB或BB的块阈值Cth。
等式2
< S k > = 1 TBN &Sigma; k = 1 TBN S k
= Cth
在上述等式2中,TBN表示块的总数。
块判定部件1119随后按逐块接收从能量计算部件1115输出的能量值(对应于用于这些块的主要DCT系数的绝对值之和。块判定部件1119通过将所接收的块能量值与块阈值Cth进行比较来确定CB或BB。此时,如果Sk≥Cth,块判定部件1119确定第k块为CB,以及如果Sk<Cth,则确定第k块为BB,如下述等式3所示。
等式3
IFSk≥Cth那么CB
          否则BB
由块分类部件1110分类的块的象素能具有0和255之间的灰度。将从块分类部件1110输出的CB的图象输入到平均能量计算部件1120。平均能量计算部件1120计算用于每个CB的能量比,然后,使用所计算的能量比,计算用于该图象内的CB的平均能量比。图7表示平均能量计算部件1120的结构。
参考图7,平均能量计算部件1120包括用于计算用于由块分类部件1110分类的每个CB的能量比的能量比计算部件1121。在这种情况下,能由下述等式4生成用于由M×M象素组成的CB的DCT系数的比率。
等式4
R k = &Sigma; m &Sigma; n ( m , n ) &Element; &Omega; L | L m , n k | &Sigma; m &Sigma; n ( m , n ) &Element; &Omega; L | L m , n k | + &Sigma; m &Sigma; n ( m , n ) &Element; &Omega; L | H m , n k |
在上述等式4中,
&Omega; L = { ( m , n ) | m , n = 0 , . . . , M - 1 , m + n = 1 , . . . , M 4 } ;
&Omega; H = { ( m , n ) | m , n = 0 , . . . , M - 1 , m + n = M 4 + 1 , . . . , 3 M 4 } ;
Lm,n k表示在第k块的(m,n)点中的低频分量的DCT系数;以及
Hm,n k表示在第k块的(m,n)点中的高频分量的DCT系数。
假定本发明的该实施例中,块是基于8×8象素(M=8)。在这里,执行用于校验低频和高频分量的点的选择的实验以便获得用于CB的能量比,以及逐步获得DCT系数的点以便计算用于每个CB的DCT能量比。此时,随着在上述实验中增加模糊度,确认用于CB的平均能量比的变量。在用于计算用于每个块的DCT系数的能量比的DCT系数中,根据实验结果,Lm,n k对应于在m+n=1或2的点处的低频分量的DCT系数,以及Hm,n k对应于在m+n=3、4、5或6的点处的高频分量的DCT系数。
如在下述等式4中,能量比计算部件1121计算用于每个CB的DCT系数的能量比Rk。平均能量比计算部件1123计算用于整个图象的DCT系数的平均能量比<Rk>。换句话说,如在下述等式5中,使用由能量比计算部件1121计算的能量比Rk,平均能量比计算部件1123计算用于整个图象的DCT系数的平均能量比<Rk>。
等式5
< R k > = 1 TCN &Sigma; k = 1 TCN R k
在上述等式5中,TCN表示CB的总数量。
如果如上所述计算用于整个图象的平均能量比<Rk>,图象模糊确定部件1130将平均能量比<Rk>与实验获得的阈值Bth进行比较,如下述等式6所示,然后确定输入图象是否模糊。换句话说,如果<Rk>≥Bth,那么图象模糊确定部件1130确定输入图象是模糊的。另一方面,如果<Rk><Bth,图象模糊确定部件1130确定该输入图象不模糊,然后将该输入图象应用于噪声降低部件940或图象二进制部件950以便能识别该输入图象。
等式6
IF<Rk>≥Bth那么模糊图象
        否则不是模糊图象
在上述等式6中,根据是否能直观地识别图象的字符信息以及二进制输出的性能,选择阈值Bth。
图8是示例说明根据本发明的实施例的示例性的用于确定输入图象是否模糊的过程的流程图。
参考图8,在步骤1151,输入图象。在这里,假定输入图象具有640×480象素的大小。在步骤1153,将图象划分成基于预定大小的块。每个块由8×8象素组成,因此产生4800块。然后,在步骤1155执行用于这些块的DCT操作。然后,在步骤1157,如在上述等式1中,计算用于每个DCT块的主要DCT系数的绝对值之和Sk(其中k=BN=0,…,4799),然后,将计算的和输出为用于每个块的能量值。然后,在步骤1159,平均用于所有块的主要DCT系数的绝对值之和,以便计算块阈值Cth(=<Sk>。在这里,通过平均用于整个图象的所有块的主要DCT系数的绝对值之和,生成块阈值Cth,并变成用于将块分类成CB或BB的标准。然后,在步骤1161,顺序存取用于所有块的主要DCT系数的绝对值之和Sk,并将该和Sk与块阈值进行比较。如果根据比较结果,对应于该块的合计值等于或大于块阈值,那么将该块确定为CB。另一方面,如果根据比较结果,对应于该块的合计值小于块阈值,那么在步骤1163,将该块确定为BB。在步骤1165计算如上述等式4所示的用于每个CB的与DCT系数有关的能量比Rk,并在步骤1167计算用于整个图象的CB的能量比Rk的平均能量比<Rk>。在步骤1169,如上述等式6所示,将用于CB的能量比Rk的平均能量比<Rk>与块阀值Bth进行比较,并做出关于该输入图象是否模糊的决定。如果<Rk>≥Bth,则确定该输入图象是模糊的,以及该方法进行到上述步骤1151。另一方面,如果<Rk><Bth,则确定该输入图象不模糊,以及告知字符识别器123输入图象为不模糊图象的事实,方法进行到步骤1160。然后,字符识别器123执行从预处理器121识别包含在预处理过的图象中的字符的操作。
图9是示例说明图4所示的根据本发明的实施例的示例性的歪斜校正部件920的结构的视图。
参考图9,二进制部件1210将输入图象划分成块,分析包含在这些块内的象素,将这些块划分成CB和BB,并二进制化CB和BB的象素。二进制部件1210将这些块分类成CB和BB是为了在二进制化字符区后,使用二进制的字符区分类字符串。
水平象素子采样部件1220水平地子采样该二进制图象,然后减少该图象的水平象素。水平象素子采样部件1220减少水平象素是为了允许当生成候选条纹时,按条纹适当地水平安置字符串。
候选条纹生成部件1230执行用于CB的膨胀操作,然后生成连接相邻字符的候选条纹。候选条纹生成部件1230执行用于二进制CB的膨胀操作,然后生成连接相邻字符的候选条纹。在本发明的一个实施例中,候选条纹生成部件1230执行用于CB的腐蚀操作以便防止条纹上下彼此连接。
在水平象素减少率的基础上,垂直象素子采样部件1240垂直地抽样转换成候选条纹的图象,并减少垂直象素。垂直象素子采样部件1240将来自由垂直象素子采样部件1240,根据水平象素减少改变的长宽比,恢复成原始长宽比。即使增加水平象素,垂直象素子采样部件1240能恢复原始长宽比。
条纹分类部件1250在减少垂直象素的条纹中分类具有预定大小或以上的条纹。条纹分类部件1250使用二进制候选条纹的矩(moment)计算模糊点大小和/或偏心率,然后分类具有预定大小或以上的条纹。这些条纹用于计算相对于图象的水平轴歪斜的、包含在该图象中的目标的方向角。换句话说,条纹分类部件1250使用彼此连接的二进制字符的条纹,然后执行分类条纹以便计算方向角的功能。
歪斜角判定部件1260计算分类的条纹的方向角,逐角累计方向角的计算值,选择具有最大计算值的方向角,以及将选定的方向角判定为该图象内的目标的歪斜角。如上所述,歪斜角判定部件1260计算分类条纹的方向角,逐角累计方向角的计算值,并将具有最大计算值的方向角判定为歪斜角。
在由歪斜角判定部件1260判定歪斜角的基础上,歪斜校正部件1270接收输入图象信号、旋转该图象信号,并校正所检测的图象的目标歪斜。
图象校正部件1280将图象信号插入校正该目标歪斜的图象角中。即,如果歪斜校正部件1270校正该图象内的目标歪斜,由于旋转该图象,出现不存在象素的区域。图象校正部件1280执行在歪斜校正未产生象素的情况下,在图象的空白区中填充特定象素的功能。此时,即使输出所填充的象素,因为所填充的象素与字符数据无关,歪斜校正部件1270的输出不影响从所检测的图象识别字符的过程。
现在将详细地描述图9所示的歪斜校正部件920的操作。
首先,输入图象由N×M象素组成。此外,输入图象能是彩色图象或不具有颜色信息的灰度级图象。在本发明的实施例中,假定输入图象是灰度级图象。
二进制部件1210接收输入图象,将输入图象划分成块,将这些块分类成CB和BB,并二进制化所分类的块图象。
图10表示二进制部件1210的结构。二进制部件1210将输入图象划分成基于预定大小的块,将这些块分类成CB和BB,并将所分类的块图象的象素二进制化为字符象素和背景象素。二进制部件1210将这些块分类成CB和BB并二进制块图象象素是为了检测字符串的方向角,由此在校正用于该图象的目标歪斜的过程中检测用于该图象的目标的歪斜角。参考图10,二进制部件1210包括块分类部件1211,用于将输入图象划分成具有给定块大小的块并将这些块分类成CB和BB。块组合部件1213,组合每个CB连同8个相邻块。阈值计算部件1215由组合块生成阈值。象素判定部件1217使用从阈值计算部件1215输出的阈值,共同将从块分类部件1211输出的BB的象素转换成具有第二亮度值的背景象素。在阈值的基础上,象素判定部件1217将CB的象素二进制成具有第一亮度值的字符象素以及具有第二亮度值的背景象素,然后输出二进制象素。
图11表示图10所示的块分类部件1211的详细结构。块分类部件1211的结构可与模糊图象检测部件910的块分类部件1110相同。图11所示的块分类部件1211的结构与图6所示的块分类部件1110相同。用于分类块的块分类部件1211的操作与块分类部件1110的操作相同。
参考图10,由块分类部件1211分类的CB的象素能具有0和255间的灰度。将从块分类部件1211输出的CB的图象输入到块组合部件1213和象素判定部件1217。
将从块分类部件1211输出的分类块应用于块组合部件1213。同时,二进制部件1210分类该图象的字符串,并共同将BB转换成具有预定亮度值的背景象素。因此,假定二进制部件1210不执行用于BB的块组合操作和阈值计算操作。
块组合部件1213执行组合从块分类部件1211输出的每个CB连同具有CB中心的8个相邻块的功能,然后生成组合块。CB由8×8象素组成。如果确定阈值来使用一个CB判别背景和字符象素,并执行二进制过程,由于块大小非常小,会发生二进制图象的块间的不连续以及阈值和相邻字符块间的差值非常大。因此,当扩展区域以便生成并二进制化组合块时,能增强二进制的可靠性。
象素阈值值计算部件1215计算用于将CB的每个象素分类成字符或背景象素的象素阈值Pth。象素阈值计算部件1215产生象素阈值Pth,并用于将CB的每个象素分类成字符或背景象素,并二进制字符或背景象素。使用选择具有两种类型的象素间的类别间方差的灰度值的Otsu的方法或Kapur的方法,能选择象素阈值Pth。假定使用Otsu方法计算象素阈值Pth。使用Otsu方法计算象素阈值Pth是基于下述等式7。在“A Threshold Selection Method from Grasy-LevelHistograms”、IEEE Trans.Systems,Man and Cybernetics,Vol.SMC-9,No.1,pp.62-66,Jan.1979中公开了由N.Otsu所产生的方法,在此作为参考。
等式7
Th 1 = arg max &sigma; B 2 T ( T )
&sigma; B 2 ( T ) = P 1 ( &mu; 1 ( T ) - &mu; ) 2 + P 2 ( T ) ( &mu; 2 ( T ) - &mu; ) 2
= P 1 ( T ) P 2 ( T ) ( &mu; 1 ( T ) - &mu; 2 ( T ) ) 2
σB 2(T):组间变差异
T:灰度值
μ:总象素的平均值
μi(T):由T定义的每个组的平均值
Pi(T):每个组的相对频率
象素判定部件1217使用象素阈值,将从块分类部件1211输出的CB象素二进制化为字符和背景象素,并共同将BB象素二进制化为背景象素。换句话说,象素判定部件1217将对应于CB图象的象素阈值Pth与CB象素值进行比较,如果CB象素的值等于或大于象素阈值Pth,将图象象素分类成字符象素,以及如果CB象素的值小于象素阈值Pth,则将图象象素分类成背景象素。根据分类结果,象素判定部件1217通过将字符象素转换成具有亮度值“α”的象素以及将背景象素转换成具有亮度值“β”的象素来执行二进制操作。用于通过象素判定部件1217二进制化CB象素的方法是基于下述等式8。
等式8
Figure A0315812500384
在上述等式8中,y(m,n)表示从块分类部件1211输出的CB的象素,Pth是象素阈值,以及yB(m,n)表示二进制CB的象素。
象素判定部件1217从块分类部件1211接收BB的象素,并共同将BB象素转换成具有亮度值“β”的象素。
参照图9,将由二进制部件1210二进制化的图象输入到候选条纹生成部件1230以及水平象素子采样部件1220。此时,假定将由二进制部件1210二进制化的图象输入到水平象素子采样部件1220中。
在给定比率的基础上,水平象素子采样部件1220水平子采样二进制化的图象。此时,假定子采样比率为2∶1,在子采样比率为2∶1的基础上,水平象素子采样部件1220水平子采样二进制化图象,并将二进制化图象的水平象素的数量减少1/2。减少水平象素的原因是允许候选条纹生成部件1230以条纹的形式适当地放置字符串。
候选条纹生成部件1230接收从二进制部件1210输出的二进制图象或接收从水平象素子采样部件1220输出的水平缩小的二进制图象。在所接收的图象的字符串的基础上,候选条纹生成部件1230形成条纹。通过由膨胀部件和腐蚀部件组成的形态滤波器实现候选条纹生成部件1230。形态滤波器对字符区执行扩展和腐蚀操作以便字符彼此靠近。换句话说,膨胀部件对二进制字符区执行膨胀操作,以致相邻字符变成彼此靠近,由此生成字符彼此靠近的字符串。在这里,能将所生成的字符串称为“候选条纹”。此外,腐蚀部件对所生成的候选条纹执行腐蚀操作。能由腐蚀操作分开由膨胀操作连接的相邻的上下条纹。在名为“Digital Image Processing”书、由R.C.Gonzalez,R.Woods,etal,第2版,Prentice Hall,pp.519-560,2002公开了上述形态滤波器,在此作为参考。
在给定比率的基础上,垂直象素子采样部件1240子采样从候选条纹生成部件1230输出的图象。在这里,假定如在水平象素子采样部件1220中,子采样比率为2∶1。垂直象素子采样部件1240能用于将与由水平象素减少缩小的图象对应的宽与长之比转换成原始图象长宽比。垂直象素子采样部件1240垂直缩小图象1/2以便输出缩小的图象。在这里,能使用水平象素放大部件来代替水平象素子采样部件1240以便能实现原始图象的大小恢复。
条纹分类部件1250能从二进制部件1210接收为二进制图象的输出图象、从候选条纹生成部件1230接收输出图象,或从垂直象素子采样部件1240接收输出图象。在这里,假定,条纹分类部件1250从垂直象素减少部件1230接收输出图象。
条纹分类部件1250对由二进制图象生成的候选条纹标记条纹号(stripe number)。具有标记的条纹号的候选条纹用于计算方向角。然后,条纹分类部件1250分析具有标记的条纹号的候选条纹,并从候选条纹判别具有预定长度或以上的条纹。条纹分类方法使用模糊点大小和偏心率。下述等式9定义将在计算模糊点大小和偏心率时使用的矩心矩(centroid moment),在下述等式9中,在p=0和q=0处计算模糊点大小。下述等式10表示用于使用矩心矩计算偏心率的方法。在由Pitas,Prentice Hall的名为“Digital Image Processing Algorithms”的书,pp326-331,1993中公开了偏心率计算方法,在此作为参考。
等式9
&mu; pq = &Sigma; x &Sigma; y ( x - x &OverBar; ) p ( y - y &OverBar; ) q
x:目标的水平矩心
y:目标的垂直矩心
等式10
e = 4 &mu; 11 2 + ( &mu; 20 - &mu; 02 ) 2 ( &mu; 20 + &mu; 02 ) 2
在上述等式10中,偏心率e表示候选条纹的长度。
由上述等式9和10计算的模糊点大小μ(=μ00)以及偏心率e与给定阈值值μth和eth进行比较,并将候选条纹选择为有效条纹。在这里,通过预定实验计算阈值μth和eth。在μ≥μth和/或e≥eth的情况下,将相应的候选条纹分类为有效条纹。在本发明的该实施例中,假定在μ≥μth和e≥eth的情况下,将相应的候选条纹分类为有效条纹以及在μ<μth或e<eth的情况下,不将相应的候选条纹选择为有效条纹。在μ<μth或e<eth的情况下,将相应的候选条纹确定为不是适合于计算方向角的条纹,以及不将其选择为有效条纹。在本发明的实施例中,选择能满足条件μ≥μth和e≥eth的候选条纹。在本发明的一个实施例中,根据两个条件的任何一人,能将候选条件确定为有效条纹。
将由条纹分类部件1250分类的条纹输入到歪斜角判定部件1260,以及歪斜角判定部件1260计算用于每个分类的条件的方向角θ,并累计和存储所计算的方向角的计算值。将具有最大计算值的方向角确定为歪斜角。图12是示例说明由根据本发明的实施例的示例性的歪斜角判定部件1260计算条纹的歪斜角的过程的流程图。在图12中,SP表示由图9的条纹分类部件1250分类的条纹,以及x轴和y轴是与条纹SP有关的坐标轴。因此,计算用于从条纹分类部件1250输出的每个条纹的x轴和实际X轴间的方向角θ,并累计和存储方向角θ的计算值。能通过下述等式11计算用于条纹SP的方向角θ。
等式11
&theta; = 1 2 arctan ( 2 &mu; 11 &mu; 20 - &mu; 02 )
在已经完全计算用于所有条纹的方向角θ后,歪斜角判定部件1260分析方向角θ的累计计算值,并将方向角θ确定为歪斜角。换句话说,歪斜角判定部件1260将与最多条纹有关的方向角θ确定为歪斜角。
如果已经确定歪斜角,歪斜校正部件1270将输入图象旋转由歪斜角判定部件1260确定的歪斜角以便校正歪斜的图象信号。换句话说,如果确定歪斜角,在旋转矩阵的基础上,歪斜校正部件1270旋转该图象。此时,用于旋转图象的方法使用逆映射方法。在由B.Jahne,etal.,Academic Press,Vol.2的名为“Handbook of Computer Vision andApplications”书,pp.94-95,1995中,以及由L.G.Shapiro and G.C.Stockman,Prentice Hall,名为“Computer Vision”书,pp.415-418,2001中公开了逆映射和旋转方法,将两者在此作为引用。
如果歪斜校正部件1270旋转该图象,在图象角处形成不存在象素的空白空间。空白空间能影响下述识别过程。图象校正部件1280执行在校正歪斜的图象角处形成的空白空间中填充特定象素的功能。在校正歪斜图象角处形成的空白空间中填充象素后,图象校正部件1280能在空白空间中填充具有最接近空白空间的象素值的象素。在背景象素的亮度值的基础上,能共同执行用于空白空间的校正过程。
当从输入图象识别字符时,从输入图象抽取字符串条纹,根据条纹的歪斜,计算方向角,将计算的方向角中最频繁计算的方向角确定为歪斜角,在确定的歪斜角的基础上旋转该图象。能产生校正目标歪斜的图象。此外,由于当校正图象中的目标歪斜时,在图象角处形成的空白空间中填充特定象素亮度值的象素,因此在识别过程中能减小错误。
现在将参考图13来描述在本发明的实施例中,用于校正输入图象的目标歪斜的方法。
在步骤1310,输入图象。在步骤1315,二进制输入图象。此时,二进制过程将输入图象划分成基于预定大小的块,并将这些块分类成CB和BB。组合过程执行组合每个CB连同具有CB中心的8个相邻块的功能,由此产生组合块。生成象素阈值以便将块象素分类成字符象素和背景象素。然后,将CB的象素与象素阈值进行比较,将CB的象素分类成字符和背景象素,以及共同将BB转换成背景象素。因此,将输入图象的象素二进制化为字符象素和背景象素,以及在上述步骤1315输出二进制象素。
在步骤1320水平地子采样二进制图象。水平执行该子采样过程。水平子采样这些象素是为了允许下述候选生成过程来以条纹的形式放置字符串。然后,在步骤1325和1330,执行用于水平缩小的图象的形态学滤波操作,然后生成候选条纹。换句话说,在上述步骤1325,对二进制字符区执行膨胀操作,以致相邻字符变得彼此靠近,并由此生成候选条纹。在步骤1330,能通过腐蚀操作分开连接的相邻的上下条纹。在形态学滤波操作后,子采样图象的垂直象素,以及在步骤1335恢复原始图象的长宽比。在形态学滤波操作后子采样二进制图象的垂直象素的原因是计算用于缩小的图象的字符串的歪斜角。
在步骤1340,给出图象的候选条纹的条纹号。在步骤1345,计算用于每个候选条纹的模糊点大小和偏心率,并选择条纹来计算方向角。在步骤1350,计算用于选定条纹的方向角并累计方向角的计算值。如果已经完全计算了用于选定条纹的方向角,在步骤1355,将具有最大计算值的方向角确定为歪斜角。
如果已经确定歪斜角,在步骤1360,将输入图象旋转歪斜角度,由此校正歪斜图象目标。在图象角处生成不存在象素的空白空间。在这种情况下,在步骤1365,选择最接近空白空间的象素值的象素并将其填充在该空白空间中。在步骤1370,将作为歪斜校正和图象象素校正的结果的图象输出到ROC扩展部件930、噪声降低部件940或图象二进制部件950。
图14表示图4所示的根据本发明的实施例的示例性的ROC扩展部件930的结构。
参考图14,ROC扩展部件930接收输入图象或由歪斜校正部件920输出的图象。
均值滤波器1410对输入图象执行均值滤波操作并产生模糊图象。执行均值滤波操作是为了通过模糊输入图象,在下述块分类过程中降低字符区外背景区的影响。
块分类部件1420将来自均值滤波器1410的输出图象划分成块,分析这些块的象素,并将这些块分类成CB和BB,并将CB的象素转换成特定值的象素。块分类部件1420将这些块分类成CB和BB是为了通过将CB的象素转换成特定值的象素,抽取字符区。在这里,假定每个块由8×8象素组成。
子采样部件1430从块分类部件1420子采样输出图象以便减少图象象素的数量。子采样部件1430减少图象象素数量是为了通过减少下述中值滤波过程中的滤波器窗来增加滤波速率。在本发明的实施例中,假定象素减少率为(2∶1)2。在这种情况下,在象素减少率为2∶1的基础上,子采样部件1430执行用于水平象素的子采样操作,并在图象减少率为2∶1的基础上,执行用于垂直象素的子采样操作,以便图象象素的数量减少了1/4。
中值滤波器1440执行用于来自子采样部件1430的输出图象的中值滤波操作,并从该图象去除错误分类的CB。中值滤波器1440在块分类中执行去除由于噪声等等错误分类的CB的功能。
内插部件1450对来自中值滤波器1440的输出图象的象素执行内插操作以便扩展该图象。在本发明的实施例中,假定象素内插比为(2∶1)2。在这种情况下,在象素内插比为2∶1的基础上,内插部件1450对来自中值滤波器1440的输出图象的水平和垂直象素执行内插操作以便扩展该图象四倍。执行内插操作的是为了搜索字符区的正确位置以及将由于子采样过程缩小的图象大小扩展到原始图象大小。
位置搜索部件1460水平和垂直扫描中值滤波的图象并搜索字符区的位置。位置搜索部件1460水平扫描中值滤波的图象并搜索在最左边CB的点x1以及在最右边CB的点x2。此外,位置搜索部件1460垂直扫描中值滤波图象,并搜索在最上边CB的点y1以及在最下边CB的点y2。根据搜索结果确定图象中字符区的位置。此时,字符区的左顶和右底点是(x1,y1)和(x2,y2)。字符区的左顶和右底点(x1,y1)和(x2,y2)是基于输入图象的长宽比,以致当下述ROC扩展部件1480扩展该图象时,能防止图象失真。
ROC抽取部件1470抽取由位置搜索部件1460搜索的字符区的图象。换句话说,ROC抽取部件1470接收与由位置搜索部件1460搜索的字符区的左顶和右底点(x1,y1)和(x2,y2)有关的信息,并抽取位于字符区的左顶和右底点(x1,y1)和(x2,y2)之间的图象。因此,来自ROC抽取部件1470的输出图象变为从该输入图象去除背景区的字符区的图象。
ROC扩展部件1480将抽取的字符区的图象扩展成输入图象的大小。在这里,可通过内插过程实现图象扩展。假定在本发明的实施例中,通过双线性内插实现图象扩展。此时,通过内插操作实现图象扩展以便所抽取的字符区的图象的大小能等于输入图象的大小。
下面,将参考图14来详细地描述ROC扩展部件930的操作。
首先,ROC扩展部件930的输入图象具有N×M象素的大小。输入图象可是彩色图象或不具有颜色信息的灰度级图象。假定在本发明的实施例中,该图象是灰度级图象。
均值滤波器1410接收输入图象,对该输入图象执行均值滤波操作,并产生模糊图象以便在图象的字符区外的背景区不影响下述块分类部件1420的字符识别分类过程。在R.C.Gonzalez,R.Woods,et al.,,名为“Digital Image Processing”的书,第2版,Prentice Hall,pp.119-123,2002中公开了上述均值滤波器,在此引入作为参考。
将均值滤波图象应用于块分类部件1420。块分类部件1420将来自均值滤波器1410的输出图象划分成块,分析包含在这些块中的象素,将这些块分类成CB和BB,并将分类的CB的象素转换成具有特定值的象素。
图15表示图14所示的根据本发明的实施例的示例性的块分类部件1420的结构。块分类部件1420的结构能与模糊图象检测部件910的块分类部件1110相同。图15所示的块分类部件1420的结构与图6所示的块分类部件1110相同。用于分类这些块的块分类部件1420的操作与块分类部件1110相同。
由图15所示的块判定部件119分类的CB的象素能具有0和25之间的灰度。块填充部件1421将由块判定部件1119分类的CB的象素转换成具有第一亮度值的象素,以及将BB的象素转换成具有第二亮度值的象素。在本发明的实施例中,假定块填充部件1421将CB象素转换成白色象素,并将BB象素转换成黑色象素。因此,块填充部件1421用白色象素填充图象的CB以及用黑色象素填充图象的BB。在块分类部件1420将这些块分类成CB和BB后,用不同亮度值的象素填充CB和BB是为了适当地显示字符区。
然后,子采样部件1430子采样来自块分类部件1420的输出图象以便减少水平和垂直象素的数量。子采样部件1430减少图象象素的数量是为了通过在下述中值滤波过程中减少滤波器窗来增加滤波速率。在本发明的实施例中,假定象素减少率为(2∶1)2。在这种情况下,将来自块分类部件1420的输出图象的象素的数量降低1/4。缩小的图象的大小为320×240象素。
中值滤波器1440对来自子采样部件1430的输出图象执行中值滤波操作,并从该图象去除BB和错误分类的CB。中值滤波器1440执行在块分类过程中由于噪声等等错误分类的CB的功能。在由A.K.Jain,名为“Fundamental of Digital Image Processing”的书,Prentice Hall,pp.246-249中公开了上述中值滤波器,在此作为参考。
在用于该图象的中值滤波操作后,内插部件1450对来自中值滤波器1440的输出图象的水平和垂直象素执行内插操作以便扩展该图象。在本发明的实施例中,假定象素内插率(2∶1)2。执行该内插操作是为了搜索字符区的正确位置以及将由子采样过程减小的图象的大小扩展到原始图象大小。
位置搜索部件1460水平和垂直扫描中值滤波的图象并搜索字符区的位置。位置搜索部件1460水平扫描中值滤波的图象,搜索在最左边CB的点x1以及在最右边CB的点x2,并保存搜索结果。此外,位置搜索部件1460垂直扫描中值滤波图象,搜索在最高CB的点y1以及在最底端CB的点y2,并存储搜索结果。字符区的左顶和右底点(x1,y1)和(x2,y2)由搜索结果而定。字符区的左顶和右底点(x1,y1)和(x2,y2)是基于输入图象的长宽比,以便当下述ROC扩展部件1480扩展该图象时,能防止图象失真。在本发明的实施例中,肉眼惠眉与输入图象有关的宽与长之比为4∶3(即,640∶480象素),确定字符区的左顶和右底点(x1,y1)和(x2,y2)以便与由位置搜索部件搜索的字符区有关的宽与长之比为4∶3。
ROC抽取部件1470抽取由位置搜索部件1460搜索的字符区的图象。换句话说,ROC抽取部件1470接收由位置搜索部件1460搜索的字符区的左项和右底点(x1,y1)和(x2,y2)有关的信息,并抽取位于字符区的左顶和右底点(x1,y1)和(x2,y2)间的图象。在字符区的左顶和右底点(x1,y1)和(x2,y2)的基础上,ROC抽取部件将位于水平方向中的点x1和点x2间的象素以及垂直方向中点y1和点y2间的象素抽取为字符区象素。来自ROC抽取部件1470的输出图象变为从该输入图象去除背景区的字符区的图象。
ROC扩展部件1480将所抽取的字符区的图象扩展成输入图象的大小。在这里,可通过内插过程实现图象扩展。假定在本发明的实施例中,通过双线性内插实现图象扩展。在这里,双线性内插是基于下述等式12。
等式12
v(x,y)=(1-Δx)(1-Δy)u(m,n)+(1-Δx)Δyu(m,n+1)
+Δx(1-Δy)u(m+1,n)+ΔxΔyu(m+1,n+1)
其中Δx=x-m
    Δy=y-n
在这种情况下,可通过内插操作来实现图象扩展以便所抽取的字符区的图象的大小能等于输入图象的大小。在由W.H.Press,S.A.Teukolsky,et al.,名为“Numerical Recipies in C”的书,第二版,Cambridge,pp.123-125,1988公开了上述双线性内插,在此作为参考。
图16示出了根据本发明的实施例通过ROC扩展来扩大字符区的示例性的过程的流程图。
参考图16,在步骤1510输入图象。在步骤1515,执行用于输入图象的均值滤波操作并生成模糊图象。执行均值滤波操作是为了降低在下述分类过程中,在字符区外的背景区的影响。
在步骤1520,将均值滤波图象划分成基于给定大小的块,分析这些块的象素,并将这些块分类成CB和BB,以及将CB的象素转换成特定值的象素。当执行块分类过程时,将图象分类成CB和BB,将CB象素转换成白色象素,以及将BB象素转换成黑色象素。因此,根据分类块,用白色或黑色象素填充图象。
当在上述步骤1520后生成图象时,子采样所生成的图象以及在步骤1525生成水平和垂直缩小的象素的图象。减少图象象素的数量的原因是通过减少下述中值滤波过程中的滤波器窗来增加滤波速率。在子采样操作后,在步骤1530执行用于缩小图象的中值滤波操作。当执行中值滤波操作时,去除由图象边缘或噪声引起的错误分类的字符区。在执行中值滤波操作,然后去除错误分类的字符区后,在步骤1535,执行用于中值滤波图象的水平和垂直象素的内插操作以及扩展图象的大小。
在步骤1540,水平和垂直扫描对应于原始图象大小的中值滤波图象以及搜索字符区的位置。在位置搜索过程中,水平扫描中值滤波图象以及搜索在最左边CB处的点x1以及在最右边CB处的点x2。此外,垂直扫描中值滤波图象,以及搜索在最顶端的点y1以及最底端CB处的点y2。然后,在步骤1545,根据搜索结果,确定图象中字符区的左顶和右底点(x1,y1)和(x2,y2)。此时,字符区的左顶和右底点(x1,y1)和(x2,y2)是基于输入图象的长宽比,以便当下述ROC扩展过程扩展该图象时,防止图象失真。
在字符区搜索后,在步骤1550,从该输入图象抽取所搜索的字符区位置的图象。换句话说,从该图象抽取位于字符区的左顶和右底点(x1,y1)和(x2,y2)间的图象。字符图象位于水平方向中的点x1和点x2之间以及垂直方向中的点y1和点y2之间。因此,字符区图象变为从该输入图象去除背景区的字符区的图象。
在抽取字符区图象后,在步骤1555,将所抽取的字符区的大小扩展成输入图象的大小。在这里,能由内插过程实现图象扩展。在本发明的实施例中,能由双线性内插实现图象扩展。在步骤1560,将所扩展的图象输出到识别器或将其存储,以及所输出或存储的扩展图象能用于另外的目的。
现在将参考图4来描述噪声降低部件940的操作。
当从数字照相机等等获得目标的图象时,通常会出现噪声。在噪声分量中典型的噪声分量包括高斯噪声分量。为降低高斯噪声分量,能使用各种类型的噪声降低滤波器。在检测对应于带有个人姓名和其他信息的名片的图象的情况下,在字符区的边缘处存在大量信息。因此,如果在图象对应于名片的情况下,使用简单的噪声降低滤波器,会严重地损坏字符信息。优选地,噪声降低部件940使用能降低图象噪声同时保存边缘处的信息的滤波器。在这里,假定噪声降低部件940使用专用的噪声降低滤波器,诸如方向Lee滤波器。方向Lee滤波器的操作能表示为下述等式13。
等式13
x ^ ( i , j ) = m x ( i , j ) + &sigma; x 2 ( i , j ) &sigma; x 2 ( i , j ) + &sigma; n 2 [ y ~ ( i , j ) - m x ( i , j ) ]
在上述等式13中,mx(i,j)表示用于围绕象素点(i,j)的区域的局部信号平均值,σx 2(f,J)表示用于围绕象素点(i,j)的区域的局部信号方差,σn 2表示从整个图象估计的噪声方差(noise variance), 表示用于具有主边缘方向性的加权象素的平均值,以及
Figure A0315812500503
表示去除噪声的输出图象。
在上述等式13中,使用用于图象的局部区域的信号平均值和方差,调整自适应滤波器的参数。相对于用于图象的背景区的上述等式13,由于噪声方差显著大于下述等式14中所示的局部信号方差,去除噪声的输出图象对应于局部平均值。由于相对于用于图象的边缘区的上述等式13,局部信号方差显著大于噪声方差,去除噪声的输出图象对应于用于具有主要边缘方向性的加权象素的平均值,以便适当地保存边缘区同时去除边缘区的噪声。
等式14
如果 &sigma; n 2 > > &sigma; x 2 , x ^ ( i , j ) = m x ( i , j ) = m y ( i , j )
如果 &sigma; n 2 > > &sigma; n 2 , x ^ ( i , j ) = y ~ ( i , j )
如等式15和图17所示计算与垂直于主要边缘方向(90°,135°,0°,45°)的方向(0°,45°,90°,135°)有关的一维均值滤波器的输出yθ和与每个边缘方向的方向性有关的加权值wθ的乘积之和,以便能保存图象的边缘区同时能去除其噪声。
等式15
y ~ ( i , j ) = &Sigma; &theta; w &theta; y &theta; ( i , j )
等式16
y &theta; ( i , j ) = y 0 2 + 1 4 ( y n + y n + 4 ) 其中n=1,2,3,4
图17A和17B表示在与3×3滤波器窗内的n=1~4改变的上述等式16中的边缘方向垂直的方向(0°,45°,90°,135°)中的一维均值滤波器的操作。在该操作的基础上,去除每个边缘的噪声分量。
下述等式18用于计算将加权值乘以与边缘方向(90°,135°,0°,45°)垂直的方向(0°,45°,90°,135°)中的一维滤波器的输出。计算由下述等式18确定的加权值wθ以便在计算边缘方向(90°,135°,0°,45°)中、在图18A至18D所示的3×3滤波器窗内随n=1~4改变的边缘强度Dθ(下述等式17中所示)后,标准化每个边缘方向中的加权值。在N.C.Kim,IEEE Electronic Letters 4th,名为“Adaptive ImageRestoration Using Local Statistics and Directional Gradient Information”的书,Vol.23,No.12,pp.610-611,June 1987中公开了上述说明,在此作为参考。
等式17
D &theta; = 1 3 | &Sigma; R &theta; 1 y i - &Sigma; R &theta; 2 y i |
等式18
w &theta; = D &theta; &Sigma; &theta; D &theta;
图19表示图4所示的根据本发明的实施例的示例性的图象二进制部件950的结构。
参考图19,图象二进制部件950包括块分类部件1610,执行将输入图象划分成块、分析包含在这些块内的象素以及将这些块分类成CB以及BB的功能。块分类部件1610将这些块分类成CB和BB的原因是仅二进制字符区。在这里,假定每个块由8×8象素组成。
块增长部件1620扩展由块分类部件1610分类的CB。在块分类过程中,由于字符象素间的背景的影响,CB能分类成BB。块增长部件1620增长CB是为了将分类成BB的象素扩展成CB。
块组合部件1630执行组合从块增长部件1620输出的每个CB连同具有CB中心的8个相邻块,然后生成组合块的功能。如果确定阈值以便使用一个CB(由8×8象素组成)来判定背景和字符象素,并执行二进制过程,由于块的大小非常小并且阈值和相邻字符块值间的差值非常大,会出现二进制图象块间的不连续性。块组合部件1630执行组合功能是为了扩展CB区并增强用于CB区的二进制的可靠性。
边缘强化部件1640使用由块组合部件1630组合的CB的字符象素和它们的周围象素间的关系来增强CB的边缘,并生成降低噪声分量的象素。另外,计算将用于二进制这些象素的象素阈值。边缘强化部件1640能使用二次滤波器或改进的二次滤波器。
块分裂部件1650从边缘强化部件1640接收组合块,并将CB与组合块分开。换句话说,块分裂部件1650执行仅从由块组合部件1630组合的块分离用于二进制的CB的功能。
二进制1660部分将由块分裂部件1650分离的CB象素与象素阈值进行比较,并通过用于字符象素的第一和第二亮度值执行二进制操作。二进制部件1660执行二进制操作以便由块分类部件1610分类的BB的象素具有第二亮度值。二进制部件1660能包括在将该二进制图象前发送到图1所示的字符识别器123前,压缩该二进制图象的压缩器,以便能提高存储空间的效率。
将由二进制部件1660处理的图象输入到图1所示的字符识别器123中,以便能识别字符。
通过块分类部件1610将输入图象划分成块,以及将这些块分类成CB和BB。
图20表示根据本发明的实施例的示例性的块分类部件1610的结构的框图。块分类部件1610的结构能与模糊图象检测部件910的块分类部件1110相同。图20所示的块分类部件1610的结构与图6所示的块分类部件1110相同。用于分类这些块的块分类部件1610的操作与块分类部件1110相同。由块分类部件1610分类的CB的象素具有0和255间的灰度级。
块增长部件1620使分类的CB变大。在块分类过程中,由于字符象素间的背景的影响,能将CB分类成BB。块增长部件1620使CB增长是为了通过将分类成BB的象素扩展到CB来改变包含CB的字符象素的BB。
能使用形态形态滤波器来实现块增长部件1620。形态滤波器通过称为接近操作的在用于CB的膨胀操作之后的腐蚀操作,使CB增长。接近操作用来填充区域的内孔。首先,通过膨胀操作使CB扩展,将在CB间隔离的BB转换成CB,以及根据闭合操作,通过腐蚀,使原始块大小恢复。在名为“Digital Image Processing”的书中,由R.C.Gonzalez,R.Woods,et al.,2nd ed.,Prentice Hall,pp.519-560,2002公开了上述形态滤波器。在块增长过程中,该块增长部件1620将包含字符象素的BB改变成CB,在此作为参考。
块组合部件1630执行组合从块增长部件1620输出的每个CB连同具有CB的中心的8个相邻块,然后分别生成由24×24象素组成的组合块的功能。CB由8×8象素组成。如果确定阈值以便使用一个CB判别背景和字符象素,以及执行二进制过程,由于块的大小非常小以及阈值和相邻字符块间的差值非常大,因此会出现二进制图象块间的不连续性。因此,由于扩展区域以致生成并二进制化组合块,能增强二进制的可能性。将包含从块组合部件1630输出的CB的组合块应用于边缘强化部件1640。
边缘强化部件1640能使用QF或IQF。现在将描述使用IQF增强边缘分量的操作。如图21所示,IQF使CB标准化,增强了标准化CB的边缘,标准化从CB计算的阈值,并生成用于二进制CB象素的阈值BTHN
将参考图21描述使用IQF,增强CB的边缘的操作。
参考图21,第一阈值计算部件1621计算用于将CB的每个象素分类成字符和背景象素的第一阈值Th1。第一阈值计算部件1621计算用于判别字符和背景象素以及标准化两种类型的判别象素的第一阈值Th1。此时,第一阈值Th1选择为与两种类型的判别象素间最大组间变差异(between class variance)对应的灰度值。使用Otsu方法或Kapur方法,计算第一和第二阈值Th1和Th2。用于计算第一阈值Th1的Otsu方法是基于下述等式19。在““A Threshold Selection Method fromGray-Level Histograms”,IEEE Trans.Systems,Man and Cybernetics,Vol.SMC-9,No.1,pp.62-66,Jan.1979中公开了由N.Otsu所实现的方法。
等式19
Th 1 = arg max &sigma; B 2 T ( T )
&sigma; B 2 ( T ) = P 1 ( &mu; 1 ( T ) - &mu; ) 2 + P 2 ( T ) ( &mu; 2 ( T ) - &mu; ) 2
= P 1 ( T ) P 2 ( T ) ( &mu; 1 ( T ) - &mu; 2 ( T ) ) 2
σB 2(T):组间变差异
T:灰度值
μ:总象素的平均值
μi(T):由T所定义的每个组的平均值
Pi(T):每个组的相对频率
在第一阈值Th1的基础上,平均计算部件1623将CB象素分类成字符和背景象素,并计算用于用于CB的字符和背景象素的平均亮度值。如在下述等式中,在第一阈值Th1的基础上,在用于两个类的平均计算过程中,将CB的象素x(m,n)分类成CPs(字符象素)和BPs(背景象素),然后,如在下述等式21中,计算用于字符象素的平均亮度值μ0和用于背景象素的平均亮度值μ1
等式20
Ifx(m,n)≥Th1那么CP
              否则BP
在上述等式20中,x(m,n)表示CB,以及Th1表示用于将CB象素分类成字符和背景象素的阈值。
等式21
&mu; 0 = S c N c
&mu; 1 = S b N b
在上述等式21中,Sc表示用于字符象素的亮度值之和,Nc表示字符象素的数量,Sb表示用于背景象素的亮度值之和,以及Nb表示背景象素的数量。
标准化部件1625使用用于字符象素的平均亮度值μ0以及用于背景象素的平均亮度值μ1,标准化CB象素x(m,n)以便字符象素能具有接近逻辑“1”状态的值以及背景象素能具有接近逻辑“0”状态的值。标准化部件1625通过在下述等式22的基础上,标准化CB象素x(m,n),降低用于输入CB象素的亮度值的动态范围的功能。
等式22
x N ( m , n ) = ( x ( m , n ) - &mu; 1 ) ( &mu; 0 - &mu; 1 )
在上述等式22中,xN(m,n)表示标准化CB,μ0表示用于字符象素的平均亮度值,以及μ0表示用于背景象素的平均亮度值。
通过二次处理部件1627二次处理标准化CBxN(m,n),以便增强CB边缘以及降低它们的噪声分量。二次处理部件1627执行使用标准化象素与它们的周围象素间的关系增强边缘,以及降低边缘的噪声分量的功能。图22表示由二次处理部件1627处理的中心象素和周围象素。下述等式23具有当二次处理部件1627执行二次处理操作时,能增强边缘和降低噪声分量的功能特性。二次处理部件1627在大的灰度级差值的基础上,暗处理字符象素以及明处理背景象素,以致清楚地处理字符边缘以及同时降低它们的噪声分量。
等式23
y 0 = ( h 0 x 0 + h 1 &Sigma; i = 1 4 x 2 i - 1 + h 2 &Sigma; i = 1 4 x 2 i ) + ( h 3 x 0 2 + h 4 &Sigma; i = 1 4 x 2 i - 1 2 + h 5 &Sigma; i = 1 4 x 2 i 2 ) +
( h 6 &Sigma; i = 1 4 x 0 x 2 i - 1 + h 7 &Sigma; i = 1 4 x 0 x 2 i ) + ( h 8 &Sigma; i = 1 4 x 2 i - 1 x 2 i * - 1 + h 9 &Sigma; i = 1 4 x 2 i - 1 ( x 2 i + x 2 i * * ) )
其中i*=(i+1)mod4 and i**=(i+3)mod4
因此,为二进制部件1660生成用于二进制CB象素的阈值BTHN,阈值标准化部件1631使由第一阈值计算部件1621计算的第一阈值Th1并生成第二阈值Th2。此时,将第二阈值Th2用作用于由二进制部件1660的CB象素的二进制操作的象素阈值BTHN
阈值标准化部件1631使用等于标准化部件1625的标准化方法的方法,使第一阈值Th1标准化。如在下述等式24中,阈值标准化部件1631使第一阈值标准化,并生成第二阈值Th2(或阈值BTHN)。
等式24
Th 2 = ( Th 1 - &mu; 1 ) ( &mu; 0 - &mu; 1 )
在上述等式24中,Th2表示用于允许二进制部件1660判别字符和背景象素的标准化阈值,μ0表示用于字符象素的亮度值,以及μ1表示用于背景象素的平均亮度值。
图21所示的边缘强化部件1640通过使CB(或包含CB的组合块)内的字符或背景象素标准化来降低动态范围,并执行用于标准化象素的二次处理操作以便增强CB(或包含CB的组合块)的边缘。由于从二次处理部件1627输出的CB(或包含CB的组合块)是标准化块,标准化第一阈值,以及生成用于CB象素的二进制的阈值BTHN
如图19所示,能使用如图21中的IQF,实现在图象二进制部件950中的边缘强化部件1640。使用IQF的边缘强化部件1640执行增强边缘同时解决在二进制CB(或包含CB的组合块)后出现围绕二进制图象的字符的黑色块的缺陷的功能。
将从边缘强化部件1640输出的组合块应用到块分裂部件1650。已经接收组合块的块分裂部件1650将CB的图象与组合块分裂开来并输出所分裂的图象。这是在通过块组合部件1630组合与CB有关的围绕块后,用于图象恢复。
将从块分裂部件1650输出的CB输入到二进制部件1660中。二进制部件1660接收从边缘强化部件1640输出的阈值以便二进制化该CB象素。此时,输入到该二进制部件1660的CB是y(m,n)(对应于图21中从QF输出的CB)或yN(m,n)(对应于图21中从IQF输出的CB)。因此,象素阈值变为BTH或BTHN
二进制部件1660通过使用阈值,将所接收的CB象素分类成字符和背景象素,以及将所分类的字符和背景象素转换成具有两个亮度值的象素来执行二进制操作。换句话说,二进制部件1660将对应于输入CB图象的阈值与CB象素值进行比较,如果根据比较结果,CB象素的值等于或大于象素阈值,将图象象素分类成字符象素,以及如果根据比较结果,CB象素的值小于象素阈值,那么将图象象素分类成背景象素。二进制部件1660根据分类结果,通过将字符象素转换成具有亮度值“α”的象素以及将背景象素转换成具有亮度值“β”的象素来执行二进制操作。用于通过二进制部件1660二进制CB象素的方法是基于下述等式25。
等式25
Figure A0315812500581
在上述等式25中,y(m,n)以及BTH分别表示从QF输出的CB和阈值,yn(m,n)和BTHN分别表示从IQF输出的CB和阈值,以及yB(m,n)表示二进制CB的象素。
二进制部件1660从块分类部件1610或块增长部件1620接收BB,以及共同将BB象素转换成具有亮度值“β”的象素。
图23是示例说明根据本发明的实施例的示例性的在使用IQF实现边缘强化部件1640的情况下的二进制方法的流程图。
参考图23,在步骤1711输入图象。在步骤1713,块分类部件1610执行将输入图象划分成块、分析块的象素以及将这些块分类成CB和BB的功能。
在步骤1715,块增长部件1620扩展由块分类部件1610分类的CB。在块分类过程中,由于字符象素间的背景的影响,能将CB分类成BB。块增长部件1620使CB增长是为了将分类成BB的象素扩展为CB。然后,在步骤1717,块增长部件1620顺序地将所增长的CB输出给块组合部件1630。此时,输出到块组合部件1630的图象能对应于CB。在步骤1719,块组合部件1630接收从块增长部件1620输出的CB,执行组合从块增长部件1620输出的每个CB连同具有CB中心的8个相邻块,然后生成组合块的功能。
将组合的块图象输入到边缘强化部件1640。此时,边缘强化部件1640变为IQF。在IQF的操作的基础上,在步骤1721计算用于将CB的每个象素分类成字符或背景象素的第一阈值Th1。能使用上述等式19计算第一阈值Th1。在步骤1723,执行与上述等式20和21有关的操作,在第一阈值Th1的基础上,将CB象素分类成字符和背景象素,以及计算用于CB的字符和背景象素的平均亮度值。在步骤1725,使用用于字符象素的平均亮度值μ0以及用于背景象素的平均亮度值μ1标准化CB象素x(m,n)以便字符象素能具有接近逻辑“1”状态的值以及背景象素能具有接近逻辑“0”状态的。在标准化过程中,在上述等式22的基础上,标准化CB象素x(m,n)。
在步骤1727,通过二次处理部件1627,二次处理标准化CBxN(m,n),增强CB边缘,以及降低它们的噪声分量。在二次处理中,执行如在上述等式23中的计算操作。在步骤1729,在上述等式24的基础上,使用等于上述标准化方法的方法,标准化第一阈值Th1,以及生成第二阈值Th2(或象素阈值BTHN)。
在步骤1733,在改进的二次处理后,接收组合块,将CB与组合块分离,以及输出分离的CB。换句话说,块分裂过程执行仅将位于组合块的中心的CB与组合块分裂的功能。在步骤1735,将分离的CB象素与象素阈值BTHN进行比较,并二进制化具有第一和第二亮度值的字符和背景象素。将在块分类过程或块组合过程后生成的BB象素二进制化为具有第二亮度值的象素。
通过重复上述步骤执行用于CB和BB的二进制操作。如果完成用于所有图象块的二进制操作,在步骤1737自动检测二进制操作是否结束,以及在步骤1739输出二进制图象。
图24A和24B是示例说明根据本发明的实施例的示例性的在图2所示的上述步骤210至230的文档图象预处理、字符识别过程以及SAVE项选择过程的详细流程图。在这里,假定文档是带有个人姓名和其他信息的名片,以及SAVE项存储在电话簿中。
优选地,根据在文档识别过程中频繁使用的文档的类型,输入用于文档识别命令的文档“RECOGNIZE”键。例如,记录在名片上的字符信息能存储在移动终端的电话簿中。将公司名、公司部门、个人姓名、个人头衔、电子邮件地址、移动电话号码等等记录在名片上。因此,当将用于电话簿的信息记录在移动电话中时,对识别名片的字符信息以及将所识别的字符信息存储在电话簿中是很有用的。在识别文档诸如名片等等的字符图象的情况下,预先给定具有能存储名片项或名片项信息的指定存储区的表是很方便的,当输入卡“RECOGNIZE”键时,由控制器101自动检测将识别的文档是名片的事实,自动显示名片的SAVE项,以及有选择地登记信息项。因此,在本发明的实施例中,提供基于文档类型的文档“RECOGNIZE”键,预先将基于文档类型的表项指定给该表,当输入相应的文档“RECOGNIZE”键时,能显示与相应的文档有关的表项。此外,在识别先前未给定的文档的情况下,选择文档RECOGNIZE键,以及能将文档项手工设置成将处理。在本发明的下述实施例中,假定文档是名片。
参考图24A,在步骤413输入名片“RECOGNIZE”键前,在步骤411,控制器101使得显示单元115显示如图26E所示的所存储的名片的图象。此时,如果用户输入该输入单元1 13的名片“RECOGNIZE”键,控制器101自动检测在上述步骤413输入的名片“RECOGNIZE”键并驱动预处理器121以便能在步骤415执行用于所显示的文档图象的预处理操作。能通过图4所示的预处理器121执行预处理操作。如果在预处理操作中确定该图象是模糊的,控制器101中止下述步骤并能请求输入新的文档图象。
另一方面,如果确定图象不是模糊的,控制器101驱动该字符识别器123以便在步骤417从预处理过的文档图象识别字符图象。字符识别器123将在图26E所示的所显示的名片图象转换成字符数据(文本),以及控制器101使得该显示单元115显示图27A所示的字符数据。终端设备必须包括多个识别器。即,文档诸如名片等等能包括韩文字符、英语字母、数字、特殊字符、中文字符或其他语言字符。因此,必须选择根据将识别的字符类型的相应的识别器程序。在本发明的实施例中,假定将识别的字符是英语字母以及识别器使用主要用于识别英文的ABBYY的FineReader5.0TM正式试验版。
如果名片图象已经完全转换成字符数据,控制器101使得显示单元115的第一显示区71显示该名片图象的字符数据,使得第三显示区73显示“ITEM SELECTION”以及使得第三显示区75显示SAVE项,如图27A所示。在第二显示区75上显示的SAVE项包括个人姓名、公司电话号码、移动电话号码、家庭电话号码、传真号码、电子邮件地址、公司地址、其他另外的项等等。在图27A所示的显示状态中,当用户使用如图27B所示的记录笔选择第一显示区71的字符数据(或句子)以及选择在第二显示区75上显示的SAVE项时,在步骤421,控制器101自动检测字符数据和SAVE项选择,并在步骤423,使得该显示单元115的第三显示区73显示所选择的SAVE项和与该SAVE项对应的字符数据,如图27B所示。然后,如果从输入单元113输入“CONFIRM”键,控制器101自动检测在步骤425输入的“CONFIRM”键,并在步骤427记录所选择的SAVE项以及与该SAVE项有关的字符数据。如果从输入单元113输入“CORRECT”,控制器101自动检测在步骤429输入的“CORRECT”键,并在步骤431执行如图25A所示的错误校正过程。通过上述步骤425和427记录校正的错误数据。如果从输入单元113输入“END”键,控制器101自动检测在步骤433输入的“END”键并在步骤435,使得显示单元115显示所有选择的SAVE项和与SAVE项对应的字符数据。
图25A是示例说明本发明的实施例,在选定的逐项基础上的示例性的,用于校正错误字符数据的方法的流程图。
现在将参考图25A来详细地描述图24A所示的在上述步骤431执行的错误校正过程。如果输入“CORRECT”键,在步骤511,控制器101使得该显示单元115的第三显示区73显示错误识别项和与该错误调识别项有关的字符数据,如图28A所示。如果用户在如图28A所示的显示状态中,使用记录笔点击在该显示单元115的第一显示区71上显示的错误识别的字符数据,控制器101自动检测在步骤513点击的错误识别的字符数据,并且在步骤515,使该显示单元115表明将校正的字符数据,如图28B所示。
在本发明的第一实施例中,可使用两种方法来校正错误识别的字符数据。换句话说,如果指定错误识别的字符,如图28B所示,控制器101使得该显示单元115的第三显示区73显示用于校正错误识别的字符的候选字符,使得第二显示区75显示用于输入用于校正错误识别的字符的手写字符的识别窗,以及使得第四显示区77显示用于生成用于校正错误识别的字符的按键数据的软键盘。因此,用户能选择在第三显示区73上显示的候选字符的所需字符,或在第二显示区上以手写字符的形式输入所需字符以便校正错误识别的字符。此外,显示软键盘以及用于输入手写字符的识别窗以及分析由该软键盘生成的按键数据以便能校正错误识别的字符。
如果在将错误识别的字符表示为图28B所示的情况下,用户选择在第三显示区73上显示的候选字符的任意候选字符,在步骤517,控制器101自动检测任意字符选择并所选定的候选字符校正或代替在第一显示区71上显示的错误识别的字符。另外,如果在如图28B所示表示错误识别的字符的情况下,用户使用记录笔,将手写字符输入到第二显示区75的识别窗中,控制器101在步骤521自动检测该手写字符输入并在步骤523驱动字符识别器123的手写字符识别器。在步骤525,控制器101用由字符识别器123识别的另外的字符数据校正或代替错误识别的字符数据。此外,如果在如图28B所示表示错误识别的字符的情况下,由第四显示区77的软键盘生成按键数据,在上述步骤521,控制器101自动检测按键数据生成,并在上述步骤523,驱动字符识别器123的软键识别模块。那么,在上述步骤525,控制器101用由字符识别器-123识别的另外的字符数据校正或代替错误识别的字符数据。
如果输入“CANCEL”键,在步骤527,控制器101自动检测“CANCEL”键输入并在步骤529取消在上述步骤513选择的错误识别的字符。如果输入“INSERT”键,在步骤531,控制器101自动检测“INSERT”键输入并在步骤533确定用于增加(或插入)字符数据的位置。此时,该位置可是在上述步骤513选定的字符前后的位置。然后,控制器101执行选择候选字符或输入手写字符的过程并将字符增加(或插入)预定位置。
如果在选择候选字符后,用户选择与选定的SAVE项对应的另外的错误识别的字符,用手写字符校正可代替错误识别的字符,取消选定的字符,或增加或插入另外的字符,控制器101在步骤527自动检测错误识别的字符选择,返回上述步骤515并重复上述步骤。
如果重复上述步骤,控制器101校正对应于选定SAVE项的字符。然后,如果输入“CORRECT END”键,在步骤539,控制器101自动检测“CORRECT END”键输入,完成与选定的SAVE项有关的错误校正过程,并返回上述步骤,如图24A所示。
图28A和28B用来解释在字符数据校正过程中使用候选字符和手写字符识别的操作。然而,仅使用手写字符而不使用候选字符来校正错误识别的字符。图28D是示例说明用于通过输入手写字符或软键而不使用候选字符来校正字符数据的方法的流程图。
在图24A和25A所示的方法中,选择SAVE项,如果字符数据不具有任何错误,记录所选定的SAVE项以及与所选定的SAVE项对应的字符数据。如果字符数据有错误,校正字符数据,以及记录选定的SAVE项和所校正的字符数据。
如图27B所示,用记录笔选定在第一显示区71上显示的字符数据,以及用该记录笔选定在第二显示区75上显示的对应于该字符数据的SAVE项。然后,在第三显示区73上显示选定的SAVE项和对应于所选定的SAVE项的字符数据。此时,如果在第三显示区73上显示的SAVE项和字符数据是适当的,用该记录笔点击“CONFIRM”键,如图27B所示。在这种情况下,记录在第三显示区73上显示的SAVE项和字符数据。然而,如果在第三显示我73上显示的字符数据有错误,用记录笔点击“CORRECT”键,如图28A所示。然后,如果用该记录笔点击如图28B所示的在第一显示区71上显示的错误字符,放大并显示所点击的字符,以及在第三显示区73上显示与该错误识别的字符有关的候选字符。然后,在第二显示区75上显示用于输入手写字符的识别窗,以及在第四显示区77上显示软键盘。在这种情况下,用于校正错误识别的字符的方法选择地该第三显示区73上显示的一个候选字符,将手写校正字符输入到该第二显示区75的识别窗,或通过第四显示区77的软键盘输入用于错误校正过程的字符按键数据。另外,在取消或插入字符的情况下,输入“CANCEL”键或输入“INSERT”键。如果存在与所选定的SAVE项有关的另外的错误识别的字符,重复上述过程。如果已经完成校正过程,用户用记录笔点击该“CORRECT END”键。如果这样的话,该方法返回图27A所示的显示状态以便能选定下一SAVE项。
已经描述了通过手写字符输入、候选字符选择以及软键盘校正错误识别的字符的方法,但该方法可仅通过手写字符输入或软键盘来实现。此外,能使用候选字符选择和手写字符识别来实现,或能使用候选字符选择和软键盘来实现该方法。
图24B和25B是示例说明根据本发明的第一实施例的示例性的用于执行其他SAVE项选择和错误校正过程的流程图。
将参考图24B来描述用于执行其他SAVE项选择和错误校正过程的方法。如图24B所示的字符识别和SAVE项选择过程几乎与图24A所示的相同,除如果输入“CORRECT”键,在错误校正过程前,在图24B中显示表示存在与相应的SAVE项有关的错误的信号外。换句话说,如果在项选择过程中输入“CORRECT”键,在步骤429,控制器101自动检测“CORRECT”键输入并在步骤450,使显示单元115显示表示存在与相应的SAVE项有关的字符数据错误的信号。然后,该方法返回步骤421。除校正过程外,如图24B所示的方法几乎与图24A所示的相同。因此,如果当使用图24B所示的方法执行字符识别和SAVE项选择过程时,在字符识别过程后,在SAVE项选择过程中,存在与所选定的SAVE项有关的字符识别错误,显示表示存在与相应的SAVE项有关的错误的信号且该方法返回到另一步骤。否则,如果不存在字符识别错误,记录相应的SAVE项和与该SAVE项有关的字符。
在SAVE逐项基础上,能在字符识别过程后,通过SAVE项选择过程执行该方法,而不执行字符确认和校正操作。换句话说,在从所识别的文档选择所有所需项后而没有字符确认和校正操作,能实现用于确认所选定的SAVE项的字符数据和共同校正与该字符数据有关的所有错误的方法。
图25B是示例说明在根据本发明的实施例的示例性的如图24B所示的方法中的字符识别和SAVE项选择过程后,校正与SAVE项有关的错误字符数据的方法的流程图。
将参考图25B描述错误校正方法。如果输入“CORRECT”键,控制器101在步骤551自动检测“CORRECT”键输入,在步骤553,使得该显示单元15的第二显示区75显示错误识别项并使得该显示单元115的第一显示区显示与该错误识别项对应的字符数据。如果在图28A所示的显示状态中,用户使用记录笔点击在该显示单115元的第一显示区71上显示的错误识别的字符数据,控制器101在步骤513自动检测错误识别的字符数据点击,并使得该显示单元115在步骤515表明该错误识别的字符数据,如图28B所示。然后,如果用户使用记录笔点击用于校正错误识别的字符数据的SAVE项,控制器101在步骤555自动检测SAVE项点击,进入步骤557并执行如图25A所示的过程。
图25A所示的过程校正与所选定的SAVE项的字符数据有关的错误识别的字符数据。如果完成校正过程,在步骤559,控制器101存储相应的SAVE项以及校正字符数据。如果在完成用于与所选定的SAVE项有关的字符数据的校正过程后,用户选择下一SAVE项,在步骤561,控制器101自动检测该下一SAVE项选择,返回上述步骤557并重复校正与所选定的SAVE项有关的错误识别的字符数据的操作。顺序选择与错误识别的字符数据有关的SAVE项以便能执行字符数据校正操作。然后,如果完成用于所有SAVE项的字符数据校正,用户输入该输入单元113的“CORRECT END”键。在步骤563,控制器101自动检测“CORRECT END”键输入并在步骤565,使该显示单元115显示SAVE项以及对应于该SAVE项的校正的字符数据,并保存它们。
如果完成字符识别、SAVE项选择和错误校正过程,能输入在名片上记录的所有所需信息项。在这种情况下,如果用户使用记录笔点击该“END”键,控制器101自动检测完成该名片识别并使该显示单元在单个屏上显示所有SAVE项以及与该SAVE项对应的字符数据的事实,如图29B所示。然后,将如图29B所示显示的字符数据存储在数据库131中。换句话说,如果完成输入、识别和校正过程,数据库131将从该文档识别的基于SAVE项的数据存储在其所需存储区中。数据库131能包括能存储电话簿、备忘录、其他应用等等的各个存储空间。如果存储所有所需数据项,中止该程序。
根据本发明的第二实施例,在SAVE逐项基础上,校正错误,以及在文档识别和错误校正过程中使用语音识别方法。
图30是示例说明根据本发明的第二实施例的示例性的文档识别过程的流程图。
参考图30,在步骤200,控制器101使得照相机107检测文档图象。此时,由图象处理器109处理由照相机107检测的图象,以及将所处理的图象转换成数字数据,以及在显示器115上显示该数字数据。如果在显示单元115显示所检测的图象的时候,发出静止图像俘获命令,控制器101使该显示单元115显示静止图像,并将在该显示单元115上显示的图象存储在存储器103的图象存储区中。此时,在该显示单元115上显示的图象能是活动图象,以及能是字符图象数据诸如名片等等。在上述步骤200,如结合图24A和24B所述,能使用所存储的图象或输入图象。
通过输入单元113,移动终端的用户输入对应于当前显示的文档的文档“RECOGNIZE”键。如果这样的话,控制器101驱动预处理器121以便能在步骤210执行用于该文档图象的预处理操作。在步骤220,识别预处理过的文档图象的至少一个字符图象。该操作与结合图24A和24B所述的相同。文档识别器123从在显示单元115上显示的图象识别字符图象以及将所识别的字符图象转换成字符数据。控制器101使该显示单元115的第一显示区显示由该字符识别器123所识别的字符数据,以及使该显示单元115的第二显示区75显示基于文档输入键的类型的SAVE项。
然后,如果用户选择在该显示单元115的第一显示区71上显示的所识别的字符数据并选择在第二显示区75上显示的SAVE项,在步骤230,控制器101使该显示单元115的第三显示区显示所选定的字符数据和SAVE项。此时,SAVE项选择过程使用用于通过输入单元113,选择所显示的SAVE项的方法,以及用于通过语音识别器129,选择SAVE项的方法。
在选择SAVE项后,如果所选定的SAVE项的字符数据具有错误,执行校正与对应的SAVE项有关的字符数据的操作。此时,可通过使用输入单元113选择至少一个错误字符,或通过使用语音识别器129的发音来做出错误校正请求。如果通过上述方法做出错误校正请求,在步骤241,控制器101自动检测该错误校正请求并在步骤240校正所识别的字符数据的错误字符。
如果完成校正过程,控制器101在数据库131中,将所校正的字符数据存储为与对应的SAVE项有关的字符数据。
图31表示根据本发明的实施例的在如图30所示的上述步骤200执行的文档检测过程;图26A至26E是由文档检测过检测的并由显示单元115显示的图象的视图。图31所示的操作能实现为如图3所示。
现在将描述文档检测过程。用户在适当的位置放置将识别的文档并使用移动终端的照相机107检测该文档的图象。如果这样的话,在步骤651,控制器101使显示单元115显示如图26A和26B所示的预览图象。此时,如果终端设备的用户输入安置在键输入单元105或输入单元113上的照相机调整键,控制器101在步骤635自动检测该照相机调整键输入并控制该照相机107。照相机107的调整能是焦距或曝光时间调整。如图26A所示,在显示单元115上显示在照相机的曝光时间和焦距调整的基础上检测的文档图象。在这种情况下,当用户使用记录笔输入该输入单元113的“SHOOT”键时,在步骤655,控制器101自动检测键输入,并使该显示单元115在“SHOOT”键输入时间点显示与该文档图象对应的静止图像。
在步骤659,控制器101使该显示单元115显示所检测的文档图象。此时,在显示单元115上显示的文档图象与图26C相同。如果如图26C所示,在该显示单元115上显示的文档图象很好,用户使用记录笔输入在该输入单元113上安置的“SAVE”键。如果输入“SAVE”键,在步骤661,控制器101自动检测该“SAVE”键输入,并将该文档图象连同该文档图象的名称存储在存储器103的图象存储区中。此时,在显示单元115下显示的文档图象与图26E相同。
然后,如果用户点击名片“RECOGNIZE”键,在步骤663,控制器自动检测“RECOGNIZE”键输入并执行在上述步骤220执行的文档识别过程。否则,在步骤665存储当前显示的文档图象并中止该过程。
在上述步骤210的文档检测过程中,通过照相机,用户能输入所需的图象,以及通过对该照相机的微调,检测清楚的文档图象。如果用户对所检测的图象满意,通过字符识别从该输入图象抽取字符,以及做出关于将所抽取的字符以文本形式还是照片形式存储的决定。此时,如果移动终端的用户做出字符识别请求,执行上述步骤210和220的文档图象预处理和文档识别过程。
图32是示例说明根据本发明的实施例的在图30所示的上述步骤210至230的文档图象预处理、字符识别过程和SAVE项选择过程的详细流程图。图27A和27B表示上述过程的结果。
参考图32,控制器101在输入名片“RECOGNIZE”键前,使该显示单元115显示所存储的名片的图象,如图26E所示。此时,如果用户输入该输入单元113的名片“RECOGNIZE”键,控制器101自动检测名片“RECOGNIZE”键输入并驱动该预处理器121以便在步骤751能执行用于显示文档图象的预处理操作。此时,如上所述执行预处理操作。如果这样的话,字符识别器123将如图26E所示的名片图象转换成字符数据或文本,以及控制器101使得该显示单元115显示该字符数据或文本,如图27A所示。如果将名片图象转换成字符数据,控制器101使该显示单元115的第一显示区71显示该名片图象的字符数据,使该第三显示区73显示所选择的SAVE项以及与所选择的SAVE项对应的字符数据,并使该第二显示区75显示SAVE项,如图27A所示。
当在如图27A所示显示所识别的字符数据的情况下,用户使用记录笔选择第一显示区71的字符数据(或句子)项以及选择第二显示区75的SAVE项,控制器101在步骤757自动检测字符数据和SAVE项,并使该显示单元115的第三显示区73显示所选定的SAVE项以及与该SAVE项对应的字符数据,如图27B所示。在上述步骤757,通过语音能执行SAVE项选择过程。在这种情况下,移动终端的用户能通过输入单元或键输入单元105选择语音识别模式并通过语音输入所需SAVE项。
如果在显示字符数据的情况下,从该输入单元113输入“CORRECT”键,控制器101在步骤759自动检测该“CORRECT”键输入,并在步骤761执行错误校正过程。否则,如果未输入“CORRECT”键,控制器101确定是否输入用于选择下一SAVE项的按键。如果输入用于选择下一SAVE项的按键,在步骤763,控制器101自动检测键输入,并在上述步骤755选择下一SAVE项。然而,如果在上述步骤763自动检测到“END”键输入,控制器101在步骤765将对应于所选定的SAVE项的字符数据存储在数据库131中,并中止该文档识别过程。
根据本发明的第二实施例的另一文档识别过程执行驱动字符识别器以便将包含在输入文档图象中的字符图象转换成文本的操作。在显示单元115显示文本后,控制器101允许用户选择所需字符。此时,指定用于存储所选定的字符(对应于姓名、地址、公司等等)的存储区,以及将所拷贝的字符存储在指定的存储区中。在图33所示的SAVE项选择过程中,将详细地描述用于在SAVE项选择过程期间指定存储区的过程。如果将校正的字符包含在所识别的字符中,执行错误校正过程。否则,做出关于是否存在将存储的另外的SAVE项的决定。如果另外的SAVE项将存储,重复SAVE项选择过程,在存储过程,将字符数据存储在数据库中,以及中止程序。
图33是示例说明根据本发明的实施例的示例性的在图32所示的上述步骤755和757执行的SAVE面过程的详细流程图。
参考图33,执行字符识别过程并在显示单元115上显示所识别的字符数据,如图27A所示。此时,用户能使用记录笔选择在第二显示区75上显示的SAVE项或通过输入单元113或键输入单元105选择语音识别模式。如果选择语音识别模式,在步骤711,控制器101自动检测语音识别模式选择并且在步骤773,允许用户通过记录按钮,通过语音输入所需SAVE项和数据。如果这样的话,在上述步骤773和775,控制器101将通过音频处理器111接收的语音信号应用到该语音识别器129,并驱动语音识别器129以便能识别所接收的语音信号。然后,控制器101使该显示单元115如图27B所示显示与对应于语音识别信号的SAVE项有关的字符数据并在步骤777保存该字符数据。
在步骤771自动检测到使用该记录笔的SAVE项选择后,在步骤779,控制器101使该显示单元115显示如图27A所示的SAVE项。如果用记录笔选择所需SAVE项,在步骤781,显示所选定的SAVE项和字符数据(文本),以及在步骤783,将该字符数据(文本)存储在对应于所选定的SAVE项的存储区中。
如上所述,将SAVE项选择方法分成使用语音识别的SAVE项选择方法以及使用记录笔的SAVE项选择方法。在按压使用语音识别的SAVE项选择方法中的记录按钮后,用户读出如图27A所示显示的SAVE项的所需SAVE项以便通过语音识别器129选择所需SAVE项。如果选择“ITEM ADDITION”,从用户接收所需另外的SAVE项以及在执行下一过程前,将另外的SAVE项增加到SAVE项表。此外,在使用记录笔的SAVE项选择方法中,点击并选择如图27A所示在该显示单元115上显示的SAVE项的所需SAVE项。不是顺序执行上述两种方法,而是能根据用户选择,有选择地执行两种方法中的一种。
图33解释使用语音识别或记录笔选择所需SAVE项和字符数据的例子。能通过语音识别选择所需SAVE项以及能通过记录笔选择该字符数据。此外,能用记录笔选择所需SAVE项以及通过语音识别选择该字符数据。
图34A至34D是示例说明根据本发明的实施例的示例性的在图30所示的上述步骤240执行的、在所选定的SAVE逐项基础上,校正错误字符数据的过程的详细流程图。
参考图34A,当选择所需SAVE项时,控制器101使该显示单元115的第三显示区73显示所选定的SAVE项以及对应于所选定的SAVE项的字符数据,如图28A所示。当错误识别对应于所选定的SAVE项的字符数据时,用户使用该记录笔点击该“CORRECT”键或选择语音识别模式以便做出校正请求。控制器101自动检测该校正请求、接收最接近于由该字符识别器123识别的字符的候选字符,并使该显示单元115的第三显示区73显示候选字符。此时,控制器101使该显示单元115的第三显示区73显示用于校正错误识别的字符的候选字符,使该显示单元115的第二显示区75显示用于输入手写字符以便校正错误识别的字符的识别窗,或使该显示单元115的第四显示区77显示软键盘,如图28B所示。如果所需字符包含在该显示单元115的第三显示区73上显示的候选字符中,移动终端的用户使用记录笔点击所需候选字符。因此,如果从候选字符选择任意候选字符,控制器101在步骤815自动检测该候选字符选择,并在步骤817,用所选定的候选字符校正或代替在该第一显示区71上显示的错误识别的字符。
如果该所需字符不包含在第三显示区73上显示的候选字符中,移动终端的用户能选择语音识别模式,使用在第二显示区75上显示的手写字符识别窗,或使用在第四显示区77上显示的软键盘。此时,如果用户通过输入单元113或键输入单元105选择语音识别模式,控制器101在步骤820执行与图34B有关的操作。如果用户将手写字符输入在第二显示区75上显示的手写字符识别窗,控制器101在步骤850执行与图34C有关的操作。
校正过程引用由字符识别器123抽取的数据值。当如在图33中由字符识别过程识别一个字符时,字符识别器123将最接近于该输入字符的候选字符确定为与相应的SAVE项有关的字符数据,并保持接近于该输入字符的其他候选字符。在图34A所示的错误校正过程中,用户请求该字符识别器123提供与将校正的字符有关的候选字符,因此,该显示单元115的第三显示区73显示由该字符识别器123所提供的候选字符。此时,如果所需候选字符包含在这些候选字符中,移动终端的用户使用记录笔选择所需字符并用所选定的候选字符校正或代替错误识别的字符。否则,如果在这些候选字符中没有所需字符,移动终端的用户执行图34B所示的语音识别过程、图34C所示的手写字符识别过程或图34D所示的软键识别过程。在一个屏幕上执行这些过程。当在移动终端中提供的显示单元115的下面部分上显示手写字符识别窗和软键盘时,显示单元115等待用户选择手写字符识别窗或软键盘。在用户按压记录按钮的情况下,驱动语音识别器129。因此将该字符识别器123设计成能识别印刷字符、手写字符和软键。
参考图34B,根据使用的语言操作语音识别器129。语音识别器129在逐个字母或逐个字符的基础上而不是逐字的基础上接收语音信号。在英语中,词由至少一个字母组成,以及英文字母对应于字符。然而,在韩文中,字符由几个字符元素或字母组成。例如,英文中的词“KOREA”由五个字母组成,而韩文中的词“
Figure A0315812500741
(Hankook)”由两个字符组成,字符由三个字母组成。关于韩文,如果语音识别器129不是无限制的语音识别机,语音识别器129必须在逐个字母的基础上,接受对应于所需字符的语音信号。因此,在语音识别模式中首先选择语言模式,以及如果语言模式是基于韩文,做出关于语音识别器129是否是无限制语音识别机的决定。
在语音识别过程中,控制器101在步骤821确定将校正的字母是英语还是韩文。如果将校正的字母是英语,移动终端的用户选择英文模式,按压记录按钮,以及输入用于通过语音校正的字符数据。如果这样的话,控制器101在步骤835自动检测对应于英文字母数据的语音输入并在步骤837驱动语音识别器129。语音识别器129识别从音频处理器111输出的语音的英语字符数据并将所识别的英文字符数据输出给控制器101。然后,控制器101用所识别的英文字符数据校正对应于所选定的SAVE项的字符数据并在步骤839确定是否必须校正下一字符数据。此时,如果存在将校正的字符数据,控制器101返回上述步骤835并重复上述过程。如果不存在将校正的字符数据,那么控制器101执行如图30所示的上述步骤251。
如果将校正的字符是韩文,控制器101确定语音识别器129是否是无限制语音识别机。如果该语音识别器129是无限制语音识别机,那么控制器101执行上述步骤823,并执行韩文字符的语音识别操作同时执行上述步骤835至839。在逐个字符的基础上执行韩文语音识别。
如果语音识别器129不是无限制语音识别机,在步骤825,控制器101使得语音识别器129在逐个字母的基础上执行韩文语音识别过程。在这种情况下,在校正对应于所选定的SAVE项的字符数据的情况下,用户按压记录按钮,顺序地输入对应于由韩文字符数据组成的字母的语音信号,并且如果完成用于对应于字符的字母的语音信号输入,按压完成按钮。如果输入对应于由该字符组成的字母的语音信号,在上述步骤825,控制器101接收该输入的语音信号,并驱动语音识别器129以便能识别所接收的语音信号。在识别对应于用于字符校正的字母的语音信号后,在步骤829,控制器101自动检测结束该语音信号输入,在上述步骤829组合这些字母以便形成字符,并用由所组合的字母形成的字符校正或代替错误字符。因此,在步骤833,控制器101确定是否必须校正下一字符数据。如果存在将校正的下一字符,控制器101返回上述步骤825以便能重复上述步骤。否则,如果不存在将校正的字符,执行如图30所示的上述步骤251。
在使用记录笔不能执行错误校正过程的情况下,能使用语音识别来执行错误校正过程。在语音识别过程中,做出关于将校正的字符是否由至少两个字母组成的决定。例如,韩文字符由多个字母组成,字母包括至少一个辅音和至少一个元音,即一组起始和中间字母或一组起始、中间和结尾字母。由于不能将需要大量容量的软件的无限制语音识别器内置在移动终端(例如,PDA)中,禁止对除先前输入的字符外的其他字符的韩文识别。因此,在逐个字母的基础上(即,在起始/中间/结尾字母基础上),形成韩文中的可校正范围。在逐个字母的基础上实现字符校正过程。如果未来在移动终端内能实现无限制语音识别,能在逐个字母或逐个字符的基础上执行字符识别过程。同时,由于在逐个字母或逐个字符的基础上,能校正英文字母或特殊字符,用户选择所需字母表或特殊字符,按压记录按钮,并通过语音识别器读出所需字符以便能用所读的字符校正或代替错误的字符。如果完成校正过程,该方法返回如图30所示的SAVE项选择过程。
将参考图34C来描述使用手写字符识别过程的错误校正过程。在步骤851,控制器101使显示单元115表明错误识别的字符。如果用记录笔将手写字符输入到该第二显示区75的识别窗,在步骤853,控制器101自动检测该手写字符输入,并驱动该字符识别器123以便在步骤855,能识别所输入的手写字符。控制器101用由字符识别器123识别的字符数据校正或代替对应于所选定的SAVE项的错误识别的字符数据。控制器101在步骤857确定是否必须校正下一字符。如果存在将校正的下一字符,控制器101返回上述步骤853以便能重复上述步骤。否则,如果不存在将校正的字符,执行图30所示的上述步骤251。
通过加载在该显示单元115的第二显示区75上的手写字符识别窗执行使用手写字符识别的错误校正过程。在不能由图34A所示的错误校正过程校正错误字符的情况下,用户能通过直接将所需字符输入到手写字符识别窗来执行校正操作。
现在将参考图34D来描述软键识别的错误校正过程。控制器101使该显示单元115表明错误识别的字符,如图28D所示,以及在第四显示区77上显示软键盘。同时,如果从软键盘输入或接收按键数据,在步骤873,控制器101自动检测该按键数据接收并在步骤875驱动字符识别器123的软键识别器以便能识别对应于该输入按键数据的字符。如果这样的话,控制器101用由该字符识别器123的软键识别器识别的字符数据校正或代替错误识别的所选定的SAVE项的字符数据。在步骤877,控制器101确定是否必须校正下一字符数据。如果存在将校正的另外的字符,控制器101返回上述步骤853以便能重复上述步骤。否则,如果不存在将校正的字符,执行图30所示的上述步骤251。
通过加载在该显示单元115的第四显示区77上的软键盘执行通过软键识别的错误校正。在通过如图34A所示的错误校正过程不能校正错误字符的情况下,用户能通过直接用软键盘的软键输入所需字符来执行校正操作。
如果完成用于对应于所选定的SAVE项的字符数据的SAVE项选择过程和错误校正过程,通过输入单元113,移动终端的用户输入“END”键。然后,在步骤251,控制器101自动检测该“END”键输入并将该文档识别的结果保存在数据库131中。数据库131将选定的SAVE项和对应于所选定的SAVE项的字符数据记录在由用户指定的地址中。
如果完成输入、识别和校正过程,数据库131将从该文档识别的基于SAVE项的数据保存在其所需存储区中。数据库131能包括能存储电话簿、备忘录、其他应用等等的各种存储空间。如果完全存储所有所需数据项,中止该程序。
根据本发明的第二实施例,选择在文档识别后与所识别的文档有关的SAVE项,如果所选定的SAVE项的字符数据具有错误,校正错误的字符,以及选择下一SAVE项。因此,在SAVE逐项基础上,存储所识别的文档的字符数据的同时,校正错误的字符并存储校正的字符。在本发明的第二实施例中,当选择SAVE项或校正错误字符时,能使用语音识别器。
在根据本发明的第二实施例的错误校正过程中,首先选择候选字符,以及通过所选定的候选字符校正错误字符。在禁止使用候选字符的错误校正过程的情况下,已经解释过能通过语音识别或手写字符,以及软键识别来实现错误校正。在错误字符校正过程中,能有选择地实现候选字符选择方法、使用语音识别的语音输入方法、手写字符输入方法以及使用软键盘的字符输入方法中的一些方法。换句话说,错误字符校正方法允许用户直接输入语音信号、手写字符和软键,而不选择候选字符。此外,已经描述过使用候选字符选择的错误字符校正方法、语音识别和手写字符识别,但可仅使用候选字符选择和语音识别方法、语音识别和手写字符识别方法,或语音识别和软键识别方法来实现。
在本发明的实施例中,假定上述文档是带有个人姓名和其他信息的名片,但本发明的实施例能适用于除名片外的其他文档。
在将该文档的信息记录在设备诸如移动终端中的情况下,扫描该文档的图象,并能通过字符识别和/或语音识别来记录字符数据,以便能简化通过移动终端的输入单元的操作以及能用字符识别或语音识别方便地校正错误字符。由于能通过字符和语音识别方法输入该文档的信息,能有效地输入大量文档信息。
尽管为示例目的,已经公开了本发明的实施例,但本领域的技术人员将意识到在不脱离本发明的范围的情况下,可做出各种改进、增加和取代。因此,本发明并不局限于上述实施例,而是通过下述的权利要求以及它们的等效的全部范围来限定本发明。

Claims (33)

1.一种用于从文档识别字符图象的装置,包括:
输入单元,用于生成用于识别模式、校正模式和存储模式的命令;
预处理器,用于分析所述识别模式中的文档图象的象素、在所述分析结果的基础上,将所述文档图象分类成至少一个(字符块)CB和至少一个(背景块)BB、二进制化所述BB的象素并生成预处理过的文档图象;
字符识别器,用于识别所述预处理过的文档图象并将所识别的预处理过的文档图象转换成字符数据;
识别错误处理器,用于在所述校正模式中,通过由所述输入单元输出的字符数据校正或代替由所述输入单元选择的错误识别的字符数据;
数据库,用于在存储模式中,存储所识别的字符数据;以及
显示单元,用于显示所述文档图象和这些模式操作期间生成的字符数据。
2.如权利要求1所述的装置,其中,所述预处理器包括:
歪斜校正部件,用于从所述文档图象分类具有给定长度或以上的条纹、计算所分类的条纹的方向角、测量目标歪斜、确定对应于所测量的歪斜的歪斜角以及校正所述目标歪斜;
内容区(ROC)扩展部件,用于将校正了所述目标歪斜的所述文档图象分类成CB和BB、搜索所述CB的位置以便抽取所述CB以及将所抽取的CB的图象的大小扩展成输入文档图象的大小;以及
图象二进制部件,用于将用于所述文档图象的CB的象素与象素阈值进行比较、将所述CB的象素二进制化为具有用于字符和背景象素的亮度值的象素、以及将所述BB的象素二进制化为具有用于所述背景象素的亮度值的象素。
3.如权利要求2所述的装置,其中,所述预处理器进一步包括:
模糊图象检测部件,用于将所述输入文档图象分类成CB和BB、计算用于所述CB的平均能量比、将所述平均能量比与预定阈值进行比较,以及根据所述比较结果,确定所述输入文档图象是否模糊。
4.如权利要求2所述的装置,其中,所述预处理器进一步包括:
噪声降低部件,用于降低从所述ROC扩展部件输出的扩展象素的噪声并将降低了噪声的所述图象输出给所述图象二进制部件。
5.如权利要求1所述的装置,进一步包括:
照相机,用于检测所述文档并生成所述文档图象。
6.如权利要求5所述的装置,进一步包括:
语音识别器,用于在所述存储模式中生成输入信号以便选择SAVE项,以及在所述校正模式中生成另外的输入信号,以便选择和校正错误识别的字符数据,所述语音识别器将输入语音信号转换成字符数据。
7.如权利要求5所述的装置,其中,所述字符识别器包括:
手写字符识别器,用于在所述校正模式中识别所接收的手写字符图象,以及将所述所识别的手写字符图象转换成用于校正所述错误识别的字符数据所需的校正字符数据。
8.如权利要求5所述的装置,其中,所述照相机调整焦距和曝光时间。
9.一种用于使用照相机存储文档的装置,包括:
输入单元,用于生成用于检测模式、识别模式、校正模式和存储模式的命令;
显示单元,具有用于显示输入文档图象和从所述输入文档图象识别的字符数据的第一显示区、用于显示SAVE项的第二显示区、用于显示所选定的SAVE项的字符数据的第三显示区,以及用于显示操作模式菜单的另一显示区;
在所述检测模式中驱动的照相机,用于检测所述文档图象;
预处理器,用于在所述识别模式中分析所述文档图象的象素、在所述分析结果的基础上,将所述文档图象分类成至少一个(字符块CB)和至少一个(背景块)BB、二进制化所述BB的象素以及生成预处理过的文档图象;
字符识别器,用于识别所述预处理过的文档图象,以及将所述所识别的预处理过的文档图象转换成字符数据;
识别错误处理器,用于在所述校正模式中,用由所述输入单元输出的字符数据校正或代替由所述输入单元选择的错误识别的字符数据;以及
数据库,用于在所述存储模式中存储所述所识别的字符数据。
10.如权利要求9所述的装置,其中,所述预处理器包括:
歪斜校正部件,用于从所述文档图象分类具有给定长度或以上的条纹、计算所分类的条纹的方向角、根据所述计算结果,测量目标歪斜、确定对应于所测量的歪斜的歪斜角以及校正所述目标歪斜;
内容区(ROC)扩展部件,用于将校正了所述目标歪斜的所述文档图象分类成CB和BB、搜索所述CB的位置以便抽取所述CB以及将所抽取的CB的图象的大小扩展成输入文档图象的大小;以及
图象二进制部件,用于将用于所述文档图象的CB的象素与象素阈值进行比较、将所述CB的象素二进制化为具有用于字符和背景象素的亮度值的象素、以及将所述BB的象素二进制化为具有用于所述背景象素的亮度值的象素。
11.如权利要求10所述的装置,其中,所述预处理器进一步包括:
模糊图象检测部件,用于将所述输入文档图象分类成CB和BB、计算用于所述CB的平均能量比、将所述平均能量比与预定阈值进行比较,以及根据所述比较结果,确定所述输入文档图象是否模糊。
12.如权利要求11所述的装置,其中,所述预处理器进一步包括:
噪声降低部件,用于降低从所述ROC扩展部件输出的扩展象素的噪声并将降低了噪声的所述图象输出给所述图象二进制部件。
13.如权利要求12所述的装置,进一步包括:
语音识别器,用于在所述存储模式中生成输入信号以便选择SAVE项以及在所述校正模式中生成另外的输入信号以便选择和校正错误识别的字符数据,所述语音识别器将输入语音信号转换成字符数据。
14.如权利要求12所述的装置,其中,所述字符识别器包括:
手写字符识别器,用于在所述校正模式中识别所接收的手写字符图象以及将所述所识别的手写字符图象转换成用于校正所述错误识别的字符数据所需的校正字符数据。
15.一种用于启动终端设备来从文档图象识别字符图象的方法,包括步骤:
(a)指定用于文档识别的操作模式;
(b)在所述文档识别模式中分析所述文档图象的象素、在所述分析结果的基础上,将所述文档图象分类成至少一个(字符块)CB和至少一个(背景块)BB、二进制化所述BB的象素以及生成预处理过的文档图象;
(c)识别所述预处理过的文档图象并将所述所识别的预处理过的文档图象转换成字符数据;
(d)选择错误识别的字符数据,并在校正模式中用输入字符数据校正或代替所述错误识别的字符数据;以及
(e)在存储模式中存储所述所识别的字符数据。
16.如权利要求15所述的方法,其中,所述步骤(b)包括步骤:
(b-1)从所述文档图象分类具有给定长度或以上的条纹、计算所述分类条纹的方向角、根据所述计算结果,测量目标歪斜、确定对应于所述所测量歪斜的歪斜角并校正所述目标歪斜;
(b-2)将校正了所述目标歪斜的所述文档图象分类成CB和BB、搜索所述CB的位置以便抽取所述CB并将所述所抽取的CB的图象的大小扩展成输入文档图象的大小;以及
(b-3)将用于所述文档图象的所述CB的象素与象素阈值进行比较、将所述CB的象素二进制化为具有用于字符和背景象素的亮度值的象素,以及将所述BB的象素二进制化为具有用于所述背景象素的亮度值的象素。
17.如权利要求16所述的方法,其中,所述步骤(b)进一步包括步骤:
(b-4)将所述输入文档图象分类成CB和BB、计算用于所述CB的平均能量比、将所述平均能量比与预定阈值进行比较,以及根据所述比较结果,确定所述输入文档图象是否模糊,并且如果输入图象不模糊,执行预处理。
18.如权利要求17所述的方法,其中,所述步骤(b)进一步包括步骤:
(b-5)降低从所述内容区(ROC)扩展部件输出的扩展象素的噪声并将降低了噪声的所述图象输出给所述图象二进制部件。
19.如权利要求18所述的方法,其中,所述步骤(d)进一步包括步骤:
(d-1)在所述校正模式中,显示对应于所述错误识别的字符数据的候选字符;
(d-2)用从所述显示的候选字符选择的候选字符校正或代替所述错误识别的字符数据。
20.如权利要求18所述的方法,其中,所述步骤(d)进一步包括步骤:
(d-3)在所述校正模式中,响应请求,显示用于输入手写字符的识别窗;
(d-4)当将所述手写字符输入到所述手写字符识别窗时,识别所述手写字符;以及
(d-5)用所述所识别的手写字符校正或代替所述错误识别的字符数据。
21.如权利要求18所述的方法,其中,所述步骤(d)进一步包括步骤:
(d-6)在所述校正模式中,显示与所述错误识别的字符有关的候选字符;
(d-7)用从所述所显示的候选字符选择的候选字符校正或代替所述错误识别的字符数据;
(d-8)当校正字符数据未包含在所述所显示的候选字符中时,显示手写字符识别窗;
(d-9)当将手写字符输入到所述手写字符识别窗中时,识别所述手写字符;
(d-10)用所述所识别的手写字符校正或代替所述错误识别的字符数据。
22.如权利要求18所述的方法,其中,所述步骤(d)进一步包括步骤:
(d-11)在所述校正模式中驱动语音识别器;
(d-12)允许所述语音识别器识别输入语音信号并将所识别的语音信号转换成所述字符数据;以及
(d-13)用由所述语音识别器提供的所述字符数据校正或代替所述错误识别的字符数据。
23.一种用于启动终端设备来从文档图象识别字符图象的方法,所述终端设备包括显示单元,所述显示单元具有用于显示字符图象和字符数据的第一显示区、用于显示SAVE项的第二显示区、用于显示所选定的SAVE项的字符数据的第三显示区,以及用于显示操作模式菜单的另一显示区,包括步骤:
(a)显示由照相机检测的所述文档图象;
(b)在文档识别模式中分析所述文档图象的象素、在所述分析结果的基础上,将所述文档图象分类成至少一个(字符块)CB和至少一个(背景块)BB、二进制化所述BB的象素以及生成预处理的文档图象;
(c)识别所述预处理过的文档图象、将所述所识别的预处理过的文档图象转换成字符数据、在所述第一显示区显示所述字符数据、在所述第二显示区显示与所述字符数据有关的SAVE项,以及在所述第一显示区显示所述预处理过的文档图象;
(d)从所述显示的SAVE项选择SAVE项、选择与所述选定的SAVE项有关的字符数据,并存储和显示所述所选定的字符数据;以及
(e)重复步骤(a)至(d)并存储所选定的SAVE项和对应于所述所选定的SAVE项的字符数据。
24.如权利要求23所述的方法,进一步包括步骤:
(f)在选择所述SAVE项和字符数据后,校正错误识别的字符数据,
其中,所述步骤(f)包括步骤:
响应错误校正请求,在所述第三显示区上与所述错误识别的字符数据有关的候选字符;以及
用从所述显示的候选字符选择的候选字符校正或代替所述错误识别的字符数据。
25.如权利要求23所述的方法,进一步包括步骤:
(f)在选择所述SAVE项和字符数据后,校正错误识别的字符数据,
其中,所述步骤(f)包括步骤:
响应错误校正请求,在所述第二显示区上显示手写字符识别窗;
当将手写字符输入到所述手写字符识别窗时,识别所述手写字符;以及
用所述所识别的手写字符校正或代替所述错误识别的字符数据。
26.如权利要求23所述的方法,进一步包括步骤:
(f)在选择所述SAVE项和字符数据后,校正错误识别的字符数据,
其中,所述步骤(f)包括步骤:
响应错误校正请求,在所述第三显示区上显示与所述错误识别的字符数据有关的候选字符;
用从所述所显示的候选字符选择的候选字符校正或代替所述错误识别的字符数据;
当校正字符数据未包含在所述所显示的候选字符中时,在所述第二显示区上显示手写字符识别窗;
当将手写字符输入所述识别窗中时,识别所述手写字符;以及
用所述所识别的手写字符校正或代替所述错误识别的字符数据。
27.如权利要求23所述的方法,进一步包括步骤:
(f)在选择所述SAVE项和字符数据后,校正错误识别的字符数据,
其中,所述步骤(f)包括步骤:
响应错误校正请求,驱动语音识别器;
允许所述语音识别器识别输入语音信号并将所识别的语音信号转换成所述字符数据;以及
用由所述语音识别器提供的所述字符数据校正或代替所述错误识别的字符数据。
28.一种用于启动移动终端来识别带有个人姓名和其他信息的名片的图象的方法,所述移动终端包括显示单元,所述显示单元具有用于显示所识别的名片的字符数据的第一显示区、用于显示SAVE项的第二显示区、用于显示所选择的SAVE项的字符数据的第三显示区,以及用于显示操作模式菜单的另一显示区,包括步骤:
(a)显示由照相机检测的所述名片图象;
(b)在识别模式中分析所述名片图象的象素、在所述分析结果的基础上,将所述名片信息分类成至少一个字符块(CB)和至少一个背景块(BB)、二进制化所述BB的象素并生成预处理过的名片图象;
(c)将所述预处理过的名片图象转换成字符数据、在所述第一显示区上显示所述字符数据,以及在所述第二显示区上显示与所述字符数据有关的所述名片的SAVE项;
(d)从所述所显示的SAVE项选择SAVE项、选择与所选定的SAVE项有关的字符数据,并在所述第三显示区上显示所选定的字符数据;
(e)选择错误识别的字符数据,并在校正模式中,用输入的字符数据校正或代替所述错误识别的字符数据;以及
(f)在存储模式中存储所识别的字符数据。
29.如权利要求28所述的方法,其中,所述SAVE项包括个人姓名、移动电话号码、公司电话号码、电子邮件地址、个人头衔和其他。
30.如权利要求29所述的方法,其中,执行所述校正方法的过程包括步骤:
响应错误校正请求,在所述第三显示区上显示与所述错误识别的字符数据有关的候选字符;以及
用从所述所显示的候选字符选择的候选字符校正或代替所述错误识别的字符数据。
31.如权利要求29所述的方法,其中,校正所述错误识别的字符数据的过程包括步骤:
当输入校正键时,在所述第二显示区上显示手写字符识别窗;
当将手写字符所述手写字符识别窗中时,识别所述手写字符;以及
用所述识别的手写字符校正或代替所述错误识别的字符数据。
32.如权利要求29所述的方法,其中,校正所述错误识别的字符数据的过程包括步骤:
当输入校正键时,驱动语音识别器;
允许所述语音识别器识别输入语音信号并将所述识别的语音信号转换成所述字符数据;以及
用由所述语音识别器提供的所述字符数据校正或代替所述错误识别的字符数据。
33.如权利要求29所述的方法,其中,校正所述错误识别的字符数据的过程包括:
在所述校正模式中,显示与所述错误识别的字符数据有关的候选字符;
用从所述所显示的候选字符选择的候选字符校正或代替所述错误识别的字符数据;
当校正字符数据未包含在所述所显示的候选字符中时,显示手写字符识别窗;
当将手写字符输入到所述识别窗中时,识别所述手写字符;以及
用所识别的手写字符校正或代替所述错误识别的字符数据。
CNB031581250A 2002-09-11 2003-09-11 用于从图象屏识别字符图象的装置和方法 Expired - Fee Related CN1330203C (zh)

Applications Claiming Priority (4)

Application Number Priority Date Filing Date Title
KR20020055148 2002-09-11
KR55148/2002 2002-09-11
KR1020030053137A KR100593986B1 (ko) 2002-09-11 2003-07-31 영상화면 내의 글자 이미지를 인식하는 장치 및 방법
KR53137/2003 2003-07-31

Publications (2)

Publication Number Publication Date
CN1505431A true CN1505431A (zh) 2004-06-16
CN1330203C CN1330203C (zh) 2007-08-01

Family

ID=31890607

Family Applications (1)

Application Number Title Priority Date Filing Date
CNB031581250A Expired - Fee Related CN1330203C (zh) 2002-09-11 2003-09-11 用于从图象屏识别字符图象的装置和方法

Country Status (3)

Country Link
US (1) US7773808B2 (zh)
EP (1) EP1398726B1 (zh)
CN (1) CN1330203C (zh)

Cited By (7)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN101867776A (zh) * 2010-04-15 2010-10-20 西安酷派软件科技有限公司 移动电视节目互动的方法、系统、移动终端及播放系统
CN101419661B (zh) * 2007-10-26 2011-08-24 国际商业机器公司 基于图像中的文本进行图像显示的方法和系统
CN101377855B (zh) * 2007-08-27 2012-07-18 富士施乐株式会社 文档图像处理装置和信息处理方法
CN104067294A (zh) * 2012-02-06 2014-09-24 欧姆龙株式会社 字符读取装置和字符读取方法
CN105025184A (zh) * 2014-04-16 2015-11-04 虹光精密工业股份有限公司 可处理大尺寸文件与小尺寸文件的双面事务机
WO2018171560A1 (zh) * 2017-03-20 2018-09-27 北京金山办公软件股份有限公司 一种快速插入识别文字的方法及装置
CN111900694A (zh) * 2020-07-07 2020-11-06 贵州电网有限责任公司 一种基于自动识别的继电保护设备信息采集方法及系统

Families Citing this family (48)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP4574235B2 (ja) * 2004-06-04 2010-11-04 キヤノン株式会社 画像処理装置、及びその制御方法、プログラム
KR20060050729A (ko) * 2004-08-31 2006-05-19 엘지전자 주식회사 카메라로 촬영된 문서 영상 처리 방법과 장치
JP2006190259A (ja) * 2004-12-06 2006-07-20 Canon Inc 手ぶれ判定装置及び画像処理装置及びその制御方法及びプログラム
AU2006230364B2 (en) * 2005-03-31 2012-09-13 Janssen Pharmaceutica N.V. Bicyclic pyrazole compounds as antibacterial agents
JP4708913B2 (ja) * 2005-08-12 2011-06-22 キヤノン株式会社 情報処理方法及び情報処理装置
TW200802172A (en) * 2006-06-21 2008-01-01 Compal Communications Inc Character/text generating apparatus
US20080231752A1 (en) * 2007-03-22 2008-09-25 Imatte, Inc. Method for generating a clear frame from an image frame containing a subject disposed before a backing of nonuniform illumination
US8059859B2 (en) * 2007-05-31 2011-11-15 Canon Kabushiki Kaisha Image processing apparatus and method of controlling the same
US8064636B2 (en) * 2007-05-31 2011-11-22 Canon Kabushiki Kaisha Image processing apparatus and method of controlling the same
KR101291195B1 (ko) * 2007-11-22 2013-07-31 삼성전자주식회사 문자인식장치 및 방법
JP2009246542A (ja) * 2008-03-28 2009-10-22 Brother Ind Ltd ファクシミリ装置
US8229225B2 (en) * 2008-05-06 2012-07-24 Wu Yingchao Candidate selection method for handwriting input
KR101015663B1 (ko) 2008-06-24 2011-02-22 삼성전자주식회사 문자인식장치에서의 문자인식방법 및 그 장치
JP4737270B2 (ja) * 2008-10-31 2011-07-27 富士ゼロックス株式会社 画像処理装置及びプログラム
KR101035744B1 (ko) * 2008-12-08 2011-05-20 삼성전자주식회사 카메라를 이용한 문자 인식 장치 및 방법
TW201025152A (en) * 2008-12-31 2010-07-01 Icp Electronics Inc Method for fast locating pattern
KR101023389B1 (ko) * 2009-02-23 2011-03-18 삼성전자주식회사 문자 인식 성능을 향상시키기 위한 장치 및 방법
US8121618B2 (en) 2009-10-28 2012-02-21 Digimarc Corporation Intuitive computing methods and systems
US8464297B2 (en) * 2010-06-23 2013-06-11 Echostar Broadcasting Corporation Apparatus, systems and methods for identifying a video of interest using a portable electronic device
US8737702B2 (en) 2010-07-23 2014-05-27 International Business Machines Corporation Systems and methods for automated extraction of measurement information in medical videos
US9484046B2 (en) 2010-11-04 2016-11-01 Digimarc Corporation Smartphone-based methods and systems
JP2013029904A (ja) * 2011-07-27 2013-02-07 Sony Corp 画像処理装置および画像処理方法
JP5845764B2 (ja) * 2011-09-21 2016-01-20 富士ゼロックス株式会社 情報処理装置及び情報処理プログラム
US9147275B1 (en) 2012-11-19 2015-09-29 A9.Com, Inc. Approaches to text editing
US9043349B1 (en) 2012-11-29 2015-05-26 A9.Com, Inc. Image-based character recognition
TWI499879B (zh) * 2012-12-21 2015-09-11 Ind Tech Res Inst 工序分析監控系統及其方法
JPWO2014102876A1 (ja) * 2012-12-27 2017-01-12 パナソニックIpマネジメント株式会社 画像処理装置、および、画像処理方法
US9342930B1 (en) 2013-01-25 2016-05-17 A9.Com, Inc. Information aggregation for recognized locations
US9311640B2 (en) 2014-02-11 2016-04-12 Digimarc Corporation Methods and arrangements for smartphone payments and transactions
US9070183B2 (en) 2013-06-28 2015-06-30 Google Inc. Extracting card data with linear and nonlinear transformations
US9377948B2 (en) * 2013-07-01 2016-06-28 Lenovo (Singapore) Pte. Ltd. Special input for general character inquiries for input to information handling device
US9171203B2 (en) * 2013-09-10 2015-10-27 Dropbox, Inc. Scanbox
US8903136B1 (en) * 2013-11-15 2014-12-02 Google Inc. Client side filtering of card OCR images
US9354778B2 (en) 2013-12-06 2016-05-31 Digimarc Corporation Smartphone-based methods and systems
US9269009B1 (en) * 2014-05-20 2016-02-23 Amazon Technologies, Inc. Using a front-facing camera to improve OCR with a rear-facing camera
US9342830B2 (en) 2014-07-15 2016-05-17 Google Inc. Classifying open-loop and closed-loop payment cards based on optical character recognition
US10430802B2 (en) 2014-09-03 2019-10-01 Entit Software Llc Screen-image based classification
US9430766B1 (en) 2014-12-09 2016-08-30 A9.Com, Inc. Gift card recognition using a camera
US10740372B2 (en) * 2015-04-02 2020-08-11 Canon Information And Imaging Solutions, Inc. System and method for extracting data from a non-structured document
SG11201906699WA (en) 2017-01-20 2019-08-27 Lifefoundry Inc Systems and methods for supporting multiple automated workflows
WO2019181441A1 (ja) * 2018-03-20 2019-09-26 日本電気株式会社 情報処理装置、制御方法、及びプログラム
US12117800B2 (en) 2018-07-25 2024-10-15 LifeFoundry Inc. Systems and methods for supporting multiple automated workflows
CN109389150B (zh) * 2018-08-28 2022-04-05 东软集团股份有限公司 图像一致性比对方法、装置、存储介质及电子设备
JP7247496B2 (ja) * 2018-09-14 2023-03-29 富士フイルムビジネスイノベーション株式会社 情報処理装置及びプログラム
KR102553105B1 (ko) * 2018-11-01 2023-07-07 삼성전자주식회사 이미지의 컨텐츠의 변경에 기반하여 이미지의 표시 위치 또는 면적을 제어하는 전자 장치
JP7354697B2 (ja) * 2019-08-30 2023-10-03 富士フイルムビジネスイノベーション株式会社 情報処理装置、及び情報処理プログラム
CN115116072B (zh) * 2022-07-12 2025-02-11 电子科技大学 基于基线定位与序列建模的自然场景下的藏文识别方法
US12039504B1 (en) 2023-09-13 2024-07-16 U.S. Bank National Association Mobile check deposit

Family Cites Families (24)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US3701972A (en) * 1969-12-16 1972-10-31 Computer Retrieval Systems Inc Data processing system
JPS5398739A (en) * 1977-02-09 1978-08-29 Nippon Telegr & Teleph Corp <Ntt> Communication system with character recognition
US5022081A (en) * 1987-10-01 1991-06-04 Sharp Kabushiki Kaisha Information recognition system
US4799077A (en) * 1987-11-23 1989-01-17 Polaroid Corporation Common drive for shutter blades and objective lens assembly
JP3190074B2 (ja) * 1991-09-11 2001-07-16 株式会社東芝 手書き入力装置
US5335290A (en) * 1992-04-06 1994-08-02 Ricoh Corporation Segmentation of text, picture and lines of a document image
US5568571A (en) * 1992-12-14 1996-10-22 University Microfilms, Inc. Image enhancement system
US5625711A (en) * 1994-08-31 1997-04-29 Adobe Systems Incorporated Method and apparatus for producing a hybrid data structure for displaying a raster image
US5855000A (en) * 1995-09-08 1998-12-29 Carnegie Mellon University Method and apparatus for correcting and repairing machine-transcribed input using independent or cross-modal secondary input
BE1011062A3 (nl) 1997-03-25 1999-04-06 Atlas Copco Airpower Nv Afblaasinrichting van een compressoreenheid en daarbij gebruikte vochtafscheider.
JP4119004B2 (ja) * 1998-05-19 2008-07-16 株式会社東芝 データ入力システム
JP2000048215A (ja) 1998-07-27 2000-02-18 Sharp Corp データ処理装置及びその制御プログラムを記憶した媒体
US6801659B1 (en) * 1999-01-04 2004-10-05 Zi Technology Corporation Ltd. Text input system for ideographic and nonideographic languages
CN1245935A (zh) * 1999-06-21 2000-03-01 李虹 名片全自动识别录入与检索系统
JP4392907B2 (ja) * 1999-07-30 2010-01-06 株式会社東芝 文字切出し方法
EP1117072A1 (en) * 2000-01-17 2001-07-18 Koninklijke Philips Electronics N.V. Text improvement
JP4409713B2 (ja) 2000-04-05 2010-02-03 富士通株式会社 文書画像認識装置及び記録媒体
DE10104270A1 (de) * 2001-01-31 2002-08-01 Siemens Ag Verfahren und System zum Verarbeiten von auf Informationsträgern dargestellten Informationen
US7257273B2 (en) * 2001-04-09 2007-08-14 Mingjing Li Hierarchical scheme for blur detection in digital image using wavelet transform
US20020165803A1 (en) * 2001-05-01 2002-11-07 Akinori Iwase Information processing system
US6705872B2 (en) * 2002-03-13 2004-03-16 Michael Vincent Pearson Method and system for creating and maintaining assessments
JP2003308480A (ja) * 2002-04-16 2003-10-31 Fujitsu Ltd オンライン手書き文字パターン認識編集装置及び方法並びに当該方法を実現するコンピュータ実行可能なプログラム
US7181082B2 (en) * 2002-12-18 2007-02-20 Sharp Laboratories Of America, Inc. Blur detection system
KR100517337B1 (ko) 2003-05-22 2005-09-28 이효승 카메라를 구비한 휴대폰 사용 명함관리 방법 및 장치

Cited By (10)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN101377855B (zh) * 2007-08-27 2012-07-18 富士施乐株式会社 文档图像处理装置和信息处理方法
CN101419661B (zh) * 2007-10-26 2011-08-24 国际商业机器公司 基于图像中的文本进行图像显示的方法和系统
CN101867776A (zh) * 2010-04-15 2010-10-20 西安酷派软件科技有限公司 移动电视节目互动的方法、系统、移动终端及播放系统
CN101867776B (zh) * 2010-04-15 2013-04-24 西安酷派软件科技有限公司 移动电视节目互动的方法、系统、移动终端及播放系统
CN104067294A (zh) * 2012-02-06 2014-09-24 欧姆龙株式会社 字符读取装置和字符读取方法
CN105025184A (zh) * 2014-04-16 2015-11-04 虹光精密工业股份有限公司 可处理大尺寸文件与小尺寸文件的双面事务机
WO2018171560A1 (zh) * 2017-03-20 2018-09-27 北京金山办公软件股份有限公司 一种快速插入识别文字的方法及装置
CN108628814A (zh) * 2017-03-20 2018-10-09 珠海金山办公软件有限公司 一种快速插入识别文字的方法及装置
CN111900694A (zh) * 2020-07-07 2020-11-06 贵州电网有限责任公司 一种基于自动识别的继电保护设备信息采集方法及系统
CN111900694B (zh) * 2020-07-07 2022-12-27 贵州电网有限责任公司 一种基于自动识别的继电保护设备信息采集方法及系统

Also Published As

Publication number Publication date
CN1330203C (zh) 2007-08-01
EP1398726A1 (en) 2004-03-17
US20040057619A1 (en) 2004-03-25
EP1398726B1 (en) 2008-07-30
US7773808B2 (en) 2010-08-10

Similar Documents

Publication Publication Date Title
CN1505431A (zh) 用于从图象屏识别字符图象的装置和方法
CN1324521C (zh) 用于识别图象字符的预处理设备和方法
CN1220162C (zh) 用于从文档图象抽取标题的标题抽取设备及方法
CN1213592C (zh) 采用自适应二值化的图象处理方法和设备
CN1254769C (zh) 图像处理方法和装置
CN100346352C (zh) 图像显示装置和短片生成装置
CN1320490C (zh) 脸部检测及跟踪
CN1156791C (zh) 模式识别设备与方法
CN100345165C (zh) 基于图像的超现实主义三维脸部建模的方法和设备
CN1159673C (zh) 从图像中提取管理信息的设备与方法
CN1291352C (zh) 彩色图象处理装置及方法、图案抽取装置及方法
CN1225484A (zh) 地址识别设备和方法
CN1119767C (zh) 字符提取设备及方法,模式提取设备及方法和模式识别设备
CN1620094A (zh) 用于将图像转换为预定格式的图像处理设备及方法
CN1867940A (zh) 成像装置及其图像处理方法
CN1091906C (zh) 模式识别方法和系统以及模式数据处理系统
CN1595425A (zh) 指纹多特征识别方法
CN1928888A (zh) 信息处理设备和信息处理方法
CN1881234A (zh) 图像处理设备、图像处理方法、计算机程序和存储介质
CN1645241A (zh) 摄影装置、图像处理装置、摄影装置的图像处理方法
CN1102270C (zh) 信息处理方法和信息处理设备
CN1947150A (zh) 虹彩注册方法、虹彩注册装置及虹彩注册程序
CN1744657A (zh) 多分辨率分割和填充
CN1313004A (zh) 图像处理装置,图像处理方法及记录图像处理程序的媒体
CN1684491A (zh) 图像处理装置、图像投影装置、图像处理方法和程序

Legal Events

Date Code Title Description
C06 Publication
PB01 Publication
C10 Entry into substantive examination
SE01 Entry into force of request for substantive examination
C14 Grant of patent or utility model
GR01 Patent grant
CF01 Termination of patent right due to non-payment of annual fee

Granted publication date: 20070801

Termination date: 20170911

CF01 Termination of patent right due to non-payment of annual fee