CN102402576A

CN102402576A - 信息处理设备、信息处理方法及计算机程序产品

Info

Publication number: CN102402576A
Application number: CN2011102739921A
Authority: CN
Inventors: 大黑庆久
Original assignee: Ricoh Co Ltd
Current assignee: Ricoh Co Ltd
Priority date: 2010-09-14
Filing date: 2011-09-07
Publication date: 2012-04-04
Also published as: JP5716328B2; US20120066213A1; EP2428905A1; JP2012063883A

Abstract

提供了信息处理设备、信息处理方法及计算机程序产品。该信息处理设备使用图像数据和文本信息的复合数据作为搜索目标，该信息处理设备包括：词典；字符信息提取单元，用于从图像数据中提取和识别字符信息；搜索目标词语提取单元，用于将字符信息转换成文本，将文本插入到搜索目标数据中，并在数据库中存储搜索目标数据；搜索文本输入单元，用于接收文本信息的输入；搜索词语提取单元，用于基于文本信息，提取词典中的词语作为搜索词语；及搜索单元，用于对照数据库来检查搜索词语。

Description

信息处理设备、信息处理方法及计算机程序产品

相关申请的交叉引用

本申请主张于2010年9月14日在日本递交的日本专利申请No.2010-206117的优先权，并将其全部内容并入本文作为参考。

技术领域

本发明涉及将在图像数据中包括的手写字符数字化以使手写字符变得可搜索的信息处理设备、信息处理方法及计算机程序产品。

背景技术

存在用于将在图像数据中包括的手写字符数字化的多个现有技术。例如，日本专利申请公开No.2008-181485公开了一种用于将在文档上额外手写的字符等和文档一起被数字化的技术。同样，例如，日本专利申请公开No.08-137895公开了一种作为提高文档搜索的准确性的技术，该技术用于划分复合词(compound)输入以自动产生搜索关键词。

关于搜索技术，特别在语音识别领域，已知词语辨识方法。该技术在语音识别过程中从用户的语音中仅提取在词典中注册的词语，因此该技术能够提高识别的准确性和处理速度(参见“Word Spotting Speech”，Journal of JapanSociety for Fuzzy Theory，11(3)，403-407(1999))。日本专利申请公开No.2002-278579公开了一种技术，该技术通过将词语辨识方法应用到语音搜索而提高了语音搜索的准确性和处理速度。同样，日本专利申请公开No.10-055371还公开了一种技术，该技术基于模式匹配将词语辨识方法应用到搜索并通过模式匹配搜索手写注解。作为用于在搜索等过程中将复合词划分成基本词语的技术，已知形态分析(morphological analysis)，并且在日本专利申请公开No.08-137895中也应用了形态分析。

随着近来数字照相机的普及，存在更多机会来拍摄在上面书写了文字的白板以及使用白板中的图像数据作为会议笔记、备忘录等的一部分。同样，经常地，在凸版印刷品上手写评论，使用扫描仪将凸版印刷品转换为图像数据，并电子地累积图像数据。如此，包括手写字符的图像数据趋于增加，并且随着累积量的增加，搜索手写内容的请求增加。

具体地，在使用手写字符的许多情况下，由于使用了例如词语和短语等句子片段而不是使用一个在语法上完整的句子，并且除了手写绘图之外仅重要的关键词和短语是手写的，并且文本不构成一条完整的信息，而是通常在不经过适当分类和整理的情况下累积文本。因此，如果将在手写文档上的手写字符被数字化(被转换为文本)，则即使从大量没有经过整理的手写文档中提取包括用户希望的搜索词语的部分也变得容易，从而有效使用手写文档变得容易。

当将图像数据中的手写字符转换为文本以接受通常的文本搜索时，需要提高手写字符识别的准确性和搜索的准确性及处理速度。特别地，由于与印刷物相比，手写字符具有高的个性化并且经过不同的修改，因此在当前的手写字符识别技术中，与印刷字符识别相比识别的准确性低。由于该原因，为了提高用户的满意度，需要提高识别的准确性和搜索的准确性及处理速度。

发明内容

本发明的目的是至少部分地解决现有技术中的问题。

根据本发明的一个方面，提供一种信息处理设备，该信息处理设备使用图像数据和文本信息的复合数据作为搜索目标，通过将字符信息转换成文本来获得文本信息，该字符信息是图像数据中包括的原始图像数据，并且通过将转换成的文本与图像数据进行结合来获得复合数据，所述信息处理设备包括：词典，用于存储多个词语；字符信息提取单元，用于从图像数据中提取和识别字符信息；搜索目标词语提取单元，用于将识别出的并与词典中保存的词语对应的字符信息转换成文本，将所转换成的文本插入到搜索目标数据中，及在数据库中存储搜索目标数据；搜索文本输入单元，用于接收作为搜索目标的文本信息的输入；搜索词语提取单元，用于基于作为搜索目标的文本信息，提取在词典中包括的词语作为搜索词语；以及搜索单元，用于对照数据库来检查搜索词语。

根据本发明的另一个方面，提供一种信息处理方法，该信息处理方法使用图像数据和文本信息的复合数据作为搜索目标，通过将字符信息转换成文本来获得文本信息，该字符信息是图像数据中包括的原始图像数据，并且通过将转换成的文本与图像数据进行结合来获得复合数据，所述信息处理方法包括：从图像数据中提取字符信息并识别被提取的字符信息；提取搜索目标数据，其包括：将识别出的并与保存了多个词语的词典中保存的词语对应的字符信息转换成文本，将所转换成的文本插入到搜索目标数据中，及在数据库中存储搜索目标数据；提取搜索词语，其包括：基于作为搜索目标的文本信息，提取在词典中包括的词语作为搜索词语；以及对照数据库来检查搜索词语。

根据本发明的又一个方面，提供一种计算机程序产品，该计算机程序产品包括非短暂的计算机可用介质，该计算机可用介质具有在该介质中包括的、用于处理信息处理设备中的信息的计算机可读程序代码，该计算机程序产品使用图像数据和文本信息的复合数据作为搜索目标，通过将字符信息转换成文本来获得文本信息，字符信息是图像数据中包括的原始图像数据，并且通过将转换成的文本与图像数据进行结合来获得复合数据，当执行所述程序代码时所述程序代码使计算机执行：从图像数据中提取字符信息并识别被提取的字符信息；提取搜索目标数据，其包括：将识别出的并与保存了多个词语的词典中保存的词语对应的字符信息转换成文本，将所转换成的文本插入到搜索目标数据中，及在数据库中存储搜索目标数据；提取搜索词语，其包括：基于是搜索目标的文本信息，提取在词典中包括的词语作为搜索词语；以及对照数据库来检查搜索词语。

当联系附图考虑时，通过阅读本发明的当前优选实施例的下面的具体描述，将更佳的理解本发明的以上和其它目的、特征、优点及技术和工业意义。

附图说明

图1是说明根据实施例的信息处理设备的硬件配置的框图；

图2是说明根据该实施例的信息处理设备的功能配置的框图；

图3是根据该实施例的词典产生处理的流程图；

图4是说明根据该实施例的搜索目标数据的配置的示例的示意图；

图5用于解释根据该实施例的字符识别的示意图；

图6用于解释根据该实施例的字符识别的另一示意图；

图7是根据该实施例的搜索目标数据产生处理的流程图；

图8是说明根据该实施例在图像数据中包括的手写字符行的示例的示意图；

图9是说明根据该实施例在一个字符单位中的字符识别的结果的示例的示意图；

图10是说明根据该实施例在一个词语单位中的字符识别的结果的示例的示意图；

图11是根据该实施例的搜索执行处理的流程图；

图12是说明根据该实施例的限定词典的检查范围的方法的示例的示意图；

图13是说明根据该实施例的其中插入了包括意义不明确的搜索目标词语的提取结果的示例的示意图；

图14是说明根据该实施例的搜索目标词语的位置的示意图；

图15是说明根据该实施例的搜索结果的搜索目标数据的示例的示意图；

图16是说明根据该实施例的搜索结果的搜索目标数据的示例的示意图；

图17是用于解释根据该实施例的其中呈现搜索结果的顺序的示意图；

图18是用于解释根据该实施例的其中呈现搜索结果的顺序的示意图；以及

图19是说明在网络上配置根据该实施例的信息处理设备的示例的示意图。

具体实施方式

下面，将参考附图描述实施例。然而，本发明不限于这些实施例。

根据一个实施例的信息处理设备识别在图像数据中包括的多个手写字符(字符信息)，将识别出的字符转换为文本，并将字符信息的文本插入到与图像数据的字符信息对应的位置，从而可以使与字符信息的图像和文本的合成数据成为搜索目标数据，并可以搜索在搜索目标数据中包括的文本。

图1是说明根据一个实施例的信息处理设备100的硬件配置的框图。该信息处理设备被配置为包括CPU 1、存储器2、硬盘3、键盘4、显示器5、CD-ROM驱动器6、FD驱动器7及通信装置8。CPU 1控制整个信息处理设备100，存储器2保存用于控制CPU 1的程序。硬盘3保存由扫描仪(未示出)读取的图像数据。键盘4接收信息处理设备100的用户等进行的各种输入。显示器5显示输入状态等。CD-ROM驱动器6和FD驱动器7输入在CD-ROM和FD中保存的用于执行本发明的程序。通信装置8通过通信线发送并接收数据。

图2是说明根据本实施例的信息处理设备100的功能配置的框图。根据本实施例的信息处理设备100被配置包括词典10、词典产生单元20、复合词划分字典23、搜索目标数据产生单元30、数据库40及搜索执行单元50。词典产生单元20被配置为包括注册词语输入单元21和复合词划分单元22，搜索目标数据产生单元30被配置为包括字符信息提取单元31和搜索目标词语提取单元32，搜索执行单元50被配置为包括搜索文本输入单元51、搜索词语提取单元52及搜索单元53。

在信息处理设备100中，CPU 1根据在存储器2中安装的程序进行操作，从而实现字符信息提取单元31、搜索目标词语提取单元32、搜索词语提取单元52、搜索单元53及复合词划分单元22中的每个单元。此外，在硬盘3等中建立词典10和复合词划分字典23，并在键盘4上实现搜索文本输入单元51和注册词语输入单元21。并且，通过各独立单元的功能，如下所述来执行词典产生处理、搜索目标数据产生处理及搜索处理。

在本实施例中，信息处理设备100通过对被识别的字符串应用已知的词语辨识方法来提取将作为搜索目标的搜索目标词语。即，对照词典检查字符串以进行词语辨识，并且从字符串中提取在词典中包括的词语。

在根据本实施例的搜索目标数据产生单元30的搜索目标数据产生处理和搜索执行单元50的搜索处理之前，首先，将参考图3的流程图描述词典产生单元20产生词典10的词典产生处理的过程。这里，，所产生的词典10对应于当执行词语辨识方法时所检查的词典，并且在搜索目标数据产生处理和搜索处理(下面将描述)中共同使用所产生的词典10。

当对被识别的字符串应用词语辨识方法时，对照词典10检查字符串，同时将字符串的检查开始位置移动一个字符，并且一个接一个地改变字符串的检查范围的长度。因此，随着检查范围延长或在词典10中注册的词语的数量增加，检查所需要的计算量也增加。

检查范围的长度依赖于作为检查目标的字符串的长度以及在词典10中注册的词语的长度。在本实施例中，由于限制字符串的长度不是优选的，因此缩减在词典10中注册的词语的长度以抑制检查所需要的计算量。

如果在词典10中注册的词语包括复合词，则该词语通常变长。此外，由于无数的复合词是通过基本词语的组合构成的，因此所注册的词语的数量也增加。为此，在本实施例中，通过已知的形态分析将复合词划分为基本词语，并在词典10中注册基本词语。换句话说，在存在用户想注册的词语(想将该词语作为搜索目标)的情况下(步骤S101为是)，并且如果在步骤S102用户通过注册词语输入单元21输入了对应词语，则在步骤S103复合词划分单元22参考复合词划分字典23(其是用于形态分析的字典)将输入的复合词划分为多个词语，并输出这些词语。在步骤S104，对照词典10检查各个输出的词语。如果对应的输出词语还没有被注册(步骤S104为否)，则要在步骤S105在词典10中对其进行注册。同时，如果对应的输出词语已经被注册(步骤S104为是)，则过程前进到步骤S101，而不在词典10中注册对应的输出词语。

例如，如果从注册词语输入单元21输入了复合词“旅游代理人”，则通过形态分析将该复合词划分为词语“旅游”、“代理”及“人”，并且如果在词典10中没有注册各个词语“旅游”、“代理”及“人”，则注册这些对应的词语。随后，在输入复合词“代理人”的情况下，即使当通过形态分析将该复合词划分为词语“代理”和“人”时，由于在词典10中已经注册了词语“代理”和“人”两者，因此不再新注册这两个词语。

类似地，即使在用户输入例如“旅游”、“旅游代理”、“旅游代理商”、“旅游代理人”及“旅游代理行业”等多个复合词的情况下，将要在词典10中注册的词语可以被限制为词语“旅游”、“代理”、“行业”及“人”。通过这样做，可以缩减将要在词典10中注册的词语的长度并抑制要被注册的词语的数量。当在词典10中注册词语时，可以与词语一起注册例如语言的部分等语法信息。

下面，将参考图4到图7描述根据本实施例的搜索目标数据产生处理的过程。通过搜索目标数据产生处理，将在图像数据中包括的手写字符(字符信息)转换为文本(文本数据)，从而产生将要作为由搜索执行单元50进行的搜索处理中的搜索目标的数据，下面将要对其进行描述。

在本实施例中，搜索目标数据是具有多层结构的电子文档，在该电子文档中，如图4所示，以多层方式来叠加包括手写字符的图像数据(图像层)和包括手写字符被转换成的文本的PDF(信息附加层)。以透明色在原始图像数据的手写字符上直接布置信息附加层的PDF中的文本。因此，通过在不改变原始图像数据的外观的情况下，将原始图像数据与手写字符的文本结合来获得本实施例的搜索目标数据。在下面将要描述的搜索处理中，作为信息附加层的透明文本PDF是搜索目标。

在本实施例中，搜索目标数据不限于PDF，而可以是具有多层结构的普通的电子文档。此外，多层结构不限于由多个层构成的结构，而是包括其中可以在多个层中分离并叠加文档元素组的结构。

然后，在本实施例中，通过应用已知的词语辨识方法来提取希望作为搜索目标的词语(搜索目标词语)作为搜索目标数据。由于与印刷的词语相比，手写字符具有高的个性化并且经过不同的修改，因此以一个字符为单位来准确识别手写字符是困难的。例如，如图5所示，手写字符具有各种形状，并且特定地，形状上类似的字符容易被错误地识别。如所示出的，对此的示例是字符501(意思是岛的日语“島(sima)”)与字符502和503(意思是鸟的日语“鳥(tori)”)，以及字符504和505(意思是和的日语“和(wa)”)与字符“利(ri)”(其是意思是利的日语)。即，字符506(是日本的辖区名称“鹿児島(Kagoshima)”)可能被错误地识别为“鹿児鳥(kagodori)”，或字符507(“鳥取(toritori)”)可能被错误地识别为字符508(“鳥取(Tottori)”)，字符509(是日本的辖区“和歌山(Wakayama)”)可能被错误地识别为510(“利歌山(rikayama)”)。此外，如图6中给出的示例，由于字符601可能被划分为字符602和603，或字符605可能被划分为字符606和607，字符610可能被划分为字符611和612，因此在字符没有被适当隔开的情况下，当在识别中仅依赖于字符的形状特征时，以一个字符为单位难以达到准确的字符识别。因此，手写字符识别的准确性非常低。

同时，如果应用词语辨识方法，则由于利用词典以一个字符为单位执行字符识别，因此变得不需要考虑无法作为词语出现的字符组合，并由于可以在比以一个字符为单位的字符识别更宽的范围内进行基于形状特征的确定，因此字符识别的准确性被提高。

图7是说明搜索目标数据产生单元30的搜索目标数据产生处理过程的流程图。如该流程图中所示，在步骤S201，字符信息提取单元31通过已知的OCR功能识别图像数据的字符信息。然后，在步骤S202，搜索目标词语提取单元32对照词典10检查被识别的字符串，如果词语已经被注册在词典10中，则从被识别的字符串中提取该词语，并将该词语转换为文本。在步骤S203，搜索目标词语提取单元32以透明色将作为搜索目标词语提取的词语被转换成的文本插入到PDF，并将PDF与原始图像数据相关联，从而产生搜索目标数据。在步骤S204，搜索目标词语提取单元32在数据库40中保存搜索目标数据。

将参考图8到图10具体描述通过应用词语辨识方法从被识别的字符串中提取词语的方法。以一个字符为单位首先识别图8中所示的手写字符图像801。换句话说，确定可能是手写字符行中的字符之间的间隔的位置(分割位置)并输出每个字符的识别结果。这时，如图9所示，对于不明确的识别结果，输出多个候选项901、902及903。

然后，当检查词典10时，如果存在如图10所示的在词典10中注册的词语时，则输出每个词语的存在范围(每个词语的开始位置到结束位置)作为提取结果。以被称为词格(word lattice)的数据形式输出提取结果。根据词格形式，将提取结果表示为(开始位置、结束位置、词语注解、可能值)。例如，将图10中的词语1001(意思是“有效的”的日语“効果的(koukateki)”)输出为(12、14、词语1001的图像、96)。

每个字符的识别结果具有与得分一样的识别可能性。基于这样的得分，如图9所示计算多个候选项901、902和903的识别次序。将每个字符的形状表示为特征量中的一对数值，通过将一对数值作为向量来确定字符形状的标准特征量向量。为每种识别目标字符准备标准特征量向量，从而产生标准模式字典。关于每个字符，计算在标准模式字典中包括的特征量向量和识别目标图像的字符的特征量向量之间的向量间距离，并且将与识别目标图像的字符的特征量最接近的标准模式代表的字符确定为目标图像的识别结果。作为该处理中获得的每个字符的识别可能性，使用基于最小的向量间距离的值。

通常，由于对于相同图像获得多个识别候选项，因此在对照词典检查识别候选项以获得词语候选项的情况下，可能组合一个字符的错误的识别结果，从而造成提取不正确的词语。在短词语的情况下，当将一个字符的错误的识别结果插入到识别结果中时，该识别结果可能与词典中保存的词语意外匹配。例如，在二字符词语“旅行(ryo-kou)”(意思是旅游的日语)的情况下，如果作为对应于第一字符“旅(ryo)”的识别结果插入错误的识别结果“流(ryu)”，则在词典中二字符词语“旅行(ryokou)”的错误的识别结果与词语“流行(ryu-kou)”(意思是趋势的日语)匹配。同时，在六字符词语“コンピユ一タ(ko-n-pyu-ta)”(意思是计算机的日语)的情况下，该词语包括字符“ン(n)”、“ピユ一(pyu)”和“タ(ta)”，它们易于被错误地识别为形状上类似的其它日语字符“ソ(so)”、“ビユ一(byu)”和“夕(yuu)”(其是意思为夜晚的日语的“夕方(yuu-kata)”的第一个字符)，并且有可能将获得多个候选项作为这三个字符中的每个字符的识别结果。然而，甚至当组合包括识别错误的候选字符时，不太可能产生除了词语“コンピユ一タ(ko-n-pyu-ta)”之外的6字符词语。换句话说，仅错误识别不可能造成将要提取的不正确的词语，而是仅当在词典中意外保存由包括错误识别的字符的组合构成的字符串时，才提取不正确的词语。当词语字符串中的字符的数量大时，只要以一个字符为单位的错误的识别结果与另一词语字符串匹配的意外情况不同时发生，就将不提取不正确的词语。换句话说，如果被提取的词语字符串的字符数量大，则可以依靠该结果。

从上述结果，可以看出词格的可能状态(词语的提取结果)应该反映各个字符的识别结果得分和被提取的词语串的长度。因此，可以将词格的可能状态(词语的提取结果)表示为f(每个字符的识别结果得分，被提取的词语串的长度)。这里，f()代表函数，该函数在每个字符的识别结果得分较好以及被提取的词语串的长度较短时表示较好的值。当函数满足上述特性时，例如，可以考虑下面的方程式(1)和(2)。这里，x代表各字符的(一组)识别结果得分，并当数值增加时将x设置为较合适的正数。此外，将y设置为代表被提取的词语串的长度的正数，并且将a设置为正的常数。当实现本实施例时所有上述计算示例是设计内容，并且在实施过程中可以适当设计具有上述倾向性的函数。

f(x，y)＝∑x+a×y (1)

这里，将基于字符串检查的加分(bonus)点加入到每个字符的识别得分的总和中。

f (x, y) = Σx + \sqrt{y} - - - (2)

这里，基于字符串检查以系数乘以每个字符的识别得分的总和。

下面，将参考图9中的示例具体描述对照词典10检查识别结果。在图9中，对照词典10检查以一个字符为单位的识别结果，并提取匹配的词语和匹配词语的位置。当一个接一个地移动字符剪切位置并且一个接一个地改变检查范围的长度时，检查在词典10中包括的词语是否存在。例如，假设在词语“とともに(totomoni)”1002(其意思是“与...在一起”的日语)、“ともに(tomoni)”(其意思是“一起”的日语)、“より(yori)”1004(其意思是“比”的日语)、“効果(kouka)”1005(其意思是“效果”的日语)、“的(mato)”1006(其意思是“目标”的日语)、“作用(sa-you)”1007(其意思是“作用”的日语)及“効果的(koukateki)”1001已经被注册在词典10的情况下。在第17个字符剪切位置处的一个字符识别结果中，第一位是“月(tsu-ki)”904，第二位是“用(you)”905。然而，“用(you)”905可以与“用(you)”905左边紧接的字符“作(saku)”906组合，从而可以提取词语“作用(sayou)”906和905(等于1007)。

同时，图9中的第05到09、15以及18到20的字符剪切位置处的字符位于手写字符图像中，但与这些字符的组合匹配的词语不存在于词典10中，从而不执行任何输出。这样，以上述词格形式将“とともに(totomoni)”1002、“ともに(tomoni)”1003、“より(yori)”1004、“効果(kouka)”1005、“的(mato)”1006、“作用(sayou)”1007及“効果的(koukateki)”1001与它们的存在范围一起输出。

下面，将参考图11中的流程图描述由根据本实施例的搜索执行单元50执行的搜索处理的过程。如果在步骤S301用户通过搜索文本输入单元51输入他想设置为搜索关键词的词语作为文本信息，则然后在步骤S302，搜索词语提取单元52对照词典10检查输入文本信息并从输入的搜索文本信息中提取在词典10中已经注册的词语。然后，在步骤S303，搜索单元53对照数据库40检查作为搜索词语的被提取的词语，并在搜索目标数据的信息附加层中搜索文本信息。如果存在与搜索词语对应的词语，则在步骤S304，以合适的形式将包括该对应词语的搜索目标数据输出到显示器5。

例如，在输入词语“旅行代理店(ryokou dairiten)”1301(其意思为旅游代理的日语)作为搜索目标的文本信息的情况下，提取词语“旅行(ryokou)”1302、“代理(dairi)”1303(其意思为代理的日语)及“店(ten)”1304(其意思为公司的日语)作为搜索词语，并输出包括词语“旅行(ryokou)”1302、“代理(dairi)”1303及“店(ten)”1304的搜索目标数据。在该情况下，不仅输出包括对应于由包括“旅行(ryokou)”1302、“代理(dairi)”1303及“店(ten)”1304中的两个或多个的复合词构成的搜索词语的词语的搜索目标数据，而且输出部分对应于该搜索词语的搜索目标数据(例如包括三个词语“旅行(ryokou)”1302、“代理(dairi)”1303及“店(ten)”1304中的任意一个的搜索目标数据)以及包括三个词语“旅行(ryokou)”1302、“代理(dairi)”1303及“店(ten)”1304的搜索目标数据(即使该三个词语彼此互相不相邻)。从而，可以增加结果满足用户的潜在要求的可能性。

在搜索处理的过程中，搜索词语提取单元52期望将复合词语划分为基本词语以获得搜索词语，并且在正常情况下可能参考已经注册了多个词语的、普通的复合词划分字典23(用于形态分析的字典)。同时，在词典10中，通过上述词典注册过程仅注册用户希望从图像数据中搜索的词语。因此，在本实施例中，当搜索词语提取单元52提取搜索词语时，参考词典10，在其中缩减了在复合词划分过程中的计算量，从而可以防止搜索词语和搜索目标词语之间的不对应，并提高搜索效率。

可以共同产生当产生搜索目标数据时使用的词典10和当在搜索过程中从文本信息输入中提取的搜索词语时使用的词典10，从而可以在不使计算量增加的情况下以高度的准确性实现手写字符的数字化和搜索。因此，可以大幅度提高对于包括手写字符的图像数据的搜索效率并有效地使用包括手写字符的图像数据。

当在上述搜索目标数据产生处理的过程中应用词语辨识方法时，为了对照词典10有效地检查被识别的字符串，根据图像数据中的手写字符的大小限制对照词典10检查的范围的长度。即手写字符依赖人，并且具有由字符的高度来确定词语的长度的倾向。为此，当从图像数据中提取并识别手写字符时，测量字符的高度并基于字符的高度限定检查范围的长度。词语的长度倾向于根据字符的种类和字符的数量来改变。为此，如图12所示，对在词典10中注册的各词语限定检查范围的长度。即，如果由检查长度系数乘以字符的测量出的长度，则可以限制当对应词语的字符是手写时所估计的长度。此外，由于每个人的手写字符各不相同，因此对范围的长度提供上限和下限。

如上所述，由于通过在应用词语辨识方法过程中限制对照词典10检查的字符串的检查范围的长度来限制要被检查的词语的长度，因此可以抑制被检查的词语的数量并缩减检查需要的计算量。每当执行检查时都可以从词语注解中计算出检查范围的长度。根据该方法，还可以有益地抑制词典10的容量。

在上述词典产生过程和搜索目标数据产生过程中，在词典产生过程中用户希望从图像数据中作为搜索目标词语提取的词语数量增加的情况下，在词典10中注册对应的词语。此外，必须对搜索目标数据增加作为搜索目标词语的对应词语。为此，在词典10中已经额外地注册词语的情况下，跟随该注册处理，可优选地仅对该对应词语自动执行搜索目标数据产生过程，以执行对搜索目标数据增加作为搜索目标词语的对应词语的处理。这样，与在词典10中额外地注册词语同步地对搜索目标数据自动地增加对应词语，从而不会出现在词典10和搜索目标数据中的搜索目标词语之间的不对应。因此可以防止搜索失败。

在上述搜索处理中，在作为输入搜索目标的文本信息包括在词典10中不包括的词语的情况下，可以在词典10中另外注册对应词语，并且跟随该注册处理，可以仅对该对应词语自动执行搜索目标数据产生过程，以执行对搜索目标数据增加作为搜索目标词语的对应词语的处理。

例如，在词典10已经注册了四个词语“旅行(ryokou)”1501、“代理(dairi)”1502、“店(ten)”1503及“発表(happyou)”1504(其意思为发布的日语)的情况下，如果用户输入文本信息“旅行代理店ランキング発表(ryokoudairiten ranking happyou)”1500(其意思为旅游代理公司排名发布的日语)，则在搜索词语中不包括词语“ランキング(ranking)”1505。因此，不确定是否包括词语“ランキング(ranking)”1505。因此，即使当作为搜索结果呈现的搜索目标数据包括完全对应于文本信息“旅行代理店ランキング発表(ryokoudairiten ranking happyou)”1500的词语时，也不识别对应的词语。为此，在词典10中注册在用户输入的文本信息中包括的、但还没有在词典10中注册的词语“ランキング(ranking)”1505，并且对词语“ランキング(ranking)”1505执行搜索目标数据产生过程，以执行对搜索目标数据增加作为搜索目标词语的词语“ランキング(ranking)”1505的处理。

这样，在词典10中另外注册用户潜在(潜意识)希望对搜索目标词语增加的词语，并对搜索目标数据自动增加对应词语，从而呈现用户希望的搜索结果的可能性高，并且不会出现词典10和搜索目标数据中的搜索目标词语之间的不对应。因此可以防止搜索失败。

在上述搜索目标数据产生处理中，由于手写字符的字符识别准确性不高，因此即使当通过应用词语辨识方法以词语单位执行识别时，在包括在词典10中注册了形状上类似的多个词语的情况的许多情况下，可能做出错误的字符识别。例如，在词语“旅行(ryokou)”和“流行(ryukou)”一起被注册在词典10的情况下，由于两个词语在日语字符“旅(ryo)”和“流(ryu)”的形状上类似并且共同具有字符“行(kou)”，因此可以看出两个词语在形状上互相类似。因此，根据与本实施例相同的信息处理设备的自动处理，难以彼此区别地输出词语“旅行(ryokou)”和“流行(ryukou)”，而不像人能够从上下文理解这两个词语。

为此，在本实施例的搜索目标数据产生处理中，在对相同的手写字符位置范围输出具有预定或较高等级的可能性的多个提取结果的情况下，可能在仍然意义不明确的情况下将多个搜索目标词语冗余地插入到搜索目标数据中，而不确定它们中的任意一个。例如，如图13所示，在将要在手写字符图像上直接处理的信息附加层上叠加作为透明文本的多个提取结果。由于多个提取结果是透明色的文本，因此多个提取结果不损害图像数据中的用户的手写字符的可读性。

如果像这样冗余地插入多个搜索目标词语，则即使在基于自动处理使用词典10的搜索处理中，至少可以防止搜索失败。即使在输入作为搜索词语的词语“流行(ryukou)”1305的情况下，也可以提取手写词语“旅行(ryokou)”1305的搜索目标数据。然而，如果指定了多个搜索词语，则防止了全部被提取的搜索目标数据不对应于用户所希望的搜索词语。由于下面的原因优选该处理：如果输出过多选择的搜索结果，则足以使用户看到图像数据并拒绝某些数据，然而如果出现搜索失败，则不存在弥补搜索失败的方法。

此外，在上述搜索目标数据产生处理和搜索处理中，随着在词典10中注册的词语的数量增加，检查的计算量也随之增加，并且形状上类似的词语的数量也增加，从而词语提取结果的意义不明确性增加。为此，可以适当地抑制要在词典10中注册的词语的数量，从而减少处理时间并提高词语提取的准确性。因此，在本实施例中，可以对使用的各领域和各用户提供多个词典10，从而用户可以通过切换使用所希望的词典10。

作为词典10，例如提供已经注册了关于计算机的技术术语的字典、已经注册了关于法律的技术术语的字典、用于特定用户的用户字典等以使用户能够通过例如键盘4等输入单元选择所希望的词典10的词典。在该情况下，例如，如果预先知道搜索目标数据是关于计算机的字符图像，则可以通过切换来选择已经注册了关于计算机的技术术语的字典，从而减少处理时间并提高词语提取的准确性。

在可以如上所述通过切换使用多个词典10的情况下，在上面提到的搜索目标数据产生处理中，对于对应的搜索目标词语增加词典10的识别信息，通过该词典10的识别信息已经提取了搜索目标数据的各搜索目标词语。在已经执行对词典10的切换的情况下，对搜索目标数据增加所切换的词典10的识别信息，从而基于对应的词典10完成词语提取。因此，不需要重复搜索目标数据产生处理。同时，当已经执行对词典10的切换时，在搜索目标数据不具有增加到其中的所切换的词典10的识别信息的情况下，重复基于对应词典10的搜索目标数据产生处理。

不仅对已经执行对词典10的切换的情况，而且对于包括手写字符的图像数据被作为搜索目标数据额外并新近地注册到数据库40的情况，都可以应用上述处理。即，当确认没有增加要使用的词典10的识别信息时，执行搜索目标数据产生处理。

此外，在上述搜索处理中，可以基于搜索目标数据中的搜索目标词语的位置(存在位置)来确定搜索结果的呈现顺序。换句话说，可以将对应于在作为用户输入的搜索目标的文本信息中包括的多个搜索词语的搜索目标词语的数量大并且在图像数据上的位置集中在小范围的搜索目标数据，作为满足用户要求(具有与用户输入的文本信息高度的相似性)的搜索目标数据。因此，对应于搜索词语，以在搜索目标数据中包括的搜索目标词语的数量的递减顺序呈现搜索结果。此外，在搜索词语的数量相等的情况下，以搜索目标词语的位置的范围大小的递增顺序呈现搜索结果。

下文中，将通过使用图14到图18中示出的特定示例描述确定搜索结果的呈现顺序的方法。首先，图像数据上的搜索词语的位置(存在位置)直接位于手写字符的位置上，并可以以如图14所示的矩形坐标来表示。

图15到图18示出当在作为用户输入的搜索目标的文本信息中包括五个词语“旅行(ryokou)”1501、“代理(dairi)”1502、“店(ten)”1503、“ランキング(ranking)”1505及“発表(happyou)”1504时作为搜索结果提取的搜索目标数据的示例。比较图15和图16，由于如两个图所示都包括五个搜索目标词语，因此不通过搜索目标词语的数量来确定呈现顺序。同时，比较图像上五个搜索目标词语的存在位置，搜索目标词语在图15中比在图16中集中于更小的范围。因此，确定图15中的搜索结果更满足用户的要求，并首先呈现图15中的搜索结果。

关于多个搜索目标词语的存在位置的集中程度，获得包括所有搜索目标词语的有限矩形，并且如果有限矩形的面积小，则确定集中程度高。图17和图18中的粗虚线1700和1800示出的矩形分别是关于图15和图16中的搜索结果的有限矩形，并且可以看出图17中示出的矩形1700面积较小。因此，即使基于有限矩形的面积，也可以看出，可以确定图15中的搜索结果更好地满足用户的要求。

当原点在左上方的坐标系统中，可以如下定义获得有限矩形的方法和计算有限矩形的面积的方法。即，在搜索目标数据的n个搜索目标词语对应于搜索词语的情况下，如下方式定义存在范围。

(Xs_i，Ys_i)-(Xe_i，Ye_i)(其中i是1和n)

此外，可以如下方式计算包括所有矩形的有限矩形的坐标。

(Min(Xs_i)，Min(Ys_i))-(Max(Xe_i)，Max(Ye_i))

可以如下方式表示有限矩形的宽度W和高度H。

W＝Min(Xs_i)-Min(Ys_i)

H＝Max(Xe_i)-Max(Ye_i)

此外，可以如下表示有限矩形的面积S。

S＝W×H

面积S的大小成为对应于搜索词语的搜索目标词语的集中度的衡量标准。实际上，由于该面积根据字符大小而改变，因此为了消除字符大小的影响，将有限矩形中包括的字符大小进行平均，通过使用平均值来使该面积标准化。可以使用字符高度的平均值Pav作为字符大小的平均值的替代，并可以按照下面的方式来表示有限矩形的标准宽度Wav和高度Hav。

Wav＝W/Pav

Hav＝H/Pav

从而，可以按照下面的方式来计算标准面积。

Sav＝Wav×Hav

对于作为由用户输入的搜索目标的文本信息和搜索目标数据之间的相似程度，可以使用在互联网搜索中已知的关键词近似的衡量标准。

为了执行上述各实际示例中的信息处理方法，可以将处理过程写为计算机程序，可以在例如CD-ROM和FD等任意记录介质中记录该程序，并且可以读取信息处理设备100的计算机中的该程序。此外，也可以通过例如图19所示的互联网等通信线路读取在网络上布置的信息处理设备100、200和300的计算机中的程序进行实施。

根据本实施例，可以将当产生搜索目标数据时使用的词典和当在搜索过程中从文本信息中提取搜索词语时使用的词典进行合并，从而可以在不造成计算量增加的情况下，以高度的准确性实现手写字符的数字化和搜索。因此，可以显著提高包括手写字符的图像数据的搜索效率并有效使用包括手写字符的图像数据。

考虑到前述情况做出本实施例，本实施例提供一种信息处理设备、信息处理方法及信息处理程序，它们以高度的准确性提取图像数据中的手写字符，将手写字符转换为将作为搜索目标数据的文本，并以高度的准确性搜索该搜索目标数据。

虽然为了彻底并清楚的揭示，已经关于特定实施例描述了本发明，但是后附权利要求并不因此被限制，而是将后附权利要求解释为包括落入本文阐述的基本教示内的、本领域技术人员可想到的所有修改和替换结构。

Claims

1.一种信息处理设备，该信息处理设备使用图像数据和文本信息的复合数据作为搜索目标，

通过将字符信息转换成文本来获得文本信息，该字符信息是图像数据中包括的原始图像数据，并且

通过将转换成的文本与图像数据进行结合来获得复合数据，

所述信息处理设备包括：

词典，用于存储多个词语；

字符信息提取单元，用于从图像数据中提取和识别字符信息；

搜索目标词语提取单元，用于

将识别出的并与词典中存储的词语对应的字符信息转换成文本，将所转换成的文本插入到搜索目标数据中，及

在数据库中存储搜索目标数据；

搜索文本输入单元，用于接收作为搜索目标的文本信息的输入；

搜索词语提取单元，用于基于作为搜索目标的文本信息，提取在词典中包括的词语作为搜索词语；以及

搜索单元，用于对照数据库来检查搜索词语。

2.根据权利要求1所述的信息处理设备，其中，

对词典中存储的各词语，推测与图像数据的字符信息对应的部分的检查范围。

3.根据权利要求1所述的信息处理设备，其中，

当在词典中另外注册词语时，字符信息提取单元与该注册同步地将对应的词语增加到搜索目标数据中。

4.根据权利要求3所述的信息处理设备，其中，

当从搜索文本输入单元输入在词典中没有存储的词语时，字符信息提取单元将对应的词语另外注册到词典中。

5.根据权利要求1所述的信息处理设备，其中，

对于多个被提取的词语中的每一个，搜索目标词语提取单元

对于被提取的词语中的每一个是否对应于由字符信息提取单元提取的文本信息的可能性进行计算，并且

当所述可能性不明确时，将多个文本信息插入到图像数据中的相应位置。

6.根据权利要求1所述的信息处理设备，其中，

提供多个词典，用户选择并使用多个词典中的任意一个。

7.根据权利要求6所述的信息处理设备，其中，

当将词语插入到搜索目标数据中时，搜索目标词语提取单元将对应词语增加用于指定被检查的词典的信息。

8.根据权利要求1所述的信息处理设备，其中，

搜索单元以通过作为搜索目标的文本信息和搜索目标数据之间的相似程度定义的顺序来呈现搜索结果。

9.一种信息处理方法，该信息处理方法使用图像数据和文本信息的复合数据作为搜索目标，

通过将转换成的文本与图像数据进行结合来获得复合数据，

所述信息处理方法包括：

从图像数据中提取字符信息并识别被提取的字符信息；

提取搜索目标数据，包括：

将识别出的并与存储了多个词语的词典中存储的词语对应的字符信息转换成文本，

将所转换成的文本插入到搜索目标数据中，及

在数据库中存储搜索目标数据；

提取搜索词语，包括：

基于作为搜索目标的文本信息，提取在词典中包括的词语作为搜索词语；以及

对照数据库来检查搜索词语。

10.一种计算机程序产品，该计算机程序产品包括非短暂的计算机可用介质，该计算机可用介质具有在该介质中包括的、用于处理信息处理设备中的信息的计算机可读程序代码，该计算机程序产品使用图像数据和文本信息的复合数据作为搜索目标，

通过将转换成的文本与图像数据进行结合来获得复合数据，当执行所述程序代码时使得计算机执行：

从图像数据中提取字符信息并识别被提取的字符信息；

提取搜索目标数据，包括：

将所转换成的文本插入到搜索目标数据中，及

在数据库中存储搜索目标数据；

提取搜索词语，包括：

对照数据库来检查搜索词语。