[go: up one dir, main page]

JPH10134145A - 文字切り出し方法およびそれを用いた文字認識装置と、その文字切り出し方法を実行するプログラムを格納した、コンピュータが読取可能な記憶媒体 - Google Patents

文字切り出し方法およびそれを用いた文字認識装置と、その文字切り出し方法を実行するプログラムを格納した、コンピュータが読取可能な記憶媒体

Info

Publication number
JPH10134145A
JPH10134145A JP8304228A JP30422896A JPH10134145A JP H10134145 A JPH10134145 A JP H10134145A JP 8304228 A JP8304228 A JP 8304228A JP 30422896 A JP30422896 A JP 30422896A JP H10134145 A JPH10134145 A JP H10134145A
Authority
JP
Japan
Prior art keywords
rectangle
character
width
standard
candidate position
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Pending
Application number
JP8304228A
Other languages
English (en)
Inventor
Toshio Miyazawa
利夫 宮澤
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Ricoh Co Ltd
Original Assignee
Ricoh Co Ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Ricoh Co Ltd filed Critical Ricoh Co Ltd
Priority to JP8304228A priority Critical patent/JPH10134145A/ja
Publication of JPH10134145A publication Critical patent/JPH10134145A/ja
Pending legal-status Critical Current

Links

Landscapes

  • Character Input (AREA)

Abstract

(57)【要約】 【課題】 接触文字を含む文章や、文字間隔が非常に狭
い文章であっても、文字を正確に切り出すことができる
ようにすること。 【解決手段】 生成した矩形から標準矩形幅を求め、前
記生成した矩形のうち注目する矩形幅41aと標準矩形
幅とを比較する。さらに、注目矩形41aに隣接する矩
形41bと標準矩形幅とを比較する。このように、2種
類の矩形幅と標準矩形幅とを比較すれば、文字切り出し
候補位置42の間違いを正確に判断できる。また、前記
注目矩形41aが標準サイズより大きいときは、さら
に、前記注目矩形41a内に所定の矩形43を生成す
る。そして、この矩形43を行方向に走査して黒ラン長
さの最大値、および、矩形内の黒画素比率を取得する。
黒ラン長さおよび黒画素比率が所定の値より大きな場合
には、前の文字切り出し候補位置42bに加えて、新た
な文字切り出し候補位置42dを発生させる。

Description

【発明の詳細な説明】
【0001】
【発明の属する技術分野】この発明は、文字切り出し方
法およびそれを用いた文字認識装置と、その文字切り出
し方法を実行するプログラムを格納した、コンピュータ
が読取可能な記憶媒体に関し、更に詳しくは、接触した
文字や文字間隔が狭いなどの理由で文字切り出し位置が
間違っている場合でも、正確に文字を切り出すことがで
きる文字切り出し方法およびそれを用いた文字認識装置
と、その文字切り出し方法を実行するプログラムを格納
した、コンピュータが読取可能な記憶媒体に関する。
【0002】
【従来の技術】現在、既に書かれたものを読み取るオフ
ライン方式の文字認識装置が、多量の一般文書、帳簿、
伝票などを高速読み取りするといった分野で広く用いら
れている。既に書かれた文書などには、印刷された文字
のみならず手書きの文字も含まれる。ここで、手書きの
文字では、隣接する文字が接触したりする場合がある
(以下、接触文字という)。また、文字間隔が非常に狭
くなる場合がある(以下、近接文字という)。
【0003】このような接触文字を認識する技術として
は、特開平5−128307号公報に記載の如く、接触
文字の混在する文字の構成要素を抽出し、これらの文字
構成要素に基づいて平均的な文字幅および文字ピッチを
算出し、この平均的文字幅および文字ピッチに基づいて
切り出しを行うものが知られている。
【0004】また、特開平6−215183号公報に記
載の如く、標準的な文字幅に比べその文字幅が顕著に異
なる文字パターンが存在するとき、その前後の文字パタ
ーンをも含めてヒストグラムを求め、所定のしきい値以
下の位置で接触文字を分割する技術も知られている。な
お、特開平6−16720号公報の如く、接触文字を分
離せず、文字塊のまま認識する方法もある。
【0005】
【発明が解決しようとする課題】しかしながら、平均的
な文字幅を算出し、これに基づいて接触文字を切り出す
方法(上記特開平5−128307号)では、誤った切
り出し位置を誤ってしまう場合がある。また、ヒストグ
ラムの谷間を切り出し位置として文字の切り出しを行う
方法(特開平6−215183号)では、谷間が現れな
い接触文字を切り出せない場合がある。このため、文字
の切り出しを正確に行うことができない問題点があっ
た。さらに、文字間隔が非常に狭い場合も、同様の問題
点が生じていた。
【0006】そこで、この発明は、上記に鑑みてなされ
たものであって、接触文字を含む文章や、文字間隔が非
常に狭い文章であっても、文字を正確に切り出すことが
できる文字切り出し方法およびそれを用いた文字認識装
置と、その文字切り出し方法を実行するプログラムを格
納した、コンピュータが読取可能な記憶媒体を提供する
ことを目的とする。
【0007】
【課題を解決するための手段】上述の目的を達成するた
めに、請求項1に係る文字切り出し方法は、文章を構成
する文字をそれぞれ矩形として切り出す文字切り出し方
法において、前記切り出した矩形のうち注目する一つの
注目矩形の第1矩形幅と、当該注目矩形幅と前記注目矩
形に隣接する矩形の矩形幅とを加えた第2矩形幅と、を
取得する工程と、切り出した矩形から求めた標準的な矩
形の標準矩形幅を取得する工程と、前記第1矩形幅と標
準矩形幅とを比較し、さらに、前記第2矩形幅と標準矩
形幅とを比較する工程と、前記第1矩形幅が前記標準矩
形幅から大きく離れている場合で、かつ、前記第2矩形
幅が前記標準矩形幅の2倍に近い場合は、文字切り出し
候補位置を間違えていると判断する工程と、を含むもの
である。
【0008】すなわち、標準矩形幅に対する比較対象
を、注目矩形の矩形幅のみならず、それに隣接する矩形
の矩形幅まで考慮するようにした。このため、文字切り
出し候補位置の間違いを正確に判断できるようになる。
この結果、接触文字や近接文字における文字切り出し位
置を誤りにくくなり、文字読み取りが正確に行える。
【0009】また、請求項2に係る文字切り出し方法
は、さらに、前記第2矩形幅から前記文字切り出し候補
位置の間違いを判断するため分離候補矩形を生成する工
程と、当該分離候補矩形内の黒ラン長さや黒画素比率な
どの黒ラン情報に基づいて文字切り出し候補位置の間違
いを判断する工程と、文字切り出し候補位置が間違って
いると判断したら、前記分離候補矩形を強制分離させる
工程と、を含むものである。
【0010】まず、文字切り出し候補位置の間違いを判
断するための分離候補矩形を生成し、この分離候補内の
黒ランの状態をみる。例えば、この分離候補矩形内の黒
画素比率が大きければ、分離候補矩形の両側の矩形に係
る文字同士は接触している可能性がある。従って、この
まま文字を切り出すと切り出し位置を間違うことにな
る。そこで、かかる場合は分離候補矩形を強制分離する
ようにする。このようにすれば、文字の切り出し位置の
間違いを防止できる。
【0011】また、請求項3に係る文字切り出し方法
は、つぎの発明による文字切り出し方法では、さらに、
前記分離候補矩形が所定幅より小さいときには強制分離
を行わない工程を含むようにしたものである。
【0012】前記分離候補矩形があまりに小さなとき、
これを強制分離していると処理時間がかかる等の不具合
を生じさせるてしまう。このため、前記分離候補矩形が
小さなときは強制分離をやめ、不具合を防止するように
した。
【0013】また、請求項4に係る文字認識装置は、一
般文書、伝票、帳簿などの印刷文字や手書き文字を画像
入力する画像入力手段と、前記画像入力手段から入力し
た画像から矩形を抽出し、前記請求項1〜3のいずれか
一つに記載の方法を実施することで前記抽出した矩形に
より決まる文字切り出し候補位置の間違いを判定し、正
しく矩形を抽出し直す矩形抽出手段と、前記矩形抽出手
段により抽出した各矩形を文字ごと切り出す文字切り出
し手段と、前記切り出した文字を認識する文字認識手段
と、を具備するものである。
【0014】このような文字認識装置を用いれば、文字
切り出し候補位置の間違いを少なくし、文字読み取りを
正確に行える。また、矩形抽出手段に上記工夫をこらせ
ばよく、その他にハード的な構成を必要としないから、
装置を安価に構成できる。
【0015】また、請求項5に係るコンピュータが読取
可能な記憶媒体は、前記請求項1〜3のいずれか一つに
記載された方法を、実行するプログラムを格納したもの
である。
【0016】このように、コンピュータが読取可能な記
憶媒体にプログラムを記憶することにより、上記方法の
プログラム自体を適切に保護することができる。
【0017】
【発明の実施の形態】以下、この発明につき図面を参照
しつつ詳細に説明する。なお、この実施の形態によりこ
の発明が限定されるものではない。
【0018】図1は、文字認識装置の構成を示す構成図
である。この文字認識装置100は、一般文書、伝票、
帳簿などの印刷文字や手書き文字を画像入力できるOC
R部1と、OCR部1から入力された画像から文字を切
り出すなどの処理を行うCPU2と、切り出し中の文字
などを表示する表示装置3とから構成されている。
【0019】図2は、図1に示した文字認識装置の機能
ブロック図である。この文字認識装置100は、黒ラン
の連結パターンを包含した矩形を抽出する矩形抽出部2
1と、矩形抽出部21の矩形情報から小矩形などの統合
や強制分離を行い、文字切り出し候補位置を定める文字
切り出し部22と、前記文字切り出し候補位置から文字
を認識してその認識結果を出力する文字認識部23と、
文字パターンが記録されている辞書24と、から構成さ
れている。
【0020】図3は、文字認識装置100の文字切り出
しの手順を示すフローチャートである。なお、以下の処
理は、CPU2に内蔵してある記憶媒体に記憶された処
理手順に基づいて行う。ステップS1では、OCR部1
により手書き文章の画像を入力する。ステップS2で
は、黒画素の連結パターンを追跡することで前記入力画
像から矩形を抽出する。
【0021】図4に、その抽出された矩形41を示す。
この図において、矩形間が文字切り出し候補位置42と
なる。例えば、「天の川」なる手書き文字が行内に含ま
れていた場合、図4では「の」および「川」の左側線分
を一つの矩形41aとして、「川」の残り線分を一つの
矩形41bとして抽出している。特に、矩形41aでは
「の」と「川」の左側線分とが接触しているため矩形サ
イズが大きくなっている。このときの文字切り出し候補
位置は42a、42b、42cとなる。続いて、ステッ
プS3では矩形情報を抽出する。具体的には、一行内の
標準的な文字幅および文字間隔、各矩形それぞれの文字
高さおよび文字幅などを求める。
【0022】つぎに、強制分離を行うか否かの決定をす
る。強制分離は、次の条件1および条件2を満たす場合
に行うものとする。まず、条件1は、「左矩形間隔をG
r、右矩形間隔をGl、矩形1の幅をW1、矩形1と矩
形2とを合わせた幅をW2、標準文字幅をWs、最小文
字間隔をGmとした場合、 (1) Gr<0.5Ws、 (2) Gl<0.5Ws、 (3) 0.3Ws<W1<0.9Wsまたは1.1W
s<W1<1.7Ws、 (4) 0.75Ws≦(W2−Gm)/2≦1.25
Ws」 を満たすものとする。
【0023】この条件1に合致する場合は、「標準的な
文字サイズから離れている」と判断できる。この場合、
その矩形に係る文字は接触文字または近接した文字であ
る可能性が高いので、強制分離する必要がある。図4の
例を参照してみると、矩形41aは標準的な文字サイズ
から大きく離れている。これは「の」と「川」の左側線
分とが接触文字となっているためである。
【0024】そこで、ステップS4では、条件1を満た
す場合にはステップS6に進み、次の条件2を満たす限
り強制分離を行う。一方、条件1を満たさないときはス
テップS5に進み、強制分離は行わない。条件1を満た
さないときは、矩形41aに係る文字は接触文字などで
ある可能性が低いからである。
【0025】さてつぎに、条件1を満たす場合は、ステ
ップS6において黒画素情報を抽出する。まず、矩形1
と矩形2とを合わせたときの幅W2と最小文字間隔Gm
とから、図5に示すような所定の矩形43(幅Wn(W
2−Gm))を生成する。この矩形43は、矩形41a
の右端部から生成するものとする。そして、生成した矩
形43を行方向に走査して黒ラン長さの最大値、およ
び、矩形内の黒画素比率を取得する。
【0026】続いて、ステップS7では、条件2を満た
すか否かを判断する。条件2は、「矩形43の幅Wnが
11mm<Wnか」、または、「矩形43の幅Wnが4
mm<Wn≦11mmであって矩形43内に連続した黒
画素があるか」である。黒ラン長さおよび黒画素比率が
所定の値より大きな場合には、強制分離を行う。この所
定の値は、通常の場合を想定して予め設定しておく。
【0027】例えば、図5に示すように、矩形43内に
「の」の一部と「川」の左側線分があるときには、矩形
43内に連続した文字パターンが存在するため、黒ラン
長さおよび黒画素比率が通常より大きくなる。この場合
に初めの文字切り出し候補位置42bにより切り出す
と、誤った文字認識を行うことになる。
【0028】そこで、条件2を満たすときはステップS
8に進み、強制分離を行う。一方、条件2を満たさない
とき、例えば、矩形43内に「川」の左側線分がないと
きなどには、矩形43内の黒ラン長さおよび黒画素比率
が通常と変わらないので、ステップS5に進み強制分離
は行わないものとする。
【0029】また、矩形43があまりに小さい場合(4
mm以下)のときにも、強制分離を行わない。このよう
な小さな文字切り出し位置候補を文字認識部23に渡す
と、多くの処理時間が必要だったり、認識結果に悪影響
を与えるためである。
【0030】ステップS8では、「の」と「川」との強
制分離を行う。すなわち、前の文字切り出し候補位置4
2bに加えて、新たな文字切り出し候補位置42dを発
生させる。以上、横書きの文字について説明したが縦書
きの文字の場合にも上記同様に強制分離を行う。さら
に、接触文字のみならず近接文字の場合にも上記同様の
処理により、強制分離を行う。
【0031】
【発明の効果】以上説明したように、この発明の文字切
り出し方法(請求項1)によれば、標準矩形幅との比較
対象を、注目矩形の矩形幅のみならず、それに隣接する
矩形の矩形幅まで考慮するようにしたので、文字切り出
し候補位置の間違いを正確に判断できるようになる。こ
の結果、接触文字や近接文字における文字切り出し位置
を誤りにくくなり、文字読み取りが正確に行える。
【0032】つぎの発明による文字切り出し方法(請求
項2)によれば、さらに、前記第2矩形幅から分離候補
矩形を生成し、当該分離候補矩形内の黒ラン長さや黒画
素比率などの黒ラン情報に基づいて文字切り出し候補位
置の間違いを判断し、間違っているときには前記分離候
補矩形を強制分離させるようにした。このよため、文字
の切り出し位置の間違いを防止できる。
【0033】つぎの発明による文字切り出し方法(請求
項3)によれば、さらに、前記分離候補矩形が所定幅よ
り小さいときには強制分離を行わないようにした。この
ため、処理時間がかかる等の不具合を防止できる。
【0034】つぎの発明による文字認識装置(請求項
4)によれば、文字切り出し候補位置の間違いを少なく
なる。このため、文字読み取りを正確に行える。また、
処理の工夫により実現できるから、装置を安価に構成で
きる。
【0035】つぎの発明によるコンピュータが読取可能
な記憶媒体(請求項5)によれば、上記方法のプログラ
ム自体を適切に保護することができる。
【図面の簡単な説明】
【図1】この発明に係る文字認識装置の概略構成を示す
ブロック図である。
【図2】図1に示した文字認識装置の詳細構成を示す機
能ブロック図である。
【図3】この発明の文字切り出し方法の手順を示すフロ
ーチャートである。
【図4】矩形の抽出を示す説明図である。
【図5】矩形の強制分離を示す説明図である。
【符号の説明】
100 文字認識装置 1 OCR部 2 CPU 3 表示装置 21 矩形抽出部 22 文字切り出し部 23 文字認識部 24 辞書

Claims (5)

    【特許請求の範囲】
  1. 【請求項1】 文章を構成する文字をそれぞれ矩形とし
    て切り出す文字切り出し方法において、 前記切り出した矩形のうち注目する一つの注目矩形の第
    1矩形幅と、当該注目矩形幅と前記注目矩形に隣接する
    矩形の矩形幅とを加えた第2矩形幅と、を取得する工程
    と、 切り出した矩形から求めた標準的な矩形の標準矩形幅を
    取得する工程と、 前記第1矩形幅と標準矩形幅とを比較し、さらに、前記
    第2矩形幅と標準矩形幅とを比較する工程と、 前記第1矩形幅が前記標準矩形幅から大きく離れている
    場合で、かつ、前記第2矩形幅が前記標準矩形幅の2倍
    に近い場合は、文字切り出し候補位置を間違えていると
    判断する工程と、 を含むことを特徴とする文字切り出し方法。
  2. 【請求項2】 さらに、前記第2矩形幅から前記文字切
    り出し候補位置の間違いを判断するため分離候補矩形を
    生成する工程と、 当該分離候補矩形内の黒ラン長さや黒画素比率などの黒
    ラン情報に基づいて文字切り出し候補位置の間違いを判
    断する工程と、 文字切り出し候補位置が間違っていると判断したら、前
    記分離候補矩形を強制分離させる工程と、 を含むことを特徴とする請求項1に記載の文字切り出し
    方法。
  3. 【請求項3】 さらに、前記分離候補矩形が所定幅より
    小さいときには強制分離を行わない工程を含むことを特
    徴とする請求項2に記載の文字切り出し方法。
  4. 【請求項4】 一般文書、伝票、帳簿などの印刷文字や
    手書き文字を画像入力する画像入力手段と、 前記画像入力手段から入力した画像から矩形を抽出し、
    前記請求項1〜3のいずれか一つに記載の方法を実施す
    ることで前記抽出した矩形により決まる文字切り出し候
    補位置の間違いを判定し、正しく矩形を抽出し直す矩形
    抽出手段と、 前記矩形抽出手段により抽出した各矩形を文字ごと切り
    出す文字切り出し手段と、 前記切り出した文字を認識する文字認識手段と、 を具備することを特徴とする文字認識装置。
  5. 【請求項5】 前記請求項1〜3のいずれか一つに記載
    された方法を、実行するプログラムを格納したことを特
    徴とするコンピュータが読取可能な記憶媒体。
JP8304228A 1996-10-31 1996-10-31 文字切り出し方法およびそれを用いた文字認識装置と、その文字切り出し方法を実行するプログラムを格納した、コンピュータが読取可能な記憶媒体 Pending JPH10134145A (ja)

Priority Applications (1)

Application Number Priority Date Filing Date Title
JP8304228A JPH10134145A (ja) 1996-10-31 1996-10-31 文字切り出し方法およびそれを用いた文字認識装置と、その文字切り出し方法を実行するプログラムを格納した、コンピュータが読取可能な記憶媒体

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
JP8304228A JPH10134145A (ja) 1996-10-31 1996-10-31 文字切り出し方法およびそれを用いた文字認識装置と、その文字切り出し方法を実行するプログラムを格納した、コンピュータが読取可能な記憶媒体

Publications (1)

Publication Number Publication Date
JPH10134145A true JPH10134145A (ja) 1998-05-22

Family

ID=17930554

Family Applications (1)

Application Number Title Priority Date Filing Date
JP8304228A Pending JPH10134145A (ja) 1996-10-31 1996-10-31 文字切り出し方法およびそれを用いた文字認識装置と、その文字切り出し方法を実行するプログラムを格納した、コンピュータが読取可能な記憶媒体

Country Status (1)

Country Link
JP (1) JPH10134145A (ja)

Cited By (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US8213748B2 (en) 2008-02-26 2012-07-03 Fuji Xerox Co., Ltd. Generating an electronic document with reference to allocated font corresponding to character identifier from an image
US8411955B2 (en) 2007-02-21 2013-04-02 Fuji Xerox Co., Ltd. Image processing apparatus, image processing method and computer-readable medium
CN103093224A (zh) * 2011-11-08 2013-05-08 佳能株式会社 确定平均字符宽度的方法和装置及字符切分方法和设备

Cited By (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US8411955B2 (en) 2007-02-21 2013-04-02 Fuji Xerox Co., Ltd. Image processing apparatus, image processing method and computer-readable medium
US8213748B2 (en) 2008-02-26 2012-07-03 Fuji Xerox Co., Ltd. Generating an electronic document with reference to allocated font corresponding to character identifier from an image
CN103093224A (zh) * 2011-11-08 2013-05-08 佳能株式会社 确定平均字符宽度的方法和装置及字符切分方法和设备

Similar Documents

Publication Publication Date Title
US8565474B2 (en) Paragraph recognition in an optical character recognition (OCR) process
US7796817B2 (en) Character recognition method, character recognition device, and computer product
JP5600723B2 (ja) 様々な文字幅を有するテキスト行の文字を分割するための方法及びシステム
JPH04195692A (ja) 文書読取装置
JP2002015280A (ja) 画像認識装置、画像認識方法および画像認識プログラムを記録したコンピュータ読取可能な記録媒体
JP2008084105A (ja) 文字切出方法及び文字認識装置
JPH10134145A (ja) 文字切り出し方法およびそれを用いた文字認識装置と、その文字切り出し方法を実行するプログラムを格納した、コンピュータが読取可能な記憶媒体
JP3798179B2 (ja) パターン抽出装置及び文字切り出し装置
JPH06215184A (ja) 抽出領域のラベリング装置
JPH10154191A (ja) 帳票識別方法及び装置並びに帳票識別プログラムを記録した媒体
JPH0728935A (ja) 文書画像処理装置
JPH10208040A (ja) 画像処理方法及び記録媒体
JPH09288714A (ja) 表認識方法および装置
KR930012142B1 (ko) 문서인식장치의 개별문자 절출방법
JP3343305B2 (ja) 文字切り出し装置、及び文字切り出し方法
JP2002366900A (ja) 光学式文字読取装置
JP3197441B2 (ja) 文字認識装置
JP2001266070A (ja) 文字認識装置、文字認識方法および記憶媒体
JP2982221B2 (ja) 文字読み取り装置
JPH02230484A (ja) 文字認識装置
JPH11242716A (ja) 画像処理方法および記録媒体
JPH10232939A (ja) 一般の文書画像から罫線を抽出する罫線抽出装置および方法
JPH04276885A (ja) 文字切出し装置
Amano et al. Character string detection algorithm using horizontal boundaries, and its application to a part number entry system
JP3919390B2 (ja) 文字認識装置

Legal Events

Date Code Title Description
A977 Report on retrieval

Free format text: JAPANESE INTERMEDIATE CODE: A971007

Effective date: 20040818

A131 Notification of reasons for refusal

Free format text: JAPANESE INTERMEDIATE CODE: A131

Effective date: 20041109

A521 Request for written amendment filed

Free format text: JAPANESE INTERMEDIATE CODE: A523

Effective date: 20050106

A02 Decision of refusal

Free format text: JAPANESE INTERMEDIATE CODE: A02

Effective date: 20050222