[go: up one dir, main page]

JPH04276885A - 文字切出し装置 - Google Patents

文字切出し装置

Info

Publication number
JPH04276885A
JPH04276885A JP3037129A JP3712991A JPH04276885A JP H04276885 A JPH04276885 A JP H04276885A JP 3037129 A JP3037129 A JP 3037129A JP 3712991 A JP3712991 A JP 3712991A JP H04276885 A JPH04276885 A JP H04276885A
Authority
JP
Japan
Prior art keywords
character
width
characters
pitch
full
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Pending
Application number
JP3037129A
Other languages
English (en)
Inventor
Naoki Maeda
直樹 前田
Yoshinori Takenami
佳則 武並
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Sumitomo Electric Industries Ltd
Original Assignee
Sumitomo Electric Industries Ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Sumitomo Electric Industries Ltd filed Critical Sumitomo Electric Industries Ltd
Priority to JP3037129A priority Critical patent/JPH04276885A/ja
Publication of JPH04276885A publication Critical patent/JPH04276885A/ja
Pending legal-status Critical Current

Links

Landscapes

  • Character Input (AREA)
  • Document Processing Apparatus (AREA)

Abstract

(57)【要約】本公報は電子出願前の出願データであるた
め要約のデータは記録されません。

Description

【発明の詳細な説明】
【0001】
【産業上の利用分野】本発明は、イメージセンサまたは
通信媒体を通して文字、記号等(代表して「文字」とい
う)を表わす画像情報を記憶し、その画像情報を処理す
ることにより文字を切り出す文字切出し装置に関するも
のである。
【0002】
【従来の技術】従来より、図4に示すように、原稿に記
載された文字をスキャナにおいて読み取り、ホストコン
ピュータによって自動的に認識し、ディスプレイ(CR
T,LCD等)に表示する技術が開発されているが、文
字認識の前提として原稿上に配列された文字の領域を切
り出す必要がある。
【0003】この手順として、まず文字列を抽出し、文
字列の中から個別文字を切り出すことになる。上記文字
列を抽出する手法として、例えば、縦のヒストグラムを
求め、ヒストグラムの存在する領域から、文字列の位置
を求める方法があるが、これに限らず、種々の方法が知
られている。
【0004】そして、文字列が検出されると、文字切出
しと認識とを行っている。文字切出しは、上記文字列に
含まれる個別文字を切り出す処理であり、例えば縦のヒ
ストグラムと横のヒストグラムを求め、両ヒストグラム
の共通に存在する領域から、文字の塊領域を求めること
ができる。また、画素の拡大(1つの画素について縦方
向又は横方向に一定数の画素を連結させて線にすること
。縦方向および横方向に対して行えばいわゆる黒ベタに
なる)と縮退(上記と逆の操作をいう)とを紙面全体に
対して行って(これを図形融合操作という)、各文字分
に相当する共通連結領域(黒塊)を求め、これから文字
の塊領域を求める最小の矩形領域を切り出すこともでき
る(「ミックスモード通信のための文字領域の抽出アル
ゴリズム」信学論 ’84/11,Vol.J67−D
 No.11, pp1277−1284) 。
【0005】
【発明が解決しようとする課題】上記または上記以外の
何れの文字切出し方法を採用するにしても、文字には隙
間が多く存在するので、文字ピッチが正確に分からない
と、正確な切出しが行えない。ところが、一般の日本語
活字文書では、漢字、平仮名等の全角文字と英数字等の
半角文字が混在し、また分離文字(「い」「は」等のつ
ながりのない部分を含む文字)、接触文字(隣の文字同
士が接触している文字)が存在するために文書中のすべ
ての文字を正確に切り出すことは困難であった。
【0006】最近,分離文字に対しても正確な切出しが
できる技術が公開されているが(特開平1−11499
2号公報参照)、標準文字サイズを予め定めておく必要
がある。そこで、本発明の目的は、標準文字サイズが分
からなくとも文字切出しを正確に行うことができ、もっ
て文字の誤認識率を減らすことができる文字切出し装置
を提供することにある。
【0007】
【課題を解決するための手段】上記の目的を達成するた
めの請求項記載の文字切出し装置は、文字列の高さに基
づいて全角文字幅の範囲と、半角文字幅の範囲とを決定
する範囲決定手段と、文字列の中の文字を表わす種類の
画素の塊領域を決定する手段と、上記範囲決定手段によ
り決定された全角文字幅の範囲と、半角文字幅の範囲と
に含まれる、上記各塊領域を計測して仮の全角文字ピッ
チと、仮の半角文字ピッチとを算出する算出手段と、仮
の全角文字ピッチと、仮の半角文字ピッチとを用いて上
記文字列の中の文字を切り出す仮の文字切出し手段と、
文字列を、上記仮の文字切出し手段により切り出された
文字の区切りとともに表示する手段と、上記区切りの位
置を手動で修正する修正手段と、上記修正された区切り
に基づいて全角文字ピッチおよび半角文字ピッチを決定
する決定手段と、上記決定手段により決定された全角文
字ピッチと半角文字ピッチとに基づいて文字を切り出す
文字切出し手段とを含むものである。
【0008】
【作用】上記の構成によれば、文字列の高さに基づいて
全角文字幅の範囲と、半角文字幅の範囲とを決定し、こ
れらの範囲に入っている、文字を表わす種類の画素(例
えば黒画素とする)の塊領域を計測して、これにより仮
の全角文字ピッチと、仮の半角文字ピッチとを算出する
。この仮の全角文字ピッチと、仮の半角文字ピッチとに
基づいて文字切出しを行った場合、半角と全角とを混同
した誤った切出しが行われている可能性がある。なぜな
ら、全角文字幅の範囲に入っている黒画素の塊は実は、
接近した半角文字であるかも知れないし、半角文字幅の
範囲に入っている黒画素の塊は、実は全角文字の偏や旁
や分離文字であるかも知れないからである。
【0009】したがって、仮の全角文字ピッチと、仮の
半角文字ピッチとで切り出してた文字を人間が見て、前
記の誤りを修正する。そして、文字の全角文字ピッチお
よび半角文字ピッチを正確に決定し、それらを用いて文
字の切出しを行う。
【0010】
【実施例】以下実施例を示す添付図面によって詳細に説
明する。図1は、文字原稿像を電気信号に変換する撮像
管、固体イメージセンサ、あるいはファクシミリ通信端
末等から画像データを入力し、電気信号に基づき文字列
を抽出する文字列抽出部1と、抽出された文字列の高さ
を計測して全角文字幅の範囲と半角文字幅の範囲とを決
定し、上記全角文字幅の範囲と、半角文字幅の範囲とに
含まれる、上記文字列の中の黒画素の各塊領域の幅を計
測して、全角文字幅の平均値と分散、半角文字幅の平均
値と分散、全角文字ピッチの平均値と分散、半角文字ピ
ッチの平均値と分散(以下「文字切出し用パラメータ」
という)を推定するパラメータ推定部2と、上記文字切
出し用パラメータを用いて上記文字列の中の文字を切り
出す文字切出し部3と、文字列を、上記部により切り出
された文字の区切りとともに画面に表示し区切りの位置
を手動で修正する切出し位置修正部4と、上記切出し位
置修正部4により修正された区切りに基づいて文字切出
し用パラメータを算出し記憶するパラメータ決定部5と
を有する。
【0011】上記パラメータ決定部5により算出された
文字切出し用パラメータは、文字切出し部3に提供され
、この時、正確な文字の切出しが行われる。上記各部の
働きを詳述すると、パラメータ推定部2は抽出されたい
くつかの文字列の高さの平均を求めこの高さをHとする
。そして、全角文字の幅はほぼ高さHに等しく、半角文
字の幅はその半分であるという経験的な事実に基づいて
、全角文字幅の範囲を例えば0.7−1.3Hに設定し
、半角文字幅の範囲を0.35−0.65Hに決定する
。次に、上記全角文字幅の範囲と、半角文字幅の範囲と
に含まれる、上記文字列の中の黒画素の各塊領域の幅を
計測する。各塊領域の幅はある分布をもって存在するが
、全角文字と半角文字が混在する文章ではおそらく全角
文字幅の範囲0.7−1.3Hの中と、半角文字幅の範
囲0.35−0.65Hの中にピークができると予想さ
れる(図2参照)。この範囲の中にある文字幅の分布に
基づいて全角文字幅の平均値と分散、半角文字幅の平均
値と分散を算出する。
【0012】さらに、全角を表わす塊で、隣りあったも
の同士の距離の分布を求めて全角文字ピッチの平均値と
分散を求め、半角を表わす塊で、隣りあったもの同士の
距離の分布を求めて半角文字ピッチの平均値と分散を求
める。文字切出し部3は、上記文字切出し用パラメータ
を用いて上記文字列の中の文字を切り出す。この切出し
の方法として、例えば、全角文字幅の平均値をw1 、
分散をσ12とすると、w1 ±3σ1 の範囲にある
塊を全角文字として、全角文字ピッチごとに切り出す。 半角文字幅の平均値をw2 、分散をσ22とすると、
w2 ±3σ2 の範囲にある塊を半角文字として、半
角文字ピッチごとに切り出す。
【0013】切出し位置修正部4は、文字列を、切り出
された文字の区切りとともに表示する。表示画面の例を
図3に示す。図3(a) は「い」を半角に間違えて切
出した例、図3(b) は半角の「a 」「b 」を全
角に間違えて切り出した例を示す。オペレータは、画面
上で前記の間違いを修正し、切り出した文字の区切りを
、カーソル、マウス等を用いて正しい位置に修正する。 修正後の文字を図3(c),(d) に示す。
【0014】なお、オペレータは、スキャナによって入
力された紙面の全ての行について修正操作を行う必要は
ない。オペレータの操作する目的は、文字切出し用パラ
メータを正確に求めることにあるのだから、ほんの数行
に対して修正操作を行って、続く文章の文字切出しは、
求められた文字切出し用パラメータに基づき文字切出し
装置が自  動的に行うことができるのである。したが
って、この発明は、同一形式の文章を大量に読み取る場
合等に、特に有効であるといえる。
【0015】パラメータ決定部5は、修正された区切り
に基づいて文字切出し用パラメータを新たに求め、文字
切出し部3に提供する。以下、文字切出し部3は新しい
文字切出し用パラメータを用いて文字の切出しを行うの
で、切出しミスの発生頻度を低下させることができる。 なお、文字切出し部3により切り出された文字の情報は
認識部(図示せず)に送られ、ここにおいて前記のよう
にして得られた各文字ごとのデータに基づいて、文字の
特徴量を抽出し、認識用辞書に記憶された特徴量と比較
し一致点の最も多い文字が候補文字として出力される(
文字認識方法は例えば特開昭63−26915号公報参
照) 。
【0016】以上のように構成したので、全く同一の形
式の文書に対しては、オペレータの修正操作を待つこと
なく文字の正確な切出しが行える。また、全く異なる形
式の文書に対しては、以上の操作を始めからやり直すこ
とになる。類似の形式の文章に対しては、パラメータ決
定部5により得られた文字切出し用パラメータを使いな
がら文字の切出しを行い、誤認識の発生に応じて切出し
位置修正部4で修正していくという手順をとることにな
る。
【0017】なお本発明は、前記の実施例に限定される
ものではなく、例えば文字列抽出、傾き検出、個別文字
切出し方式は上記以外の公知の方式を採用しているもの
であってもよい。その他、発明の要旨を変更しない範囲
で種々の(設計)変更を施すことが可能である。
【0018】
【発明の効果】以上のように本発明の文字切出し装置に
よれば、仮の全角文字ピッチと、仮の半角文字ピッチと
に基づいて文字切出しを行った場合、半角と全角とを混
同した誤った切出しを人間が見て修正することとし、修
正された文字の全角文字ピッチおよび半角文字ピッチを
決定し、それらを用いて文字の切出しを正確な行うこと
ができる。
【0019】したがって、以後の文字切出しにおける切
出しミスの発生頻度を低下させることができ、その結果
、処理速度が早く、文字認識精度の高い文字切出し装置
を実現することができる。
【図面の簡単な説明】
【図1】文字切出し装置の構成を示すブロック図である
【図2】全角文字と半角文字の発生頻度を表わすグラフ
である。
【図3】表示された文字を示す図である。
【図4】文字切出し装置の外観図である。
【符号の説明】
1    文字列抽出部 2    パラメータ推定部 3    文字切出し部 4    切出し位置修正部 5    パラメータ決定部

Claims (1)

    【特許請求の範囲】
  1. 【請求項1】2値化された画像メモリ上の文字画像から
    文字列を抽出し、抽出された文字列から個々の文字を切
    出す文字切出し装置において、文字列の高さに基づいて
    全角文字幅の範囲と、半角文字幅の範囲とを決定する範
    囲決定手段と、文字列の中の文字を表わす種類の画素の
    塊領域を決定する手段と、上記範囲決定手段により決定
    された全角文字幅の範囲と、半角文字幅の範囲とに含ま
    れる、上記各塊領域を計測して仮の全角文字ピッチと、
    仮の半角文字ピッチとを算出する算出手段と、仮の全角
    文字ピッチと、仮の半角文字ピッチとを用いて上記文字
    列の中の文字を切り出す仮の文字切出し手段と、文字列
    を、上記仮の文字切出し手段により切り出された文字の
    区切りとともに表示する手段と、上記区切りの位置を手
    動で修正する修正手段と、上記修正された区切りに基づ
    いて全角文字ピッチおよび半角文字ピッチを決定する決
    定手段と、上記決定手段により決定された全角文字ピッ
    チと半角文字ピッチとに基づいて文字を切り出す文字切
    出し手段とを含むことを特徴とする文字切出し装置。
JP3037129A 1991-03-04 1991-03-04 文字切出し装置 Pending JPH04276885A (ja)

Priority Applications (1)

Application Number Priority Date Filing Date Title
JP3037129A JPH04276885A (ja) 1991-03-04 1991-03-04 文字切出し装置

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
JP3037129A JPH04276885A (ja) 1991-03-04 1991-03-04 文字切出し装置

Publications (1)

Publication Number Publication Date
JPH04276885A true JPH04276885A (ja) 1992-10-01

Family

ID=12489004

Family Applications (1)

Application Number Title Priority Date Filing Date
JP3037129A Pending JPH04276885A (ja) 1991-03-04 1991-03-04 文字切出し装置

Country Status (1)

Country Link
JP (1) JPH04276885A (ja)

Cited By (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2005071349A (ja) * 2003-08-20 2005-03-17 Oce Technol Bv 指定されたドキュメント・エリアからのメタデータの抽出
JP2007503032A (ja) * 2003-08-20 2007-02-15 オセ−テクノロジーズ・ベー・ヴエー ドキュメントスキャナ
JP2013508798A (ja) * 2009-12-31 2013-03-07 タタ コンサルタンシー サービシズ リミテッド テキストを含む映像領域の前処理方法及びシステム

Cited By (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2005071349A (ja) * 2003-08-20 2005-03-17 Oce Technol Bv 指定されたドキュメント・エリアからのメタデータの抽出
JP2007503032A (ja) * 2003-08-20 2007-02-15 オセ−テクノロジーズ・ベー・ヴエー ドキュメントスキャナ
JP2013508798A (ja) * 2009-12-31 2013-03-07 タタ コンサルタンシー サービシズ リミテッド テキストを含む映像領域の前処理方法及びシステム

Similar Documents

Publication Publication Date Title
JP2940960B2 (ja) 画像の傾き検出方法および補正方法ならびに画像情報処理装置
JP3805005B2 (ja) 画像処理装置及び光学的文字認識装置及びそれらの方法
JPH05242292A (ja) 分離方法
US5265171A (en) Optical character reading apparatus for performing spelling check
US7630572B2 (en) Image processing apparatus, image processing method, and computer program
JPH08287184A (ja) 画像切り出し装置及び文字認識装置
CN102760233B (zh) 图像处理装置
JPH04276885A (ja) 文字切出し装置
JPH0410087A (ja) 基本ライン抽出方法
JP3548234B2 (ja) 文字認識方法及び装置
JPH0728935A (ja) 文書画像処理装置
JPH09288714A (ja) 表認識方法および装置
JP2003256772A (ja) 文字認識装置及び記録媒体
JPH05114047A (ja) 文字切り出し装置
JP2001236464A (ja) 文字抽出方法、文字抽出装置及び記憶媒体
JP2683116B2 (ja) 罫線の除去方法
JP2001266070A (ja) 文字認識装置、文字認識方法および記憶媒体
JP2000187704A (ja) 文字認識装置及びその方法及び記憶媒体
JPH10134145A (ja) 文字切り出し方法およびそれを用いた文字認識装置と、その文字切り出し方法を実行するプログラムを格納した、コンピュータが読取可能な記憶媒体
JP4544691B2 (ja) 文字読取装置
JP4784299B2 (ja) 画像処理装置、および画像処理方法、並びにコンピュータ・プログラム
JP2963474B2 (ja) 類似文字識別方法
JPH0728933A (ja) 文字認識装置
JPH0528301A (ja) 文書認識装置
JPH0816720A (ja) 文字認識装置