JPS59205679A - 文字切出し装置 - Google Patents
文字切出し装置Info
- Publication number
- JPS59205679A JPS59205679A JP58079116A JP7911683A JPS59205679A JP S59205679 A JPS59205679 A JP S59205679A JP 58079116 A JP58079116 A JP 58079116A JP 7911683 A JP7911683 A JP 7911683A JP S59205679 A JPS59205679 A JP S59205679A
- Authority
- JP
- Japan
- Prior art keywords
- character
- character string
- unevenly distributed
- marks
- punctuation marks
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Pending
Links
Landscapes
- Character Input (AREA)
- Character Discrimination (AREA)
Abstract
(57)【要約】本公報は電子出願前の出願データであるた
め要約のデータは記録されません。
め要約のデータは記録されません。
Description
【発明の詳細な説明】
(1)発明の属する分野の説明
本発明は9文書上の文字を機械で直接読み取る□CR装
置(=おいて1句読点等9通常の文字ピッチとは異なる
記号等が含まれている文字列から個−々の文字、記号等
を効率良く切出すことの出来る文字切出し装置(−関す
るものである。
置(=おいて1句読点等9通常の文字ピッチとは異なる
記号等が含まれている文字列から個−々の文字、記号等
を効率良く切出すことの出来る文字切出し装置(−関す
るものである。
(2) 従来の技術の説明
従来の方法では1文字列中に句読点等の文字(−比べ大
きさの小さい図形が存在し、しかも文字が正確(=定ピ
ッチで並んでいない場合(二は1文字とそれに続く句読
点等をまとめて二つの文字として切出してしまうため切
出し処理が正常に行なわれないという欠点があった。ま
たこの様な誤り切出しく二対処するために、認識装置か
らの認識結果をもと(二、リジェクトとなった文字の再
切出しを行なう手法も考案されているが、システム全体
が大きなものになるという欠点があった。
きさの小さい図形が存在し、しかも文字が正確(=定ピ
ッチで並んでいない場合(二は1文字とそれに続く句読
点等をまとめて二つの文字として切出してしまうため切
出し処理が正常に行なわれないという欠点があった。ま
たこの様な誤り切出しく二対処するために、認識装置か
らの認識結果をもと(二、リジェクトとなった文字の再
切出しを行なう手法も考案されているが、システム全体
が大きなものになるという欠点があった。
(3)発明の目的
本発明は、これらの欠点を解決するために9句読点等、
切出し誤りの原因となる記号等が文字列中に偏在するこ
とに注目し1句読点等の記号を。
切出し誤りの原因となる記号等が文字列中に偏在するこ
とに注目し1句読点等の記号を。
その存在する位置を利用して予め文字列から分離してお
き、残りの文字等を切出しておい・てから。
き、残りの文字等を切出しておい・てから。
最後に句読点の位置情報を用いて切出し結果を修正する
ようにしたもので以下詳細(=説明する。
ようにしたもので以下詳細(=説明する。
(4)発明の構成および作用の説明
第1図は9本発明の一実施例におけるブロック図であっ
て、1は文書画像から切出された文字列の画像データを
信号線αを用いて読み込み記憶する文字列画像データ記
憶装置、2は信号線りを用いて文字列画像データ記憶装
置1から文字列画像を読み込み9句読点等の偏在記号を
抽出し、同じく信号線kによって偏在記号抽出結果を文
字列画像データ記憶装置1に書き込む偏在記号分離装置
。
て、1は文書画像から切出された文字列の画像データを
信号線αを用いて読み込み記憶する文字列画像データ記
憶装置、2は信号線りを用いて文字列画像データ記憶装
置1から文字列画像を読み込み9句読点等の偏在記号を
抽出し、同じく信号線kによって偏在記号抽出結果を文
字列画像データ記憶装置1に書き込む偏在記号分離装置
。
3は偏在記号分離の終了の信号を偏在記号分離装置2か
ら信号線Cを経由して受は取り9文字列画像データ記憶
装置1から信号線dを用いて、偏在記号を取り除いた文
字列画像データを読み込み文字の切出しを行ない、切出
し結果を信号線(を用いて切出し結果修正装置4(二出
力する個別文字切出し装置、4は個別文字切出し装置3
から受けとった文字切出し結果をもと(=9文字列画像
データ記憶装置1から信号線fによって偏在記号め情報
を入力し、切出し結果(二修正を加え、最終的な切出し
結果を信号線!ii二よって出力する切出し結果イφ正
装置である。以下それぞれの装置(二つI/)て説明す
る。
ら信号線Cを経由して受は取り9文字列画像データ記憶
装置1から信号線dを用いて、偏在記号を取り除いた文
字列画像データを読み込み文字の切出しを行ない、切出
し結果を信号線(を用いて切出し結果修正装置4(二出
力する個別文字切出し装置、4は個別文字切出し装置3
から受けとった文字切出し結果をもと(=9文字列画像
データ記憶装置1から信号線fによって偏在記号め情報
を入力し、切出し結果(二修正を加え、最終的な切出し
結果を信号線!ii二よって出力する切出し結果イφ正
装置である。以下それぞれの装置(二つI/)て説明す
る。
文字列画像データ記憶装置1は通常のOCR+二よって
抽出された。或いは例えば特願昭55−126845(
特開昭57−52971 )i二足される2次元文字領
域抽出装置(−よって抽出された一文字列分の画像デー
タ等を記憶する画像メモリである。偏在記号分離装置2
は文字列の中(二個つ1て存在している句読点等の偏在
記号を分離抽出す(る装置である。
抽出された。或いは例えば特願昭55−126845(
特開昭57−52971 )i二足される2次元文字領
域抽出装置(−よって抽出された一文字列分の画像デー
タ等を記憶する画像メモリである。偏在記号分離装置2
は文字列の中(二個つ1て存在している句読点等の偏在
記号を分離抽出す(る装置である。
第2図は文字切出し処理の過程につb)て説明したもの
で、第2図Aは文字列画像データ記憶装置1の中に記憶
されている文字列画像データの一例である。従来のOC
Rでは、第2図Aの様に必ずしも一定のピッチで並んで
いす、しかも漢字であるかひらがなであるかによって大
きさに変化のある文字を文字列中(二含んでいる場合に
は、第2図Bに示す様(=99句読をその前後の文字と
一緒に切出してしまう恐れがあった。偏在記号分離装置
2では、第2図Cに示す様に文字列中の句読点″0”
*、nを抽出し、偏在記号をもとの文字列から取り除い
た文字列の画像データ第2図りを作る0 偏在記号を抽出する手法としては9例えば第3図に示す
様に、水平方向の投影(二よって周辺分耶りを求めて文
字列の上端iと下端]を検出しておき9次に垂直方向の
投影によって周辺分布kから図形が存在する区間が短か
い部分!1〜13を抽出し。
で、第2図Aは文字列画像データ記憶装置1の中に記憶
されている文字列画像データの一例である。従来のOC
Rでは、第2図Aの様に必ずしも一定のピッチで並んで
いす、しかも漢字であるかひらがなであるかによって大
きさに変化のある文字を文字列中(二含んでいる場合に
は、第2図Bに示す様(=99句読をその前後の文字と
一緒に切出してしまう恐れがあった。偏在記号分離装置
2では、第2図Cに示す様に文字列中の句読点″0”
*、nを抽出し、偏在記号をもとの文字列から取り除い
た文字列の画像データ第2図りを作る0 偏在記号を抽出する手法としては9例えば第3図に示す
様に、水平方向の投影(二よって周辺分耶りを求めて文
字列の上端iと下端]を検出しておき9次に垂直方向の
投影によって周辺分布kから図形が存在する区間が短か
い部分!1〜13を抽出し。
該区間に存在する図形が上又は下に偏っているかどうか
を調べ、偏っているもの町〜rL2を抽出すればよい。
を調べ、偏っているもの町〜rL2を抽出すればよい。
ここで区間ルに含まれている図形は9文字列高さ方向全
体(=わたって存在するため抽出されない。また9周辺
分布を用いなくでも9図形の輪郭線を追跡し9位置大き
さを求めて偏在図形であるか否かを判断しても同様の結
果が得られる。
体(=わたって存在するため抽出されない。また9周辺
分布を用いなくでも9図形の輪郭線を追跡し9位置大き
さを求めて偏在図形であるか否かを判断しても同様の結
果が得られる。
偏在記号分離装置によって、得られた偏在記号の抽出結
果(第2図C)と、原文字列データ(第2図A)から偏
在記号を取り除いたデータ(第2図D)が1文字列画像
データ記憶装置1(二記憶される0 文字切出し装置3は9句読点等、偏在記号を取り除いた
文字列(第2図D)を用いて個別文字を切出し、第2図
Eに示す結果を得るもので9例えば特願昭56−740
15(特開昭57−189274に示した文字切出し装
置によって実現可能である。
果(第2図C)と、原文字列データ(第2図A)から偏
在記号を取り除いたデータ(第2図D)が1文字列画像
データ記憶装置1(二記憶される0 文字切出し装置3は9句読点等、偏在記号を取り除いた
文字列(第2図D)を用いて個別文字を切出し、第2図
Eに示す結果を得るもので9例えば特願昭56−740
15(特開昭57−189274に示した文字切出し装
置によって実現可能である。
切出し結果修正装置4は、偏在記号を取り除いた文字列
(第2図D)での切出し結果(第2図パE)に、抽出し
た偏在記号(第2図C)の位置をもとに修正を加え、最
終切出し結果第2図Fを得るものである。
(第2図D)での切出し結果(第2図パE)に、抽出し
た偏在記号(第2図C)の位置をもとに修正を加え、最
終切出し結果第2図Fを得るものである。
第2図Fで−C′ 印は、切出し結果(二修正が加えら
れた部分である0ここでは、横書きの文字列の場合(二
ついて述べたが、縦書きの文字列の場合も、全く同様の
処理を行なうことによって効果的な文字の切出しが行な
えることは明らかである。
れた部分である0ここでは、横書きの文字列の場合(二
ついて述べたが、縦書きの文字列の場合も、全く同様の
処理を行なうことによって効果的な文字の切出しが行な
えることは明らかである。
(5)効果の説明
以上説明した様に9本装置では9文字列から個々の文字
、記号等を切出す際に9句読点等1文字列の片側に偏っ
て存在する偏在記号を予め抽出し。
、記号等を切出す際に9句読点等1文字列の片側に偏っ
て存在する偏在記号を予め抽出し。
分離しておき、偏在記号を取り除いた文字列に対して文
字の切出しを行ない、その後に偏在記号の抽出結果をも
とじ切出し結果の修正を行なうこと(二より、これまで
前後の文字と一緒(=切出されてしまうことの多かった
句読点に対しても正確な切出しを行なうことが出来る。
字の切出しを行ない、その後に偏在記号の抽出結果をも
とじ切出し結果の修正を行なうこと(二より、これまで
前後の文字と一緒(=切出されてしまうことの多かった
句読点に対しても正確な切出しを行なうことが出来る。
第1図は本発明の一実施例のブロック図、第2図 A乃
至Fは文字切出し処理の過程を示す説明図、第3図は偏
在記号の抽出方法の説明図である。 図中、1は文字列画像データ記憶装置、2は偏在記号分
離装置、3は個別文字切出し装置、4は切出し結果修正
装置、cLは1文字列画像データを読み込むための信号
線、hは文字列画像データを偏在記号分離装置に転送し
、偏在記号を抽出した結果を文字列画像データ記憶装置
に転送するための信号線、Cは偏在記号分離終了の信号
を送る信号線、dは偏在記号を取り除いた文字列を読み
込むための信号線、eは個別文字切出し装置(二お(す
る結果を出力するための信号線、fは偏在記号(=関す
る情報を転送するための信号線1gは最終切出し結果を
出力するための信号線である。 特許出願人 日本電信電話公社
至Fは文字切出し処理の過程を示す説明図、第3図は偏
在記号の抽出方法の説明図である。 図中、1は文字列画像データ記憶装置、2は偏在記号分
離装置、3は個別文字切出し装置、4は切出し結果修正
装置、cLは1文字列画像データを読み込むための信号
線、hは文字列画像データを偏在記号分離装置に転送し
、偏在記号を抽出した結果を文字列画像データ記憶装置
に転送するための信号線、Cは偏在記号分離終了の信号
を送る信号線、dは偏在記号を取り除いた文字列を読み
込むための信号線、eは個別文字切出し装置(二お(す
る結果を出力するための信号線、fは偏在記号(=関す
る情報を転送するための信号線1gは最終切出し結果を
出力するための信号線である。 特許出願人 日本電信電話公社
Claims (1)
- 【特許請求の範囲】 文書画像中の文字列部分め画像データを入力し。 該文字列を構成する個々の文字を切出す文字切出し装置
において9文字列の画像を記憶しておく文字列画像デー
タ記憶装置と9句読点等の文字列中1−偏在する偏在記
号を分離する偏在記号分離装置と、該偏在記号分離装置
(=よって偏在記号を取り除いた文字列から個々の文字
の切出しを行なう個別文字切出し装置と、偏在記号分離
装置によって得られた偏在記号の位置、大きさをもとじ
該個別文字切出し装置によって得られた結果に修正を加
える切出し結果修正装置とを備え、偏在記号を予め分離
しておくことによって1文字切出しの際。 偏在記号がその前後の文字と一緒に切出されることのな
いようにしたことを特徴とする文字切出し装置。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
JP58079116A JPS59205679A (ja) | 1983-05-06 | 1983-05-06 | 文字切出し装置 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
JP58079116A JPS59205679A (ja) | 1983-05-06 | 1983-05-06 | 文字切出し装置 |
Publications (1)
Publication Number | Publication Date |
---|---|
JPS59205679A true JPS59205679A (ja) | 1984-11-21 |
Family
ID=13680939
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
JP58079116A Pending JPS59205679A (ja) | 1983-05-06 | 1983-05-06 | 文字切出し装置 |
Country Status (1)
Country | Link |
---|---|
JP (1) | JPS59205679A (ja) |
Cited By (1)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
JPS62219187A (ja) * | 1986-03-20 | 1987-09-26 | Matsushita Electric Ind Co Ltd | 文字認識装置 |
Citations (3)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
JPS5582382A (en) * | 1978-12-18 | 1980-06-21 | Matsushita Electric Ind Co Ltd | Recognition system for hand-written symbol and kana (japanese syllabary) character |
JPS57101986A (en) * | 1980-12-17 | 1982-06-24 | Toshiba Corp | Character detecting and cutting method |
JPS57189274A (en) * | 1981-05-15 | 1982-11-20 | Nippon Telegr & Teleph Corp <Ntt> | Character cutout device |
-
1983
- 1983-05-06 JP JP58079116A patent/JPS59205679A/ja active Pending
Patent Citations (3)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
JPS5582382A (en) * | 1978-12-18 | 1980-06-21 | Matsushita Electric Ind Co Ltd | Recognition system for hand-written symbol and kana (japanese syllabary) character |
JPS57101986A (en) * | 1980-12-17 | 1982-06-24 | Toshiba Corp | Character detecting and cutting method |
JPS57189274A (en) * | 1981-05-15 | 1982-11-20 | Nippon Telegr & Teleph Corp <Ntt> | Character cutout device |
Cited By (1)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
JPS62219187A (ja) * | 1986-03-20 | 1987-09-26 | Matsushita Electric Ind Co Ltd | 文字認識装置 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
US20070047815A1 (en) | Image recognition apparatus, image recognition method, and image recognition program | |
JPS59205679A (ja) | 文字切出し装置 | |
JPH0410087A (ja) | 基本ライン抽出方法 | |
US11270146B2 (en) | Text location method and apparatus | |
JPH0991371A (ja) | 文字表示装置 | |
CN111611986A (zh) | 一种基于手指交互的焦点文本提取和识别方法及系统 | |
JPH0728935A (ja) | 文書画像処理装置 | |
JPH02273884A (ja) | 文書画像の歪検出補正方法 | |
JPH0991385A (ja) | 文字認識辞書追加方法及びこれを用いた端末ocr装置 | |
JPS63158676A (ja) | 領域抽出装置 | |
JPS6254380A (ja) | 文字認識装置 | |
JP2570703B2 (ja) | 文字読取装置 | |
JPH0660220A (ja) | 文書画像の領域抽出方法 | |
JP2923004B2 (ja) | 画像生成装置 | |
KR20220168787A (ko) | 만주어의 글자 추출 방법 및 이를 수행하는 시스템 | |
JPH0264882A (ja) | 住所読取装置 | |
JPH01100685A (ja) | 文字認識装置 | |
JP2000339408A (ja) | 文字切り出し装置 | |
JPH0554178A (ja) | 文字認識装置及び修正用帳票 | |
JPS5831028B2 (ja) | 文字認識装置 | |
JPH04222057A (ja) | 図面自動入力装置の文字・図形要素認識方法 | |
JP2890788B2 (ja) | 文書認識装置 | |
JPH0223905B2 (ja) | ||
JPH03160582A (ja) | 文書画像データに於ける罫線と文字の分離方法 | |
JPS61160179A (ja) | 文字認識方式 |