[go: up one dir, main page]

JPS59205679A - 文字切出し装置 - Google Patents

文字切出し装置

Info

Publication number
JPS59205679A
JPS59205679A JP58079116A JP7911683A JPS59205679A JP S59205679 A JPS59205679 A JP S59205679A JP 58079116 A JP58079116 A JP 58079116A JP 7911683 A JP7911683 A JP 7911683A JP S59205679 A JPS59205679 A JP S59205679A
Authority
JP
Japan
Prior art keywords
character
character string
unevenly distributed
marks
punctuation marks
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Pending
Application number
JP58079116A
Other languages
English (en)
Inventor
Teruo Akiyama
秋山 照雄
Seiichiro Naito
内藤 誠一郎
Isao Masuda
功 増田
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Nippon Telegraph and Telephone Corp
Original Assignee
Nippon Telegraph and Telephone Corp
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Nippon Telegraph and Telephone Corp filed Critical Nippon Telegraph and Telephone Corp
Priority to JP58079116A priority Critical patent/JPS59205679A/ja
Publication of JPS59205679A publication Critical patent/JPS59205679A/ja
Pending legal-status Critical Current

Links

Landscapes

  • Character Input (AREA)
  • Character Discrimination (AREA)

Abstract

(57)【要約】本公報は電子出願前の出願データであるた
め要約のデータは記録されません。

Description

【発明の詳細な説明】 (1)発明の属する分野の説明 本発明は9文書上の文字を機械で直接読み取る□CR装
置(=おいて1句読点等9通常の文字ピッチとは異なる
記号等が含まれている文字列から個−々の文字、記号等
を効率良く切出すことの出来る文字切出し装置(−関す
るものである。
(2)  従来の技術の説明 従来の方法では1文字列中に句読点等の文字(−比べ大
きさの小さい図形が存在し、しかも文字が正確(=定ピ
ッチで並んでいない場合(二は1文字とそれに続く句読
点等をまとめて二つの文字として切出してしまうため切
出し処理が正常に行なわれないという欠点があった。ま
たこの様な誤り切出しく二対処するために、認識装置か
らの認識結果をもと(二、リジェクトとなった文字の再
切出しを行なう手法も考案されているが、システム全体
が大きなものになるという欠点があった。
(3)発明の目的 本発明は、これらの欠点を解決するために9句読点等、
切出し誤りの原因となる記号等が文字列中に偏在するこ
とに注目し1句読点等の記号を。
その存在する位置を利用して予め文字列から分離してお
き、残りの文字等を切出しておい・てから。
最後に句読点の位置情報を用いて切出し結果を修正する
ようにしたもので以下詳細(=説明する。
(4)発明の構成および作用の説明 第1図は9本発明の一実施例におけるブロック図であっ
て、1は文書画像から切出された文字列の画像データを
信号線αを用いて読み込み記憶する文字列画像データ記
憶装置、2は信号線りを用いて文字列画像データ記憶装
置1から文字列画像を読み込み9句読点等の偏在記号を
抽出し、同じく信号線kによって偏在記号抽出結果を文
字列画像データ記憶装置1に書き込む偏在記号分離装置
3は偏在記号分離の終了の信号を偏在記号分離装置2か
ら信号線Cを経由して受は取り9文字列画像データ記憶
装置1から信号線dを用いて、偏在記号を取り除いた文
字列画像データを読み込み文字の切出しを行ない、切出
し結果を信号線(を用いて切出し結果修正装置4(二出
力する個別文字切出し装置、4は個別文字切出し装置3
から受けとった文字切出し結果をもと(=9文字列画像
データ記憶装置1から信号線fによって偏在記号め情報
を入力し、切出し結果(二修正を加え、最終的な切出し
結果を信号線!ii二よって出力する切出し結果イφ正
装置である。以下それぞれの装置(二つI/)て説明す
る。
文字列画像データ記憶装置1は通常のOCR+二よって
抽出された。或いは例えば特願昭55−126845(
特開昭57−52971 )i二足される2次元文字領
域抽出装置(−よって抽出された一文字列分の画像デー
タ等を記憶する画像メモリである。偏在記号分離装置2
は文字列の中(二個つ1て存在している句読点等の偏在
記号を分離抽出す(る装置である。
第2図は文字切出し処理の過程につb)て説明したもの
で、第2図Aは文字列画像データ記憶装置1の中に記憶
されている文字列画像データの一例である。従来のOC
Rでは、第2図Aの様に必ずしも一定のピッチで並んで
いす、しかも漢字であるかひらがなであるかによって大
きさに変化のある文字を文字列中(二含んでいる場合に
は、第2図Bに示す様(=99句読をその前後の文字と
一緒に切出してしまう恐れがあった。偏在記号分離装置
2では、第2図Cに示す様に文字列中の句読点″0” 
*、nを抽出し、偏在記号をもとの文字列から取り除い
た文字列の画像データ第2図りを作る0 偏在記号を抽出する手法としては9例えば第3図に示す
様に、水平方向の投影(二よって周辺分耶りを求めて文
字列の上端iと下端]を検出しておき9次に垂直方向の
投影によって周辺分布kから図形が存在する区間が短か
い部分!1〜13を抽出し。
該区間に存在する図形が上又は下に偏っているかどうか
を調べ、偏っているもの町〜rL2を抽出すればよい。
ここで区間ルに含まれている図形は9文字列高さ方向全
体(=わたって存在するため抽出されない。また9周辺
分布を用いなくでも9図形の輪郭線を追跡し9位置大き
さを求めて偏在図形であるか否かを判断しても同様の結
果が得られる。
偏在記号分離装置によって、得られた偏在記号の抽出結
果(第2図C)と、原文字列データ(第2図A)から偏
在記号を取り除いたデータ(第2図D)が1文字列画像
データ記憶装置1(二記憶される0 文字切出し装置3は9句読点等、偏在記号を取り除いた
文字列(第2図D)を用いて個別文字を切出し、第2図
Eに示す結果を得るもので9例えば特願昭56−740
15(特開昭57−189274に示した文字切出し装
置によって実現可能である。
切出し結果修正装置4は、偏在記号を取り除いた文字列
(第2図D)での切出し結果(第2図パE)に、抽出し
た偏在記号(第2図C)の位置をもとに修正を加え、最
終切出し結果第2図Fを得るものである。
第2図Fで−C′ 印は、切出し結果(二修正が加えら
れた部分である0ここでは、横書きの文字列の場合(二
ついて述べたが、縦書きの文字列の場合も、全く同様の
処理を行なうことによって効果的な文字の切出しが行な
えることは明らかである。
(5)効果の説明 以上説明した様に9本装置では9文字列から個々の文字
、記号等を切出す際に9句読点等1文字列の片側に偏っ
て存在する偏在記号を予め抽出し。
分離しておき、偏在記号を取り除いた文字列に対して文
字の切出しを行ない、その後に偏在記号の抽出結果をも
とじ切出し結果の修正を行なうこと(二より、これまで
前後の文字と一緒(=切出されてしまうことの多かった
句読点に対しても正確な切出しを行なうことが出来る。
【図面の簡単な説明】
第1図は本発明の一実施例のブロック図、第2図 A乃
至Fは文字切出し処理の過程を示す説明図、第3図は偏
在記号の抽出方法の説明図である。 図中、1は文字列画像データ記憶装置、2は偏在記号分
離装置、3は個別文字切出し装置、4は切出し結果修正
装置、cLは1文字列画像データを読み込むための信号
線、hは文字列画像データを偏在記号分離装置に転送し
、偏在記号を抽出した結果を文字列画像データ記憶装置
に転送するための信号線、Cは偏在記号分離終了の信号
を送る信号線、dは偏在記号を取り除いた文字列を読み
込むための信号線、eは個別文字切出し装置(二お(す
る結果を出力するための信号線、fは偏在記号(=関す
る情報を転送するための信号線1gは最終切出し結果を
出力するための信号線である。 特許出願人  日本電信電話公社

Claims (1)

  1. 【特許請求の範囲】 文書画像中の文字列部分め画像データを入力し。 該文字列を構成する個々の文字を切出す文字切出し装置
    において9文字列の画像を記憶しておく文字列画像デー
    タ記憶装置と9句読点等の文字列中1−偏在する偏在記
    号を分離する偏在記号分離装置と、該偏在記号分離装置
    (=よって偏在記号を取り除いた文字列から個々の文字
    の切出しを行なう個別文字切出し装置と、偏在記号分離
    装置によって得られた偏在記号の位置、大きさをもとじ
    該個別文字切出し装置によって得られた結果に修正を加
    える切出し結果修正装置とを備え、偏在記号を予め分離
    しておくことによって1文字切出しの際。 偏在記号がその前後の文字と一緒に切出されることのな
    いようにしたことを特徴とする文字切出し装置。
JP58079116A 1983-05-06 1983-05-06 文字切出し装置 Pending JPS59205679A (ja)

Priority Applications (1)

Application Number Priority Date Filing Date Title
JP58079116A JPS59205679A (ja) 1983-05-06 1983-05-06 文字切出し装置

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
JP58079116A JPS59205679A (ja) 1983-05-06 1983-05-06 文字切出し装置

Publications (1)

Publication Number Publication Date
JPS59205679A true JPS59205679A (ja) 1984-11-21

Family

ID=13680939

Family Applications (1)

Application Number Title Priority Date Filing Date
JP58079116A Pending JPS59205679A (ja) 1983-05-06 1983-05-06 文字切出し装置

Country Status (1)

Country Link
JP (1) JPS59205679A (ja)

Cited By (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JPS62219187A (ja) * 1986-03-20 1987-09-26 Matsushita Electric Ind Co Ltd 文字認識装置

Citations (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JPS5582382A (en) * 1978-12-18 1980-06-21 Matsushita Electric Ind Co Ltd Recognition system for hand-written symbol and kana (japanese syllabary) character
JPS57101986A (en) * 1980-12-17 1982-06-24 Toshiba Corp Character detecting and cutting method
JPS57189274A (en) * 1981-05-15 1982-11-20 Nippon Telegr & Teleph Corp <Ntt> Character cutout device

Patent Citations (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JPS5582382A (en) * 1978-12-18 1980-06-21 Matsushita Electric Ind Co Ltd Recognition system for hand-written symbol and kana (japanese syllabary) character
JPS57101986A (en) * 1980-12-17 1982-06-24 Toshiba Corp Character detecting and cutting method
JPS57189274A (en) * 1981-05-15 1982-11-20 Nippon Telegr & Teleph Corp <Ntt> Character cutout device

Cited By (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JPS62219187A (ja) * 1986-03-20 1987-09-26 Matsushita Electric Ind Co Ltd 文字認識装置

Similar Documents

Publication Publication Date Title
US20070047815A1 (en) Image recognition apparatus, image recognition method, and image recognition program
JPS59205679A (ja) 文字切出し装置
JPH0410087A (ja) 基本ライン抽出方法
US11270146B2 (en) Text location method and apparatus
JPH0991371A (ja) 文字表示装置
CN111611986A (zh) 一种基于手指交互的焦点文本提取和识别方法及系统
JPH0728935A (ja) 文書画像処理装置
JPH02273884A (ja) 文書画像の歪検出補正方法
JPH0991385A (ja) 文字認識辞書追加方法及びこれを用いた端末ocr装置
JPS63158676A (ja) 領域抽出装置
JPS6254380A (ja) 文字認識装置
JP2570703B2 (ja) 文字読取装置
JPH0660220A (ja) 文書画像の領域抽出方法
JP2923004B2 (ja) 画像生成装置
KR20220168787A (ko) 만주어의 글자 추출 방법 및 이를 수행하는 시스템
JPH0264882A (ja) 住所読取装置
JPH01100685A (ja) 文字認識装置
JP2000339408A (ja) 文字切り出し装置
JPH0554178A (ja) 文字認識装置及び修正用帳票
JPS5831028B2 (ja) 文字認識装置
JPH04222057A (ja) 図面自動入力装置の文字・図形要素認識方法
JP2890788B2 (ja) 文書認識装置
JPH0223905B2 (ja)
JPH03160582A (ja) 文書画像データに於ける罫線と文字の分離方法
JPS61160179A (ja) 文字認識方式