JPH06274551A - 画像ファイリング装置 - Google Patents
画像ファイリング装置Info
- Publication number
- JPH06274551A JPH06274551A JP5059180A JP5918093A JPH06274551A JP H06274551 A JPH06274551 A JP H06274551A JP 5059180 A JP5059180 A JP 5059180A JP 5918093 A JP5918093 A JP 5918093A JP H06274551 A JPH06274551 A JP H06274551A
- Authority
- JP
- Japan
- Prior art keywords
- character string
- character
- keyword
- image
- image data
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Pending
Links
- 238000001514 detection method Methods 0.000 claims description 6
- 238000000605 extraction Methods 0.000 abstract description 13
- 239000000284 extract Substances 0.000 abstract description 3
- 238000000034 method Methods 0.000 description 22
- 238000010586 diagram Methods 0.000 description 8
- 238000000926 separation method Methods 0.000 description 7
- 239000003086 colorant Substances 0.000 description 1
- 238000002372 labelling Methods 0.000 description 1
- 238000001228 spectrum Methods 0.000 description 1
Landscapes
- Processing Or Creating Images (AREA)
- Information Retrieval, Db Structures And Fs Structures Therefor (AREA)
Abstract
(57)【要約】
【目的】 本発明は、入力した画像データを登録してお
き、登録時に付与したキーワードを用いて検索を行う画
像ファイリング装置におけるキーワードの抽出方法に関
し、入力されか画像データから、自動的に、キーワード
の候補を抽出して登録する。 【構成】 入力した画像データに含まれる文字列の外見
的な特徴を手掛かりとして、当該画像データを特徴付け
るキーワードの候補を抽出する。上記文字列の外見的な
特徴として、太字 (ボールド) 体となっている文字列,
又は、下線(アンダライン) が引いてある文字列, 或い
は、網掛けがしてある文字列をキーワード候補とする。
き、登録時に付与したキーワードを用いて検索を行う画
像ファイリング装置におけるキーワードの抽出方法に関
し、入力されか画像データから、自動的に、キーワード
の候補を抽出して登録する。 【構成】 入力した画像データに含まれる文字列の外見
的な特徴を手掛かりとして、当該画像データを特徴付け
るキーワードの候補を抽出する。上記文字列の外見的な
特徴として、太字 (ボールド) 体となっている文字列,
又は、下線(アンダライン) が引いてある文字列, 或い
は、網掛けがしてある文字列をキーワード候補とする。
Description
【0001】
【産業上の利用分野】本発明は、入力した画像データを
登録しておき、登録時に付与したキーワードを用いて検
索を行う画像ファイリング装置におけるキーワードの抽
出方法に関する。
登録しておき、登録時に付与したキーワードを用いて検
索を行う画像ファイリング装置におけるキーワードの抽
出方法に関する。
【0002】画像ファイリング装置では、大量の画像デ
ータを入力する為、その時のキーワード(インデック
ス)の付与作業が時間的,人的に負担となる為、その自
動化が要求される。
ータを入力する為、その時のキーワード(インデック
ス)の付与作業が時間的,人的に負担となる為、その自
動化が要求される。
【0003】
【従来の技術】図4は、従来の画像ファイリング装置を
説明する図であり、図4(a) は、画像入力時に、ユーザ
が手入力でキーワードの文字列を入力する場合を示し、
図4(b) は、入力された画像の特徴を抽出して、入力さ
れた画像の属性として登録する場合を示している。
説明する図であり、図4(a) は、画像入力時に、ユーザ
が手入力でキーワードの文字列を入力する場合を示し、
図4(b) は、入力された画像の特徴を抽出して、入力さ
れた画像の属性として登録する場合を示している。
【0004】1) 画像入力時に、ユーザが手入力でキー
ワードの文字列を入力する場合:先ず、図4(a) に示さ
れているように、スキャナ 2によって、画像を読み取
り、操作卓 3のディスプレイ 30 に表示しながら、例え
ば、キーボード 31 から、例えば、予め、定められてい
る領域に、キーワードとなる文字列を入力し、該キー
ワードの書き込まれた画像データを、ファイル記憶装
置 4に登録する。
ワードの文字列を入力する場合:先ず、図4(a) に示さ
れているように、スキャナ 2によって、画像を読み取
り、操作卓 3のディスプレイ 30 に表示しながら、例え
ば、キーボード 31 から、例えば、予め、定められてい
る領域に、キーワードとなる文字列を入力し、該キー
ワードの書き込まれた画像データを、ファイル記憶装
置 4に登録する。
【0005】2) 画像の特徴を抽出して、抽出された特
徴を画像の属性として登録する場合:図4(b) に示され
ているように、スキャナ 2によって、画像を読み取り、
読み取った画像の特徴、例えば、写真, 表等を抽出す
る。
徴を画像の属性として登録する場合:図4(b) に示され
ているように、スキャナ 2によって、画像を読み取り、
読み取った画像の特徴、例えば、写真, 表等を抽出す
る。
【0006】具体的な抽出方法としては、入力画像に
対して、例えば、投影処理等により、画像全体の濃度ス
ペクトラムを取り、全体が中間調の濃度である部分を写
真と判定する。
対して、例えば、投影処理等により、画像全体の濃度ス
ペクトラムを取り、全体が中間調の濃度である部分を写
真と判定する。
【0007】又、表は、その画像部分に罫線という特定
のコード情報があることで判定する。このようにして抽
出された画像の特徴を、当該画像の属性として、属性表
を付加し、該画像をファイル記憶装置 4に登録する。
のコード情報があることで判定する。このようにして抽
出された画像の特徴を、当該画像の属性として、属性表
を付加し、該画像をファイル記憶装置 4に登録する。
【0008】3) 画像の特定位置に、マーク, 記号等を
入力しておき、これを読み取ってキーワードとする場
合:図4(a) に示されているように、スキャナ 2で読み
取った画像データを、ディスプレイ 30 上に表示し、表
示された画像に適切なキーワードを、予め、定められて
いる領域に、所定のマーク, 記号等で入力したものをフ
ァイル記憶装置 4に登録しておく。
入力しておき、これを読み取ってキーワードとする場
合:図4(a) に示されているように、スキャナ 2で読み
取った画像データを、ディスプレイ 30 上に表示し、表
示された画像に適切なキーワードを、予め、定められて
いる領域に、所定のマーク, 記号等で入力したものをフ
ァイル記憶装置 4に登録しておく。
【0009】
【発明が解決しようとする課題】上記の従来技術では、
それぞれ、以下の問題点がある。 1) 手入力では、大量の画像を入力する場合の手間がか
かる。又、人がディスプレイ 30 上に表示されている画
像を見て、キーワードを選択し付与する為、ユーザに
よってキーワードの語句に偏りが生じる場合がある。
それぞれ、以下の問題点がある。 1) 手入力では、大量の画像を入力する場合の手間がか
かる。又、人がディスプレイ 30 上に表示されている画
像を見て、キーワードを選択し付与する為、ユーザに
よってキーワードの語句に偏りが生じる場合がある。
【0010】上記に類似技術として、特開平3-276260号
公報「文字コードのタイトル処理機能を備えた電子フア
イリング装置」があるが、この技術では、文書を入力し
た後、画面表示上において、キーワードとすべき領域を
指定して切り出し、切り出された領域の文字を認識し
て、キーワードとするもので、ユーザが画面上でキーワ
ードとして適切な領域を指定する必要があり、上記手入
力による方法と大差はない。
公報「文字コードのタイトル処理機能を備えた電子フア
イリング装置」があるが、この技術では、文書を入力し
た後、画面表示上において、キーワードとすべき領域を
指定して切り出し、切り出された領域の文字を認識し
て、キーワードとするもので、ユーザが画面上でキーワ
ードとして適切な領域を指定する必要があり、上記手入
力による方法と大差はない。
【0011】2) 画像に写真があるとか、表があるとか
の特徴は、所望の画像を検索する際の手掛かりとはなる
が、このような特徴の有無のみでは、大量の画像の中か
ら、所望のものを捜し出すのは困難である。
の特徴は、所望の画像を検索する際の手掛かりとはなる
が、このような特徴の有無のみでは、大量の画像の中か
ら、所望のものを捜し出すのは困難である。
【0012】3) 画像の特定位置から、マーク, 記号等
のキーワードを読み取る方法は、原稿となる文書への書
き込みが可能な場合のみに使用できる方法であり、一般
的ではない。又、不特定多数の原稿を入力する場合には
使用することができない。
のキーワードを読み取る方法は、原稿となる文書への書
き込みが可能な場合のみに使用できる方法であり、一般
的ではない。又、不特定多数の原稿を入力する場合には
使用することができない。
【0013】上記画像の特定の位置にマーク等を付与す
る方法の類似の技術として、特開昭61-290581 号「検索
情報抽出記憶装置」があるが、この技術では、入力すべ
き文書内のキーワードとなるべき箇所に、半透明インク
などでマークを付けておき、該文書を入力した後、画像
の濃淡 (マーク領域は、全域に渡って中間濃度である)
に基づいて、上記マーク領域を識別して分離し、分離さ
れた領域内の文字を認識してキーワードの文字コードと
するものである。
る方法の類似の技術として、特開昭61-290581 号「検索
情報抽出記憶装置」があるが、この技術では、入力すべ
き文書内のキーワードとなるべき箇所に、半透明インク
などでマークを付けておき、該文書を入力した後、画像
の濃淡 (マーク領域は、全域に渡って中間濃度である)
に基づいて、上記マーク領域を識別して分離し、分離さ
れた領域内の文字を認識してキーワードの文字コードと
するものである。
【0014】この「原稿の文書に半透明インクなどでマ
ークを付ける方法」では、書類原本等の原稿に書き込み
が不可能な場合とか、印画紙等の表面が平滑な場合には
使用できない等の問題がある。
ークを付ける方法」では、書類原本等の原稿に書き込み
が不可能な場合とか、印画紙等の表面が平滑な場合には
使用できない等の問題がある。
【0015】又、上記マーク付けを人手で行う必要があ
り、上記 1) 項で説明したキーボードによる入力方法に
比較すれば、若干簡易化されるが、キーワードの付与の
工数の問題, キーワードの選択に、担当者によるバラツ
キが発生する問題が残る。
り、上記 1) 項で説明したキーボードによる入力方法に
比較すれば、若干簡易化されるが、キーワードの付与の
工数の問題, キーワードの選択に、担当者によるバラツ
キが発生する問題が残る。
【0016】同様の類似技術として、特開平1-269171号
公報「画像処理装置」があるが、概念的には、上記特開
昭61-290581 号「検索情報抽出記憶装置」とほぼ同じ
で、マークを付与する際に、複数の色を使用して、複数
タイプのキーワードを分離できるようにしたもので、マ
ーク領域を分離するのに、色フィルタを使用する点が異
なるのみで、上記と同様の問題がある。
公報「画像処理装置」があるが、概念的には、上記特開
昭61-290581 号「検索情報抽出記憶装置」とほぼ同じ
で、マークを付与する際に、複数の色を使用して、複数
タイプのキーワードを分離できるようにしたもので、マ
ーク領域を分離するのに、色フィルタを使用する点が異
なるのみで、上記と同様の問題がある。
【0017】その他の「キーワード」の抽出技術とし
て、特開平1-106263号公報「文書の格納検索装置」があ
るが、ここに開示されている技術の特徴は、文書イメー
ジ中の文字を切り出して認識し、文字コード列に変換す
る文字認識装置と、キーワード単語が、予め、登録され
ている単語辞書を持ち、上記文字認識装置で認識された
文字コードと、上記単語辞書に登録されているキーワー
ドと照合してキーワードデータを抽出するものであり、
予め、キーワードとして適切な単語を登録しておく必要
があり、この登録作業は人手であり、キーワードとして
適切な単語を選択することに問題が残る。
て、特開平1-106263号公報「文書の格納検索装置」があ
るが、ここに開示されている技術の特徴は、文書イメー
ジ中の文字を切り出して認識し、文字コード列に変換す
る文字認識装置と、キーワード単語が、予め、登録され
ている単語辞書を持ち、上記文字認識装置で認識された
文字コードと、上記単語辞書に登録されているキーワー
ドと照合してキーワードデータを抽出するものであり、
予め、キーワードとして適切な単語を登録しておく必要
があり、この登録作業は人手であり、キーワードとして
適切な単語を選択することに問題が残る。
【0018】本発明は上記従来の欠点に鑑み、任意の画
像データについて、事前の書き込み、登録等の処理を行
うことなく、画像を入力した時点で、最も、適切なキー
ワードの候補を抽出することができる方法を提供するこ
とを目的とするものである。
像データについて、事前の書き込み、登録等の処理を行
うことなく、画像を入力した時点で、最も、適切なキー
ワードの候補を抽出することができる方法を提供するこ
とを目的とするものである。
【0019】
【課題を解決するための手段】図1は、本発明の原理説
明図である。上記の問題点は下記のように構成した画像
ファイリング装置によって解決される。
明図である。上記の問題点は下記のように構成した画像
ファイリング装置によって解決される。
【0020】入力した画像データに含まれる文字列の
外見的な特徴を手掛かりとして、当該画像データを特
徴付けるキーワードの候補を抽出する特徴抽出部 13
を備えるように構成する。
外見的な特徴を手掛かりとして、当該画像データを特
徴付けるキーワードの候補を抽出する特徴抽出部 13
を備えるように構成する。
【0021】上記入力した画像データに含まれる文字
列の外見的な特徴として、太字 (ボールド) 体となって
いる文字列,下線 (アンダライン) が引かれている文字
列,或いは、網掛けがしてある文字列とするように構成
する。
列の外見的な特徴として、太字 (ボールド) 体となって
いる文字列,下線 (アンダライン) が引かれている文字
列,或いは、網掛けがしてある文字列とするように構成
する。
【0022】
【作用】図1は、本発明の画像ファイリング装置の原理
構成図であり、11は、入力画像から文字列部分を抽出す
る文字列抽出部であり、12は文字認識部であり、13は、
抽出された文字の外見的な特徴を検出する特徴検出部
で、14は、上記特徴のある文字列が検出された場合に、
その文字列を出力するキーワード候補出力部である。
構成図であり、11は、入力画像から文字列部分を抽出す
る文字列抽出部であり、12は文字認識部であり、13は、
抽出された文字の外見的な特徴を検出する特徴検出部
で、14は、上記特徴のある文字列が検出された場合に、
その文字列を出力するキーワード候補出力部である。
【0023】本発明は、通常の文章の中で、「見出し」
や「重要語」などのキーワードとなる可能性の高い部分
は、外見的に他の部分とは異なる場合が多い。例えば、
太字(ボールド)体になっているとか、下先(アンダラ
イン)が引いてあるとか、文字列の上に網掛けをしてあ
ることが多いことに着目して、入力した画像から文字
列を抽出した後、その外見的な特徴、例えば、上記太字
(ボールド)体、下線(アンダライン)等を検出するこ
とで、任意の画像に対して、上記の如き特徴をもった
文字列をキーワード候補として自動的に出力するように
したものである。
や「重要語」などのキーワードとなる可能性の高い部分
は、外見的に他の部分とは異なる場合が多い。例えば、
太字(ボールド)体になっているとか、下先(アンダラ
イン)が引いてあるとか、文字列の上に網掛けをしてあ
ることが多いことに着目して、入力した画像から文字
列を抽出した後、その外見的な特徴、例えば、上記太字
(ボールド)体、下線(アンダライン)等を検出するこ
とで、任意の画像に対して、上記の如き特徴をもった
文字列をキーワード候補として自動的に出力するように
したものである。
【0024】従って、任意の画像を入力するだけで、
入力された画像に適切なキーワードを抽出することが
でき、画像ファイリング装置への画像入力の省力化,自
動化が可能となる効果がある。
入力された画像に適切なキーワードを抽出することが
でき、画像ファイリング装置への画像入力の省力化,自
動化が可能となる効果がある。
【0025】
【実施例】以下本発明の実施例を図面によって詳述す
る。前述の図1は、本発明の原理説明図であり、図2,
図3は、本発明の一実施例を示した図であって、図2
(a) は、図1の文字列抽出部の構成例を示し、図2(b)
は、図1の文字認識部の構成例を示し、図3は、本発明
の特徴検出部の構成例を示している。
る。前述の図1は、本発明の原理説明図であり、図2,
図3は、本発明の一実施例を示した図であって、図2
(a) は、図1の文字列抽出部の構成例を示し、図2(b)
は、図1の文字認識部の構成例を示し、図3は、本発明
の特徴検出部の構成例を示している。
【0026】本発明においては、入力した画像データ
を登録しておき、登録時に付与したキーワードを用いて
検索を行う画像ファイリング装置 1において、入力した
画像データに含まれる文字列の外見的な特徴、例え
ば、太字 (ボールド) 体となっている文字列, 又は、下
線 (アンダライン) が引いてある文字列, 或いは、網掛
けがしてある文字列をキーワード候補とする手段 13
が本発明を実施するのに必要な手段である。尚、全図を
通して同じ符号は同じ対象物を示している。
を登録しておき、登録時に付与したキーワードを用いて
検索を行う画像ファイリング装置 1において、入力した
画像データに含まれる文字列の外見的な特徴、例え
ば、太字 (ボールド) 体となっている文字列, 又は、下
線 (アンダライン) が引いてある文字列, 或いは、網掛
けがしてある文字列をキーワード候補とする手段 13
が本発明を実施するのに必要な手段である。尚、全図を
通して同じ符号は同じ対象物を示している。
【0027】以下、図1を参照しながら、図2,図3に
よって、本発明の画像ファイリング装置の構成と動作を
説明する。図2(a) に示した文字列抽出部 11 におい
て、図形・文字領域分離部 110で画像中の図形部分と文
字部分とを分離する。
よって、本発明の画像ファイリング装置の構成と動作を
説明する。図2(a) に示した文字列抽出部 11 におい
て、図形・文字領域分離部 110で画像中の図形部分と文
字部分とを分離する。
【0028】具体的には、例えば、縦, 横方向について
の投影処理により、それぞれ、独立に黒画素の数のヒス
トグラムを取る。このヒストグラムの結果が、一様に分
散して区切れのない領域を図形部分とし、ある単位長で
区切れている部分を文字領域とする。これは文字領域の
黒画素のヒストグラムを取ると、文字の大きさを単位長
にして、そのヒストグラムが区切れることを利用した分
離方法であるが、この図形・文字領域の分離方法として
は、上記の黒画素の数のヒストグラムを取る方法に限定
するものではない。
の投影処理により、それぞれ、独立に黒画素の数のヒス
トグラムを取る。このヒストグラムの結果が、一様に分
散して区切れのない領域を図形部分とし、ある単位長で
区切れている部分を文字領域とする。これは文字領域の
黒画素のヒストグラムを取ると、文字の大きさを単位長
にして、そのヒストグラムが区切れることを利用した分
離方法であるが、この図形・文字領域の分離方法として
は、上記の黒画素の数のヒストグラムを取る方法に限定
するものではない。
【0029】次の行領域分離部 112では、上記において
文字領域として分離された領域において、横方向のヒス
トグラムを参照して、1行分の領域を分離し、次の文字
領域分離部 113では、上記の投影処理により、或いは、
ラベリング処理により、独立した黒画素の連結部分を文
字, 又は、文字の一部として検出し、各文字領域の画像
を分離する。
文字領域として分離された領域において、横方向のヒス
トグラムを参照して、1行分の領域を分離し、次の文字
領域分離部 113では、上記の投影処理により、或いは、
ラベリング処理により、独立した黒画素の連結部分を文
字, 又は、文字の一部として検出し、各文字領域の画像
を分離する。
【0030】図2(b) は、文字認識部 12 の構成例を示
している。先ず、文字特徴抽出部120において、上記文
字列抽出部 11 で抽出された各文字領域中の文字の特
徴、例えば、上部に黒画素の固まっている尖端部分があ
るとか、真ん中に、空白を持っているとかの特徴を抽出
し、認識辞書検索部 121において、文字認識辞書 122
に、予め、登録されている各文字の特徴と照合して文字
の認識を行い、認識された文字の文字コードを出力す
る。
している。先ず、文字特徴抽出部120において、上記文
字列抽出部 11 で抽出された各文字領域中の文字の特
徴、例えば、上部に黒画素の固まっている尖端部分があ
るとか、真ん中に、空白を持っているとかの特徴を抽出
し、認識辞書検索部 121において、文字認識辞書 122
に、予め、登録されている各文字の特徴と照合して文字
の認識を行い、認識された文字の文字コードを出力す
る。
【0031】図3は、本発明の中核となる文字の特徴検
出部 13 の構成例を示しており、本実施例では、太字
(ボールド)体文字を検出する例を示している。前述の
文字列抽出部 11 で抽出された1文字単位のイメージデ
ータが輪郭長算出部 130に入力される。輪郭長算出部 1
30では、入力されたイメージデータについて、例えば、
3×3画素からなる所定のパターンからなるウィンドウ
を用いて、該領域を所定の順序で走査して、文字の輪郭
を抽出し、抽出された文字の輪郭を構成している画素の
数を計数することで、該抽出された輪郭の長さを算出す
る。
出部 13 の構成例を示しており、本実施例では、太字
(ボールド)体文字を検出する例を示している。前述の
文字列抽出部 11 で抽出された1文字単位のイメージデ
ータが輪郭長算出部 130に入力される。輪郭長算出部 1
30では、入力されたイメージデータについて、例えば、
3×3画素からなる所定のパターンからなるウィンドウ
を用いて、該領域を所定の順序で走査して、文字の輪郭
を抽出し、抽出された文字の輪郭を構成している画素の
数を計数することで、該抽出された輪郭の長さを算出す
る。
【0032】又、面積算出部 131では、入力された同じ
イメージデータの文字の面積を算出する。具体的には、
例えば、前述の縦方向, 又は、横方向の投影処理を行い
黒画素のヒストグラムを求めて積算することにより簡単
に求めることができる。
イメージデータの文字の面積を算出する。具体的には、
例えば、前述の縦方向, 又は、横方向の投影処理を行い
黒画素のヒストグラムを求めて積算することにより簡単
に求めることができる。
【0033】次の文字太さ算出部 132では、上記輪郭長
算出部 130で算出した輪郭長をPとし、上記面積算出部
131で算出した文字の面積Aに基づいて、例えば、太さ
係数α=P2/Aを計算し、文字太さ辞書 132に登録され
ている各文字の標準の太さの時のαs とを、非標準文字
検出部 134で比較して、α<αs のとき、該文字を太い
文字と認識する。一般に、太い文字程、上記αの値は小
さくなることによる。
算出部 130で算出した輪郭長をPとし、上記面積算出部
131で算出した文字の面積Aに基づいて、例えば、太さ
係数α=P2/Aを計算し、文字太さ辞書 132に登録され
ている各文字の標準の太さの時のαs とを、非標準文字
検出部 134で比較して、α<αs のとき、該文字を太い
文字と認識する。一般に、太い文字程、上記αの値は小
さくなることによる。
【0034】上記文字の輪郭長Pを二乗したP2 と、文
字の面積Aとで、文字の太さを検出する手法は、例え
ば、文献「“ディジタル画像処理",長尾真監訳, 近代科
学社刊, 昭和53年12月10発行, 第9章, ディジタル幾何
学,9.4 方向性と形状,9.4.4 複雑さ,P 406〜410 」に
示されている "等周不等式" P2/A≧4πを利用して、
面積Aを持つ形状Sが比較的に纏まっているとき(本願
発明では、文字が太くなる事象に対応)、形状Sの周囲
長Pが小さく、面積Aを持つ形状Sが比較的に散らばっ
ているとき(本願発明では、文字が細くなる事象に対
応)、形状Sの周囲長Pが大きくなるという原理に基づ
く手法であるが、この方法に限るものではないことはい
う迄もないことである。
字の面積Aとで、文字の太さを検出する手法は、例え
ば、文献「“ディジタル画像処理",長尾真監訳, 近代科
学社刊, 昭和53年12月10発行, 第9章, ディジタル幾何
学,9.4 方向性と形状,9.4.4 複雑さ,P 406〜410 」に
示されている "等周不等式" P2/A≧4πを利用して、
面積Aを持つ形状Sが比較的に纏まっているとき(本願
発明では、文字が太くなる事象に対応)、形状Sの周囲
長Pが小さく、面積Aを持つ形状Sが比較的に散らばっ
ているとき(本願発明では、文字が細くなる事象に対
応)、形状Sの周囲長Pが大きくなるという原理に基づ
く手法であるが、この方法に限るものではないことはい
う迄もないことである。
【0035】又、図示しなかったが、下線(アンダライ
ン)が引いてある文字列の抽出方法としては、上記文字
列抽出部 11 で抽出された文字列領域の下部の近傍を、
横方向に走査して、横に長い連続した黒画素の集合を、
ラン長や、ラベル付けした黒画素の大きさから検出する
ことができる。
ン)が引いてある文字列の抽出方法としては、上記文字
列抽出部 11 で抽出された文字列領域の下部の近傍を、
横方向に走査して、横に長い連続した黒画素の集合を、
ラン長や、ラベル付けした黒画素の大きさから検出する
ことができる。
【0036】又、網掛けをした文字列については、例え
ば、文字を形成していると想定される黒画素の集合を除
去した文字枠の画像データと、所定の網掛けの画像デー
タとを照合する等して検出してもよい。
ば、文字を形成していると想定される黒画素の集合を除
去した文字枠の画像データと、所定の網掛けの画像デー
タとを照合する等して検出してもよい。
【0037】いずれにしても、本願発明の特徴は、入力
された画像の文書中の外見的な特徴、例えば、上記太
字(ボールド)体の文字列,下線(アンダライン)を持
つ文字列,或いは、網掛けされた文字列と言った、所定
の外見的特徴を持つ文字列を抽出してキーワード候補
とするものであって、上記外見的な特徴を抽出する手法
そのものは、どのような方法であっても良く、特に限定
するものではない。
された画像の文書中の外見的な特徴、例えば、上記太
字(ボールド)体の文字列,下線(アンダライン)を持
つ文字列,或いは、網掛けされた文字列と言った、所定
の外見的特徴を持つ文字列を抽出してキーワード候補
とするものであって、上記外見的な特徴を抽出する手法
そのものは、どのような方法であっても良く、特に限定
するものではない。
【0038】
【発明の効果】以上、詳細に説明したように、本発明に
よれば、任意の入力画像から外見的な特徴を持つ文字
列を抽出するだけで、自動的に、文書のキーワードの候
補を抽出することができる為、画像ファイリング装置へ
の画像入力の際の省力化・自動化が可能となる効果があ
る。
よれば、任意の入力画像から外見的な特徴を持つ文字
列を抽出するだけで、自動的に、文書のキーワードの候
補を抽出することができる為、画像ファイリング装置へ
の画像入力の際の省力化・自動化が可能となる効果があ
る。
【図1】本発明の原理説明図
【図2】本発明の一実施例を示した図(その1)
【図3】本発明の一実施例を示した図(その2)
【図4】従来の画像ファイリング装置を説明する図
1 画像ファイリング装置 2 スキャナ 3 操作卓 30 ディスプ
レイ 31 キーボード 4 ファイル
記憶装置 11 文字列抽出部 110 図形・文
字領域分離部 112 行領域分離部 113 文字領域
分離部 12 文字認識部 120 文字特徴
抽出部 121 認識辞書検索部 122 文字認識
辞書 13 特徴検出部 130 輪郭長算
出部 131 面積算出部 132 文字太さ
算出部 133 文字太さ辞書 134 非標準文
字検出部 14 キーワード候補出力部 入力画像データ,入力画像 キーワード,キーワード候補 α 太さ係数 αs 標準の太
さ係数
レイ 31 キーボード 4 ファイル
記憶装置 11 文字列抽出部 110 図形・文
字領域分離部 112 行領域分離部 113 文字領域
分離部 12 文字認識部 120 文字特徴
抽出部 121 認識辞書検索部 122 文字認識
辞書 13 特徴検出部 130 輪郭長算
出部 131 面積算出部 132 文字太さ
算出部 133 文字太さ辞書 134 非標準文
字検出部 14 キーワード候補出力部 入力画像データ,入力画像 キーワード,キーワード候補 α 太さ係数 αs 標準の太
さ係数
Claims (4)
- 【請求項1】入力した画像データ()に含まれる文字
列の外見的な特徴を手掛かりとして、当該画像データ
()を特徴付けるキーワード()の候補を抽出する
特徴検出部(13)を備えたことを特徴とする画像ファイリ
ング装置。 - 【請求項2】上記入力した画像データ()に含まれる
文字列の外見的な特徴として、太字 (ボールド) 体とな
っている文字列であることを特徴とする請求項1に記載
の画像ファイリング装置。 - 【請求項3】上記入力した画像データ()に含まれる
文字列の外見的な特徴として、下線が引かれている文字
列であることを特徴とする請求項1に記載の画像ファイ
リング装置。 - 【請求項4】上記入力した画像データ()に含まれる
文字列の外見的な特徴として、網掛けがしてある文字列
であることを特徴とする請求項1に記載の画像ファイリ
ング装置。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
JP5059180A JPH06274551A (ja) | 1993-03-19 | 1993-03-19 | 画像ファイリング装置 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
JP5059180A JPH06274551A (ja) | 1993-03-19 | 1993-03-19 | 画像ファイリング装置 |
Publications (1)
Publication Number | Publication Date |
---|---|
JPH06274551A true JPH06274551A (ja) | 1994-09-30 |
Family
ID=13105954
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
JP5059180A Pending JPH06274551A (ja) | 1993-03-19 | 1993-03-19 | 画像ファイリング装置 |
Country Status (1)
Country | Link |
---|---|
JP (1) | JPH06274551A (ja) |
Cited By (4)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
JPH09330327A (ja) * | 1996-06-10 | 1997-12-22 | Toshiba Corp | 画像ファイル方法及びその装置 |
JP2000137728A (ja) * | 1998-11-02 | 2000-05-16 | Fujitsu Ltd | 文書解析装置及びプログラム記録媒体 |
KR100295225B1 (ko) * | 1997-07-31 | 2001-07-12 | 윤종용 | 컴퓨터에서 영상정보 검색장치 및 방법 |
US8139870B2 (en) | 2006-03-03 | 2012-03-20 | Fuji Xerox Co., Ltd. | Image processing apparatus, recording medium, computer data signal, and image processing method |
-
1993
- 1993-03-19 JP JP5059180A patent/JPH06274551A/ja active Pending
Cited By (4)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
JPH09330327A (ja) * | 1996-06-10 | 1997-12-22 | Toshiba Corp | 画像ファイル方法及びその装置 |
KR100295225B1 (ko) * | 1997-07-31 | 2001-07-12 | 윤종용 | 컴퓨터에서 영상정보 검색장치 및 방법 |
JP2000137728A (ja) * | 1998-11-02 | 2000-05-16 | Fujitsu Ltd | 文書解析装置及びプログラム記録媒体 |
US8139870B2 (en) | 2006-03-03 | 2012-03-20 | Fuji Xerox Co., Ltd. | Image processing apparatus, recording medium, computer data signal, and image processing method |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
EP0544434B1 (en) | Method and apparatus for processing a document image | |
US5867277A (en) | Reduced resolution document storage and retrieval system | |
US5761344A (en) | Image pre-processor for character recognition system | |
US10353997B1 (en) | Freeform annotation transcription | |
CA2077274C (en) | Method and apparatus for summarizing a document without document image decoding | |
US5809167A (en) | Page segmentation and character recognition system | |
JP3282860B2 (ja) | 文書上のテキストのデジタル画像を処理する装置 | |
EP0539106B1 (en) | Electronic information delivery system | |
JP4073156B2 (ja) | 画像検索装置 | |
US5650799A (en) | Programmable function keys for a networked imaging computer system | |
US8520224B2 (en) | Method of scanning to a field that covers a delimited area of a document repeatedly | |
JP2713622B2 (ja) | 表形式文書読取装置 | |
JP4785655B2 (ja) | 文書処理装置及び文書処理方法 | |
US8605297B2 (en) | Method of scanning to a field that covers a delimited area of a document repeatedly | |
JP2008129793A (ja) | 文書処理システムおよび装置および方法、およびプログラムを記録した記録媒体 | |
JPH06274551A (ja) | 画像ファイリング装置 | |
JPH08180068A (ja) | 電子ファイリング装置 | |
JPH05303619A (ja) | 電子スクラップブック | |
JPH08153110A (ja) | 文書ファイリング装置及び方法 | |
JPH06348758A (ja) | 文書情報検索装置及び方法 | |
JP2000259847A (ja) | 情報検索方法、装置および記録媒体 | |
JPH0554072A (ja) | デジタル翻訳装置 | |
JPH0757040A (ja) | Ocr付きファイリング装置 | |
JP3305367B2 (ja) | データベースへのデータ入力装置 | |
JPH09204511A (ja) | ファイリング装置 |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
A02 | Decision of refusal |
Free format text: JAPANESE INTERMEDIATE CODE: A02 Effective date: 19991221 |