[go: up one dir, main page]

JP4517821B2 - 画像処理装置及びプログラム - Google Patents

画像処理装置及びプログラム Download PDF

Info

Publication number
JP4517821B2
JP4517821B2 JP2004322462A JP2004322462A JP4517821B2 JP 4517821 B2 JP4517821 B2 JP 4517821B2 JP 2004322462 A JP2004322462 A JP 2004322462A JP 2004322462 A JP2004322462 A JP 2004322462A JP 4517821 B2 JP4517821 B2 JP 4517821B2
Authority
JP
Japan
Prior art keywords
image
additional
image data
postscript
color
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Expired - Fee Related
Application number
JP2004322462A
Other languages
English (en)
Other versions
JP2006134078A (ja
Inventor
俊哉 小山
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Fujifilm Business Innovation Corp
Original Assignee
Fuji Xerox Co Ltd
Fujifilm Business Innovation Corp
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Fuji Xerox Co Ltd, Fujifilm Business Innovation Corp filed Critical Fuji Xerox Co Ltd
Priority to JP2004322462A priority Critical patent/JP4517821B2/ja
Publication of JP2006134078A publication Critical patent/JP2006134078A/ja
Application granted granted Critical
Publication of JP4517821B2 publication Critical patent/JP4517821B2/ja
Anticipated expiration legal-status Critical
Expired - Fee Related legal-status Critical Current

Links

Images

Landscapes

  • Image Processing (AREA)
  • Character Discrimination (AREA)
  • Information Retrieval, Db Structures And Fs Structures Therefor (AREA)
  • Processing Or Creating Images (AREA)
  • Machine Translation (AREA)
  • Document Processing Apparatus (AREA)
  • Storing Facsimile Image Data (AREA)
  • Image Analysis (AREA)

Description

本発明は、文書原本になされた追記によって指定された被追記部分を抽出するための技術に関する。
文書には、各種のコメントが記されたり、その文書の内容を承認したことを示すための承認者のサインや印影などが付されることがある。従来から、このような追記部分だけを抽出するための技術が提案されている。例えば特許文献1には、文書原本と、その原本に追記がなされた追記文書を比較照合することにより、追記部分のみを抽出するという技術が記載されている。特許文献2には、ある文書がすでにデータベースに登録済みの文書Aの追記文書Bであった場合には、その追記文書Bと文書Aとを比較して追記部分の画像データを抽出し、抽出した画像データを文書Aに対応付けるという仕組みが提案されている。そして、特許文献3には、特許文献2に記載されているように追記文書Bと文書Aとを比較して追記部分の画像データを抽出したうえで、その追記部分の画像データに関する情報(例えばキーワードや更新日時)をユーザが入力し、これらの入力情報を追記部分の画像データと共に記憶しておくことが記載されている。これにより、保存後の検索作業において、例えばキーワード検索を行って所望の文書を抽出することが可能となる。
ところで、文書原本になされる追記には、上記のようなもの以外にも、次のような性質の追記がある。例えば、追記者が文書を参照している最中に、重要だとか検討を要するなどと感じた箇所には、マーカーペンでその箇所を指定(マーキング)するような追記である。この種の追記で追記者にとって重要なのは、追記部分(つまりマーキングそのもの)よりも、その追記によって指定された箇所がどのような内容かということである。そこで、このような追記によって指定された内容だけを抽出して保存しておくことができれば、例えば重要な内容としてマーキングされた内容のみを対象とした検索作業を行うなど、様々な利用シーンに活用することができる。ところが、特許文献1〜3に記載された技術では、このような要請に応えることができない。
特開昭61−267177号公報 特開平8−317155号公報 特開2000−148790号公報
本発明は、このような背景に鑑みてなされたものであり、その目的は、文書原本になされた追記によって指定された被追記部分を抽出し、これを各種の利用目的に備えて保存しておくことが可能な技術を提供することにある。
上述の課題を解決するため、本発明は、画像データが入力される入力手段と、前記入力手段によって入力された画像データが表す画像から、決められた条件に従って特定される追記画像を抽出する追記画像抽出手段と、前記追記画像抽出手段によって抽出された追記画像の色を識別する色識別手段と、文書において追記によって指定される部分の属性名を記憶した属性記憶手段と、前記入力手段によって入力された画像データと対応付けて、追記のなされていない文書原本の内容を表す原本画像データを記憶する記憶手段と、前記追記画像抽出手段によって抽出された追記画像と所定の位置関係を有する画像領域を特定する領域特定手段と、前記記憶手段によって記憶されている原本画像データが表す画像から、前記領域特定手段によって特定された画像領域に配置されている画像を被追記画像として抽出し、前記色識別手段を用いて、抽出した前記被追記画像を当該被追記画像と前記所定の位置関係を有する前記追記画像の色別に分類し、それぞれの色単位で、前記属性記憶手段によって記憶されている属性名に一致する被追記画像を表す被追記画像データと、それ以外の被追記画像を表す被追記画像データ対応付けて前記記憶手段に記憶させる被追記画像抽出手段とを備えた画像処理装置を提供する。
また、本発明は、コンピュータ、入力された画像データが表す画像から、決められた条件に従って特定される追記画像を抽出する追記画像抽出手段と、前記追記画像抽出手段によって抽出された追記画像の色を識別する色識別手段と、文書において追記によって指定される部分の属性名を記憶した属性記憶手段と、入力された前記画像データと対応付けて、追記のなされていない文書原本の内容を表す原本画像データを記憶する記憶手段と、前記追記画像抽出手段によって抽出された追記画像と所定の位置関係を有する画像領域を特定する領域特定手段と、前記記憶手段によって記憶されている原本画像データが表す画像から、前記領域特定手段によって特定された画像領域に配置されている画像を被追記画像として抽出し、前記色識別手段を用いて、抽出した前記被追記画像を当該被追記画像と前記所定の位置関係を有する前記追記画像の色別に分類し、それぞれの色単位で、前記属性記憶手段によって記憶されている属性名に一致する被追記画像を表す被追記画像データと、それ以外の被追記画像を表す被追記画像データ対応付けて前記記憶手段に記憶させる被追記画像抽出手段として機能させるためのプログラムを提供する。
まず、本発明の実施形態で用いる主要な用語を定義しておく。
「文書原本」とは、プリンタ等の画像形成装置によって画像が形成されてから追記者による追記が一切なされていない文書を意味している。「原本画像データ」とは、この文書原本の内容を表した画像データである。
これに対し、「追記文書」とは、文書原本に対して追記がなされた状態の文書を意味している。また、「追記画像」とは文書原本の追記部分の画像を意味している。例えば或る文字列についてペンでアンダーラインが施されている場合には、そのアンダーラインそのものが追記画像である。「追記画像データ」とは、その追記画像の内容を表した画像データである。
そして、「被追記画像」とは、文書原本において追記によって指定された部分(被追記部分)の画像を意味している。例えば或る文字列にペンでアンダーラインが施されている場合には、その文字列が被追記画像である。「被追記画像データ」とは、被追記部分の内容を表した画像データである。
追記画像と被追記画像とは所定の位置関係にある。例えば或る文字列についてペンでアンダーラインが施されている場合には、アンダーライン(追記画像)の上方に文字列(被追記画像)が存在するといった具合である。従って、追記者が被追記部分に対してどのような位置に追記を行うかということを事前に決めておけば、追記画像の位置に基づいて被追記画像を特定することができる。
(1)第1実施形態
図1は、第1実施形態に係る画像処理装置1の構成を示したブロック図である。画像処理装置1は、例えばパーソナルコンピュータであり、制御部11と、不揮発性記憶部12と、入力部13と、表示部14と、操作部15とを備えている。入力部13には通信ケーブルを介してスキャナ等の画像読取装置2が接続されている。
制御部11は、CPU(Central Processing Unit)111、ROM(Read Only Memory)112及びRAM(Random Access Memory)113を備えており、画像読取装置2から入力部13を介して入力された画像データに対し、各種の画像処理を実行する。不揮発性記憶部12は例えばハードディスクであり、制御部11が実行する画像処理の手順が記述された画像処理プログラムPRGを記憶している。操作部15は、例えばキーボードやマウスを備えており、ユーザによる入力操作を受け付けて、その操作に応じた信号を制御部11に供給する。表示部14は例えば液晶ディスプレイ装置であり、制御部11による制御の下で各種画像を表示する。
図2は、画像処理プログラムPRGに記述された手順を示すフローチャートである。
追記者は文書原本に追記を行う。具体的には、ごく一般的なテキスト文書のように白色地の記録紙に黒色の画像が形成されたモノクロの文書原本に対して、追記者は例えば赤、黄、青などの比較的目立つ色のペンでアンダーラインを施す。ここで、追記を行う際のルールとして、文書のタイトルにふさわしい内容には赤色のペンで、文書の日付には黄色のペンで、文書中の重要なキーワードには青色のペンで、それぞれアンダーラインを施すということが事前に決められているものとする。
ここで、図3は、上記のようなルールで追記がなされた追記文書の一例を示す図である。この例では、「セキュリティ対策講座開催の件」という文字列に対して赤色のアンダーラインul1が施されており、「2004年3月29日」という文字列に対して黄色のアンダーラインul2が施されており、「セキュリティ対策講座−ネットワーク社会のここが危ない」及び「総務部田中宛」という文字列に青色のアンダーラインul3−1〜ul3−4が施されている。画像処理装置1の操作者は、図3に示したような追記文書を画像読取装置2によって読み取らせる。画像読取装置2は、読み取った画像を表す画像データを画像処理装置1の入力部13に入力する。
入力部13に画像データが入力されると(ステップS1)、制御部11は、その画像データから、予め決められた条件に従って追記画像を特定し、これらを抽出する(ステップS2)。上述したように追記の色は予め決められているので、ここでは、制御部11は、画像データから、その色の画素からなる画像を追記画像として抽出すればよい。図3の例では、赤色のアンダーラインul1、黄色のアンダーラインul2、青色のアンダーラインul3−1〜ul3−4が抽出されることになる。
次いで、制御部11は、ステップS2で抽出した追記画像と所定の位置関係を有する画像領域を特定する(ステップS3)。この「追記画像と所定の位置関係を有する画像領域」とは、被追記画像が存在する画像領域のことである。例えば、図3のようなアンダーライン形式の追記の場合には、そのアンダーライン(追記画像)の長手方向に沿った画像領域であって、かつ、その線分画像の上方に位置する画像領域が、ステップS3で特定すべき画像領域ということになる。この処理によって、図4の点線で示すように、赤色のアンダーラインul1の上方に位置する画像領域A1と、黄色のアンダーラインul2の上方に位置する画像領域A2と、青色のアンダーラインul3−1〜ul3−4のそれぞれの上方に位置する画像領域A3−1〜A3−4が特定されることになる。
次に、制御部11は、画像データから、特定された画像領域に配置されている画像を被追記画像として抽出する(ステップS4)。この処理によって、図5に示すように、画像領域A1に配置されている「セキュリティ対策講座開催の件」という画像と、画像領域A2に配置されている「2004年3月29日」という画像と、画像領域A3−1に配置されている「セキュリティ対策講座−ネットワーク社会のここ」という画像と、画像領域A3−2に配置されている「が危ない」という画像と、画像領域A3−3に配置されている「総」という画像と、画像領域A3−4に配置されている「務部田中宛」という画像とが被追記画像として抽出される。
さらに、青色のアンダーラインul3−1とアンダーラインul3−2は本来連続すべきアンダーラインであるが、文書上の桁数制限によって改行されて2本のアンダーラインに分離されているにすぎない。そこで、制御部11は、このアンダーラインul3−1とアンダーラインul3−2のように文頭或いは文尾で互いに分離されているようなアンダーライン(追記画像)がある場合には、これらを繋げて被追記画像を抽出する。制御部11は、このような処理を行うことによって、図6に示すように、「セキュリティ対策講座−ネットワーク社会のここ」という画像と、「が危ない」という画像を繋げて、「セキュリティ対策講座−ネットワーク社会のここが危ない」という被追記画像を得ることになる。この処理は、青色のアンダーラインul3−3とアンダーラインul3−4に対しても同様に行われ、図7に示すように、「総」という画像と、「務部田中宛」という画像とが繋げられて、「総務部田中宛」という被追記画像が得られることになる。
制御部11は、上記のようにして被追記画像を抽出すると、これら被追記画像を追記画像(アンダーライン)の色別に分類する(ステップS5)。具体的には、制御部11は、図8に示すように、黄色のアンダーラインに対応した「2004年3月29日」という画像と、赤色のアンダーラインに対応した「セキュリティ対策講座開催の件」という画像と、青色のアンダーラインに対応した「セキュリティ対策講座−ネットワーク社会のここが危ない」及び「総務部田中宛」という画像とを、それぞれ別々に区分した被追記画像データを生成する。そして、制御部11は、これらの被追記画像データが表す画像について文字認識処理を行う(ステップS6)。そして、制御部11は、文字認識の結果を、ステップS1で入力されている画像データのファイルと対応付けて不揮発性記憶部12に記憶する(ステップS7)。
この第1実施形態によれば、制御部11は、入力部13に入力された画像データが表す追記文書から追記画像を抽出し、その追記画像と所定の位置関係を有する画像領域を特定する。さらに、制御部11は、特定された画像領域に配置された被追記画像データを抽出して、これら被追記画像の文字認識結果を追記画像の色別に不揮発性記憶部12に記憶する。このように、制御部11が追記文書の画像から被追記画像を分離して記憶することによって、例えば被追記画像のみを対象とした検索処理や表示処理を行うことが可能となる。また、被追記画像を追記画像の色別に記憶するので、その色別に検索処理や表示処理を行うことも実現できる。例えば、追記者によって重要キーワードとして指定された被追記画像の中に「セキュリティ」という文字列が含まれている画像データを検索したい、といった要請にも応えることができる。
なお、第1実施形態は次のような変形が可能である。
追記画像を抽出する際に従う条件は、上記のように追記画像の色の別にもとづいて特定するという条件の他にも、様々な内容の条件を採用することができる。例えば、上述した特許文献1〜3に記載されているように、予め電子データ化して保存された文書原本と、その文書原本に追記がなされた追記文書とを比較することで追記部分を抽出するという方法を採用してもよい。
また、次のような方法もある。制御部11は、画像処理装置1に入力された画像データに含まれる各画素の色をいわゆる限定色化し(つまり幾つかの代表色に変換し)、これらの代表色のうち少なくともいずれか2色を基本色として特定する。ここでいう基本色とは、文書原本の内容を表すために用いられている色であり、例えば白色の記録紙に黒色の文字が形成されているような場合には、白と黒が基本色である。そして、制御部11は、代表色に変換された画像データを、基本色の画素からなる原本画像データと、その基本色以外の代表色の画素からなる追記画像データとに分離する。ここで、原本画像データは、基本色によって表される画像データであるから、文書原本の内容を表しているはずである。一方、基本色以外(黒と白以外)の代表色の画素によって構成された画像データは、追記画像を表しているはずである。このようにして、追記画像を抽出する方法もある。
第1実施形態で説明したアンダーラインのように被追記画像の下方に線を記入する追記の他にも、例えば、被追記部分の上方に線を記入するような追記もあり得る。このような追記のバリエーションを考慮すると、被追記画像が配置されている画像領域は、線分画像(アンダーライン)の長手方向に沿った画像領域であればよく、その線分画像の上方であるか下方であるかということについては、画像処理装置1の設計者または操作者が適宜選択して指定すればよい。また、画像処理装置1の制御部11によって特定された画像領域が、追記者によって意図された被追記画像を常に指し示すとは限らない。そこで、必要に応じて、制御部11は、自らが特定した画像領域を、操作者が操作部15を用いて指定した画像領域へと変更するようにしてもよい。
また、画像処理装置1自身が次のようにして画像領域の変更を行ってもよい。
例えば、アンダーラインが文章の行の上方や下方にはみ出てしまい、被追記画像の画像領域を特定すると、上の行と下の行とで飛び地になってしまっているようなことがある。このような場合、画像処理装置1はこのような不自然な画像領域を除去することが望ましい。具体的には、不揮発性記憶部12には、理想的な画像領域の形状(例えば単純な矩形など)を記憶しておく。そして、制御部11は、特定した画像領域の形状が不揮発性記憶部12に記憶されている形状に一致しない場合、特定した画像領域の形状を不揮発性記憶部12に記憶されている内容に従って理想的な形状に変更する。このようにすれば、画像処理装置1はこのような不自然な画像領域を除去することが可能となる。
また、第1実施形態では、制御部11は、文字認識を行った後に、その認識結果を不揮発性記憶部12に記憶させるようにしていたが、文字認識処理を行わずに、被追記画像データをそのまま記憶するようにしてもよい。被追記画像が常に文字画像であるとは限らないし、また、被追記画像を画像データのまま保持しておきたい場合もあるからである。また、制御部11は、文字認識結果のみを記憶するのではなく、文字認識結果と被追記画像データとを一緒にして不揮発性記憶部12に記憶するようにしてもよい。
第1実施形態では、「セキュリティ対策講座−ネットワーク社会のここが危ない」と「総務部田中宛」という文字列全体をキーワードとして指定された被追記画像として記憶していたが、これ以外にも、次のような方法もある。例えば、「セキュリティ」、「対策」、「講座」、「ネットワーク社会」、「危ない」、「総務」、「田中」等の様々なキーワードを不揮発性記憶部12に記憶しておき、制御部11は、ステップS6における文字認識の結果に含まれる文字列の中に、記憶していたキーワードと一致する文字列がある場合には、そのキーワードを不揮発性記憶部12に記憶するようにしてもよい。
また、第1実施形態では、追記を行う際のルールとして、文書のタイトルにふさわしい内容には赤色のペンで、文書の日付には黄色のペンで、文書中の重要なキーワードには青色のペンで、それぞれアンダーラインを施すということが事前に決められていた。このようなルールを事前に決めずに、次のようにして追記時にルールを策定するようにしてもよい。不揮発性記憶部12には、例えば「タイトル」、「件名」、「題名」・・・等のように文書のタイトルを表す属性名を記憶しておく。追記者は、図3に示すような文書原本中の「件名:セキュリティ対策講座開催の件」という文字列のうち、「件名」と、「セキュリティ対策講座開催の件」という文字列に対してそれぞれ同じ色で別々のアンダーラインを施す。制御部11は、抽出した被追記画像を追記画像の色別に分類し、「件名」、「セキュリティ対策講座開催の件」という文字画像を得る。そして、制御部11は、不揮発性記憶部12に記憶されている属性名に一致する被追記画像「件名」と、それ以外の被追記画像「セキュリティ対策講座開催の件」とを対応付けて記憶する。このようにすれば、追記者は、同一の色で、属性名(ここでは「件名」)と属性値(ここでは「セキュリティ対策講座開催の件」に追記しておくだけで、画像処理装置1に属性名と属性値を関連付けて記憶させることができる。よって、画像処理装置1にあらかじめ色と属性の対応関係を記憶させておく必要がなくなる。もちろん、タイトル以外にも様々な属性名を取り扱うことができる。
また、画像処理装置1はパーソナルコンピュータによって実現してもよいし、この画像処理装置1の機能を備えた複合機によって実現してもよい。また、画像処理装置1の機能の一部を画像読取装置2によって実現してもよい。また、画像処理装置1の制御部11は、抽出した被追記画像データを画像処理装置1に内蔵された不揮発性記憶部12に記憶するのではなく、フロッピー(登録商標)ディスクやその他の記録媒体に記憶するようにしてもよい。なお、画像処理プログラムPRGは、磁気ディスク、フロッピー(登録商標)ディスク、CD(Compact Disk),DVD(Digital Versatile Disk),RAM等の種々の記録媒体に記録した状態で提供することが可能である。
(2)第2実施形態
次に、本発明の第2実施形態について説明する。
ペンを用いたマーキングには、第1実施形態のようにアンダーラインによって行う方法の他に、ペン先が比較的太いマーカーペンで文字列の上をなぞって(上塗りして)行う方法も一般的に用いられている。以下に説明する第2実施形態では、このようなペンで上塗りされた文字列を被追記画像として抽出するための仕組みについて説明する。
図9は、第2実施形態に係る画像処理装置1aの構成を示す図である。この図9に示した画像処理装置1aの構成が図1に示した画像処理装置1の構成と異なる点は、追記のなされてない文書原本の内容を表す画像データが不揮発性記憶部12に予め記憶されているところと、画像処理プログラムPRGに記述された一部の手順が異なるというところである。この第2実施形態では、図10に例示しているように、追記画像c1(ペンによる上塗り部分c1)と、被追記画像c2(文字列の部分c2)とが重なっているので、被追記画像の画像領域を特定してその画像領域に配置された画像を抽出すると、被追記画像c2だけではなく、追記画像c1も抽出されてしまう。本実施形態では、被追記画像だけを分離することが目的であるから、これでは都合が悪い。
そこで、画像処理装置1aは、不揮発性記憶部12に文書原本の内容を表す画像データを予め記憶しておく。制御部11は、図2のステップS3において、追記画像と所定の位置関係にある画像領域(この場合は追記画像が存在する領域そのもの)を特定すると、ステップS4において、不揮発性記憶部12に記憶されている画像データから、上記画像領域に配置された画像を被追記画像として抽出する。制御部11は、このようにして被追記画像を抽出すると、それ以降は、第1実施形態と同様の処理を実行すればよい。この第2実施形態においては、第1実施形態で述べた変形例のほか、次のような変形も可能である。
例えば、制御部11は、限定色化した画像データから追記画像を除去し、追記画像が除去された状態の画像データから被追記画像を抽出するようにしてもよい。また、制御部11は、限定色化した画像データから追記画像を抽出するとともに、また入力された画像データに対して2値化処理(例えば彩度による2値化など)を施して得られた白画素および黒画素からなる画像データを生成する。そして、制御部11は、白画素及び黒画素からなる画像データから、被追記画像を抽出するようにしてもよい。
(3)第3実施形態
第3実施形態に係る画像処理装置は、追記文書からまず文字画像領域を抽出し、その文字画像領域の中から被追記画像を抽出するようになっている。この第3実施形態に係る画像処理装置の構成は、画像処理プログラムPRGに記述された手順の一部を除いて、図1に示した画像処理装置1と同じであるから、その詳細な説明は省略する。
図11は、第3実施形態に係る画像処理プログラムPRGに記述された手順を示すフローチャートである。図11において図2の内容と異なる点は、ステップS2とステップS3の間に、文字画像領域を抽出する処理(ステップS8)が挿入されているところである。このステップS8の処理によって、図3に示すような画像データから、図12に示すような文字画像領域のみを切り出すことになる。このように文字画像領域を切り出し、その文字画像領域の中から、追記画像と所定の位置関係にある画像領域を抽出するようにすれば、被追記画像が文字である場合には、第1実施形態よりも精度よくその被追記画像を抽出することが可能となる。例えば、画像データには、文字に限らず、図形やイメージなどのオブジェクトが含まれていることがあるが、追記者がこれらのオブジェクトを指定して追記するということはあまりなく、指定するオブジェクトは文字であることが圧倒的に多い。この第3実施形態によれば、文字画像領域を切り出してから被追記画像を抽出するので、追記者が追記時に意図していた被追記画像を抽出できる可能性が高いというわけである。
上記の第3実施形態は、第1実施形態と同様の変形が可能であるほか、次のような変形も可能である。
制御部11は、画像データに含まれる画像から文字画像領域を抽出した後、抽出した文字画像領域を整形し、整形した文字画像領域の中から被追記画像を抽出するようにしてもよい。具体的には、図13に示すように、被追記画像として「、原画像」という文字画像を抽出してから、この文字画像に含まれる各文字の大きさを所定のサイズに合わせたりするなどの整形処理を行い、その後に追記画像と所定の位置関係にある画像領域を特定して、被追記画像を抽出する。このようにすれば、より精度良く被追記画像を抽出することが可能となる。
(4)第4実施形態
例えばペンで文字列にアンダーラインを施す場合、追記者は意図していた文字以外の文字の下にアンダーラインを引いてしまうことがある。例えば図13に示す「と、原画像の」という文字列のうち、「原画像」という文字列にアンダーラインを施そうとしたところ、間違って「、原画像」という文字列の下にアンダーラインを引いてしまったような場合である。
第4実施形態では、上記のような追記ミスがあったとしても、追記者の意図に沿った被追記画像を抽出可能な仕組みを提供するものである。図14は、第4実施形態に係る画像処理プログラムPRGに記述された手順を示すフローチャートである。図14において図11の内容と異なる点は、ステップS6とステップS7の間に、文字列を補正する処理(ステップS9)が挿入されているところである。具体的には、制御部11は、文字認識を行った後に(ステップS6)、自然言語処理の各種解析手法(例えば構文解析、意味解析、文脈解析或いは形態素解析など)を用いて、言語学的に不自然な文字列を自然な文字列に補正する(ステップS9)。例えば図15に示すように、制御部11が被追記画像として「、原画像」という文字列の画像を抽出した場合、この文字列画像を文字認識して自然言語処理による解析を行うと、「、原画像」という文字列のうち、最初の「、」の存在によって不自然な文字列となっていると判断することができる。そこで、このような場合、制御部11は「、原画像」という文字列の先頭にある「、」を除去することによって文字列を補正する。さらに、制御部11は、この文字列「原画像」を翻訳して「original image」としてもよい。
自然言語処理による文字列の補正は、上記のように不自然な文字列の先頭の文字を除去する以外にも、例えば不自然な文字列の後尾の文字を除去するとか、その文字列の前後に位置する文字を当該文字列に付加するという方法で自然な文字列に補正するという方法もある。後者の方法の一例を挙げると、例えば、制御部11が被追記画像として「キュリティ対策講座開催の」という文字列の画像を抽出した場合、この文字列画像を文字認識して自然言語処理による解析を行うと、不自然な文字列となっていると判断することができる。そこで、このような場合、制御部11はこの文字列の前後の文字をその文字列に付加してみて、「セキュリティ対策講座開催の件」という、より自然な文字列へと補正する。
なお、この第4実施形態は、第1実施形態と同様の変形が可能である。
本発明の第1実施形態に係る画像処理装置の構成を示したブロック図である。 同実施形態に係る画像処理装置が実行する手順を示すフローチャートである。 同実施形態に係る画像処理装置によって処理される文書を例示した図である。 同実施形態に係る画像処理装置が行う画像処理の過程を説明する図である。 同実施形態に係る画像処理装置が行う画像処理の過程を説明する図である。 同実施形態に係る画像処理装置が行う画像処理の過程を説明する図である。 同実施形態に係る画像処理装置が行う画像処理の過程を説明する図である。 同実施形態に係る画像処理装置が行う画像処理の過程を説明する図である。 本発明の第2実施形態に係る画像処理装置の構成を示したブロック図である。 同実施形態における追記の一例を示す図である。 本発明の第3実施形態に係る画像処理装置が実行する手順を示すフローチャートである。 同実施形態に係る画像処理装置が行う画像処理の過程を説明する図である。 同実施形態に係る画像処理装置が行う画像処理の過程を説明する図である。 本発明の第4実施形態に係る画像処理装置が実行する手順を示すフローチャートである。 同実施形態に係る画像処理装置が行う画像処理の過程を説明する図である。
符号の説明
1、1a…画像処理装置、2…画像読取装置、11…制御部、111…CPU,112…ROM,113…RAM,12…不揮発性記憶部,13…入力部,14…表示部、15・・・操作部、PRG・・・画像処理プログラム。

Claims (2)

  1. 画像データが入力される入力手段と、
    前記入力手段によって入力された画像データが表す画像から、決められた条件に従って特定される追記画像を抽出する追記画像抽出手段と、
    前記追記画像抽出手段によって抽出された追記画像の色を識別する色識別手段と、
    文書において追記によって指定される部分の属性名を記憶した属性記憶手段と、
    前記入力手段によって入力された画像データと対応付けて、追記のなされていない文書原本の内容を表す原本画像データを記憶する記憶手段と、
    前記追記画像抽出手段によって抽出された追記画像と所定の位置関係を有する画像領域を特定する領域特定手段と、
    前記記憶手段によって記憶されている原本画像データが表す画像から、前記領域特定手段によって特定された画像領域に配置されている画像を被追記画像として抽出し、前記色識別手段を用いて、抽出した前記被追記画像を当該被追記画像と前記所定の位置関係を有する前記追記画像の色別に分類し、それぞれの色単位で、前記属性記憶手段によって記憶されている属性名に一致する被追記画像を表す被追記画像データと、それ以外の被追記画像を表す被追記画像データ対応付けて前記記憶手段に記憶させる被追記画像抽出手段と
    を備えた画像処理装置。
  2. コンピュータ
    入力された画像データが表す画像から、決められた条件に従って特定される追記画像を抽出する追記画像抽出手段と、
    前記追記画像抽出手段によって抽出された追記画像の色を識別する色識別手段と、
    文書において追記によって指定される部分の属性名を記憶した属性記憶手段と、
    入力された前記画像データと対応付けて、追記のなされていない文書原本の内容を表す原本画像データを記憶する記憶手段と、
    前記追記画像抽出手段によって抽出された追記画像と所定の位置関係を有する画像領域を特定する領域特定手段と、
    前記記憶手段によって記憶されている原本画像データが表す画像から、前記領域特定手段によって特定された画像領域に配置されている画像を被追記画像として抽出し、前記色識別手段を用いて、抽出した前記被追記画像を当該被追記画像と前記所定の位置関係を有する前記追記画像の色別に分類し、それぞれの色単位で、前記属性記憶手段によって記憶されている属性名に一致する被追記画像を表す被追記画像データと、それ以外の被追記画像を表す被追記画像データ対応付けて前記記憶手段に記憶させる被追記画像抽出手段
    として機能させるためのプログラム。
JP2004322462A 2004-11-05 2004-11-05 画像処理装置及びプログラム Expired - Fee Related JP4517821B2 (ja)

Priority Applications (1)

Application Number Priority Date Filing Date Title
JP2004322462A JP4517821B2 (ja) 2004-11-05 2004-11-05 画像処理装置及びプログラム

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
JP2004322462A JP4517821B2 (ja) 2004-11-05 2004-11-05 画像処理装置及びプログラム

Publications (2)

Publication Number Publication Date
JP2006134078A JP2006134078A (ja) 2006-05-25
JP4517821B2 true JP4517821B2 (ja) 2010-08-04

Family

ID=36727572

Family Applications (1)

Application Number Title Priority Date Filing Date
JP2004322462A Expired - Fee Related JP4517821B2 (ja) 2004-11-05 2004-11-05 画像処理装置及びプログラム

Country Status (1)

Country Link
JP (1) JP4517821B2 (ja)

Families Citing this family (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP6593303B2 (ja) * 2016-10-31 2019-10-23 京セラドキュメントソリューションズ株式会社 問題作成装置、問題作成方法、及び画像形成装置
JP2021043775A (ja) * 2019-09-12 2021-03-18 富士ゼロックス株式会社 情報処理装置及びプログラム

Citations (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JPH0962794A (ja) * 1995-08-24 1997-03-07 Fujitsu Ltd 文書認識装置
JP2000316082A (ja) * 1999-04-28 2000-11-14 Ricoh Co Ltd 画像抽出装置および該装置を備える画像処理装置並びにファイリング装置
JP2002298122A (ja) * 2001-03-30 2002-10-11 Oki Electric Ind Co Ltd 情報公開システム

Patent Citations (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JPH0962794A (ja) * 1995-08-24 1997-03-07 Fujitsu Ltd 文書認識装置
JP2000316082A (ja) * 1999-04-28 2000-11-14 Ricoh Co Ltd 画像抽出装置および該装置を備える画像処理装置並びにファイリング装置
JP2002298122A (ja) * 2001-03-30 2002-10-11 Oki Electric Ind Co Ltd 情報公開システム

Also Published As

Publication number Publication date
JP2006134078A (ja) 2006-05-25

Similar Documents

Publication Publication Date Title
US9514103B2 (en) Effective system and method for visual document comparison using localized two-dimensional visual fingerprints
JP4461769B2 (ja) 文書検索・閲覧手法及び文書検索・閲覧装置
EP2162859B1 (en) Image processing apparatus, image processing method, and computer program
JP4332356B2 (ja) 情報検索装置及び方法並びに制御プログラム
JP4711093B2 (ja) 画像処理装置及び画像処理プログラム
JP5121599B2 (ja) 画像処理装置、画像処理方法およびそのプログラムならびに記憶媒体
JPH11161681A (ja) 検索結果を表示するための装置および方法、並びに、検索結果を出力するために一連の命令を記録したコンピュータ読み取り可能な記録媒体
JPH04229364A (ja) 強調特性変更方法及びシステム
JP2008022159A (ja) 文書処理装置及び文書処理方法
US9049400B2 (en) Image processing apparatus, and image processing method and program
US20060045340A1 (en) Character recognition apparatus and character recognition method
US6535652B2 (en) Image retrieval apparatus and method, and computer-readable memory therefor
JP2008129793A (ja) 文書処理システムおよび装置および方法、およびプログラムを記録した記録媒体
JP4807618B2 (ja) 画像処理装置及び画像処理プログラム
JP4517818B2 (ja) 画像処理装置及びプログラム
JP2007310501A (ja) 情報処理装置、その制御方法、及びプログラム
JP4517821B2 (ja) 画像処理装置及びプログラム
JP3711636B2 (ja) 情報検索装置および方法
JP2006135664A (ja) 画像処理装置及びプログラム
JP2006301695A (ja) 文書処理装置およびプログラム
JP5673277B2 (ja) 画像処理装置およびプログラム
JP4518212B2 (ja) 画像処理装置及びプログラム
JP3142986B2 (ja) 文書情報検索装置
JP4517822B2 (ja) 画像処理装置及びプログラム
JP2021157627A (ja) 情報処理装置

Legal Events

Date Code Title Description
A621 Written request for application examination

Free format text: JAPANESE INTERMEDIATE CODE: A621

Effective date: 20071016

A131 Notification of reasons for refusal

Free format text: JAPANESE INTERMEDIATE CODE: A131

Effective date: 20090707

A521 Request for written amendment filed

Free format text: JAPANESE INTERMEDIATE CODE: A523

Effective date: 20090825

A131 Notification of reasons for refusal

Free format text: JAPANESE INTERMEDIATE CODE: A131

Effective date: 20091110

A521 Request for written amendment filed

Free format text: JAPANESE INTERMEDIATE CODE: A523

Effective date: 20100112

TRDD Decision of grant or rejection written
A01 Written decision to grant a patent or to grant a registration (utility model)

Free format text: JAPANESE INTERMEDIATE CODE: A01

Effective date: 20100427

A01 Written decision to grant a patent or to grant a registration (utility model)

Free format text: JAPANESE INTERMEDIATE CODE: A01

A61 First payment of annual fees (during grant procedure)

Free format text: JAPANESE INTERMEDIATE CODE: A61

Effective date: 20100510

FPAY Renewal fee payment (event date is renewal date of database)

Free format text: PAYMENT UNTIL: 20130528

Year of fee payment: 3

R150 Certificate of patent or registration of utility model

Ref document number: 4517821

Country of ref document: JP

Free format text: JAPANESE INTERMEDIATE CODE: R150

Free format text: JAPANESE INTERMEDIATE CODE: R150

FPAY Renewal fee payment (event date is renewal date of database)

Free format text: PAYMENT UNTIL: 20140528

Year of fee payment: 4

LAPS Cancellation because of no payment of annual fees