JPH0743718B2 - マルチメディア文書構造化方式 - Google Patents
マルチメディア文書構造化方式Info
- Publication number
- JPH0743718B2 JPH0743718B2 JP1264919A JP26491989A JPH0743718B2 JP H0743718 B2 JPH0743718 B2 JP H0743718B2 JP 1264919 A JP1264919 A JP 1264919A JP 26491989 A JP26491989 A JP 26491989A JP H0743718 B2 JPH0743718 B2 JP H0743718B2
- Authority
- JP
- Japan
- Prior art keywords
- document
- logical structure
- area
- multimedia document
- rectangular area
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Expired - Lifetime
Links
Landscapes
- Machine Translation (AREA)
- Document Processing Apparatus (AREA)
- Information Retrieval, Db Structures And Fs Structures Therefor (AREA)
Description
から文書の論理構造(章・節など)を抽出し、ファイル
に格納するのに好適なマルチメディア文書構造化方式に
関するものである。
テムが提案されている。
ンド・イッツ・キーワード・サーチ・オーバー・イメー
ジ・テキスツ」,リアオ′88,1988年、“Transmedia Ma
chine and Its Keyword Search over Image Texts",RIA
O′88,1988 このシステムにおけるキーワード検索の方式は、キーワ
ードの標準画像パターン対文書画像中の文字パターンの
マッチング処理によって実現されている。このため、情
報を既存の文字コードで表現しているワードプロセッサ
等、他のシステムで文書画像の持つ情報を用いることが
できなかった。
テキスト情報だけでなく、図や表などの非テキスト情報
も統一的に扱うことが要求されている。この文字テキス
ト情報,非テキスト情報が混在している文書をマルチメ
ディア文書と呼ぶ。マルチメディア文書には、複数のメ
ディアが存在し、各メディア(文字領域,写真領域,図
領域等)間に構造が存在する。この構造には、ページや
字間,行間などの空間的な割付けを決めるレイアウト構
造と章・節などの意味的な構造を決める論理構造があ
る。
形式には次のようなものがある。
ック」,アディソン・ウエスレー,1984年,“The TEXbo
ok",ADDISON WESLEY,1984) TEXなどの著名なフォーマッタでは、章・節といった文
書の論理構造を表現するためのコマンドを用意してい
る。このコマンドを用いることによって、章題を強調文
字にしたり、目次の生成を行なうことを可能としてい
る。
り、主に規格として存在する。前者のODA/ODIF(「オフ
ィス・ドキュメント・アーキテクチャ(オー・ディー・
エー)アンド・インターチェンジ・フォーマット」,ア
イエスオー8613,1988年,“Office Document Architect
ure(ODA)and Interchange Format",ISO8613,1988)
は、ISOのOSIの規格であり、後者のT.73(「レコメンデ
ーション・ティードット73・ドキュメント・インターフ
ェース・プロトルコ・フォー・ザ・テレマティック・サ
ービス」,シー・シー・アイ・ティー・ティー,1984
年,“Recomendation T.73Document Interface Protoco
l for the Telematic Services",CCITT,1984)はCCITT
の規格である。なお、ODA/ODIFはT.73との互換機能を含
んだ形で開発されている。これらのフォーマットの特徴
は、文書を論理構造と割り付け構造の両者で表現できる
点にある。
めに、論理構造が用いられている。すなわち、文書の内
容と文書の論理構造を入力すれば整形された文書が自動
的に得られる。
のであり、「書式」や「レイアウト構造」などと呼ばれ
る場合がある。以下では、「レイアウト情報構造」は
「割付け構造」と同様な意味を持つ用語とみなし、「割
付け構造」を用いることで統一する。「書式」について
は、ある文書クラスに対する共通な「割付け構造」を示
すものとみなすこととする。
理構造を推測することによって、文書の内容をより正確
に把握することができる。逆に言えば、文書の割付け構
造は、文書の論理をより効果的に判り易くするためにあ
る。また、前項で述べたように、計算機における文書の
論理構造の表現は、文書の整形のために用いられてい
る。文書の整形とは、割付け構造を文書に加えることに
他ならない。
造が密接な関係にあると考えられる。従って、文書の論
理構造を理解するための手段として、文書の割付け構造
を用いることが有用であると考えられる。
る文書画像から文書の構造を求める方式がいくつか提案
されている。
気通信情報学会春季全国大会論文集,D−477,昭和63年 ・西村他:「レイアウト構造による紙面識別に関する検
討」,電子通信学会技術報告PRU87−120,昭和62年 上記の2つの方式は、文字単位に抽出した複数の矩形領
域から、ボトムアップに割り付け構造を生成する方式で
ある。生成した構造を用いることによって、構造の類似
性判断を可能としている。しかし、意味構造に関する知
識を持たないために、抽出する文書の要素を判定して、
書誌事項を抽出することができない。
FDLと文書画像理解への応用」,電子通信学会技術報告P
RU86−31,昭和61年 書式定義言語を用いてトップダウンにタイトルの著者名
など書誌事項の抽出を行う方式であるが、テキスト中の
章・節など階層を持った構造を抽出してデータ構造に変
換することはできない。また、入力した文書画像が定義
された書式を満たさない場合には、リジェクトすること
を可能としている。論文の標題ページにおけるタイトル
など意味的な情報が常に文書の同じ場所に割り付けられ
る場合には有効であるが、割り付けられる位置や個数が
文書によって異なる章,節の抽出には対応できない。こ
の方式では、文書を分割しているだけであるため、文書
の要素を抽出することはできるが、各要素間の関連をデ
ータ構造として抽出することができなかった。
と対応している一階層しか持たない要素、たとえば書誌
事項や図表などの抽出は可能であったが、上記の章,
節,項など階層的な構造を構成する要素を抽出すること
はできなかった。
り、ページ中の領域の関係を抽出することは可能であっ
たが、複数ページにわたる領域の関係を抽出することは
できなかった。
の文書の構造要素を矩形領域として分離・抽出する。こ
こで抽出した矩形領域の絶対座標および相対座標から、
各矩形領域の位置関係を調べることによって、ボトムア
ップもしくはトップダウンに文書の割り付け構造を解析
する。その結果書誌事項を抽出したり、文書の割り付け
構造を用いた紙面の類似判断を行うことが可能となる。
しかし、従来の技術では、解析の結果得られた関係情報
をファイルなどの2次記憶装置に出力する手段を持って
いなかったため、検索する度毎に解析を行なわなければ
ならなかった。
次下の手段を有することを特徴とする。
める。文書の割り付け構造から文書の論理構造を推定す
るための手段を設ける。この手段を設けることによっ
て、文書画像から文書の論理構造を抽出することが可能
となる。
スに属する一文書の特定な論理構造を設ける。ここでい
う、文書クラスは、共通な割付け構造・論理構造を持つ
文書の集合を意味する。また、文書クラスの論理構造を
階層的に表現する手段を設け、かつ、前記の論理構造を
推定する手段において推定された論理構造の要素と前記
文書クラスの論理構造の要素に対応付ける手段を設け
る。以上の手段を用いることによって、入力文書に固有
の論理構造を生成することが可能となる。
け構造・論理構造、その両者の関係を記述しておくこと
で、スキャナ等で入力したマルチメディア文書から文書
に固有な割り付け構造及び論理構造を抽出することがで
きる。例えば、学会論文に関する文書の割付け構造、論
理構造、及び両者の関係には共通のフォーマットがあ
る。本発明では、この共通な部分を予め記述しておくこ
とによって、論文一つ一つの割付け構造と論理構造を抽
出することができる。
と画像、あるいは、この画像について文字認識を行った
結果の文字テキストを合わせてファイルに構造化して格
納する。格納した構造化マルチメディア文書のデータを
用いることで、論理構造情報を含めた文書の検索が可能
となる。例えば、章題のみを検索したり、目次を参照し
たりすることが可能となる。
実施例を示すブロック図である。第1図を用いて本発明
の方式について簡単に説明する。
スト,カラー写真,図・表が混在する文書のことを言
う。このカラーマルチメディア文書を、カラースキャナ
などの手段で計算機内の記憶装置に格納する場合、大き
な容量を必要とする。例えば、A4サイズの文書を8dot/m
mの解像度、RGB(赤・緑・青)各色256階調の色表現で
読み込んだ場合、1頁当たり12MBの容量が必要である。
領域抽出部110で、入力したマルチメディアカラー文書
画像を単一色で表現できる部分とそうでない部分に分離
する。単一色で表現できる部分とはテキスト部分や単一
色で表現された図・表部分であり、単一色で表現できな
い部分はカラー写真である。以下、単一色で表現できな
い部分のことをフルカラー領域と呼ぶ。カラー領域抽出
部110では、入力マルチメディア文書画像100中のフルカ
ラー領域の存在する領域の外接矩形領域を抽出する。同
様に単一色の領域も外接矩形領域として抽出する。カラ
ー領域抽出部110で抽出したフルカラー領域はカラー補
正部111を経た後、カラー画像圧縮部112でカラー画像の
圧縮を行う。
画像データを用いて、2値化処理120を行う。この処理
で、以降処理すべきデータを単一色のデータに絞り込
み、データ量を1/3にする。
誌事項抽出処理部130に送られる。書誌事項は、論文の
表題ページ中のタイトル、著者名,UDC分類番号,パージ
番号,柱などである。これらは書誌事項は、論文の種類
ごとに一定の書式で記載されている。この書式の情報を
論文の種類ごとに予め記述しておき、東野他:「矩形領
域の集合演算に基づく知識表現言語FDLと文書画像理解
への応用」信学技報PRU86−31,昭和61年で述べられてい
る方式を用いることで、書誌事項の抽出が可能となる。
行われる。インデックス情報抽出部141では、図表領域
抽出部140で抽出した図表領域からキーワードとなるべ
き情報を抽出し、線画認識部142で画像として表現され
ている情報をベクトルデータで表現する。
誌領域,図・表領域を除いた領域が本文の領域である。
処理150では本文の領域を抽出し、行単位に分割する。
インデックス情報領域,本文領域中の文字パターンにつ
いては文字認識処理を行なう。この処理では、文字パタ
ーンから文字を表現するための文字コードとフォント情
報を得る。処理152では文字認識処理部150で抽出した文
字を正しく認識したかどうかを判定するために辞書の照
合を行う。
1で得られた文字コード及びフォント情報を用いて論理
構造の要素の抽出を行なう。
を計算機内で表現するためのデータを生成する。処理11
2,処理142,処理152では、それぞれカラー画像,線画,
文字が分離・抽出され、各メディアに適した表現に変換
される。これらのばらばらにした文書内容を、論理構造
生成部で生成した構造によって、関係づける。
ら、マルチメディア構造化ファイル180で得られる。
構造を抽出するための原理について述べる。
造は章・節などの文書の意味的な構造のことであり、割
り付け構造は、紙面の印刷上の配置を表現したものであ
る。本節では、文書画像から文書の割り付け構造を用い
て、文書の論理構造を抽出する方法について述べる。
ンドブック),東京電機大学出版局,第22頁から第25
頁,昭和45年)では、文書(特に論文)の論理構造は、
(i)表題、(ii)著者名、(iii)抄録、(iv)目
次、(v)使用記号、特殊記号の一覧、(Vi)まえが
き、(vii)本論、(Viii)むすび、(ix)謝辞、
(x)引用文献、(xi)討論,回答から構成されるべき
であると述べられている。
る。さらに、マルチメディア文書となれば、図や表など
のテキストとは異なったメディアが含まれることにな
る。文献では、これらの論理構造が、文書を介しらコミ
ュニケーションを円滑に行なうために必要なものとされ
ている。
に、共通論理構造と特定論理構造の2つを用いている。
共通論理構造は、ある文書クラスにおける共通な論理構
造を表現したものである。ここで言う文書クラスとは、
実存する文書の上位概念を相当するものであり、例えば
「情報処理学会の論文誌に掲載されている論文の集合」
などが挙げられる。また、特定文書論理構造とは、ある
特定の文書の論理構造を表現したものである。
る論文の共通論理構造をODA/ODIFで表現したものであ
る。図中の210で示すSEQは順序関係を表わし、下部の構
成要素の組に順序関係があることを意味する。「論文」
200は、「UDC」210,「表題」220,「著者名」230,「要
約」240,「本文」250,「参考文献リスト」260という順
番で構成される。図中の211で示すREPは繰返し構造を表
わし、下部の構成要素の組が複数存在することを意味す
る・「本文」250は複数の「章」から構成される。ま
た、図中の212で示すSELは下部の構成要素のどれか一つ
を任意に選択するという意味を持つ。「図・表」2513は
任意存在する。
の論理構造を抽出するために必要な書式を説明する。
章題・節題で使用されている文字フォントは本文中で使
用されているものとは異なる。
る。ただし、参考文献リストを示すヘッダ“REFERENCE
S"がセンタリングされている。章題,節題は左寄せであ
る。
る。すると、各参考文献は段落に相当する。普通の章,
節における段落と異なる点は、各参考文献はハンギング
パラグラフであるということである。すなわち、各参考
文献は先頭の行が左詰めで残りの行は字下げされてい
る。前述した文書の論理構造に関する知識をもとに、マ
ルチメディア文書から章・節の抽出を行なう。マルチメ
ディア文書から章・節を抽出するために用いる方式を次
に示す。
領域に分離する。非テキスト領域には、図や表,写真な
どが存在する。この処理は、マルチメディア文書におけ
る論理構造抽出のための前処理部分に相当する。
素に分離する。たとえば、ページ中の本文部分の切り出
し、本文部分がマルチカラムであれば、カラム単位に分
離する。
素として論理構造を抽出する。これは、章・節に関連す
る論理構造は、前項で述べたとおり、行・単語レベルの
書式から得ることができるためである。
手段として、書式定義言語FDL(Form Definition Langu
age)を用いた。書式定義言語FDLは、文書の書式を定義
し、与えられた文書を書式の各構成要素に分解する機能
を持つ。
の図である。第3図では文書の行を矩形で示してある。
301はそれぞれ本文を示す行である。302は章題・節題を
示す行である。303,304,305,306はそれぞれ矩形領域の
Y座標を示している。前記したように、章題・節題領域
302は本文領域301と比べて、行間が広い。これは、303,
304の距離、305、306の距離が他の矩形領域よりも広い
ことを表現している。
を表現した例である。まず、前半の3行では、矩形領域
の間の空間について記述している。401のSPACEは矩形領
域間の空白について記述するための述語である。また、
?YO,?Y1は次に示す条件で得られた空白の位置を示す座
標を記憶するための変数である。402では、空白を調べ
る際にY座標方向の少ない方から調べることを指定して
いる。403では、空白の大きさが2.5mm以上であることを
指定している。この数値は、行間が行の高さの3倍であ
るという知識をもとに割り出した数値である。以上の手
続きで、章題・節題を表す矩形領域の上部の空白の座標
?Y0、および、?Y1の座標が得られる。次の4行では、章
題・節題の矩形領域の下部の空白を取り出す。最初の3
行は、401,402,403で説明したものと同じ意味を持つ。4
04で示す部分で、空白を探索する領域を狭めている。こ
れは、再び、前の3行で取り出した空白と同じ部分を取
り出さないためである。
文書構造化方式を採用したファイリング装置の機能ブロ
ック図である。装置全体の構成と動作を説明する。
込むための画像走査部501、原画像や構造化した文書の
テキスト・部分画像を表示するためのディスプレイ50
3、読み込んだ文書画像をページ単位で記憶するため頁
イメージ記憶部502、文書の構造化処理を行なうために
必要な書式情報を格納する書式データ格納部504、構造
化した文書を蓄積する文書格納部505、読み込んだ文書
画像の構造解析をおこなうための文書構造解析部506、
文字パターン化されたデジタル画像から文字を認識する
ための文字認識部507、および、膨張・収縮・まびきな
どの画像処理を行なうための画像処理部508から構成さ
れる。
を画像走査部501にセットする。画像走査部501で書類51
0を光学的に走査して画像データとして入力し、頁イメ
ージ記憶部502に格納する。画像データ110は画像の濃淡
画像の濃淡データに対してある閾値を定めて2値化した
り2値画像データからなる。次に、頁イメージ記憶部50
3に格納された入力画像データを構造化するため、入力
文書の書式を記述したデータを書式データ格納部504か
ら読み込む。文書構造解析部506は、書式データ記憶部5
04から読出された書式データをもとに、頁イメージ記憶
部502に格納されている文書画像データの構造解析を行
なう。なお、この文書構造解析部506では、書式データ
記憶部504に格納されている書式データに応じて、適
宜、文字認識部507、および画像処理部508を呼び出す。
て説明する。第6図は本発明の方式を用いた場合のPAD
図(Program Analysis Diaglam)である。本方式におけ
るマルチメディア文書画像の構造解析では、まず、文字
列領域の抽出600を行なう。
出601を行なう。文字列領域の抽出では、図・表の非文
字列領域やページ番号・柱部分を除いた領域を、本文文
字列本文領域とする。この文字列本文領域に対して、カ
ラム単位の領域分離602、行単位の領域分離603、単語単
位の領域分離604を行なう。これらの領域分離は、前も
って定義してある書式情報をもとにして行なう。このと
きに用いる書式情報はカラム間の空白領域の大きさ,行
間スペース,単語間スペースの値である。
理について説明する。テキスト・非テキストの分離で
は、図や表の領域と比較した場合に文字の領域は行方向
に広がる傾向を持つという知識を用いる。例えば、横書
きの文書であれば、横方向は黒画素が詰まっているが、
縦方向は行間ごとに白画素の領域が表れる。しかし、図
や表は、領域のほぼ前面にわたって画素が分布してい
る。この知識を利用し、前処理に画像処理の手法を適用
する。
る。論理構造の抽出処理は、カラムの領域について行単
位に処理を行なう。まず、処理対象行として一番上の行
を選択する処理701を行なう。次に、論理構造の処理対
象とする行の両側の行間を求める処理702を行なう。論
理構造の抽出処理を行なう前に行単位の外接矩形領域の
座標値を求めておけば、画像処理などの複雑な処理を行
なわずとも効率的に行間を調べることができる。次に、
ステップ703で、両側の行間が本文中の行間よりも広い
場合には、この行は章題・節題であるとみなす。
理とは、本文を章単位、または節単位に分離する処理の
ことである。
構造化処理では、前述の処理703で章題・節題であると
判定された処理対象行に章・節であることを示すインデ
スクを付加する処理801を行なう。また、次に、章題・
節題の前の行をインデクスが章・節の終わりであること
を示すインデクスを付加する処理80を行なう。以上の処
理を用いることによって、章・節単位の分離をすること
ができる。前述の2つの処理801,802で付加したインデ
クスによって、章・節の領域を取り出すことができる。
この領域についてパラグラフの分離処理を行なう。
げ)の情報を用いる。字下げは、パラグラフに対する一
般的な書式情報である。
ある。パラグラフの分離処理では、まず、ステップ901
で、処理対象行を章・節として分離した領域の最初の行
とする。処理対象行は、次の一連の処理が終了したら、
次の行に切り替える。
理対象行の左側の空間を調べる。この左側の空間が字下
げの情報となる。判定処理903では、もし、左側の空間
が章として抽出した領域よりも下がっているかどうかの
判定を行う。もし、ここで字下げが行われていることが
確認されれば、判定処理904を行う。判定処理904では、
この処理対象行が章・節での第1行目であれば、処理対
象行を第1パラグラフの先頭行とし、そうでなければ、
処理対象行の前の行までを第1パラグラフとするインデ
ックスを付加する。第1パラグラフ目の第1行目は、イ
ンデンテーションが行われないことがあるために、この
処理を行う必要がある。
て処理を行なったら、次のカラム(右のカラム)に対し
ても同様な処理を行なう。このとき、章・節を示すため
のインデックスやフラグは、前のカラムの状態のまま保
持する。
文、雑誌など一つの文書が複数ページにまたがっていて
も論理構造の抽出が可能である。
いて文字認識の処理も行なう。これは、行間といった大
局的な書式情報だけでは章題・節題を抽出できない場合
があるためである。このような場合に対処する方法につ
いて第10図を用いて説明する。第10図は、行間・字間と
いった大局的な書式情報だけでは論理構造を分離抽出で
きない文書の例である。第10図(a)に示す矩形領域10
01はパラグラフの最後行を示す領域、矩形領域1002はタ
イトル行を示す領域、矩形領域1003は次の章の最初のパ
ラグラフの先頭行を示す領域、矩形領域1004は矩形領域
1003で示した行に続く行を示す領域である。第10図
(b)に示す矩形領域1012はパラグラフの最後行を示す
領域、矩形領域1011は矩形領域1012で示した行の前の行
を示す領域、矩形領域1013は矩形領域1011,1012で示し
た行と同じ章に含まれる次のパラグラフの先頭行を示す
領域、矩形領域1014は矩形領域1013を示した行に続く行
を示す領域である。第10図(a)の矩形領域1001の文字
列は章題を示しており、第10図(b)の矩形領域1002は
パラグラフの最後を示している。しかし、各矩形領域の
幾何学的な位置関係は、図10(a),図10(b)ともに
同じである。このため、行間・字間といった幾何学的な
情報を用いて、章題・節題を抽出することは難しい。一
方、章題・節題に用いる文字フォントは、本文中の文字
フォントよりも大きったり、あるいは、種類が違ってい
たりする。文字のフォント情報を用いて前述の構造解析
処理を行えば、より強力な抽出能力を持たせることが可
能となる。
章や節などの領域を抽出することが可能となる。これを
ファイルに格納するためには、取り出した領域の階層関
係を取り出すことが必要である。この関係を取り出し、
木構造データとしてファイルに格納する処理は論理構造
生成部で行われる。
図(a),(b)のように2ページにまたがっている。
ここで、1101は章、1102はその章に含まれる章題・同様
に、1103は章1101に含まれるパラグラフを示している。
また、1104は章題、1105,1107,1108はパラグラフを示
し、1106,1109はそれぞれ、図を示している。従来の技
術では、これらの領域を分割するために例えば公知のFD
Lという文法手段を用いて、 (defform章ブロック ・・・・・・ (form章題ブロック(...)) ・・・・・・ (form章題ブロック(...)) ・・・・・・) として、章を章題及びパラグラフの包含関係を前述すれ
ば、割付け構造と論理構造の両方の関係を記述したこと
になる。しかし、章題1104とパラグラフ1105,1107,1108
はページにまたがっているためにFDLでは章として記述
することができない。なぜならば、FDLでは文書の物理
的な配置だけしか記述できないからである。従って、ペ
ージやカラムなどの物理的に離れた領域にまたがった論
理構造の要素を連結する必要がある。
ト部分,段,章題,章,節という順番に領域を分割して
いく。ここで、論理構造として必要な部分は、章,節で
あり、パージやカラムは割り付け構造の要素である。こ
のときに抽出した領域を図11に示す。
ある。この図では、「本文1201は章1202、参考文献1206
から構成される」、「章1202は章題1203、節1204、説明
文付図1206から構成される」、さらに「説明文付図1206
は図1207と説明文1208から構成される」という構造の階
層的な上下関係を表している。この構造の各要素は、文
書に固有の概念ではなく、「章」「節」など複数の文書
に共通な概念を示している。本実施例では、この共通論
理構造を表現する言語を設定し、この言語を用いて共通
論理構造関係表への登録を容易にした。例えば、第12図
の共通論理構造は次のように表現できる。
の要素の関係を取り出すことができなかった。
論理構造抽出のための手続きを記述する場合よりも簡単
に記述することが可能である。
示したものである。この共通論理構造表は、共通論理構
造の親子関係を示した表であり、第12図のリンク1212か
ら1217までと第13図の表の部分1212から1217が、それぞ
れ対応している。例えば、第12図の本文と章の関係を示
すリンク1211は、第13図では、「本文が親であり、章が
子となる」ことを示している。
定論理構造関係表1401、特定論理構造数カウント表140
2、共通・特定論理構造関係表1403、オブジェクト管理
表1404、の各表に登録される。特定論理構造関係表1401
には、入力した文書に特定の文書構造が親と子の関係で
格納される。特定論理構造数カウント表1402には、共通
論理構造とその共通論理構造に対応する特定論理構造の
数を格納する。この特定論理構造数のカウント表1402
の、カウント数は特定論理構造の名前を作成するときに
用いる。また、共通・特定論理構造関係表1403は、スタ
ックになっており、抽出した特定論理構造の要素名称を
対応する共通論理構造の所に格納する。オブジェクト管
理表1404には特定論理構造の要素名称と抽出した画像を
識別するための名前と矩形領域を表現するために必要な
2点の座標を示している。
のステップに従って埋めていく。
ンス生成処理を行う。インスタンスの生成処理は、共通
論理構造の要素名に番号を付けして、新しい名前を生成
し、共通・特定論理構造関係表に名前を登録することで
ある。例えば、第13図の例では、共通論理構造要素名の
最上位が「本体」であることがわかるので、特定論理構
造要素名として「本体#1」を付加する。次に、共通・
特定論理構造関係表の親の欄に「本体」を子の欄に生成
した名前である「本体#1」を登録する。
があったフォームに対して、次の処理を行なう。
合には、指定した共通論理構造要素名に対応するインス
タンスを新しく生成する。次に、指定した共通論理構造
要素名を共通論理構造表から、この共通論理構造要素名
の親の名前を表引きする。この親の最新の子供を共通・
特定論理構造関係表から探し、対応する特定論理構造要
素と新しく生成したインスタンスを特定論理構造要素関
係表に、それぞれ、親と子の関係で登録する。例えば、
指定された論理構造要素名が「節」であった場合には、
親は「章」であることが共通論理構造関係表からわか
る。第13図の共通・特定論理構造関係表1301から、この
章の最新インスタンスが「章#1」であることがわか
り、特定論理構造関係表1401には、「章#1」と「節#
2」がそれぞれ、親子関係として登録される。
わかった場合には、新しくインスタンスを生成せずに、
抽出した領域を指定した論理構造要素を最新のインスタ
ンスの領域として新しくオブジェクト管理表に登録す
る。
は、共通論理構造に対応する特定論理構造の要素が登録
され、特定論理構造関係表には、各文書の包含関係が登
録される。また、オブジェクト管理表1403には、分割し
た領域とそれに対応する特定論理構造要素名1403がそれ
ぞれ登録される。
図、第2図は本発明の方式で対象とする入力文書の論理
構造をODA/ODIFで表現した図、第3図は文書の章題・節
題に関連する書式を示す図、第4図は書式定義言語FDL
で章題・節題に対する書式を表現した図、第5図は本発
明の方式を用いたシステムを示す機能ブロック図、第6
図は本発明の方式を説明するためのPAD図、第7図は論
理構造の抽出を説明するためのPAD図、第8図は章・節
の構造化処理を説明するためのPAD図、第9図はパラグ
ラフの分離処理を説明するためのPAD図、第10図は幾何
学的な情報を用いただけでは論理構造を抽出できない文
書を示す図、第11図は論理構造生成部で論理構造を生成
する文書の一例、第12図は共通論理構造の一例を示す
図、第13図は共通論理構造の親子関係を表形式で示した
図、第14図は特定論理構造と共通・特定論理構造関係を
生成するために必要な表形式を示す図。 110…カラー領域抽出部、111…カラー補正部、112…カ
ラー画像圧縮部、120…2値化処理部、130…書誌事項抽
出部、140…図表領域抽出部、141…インデックス情報抽
出部、142…線画認識部、150…本文領域抽出部、151…
文字認識部、152…単語照合部、160…論理構造抽出部、
170…論理構造生成部。
Claims (7)
- 【請求項1】マルチメディア文書から文書に固有な割付
け構造及び論理構造を抽出するマルチメディア文書構造
化方式において、 前記マルチメディア文書をデジタル画像として入力する
入力手段、 前記入力された文書に共通する論理構造を階層的に記述
する第1の文法によって書かれた表現を記憶する第1の
文法表現記憶手段、 抽出した章・節等の論理構造を親子関係として抽出し、
抽出した情報を表形式でファイルに格納する手段、 前記入力された文書を複数個の矩形領域の集合として記
述する第2の文法によって書かれた表現を記憶する第2
の文法表現記憶手段、 前記第2の文法の中に矩形領域の絶対的あるいは相対的
な大きさ及び矩形領域間の絶対的あるいは相対的な関係
を表わす数量を変数として含むと共に、前記矩形領域の
探索方法の記述を含み、前記矩形領域の中から前記第2
の文法に従って書かれた表現で指定される矩形領域を探
索する手段、及び 探索結果から定まる値を前記表現の中の変数に代入し、
未解決の同変数の解析の結果に基づいて領域の分割を行
う手段を有することを特徴とするマルチメディア文書構
造化方式。 - 【請求項2】特許請求範囲第1項記載のマルチメディア
文書構造化方式において、 前記第2の文法の中に前記第1の文法表現手段で表現さ
れた論理構造の内の要素の一つと前記第2の文法表現手
段において分割した領域とを対応づけて一つの論理構造
にまとめる手段を有することを特徴とするマルチメディ
ア文書構造化方式。 - 【請求項3】特許請求範囲第1項記載のマルチメディア
文書構造化方式において、 前記ファイルに格納する手段は、さらに、 文書中のテキスト、画像、図表などの同質なデータに対
して、それぞれのデータに適した特徴抽出手段を有し、
前記抽出手段の結果は矩形領域と属性情報として抽出す
ることを特徴とするマルチメディア文書構造化方式。 - 【請求項4】特許請求範囲第1項記載のマルチメディア
文書構造化方式において、 前記入力ディジタル画像から矩形領域を抽出する矩形領
域抽出手段、 前記入力文書の行間・時間・段組み等のレイアウト情報
を前記矩形領域抽出手段で得られた矩形領域の相対座標
値で表現する手段、 前記レイアウト情報を用いて、前記入力文書から章・節
等の論理構造を推定する手段を有することを特徴とする
マルチメディア文書構造化方式。 - 【請求項5】特許請求範囲第1項記載のマルチメディア
文書構造化方式において、 前記入力デジタル画像から、前記論理構造推定手段を用
いて得られた論理構造を表現する領域を矩形領域として
抽出する矩形領域抽出手段を有することを特徴とするマ
ルチメディア文書構造化方式。 - 【請求項6】特許請求範囲第5項記載のマルチメディア
文書構造化方式において、 前記矩形領域抽出手段は、さらに、 前記入力デジタル画像がカラーで表現されている場合に
は、前記入力デジタル画像を単一色の領域と複数色の混
在した領域とに分離する手段を有することを特徴とする
マルチメディア文書構造化方式。 - 【請求項7】特許請求範囲第5項記載のマルチメディア
文書構造化方式において、 前記矩形領域抽出手段は、さらに、 前記入力デジタル画像が単一色の濃淡画像で表現されて
いる場合には、前記入力デジタル画像から濃淡の度合い
が明瞭でない領域を矩形領域として抽出する手段を有す
ることを特徴とするマルチメディア文書構造化方式。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
JP1264919A JPH0743718B2 (ja) | 1989-10-13 | 1989-10-13 | マルチメディア文書構造化方式 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
JP1264919A JPH0743718B2 (ja) | 1989-10-13 | 1989-10-13 | マルチメディア文書構造化方式 |
Publications (2)
Publication Number | Publication Date |
---|---|
JPH03127169A JPH03127169A (ja) | 1991-05-30 |
JPH0743718B2 true JPH0743718B2 (ja) | 1995-05-15 |
Family
ID=17410025
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
JP1264919A Expired - Lifetime JPH0743718B2 (ja) | 1989-10-13 | 1989-10-13 | マルチメディア文書構造化方式 |
Country Status (1)
Country | Link |
---|---|
JP (1) | JPH0743718B2 (ja) |
Families Citing this family (4)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
US6002798A (en) * | 1993-01-19 | 1999-12-14 | Canon Kabushiki Kaisha | Method and apparatus for creating, indexing and viewing abstracted documents |
JP5036430B2 (ja) * | 2007-07-10 | 2012-09-26 | キヤノン株式会社 | 画像処理装置及びその制御方法 |
JP7082333B2 (ja) * | 2017-11-30 | 2022-06-08 | 学校法人酪農学園 | 設問自動生成プログラム及び設問自動生成装置 |
CN113011274B (zh) * | 2021-02-24 | 2024-04-09 | 南京三百云信息科技有限公司 | 图像识别方法、装置、电子设备及存储介质 |
-
1989
- 1989-10-13 JP JP1264919A patent/JPH0743718B2/ja not_active Expired - Lifetime
Also Published As
Publication number | Publication date |
---|---|
JPH03127169A (ja) | 1991-05-30 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
EP0854433B1 (en) | Caption and photo extraction from scanned document images | |
US5848184A (en) | Document page analyzer and method | |
EP0539106B1 (en) | Electronic information delivery system | |
JP3940491B2 (ja) | 文書処理装置および文書処理方法 | |
US5774580A (en) | Document image processing method and system having function of determining body text region reading order | |
JP4343213B2 (ja) | 文書処理装置および文書処理方法 | |
US6353840B2 (en) | User-defined search template for extracting information from documents | |
RU2437152C2 (ru) | Устройство обработки изображений, способ и компьютерная программа обработки изображений | |
EP0434930B1 (en) | Editing text in an image | |
US5373566A (en) | Neural network-based diacritical marker recognition system and method | |
US8428356B2 (en) | Image processing device and image processing method for generating electronic document with a table line determination portion | |
JPH05307638A (ja) | ビットマップ・イメージ・ドキュメントのコード化データへの変換方法 | |
JPH10162003A (ja) | Htmlファイル生成方法及びその装置及びレイアウトデータ生成方法及びその装置及びコンピュータ実行可能な処理プログラム | |
JP4785655B2 (ja) | 文書処理装置及び文書処理方法 | |
JPH0668301A (ja) | 文字認識方法及び装置 | |
JP2890482B2 (ja) | 文書画像再配置ファイリング装置 | |
CN102194123A (zh) | 表格模板定义方法和装置 | |
JP3178483B2 (ja) | 文書処理装置 | |
CN110688825A (zh) | 一种版式文档中的含线表格信息提取方法 | |
CN115828874A (zh) | 基于图像识别技术的行业表格数字化处理方法 | |
JP2008108114A (ja) | 文書処理装置および文書処理方法 | |
JPH0821057B2 (ja) | 文書画像解析方式 | |
Saitoh et al. | Document image segmentation and layout analysis | |
JPH0743718B2 (ja) | マルチメディア文書構造化方式 | |
JPH09319747A (ja) | 文書画像の構造化方法 |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
S111 | Request for change of ownership or part of ownership |
Free format text: JAPANESE INTERMEDIATE CODE: R313115 |
|
R350 | Written notification of registration of transfer |
Free format text: JAPANESE INTERMEDIATE CODE: R350 |
|
S111 | Request for change of ownership or part of ownership |
Free format text: JAPANESE INTERMEDIATE CODE: R313115 |
|
S531 | Written request for registration of change of domicile |
Free format text: JAPANESE INTERMEDIATE CODE: R313531 |
|
R350 | Written notification of registration of transfer |
Free format text: JAPANESE INTERMEDIATE CODE: R350 |
|
R250 | Receipt of annual fees |
Free format text: JAPANESE INTERMEDIATE CODE: R250 |
|
FPAY | Renewal fee payment (event date is renewal date of database) |
Free format text: PAYMENT UNTIL: 20080515 Year of fee payment: 13 |
|
FPAY | Renewal fee payment (event date is renewal date of database) |
Free format text: PAYMENT UNTIL: 20090515 Year of fee payment: 14 |
|
FPAY | Renewal fee payment (event date is renewal date of database) |
Free format text: PAYMENT UNTIL: 20100515 Year of fee payment: 15 |
|
EXPY | Cancellation because of completion of term | ||
FPAY | Renewal fee payment (event date is renewal date of database) |
Free format text: PAYMENT UNTIL: 20100515 Year of fee payment: 15 |