JPH09179937A - 文書画像のセンテンスの境界の自動識別方法 - Google Patents
文書画像のセンテンスの境界の自動識別方法Info
- Publication number
- JPH09179937A JPH09179937A JP8320505A JP32050596A JPH09179937A JP H09179937 A JPH09179937 A JP H09179937A JP 8320505 A JP8320505 A JP 8320505A JP 32050596 A JP32050596 A JP 32050596A JP H09179937 A JPH09179937 A JP H09179937A
- Authority
- JP
- Japan
- Prior art keywords
- processor
- connected component
- sentence
- word
- selected connected
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Withdrawn
Links
Classifications
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06V—IMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
- G06V30/00—Character recognition; Recognising digital ink; Document-oriented image-based pattern recognition
- G06V30/10—Character recognition
- G06V30/14—Image acquisition
- G06V30/146—Aligning or centring of the image pick-up or image-field
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06V—IMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
- G06V30/00—Character recognition; Recognising digital ink; Document-oriented image-based pattern recognition
- G06V30/10—Character recognition
Landscapes
- Engineering & Computer Science (AREA)
- Computer Vision & Pattern Recognition (AREA)
- Physics & Mathematics (AREA)
- General Physics & Mathematics (AREA)
- Multimedia (AREA)
- Theoretical Computer Science (AREA)
- Character Input (AREA)
- Character Discrimination (AREA)
Abstract
(57)【要約】
【課題】 OCRを実行せずに文書画像中のセンテンス
の境界を自動的に識別すること。 【解決手段】 この識別方法は、1行のテキストの複数
個の連結成分から1個の連結成分を選択することから始
まる。次に、選択された連結成分の形に基づき、この連
結成分がピリオドを表しているか否か判断される。選択
された連結成分がドット形であれば、選択された連結成
分がコロンを表しているか否か判断される。最後に、選
択された連結成分がドット形であるが、コロンの一部で
はない場合、選択された連結成分はセンテンスの境界と
して標識される。
の境界を自動的に識別すること。 【解決手段】 この識別方法は、1行のテキストの複数
個の連結成分から1個の連結成分を選択することから始
まる。次に、選択された連結成分の形に基づき、この連
結成分がピリオドを表しているか否か判断される。選択
された連結成分がドット形であれば、選択された連結成
分がコロンを表しているか否か判断される。最後に、選
択された連結成分がドット形であるが、コロンの一部で
はない場合、選択された連結成分はセンテンスの境界と
して標識される。
Description
【0001】
【課題を解決するための手段】OCRを実行せずに文書
画像中のセンテンスの境界を自動的に識別する技術につ
いて述べる。この識別方法は、1行のテキストの複数個
の連結成分から1個の連結成分を選択することから始ま
る。次に、選択された連結成分の形に基づき、この連結
成分がピリオドを表しているか否か判断される。選択さ
れた連結成分がドット形であれば、選択された連結成分
がコロンを表しているか否か判断される。最後に、選択
された連結成分がドット形であるが、コロンの一部では
ない場合、選択された連結成分はセンテンスの境界とし
て標識される。
画像中のセンテンスの境界を自動的に識別する技術につ
いて述べる。この識別方法は、1行のテキストの複数個
の連結成分から1個の連結成分を選択することから始ま
る。次に、選択された連結成分の形に基づき、この連結
成分がピリオドを表しているか否か判断される。選択さ
れた連結成分がドット形であれば、選択された連結成分
がコロンを表しているか否か判断される。最後に、選択
された連結成分がドット形であるが、コロンの一部では
ない場合、選択された連結成分はセンテンスの境界とし
て標識される。
【0002】
【発明実施の形態】図1に、命令138を実行すること
によって本方法を実施するコンピュータシステム10の
ブロック図を示す。命令138は、コンピュータシステ
ム10のオペレーションを変更し、最初に光学式文字認
識を行わずに、画像として提示されている文書中のセン
テンスの境界を識別できるようにする。センテンスの境
界を標識することにより、コンピュータシステム10は
命令138により、最初OCRを実行せずに画像から文
書の主題総括を作成させることが可能になる。
によって本方法を実施するコンピュータシステム10の
ブロック図を示す。命令138は、コンピュータシステ
ム10のオペレーションを変更し、最初に光学式文字認
識を行わずに、画像として提示されている文書中のセン
テンスの境界を識別できるようにする。センテンスの境
界を標識することにより、コンピュータシステム10は
命令138により、最初OCRを実行せずに画像から文
書の主題総括を作成させることが可能になる。
【0003】コンピュータシステム10について考えて
みよう。コンピュータシステム10は、コンピュータユ
ーザの目に見えるように情報を表示するモニタ12を備
えている。コンピュータシステム10は、プリンタ13
を介してコンピュータユーザに情報を出力したりもす
る。キーボード14により、コンピュータユーザは打鍵
によってコンピュータシステム10にデータを入力する
ことができる。コンピュータユーザは、マウス16を動
かすことによって、モニタ12に表示されたポインタを
移動することができる。コンピュータユーザは、スタイ
ラスまたはペンを利用して電子タブレット18上に書く
ことによって、コンピュータシステム10に情報を入力
することもできる。あるいは、コンピュータユーザは、
ディスクをフロッピーディスクドライブ22に挿入する
ことによって、フロッピーディスクのような磁気媒体に
記憶されたデータを入力することができる。また、コン
ピュータユーザは、スキャナ24により、文書26の画
像のハードコピーの電子バイナリ表現を入力することが
できる。
みよう。コンピュータシステム10は、コンピュータユ
ーザの目に見えるように情報を表示するモニタ12を備
えている。コンピュータシステム10は、プリンタ13
を介してコンピュータユーザに情報を出力したりもす
る。キーボード14により、コンピュータユーザは打鍵
によってコンピュータシステム10にデータを入力する
ことができる。コンピュータユーザは、マウス16を動
かすことによって、モニタ12に表示されたポインタを
移動することができる。コンピュータユーザは、スタイ
ラスまたはペンを利用して電子タブレット18上に書く
ことによって、コンピュータシステム10に情報を入力
することもできる。あるいは、コンピュータユーザは、
ディスクをフロッピーディスクドライブ22に挿入する
ことによって、フロッピーディスクのような磁気媒体に
記憶されたデータを入力することができる。また、コン
ピュータユーザは、スキャナ24により、文書26の画
像のハードコピーの電子バイナリ表現を入力することが
できる。
【0004】プロセッサ11は、メモリ28またはディ
スクドライブ22内フロッピーディスク上に電子的に記
憶された命令を実行することによって、各ユーザコマン
ドに応じた適切な動作を決定し、これを実行する。
スクドライブ22内フロッピーディスク上に電子的に記
憶された命令を実行することによって、各ユーザコマン
ドに応じた適切な動作を決定し、これを実行する。
【0005】図2に、最初にOCRを実行せずに文書画
像から文書の主題総括を作成する命令29を、フロー図
の形で示す。
像から文書の主題総括を作成する命令29を、フロー図
の形で示す。
【0006】プロセッサ11は、スキャナ24からの文
書のページ画像と主題総括要求を受信すると、命令29
の実行を開始する。最初に、プロセッサ11は、文書画
像のテキストが単一配置方向に向いていると仮定し、そ
の後、ブルームバーグ(Bloomberg)、コペッ
ク(Kopec)、デイサリ(Dasari)共著の
「文書画像の傾斜と配置方向の測定(Measurin
g documentimage skew and
orientation)」SPIE Conf.24
22, Document Recognition
II, SanJose, CA, Feb. 6ー
7, 1995, pp.278−292に記述されて
いるような既知の方法を利用して、その配置方向を判断
する。プロセッサ11が有意な配置方向を見出さない場
合は、文書画像には恐らくそのままで分析できるか、ス
キップできる程度の極く僅かなテキストしか含まれてい
ない。その後、プロセッサ11は、文書画像の傾斜を取
り除くことによってステップ30の第2タスクを実施す
る。これにより、後のセグメンテーション分析が単純化
され、後続のベースライン分析が向上される。プロセッ
サ11は、「文書画像の傾斜と配置方向」(同誌)で論
じられている技術を利用して約0.1°以内の傾斜角度
を求め、その後、2つまたは3つの直交するシアーを利
用して文書画像を回転する。
書のページ画像と主題総括要求を受信すると、命令29
の実行を開始する。最初に、プロセッサ11は、文書画
像のテキストが単一配置方向に向いていると仮定し、そ
の後、ブルームバーグ(Bloomberg)、コペッ
ク(Kopec)、デイサリ(Dasari)共著の
「文書画像の傾斜と配置方向の測定(Measurin
g documentimage skew and
orientation)」SPIE Conf.24
22, Document Recognition
II, SanJose, CA, Feb. 6ー
7, 1995, pp.278−292に記述されて
いるような既知の方法を利用して、その配置方向を判断
する。プロセッサ11が有意な配置方向を見出さない場
合は、文書画像には恐らくそのままで分析できるか、ス
キップできる程度の極く僅かなテキストしか含まれてい
ない。その後、プロセッサ11は、文書画像の傾斜を取
り除くことによってステップ30の第2タスクを実施す
る。これにより、後のセグメンテーション分析が単純化
され、後続のベースライン分析が向上される。プロセッ
サ11は、「文書画像の傾斜と配置方向」(同誌)で論
じられている技術を利用して約0.1°以内の傾斜角度
を求め、その後、2つまたは3つの直交するシアーを利
用して文書画像を回転する。
【0007】ステップ32にて、プロセッサ11は、文
書画像内のテキストブロックを識別することによって、
文書画像の下降型分割を開始する。
書画像内のテキストブロックを識別することによって、
文書画像の下降型分割を開始する。
【0008】中間調ならびに「画像」部分を取り除く好
適な方法は、D.S.ブルームバーグ(Bloombe
rg)の「多重レゾリューション文書画像の形態解析
(Multiresolution morpholo
gical analysisof document
images)」SPIE Conf. 1818,
Visual Communications an
d Image Processing ’92, B
oston, MA, Nov.18−20,199
2, pp.648−662に記述されている。第1
に、プロセッサ11は、文書画像の中間調部分のみの画
素を含むシード画像を形成する。第2に、プロセッサ1
1は、全部の画素をカバーするマスク画像を形成する。
マスクの連結性は、中間調シードと、中間調領域をカバ
ーする他の画素とをつなぐのに十分なものである。第
3、即ち最後に、プロセッサ11は、シードからマスク
に、バイナリ復元、即ち充填、を施し、それによって中
間調「マスク」を作る。次にプロセッサ11は、このマ
スクを利用して文書画像から「画像」部分を除去し、結
果文書画像のテキストとラインアートのみを残す。
適な方法は、D.S.ブルームバーグ(Bloombe
rg)の「多重レゾリューション文書画像の形態解析
(Multiresolution morpholo
gical analysisof document
images)」SPIE Conf. 1818,
Visual Communications an
d Image Processing ’92, B
oston, MA, Nov.18−20,199
2, pp.648−662に記述されている。第1
に、プロセッサ11は、文書画像の中間調部分のみの画
素を含むシード画像を形成する。第2に、プロセッサ1
1は、全部の画素をカバーするマスク画像を形成する。
マスクの連結性は、中間調シードと、中間調領域をカバ
ーする他の画素とをつなぐのに十分なものである。第
3、即ち最後に、プロセッサ11は、シードからマスク
に、バイナリ復元、即ち充填、を施し、それによって中
間調「マスク」を作る。次にプロセッサ11は、このマ
スクを利用して文書画像から「画像」部分を除去し、結
果文書画像のテキストとラインアートのみを残す。
【0009】次にプロセッサ11は、ステップ32で、
隣接コラムのテキストブロックを結合しないように注意
しながら、テキストブロックの識別に戻る。プロセッサ
11は、約75画素/インチ(ppi)の解像度でその
ように行う。プロセッサ11は、文書画像の縦方向の白
色スペースのマスクをマスキングすることから始める。
このマスクは、文書画像を反転させてから、大きな垂直
構造化素子を用いてそれをオープンすることによって作
られる。次いで、プロセッサ11は、適度な大きさに構
成された水平ならびに垂直構造化素子を利用してテキス
トブロックをクローズして、それぞれのテキストブロッ
クから単一連結成分を作る。その後、プロセッサ11
は、白色スペースマスクを除き、隣接するテキストブロ
ックが確実に分離されるようにする。
隣接コラムのテキストブロックを結合しないように注意
しながら、テキストブロックの識別に戻る。プロセッサ
11は、約75画素/インチ(ppi)の解像度でその
ように行う。プロセッサ11は、文書画像の縦方向の白
色スペースのマスクをマスキングすることから始める。
このマスクは、文書画像を反転させてから、大きな垂直
構造化素子を用いてそれをオープンすることによって作
られる。次いで、プロセッサ11は、適度な大きさに構
成された水平ならびに垂直構造化素子を利用してテキス
トブロックをクローズして、それぞれのテキストブロッ
クから単一連結成分を作る。その後、プロセッサ11
は、白色スペースマスクを除き、隣接するテキストブロ
ックが確実に分離されるようにする。
【0010】プロセッサ11は、ステップ32の最後の
タスクに進み、直前のタスクによって生成された、テキ
ストブロックを表さない連結成分を取り除く。プロセッ
サ11は、これらの成分を除くために2種類のテクニッ
クを利用する。水平ルールのような幾つかの成分は、高
さがごく低いことによって識別されうる。更に精巧な直
線グラフィクスを伴う成分の識別には別のテクニックを
要する。これらの成分は、テキストブロック中に特徴的
に存在する内部テキストライン構造の欠如によって識別
されうる。プロセッサ11は、ブロックの基礎をなす画
像中のキャラクタを水平方向に連結し、存在するであろ
うテキストラインを一体化することによって、有効なテ
キストブロックとこれらの成分を区別する。次にプロセ
ッサ11は、結果として得られた「テキストライン」成
分を統計的に分析して、その平均幅と平均高、あるい
は、メジアン幅とメジアン高を求める。プロセッサ11
は、高さ−幅の比が十分に大きな幅を備え、且つテキス
トブロックの推定幅の何分の一かに相当する平均幅を備
えた「テキストライン」成分を有するブロックを、テキ
ストブロックとして標識する。
タスクに進み、直前のタスクによって生成された、テキ
ストブロックを表さない連結成分を取り除く。プロセッ
サ11は、これらの成分を除くために2種類のテクニッ
クを利用する。水平ルールのような幾つかの成分は、高
さがごく低いことによって識別されうる。更に精巧な直
線グラフィクスを伴う成分の識別には別のテクニックを
要する。これらの成分は、テキストブロック中に特徴的
に存在する内部テキストライン構造の欠如によって識別
されうる。プロセッサ11は、ブロックの基礎をなす画
像中のキャラクタを水平方向に連結し、存在するであろ
うテキストラインを一体化することによって、有効なテ
キストブロックとこれらの成分を区別する。次にプロセ
ッサ11は、結果として得られた「テキストライン」成
分を統計的に分析して、その平均幅と平均高、あるい
は、メジアン幅とメジアン高を求める。プロセッサ11
は、高さ−幅の比が十分に大きな幅を備え、且つテキス
トブロックの推定幅の何分の一かに相当する平均幅を備
えた「テキストライン」成分を有するブロックを、テキ
ストブロックとして標識する。
【0011】ステップ34で、プロセッサ11はステッ
プ32で識別されたテキストブロック内のテキスト本体
を識別する。プロセッサ11が総括のために主題センテ
ンスを後から選択するのは、テキスト本体からである。
プロセッサ11は、メジアンフォントサイズに基づいて
テキストブロックを2クラスに分ける。これらのクラス
は、(1)テキストのフォントサイズが文書のメジアン
サイズに近いテキストブロックを表す適合と、(2)テ
キストのフォントサイズが文書のメジアンサイズからか
なり大きいまたは小さいテキストブロックを表す不適
合、である。
プ32で識別されたテキストブロック内のテキスト本体
を識別する。プロセッサ11が総括のために主題センテ
ンスを後から選択するのは、テキスト本体からである。
プロセッサ11は、メジアンフォントサイズに基づいて
テキストブロックを2クラスに分ける。これらのクラス
は、(1)テキストのフォントサイズが文書のメジアン
サイズに近いテキストブロックを表す適合と、(2)テ
キストのフォントサイズが文書のメジアンサイズからか
なり大きいまたは小さいテキストブロックを表す不適
合、である。
【0012】プロセッサ11は、ステップ36で適合テ
キストブロックを選択し、それらの読取り順序を判断す
る。プロセッサ11は、文書画像に含まれている配置情
報だけに基づいてこの判断を行う。
キストブロックを選択し、それらの読取り順序を判断す
る。プロセッサ11は、文書画像に含まれている配置情
報だけに基づいてこの判断を行う。
【0013】プロセッサ11は、垂直座標が互いに重な
り合うこれらブロックセットを識別することから下降型
分解を開始する。いい換えれば、プロセッサ11は、関
連適合テキストブロックのセットを識別することから始
める。プロセッサ11は、適合テキストブロックの長方
形境界ボックスの水平投影プロファイルを利用して、そ
のように行う。次に、これらの投影プロファイルは、ラ
イン上のランレングスのセットとみなされ、それぞれの
ランレングスに関連付けられた適合テキストブロックセ
ットは、その投影プロファイルから容易に判断される。
プロセッサ11は、読取りに際して上から下に読まれる
ようにそれらのセットを配列する。
り合うこれらブロックセットを識別することから下降型
分解を開始する。いい換えれば、プロセッサ11は、関
連適合テキストブロックのセットを識別することから始
める。プロセッサ11は、適合テキストブロックの長方
形境界ボックスの水平投影プロファイルを利用して、そ
のように行う。次に、これらの投影プロファイルは、ラ
イン上のランレングスのセットとみなされ、それぞれの
ランレングスに関連付けられた適合テキストブロックセ
ットは、その投影プロファイルから容易に判断される。
プロセッサ11は、読取りに際して上から下に読まれる
ようにそれらのセットを配列する。
【0014】次に、プロセッサ11は、それぞれのセッ
ト内のブロックの読取り順序を判断する。プロセッサ1
1は、適合テキストブロック内の一対のブロックを選択
することから始める。通常、2ブロックが互いに重なり
合うことはない。これらのケースの場合、2ブロック間
に次の3種類の可能関係が存在する: 1. 一方のブロックが他方のブロックの上にあり、2
ブロック間に水平方向の重なりが存在する。 2. 一方のブロックが他方のブロックの左側にあり、
2ブロック間に垂直方向の重なりが存在する。 3. 2ブロック間に垂直方向の重なりも、水平方向の
重なりも存在しない。
ト内のブロックの読取り順序を判断する。プロセッサ1
1は、適合テキストブロック内の一対のブロックを選択
することから始める。通常、2ブロックが互いに重なり
合うことはない。これらのケースの場合、2ブロック間
に次の3種類の可能関係が存在する: 1. 一方のブロックが他方のブロックの上にあり、2
ブロック間に水平方向の重なりが存在する。 2. 一方のブロックが他方のブロックの左側にあり、
2ブロック間に垂直方向の重なりが存在する。 3. 2ブロック間に垂直方向の重なりも、水平方向の
重なりも存在しない。
【0015】プロセッサ11は、1対のテキストブロッ
クが前述のいずれの関係に適合しているかに基づいて、
この1対のテキストブロックの関連読取り順序を判断す
る。この1対のブロックが互いに重なっている場合、プ
ロセッサ11は、ブロックに合った次の2種類の可能関
係に基づいて、別々の順序付け規則を利用する: 1. 一方の重なりブロックの左上端が、他方のブロッ
クの左上端の上方にある場合、高い方のブロックは、低
い方のブロックより先に読取られる。 2. 一方の重なりブロックの左上端が、他方のブロッ
クの左上端と同じ高さにあって、他方のブロックの左側
にある場合、最も左側のブロックが、その右側のブロッ
クより前に読取られる。
クが前述のいずれの関係に適合しているかに基づいて、
この1対のテキストブロックの関連読取り順序を判断す
る。この1対のブロックが互いに重なっている場合、プ
ロセッサ11は、ブロックに合った次の2種類の可能関
係に基づいて、別々の順序付け規則を利用する: 1. 一方の重なりブロックの左上端が、他方のブロッ
クの左上端の上方にある場合、高い方のブロックは、低
い方のブロックより先に読取られる。 2. 一方の重なりブロックの左上端が、他方のブロッ
クの左上端と同じ高さにあって、他方のブロックの左側
にある場合、最も左側のブロックが、その右側のブロッ
クより前に読取られる。
【0016】これらの順序付け規則、ならびに、非重な
りブロックについて論じられる順序付け規則は変わるこ
とは無い。
りブロックについて論じられる順序付け規則は変わるこ
とは無い。
【0017】プロセッサ11は、ステップ38にて、適
合テキストブロックをテキストラインとワードに分割す
る。プロセッサ11は、フォントサイズを探したのと同
様なオペレーションを利用して、テキストラインの場所
を突きとめる。それぞれの適合テキストブロック内で、
プロセッサ11は、各テキストラインを1個の連結成分
に結合するのに十分な大きさの水平構造化素子による形
態クロージングオペレーションを利用する。プロセッサ
11は、サイズに基づいて、真のテキストラインの連結
成分と、テキストのラインを表さない連結成分とを区別
し、更に考察を行って、偽のテキストラインを取り除
く。その後、真のテキストラインの連結成分の境界ボッ
クスを見つける。
合テキストブロックをテキストラインとワードに分割す
る。プロセッサ11は、フォントサイズを探したのと同
様なオペレーションを利用して、テキストラインの場所
を突きとめる。それぞれの適合テキストブロック内で、
プロセッサ11は、各テキストラインを1個の連結成分
に結合するのに十分な大きさの水平構造化素子による形
態クロージングオペレーションを利用する。プロセッサ
11は、サイズに基づいて、真のテキストラインの連結
成分と、テキストのラインを表さない連結成分とを区別
し、更に考察を行って、偽のテキストラインを取り除
く。その後、真のテキストラインの連結成分の境界ボッ
クスを見つける。
【0018】次に、プロセッサ11は、各テキストライ
ン内で連結成分の境界ボックスを見つけることによっ
て、これらのテキストライン内のワードを見つけようと
する。プロセッサ11は最初に小さな水平クロージング
を利用して、各ワードのほとんどの文字を連結する。次
に、プロセッサ11は、見つかったばかりの連結成分の
ワード境界ボックスを探す。プロセッサ11は、これら
のワード境界ボックスを、各テキストライン内で水平に
リストにソート処理する。プロセッサ11は、直前のオ
ペレーションによって連結されなかったワードのほとん
どを、ワード境界ボックスに関する併合オペレーション
を実施することによって連結する。そのようにする際、
プロセッサ11は最大水平間隙をスケーリングして、テ
キストラインの高さに近くする。ステップ38で利用さ
れた方法の結果、句読点は常にワードに連結されないの
で、プロセッサ11は、これらの小成分を配列ワードリ
ストから除去する。
ン内で連結成分の境界ボックスを見つけることによっ
て、これらのテキストライン内のワードを見つけようと
する。プロセッサ11は最初に小さな水平クロージング
を利用して、各ワードのほとんどの文字を連結する。次
に、プロセッサ11は、見つかったばかりの連結成分の
ワード境界ボックスを探す。プロセッサ11は、これら
のワード境界ボックスを、各テキストライン内で水平に
リストにソート処理する。プロセッサ11は、直前のオ
ペレーションによって連結されなかったワードのほとん
どを、ワード境界ボックスに関する併合オペレーション
を実施することによって連結する。そのようにする際、
プロセッサ11は最大水平間隙をスケーリングして、テ
キストラインの高さに近くする。ステップ38で利用さ
れた方法の結果、句読点は常にワードに連結されないの
で、プロセッサ11は、これらの小成分を配列ワードリ
ストから除去する。
【0019】かくしてプロセッサ11は、ステップ40
にて、OCRを利用することなく同一ワードにどのワー
ド画像が対応するかを識別することに注意を向けること
が出来る。プロセッサ11は、十分に同じような形をし
た全部のワードを、同一ワード等価クラスに置く。そう
する際、プロセッサ11は、厳格過ぎもせず、寛大過ぎ
もしない整合パラメータを利用しなくてはならない。
にて、OCRを利用することなく同一ワードにどのワー
ド画像が対応するかを識別することに注意を向けること
が出来る。プロセッサ11は、十分に同じような形をし
た全部のワードを、同一ワード等価クラスに置く。そう
する際、プロセッサ11は、厳格過ぎもせず、寛大過ぎ
もしない整合パラメータを利用しなくてはならない。
【0020】プロセッサ11は、ブラー・ヒットミス変
換(BHMT)またはハウスドルフ変換の改変を利用し
て、ワード等価クラスを識別する。ステップ40にて、
プロセッサ11は、選択された変換の閉込め制約条件を
改変して、遠く離れたいくつかの画素が、画像のフォア
グラウンドに含まれるようにする。
換(BHMT)またはハウスドルフ変換の改変を利用し
て、ワード等価クラスを識別する。ステップ40にて、
プロセッサ11は、選択された変換の閉込め制約条件を
改変して、遠く離れたいくつかの画素が、画像のフォア
グラウンドに含まれるようにする。
【0021】プロセッサ11は、テンプレートとワード
画像境界ボックスの間のアライメントの一例を検証する
に過ぎない。この一例は、テンプレートとワード画像境
界ボックスの左上隅の一致である。
画像境界ボックスの間のアライメントの一例を検証する
に過ぎない。この一例は、テンプレートとワード画像境
界ボックスの左上隅の一致である。
【0022】プロセッサ11は、単一パスを利用して、
ワード等価クラスを特定する。プロセッサ11は、適合
ブロックの各ワード画像を分析して、既存のワード等価
クラスの見本と最も整合するものを見つける。プロセッ
サ11が整合するものを見出すと、そのワード画像は、
ワード等価クラスの例示リストに追加される。整合する
ものが見出されない場合、プロセッサ11は、ワード画
像を利用して見本として新しいワード等価クラスを形成
する。
ワード等価クラスを特定する。プロセッサ11は、適合
ブロックの各ワード画像を分析して、既存のワード等価
クラスの見本と最も整合するものを見つける。プロセッ
サ11が整合するものを見出すと、そのワード画像は、
ワード等価クラスの例示リストに追加される。整合する
ものが見出されない場合、プロセッサ11は、ワード画
像を利用して見本として新しいワード等価クラスを形成
する。
【0023】プロセッサ11は、ワード等価リストと、
後で有用となる多数の情報とを関連付けることが好まし
い。これらの情報には、それぞれのワード等価クラスに
ついて、ワード等価クラスが出現する各センテンスのセ
ンテンスI.D.、画素単位によるワード幅、ならび
に、センテンスの最初の短くないワードとしてワードが
出現する回数が含まれる。あるワードが、何らかの短い
冠詞または前置詞を取り除くために考慮の末に選択され
た所定値よりも大きな幅を備えたセンテンス内の最初の
ワードであった場合には、そのワードは、センテンスの
最初の短くないワードと見なされる。
後で有用となる多数の情報とを関連付けることが好まし
い。これらの情報には、それぞれのワード等価クラスに
ついて、ワード等価クラスが出現する各センテンスのセ
ンテンスI.D.、画素単位によるワード幅、ならび
に、センテンスの最初の短くないワードとしてワードが
出現する回数が含まれる。あるワードが、何らかの短い
冠詞または前置詞を取り除くために考慮の末に選択され
た所定値よりも大きな幅を備えたセンテンス内の最初の
ワードであった場合には、そのワードは、センテンスの
最初の短くないワードと見なされる。
【0024】ステップ42で、プロセッサ11は、適合
テキストのブロック内のセンテンス境界を識別ならびに
標識して、後から主題センテンスを選択できるようにす
る。プロセッサ11は、テキストラインのベースライン
近くのピリオドを探してから、これらのピリオドの最も
近くにある関連ワードを見つけることによってセンテン
スを識別する。6〜18ポイントの通常タイプのサイズ
の場合、約300ppiという解像度で連結成分分析を
行わなくてはならない。センテンスを終結するピリオド
を識別するために、プロセッサ11は、ベースライン付
近の胡椒をふったようなノイズ、コンマやセミコロン、
省略記号のドット、コロンの下側のドット、センテンス
内の略語を終わらせるドットから、ピリオドを区別しな
くてはならない。また、プロセッサ11は、感嘆符や疑
問符の一部を形成するドットを識別しなくてはならな
い。プロセッサ11は、センテンスを終わらせるピリオ
ドの後にくる引用符を識別しなくてはならない。プロセ
ッサ11は、測定距離に基づいて、ピリオドと、それ以
外のタイプの句読点とを区別する。従って、文書画像を
走査する解像度とは無関係な、検証対象フォントサイズ
に基づいた比較基準を利用することが重要である。
テキストのブロック内のセンテンス境界を識別ならびに
標識して、後から主題センテンスを選択できるようにす
る。プロセッサ11は、テキストラインのベースライン
近くのピリオドを探してから、これらのピリオドの最も
近くにある関連ワードを見つけることによってセンテン
スを識別する。6〜18ポイントの通常タイプのサイズ
の場合、約300ppiという解像度で連結成分分析を
行わなくてはならない。センテンスを終結するピリオド
を識別するために、プロセッサ11は、ベースライン付
近の胡椒をふったようなノイズ、コンマやセミコロン、
省略記号のドット、コロンの下側のドット、センテンス
内の略語を終わらせるドットから、ピリオドを区別しな
くてはならない。また、プロセッサ11は、感嘆符や疑
問符の一部を形成するドットを識別しなくてはならな
い。プロセッサ11は、センテンスを終わらせるピリオ
ドの後にくる引用符を識別しなくてはならない。プロセ
ッサ11は、測定距離に基づいて、ピリオドと、それ以
外のタイプの句読点とを区別する。従って、文書画像を
走査する解像度とは無関係な、検証対象フォントサイズ
に基づいた比較基準を利用することが重要である。
【0025】ステップ44で、プロセッサ11は直前の
画像処理で生成された情報を得て、主題総括を抜き出す
ためのセンテンス識別を開始するばかりとなる。プロセ
ッサ11は、ドロップワードを識別することから始め
る。「ドロップワード」は、主題の意味を伝えない自然
言語テキストにごく頻繁に出現するワードのことであ
る。ほとんどの代名詞、前置詞、限定詞、ならびにbe
動詞が、ドロップワードに分類される。
画像処理で生成された情報を得て、主題総括を抜き出す
ためのセンテンス識別を開始するばかりとなる。プロセ
ッサ11は、ドロップワードを識別することから始め
る。「ドロップワード」は、主題の意味を伝えない自然
言語テキストにごく頻繁に出現するワードのことであ
る。ほとんどの代名詞、前置詞、限定詞、ならびにbe
動詞が、ドロップワードに分類される。
【0026】ある単語がドロップワードである可能性を
判断する場合、多くの要因を考慮しなくてはならない。
ドロップワードは文書中にごく頻繁に出現する傾向があ
るが、論題内容を示す他の多くの単語についてもそうで
ある。従って、ドロップワードを識別するのに、頻繁性
だけを利用することが出来ない。多くのドロップワード
は短い傾向があるが、論題内容を示す多くの単語もそう
である。従って、ドロップワードを識別するのに、ワー
ド等価クラスの幅だけでは不十分である。多くのドロッ
プワードは、センテンスの最初に出現する傾向がある
が、他の論題内容ワードもそうである。そこでプロセッ
サ11は、画素単位によるワード幅、文書内でのその出
現回数、センテンス内の最初の「幅広」ワードとして出
現する回数などの要因を組み合わせたものに基づいて、
或る単語がドロップワードではないという可能性を判断
する。
判断する場合、多くの要因を考慮しなくてはならない。
ドロップワードは文書中にごく頻繁に出現する傾向があ
るが、論題内容を示す他の多くの単語についてもそうで
ある。従って、ドロップワードを識別するのに、頻繁性
だけを利用することが出来ない。多くのドロップワード
は短い傾向があるが、論題内容を示す多くの単語もそう
である。従って、ドロップワードを識別するのに、ワー
ド等価クラスの幅だけでは不十分である。多くのドロッ
プワードは、センテンスの最初に出現する傾向がある
が、他の論題内容ワードもそうである。そこでプロセッ
サ11は、画素単位によるワード幅、文書内でのその出
現回数、センテンス内の最初の「幅広」ワードとして出
現する回数などの要因を組み合わせたものに基づいて、
或る単語がドロップワードではないという可能性を判断
する。
【0027】次にプロセッサ11は、ワード等価クラス
のリストから、最もドロップワードでありそうなワード
等価クラスを排除する。どのくらい多くの等価クラスを
ドロップワードとして排除するかは、処理される文書の
長さによって異なる。
のリストから、最もドロップワードでありそうなワード
等価クラスを排除する。どのくらい多くの等価クラスを
ドロップワードとして排除するかは、処理される文書の
長さによって異なる。
【0028】プロセッサ11は、ステップ44で作られ
た縮小ワードリストを利用して主題ワードを識別する。
プロセッサ11は残存ワードのうち最も頻繁に出現する
ものを文書内容を示すもののように見なすので、そのよ
うなワードを主題ワードと呼ぶ。次にプロセッサ11
は、主題ワードを利用して、適合テキストのブロック中
の各センテンスのスコアを付ける。各センテンスのスコ
アを付けた後、プロセッサ11は、最もスコアの高いセ
ンテンスを選択して抜き出す。
た縮小ワードリストを利用して主題ワードを識別する。
プロセッサ11は残存ワードのうち最も頻繁に出現する
ものを文書内容を示すもののように見なすので、そのよ
うなワードを主題ワードと呼ぶ。次にプロセッサ11
は、主題ワードを利用して、適合テキストのブロック中
の各センテンスのスコアを付ける。各センテンスのスコ
アを付けた後、プロセッサ11は、最もスコアの高いセ
ンテンスを選択して抜き出す。
【0029】抜出し対象のセンテンスが選択されると、
プロセッサ11は、それらを、総括しようとする文書に
出現する順序でコンピュータユーザに提示する。これら
のセンテンスは、モニタ12、プリンタ13で提示され
る場合もあるし、半導体メモリ28またはディスクドラ
イブ22内のフロッピーディスクのいずれかメモリに記
憶される場合もある。
プロセッサ11は、それらを、総括しようとする文書に
出現する順序でコンピュータユーザに提示する。これら
のセンテンスは、モニタ12、プリンタ13で提示され
る場合もあるし、半導体メモリ28またはディスクドラ
イブ22内のフロッピーディスクのいずれかメモリに記
憶される場合もある。
【0030】図3に、テキスト本体のブロックを識別す
る命令34をフロー図で示す。プロセッサ11は、ステ
ップ70にて、優勢なフォントサイズを判断することに
よってテキスト本体を識別する作業を開始する。テキス
トの各ブロックのメジアンライン高は、先に求められて
いるので、プロセッサ11は、この判断を比較的容易に
行うことができる。プロセッサ11は、これらのブロッ
クのメジアンライン高を利用して、文書全体のメジアン
ライン高を見つける。
る命令34をフロー図で示す。プロセッサ11は、ステ
ップ70にて、優勢なフォントサイズを判断することに
よってテキスト本体を識別する作業を開始する。テキス
トの各ブロックのメジアンライン高は、先に求められて
いるので、プロセッサ11は、この判断を比較的容易に
行うことができる。プロセッサ11は、これらのブロッ
クのメジアンライン高を利用して、文書全体のメジアン
ライン高を見つける。
【0031】プロセッサ11は、ステップ72にて、優
勢フォントサイズのテキストブロックを識別し、これに
フラグを付ける。優勢フォントサイズと異なるフォント
サイズが僅かながら存在するテキストのブロックは、適
合テキストブロックとしてフラグが付けられる。
勢フォントサイズのテキストブロックを識別し、これに
フラグを付ける。優勢フォントサイズと異なるフォント
サイズが僅かながら存在するテキストのブロックは、適
合テキストブロックとしてフラグが付けられる。
【0032】図4、図5に、適合テキストブロックの読
取り順序を判断する命令36をフロー図の形で示す。プ
ロセッサ11は、ブロック間の垂直座標の重なりに基づ
いて適合テキストブロックセットを識別することから始
める。プロセッサ11は、適合テキストブロックの境界
ボックスの水平投影プロファイルを見つけることによっ
て、この判定を行うことができる。それぞれの投影プロ
ファイルは、ラインに関するランレングスセットと見な
され、それにより、プロセッサ11は垂直座標が重なる
ブロックを容易に識別できる。これがなされると、プロ
セッサ11は、上から下に適合テキストブロックのセッ
トを配列する。
取り順序を判断する命令36をフロー図の形で示す。プ
ロセッサ11は、ブロック間の垂直座標の重なりに基づ
いて適合テキストブロックセットを識別することから始
める。プロセッサ11は、適合テキストブロックの境界
ボックスの水平投影プロファイルを見つけることによっ
て、この判定を行うことができる。それぞれの投影プロ
ファイルは、ラインに関するランレングスセットと見な
され、それにより、プロセッサ11は垂直座標が重なる
ブロックを容易に識別できる。これがなされると、プロ
セッサ11は、上から下に適合テキストブロックのセッ
トを配列する。
【0033】プロセッサ11は、ステップ84にて、適
合テキストブロックの各セット内のブロックの読取り順
序を判断するプロセスを開始する。最初にプロセッサ1
1は、処理するブロックセットを選択する。次に、ステ
ップ86にて、プロセッサ11は、選択ブロックセット
内の一対のブロックを選択する。
合テキストブロックの各セット内のブロックの読取り順
序を判断するプロセスを開始する。最初にプロセッサ1
1は、処理するブロックセットを選択する。次に、ステ
ップ86にて、プロセッサ11は、選択ブロックセット
内の一対のブロックを選択する。
【0034】プロセッサ11は、選択された一対のテキ
ストブロックが互いに交わるか否かを判断することによ
り、ステップ88にて利用する順序付け規則が2セット
の順序付け規則のいずれか判断する。プロセッサ11
は、選択された一対のテキストブロックの境界ボックス
の座標を利用してこの判断を行う。もし、2つのブロッ
クが互いに交わらなければ、プロセッサ11は、ステッ
プ96にて、このペアのうち、最初に読取るべきブロッ
クは左上隅が最も高いところにあるブロックであること
を指示する。
ストブロックが互いに交わるか否かを判断することによ
り、ステップ88にて利用する順序付け規則が2セット
の順序付け規則のいずれか判断する。プロセッサ11
は、選択された一対のテキストブロックの境界ボックス
の座標を利用してこの判断を行う。もし、2つのブロッ
クが互いに交わらなければ、プロセッサ11は、ステッ
プ96にて、このペアのうち、最初に読取るべきブロッ
クは左上隅が最も高いところにあるブロックであること
を指示する。
【0035】選択された一対のブロックが互いに交わら
ない場合、プロセッサ11はステップ88からステップ
90に分岐する。ステップ90にて、プロセッサ11は
選択された一対のテキストブロックの相互の、ページ画
像上の相対位置を求める作業を開始する。プロセッサ1
1は、ページ上で、この対の一方のブロックが、他方の
上方にあるか否かを判断することから始める。もし一方
のブロックが他方の上方にある場合、プロセッサ11は
ステップ90を出て、ステップ92に進む。ステップ9
2にて、プロセッサ11は、選択された一対のテキスト
ブロックの水平投影プロファイルに重なりがあるか否か
判断する。選択された一対のブロックの水平座標が重な
っている場合、プロセッサ11はステップ94に進む。
このとき、プロセッサ11は、対のうちの、低い方のブ
ロックより高い方のブロックを先に読まなくてはならな
いことを指示する。
ない場合、プロセッサ11はステップ88からステップ
90に分岐する。ステップ90にて、プロセッサ11は
選択された一対のテキストブロックの相互の、ページ画
像上の相対位置を求める作業を開始する。プロセッサ1
1は、ページ上で、この対の一方のブロックが、他方の
上方にあるか否かを判断することから始める。もし一方
のブロックが他方の上方にある場合、プロセッサ11は
ステップ90を出て、ステップ92に進む。ステップ9
2にて、プロセッサ11は、選択された一対のテキスト
ブロックの水平投影プロファイルに重なりがあるか否か
判断する。選択された一対のブロックの水平座標が重な
っている場合、プロセッサ11はステップ94に進む。
このとき、プロセッサ11は、対のうちの、低い方のブ
ロックより高い方のブロックを先に読まなくてはならな
いことを指示する。
【0036】プロセッサ11が、選択された一対のブロ
ックの間に所期の相対位置を見出せない場合、プロセッ
サ11はステップ110に進む。ステップ110と11
2にて、プロセッサ11は再び選択された一対のブロッ
クの相対位置をチェックし、別のパターンに該当しない
かを調べる。最初にプロセッサ11は、この対の一方の
ブロックが、他方のブロックの左側にあるか否かを判断
する。そうであれば、プロセッサ11はステップ112
に進み、この一対のブロックの垂直座標が重なっている
か否かが判断される。垂直座標が重なっている場合に
は、この一対のブロックは検証対象パターンに一致して
おり、プロセッサ11はステップ114に進む。ステッ
プ114で、プロセッサ11は、最も左側のブロック
が、対の他方のブロックより先に読取られなくてはなら
ないと指示する。
ックの間に所期の相対位置を見出せない場合、プロセッ
サ11はステップ110に進む。ステップ110と11
2にて、プロセッサ11は再び選択された一対のブロッ
クの相対位置をチェックし、別のパターンに該当しない
かを調べる。最初にプロセッサ11は、この対の一方の
ブロックが、他方のブロックの左側にあるか否かを判断
する。そうであれば、プロセッサ11はステップ112
に進み、この一対のブロックの垂直座標が重なっている
か否かが判断される。垂直座標が重なっている場合に
は、この一対のブロックは検証対象パターンに一致して
おり、プロセッサ11はステップ114に進む。ステッ
プ114で、プロセッサ11は、最も左側のブロック
が、対の他方のブロックより先に読取られなくてはなら
ないと指示する。
【0037】一対のブロックの間の所期の相対位置が見
つからない場合、プロセッサ11はステップ116に進
む。プロセッサ11は最初に、一対のブロックの水平座
標が重なっているか否かを判断する。そうであれば、ス
テップ118にて、プロセッサ11は、この対の高い方
のブロックを低い方のものより先に読取らなくてはなら
ないことを指示する。一方、水平座標が重ならない場合
は、ステップ120にて、プロセッサ11は、対の最も
左側のブロックを他方のブロックより先に読取らなくて
はならないことを指示する。
つからない場合、プロセッサ11はステップ116に進
む。プロセッサ11は最初に、一対のブロックの水平座
標が重なっているか否かを判断する。そうであれば、ス
テップ118にて、プロセッサ11は、この対の高い方
のブロックを低い方のものより先に読取らなくてはなら
ないことを指示する。一方、水平座標が重ならない場合
は、ステップ120にて、プロセッサ11は、対の最も
左側のブロックを他方のブロックより先に読取らなくて
はならないことを指示する。
【0038】選択された一対のブロックの間の相対的読
取り順序が示されると、プロセッサ11はステップ98
に達する。プロセッサ11は、選択セット内の他の一対
のブロックを検証しなくてはならないか否かを明らかに
する。選択されたブロックセット内のすべてのブロック
対について検討がなされていない場合、プロセッサ11
はステップ86に戻って、選択セット内の別の一対のブ
ロックを選択し、前述のようにそれらを順序付けるす
る。一方、選択されたブロックセット内のすべてのブロ
ック対が順序付けられている場合には、プロセッサ11
はステップ100に進む。このとき、プロセッサ11
は、他のブロックセットを順序付ける必要があるか否か
判断する。そうであれば、プロセッサ11はステップ8
4に戻り、他のブロックセットを選択し、前述の方法で
順序付けを行う。一方、プロセッサ11が既に全部のセ
ットの全部のブロックの相対読取り順序を決定している
場合には、プロセッサ11はステップ102に進む。プ
ロセッサ11は、その相対読取り順序に基づいて、各セ
ットの各ブロック内の読取り順序を決定する。
取り順序が示されると、プロセッサ11はステップ98
に達する。プロセッサ11は、選択セット内の他の一対
のブロックを検証しなくてはならないか否かを明らかに
する。選択されたブロックセット内のすべてのブロック
対について検討がなされていない場合、プロセッサ11
はステップ86に戻って、選択セット内の別の一対のブ
ロックを選択し、前述のようにそれらを順序付けるす
る。一方、選択されたブロックセット内のすべてのブロ
ック対が順序付けられている場合には、プロセッサ11
はステップ100に進む。このとき、プロセッサ11
は、他のブロックセットを順序付ける必要があるか否か
判断する。そうであれば、プロセッサ11はステップ8
4に戻り、他のブロックセットを選択し、前述の方法で
順序付けを行う。一方、プロセッサ11が既に全部のセ
ットの全部のブロックの相対読取り順序を決定している
場合には、プロセッサ11はステップ102に進む。プ
ロセッサ11は、その相対読取り順序に基づいて、各セ
ットの各ブロック内の読取り順序を決定する。
【0039】図6に、適合テキストのブロック内のセン
テンス境界を識別するためにプロセッサ11が実行する
命令42の概要図を示す。
テンス境界を識別するためにプロセッサ11が実行する
命令42の概要図を示す。
【0040】プロセッサ11は、ステップ138にて連
結成分を選択することから、命令42の実行を開始す
る。その後、ステップ140にて、プロセッサ11は、
選択された連結成分がピリオドであるか否かを判断す
る。
結成分を選択することから、命令42の実行を開始す
る。その後、ステップ140にて、プロセッサ11は、
選択された連結成分がピリオドであるか否かを判断す
る。
【0041】ステップ142にて、プロセッサ11は、
選択された連結成分がドットの形をしていてベースライ
ンに近接している場合でさえ、ピリオドでないか否かを
判断する多ステッププロセスを開始する。そうするため
に、プロセッサ11は、1)選択された連結成分がコロ
ンの一部である可能性、2)選択された連結成分のドッ
ト列の一部である可能性、という2つの可能性を排除す
る。プロセッサ11は、最初に、選択された連結成分
の、その隣接物に対する相対位置を求めることによっ
て、選択連結成分がコロンの一部であるか否かを検証す
る。選択された連結成分とその隣接物の相対位置から、
選択された連結成分がコロンの一部でないことが判明し
た場合、選択された連結成分はセンテンスの境界をマー
キングする句読点の一部である可能性がある。
選択された連結成分がドットの形をしていてベースライ
ンに近接している場合でさえ、ピリオドでないか否かを
判断する多ステッププロセスを開始する。そうするため
に、プロセッサ11は、1)選択された連結成分がコロ
ンの一部である可能性、2)選択された連結成分のドッ
ト列の一部である可能性、という2つの可能性を排除す
る。プロセッサ11は、最初に、選択された連結成分
の、その隣接物に対する相対位置を求めることによっ
て、選択連結成分がコロンの一部であるか否かを検証す
る。選択された連結成分とその隣接物の相対位置から、
選択された連結成分がコロンの一部でないことが判明し
た場合、選択された連結成分はセンテンスの境界をマー
キングする句読点の一部である可能性がある。
【0042】ステップ144にて、プロセッサ11は、
選択された連結成分とそれに続く隣接物の相対位置を比
較することによって、選択された連結成分が省略記号の
一部か否かを判断する。省略記号の一部でない場合、選
択された連結成分はセンテンスの最後をマーキングす
る。
選択された連結成分とそれに続く隣接物の相対位置を比
較することによって、選択された連結成分が省略記号の
一部か否かを判断する。省略記号の一部でない場合、選
択された連結成分はセンテンスの最後をマーキングす
る。
【0043】ステップ146にて、プロセッサ11は、
図9を参照して以下に述べられるように、選択された連
結成分が感嘆符または疑問符の一部であるか否かを判断
する。そうであるならば、選択された連結成分はセンテ
ンスを終結する句読点の一部である。従って、プロセッ
サ11はステップ148に進み、選択された連結成分を
センテンス境界としてマーキングする。
図9を参照して以下に述べられるように、選択された連
結成分が感嘆符または疑問符の一部であるか否かを判断
する。そうであるならば、選択された連結成分はセンテ
ンスを終結する句読点の一部である。従って、プロセッ
サ11はステップ148に進み、選択された連結成分を
センテンス境界としてマーキングする。
【0044】選択された連結成分が感嘆符または疑問符
の一部でない場合でも、依然としてセンテンスの最後を
マーキングする場合がある。これに応じて、プロセッサ
11はステップ150に分岐する。プロセッサ11は、
選択された連結成分の後ろに引用符が続いているか否か
を判断する。選択された連結成分の後ろに引用符がある
場合、選択された成分はセンテンスの終止句読点である
が、センテンス境界の特性を表してはいない。従って、
ステップ154にて、プロセッサ11は、選択された成
分の後ろの引用符をセンテンス境界としてマーキングす
る。
の一部でない場合でも、依然としてセンテンスの最後を
マーキングする場合がある。これに応じて、プロセッサ
11はステップ150に分岐する。プロセッサ11は、
選択された連結成分の後ろに引用符が続いているか否か
を判断する。選択された連結成分の後ろに引用符がある
場合、選択された成分はセンテンスの終止句読点である
が、センテンス境界の特性を表してはいない。従って、
ステップ154にて、プロセッサ11は、選択された成
分の後ろの引用符をセンテンス境界としてマーキングす
る。
【0045】プロセッサ11がステップ150の検証を
行わなくとも、選択された連結成分は、依然としてセン
テンスを終結するピリオドである可能性がある。この可
能性を反証否定するために、可能であるならば、プロセ
ッサ11はステップ152にて、選択された連結成分が
センテンス内の略語の一部であるか否か判断する。選択
された連結成分はセンテンス内略語の一部でないとプロ
セッサ11が判断した場合には、プロセッサ11は、選
択された連結成分はセンテンスの境界をマーキングする
ピリオドであるとみなす。従って、ステップ148に
て、プロセッサ11は、選択された連結成分をそのよう
にマーキングする。
行わなくとも、選択された連結成分は、依然としてセン
テンスを終結するピリオドである可能性がある。この可
能性を反証否定するために、可能であるならば、プロセ
ッサ11はステップ152にて、選択された連結成分が
センテンス内の略語の一部であるか否か判断する。選択
された連結成分はセンテンス内略語の一部でないとプロ
セッサ11が判断した場合には、プロセッサ11は、選
択された連結成分はセンテンスの境界をマーキングする
ピリオドであるとみなす。従って、ステップ148に
て、プロセッサ11は、選択された連結成分をそのよう
にマーキングする。
【0046】プロセッサ11は、ステップ140、14
2、144の検証のいずれかに失敗した後、あるいは、
センテンス境界を標識した後に、ステップ156に進
む。こうしてプロセッサ11は、他の連結成分を検証し
残しているか否か判断する。そうであれば、プロセッサ
11はステップ138に戻り、全部の連結成分が検証さ
れるまで命令42を実行する。全部のセンテンスの境界
が標識されると、プロセッサ11は次にステップ44に
分岐する。
2、144の検証のいずれかに失敗した後、あるいは、
センテンス境界を標識した後に、ステップ156に進
む。こうしてプロセッサ11は、他の連結成分を検証し
残しているか否か判断する。そうであれば、プロセッサ
11はステップ138に戻り、全部の連結成分が検証さ
れるまで命令42を実行する。全部のセンテンスの境界
が標識されると、プロセッサ11は次にステップ44に
分岐する。
【0047】図7に、選択された連結成分がピリオドで
あるか否かを判断する命令140をフロー図の形で示
す。
あるか否かを判断する命令140をフロー図の形で示
す。
【0048】最初に、ステップ170にて、プロセッサ
11は選択された連結成分が胡椒をふったようなノイズ
であるか否かを判断する。プロセッサ11は、選択され
た連結成分の境界ボックスのサイズに基づいて判定を行
う。境界ボックスのサイズが最小サイズより大きい場
合、選択された連結成分はピリオドであろう。最小境界
ボックスのサイズを、テキストラインのメジアン高xの
約10分の1に設定すると具合がいい。選択された連結
成分が最小サイズより大きい場合、プロセッサ11はス
テップ172に進む。
11は選択された連結成分が胡椒をふったようなノイズ
であるか否かを判断する。プロセッサ11は、選択され
た連結成分の境界ボックスのサイズに基づいて判定を行
う。境界ボックスのサイズが最小サイズより大きい場
合、選択された連結成分はピリオドであろう。最小境界
ボックスのサイズを、テキストラインのメジアン高xの
約10分の1に設定すると具合がいい。選択された連結
成分が最小サイズより大きい場合、プロセッサ11はス
テップ172に進む。
【0049】プロセッサ11は、ステップ172にて、
選択された連結成分がピリオドであるか否かを判断する
2番目の検証を実施する。プロセッサ11は、2つの特
徴をチェックすることによって、選択された成分がドッ
トのような形であるか否かを判断する。考慮される最初
の特徴は、選択された連結成分の境界ボックスの各ディ
メンションのサイズである。各ディメンションは、高さ
xの第1分数より小さくなくてはならない。プロセッサ
11が考慮する第2の特徴は、選択された連結成分の境
界ボックスの2つのディメンションの間のサイズの差で
ある。2つのディメンション間の差は、メジアン高xの
第二分数より小さくなくてはならない。選択された連結
成分の境界ボックスが、要求される特徴を両方とも備え
ている場合には、選択された連結成分は、コンマ、また
はセミコロンの下側に連結された成分ではなさそうであ
り、ピリオドであろう。
選択された連結成分がピリオドであるか否かを判断する
2番目の検証を実施する。プロセッサ11は、2つの特
徴をチェックすることによって、選択された成分がドッ
トのような形であるか否かを判断する。考慮される最初
の特徴は、選択された連結成分の境界ボックスの各ディ
メンションのサイズである。各ディメンションは、高さ
xの第1分数より小さくなくてはならない。プロセッサ
11が考慮する第2の特徴は、選択された連結成分の境
界ボックスの2つのディメンションの間のサイズの差で
ある。2つのディメンション間の差は、メジアン高xの
第二分数より小さくなくてはならない。選択された連結
成分の境界ボックスが、要求される特徴を両方とも備え
ている場合には、選択された連結成分は、コンマ、また
はセミコロンの下側に連結された成分ではなさそうであ
り、ピリオドであろう。
【0050】ステップ174にて、プロセッサ11は、
第3の検証を実施して、選択された連結成分がピリオド
であるか否かを判断する。ここでプロセッサ11は、選
択された連結成分の位置を調べ、それがテキストライン
のベースライン付近にあるか否かを確認する。先に行わ
れたベースライン測定に何らかの小エラーがあるかも知
れないので、ベースラインから何個かの画素範囲内であ
れば、プロセッサ11は、その選択連結成分をベースラ
イン上にあるものとみなす。選択された連結成分が十分
にベースラインに近ければ、プロセッサ11はステップ
142に進む。
第3の検証を実施して、選択された連結成分がピリオド
であるか否かを判断する。ここでプロセッサ11は、選
択された連結成分の位置を調べ、それがテキストライン
のベースライン付近にあるか否かを確認する。先に行わ
れたベースライン測定に何らかの小エラーがあるかも知
れないので、ベースラインから何個かの画素範囲内であ
れば、プロセッサ11は、その選択連結成分をベースラ
イン上にあるものとみなす。選択された連結成分が十分
にベースラインに近ければ、プロセッサ11はステップ
142に進む。
【0051】選択された連結成分が所要の特徴のいずれ
も備えていないとプロセッサ11が判断した場合、プロ
セッサ11はステップ156に戻る。
も備えていないとプロセッサ11が判断した場合、プロ
セッサ11はステップ156に戻る。
【0052】図8に、選択された連結成分がコロンであ
るか否かを判断する命令142をフロー図の形で示す。
るか否かを判断する命令142をフロー図の形で示す。
【0053】プロセッサ11は、その作業をステップ1
80から開始する。ステップ180にて、プロセッサ1
1は、選択された連結成分に隣接する両方の連結成分の
形を吟味する。ステップ172で利用されたものと同じ
検証をかけることによって判断されるように、これらの
いずれもがドット形でない場合、プロセッサ11は選択
された連結成分がコロンの一部であるという可能性を排
除する。その場合、プロセッサ11はステップ144に
進む。一方、隣接する連結成分のいずれかがドット形の
場合、選択された連結成分はコロンであろう。プロセッ
サ11は、ステップ182に進むことによって、この可
能性に応じる。
80から開始する。ステップ180にて、プロセッサ1
1は、選択された連結成分に隣接する両方の連結成分の
形を吟味する。ステップ172で利用されたものと同じ
検証をかけることによって判断されるように、これらの
いずれもがドット形でない場合、プロセッサ11は選択
された連結成分がコロンの一部であるという可能性を排
除する。その場合、プロセッサ11はステップ144に
進む。一方、隣接する連結成分のいずれかがドット形の
場合、選択された連結成分はコロンであろう。プロセッ
サ11は、ステップ182に進むことによって、この可
能性に応じる。
【0054】ステップ182で、プロセッサ11は、選
択された連結成分ならびにそのドット形の隣接物が、コ
ロンのドットのように、一方が他方の上に配置されてい
ないか判断する。これら2個の連結成分がコロンを表示
するのであれば、それらの境界ボックスは垂直に位置合
わせされ、いくらかの量だけ互いに水平に重なるであろ
う。どのくらいの重なりであるかは重要ではない。2つ
の境界ボックスの間に重なりが全く無いということは、
選択された連結成分がコロンの一部でないことを示し、
それによりプロセッサ11はステップ182からステッ
プ144に分岐する。選択された連結成分とそのドット
形の隣接物の境界ボックス間の重なりは、選択された連
結成分がコロンの一部であろうことを示すものである。
択された連結成分ならびにそのドット形の隣接物が、コ
ロンのドットのように、一方が他方の上に配置されてい
ないか判断する。これら2個の連結成分がコロンを表示
するのであれば、それらの境界ボックスは垂直に位置合
わせされ、いくらかの量だけ互いに水平に重なるであろ
う。どのくらいの重なりであるかは重要ではない。2つ
の境界ボックスの間に重なりが全く無いということは、
選択された連結成分がコロンの一部でないことを示し、
それによりプロセッサ11はステップ182からステッ
プ144に分岐する。選択された連結成分とそのドット
形の隣接物の境界ボックス間の重なりは、選択された連
結成分がコロンの一部であろうことを示すものである。
【0055】ステップ184にて、プロセッサ11は、
その最後の検証を実施して、選択された連結成分がコロ
ンの一部であるか否かを判断する。プロセッサ11は、
2つの関連連結成分の境界ボックスの上部の間の距離を
調べて、隣接連結成分が、実際には、選択された連結成
分以外の別のテキストラインの一部であるという可能性
を排除する。これは、2つの境界ボックスの上部の間の
距離が、高さxの第3分数を越える場合に最もありそう
なケースである。該距離がこの分数を越える場合、選択
された連結成分はコロンの一部ではなく、センテンス境
界の特性を表す。プロセッサ11はステップ144に進
み、この可能性を究明する。一方、2つの境界ボックス
の上部の間の距離が、第3分数より小さい場合、選択さ
れた連結成分はコロンのようであり、センテンス境界を
マーキングしない。その場合、プロセッサ11はステッ
プ156に戻る。
その最後の検証を実施して、選択された連結成分がコロ
ンの一部であるか否かを判断する。プロセッサ11は、
2つの関連連結成分の境界ボックスの上部の間の距離を
調べて、隣接連結成分が、実際には、選択された連結成
分以外の別のテキストラインの一部であるという可能性
を排除する。これは、2つの境界ボックスの上部の間の
距離が、高さxの第3分数を越える場合に最もありそう
なケースである。該距離がこの分数を越える場合、選択
された連結成分はコロンの一部ではなく、センテンス境
界の特性を表す。プロセッサ11はステップ144に進
み、この可能性を究明する。一方、2つの境界ボックス
の上部の間の距離が、第3分数より小さい場合、選択さ
れた連結成分はコロンのようであり、センテンス境界を
マーキングしない。その場合、プロセッサ11はステッ
プ156に戻る。
【0056】図9に、選択された連結成分が省略記号の
一部であるか否かを判断する命令144をフロー図の形
で示す。
一部であるか否かを判断する命令144をフロー図の形
で示す。
【0057】プロセッサ11は、ステップ190にて、
選択された連結成分の次に続く連結成分が、やはりドッ
ト形であるか否かを判断することから始める。プロセッ
サ11は、ステップ172に関して論じられた方法を利
用して、そのように行う。後続連結成分がドット形でな
い場合、選択された連結成分は省略記号の一部でない、
あるいは、省略記号の最後のドットであろう。これは2
つの答えが存在する曖昧な状況である。まず、省略記号
が見つかった場合と同じことを行って、必ずセンテンス
を終結するか、絶対に終結しないか、を検討する。次
に、選択された連結成分の後の連結成分を分析して、後
続連結成分が新しいセンテンスを開始しているか確認す
る。これが命令144で取られる方法である。選択され
た連結成分が省略記号の最後のドットであるかも知れな
い場合、プロセッサ11はステップ146に進んで、選
択された連結成分がセンテンス境界の特性を表すか否か
に関する他の手掛かりを探し続ける。
選択された連結成分の次に続く連結成分が、やはりドッ
ト形であるか否かを判断することから始める。プロセッ
サ11は、ステップ172に関して論じられた方法を利
用して、そのように行う。後続連結成分がドット形でな
い場合、選択された連結成分は省略記号の一部でない、
あるいは、省略記号の最後のドットであろう。これは2
つの答えが存在する曖昧な状況である。まず、省略記号
が見つかった場合と同じことを行って、必ずセンテンス
を終結するか、絶対に終結しないか、を検討する。次
に、選択された連結成分の後の連結成分を分析して、後
続連結成分が新しいセンテンスを開始しているか確認す
る。これが命令144で取られる方法である。選択され
た連結成分が省略記号の最後のドットであるかも知れな
い場合、プロセッサ11はステップ146に進んで、選
択された連結成分がセンテンス境界の特性を表すか否か
に関する他の手掛かりを探し続ける。
【0058】後続連結成分がドット形であるので、選択
された連結成分が省略記号の一部かも知れない場合、プ
ロセッサ11はステップ192に進む。プロセッサ11
は、後続連結成分がベースラインにどのくらい近接して
いるかを調べる。ステップ174に関して先述された検
証により、後続連結成分がベースラインに十分に近接し
ていることが分かった場合、プロセッサ11は、選択さ
れた連結成分は省略記号の一部であると見なす。従っ
て、プロセッサ11は、ステップ156に進む。一方、
後続連結成分が、あまりベースラインに近接していない
場合、選択された連結成分は省略記号の一部とはみなさ
れず、センテンス境界をマーキングするであろう。
された連結成分が省略記号の一部かも知れない場合、プ
ロセッサ11はステップ192に進む。プロセッサ11
は、後続連結成分がベースラインにどのくらい近接して
いるかを調べる。ステップ174に関して先述された検
証により、後続連結成分がベースラインに十分に近接し
ていることが分かった場合、プロセッサ11は、選択さ
れた連結成分は省略記号の一部であると見なす。従っ
て、プロセッサ11は、ステップ156に進む。一方、
後続連結成分が、あまりベースラインに近接していない
場合、選択された連結成分は省略記号の一部とはみなさ
れず、センテンス境界をマーキングするであろう。
【0059】図10に、選択された連結成分の次に1個
または2個の引用符が続いているか否かを判断する命令
150をフロー図の形で示す。これにより、引用符をセ
ンテンス境界として標識することができ、関連センテン
スが主題センテンスとして抜出された場合に、提示画像
の始めと終わりの引用符が確実に含まれるようになる。
または2個の引用符が続いているか否かを判断する命令
150をフロー図の形で示す。これにより、引用符をセ
ンテンス境界として標識することができ、関連センテン
スが主題センテンスとして抜出された場合に、提示画像
の始めと終わりの引用符が確実に含まれるようになる。
【0060】ステップ200にて、プロセッサ11は、
後続の2つの連結成分が引用符のような形であるか否か
を判定する。第1に、それぞれの引用符形の連結成分の
境界ボックスの幅は、高さxの第6分数より狭くなくて
はならない。第2に、引用符形の後続連結成分のそれぞ
れの境界ボックスの高さは、高さxの第7分数より低く
なくてはならない。第3に、それぞれの引用符形の後続
連結成分の境界ボックスの高さと幅の差は、高さxの第
8分数より小さくなくてはならない。2つの後続連結成
分の両方が、これら3つの制限のすべてを満足しない場
合、選択された連結成分の後ろに引用符はなく、プロセ
ッサ11はステップ152に進む。一方、後続連結成分
の1個または両方が、3個全部の制限を満足する場合
は、プロセッサ11はステップ154に進む。
後続の2つの連結成分が引用符のような形であるか否か
を判定する。第1に、それぞれの引用符形の連結成分の
境界ボックスの幅は、高さxの第6分数より狭くなくて
はならない。第2に、引用符形の後続連結成分のそれぞ
れの境界ボックスの高さは、高さxの第7分数より低く
なくてはならない。第3に、それぞれの引用符形の後続
連結成分の境界ボックスの高さと幅の差は、高さxの第
8分数より小さくなくてはならない。2つの後続連結成
分の両方が、これら3つの制限のすべてを満足しない場
合、選択された連結成分の後ろに引用符はなく、プロセ
ッサ11はステップ152に進む。一方、後続連結成分
の1個または両方が、3個全部の制限を満足する場合
は、プロセッサ11はステップ154に進む。
【0061】プロセッサ11は、ステップ202にて、
選択された連結成分の位置に対する後続連結成分の位置
を検証する。後続連結成分は、引用符となるに十分なほ
ど、選択連結成分の上方にあるのだろうか。プロセッサ
は、高さxの第4分数を利用して、この疑問に答える。
後続連結成分が、選択された連結成分の上部よりも十分
に上方にない場合、選択された連結成分の後に引用符は
ない。プロセッサ11は、ステップ152に進むことに
よって、これに応じる。プロセッサ11が、これとは逆
のことを見出した場合、つまり、後続連結成分境界ボッ
クスの上部が、選択された成分n境界ボックスの上部か
ら少なくとも第4分数だけ上方にある場合、プロセッサ
11はステップ204に分岐する。
選択された連結成分の位置に対する後続連結成分の位置
を検証する。後続連結成分は、引用符となるに十分なほ
ど、選択連結成分の上方にあるのだろうか。プロセッサ
は、高さxの第4分数を利用して、この疑問に答える。
後続連結成分が、選択された連結成分の上部よりも十分
に上方にない場合、選択された連結成分の後に引用符は
ない。プロセッサ11は、ステップ152に進むことに
よって、これに応じる。プロセッサ11が、これとは逆
のことを見出した場合、つまり、後続連結成分境界ボッ
クスの上部が、選択された成分n境界ボックスの上部か
ら少なくとも第4分数だけ上方にある場合、プロセッサ
11はステップ204に分岐する。
【0062】ステップ204にて、プロセッサ11は、
少なくとも1回、最後の検証を行って、2つの後続連結
成分のうちの一方が引用符であるか否かを判断する。後
続連結成分のうちの一方または両方が引用符の形をして
いて、選択された連結成分の十分上方に離れた位置にあ
るとしても、それが選択された連結成分に水平方向に十
分に近くなければ、依然として引用符ではない。プロセ
ッサ11は、両方の連結成分の左側間の距離を水平方向
に測定することによって、これを判断する。この距離
は、高さxの第5分数より狭くなくてはならない。この
2つの連結成分がそれほど近接していない場合、プロセ
ッサ11はステップ204を出て、ステップ152に進
む。一方、後続連結成分が、引用符であるに十分なほ
ど、選択された連結成分に近く続いている場合、プロセ
ッサ11はステップ204からステップ148に進む。
少なくとも1回、最後の検証を行って、2つの後続連結
成分のうちの一方が引用符であるか否かを判断する。後
続連結成分のうちの一方または両方が引用符の形をして
いて、選択された連結成分の十分上方に離れた位置にあ
るとしても、それが選択された連結成分に水平方向に十
分に近くなければ、依然として引用符ではない。プロセ
ッサ11は、両方の連結成分の左側間の距離を水平方向
に測定することによって、これを判断する。この距離
は、高さxの第5分数より狭くなくてはならない。この
2つの連結成分がそれほど近接していない場合、プロセ
ッサ11はステップ204を出て、ステップ152に進
む。一方、後続連結成分が、引用符であるに十分なほ
ど、選択された連結成分に近く続いている場合、プロセ
ッサ11はステップ204からステップ148に進む。
【0063】図11に、選択された連結成分がセンテン
ス内の略語の一部であるか否かを判断する命令152を
フロー図の形で示す。
ス内の略語の一部であるか否かを判断する命令152を
フロー図の形で示す。
【0064】ステップ210にて、プロセッサ11は、
選択された連結成分に対する後続連結成分の位置が、セ
ンテンスを終結するものと矛盾しないものであるか否か
を判定する作業を開始する。最初に、プロセッサ11
は、後続連結成分が、選択された連結成分と同じテキス
トラインの一部であるか否かを判定する。プロセッサ1
1はそのようにすることにより、隣接するテキストライ
ン間の垂直方向の離間が非常に小さいという理由で、選
択連結成分の下のラインと関連のある連結成分が、テキ
ストライン境界ボックスの一部としてとらえられる可能
性を排除する。この判定を行うために、プロセッサ11
は、選択された連結成分と後続の連結成分の境界ボック
スの上部の間の垂直方向距離を測定する。2つの連結成
分間の垂直方向距離が、高さxの第9分数を越えている
場合、この2つの連結成分は同一テキストラインに属さ
ない。
選択された連結成分に対する後続連結成分の位置が、セ
ンテンスを終結するものと矛盾しないものであるか否か
を判定する作業を開始する。最初に、プロセッサ11
は、後続連結成分が、選択された連結成分と同じテキス
トラインの一部であるか否かを判定する。プロセッサ1
1はそのようにすることにより、隣接するテキストライ
ン間の垂直方向の離間が非常に小さいという理由で、選
択連結成分の下のラインと関連のある連結成分が、テキ
ストライン境界ボックスの一部としてとらえられる可能
性を排除する。この判定を行うために、プロセッサ11
は、選択された連結成分と後続の連結成分の境界ボック
スの上部の間の垂直方向距離を測定する。2つの連結成
分間の垂直方向距離が、高さxの第9分数を越えている
場合、この2つの連結成分は同一テキストラインに属さ
ない。
【0065】2つの連結成分が同一テキストラインに属
さないことが判明すると、プロセッサ11はステップ2
12に分岐する。プロセッサ11は、次に、この後続連
結成分の右側にある隣接物を、新しい後続連結成分とす
る。その後、プロセッサ11は、ステップ210に戻
る。
さないことが判明すると、プロセッサ11はステップ2
12に分岐する。プロセッサ11は、次に、この後続連
結成分の右側にある隣接物を、新しい後続連結成分とす
る。その後、プロセッサ11は、ステップ210に戻
る。
【0066】結局、プロセッサ11は、同一テキストラ
インに含まれている選択連結成分の後に続く連結成分
が、テキストラインの最後に達する前の選択連結成分で
あると判断するであろう。これが発生した場合、プロセ
ッサ11はステップ214に分岐する。かくしてプロセ
ッサ11は、選択された連結成分と後続連結成分の相対
位置が、別のセンテンスを開始する大文字となる後続連
結成分であることに矛盾しないか否かを判断する作業を
開始する。プロセッサ11は、後続連結成分が、選択さ
れた連結成分の左側に十分に離れているか否かを判断す
る。後続連結成分は、その境界ボックスの左端が、選択
された連結成分の境界ボックスの左端から、高さxの第
10分数だけ離れていれば、十分に離れていると見なさ
れる。2つの連結成分が互いにそれほど離れていない場
合、プロセッサ11は、選択された連結成分をセンテン
ス内の略語の一部と見なし、ステップ156に分岐す
る。他方、2つの連結成分間の距離が十分に大きい場
合、後続連結成分は、別のセンテンスの最初であるかも
知れない。
インに含まれている選択連結成分の後に続く連結成分
が、テキストラインの最後に達する前の選択連結成分で
あると判断するであろう。これが発生した場合、プロセ
ッサ11はステップ214に分岐する。かくしてプロセ
ッサ11は、選択された連結成分と後続連結成分の相対
位置が、別のセンテンスを開始する大文字となる後続連
結成分であることに矛盾しないか否かを判断する作業を
開始する。プロセッサ11は、後続連結成分が、選択さ
れた連結成分の左側に十分に離れているか否かを判断す
る。後続連結成分は、その境界ボックスの左端が、選択
された連結成分の境界ボックスの左端から、高さxの第
10分数だけ離れていれば、十分に離れていると見なさ
れる。2つの連結成分が互いにそれほど離れていない場
合、プロセッサ11は、選択された連結成分をセンテン
ス内の略語の一部と見なし、ステップ156に分岐す
る。他方、2つの連結成分間の距離が十分に大きい場
合、後続連結成分は、別のセンテンスの最初であるかも
知れない。
【0067】ステップ216にて、プロセッサ11は、
後続連結成分が大文字であるに十分なほど大きいか否か
を判断する。プロセッサ11は、後続連結成分の高さ
を、高さxの第11分数と比較することによって、この
判定を行う。この高さが第11分数を越えない場合、プ
ロセッサ11は、後続連結成分を大文字と見なさない
し、選択された連結成分をセンテンスを終結するピリオ
ドとも見なさない。その代わり、プロセッサ11はステ
ップ156に分岐する。一方、後続連結成分の高さが第
11分数を越える場合、後続連結成分は大文字であろ
う。
後続連結成分が大文字であるに十分なほど大きいか否か
を判断する。プロセッサ11は、後続連結成分の高さ
を、高さxの第11分数と比較することによって、この
判定を行う。この高さが第11分数を越えない場合、プ
ロセッサ11は、後続連結成分を大文字と見なさない
し、選択された連結成分をセンテンスを終結するピリオ
ドとも見なさない。その代わり、プロセッサ11はステ
ップ156に分岐する。一方、後続連結成分の高さが第
11分数を越える場合、後続連結成分は大文字であろ
う。
【0068】ステップ218にて、プロセッサ11は、
後続連結成分が、新センテンスを開始する大文字である
という仮説を検証し続ける。プロセッサ11は、後続連
結成分がベースラインにどのくらい近接しているかを調
べることによって、そのように行う。大文字は、ベース
ラインに乗るので、後続連結成分の下部は、それが大文
字であるならば、ベースラインに近接するはずである。
プロセッサ11は、ベースラインと後続連結成分の境界
ボックスの下部の距離が数画素を越えなければ、後続連
結成分はベースラインに近いと見なす。後続連結成分の
下部が、ベースラインから相当に離れている場合、プロ
セッサ11はステップ156に進み、選択された連結成
分をセンテンス内の略語とみなす。逆に、後続連結成分
の下部がベースラインに十分に近接している場合、後続
連結成分は大文字であり、新センテンスの文頭であろ
う。
後続連結成分が、新センテンスを開始する大文字である
という仮説を検証し続ける。プロセッサ11は、後続連
結成分がベースラインにどのくらい近接しているかを調
べることによって、そのように行う。大文字は、ベース
ラインに乗るので、後続連結成分の下部は、それが大文
字であるならば、ベースラインに近接するはずである。
プロセッサ11は、ベースラインと後続連結成分の境界
ボックスの下部の距離が数画素を越えなければ、後続連
結成分はベースラインに近いと見なす。後続連結成分の
下部が、ベースラインから相当に離れている場合、プロ
セッサ11はステップ156に進み、選択された連結成
分をセンテンス内の略語とみなす。逆に、後続連結成分
の下部がベースラインに十分に近接している場合、後続
連結成分は大文字であり、新センテンスの文頭であろ
う。
【0069】プロセッサ11は、ステップ220にて、
後続連結成分が新センテンスの最初か否かを判断する最
後の検証を実施する。プロセッサ11は、後続連結成分
を、その右側の隣接物の高さと比較する。この連結成分
を、右隣接物と呼ぶ。大文字よりも高い文字はほとんど
ないので、後続連結成分の高さと比較して右隣接物の高
さが非常に大きい場合、後続連結成分は恐らく新センテ
ンスを開始しなであろう。プロセッサ11は、2つの連
結成分の高さの差を第12分数と比較することによっ
て、この判断を行う。右隣接物の高さが、後続連結成分
の高さより、第12分数を越えて大きい場合、プロセッ
サ11はステップ156に分岐し、選択された連結成分
をセンテンス内の略語と見なす。逆に、2つの連結成分
間の高さの差が第12分数より小さい場合、プロセッサ
11は、選択された連結成分を、センテンスを終結する
ピリオドと見なして、ステップ148に分岐する。
後続連結成分が新センテンスの最初か否かを判断する最
後の検証を実施する。プロセッサ11は、後続連結成分
を、その右側の隣接物の高さと比較する。この連結成分
を、右隣接物と呼ぶ。大文字よりも高い文字はほとんど
ないので、後続連結成分の高さと比較して右隣接物の高
さが非常に大きい場合、後続連結成分は恐らく新センテ
ンスを開始しなであろう。プロセッサ11は、2つの連
結成分の高さの差を第12分数と比較することによっ
て、この判断を行う。右隣接物の高さが、後続連結成分
の高さより、第12分数を越えて大きい場合、プロセッ
サ11はステップ156に分岐し、選択された連結成分
をセンテンス内の略語と見なす。逆に、2つの連結成分
間の高さの差が第12分数より小さい場合、プロセッサ
11は、選択された連結成分を、センテンスを終結する
ピリオドと見なして、ステップ148に分岐する。
【0070】図12に、ワードリストからドロップワー
ドを識別して削除する命令44をフロー図の形で示す。
命令44の実行は、ワードリストと、ステップ42で生
成された関連情報の受信後に開始される。
ドを識別して削除する命令44をフロー図の形で示す。
命令44の実行は、ワードリストと、ステップ42で生
成された関連情報の受信後に開始される。
【0071】プロセッサ11は、各ワードごとに、その
ワードがドロップワードではない可能性を推測すること
から始める。この可能性を判断するために、画素単位で
のワード幅、適合テキストブロック内でのワードの出現
回数、文書内のワード総数、センテンス内の最初の短く
ないワードとしてそのワードが出現する回数、といった
多数の要因が利用される。本明細書中に使用されている
ように、短くないワードというのは、「the」のよう
な、所定の短ワードよりも十分に大きいワードのことで
ある。
ワードがドロップワードではない可能性を推測すること
から始める。この可能性を判断するために、画素単位で
のワード幅、適合テキストブロック内でのワードの出現
回数、文書内のワード総数、センテンス内の最初の短く
ないワードとしてそのワードが出現する回数、といった
多数の要因が利用される。本明細書中に使用されている
ように、短くないワードというのは、「the」のよう
な、所定の短ワードよりも十分に大きいワードのことで
ある。
【0072】一般に「the」は、文書中で最も頻繁に
出現するワードであるので、プロセッサ11は通常、ワ
ード等価クラスからそれを識別することができる。「t
he」を表すワード等価クラスを識別するために、プロ
セッサ11は最初に、出現頻度に基づいてワード等価ク
ラスを順序付ける。「the」の場所を確実に突きとめ
るために、プロセッサ11は、最も頻繁に出現するワー
ド等価クラスの幅と、最も狭い頻繁出現ワード等価クラ
スの幅を比較する。プロセッサ11は、20〜50の最
も頻繁に出現するワード等価クラスを探索することによ
って、最も狭い頻繁出現ワードを識別する。プロセッサ
11は、最も頻繁に出現するワード等価クラスの幅が最
も狭い頻繁出現ワード等価クラスの幅の少なくとも4倍
である場合に「the」を識別した、と仮定する。プロ
セッサ11が「the」を識別すると、それは選択され
た短ワードとして利用される。他方、プロセッサ11が
「the」を識別しなかった場合、最も狭い頻繁出現ワ
ード等価クラスが、選択短ワードとして利用される。
出現するワードであるので、プロセッサ11は通常、ワ
ード等価クラスからそれを識別することができる。「t
he」を表すワード等価クラスを識別するために、プロ
セッサ11は最初に、出現頻度に基づいてワード等価ク
ラスを順序付ける。「the」の場所を確実に突きとめ
るために、プロセッサ11は、最も頻繁に出現するワー
ド等価クラスの幅と、最も狭い頻繁出現ワード等価クラ
スの幅を比較する。プロセッサ11は、20〜50の最
も頻繁に出現するワード等価クラスを探索することによ
って、最も狭い頻繁出現ワードを識別する。プロセッサ
11は、最も頻繁に出現するワード等価クラスの幅が最
も狭い頻繁出現ワード等価クラスの幅の少なくとも4倍
である場合に「the」を識別した、と仮定する。プロ
セッサ11が「the」を識別すると、それは選択され
た短ワードとして利用される。他方、プロセッサ11が
「the」を識別しなかった場合、最も狭い頻繁出現ワ
ード等価クラスが、選択短ワードとして利用される。
【0073】短くないワードは、デザイン上の選択であ
るので、ワード等価クラスが、選択短ワードよりどのく
らい広いかは指定されなくてはならない。一実施例にお
いて、選択短ワードが「the」の場合、短くないワー
ドは、選択短ワード幅の1.2倍である。選択短ワード
が最も狭い頻繁出現ワード等価クラスの場合、短くない
ワードは、選択短ワードの何倍かの広さ、例えば5x、
でなくてはならない。
るので、ワード等価クラスが、選択短ワードよりどのく
らい広いかは指定されなくてはならない。一実施例にお
いて、選択短ワードが「the」の場合、短くないワー
ドは、選択短ワード幅の1.2倍である。選択短ワード
が最も狭い頻繁出現ワード等価クラスの場合、短くない
ワードは、選択短ワードの何倍かの広さ、例えば5x、
でなくてはならない。
【0074】各センテンスの最初の短くないワードを識
別した後、プロセッサ11は、各ワードがドロップワー
ドではないという可能性を推測する。好ましくは、プロ
セッサ11は、次の式により、この可能性の指標を計算
する。
別した後、プロセッサ11は、各ワードがドロップワー
ドではないという可能性を推測する。好ましくは、プロ
セッサ11は、次の式により、この可能性の指標を計算
する。
【0075】L=(ωi/ωthe)*(1+bi/fi)+
(c*W/fi) 式中、Lは、ワードがドロップワードでない可能性の指
標、ωiは、ワードiの画素単位幅、ωtheは、「th
e」というワードの画素単位幅、biは、適合テキスト
ブロックの一つにおいて、センテンスの最初の短くない
ワードとしてワードiが出現した回数、fiは、適合テ
キストブロックにおけるワードiの出現回数、cは、2
項の間の一定重み付け係数で、好ましくは約0.000
4の値、Wは、文書中のワード総数、である。
(c*W/fi) 式中、Lは、ワードがドロップワードでない可能性の指
標、ωiは、ワードiの画素単位幅、ωtheは、「th
e」というワードの画素単位幅、biは、適合テキスト
ブロックの一つにおいて、センテンスの最初の短くない
ワードとしてワードiが出現した回数、fiは、適合テ
キストブロックにおけるワードiの出現回数、cは、2
項の間の一定重み付け係数で、好ましくは約0.000
4の値、Wは、文書中のワード総数、である。
【0076】式の最初の項である(ωi/ωthe)*(1
+bi/fi)は、内容ワードとしてセンテンスの最初に
出現する傾向のある長いワードに好都合に作用し、次の
項(c*W/fi)は、内容ワードとしてセンテンスに
比較的少なく出現する傾向のあるワードに好都合に作用
する。
+bi/fi)は、内容ワードとしてセンテンスの最初に
出現する傾向のある長いワードに好都合に作用し、次の
項(c*W/fi)は、内容ワードとしてセンテンスに
比較的少なく出現する傾向のあるワードに好都合に作用
する。
【0077】プロセッサ11は、ドロップワードではな
いという可能性に基づいて、ワード等価クラスを順序付
ける。その後、この順序は逆順にされて、ドロップワー
ドであるという可能性に基づいたワード等価クラスの順
序付けを生じる。
いという可能性に基づいて、ワード等価クラスを順序付
ける。その後、この順序は逆順にされて、ドロップワー
ドであるという可能性に基づいたワード等価クラスの順
序付けを生じる。
【0078】プロセッサ11はステップ230からステ
ップ232に進み、単純に、ワード等価クラス総数を、
いくつかの閾値と比較することにより文書が短いか長い
かを判定する。文書が短いものであれば、プロセッサ1
1はステップ234に分岐し、ドロップワードである可
能性が最も高いX個のワードをドロップワードとして削
除する。但し、Xは文書の長さに比例する。Xは、文書
の長さに伴って弱単調に増加させてもよい。他方、文書
が長いものである場合、プロセッサ11はステップ23
6に進む。この場合、プロセッサ11は、ドロップワー
ドである可能性が最も高いY個のワードを、ドロップワ
ードとして削除する。但し、Yは定数である。
ップ232に進み、単純に、ワード等価クラス総数を、
いくつかの閾値と比較することにより文書が短いか長い
かを判定する。文書が短いものであれば、プロセッサ1
1はステップ234に分岐し、ドロップワードである可
能性が最も高いX個のワードをドロップワードとして削
除する。但し、Xは文書の長さに比例する。Xは、文書
の長さに伴って弱単調に増加させてもよい。他方、文書
が長いものである場合、プロセッサ11はステップ23
6に進む。この場合、プロセッサ11は、ドロップワー
ドである可能性が最も高いY個のワードを、ドロップワ
ードとして削除する。但し、Yは定数である。
【0079】図13に、主題センテンスを抜き出す命令
46をフロー図の形で示す。
46をフロー図の形で示す。
【0080】ステップ248にて、プロセッサ11は、
主題総括の長さをSとして、主題センテンスの選択に利
用する主題ワード数を求める。主題ワード数はKで示さ
れている。一般に、Kは、Sより小さく、1より大き
い。KがSより小さいことを要求することにより、選択
主題センテンス間の主題の共通性が保証される。
主題総括の長さをSとして、主題センテンスの選択に利
用する主題ワード数を求める。主題ワード数はKで示さ
れている。一般に、Kは、Sより小さく、1より大き
い。KがSより小さいことを要求することにより、選択
主題センテンス間の主題の共通性が保証される。
【0081】プロセッサ11は、Kの値を利用して、主
題ワードを選択するプロセスを開始する。ステップ25
0で、プロセッサ11は、ワードリストを分析して、文
書中に各ワード等価クラスが出現する回数を求める。こ
れは、単に、各ワードと関連のあるセンテンスI.D.
の数を数えることによって行われる。その後、プロセッ
サ11は、計数に基づいてワードをソート処理する。同
計数を有する2個のワードの引分け関係は、ワード画像
の幅の広いほうに有利に破られる。その後、プロセッサ
11はステップ252に進む。次にプロセッサ11は、
ソート処理されたワードリストから、最も計数の高かっ
たK個のワードを選択する。これが済むと、プロセッサ
11はステップ254に進む。
題ワードを選択するプロセスを開始する。ステップ25
0で、プロセッサ11は、ワードリストを分析して、文
書中に各ワード等価クラスが出現する回数を求める。こ
れは、単に、各ワードと関連のあるセンテンスI.D.
の数を数えることによって行われる。その後、プロセッ
サ11は、計数に基づいてワードをソート処理する。同
計数を有する2個のワードの引分け関係は、ワード画像
の幅の広いほうに有利に破られる。その後、プロセッサ
11はステップ252に進む。次にプロセッサ11は、
ソート処理されたワードリストから、最も計数の高かっ
たK個のワードを選択する。これが済むと、プロセッサ
11はステップ254に進む。
【0082】プロセッサ11は、文書中のK個の主題ワ
ードの総出現回数を計算する。Nで示されるこの数字
は、K個の主題ワードの計数を合計することによって算
出される。プロセッサ11は、ステップ256に分岐す
る。
ードの総出現回数を計算する。Nで示されるこの数字
は、K個の主題ワードの計数を合計することによって算
出される。プロセッサ11は、ステップ256に分岐す
る。
【0083】かくして、プロセッサ11は、文書のセン
テンスの主題内容の評価を開始できるばかりとなる。ス
テップ256、258、260、262にて、プロセッ
サ11は、K個の主題ワードの少なくとも1個を含んで
いるセンテンスだけを検討する。プロセッサ11は、記
憶されたワードリストのうちで、最もスコアの高かった
K個のワードを調べることによって、そのように行う。
ステップ256にて、tsで示される1個のワードを選
択した後、プロセッサ11は、選択ワードtsと関係の
ある各センテンスI.D.を調べる。選択ワードtsと
関係のある各センテンスI.D.に対し、プロセッサ1
1はそのセンテンスのスコアを増分する。
テンスの主題内容の評価を開始できるばかりとなる。ス
テップ256、258、260、262にて、プロセッ
サ11は、K個の主題ワードの少なくとも1個を含んで
いるセンテンスだけを検討する。プロセッサ11は、記
憶されたワードリストのうちで、最もスコアの高かった
K個のワードを調べることによって、そのように行う。
ステップ256にて、tsで示される1個のワードを選
択した後、プロセッサ11は、選択ワードtsと関係の
ある各センテンスI.D.を調べる。選択ワードtsと
関係のある各センテンスI.D.に対し、プロセッサ1
1はそのセンテンスのスコアを増分する。
【0084】センテンスのスコアは、ステップ258に
てセンテンススコアリストを作成することによって追跡
できる。プロセッサ11がセンテンスI.D.を選択す
るたびに、センテンススコアリストは、それにセンテン
スI.D.が含まれているか否か、調べられる。含まれ
ていない場合には、センテンススコアリストにセンテン
スI.D.が加えられ、そのスコアが適宜に増加され
る。他方、センテンススコアリストに既に特定のセンテ
ンスI.D.が含まれている場合、既にセンテンスに関
連付けられているスコアは、前述の方法で増分される。
てセンテンススコアリストを作成することによって追跡
できる。プロセッサ11がセンテンスI.D.を選択す
るたびに、センテンススコアリストは、それにセンテン
スI.D.が含まれているか否か、調べられる。含まれ
ていない場合には、センテンススコアリストにセンテン
スI.D.が加えられ、そのスコアが適宜に増加され
る。他方、センテンススコアリストに既に特定のセンテ
ンスI.D.が含まれている場合、既にセンテンスに関
連付けられているスコアは、前述の方法で増分される。
【0085】選択ワードtsに関連付けられた全部のセ
ンテンスのスコアを増分した後、プロセッサ11はステ
ップ260に分岐する。プロセッサ11は、主題ワード
の評価が済んだか否かを判断する。評価が済んでいない
場合には、プロセッサ11はステップ256に戻り、選
択ワードとして別の主題ワードを選択する。プロセッサ
11は、全部の主題ワードの検証がなされるまで、先に
述べた様にステップ256、258、260を経て分岐
する。全てが評価済みという事象が発生すると、プロセ
ッサ11はステップ262に分岐する。
ンテンスのスコアを増分した後、プロセッサ11はステ
ップ260に分岐する。プロセッサ11は、主題ワード
の評価が済んだか否かを判断する。評価が済んでいない
場合には、プロセッサ11はステップ256に戻り、選
択ワードとして別の主題ワードを選択する。プロセッサ
11は、全部の主題ワードの検証がなされるまで、先に
述べた様にステップ256、258、260を経て分岐
する。全てが評価済みという事象が発生すると、プロセ
ッサ11はステップ262に分岐する。
【0086】プロセッサ11は、最もスコアの高いS個
のセンテンスを主題総括として選択する。プロセッサ1
1は、スコアに基づいてセンテンススコアリストをソー
ト処理することによって、これを行う。主題センテンス
を選択した後、プロセッサ11は、ユーザに主題総括を
提示する場合もある。
のセンテンスを主題総括として選択する。プロセッサ1
1は、スコアに基づいてセンテンススコアリストをソー
ト処理することによって、これを行う。主題センテンス
を選択した後、プロセッサ11は、ユーザに主題総括を
提示する場合もある。
【図1】 命令を実行することによって本方法を実施す
るコンピュータシステムのブロック図である。
るコンピュータシステムのブロック図である。
【図2】 最初にOCRを実行せずに文書画像から文書
の主題総括を作る命令のフロー図である。
の主題総括を作る命令のフロー図である。
【図3】 テキスト本体のブロックを識別する命令のフ
ロー図である。
ロー図である。
【図4】 適合テキストブロックの読取り順序を判断す
る命令のフロー図の第1の部分である。
る命令のフロー図の第1の部分である。
【図5】 適合テキストブロックの読取り順序を判断す
る命令のフロー図の第2の部分である。
る命令のフロー図の第2の部分である。
【図6】 適合テキストのブロック内のセンテンス境界
を識別するためにプロセッサ11が実行する命令の概要
図である。
を識別するためにプロセッサ11が実行する命令の概要
図である。
【図7】 選択された連結成分がピリオドであるか否か
を判断する命令のフロー図である。
を判断する命令のフロー図である。
【図8】 選択された連結成分がコロンであるか否かを
判断する命令のフロー図である。
判断する命令のフロー図である。
【図9】 選択された連結成分が省略記号の一部である
か否かを判断する命令のフロー図である。
か否かを判断する命令のフロー図である。
【図10】 選択された連結成分の次に1個または2個
の引用符が続いているか否かを判断する命令のフロー図
である。
の引用符が続いているか否かを判断する命令のフロー図
である。
【図11】 選択された連結成分がセンテンス内の略語
の一部であるか否かを判断する命令のフロー図である。
の一部であるか否かを判断する命令のフロー図である。
【図12】 ワードリストからドロップワードを識別し
て削除する命令のフロー図である。
て削除する命令のフロー図である。
【図13】 主題センテンスを抜き出す命令のフロー図
である。
である。
10 コンピュータシステム 11 プロセッサ 12 モニタ 13 プリンタ 14 キーボード 16 マウス 18 電子タブレット 22 フロッピーディスクドライブ 24 スキャナ 26 文書 28 半導体メモリ
Claims (4)
- 【請求項1】 各々が境界ボックスを有する複数の連結
成分を含む文書画像内のセンテンスの境界を光学式文字
認識を行わずに識別する方法で、当該方法を表現する命
令を記憶するメモリに結合されたプロセッサによって実
施される方法であって、 a) 複数の連結成分から1個の連結成分を選択するス
テップと、 b) 選択された連結成分の形に基づいて、選択された
連結成分がピリオドかも知れないと判断するステップ
と、 c) 選択された連結成分がコロンの一部であるか否か
を判断するステップと、 d) 選択された連結成分が省略記号の一部であるか否
かを判断するステップと、 e) 選択された連結成分が感嘆符または疑問符の一部
であるかを判断するステップと、 f) 選択された連結成分がセンテンス内の略語である
か否かを判断するステップと、 g) 選択された連結成分がピリオドであるかも知れ
ず、コロンの一部ではなく、省略記号の一部ではなく、
疑問符または感嘆符の一部ではなく、センテンス内の略
語の一部ではない場合に、この選択された連結成分をセ
ンテンス境界と標識するステップとを含む前記方法。 - 【請求項2】 請求項1に記載の方法において、ステッ
プb)が、 1) 選択された連結成分がピリオドであるには、選択
された連結成分の境界ボックスが小さすぎるか否かを判
断するステップと、 2) 選択された連結成分の境界の形が、ドット形であ
るか否かを判断するステップと、 3) 選択された連結成分の境界ボックスが、選択され
た連結成分と関連のあるベースラインに近接しすぎてい
るか否かを判断するステップとを含むことを特徴とする
前記方法。 - 【請求項3】 請求項1に記載の方法において、ステッ
プc)が、 1) 選択された連結成分に隣接する一対の連結成分の
うちのいずれかが、ドット形であるか否かを判断するス
テップと、 2) 選択された連結成分に隣接する一対の連結成分の
いずれかの境界ボックスが、選択された連結成分の境界
ボックスに重なっているか否かを判断するステップと、 3) 選択された連結成分の境界ボックスと、選択され
た連結成分に隣接する一対の連結成分のいずれかのボッ
クスの間の距離が、第1の閾値より小さいか否かを判断
するステップとを含むことを特徴とする前記方法。 - 【請求項4】 請求項1に記載の方法において、ステッ
プf)が、 1) 後続連結成分が、選択された連結成分に十分に近
接しているか否かを判断するステップを含むことを特徴
とする前記方法。
Applications Claiming Priority (2)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
US572597 | 1995-12-14 | ||
US08/572,597 US5892842A (en) | 1995-12-14 | 1995-12-14 | Automatic method of identifying sentence boundaries in a document image |
Publications (1)
Publication Number | Publication Date |
---|---|
JPH09179937A true JPH09179937A (ja) | 1997-07-11 |
Family
ID=24288550
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
JP8320505A Withdrawn JPH09179937A (ja) | 1995-12-14 | 1996-11-29 | 文書画像のセンテンスの境界の自動識別方法 |
Country Status (3)
Country | Link |
---|---|
US (1) | US5892842A (ja) |
EP (1) | EP0779594A3 (ja) |
JP (1) | JPH09179937A (ja) |
Cited By (3)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
JP2012155714A (ja) * | 2011-01-18 | 2012-08-16 | Apple Inc | 文書コンテンツの順序付け |
US8886676B2 (en) | 2011-01-18 | 2014-11-11 | Apple Inc. | Reconstruction of lists in a document |
US9063911B2 (en) | 2009-01-02 | 2015-06-23 | Apple Inc. | Identification of layout and content flow of an unstructured document |
Families Citing this family (34)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
JP3427692B2 (ja) * | 1996-11-20 | 2003-07-22 | 松下電器産業株式会社 | 文字認識方法および文字認識装置 |
US6498921B1 (en) * | 1999-09-01 | 2002-12-24 | Chi Fai Ho | Method and system to answer a natural-language question |
US5836771A (en) * | 1996-12-02 | 1998-11-17 | Ho; Chi Fai | Learning method and system based on questioning |
GB9711022D0 (en) * | 1997-05-28 | 1997-07-23 | Rank Xerox Ltd | Text/image selection from document images |
JP3597697B2 (ja) * | 1998-03-20 | 2004-12-08 | 富士通株式会社 | 文書要約装置およびその方法 |
US6598045B2 (en) * | 1998-04-07 | 2003-07-22 | Intel Corporation | System and method for piecemeal relevance evaluation |
US6742164B1 (en) | 1999-09-01 | 2004-05-25 | International Business Machines Corporation | Method, system, and program for generating a deterministic table to determine boundaries between characters |
US6626960B1 (en) | 1999-09-01 | 2003-09-30 | International Business Machines Corporation | Method, system, and program for generating a table to determine boundaries between characters |
US6941513B2 (en) | 2000-06-15 | 2005-09-06 | Cognisphere, Inc. | System and method for text structuring and text generation |
JP2002032770A (ja) * | 2000-06-23 | 2002-01-31 | Internatl Business Mach Corp <Ibm> | 文書処理方法、文書処理システムおよび媒体 |
US6912308B2 (en) * | 2000-12-01 | 2005-06-28 | Targus Communications Corp. | Apparatus and method for automatic form recognition and pagination |
US7746510B2 (en) * | 2001-02-01 | 2010-06-29 | Pandipati Radha K C | Receipts scanner and financial organizer |
US6826305B2 (en) * | 2001-03-27 | 2004-11-30 | Ncr Corporation | Methods and apparatus for locating and identifying text labels in digital images |
JP3557605B2 (ja) * | 2001-09-19 | 2004-08-25 | インターナショナル・ビジネス・マシーンズ・コーポレーション | 文切り方法及びこれを用いた文切り処理装置、機械翻訳装置並びにプログラム |
US6993185B2 (en) * | 2002-08-30 | 2006-01-31 | Matsushita Electric Industrial Co., Ltd. | Method of texture-based color document segmentation |
US7236653B2 (en) * | 2003-03-27 | 2007-06-26 | Sharp Laboratories Of America, Inc. | System and method for locating document areas using markup symbols |
US7756871B2 (en) * | 2004-10-13 | 2010-07-13 | Hewlett-Packard Development Company, L.P. | Article extraction |
US20080089602A1 (en) * | 2006-10-17 | 2008-04-17 | Eastman Kodak Company | Advanced automatic digital radiographic hot light method and apparatus |
US8009928B1 (en) * | 2008-01-23 | 2011-08-30 | A9.Com, Inc. | Method and system for detecting and recognizing text in images |
US8074171B2 (en) * | 2008-06-06 | 2011-12-06 | International Business Machines Corporation | System and method to provide warnings associated with natural language searches to determine intended actions and accidental omissions |
JP5412916B2 (ja) * | 2009-03-27 | 2014-02-12 | コニカミノルタ株式会社 | 文書画像処理装置、文書画像処理方法および文書画像処理プログラム |
US8649600B2 (en) * | 2009-07-10 | 2014-02-11 | Palo Alto Research Center Incorporated | System and method for segmenting text lines in documents |
US8442319B2 (en) * | 2009-07-10 | 2013-05-14 | Palo Alto Research Center Incorporated | System and method for classifying connected groups of foreground pixels in scanned document images according to the type of marking |
US8452086B2 (en) * | 2009-07-10 | 2013-05-28 | Palo Alto Research Center Incorporated | System and user interface for machine-assisted human labeling of pixels in an image |
US8565474B2 (en) * | 2010-03-10 | 2013-10-22 | Microsoft Corporation | Paragraph recognition in an optical character recognition (OCR) process |
EP2477122B1 (en) * | 2011-01-18 | 2018-10-24 | Apple Inc. | Ordering document content |
US8712188B2 (en) * | 2011-04-28 | 2014-04-29 | Hewlett-Packard Development Company, L.P. | System and method for document orientation detection |
US9569679B1 (en) * | 2012-12-04 | 2017-02-14 | A9.Com, Inc. | Adaptive image sampling for text detection |
US20140320527A1 (en) * | 2013-04-30 | 2014-10-30 | Microsoft Corporation | Hardware glyph cache |
US10372816B2 (en) * | 2016-12-13 | 2019-08-06 | International Business Machines Corporation | Preprocessing of string inputs in natural language processing |
US10699058B2 (en) | 2018-05-10 | 2020-06-30 | Adobe Inc. | Digital content design system using baseline units to control arrangement and sizing of digital content |
JP2020123925A (ja) * | 2019-01-31 | 2020-08-13 | 富士ゼロックス株式会社 | 情報処理装置及びプログラム |
US11120256B2 (en) * | 2019-03-28 | 2021-09-14 | Zycus Infotech Pvt. Ltd. | Method of meta-data extraction from semi-structured documents |
US11188745B2 (en) * | 2019-09-13 | 2021-11-30 | At&T Intellectual Property I, L.P. | Enhancing electronic documents for character recognition |
Family Cites Families (32)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
US3930237A (en) * | 1974-03-07 | 1975-12-30 | Computervision Corp | Method for automating the production of engineering documentation utilizing an integrated digital data base representation of the documentation |
US4194221A (en) * | 1978-12-26 | 1980-03-18 | Xerox Corporation | Automatic multimode continuous halftone line copy reproduction |
US4741045A (en) * | 1983-09-23 | 1988-04-26 | Dest Corporation | Optical character isolation system, apparatus and method |
US4610025A (en) * | 1984-06-22 | 1986-09-02 | Champollion Incorporated | Cryptographic analysis system |
US4965763A (en) * | 1987-03-03 | 1990-10-23 | International Business Machines Corporation | Computer method for automatic extraction of commonly specified information from business correspondence |
US4907283A (en) * | 1987-03-13 | 1990-03-06 | Canon Kabushiki Kaisha | Image processing apparatus |
JP2822189B2 (ja) * | 1988-05-19 | 1998-11-11 | ソニー株式会社 | 文字認識装置及び方法 |
JP2783558B2 (ja) * | 1988-09-30 | 1998-08-06 | 株式会社東芝 | 要約生成方法および要約生成装置 |
US5131049A (en) * | 1989-12-08 | 1992-07-14 | Xerox Corporation | Identification, characterization, and segmentation of halftone or stippled regions of binary images by growing a seed to a clipping mask |
US5181255A (en) * | 1990-12-13 | 1993-01-19 | Xerox Corporation | Segmentation of handwriting and machine printed text |
US5202933A (en) * | 1989-12-08 | 1993-04-13 | Xerox Corporation | Segmentation of text and graphics |
US5495349A (en) * | 1990-01-13 | 1996-02-27 | Canon Kabushiki Kaisha | Color image processing apparatus that stores processing parameters by character data |
JPH0418673A (ja) * | 1990-05-11 | 1992-01-22 | Hitachi Ltd | テキスト情報抽出方法および装置 |
JP3691844B2 (ja) * | 1990-05-21 | 2005-09-07 | 株式会社東芝 | 文書処理方法 |
JP2829937B2 (ja) * | 1990-08-06 | 1998-12-02 | キヤノン株式会社 | 画像検索方法及び装置 |
US5216725A (en) * | 1990-10-31 | 1993-06-01 | Environmental Research Institute Of Michigan | Apparatus and method for separating handwritten characters by line and word |
JP2925359B2 (ja) * | 1991-06-19 | 1999-07-28 | キヤノン株式会社 | 文字処理方法及び装置 |
US5390259A (en) * | 1991-11-19 | 1995-02-14 | Xerox Corporation | Methods and apparatus for selecting semantically significant images in a document image without decoding image content |
US5321770A (en) * | 1991-11-19 | 1994-06-14 | Xerox Corporation | Method for determining boundaries of words in text |
CA2077604C (en) * | 1991-11-19 | 1999-07-06 | Todd A. Cass | Method and apparatus for determining the frequency of words in a document without document image decoding |
CA2077274C (en) * | 1991-11-19 | 1997-07-15 | M. Margaret Withgott | Method and apparatus for summarizing a document without document image decoding |
US5488719A (en) * | 1991-12-30 | 1996-01-30 | Xerox Corporation | System for categorizing character strings using acceptability and category information contained in ending substrings |
US5442715A (en) * | 1992-04-06 | 1995-08-15 | Eastman Kodak Company | Method and apparatus for cursive script recognition |
JPH0696288A (ja) * | 1992-09-09 | 1994-04-08 | Toshiba Corp | 文字認識装置及び機械翻訳装置 |
NL9300310A (nl) * | 1993-02-19 | 1994-09-16 | Oce Nederland Bv | Inrichting en werkwijze voor syntactische signaal-analyse. |
US5396566A (en) * | 1993-03-04 | 1995-03-07 | International Business Machines Corporation | Estimation of baseline, line spacing and character height for handwriting recognition |
US5384864A (en) * | 1993-04-19 | 1995-01-24 | Xerox Corporation | Method and apparatus for automatic determination of text line, word and character cell spatial features |
US5444797A (en) * | 1993-04-19 | 1995-08-22 | Xerox Corporation | Method and apparatus for automatic character script determination |
US5638543A (en) * | 1993-06-03 | 1997-06-10 | Xerox Corporation | Method and apparatus for automatic document summarization |
US5410611A (en) * | 1993-12-17 | 1995-04-25 | Xerox Corporation | Method for identifying word bounding boxes in text |
JP3647518B2 (ja) * | 1994-10-06 | 2005-05-11 | ゼロックス コーポレイション | コード化したワードトークンを使用して文書画像をハイライトで強調する装置 |
US5689342A (en) * | 1994-11-17 | 1997-11-18 | Canon Kabushiki Kaisha | Image processing method and apparatus which orders text areas which have been extracted from an image |
-
1995
- 1995-12-14 US US08/572,597 patent/US5892842A/en not_active Expired - Lifetime
-
1996
- 1996-11-29 JP JP8320505A patent/JPH09179937A/ja not_active Withdrawn
- 1996-12-11 EP EP96308997A patent/EP0779594A3/en not_active Withdrawn
Cited By (4)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
US9063911B2 (en) | 2009-01-02 | 2015-06-23 | Apple Inc. | Identification of layout and content flow of an unstructured document |
US9959259B2 (en) | 2009-01-02 | 2018-05-01 | Apple Inc. | Identification of compound graphic elements in an unstructured document |
JP2012155714A (ja) * | 2011-01-18 | 2012-08-16 | Apple Inc | 文書コンテンツの順序付け |
US8886676B2 (en) | 2011-01-18 | 2014-11-11 | Apple Inc. | Reconstruction of lists in a document |
Also Published As
Publication number | Publication date |
---|---|
US5892842A (en) | 1999-04-06 |
EP0779594A2 (en) | 1997-06-18 |
EP0779594A3 (en) | 1998-01-14 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
JPH09179937A (ja) | 文書画像のセンテンスの境界の自動識別方法 | |
JP3943638B2 (ja) | Ocrを利用しない文書画像中のドロップワードの自動認識方法 | |
US5848191A (en) | Automatic method of generating thematic summaries from a document image without performing character recognition | |
JP3343864B2 (ja) | 語体の分離方法 | |
US5539841A (en) | Method for comparing image sections to determine similarity therebetween | |
US5390259A (en) | Methods and apparatus for selecting semantically significant images in a document image without decoding image content | |
EP0543590B1 (en) | Method for comparing word shapes | |
KR100658119B1 (ko) | 문자 인식 장치 및 방법 | |
US5491760A (en) | Method and apparatus for summarizing a document without document image decoding | |
JP6900164B2 (ja) | 情報処理装置、情報処理方法及びプログラム | |
US7580571B2 (en) | Method and apparatus for detecting an orientation of characters in a document image | |
JP2001283152A (ja) | 帳票類判別装置、帳票類判別方法、およびこれらの方法をコンピュータに実行させるプログラムを記録したコンピュータ読み取り可能な記録媒体 | |
US6496600B1 (en) | Font type identification | |
JP4280355B2 (ja) | 文字認識装置 | |
US7146047B2 (en) | Image processing apparatus and method generating binary image from a multilevel image | |
JPH07220023A (ja) | 表認識方法及びその装置 | |
JPH07220081A (ja) | 画像認識装置の図形の切出し方法 | |
JPH0350692A (ja) | 文字認識装置 | |
JP2001283157A (ja) | 単語認識方法および単語認識プログラム | |
KR102742277B1 (ko) | 만주어의 글자 추출 방법 및 이를 수행하는 시스템 | |
Chen et al. | Detection and location of multicharacter sequences in lines of imaged text | |
JP4328511B2 (ja) | パターン認識装置、パターン認識方法、プログラムおよび記憶媒体 | |
JP3190794B2 (ja) | 文字切り出し装置 | |
JP3077929B2 (ja) | 文字切出し方式 | |
JP3428504B2 (ja) | 文字認識装置 |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
A761 | Written withdrawal of application |
Free format text: JAPANESE INTERMEDIATE CODE: A761 Effective date: 20050927 |