JP4780169B2 - データ生成装置、スキャナ、及びコンピュータプログラム - Google Patents
データ生成装置、スキャナ、及びコンピュータプログラム Download PDFInfo
- Publication number
- JP4780169B2 JP4780169B2 JP2008252479A JP2008252479A JP4780169B2 JP 4780169 B2 JP4780169 B2 JP 4780169B2 JP 2008252479 A JP2008252479 A JP 2008252479A JP 2008252479 A JP2008252479 A JP 2008252479A JP 4780169 B2 JP4780169 B2 JP 4780169B2
- Authority
- JP
- Japan
- Prior art keywords
- page
- data
- numbers
- specified
- contents
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Expired - Fee Related
Links
Images
Classifications
-
- H—ELECTRICITY
- H04—ELECTRIC COMMUNICATION TECHNIQUE
- H04N—PICTORIAL COMMUNICATION, e.g. TELEVISION
- H04N1/00—Scanning, transmission or reproduction of documents or the like, e.g. facsimile transmission; Details thereof
- H04N1/00127—Connection or combination of a still picture apparatus with another apparatus, e.g. for storage, processing or transmission of still picture signals or of information associated with a still picture
- H04N1/00204—Connection or combination of a still picture apparatus with another apparatus, e.g. for storage, processing or transmission of still picture signals or of information associated with a still picture with a digital computer or a digital computer system, e.g. an internet server
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F16/00—Information retrieval; Database structures therefor; File system structures therefor
- G06F16/90—Details of database functions independent of the retrieved data types
- G06F16/93—Document management systems
- G06F16/94—Hypermedia
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F40/00—Handling natural language data
- G06F40/10—Text processing
- G06F40/12—Use of codes for handling textual entities
- G06F40/134—Hyperlinking
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F40/00—Handling natural language data
- G06F40/20—Natural language analysis
- G06F40/258—Heading extraction; Automatic titling; Numbering
-
- H—ELECTRICITY
- H04—ELECTRIC COMMUNICATION TECHNIQUE
- H04N—PICTORIAL COMMUNICATION, e.g. TELEVISION
- H04N2201/00—Indexing scheme relating to scanning, transmission or reproduction of documents or the like, and to details thereof
- H04N2201/0077—Types of the still picture apparatus
- H04N2201/0081—Image reader
Landscapes
- Engineering & Computer Science (AREA)
- Theoretical Computer Science (AREA)
- General Engineering & Computer Science (AREA)
- Physics & Mathematics (AREA)
- General Physics & Mathematics (AREA)
- Databases & Information Systems (AREA)
- Artificial Intelligence (AREA)
- Audiology, Speech & Language Pathology (AREA)
- Computational Linguistics (AREA)
- General Health & Medical Sciences (AREA)
- Health & Medical Sciences (AREA)
- Business, Economics & Management (AREA)
- General Business, Economics & Management (AREA)
- Data Mining & Analysis (AREA)
- Computing Systems (AREA)
- Multimedia (AREA)
- Signal Processing (AREA)
- Information Retrieval, Db Structures And Fs Structures Therefor (AREA)
- Document Processing Apparatus (AREA)
- Facsimiles In General (AREA)
Description
本明細書によって開示される他の技術は、目次及び/又は索引ページのデータと、それぞれがページ番号を含む複数の通常ページのデータとを含むデータ群からハイパーリンク構造のデータを生成するデータ生成装置である。なお、上記のデータ群は、文書をスキャンすることによって得られた画像データであってもよいし、ワープロソフト等によって作成されたテキスト形式のデータであってもよい。目次及び/又は索引ページとは、目次及び/又は索引の内容を含むページであり、目次及び/又は索引以外の内容が含まれているページも含む概念である。通常ページとは、目次及び/又は索引の内容を含まないページである。データ生成装置は、データ特定手段と数字特定手段とハイパーリンク手段を備える。データ特定手段は、データ群から目次及び/又は索引ページのデータを特定する。データ特定手段は、例えば、目次及び/又は索引ページのデータをユーザが指定することを許容するものであってもよい。この場合、ユーザによって指定されたデータを特定することが「目次及び/又は索引ページのデータを特定する」ことに相当する。あるいは、ページのデータが画像データである場合には、データに含まれる「目次」、「もくじ」、「索引」、「index」等の文字を認識することによって、目次及び/又は索引ページのデータを特定してもよい。数字特定手段は、データ特定手段で特定された目次及び/又は索引ページのデータに含まれている数字と、その数字が配置されているデータ上の位置とを特定する。データ上の位置とは、数字が配置されているデータ上の座標であってもよく、数字が配置されているデータ上の領域であってもよい。ハイパーリンク手段は、数字特定手段で特定された数字の位置に対応する位置に、当該数字と同じページ番号を含む通常ページのデータにリンクするためのハイパーリンクを生成する。数字特定手段で特定された数字の位置に対応する位置とは、数字特定手段で特定された数字の位置であってもよく、数字特定手段で特定された数字に対応する文字列(例えば、特定された数字に対応する目次ページの見出し、索引ページの索引の対象となる単語等)の位置、又は、数字特定手段で特定された数字の位置とその数字に対応する文字列の位置とを含む領域(例えば、目次又は索引ページが横書きである場合には数字列と同一の行の領域、目次又は索引ページが縦書きである場合には数字列と同一の列の領域)であってもよい。また、特定された数字の位置が含まれていてもよいし、含まれていなくてもよい。なお、上記のハイパーリンクは、「目次及び/又は索引ページが表示されている状態において、そのページ上の数字に対して所定の操作(例えばクリック)が実行された場合に、その数字と同じページ番号の通常ページのデータを表示することをコンピュータに指示する命令(情報)」と言い換えることができる。
一方において、上記したデータ生成装置は、ページ番号特定手段と記憶手段をさらに備えていてもよい。ページ番号特定手段は、複数の通常ページのデータのそれぞれからページ番号に相当する数字を特定してもよい。記憶手段は、複数の通常ページのデータのそれぞれについて、当該通常ページのデータと、当該通常ページのデータからページ番号特定手段で特定された数字とを対応づけて記憶してもよい。ハイパーリンク手段は、数字特定手段で特定された数字の位置に、当該数字と同じ数字に対応づけて記憶手段に記憶されている通常ページのデータにリンクするためのハイパーリンクを生成してもよい。
この構成によると、数字特定手段とページ番号特定手段が数字を特定することができる。なお、照合を実行するための利用される文字は、上記の所定の数字のみに限られない。数字に加えて他の文字を用いて照合を実行してもよい。例えば、ハイフンやカンマを用いて照合を実行してもよい。なお、照合を実行するために利用される文字の数は、できるだけ少ない方がよい。照合を短時間で実行することができるからである。例えば、照合を実行するために利用される文字は、数字と予め決められている記号のみであってもよい。例えば、0から9までの数字と、「,」(カンマ)、「−」(ハイフン)等の記号のみであってもよい。即ち、アルファベット、ひらがな、片仮名、漢字等を利用しなくてもよい。
通常ページでは、ページ番号は、文書の種類を問わず、当該ページの外周付近に記載されていることがほとんどである。ページ番号特定手段が照合すべきデータを限定することによって、ページ番号に相当する数字を特定する時間を短縮することができる。
ページ番号特定手段がページ番号に相当する数字を特定することができない場合がある。文書をスキャンして画像データを生成する場合、例えば、通常ページのページ番号が記載されている箇所が破損していたり、汚れていることによって、ページ番号に対応する数字のデータが画像データに含まれていないページのデータが存在する場合がある。この場合、ページ番号特定手段は、画像データに含まれている数字を認識しても、ページ番号に相当する数字を特定することができない。例えば、1ページから8ページの通常ページのデータからページ番号に対応する数字が特定されており、10ページ以降の通常ページのデータからページ番号に対応する数字が特定されており、1ページ分の通常ページのデータのページ番号に対応する数字が特定できなかった場合、ページ番号特定手段は、当該ページ番号が特定できなかった通常ページのデータを9ページのデータであると決定することができる。これにより、認識手段によってページ番号が特定できなかった通常ページのデータに相当するページ番号を決定することができる。
この構成によれば、認識手段によってページ番号が特定できなかった通常ページのデータに相当するページ番号を決定することができる。
例えば、索引ページにおいて、キーワード「ZZZ」が複数のページ(例えば、13ページ目と24ページ目)に記載されている場合、索引ページには、「ZZZ」に対応するページ番号として、「13 24」のように、ページ番号に相当する数字が並べて記載されていることが多い。この数字特定手段では、2以上の数字を含む数字列において各数字間の間隔が予め決められている第1間隔以下である場合に、1ページ分のページ番号に相当する数字であると特定している。この数字特定手段によれば、「13 24」と記載されている数字に対して、「13」と「24」をそれぞれ別のページを表す数字列であると特定することができる。
例えば、ページ番号が1000以上の場合、「1,000」と記載されている場合がある。この数字特定手段では、カンマの前後の数字列のそれぞれが第1間隔以下であり、カンマとその前後の数字との間隔が第2間隔以下である場合、1ページ分のページ番号に相当する数字であると特定する。これにより、「1,000」等の千桁を越える数字をページ番号に相当する数字であると特定することができる。
ページ番号に相当する数字以外の数字が含まれている場合、数字列の前後に他の文字が存在する場合が多い。この数字特定手段によれば、数字列の前後に他の文字が存在する場合、ページ番号に相当する数字として特定しない。これにより、より正確にページ番号に相当する数字を特定することができる。
通常ページのページ番号に相当する数字列の前後には、非数字文字が含まれている場合がある。例えば、ページ番号が「-123-」のように、数字列のハイフンが含まれている場合がある。一方において、通常ページには、ページ番号以外の数字が含まれている可能性がある。このページ番号特定手段によれば、前記した事象において、ページ番号に相当する数字を的確に特定することができる。
この構成によれば、より正確にページ番号に相当する数字を特定することができる。
このスキャナによれば、スキャンして生成したデータ群から、ハイパーリンク構造のデータを生成することができる。
上記のデータ生成装置のための他のコンピュータプログラムも有用である。このコンピュータプログラムは、データ群から目次及び/又は索引ページのデータを特定するデータ特定処理と、データ特定処理で特定された目次及び/又は索引ページのデータに含まれている数字と、その数字が配置されているデータ上の位置とを特定する数字特定処理と、数字特定処理で特定された数字の位置に対応する位置に、当該数字と同じページ番号を含む通常ページのデータにリンクするためのハイパーリンクを生成するハイパーリンク処理をコンピュータに実行させる。
このコンピュータプログラムを用いると、上記のデータ生成装置を実現することができる。
(形態1)データ生成装置は、例えば、データ管理テーブルを記憶するテーブル記憶手段をさらに備えていてもよい。データ管理テーブルには、データ群におけるデータ毎の通し番号とデータ名とデータのページ属性とデータのページ番号とが対応付けて記録可能であってもよい。ページ属性とは、目次ページ、索引ページ又は通常ページのいずれかであってもよい。
(形態2)データ生成装置は、リンク情報テーブルを記憶することが可能であってもよい。リンク情報テーブルには、各目次及び/又は索引ページのデータ毎に、当該ページに含まれている数字とその数字の位置が対応付けて記録可能であってもよい。
図面を参照して実施例を説明する。図1は、スキャナ10の構成を示すブロック図である。スキャナ10は、制御部14と表示部16と操作部18とスキャナ部20とネットワークインターフェイス(図1及び以下では、ネットワークI/Fと呼ぶ)24とホストデバイスインターフェイス(図1及び以下では、ホストデバイスI/Fと呼ぶ)26とメモリカードインターフェイス(図1及び以下では、メモリカードI/Fと呼ぶ)28を備える。スキャナ10の各部は、バス12によって接続されている。
ユーザは、操作部18を操作することによって、スキャナ10に書類をスキャンすることを指示することができる。CPU30は、ROM32に記憶されているスキャナ基本機能プログラム38に従って、「通常モード」と「文書モード」のいずれかをユーザが選択可能となるように、表示部16に表示させる。ユーザは、操作部18を操作することによって、「通常モード」と「文書モード」のいずれかを選択することができる。ユーザによって「通常モード」が選択されると、CPU30は、ROM32に記憶されているスキャナ基本機能プログラム38に従って、スキャナ部20にセットされた書類をスキャナ部20に読み取らせ、画像データを作成する。CPU30は、作成した画像データをネットワークI/F24又はホストデバイスI/F26を介して、外部のPC等に送信する。あるいはメモリカードI/F28を介して接続されているメモリカードに記憶させる。
CPU30は、ページ番号に相当する数字を識別するページ番号識別処理を実行する(S86)。ページ番号識別処理では、CPU30は、ROM32のページ情報抽出プログラム44に記憶されているページ番号を示す数字の識別規則(図16)に従ってページ番号を識別する。ページ番号を示す数字の識別規則は、後で詳しく説明する。S86では、CPU30は、ページ番号に相当する数字の画像データにおける座標又は領域を特定する。ページ番号に相当する数字を識別することができた各画像データに関する情報をRAM34のリンク情報作成一時記憶領域52に記録する(S88)。
上記した識別規則(1)から(4)に従うことによって、CPU30は、ページ番号に相当しない数字列をページ番号に相当する数字列として特定する可能性を低くすることができる。
CPU30は、各画像データ86について、ページ情報84を作成する。CPU30は、画像データ86に付与されている番号「p」と同一のスキャン番号62に対応付けて画像データ管理テーブル60に記録されている属性66を確認する。属性66が「通常」の場合、CPU30は、画像pへのリンク情報84aをページ情報84に書き込むことによってページ情報を作成する。一方において、属性が「目次」又は「索引」の場合、CPU30は、画像pへのリンク情報84aをページ情報84に書き込む。また、CPU30は、スキャン番号92が「p」であるリンク情報テーブル90から、ページ番号94と位置情報96を、ページ番号94毎に位置情報84cに書き込む。
上記した実施例では、スキャナ10は、1ページ分のページをスキャナ部20にスキャンさせるときに、当該ページの属性「目次」、「索引」、「通常」をユーザに選択させている。しかしながら、1つの文書の全てのページをスキャナ部20にスキャンさせてからページの属性をユーザに選択させてもよい。あるいは、スキャナ10は、生成した画像データの全領域又は特定の領域に対して文字認識することによって、当該ページの属性「目次」、「索引」、「通常」を特定してもよい。
また、上記した実施例では、CPU30は、目次又は索引ページのページ番号に相当する数字を特定する場合、識別規則(1)から(4)に従って、特定している。しかしながら、CPU30は、目次又は索引ページに含まれる数字列のうち、数字列が1個の数字の場合、又は、数字列が2個以上の数字を含んでおり、かつ、各数字間の間隔が第3間隔以下である場合、当該数字列をページ番号に相当する数字列として特定してもよい。これにより、CPU30が実行する目次・索引情報抽出処理の時間を短縮することができる。ユーザは、目次又は索引ページをPCの表示部に表示させて、所望のページ番号を選択する(クリックする)場合に、ページ番号に相当しない数字列を選択することはほとんどなく、ページ番号に相当しない数字列の位置に、当該数字列に対応するページ番号の通常ページがハイパーリンクされていても、ユーザが混乱することはない。
また、上記した実施例では、スキャナ10のCPU30により、ハイパーリンク構造のファイル80を生成している。しかしながら、スキャナ10に接続されたPC等の外部装置のCPUによって、ファイル80を生成してもよい。この場合、PCには、上記した文字認識プログラム40、目次情報抽出プログラム42、ページ情報抽出プログラム44、リンク作成プログラム46が記憶されていてもよい。PCは、これらのプログラムを実行することで、スキャナ10により読み取られ、PCにて受信した画像データに対して、ハイパーリンクを生成することができる。
また、上記した実施例では、ファイル80は、1個のファイルである。しかしながら、ファイル80は、複数個のファイル群であってもよい。例えば、目次及び/索引ページのデータと各画像データのそれぞれとを別々のファイル(例えば、従来のHTML形式のファイルと画像データのファイル)としてもよい。
また、本明細書または図面に説明した技術要素は、単独であるいは各種の組合せによって技術的有用性を発揮するものであり、出願時請求項記載の組合せに限定されるものではない。また、本明細書または図面に例示した技術は複数目的を同時に達成するものであり、そのうちの一つの目的を達成すること自体で技術的有用性を持つものである。
Claims (11)
- 目次及び/又は索引ページのデータと、それぞれがページ番号を含む複数の通常ページのデータとを含むデータ群からハイパーリンク構造のデータを生成するデータ生成装置であって、
前記データ群は、文書をスキャンして得られた画像データであり、
前記データ生成装置は、
前記データ群から目次及び/又は索引ページのデータを特定するデータ特定手段と、
データ特定手段で特定された目次及び/又は索引ページのデータに含まれている数字と、その数字が配置されているデータ上の位置とを特定する目次・索引情報抽出処理実行手段であって、前記目次及び/又は索引ページのデータと予め決められている所定の数字との照合を実行することによって、前記目次及び/又は索引ページのデータから、ページ番号に相当する数字を特定する前記目次・索引情報抽出処理実行手段と、
前記複数の通常ページのデータと予め決められている所定の数字との照合を実行することによって、前記複数の通常ページのデータのそれぞれからページ番号に相当する数字を特定するページ番号抽出処理実行手段と、
前記複数の通常ページのデータのそれぞれについて、当該通常ページのデータと、当該通常ページのデータから前記ページ番号抽出処理実行手段で特定された数字とを対応づけて記憶する記憶手段と、
前記目次・索引情報抽出処理実行手段で特定されたページ番号に相当する数字の位置に対応する位置に、当該数字と同じ数字に対応づけて記憶手段に記憶されている通常ページのデータにリンクするためのハイパーリンクを生成するハイパーリンク手段と、を備え、
前記目次・索引情報抽出処理実行手段は、
以下の(1)から(3)の条件、即ち、
(1)2個以上の数字を含む数字列において、その数字列の前後の第1間隔以下に非数字文字が存在せず、
(2)前記2個以上の数字を含む数字列に含まれる各数字間に、カンマ以外の非数字文字が含まれておらず、かつ、
(3)前記2個以上の数字を含む数字列にカンマが含まれていないこと、
を満たす場合に、
(I)前記2個以上の数字を含む数字列において各数字間の間隔が予め決められている第3間隔以下である場合に、当該数字列をページ番号に相当する数字として特定し、
(II)目次ページのデータがデータ特定手段によって特定された場合であって、前記2個以上の数字を含む数字列において数字間の1個以上の間隔のいずれかが前記第3間隔より大きい第4間隔である場合に、当該数字列をページ番号に相当する数字として特定せず、
(III)索引ページのデータがデータ特定手段によって特定された場合であって、前記2個以上の数字を含む数字列において数字間の1個以上の間隔のいずれかが前記第4間隔である場合に、前記第4間隔で隔てられた複数個の数字群のそれぞれを、ページ番号に相当する数字として特定し、
ページ番号抽出処理実行手段は、
上記の(1)から(3)の条件を満たす場合に、
(IV)前記2個以上の数字を含む数字列において各数字間の間隔が前記第3間隔以下である場合に、当該数字列をページ番号に相当する数字として特定し、
(V)前記2個以上の数字を含む数字列において数字間の1個以上の間隔のいずれかが前記第4間隔である場合に、当該数字列をページ番号に相当する数字として特定しない、データ生成装置。 - 前記ページ番号抽出処理実行手段は、前記複数の通常ページのデータのそれぞれについて、当該通常ページの予め決められている領域内のデータと前記所定の数字との照合を実行することによって、ページ番号に相当する数字を特定する
ことを特徴とする請求項1に記載のデータ生成装置。 - 前記ページ番号抽出処理実行手段は、ページ情報補正処理実行手段を備え、
前記ページ情報補正処理実行手段は、ページ番号に相当する数字を特定することができなかった通常ページのデータが存在する場合に、当該通常ページのデータに含まれるページ番号に相当する数字を、他の通常ページのデータから特定されたページ番号に相当する数字に基づいて決定する
ことを特徴とする請求項1又は2に記載のデータ生成装置。 - 前記データ群では、前記複数の通常ページのデータが順に配列されており、
前記ページ情報補正処理実行手段は、ページ番号特定手段は、ページ番号に相当する数字を特定することができなかった通常ページのデータが存在する場合に、当該通常ページのデータの前後に配列されている通常ページのデータから特定された2個のページ番号に相当する数字の間の整数を、当該通常ページのデータに含まれるページ番号に相当する数字と決定する
ことを特徴とする請求項3に記載のデータ生成装置。 - 前記目次・索引情報抽出処理実行手段と前記ページ番号抽出処理実行手段とは、
上記の(1)と(2)との条件を満たし、かつ、
1個以上の第1数字と、1個以上の第2数字と、第1数字と第2数字の間に配置されているカンマとを含む数字列において、第1数字の各数字間の間隔が前記第3間隔以下であり、第2数字の各数字間の間隔が前記第3間隔以下であり、カンマとその前後に配置されている数字との間の間隔が予め決められている第2間隔以下であることを条件として、当該数字列をページ番号に相当する数字として特定する
ことを特徴とする請求項1から4のいずれか一項に記載のデータ生成装置。 - 前記目次・索引情報抽出処理実行手段は、数字列の前及び/又は後の予め決められている前記第1間隔内に他の文字が存在することを条件として、当該数字列をページ番号に相当する数字として特定しない
ことを特徴とする請求項1から5のいずれか一項に記載のデータ生成装置。 - 前記ページ番号抽出処理実行手段は、数字列の前及び/又は後の予め決められている第1間隔内に他の文字が存在する場合に、
前記他の文字がハイフン以外の非数字文字であること、又は、前記他の文字がハイフンであり、当該ハイフンが数字列の前又は後のみに存在することを条件として、当該数字列をページ番号に相当する数字として特定しない
ことを特徴とする請求項1から6のいずれか一項に記載のデータ生成装置。 - 前記目次・索引情報抽出処理実行手段と前記ページ番号抽出処理実行手段とは、2個以上の数字の間にカンマ以外の非数字文字を含む数字列をページ番号に相当する数字として特定しない
ことを特徴とする請求項1から7のいずれか一項に記載のデータ生成装置。 - 前記目次・索引情報抽出処理実行手段と前記ページ番号抽出処理実行手段とは、前記画像データの中から、数字及び予め決められている記号のみを識別し、識別された数字及び予め決められた記号の中から、ページ番号に相当する数字を特定する請求項1から8のいずれか一項に記載のデータ生成装置。
- 文書をスキャンして前記データ群を作成するスキャン手段と、
スキャン手段で作成された前記データ群からハイパーリンク構造のデータを生成する請求項1から9のいずれか一項に記載のデータ生成装置と、
を備えるスキャナ。 - 目次及び/又は索引ページのデータと、それぞれがページ番号を含む複数の通常ページのデータとを含むデータ群からハイパーリンク構造のデータを生成するデータ生成装置のためのコンピュータプログラムであって、
前記データ群は、文書をスキャンして得られた画像データであり、
コンピュータプログラムは、データ生成装置に搭載されたコンピュータに、
前記データ群から目次及び/又は索引ページのデータを特定するデータ特定処理と、
データ特定処理で特定された目次及び/又は索引ページのデータに含まれている数字と、その数字が配置されているデータ上の位置とを特定する目次・索引情報抽出処理であって、前記目次及び/又は索引ページのデータと予め決められている所定の数字との照合を実行することによって、前記目次及び/又は索引ページのデータから、ページ番号に相当する数字を特定する前記目次・索引情報抽出処理と、
前記複数の通常ページのデータと予め決められている所定の数字との照合を実行することによって、前記複数の通常ページのデータのそれぞれからページ番号に相当する数字を特定するページ番号抽出処理と、
前記複数の通常ページのデータのそれぞれについて、当該通常ページのデータと、当該通常ページのデータから前記ページ番号抽出処理で特定された数字とを対応づけて記憶手段に記憶させる記憶制御処理と、
前記目次・索引情報抽出処理で特定されたページ番号に相当する数字の位置に対応する位置に、当該数字と同じ数字に対応づけて記憶手段に記憶されている通常ページのデータにリンクするためのハイパーリンクを生成するハイパーリンク処理と、実行させ、
前記目次・索引情報抽出処理は、
以下の(1)から(3)の条件、即ち、
(1)2個以上の数字を含む数字列において、その数字列の前後の第1間隔以下に非数字文字が存在せず、
(2)前記2個以上の数字を含む数字列に含まれる各数字間に、カンマ以外の非数字文字が含まれておらず、かつ、
(3)前記2個以上の数字を含む数字列にカンマが含まれていないこと、
を満たす場合に、
(I)前記2個以上の数字を含む数字列において各数字間の間隔が予め決められている第3間隔以下である場合に、当該数字列をページ番号に相当する数字として特定し、
(II)目次ページのデータがデータ特定処理によって特定された場合であって、前記2個以上の数字を含む数字列において数字間の1個以上の間隔のいずれかが前記第3間隔より大きい第4間隔である場合に、当該数字列をページ番号に相当する数字として特定せず、
(III)索引ページのデータがデータ特定処理によって特定された場合であって、前記2個以上の数字を含む数字列において数字間の1個以上の間隔のいずれかが前記第4間隔である場合に、前記第4間隔で隔てられた複数個の数字群のそれぞれを、ページ番号に相当する数字として特定し、
前記ページ番号抽出処理は、
上記の(1)から(3)の条件を満たす場合に、
(IV)前記2個以上の数字を含む数字列において各数字間の間隔が前記第1間隔以下である場合に、当該数字列をページ番号に相当する数字として特定し、
(V)前記2個以上の数字を含む数字列において数字間の1個以上の間隔のいずれかが前記第4間隔である場合に、当該数字列をページ番号に相当する数字として特定しない、コンピュータプログラム。
Priority Applications (2)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
JP2008252479A JP4780169B2 (ja) | 2008-09-30 | 2008-09-30 | データ生成装置、スキャナ、及びコンピュータプログラム |
US12/569,100 US8456688B2 (en) | 2008-09-30 | 2009-09-29 | Data generating device, scanner and non-transitory computer readable medium |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
JP2008252479A JP4780169B2 (ja) | 2008-09-30 | 2008-09-30 | データ生成装置、スキャナ、及びコンピュータプログラム |
Publications (2)
Publication Number | Publication Date |
---|---|
JP2010086151A JP2010086151A (ja) | 2010-04-15 |
JP4780169B2 true JP4780169B2 (ja) | 2011-09-28 |
Family
ID=42058852
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
JP2008252479A Expired - Fee Related JP4780169B2 (ja) | 2008-09-30 | 2008-09-30 | データ生成装置、スキャナ、及びコンピュータプログラム |
Country Status (2)
Country | Link |
---|---|
US (1) | US8456688B2 (ja) |
JP (1) | JP4780169B2 (ja) |
Families Citing this family (10)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
US20120084640A1 (en) * | 2010-09-30 | 2012-04-05 | Konica Minolta Systems Laboratory Inc. | Resolving page references in layout dependent documents |
JP2013025456A (ja) | 2011-07-19 | 2013-02-04 | Sony Corp | 情報処理装置、情報処理方法、並びにプログラム |
JP5753828B2 (ja) | 2012-09-27 | 2015-07-22 | 京セラドキュメントソリューションズ株式会社 | 画像処理装置及び画像処理プログラム |
JP5938425B2 (ja) | 2014-01-28 | 2016-06-22 | 富士フイルム株式会社 | データ処理装置、方法及びプログラム |
JP6394069B2 (ja) * | 2014-05-26 | 2018-09-26 | 京セラドキュメントソリューションズ株式会社 | 文書処理装置及び文書処理プログラム |
WO2016190446A1 (en) * | 2015-05-26 | 2016-12-01 | Hiroyuki Tanaka | Electronic file structure, non-transitory computer-readable storage medium, electronic file generation apparatus, electronic file generation method, and electronic file |
JP5723472B1 (ja) * | 2014-08-07 | 2015-05-27 | 廣幸 田中 | データリンク生成装置、データリンク生成方法、データリンク構造および電子ファイル |
US10445615B2 (en) * | 2017-05-24 | 2019-10-15 | Wipro Limited | Method and device for extracting images from portable document format (PDF) documents |
US10635743B2 (en) * | 2018-03-12 | 2020-04-28 | Microsoft Technology Licensing, Llc | Automatic extraction of document page numbers from PDF |
US11701914B2 (en) * | 2020-06-15 | 2023-07-18 | Edward Riley | Using indexing targets to index textual and/or graphical visual content manually created in a book |
Family Cites Families (8)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
JPH07262207A (ja) | 1994-03-25 | 1995-10-13 | Kengo Konishi | イメージデータファイリング方法,イメージデータ登録方法,イメージデータ検索方法及びその装置 |
JP3608965B2 (ja) * | 1998-12-18 | 2005-01-12 | シャープ株式会社 | 自動オーサリング装置および記録媒体 |
US6940491B2 (en) * | 2000-10-27 | 2005-09-06 | International Business Machines Corporation | Method and system for generating hyperlinked physical copies of hyperlinked electronic documents |
JP4006953B2 (ja) | 2001-03-28 | 2007-11-14 | コニカミノルタビジネステクノロジーズ株式会社 | データ送信装置、データ送信方法、データ送信プログラムおよびデータ送信プログラムを記録したコンピュータ読み取り可能な記録媒体 |
JP2005311766A (ja) * | 2004-04-22 | 2005-11-04 | Fuji Xerox Co Ltd | 画像読み取り装置 |
JP4434968B2 (ja) | 2005-01-14 | 2010-03-17 | 株式会社Pfu | 書籍対応型スキャナ |
US7797622B2 (en) | 2006-11-15 | 2010-09-14 | Xerox Corporation | Versatile page number detector |
US20090172002A1 (en) * | 2007-12-26 | 2009-07-02 | Mohamed Nooman Ahmed | System and Method for Generating Hyperlinks |
-
2008
- 2008-09-30 JP JP2008252479A patent/JP4780169B2/ja not_active Expired - Fee Related
-
2009
- 2009-09-29 US US12/569,100 patent/US8456688B2/en active Active
Also Published As
Publication number | Publication date |
---|---|
JP2010086151A (ja) | 2010-04-15 |
US20100082937A1 (en) | 2010-04-01 |
US8456688B2 (en) | 2013-06-04 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
JP4780169B2 (ja) | データ生成装置、スキャナ、及びコンピュータプログラム | |
US8107727B2 (en) | Document processing apparatus, document processing method, and computer program product | |
JP3535624B2 (ja) | 検索装置及び方法 | |
US20080150910A1 (en) | Handwritten charater input device | |
US9310971B2 (en) | Document viewing device for display document data | |
JP5141560B2 (ja) | 情報検索プログラム、該プログラムを記録した記録媒体、情報検索装置、および情報検索方法 | |
US9881001B2 (en) | Image processing device, image processing method and non-transitory computer readable recording medium | |
JP2014182477A (ja) | プログラム及び帳票処理装置 | |
JP5661549B2 (ja) | 帳票上の文字を認識する文字認識装置、マスク処理方法、および、マスク処理プログラム | |
EP2884425A1 (en) | Method and system of extracting structured data from a document | |
JP7035474B2 (ja) | 文書処理装置およびプログラム | |
US20150261735A1 (en) | Document processing system, document processing apparatus, and document processing method | |
JP2005182460A (ja) | 情報処理装置、注釈処理方法、情報処理プログラムおよび情報処理プログラムを格納した記録媒体 | |
US9208143B2 (en) | Electronic device and dictionary data display method | |
JP2000322417A (ja) | 画像ファイリング装置及び方法及び記憶媒体 | |
JP4136282B2 (ja) | 画像処理装置及び画像処理方法並びに記憶媒体 | |
JP3979288B2 (ja) | 文書検索装置および文書検索プログラム | |
US20140223274A1 (en) | Information processing device and information processing method | |
JP4487614B2 (ja) | 情報表示制御装置、及びプログラム | |
JP2006221569A (ja) | 文書処理システム、文書処理方法、プログラムおよび記憶媒体 | |
JP7566520B2 (ja) | 画像処理装置、方法、プログラム | |
JP2021140831A (ja) | 帳票画像処理システム、帳票画像処理方法、および帳票画像処理プログラム | |
JP2021149741A (ja) | 情報処理装置及びプログラム | |
JP2020123233A (ja) | 情報処理装置及びプログラム | |
JP2881891B2 (ja) | 階層形式をもつ電子化マニユアルの処理装置 |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
A621 | Written request for application examination |
Free format text: JAPANESE INTERMEDIATE CODE: A621 Effective date: 20100325 |
|
A977 | Report on retrieval |
Free format text: JAPANESE INTERMEDIATE CODE: A971007 Effective date: 20100708 |
|
A131 | Notification of reasons for refusal |
Free format text: JAPANESE INTERMEDIATE CODE: A131 Effective date: 20100720 |
|
A521 | Request for written amendment filed |
Free format text: JAPANESE INTERMEDIATE CODE: A523 Effective date: 20100921 |
|
A131 | Notification of reasons for refusal |
Free format text: JAPANESE INTERMEDIATE CODE: A131 Effective date: 20110315 |
|
A521 | Request for written amendment filed |
Free format text: JAPANESE INTERMEDIATE CODE: A523 Effective date: 20110513 |
|
TRDD | Decision of grant or rejection written | ||
A01 | Written decision to grant a patent or to grant a registration (utility model) |
Free format text: JAPANESE INTERMEDIATE CODE: A01 Effective date: 20110607 |
|
A01 | Written decision to grant a patent or to grant a registration (utility model) |
Free format text: JAPANESE INTERMEDIATE CODE: A01 |
|
A61 | First payment of annual fees (during grant procedure) |
Free format text: JAPANESE INTERMEDIATE CODE: A61 Effective date: 20110620 |
|
FPAY | Renewal fee payment (event date is renewal date of database) |
Free format text: PAYMENT UNTIL: 20140715 Year of fee payment: 3 |
|
R150 | Certificate of patent or registration of utility model |
Ref document number: 4780169 Country of ref document: JP Free format text: JAPANESE INTERMEDIATE CODE: R150 Free format text: JAPANESE INTERMEDIATE CODE: R150 |
|
LAPS | Cancellation because of no payment of annual fees |