JP6631337B2

JP6631337B2 - 検索装置およびプログラム

Info

Publication number: JP6631337B2
Application number: JP2016049630A
Authority: JP
Inventors: 佐藤　公治; 公治佐藤
Original assignee: Konica Minolta Inc
Current assignee: Konica Minolta Inc
Priority date: 2016-03-14
Filing date: 2016-03-14
Publication date: 2020-01-15
Anticipated expiration: 2036-03-14
Also published as: US20170262527A1; JP2017167630A

Description

本発明は、検索装置（コンピュータ等）にてキーワード検索を行う技術およびそれに関連する技術に関する。

コンピュータ等の検索装置において、電子文書に対してキーワード検索を行う技術が存在する（特許文献１等参照）。

ただし、検索キーワードと一致しているテキストオブジェクト（文字列）が抽出される場合において、検索結果の各テキストオブジェクトが単に無秩序に羅列されるときには、ユーザは、多数の無用な情報へのアクセスを強いられることがある。抽出された情報（テキストオブジェクト）の中には、重要な情報のみならず、重要でない情報も含まれているため、重要でない情報へのアクセス（すなわち、無用な情報へのアクセス）が増大することがある。

特開２００７−２４１４８２号公報

重要な情報へのアクセスを容易にするためには、たとえば、検索対象の電子文書から抽出された各テキストオブジェクト（文字列）の重要性がそれぞれ考慮されることが好ましい。

しかしながら、後述するように、当該電子文書から抽出された各テキストオブジェクトの重要度を適切に判定することは容易ではない。

そこで、この発明は、キーワード検索された文字列の重要度を適切に判定することが可能な技術を提供することを課題とする。

上記課題を解決すべく、請求項１の発明は、１又は複数の電子文書に対するキーワード検索を行う検索装置であって、検索対象のキーワードに関する指定入力を受け付ける受付手段と、前記指定入力に基づくキーワード検索を実行する検索手段と、前記キーワード検索により検索された一のテキストオブジェクトが含まれる単位領域内の全文字数と、前記一のテキストオブジェクトの属性と同じ属性を有するテキストオブジェクトの前記単位領域内における文字数との対比に基づく指標値であって、前記一のテキストオブジェクトの属性の希少性を示す指標値を取得する取得手段と、前記指標値に基づいて前記一のテキストオブジェクトの重要度を決定する決定手段と、を備えることを特徴とする。

請求項２の発明は、請求項１の発明に係る検索装置において、前記属性は、テキストオブジェクトの色属性を含み、前記指標値は、前記単位領域内において前記一のテキストオブジェクトの色属性と同じ色属性を有するテキストオブジェクトの文字数と、前記単位領域内の全文字数との対比に基づく値であることを特徴とする。

請求項３の発明は、請求項１の発明に係る検索装置において、前記属性は、テキストオブジェクトのフォント属性を含み、前記指標値は、前記単位領域内において前記一のテキストオブジェクトのフォント属性と同じフォント属性を有するテキストオブジェクトの文字数と、前記単位領域内の全文字数との対比に基づく値であることを特徴とする。

請求項４の発明は、請求項１の発明に係る検索装置において、前記属性は、テキストオブジェクトの色属性およびフォント属性を含み、前記指標値は、前記単位領域内において前記一のテキストオブジェクトの色属性と同じ色属性を有するテキストオブジェクトの文字数と、前記単位領域内の前記全文字数との対比に基づく値であり、且つ、前記単位領域内において前記一のテキストオブジェクトのフォント属性と同じフォント属性を有するテキストオブジェクトの文字数と、前記単位領域内の前記全文字数との対比に基づく値であることを特徴とする。

請求項５の発明は、請求項３または請求項４の発明に係る検索装置において、前記フォント属性は、フォント種類とフォントスタイルとのうちの少なくとも１つで表現される属性であることを特徴とする。

請求項６の発明は、請求項１から請求項５のいずれかの発明に係る検索装置において、前記単位領域は、電子文書内のページであることを特徴とする。

請求項７の発明は、請求項１から請求項５のいずれかの発明に係る検索装置において、前記単位領域は、１つの電子文書全体であることを特徴とする。

請求項８の発明は、請求項１から請求項５のいずれかの発明に係る検索装置において、前記取得手段は、前記キーワード検索により前記単位領域にて検索された各テキストオブジェクトに関する前記指標値をそれぞれ取得し、前記決定手段は、前記各テキストオブジェクトの各指標値に基づいて、前記各テキストオブジェクトの重要度をそれぞれ決定するとともに、前記単位領域内で最も高い重要度を有するオブジェクトの重要度を、当該単位領域の重要度として決定することを特徴とする。

請求項９の発明は、請求項６の発明に係る検索装置において、前記取得手段は、前記キーワード検索により各電子文書の一のページにて検索された各テキストオブジェクトに関する前記指標値をそれぞれ取得し、前記決定手段は、前記各テキストオブジェクトの各指標値に基づいて、前記各テキストオブジェクトの重要度をそれぞれ決定するとともに、前記一のページ内で最も高い重要度を有するテキストオブジェクトの重要度を、前記一のページの重要度として決定することを特徴とする。

請求項１０の発明は、請求項９の発明に係る検索装置において、前記キーワード検索により前記１又は複数の電子文書の中から検索された少なくとも１つのテキストオブジェクトを含む各ページを当該各ページの重要度に応じて整列させたリストを生成するリスト生成手段、をさらに備えることを特徴とする。

請求項１１の発明は、請求項１０の発明に係る検索装置において、前記リストを参照して特定のページの表示指示が付与されると、前記表示指示に応答して前記特定のページを含むサムネイル画像を生成する画像生成手段、をさらに備え、前記画像生成手段は、所定の条件が充足されないときには、前記特定のページのみのサムネイル画像を生成し、前記所定の条件が充足されるときには、前記特定のページを含む特定の電子文書の全ページのサムネイル画像を生成することを特徴とする。

請求項１２の発明は、請求項１１の発明に係る検索装置において、前記所定の条件は、前記特定のページを含む前記特定の電子文書の全ページ数が第１の値以下であること、前記特定の電子文書の全ページについて、ページあたりの文字数が第２の値以下であること、および前記特定の電子文書内において、検索キーワードに該当する全テキストオブジェクトのフォントサイズが第３の値以上であること、の全てを充足することである、ことを特徴とする。

請求項１３の発明は、請求項９の発明に係る検索装置において、前記取得手段は、前記キーワード検索により複数の電子文書の各ページにて検索された各テキストオブジェクトに関する前記指標値をそれぞれ取得し、前記決定手段は、前記各テキストオブジェクトの各指標値に基づいて前記各テキストオブジェクトの重要度をそれぞれ決定し、前記各ページ内で最も高い重要度を有するテキストオブジェクトの重要度を当該各ページの重要度として決定し、且つ、一の電子文書内で最も高い重要度を有するページの重要度を前記一の電子文書の重要度として決定することを特徴とする。

請求項１４の発明は、請求項１３の発明に係る検索装置において、前記キーワード検索により前記複数の電子文書の中から検索された少なくとも１つのテキストオブジェクトを含む２以上の電子文書を前記２以上の電子文書の重要度に応じて整列させたリストを生成するリスト生成手段、をさらに備えることを特徴とする。

請求項１５の発明は、請求項１から請求項１４のいずれかの発明に係る検索装置において、前記検索手段は、前記一のテキストオブジェクトのフォントサイズが閾値よりも小さい場合には、前記一のテキストオブジェクトを前記キーワード検索の検索結果から除外することを特徴とする。

請求項１６の発明は、請求項１から請求項１４のいずれかの発明に係る検索装置において、前記検索手段は、前記一のテキストオブジェクトと当該一のテキストオブジェクトの背景との明度差、色差、コントラスト比のうちの少なくとも１つが、対応する閾値よりも小さい場合には、前記一のテキストオブジェクトを前記キーワード検索の検索結果から除外することを特徴とする。

請求項１７の発明は、請求項１から請求項１４のいずれかの発明に係る検索装置において、前記検索手段は、前記一のテキストオブジェクトのフォントサイズが閾値よりも小さい場合には、前記一のテキストオブジェクトのフォントサイズが閾値よりも大きい場合に比べて、前記一のテキストオブジェクトの重要度を低減することを特徴とする。

請求項１８の発明は、請求項１から請求項１４のいずれかの発明に係る検索装置において、前記検索手段は、前記一のテキストオブジェクトと当該一のテキストオブジェクトの背景との明度差、色差、コントラスト比のうちの少なくとも１つが、対応する閾値よりも小さい旨の条件が成立する場合には、当該条件が成立しない場合に比べて、前記一のテキストオブジェクトの重要度を低減することを特徴とする。

請求項１９の発明は、請求項１５から請求項１８のいずれかの発明に係る検索装置において、前記閾値は、ユーザによって変更可能であることを特徴とする。

請求項２０の発明は、請求項１から請求項１９のいずれかの発明に係る検索装置において、検索対象の前記１又は複数の電子文書は、印刷出力用データとしてページ記述言語で記述された電子文書を含むことを特徴とする。

請求項２１の発明は、請求項１から請求項１９のいずれかの発明に係る検索装置において、検索対象の前記１又は複数の電子文書は、テキストオブジェクトとページ区切り情報と各テキストオブジェクトの色属性およびフォント属性とを有する電子文書を含むことを特徴とする。

請求項２２の発明は、請求項２の発明に係る検索装置において、各電子文書に関する各単位領域内の全文字数と前記各単位領域内の色属性ごとの文字数とを規定した属性情報であって前記各電子文書の各生成装置で生成され当該各生成装置から予め受信された属性情報を格納する格納手段、をさらに備え、前記取得手段は、前記一のテキストオブジェクトの色属性と同じ色属性である一の色属性を特定するとともに、前記属性情報に基づいて、前記一のテキストオブジェクトが含まれる前記単位領域内の全文字数と、前記単位領域内において前記一の色属性を有するテキストオブジェクトの文字数とを取得し、前記一のテキストオブジェクトに関する前記指標値を算出することを特徴とする。

請求項２３の発明は、請求項３の発明に係る検索装置において、各電子文書に関する各単位領域内の全文字数と前記各単位領域内のフォント属性ごとの文字数とを規定した属性情報であって前記各電子文書の各生成装置で生成され当該各生成装置から予め受信された属性情報を格納する格納手段、をさらに備え、前記取得手段は、前記一のテキストオブジェクトのフォント属性と同じフォント属性である一のフォント属性を特定するとともに、前記属性情報に基づいて、前記一のテキストオブジェクトが含まれる前記単位領域内の全文字数と、前記単位領域において前記一のフォント属性を有するテキストオブジェクトの文字数とを取得し、前記一のテキストオブジェクトに関する前記指標値を算出することを特徴とする。

請求項２４の発明は、請求項４の発明に係る検索装置において、各電子文書に関する各単位領域内の全文字数と前記各単位領域内の色属性ごとの文字数と前記各単位領域内のフォント属性ごとの文字数とを規定した属性情報であって前記各電子文書の各生成装置で生成され当該各生成装置から予め受信された属性情報を格納する格納手段、をさらに備え、前記取得手段は、前記一のテキストオブジェクトの色属性と同じ色属性である一の色属性を特定し、前記一のテキストオブジェクトのフォント属性と同じフォント属性である一のフォント属性を特定するとともに、前記属性情報に基づいて、前記一のテキストオブジェクトが含まれる前記単位領域内の全文字数と、前記単位領域において前記一の色属性を有するテキストオブジェクトの文字数と、前記単位領域において前記一のフォント属性を有するテキストオブジェクトの文字数とを取得し、前記一のテキストオブジェクトに関する前記指標値を算出することを特徴とする。

請求項２５の発明は、コンピュータに、ａ）検索対象のキーワードに関する指定入力を受け付けるステップと、ｂ）前記指定入力に基づくキーワード検索を１又は複数の電子文書に対して実行するステップと、ｃ）前記キーワード検索により検索された一のテキストオブジェクトが含まれる単位領域内の全文字数と、前記一のテキストオブジェクトの属性と同じ属性を有するテキストオブジェクトの前記単位領域内における文字数との対比に基づく指標値であって、前記一のテキストオブジェクトの属性の希少性を示す指標値を取得するステップと、ｄ）前記指標値に基づいて当該一のテキストオブジェクトの重要度を決定するステップと、を実行させるためのプログラムであることを特徴とする。

請求項２６の発明は、コンピュータに、ａ）電子文書における単位領域内の全文字数と前記単位領域内の属性ごとの文字数とを規定した属性情報を生成するステップと、ｂ）キーワード検索用の検索装置あるいは前記検索装置の管理下の装置に前記属性情報を送信するステップと、を実行させるためのプログラムであることを特徴とする。

請求項２７の発明は、コンピュータに、ａ）各電子文書における単位領域内の全文字数と前記単位領域内の属性ごとの文字数とを規定した属性情報を、前記各電子文書の各生成装置から受信するステップと、ｂ）検索対象のキーワードに関する指定入力を受け付けるステップと、ｃ）前記指定入力に基づくキーワード検索を前記各電子文書に対して実行するステップと、ｄ）前記キーワード検索により検索された一のテキストオブジェクトの属性と同じ属性である一の属性を特定するステップと、ｅ）前記一のテキストオブジェクトが含まれる単位領域内の全文字数と前記単位領域内において前記一の属性を有するテキストオブジェクトの文字数との対比に基づく指標値であって前記一のテキストオブジェクトの属性の希少性を示す指標値を、前記属性情報に基づいて算出するステップと、ｆ）前記指標値に基づいて当該一のテキストオブジェクトの重要度を決定するステップと、を実行させるためのプログラムであることを特徴とする。

請求項２８の発明は、１又は複数の電子文書に対するキーワード検索を行う検索装置であって、検索対象のキーワードに関する指定入力を受け付ける受付手段と、前記指定入力に基づくキーワード検索を実行する検索手段と、前記キーワード検索により検索された一のテキストオブジェクトが含まれる単位領域内の全単語数と、前記一のテキストオブジェクトの属性と同じ属性を有するテキストオブジェクトの前記単位領域内における単語数との対比に基づく指標値であって、前記一のテキストオブジェクトの属性の希少性を示す指標値を取得する取得手段と、前記指標値に基づいて当該一のテキストオブジェクトの重要度を決定する決定手段と、を備えることを特徴とする。

請求項２９の発明は、コンピュータに、ａ）検索対象のキーワードに関する指定入力を受け付けるステップと、ｂ）前記指定入力に基づくキーワード検索を１又は複数の電子文書に対して実行するステップと、ｃ）前記キーワード検索により検索された一のテキストオブジェクトが含まれる単位領域内の全単語数と、前記一のテキストオブジェクトの属性と同じ属性を有するテキストオブジェクトの前記単位領域内における単語数との対比に基づく指標値であって、前記一のテキストオブジェクトの属性の希少性を示す指標値を取得するステップと、ｄ）前記指標値に基づいて当該一のテキストオブジェクトの重要度を決定するステップと、を実行させるためのプログラムであることを特徴とする。

請求項１〜請求項２５、および請求項２７〜請求項２９に記載の発明によれば、キーワード検索された文字列の重要度を適切に判定することが可能である。

また、請求項２６に記載の発明によれば、キーワード検索された文字列の重要度を判定するための属性情報が生成されるので、当該属性情報を用いることによって当該文字列の重要度を適切に判定することが可能になる。特に、キーワード検索された文字列の重要度を判定するための属性情報が予め作成されるので、当該重要度の決定処理を高速化することが可能である。

検索システムの概略構成を示す図である。ＭＦＰの構成を示す概略図である。印刷指示装置（文書生成装置）の概略構成を示す図である。検索指示装置の概略構成を示す図である。サーバ（検索装置）の概略構成を示す図である。検索システムにおける動作（文書蓄積動作等）の概要を示す図である。検索システムにおける動作（検索動作等）の概要を示す図である。サーバの動作を示すフローチャートである。検索画面を示す図である。検索キーワードが抽出された第１の文書を示す図である。検索キーワードが抽出された第２の文書を示す図である。第１の文書の第１ページを示す図である。抽出された文字列の指標値等を示す図である。抽出された文字列の指標値等を示す図である。第１の文書の第２ページを示す図である。抽出された文字列の指標値等を示す図である。第２の文書の第１ページを示す図である。抽出された文字列の指標値等を示す図である。抽出された文字列の指標値等を示す図である。抽出された文字列の指標値等を示す図である。第２の文書の第２ページを示す図である。抽出された文字列の指標値等を示す図である。複数の文字列の指標値等を纏めて示す図である。各ページの重要度の算出結果を示す図である。検索結果リスト（ページ単位）の表示例を示す図である。対応ページの表示画面を示す図である。第２実施形態に係る検索結果リスト（文書単位）を示す図である。第３実施形態に係る動作（文書蓄積動作等）を示す図である。第４実施形態に係る動作（ＰＤＬデータ解析動作等）を示す図である。解析処理によって得られる属性情報を示す図である。第５実施形態に係る動作（文書データ解析動作等）を示す図である。サムネイル表示（第６実施形態）を示す図である。第８実施形態にて算出される指標値等を示す図である。第８実施形態にて算出される指標値等を示す図である。第８実施形態にて算出される指標値等を示す図である。第８実施形態にて算出される指標値等を示す図である。第８実施形態にて算出される指標値等を示す図である。複数の文字列の指標値等を纏めて示す図である（第８実施形態）。複数の文字列の指標値等を纏めて示す図である（第９実施形態）。

以下、本発明の実施形態を図面に基づいて説明する。

＜１．第１実施形態＞
＜１−１．システム概要＞
図１は、検索システム１の概略構成を示す図である。

図１に示すように、検索システム１は、ＭＦＰ１０と、サーバコンピュータ（以下、単にサーバとも称する）７０と、印刷出力用のクライアントコンピュータ（以下、単にクライアントとも称する）３０と、文書検索用のクライアント５０とを備える。なお、クライアント３０は印刷指示装置とも称され、サーバ７０は検索装置とも称され、クライアント５０は検索指示装置とも称される。

各要素１０，３０，５０，７０は、ネットワーク１０８を介して互いに接続されており、ネットワーク通信を実行することが可能である。なお、ネットワーク１０８は、ＬＡＮ（ローカルエリアネットワーク）１０７およびインターネットなどによって構成される。ネットワーク１０８への接続形態は、有線接続であってもよく或いは無線接続であってもよい。

この検索システム１においては、クライアント３０（印刷指示装置）は、印刷実行ユーザ（Ｕ１等）による印刷出力指示操作に応じて、印刷対象文書の印刷用データ（ＰＤＬデータ（ページ記述言語（Page Description Language）で記述されたデータ））を生成する（図６のステップＳ１も参照）。そして、クライアント３０は、当該印刷用データをＭＦＰ１０に送信する（ステップＳ２）とともに、当該印刷用データをサーバ７０にも送信する（ステップＳ３）。ＭＦＰ１０は、当該印刷用データを受信すると、当該印刷用データに基づいて印刷出力を実行する（ステップＳ４）。また、サーバ７０は、当該印刷用データをその内部に格納する（ステップＳ５）。当該印刷用データは、テキストオブジェクトを含むデータであり、電子文書とも称される。

クライアント５０（検索指示装置）は、検索ユーザ（Ｕ２等）による検索操作（図７のステップＳ２１も参照）に応じてキーワード検索指示（キーワード検索を行うべき旨の指示）を検索ユーザから受け付けると、当該キーワード検索指示をサーバ７０に転送する（ステップＳ２２）。サーバ７０は、当該キーワード検索指示に応じて、サーバ７０に格納される電子文書を検索対象として、ユーザによって指定されたキーワードに係るテキストオブジェクトを検索する（ステップＳ２３）。サーバ７０は、その検索処理の結果（検索結果）をクライアント５０（文書検索用コンピュータ）に送信し（ステップＳ２４）、クライアント５０は、受信した検索結果を表示する（ステップＳ２５）。これによって、検索ユーザは、検索結果を視認することができる。

＜１−２．ＭＦＰ１０＞
次に、ＭＦＰ（マルチ・ファンクション・ペリフェラル（Multi-Functional Peripheral））１０について説明する。

図２は、ＭＦＰの構成を示す概略図である。ＭＦＰは、スキャナ機能、プリンタ機能、コピー機能およびデータ通信機能などを備える装置（複合機とも称する）である。

ＭＦＰは、印刷出力処理（プリント処理）および画像読取処理（スキャン処理）等を行うことが可能な画像形成装置である。

図２に示すように、ＭＦＰは、画像読取部２、印刷出力部３、通信部４、格納部５、入出力部６およびコントローラ９等を備えており、これらの各部を複合的に動作させることによって、各種の機能を実現する。

画像読取部２は、ＭＦＰの所定の位置に載置された原稿を光学的に読み取って、当該原稿の画像データ（原稿画像とも称する）を生成する処理部である。

印刷出力部３は、対象画像に関する画像データに基づいて紙などの各種の媒体に画像を印刷出力する出力部である。

通信部４は、公衆回線等を介したファクシミリ通信を行うことが可能な処理部である。さらに、通信部４は、ネットワーク１０８を介したネットワーク通信が可能である。このネットワーク通信では、ＴＣＰ（Transmission Control Protocol）、ＩＰ（Internet Protocol）およびＦＴＰ（File Transfer Protocol）等の各種の通信プロトコルが利用され、当該ネットワーク通信を利用することによって、ＭＦＰは、所望の相手先（クライアント３０等）との間で各種のデータを授受することが可能である。

格納部５は、ハードディスクドライブ（ＨＤＤ）および不揮発性メモリ等の格納装置で構成される。

入出力部６は、ＭＦＰに対する入力を受け付ける操作入力部６ａと、各種情報の表示出力を行う表示部６ｂとを備えている。なお、入出力部６は、操作部とも称される。

コントローラ９は、ＭＦＰを統括的に制御する制御部であり、ＣＰＵと、各種の半導体メモリ（ＲＡＭおよびＲＯＭ等）とを備えて構成される。

コントローラ９は、ＣＰＵにおいて、ＲＯＭ（例えば、ＥＥＰＲＯＭ（登録商標）等）内に格納されている所定のソフトウエアプログラム（単にプログラムとも称する）を実行することによって、各種の処理部を実現する。当該各種の処理部は、通信制御部１１、入力制御部１２、表示制御部１３、および各種ジョブを実行するジョブ実行部１４等を含む。なお、当該プログラムは、たとえば各種の可搬性の記録媒体（ＵＳＢメモリ等）に記録され、当該記録媒体を介してＭＦＰにインストールされればよい。あるいは当該プログラムは、ネットワーク等を介してダウンロードされてＭＦＰにインストールされるようにしてもよい。

＜１−３．クライアント（印刷指示装置））３０＞
図３は、クライアント３０の概略構成を示す図である。クライアント３０は、パーソナルコンピュータ等を用いて構築される。

クライアント３０は、通信部３４、格納部３５、操作部３６およびコントローラ（ＣＰＵ）３９等を備えて構成される。

通信部３４は、ネットワーク１０８を介したネットワーク通信を行うことが可能である。このネットワーク通信では、たとえば、ＴＣＰ／ＩＰ（Transmission Control Protocol / Internet Protocol）等の各種のプロトコルが利用される。当該ネットワーク通信を利用することによって、クライアント３０は、所望の相手先（ＭＦＰ１０およびサーバ７０等）との間で各種のデータを授受することが可能である。通信部３４は、各種データを送信する送信部３４ａと各種データを受信する受信部３４ｂとを有する。たとえば、送信部３４ａは、印刷用データをＭＦＰ１０およびサーバ７０に送信する。

格納部３５は、不揮発性の半導体メモリ等の記憶装置で構成される。

操作部３６は、クライアント３０に対する入力を受け付ける操作入力部３６ａと、各種情報の表示出力を行う表示部３６ｂとを備えている。

また、クライアント３０は、そのＣＰＵ（コントローラ）３９において、格納部３５内に格納されている所定のプログラムを実行することによって、各種の処理部を実現する。なお、当該プログラムは、たとえば各種の可搬性の記録媒体（ＵＳＢメモリ等）に記録され、当該記録媒体を介してクライアント３０にインストールされればよい。あるいは当該プログラムは、ネットワーク等を介してダウンロードされてクライアント３０にインストールされるようにしてもよい。

具体的には、クライアント３０のＣＰＵ３９は、プログラム（たとえば、プリンタドライバ）の実行によって、データ生成部４１等を含む各種の処理部を実現する。データ生成部４１は、たとえば印刷出力用データ（ＰＤＬデータ）等を生成する。なお、後述するように、クライアント３０にて生成されサーバ７０に蓄積された印刷出力用データは、検索対象の電子文書として扱われる。クライアント３０は、印刷指示に応じて電子文書（ＰＤＬデータ）を生成することから、電子文書生成装置であるとも表現される。

＜１−４．クライアント（検索指示装置）５０＞
図４は、クライアント５０の概略構成を示す図である。クライアント５０も、パーソナルコンピュータ等を用いて構築される。

クライアント５０は、通信部５４、格納部５５、操作部５６およびコントローラ（ＣＰＵ）５９等を備えて構成される。

通信部５４は、ネットワーク１０８を介したネットワーク通信を行うことが可能である。このネットワーク通信では、たとえば、ＴＣＰ／ＩＰ（Transmission Control Protocol / Internet Protocol）等の各種のプロトコルが利用される。当該ネットワーク通信を利用することによって、クライアント５０は、所望の相手先（サーバ７０等）との間で各種のデータを授受することが可能である。通信部５４は、各種データを送信する送信部５４ａと各種データを受信する受信部５４ｂとを有する。たとえば、送信部５４ａは、ユーザによっって指定された検索キーワード等の情報をサーバ７０に送信する。また、受信部５４ｂは、キーワード検索の検索結果をサーバ７０から受信する。

格納部５５は、不揮発性の半導体メモリ等の記憶装置で構成される。

操作部５６は、クライアント５０に対する入力を受け付ける操作入力部５６ａと、各種情報の表示出力を行う表示部５６ｂとを備えている。

また、クライアント５０は、そのＣＰＵ（コントローラ）５９において、格納部５５内に格納されている所定のプログラムを実行することによって、各種の処理部を実現する。なお、当該プログラムは、たとえば各種の可搬性の記録媒体（ＵＳＢメモリ等）に記録され、当該記録媒体を介してクライアント５０にインストールされればよい。あるいは当該プログラムは、ネットワーク等を介してダウンロードされてクライアント５０にインストールされるようにしてもよい。

具体的には、クライアント５０のＣＰＵ５９は、プログラム（たとえば、ウエブブラウザ）の実行によって、ウエブアクセス処理部６１等を含む各種の処理部を実現する。ウエブアクセス処理部６１は、たとえばサーバ７０（ウエブサーバ）にアクセスし、検索画面に関する情報を取得してクライアント５０に表示させる動作を制御する。また、ウエブアクセス処理部６１は、当該ウエブブラウザに表示された入力画面（検索用画面）に対するユーザ指示（キーワード指定入力等）を受け付けるとともに、当該ユーザ指示をサーバ７０に送信する。

＜１−５．サーバ７０（検索装置）＞
図５は、サーバ７０の概略構成を示す図である。サーバ７０は、サーバ用コンピュータあるいはパーソナルコンピュータ等を用いて構築される。

サーバ７０は、通信部７４、格納部７５およびコントローラ（ＣＰＵ）７９等を備えて構成される。

通信部７４は、ネットワーク１０８を介したネットワーク通信を行うことが可能である。このネットワーク通信では、たとえば、ＴＣＰ／ＩＰ（Transmission Control Protocol / Internet Protocol）等の各種のプロトコルが利用される。当該ネットワーク通信を利用することによって、サーバ７０は、所望の相手先（クライアント３０，５０等）との間で各種のデータを授受することが可能である。通信部７４は、各種データを送信する送信部７４ａと各種データを受信する受信部７４ｂとを有する。たとえば、受信部７４ｂは、検索対象のキーワードに関する指定入力をクライアント５０から受け付ける。また、送信部７４ａは、キーワード検索の検索結果をクライアント５０に送信する。

格納部７５は、不揮発性の半導体メモリ等の記憶装置で構成される。格納部７５には、たとえば、クライアント３０から送信されてきた電子文書（ＰＤＬデータ等）が格納される。

また、サーバ７０は、そのＣＰＵ（コントローラ）７９において、格納部７５内に格納されている所定のプログラムを実行することによって、各種の処理部を実現する。なお、当該プログラムは、たとえば各種の可搬性の記録媒体（ＵＳＢメモリ等）に記録され、当該記録媒体を介してサーバ７０にインストールされればよい。あるいは当該プログラムは、ネットワーク等を介してダウンロードされてサーバ７０にインストールされるようにしてもよい。

具体的には、サーバ７０のＣＰＵ７９は、プログラム（検索アプリケーション等）の実行によって、検索部８１と取得部（指標値算出部）８２と決定部８３とリスト生成部８４と画像生成部８５とを含む各種の処理部を実現する。

検索部８１は、ユーザの指定入力に基づくキーワード検索（検索処理）を実行する処理部である。

取得部８２は、テキストオブジェクトの属性の希少性を示す指標値（後述）を取得（詳細には算出）する処理部である。

決定部８３は、当該指標値に基づいて各テキストオブジェクトの重要度を決定する処理部である。

リスト生成部８４は、後述する検索結果リストを生成する処理部である。たとえば、リスト生成部８４は、キーワード検索にて１又は複数の電子文書の中から検索された少なくとも１つのテキストオブジェクトを含む各ページを当該各ページの重要度に応じて整列させたリストを生成する。

画像生成部８５は、検索されたキーワードを含むページ画像等を生成する処理部である。画像生成部８５は、たとえば、当該リストを参照したユーザから特定ページの表示指示が付与されると、当該表示指示に応答して特定ページを含むサムネイル画像を生成する。

＜１−６．動作概要＞
図６および図７は、検索システム１における動作の概要を示す図である。

上述のように、検索システム１においては、印刷実行ユーザＵ１による印刷出力操作に応じて、クライアント３０（印刷指示装置）からサーバ７０へとＰＤＬデータ（電子文書）が送信され、当該サーバ７０にて当該ＰＤＬデータ（電子文書）が格納されている（図６のステップＳ１，Ｓ３，Ｓ５参照）。

その後、サーバ７０は、クライアント５０（検索指示装置）からのキーワード検索指示（キーワード検索を行うべき旨の指示）に応じて、ユーザＵ１によって指定されたキーワードに係るテキストオブジェクトを検索する（図７のステップＳ２１〜Ｓ２３）。そして、その検索結果が、クライアント５０に送信され（ステップＳ２４）当該クライアント５０にて表示される（ステップＳ２５）。

以下では、サーバ７０での検索処理を中心に更に詳細に説明する。

＜１−７．詳細動作１（文書生成〜文書格納）＞
まず、前半の処理、具体的には、サーバ７０への電子文書（電子データ）格納処理等（ステップＳ１〜Ｓ５（図６））について説明する。

図６のステップＳ１において、クライアント３０（印刷指示装置）は、印刷実行ユーザＵ１による印刷出力指示操作に応じて、印刷対象文書の印刷用データ（ＰＤＬデータ）を生成する。より詳細には、印刷実行ユーザＵ１が、或るアプリケーションにて印刷操作を実行すると、当該アプリケーションからプリンタドライバが呼び出される。当該プリンタドライバは、印刷対象文書の印刷用データ（ＰＤＬデータ）を生成する。印刷用データ（ＰＤＬデータ）の形式としては、ＰＣＬ（Printer Command Language）、ＸＰＳ（XML Paper Specification）、ポストスクリプト（PostScript）などの各種の形式が例示される。

当該印刷用データは、ＭＦＰ１０に送信される（ステップＳ２）。ＭＦＰ１０は、受信した印刷用データに基づいて印刷出力を実行する。

当該印刷用データは、サーバ７０にも送信される（ステップＳ３）。クライアント３０は、サーバ７０に対して、印刷対象文書の印刷用データ（ＰＤＬデータ）とともに当該印刷対象文書の文書名情報をも送信する。

サーバ７０は、印刷用データ（ＰＤＬデータ）および文書名情報を受信すると、当該印刷用データを文書名情報に関連づけて格納部７５に格納する（ステップＳ５）。

このようにして、印刷用データがサーバ７０に格納される。

なお、このような格納処理が繰り返されることによって、サーバ７０には、印刷された複数の文書に関する印刷用データ（複数の電子文書データ）が蓄積される。また、サーバ７０は、文書蓄積装置であるとも表現される。

＜属性情報（文字色／フォント種類）＞
この第１実施形態においては、ＰＤＬ（ページ記述言語）で記述された印刷用データが検索対象の文書である場合が例示される。

この印刷用データ（ＰＤＬデータ）においては、複数のテキストオブジェクト（文字）が含まれている。また、印刷用データにおいては、当該複数のテキストオブジェクトのそれぞれについてその属性が規定されている。ここでは、各テキストオブジェクトの属性として、各テキストオブジェクトの「色属性」と各テキストオブジェクトの「フォント属性」とが規定されているものとする。なお、これに限定されず、各テキストオブジェクトの属性としては、「色属性」と「フォント属性」との一方のみが規定されていてもよい。あるいは、他の属性が規定されていてもよい。

「色属性」は、各文字の「色」に関する属性情報である。たとえば、各文字の色（「黒色」および「灰色」（淡色）など）の情報が色属性情報として規定されている。

また、「フォント属性」は、各文字の「フォント」に関する属性情報である。たとえば、各文字のフォントの種類（「ゴシック体」および「明朝体」等）の情報および／またはフォントのスタイル（「太字体」および「斜体」等）の情報等がフォント属性として規定されている。なお、フォント属性としては、フォント種類とフォントスタイルとが組み合わせられて１つの属性として取り扱われてもよく、あるいは、フォント種類とフォントスタイルとがそれぞれ別個の属性として取り扱われてもよい。換言すれば、フォント属性は、フォント種類とフォントスタイルとのうちの少なくとも１つで表現される属性である。

＜１−８．詳細動作２（検索開始〜検索結果表示）＞
つぎに、後半の処理、具体的には、サーバ（検索装置）７０における検索処理等（ステップＳ２１〜Ｓ２５（図７））について図７および図８を参照しつつ説明する。なお、図８は、サーバ７０の動作を示すフローチャートである。

＜検索指示等＞
まず、ステップＳ２１（図７参照）において、クライアント５０（検索指示装置）は、キーワード検索指示（キーワード検索を行うべき旨の指示）を検索ユーザＵ２から受け付ける。

詳細には、クライアント５０は、ウエブブラウザを用いて、サーバ７０の検索サービス提供用のウエブページにアクセスし、サーバ７０から返信されてくる検索用のホームページ画面を表示する。検索ユーザＵ２は、当該ホームページ画面から「検索コマンド」を選択する。クライアント５０のウエブブラウザは、当該検索コマンドが選択された旨をサーバ７０に送信し、サーバ７０から検索画面の表示用データを受信する。そして、当該表示用データに基づいて、検索画面４１０（図９）がクライアント５０に表示部に表示される。

図９に示されるように、検索画面４１０は、検索キーワードの入力欄４１１と、検索条件に関する閾値指定欄４１２，４１３とを有している。また、検索画面４１０は、検索実行ボタン４１５をも有している。

検索キーワードの入力欄４１１は、検索対象のキーワードを指定するための入力欄である。また、閾値指定欄４１２は、明度差の最低値（閾値）ＴＨ１を指定するための入力欄であり、閾値指定欄４１３は、フォントサイズの最低値（閾値）ＴＨ２を指定するための入力欄である。なお、閾値指定欄４１２，４１３にはデフォルト値（「１２５」、「１０」）がそれぞれ予め入力されて表示されている。

検索ユーザＵ２は、入力欄４１１に所望のキーワード（たとえば、「ＴＯＫＹＯ」）を入力するとともに、閾値の変更を希望する場合には閾値指定欄４１２，４１３の値を変更する。そして、検索ユーザＵ２は、検索実行ボタン４１５を押下する。

検索実行ボタン４１５が検索ユーザＵ２によって押下されると、クライアント５０（詳細にはウエブブラウザ）は、キーワード検索指示および指定キーワード（検索ユーザＵ２によって指定入力されたキーワード）をサーバ７０に転送する（ステップＳ２２）。また、閾値ＴＨ１，ＴＨ２に関する情報も併せて、クライアント５０からサーバ７０へと送信される。

ステップＳ２３において、サーバ７０は、当該キーワード検索指示に応答して、サーバ７０に格納される複数の電子文書を検索対象として、当該指定キーワードに係るテキストオブジェクトを検索する。以下、図８のフローチャートを参照しながら、サーバ７０の動作（ステップＳ２３）について更に詳細に説明する。

＜検索開始＞
ステップＳ３１において、サーバ７０は、クライアント５０からの情報（キーワード検索指示、指定キーワード（「ＴＯＫＹＯ」等）および閾値ＴＨ１，ＴＨ２等）を受信すると、ステップＳ３２において、サーバ７０は、当該指定キーワードに関する検索処理を開始する。具体的には、まず、サーバ７０は、検索対象の１又は複数の電子文書（ＰＤＬデータ）の複数のテキストオブジェクトの中から、指定キーワード（検索キーワードとも称する）を含むテキストオブジェクトを抽出する。すなわち、キーワード抽出処理が実行される。

図１０および図１１は、検索キーワードを含むテキストオブジェクトが抽出された２つの文書を示す図である。図１０は、検索キーワードが抽出された第１の文書Ｄ１を示す図であり、図１１は、検索キーワードが抽出された第２の文書Ｄ２を示す図である。たとえば、図１０および図１１に示されるように、複数の電子文書（ＰＤＬデータ）の中から、７つのテキストオブジェクト「ＴＯＫＹＯ」が、キーワード検索の検索結果（暫定結果）として抽出される。

詳細には、図１０に示されるように、文書名「ＴＯＫＹＯ．ｐｒｎ」を有し且つ２つのページで構成される第１の電子文書（ＰＤＬデータ）Ｄ１において、３つのテキストオブジェクト「ＴＯＫＹＯ」が抽出される。より詳細には、第１頁第１行の「ＴＯＫＹＯ」と、第１頁第４行の「ＴＯＫＹＯ」と、第２頁第１行の「ＴＯＫＹＯ」とが抽出される。

また、図１１に示されるように、文書名「ＯＬＹＭＰＩＣＳ．ｐｒｎ」を有し且つ３つのページで構成される第２の電子文書（ＰＤＬデータ）Ｄ２において、４つのテキストオブジェクト「ＴＯＫＹＯ」が抽出される。より詳細には、第１頁第２行の「ＴＯＫＹＯ」と、第１頁第４行の「ＴＯＫＹＯ」と、、第１頁第７行の「ＴＯＫＹＯ」と、第２頁第３行の「ＴＯＫＹＯ」とが抽出される。

＜絞込処理＞
つぎに、ステッＳ３３において、サーバ７０は、複数のテキストオブジェクトの中から、その重要度が所定程度以下であると判定されるテキストオブジェクトを検索結果から除外する。端的に言えば、除外条件に該当するテキストオブジェクトが検索結果から除外され、検索結果が絞り込まれる。

具体的には、当該複数のテキストオブジェクトのうち、そのフォントサイズが閾値（フォントサイズの最低値）ＴＨ２よりも小さなテキストオブジェクト（端的に言えば、目立たないテキストオブジェクト）は、検索結果から除外される。所定程度よりも小さな文字で書かれた文字列で表現される情報の重要度は、それほど高くないことが多いからである。

また、その文字列の明度と当該文字列の背景の明度との差（明度差とも称する）が所定の閾値ＴＨ１よりも小さなテキストオブジェクトも、検索結果から除外される。端的に言えば、閾値ＴＨ１よりも小さな明度差を有するテキストオブジェクト（目立たないテキストオブジェクト）も、検索結果から除外される。背景との明度差が小さな文字で書かれた文字列（たとえば、白色の背景に薄い黄色（あるいは淡い灰色）で記載された文字列等）で表現される情報の重要度は、それほど高くないことが多いからである。

当該明度差は、評価対象のテキストオブジェクトの文字列の明度Ｃｂと当該文字列の背景の明度Ｃｂとの差（詳細にはその絶対値）である。それぞれの明度Ｃｂとしては、たとえば、Ｗ３Ｃ（WORLD WIDE WEB CONSORTIUM ）が提唱する次式（１）の値（"Color brightness"）（Ｃｂとも表記する）が用いられればよい。

なお、値Ｒは、８ビットで表現されるＲ（赤色）成分値（０〜２５５の値）である。同様に、値Ｇは、８ビットで表現されるＧ（緑色）成分値（０〜２５５の値）であり、値Ｂは、８ビットで表現されるＢ（青色）成分値（０〜２５５の値）である。

このように、２つの除外条件（フォントサイズに関する条件、および明度差に関する条件）のいずれかに該当するテキストオブジェクトは、検索結果から除外される。

なお、図１０および図１１の例では、抽出された７つのテキストオブジェクト「ＴＯＫＹＯ」は、当該２つの除外条件のいずれにも該当せず、いずれのテキストオブジェクトもも検索結果から除外されない。

＜各テキストオブジェクトの重要度評価＞
次に、サーバ７０は、検索結果として抽出されたテキストオブジェクト（詳細には、上述の絞込処理後のテキストオブジェクト）のそれぞれに対して、指標値Ｖ（次述）を算出する（ステップＳ３４，Ｓ３５）。

指標値Ｖは、評価対象のテキストオブジェクトの属性の希少性（単位領域内における希少性）を示す指標値である。

この実施形態では、指標値Ｖは、次式（２）〜（４）に基づいて算出される。指標値Ｖは、値Ｎ１，Ｎ２，Ｚに基づく評価値である。

ここで、値Ｎ１は、評価対象のテキストオブジェクトの色属性と同じ色属性を有するテキストオブジェクトの単位領域内における文字数である。値Ｎ２は、評価対象のテキストオブジェクトのフォント属性と同じフォント属性を有するテキストオブジェクトの単位領域内における文字数である。また、値Ｚは、評価対象のテキストオブジェクトが含まれる単位領域内の全文字数である。この実施形態では、単位領域として、（各電子文書の）「ページ」を採用する。

ここにおいて、値Ｖ１は、単位領域内において或る色属性（たとえば、「灰色」あるいは「黒色」）を有する文字列の文字数Ｎ１の全文字列数Ｚに対する割合（Ｎ１／Ｚ）、の逆数である。単位領域内において当該色属性を有する文字列の文字数Ｎ１が少なくなるにつれて、当該値Ｖ１は大きな値になる。したがって、値Ｖ１は、単位領域内における当該色属性の文字列の希少性を示している値である、とも言える。詳細には、当該値Ｖ１が大きくなるほど、希少性が高くなると判断される。

同様に、値Ｖ２は、単位領域内において或るフォント属性（たとえば、「ゴシック体且つ斜体」、「ゴシック体且つ通常体」、あるいは「明朝体且つ太字体」等）を有する文字列の文字数Ｎ２の全文字列数Ｚに対する割合（Ｎ２／Ｚ）、の逆数である。単位領域内において当該フォント属性を有する文字列の文字数Ｎ２が少なくなるにつれて、当該値Ｖ２は大きな値になる。したがって、値Ｖ２は、単位領域内における当該フォント属性の文字列の希少性を示している値である、とも言える。詳細には、当該値Ｖ２が大きくなるほど、希少性が高くなると判断される。

また、指標値Ｖは、値Ｖ１と値Ｖ２との積である。したがって、単位領域内において或るテキストオブジェクトの属性と同じ属性を有する文字列の数が少なくなるにつれて、指標値Ｖは大きな値になる。したがって、指標値Ｖは、単位領域内における当該属性（評価対象のテキストオブジェクトの属性と同じ属性）の文字列の希少性を示している値である、とも言える。詳細には、当該値Ｖが大きくなるほど、希少性が高くなると判断される。

なお、ここでは、値Ｖ１は値（Ｎ１／Ｚ）の逆数として定義されているが、これに限定されず、値Ｖ１は値（Ｎ１／Ｚ）自体であってもよい。同様に、値Ｖ２は値（Ｎ２／Ｚ）自体であってもよい。その場合には、当該値Ｖ１，Ｖ２（ひいては値Ｖ）が小さくなるほど、希少性が高くなると判断されればよい。

また、この実施形態においては、「ページ」を単位領域として指標値Ｖが算出されている。したがって、評価対象のテキストオブジェクトの重要度を、「ページ」単位での局所的な基準で判定することが可能である。特に、評価対象のテキストオブジェクトが含まれているページ以外のページに関する情報（文字数等）を考慮することを要しないので、比較的高速に指標値Ｖを算出することが可能である。

さて、指標値Ｖの算出に際して、サーバ７０は、まずステップＳ３４において、評価対象のテキストオブジェクト（ここでは７つのテキストオブジェクトの各文字列２１１〜２１７）が含まれる各ページのデータ（ＰＤＬデータ）を解析して、次のような準備情報を取得する。具体的には、準備情報として、各テキストオブジェクトに関して、上述の値Ｚ，Ｎ１，Ｎ２を取得する。

サーバ７０は、評価対象のテキストオブジェクトを含む各ページの全文字数Ｚをそれぞれ計数して取得する。なお、ここでは、評価対象の７つのテキストオブジェクトは、４つのページ（電子文書Ｄ１の第１頁および第２頁、ならびに電子文書Ｄ２の第１頁および第２頁）に含まれる。図１２、図１５、図１７および図２１には、７つのテキストオブジェクト（文字列２１１〜２１７）が示されている。なお、図１２は、文書Ｄ１の第１ページを示す図であり、図１５は、文書Ｄ１の第２ページを示す図である。また、図１７は、文書Ｄ２の第１ページを示す図であり、図２１は、文書Ｄ２の第２ページを示す図である。

たとえば、文字列２１１（図１２）は電子文書Ｄ１の第１頁に含まれるので、文字列２１１を含むテキストオブジェクトに関しては、電子文書Ｄ１の第１頁の全文字数（「５５文字」）が値Ｚとして取得される（図１３参照）。文字列２１２に関しても、電子文書Ｄ１の第１頁の全文字数（「５５文字」）が値Ｚとして取得される（図１４参照）。

同様にして、文字列２１３（図１５）に関しては、電子文書Ｄ１の第２頁の全文字数（「７７文字」）が値Ｚとして取得される（図１６参照）。また、文字列２１４〜２１６（図１７）に関しては、それぞれ、電子文書Ｄ２の第１頁の全文字数（「１１７文字」）が値Ｚとして取得される（図１８〜図２０参照）。さらに、文字列２１７（図２１）に関しては、電子文書Ｄ２の第２頁の全文字数（「７３文字」）が値Ｚとして取得される（図２２参照）。

また、サーバ７０は、評価対象のテキストオブジェクトの属性と同じ属性を有するテキストオブジェクトの同一ページ内における文字数を計数して取得する。より詳細には、各テキストオブジェクトについて、上述の値Ｎ１，Ｎ２を求める。値Ｎ１は、評価対象のテキストオブジェクトの色属性と同じ色属性を有するテキストオブジェクトの単位領域内における文字数である。また、値Ｎ２は、評価対象のテキストオブジェクトのフォント属性と同じフォント属性を有するテキストオブジェクトの単位領域内における文字数である。

たとえば、文字列２１１（図１２参照）を含むテキストオブジェクトに関しては、当該テキストオブジェクトの色属性（「黒色」）と同じ色属性を有するテキストオブジェクトの単位領域内における文字数（「５５文字」）が、値Ｎ１として取得される（図１３参照）。また、評価対象のテキストオブジェクトのフォント属性（「ゴシック体且つ通常体」）と同じフォント属性を有するテキストオブジェクトの単位領域内における文字数（「５５文字」）が、値Ｎ２として取得される。

また、文字列２１４（図１７参照）を含むテキストオブジェクトに関しては、当該テキストオブジェクトの色属性（「黒色」）と同じ色属性を有するテキストオブジェクトの単位領域内における文字数（「２３文字」）が、値Ｎ１として取得される（図１８参照）。また、評価対象のテキストオブジェクトのフォント属性（「ゴシック体且つ斜体」）と同じフォント属性を有するテキストオブジェクトの単位領域内における文字数（「７文字」）が、値Ｎ２として取得される。

また、文字列２１５（図１７参照）を含むテキストオブジェクトに関しては、当該テキストオブジェクトの色属性（「灰色」）と同じ色属性を有するテキストオブジェクトの単位領域内における文字数（「９４文字」）が、値Ｎ１として取得される（図１９参照）。また、評価対象のテキストオブジェクトのフォント属性（「ゴシック体且つ通常体」）と同じフォント属性を有するテキストオブジェクトの単位領域内における文字数（「１１０文字」）が、値Ｎ２として取得される。

他のテキストオブジェクト（他の文字列２１２，２１３，２２６，２２７）についても、同様にして、各値Ｎ１，Ｎ２が求められる。

そして、ステップＳ３５において、上述の式（２）〜（４）に基づいて、各テキストオブジェクトに関する指標値Ｖがそれぞれ算出される。

たとえば、文字列２１１（図１２参照）を含むテキストオブジェクトに関しては、図１３に示すように指標値Ｖ（「１．０」）が算出される。詳細には、Ｚ＝５５，Ｎ１＝５５，Ｎ２＝５５、であることに基づいて、値Ｖ１は、「５５／５５」であり、値Ｖ２は、「５５／５５」である。したがって、「１．０」（＝（５５／５５）＊（５５／５５））が指標値Ｖとして算出される。

文字列２１２（図１２参照）を含むテキストオブジェクトに関しても、同様に、値Ｖは、「１．０」（＝（５５／５５）＊（５５／５５））として算出される（図１４参照）。

また、文字列２１３（図１５参照）を含むテキストオブジェクトに関しては、図１６に示すように指標値Ｖ（「１５．４」）が算出される。詳細には、Ｚ＝７７，Ｎ１＝５，Ｎ２＝７７、であることに基づいて、値Ｖ１は、「７７／５」であり、値Ｖ２は、「７７／７７」である。したがって、「１５．４」（＝（７７／５）＊（７７／７７））が指標値Ｖとして算出される。

また、文字列２１４（図１７参照）を含むテキストオブジェクトに関しては、図１８に示すように指標値Ｖ（「８５．０」）が算出される。詳細には、Ｚ＝１１７，Ｎ１＝２３，Ｎ２＝７、であることに基づいて、値Ｖ１は、「１１７／２３」であり、値Ｖ２は、「１１７／７」である。したがって、「８５．０」（＝（１１７／２３）＊（１１７／７））が指標値Ｖとして算出される。

同様に、文字列２１５（図１７参照）を含むテキストオブジェクトに関しては、図１９に示すように指標値Ｖ（「１．３」）が算出される。詳細には、Ｚ＝１１７，Ｎ１＝９４，Ｎ２＝１１０、であることに基づいて、値Ｖ１は、「１１７／９４」であり、値Ｖ２は、「１１７／１１０」である。したがって、「１．３」（＝（１１７／９４）＊（１１７／１１０））が指標値Ｖとして算出される。

同様に、文字列２１６（図１７参照）を含むテキストオブジェクトに関しては、図２０に示すように指標値Ｖ（「５．４）が算出される。詳細には、Ｚ＝１１７，Ｎ１＝２３，Ｎ２＝１１０、であることに基づいて、値Ｖ１は、「１１７／２３」であり、値Ｖ２は、「１１７／１１０」である。したがって、「５．４」（＝（１１７／２３）＊（１１７／１１０））が指標値Ｖとして算出される。

さらに、文字列２１７（図２１参照）を含むテキストオブジェクトに関しては、図２２に示すように指標値Ｖ（「１．８）が算出される。詳細には、Ｚ＝７３，Ｎ１＝７３，Ｎ２＝４１、であることに基づいて、値Ｖ１は、「７３／７３」であり、値Ｖ２は、「７３／４１」である。したがって、「１．８」（＝（７３／７３）＊（７３／４１））が指標値Ｖとして算出される。

なお、図２３は、各テキストオブジェクト（各文字列２１１〜２１７）の指標値Ｖをリスト形式で示す図である。

以上のようにして、評価対象の各テキストオブジェクトの属性の希少性を示す指標値Ｖが算出（取得）される。

また、各テキストオブジェクトの各指標値Ｖに基づいて、各テキストオブジェクトの重要度がそれぞれ決定される。ここでは、各指標値Ｖ自体が、各テキストオブジェクトの重要度として決定される。各テキストオブジェクトの重要度は、各テキストオブジェクトの属性の希少性（単位領域における希少性）を示す指標値Ｖに基づいて決定される。より詳細には、比較的高い希少性を有するテキストオブジェクトが比較的高い重要度を有する旨が判定される。換言すれば、単位領域内で希少な属性を有するテキストオブジェクト（他とは異なる外観を有するテキストオブジェクト（端的に言えば、目立つオブジェクト））が高い重要度を有する旨、が判定される。

＜ページの重要度評価＞
次に、ステップＳ３６において、サーバ７０は、評価対象の各テキストオブジェクトが所属する各ページの重要度を決定する。

基本的には、評価対象の各テキストオブジェクトが所属するページの重要度は、当該テキストオブジェクトの指標値Ｖ（重要度）と同じ値に決定される。ただし、同一ページ内に複数のテキストオブジェクトが存在する場合には、当該複数のテキストオブジェクトに関する複数の指標値Ｖのうち最も高い値が、当該ページの重要度として決定される。

このように、或る単位領域（ここでは或る「ページ」）内で最も高い重要度を有するテキストオブジェクト（文字列）の重要度が、当該単位領域の重要度として決定される。

図２４は、各ページの重要度の算出結果を示す図である。図２３と比較すると判るように、文書Ｄ１の第１頁の重要度としては、２つの文字列２１１，２１２に関する２つの指標値Ｖのうち比較的高い方の指標値（ここでは同一の値）「１．０」が決定される。また、文書Ｄ１の第２頁の重要度としては、文字列２１３に関する指標値Ｖ「１５．４」が決定される。また、文書Ｄ２の第１頁の重要度としては、３つの文字列２１４，２１５，２１６に関する３つの指標値Ｖのうち最も高い指標値Ｖ「８５．０」が決定される。さらに、文書Ｄ２の第２頁の重要度としては、文字列２１７に関する指標値Ｖ「１．８」が決定される。

＜リスト生成＞
次に、サーバ７０は、ステップＳ３７において、検索結果リスト６１０を生成する。検索結果リスト６１０は、ステップＳ３２のキーワード抽出処理（キーワード検索処理）にて検索された少なくとも１つのテキストオブジェクトを含む各ページを当該各ページの重要度に応じて整列させたリストである（図２５参照）。

また、サーバ７０は、当該検索結果リスト６１０の画像データ（表示用データ）を（ソフトウエアＲＩＰ等によって）生成する。

次のステップＳ３８において、サーバ７０は、当該画像データ等を含むウエブページデータ（検索結果リスト６１０の表示用データ）を、検索結果としてクライアント５０に送信する。

＜検索結果表示＞
再び図７を参照する。

クライアント５０は、サーバ７０から検索結果（画像データ等を含むウエブページデータ）を受信する（ステップＳ２４）と、受信した検索結果を表示する（ステップＳ２５）。具体的には、当該ウエブページデータに基づく検索結果リスト６１０（図５）が表示部５６に表示される（ステップＳ２５）。

図２５の検索結果リスト６１０においては、７つのテキストオブジェクトが所属する４つのページが、その重要度の降順に、最上行（Ｎｏ．１）から最下行（Ｎｏ．４）へ向けて配列されている。また、検索結果リスト６１０の各行（各段）においては、文書名、ページ番号、重要度（指標値Ｖ）、画像表示指示ボタン６２０が表示されている。

具体的には、最も高い重要度「８５．０」を有するページ（文書Ｄ２の第１頁）が最上段（最上行）に表示されている。また、次順位の重要度「１５．４」を有するページ（文書Ｄ１の第２頁）が上から２段目に表示されている。さらに、その次の順位の重要度「１．８」を有するページ（文書Ｄ２の第２頁）が上から３段目に表示されている。そして、最も低い重要度「１．０」を有するページ（文書Ｄ１の第１頁）が最下段に表示されている。

検索結果リスト６１０において、各行に対応する画像表示指示ボタン６２０（６２１〜６２４）の中から所望のボタン（たとえば、ボタン６２１）が検索ユーザＵ２によって押下されると、クライアント５０は、押下されたボタン６２０に対応するページ画像の送信指示をサーバ７０に対して送信する。

サーバ７０は、当該送信指示に応答して、対応ページの画像（ページ画像）の画像データを生成するとともに、当該画像データを含むウエブページデータをクライアント５０に送信する。クライアント５０は、当該ウエブページデータを受信すると、当該ウエブページデータに基づいて、対応ページ画像の表示画面７１０（図２６参照）を表示する。

図２６においては、ボタン６２１の押下に応じて、文書Ｄ２の第１頁（最も高い重要度を有するページ）が表示された様子が示されている。

なお、当該ページ内での検索キーワードは、強調表示（たとえば、特定色でマーキングされて表示（黄色マーキング表示等））されるようにしてもよい。

このようにして、検索ユーザＵ２は、検索結果を視認することができる。特に、重要度順に配列された検索結果リストを利用することによれば、検索ユーザＵ２は、複数の検索結果の中から、比較的高い重要度を有するページを比較的容易に閲覧することが可能である。

＜１−９．実施形態の効果等＞
ここにおいて、比較例に係る技術として、或る文字列の属性（色属性あるいはフォント属性）が特定の属性であるか否かのみに応じて、その文字列が重要であるか否かを判定する技術を想定する。

一般に、或る文書においては、通常の情報が或るフォント属性（たとえば明朝体）の文字で表示されており、比較的重要な情報が別のフォント属性（たとえば、ゴシック体）の文字で表示されていることがある。しかしながら、一方、別の文書においては、通常の情報が当該別のフォント属性（たとえばゴシック体）の文字で表示されており、比較的重要な情報が当該別のフォント属性とは異なるフォント属性（たとえば、明朝体あるいは更に別のフォント）の文字等で表示されていることもある。

したがって、或る文字列が特定のフォント属性（たとえば「ゴシック体」）を有しているか否かのみに応じて、その文字列が重要であるか否かを判定することは困難である。

同様に、或る文書においては、通常の情報が黒色文字で表示されており、重要な情報が別の色（たとえば赤色）の文字で表示されていることがある。しかしながら、一方、別の文書においては、通常の情報がグレー（灰色）で表示されており、重要な情報が別の色（たとえば黒色）の文字で表示されていることもある。

したがって、或る文字列が特定の色属性（たとえば赤色）を有しているか否かのみに応じて、その文字列が重要であるか否かを判定することは困難である。

このように、検出されたテキストオブジェクト（文字列）の属性（色属性および／またはフォント属性）が特定の属性であるか否かのみに応じて、当該テキストオブジェクトの重要性を判定することは困難である。換言すれば、電子文書から抽出された各テキストオブジェクトの重要度を適切に判定することは必ずしも容易ではない。

一方、上記実施形態によれば、ステップＳ３５（図８）において、１又は複数の電子文書に関するキーワード検索にて検索された一のテキストオブジェクトの属性の希少性を示す指標値Ｖが取得され、当該指標値Ｖに基づいて当該一のテキストオブジェクトの重要度が決定される。指標値Ｖは、当該一のテキストオブジェクトが含まれる単位領域内の全文字数と、当該一のテキストオブジェクトの属性と同じ属性を有するテキストオブジェクトの単位領域内における文字数との対比に基づく指標値である。したがって、キーワード検索された文字列の重要度を適切に判定することが可能である。

特に、希少性を有する属性をユーザ等が予め指定しなくても、希少な属性が自動的に決定され、当該希少な属性に対応するテキストオブジェクトが比較的高い重要度を有するものとして検索される。したがって、ユーザは、高い重要度を有する情報に比較的容易にアクセスすることが可能である。また、様々な電子文書のそれぞれに対してユーザが個別に特定の属性を指定することを要しない。したがって、ユーザは、様々な電子文書に関して、重要な情報に比較的容易にアクセスすることが可能である。

また、上記実施形態における検索対象文書は、特異な形式（文書の章構造を規定した形式等）を有することを要さず、各文字の属性（色属性および／またはフォント属性等）を規定した一般的な形式を有するものであればよい。したがって、当該実施形態に係る検索技術は、比較的多様な形式の電子文書に適用され得る。

また、指標値Ｖは、キーワード検索された文字列の属性と同じ属性の文字列が単位領域に占める割合（詳細には、その逆数）に基づく比較的単純な計算式で算出されるので、各文字列の重要度を比較的容易に判定することが可能である。

また、指標値Ｖは、値Ｖ１と値Ｖ２とに基づく値である。値Ｖ１は、１又は複数の電子文書に関するキーワード検索にて検索された一のテキストオブジェクトの色属性と同じ色属性を有するテキストオブジェクトの単位領域内における文字数Ｎ１と、当該一のテキストオブジェクトが含まれる単位領域内の全文字数Ｚとの対比に基づく値である。また、値Ｖ２は、当該一のテキストオブジェクトのフォント属性と同じフォント属性を有するテキストオブジェクトの単位領域内における文字数Ｎ２と、当該単位領域内の全文字数Ｚとの対比に基づく値である。２種類の属性（色属性およびフォント属性）を用いることによれば、各テキストオブジェクト（文字列）の重要度をより適切に判定することが可能である。

さらに、上記実施形態においては、各テキストオブジェクトの重要度に基づいて各ページの重要度が決定される（ステップＳ３６）。そして、検索結果リスト６１０においては、検索キーワードを含む複数のページがその重要度順にページ単位でリストアップされる（ステップＳ２５）。したがって、検索ユーザＵ２は、重要な情報を含むページに対して比較的容易にアクセスすることが可能である。特に、検索ユーザが用語（キーワード）を調べる場合には、キーワードを含む文章をページ単位で閲覧することが便利であり、検索結果リスト６１０は、そのようなページ単位での閲覧に非常に好都合である。

また、目立たない文字列（フォントサイズが閾値ＴＨ２よりも小さな文字列、および／または背景との明度差が閾値ＴＨ１よりも小さな文字列）は、キーワード検索の検索結果から除外される。したがって、比較的重要性が低いと考えられる情報が検索結果から除外され、絞り込まれた比較的少数の検索結果（高品質の検索結果）がユーザに提供され得る。

また、各閾値ＴＨ１，ＴＨ２は、ユーザによって変更可能であるので、ユーザは、必要に応じて絞り込みの程度を適宜に調整することが可能である。

＜２．第２実施形態＞
第２実施形態は、第１実施形態の変形例である。以下、第１実施形態との相違点を中心に説明する。

上記第１実施形態においては、検索結果がページ単位で表示されている（図２５）が、これに限定されず、検索結果が文書単位で表示されてもよい。この第２実施形態では、このような態様について説明する。

この第２実施形態では、ページ単位の検索結果リスト６１０（図２５参照）に代えて電子文書単位の検索結果リスト６５０（図２７参照）が生成され（ステップＳ３７）、クライアント５０にて当該検索結果リスト６５０が表示される（ステップＳ２５）。検索結果リスト６５０においては、キーワード検索にて複数の電子文書の中から検索された少なくとも１つのテキストオブジェクトを含む各電子文書が、当該各電子文書の重要度に応じて整列される。

具体的には、図８のステップＳ３６において、各ページの重要度決定処理に加えて、各電子文書の重要度決定処理がさらに実行される。

ステップＳ３６においては、まず第１実施形態と同様にして各ページの重要度決定処理が行われ、各ページの重要度の算出結果が得られる（図２４参照）。この第２実施形態においては、ステップＳ３６にて更に、抽出された各ページを含む複数の電子文書の重要度が算出される。詳細には、或る電子文書内で最も高い重要度を有するページの重要度が当該電子文書の重要度として決定される。

たとえば、図２４に示すように、文書Ｄ１においては、２つのページに検索キーワードが含まれている。各ページの重要度は第１実施形態と同様にして決定される。具体的には、文書Ｄ１の第１頁の重要度は「１．０」であり、文書Ｄ１の第２頁の重要度は「１５．４」である。そして、これらの情報に基づいて、文書Ｄ１の重要度は、これらのうち最も高い値である「１５．４」に決定される。

同様に、文書Ｄ２においては、２つのページに検索キーワードが含まれている。各ページの重要度は第１実施形態と同様にして決定される。具体的には、文書Ｄ２の第１頁の重要度は「８５．０」であり、文書Ｄ２の第２頁の重要度は「１．８」である。そして、これらの情報に基づいて、文書Ｄ１の重要度は、これらのうち最も高い値である「８５．０」に決定される。

その後のステップＳ３７において、サーバ７０は、このような決定内容に基づいて、検索結果リスト６５０（図２７）を生成する。なお、図２７は、検索結果リスト６５０を示す図である。

また、ステップＳ３８において、サーバ７０は、検索結果リスト６５０の表示用データを、検索結果としてクライアント５０に送信する。

そして、クライアント５０は、検索結果リスト６５０の表示用データをサーバ７０から受信する（ステップＳ２４）と、受信した表示用データに基づいて検索結果リスト６５０を表示する（ステップＳ２５）。

図２７の検索結果リスト６５０においては、７つのテキストオブジェクトの所属先の２つの文書が、その重要度の降順に、上から下へ向けて配列されている。また、検索結果リスト６５０の各行（各段）においては、文書名、重要度（指標値Ｖ）、画像表示指示ボタン６６０が表示されている。

検索結果リスト６５０において、各行に対応する画像表示指示ボタン６６０（６６１、６６２）の中から所望のボタン（たとえば、ボタン６６１）が検索ユーザＵ２によって押下されると、クライアント５０は、押下されたボタン（６６１）に対応する文書（Ｄ２）のページ画像の送信指示をサーバ７０に対して送信する。

サーバ７０は、当該送信指示に応答して、対応文書（たとえばＤ２）のページ画像の画像データを生成する。たとえば、当該文書Ｄ２内のページのうち最も高い重要度を有するページ（第１頁）が、最初の表示対象ページとして選択され、当該最初の表示対象ページのページ画像が生成される。そして、当該画像データを含むウエブページデータが、サーバ７０からクライアント５０に送信される。

クライアント５０は、当該ウエブページデータを受信すると、当該ウエブページデータに基づいて、対応ページの画面７１０（図２６参照）を表示する。換言すれば、ボタン６２１の押下に応じて、文書Ｄ２の第１頁（最も高い重要度を有するページ）のページ画像が最初の表示対象ページとして表示される。

このようにして、検索ユーザＵ２は、検索結果を視認することができる。特に、検索結果リスト６５０においては、検索キーワードを含む２以上（ここでは２つ）の電子文書が重要度順に整列されている。したがって、当該検索結果リスト６５０を利用することによれば、検索ユーザＵ２は、複数の検索結果の中から、比較的高い重要度を有する電子文書に対して比較的容易にアクセスすることが可能である。

なお、図２６の画面７１０においては、ページ変更ボタン（「前ページ表示ボタン」および「次ページ表示ボタン」等）（不図示）が更に設けられてもよい。そして、ページ変更ボタンの押下に応じて、表示対象ページが（直前のページあるいは直後のページ等へと）更新されるようにしてもよい。また、検索キーワードを含む他のページへジャンプするためのページ変更ボタン（「次順位ページ表示ボタン」等）が更に設けられてもよい。当該次順位ページ表示ボタンの押下に応じて、表示対象ページが次順位ページ（その指標値Ｖが表示中ページの次に高いページ）に変更されるようにしてもよい。また、逆向きのページ変更を行うための「前順位ページ表示ボタン」等が設けられてもよい。

＜３．第３実施形態＞
第３実施形態は、第１実施形態等の変形例である。以下、第１実施形態との相違点を中心に説明する。

上記各実施形態においては、印刷出力用データ（ＰＤＬデータ）等が検索対象の電子文書として用いられているが、これに限定されない。他の形式のデータが検索対象の電子文書として用いられてもよい。

当該他の形式のデータとしては、各種の文書作成アプリケーションソフトウエアプログラム（以下、アプリケーションとも称する）によって生成されたものが例示される。より詳細には、ワードプロセッサアプリケーションで生成された文書データ、表計算アプリケーションで生成された文書データ、および／または、ＰＤＦデータ生成アプリケーションで生成されたＰＤＦデータ（文書データ）などの各種のデータが例示される。また、当該他の形式のデータは、ＨＴＭＬ文書作成アプリケーションによって生成されたＨＴＭＬ（HyperText Markup Language）形式のデータであってもよい。

図２８は、第３実施形態の動作を示す図である。第３実施形態においては、図６の動作に代えて図２８の動作が実行される。

具体的には、ステップＳ１１において、クライアント３０のデータ生成部３１は、各種のアプリケーション向けの文書データを生成する。より詳細には、文書作成ユーザＵ３が各種の文書作成アプリケーション（ワードプロセッサアプリケーション等）を利用して、各種の形式の文書データを生成する。

そして、ステップＳ１３において、クライアント３０は、当該文書データをサーバ７０に送信する。

さらに、ステップＳ１５において、サーバ７０は、クライアント３０から受信した文書データを、その格納部７５に格納する。

その後、各アプリケーションによって生成された文書データ（電子文書）を検索対象として、上記と同様の検索処理がサーバ７０にて実行される。

ここにおいて、クライアント３０によって生成される文書データは、たとえば、テキストオブジェクトとページ区切り情報と各テキストオブジェクトの色属性およびフォント属性とを有するデータであればよい。

＜４．第４実施形態＞
第４実施形態は、第１実施形態等の変形例である。以下、第１実施形態との相違点を中心に説明する。

上記各実施形態では、サーバ７０がクライアント５０から検索指示を受け付けた後に、上述のステップＳ３４，Ｓ３５（図８）を含む処理が実行されているが、これに限定されない。たとえば、ステップＳ３４，Ｓ３５を実行するための準備処理のうちの一部の処理（文字数計数処理）は、クライアント５０からの検索指示がサーバ７０によって受け付けられる前に予め行われていてもよい。第４実施形態では、このような態様について説明する。なお、当該一部の処理は、サーバ７０で予め行われてもよいが、ここではクライアント３０側で予め行われる場合について説明する。

図２９は、第４実施形態の動作を示す図である。第４実施形態においては、図６の動作に代えて図２９の動作が実行される。

具体的には、ステップＳ５１，Ｓ５２，Ｓ５３は、図６のステップＳ１，Ｓ２，Ｓ４とそれぞれ同様である。

第３実施形態においては、ステップＳ５１で生成されたＰＤＬデータ（電子文書）に対する解析処理（文書解析処理）が、（検索処理の前に）クライアント３０により予め実行される（ステップＳ５４）。なお、当該文書解析処理（ステップＳ５４）は、ステップＳ５２，Ｓ５３の後（直後等）に行われてもよいが、ステップＳ５２，Ｓ５３と並列的に実行されてもよい。

ステップＳ５４においては、クライアント３０（たとえばプリンタドライバ）は、ステップＳ５１で生成された電子文書（ＰＤＬデータ）を解析することによって、当該電子文書に関する属性情報（属性データ）８１０を生成する。当該属性情報８１０は、当該電子文書に関して、その各単位領域（ここでは「ページ」）内の全文字数と、当該各単位領域内の色属性ごとの文字数と、当該各単位領域内のフォント属性ごとの文字数とを規定した情報である。当該属性情報は、各電子文書についてそれぞれ取得される。

たとえば、文書Ｄ２が作成される際には、文書Ｄ２の３つのページに関する属性情報８１０が取得される。

図３０は、このような属性情報８１０を示す図である。

具体的には、文書Ｄ２に関して、第１頁の全文字数（「１１７」文字）と、第１頁内の色属性ごとの文字数（「黒色＝２３文字」、「灰色＝９４文字」）と、第１頁内のフォント属性ごとの文字数（「ゴシック体且つ通常体＝１１０文字」、「ゴシック体且つ斜体＝７文字」）とが取得され、属性情報８１０に規定される。なお、２つの色属性（「黒色」、「灰色」）と２つのフォント属性（（「ゴシック体且つ通常体」、「ゴシック体且つ斜体」））とが第１頁に含まれる旨も、属性情報８１０に規定される。

また、文書Ｄ２に関して、第２頁の全文字数「７３文字」と、第２頁内の色属性ごとの文字数（「黒色＝７３文字」）と、第２頁内のフォント属性ごとの文字数（「ゴシック体且つ通常体＝３２文字」、「ゴシック体且つ斜体＝４１文字」）とが取得され、属性情報８１０に規定される。なお、１つの色属性（「黒色」）と２つのフォント属性（（「ゴシック体且つ通常体」、「ゴシック体且つ斜体」））とが第２頁に含まれる旨も、属性情報８１０に規定される。

さらに、文書Ｄ２に関して、第３頁の全文字数（「８３文字」）と、第３頁内の色属性ごとの文字数（「黒色＝８３文字」）と、第３頁内のフォント属性ごとの文字数（「ゴシック体且つ通常体＝８３文字」）とが取得され、属性情報８１０に規定される。なお、１つの色属性（「黒色」）と１つのフォント属性（（「ゴシック体且つ通常体」））とが第３頁に含まれる旨も、属性情報８１０に規定される。

そして、ステップＳ５５において、クライアント３０（たとえばプリンタドライバ）は、当該属性情報８１０とＰＤＬデータとの双方を含む情報をサーバ７０に送信する。なお、ここでは、クライアント３０は、属性情報８１０の作成完了後に当該属性情報８１０とともにＰＤＬデータを送信しているが、これに限定されず、属性情報８１０の作成完了前にＰＤＬデータを先に送信しておいてもよい。

サーバ７０は、これらの情報（ＰＤＬデータおよび属性情報８１０等）を受信すると、これらの情報を互いに関連付けてその格納部７５に格納する（ステップＳ５６）。換言すれば、格納部７５には、電子文書（ＰＤＬデータ）のみならず、クライアント３０（各電子文書の生成装置）で生成され当該クライアント３０から予め受信された属性情報８１０（図３０）もが格納される。

その後、検索処理が行われる際に、属性情報８１０が利用される。

第４実施形態においても、第１実施形態等と同様に、図７および図８の動作が行われる。ただし、図８のステップＳ３４においては、第１実施形態とは異なる動作が行われ、非常に高速に各値Ｚ，Ｎ１，Ｎ２が取得される。

具体的には、各テキストオブジェクト（各文字列２２１〜２２７）の指標値Ｖは、図３０の属性情報８１０を利用して生成される。

ここで、属性情報８１０には、（クライアント３０によって取得された）値Ｚが既に含まれているので、サーバ７０は、値Ｚを計数することを要しない。

また、サーバ７０は、属性情報８１０を利用することによって、改めて計数することなく値Ｎ１，Ｎ２をも取得することができる。

具体的には、サーバ７０は、まず、評価対象の一のテキストオブジェクトの色属性と同じ色属性である一の色属性を特定する。そして、サーバ７０は、属性情報８１０に基づいて、当該一の色属性を有するテキストオブジェクトの単位領域内における文字数Ｎ１を取得する。

また、サーバ７０は、当該一のテキストオブジェクトのフォント属性と同じフォント属性である一のフォント属性を特定する。そして、サーバ７０は、属性情報８１０に基づいて、当該一のフォント属性を有するテキストオブジェクトの単位領域内における文字数Ｎ２を取得する。

ここにおいて、属性情報８１０には、全ての色属性のテキストオブジェクトの文字数が単位領域ごとに（既に）規定されている。したがって、各文字列に対応する色属性が特定されると、当該特定された色属性に対応する文字数Ｎ１が、属性情報８１０に基づいて瞬時に取得される。

同様に、属性情報８１０には、全てのフォント属性のテキストオブジェクトの文字数が単位領域ごとに（既に）規定されている。したがって、各文字列に対応するフォント属性が特定されると、当該特定されたフォント属性に対応する文字数Ｎ２が、属性情報８１０に基づいて瞬時に取得される。

その後、第１実施形態と同様にして、図８のステップＳ３５において、各テキストオブジェクトに対して、各値Ｚ、Ｎ１，Ｎ２に基づき指標値Ｖが算出される。

また、ステップＳ３６以降の処理も、第１実施形態と同様にして行われる。

以上のように、第４実施形態によれば、属性情報８１０に基づいて、各テキストオブジェクトの属性と同じ属性を有するテキストオブジェクトの単位領域内における文字数が瞬時に取得されるので、当該各テキストオブジェクトに関する指標値Ｖを比較的短時間で算出することが可能である。ひいては、検索時間を短縮することが可能である。このように、サーバ７０に予め格納された属性情報８１０を利用することによって、サーバ７０による検索時間を短縮することが可能である。

なお、ここでは、属性情報８１０は、色情報とフォント情報との双方を有しているが、これに限定されない。たとえば、属性情報８１０は、色情報とフォント情報との一方のみを有していてもよい。また、当該一方のみの情報に基づいて指標値Ｖが算出されてもよい。

＜５．第５実施形態＞
上記第４実施形態においては、クライアント３０のプリンタドライバによって属性情報８１０が生成されているが、これに限定されない。たとえば、クライアント３０にインストールされた他のプログラム（たとえば、文書送信アプリケーション）によって属性情報８１０が生成されてもよい。

第５実施形態では、このような態様を例示する。第５実施形態は、第３実施形態および第４実施形態の変形例であり、以下では、これらの実施形態との相違点を中心に説明する。

図３１は、第５実施形態の動作を示す図である。第５実施形態においては、図２８の動作に代えて図３１の動作が実行される。

図２８の動作（ステップＳ１１，Ｓ１３，Ｓ１５）に加えて、文書解析動作（ステップＳ１２）が、（検索処理の前に）クライアント３０により予め実行される。ステップＳ１２の動作は、第４実施形態の文書解析動作（図２９のステップＳ５４）と同様である。ただし、この第５実施形態においては、プリンタドライバではなく、文書送信アプリケーションによって、当該文書解析動作（ステップＳ５４）が行われる。

ステップＳ１２においては、クライアント３０（文書送信アプリケーション）は、ステップＳ１１で生成された電子文書を解析することによって、当該電子文書に関する属性情報（属性データ）８１０（図３０）を生成する。

また、第５実施形態のステップＳ１３においては、クライアント３０は、当該属性情報８１０とＰＤＬデータとの双方を含む情報をサーバ７０に送信する。そして、サーバ７０は、これらの情報（文書データおよび属性情報８１０等）を受信すると、これらの情報を互いに関連付けてその格納部７５に格納する（ステップＳ１５）。

その後、第４実施形態と同様の検索動作（図７および図８参照）が行われる。検索処理が行われる際には、属性情報８１０が利用される。

以上のような動作によれば、文書データ（ここでは、ＰＤＬデータ以外のデータ）に関する文書解析動作がクライアント３０によって予め実行され、文書解析動作の解析結果に係る属性情報が生成される。そして、当該属性情報８１０がサーバ（検索装置）７０によって利用されて、検索処理が行われる。したがって、第４実施形態と同様に、指標値Ｖを比較的短時間で算出することが可能である。ひいては、検索時間を短縮することが可能である。

なお、第５実施形態では、属性情報８１０がサーバ７０に送信されているが、これに限定されず、属性情報８１０はサーバ７０の管理下の装置（ファイルサーバ等）に送信されるようにしてもよい。第４実施形態に関しても同様である。

＜６．第６実施形態＞
上記各実施形態においては、ステップＳ２５（図７）にて、キーワード検索結果を含む電子文書が１ページ単位で表示されている（図２６参照）が、これに限定されない。

たとえば、キーワード検索結果を含む或る電子文書の複数のページ（特に全ページ）がサムネイル表示（図３２参照）されるようにしてもよい。

より詳細には、上記第１実施形態のように特定ページの表示指示（ページ単位の表示指示）がサーバ７０によって受信される場合であっても、特定ページの表示指示に応答して、当該特定ページ（一のページ）のみならず、他のページをも含む全てのページがサムネイル表示されてもよい。

あるいは、上記第２実施形態のように特定文書の表示指示（文書単位の表示指示）がサーバ７０によって受信される場合に、特定文書の表示指示に応答して、当該特定文書内の一のページ（最高指標値Ｖを有するページ）のみならず、他のページをも含む全てのページがサムネイル表示されてもよい。

これによれば、検索対象のキーワードを含む電子文書において、当該キーワードに関連する記述箇所が複数のページに跨がっている場合等において、ページめくりしなくても当該記述箇所を閲覧することが可能である。

ただし、当該電子文書が多数のページを有する場合等においては、当該多数のページをサムネイル表示すると、各ページのサムネイル画像が小さくなり過ぎるなどのため、却って見難くなることもある。

そこで、この第６実施形態では、所定条件Ｃ１の成否に応じて、電子文書の全ページのサムネイル表示と電子文書の一のページの画像表示とを（自動的に）切り替える技術について説明する。

ここでは、次の条件Ｃ１１，Ｃ１２，Ｃ１３の全てが成立する旨の条件を、条件Ｃ１として例示する。条件Ｃ１１，Ｃ１２，Ｃ１３は次の通りである。

・条件Ｃ１１：当該文書の全ページ数が所定値ＴＨ６１（たとえば、「６」）以下であること、
・条件Ｃ１２：当該文書の全ページについて、ページあたりの文字数が所定値ＴＨ６２（たとえば、「１０００」文字／ページ）以下であること、
・条件Ｃ１３：当該文書内において、検索キーワードに該当する全テキストオブジェクトのフォントサイズが所定値ＴＨ６３（たとえば、「１０．５」ポイント）以上であること。

サーバ７０は、ステップＳ３７（図８）において、条件Ｃ１の成否を判定する。条件Ｃ１が成立しない場合には、サーバ７０は、電子文書の特定の一のページのみのサムネイル画像を表示するための画像データを生成する。一方、条件Ｃ１が成立する場合には、サーバ７０は、電子文書の全ページのサムネイル画像を表示するための画像データを生成する。なお、全ページのサムネイル表示においては、最高指標値Ｖを有するページ（たとえば、第１ページ（Ｖ＝８５．０））が強調表示（太線で囲まれる等）されるようにしてもよい。

そして、サーバ７０は、生成した画像データ等をクライアント５０に送信し（ステップＳ３８）、クライアント５０は、受信した画像データ等に基つき、検索結果リストをその表示部５６に表示する（ステップＳ２４，Ｓ２５）。

条件Ｃ１が成立する場合には、クライアント５０においては、電子文書の全ページのサムネイル画像が表示される。たとえば、図３２に示すように、電子文書「ＯＬＹＭＰＩＣＳ．ｐｒｎ」の全ページ（ここでは３ページ）のサムネイル画像（３枚のサムネイル画像）が表示される。

これによれば、検索キーワードに関連する記述箇所（特に、検索された４つのキーワードに関連する記述箇所）が電子文書の複数のページ（３ページ）に跨がっている場合において、ページめくり操作（表示対象ページの変更操作）を行わなくても当該記述箇所を閲覧することが可能である。

ここにおいて、上記第１実施形態のように特定ページの表示指示（ページ単位の表示指示）がサーバ７０によって受信される場合には、特定ページ（一のページ）の表示指示に応答して、上述のような画像生成動作が行われればよい。

また、上記第２実施形態のように特定文書の表示指示（文書単位の表示指示）がサーバ７０によって受信される場合にも、同様の改変を行うことが可能である。

たとえば、まず、サーバ７０は、特定文書の表示指示に応答して、特定文書内の最高指標値Ｖを有する一のページをさらに特定する。そして、サーバ７０は、当該一のページのサムネイル画像のみを表示するか、当該一のページを含む全ページの全サムネイル画像を表示するかを、所定の条件Ｃ１の成否に基づいて変更するようにしてもよい。

なお、上記実施形態においては、条件Ｃ１１，Ｃ１２，Ｃ１３の全てが成立する旨の条件が条件Ｃ１として例示されているが、これに限定されない。たとえば、条件Ｃ１３を考慮せず、２つの条件Ｃ１１，Ｃ１２の全てが成立する旨が条件Ｃ１として採用されてもよい。

＜７．第７実施形態＞
第７実施形態は、第１実施形態等の変形例である。以下、第１実施形態との相違点を中心に説明する。

上記各実施形態等においては、或るテキストオブジェクトに関する明度差が閾値ＴＨ１（ＴＨ１１とも称する）よりも小さい場合に、当該テキストオブジェクトがキーワード検索の検索結果から除外されているが、これに限定されない。

この第７実施形態では、明度差に代えて、色差が用いられる。具体的には、或るテキストオブジェクトに関する色差が閾値ＴＨ１２よりも小さい場合に、当該テキストオブジェクトがキーワード検索の検索結果から除外される。

ここで、色差は、評価対象のテキストオブジェクトの文字列の色（Ｒ１，Ｇ１，Ｂ１）と当該文字列の背景の色（Ｒ２，Ｇ２，Ｂ２）との差異を示す指標値である。当該色差としては、たとえば、Ｗ３Ｃ（WORLD WIDE WEB CONSORTIUM ）が提唱する次式（５）の値（"color difference"）Ｃｄが用いられればよい。当該値Ｃｄは、両色のＲ，Ｇ，Ｂの各成分ごとの差分絶対値の和である。

なお、ここでは、明度差に代えて色差が用いているが、これに限定されず、コントラスト比が用いられてもよい。

具体的には、或るテキストオブジェクトに関するコントラスト比が閾値ＴＨ１３よりも小さい場合に、当該テキストオブジェクトがキーワード検索の検索結果から除外されてもよい。

コントラスト比は、評価対象のテキストオブジェクトの文字列の相対輝度Ｌと当該文字列の背景の相対輝度Ｌとに関する比を示す指標値である。当該コントラスト比としては、たとえば、Ｗ３Ｃ（WORLD WIDE WEB CONSORTIUM ）が提唱する次式（６）の値（"contrast ratio"）Ｃｒが用いられればよい。

ただし、相対輝度Ｌ１は、２つの相対輝度（評価対象のテキストオブジェクトの文字列の相対輝度Ｌ、および当該文字列の背景の相対輝度Ｌ）のうち明るい方の相対輝度Ｌであり、他方の相対輝度（暗い方の相対輝度）Ｌが相対輝度Ｌ２である。また、相対輝度は、次の式（７）で算出される値である。

また、各値Ｒ０，Ｇ０，Ｂ０は、次の式（８）〜（１０）で算出される値である。

このように、色差あるいはコントラスト比等が考慮されて、検索結果の絞り込みが行われてもよい。

なお、明度差に関する閾値等がユーザによって変更可能である（図９参照）のと同様に、他の各閾値（色差に関する閾値、およびコントラスト比に関する閾値等）も、ユーザによって変更可能であることが好ましい。

また、当該絞り込みにあたっては、明度差、色差、コントラスト比のうちの１つの条件のみが考慮されてもよいが、これに限定されず、明度差、色差、コントラスト比のうちの２つ以上の条件（２つの条件あるいは３つ全ての条件）が考慮されてもよい。換言すれば、明度差、色差、コントラスト比のうちの少なくとも１つの条件が考慮されるようにしてもよい。

＜８．第８実施形態＞
上記各実施形態においては、単位領域が「ページ」である場合が例示されているが、これに限定されず、たとえば、単位領域は「文書」（全体）であってもよい。具体的には、「文書」を単位領域として、指標値Ｖが算出されてもよい。詳細には、単位領域として「文書（全体）」が採用されて、式（２）〜（４）における値Ｚ，Ｎ１，Ｎ２が算出されればよい。より具体的には、評価対象のテキストオブジェクトの色属性と同じ色属性を有するテキストオブジェクトの「文書」内における文字数が、値Ｎ１として求められればよい。また、評価対象のテキストオブジェクトのフォント属性と同じフォント属性を有するテキストオブジェクトの「文書」内における文字数が、値Ｎ２として求められればよい。また、評価対象のテキストオブジェクトが含まれる「文書」内の全文字数が、値Ｚとして求められればよい。以下では、このような態様について説明する。

この第８実施形態は、第１実施形態等の変形例である。以下、第１実施形態との相違点を中心に説明する。

図３３は、単位領域＝「文書（全体）」の場合における、文字列２１１の指標値Ｖ等を示す図である。図３３には、文書Ｄ１の全文字数Ｚは「１３２」文字であることが示されている。また、文書Ｄ１内において文字列２１１の色属性と同じ色属性（「黒色」）を有する文字数Ｎ１が「６０文字」であること、および文書Ｄ１内において文字列２１１のフォント属性と同じフォント属性（「ゴシック体且つ通常体」）を有する文字数Ｎ２が「１３２文字」であることも示されている。そして、指標値Ｖが、「２．２」（＝（１３２／６０）＊（１３２／１３２））であることも示されている。

同様に、文字列２１２，２１３の各指標値Ｖも、それぞれ「２．２」である。

図３４は、単位領域＝「文書（全体）」の場合における、文字列２１４の指標値Ｖ等を示す図である。図３４には、文書Ｄ１の全文字数Ｚは「２７３」文字であることが示されている。また、文書Ｄ１内において文字列２１４の色属性と同じ色属性（「黒色」）を有する文字数Ｎ１が「１７９文字」であること、および文書Ｄ１内において文字列２１４のフォント属性と同じフォント属性（「ゴシック体且つ斜体」）を有する文字数Ｎ２が「４８文字」であることも示されている。そして、指標値Ｖが、「８．７」（＝（２７３／１７９）＊（２７３／４８））であることも示されている。

図３５は、単位領域＝「文書（全体）」の場合における、文字列２１５の指標値Ｖ等を示す図である。図３５には、指標値Ｖが、「３．５」（＝（２７３／９４）＊（２７３／２２５））であること等が示されている。

図３６は、単位領域＝「文書（全体）」の場合における、文字列２１６の指標値Ｖ等を示す図である。図３６には、指標値Ｖが、「１．２」（＝（２７３／１７９）＊（２７３／２２５））であること等が示されている。

図３７は、単位領域＝「文書（全体）」の場合における、文字列２１７の指標値Ｖ等を示す図である。図３７には、指標値Ｖが、「８．７」（＝（２７３／１７９）＊（２７３／４８））であること等が示されている。

図３８は、これらの情報を纏めて示す図である。このような指標値Ｖに基づいて各テキストオブジェクトの重要度を算出することによれば、評価対象のテキストオブジェクトの重要度を、文書全体を通じた基準で判定することが可能である。

その後、このようにして求められた各テキストオブジェクトの指標値Ｖに基づいて、第１実施形態と同様に、各ページの重要度が算出されればよい。そして、ページの重要度順に、各ページが配列された検索結果が示される等の動作が行われればよい。

また、第２実施形態と同様にして、各文書の重要度がさらに算出されるようにしてもよい。そして、文書の重要度順に、各文書が配列された検索結果が示される等の動作が行われるようにしてもよい。

＜９．第９実施形態＞
第９実施形態は、第１実施形態等の変形例である。以下、第１実施形態との相違点を中心に説明する。

上記各実施形態においては、「文字数」に基づいて指標値Ｖが算出されているが、これに限定されず、文字数に代えて「単語数（ワード数）」に基づいて指標値Ｖが算出されてもよい。具体的には、指標値Ｖの算出（式（２）〜（４）における値Ｚ，Ｎ１，Ｎ２の算出）に際して、「文字数」が「単語数（ワード数）」に読み替えられればよい。

より詳細には、評価対象のテキストオブジェクトの色属性と同じ色属性を有するテキストオブジェクトの単位領域内における「単語数」が、値Ｎ１として求められればよい。また、評価対象のテキストオブジェクトのフォント属性と同じフォント属性を有するテキストオブジェクトの単位領域内における「単語数」が、値Ｎ２として求められればよい。また、評価対象のテキストオブジェクトが含まれる単位領域内の「全単語数」が、値Ｚとして求められればよい。端的に言えば、「単語数基準」で各値Ｎ１，Ｎ２，Ｚが求められればよい。

図３９は、検索された７つのテキストオブジェクト（文字列２１１〜２１７）に関する各値Ｚ，Ｎ１，Ｎ２，Ｖを纏めて示す図である。図３９においては、「単位領域」として「ページ」が採用される場合の（単語数基準による）各値Ｚ，Ｎ１，Ｎ２，Ｖが示されている。

たとえば、図３９の上から４番目の行においては、文字列２１４に関する情報が記載されている。具体的には、文字列２１４が属するページ（電子文書Ｄ２の第１頁（図１７））の全ワード（単語）数（「２４ワード」）が値Ｚとして取得される。また、文字列２１４の色属性（「黒色」）と同じ色属性を有するテキストオブジェクトの単位領域（「ページ」）内における文字数（「５ワード」）が、値Ｎ１として取得される。また、評価対象のテキストオブジェクトのフォント属性（「ゴシック体且つ斜体」）と同じフォント属性を有するテキストオブジェクトの単位領域内（「ページ」）における文字数（「２ワード」）が、値Ｎ２として取得される。

このように、図３９においては、文字列２１４に関して、値Ｚが「２４」、値Ｎ１が「５」、値Ｎ２が「２」であることが示されている。

また、これらの値Ｚ，Ｎ１，Ｎ２に基づく指標値Ｖが、「５７．６」（＝（２４／５）＊（２４／２））であることも示されている。

その他の文字列２１１〜２１３，２１５〜２１７に関しても、それぞれの指標値Ｖ等が示されている。

その後、このようにして求められた各テキストオブジェクトの指標値Ｖに基づいて、第１実施形態と同様に、各ページの重要度が算出されればよい。そして、ページの重要度順に、各ページが配列された検索結果が示される等の動作が行われればよい（第１実施形態参照）。

なお、ここでは、「単位領域」として「ページ」が採用されて指標値Ｖが算出されているが、これに限定されない。たとえば、文字数に代えて「単語数（ワード数）」に基づいて指標値Ｖが算出される際においても、「単位領域」として「文書（全体）」が採用されて各値Ｚ，Ｎ１，Ｎ２，Ｖが算出されるようにしてもよい。

＜１０．その他＞
以上、この発明の実施の形態について説明したが、この発明は上記説明した内容のものに限定されるものではない。

たとえば、上記各実施形態等においては、或るクライアント３０からサーバ７０へと送信された複数の電子文書を検索対象としてキーワード検索等が行われているが、これに限定されず、複数のクライアント３０等からサーバ７０へと送信された複数の電子文書を検索対象としてキーワード検索等が行われてもよい。

また、上記各実施形態等においては、複数の電子文書を検索対象としてキーワード検索等が行われているが、これに限定されず、単一の電子文書のみを検索対象としてキーワード検索等が行われてもよい。

また、上記各実施形態においては、サーバ７０内に電子文書が蓄積される態様が例示されているが、これに限定されない。サーバ７０とは異なる装置（別のサーバ等）に電子文書が蓄積されてもよい。より詳細には、サーバ７０（社内サーバ）が社内に配置されるとともに、電子文書がクラウドサーバに格納（蓄積）され、当該社内サーバ７０がクラウドサーバ内の複数の電子文書を対象にして上述のような検索処理が実行されるようにしてもよい。

また、上記各実施形態等においては、所定の条件（フォントサイズおよび明度差等に関する条件）を充足するテキストオブジェクトは、絞り込み処理によって検索結果から除外されているが、これに限定されない。たとえば、所定の条件（フォントサイズおよび明度差等に関する条件）を充足するテキストオブジェクトは、絞り込み処理（ステップＳ３３）によって検索結果から除外されずに、当該テキストオブジェクトの重要度が低減されてもよい。

詳細には、一のテキストオブジェクトのフォントサイズが閾値よりも小さい場合には、当該フォントサイズが閾値よりも大きい場合に比べて、当該一のテキストオブジェクトの重要度がβ倍（β＜１）（たとえば、β＝１／２＝０．５）に低減されるようにしてもよい（ステップＳ３５）。換言すれば、当該指標値Ｖに値βを乗じた値（指標値Ｖを低減した値）が当該一のテキストオブジェクトの重要度として決定されるようにしてもよい。

同様に、一のテキストオブジェクトとその背景との差異（たとえば、明度差、色差、およびコントラスト比のうちの少なくとも１つ）が所定程度よりも小さい旨の条件が成立する場合には、当該条件が成立しない場合に比べて、当該一のテキストオブジェクトの重要度が低減されるようにしてもよい（ステップＳ３５）。より詳細には、当該差異が、対応する閾値（ＴＨ１１，ＴＨ１２，ＴＨ１３）よりも小さい場合には、当該一のテキストオブジェクトの重要度がβ倍（β＜１）（たとえば、β＝１／２）に低減されるようにしてもよい。

なお、一のテキストオブジェクトのフォントサイズが閾値よりも小さく且つ当該一のテキストオブジェクトとその背景との差異（明度差等）が所定程度よりも小さい場合には、当該一のテキストオブジェクトの重要度がさらに小さな値（たとえば、（β×β）倍（たとえば、１／４）に低減されるようにしてもよい。

また、上記各実施形態等においては、各電子文書には「ページ区切り情報」も含まれているが、これに限定されない。たとえば、単位領域が「文書」であるとき等においては、ページ区切り情報は含まれていなくてもよい。

１検索システム
１０ＭＦＰ
３０クライアント（電子文書生成装置）
５０クライアント（検索指示装置）
７０サーバ（検索装置）
６１０，６５０検索結果リスト
８１０属性情報
Ｖ指標値

Claims

１又は複数の電子文書に対するキーワード検索を行う検索装置であって、
検索対象のキーワードに関する指定入力を受け付ける受付手段と、
前記指定入力に基づくキーワード検索を実行する検索手段と、
前記キーワード検索により検索された一のテキストオブジェクトが含まれる単位領域内の全文字数と、前記一のテキストオブジェクトの属性と同じ属性を有するテキストオブジェクトの前記単位領域内における文字数との対比に基づく指標値であって、前記一のテキストオブジェクトの属性の希少性を示す指標値を取得する取得手段と、
前記指標値に基づいて前記一のテキストオブジェクトの重要度を決定する決定手段と、
を備えることを特徴とする検索装置。
請求項１に記載の検索装置において、
前記属性は、テキストオブジェクトの色属性を含み、
前記指標値は、前記単位領域内において前記一のテキストオブジェクトの色属性と同じ色属性を有するテキストオブジェクトの文字数と、前記単位領域内の全文字数との対比に基づく値であることを特徴とする検索装置。
請求項１に記載の検索装置において、
前記属性は、テキストオブジェクトのフォント属性を含み、
前記指標値は、前記単位領域内において前記一のテキストオブジェクトのフォント属性と同じフォント属性を有するテキストオブジェクトの文字数と、前記単位領域内の全文字数との対比に基づく値であることを特徴とする検索装置。
請求項１に記載の検索装置において、
前記属性は、テキストオブジェクトの色属性およびフォント属性を含み、
前記指標値は、前記単位領域内において前記一のテキストオブジェクトの色属性と同じ色属性を有するテキストオブジェクトの文字数と、前記単位領域内の前記全文字数との対比に基づく値であり、且つ、前記単位領域内において前記一のテキストオブジェクトのフォント属性と同じフォント属性を有するテキストオブジェクトの文字数と、前記単位領域内の前記全文字数との対比に基づく値であることを特徴とする検索装置。
請求項３または請求項４に記載の検索装置において、
前記フォント属性は、フォント種類とフォントスタイルとのうちの少なくとも１つで表現される属性であることを特徴とする検索装置。
請求項１から請求項５のいずれかに記載の検索装置において、
前記単位領域は、電子文書内のページであることを特徴とする検索装置。
請求項１から請求項５のいずれかに記載の検索装置において、
前記単位領域は、１つの電子文書全体であることを特徴とする検索装置。
請求項１から請求項５のいずれかに記載の検索装置において、
前記取得手段は、前記キーワード検索により前記単位領域にて検索された各テキストオブジェクトに関する前記指標値をそれぞれ取得し、
前記決定手段は、前記各テキストオブジェクトの各指標値に基づいて、前記各テキストオブジェクトの重要度をそれぞれ決定するとともに、前記単位領域内で最も高い重要度を有するオブジェクトの重要度を、当該単位領域の重要度として決定することを特徴とする検索装置。
請求項６に記載の検索装置において、
前記取得手段は、前記キーワード検索により各電子文書の一のページにて検索された各テキストオブジェクトに関する前記指標値をそれぞれ取得し、
前記決定手段は、前記各テキストオブジェクトの各指標値に基づいて、前記各テキストオブジェクトの重要度をそれぞれ決定するとともに、前記一のページ内で最も高い重要度を有するテキストオブジェクトの重要度を、前記一のページの重要度として決定することを特徴とする検索装置。
請求項９に記載の検索装置において、
前記キーワード検索により前記１又は複数の電子文書の中から検索された少なくとも１つのテキストオブジェクトを含む各ページを当該各ページの重要度に応じて整列させたリストを生成するリスト生成手段、
をさらに備えることを特徴とする検索装置。
請求項１０に記載の検索装置において、
前記リストを参照して特定のページの表示指示が付与されると、前記表示指示に応答して前記特定のページを含むサムネイル画像を生成する画像生成手段、
をさらに備え、
前記画像生成手段は、
所定の条件が充足されないときには、前記特定のページのみのサムネイル画像を生成し、
前記所定の条件が充足されるときには、前記特定のページを含む特定の電子文書の全ページのサムネイル画像を生成することを特徴とする検索装置。
請求項１１に記載の検索装置において、
前記所定の条件は、
前記特定のページを含む前記特定の電子文書の全ページ数が第１の値以下であること、
前記特定の電子文書の全ページについて、ページあたりの文字数が第２の値以下であること、および
前記特定の電子文書内において、検索キーワードに該当する全テキストオブジェクトのフォントサイズが第３の値以上であること、
の全てを充足することである、
ことを特徴とする検索装置。
請求項９に記載の検索装置において、
前記取得手段は、前記キーワード検索により複数の電子文書の各ページにて検索された各テキストオブジェクトに関する前記指標値をそれぞれ取得し、
前記決定手段は、前記各テキストオブジェクトの各指標値に基づいて前記各テキストオブジェクトの重要度をそれぞれ決定し、前記各ページ内で最も高い重要度を有するテキストオブジェクトの重要度を当該各ページの重要度として決定し、且つ、一の電子文書内で最も高い重要度を有するページの重要度を前記一の電子文書の重要度として決定することを特徴とする検索装置。
請求項１３に記載の検索装置において、
前記キーワード検索により前記複数の電子文書の中から検索された少なくとも１つのテキストオブジェクトを含む２以上の電子文書を前記２以上の電子文書の重要度に応じて整列させたリストを生成するリスト生成手段、
をさらに備えることを特徴とする検索装置。
請求項１から請求項１４のいずれかに記載の検索装置において、
前記検索手段は、前記一のテキストオブジェクトのフォントサイズが閾値よりも小さい場合には、前記一のテキストオブジェクトを前記キーワード検索の検索結果から除外することを特徴とする検索装置。
請求項１から請求項１４のいずれかに記載の検索装置において、
前記検索手段は、前記一のテキストオブジェクトと当該一のテキストオブジェクトの背景との明度差、色差、コントラスト比のうちの少なくとも１つが、対応する閾値よりも小さい場合には、前記一のテキストオブジェクトを前記キーワード検索の検索結果から除外することを特徴とする検索装置。
請求項１から請求項１４のいずれかに記載の検索装置において、
前記検索手段は、前記一のテキストオブジェクトのフォントサイズが閾値よりも小さい場合には、前記一のテキストオブジェクトのフォントサイズが閾値よりも大きい場合に比べて、前記一のテキストオブジェクトの重要度を低減することを特徴とする検索装置。
請求項１から請求項１４のいずれかに記載の検索装置において、
前記検索手段は、前記一のテキストオブジェクトと当該一のテキストオブジェクトの背景との明度差、色差、コントラスト比のうちの少なくとも１つが、対応する閾値よりも小さい旨の条件が成立する場合には、当該条件が成立しない場合に比べて、前記一のテキストオブジェクトの重要度を低減することを特徴とする検索装置。
請求項１５から請求項１８のいずれかに記載の検索装置において、
前記閾値は、ユーザによって変更可能であることを特徴とする検索装置。
請求項１から請求項１９のいずれかに記載の検索装置において、
検索対象の前記１又は複数の電子文書は、印刷出力用データとしてページ記述言語で記述された電子文書を含むことを特徴とする検索装置。
請求項１から請求項２０のいずれかに記載の検索装置において、
検索対象の前記１又は複数の電子文書は、テキストオブジェクトとページ区切り情報と各テキストオブジェクトの色属性およびフォント属性とを有する電子文書を含むことを特徴とする検索装置。
請求項２に記載の検索装置において、
各電子文書に関する各単位領域内の全文字数と前記各単位領域内の色属性ごとの文字数とを規定した属性情報であって前記各電子文書の各生成装置で生成され当該各生成装置から予め受信された属性情報を格納する格納手段、
をさらに備え、
前記取得手段は、
前記一のテキストオブジェクトの色属性と同じ色属性である一の色属性を特定するとともに、
前記属性情報に基づいて、前記一のテキストオブジェクトが含まれる前記単位領域内の全文字数と、前記単位領域内において前記一の色属性を有するテキストオブジェクトの文字数とを取得し、前記一のテキストオブジェクトに関する前記指標値を算出することを特徴とする検索装置。
請求項３に記載の検索装置において、
各電子文書に関する各単位領域内の全文字数と前記各単位領域内のフォント属性ごとの文字数とを規定した属性情報であって前記各電子文書の各生成装置で生成され当該各生成装置から予め受信された属性情報を格納する格納手段、
をさらに備え、
前記取得手段は、
前記一のテキストオブジェクトのフォント属性と同じフォント属性である一のフォント属性を特定するとともに、
前記属性情報に基づいて、前記一のテキストオブジェクトが含まれる前記単位領域内の全文字数と、前記単位領域において前記一のフォント属性を有するテキストオブジェクトの文字数とを取得し、前記一のテキストオブジェクトに関する前記指標値を算出することを特徴とする検索装置。
請求項４に記載の検索装置において、
各電子文書に関する各単位領域内の全文字数と前記各単位領域内の色属性ごとの文字数と前記各単位領域内のフォント属性ごとの文字数とを規定した属性情報であって前記各電子文書の各生成装置で生成され当該各生成装置から予め受信された属性情報を格納する格納手段、
をさらに備え、
前記取得手段は、
前記一のテキストオブジェクトの色属性と同じ色属性である一の色属性を特定し、前記一のテキストオブジェクトのフォント属性と同じフォント属性である一のフォント属性を特定するとともに、
前記属性情報に基づいて、前記一のテキストオブジェクトが含まれる前記単位領域内の全文字数と、前記単位領域において前記一の色属性を有するテキストオブジェクトの文字数と、前記単位領域において前記一のフォント属性を有するテキストオブジェクトの文字数とを取得し、前記一のテキストオブジェクトに関する前記指標値を算出することを特徴とする検索装置。
コンピュータに、
ａ）検索対象のキーワードに関する指定入力を受け付けるステップと、
ｂ）前記指定入力に基づくキーワード検索を１又は複数の電子文書に対して実行するステップと、
ｃ）前記キーワード検索により検索された一のテキストオブジェクトが含まれる単位領域内の全文字数と、前記一のテキストオブジェクトの属性と同じ属性を有するテキストオブジェクトの前記単位領域内における文字数との対比に基づく指標値であって、前記一のテキストオブジェクトの属性の希少性を示す指標値を取得するステップと、
ｄ）前記指標値に基づいて当該一のテキストオブジェクトの重要度を決定するステップと、
を実行させるためのプログラム。
コンピュータに、
ａ）電子文書における単位領域内の全文字数と前記単位領域内の属性ごとの文字数とを規定した属性情報を生成するステップと、
ｂ）キーワード検索用の検索装置あるいは前記検索装置の管理下の装置に前記属性情報を送信するステップと、
を実行させるためのプログラム。
コンピュータに、
ａ）各電子文書における単位領域内の全文字数と前記単位領域内の属性ごとの文字数とを規定した属性情報を、前記各電子文書の各生成装置から受信するステップと、
ｂ）検索対象のキーワードに関する指定入力を受け付けるステップと、
ｃ）前記指定入力に基づくキーワード検索を前記各電子文書に対して実行するステップと、
ｄ）前記キーワード検索により検索された一のテキストオブジェクトの属性と同じ属性である一の属性を特定するステップと、
ｅ）前記一のテキストオブジェクトが含まれる単位領域内の全文字数と前記単位領域内において前記一の属性を有するテキストオブジェクトの文字数との対比に基づく指標値であって前記一のテキストオブジェクトの属性の希少性を示す指標値を、前記属性情報に基づいて算出するステップと、
ｆ）前記指標値に基づいて当該一のテキストオブジェクトの重要度を決定するステップと、
を実行させるためのプログラム。
１又は複数の電子文書に対するキーワード検索を行う検索装置であって、
検索対象のキーワードに関する指定入力を受け付ける受付手段と、
前記指定入力に基づくキーワード検索を実行する検索手段と、
前記キーワード検索により検索された一のテキストオブジェクトが含まれる単位領域内の全単語数と、前記一のテキストオブジェクトの属性と同じ属性を有するテキストオブジェクトの前記単位領域内における単語数との対比に基づく指標値であって、前記一のテキストオブジェクトの属性の希少性を示す指標値を取得する取得手段と、
前記指標値に基づいて当該一のテキストオブジェクトの重要度を決定する決定手段と、
を備えることを特徴とする検索装置。
コンピュータに、
ａ）検索対象のキーワードに関する指定入力を受け付けるステップと、
ｂ）前記指定入力に基づくキーワード検索を１又は複数の電子文書に対して実行するステップと、
ｃ）前記キーワード検索により検索された一のテキストオブジェクトが含まれる単位領域内の全単語数と、前記一のテキストオブジェクトの属性と同じ属性を有するテキストオブジェクトの前記単位領域内における単語数との対比に基づく指標値であって、前記一のテキストオブジェクトの属性の希少性を示す指標値を取得するステップと、
ｄ）前記指標値に基づいて当該一のテキストオブジェクトの重要度を決定するステップと、
を実行させるためのプログラム。