JP2006072844A

JP2006072844A - キーワード特定装置、キーワード特定方法及びキーワード特定プログラム

Info

Publication number: JP2006072844A
Application number: JP2004257585A
Authority: JP
Inventors: Masaki Matsudaira; 正樹松平; Toshio Ueda; 俊夫上田; Masamutsu Fuchigami; 正睦渕上; Hiroyuki Onuma; 宏行大沼; Kohaku Morita; 幸伯森田
Original assignee: Oki Electric Industry Co Ltd
Current assignee: Oki Electric Industry Co Ltd
Priority date: 2004-09-03
Filing date: 2004-09-03
Publication date: 2006-03-16

Abstract

【課題】指定語と同一意味概念上の単語から指定語の実体を示す語を特定するようにする。
【解決手段】本発明のキーワード特定装置は、オントロジー定義手段と、各意味概念と各プロパティとの関係の強さの度合いを設定した評価ルール手段と、指定された文書から、少なくとも指定された語を含む１以上のキーワード及び各キーワードの意味概念又はプロパティを示す属性情報を抽出するキーワード抽出手段と、複数の単語と関連情報とを対応させて記憶する記憶手段と、指定された語と一致する単語をインスタンス候補として検索するインスタンス検索手段と、各関連情報の意味概念が各キーワードの意味概念に一致し、かつ、各関連情報が各キーワードに一致する各インスタンス候補について、評価ルールに従って評価し、その評価結果に基づいて、指定された語の実体に相当するインスタンスを特定するインスタンス特定手段とを備えることを特徴とする。
【選択図】図１

Description

本発明は、キーワード特定装置、キーワード特定方法及びキーワード特定プログラムに関し、例えば、文書内に出現する人名、組織名、地名等のキーワードの示す実体が唆昧な場合に、それを特定する方法及びその装置に関する。

一般に、従来のキーワード特定方法の一つとして非特許文献１に示すようなものがある。非特許文献１では、第５ページ、Ｆｉｇｕｒｅ．５において、意味概念の関係を定義したオントロジー（ＬＩＰＯｎｔｏｌｏｇｙ）を利用し、文書あるいは文章内で共起する複数の単語（非特許文献１ではｈａｋｋｙｏ）の意味概念（ｓｃｈｏｏｌ（７２２））を制約として、キーワード（ｃｅｎｈａｔａ）の持つ意味概念（ｄｅｌｉｖｅｒ（３７０）、ｉｎｆｏｒｍ（７５１）、ｉｎｈｅｒｉｔ（７６２））の中から最適パスとなるものを選択することにより、キーワードの意味的な曖昧性を解消する（ｉｎｆｏｒｍ（７５１）を選択）ものであった。
Ｓｉｎ−ＪａｅＫａｎｇａｎｄＪｏｎｇ−ＨｙｅｏｋＬｅｅ，"Ｏｎｔｏｌｏｇｙ−ＢａｓｅｄＷｏｒｄＳｅｎｓｅＤｉｓａｍｂｉｇｕａｔｉｏｎｂｙＵｓｉｎｇＳｅｍｉ−ＡｕｔｏｍａｔｉｃａｌｌｙＣｏｎｓｔｒｕｃｔｅｄＯｎｔｏｌｏｇｙ"，８ｔｈＭａｃｈｉｎｅＴｒａｎｓｌａｔｉｏｎＳｕｍｍｉｔ，２００１

しかしながら、非特許文献１に示すキーワード特定方法では、一般語の複数の意味的な曖昧性は解消できるが、固有名詞、例えば、文書内の「山田」がどの山田さんであるか、又「元町」がどの都道府県の町であるかという問題には対処できなかった。

これは、従来技術が複数の意味概念から１つを選択するのに対して、固有名詞の場合に１つの意味概念（例えば、人名）の中に複数の実体（例えば、「山田太郎」、「山田次郎」や「田中一郎」）があるためである。

そして、一般の文書内で、例えば、「山田」のように姓だけが出現したり、あるいは、「山田課長」のような姓と役職のパターンが出現したり、又は単独で地名だけが出現したりすることは頻繁にあり、このような単語の実体を特定することは重要である。

そのため、指定された語と同一の意味概念に属する単語から、指定された語の実体を示す語を特定することができるキーワード特定装置、キーワード特定方法及びキーワード特定プログラムが求められている。

かかる課題を解決するために、第１の本発明のキーワード特定装置は、指定された語と同一の意味概念上の複数のインスタンスから、指定された語の実体に相当するインスタンスを特定するキーワード特定装置であって、（１）１又は複数の意味概念と、各意味概念に対して１又は複数のプロパティと、各プロパティに対してベースクラスとする１つの意味概念とを定義したオントロジー定義手段と、（２）各意味概念と、各意味概念に対して定義された各プロパティとの関係の強さの度合いを予め設定した評価ルールを有する評価ルール手段と、（３）外部からの指定を取り込み、指定された文書から、少なくとも、指定された語を含む１以上のキーワード及び各キーワードの意味概念又はプロパティを示す属性情報を抽出するキーワード抽出手段と、（４）複数の単語と、それら各単語に関連する１以上の関連情報とを対応させて記憶する記憶手段と、（５）指定された語と一致する１又は複数の単語をインスタンス候補として記憶手段から検索するインスタンス検索手段と、（６）各関連情報の意味概念が各キーワードの意味概念に一致し、かつ、各関連情報が各キーワードに一致する各インスタンス候補について、評価ルールに従って評価し、その評価結果に基づいて、指定された語の実体に相当するインスタンスを特定するインスタンス特定手段とを備えることを特徴とする。

また、第２の本発明のキーワード特定方法は、第１の本発明のキーワード特定装置に対応するものである。つまり、第２の本発明のキーワード特定方法は、指定された語と同一の意味概念上の複数のインスタンスから、指定された語の実体に相当するインスタンスを特定するキーワード特定方法であって、（１）１又は複数の意味概念と、各意味概念に対して１又は複数のプロパティと、各プロパティに対してベースクラスとする１つの意味概念とを定義したオントロジー定義手段と、（２）各意味概念と、各意味概念に対して定義された各プロパティとの関係の強さの度合いを予め設定した評価ルールを有する評価ルール手段とを備え、（３）キーワード抽出手段が、外部からの指定を取り込み、指定された文書から、少なくとも、指定された語を含む１以上のキーワード及び各キーワードの意味概念又はプロパティを示す属性情報を抽出し、（４）記憶手段が、複数の単語と、それら各単語に関連する１以上の関連情報とを対応させて記憶し、（５）インスタンス検索手段が、指定された語と一致する１又は複数の単語をインスタンス候補として記憶手段から検索し、（６）インスタンス特定手段が、各関連情報の意味概念が各キーワードの意味概念に一致し、かつ、各関連情報が各キーワードに一致する各インスタンス候補について、評価ルールに従って評価し、その評価結果に基づいて、指定された語の実体に相当するインスタンスを特定することを特徴とする。

更に、第３の本発明のキーワード特定プログラムは、第１の本発明のキーワード特定装置に対応するものである。つまり、第３の本発明のキーワード特定プログラムは、１又は複数の意味概念と、各意味概念に対して１又は複数のプロパティと、各プロパティに対してベースクラスとする１つの意味概念とを定義したオントロジー定義手段と、各意味概念と、各意味概念に対して定義された各プロパティとの関係の強さの度合いを予め設定した評価ルールを有する評価ルール手段とを備え、指定された語と同一の意味概念上の複数のインスタンスから、指定された語の実体に相当するインスタンスを特定するキーワード特定装置に、（１）外部からの指定を取り込み、指定された文書から、少なくとも、指定された語を含む１以上のキーワード及び各キーワードの意味概念又はプロパティを示す属性情報を抽出するキーワード抽出手段、（２）複数の単語と、それら各単語に関連する１以上の関連情報とを対応させて記憶する記憶手段、（３）指定された語と一致する１又は複数の単語をインスタンス候補として記憶手段から検索するインスタンス検索手段、（４）各関連情報の意味概念が各キーワードの意味概念に一致し、かつ、各関連情報が各キーワードに一致する各インスタンス候補について、評価ルールに従って評価し、その評価結果に基づいて、指定された語の実体に相当するインスタンスを特定するインスタンス特定手段として機能させるためのキーワード特定プログラムである。

本発明のキーワード特定装置、キーワード特定方法及びキーワード特定プログラムによれば、指定された語と同一の意味概念上の複数のインスタンスから、指定された語の実体を示すインスタンスを特定することができる。

（Ａ）第1の実施形態
まず、本発明のキーワード特定装置、キーワード特定方法及びキーワード特定プログラムの第１の実施形態について図面を参照して説明する。

第１の実施形態は、例えば従業員データベースを備える企業内ネットワークに、キーワード特定システムを適用した場合であって、文書中に出現した人の「姓」をキーワードとして指定されたときにその人が誰であるかを特定する方法について説明する。

（Ａ−１）第1の実施形態の構成
図１は、第1の実施形態に係るキーワード特定システムの構成とその機能とを概略的に示すブロック図である。

図１において、キーワード特定システム１００は、大別して、端末１とサーバ２Ａとを備える。端末１とサーバ２Ａとは相互にデータ通信可能なネットワークで接続されている。なお、ネットワークは、例えば、専用網、公衆網、又有線回線、無線回線、これら結合した通信網を適用でき、他の通信装置やデータベースなども接続可能である。

端末１は、利用者が操作するものであり、例えばパーソナルコンピュータが該当する。また、端末１は、端末制御部１１、また図１には図示しないが操作手段（例えば、キーボード等）及び表示手段（例えばモニタ等）などを少なくとも備える。

端末制御部１は、記憶手段（例えば、ＲＡＭ、ＲＯＭ等）に格納されている処理プログラムを実行するものであり、入力・表示制御機能や、サーバ２Ａとの間のデータ通信制御機能などを実現するものである。これにより、利用者は、端末１に対して所定の操作を行なうことで、ネットワークを通じて受信したファイル又は自端末１が格納するファイルを閲覧や指示ができる。

また、端末制御部１１は、利用者操作により、表示されているファイルのキーワード抽出要求（例えば、利用者が表示画面上に表示されるボタンの押下等）や関連情報を望むキーワードの選択要求などをサーバ２Ａに与えるものである。これにより、ファイル中のキーワード抽出や指定したキーワードの関連情報などを表示させることができる。

サーバ２Ａは、端末１からの指示に応じて、ファイル中のキーワード抽出機能、キーワード関連情報の検索機能、キーワード特定機能などを実現するものである。

サーバ２Ａは、図１に示すように、制御部２１、キーワード抽出部２２、文書分類部２３、インスタンス評価部２４、インスタンス検索部２５、オントロジー定義部２６、評価ルール部２７、従業員データベース２８を少なくとも備える。

制御部２１は、サーバ２Ａ全体として実現する機能を制御するものであり、図示しない記憶部（例えばＲＡＭ、ＲＯＭ等）に記録されている処理プログラムを実行するものである。本実施形態では、制御部２１は、主に、キーワード抽出部２２、文書分類部２３、インスタンス評価部２４、インスタンス検索部２５を制御するものである。

キーワード抽出部２２は、制御部２１の制御により、端末１からのキーワード抽出対象のファイルを受け取り、ファイルから人名、組織名、製品名等のキーワードを抽出し、ファイルにおける各キーワードの出現位置を求めるものである。また、キーワード抽出部２２は、オントロジー定義部２６を参照し、抽出した各キーワードの意味属性を求めるものである。更に、キーワード抽出部２２は、抽出したキーワードと、そのキーワードの意味属性と、ファイルにおけるキーワードの出現位置とを抽出結果として制御部２１に与えるものである。

ここで、意味属性とは、オントロジー定義部２６に予め定義された意味概念あるいはプロパティヘのＵＲＩである。

なお、キーワード抽出部２２におけるキーワード抽出方法は、ファイル中の人名や地名等の固有名詞を抽出することができれば特に限定されないが、例えば、福本淳一他２名，「固有名詞抽出における日本語と英語の比較」，社団法人電子情報通信学会，信学技報，ＮＬＣ９８−２１，１９９８年７月，ｐｐ．４５−５２等に開示されている方法を適用できる。

文書分類部２３は、制御部２１の制御により、オントロジー定義部２６を参照して、端末１から受信したファイルの種類を分類し、分類した文書属性を制御部２１に与えるものである。

ここで、文書属性とは、文書の内容が示す属性情報をいい、例えば、議事録、管理表、仕様書などがある。また、本実施形態では、文書属性を、オントロジー定義部２６に予め定義されたＵＲＩで示すこととする。

なお、文書分類部２３における文書分類方法は、特に限定されないが、例えば、ファイル名、ファイル形式、文書内のキーワード等に応じて予め分類ルールを作成し、この分類ルールにマッチングさせる方法が考えられる。また、別の方法として、例えば、平博順，春野雅彦，「ＳｕｐｐｏｒｔＶｅｃｔｏｒＭａｃｈｉｎｅによるテキスト分類における属性選択」，情報処理学会論文誌Ｖｏｌ．４１Ｎｏ．４，２０００年４月，ｐｐ．１１１３−１１２３や、湯浅夏樹他２名，「大量文書データ中の単語間共起を利用した文書分類」，情報処理学会論文誌Ｖｏｌ．３６Ｎｏ．８，１９９５年８月，ｐｐ．１８１９−１８２７などに開示されている方法を適用できる。

インスタンス評価部２４は、制御部２１の制御により、後述するインスタンス検索部２５により検索された各インスタンス候補に対して、オントロジー定義部２６及び評価ルール部２７を参照した所定の評価方法を用いて評価するものである。なお、インスタンス評価部２４におけるインスタンス評価方法の詳細については後述する。

インスタンス検索部２５は、制御部２１の制御により、端末１から利用者指定されたキーワードの意味属性が「姓（ＰｅｒｓｏｎＮａｍｅ）」である場合、従業員データベース２８を参照して、そのキーワードに該当する従業員データを取り出し、インスタンス候補として検索するものである。

オントロジー定義部２６は、オブジェクトの関係を定義したデータであり、本実施形態では、少なくとも、人に関する意味概念、及び人に関連する意味概念の関係を定義したデータを格納するものである。なお、本実施形態では、オントロジー定義部２６は、従業員データベース２９と異なるものとして示すが、同一の構成であってもよい。すなわち、オントロジー定義部２６は、オブジェクト関係が定義されていれば、例えば、辞書、文書、データベース等としてもよい。

図２は、オントロジー定義部２６の構造を示す概念図である。なお、オントロジーの定義は、システム設計者等による手動により定義してもよいし、自動により定義してもよい。

オントロジー定義部２６は、意味概念２６１を有する。図２では、「人」という意味概念２６１を示す。また、１つの意味概念２６１は、ｐｒｏｐｅｒｔｙという関係で、１又は複数のプロパティ２６２と対応づけられている。図２では、「人」という意味概念に対して、「氏名」、「姓」、「名」、「電話番号」、「メールアドレス」等のプロパティ２６２が対応付けられている。

また、各プロパティ２６２は、ｂａｓｅＣｌａｓｓという関係で、１つの意味概念２６１と対応付けられている。図２では、例えば「電話番号」というプロパティ２６２は、「電話」という意味概念２６１によって値の範囲が規定されている。

さらに、意味概念２６１は、ｓｕｂＣｌａｓｓＯｆという関係で、別の意味概念２６１と対応付けられている。なお、この別の意味概念２６１も、また同様の構造である。図２では、「人」という意味概念２６１に対し、「従業員」という下位概念が対応付けられている。

そして、図２において、「従業員」は、自身のプロパティ２６１（図２では「所属」、「担当製品」）のほかに、上位概念「人」のプロパティも含めたプロパティがあることを意味している。

なお、オントロジー定義部２６全体では、「人」だけでなく、組織、製品、技術、文書、時間、場所等の意味概念２６１を定義している。また、オントロジー定義部２６は、プロパティ２６２を持たない特別な意味概念２６１としてＮａｍｅ（何らかの名前）、Ｓｔｒｉｎｇ（文字列）、Ｎｕｍｂｅｒ（数値）等を用意している。

具体的なデータは、意味概念、関係、プロパティ、あるいは意味概念、関係、意味概念の３つ組をそれぞれにＵＲＩを付与して記述し、図示しないデータベースに格納するものとする。キーワード抽出部２２、文書分類部２３、インスタンス評価部２４は、このＵＲＩを参照してアクセスを行なう。図３は、ＲＤＦ（ＲｅｓｏｕｒｃｅＤｅｓｃｒｉｐｔｉｏｎＦｒａｍｅｗｏｒｋ）で記述した例を示す。

評価ルール部２７は、インスタンスを評価するためのルール群であり、オントロジー定義部２６を参照して作成されたものである。図４は、評価ルール部２７の構成例を示す図である。

図４（Ａ）に示す評価ルールは、オントロジー定義部２６で定義されている、意味概念とそれを制約するプロパティとの関係に対して基準点を対応付けたものである。

例えば、図４（Ａ）では、意味概念「従業員」に対して、プロパティが「電話番号」については基準点が０．８、「メールアドレス」については基準点が１．０、「所属」については基準点が０．５であることを示している。

この基準点は、意味概念とプロパティとの関係の強さを決めるものであり、システム設計者等が経験的に設定することが可能である。つまり、本実施形態のキーワード特定方法は、単語と単語との距離だけでなく、その関係に強さを設けて、その関係の強さをも用いてキーワードを特定するものである。なお、基準点は、システム設計者等により変更できるようにしてもよい。

つまり、例えば、「メールアドレス」は、「従業員」と１対１で対応しているので従業員を特定する可能性は高く、その関係は強いものと考えられるのに対して、「電話番号」は、例えば従業員の異動等により変更する可能性があるので従業員を特定できないこともあり、その関係は「メールアドレス」よりも弱いものと考えられる。また、「所属」も、例えば所属自体が名称変更等する場合があるので、その関係が「電話番号」よりも更に弱いものと考えられる。

図４（Ｂ）に示す評価ルールは、文書属性、意味概念、制約となるプロパティ、意味概念の出現位置、制約となるプロパティの出現位置に対して重み付けを対応付けるようにした場合の例である。

例えば、図４（Ｂ）における第１レコード目は、文書属性が「管理表」の場合、意味属性「従業員」に対する制約とする「所属」の出現位置ｙが、先頭から３行目以内のときは、重みづけが０．５であることを示している。なお、このときの意味概念「従業員」の出現位置は特に限定されない（図４（Ｂ）では「＊」として示す）ものとする。

これは、通常の文書の場合、意味概念の出現位置の前後数行にあるプロパティは、意味概念と関係がある可能性が高いのに対して、管理表の場合、意味概念の出現位置と別の行のプロパティは、異なる情報であり意味概念と関係がある可能性がほとんどないと考えられるので重み付けが小さいと考えられる。従って、この場合、図４（Ａ）のルールに基づく基準点に対する重み付けをもって補正することができる。

また例えば、図４（Ｂ）における第３レコード目は、文書属性「議事録」の場合、意味属性「従業員」に対する制約とする「所属」の出現位置ｙが、「従業員」の出現位置ｘとすると、ｘの１行前に出現するとき重み付けが０．９であることを示している。

また例えば、図４（Ｂ）における第６レコード目は、文書属性、意味概念及びプロパティは特に限定されず（図では「＊」と示す）、何らかの意味概念と、そのプロパティとが同じ行にあるとき、重み付けを１．０であることを示している。

なお、評価ルール図４（Ａ）及び（Ｂ）のレコードは、予め優先順位（例えば、図４では上から順に優先順位を高いものとする）を設定し、インスタンス評価部２４は、優先順位が高い評価ルールに基づいてインスタンスの評価を行なうようにする。

またなお、図４（Ａ）及び（Ｂ）に示す評価ルールは、図２に示すオントロジー定義部２６の定義に対する一例である。又、評価ルール部２７は、図４（Ａ）又は（Ｂ）のいずれかのみを備えるようにしてもよい。例えば、図４（Ａ）の評価ルールのみを用いて重み付けをしなくてもよい。

従業員データベース２８は、企業ネットワーク内で管理される従業員データを格納したデータベースである。従業員データベース２８は、ネットワークに接続可能であれば、サーバ２Ａ内にあっても、又は図示しない別のサーバ内にあってもよい。

（Ａ−２）第1の実施形態の動作
次に、第1の実施形態のキーワード特定システムの動作について図面を参照して説明する。

図５は、キーワード特定方法についての一連の処理を示すフローチャートであり、端末１に表示しているファイル中の単語を指定し、その指定した単語に関連する情報を端末１に表示する動作である。

まず、端末制御部１１は、利用者操作により所定のファイル閲覧操作を受けて、利用者が指示したファイルを取得し、表示手段にファイルを表示する（Ｓ１）。このとき、端末１は、ファイルと共に、少なくともキーワードを抽出要求するためのキーワード抽出ボタンを表示する。

図６は、端末１のファイル表示画面例を示す。ここでは、議事録を表示した場合であり、ファイル６２と共にキーワード抽出ボタン６１も表示する。なお、以下では、図６に示す議事録を例として説明する。

利用者は、端末１に表示されているファイルを閲覧することができ、キーワード抽出ボタン６１を押下すると、端末制御部１は、キーワード抽出要求と共に、閲覧しているファイルデータをサーバ２Ａに転送する（Ｓ２）。なお、キーワード抽出ボタン６１の出力やファイル送信は、マクロ機能等の既存の技術を利用して実現する。

サーバ２Ａが端末１からファイルを受信すると、制御部２１はファイルをキーワード抽出部２２に与えてキーワード抽出を制御する。

キーワード抽出部２２は、ファイルから、キーワードＫｊ（ｊ＝１、２…、ｎ）、それらの意味属性Ｃｊ及び出現位置ｐｏｓ（Ｋｊ）を抽出し、キーワード抽出結果として制御部２１に返し、制御部２１は、そのキーワード抽出結果をサーバ２Ａ内の記憶部にＩＤを付与して保持させると共に、そのＩＤ及びキーワード抽出結果を端末１に返信する（Ｓ３）。これにより、端末１は、端末制御部１１の制御により、キーワード抽出結果を表示する（Ｓ４）。

このとき、キーワード抽出部２２は、例えば、図６に示すファイルに基づいて図７に示すようなキーワード抽出結果を出力する。

図７において、キーワードＫｊは、ファイルから抽出したキーワードである。ここで、抽出したキーワード（固有名詞）が、ある特定のキーワードと関連する場合、その特定のキーワードを明示するようにする。例えば、図６では、キーワード「佐藤」がキーワード「部長」に関連する。従って、例えば、図７に示すように、「佐藤」に対して階層化させて「部長」を明示する。

また、意味属性Ｃｊは、上述したように、オントロジー定義部２６に定義された意味概念あるいはプロパティヘのＵＲＩである。例えば、キーワード「佐藤」は、オントロジー定義部２６の「姓（ＰｅｒｓｏｎＮａｍｅ）」のプロパティ２６２に属す（図２参照）。従って、キーワード「佐藤」に対する意味属性Ｃｊは、「姓」プロパティ２６２のＵＲＩを示す「ｈｔｔｐ：／／ｍｙｏｎｔｏｌｏｇｙ＃Ｐｅｒｓｏｎ＿ＬＮａｍｅ」となる。同様にして、キーワード「製品ＡＢＣ」の意味属性ＣｊはＰｒｏｄｕｃｔＮａｍｅ（製品名）のプロパティ（図２に図示せず）を示し、キーワード「２００４年１０月２２日」の意味属性ＣｊはＤａｔｅ（日付）のプロパティ（図２に図示せず）を示す。

更に、出現位置ｐｏｓ（Ｋｊ）は、抽出キーワードのファイル中の出現位置であり、例えば、ファイル中での行Ｌ及び行内での位置Ｐとする。

キーワード抽出部２２からのキーワード抽出結果を端末１に与えると、制御部２１は、ファイルを文書分類部２３に与え、当該ファイルの文書分類を制御する。そして、制御部２１は、文書分類部２３が分類した当該ファイルの文書属性を、サーバ２Ａ内の記憶部（図示しない）に保持させる（Ｓ５）。

ここで、文書分類方法は、上述したように、種々の方法を適用できるが、例えば、本実施形態の場合、文書分類部２３は、ファイル内にある「議事録」や「出席者」等のキーワードや、ファイルの形式、ファイル名などから、当該ファイルの属性は「議事録」であると判断する。そして、文書属性はオントロジー定義部２６に定義された属性へのＵＲＩを示すので、文書分類部２３は、オントロジー定義部２６において定義された「議事録」のＵＲＩ（ｈｔｔｐ：／／ｍｙｏｎｔｏｌｏｇｙ＃Ｍｉｎｕｔｅｓ）をサーバ２Ａ内の記憶部に保持させる。

次に、キーワード抽出結果を表示している端末１は、利用者操作によりキーワードが選択されると、その選択されたキーワードＫｊ、そのキーワードの意味属性Ｃｊ、出現位置ｐｏｓ（Ｋｊ）及びすべてのキーワード抽出結果のＩＤをサーバ２Ａに送信する（Ｓ６）。

ここで、端末制御部１１は、抽出されたキーワードが利用者に選択可能なように表示し（例えば、クリック可能なように色表示する）、また、キーワードＫｊの属性をハイパーリンク内の属性として保持させるようにする。

この端末制御部１１によるキーワードの属性管理方法として、例えば、端末制御部１１は、ハイパーリンク内でのキーワードＫｊの属性を、「＜ａｈｒｅｆ＝ｈｔｔｐ：／／ｉｎｔｒａ．ｘｘｘ．ｃｏｍ／ｓｅａｒｃｈ？ｋｅｙ＝Ｘ＋ｃａｔｅｇｏｒｙ＝ｈｔｔｐ：／／ｍｙｏｎｔｏｌｏｇｙ＃Ｙ＋ＩＤ＝ｙｙｙ＞」と定義する。

ここで、「ｈｔｔｐ：／／ｉｎｔｒａ．ｘｘｘ．ｃｏｍ／ｓｅａｒｃｈ」は、サーバ２Ａ内の検索エンジンに代表される情報収集プログラム（図１には図示しない）へのＵＲＩを示し、「Ｘ」がキーワードＫｊを示し、「ｈｔｔｐ：／／ｍｙｏｎｔｏｌｏｇｙ＃Ｙ」がキーワードの意味属性Ｃｊを示し、「ＩＤ＝ｙｙｙ」はキーワード抽出結果のＩＤ指定を示す。

これにより、利用者が１つのキーワードをマウス等でクリックして選択すると、端末制御部１１が当該キーワードとその意味属性、出現位置、および、キーワード抽出結果のＩＤをサーバ２Ａに送信することができる。

次に、利用者により指定されたキーワード情報が端末１からサーバ２Ａに与えられると、サーバ２Ａの制御部２１は、その指定されたキーワードの意味属性が「姓（ＰｅｒｓｏｎＮａｍｅ）」に相当するものであるか否かを判断し（Ｓ７）、指定されたキーワードの意味属性が「姓」に相当しない場合に、そのキーワードの関連情報を検索して取得し、その関連情報を端末１に送信する（Ｓ８）。また、端末１は、受信した関連情報を表示する（Ｓ９）。

ここで、制御部２１は、受信した指定されたキーワードの意味属性に基づいてオントロジー定義部２６を検索する。これにより、制御部２１は、オントロジー定義部２６における当該キーワードの意味概念又はプロパティを知ることができる。また、キーワードの関連情報の検索は、ネットワークに接続するデータベースを利用することができ、例えば、企業内ネットワークやインターネット等から検索可能である。

例えば、利用者がキーワード「製品ＡＢＣ」を指定した場合、制御部２１は、受信した意味属性「ｈｔｔｐ：／／ｍｙｏｎｔｏｌｏｇｙ＃Ｐｒｏｄｕｃｔ＿Ｎａｍｅ」から、オントロジー定義部２６における当該キーワードのプロパティは「製品名（ＰｒｏｄｕｃｔＮａｍｅ）」であると判断できる。従って、制御部２１は、当該キーワードのプロパティが「姓（ＰｅｒｓｏｎＮａｍｅ）」でないと判断し、キーワード「製品ＡＢＣ」の関連情報を検索し、端末１に送信する。

一方、例えば、利用者がキーワード「山田」を指定した場合、制御部２１は、受信した意味属性「ｈｔｔｐ：／／ｍｙｏｎｔｏｌｏｇｙ＃Ｐｅｒｓｏｎ＿Ｎａｍｅ」であるから、オントロジー定義部２６における当該キーワードのプロパティが「姓（ＰｅｒｓｏｎＮａｍｅ）」であると判断できる。この場合、以下のようにして、複数のインスタンス候補を出力する。

Ｓ７において、指定されたキーワードの意味属性は「姓」に相当するものであると制御部２１が判断すると、制御部２１は、当該キーワードをインスタンス検索部２５に与えて、インスタンスの検索を制御する。インスタンス検索部２５は、従業員データベース２８からキーワードが該当する従業員データを検索し、その検索結果をインスタンス候補Ｉｉ（ｉ＝１、２…、ｍ）として制御部２１に与える（Ｓ１０）。

ここで、インスタンスの概念について図８を参照して説明する。図８において、意味概念２６１、プロパティ２６２の構造は図２に対応する。

インスタンスは、ある概念に属するデータの実体をいう。これを本実施形態のオントロジー定義部２６と対応させると、図８に示すように、１つのインスタンス２６４は、ある意味概念２６１とｉｎｓｔａｎｃｅＯｆという関係で接続され、オントロジー定義で定義された各プロパティ２６２に対するプロパティ値２６５を持つ。ただし、プロパティ値が埋まらないプロパティも存在する。

例えば、キーワード「山田」は「従業員」という意味概念に属す。そして、意味概念「従業員」に定義された、例えばプロパティ「姓」に「山田」、プロパティ「名」に「太郎」、プロパティ「電話番号」に「０３−１２３４−５６７８」…というインスタンスがあることを意味する。

図９は、キーワード「山田」についてインスタンス検索部２５が従業員データベース２８から検索したインスタンス候補（検索結果）を示す図である。

図９において、横の列が各インスタンス候補、「姓」、「名」、「所属」等がプロパティであり、「山田」、「純一郎」、「社長」等が各インスタンス候補のプロパティの値を示している。また、空欄（例えば、各インスタンスの担当製品プロパティ）はプロパティ値が存在しないことを示している。

なお、図９では省略しているが、プロパティは、上位概念を含む意味概念に定義されたすべてのプロパティを意味する。

このようにして、キーワードを特定するための候補を出力すると共に、その候補の関連情報を出力できる。

その後、制御部２１は、利用者から指定されたキーワードとその意味属性、出現位置、検索したインスタンス候補、保持していた文書属性、及び、指定されたＩＤで保持していたすべてのキーワードとその意味属性と出現位置を、インスタンス評価部２５に送り、各インスタンス候補の評価を制御する。インスタンス評価部２５は、各インスタンス候補について得点を求める（Ｓ１１）。

ここで、インスタンス評価部２４による得点の算出方法について図１０を参照して説明する。

まず、インスタンス評価部２４は、すべてのインスタンス候補Ｉｉ（ｉ＝１、２、…、ｍ）についての得点を初期化（Ｓ（Ｉｉ）＝０）する（Ｓ２１）。

次に、インスタンス評価部２４は、選択されたキーワードＫｓｅｌ以外の各キーワードＫｊ（ｊ＝１、２、…、ｎ）について、直接制約としての得点を求める（Ｓ２２）。

つまり、インスタンス評価部２４は、キーワードＫｊの意味属性Ｃｊがインスタンス候補Ｉｉのプロパティのうちあるプロパティのベースクラスとマッチし、かつ、キーワードＫｊがそのプロパティの値とマッチするか否かを判断する。

この条件を満たす場合に、インスタンス評価部２４は、図４（Ａ）の評価ルールに基づいて求めた基準点に、図４（Ｂ）の評価ルールに基づいて求めた重み付けを行ない、得点を算出する。

つまり、インスタンス評価部２４は、評価ルール部２７を参照し、意味概念「従業員Ｃｅｍｐ」とキーワードＫｊの意味属性Ｃｊに応じた基準点Ｓｂ（Ｃｓｅｌ、Ｃｊ）、及び、文書属性Ｄ、意味概念「従業員Ｃｅｍｐ」、キーワードＫｊの意味属性Ｃｊ、「姓」の出現位置ｐｏｓ（Ｋｓｅｌ）、キーワードＫｊの出現位置ｐｏｓ（Ｋｊ）に応じた重みづけＷ（Ｃｅｍｐ、Ｃｊ、ｐｏｓ（Ｋｓｅｌ）、ｐｏｓ（Ｋｊ））を求め、得点Ｓ（Ｉｉ）にＳｂ（Ｃｅｍｐ、Ｃｊ）＊Ｗ（Ｃｅｍｐ、Ｃｊ、ｐｏｓ（Ｋｓｅｌ）、ｐｏｓ（Ｋｊ））を加算する。

例えば、指定されたキーワード「山田」以外のキーワード「開発部」の意味属性は「ｈｔｔｐ：／／Ｍｙｏｎｔｏｌｏｇｙ＃ＳｕｂＯｒｇａｎｉｚａｔｉｏｎ＿Ｎａｍｅ」であるからサブ組織名である（図７参照）。そして、候補の「所属」プロパティについてみると、その「所属」プロパティのベースクラスは、サブ組織名「ｈｔｔｐ：／／Ｍｙｏｎｔｏｌｏｇｙ＃ＳｕｂＯｒｇａｎｉｚａｔｉｏｎ＿Ｎａｍｅ」であるから、キーワード「開発部」の意味属性に一致する。

また、キーワード「開発部」は、候補「山田太郎」及び「山田三郎」の「所属」プロパティの値に一致する。

従って、インスタンス評価部２４は、候補「山田太郎」及び「山田三郎」について、評価ルール２７を参照して、意味概念「従業員」とプロパティ「所属」との関係に応じて求めた基準点０．５に、文書属性である「議事録」、姓「山田」の出現位置Ｌ＝７、キーワード「開発部」の出現位置Ｌ＝７から求めた重みづけ１．０をかけて得点を算出する。

同様に、インスタンス評価部２４は、他の全てのキーワード「製品ＡＢＣ開発会議」、「製品ＡＢＣ」、「部長」、「課長」、「Ｘモジュール」等についても基準点、重みづけを求め、得点に加算する。ただし、「部長」は「佐藤」と関連しており、「山田」の処理においては得点を０とする。

各キーワードＫｊに対する各インスタンス候補Ｉｉの得点（基準点、重みづけ）を図１１に示す。図１１において、例えば、０．５＊１．０は基準点０．５、重みづけ１．０を示している。

さらに、インスタンス評価部２４は、各キーワードＫｊから推論した制約についても得点を求める（Ｓ２３）。

ここで、推論には、オントロジー定義上での推論と、他文書から抽出した制約による推論がある。

オントロジー定義上の推論とは、組織名を伴わずに列挙される人名は同じ組織に属しているに違いないという推測のもと、同一行あるいは前後行に出現した意味属性が人名であるキーワードから組織名を推論するものである。

図１２は、オントロジー定義上の推論のモデルを説明する概念図である。図１２において、姓「佐藤」は「山田」と同一行に出現し、「佐藤」に対して従業員データベース２８から従業員名および組織名を検索すると、開発部の佐藤一郎と総務部の佐藤二郎が検索され、「開発部」および「総務部」を「山田」の所属プロパティの制約と推論している。

ここでは、ひとりの人名から推論しているが、複数の人名の組織名を検索してＡＮＤをとる（すべての人名に共通する組織名）、あるいは最も多く共通する組織名を所属プロパティの制約とすることもできる。

また、他文書から抽出した制約による推論とは、文書内キーワードＫｊが他文書に出現し、他文書内でキーワードＫｊに関連するキーワードＸを制約として利用する推論である。

図１３は、他文書から抽出した制約による推論のモデルを説明する概念図である。図１３において、「山田」と「製品ＡＢＣ」は有意な距離で出現し、別文書内に「山田太郎」と「製品ＡＢＣ」が有意な距離で出現することから、「太郎」を「山田」のプロパティ「名」の制約として推論している。

インスタンス評価部２４は、推論した制約に対する得点について、推論した意味属性Ｃｘが制約として作用する際の得点Ｓｂ（Ｃｅｍｐ、Ｃｘ）＊Ｗ（Ｃｅｍｐ、Ｃｘ、ｐｏｓ（Ｋｓｅｌ）、ｐｏｓ（Ｋｊ））に、推論による重みづけＳｂ（Ｃｊ、Ｃｘ）＊Ｗ（Ｃｊ、Ｃｘ、ｐｏｓ（Ｋｊ）、ｐｏｓ（Ｘ））を積算した値をＳ（Ｉｉ）に加算する。

ただし、オントロジー定義上の推論の場合は、Ｗ（Ｃｊ、Ｃｘ、Ｐｏｓ（Ｋｊ）、Ｐｏｓ（Ｘ））の値を、例えば、１／（同一行あるいは前後行に出現した意味属性が人名であるキーワード数）とする。

図１４は、インスタンス評価部２４により求められた、各キーワードＫｊに対して推論した制約に対する得点（基準点、重みづけ）を示す。図１４において、例えば、「山田太郎」に対する「製品ＡＢＣ」の得点１．０＊０．９＊０．３＊１．０は、１．０＊０．９が推論した制約としての「太郎」に対する得点（基準点と重みづけ）、０．３＊１．０が推論に利用した製品名（「製品ＡＢＣ」）と人名（「山田太郎」）の関係に対する得点（基準点と重みづけ）である。

以上で、インスタンス評価部２４による得点の算出は終了であり、インスタンス評価部２５は、各インスタンス候補の得点を制御部２１に返す。

次に、制御部２１は、各インスタンス候補の得点の中で最高点を求め、最高点から一定範囲Ｓｄｉｓｔ内の得点のインスタンス候補を求める（Ｓ１２）。そのインスタンス候補の個数が一定値Ｎ以下の場合、例えば、制御部２１は、そのインスタンス候補を得点順に並び替え、各プロパティ、プロパティ値を従業員情報として端末１に送信する（Ｓ１３）。

インスタンス候補の個数が一定値Ｎを越える場合は、例えば、制御部２１は、絞りきれなかった旨のメッセージと、得点順に並び替えたすべてのインスタンス候補のプロパティ、プロパティ値を従業員情報として端末１に送信する（Ｓ１５）。

図１５は、各インスタンス候補の得点合計例である。図１５において、最高点からの一定範囲Ｓｄｉｓｔ＝０．３、インスタンス候補数Ｎ＝５とすると、最高得点は「山田太郎」の１．２２、第２候補以下は得点が０．３以上離れているから、この場合のインスタンス候補は「山田太郎」１件となる。したがって、制御部２１は、「山田太郎」の従業員情報だけを端末１に送信する。

端末１の端末制御部１１は、サーバ２Ａから受信した従業員情報を出力する（Ｓ１４、Ｓ１６）。その際、複数候補がある場合は、端末１は選択ボタンを表示し、利用者に従業員を特定させた上で、例えば、電話やメール、ＰＣ会議等のアプリケーションを呼び出すことができる。

（Ａ−３）第１の実施形態の効果
以上のように、第１の実施形態によれば、インスタンス評価部２５が、オントロジー定義部２６及び評価ルール部２７を参照して、文書分類、キーワードの意味情報、キーワードの出現位置から、各インスタンス候補の得点を求めることにより、文書内で記されている人名をある程度特定することができる。

また、第1の実施形態のキーワード特定システムを情報収集システムに適用することで、特定した人名に関する所望情報を少ない操作で収集することができる。

また、第１の実施形態によれば、インスタンス評価部２５は、キーワードが直接制約とならない場合でも、オントロジー定義上の推論、及び又は、他文書から抽出した制約による推論を行なうことにより、精度をさらに向上することができる。

さらに、イントラネット文書、従業員データベースによる評価実験では、日本人に多い姓「山田」、「佐藤」、「鈴木」、「高橋」、「田中」について、姓だけで出現する文書８７文書に対して、同一行あるいは前後行の組織名、役職名、電話番号、メールアドレスだけから従業員を特定できる場合が４６．０％であり、第１の実施形態によれば、文書分類、キーワードの意味情報、キーワードの出現位置、さらに、オントロジー定義上の推論、及び他文書から抽出した制約による推論を行なうこと各インスタンス候補の得点を求めることにより従業員を特定できる場合が７３．６％であった。

（Ｂ）第２の実施形態
次に、本発明のキーワード特定装置、キーワード特定方法及びキーワード特定プログラムの第２の実施形態について図面を参照して説明する。

第２の実施形態は、入力されたキーワードに関連する情報を検索する情報検索システムに、キーワード特定システムを適用した場合であって、地名をキーワードとしたときに、どの地名であるかを特定する方法について説明する
（Ｂ−１）第２の実施形態の構成
図１６は、第２の実施形態に係るキーワード特定システムの構成とその機能とを概略的に示すブロック図である。

図１６に示すように、第２の実施形態のキーワード特定システム２００は、ネットワークに接続可能な、端末１、サーバ２Ｂ、検索エンジン３を備える。なお、ネットワークは、企業内ネットワーク（イントラ）やインターネット等にも適用できる。

なお、図１６において、図１に示す構成要件と同一・対応するものについては対応する符号を付して示す。また、第１の実施形態で説明した構成要件の機能の詳細な説明は省略する。

端末１は、第１の実施形態と同様の機能を実現するユーザ端末である。

検索エンジン３は、サーバ２Ｂからキーワードを与えられ、ネットワークからキーワードに関する情報を収集し、収集した情報の各ページへのリンクを、サーバ２Ｂに与えるものである。なお、検索エンジン３は、従来の情報収集システムイを適用することができる。またサーバ２Ｂが検索エンジン３を備えるようにしてもよい。

サーバ２Ｂは、利用者により入力された端末１からキーワードを受け取り、そのキーワードが属する意味概念に定義されたプロパティにおいてキーワードと同じインスタンスを検索するインスタンス検索機能、キーワード特定機能、ページ提示機能などを備える。

第２の実施形態のサーバ２Ｂは、第１の実施形態で説明した従業員データベース２８の代わりにインスタンス保持部２９を備え、インスタンス保持部２９を備えることによるインスタンス検索部２５の機能が第１の実施形態と異なる。

インスタンス保持部２９は、オントロジー定義部２６を参照しており、ある意味定義の実体についての記述を保持するものである。

図１７は、インスタンス保持部２９に保持されるインスタンスのモデルを示す概念図である。

本実施形態は地名とキーワードとする場合であるため、図１７に示すように、オントロジー定義部２６は、意味概念「場所」が、「地名」、「地図」、「交通手段」、「所在地（市）」、「所在地（県）」等をプロパティとして有する。また、インスタンス保持部２９のインスタンスは、各プロパティに対するプロパティ値を有する。例えば、プロパティ「地名」は「元町」、プロパティ「地図」は「元町」の地図を示すＵＲＩ「ｈｔｔｐ：／／…」、プロパティ「交通手段」は「みなとみらい線…」、プロパティ「市」は「横浜市」、プロパティ「県」は「神奈川県」等がある。

（Ｂ−２）第２の実施形態の動作
次に、第２の実施形態のキーワード特定システム２００の動作について図１８を参照して説明する。

まず、端末１内の端末制御部１１は、キーワードを入力するためのテキスト枠を端末１の表示手段（図示しない）に表示する（Ｓ２１）。これにより、利用者はキーワードを入力することができ、端末制御部１１は、入力されたキーワードをサーバ２Ｂに送信する（Ｓ２２）。

例えば、利用者は、「元町」をキーワードとして入力し、端末１は、入力されたキーワード「元町」をサーバ２Ｂに送信する。

サーバ２Ｂがキーワードを受信すると、制御部２１の制御により、インスタンス検索部２５は、受信したキーワードに関するインスタンスを、インスタンス保持部２９から検索し、その検索したキーワードに関するインスタンスを端末１に返信する（Ｓ２３）。

このとき、インスタンス検索部２５は、インスタンス保持部２９からベースクラスがＮａｍｅであるプロパティがキーワードと一致するインスタンスを返信する。例えば、入力キーワード「元町」に対して、意味概念「Ｎａｍｅ」のプロパティ「地名」からインスタンスが「元町」となるものを検索し、その結果、例えば、横浜、神戸、函館の「元町」についてのインスタンス（各プロパティに対するプロパティ値）を返信する。

例えば、キーワードのインスタンスは、プロパティを「地名」、「地図」、「交通手段」、「市」、「県」、…とするときの各プロパティ値「元町」、「ｈｔｔｐ：／／…」、「みなとみらい線…」、「横浜市」、「神奈川県」、…である。

端末１は、サーバ２Ｂから受信したキーワードに対する各インスタンス及び利用者に選択させる選択ボタンを表示する（Ｓ２４）。

これにより、利用者は、選択ボタンを用いて、表示されたインスタンス中から意図するインスタンスを選択し、端末制御部１１は、選択されたインスタンスをサーバ２Ｂに送信する（Ｓ２５）。

例えば、利用者は、表示された「元町」のインスタンスに基づいて、「みなとみらい線…、横浜市、神奈川県」に関連する「元町」を選択したものとする。

サーバ２Ｂは、制御部２１が選択されたインスタンスを保持し、キーワードを検索エンジン３に送信する（Ｓ２６）。このとき、検索エンジン３は、イントラネットあるいはインターネット等からキーワードに関する情報を収集し、その結果として各ページへのリンクをサーバ２Ｂに返信する。ここでの結果は、横浜、神戸、函館に関する情報が混在している。

サーバ２Ｂは、検索エンジン３による結果を受信すると、インスタンス評価部２４は、制御部２１の制御により、リンク先の各ページに対して、ページ内のキーワードがどのインスタンスに関連するかを特定する（Ｓ２７）。

ここでの特定の方法は、第１の実施形態の図１０で説明したインスタンス評価方法と対応する方法が適用できる。

すなわち、図１０では意味概念「従業員Ｃｅｍｐ」として説明したが、第２の実施形態では意味概念「地名Ｃｐｌａｃｅ」として同様の処理ができる。勿論、これに応じて、評価ルールは予め定義され、インスタンス評価部２４は、この評価ルールを用いて各インスタンス候補の得点を算出し、最高得点のインスタンス候補が指定され、最高得点のインスタンス候補のインスタンスと、利用者に選択されたインスタンスとが同じ場合には、そのリンク先のページ情報をインスタンス保持部２９に保持する。

例えば、インスタンス評価部２４は、利用者により選択された横浜の元町に関連する１又は複数のページのリンクを、検索エンジン３から受け取る。インスタンス評価部２４は、その１又は複数のページにおいて「元町」についてのインスタンス評価を行う。そして、インスタンス評価部２４は、最高得点のインスタンス候補を特定し、その最高得点のインスタンス候補のインスタンスが「みなとみらい線、…、横浜市、神奈川県、…」というインスタンスと一致するときに、その横浜の元町に関するページだけを保持する。

その後、サーバ２Ｂの制御部２１は、保持したページの情報を端末１に送信する（Ｓ２８）。そして、端末１は、端末制御部１１の制御により、サーバ２Ｂから受信したページの情報を表示する（Ｓ２９）。これにより、利用者は、端末１に表示された情報を閲覧することができる。

（Ｂ−３）第２の実施形態の効果
以上のように、第２の実施形態によれば、従業員データベース２８に代わってサーバ２Ｂ内がインスタンス保持部２９を有し、また、ネットワークを介して検索エンジン３を接続し、利用者はキーワードを指定すると、インスタンス保持部２９からキーワードに関連するインスタンスを検索して、利用者に表示し、利用者が選択したインスタンスに対して、検索エンジンの検索結果である各ページ内のキーワードがどのインスタンスに関連するかを特定し、選択したインスタンスに関連するものだけを出力することにより、従来の検索エンジンでは混在していた同じキーワードに対する異なる実体のページから、指定したインスタンスに関連するページだけを選択して出力することが可能になり、情報を効率的に収集できるという効果が得られる。

（Ｃ）他の実施形態
（Ｃ−１）第１の実施形態では、文書内の人名に対する特定方法を説明したが、第２の実施形態で説明したような地名あるいは駅名に関するオントロジーを定義し、地名あるいは駅名に対して同様の特定処理を行なうことができる。このようにしたキーワード特定システムを情報収集システムに適用することで、企業等の交通案内ページの駅名（例：「元町駅」）を指定すると、ページ内の住所、路線名、地名等から、駅名の候補（「元町・中華街駅」「元町駅（兵庫）」「元町駅（北海道）」）を選択することなく、経路案内をすることも可能である。

（Ｃ−２）第１及び第２の実施形態で説明したサーバ２Ａ及び２Ｂが備える機能は、同一サーバ上に配置されることなく、ネットワーク上で分散処理可能なように配置されるようにしてもよい。

（Ｃ−３）第１の実施形態では人名、特に「姓」を例に挙げて説明したが、例えば山田（陽）など同一姓の人物間を区別する表記であっても、オントロジーの定義を変化させることで特定させることが可能である。この場合、プロパティ「姓」のプロパティの値が「山田」であり、プロパティ「名」のプロパティの値が「（陽）」となる。

また、第１及び第２の実施形態は、人名、地名、組織名などの略称、俗称、通称などにも適用可能である。

（Ｃ−４）図４に評価ルールの構成例を示したが、このような構成例に限定されることはなく、例えば時間的な関係をルールの構成要素としてもよい。

例えば、図４（Ｂ）に示す評価ルールの項目として更に「日付」及び「日付の出現位置」の項目を有し、例えば「所属」の変更時期を制約する期限を「日付」で管理する。そして、出現位置が適正な文書中の日付が「日付」の期限以降である場合、「所属」の重み付けを大きくするルールにするようにしてもよい。

（Ｃ−５）図１１、図１４及び図１５に示すインスタンスの得点の算出を、各インスタンス間の得点の総和として説明したが、得点算出は総和に限定されず、たとえば、各インスタンスの得点に所定の関数値を乗算して求めるようにしてもよい。

（Ｃ−６）図１３で説明した他文書から抽出した制約による推論を行なった後、制御部２１は、インスタンス同士の関係に推論結果に応じて、当該インスタンス間の関係に係る配点又は重み付けを変更するようにしてもよい。

第１の実施形態のキーワード特定システムの構成及び機能を示すブロック図である。第１の実施形態のオントロジー定義の概念を説明する説明図である。第１の実施形態のオントロジー定義の具体例を示す説明図である。第１の実施形態の評価ルール例を示す説明図である。第１の実施形態のキーワード特定の動作フローチャートである。第１の実施形態のファイル表示画面例を示す説明図である。第１の実施形態のキーワード抽出結果を説明する説明図である。第１の実施形態のインスタンス概念を説明する説明図である。第１の実施形態のインスタンス候補例を示す説明図である。第１の実施形態のインスタンス評価の動作フローチャートである。第１の実施形態の各インスタンス候補の得点結果を示す説明図である。第１の実施形態のオントロジー定義上の推論の概念を説明する説明図である。第１の実施形態の他文書から抽出した制約による推論の概念を説明する説明図である。第１の実施形態の各インスタンス候補の得点結果を示す説明図である。第１の実施形態の各インスタンス候補の合計得点を示す説明図である。第２の実施形態のキーワード特定システムの構成及び機能を示すブロック図である。第２の実施形態のインスタンス保持部の概念を説明する説明図である。第２の実施形態のキーワード特定の動作フローチャートである。

符号の説明

２１…制御部、２２…キーワード抽出部、２３…文書分類部、２４…インスタンス評価部、２５…インスタンス検索部、２６…オントロジー定義部、２７…評価ルール部、２８…従業員データベース、２９…インスタンス保持部。

Claims

指定された語と同一の意味概念上の複数のインスタンスから、上記指定された語の実体に相当するインスタンスを特定するキーワード特定装置であって、
１又は複数の意味概念と、上記各意味概念に対して１又は複数のプロパティと、上記各プロパティに対してベースクラスとする１つの意味概念とを定義したオントロジー定義手段と、
上記各意味概念と、上記各意味概念に対して定義された上記各プロパティとの関係の強さの度合いを予め設定した評価ルールを有する評価ルール手段と、
外部からの指定を取り込み、指定された文書から、少なくとも、指定された語を含む１以上のキーワード及び上記各キーワードの上記意味概念又は上記プロパティを示す属性情報を抽出するキーワード抽出手段と、
複数の単語と、それら各単語に関連する１以上の関連情報とを対応させて記憶する記憶手段と、
上記指定された語と一致する１又は複数の単語をインスタンス候補として上記記憶手段から検索するインスタンス検索手段と、
上記各関連情報の意味概念が上記各キーワードの意味概念に一致し、かつ、上記各関連情報が上記各キーワードに一致する上記各インスタンス候補について、上記評価ルールに従って評価し、その評価結果に基づいて、上記指定された語の実体に相当するインスタンスを特定するインスタンス特定手段と
を備えることを特徴とするキーワード特定装置。
上記指定された文書の属性を求める文書分類手段を備え、
上記評価ルールが、上記各意味概念と上記各プロパティとの関係の強さの度合いに、上記文書の文書属性情報と、上記各意味概念及び上記各プロパティの出現位置関係とに応じた重み付けした評価ルールをも有し、
上記キーワード抽出手段が、抽出した上記各キーワードの上記文書内における出現位置をも求める
ことを特徴とする請求項１に記載のキーワード特定装置。
上記インスタンス特定手段が、上記各インスタンス候補に対して求めた評価得点の高いものから所定範囲のものを上記指定された語の実体に相当するインスタンスの候補とすることを特徴とする請求項１又は２に記載のキーワード特定装置。
上記インスタンス特定手段が、オントロジー定義上での推論により求めた得点をも評価得点とすることを特徴とする請求項１〜３のいずれかに記載のキーワード特定装置。
上記インスタンス特定手段が、他文書から抽出した制約による推論により求めた得点をも評価得点とすることを特徴とする請求項１〜４のいずれかに記載のキーワード特定装置。
指定された語と同一の意味概念上の複数のインスタンスから、上記指定された語の実体に相当するインスタンスを特定するキーワード特定方法であって、
１又は複数の意味概念と、上記各意味概念に対して１又は複数のプロパティと、上記各プロパティに対してベースクラスとする１つの意味概念とを定義したオントロジー定義手段と、
上記各意味概念と、上記各意味概念に対して定義された上記各プロパティとの関係の強さの度合いを予め設定した評価ルールを有する評価ルール手段と
を備え、
キーワード抽出手段が、外部からの指定を取り込み、指定された文書から、少なくとも、指定された語を含む１以上のキーワード及び上記各キーワードの上記意味概念又は上記プロパティを示す属性情報を抽出し、
記憶手段が、複数の単語と、それら各単語に関連する１以上の関連情報とを対応させて記憶し、
インスタンス検索手段が、上記指定された語と一致する１又は複数の単語をインスタンス候補として上記記憶手段から検索し、
インスタンス特定手段が、上記各関連情報の意味概念が上記各キーワードの意味概念に一致し、かつ、上記各関連情報が上記各キーワードに一致する上記各インスタンス候補について、上記評価ルールに従って評価し、その評価結果に基づいて、上記指定された語の実体に相当するインスタンスを特定する
ことを特徴とするキーワード特定方法。
１又は複数の意味概念と、上記各意味概念に対して１又は複数のプロパティと、上記各プロパティに対してベースクラスとする１つの意味概念とを定義したオントロジー定義手段と、
上記各意味概念と、上記各意味概念に対して定義された上記各プロパティとの関係の強さの度合いを予め設定した評価ルールを有する評価ルール手段と
を備え、
指定された語と同一の意味概念上の複数のインスタンスから、上記指定された語の実体に相当するインスタンスを特定するキーワード特定装置に、
外部からの指定を取り込み、指定された文書から、少なくとも、指定された語を含む１以上のキーワード及び上記各キーワードの上記意味概念又は上記プロパティを示す属性情報を抽出するキーワード抽出手段、
複数の単語と、それら各単語に関連する１以上の関連情報とを対応させて記憶する記憶手段、
上記指定された語と一致する１又は複数の単語をインスタンス候補として上記記憶手段から検索するインスタンス検索手段、
上記各関連情報の意味概念が上記各キーワードの意味概念に一致し、かつ、上記各関連情報が上記各キーワードに一致する上記各インスタンス候補について、上記評価ルールに従って評価し、その評価結果に基づいて、上記指定された語の実体に相当するインスタンスを特定するインスタンス特定手段
として機能させるためのキーワード特定プログラム。