JP2006072844A - キーワード特定装置、キーワード特定方法及びキーワード特定プログラム - Google Patents
キーワード特定装置、キーワード特定方法及びキーワード特定プログラム Download PDFInfo
- Publication number
- JP2006072844A JP2006072844A JP2004257585A JP2004257585A JP2006072844A JP 2006072844 A JP2006072844 A JP 2006072844A JP 2004257585 A JP2004257585 A JP 2004257585A JP 2004257585 A JP2004257585 A JP 2004257585A JP 2006072844 A JP2006072844 A JP 2006072844A
- Authority
- JP
- Japan
- Prior art keywords
- keyword
- instance
- semantic concept
- semantic
- word
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Pending
Links
- 238000000034 method Methods 0.000 title claims description 30
- 238000011156 evaluation Methods 0.000 claims abstract description 88
- 238000000605 extraction Methods 0.000 claims abstract description 41
- 239000000284 extract Substances 0.000 claims description 6
- 230000008520 organization Effects 0.000 description 12
- 238000010586 diagram Methods 0.000 description 10
- 208000008884 Aneurysmal Bone Cysts Diseases 0.000 description 9
- 238000011161 development Methods 0.000 description 7
- 238000004891 communication Methods 0.000 description 5
- 238000007726 management method Methods 0.000 description 4
- 238000004364 calculation method Methods 0.000 description 3
- 230000008859 change Effects 0.000 description 3
- 230000000717 retained effect Effects 0.000 description 3
- 239000000126 substance Substances 0.000 description 3
- 244000205754 Colocasia esculenta Species 0.000 description 2
- 235000006481 Colocasia esculenta Nutrition 0.000 description 2
- 230000000694 effects Effects 0.000 description 2
- 230000010365 information processing Effects 0.000 description 2
- 230000008569 process Effects 0.000 description 2
- 238000012545 processing Methods 0.000 description 2
- 230000005540 biological transmission Effects 0.000 description 1
- 238000012937 correction Methods 0.000 description 1
- 238000005516 engineering process Methods 0.000 description 1
- 238000002474 experimental method Methods 0.000 description 1
- 230000008676 import Effects 0.000 description 1
- 238000012423 maintenance Methods 0.000 description 1
- 239000000203 mixture Substances 0.000 description 1
- 238000012706 support-vector machine Methods 0.000 description 1
- 230000002123 temporal effect Effects 0.000 description 1
Images
Landscapes
- Information Retrieval, Db Structures And Fs Structures Therefor (AREA)
Abstract
【課題】指定語と同一意味概念上の単語から指定語の実体を示す語を特定するようにする。
【解決手段】本発明のキーワード特定装置は、オントロジー定義手段と、各意味概念と各プロパティとの関係の強さの度合いを設定した評価ルール手段と、指定された文書から、少なくとも指定された語を含む1以上のキーワード及び各キーワードの意味概念又はプロパティを示す属性情報を抽出するキーワード抽出手段と、複数の単語と関連情報とを対応させて記憶する記憶手段と、指定された語と一致する単語をインスタンス候補として検索するインスタンス検索手段と、各関連情報の意味概念が各キーワードの意味概念に一致し、かつ、各関連情報が各キーワードに一致する各インスタンス候補について、評価ルールに従って評価し、その評価結果に基づいて、指定された語の実体に相当するインスタンスを特定するインスタンス特定手段とを備えることを特徴とする。
【選択図】 図1
【解決手段】本発明のキーワード特定装置は、オントロジー定義手段と、各意味概念と各プロパティとの関係の強さの度合いを設定した評価ルール手段と、指定された文書から、少なくとも指定された語を含む1以上のキーワード及び各キーワードの意味概念又はプロパティを示す属性情報を抽出するキーワード抽出手段と、複数の単語と関連情報とを対応させて記憶する記憶手段と、指定された語と一致する単語をインスタンス候補として検索するインスタンス検索手段と、各関連情報の意味概念が各キーワードの意味概念に一致し、かつ、各関連情報が各キーワードに一致する各インスタンス候補について、評価ルールに従って評価し、その評価結果に基づいて、指定された語の実体に相当するインスタンスを特定するインスタンス特定手段とを備えることを特徴とする。
【選択図】 図1
Description
本発明は、キーワード特定装置、キーワード特定方法及びキーワード特定プログラムに関し、例えば、文書内に出現する人名、組織名、地名等のキーワードの示す実体が唆昧な場合に、それを特定する方法及びその装置に関する。
一般に、従来のキーワード特定方法の一つとして非特許文献1に示すようなものがある。非特許文献1では、第5ページ、Figure.5において、意味概念の関係を定義したオントロジー(LIP Ontology)を利用し、文書あるいは文章内で共起する複数の単語(非特許文献1ではhakkyo)の意味概念(school(722))を制約として、キーワード(cenhata)の持つ意味概念(deliver(370)、inform(751)、inherit(762))の中から最適パスとなるものを選択することにより、キーワードの意味的な曖昧性を解消する(inform(751)を選択)ものであった。
Sin−Jae Kang and Jong−Hyeok Lee,"Ontology−Based Word Sense Disambiguation by Using Semi−Automatically Constructed Ontology",8th Machine Translation Summit,2001
Sin−Jae Kang and Jong−Hyeok Lee,"Ontology−Based Word Sense Disambiguation by Using Semi−Automatically Constructed Ontology",8th Machine Translation Summit,2001
しかしながら、非特許文献1に示すキーワード特定方法では、一般語の複数の意味的な曖昧性は解消できるが、固有名詞、例えば、文書内の「山田」がどの山田さんであるか、又「元町」がどの都道府県の町であるかという問題には対処できなかった。
これは、従来技術が複数の意味概念から1つを選択するのに対して、固有名詞の場合に1つの意味概念(例えば、人名)の中に複数の実体(例えば、「山田太郎」、「山田次郎」や「田中一郎」)があるためである。
そして、一般の文書内で、例えば、「山田」のように姓だけが出現したり、あるいは、「山田課長」のような姓と役職のパターンが出現したり、又は単独で地名だけが出現したりすることは頻繁にあり、このような単語の実体を特定することは重要である。
そのため、指定された語と同一の意味概念に属する単語から、指定された語の実体を示す語を特定することができるキーワード特定装置、キーワード特定方法及びキーワード特定プログラムが求められている。
かかる課題を解決するために、第1の本発明のキーワード特定装置は、指定された語と同一の意味概念上の複数のインスタンスから、指定された語の実体に相当するインスタンスを特定するキーワード特定装置であって、(1)1又は複数の意味概念と、各意味概念に対して1又は複数のプロパティと、各プロパティに対してベースクラスとする1つの意味概念とを定義したオントロジー定義手段と、(2)各意味概念と、各意味概念に対して定義された各プロパティとの関係の強さの度合いを予め設定した評価ルールを有する評価ルール手段と、(3)外部からの指定を取り込み、指定された文書から、少なくとも、指定された語を含む1以上のキーワード及び各キーワードの意味概念又はプロパティを示す属性情報を抽出するキーワード抽出手段と、(4)複数の単語と、それら各単語に関連する1以上の関連情報とを対応させて記憶する記憶手段と、(5)指定された語と一致する1又は複数の単語をインスタンス候補として記憶手段から検索するインスタンス検索手段と、(6)各関連情報の意味概念が各キーワードの意味概念に一致し、かつ、各関連情報が各キーワードに一致する各インスタンス候補について、評価ルールに従って評価し、その評価結果に基づいて、指定された語の実体に相当するインスタンスを特定するインスタンス特定手段とを備えることを特徴とする。
また、第2の本発明のキーワード特定方法は、第1の本発明のキーワード特定装置に対応するものである。つまり、第2の本発明のキーワード特定方法は、指定された語と同一の意味概念上の複数のインスタンスから、指定された語の実体に相当するインスタンスを特定するキーワード特定方法であって、(1)1又は複数の意味概念と、各意味概念に対して1又は複数のプロパティと、各プロパティに対してベースクラスとする1つの意味概念とを定義したオントロジー定義手段と、(2)各意味概念と、各意味概念に対して定義された各プロパティとの関係の強さの度合いを予め設定した評価ルールを有する評価ルール手段とを備え、(3)キーワード抽出手段が、外部からの指定を取り込み、指定された文書から、少なくとも、指定された語を含む1以上のキーワード及び各キーワードの意味概念又はプロパティを示す属性情報を抽出し、(4)記憶手段が、複数の単語と、それら各単語に関連する1以上の関連情報とを対応させて記憶し、(5)インスタンス検索手段が、指定された語と一致する1又は複数の単語をインスタンス候補として記憶手段から検索し、(6)インスタンス特定手段が、各関連情報の意味概念が各キーワードの意味概念に一致し、かつ、各関連情報が各キーワードに一致する各インスタンス候補について、評価ルールに従って評価し、その評価結果に基づいて、指定された語の実体に相当するインスタンスを特定することを特徴とする。
更に、第3の本発明のキーワード特定プログラムは、第1の本発明のキーワード特定装置に対応するものである。つまり、第3の本発明のキーワード特定プログラムは、1又は複数の意味概念と、各意味概念に対して1又は複数のプロパティと、各プロパティに対してベースクラスとする1つの意味概念とを定義したオントロジー定義手段と、各意味概念と、各意味概念に対して定義された各プロパティとの関係の強さの度合いを予め設定した評価ルールを有する評価ルール手段とを備え、指定された語と同一の意味概念上の複数のインスタンスから、指定された語の実体に相当するインスタンスを特定するキーワード特定装置に、(1)外部からの指定を取り込み、指定された文書から、少なくとも、指定された語を含む1以上のキーワード及び各キーワードの意味概念又はプロパティを示す属性情報を抽出するキーワード抽出手段、(2)複数の単語と、それら各単語に関連する1以上の関連情報とを対応させて記憶する記憶手段、(3)指定された語と一致する1又は複数の単語をインスタンス候補として記憶手段から検索するインスタンス検索手段、(4)各関連情報の意味概念が各キーワードの意味概念に一致し、かつ、各関連情報が各キーワードに一致する各インスタンス候補について、評価ルールに従って評価し、その評価結果に基づいて、指定された語の実体に相当するインスタンスを特定するインスタンス特定手段として機能させるためのキーワード特定プログラムである。
本発明のキーワード特定装置、キーワード特定方法及びキーワード特定プログラムによれば、指定された語と同一の意味概念上の複数のインスタンスから、指定された語の実体を示すインスタンスを特定することができる。
(A)第1の実施形態
まず、本発明のキーワード特定装置、キーワード特定方法及びキーワード特定プログラムの第1の実施形態について図面を参照して説明する。
まず、本発明のキーワード特定装置、キーワード特定方法及びキーワード特定プログラムの第1の実施形態について図面を参照して説明する。
第1の実施形態は、例えば従業員データベースを備える企業内ネットワークに、キーワード特定システムを適用した場合であって、文書中に出現した人の「姓」をキーワードとして指定されたときにその人が誰であるかを特定する方法について説明する。
(A−1)第1の実施形態の構成
図1は、第1の実施形態に係るキーワード特定システムの構成とその機能とを概略的に示すブロック図である。
図1は、第1の実施形態に係るキーワード特定システムの構成とその機能とを概略的に示すブロック図である。
図1において、キーワード特定システム100は、大別して、端末1とサーバ2Aとを備える。端末1とサーバ2Aとは相互にデータ通信可能なネットワークで接続されている。なお、ネットワークは、例えば、専用網、公衆網、又有線回線、無線回線、これら結合した通信網を適用でき、他の通信装置やデータベースなども接続可能である。
端末1は、利用者が操作するものであり、例えばパーソナルコンピュータが該当する。また、端末1は、端末制御部11、また図1には図示しないが操作手段(例えば、キーボード等)及び表示手段(例えばモニタ等)などを少なくとも備える。
端末制御部1は、記憶手段(例えば、RAM、ROM等)に格納されている処理プログラムを実行するものであり、入力・表示制御機能や、サーバ2Aとの間のデータ通信制御機能などを実現するものである。これにより、利用者は、端末1に対して所定の操作を行なうことで、ネットワークを通じて受信したファイル又は自端末1が格納するファイルを閲覧や指示ができる。
また、端末制御部11は、利用者操作により、表示されているファイルのキーワード抽出要求(例えば、利用者が表示画面上に表示されるボタンの押下等)や関連情報を望むキーワードの選択要求などをサーバ2Aに与えるものである。これにより、ファイル中のキーワード抽出や指定したキーワードの関連情報などを表示させることができる。
サーバ2Aは、端末1からの指示に応じて、ファイル中のキーワード抽出機能、キーワード関連情報の検索機能、キーワード特定機能などを実現するものである。
サーバ2Aは、図1に示すように、制御部21、キーワード抽出部22、文書分類部23、インスタンス評価部24、インスタンス検索部25、オントロジー定義部26、評価ルール部27、従業員データベース28を少なくとも備える。
制御部21は、サーバ2A全体として実現する機能を制御するものであり、図示しない記憶部(例えばRAM、ROM等)に記録されている処理プログラムを実行するものである。本実施形態では、制御部21は、主に、キーワード抽出部22、文書分類部23、インスタンス評価部24、インスタンス検索部25を制御するものである。
キーワード抽出部22は、制御部21の制御により、端末1からのキーワード抽出対象のファイルを受け取り、ファイルから人名、組織名、製品名等のキーワードを抽出し、ファイルにおける各キーワードの出現位置を求めるものである。また、キーワード抽出部22は、オントロジー定義部26を参照し、抽出した各キーワードの意味属性を求めるものである。更に、キーワード抽出部22は、抽出したキーワードと、そのキーワードの意味属性と、ファイルにおけるキーワードの出現位置とを抽出結果として制御部21に与えるものである。
ここで、意味属性とは、オントロジー定義部26に予め定義された意味概念あるいはプロパティヘのURIである。
なお、キーワード抽出部22におけるキーワード抽出方法は、ファイル中の人名や地名等の固有名詞を抽出することができれば特に限定されないが、例えば、福本淳一 他2名,「固有名詞抽出における日本語と英語の比較」,社団法人 電子情報通信学会,信学技報,NLC98−21,1998年7月,pp.45−52等に開示されている方法を適用できる。
文書分類部23は、制御部21の制御により、オントロジー定義部26を参照して、端末1から受信したファイルの種類を分類し、分類した文書属性を制御部21に与えるものである。
ここで、文書属性とは、文書の内容が示す属性情報をいい、例えば、議事録、管理表、仕様書などがある。また、本実施形態では、文書属性を、オントロジー定義部26に予め定義されたURIで示すこととする。
なお、文書分類部23における文書分類方法は、特に限定されないが、例えば、ファイル名、ファイル形式、文書内のキーワード等に応じて予め分類ルールを作成し、この分類ルールにマッチングさせる方法が考えられる。また、別の方法として、例えば、平博順,春野雅彦,「Support Vector Machineによるテキスト分類における属性選択」,情報処理学会論文誌Vol.41 No.4,2000年4月,pp.1113−1123や、湯浅夏樹 他2名,「大量文書データ中の単語間共起を利用した文書分類」,情報処理学会論文誌Vol.36 No.8,1995年8月,pp.1819−1827などに開示されている方法を適用できる。
インスタンス評価部24は、制御部21の制御により、後述するインスタンス検索部25により検索された各インスタンス候補に対して、オントロジー定義部26及び評価ルール部27を参照した所定の評価方法を用いて評価するものである。なお、インスタンス評価部24におけるインスタンス評価方法の詳細については後述する。
インスタンス検索部25は、制御部21の制御により、端末1から利用者指定されたキーワードの意味属性が「姓(Person Name)」である場合、従業員データベース28を参照して、そのキーワードに該当する従業員データを取り出し、インスタンス候補として検索するものである。
オントロジー定義部26は、オブジェクトの関係を定義したデータであり、本実施形態では、少なくとも、人に関する意味概念、及び人に関連する意味概念の関係を定義したデータを格納するものである。なお、本実施形態では、オントロジー定義部26は、従業員データベース29と異なるものとして示すが、同一の構成であってもよい。すなわち、オントロジー定義部26は、オブジェクト関係が定義されていれば、例えば、辞書、文書、データベース等としてもよい。
図2は、オントロジー定義部26の構造を示す概念図である。なお、オントロジーの定義は、システム設計者等による手動により定義してもよいし、自動により定義してもよい。
オントロジー定義部26は、意味概念261を有する。図2では、「人」という意味概念261を示す。また、1つの意味概念261は、propertyという関係で、1又は複数のプロパティ262と対応づけられている。図2では、「人」という意味概念に対して、「氏名」、「姓」、「名」、「電話番号」、「メールアドレス」等のプロパティ262が対応付けられている。
また、各プロパティ262は、baseClassという関係で、1つの意味概念261と対応付けられている。図2では、例えば「電話番号」というプロパティ262は、「電話」という意味概念261によって値の範囲が規定されている。
さらに、意味概念261は、subClassOfという関係で、別の意味概念261と対応付けられている。なお、この別の意味概念261も、また同様の構造である。図2では、「人」という意味概念261に対し、「従業員」という下位概念が対応付けられている。
そして、図2において、「従業員」は、自身のプロパティ261(図2では「所属」、「担当製品」)のほかに、上位概念「人」のプロパティも含めたプロパティがあることを意味している。
なお、オントロジー定義部26全体では、「人」だけでなく、組織、製品、技術、文書、時間、場所等の意味概念261を定義している。また、オントロジー定義部26は、プロパティ262を持たない特別な意味概念261としてName(何らかの名前)、String(文字列)、Number(数値)等を用意している。
具体的なデータは、意味概念、関係、プロパティ、あるいは意味概念、関係、意味概念の3つ組をそれぞれにURIを付与して記述し、図示しないデータベースに格納するものとする。キーワード抽出部22、文書分類部23、インスタンス評価部24は、このURIを参照してアクセスを行なう。図3は、RDF(Resource Description Framework)で記述した例を示す。
評価ルール部27は、インスタンスを評価するためのルール群であり、オントロジー定義部26を参照して作成されたものである。図4は、評価ルール部27の構成例を示す図である。
図4(A)に示す評価ルールは、オントロジー定義部26で定義されている、意味概念とそれを制約するプロパティとの関係に対して基準点を対応付けたものである。
例えば、図4(A)では、意味概念「従業員」に対して、プロパティが「電話番号」については基準点が0.8、「メールアドレス」については基準点が1.0、「所属」については基準点が0.5であることを示している。
この基準点は、意味概念とプロパティとの関係の強さを決めるものであり、システム設計者等が経験的に設定することが可能である。つまり、本実施形態のキーワード特定方法は、単語と単語との距離だけでなく、その関係に強さを設けて、その関係の強さをも用いてキーワードを特定するものである。なお、基準点は、システム設計者等により変更できるようにしてもよい。
つまり、例えば、「メールアドレス」は、「従業員」と1対1で対応しているので従業員を特定する可能性は高く、その関係は強いものと考えられるのに対して、「電話番号」は、例えば従業員の異動等により変更する可能性があるので従業員を特定できないこともあり、その関係は「メールアドレス」よりも弱いものと考えられる。また、「所属」も、例えば所属自体が名称変更等する場合があるので、その関係が「電話番号」よりも更に弱いものと考えられる。
図4(B)に示す評価ルールは、文書属性、意味概念、制約となるプロパティ、意味概念の出現位置、制約となるプロパティの出現位置に対して重み付けを対応付けるようにした場合の例である。
例えば、図4(B)における第1レコード目は、文書属性が「管理表」の場合、意味属性「従業員」に対する制約とする「所属」の出現位置yが、先頭から3行目以内のときは、重みづけが0.5であることを示している。なお、このときの意味概念「従業員」の出現位置は特に限定されない(図4(B)では「*」として示す)ものとする。
これは、通常の文書の場合、意味概念の出現位置の前後数行にあるプロパティは、意味概念と関係がある可能性が高いのに対して、管理表の場合、意味概念の出現位置と別の行のプロパティは、異なる情報であり意味概念と関係がある可能性がほとんどないと考えられるので重み付けが小さいと考えられる。従って、この場合、図4(A)のルールに基づく基準点に対する重み付けをもって補正することができる。
また例えば、図4(B)における第3レコード目は、文書属性「議事録」の場合、意味属性「従業員」に対する制約とする「所属」の出現位置yが、「従業員」の出現位置xとすると、xの1行前に出現するとき重み付けが0.9であることを示している。
また例えば、図4(B)における第6レコード目は、文書属性、意味概念及びプロパティは特に限定されず(図では「*」と示す)、何らかの意味概念と、そのプロパティとが同じ行にあるとき、重み付けを1.0であることを示している。
なお、評価ルール図4(A)及び(B)のレコードは、予め優先順位(例えば、図4では上から順に優先順位を高いものとする)を設定し、インスタンス評価部24は、優先順位が高い評価ルールに基づいてインスタンスの評価を行なうようにする。
またなお、図4(A)及び(B)に示す評価ルールは、図2に示すオントロジー定義部26の定義に対する一例である。又、評価ルール部27は、図4(A)又は(B)のいずれかのみを備えるようにしてもよい。例えば、図4(A)の評価ルールのみを用いて重み付けをしなくてもよい。
従業員データベース28は、企業ネットワーク内で管理される従業員データを格納したデータベースである。従業員データベース28は、ネットワークに接続可能であれば、サーバ2A内にあっても、又は図示しない別のサーバ内にあってもよい。
(A−2)第1の実施形態の動作
次に、第1の実施形態のキーワード特定システムの動作について図面を参照して説明する。
次に、第1の実施形態のキーワード特定システムの動作について図面を参照して説明する。
図5は、キーワード特定方法についての一連の処理を示すフローチャートであり、端末1に表示しているファイル中の単語を指定し、その指定した単語に関連する情報を端末1に表示する動作である。
まず、端末制御部11は、利用者操作により所定のファイル閲覧操作を受けて、利用者が指示したファイルを取得し、表示手段にファイルを表示する(S1)。このとき、端末1は、ファイルと共に、少なくともキーワードを抽出要求するためのキーワード抽出ボタンを表示する。
図6は、端末1のファイル表示画面例を示す。ここでは、議事録を表示した場合であり、ファイル62と共にキーワード抽出ボタン61も表示する。なお、以下では、図6に示す議事録を例として説明する。
利用者は、端末1に表示されているファイルを閲覧することができ、キーワード抽出ボタン61を押下すると、端末制御部1は、キーワード抽出要求と共に、閲覧しているファイルデータをサーバ2Aに転送する(S2)。なお、キーワード抽出ボタン61の出力やファイル送信は、マクロ機能等の既存の技術を利用して実現する。
サーバ2Aが端末1からファイルを受信すると、制御部21はファイルをキーワード抽出部22に与えてキーワード抽出を制御する。
キーワード抽出部22は、ファイルから、キーワードKj(j=1、2…、n)、それらの意味属性Cj及び出現位置pos(Kj)を抽出し、キーワード抽出結果として制御部21に返し、制御部21は、そのキーワード抽出結果をサーバ2A内の記憶部にIDを付与して保持させると共に、そのID及びキーワード抽出結果を端末1に返信する(S3)。これにより、端末1は、端末制御部11の制御により、キーワード抽出結果を表示する(S4)。
このとき、キーワード抽出部22は、例えば、図6に示すファイルに基づいて図7に示すようなキーワード抽出結果を出力する。
図7において、キーワードKjは、ファイルから抽出したキーワードである。ここで、抽出したキーワード(固有名詞)が、ある特定のキーワードと関連する場合、その特定のキーワードを明示するようにする。例えば、図6では、キーワード「佐藤」がキーワード「部長」に関連する。従って、例えば、図7に示すように、「佐藤」に対して階層化させて「部長」を明示する。
また、意味属性Cjは、上述したように、オントロジー定義部26に定義された意味概念あるいはプロパティヘのURIである。例えば、キーワード「佐藤」は、オントロジー定義部26の「姓(Person Name)」のプロパティ262に属す(図2参照)。従って、キーワード「佐藤」に対する意味属性Cjは、「姓」プロパティ262のURIを示す「http://myontology#Person_LName」となる。同様にして、キーワード「製品ABC」の意味属性CjはProduct Name(製品名)のプロパティ(図2に図示せず)を示し、キーワード「2004年10月22日」の意味属性CjはDate(日付)のプロパティ(図2に図示せず)を示す。
更に、出現位置pos(Kj)は、抽出キーワードのファイル中の出現位置であり、例えば、ファイル中での行L及び行内での位置Pとする。
キーワード抽出部22からのキーワード抽出結果を端末1に与えると、制御部21は、ファイルを文書分類部23に与え、当該ファイルの文書分類を制御する。そして、制御部21は、文書分類部23が分類した当該ファイルの文書属性を、サーバ2A内の記憶部(図示しない)に保持させる(S5)。
ここで、文書分類方法は、上述したように、種々の方法を適用できるが、例えば、本実施形態の場合、文書分類部23は、ファイル内にある「議事録」や「出席者」等のキーワードや、ファイルの形式、ファイル名などから、当該ファイルの属性は「議事録」であると判断する。そして、文書属性はオントロジー定義部26に定義された属性へのURIを示すので、文書分類部23は、オントロジー定義部26において定義された「議事録」のURI(http://myontology#Minutes)をサーバ2A内の記憶部に保持させる。
次に、キーワード抽出結果を表示している端末1は、利用者操作によりキーワードが選択されると、その選択されたキーワードKj、そのキーワードの意味属性Cj、出現位置pos(Kj)及びすべてのキーワード抽出結果のIDをサーバ2Aに送信する(S6)。
ここで、端末制御部11は、抽出されたキーワードが利用者に選択可能なように表示し(例えば、クリック可能なように色表示する)、また、キーワードKjの属性をハイパーリンク内の属性として保持させるようにする。
この端末制御部11によるキーワードの属性管理方法として、例えば、端末制御部11は、ハイパーリンク内でのキーワードKjの属性を、「<a href=http://intra.xxx.com/search?key=X+category=http://myontology#Y+ID=yyy>」と定義する。
ここで、「http://intra.xxx.com/search」は、サーバ2A内の検索エンジンに代表される情報収集プログラム(図1には図示しない)へのURIを示し、「X」がキーワードKjを示し、「http://myontology#Y」がキーワードの意味属性Cjを示し、「ID=yyy」はキーワード抽出結果のID指定を示す。
これにより、利用者が1つのキーワードをマウス等でクリックして選択すると、端末制御部11が当該キーワードとその意味属性、出現位置、および、キーワード抽出結果のIDをサーバ2Aに送信することができる。
次に、利用者により指定されたキーワード情報が端末1からサーバ2Aに与えられると、サーバ2Aの制御部21は、その指定されたキーワードの意味属性が「姓(Person Name)」に相当するものであるか否かを判断し(S7)、指定されたキーワードの意味属性が「姓」に相当しない場合に、そのキーワードの関連情報を検索して取得し、その関連情報を端末1に送信する(S8)。また、端末1は、受信した関連情報を表示する(S9)。
ここで、制御部21は、受信した指定されたキーワードの意味属性に基づいてオントロジー定義部26を検索する。これにより、制御部21は、オントロジー定義部26における当該キーワードの意味概念又はプロパティを知ることができる。また、キーワードの関連情報の検索は、ネットワークに接続するデータベースを利用することができ、例えば、企業内ネットワークやインターネット等から検索可能である。
例えば、利用者がキーワード「製品ABC」を指定した場合、制御部21は、受信した意味属性「http://myontology#Product_Name」から、オントロジー定義部26における当該キーワードのプロパティは「製品名(Product Name)」であると判断できる。従って、制御部21は、当該キーワードのプロパティが「姓(Person Name)」でないと判断し、キーワード「製品ABC」の関連情報を検索し、端末1に送信する。
一方、例えば、利用者がキーワード「山田」を指定した場合、制御部21は、受信した意味属性「http://myontology#Person_Name」であるから、オントロジー定義部26における当該キーワードのプロパティが「姓(Person Name)」であると判断できる。この場合、以下のようにして、複数のインスタンス候補を出力する。
S7において、指定されたキーワードの意味属性は「姓」に相当するものであると制御部21が判断すると、制御部21は、当該キーワードをインスタンス検索部25に与えて、インスタンスの検索を制御する。インスタンス検索部25は、従業員データベース28からキーワードが該当する従業員データを検索し、その検索結果をインスタンス候補Ii(i=1、2…、m)として制御部21に与える(S10)。
ここで、インスタンスの概念について図8を参照して説明する。図8において、意味概念261、プロパティ262の構造は図2に対応する。
インスタンスは、ある概念に属するデータの実体をいう。これを本実施形態のオントロジー定義部26と対応させると、図8に示すように、1つのインスタンス264は、ある意味概念261とinstanceOfという関係で接続され、オントロジー定義で定義された各プロパティ262に対するプロパティ値265を持つ。ただし、プロパティ値が埋まらないプロパティも存在する。
例えば、キーワード「山田」は「従業員」という意味概念に属す。そして、意味概念「従業員」に定義された、例えばプロパティ「姓」に「山田」、プロパティ「名」に「太郎」、プロパティ「電話番号」に「03−1234−5678」…というインスタンスがあることを意味する。
図9は、キーワード「山田」についてインスタンス検索部25が従業員データベース28から検索したインスタンス候補(検索結果)を示す図である。
図9において、横の列が各インスタンス候補、「姓」、「名」、「所属」等がプロパティであり、「山田」、「純一郎」、「社長」等が各インスタンス候補のプロパティの値を示している。また、空欄(例えば、各インスタンスの担当製品プロパティ)はプロパティ値が存在しないことを示している。
なお、図9では省略しているが、プロパティは、上位概念を含む意味概念に定義されたすべてのプロパティを意味する。
このようにして、キーワードを特定するための候補を出力すると共に、その候補の関連情報を出力できる。
その後、制御部21は、利用者から指定されたキーワードとその意味属性、出現位置、検索したインスタンス候補、保持していた文書属性、及び、指定されたIDで保持していたすべてのキーワードとその意味属性と出現位置を、インスタンス評価部25に送り、各インスタンス候補の評価を制御する。インスタンス評価部25は、各インスタンス候補について得点を求める(S11)。
ここで、インスタンス評価部24による得点の算出方法について図10を参照して説明する。
まず、インスタンス評価部24は、すべてのインスタンス候補Ii(i=1、2、…、m)についての得点を初期化(S(Ii)=0)する(S21)。
次に、インスタンス評価部24は、選択されたキーワードKsel以外の各キーワードKj(j=1、2、…、n)について、直接制約としての得点を求める(S22)。
つまり、インスタンス評価部24は、キーワードKjの意味属性Cjがインスタンス候補Iiのプロパティのうちあるプロパティのベースクラスとマッチし、かつ、キーワードKjがそのプロパティの値とマッチするか否かを判断する。
この条件を満たす場合に、インスタンス評価部24は、図4(A)の評価ルールに基づいて求めた基準点に、図4(B)の評価ルールに基づいて求めた重み付けを行ない、得点を算出する。
つまり、インスタンス評価部24は、評価ルール部27を参照し、意味概念「従業員Cemp」とキーワードKjの意味属性Cjに応じた基準点Sb(Csel、Cj)、及び、文書属性D、意味概念「従業員Cemp」、キーワードKjの意味属性Cj、「姓」の出現位置pos(Ksel)、キーワードKjの出現位置pos(Kj)に応じた重みづけW(Cemp、Cj、pos(Ksel)、pos(Kj))を求め、得点S(Ii)にSb(Cemp、Cj)*W(Cemp、Cj、pos(Ksel)、pos(Kj))を加算する。
例えば、指定されたキーワード「山田」以外のキーワード「開発部」の意味属性は「http://Myontology#SubOrganization_Name」であるからサブ組織名である(図7参照)。そして、候補の「所属」プロパティについてみると、その「所属」プロパティのベースクラスは、サブ組織名「http://Myontology#SubOrganization_Name」であるから、キーワード「開発部」の意味属性に一致する。
また、キーワード「開発部」は、候補「山田太郎」及び「山田三郎」の「所属」プロパティの値に一致する。
従って、インスタンス評価部24は、候補「山田太郎」及び「山田三郎」について、評価ルール27を参照して、意味概念「従業員」とプロパティ「所属」との関係に応じて求めた基準点0.5に、文書属性である「議事録」、姓「山田」の出現位置L=7、キーワード「開発部」の出現位置L=7から求めた重みづけ1.0をかけて得点を算出する。
同様に、インスタンス評価部24は、他の全てのキーワード「製品ABC開発会議」、「製品ABC」、「部長」、「課長」、「Xモジュール」等についても基準点、重みづけを求め、得点に加算する。ただし、「部長」は「佐藤」と関連しており、「山田」の処理においては得点を0とする。
各キーワードKjに対する各インスタンス候補Iiの得点(基準点、重みづけ)を図11に示す。図11において、例えば、0.5*1.0は基準点0.5、重みづけ1.0を示している。
さらに、インスタンス評価部24は、各キーワードKjから推論した制約についても得点を求める(S23)。
ここで、推論には、オントロジー定義上での推論と、他文書から抽出した制約による推論がある。
オントロジー定義上の推論とは、組織名を伴わずに列挙される人名は同じ組織に属しているに違いないという推測のもと、同一行あるいは前後行に出現した意味属性が人名であるキーワードから組織名を推論するものである。
図12は、オントロジー定義上の推論のモデルを説明する概念図である。図12において、姓「佐藤」は「山田」と同一行に出現し、「佐藤」に対して従業員データベース28から従業員名および組織名を検索すると、開発部の佐藤一郎と総務部の佐藤二郎が検索され、「開発部」および「総務部」を「山田」の所属プロパティの制約と推論している。
ここでは、ひとりの人名から推論しているが、複数の人名の組織名を検索してANDをとる(すべての人名に共通する組織名)、あるいは最も多く共通する組織名を所属プロパティの制約とすることもできる。
また、他文書から抽出した制約による推論とは、文書内キーワードKjが他文書に出現し、他文書内でキーワードKjに関連するキーワードXを制約として利用する推論である。
図13は、他文書から抽出した制約による推論のモデルを説明する概念図である。図13において、「山田」と「製品ABC」は有意な距離で出現し、別文書内に「山田太郎」と「製品ABC」が有意な距離で出現することから、「太郎」を「山田」のプロパティ「名」の制約として推論している。
インスタンス評価部24は、推論した制約に対する得点について、推論した意味属性Cxが制約として作用する際の得点Sb(Cemp、Cx)*W(Cemp、Cx、pos(Ksel)、pos(Kj))に、推論による重みづけSb(Cj、Cx)*W(Cj、Cx、pos(Kj)、pos(X))を積算した値をS(Ii)に加算する。
ただし、オントロジー定義上の推論の場合は、W(Cj、Cx、Pos(Kj)、Pos(X))の値を、例えば、1/(同一行あるいは前後行に出現した意味属性が人名であるキーワード数)とする。
図14は、インスタンス評価部24により求められた、各キーワードKjに対して推論した制約に対する得点(基準点、重みづけ)を示す。図14において、例えば、「山田太郎」に対する「製品ABC」の得点1.0*0.9*0.3*1.0は、1.0*0.9が推論した制約としての「太郎」に対する得点(基準点と重みづけ)、0.3*1.0が推論に利用した製品名(「製品ABC」)と人名(「山田太郎」)の関係に対する得点(基準点と重みづけ)である。
以上で、インスタンス評価部24による得点の算出は終了であり、インスタンス評価部25は、各インスタンス候補の得点を制御部21に返す。
次に、制御部21は、各インスタンス候補の得点の中で最高点を求め、最高点から一定範囲Sdist内の得点のインスタンス候補を求める(S12)。そのインスタンス候補の個数が一定値N以下の場合、例えば、制御部21は、そのインスタンス候補を得点順に並び替え、各プロパティ、プロパティ値を従業員情報として端末1に送信する(S13)。
インスタンス候補の個数が一定値Nを越える場合は、例えば、制御部21は、絞りきれなかった旨のメッセージと、得点順に並び替えたすべてのインスタンス候補のプロパティ、プロパティ値を従業員情報として端末1に送信する(S15)。
図15は、各インスタンス候補の得点合計例である。図15において、最高点からの一定範囲Sdist=0.3、インスタンス候補数N=5とすると、最高得点は「山田太郎」の1.22、第2候補以下は得点が0.3以上離れているから、この場合のインスタンス候補は「山田太郎」1件となる。したがって、制御部21は、「山田太郎」の従業員情報だけを端末1に送信する。
端末1の端末制御部11は、サーバ2Aから受信した従業員情報を出力する(S14、S16)。その際、複数候補がある場合は、端末1は選択ボタンを表示し、利用者に従業員を特定させた上で、例えば、電話やメール、PC会議等のアプリケーションを呼び出すことができる。
(A−3)第1の実施形態の効果
以上のように、第1の実施形態によれば、インスタンス評価部25が、オントロジー定義部26及び評価ルール部27を参照して、文書分類、キーワードの意味情報、キーワードの出現位置から、各インスタンス候補の得点を求めることにより、文書内で記されている人名をある程度特定することができる。
以上のように、第1の実施形態によれば、インスタンス評価部25が、オントロジー定義部26及び評価ルール部27を参照して、文書分類、キーワードの意味情報、キーワードの出現位置から、各インスタンス候補の得点を求めることにより、文書内で記されている人名をある程度特定することができる。
また、第1の実施形態のキーワード特定システムを情報収集システムに適用することで、特定した人名に関する所望情報を少ない操作で収集することができる。
また、第1の実施形態によれば、インスタンス評価部25は、キーワードが直接制約とならない場合でも、オントロジー定義上の推論、及び又は、他文書から抽出した制約による推論を行なうことにより、精度をさらに向上することができる。
さらに、イントラネット文書、従業員データベースによる評価実験では、日本人に多い姓「山田」、「佐藤」、「鈴木」、「高橋」、「田中」について、姓だけで出現する文書87文書に対して、同一行あるいは前後行の組織名、役職名、電話番号、メールアドレスだけから従業員を特定できる場合が46.0%であり、第1の実施形態によれば、文書分類、キーワードの意味情報、キーワードの出現位置、さらに、オントロジー定義上の推論、及び他文書から抽出した制約による推論を行なうこと各インスタンス候補の得点を求めることにより従業員を特定できる場合が73.6%であった。
(B)第2の実施形態
次に、本発明のキーワード特定装置、キーワード特定方法及びキーワード特定プログラムの第2の実施形態について図面を参照して説明する。
次に、本発明のキーワード特定装置、キーワード特定方法及びキーワード特定プログラムの第2の実施形態について図面を参照して説明する。
第2の実施形態は、入力されたキーワードに関連する情報を検索する情報検索システムに、キーワード特定システムを適用した場合であって、地名をキーワードとしたときに、どの地名であるかを特定する方法について説明する
(B−1)第2の実施形態の構成
図16は、第2の実施形態に係るキーワード特定システムの構成とその機能とを概略的に示すブロック図である。
(B−1)第2の実施形態の構成
図16は、第2の実施形態に係るキーワード特定システムの構成とその機能とを概略的に示すブロック図である。
図16に示すように、第2の実施形態のキーワード特定システム200は、ネットワークに接続可能な、端末1、サーバ2B、検索エンジン3を備える。なお、ネットワークは、企業内ネットワーク(イントラ)やインターネット等にも適用できる。
なお、図16において、図1に示す構成要件と同一・対応するものについては対応する符号を付して示す。また、第1の実施形態で説明した構成要件の機能の詳細な説明は省略する。
端末1は、第1の実施形態と同様の機能を実現するユーザ端末である。
検索エンジン3は、サーバ2Bからキーワードを与えられ、ネットワークからキーワードに関する情報を収集し、収集した情報の各ページへのリンクを、サーバ2Bに与えるものである。なお、検索エンジン3は、従来の情報収集システムイを適用することができる。またサーバ2Bが検索エンジン3を備えるようにしてもよい。
サーバ2Bは、利用者により入力された端末1からキーワードを受け取り、そのキーワードが属する意味概念に定義されたプロパティにおいてキーワードと同じインスタンスを検索するインスタンス検索機能、キーワード特定機能、ページ提示機能などを備える。
第2の実施形態のサーバ2Bは、第1の実施形態で説明した従業員データベース28の代わりにインスタンス保持部29を備え、インスタンス保持部29を備えることによるインスタンス検索部25の機能が第1の実施形態と異なる。
インスタンス保持部29は、オントロジー定義部26を参照しており、ある意味定義の実体についての記述を保持するものである。
図17は、インスタンス保持部29に保持されるインスタンスのモデルを示す概念図である。
本実施形態は地名とキーワードとする場合であるため、図17に示すように、オントロジー定義部26は、意味概念「場所」が、「地名」、「地図」、「交通手段」、「所在地(市)」、「所在地(県)」等をプロパティとして有する。また、インスタンス保持部29のインスタンスは、各プロパティに対するプロパティ値を有する。例えば、プロパティ「地名」は「元町」、プロパティ「地図」は「元町」の地図を示すURI「http://…」、プロパティ「交通手段」は「みなとみらい線…」、プロパティ「市」は「横浜市」、プロパティ「県」は「神奈川県」等がある。
(B−2)第2の実施形態の動作
次に、第2の実施形態のキーワード特定システム200の動作について図18を参照して説明する。
次に、第2の実施形態のキーワード特定システム200の動作について図18を参照して説明する。
まず、端末1内の端末制御部11は、キーワードを入力するためのテキスト枠を端末1の表示手段(図示しない)に表示する(S21)。これにより、利用者はキーワードを入力することができ、端末制御部11は、入力されたキーワードをサーバ2Bに送信する(S22)。
例えば、利用者は、「元町」をキーワードとして入力し、端末1は、入力されたキーワード「元町」をサーバ2Bに送信する。
サーバ2Bがキーワードを受信すると、制御部21の制御により、インスタンス検索部25は、受信したキーワードに関するインスタンスを、インスタンス保持部29から検索し、その検索したキーワードに関するインスタンスを端末1に返信する(S23)。
このとき、インスタンス検索部25は、インスタンス保持部29からベースクラスがNameであるプロパティがキーワードと一致するインスタンスを返信する。例えば、入力キーワード「元町」に対して、意味概念「Name」のプロパティ「地名」からインスタンスが「元町」となるものを検索し、その結果、例えば、横浜、神戸、函館の「元町」についてのインスタンス(各プロパティに対するプロパティ値)を返信する。
例えば、キーワードのインスタンスは、プロパティを「地名」、「地図」、「交通手段」、「市」、「県」、…とするときの各プロパティ値「元町」、「http://…」、「みなとみらい線…」、「横浜市」、「神奈川県」、…である。
端末1は、サーバ2Bから受信したキーワードに対する各インスタンス及び利用者に選択させる選択ボタンを表示する(S24)。
これにより、利用者は、選択ボタンを用いて、表示されたインスタンス中から意図するインスタンスを選択し、端末制御部11は、選択されたインスタンスをサーバ2Bに送信する(S25)。
例えば、利用者は、表示された「元町」のインスタンスに基づいて、「みなとみらい線…、横浜市、神奈川県」に関連する「元町」を選択したものとする。
サーバ2Bは、制御部21が選択されたインスタンスを保持し、キーワードを検索エンジン3に送信する(S26)。このとき、検索エンジン3は、イントラネットあるいはインターネット等からキーワードに関する情報を収集し、その結果として各ページへのリンクをサーバ2Bに返信する。ここでの結果は、横浜、神戸、函館に関する情報が混在している。
サーバ2Bは、検索エンジン3による結果を受信すると、インスタンス評価部24は、制御部21の制御により、リンク先の各ページに対して、ページ内のキーワードがどのインスタンスに関連するかを特定する(S27)。
ここでの特定の方法は、第1の実施形態の図10で説明したインスタンス評価方法と対応する方法が適用できる。
すなわち、図10では意味概念「従業員Cemp」として説明したが、第2の実施形態では意味概念「地名Cplace」として同様の処理ができる。勿論、これに応じて、評価ルールは予め定義され、インスタンス評価部24は、この評価ルールを用いて各インスタンス候補の得点を算出し、最高得点のインスタンス候補が指定され、最高得点のインスタンス候補のインスタンスと、利用者に選択されたインスタンスとが同じ場合には、そのリンク先のページ情報をインスタンス保持部29に保持する。
例えば、インスタンス評価部24は、利用者により選択された横浜の元町に関連する1又は複数のページのリンクを、検索エンジン3から受け取る。インスタンス評価部24は、その1又は複数のページにおいて「元町」についてのインスタンス評価を行う。そして、インスタンス評価部24は、最高得点のインスタンス候補を特定し、その最高得点のインスタンス候補のインスタンスが「みなとみらい線、…、横浜市、神奈川県、…」というインスタンスと一致するときに、その横浜の元町に関するページだけを保持する。
その後、サーバ2Bの制御部21は、保持したページの情報を端末1に送信する(S28)。そして、端末1は、端末制御部11の制御により、サーバ2Bから受信したページの情報を表示する(S29)。これにより、利用者は、端末1に表示された情報を閲覧することができる。
(B−3)第2の実施形態の効果
以上のように、第2の実施形態によれば、従業員データベース28に代わってサーバ2B内がインスタンス保持部29を有し、また、ネットワークを介して検索エンジン3を接続し、利用者はキーワードを指定すると、インスタンス保持部29からキーワードに関連するインスタンスを検索して、利用者に表示し、利用者が選択したインスタンスに対して、検索エンジンの検索結果である各ページ内のキーワードがどのインスタンスに関連するかを特定し、選択したインスタンスに関連するものだけを出力することにより、従来の検索エンジンでは混在していた同じキーワードに対する異なる実体のページから、指定したインスタンスに関連するページだけを選択して出力することが可能になり、情報を効率的に収集できるという効果が得られる。
以上のように、第2の実施形態によれば、従業員データベース28に代わってサーバ2B内がインスタンス保持部29を有し、また、ネットワークを介して検索エンジン3を接続し、利用者はキーワードを指定すると、インスタンス保持部29からキーワードに関連するインスタンスを検索して、利用者に表示し、利用者が選択したインスタンスに対して、検索エンジンの検索結果である各ページ内のキーワードがどのインスタンスに関連するかを特定し、選択したインスタンスに関連するものだけを出力することにより、従来の検索エンジンでは混在していた同じキーワードに対する異なる実体のページから、指定したインスタンスに関連するページだけを選択して出力することが可能になり、情報を効率的に収集できるという効果が得られる。
(C)他の実施形態
(C−1)第1の実施形態では、文書内の人名に対する特定方法を説明したが、第2の実施形態で説明したような地名あるいは駅名に関するオントロジーを定義し、地名あるいは駅名に対して同様の特定処理を行なうことができる。このようにしたキーワード特定システムを情報収集システムに適用することで、企業等の交通案内ページの駅名(例:「元町駅」)を指定すると、ページ内の住所、路線名、地名等から、駅名の候補(「元町・中華街駅」「元町駅(兵庫)」「元町駅(北海道)」)を選択することなく、経路案内をすることも可能である。
(C−1)第1の実施形態では、文書内の人名に対する特定方法を説明したが、第2の実施形態で説明したような地名あるいは駅名に関するオントロジーを定義し、地名あるいは駅名に対して同様の特定処理を行なうことができる。このようにしたキーワード特定システムを情報収集システムに適用することで、企業等の交通案内ページの駅名(例:「元町駅」)を指定すると、ページ内の住所、路線名、地名等から、駅名の候補(「元町・中華街駅」「元町駅(兵庫)」「元町駅(北海道)」)を選択することなく、経路案内をすることも可能である。
(C−2)第1及び第2の実施形態で説明したサーバ2A及び2Bが備える機能は、同一サーバ上に配置されることなく、ネットワーク上で分散処理可能なように配置されるようにしてもよい。
(C−3)第1の実施形態では人名、特に「姓」を例に挙げて説明したが、例えば山田(陽)など同一姓の人物間を区別する表記であっても、オントロジーの定義を変化させることで特定させることが可能である。この場合、プロパティ「姓」のプロパティの値が「山田」であり、プロパティ「名」のプロパティの値が「(陽)」となる。
また、第1及び第2の実施形態は、人名、地名、組織名などの略称、俗称、通称などにも適用可能である。
(C−4)図4に評価ルールの構成例を示したが、このような構成例に限定されることはなく、例えば時間的な関係をルールの構成要素としてもよい。
例えば、図4(B)に示す評価ルールの項目として更に「日付」及び「日付の出現位置」の項目を有し、例えば「所属」の変更時期を制約する期限を「日付」で管理する。そして、出現位置が適正な文書中の日付が「日付」の期限以降である場合、「所属」の重み付けを大きくするルールにするようにしてもよい。
(C−5)図11、図14及び図15に示すインスタンスの得点の算出を、各インスタンス間の得点の総和として説明したが、得点算出は総和に限定されず、たとえば、各インスタンスの得点に所定の関数値を乗算して求めるようにしてもよい。
(C−6)図13で説明した他文書から抽出した制約による推論を行なった後、制御部21は、インスタンス同士の関係に推論結果に応じて、当該インスタンス間の関係に係る配点又は重み付けを変更するようにしてもよい。
21…制御部、22…キーワード抽出部、23…文書分類部、24…インスタンス評価部、25…インスタンス検索部、26…オントロジー定義部、27…評価ルール部、28…従業員データベース、29…インスタンス保持部。
Claims (7)
- 指定された語と同一の意味概念上の複数のインスタンスから、上記指定された語の実体に相当するインスタンスを特定するキーワード特定装置であって、
1又は複数の意味概念と、上記各意味概念に対して1又は複数のプロパティと、上記各プロパティに対してベースクラスとする1つの意味概念とを定義したオントロジー定義手段と、
上記各意味概念と、上記各意味概念に対して定義された上記各プロパティとの関係の強さの度合いを予め設定した評価ルールを有する評価ルール手段と、
外部からの指定を取り込み、指定された文書から、少なくとも、指定された語を含む1以上のキーワード及び上記各キーワードの上記意味概念又は上記プロパティを示す属性情報を抽出するキーワード抽出手段と、
複数の単語と、それら各単語に関連する1以上の関連情報とを対応させて記憶する記憶手段と、
上記指定された語と一致する1又は複数の単語をインスタンス候補として上記記憶手段から検索するインスタンス検索手段と、
上記各関連情報の意味概念が上記各キーワードの意味概念に一致し、かつ、上記各関連情報が上記各キーワードに一致する上記各インスタンス候補について、上記評価ルールに従って評価し、その評価結果に基づいて、上記指定された語の実体に相当するインスタンスを特定するインスタンス特定手段と
を備えることを特徴とするキーワード特定装置。 - 上記指定された文書の属性を求める文書分類手段を備え、
上記評価ルールが、上記各意味概念と上記各プロパティとの関係の強さの度合いに、上記文書の文書属性情報と、上記各意味概念及び上記各プロパティの出現位置関係とに応じた重み付けした評価ルールをも有し、
上記キーワード抽出手段が、抽出した上記各キーワードの上記文書内における出現位置をも求める
ことを特徴とする請求項1に記載のキーワード特定装置。 - 上記インスタンス特定手段が、上記各インスタンス候補に対して求めた評価得点の高いものから所定範囲のものを上記指定された語の実体に相当するインスタンスの候補とすることを特徴とする請求項1又は2に記載のキーワード特定装置。
- 上記インスタンス特定手段が、オントロジー定義上での推論により求めた得点をも評価得点とすることを特徴とする請求項1〜3のいずれかに記載のキーワード特定装置。
- 上記インスタンス特定手段が、他文書から抽出した制約による推論により求めた得点をも評価得点とすることを特徴とする請求項1〜4のいずれかに記載のキーワード特定装置。
- 指定された語と同一の意味概念上の複数のインスタンスから、上記指定された語の実体に相当するインスタンスを特定するキーワード特定方法であって、
1又は複数の意味概念と、上記各意味概念に対して1又は複数のプロパティと、上記各プロパティに対してベースクラスとする1つの意味概念とを定義したオントロジー定義手段と、
上記各意味概念と、上記各意味概念に対して定義された上記各プロパティとの関係の強さの度合いを予め設定した評価ルールを有する評価ルール手段と
を備え、
キーワード抽出手段が、外部からの指定を取り込み、指定された文書から、少なくとも、指定された語を含む1以上のキーワード及び上記各キーワードの上記意味概念又は上記プロパティを示す属性情報を抽出し、
記憶手段が、複数の単語と、それら各単語に関連する1以上の関連情報とを対応させて記憶し、
インスタンス検索手段が、上記指定された語と一致する1又は複数の単語をインスタンス候補として上記記憶手段から検索し、
インスタンス特定手段が、上記各関連情報の意味概念が上記各キーワードの意味概念に一致し、かつ、上記各関連情報が上記各キーワードに一致する上記各インスタンス候補について、上記評価ルールに従って評価し、その評価結果に基づいて、上記指定された語の実体に相当するインスタンスを特定する
ことを特徴とするキーワード特定方法。 - 1又は複数の意味概念と、上記各意味概念に対して1又は複数のプロパティと、上記各プロパティに対してベースクラスとする1つの意味概念とを定義したオントロジー定義手段と、
上記各意味概念と、上記各意味概念に対して定義された上記各プロパティとの関係の強さの度合いを予め設定した評価ルールを有する評価ルール手段と
を備え、
指定された語と同一の意味概念上の複数のインスタンスから、上記指定された語の実体に相当するインスタンスを特定するキーワード特定装置に、
外部からの指定を取り込み、指定された文書から、少なくとも、指定された語を含む1以上のキーワード及び上記各キーワードの上記意味概念又は上記プロパティを示す属性情報を抽出するキーワード抽出手段、
複数の単語と、それら各単語に関連する1以上の関連情報とを対応させて記憶する記憶手段、
上記指定された語と一致する1又は複数の単語をインスタンス候補として上記記憶手段から検索するインスタンス検索手段、
上記各関連情報の意味概念が上記各キーワードの意味概念に一致し、かつ、上記各関連情報が上記各キーワードに一致する上記各インスタンス候補について、上記評価ルールに従って評価し、その評価結果に基づいて、上記指定された語の実体に相当するインスタンスを特定するインスタンス特定手段
として機能させるためのキーワード特定プログラム。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
JP2004257585A JP2006072844A (ja) | 2004-09-03 | 2004-09-03 | キーワード特定装置、キーワード特定方法及びキーワード特定プログラム |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
JP2004257585A JP2006072844A (ja) | 2004-09-03 | 2004-09-03 | キーワード特定装置、キーワード特定方法及びキーワード特定プログラム |
Publications (1)
Publication Number | Publication Date |
---|---|
JP2006072844A true JP2006072844A (ja) | 2006-03-16 |
Family
ID=36153385
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
JP2004257585A Pending JP2006072844A (ja) | 2004-09-03 | 2004-09-03 | キーワード特定装置、キーワード特定方法及びキーワード特定プログラム |
Country Status (1)
Country | Link |
---|---|
JP (1) | JP2006072844A (ja) |
Cited By (5)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
JP2007249907A (ja) * | 2006-03-20 | 2007-09-27 | Nippon Hoso Kyokai <Nhk> | 知識メタデータ生成装置及び知識メタデータ生成プログラム |
JP2008033931A (ja) * | 2006-07-26 | 2008-02-14 | Xerox Corp | テキストを追補する方法、クエリーに応答してテキストを取得する方法、およびシステム |
JP2008135023A (ja) * | 2006-11-07 | 2008-06-12 | Fast Search & Transfer Asa | 情報アクセスおよび検索におけるレレバンス重み付けナビゲーション |
JP2008262383A (ja) * | 2007-04-12 | 2008-10-30 | Fujitsu Ltd | 文書データ表示処理プログラム,処理方法,処理装置,および処理システム |
JP2021149301A (ja) * | 2020-03-17 | 2021-09-27 | 株式会社東芝 | 情報処理装置、情報処理方法、およびプログラム |
-
2004
- 2004-09-03 JP JP2004257585A patent/JP2006072844A/ja active Pending
Cited By (8)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
JP2007249907A (ja) * | 2006-03-20 | 2007-09-27 | Nippon Hoso Kyokai <Nhk> | 知識メタデータ生成装置及び知識メタデータ生成プログラム |
JP4709671B2 (ja) * | 2006-03-20 | 2011-06-22 | 日本放送協会 | 知識メタデータ生成装置及び知識メタデータ生成プログラム |
JP2008033931A (ja) * | 2006-07-26 | 2008-02-14 | Xerox Corp | テキストを追補する方法、クエリーに応答してテキストを取得する方法、およびシステム |
US8595245B2 (en) | 2006-07-26 | 2013-11-26 | Xerox Corporation | Reference resolution for text enrichment and normalization in mining mixed data |
JP2008135023A (ja) * | 2006-11-07 | 2008-06-12 | Fast Search & Transfer Asa | 情報アクセスおよび検索におけるレレバンス重み付けナビゲーション |
JP2008262383A (ja) * | 2007-04-12 | 2008-10-30 | Fujitsu Ltd | 文書データ表示処理プログラム,処理方法,処理装置,および処理システム |
JP2021149301A (ja) * | 2020-03-17 | 2021-09-27 | 株式会社東芝 | 情報処理装置、情報処理方法、およびプログラム |
JP7352501B2 (ja) | 2020-03-17 | 2023-09-28 | 株式会社東芝 | 情報処理装置、情報処理方法、およびプログラム |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
US8135669B2 (en) | Information access with usage-driven metadata feedback | |
US20070055657A1 (en) | System for generating and managing context information | |
KR20100057087A (ko) | 검색 결과들의 커스텀화 | |
CN109614504A (zh) | 一种互联网电子书的管理系统及方法 | |
JP3501799B2 (ja) | 情報検索支援装置、コンピュータプログラム、プログラム格納媒体 | |
JP2002351916A (ja) | Web情報検索装置、web情報検索方法及びその方法をコンピュータに実行させるプログラム | |
JP5197680B2 (ja) | 特徴情報作成装置、方法及びプログラム | |
JPWO2007046445A1 (ja) | 検索装置及び検索方法 | |
JP6653169B2 (ja) | キーワード抽出装置、コンテンツ生成システム、キーワード抽出方法、およびプログラム | |
KR101864401B1 (ko) | 전통문화 융복합 지원을 위한 디지털 연표 표출 시스템 | |
JP2010146366A (ja) | 情報提供サーバ | |
KR100925294B1 (ko) | 정보의 태그 데이터와 큐브 구조체를 이용하는 검색 시스템및 검색 방법 | |
KR101122737B1 (ko) | 지식노드 연결구조를 생성하기 위한 검색 데이터베이스 구축 장치 및 방법 | |
JP2001188802A (ja) | 情報検索装置及び情報検索方法 | |
JP4430598B2 (ja) | 情報共有システムおよび情報共有方法 | |
KR20200014589A (ko) | 지역 기반 아이템 추천 장치 및 방법 | |
JP4057962B2 (ja) | 質問応答装置、質問応答方法及びプログラム | |
JP2006072844A (ja) | キーワード特定装置、キーワード特定方法及びキーワード特定プログラム | |
Carmel et al. | Entity oriented search and exploration for cultural heritage collections: the EU cultura project | |
JP2013045182A (ja) | 情報検索装置及び方法及びプログラム | |
KR20080028031A (ko) | 키워드 및 키워드에 관련된 각종 콘텐츠를 자동으로추출하고 디스플레이하는 시스템 및 방법 | |
JP4464713B2 (ja) | 支援サーバ、支援システム及び支援方法 | |
JP3984263B2 (ja) | 地図情報システム連動サーチエンジンサーバーシステム。 | |
KR102279125B1 (ko) | 취향필터에 기반한 추천 정보 제공 단말 및 장치 | |
KR20160119738A (ko) | 지능형 정보 추천 시스템, 방법 및 그에 대한 기록매체 |