JP2000112953A - 文献検索方法、及びそのシステム - Google Patents
文献検索方法、及びそのシステムInfo
- Publication number
- JP2000112953A JP2000112953A JP10278389A JP27838998A JP2000112953A JP 2000112953 A JP2000112953 A JP 2000112953A JP 10278389 A JP10278389 A JP 10278389A JP 27838998 A JP27838998 A JP 27838998A JP 2000112953 A JP2000112953 A JP 2000112953A
- Authority
- JP
- Japan
- Prior art keywords
- index
- document
- search
- user
- matching
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Pending
Links
Landscapes
- Information Retrieval, Db Structures And Fs Structures Therefor (AREA)
Abstract
(57)【要約】
【課題】 検索の精度を高く維持させつつ、再現率を向
上させられるようにする。 【解決手段】 コンピュータ1は、データベース3から
特許文献(一次情報)を読み出し、書誌的事項や索引語
等の二次情報を抽出して補助記憶装置7に記憶させる。
ユーザは、表示装置2を見ながら、キーボード4やポイ
ンティングデバイス5を用いて検索式を入力する。その
検索式で論理和近接演算子によって索引語の共出現の仕
方が規定されていると、コンピュータ1は、その演算子
で指定された文章範囲を照合単位として、入力された索
引語を文献から抽出した索引語と照合する。その結果、
元々一致すべきと定めた数の索引語、及びユーザが一致
すべきと別に指定した索引語が共に一致した索引語を抽
出した文献を、少なくとも適合文献として選択する。
上させられるようにする。 【解決手段】 コンピュータ1は、データベース3から
特許文献(一次情報)を読み出し、書誌的事項や索引語
等の二次情報を抽出して補助記憶装置7に記憶させる。
ユーザは、表示装置2を見ながら、キーボード4やポイ
ンティングデバイス5を用いて検索式を入力する。その
検索式で論理和近接演算子によって索引語の共出現の仕
方が規定されていると、コンピュータ1は、その演算子
で指定された文章範囲を照合単位として、入力された索
引語を文献から抽出した索引語と照合する。その結果、
元々一致すべきと定めた数の索引語、及びユーザが一致
すべきと別に指定した索引語が共に一致した索引語を抽
出した文献を、少なくとも適合文献として選択する。
Description
【0001】
【発明の属する技術分野】本発明は、多くの文献のなか
からユーザが所望する情報が記述されている適合文献を
検索するための技術に関する。
からユーザが所望する情報が記述されている適合文献を
検索するための技術に関する。
【0002】
【従来の技術】今日では、情報化社会を迎えたこともあ
って、情報の重要性が非常に高まっている。様々な活動
を行うためには、適切な情報を入手し、それを効果的、
且つ効率的に活用しなければならなくなっている。
って、情報の重要性が非常に高まっている。様々な活動
を行うためには、適切な情報を入手し、それを効果的、
且つ効率的に活用しなければならなくなっている。
【0003】例えば、技術文献は、技術動向調査や研究
開発期間の短縮化といった観点から必須の情報である。
しかし、特許文献(公開公報や公告公報)が日本国内だ
けでも年間に50〜60万件が発行されていることから
も明らかなように、技術文献の量は非常に膨大である。
その特許文献は、最新の技術情報が開示されているとい
う以外に、大型化・多発化する特許係争事件を未然に防
止するという意味からも非常に重要な情報である。その
ため、膨大な情報のなかから重要な情報を選択する情報
(文献)検索の重要性も非常に高まってきている。
開発期間の短縮化といった観点から必須の情報である。
しかし、特許文献(公開公報や公告公報)が日本国内だ
けでも年間に50〜60万件が発行されていることから
も明らかなように、技術文献の量は非常に膨大である。
その特許文献は、最新の技術情報が開示されているとい
う以外に、大型化・多発化する特許係争事件を未然に防
止するという意味からも非常に重要な情報である。その
ため、膨大な情報のなかから重要な情報を選択する情報
(文献)検索の重要性も非常に高まってきている。
【0004】
【発明が解決しようとする課題】文献検索は、索引語
(キーワード)を抽出した文献のなかで、ユーザ(情報
要求者、オペレータ、或いは検索代行者)が入力した検
索式中の全ての索引語が指定された論理関係で存在して
いる文献を適合文献として検索(選択)することで行わ
れている。
(キーワード)を抽出した文献のなかで、ユーザ(情報
要求者、オペレータ、或いは検索代行者)が入力した検
索式中の全ての索引語が指定された論理関係で存在して
いる文献を適合文献として検索(選択)することで行わ
れている。
【0005】その検索式は、普通、使用する索引語を決
定し、その決定した索引語間の関係を、演算子を用いて
規定することで作成される。その演算子の種類は、大別
して、論理(ブール)演算子、近接演算子、及び比較演
算子等に分けることができる。ここで、論理演算子は複
数の索引語間の共出現関係を規定する演算子、近接演算
子は索引語の共出現の仕方を規定する演算子である。最
後の比較演算子は索引語の範囲を指定する演算子であ
り、検索の範囲を限定したいときなどに使用される。
定し、その決定した索引語間の関係を、演算子を用いて
規定することで作成される。その演算子の種類は、大別
して、論理(ブール)演算子、近接演算子、及び比較演
算子等に分けることができる。ここで、論理演算子は複
数の索引語間の共出現関係を規定する演算子、近接演算
子は索引語の共出現の仕方を規定する演算子である。最
後の比較演算子は索引語の範囲を指定する演算子であ
り、検索の範囲を限定したいときなどに使用される。
【0006】上記近接演算子は、場所的に近接して存在
する複数の索引語間には概念的なつながりがあるとの前
提に基づいて導入された演算子であり、それらの索引語
が共に出現する場所の範囲を指定するようになってい
る。その近接演算子を検索式中に用いて、複数の索引語
が共出現する範囲、その順序等を規定することにより、
検索の精度を高めることが可能である。
する複数の索引語間には概念的なつながりがあるとの前
提に基づいて導入された演算子であり、それらの索引語
が共に出現する場所の範囲を指定するようになってい
る。その近接演算子を検索式中に用いて、複数の索引語
が共出現する範囲、その順序等を規定することにより、
検索の精度を高めることが可能である。
【0007】しかし、索引語は、ある概念を間接的に表
現するものであり、概念と索引語の対応関係は通常は多
対多である。索引語から概念を一意的に特定することは
普通はできない。従来の文献検索(システム)で導入さ
れている近接演算子は、基本的に複数(二つ)の索引語
が共に出現する場所の範囲を単に規定しているだけであ
る。このため、近接演算子を検索式に用いた場合、検索
の精度を向上させる一方では、複数の索引語での検索範
囲を相乗的に狭める方向に作用して、ユーザにとって有
用な適合文献の検索もれを増加させる、即ち再現率を低
下させるという問題点があった。
現するものであり、概念と索引語の対応関係は通常は多
対多である。索引語から概念を一意的に特定することは
普通はできない。従来の文献検索(システム)で導入さ
れている近接演算子は、基本的に複数(二つ)の索引語
が共に出現する場所の範囲を単に規定しているだけであ
る。このため、近接演算子を検索式に用いた場合、検索
の精度を向上させる一方では、複数の索引語での検索範
囲を相乗的に狭める方向に作用して、ユーザにとって有
用な適合文献の検索もれを増加させる、即ち再現率を低
下させるという問題点があった。
【0008】本発明の課題は、検索の精度を高く維持さ
せつつ、再現率を向上させられるようにすることにあ
る。
せつつ、再現率を向上させられるようにすることにあ
る。
【0009】
【課題を解決するための手段】本発明の文献検索方法
は、ユーザにより入力された索引語を文献から抽出した
索引語と照合することにより適合文献を検索するために
用いられることを前提する方法であって、予め定めた文
章範囲に限定して照合される索引語をユーザが複数、検
索条件として指定した場合に、該複数の索引語を、文献
から抽出された文章範囲に出現した索引語と照合し、索
引語間の照合により、複数の索引語のなかで予め定めた
規則から特定される索引語が少なくとも一致した索引語
が抽出された文献を、少なくとも適合文献として選択す
る。
は、ユーザにより入力された索引語を文献から抽出した
索引語と照合することにより適合文献を検索するために
用いられることを前提する方法であって、予め定めた文
章範囲に限定して照合される索引語をユーザが複数、検
索条件として指定した場合に、該複数の索引語を、文献
から抽出された文章範囲に出現した索引語と照合し、索
引語間の照合により、複数の索引語のなかで予め定めた
規則から特定される索引語が少なくとも一致した索引語
が抽出された文献を、少なくとも適合文献として選択す
る。
【0010】なお、上記の方法において、文章範囲は、
予め複数用意した選択肢のなかからユーザに選択させる
ことにより定めた範囲である、ことが望ましい。また、
規則としては、複数の索引語のなかで文献から抽出され
た索引語と少なくとも一致すべき索引語をユーザに指定
させる、或いは/及び、複数の索引語のなかで文献から
抽出された索引語と位置関係を含めて一致すべき索引語
をユーザに指定させる、ことが望ましい。その位置関係
としては、文章範囲内で2つ以上の索引語が出現する順
序をユーザに指定可能とさせる、ことが望ましい。上記
選択肢は、少なくとも、1つのセンテンス、及び段落を
含む、ことが望ましい。
予め複数用意した選択肢のなかからユーザに選択させる
ことにより定めた範囲である、ことが望ましい。また、
規則としては、複数の索引語のなかで文献から抽出され
た索引語と少なくとも一致すべき索引語をユーザに指定
させる、或いは/及び、複数の索引語のなかで文献から
抽出された索引語と位置関係を含めて一致すべき索引語
をユーザに指定させる、ことが望ましい。その位置関係
としては、文章範囲内で2つ以上の索引語が出現する順
序をユーザに指定可能とさせる、ことが望ましい。上記
選択肢は、少なくとも、1つのセンテンス、及び段落を
含む、ことが望ましい。
【0011】本発明の文献検索システムは、ユーザによ
り入力された索引語を文献から抽出した索引語と照合す
ることにより適合文献を検索することを前提とし、予め
定めた文章範囲に限定して照合される索引語をユーザが
複数、検索条件として入力できる検索条件入力手段と、
検索条件入力手段により文章範囲に限定して照合される
索引語をユーザが複数入力した場合に、該複数の索引語
を、文献から抽出された文章範囲に出現した索引語と照
合する照合手段と、検索条件入力手段により入力された
文章範囲に限定して照合される複数の索引語のなかで、
予め定めた規則から特定される索引語が少なくとも一致
したと照合手段が照合した索引語が抽出された文献を、
少なくとも適合文献として選択する選択手段と、を具備
する。
り入力された索引語を文献から抽出した索引語と照合す
ることにより適合文献を検索することを前提とし、予め
定めた文章範囲に限定して照合される索引語をユーザが
複数、検索条件として入力できる検索条件入力手段と、
検索条件入力手段により文章範囲に限定して照合される
索引語をユーザが複数入力した場合に、該複数の索引語
を、文献から抽出された文章範囲に出現した索引語と照
合する照合手段と、検索条件入力手段により入力された
文章範囲に限定して照合される複数の索引語のなかで、
予め定めた規則から特定される索引語が少なくとも一致
したと照合手段が照合した索引語が抽出された文献を、
少なくとも適合文献として選択する選択手段と、を具備
する。
【0012】なお、上記の構成において、文章範囲は、
予め複数用意した選択肢のなかからユーザに検索条件入
力手段により選択させる、ことが望ましい。また、規則
としては、複数の索引語のなかで文献から抽出された索
引語と少なくとも一致すべき索引語を検索条件入力手段
によりユーザに指定させる、或いは/及び、複数の索引
語のなかで文献から抽出された索引語と位置関係を含め
て一致すべき索引語をユーザに検索条件入力手段により
指定させる、ことが望ましい。その位置関係としては、
文章範囲内で2つ以上の索引語が出現する順序をユーザ
に指定可能とさせる、ことが望ましい。上記選択肢は、
少なくとも、1つのセンテンス、及び段落を含む、こと
が望ましい。
予め複数用意した選択肢のなかからユーザに検索条件入
力手段により選択させる、ことが望ましい。また、規則
としては、複数の索引語のなかで文献から抽出された索
引語と少なくとも一致すべき索引語を検索条件入力手段
によりユーザに指定させる、或いは/及び、複数の索引
語のなかで文献から抽出された索引語と位置関係を含め
て一致すべき索引語をユーザに検索条件入力手段により
指定させる、ことが望ましい。その位置関係としては、
文章範囲内で2つ以上の索引語が出現する順序をユーザ
に指定可能とさせる、ことが望ましい。上記選択肢は、
少なくとも、1つのセンテンス、及び段落を含む、こと
が望ましい。
【0013】本発明の記録媒体は、ユーザにより入力さ
れた索引語を文献から抽出した索引語と照合することに
より適合文献を検索するシステムを構成するコンピュー
タが読み取り可能であることを前提とし、予め定めた文
章範囲に限定して照合される索引語をユーザが複数、検
索条件として入力できる手段と、入力できる手段により
文章範囲に限定して照合される索引語をユーザが複数入
力した場合に、該複数の索引語を、文献から抽出された
文章範囲に出現した索引語と照合する手段と、入力でき
る手段により入力された文章範囲に限定して照合される
複数の索引語のなかで、予め定めた規則から特定される
索引語が少なくとも一致したと照合する手段により照合
された索引語が抽出された文献を、少なくとも適合文献
として選択する手段と、を実現させるためのプログラム
を記録している。
れた索引語を文献から抽出した索引語と照合することに
より適合文献を検索するシステムを構成するコンピュー
タが読み取り可能であることを前提とし、予め定めた文
章範囲に限定して照合される索引語をユーザが複数、検
索条件として入力できる手段と、入力できる手段により
文章範囲に限定して照合される索引語をユーザが複数入
力した場合に、該複数の索引語を、文献から抽出された
文章範囲に出現した索引語と照合する手段と、入力でき
る手段により入力された文章範囲に限定して照合される
複数の索引語のなかで、予め定めた規則から特定される
索引語が少なくとも一致したと照合する手段により照合
された索引語が抽出された文献を、少なくとも適合文献
として選択する手段と、を実現させるためのプログラム
を記録している。
【0014】本発明の文献検索方法、及びそのシステム
では、文章範囲が限定されて照合される複数の索引語を
ユーザが検索条件として指定すると、該複数の索引語
を、文献から抽出された該文章範囲に出現した索引語と
照合し、複数の索引語のなかで予め定めた規則から特定
される索引語が少なくとも一致した索引語が抽出された
文献を、少なくとも適合文献として選択する。
では、文章範囲が限定されて照合される複数の索引語を
ユーザが検索条件として指定すると、該複数の索引語
を、文献から抽出された該文章範囲に出現した索引語と
照合し、複数の索引語のなかで予め定めた規則から特定
される索引語が少なくとも一致した索引語が抽出された
文献を、少なくとも適合文献として選択する。
【0015】複数の索引語を検索条件に用いた場合、索
引語間の概念的なつながりをより正確に表現(指定)で
きるようになる。その一方で、規則を定めてそれに基づ
き複数の索引語のなかで必ず一致すべき索引語を特定す
ると、複数の索引語を用いた規定を満たす条件に許容範
囲を設けることになって、概念を表現する索引語の違い
が検索結果に影響を及ぼす度合いが小さくなり検索もれ
は少なくなる。これらのことから、検索の精度を高く維
持させつつ、再現率を向上させられるようになる。
引語間の概念的なつながりをより正確に表現(指定)で
きるようになる。その一方で、規則を定めてそれに基づ
き複数の索引語のなかで必ず一致すべき索引語を特定す
ると、複数の索引語を用いた規定を満たす条件に許容範
囲を設けることになって、概念を表現する索引語の違い
が検索結果に影響を及ぼす度合いが小さくなり検索もれ
は少なくなる。これらのことから、検索の精度を高く維
持させつつ、再現率を向上させられるようになる。
【0016】
【発明の実施の形態】以下、図面を参照しながら、本発
明の実施の形態につき詳細に説明する。図1は、本実施
の形態による文献検索システムの構成図である。
明の実施の形態につき詳細に説明する。図1は、本実施
の形態による文献検索システムの構成図である。
【0017】そのシステムは、特許文献を対象に検索を
行うためのものであり、システム全体の制御を行うコン
ピュータ1に、各種周辺機器を接続して構築されてい
る。具体的には、例えばCRT、或いはLCDである表
示装置2、後述する一次情報データベースを有するデー
タベース3、オペレータやユーザ(情報要求者、オペレ
ータ、或いは検索代行者等)が各種のデータやコマンド
等を入力するためのキーボード4やポインティングデバ
イス(以降、その代表であるマウスと呼ぶ)5、記録紙
上に画像を形成するプリンタ6、及び例えば外付けのハ
ードディスク装置である補助記憶装置(外部記憶装置)
7がコンピュータ1に接続されている。
行うためのものであり、システム全体の制御を行うコン
ピュータ1に、各種周辺機器を接続して構築されてい
る。具体的には、例えばCRT、或いはLCDである表
示装置2、後述する一次情報データベースを有するデー
タベース3、オペレータやユーザ(情報要求者、オペレ
ータ、或いは検索代行者等)が各種のデータやコマンド
等を入力するためのキーボード4やポインティングデバ
イス(以降、その代表であるマウスと呼ぶ)5、記録紙
上に画像を形成するプリンタ6、及び例えば外付けのハ
ードディスク装置である補助記憶装置(外部記憶装置)
7がコンピュータ1に接続されている。
【0018】なお、図1に示すシステムは、1台のコン
ピュータを用いて特許文献検索用に構築されたものであ
るが、当然のことながら、LANや公衆網等の何らかの
ネットワークを用いて複数のコンピュータを接続させて
一つのシステムを構築しても良い。その特許文献につい
ては、便宜的に、特に断らない限り、日本の特許庁が公
開の目的で発行した公報を前提とし、実用新案の公開公
報や公告公報も含む意味で用いることにする。
ピュータを用いて特許文献検索用に構築されたものであ
るが、当然のことながら、LANや公衆網等の何らかの
ネットワークを用いて複数のコンピュータを接続させて
一つのシステムを構築しても良い。その特許文献につい
ては、便宜的に、特に断らない限り、日本の特許庁が公
開の目的で発行した公報を前提とし、実用新案の公開公
報や公告公報も含む意味で用いることにする。
【0019】それらの公報は、現在では普通CD−RO
Mに記録されて発行される。このことから、以降、公報
が記録されたCD−ROM3b、及びそれを複数搭載で
きるCD−ROMオートチェンジャ(以降、オートチェ
ンジャと略す)3aが、データベース3に対応するハー
ドウェアであるとして説明する。
Mに記録されて発行される。このことから、以降、公報
が記録されたCD−ROM3b、及びそれを複数搭載で
きるCD−ROMオートチェンジャ(以降、オートチェ
ンジャと略す)3aが、データベース3に対応するハー
ドウェアであるとして説明する。
【0020】図2は、上記システムの機能ブロック図で
ある。文献検索に特に関わる機能を抜粋して機能的構成
を示したものである。図2も参照しつつ、本実施の形態
による文献検索システムの構成、及び動作について説明
する。
ある。文献検索に特に関わる機能を抜粋して機能的構成
を示したものである。図2も参照しつつ、本実施の形態
による文献検索システムの構成、及び動作について説明
する。
【0021】上述したように、図1に示すオートチェン
ジャ3aには、特許文献が記録されたCD−ROM3b
が搭載される。その特許文献は、例えば日本であれば特
許庁が公開の目的で発行した公報であることから一次情
報(一次資料)である。このため、オートチェンジャ3
aに搭載されたCD−ROM(に記録されたデータ)3
bが一次情報データベース(ファクト・データベース)
11に対応する。
ジャ3aには、特許文献が記録されたCD−ROM3b
が搭載される。その特許文献は、例えば日本であれば特
許庁が公開の目的で発行した公報であることから一次情
報(一次資料)である。このため、オートチェンジャ3
aに搭載されたCD−ROM(に記録されたデータ)3
bが一次情報データベース(ファクト・データベース)
11に対応する。
【0022】なお、一次情報データベースを構築させ
る、或いはそのデータを格納させる媒体は、CD−RO
M3bに限定されるものではない。光磁気ディスクやD
VD、或いは磁気テープ等の他の種類の媒体であっても
良く、複数の種類が異なる媒体であっても良い。何らか
のネットワーク(LANや公衆網等)を介して、他の業
者等が提供する一次情報のデータベースにアクセスでき
るようにしても良い。
る、或いはそのデータを格納させる媒体は、CD−RO
M3bに限定されるものではない。光磁気ディスクやD
VD、或いは磁気テープ等の他の種類の媒体であっても
良く、複数の種類が異なる媒体であっても良い。何らか
のネットワーク(LANや公衆網等)を介して、他の業
者等が提供する一次情報のデータベースにアクセスでき
るようにしても良い。
【0023】対象範囲指定部12は、特許文献のなかで
キーワードを抽出する対象範囲をオペレータ(システム
の管理者等)が指定するためのものである。その範囲
は、特許文献の範囲と、特許文献内での範囲とに分けて
指定するようになっている。具体的には、特許文献の範
囲は、出願日(或いは公開日)、国際特許分類、出願人
等で指定し、特許文献内での範囲は、例えば全文、特許
請求の範囲(クレーム)のみ、及び要約文のみ、の3つ
のなかから一つを選択することで指定するようになって
いる。それら指定結果がキーワード抽出部13に送られ
る。この対象範囲指定部12は、図1において、コンピ
ュータ1、表示装置2、キーボード4、及びマウス5が
対応する。
キーワードを抽出する対象範囲をオペレータ(システム
の管理者等)が指定するためのものである。その範囲
は、特許文献の範囲と、特許文献内での範囲とに分けて
指定するようになっている。具体的には、特許文献の範
囲は、出願日(或いは公開日)、国際特許分類、出願人
等で指定し、特許文献内での範囲は、例えば全文、特許
請求の範囲(クレーム)のみ、及び要約文のみ、の3つ
のなかから一つを選択することで指定するようになって
いる。それら指定結果がキーワード抽出部13に送られ
る。この対象範囲指定部12は、図1において、コンピ
ュータ1、表示装置2、キーボード4、及びマウス5が
対応する。
【0024】キーワード抽出部13は、対象範囲指定部
12から送られた指定結果、即ちオペレータが指示した
対象範囲を示す情報に従って、一次情報データベース1
1に格納されている特許文献毎に索引語(キーワード)
を抽出し、それを二次情報データベース14に格納す
る。このようにキーワードの抽出を行うキーワード抽出
部13には、図1のコンピュータ1、オートチェンジャ
3a、及び補助記憶装置7が対応する。なお、一次情報
データベース11はCD−ROM3bとして提供される
ことを前提としていることから、キーワード抽出部13
によるキーワードの抽出は、通常、CD−ROM3b単
位で行われる。
12から送られた指定結果、即ちオペレータが指示した
対象範囲を示す情報に従って、一次情報データベース1
1に格納されている特許文献毎に索引語(キーワード)
を抽出し、それを二次情報データベース14に格納す
る。このようにキーワードの抽出を行うキーワード抽出
部13には、図1のコンピュータ1、オートチェンジャ
3a、及び補助記憶装置7が対応する。なお、一次情報
データベース11はCD−ROM3bとして提供される
ことを前提としていることから、キーワード抽出部13
によるキーワードの抽出は、通常、CD−ROM3b単
位で行われる。
【0025】補助記録装置7は、主に、上記二次情報デ
ータベース14を記録するために用いられる。このた
め、補助記録装置7が備えた、或いはそれに備えられる
記憶媒体(に記憶されたデータ)が二次情報データベー
ス14に対応する。
ータベース14を記録するために用いられる。このた
め、補助記録装置7が備えた、或いはそれに備えられる
記憶媒体(に記憶されたデータ)が二次情報データベー
ス14に対応する。
【0026】その二次情報データベースは、CD−RO
M3bに記録された特許文献(一次情報)を探索するた
めに利用する二次情報をデータとして格納したものであ
る。その二次情報のデータとして、特許文献から抽出し
たキーワード群の他に、例えば出願番号、公開番号、出
願日、公開日、出願人、発明者、及び国際特許分類等の
書誌的事項が格納される。それらのデータを手がかりと
して、適合文献が探索される。
M3bに記録された特許文献(一次情報)を探索するた
めに利用する二次情報をデータとして格納したものであ
る。その二次情報のデータとして、特許文献から抽出し
たキーワード群の他に、例えば出願番号、公開番号、出
願日、公開日、出願人、発明者、及び国際特許分類等の
書誌的事項が格納される。それらのデータを手がかりと
して、適合文献が探索される。
【0027】検索条件入力部15は、二次情報データベ
ース14を参照して適合文献を探索するための検索条件
(検索式等)をユーザ(情報要求者、或いは検索代行者
等)が入力するためのものである。図1において、コン
ピュータ1、表示装置2、キーボード4、及びマウス5
が対応する。
ース14を参照して適合文献を探索するための検索条件
(検索式等)をユーザ(情報要求者、或いは検索代行者
等)が入力するためのものである。図1において、コン
ピュータ1、表示装置2、キーボード4、及びマウス5
が対応する。
【0028】本実施の形態では、従来の文献検索システ
ムに導入されていた各種の演算子に加えて、以下のよう
な演算子を導入している。ここではその演算子を便宜的
に論理和(OR)近接演算子と呼ぶことにする。
ムに導入されていた各種の演算子に加えて、以下のよう
な演算子を導入している。ここではその演算子を便宜的
に論理和(OR)近接演算子と呼ぶことにする。
【0029】その論理和近接演算子は、例えば「(F)
A’・B・<C・D>」のように使用する。A〜Dは用
語(キーワード)であり、「・」は論理和近接演算子で
用語間の関係を規定する範囲をシステムが認識するため
の識別子であり、括弧内の「F」は、それらの用語A〜
Dが出現する文章範囲を指定するための記号である。そ
の「F」は、段落を表している。文章範囲記号には、
「F」の他に、「S」、「W」、「C」、及び「A」を
用意している。「S」は句点から次の句点までの文(セ
ンテンス)、「W」はその前に付加される数字で指定さ
れた語数(数字が付加されていない場合は1語(2つの
用語が隣り合っている)と解釈され、「10W」と記載
された場合には10語と解釈される)、「C」は特許請
求の範囲に記載された文章、「A」は要約文に記載され
た文章を各々表している。
A’・B・<C・D>」のように使用する。A〜Dは用
語(キーワード)であり、「・」は論理和近接演算子で
用語間の関係を規定する範囲をシステムが認識するため
の識別子であり、括弧内の「F」は、それらの用語A〜
Dが出現する文章範囲を指定するための記号である。そ
の「F」は、段落を表している。文章範囲記号には、
「F」の他に、「S」、「W」、「C」、及び「A」を
用意している。「S」は句点から次の句点までの文(セ
ンテンス)、「W」はその前に付加される数字で指定さ
れた語数(数字が付加されていない場合は1語(2つの
用語が隣り合っている)と解釈され、「10W」と記載
された場合には10語と解釈される)、「C」は特許請
求の範囲に記載された文章、「A」は要約文に記載され
た文章を各々表している。
【0030】「’」はそれが付加された用語が必ず存在
(一致)していなければならないことを示す記号(必須
記号)である。「<」と「>」は、それらによって括ら
れた複数の用語がそこに記載された順序で必ず存在(一
致)していなければならないことを指定するために用い
られる記号(順序指定用記号)である。
(一致)していなければならないことを示す記号(必須
記号)である。「<」と「>」は、それらによって括ら
れた複数の用語がそこに記載された順序で必ず存在(一
致)していなければならないことを指定するために用い
られる記号(順序指定用記号)である。
【0031】それらの記号(オプション)が用いられて
いない場合、本実施の形態では少なくとも1つの用語が
存在(一致)していれば良いとしている。即ち論理和近
接演算子により規定された複数の用語の共出現の条件を
満たしているとしている。それらの記号(オプション)
が用いられていない場合には、それらの記号によって一
致すべきとユーザが指定した用語の数を更に加算した数
の用語が一致していなければならないとしている。従っ
て、例えば必須記号を一つ用いると、少なくとも2(=
1+1)つの用語が一致していなければならないという
ことになる。
いない場合、本実施の形態では少なくとも1つの用語が
存在(一致)していれば良いとしている。即ち論理和近
接演算子により規定された複数の用語の共出現の条件を
満たしているとしている。それらの記号(オプション)
が用いられていない場合には、それらの記号によって一
致すべきとユーザが指定した用語の数を更に加算した数
の用語が一致していなければならないとしている。従っ
て、例えば必須記号を一つ用いると、少なくとも2(=
1+1)つの用語が一致していなければならないという
ことになる。
【0032】概念と索引語の対応関係は通常は多対多で
あることから、或る概念を表現するために決定した索引
語が、実際に適合文献である特許文献中に記載されてい
るとは限らない。このため、従来のように、複数の索引
語の共出現の仕方を単に固定的に規定すると、検索もれ
を増大させてしまう可能性が高かった。それを回避する
ために、従来では近接演算子で扱う索引語数を2として
いたが、2つの索引語では、それらの間の概念的なつな
がりを普通はあまり表すことはできない。例えば「コン
ピュータ」と「設計」が同じ文章(センテンス)に出現
することを規定しても、「コンピュータの設計」と「コ
ンピュータによる設計」のように、全く異なる概念を表
す文章が記載された特許文献を検索してしまう。これ
は、検索ノイズが生じ易いことを意味する。このことか
ら明らかなように、従来は実質的には精度をあまり高く
することはできなかった。
あることから、或る概念を表現するために決定した索引
語が、実際に適合文献である特許文献中に記載されてい
るとは限らない。このため、従来のように、複数の索引
語の共出現の仕方を単に固定的に規定すると、検索もれ
を増大させてしまう可能性が高かった。それを回避する
ために、従来では近接演算子で扱う索引語数を2として
いたが、2つの索引語では、それらの間の概念的なつな
がりを普通はあまり表すことはできない。例えば「コン
ピュータ」と「設計」が同じ文章(センテンス)に出現
することを規定しても、「コンピュータの設計」と「コ
ンピュータによる設計」のように、全く異なる概念を表
す文章が記載された特許文献を検索してしまう。これ
は、検索ノイズが生じ易いことを意味する。このことか
ら明らかなように、従来は実質的には精度をあまり高く
することはできなかった。
【0033】これに対し、本実施の形態のように、索引
語の語数を2に制限しないことで、索引語間の概念的な
つながりをより正確に指定できるようになる。このた
め、概念についての表現力が向上することになる。例え
ば、コンピュータで設計する対象を索引語として追加す
れば、「コンピュータの設計」という文章が単に記載さ
れているような文献は検索しないようにすることができ
る。これは、精度を容易により向上させることができる
ことを意味する。
語の語数を2に制限しないことで、索引語間の概念的な
つながりをより正確に指定できるようになる。このた
め、概念についての表現力が向上することになる。例え
ば、コンピュータで設計する対象を索引語として追加す
れば、「コンピュータの設計」という文章が単に記載さ
れているような文献は検索しないようにすることができ
る。これは、精度を容易により向上させることができる
ことを意味する。
【0034】その一方では、指定した文章範囲で必ず出
現しなくてはならない索引語を指定できるようにしたこ
とで、識別力の高い索引語はそれを有効に用いることが
できる。その反面では、指定した文章範囲で必ず出現し
なくても良い索引語を指定できるようにしたことになる
から、言い換えれば、複数の索引語を用いた規定を満た
す条件に許容範囲を設けつつ、その許容範囲を変化させ
られるようにしたことになるから、概念を表現する索引
語(文献から抽出した索引語とユーザが検索式に記載し
た索引語)の違いによる検索もれを少なくすることがで
きるということになる。
現しなくてはならない索引語を指定できるようにしたこ
とで、識別力の高い索引語はそれを有効に用いることが
できる。その反面では、指定した文章範囲で必ず出現し
なくても良い索引語を指定できるようにしたことになる
から、言い換えれば、複数の索引語を用いた規定を満た
す条件に許容範囲を設けつつ、その許容範囲を変化させ
られるようにしたことになるから、概念を表現する索引
語(文献から抽出した索引語とユーザが検索式に記載し
た索引語)の違いによる検索もれを少なくすることがで
きるということになる。
【0035】例えば記録紙等の媒体の2重搬送を防止す
るためのものについて記載された文献を検索するため
に、「媒体・2重・搬送・防止・機構」の5つの索引語
を選択したとしても、その5つの索引語によって表現さ
れる概念が記載されている文献(実際上の適合文献)
で、その概念を表現するのにそれらの索引語を用いてい
るとは必ずしも限らない。「2重・搬送・防止・機構」
や「媒体・2重・搬送・防止・装置」、或いは「媒体・
多重・繰り出し・回避・機構」といったような語句を用
いて概念を表現している場合が考えられる。そのような
語句が用いられている文献は、従来では検索することが
できない。しかし、本実施の形態では、全ての索引語が
必ず一致しなくても良いため、そのような語句が用いら
れている文献であっても適合文献として検索することが
できる。
るためのものについて記載された文献を検索するため
に、「媒体・2重・搬送・防止・機構」の5つの索引語
を選択したとしても、その5つの索引語によって表現さ
れる概念が記載されている文献(実際上の適合文献)
で、その概念を表現するのにそれらの索引語を用いてい
るとは必ずしも限らない。「2重・搬送・防止・機構」
や「媒体・2重・搬送・防止・装置」、或いは「媒体・
多重・繰り出し・回避・機構」といったような語句を用
いて概念を表現している場合が考えられる。そのような
語句が用いられている文献は、従来では検索することが
できない。しかし、本実施の形態では、全ての索引語が
必ず一致しなくても良いため、そのような語句が用いら
れている文献であっても適合文献として検索することが
できる。
【0036】これらのことから明らかなように、本実施
の形態では、実質的に、再現率および精度を共により向
上させることが容易に実現できるようになっている。順
位指定用記号を必要に応じて用いた場合には、それによ
って識別力が向上するため、特に精度を更に向上させる
ことができる。
の形態では、実質的に、再現率および精度を共により向
上させることが容易に実現できるようになっている。順
位指定用記号を必要に応じて用いた場合には、それによ
って識別力が向上するため、特に精度を更に向上させる
ことができる。
【0037】なお、本実施の形態では、論理和近接演算
子で出現の仕方を規定した複数の用語(索引語)のなか
で、最小限1つの用語が存在、即ち文献から抽出された
用語と一致していれば規定した出現の条件を満たしてい
るとしているが、その一致すべき用語の数をユーザが指
定した用語の数に応じて変化させるようにしても良い。
例えば3つの用語までは1つ、4つから6つの用語では
2つ、それ以上では3つといったように、一致すべき用
語の数を変化させても良い。更には、ユーザが一致すべ
き用語の数を指定できるようにしても良い。
子で出現の仕方を規定した複数の用語(索引語)のなか
で、最小限1つの用語が存在、即ち文献から抽出された
用語と一致していれば規定した出現の条件を満たしてい
るとしているが、その一致すべき用語の数をユーザが指
定した用語の数に応じて変化させるようにしても良い。
例えば3つの用語までは1つ、4つから6つの用語では
2つ、それ以上では3つといったように、一致すべき用
語の数を変化させても良い。更には、ユーザが一致すべ
き用語の数を指定できるようにしても良い。
【0038】また、順序指定用記号(「<」と「>」)
を用いて、それらで括った用語がその順序で存在してい
なければならないことを指定(規定)できるようにして
いるが、その他に、順序に関わらずに隣り合っていなけ
ればならない用語を指定(規定)したり、或いは/及
び、存在していなければならない用語の語間を指定(規
定)できるようにしても良い。用語の語間を指定できる
ようにした場合には、それら、或いはそのうちの一方が
1センテンス中に複数回、出現することもあることか
ら、言い換えれば、該当する語間が複数存在しているこ
とも有り得ることから、必要に応じて精度をより向上さ
せられるように、用語の出現順序等も合わせて指定でき
るようにしても良い。当然のことながら、それら以外の
用語間の位置関係を指定(規定)できるようにしても良
い。
を用いて、それらで括った用語がその順序で存在してい
なければならないことを指定(規定)できるようにして
いるが、その他に、順序に関わらずに隣り合っていなけ
ればならない用語を指定(規定)したり、或いは/及
び、存在していなければならない用語の語間を指定(規
定)できるようにしても良い。用語の語間を指定できる
ようにした場合には、それら、或いはそのうちの一方が
1センテンス中に複数回、出現することもあることか
ら、言い換えれば、該当する語間が複数存在しているこ
とも有り得ることから、必要に応じて精度をより向上さ
せられるように、用語の出現順序等も合わせて指定でき
るようにしても良い。当然のことながら、それら以外の
用語間の位置関係を指定(規定)できるようにしても良
い。
【0039】指定した文章範囲に出現する可能性がある
用語の他に、それと共に出現する可能性がない、或いは
その可能性が著しく低いと考えられる用語を別に指定で
きるようにしても良い。これらのことから明らかなよう
に、様々な変形を行うことが可能である。
用語の他に、それと共に出現する可能性がない、或いは
その可能性が著しく低いと考えられる用語を別に指定で
きるようにしても良い。これらのことから明らかなよう
に、様々な変形を行うことが可能である。
【0040】上述したように、検索条件入力部15で
は、論理和近接演算子を用いて検索式(検索条件)を作
成することができるようになっている。その検索条件
が、検索条件入力部15から検索抽出部16に送られ
る。
は、論理和近接演算子を用いて検索式(検索条件)を作
成することができるようになっている。その検索条件
が、検索条件入力部15から検索抽出部16に送られ
る。
【0041】その検索抽出部16は、二次情報データベ
ース14を参照して、検索条件入力部15から送られた
検索条件(検索式)で規定された索引語が全て存在する
適合文献を探索する。その検索式には様々な演算子を用
いることができるが、その検索式中に上記論理和近接演
算子が使われていた場合、その倫理和近接演算子によっ
て一致すべきと規定された索引語と抽出された索引語が
少なくとも一致していることが適合文献の必要条件(当
然のことながら、(必要)十分条件となることもある)
となる。このため、適合文献にはその必要条件を少なく
とも満たしている文献が選択される。このような適合文
献の検索を行う検索抽出部16は、図1において、コン
ピュータ1、及び補助記憶装置7が対応する。
ース14を参照して、検索条件入力部15から送られた
検索条件(検索式)で規定された索引語が全て存在する
適合文献を探索する。その検索式には様々な演算子を用
いることができるが、その検索式中に上記論理和近接演
算子が使われていた場合、その倫理和近接演算子によっ
て一致すべきと規定された索引語と抽出された索引語が
少なくとも一致していることが適合文献の必要条件(当
然のことながら、(必要)十分条件となることもある)
となる。このため、適合文献にはその必要条件を少なく
とも満たしている文献が選択される。このような適合文
献の検索を行う検索抽出部16は、図1において、コン
ピュータ1、及び補助記憶装置7が対応する。
【0042】ところで、二次情報データベース14に格
納された索引語は、文献から抽出した語句であることか
らフリータームである。フリータームでは、同じ用語で
もそれが表現している概念の差が大きくなりやすい。こ
れは、検索もれが生じやすいことを意味する。これを回
避するために、本実施の形態では、整理・統制された用
語での検索を行えるようにしている。
納された索引語は、文献から抽出した語句であることか
らフリータームである。フリータームでは、同じ用語で
もそれが表現している概念の差が大きくなりやすい。こ
れは、検索もれが生じやすいことを意味する。これを回
避するために、本実施の形態では、整理・統制された用
語での検索を行えるようにしている。
【0043】ユーザは、シソーラス(索引語として登録
されたディスクリプタ(統制語)、その同義語・準同義
語である非ディスクリプタ、上位語、下位語、関連語、
語間の関係の種類を示す記号、見出し語の意味範囲や使
い方を示すスコープ・ノートなどから構成された検索語
彙集)を参照することにより、検索条件入力部15で統
制語を索引語として入力することができる。このことか
ら、検索条件の一つとして、整理・統制された用語(以
降、これも統制語と呼ぶことにする)での検索を行うか
否かをユーザに選択させるようにしている。統制語を選
択すると、入力された索引語は統制語として扱ってい
る。
されたディスクリプタ(統制語)、その同義語・準同義
語である非ディスクリプタ、上位語、下位語、関連語、
語間の関係の種類を示す記号、見出し語の意味範囲や使
い方を示すスコープ・ノートなどから構成された検索語
彙集)を参照することにより、検索条件入力部15で統
制語を索引語として入力することができる。このことか
ら、検索条件の一つとして、整理・統制された用語(以
降、これも統制語と呼ぶことにする)での検索を行うか
否かをユーザに選択させるようにしている。統制語を選
択すると、入力された索引語は統制語として扱ってい
る。
【0044】検索条件入力部15を介してユーザが統制
語での検索を指示した場合、検索抽出部16は、二次情
報データベース14に格納されている索引語を統制語に
変換、或いはユーザが参照するシソーラスに応じて用意
した同義語辞書や上位語辞書等を参照して、索引語間の
照合を行って適合文献を検索する。それにより、再現率
をより向上できるようにしている。
語での検索を指示した場合、検索抽出部16は、二次情
報データベース14に格納されている索引語を統制語に
変換、或いはユーザが参照するシソーラスに応じて用意
した同義語辞書や上位語辞書等を参照して、索引語間の
照合を行って適合文献を検索する。それにより、再現率
をより向上できるようにしている。
【0045】検索抽出部16は、上述したようにして行
う検索が終了すると、その検索結果を表示装置2に表示
する。その検索結果は、検索条件入力部15を介してプ
リントアウトすることが指定されていた場合、或いは、
検索後にプリントアウトが指示された場合、プリンタ6
からプリントアウトさせる。
う検索が終了すると、その検索結果を表示装置2に表示
する。その検索結果は、検索条件入力部15を介してプ
リントアウトすることが指定されていた場合、或いは、
検索後にプリントアウトが指示された場合、プリンタ6
からプリントアウトさせる。
【0046】その検索条件入力部15では、一次情報デ
ータベース11に格納された特許文献自体のプリントア
ウトを指示できるようになっている。検索された特許文
献を指定してプリントアウトが指示されたり、或いは単
に特許文献を指定してプリントアウトが指示された場
合、検索抽出部16は指定された特許文献のデータを一
次情報データベース11から読み出し、それをプリンタ
6に出力してプリントさせる。
ータベース11に格納された特許文献自体のプリントア
ウトを指示できるようになっている。検索された特許文
献を指定してプリントアウトが指示されたり、或いは単
に特許文献を指定してプリントアウトが指示された場
合、検索抽出部16は指定された特許文献のデータを一
次情報データベース11から読み出し、それをプリンタ
6に出力してプリントさせる。
【0047】上述したような文献検索に関わる処理を実
行することにより、本実施の形態ではユーザに必要な情
報を検索して提供する。なお、図2に示す対象範囲指定
部12、キーワード抽出部13、検索条件入力部15、
及び検索抽出部16の各部の機能は、コンピュータ1に
搭載されたCPUが、そのコンピュータ1に内蔵された
ハードディスク装置(共に図示せず)に記憶されている
プログラムを実行することで実現される。
行することにより、本実施の形態ではユーザに必要な情
報を検索して提供する。なお、図2に示す対象範囲指定
部12、キーワード抽出部13、検索条件入力部15、
及び検索抽出部16の各部の機能は、コンピュータ1に
搭載されたCPUが、そのコンピュータ1に内蔵された
ハードディスク装置(共に図示せず)に記憶されている
プログラムを実行することで実現される。
【0048】次に、上記した各部12、13、15、及
び16の機能を実現するコンピュータ1の動作につい
て、図3、及び図4に示す各種フローチャートを参照し
て詳細に説明する。
び16の機能を実現するコンピュータ1の動作につい
て、図3、及び図4に示す各種フローチャートを参照し
て詳細に説明する。
【0049】図3は、索引語抽出処理のフローチャート
である。この処理は、例えばオペレータがキーボード
4、或いはマウス5を介して索引語の抽出を指示した場
合に、図2に示す対象範囲指定部12、及びキーワード
抽出部13の機能を実現させるために実行される。
である。この処理は、例えばオペレータがキーボード
4、或いはマウス5を介して索引語の抽出を指示した場
合に、図2に示す対象範囲指定部12、及びキーワード
抽出部13の機能を実現させるために実行される。
【0050】先ず、ステップS1では、キーボード4、
或いはマウス5を介してオペレータに索引語を抽出する
対象範囲を入力させる。それにより、上述したように、
特許文献の範囲と、特許文献内での範囲とに分けて対象
範囲を指定させる。続くステップS2では、その入力が
終了、即ち索引語の抽出が指示されたか否か判定する。
オペレータがその指示を行っていない場合、その判定は
NOとなってステップS1に戻る。そうでない場合に
は、その判定はYESとなってステップS3に移行す
る。
或いはマウス5を介してオペレータに索引語を抽出する
対象範囲を入力させる。それにより、上述したように、
特許文献の範囲と、特許文献内での範囲とに分けて対象
範囲を指定させる。続くステップS2では、その入力が
終了、即ち索引語の抽出が指示されたか否か判定する。
オペレータがその指示を行っていない場合、その判定は
NOとなってステップS1に戻る。そうでない場合に
は、その判定はYESとなってステップS3に移行す
る。
【0051】ステップS3では、オペレータが指定した
対象範囲に対応するCD−ROM3b(一次情報データ
ベース14)のデータをオートチェンジャ3aにより読
み出し、各文献毎に索引語を抽出して補助記憶装置7に
格納、即ち二次情報データベース14に索引語を格納す
る。
対象範囲に対応するCD−ROM3b(一次情報データ
ベース14)のデータをオートチェンジャ3aにより読
み出し、各文献毎に索引語を抽出して補助記憶装置7に
格納、即ち二次情報データベース14に索引語を格納す
る。
【0052】上記索引語の抽出は、具体的には例えば以
下のようにして行っている。コンピュータ1に内蔵のハ
ードディスク装置には、自立語辞書、付属語辞書、同義
語辞書、上位語辞書、構文規則、各種テーブル等の文章
解析用の各種辞書類が格納されている。同義語辞書や上
位語辞書等は、上述したように、文献検索時にも参照さ
れる辞書である。
下のようにして行っている。コンピュータ1に内蔵のハ
ードディスク装置には、自立語辞書、付属語辞書、同義
語辞書、上位語辞書、構文規則、各種テーブル等の文章
解析用の各種辞書類が格納されている。同義語辞書や上
位語辞書等は、上述したように、文献検索時にも参照さ
れる辞書である。
【0053】索引語の抽出は、各特許文献毎に、上記各
種辞書類を参照して用語を切り出し、そのなかから重要
語を特定し、その特定した重要語を索引語とすることで
行っている。それにより、例えばタイトルを構成する語
句、文を主題化する助詞及び複合辞(「は」、「に
は」、「とは」など)の直前の漢字、カタカナ文字で構
成される2文字以上の語句、予め定義した重要度判定規
則(例えば、「によって」、「により」、「による
と」、「として」、「にとって」といった語の直前の用
語はそれを含む文にとって重要性が高いとする規則)に
該当する語句は重要語(索引語)として特定している。
また、切り出した用語の出現頻度を調べ、きわめて頻繁
に出現したり、或いは出現頻度が比較的に少なくない用
語、言い換えれば、高頻度語と低頻度語の間の出現頻度
をもった用語も重要語(索引語)として特定している。
種辞書類を参照して用語を切り出し、そのなかから重要
語を特定し、その特定した重要語を索引語とすることで
行っている。それにより、例えばタイトルを構成する語
句、文を主題化する助詞及び複合辞(「は」、「に
は」、「とは」など)の直前の漢字、カタカナ文字で構
成される2文字以上の語句、予め定義した重要度判定規
則(例えば、「によって」、「により」、「による
と」、「として」、「にとって」といった語の直前の用
語はそれを含む文にとって重要性が高いとする規則)に
該当する語句は重要語(索引語)として特定している。
また、切り出した用語の出現頻度を調べ、きわめて頻繁
に出現したり、或いは出現頻度が比較的に少なくない用
語、言い換えれば、高頻度語と低頻度語の間の出現頻度
をもった用語も重要語(索引語)として特定している。
【0054】上述したようにして抽出した索引語は、論
理和近接演算子等の演算子によって索引語間の関係が規
定された検索に対応できるように、それが出現した場所
に応じて文章範囲毎にまとめる(索引語間の位置関係を
示す情報を別に生成しても良い)。このとき、用語間の
語数を示す情報(語間情報と呼ぶ)も合わせて取得す
る。これらが終了すると、ステップS3からステップS
4に移行する。
理和近接演算子等の演算子によって索引語間の関係が規
定された検索に対応できるように、それが出現した場所
に応じて文章範囲毎にまとめる(索引語間の位置関係を
示す情報を別に生成しても良い)。このとき、用語間の
語数を示す情報(語間情報と呼ぶ)も合わせて取得す
る。これらが終了すると、ステップS3からステップS
4に移行する。
【0055】そのステップS4では、単に文献中から抽
出した索引語と、上記のように文献単位毎にまとめた索
引語群(ここでは、語間情報も含む)を補助記憶装置7
に格納、即ちそれらを二次情報として二次情報データベ
ース14に格納する。それが終了した後、一連の処理が
終了する。
出した索引語と、上記のように文献単位毎にまとめた索
引語群(ここでは、語間情報も含む)を補助記憶装置7
に格納、即ちそれらを二次情報として二次情報データベ
ース14に格納する。それが終了した後、一連の処理が
終了する。
【0056】なお、図3には特に示していないが、出願
日や公開日、出願人等の書誌情報も、索引語の抽出に合
わせて行っている。それにより、索引語抽出処理の実行
後には、オペレータが指定した範囲の特許文献に関する
二次情報は全て二次情報データベース14に格納され
る。
日や公開日、出願人等の書誌情報も、索引語の抽出に合
わせて行っている。それにより、索引語抽出処理の実行
後には、オペレータが指定した範囲の特許文献に関する
二次情報は全て二次情報データベース14に格納され
る。
【0057】図4は、検索処理のフローチャートであ
る。この処理は、例えばユーザがキーボード4、或いは
マウス5を介して文献検索を指示した場合に、図2に示
す検索条件入力部15、及び検索抽出部16の機能を実
現させるために実行される。
る。この処理は、例えばユーザがキーボード4、或いは
マウス5を介して文献検索を指示した場合に、図2に示
す検索条件入力部15、及び検索抽出部16の機能を実
現させるために実行される。
【0058】先ず、ステップS11では、キーボード
4、或いはマウス5を介してオペレータに検索条件(主
に検索式)を入力させる。このとき、ユーザは、上述の
論理和近接演算子を用いた検索式を入力することができ
る。続くステップS12では、その入力が終了、即ち検
索の実行が指示されたか否か判定する。ユーザがその指
示を行っていない場合、その判定はNOとなってステッ
プS11に戻る。そうでない場合には、その判定はYE
SとなってステップS13に移行する。
4、或いはマウス5を介してオペレータに検索条件(主
に検索式)を入力させる。このとき、ユーザは、上述の
論理和近接演算子を用いた検索式を入力することができ
る。続くステップS12では、その入力が終了、即ち検
索の実行が指示されたか否か判定する。ユーザがその指
示を行っていない場合、その判定はNOとなってステッ
プS11に戻る。そうでない場合には、その判定はYE
SとなってステップS13に移行する。
【0059】ステップS13では、補助記憶装置7から
二次情報データベース14のデータを読み出し、各文献
毎に、ユーザが入力した検索条件(検索式)の規定に従
って索引語の照合を行い、規定された索引語が全て存在
する適合文献を抽出する。このとき、その検索式中に近
接演算子が存在していた場合、それで指定されている文
章範囲で索引語の照合を行って適合文献を抽出する。ユ
ーザが索引語を統制語として照合するのを指示した場合
には、上述したように、同義語辞書や上位語辞書等を参
照して、二次情報データベース14から読み出した索引
語の概念と上下関係、或いは類似関係にある概念の用語
を考慮した索引語間の照合を行って適合文献を抽出す
る。このようにして、ユーザが指定した範囲の特許文献
との照合を順次行い、その範囲での照合結果に基づく適
合文献を全て抽出すると、ステップS14に移行する。
二次情報データベース14のデータを読み出し、各文献
毎に、ユーザが入力した検索条件(検索式)の規定に従
って索引語の照合を行い、規定された索引語が全て存在
する適合文献を抽出する。このとき、その検索式中に近
接演算子が存在していた場合、それで指定されている文
章範囲で索引語の照合を行って適合文献を抽出する。ユ
ーザが索引語を統制語として照合するのを指示した場合
には、上述したように、同義語辞書や上位語辞書等を参
照して、二次情報データベース14から読み出した索引
語の概念と上下関係、或いは類似関係にある概念の用語
を考慮した索引語間の照合を行って適合文献を抽出す
る。このようにして、ユーザが指定した範囲の特許文献
との照合を順次行い、その範囲での照合結果に基づく適
合文献を全て抽出すると、ステップS14に移行する。
【0060】ステップS14では、上述したようにして
行った検索結果を出力する。具体的には、表示装置2に
検索結果を表示し、予めユーザに指示されていれば、そ
の検索結果をプリンタ6にプリントアウトさせる。それ
が終了した後、一連の処理が終了する。
行った検索結果を出力する。具体的には、表示装置2に
検索結果を表示し、予めユーザに指示されていれば、そ
の検索結果をプリンタ6にプリントアウトさせる。それ
が終了した後、一連の処理が終了する。
【0061】なお、本実施の形態では、特許文献を対象
にして検索を行っているが、本発明が対象とする文献は
特許文献だけに限定されるものではない。特許文献に代
表される科学文献だけでなく、経済や産業といったこと
に関する文献や、新聞記事といったものでも検索の対象
とすることができる。
にして検索を行っているが、本発明が対象とする文献は
特許文献だけに限定されるものではない。特許文献に代
表される科学文献だけでなく、経済や産業といったこと
に関する文献や、新聞記事といったものでも検索の対象
とすることができる。
【0062】文献検索を行ううえで必要なハードウェア
を備えたコンピュータ(システム)には、図3、及び図
4に示すフローチャート、或いは少なくとも図4に示す
フローチャートを実現するためのプログラムをロードす
ることで本実施の形態のようなシステムを実現させるこ
とができる。このことから、そのプログラムをCD−R
OMやDVD、フロッピーディスク、或いは光磁気ディ
スク等の記録媒体に記録して配布しても良い。或いは、
或いは、何らかのネットワーク(例えば公衆網)を介し
て配信するようにしても良い。
を備えたコンピュータ(システム)には、図3、及び図
4に示すフローチャート、或いは少なくとも図4に示す
フローチャートを実現するためのプログラムをロードす
ることで本実施の形態のようなシステムを実現させるこ
とができる。このことから、そのプログラムをCD−R
OMやDVD、フロッピーディスク、或いは光磁気ディ
スク等の記録媒体に記録して配布しても良い。或いは、
或いは、何らかのネットワーク(例えば公衆網)を介し
て配信するようにしても良い。
【0063】
【発明の効果】以上説明したように本発明は、文章範囲
が限定されて照合される複数の索引語をユーザが検索条
件として指定すると、該複数の索引語を、文献から抽出
された該文章範囲に出現した索引語と照合し、複数の索
引語のなかで予め定めた規則から特定される索引語が少
なくとも一致した索引語が抽出された文献を、少なくと
も適合文献として選択する。このため、検索の精度を高
く維持させつつ、再現率を向上させることができる。
が限定されて照合される複数の索引語をユーザが検索条
件として指定すると、該複数の索引語を、文献から抽出
された該文章範囲に出現した索引語と照合し、複数の索
引語のなかで予め定めた規則から特定される索引語が少
なくとも一致した索引語が抽出された文献を、少なくと
も適合文献として選択する。このため、検索の精度を高
く維持させつつ、再現率を向上させることができる。
【図1】本実施の形態による文献検索システムの構成図
である。
である。
【図2】本実施の形態による文献検索システムの機能ブ
ロック図である。
ロック図である。
【図3】索引語抽出処理のフローチャートである。
【図4】検索処理のフローチャートである。
1 コンピュータ 2 表示装置 3 データベース 3a CD−ROMオートチェンジャ 3b CD−ROM 4 キーボード 5 ポインティングデバイス 7 補助記憶装置 11 一次情報データベース 12 対象範囲指定部 13 キーワード抽出部 14 二次情報データベース 15 検索条件入力部 16 検索抽出部
───────────────────────────────────────────────────── フロントページの続き (72)発明者 垂石 純 東京都稲城市矢野口1776番地 富士通機電 株式会社内 (72)発明者 中村 英彦 東京都稲城市矢野口1776番地 富士通機電 株式会社内 Fターム(参考) 5B075 ND03 NK04 NK06 NK35 NK37 NK50 PP02 PP03 PP23 PQ02 PQ03 QS01 UU06
Claims (13)
- 【請求項1】 ユーザにより入力された索引語を文献か
ら抽出した索引語と照合することにより適合文献を検索
するための方法であって、 予め定めた文章範囲に限定して照合される索引語をユー
ザが複数、検索条件として指定した場合に、 該複数の索引語を、前記文献から抽出された前記文章範
囲に出現した索引語と照合し、 前記索引語間の照合により、前記複数の索引語のなかで
予め定めた規則から特定される索引語が少なくとも一致
した索引語が抽出された文献を、少なくとも前記適合文
献として選択する、 ことを特徴とする文献検索方法 - 【請求項2】 前記文章範囲は、予め複数用意した選択
肢のなかからユーザに選択させることにより定めた範囲
である、 ことを特徴とする請求項1記載の文献検索方法。 - 【請求項3】 前記規則として、前記複数の索引語のな
かで前記文献から抽出された索引語と少なくとも一致す
べき索引語をユーザに指定させる、 ことを特徴とする請求項1、または2記載の文献検索方
法。 - 【請求項4】 前記規則として、前記複数の索引語のな
かで前記文献から抽出された索引語と位置関係を含めて
一致すべき索引語をユーザに指定させる、 ことを特徴とする請求項1、2、または3記載の文献検
索方法。 - 【請求項5】 前記位置関係として、前記文章範囲内で
2つ以上の索引語が出現する順序をユーザに指定可能と
させた、 ことを特徴とする請求項4記載の文献検索方法。 - 【請求項6】 前記選択肢は、少なくとも、1つのセン
テンス、及び段落を含む、 ことを特徴とする請求項2記載の文献検索方法。 - 【請求項7】 ユーザにより入力された索引語を文献か
ら抽出した索引語と照合することにより適合文献を検索
するシステムであって、 予め定めた文章範囲に限定して照合される索引語をユー
ザが複数、検索条件として入力できる検索条件入力手段
と、 前記検索条件入力手段により前記文章範囲に限定して照
合される索引語をユーザが複数入力した場合に、該複数
の索引語を、前記文献から抽出された前記文章範囲に出
現した索引語と照合する照合手段と、 前記検索条件入力手段により入力された前記文章範囲に
限定して照合される複数の索引語のなかで、予め定めた
規則から特定される索引語が少なくとも一致したと前記
照合手段が照合した索引語が抽出された文献を、少なく
とも前記適合文献として選択する選択手段と、 を具備したことを特徴とする文献検索システム。 - 【請求項8】 前記文章範囲は、予め複数用意した選択
肢のなかからユーザに前記検索条件入力手段により選択
させる、 ことを特徴とする請求項7記載の文献検索システム。 - 【請求項9】 前記規則として、前記複数の索引語のな
かで前記文献から抽出された索引語と少なくとも一致す
べき索引語を前記検索条件入力手段によりユーザに指定
させる、 ことを特徴とする請求項7、または8記載の文献検索シ
ステム。 - 【請求項10】 前記規則として、前記複数の索引語の
なかで前記文献から抽出された索引語と位置関係を含め
て一致すべき索引語をユーザに前記検索条件入力手段に
より指定させる、 ことを特徴とする請求項7、8、または9記載の文献検
索システム。 - 【請求項11】 前記位置関係として、前記文章範囲内
で2つ以上の索引語が出現する順序をユーザに指定可能
とさせた、 ことを特徴とする請求項10記載の文献検索システム。 - 【請求項12】 前記選択肢は、少なくとも、1つのセ
ンテンス、及び段落を含む、 ことを特徴とする請求項8記載の文献検索システム。 - 【請求項13】 ユーザにより入力された索引語を文献
から抽出した索引語と照合することにより適合文献を検
索するシステムを構成するコンピュータが読み取り可能
な記録媒体であって、 予め定めた文章範囲に限定して照合される索引語をユー
ザが複数、検索条件として入力できる手段と、 前記入力できる手段により前記文章範囲に限定して照合
される索引語をユーザが複数入力した場合に、該複数の
索引語を、前記文献から抽出された前記文章範囲に出現
した索引語と照合する手段と、 前記入力できる手段により入力された前記文章範囲に限
定して照合される複数の索引語のなかで、予め定めた規
則から特定される索引語が少なくとも一致したと前記照
合する手段により照合された索引語が抽出された文献
を、少なくとも前記適合文献として選択する手段と、 を実現させるためのプログラムを記録したコンピュータ
読み取り可能な記録媒体。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
JP10278389A JP2000112953A (ja) | 1998-09-30 | 1998-09-30 | 文献検索方法、及びそのシステム |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
JP10278389A JP2000112953A (ja) | 1998-09-30 | 1998-09-30 | 文献検索方法、及びそのシステム |
Publications (1)
Publication Number | Publication Date |
---|---|
JP2000112953A true JP2000112953A (ja) | 2000-04-21 |
Family
ID=17596672
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
JP10278389A Pending JP2000112953A (ja) | 1998-09-30 | 1998-09-30 | 文献検索方法、及びそのシステム |
Country Status (1)
Country | Link |
---|---|
JP (1) | JP2000112953A (ja) |
Cited By (7)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
JP2004206552A (ja) * | 2002-12-26 | 2004-07-22 | Casio Comput Co Ltd | 情報表示制御装置及びプログラム |
JP2005316947A (ja) * | 2004-03-31 | 2005-11-10 | Casio Comput Co Ltd | 情報表示制御装置、サーバ及びプログラム |
JP2005339150A (ja) * | 2004-05-26 | 2005-12-08 | Mitsubishi Electric Corp | 文書検索装置 |
US7403889B2 (en) | 2002-12-26 | 2008-07-22 | Casio Computer Co., Ltd. | Electronic dictionary with example sentences |
US8641605B2 (en) | 2006-07-04 | 2014-02-04 | Olympus Medical Systems Corp. | Endoscope |
CN111767373A (zh) * | 2020-06-30 | 2020-10-13 | 平安国际智慧城市科技股份有限公司 | 一种文献检索方法、文献检索装置、电子设备及存储介质 |
JP2022073949A (ja) * | 2020-10-30 | 2022-05-17 | ソプラ株式会社 | セキュリティidの会話文検索システム |
Citations (3)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
JPH0628403A (ja) * | 1992-07-09 | 1994-02-04 | Mitsubishi Electric Corp | 文書検索装置 |
JPH06309368A (ja) * | 1993-04-20 | 1994-11-04 | Fuji Xerox Co Ltd | 文書検索装置 |
JPH06348756A (ja) * | 1993-06-03 | 1994-12-22 | Ricoh Co Ltd | 索引作成装置及び索引利用装置 |
-
1998
- 1998-09-30 JP JP10278389A patent/JP2000112953A/ja active Pending
Patent Citations (3)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
JPH0628403A (ja) * | 1992-07-09 | 1994-02-04 | Mitsubishi Electric Corp | 文書検索装置 |
JPH06309368A (ja) * | 1993-04-20 | 1994-11-04 | Fuji Xerox Co Ltd | 文書検索装置 |
JPH06348756A (ja) * | 1993-06-03 | 1994-12-22 | Ricoh Co Ltd | 索引作成装置及び索引利用装置 |
Cited By (9)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
JP2004206552A (ja) * | 2002-12-26 | 2004-07-22 | Casio Comput Co Ltd | 情報表示制御装置及びプログラム |
US7403889B2 (en) | 2002-12-26 | 2008-07-22 | Casio Computer Co., Ltd. | Electronic dictionary with example sentences |
JP2005316947A (ja) * | 2004-03-31 | 2005-11-10 | Casio Comput Co Ltd | 情報表示制御装置、サーバ及びプログラム |
JP4715204B2 (ja) * | 2004-03-31 | 2011-07-06 | カシオ計算機株式会社 | 情報表示制御装置及びプログラム |
JP2005339150A (ja) * | 2004-05-26 | 2005-12-08 | Mitsubishi Electric Corp | 文書検索装置 |
US8641605B2 (en) | 2006-07-04 | 2014-02-04 | Olympus Medical Systems Corp. | Endoscope |
CN111767373A (zh) * | 2020-06-30 | 2020-10-13 | 平安国际智慧城市科技股份有限公司 | 一种文献检索方法、文献检索装置、电子设备及存储介质 |
JP2022073949A (ja) * | 2020-10-30 | 2022-05-17 | ソプラ株式会社 | セキュリティidの会話文検索システム |
JP7132576B2 (ja) | 2020-10-30 | 2022-09-07 | ソプラ株式会社 | セキュリティidの会話文検索システム |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
US4775956A (en) | Method and system for information storing and retrieval using word stems and derivative pattern codes representing familes of affixes | |
EP0530993B1 (en) | An iterative technique for phrase query formation and an information retrieval system employing same | |
JP3132738B2 (ja) | テキスト検索方法 | |
US6269189B1 (en) | Finding selected character strings in text and providing information relating to the selected character strings | |
US5995962A (en) | Sort system for merging database entries | |
JPS5850071A (ja) | 文書抜粋記憶 | |
US7440938B2 (en) | Method and apparatus for calculating similarity among documents | |
US8554539B2 (en) | Method for analyzing morpheme using additional information and morpheme analyzer for executing the method | |
JPH0628403A (ja) | 文書検索装置 | |
JP2000112953A (ja) | 文献検索方法、及びそのシステム | |
JP3612769B2 (ja) | 情報検索装置および情報検索方法 | |
JPH10207910A (ja) | 関連語辞書作成装置 | |
JP7103763B2 (ja) | 情報処理システムおよび情報処理方法 | |
JP2001331515A (ja) | 単語シソーラス構築方法及びコンピュータシステムに単語シソーラスの構築を行わせるためのコンピュータソフトウエアプログラム製品 | |
JPH0934905A (ja) | キーセンテンス抽出方式及び抄録方式及び文検索方式 | |
US20060248037A1 (en) | Annotation of inverted list text indexes using search queries | |
JP4640593B2 (ja) | 多言語文書検索装置および多言語文書検索方法、並びに、多言語文書を検索するプログラム | |
JP3848014B2 (ja) | 文書検索方法および文書検索装置 | |
JP4452527B2 (ja) | 文書検索装置、文書検索方法、および文書検索プログラム | |
JP2002251401A (ja) | 文書検索装置および方法ならびに記憶媒体 | |
JP2004318381A (ja) | 類義性計算方法、類義性計算プログラム、類義性計算プログラムを記録したコンピュータ読み取り可能な記録媒体 | |
JP2003223465A (ja) | 特許文献検索方法 | |
JP2013206130A (ja) | 検索装置、検索方法およびプログラム | |
JP2003162542A (ja) | 情報検索装置及び特許情報検索装置 | |
Nowak | Semantic Search: Design and Implementation of a Vertical Search Service |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
A131 | Notification of reasons for refusal |
Free format text: JAPANESE INTERMEDIATE CODE: A131 Effective date: 20040615 |
|
A02 | Decision of refusal |
Free format text: JAPANESE INTERMEDIATE CODE: A02 Effective date: 20050111 |