JP4389102B2 - Technical literature search system - Google Patents
Technical literature search system Download PDFInfo
- Publication number
- JP4389102B2 JP4389102B2 JP2002294626A JP2002294626A JP4389102B2 JP 4389102 B2 JP4389102 B2 JP 4389102B2 JP 2002294626 A JP2002294626 A JP 2002294626A JP 2002294626 A JP2002294626 A JP 2002294626A JP 4389102 B2 JP4389102 B2 JP 4389102B2
- Authority
- JP
- Japan
- Prior art keywords
- search
- data
- technical
- document
- condition
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Expired - Fee Related
Links
- 238000013332 literature search Methods 0.000 title claims description 16
- 238000000034 method Methods 0.000 claims description 66
- 239000000470 constituent Substances 0.000 claims description 16
- 238000000605 extraction Methods 0.000 claims description 6
- 238000013075 data extraction Methods 0.000 claims 2
- 238000012545 processing Methods 0.000 description 21
- 238000010586 diagram Methods 0.000 description 10
- 238000005516 engineering process Methods 0.000 description 6
- 238000007689 inspection Methods 0.000 description 4
- 238000012216 screening Methods 0.000 description 3
- 238000004891 communication Methods 0.000 description 2
- 238000000354 decomposition reaction Methods 0.000 description 2
- 238000002716 delivery method Methods 0.000 description 2
- 238000001514 detection method Methods 0.000 description 2
- 238000011161 development Methods 0.000 description 2
- 230000000694 effects Effects 0.000 description 2
- 238000011156 evaluation Methods 0.000 description 2
- 238000012986 modification Methods 0.000 description 2
- 230000004048 modification Effects 0.000 description 2
- 238000007796 conventional method Methods 0.000 description 1
- 238000012937 correction Methods 0.000 description 1
- 238000001914 filtration Methods 0.000 description 1
- 230000006870 function Effects 0.000 description 1
- 238000011160 research Methods 0.000 description 1
- 238000007493 shaping process Methods 0.000 description 1
- 239000002699 waste material Substances 0.000 description 1
Images
Landscapes
- Information Retrieval, Db Structures And Fs Structures Therefor (AREA)
Description
【0001】
【発明の属する技術分野】
本発明は、特許情報データベース等の技術文献を検索するシステムに関するものである。
【0002】
【従来の技術】
従来の特許情報の検索システムには、例えば、株式会社パトリスにより提供されているPATOLIS(登録商標)−WEBのような特許情報検索システムが知られている。こうした従来のシステムを用いて先行技術の調査や、中間処理の異議・無効手続を行うための文献調査を実施する場合には、国際特許分類の分類コードや、キーワード等の検索条件を論理式にして、テキスト検索等を行っている。こうした検索システムを用いての調査は一般的に以下のような手順で行われる。
手順1、分類コードや論理式などの適宜な条件で検索を行う。
手順2、検索結果の文献の要約部等に着目して1次スクリーニングを行う。
手順3、1次スクリーニングで抽出した文献を精査し2次抽出を行う。
手順4、2次抽出した文献から、構成要件に該当する部分を抜き出して対比資料を作成する。
【0003】
また、特許文献1に開示されている特許公報検索システムには、特許情報データベースからバッチ転送された特許公報データを、特別の処理支援プログラムにより再構築して、例えば、企業の開発セクション等で利用しやすいような、特定技術の分野の開発状態、先行技術などが一目で分かるように構成する等により、企業内等のセクション毎に再利用しやすい形式に編集し直して、利用するようにしたものがある。
【0004】
一方、特許文献2〜特許文献4には特許情報データベースとは直接関係ないが、一般的な文書データ等の各種検索技術が開示されている。
特許文献2にはSGML(Standard Generated Markup Language)などのマーク付け言語を利用して構造化した文書データ、すなわち、文書の表題、章題、本文と言った文書構成要素の名前とその範囲が、適当な記号を用いて文書中にマーク付けされた文書による構造化文書データベースを構築して、文書構成要素により構成したキーワードにより類似文書の検索を行うものである。
【0005】
また、特許文献3には、文書データのデータベースを構築する文書構成要素として、マーク付け言語等を利用して章、節、段落、枠といった論理構造に分割される文書構成要素を、木構造のデータ構造でデータベースに記憶して、データベース検索技術等を利用して検索するものである。
【0006】
特許文献4は、検索単位データとして文書中より抽出された単語と、他の特許文献にも見られる「文」「段落」と言った文書構成要素との、両方で構築して検索する例を開示している。
そして検索結果を判定する検索適合文書検索語関連算出部では、「単語」あるいは「文書構成要素」の位置情報を算出し、例えば、検索単語が文中に何回出現したかを調べ、出現位置を文末(あるいは文頭)から見た位置情報等で表し、近接演算を行って適合度を判定している。
【0007】
【特許文献1】
特開2001−22794号公報 (段落〔0020〕、図1)
【特許文献2】
特開平7−44567号公報 (段落〔0019〕、図1)
【特許文献3】
特開平8−44766号公報 (段落〔0010〕、図3)
【特許文献4】
特開2002−189754号公報 (〔要約〕、図1)
【0008】
【発明が解決しようとする課題】
上記従来の手法では、手順1においては、文献データ全体として検索条件が判定される(検索条件に指定した語句それぞれが文献データ中に存在するか、を検索する)ために、関連性の薄い文献も多く検索されてしまう(一般に「ノイズ」と呼ばれる)という問題があった。
手順2の場合は、文献データの一部分にのみ着目してスクリーニングを行うので、重要な文献を見落としてしまう恐れがあるという問題があった。
手順3、4、の場合は、構成要件チェック表などを作成して、文献ひとつひとつ対応関係を把握しながら作業を行うため、作業量が膨大になるという問題があった。
【0009】
特許文献1に示される技術を用いれば、上記手順2〜3が効率化されるが、依然、文献データをひとつひとつ目読検査する必要があるものである。
特許文献2に示される技術を用いれば、類似度順の検査を行うことが出来るため、早期に目的の文献を発見できる可能性が高まる。しかし、類似度は文書全体としての評価であるため、上記手順3〜4の作業に対しては、何ら改善の手段が提供されない。
特許文献3に示される技術は、文書の構成要素に着目した検索技術であるが、文書の再利用を目的としたものであるため、本願の課題である「複数の構成要素を全て(可能な限り多く含む)文献を検索する」という目的に利用するには、更なる改良が必要である。
特許文献4に示される技術を用いれば、検索条件が文書全体としての評価でなく、段落等を単位とした合致判定が行われるので、上記手順1における検索ノイズを小さくできるが、本願の目的に利用する場合の効果は、特許文献2の技術と同程度である。
【0010】
そこで本発明は、高効率な文書データ検索技術、データベース検索技術などを導入して、所望の特許情報・公報を迅速に、正確に無駄無く検索できる技術文献検索システムを提供することを目的としている。
【0011】
上記目的を達成するため、請求項1に記載の発明は、電子化されて記憶手段に格納された、複数の単位データからなる技術文献データを検索するコンピュータシステムであって、検索対象技術を構成する複数の構成要素毎に、前記各構成要素を表わすデータの入力を受け付ける構成要素入力手段と、前記各構成要素毎に検索条件の入力を受け付ける検索条件入力手段と、前記各構成要素毎に、前記検索条件に基づいて前記技術文献データを検索する検索手段と、検索された前記技術文献データ中から前記検索条件に合致する単位データを抽出する単位データ抽出手段と、検索された前記技術文献毎に、当該技術文献が前記構成要素毎の検索条件を満たすか否かを示す構成要素配列データと前記検索条件に合致した前記単位データおよび当該技術文献の識別データとを対応付けて記録する記録手段と、を備えたことを特徴とする。
【0012】
また、請求項2に記載の発明は、請求項1記載の技術文献検索システムにおいて、技術文章データの入力を受け付ける入力手段と、前記技術文章データを解析して複数の文章データに分割し、該分割された文章データを前記構成要素入力手段に引き渡す技術構成分解手段を備えたことを特徴としている。
また、請求項3に記載の発明は、請求項1記載の技術文献検索システムにおいて、用語の辞書データを記憶する辞書記憶手段と、前記辞書データを参照して前記構成要素を表わすデータから技術用語を抽出し、抽出された技術用語を前記検索条件入力手段に引き渡す技術用語抽出手段を備えたことを特徴としている。
また、請求項4に記載の発明は、請求項1記載の技術文献検索システムにおいて、類似語の組を複数記憶する類似語記憶手段と、検索条件入力手段により入力を受け付けられた検索条件に含まれるキーワード毎に、該キーワードに対応する類似語を前記類似語記憶手段より取得し、取得した類似語を前記検索条件に拡張して追加する類似語追加手段とを備えたことを特徴としている。
また、請求項5に記載の発明は、請求項1記載の技術文献検索システムにおいて、検索適合度の条件を定義する適合度条件の入力を受け付ける適合度条件入力手段と、検索された技術文献毎に前記検索適合度を算出する検索適合度算出手段とを有し、前記単位データ抽出手段は、前記検索適合度が前記適合条件に合致する技術文献データを対象として単位データの抽出処理を行うことを特徴としている。
また、請求項6に記載の発明は、請求項1記載の技術文献検索システムにおいて、前記検索手段が検索対象とすべき技術文献データの属性の入力を受け付ける対象条件入力手段を有し、前記検索手段は前記属性に合致する技術文献データのみを検索することを特徴としている。
また、請求項7に記載の発明は、前記検索手段は、前記技術文献データ内の所定の範囲毎に前記検索条件に基づく検索を行うことを特徴としている。
また、請求項8に記載の発明は、前記検索手段は、前記技術文献データがチャプター化されている場合に、所定のチャプターに属するデータを検索しないことを特徴としている。
【0013】
【発明の実施の形態】
以下、本発明の実施の形態について図を参照して説明する。
[第1の実施の形態]
図1は、本発明の、第1の実施の形態に係る技術文献検索システムのブロック図である。
本実施の形態は、パーソナルコンピュータ(以下「PC」)やワークステーションなどで動作可能なソフトウェアシステムである。市販されているごく一般的なPC等を利用できるので、ハードウェア構成(図示せず)についての説明は次の通り簡単に留める。
【0014】
図1の検索条件入力部2は、検索条件入力画面を表示するプログラム、ディスプレイ等の表示デバイスおよびマウス、キーボード等の入力デバイスである。文献データ1は、HDD等の記憶装置に格納される。検索処理部3は、検索条件入力部2で入力された検索条件による検索処理を実施するプログラムである。ヒットテーブル4および抽出データリスト5は、検索処理部3により検索結果として出力され、主記憶またはHDD等の二次記憶装置に格納される。
検索結果出力部6は、検索結果を表示するプログラムおよびディスプレイ等の表示デバイスであり、検索結果の表示画面はマウス、キーボード等の入力デバイスにより操作する。
【0015】
まず、図4を参照し、検索条件の入力について説明する。
図4は、コンピュータのディスプレイに表示される検索条件の入力画面を示す一例である。
図4の「IPC」の欄は、検索対象とする文献データをフィルタリングするために用いられ、以下「対象条件」として説明する。対象条件は、IPC(International Patent Classification)とは別の文献分類コードや、文献の発行日その他の書誌事項、あるいは文献データを全体として検索するためのキーワードの組み合わせを入力するものであってもよい。
【0016】
「構成要件」の欄には、検索対象技術の各構成要素を表す文章データを入力する。
「検索条件」の欄には、各構成要素に対応する検索式を入力する。
「重要」の欄は、特に重視する構成要素を指定するために用いるものであり、マウスでクリックする等してチェックON/OFFの切り替えが可能となっている。
「検索場所」は、文献データが格納されている記憶装置上の位置を指定するものである。ディレクトリを直接キーボード入力してもよいし、また、「参照」ボタンをマウスでクリックすることによって、ディレクトリの一覧(図示せず)よりGUI操作で選択することも可能である。
「ヒット条件」の欄には、検索された文献データそれぞれについて、検索結果として出力するか否かを定めるためのしきい値を入力する。
「抽出箇所の数」の欄には、各構成要素に対応する単位データをひとつの文献あたりいくつまで検索ないし抽出するかを定めるものである。
「重要チェック要素を必須」の欄は、前記「重要」の欄がチェックONにされた構成要件については必ず検索条件が満たされなければならないことを表すものである。すなわち、構成要件Bの検索条件が満たされない文献データは検索結果として出力されない。
操作者がキーボードやマウスを用いて上記の各入力を行い「検索実行」のボタンにより指示を行うと、検索処理が開始される。
【0017】
次に、図2のフローを参照して検索処理について説明する。
検索処理の開始に当たり、まず、構成要素配列を生成する(S100)。
ここで構成要素配列とは、各構成要素(図4に示す入力画面の「構成要件」)に対応する検索条件が満たされるか否かを記憶するための配列である。本実施の形態では、構成要素の数の配列要素を持つ整数配列であり、先頭の配列要素を示す添字が1であるものとする。
続いて、抽出データリストを生成する(S101)。
抽出データリストは、図3に示すように、構成要素毎に検索条件に合致する文章データを格納するための領域である。リストの各要素が各構成要素に対応しており、リストの各要素は更に検索条件に合致する文章データ(文字列データ)のリストを格納可能に構成される。
【0018】
次に検索対象の文献データが残されているか否かを判断する(S102)。肯定判定であれば、ヒットテーブルを適合度に応じて並べ替えて出力する(S103)。文献データが終わりでなければ、続けて文献データを読込み(S104)、対象条件に合致するかの判定を行う(S105)。例えば、特許文献データの場合は、文献データ中に書誌データが含まれているので、書誌データと入力された対象条件を比較することで判定を行うことができる。
S105が肯定判定であればS106に進み、構成要素配列、抽出データリストを初期化(ゼロクリア)する。
【0019】
次に文献データから本文部分以外(例えば書誌データ)を除去し(S107)、テキスト整形を行う(S108)。
特許文献における書誌事項記載部分、一般技術文献における引用・参考文献記載部分などは検索対象とされないのが好ましいため、このような部分を除去する処理をS107にて行う。特許文献など、章構成や文書構造化のためのタグが定義された文献データの場合は、該定義にしたがって、除去すべき部分を容易に判定できる。構造化文書以外では、一般に引用・参考文献は文献データの最後に記載されるので、文献データの内容を検査し、「引用文献」「参考文献」などの文字列のみからなる行が存在したら、その行以降を除去するようにするとよい。
S108での処理は、マーク付け言語などのフォーマットのタグ等を除去して普通文とし、文献データの所定の範囲ごとに1行のテキストデータとなるように改行を再編成する。
ここで所定の範囲とは、句点(。や.)で区切られた一文を表す文字列データでもよいし、複数文からなる段落を表す文字列データであってもよい。段落の区切りは、CR(Carriage Return)やLF(Line Feed)などの改行コードにより判定することができる。
【0020】
S109では、検索中の構成要素の番号を示すための変数nをゼロに初期化する。S110では、次の構成要素の検索処理に移るために、変数nをインクリメントする。
S111では、変数nが入力された構成要素の数よりも大きいか、すなわち全ての構成要素について検索処理が行われたか否かを判定する。判定が肯定であればS112へ進み、否定であればS116へ進む。
【0021】
S116〜S119の手順は、S108により整形されたテキストデータに対して、行単位に検索が行われるものである。S116では、検索中の行番号を示すための変数Lをゼロに初期化し、S117において変数Lがインクリメントされる。S118では、変数Lの値が前記テキストデータの行数を超えたか否かが判定され、肯定判定であればS110に戻り、次の構成要素の検索処理が行われる。否定判定であればS119において、現在の行Lが構成要素nに対応する検索条件Nに合致するか否かの判定を行う。S119の判定が否定であれば、S117に戻り、次の行の検索処理が行われる。判定が肯定であれば、S120に進む。
【0022】
S120では、構成要素配列[n]の値をインクリメントする。構成要素配列[n]の値は、構成要素nに対応する(検索条件Nに合致する)行の数を表している。
次に、S121において、抽出データリスト[n]に行Lの内容を追加する。
S122では、構成要素配列[n]の値が図4に示す入力画面の「抽出箇所の数」に入力された値に達したか否かの判定を行う。肯定判定であればS110に戻り、次の構成要素の検索処理に移る。否定判定であればS117へ戻り、次の行の検索処理を続行する。
【0023】
前述の通り、S111において全ての構成要素の検索処理が完了したと判断された場合、S112以降の処理が行われる。S112では、構成要素充足率の算出を行う。
構成要素充足率の算出は、構成要素配列を参照し、
値>0である配列要素の数÷配列要素の全体の数×100
であり、すなわち、
検索条件に合致する段落(行)がある構成要素の数÷構成要素の数×100
と実質同一となる。
次にS113において、算出された構成要素充足率が所定値以上であるか否かを判定する。ここで所定値とは、例えば図4の「ヒット条件」に入力された値である。否定判定であれば、当該文献データは全体として検索条件に合致しないこととなり、S102へ戻って次の文献データの検索処理を開始する。
【0024】
S114においては、図4の「重要」のチェックが付された構成要素が全て充足しているか否かを判定する。これは、
構成要素配列[m]の値>0
となるか否かにより判定することができる(mは「重要」のチェックが付された構成要素の先頭からの位置を示す)。否定判定であれば、S113の場合と同様に、S102へ戻って次の文献データの検索処理を開始する。なお、図4において「重要チェックを必須」が選択されていない場合は、S114の判定処理は不要であり、そのままS115へ進む。
S114が肯定判定であることにより、該文献データが検索条件に合致することとなり、S115において該文献データの情報をヒットテーブルに追加する。
【0025】
図5は、ヒットテーブルの一例であり、「文献識別番号」は公報番号などであり、「スコア」は検索適合度、充足率などを表す数字である。「スコア」は、構成要素充足率をそのまま用いてもよいし、他の条件により算出してもよい。また、検索条件に合致する段落の数を加味したスコアとしてもよい。S113においてこのような「スコア」を算出し、構成要件充足率に代えて該スコアによりS113の判定を行うものであってもよい。
また、ここでは抽出した段落データ(または文章データ)を持続的に格納するための新たなメモリ領域を割当て、フロー処理において格納された抽出データリストの内容を複写し、割り当てられたメモリ領域へのポインタをヒットテーブルの「抽出データリストへのポインタ」に記憶する。
以上の手順により、全ての文献の検索処理が終わると、S103において、「スコア」の値が大きい順にヒットテーブルの並べ替えを行う。
【0026】
図6は、ヒットテーブルに基づき検索結果が出力された表示画面の一例である。
図6の「文献番号」にはヒットテーブルの「文献識別番号」が対応する。
A〜Fの列は、ヒットテーブルの「構成要素配列」に対応し
構成要素配列の値>0
であるときに「*」を表示して、該構成要素に対応する段落が該文献に存在することを示している。「*」を表示するのに代えて、構成要素配列の値そのものを表示してもよい。
図6は更に、左方の表において行1の構成要素(この場合B)の欄がマウスクリック等で選択されたときの様子を示している。すなわち、右方には、構成要素Bに対応する文章データ(図4の「構成要件2の文章データ」に相当)、およびそれに対応する検索条件式、更に、行1の文献(特開XXXX−XXXXXX)より抽出された文章データのうち、構成要素Bに対応する文章データが出力される。このように左方の表において、所定の構成要素の欄を選択すると、図4における入力データおよびヒットテーブルを参照して、対応するデータが右方に表示されるものである。更に、抽出された文章データのうち、検索条件式中に現れる語はハイライト表示される。
図6に示すA〜Fの列のうち、図4の「重要」にチェックが付された構成要素に対応する列は太字あるいは色分け等により強調表示するとよい。
【0027】
更に、図6において、文献を選択するためのチェックボックスが表示されており、操作者は選択した文献と構成要素との対応表を作成する指示を行うことができる(図示せず)。対応表の一例は図7に示す通り、選択された文献より抽出された文章データが各構成要素に対応する体裁を有しているものであって、プリンタ等の印字装置に出力されてもよいし、HTML形式等の文書ファイルとして出力されてもよい。
また、図6の画面において、例えば「特開XXXX−XXXXXX」の文字上をマウスでダブルクリックすると、ヒットテーブルの「ファイル名」の値に基づき、特開XXXX−XXXXXXの原文データが該ファイルから読み込まれてディスプレイに表示される(図示せず)。
このようにして、操作者は、各文献に目的とする記述が存在するか否かを容易に確認することができる。
【0028】
[変形例]
上記は、あらかじめHDD上に格納された文献データを対象条件によりフィルタリングした後、対象条件に合致する文献データに対して構成要素ごとの検索処理を行うものであったが、次のように変形することができる。
図4に示す入力画面で入力が完了し、操作者に検索実行の指示がなされたあと、通信回線を介して外部の文献データベースサーバーに接続し、該データベースに対して対象条件による検索実行のクエリーを発行し、検索結果の文献データを指定された「検索場所」にダウンロードし、ダウンロードされた文献データを対象として構成要素ごとの検索処理を行うようにしてもよい。この場合、S105の処理は不要となる。
【0029】
[応用例]
本実施の形態は更に以下のように応用することが可能である。
[応用例1]
図4において、構成要件の文章データは、構成要件ごとに該当する枠内に入力されるものであったが、所定の方法で入力された一連の文章データを解析して各構成要素に自動的に分解し、各構成要件入力欄にセットするようにしてもよい。
具体的には、一連の文章データである文字列データを、読点(“、”や“,”などの記号)で区切り、区切られた各部分を一構成要素として解釈するものである。
更に、各部分の文字数が所定の数以下であるときに、次の部分と連結してひとつの構成要素とする補正を行ってもよい。
【0030】
[応用例2]
技術用語と品詞を対応付けた辞書データを用意し、構成要素である部分文章データから、前記辞書に存在する技術用語を抽出して検索条件入力欄にセットするようにすることができる。また、汎用語辞書データを更に用意して、該汎用語辞書に含まれる技術用語を前記抽出された技術用語群から取り除くなどして、技術的特徴に直接結びつかない語句(例えば「手段」「ステップ」「方法」「装置」など)を検索条件入力欄にセットされないようにしてもよい。
検索条件入力欄への引き渡し方法については、抽出した技術用語を単純に羅列して検索条件入力欄にセットし、その結果、各用語が論理積(AND結合)または論理和(OR結合)で検索されるようにするものであってもよい。
他の引き渡し方法としては、抽出した技術用語を名詞群と非名詞群に分け、各群の内部においてはOR結合、各群相互間はAND結合となるようにしてもよい。
【0031】
[応用例3]
類似語辞書データを更に用意し、検索条件入力欄にセットされた各検索語について、類似語辞書に登録されている用語については、該検索語とそれに対応する類似語とをOR結合した検索条件式に拡張するものであってもよい。
一例としては、検索条件入力欄に、
構成*要素*検索
と入力された後、操作者よりの類似語拡張の指示により各語を類似語辞書において検索し、取得された類似語を用いて
(構成+構造)*(要素+エレメント)*(検索+検出+検査)
の様に検索式を拡張するものである。
この例では、類似語辞書には「構成」に対応する類似語として「構造」が記憶されており、同様に「要素」に対して「エレメント」が、「検索」に対して「検出」および「検査」が記憶されているものである。
【0032】
上記応用例1〜応用例3は、文章データが入力された後、操作者の指示を介さず自動的に処理が実行され、検索処理が開始されるようにしてもよい。
また、文章データの記述スタイルを複数に類型化し、該類型中から操作者が選択した類型に応じた文章データ分解・用語抽出処理が選択されて実行されるものであってもよい。
【0033】
[第2の実施の形態]
第2の実施の形態は、クライアント/サーバーのコンピュータシステム(図示せず)により運用され、クライアントコンピュータにて検索条件を入力してサーバーに送信し、サーバーコンピュータにおいては、クライアントより受信した検索条件にもとづき検索処理を行い、検索結果をクライアントに送信するものである。
【0034】
クライアントは第1の実施の形態と同様、一般的なPCを用いて図4に示す入力画面を用いた検索条件の入力が行われる。そして入力された内容が通信回線を介してサーバーに送信される。
第1の実施の形態においては、文献データごとに逐一検索処理を行っていたが、第2の実施の形態においては、サーバー上に一般的な構成の文献データベースが構築されており、この検索システムを効果的に利用する点で第1の実施の形態と大きく異なる。
【0035】
図8は、第2の実施の形態に係るサーバー上の検索システムのブロック図である。
サーバー上の記憶装置には、文献データが格納された原文データベース10と、該原文データベース10に対応する文献識別番号と書誌データが対応づけられた書誌インデックス11、文献識別番号と全文検索用のインデックスを対応づけた全文インデックス12が記憶されている。
【0036】
サーバーにおいては、検索条件をクライアントより受信した後、以下の通り処理が行われる。
まず、検索条件に含まれる対象条件を用いて1次検索を行う。対象条件がIPCなどの書誌事項であれば、書誌検索エンジン13により書誌インデックスを検索し、該当する文献識別番号のリストを得る(識別データリスト1(15))。対象条件に全文検索のためのキーワードが含まれている場合は、全文検索エンジンに14より全文インデックスを検索し、該当する文献識別番号のリストを得る(識別データリスト2(16))。
【0037】
次いで、演算処理部17により識別データリスト1(15)と識別データリスト2(16)の和集合を演算し、ヒットリスト18を得る。
以上により、ヒットリスト18は、対象条件に合致する文献識別番号のリストとなる。このヒットリスト18に示される文献データを原文データベース10から読み込み、第1の実施の形態と同様に、図2のフローチャートに従う2次検索(構成要素ごとの検索)処理を行うことで、検索結果を得ることができる。
【0038】
しかし、この方法では、処理すべき文献データの数が膨大になり、サーバーの処理負荷が高くなるおそれがあるので、以下の様にして最終ヒットリストを作成するようにするとよい。
ヒットリストが得られた後、構成要素ごとの検索条件nで全文インデックス12を検索し、識別番号リスト211〜21n(識別データリスト2(16)に代わる)を出力する。
そして、前記ヒットリスト、および識別番号リスト211〜21nに含まれる文献識別番号の和集合をとり、最終ヒットリストとする。
こうすれば、2次検索処理の対象文献を必要最小限に絞り込むことができる。
そして、最終ヒットリストに示される文献データを原文データベース10から読み込み、第1の実施の形態と同様に、図2のフローチャートに従う2次検索(構成要素ごとの検索)処理を行うことで、検索結果を得ることができる。サーバーは検索結果として得られたヒットテーブルと抽出データリスト(図1のヒットテーブル4と抽出データリスト5に対応)をクライアントに送信し、クライアントではこれに基づき、図6に示す表示出力を行うことができる。
【0039】
前述した最終ヒットリストを演算する段階で、構成要素充足率の計算を行い、指定された条件に合致するもののみを最終ヒットリストに出力してもよい。
具体的には、
1、構成要素の数×指定された構成要素充足率(ヒット条件)÷100=必要数K(小数切捨)とする
2、各ヒットリストを連結し、識別番号順に並べ替えを行い、リストの先頭から検査して同一の識別番号がK個以上連続すれば該識別番号を最終ヒットリストに出力する
というものである。こうすれば、図2のフロー中「構成要件充足率の算出」(S112)「充足率が所定値以上?」(S113)などの処理は不要となる。
【0040】
これと同時に、更に必須要素充足の判定を行い、指定された条件に合致するもののみを最終ヒットリストに出力してもよい。具体的には、
1、必須要素として指定された(図4において「重要」のチェックが付された)構成要素に対応する識別番号リスト2nの和集合を採る・・・(X)
2、必須要素として指定された以外の構成要素に対応する識別番号リスト2nを連結する・・・(Y)
3、構成要素の数×指定された構成要素充足率÷100−必須要素の数=必要数k(小数切捨)とする
4、(Y)の先頭から検査し、
a、同一番号がk個以上ある
b、該番号が(X)に存在する
が共に肯定判定であれば、最終ヒットリストに出力する。
こうすれば、図2のフロー中「必須要素すべて充足?」(S114)の処理が不要となる。
【0041】
[第3の実施の形態]
第3の実施の形態もまた、クライアント/サーバーの形で運用されるものである。
第2の実施の形態との違いは、全文検索エンジンが近接演算(近傍検索)機能を有していることである。
第3の実施の形態においても、まず第2の実施の形態と同様の1次検索処理を行う。
次に、全文検索エンジンを用いて、構成要素ごとの検索条件式を用いた近傍検索を行う。この検索処理を行った結果、図10に示すようなデータが得られる。
【0042】
図10(a)は、ひとつの構成要素について検索を行った結果得られるものであり、検索条件式に合致する文献データ中の範囲:位置1〜位置mが得られる。
そして、全ての構成要素についての近傍検索が終了すると、図10(a)の検索結果が構成要素の数だけ得られるので、これらを図10(b)の通り統合する。具体的には、文献識別番号については和集合をとり、図10(a)の位置情報を図10(b)の構成要素位置情報の対応する領域に複写する。
そして、図10(b)に含まれる文献識別番号の集合と、前記1次検索の結果であるヒットリストに含まれる文献識別番号の集合との積をとり(AND演算)、最終ヒットリスト(図10(b))とする。
【0043】
最終ヒットリストに含まれる各文献に対して、図9のフローに従う処理を行う。
図9のフローの手順は、図2のフロー手順を変形したものである。図2の手順と大きく異なるところは、行ごとに検索条件に合致するか否かの判定が不要であることである。なぜなら、最終ヒットリスト(図10(b))に、構成要素に該当する単位データの位置が既に取り出されているからである。
図9における、図2のステップ番号と同じステップ番号を付された手順内の処理は、図2に関して前述したものと同様の処理が行われるものであるため、第1の実施の形態に記載した説明を参照されたい。
【0044】
S123においては、変数mを初期化し、S124で該変数mをインクリメントする。変数mは、図10(b)のデータにおける位置1〜位置mを定めるためのインデックス値として用いるものである。
S125において、構成要素nに対応する複数の位置情報のうち、位置mの情報を得る。
S126では、S125で取得した位置情報で示される範囲のテキストデータを文献データ中から抽出する。以降の手順は、図2における場合と同様である。
【0045】
このように本発明によれば、「文」「段落」などの構成要素の集合として文献データを捉えた効率的な特許情報の検索システムを構築でき、特許情報データベースの検索技術に限定されず、技術単語、構成要素などの単位データの構造を効率的にカスタマイズして生成することによって、他の技術文献(例えば、ISO、各種研究所、大学の資料データベース等)の技術文献検索システムにも適用可能である。
【0046】
【発明の効果】
以上説明したように、本発明によれば、電子化された技術文献データを検索する文献検索システムであり、技術の構成要素データと共に構成要素毎に検索条件を入力することで技術文献データを検索し、検索条件に合致する単位データを抽出して、構成要素データと単位データおよび該単位データに対応する技術データの識別データとを対応付けて出力するので、先行技術、異議・無効調査その他の目的で特許情報データベースを検索する場合や、他の技術情報の検索に適用した場合の利用者の処理が簡単化され、迅速で正確に所望の文献識別番号を検索できるという効果がある。
【図面の簡単な説明】
【図1】本発明の、第1の実施の形態に係る技術文献検索システムのブロック図である。
【図2】図1に示すシステムの処理のフローチャートである。
【図3】抽出データリストの構造を示す図である。
【図4】検索入力画面の一例を示す図である。
【図5】ヒットテーブルの一例を示す図である。
【図6】検索結果の出力画面の一例を示す図である。
【図7】検索条件と検索結果とを対応させた出力例を示す図である。
【図8】本発明の、第2の実施の形態に係る技術文献検索システムのブロック図である。
【図9】本発明の、第3の実施の形態に係る技術文献検索システムの処理のフローチャートである。
【図10】第3の実施の形態で用いられる近傍検索の出力の一例を示す図であり、(a)はひとつの構成要素についての検索結果を示し、(b)は構成要素を統合したリストを示している。
【符号の説明】
1 文献データ
2 検索条件入力部
3 検索処理部
4 ヒットテーブル
5 抽出データリスト
6 検索結果出力部
10 原文データベース
11 書誌インデックス
12 全文インデックス
13 書誌検索エンジン
14 全文検索エンジン
15 識別データリスト1
16 識別データリスト2
17 演算処理部
18 ヒットリスト[0001]
BACKGROUND OF THE INVENTION
The present invention relates to a system for searching technical documents such as a patent information database.
[0002]
[Prior art]
As a conventional patent information search system, for example, a patent information search system such as PATOLIS (registered trademark) -WEB provided by Patrice Co., Ltd. is known. When conducting a prior art search using this conventional system, or a literature search for an intermediate processing objection / invalidation procedure, search criteria such as classification codes for international patent classifications and keywords should be expressed in logical formulas. Text search and so on. A survey using such a search system is generally performed in the following procedure.
Search is performed under appropriate conditions such as
The primary screening is performed by paying attention to the
[0003]
Further, in the patent publication search system disclosed in
[0004]
On the other hand,
[0005]
[0006]
Then, the search relevant document search word related calculation unit for determining the search result calculates the position information of “word” or “document component”, for example, checks how many times the search word appears in the sentence, and determines the appearance position. It is expressed by position information seen from the end of the sentence (or the beginning of the sentence), and the proximity calculation is performed to determine the fitness.
[0007]
[Patent Document 1]
JP 2001-22794 A (paragraph [0020], FIG. 1)
[Patent Document 2]
Japanese Unexamined Patent Publication No. 7-44567 (paragraph [0019], FIG. 1)
[Patent Document 3]
Japanese Patent Laid-Open No. 8-44766 (paragraph [0010], FIG. 3)
[Patent Document 4]
JP 2002-189754 ([Summary], FIG. 1)
[0008]
[Problems to be solved by the invention]
In the above conventional technique, in
In the case of the
In the case of
[0009]
If the technique shown in
If the technique disclosed in
The technique disclosed in
If the technique disclosed in
[0010]
Therefore, the present invention has an object to provide a technical document search system capable of quickly and accurately searching for desired patent information / gazette without waste by introducing highly efficient document data search technology, database search technology, and the like. .
[0011]
In order to achieve the above object, the invention described in
[0012]
According to a second aspect of the present invention, there is provided the technical document data search system according to the first aspect. Accept input It is characterized by comprising an input means and a technical composition decomposition means for analyzing and dividing the technical text data into a plurality of text data and delivering the divided text data to the component input means.
Further, the invention according to
Further, the invention according to
Further, the invention according to
The invention according to
The invention according to
The invention according to claim 8 is characterized in that the search means does not search for data belonging to a predetermined chapter when the technical document data is chaptered.
[0013]
DETAILED DESCRIPTION OF THE INVENTION
Hereinafter, embodiments of the present invention will be described with reference to the drawings.
[First Embodiment]
FIG. 1 is a block diagram of a technical literature search system according to the first embodiment of the present invention.
The present embodiment is a software system operable on a personal computer (hereinafter “PC”) or a workstation. Since a commercially available PC or the like can be used, the description of the hardware configuration (not shown) will be briefly given as follows.
[0014]
The search
The search
[0015]
First, input of search conditions will be described with reference to FIG.
FIG. 4 shows an example of a search condition input screen displayed on the computer display.
The column “IPC” in FIG. 4 is used for filtering document data to be searched, and will be described below as “target conditions”. The target condition may be a document classification code different from IPC (International Patent Classification), a publication date of the document, other bibliographic items, or a combination of keywords for searching the document data as a whole. .
[0016]
Text data representing each component of the search target technology is entered in the “component requirement” column.
In the “search condition” column, a search expression corresponding to each component is entered.
The “important” column is used for designating components to be particularly emphasized, and can be switched ON / OFF by clicking with a mouse or the like.
“Search location” designates a location on the storage device where the document data is stored. The directory may be input directly from the keyboard, or by clicking a “reference” button with a mouse, a directory list (not shown) can be selected by GUI operation.
In the “hit condition” column, a threshold value for determining whether to output each retrieved document data as a search result is input.
The column “number of extraction locations” defines how many unit data corresponding to each component are searched or extracted per document.
The “essential check element is required” column represents that the search condition must be satisfied for the configuration requirement in which the “important” column is checked. That is, document data that does not satisfy the search condition of the component requirement B is not output as a search result.
When the operator inputs each of the above using the keyboard or mouse and gives an instruction using the “Search” button, the search process is started.
[0017]
Next, the search process will be described with reference to the flow of FIG.
In starting the search process, first, a component array is generated (S100).
Here, the component array is an array for storing whether or not a search condition corresponding to each component (“component” on the input screen shown in FIG. 4) is satisfied. In this embodiment, it is an integer array having the number of array elements, and the subscript indicating the first array element is 1.
Subsequently, an extracted data list is generated (S101).
As shown in FIG. 3, the extracted data list is an area for storing text data that matches the search condition for each component. Each element of the list corresponds to each component, and each element of the list is configured to be able to store a list of text data (character string data) that matches the search condition.
[0018]
Next, it is determined whether or not the document data to be searched remains (S102). If the determination is affirmative, the hit table is rearranged according to the fitness level and output (S103). If the document data is not over, the document data is continuously read (S104), and it is determined whether the target condition is met (S105). For example, in the case of patent document data, since bibliographic data is included in the document data, the determination can be made by comparing the bibliographic data with the input target condition.
If S105 is affirmative, the process proceeds to S106 to initialize (zero clear) the component array and the extracted data list.
[0019]
Next, parts other than the body part (for example, bibliographic data) are removed from the document data (S107), and text shaping is performed (S108).
The bibliographic item description part in the patent document, the citation / reference document description part in the general technical document, etc. are preferably not to be searched, so the process of removing such a part is performed in S107. In the case of document data such as a patent document in which tags for chapter structure and document structuring are defined, a portion to be removed can be easily determined according to the definition. Except for structured documents, citations and references are generally listed at the end of the document data, so the contents of the document data are inspected, and if there is a line consisting only of a character string such as "cited document" or "reference document" It is recommended to remove the lines after that line.
In the processing in S108, tags in a format such as a markup language are removed to form a normal sentence, and line breaks are rearranged so that one line of text data is obtained for each predetermined range of document data.
Here, the predetermined range may be character string data representing a sentence separated by punctuation marks (. Or.), Or character string data representing a paragraph composed of a plurality of sentences. The paragraph break can be determined by a line feed code such as CR (Carriage Return) or LF (Line Feed).
[0020]
In S109, a variable n for indicating the number of the component being searched is initialized to zero. In S110, the variable n is incremented in order to proceed to the search process for the next component.
In S111, it is determined whether or not the variable n is larger than the number of input components, that is, whether or not the search processing has been performed for all the components. If the determination is affirmative, the process proceeds to S112, and if the determination is negative, the process proceeds to S116.
[0021]
In the procedure of S116 to S119, the text data shaped in S108 is searched for in units of lines. In S116, a variable L for indicating the line number being searched is initialized to zero, and the variable L is incremented in S117. In S118, it is determined whether or not the value of the variable L exceeds the number of lines of the text data. If the determination is affirmative, the process returns to S110, and the search process for the next component is performed. If the determination is negative, in S119, it is determined whether or not the current row L matches the search condition N corresponding to the component n. If the determination in S119 is negative, the process returns to S117, and the search process for the next row is performed. If the determination is positive, the process proceeds to S120.
[0022]
In S120, the value of the component array [n] is incremented. The value of the component array [n] represents the number of rows corresponding to the component n (matching the search condition N).
Next, in S121, the contents of the row L are added to the extracted data list [n].
In S122, it is determined whether or not the value of the component array [n] has reached the value input in “Number of extraction locations” on the input screen shown in FIG. If it is affirmation determination, it will return to S110 and will move to the search process of the following component. If the determination is negative, the process returns to S117, and the search process for the next line is continued.
[0023]
As described above, when it is determined in S111 that the search process for all the constituent elements has been completed, the processes after S112 are performed. In S112, the component satisfaction rate is calculated.
To calculate the component satisfaction rate, refer to the component array,
Number of array elements with value> 0 ÷ total number of array elements × 100
That is,
Number of components with paragraphs (rows) that match the search condition ÷ number of components × 100
Is substantially the same.
Next, in S113, it is determined whether or not the calculated component satisfaction rate is equal to or greater than a predetermined value. Here, the predetermined value is, for example, a value input in the “hit condition” in FIG. If a negative determination is made, the document data as a whole does not match the search conditions, and the process returns to S102 to start the next document data search process.
[0024]
In S <b> 114, it is determined whether or not all the components with the “important” check in FIG. 4 are satisfied. this is,
Value of component array [m]> 0
(M indicates the position from the top of the component that is checked for “important”). If the determination is negative, as in S113, the process returns to S102 and the search process for the next document data is started. Note that if “important check is essential” is not selected in FIG. 4, the determination process of S114 is unnecessary, and the process directly proceeds to S115.
If the determination in S114 is affirmative, the document data matches the search condition, and the information of the document data is added to the hit table in S115.
[0025]
FIG. 5 is an example of a hit table, where “document identification number” is a publication number or the like, and “score” is a number that represents a search suitability, a satisfaction rate, and the like. The “score” may use the component satisfaction rate as it is, or may be calculated according to other conditions. Also, a score may be taken in consideration of the number of paragraphs that match the search condition. Such a “score” may be calculated in S113, and the determination in S113 may be performed based on the score instead of the constituent requirement satisfaction rate.
Also, here, a new memory area for continuously storing the extracted paragraph data (or sentence data) is allocated, the contents of the extracted data list stored in the flow process are copied, and the allocated memory area is copied to the allocated memory area. The pointer is stored in “pointer to extracted data list” of the hit table.
When the search process for all documents is completed by the above procedure, the hit table is rearranged in descending order of the “score” value in S103.
[0026]
FIG. 6 is an example of a display screen on which search results are output based on the hit table.
The “reference number” in FIG. 6 corresponds to the “reference number” in the hit table.
The columns A to F correspond to the “component array” in the hit table.
Component array value> 0
“*” Is displayed to indicate that a paragraph corresponding to the component exists in the document. Instead of displaying “*”, the value of the component array itself may be displayed.
FIG. 6 further shows a state in which the column of the component 1 (in this case B) in the
Of the columns A to F shown in FIG. 6, the column corresponding to the component for which “important” in FIG. 4 is checked may be highlighted by bold or color coding.
[0027]
Further, in FIG. 6, a check box for selecting a document is displayed, and the operator can instruct to create a correspondence table between the selected document and the component (not shown). An example of the correspondence table is as shown in FIG. 7, in which the text data extracted from the selected document has a format corresponding to each component, and may be output to a printer such as a printer. Alternatively, it may be output as a document file in HTML format or the like.
In the screen of FIG. 6, for example, when the user double-clicks on the characters “JPXXXX-XXXXXXX”, the original text data of JPXXXX-XXXXXXX is extracted from the file based on the value of the “file name” in the hit table. It is read and displayed on the display (not shown).
In this way, the operator can easily confirm whether or not the target description exists in each document.
[0028]
[Modification]
In the above, after the literature data stored in the HDD in advance is filtered according to the target condition, the search processing for each component is performed on the literature data that matches the target condition. be able to.
After the input is completed on the input screen shown in FIG. 4 and the operator is instructed to execute a search, the query is connected to an external document database server via a communication line, and the database is searched for the search according to the target condition. May be issued, the search result document data may be downloaded to a designated “search location”, and the search process for each component may be performed on the downloaded document data. In this case, the process of S105 is unnecessary.
[0029]
[Application example]
This embodiment can be further applied as follows.
[Application Example 1]
In FIG. 4, the text data of the constituent requirements is input in a frame corresponding to each constituent requirement, but a series of text data input by a predetermined method is analyzed and automatically assigned to each constituent element. And may be set in each component requirement input field.
Specifically, character string data, which is a series of text data, is separated by punctuation marks (symbols such as “,” and “,”), and each divided part is interpreted as one constituent element.
Further, when the number of characters in each part is equal to or less than a predetermined number, correction may be performed by connecting to the next part to form one component.
[0030]
[Application 2]
It is possible to prepare dictionary data in which technical terms are associated with parts of speech, extract technical terms existing in the dictionary from partial sentence data as constituent elements, and set them in the search condition input field. Further, by preparing general term dictionary data and removing technical terms included in the general term dictionary from the extracted technical term group, phrases that are not directly related to technical features (for example, “means” “step” "Method", "apparatus", etc.) may not be set in the search condition input field.
As for the delivery method to the search condition input field, the extracted technical terms are simply enumerated and set in the search condition input field, and as a result, each term is searched by logical product (AND combination) or logical sum (OR connection). It may be made to do.
As another delivery method, the extracted technical terms may be divided into a noun group and a non-noun group, and the inside of each group may be an OR connection, and each group may be an AND connection.
[0031]
[Application Example 3]
For each search word set in the search condition input field, similar word dictionary data is further prepared. For the terms registered in the similar word dictionary, a search condition in which the search word and the corresponding similar word are OR-coupled. It may be extended to an expression.
As an example, in the search condition input field,
Structure * element * search
Are searched for in the similar word dictionary according to instructions from the operator to expand similar words, and the acquired similar words are used.
(Configuration + Structure) * (Element + Element) * (Search + Detection + Inspection)
The search expression is expanded like this.
In this example, “structure” is stored as a similar word corresponding to “configuration” in the similar word dictionary, and similarly, “element” for “element”, “detection” for “search”, and “Inspection” is stored.
[0032]
In the first to third application examples, after the text data is input, the process may be automatically executed without the operator's instruction, and the search process may be started.
Alternatively, the description style of the text data may be classified into a plurality of types, and text data decomposition / term extraction processing corresponding to the type selected by the operator from the types may be selected and executed.
[0033]
[Second Embodiment]
The second embodiment is operated by a client / server computer system (not shown). The client computer inputs search conditions and transmits them to the server. The server computer uses the search conditions received from the client. Based on the search process, the search result is transmitted to the client.
[0034]
As in the first embodiment, the client inputs a search condition using an input screen shown in FIG. 4 using a general PC. Then, the input content is transmitted to the server via the communication line.
In the first embodiment, search processing is performed for each document data one by one. However, in the second embodiment, a document database having a general configuration is constructed on a server. It differs greatly from the first embodiment in that it is used effectively.
[0035]
FIG. 8 is a block diagram of a search system on a server according to the second embodiment.
In the storage device on the server, the
[0036]
In the server, after receiving the search condition from the client, the following processing is performed.
First, a primary search is performed using the target conditions included in the search conditions. If the target condition is a bibliographic item such as IPC, the
[0037]
Next, the
As described above, the
[0038]
However, in this method, the number of document data to be processed becomes enormous and the processing load on the server may increase. Therefore, it is preferable to create the final hit list as follows.
After the hit list is obtained, the
The hit list and the identification number list 21 1 ~ 21 n The union of the document identification numbers included in is taken as the final hit list.
In this way, the target documents for the secondary search process can be narrowed down to the minimum necessary.
Then, the document data shown in the final hit list is read from the
[0039]
At the stage of calculating the final hit list described above, the component satisfaction rate may be calculated, and only those that meet the specified conditions may be output to the final hit list.
In particular,
1. Number of components × specified component satisfaction rate (hit condition) / 100 = required number K (rounded down)
2. Concatenate each hit list, rearrange them in the order of identification numbers, and inspect from the top of the list and output the identification number to the final hit list if there are K or more consecutive identification numbers
That's it. In this way, processing such as “calculation of the component requirement satisfaction rate” (S112) “is the satisfaction rate equal to or greater than a predetermined value” (S113) in the flow of FIG. 2 is not necessary.
[0040]
At the same time, it may be determined whether or not the essential elements are satisfied, and only those that meet the specified condition may be output to the final hit list. In particular,
1.
2.
3. Number of components × specified component satisfaction rate ÷ 100−number of essential elements = required number k (rounded down)
4. Check from the beginning of (Y),
a, there are k or more same numbers
b, the number is in (X)
If both are positive, the final hit list is output.
By doing so, the processing of “all necessary elements are satisfied?” (S114) in the flow of FIG. 2 becomes unnecessary.
[0041]
[Third Embodiment]
The third embodiment is also operated in the form of a client / server.
The difference from the second embodiment is that the full-text search engine has a proximity calculation (neighbor search) function.
Also in the third embodiment, first, a primary search process similar to that in the second embodiment is performed.
Next, using the full-text search engine, a neighborhood search using a search condition formula for each component is performed. As a result of this search processing, data as shown in FIG. 10 is obtained.
[0042]
FIG. 10A is obtained as a result of searching for one component, and a range:
When the neighborhood search for all the components is completed, the search results in FIG. 10A are obtained by the number of components, and these are integrated as shown in FIG. Specifically, the union of the document identification numbers is taken, and the position information in FIG. 10A is copied to the corresponding area of the component element position information in FIG.
Then, the product of the set of document identification numbers included in FIG. 10B and the set of document identification numbers included in the hit list as a result of the primary search is obtained (AND operation), and the final hit list (FIG. 10 (b)).
[0043]
A process according to the flow of FIG. 9 is performed on each document included in the final hit list.
The flow procedure of FIG. 9 is a modification of the flow procedure of FIG. A significant difference from the procedure of FIG. 2 is that it is not necessary to determine whether or not the search condition is matched for each row. This is because the position of the unit data corresponding to the constituent element has already been extracted from the final hit list (FIG. 10B).
In FIG. 9, the processes in the procedure given the same step numbers as those in FIG. 2 are the same as those described above with reference to FIG. 2, and are therefore described in the first embodiment. See description.
[0044]
In S123, the variable m is initialized, and in S124, the variable m is incremented. The variable m is used as an index value for determining the
In S125, information on the position m is obtained from the plurality of pieces of position information corresponding to the component n.
In S126, text data in a range indicated by the position information acquired in S125 is extracted from the literature data. The subsequent procedure is the same as in FIG.
[0045]
Thus, according to the present invention, an efficient patent information search system that captures literature data as a set of components such as “sentence” and “paragraph” can be constructed, and the invention is not limited to patent information database search technology, By efficiently customizing and generating unit data structures such as technical words and components, it can also be applied to technical literature search systems for other technical literature (eg, ISO, various research institutes, university data databases, etc.) Is possible.
[0046]
【The invention's effect】
As described above, according to the present invention, there is a literature retrieval system for retrieving digitized technical literature data, and the technical literature data is retrieved by inputting a search condition for each constituent element together with the technical constituent element data. The unit data that matches the search condition is extracted, and the component data, the unit data, and the identification data of the technical data corresponding to the unit data are output in association with each other. When searching the patent information database for the purpose or when applied to the search of other technical information, the user's processing is simplified, and the desired document identification number can be searched quickly and accurately.
[Brief description of the drawings]
FIG. 1 is a block diagram of a technical literature search system according to a first embodiment of the present invention.
FIG. 2 is a flowchart of processing of the system shown in FIG.
FIG. 3 is a diagram showing a structure of an extracted data list.
FIG. 4 is a diagram illustrating an example of a search input screen.
FIG. 5 is a diagram illustrating an example of a hit table.
FIG. 6 is a diagram illustrating an example of a search result output screen.
FIG. 7 is a diagram illustrating an output example in which search conditions are associated with search results.
FIG. 8 is a block diagram of a technical literature search system according to a second embodiment of the present invention.
FIG. 9 is a flowchart of processing of a technical literature search system according to a third embodiment of the present invention.
FIGS. 10A and 10B are diagrams showing an example of the output of neighborhood search used in the third embodiment, where FIG. 10A shows a search result for one component, and FIG. 10B is a list in which the components are integrated; Is shown.
[Explanation of symbols]
1 Literature data
2 Search condition input part
3 Search processing section
4 Hit table
5 Extracted data list
6 Search result output section
10 Original database
11 Bibliographic index
12 Full-text index
13 Bibliographic search engine
14 Full-text search engine
15
16
17 Arithmetic processing part
18 hit list
Claims (8)
検索対象技術を構成する複数の構成要素毎に、前記各構成要素を表わすデータの入力を受け付ける構成要素入力手段と、
前記各構成要素毎に検索条件の入力を受け付ける検索条件入力手段と、
前記各構成要素毎に、前記検索条件に基づいて前記技術文献データを検索する検索手段と、
検索された前記技術文献データ中から前記検索条件に合致する単位データを抽出する単位データ抽出手段と、
検索された前記技術文献毎に、当該技術文献が前記構成要素毎の検索条件を満たすか否かを示す構成要素配列データと前記検索条件に合致した前記単位データおよび当該技術文献の識別データとを対応付けて記録する記録手段と、を備えたことを特徴とする技術文献検索システム。A computer system for searching technical literature data composed of a plurality of unit data , which is electronically stored in a storage means,
For each of a plurality of components constituting the search techniques, the components input means for accepting an input of data representing the respective components,
The search condition input means for accepting an input of a search condition for each component,
Wherein each component, a searching means for searching the technical literature data on the basis of the search condition,
Unit data extraction means for extracting unit data that matches the search condition from the searched technical literature data;
For each searched technical document, component element array data indicating whether the technical document satisfies a search condition for each component, the unit data that matches the search condition, and identification data of the technical document A technical literature search system comprising: a recording means for recording in association with each other.
技術文章データの入力を受け付ける入力手段と、
前記技術文章データを解析して複数の文章データに分割し、該分割された文章データを前記構成要素入力手段に引き渡す技術構成分解手段を備えたことを特徴とする技術文献検索システム。The technical literature search system according to claim 1,
Input means for receiving input of technical text data;
A technical literature search system comprising: a technical composition decomposing unit that analyzes and divides the technical text data into a plurality of text data and delivers the divided text data to the component input unit.
用語の辞書データを記憶する辞書記憶手段と、
前記辞書データを参照して前記構成要素を表わすデータから技術用語を抽出し、抽出された技術用語を前記検索条件入力手段に引き渡す技術用語抽出手段を備えたことを特徴とする技術文献検索システム。The technical literature search system according to claim 1,
Dictionary storage means for storing dictionary data of terms;
A technical literature search system comprising technical term extraction means for extracting technical terms from data representing the constituent elements with reference to the dictionary data and delivering the extracted technical terms to the search condition input means.
類似語の組を複数記憶する類似語記憶手段と、
検索条件入力手段により入力を受け付けられた検索条件に含まれるキーワード毎に、該キーワードに対応する類似語を前記類似語記憶手段より取得し、取得した類似語を前記検索条件に拡張して追加する類似語追加手段とを備えたことを特徴とする技術文献検索システム。The technical literature search system according to claim 1,
Similar word storage means for storing a plurality of sets of similar words;
Each keyword included in the input reception we were by the retrieval condition input unit search condition, a similar word corresponding to the keyword acquired from the similar word storing means, and expanding the obtained similar words to the search criteria A technical literature search system comprising a similar word addition means for adding.
検索適合度の条件を定義する適合度条件の入力を受け付ける適合度条件入力手段と、検索された技術文献毎に前記検索適合度を算出する検索適合度算出手段とを有し、
前記単位データ抽出手段は、前記検索適合度が前記適合条件に合致する技術文献データを対象として単位データの抽出処理を行うことを特徴とする技術文献検索システム。The technical literature search system according to claim 1,
It has a fitness condition input means for receiving input of fitness criteria that define the search fit condition, and a search fitness calculating means for calculating the search adaptability for each retrieved technical literature,
The technical document search system, wherein the unit data extraction means performs a process of extracting unit data on technical document data whose search suitability matches the matching condition.
前記検索手段が検索対象とすべき技術文献データの属性の入力を受け付ける対象条件入力手段を有し、
前記検索手段は前記属性に合致する技術文献データのみを検索することを特徴とする技術文献検索システム。The technical literature search system according to claim 1,
The search means has target condition input means for receiving input of attributes of technical literature data to be searched,
The technical document search system, wherein the search means searches only technical document data that matches the attribute.
Priority Applications (1)
| Application Number | Priority Date | Filing Date | Title |
|---|---|---|---|
| JP2002294626A JP4389102B2 (en) | 2002-10-08 | 2002-10-08 | Technical literature search system |
Applications Claiming Priority (1)
| Application Number | Priority Date | Filing Date | Title |
|---|---|---|---|
| JP2002294626A JP4389102B2 (en) | 2002-10-08 | 2002-10-08 | Technical literature search system |
Publications (2)
| Publication Number | Publication Date |
|---|---|
| JP2004133510A JP2004133510A (en) | 2004-04-30 |
| JP4389102B2 true JP4389102B2 (en) | 2009-12-24 |
Family
ID=32285111
Family Applications (1)
| Application Number | Title | Priority Date | Filing Date |
|---|---|---|---|
| JP2002294626A Expired - Fee Related JP4389102B2 (en) | 2002-10-08 | 2002-10-08 | Technical literature search system |
Country Status (1)
| Country | Link |
|---|---|
| JP (1) | JP4389102B2 (en) |
Families Citing this family (5)
| Publication number | Priority date | Publication date | Assignee | Title |
|---|---|---|---|---|
| JP2006163723A (en) * | 2004-12-06 | 2006-06-22 | Hitachi Software Eng Co Ltd | Document search method |
| JP4185500B2 (en) | 2005-03-14 | 2008-11-26 | 株式会社東芝 | Document search system, document search method and program |
| US8930389B2 (en) | 2009-10-06 | 2015-01-06 | International Business Machines Corporation | Mutual search and alert between structured and unstructured data stores |
| JP6843588B2 (en) * | 2016-11-04 | 2021-03-17 | 株式会社日立製作所 | Document retrieval method and equipment |
| JP6181890B2 (en) * | 2016-12-28 | 2017-08-16 | 一般財団法人工業所有権協力センター | Literature analysis apparatus, literature analysis method and program |
-
2002
- 2002-10-08 JP JP2002294626A patent/JP4389102B2/en not_active Expired - Fee Related
Also Published As
| Publication number | Publication date |
|---|---|
| JP2004133510A (en) | 2004-04-30 |
Similar Documents
| Publication | Publication Date | Title |
|---|---|---|
| JP4754247B2 (en) | Apparatus and computerized method for determining words constituting compound words | |
| US5684999A (en) | Apparatus and a method for retrieving image objects based on correlation with natural language sentence parameters | |
| KR20010015368A (en) | A method of retrieving data and a data retrieving apparatus | |
| JP2009093503A (en) | Schedule registration support system, schedule registration support method and program | |
| JP4426894B2 (en) | Document search method, document search program, and document search apparatus for executing the same | |
| JP2014106665A (en) | Document retrieval device and document retrieval method | |
| JP2010287020A (en) | Synonym expansion system and synonym expansion method | |
| JP3864235B2 (en) | Information retrieval system and information retrieval program | |
| JP2000163437A (en) | Document classification method, document classification device, and recording medium recording document classification processing program | |
| JP3583631B2 (en) | Information mining method, information mining device, and computer-readable recording medium recording information mining program | |
| JP4389102B2 (en) | Technical literature search system | |
| JPH0934905A (en) | Key sentence extraction method, abstract method and sentence search method | |
| JPH0844771A (en) | Information retrieval device | |
| JP5447368B2 (en) | NEW CASE GENERATION DEVICE, NEW CASE GENERATION METHOD, AND NEW CASE GENERATION PROGRAM | |
| JP2008077163A (en) | Search system, search method and search program | |
| JP5269399B2 (en) | Structured document retrieval apparatus, method and program | |
| JP3881638B2 (en) | Document search apparatus, document search method, and document search program | |
| JP3937741B2 (en) | Document standardization | |
| JP2004342016A (en) | Information search program and medium recording information search program | |
| JP5214985B2 (en) | Text segmentation apparatus and method, program, and computer-readable recording medium | |
| JP2007279978A (en) | Document search apparatus and document search method | |
| JP2006119697A (en) | Question answering system, question answering method, and question answering program | |
| JP4426893B2 (en) | Document search method, document search program, and document search apparatus for executing the same | |
| JP2010262332A (en) | Extraction rule creation system, extraction rule creation method, and extraction rule creation program | |
| JP4525224B2 (en) | Document management program, document management method, and document management apparatus |
Legal Events
| Date | Code | Title | Description |
|---|---|---|---|
| A621 | Written request for application examination |
Free format text: JAPANESE INTERMEDIATE CODE: A621 Effective date: 20050926 |
|
| A977 | Report on retrieval |
Free format text: JAPANESE INTERMEDIATE CODE: A971007 Effective date: 20081218 |
|
| A131 | Notification of reasons for refusal |
Free format text: JAPANESE INTERMEDIATE CODE: A131 Effective date: 20090106 |
|
| A521 | Request for written amendment filed |
Free format text: JAPANESE INTERMEDIATE CODE: A523 Effective date: 20090309 |
|
| A131 | Notification of reasons for refusal |
Free format text: JAPANESE INTERMEDIATE CODE: A131 Effective date: 20090526 |
|
| A521 | Request for written amendment filed |
Free format text: JAPANESE INTERMEDIATE CODE: A523 Effective date: 20090727 |
|
| TRDD | Decision of grant or rejection written | ||
| A01 | Written decision to grant a patent or to grant a registration (utility model) |
Free format text: JAPANESE INTERMEDIATE CODE: A01 Effective date: 20090908 |
|
| A01 | Written decision to grant a patent or to grant a registration (utility model) |
Free format text: JAPANESE INTERMEDIATE CODE: A01 |
|
| A61 | First payment of annual fees (during grant procedure) |
Free format text: JAPANESE INTERMEDIATE CODE: A61 Effective date: 20090918 |
|
| FPAY | Renewal fee payment (event date is renewal date of database) |
Free format text: PAYMENT UNTIL: 20121016 Year of fee payment: 3 |
|
| R150 | Certificate of patent or registration of utility model |
Free format text: JAPANESE INTERMEDIATE CODE: R150 |
|
| FPAY | Renewal fee payment (event date is renewal date of database) |
Free format text: PAYMENT UNTIL: 20131016 Year of fee payment: 4 |
|
| LAPS | Cancellation because of no payment of annual fees |