[go: up one dir, main page]

JP2000339333A - 自然言語検索支援システムおよび自然言語検索支援方法 - Google Patents

自然言語検索支援システムおよび自然言語検索支援方法

Info

Publication number
JP2000339333A
JP2000339333A JP11149772A JP14977299A JP2000339333A JP 2000339333 A JP2000339333 A JP 2000339333A JP 11149772 A JP11149772 A JP 11149772A JP 14977299 A JP14977299 A JP 14977299A JP 2000339333 A JP2000339333 A JP 2000339333A
Authority
JP
Japan
Prior art keywords
natural language
data
database
search
index
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Pending
Application number
JP11149772A
Other languages
English (en)
Inventor
Atsuya Sasaki
淳哉 佐々木
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Toshiba Corp
Original Assignee
Toshiba Corp
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Toshiba Corp filed Critical Toshiba Corp
Priority to JP11149772A priority Critical patent/JP2000339333A/ja
Publication of JP2000339333A publication Critical patent/JP2000339333A/ja
Pending legal-status Critical Current

Links

Landscapes

  • Information Retrieval, Db Structures And Fs Structures Therefor (AREA)

Abstract

(57)【要約】 【課題】自然言語検索機能を有しない既存のデータベー
スに対する自然言語検索を実現する自然言語検索支援シ
ステムを提供する。 【解決手段】登録部11は、自然言語検索機能を有しな
い既存データベースAのデータの中から抽出スキーマフ
ァイル14で定義された部分のみを抽出し、既存データ
ベースAにおける参照先であるURLとともに自然言語
解析部12に引き渡す。自然言語解析部12は、そのデ
ータを自然言語解析し、その解析結果とURLとを対応
づけてインデックスデータベース15に格納する。その
後、ブラウザBを介して自然言語による検索文が入力さ
れると、自然言語解析部12は、この検索文を自然言語
解析し、その解析結果を基にインデックスデータベース
15から対応するURLを取得する。そして、ブラウザ
Bは、自然言語解析部12により取得されたURLを用
いて既存データベースAのデータを参照する。

Description

【発明の詳細な説明】
【0001】
【発明の属する技術分野】この発明は、たとえばデータ
の再登録作業等を必要とせずに自然言語検索機能を有し
ない既存のデータベースに対する自然言語検索を実現す
る自然言語検索支援システムおよび自然言語検索支援方
法に関する。
【0002】
【従来の技術】近年のコンピュータ技術の向上に伴な
い、多種大量のデータが日々取り扱われている。そし
て、この多種大量なデータを効率的に格納するためのデ
ータベースが種々開発されている。
【0003】一般に、テキスト文書等を格納するデータ
ベースでは、検索方法としてキーワード検索が広く普及
しており、ユーザは、データベースから所望のデータを
取り出す場合、予め定められた規則にしたがって検索キ
ーワードと条件とを組み合わせた検索式を作成する。
【0004】また、最近では、日常生活でごく普通に用
いられる言葉(自然言語)によりデータベースを検索す
ることのできる自然言語検索方法が多く用いられるよう
になってきた。この自然言語検索方法は、入力された文
章を形態素解析して単語に分解した上でデータベースに
格納しておき、一方、検索時には、自然言語で構成され
た検索文を形態素解析して単語に分解し、この分解後の
主要な単語を用いて最も検索文の内容に合致する文章を
データベース内から検出するものである。
【0005】この自然言語検索方法によれば、ユーザは
検索式を作成するための規則等を習得することなく所望
のデータを取り出すことができるため、その使い勝手を
向上させることが可能となる。
【0006】
【発明が解決しようとする課題】ところで、従来、自然
言語検索機能を有しない既存のデータベースに格納され
たデータを自然言語検索により取り出せるようにする場
合、すべてのデータを読み出し、この読み出したデータ
すべてをその既存のデータベースとは独立した自然言語
検索データベースに再登録する必要があった。
【0007】しかしながら、このデータの再登録には多
くの時間と手間を要し、また、データの変換が必要であ
ることから、自然言語検索により得られる内容がキーワ
ード検索により得られる内容と異なってしまうことを防
止するための自然言語データベースに対する保守管理に
大きな労力が必要となるといった問題があった。さら
に、既存のデータベースの内容が更新された場合、その
都度、自然言語データベースにその更新内容を反映する
必要があった。
【0008】この発明はこのような実情を考慮してなさ
れたものであり、このようなデータの再登録作業等を必
要とせずに自然言語検索機能を有しない既存のデータベ
ースに対する自然言語検索を実現する自然言語検索支援
システムおよび自然言語検索支援方法を提供することを
目的とする。
【0009】
【課題を解決するための手段】前述した目的を達成する
ために、この発明は、自然言語検索機能を有しない既存
のデータベースに対する自然言語検索を支援する自然言
語検索支援システムにおいて、前記既存のデータベース
からデータを抽出する抽出手段と、前記抽出手段により
抽出されたデータを自然言語解析するデータ自然言語解
析手段と、前記データ自然言語解析手段の解析結果とそ
のデータの前記既存のデータベース内における格納アド
レスとを対応づけたインデックスデータを格納するイン
デックスデータベースを作成するインデックスデータベ
ース作成手段とを具備するようにしたものである。
【0010】この発明においては、既存のデータベース
のデータを活かしつつ自然言語検索を実現すべく、外部
に自然言語検索用のインデックスデータベースを作成す
るようにしたことから、自然言語検索により得られる内
容がキーワード検索により得られる内容と異なってしま
うようなことがない。また、既存のデータベースとは独
立した自然言語データベースを別途作成しないため、多
くの時間と手間を要するデータの再登録を不要とするこ
とができる。
【0011】また、この発明は、前記既存のデータベー
スのデータの抽出すべき部分を定義するスキーマファイ
ルをさらに具備し、前記抽出手段が、前記スキーマファ
イルで定義された内容に基づいて前記既存のデータベー
スからのデータ抽出を実行するようにしたものである。
【0012】この発明においては、既存のデータベース
のデータの所望の部分のみに対してインデックス化を実
行することができるため、既存のデータベースの構成に
柔軟かつ適切に対応することが可能となる。
【0013】また、この発明は、前記インデックスデー
タベースの更新タイミングを定義する更新設定ファイル
と、前記更新設定ファイルで定義されたタイミングで前
記抽出手段、データ自然言語解析手段およびインデック
スデータベース作成手段を動作させる制御手段とをさら
に具備するようにしたものである。
【0014】この発明においては、たとえば既存のデー
タベースの更新タイミングと同期させてインデックスデ
ータベースの更新を行なうなど、任意のタイミングで自
動的にインデックスデータベースの更新を行なうことが
できるため、既存のデータベースの更新内容の反映作業
を効率化することが可能となる。
【0015】また、この発明は、自然言語による検索文
を入力する検索文入力手段と、前記検索文入力手段によ
り入力された検索文を自然言語解析する検索文自然言語
解析手段と、前記検索文自然言語解析手段の解析結果と
合致する前記インデックスデータを前記インデックスデ
ータベースから検索するインデックスデータベース検索
手段と、前記インデックスデータベース検索手段により
検索された前記インデックスデータの格納アドレスで示
されるデータを前記既存のデータベースから読み出す読
み出し手段とをさらに具備するようにしたものである。
【0016】この発明においては、検索式を作成するた
めの規則等を習得することなく既存のデータベースを日
常生活でごく普通に用いられる言葉により検索すること
を可能とするため、その使い勝手を向上させることがで
きる。
【0017】
【発明の実施の形態】以下、図面を参照してこの発明の
実施形態を説明する。
【0018】図1は、この発明の実施形態に係る自然言
語検索支援システムの機能ブロックを示す図である。こ
の自然言語検索支援システムは、少なくともCPU、メ
モリ装置、およびディスプレイやプリンタを含むデータ
入出力装置を備えたコンピュータ上に構築されるもので
あり、図1に示すように、登録部11および自然言語解
析部12の処理部と更新設定ファイル13、抽出スキー
マファイル14およびインデックスデータベース15の
データ部とからなる。そして、この登録部11および自
然言語解析部12の処理部は、主記憶となるメモリ装置
に格納されてCPUによって実行制御されるプログラム
として構成され、一方、更新設定ファイル13、抽出ス
キーマファイル14およびインデックスデータベース1
5のデータ部は、外部記憶となるメモリ装置上に構成さ
れる。そして、この自然言語検索支援システム10は、
自然言語検索機能を有しない既存データベースAのデー
タをブラウザBから自然言語で構成された検索文により
取得できるようにするものである。なお、ここでは、既
存データベースAおよび自然言語検索支援システム10
をサーバコンピュータが備え、ブラウザBを複数のクラ
イアントコンピュータそれぞれが備えるクライアント−
サーバシステムを前提とする。また、この既存データベ
ースAは、ブラウザBを通して内容を参照する機能およ
びデータベースにアクセスするアプリケーションプログ
ラムから参照先URLを取得する機能を備えるものとす
る。
【0019】更新設定ファイル13には、既存データベ
ースAとインデックスデータベース15との整合性を保
つために、どのタイミングで既存データベースAの内容
をインデックスデータベース15に反映させるのかを示
すデータが格納される。抽出スキーマファイル14に
は、既存データベースAのデータのどの部分をインデッ
クス化するかを示すデータが格納される。そして、イン
デックスデータベース15には、既存データベースAの
データを自然言語解析によりインデックス化した結果と
そのデータの既存データベースAにおける参照先である
URLとを対応づけたインデックスデータが格納され
る。すなわち、データ本体は、既存データベースAにの
み格納されていることになる。
【0020】図2は、この自然言語検索支援システム1
0が既存データベースAの内容をインデックスデータベ
ース15に登録/反映する際のフローチャートである。
【0021】登録部11は、抽出スキーマファイル14
を参照し、既存データベースAの各データのどの部分を
抽出するかを決定する(ステップA1)、そして、この
決定にしたがって、既存データベースAのデータからの
テキスト抽出を行なう(ステップA2)。
【0022】ここでテキスト抽出された結果は、自然言
語解析部12に引き渡されて自然言語解析され(ステッ
プA3)、この自然言語解析の解析結果と既存データベ
ースAに対する参照URLとがインデックスデータベー
ス15に格納される(ステップA4)。なお、このイン
デックスデータベース15には、既存データベースAに
おけるデータの実体は格納しない。
【0023】以降、登録プログラム11は、抽出スキー
マファイル14により定義されたタイミングで上記の処
理を繰り返し、自動的に既存データベースAの更新内容
をインデックスデータベース15に反映させる。
【0024】図3は、図2におけるテキスト抽出(ステ
ップA2)の詳細なフローチャートである。
【0025】登録部11は、既存データベースAから列
(またはフィールド)ごとにテキストを取得し(ステッ
プB1)、抽出スキーマファイル14に基づいてタグ付
けを行なう(ステップB2)。この抽出スキーマファイ
ル14には、たとえば図4に示すようなデータが格納さ
れており、このデータにより、テキスト抽出時に、どの
列を抽出してインデックスデータベース15の検索対象
とするか、どのようなタグ名をつけるかが定義される。
【0026】そして、登録部11は、タグ付けの終了後
に、既存データベースAに対する参照URLのタグを追
加する。図5に追加されるタグの例を示す。
【0027】図6は、この自然言語検索支援システム1
0が既存データベースAの更新内容をインデックスデー
タベース15に反映する際のフローチャートである。
【0028】登録部11は、定期的に更新設定ファイル
13を参照し、既存データベースAの更新内容をインデ
ックスデータベース15に反映させるタイミングである
かどうかを判定し(ステップC1)、そのタイミングで
あれば(ステップC1のYES)、図2に示した手順の
処理をインデックスデータベースの更新処理として実行
する(ステップC2)。
【0029】図7は、自然言語検索支援システム10が
自然言語検索を行なう際のフローチャートである。
【0030】データを取り出すための検索文は、ブラウ
ザBを介して自然言語解析部12に入力され(ステップ
D1)、自然言語解析部12により自然言語解析される
(ステップD2)。次に、自然言語解析部12は、その
解析結果を基にインデックスデータベース15を検索し
(ステップD3)、既存データベースAにおける参照U
RLを取得する(ステップD4)。そして、自然言語解
析部12は、この取得したURLをブラウザBに返却す
る。
【0031】一方、ブラウザBでは、この返却されたU
RLを基に既存データベースAを参照し(ステップD
5)、その内容を検索結果としてディスプレイなどに出
力する(ステップD6)。
【0032】このように、この自然言語検索支援システ
ム10は、既存データベースAのデータを活かしつつ、
自然言語検索機能を有しない既存データベースAのデー
タをブラウザBから自然言語で構成された検索文により
取得することを実現する。
【0033】
【発明の効果】以上詳述したように、この発明によれ
ば、既存のデータベースのデータを活かしつつ自然言語
検索を実現すべく、外部に自然言語検索用のインデック
スデータベースを作成するようにしたことから、自然言
語検索により得られる内容がキーワード検索により得ら
れる内容と異なってしまうようなことがなく、また、多
くの時間と手間を要するデータの再登録を不要すること
ができる。
【0034】また、スキーマファイルで定義された内容
に基づいて既存のデータベースからのデータの抽出を実
行することから、既存のデータベースのデータの所望の
部分のみに対してインデックス化を実行することができ
るため、既存のデータベースの構成に柔軟かつ適切に対
応することが可能となる。
【0035】また、更新設定ファイルで定義されたタイ
ミングでインデックスデータベースの更新を行なうこと
から、たとえば既存のデータベースの更新タイミングと
同期させてインデックスデータベースの更新を行なうな
ど、任意のタイミングで自動的にインデックスデータベ
ースの更新を行なうことができるため、既存のデータベ
ースの更新内容の反映作業を効率化することが可能とな
る。
【図面の簡単な説明】
【図1】この発明の実施形態に係る自然言語検索支援シ
ステムの機能ブロックを示す図。
【図2】同実施形態の自然言語検索支援システムが既存
データベースの内容をインデックスデータベースに登録
/反映する際のフローチャート。
【図3】図2におけるテキスト抽出(ステップA2)の
詳細なフローチャート。
【図4】同実施形態の抽出スキーマファイルに格納され
るデータを例示する図。
【図5】同実施形態の既存データベースに対する参照U
RLのタグを例示する図。
【図6】同実施形態の自然言語検索支援システムが既存
データベースの更新内容をインデックスデータベースに
反映する際のフローチャート。
【図7】同実施形態の自然言語検索支援システムが自然
言語検索を行なう際のフローチャート。
【符号の説明】
10…自然言語検索支援システム 11…登録部 12…自然言語解析部 13…更新設定ファイル 14…抽出スキーマファイル 15…インデックスデータベース A…既存データベース B…ブラウザ

Claims (5)

    【特許請求の範囲】
  1. 【請求項1】 自然言語検索機能を有しない既存のデー
    タベースに対する自然言語検索を支援する自然言語検索
    支援システムにおいて、 前記既存のデータベースからデータを抽出する抽出手段
    と、 前記抽出手段により抽出されたデータを自然言語解析す
    るデータ自然言語解析手段と、 前記データ自然言語解析手段の解析結果とそのデータの
    前記既存のデータベース内における格納アドレスとを対
    応づけたインデックスデータを格納するインデックスデ
    ータベースを作成するインデックスデータベース作成手
    段と、 を具備することを特徴とする自然言語検索支援システ
    ム。
  2. 【請求項2】 前記既存のデータベースのデータの抽出
    すべき部分を定義するスキーマファイルをさらに具備
    し、 前記抽出手段は、前記スキーマファイルで定義された内
    容に基づいて前記既存のデータベースからのデータ抽出
    を実行することを特徴とする請求項1記載の自然言語検
    索支援システム。
  3. 【請求項3】 前記インデックスデータベースの更新タ
    イミングを定義する更新設定ファイルと、 前記更新設定ファイルで定義されたタイミングで前記抽
    出手段、データ自然言語解析手段およびインデックスデ
    ータベース作成手段を動作させる制御手段と、 をさらに具備することを特徴とする請求項1または2記
    載の自然言語検索支援システム。
  4. 【請求項4】 自然言語による検索文を入力する検索文
    入力手段と、 前記検索文入力手段により入力された検索文を自然言語
    解析する検索文自然言語解析手段と、 前記検索文自然言語解析手段の解析結果と合致する前記
    インデックスデータを前記インデックスデータベースか
    ら検索するインデックスデータベース検索手段と、 前記インデックスデータベース検索手段により検索され
    た前記インデックスデータの格納アドレスで示されるデ
    ータを前記既存のデータベースから読み出す読み出し手
    段と、 をさらに具備することを特徴とする請求項1、2または
    3記載の自然言語検索支援システム。
  5. 【請求項5】 自然言語検索機能を有しない既存のデー
    タベースに対する自然言語検索を支援する自然言語検索
    支援方法において、 前記既存のデータベースからデータを抽出するステップ
    と、 前記抽出したデータを自然言語解析するステップと、 前記自然言語解析の解析結果とそのデータの前記既存の
    データベース内における格納アドレスとを対応づけたイ
    ンデックスデータを格納するインデックスデータベース
    を作成するステップと、 自然言語による検索文を入力するステップと、 前記入力した検索文を自然言語解析するステップと、 前記自然言語解析の解析結果と合致する前記インデック
    スデータを前記インデックスデータベースから検索する
    ステップと、 前記検索した前記インデックスデータの格納アドレスで
    示されるデータを前記既存のデータベースから読み出す
    ステップと、 を具備することを特徴とする自然言語検索支援方法。
JP11149772A 1999-05-28 1999-05-28 自然言語検索支援システムおよび自然言語検索支援方法 Pending JP2000339333A (ja)

Priority Applications (1)

Application Number Priority Date Filing Date Title
JP11149772A JP2000339333A (ja) 1999-05-28 1999-05-28 自然言語検索支援システムおよび自然言語検索支援方法

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
JP11149772A JP2000339333A (ja) 1999-05-28 1999-05-28 自然言語検索支援システムおよび自然言語検索支援方法

Publications (1)

Publication Number Publication Date
JP2000339333A true JP2000339333A (ja) 2000-12-08

Family

ID=15482404

Family Applications (1)

Application Number Title Priority Date Filing Date
JP11149772A Pending JP2000339333A (ja) 1999-05-28 1999-05-28 自然言語検索支援システムおよび自然言語検索支援方法

Country Status (1)

Country Link
JP (1) JP2000339333A (ja)

Cited By (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
KR20010035390A (ko) * 2001-02-09 2001-05-07 장충엽 인터넷 자연어 주소입력 접속 시스템 및 그것의 방법
KR100464583B1 (ko) * 2001-06-26 2005-01-13 (주)넷피아닷컴 키워드 네임을 이용한 유알엘 매핑 시스템 및 그 방법
JP2010049363A (ja) * 2008-08-19 2010-03-04 Ricoh Co Ltd ログ情報解析可視装置、ログ情報解析可視方法、ログ情報解析プログラム及び該プログラムを記憶した記憶媒体
CN108829710A (zh) * 2018-05-03 2018-11-16 北京奇虎科技有限公司 一种数据分析方法和装置

Cited By (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
KR20010035390A (ko) * 2001-02-09 2001-05-07 장충엽 인터넷 자연어 주소입력 접속 시스템 및 그것의 방법
KR100464583B1 (ko) * 2001-06-26 2005-01-13 (주)넷피아닷컴 키워드 네임을 이용한 유알엘 매핑 시스템 및 그 방법
JP2010049363A (ja) * 2008-08-19 2010-03-04 Ricoh Co Ltd ログ情報解析可視装置、ログ情報解析可視方法、ログ情報解析プログラム及び該プログラムを記憶した記憶媒体
CN108829710A (zh) * 2018-05-03 2018-11-16 北京奇虎科技有限公司 一种数据分析方法和装置

Similar Documents

Publication Publication Date Title
CN1815477B (zh) 用于提供基于标记语言的限定词的方法和系统
CN110263317B (zh) 一种生成文档模板的方法及装置
RU2480822C2 (ru) Разрешение кореференции в чувствительной к неоднозначности системе обработки естественного языка
US20040205671A1 (en) Natural-language processing system
Candela et al. Migration of a library catalogue into RDA linked open data
US7783643B2 (en) Direct navigation for information retrieval
Penev et al. XML schemas and mark-up practices of taxonomic literature
CN111400323A (zh) 数据检索方法、系统、设备及存储介质
CN112818645A (zh) 一种化学信息抽取方法、装置、设备及存储介质
CN114117242A (zh) 数据查询方法和装置、计算机设备、存储介质
US20110078165A1 (en) Document-fragment transclusion
US20110252313A1 (en) Document information selection method and computer program product
JP3786233B2 (ja) 情報検索方法および情報検索システム
JP2000339333A (ja) 自然言語検索支援システムおよび自然言語検索支援方法
JP2008102773A (ja) データを共通のフォーマットに変換する方法
JP3191762B2 (ja) 文書ファイル検索装置及びプログラムを記録した機械読み取り可能な記録媒体
JP5148583B2 (ja) 機械翻訳装置、方法及びプログラム
US7349918B2 (en) Method and system for searching binary files
JP2005056223A (ja) テキストデータ検索システム、その方法及びそのプログラム
JP4034503B2 (ja) 文書検索システムおよび文書検索方法
JP2011186692A (ja) 情報検索システムおよび情報検索方法
JPH1115843A (ja) Sgml文書検索装置およびsgml文書検索方法
Piros New automatic interpreter for complex UDC numbers
JPH1063649A (ja) タグ付加文書作成方法および装置
He et al. A dynamic schema matching approach for multi-version web feature service retrieve

Legal Events

Date Code Title Description
A621 Written request for application examination

Free format text: JAPANESE INTERMEDIATE CODE: A621

Effective date: 20040908

A131 Notification of reasons for refusal

Free format text: JAPANESE INTERMEDIATE CODE: A131

Effective date: 20070703

A521 Written amendment

Free format text: JAPANESE INTERMEDIATE CODE: A523

Effective date: 20070903

A131 Notification of reasons for refusal

Free format text: JAPANESE INTERMEDIATE CODE: A131

Effective date: 20071009

A521 Written amendment

Free format text: JAPANESE INTERMEDIATE CODE: A523

Effective date: 20071128

A02 Decision of refusal

Free format text: JAPANESE INTERMEDIATE CODE: A02

Effective date: 20080108