JP2000339333A - 自然言語検索支援システムおよび自然言語検索支援方法 - Google Patents
自然言語検索支援システムおよび自然言語検索支援方法Info
- Publication number
- JP2000339333A JP2000339333A JP11149772A JP14977299A JP2000339333A JP 2000339333 A JP2000339333 A JP 2000339333A JP 11149772 A JP11149772 A JP 11149772A JP 14977299 A JP14977299 A JP 14977299A JP 2000339333 A JP2000339333 A JP 2000339333A
- Authority
- JP
- Japan
- Prior art keywords
- natural language
- data
- database
- search
- index
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Pending
Links
- 238000000034 method Methods 0.000 title claims description 12
- 238000000605 extraction Methods 0.000 claims abstract description 14
- 230000006870 function Effects 0.000 claims abstract description 12
- 239000000284 extract Substances 0.000 claims abstract description 3
- 230000002354 daily effect Effects 0.000 description 2
- 238000010586 diagram Methods 0.000 description 2
- 238000006243 chemical reaction Methods 0.000 description 1
- 238000000354 decomposition reaction Methods 0.000 description 1
- 230000003203 everyday effect Effects 0.000 description 1
- 238000012423 maintenance Methods 0.000 description 1
- 239000000126 substance Substances 0.000 description 1
Landscapes
- Information Retrieval, Db Structures And Fs Structures Therefor (AREA)
Abstract
スに対する自然言語検索を実現する自然言語検索支援シ
ステムを提供する。 【解決手段】登録部11は、自然言語検索機能を有しな
い既存データベースAのデータの中から抽出スキーマフ
ァイル14で定義された部分のみを抽出し、既存データ
ベースAにおける参照先であるURLとともに自然言語
解析部12に引き渡す。自然言語解析部12は、そのデ
ータを自然言語解析し、その解析結果とURLとを対応
づけてインデックスデータベース15に格納する。その
後、ブラウザBを介して自然言語による検索文が入力さ
れると、自然言語解析部12は、この検索文を自然言語
解析し、その解析結果を基にインデックスデータベース
15から対応するURLを取得する。そして、ブラウザ
Bは、自然言語解析部12により取得されたURLを用
いて既存データベースAのデータを参照する。
Description
の再登録作業等を必要とせずに自然言語検索機能を有し
ない既存のデータベースに対する自然言語検索を実現す
る自然言語検索支援システムおよび自然言語検索支援方
法に関する。
い、多種大量のデータが日々取り扱われている。そし
て、この多種大量なデータを効率的に格納するためのデ
ータベースが種々開発されている。
ベースでは、検索方法としてキーワード検索が広く普及
しており、ユーザは、データベースから所望のデータを
取り出す場合、予め定められた規則にしたがって検索キ
ーワードと条件とを組み合わせた検索式を作成する。
いられる言葉(自然言語)によりデータベースを検索す
ることのできる自然言語検索方法が多く用いられるよう
になってきた。この自然言語検索方法は、入力された文
章を形態素解析して単語に分解した上でデータベースに
格納しておき、一方、検索時には、自然言語で構成され
た検索文を形態素解析して単語に分解し、この分解後の
主要な単語を用いて最も検索文の内容に合致する文章を
データベース内から検出するものである。
検索式を作成するための規則等を習得することなく所望
のデータを取り出すことができるため、その使い勝手を
向上させることが可能となる。
言語検索機能を有しない既存のデータベースに格納され
たデータを自然言語検索により取り出せるようにする場
合、すべてのデータを読み出し、この読み出したデータ
すべてをその既存のデータベースとは独立した自然言語
検索データベースに再登録する必要があった。
くの時間と手間を要し、また、データの変換が必要であ
ることから、自然言語検索により得られる内容がキーワ
ード検索により得られる内容と異なってしまうことを防
止するための自然言語データベースに対する保守管理に
大きな労力が必要となるといった問題があった。さら
に、既存のデータベースの内容が更新された場合、その
都度、自然言語データベースにその更新内容を反映する
必要があった。
れたものであり、このようなデータの再登録作業等を必
要とせずに自然言語検索機能を有しない既存のデータベ
ースに対する自然言語検索を実現する自然言語検索支援
システムおよび自然言語検索支援方法を提供することを
目的とする。
ために、この発明は、自然言語検索機能を有しない既存
のデータベースに対する自然言語検索を支援する自然言
語検索支援システムにおいて、前記既存のデータベース
からデータを抽出する抽出手段と、前記抽出手段により
抽出されたデータを自然言語解析するデータ自然言語解
析手段と、前記データ自然言語解析手段の解析結果とそ
のデータの前記既存のデータベース内における格納アド
レスとを対応づけたインデックスデータを格納するイン
デックスデータベースを作成するインデックスデータベ
ース作成手段とを具備するようにしたものである。
のデータを活かしつつ自然言語検索を実現すべく、外部
に自然言語検索用のインデックスデータベースを作成す
るようにしたことから、自然言語検索により得られる内
容がキーワード検索により得られる内容と異なってしま
うようなことがない。また、既存のデータベースとは独
立した自然言語データベースを別途作成しないため、多
くの時間と手間を要するデータの再登録を不要とするこ
とができる。
スのデータの抽出すべき部分を定義するスキーマファイ
ルをさらに具備し、前記抽出手段が、前記スキーマファ
イルで定義された内容に基づいて前記既存のデータベー
スからのデータ抽出を実行するようにしたものである。
のデータの所望の部分のみに対してインデックス化を実
行することができるため、既存のデータベースの構成に
柔軟かつ適切に対応することが可能となる。
タベースの更新タイミングを定義する更新設定ファイル
と、前記更新設定ファイルで定義されたタイミングで前
記抽出手段、データ自然言語解析手段およびインデック
スデータベース作成手段を動作させる制御手段とをさら
に具備するようにしたものである。
タベースの更新タイミングと同期させてインデックスデ
ータベースの更新を行なうなど、任意のタイミングで自
動的にインデックスデータベースの更新を行なうことが
できるため、既存のデータベースの更新内容の反映作業
を効率化することが可能となる。
を入力する検索文入力手段と、前記検索文入力手段によ
り入力された検索文を自然言語解析する検索文自然言語
解析手段と、前記検索文自然言語解析手段の解析結果と
合致する前記インデックスデータを前記インデックスデ
ータベースから検索するインデックスデータベース検索
手段と、前記インデックスデータベース検索手段により
検索された前記インデックスデータの格納アドレスで示
されるデータを前記既存のデータベースから読み出す読
み出し手段とをさらに具備するようにしたものである。
めの規則等を習得することなく既存のデータベースを日
常生活でごく普通に用いられる言葉により検索すること
を可能とするため、その使い勝手を向上させることがで
きる。
実施形態を説明する。
語検索支援システムの機能ブロックを示す図である。こ
の自然言語検索支援システムは、少なくともCPU、メ
モリ装置、およびディスプレイやプリンタを含むデータ
入出力装置を備えたコンピュータ上に構築されるもので
あり、図1に示すように、登録部11および自然言語解
析部12の処理部と更新設定ファイル13、抽出スキー
マファイル14およびインデックスデータベース15の
データ部とからなる。そして、この登録部11および自
然言語解析部12の処理部は、主記憶となるメモリ装置
に格納されてCPUによって実行制御されるプログラム
として構成され、一方、更新設定ファイル13、抽出ス
キーマファイル14およびインデックスデータベース1
5のデータ部は、外部記憶となるメモリ装置上に構成さ
れる。そして、この自然言語検索支援システム10は、
自然言語検索機能を有しない既存データベースAのデー
タをブラウザBから自然言語で構成された検索文により
取得できるようにするものである。なお、ここでは、既
存データベースAおよび自然言語検索支援システム10
をサーバコンピュータが備え、ブラウザBを複数のクラ
イアントコンピュータそれぞれが備えるクライアント−
サーバシステムを前提とする。また、この既存データベ
ースAは、ブラウザBを通して内容を参照する機能およ
びデータベースにアクセスするアプリケーションプログ
ラムから参照先URLを取得する機能を備えるものとす
る。
ースAとインデックスデータベース15との整合性を保
つために、どのタイミングで既存データベースAの内容
をインデックスデータベース15に反映させるのかを示
すデータが格納される。抽出スキーマファイル14に
は、既存データベースAのデータのどの部分をインデッ
クス化するかを示すデータが格納される。そして、イン
デックスデータベース15には、既存データベースAの
データを自然言語解析によりインデックス化した結果と
そのデータの既存データベースAにおける参照先である
URLとを対応づけたインデックスデータが格納され
る。すなわち、データ本体は、既存データベースAにの
み格納されていることになる。
0が既存データベースAの内容をインデックスデータベ
ース15に登録/反映する際のフローチャートである。
を参照し、既存データベースAの各データのどの部分を
抽出するかを決定する(ステップA1)、そして、この
決定にしたがって、既存データベースAのデータからの
テキスト抽出を行なう(ステップA2)。
語解析部12に引き渡されて自然言語解析され(ステッ
プA3)、この自然言語解析の解析結果と既存データベ
ースAに対する参照URLとがインデックスデータベー
ス15に格納される(ステップA4)。なお、このイン
デックスデータベース15には、既存データベースAに
おけるデータの実体は格納しない。
マファイル14により定義されたタイミングで上記の処
理を繰り返し、自動的に既存データベースAの更新内容
をインデックスデータベース15に反映させる。
ップA2)の詳細なフローチャートである。
(またはフィールド)ごとにテキストを取得し(ステッ
プB1)、抽出スキーマファイル14に基づいてタグ付
けを行なう(ステップB2)。この抽出スキーマファイ
ル14には、たとえば図4に示すようなデータが格納さ
れており、このデータにより、テキスト抽出時に、どの
列を抽出してインデックスデータベース15の検索対象
とするか、どのようなタグ名をつけるかが定義される。
に、既存データベースAに対する参照URLのタグを追
加する。図5に追加されるタグの例を示す。
0が既存データベースAの更新内容をインデックスデー
タベース15に反映する際のフローチャートである。
13を参照し、既存データベースAの更新内容をインデ
ックスデータベース15に反映させるタイミングである
かどうかを判定し(ステップC1)、そのタイミングで
あれば(ステップC1のYES)、図2に示した手順の
処理をインデックスデータベースの更新処理として実行
する(ステップC2)。
自然言語検索を行なう際のフローチャートである。
ザBを介して自然言語解析部12に入力され(ステップ
D1)、自然言語解析部12により自然言語解析される
(ステップD2)。次に、自然言語解析部12は、その
解析結果を基にインデックスデータベース15を検索し
(ステップD3)、既存データベースAにおける参照U
RLを取得する(ステップD4)。そして、自然言語解
析部12は、この取得したURLをブラウザBに返却す
る。
RLを基に既存データベースAを参照し(ステップD
5)、その内容を検索結果としてディスプレイなどに出
力する(ステップD6)。
ム10は、既存データベースAのデータを活かしつつ、
自然言語検索機能を有しない既存データベースAのデー
タをブラウザBから自然言語で構成された検索文により
取得することを実現する。
ば、既存のデータベースのデータを活かしつつ自然言語
検索を実現すべく、外部に自然言語検索用のインデック
スデータベースを作成するようにしたことから、自然言
語検索により得られる内容がキーワード検索により得ら
れる内容と異なってしまうようなことがなく、また、多
くの時間と手間を要するデータの再登録を不要すること
ができる。
に基づいて既存のデータベースからのデータの抽出を実
行することから、既存のデータベースのデータの所望の
部分のみに対してインデックス化を実行することができ
るため、既存のデータベースの構成に柔軟かつ適切に対
応することが可能となる。
ミングでインデックスデータベースの更新を行なうこと
から、たとえば既存のデータベースの更新タイミングと
同期させてインデックスデータベースの更新を行なうな
ど、任意のタイミングで自動的にインデックスデータベ
ースの更新を行なうことができるため、既存のデータベ
ースの更新内容の反映作業を効率化することが可能とな
る。
ステムの機能ブロックを示す図。
データベースの内容をインデックスデータベースに登録
/反映する際のフローチャート。
詳細なフローチャート。
るデータを例示する図。
RLのタグを例示する図。
データベースの更新内容をインデックスデータベースに
反映する際のフローチャート。
言語検索を行なう際のフローチャート。
Claims (5)
- 【請求項1】 自然言語検索機能を有しない既存のデー
タベースに対する自然言語検索を支援する自然言語検索
支援システムにおいて、 前記既存のデータベースからデータを抽出する抽出手段
と、 前記抽出手段により抽出されたデータを自然言語解析す
るデータ自然言語解析手段と、 前記データ自然言語解析手段の解析結果とそのデータの
前記既存のデータベース内における格納アドレスとを対
応づけたインデックスデータを格納するインデックスデ
ータベースを作成するインデックスデータベース作成手
段と、 を具備することを特徴とする自然言語検索支援システ
ム。 - 【請求項2】 前記既存のデータベースのデータの抽出
すべき部分を定義するスキーマファイルをさらに具備
し、 前記抽出手段は、前記スキーマファイルで定義された内
容に基づいて前記既存のデータベースからのデータ抽出
を実行することを特徴とする請求項1記載の自然言語検
索支援システム。 - 【請求項3】 前記インデックスデータベースの更新タ
イミングを定義する更新設定ファイルと、 前記更新設定ファイルで定義されたタイミングで前記抽
出手段、データ自然言語解析手段およびインデックスデ
ータベース作成手段を動作させる制御手段と、 をさらに具備することを特徴とする請求項1または2記
載の自然言語検索支援システム。 - 【請求項4】 自然言語による検索文を入力する検索文
入力手段と、 前記検索文入力手段により入力された検索文を自然言語
解析する検索文自然言語解析手段と、 前記検索文自然言語解析手段の解析結果と合致する前記
インデックスデータを前記インデックスデータベースか
ら検索するインデックスデータベース検索手段と、 前記インデックスデータベース検索手段により検索され
た前記インデックスデータの格納アドレスで示されるデ
ータを前記既存のデータベースから読み出す読み出し手
段と、 をさらに具備することを特徴とする請求項1、2または
3記載の自然言語検索支援システム。 - 【請求項5】 自然言語検索機能を有しない既存のデー
タベースに対する自然言語検索を支援する自然言語検索
支援方法において、 前記既存のデータベースからデータを抽出するステップ
と、 前記抽出したデータを自然言語解析するステップと、 前記自然言語解析の解析結果とそのデータの前記既存の
データベース内における格納アドレスとを対応づけたイ
ンデックスデータを格納するインデックスデータベース
を作成するステップと、 自然言語による検索文を入力するステップと、 前記入力した検索文を自然言語解析するステップと、 前記自然言語解析の解析結果と合致する前記インデック
スデータを前記インデックスデータベースから検索する
ステップと、 前記検索した前記インデックスデータの格納アドレスで
示されるデータを前記既存のデータベースから読み出す
ステップと、 を具備することを特徴とする自然言語検索支援方法。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
JP11149772A JP2000339333A (ja) | 1999-05-28 | 1999-05-28 | 自然言語検索支援システムおよび自然言語検索支援方法 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
JP11149772A JP2000339333A (ja) | 1999-05-28 | 1999-05-28 | 自然言語検索支援システムおよび自然言語検索支援方法 |
Publications (1)
Publication Number | Publication Date |
---|---|
JP2000339333A true JP2000339333A (ja) | 2000-12-08 |
Family
ID=15482404
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
JP11149772A Pending JP2000339333A (ja) | 1999-05-28 | 1999-05-28 | 自然言語検索支援システムおよび自然言語検索支援方法 |
Country Status (1)
Country | Link |
---|---|
JP (1) | JP2000339333A (ja) |
Cited By (4)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
KR20010035390A (ko) * | 2001-02-09 | 2001-05-07 | 장충엽 | 인터넷 자연어 주소입력 접속 시스템 및 그것의 방법 |
KR100464583B1 (ko) * | 2001-06-26 | 2005-01-13 | (주)넷피아닷컴 | 키워드 네임을 이용한 유알엘 매핑 시스템 및 그 방법 |
JP2010049363A (ja) * | 2008-08-19 | 2010-03-04 | Ricoh Co Ltd | ログ情報解析可視装置、ログ情報解析可視方法、ログ情報解析プログラム及び該プログラムを記憶した記憶媒体 |
CN108829710A (zh) * | 2018-05-03 | 2018-11-16 | 北京奇虎科技有限公司 | 一种数据分析方法和装置 |
-
1999
- 1999-05-28 JP JP11149772A patent/JP2000339333A/ja active Pending
Cited By (4)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
KR20010035390A (ko) * | 2001-02-09 | 2001-05-07 | 장충엽 | 인터넷 자연어 주소입력 접속 시스템 및 그것의 방법 |
KR100464583B1 (ko) * | 2001-06-26 | 2005-01-13 | (주)넷피아닷컴 | 키워드 네임을 이용한 유알엘 매핑 시스템 및 그 방법 |
JP2010049363A (ja) * | 2008-08-19 | 2010-03-04 | Ricoh Co Ltd | ログ情報解析可視装置、ログ情報解析可視方法、ログ情報解析プログラム及び該プログラムを記憶した記憶媒体 |
CN108829710A (zh) * | 2018-05-03 | 2018-11-16 | 北京奇虎科技有限公司 | 一种数据分析方法和装置 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
CN1815477B (zh) | 用于提供基于标记语言的限定词的方法和系统 | |
CN110263317B (zh) | 一种生成文档模板的方法及装置 | |
RU2480822C2 (ru) | Разрешение кореференции в чувствительной к неоднозначности системе обработки естественного языка | |
US20040205671A1 (en) | Natural-language processing system | |
Candela et al. | Migration of a library catalogue into RDA linked open data | |
US7783643B2 (en) | Direct navigation for information retrieval | |
Penev et al. | XML schemas and mark-up practices of taxonomic literature | |
CN111400323A (zh) | 数据检索方法、系统、设备及存储介质 | |
CN112818645A (zh) | 一种化学信息抽取方法、装置、设备及存储介质 | |
CN114117242A (zh) | 数据查询方法和装置、计算机设备、存储介质 | |
US20110078165A1 (en) | Document-fragment transclusion | |
US20110252313A1 (en) | Document information selection method and computer program product | |
JP3786233B2 (ja) | 情報検索方法および情報検索システム | |
JP2000339333A (ja) | 自然言語検索支援システムおよび自然言語検索支援方法 | |
JP2008102773A (ja) | データを共通のフォーマットに変換する方法 | |
JP3191762B2 (ja) | 文書ファイル検索装置及びプログラムを記録した機械読み取り可能な記録媒体 | |
JP5148583B2 (ja) | 機械翻訳装置、方法及びプログラム | |
US7349918B2 (en) | Method and system for searching binary files | |
JP2005056223A (ja) | テキストデータ検索システム、その方法及びそのプログラム | |
JP4034503B2 (ja) | 文書検索システムおよび文書検索方法 | |
JP2011186692A (ja) | 情報検索システムおよび情報検索方法 | |
JPH1115843A (ja) | Sgml文書検索装置およびsgml文書検索方法 | |
Piros | New automatic interpreter for complex UDC numbers | |
JPH1063649A (ja) | タグ付加文書作成方法および装置 | |
He et al. | A dynamic schema matching approach for multi-version web feature service retrieve |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
A621 | Written request for application examination |
Free format text: JAPANESE INTERMEDIATE CODE: A621 Effective date: 20040908 |
|
A131 | Notification of reasons for refusal |
Free format text: JAPANESE INTERMEDIATE CODE: A131 Effective date: 20070703 |
|
A521 | Written amendment |
Free format text: JAPANESE INTERMEDIATE CODE: A523 Effective date: 20070903 |
|
A131 | Notification of reasons for refusal |
Free format text: JAPANESE INTERMEDIATE CODE: A131 Effective date: 20071009 |
|
A521 | Written amendment |
Free format text: JAPANESE INTERMEDIATE CODE: A523 Effective date: 20071128 |
|
A02 | Decision of refusal |
Free format text: JAPANESE INTERMEDIATE CODE: A02 Effective date: 20080108 |