[go: up one dir, main page]

JP2000285122A - Apparatus and method for generating a thesaurus and recording medium storing a thesaurus generating program - Google Patents

Apparatus and method for generating a thesaurus and recording medium storing a thesaurus generating program

Info

Publication number
JP2000285122A
JP2000285122A JP11089565A JP8956599A JP2000285122A JP 2000285122 A JP2000285122 A JP 2000285122A JP 11089565 A JP11089565 A JP 11089565A JP 8956599 A JP8956599 A JP 8956599A JP 2000285122 A JP2000285122 A JP 2000285122A
Authority
JP
Japan
Prior art keywords
word
registered
thesaurus
newly
character string
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Pending
Application number
JP11089565A
Other languages
Japanese (ja)
Inventor
Yuzo Nishio
裕三 西尾
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Japan Research Institute Ltd
Original Assignee
Japan Research Institute Ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Japan Research Institute Ltd filed Critical Japan Research Institute Ltd
Priority to JP11089565A priority Critical patent/JP2000285122A/en
Publication of JP2000285122A publication Critical patent/JP2000285122A/en
Pending legal-status Critical Current

Links

Landscapes

  • Machine Translation (AREA)
  • Information Retrieval, Db Structures And Fs Structures Therefor (AREA)

Abstract

(57)【要約】 【目的】 シソーラスに単語を登録する作業および意味
的な関係を示すデータを登録する作業の負担を軽減す
る。 【構成】 入力装置2を用いて入力された文章が形態素
解析によって解析され,単語(名詞)が抽出される。抽
出された単語がシソーラス10に未だ登録されていないも
のである場合,その単語はシソーラス10に新たに登録さ
れる。新たにシソーラス10に登録された単語と既にシソ
ーラス10に登録されている単語との間で文字コードの包
含関係が判定される。判定結果に応じて,新規登録単語
と既登録単語との間の上位(BT)または下位概念(N
T)の関係を示す関係データが,シソーラス10に登録さ
れる。
(57) [Summary] [Purpose] The burden of registering words in a thesaurus and registering data indicating semantic relationships is reduced. A sentence input using an input device is analyzed by morphological analysis to extract words (nouns). If the extracted word is not yet registered in the thesaurus 10, the word is newly registered in the thesaurus 10. The inclusion relation of the character codes is determined between words newly registered in the thesaurus 10 and words already registered in the thesaurus 10. Depending on the determination result, the superordinate (BT) or subordinate concept (N) between the newly registered word and the registered word
Relationship data indicating the relationship T) is registered in the thesaurus 10.

Description

【発明の詳細な説明】DETAILED DESCRIPTION OF THE INVENTION

【0001】[0001]

【技術分野】この発明は,シソーラス生成装置および方
法,ならびにシソーラス生成プログラムを記録した記録
媒体に関する。
BACKGROUND OF THE INVENTION 1. Field of the Invention The present invention relates to a thesaurus generation apparatus and method, and a recording medium on which a thesaurus generation program is recorded.

【0002】[0002]

【背景】シソーラスには,多数の単語(用語,キーワー
ド)が格納されるとともに,単語と他の単語の間の意味
的関係,たとえば上位概念の語や下位概念の語,同義の
語や関連する語などの関係を表すデータが格納される。
[Background] In a thesaurus, many words (terms, keywords) are stored, and semantic relationships between words and other words, for example, words of a superordinate concept, words of a subordinate concept, synonymous words, and related words. Data indicating a relationship such as a word is stored.

【0003】このようなシソーラスは,データ・ベース
に格納された文書等の検索処理において用いることがで
きる。シソーラスを用いることによって,キー・ワード
(索引語)に基づく文書の検索が行われるだけでなく,
キー・ワードの上位または下位概念語,同義語,関連語
を含む文書をも検索することができる。
[0003] Such a thesaurus can be used in search processing of documents and the like stored in a database. By using a thesaurus, not only can documents be searched based on key words (index terms),
You can also search for documents that contain higher or lower concept words, synonyms, and related words of the key word.

【0004】シソーラスを作成する場合,開発者やユー
ザが多数の単語を入力装置を用いて登録し,さらに上位
概念語や下位概念語,同義語や関連語などの関係を表す
データを入力装置を用いて登録する。したがって,多数
の単語をシソーラスに登録する作業,さらには登録した
単語の意味的関係を表すデータを入力する作業には,相
当の時間と労力とが必要とされる。
[0004] When creating a thesaurus, a developer or a user registers a large number of words using an input device, and further inputs data representing the relation between a broader concept word, a lower concept word, synonyms and related words into the input device. Register using Therefore, the operation of registering a large number of words in the thesaurus and the operation of inputting data representing the semantic relationship of the registered words require considerable time and effort.

【0005】[0005]

【発明の開示】この発明は,シソーラスに単語を登録す
る作業,およびシソーラスに新たに登録される単語と既
にシソーラスに登録されている単語との間の関係を示す
データを登録する作業を,比較的簡単にするシソーラス
生成装置および方法を提供することを目的とする。
DISCLOSURE OF THE INVENTION The present invention compares the operation of registering a word in the thesaurus with the operation of registering data indicating the relationship between words newly registered in the thesaurus and words already registered in the thesaurus. It is an object of the present invention to provide an apparatus and method for generating a thesaurus which can simplify the target.

【0006】この発明によるシソーラス生成装置は,登
録された単語,および登録されている単語の少なくとも
一部の単語について,その単語と他の単語との関係を記
述したシソーラスを記憶した記憶手段,文章を入力する
入力手段,上記入力手段によって入力された文章に含ま
れる単語を抽出する単語抽出手段,上記単語抽出手段に
よって抽出された単語が,シソーラスに登録されている
単語であるかどうかを判定する登録判定手段,上記登録
判定手段によって抽出単語がシソーラスに登録されてい
ない単語であると判定された場合に,抽出単語をシソー
ラスに新規登録する登録手段,シソーラスに新規登録さ
れた新規登録単語の文字列とシソーラスに既に登録され
ている既登録単語の文字列とを比較し,それらの包含関
係を判定する包含関係判定手段,ならびに上記包含関係
判定手段によって,新規登録単語の文字列が既登録単語
の文字列を含んでいると判定された場合には,上記既登
録単語が新規登録単語の上位概念語であるという関係お
よび新規登録単語が上記既登録単語の下位概念語である
という関係をシソーラスに登録し,新規登録単語の文字
列が既登録単語の文字列に含まれていると判定された場
合には,上記既登録単語が新規登録単語が下位概念語で
あるという関係および新規登録単語が上記既登録単語の
上位概念語であるという関係をシソーラスに登録する関
係性登録手段を備えたものである。
[0006] A thesaurus generation device according to the present invention is a storage means for storing, for a registered word and at least a part of the registered word, a thesaurus describing the relationship between the word and another word, and a sentence. Input means for inputting a word, word extracting means for extracting a word included in the sentence input by the input means, and determining whether the word extracted by the word extracting means is a word registered in a thesaurus A registration judging means, a registration means for newly registering the extracted word in the thesaurus when the extracted word is judged to be a word not registered in the thesaurus, a character of the newly registered word newly registered in the thesaurus Compares a column with a character string of a registered word already registered in the thesaurus, and determines the inclusion relation between them If it is determined by the engagement determining means and the inclusion relation determining means that the character string of the newly registered word includes the character string of the registered word, the registered word is a superordinate term of the newly registered word. The relationship that there is and the relationship that the newly registered word is a lower concept word of the above registered word is registered in the thesaurus, and when it is determined that the character string of the newly registered word is included in the character string of the already registered word, Is provided with a relationship registering means for registering, in a thesaurus, a relationship that the registered word is a new concept word and a relationship that the newly registered word is a higher concept word of the registered word. .

【0007】この発明によるシソーラス生成方法は,登
録された単語,および登録されている単語の少なくとも
一部の単語について,その単語と他の単語との関係を記
述したシソーラスを生成する方法であって,与えられた
文章に含まれる単語を抽出し,抽出された単語が,シソ
ーラスに登録されている単語であるかどうかを判定し,
上記抽出単語がシソーラスに登録されていない単語であ
ると判定された場合に,上記抽出単語をシソーラスに新
規に登録し,シソーラスに新規に登録された新規登録単
語の文字列とシソーラスに既に登録されている既登録単
語の文字列とを比較し,それらの包含関係を判定し,新
規登録単語の文字列が既登録単語の文字列を含んでいる
と判定された場合には,上記既登録単語が新規登録単語
の上位概念語であるという関係および新規登録単語が上
記既登録単語の下位概念語であるという関係をシソーラ
スに登録し,新規登録単語の文字列が既登録単語の文字
列に含まれていると判定された場合には,上記既登録単
語が新規登録単語が下位概念語であるという関係および
新規登録単語が上記既登録単語の上位概念語であるとい
う関係をシソーラスに登録するものである。
[0007] A thesaurus generation method according to the present invention is a method for generating a thesaurus describing a relationship between a registered word and at least a part of the registered word, and the relationship between the word and another word. , Extract words included in a given sentence, and determine whether the extracted words are words registered in a thesaurus,
If it is determined that the extracted word is not a word registered in the thesaurus, the extracted word is newly registered in the thesaurus, and the character string of the newly registered word newly registered in the thesaurus and already registered in the thesaurus. The registered words are compared with the registered words, and their inclusion relations are determined. If it is determined that the newly registered words include the registered words, Is registered in the thesaurus that the newly registered word is a superordinate concept word of the newly registered word and the relationship that the newly registered word is a lower concept word of the above registered word, and the character string of the newly registered word is included in the character string of the already registered word. If it is determined that the registered word is a new concept word is a lower concept word, and the relationship that the newly registered word is a higher concept word of the registered word is thesaurus. It is intended to be registered in.

【0008】新規登録単語は,たとえば形態素解析によ
って日本語の文章から抽出されるものであり,新規登録
単語と既登録単語との包含関係の判定は,それらの文字
列を用いて行われる。
The newly registered word is extracted from a Japanese sentence by, for example, morphological analysis, and the inclusion relation between the newly registered word and the registered word is determined using those character strings.

【0009】この発明によると,文章から抽出された単
語が未だシソーラスに登録されていない単語である場合
に,その抽出単語がシソーラスに新規に登録される。新
規登録単語の文字列と既登録単語の文字列の包含関係が
判定され,既登録単語の中に新規登録単語の上位概念語
または下位概念語があれば,新規登録単語とそのような
(上位概念語または下位概念語の)既登録単語との関係
がシソーラスに登録される。
According to the present invention, when a word extracted from a sentence is not yet registered in the thesaurus, the extracted word is newly registered in the thesaurus. The inclusion relation between the character string of the newly registered word and the character string of the registered word is determined. If the registered word includes a higher concept word or a lower concept word of the newly registered word, the newly registered word and such (higher level) The relation between the concept word or the subordinate concept word and the registered word is registered in the thesaurus.

【0010】分かりやすくするために一例を挙げる。シ
ソーラスに「靴」が既に登録されており,新たに「運動
靴」が登録されたとする。新規登録単語「運動靴」を表
す文字列は,既登録単語「靴」という文字を含んでい
る。「靴」は,「運動靴」,「婦人靴」,「紳士靴」,
「登山靴」,「靴べら」等,種々の単語の上位概念語と
して位置づけられる。このように,新規登録単語(運動
靴)の文字列が既登録単語(靴)の文字列を含んでいる
ことが判定された場合には,既登録単語(靴)は新規登
録単語(運動靴)の上位概念語であるという関係と,新
規登録単語(運動靴)は既登録単語(靴)の下位概念語
であるという関係とが,シソーラスに登録される。
An example will be given for clarity. It is assumed that "shoes" have already been registered in the thesaurus and that "exercise shoes" have been newly registered. The character string representing the newly registered word “exercise shoes” includes the character of the already registered word “shoes”. "Shoes" means "athletic shoes", "women's shoes", "men's shoes",
It is positioned as a superordinate term for various words such as "climbing shoes" and "shoehorns". As described above, when it is determined that the character string of the newly registered word (shoes) includes the character string of the registered word (shoes), the registered word (shoes) is added to the newly registered word (shoes). ) And the relationship that the newly registered word (exercise shoes) is a lower concept word of the registered word (shoes) is registered in the thesaurus.

【0011】逆に,シソーラスに「運動靴」が既に登録
されており,新たに「靴」が登録されたとする。新規登
録単語「靴」を表す文字列は,既登録単語「運動靴」と
いう文字に含まれている。このように,新規登録単語
(靴)の文字列が既登録単語(運動靴)の文字列に含ま
れていると判定された場合には,既登録単語(運動靴)
は新規登録単語(靴)の下位概念語であるという関係
と,新規登録単語(靴)は既登録単語(運動靴)の上位
概念語であるという関係とが,シソーラスに登録され
る。
Conversely, it is assumed that "exercise shoes" have already been registered in the thesaurus and that "shoes" have been newly registered. The character string representing the newly registered word “shoes” is included in the character that is already registered word “exercise shoes”. As described above, when it is determined that the character string of the newly registered word (shoes) is included in the character string of the registered word (exercise shoes), the registered word (shoes) is determined.
The relationship that is a lower concept word of the newly registered word (shoes) and the relationship that the newly registered word (shoes) is a higher concept word of the already registered word (exercise shoes) are registered in the thesaurus.

【0012】このように,この発明によると,入力され
る文章に応じて新たな単語が次々にシソーラスに登録さ
れるとともに,新たに登録された単語と既にシソーラス
に登録されている単語との間において,上位概念語およ
び下位概念語の関係が登録される。シソーラスに単語を
登録する負担と,上位概念語または下位概念語の関係を
示すデータを登録する負担とが軽減される。
As described above, according to the present invention, new words are sequentially registered in the thesaurus in accordance with the input text, and the new words are registered between the newly registered words and the words already registered in the thesaurus. In, the relationship between the upper concept word and the lower concept word is registered. The burden of registering a word in the thesaurus and the burden of registering data indicating the relationship between a higher concept word or a lower concept word are reduced.

【0013】この発明はさらに,シソーラスを生成する
シソーラス生成プログラムを記録した記録媒体を提供し
ている。
The present invention further provides a recording medium recording a thesaurus generation program for generating a thesaurus.

【0014】この発明によるシソーラス生成プログラム
を記録した記録媒体は,登録された単語,および登録さ
れている単語の少なくとも一部の単語について,その単
語と他の単語との関係を記述したシソーラスを作成する
プログラムであって,与えられた単語が,シソーラスに
登録されている単語であるかどうかを判定し,上記単語
がシソーラスに登録されていない単語であると判定され
た場合に,上記単語をシソーラスに新規に登録し,シソ
ーラスに新規に登録された新規登録単語の文字列とシソ
ーラスに既に登録されている既登録単語の文字列とを比
較して,それらの包含関係を判定し,新規登録単語の文
字列が既登録単語の文字列を含んでいると判定された場
合には,上記既登録単語が新規登録単語の上位概念語で
あるという関係および新規登録単語が上記既登録単語の
下位概念語であるという関係をシソーラスに登録し,新
規登録単語の文字列が既登録単語の文字列に含まれてい
ると判定された場合には,上記既登録単語が新規登録単
語が下位概念語であるという関係および新規登録単語が
上記既登録単語の上位概念語であるという関係をシソー
ラスに登録するようにコンピュータを制御するものであ
る。
A recording medium storing a thesaurus generation program according to the present invention creates a thesaurus describing a relationship between a registered word and at least a part of the registered word, the relationship between the word and another word. A program that determines whether a given word is a word registered in a thesaurus and, if it is determined that the word is a word not registered in the thesaurus, converts the word into a thesaurus The newly registered word is compared by comparing the character string of the newly registered word newly registered in the thesaurus with the character string of the already registered word already registered in the thesaurus. Is determined to include the character string of a registered word, the relationship that the registered word is a superordinate concept word of the newly registered word. And the relationship that the newly registered word is a lower concept word of the registered word is registered in the thesaurus, and if it is determined that the character string of the newly registered word is included in the character string of the registered word, The computer is controlled so that the relation that the registered word is a lower concept word and the relation that the newly registered word is a higher concept word of the registered word is registered in a thesaurus.

【0015】このプログラムによると,コンピュータを
用いて,与えられた単語について,その単語の登録と,
その単語と既登録単語との上位,下位関係を示すデータ
が自動的に登録される。
According to this program, for a given word using a computer, registration of the word,
Data indicating a higher-order or lower-order relationship between the word and the registered word is automatically registered.

【0016】記録媒体には光ディスク,光磁気ディス
ク,磁気ディスク,磁気テープ,半導体メモリ等が含ま
れる。
The recording medium includes an optical disk, a magneto-optical disk, a magnetic disk, a magnetic tape, a semiconductor memory, and the like.

【0017】この発明は,より一般的にデータ構造の包
含関係の判定,登録に拡張することができる。この発明
による装置は,コードデータ,およびコードデータ相互
間の包含関係を記憶する記憶手段,新たなコードデータ
を入力する手段,上記入力手段によって入力された新た
なコードデータを上記記憶手段に登録するコードデータ
登録手段,新たに入力されたコードデータと上記記憶手
段に既に登録されているコードデータとの包含関係を判
定する手段,ならびに包含関係があると判定されたコー
ドデータの包含関係をそれらのコードデータと関係づけ
て上記記憶手段に登録する包含関係登録手段を備えてい
るものである。
The present invention can be extended more generally to determination and registration of the inclusion relation of a data structure. According to the present invention, there is provided an apparatus for storing code data and an inclusion relation between the code data, a means for inputting new code data, and registering the new code data input by the input means in the storage means. Code data registering means, means for determining the inclusion relationship between newly input code data and code data already registered in the storage means, and the inclusion relationship of the code data determined to have an inclusion relationship. It is provided with inclusion relation registering means for registering in the storage means in association with the code data.

【0018】コードデータには単語を表す文字(列)コ
ードデータ,数字,その他の記号を表すコードデータ,
化学式を表すコードデータ,種々の材料,製品,部品等
を表すコードデータ,構造的関係,その他の関係を表す
コードデータ等が含まれる。
Code data includes character (string) code data representing a word, code data representing a number and other symbols,
Code data representing chemical formulas, code data representing various materials, products, parts, etc., code data representing structural relationships, other relationships, and the like are included.

【0019】この発明によると,入力されたコードデー
タ相互間,または入力されたコードデータと既に登録さ
れているコードデータとの間の包含関係が自動的に登録
される。すなわち,包含関係があると判定された場合に
はそのコードデータと,既に登録されているコードデー
タとの包含関係を表すデータとが登録される。
According to the present invention, the inclusion relation between the inputted code data or between the inputted code data and the already registered code data is automatically registered. That is, if it is determined that there is an inclusion relationship, the code data and data representing the inclusion relationship with the already registered code data are registered.

【0020】この発明は上述の包含関係の判定,登録を
実行するためのプログラムを記録した記録媒体も提供し
ている。このプログラムは,与えられた新たなコードデ
ータを記憶手段に登録し,与えられた新たなコードデー
タと上記記憶手段に既に登録されているコードデータと
の包含関係を判定し,包含関係があると判定されたコー
ドデータの包含関係をそれらのコードデータと関係づけ
て上記記憶手段に登録するようにコンピュータを制御す
るものである。
The present invention also provides a recording medium on which a program for executing the above-described inclusion relationship determination and registration is recorded. This program registers the given new code data in the storage means, determines the inclusion relationship between the given new code data and the code data already registered in the storage means, and determines that there is an inclusion relationship. The computer is controlled so that the inclusion relation of the determined code data is associated with the code data and registered in the storage means.

【0021】このプログラムをコンピュータに実行させ
ることによって,与えられた新たなコードデータの登録
と,そのコードデータと既に登録されているコードデー
タとの包含関係の関係を示すデータの登録とが自動的に
行われる。
By causing the computer to execute this program, the registration of new code data given and the registration of data indicating the inclusion relationship between the code data and the already registered code data are automatically performed. Done in

【0022】[0022]

【実施例】図1はシソーラス生成装置の電気的構成を示
すブロック図である。
FIG. 1 is a block diagram showing an electric configuration of a thesaurus generating apparatus.

【0023】シソーラス生成装置はCPU1を含んでい
る。CPU1には,入力を受付けるための入力装置2
(キーボード,マウスなど),処理結果等を可視的に出
力するための出力装置3(CRT表示装置,印字装置な
ど),CPU1が実行するプログラムを格納するプログ
ラム・エリア,各種演算のためのワーク・エリア,バッ
ファ・エリアなどを提供するメモリ4,CD−ROM7
に記録されたプログラムやデータを読取るCD−ROM
装置5,フロッピー(登録商標)・ディスク(FD)8
に記録されたプログラムやデータを読取り,かつFD8
にプログラムやデータを記録するFD装置6,およびプ
ログラムやデータをハード・ディスク(HD)にリード
/ライトするハード・ディスク装置9が接続されてい
る。
The thesaurus generation device includes a CPU 1. The CPU 1 has an input device 2 for receiving an input.
(Keyboard, mouse, etc.), an output device 3 (CRT display device, printing device, etc.) for visually outputting the processing results, etc., a program area for storing programs to be executed by the CPU 1, a work area for various operations, etc. Memory 4 for providing area, buffer area, etc., CD-ROM 7
CD-ROM for reading programs and data recorded in
Apparatus 5, floppy (registered trademark) disk (FD) 8
Read programs and data recorded in the FD8
An FD device 6 for recording programs and data and a hard disk device 9 for reading and writing programs and data to and from a hard disk (HD) are connected.

【0024】CD−ROM7には,次に説明するシソー
ラス10に新たな単語を登録し,新たにシソーラス10に登
録される単語と既にシソーラス10に登録されている単語
との間の上位および下位概念の関係を示すデータを登録
するシソーラス生成プログラムが記録されている。この
シソーラスプ生成プログラムはCD−ROM装置5によ
って読み出され,HD装置9のHDにインストールされ
る。
In the CD-ROM 7, a new word is registered in a thesaurus 10 described below, and the upper and lower concepts between words newly registered in the thesaurus 10 and words already registered in the thesaurus 10 are registered. A thesaurus generation program for registering data indicating the relationship. The thesaurus generation program is read by the CD-ROM device 5 and installed on the HD of the HD device 9.

【0025】HD装置9のHDには,シソーラス生成装
置の全体を統括的に制御するためのオペレーティング・
システム,複数の単語(用語,キーワード)が登録(記
録)され,かつ登録されている単語のうちの少なくとも
一部について,その単語と登録されている他の単語との
間の意味的な関係を示すデータが登録されたシソーラス
10,および上に述べたシソーラス生成プログラムが記憶
されている。HDに格納されたシソーラス生成プログラ
ムがメモリ4に一時的に記憶され,または展開される。
シソーラス生成プログラムによってシソーラス生成装置
が制御され,以下に詳述するシソーラス生成処理が行わ
れる。
The HD of the HD device 9 has an operating system for totally controlling the entire thesaurus generation device.
The system registers (records) multiple words (terms, keywords) and, for at least some of the registered words, describes the semantic relationship between the word and other registered words. Thesaurus with registered data
10 and the thesaurus generation program described above are stored. The thesaurus generation program stored in the HD is temporarily stored in the memory 4 or expanded.
The thesaurus generation device is controlled by the thesaurus generation program, and a thesaurus generation process described in detail below is performed.

【0026】図2はHDに記憶されたシソーラス10のデ
ータ構造の一例を概念的に示すものである。
FIG. 2 conceptually shows an example of the data structure of the thesaurus 10 stored in the HD.

【0027】シソーラス10には,「衣料品」,「靴」
「シューズ」,「婦人靴」,「運動靴」,「スポーツシ
ューズ」および「スター運動靴」の7つの単語が登録さ
れている。また,登録されている単語と他の登録されて
いる単語との間の意味的な関係を示す関係データ(矢印
付の線と,その近傍の2文字のアルファベットによって
示す)が登録されている。
The thesaurus 10 includes "clothing" and "shoes".
Seven words of "shoes", "women's shoes", "athletic shoes", "sports shoes" and "star athletic shoes" are registered. In addition, relation data (indicated by a line with an arrow and two alphabetical characters in the vicinity thereof) indicating a semantic relation between a registered word and another registered word is registered.

【0028】関係データにはBT,NT,UFおよびR
Tの4種があり,これらの4種の関係データによって一
の登録されている単語に関し,他の登録されている単語
の意味的な関係が示される。BT,NT,UFおよびR
Tの意味は次の通りである。
The relation data includes BT, NT, UF and R
There are four types of T, and the semantic relationship between one registered word and another registered word is indicated by these four types of relation data. BT, NT, UF and R
The meaning of T is as follows.

【0029】上位概念語(BT:Broader Term):あ
る単語に関し,上位概念的な意味(より広い概念)を有
する単語である。たとえば「靴」は「運動靴」を含む上
位概念的な意味を持つ(「靴」は「運動靴」を包含して
いる)ので,「靴」は「運動靴」の上位概念語として位
置づけられる。「運動靴」と「靴」とはBTを表す関係
データ(「運動靴」を始点とし「靴」を終点とする矢印
付の線によって示す)によって関係付けられている
(「運動靴」BT「靴」)。
Broader term (BT): A word having a broader meaning (broader concept) with respect to a certain word. For example, “shoes” has a broader meaning that includes “athletic shoes” (“shoes” encompasses “athletic shoes”), so “shoes” is positioned as a broader term for “athletic shoes” . "Sports shoes" and "shoes" are related by relational data representing the BT (indicated by a line with an arrow starting at "shoes" and ending at "shoes") ("Sports shoes" BT "shoes").

【0030】さらにシソーラス10において,「靴」は
「婦人靴」の上位概念語でもある。また「運動靴」は
「スター運動靴」の上位概念語であり,「シューズ」は
「スポーツシューズ」の上位概念語である。BTを表す
関係データによって,「婦人靴」は「靴」と,「スター
運動靴」は「運動靴」と,「スポーツシューズ」は「シ
ューズ」と関係付けられている。
Further, in the thesaurus 10, "shoes" is also a generic term of "woman shoes". “Sports shoes” is a broader term for “stars athletic shoes”, and “shoes” is a broader term for “sports shoes”. According to the relation data representing the BT, “women's shoes” are related to “shoes”, “star athletic shoes” are related to “athletic shoes”, and “sports shoes” are related to “shoes”.

【0031】下位概念語(NT:Narrow Term):あ
る単語に関し,下位概念的な意味(より狭い概念)を有
する単語である。たとえば「運動靴」は「靴」の下位概
念的な意味を有する単語であるから,「運動靴」は
「靴」の下位概念語として位置づけられる。「靴」と
「運動靴」とはNTを表す関係データによって関係付け
られている(「靴」NT「運動靴」)。
Subordinate term (Narrow Term): A word having a subordinate meaning (narrower concept) with respect to a certain word. For example, "athletic shoes" is a word having a lower conceptual meaning of "shoes", so "exercise shoes" is positioned as a lower conceptual word of "shoes". "Shoes" and "athletic shoes" are related by relation data representing NT ("shoes" NT "exercise shoes").

【0032】上位概念語(BT)と下位概念語(N
T)とは対をなす関係にあり,NTを表す関係データと
BTを表す関係データも対をなす。NTを表す関係デー
タによって「靴」は「婦人靴」と,「運動靴」は「スタ
ー運動靴」と,「シューズ」は「スポーツシューズ」と
関係付けられている。
The upper concept word (BT) and the lower concept word (N
T) is a paired relationship, and the relationship data representing NT and the relationship data representing BT also form a pair. “Shoes” are related to “women's shoes”, “athletic shoes” are related to “star athletic shoes”, and “shoes” are related to “sports shoes” according to the relationship data representing NT.

【0033】同義語(UF:Used For):ある単語と
同義的な意味(同意の概念)を有する単語である。たと
えば,「靴」と「シューズ」とは同義的な意味を有する
単語である。UFを表す関係データによって「靴」と
「シューズ」とが相互に関係付けられている(「靴」U
F「シューズ」)。シソーラス10において「運動靴」と
「スポーツシューズ」も同義的な意味を有する単語とし
て,UFを表す関係データによって相互に関係付けられ
ている。
Synonym (UF: Used For): A word having a meaning (concept of consent) synonymous with a certain word. For example, "shoes" and "shoes" are words having the same meaning. “Shoes” and “shoes” are correlated with each other by relational data representing UF (“shoes” U
F "shoes"). In the thesaurus 10, "exercise shoes" and "sports shoes" are also mutually related by relational data representing UF as words having the same meaning.

【0034】関連語(RT:Related Term):ある単
語と関連する概念を持つ単語である。シソーラス10にお
いて「靴」と「衣料品」とが相互に関連する単語とし
て,RTを表す関係データによって相互に関係付けられ
ている(「靴」RT「衣料品」)。
Related word (RT): A word having a concept related to a certain word. In the thesaurus 10, "shoes" and "clothing" are related to each other by relation data representing RT as words which are related to each other ("shoes" RT "clothing").

【0035】シソーラス10に登録されている単語は,上
述の4種の関係データによって,他の登録されている単
語との間において意味的な関係が付与される。もちろ
ん,一つの単語に複数の単語が関係データによって関係
付けられる場合もある。また,他の登録されている単語
と何らの関係付けを持たない単語が,シソーラス10に登
録される場合もある。一般的にいって,シソーラスには
上述した4種の関係データに限らず,他の関係データ
(たとえば,訳語を表す関係データ)も登録される。
A word registered in the thesaurus 10 is given a semantic relationship with other registered words by the above-described four types of relation data. Of course, a plurality of words may be related to one word by the relation data. In addition, a word having no relation with other registered words may be registered in the thesaurus 10. Generally speaking, in the thesaurus, not only the four types of relational data described above but also other relational data (for example, relational data representing a translation word) are registered.

【0036】図3はシソーラス生成プログラムによるシ
ソーラス生成処理のフローチャートである。
FIG. 3 is a flowchart of the thesaurus generation processing by the thesaurus generation program.

【0037】シソーラス生成プログラムは,入力された
文章から形態素解析によって単語を抽出して抽出した単
語がシソーラスに登録されていない単語である場合に,
その単語をシソーラス10に登録し,さらに,新たにシソ
ーラス10に登録された単語(以下,新規登録単語とい
う)関し,既にシソーラスに登録されている単語(以
下,既登録単語という)の中に上位概念語(BT)また
は下位概念語(NT)があれば,それと新規登録単語と
をBTおよびNTで関係付けるものである。
The thesaurus generation program extracts a word from an input sentence by morphological analysis and, if the extracted word is a word that is not registered in the thesaurus,
The word is registered in the thesaurus 10, and the words newly registered in the thesaurus 10 (hereinafter referred to as newly registered words) are ranked higher among the words already registered in the thesaurus (hereinafter referred to as registered words). If there is a concept word (BT) or a lower concept word (NT), it is associated with the newly registered word by BT and NT.

【0038】入力装置2を用いて(またはFD8から)
シソーラス生成装置に文章が入力される。入力された文
章について形態素解析が行われる(ステップ21)。日本
語の形態素解析のアルゴリズムには,京都大学の「JU
MAN」や,奈良先端科学技術大学院大学の「茶筌」な
どが知られている。
Using the input device 2 (or from the FD 8)
A sentence is input to the thesaurus generation device. Morphological analysis is performed on the input sentence (step 21). Algorithms for Japanese morphological analysis include “JU” from Kyoto University.
MAN "and" ChaSen "of Nara Institute of Science and Technology are known.

【0039】「長靴をはいてスポーツする猫」という文
章が入力されたとする。この文章を形態素解析した結果
の一例が図4に示されている。図5は「長靴をはいてス
ポーツする猫」という文章をシソーラス生成装置に入力
した場合に,シソーラス生成プログラムの処理によって
図2に示すシソーラスが更新(変更)された様子を示す
ものである。
It is assumed that a sentence "cat playing sports while wearing boots" is input. FIG. 4 shows an example of the result of morphological analysis of this sentence. FIG. 5 shows how the thesaurus shown in FIG. 2 is updated (changed) by the processing of the thesaurus generation program when the text "cats playing sports while wearing boots" is input to the thesaurus generation device.

【0040】形態素解析処理では,日本語の文章が品詞
によって複数の語(単語)に分割される。「長靴をはい
てスポーツする猫」という文章は,「長靴」(普通名
詞),「を」(格助詞),「はいて」(動詞)(「は
く」の連用形),「スポーツ」(普通名詞),「する」
(動詞)および「猫」(普通名詞)という6つの語に分
割される。分割された語のうち,名詞(「長靴」,「ス
ポーツ」および「猫」)のみが抽出される。
In the morphological analysis process, a Japanese sentence is divided into a plurality of words (words) by the part of speech. The sentence "cats that wear sports with boots" is "boots" (common noun), "wo" (case particle), "hate" (verb) (conjunctive form of "haku"), "sports" (normal Noun), "do"
(Verb) and "cat" (common noun). Only nouns ("boots", "sports", and "cats") are extracted from the divided words.

【0041】抽出された単語(名詞)のそれぞれについ
て,その単語がシソーラス10に既に登録されているかど
うかが判定される(ステップ22)。この判定は,抽出さ
れた単語を表す文字コード(たとえば,ASCIIコード)
とシソーラス10に登録されている既登録単語の文字コー
ドを比較することによって行われる。
For each of the extracted words (nouns), it is determined whether the word has already been registered in the thesaurus 10 (step 22). This judgment is based on the character code representing the extracted word (for example, ASCII code)
This is performed by comparing the character codes of the registered words registered in the thesaurus 10 with those of the registered words.

【0042】抽出された単語が,既にシソーラス10に登
録されている場合には(ステップ22でYES ),形態素解
析処理(ステップ21)によって抽出された次の単語につ
いて,その単語がシソーラスに登録されているかどうか
が判定される(ステップ23でNO,ステップ22)。
If the extracted word is already registered in the thesaurus 10 (YES in step 22), the next word extracted by the morphological analysis process (step 21) is registered in the thesaurus. Is determined (NO in step 23, step 22).

【0043】抽出された単語が,シソーラス10に未だ登
録されていない単語である場合には(ステップ22でN
O),抽出された単語はインデックスが付与されてシソ
ーラス10に新たに登録される(ステップ24)(新規登録
単語)。
If the extracted words are words that have not been registered in the thesaurus 10 (N in step 22)
O), the extracted words are indexed and newly registered in the thesaurus 10 (step 24) (newly registered words).

【0044】この新規登録単語について既にシソーラス
10に登録されている単語との包含関係が調べられる。す
なわち,シソーラス10に既に登録されている既登録単語
のうちの一つが選択され,その選択された既登録単語と
新規登録単語との間で,上位概念語(BT)または下位
概念語(NT)の関係があるかどうかが判定される(ス
テップ26,ステップ28)。
The newly registered word is already in the thesaurus
The inclusion relation with the word registered in 10 is checked. That is, one of the registered words already registered in the thesaurus 10 is selected, and a higher concept word (BT) or a lower concept word (NT) is selected between the selected registered word and the newly registered word. It is determined whether there is a relationship (steps 26 and 28).

【0045】はじめに新規登録単語に関し,選択された
既登録単語が上位概念語(BT)であるかどうかが判定
される(ステップ26)。この判定は,新規登録単語を表
す文字コードと選択された既登録単語を表す文字コード
とを比較し,新規登録単語を表す文字コードが既登録単
語を表す文字コードを含むかどうかによって行われる。
First, with respect to a newly registered word, it is determined whether or not the selected registered word is a broader concept word (BT) (step 26). This determination is made by comparing the character code representing the newly registered word with the character code representing the selected registered word, and determining whether the character code representing the newly registered word includes the character code representing the registered word.

【0046】たとえば,新規登録単語「長靴」を表す文
字コードは,シソーラス10の既登録単語「靴」を表す文
字コードを含んでいる(「靴」の部分において一致す
る)。新規登録単語「長靴」に関し,既登録単語「靴」
は上位概念語である(「靴」は「長靴」を包含してい
る)と判断される(ステップ26でYES )。シソーラス10
において「靴」は「長靴」の上位概念語であることを示
す関係データ(BT)が登録される(ステップ27,図
5)。さらに,BTとNTとは対をなす関係にあるの
で,「長靴」は「靴」の下位概念語であることを示す関
係データ(NT)も登録される。
For example, the character code representing the newly registered word "boots" includes the character code representing the registered word "shoes" in the thesaurus 10 (matching in the "shoes" portion). For the newly registered word "boots", the registered word "shoes"
Is a broader term ("shoes" includes "boots") (YES in step 26). Thesaurus 10
, Relation data (BT) indicating that "shoes" is a broader term of "boots" is registered (step 27, FIG. 5). Further, since BT and NT form a pair, relation data (NT) indicating that "boots" is a lower concept word of "shoes" is also registered.

【0047】新規登録単語に関し,選択された既登録単
語が上位概念語(BT)でない場合には(ステップ26で
NO),選択された既登録単語が下位概念語(NT)であ
るかどうかが判定される(ステップ28)。
If the selected registered word is not a broader concept word (BT) for the newly registered word (step 26).
NO), it is determined whether the selected registered word is a lower concept word (NT) (step 28).

【0048】新規登録単語を表す文字コードが既登録単
語を表す文字コードに含まれている場合(たとえば,新
規登録単語「スポーツ」を表す文字コードは,既登録単
語「スポーツシューズ」を表す文字コードに含まれてい
る),新規登録単語に関し,選択された既登録単語は下
位概念語であると判断される(ステップ28でYES )。シ
ソーラス10において,既登録単語(「スポーツシュー
ズ」)は新規登録単語(「スポーツ」)の下位概念語で
あることを示す関係データ(NT)が登録され,新規登
録単語(「スポーツ」)は既登録単語(「スポーツシュ
ーズ」)の上位概念語であることを示す関係データ(B
T)が登録される(ステップ29,図5)。
When a character code representing a newly registered word is included in a character code representing a registered word (for example, a character code representing a newly registered word “sports” is a character code representing a registered word “sports shoes”) ), The selected registered word is determined to be a lower concept word (YES in step 28). In the thesaurus 10, relation data (NT) indicating that the registered word ("sports shoes") is a lower concept word of the newly registered word ("sports") is registered, and the newly registered word ("sports") is registered. Relationship data (B indicating that it is a broader concept word of the registered word ("sports shoes")
T) is registered (step 29, FIG. 5).

【0049】新規登録単語は,シソーラス10に登録され
ているすべての既登録単語(または特定の範囲内の既登
録単語)と比較される(ステップ30でNO,ステップ2
5)。
The newly registered word is compared with all the registered words registered in the thesaurus 10 (or the registered words within a specific range) (NO in step 30, NO in step 30).
Five).

【0050】新規登録単語に関し,すべての既登録単語
が上位概念語でも下位概念語でもない場合(ステップ26
でNO,ステップ28でNO),その新規登録単語は,既登録
単語とNTおよびBTの関係性を持つことなくシソーラ
ス10に登録されることになる(たとえば,図5において
「猫」)。
In the case where all the registered words are neither the superordinate concept word nor the subordinate concept word with respect to the newly registered word (step 26)
, NO in step 28), and the newly registered word is registered in the thesaurus 10 without having a relationship between the already registered word and NT and BT (for example, “cat” in FIG. 5).

【0051】新規登録単語とすべての既登録単語との間
において,上位概念語または下位概念語の関係があるか
どうかの判定を終えると(ステップ30でYES ),形態素
解析(ステップ21)において抽出された次の単語につい
て,登録の有無が判定される(ステップ22)。その単語
が未だ登録されていない単語の場合にはシソーラス10へ
の登録の後(ステップ24),上位概念語または下位概念
語の関係の判定に進む(ステップ25〜30)。
When it is determined whether or not there is a relation between a higher concept word or a lower concept word between the newly registered word and all the registered words (YES in step 30), the extracted words are extracted in morphological analysis (step 21). It is determined whether or not the next word is registered (step 22). If the word has not been registered yet, after registration in the thesaurus 10 (step 24), the process proceeds to the determination of the relation between the upper concept word or the lower concept word (steps 25 to 30).

【0052】抽出されたすべての単語について上述の処
理(ステップ22〜30)を終えると,シソーラス生成処理
が終了する(ステップ23でYES )。
When the above processing (steps 22 to 30) is completed for all the extracted words, the thesaurus generation processing ends (YES in step 23).

【0053】このように,シソーラス生成処理では,入
力文章に含まれるシソーラス10にいまだ登録されていな
い単語がシソーラス10に登録され,さらに上位概念語
(BT)および下位概念語(NT)を示す関係データ
が自動的に登録される。同義語(UF)および関連
語(RT)を示す関係データについては,ユーザが入力
装置2を用いて登録する。もちろん,BTおよびN
Tを示す関係データについても,ユーザが入力装置2を
用いて登録することもできる。
As described above, in the thesaurus generation processing, words that have not yet been registered in the thesaurus 10 included in the input sentence are registered in the thesaurus 10, and furthermore, the relation indicating the higher concept word (BT) and the lower concept word (NT) Data is automatically registered. The user registers the related data indicating the synonym (UF) and the related word (RT) using the input device 2. Of course, BT and N
The user can also register the relation data indicating T using the input device 2.

【0054】生成されたシソーラスは,文書の検索処理
に用いることができる。たとえば,「運動靴」という単
語(キー・ワード)を含む文書を,データ・ベースに蓄
積された文書から検索(抽出)する場合には,シソーラ
ス10を用いることによって,「運動靴」を含む文書を検
索できるのみならず,シソーラス10において「運動靴」
と関係付けられて登録されている単語(たとえば,
「靴」や,「靴」を介してさらに関係する「婦人靴」)
を含む文書も,類似するキー・ワードを含む文書として
検索される。
The generated thesaurus can be used for document search processing. For example, when searching for (extracting) a document containing the word “exercise shoes” (key word) from the documents stored in the database, the thesaurus 10 can be used to retrieve a document containing “athlete shoes”. Not only can you search for, but also "exercise shoes"
Words registered in association with (for example,
"Shoes" or "Women's shoes" which are further related via "Shoes")
Are also searched for as documents containing similar key words.

【0055】上述した態様では,シソーラス10に単語
(日本語)が登録され,新規登録単語を表す文字コード
と既登録単語を表す文字コードとを比較することによっ
て,新規登録単語と既登録単語との包含関係(上位概念
語(BT)または下位概念語(NT)の関係)を判定し
ている。シソーラス10が化学式に関するデータを登録し
たものであれば,たとえば,新たに登録される化学式
(またはその化学式に含まれる特定の部分)が,既に登
録されている化学式中に含まれているか,既に登録され
ている化学式を含んでいるかどうかによって包含関係
(上位概念または下位概念)の判定をしてもよい。この
ように上位概念または下位概念の判定においては,シソ
ーラス10に登録されるデータの種類に応じて,その判定
の要素を決定すればよい。
In the above-described embodiment, a word (Japanese) is registered in the thesaurus 10, and the character code representing the newly registered word and the character code representing the registered word are compared, so that the newly registered word and the registered word are compared. (The relation between the broader concept word (BT) or the lower concept word (NT)) is determined. If the thesaurus 10 has registered data on chemical formulas, for example, the newly registered chemical formula (or a specific part included in the chemical formula) is included in the already registered chemical formulas, or The inclusion relation (superordinate concept or subordinate concept) may be determined based on whether or not the included chemical formula is included. As described above, in the determination of the superordinate concept or the subordinate concept, the element of the determination may be determined according to the type of data registered in the thesaurus 10.

【図面の簡単な説明】[Brief description of the drawings]

【図1】シソーラス生成装置の電気的構成を示すブロッ
ク図である。
FIG. 1 is a block diagram illustrating an electrical configuration of a thesaurus generation device.

【図2】シソーラスのデータ構造を概念的に示すもので
ある。
FIG. 2 conceptually shows a data structure of a thesaurus.

【図3】シソーラス生成プログラムの処理を示すフロー
チャートである。
FIG. 3 is a flowchart illustrating processing of a thesaurus generation program.

【図4】形態素解析処理の一例を示すものである。FIG. 4 illustrates an example of a morphological analysis process.

【図5】シソーラスのデータ構造を概念的に示すもので
ある。
FIG. 5 conceptually shows a data structure of a thesaurus.

【符号の説明】[Explanation of symbols]

1 CPU 2 入力装置 3 出力装置 4 メモリ 5 CD−ROM装置 6 FD装置 7 CD−ROM 8 FD 9 ハード・ディスク装置 10 シソーラス DESCRIPTION OF SYMBOLS 1 CPU 2 Input device 3 Output device 4 Memory 5 CD-ROM device 6 FD device 7 CD-ROM 8 FD 9 Hard disk device 10 Thesaurus

Claims (5)

【特許請求の範囲】[Claims] 【請求項1】 登録された単語,および登録されている
単語の少なくとも一部の単語について,その単語と他の
単語との関係を記述したシソーラスを記憶した記憶手
段,文章を入力する入力手段,上記入力手段によって入
力された文章に含まれる単語を抽出する単語抽出手段,
上記単語抽出手段によって抽出された単語が,シソーラ
スに登録されている単語であるかどうかを判定する登録
判定手段,上記登録判定手段によって抽出単語がシソー
ラスに登録されていない単語であると判定された場合
に,抽出単語をシソーラスに新規登録する登録手段,シ
ソーラスに新規登録された新規登録単語の文字列とシソ
ーラスに既に登録されている既登録単語の文字列とを比
較し,それらの包含関係を判定する包含関係判定手段,
ならびに上記包含関係判定手段によって,新規登録単語
の文字列が既登録単語の文字列を含んでいると判定され
た場合には,上記既登録単語が新規登録単語の上位概念
語であるという関係および新規登録単語が上記既登録単
語の下位概念語であるという関係をシソーラスに登録
し,新規登録単語の文字列が既登録単語の文字列に含ま
れていると判定された場合には,上記既登録単語が新規
登録単語が下位概念語であるという関係および新規登録
単語が上記既登録単語の上位概念語であるという関係を
シソーラスに登録する関係性登録手段,を備えたシソー
ラス生成装置。
1. A storage means for storing a thesaurus describing a relationship between a registered word and at least a part of the registered word, the relation between the word and another word, an input means for inputting a sentence, Word extraction means for extracting words contained in the text input by the input means,
Registration determining means for determining whether the word extracted by the word extracting means is a word registered in the thesaurus, and determining that the extracted word is not a word registered in the thesaurus by the registration determining means In this case, the registration means for newly registering the extracted word in the thesaurus, comparing the character string of the newly registered word newly registered in the thesaurus with the character string of the already registered word already registered in the thesaurus, and determining their inclusion relations Means for determining inclusion relation,
And when the inclusion relation determining means determines that the character string of the newly registered word includes the character string of the registered word, the relation that the registered word is a superordinate concept word of the newly registered word, The relation that the newly registered word is a lower concept word of the above-mentioned registered word is registered in the thesaurus, and when it is determined that the character string of the newly registered word is included in the character string of the already-registered word, the above-mentioned word is registered. A thesaurus generation device comprising: a relationship registration unit that registers in a thesaurus a relationship that a registered word is a lower concept word and a relationship that a newly registered word is a higher concept word of the registered word.
【請求項2】 登録された単語,および登録されている
単語の少なくとも一部の単語について,その単語と他の
単語との関係を記述したシソーラスを生成する方法であ
り,与えられた文章に含まれる単語を抽出し,抽出され
た単語が,シソーラスに登録されている単語であるかど
うかを判定し,上記抽出単語がシソーラスに登録されて
いない単語であると判定された場合に,上記抽出単語を
シソーラスに新規に登録し,シソーラスに新規に登録さ
れた新規登録単語の文字列とシソーラスに既に登録され
ている既登録単語の文字列とを比較し,それらの包含関
係を判定し,新規登録単語の文字列が既登録単語の文字
列を含んでいると判定された場合には,上記既登録単語
が新規登録単語の上位概念語であるという関係および新
規登録単語が上記既登録単語の下位概念語であるという
関係をシソーラスに登録し,新規登録単語の文字列が既
登録単語の文字列に含まれていると判定された場合に
は,上記既登録単語が新規登録単語が下位概念語である
という関係および新規登録単語が上記既登録単語の上位
概念語であるという関係をシソーラスに登録する,シソ
ーラス生成方法。
2. A method of generating a thesaurus describing a relationship between a registered word and at least a part of the registered word, and a relationship between the word and another word, wherein the thesaurus is included in a given sentence. The extracted word is extracted, and it is determined whether the extracted word is a word registered in the thesaurus. If it is determined that the extracted word is a word not registered in the thesaurus, the extracted word is determined. Is newly registered in the thesaurus, the character string of the newly registered word newly registered in the thesaurus is compared with the character string of the registered word already registered in the thesaurus, their inclusion relation is determined, and the new registration is performed. If it is determined that the word character string includes the registered word character string, the relation that the registered word is a superordinate concept word of the newly registered word and the new registered word is When the relation that the word is a lower concept word of the registered word is registered in the thesaurus, and it is determined that the character string of the newly registered word is included in the character string of the registered word, the registered word is replaced with the new registered word. Is a lower concept word and a relation that the newly registered word is a higher concept word of the already registered word is registered in a thesaurus.
【請求項3】 登録された単語,および登録されている
単語の少なくとも一部の単語について,その単語と他の
単語との関係を記述したシソーラスを作成するプログラ
ムであって,与えられた単語が,シソーラスに登録され
ている単語であるかどうかを判定し,上記単語がシソー
ラスに登録されていない単語であると判定された場合
に,上記単語をシソーラスに新規に登録し,シソーラス
に新規に登録された新規登録単語の文字列とシソーラス
に既に登録されている既登録単語の文字列とを比較し
て,それらの包含関係を判定し,新規登録単語の文字列
が既登録単語の文字列を含んでいると判定された場合に
は,上記既登録単語が新規登録単語の上位概念語である
という関係および新規登録単語が上記既登録単語の下位
概念語であるという関係をシソーラスに登録し,新規登
録単語の文字列が既登録単語の文字列に含まれていると
判定された場合には,上記既登録単語が新規登録単語が
下位概念語であるという関係および新規登録単語が上記
既登録単語の上位概念語であるという関係をシソーラス
に登録するようにコンピュータを制御する,シソーラス
生成プログラムを記録した記録媒体。
3. A program for creating a thesaurus describing a relationship between a registered word and at least a part of the registered word, the relationship between the word and another word, wherein the given word is , Determine whether the word is registered in the thesaurus, and if it is determined that the word is not a word registered in the thesaurus, newly register the word in the thesaurus and newly register in the thesaurus The new registered word character string is compared with the registered word character string already registered in the thesaurus to determine their inclusion, and the newly registered word character string is replaced with the registered word character string. If it is determined that the word is included, the relation that the registered word is a superordinate term of the newly registered word and the relation that the newly registered word is a lower concept word of the registered word Is registered in the thesaurus, and when it is determined that the character string of the newly registered word is included in the character string of the registered word, the relationship between the registered word and the new A recording medium recording a thesaurus generation program for controlling a computer to register a relation that a registered word is a broader concept word of the registered word in the thesaurus.
【請求項4】 コードデータ,およびコードデータ相互
間の包含関係を記憶する記憶手段,新たなコードデータ
を入力する手段,上記入力手段によって入力された新た
なコードデータを上記記憶手段に登録するコードデータ
登録手段,新たに入力されたコードデータと上記記憶手
段に既に登録されているコードデータとの包含関係を判
定する手段,ならびに包含関係があると判定されたコー
ドデータの包含関係をそれらのコードデータと関係づけ
て上記記憶手段に登録する包含関係登録手段,を備えた
装置。
4. A storage means for storing code data and an inclusive relation between code data, a means for inputting new code data, and a code for registering new code data input by the input means in the storage means. Data registration means, means for determining the inclusion relationship between newly input code data and code data already registered in the storage means, and the inclusion relation of the code data determined to have an inclusion relation to those codes. An inclusive relation registering means for registering in the storage means in association with data.
【請求項5】 与えられた新たなコードデータを記憶手
段に登録し,与えられた新たなコードデータと上記記憶
手段に既に登録されているコードデータとの包含関係を
判定し,包含関係があると判定されたコードデータの包
含関係をそれらのコードデータと関係づけて上記記憶手
段に登録するようにコンピュータを制御するプログラム
を記録した記録媒体。
5. The new code data given is registered in the storage means, the inclusion relation between the given new code data and the code data already registered in the storage means is determined, and the inclusion relation is found. A recording medium storing a program for controlling a computer so that the inclusion relation of the code data determined as above is associated with the code data and registered in the storage means.
JP11089565A 1999-03-30 1999-03-30 Apparatus and method for generating a thesaurus and recording medium storing a thesaurus generating program Pending JP2000285122A (en)

Priority Applications (1)

Application Number Priority Date Filing Date Title
JP11089565A JP2000285122A (en) 1999-03-30 1999-03-30 Apparatus and method for generating a thesaurus and recording medium storing a thesaurus generating program

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
JP11089565A JP2000285122A (en) 1999-03-30 1999-03-30 Apparatus and method for generating a thesaurus and recording medium storing a thesaurus generating program

Publications (1)

Publication Number Publication Date
JP2000285122A true JP2000285122A (en) 2000-10-13

Family

ID=13974347

Family Applications (1)

Application Number Title Priority Date Filing Date
JP11089565A Pending JP2000285122A (en) 1999-03-30 1999-03-30 Apparatus and method for generating a thesaurus and recording medium storing a thesaurus generating program

Country Status (1)

Country Link
JP (1) JP2000285122A (en)

Cited By (7)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2003308324A (en) * 2002-04-12 2003-10-31 Yomiuri Shimbun Search word processor, and device for retrieving document
JP2008269099A (en) * 2007-04-17 2008-11-06 Toshiba Tec Corp Term relevance dictionary editing device
JP2014501988A (en) * 2011-01-07 2014-01-23 プライマル フュージョン インコーポレイテッド System and method for analyzing and synthesizing complex knowledge representation
JP2018013920A (en) * 2016-07-20 2018-01-25 株式会社アイ・アール・ディー Invention generating device, invention generating method, and program
US9934465B2 (en) 2005-03-30 2018-04-03 Primal Fusion Inc. Systems and methods for analyzing and synthesizing complex knowledge representations
US10002325B2 (en) 2005-03-30 2018-06-19 Primal Fusion Inc. Knowledge representation systems and methods incorporating inference rules
US10248669B2 (en) 2010-06-22 2019-04-02 Primal Fusion Inc. Methods and devices for customizing knowledge representation systems

Cited By (7)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2003308324A (en) * 2002-04-12 2003-10-31 Yomiuri Shimbun Search word processor, and device for retrieving document
US9934465B2 (en) 2005-03-30 2018-04-03 Primal Fusion Inc. Systems and methods for analyzing and synthesizing complex knowledge representations
US10002325B2 (en) 2005-03-30 2018-06-19 Primal Fusion Inc. Knowledge representation systems and methods incorporating inference rules
JP2008269099A (en) * 2007-04-17 2008-11-06 Toshiba Tec Corp Term relevance dictionary editing device
US10248669B2 (en) 2010-06-22 2019-04-02 Primal Fusion Inc. Methods and devices for customizing knowledge representation systems
JP2014501988A (en) * 2011-01-07 2014-01-23 プライマル フュージョン インコーポレイテッド System and method for analyzing and synthesizing complex knowledge representation
JP2018013920A (en) * 2016-07-20 2018-01-25 株式会社アイ・アール・ディー Invention generating device, invention generating method, and program

Similar Documents

Publication Publication Date Title
JP3918531B2 (en) Similar document search method and system
US8024175B2 (en) Computer program, apparatus, and method for searching translation memory and displaying search result
US5745745A (en) Text search method and apparatus for structured documents
JP3067966B2 (en) Apparatus and method for retrieving image parts
JP2742115B2 (en) Similar document search device
JPH11110416A (en) Method and device for retrieving document from data base
JP2001043236A (en) Similar word extraction method, document search method, and apparatus used therefor
JPH1145241A (en) Kana-kanji conversion system and computer-readable recording medium storing a program for causing a computer to function as each means of the system
JP4238616B2 (en) Similar document search method and similar document search device
JP2010287020A (en) Synonym expansion system and synonym expansion method
JP2000200281A (en) Information retrieval apparatus, information retrieval method, and recording medium recording information retrieval program
Al-Khatib et al. Tashaphyne0. 4: a new arabic light stemmer based on rhyzome modeling approach
JP2000285122A (en) Apparatus and method for generating a thesaurus and recording medium storing a thesaurus generating program
JP2004054882A (en) Synonym search device, method, program, and storage medium
JPH11143902A (en) Similar document search method using n-gram
JPH1139313A (en) Automatic document classification system, method of generating knowledge base for document classification, and recording medium recording the program
JP3249743B2 (en) Document search system
JP2009140113A (en) Dictionary editing device, dictionary editing method, and computer program
JP7117168B2 (en) Information processing device and information processing method
JP2001014326A (en) Device and method for retrieving similar document by structure specification
JP3558854B2 (en) Data retrieval device and computer-readable recording medium
JP2840258B2 (en) Method of creating bilingual dictionary and co-occurrence dictionary for machine translation system
JP4206266B2 (en) Full-text search device, processing method, processing program, and recording medium
JP5140524B2 (en) Sentence retrieval device, sentence retrieval program, and sentence retrieval method
JP2000090110A (en) Full-text search method and apparatus, and recording medium storing full-text search program