[go: up one dir, main page]

JPH08339376A - 外国語検索装置及び情報検索システム - Google Patents

外国語検索装置及び情報検索システム

Info

Publication number
JPH08339376A
JPH08339376A JP7144625A JP14462595A JPH08339376A JP H08339376 A JPH08339376 A JP H08339376A JP 7144625 A JP7144625 A JP 7144625A JP 14462595 A JP14462595 A JP 14462595A JP H08339376 A JPH08339376 A JP H08339376A
Authority
JP
Japan
Prior art keywords
katakana
word
foreign language
phonetic symbol
search
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Pending
Application number
JP7144625A
Other languages
English (en)
Inventor
Toru Komiyama
徹 小宮山
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Toshiba Corp
Original Assignee
Toshiba Corp
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Toshiba Corp filed Critical Toshiba Corp
Priority to JP7144625A priority Critical patent/JPH08339376A/ja
Publication of JPH08339376A publication Critical patent/JPH08339376A/ja
Pending legal-status Critical Current

Links

Landscapes

  • Document Processing Apparatus (AREA)
  • Information Retrieval, Db Structures And Fs Structures Therefor (AREA)

Abstract

(57)【要約】 【目的】 データベースに登録されている外国語単語を
カタカナ単語で効率よく検索する。 【構成】 各発音記号とカタカナ文字との対応を記憶す
る発音記号・カタカナ対応テーブル7と、登録データ入
力部1から入力された外国語単語及び発音記号からなる
登録データの発音記号を発音記号・カタカナ対応テーブ
ルを用いてカタカナ単語に変換する発音記号カタカナ変
換手段3と、登録データの外国語単語及び変換されたカ
タカナ単語を記憶保持するデータベース3と、検索キー
ワード入力部4から入力された検索キーワードのカタカ
ナ単語のデータベース8に記憶された各カタカナ単語に
対する単語類似度Riを算出する単語類似度算出手段5
と、算出された単語類似度Riが規定値以上のカタカナ
単語に対応する外国語単語を検索キーワードに対する検
索結果として出力する出力部6を備えている。

Description

【発明の詳細な説明】
【0001】
【産業上の利用分野】本発明は、データベースに登録さ
れた外国語単語をカタカナ単語からなる検索キーワード
で検索できる外国語検索装置及びこの外国語検索装置が
組込まれた情報検索システムに関する。
【0002】
【従来の技術】一般の情報検索システムにおいて、デー
タベースに新規の文献等を登録する場合は、該当文献に
含まれる該当文献の内容に関する複数のキーワードをこ
のデータベースに登録する。このキーワードは一般に一
つの単語で構成されている。
【0003】そして、検索者が、この情報検索システム
を用いて必要な内容(情報)が記載された文献を調べる
場合、必要な情報に関係するキーワードでデータベース
を検索すると、このキーワードが登録された文献の文献
名,発行所,著者,発行日,所蔵場所等の該当文献を特
定する情報が検索結果として出力される。
【0004】このような情報検索システムにおいては、
日本語の文献を登録する場合は、この文献に含まれるキ
ーワードとなる単語は日本語である。したがって、この
日本語の単語をそのままデータベースに登録すればよ
い。
【0005】外国語の文献をデータベースに登録する場
合は、この文献に含まれるキーワードとなる単語は当然
外国語である。このキーワードの外国語単語が一般名詞
の場合は、この外国語単語を日本語に翻訳して登録すれ
ばよい。
【0006】一般に、人名や地名等の固有名詞の場合
や、適格な日本語訳が存在しない名詞を日本語に表記す
る場合は、カタカナ表記となるが、固有名詞の読み方は
非常に煩雑で、複数種類のカタカナ表記が存在する場合
もある。また、正確にカタカナ表記することが困難な外
国語単語も存在する。このような場合は、外国語単語の
状態でデータベースに登録する場合もある。
【0007】
【発明が解決しようとする課題】しかしながら、上述し
たようにデータベースに外国語単語が登録された情報検
索システムにおいてもまだ次のような課題があった。す
なわち、この情報検索システムの利用者が前記外国語単
語が記載された文献を検索する必要が発生すると、検索
キーワードとして外国語で表記された外国語単語を入力
する必要がある。
【0008】しかし、情報検索システムの一般の利用者
が外国語単語の正確な外国語綴り(スペル)を常に把握
しているとは限らない。したがって、利用者は正確なス
ペルを辞書等を用いて調べた後、検索作業を行う必要が
あり、利用者の負担が増大する。
【0009】また、固有名詞や人名は辞書等に記載され
ていない場合が多い。このような場合は、全く対処でき
ない。このような不都合を解消するためには、外国語単
語をカタカナ表記に直したカタカナ単語をデータベース
に登録すればよい。しかし、前述したように、カタカナ
表記には複数種類が存在し、利用者が登録されたカタカ
ナ単語と同一のカタカナ表記のカタカナ単語を検索キー
ボードとして入力しなければ、目的とするカタカナ単語
及びこのカタカナ単語が含まれる文献を特定する情報が
検索できない問題が生じる。
【0010】本発明はこのような事情に鑑みてなされた
ものであり、外国語単語の登録時に外国語単語と発音記
号又は音声を入力することによって、データベースに外
国語単語及び該当単語のカタカナ単語が自動的に登録さ
れ、かつ、多少登録されたカタカナ単語と異なる表記の
カタカナ単語で検索しても、該当する正しい外国語単語
を検索できる外国語検索装置及びこの外国語検索装置が
組込まれた情報検索システムを提供することを目的とす
る。
【0011】
【課題を解決するための手段】上記課題を解消するため
に、請求項1の外国語検索装置においては、外国語で表
記された外国語単語及びこの外国語単語の発音記号から
なる登録データが入力される登録データ入力部と、各発
音記号と該当発音記号に対応するカタカナ文字が記憶さ
れている発音記号・カタカナ対応テーブルと、登録デー
タ入力部を介して入力された登録データの発音記号を発
音記号・カタカナ対応テーブルを用いてカタカナ単語に
変換する発音記号カタカナ変換手段と、登録データ入力
部を介して入力された各登録データの外国語単語及びカ
タカナに変換されたカタカナ単語を記憶保持するデータ
ベースと、カタカナ単語からなる検索キーワードが入力
される検索キーワード入力部と、この検索キーワード入
力部から入力された検索キーワードのカタカナ単語のデ
ータベースに記憶された各カタカナ単語に対する単語類
似度を算出する単語類似度算出手段と、算出された単語
類似度が規定値以上のカタカナ単語に対応する外国語単
語を検索キーワードに対する検索結果として出力する検
索結果判定出力部とを備えたものである。
【0012】また、請求項2の外国語検索装置において
は、外国語で表記された外国語単語及びこの外国語単語
の音声からなる登録データが入力される登録データ入力
部と、各音声と該当音声に対する各発音記号が記憶され
ている音声・発音記声号対応テーブルと、登録データ入
力部を介して入力された登録データの音声を前記音声・
発音記声号対応テーブルを用いて発音記号に変換する音
声発音記号変換手段と、各発音記号と該当発音記号に対
応するカタカナ文字が記憶されている発音記号・カタカ
ナ対応テーブルと、音声発音記号変換手段で得られた発
音記号を発音記号・カタカナ対応テーブを用いてカタカ
ナ単語に変換する発音記号カタカナ変換手段と、登録デ
ータ入力部を介して入力された各登録データの外国語単
語及びカタカナに変換されたカタカナ単語を記憶保持す
るデータベースと、カタカナ単語からなる検索キーワー
ドが入力される検索キーワード入力部と、この検索キー
ワード入力部から入力された検索キーワードのカタカナ
単語のデータベースに記憶された各カタカナ単語に対す
る単語類似度を算出する単語類似度算出手段と、算出さ
れた単語類似度が規定値以上のカタカナ単語に対応する
外国語単語を検索キーワードに対する検索結果として出
力する検索結果判定出力部とを備えている。
【0013】さらに、請求項3においては、前記各外国
語検索装置における単語類似度算出手段は、検索キーワ
ードのカタカナ単語を構成する各カタカナ文字とデータ
ベースに記憶されたカタカナ単語を構成する各カタカナ
文字との各文字毎の類似度を示す文字類似度を文字の種
類に応じて重み付けして算出し、この算出された各文字
毎の各文字類似度から所定の式を用いて単語類似度を算
出するようにしている。
【0014】請求項4の情報検索システムにおいては、
外国語で表記された外国語単語,この外国語単語の発音
記号及び外国語単語に関する情報からなる登録データが
入力される登録データ入力部と、各発音記号と該当発音
記号に対応するカタカナ文字が記憶されている発音記号
・カタカナ対応テーブルと、登録データ入力部を介して
入力された登録データの発音記号を発音記号・カタカナ
対応テーブルを用いてカタカナ単語に変換する発音記号
カタカナ変換手段と、登録データ入力部を介して入力さ
れた各登録データの外国語単語,情報及びカタカナに変
換されたカタカナ単語を記憶保持するデータベースと、
カタカナ単語からなる検索キーワードが入力される検索
キーワード入力部と、検索キーワード入力部から入力さ
れた検索キーワードのカタカナ単語のデータベースに記
憶された各カタカナ単語に対する単語類似度を算出する
単語類似度算出手段と、算出された単語類似度が規定値
以上のカタカナ単語に対応する外国語単語及び情報を検
索キーワードに対する検索結果として出力する検索結果
判定出力部とを備えている。
【0015】
【作用】このように構成された請求項1の外国語検索装
置において、登録データ入力部へ外国語単語及び発音記
号からなる登録データを入力すると、発音記号から外国
語単語をカタカナ表記したカタカナ単語が作成されて、
データベースへ外国語単語と共に記憶保持される。
【0016】そして、外国語単語を検索する場合は、カ
タカナ表記されたカタカナ単語を検索キーワードとして
検索キーワード入力部へ入力する。前述したように、検
索キーワードとして入力したカタカナ単語に完全に一致
するカタカナ単語がデータベース内に存在するとは限ら
ないもので、検索キーワードのカタカナ単語のデータベ
ースに記憶された各カタカナ単語に対する単語類似度を
算出する。そして、単語類似度が規定値以上のカタカナ
単語に対応する外国語単語を検索キーワードに対する検
索結果とする。
【0017】したがって、検索キーワードのカタカナ単
語とデータベース内の同一の外国語単語を示すカタカナ
単語とがたとえ完全に一致していなくても、非常に高い
確率で目標とする正しい外国語単語を検索できる。
【0018】請求項2の外国語検索装置においては、登
録データ入力部へ外国語単語及び音声からなる登録デー
タを入力すると、音声は一旦発音記号に変換された後、
カタカナ単語に変換される。そして、このカタカナ単語
はデータベースへ外国語単語と共に記憶保持される。
【0019】このように外国語単語と対応するカタカナ
単語が記憶保持されたデータベースをカタカナ単語から
なる検索キーワードで外国語単語を検索する手法は請求
項1の外国語検索装置と同じである。
【0020】このような構成の外国語検索装置において
は、データベースへ外国語単語を登録する場合に、該当
外国語単語の他に音声を入力するのみでよいので、登録
作業能率が大幅に向上する。
【0021】また、請求項3の外国語検索装置において
は、単語類似度算出手法として、比較対照する2つのカ
タカナ単語を構成する各カタカナ文字毎に類似度を示す
文字類似度を算出している。そして、複数のカタカナ文
字からなるカタカナ単語相互間の単語類似度を構成する
各カタカナ文字どうしの各文字類似度から算出してい
る。
【0022】この場合、各文字類似度を各文字の種類に
応じて重み付けして算出している。例えば子音行が一致
している場合と母音列が一致している場合とを比較する
と、子音列が一致している場合の方がカタカナ単語全体
の類度度が高いので、子音の類似度の重みを母音の類似
度の重みより高く設定する。
【0023】請求項4の情報検索システムにおいては、
データベースに外国語単語とカタカナ単語の他に該当外
国語単語に関する各種の情報が記憶されている。したが
って、検索キーワードとしてカタカナ単語を入力する
と、データベースから対応する外国語単語と共にこの外
国語単語に関する必要な情報が出力される。
【0024】
【実施例】以下本発明の一実施例を図面を用いて説明す
る。図1は実施例の外国語検索装置が組込まれた情報検
索システムの概略構成を示すブロック図である。この情
報検索システムはコンピュータ等の一種の情報処理装置
で構成されている。具体的には、登録データ入力部1,
入力データバッファ2,発音記号カタカナ変換部3,検
索キーワード入力部4,検索処理部5,検索結果出力部
6,及び発音記号・カタカナ対応テーブル7とデータベ
ース8とで構成されている。
【0025】発音記号・カタカナ対応テーブル7内に
は、図2に示すように、各発音記号毎に、対応するカタ
カナ文字が記憶されている。具体的には、カタカナ文字
を五十音マトリックス配列した場合に、発音記号の各子
音がどの行の文字に対応するかを示す子音対応テーブル
7aと、発音記号の各母音がどの段の文字に対応するか
を示す母音対応テーブル7bとが記憶されている。
【0026】そして、原則として、子音と母音との対で
一つのカタカナ文字を特定する。例えば[ba]の発音
記号は各テーブル7a,7bから[ハ行]の[ア段]と
指定されるので五十音マトリックス配列からカタカナ文
字[バ]が特定される。
【0027】但し、一つの外国語単語を示す一連の発音
記号においては、子音と母音とが必ずしも対になってい
るとは限らない。このような例外も、子音対応テーブル
7aに登録されている。例えば子音[d]の発音記号が
単独で出現した場合は、[ト]ではなくて[ド]のカタ
カナ文字となる。
【0028】このように発音記号・カタカナ対応テーブ
ル7内には、外国語単語を発音記号で表記した場合にお
ける全ての発音記号の組合せ又は単独出現に対して、対
応するカタカナ文字が決定され、外国語単語をその発音
記号で一義的に定まるカタカナ単語に変換できる情報が
記憶されている。
【0029】また、データベース8は、例えばHDD内
に形成されており、図1に示すように、内部に領域番号
iが付された複数の領域が形成されており、各領域には
外国語単語と、この外国語単語に対応するカタカナ単語
と、該当外国語単語が記載された文献の文献名,発行
所,著者,発行日,所蔵場所等の該当文献を特定する情
報が記憶されている。
【0030】登録データ入力部1は、例えばキーボード
とCRT表示装置等からなり、通常の英数字,ひらが
な,カタカナ文字を入力できると共に、例えばマウス等
を用いてCRT表示装置に表示させた発音記号を指定し
て入力できる。また、検索キーワード入力部4は、例え
ばキーボードで構成され、カタカナ単語からなる検索キ
ーワードを入力する。さらに、検索結果出力部6は例え
ばCRT表示装置等からなり、検索された外国語単語及
び該当外国語単語の情報を表示出力する。
【0031】なお、実際のシステムにおいては、登録デ
ータ入力部1,検索キーワード入力部4及び検索結果出
力部6は、キーボードとCRT表示装置等からなる1台
のマンマシン装置で構成されている。
【0032】次に各部の動作を順番に説明する。この情
報検索システムのデータベース8に新規の外国語文献を
登録する場合、登録者は、この文献の内容を適格に表す
キーワードとなる外国語単語を抽出し、例えば辞書等を
用いてこの外国語単語の発音記号を調べる。そして、こ
の外国語単語と発音記号及び文献を特定するための情報
からなる登録データを登録データ入力部1へ入力する。
【0033】登録データ入力部1へ入力された外国語単
語,発音記号,情報からなる登録データは入力データバ
ッファ2に一旦記憶される。そしてこの入力データバッ
ファ2に記憶された1個の登録データ内の発音記号が発
音記号カタカナ変換部3へ送信される。
【0034】発音記号カタカナ変換部3は、入力された
一つの外国語単語の発音を示す一連の発音記号を、発音
記号・カタカナ対応テーブル7の各テーブル7a,7b
を用いて、前述した手法で一つのカタカナ単語に変換す
る。そして、入力データバッファ2に記憶されている外
国語単語と今回変換されたカタカナ単語と入力データバ
ッファ2に記憶されている情報をデータベース8の空の
領域へ設定する。
【0035】以上で、一つの外国語単語及び情報をデー
タベース8へ登録する登録処理を終了する。例えば、図
4に示すように、外国語単語が[library]で発
音記号が[laibreri]のとき、変換されたカタ
カナ単語は[ライブレリ]となる。また、外国語単語が
[Einstein]で発音記号が[ainstai
n]のとき、変換されたカタカナ単語は[アインスタイ
ン]となる。
【0036】次に、この情報検索システムを用いて外国
語単語及び情報を検索する場合の各部の動作を説明す
る。検索者は検索すべき外国語単語のカタカナ単語を検
索キーワードとして検索キーワード入力部4へ入力す
る。検索キーワード入力部4は入力した1個のカタカナ
単語からなる検索キーワードを検索処理部5へ転送す
る。
【0037】検索処理部5は図3に示す流れ図に従って
入力された検索キーワードでデータベース8を検索す
る。流れ図が開始され、S(ステップ)1において、デ
ータベース8の領域番号iを1に初期設定する。次に、
S2にて、i番目の領域のカタカナ単語を読出す。そし
て、検索キーワードのカタカナ単語と今回読出したカタ
カナ単語の先頭文字からの文字位置を示す文字番号jを
1に初期設定する。
【0038】そして検索キーワードのj番目のカタカナ
文字と読出したカタカナ単語のj番目のカタカナ文字と
の文字相互間の類似度を示す文字類似度Rjを算出す
る。具体的には、下記の規則に従って文字類似度Rjを
決定する。
【0039】 (a) 比較2文字が全く同一文字で文字が子音の場合 … 100/100 (b) 比較2文字が全く同一文字で文字が母音の場合 … 40/40 (c) 比較2文字が異なり、子音列が同一で母音段が異なる場合 … 60/100 (d) 比較2文字が異なり、子音列が異なり母音段が同一の場合 … 40/100 (e) 比較2文字が異なり、かつ子音列及び母音段も異なる場合 … 0/100 但し、子音列及び母音段は前述したカタカナ文字を五十
音マトリックス配列した場合における列と行(段)に対
応する。
【0040】このように、子音列に対して60%の重み
を付け、母音段に対しては40%の重みを付けている。
すなわち、子音列どうしが一致している方が母音段どう
しが一致しているよりも文字類似度Rjを高く設定す
る。
【0041】なお、[ァ][ィ][ャ]…等の小文字は
20%の重みを付ける。また、子音を伴わない[ア]
[イ]…等の母音は40%の重みを付ける。さらに、
[ー][ッ]の違いは同一とみなす。
【0042】例えば、図4に示す[ライブレリ]と[ラ
イブラリー]の5番目の文字[リー]と[リ]は同一と
見なして、文字類似度Rj(=R5 )は100/100 とな
る。S4にて、j番目の文字に対する文字類似度Rjが
求まると、S5へ進み、カタカナ単語全体の単語類似度
Riを求めるための累積を行う。具体的には、1番目の
文字からj伴目の各文字の文字類似度Rjの各分子R1j
の累積値ΣR1jと各分母R0jの累積値ΣR0jとの比を算
出する。
【0043】Ri=ΣR1j/ΣR0j 次に、比較すべき文字がまだ残っている場合は、比較文
字の番号jに1を加算して(S7)、S4へ戻り、次の
文字の文字類似度Rjを算出する。
【0044】S7にて比較すべき文字が終了すると、S
8へ進む。なお、検索キーワードの文字数と読出したカ
タカナ単語の文字数が一致しない場合は、長い方のカタ
カナ単語の文字数が終了するまで番号jを更新して、相
手側に文字が存在しない文字の文字類似度Rjは0/100
とする。
【0045】例えば、図4に示すように、データベース
8に記憶されたカタカナ単語が[ライブレリ]で検索キ
ーワードが[ライブラリー]の場合、単語類似度Riは
Ri=ΣR1j/ΣR0j=400/460 =87%となる。
【0046】また、データベース8に記憶されたカタカ
ナ単語が[アインスタイン]で検索キーワードが[アイ
ンシュタイン]の場合、単語類似度RiはRi=ΣR1j
/ΣR0j=360/400 =90%となる。
【0047】S8において、比較すべき文字が終了した
時点における累積されたカタカナ単語全体の単語類似度
Riが予め定められた規定値に満たない場合は、検索キ
ーワードは今回読出したi番目の領域に登録された外国
語単語に対応しないと判断して、S9にて、データベー
ス8の領域の領域番号iに1を加算する。加算後の領域
番号iが最大領域番号に到達していない場合は(S1
0)、S2へ戻り、加算後の領域番号iの領域のカタカ
ナ単語を読出する。
【0048】そして、S8にて、単語類似度Riが規定
値以上の場合は、検索キーワードは今回読出したi番目
の領域に登録された外国語単語に対応すると判断して、
S11へ進む。S11には該当カタカナ単語の領域番号
iの領域の外国語単語と情報とをデータベース8から読
出て、検索結果として検索結果出力部6のCRT表示装
置へ表示出力する。
【0049】なお、S10にてデータベース8内の全て
の領域のカタカナ単語の読出しが終了すると、検索キー
ワードに対応する外国語単語は登録されていないと判断
して、その旨を前記検索結果出力部6のCRT表示装置
へ表示出力する。
【0050】このように構成された情報検索システムに
おいて、データベース8に外国語単語及びこの外国語単
語に関する情報を登録する場合、登録者は、外国語単語
と共に発音記号を入力すると、データベース8に自動的
に外国語単語及び対応するカタカナ単語が登録される。
【0051】そして、外国語単語を検索する場合、検索
者は、カタカナ表記されたカタカナ単語を検索キーワー
ドとして検索キーワード入力部4へ入力されば、該当検
索キーワードに対応する外国語単語及びこの外国語単語
が登録された文献の文献名,発行所,著者,発行日,所
蔵場所等の該当文献を特定する情報が検索結果として出
力される。
【0052】この場合、前述したように、検索キーワー
ドとして入力したカタカナ単語にデータベース8に登録
されているカタカナ単語に完全に一致するとは限らな
い。しかし、実施例システムにおいては、検索キーワー
ドのカタカナ単語のデータベース8に記憶された各カタ
カナ単語に対する各単語類似度Riを算出する。そし
て、単語類似度Riが規定値以上のカタカナ単語に対応
する外国語単語を検索キーワードに対する検索結果とす
る。
【0053】したがって、検索キーワードのカタカナ単
語とデータベース8内の同一の外国語単語を示すカタカ
ナ単語とがたとえ完全に一致していなくても、非常に高
い確率で正しい外国語単語及び該当外国語単語に関する
情報を検索できる。
【0054】さらに、実施例システムにおいては、各単
語類似度Riを算出するに際して、カタカナ単語を構成
する各タカタナ文字相互間の文字類似度Rjを算出し
て、これらを累積する形式で一つのカタカナ単語に対す
る単語類似度Riを算出している。そして、この各文字
類似度Rjを算出する過程で、前述したように、子音列
が一致している場合と、母音段が一致している場合と
で、単語類似度Riに対する影響度に差を設けている。
【0055】具体的には、母音段が一致している場合よ
り子音列が一致している場合の方がより類似度を高く設
定しているので、より精度の高い単語類似度Riが得ら
れ、外国語単語の検索精度をより一層向上させている。
【0056】図5は本発明の他の実施例に係わる外国語
検索装置が組込まれた情報検索システムの概略構成を示
すブロック図である。図1に示す実施例システムと同一
部分には同一符号が付してある。したがって、重複する
部分の詳細説明は省略されている。
【0057】この実施例システムに登録データ入力部1
aは、キーボード等からなる文字入力部9aと音声を入
力するためのマイク9bとで構成されている。そして、
文字入力部9aから入力された外国語単語及びこの外国
語単語に関する情報は一旦入力データバッファ2aへ書
き込まれる。一方、マイク9bから入力された該当外国
語単語の音声は例えばデジタルの音声信号に変換されて
音声バッファ2bへ書込まれる。
【0058】また、この実施例システムにおいては、音
声・発音記号対応テーブル11が設けられている。この
音声・発音記号対応テーブル11内には、例えば
[ア],[シャ]等の各単位音声毎に該当単位音声に対
応する単独発音記号又は組合せ発音記号が記憶されてい
る。
【0059】音声発音記号変換部10は、音声バッファ
2bに記憶されている一つの外国語単語の音声を複数の
単位音声に分割して、音声・発音記号対応テーブル11
から該当する単位音声に対する単独発音記号又は組合せ
発音記号を検索する。そして、入力された外国語単語の
音声を一連の発音記号に編集して次の発音記号カタカナ
変換部3へ送出する機能を有する。
【0060】なお、音声を電気信号に変換した場合の信
号波形は、同一外国語単語を発音した場合においても、
多少の個人差が存在するが、音声発音記号変換部10は
パターン認識手法を用いて個人差を吸収して、該当する
発音記号を特定する。
【0061】さらに、変換精度を向上させるために、登
録する人を特定の人に限定して、この特定の人の音声の
音声信号と発音記号との関係を音声・発音記号対応テー
ブル11へ登録してもよい。
【0062】このように構成された情報検索システムに
おいては、データベース8に新規に外国語単語及び情報
を登録する際に、登録データ入力部1aの文字入力部9
aに対して外国語単語及び情報を文字入力すると共に、
外国語単語の音声をマイク9bへ入力する。
【0063】すると、マイク9bから入力された該当外
国語単語の音声は音声バッファ2bを介して音声発音記
号変換部10へ入力される。そして、この該当外国語単
語の音声は音声・発音記号変換テーブル11を用いて一
連の発音記号に変換される。変換された発音記号は発音
記号カタカナ変換部3へ送信される。そして、この該当
外国語単語の発音記号は発音記号・カタカナ対応テーブ
ル7を用いてカタカナ単語に変換される。
【0064】そして、入力データバッファ2aに記憶さ
れている外国語単語,情報及び変換された該当外国語単
語に対応するカタカナ単語がデータベース8の空き領域
に書き込まれる。したがって、このデータベース8の各
領域には、図1に示した実施例システムのデータベース
8と同一内容の外国語単語,カタカナ単語,情報が記憶
されている。
【0065】また、検索処理部5における入力された検
索キーワードを用いたデータベース8に対する検索処理
手法は、図1に示す実施例システムにおける検索処理部
5の検索処理手法と同じである。
【0066】すなわち、検索者が検索すべき外国語単語
のカタカナ単語を検索キーワード入力部4へ入力する
と、検索処理部5において、検索キーワードでデータベ
ース8の各領域のカタカナ単語を検索して、単語類似度
Riが規定値以上のカタカナ単語の外国語単語及び情報
が検索結果として表示出力される。
【0067】このように構成された情報検索システムに
おいて、データベース8へ外国語単語及び情報を登録す
る場合に、登録者は、該当外国語単語及び情報の他に該
当外国語単語の音声を入力するのみでよいので、図1に
示す発音記号を辞書等で調査して入力する場合に比較し
て、登録作業能率が大幅に向上する。
【0068】なお、上述した各実施例においては、デー
タベース8に外国語単語と対応するカタカナ単語と情報
とを記憶保持するようにしたが、例えば情報を記憶せず
に、外国語単語と対応するカタカナ単語のみを記憶する
ことも可能である。この場合、この情報検索システムは
外国語検索装置となり、例えばカタカナ単語から正確な
外国語単語のスペル(綴り)を調べる辞書として使用可
能である。
【0069】なお、本発明の応用例として、検索キーワ
ードを音声で入力して、入力された音声をカタカナ単語
に変換して、この変換されたカタカナ単語を新たな検索
キーワードとしてデータベースを検索することも可能で
ある。
【0070】
【発明の効果】以上説明したように本発明の外国語検索
装置及びこの外国語検索装置が組込まれた情報検索シス
テムにおいては、外国語単語の登録時に外国語単語と発
音記号又は音声を入力することによって、データベース
に外国語単語及び該当単語のカタカナ単語が自動的に登
録される。
【0071】さらに、検索キーワードでデータベースを
検索する際に、検索キーワードとデータベースに記憶さ
れているカタカナ単語との間の単語類似度を算出して、
この算出された単語類似度が規定値以上のカタカナ単語
に対応する外国語単語を検索結果としている。
【0072】したがって、データベースに登録されたカ
タカナ単語と多少異なる表記のカタカナ単語で検索して
も、目的とする正しい外国語単語を検索できる。また、
検索キーワードとカタカナ単語との単語類似度を算出す
る際に、各カタカナ文字毎に文字種類に応じた重み付け
を行なった文字類似度から求めている。したがって、検
索精度をより一層向上できる。
【図面の簡単な説明】
【図1】 本発明の一実施例に係わる外国語検索装置が
組込まれた情報検索システムの概略構成を示すブロック
【図2】 同実施例システムの発音記号・カタカナ対応
テーブルの記憶内容を示す図
【図3】 同実施例システムの検索処理部における検索
動作を示す流れ図
【図4】 同実施例システムにおける検索キーワードと
データベースに記憶されたカタカナ単語の単語類似度の
算出手順の一例を示す図
【図5】 本発明の他の実施例に係わる外国語検索装置
が組込まれた情報検索システムの概略構成を示すブロッ
ク図
【符号の説明】
1,1a…登録データ入力部、2,2a…入力データバ
ッファ、3…発音記号カタカナ変換部、4…検索キーワ
ード入力部、5…検索処理部、6…検索結果出力部、7
…発音記号・カタカナ対応テーブル、7a…子音対応テ
ーブル、7b…母音対応テーブル、8…データベース、
9a…文字入力部、9b…マイク、10…音声発音記号
変換部、11…音声・発音記号対応テーブル

Claims (4)

    【特許請求の範囲】
  1. 【請求項1】 外国語で表記された外国語単語及びこの
    外国語単語の発音記号からなる登録データが入力される
    登録データ入力部と、 各発音記号と該当発音記号に対応するカタカナ文字が記
    憶されている発音記号・カタカナ対応テーブルと、 前記登録データ入力部を介して入力された登録データの
    発音記号を前記発音記号・カタカナ対応テーブルを用い
    てカタカナ単語に変換する発音記号カタカナ変換手段
    と、 前記登録データ入力部を介して入力された各登録データ
    の外国語単語及び前記カタカナに変換されたカタカナ単
    語を記憶保持するデータベースと、 カタカナ単語からなる検索キーワードが入力される検索
    キーワード入力部と、 この検索キーワード入力部から入力された検索キーワー
    ドのカタカナ単語の前記データベースに記憶された各カ
    タカナ単語に対する単語類似度を算出する単語類似度算
    出手段と、 前記算出された単語類似度が規定値以上のカタカナ単語
    に対応する外国語単語を前記検索キーワードに対する検
    索結果として出力する検索結果判定出力部とを備えた外
    国語検索装置。
  2. 【請求項2】 外国語で表記された外国語単語及びこの
    外国語単語の音声からなる登録データが入力される登録
    データ入力部と、 各音声と該当音声に対する各発音記号が記憶されている
    音声・発音記声号対応テーブルと、 前記登録データ入力部を介して入力された登録データの
    音声を前記音声・発音記声号対応テーブルを用いて発音
    記号に変換する音声発音記号変換手段と、 各発音記号と該当発音記号に対応するカタカナ文字が記
    憶されている発音記号・カタカナ対応テーブルと、 前記音声発音記号変換手段で得られた発音記号を前記発
    音記号・カタカナ対応テーブを用いてカタカナ単語に変
    換する発音記号カタカナ変換手段と、 前記登録データ入力部を介して入力された各登録データ
    の外国語単語及び前記カタカナに変換されたカタカナ単
    語を記憶保持するデータベースと、 カタカナ単語からなる検索キーワードが入力される検索
    キーワード入力部と、 この検索キーワード入力部から入力された検索キーワー
    ドのカタカナ単語の前記データベースに記憶された各カ
    タカナ単語に対する単語類似度を算出する単語類似度算
    出手段と、 前記算出された単語類似度が規定値以上のカタカナ単語
    に対応する外国語単語を前記検索キーワードに対する検
    索結果として出力する検索結果判定出力部とを備えた外
    国語検索装置。
  3. 【請求項3】 前記単語類似度算出手段は、前記検索キ
    ーワードのカタカナ単語を構成する各カタカナ文字と前
    記データベースに記憶されたカタカナ単語を構成する各
    カタカナ文字との各文字毎の類似度を示す文字類似度を
    文字の種類に応じて重み付けして算出し、この算出され
    た各文字毎の各文字類似度から所定の式を用いて前記単
    語類似度を算出するこことを特徴とする請求項1又は2
    記載の外国語検索装置。
  4. 【請求項4】 外国語で表記された外国語単語,この外
    国語単語の発音記号及び前記外国語単語に関する情報か
    らなる登録データが入力される登録データ入力部と、 各発音記号と該当発音記号に対応するカタカナ文字が記
    憶されている発音記号・カタカナ対応テーブルと、 前記登録データ入力部を介して入力された登録データの
    発音記号を前記発音記号・カタカナ対応テーブルを用い
    てカタカナ単語に変換する発音記号カタカナ変換手段
    と、 前記登録データ入力部を介して入力された各登録データ
    の外国語単語,情報及び前記カタカナに変換されたカタ
    カナ単語を記憶保持するデータベースと、 カタカナ単語からなる検索キーワードが入力される検索
    キーワード入力部と、 この検索キーワード入力部から入力された検索キーワー
    ドのカタカナ単語の前記データベースに記憶された各カ
    タカナ単語に対する単語類似度を算出する単語類似度算
    出手段と、 前記算出された単語類似度が規定値以上のカタカナ単語
    に対応する外国語単語及び情報を前記検索キーワードに
    対する検索結果として出力する検索結果判定出力部とを
    備えた情報検索システム。
JP7144625A 1995-06-12 1995-06-12 外国語検索装置及び情報検索システム Pending JPH08339376A (ja)

Priority Applications (1)

Application Number Priority Date Filing Date Title
JP7144625A JPH08339376A (ja) 1995-06-12 1995-06-12 外国語検索装置及び情報検索システム

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
JP7144625A JPH08339376A (ja) 1995-06-12 1995-06-12 外国語検索装置及び情報検索システム

Publications (1)

Publication Number Publication Date
JPH08339376A true JPH08339376A (ja) 1996-12-24

Family

ID=15366395

Family Applications (1)

Application Number Title Priority Date Filing Date
JP7144625A Pending JPH08339376A (ja) 1995-06-12 1995-06-12 外国語検索装置及び情報検索システム

Country Status (1)

Country Link
JP (1) JPH08339376A (ja)

Cited By (6)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
KR100793378B1 (ko) * 2006-06-28 2008-01-11 엔에이치엔(주) 외래어 발음 유사성 비교 및 추천 단어 방법 및 그 시스템
JP2008009507A (ja) * 2006-06-27 2008-01-17 Hiroyuki Kabashima 外国語の発音のカタカナ表記方法
JP2009199434A (ja) * 2008-02-22 2009-09-03 Mitsubishi Electric Corp アルファベット文字列日本語読み変換装置及びアルファベット文字列日本語読み変換プログラム
JP2010134922A (ja) * 2008-12-08 2010-06-17 Nhn Corp 類似語決定方法およびシステム
US9075793B2 (en) 2005-10-26 2015-07-07 Nhn Corporation System and method of providing autocomplete recommended word which interoperate with plurality of languages
JP2015191431A (ja) * 2014-03-28 2015-11-02 株式会社ゼンリンデータコム 外国語のカタカナ表現作成装置、外国語のカタカナ表現作成方法及び外国語のカタカナ表現作成プログラム

Cited By (6)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US9075793B2 (en) 2005-10-26 2015-07-07 Nhn Corporation System and method of providing autocomplete recommended word which interoperate with plurality of languages
JP2008009507A (ja) * 2006-06-27 2008-01-17 Hiroyuki Kabashima 外国語の発音のカタカナ表記方法
KR100793378B1 (ko) * 2006-06-28 2008-01-11 엔에이치엔(주) 외래어 발음 유사성 비교 및 추천 단어 방법 및 그 시스템
JP2009199434A (ja) * 2008-02-22 2009-09-03 Mitsubishi Electric Corp アルファベット文字列日本語読み変換装置及びアルファベット文字列日本語読み変換プログラム
JP2010134922A (ja) * 2008-12-08 2010-06-17 Nhn Corp 類似語決定方法およびシステム
JP2015191431A (ja) * 2014-03-28 2015-11-02 株式会社ゼンリンデータコム 外国語のカタカナ表現作成装置、外国語のカタカナ表現作成方法及び外国語のカタカナ表現作成プログラム

Similar Documents

Publication Publication Date Title
JP2742115B2 (ja) 類似文書検索装置
JPH08339376A (ja) 外国語検索装置及び情報検索システム
JP2595934B2 (ja) 仮名漢字変換処理装置
JP2008059389A (ja) 語彙候補出力システム、語彙候補出力方法及び語彙候補出力プログラム
JPS58123129A (ja) 仮名漢字変換装置
JP2002073656A (ja) 異表記正規化処理・異表記展開処理方法および該処理方法による文書検索方法、該処理装置および文書検索装置並びにプログラム記録媒体
JP3285149B2 (ja) 外国語電子辞書検索方法及び装置
JP2793992B2 (ja) 同音異義語認識装置
JP2001051992A (ja) 日本語統計データ作成装置および方法、並びにディクテーションシステム
Phaiboon et al. Isarn Dharma Alphabets lexicon for natural language processing
JP3585944B2 (ja) データ処理方法及びその装置
JP3045886B2 (ja) 手書き入力機能付き文字処理装置
JPS62144269A (ja) 情報検索装置
JPH09101951A (ja) 文書検索装置
JPS59103136A (ja) カナ漢字変換処理装置
JPH0512257A (ja) 文書作成装置
JP3118880B2 (ja) 日本語文章処理装置
JPH08180060A (ja) 電子辞書表示装置
JPH06266765A (ja) 文章検索装置
JPH0567152A (ja) 文章検索装置
JPH0916575A (ja) 発音辞書装置
JPS5892064A (ja) 電子辞書の構成方式
JPH1031672A (ja) 人名変換装置及び方法
JPH07319908A (ja) 文書検索方法及び文書検索装置
JPH10154141A (ja) かな漢字変換装置