JP2002032369A

JP2002032369A - 辞書作成装置

Info

Publication number: JP2002032369A
Application number: JP2000216756A
Authority: JP
Inventors: Sayori Shimohata; さより下畑
Original assignee: Oki Electric Industry Co Ltd
Current assignee: Oki Electric Industry Co Ltd
Priority date: 2000-07-18
Filing date: 2000-07-18
Publication date: 2002-01-31

Abstract

(57)【要約】【課題】単言語のテキストであっても対訳形式の辞書
を作成できる辞書作成装置を実現する。【解決手段】変換テーブル３３は、原言語の単語列の
品詞に対応する目的言語品詞と、原言語単語列から目的
言語単語列への変換規則を記述している。抽出処理部２
１は原言語のテキストから単語列を抽出する。品詞付与
部２２は、単語列に対して品詞を付与する。変換処理部
２３は、付与された品詞に基づき、変換テーブル３３を
参照して、その変換規則に沿って、原言語の単語列を目
的言語の単語列に変換し、これを辞書データとして出力
する。

Description

【発明の詳細な説明】

【０００１】

【発明の属する技術分野】本発明は、機械翻訳システム
などで用いる辞書を自動的に作成する辞書作成装置に関
するものである。

【０００２】

【従来の技術】インターネットの普及、パーソナルコン
ピュータ利用者の増加に伴い、ある言語で記述されたテ
キストを別の言語に翻訳する機械翻訳システムが急速に
普及している。しかしながら、一般の機械翻訳システム
では、システムが提供する辞書だけでは多様な分野の文
章を適切に翻訳することができないため、ユーザ毎ある
いは分野毎の辞書を構築するのが不可欠であった。この
ような辞書を作成するのは非常に労力が必要となる。そ
こで、翻訳対象そのもの、あるいは翻訳対象と同じ分野
のテキストデータから機械翻訳用辞書を自動的に作成す
る方法が提案されている。

【０００３】このような従来技術として、特開平１０−
２６９２２２号公報「機械翻訳における辞書作成支援装
置」に開示されている方法がある。これは、日本語テキ
ストデータからカタカナ表記の文字列を抽出し、そのカ
タカナ表記の文字列から変換テーブルを用いて英語の綴
り候補の集合を求め、その英語の綴り候補の集合と英語
テキストデータを照合することにより、訳語を自動的に
付与するものである。

【０００４】

【発明が解決しようとする課題】しかしながら、上記従
来技術では次のような問題があった。第一に、必ず２言
語（この場合は日本語と英語）のテキストデータが必要
である。第二に、カタカナ表記の日本語単語から英語の
訳語候補を推定するので、カタカナ表記しない日本語の
単語は登録できない。第三に、英語テキストデータ中に
綴り候補の集合とマッチする単語がない場合には訳語を
得ることができない。

【０００５】このように、従来技術では、単言語のテキ
ストから対訳形式の辞書を作成することができないとい
った問題があった。

【０００６】

【課題を解決するための手段】本発明は、前述の課題を
解決するため次の構成を採用する。〈構成１〉原言語のテキストから単語列を抽出する抽出
処理部と、抽出処理部で抽出された単語列の品詞を付与
する品詞付与部と、原言語の単語列の品詞に対応する目
的言語品詞と、原言語の単語列から目的言語の単語列へ
の変換規則を記述した変換テーブルと、抽出処理部で抽
出された単語列に対し、変換テーブルの変換規則を参照
して品詞付与部で付与された単語列の品詞に基づき目的
言語の単語列に変換し、目的言語の単語列を原言語の辞
書データとして出力する変換処理部とを備えたことを特
徴とする辞書作成装置。

【０００７】〈構成２〉構成１に記載の辞書作成装置に
おいて、変換テーブルの変換規則は、原言語の単語を置
き換えた内容と、目的言語の機能語とで構成されている
ことを特徴とする辞書作成装置。

【０００８】〈構成３〉構成２に記載の辞書作成装置に
おいて、原言語の単語を置き換えた内容は、原言語の単
語をそのまま使用する規則であることを特徴とする辞書
作成装置。

【０００９】〈構成４〉構成２に記載の辞書作成装置に
おいて、原言語の単語を置き換えた内容は、原言語の単
語を表音文字で表記する規則であることを特徴とする辞
書作成装置。

【００１０】

【発明の実施の形態】《本発明の概略》技術文書などを
目的言語である日本語に翻訳する場合、誤翻訳を避けた
り曖昧性を無くしたりするために、専門用語の訳語には
原言語の単語をそのまま使ったり、原言語の単語をカタ
カナに置き換えただけの訳語を使ったりすることが多
い。そこで、本発明は、１言語のテキストデータから単
語または単語列を抽出し、目的言語への変換テーブルを
用いて原言語の単語または単語列を目的言語に変換する
ことにより、その訳語を自動的に生成し、辞書を作成で
きる辞書作成装置を提供するものである。

【００１１】以下、本発明の実施の形態を具体例を用い
て詳細に説明する。《具体例》〈構成〉図１は本発明の辞書作成装置の具体例を示す構
成図である。図の装置は、入出力装置１と、処理装置２
と、記憶装置３とを有する。入出力装置１は、テキスト
データや各種の操作コマンドを入力するキーボード、マ
ウス、ファイル等の入力手段と、処理過程の表示等を行
うためのＣＲＴ、出力ファイル等の出力手段からなるも
のである。記憶装置３は、磁気ディスク装置や半導体メ
モリ等からなるもので、原言語文のテキストを格納する
テキストファイル３１と、各段階の処理結果を保存する
ワークファイル３２と、原言語から目的言語である日本
語へ変換する規則を記述した変換テーブル３３と、作成
した辞書を保存する辞書ファイル３４を有している。

【００１２】ワークファイル３２は、後述する図４、５
に示すように、原言語の品詞を格納する原言語品詞格納
部３２１、原言語の単語列を格納する原言語単語格納部
３２２、日本語の品詞を格納する日本語品詞格納部３２
３と、日本語の単語列を格納する日本語単語格納部３２
４から構成されている。変換テーブル３３は、後述する
図６に示すように、原言語の品詞を格納する原言語品詞
格納部３３１と、日本語の品詞を格納する日本語品詞格
納部３３２と、日本語への変換規則を格納する変換規則
格納部３３３から構成されている。辞書ファイル３４
は、後述する図７に示すように、原言語の品詞を格納す
る原言語品詞格納部３４１と、原言語の単語列を格納す
る原言語単語格納部３４２と、日本語の品詞を格納する
日本語品詞格納部３４３と、日本語の単語列を格納する
日本語単語格納部３４４から構成されている。

【００１３】処理装置２は、演算装置やメモリ、制御部
等からなるもので、翻訳パターン作成処理を実行する機
能を有している。処理装置２は、抽出処理部２１、品詞
付与部２２、変換処理部２３を備えている。抽出処理部
２１は、原言語のテキストファイル３１から辞書に登録
する単語および単語列（以下、登録候補と呼ぶ）を抽出
し、ワークファイル３２の原言語単語格納部３２２に格
納する処理を行う機能を有するものである。品詞付与部
２２は、ワークファイル３２の原言語単語格納部３２２
に格納された内容を１行ずつ読み、その品詞を推定して
日本語品詞格納部３２３に格納する機能を有している。
変換処理部２３は、ワークファイル３２に格納された登
録候補の単語列と品詞の組を１行ずつ読み、変換テーブ
ル３３の該当する品詞の変換規則に基づいて訳語に変換
し、辞書ファイル３４に格納する機能を有している。

【００１４】〈動作〉図２は、具体例の処理の流れを示
すフローチャートである。図３は、図２のフローチャー
トにおけるステップＳ５の詳細を示すフローチャートで
ある。以下、本具体例では、英語のテキストから英日対
訳辞書を作成する場合の各処理の過程を具体的な例を用
いて説明する。

【００１５】［ステップＳ１］入出力装置１より英語の
テキストを入力し、抽出処理部２１がテキストファイル
３１に格納する。テキストはキーボードから直接入力し
ても良いし、ファイルを指定する方法でもよい。［ステップＳ２］抽出処理部２１は、テキストファイル
３１を読み込み、辞書登録の候補となる単語列を抽出す
る。単語列を抽出する方法としては、形態素解析や構文
解析を行い抽出したい品詞や構文構造を持つ単語列（例
えば名詞句等）を取り出す方法やテキスト中の単語列の
出現頻度を求め、出現頻度の高い単語列を抽出する方法
等がある。

【００１６】［ステップＳ３］抽出処理部２１は、抽出
した単語列をワークファイル３２の原言語単語格納部３
２２に格納する。図４は、抽出処理が行われた後のワー
クファイル３２の内容を示す説明図である。この例で
は、抽出された単語として、“URL prefix”“map”“a
dditional”が原言語単語格納部３２２に格納されてい
る。

【００１７】［ステップＳ４］品詞付与部２２は、ワー
クファイル３２の原言語単語格納部３２２の内容を１行
ずつ読み、単語列の品詞を推定する。品詞付与には、一
般の形態素解析や構文解析を用いる。推定された品詞
を、ワークファイル３２の原言語品詞格納部３２１に格
納する。図５は、品詞付与処理が行われた後のワークフ
ァイル３２の内容を示している。図示のように、“URL
prefix”には名詞、“map”には動詞、“additional”
には形容詞が付与されている。

【００１８】［ステップＳ５］変換処理部２３は、ワー
クファイル３２の原言語単語格納部３２２および原言語
品詞格納部３２１の内容を１行ずつ読み、原言語品詞格
納部３２１から読み込んだ品詞と変換テーブル３３の原
言語品詞格納部３３１の品詞を照合する。照合の結果、
マッチするものがあれば、該当する変換規則に従ってワ
ークファイル３２の原言語単語格納部３２２から読み込
んだ単語列を日本語に変換する。

【００１９】図６は、変換テーブル３３の一例を示す説
明図である。ここで、変換規則格納部３３３の“***”
は、英語の文字列がそのまま訳語に代入されることを示
しているが、英語からカタカナへの変換を行った結果を
代入するようにしても良いし、機械翻訳システムを使っ
て英語を翻訳した結果を代入するようにしてもよい。こ
のように、変換テーブル３３の変換規則格納部３３３
は、原言語の単語を置き換えた内容と、日本語の機能
語、即ち、動詞の場合は「する」といったようにその品
詞の文法的機能を表す語から構成されている。

【００２０】次に、図３を用いて上記ステップＳ５にお
ける変換処理部２３の処理を詳細に説明する。［ステップＳ５１］ワークファイル３２のデータが終わ
りでないかチェックする。終わりであれば処理を終了す
る。そうでなければステップＳ５２に進む。［ステップＳ５２］ワークファイル３２からデータを１
行読む。［ステップＳ５３］ワークファイル３２の原言語品詞格
納部３２１の品詞と変換テーブル３３の原言語品詞格納
部３３１の品詞を照合する。［ステップＳ５４〜Ｓ５５］マッチする品詞があれば、
変換テーブル３３のマッチする原言語品詞に対応する変
換規則に従って訳語を生成する。［ステップＳ５６］変換テーブル３３のマッチする原言
語品詞に対応する日本語品詞および生成した訳語を、ワ
ークファイル３２の日本語品詞格納部３２３および日本
語単語格納部３２４にそれぞれ格納する。［ステップＳ５７］マッチする品詞がなければエラー処
理を行い、ステップＳ５１に戻る。以上が図２のステッ
プＳ５の詳細の動作である。

【００２１】再び、図２に戻り、具体例の処理を説明す
る。［ステップＳ６］辞書ファイル３４に、ワークファイル
３２に格納されている登録候補とその訳語および各々の
品詞を格納する。

【００２２】次に、変換処理の流れを図５のワークファ
イル３２のデータと図６の変換テーブル３３のデータを
用いて具体的に説明する。［ステップＳ５２］先ず、ワークファイル３２からデー
タを１行読む。品詞「名詞」と英単語列“URL prefix”
が読み込まれる。［ステップＳ５３］次に、読み込まれた品詞「名詞」と
変換テーブル３３の原言語品詞格納部３３１の品詞を照
合する。［ステップＳ５４〜Ｓ５５］変換テーブル３３に「名
詞」があるので、対応する変換規則“***”に従って訳
語を生成する。“***”は英単語列をそのまま置き換え
ることになっているので英単語列がそのまま訳語にな
る。［ステップＳ５６］英語品詞「名詞」に対応する日本語
品詞「名詞」、および訳語をワークファイル３２の日本
語品詞格納部３２３および日本語単語格納部３２４にそ
れぞれ格納する。ステップＳ５１に戻り、２行目、３行
目のデータに対して同様の処理を繰り返し行い、全ての
データに対して処理が終わったら、辞書ファイル３４に
ワークファイル３２に格納されている内容を格納する。

【００２３】図７は、図５と図６のデータから生成され
た辞書データの内容を示す説明図である。図示のよう
に、原言語単語格納部３４２の単語“URL prefix”“ma
p”“additional”に対応して原言語品詞格納部３４１
には、“名詞”“動詞”“形容詞”が格納され、日本語
品詞格納部３４３には、“名詞”“動詞”“形容動詞”
が格納され、日本語単語格納部３４４には、“URL pref
ix”“mapする”“additionalだ”が格納されている。

【００２４】図８は、図７の辞書データを使用しない場
合と使用した場合の機械翻訳システムの翻訳結果の変化
を示す説明図である。ここでは、入力文８１として、
“Type the URL prefix you want to map.”が入力され
た例を示している。標準辞書だけで入力文８１を翻訳し
た結果８２では、“あなたが地図を作りたいＵＲＬ接頭
辞をタイプしなさい。”となる。また、標準辞書と図７
の辞書を用いて翻訳した結果８３では、“あなたがmap
したいＵＲＬ prefixをタイプしなさい。”となる。こ
こで、例えば、入力文８１の“map”の場合、一般的な
英和辞典では「地図を作る」「位置付ける」「見つけ出
す」などの訳語があるが、いずれも入力文８１の訳とし
て適切とはいえない。また、この場合の“prefix”とは
“ＵＲＬ prefix”というひとかたまりの語である。こ
れは、例えば、http://www.abcd.com/English/index.ht
mlといったＵＲＬのファイル名“index.html”以外の部
分、即ち、www.abcd.com/EnglishやEnglishあるいはhtt
p://www.abcd.comといった部分を指しているため、「Ｕ
ＲＬ接頭辞」では“ＵＲＬ prefix”の意味として正確
とはいえない。従って、このような場合、誤翻訳を避け
るためには、原言語の単語をそのまま使用する方が望ま
しい。

【００２５】また、上記の例では、英語から日本語への
変換について説明したが、本発明は任意の２言語の翻訳
に適用することが可能である。例えば、日本語を英語に
変換する場合には、次のような変換テーブルを用いて訳
語の生成を行う。図９は、原言語が日本語の場合の変換
テーブルの一例を示す説明図である。訳語は日本語の単
語をそのまま生成しても良いし、読みをローマ字に置き
換える処理を追加しても良い。図１０は、生成された辞
書データの説明図である。この例では、日本語の名詞で
ある「横綱」や「大関」に対して、英語単語として
「“yokozuna”」「“ozeki”」が登録されている。

【００２６】図１１は、図１０の辞書データを使用しな
い場合と使用した場合の機械翻訳システムの翻訳結果の
変化を示す説明図である。ここでは、入力文９１とし
て、「横綱が大関に勝った。」が入力された例を示して
いる。標準辞書だけで入力文９１を翻訳した結果９２で
は、「A grand champion sumo wrestler defeated a su
mo wrestler of the second highest rank.」となる。
また、標準辞書と図１０の辞書を用いて翻訳した結果９
３では、“Yokozuna”defeated “ozeki”.となる。こ
のように、“yokozuna”“ozeki”のように、原音に近
い綴りで、かつ、引用符“”を付与することによって、
英語以外の外国語であることが分かる。また、翻訳処理
で、例えば「横綱」が「横」と「綱」に分割して翻訳さ
れてしまうといった誤翻訳も防止することができる。

【００２７】〈効果〉以上のように、本具体例によれ
ば、原言語の単語列の品詞に対応する目的言語品詞と変
換規則を記述した変換テーブルを用いて、原言語の単語
列に対してその変換規則に基づき目的言語の単語列に変
換し、これを原言語の辞書データとして出力するように
したので、単言語のテキストから機械翻訳等に用いる対
訳形式の辞書を自動的に作成することが可能となる。ま
た、目的言語が例えば日本語の場合に必ずしもカタカナ
表記する単語でなくても登録できる。更に、単語の品詞
に基づく変換規則を用いるため、原言語のテキストから
訳語を得るための綴り候補を予め用意する必要がないと
いった効果がある。

【００２８】尚、上記具体例では、変換規則としてカタ
カナ表記でもよい、としたが、カタカナ表記のみに限定
されるものではなく、種々の原言語の単語を表音文字で
表記する規則であればよい。

【図面の簡単な説明】

【図１】本発明の辞書作成装置の具体例を示す構成図で
ある。

【図２】本発明の辞書作成装置の具体例における全体の
処理を示すフローチャートである。

【図３】本発明の辞書作成装置の具体例における変換処
理の詳細を示すフローチャートである。

【図４】本発明の辞書作成装置の具体例における抽出処
理が行われた後のワークファイルの内容を示す説明図で
ある。

【図５】本発明の辞書作成装置の具体例における品詞付
与処理が行われた後のワークファイルの内容を示す説明
図である。

【図６】本発明の辞書作成装置の具体例における変換テ
ーブルの一例を示す説明図である。

【図７】本発明の辞書作成装置の具体例の生成された辞
書データの内容を示す説明図である。

【図８】具体例の辞書データを使用しない場合と使用し
た場合の機械翻訳システムの翻訳結果の変化を示す説明
図である。

【図９】原言語が日本語の場合の変換テーブルの一例を
示す説明図である。

【図１０】原言語が日本語の場合の生成された辞書デー
タの説明図である。

【図１１】原言語が日本語の場合における具体例の辞書
データを使用しない場合と使用した場合の機械翻訳シス
テムの翻訳結果の変化を示す説明図である。

【符号の説明】

２１抽出処理部２２品詞付与部２３変換処理部３１テキストファイル３３変換テーブル３４辞書ファイル

Claims

【特許請求の範囲】

【請求項１】原言語のテキストから単語列を抽出する
抽出処理部と、前記抽出処理部で抽出された単語列の品詞を付与する品
詞付与部と、原言語の単語列の品詞に対応する目的言語品詞と、前記
原言語の単語列から目的言語の単語列への変換規則を記
述した変換テーブルと、前記抽出処理部で抽出された単語列に対し、前記変換テ
ーブルの変換規則を参照して前記品詞付与部で付与され
た単語列の品詞に基づき目的言語の単語列に変換し、当
該目的言語の単語列を前記原言語の辞書データとして出
力する変換処理部とを備えたことを特徴とする辞書作成
装置。
【請求項２】請求項１に記載の辞書作成装置におい
て、変換テーブルの変換規則は、原言語の単語を置き換えた
内容と、目的言語の機能語とで構成されていることを特
徴とする辞書作成装置。
【請求項３】請求項２に記載の辞書作成装置におい
て、原言語の単語を置き換えた内容は、原言語の単語をその
まま使用する規則であることを特徴とする辞書作成装
置。
【請求項４】請求項２に記載の辞書作成装置におい
て、原言語の単語を置き換えた内容は、原言語の単語を表音
文字で表記する規則であることを特徴とする辞書作成装
置。