[go: up one dir, main page]

JP2002032369A - 辞書作成装置 - Google Patents

辞書作成装置

Info

Publication number
JP2002032369A
JP2002032369A JP2000216756A JP2000216756A JP2002032369A JP 2002032369 A JP2002032369 A JP 2002032369A JP 2000216756 A JP2000216756 A JP 2000216756A JP 2000216756 A JP2000216756 A JP 2000216756A JP 2002032369 A JP2002032369 A JP 2002032369A
Authority
JP
Japan
Prior art keywords
speech
word string
source language
dictionary
language
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Pending
Application number
JP2000216756A
Other languages
English (en)
Inventor
Sayori Shimohata
さより 下畑
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Oki Electric Industry Co Ltd
Original Assignee
Oki Electric Industry Co Ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Oki Electric Industry Co Ltd filed Critical Oki Electric Industry Co Ltd
Priority to JP2000216756A priority Critical patent/JP2002032369A/ja
Publication of JP2002032369A publication Critical patent/JP2002032369A/ja
Pending legal-status Critical Current

Links

Landscapes

  • Machine Translation (AREA)

Abstract

(57)【要約】 【課題】 単言語のテキストであっても対訳形式の辞書
を作成できる辞書作成装置を実現する。 【解決手段】 変換テーブル33は、原言語の単語列の
品詞に対応する目的言語品詞と、原言語単語列から目的
言語単語列への変換規則を記述している。抽出処理部2
1は原言語のテキストから単語列を抽出する。品詞付与
部22は、単語列に対して品詞を付与する。変換処理部
23は、付与された品詞に基づき、変換テーブル33を
参照して、その変換規則に沿って、原言語の単語列を目
的言語の単語列に変換し、これを辞書データとして出力
する。

Description

【発明の詳細な説明】
【0001】
【発明の属する技術分野】本発明は、機械翻訳システム
などで用いる辞書を自動的に作成する辞書作成装置に関
するものである。
【0002】
【従来の技術】インターネットの普及、パーソナルコン
ピュータ利用者の増加に伴い、ある言語で記述されたテ
キストを別の言語に翻訳する機械翻訳システムが急速に
普及している。しかしながら、一般の機械翻訳システム
では、システムが提供する辞書だけでは多様な分野の文
章を適切に翻訳することができないため、ユーザ毎ある
いは分野毎の辞書を構築するのが不可欠であった。この
ような辞書を作成するのは非常に労力が必要となる。そ
こで、翻訳対象そのもの、あるいは翻訳対象と同じ分野
のテキストデータから機械翻訳用辞書を自動的に作成す
る方法が提案されている。
【0003】このような従来技術として、特開平10−
269222号公報「機械翻訳における辞書作成支援装
置」に開示されている方法がある。これは、日本語テキ
ストデータからカタカナ表記の文字列を抽出し、そのカ
タカナ表記の文字列から変換テーブルを用いて英語の綴
り候補の集合を求め、その英語の綴り候補の集合と英語
テキストデータを照合することにより、訳語を自動的に
付与するものである。
【0004】
【発明が解決しようとする課題】しかしながら、上記従
来技術では次のような問題があった。第一に、必ず2言
語(この場合は日本語と英語)のテキストデータが必要
である。第二に、カタカナ表記の日本語単語から英語の
訳語候補を推定するので、カタカナ表記しない日本語の
単語は登録できない。第三に、英語テキストデータ中に
綴り候補の集合とマッチする単語がない場合には訳語を
得ることができない。
【0005】このように、従来技術では、単言語のテキ
ストから対訳形式の辞書を作成することができないとい
った問題があった。
【0006】
【課題を解決するための手段】本発明は、前述の課題を
解決するため次の構成を採用する。 〈構成1〉原言語のテキストから単語列を抽出する抽出
処理部と、抽出処理部で抽出された単語列の品詞を付与
する品詞付与部と、原言語の単語列の品詞に対応する目
的言語品詞と、原言語の単語列から目的言語の単語列へ
の変換規則を記述した変換テーブルと、抽出処理部で抽
出された単語列に対し、変換テーブルの変換規則を参照
して品詞付与部で付与された単語列の品詞に基づき目的
言語の単語列に変換し、目的言語の単語列を原言語の辞
書データとして出力する変換処理部とを備えたことを特
徴とする辞書作成装置。
【0007】〈構成2〉構成1に記載の辞書作成装置に
おいて、変換テーブルの変換規則は、原言語の単語を置
き換えた内容と、目的言語の機能語とで構成されている
ことを特徴とする辞書作成装置。
【0008】〈構成3〉構成2に記載の辞書作成装置に
おいて、原言語の単語を置き換えた内容は、原言語の単
語をそのまま使用する規則であることを特徴とする辞書
作成装置。
【0009】〈構成4〉構成2に記載の辞書作成装置に
おいて、原言語の単語を置き換えた内容は、原言語の単
語を表音文字で表記する規則であることを特徴とする辞
書作成装置。
【0010】
【発明の実施の形態】《本発明の概略》技術文書などを
目的言語である日本語に翻訳する場合、誤翻訳を避けた
り曖昧性を無くしたりするために、専門用語の訳語には
原言語の単語をそのまま使ったり、原言語の単語をカタ
カナに置き換えただけの訳語を使ったりすることが多
い。そこで、本発明は、1言語のテキストデータから単
語または単語列を抽出し、目的言語への変換テーブルを
用いて原言語の単語または単語列を目的言語に変換する
ことにより、その訳語を自動的に生成し、辞書を作成で
きる辞書作成装置を提供するものである。
【0011】以下、本発明の実施の形態を具体例を用い
て詳細に説明する。 《具体例》 〈構成〉図1は本発明の辞書作成装置の具体例を示す構
成図である。図の装置は、入出力装置1と、処理装置2
と、記憶装置3とを有する。入出力装置1は、テキスト
データや各種の操作コマンドを入力するキーボード、マ
ウス、ファイル等の入力手段と、処理過程の表示等を行
うためのCRT、出力ファイル等の出力手段からなるも
のである。記憶装置3は、磁気ディスク装置や半導体メ
モリ等からなるもので、原言語文のテキストを格納する
テキストファイル31と、各段階の処理結果を保存する
ワークファイル32と、原言語から目的言語である日本
語へ変換する規則を記述した変換テーブル33と、作成
した辞書を保存する辞書ファイル34を有している。
【0012】ワークファイル32は、後述する図4、5
に示すように、原言語の品詞を格納する原言語品詞格納
部321、原言語の単語列を格納する原言語単語格納部
322、日本語の品詞を格納する日本語品詞格納部32
3と、日本語の単語列を格納する日本語単語格納部32
4から構成されている。変換テーブル33は、後述する
図6に示すように、原言語の品詞を格納する原言語品詞
格納部331と、日本語の品詞を格納する日本語品詞格
納部332と、日本語への変換規則を格納する変換規則
格納部333から構成されている。辞書ファイル34
は、後述する図7に示すように、原言語の品詞を格納す
る原言語品詞格納部341と、原言語の単語列を格納す
る原言語単語格納部342と、日本語の品詞を格納する
日本語品詞格納部343と、日本語の単語列を格納する
日本語単語格納部344から構成されている。
【0013】処理装置2は、演算装置やメモリ、制御部
等からなるもので、翻訳パターン作成処理を実行する機
能を有している。処理装置2は、抽出処理部21、品詞
付与部22、変換処理部23を備えている。抽出処理部
21は、原言語のテキストファイル31から辞書に登録
する単語および単語列(以下、登録候補と呼ぶ)を抽出
し、ワークファイル32の原言語単語格納部322に格
納する処理を行う機能を有するものである。品詞付与部
22は、ワークファイル32の原言語単語格納部322
に格納された内容を1行ずつ読み、その品詞を推定して
日本語品詞格納部323に格納する機能を有している。
変換処理部23は、ワークファイル32に格納された登
録候補の単語列と品詞の組を1行ずつ読み、変換テーブ
ル33の該当する品詞の変換規則に基づいて訳語に変換
し、辞書ファイル34に格納する機能を有している。
【0014】〈動作〉図2は、具体例の処理の流れを示
すフローチャートである。図3は、図2のフローチャー
トにおけるステップS5の詳細を示すフローチャートで
ある。以下、本具体例では、英語のテキストから英日対
訳辞書を作成する場合の各処理の過程を具体的な例を用
いて説明する。
【0015】[ステップS1]入出力装置1より英語の
テキストを入力し、抽出処理部21がテキストファイル
31に格納する。テキストはキーボードから直接入力し
ても良いし、ファイルを指定する方法でもよい。 [ステップS2]抽出処理部21は、テキストファイル
31を読み込み、辞書登録の候補となる単語列を抽出す
る。単語列を抽出する方法としては、形態素解析や構文
解析を行い抽出したい品詞や構文構造を持つ単語列(例
えば名詞句等)を取り出す方法やテキスト中の単語列の
出現頻度を求め、出現頻度の高い単語列を抽出する方法
等がある。
【0016】[ステップS3]抽出処理部21は、抽出
した単語列をワークファイル32の原言語単語格納部3
22に格納する。図4は、抽出処理が行われた後のワー
クファイル32の内容を示す説明図である。この例で
は、抽出された単語として、“URL prefix”“map”“a
dditional”が原言語単語格納部322に格納されてい
る。
【0017】[ステップS4]品詞付与部22は、ワー
クファイル32の原言語単語格納部322の内容を1行
ずつ読み、単語列の品詞を推定する。品詞付与には、一
般の形態素解析や構文解析を用いる。推定された品詞
を、ワークファイル32の原言語品詞格納部321に格
納する。図5は、品詞付与処理が行われた後のワークフ
ァイル32の内容を示している。図示のように、“URL
prefix”には名詞、“map”には動詞、“additional”
には形容詞が付与されている。
【0018】[ステップS5]変換処理部23は、ワー
クファイル32の原言語単語格納部322および原言語
品詞格納部321の内容を1行ずつ読み、原言語品詞格
納部321から読み込んだ品詞と変換テーブル33の原
言語品詞格納部331の品詞を照合する。照合の結果、
マッチするものがあれば、該当する変換規則に従ってワ
ークファイル32の原言語単語格納部322から読み込
んだ単語列を日本語に変換する。
【0019】図6は、変換テーブル33の一例を示す説
明図である。ここで、変換規則格納部333の“***”
は、英語の文字列がそのまま訳語に代入されることを示
しているが、英語からカタカナへの変換を行った結果を
代入するようにしても良いし、機械翻訳システムを使っ
て英語を翻訳した結果を代入するようにしてもよい。こ
のように、変換テーブル33の変換規則格納部333
は、原言語の単語を置き換えた内容と、日本語の機能
語、即ち、動詞の場合は「する」といったようにその品
詞の文法的機能を表す語から構成されている。
【0020】次に、図3を用いて上記ステップS5にお
ける変換処理部23の処理を詳細に説明する。 [ステップS51]ワークファイル32のデータが終わ
りでないかチェックする。終わりであれば処理を終了す
る。そうでなければステップS52に進む。 [ステップS52]ワークファイル32からデータを1
行読む。 [ステップS53]ワークファイル32の原言語品詞格
納部321の品詞と変換テーブル33の原言語品詞格納
部331の品詞を照合する。 [ステップS54〜S55]マッチする品詞があれば、
変換テーブル33のマッチする原言語品詞に対応する変
換規則に従って訳語を生成する。 [ステップS56]変換テーブル33のマッチする原言
語品詞に対応する日本語品詞および生成した訳語を、ワ
ークファイル32の日本語品詞格納部323および日本
語単語格納部324にそれぞれ格納する。 [ステップS57]マッチする品詞がなければエラー処
理を行い、ステップS51に戻る。以上が図2のステッ
プS5の詳細の動作である。
【0021】再び、図2に戻り、具体例の処理を説明す
る。 [ステップS6]辞書ファイル34に、ワークファイル
32に格納されている登録候補とその訳語および各々の
品詞を格納する。
【0022】次に、変換処理の流れを図5のワークファ
イル32のデータと図6の変換テーブル33のデータを
用いて具体的に説明する。 [ステップS52]先ず、ワークファイル32からデー
タを1行読む。品詞「名詞」と英単語列“URL prefix”
が読み込まれる。 [ステップS53]次に、読み込まれた品詞「名詞」と
変換テーブル33の原言語品詞格納部331の品詞を照
合する。 [ステップS54〜S55]変換テーブル33に「名
詞」があるので、対応する変換規則“***”に従って訳
語を生成する。“***”は英単語列をそのまま置き換え
ることになっているので英単語列がそのまま訳語にな
る。 [ステップS56]英語品詞「名詞」に対応する日本語
品詞「名詞」、および訳語をワークファイル32の日本
語品詞格納部323および日本語単語格納部324にそ
れぞれ格納する。ステップS51に戻り、2行目、3行
目のデータに対して同様の処理を繰り返し行い、全ての
データに対して処理が終わったら、辞書ファイル34に
ワークファイル32に格納されている内容を格納する。
【0023】図7は、図5と図6のデータから生成され
た辞書データの内容を示す説明図である。図示のよう
に、原言語単語格納部342の単語“URL prefix”“ma
p”“additional”に対応して原言語品詞格納部341
には、“名詞”“動詞”“形容詞”が格納され、日本語
品詞格納部343には、“名詞”“動詞”“形容動詞”
が格納され、日本語単語格納部344には、“URL pref
ix”“mapする”“additionalだ”が格納されている。
【0024】図8は、図7の辞書データを使用しない場
合と使用した場合の機械翻訳システムの翻訳結果の変化
を示す説明図である。ここでは、入力文81として、
“Type the URL prefix you want to map.”が入力され
た例を示している。標準辞書だけで入力文81を翻訳し
た結果82では、“あなたが地図を作りたいURL接頭
辞をタイプしなさい。”となる。また、標準辞書と図7
の辞書を用いて翻訳した結果83では、“あなたがmap
したいURL prefixをタイプしなさい。”となる。こ
こで、例えば、入力文81の“map”の場合、一般的な
英和辞典では「地図を作る」「位置付ける」「見つけ出
す」などの訳語があるが、いずれも入力文81の訳とし
て適切とはいえない。また、この場合の“prefix”とは
“URL prefix”というひとかたまりの語である。こ
れは、例えば、http://www.abcd.com/English/index.ht
mlといったURLのファイル名“index.html”以外の部
分、即ち、www.abcd.com/EnglishやEnglishあるいはhtt
p://www.abcd.comといった部分を指しているため、「U
RL 接頭辞」では“URL prefix”の意味として正確
とはいえない。従って、このような場合、誤翻訳を避け
るためには、原言語の単語をそのまま使用する方が望ま
しい。
【0025】また、上記の例では、英語から日本語への
変換について説明したが、本発明は任意の2言語の翻訳
に適用することが可能である。例えば、日本語を英語に
変換する場合には、次のような変換テーブルを用いて訳
語の生成を行う。図9は、原言語が日本語の場合の変換
テーブルの一例を示す説明図である。訳語は日本語の単
語をそのまま生成しても良いし、読みをローマ字に置き
換える処理を追加しても良い。図10は、生成された辞
書データの説明図である。この例では、日本語の名詞で
ある「横綱」や「大関」に対して、英語単語として
「“yokozuna”」「“ozeki”」が登録されている。
【0026】図11は、図10の辞書データを使用しな
い場合と使用した場合の機械翻訳システムの翻訳結果の
変化を示す説明図である。ここでは、入力文91とし
て、「横綱が大関に勝った。」が入力された例を示して
いる。標準辞書だけで入力文91を翻訳した結果92で
は、「A grand champion sumo wrestler defeated a su
mo wrestler of the second highest rank.」となる。
また、標準辞書と図10の辞書を用いて翻訳した結果9
3では、“Yokozuna”defeated “ozeki”.となる。こ
のように、“yokozuna”“ozeki”のように、原音に近
い綴りで、かつ、引用符“”を付与することによって、
英語以外の外国語であることが分かる。また、翻訳処理
で、例えば「横綱」が「横」と「綱」に分割して翻訳さ
れてしまうといった誤翻訳も防止することができる。
【0027】〈効果〉以上のように、本具体例によれ
ば、原言語の単語列の品詞に対応する目的言語品詞と変
換規則を記述した変換テーブルを用いて、原言語の単語
列に対してその変換規則に基づき目的言語の単語列に変
換し、これを原言語の辞書データとして出力するように
したので、単言語のテキストから機械翻訳等に用いる対
訳形式の辞書を自動的に作成することが可能となる。ま
た、目的言語が例えば日本語の場合に必ずしもカタカナ
表記する単語でなくても登録できる。更に、単語の品詞
に基づく変換規則を用いるため、原言語のテキストから
訳語を得るための綴り候補を予め用意する必要がないと
いった効果がある。
【0028】尚、上記具体例では、変換規則としてカタ
カナ表記でもよい、としたが、カタカナ表記のみに限定
されるものではなく、種々の原言語の単語を表音文字で
表記する規則であればよい。
【図面の簡単な説明】
【図1】本発明の辞書作成装置の具体例を示す構成図で
ある。
【図2】本発明の辞書作成装置の具体例における全体の
処理を示すフローチャートである。
【図3】本発明の辞書作成装置の具体例における変換処
理の詳細を示すフローチャートである。
【図4】本発明の辞書作成装置の具体例における抽出処
理が行われた後のワークファイルの内容を示す説明図で
ある。
【図5】本発明の辞書作成装置の具体例における品詞付
与処理が行われた後のワークファイルの内容を示す説明
図である。
【図6】本発明の辞書作成装置の具体例における変換テ
ーブルの一例を示す説明図である。
【図7】本発明の辞書作成装置の具体例の生成された辞
書データの内容を示す説明図である。
【図8】具体例の辞書データを使用しない場合と使用し
た場合の機械翻訳システムの翻訳結果の変化を示す説明
図である。
【図9】原言語が日本語の場合の変換テーブルの一例を
示す説明図である。
【図10】原言語が日本語の場合の生成された辞書デー
タの説明図である。
【図11】原言語が日本語の場合における具体例の辞書
データを使用しない場合と使用した場合の機械翻訳シス
テムの翻訳結果の変化を示す説明図である。
【符号の説明】
21 抽出処理部 22 品詞付与部 23 変換処理部 31 テキストファイル 33 変換テーブル 34 辞書ファイル

Claims (4)

    【特許請求の範囲】
  1. 【請求項1】 原言語のテキストから単語列を抽出する
    抽出処理部と、 前記抽出処理部で抽出された単語列の品詞を付与する品
    詞付与部と、 原言語の単語列の品詞に対応する目的言語品詞と、前記
    原言語の単語列から目的言語の単語列への変換規則を記
    述した変換テーブルと、 前記抽出処理部で抽出された単語列に対し、前記変換テ
    ーブルの変換規則を参照して前記品詞付与部で付与され
    た単語列の品詞に基づき目的言語の単語列に変換し、当
    該目的言語の単語列を前記原言語の辞書データとして出
    力する変換処理部とを備えたことを特徴とする辞書作成
    装置。
  2. 【請求項2】 請求項1に記載の辞書作成装置におい
    て、 変換テーブルの変換規則は、原言語の単語を置き換えた
    内容と、目的言語の機能語とで構成されていることを特
    徴とする辞書作成装置。
  3. 【請求項3】 請求項2に記載の辞書作成装置におい
    て、 原言語の単語を置き換えた内容は、原言語の単語をその
    まま使用する規則であることを特徴とする辞書作成装
    置。
  4. 【請求項4】 請求項2に記載の辞書作成装置におい
    て、 原言語の単語を置き換えた内容は、原言語の単語を表音
    文字で表記する規則であることを特徴とする辞書作成装
    置。
JP2000216756A 2000-07-18 2000-07-18 辞書作成装置 Pending JP2002032369A (ja)

Priority Applications (1)

Application Number Priority Date Filing Date Title
JP2000216756A JP2002032369A (ja) 2000-07-18 2000-07-18 辞書作成装置

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
JP2000216756A JP2002032369A (ja) 2000-07-18 2000-07-18 辞書作成装置

Publications (1)

Publication Number Publication Date
JP2002032369A true JP2002032369A (ja) 2002-01-31

Family

ID=18711962

Family Applications (1)

Application Number Title Priority Date Filing Date
JP2000216756A Pending JP2002032369A (ja) 2000-07-18 2000-07-18 辞書作成装置

Country Status (1)

Country Link
JP (1) JP2002032369A (ja)

Cited By (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US8219381B2 (en) 2006-09-27 2012-07-10 Kabushiki Kaisha Toshiba Dictionary registration apparatus, dictionary registration method, and computer product

Cited By (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US8219381B2 (en) 2006-09-27 2012-07-10 Kabushiki Kaisha Toshiba Dictionary registration apparatus, dictionary registration method, and computer product

Similar Documents

Publication Publication Date Title
US5895446A (en) Pattern-based translation method and system
JP4404211B2 (ja) マルチリンガル翻訳メモリ、翻訳方法および翻訳プログラム
JP4050755B2 (ja) コミュニケーション支援装置、コミュニケーション支援方法およびコミュニケーション支援プログラム
US20050216253A1 (en) System and method for reverse transliteration using statistical alignment
JP4319860B2 (ja) 転移ベースの機械翻訳システムで使用される転移辞書を開発するための方法および装置
JP2006252382A (ja) 質問応答システム、およびデータ検索方法、並びにコンピュータ・プログラム
WO2003065245A1 (fr) Procede de traduction, procede de production de phrase traduite, support d'enregistrement, programme et ordinateur
JPS62163173A (ja) 機械翻訳方法
JP2006252381A (ja) 質問応答システム、およびデータ検索方法、並びにコンピュータ・プログラム
JP2008108209A (ja) 機械翻訳の精度を向上させる技術
JPH10312382A (ja) 類似用例翻訳システム
JPH0344764A (ja) 機械翻訳装置
WO2020012813A1 (ja) 情報処理装置、および情報処理方法、並びにプログラム
Chang et al. A corpus-based statistics-oriented transfer and generation model for machine translation
JP2006127405A (ja) バイリンガルパラレルテキストをアライメントする方法及びそのためのコンピュータで実行可能なプログラム
JP2002032369A (ja) 辞書作成装置
JP4708682B2 (ja) 対訳単語対の学習方法、装置、及び、対訳単語対の学習プログラムを記録した記録媒体
JP2632806B2 (ja) 言語解析装置
KR100322743B1 (ko) 음성합성기의 문서해석기에서 사용되는 형태소 해석방법 및 그 장치
JP2723886B2 (ja) 機械翻訳装置及びその翻訳規則作成方法
JP4092861B2 (ja) 自然言語パターン作成装置及び方法
JP2005267117A (ja) 機械翻訳プログラム、機械翻訳方法、機械翻訳システム
Arnoult Adjunction in hierarchical phrase-based translation
JP2817497B2 (ja) 辞書編集装置
JP2947554B2 (ja) 機械翻訳装置

Legal Events

Date Code Title Description
A621 Written request for application examination

Free format text: JAPANESE INTERMEDIATE CODE: A621

Effective date: 20050708

A521 Written amendment

Free format text: JAPANESE INTERMEDIATE CODE: A523

Effective date: 20050908

A131 Notification of reasons for refusal

Free format text: JAPANESE INTERMEDIATE CODE: A131

Effective date: 20070515

A521 Written amendment

Free format text: JAPANESE INTERMEDIATE CODE: A523

Effective date: 20070713

A02 Decision of refusal

Free format text: JAPANESE INTERMEDIATE CODE: A02

Effective date: 20070807

A521 Written amendment

Free format text: JAPANESE INTERMEDIATE CODE: A523

Effective date: 20071009

A911 Transfer of reconsideration by examiner before appeal (zenchi)

Free format text: JAPANESE INTERMEDIATE CODE: A911

Effective date: 20071023

A912 Removal of reconsideration by examiner before appeal (zenchi)

Free format text: JAPANESE INTERMEDIATE CODE: A912

Effective date: 20071109