JP2002032369A - 辞書作成装置 - Google Patents
辞書作成装置Info
- Publication number
- JP2002032369A JP2002032369A JP2000216756A JP2000216756A JP2002032369A JP 2002032369 A JP2002032369 A JP 2002032369A JP 2000216756 A JP2000216756 A JP 2000216756A JP 2000216756 A JP2000216756 A JP 2000216756A JP 2002032369 A JP2002032369 A JP 2002032369A
- Authority
- JP
- Japan
- Prior art keywords
- speech
- word string
- source language
- dictionary
- language
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Pending
Links
Landscapes
- Machine Translation (AREA)
Abstract
を作成できる辞書作成装置を実現する。 【解決手段】 変換テーブル33は、原言語の単語列の
品詞に対応する目的言語品詞と、原言語単語列から目的
言語単語列への変換規則を記述している。抽出処理部2
1は原言語のテキストから単語列を抽出する。品詞付与
部22は、単語列に対して品詞を付与する。変換処理部
23は、付与された品詞に基づき、変換テーブル33を
参照して、その変換規則に沿って、原言語の単語列を目
的言語の単語列に変換し、これを辞書データとして出力
する。
Description
などで用いる辞書を自動的に作成する辞書作成装置に関
するものである。
ピュータ利用者の増加に伴い、ある言語で記述されたテ
キストを別の言語に翻訳する機械翻訳システムが急速に
普及している。しかしながら、一般の機械翻訳システム
では、システムが提供する辞書だけでは多様な分野の文
章を適切に翻訳することができないため、ユーザ毎ある
いは分野毎の辞書を構築するのが不可欠であった。この
ような辞書を作成するのは非常に労力が必要となる。そ
こで、翻訳対象そのもの、あるいは翻訳対象と同じ分野
のテキストデータから機械翻訳用辞書を自動的に作成す
る方法が提案されている。
269222号公報「機械翻訳における辞書作成支援装
置」に開示されている方法がある。これは、日本語テキ
ストデータからカタカナ表記の文字列を抽出し、そのカ
タカナ表記の文字列から変換テーブルを用いて英語の綴
り候補の集合を求め、その英語の綴り候補の集合と英語
テキストデータを照合することにより、訳語を自動的に
付与するものである。
来技術では次のような問題があった。第一に、必ず2言
語(この場合は日本語と英語)のテキストデータが必要
である。第二に、カタカナ表記の日本語単語から英語の
訳語候補を推定するので、カタカナ表記しない日本語の
単語は登録できない。第三に、英語テキストデータ中に
綴り候補の集合とマッチする単語がない場合には訳語を
得ることができない。
ストから対訳形式の辞書を作成することができないとい
った問題があった。
解決するため次の構成を採用する。 〈構成1〉原言語のテキストから単語列を抽出する抽出
処理部と、抽出処理部で抽出された単語列の品詞を付与
する品詞付与部と、原言語の単語列の品詞に対応する目
的言語品詞と、原言語の単語列から目的言語の単語列へ
の変換規則を記述した変換テーブルと、抽出処理部で抽
出された単語列に対し、変換テーブルの変換規則を参照
して品詞付与部で付与された単語列の品詞に基づき目的
言語の単語列に変換し、目的言語の単語列を原言語の辞
書データとして出力する変換処理部とを備えたことを特
徴とする辞書作成装置。
おいて、変換テーブルの変換規則は、原言語の単語を置
き換えた内容と、目的言語の機能語とで構成されている
ことを特徴とする辞書作成装置。
おいて、原言語の単語を置き換えた内容は、原言語の単
語をそのまま使用する規則であることを特徴とする辞書
作成装置。
おいて、原言語の単語を置き換えた内容は、原言語の単
語を表音文字で表記する規則であることを特徴とする辞
書作成装置。
目的言語である日本語に翻訳する場合、誤翻訳を避けた
り曖昧性を無くしたりするために、専門用語の訳語には
原言語の単語をそのまま使ったり、原言語の単語をカタ
カナに置き換えただけの訳語を使ったりすることが多
い。そこで、本発明は、1言語のテキストデータから単
語または単語列を抽出し、目的言語への変換テーブルを
用いて原言語の単語または単語列を目的言語に変換する
ことにより、その訳語を自動的に生成し、辞書を作成で
きる辞書作成装置を提供するものである。
て詳細に説明する。 《具体例》 〈構成〉図1は本発明の辞書作成装置の具体例を示す構
成図である。図の装置は、入出力装置1と、処理装置2
と、記憶装置3とを有する。入出力装置1は、テキスト
データや各種の操作コマンドを入力するキーボード、マ
ウス、ファイル等の入力手段と、処理過程の表示等を行
うためのCRT、出力ファイル等の出力手段からなるも
のである。記憶装置3は、磁気ディスク装置や半導体メ
モリ等からなるもので、原言語文のテキストを格納する
テキストファイル31と、各段階の処理結果を保存する
ワークファイル32と、原言語から目的言語である日本
語へ変換する規則を記述した変換テーブル33と、作成
した辞書を保存する辞書ファイル34を有している。
に示すように、原言語の品詞を格納する原言語品詞格納
部321、原言語の単語列を格納する原言語単語格納部
322、日本語の品詞を格納する日本語品詞格納部32
3と、日本語の単語列を格納する日本語単語格納部32
4から構成されている。変換テーブル33は、後述する
図6に示すように、原言語の品詞を格納する原言語品詞
格納部331と、日本語の品詞を格納する日本語品詞格
納部332と、日本語への変換規則を格納する変換規則
格納部333から構成されている。辞書ファイル34
は、後述する図7に示すように、原言語の品詞を格納す
る原言語品詞格納部341と、原言語の単語列を格納す
る原言語単語格納部342と、日本語の品詞を格納する
日本語品詞格納部343と、日本語の単語列を格納する
日本語単語格納部344から構成されている。
等からなるもので、翻訳パターン作成処理を実行する機
能を有している。処理装置2は、抽出処理部21、品詞
付与部22、変換処理部23を備えている。抽出処理部
21は、原言語のテキストファイル31から辞書に登録
する単語および単語列(以下、登録候補と呼ぶ)を抽出
し、ワークファイル32の原言語単語格納部322に格
納する処理を行う機能を有するものである。品詞付与部
22は、ワークファイル32の原言語単語格納部322
に格納された内容を1行ずつ読み、その品詞を推定して
日本語品詞格納部323に格納する機能を有している。
変換処理部23は、ワークファイル32に格納された登
録候補の単語列と品詞の組を1行ずつ読み、変換テーブ
ル33の該当する品詞の変換規則に基づいて訳語に変換
し、辞書ファイル34に格納する機能を有している。
すフローチャートである。図3は、図2のフローチャー
トにおけるステップS5の詳細を示すフローチャートで
ある。以下、本具体例では、英語のテキストから英日対
訳辞書を作成する場合の各処理の過程を具体的な例を用
いて説明する。
テキストを入力し、抽出処理部21がテキストファイル
31に格納する。テキストはキーボードから直接入力し
ても良いし、ファイルを指定する方法でもよい。 [ステップS2]抽出処理部21は、テキストファイル
31を読み込み、辞書登録の候補となる単語列を抽出す
る。単語列を抽出する方法としては、形態素解析や構文
解析を行い抽出したい品詞や構文構造を持つ単語列(例
えば名詞句等)を取り出す方法やテキスト中の単語列の
出現頻度を求め、出現頻度の高い単語列を抽出する方法
等がある。
した単語列をワークファイル32の原言語単語格納部3
22に格納する。図4は、抽出処理が行われた後のワー
クファイル32の内容を示す説明図である。この例で
は、抽出された単語として、“URL prefix”“map”“a
dditional”が原言語単語格納部322に格納されてい
る。
クファイル32の原言語単語格納部322の内容を1行
ずつ読み、単語列の品詞を推定する。品詞付与には、一
般の形態素解析や構文解析を用いる。推定された品詞
を、ワークファイル32の原言語品詞格納部321に格
納する。図5は、品詞付与処理が行われた後のワークフ
ァイル32の内容を示している。図示のように、“URL
prefix”には名詞、“map”には動詞、“additional”
には形容詞が付与されている。
クファイル32の原言語単語格納部322および原言語
品詞格納部321の内容を1行ずつ読み、原言語品詞格
納部321から読み込んだ品詞と変換テーブル33の原
言語品詞格納部331の品詞を照合する。照合の結果、
マッチするものがあれば、該当する変換規則に従ってワ
ークファイル32の原言語単語格納部322から読み込
んだ単語列を日本語に変換する。
明図である。ここで、変換規則格納部333の“***”
は、英語の文字列がそのまま訳語に代入されることを示
しているが、英語からカタカナへの変換を行った結果を
代入するようにしても良いし、機械翻訳システムを使っ
て英語を翻訳した結果を代入するようにしてもよい。こ
のように、変換テーブル33の変換規則格納部333
は、原言語の単語を置き換えた内容と、日本語の機能
語、即ち、動詞の場合は「する」といったようにその品
詞の文法的機能を表す語から構成されている。
ける変換処理部23の処理を詳細に説明する。 [ステップS51]ワークファイル32のデータが終わ
りでないかチェックする。終わりであれば処理を終了す
る。そうでなければステップS52に進む。 [ステップS52]ワークファイル32からデータを1
行読む。 [ステップS53]ワークファイル32の原言語品詞格
納部321の品詞と変換テーブル33の原言語品詞格納
部331の品詞を照合する。 [ステップS54〜S55]マッチする品詞があれば、
変換テーブル33のマッチする原言語品詞に対応する変
換規則に従って訳語を生成する。 [ステップS56]変換テーブル33のマッチする原言
語品詞に対応する日本語品詞および生成した訳語を、ワ
ークファイル32の日本語品詞格納部323および日本
語単語格納部324にそれぞれ格納する。 [ステップS57]マッチする品詞がなければエラー処
理を行い、ステップS51に戻る。以上が図2のステッ
プS5の詳細の動作である。
る。 [ステップS6]辞書ファイル34に、ワークファイル
32に格納されている登録候補とその訳語および各々の
品詞を格納する。
イル32のデータと図6の変換テーブル33のデータを
用いて具体的に説明する。 [ステップS52]先ず、ワークファイル32からデー
タを1行読む。品詞「名詞」と英単語列“URL prefix”
が読み込まれる。 [ステップS53]次に、読み込まれた品詞「名詞」と
変換テーブル33の原言語品詞格納部331の品詞を照
合する。 [ステップS54〜S55]変換テーブル33に「名
詞」があるので、対応する変換規則“***”に従って訳
語を生成する。“***”は英単語列をそのまま置き換え
ることになっているので英単語列がそのまま訳語にな
る。 [ステップS56]英語品詞「名詞」に対応する日本語
品詞「名詞」、および訳語をワークファイル32の日本
語品詞格納部323および日本語単語格納部324にそ
れぞれ格納する。ステップS51に戻り、2行目、3行
目のデータに対して同様の処理を繰り返し行い、全ての
データに対して処理が終わったら、辞書ファイル34に
ワークファイル32に格納されている内容を格納する。
た辞書データの内容を示す説明図である。図示のよう
に、原言語単語格納部342の単語“URL prefix”“ma
p”“additional”に対応して原言語品詞格納部341
には、“名詞”“動詞”“形容詞”が格納され、日本語
品詞格納部343には、“名詞”“動詞”“形容動詞”
が格納され、日本語単語格納部344には、“URL pref
ix”“mapする”“additionalだ”が格納されている。
合と使用した場合の機械翻訳システムの翻訳結果の変化
を示す説明図である。ここでは、入力文81として、
“Type the URL prefix you want to map.”が入力され
た例を示している。標準辞書だけで入力文81を翻訳し
た結果82では、“あなたが地図を作りたいURL接頭
辞をタイプしなさい。”となる。また、標準辞書と図7
の辞書を用いて翻訳した結果83では、“あなたがmap
したいURL prefixをタイプしなさい。”となる。こ
こで、例えば、入力文81の“map”の場合、一般的な
英和辞典では「地図を作る」「位置付ける」「見つけ出
す」などの訳語があるが、いずれも入力文81の訳とし
て適切とはいえない。また、この場合の“prefix”とは
“URL prefix”というひとかたまりの語である。こ
れは、例えば、http://www.abcd.com/English/index.ht
mlといったURLのファイル名“index.html”以外の部
分、即ち、www.abcd.com/EnglishやEnglishあるいはhtt
p://www.abcd.comといった部分を指しているため、「U
RL 接頭辞」では“URL prefix”の意味として正確
とはいえない。従って、このような場合、誤翻訳を避け
るためには、原言語の単語をそのまま使用する方が望ま
しい。
変換について説明したが、本発明は任意の2言語の翻訳
に適用することが可能である。例えば、日本語を英語に
変換する場合には、次のような変換テーブルを用いて訳
語の生成を行う。図9は、原言語が日本語の場合の変換
テーブルの一例を示す説明図である。訳語は日本語の単
語をそのまま生成しても良いし、読みをローマ字に置き
換える処理を追加しても良い。図10は、生成された辞
書データの説明図である。この例では、日本語の名詞で
ある「横綱」や「大関」に対して、英語単語として
「“yokozuna”」「“ozeki”」が登録されている。
い場合と使用した場合の機械翻訳システムの翻訳結果の
変化を示す説明図である。ここでは、入力文91とし
て、「横綱が大関に勝った。」が入力された例を示して
いる。標準辞書だけで入力文91を翻訳した結果92で
は、「A grand champion sumo wrestler defeated a su
mo wrestler of the second highest rank.」となる。
また、標準辞書と図10の辞書を用いて翻訳した結果9
3では、“Yokozuna”defeated “ozeki”.となる。こ
のように、“yokozuna”“ozeki”のように、原音に近
い綴りで、かつ、引用符“”を付与することによって、
英語以外の外国語であることが分かる。また、翻訳処理
で、例えば「横綱」が「横」と「綱」に分割して翻訳さ
れてしまうといった誤翻訳も防止することができる。
ば、原言語の単語列の品詞に対応する目的言語品詞と変
換規則を記述した変換テーブルを用いて、原言語の単語
列に対してその変換規則に基づき目的言語の単語列に変
換し、これを原言語の辞書データとして出力するように
したので、単言語のテキストから機械翻訳等に用いる対
訳形式の辞書を自動的に作成することが可能となる。ま
た、目的言語が例えば日本語の場合に必ずしもカタカナ
表記する単語でなくても登録できる。更に、単語の品詞
に基づく変換規則を用いるため、原言語のテキストから
訳語を得るための綴り候補を予め用意する必要がないと
いった効果がある。
カナ表記でもよい、としたが、カタカナ表記のみに限定
されるものではなく、種々の原言語の単語を表音文字で
表記する規則であればよい。
ある。
処理を示すフローチャートである。
理の詳細を示すフローチャートである。
理が行われた後のワークファイルの内容を示す説明図で
ある。
与処理が行われた後のワークファイルの内容を示す説明
図である。
ーブルの一例を示す説明図である。
書データの内容を示す説明図である。
た場合の機械翻訳システムの翻訳結果の変化を示す説明
図である。
示す説明図である。
タの説明図である。
データを使用しない場合と使用した場合の機械翻訳シス
テムの翻訳結果の変化を示す説明図である。
Claims (4)
- 【請求項1】 原言語のテキストから単語列を抽出する
抽出処理部と、 前記抽出処理部で抽出された単語列の品詞を付与する品
詞付与部と、 原言語の単語列の品詞に対応する目的言語品詞と、前記
原言語の単語列から目的言語の単語列への変換規則を記
述した変換テーブルと、 前記抽出処理部で抽出された単語列に対し、前記変換テ
ーブルの変換規則を参照して前記品詞付与部で付与され
た単語列の品詞に基づき目的言語の単語列に変換し、当
該目的言語の単語列を前記原言語の辞書データとして出
力する変換処理部とを備えたことを特徴とする辞書作成
装置。 - 【請求項2】 請求項1に記載の辞書作成装置におい
て、 変換テーブルの変換規則は、原言語の単語を置き換えた
内容と、目的言語の機能語とで構成されていることを特
徴とする辞書作成装置。 - 【請求項3】 請求項2に記載の辞書作成装置におい
て、 原言語の単語を置き換えた内容は、原言語の単語をその
まま使用する規則であることを特徴とする辞書作成装
置。 - 【請求項4】 請求項2に記載の辞書作成装置におい
て、 原言語の単語を置き換えた内容は、原言語の単語を表音
文字で表記する規則であることを特徴とする辞書作成装
置。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
JP2000216756A JP2002032369A (ja) | 2000-07-18 | 2000-07-18 | 辞書作成装置 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
JP2000216756A JP2002032369A (ja) | 2000-07-18 | 2000-07-18 | 辞書作成装置 |
Publications (1)
Publication Number | Publication Date |
---|---|
JP2002032369A true JP2002032369A (ja) | 2002-01-31 |
Family
ID=18711962
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
JP2000216756A Pending JP2002032369A (ja) | 2000-07-18 | 2000-07-18 | 辞書作成装置 |
Country Status (1)
Country | Link |
---|---|
JP (1) | JP2002032369A (ja) |
Cited By (1)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
US8219381B2 (en) | 2006-09-27 | 2012-07-10 | Kabushiki Kaisha Toshiba | Dictionary registration apparatus, dictionary registration method, and computer product |
-
2000
- 2000-07-18 JP JP2000216756A patent/JP2002032369A/ja active Pending
Cited By (1)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
US8219381B2 (en) | 2006-09-27 | 2012-07-10 | Kabushiki Kaisha Toshiba | Dictionary registration apparatus, dictionary registration method, and computer product |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
US5895446A (en) | Pattern-based translation method and system | |
JP4404211B2 (ja) | マルチリンガル翻訳メモリ、翻訳方法および翻訳プログラム | |
JP4050755B2 (ja) | コミュニケーション支援装置、コミュニケーション支援方法およびコミュニケーション支援プログラム | |
US20050216253A1 (en) | System and method for reverse transliteration using statistical alignment | |
JP4319860B2 (ja) | 転移ベースの機械翻訳システムで使用される転移辞書を開発するための方法および装置 | |
JP2006252382A (ja) | 質問応答システム、およびデータ検索方法、並びにコンピュータ・プログラム | |
WO2003065245A1 (fr) | Procede de traduction, procede de production de phrase traduite, support d'enregistrement, programme et ordinateur | |
JPS62163173A (ja) | 機械翻訳方法 | |
JP2006252381A (ja) | 質問応答システム、およびデータ検索方法、並びにコンピュータ・プログラム | |
JP2008108209A (ja) | 機械翻訳の精度を向上させる技術 | |
JPH10312382A (ja) | 類似用例翻訳システム | |
JPH0344764A (ja) | 機械翻訳装置 | |
WO2020012813A1 (ja) | 情報処理装置、および情報処理方法、並びにプログラム | |
Chang et al. | A corpus-based statistics-oriented transfer and generation model for machine translation | |
JP2006127405A (ja) | バイリンガルパラレルテキストをアライメントする方法及びそのためのコンピュータで実行可能なプログラム | |
JP2002032369A (ja) | 辞書作成装置 | |
JP4708682B2 (ja) | 対訳単語対の学習方法、装置、及び、対訳単語対の学習プログラムを記録した記録媒体 | |
JP2632806B2 (ja) | 言語解析装置 | |
KR100322743B1 (ko) | 음성합성기의 문서해석기에서 사용되는 형태소 해석방법 및 그 장치 | |
JP2723886B2 (ja) | 機械翻訳装置及びその翻訳規則作成方法 | |
JP4092861B2 (ja) | 自然言語パターン作成装置及び方法 | |
JP2005267117A (ja) | 機械翻訳プログラム、機械翻訳方法、機械翻訳システム | |
Arnoult | Adjunction in hierarchical phrase-based translation | |
JP2817497B2 (ja) | 辞書編集装置 | |
JP2947554B2 (ja) | 機械翻訳装置 |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
A621 | Written request for application examination |
Free format text: JAPANESE INTERMEDIATE CODE: A621 Effective date: 20050708 |
|
A521 | Written amendment |
Free format text: JAPANESE INTERMEDIATE CODE: A523 Effective date: 20050908 |
|
A131 | Notification of reasons for refusal |
Free format text: JAPANESE INTERMEDIATE CODE: A131 Effective date: 20070515 |
|
A521 | Written amendment |
Free format text: JAPANESE INTERMEDIATE CODE: A523 Effective date: 20070713 |
|
A02 | Decision of refusal |
Free format text: JAPANESE INTERMEDIATE CODE: A02 Effective date: 20070807 |
|
A521 | Written amendment |
Free format text: JAPANESE INTERMEDIATE CODE: A523 Effective date: 20071009 |
|
A911 | Transfer of reconsideration by examiner before appeal (zenchi) |
Free format text: JAPANESE INTERMEDIATE CODE: A911 Effective date: 20071023 |
|
A912 | Removal of reconsideration by examiner before appeal (zenchi) |
Free format text: JAPANESE INTERMEDIATE CODE: A912 Effective date: 20071109 |