JP3539479B2 - 翻訳装置及び翻訳方法並びに翻訳プログラムを記録した記録媒体 - Google Patents
翻訳装置及び翻訳方法並びに翻訳プログラムを記録した記録媒体 Download PDFInfo
- Publication number
- JP3539479B2 JP3539479B2 JP06544599A JP6544599A JP3539479B2 JP 3539479 B2 JP3539479 B2 JP 3539479B2 JP 06544599 A JP06544599 A JP 06544599A JP 6544599 A JP6544599 A JP 6544599A JP 3539479 B2 JP3539479 B2 JP 3539479B2
- Authority
- JP
- Japan
- Prior art keywords
- word
- affix
- translation
- dictionary
- base
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Expired - Fee Related
Links
Images
Classifications
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F40/00—Handling natural language data
- G06F40/20—Natural language analysis
- G06F40/268—Morphological analysis
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F40/00—Handling natural language data
- G06F40/20—Natural language analysis
- G06F40/279—Recognition of textual entities
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F40/00—Handling natural language data
- G06F40/40—Processing or translation of natural language
- G06F40/55—Rule-based translation
Landscapes
- Engineering & Computer Science (AREA)
- Theoretical Computer Science (AREA)
- Health & Medical Sciences (AREA)
- Artificial Intelligence (AREA)
- Audiology, Speech & Language Pathology (AREA)
- Computational Linguistics (AREA)
- General Health & Medical Sciences (AREA)
- Physics & Mathematics (AREA)
- General Engineering & Computer Science (AREA)
- General Physics & Mathematics (AREA)
- Machine Translation (AREA)
Description
【発明の属する技術分野】
本発明は、単語辞書に登録されていない接頭辞・接尾辞と語基からなる派生語を抽出して訳語を生成する翻訳装置及び翻訳方法並びに翻訳プログラムを記録した記録媒体に関する。
【0002】
【従来の技術】
近年、英日翻訳等の翻訳装置の要望が高くなり、種々開発されている。従来の翻訳装置は、例えば、キーボードなどの入力手段からソース言語(原語)を記憶手段に入力し、この入力されたソース言語を、単語辞書、文法規則および木構造変換規則を記憶したテーブルを利用して、翻訳処理手段によってターゲット言語(目的語)に翻訳するものである。
このとき、単語辞書に登録されていない原語は、通常、未知語として処理されるので、後から未知語について別の字典などを参照して翻訳する必要があった。
【0003】
しかし、未知語の中には、既知の単語(語基)に接頭語や接尾語を付加した派生語があり、派生語を構成する語基が単語辞書に登録されており、派生語に含まれる接頭語、接尾語の解析が可能であれば、語基の意味と、接頭語や接尾語の意味から派生語の意味も推定することができる。
【0004】
例えば、特開昭61−2688020号公報に記載によれば、単語辞書と接辞辞書とを備え、入力された原文中に未知語が検出された際、その未知語が、既知語に接頭辞または接尾辞が連結した派生語であるか否かを調べ、派生語として認識されたものに対して、条件に従って、特に、目的語(訳語)生成用の文法情報をも付与した文法的性質、意味的性質または訳語等を推定する構成にして、解析結果や翻訳結果の確実性を向上させることができる派生語処理方式が提案されている。
【0005】
【発明が解決しようとする課題】
しかしながら、上記の特開昭61−2688020号公報に記載の派生語処理方式では、以下に示すように、派生語の構成によっては、適切な訳語が得られないという問題がある。
(1)接辞が複数含まれる派生語の場合、接辞を正確に抽出する機能がないため、例えば、“exportable”という単語を翻訳すると、接頭辞“ex”と既知語“portable”からなる派生語であると認識され、訳語「前携帯用の」として翻訳される可能性がある。
しかし、“exportable”という英単語は、既知語“export”と接尾辞“able”からなる派生語と認識する方が正しい。
【0006】
(2)語基の表記に接尾語の表記が一部分が含まれる場合、語基を正確に抽出する機能がないため、“noter ”という単語を翻訳すると、単語“not ”と接尾辞“er”からなる派生語であると認識される可能性がある。
しかし、“noter ”という英単語は、既知語“note”と接尾辞“er”からなる派生語と認識する方が正しい。
【0007】
(3)接辞の訳語が画一的に登録されているため、例えば、接頭辞“non ”の訳語が「非」と定められていると、“nonremunerative ”という英単語は、接頭辞“non ”と既知語“remunerative”からなる派生語と認識され、その訳語は、“non ”の訳語「非」と“remunerative”の訳語「利益がある」が連結された「非利益がある」となり、これは不自然な訳語となる。
語基の訳の形から、“non ”の訳語は、「〜がある」を「〜がない」に置換して、“nonremunerative ”という英単語は、「利益がない」と翻訳される方が日本語として自然な訳語となる。
【0008】
本発明は、以上の事情を考慮してなされたものであり、例えば、単語辞書にない入力原語から接辞と語基の組み合わせが複数存在する派生語を認識した際、本来の接辞と語基とからなる正確な派生語を抽出し、自然な訳語を生成することができる翻訳装置及び翻訳方法並びに翻訳プログラムを記録した記録媒体を提供する。
【0009】
【課題を解決するための手段】
この発明は、単語辞書と、接辞辞書と、第1言語である原語を入力する入力部と、単語辞書を参照し、入力原語を第2言語である訳語に変換する変換部と、単語辞書及び接辞辞書を参照し、変換部によって訳語に変換されない入力原語から接辞と語基との組合せからなる1または複数個の派生語を認識する認識部と、認識部が認識した派生語に、複数の接辞を含むものが存在する場合に、接頭語と接辞語との長さ情報を比較する接辞処理条件に基づいて一つの接辞を決定する接辞決定部と、接辞決定部によって決定された接辞とこれに対応する語基のそれぞれの訳語を連結して前記認識された派生語の訳語を生成する派生語訳生成部とを備えたことを特徴とする翻訳装置を提供するものである。
【0010】
本発明によれば、ソース言語の言語的特性情報から付与された接辞処理条件に基づいて接辞を決定する手段を備えることによって、単語辞書にない入力原文から接辞と語基の組み合わせが複数存在する派生語でも、その中から最適な接辞を決定しこれに対応する語基とから正確な派生語を認識し、自然な訳語を生成することができる。
【0011】
【発明の実施の形態】
なお、本発明において、第1言語の単語に対する第2言語の訳語、品詞情報、文法情報などを登録した単語辞書、接頭辞情報、接尾辞情報、接辞処理条件などを登録した接辞辞書、接辞訳変更情報テーブルは、例えば、本体と分離可能な磁気テープやカセットテープ等のテープ系、フロッピーディスクやハードディスク等の磁気ディスクやCD−ROM/MO/MD/DVD等の光ディスクのディスク系、ICカード(メモリカードも含む)/光カード等のカード系、あるいはマスクROM、EPROM、EEPROM、フラッシュROM等による半導体メモリを含めた固定的にプログラムを担持する記憶媒体で構成してもよい。
入力部は、例えば、キーボード、マウス、ペン・タブレット等の入力装置、通信装置、記憶媒体読取装置などで構成してもよい。
変換部、認識部、派生語訳生成部、接辞決定部は、例えば、CPU、ROM、RAM、I/Oポートからなるコンピュータで構成してもよい。
変換部、認識部、派生語訳生成部、接辞決定部は、形態素解析部、構文解析部、構文変換部、派生語処理部、ターゲット言語生成部として機能する。
【0012】
なお、本発明において、接辞は、接頭語、接尾語のことをいう。また、語基は、その派生語の基本的な意味をもつ単語であり、派生語は、「接頭語+語基」、「語基+接尾語」、「接頭語+語基+接尾語」の形の単語をいう。
前記接辞処理条件が、接辞の長さ情報であってもよいし、語基の動詞の変化形情報であってもよいし、語基の品詞情報であってもよい。これらの情報を組み合わせてもよい。また、前記接辞処理条件が、接辞と語基間のハイフン情報であってもよい。
【0013】
前記認識部が一つの接辞に対して複数の語基がある派生語を認識した際、言語的特性情報から付与された動詞の変化形情報に基づいて一つの語基を決定する語基決定部をさらに備え、前記派生語訳生成部は、語基決定部によって決定された語基とこれに対応する接辞とからなる派生語の訳語を生成する構成にしてもよい。
なお、この構成において、語基決定部は、CPUで構成してもよい。
この構成によれば、ソース言語の言語的特性情報から付与された動詞の変化形情報に基づいて派生語の語基を決定するよう構成したことにより、派生語に対して接辞が一意に定まっているがこれに連結し得る語基が複数通り存在する場合でも、その中から最適の語基が決定されるので、派生語の派生語を形態素解析がより正確に行える。
【0014】
前記接辞辞書は、語基の品詞とその活用形に対応して接辞の訳語を変更するための接辞訳変更情報を記憶した接辞訳変更情報テーブルをさらに備え、前記派生語訳生成部は、接辞訳変更情報に基づいて語基の訳語に対応して接辞の訳語を変更する構成にしてもよい。
なお、この構成において、接辞訳変更情報テーブルはROMで構成してもよい。
この構成によれば、派生語の訳語を生成する際、語基の訳語に対応して接辞の訳語を変更することができるので、派生語としてより自然な訳文を生成することができる。
【0015】
前記派生語訳生成部は、一度訳語を生成した派生語を既知語として処理する構成にしてもよい。
【0016】
以下、図に示す実施例に基づいて本発明を詳述する。なお、これによって本発明は限定されることはない。
【0017】
図1は本発明の一実施例である翻訳装置の構成を示すブロック図である。本実施例では、説明をわかりやすくするためにソース言語(原語)が英語であり、ターゲット言語(目的語)が日本語であるような機械翻訳装置を例にとり説明するが、ソース言語(原語)及びターゲット言語(目的語)はそれ以外の独語、仏語、スペイン語、蘭語、露語、中国語、などの言語を対象とした機械翻訳装置であってもよい。
図1において、1はコピュータのCPU(中央処理装置)からなる制御部を示し、制御部1は、プログラムメモリに記憶された制御プログラムにより各部を制御する。
【0018】
2はキーボード、マウス、ペン、タブレット、スキャナ、文字認識装置などの入力装置や、通信回線と接続されている通信装置、記憶媒体読取装置などからなる入力部を示し、入力部2は、翻訳言語の指定、原語の入力、翻訳開始の指示の他、通信、プログラムのインストールなどを行う。
【0019】
3はCRT(陰極線管)ディスプレイ、LCD(液晶ディスプレイ)、PD(プラズマディスプレイ)などからなる表示装置3aや、サーマルプリンタ、レーザプリンタなどからなる印字装置、または通信回線と接続されている通信装置3cで構成される出力部を示し、出力部3は、入力部2による入力結果、制御部1の制御により翻訳結果を表示装置3aに表示したり、印字装置3bを介して印字したり、通信装置3cを介して送信する。
4はバスラインを示し、制御プログラムデータ及びアドレスデータが転送される。
【0020】
5はマスクROM、EPROM、EEPROM、フラッシュROM等による半導体メモリ、あるいは磁気テープやカセットテープ等のテープ系、フロッピーディスクやハードディスク等の磁気ディスクやCD−ROM/MO/MD/DVD等の光ディスクのディスク系、ICカード(メモリカードも含む)/光カード等のカード系などを含めた記憶媒体からなるプログラムメモリを示し、プログラムメモリ5は、形態素解析部5a、構文解析部5b、構文変換部5c、ターゲット言語生成部5d、派生語処理部5e、接辞決定部5f、語基決定部5g、派生語訳生成部5hとして機能する各制御プログラムを記憶している。
【0021】
特に、形態素解析部5a、構文解析部5b、構文変換部5c、ターゲット言語生成部5dは、入力された第1言語の原語を第2言語である訳語(ターゲット言語)に変換する変換部として機能する。
制御部1の制御動作に応じてプログラムメモリ5から制御プログラムを読み出して各部を制御することにより本発明の翻訳装置を実現する。
【0022】
6はマスクROM、EPROM、EEPROM、フラッシュROM等による半導体メモリ、あるいは磁気テープやカセットテープ等のテープ系、フロッピーディスクやハードディスク等の磁気ディスクやCD−ROM/MO/MD/DVD等の光ディスクのディスク系、ICカード(メモリカードも含む)/光カード等のカード系などを含めた記憶媒体からなるテーブルメモリを示し、テーブルメモリ6は、第1言語に対応する第2言語を記憶した単語辞書テーブル6a、言語的特性情報から付与された文法規則を記憶した文法規則テーブル6b、翻訳規則を記憶した翻訳規則テーブル6c、言語的特性情報から付与された動詞の規則変化形情報を記憶した動詞規則変化形テーブル6d、言語的特性情報から付与された接辞処理条件や語基の品詞とその活用形に対応して接辞の訳語を変更するための接辞訳変更情報を記憶した接辞テーブル(接頭辞テーブル、接尾辞テーブル、接頭辞処理パターンテーブル、接尾辞処理パターンテーブル)6eとして機能する各テーブルを記憶している。
【0023】
また、接辞処理条件として、接辞の長さ情報、語基の動詞の変化形情報、語基の品詞情報、接辞と語基間のハイフン情報であってもよい。
【0024】
7はマスクRAM、EEPROM、フラッシュROM等による半導体メモリ、あるいは磁気テープやカセットテープ等のテープ系、フロッピーディスクやハードディスク等の磁気ディスクやMO/MD/DVD等の光ディスクのディスク系、ICカード(メモリカードも含む)/光カード等のカード系などを含めた記憶媒体からなるバッファメモリを示し、バッファメモリ7は、原文バッファ7a、辞書検索バッファ7b、変換前構文バッファ7c、変換後構文バッファ7d、訳文バッファ7e、マッチ接頭辞バッファ7f、マッチ接尾辞バッファ7g、語基バッファ7h、語基用辞書検索バッファ7iとして機能する領域に備えている。
制御部1は、翻訳処理、派生語処理の進行に応じて処理したデータを各バッファに記憶する。一度訳語が生成された派生語を、既知語として処理する。
【0025】
8はマスクROM、EPROM、EEPROM、フラッシュROM等による半導体メモリ、あるいは磁気テープやカセットテープ等のテープ系、フロッピーディスクやハードディスク等の磁気ディスクやCD−ROM/MO/MD/DVD等の光ディスクのディスク系、ICカード(メモリカードも含む)/光カード等のカード系などを含めた本体と分離可能なメディアで構成した固定的にプログラムを担持する記憶媒体を示し、記憶媒体8に本発明の機械翻訳プログラムを記憶し、入力部2の記憶媒体読取装置によりバッファメモリ7の予備領域に翻訳プログラムをインストールすることにより本発明の翻訳機能を実現してもよい。
また、この記憶媒体は、本翻訳装置がインターネットを含めた外部の通信ネットワークとの接続が可能な通信装置を備えている場合には、その通信装置を介して通信ネットワークからプログラムをダウンロードするように流動的にプログラムを担持する媒体であってもよい。尚、このように通信ネットワークからプログラムをダウンロードする場合には、そのダウンロード用プログラムは予め本体装置に格納しておくか、あるいは別な記録媒体からインストールされるものであってもよい。尚、記録媒体に格納されている内容としてはプログラムに限定されず、データであってもよい。
【0026】
本発明の別の観点によれば、単語辞書6と、接辞辞書6と、第1言語である原語を入力する入力部2とを備えた翻訳装置にコンピュータで読み取り可能な翻訳プログラムを記憶した記憶媒体を用いることにより、コピュータ1に、単語辞書6を参照させ、入力原語を第2言語である訳語に変換させ、単語辞書及び接辞辞書を参照させ、訳語に変換されない入力原語から接辞と語基とからなる派生語を認識させ、認識された派生語の接辞に対応した訳語と語基に対応した訳語を連結して一つの派生語の訳語を生成させ、複数の接辞が含まれる派生語が認識された際、言語的特性情報から付与された接辞処理条件に基づいて一つの接辞を決定させ、決定された接辞とこれに対応する語基とからなる派生語の訳語を生成させることができる。
【0027】
図2は図1の翻訳装置による各翻訳処理の手順を示すブロック図である。図2に示すように、機械翻訳処理方法の1つとして、構文トランスファー方式がある。この方式は、入力されたソース言語の原文に対して、S1で、辞書検索・形態素解析を行い、S2で、構文解析を行い、各解析を進めて、ソース言語の構文構造を得て、S3で、これをターゲット言語の構文構造木に変換し、S4で、各解析結果から、訳語を選択し、S5で、ターゲット言語を生成する方式である。
【0028】
ここで、図2に示すS1、S2の各処理について説明する。
S1の[辞書検索・形態素解析]
形態素解析部5aは、単語辞書テーブル6a、文法規則テーブル6b、翻訳規則テーブル6cを用いて、入力された原文から単語を検索し、入力された原文を各形態素列(単語列)に分割し、この各単語に対する品詞などの文法情報および訳語を得て、さらに、動詞規則変化形テーブル6dを用いて、時制・人称・数などを解析する。
【0029】
S2の[構文解析]
構文解析部5bは、文法規則テーブル6bを用いて、形態素解析された単語間の係り受けなどの文章の構造を解析し、構造解析木を決定する。
【0030】
図3は本実施例の翻訳処理(1)の手順を示すフローチャートである。図3を用いて、図2に示すS1の辞書検索・形態素解析処理の手順を説明する。
S11で、原文が原文バッファ7aに入力されると、まず、単語ごとに分割が行われ、全文単語数が求められる。辞書検索の動作に移り、単語位置変数であるnに1がセットされる。
S12で、n番目の単語の辞書検索が試みられてからいずれかの処理経路を通ってS19の処理に至り、nが全文単語数に達していなければ、S20で、nを1増加し、S12の処理に至るという動作が繰り返し行われる。
【0031】
S12で、n番目の単語を辞書検索を行って、辞書検索が成功した場合は、S14で、辞書データの単語を辞書検索バッファ7bに格納し、S19の処理に至る。
また、S12で、n番目の単語を辞書検索を行って、辞書検索が失敗し、既知語が検索できなかった場合は、S15で、n番目の単語の派生語処理を行う。
【0032】
この派生語処理に成功した場合は、S17で、派生語に関する情報を辞書検索バッファ7bに格納し、S19の処理に至る。
S15で、派生語処理に失敗した場合は、S18で、n番目の単語を未知語として扱い辞書検索バッファ7bに格納する。
S19で、nが全文単語数に達していたら、辞書検索・形態素解析処理を終了し、図2に示すS2の構文解析処理に移る。
【0033】
[実施例1]
実施例1では、例えば、“exportable”、“uncleared ”、“nonradioactive”という3種類の英単語(ソース言語)の派生語処理の手順について説明する。
ここでは、ソース言語の特質を考慮して適切な接辞を選ぶ例(その1)として接辞の長さに関して、英単語“exportable”の派生語処理を行う。
【0034】
図4は本実施例の翻訳処理(2)の手順を示すフローチャートである。また、図4は、図3のS15の「n番目の単語の派生語処理」を詳細に示したものであり、入力単語1個あたりの派生語処理の動作手順を示す。
S101で、語基バッファ7hがクリアされる。次に、S102に進み、接頭辞マッチング処理が行われる。
S101とS102の処理間で、接頭辞にハイフンが付いているか否かを判定するS201の処理を設定してもよい。接頭辞にハイフンが付いている場合は、接頭辞が決定されたものと見なし、S109の接頭辞処理に進む。接頭辞にハイフンが付いていない場合は、S102の処理に進む。
【0035】
図5は本実施例の翻訳処理(3)の手順を示すフローチャートである。また、図5は図4のS101の「接頭辞マッチング処理」を詳細に示したものである。図5において、
S301で、接頭辞テーブルのポインタ変数npに1がセットされる。
S302で、マッチ接頭辞バッファ7fがクリアされる。
S303で、接頭辞テーブルのnp番目のレコードの接頭辞とのマッチングが試みられてから、いずれかの処理経路を通ってS307の処理に至り、npが接頭辞テーブルの終端に達していなければ、S308で、npを1増加し、S303の処理に至るという動作が繰り返し行われる。
【0036】
単語“exportable”の場合、図11に示す接頭辞テーブルを参照して、ID(レコード番号)が1の接頭辞“ex”とマッチするので、npが1のときに、S303からS304に進み、IDの1番目の接頭辞“ex”がマッチ接頭辞バッファ7fにセットされる。
S305で、入力語“exportable”が接頭辞“ex”のついた派生語であるとした場合の語基を求め、その結果、“portable”という文字列が語基バッファ7hにセットされる。
【0037】
S306で、接頭辞と語基とを関連づけるため、マッチ接頭辞バッファ7fの1番目のレコードの「語基ポインタ」欄に、語基バッファ7hのうち“portable”が格納されているレコードの番号である“1”を格納する。この結果、マッチ接尾辞バッファ7fは、図17に示すような記憶内容になる。
入力語“exportable”に対して図11の接頭辞テーブル中の接頭辞でマッチするものは上記の“ex”だけなので、図5の接頭辞マッチング処理は終わり、図4に示す処理に戻り、S102からS103の処理に進み、接尾辞マッチング処理が行われる。
S102とS103の処理間で、接尾辞にハイフンが付いているか否かを判定するS202の処理を設定してもよい。接尾辞にハイフンが付いている場合は、接尾辞が決定されたものと見なし、S107の接尾辞処理に進む。接尾辞にハイフンが付いていない場合は、S103の処理に進む。
【0038】
図6は本実施例の翻訳処理(4)の手順を示すフローチャートである。また、図6は図4のS103の「接尾辞マッチング処理」を詳細に示したものである。図6において、
S401で、接尾辞テーブルポインタ変数nsに1がセットされ、次に、S402に進み、マッチ接尾辞バッファ7gがクリアされる。
S403で、接尾辞テーブルのns番目のレコードの接尾辞とのマッチングが試みられてから、いずれかの経路を通ってS407に至り、nsが接尾辞テーブルの終端に達していなければ、S408でnsを1増加し、S403の処理に至るという動作が繰り返し行われる。
【0039】
単語“exportable”の場合、図12の接尾辞テーブルを参照して、ID( レコード番号) が1の接尾辞“able”とマッチするので、nsが1のときに、S403からS404に進み、IDの1番目の接尾辞“able”がマッチ接頭辞バッファ7gにセットされる。
【0040】
S405で、入力語“exportable”が接尾辞“able”のついた派生語であるとした場合の語基を、IDの1番目の接尾辞“able”の「連結条件」欄を参照して求め、その結果、“exportable”から接尾辞“able”を単純に除去した“export”という文字列と、「連結条件」に従って語基の末尾の“e ”が除去された可能性があると見なして、末尾に“e ”を補った“exporte ”いう文字列とが、語基バッファ7hにセットされる。
【0041】
S406で、接尾辞と語基とを関連づけるため、マッチ接尾辞バッファ7gの1番目のレコードの「語基ポインタ」欄に、語基バッファ7hのうち“export”および“exporte ”が格納されているレコードの番号である“2”と“3”を格納する。
この結果、マッチ接尾辞バッファ7gは、図18に示すような記憶内容になる。そして、語基バッファ7hは、図19に示すような記憶内容になる。
【0042】
入力語“exportable”に対して、図12の接尾辞テーブル中の接尾辞でマッチするものは上記の“able”だけなので、図6の接尾辞マッチング処理は終わり、図4の処理に戻り、S103からS104の処理に進む。
【0043】
図4の処理において、接頭辞・接尾辞それぞれマッチング候補が存在するかが判定される。
S104で、接頭辞が判定される。上記したように、S102の処理結果、図17に示すように、マッチ接頭辞バッファに接頭辞“ex”が格納されたので、接頭辞は存在し、S105の処理に進む。
S105で、接尾辞が判定される。上記したように、S103の処理の結果、図18に示すように、マッチ接尾辞バッファに接尾辞“able”が格納されたので、接尾辞は存在し、S111に進む。
【0044】
この時点で、入力単語に対しては、接頭辞・接尾辞ともマッチするものが存在しており、そのどちらを処理するかが以下の処理で決定される。
S111で、言語的特性に基づいた判定の一つとして、マッチ接尾辞バッファ7gに格納されている接尾辞が動詞の規則変化形と同じかどうかが、図16の規則変化形テーブルを参照して判定される。
この場合、接尾辞“able”は、図16の規則変化形のいずれとも一致しないので、S111からS112の処理に進む。
【0045】
S112で、言語的特性に基づいた判定の一つとして、マッチした接頭辞とマッチした接尾辞の長さの比較が行われる。ここで、接頭辞と接尾辞の長さが同じか、接尾辞の方が長いと、S117に進み、接尾辞処理が行われる。
一方、接頭辞の方が長いと、S113に進み、接頭辞処理が行われる。この場合、接頭辞“ex”より接尾辞“able”の方が長いので、S117に進む。
【0046】
図8は本実施例の翻訳処理(6)の動作手順を示すフローチャートである。また、図8は図4のS107・S115・S117の「接尾辞処理」を詳細に示したものである。図8において、
S601で、マッチ接尾辞バッファポインタ変数msに1がセットされる。
S602で、語基用辞書検索バッファ7iがクリアされる。
S603で、マッチ接尾辞バッファの1番目の接尾辞である“able”に対応する語基バッファの語基である“export”と“exporte ”をそれぞれキーとして辞書検索される。
【0047】
この結果、図15のような辞書データのもとでは、“export”では辞書検索が成功するが“exporte ”では辞書検索は失敗し、語基用辞書検索バッファ7iには“export”の辞書検索結果が図20に示すように格納される。
“export”に関して辞書検索が成功したので、S605に進み、言語的特性に基づいた判定の一つとして、検索した単語の品詞が調べられる。
【0048】
この場合、検索された単語に否定詞も前置詞も代名詞も存在しないので、語基用辞書検索バッファ7iから消去されるデータはなく、S610に進む。
そして、派生語“exportable”に対する派生語訳生成が行われるが、この詳細な動作手順については実施例3で詳述する。
この結果、辞書検索バッファ7bには、入力語“exportable”に対して、既知語“export”と接尾辞“able”からなる派生語としての情報が、図21に示すように格納される。
【0049】
本実施例のように、入力単語に対して、接頭辞・接尾辞ともマッチするものが存在している場合に、接辞の長さ等の言語的特性に基づいた判定を行った結果、入力語“exportable”を、接頭辞“ex”と既知語“portable”からなると見なすような不適切な判定を防止することができる。
【0050】
ここでは、ソース言語の特質を考慮して適切な接辞を選ぶ例(その2)として、動詞の規則変化形等に関して、単語“uncleared ”の派生語処理を行う。
図4において、
S101で、語基バッファ7hがクリアされる。
S102で、接頭辞マッチング処理、S103で、接尾辞マッチング処理が行われる。各マッチング処理の詳細な動作は、単語“exportable”の場合と同様であるのでここでは割愛する。
【0051】
この結果、図22に示すように、マッチ接頭辞バッファ7fには接頭辞“un”が格納されており、図23に示すように、マッチ接尾辞バッファ7gには接尾辞“ed”が格納されている。そして図24に示すように、語基バッファ7hには接頭辞“un”に対応する語基“cleared ”と、接尾辞“ed”に対応する語基“unclear ”とが格納されている。
【0052】
このように、入力単語“uncleared ”に対しては、接頭辞・接尾辞ともマッチするものが存在しているので、単語“exportable”の場合と同様に、S103→S104→S105→S111の処理に進む。
【0053】
S111で、言語的特性に基づいた判定の一つとして、マッチ接尾辞バッファ7gに格納されている接尾辞が動詞の規則変化形と同じかどうかが、図16の規則変化形テーブルを参照して判定される。
このような判定を行うのは、動詞の規則変化形と同じ末尾に付いた単語が、接尾辞つき単語としてでなく、動詞の変化形として処理できるなら、その方が一般に望ましい場合が多いからである。 この場合、接尾辞“ed”は、図16に示す動作の規則変化形の1つと一致するので、S111からS113の処理に進み、接頭辞処理が行われる。
【0054】
図7は本実施例の翻訳処理(5)の手順を示すフローチャートである。また、図7は図4のS109・S113・S119の「接頭辞処理」を詳細に示したものである。図7において、
S501で、マッチ接尾辞バッファポインタ変数mpに1がセットされる。
S502で、語基用辞書検索バッファ7iがクリアされる。
S503で、マッチ接尾辞バッファの1番目の接尾辞である“un”に対応する語基バッファの語基である“cleared ”をキーとして辞書検索される。
【0055】
この結果、図15のような単語辞書テーブルの単語データでは、“clear ”の過去形または過去分詞形として辞書検索が成功し、語基用辞書検索バッファ7iには“cleared ”の辞書検索結果が図25に示すように格納される。
“cleared ”に関して辞書検索が成功したのでS505に進み、検索された単語の品詞が調べられる。この場合、検索された単語に否定詞も前置詞も代名詞も存在しないので、語基用辞書検索バッファから消去されるデータはなく、S510に進む。そして、派生語“uncleared ”に対する派生語訳生成が行われる。
この結果、辞書検索バッファ7bには、入力語“uncleared ”に対して、接頭辞“un”と既知語“cleared ”とからなる派生語としての情報が、図26に示すように格納される。
【0056】
以上のように、入力単語に対して、接頭辞・接尾辞ともマッチするものが存在している場合に、もし接辞の長さだけで判定した場合は、入力語“uncleared ”を既知語“unclear ”と接尾辞“ed”からなると見なし、その結果訳語が、例えば「はっきりしなくされた」のような訳になるところを、本実施例のように、接辞の長さによる判定に動詞の規則変化形を加えた接辞を優先する等の言語的特性に基づいた判定を行った結果、不適切な判定を防止することができる。
【0057】
なお、ソース言語の特質の考慮として、上記実施例では「接辞の長さ」、「動詞の規則変化形」を利用したが、本発明により利用できるソース言語の特質はこれらに限られるものではない。
【0058】
上記のように、本実施例による派生語処理部は、入力単語に対して接頭辞・接尾辞ともマッチするものが存在している場合に、言語的特性に基づいて適切な接辞を選択する機能を有しているが、このように選択された接辞が必ずしも正しくない場合があるので、その場合の動作について説明する。
【0059】
次に、処理失敗後のバックアップ処理により成功する例について説明する。
ここでは、単語“nonradioactive”の派生語処理を説明する。図4において、
S101で、語基バッファ7hがクリアされる。
S102で、接頭辞マッチング処理が行われる。
S103で、接尾辞マッチング処理が行われる。
各マッチング処理の詳細な動作は、前記の単語“exportable”の場合と同様であるのでここでは割愛する。
【0060】
この結果、図27に示すように、マッチ接頭辞バッファ7fには接頭辞“non ”が格納されており、図28に示すように、マッチ接尾辞バッファ7gには接尾辞“ive ”が格納されている。そして、図29に示すように、語基バッファには接頭辞“non ”に対応する語基“radioactive ”と、接尾辞“ive ”に対応する語基“nonradioact ”とが格納されている。
このように、入力単語“nonradioactive”に対しては、接頭辞・接尾辞ともマッチするものが存在しているので、単語“exportable”の場合と同様に、図4のS103→S104→S105→S111の処理に進む。
【0061】
S111で、マッチ接尾辞バッファ7gに格納されている接尾辞が動詞の規則変化形と同じかどうかが判定される。この場合、接尾辞“ive ”は図16の規則変化形のいずれとも一致しないので、S111からS112に進む。
S112で、マッチした接頭辞とマッチした接尾辞の長さの比較が行われる。この場合、接頭辞“non ”と接尾辞“ive ”の長さが同じなので、S117の処理に進む。
【0062】
図8の処理に移り、S601で、マッチ接尾辞バッファのポインタ変数msに1がセットされ、S602で、語基用辞書検索バッファ7iがクリアされる。
次に、S603に進み、マッチ接尾辞バッファの1番目の接尾辞である“ive ”に対応する語基バッファの語基である“nonradioact ”をキーとして辞書検索される。
【0063】
この結果、図15のような単語辞書テーブルの単語データのもとでは、“nonradioact ”では、図30のように未知語しか存在せず、辞書検索が失敗するので、S608に進むが、図28に示すように、マッチ接尾辞バッファ7gの2番目のレコードは空であるので、接尾辞処理は失敗に終わる。
接尾辞処理が失敗したので、図4の処理に戻り、S117→S118→S119の処理に進み、今度は接頭辞処理が行われる。
【0064】
図7の処理に移り、S501で、マッチ接頭辞バッファのポインタ変数mpに1がセットされ、S502で、語基用辞書検索バッファ7iがクリアされる。
S503に進み、マッチ接頭辞バッファの1番目の接尾辞である“non ”に対応する語基バッファの語基である“radioactive ”をキーとして辞書検索される。
この結果、図15のような単語辞書テーブルの辞書データのもとでは、辞書検索が成功し、語基用辞書検索バッファ7iには“radioactive ”の辞書検索結果が、図31に示すように格納される。
【0065】
単語“radioactive ”に関して辞書検索が成功したので、S505に進み、検索された単語の品詞が調べられる。この場合、検索された単語に否定詞も前置詞も代名詞も存在しないので、語基用辞書検索バッファから消去されるデータはなく、S510に進み、派生語“nonradioactive”に対する派生語訳生成が行われる。
【0066】
この結果、辞書検索バッファ7bには、入力語“nonradioactive”に対して、接頭辞“non ”と既知語“radioactive ”とからなる派生語としての情報が、図32に示すように格納される。
以上のように、本実施例の派生語処理部では、最初に選択した接辞が誤っていた場合でも、適切な回復処理を行うことができる。
【0067】
実施例1によれば、原文中の未知語を形態素解析する際に、ソース言語の言語的特性情報に基づいて接辞を決定するよう構成したことにより、原文中の未知語に対して接辞と語基の組み合わせが複数通り存在する場合でも、その中から最適である可能性が高い接辞と語基の組み合わせを選択し、原文の解析がより正確に行えるという利点がある。
【0068】
[実施例2]
実施例2として、単語“noter ”の派生語処理を例にとり、本発明の特徴を説明する。
図4において、S101で、語基バッファ7hがクリアされる。S102で、接頭辞マッチング処理が行われる。
次に、図5の処理に移り、S301で、接頭辞テーブルのポインタ変数npに1がセットされ、S302で、マッチ接頭辞バッファ7fがクリアされる。以下、前記したように、npを1ずつ増加しながら動作が繰り返し行われる。
【0069】
単語“noter ”の場合、図11に示す接頭辞テーブルを参照して、マッチする接頭辞が存在しない。よって、マッチ接頭辞バッファ7fには情報がセットされずに、npが接頭辞テーブルの終端に達した際に、図5の接頭辞マッチング処理は終わり、図4の処理に戻り、S102からS103に進み、接尾辞マッチング処理が行われる。
【0070】
図6の処理に移り、S401で、接尾辞テーブルのポインタ変数nsに1がセットされ、S502でマッチ接尾辞バッファ7gがクリアされる。以下、前記したように、nsを1ずつ増加しながら動作が繰り返し行われる。
単語“noter ”の場合、図12に示す接尾辞テーブルを参照して、ID(レコード番号)が4の接尾辞“er”とマッチするので、nsが4のときに、S403からS404に進み、図12の4番目の接尾辞“er”がマッチ接頭辞バッファ7gにセットされる。
【0071】
S405で、入力語“noter ”が接尾辞“er”のついた派生語であるとした場合の語基を、図12の4番目の接尾辞“er”の「連結条件」欄を参照して求め、その結果、“noter ”から接尾辞“er”を単純に除去した“not ”という文字列と、「連結条件」に従って語基の末尾の“e ”が除去された可能性があると見なして、末尾に“e ”を補った“note”いう文字列とが、語基バッファ7hにセットされる。
【0072】
S406で、接尾辞と語基とを関連づけるため、マッチ接尾辞バッファ7gの1番目のレコードの「語基ポインタ」欄に、語基バッファ7hのうち“not ”および“note”が格納されているレコードの番号である“1”と“2”を格納する。この結果、マッチ接尾辞バッファ7gは、図33に示すような記憶内容になる。そして語基バッファ7hは、図34に示すような記憶内容になる。
【0073】
入力語“noter ”に対して図12の接尾辞テーブル中の接尾辞でマッチするものは上記の“er”だけなので、図6の接尾辞マッチング処理は終わり、図4に戻り、S103からS104の処理に進む。
次に、接頭辞・接尾辞それぞれマッチング候補が存在するかが判定される。この場合、入力単語“noter ”に対しては、マッチする接頭辞は存在せず、マッチする接尾辞のみ存在するので、図4のS103→S104→S106→S107の処理に進む。
【0074】
図8の処理に移り、S601で、マッチ接尾辞バッファのポインタ変数msに1がセットされ、602で、語基用辞書検索バッファ7iがクリアされる。
S603に進み、マッチ接尾辞バッファの1番目の接尾辞である“er”に対応する語基バッファの語基である“not ”と“note”をそれぞれキーとして辞書検索される。
この結果、図15のような単語辞書テーブルの辞書データのもとでは“not ”、“note”共に辞書検索が成功し、語基用辞書検索バッファ7iに“not ”と“note”の辞書検索結果が図35に示すように格納される。
【0075】
辞書検索が成功したので、S605に進み、言語的特性に基づいた判定の一つとして、索いた単語の品詞が調べられる。この場合、“not ”は品詞が否定詞なので、S606に進み、“not ”に関する情報が語基用辞書検索バッファから消去され、その結果、図36に示すように、語基用辞書検索バッファ7iは“note”に関する情報のみが残る。
そして、S607に進み、語基用辞書検索バッファ7iには情報が残っているので、S610に進み、派生語“noter ”に対する派生語訳生成が行われる。
【0076】
この結果、辞書検索バッファ7bには、入力語“noter ”に対して、既知語“note”と接尾辞“er”とからなる派生語としての情報が、図37に示すように格納される。
以上のように、入力単語に対して、同一の接辞にマッチする語基が複数存在している場合に、本実施例のように、品詞等の言語的特性に基づいた判定を行った結果、入力語“noter ”を、既知語“not ”と接尾辞“er”からなると見なすような不適切な判定を防止することができる。
【0077】
実施例2によれば、原文中の未知語を形態素解析する際に、ソース言語の言語的特性情報に基づいて語基を決定するように構成したことにより、原文中の未知語に対して接辞が一意に定まっているが、これに連結し得る語基が複数通り存在する場合でも、その中から最適である可能性が高い語基を選択し、原文の解析がより正確に行えるという利点がある。
【0078】
[実施例3]
実施例3として、接頭辞処理について“nonradioactive”、“nonremunerative ”という2個の英単語、接尾辞処理について“amiableness ”、“abidingness ”という2個の英単語の派生語訳生成処理を例にとり、本発明の特徴を説明する。
【0079】
[接頭辞処理]
ここでは、単語“nonradioactive”の派生語訳生成処理を説明する。
この単語については、前記したように、図4において、S101→S102→S103→S104→S105→S111→S112→S117→S118→S119の処理へと進み、接頭辞“non ”と既知語“radioactive ”からなる派生語としての処理が行われる。
次に、図7の処理に移り、S501→S502→S503→S504→S505→S510の処理へと進んで、接頭辞つき派生語訳語生成処理に移る。
このとき、語基用辞書検索バッファ7iは、図31のような記憶内容になる。
【0080】図9は本実施例の翻訳処理(7)の手順を示すフローチャートである。また、図9は図7のS510の「接頭辞つき派生語訳生成」を詳細に示したものである。図9において、
S701で、現在選ばれている接頭辞に関して接頭辞テーブルの「処理パターンテーブル」欄に値があるか否かがチェックされる。
この場合、選ばれている接頭辞が“non ”で、図11の接頭辞テーブルの“non ”の処理パターンテーブル欄には“101 ”という値が存在しているので、S702に進む。
【0081】
S702で、接頭辞処理パターンテーブルのポインタ変数ppに1がセットされる。この時点で、接頭辞処理パターンテーブルとして、図13に示す接頭辞処理パターン101のものが選ばれる。
S703で、接頭辞処理パターンテーブル101のpp番目のレコードの「条件」が語基用辞書検索バッファ7iの訳語欄の訳語「放射性の」と合致するかどうかの調査が試みられ、合致しなければ、S703→S704→S705→S703の処理へと進み、これが合致するか、あるいはppが接頭辞処理パターンテーブル101のレコード数に達するまで、ppを1ずつ増加しながら調査が繰り返して行われる。
【0082】
訳語「放射性の」の場合、図13の接頭辞処理パターンテーブル101を参照して、ID(レコード番号)が1の条件「名詞+“の”」とマッチするので、ppが1の時に、S703からS704に進み、図13のID1の処理「“非”+語基の訳語」という操作を、文字列「放射性の」に施し、その結果として生成された文字列「非放射性の」が、辞書検索バッファ7bの訳語欄に、図32のように格納される。
【0083】
次に、単語“nonremunerative ”の派生語訳生成処理を説明する。
この単語については、図11の接頭辞テーブルや図12の接尾辞テーブルを参照した結果、図4において、S101→S102→S103→S104→S105→S111→S112→S117→S118→S119の処理へと進み、接頭辞“non ”と既知語“remunerative”からなる派生語としての処理が行われる。次に、図7の処理に移り、S501→S502→S503→S504→S505→S510の処理へと進んで、接頭辞つき派生語訳生成処理に入る。このとき、語基用辞書検索バッファ7iは図38のような記憶内容になる。
【0084】
図9の処理に移り、この場合、選ばれている接頭辞が前記同様“non ”であるので、S701からS702→S703の処理に進み、接頭辞処理パターンテーブルとして、図13に示す接頭辞処理パターン101が選ばれ、語基用辞書検索バッファ7iの訳語欄の訳語「利益がある」が接頭辞処理パターンテーブル101のいずれのレコード順と合致するか調査していく、S703からの繰り返し動作に移る。
【0085】
訳語「利益がある」の場合、図13の接頭辞処理パターンテーブルを参照して、ID(レコード番号)が5の条件「格助詞+“ある”」とマッチするので、ppが5のときに、S703からS704の処理に進み、図13のID1の処理「“ある”を“ない”に置換」という操作を、文字列「利益がある」に施し、その結果として生成された文字列「利益がない」が、辞書検索バッファ7bの訳語欄に、図39のように格納される。
【0086】
以上のように、同じ接頭辞“non ”のついた派生語であっても、語基の訳語によって接頭辞部分を訳し分けることにより、より自然な訳語を得ることができる。
【0087】
[接尾辞処理]
単語“amiableness ”の派生語訳生成処理を説明する。
この単語については、図11の接頭辞テーブルや図12の接尾辞テーブルを参照した結果、図4において、S101→S102→S103→S104→S106→S109の処理へと進み、既知語“amiable ”と接尾辞“ness”からなる派生語としての処理が行われる。
次に、図8の処理に移り、S601→S602→S603→S604→S605→S610の処理へと進んで、接尾辞つき派生語訳語生成処理に移る。このとき、語基用辞書検索バッファ7iは、図40のような記憶内容になる。
【0088】
図10は本実施例の翻訳処理(8)の手順を示すフローチャートである。また、図10は図8のS610の「接尾辞つき派生語訳生成」、「接頭辞つき派生語訳生成」を詳細に示したものである。図10において、
S801で、現在選ばれている接尾辞に関して接尾辞テーブルの「処理パターンテーブル」欄に値があるかがチェックされる。この場合、選ばれている接頭辞が“ness”で、図12の接尾辞テーブルの“ness”の処理パターンテーブル欄には“203 ”という値が存在しているので、S802に進む。
【0089】
S802で、接尾辞処理パターンテーブルのポインタ変数psに1がセットされる。この時点で、接尾辞処理パターンテーブルとして、図14に示す接尾辞処理パターンテーブル203が選ばれる。
S803で、接尾辞処理パターンテーブル203のps番目のレコードの「条件」が語基用辞書検索バッファ7iの訳語欄の訳語「感じがよい」と合致するかどうかの調査が試みられ、合致しなければ、S803→S804→S805→S803の処理に進み、これが合致するか、あるいはpsが接尾辞処理パターンテーブル203のレコード数に達するまで、psを1ずつ増加しながら調査が繰り返して行われる。
【0090】
訳語「感じがよい」の場合、図14の処理パターンテーブルを参照して、ID(レコード番号)が1の条件「“{が|の}”+ 形容詞( “ない”以外) 」とマッチするので、psが1の時に、S803からS804の処理に進み、図14のID1の処理「“の”+形容詞の語幹+“さ”」という操作を、文字列「感じがよい」に施し、その結果として生成された文字列「感じのよさ」が、辞書検索バッファ7bの訳語欄に、図41のように格納される。
【0091】
次に、単語“nonremunerative ”の派生語訳語生成処理を説明する。
この単語については、図11の接頭辞テーブルや図12の接尾辞テーブルを参照した結果、図4において、S101→S102→S103→S104→S106→S109の処理へと進み、既知語“abiding ”と接尾辞“ness”からなる派生語としての処理が行われる。
次に、図8の処理に移り、S601→S602→S603→S604→S605→S610の処理へと進んで、接尾辞つき派生語訳語生成処理に移る。このとき、語基用辞書検索バッファ7iは図42のような記憶内容になる。
【0092】
図10の処理に移り、この場合、選ばれている接尾辞が前記同様“ness”であるので、S801からS802→S803の処理に進み、接尾辞処理パターンテーブルとして、図14に示す接尾辞処理パターンテーブル203が選ばれ、語基用辞書検索バッファ7iの訳語欄の訳語「永続的な」が、接尾辞処理パターンテーブル203のいずれのレコード順と合致するか調査していく、S803からの繰り返し動作に移る。
【0093】
訳語「永続的な」の場合、図14に示す接尾辞処理パターンテーブルを参照して、ID(レコード番号)が3の条件「“{的な|的}”」とマッチするので、psが3のときに、S803からS804の処理に進み、図14のID3の処理「“{的な|的}”を“性”に置換」という操作を、文字列「永続的な」に施し、その結果として生成された文字列「永続性」が、辞書検索バッファ7bの訳語欄に、図43のように格納される。
【0094】
以上のように、同じ接尾辞“ness”のついた派生語であっても、語基の訳語によって接尾辞部分の訳し方を訳し分けることにより、より自然な訳語を得ることができる。
【0095】
実施例3によれば、派生語として処理された原文中の未知語の訳語を生成する際に、語基の訳語によって接辞部分を訳し分ける派生語訳生成部を構成したことにより、語基の訳語と接辞の訳語を単純に連接した形の訳語以外の訳語を生成することが可能となり、ターゲット言語としてより自然な訳文を生成することができるという利点がある。
【0096】
【発明の効果】
本発明によれば、原文中の未知語を形態素解析する際に、ソース言語の言語的特性情報に基づいて接辞を決定するよう構成したことにより、原文中の未知語に対して接辞と語基の組み合わせが複数通り存在する場合でも、その中から最適である可能性が高い接辞と語基の組み合わせを選択し、原文の解析がより正確に行えるという利点がある。
【図面の簡単な説明】
【図1】本発明の一実施例である翻訳装置の構成を示すブロック図である。
【図2】本実施例の翻訳装置による各翻訳処理の手順を示すブロック図である。
【図3】本実施例の翻訳処理(1)の手順を示すフローチャートである。
【図4】本実施例の翻訳処理(2)の手順を示すフローチャートである。
【図5】本実施例の翻訳処理(3)の手順を示すフローチャートである。
【図6】本実施例の翻訳処理(4)の手順を示すフローチャートである。
【図7】本実施例の翻訳処理(5)の手順を示すフローチャートである。
【図8】本実施例の翻訳処理(6)の手順を示すフローチャートである。
【図9】本実施例の翻訳処理(7)の手順を示すフローチャートである。
【図10】本実施例の翻訳処理(8)の手順を示すフローチャートである。
【図11】本実施例の接頭辞テーブルの記憶内容を示す図である。
【図12】本実施例の接尾辞テーブルの記憶内容を示す図である。
【図13】本実施例の接頭辞処理パターンテーブルを示す図である。
【図14】本実施例の接尾辞処理パターンテーブルを示す図である。
【図15】本実施例の単語辞書テーブルの記憶内容を示す図である。
【図16】本実施例の動詞規則変化形テーブルの記憶内容を示す図である。
【図17】本実施例のマッチ接頭辞バッファの記憶内容(1)を示す図である。
【図18】本実施例のマッチ接尾辞バッファの記憶内容(1)を示す図である。
【図19】本実施例の語基バッファの記憶内容(1)を示す図である。
【図20】本実施例の語基用辞書検索バッファの記憶内容(1)を示す図である。
【図21】本実施例の辞書検索バッファの記憶内容(1)を示す図である。
【図22】本実施例のマッチ接頭辞バッファの記憶内容(2)を示す図である。
【図23】本実施例のマッチ接尾辞バッファの記憶内容(2)を示す図である。
【図24】本実施例の語基バッファの記憶内容(2)を示す図である。
【図25】本実施例の語基用辞書検索バッファの記憶内容(2)を示す図である。
【図26】本実施例の辞書検索バッファの記憶内容(2)を示す図である。
【図27】本実施例のマッチ接頭辞バッファの記憶内容(3)を示す図である。
【図28】本実施例のマッチ接尾辞バッファの記憶内容(3)を示す図である。
【図29】本実施例の語基バッファの記憶内容(3)を示す図である。
【図30】本実施例の語基用辞書検索バッファの記憶内容(3)を示す図である。
【図31】本実施例の辞書検索バッファの記憶内容(3)を示す図である。
【図32】本実施例の辞書検索バッファの記憶内容(4)を示す図である。
【図33】本実施例のマッチ接尾辞バッファの記憶内容(4)を示す図である。
【図34】本実施例の語基バッファの記憶内容(4)を示す図である。
【図35】本実施例の語基用辞書検索バッファの記憶内容(4)を示す図である。
【図36】本実施例の語基用辞書検索バッファの記憶内容(5)を示す図である。
【図37】本実施例の辞書検索バッファの記憶内容(5)を示す図である。
【図38】本実施例の語基用辞書検索バッファの記憶内容(6)を示す図である。
【図39】本実施例の辞書検索バッファの記憶内容(6)を示す図である。
【図40】本実施例の語基用辞書検索バッファの記憶内容(7)を示す図である。
【図41】本実施例の辞書検索バッファの記憶内容(7)を示す図である。
【図42】本実施例の語基用辞書検索バッファの記憶内容(8)を示す図である。
【図43】本実施例の辞書検索バッファの記憶内容(8)を示す図である。
【符号の説明】
1 制御部
2 入力部
3 出力部
4 バスライン
5 プログラムメモリ
5a 形態素解析部
5b 構文解析部
5c 構文変換部
5d ターゲット言語生成部
5e 派生語処理部
5f 接辞決定部
5g 語基決定部
5h 派生語訳生成部
6 テーブルメモリ
6a 単語辞書テーブル
6b 文法規則テーブル
6c 翻訳規則テーブル
6d 動詞規則変化形テーブル
6e 接辞テーブル(接頭辞テーブル、接尾辞テーブル、接頭辞処理パターンテーブル、接尾辞処理パターンテーブル、)
7 バッファメモリ
7a 原文バッファ
7b 辞書検索バッファ
7c 変換前構文バッファ
7d 変換後構文バッファ
7e 訳文バッファ
7f マッチ接頭辞バッファ
7g マッチ接尾辞バッファ
7h 語基バッファ
7i 語基用辞書検索バッファ
Claims (4)
- 単語辞書と、
接辞辞書と、
第1言語である原語を入力する入力部と、
単語辞書を参照し、入力原語を第2言語である訳語に変換する変換部と、
単語辞書及び接辞辞書を参照し、変換部によって訳語に変換されない入力原語から接辞と語基との組合せからなる1または複数個の派生語を認識する認識部と、
認識部が認識した派生語に、複数の接辞を含むものが存在する場合に、接頭語と接辞語との長さ情報を比較する接辞処理条件に基づいて一つの接辞を決定する接辞決定部と、
接辞決定部によって決定された接辞とこれに対応する語基のそれぞれの訳語を連結して前記認識された派生語の訳語を生成する派生語訳生成部とを備えたことを特徴とする翻訳装置。 - 前記接辞辞書は、語基の品詞とその活用形に対応して接辞の訳語を変更するための接辞訳変更情報を記憶した接辞訳変更情報テーブルをさらに備え、前記派生語訳生成部は、接辞訳変更情報に基づいて語基の訳語に対応して接辞の訳語を変更することを特徴とする請求項1に記載の翻訳装置。
- 単語辞書と、接辞辞書と、第1言語である原語を入力する入力部と、単語辞書を参照し、入力原語を第2言語である訳語に変換する変換部と、
認識部と、接辞決定部と、派生語訳生成部とを備え、
前記認識部が、単語辞書及び接辞辞書を参照し、変換部によって訳語に変換されない入力原語から接辞と語基との組合せからなる1または複数個の派生語を認識し、
認識部が認識した派生語に複数の接辞を含むものが存在する場合に、前記接辞決定部が接頭語と接辞語との長さ情報を比較する接辞処理条件に基づいて一つの接辞を決定し、
派生語訳生成部が、接辞決定部によって決定された接辞とこれに対応する語基のそれぞれの訳語を連結して前記認識された派生語の訳語を生成することを特徴とする翻訳方法。 - 単語辞書と、接辞辞書と、第1言語である原語を入力する入力部とを備えた翻訳装置に用いられ、コンピュータで読み取り可能な翻訳プログラムを記憶した媒体であって、前記コンピュータに、単語辞書を参照させ、入力原語を第2言語である訳語に変換させる機能と、
単語辞書及び接辞辞書を参照し、訳語に変換されない入力原語から接辞と語基との組合せからなる1または複数個の派生語を認識させる機能と、
認識された派生語に、複数の接辞を含むものが存在する場合に、接頭語と接辞語との長さ情報を比較する接辞処理条件に基づいて一つの接辞を決定させる機能と、
接辞決定部によって決定された接辞とこれに対応する語基のそれぞれの訳語を連結して前記認識された派生語の訳語を生成させる機能とを実現させるためのプログラムを記憶した記憶媒体。
Priority Applications (3)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
JP06544599A JP3539479B2 (ja) | 1999-03-11 | 1999-03-11 | 翻訳装置及び翻訳方法並びに翻訳プログラムを記録した記録媒体 |
EP00105009A EP1037153A3 (en) | 1999-03-11 | 2000-03-09 | Method and device for language translation |
US09/523,290 US6385569B1 (en) | 1999-03-11 | 2000-03-10 | Translator, translating method and recording medium having translating program recorded thereon |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
JP06544599A JP3539479B2 (ja) | 1999-03-11 | 1999-03-11 | 翻訳装置及び翻訳方法並びに翻訳プログラムを記録した記録媒体 |
Publications (2)
Publication Number | Publication Date |
---|---|
JP2000259635A JP2000259635A (ja) | 2000-09-22 |
JP3539479B2 true JP3539479B2 (ja) | 2004-07-07 |
Family
ID=13287353
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
JP06544599A Expired - Fee Related JP3539479B2 (ja) | 1999-03-11 | 1999-03-11 | 翻訳装置及び翻訳方法並びに翻訳プログラムを記録した記録媒体 |
Country Status (3)
Country | Link |
---|---|
US (1) | US6385569B1 (ja) |
EP (1) | EP1037153A3 (ja) |
JP (1) | JP3539479B2 (ja) |
Families Citing this family (10)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
US7107204B1 (en) * | 2000-04-24 | 2006-09-12 | Microsoft Corporation | Computer-aided writing system and method with cross-language writing wizard |
US7136808B2 (en) * | 2000-10-20 | 2006-11-14 | Microsoft Corporation | Detection and correction of errors in german grammatical case |
JPWO2003065245A1 (ja) * | 2002-01-29 | 2005-05-26 | インターナショナル・ビジネス・マシーンズ・コーポレーションInternational Business Maschines Corporation | 翻訳方法、翻訳文の出力方法、記憶媒体、プログラムおよびコンピュータ装置 |
ATE330287T1 (de) * | 2002-04-12 | 2006-07-15 | Targit As | Verfahren zur verarbeitung von mehrsprachigen abfragen |
US20050111651A1 (en) * | 2003-11-21 | 2005-05-26 | Armando Chavez | Script translation |
US7711719B1 (en) * | 2005-03-24 | 2010-05-04 | Palamida, Inc. | Massive multi-pattern searching |
US7565348B1 (en) * | 2005-03-24 | 2009-07-21 | Palamida, Inc. | Determining a document similarity metric |
US20070094024A1 (en) * | 2005-10-22 | 2007-04-26 | International Business Machines Corporation | System and method for improving text input in a shorthand-on-keyboard interface |
JP2014067179A (ja) * | 2012-09-25 | 2014-04-17 | Toshiba Corp | 文書処理装置及び文書処理プログラム |
CN113760821B (zh) * | 2020-06-22 | 2024-07-16 | 北京京东乾石科技有限公司 | 一种文件转换的方法及装置 |
Family Cites Families (16)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
JPS60159970A (ja) * | 1984-01-30 | 1985-08-21 | Hitachi Ltd | 情報蓄積検索方式 |
US5225981A (en) * | 1986-10-03 | 1993-07-06 | Ricoh Company, Ltd. | Language analyzer for morphemically and syntactically analyzing natural languages by using block analysis and composite morphemes |
JP2688020B2 (ja) | 1986-10-27 | 1997-12-08 | 株式会社リコー | 派生語処理方式 |
GB2199170A (en) * | 1986-11-28 | 1988-06-29 | Sharp Kk | Translation apparatus |
US4864503A (en) * | 1987-02-05 | 1989-09-05 | Toltran, Ltd. | Method of using a created international language as an intermediate pathway in translation between two national languages |
JPH01234975A (ja) * | 1988-03-11 | 1989-09-20 | Internatl Business Mach Corp <Ibm> | 日本語文章分割装置 |
JPH01265359A (ja) * | 1988-04-18 | 1989-10-23 | Fujitsu Ltd | 文章解析方式 |
JPH0344764A (ja) * | 1989-07-12 | 1991-02-26 | Sharp Corp | 機械翻訳装置 |
US5559693A (en) * | 1991-06-28 | 1996-09-24 | Digital Equipment Corporation | Method and apparatus for efficient morphological text analysis using a high-level language for compact specification of inflectional paradigms |
JPH05165805A (ja) * | 1991-12-12 | 1993-07-02 | Matsushita Electric Ind Co Ltd | かな漢字変換装置 |
JPH06295311A (ja) * | 1993-04-08 | 1994-10-21 | Ricoh Co Ltd | 機械翻訳装置 |
JPH08329081A (ja) * | 1995-05-30 | 1996-12-13 | Toshiba Corp | 機械翻訳方法及び機械翻訳装置 |
JP3161942B2 (ja) * | 1995-06-14 | 2001-04-25 | シャープ株式会社 | 訳振り機械翻訳装置 |
US5794177A (en) * | 1995-07-19 | 1998-08-11 | Inso Corporation | Method and apparatus for morphological analysis and generation of natural language text |
US5893133A (en) * | 1995-08-16 | 1999-04-06 | International Business Machines Corporation | Keyboard for a system and method for processing Chinese language text |
JP3136973B2 (ja) * | 1995-11-27 | 2001-02-19 | 石倉 博 | 言語解析システムおよび方法 |
-
1999
- 1999-03-11 JP JP06544599A patent/JP3539479B2/ja not_active Expired - Fee Related
-
2000
- 2000-03-09 EP EP00105009A patent/EP1037153A3/en not_active Ceased
- 2000-03-10 US US09/523,290 patent/US6385569B1/en not_active Expired - Lifetime
Also Published As
Publication number | Publication date |
---|---|
EP1037153A2 (en) | 2000-09-20 |
JP2000259635A (ja) | 2000-09-22 |
US6385569B1 (en) | 2002-05-07 |
EP1037153A3 (en) | 2002-03-27 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
JP4404211B2 (ja) | マルチリンガル翻訳メモリ、翻訳方法および翻訳プログラム | |
US5644774A (en) | Machine translation system having idiom processing function | |
Cowan et al. | A discriminative model for tree-to-tree translation | |
US20030125928A1 (en) | Method for retrieving similar sentence in translation aid system | |
JP2008276517A (ja) | 訳文評価装置、訳文評価方法およびプログラム | |
JP3539479B2 (ja) | 翻訳装置及び翻訳方法並びに翻訳プログラムを記録した記録媒体 | |
US20050091033A1 (en) | System and method for performing analysis on word variants | |
Ganfure et al. | Design and implementation of morphology based spell checker | |
Neme | A lexicon of Arabic verbs constructed on the basis of Semitic taxonomy and using finite-state transducers | |
JP2007518164A (ja) | 自動翻訳装置及びその自動翻訳装置を利用した自動翻訳方法並びにその自動翻訳装置が記録された記録媒体 | |
JPH0519186B2 (ja) | ||
US8041556B2 (en) | Chinese to english translation tool | |
Sankaravelayuthan et al. | A Comprehensive Study of Shallow Parsing and Machine Translation in Malaylam | |
Bak et al. | Kakao enterprise’s WMT21 machine translation using terminologies task submission | |
JPS59140582A (ja) | 自然言語翻訳援助方式 | |
KR100420474B1 (ko) | 부분문틀을 이용한 장문 번역 장치 및 그 방법 | |
KR100322743B1 (ko) | 음성합성기의 문서해석기에서 사용되는 형태소 해석방법 및 그 장치 | |
Neme | A fully inflected Arabic verb resource constructed from a lexicon of lemmas by using finite-state transducers | |
JP2006127405A (ja) | バイリンガルパラレルテキストをアライメントする方法及びそのためのコンピュータで実行可能なプログラム | |
Rachel et al. | Vyakranly: Hindi Grammar & Spelling Errors Detection and Correction System | |
Kitamura et al. | Practical machine translation system allowing complex patterns | |
Elsheikh | Timeline of the development of Arabic PoS taggers and Morphological analysers | |
JP2003058536A (ja) | 翻訳装置 | |
JP3692711B2 (ja) | 機械翻訳装置 | |
Purev et al. | Language resources for Mongolian |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
A521 | Written amendment |
Free format text: JAPANESE INTERMEDIATE CODE: A523 Effective date: 20040105 |
|
A911 | Transfer to examiner for re-examination before appeal (zenchi) |
Free format text: JAPANESE INTERMEDIATE CODE: A911 Effective date: 20040212 |
|
TRDD | Decision of grant or rejection written | ||
A01 | Written decision to grant a patent or to grant a registration (utility model) |
Free format text: JAPANESE INTERMEDIATE CODE: A01 Effective date: 20040309 |
|
A61 | First payment of annual fees (during grant procedure) |
Free format text: JAPANESE INTERMEDIATE CODE: A61 Effective date: 20040316 |
|
R150 | Certificate of patent or registration of utility model |
Free format text: JAPANESE INTERMEDIATE CODE: R150 |
|
FPAY | Renewal fee payment (event date is renewal date of database) |
Free format text: PAYMENT UNTIL: 20080402 Year of fee payment: 4 |
|
FPAY | Renewal fee payment (event date is renewal date of database) |
Free format text: PAYMENT UNTIL: 20090402 Year of fee payment: 5 |
|
FPAY | Renewal fee payment (event date is renewal date of database) |
Free format text: PAYMENT UNTIL: 20100402 Year of fee payment: 6 |
|
FPAY | Renewal fee payment (event date is renewal date of database) |
Free format text: PAYMENT UNTIL: 20100402 Year of fee payment: 6 |
|
FPAY | Renewal fee payment (event date is renewal date of database) |
Free format text: PAYMENT UNTIL: 20110402 Year of fee payment: 7 |
|
FPAY | Renewal fee payment (event date is renewal date of database) |
Free format text: PAYMENT UNTIL: 20120402 Year of fee payment: 8 |
|
FPAY | Renewal fee payment (event date is renewal date of database) |
Free format text: PAYMENT UNTIL: 20120402 Year of fee payment: 8 |
|
FPAY | Renewal fee payment (event date is renewal date of database) |
Free format text: PAYMENT UNTIL: 20130402 Year of fee payment: 9 |
|
LAPS | Cancellation because of no payment of annual fees |