[go: up one dir, main page]

JP5148583B2 - 機械翻訳装置、方法及びプログラム - Google Patents

機械翻訳装置、方法及びプログラム Download PDF

Info

Publication number
JP5148583B2
JP5148583B2 JP2009246135A JP2009246135A JP5148583B2 JP 5148583 B2 JP5148583 B2 JP 5148583B2 JP 2009246135 A JP2009246135 A JP 2009246135A JP 2009246135 A JP2009246135 A JP 2009246135A JP 5148583 B2 JP5148583 B2 JP 5148583B2
Authority
JP
Japan
Prior art keywords
translation
translated
text
phrase
original
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Active
Application number
JP2009246135A
Other languages
English (en)
Other versions
JP2011095802A (ja
Inventor
遠航 蔡
裕美子 吉村
貴志 澁谷
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Toshiba Corp
Toshiba Digital Solutions Corp
Original Assignee
Toshiba Corp
Toshiba Solutions Corp
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Toshiba Corp, Toshiba Solutions Corp filed Critical Toshiba Corp
Priority to JP2009246135A priority Critical patent/JP5148583B2/ja
Publication of JP2011095802A publication Critical patent/JP2011095802A/ja
Application granted granted Critical
Publication of JP5148583B2 publication Critical patent/JP5148583B2/ja
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Landscapes

  • Machine Translation (AREA)

Description

本発明は、第1言語文と第2言語文との対訳からなる翻訳用例を用いて翻訳対象の第1言語の原文を第2言語の訳文に翻訳する機械翻訳装置、方法及びプログラムに関する。
コンピュータにより翻訳対象である第1言語の原文を第2言語の文に翻訳する機能を有した機械翻訳装置がある。このような機械翻訳装置においては、第1言語文と第2言語文との対訳からなる翻訳用例を予め翻訳用例データベースに複数蓄積しておき、入力された翻訳対象原文に類似する翻訳用例を検索して、翻訳対象原文とともに利用者に提示し、翻訳の支援を行う。翻訳用例原文は翻訳対象原文とは完全一致していないことが多いので、当該翻訳用例の訳文を無編集で当該翻訳対象原文に対応する訳文としてそのまま適用できるケースは限られており、通常は必要な編集を当該翻訳用例訳文に施した上で当該翻訳対象原文の訳文を得ることになる(例えば、特許文献1、特許文献2参照)。
このような翻訳用例を用いた翻訳では、ユーザが編集箇所の判断を行い、訳語の選択などの作業が必要となるため手間がかかる。そこで、上記編集を自動的に行う方法も提案されている。この場合、翻訳対象原文と検索された翻訳用例原文との相違箇所(以下差分)を語句単位で判定し、翻訳用例原文中の差分に対応する翻訳用例訳文の語句を判定し、当該語句を翻訳対象原文中の差分の語句に置き換えた合成文を作成し、合成文に含まれる翻訳対象原文中の語句を当該語句に対応する訳語で置換した訳文を作成する(例えば、特許文献3参照)。
特開2003−330924号公報 特開2005−339087号公報 特開2006−11842号公報
しかし、特許文献3のものでは、翻訳対象原文と翻訳用例原文との差分を語句単位で判定し、翻訳用例原文中の差分に対応する翻訳用例訳文の語句を判定し、当該語句を翻訳対象原文中の差分の語句に置き換えた合成文を作成し、合成文に含まれる原文中の語句を当該語句に対応する訳語で置換した訳文を作成することになるので、当該差分の語句は文脈情報や文書の分野情報などに応じた訳出ができないことがある。すなわち、翻訳対象原文中の差分の語句に対応する訳語で置換するため、常に辞書に登録されている訳語候補のうち既定の訳語が使用され、適切でない訳文となってしまうことがある。表1に、適切でない訳文になってしまう場合の一例を示す。
Figure 0005148583
表1では、翻訳対象原文と翻訳用例原文との差分が”strain”と”antigen”とであり、翻訳用例原文中の”antigen”に対応する翻訳用例訳文中の語句が”抗原”である場合を示している。この場合、翻訳用例訳文中の”抗原”を翻訳対象原文の”strain”で置き換えた合成文は、”結核の予防注射に、このstrainが使用されました。”となる。そして、この”strain”の訳語候補を参照し、訳語候補のうちから既定の訳語である”負荷”を選択して、自動生成訳文を生成する。従って、自動生成訳文は、”結核の予防注射に、この負荷が使用されました。”となる。
しかし、希望訳文は、”結核の予防注射に、この菌種が使用されました。”であり、それを訳出することができない。これは、翻訳対象原文の文脈や文書の分野などを考慮せず、既定の訳語で置き換えるために、このような結果になってしまっている。
本発明の目的は、翻訳用例訳文中の当該語句を翻訳用例原文中の差分の訳語で置換した訳文を作成する際、翻訳対象原文中の差分の語句に対して、文脈情報や文書の分野情報に応じた適切な語句の訳文を生成できる機械翻訳装置、方法及びプログラムを提供することである。
本発明の機械翻訳装置は、入力された翻訳対象原文を、機械翻訳辞書で定義されている語彙及び規則を用いて形態素解析及び構文解析を行い、翻訳用例を使用しないで翻訳する翻訳手段と、前記翻訳対象原文を検索キーとして翻訳用例データベースから前記翻訳対象原文に同一または類似の翻訳用例を検索する翻訳用例検索手段と、前記検索された翻訳用例の原文と前記翻訳対象原文との差異部分に対して編集が必要な前記翻訳用例の訳文中の語句と前記翻訳対象原文中の語句とを対応付ける差分対応付け手段と、前記翻訳用例の訳文中の語句に対応づけられた前記翻訳対象原文中の語句については、前記翻訳手段を用いて前記翻訳対象原文を翻訳させることにより当該翻訳対象原文中の当該語句以外の情報を利用して得られる訳語であって、その翻訳文中の前記差分対応付け手段で対応付けられた前記翻訳対象原文中の語句に対応する訳語を、前記翻訳対象原文中の文脈に応じた訳語として取得する差分語句訳語取得手段と、前記差分語句訳語取得手段によって取得された訳語を前記編集が必要な翻訳用例の訳文中の語句と置き換えて訳文を完成させる訳語置換手段とを備える。
本発明によれば、翻訳用例訳文中の当該語句を翻訳用例原文中の差分の訳語で置換した訳文を作成する際、翻訳対象原文中の差分の語句に対して、文脈情報や文書の分野情報に応じた適切な語句の訳文を生成できる機械翻訳装置を提供できる。
本発明の第1の実施の形態に係わる機械翻訳装置の機能ブロック図。 本発明の実施の形態に係る機械翻訳装置のハードウエア構成を示すブロック構成図。 本発明の第1の実施の形態に係わる機械翻訳装置の処理内容を示すフローチャート。 本発明の第1の実施の形態における差分対応付け手段での差分対応付け処理の内容を示すフローチャート。 本発明の第1の実施の形態における形態素解析及び構文解析済みの翻訳用例原文と翻訳用例訳文との構文ツリーの説明図。 本発明の第1の実施の形態における差分語句訳語取得手段での差分語句訳語取得処理の内容を示すフローチャート。 本発明の第2の実施の形態に係わる機械翻訳装置の機能ブロック図。 本発明の第2の実施の形態における差分語句訳語取得手段での差分語句訳語取得処理の内容を示すフローチャート。 本発明の第3の実施の形態における差分語句訳語取得手段の差分語句訳語取得処理の内容を示すフローチャート。
以下、図面を参照しながら本発明の実施の形態について説明する。図1は本発明の第1の実施の形態に係わる機械翻訳装置11の機能ブロック図、図2は本発明の実施の形態に係る機械翻訳装置のハードウエア構成を示すブロック構成図である。
図2において、機械翻訳装置11は、例えば一般的なコンピュータに機械翻訳プログラムなどのソフトウェアプログラムがインストールされ、そのソフトウェアプログラムが演算制御装置12のプロセッサ13において実行されることにより実現される。
演算制御装置12は機械翻訳に関する各種演算を行うものであり、演算制御装置12はプロセッサ13とメモリ14とを有し、メモリ14には翻訳に関する機械翻訳プログラム15が記憶され、プロセッサ13により処理が実行される際には作業エリア16が用いられる。演算制御装置12の演算結果等は出力装置17である表示装置18に表示出力され、また、通信制御装置19を介して通信ネットワークに出力される。
入力装置20は演算制御装置12に情報を入力するものであり、例えば、マウス21、キーボード22、ディスクドライブ23、通信制御装置19から構成され、例えば、マウス21やキーボード22は表示装置18を介して演算制御装置12に各種指令を入力し、キーボード22、ディスクドライブ23、通信制御装置19は翻訳対象の文書を入力する。
すなわち、ディスクドライブ23は翻訳対象の文書のファイルを記憶媒体に入出力するものであり、通信制御装置19は機械翻訳装置11をインターネットやLANなどの通信ネットワークに接続するものである。通信制御装置19はLANカードやモデムなどの装置であり、通信制御装置19を介して通信ネットワークと送受信したデータは入力信号又は出力信号として演算制御装置12に送受信される。さらに、演算制御装置12の演算結果や翻訳に必要な知識・規則を蓄積した翻訳辞書等を記憶するハードディスクドライブ(HDD)24が設けられている。
図1は本発明の第1の実施の形態に係わる機械翻訳装置11の機能ブロック図である。図1に示す演算制御装置12内の各機能ブロックは、上述の機械翻訳プログラム15を構成する各プログラムに対応する。すなわち、プロセッサ13が機械翻訳プログラム15を構成する各プログラムを実行することで、演算制御装置12は、各機能ブロックとして機能することとなる。また、記憶装置25の各ブロックは、演算制御装置12内のメモリ14及びハードディスクドライブ24の記憶領域に対応する。
入力処理部26は、入力装置20から入力された翻訳対象の第1言語の原文データを入力し翻訳部27に出力するとともに、操作に必要な情報を入力装置20から入力して翻訳部27に各種指令を与えるものである。
表示処理部28は、入力装置20から入力処理部26を介して入力された翻訳対象の第1言語の原文、翻訳部27で翻訳後の第2言語の訳文、記憶装置25に記憶された翻訳用例データベース29の翻訳用例を表示装置18に表示出力するものである。また、入力装置20から入力処理部26を介して入力された操作に必要な情報も併せて表示処理部28を介して表示装置18に表示出力する。
翻訳用例データベース29は、予め登録された第1言語の文と第2言語の文との対訳からなる翻訳用例を複数蓄積したデータベースであり、機械翻訳辞書30には、第1言語を第2言語に翻訳する際に必要な語彙・規則が蓄積されている。
また、翻訳部27は、機械翻訳辞書30の語彙・規則を用いて第1言語を第2言語に翻訳するものであり、翻訳手段31、翻訳用例検索手段32、差分対応付け手段33、差分語句訳語取得手段34、訳語置換手段35を有している。
翻訳手段31は、第1言語の文またはフレーズを構文解析や形態素解析をして第2言語に翻訳するものである。翻訳用例検索手段32は、入力された第1言語の翻訳対象原文を検索キーとして翻訳用例データベース29から翻訳対象原文に類似する翻訳用例を検索するものであり、差分対応付け手段33は、翻訳用例検索手段32で検索された翻訳用例原文と翻訳対象原文との差異部分を対応付けるともに、当該差異部分に対応する編集が必要な翻訳用例訳文中の語句と翻訳対象原文中の語句とを対応付けるものである。
そして、差分語句訳語取得手段34は、翻訳用例の訳文中の語句に対応づけられた翻訳対象原文中の語句、つまり、編集が必要な翻訳用例訳文中の語句に対して、翻訳対象原文中の当該語句以外の情報を利用して翻訳対象原文中の文脈または分野に応じた適切な訳語を取得するものであり、訳語置換手段35は、差分語句訳語取得手段34によって取得した訳語で編集が必要な翻訳用例訳文中の語句を置き換えて訳文を完成させるものである。
図3は、本発明の第1の実施の形態に係わる機械翻訳装置の処理内容を示すフローチャートである。以下の説明では、表2に示す翻訳対象原文と翻訳用例(翻訳用例原文及び翻訳用例訳文)の組合せを例にとり説明する。
Figure 0005148583
入力装置20から入力処理部26を経由して第1言語の翻訳対象原文が翻訳部27に入力され翻訳要求が発行されたときは、翻訳部27の翻訳手段31は、翻訳対象原文に対して機械翻訳辞書30を用いて辞書引き処理・形態素解析を行い(S1)、各形態素の品詞、活用の種類、各種属性、訳語などの各種情報を得る。
続いて、翻訳用例検索手段32は、翻訳用例データベース29に対して翻訳用例検索を行う(S2)。すなわち、入力文と同一または類似の翻訳用例(翻訳用例原文及び翻訳用例訳文)が翻訳用例データベース29に蓄積されているかどうかを検索する。
この段階では、ステップS1の処理により、翻訳対象原文の形態素解析結果や翻訳対象原文中の各語に対する各種情報が取得されているため、カタカナや送り仮名の表記の揺れ、漢字表記とひらがな表記の揺れ、送り仮名の有無の揺れの情報も取得されている。これらの情報により、完全に入力文と1文字違わず一致した翻訳用例でなくとも、これらの表記の揺れに関する違いについては違いとしては認識しないような揺れの吸収処理が可能である。
一方、表記の揺れは吸収しない完全一致の翻訳用例原文があるときのみ検索成功とする構成も可能である。また、文字・単語上の違いがあっても同値とみなす差異文字数ないしは差異単語数の割合の下限値を設けて検索の可否を制御する構成であってもよい。これにより、語句・文字の使われ方が類似した翻訳用例原文を抽出できる。このような検索手法を用いる場合は、用例検索のタイミングを辞書引き処理・形態素解析の後にする必要はなく、翻訳用例検索のステップを図3の処理の最初に行う構成でもよい。
ステップS2の翻訳用例検索では、複数の翻訳用例を検索できる場合もあるが、最終的に使用する優先度が最も高い翻訳用例が処理対象となる。複数の翻訳用例から優先度の最も高い用例を決定するには、類似度、類似度が同じ場合には用例の登録日時などの基準を用いて行うのが一般的である。類似度は、例えば、語句の一致する数が多いほど類似度が高いと判定することで行う。
いま、翻訳対象原文”The strain was used to vaccinate people against tuberculosis.”に対して、翻訳用例として、翻訳用例原文が”The antigen was used to vaccinate people against tuberculosis.”、翻訳用例訳文が”結核の予防注射に、この抗原が使用されました。”が検索されたとする。
このような翻訳用例が検索されたとすると(S3)、差分対応付け手段33は翻訳に使用する翻訳用例及び翻訳対象原文に対して差分対応付け処理を行う(S4)。図4は差分対応付け手段33での差分対応付け処理(ステップS4)の内容を示すフローチャートである。
図4に示すように、差分対応付け手段33は、まず翻訳対象原文に対して構文解析を行い(S11)、翻訳用例原文及び翻訳用例訳文に対して、形態素解析及び構文解析を行う(S12)。これによって、翻訳対象原文、翻訳用例原文、翻訳用例訳文の文を構成する単語列、各単語の品詞・活用の種類・訳語ほか、翻訳処理に必要な各種情報、そして構文構造を得る。これらの情報を用いて、翻訳対象原文と翻訳用例原文の差分の対応付けを行い(S13)、翻訳用例原文と翻訳用例訳文の中のどの語句とどの語句が対応しているかの対応付けを行い(S14)、さらにこの結果を用いて、翻訳対象原文と用例原文の差分が用例訳文のどの語句に対応しているかの対応付けを行う(S15)。
表3に翻訳対象原文の解析結果を示す。表3では翻訳対象原文の語句が対応する翻訳用例原文の語句IDを併せて示している。
Figure 0005148583
翻訳対象原文と翻訳用例原文の差分の対応付け処理(ステップS13)では、表3及び表4を対比することにより、翻訳対象原文と翻訳用例原文の差分を対応付ける。これにより、翻訳対象原文と翻訳用例原文の差分は、翻訳対象原文の「strain」と翻訳用例原文の「antigen」の差であることが判明する。
次に、翻訳用例原文と翻訳用例訳文の中のどの語句とどの語句が対応しているかの対応付け処理(ステップS14)について説明する。
図5は形態素解析及び構文解析済みの翻訳用例原文と翻訳用例訳文との構文ツリーの説明図であり、図(a)は翻訳用例原文の構文ツリー図、図(b)は翻訳用例訳文の構文ツリー図である。図中の「TW」で示しているのは、第2言語である翻訳用例訳文の訳語候補として存在する訳語の候補のリストである。複数あるものは、コンマで区切って列挙している。
図5を参照してステップS14での翻訳用例原文と翻訳用例訳文の中のどの語句とどの語句が対応しているかの対応付け処理を説明する。
(1)以下の処理を翻訳用例原文の解析結果の各構成要素ごとに行う。
(1a)翻訳用例原文の見出し語(形態素解析後の各要素)を翻訳用例訳文の解析結果の中で「TW」属性を含む要素を探し、見出し語に対応する訳語を対応候補として抽出する。複数存在すれば、複数候補のペアを抽出する。
(1b)翻訳用例原文の要素の訳語候補の一つが翻訳用例訳文の解析結果中の構成要素と一致するかどうかをチェックし、一致するものがあれば対応候補として抽出する。複数存在すれば複数候補のペアを抽出する。
(2)上記(1)の結果、対応関係に重複がなく、ユニークに対応が決まるものは、対応語句として確定する。また、片方の構造中の1つの要素が他方の構造では2つ以上の連続要素に一致する場合など、要素数が一致しないケースでも対応語句として抽出する。
(3)上記(1)の結果、対応関係にあいまい性がある場合、例えば、同じ語が2回用いられているような場合は、他の対応語句候補と解析結果中での直接的修飾関係や、修飾関係の交差の有無や、部分構造中での他の対応語句候補との共存関係をもとに、より可能性の高い対応関係を選択し、あいまい性を解消する。
(4)上記(3)までに対応語句候補が抽出されると、これらの対応語句候補の第1言語文の解析結果構造と第2言語文の解析結果構造との中で、構造的に連続している部分の検出を行う。
この対応付け処理によって以下の対応関係が得られる。「antigen−抗原」、「use−使用する」、「tuberculosis−結核」。
この対応付けを行った後の内部データの一覧を表4及び表5に示す。表4は翻訳用例原文の解析結果であり、翻訳用例原文の個々の構成要素、品詞情報、及び翻訳用例訳文のデータ構造のどの語句に対応するかを示すID番号とを有しており、「−1」が入っている要素は、対応する語句がないことを示す。
Figure 0005148583
また、表5は翻訳用例訳文の解析結果であり、表4と同様に、翻訳用例訳文の個々の構成要素、品詞情報、及び翻訳用例原文のデータ構造のどの語句に対応するかを示すID番号とを有しており、「−1」が入っている要素は、対応する語句がないことを示す。
Figure 0005148583
この対応関係から、翻訳対象原文と翻訳用例原文との差分は「strain」と「antigen」の差であり、翻訳用例原文と翻訳用例訳文との対応関係から、翻訳用例原文の「antigen」が対応している翻訳用例訳文の語句は「抗原」であることが分かる。この結果から、ステップS15において、翻訳対象原文と翻訳用例原文との差分と、翻訳用例訳文との対応関係は、「strain−抗原」であることが得られる。
このようにして、図3の差分対応付け処理(ステップS4)により得られた翻訳対象原文と翻訳用例原文との差分語句「strain−抗原」に対して、差分語句訳語取得手段34は、「strain」の訳語として「抗原」に代わる適切な訳語を取得する(S5)。
図6は、差分語句訳語取得手段34での差分語句訳語取得処理(ステップS5)の内容を示すフローチャートである。まず、翻訳対象原文を翻訳する(S21)。すなわち、翻訳手段31を用いて翻訳用例を使用しないで翻訳対象原文を翻訳する。その後、翻訳対象原文と翻訳用例原文との差分語句の訳語を切り出す(S22)。
ステップS21の翻訳処理は一般的な機械翻訳処理である。すなわち、翻訳手段31では翻訳用例を使用しないことによって、構文解析で得られる文節の係り受け、共起関係などの情報を利用して、機械翻訳辞書30で定義されている訳し分け規則を適用して訳語を得る。
翻訳対象原文と翻訳用例原文との差分語句の翻訳対象原文の語句“strain”には、表1に示しているように、複数な訳語(負荷〜病原菌)があり、どの訳語が適切かを決める知識として、以下のような訳出決定のための規則が機械翻訳辞書30に蓄積されている。
<規則>strain + vaccinate → strain=菌種
(意味:”strain”と”vaccinate”が共起する場合”strain”は”菌種”と訳す)
この規則によって、翻訳対象原文”The strain was used to vaccinate people against tuberculosis.”の訳文は以下のようになる。
訳文:”菌種は人々に結核の予防注射をするために使用されました。”
次に、ステップS22では、ステップS21で得られた訳文”菌種は人々に結核の予防注射をするために使用されました。”から、差分語句である”strain”の訳語を切り出す。この訳文では”strain”の訳語情報が”菌種”として得られているので、翻訳対象原文と翻訳用例原文との差分語句の訳語である”菌種”が取得される。
このようにして、図3の差分語句訳語取得手段34による差分語句訳語取得(ステップS5)により、翻訳対象原文と翻訳用例原文との差分語句の訳語である”菌種”が取得されると、訳語置換手段35によって訳語置換処理が行われる(S6)。この訳語置換処理では、差分対応付け処理(ステップS4)で得られた”strain−抗原”の対応関係を利用して、翻訳用例訳文”結核の予防注射に、この抗原が使用されました。”の中の”抗原”を、差分語句訳語取得(ステップS5)で得られた”菌種”で置き換えて訳文を完成させる。これによって、訳文:”結核の予防注射に、この菌種が使用されました。”が得られ、翻訳対象原文中の文脈に応じた適切な訳語での訳文を得ることができる。
図7は本発明の第2の実施の形態に係わる機械翻訳装置の機能ブロック図である。この第2の実施の形態は、図1乃至図6に示した一例に対し、差分語句訳語取得手段34は翻訳手段31を用いて翻訳対象原文を翻訳させることに代えて、外部の翻訳システム36を用いて翻訳対象原文を翻訳させるようにしたものである。
この本発明の第2の実施の形態についても、表2に示す翻訳対象原文と翻訳用例(翻訳用例原文及び翻訳用例訳文)の組合せを例にとり説明する。第2の実施の形態は、表2の例に対して、図3の差分対応付け処理(ステップS4)までの処理は第1の実施の形態と同じである。図3の差分語句訳語取得処理(ステップS5)では、外部の翻訳システム36と連携して行う。
図8は本発明の第2の実施の形態の差分語句訳語取得手段34での差分語句訳語取得処理の内容を示すフローチャートである。まず、翻訳対象原文の翻訳を依頼する(S41)。すなわち、差分語句訳語取得手段34は外部の翻訳システム36に翻訳対象原文の翻訳を依頼する。その後、外部の翻訳システム36から翻訳結果の訳文を受け取る(S42)。そして、受け取った訳文から差分語句訳語を取得する(S43)。この場合、外部の翻訳システム36がどのように翻訳処理して訳文を生成しているかについては関知する必要はない。
この場合、ステップS43において、外部の翻訳システム36から受け取った訳文から差分語句の訳語を取得するには、翻訳対象原文と受け取った訳文の対に対し、図4のステップS14と同様な処理を行うことになる。
いま、表2の例に対して、差分語句訳語取得手段34は外部の翻訳システム36に翻訳を依頼して、外部の翻訳システムの訳文”人間の結核の予防注射にこの菌種が使用されました。”を受け取ったとする。この受け取った訳文から訳語を取得するために、差分語句訳語取得手段34は、ステップS43において、図4のステップS14と同様な処理を行う。すなわち、翻訳対象原文”The strain was used to vaccinate people against tuberculosis.”と、外部の翻訳システムから受け取った訳文”人間の結核の予防注射にこの菌種が使用されました。”との対に対して、図4のステップS14と同様な処理を行う。この処理によって、”strain”の訳語として”菌種”が取得される。
最後に、訳語置換手段35によって訳語置換処理が行われ、差分対応付け処理手段33で得られた”starin−抗原”の対応関係を利用して、翻訳用例訳文”結核の予防注射に、この抗原が使用されました。”の中の”抗原”を”菌種”で置き換えて訳文を完成させる。これによって、以下の訳文が得られる。これによって、訳文:”結核の予防注射に、この菌種が使用されました。”が得られ、翻訳対象原文中の文脈に応じた適切な訳語での訳文を得ることができる。
第2の実施の形態では、外部の翻訳システム36から受け取るのは訳文のみであるが、外部の翻訳システム36から訳文に加え、翻訳対象原文と訳文の語句の対応関係も取得する構成にしてもよい。この場合、差分語句訳語取得手段34のステップS43の「差分語句訳語を取得する」処理では、翻訳対象原文と訳文の語句の対応関係から簡単に差分語句の訳語を取得することができ、図4のステップS14と同様な処理を行わなくてもよい。
次に、本発明の第3の実施の形態を説明する。第1の実施の形態や第2の実施の形態では、翻訳手段31や外部の翻訳システム36を用いて、翻訳用例を使用しないで翻訳対象原文を翻訳し、その翻訳により得られた訳語を、翻訳対象原文と訳文の語句の対応関係から差分語句の訳語とするようにしたが、翻訳手段31あるいは外部の翻訳システム36を用いて翻訳対象原文を含む第1言語の文書の分野判定を行って分野情報を取得し、差分対応付け手段33で対応付けられた翻訳対象原文中の語句の訳語の分野情報と照合して分野情報が一致している訳語を適切な訳語として取得するようにしてもよい。
いま、翻訳原文文書の分野情報を利用して翻訳対象原文の差分語句の訳語を取得する場合の例を表6に示す。
Figure 0005148583
この場合、図3に示す差分対応付け手段34による差分対応付け処理(ステップS4)によって”base−艦隊”の対応関係が得られる。翻訳対象原文”Formation and equipment of this base were reported.”を翻訳用例を使用しないで翻訳すると、”この基礎の構成及び設備が報告されました。”の訳文が得られる。
第1の実施の形態や第2の実施の形態では、翻訳用例訳文の「艦隊」を、翻訳用例を使用しないで翻訳した訳文の「基礎」で置き換えることになる。従って、第1の実施の形態や第2の実施の形態では、”この基礎の編成及び装備が報道されました。”の訳文が得られる。つまり、”base”が既定訳語の”基礎”のままで訳し出される。
ここで、機械翻訳辞書中の訳語に分野情報がついているものがある。例えば、「base」について、野球分野であれば、「ベース」と訳し、軍事分野であれば「基地」と訳し、それ以外であれば「基礎」と訳す。機械翻訳辞書30では、例えば、これら分野情報が表7に示すように格納されている。
Figure 0005148583
そこで、差分語句訳語取得手段34では、文書の分野情報を利用して差分語句の適切な訳語を得る。図9は差分語句訳語取得手段34の差分語句訳語取得処理の内容を示すフローチャートである。
まず、差分語句訳語取得手段34は翻訳手段31あるいは外部の翻訳システム36を用いて、原文文書について分野判定を行う(S31)。翻訳対象原文と翻訳用例原文との差分語句の差分語句の訳語候補を順番に照合する(S32)。訳語候補に分野情報がついているかを判別し(S33)、分野情報がついていれば、S31で得られた原文文書の分野情報と当該訳語の分野情報とが一致するかどうかを判定する(S34)。一致していれば、その訳語候補を訳語とし処理を終了する(S35)。一方、ステップS33の判定で訳語候補に分野情報がついていない場合、ステップS34の判定で一致しない場合には、次の訳語があるかどうかを判定し(S36)、次の訳語があるときはステップS32に戻る。次の訳語がないときは、その訳語候補の規定訳語を訳語とする(S37)。
表6の例で説明すると、まずステップS31で表6の「翻訳原文文書」について分野判定を行う。これによって、”分野=軍事”が得られる。ステップS32から、”base”の個々の訳語を順番に照合し、同じ”分野=軍事”である訳語”基地”が得られる。
そして、図3のステップS6の訳語置換処理によって、”base−艦隊”の対応関係を利用し、翻訳用例訳文中の”艦隊”を”基地”に置き換えて訳文を完成する。これにより、訳文”この基地の編成及び装備が報道されました。”が得られる。
本発明の実施の形態によれば、翻訳用例を用いた翻訳において、翻訳対象原文と翻訳用例原文との差分を語句単位で判定し、翻訳用例原文中の差分に対応する翻訳用例訳文の語句を判定し、翻訳用例訳文中の当該語句を翻訳用例原文中の差分の訳語で置換した訳文を作成する際、翻訳対象原文中の差分の語句に対して、文脈情報や文書の分野情報を使用して訳語を決定し、当該訳語で置換して訳文を生成するので、適切な訳語を得ることができる。
11…機械翻訳装置、12…演算制御装置、13…プロセッサ、14…メモリ、15…機械翻訳プログラム、16…作業エリア、17…出力装置、18…表示装置、19…通信制御装置、20…入力装置、21…マウス、22…キーボード、23…ディスクドライブ、24…ハードディスクドライブ、25…記憶装置、26…入力処理部、27…翻訳部、28…表示処理部、29…翻訳用例データベース、30…機械翻訳辞書、31…翻訳手段、32…翻訳用例検索手段、33…差分対応付け手段、34…差分語句訳語取得手段、35…訳語置換手段、36…外部の翻訳システム

Claims (3)

  1. 入力された翻訳対象原文を、機械翻訳辞書で定義されている語彙及び規則を用いて形態素解析及び構文解析を行い、翻訳用例を使用しないで翻訳する翻訳手段と、
    前記翻訳対象原文を検索キーとして翻訳用例データベースから前記翻訳対象原文に同一または類似の翻訳用例を検索する翻訳用例検索手段と、
    前記検索された翻訳用例の原文と前記翻訳対象原文との差異部分に対して編集が必要な前記翻訳用例の訳文中の語句と前記翻訳対象原文中の語句とを対応付ける差分対応付け手段と、
    前記翻訳用例の訳文中の語句に対応づけられた前記翻訳対象原文中の語句については、前記翻訳手段を用いて前記翻訳対象原文を翻訳させることにより当該翻訳対象原文中の当該語句以外の情報を利用して得られる訳語であって、その翻訳文中の前記差分対応付け手段で対応付けられた前記翻訳対象原文中の語句に対応する訳語を、前記翻訳対象原文中の文脈に応じた訳語として取得する差分語句訳語取得手段と、
    前記差分語句訳語取得手段によって取得された訳語を前記編集が必要な翻訳用例の訳文中の語句と置き換えて訳文を完成させる訳語置換手段と
    を備える機械翻訳装置。
  2. 入力された翻訳対象原文を、機械翻訳辞書で定義されている語彙及び規則を用いて形態素解析及び構文解析を行い、翻訳用例を使用しないで翻訳する翻訳ステップと、
    前記翻訳対象原文を検索キーとして翻訳用例データベースから前記翻訳対象原文に同一または類似の翻訳用例を検索する翻訳用例検索ステップと、
    前記検索された翻訳用例の原文と前記翻訳対象原文との差異部分に対して編集が必要な前記翻訳用例の訳文中の語句と前記翻訳対象原文中の語句とを対応付ける差分対応付けステップと、
    前記翻訳用例の訳文中の語句に対応づけられた前記翻訳対象原文中の語句については、前記翻訳ステップを用いて前記翻訳対象原文を翻訳させることにより当該翻訳対象原文中の当該語句以外の情報を利用して得られる訳語であって、その翻訳文中の前記差分対応付けステップで対応付けられた前記翻訳対象原文中の語句に対応する訳語を、前記翻訳対象原文中の文脈に応じた訳語として取得する差分語句訳語取得ステップと、
    前記差分語句訳語取得ステップによって取得された訳語を前記編集が必要な翻訳用例の訳文中の語句と置き換えて訳文を完成させる訳語置換ステップと
    を備える機械翻訳方法。
  3. 翻訳対象の第一の言語の原文を入力し第二の言語の訳文を出力する機械翻訳装置として用いられるコンピュータに、
    入力された翻訳対象原文を、機械翻訳辞書で定義されている語彙及び規則を用いて形態素解析及び構文解析を行い、翻訳用例を使用しないで翻訳する翻訳機能と、
    前記翻訳対象原文を検索キーとして翻訳用例データベースから前記翻訳対象原文に同一または類似の翻訳用例を検索する翻訳用例検索機能と、
    前記検索された翻訳用例の原文と前記翻訳対象原文との差異部分に対して編集が必要な前記翻訳用例の訳文中の語句と前記翻訳対象原文中の語句とを対応付ける差分対応付け機能と、
    前記翻訳用例の訳文中の語句に対応づけられた前記翻訳対象原文中の語句については、前記翻訳機能を用いて前記翻訳対象原文を翻訳させることにより当該翻訳対象原文中の当該語句以外の情報を利用して得られる訳語であって、その翻訳文中の前記差分対応付け機能で対応付けられた前記翻訳対象原文中の語句に対応する訳語を、前記翻訳対象原文中の文脈に応じた訳語として取得する差分語句訳語取得機能と、
    前記差分語句訳語取得機能によって取得された訳語を前記編集が必要な翻訳用例の訳文中の語句と置き換えて訳文を完成させる訳語置換機能とを実現させるためのプログラム。
JP2009246135A 2009-10-27 2009-10-27 機械翻訳装置、方法及びプログラム Active JP5148583B2 (ja)

Priority Applications (1)

Application Number Priority Date Filing Date Title
JP2009246135A JP5148583B2 (ja) 2009-10-27 2009-10-27 機械翻訳装置、方法及びプログラム

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
JP2009246135A JP5148583B2 (ja) 2009-10-27 2009-10-27 機械翻訳装置、方法及びプログラム

Publications (2)

Publication Number Publication Date
JP2011095802A JP2011095802A (ja) 2011-05-12
JP5148583B2 true JP5148583B2 (ja) 2013-02-20

Family

ID=44112668

Family Applications (1)

Application Number Title Priority Date Filing Date
JP2009246135A Active JP5148583B2 (ja) 2009-10-27 2009-10-27 機械翻訳装置、方法及びプログラム

Country Status (1)

Country Link
JP (1) JP5148583B2 (ja)

Families Citing this family (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP5909123B2 (ja) * 2012-03-21 2016-04-26 株式会社東芝 機械翻訳装置、機械翻訳方法およびプログラム
CN113191163B (zh) * 2021-05-21 2023-06-30 北京有竹居网络技术有限公司 一种翻译方法、翻译装置、翻译设备以及存储介质

Family Cites Families (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JPH05257966A (ja) * 1992-03-11 1993-10-08 Nec Corp 機械翻訳装置
JP4643183B2 (ja) * 2004-06-25 2011-03-02 シャープ株式会社 翻訳装置および翻訳プログラム
JP5002271B2 (ja) * 2007-01-18 2012-08-15 株式会社東芝 入力された原言語文を目的言語に機械翻訳する装置、方法およびプログラム
JP4845857B2 (ja) * 2007-11-06 2011-12-28 株式会社東芝 機械翻訳装置及び機械翻訳プログラム

Also Published As

Publication number Publication date
JP2011095802A (ja) 2011-05-12

Similar Documents

Publication Publication Date Title
JP3969628B2 (ja) 翻訳支援装置、方法及び翻訳支援プログラム
US6055528A (en) Method for cross-linguistic document retrieval
JP5264892B2 (ja) 多言語情報検索
US8346536B2 (en) System and method for multi-lingual information retrieval
JP5243167B2 (ja) 情報検索システム
CN100492364C (zh) 用于多语言信息检索的系统、方法、软件和界面
JP2006004427A (ja) 日本語などの複雑言語のコンテンツを検索するシステム及び方法
US8000957B2 (en) English-language translation of exact interpretations of keyword queries
JP2004118740A (ja) 質問応答システム、質問応答方法、質問応答プログラム
JP4160548B2 (ja) 文書要約作成システム、方法、及びプログラム
WO2020079752A1 (ja) 文献検索方法および文献検索システム
JP5148583B2 (ja) 機械翻訳装置、方法及びプログラム
JP5025603B2 (ja) 機械翻訳装置、機械翻訳プログラム及び機械翻訳方法
JP4435144B2 (ja) データ検索システム及びプログラム
JP4588657B2 (ja) 翻訳装置
JP2004086307A (ja) 情報検索装置、情報登録装置、情報検索方法、及びコンピュータ読み取り可能なプログラム
JP2009104475A (ja) 類似文書検索装置、類似文書検索方法およびプログラム
JP4635585B2 (ja) 質問応答システム、質問応答方法及び質問応答プログラム
JP5039114B2 (ja) 機械翻訳装置及びプログラム
JP4588417B2 (ja) 翻訳装置
JP4140343B2 (ja) 情報検索支援方法及び装置及び情報検索支援プログラム
JP5909123B2 (ja) 機械翻訳装置、機械翻訳方法およびプログラム
JP2012230460A (ja) 機械翻訳システム、方法及びプログラム
JP5032453B2 (ja) 機械翻訳装置及び機械翻訳プログラム
Siciliani et al. Handling modifiers in question answering over knowledge graphs

Legal Events

Date Code Title Description
A977 Report on retrieval

Free format text: JAPANESE INTERMEDIATE CODE: A971007

Effective date: 20120427

A131 Notification of reasons for refusal

Free format text: JAPANESE INTERMEDIATE CODE: A131

Effective date: 20120508

A521 Written amendment

Free format text: JAPANESE INTERMEDIATE CODE: A523

Effective date: 20120523

TRDD Decision of grant or rejection written
A01 Written decision to grant a patent or to grant a registration (utility model)

Free format text: JAPANESE INTERMEDIATE CODE: A01

Effective date: 20121030

A61 First payment of annual fees (during grant procedure)

Free format text: JAPANESE INTERMEDIATE CODE: A61

Effective date: 20121128

R150 Certificate of patent or registration of utility model

Ref document number: 5148583

Country of ref document: JP

Free format text: JAPANESE INTERMEDIATE CODE: R150

Free format text: JAPANESE INTERMEDIATE CODE: R150

FPAY Renewal fee payment (event date is renewal date of database)

Free format text: PAYMENT UNTIL: 20151207

Year of fee payment: 3

S531 Written request for registration of change of domicile

Free format text: JAPANESE INTERMEDIATE CODE: R313531

R350 Written notification of registration of transfer

Free format text: JAPANESE INTERMEDIATE CODE: R350

S533 Written request for registration of change of name

Free format text: JAPANESE INTERMEDIATE CODE: R313533

R350 Written notification of registration of transfer

Free format text: JAPANESE INTERMEDIATE CODE: R350