JP2015060458A - 機械翻訳装置、方法、及びプログラム - Google Patents
機械翻訳装置、方法、及びプログラム Download PDFInfo
- Publication number
- JP2015060458A JP2015060458A JP2013194640A JP2013194640A JP2015060458A JP 2015060458 A JP2015060458 A JP 2015060458A JP 2013194640 A JP2013194640 A JP 2013194640A JP 2013194640 A JP2013194640 A JP 2013194640A JP 2015060458 A JP2015060458 A JP 2015060458A
- Authority
- JP
- Japan
- Prior art keywords
- language
- intermediate language
- translation
- sentence
- target
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Pending
Links
Classifications
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F40/00—Handling natural language data
- G06F40/40—Processing or translation of natural language
- G06F40/42—Data-driven translation
- G06F40/44—Statistical methods, e.g. probability models
Landscapes
- Engineering & Computer Science (AREA)
- Physics & Mathematics (AREA)
- Theoretical Computer Science (AREA)
- Probability & Statistics with Applications (AREA)
- Health & Medical Sciences (AREA)
- Artificial Intelligence (AREA)
- Audiology, Speech & Language Pathology (AREA)
- Computational Linguistics (AREA)
- General Health & Medical Sciences (AREA)
- General Engineering & Computer Science (AREA)
- General Physics & Mathematics (AREA)
- Machine Translation (AREA)
Abstract
【課題】高精度に翻訳することができる機械翻訳装置を提供する。
【解決手段】一実施形態に係る原言語から中間言語を介して目的言語に翻訳する機械翻訳装置は、入力受付部、原文解析部、選択モデル、中間言語選択部、翻訳制御部、及び出力部を備える。入力受付部は、前記原言語による原文の入力を受け付ける。原文解析部は、前記原文を解析して解析情報を生成する。選択モデルは、前記原言語から複数の中間言語候補それぞれへの翻訳特性をモデル化したものである。中間言語選択部は、前記解析情報及び前記選択モデルに基づいて、前記複数の中間言語候補の中から前記中間言語を選択する。翻訳制御部は、前記中間言語を介して前記原文を前記目的言語に翻訳した目的言語文を生成する。出力部は、前記目的言語文を出力する。
【選択図】図1
【解決手段】一実施形態に係る原言語から中間言語を介して目的言語に翻訳する機械翻訳装置は、入力受付部、原文解析部、選択モデル、中間言語選択部、翻訳制御部、及び出力部を備える。入力受付部は、前記原言語による原文の入力を受け付ける。原文解析部は、前記原文を解析して解析情報を生成する。選択モデルは、前記原言語から複数の中間言語候補それぞれへの翻訳特性をモデル化したものである。中間言語選択部は、前記解析情報及び前記選択モデルに基づいて、前記複数の中間言語候補の中から前記中間言語を選択する。翻訳制御部は、前記中間言語を介して前記原文を前記目的言語に翻訳した目的言語文を生成する。出力部は、前記目的言語文を出力する。
【選択図】図1
Description
本発明の実施形態は、原言語文を中間言語への翻訳を介して目的言語文に機械翻訳する機械翻訳装置、方法、及びプログラムに関する。
近年、コンピュータを用いてある自然言語(原言語)の文を他の自然言語(目的言語)の文に翻訳する機械翻訳の技術が開発され、広く利用されている。翻訳対象となる言語は多岐にわたっている。そこで、複数対の言語間の翻訳を実現する多言語翻訳システムが提案されている。多言語翻訳システムにおいて、全ての言語対に対して翻訳エンジンを開発することは、多大な開発コストを要し、効率的ではない。この背景のもと、原言語から中間言語にまず翻訳し、その後に中間言語から目的言語に翻訳する中間言語方式が提案されている。
従来の中間言語方式では、所定の自然言語(例えば英語)が中間言語として使用される。この場合、原言語から中間言語に翻訳する際に、原言語の原文が持つ情報が失われることがある。例えば、原言語を日本語、中間言語を英語、目的言語をドイツ語とし、日本語から英語にまず翻訳し、その後にドイツ語へ翻訳する場合を想定する。日本語文「ハンス、お元気ですか?」を英語に翻訳すると「How are you, Hans?」となり、これをドイツ語に翻訳すると「Wie geht's dir, Hans?」となる。この例では、日本語文に含まれている丁寧表現のニュアンス、すなわち原言語文が持つ情報の一部が英語への翻訳、すなわち中間言語への翻訳の際に失われ、最終的な目的言語であるドイツ語の文に反映されていない。日本語文「ハンス、お元気ですか?」に対応するドイツ語文としては、より丁寧な表現である「Wie geht's Ihnen, Hans?」が適当である。
上述したように、従来の中間言語方式では、中間言語への翻訳の際に原言語文が持つ情報の一部が失われることがあり、翻訳精度が低下する問題がある。機械翻訳技術においては、中間言語方式を用いる場合にも高精度に翻訳できることが求められている。
本発明が解決しようとする課題は、高精度に翻訳することができる機械翻訳装置、方法、及びプログラムを提供することである。
一実施形態に係る原言語から中間言語を介して目的言語に翻訳する機械翻訳装置は、入力受付部、原文解析部、選択モデル記憶部、中間言語選択部、翻訳制御部、及び出力部を備える。入力受付部は、前記原言語による原文の入力を受け付ける。原文解析部は、前記原文を解析して解析情報を生成する。選択モデル記憶部は、前記原言語から複数の中間言語候補それぞれへの翻訳特性をモデル化した選択モデルを記憶する。中間言語選択部は、前記解析情報及び前記選択モデルに基づいて、前記複数の中間言語候補の中から前記中間言語を選択する。翻訳制御部は、前記中間言語を介して前記原文を前記目的言語に翻訳した目的言語文を生成する。出力部は、前記目的言語文を出力する。
以下、図面を参照しながら種々の実施形態について説明する。実施形態に係る機械翻訳装置は、原言語から中間言語を介して目的言語に機械翻訳するものである。実施形態では、原言語が日本語であり且つ目的言語がドイツ語である場合について説明する。なお、原言語と目的言語の組み合わせは、ここで説明する例に限定されるものではなく、任意の2つの自然言語の組み合わせとすることができる。
図1は、本実施形態に係る機械翻訳装置100を概略的に示している。機械翻訳装置100は、図1に示すように、入力受付部101、原文解析部102、中間言語選択部103、選択モデル記憶部104、翻訳エンジン部106、翻訳制御部107、及び出力部108を備える。
翻訳エンジン部106は、複数の翻訳装置(翻訳エンジンともいう)105を含む。各翻訳装置105は、ある自然言語から他の自然言語への翻訳を行う。本実施形態では、翻訳エンジン部106は6つの翻訳装置105A、105B、…、105Fを含む。翻訳装置105Aは、日本語から英語への翻訳を行う。翻訳装置105Bは、日本語から中国語への翻訳を行う。翻訳装置105Cは、日本語から韓国語への翻訳を行う。翻訳装置105Dは、英語からドイツ語への翻訳を行う。翻訳装置105Eは、中国語からドイツ語への翻訳を行う。翻訳装置105Fは、韓国語からドイツ語への翻訳を行う。
翻訳装置105A〜105Fが利用可能である本実施形態では、日本語からドイツ語への翻訳において、中間言語として英語、中国語、及び韓国語を使用することができる。以下では、中間言語に利用可能な自然言語を中間言語候補と呼ぶ。すなわち、本実施形態では、中間言語候補は、英語、中国語、及び韓国語である。
翻訳装置105は機械翻訳を行う。機械翻訳としては、従来から知られている規則ベース翻訳(Rule Based Machine Translation)、用例ベース翻訳(Example Based Machine Translation)、統計翻訳(Statistical Machine Translation)などが適用可能である。これらは広く一般的に知られているものであるので詳細な説明は省略する。なお、翻訳装置105は人手作業者による翻訳により実現されるものであってもよい。
入力受付部101は、原言語による原文の入力を受け付け、この原文を一時的に格納する。原言語による原文を原言語文と記載することもある。入力された原文は、原文解析部102及び翻訳制御部107へ送られる。
原文解析部102は、入力受付部101から受け取った原文を解析して解析情報を生成する。解析は、例えば、原文を形態素単位に区切り品詞属性などを得る形態素解析器、統語解析や依存構造解析などを用いて原文の文法的な関係性を得る構文解析器などによって実現される。これらの解析手法については、広く一般に知られているので、詳細な説明を省略する。なお、解析は任意の他の解析手法で実行されてもよい。
解析情報は、少なくとも1つの原文特徴に関する情報を含む。原文特徴の例には、原文の文体、時制、態、敬語表現、語の曖昧性、構文構造、文字種などが含まれる。一例として、文体は、平叙文、疑問文、命令文の3種類に分類することができる。この場合、解析情報は、原文が平叙文、疑問文、命令文のいずれの文体で記述されているかを示す情報を含む。
図2は、原文解析部102による解析の結果の一例を示している。具体的には、図2は、原文(日本語文)「ハンス、お元気ですか?」の解析結果を示している。図2には、原文特徴を識別する特徴名と原文特徴に割り当てられた値とが示されている。該当する原文特徴が原文に含まれている場合に値“1”が割り当てられ、そうでなければ値“0”が割り当てられている。ここでは、説明を簡単にするために、特徴名に対して識別子を付与している。以下では、識別子#iの原文特徴を原文特徴#iと記載する。ここで、iは1以上N以下の整数であり、Nは原文特徴の数を表す。例えば、原文特徴#1は原文の文体が平叙文であるか否かを示す。原文が平叙文で記述されている場合には、原文特徴#1に値“1”が割り当てられる。
図2の例では、日本語文「ハンス、お元気ですか?」の解析結果として、文体が疑問文であり、時制が現在であり、敬語表現が丁寧であることが得られている。それにより、原文特徴#2、#4、#11には値“1”が割り当てられ、それ以外の原文特徴には値“0”が割り当てられている。
なお、原文特徴に割り当てる値は、図2に示されるような2値である例に限定されず、実数であってもよい。また、文字列が原文特徴に割り当てられてもよい。原文特徴#1を文体とする例では、文体が平叙文である場合に値“0”又は文字列“平叙文”を割り当て、文体が疑問文である場合に値“1”又は文字列“疑問文”を割り当て、文体が命令文である場合に値“2”又は文字列“命令文”を割り当てるようにしてもよい。
さらに、図2に示されるような原文を文単位で解析する例に限らず、任意の節単位又は任意の形態素単位(形態素の部分系列)で解析が実行されてもよい。
さらに、図2に示されるような原文を文単位で解析する例に限らず、任意の節単位又は任意の形態素単位(形態素の部分系列)で解析が実行されてもよい。
選択モデル記憶部104は、原言語から中間言語候補それぞれへの翻訳特性をモデル化した選択モデルを記憶する。翻訳特性は、ある自然言語から他の自然言語に翻訳した場合に原文特徴をどの程度伝達することができるかを示し、原文特徴に対する伝達度で表すことができる。本実施形態では、選択モデルは、中間言語候補それぞれに関して、原文特徴に対する伝達度を含む。
図3は、本実施形態に係る選択モデルの一例を示している。図3に示される選択モデルは、英語、中国語、及び韓国語に関して、原文特徴に対する伝達度を含んでいる。選択モデルの原文特徴は、解析情報の原文特徴と対応付けられている。すなわち、図3に示される識別子は図2に示される識別子と対応している。例えば、原文特徴#11は敬語表現が丁寧であるか否かを示す。
図3の例では、原文特徴#11の伝達度は、英語では0.2に設定され、中国語では0.2に設定され、韓国語では0.8に設定されている。英語及び中国語において原文特徴#11の伝達度が小さい値に設定されるのは、英語及び中国語には日本語の敬語表現に相当する表現が存在しないためである。一方、韓国語において原文特徴#11の伝達度が大きい値に設定されるのは、韓国語には日本語と類似した敬語表現が存在し、韓国語は原文に含まれる敬語表現をよく伝達することができるためである。
選択モデルは、原文特徴の伝達度を表すことができればその形態はいかなるものであってもよい。例えば、特定の原文特徴を含む原言語文の評価セットを用意し、中間言語候補への翻訳精度を伝達度としてもよい。翻訳精度は、機械評価、人手評価によって定量化することができる。機械評価は、参照訳文との一致度を測定する機械評価法であるBLEU(Bilingual Evaluation Understudy)、NIST(National Institute of Standards and Technology)、WER(Word Error Rate)などの評価手法に基づいて行うことができる。
中間言語選択部103は、原文解析部102によって生成された解析情報と選択モデル記憶部104に記憶されている選択モデルとに基づいて、複数の中間言語候補の中から、翻訳に使用する中間言語を選択する。具体的には、中間言語選択部103は、解析情報と選択モデルとに基づいて、中間言語候補それぞれのスコアを算出し、スコアが最大となる中間言語候補を中間言語として選択する。本実施形態のスコアは中間言語としての望ましさを表す。このように、本実施形態では、翻訳に使用する中間言語は、入力された原文に応じて切り替えられる。これにより、原文が持つ情報を訳文に伝達することが可能となり、その結果、翻訳精度が向上する。
翻訳制御部107は、複数の翻訳装置105を含む翻訳エンジン部106と通信する。翻訳制御部107は、翻訳エンジン部106を制御し、入力受付部101から受け取った原文を、中間言語選択部103で選択された中間言語を介して目的言語に翻訳した目的言語文(すなわち、訳文)を生成する。具体的には、翻訳エンジン部106は、原言語から選択された中間言語への翻訳を行う翻訳装置105と、選択された中間言語から目的言語への翻訳を行う翻訳装置105と、を組み合わせて用いて、原文を目的言語に翻訳する。生成された目的言語文は出力部108へ与えられる。
なお、翻訳エンジン部106は、図1に示されるような機械翻訳装置100に実装される例に限らず、機械翻訳装置100の外部に設けられていてもよい。機械翻訳装置100の外部に設けられる場合、翻訳エンジン部106は、例えば、Web上の翻訳サービスにより実現される。この場合、翻訳制御部107は、インターネットなどの通信ネットワークを通じて翻訳エンジン部106と通信し、中間言語選択部103で選択された中間言語への翻訳を介した翻訳を翻訳エンジン部106に要求する。
出力部108は、翻訳制御部107で生成された目的言語文をユーザに提示する。出力部108は、目的言語文とともに、原言語文、中間言語文、解析情報の反映の有無に関するメッセージなどを含む注釈情報を提示することができる。中間言語文は、原文を選択された中間言語に翻訳することで得られる中間訳文である。目的言語文の提示は、例えば、ディスプレイ装置(図示せず)による画像出力、プリンタ装置(図示せず)による印字出力、音声合成装置(図示せず)による音声出力などのいかなる方法で実行されてもよい。また、これらの出力方法を複数組み込んでおき、必要に応じて切り替えるように構成してもよく、これらの出力方法のうちの2以上を併用してもよい。
図4は、出力部108がディスプレイ装置に目的言語文を出力する場合における表示画面の一例を示している。図4に示すように、表示画面は、入力された原文を表示するフィールド401、目的言語文を表示するフィールド402、及び中間言語文を表示するフィールド403を含む。
図5は、出力部108がディスプレイ装置に目的言語文を出力する場合における表示画面の他の例を示している。図5に示すように、表示画面は、入力された原文を表示するフィールド501、翻訳結果を表示するフィールド502、及びメッセージを表示するフィールド503を含む。図5の例では、フィールド503に表示されているメッセージは、原文の丁寧表現が訳文に反映されていない可能性があることを示す。このメッセージは、例えば、原文に丁寧表現が含まれていることが原文解析部102によって判断されているが、選択された中間言語において丁寧表現に関する伝達度が閾値より低い場合に、通知される。このような場合には、中間言語選択部103が複数の中間言語を選択し、翻訳制御部107が選択された複数の中間言語に対応する複数の目的言語文を生成し、出力部108がこれら目的言語文を訳文候補としてフィールド502に表示してもよい。訳文候補は、中間言語選択部103によって算出されたスコアの高い順に並び替えて表示される。さらに、図6に示すように、フィールド502には、訳文候補に対応付けて、その訳文候補を得るために使用した中間言語と、フィールド503に表示されたメッセージに対する適否に関する情報と、が表示されてもよい。
本実施形態に係る機械翻訳装置100は、原文の解析結果及び選択モデルに基づいて中間言語候補の中から中間言語を選択している。これにより、原文の翻訳に好適な中間言語を用いて翻訳を行うことが可能となり、原言語から目的言語への翻訳装置、原言語と目的言語との間の辞書、及び目的言語の言語的知識を利用できない場合においても、高精度な翻訳を行うことができる。
次に、機械翻訳装置100の機械翻訳処理について説明する。
図7は、本実施形態に係る機械翻訳処理の手順を示している。図7のステップS701では、入力受付部101は原言語による原文の入力を受け付ける。ステップS702では、中間言語選択部103は、中間言語選択処理によって、複数の中間言語候補の中から原文の翻訳に使用する中間言語を選択する。中間言語選択処理の詳細については後述する。
図7は、本実施形態に係る機械翻訳処理の手順を示している。図7のステップS701では、入力受付部101は原言語による原文の入力を受け付ける。ステップS702では、中間言語選択部103は、中間言語選択処理によって、複数の中間言語候補の中から原文の翻訳に使用する中間言語を選択する。中間言語選択処理の詳細については後述する。
ステップS703では、翻訳制御部107は、原言語から、選択された中間言語への翻訳を行う翻訳装置105に原文を与え、この翻訳装置105から中間言語文を得る。ステップS704では、翻訳制御部107は、選択された中間言語から目的言語への翻訳を行う翻訳装置105に中間言語文を与え、この翻訳装置105から目的言語文を得る。
ステップS705では、出力部108が、翻訳制御部107によって得られた目的言語文を出力する。例えば、目的言語文は、ディスプレイ装置の表示画面に表示される。これにより、機械翻訳処理が終了となる。
次に、図8を参照してステップS702に示した中間言語選択処理の詳細について説明する。
図8は、本実施形態に係る中間言語選択処理の手順を示している。図8のステップS801では、中間言語選択部103は、原言語から目的言語への翻訳に利用可能な自然言語である中間言語候補を翻訳制御部107から取得する。翻訳制御部107は翻訳エンジン部106に含まれる翻訳装置105に基づいて中間言語候補を判断することができる。ステップS802では、中間言語選択部103は、中間言語候補が複数あるか否かを判定する。中間言語候補が1つである場合、中間言語選択部103はその中間言語候補を中間言語として選択し、中間言語選択処理が終了となる。
図8は、本実施形態に係る中間言語選択処理の手順を示している。図8のステップS801では、中間言語選択部103は、原言語から目的言語への翻訳に利用可能な自然言語である中間言語候補を翻訳制御部107から取得する。翻訳制御部107は翻訳エンジン部106に含まれる翻訳装置105に基づいて中間言語候補を判断することができる。ステップS802では、中間言語選択部103は、中間言語候補が複数あるか否かを判定する。中間言語候補が1つである場合、中間言語選択部103はその中間言語候補を中間言語として選択し、中間言語選択処理が終了となる。
中間言語候補が複数ある場合、ステップS803に進む。ステップS803では、中間言語選択部103は、原文解析部102から解析情報を取得する。原文解析部102は、従来から用いられている形態素解析、統語解析、及び依存構造解析などの解析処理を実行することにより解析情報を生成する。
ステップS804では、解析情報及び選択モデルに基づいて中間言語候補のスコアを算出する。一例として、中間言語候補lのスコアZlは下記数式(1)に従って算出される。
ここで、fiは解析情報に含まれる原文特徴#iに割り当てられた値を表し、wl,iは原文特徴#iに対する中間言語候補lの伝達度を表し、Nは原文特徴の数を表し、φ(・)は任意の特性関数を表す。
ステップS805は、中間言語選択部103は、スコアが最大となる中間言語候補を中間言語として選択する。それにより、中間言語選択処理が終了となる。
なお、中間言語選択部103は、原文解析部102が原文特徴の取得に失敗した場合や、最大のスコアが所定の閾値以下である場合には、規定の中間言語を選択してもよい。この規定の中間言語は、機械翻訳装置100が自動的に設定してもよく、機械翻訳装置100のユーザが外部から設定してもよい。
続いて、本実施形態に係る機械翻訳処理の具体例について説明する。ここでは、「ハンス、お元気ですか?」という日本語が入力され、これをドイツ語に翻訳する場合を例に挙げて説明する。日本語からドイツ語への翻訳に利用可能な中間言語候補としては、英語、中国語、及び韓国語を想定し、選択モデルが図3に示した伝達度を格納している。また、原文解析部102が日本語文「ハンス、お元気ですか?」を解析した結果、図2に示した解析情報が得られたとする。図2の例では、原文特徴#2、#4、#11の値が1であり、それ以外の原文特徴の値が0である。すなわち、fi=1(i=2,4,11)、fi=0(i=1,3,5,…,10,12,…,N)である。
数式(1)に示される特性関数φ(・)は、原文特徴の値を任意の数値に変換するために用いられる。ここでは、“0”と“1”の2値を用いるので、φ(fi)=fiとする。この場合、数式(1)は、解析情報を重みとして用いて、選択モデルの伝達度を重み付き加算することに対応する。数式(1)に従い中間言語候補のスコアを算出すると、
Z(英語) =0.9+1.0+0.2=2.1
Z(中国語)=0.7+1.0+0.2=1.9
Z(韓国語)=0.8+1.0+0.8=2.6
が得られる。この結果、中間言語として韓国語が選択される。
Z(英語) =0.9+1.0+0.2=2.1
Z(中国語)=0.7+1.0+0.2=1.9
Z(韓国語)=0.8+1.0+0.8=2.6
が得られる。この結果、中間言語として韓国語が選択される。
次に、翻訳制御部107は、日本語から選択された中間言語である韓国語への翻訳を行う翻訳装置105Cを用いて原言語文を翻訳する。
続いて、翻訳制御部107は、韓国語から目的言語であるドイツ語への翻訳を行う翻訳装置105Fを用いて中間言語文を翻訳する。
以上のように、本実施形態に係る機械翻訳装置は、原文の解析結果及び選択モデルに基づいて中間言語候補の中から中間言語を選択している。これにより、入力された原文の翻訳に好適な中間言語を用いて翻訳を行うことが可能となり、その結果、高精度な翻訳を行うことができる。
上述の実施形態の中で示した処理手順に示された指示は、ソフトウェアであるプログラムに基づいて実行されることが可能である。汎用の計算機システムが、このプログラムを予め記憶しておき、このプログラムを読み込むことにより、上述した実施形態の機械翻訳装置による効果と同様な効果を得ることも可能である。上述の実施形態で記述された指示は、コンピュータに実行させることのできるプログラムとして、磁気ディスク(フレキシブルディスク、ハードディスクなど)、光ディスク(CD−ROM、CD−R、CD−RW、DVD−ROM、DVD±R、DVD±RWなど)、半導体メモリ、又はこれに類する記録媒体に記録される。コンピュータ又は組み込みシステムが読み取り可能な記録媒体であれば、その記憶形式は何れの形態であってもよい。コンピュータは、この記録媒体からプログラムを読み込み、このプログラムに基づいてプログラムに記述されている指示をCPUで実行させれば、上述した実施形態の機械翻訳装置と同様な動作を実現することができる。もちろん、コンピュータがプログラムを取得する場合又は読み込む場合はネットワークを通じて取得又は読み込んでもよい。
また、記録媒体からコンピュータや組み込みシステムにインストールされたプログラムの指示に基づきコンピュータ上で稼働しているOS(オペレーティングシステム)や、データベース管理ソフト、ネットワーク等のMW(ミドルウェア)等が本実施形態を実現するための各処理の一部を実行してもよい。
さらに、本実施形態における記録媒体は、コンピュータあるいは組み込みシステムと独立した媒体に限らず、LANやインターネット等により伝達されたプログラムをダウンロードして記憶又は一時記憶した記録媒体も含まれる。
また、記録媒体は1つに限られず、複数の媒体から本実施形態における処理が実行される場合も、本実施形態における記録媒体に含まれ、媒体の構成は何れの構成であってもよい。
さらに、本実施形態における記録媒体は、コンピュータあるいは組み込みシステムと独立した媒体に限らず、LANやインターネット等により伝達されたプログラムをダウンロードして記憶又は一時記憶した記録媒体も含まれる。
また、記録媒体は1つに限られず、複数の媒体から本実施形態における処理が実行される場合も、本実施形態における記録媒体に含まれ、媒体の構成は何れの構成であってもよい。
なお、本実施形態におけるコンピュータ又は組み込みシステムは、記録媒体に記憶されたプログラムに基づき、本実施形態における各処理を実行するためのものであって、パソコン、マイコン等の1つからなる装置、複数の装置がネットワーク接続されたシステム等の何れの構成であってもよい。
また、本実施形態におけるコンピュータとは、パソコンに限らず、情報処理機器に含まれる演算処理装置、マイコン等も含み、プログラムによって本実施形態における機能を実現することが可能な機器、装置を総称している。
また、本実施形態におけるコンピュータとは、パソコンに限らず、情報処理機器に含まれる演算処理装置、マイコン等も含み、プログラムによって本実施形態における機能を実現することが可能な機器、装置を総称している。
本発明のいくつかの実施形態を説明したが、これらの実施形態は、例として提示したものであり、発明の範囲を限定することは意図していない。これら新規な実施形態は、その他の様々な形態で実施されることが可能であり、発明の要旨を逸脱しない範囲で、種々の省略、置き換え、変更を行うことができる。これら実施形態やその変形は、発明の範囲や要旨に含まれるとともに、特許請求の範囲に記載された発明とその均等の範囲に含まれる。
100…機械翻訳装置、101…入力受付部、102…原文解析部、103…中間言語選択部、104…選択モデル記憶部、105…翻訳装置、106…翻訳エンジン部、107…翻訳制御部、108…出力部。
Claims (12)
- 原言語から中間言語を介して目的言語に翻訳する機械翻訳装置であって、
前記原言語による原文の入力を受け付ける入力受付部と、
前記原文を解析して解析情報を生成する原文解析部と、
前記原言語から複数の中間言語候補それぞれへの翻訳特性をモデル化した選択モデルを記憶する選択モデル記憶部と、
前記解析情報及び前記選択モデルに基づいて、前記複数の中間言語候補の中から前記中間言語を選択する中間言語選択部と、
前記中間言語を介して前記原文を前記目的言語に翻訳した目的言語文を生成する翻訳制御部と、
前記目的言語文を出力する出力部と、
を具備する機械翻訳装置。 - 前記中間言語選択部は、前記解析情報及び前記選択モデルに基づいて前記複数の中間言語候補それぞれのスコアを算出し、前記スコアが最大となる中間言語候補を前記中間言語として選択する、請求項1に記載の機械翻訳装置。
- 前記解析情報は、少なくとも1つの原文の特徴に割り当てられた値を含み、
前記中間言語選択部は、前記解析情報を重みとして用いて前記選択モデルを重み付き加算することによって前記スコアを算出する、請求項2に記載の機械翻訳装置。 - 前記選択モデルは、前記複数の中間言語候補それぞれに関して、少なくとも1つの前記原文の特徴に対する伝達度を含む、請求項3に記載の機械翻訳装置。
- 前記原文の特徴は、文体、時制、態、敬語表現、語の曖昧性、構文構造、及び文字種の少なくとも1つに関する情報を含む、請求項3に記載の機械翻訳装置。
- 前記中間言語選択部は、前記複数の中間言語候補の中から前記中間言語とは異なる他の中間言語をさらに選択し、
前記翻訳制御部は、前記他の中間言語を介して前記原文を前記目的言語に翻訳した他の目的言語文をさらに生成し、
前記出力部は、前記スコアの高い順に前記目的言語文及び前記他の目的言語文を並び替えて出力するとともに、注釈情報を出力する、請求項2に記載の機械翻訳装置。 - 前記注釈情報は、前記解析情報の反映の有無を示す情報を含む、請求項6に記載の機械翻訳装置。
- 前記注釈情報は、前記原文を前記中間言語に翻訳した結果である中間言語文を含む、請求項6に記載の機械翻訳装置。
- 前記原言語から前記複数の中間言語候補それぞれへの翻訳を行う複数の翻訳装置、及び前記複数の中間言語候補それぞれから前記目的言語への翻訳を行う複数の翻訳装置をさらに具備する、請求項1に記載の機械翻訳装置。
- 前記翻訳制御部は、通信ネットワークを通じて、前記原言語から前記複数の中間言語候補それぞれへの翻訳を行う複数の翻訳装置、及び前記複数の中間言語候補それぞれから前記目的言語への翻訳を行う複数の翻訳装置と通信する、請求項1に記載の機械翻訳装置。
- 原言語から中間言語を介して目的言語に翻訳する機械翻訳方法であって、
前記原言語による原文の入力を受け付けることと、
前記原文を解析して解析情報を生成することと、
前記解析情報と前記原言語から複数の中間言語候補それぞれへの翻訳特性をモデル化した選択モデルとに基づいて、前記複数の中間言語候補の中から前記中間言語を選択することと、
前記中間言語を介して前記原文を前記目的言語に翻訳した目的言語文を生成することと、
前記目的言語文を出力することと、
を具備する機械翻訳方法。 - 原言語から中間言語を介して目的言語に翻訳する機械翻訳プログラムであって、
コンピュータを、
前記原言語による原文の入力を受け付ける入力受付手段と、
前記原文を解析して解析情報を生成する原文解析手段と、
前記解析情報と前記原言語から複数の中間言語候補それぞれへの翻訳特性をモデル化した選択モデルとに基づいて、前記複数の中間言語候補の中から前記中間言語を選択する中間言語選択手段と、
前記中間言語を介して前記原文を前記目的言語に翻訳した目的言語文を生成する翻訳制御手段と、
前記目的言語文を出力する出力手段として機能させるための機械翻訳プログラム。
Priority Applications (3)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
JP2013194640A JP2015060458A (ja) | 2013-09-19 | 2013-09-19 | 機械翻訳装置、方法、及びプログラム |
US14/490,739 US20150081273A1 (en) | 2013-09-19 | 2014-09-19 | Machine translation apparatus and method |
EP14185518.9A EP2851809A3 (en) | 2013-09-19 | 2014-09-19 | Machine translation apparatus and method |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
JP2013194640A JP2015060458A (ja) | 2013-09-19 | 2013-09-19 | 機械翻訳装置、方法、及びプログラム |
Publications (1)
Publication Number | Publication Date |
---|---|
JP2015060458A true JP2015060458A (ja) | 2015-03-30 |
Family
ID=51589127
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
JP2013194640A Pending JP2015060458A (ja) | 2013-09-19 | 2013-09-19 | 機械翻訳装置、方法、及びプログラム |
Country Status (3)
Country | Link |
---|---|
US (1) | US20150081273A1 (ja) |
EP (1) | EP2851809A3 (ja) |
JP (1) | JP2015060458A (ja) |
Cited By (1)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
JP2021190052A (ja) * | 2020-05-27 | 2021-12-13 | ネイバー コーポレーションNAVER Corporation | 会議補助用翻訳ツールのための方法およびシステム |
Families Citing this family (4)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
US20150254236A1 (en) * | 2014-03-13 | 2015-09-10 | Michael Lewis Moravitz | Translation software built into internet |
US9928236B2 (en) * | 2015-09-18 | 2018-03-27 | Mcafee, Llc | Systems and methods for multi-path language translation |
US10769386B2 (en) * | 2017-12-05 | 2020-09-08 | Sap Se | Terminology proposal engine for determining target language equivalents |
CN115269627A (zh) * | 2022-05-27 | 2022-11-01 | 上海迈伺通健康科技有限公司 | 使用中文指令操作数据库的方法、系统、设备及存储介质 |
Family Cites Families (23)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
JP3114703B2 (ja) * | 1998-07-02 | 2000-12-04 | 富士ゼロックス株式会社 | 対訳文検索装置 |
JP3055545B1 (ja) * | 1999-01-19 | 2000-06-26 | 富士ゼロックス株式会社 | 関連文検索装置 |
US8874431B2 (en) * | 2001-03-16 | 2014-10-28 | Meaningful Machines Llc | Knowledge system method and apparatus |
US7860706B2 (en) * | 2001-03-16 | 2010-12-28 | Eli Abir | Knowledge system method and appparatus |
KR100676697B1 (ko) * | 2001-06-13 | 2007-01-31 | 삼성전자주식회사 | 컴퓨터용 소프트웨어의 언어표시방법 및언어표시시스템과, 언어표시방법과 언어표시시스템이저장된 기록매체 |
WO2004001623A2 (en) * | 2002-03-26 | 2003-12-31 | University Of Southern California | Constructing a translation lexicon from comparable, non-parallel corpora |
JP4410486B2 (ja) * | 2003-05-12 | 2010-02-03 | インターナショナル・ビジネス・マシーンズ・コーポレーション | 機械翻訳装置及びプログラム |
AU2004318192A1 (en) * | 2004-04-06 | 2005-10-20 | Department Of Information Technology | A system for multiligual machine translation from English to Hindi and other Indian languages using pseudo-interlingua and hybridized approach |
US7546235B2 (en) * | 2004-11-15 | 2009-06-09 | Microsoft Corporation | Unsupervised learning of paraphrase/translation alternations and selective application thereof |
US20080221868A1 (en) * | 2005-09-05 | 2008-09-11 | Melnick Einat H | Digital universal language |
US20080040094A1 (en) * | 2006-08-08 | 2008-02-14 | Employease, Inc. | Proxy For Real Time Translation of Source Objects Between A Server And A Client |
US8145473B2 (en) * | 2006-10-10 | 2012-03-27 | Abbyy Software Ltd. | Deep model statistics method for machine translation |
US8195447B2 (en) * | 2006-10-10 | 2012-06-05 | Abbyy Software Ltd. | Translating sentences between languages using language-independent semantic structures and ratings of syntactic constructions |
JP4256891B2 (ja) * | 2006-10-27 | 2009-04-22 | インターナショナル・ビジネス・マシーンズ・コーポレーション | 機械翻訳の精度を向上させる技術 |
US20080221864A1 (en) * | 2007-03-08 | 2008-09-11 | Daniel Blumenthal | Process for procedural generation of translations and synonyms from core dictionaries |
US8185375B1 (en) * | 2007-03-26 | 2012-05-22 | Google Inc. | Word alignment with bridge languages |
JP5280642B2 (ja) * | 2007-04-23 | 2013-09-04 | 株式会社船井電機新応用技術研究所 | 翻訳システム及び翻訳プログラム、並びに、対訳データ生成方法 |
US20080312902A1 (en) * | 2007-06-18 | 2008-12-18 | Russell Kenneth Dollinger | Interlanguage communication with verification |
US8209164B2 (en) * | 2007-11-21 | 2012-06-26 | University Of Washington | Use of lexical translations for facilitating searches |
US8655644B2 (en) * | 2009-09-30 | 2014-02-18 | International Business Machines Corporation | Language translation in an environment associated with a virtual application |
KR20130014106A (ko) * | 2011-07-29 | 2013-02-07 | 한국전자통신연구원 | 다중 번역 엔진을 사용한 번역 장치 및 방법 |
US9465797B2 (en) * | 2012-02-23 | 2016-10-11 | Google Inc. | Translating text using a bridge language |
JP5915326B2 (ja) * | 2012-03-29 | 2016-05-11 | 富士通株式会社 | 機械翻訳装置、機械翻訳方法及び機械翻訳プログラム |
-
2013
- 2013-09-19 JP JP2013194640A patent/JP2015060458A/ja active Pending
-
2014
- 2014-09-19 US US14/490,739 patent/US20150081273A1/en not_active Abandoned
- 2014-09-19 EP EP14185518.9A patent/EP2851809A3/en not_active Withdrawn
Cited By (3)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
JP2021190052A (ja) * | 2020-05-27 | 2021-12-13 | ネイバー コーポレーションNAVER Corporation | 会議補助用翻訳ツールのための方法およびシステム |
JP7101212B2 (ja) | 2020-05-27 | 2022-07-14 | ネイバー コーポレーション | 会議補助用翻訳ツールのための方法およびシステム |
US11487955B2 (en) | 2020-05-27 | 2022-11-01 | Naver Corporation | Method and system for providing translation for conference assistance |
Also Published As
Publication number | Publication date |
---|---|
US20150081273A1 (en) | 2015-03-19 |
EP2851809A3 (en) | 2015-07-22 |
EP2851809A2 (en) | 2015-03-25 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
US9916306B2 (en) | Statistical linguistic analysis of source content | |
JP4410486B2 (ja) | 機械翻訳装置及びプログラム | |
US10789431B2 (en) | Method and system of translating a source sentence in a first language into a target sentence in a second language | |
JP4940325B2 (ja) | 文書校正支援装置、方法およびプログラム | |
JP2008276517A (ja) | 訳文評価装置、訳文評価方法およびプログラム | |
KR101573854B1 (ko) | 관계어 기반 확률추정 방법을 이용한 통계적 문맥의존 철자오류 교정 장치 및 방법 | |
JP2010205268A (ja) | コンピュータ支援自然言語翻訳 | |
JP6532088B2 (ja) | 自律学習整列ベースの整列コーパス生成装置およびその方法と、整列コーパスを用いた破壊表現の形態素分析装置およびその形態素分析方法 | |
US20220067290A1 (en) | Automatically identifying multi-word expressions | |
JP2007241764A (ja) | 構文解析プログラム、構文解析方法、構文解析装置、及び構文解析プログラムが記録されたコンピュータ読み取り可能な記録媒体 | |
JP2015060458A (ja) | 機械翻訳装置、方法、及びプログラム | |
KR101709693B1 (ko) | 크라우드 소싱을 이용한 웹툰 언어 자동 번역 방법 | |
US20150161109A1 (en) | Reordering words for machine translation | |
RU2682002C2 (ru) | Способ и система для сопоставления исходного лексического элемента первого языка с целевым лексическим элементом второго языка | |
JP2010244385A (ja) | 機械翻訳装置、機械翻訳方法、およびプログラム | |
JP2007317000A (ja) | 機械翻訳装置、その方法およびプログラム | |
JP5025603B2 (ja) | 機械翻訳装置、機械翻訳プログラム及び機械翻訳方法 | |
JP4869281B2 (ja) | 機械翻訳装置、プログラム及び方法 | |
US7983899B2 (en) | Apparatus for and method of analyzing chinese | |
JP2007323476A (ja) | 機械翻訳装置及びコンピュータプログラム | |
JP5302784B2 (ja) | 機械翻訳方法、及びシステム | |
JP2008140204A (ja) | データ検索システム及びプログラム | |
JP6599188B2 (ja) | 対訳辞書作成装置、対訳辞書作成方法およびプログラム | |
JP2011186507A (ja) | 翻訳前換言規則生成システム、翻訳前換言規則生成方法および翻訳前換言規則生成用プログラム | |
JP4001605B2 (ja) | 翻訳パターン作成装置 |