[go: up one dir, main page]

JP2012230460A - 機械翻訳システム、方法及びプログラム - Google Patents

機械翻訳システム、方法及びプログラム Download PDF

Info

Publication number
JP2012230460A
JP2012230460A JP2011096846A JP2011096846A JP2012230460A JP 2012230460 A JP2012230460 A JP 2012230460A JP 2011096846 A JP2011096846 A JP 2011096846A JP 2011096846 A JP2011096846 A JP 2011096846A JP 2012230460 A JP2012230460 A JP 2012230460A
Authority
JP
Japan
Prior art keywords
translation
format information
language
translated
original text
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Pending
Application number
JP2011096846A
Other languages
English (en)
Inventor
Enko Sai
遠航 蔡
Takashi Shibuya
貴志 澁谷
Yumiko Yoshimura
裕美子 吉村
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Toshiba Corp
Toshiba Digital Solutions Corp
Original Assignee
Toshiba Corp
Toshiba Solutions Corp
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Toshiba Corp, Toshiba Solutions Corp filed Critical Toshiba Corp
Priority to JP2011096846A priority Critical patent/JP2012230460A/ja
Publication of JP2012230460A publication Critical patent/JP2012230460A/ja
Pending legal-status Critical Current

Links

Images

Landscapes

  • Information Retrieval, Db Structures And Fs Structures Therefor (AREA)
  • Machine Translation (AREA)
  • Document Processing Apparatus (AREA)

Abstract

【課題】翻訳用例を用いて用例翻訳する場合であっても翻訳対象原文が持つ書式情報を考慮に入れて翻訳対象原文の訳文を作成する機械翻訳システム、方法及びプログラムを提供することである。
【解決手段】翻訳用例データベース28に翻訳用例を登録する際には、用例登録手段34は、書式情報取得手段33で取得した登録原文が持つ書式情報も登録し、登録した当該用例を使用する場合には、書式情報照合手段36は、翻訳対象原文が持つ書式情報と翻訳用例検索手段35で検索した翻訳用例が持つ書式情報とを照合し、訳文作成手段37は、両者の書式情報が一致した場合に当該翻訳用例の訳文を用いて翻訳対象原文の訳文を作成する。
【選択図】 図1

Description

本発明の実施形態は、第1言語の原文と第2言語の訳文との対訳である翻訳用例を用いて翻訳する機械翻訳システム、方法及びプログラムに関する。
第1言語の原文を第2言語の文に翻訳する機械翻訳システムにおいて、翻訳用例を用いた用例翻訳という手法がある。用例翻訳では、第1言語の原文と第2言語の訳文との対訳からなる翻訳用例を予め翻訳用例データベースに複数蓄積しておき、入力された翻訳対象原文に類似する翻訳用例(以下類似用例という)を検索して、翻訳対象原文が検索された類似用例とぴったり一致するのであれば、類似用例訳文を翻訳対象原文の訳文として出力する。
翻訳対象原文と検索された類似用例原文とで相違箇所(以下差分という)があれば、差分を語句単位で判定し、類似用例原文中の差分に対応する類似用例訳文の語句を判定し、当該語句を翻訳対象原文中の差分の語句に対応する訳語で置換して訳文を作成する。
翻訳用例データベースに蓄積されている翻訳用例にはテキスト情報しかないため、用例翻訳時に翻訳対象原文のテキストのみが使用され、翻訳対象原文が書式情報を持つ場合でもその書式情報は使用されない。例えば、Word文書やHTML文書では各文には書式情報が付与されているが、現状ではこれらの書式情報は用例翻訳を行う際には使用されない。このため、異なる書式を持つ原文テキストを翻訳すると、書式情報に関係なく同様な訳文になってしまい、翻訳精度の低下をもたらす場合がある。
例えば、翻訳用例原文が「トラブルを解消する」であり、翻訳用例訳文が「Canceling Trouble」である翻訳用例の場合、この翻訳用例を含む翻訳用例データベースを用いて用例翻訳を行うと、文書の中のすべての「トラブルを解消する」の訳文が「Canceling Trouble」となる。この訳文はタイトル文の訳文としては相応しいが、通常の文の訳文としては完全でなく、翻訳精度の低下となってしまっている。
そこで、通条文の訳文に相応しい翻訳用例として、翻訳用例原文が「トラブルを解消する」であり、翻訳用例訳文が「Cancel a trouble」である翻訳用例を新規に登録した場合には、更新日時の新しい翻訳用例が優先的に適用されるため、文中のすべての「トラブルを解消する」が「Cancel a trouble」となってしまう。
翻訳対象原文の書式に応じて翻訳方式を変えるものとして、翻訳対象の入力文データを1文ずつ区切り、その各文の書式から当該文は表題か、箇条書きか、本文かなどの文書を判別し、判別した文種別に応じた翻訳処理を行い、各文の文種に従って当該文データをそれに適合する翻訳とするようにしたものがある(例えば、特許文献1参照)。しかし、この特許文献1のものは、用例翻訳での翻訳対象原文の書式情報を考慮したものではない。
このように、現状では用例翻訳において、用例データベースに蓄積されている翻訳用例にはテキスト情報しかなく、原文のテキスト情報のみで訳文を作成している。そのため、個々の文に書式情報が付与されている文書において、テキストが同じである原文はすべて同じ訳文となり、翻訳精度の低下が発生する。
特公平4−12505号公報
本発明が解決しようとする課題は、翻訳用例を用いて用例翻訳する場合であっても翻訳対象原文が持つ書式情報を考慮に入れて翻訳対象原文の訳文を作成する機械翻訳システム、方法及びプログラムを提供することである。
本発明の実施形態の機械翻訳システムは、機械翻訳プログラム、翻訳対象の第1言語の原文を翻訳目的の第2言語の訳文に翻訳するための機械翻訳辞書、機械翻訳規則、第1言語の原文と第2言語の訳文との対訳からなる翻訳用例を蓄積した翻訳用例データベース、各種アプリケーションが持つ書式情報と前記書式情報に対応した内部コードとの対からなる書式情報内部コード対応表を記憶した記憶装置と、機械翻訳プログラムを演算実行する演算制御装置とを備える。
書式情報取得手段は、入力装置から入力された第1言語の原文と第2言語の訳文との対訳である翻訳用例を翻訳用例データベースに登録する際に、第1言語の原文の書式情報を取得し、表示装置に表示した翻訳用例登録画面の適用書式欄に第1言語の書式情報を表示出力する。
翻訳用例登録手段は、翻訳用例登録画面の適用書式欄に表示された書式情報に対し、入力装置により設定された書式情報を書式情報内部コード対応表に基づいて内部コードに変換し、それを含めて翻訳用例を前記翻訳用例データベースに登録する。
翻訳用例検索手段は、入力装置から入力された第1言語の原文を検索キーとして翻訳用例データベースから第1言語の原文に類似する翻訳用例を検索する。書式情報照合手段は、翻訳用例検索手段で検索された第1言語の原文に類似する翻訳用例の原文が持つ書式情報と第1言語の原文が持つ書式情報とを照合する。訳文作成手段は、書式情報照合手段の照合で第1言語の原文と翻訳用例の原文とが一致する場合に翻訳用例を使用して第1言語の原文の訳文を作成する。
本発明の実施形態に係る機械翻訳システムの機能ブロック図。 本発明の実施形態に係る機械翻訳システムのハードウエア構成を示すブロック構成図。 本発明の実施形態に係る機械翻訳システムの用例翻訳処理の内容を示すフローチャート。 図3の処理式情報取得処理S1の内容を示すフローチャート。 本発明の実施形態に係る機械翻訳システムと任意のアプリケーションとの連携翻訳の一例を示す構成図。 本発明の実施形態における翻訳用例登録画面の一例の説明図。 本発明の実施形態における書式情報登録画面の一例の説明図。 図3の用例翻訳処理S3の内容を示すフローチャート。 本発明の実施形態に係る機械翻訳システムにて用例翻訳する場合の翻訳文書の一例の説明図である。 翻訳対象原文が存在するアプリケーションと機械翻訳システムとが別々な処理環境に存在する場合の説明図。
以下、図面を参照しながら本発明の実施形態を説明する。図1は本発明の実施形態に係る機械翻訳システム11の機能ブロック図、図2は本発明の実施形態に係る機械翻訳システムのハードウエア構成を示すブロック構成図である。
図2において、機械翻訳システム11は、例えば一般的なコンピュータに機械翻訳プログラムなどのソフトウェアプログラムがインストールされ、そのソフトウェアプログラムが演算制御装置12のプロセッサ13において実行されることにより実現される。
演算制御装置12は機械翻訳に関する各種演算を行うものであり、演算制御装置12はプロセッサ13とメモリ14とを有し、メモリ14には翻訳に関する機械翻訳プログラム15が記憶され、プロセッサ13により処理が実行される際には作業エリア16が用いられる。演算制御装置12の演算結果等は出力装置17である表示装置18、印刷装置19、ディスクドライブ20に出力され、また、通信制御装置21を介して通信ネットワークに出力される。
入力装置22は演算制御装置12に情報を入力するものであり、例えば、マウス23、キーボード24、ディスクドライブ20、通信制御装置21から構成され、例えば、マウス23やキーボード24は表示装置18を介して演算制御装置12に各種指令を入力し、キーボード24、ディスクドライブ20、通信制御装置21は翻訳対象の文書を入力する。
すなわち、ディスクドライブ20は翻訳対象の文書のファイルを記憶媒体に入出力するものであり、通信制御装置21は機械翻訳システム11をインターネットやLANなどの通信ネットワークに接続するものである。通信制御装置21はLANカードやモデムなどの装置であり、通信制御装置21を介して通信ネットワークと送受信したデータは入力信号又は出力信号として演算制御装置12に送受信される。さらに、演算制御装置12の演算結果や翻訳に必要な知識・規則を蓄積した翻訳辞書等を記憶するハードディスクドライブ(HDD)25が設けられている。
図1は本発明の実施形態に係る機械翻訳システム11の機能ブロック図である。図2に示す演算制御装置12内の各機能ブロックは、上述の機械翻訳プログラム15を構成する各プログラムに対応する。すなわち、プロセッサ13が機械翻訳プログラム15を構成する各プログラムを実行することで、演算制御装置12は、各機能ブロックとして機能することとなる。また、記憶装置26の各ブロックは、演算制御装置12内のメモリ14及びハードディスクドライブ25の記憶領域に対応する。
記憶装置26には、翻訳対象の第1言語の原文を翻訳目的の第2言語の訳文に翻訳するための機械翻訳辞書及び機械翻訳規則を格納した辞書規則部27、第1言語の原文と第2言語の訳文との対訳からなる複数の翻訳用例を蓄積した翻訳用例データベース28、各種のアプリケーションプログラム(以下、アプリケーションという)が持つ書式情報とその書式情報に対応した内部コードとの対からなる書式情報内部コード対応表29が記憶されている。
演算制御装置12の入力処理部30は、入力装置22から入力された翻訳対象の第1言語の原文や操作に必要な情報を入力処理し翻訳部31に出力する。
演算制御装置12の翻訳部31は、翻訳用例データベース28の翻訳用例、辞書規則部27の機械翻訳辞書及び機械翻訳規則、書式情報内部コード対応表29の書式情報内部コードを用いて、入力装置22から入力された翻訳対象の第1言語の原文の機械翻訳を行う。
演算制御装置12の表示処理部32は、翻訳対象の第1言語の原文や翻訳後の第2言語の訳文、翻訳用例を登録する際の第1言語の原文と第2言語の訳文の対訳、その対訳と一緒に登録する書式情報を表示処理し、表示装置18に表示出力する。
翻訳部31は、第1言語の原文と第2言語の訳文との対訳を翻訳用例として翻訳用例データベース28に登録する際に第1言語の原文の書式情報を取得する書式情報取得手段33と、書式情報取得手段33で取得した書式情報を書式情報内部コード対応表29に基づいて内部コードに変換し、それを含めて第1言語の原文と第2言語の訳文との対訳を翻訳用例として翻訳用例データベース28に登録する用例登録手段34と、第1言語の翻訳対象原文を検索キーとして翻訳用例データベース28から翻訳対象原文に類似する翻訳用例を検索する翻訳用例検索手段35と、翻訳用例検索手段35で検索された類似用例が持つ書式情報を書式情報内部コード対応表29に基づいて内部コードに変換して、翻訳対象原文が持つ書式情報内部コードと照合する書式情報照合手段36と、書式情報照合手段36での照合で書式情報が一致した類似用例の訳文から翻訳対象原文の訳文を作成する訳文作成手段37と、書式情報照合手段36での照合で書式情報の一致する類似用例がない場合に辞書規則部27の機械翻訳辞書及び機械翻訳規則を用いて翻訳対象原文を翻訳する翻訳手段38とから構成される。
本発明の実施形態に係る機械翻訳システムでは、翻訳用例データベース28に翻訳用例を登録する際に、書式情報取得手段33で登録原文が持つ書式情報を取得し、用例登録手段34は書式情報とともに翻訳用例を翻訳用例データベース28に登録する。そして、翻訳用例データベース28に登録した当該用例を使用する際に、翻訳用例検索手段35は翻訳用例データベース28から翻訳用例を検索し、書式情報照合手段36は、検索された翻訳対象原文が書式情報を持っているときは、翻訳対象原文が持つ書式情報と当該用例が持つ書式情報を照合し、一致した場合に、訳文作成手段37は当該翻訳用例の訳文を用いて翻訳対象原文の訳文を作成する。
図3は、本発明の実施形態に係る機械翻訳システムの翻訳用例処理の内容を示すフローチャートである。まず、書式情報取得手段33は書式情報取得処理を行う(S1)。すなわち、書式情報取得手段33は、用例翻訳で書式情報を使用できるようにするために、予め登録する翻訳用例の書式情報を取得する。そして、用例登録手段34は、書式情報付き翻訳用例登録処理を行う(S2)。すなわち、用例登録手段34は、書式情報とともに翻訳用例を翻訳用例データベース28に登録する。
次に、翻訳用例検索手段35、書式情報照合手段36、訳文作成手段37は、用例翻訳を行う(S3)。すなわち、翻訳用例検索手段35、書式情報照合手段36、訳文作成手段37は、翻訳用例データベース28登録された書式情報付き翻訳用例を用いて用例翻訳処理を行う。
図4は、図3の書式情報取得処理S1の内容を示すフローチャートである。書式情報取得処理では、まず、書式情報取得手段33は、登録対象の翻訳用例の原文の文書が書式情報を持つ文書タイプか否かを判断する(S11)。
この場合、翻訳対象となる文書の情報(原文テキスト、書式情報)を機械翻訳システムに取り込む必要がある。翻訳対象となる文書は、任意のアプリケーションのファイル形式を持つ翻訳可能(テキスト取得可能)な文書を対象としているので、アプリケーションと機械翻訳システムとの連携とる必要がある。
このアプリケーションと機械翻訳システムとの連携には様々な方法がある。例えば、アプリケーション間のデータ通信インタフェース(技術)としては、DDE(Dynamic Data Exchange)、OLE(Object Linking and Embedding)、OCX(OLE Custom Control)、ActiveX、COM(Component Object Model)などがある。
図5は、本発明の実施形態に係る機械翻訳システムと任意のアプリケーションとの連携翻訳の一例を示す構成図である。図5に示すように、連携翻訳を実現するには、アプリケーション39に、マクロやプラグイン(以下、マクロ・プラグインという)を組み込む。これらは、一般に、アプリケーション39のツールバーやメニューコマンドとして実現している。このマクロ・プラグインは、ActiveXやCOMなどの連携インタフェース40を介して、機械翻訳システム11の翻訳部31と通信し、データのやりとりを行う。DDE、OLE、OCX、ActiveX、COMなどは成熟した技術で使用実績が多く、すでに様々な資料で紹介されているので、ここでは説明を省略する。
図4のステップS11での書式情報を持つ文書タイプかについての判定は、アプリケーションの種類から判定する。例えば、Word(登録商標)、Excel(登録商標)、PowerPoint(登録商標)などのアプリケーションの文書は書式情報を持っているので、これらのアプリケーションである場合には、書式情報を持つ文書タイプであると判定する。なお、アプリケーションの種類から判定することに代えて、翻訳対象となる文書の種類から判定するようにしてもよい。拡張子DOC、XLS、PPT、HTML、XMLの文書などは書式情報を持っているので、これらの文書である場合には書式情報を持つ文書タイプであると判定する。
次に、書式情報を持つ文書タイプである場合には、書式情報取得手段33は、アプリケーションに組み込んだマクロ・プラグインによって、登録対象の翻訳用例の原文テキストの書式情報を取得する(S12)。
そして、書式情報取得手段33は、取得した書式情報を翻訳用例登録画面にセットする(S13)。すなわち、後述するように、翻訳用例登録画面の適用書式欄に、登録しようとする翻訳用例の原文の書式情報を表示出力する。これにより、ユーザは書式情報を確認できるとともに、翻訳用例登録画面を通じて書式情報の設定更新ができるようにしている。
一方、ステップS11の判定で書式情報を持つ文書タイプでないと判定されたときは、初期情報を翻訳用例登録画面にセットする(S14)。これは、書式情報を持たないと文書タイプの場合であっても、翻訳用例登録画面を通じて書式情報の設定更新ができるようにするためである。
図6は本発明の実施形態における翻訳用例登録画面の一例の説明図である。図6に示すように、翻訳用例登録画面は、原文欄、訳文欄、適用書式欄、登録ボタン、キャンセルボタンが設けられている。原文欄には、登録する翻訳用例の原文「トラブルを解消する」を入力し、訳文欄には、登録する翻訳用例の訳文「Canceling Trouble」を入力する。翻訳用例の訳文は、機械翻訳が生成した訳文でもよく、ユーザが手動で入力した訳文でもよい。
適用書式は、登録した翻訳用例が用例翻訳で適用される書式であり、図6では、適用書式として、Word文書の「表」、「箇条書き」、「オートシェイプ」、「タイトル」、「見出し1」、「見出し2」、「見出し3」、「見出し4」、「本文」である場合を示している。この適用書式の□欄にレ点を入力することにより適用書式を選択する。
なお、「(書式なし)」は、これら一覧にあるすべての適用書式を選択しない場合に選択されるものであり、「すべての書式」は、これら一覧にあるすべての適用書式を選択する場合に選択されるものである。そして、登録ボタンは、翻訳用例を登録する場合に操作され、キャンセルボタンは処理をキャンセルする場合に操作される。
この適用書式の一覧にある候補は、書式情報を持つ文書タイプの場合は、その文書中の書式の一覧が書式情報取得手段33により表示される。一方、書式情報を持つ文書タイプでない場合は、書式情報取得手段33により予め定めた初期条件の書式情報が表示される。例えば、書式情報を持つ文書タイプでない場合は、予め定めた初期条件の書式情報として、「表」、「箇条書き」、「オートシェイプ」、「タイトル」、「本文」が表示される。なお、登録する翻訳用例の原文の文書タイプにかかわらず、常に初期条件の書式情報を一覧として表示するようにしてもよい。
図6の例では、翻訳用例の原文が「トラブルを解消する」であり、翻訳用例の訳文が「Canceling Trouble」であり、適用書式として「見出し2」が選択された翻訳用例を翻訳用例データベース28に登録する場合を示している。
次に、書式情報は、用例登録手段34により書式情報内部コード対応表に基づいて内部コードに変換され、翻訳用例データベースに登録される。書式情報内部コード対応表は、表1に示すように、書式情報と内部コードとが予め対応付けられた表である。
Figure 2012230460
表1に示すように、書式情報である「(書式なし)」〜「本文」は、内部コード「NONE」〜「NONE」に予め対応付けられている。すなわち、「(書式なし)」は「NONE」、「すべての書式」は「ALL」、「表」は「TABLE」、「箇条書き」は「ITEMS」、「オートシェイプ」は「SHAPE」、「タイトル」は「TITLE」、「見出し1」は「TITLE」、「見出し2」は「TITLE」、「見出し3」は「TITLE」、「見出し4」は「TITLE」、「本文」は「NONE」にそれぞれ対応付けられている。
ここで、書式情報取得手段33は、書式情報内部コード対応表にない新しい書式情報を検出したときは、ユーザに新規登録を促す書式情報登録画面を表示する。図7は書式情報登録画面の一例の説明図である。
いま、書式情報取得手段33が書式情報として書式情報内部コード対応表にない新しい書式情報「図表番号」を検出したとする。その場合、新規に検出した「図表番号」という書式に対して、内部コードを「CHARTNUM”」入力して登録を行う場合について説明する。
書式情報取得手段33は、書式情報内部コード対応表にない新しい書式情報を検出したとすると、図7に示す書式情報登録画面を表示する。書式情報登録画面は、書式欄、内部コード欄、登録ボタン、キャンセルボタンを有しており、書式欄には、新たに登録する書式情報の書式「図表番号」を入力し、内部コード欄には、新たに登録する書式情報の内部コード「CHARTNUM」を入力する。
内部コードはユーザが入力するようにしてもよいし、様々なアプリケーションを検証した結果に基づき、出現可能性のある書式情報に対応した内部コードを予め機械翻訳システムに持たせて、書式情報登録画面でユーザが選択できるようにするようにしてもよい。
そして、登録ボタンは、書式情報を登録する場合に操作され、キャンセルボタンは処理をキャンセルする場合に操作される。これにより、新規に検出した「図表番号」という書式に対して、内部コードが「CHARTNUM」の書式情報の登録を行う。登録を行った後の書式情報内部コード対応表を表2に示す。表2に示すように、表1に対して、書式「図表番号」と内部コード「CHARTNUM」とが追加されている。
Figure 2012230460
このように、書式情報取得手段33が書式情報内部コード対応表に登録されていない書式を検出すると、ユーザは書式情報内部コード対応表に登録することが可能となる。なお、書式情報内部コード対応表を編集するツールを用意し、登録、変更、削除などの機能を提供するようにしてもよい。
図6の例では、書式情報取得手段33は、Word文書から取得した書式の一覧が翻訳用例登録画面の適用書式欄に表示され、書式の一覧を生成するとともに、登録対象の翻訳用例の原文が持つ書式情報に応じて、書式情報の一覧の該当書式(見出し2)にチェックを付ける。なお、書式情報取得手段33は、該当書式(見出し2)以外の常に固定の書式(例えば「すべての書式」)を初期値としてチェックするようにしてもよい。これによって、ユーザの書式指定の適確さが向上するとともに、書式指定の労力が減らされる。
そして、ユーザが登録ボタンをクリックすると、図3の書式情報付き翻訳用例登録処理S2が用例登録手段34により実行され、翻訳用例登録画面で設定した適用書式は、原文、訳文の対訳とともに翻訳用例データベース28に登録される。この場合、翻訳用例登録画面で設定した適用書式は書式情報内部コード対応表に基づいて内部コードに変換され翻訳用例データベース28に登録される。
これにより、翻訳用例データベース28の登録情報は以下のようになっている。なお、SRCは原文を表し、TGTは訳文を表し、STYは書式情報を表す。
SRC:トラブルを解消する
TGT:Canceling Trouble
STY:TITLE
また、原文SRC、訳文TGT、書式情報STYに加えて、登録者、登録日時、更新者、更新日時などのフィールド(情報)を登録するようにしてもよい。
次に、このように登録された翻訳用例を使用して用例翻訳を行う翻訳処理について説明する。
図8は、図3の用例翻訳処理S3の内容を示すフローチャートである。図8に示すように、用例翻訳処理では、翻訳対象の第1言語の原文に対して翻訳要求が発行されたとき、翻訳手段38は、入力された翻訳対象原文に対して、辞書引き、形態素解析を行い(S31)、各形態素の品詞、活用の種類、各種属性、訳語などの各種情報を得る。
続いて、翻訳用例検索手段35は翻訳用例データベース28に対して翻訳用例の用例検索を行う(S32)。すなわち、入力された原文と同じ原文または類似原文を持つ翻訳用例が蓄積されているかを検索する。
この段階では、形態素解析結果や翻訳対象の原文中の各語に対する各種情報が取得されているため、カタカナや送り仮名の表記の揺れや、漢字表記とひらがな表記の揺れ、送り仮名の有無の揺れの情報も取得されている。これらの情報により、完全に入力原文と1文字違わず一致した翻訳用例でなくとも、これらの表記の揺れに関する違いについては違いとしては認識しないような揺れの吸収処理が可能である。
一方、表記の揺れは吸収しない完全一致の翻訳用例があるときのみ検索成功とすることも可能である。また、文字・単語上の違いがあっても同値とみなす差異文字数ないしは差異単語数の割合の下限値を設けて、いわゆる類似度により検索の可否を制御するようにしてもよい。例えば、入力原文の文字と用例原文の文字とのうち一致する文字の数により類似度を求め、類似度が所定値以上であるものを類似用例として検索するようにしてもよい。この場合、完全一致の翻訳用例は類似度が100%の類似用例となる。このようにして、語句・文字の使われ方が類似した翻訳用例を抽出する。この場合は、用例検索S2の処理を辞書引き、形態素解析の後にする必要がないので、図8の処理の最初に行うようにしてもよい。
次に、翻訳用例検索手段35は、用例検索で類似用例を検索できたか否かを判断する(S33)。類似用例を検索できなかった場合には、翻訳手段38は、辞書規則部27の機械翻訳辞書と機械翻訳規則とを用いて通常の翻訳を行い訳文を作成する(S36)。一方、類似用例を検索できた場合には、書式情報照合手段36は、検索できた翻訳用例が持つ書式情報と翻訳対象原文の書式情報を照合する(S34)。
翻訳対象原文の書式情報は、前述したように、アプリケーションに組み込まれたマクロ・プラグインによって翻訳原文テキストと一緒に機械翻訳システムに送られてくるため、取得済みであり、翻訳用例の書式情報は、前述した翻訳用例登録画面で登録済みである。そこで、書式情報照合手段36は、翻訳対象原文が持つ書式情報は表1に示した書式情報内部コード対応表に基いて内部コードに変換し、書式情報(内部コード)について照合を行う(S34)。すなわち、翻訳対象原文の書式情報と翻訳用例が持つ書式情報とが一致するかどうかを判定し(S35)、書式情報が一致すれば、その翻訳用例を使用して訳文を作成する(S36)。一方、書式情報が一致しなければ、ステップS32に戻って、再度、他に類似用例がないか用例検索を行う。
図9は用例翻訳する場合の翻訳文書の一例の説明図である。翻訳対象の原文はWord文書であり、書式情報として、「タイトル」、「見出し1」、「本文」を有した文書を示している。この場合、書式情報取得手段33は、翻訳対象の原文から表3に示す書式情報を取得する。
Figure 2012230460
表3中のIDは文番号である。「○○システム取扱説明書」は書式情報「タイトル」、「インストールする前に」は書式情報「見出し1」、「インストールする」は書式情報「見出し1」、「使ってみる」は書式情報「見出し1」、「トラブルを解消する」は書式情報「見出し1」、「トラブルを解消する」は書式情報「本文」である。いま、翻訳用例データベースには、以下の用例が登録されているとする。
SRC:トラブルを解消する
TGT:Canceling Trouble
STY:TITLE
15文目の「トラブルを解消する」の翻訳において、図8のステップS32で類似用例を検索でき、ステップS34で原文が持つ書式情報と類似用例が持つ書式情報の内部コードが共に「TITLE」となっているので、この類似用例が使用され、訳文が「Canceling Trouble」となる。
一方、17文目の「トラブルを解消する」の翻訳においては、ステップS32で類似用例を検索でき、ステップS34で原文が持つ書式情報と用例が持つ書式情報が一致しないので、最終的に類似用例が適用されない。従って、翻訳手段38が辞書規則部27の機械翻訳辞書と機械翻訳規則とを用いて通常の翻訳を行い、訳文が「Cancel a trouble」となる。
このように、翻訳用例を登録する際にその用例が適用できる書式情報を指定して登録し、用例翻訳の際に翻訳対象原文が持つ書式情報と用例に登録されている書式情報とを照合し、一致した場合に翻訳用例を使用して訳文を作成することによって、翻訳精度が向上する。
以上の説明では、翻訳対象原文が存在するアプリケーション、機械翻訳システムが同じ処理環境に共存している場合について説明したが、翻訳対象原文が存在するアプリケーションと機械翻訳システムとが別々な処理環境に存在する構成にしてもよい。
図10は翻訳対象原文が存在するアプリケーションと機械翻訳システムとが別々な処理環境に存在する場合の説明図である。例えば、図10では、翻訳対象原文が存在するアプリケーション39はクライアント41に存在し、機械翻訳システム11はサーバ42に存在する場合を示している。そして、クライアント41と機械翻訳システム11とはネットワーク43で接続されている。つまり、サーバ42はASP、SaaS、またはクラウドコンピューティング等と呼ばれる形態で機械翻訳の機能をクライアント41に提供することができる。
本発明のいくつかの実施形態を説明したが、これらの実施形態は、例として提示したものであり、発明の範囲を限定することは意図していない。これら新規な実施形態は、その他の様々な形態で実施されることが可能であり、発明の要旨を逸脱しない範囲で、種々の省略、置き換え、変更を行うことができる。これら実施形態やその変形は、発明の範囲や要旨に含まれるとともに、特許請求の範囲に記載された発明とその均等の範囲に含まれる。
11…機械翻訳システム、12…演算制御装置、13…プロセッサ、14…メモリ、15…機械翻訳プログラム、16…作業エリア、17…出力装置、18…表示装置、19…印刷装置、20…ディスクドライブ、21…通信制御装置、22…入力装置、23…マウス、24…キーボード、25…ハードディスクドライブ、26…記憶装置、27…辞書規則部、28…翻訳用例データベース、29…書式情報内部コード対応表、30…入力処理部、31…翻訳部、32…表示処理部、33…書式情報取得手段、34…用例登録手段、35…翻訳用例検索手段、36…書式情報照合手段、37…訳文作成手段、38…翻訳手段、39…マクロ・プラグイン、40…連携インタフェース、41…クライアント、42…サーバ、ネットワーク43

Claims (5)

  1. 機械翻訳プログラム、翻訳対象の第1言語の原文を翻訳目的の第2言語の訳文に翻訳するための機械翻訳辞書、前記第1言語の原文と前記第2言語の訳文との対訳からなる翻訳用例を蓄積した翻訳用例データベース、各種アプリケーションが持つ書式情報と前記書式情報に対応した内部コードとの対からなる書式情報内部コード対応表を記憶した記憶装置と、前記機械翻訳プログラムを演算実行する演算制御装置とを備えた機械翻訳システムにおいて、前記機械翻訳プログラムは、
    入力装置から入力された前記第1言語の原文と前記第2言語の訳文との対訳である翻訳用例を前記翻訳用例データベースに登録する際に前記第1言語の原文の書式情報を取得する書式情報取得手段と、
    前記書式情報を前記書式情報内部コード対応表に基づいて内部コードに変換しそれを含めて前記翻訳用例を前記翻訳用例データベースに登録する翻訳用例登録手段と、
    入力装置から入力された前記翻訳対象の第1言語の原文を検索キーとして前記翻訳用例データベースから前記翻訳対象の第1言語の原文に類似する翻訳用例を検索する翻訳用例検索手段と、
    前記翻訳対象の第1言語の原文に類似する翻訳用例の原文が持つ書式情報と前記翻訳対象の第1言語の原文が持つ書式情報とを照合する書式情報照合手段と、
    前記書式情報照合手段の照合で前記翻訳対象の第1言語の原文が持つ書式情報と翻訳用例の原文が持つ書式情報とが一致する場合に前記翻訳用例に基づいて前記第1言語の原文の訳文を作成する訳文作成手段とを備えた機械翻訳システム。
  2. 前記書式情報取得手段は、前記第1言語の原文と前記第2言語の訳文との対訳を前記翻訳用例データベースに登録する際に、翻訳用例登録画面の適用書式欄に、前記翻訳対象の文書のアプリケーションの種類に応じた適用書式を提供する請求項1記載の機械翻訳システム。
  3. 前記書式情報取得手段は、前記書式情報内部コード対応表に存在しない書式情報を検出したときは書式情報登録画面を表示し、前記入力装置から入力された書式情報と内部コードとの対を前記書式情報内部コード対応表に登録する請求項1記載の機械翻訳システム。
  4. 機械翻訳プログラム、翻訳対象の第1言語の原文を翻訳目的の第2言語の訳文に翻訳するための機械翻訳辞書、前記第1言語の原文と前記第2言語の訳文との対訳からなる翻訳用例を蓄積した翻訳用例データベース、各種アプリケーションが持つ書式情報と前記書式情報に対応した内部コードとの対からなる書式情報内部コード対応表を記憶した記憶装置と、前記機械翻訳プログラムを演算実行する演算制御装置とを備えたコンピュータを操作して、
    入力装置から入力された前記第1言語の原文と前記第2言語の訳文との対訳である翻訳用例を前記翻訳用例データベースに登録する際に前記第1言語の原文の書式情報を取得し、
    前記取得した第1言語の書式情報を前記書式情報内部コード対応表に基づいて内部コードに変換し、
    それを含めて前記翻訳用例を前記翻訳用例データベースに登録し、
    前記入力装置から前記翻訳対象の第1言語の原文が入力されたときは前記第1言語の原文を検索キーとして前記翻訳用例データベースから前記翻訳対象の第1言語の原文に類似する翻訳用例を検索し、
    前記検索された翻訳対象の第1言語の原文に類似する翻訳用例の原文が持つ書式情報と前記第1言語の原文が持つ書式情報とを照合し、
    前記照合で前記翻訳対象の第1言語の原文が持つ書式情報と前記翻訳用例の原文が持つ書式情報とが一致する場合に前記翻訳用例基づいて前記第1言語の原文の訳文を作成する機械翻訳機能を提供する方法。
  5. 機械翻訳プログラム、翻訳対象の第1言語の原文を翻訳目的の第2言語の訳文に翻訳するための機械翻訳辞書、前記第1言語の原文と前記第2言語の訳文との対訳からなる翻訳用例を蓄積した翻訳用例データベース、各種アプリケーションが持つ書式情報と前記書式情報に対応した内部コードとの対からなる書式情報内部コード対応表を記憶した記憶装置と、前記機械翻訳プログラムを演算実行する演算制御装置とを備えたコンピュータに用いられ、前記コンピュータに、
    入力装置から入力された前記第1言語の原文と前記第2言語の訳文との対訳である翻訳用例を前記翻訳用例データベースに登録する際に前記第1言語の原文の書式情報を取得する機能と、
    前記取得した第1言語の書式情報を前記書式情報内部コード対応表に基づいて内部コードに変換する機能と、
    それを含めて前記翻訳用例を前記翻訳用例データベースに登録する機能と、
    前記入力装置から前記翻訳対象の第1言語の原文が入力されたときは前記翻訳対象の第1言語の原文を検索キーとして前記翻訳用例データベースから前記第1言語の原文に類似する翻訳用例を検索する機能と、
    前記検索された翻訳対象の第1言語の原文に類似する翻訳用例の原文が持つ書式情報と前記第1言語の原文が持つ書式情報とを照合する機能と、
    前記照合で前記翻訳対象の第1言語の原文が持つ書式情報と前記翻訳用例の原文が持つ書式情報とが一致する場合に前記翻訳用例に基づいて前記第1言語の原文の訳文を作成する機能とを実現させるための機械翻訳プログラム。
JP2011096846A 2011-04-25 2011-04-25 機械翻訳システム、方法及びプログラム Pending JP2012230460A (ja)

Priority Applications (1)

Application Number Priority Date Filing Date Title
JP2011096846A JP2012230460A (ja) 2011-04-25 2011-04-25 機械翻訳システム、方法及びプログラム

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
JP2011096846A JP2012230460A (ja) 2011-04-25 2011-04-25 機械翻訳システム、方法及びプログラム

Publications (1)

Publication Number Publication Date
JP2012230460A true JP2012230460A (ja) 2012-11-22

Family

ID=47431973

Family Applications (1)

Application Number Title Priority Date Filing Date
JP2011096846A Pending JP2012230460A (ja) 2011-04-25 2011-04-25 機械翻訳システム、方法及びプログラム

Country Status (1)

Country Link
JP (1) JP2012230460A (ja)

Cited By (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP5763830B1 (ja) * 2014-12-25 2015-08-12 パナソニック株式会社 翻訳装置、翻訳方法、および翻訳プログラム
CN114997185A (zh) * 2021-10-27 2022-09-02 荣耀终端有限公司 翻译方法、介质、程序产品及电子设备

Citations (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JPH09305605A (ja) * 1996-05-21 1997-11-28 Oki Electric Ind Co Ltd 文書処理システム
JP2008176536A (ja) * 2007-01-18 2008-07-31 Toshiba Corp 入力された原言語文を目的言語に機械翻訳する装置、方法およびプログラム

Patent Citations (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JPH09305605A (ja) * 1996-05-21 1997-11-28 Oki Electric Ind Co Ltd 文書処理システム
JP2008176536A (ja) * 2007-01-18 2008-07-31 Toshiba Corp 入力された原言語文を目的言語に機械翻訳する装置、方法およびプログラム

Cited By (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP5763830B1 (ja) * 2014-12-25 2015-08-12 パナソニック株式会社 翻訳装置、翻訳方法、および翻訳プログラム
CN114997185A (zh) * 2021-10-27 2022-09-02 荣耀终端有限公司 翻译方法、介质、程序产品及电子设备

Similar Documents

Publication Publication Date Title
US10496755B2 (en) Information processing apparatus, information processing method, and non-transitory computer readable medium storing program
EP0686286B1 (en) Text input transliteration system
US7447624B2 (en) Generation of localized software applications
US8655641B2 (en) Machine translation apparatus and non-transitory computer readable medium
JP2002278964A (ja) 翻訳支援装置、方法及び翻訳支援プログラム
US20030200079A1 (en) Cross-language information retrieval apparatus and method
WO1994025921A1 (en) Text transliteration system
JPH0630066B2 (ja) テーブル型言語翻訳方法
JP2005352888A (ja) 表記揺れ対応辞書作成システム
JP4113235B2 (ja) 翻訳支援装置
US12067372B2 (en) Method and system for restricting transmission of sensitive information contained in a document
CN114141384A (zh) 用于检索医学数据的方法、设备和介质
JP2012230460A (ja) 機械翻訳システム、方法及びプログラム
US11928421B2 (en) Technical document error detection
JP5148583B2 (ja) 機械翻訳装置、方法及びプログラム
JP5428199B2 (ja) 対訳文抽出装置及び対訳文抽出方法
JP7027687B2 (ja) 判定支援プログラム、検索プログラム、情報処理装置、判定支援方法、および検索方法
JP6554841B2 (ja) 情報処理装置及び情報処理プログラム
JPWO2015136692A1 (ja) 電子イメージ文書編集システム
JP7378672B2 (ja) 情報処理装置、情報処理方法及び情報処理プログラム
JP7083473B2 (ja) 入力支援装置
JP4302161B2 (ja) 機械翻訳装置及び機械翻訳プログラム
US20220366714A1 (en) Inter-word score calculation apparatus, question and answer extraction system and inter-word score calculation method
JP2004264960A (ja) 用例ベースの文変換装置、およびコンピュータプログラム
JP2006309377A (ja) 文書検索装置および文書検索方法ならびにそのプログラムと記録媒体

Legal Events

Date Code Title Description
A621 Written request for application examination

Free format text: JAPANESE INTERMEDIATE CODE: A621

Effective date: 20131206

A977 Report on retrieval

Free format text: JAPANESE INTERMEDIATE CODE: A971007

Effective date: 20140625

A131 Notification of reasons for refusal

Free format text: JAPANESE INTERMEDIATE CODE: A131

Effective date: 20140701

A02 Decision of refusal

Free format text: JAPANESE INTERMEDIATE CODE: A02

Effective date: 20141028