JP2006277103A - 文書翻訳方法および文書翻訳装置 - Google Patents
文書翻訳方法および文書翻訳装置 Download PDFInfo
- Publication number
- JP2006277103A JP2006277103A JP2005092622A JP2005092622A JP2006277103A JP 2006277103 A JP2006277103 A JP 2006277103A JP 2005092622 A JP2005092622 A JP 2005092622A JP 2005092622 A JP2005092622 A JP 2005092622A JP 2006277103 A JP2006277103 A JP 2006277103A
- Authority
- JP
- Japan
- Prior art keywords
- translation
- annotation
- document
- phrase
- processing
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Pending
Links
Images
Classifications
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F40/00—Handling natural language data
- G06F40/40—Processing or translation of natural language
- G06F40/58—Use of machine translation, e.g. for multi-lingual retrieval, for server-side translation for client devices or for real-time translation
Landscapes
- Engineering & Computer Science (AREA)
- Theoretical Computer Science (AREA)
- Health & Medical Sciences (AREA)
- Artificial Intelligence (AREA)
- Audiology, Speech & Language Pathology (AREA)
- Computational Linguistics (AREA)
- General Health & Medical Sciences (AREA)
- Physics & Mathematics (AREA)
- General Engineering & Computer Science (AREA)
- General Physics & Mathematics (AREA)
- Machine Translation (AREA)
- Document Processing Apparatus (AREA)
Abstract
【課題】 高品質の翻訳文を取得する。
【解決手段】 まず、その文書を取り込んで文書画像データを取得し、必要に応じて前処理を行い、文書構造の解析を実行して文章部分を行単位で抽出するとともに、アノテーションを文章部分から分離抽出する。アノテーションが抽出された場合、アノテーションのパターン認識を行い、抽出された各アノテーションの内容を決定する。続いて、抽出した文字行を1文字単位で分割して文字認識処理を行って、文字情報(語句)を抽出し、この文字情報に対し翻訳DBに格納された辞書データを用いて翻訳処理を行う。この際、所定の条件を満たす語句に対しては辞書データに登録された訳語に置換するのではなく、原文とその読みとを出力するといった例外処理を行う。続いて、各語句に対して関連情報を付加する必要があるか否かを決定する。 関連情報抽出の有無が決定されると、レイアウト編集を行ったのち、所定の方法で出力する。
【選択図】 図5(a)
【解決手段】 まず、その文書を取り込んで文書画像データを取得し、必要に応じて前処理を行い、文書構造の解析を実行して文章部分を行単位で抽出するとともに、アノテーションを文章部分から分離抽出する。アノテーションが抽出された場合、アノテーションのパターン認識を行い、抽出された各アノテーションの内容を決定する。続いて、抽出した文字行を1文字単位で分割して文字認識処理を行って、文字情報(語句)を抽出し、この文字情報に対し翻訳DBに格納された辞書データを用いて翻訳処理を行う。この際、所定の条件を満たす語句に対しては辞書データに登録された訳語に置換するのではなく、原文とその読みとを出力するといった例外処理を行う。続いて、各語句に対して関連情報を付加する必要があるか否かを決定する。 関連情報抽出の有無が決定されると、レイアウト編集を行ったのち、所定の方法で出力する。
【選択図】 図5(a)
Description
本発明は、翻訳の品質を向上させるための技術に関する。
グローバルコミュニケーション時代の到来とともに、コンピュータを用いて、辞書データや所定のアルゴリズムを用いて文書構造を解析するなどして文字(語句)を他の文字(語句)に置換することにより、ある言語の文章を他の言語の文章に翻訳するという、いわゆる機械翻訳が盛んに行われるようになった。なお、文書が電子化されたものではない(すなわちJISコード等の文字情報がない)場合は、翻訳処理を行う前に、印刷された原稿をスキャナ装置等で読み取り文字認識処理を行って文字情報を抽出するOCR処理が行われることになる(例えば特許文献1を参照)。
特開昭62−154845号公報
しかしながら、特許文献1のような機械翻訳処理を用いると大量の文書を非常に速く処理することができるという利点がある反面、一般的に、翻訳後の文書の質があまり高くないという欠点がある。その理由の一つとして、固有名詞の翻訳処理の難しさが挙げられる。例えば、観光パンフレット等の文書において、地名、駅名、人名、会社名といった本来翻訳処理をせずに原文のままにしておかなければいけない固有名詞を翻訳処理してしまうと、翻訳処理後の文章から読み手である観光客にとって非常に重要な情報が欠落してしまうことになる。また、文化に深く根ざした単語(例えば、日本語の「禅」や「詫び/寂び」など)は、本質的に翻訳が困難であるから、訳語として「Zen」や「Wabi/Sabi」などが辞書データに登録されていてその訳語に置換したとしても、日本文化を知らない人にとってはその語句の意味するところが理解できないといったケースがしばしば発生する。換言すれば、従来の機械翻訳処理においては辞書データに登録されている訳語に単純に置換するという、いわゆる直訳的な翻訳処理しかできず、固有名詞か否かの判定や、翻訳処理せずに原文のまま残すか否かの判定を的確に行うことができない。これらの不適切な翻訳処理がなされた場合、ユーザは機械翻訳処理後の文書をチェックし、修正箇所があれば一つずつ修正する必要がある。この修正はユーザにとって負担であるとともに、機械翻訳における高速処理というメリットが消失してしまう。
本発明は上述した背景に鑑みてなされたものであり、ユーザに負担を掛けずに、且つ処理速度を犠牲にせずに、高品質の翻訳文書を生成することができる文書翻訳方法および文書翻訳装置を提供することを目的とする。
上記課題を解決するため、本発明は、語句と当該語句に対し辞書データ参照した翻訳処理の実行を禁止して例外処理を行う旨とをデータベースに登録する例外処理登録ステップと、文書を入力する入力ステップと、前記入力ステップにて入力された文書から、文字情報を抽出する文字情報抽出ステップと、前記文字情報抽出ステップにて抽出された文字情報に、前記データベースに登録されている語句と一致するものがあるか否かを判定する判定ステップと、前記データベースに登録されている語句と一致する語句に対しては前記例外処理を実行する翻訳ステップと、前記翻訳ステップにて得られた翻訳文章を所定の方法で出力する出力ステップと、を有する文書翻訳方法を提供する。本発明の方法によれば、予め登録した固有名詞等については翻訳が禁止されて例外処理がおこなれるので、ユーザに負担をかけることなく、不適切な翻訳処理の発生を防止することができる。
好ましい態様において、前記例外処理は、翻訳元の言語で前記語句を出力するとともに、当該語句の読みを翻訳先の言語で所定の位置に出力する処理である。さらに別の好ましい態様において、前記文書翻訳方法は、語句と当該語句の関連情報とを前記データベースに登録する関連情報登録ステップと、前記語句抽出ステップにて抽出された語句について、対応する関連情報を前記データベースから抽出する関連情報抽出ステップとを更に有し、記出力ステップにおいて、前記翻訳文章と前記関連情報抽出ステップにて抽出された関連情報とを所定の方法で編集したのち出力する。本態様によれば、本質的に翻訳が困難な語句等に対して関連情報が提供されるので、翻訳文書の読み手の理解促進に繋がる。
他の好ましい態様において、前記翻訳方法は、語句と、当該語句に対し辞書データ参照した翻訳処理の実行を禁止して例外処理を行う旨および当該語句の関連情報の少なくともいずれか一とを対応付けてデータベースに登録する翻訳処理登録ステップと、アノテーションと当該アノテーションが指示する翻訳処理内容を前記データベースに登録するアノテーション登録ステップと、文書を入力する入力ステップと、前記入力ステップにて入力された文書から、アノテーションを抽出するとともに当該アノテーションの付加対象の語句を特定するアノテーション抽出ステップと、前記データベースを参照し、前記アノテーション抽出ステップにて抽出されたアノテーションが指示する翻訳処理内容を特定する翻訳処理内容特定ステップと、前記アノテーション抽出ステップにて特定された語句に対し、前記翻訳内容特定ステップにて特定された翻訳処理内容に従って翻訳処理を実行する翻訳実行ステップと、前記翻訳実行ステップにて得られた翻訳文章を所定の方法で出力する出力ステップと、を有する。本態様によれば、ユーザの好みに応じて翻訳処理内容を設定することができる。
本発明は、他の観点において、語句と当該語句に対し辞書データ参照した翻訳処理の実行を禁止して例外処理を行う旨とを登録したデータベースと、文書を入力する入力手段と、前記入力手段にて入力された文書から、文字情報を抽出する文字情報抽出手段と、前記文字情報抽出手段にて抽出された文字情報に、前記データベースに登録されている語句と一致するものがあるか否かを判定する判定手段と、前記データベースに登録されている語句と一致する語句に対しては前記例外処理を実行する翻訳手段と、前記翻訳手段にて得られた翻訳文章を所定の方法で出力する出力手段とを有する文書翻訳装置を提供する。
好ましい態様において、文書翻訳装置は、語句と、少なくとも当該語句に対し辞書データ参照した翻訳処理の実行を禁止して例外処理を行う旨および当該語句の関連情報のいずれかとを対応付けて、且つアノテーションと当該アノテーションが指示する翻訳処理内容を対応付けてそれぞれ登録したデータベースと、文書を入力する入力手段と、前記入力手段にて入力された文書から、アノテーションを抽出するとともに当該アノテーションの付加対象の語句を特定するアノテーション抽出手段と、前記データベースを参照し、前記アノテーション抽出手段にて抽出されたアノテーションが指示する翻訳処理内容を特定する翻訳処理内容特定手段と、前記アノテーション抽出手段にて特定された語句に対し、前記翻訳内容特定手段にて特定された翻訳処理内容に従って翻訳処理を実行する翻訳実行手段と、前記翻訳実行手段にて得られた翻訳文章を所定の方法で出力する出力手段とを有する。
本発明は、更に他の観点において、コンピュータに上記文書翻訳方法を実行させるコンピュータ読み取り可能なプログラムを提供する。
<実施例>
以下、図面を参照して本発明の好適な実施例を説明する。図1は、本発明の一実施例に係る文書翻訳装置1の機能構成を表した図である。同図に示すように、文書翻訳装置1は、制御部10、記憶部11、入力部12、操作部13、表示部14、および出力部15からなる。制御部10は、CPU等の制御用プロセッサを備え、文書翻訳装置1の各部を制御する。また、制御部10は、補正処理部100、文書構造解析部101、アノテーション認識部102、文字情報認識部103、翻訳処理部104、および編集処理部105を有する。補正処理部100は、入力部12にて取り込まれた文書画像データに対し必要に応じて種々の前処理を行う。この前処理には、例えば、傾き補正やノイズ除去などの歪み補正処理、カラー画像の場合のグレー変換処理、あるいは2値化処理などが含まれる。文書構造解析部101は、文書画像データ対し所定のアルゴリズムを用いてレイアウト解析等を行い、文書のレイアウト構造を決定する。具体的には、文書を所定の領域に分割し、各領域の種別(文字、図、写真等)を判定する。そして、文章を行ごとに分離するとともに、文章に付された付加情報(下線、マーカー、囲み線、引き出し線、注記など;以下、アノテーションという)が含まれているか否かを判定し、アノテーションが含まれていることが判明すると、当該アノテーションと文章部分とを分離する。
以下、図面を参照して本発明の好適な実施例を説明する。図1は、本発明の一実施例に係る文書翻訳装置1の機能構成を表した図である。同図に示すように、文書翻訳装置1は、制御部10、記憶部11、入力部12、操作部13、表示部14、および出力部15からなる。制御部10は、CPU等の制御用プロセッサを備え、文書翻訳装置1の各部を制御する。また、制御部10は、補正処理部100、文書構造解析部101、アノテーション認識部102、文字情報認識部103、翻訳処理部104、および編集処理部105を有する。補正処理部100は、入力部12にて取り込まれた文書画像データに対し必要に応じて種々の前処理を行う。この前処理には、例えば、傾き補正やノイズ除去などの歪み補正処理、カラー画像の場合のグレー変換処理、あるいは2値化処理などが含まれる。文書構造解析部101は、文書画像データ対し所定のアルゴリズムを用いてレイアウト解析等を行い、文書のレイアウト構造を決定する。具体的には、文書を所定の領域に分割し、各領域の種別(文字、図、写真等)を判定する。そして、文章を行ごとに分離するとともに、文章に付された付加情報(下線、マーカー、囲み線、引き出し線、注記など;以下、アノテーションという)が含まれているか否かを判定し、アノテーションが含まれていることが判明すると、当該アノテーションと文章部分とを分離する。
アノテーション認識部102は、所定の画像解析処理を行って、または記憶部11に記憶されているアノテーションのパターンデータを参照し、アノテーションの種類およびアノテーションが付加されている対象となっている箇所(語や句といった文章要素)を決定する。文字情報認識部103は、分離された文章行の各々に対し所定の解析処理を行って1文字単位に分割して文字認識処理を行い、文字情報(語句)を抽出する。具体的には、文字単位の情報(一文字)をまず特定し、そこから一つの意味を持る文字の集合である単語を特定し、さらに、単語の集合で一つの意味(語彙)をなす語句を特定する。翻訳処理部104は、記憶部11内に記憶されている辞書データを参照して、各文章において語彙(語句)単位で置換処理を行い、所定のアルゴリズムを用いて語句の並べ替え等を行う。制御部10にて行われるこれらの処理の詳細については後述する。なお、制御部10にて実現されるこれら各部の機能は、各々独立したプロセッサによって実現されてもよいし、例えば一つのプロセッサが複数のソフトウェアを実行することにより実現されてもよい。編集処理部105は、翻訳後の文章および概要DBから抽出された情報を所定の方法で合成する。これにより文書のレイアウトが決定される。
記憶部11は、RAM、ROM、ハードディスク等の記憶装置であって、制御部10にて上述した処理を行う際に必要となるデータベース(DB)111やその他の参照データが格納される。また、DB111はさらに翻訳DB1111、固有名DB1112、概要DB1113から構成される。翻訳DB1111は、上述した辞書データ(たとえば汎用の英和辞書データや和英辞書データ等)が含まれる。固有名DB1112は、図2に示すように、固有名詞(例えば「京都」)とその語の属性(例えば「地名」)と読み(例えば「Kyoto」)を対応付けて記憶したものである。概要DB1113は、図3に示すように、語句とその語句に関する情報(その語の詳細な意味や関連する情報)とを対応付けて記憶したものである。記憶部11は、更に、図4に示すような、アノテーションの内容(種類)とそれに対応する翻訳処理の内容を記述した規則テーブルTrを格納する。
入力部12は、スキャナ装置等であり、紙等に印刷された文書をデジタル画像データとして読み込み、制御部10および記憶部11に供給する装置である。操作部13はキーボードやマウス等の入力デバイスであって、文書翻訳装置1のユーザが、翻訳対象の文書の指定、規則テーブルTrへの情報の書き込み、アノテーションの付加(詳細は後述)、その他必要な情報の入力の際に使用するものである。操作部13を用いて入力された指示や情報は、制御部10へ供給される。表示部14は、描画用プロセッサ(図示せず)および液晶ディスプレイ等の表示装置(図示せず)から構成され、制御部10の指示の下、原文書、翻訳処理後の文書、およびユーザへの各種メッセージを画面に表示する。ユーザは、表示部14の表示画面を見ながら入力部12から各種指示を入力することによって各種処理を文書翻訳装置1に実行させる。出力部15は、編集処理後の原稿を紙等に印刷するためのプリンタや付加情報編集処理を行って得られた文書データを印刷装置に供給するための通信インターフェースや、あるいは文書データをフラッシュメモリやCD−ROM等の記憶媒体に記憶するための記憶装置である。
以下、図5〜7を用いて、文書翻訳装置1の動作の一例を説明する。なお、図2〜4に示したDB111および規則テーブルTrには、予め必要な情報が登録されているものとする。
図5(a)は、文書翻訳装置1における処理の全体の流れを示したものである。同図に示すように、まず、ユーザは所定の指示を入力して翻訳元の言語および翻訳先の言語を指定するとともに、翻訳したい文書(以下、原文書という)をスキャナ装置にセットし、その文書を取り込んで文書画像データを取得する(ステップS10)。以下では、図6の(a)または(b)に示すような日本語の文章を英語に翻訳する場合について説明する。図5(a)に戻り、制御部10は、取得した画像データ対し必要に応じて前処理を行い(ステップS11)、文書構造の解析を実行して文章部分を行単位で抽出するとともに、アノテーションを文章部分から分離抽出する(ステップS12)。アノテーションが抽出されなかった(すなわち、図6の(a)の文章のように原文中にアノテーションが付加されていない)場合(ステップS13、N)、処理はステップS15へ進む。一方、原文書が図6の(b)に示すようなものであった場合、アノテーションが抽出され(ステップS13、Y)、アノテーションのパターン認識を行い、抽出された各アノテーションの内容(アノテーションの種類および当該アノテーションの付加対象となっている文書画像の領域(文字、単語、あるいは語句に対応する領域)を決定する(ステップS14)。
続いて、抽出した文字行を1文字単位で分割して文字認識処理を行って、文字情報(語句)を抽出し(ステップS15)、この文字情報に対し翻訳DB1111に格納された辞書データを用いて翻訳処理を行う(ステップS16)。この際、所定の条件を満たす語句に対しては辞書データに登録された訳語に置換する(以下、通常処理という)ではなく、例外的な処理(以下、例外処理という)を行う。この翻訳処理の詳細を図5(b)を用いて説明する。翻訳処理部104は、ステップS15にて抽出された文字情報(語句)の各々に対し、固有DBを参照して、DB1112に登録された固有名詞に一致するか否かを判定する(ステップS161)。一致した語句が原文中に存在した場合(例えば「京都」、ステップS161、Y)、その語句に対しては例外処理を行う(ステップS162)。具体的には、原文の語句をそのまま残した上で、当該語句の直後にカッコ書きでその読みを付加する処理を行う。例えば、「京都」の場合は、「Kyoto」と置換するのではなく、「京都(Kyoto)」と置換する。一致しなかった語句ついては(ステップS161、N)、更に当該語句に対しアノテーションにより翻訳処理が禁止されているか否かを判定する(ステップS163)。具体的には、当該語句を対象とするアノテーションが存在するか否かを判定し、存在した場合は(ステップS163、Y)、そのアノテーションの種類を特定する。そして、規則テーブルTrを用いてそのアノテーションに対応する翻訳処理の内容を決定する。その翻訳処理内容が「原文を残して読みを付ける」というものであった場合、当該語句に対しては上述した例外処理を行う(ステップS162)。当該語句に付加されているアノテーションが上記例外処理を指定するものでない場合(ステップS163、N)、当該語句に対しては通常処理を行う(ステップS164)。
図5(a)に戻り、各語句に対して通常処理/例外処理の決定が完了すると、各語句に対して関連情報を付加する必要があるか否かを決定する(ステップS17)。具体的には、図5(b)に示すように、各語句に対し、まず概要DB1113を参照し、DB1113に登録されている固有名詞と一致するか否かの判定を行う(ステップS171)。登録された語句と一致した語句(例えば「鎌倉時代」)については(ステップS171、Y)、概要DB1113から対応する関連情報を抽出する(ステップS172)。また、DB1113に登録されている語句を一致しなかった場合(ステップS171、N)、当該語句に対しアノテーションによる関連情報の抽出が指示されているか否かを判定する(ステップS173)。具体的には、当該語句を対象とするアノテーションが存在するか否かを判定し、存在した場合はそのアノテーションの種類を特定する。そして、規則テーブルTrを用いてそのアノテーションに対応する翻訳処理の内容を決定する。その翻訳処理内容が「関連情報を余白に付加」というものであった場合、当該語句に対しては関連情報を抽出する(ステップS172)。当該語句に付加されているアノテーションが上記例外処理を指定するものでない場合(ステップS173、N)、当該語句に対しては関連情報を抽出しない(ステップS174)。
再び図5(a)に戻り、関連情報抽出の要否が決定されると、レイアウト編集を行う(ステップS18)。すなわち、入力された文章画像データと、文書構造解析の結果と、翻訳処理結果と、関連情報が概要DB1113から抽出された場合はその内容(および関連情報の配置位置が指定された場合はその配置位置の情報)とに基づいて、各要素の配置を決定する。最後に、レイアウトに従った文章を作成して所定の方法で出力する(ステップS19)。図7に、出力された文章の一例を示す。同図に示す例では、原文書のレイアウト(地図画像の配置)をなるべく壊さずに、例外処理がなされた翻訳文章を配置し、指定されたページの下部の余白部分に、抽出した関連情報であることを示す「*」と抽出した関連情報の内容「AD1192〜AD1333」が付加されている。また、翻訳処理後の文章において、「鎌倉時代」の訳語である「Kamakura period」の直後に、当該訳語の関連情報が存在することを示す「*」の記号が付加される。
このように文書翻訳装置1によれば、固有名詞等の例外処理を行うべき語句を予めDB111に登録しておけば、例外処理が行われるので、翻訳後の文章が不適切や意味不明になることがない。さらに、特定の文化に深く根ざしたものであって、そのまま翻訳したり原文のままにしても読み手にとって理解が難しい語句については、予めDB111に登録しておけば、その説明文などの関連情報を翻訳文章とともに出力することができるので、読み手の理解を手助けとなる。また、例外処理や関連情報の抽出の指定は原文にアノテーションを付加することによっても達成される。この場合、ユーザの好み等に応じて翻訳処理の内容を指定する指定することができ、また付加するアノテーションの種類を異ならせることで、指定できる翻訳処理内容にバリエーションを持たせることが可能である。
本発明は上記実施例に限定されるものでなく、各種の変形を施すことが可能である。例えば、上記実施例において、例外処理を行うか否かの判定および関連情報を抽出するか否かの判定については、上記実施例に示したものには限らない。例えば、固有名DB1112に格納する語句に一致したものを全て例外処理の対象とするのではなく、特定の属性情報を持つもののみを例外処理の対象としても良い。また、このような属性条件の指定をアノテーションによって行ってもよい。また、上記例外処理として、原文の語句の直後にカッコ書きで読みを付加する態様だけでなく、例えば、ルビを付加する、対応する番号を当該語句の周辺に付加し、欄外に脚注としてその読みを付加する、といった態様も可能である。
1・・・文書翻訳装置、10・・・制御部、11・・・記憶部、12・・・入力部、13・・・操作部、14・・・表示部、15・・・出力部、100・・・補正処理部、101・・・文書構造解析部、102・・・アノテーション認識部、103・・・文字情報認識部、104・・・翻訳処理部、105・・・編集処理部、111・・・データベース、1111・・・翻訳DB、1112・・・固有名DB、1113・・・概要DB。
Claims (8)
- 語句と、当該語句に対し辞書データ参照した翻訳処理の実行を禁止して例外処理を行う旨とをデータベースに登録する例外処理登録ステップと、
文書を入力する入力ステップと、
前記入力ステップにて入力された文書から、文字情報を抽出する文字情報抽出ステップと、
前記文字情報抽出ステップにて抽出された文字情報に、前記データベースに登録されている語句と一致するものがあるか否かを判定する判定ステップと、
前記データベースに登録されている語句と一致する語句に対しては前記例外処理を実行する翻訳ステップと、
前記翻訳ステップにて得られた翻訳文章を所定の方法で出力する出力ステップと
を有する文書翻訳方法。 - 前記例外処理は、翻訳元の言語で前記語句を出力するとともに、当該語句の読みを翻訳先の言語で所定の位置に出力する処理である
ことを特徴とする請求項1に記載の文書翻訳方法。 - 語句と当該語句の関連情報とを前記データベースに登録する関連情報登録ステップと、
前記文字情報抽出ステップにて抽出された語句について、対応する関連情報を前記データベースから抽出する関連情報抽出ステップとを更に有し、
前記出力ステップにおいて、前記翻訳文章と前記関連情報抽出ステップにて抽出された関連情報とを所定の方法で編集したのち出力する
ことを特徴とする請求項1に記載の文書翻訳方法。 - 語句と、当該語句に対し辞書データ参照した翻訳処理の実行を禁止して例外処理を行う旨および当該語句の関連情報の少なくともいずれか一とを対応付けてデータベースに登録する翻訳処理登録ステップと、
アノテーションと当該アノテーションが指示する翻訳処理内容を前記データベースに登録するアノテーション登録ステップと、
文書を入力する入力ステップと、
前記入力ステップにて入力された文書から、アノテーションを抽出するとともに当該アノテーションの付加対象の語句を特定するアノテーション抽出ステップと、
前記データベースを参照し、前記アノテーション抽出ステップにて抽出されたアノテーションが指示する翻訳処理内容を特定する翻訳処理内容特定ステップと、
前記アノテーション抽出ステップにて特定された語句に対し、前記翻訳内容特定ステップにて特定された翻訳処理内容に従って翻訳処理を実行する翻訳実行ステップと、
前記翻訳実行ステップにて得られた翻訳文章を所定の方法で出力する出力ステップと、
を有する文書翻訳方法。 - 語句と当該語句に対し辞書データ参照した翻訳処理の実行を禁止して例外処理を行う旨とを登録したデータベースと、
文書を入力する入力手段と、
前記入力手段にて入力された文書から、文字情報を抽出する文字情報抽出手段と、
前記文字情報抽出手段にて抽出された文字情報に、前記データベースに登録されている語句と一致するものがあるか否かを判定する判定手段と、
前記データベースに登録されている語句と一致する語句に対しては前記例外処理を実行する翻訳手段と、
前記翻訳手段にて得られた翻訳文章を所定の方法で出力する出力手段と
を有する文書翻訳装置。 - 語句と、少なくとも当該語句に対し辞書データ参照した翻訳処理の実行を禁止して例外処理を行う旨および当該語句の関連情報のいずれかとを対応付けて、且つアノテーションと当該アノテーションが指示する翻訳処理内容を対応付けてそれぞれ登録したデータベースと、
文書を入力する入力手段と、
前記入力手段にて入力された文書から、アノテーションを抽出するとともに当該アノテーションの付加対象の語句を特定するアノテーション抽出手段と、
前記データベースを参照し、前記アノテーション抽出手段にて抽出されたアノテーションが指示する翻訳処理内容を特定する翻訳処理内容特定手段と、
前記アノテーション抽出手段にて特定された語句に対し、前記翻訳処理内容特定手段にて特定された翻訳処理内容に従って翻訳処理を実行する翻訳実行手段と、
前記翻訳実行手段にて得られた翻訳文章を所定の方法で出力する出力手段と、
を有する文書翻訳装置。 - 語句と、当該語句に対し辞書データ参照した翻訳処理の実行を禁止して例外処理を行う旨とが登録されたデータベースを有するコンピュータに、
文書を入力する入力ステップと、
前記入力ステップにて入力された文書から、文字情報を抽出する文字情報抽出ステップと、
前記文字情報抽出ステップにて抽出された文字情報に、前記データベースに登録されている語句と一致するものがあるか否かを判定する判定ステップと、
前記データベースに登録されている語句と一致する語句に対しては前記例外処理を実行する翻訳ステップと、
前記翻訳ステップにて得られた翻訳文章を所定の方法で出力する出力ステップと
を実行させるコンピュータ読み取り可能なプログラム。 - 語句と、当該語句に対し辞書データ参照した翻訳処理の実行を禁止して例外処理を行う旨および当該語句の関連情報の少なくともいずれか一を対応付けて、且つアノテーションと当該アノテーションが指示する翻訳処理内容を対応付けてそれぞれ登録したデータベースを有するコンピュータに、
文書を入力する入力ステップと、
前記入力ステップにて入力された文書から、アノテーションを抽出するとともに当該アノテーションの付加対象の語句を特定するアノテーション抽出ステップと、
前記データベースを参照し、前記アノテーション抽出ステップにて抽出されたアノテーションが指示する翻訳処理内容を特定する翻訳処理内容特定ステップと、
前記アノテーション抽出ステップにて特定された語句に対し、前記翻訳処理内容特定ステップにて特定された翻訳処理内容に従って翻訳処理を実行する翻訳実行ステップと、
前記翻訳実行ステップにて得られた翻訳文章を所定の方法で出力する出力ステップと、
を実行させるコンピュータ読み取り可能なプログラム。
Priority Applications (3)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
JP2005092622A JP2006277103A (ja) | 2005-03-28 | 2005-03-28 | 文書翻訳方法および文書翻訳装置 |
US11/197,328 US7783472B2 (en) | 2005-03-28 | 2005-08-05 | Document translation method and document translation device |
CNA2005101026033A CN1841364A (zh) | 2005-03-28 | 2005-09-06 | 文件翻译方法和文件翻译装置 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
JP2005092622A JP2006277103A (ja) | 2005-03-28 | 2005-03-28 | 文書翻訳方法および文書翻訳装置 |
Publications (1)
Publication Number | Publication Date |
---|---|
JP2006277103A true JP2006277103A (ja) | 2006-10-12 |
Family
ID=37030397
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
JP2005092622A Pending JP2006277103A (ja) | 2005-03-28 | 2005-03-28 | 文書翻訳方法および文書翻訳装置 |
Country Status (3)
Country | Link |
---|---|
US (1) | US7783472B2 (ja) |
JP (1) | JP2006277103A (ja) |
CN (1) | CN1841364A (ja) |
Cited By (11)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
JP4437168B1 (ja) * | 2009-04-06 | 2010-03-24 | 株式会社ナビタイムジャパン | 経路案内システム、経路探索サーバ、経路探索仲介サーバ及び経路案内方法 |
JP2018041474A (ja) * | 2013-02-08 | 2018-03-15 | マシーン・ゾーン・インコーポレイテッドMachine Zone, Inc. | マルチユーザ多言語通信のためのシステムおよび方法 |
JP2019057137A (ja) * | 2017-09-21 | 2019-04-11 | 富士ゼロックス株式会社 | 情報処理装置及び情報処理プログラム |
US10346543B2 (en) | 2013-02-08 | 2019-07-09 | Mz Ip Holdings, Llc | Systems and methods for incentivizing user feedback for translation processing |
JPWO2018198807A1 (ja) * | 2017-04-27 | 2020-03-05 | パナソニックIpマネジメント株式会社 | 翻訳装置 |
US10614171B2 (en) | 2013-02-08 | 2020-04-07 | Mz Ip Holdings, Llc | Systems and methods for multi-user multi-lingual communications |
US10650103B2 (en) | 2013-02-08 | 2020-05-12 | Mz Ip Holdings, Llc | Systems and methods for incentivizing user feedback for translation processing |
US10657333B2 (en) | 2013-02-08 | 2020-05-19 | Mz Ip Holdings, Llc | Systems and methods for multi-user multi-lingual communications |
US10699073B2 (en) | 2014-10-17 | 2020-06-30 | Mz Ip Holdings, Llc | Systems and methods for language detection |
US10769387B2 (en) | 2017-09-21 | 2020-09-08 | Mz Ip Holdings, Llc | System and method for translating chat messages |
US10765956B2 (en) | 2016-01-07 | 2020-09-08 | Machine Zone Inc. | Named entity recognition on chat data |
Families Citing this family (29)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
US7146358B1 (en) * | 2001-08-28 | 2006-12-05 | Google Inc. | Systems and methods for using anchor text as parallel corpora for cross-language information retrieval |
US20060149528A1 (en) * | 2005-01-05 | 2006-07-06 | Inventec Corporation | System and method of automatic Japanese kanji labeling |
JP4626356B2 (ja) * | 2005-03-25 | 2011-02-09 | 富士ゼロックス株式会社 | 付加情報を含む電子文書を編集する方法、装置およびプログラム |
JP2008299780A (ja) * | 2007-06-04 | 2008-12-11 | Fuji Xerox Co Ltd | 画像処理装置、及び画像処理プログラム |
JP2009193283A (ja) * | 2008-02-14 | 2009-08-27 | Fuji Xerox Co Ltd | 文書画像処理装置、及び文書画像処理プログラム |
JP4626777B2 (ja) * | 2008-03-14 | 2011-02-09 | 富士ゼロックス株式会社 | 情報処理装置及び情報処理プログラム |
JP2009294788A (ja) * | 2008-06-03 | 2009-12-17 | Ricoh Co Ltd | 情報処理装置、情報処理方法、制御プログラム及び記録媒体 |
US9953651B2 (en) * | 2008-07-28 | 2018-04-24 | International Business Machines Corporation | Speed podcasting |
US20100082324A1 (en) * | 2008-09-30 | 2010-04-01 | Microsoft Corporation | Replacing terms in machine translation |
JP2010218098A (ja) * | 2009-03-16 | 2010-09-30 | Ricoh Co Ltd | 情報処理装置、情報処理方法、制御プログラム及び記録媒体 |
US8326595B2 (en) * | 2009-08-31 | 2012-12-04 | Red Hat, Inc. | Mechanism for identifying invalid syllables in Devanagari script |
US9454514B2 (en) | 2009-09-02 | 2016-09-27 | Red Hat, Inc. | Local language numeral conversion in numeric computing |
US8635058B2 (en) * | 2010-03-02 | 2014-01-21 | Nilang Patel | Increasing the relevancy of media content |
JP5124001B2 (ja) * | 2010-09-08 | 2013-01-23 | シャープ株式会社 | 翻訳装置、翻訳方法、コンピュータプログラムおよび記録媒体 |
CN101980184A (zh) * | 2010-10-28 | 2011-02-23 | 传神联合(北京)信息技术有限公司 | 对文档内容进行批注的方法和系统 |
US9460089B1 (en) * | 2012-11-07 | 2016-10-04 | Amazon Technologies, Inc. | Flow rendering of annotation characters |
KR20150006740A (ko) * | 2013-07-09 | 2015-01-19 | 류중하 | 문자에 대한 기호 이미지 구성 방법, 및 기호 이미지에 대한 대응되는 문자의 분석 방법 |
US9342505B2 (en) * | 2013-06-02 | 2016-05-17 | Jianqing Wu | Translation protocol for large discovery projects |
CN105045771B (zh) * | 2014-04-25 | 2017-12-26 | 京瓷办公信息系统株式会社 | 文档管理装置以及文档管理方法 |
JP6320982B2 (ja) | 2014-11-26 | 2018-05-09 | ネイバー コーポレーションNAVER Corporation | 翻訳文エディタ提供装置、並びに翻訳文エディタ提供方法 |
JP6398945B2 (ja) * | 2015-10-29 | 2018-10-03 | コニカミノルタ株式会社 | 情報付加文書生成装置、プログラム |
KR101769981B1 (ko) * | 2016-03-29 | 2017-08-22 | 네이버 주식회사 | 이미지를 이용한 번역문 제공 방법, 사용자 단말, 서버, 시스템 및 컴퓨터 프로그램 |
CN107273106B (zh) * | 2016-04-08 | 2021-07-06 | 北京三星通信技术研究有限公司 | 物体信息翻译、以及衍生信息获取方法和装置 |
KR102457894B1 (ko) * | 2017-08-22 | 2022-10-25 | 삼성전자주식회사 | 디스플레이에 표시된 텍스트를 번역하는 방법 및 장치 |
KR102521408B1 (ko) * | 2018-08-27 | 2023-04-14 | 삼성전자주식회사 | 인포그래픽을 제공하기 위한 전자 장치 및 그에 관한 방법 |
US11501089B2 (en) * | 2019-06-05 | 2022-11-15 | Samsung Electronics Co., Ltd. | Electronic device and method for controlling the electronic device thereof based on determining intent of a user speech in a first language machine translated into a predefined second language |
US11302108B2 (en) * | 2019-09-10 | 2022-04-12 | Sap Se | Rotation and scaling for optical character recognition using end-to-end deep learning |
CN111950300B (zh) * | 2020-07-22 | 2021-12-24 | 广州朗国电子科技有限公司 | 通用软件词条的翻译管理方法、装置、存储介质及服务端 |
CN112766005B (zh) * | 2021-01-27 | 2024-04-26 | 维沃移动通信有限公司 | 文本翻译方法、装置、设备及介质 |
Family Cites Families (43)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
JPS5731083A (en) * | 1980-07-31 | 1982-02-19 | Sharp Corp | Electronic interpreter |
JPH0664585B2 (ja) * | 1984-12-25 | 1994-08-22 | 株式会社東芝 | 翻訳編集装置 |
CA1270063A (en) * | 1985-05-14 | 1990-06-05 | Kouji Miyao | Translating apparatus |
JPH0797798B2 (ja) | 1985-12-26 | 1995-10-18 | 株式会社リコー | 翻訳機能を設けた多数色画像形成装置 |
GB2199170A (en) * | 1986-11-28 | 1988-06-29 | Sharp Kk | Translation apparatus |
US5289375A (en) * | 1990-01-22 | 1994-02-22 | Sharp Kabushiki Kaisha | Translation machine |
US5497319A (en) * | 1990-12-31 | 1996-03-05 | Trans-Link International Corp. | Machine translation and telecommunications system |
CA2078423C (en) * | 1991-11-19 | 1997-01-14 | Per-Kristian Halvorsen | Method and apparatus for supplementing significant portions of a document selected without document image decoding with retrieved information |
JP3220560B2 (ja) * | 1992-05-26 | 2001-10-22 | シャープ株式会社 | 機械翻訳装置 |
ATE190156T1 (de) * | 1992-09-04 | 2000-03-15 | Caterpillar Inc | Integriertes entwurf- und übersetzungssystem |
US5303151A (en) * | 1993-02-26 | 1994-04-12 | Microsoft Corporation | Method and system for translating documents using translation handles |
US5510981A (en) * | 1993-10-28 | 1996-04-23 | International Business Machines Corporation | Language translation apparatus and method using context-based translation models |
JP3161942B2 (ja) * | 1995-06-14 | 2001-04-25 | シャープ株式会社 | 訳振り機械翻訳装置 |
US5903858A (en) * | 1995-06-23 | 1999-05-11 | Saraki; Masashi | Translation machine for editing a original text by rewriting the same and translating the rewrote one |
US6006221A (en) * | 1995-08-16 | 1999-12-21 | Syracuse University | Multilingual document retrieval system and method using semantic vector matching |
US6073143A (en) * | 1995-10-20 | 2000-06-06 | Sanyo Electric Co., Ltd. | Document conversion system including data monitoring means that adds tag information to hyperlink information and translates a document when such tag information is included in a document retrieval request |
US5761681A (en) * | 1995-12-14 | 1998-06-02 | Motorola, Inc. | Method of substituting names in an electronic book |
JPH09259127A (ja) * | 1996-03-21 | 1997-10-03 | Sharp Corp | 翻訳装置 |
JP2987099B2 (ja) * | 1996-03-27 | 1999-12-06 | 株式会社日立国際ビジネス | 文書作成支援システム及び用語辞書 |
US6470306B1 (en) * | 1996-04-23 | 2002-10-22 | Logovista Corporation | Automated translation of annotated text based on the determination of locations for inserting annotation tokens and linked ending, end-of-sentence or language tokens |
US5692073A (en) * | 1996-05-03 | 1997-11-25 | Xerox Corporation | Formless forms and paper web using a reference-based mark extraction technique |
US5848386A (en) * | 1996-05-28 | 1998-12-08 | Ricoh Company, Ltd. | Method and system for translating documents using different translation resources for different portions of the documents |
AU7753998A (en) * | 1997-05-28 | 1998-12-30 | Shinar Linguistic Technologies Inc. | Translation system |
US6438523B1 (en) * | 1998-05-20 | 2002-08-20 | John A. Oberteuffer | Processing handwritten and hand-drawn input and speech input |
US6292772B1 (en) * | 1998-12-01 | 2001-09-18 | Justsystem Corporation | Method for identifying the language of individual words |
US6269189B1 (en) * | 1998-12-29 | 2001-07-31 | Xerox Corporation | Finding selected character strings in text and providing information relating to the selected character strings |
JP2001167092A (ja) * | 1999-12-13 | 2001-06-22 | Nec Corp | 翻訳サーバシステム |
JP2002108858A (ja) * | 2000-09-20 | 2002-04-12 | Internatl Business Mach Corp <Ibm> | 機械翻訳方法、機械翻訳装置および記録媒体 |
JP4066600B2 (ja) * | 2000-12-20 | 2008-03-26 | 富士ゼロックス株式会社 | 多言語文書検索システム |
US7184948B2 (en) * | 2001-06-15 | 2007-02-27 | Sakhr Software Company | Method and system for theme-based word sense ambiguity reduction |
US20030004702A1 (en) * | 2001-06-29 | 2003-01-02 | Dan Higinbotham | Partial sentence translation memory program |
JP2003022265A (ja) * | 2001-07-06 | 2003-01-24 | Nec Corp | 言語自動翻訳システム |
US6993473B2 (en) * | 2001-08-31 | 2006-01-31 | Equality Translation Services | Productivity tool for language translators |
US6900819B2 (en) * | 2001-09-14 | 2005-05-31 | Fuji Xerox Co., Ltd. | Systems and methods for automatic emphasis of freeform annotations |
US7197449B2 (en) * | 2001-10-30 | 2007-03-27 | Intel Corporation | Method for extracting name entities and jargon terms using a suffix tree data structure |
US7548847B2 (en) * | 2002-05-10 | 2009-06-16 | Microsoft Corporation | System for automatically annotating training data for a natural language understanding system |
US7136805B2 (en) * | 2002-06-11 | 2006-11-14 | Fuji Xerox Co., Ltd. | System for distinguishing names of organizations in Asian writing systems |
JP2006501582A (ja) * | 2002-09-30 | 2006-01-12 | チャン,ニン−ピン | 電子文書のテキスト情報に関するポインタにより瞬時に起動される2ヶ国語注釈 |
US7584216B2 (en) * | 2003-02-21 | 2009-09-01 | Motionpoint Corporation | Dynamic language translation of web site content |
US8826137B2 (en) * | 2003-08-14 | 2014-09-02 | Freedom Scientific, Inc. | Screen reader having concurrent communication of non-textual information |
US7369986B2 (en) * | 2003-08-21 | 2008-05-06 | International Business Machines Corporation | Method, apparatus, and program for transliteration of documents in various Indian languages |
JP3890326B2 (ja) * | 2003-11-07 | 2007-03-07 | キヤノン株式会社 | 情報処理装置、情報処理方法ならびに記録媒体、プログラム |
US7310605B2 (en) * | 2003-11-25 | 2007-12-18 | International Business Machines Corporation | Method and apparatus to transliterate text using a portable device |
-
2005
- 2005-03-28 JP JP2005092622A patent/JP2006277103A/ja active Pending
- 2005-08-05 US US11/197,328 patent/US7783472B2/en not_active Expired - Fee Related
- 2005-09-06 CN CNA2005101026033A patent/CN1841364A/zh active Pending
Cited By (17)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
JP4437168B1 (ja) * | 2009-04-06 | 2010-03-24 | 株式会社ナビタイムジャパン | 経路案内システム、経路探索サーバ、経路探索仲介サーバ及び経路案内方法 |
WO2010116483A1 (ja) * | 2009-04-06 | 2010-10-14 | 株式会社ナビタイムジャパン | 経路案内システム、経路探索サーバ、経路探索仲介サーバ及び経路案内方法 |
US10650103B2 (en) | 2013-02-08 | 2020-05-12 | Mz Ip Holdings, Llc | Systems and methods for incentivizing user feedback for translation processing |
US10346543B2 (en) | 2013-02-08 | 2019-07-09 | Mz Ip Holdings, Llc | Systems and methods for incentivizing user feedback for translation processing |
US10417351B2 (en) | 2013-02-08 | 2019-09-17 | Mz Ip Holdings, Llc | Systems and methods for multi-user mutli-lingual communications |
US10614171B2 (en) | 2013-02-08 | 2020-04-07 | Mz Ip Holdings, Llc | Systems and methods for multi-user multi-lingual communications |
JP2018041474A (ja) * | 2013-02-08 | 2018-03-15 | マシーン・ゾーン・インコーポレイテッドMachine Zone, Inc. | マルチユーザ多言語通信のためのシステムおよび方法 |
US10657333B2 (en) | 2013-02-08 | 2020-05-19 | Mz Ip Holdings, Llc | Systems and methods for multi-user multi-lingual communications |
US10685190B2 (en) | 2013-02-08 | 2020-06-16 | Mz Ip Holdings, Llc | Systems and methods for multi-user multi-lingual communications |
US10699073B2 (en) | 2014-10-17 | 2020-06-30 | Mz Ip Holdings, Llc | Systems and methods for language detection |
US10765956B2 (en) | 2016-01-07 | 2020-09-08 | Machine Zone Inc. | Named entity recognition on chat data |
JPWO2018198807A1 (ja) * | 2017-04-27 | 2020-03-05 | パナソニックIpマネジメント株式会社 | 翻訳装置 |
JP7117629B2 (ja) | 2017-04-27 | 2022-08-15 | パナソニックIpマネジメント株式会社 | 翻訳装置 |
US10769387B2 (en) | 2017-09-21 | 2020-09-08 | Mz Ip Holdings, Llc | System and method for translating chat messages |
JP2019057137A (ja) * | 2017-09-21 | 2019-04-11 | 富士ゼロックス株式会社 | 情報処理装置及び情報処理プログラム |
US11256880B2 (en) | 2017-09-21 | 2022-02-22 | Fujifilm Business Innovation Corp. | Information processing apparatus and non-transitory computer readable medium |
JP7027757B2 (ja) | 2017-09-21 | 2022-03-02 | 富士フイルムビジネスイノベーション株式会社 | 情報処理装置及び情報処理プログラム |
Also Published As
Publication number | Publication date |
---|---|
CN1841364A (zh) | 2006-10-04 |
US7783472B2 (en) | 2010-08-24 |
US20060217955A1 (en) | 2006-09-28 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
JP2006277103A (ja) | 文書翻訳方法および文書翻訳装置 | |
JP2006276915A (ja) | 翻訳処理方法、文書翻訳装置およびプログラム | |
JP3220560B2 (ja) | 機械翻訳装置 | |
JP4626356B2 (ja) | 付加情報を含む電子文書を編集する方法、装置およびプログラム | |
JP2013097446A (ja) | 情報出力装置、情報出力方法、及びコンピュータプログラム | |
JP5528420B2 (ja) | 翻訳装置、翻訳方法及びコンピュータプログラム | |
JP4311365B2 (ja) | 文書処理装置およびプログラム | |
Macé et al. | Textual criticism and text editing | |
JP2003186889A (ja) | 文書に注釈付けし、文書イメージから要約を生成する方法及び装置 | |
US7623716B2 (en) | Language translation device, image processing apparatus, image forming apparatus, language translation method and storage medium | |
JP2006276903A (ja) | 文書処理装置 | |
US20060085739A1 (en) | Document processing apparatus and control method thereof | |
JP2928515B2 (ja) | 訳語出力装置 | |
JPH06295309A (ja) | 機械翻訳装置及び言語解析装置並びにディジタル複写装置 | |
La Spisa | Middle Arabic texts. How to account for linguistic features | |
JP2928246B2 (ja) | 翻訳支援装置 | |
JP2005208687A (ja) | 多言語文書処理装置及びプログラム | |
JP2007316834A (ja) | 日本語文章修正装置、日本語文章修正方法および日本語文章修正のためのプログラム | |
Nitta | A customisable automated quality assurance tool: Case study of use in English-to-Japanese patent translations | |
JPH10293811A (ja) | 文書認識装置及び方法並びにプログラム記憶媒体 | |
Frantíková | Tagging and Searching the Hittite Corpus | |
JP2004280275A (ja) | 多言語マニュアル作成装置およびその方法と、プログラムおよびその記録媒体 | |
JP2006134078A (ja) | 画像処理装置及びプログラム | |
JPH0421169A (ja) | 翻訳装置 | |
JP2972212B2 (ja) | 機械翻訳方法及びシステム |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
A521 | Written amendment |
Free format text: JAPANESE INTERMEDIATE CODE: A523 Effective date: 20101007 |