JPWO2003065245A1

JPWO2003065245A1 - 翻訳方法、翻訳文の出力方法、記憶媒体、プログラムおよびコンピュータ装置

Info

Publication number: JPWO2003065245A1
Application number: JP2003564767A
Authority: JP
Inventors: 知博宮平; 淑朗神山; 洋美羽鳥
Original assignee: International Business Machines Corp
Current assignee: International Business Machines Corp
Priority date: 2002-01-29
Filing date: 2002-12-19
Publication date: 2005-05-26
Also published as: EP1482414A1; EP1482414B1; KR20040070168A; CN1618064B; US7529656B2; EP1482414A4; ATE484029T1; US20090254334A1; WO2003065245A1; CN1618064A; US20060167675A1; DE60237922D1; US8005662B2

Abstract

２以上連続する同じ文字を含む強調語を含む文章を正しく認識して機械翻訳する翻訳方法を提供する。まず、翻訳を行う原文テキストの単語について辞書引きを実行し、未登録語を含むか否かを判断する。続けて、未登録が連続する文字を含むか否かを判断し、連続する文字がある場合には連続する文字の文字数を減少させ、得られる修正語が辞書に存在するか否かを判断する。辞書に存在すると判断すると、その未登録語を修正語に決定し、品詞と属性を決め、未登録語を修正語に置き換えた状態で翻訳処理を実行する。

Description

技術分野
本発明は、文章中の強調語を認識して機械翻訳するための手法等に関する。
背景技術
従来、パーソナルコンピュータ等において翻訳用のプログラムが用いられている。このような翻訳用のプログラムでは、モニタ上に表示された文章を機械的に翻訳することが可能であり、例えばインターネットにおけるウェブページや、電子メール等の文章を翻訳する際に使用される。
ところで近年においては、インターネットの利用者の増加により、個人が直接情報を発信することが多く行われている。例えば、個人により設立されたウェブページや、伝言板のように個人がコメントを書き込めるウェブページや、インタラクティブに会話ができるチャットでは、個人により直接記述された文章がそのまま配信されている。このように個人が発信した情報を翻訳する際においても、上記した翻訳用のプログラムが使用されている。
しかしながら、翻訳用のプログラムを用いて個人が発信した情報を翻訳すると、その情報が含んでいる口語が原因で、翻訳ができなかったり、間違った翻訳がなされることがある。口語には、翻訳用のプログラムが参照する辞書に記録されていない語句が多く含まれており、このような未登録語は動詞や形容詞であっても名詞として扱われてしまうため、翻訳用のプログラムはその文章の翻訳に失敗してしまう。
このような未登録語としては、例えば、文章中において特定の単語を強調するため、意図的に単語を構成する文字を連続的に重複させた語句（以下、強調語という）がある。具体的には、英語における「ｃｏｏｌ」の「ｏ」を重複させた「ｃｏｏｏｌ」や、「ｗｏｒｋ」の「ｒ」を重複させた「ｗｏｒｒｋ」等を挙げることができる。このような強調語を含んだ文章の翻訳時には、形容詞である「ｃｏｏｏｌ」や動詞である「ｗｏｒｒｋ」が名詞として扱われ、最終的に誤った翻訳文が生成される。
ここで、「ｃｏｏｌ」の強調が、常に「ｏ」が３文字の「ｃｏｏｏｌ」と書かれるのであれば、その「ｃｏｏｏｌ」を辞書に登録することで正しく翻訳できるようになるが、強調のために連続する文字の文字数は一定ではなく、「ｏ」が３個の場合の他、「ｏ」が４個や５個の場合等も想定できる。このように、想定できる単語は数に限りが無く、全ての場合に対応した単語を辞書に登録することは、事実上困難である。
このように、個人が記述した文章には口語が用いられることが多く、特に会話のやりとりを文章で行うチャットでは、その傾向が顕著であり、翻訳処理の失敗が頻発している。
また、上記のような同一文字を重複させることによる単語の強調は、口語等のくだけた表現を用いた文章中で使用される場合が多い。そのような文章に対する翻訳文では、堅い表現ではなく、柔らかく、くだけた表現を用いた方が適切である場合も想定される。このような場合には、原文中で強調された単語を翻訳文中でも強調すると共に、くだけた表現の訳語を選択することで、文章の雰囲気がより適切に伝えられることが期待される。
本発明は、このような技術的課題に基づいてなされたもので、強調語等の未登録語が含まれていても適切な翻訳をすることができる翻訳方法等を提供することを目的とする。
発明の開示
かかる目的のもと、本発明の翻訳方法は、コンピュータ装置に入力された所定言語の原文テキストを他の言語に翻訳する翻訳方法であって、抽出ステップでは、コンピュータ装置が参照可能なデータベースに登録されていない未登録語を原文テキストから抽出し、修正語生成ステップでは、抽出された未登録語に、２以上連続する同じ文字が含まれるときに、連続する文字の文字数を減少させて未登録語から修正語を生成し、翻訳ステップでは、原文テキスト中の未登録語を修正語に置き換え、前記データベースを参照して原文テキストを翻訳することを特徴とする方法である。この翻訳方法では、原文テキストに未登録語が含まれて翻訳が不可能であっても、その未登録語が口語で使用されるような連続する文字を含んでいる場合には、未登録語の代わりに修正語を用いることで原文テキストの翻訳が可能となる。
なお、未登録語における連続する文字の重複数は一定ではなく、また連続する文字はその未登録語中においてどの文字であるかも一定ではない。そこで、例えば、修正語生成ステップにおいて、３以上連続する前記文字を２文字に減少、または２以上連続する前記文字を１文字に減少することができる。
またこの翻訳方法では、翻訳文中の未登録語に対応する翻訳語が修正語に基づいて翻訳されたものであることを明らかにした状態で、翻訳文を出力する出力ステップをさらに有することができる。
なお、翻訳ステップでは、修正語に対応する修正語用の翻訳語をデータベースから抽出することにより、翻訳を行うことができる。
また本発明は翻訳文の出力方法として捉えることができる。この翻訳文の出力方法は、コンピュータ装置により翻訳された翻訳文を、コンピュータ装置が出力する出力方法であって、特定ステップでは、コンピュータ装置に入力された原文テキストにおいて本来の文字綴りと異なる文字綴りが用いられた造語を特定し、出力ステップでは、造語を含む原文テキストを翻訳して翻訳文を出力し、さらに特定ステップにより特定された造語に対応する翻訳語に、強調表現を適用して翻訳文を出力することを特徴とする方法である。
この出力ステップでは、強調表現として、翻訳語に所定の表記を付加する、または翻訳語の書式を変化させることができる。例えば、「ｃｏｏｌ」の翻訳語である「クール」の前後に「＊」の表記を付加して「＊クール＊」と表現したり、その「クール」のフォントや色を変えることができる。
さらに本発明は、コンピュータ装置に実行させるプログラムを、コンピュータ装置が読み取り可能に記憶した記憶媒体として捉えることができる。この記憶媒体に記憶されるプログラムは、コンピュータ装置に入力された原文テキストを構成する単語の品詞と属性を、参照可能なデータベースから抽出する形態素解析処理と、その結果に基づいて、原文のツリー構造を有する構文木データを作成する構文解析処理と、構文解析処理の結果に基づいて、訳文の構文木データを作成する構文生成処理と、原文テキストの単語に対応する翻訳語をデータベースから取得し、訳文の構文木データに基づき翻訳語を繋げて翻訳文を生成する翻訳文生成処理とをコンピュータ装置に実行させ、形態素解析処理では、原文テキストがデータベースに登録されていない未登録語を含み、且つ当該未登録語が、２以上連続する同じ文字を含むときには、連続する文字を１または２文字に減少させた修正語を生成し、未登録語の代わりに修正語の品詞と属性をデータベースから抽出することをコンピュータ装置に実行させることを特徴とするものである。
なお、翻訳文生成処理では、未登録語に代わる修正語の属性が強調属性を有するとき、強調属性と関連づけられた強調訳語を翻訳語としてデータベースから取得し、強調訳語を含む翻訳文を生成したり、修正語に対応する翻訳語に対して修正語を翻訳したものであることを示すためのデータを付与することができる。例えば、このデータに基づいて、修正語に対応する翻訳語を、翻訳文中において識別できるように表示することができる。
また本発明は翻訳処理をコンピュータ装置に実行させるプログラムとして捉えることができる。このプログラムは、コンピュータ装置に入力された原文テキストから、参照可能なデータベースに登録されていない未登録語を抽出する処理と、抽出された未登録語が、未登録語の重複する文字の文字数を変化させることによりデータベースに登録された登録語に合致するとき、未登録語に代えて登録語を用いて原文テキストを翻訳する処理と、未登録語に代えて登録語を用いた部分を、他の部分から識別できるようにして翻訳文を表示させる処理とをコンピュータ装置に実行させることを特徴とするものである。
例えばこのプログラムでは、翻訳文を表示させる処理において、未登録語に代えて登録語を用いた部分を他の部分から識別できるようにするため、その部分について、所定の強調データ（例えば「＊」等）の追加、フォントデータ（書体、スタイル、サイズ、を含む）の変更および色の変更の少なくとも１つを実することができる。
その他、本発明はコンピュータ装置として捉えることができる。このコンピュータ装置では、データベースが複数の語のデータを格納し、入力部が原文テキストのデータを入力し、翻訳処理部が入力された原文テキストを、データベースを参照して翻訳処理し、出力部が原文テキストの翻訳文データを出力し、且つ翻訳処理部は、２以上連続する同じ文字を有する強調語において、連続する文字の文字数を減少させた修正語を生成し、修正語に対応する翻訳語をデータベースから取得することを特徴とするものである。
データベースには、翻訳語を特定するための属性として強調属性データと、強調属性データに関連づけられた強調訳語とが、修正語に関連づけて登録され、出力部は、修正語に関連づけて強調属性データがデータベースに登録されている場合、強調属性データに関連づけられた強調訳語を、翻訳語として用いた翻訳文データを出力することができる。
また、出力部は、翻訳文データ中の翻訳語が、修正語に基づいて翻訳された語句であることを示すデータを、翻訳文データと共に出力することができる。この場合、出力部により出力された翻訳文データに基づいて、翻訳語を強調した状態で翻訳文を表示する表示部をさらに備えさせることもできる。
発明を実施するための最良の態様
以下、添付図面に示す実施の形態に基づいてこの発明を詳細に説明する。
図１は、本実施の形態におけるコンピュータ装置の概略構成を説明するための図である。
この図１に示すように、コンピュータ装置１は、ＣＰＵやメインメモリ、ＨＤＤ等を備えた制御部２、ＣＲＴやＬＣＤパネル等を用いたディスプレイ（表示部）３、ディスプレイ３の表示画面上に表示される文字等を入力するためのキーボードやポインタを操作するためのマウス等の入力デバイス４を備える。
制御部２は、ディスプレイ３においてＣＰＵからの描画命令に基づいて画面の表示を行うための表示制御ブロック５と、ユーザにより入力されたデータを制御するための入力デバイス制御ブロック６と、翻訳処理を行うための翻訳処理ブロック７としての機能を有する。
表示制御ブロック５は、図示しないビデオドライバ、ビデオチップ等によって実現されるもので、メインメモリ等から転送された画像データに基づいた表示をディスプレイ３に実行させる。
入力デバイス制御ブロック６は、ポインティングデバイスやキーボード等の入力デバイス４をユーザが操作したときのイベントを処理するユーザインターフェイスドライバによって実現されるもので、特に、ユーザによる入力デバイス４の操作に基づいて入力されたデータをディスプレイ３の表示画面上に表示させるための処理を実行する。
翻訳処理ブロック７は、ＨＤＤ等に格納されたプログラムに基づいた処理をＣＰＵがメインメモリ等と協働して実行することにより実現されるものである。ここで、翻訳処理ブロック７について詳しく説明する。
図２は、翻訳処理ブロック７の機能的な構成を示す図である。
翻訳処理ブロック７は、翻訳すべき原文テキストを取り込む入力部１０、取り込んだ原文テキストの翻訳処理を実行する翻訳処理部２０、実行された翻訳処理の結果である訳文等をディスプレイ３に表示させるためのデータを出力する出力部３０、翻訳処理を行うに際して用いる辞書データを格納した辞書データ格納部５０を備える。辞書データ格納部５０は、基本辞書５１、ユーザ辞書５２の他に、例えばスポーツ、コンピュータ、アート、エンターテイメント、政治経済、科学、家庭等、分野別のデータを有する分野別辞書５３を有している。
図３は、辞書データ格納部５０に格納されたデータの一例を示す図である。
辞書データ格納部５０は、例えば図３に示すようなデータを格納している、すなわち品詞、意味属性、強調属性、訳語、日本語属性のデータが単語毎に記録されている。ここで、一例として抜粋されている単語「ｃｏｏｌ」は品詞として形容詞が特定されており、その訳語として「冷静」と「クーール」の二つが登録されている。また、単語「Ｊａｐａｎｅｓｅ」は、品詞として名詞と形容詞が特定されており、その訳語として、名詞では「日本人」と「日本語」が、形容詞として「日本」が登録されている。「冷静」と「クーール」や、「日本人」と「日本語」のように、１つの単語に対する訳語の決定において、同じ品詞の訳語が複数ある場合、原文テキストを構成する単語どうしの繋がりにおいて、意味属性、強調属性、日本語属性等に基づいて、どの訳語を使用するかが決定される。なお、強調属性とは、強調表現に用いる訳語の有無を示すものであり、強調属性がＹＥＳの場合には、強調表現に用いる訳語であることを意味する。
上記のような構成を有するコンピュータ装置１の翻訳処理ブロック７では、翻訳処理を行う際に、入力部１０にて取り込んだ原文テキスト（文章や単語）を基に辞書データ格納部５０を参照し、翻訳処理部２０が翻訳処理を行って訳文を生成し、出力部３０から訳文を出力する。翻訳処理では、文法ルール、単語データ等が格納された辞書データ格納部５０を参照し、形態素解析、構文解析、構文生成、訳語生成等の処理が翻訳処理部２０において順次行われる。このように翻訳処理を行うに際し、原文テキストに強調語が含まれる場合であっても、翻訳処理部２０は正しい訳文を得ることができ、さらに強調語を強調した状態で訳文を出力することができる。例えば、図４（ａ）に示すような翻訳前の英文の原文テキストでは、「ｃｏｏｌ」が「ｏ」を重複させた強調語「ｃｏｏｏｌ」となっており、翻訳後の日本語の訳文では、図４（ｂ）に示すように、「＊クーール＊」と強調されて翻訳される。
以下に、強調語を正しく且つ強調して出力するための翻訳処理ブロック７における処理について、図４（ａ）に示す英文の原文テキストを図４（ｂ）に示す日本語文に翻訳する例を用いて具体的に説明する。なお、翻訳処理の概要そのものは、一般的な手法であるため、従来公知の翻訳処理について詳細な説明は省略する。また、翻訳処理アルゴリズムや翻訳結果の出力形態については特に限定する意味はない。
図５は、翻訳処理ブロック７における翻訳処理の主な流れを示す図である。
まず、翻訳処理ブロック７は、入力部１０から取り込んだ原文テキストについて形態素解析を行う（ステップＳ１０１）。形態素解析では、辞書データ格納部５０に格納されたデータを参照しながら、原文テキストの文章を単語毎に分割し、品詞と属性の決定を行う。
ここで、図６にステップＳ１０１における形態素解析のさらに具体的な処理の流れを示す。
図６に示すように、まず翻訳処理部２０は、原文テキストの分割された単語のそれぞれについて辞書データ格納部５０のデータを参照しながら辞書引きを実行する（ステップＳ２０１）。ここで、辞書データ格納部５０には、図３に示すように、単語ごとに品詞、意味属性、強調属性、訳語、日本語属性がデータとして記録されている。辞書引きでは、単語毎に辞書データ格納部５０に一致する単語を抽出する処理を行う。したがって、図４（ａ）に示す原文テキストの場合には、分割された単語Ｉｔ，ｉｓ，ｖｅｒｙ，ｃｏｏｏｌのぞれぞれについて辞書引きを行い、辞書データ格納部５０中において一致する単語の抽出を行う。
続けて、ステップＳ２０１における辞書引きの結果に基づき、原文テキストには、辞書データ格納部５０のデータ中に登録されていない単語（以下、未登録語という）が含まれているか否かを判断する（ステップＳ２０３）。ステップＳ２０３において、未登録語は含まれていない、すなわち原文テキストを構成する単語は全て辞書データ格納部５０に格納されたデータ中に存在すると判断すると、後述のステップＳ２１７の処理、すなわち品詞と属性の決定を行う。
一方、図４（ａ）に示すような原文テキストには、「ｃｏｏｏｌ」という辞書データ格納部５０に登録されていない未登録語が含まれている。このような場合、翻訳処理部２０はステップＳ２０３において原文テキストは未登録語を含むと判断し、その未登録語において２以上連続する同じ文字（以下、連続文字という）があるか否かを判断する（ステップＳ２０５）。ステップＳ２０５において、未登録語には連続文字が存在しないと判断した場合、翻訳処理部２０は、その未登録語を未知の語句（未知語）として処理する決定を行う（ステップＳ２０６）。
一方、「ｃｏｏｏｌ」中の「ｏｏｏ」のように未登録語に連続文字が存在するとステップＳ２０５において判断した場合、翻訳処理部２０は、３文字以上の連続する連続文字を２文字に置き換えることで修正した単語（以下、修正語という）を生成し、その修正語について辞書データ格納部５０を参照して辞書引きを行う（ステップＳ２０７）。すなわち、「ｃｏｏｏｌ」を「ｃｏｏｌ」に修正し、「ｃｏｏｌ」について辞書引きを行う。そして翻訳処理部２０は、ステップＳ２０７の辞書引きの結果に基づき、修正語は辞書データ格納部５０のデータ中に登録されているかどうかを判断する（ステップＳ２０９）。図４（ａ）に示す例の場合、ステップＳ２０７において修正された修正語「ｃｏｏｌ」は図４に示すように辞書データ格納部５０に格納されている単語「ｃｏｏｌ」と一致するので、修正語は辞書データ格納部５０に登録されていると判断する。
なお、ステップＳ２０９において、３文字以上の連続する連続文字を２文字に修正した修正語が辞書データ格納部５０のデータ中に登録されていないと判断した場合、あるいは３文字以上の連続文字でない（例えば、２文字の連続文字）ために修正語を作成していない場合、翻訳処理部２０は、未登録語の２文字以上の連続文字を１文字に置き換えることで修正した新たな修正語を生成し、その新たな修正語について辞書データ格納部５０を参照して辞書引きを行う（ステップＳ２１１）。そして、翻訳処理部２０は、辞書引きの結果に基づき、新たな修正語が辞書データ格納部５０のデータ中に登録されているかどうかを判断する（ステップＳ２１３）。
なお、ステップＳ２０７やステップＳ２１１のように修正語を生成し、辞書引きする処理において、単語によっては「ｐｌｅｅｅａａａｓｅ」の例のように、連続文字部が複数ある場合も見うけられるので、このような場合には、それぞれの連続文字（この場合には「ｅ」の連続と「ａ」の連続の２箇所）を、それぞれ２文字或いは１文字に削除した場合の組み合わせを修正語として辞書引きする必要がある。図には示さないが、このような処理は、本実施の形態に示した処理から当業者であれば容易に拡張可能である。
ステップＳ２０９において未登録語に含まれる３文字以上の連続文字を２文字に修正した修正語または、ステップＳ２１３において未登録語の２文字以上の連続文字を１文字に修正した修正語が、辞書データ格納部５０のデータ中に登録されていると判断した場合、翻訳処理部２０は、その未登録語を修正語として処理する決定を行う（ステップＳ２１５）。このとき、その修正語には、未登録語を修正した単語である旨を示すフラグ（データ）が付与される。
以上のようにして、未登録語がある場合には、ステップＳ２１５において修正語に決定し、またはステップＳ２０６において未知語に決定した上で、原文テキストを構成するそれぞれの単語の品詞と属性の決定を行い（ステップＳ２１７）、ステップＳ１０１の形態素解析の処理を終了する。なお、ステップＳ１０１の形態素解析では品詞や属性を一意に決定できない場合があり、この場合には複数の品詞や属性を候補として残しておくことができる。
図５のステップＳ１０１に続けて、翻訳処理ブロック７は、構文解析を行う（ステップＳ１０３）。構文解析では、単語毎に分割された原文テキストを、辞書データ格納部５０の基本辞書５１に記録されている文法ルールを参照しながら解析し、構文木データと呼ばれるツリー構造のデータを作成する。構文木データとは、原文テキストの中で、例えば、どの部分が主語で、どの部分が述語で、さらに、述語の部分は動詞と目的語からなる動詞句で、目的語の部分は冠詞と名詞からなる名詞句であるというようなことを階層的に表したツリー構造のデータである。なお、構文解析に使用される文法ルールは、文法的な属性だけでなく意味的な属性が指定されているものであってもよい。
続けて、ステップＳ１０３の結果に基づいて、翻訳処理ブロック７は構文生成を行う（ステップＳ１０５）。構文生成では、ステップＳ１０３の構文解析で得られた原言語（英日翻訳なら英語）の構文木データを参照しながら、目的言語（英日翻訳なら日本語）の構文木データを作成する。
そして、ステップＳ１０５で得られた構文木データに基づいて、翻訳処理ブロック７は訳語生成を行う（ステップＳ１０７）。訳語生成では、例えば、構文木データの中で訳語が決定されていない単語（１つの単語について品詞が同じ訳語が複数ある場合等、訳語の候補が複数存在する単語）に関し、辞書データ格納部５０を参照して原文テキストの各単語に対応する訳語を特定する。そして、最終的に得られた訳語を繋げて一文を生成する。
ここで、図７にステップＳ１０７における訳語生成のさらに具体的な処理の流れを示す。
図７に示すように、まず翻訳処理部２０は、原文テキストの分割された単語のそれぞれについて、辞書データ格納部５０のデータを参照しながら辞書引きを実行する（ステップＳ３０１）。この辞書引きは、図１に示すステップＳ１０５で得られた構文木データに基づき、辞書引きする単語の品詞を特定した上で、最終的な訳語を決定するために行われる処理である。
続けて、翻訳処理部２０は、辞書引きした１つの単語について、品詞がマッチする訳語が複数存在するか否かを判断する（ステップＳ３０３）。辞書データ格納部５０には、各単語の品詞毎に訳語が登録されているが、同じ１つの品詞に複数の訳語が登録されている場合がある。例えば、図３に示すように、単語Ｊａｐａｎｅｓｅについては、名詞として日本人（意味属性：人）と日本語（意味属性：言語）という訳語が登録されている。ステップＳ３０３において、訳語は複数存在しないと判断した場合、後述のステップＳ３０９の処理を行う。
一方、ステップＳ３０３において、訳語が複数存在すると判断した場合、そのように判断された単語はステップＳ１０１（ステップＳ２０７またはステップＳ２１１）において生成された修正語であるか否かを判断する（ステップＳ３０５）。ここでは、前述のステップＳ２１５において、未登録語を修正した単語である旨を示すフラグがあるか否かによって修正語であるか否かが判断される。ステップＳ３０５においてその単語は修正語であると判断した場合、その修正語について強調属性の付いた訳語が存在するか否かを判断する（ステップＳ３０７）。例えば、図４（ａ）に示す「ｃｏｏｏｌ」は、ステップＳ１０１において修正されて「ｃｏｏｌ」となった。この「ｃｏｏｌ」については図３に示すように、強調属性がＹＥＳとして登録された訳語「クーール」が存在する。このように強調属性の付いた訳語が存在すると判断した場合、その語句を訳文に使用する訳語に決定する（ステップＳ３０９）。
一方、ステップＳ３０５においてその単語は修正語ではないと判断した場合、またはステップＳ３０７において修正語に対応する訳語は存在しないと判断した場合、その単語について、構文木データ中で要求される意味属性等の他の属性についてのマッチングを行う（ステップＳ３０８）。そして、マッチングにより属性が最もマッチする訳語を抽出し、訳文に使用する訳語を決定する（ステップＳ３０９）。なお、構文木データ中で属性が決まらない場合には、第１訳語（最も良く使われる訳語）を選択することができる。
続けて、翻訳処理部２０は、訳語が決定された単語は修正語であるか否かを再度判断する（ステップＳ３１１）。修正語ではないと判断すると、翻訳処理部２０は、訳語を出力部３０へそのまま出力し（ステップＳ３１２）、本処理を終了する。
一方、訳語が決定された単語が、修正語であると判断した場合、翻訳処理部２０は、訳語を強調処理して出力部３０から出力する（ステップＳ３１３）、本処理を終了する。強調処理では、その単語が原文テキストでは強調語であったことを明らかにするため、「＊」等の記号がその訳語の前後に付される。
このようにして図７に示す処理により単語毎の訳語を確定し、繋ぎ合わせることで最終的な訳文を出力部３０は出力する。出力された訳文は、コンピュータ装置１の翻訳処理ブロック７および表示制御ブロック５の処理により、ディスプレイ３に表示される。例えば、図４（ａ）に示した原文テキストは、図４（ｂ）に示すような翻訳文となってディスプレイ３に表示される。図４（ａ）（ｂ）に示す例では、強調語である「ｃｏｏｏｌ」が、強調属性の付いた訳語「クーール」を使用して翻訳され、さらにその単語の前後に符号「＊」を付して「＊クーール＊」と表されている。
以上のように本実施の形態におけるコンピュータ装置１では、口語の翻訳において、同一の文字が連続する部分を含む強調語を、連続した文字を減らすことで辞書データ格納部５０に登録されている語句と一致させる。したがって、コンピュータ装置１では強調語の品詞を正しく認識することができ、誤訳の発生を抑制することができ、また従来の技術において翻訳不可能であった文章も翻訳することが可能となる。
さらに、強調語を翻訳した場合には、強調語に対応した訳語を使用し、また訳語の前後に記号等を付与することで、原文テキストにおいて強調語であったことを明らかにすることができる。その結果、ユーザは翻訳前の文章の意図を、より的確に理解することが可能となる。
また、そのような強調語を含む文章に対して、強調語として特有の訳語を選択することで、文章の雰囲気がより適切に伝わることが期待される。
なお、強調語の翻訳において出力される訳語の強調処理は、図４（ｂ）に示すように符号を付する処理に限られない。図８（Ａ）（Ｂ）（Ｃ）に、強調語の翻訳における他の表記例を示す。
図８（Ａ）では、（ａ）に示す原文テキストは、「Ｏｏｐｓ」の「ｏ」が連続文字となって強調された「Ｏｏｏｏｏｏｏｏｐｓ」が含まれている。それに対して（ｂ）に示す翻訳文では、強調語の訳語が「しまったぁ〜」となっており、さらに訳語の前後において目立つように複数の符号「＊＊＊」が付与されている。このように、強調データとして付与される符号は特に限定されず、他の形状の符号であってもよい。また付与される位置も特に限定されず、「し＊ま＊っ＊た＊ぁ〜」のように単語の合間に付与されるものであってもよい。
また、例えば、ディスプレイ３に出力する際に、単なるテキストではなく、ＨＴＭＬ形式等のフォントデータや色の設定が可能である場合には、書体、スタイル、サイズ等のフォントデータや色を変えることで強調されていることを明らかにすることができる。
例えば、図８（Ｂ）では、（ａ）に示す原文テキストは、「ｓｏ」の「ｏ」が連続文字となって強調された「ｓｏｏｏｏｏｏ」が含まれている。それに対して（ｂ）に示す翻訳文では、強調属性がＹＥＳの訳語が存在しないために、強調語は通常の語句である（強調属性がＹＥＳではない語句）「とても」に翻訳され（いるが、この「とても」の部分に網掛けがされて表示されている。
さらに、図８（Ｃ）では、（ａ）に示す原文テキストは「Ｐｌｅａｓｅ」の「ｅ」と「ａ」が連続文字となって強調された「Ｐｌｅｅｅａａａｓｅ」が含まれている。それに対して（ｂ）に示す翻訳文では、強調語の訳語が「おねが〜い」となっており、さらにその訳語が目立つように他の文字よりフォントが大きくして表示されている。
その他、強調語についてフォント、スタイル、サイズ、色等の書式を変えたりすることも可能であり、強調語であることを表示する方法は、特に限定されない。また、強調属性を有する訳語を使用する場合や、テキスト表示のみ行うことが好ましい場合等においては強調処理は行わないものであってもよい。
その他、本実施の形態の翻訳処理は、英語の原文テキストを日本語に翻訳しているが、本発明はこれに限定されない。例えば、英語をドイツ語に翻訳する場合や、その他の言語をさらにその他の言語に翻訳する場合にも本発明を適用することができる。
また、本実施の形態の翻訳処理は、ノートブック型ＰＣやデスクトップ型ＰＣ等の他、ＰＤＡや携帯電話等の携帯型コンピュータ装置において実行することが可能である。また、インターネットのウェブページやチャットウィンドウ上で実行できるようにすることも可能である。
さらに、本実施の形態の翻訳処理は、辞書データ格納部５０をコンピュータ装置１内に備えているが、翻訳時にコンピュータ装置１が参照する辞書データは、コンピュータ装置１の外部にあってもよい。例えば、辞書データはネットワークを介してコンピュータ装置１が取得するものであってもよい。
なお、上記実施の形態で示したような処理を実行するプログラムは、以下のような記憶媒体の形態とすることもできる。
すなわち、記憶媒体としては、コンピュータ装置に上記したような処理を実行させるプログラムを、ＣＤ−ＲＯＭ、ＤＶＤ、メモリ、ハードディスク等の記憶媒体に、コンピュータ装置が読み取り可能に記憶させれば良い。
これ以外にも、本発明の主旨を逸脱しない限り、上記実施の形態で挙げた構成を取捨選択したり、他の構成に適宜変更することが可能である。
以上説明したように、本発明によれば、同一文字を連続させることによって強調された強調語を翻訳することが可能となる。
【図面の簡単な説明】
図１は、本実施の形態におけるコンピュータ装置の概略構成を示す図である。
図２は、翻訳処理ブロックの構成を示す図である。
図３は、辞書データ格納部に格納されたデータの一例を示す図である。
図４は、翻訳の具体例を示し、（ａ）は翻訳前の原文テキストを、（ｂ）は翻訳後に表示される訳文を示す図である。
図５は、翻訳処理ブロックにおける翻訳処理の流れを示す図である。
図６は、図５に示す形態素解析の具体的な処理の流れを示す図である。
図７は、図５に示す訳語生成の具体的な処理の流れを示す図である。
図８は、（Ａ）（Ｂ）（Ｃ）は、それぞれ強調語の翻訳における他の表記例を示す図である。

Claims

コンピュータ装置に入力された所定言語の原文テキストを他の言語に翻訳する翻訳方法であって、
前記コンピュータ装置が参照可能なデータベースに登録されていない未登録語を、前記原文テキストから抽出する抽出ステップと、
抽出された前記未登録語に、２以上連続する同じ文字が含まれるときに、当該連続する文字の文字数を減少させて当該未登録語から修正語を生成する修正語生成ステップと、
前記原文テキスト中の前記未登録語を前記修正語に置き換え、前記データベースを参照して当該原文テキストを翻訳する翻訳ステップと
を有することを特徴とする翻訳方法。
前記修正語生成ステップでは、３以上連続する前記文字を２文字に減少、または２以上連続する前記文字を１文字に減少することを特徴とする請求項１記載の翻訳方法。
前記翻訳文中の前記未登録語に対応する翻訳語が前記修正語に基づいて翻訳されたものであることを明らかにした状態で、当該翻訳文を出力する出力ステップをさらに有することを特徴とする請求項１記載の翻訳方法。
前記翻訳ステップでは、前記修正語に対応する修正語用の翻訳語を前記データベースから抽出することを特徴とする請求項１記載の翻訳方法。
コンピュータ装置により翻訳された翻訳文を、当該コンピュータ装置が出力する出力方法であって、
前記コンピュータ装置に入力された原文テキストにおいて本来の文字綴りと異なる文字綴りが用いられた造語を特定する特定ステップと、
前記造語を含む前記原文テキストを翻訳し、前記翻訳文を出力する出力ステップと
を有し、
前記出力ステップでは、前記特定ステップにより特定された前記造語に対応する翻訳語に、強調表現を適用して前記翻訳文を出力することを特徴とする翻訳文の出力方法。
前記出力ステップでは、前記強調表現として、前記翻訳語に所定の表記を付加する、または当該翻訳語の書式を変化させることを特徴とする請求項５記載の翻訳文の出力方法。
コンピュータ装置に実行させるプログラムを、当該コンピュータ装置が読み取り可能に記憶した記憶媒体において、
前記プログラムは、
前記コンピュータ装置に入力された原文テキストを構成する単語の品詞と属性を、当該コンピュータ装置が参照可能なデータベースから抽出する形態素解析処理と、
前記形態素解析処理の結果に基づいて、原文のツリー構造を有する構文木データを作成する構文解析処理と、
前記構文解析処理の結果に基づいて、訳文の構文木データを作成する構文生成処理と、
前記原文テキストの前記単語に対応する翻訳語を前記データベースから取得し、前記訳文の構文木データに基づき当該翻訳語を繋げて翻訳文を生成する翻訳文生成処理と
を前記コンピュータ装置に実行させ、
前記形態素解析処理では、前記原文テキストが前記データベースに登録されていない未登録語を含み、且つ当該未登録語が２以上連続する同じ文字を含むときには、当該連続する文字を１または２文字に減少させた修正語を生成し、当該未登録語の代わりに当該修正語の前記品詞と前記属性を前記データベースから抽出することを前記コンピュータ装置に実行させることを特徴とする記憶媒体。
前記翻訳文生成処理では、前記未登録語に代わる前記修正語の前記属性が強調属性を有するとき、当該強調属性と関連づけられた強調訳語を前記翻訳語として前記データベースから取得し、当該強調訳語を含む前記翻訳文を生成することを前記コンピュータ装置に実行させることを特徴とする請求項７記載の記憶媒体。
前記翻訳文生成処理では、前記修正語に対応する前記翻訳語に対し、当該修正語を翻訳したものであることを示すためのデータを付与することを前記コンピュータ装置に実行させることを特徴とする請求項７記載の記憶媒体。
翻訳処理をコンピュータ装置に実行させるプログラムであって、
コンピュータ装置に入力された原文テキストから、当該コンピュータ装置が参照可能なデータベースに登録されていない未登録語を抽出する処理と、
抽出された前記未登録語が、当該未登録語の重複する文字の文字数を変化させることにより前記データベースに登録された登録語に合致するとき、前記未登録語に代えて前記登録語を用いて前記原文テキストを翻訳する処理と、
前記未登録語に代えて前記登録語を用いた部分を、他の部分から識別できるようにして翻訳文を表示させる処理と
を前記コンピュータ装置に実行させることを特徴とするプログラム。
前記翻訳文を表示させる処理では、前記未登録語に代えて前記登録語を用いた部分を前記他の部分から識別できるようにするため、当該部分について、所定の強調データの追加、フォントデータの変更および色の変更の少なくとも１つを前記コンピュータ装置に実行させることを特徴とする請求項１０記載のプログラム。
前記翻訳文を表示させる処理では、前記未登録語に代えて前記登録語を用いた部分に対応する翻訳語として、予め登録された強調訳語を用いることを前記コンピュータ装置に実行させることを特徴とする請求項１１記載のプログラム。
複数の語のデータを格納したデータベースと、
原文テキストのデータを入力する入力部と、
入力された前記原文テキストを、前記データベースを参照して翻訳処理する翻訳処理部と、
前記原文テキストの翻訳文データを出力する出力部と
を備え、
前記翻訳処理部は、２以上連続する同じ文字を有する強調語において、当該連続する文字の文字数を減少させた修正語を生成し、当該修正語に対応する翻訳語を前記データベースから取得することを特徴とするコンピュータ装置。
前記データベースには、前記翻訳語を特定するための属性として強調属性データと、当該強調属性データに関連づけられた強調訳語とが、前記修正語に関連づけて登録され、
前記出力部は、前記修正語に関連づけて前記強調属性データが前記データベースに登録されている場合、当該強調属性データに関連づけられた前記強調訳語を、前記翻訳語として用いた前記翻訳文データを出力することを特徴とする請求項１３記載のコンピュータ装置。
前記出力部は、前記翻訳文データ中の前記翻訳語が、前記修正語に基づいて翻訳された語句であることを示すデータを、前記翻訳文データと共に出力することを特徴とする請求項１３記載のコンピュータ装置。
前記出力部により出力された前記翻訳文データに基づいて、前記翻訳語を強調した状態で翻訳文を表示する表示部をさらに備えたことを特徴とする請求項１５記載のコンピュータ装置。