JPWO2003065245A1 - 翻訳方法、翻訳文の出力方法、記憶媒体、プログラムおよびコンピュータ装置 - Google Patents
翻訳方法、翻訳文の出力方法、記憶媒体、プログラムおよびコンピュータ装置 Download PDFInfo
- Publication number
- JPWO2003065245A1 JPWO2003065245A1 JP2003564767A JP2003564767A JPWO2003065245A1 JP WO2003065245 A1 JPWO2003065245 A1 JP WO2003065245A1 JP 2003564767 A JP2003564767 A JP 2003564767A JP 2003564767 A JP2003564767 A JP 2003564767A JP WO2003065245 A1 JPWO2003065245 A1 JP WO2003065245A1
- Authority
- JP
- Japan
- Prior art keywords
- word
- translated
- translation
- data
- unregistered
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Pending
Links
- 238000000034 method Methods 0.000 title claims abstract description 70
- 238000013519 translation Methods 0.000 title claims description 151
- 230000000877 morphologic effect Effects 0.000 claims description 11
- 230000014509 gene expression Effects 0.000 claims description 10
- 238000000605 extraction Methods 0.000 claims description 2
- 230000014616 translation Effects 0.000 description 137
- 238000013500 data storage Methods 0.000 description 28
- 238000010586 diagram Methods 0.000 description 11
- 230000006870 function Effects 0.000 description 1
- 230000002452 interceptive effect Effects 0.000 description 1
Images
Classifications
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F40/00—Handling natural language data
- G06F40/20—Natural language analysis
- G06F40/268—Morphological analysis
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F40/00—Handling natural language data
- G06F40/20—Natural language analysis
- G06F40/232—Orthographic correction, e.g. spell checking or vowelisation
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F40/00—Handling natural language data
- G06F40/40—Processing or translation of natural language
- G06F40/42—Data-driven translation
- G06F40/47—Machine-assisted translation, e.g. using translation memory
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F40/00—Handling natural language data
- G06F40/40—Processing or translation of natural language
- G06F40/55—Rule-based translation
-
- Y—GENERAL TAGGING OF NEW TECHNOLOGICAL DEVELOPMENTS; GENERAL TAGGING OF CROSS-SECTIONAL TECHNOLOGIES SPANNING OVER SEVERAL SECTIONS OF THE IPC; TECHNICAL SUBJECTS COVERED BY FORMER USPC CROSS-REFERENCE ART COLLECTIONS [XRACs] AND DIGESTS
- Y10—TECHNICAL SUBJECTS COVERED BY FORMER USPC
- Y10S—TECHNICAL SUBJECTS COVERED BY FORMER USPC CROSS-REFERENCE ART COLLECTIONS [XRACs] AND DIGESTS
- Y10S707/00—Data processing: database and file management or data structures
- Y10S707/99931—Database or file accessing
- Y10S707/99932—Access augmentation or optimizing
-
- Y—GENERAL TAGGING OF NEW TECHNOLOGICAL DEVELOPMENTS; GENERAL TAGGING OF CROSS-SECTIONAL TECHNOLOGIES SPANNING OVER SEVERAL SECTIONS OF THE IPC; TECHNICAL SUBJECTS COVERED BY FORMER USPC CROSS-REFERENCE ART COLLECTIONS [XRACs] AND DIGESTS
- Y10—TECHNICAL SUBJECTS COVERED BY FORMER USPC
- Y10S—TECHNICAL SUBJECTS COVERED BY FORMER USPC CROSS-REFERENCE ART COLLECTIONS [XRACs] AND DIGESTS
- Y10S707/00—Data processing: database and file management or data structures
- Y10S707/99931—Database or file accessing
- Y10S707/99933—Query processing, i.e. searching
-
- Y—GENERAL TAGGING OF NEW TECHNOLOGICAL DEVELOPMENTS; GENERAL TAGGING OF CROSS-SECTIONAL TECHNOLOGIES SPANNING OVER SEVERAL SECTIONS OF THE IPC; TECHNICAL SUBJECTS COVERED BY FORMER USPC CROSS-REFERENCE ART COLLECTIONS [XRACs] AND DIGESTS
- Y10—TECHNICAL SUBJECTS COVERED BY FORMER USPC
- Y10S—TECHNICAL SUBJECTS COVERED BY FORMER USPC CROSS-REFERENCE ART COLLECTIONS [XRACs] AND DIGESTS
- Y10S707/00—Data processing: database and file management or data structures
- Y10S707/99931—Database or file accessing
- Y10S707/99933—Query processing, i.e. searching
- Y10S707/99934—Query formulation, input preparation, or translation
-
- Y—GENERAL TAGGING OF NEW TECHNOLOGICAL DEVELOPMENTS; GENERAL TAGGING OF CROSS-SECTIONAL TECHNOLOGIES SPANNING OVER SEVERAL SECTIONS OF THE IPC; TECHNICAL SUBJECTS COVERED BY FORMER USPC CROSS-REFERENCE ART COLLECTIONS [XRACs] AND DIGESTS
- Y10—TECHNICAL SUBJECTS COVERED BY FORMER USPC
- Y10S—TECHNICAL SUBJECTS COVERED BY FORMER USPC CROSS-REFERENCE ART COLLECTIONS [XRACs] AND DIGESTS
- Y10S707/00—Data processing: database and file management or data structures
- Y10S707/99931—Database or file accessing
- Y10S707/99933—Query processing, i.e. searching
- Y10S707/99935—Query augmenting and refining, e.g. inexact access
-
- Y—GENERAL TAGGING OF NEW TECHNOLOGICAL DEVELOPMENTS; GENERAL TAGGING OF CROSS-SECTIONAL TECHNOLOGIES SPANNING OVER SEVERAL SECTIONS OF THE IPC; TECHNICAL SUBJECTS COVERED BY FORMER USPC CROSS-REFERENCE ART COLLECTIONS [XRACs] AND DIGESTS
- Y10—TECHNICAL SUBJECTS COVERED BY FORMER USPC
- Y10S—TECHNICAL SUBJECTS COVERED BY FORMER USPC CROSS-REFERENCE ART COLLECTIONS [XRACs] AND DIGESTS
- Y10S707/00—Data processing: database and file management or data structures
- Y10S707/99931—Database or file accessing
- Y10S707/99933—Query processing, i.e. searching
- Y10S707/99936—Pattern matching access
Landscapes
- Engineering & Computer Science (AREA)
- Theoretical Computer Science (AREA)
- Audiology, Speech & Language Pathology (AREA)
- Health & Medical Sciences (AREA)
- Computational Linguistics (AREA)
- General Health & Medical Sciences (AREA)
- Physics & Mathematics (AREA)
- General Engineering & Computer Science (AREA)
- General Physics & Mathematics (AREA)
- Artificial Intelligence (AREA)
- Machine Translation (AREA)
- Electrically Operated Instructional Devices (AREA)
- Medicines Containing Material From Animals Or Micro-Organisms (AREA)
- Jellies, Jams, And Syrups (AREA)
Abstract
2以上連続する同じ文字を含む強調語を含む文章を正しく認識して機械翻訳する翻訳方法を提供する。まず、翻訳を行う原文テキストの単語について辞書引きを実行し、未登録語を含むか否かを判断する。続けて、未登録が連続する文字を含むか否かを判断し、連続する文字がある場合には連続する文字の文字数を減少させ、得られる修正語が辞書に存在するか否かを判断する。辞書に存在すると判断すると、その未登録語を修正語に決定し、品詞と属性を決め、未登録語を修正語に置き換えた状態で翻訳処理を実行する。
Description
技術分野
本発明は、文章中の強調語を認識して機械翻訳するための手法等に関する。
背景技術
従来、パーソナルコンピュータ等において翻訳用のプログラムが用いられている。このような翻訳用のプログラムでは、モニタ上に表示された文章を機械的に翻訳することが可能であり、例えばインターネットにおけるウェブページや、電子メール等の文章を翻訳する際に使用される。
ところで近年においては、インターネットの利用者の増加により、個人が直接情報を発信することが多く行われている。例えば、個人により設立されたウェブページや、伝言板のように個人がコメントを書き込めるウェブページや、インタラクティブに会話ができるチャットでは、個人により直接記述された文章がそのまま配信されている。このように個人が発信した情報を翻訳する際においても、上記した翻訳用のプログラムが使用されている。
しかしながら、翻訳用のプログラムを用いて個人が発信した情報を翻訳すると、その情報が含んでいる口語が原因で、翻訳ができなかったり、間違った翻訳がなされることがある。口語には、翻訳用のプログラムが参照する辞書に記録されていない語句が多く含まれており、このような未登録語は動詞や形容詞であっても名詞として扱われてしまうため、翻訳用のプログラムはその文章の翻訳に失敗してしまう。
このような未登録語としては、例えば、文章中において特定の単語を強調するため、意図的に単語を構成する文字を連続的に重複させた語句(以下、強調語という)がある。具体的には、英語における「cool」の「o」を重複させた「coool」や、「work」の「r」を重複させた「worrk」等を挙げることができる。このような強調語を含んだ文章の翻訳時には、形容詞である「coool」や動詞である「worrk」が名詞として扱われ、最終的に誤った翻訳文が生成される。
ここで、「cool」の強調が、常に「o」が3文字の「coool」と書かれるのであれば、その「coool」を辞書に登録することで正しく翻訳できるようになるが、強調のために連続する文字の文字数は一定ではなく、「o」が3個の場合の他、「o」が4個や5個の場合等も想定できる。このように、想定できる単語は数に限りが無く、全ての場合に対応した単語を辞書に登録することは、事実上困難である。
このように、個人が記述した文章には口語が用いられることが多く、特に会話のやりとりを文章で行うチャットでは、その傾向が顕著であり、翻訳処理の失敗が頻発している。
また、上記のような同一文字を重複させることによる単語の強調は、口語等のくだけた表現を用いた文章中で使用される場合が多い。そのような文章に対する翻訳文では、堅い表現ではなく、柔らかく、くだけた表現を用いた方が適切である場合も想定される。このような場合には、原文中で強調された単語を翻訳文中でも強調すると共に、くだけた表現の訳語を選択することで、文章の雰囲気がより適切に伝えられることが期待される。
本発明は、このような技術的課題に基づいてなされたもので、強調語等の未登録語が含まれていても適切な翻訳をすることができる翻訳方法等を提供することを目的とする。
発明の開示
かかる目的のもと、本発明の翻訳方法は、コンピュータ装置に入力された所定言語の原文テキストを他の言語に翻訳する翻訳方法であって、抽出ステップでは、コンピュータ装置が参照可能なデータベースに登録されていない未登録語を原文テキストから抽出し、修正語生成ステップでは、抽出された未登録語に、2以上連続する同じ文字が含まれるときに、連続する文字の文字数を減少させて未登録語から修正語を生成し、翻訳ステップでは、原文テキスト中の未登録語を修正語に置き換え、前記データベースを参照して原文テキストを翻訳することを特徴とする方法である。この翻訳方法では、原文テキストに未登録語が含まれて翻訳が不可能であっても、その未登録語が口語で使用されるような連続する文字を含んでいる場合には、未登録語の代わりに修正語を用いることで原文テキストの翻訳が可能となる。
なお、未登録語における連続する文字の重複数は一定ではなく、また連続する文字はその未登録語中においてどの文字であるかも一定ではない。そこで、例えば、修正語生成ステップにおいて、3以上連続する前記文字を2文字に減少、または2以上連続する前記文字を1文字に減少することができる。
またこの翻訳方法では、翻訳文中の未登録語に対応する翻訳語が修正語に基づいて翻訳されたものであることを明らかにした状態で、翻訳文を出力する出力ステップをさらに有することができる。
なお、翻訳ステップでは、修正語に対応する修正語用の翻訳語をデータベースから抽出することにより、翻訳を行うことができる。
また本発明は翻訳文の出力方法として捉えることができる。この翻訳文の出力方法は、コンピュータ装置により翻訳された翻訳文を、コンピュータ装置が出力する出力方法であって、特定ステップでは、コンピュータ装置に入力された原文テキストにおいて本来の文字綴りと異なる文字綴りが用いられた造語を特定し、出力ステップでは、造語を含む原文テキストを翻訳して翻訳文を出力し、さらに特定ステップにより特定された造語に対応する翻訳語に、強調表現を適用して翻訳文を出力することを特徴とする方法である。
この出力ステップでは、強調表現として、翻訳語に所定の表記を付加する、または翻訳語の書式を変化させることができる。例えば、「cool」の翻訳語である「クール」の前後に「*」の表記を付加して「*クール*」と表現したり、その「クール」のフォントや色を変えることができる。
さらに本発明は、コンピュータ装置に実行させるプログラムを、コンピュータ装置が読み取り可能に記憶した記憶媒体として捉えることができる。この記憶媒体に記憶されるプログラムは、コンピュータ装置に入力された原文テキストを構成する単語の品詞と属性を、参照可能なデータベースから抽出する形態素解析処理と、その結果に基づいて、原文のツリー構造を有する構文木データを作成する構文解析処理と、構文解析処理の結果に基づいて、訳文の構文木データを作成する構文生成処理と、原文テキストの単語に対応する翻訳語をデータベースから取得し、訳文の構文木データに基づき翻訳語を繋げて翻訳文を生成する翻訳文生成処理とをコンピュータ装置に実行させ、形態素解析処理では、原文テキストがデータベースに登録されていない未登録語を含み、且つ当該未登録語が、2以上連続する同じ文字を含むときには、連続する文字を1または2文字に減少させた修正語を生成し、未登録語の代わりに修正語の品詞と属性をデータベースから抽出することをコンピュータ装置に実行させることを特徴とするものである。
なお、翻訳文生成処理では、未登録語に代わる修正語の属性が強調属性を有するとき、強調属性と関連づけられた強調訳語を翻訳語としてデータベースから取得し、強調訳語を含む翻訳文を生成したり、修正語に対応する翻訳語に対して修正語を翻訳したものであることを示すためのデータを付与することができる。例えば、このデータに基づいて、修正語に対応する翻訳語を、翻訳文中において識別できるように表示することができる。
また本発明は翻訳処理をコンピュータ装置に実行させるプログラムとして捉えることができる。このプログラムは、コンピュータ装置に入力された原文テキストから、参照可能なデータベースに登録されていない未登録語を抽出する処理と、抽出された未登録語が、未登録語の重複する文字の文字数を変化させることによりデータベースに登録された登録語に合致するとき、未登録語に代えて登録語を用いて原文テキストを翻訳する処理と、未登録語に代えて登録語を用いた部分を、他の部分から識別できるようにして翻訳文を表示させる処理とをコンピュータ装置に実行させることを特徴とするものである。
例えばこのプログラムでは、翻訳文を表示させる処理において、未登録語に代えて登録語を用いた部分を他の部分から識別できるようにするため、その部分について、所定の強調データ(例えば「*」等)の追加、フォントデータ(書体、スタイル、サイズ、を含む)の変更および色の変更の少なくとも1つを実することができる。
その他、本発明はコンピュータ装置として捉えることができる。このコンピュータ装置では、データベースが複数の語のデータを格納し、入力部が原文テキストのデータを入力し、翻訳処理部が入力された原文テキストを、データベースを参照して翻訳処理し、出力部が原文テキストの翻訳文データを出力し、且つ翻訳処理部は、2以上連続する同じ文字を有する強調語において、連続する文字の文字数を減少させた修正語を生成し、修正語に対応する翻訳語をデータベースから取得することを特徴とするものである。
データベースには、翻訳語を特定するための属性として強調属性データと、強調属性データに関連づけられた強調訳語とが、修正語に関連づけて登録され、出力部は、修正語に関連づけて強調属性データがデータベースに登録されている場合、強調属性データに関連づけられた強調訳語を、翻訳語として用いた翻訳文データを出力することができる。
また、出力部は、翻訳文データ中の翻訳語が、修正語に基づいて翻訳された語句であることを示すデータを、翻訳文データと共に出力することができる。この場合、出力部により出力された翻訳文データに基づいて、翻訳語を強調した状態で翻訳文を表示する表示部をさらに備えさせることもできる。
発明を実施するための最良の態様
以下、添付図面に示す実施の形態に基づいてこの発明を詳細に説明する。
図1は、本実施の形態におけるコンピュータ装置の概略構成を説明するための図である。
この図1に示すように、コンピュータ装置1は、CPUやメインメモリ、HDD等を備えた制御部2、CRTやLCDパネル等を用いたディスプレイ(表示部)3、ディスプレイ3の表示画面上に表示される文字等を入力するためのキーボードやポインタを操作するためのマウス等の入力デバイス4を備える。
制御部2は、ディスプレイ3においてCPUからの描画命令に基づいて画面の表示を行うための表示制御ブロック5と、ユーザにより入力されたデータを制御するための入力デバイス制御ブロック6と、翻訳処理を行うための翻訳処理ブロック7としての機能を有する。
表示制御ブロック5は、図示しないビデオドライバ、ビデオチップ等によって実現されるもので、メインメモリ等から転送された画像データに基づいた表示をディスプレイ3に実行させる。
入力デバイス制御ブロック6は、ポインティングデバイスやキーボード等の入力デバイス4をユーザが操作したときのイベントを処理するユーザインターフェイスドライバによって実現されるもので、特に、ユーザによる入力デバイス4の操作に基づいて入力されたデータをディスプレイ3の表示画面上に表示させるための処理を実行する。
翻訳処理ブロック7は、HDD等に格納されたプログラムに基づいた処理をCPUがメインメモリ等と協働して実行することにより実現されるものである。ここで、翻訳処理ブロック7について詳しく説明する。
図2は、翻訳処理ブロック7の機能的な構成を示す図である。
翻訳処理ブロック7は、翻訳すべき原文テキストを取り込む入力部10、取り込んだ原文テキストの翻訳処理を実行する翻訳処理部20、実行された翻訳処理の結果である訳文等をディスプレイ3に表示させるためのデータを出力する出力部30、翻訳処理を行うに際して用いる辞書データを格納した辞書データ格納部50を備える。辞書データ格納部50は、基本辞書51、ユーザ辞書52の他に、例えばスポーツ、コンピュータ、アート、エンターテイメント、政治経済、科学、家庭等、分野別のデータを有する分野別辞書53を有している。
図3は、辞書データ格納部50に格納されたデータの一例を示す図である。
辞書データ格納部50は、例えば図3に示すようなデータを格納している、すなわち品詞、意味属性、強調属性、訳語、日本語属性のデータが単語毎に記録されている。ここで、一例として抜粋されている単語「cool」は品詞として形容詞が特定されており、その訳語として「冷静」と「クーール」の二つが登録されている。また、単語「Japanese」は、品詞として名詞と形容詞が特定されており、その訳語として、名詞では「日本人」と「日本語」が、形容詞として「日本」が登録されている。「冷静」と「クーール」や、「日本人」と「日本語」のように、1つの単語に対する訳語の決定において、同じ品詞の訳語が複数ある場合、原文テキストを構成する単語どうしの繋がりにおいて、意味属性、強調属性、日本語属性等に基づいて、どの訳語を使用するかが決定される。なお、強調属性とは、強調表現に用いる訳語の有無を示すものであり、強調属性がYESの場合には、強調表現に用いる訳語であることを意味する。
上記のような構成を有するコンピュータ装置1の翻訳処理ブロック7では、翻訳処理を行う際に、入力部10にて取り込んだ原文テキスト(文章や単語)を基に辞書データ格納部50を参照し、翻訳処理部20が翻訳処理を行って訳文を生成し、出力部30から訳文を出力する。翻訳処理では、文法ルール、単語データ等が格納された辞書データ格納部50を参照し、形態素解析、構文解析、構文生成、訳語生成等の処理が翻訳処理部20において順次行われる。このように翻訳処理を行うに際し、原文テキストに強調語が含まれる場合であっても、翻訳処理部20は正しい訳文を得ることができ、さらに強調語を強調した状態で訳文を出力することができる。例えば、図4(a)に示すような翻訳前の英文の原文テキストでは、「cool」が「o」を重複させた強調語「coool」となっており、翻訳後の日本語の訳文では、図4(b)に示すように、「*クーール*」と強調されて翻訳される。
以下に、強調語を正しく且つ強調して出力するための翻訳処理ブロック7における処理について、図4(a)に示す英文の原文テキストを図4(b)に示す日本語文に翻訳する例を用いて具体的に説明する。なお、翻訳処理の概要そのものは、一般的な手法であるため、従来公知の翻訳処理について詳細な説明は省略する。また、翻訳処理アルゴリズムや翻訳結果の出力形態については特に限定する意味はない。
図5は、翻訳処理ブロック7における翻訳処理の主な流れを示す図である。
まず、翻訳処理ブロック7は、入力部10から取り込んだ原文テキストについて形態素解析を行う(ステップS101)。形態素解析では、辞書データ格納部50に格納されたデータを参照しながら、原文テキストの文章を単語毎に分割し、品詞と属性の決定を行う。
ここで、図6にステップS101における形態素解析のさらに具体的な処理の流れを示す。
図6に示すように、まず翻訳処理部20は、原文テキストの分割された単語のそれぞれについて辞書データ格納部50のデータを参照しながら辞書引きを実行する(ステップS201)。ここで、辞書データ格納部50には、図3に示すように、単語ごとに品詞、意味属性、強調属性、訳語、日本語属性がデータとして記録されている。辞書引きでは、単語毎に辞書データ格納部50に一致する単語を抽出する処理を行う。したがって、図4(a)に示す原文テキストの場合には、分割された単語It,is,very,cooolのぞれぞれについて辞書引きを行い、辞書データ格納部50中において一致する単語の抽出を行う。
続けて、ステップS201における辞書引きの結果に基づき、原文テキストには、辞書データ格納部50のデータ中に登録されていない単語(以下、未登録語という)が含まれているか否かを判断する(ステップS203)。ステップS203において、未登録語は含まれていない、すなわち原文テキストを構成する単語は全て辞書データ格納部50に格納されたデータ中に存在すると判断すると、後述のステップS217の処理、すなわち品詞と属性の決定を行う。
一方、図4(a)に示すような原文テキストには、「coool」という辞書データ格納部50に登録されていない未登録語が含まれている。このような場合、翻訳処理部20はステップS203において原文テキストは未登録語を含むと判断し、その未登録語において2以上連続する同じ文字(以下、連続文字という)があるか否かを判断する(ステップS205)。ステップS205において、未登録語には連続文字が存在しないと判断した場合、翻訳処理部20は、その未登録語を未知の語句(未知語)として処理する決定を行う(ステップS206)。
一方、「coool」中の「ooo」のように未登録語に連続文字が存在するとステップS205において判断した場合、翻訳処理部20は、3文字以上の連続する連続文字を2文字に置き換えることで修正した単語(以下、修正語という)を生成し、その修正語について辞書データ格納部50を参照して辞書引きを行う(ステップS207)。すなわち、「coool」を「cool」に修正し、「cool」について辞書引きを行う。そして翻訳処理部20は、ステップS207の辞書引きの結果に基づき、修正語は辞書データ格納部50のデータ中に登録されているかどうかを判断する(ステップS209)。図4(a)に示す例の場合、ステップS207において修正された修正語「cool」は図4に示すように辞書データ格納部50に格納されている単語「cool」と一致するので、修正語は辞書データ格納部50に登録されていると判断する。
なお、ステップS209において、3文字以上の連続する連続文字を2文字に修正した修正語が辞書データ格納部50のデータ中に登録されていないと判断した場合、あるいは3文字以上の連続文字でない(例えば、2文字の連続文字)ために修正語を作成していない場合、翻訳処理部20は、未登録語の2文字以上の連続文字を1文字に置き換えることで修正した新たな修正語を生成し、その新たな修正語について辞書データ格納部50を参照して辞書引きを行う(ステップS211)。そして、翻訳処理部20は、辞書引きの結果に基づき、新たな修正語が辞書データ格納部50のデータ中に登録されているかどうかを判断する(ステップS213)。
なお、ステップS207やステップS211のように修正語を生成し、辞書引きする処理において、単語によっては「pleeeaaase」の例のように、連続文字部が複数ある場合も見うけられるので、このような場合には、それぞれの連続文字(この場合には「e」の連続と「a」の連続の2箇所)を、それぞれ2文字或いは1文字に削除した場合の組み合わせを修正語として辞書引きする必要がある。図には示さないが、このような処理は、本実施の形態に示した処理から当業者であれば容易に拡張可能である。
ステップS209において未登録語に含まれる3文字以上の連続文字を2文字に修正した修正語または、ステップS213において未登録語の2文字以上の連続文字を1文字に修正した修正語が、辞書データ格納部50のデータ中に登録されていると判断した場合、翻訳処理部20は、その未登録語を修正語として処理する決定を行う(ステップS215)。このとき、その修正語には、未登録語を修正した単語である旨を示すフラグ(データ)が付与される。
以上のようにして、未登録語がある場合には、ステップS215において修正語に決定し、またはステップS206において未知語に決定した上で、原文テキストを構成するそれぞれの単語の品詞と属性の決定を行い(ステップS217)、ステップS101の形態素解析の処理を終了する。なお、ステップS101の形態素解析では品詞や属性を一意に決定できない場合があり、この場合には複数の品詞や属性を候補として残しておくことができる。
図5のステップS101に続けて、翻訳処理ブロック7は、構文解析を行う(ステップS103)。構文解析では、単語毎に分割された原文テキストを、辞書データ格納部50の基本辞書51に記録されている文法ルールを参照しながら解析し、構文木データと呼ばれるツリー構造のデータを作成する。構文木データとは、原文テキストの中で、例えば、どの部分が主語で、どの部分が述語で、さらに、述語の部分は動詞と目的語からなる動詞句で、目的語の部分は冠詞と名詞からなる名詞句であるというようなことを階層的に表したツリー構造のデータである。なお、構文解析に使用される文法ルールは、文法的な属性だけでなく意味的な属性が指定されているものであってもよい。
続けて、ステップS103の結果に基づいて、翻訳処理ブロック7は構文生成を行う(ステップS105)。構文生成では、ステップS103の構文解析で得られた原言語(英日翻訳なら英語)の構文木データを参照しながら、目的言語(英日翻訳なら日本語)の構文木データを作成する。
そして、ステップS105で得られた構文木データに基づいて、翻訳処理ブロック7は訳語生成を行う(ステップS107)。訳語生成では、例えば、構文木データの中で訳語が決定されていない単語(1つの単語について品詞が同じ訳語が複数ある場合等、訳語の候補が複数存在する単語)に関し、辞書データ格納部50を参照して原文テキストの各単語に対応する訳語を特定する。そして、最終的に得られた訳語を繋げて一文を生成する。
ここで、図7にステップS107における訳語生成のさらに具体的な処理の流れを示す。
図7に示すように、まず翻訳処理部20は、原文テキストの分割された単語のそれぞれについて、辞書データ格納部50のデータを参照しながら辞書引きを実行する(ステップS301)。この辞書引きは、図1に示すステップS105で得られた構文木データに基づき、辞書引きする単語の品詞を特定した上で、最終的な訳語を決定するために行われる処理である。
続けて、翻訳処理部20は、辞書引きした1つの単語について、品詞がマッチする訳語が複数存在するか否かを判断する(ステップS303)。辞書データ格納部50には、各単語の品詞毎に訳語が登録されているが、同じ1つの品詞に複数の訳語が登録されている場合がある。例えば、図3に示すように、単語Japaneseについては、名詞として日本人(意味属性:人)と日本語(意味属性:言語)という訳語が登録されている。ステップS303において、訳語は複数存在しないと判断した場合、後述のステップS309の処理を行う。
一方、ステップS303において、訳語が複数存在すると判断した場合、そのように判断された単語はステップS101(ステップS207またはステップS211)において生成された修正語であるか否かを判断する(ステップS305)。ここでは、前述のステップS215において、未登録語を修正した単語である旨を示すフラグがあるか否かによって修正語であるか否かが判断される。ステップS305においてその単語は修正語であると判断した場合、その修正語について強調属性の付いた訳語が存在するか否かを判断する(ステップS307)。例えば、図4(a)に示す「coool」は、ステップS101において修正されて「cool」となった。この「cool」については図3に示すように、強調属性がYESとして登録された訳語「クーール」が存在する。このように強調属性の付いた訳語が存在すると判断した場合、その語句を訳文に使用する訳語に決定する(ステップS309)。
一方、ステップS305においてその単語は修正語ではないと判断した場合、またはステップS307において修正語に対応する訳語は存在しないと判断した場合、その単語について、構文木データ中で要求される意味属性等の他の属性についてのマッチングを行う(ステップS308)。そして、マッチングにより属性が最もマッチする訳語を抽出し、訳文に使用する訳語を決定する(ステップS309)。なお、構文木データ中で属性が決まらない場合には、第1訳語(最も良く使われる訳語)を選択することができる。
続けて、翻訳処理部20は、訳語が決定された単語は修正語であるか否かを再度判断する(ステップS311)。修正語ではないと判断すると、翻訳処理部20は、訳語を出力部30へそのまま出力し(ステップS312)、本処理を終了する。
一方、訳語が決定された単語が、修正語であると判断した場合、翻訳処理部20は、訳語を強調処理して出力部30から出力する(ステップS313)、本処理を終了する。強調処理では、その単語が原文テキストでは強調語であったことを明らかにするため、「*」等の記号がその訳語の前後に付される。
このようにして図7に示す処理により単語毎の訳語を確定し、繋ぎ合わせることで最終的な訳文を出力部30は出力する。出力された訳文は、コンピュータ装置1の翻訳処理ブロック7および表示制御ブロック5の処理により、ディスプレイ3に表示される。例えば、図4(a)に示した原文テキストは、図4(b)に示すような翻訳文となってディスプレイ3に表示される。図4(a)(b)に示す例では、強調語である「coool」が、強調属性の付いた訳語「クーール」を使用して翻訳され、さらにその単語の前後に符号「*」を付して「*クーール*」と表されている。
以上のように本実施の形態におけるコンピュータ装置1では、口語の翻訳において、同一の文字が連続する部分を含む強調語を、連続した文字を減らすことで辞書データ格納部50に登録されている語句と一致させる。したがって、コンピュータ装置1では強調語の品詞を正しく認識することができ、誤訳の発生を抑制することができ、また従来の技術において翻訳不可能であった文章も翻訳することが可能となる。
さらに、強調語を翻訳した場合には、強調語に対応した訳語を使用し、また訳語の前後に記号等を付与することで、原文テキストにおいて強調語であったことを明らかにすることができる。その結果、ユーザは翻訳前の文章の意図を、より的確に理解することが可能となる。
また、そのような強調語を含む文章に対して、強調語として特有の訳語を選択することで、文章の雰囲気がより適切に伝わることが期待される。
なお、強調語の翻訳において出力される訳語の強調処理は、図4(b)に示すように符号を付する処理に限られない。図8(A)(B)(C)に、強調語の翻訳における他の表記例を示す。
図8(A)では、(a)に示す原文テキストは、「Oops」の「o」が連続文字となって強調された「Oooooooops」が含まれている。それに対して(b)に示す翻訳文では、強調語の訳語が「しまったぁ〜」となっており、さらに訳語の前後において目立つように複数の符号「***」が付与されている。このように、強調データとして付与される符号は特に限定されず、他の形状の符号であってもよい。また付与される位置も特に限定されず、「し*ま*っ*た*ぁ〜」のように単語の合間に付与されるものであってもよい。
また、例えば、ディスプレイ3に出力する際に、単なるテキストではなく、HTML形式等のフォントデータや色の設定が可能である場合には、書体、スタイル、サイズ等のフォントデータや色を変えることで強調されていることを明らかにすることができる。
例えば、図8(B)では、(a)に示す原文テキストは、「so」の「o」が連続文字となって強調された「soooooo」が含まれている。それに対して(b)に示す翻訳文では、強調属性がYESの訳語が存在しないために、強調語は通常の語句である(強調属性がYESではない語句)「とても」に翻訳され(いるが、この「とても」の部分に網掛けがされて表示されている。
さらに、図8(C)では、(a)に示す原文テキストは「Please」の「e」と「a」が連続文字となって強調された「Pleeeaaase」が含まれている。それに対して(b)に示す翻訳文では、強調語の訳語が「おねが〜い」となっており、さらにその訳語が目立つように他の文字よりフォントが大きくして表示されている。
その他、強調語についてフォント、スタイル、サイズ、色等の書式を変えたりすることも可能であり、強調語であることを表示する方法は、特に限定されない。また、強調属性を有する訳語を使用する場合や、テキスト表示のみ行うことが好ましい場合等においては強調処理は行わないものであってもよい。
その他、本実施の形態の翻訳処理は、英語の原文テキストを日本語に翻訳しているが、本発明はこれに限定されない。例えば、英語をドイツ語に翻訳する場合や、その他の言語をさらにその他の言語に翻訳する場合にも本発明を適用することができる。
また、本実施の形態の翻訳処理は、ノートブック型PCやデスクトップ型PC等の他、PDAや携帯電話等の携帯型コンピュータ装置において実行することが可能である。また、インターネットのウェブページやチャットウィンドウ上で実行できるようにすることも可能である。
さらに、本実施の形態の翻訳処理は、辞書データ格納部50をコンピュータ装置1内に備えているが、翻訳時にコンピュータ装置1が参照する辞書データは、コンピュータ装置1の外部にあってもよい。例えば、辞書データはネットワークを介してコンピュータ装置1が取得するものであってもよい。
なお、上記実施の形態で示したような処理を実行するプログラムは、以下のような記憶媒体の形態とすることもできる。
すなわち、記憶媒体としては、コンピュータ装置に上記したような処理を実行させるプログラムを、CD−ROM、DVD、メモリ、ハードディスク等の記憶媒体に、コンピュータ装置が読み取り可能に記憶させれば良い。
これ以外にも、本発明の主旨を逸脱しない限り、上記実施の形態で挙げた構成を取捨選択したり、他の構成に適宜変更することが可能である。
以上説明したように、本発明によれば、同一文字を連続させることによって強調された強調語を翻訳することが可能となる。
【図面の簡単な説明】
図1は、本実施の形態におけるコンピュータ装置の概略構成を示す図である。
図2は、翻訳処理ブロックの構成を示す図である。
図3は、辞書データ格納部に格納されたデータの一例を示す図である。
図4は、翻訳の具体例を示し、(a)は翻訳前の原文テキストを、(b)は翻訳後に表示される訳文を示す図である。
図5は、翻訳処理ブロックにおける翻訳処理の流れを示す図である。
図6は、図5に示す形態素解析の具体的な処理の流れを示す図である。
図7は、図5に示す訳語生成の具体的な処理の流れを示す図である。
図8は、(A)(B)(C)は、それぞれ強調語の翻訳における他の表記例を示す図である。
本発明は、文章中の強調語を認識して機械翻訳するための手法等に関する。
背景技術
従来、パーソナルコンピュータ等において翻訳用のプログラムが用いられている。このような翻訳用のプログラムでは、モニタ上に表示された文章を機械的に翻訳することが可能であり、例えばインターネットにおけるウェブページや、電子メール等の文章を翻訳する際に使用される。
ところで近年においては、インターネットの利用者の増加により、個人が直接情報を発信することが多く行われている。例えば、個人により設立されたウェブページや、伝言板のように個人がコメントを書き込めるウェブページや、インタラクティブに会話ができるチャットでは、個人により直接記述された文章がそのまま配信されている。このように個人が発信した情報を翻訳する際においても、上記した翻訳用のプログラムが使用されている。
しかしながら、翻訳用のプログラムを用いて個人が発信した情報を翻訳すると、その情報が含んでいる口語が原因で、翻訳ができなかったり、間違った翻訳がなされることがある。口語には、翻訳用のプログラムが参照する辞書に記録されていない語句が多く含まれており、このような未登録語は動詞や形容詞であっても名詞として扱われてしまうため、翻訳用のプログラムはその文章の翻訳に失敗してしまう。
このような未登録語としては、例えば、文章中において特定の単語を強調するため、意図的に単語を構成する文字を連続的に重複させた語句(以下、強調語という)がある。具体的には、英語における「cool」の「o」を重複させた「coool」や、「work」の「r」を重複させた「worrk」等を挙げることができる。このような強調語を含んだ文章の翻訳時には、形容詞である「coool」や動詞である「worrk」が名詞として扱われ、最終的に誤った翻訳文が生成される。
ここで、「cool」の強調が、常に「o」が3文字の「coool」と書かれるのであれば、その「coool」を辞書に登録することで正しく翻訳できるようになるが、強調のために連続する文字の文字数は一定ではなく、「o」が3個の場合の他、「o」が4個や5個の場合等も想定できる。このように、想定できる単語は数に限りが無く、全ての場合に対応した単語を辞書に登録することは、事実上困難である。
このように、個人が記述した文章には口語が用いられることが多く、特に会話のやりとりを文章で行うチャットでは、その傾向が顕著であり、翻訳処理の失敗が頻発している。
また、上記のような同一文字を重複させることによる単語の強調は、口語等のくだけた表現を用いた文章中で使用される場合が多い。そのような文章に対する翻訳文では、堅い表現ではなく、柔らかく、くだけた表現を用いた方が適切である場合も想定される。このような場合には、原文中で強調された単語を翻訳文中でも強調すると共に、くだけた表現の訳語を選択することで、文章の雰囲気がより適切に伝えられることが期待される。
本発明は、このような技術的課題に基づいてなされたもので、強調語等の未登録語が含まれていても適切な翻訳をすることができる翻訳方法等を提供することを目的とする。
発明の開示
かかる目的のもと、本発明の翻訳方法は、コンピュータ装置に入力された所定言語の原文テキストを他の言語に翻訳する翻訳方法であって、抽出ステップでは、コンピュータ装置が参照可能なデータベースに登録されていない未登録語を原文テキストから抽出し、修正語生成ステップでは、抽出された未登録語に、2以上連続する同じ文字が含まれるときに、連続する文字の文字数を減少させて未登録語から修正語を生成し、翻訳ステップでは、原文テキスト中の未登録語を修正語に置き換え、前記データベースを参照して原文テキストを翻訳することを特徴とする方法である。この翻訳方法では、原文テキストに未登録語が含まれて翻訳が不可能であっても、その未登録語が口語で使用されるような連続する文字を含んでいる場合には、未登録語の代わりに修正語を用いることで原文テキストの翻訳が可能となる。
なお、未登録語における連続する文字の重複数は一定ではなく、また連続する文字はその未登録語中においてどの文字であるかも一定ではない。そこで、例えば、修正語生成ステップにおいて、3以上連続する前記文字を2文字に減少、または2以上連続する前記文字を1文字に減少することができる。
またこの翻訳方法では、翻訳文中の未登録語に対応する翻訳語が修正語に基づいて翻訳されたものであることを明らかにした状態で、翻訳文を出力する出力ステップをさらに有することができる。
なお、翻訳ステップでは、修正語に対応する修正語用の翻訳語をデータベースから抽出することにより、翻訳を行うことができる。
また本発明は翻訳文の出力方法として捉えることができる。この翻訳文の出力方法は、コンピュータ装置により翻訳された翻訳文を、コンピュータ装置が出力する出力方法であって、特定ステップでは、コンピュータ装置に入力された原文テキストにおいて本来の文字綴りと異なる文字綴りが用いられた造語を特定し、出力ステップでは、造語を含む原文テキストを翻訳して翻訳文を出力し、さらに特定ステップにより特定された造語に対応する翻訳語に、強調表現を適用して翻訳文を出力することを特徴とする方法である。
この出力ステップでは、強調表現として、翻訳語に所定の表記を付加する、または翻訳語の書式を変化させることができる。例えば、「cool」の翻訳語である「クール」の前後に「*」の表記を付加して「*クール*」と表現したり、その「クール」のフォントや色を変えることができる。
さらに本発明は、コンピュータ装置に実行させるプログラムを、コンピュータ装置が読み取り可能に記憶した記憶媒体として捉えることができる。この記憶媒体に記憶されるプログラムは、コンピュータ装置に入力された原文テキストを構成する単語の品詞と属性を、参照可能なデータベースから抽出する形態素解析処理と、その結果に基づいて、原文のツリー構造を有する構文木データを作成する構文解析処理と、構文解析処理の結果に基づいて、訳文の構文木データを作成する構文生成処理と、原文テキストの単語に対応する翻訳語をデータベースから取得し、訳文の構文木データに基づき翻訳語を繋げて翻訳文を生成する翻訳文生成処理とをコンピュータ装置に実行させ、形態素解析処理では、原文テキストがデータベースに登録されていない未登録語を含み、且つ当該未登録語が、2以上連続する同じ文字を含むときには、連続する文字を1または2文字に減少させた修正語を生成し、未登録語の代わりに修正語の品詞と属性をデータベースから抽出することをコンピュータ装置に実行させることを特徴とするものである。
なお、翻訳文生成処理では、未登録語に代わる修正語の属性が強調属性を有するとき、強調属性と関連づけられた強調訳語を翻訳語としてデータベースから取得し、強調訳語を含む翻訳文を生成したり、修正語に対応する翻訳語に対して修正語を翻訳したものであることを示すためのデータを付与することができる。例えば、このデータに基づいて、修正語に対応する翻訳語を、翻訳文中において識別できるように表示することができる。
また本発明は翻訳処理をコンピュータ装置に実行させるプログラムとして捉えることができる。このプログラムは、コンピュータ装置に入力された原文テキストから、参照可能なデータベースに登録されていない未登録語を抽出する処理と、抽出された未登録語が、未登録語の重複する文字の文字数を変化させることによりデータベースに登録された登録語に合致するとき、未登録語に代えて登録語を用いて原文テキストを翻訳する処理と、未登録語に代えて登録語を用いた部分を、他の部分から識別できるようにして翻訳文を表示させる処理とをコンピュータ装置に実行させることを特徴とするものである。
例えばこのプログラムでは、翻訳文を表示させる処理において、未登録語に代えて登録語を用いた部分を他の部分から識別できるようにするため、その部分について、所定の強調データ(例えば「*」等)の追加、フォントデータ(書体、スタイル、サイズ、を含む)の変更および色の変更の少なくとも1つを実することができる。
その他、本発明はコンピュータ装置として捉えることができる。このコンピュータ装置では、データベースが複数の語のデータを格納し、入力部が原文テキストのデータを入力し、翻訳処理部が入力された原文テキストを、データベースを参照して翻訳処理し、出力部が原文テキストの翻訳文データを出力し、且つ翻訳処理部は、2以上連続する同じ文字を有する強調語において、連続する文字の文字数を減少させた修正語を生成し、修正語に対応する翻訳語をデータベースから取得することを特徴とするものである。
データベースには、翻訳語を特定するための属性として強調属性データと、強調属性データに関連づけられた強調訳語とが、修正語に関連づけて登録され、出力部は、修正語に関連づけて強調属性データがデータベースに登録されている場合、強調属性データに関連づけられた強調訳語を、翻訳語として用いた翻訳文データを出力することができる。
また、出力部は、翻訳文データ中の翻訳語が、修正語に基づいて翻訳された語句であることを示すデータを、翻訳文データと共に出力することができる。この場合、出力部により出力された翻訳文データに基づいて、翻訳語を強調した状態で翻訳文を表示する表示部をさらに備えさせることもできる。
発明を実施するための最良の態様
以下、添付図面に示す実施の形態に基づいてこの発明を詳細に説明する。
図1は、本実施の形態におけるコンピュータ装置の概略構成を説明するための図である。
この図1に示すように、コンピュータ装置1は、CPUやメインメモリ、HDD等を備えた制御部2、CRTやLCDパネル等を用いたディスプレイ(表示部)3、ディスプレイ3の表示画面上に表示される文字等を入力するためのキーボードやポインタを操作するためのマウス等の入力デバイス4を備える。
制御部2は、ディスプレイ3においてCPUからの描画命令に基づいて画面の表示を行うための表示制御ブロック5と、ユーザにより入力されたデータを制御するための入力デバイス制御ブロック6と、翻訳処理を行うための翻訳処理ブロック7としての機能を有する。
表示制御ブロック5は、図示しないビデオドライバ、ビデオチップ等によって実現されるもので、メインメモリ等から転送された画像データに基づいた表示をディスプレイ3に実行させる。
入力デバイス制御ブロック6は、ポインティングデバイスやキーボード等の入力デバイス4をユーザが操作したときのイベントを処理するユーザインターフェイスドライバによって実現されるもので、特に、ユーザによる入力デバイス4の操作に基づいて入力されたデータをディスプレイ3の表示画面上に表示させるための処理を実行する。
翻訳処理ブロック7は、HDD等に格納されたプログラムに基づいた処理をCPUがメインメモリ等と協働して実行することにより実現されるものである。ここで、翻訳処理ブロック7について詳しく説明する。
図2は、翻訳処理ブロック7の機能的な構成を示す図である。
翻訳処理ブロック7は、翻訳すべき原文テキストを取り込む入力部10、取り込んだ原文テキストの翻訳処理を実行する翻訳処理部20、実行された翻訳処理の結果である訳文等をディスプレイ3に表示させるためのデータを出力する出力部30、翻訳処理を行うに際して用いる辞書データを格納した辞書データ格納部50を備える。辞書データ格納部50は、基本辞書51、ユーザ辞書52の他に、例えばスポーツ、コンピュータ、アート、エンターテイメント、政治経済、科学、家庭等、分野別のデータを有する分野別辞書53を有している。
図3は、辞書データ格納部50に格納されたデータの一例を示す図である。
辞書データ格納部50は、例えば図3に示すようなデータを格納している、すなわち品詞、意味属性、強調属性、訳語、日本語属性のデータが単語毎に記録されている。ここで、一例として抜粋されている単語「cool」は品詞として形容詞が特定されており、その訳語として「冷静」と「クーール」の二つが登録されている。また、単語「Japanese」は、品詞として名詞と形容詞が特定されており、その訳語として、名詞では「日本人」と「日本語」が、形容詞として「日本」が登録されている。「冷静」と「クーール」や、「日本人」と「日本語」のように、1つの単語に対する訳語の決定において、同じ品詞の訳語が複数ある場合、原文テキストを構成する単語どうしの繋がりにおいて、意味属性、強調属性、日本語属性等に基づいて、どの訳語を使用するかが決定される。なお、強調属性とは、強調表現に用いる訳語の有無を示すものであり、強調属性がYESの場合には、強調表現に用いる訳語であることを意味する。
上記のような構成を有するコンピュータ装置1の翻訳処理ブロック7では、翻訳処理を行う際に、入力部10にて取り込んだ原文テキスト(文章や単語)を基に辞書データ格納部50を参照し、翻訳処理部20が翻訳処理を行って訳文を生成し、出力部30から訳文を出力する。翻訳処理では、文法ルール、単語データ等が格納された辞書データ格納部50を参照し、形態素解析、構文解析、構文生成、訳語生成等の処理が翻訳処理部20において順次行われる。このように翻訳処理を行うに際し、原文テキストに強調語が含まれる場合であっても、翻訳処理部20は正しい訳文を得ることができ、さらに強調語を強調した状態で訳文を出力することができる。例えば、図4(a)に示すような翻訳前の英文の原文テキストでは、「cool」が「o」を重複させた強調語「coool」となっており、翻訳後の日本語の訳文では、図4(b)に示すように、「*クーール*」と強調されて翻訳される。
以下に、強調語を正しく且つ強調して出力するための翻訳処理ブロック7における処理について、図4(a)に示す英文の原文テキストを図4(b)に示す日本語文に翻訳する例を用いて具体的に説明する。なお、翻訳処理の概要そのものは、一般的な手法であるため、従来公知の翻訳処理について詳細な説明は省略する。また、翻訳処理アルゴリズムや翻訳結果の出力形態については特に限定する意味はない。
図5は、翻訳処理ブロック7における翻訳処理の主な流れを示す図である。
まず、翻訳処理ブロック7は、入力部10から取り込んだ原文テキストについて形態素解析を行う(ステップS101)。形態素解析では、辞書データ格納部50に格納されたデータを参照しながら、原文テキストの文章を単語毎に分割し、品詞と属性の決定を行う。
ここで、図6にステップS101における形態素解析のさらに具体的な処理の流れを示す。
図6に示すように、まず翻訳処理部20は、原文テキストの分割された単語のそれぞれについて辞書データ格納部50のデータを参照しながら辞書引きを実行する(ステップS201)。ここで、辞書データ格納部50には、図3に示すように、単語ごとに品詞、意味属性、強調属性、訳語、日本語属性がデータとして記録されている。辞書引きでは、単語毎に辞書データ格納部50に一致する単語を抽出する処理を行う。したがって、図4(a)に示す原文テキストの場合には、分割された単語It,is,very,cooolのぞれぞれについて辞書引きを行い、辞書データ格納部50中において一致する単語の抽出を行う。
続けて、ステップS201における辞書引きの結果に基づき、原文テキストには、辞書データ格納部50のデータ中に登録されていない単語(以下、未登録語という)が含まれているか否かを判断する(ステップS203)。ステップS203において、未登録語は含まれていない、すなわち原文テキストを構成する単語は全て辞書データ格納部50に格納されたデータ中に存在すると判断すると、後述のステップS217の処理、すなわち品詞と属性の決定を行う。
一方、図4(a)に示すような原文テキストには、「coool」という辞書データ格納部50に登録されていない未登録語が含まれている。このような場合、翻訳処理部20はステップS203において原文テキストは未登録語を含むと判断し、その未登録語において2以上連続する同じ文字(以下、連続文字という)があるか否かを判断する(ステップS205)。ステップS205において、未登録語には連続文字が存在しないと判断した場合、翻訳処理部20は、その未登録語を未知の語句(未知語)として処理する決定を行う(ステップS206)。
一方、「coool」中の「ooo」のように未登録語に連続文字が存在するとステップS205において判断した場合、翻訳処理部20は、3文字以上の連続する連続文字を2文字に置き換えることで修正した単語(以下、修正語という)を生成し、その修正語について辞書データ格納部50を参照して辞書引きを行う(ステップS207)。すなわち、「coool」を「cool」に修正し、「cool」について辞書引きを行う。そして翻訳処理部20は、ステップS207の辞書引きの結果に基づき、修正語は辞書データ格納部50のデータ中に登録されているかどうかを判断する(ステップS209)。図4(a)に示す例の場合、ステップS207において修正された修正語「cool」は図4に示すように辞書データ格納部50に格納されている単語「cool」と一致するので、修正語は辞書データ格納部50に登録されていると判断する。
なお、ステップS209において、3文字以上の連続する連続文字を2文字に修正した修正語が辞書データ格納部50のデータ中に登録されていないと判断した場合、あるいは3文字以上の連続文字でない(例えば、2文字の連続文字)ために修正語を作成していない場合、翻訳処理部20は、未登録語の2文字以上の連続文字を1文字に置き換えることで修正した新たな修正語を生成し、その新たな修正語について辞書データ格納部50を参照して辞書引きを行う(ステップS211)。そして、翻訳処理部20は、辞書引きの結果に基づき、新たな修正語が辞書データ格納部50のデータ中に登録されているかどうかを判断する(ステップS213)。
なお、ステップS207やステップS211のように修正語を生成し、辞書引きする処理において、単語によっては「pleeeaaase」の例のように、連続文字部が複数ある場合も見うけられるので、このような場合には、それぞれの連続文字(この場合には「e」の連続と「a」の連続の2箇所)を、それぞれ2文字或いは1文字に削除した場合の組み合わせを修正語として辞書引きする必要がある。図には示さないが、このような処理は、本実施の形態に示した処理から当業者であれば容易に拡張可能である。
ステップS209において未登録語に含まれる3文字以上の連続文字を2文字に修正した修正語または、ステップS213において未登録語の2文字以上の連続文字を1文字に修正した修正語が、辞書データ格納部50のデータ中に登録されていると判断した場合、翻訳処理部20は、その未登録語を修正語として処理する決定を行う(ステップS215)。このとき、その修正語には、未登録語を修正した単語である旨を示すフラグ(データ)が付与される。
以上のようにして、未登録語がある場合には、ステップS215において修正語に決定し、またはステップS206において未知語に決定した上で、原文テキストを構成するそれぞれの単語の品詞と属性の決定を行い(ステップS217)、ステップS101の形態素解析の処理を終了する。なお、ステップS101の形態素解析では品詞や属性を一意に決定できない場合があり、この場合には複数の品詞や属性を候補として残しておくことができる。
図5のステップS101に続けて、翻訳処理ブロック7は、構文解析を行う(ステップS103)。構文解析では、単語毎に分割された原文テキストを、辞書データ格納部50の基本辞書51に記録されている文法ルールを参照しながら解析し、構文木データと呼ばれるツリー構造のデータを作成する。構文木データとは、原文テキストの中で、例えば、どの部分が主語で、どの部分が述語で、さらに、述語の部分は動詞と目的語からなる動詞句で、目的語の部分は冠詞と名詞からなる名詞句であるというようなことを階層的に表したツリー構造のデータである。なお、構文解析に使用される文法ルールは、文法的な属性だけでなく意味的な属性が指定されているものであってもよい。
続けて、ステップS103の結果に基づいて、翻訳処理ブロック7は構文生成を行う(ステップS105)。構文生成では、ステップS103の構文解析で得られた原言語(英日翻訳なら英語)の構文木データを参照しながら、目的言語(英日翻訳なら日本語)の構文木データを作成する。
そして、ステップS105で得られた構文木データに基づいて、翻訳処理ブロック7は訳語生成を行う(ステップS107)。訳語生成では、例えば、構文木データの中で訳語が決定されていない単語(1つの単語について品詞が同じ訳語が複数ある場合等、訳語の候補が複数存在する単語)に関し、辞書データ格納部50を参照して原文テキストの各単語に対応する訳語を特定する。そして、最終的に得られた訳語を繋げて一文を生成する。
ここで、図7にステップS107における訳語生成のさらに具体的な処理の流れを示す。
図7に示すように、まず翻訳処理部20は、原文テキストの分割された単語のそれぞれについて、辞書データ格納部50のデータを参照しながら辞書引きを実行する(ステップS301)。この辞書引きは、図1に示すステップS105で得られた構文木データに基づき、辞書引きする単語の品詞を特定した上で、最終的な訳語を決定するために行われる処理である。
続けて、翻訳処理部20は、辞書引きした1つの単語について、品詞がマッチする訳語が複数存在するか否かを判断する(ステップS303)。辞書データ格納部50には、各単語の品詞毎に訳語が登録されているが、同じ1つの品詞に複数の訳語が登録されている場合がある。例えば、図3に示すように、単語Japaneseについては、名詞として日本人(意味属性:人)と日本語(意味属性:言語)という訳語が登録されている。ステップS303において、訳語は複数存在しないと判断した場合、後述のステップS309の処理を行う。
一方、ステップS303において、訳語が複数存在すると判断した場合、そのように判断された単語はステップS101(ステップS207またはステップS211)において生成された修正語であるか否かを判断する(ステップS305)。ここでは、前述のステップS215において、未登録語を修正した単語である旨を示すフラグがあるか否かによって修正語であるか否かが判断される。ステップS305においてその単語は修正語であると判断した場合、その修正語について強調属性の付いた訳語が存在するか否かを判断する(ステップS307)。例えば、図4(a)に示す「coool」は、ステップS101において修正されて「cool」となった。この「cool」については図3に示すように、強調属性がYESとして登録された訳語「クーール」が存在する。このように強調属性の付いた訳語が存在すると判断した場合、その語句を訳文に使用する訳語に決定する(ステップS309)。
一方、ステップS305においてその単語は修正語ではないと判断した場合、またはステップS307において修正語に対応する訳語は存在しないと判断した場合、その単語について、構文木データ中で要求される意味属性等の他の属性についてのマッチングを行う(ステップS308)。そして、マッチングにより属性が最もマッチする訳語を抽出し、訳文に使用する訳語を決定する(ステップS309)。なお、構文木データ中で属性が決まらない場合には、第1訳語(最も良く使われる訳語)を選択することができる。
続けて、翻訳処理部20は、訳語が決定された単語は修正語であるか否かを再度判断する(ステップS311)。修正語ではないと判断すると、翻訳処理部20は、訳語を出力部30へそのまま出力し(ステップS312)、本処理を終了する。
一方、訳語が決定された単語が、修正語であると判断した場合、翻訳処理部20は、訳語を強調処理して出力部30から出力する(ステップS313)、本処理を終了する。強調処理では、その単語が原文テキストでは強調語であったことを明らかにするため、「*」等の記号がその訳語の前後に付される。
このようにして図7に示す処理により単語毎の訳語を確定し、繋ぎ合わせることで最終的な訳文を出力部30は出力する。出力された訳文は、コンピュータ装置1の翻訳処理ブロック7および表示制御ブロック5の処理により、ディスプレイ3に表示される。例えば、図4(a)に示した原文テキストは、図4(b)に示すような翻訳文となってディスプレイ3に表示される。図4(a)(b)に示す例では、強調語である「coool」が、強調属性の付いた訳語「クーール」を使用して翻訳され、さらにその単語の前後に符号「*」を付して「*クーール*」と表されている。
以上のように本実施の形態におけるコンピュータ装置1では、口語の翻訳において、同一の文字が連続する部分を含む強調語を、連続した文字を減らすことで辞書データ格納部50に登録されている語句と一致させる。したがって、コンピュータ装置1では強調語の品詞を正しく認識することができ、誤訳の発生を抑制することができ、また従来の技術において翻訳不可能であった文章も翻訳することが可能となる。
さらに、強調語を翻訳した場合には、強調語に対応した訳語を使用し、また訳語の前後に記号等を付与することで、原文テキストにおいて強調語であったことを明らかにすることができる。その結果、ユーザは翻訳前の文章の意図を、より的確に理解することが可能となる。
また、そのような強調語を含む文章に対して、強調語として特有の訳語を選択することで、文章の雰囲気がより適切に伝わることが期待される。
なお、強調語の翻訳において出力される訳語の強調処理は、図4(b)に示すように符号を付する処理に限られない。図8(A)(B)(C)に、強調語の翻訳における他の表記例を示す。
図8(A)では、(a)に示す原文テキストは、「Oops」の「o」が連続文字となって強調された「Oooooooops」が含まれている。それに対して(b)に示す翻訳文では、強調語の訳語が「しまったぁ〜」となっており、さらに訳語の前後において目立つように複数の符号「***」が付与されている。このように、強調データとして付与される符号は特に限定されず、他の形状の符号であってもよい。また付与される位置も特に限定されず、「し*ま*っ*た*ぁ〜」のように単語の合間に付与されるものであってもよい。
また、例えば、ディスプレイ3に出力する際に、単なるテキストではなく、HTML形式等のフォントデータや色の設定が可能である場合には、書体、スタイル、サイズ等のフォントデータや色を変えることで強調されていることを明らかにすることができる。
例えば、図8(B)では、(a)に示す原文テキストは、「so」の「o」が連続文字となって強調された「soooooo」が含まれている。それに対して(b)に示す翻訳文では、強調属性がYESの訳語が存在しないために、強調語は通常の語句である(強調属性がYESではない語句)「とても」に翻訳され(いるが、この「とても」の部分に網掛けがされて表示されている。
さらに、図8(C)では、(a)に示す原文テキストは「Please」の「e」と「a」が連続文字となって強調された「Pleeeaaase」が含まれている。それに対して(b)に示す翻訳文では、強調語の訳語が「おねが〜い」となっており、さらにその訳語が目立つように他の文字よりフォントが大きくして表示されている。
その他、強調語についてフォント、スタイル、サイズ、色等の書式を変えたりすることも可能であり、強調語であることを表示する方法は、特に限定されない。また、強調属性を有する訳語を使用する場合や、テキスト表示のみ行うことが好ましい場合等においては強調処理は行わないものであってもよい。
その他、本実施の形態の翻訳処理は、英語の原文テキストを日本語に翻訳しているが、本発明はこれに限定されない。例えば、英語をドイツ語に翻訳する場合や、その他の言語をさらにその他の言語に翻訳する場合にも本発明を適用することができる。
また、本実施の形態の翻訳処理は、ノートブック型PCやデスクトップ型PC等の他、PDAや携帯電話等の携帯型コンピュータ装置において実行することが可能である。また、インターネットのウェブページやチャットウィンドウ上で実行できるようにすることも可能である。
さらに、本実施の形態の翻訳処理は、辞書データ格納部50をコンピュータ装置1内に備えているが、翻訳時にコンピュータ装置1が参照する辞書データは、コンピュータ装置1の外部にあってもよい。例えば、辞書データはネットワークを介してコンピュータ装置1が取得するものであってもよい。
なお、上記実施の形態で示したような処理を実行するプログラムは、以下のような記憶媒体の形態とすることもできる。
すなわち、記憶媒体としては、コンピュータ装置に上記したような処理を実行させるプログラムを、CD−ROM、DVD、メモリ、ハードディスク等の記憶媒体に、コンピュータ装置が読み取り可能に記憶させれば良い。
これ以外にも、本発明の主旨を逸脱しない限り、上記実施の形態で挙げた構成を取捨選択したり、他の構成に適宜変更することが可能である。
以上説明したように、本発明によれば、同一文字を連続させることによって強調された強調語を翻訳することが可能となる。
【図面の簡単な説明】
図1は、本実施の形態におけるコンピュータ装置の概略構成を示す図である。
図2は、翻訳処理ブロックの構成を示す図である。
図3は、辞書データ格納部に格納されたデータの一例を示す図である。
図4は、翻訳の具体例を示し、(a)は翻訳前の原文テキストを、(b)は翻訳後に表示される訳文を示す図である。
図5は、翻訳処理ブロックにおける翻訳処理の流れを示す図である。
図6は、図5に示す形態素解析の具体的な処理の流れを示す図である。
図7は、図5に示す訳語生成の具体的な処理の流れを示す図である。
図8は、(A)(B)(C)は、それぞれ強調語の翻訳における他の表記例を示す図である。
Claims (16)
- コンピュータ装置に入力された所定言語の原文テキストを他の言語に翻訳する翻訳方法であって、
前記コンピュータ装置が参照可能なデータベースに登録されていない未登録語を、前記原文テキストから抽出する抽出ステップと、
抽出された前記未登録語に、2以上連続する同じ文字が含まれるときに、当該連続する文字の文字数を減少させて当該未登録語から修正語を生成する修正語生成ステップと、
前記原文テキスト中の前記未登録語を前記修正語に置き換え、前記データベースを参照して当該原文テキストを翻訳する翻訳ステップと
を有することを特徴とする翻訳方法。 - 前記修正語生成ステップでは、3以上連続する前記文字を2文字に減少、または2以上連続する前記文字を1文字に減少することを特徴とする請求項1記載の翻訳方法。
- 前記翻訳文中の前記未登録語に対応する翻訳語が前記修正語に基づいて翻訳されたものであることを明らかにした状態で、当該翻訳文を出力する出力ステップをさらに有することを特徴とする請求項1記載の翻訳方法。
- 前記翻訳ステップでは、前記修正語に対応する修正語用の翻訳語を前記データベースから抽出することを特徴とする請求項1記載の翻訳方法。
- コンピュータ装置により翻訳された翻訳文を、当該コンピュータ装置が出力する出力方法であって、
前記コンピュータ装置に入力された原文テキストにおいて本来の文字綴りと異なる文字綴りが用いられた造語を特定する特定ステップと、
前記造語を含む前記原文テキストを翻訳し、前記翻訳文を出力する出力ステップと
を有し、
前記出力ステップでは、前記特定ステップにより特定された前記造語に対応する翻訳語に、強調表現を適用して前記翻訳文を出力することを特徴とする翻訳文の出力方法。 - 前記出力ステップでは、前記強調表現として、前記翻訳語に所定の表記を付加する、または当該翻訳語の書式を変化させることを特徴とする請求項5記載の翻訳文の出力方法。
- コンピュータ装置に実行させるプログラムを、当該コンピュータ装置が読み取り可能に記憶した記憶媒体において、
前記プログラムは、
前記コンピュータ装置に入力された原文テキストを構成する単語の品詞と属性を、当該コンピュータ装置が参照可能なデータベースから抽出する形態素解析処理と、
前記形態素解析処理の結果に基づいて、原文のツリー構造を有する構文木データを作成する構文解析処理と、
前記構文解析処理の結果に基づいて、訳文の構文木データを作成する構文生成処理と、
前記原文テキストの前記単語に対応する翻訳語を前記データベースから取得し、前記訳文の構文木データに基づき当該翻訳語を繋げて翻訳文を生成する翻訳文生成処理と
を前記コンピュータ装置に実行させ、
前記形態素解析処理では、前記原文テキストが前記データベースに登録されていない未登録語を含み、且つ当該未登録語が2以上連続する同じ文字を含むときには、当該連続する文字を1または2文字に減少させた修正語を生成し、当該未登録語の代わりに当該修正語の前記品詞と前記属性を前記データベースから抽出することを前記コンピュータ装置に実行させることを特徴とする記憶媒体。 - 前記翻訳文生成処理では、前記未登録語に代わる前記修正語の前記属性が強調属性を有するとき、当該強調属性と関連づけられた強調訳語を前記翻訳語として前記データベースから取得し、当該強調訳語を含む前記翻訳文を生成することを前記コンピュータ装置に実行させることを特徴とする請求項7記載の記憶媒体。
- 前記翻訳文生成処理では、前記修正語に対応する前記翻訳語に対し、当該修正語を翻訳したものであることを示すためのデータを付与することを前記コンピュータ装置に実行させることを特徴とする請求項7記載の記憶媒体。
- 翻訳処理をコンピュータ装置に実行させるプログラムであって、
コンピュータ装置に入力された原文テキストから、当該コンピュータ装置が参照可能なデータベースに登録されていない未登録語を抽出する処理と、
抽出された前記未登録語が、当該未登録語の重複する文字の文字数を変化させることにより前記データベースに登録された登録語に合致するとき、前記未登録語に代えて前記登録語を用いて前記原文テキストを翻訳する処理と、
前記未登録語に代えて前記登録語を用いた部分を、他の部分から識別できるようにして翻訳文を表示させる処理と
を前記コンピュータ装置に実行させることを特徴とするプログラム。 - 前記翻訳文を表示させる処理では、前記未登録語に代えて前記登録語を用いた部分を前記他の部分から識別できるようにするため、当該部分について、所定の強調データの追加、フォントデータの変更および色の変更の少なくとも1つを前記コンピュータ装置に実行させることを特徴とする請求項10記載のプログラム。
- 前記翻訳文を表示させる処理では、前記未登録語に代えて前記登録語を用いた部分に対応する翻訳語として、予め登録された強調訳語を用いることを前記コンピュータ装置に実行させることを特徴とする請求項11記載のプログラム。
- 複数の語のデータを格納したデータベースと、
原文テキストのデータを入力する入力部と、
入力された前記原文テキストを、前記データベースを参照して翻訳処理する翻訳処理部と、
前記原文テキストの翻訳文データを出力する出力部と
を備え、
前記翻訳処理部は、2以上連続する同じ文字を有する強調語において、当該連続する文字の文字数を減少させた修正語を生成し、当該修正語に対応する翻訳語を前記データベースから取得することを特徴とするコンピュータ装置。 - 前記データベースには、前記翻訳語を特定するための属性として強調属性データと、当該強調属性データに関連づけられた強調訳語とが、前記修正語に関連づけて登録され、
前記出力部は、前記修正語に関連づけて前記強調属性データが前記データベースに登録されている場合、当該強調属性データに関連づけられた前記強調訳語を、前記翻訳語として用いた前記翻訳文データを出力することを特徴とする請求項13記載のコンピュータ装置。 - 前記出力部は、前記翻訳文データ中の前記翻訳語が、前記修正語に基づいて翻訳された語句であることを示すデータを、前記翻訳文データと共に出力することを特徴とする請求項13記載のコンピュータ装置。
- 前記出力部により出力された前記翻訳文データに基づいて、前記翻訳語を強調した状態で翻訳文を表示する表示部をさらに備えたことを特徴とする請求項15記載のコンピュータ装置。
Applications Claiming Priority (3)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
JP2002020676 | 2002-01-29 | ||
JP2002020676 | 2002-01-29 | ||
PCT/JP2002/013329 WO2003065245A1 (fr) | 2002-01-29 | 2002-12-19 | Procede de traduction, procede de production de phrase traduite, support d'enregistrement, programme et ordinateur |
Publications (1)
Publication Number | Publication Date |
---|---|
JPWO2003065245A1 true JPWO2003065245A1 (ja) | 2005-05-26 |
Family
ID=27654365
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
JP2003564767A Pending JPWO2003065245A1 (ja) | 2002-01-29 | 2002-12-19 | 翻訳方法、翻訳文の出力方法、記憶媒体、プログラムおよびコンピュータ装置 |
Country Status (8)
Country | Link |
---|---|
US (2) | US7529656B2 (ja) |
EP (1) | EP1482414B1 (ja) |
JP (1) | JPWO2003065245A1 (ja) |
KR (1) | KR20040070168A (ja) |
CN (1) | CN1618064B (ja) |
AT (1) | ATE484029T1 (ja) |
DE (1) | DE60237922D1 (ja) |
WO (1) | WO2003065245A1 (ja) |
Families Citing this family (34)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
US7529656B2 (en) * | 2002-01-29 | 2009-05-05 | International Business Machines Corporation | Translating method, translated sentence outputting method, recording medium, program, and computer device |
US7801838B2 (en) * | 2002-07-03 | 2010-09-21 | Ramp Holdings, Inc. | Multimedia recognition system comprising a plurality of indexers configured to receive and analyze multimedia data based on training data and user augmentation relating to one or more of a plurality of generated documents |
US20040004599A1 (en) * | 2002-07-03 | 2004-01-08 | Scott Shepard | Systems and methods for facilitating playback of media |
US7536293B2 (en) * | 2003-02-24 | 2009-05-19 | Microsoft Corporation | Methods and systems for language translation |
JP4027269B2 (ja) * | 2003-06-02 | 2007-12-26 | キヤノン株式会社 | 情報処理方法及び装置 |
DE202005021909U1 (de) * | 2004-03-16 | 2011-04-14 | Star Ag | Computergestütztes Hilfsmittel für ein Verfahren zur Erstellung von fremdsprachigen Dokumenten |
JP2006155433A (ja) * | 2004-12-01 | 2006-06-15 | Nec Corp | 文字入力言語変換表示システム及びその方法並びにそれを用いた通信端末及びプログラム |
US7849144B2 (en) * | 2006-01-13 | 2010-12-07 | Cisco Technology, Inc. | Server-initiated language translation of an instant message based on identifying language attributes of sending and receiving users |
US8145473B2 (en) * | 2006-10-10 | 2012-03-27 | Abbyy Software Ltd. | Deep model statistics method for machine translation |
US20080140519A1 (en) * | 2006-12-08 | 2008-06-12 | Microsoft Corporation | Advertising based on simplified input expansion |
US8144990B2 (en) | 2007-03-22 | 2012-03-27 | Sony Ericsson Mobile Communications Ab | Translation and display of text in picture |
CN101388011B (zh) * | 2007-09-13 | 2011-07-20 | 北京搜狗科技发展有限公司 | 一种向用户词库中记录信息的方法和装置 |
DE102007043803A1 (de) * | 2007-09-13 | 2009-04-09 | Vistec Semiconductor Systems Gmbh | Einrichtung und Verfahren zur Bestimmung der räumlichen Lage bewegter Elemente einer Koordinaten-Messmaschine |
US8972432B2 (en) * | 2008-04-23 | 2015-03-03 | Google Inc. | Machine translation using information retrieval |
US8296125B2 (en) * | 2008-10-17 | 2012-10-23 | International Business Machines Corporation | Translating source locale input string to target locale output string |
US20100332217A1 (en) * | 2009-06-29 | 2010-12-30 | Shalom Wintner | Method for text improvement via linguistic abstractions |
CN101739395A (zh) * | 2009-12-31 | 2010-06-16 | 程光远 | 机器翻译方法和系统 |
US9047283B1 (en) * | 2010-01-29 | 2015-06-02 | Guangsheng Zhang | Automated topic discovery in documents and content categorization |
US8554558B2 (en) | 2010-07-12 | 2013-10-08 | Nuance Communications, Inc. | Visualizing automatic speech recognition and machine translation output |
KR101356417B1 (ko) * | 2010-11-05 | 2014-01-28 | 고려대학교 산학협력단 | 병렬 말뭉치를 이용한 동사구 번역 패턴 구축 장치 및 그 방법 |
US9639676B2 (en) | 2012-05-31 | 2017-05-02 | Microsoft Technology Licensing, Llc | Login interface selection for computing environment user login |
US20130326347A1 (en) * | 2012-05-31 | 2013-12-05 | Microsoft Corporation | Application language libraries for managing computing environment languages |
US9674132B1 (en) * | 2013-03-25 | 2017-06-06 | Guangsheng Zhang | System, methods, and user interface for effectively managing message communications |
JP6417649B2 (ja) * | 2013-08-22 | 2018-11-07 | 株式会社リコー | 文章処理装置、文章表示システム、プログラム |
JP6226321B2 (ja) * | 2013-10-23 | 2017-11-08 | 株式会社サン・フレア | 翻訳支援システム、翻訳支援システムのサーバー、翻訳支援システムのクライアント、翻訳支援システムの制御方法、及びそのプログラム |
US10740573B2 (en) | 2015-12-23 | 2020-08-11 | Oath Inc. | Method and system for automatic formality classification |
US10346546B2 (en) * | 2015-12-23 | 2019-07-09 | Oath Inc. | Method and system for automatic formality transformation |
US20170185587A1 (en) * | 2015-12-25 | 2017-06-29 | Panasonic Intellectual Property Management Co., Ltd. | Machine translation method and machine translation system |
CN107291700A (zh) * | 2017-07-17 | 2017-10-24 | 广州特道信息科技有限公司 | 实体词识别方法及装置 |
CN109522563B (zh) * | 2018-10-15 | 2023-05-23 | 语联网(武汉)信息技术有限公司 | 自动判断语句翻译完毕的方法及装置 |
CA3045132C (en) * | 2019-06-03 | 2023-07-25 | Eidos Interactive Corp. | Communication with augmented reality virtual agents |
US11379660B2 (en) * | 2019-06-27 | 2022-07-05 | International Business Machines Corporation | Deep learning approach to computing spans |
CN111368035A (zh) * | 2020-03-03 | 2020-07-03 | 新疆大学 | 一种基于神经网络的汉维-维汉机构名词典的挖掘系统 |
JP7287412B2 (ja) * | 2021-03-24 | 2023-06-06 | カシオ計算機株式会社 | 情報処理装置、情報処理方法及びプログラム |
Family Cites Families (19)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
US4730269A (en) * | 1983-02-18 | 1988-03-08 | Houghton Mifflin Company | Method and apparatus for generating word skeletons utilizing alpha set replacement and omission |
JP2815714B2 (ja) | 1991-01-11 | 1998-10-27 | シャープ株式会社 | 翻訳装置 |
US5678051A (en) * | 1992-12-24 | 1997-10-14 | Matsushita Electric Industrial C., Ltd. | Translating apparatus with special display mode for supplemented words |
JP3408291B2 (ja) * | 1993-09-20 | 2003-05-19 | 株式会社東芝 | 辞書作成支援装置 |
JP3161942B2 (ja) * | 1995-06-14 | 2001-04-25 | シャープ株式会社 | 訳振り機械翻訳装置 |
JPH09128396A (ja) * | 1995-11-06 | 1997-05-16 | Hitachi Ltd | 対訳辞書作成方法 |
JPH10198680A (ja) * | 1997-01-07 | 1998-07-31 | Hitachi Ltd | 分散辞書管理方法及びそれを用いた機械翻訳方法 |
US6973423B1 (en) * | 1997-07-02 | 2005-12-06 | Xerox Corporation | Article and method of automatically determining text genre using surface features of untagged texts |
US6424983B1 (en) * | 1998-05-26 | 2002-07-23 | Global Information Research And Technologies, Llc | Spelling and grammar checking system |
CN1266235A (zh) * | 1999-03-04 | 2000-09-13 | 英业达股份有限公司 | 自动拾取英文原形单词的方法 |
JP3539479B2 (ja) * | 1999-03-11 | 2004-07-07 | シャープ株式会社 | 翻訳装置及び翻訳方法並びに翻訳プログラムを記録した記録媒体 |
US6708166B1 (en) * | 1999-05-11 | 2004-03-16 | Norbert Technologies, Llc | Method and apparatus for storing data as objects, constructing customized data retrieval and data processing requests, and performing householding queries |
US6618697B1 (en) * | 1999-05-14 | 2003-09-09 | Justsystem Corporation | Method for rule-based correction of spelling and grammar errors |
US6393389B1 (en) * | 1999-09-23 | 2002-05-21 | Xerox Corporation | Using ranked translation choices to obtain sequences indicating meaning of multi-token expressions |
US7225199B1 (en) * | 2000-06-26 | 2007-05-29 | Silver Creek Systems, Inc. | Normalizing and classifying locale-specific information |
JP3589972B2 (ja) * | 2000-10-12 | 2004-11-17 | 沖電気工業株式会社 | 音声合成装置 |
IT1315160B1 (it) * | 2000-12-28 | 2003-02-03 | Agostini Organizzazione Srl D | Sistema e metodo di traduzione automatica o semiautomatica conposteditazione per la correzione degli errori. |
US6983238B2 (en) * | 2001-02-07 | 2006-01-03 | American International Group, Inc. | Methods and apparatus for globalizing software |
US7529656B2 (en) * | 2002-01-29 | 2009-05-05 | International Business Machines Corporation | Translating method, translated sentence outputting method, recording medium, program, and computer device |
-
2002
- 2002-12-19 US US10/503,112 patent/US7529656B2/en not_active Expired - Fee Related
- 2002-12-19 EP EP02806670A patent/EP1482414B1/en not_active Expired - Lifetime
- 2002-12-19 CN CN02827654XA patent/CN1618064B/zh not_active Expired - Lifetime
- 2002-12-19 WO PCT/JP2002/013329 patent/WO2003065245A1/ja active Application Filing
- 2002-12-19 AT AT02806670T patent/ATE484029T1/de not_active IP Right Cessation
- 2002-12-19 KR KR10-2004-7001553A patent/KR20040070168A/ko not_active Ceased
- 2002-12-19 DE DE60237922T patent/DE60237922D1/de not_active Expired - Lifetime
- 2002-12-19 JP JP2003564767A patent/JPWO2003065245A1/ja active Pending
-
2009
- 2009-03-25 US US12/410,887 patent/US8005662B2/en not_active Expired - Fee Related
Also Published As
Publication number | Publication date |
---|---|
EP1482414A1 (en) | 2004-12-01 |
EP1482414B1 (en) | 2010-10-06 |
KR20040070168A (ko) | 2004-08-06 |
CN1618064B (zh) | 2010-05-05 |
US7529656B2 (en) | 2009-05-05 |
EP1482414A4 (en) | 2008-11-12 |
ATE484029T1 (de) | 2010-10-15 |
US20090254334A1 (en) | 2009-10-08 |
WO2003065245A1 (fr) | 2003-08-07 |
CN1618064A (zh) | 2005-05-18 |
US20060167675A1 (en) | 2006-07-27 |
DE60237922D1 (de) | 2010-11-18 |
US8005662B2 (en) | 2011-08-23 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
JPWO2003065245A1 (ja) | 翻訳方法、翻訳文の出力方法、記憶媒体、プログラムおよびコンピュータ装置 | |
US7031911B2 (en) | System and method for automatic detection of collocation mistakes in documents | |
US20120297294A1 (en) | Network search for writing assistance | |
US20080133444A1 (en) | Web-based collocation error proofing | |
US8655641B2 (en) | Machine translation apparatus and non-transitory computer readable medium | |
JPH0361220B2 (ja) | ||
WO2010046782A2 (en) | Hybrid machine translation | |
JPS62163173A (ja) | 機械翻訳方法 | |
Laboreiro et al. | Tokenizing micro-blogging messages using a text classification approach | |
US7136803B2 (en) | Japanese virtual dictionary | |
Sharma et al. | Word prediction system for text entry in Hindi | |
KR100897718B1 (ko) | 구어체 문장의 오류 교정 장치 및 방법 | |
WO2024164976A1 (zh) | 样本构建方法、装置、电子设备及可读存储介质 | |
CN115034209A (zh) | 文本分析方法、装置、电子设备以及存储介质 | |
JP5185343B2 (ja) | 機械翻訳装置及び機械翻訳プログラム | |
Ratnam et al. | Phonogram-based Automatic Typo Correction in Malayalam Social Media Comments | |
JP4845921B2 (ja) | 機械翻訳装置、機械翻訳プログラム及び機械翻訳方法 | |
US20130080144A1 (en) | Machine translation apparatus, a method and a non-transitory computer readable medium thereof | |
JP2004118461A (ja) | 言語モデルのトレーニング方法、かな漢字変換方法、言語モデルのトレーニング装置、かな漢字変換装置、コンピュータプログラムおよびコンピュータ読み取り可能な記録媒体 | |
JP2008090247A (ja) | 和訳ローマ字略語を付加したゲルマン語群言語の辞書。 | |
MR | Role of Natural Language Processing and Machine Learning on (MTS)-Machine Translation System for Indian Languages: A Review. | |
KR100424009B1 (ko) | 입력오류 표시기능을 가진 번역장치 및 방법 | |
JP2723886B2 (ja) | 機械翻訳装置及びその翻訳規則作成方法 | |
JPH07200605A (ja) | 翻訳装置 | |
JP2004264960A (ja) | 用例ベースの文変換装置、およびコンピュータプログラム |