[go: up one dir, main page]

JP2017510924A - 機械翻訳システムおよび機械翻訳方法 - Google Patents

機械翻訳システムおよび機械翻訳方法 Download PDF

Info

Publication number
JP2017510924A
JP2017510924A JP2017501524A JP2017501524A JP2017510924A JP 2017510924 A JP2017510924 A JP 2017510924A JP 2017501524 A JP2017501524 A JP 2017501524A JP 2017501524 A JP2017501524 A JP 2017501524A JP 2017510924 A JP2017510924 A JP 2017510924A
Authority
JP
Japan
Prior art keywords
grammar
translation
language
word
text
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Pending
Application number
JP2017501524A
Other languages
English (en)
Other versions
JP2017510924A5 (ja
Inventor
アリベク イサエブ
アリベク イサエブ
Original Assignee
アドベンター マネジメント リミテッド
アドベンター マネジメント リミテッド
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by アドベンター マネジメント リミテッド, アドベンター マネジメント リミテッド filed Critical アドベンター マネジメント リミテッド
Publication of JP2017510924A publication Critical patent/JP2017510924A/ja
Publication of JP2017510924A5 publication Critical patent/JP2017510924A5/ja
Pending legal-status Critical Current

Links

Images

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F40/00Handling natural language data
    • G06F40/40Processing or translation of natural language
    • G06F40/58Use of machine translation, e.g. for multi-lingual retrieval, for server-side translation for client devices or for real-time translation
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F40/00Handling natural language data
    • G06F40/20Natural language analysis
    • G06F40/237Lexical tools
    • G06F40/242Dictionaries
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F40/00Handling natural language data
    • G06F40/20Natural language analysis
    • G06F40/268Morphological analysis
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F40/00Handling natural language data
    • G06F40/20Natural language analysis
    • G06F40/279Recognition of textual entities
    • G06F40/284Lexical analysis, e.g. tokenisation or collocates
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F40/00Handling natural language data
    • G06F40/40Processing or translation of natural language
    • G06F40/55Rule-based translation

Landscapes

  • Engineering & Computer Science (AREA)
  • Theoretical Computer Science (AREA)
  • Health & Medical Sciences (AREA)
  • Artificial Intelligence (AREA)
  • Audiology, Speech & Language Pathology (AREA)
  • Computational Linguistics (AREA)
  • General Health & Medical Sciences (AREA)
  • Physics & Mathematics (AREA)
  • General Engineering & Computer Science (AREA)
  • General Physics & Mathematics (AREA)
  • Machine Translation (AREA)

Abstract

ある自然言語から別の自然言語へテキストを翻訳する(意味を伝達する)機械またはコンピュータ翻訳のシステムおよび方法。本システムおよび方法は、言語を編成するためのモジュール構造を有し、このモジュール構造は、過渡的(間接的)翻訳方法と組み合わさって、含まれる任意の言語間の任意の方向での翻訳を可能とする多言語システムの創出を可能にする。あらゆる言語モジュールは、語句の辞書と、演算関数のリストと、ある言語から別の言語への翻訳を行うのに必要な変換プロセスを誘導するパラメータとを含む。本システムは、規則ベースの機械翻訳のために設計されたアルゴリズムをさらに利用する。

Description

相互参照
本出願は非仮出願であり、その内容全体が参照により本明細書に組み入れられる、2014年3月28日付で出願された米国仮出願第61/971764号の優先権の恩典を主張するものである。
発明の分野
本発明は、概して、機械またはコンピュータベースの翻訳システムおよび機械またはコンピュータベースの翻訳方法の分野に関し、より詳細には、言語のモジュール編成を通過(transit)翻訳プロセスと共に用いて、書かれたテキストをある自然言語から別の自然言語へ翻訳する機械またはコンピュータ翻訳システムおよび機械またはコンピュータ翻訳方法に関する。本発明は、すべての統合された言語間で全方向に翻訳することのできる能力を有する多言語システムの創出を提供する。本明細書で用いる場合、「翻訳」とは、ある言語での表現または語の意味を別の言語での同じ意味へと変換することを意味するものである。
背景
当分野では様々なタイプおよび構成のコンピュータベースの翻訳システムおよび翻訳方法が知られている。これら先行技術のシステムおよび方法は汎用性および速度を欠くものであった。従前のシステムおよび/または方法の中には文字認識プロセスに依拠するものもあり、それは解析を減速させるものであった。
上記のように、本発明(以後、「MTS」と呼ぶこともある)は、言語のモジュール編成を通過翻訳法と共に有するシステムおよび方法を用いる。各言語モジュールは、辞書、サービスリストおよび規則を含み、これらは、ある言語から別の言語への翻訳時にテキストの必要な変換を制御する。通過翻訳法は、言語間の翻訳時に通過言語または複数の言語を用いるオプションである。通過言語では形態素合成が行われず、完全に解析された(タグ付けされた)文がさらなる翻訳に用いられる。
MTS、すなわち、「本発明」による翻訳のプロセスには3つの基本段階がある。これらは、(i)ソーステキストの解析、(ii)翻訳自体、および(iii)翻訳されたテキストの合成、を含む。
ソーステキストの解析の結果としてすべての品詞および語間の従属関係の曖昧でない識別がもたらされる(従属関係は通例、文中の2語間の文法関係のセットである)。
翻訳自体の段階では、語の意味が別の言語へ翻訳され、各語はターゲット文法に従ってそのポジションを変え、従属関係も変形される。
合成段階では、最終修正が行われる。これらは、サービス語の置換および挿入、ならびに語尾の調整を含む。
上記段階の各々はテキスト変形の規則を利用し、これらの規則は文法へと整理統合されている。
合成は文の完全にタグ付けされた構造をもたらす。これが、解析を行わなくてもそうした文を任意の他の言語へ容易に翻訳することができる理由である。通過翻訳はこの原理に基づくものである。
以上の概要は、単に、本発明のいくつかの局面の基本的理解を提供するように本発明のいくつかの例示的態様を要約する目的で示しているにすぎない。したがって、上術の例示的態様は単なる例にすぎず、いかなる点においても本発明の範囲も趣旨も狭めるものと解釈すべきではないことが理解されるであろう。理解されるように本発明の範囲は多くの可能な態様を包含するものであり、そのうちのいくつかを、ここで要約した態様に加えて、以下でさらに説明する。
本発明の態様を一般的に説明したので、次に、添付の図面を参照する。
本発明の方法を示す代表的な概略図である。 本発明のシステムを示す代表的な概略図である。 本発明の翻訳プロセスの流れ図である。 本発明で用いられる語彙素の概略図である。 文における従属関係の一例を示す図である(英語)。 本発明で用いられる規則の動作および順序を示す流れ図である。 文法における規則の動作の概略図である。 本発明の機能アルゴリズムの基本工程を示す流れ図である。 本発明のテキスト翻訳順序を示す流れ図である。 文「I go to the USA on Jan 1st, 2014.」をロシア語へ翻訳する例を示す流れ図である。 言語Aから言語Cへの間接的(推移的(transitive))翻訳を示す流れ図である。 言語Aから言語Dへの間接的(推移的)翻訳を示す流れ図である。
例示的態様の説明
システムの構造要素は以下を含む。
(i)字句単位(所与の語についての語形のセットに対応する)。
(ii)属性(品詞および品詞の可能な性質および特性を決定する)。
(iii)フォーマット(一連の属性を表し、語尾のポジションその他を記述するのに用いることができる)。
(iv)従属関係(文中の2語間の関係を決定する)。
(v)文法(言語情報を変形するように働き、規則のリストからなる)。
システムの構造要素は(MTSの内部プログラミング言語に書かれた)規則によって制御される。規則は、各トークン、文、または段落のソース言語からターゲット言語への正確な翻訳に用いられる。
トークンとは、事前定義された特性(例えば、識別子、数、句読点、日付、語など)別にグループ化された、一連の記号を表す要素である。文内の各トークンはスペースで分離されている。このようにして、スペース間に位置するすべての要素がシステムによって別々のトークンとして識別される。
このMTSは、文法および規則に基づくものである機械翻訳アルゴリズムを含む。文法は、言語情報を変形する、規則のリストからなる機能ブロックであり、規則は先頭から末尾まで、連続して実行される。文法規則は、さらに、一連の演算子からなる。
文法は、入ってくる言語情報を、すなわち、正書法辞書から獲得される定義された初期属性を有するトークンへ分割された、前処理された文を扱う。文法は入力パラメータを有し、入力パラメータを介して情報が受け取られる。パラメータの実数値が文法入力へ送られる。これらの値は、中間修正の結果を記憶するための内部バッファである最新リストに記憶される。
演算子は最新リストの変更を行うことができる。これらは、語(トークン)の変更、追加または除去、語変異の除去、属性および従属関係の追加または除去を含む。最新リストのこれらの変更は文の画像に対して加えられ、主文法がトリガされた場合に限って文自体へ移行される。文法がトリガされなかった場合、変更を伴う文の画像は削除され、初期文は、文法によって最後に処理された後の形のままである。
主文法がトリガされた後に、文のすべての変更は不可逆になる。
文法は3つのグループ、すなわち、(i)解析の文法、(ii)翻訳の文法、および(iii)合成の文法に分割される。また、動作文法、すなわち、(i)サービスの文法、(ii)辞書の文法、および(ii)補助の文法もある。
主グループ文法の実行はシステムによって開始される。動作文法はシステムによって用いられ、主文法の規則および翻訳辞書から呼び出すこともできる。
言語ごとに、専用の正書法辞書がある。これは、すべての弁別的属性を有する語を含む辞書である。辞書は、語の使用のすべての可能な変異の表示を有する(が翻訳なしの)ファミリとして構築されている。
語句の翻訳は翻訳辞書に含まれる。この辞書は連続したエントリからなり、これらのエントリは、ある言語から別の言語への逐語訳(一字句単位ずつ)を含む。また翻訳辞書は句の翻訳も含む。MTS内で用いられる句の仕組みは句の意味および語間の文法的従属関係をある言語から別の言語へ変形することを可能にする。
翻訳辞書は特殊なパラメータ化句と共に動作し、広範囲の類似文についての翻訳パターンの形成を可能にする。各パラメータは専用文法に対応し、この専用文法は所与の句への語または語の組み合わせの配置の正確さを検査する。
句の配置パラメータを追加条件によってフィルタリングすることができ、この追加条件は属性によって設定される。また、所与の語のすべての語形の正確な処理が目標である場合には、句に属性を追加することもできる。句をより幅広い文脈で働かせることが目標である場合には、パラメータは特定の値の使用の有無を検査することになる。このようにして、所与のパターンに適合する句の数が増加することになるはずである。
句の中には詳述文法(動作文法または辞書文法のリストを形成する)で設定されるものがあり、詳述文法は様々な誤り、例えば、異なる使用域における語の書かれた形に関連した誤りまたは冠詞の使用に関連した誤りの回避を可能にする。
また、別の句グループ、すなわち文脈句もある。この場合には、文の可能な文脈が考慮され、語の翻訳は前後の文脈に依存する。
正書法辞書に存在しないいかなる語も、語形成のプロセスにおいて獲得することができる。この処理方法は、複雑な語、ならびに接頭辞および接尾辞を有する語に適用される。さらに、処理中に、辞書内の語を必要に応じて部分に分割することができる。
機械翻訳システムの作成、編集および管理の協働プロセスは、専用の情報システムである、言語支援システム(Linguistic Support System)、(すなわち、「LSS」)によって保証され、編成される。LSSは、ブラウザを介してアクセスすることのできるダイアログウェブインターフェースを用いたサーバソリューションである。LSSは、言語学者および翻訳者が翻訳プロセスをモニタし、辞書を編集し、言語対の翻訳を追加し、システムの習得性を保証することを可能にする。LSSは使いやすいインターフェースを特徴とし、このインターフェースではすべての言語ツールがグループとして編成されている。
このようにして、記載されるMTSは、ある言語から別の言語へのテキストの高品質で正確な翻訳に必要とされるすべてのツールを有する。
次に、添付の図面をより詳細に参照して、特に、図1(a)および図1(b)に関連して、上記のように、本発明の機械翻訳システム(「MTS」)10は、テキスト11をある自然言語から別の自然言語へ翻訳する(その意味を伝達する)コンピュータによるシステムである。
システムは、典型的なコンピュータ画面上に表示することができ、中央処理装置(「CPU」)112に結合されているグラフィカル・ユーザ・インターフェース(「GUI」)111を含む。CPU112は、すべて本発明のプロセスを実行するためのものである、トークン、語彙素、属性、フォーマット、従属関係、機能文法、辞書およびシステムの他のアルゴリズムを生成し、かつ/または認識するためのソフトウェア113を含む。翻訳されるべきソーステキスト111が適切なフィールドにおいてGUIへ入力され、次いで翻訳プロセスが、GUI上に表示された適切な開始ボタンを「クリックする」という周知の技法によって開始される。翻訳のプロセスが本発明に従って完了した後には、ターゲット言語テキストをGUI上に表示することもできる。またGUIは、LSS114にアクセスするためにワールド・ワイド・ウェブ115上でインターネットにも結合されている。
本発明の方法100はモジュール式であり、言語を編成するために構築されており、過渡的(transitory)(間接的)翻訳方法と組み合わさって、含まれる任意の言語間の任意の方向での翻訳を可能とする多言語システムの創出を可能にする。
あらゆる言語モジュールは、語句の辞書と、演算関数のリストと、ある言語から別の言語への翻訳を行うのに必要な変換プロセスを誘導するパラメータとを含む。システムは機械翻訳のために設計されたアルゴリズムをさらに用い、このアルゴリズムは一連の規則に基づくもの(規則ベース)である。
翻訳プロセス
本発明のシステムの動作原理は図1(a)に示されており、サンプル文翻訳の例によって説明されている。様々なシステム構成要素のより詳細な説明を以下に示す。翻訳プロセスは以下のフェーズに分けることができる。
(i)入力テキストの解析12
(ii)直接的な逐語訳13
(iii)翻訳されたテキストの合成14
解析12は、すべての品詞を決定し、語間の関係を確立する。翻訳13時には、すべての語が出力またはターゲット言語に翻訳され、それらの語はさらに、ターゲット言語の文法および語関係に従って適切な構造へと配置される。合成14は最終修正を行い、テキストを再配置し、適正な語尾を追加する。あらゆる工程は、動作文法に組み入れられているテキスト変換のための規則セットを用いる。
システムにおける情報の処理は、翻訳時の人間の思考の機能とかなり類似している。図2に示すように、単純なサンプル文が英語からロシア語へ翻訳される。(翻訳プロセスのより詳細な説明は「MTSの機能アルゴリズム」と題した下記の節で行う)。
入力文: A girl eats an apple.
第1の工程15
記号列の別々の語(語彙素)への分割
Figure 2017510924
第2の工程16
入力語ごとの品詞に関する基本情報の取得。この情報は英語の正書法辞書から以下のように取得される:
Figure 2017510924
ここでは以下の値が用いられている。
Art−冠詞
N−名詞
V−動詞
Adj−形容詞
第3の工程17
英語の機能文法を支配する規則に基づいた入力文の解析。
Figure 2017510924
語appleはただ1つの品詞、すなわち名詞を有する。この選択がなされるのは、この語が冠詞「the」の後に続くためである。
語間の関係も確立される。冠詞は、従属関係LinkArt、主語‐述語SubjPred、動詞‐直接目的語DirObjと共に、冠詞に対応する語に添付される。
第4の工程18
翻訳段階−翻訳文法で記述される。
語の翻訳:
Figure 2017510924
従属関係の翻訳:
Figure 2017510924
ロシア語には冠詞がないため、LinkArtは用いられない。従属関係SubjPredは
Figure 2017510924
と交換され、DirObjは以下になる。
Figure 2017510924
第5の工程19
翻訳文の合成−合成の機能文法によって記述される。
Figure 2017510924
この工程では、動詞
Figure 2017510924
に変更が加えられる−不定詞が三人称形になる。格も、他の必要な情報と共に決定される。
合成後に、ロシア語の出力文、
Figure 2017510924
が受け取られる。
合成19の後には、文の完全な輪郭構造が得られる。これにより、解析工程19を繰り返す必要なく、文を任意の他の言語へ容易に翻訳することが可能になる。推移的翻訳はこの原理に基づくものである。
システム構造
機械翻訳システム10がどのように動作するか理解するためには、その構造要素の各々が正しくどのように機能するかを十分に理解することが必要である。システム要素には、語彙素、属性、フォーマット、従属関係、および機能文法が含まれる。
システムの構造要素は規則によって支配される。これらの規則は機械翻訳システムの内部プログラミング言語で書かれている。規則は、各トークン、文、または段落を元の言語からターゲット言語へ正確に翻訳するのに用いられる。
以下の小見出しにおいて、MTSの各要素、ならびに解析、翻訳、および合成の文法および規則に関する基本情報を説明する。
語彙素
システムの構造要素のうちの1つが図3に示すような「語彙素」であり、図3は語彙素の概略図である。語彙素のあらゆる形を登録する必要を回避するために、MTSは語彙素の形を不変の構成要素(「語根」)20と可変部分(「語尾」)21とに分ける。別々の類別された語尾を様々な語根と共に用いて語彙素を生成することができる(例えば、like=>likes、liked)。
MTSにおける語根20の概念は従来の文法的意味での語根と符合しない。MTSにおいて、語根20は語彙素の最小不変部分である。いくつかの言語には、語根がまったく存在しないものもある。この一例が、英語の不規則動詞である。語根がない場合には、特殊値*(アステリスク)が用いられる。
語尾は特定の語形を形成するのみならず、品詞、数、語尾(男性/女性/中性)、格、時制などといった、語の多くの特性に関する情報も伝える。
ポジション法を用いて、所与の語形のすべての必要な特性を含むフォーマットが分類される。一例を示す。英語では、名詞の大多数が、単数形か複数形かのみならず、主格と所有格とでも異なる語尾を有する。語homeを用いてこれらの異なる形を以下のように示すことができる。
・home−主格、単数;
・homes−主格、複数;
・home's−所有格、単数;
・homes'−所有格、複数
不変部分をhomeとした場合、語尾は以下のようになる。
・*−主格、単数;
・s−主格、複数;
・'s−所有格、単数;
・s'−所有格、複数
アステリスクは語尾が不要である箇所を記す。
これらのプロセスは以下のようにまとめられる。
1.格について属性が以下のように与えられる。
SCase、PCase、Sg、PI
2.フォーマットの様々な要素のポジションが以下のように配列される。
Sg&SCase PI&SCase Sg&PCase PI&Pcase
3.フォーマット自体が作成され、ニーモニック、この場合はNOUNが与えられ、すべての属性が上記の順序で記載される。
NOUN(N): Sg&SCase PI&SCase Sg&PCase PI&Pcase
4.次にフォーマットを用いて、フォーマットが対応するすべての語を記述することができる。
home+NOUN * s 's s'
このフォーマットを用いた語形の分類は比較的単純であるが、この分類は様々な名詞でしばしば用いられるため、語尾を1つのニーモニックで記載して簡略化される場合がある。
Ns: NOUN: * s 's s'
これで、すべての語形をこのフォーマットを用いて分類することができる。語形ごとに正書法辞書に1つのエントリがあり、例えばhome+Nsなどである。
他の例 table+Ns、account+Nsなど。
語尾、フォーマット、および属性を記述するニーモニックは、言語モジュールの作成時に言語学者によって決定され、当該の特定の言語の文字体系を用いることができる。
ロシア語の語形記述の別の例では、この例は語「AOM」である。この語は語形変化して5つの格になり、各々が単数形および複数形を有し、合計10の異なる語尾が生じる。
Figure 2017510924
ここで
Figure 2017510924
は、主格、与格、造格、前置格、および生格という5つの格に対応する属性である。この語では、対格が主格と符合し、そのため、省略される。
次に、語尾のフォーマットが作成される。対格および主格は同じ語尾を有するため、中間作業フォーマットを作成する。これは
Figure 2017510924
と呼ばれる。
Figure 2017510924
次に、単数形と複数形が
Figure 2017510924
の形の下でつなげられる。
Figure 2017510924
終わりに、語尾にニーモニック
Figure 2017510924
が与えられる。
Figure 2017510924
また、以下のエントリを正書法辞書に登録する。
Figure 2017510924
要約すると、語を正書法辞書に登録するプロセスは以下のとおりである。
1.すべての可能な特性を記述する属性が決定される;
2.すべての必要な語尾のためのフォーマットが与えられる;
3.語尾のためのニーモニックのリストが作成される;
4.語が語根+語根の語尾の記述として正書法辞書に登録される。
このように、様々な規則語形が同じ語尾を用いるため、語を辞書に登録するプロセスは大幅に簡略化される。
辞書が「クラスタ」構造を有し、以下の2つのタイプのエントリを含むことも注目に値する。
・基本語彙素、および
・サブ語彙素。
サブ語彙素は、基本語彙素と同様に形成され、また単一ルーツの意味を有するものでもあるが、異なる品詞であり(または属性の著しい変異を有し)、よって、異なるフォーマットを必要とする。基本語彙素は線形エントリとして列記され、そのサブ語彙素は字下げを用いて書かれる(語によっては、複数のレベルのサブ語彙素が可能である)。以下で英語の正書法辞書についてのいくつかの例を記述する。
クラスタ
Figure 2017510924
ロシア語では、より大きなクラスタが見られる。
Figure 2017510924
基本的には、辞書クラスタは基本語彙素とそのサブ語彙素との組み合わせである。
辞書を調べると、語彙素の中には語根のないものがあることがわかる。それらの語彙素は語尾を個別に登録することによって形成される。この方法は、その形の各々において完全に異なるつづりを有する語に用いられる(この一例が不規則英語動詞である)。
Figure 2017510924
したがって、MTシステムの辞書における「語根」と「語尾」とへの分割は、もっぱら、システムが処理するための語彙素分割であり、よって、必ずしも語根および語尾の一般的な言語概念に対応するとは限らないことを理解する必要がある。
属性
属性は、品詞および品詞の可能な特性および指標を決定する。すべての属性はMTSシステムの属性のリストに記載されている。
属性のリストは、特定のグループへと組み合わされた、所与の言語についての利用可能な語特性(普通は、品詞および他の文法的特性)を略述する。属性は、品詞、人称、数、時制、格などといった特性に従ってグループ化される。あらゆるグループは対応する属性についての名前またはニーモニックのリスト、ならびに記述および注解を含む。
属性リストの構造は以下のとおりである。
グループ1の名前
属性1//注解
属性2//注解
属性3//注解
属性4//注解
属性5//注解
グループ2の名前
属性1//注解
属性2//注解
属性3//注解
属性4//注解
属性5//注解
例えば、英語の属性のリストにおけるグループPERSONは以下の3つの属性を含む。
PERSON
FPson//一人称(I write)
SPson//二人称(You write)
ThPson/三人称(He writes)
任意の属性または属性の組み合わせを語彙素またはトークンに割り当てることができるものと仮定する。とはいえ、MTSは、属性グループ内の属性の「排他性」を設定する規則が作成されることを許容する。この規則は特定のグループの複数の属性が同時に同じ語彙素またはトークンを記述するのに用いられることを防ぐ。例えば、1つの文の文脈において1つの語を同時に動詞と名詞の両方とすることはできない。
この規則の例外はSYSTEM ATTRIBUTESとして知られている属性グループである。
この属性のリストは言語ごとにシステムによって生成され、このグループの中からの複数の属性がトークンまたは語彙素に割り当てられることを可能にする。
フォーマット
「フォーマット」は、以下に用いることのできる一連の属性である。
・語尾ポジションの記述;
・様々な属性のグループのためのニーモニックの作成。
すべてのフォーマットはフォーマットリストにおいて見つけることができる。
フォーマットは属性を用いて形成される。フォーマットのリストにおけるエントリの一例を示す。
Figure 2017510924
これらのニーモニックはフォーマットである。フォーマットの第2の要素は、フォーマットのすべてのポジションについて働くことになるフォーマットの共通属性である。例えば(V Time ModV)。さらにフォーマットのすべてのポジションがコロン:の後に記載される。本例では、2つのポジションが示されている(ポジション1およびポジション2)。各ポジションは1つの属性を含むことができ、または演算子「&」を用いてつなげられた様々な属性の組み合わせとすることもできる(VV、Pres、Pastは属性である)。
任意のフォーマットの第1のポジションは「常に」レンマまたは語彙素である。
属性は、語尾および語尾の対応するフォーマットによってのみ辞書において語彙素に割り当てることができる。辞書においては語尾を、
・直接、または
・ニーモニックによって
記載することができる。
辞書においてニーモニックとして与えられる属性の一例が、play+ Vsである。
ここで、Vsは先に語尾として記載した。
また、辞書において直接与えられる属性の一例を示す。
Figure 2017510924
この場合、フォーマットおよび語尾のリストは、語尾のファイルにおけるVsへの連結ではなく、語根の直後に続く。
多くの語彙素が独自の語尾を有しない可能性もある。この場合には、語にフォーマットおよび属性を割り当てるために、アステリスク(*)が不使用の語尾(1つまたは複数)のポジションを占める。例えば、システム辞書において、語IBMが品詞略語と記されるべきである場合、次の4つの工程が行われる必要がある。
工程1
(グループPARTS_OF_SPEECHにおいて)略語の属性(Abbr)を属性のリストに追加する。
PARTS_OF_SPEECH
Abbr//略語(IBM)
工程2
フォーマットのリストにおいて略語(ABBR)のフォーマットを作成する。
ABBR(Abbr): *; //IBM
フォーマットABBRは、名前Abbrを有する属性の基本的特性をカバーし(これらの名前は文字表記されることに留意されたい)、ただ1つのポジションを占める。属性Abbrだけがこの唯一のポジションを占める。
工程3
ここでは、空の語尾を作成する必要があり、これは語尾のリストにおいてAbbrと命名される。
Abbr ABBR * ; //IBM+ Abbr
Abbr(属性と同じニーモニック)は、ABBRフォーマットの語尾であり、ただ1つの空のポジション(*)を含む。
工程4
このすべてがなされた後で初めて、語尾Abbrを用いて正書法辞書にエントリを作成し、語IBMは略語であり、語尾を持たないと指定することができる:IBM+ Abbr。
ある特定の状況について、辞書において語彙素と補足属性をつなげることも可能である。例えば以下のとおりである
Figure 2017510924
補足属性はフォーマットの後に括弧に入れて追加される。基本語彙素のエントリにおいてコロンを用いて、この補足属性は基本語彙素に適用されるのみならず、すべての接続されたサブ語彙素にも適用されると指定してもよい。一例を示す。
Figure 2017510924
語尾
「語尾」は語の可変部分であり、語根と組み合わさって、語彙素を形成する。語尾は、可能な語尾のリストにおいて直接与えられても、または対応する語尾の連鎖と共にフォーマットによって与えられてもよい。語尾の規則パターンに従う語形を記述するためにはフォーマットを用いる必要があり、フォーマットは様々な語形のための属性のリストである。
様々な語形の要素は以下のリストに記載されている。
・属性のリスト;
・フォーマットのリスト;
・語尾のリスト;
・正書法辞書。
可能な語尾セットは語尾リストに記載されており、対応するニーモニックを有する。
正書法辞書におけるエントリは、プラス符合「+」でつなげられた語根と語尾ニーモニックの組み合わせとして形成される。語playのサンプルエントリ。
Figure 2017510924
語尾リストにおけるサンプルエントリ。
Figure 2017510924
語尾リストにおけるあらゆるエントリは語尾ニーモニックを有し、その後にフォーマットが続き、次いで、語尾ポジションおよび注解(任意選択)が続く。*は語尾の空白値(フォーマットのこのポジションにおいて語彙素の語根に何も追加されない)を示す。所与の例では、6つの語尾ポジションがある。これら6つのポジションは、辞書エントリplay + Vsから以下の6語彙素を生成する。
・play + * = play
・play + * = play
・play + s = plays
・play + ed = played
・play + ing = playing
・play + ed = played
この手法は、定形の語が同じ語尾を用いるため、辞書における語の登録が大幅に簡略化されることを可能にする。
語尾は、語尾リストに記入されてもよく、または演算子「=」を用いた連結の形で辞書に直接記入されてもよい。多くのそうした例がロシア語の語尾リストに見られ、そこでは、語尾のいくつかが往々にして他への連結によって与えられる。
例えば、複数名詞についてのロシア語の語尾リストには、2つの機能語尾、p1およびp2がある。これらは以下のように記録されている。
Figure 2017510924
Figure 2017510924
は、それぞれ、与格、造格、および前置格の属性である。
名詞の他の語尾はこれらの機能語尾への連結を行うことによって登録されうる。
Figure 2017510924
辞書
辞書はシステムの重要な構成要素である。翻訳方向ごとに、以下の3つの辞書がある。
・入力言語の正書法辞書;
・出力言語の正書法辞書;
・入力言語から結果言語への翻訳辞書。
正書法辞書、すなわち正書法は、様々な語の語形、および様々な統語論的特性および意味論的特性を記述するそれらの属性を含む。翻訳辞書は、入力言語と出力言語の両方における語句間の相関関係を確立する。
従属関係
従属関係は2語間の接続または相関関係であり、普通はこれらの語間の文法関係を示す。英語の従属関係の一例が図4に示されている。
特定の言語についてのすべての従属関係を従属関係のリストにおいて見つけることができる。従属関係は特定の言語について設定され、システムは動作時にそれらの従属関係を参照する。あらゆる従属関係は2語だけの間で用いられ、以下の3つの要素で構成される。
・名前/ニーモニック
・従属関係における(括弧内の)右側語彙素のパラメータ
・従属関係における(括弧内の)左側語彙素のパラメータ
従属関係は以下のように登録される。
従属関係の名前(左パラメータ 右パラメータ)
文法および規則
「文法」は、翻訳プロセスにおける言語情報の変換の順序を記述する規則セットである。
「規則」は、言語情報を処理する役割を担うアルゴリズムを作成する命令セットである。規則は、別の言語への翻訳を目的としてテキストの所与の断片を処理する。規則は単一行上にMTSの内部プログラミング言語で書かれている。言語ごとに、別々の規則ライブラリが作成される。これらの規則を用いて、MTSは文構造を類別し、すべての語間の文法的従属関係を決定しようとする。
特定の言語の文法は、すべての必要な属性、フォーマット、語尾および従属関係が作成されると共に、システムが基本的な文を認識するのに十分な量の語が正書法辞書に登録された後で初めて書くことができる。本発明においては、以下の2つの文法グループが存在する。
・基本
・作業
解析の文法、翻訳文法、および合成の文法はすべての基本文法である。これらの文法は、解析、翻訳、および合成の各プロセスにおいて働く。
作業文法は、サービス文法、辞書文法、および補助文法を含む。作業文法は基本文法と同様に用いられる(具体的には、補助文法は句を処理するのに用いられる)。
文法を解析、翻訳、および合成の各グループに分離することにより、言語学者にとってより論理的な編成が可能になる。MTSはこれらのグループ内のすべての文法に同等にアクセスすることができる。
文法は、システムに入力された文が一連のトークンへ分解され、これらのトークンに属性が割り当てられた後で働き始める。各文法はORの原則に基づいて働く。すなわち、文法は文法中の規則のうちの少なくとも1つが確認される場合にアクティブであるとみなされる。規則はANDの原則に基づいて書かれている。すなわち、規則はすべての条件が満たされる場合に有効であるとみなされる。
1グループのトークンの処理がトークンの順序に従って文法によって実行される。トークンの各々はその処理順に文法の各々によって検査され、次いで、各文法を構成しているすべての規則が昇順に実施される。規則の条件が満たされると、プロセスは先頭から再開する。このサイクルはすべての規則が適用されるまで続く。規則の条件が満たされなくなり次第、プロセスは停止する。この時点で、次のトークンが文法に供され、プロセスが繰り返される。文中の最後のトークンが処理されると、システムは次の文法へ移り、文法によって第1のトークンを処理し始め、すべてのトークンがすべての文法によって処理されるまで以下同様に行われる。
文法は1つまたは2つのパラメータを扱うことができる。解析、翻訳、および合成の基本文法は1つのパラメータを扱うが、機能文法は1つまたは2つのパラメータを受け入れることができる。
規則は論理IF/THENを用いて動作する。規則は、図5の流れ図の工程に示すように、以下の順序で実行される。
・特定の条件を検査する25。(「真」または「偽」を返す。)
・最新リストにおいてトークンをロードし、または削除する26。(結果として得られる一連のトークンを返す。)
・従属関係を設定し、または修正する27。(関数を実行する、従属関係を与えるなど。)
・元のテキストを修正する28。(テキストを簡略化し、かつ/または語順を変更する。)
翻訳
MTSにおける「翻訳」という用語は以下の3つの別々のプロセスを意味する。
・翻訳辞書における作業;
・従属関係および属性の翻訳;
・句の処理。
翻訳辞書には、別々の語と句全体の両方についての翻訳がある。MTSにおける句の翻訳は、句のタイプに応じて独自の特徴を有する。
グループTranslation Grammarsに位置する特殊な文法は、句翻訳、ならびに従属関係および属性の翻訳のために設計されている。
翻訳辞書は、以下の構文法を用いたある言語から別の言語への逐語訳(一語彙素から一語彙素へ)を含むエントリのリストを含む。
[入力語]>[出力語]
[入力語]=[出力語]
または
[入力句]>[出力句]
[入力句]=[出力句]
記号=および>は翻訳の方向、左から右へ(>)または双方向(=)を示す。
英語‐ロシア語翻訳辞書からの語翻訳のいくつかの例を示す。
Figure 2017510924
句翻訳の例。
Figure 2017510924
従属関係および属性の翻訳に用いられる特殊な文法はグループTranslation Grammarsに位置する。
フォーマットは翻訳されない。というのは、テキスト翻訳時にはフォーマットが不要だからである。以下で英語からロシア語への属性翻訳の例を検討する。単数の属性はそのロシア語の相当する属性で翻訳される。
Figure 2017510924
従属関係の右側PrepSmthはロシア語の従属関係で翻訳される。
Figure 2017510924
英語の冠詞はロシア語の空白マーカで翻訳される。
Figure 2017510924
句は、逐語訳と比べたときに異なる翻訳を有する語の組み合わせである。MTSで用いられる句の仕組みは、概念的意味および語間の文法関係がある言語から別の言語へ翻訳されることを可能にする。句は、正確な逐語訳を取得することが不可能である状況において、またはある特定の文脈が語の意味を変更する状況において用いられる。
MTSにおいては以下の3つのタイプの句が用いられる。
・単純;
・文脈的;
・パラメータ句。
文法動作アルゴリズム
定義文法: 「文法」は、言語情報を処理するように設計された機能構成要素である。文法は規則のリストからなり、規則は、リストの先頭から末尾への順に実行される。文法は入力言語情報を用いて動作する。プログラミング言語との類推を用いた場合、文法は、そのアルゴリズムが規則の助けを借りて実行される関数であるということもできる。関数と同様に、文法は、入力情報がその適用を受ける入力パラメータのセットを有する。文法は1つまたは2つの入力パラメータを有しうる。
編成を目標として、文法はグループに分けられる。3つの基本グループ、すなわち、解析文法、翻訳文法、および合成文法がある。また作業文法、すなわち、サービス文法、辞書文法、および補助文法もある。
システムは基本グループから文法の処理を開始する。作業文法はシステムによって用いられ、基本文法の規則およびまたは翻訳辞書から始動されてもよい。
文法は、正書法辞書から取得された、確立された予備属性を有するトークンへ分解されている用意された文を扱う。上記のように、基本文法は以下を含む。
・解析文法;
・翻訳文法;
・合成文法。
これらの文法は翻訳の基本工程を以下のように定義する。
・最初に、解析文法が文を十分に分解する(品詞および語間の従属関係が設定される)。
・次に、翻訳文法が実施され、語の意味、属性、および従属関係を出力言語に翻訳する。
・合成文法がプロセスを完了し、翻訳が完了する。
基本文法は、先頭から末尾への順に実施される。各文法も、上から下へ実施される規則セットで構成されている。
上述のように、文法は1つまたは複数のパラメータを受け入れることができる。解析、翻訳、および合成の基本文法はただ1つのパラメータを扱う。トークンは最初から最後への順に文法へロードされる。最初のトークンを開始点として用いて、文法は、図6に示すように、このトークンの右側および左側の状況を規則セットと対照して検査することによって解析し、必要な修正を行う。
規則の実行時に、入力テキストは修正され、リストの上位にある規則を含む他の規則がその新しい状況について実施されうる。これら先行する規則を飛ばさないように、修正後に、現在の文法を再度繰り返す必要がある(結果「真」)。規則の条件が満たされない場合には、システムは次の規則へ移る(結果「偽」)。規則を適用しようとする試みがリストに従ってさらに行われ、最後の規則が「偽」を返した場合、本例についての文法は完了したとみなされる。文法は、規則のいずれの条件も満たすことができない(それらの条件がすべて「偽」を返す)場合に処理されたとみなされる。
所与のトークンについての文法を処理した後で、文法は次のトークンに取り掛かる。単一のトークンを扱う入力テキスト処理アルゴリズムは、任意の長さの文が同じ規則セットを用いて処理されることを可能にする。列の最後のトークンに達したときに、文法は完全に処理されたとみなされ、次の文法が引き継ぐ。この文法は最初のトークンから再度開始し、プロセスは前の文法についてのものとまったく同じである。
規則は、フローリストの一連の条件および修正である。規則は、すべての条件が満たされる(条件がすべて真である)場合に、確認されたとみなされる。プログラミングにおいて、この状況を条件ANDによる結合と呼ぶ。
規則は(演算子を用いて)特殊なスクリプト言語で1行に書かれる。適切に書かれた規則は、いくつかの異なる条件および1つの修正を含むとみなされる。ステートメントの特殊な要素はスラッシュ(/)およびスペースを含む。これらはステートメントの演算子を分離する。
文法の実施時に、文法のパラメータは「フローリスト」に保存される。フローリストは、中間修正の結果を記憶するための内部バッファである。文法に割り当てられるパラメータは常にリストの先頭に位置する。リストのさらに下方に、ステートメントの処理中にロードされる任意の必要なトークンを配置することができる。ステートメントから直接の語彙素はもとより入力文からのトークンもロードされうる。これが行われるときには、リスト内の新しい要素は右へ移り、現在の要素になる。フローリスト内の要素のいかなる修正も入力文中の対応するトークンの変更につながる。変更は、ステートメントの条件が完全に満たされる(すべての検査および修正が真である)ときに限って実行される。
規則の実行が先頭から末尾まで行われる際に、文法内にその条件が満たされるいくつかの規則がある場合には、リストの上位の規則が優先することになる。リストの上位の規則は下位の規則に優先する。フローリスト上の要素は相対指標付けを用いて指標付けされる。リストの最後の要素(リストに最後に追加された要素)は指標0(ゼロ)を有し、アクティブである。先行する要素はこの要素からマイナス符号を伴って逆に数えられる。すなわち、0の左側の要素は−1であり、−1の前の要素は−2であり、以下同様である。例えば、4つの要素のリストは、−3、−2、−1、0と指標付けされることになる。
以下は例である。
例1.
演算子を有する規則の例。Xは空演算子である。任意のトークンについて、空演算子は「真」を返す。この主機能は、無関係のトークンの場所を記すことである。例えば、入力文が「I go」である場合。4つのトークンが以下のように文法解析に入力される(開始点および終了点を記すために2つのピリオドが追加される)。
.I go.
規則を書くための言語においては、2種類の分離記号、スラッシュ「I」およびスペース「 」が用いられる。スラッシュは、アクティブなトークンをいつ処理すべきかを示し、スペースは、次のトークンへ移ることを意味する。第1のトークン(ピリオド)から解析を開始したい場合には、/Xを用いる。最初のピリオドが問題とされず、直ちに第2のトークンへ飛びたい場合には、第1のポジションを演算子Xで記す。
次のポジションの演算子はスペースで書かれている。本例では、規則、
/X X X X
は「真」を返す。しかし、次の規則、
/X X X X X
は「偽」を返す。というのは、本例には4つのトークンがあり、この規則には5つのトークンがあるからである。
これらの規則は例として示すにすぎないことに留意されたい。実際の文法において、規則は検査を行うのみならず、文の修正も行うはずである。
例2.
これは、検査/修正のための演算子を有する規則の例である。SIMPLという文法を想定する。本発明の意図では、この文法は1つの規則、/X Vを含むにすぎない。
いかなるトークンも第1のポジションを占めてよいが、第2のポジションには動詞(動詞を表すV)と一致する語のみが入る。これに照らして、第2のポジションの語が動詞を含むいくつかの異なる可能な品詞を有する場合には、動詞形が選択されることになる。すべての他の品詞は無視されることになる。
よって、文法SIMPLは、文「I go.」を用いて段階的な例において働く。
語‘go'は、2つの品詞、動詞および名詞とすることができる。本発明の規則が適用された後には、動詞形だけが残る。入力文は、「.I go.」のように書かれる。
文法SIMPLが第1のトークン(.)に用いられる。第1のトークンは文法のためのパラメータであり、フローリストに‘I'を保存している。
規則IXの第1の演算子がこの要素に適用され、当然ながら「真」を返す。さらに第2の演算子Vが働き始める。これらを分離するスペースは重要な役割を果たす。というのは、スペースは次のトークンを「.I」としてフローリスト(1)へロードするからである。
「I」は名詞でしかない(動詞ではない)ため、演算子Vは「偽」を返す。文法SIMPLが働き、何も変更されない。
文法は再度第2のトークン(I)を処理する。ここで、フローリストは以下のように見える。第1の演算子IXは常に真であり、第2の演算子は次のトークン(go)をロードする。
I go
演算子Vがアクティブ化され、goの品詞としての名詞を排除し、「真」を返す。文法は同じトークン(I)のために再度起動される。しかし、修正が生じないため、文法はそこで停止し、第3のトークンおよび第4のトークンが供給され、それらが「偽」を返す。このようにして、文法SIMPLはすべての入力トークンについて実行され、システムは次の文法に切り替わることができる。この文法の結果として、不要な品詞が排除された。
この規則は一例としてここに与えられており、実際の文法では用いられない。この規則は非常に単純で直接的であるため、常にすべての品詞を排除し、動詞だけを残す。より複雑な文、例えば、‘I go home'がある場合、語‘home'は4つの品詞(動詞、名詞、形容詞、および副詞)のいずれかすることができ、本例の規則SIMPLは動詞だけを選択することになり、これは誤りになる。したがって、実際の文法において、規則ははるかに複雑であり、修正を行う前にはるかに多くの検査を実行する。
MTSアルゴリズム
図7に示すように、本発明の機能アルゴリズムは以下の基本工程を含む。
第1の工程30は、一連のトークンへの文の再配置である。この工程では、一連の記号である入力文は、スペース、タブ、または改行文字で区切られた要素の連鎖へと変換される。そうした要素はその場合トークンと呼ばれる。これらの要素を語彙素と呼ぶことはできない。というのは、トークンという用語はより広義であり、翻訳することのできない任意の記号を含みうるからである。トークンは、語彙素、数、日付、URL、句読点、および一般に任意の記号の連鎖とすることができる。
第2の工程31は、語彙素の予備属性の獲得である。語彙素と識別されたトークンについて、正書法辞書でサーチが実行される。対応する語が見つかった場合、その語のすべてのバージョンがそれらの1次属性と共にロードされる。属性は語の任意の特性、例えば品詞、ならびに意味的特性およびシステム属性の識別子である。
辞書で語が見つからなかった場合、その語にはシステム属性NOTFOUNDが与えられる。システム属性はグループSystem(または
Figure 2017510924
)内の属性リストに位置する。
第3の工程32は、解析、翻訳、および合成の順次の動作である。以下のように編成された文法を用いて変換が実行される。
・基本文法;
o解析文法;
o翻訳文法;
o合成文法;
・作業文法;
oサービス文法;
o辞書文法;
o補助文法。
システムは以下のように働く。文法が一連のトークンを処理する。文法はリストの先頭から末尾への順に適用される規則のリストである。規則が正常に適用された場合、文法は、「真」を返さない規則が発生するまで先頭から再開する。「真」を返さない規則が発生したときに、文法はトークンの処理を停止し、次のトークンが処理される。そのトークンが列内の最後のトークンであった場合、システムは次の文法に切り替わり、最初のトークンからやり直す。このプロセスの結果が完成した翻訳である。
MTSの動作
以下の段落においては、サンプル文「I go to the USA on Jan 1st, 2014.」を用いてMTSの動作のより詳細な説明を行う。
テキスト翻訳順序は、本明細書で説明し図示するように、MTSの様々な要素またはブロックによって段階的に実行される。前に論じたが、これらの工程および要素を以下の各段落においてさらに詳細に説明する。
図8に示すように、第1の工程35はトークンへの分割である。MTSの第1のブロックは字句解析器であり、字句解析器は入力テキスト(一連の記号)をトークンへ分解する。トークンはスペース、句読点、行末、ならびにおよびテキストの先頭および末尾によって分離されている。個々の記号の解析の結果に従って、(グループSystemからの)システム属性、例えば、すべて大文字UPPERALL、最初の文字が大文字UPPERFIRSTなどがトークンに割り当てられる。各文は句読法に基づいて分けることができる。1文の範囲はピリオド、セミコロン、コロン、および疑問符/感嘆符で設定される。括弧に入れられたテキストは、別の文に挿入された別個の文として考察されるが、独立している。括弧内のテキストは最初に翻訳される。翻訳は文単位で実行される。
第2の工程36は属性の割り当てである。翻訳されるべき文に属するあらゆる語が辞書においてサーチされる。サーチは語のすべての文法的変異形を探す。これらの変異形は、語の基本属性および追加基本属性のセットで構成されている。
例えば、ロシア語
Figure 2017510924
の語形が文において発生する。正書法辞書によれば、以下のようないくつかの可能な代替語形がある。
Figure 2017510924
これらの代替語形は以下の品詞に対応する。
・語からの最上級副詞
Figure 2017510924
;
・動詞からの命令形
Figure 2017510924
;
・語からの4つの異なる格の形容詞
Figure 2017510924
全部で、1つの語形について6つの可能な代替語形がある。
所与の語形が正書法辞書において見つからない場合、トークンに属性NOTFOUNDが割り当てられる。
第3の工程37は解析である。前の工程で割り当てられた属性を含む、入力言語の文を形成する語形のセットは、解析ブロックへ入力される。この工程から開始して、言語情報の任意のその後の処理が文法によって行われる。文法解析ブロックにおいては、以下の動作を行うことができる。
・文中の語形および語、ならびにそれらの属性の検査;
・語属性の割り当ておよび追加(追加される属性は普通、2次的、または一般的である;
・語および語形の設定および排除;
・語形についての不適切な属性の排除;
・文中の語形間の従属関係の設定、検査、および排除。
正書法属性(または1次属性)は正書法辞書から取得され、可変ではない。一般属性(または2次属性)は語彙解析時に割り当てられ、文法での処理時に変更し、削除し、または追加することができる。この属性の名前は、この属性が、正書法においてこの属性が割り当てられている語のすべての形について同じであることに由来する。
解析ブロックにおける処理の後で、語の意味のいかなる曖昧さも排除される必要があり、すべての必要な属性が追加される必要があり、語間のすべての従属関係が確立される必要がある(例えば、主語‐述語、動詞‐目的語など)。
第4の工程39はターゲット言語への翻訳である。制御がシステムの翻訳プログラムによって引き継がれ、翻訳プログラムは、解析プロセスの間に割り当てられた属性を考慮に入れて、語句を入力言語からターゲット言語へ翻訳する。これには翻訳辞書が対応するテーマと共に用いられ、翻訳辞書には語訳および様々な句が配置されている。解析で確立された属性および従属関係を用いた句の識別および翻訳は翻訳の重要な部分である。翻訳ではまず句をサーチし、最長の句から始めて別々の語で終わる。翻訳は専用の辞書規則を用いて統制される。
次に、入力言語からターゲット言語への翻訳のための翻訳文法ブロックが引き継ぐ。ここでは以下の動作を実行することができる。
・入力言語からターゲット言語への属性および従属関係の移行;
・多種多様な典型的な状況(例えば、前置詞、動詞複合体など)で用いられる翻訳バージョン間の選択。
第5の工程39は合成である。合成文法ブロックはこの工程において働く。訳文および任意の構成要素は完全に組み立てられる必要がある。合成ブロックは出力言語に限られるため、このブロックによって実行されるすべての動作は入力言語による影響をまったく受けない。
翻訳動作の最終段階40は、合成ブロックから受け取られた情報に従った訳文の組み立ておよび出力である。この情報は、各語、語のポジション、および内部属性の形とすることができる。
MTSのアルゴリズムがどのように働くかを説明するために、「I go to the USA on Jan 1st, 2014.」という文のロシア語への翻訳の例を図9と併用する。この説明の一助として、言語支援システム(「LSS」)からのトレースの断片を用いる。このトレースは、工程41で翻訳されるべき文を翻訳ウィンドウに入力し、工程42でプロセスを開始するために「翻訳」ボタンを押した後で、コンピュータに結合された画面上に自動的に現れる。
次の工程43は入力テキストのトークン化である。文をトークンへ分離した後で、翻訳されるべき本例の英文について以下のリストを得る。
01 .
02 I UPPERFIRST
03 go
04 to
05 the
06 USA UPPERALL
07 on
08 Jan UPPERFIRST
09 1st NUMBERORD
10 ,
11 2014 NUMBER YEAR
12 .
トークン列の初めと終わりの両方がピリオドで記されていることに留意されたい。これは重要な点である。というのは、初めのピリオドは文の開始を記し、文の終わりのピリオド(または他の句読点)は終わりを記すからである。これらのピリオドは文法規則の適正な動作に必要である。
トレースにおいては、いくつかのトークンが以下の一般属性を有することが示されている。
・UPPERFIRST−語が大文字で始まる;
・UPPERALL−語が全部大文字で書かれている;
・NUMBERORD−序数;
・NUMBER_YEAR−年数。
これらの属性はテキストの語彙解析に基づいて割り当てられる。より深い文法解析のためには、追加の属性が必要である。というのは、これらだけでは不十分となりうるからである。
工程44はトークン化工程からの語彙素の識別であり、工程45は語彙素のためのすべての属性の割り当てである。本例における02から09までのトークンは語彙素であり、よって、正書法属性を割り当てられうる。正書法でのサーチが、これらの語彙素の各々について行われ、ある語彙素が(つづり間違いや辞書に欠如しているために)正書法辞書において見つからない場合、その語彙素には属性NOTFOUNDが割り当てられる。
本例では、すべての語が正しく書かれており、したがって、以下のトレースを取得する。
ここでは、すべての語が、正書法において見つかるものとして示されている。
入力語「I」について、正書法は以下を与える。
I Anim FPson Sg PnP PnWOCase Scase
これらの属性は、この語が、一人称、単数、主格の有生代名詞であることを示している。
語‘go'はもっぱら複数の意味を有する。この語は3つの代替属性、すなわち、名詞(属性N)と、2つの動詞形、不定詞(Inf)および現在形(Pres)とを有する。語「Jan」の属性は以下のとおりである。
Figure 2017510924
ここには過剰な情報がある。いくつかの語は複数の意味を有し、そのため、この時点では、曖昧でない翻訳は不可能である。
工程46で、解析文法のプロセスが行われる。
解析段階においては、語彙素のいかなる曖昧性も排除される必要があり、あらゆる語はただ1つの品詞に対応する必要がある。また、工程47においては、語間の従属関係を確立することも必要である。
解析文法PREP ROCは、以下のように、最初のピリオドと最後のピリオドとを含めて、トークンごとに12回処理されることになる。
1) PREPROC (.)
2) PREPROC (I)
3) PREP ROC (go)
4) PREP ROC (to)
5) PREPROC (the)
6) PREPROC (USA)
7) PREP ROC (on)
8) PREPROC (Jan)
9) PREP ROC (1st)
10) PREP ROC (,)
11) PREPROC (2014)
12) PREPROC (.)
このプロセスにおいては1つの規則も適用されなかった。
この後、第2の文法DISCONCATが処理される。この場合もやはり規則は適用されていない。
さらに、文法PREAUTOが、語on、Janの不要な代替形を排除した。
文法PREAUTOのプロセスにおいては、いくつかの規則が正常に適用され、文法は語‘on'について再度処理された。この文法は、文法内の1つの規則も実行されえなくなるまで繰り返しアクティブ化されることになる。規則は、その規則の条件すべてが満たされ、語彙素が修正される場合に確認されたとみなされる。この後、文法REM RAREが働き始める。文法REM RAREは、動詞形に対応する語goの属性だけを残す(名詞の属性は排除されている)。
解析文法が働いた後、本例はここで以下のトレースを有することに留意されたい。
Figure 2017510924
解析の結果として、品詞が確立されており、いくつかの語彙素に追加の属性が割り当てられており、語彙素間で従属関係、すなわち、主語‐述語(SubjPred)、冠詞‐名詞(LinkArt)、前置詞‐名詞(PrepSmth)、および1stとJanとの間の従属関係LinkNameが確立されている。
工程48で、解析が完了し次第、文法作業が翻訳文法および合成において開始する。翻訳文法および合成文法の動作原理は解析文法の動作原理と類似している。
翻訳文法は、語の意味、属性、および従属関係のターゲット言語への翻訳を補助する。入力言語からターゲット言語への翻訳の結果は工程49における以下の要素である。
・(標準化された/屈折なしの)ターゲット言語の語彙素。
・各トークンに割り当てられたターゲット言語の属性のリスト。
・ターゲット言語のトークン間の従属関係のリスト。
普通は、翻訳の結果として、ターゲット言語のトークンには以下のような欠点が生じる。
・属性の過剰または不足(これは、ターゲット言語での語の語形変化を妨げる);
・従属関係の過剰または欠如;
・誤った語順。
合成の目標は、解析プロセスと類似したプロセスを用い、規則の助けを借りてこれらの問題すべてを訂正することである。工程50を参照されたい。入力言語からターゲット言語への合成のすべての規則は合成の文法へグループ化されている。
言語対における合成規則は逆に用いることはできないことに留意されたい。例えば、英語>ロシア語の合成規則はロシア語>英語の規則とは異なり、完全には対応しない。同様に、英語>ロシア語の合成規則もドイツ語>ロシア語の規則とは異なり、以下同様である。
間接翻訳
間接翻訳は、入力言語とターゲット言語との間で1つまたは複数の中間言語を介した翻訳を用いる翻訳方法である。通過言語では、形態素合成が行われず、完全に解析された(マークが記された)文は次の翻訳のために取り次がれる。
図10および図11に、システムが、言語Aから言語Cおよび言語Aから言語Dへの翻訳時に行う工程を示す。図10および図11の灰色の点線は、間接翻訳時に飛ばされる工程を分けるものである。
図10に示すように、言語Bの解析は行われず、言語Aの解析の結果が代わりに用いられる。解析は翻訳システムの最も複雑で誤りを生じやすいプロセスである。本方法を用いれば、最初の段階についての解析を用い、後続の翻訳の各々について解析を繰り返さないことで、システムの効率および正確さを著しく高めることが可能である。
工程A-Bで作成された要素。
1.言語Bのレンマおよびトークン
2.欠けている属性の割り当て
3.欠けている従属関係の割り当て
工程B-Cでは、以下を行いさえすればよい。
1.8-Cのレンマおよびトークンの翻訳。
2.属性の変換
3.従属関係の変換
同じ論理が図11の状況にも当てはまり、図11には言語Aから言語Dへの翻訳のための工程が示されている。間接翻訳は、多言語翻訳システムの構築においてうまく用いることができる。
本発明は、図示され、詳細に記載されている現在の好ましい態様に関連して例示され、説明されているが、図示の詳細だけに限定することは意図されていない。というのは、本発明の趣旨からいかなる点でも逸脱することなく様々な改変および構造変更が加えられうるからである。これらの態様は、本発明の原理および実際の応用を最善に説明し、それによって、当業者が、本発明および様々な態様を企図される特定の用途に適するように様々な改変を伴って最適に利用することを可能にするために選択し、記載したものである。

Claims (53)

  1. 言語を編成するためのモジュール構造と、含まれる任意の言語間の任意の方向の翻訳を可能とする多言語システムの創出を可能にするための過渡的(transitory)翻訳システムと、規則ベースの機械またはコンピュータ翻訳のために設計されたアルゴリズムとを有するソフトウェアを含み、該モジュール構造が、語句の辞書の言語モジュールと、演算関数のリストの言語モジュールと、ある言語から別の言語への翻訳を行うのに必要な変換プロセスを誘導するパラメータとを含む、ソーステキストの意味をある自然言語から別の自然言語へ伝達するソーステキストの翻訳のための機械またはコンピュータ翻訳システム。
  2. グラフィカル・ユーザ・インターフェース(GUI)を表示するためのコンピュータ画面と、前記GUIと結合された中央処理装置(CPU)と、ソーステキストのすべての部分および前記ソーステキストの語間の従属関係を識別するための前記ソーステキストの解析を行い、前記ソーステキストのターゲット言語テキストへの翻訳を行い、前記GUI上で前記ターゲット言語テキストを表示するための、前記CPU上で維持されるソフトウェアと、をさらに含む、請求項1記載のシステム。
  3. 翻訳されたテキストの合成を行う手段をさらに含む、請求項1記載のシステム。
  4. アルゴリズムが文法および規則に基づく、請求項1記載のシステム。
  5. 文法が、言語情報を変形し、先頭から末尾まで連続して実行される規則のリストを含む機能ブロックである、請求項4記載のシステム。
  6. 文法規則が一連の演算子を含む、請求項5記載のシステム。
  7. ある言語から別の言語への語句の翻訳を含む翻訳辞書をさらに含む、請求項5記載のシステム。
  8. 翻訳辞書が、ある言語から別の言語への、一字句単位ずつの逐語訳を含む連続したエントリを含む、請求項7記載のシステム。
  9. 翻訳辞書が、ある言語から別の言語への句の翻訳を含む、請求項8記載のシステム。
  10. 翻訳辞書が特殊なパラメータ化句と共に動作し、類似したソーステキストについての翻訳パターンの形成を可能にする、請求項9記載のシステム。
  11. 各パラメータが、所与の句への語または語の組み合わせの配置の正確さを検査する専用文法に対応する、請求項10記載のシステム。
  12. リモートサーバ上で保持され、ワールド・ワイド・ウェブを介してブラウザによってアクセス可能な言語支援システム(Linguistic Support System)(「LSS」)をさらに含む、請求項5記載のシステム。
  13. LSSにより、言語学者および翻訳者が翻訳プロセスをモニタし、辞書を編集し、言語対の翻訳を追加し、システムの習得性を保証することが可能になる、請求項12記載のシステム。
  14. ソーステキストを解析する工程、該ソーステキストを翻訳されたテキストへ翻訳する工程、および該翻訳されたテキストを合成する工程、を含む、ソーステキストの意味をある自然言語から別の自然言語へ伝達して翻訳されたテキストにするソーステキストの翻訳のための方法。
  15. ソーステキストを解析する工程が、すべての品詞の曖昧でない識別をもたらす、請求項14記載の方法。
  16. ソーステキストを解析する工程が、従属関係として知られている前記ソーステキスト内の2語間の文法関係のセットをさらにもたらす、請求項15記載の方法。
  17. 翻訳する工程が、語の意味がターゲット言語へ翻訳され、語のポジションが前記ターゲット言語の文法に従って変化し、従属関係が変形されることを含む、請求項16記載の方法。
  18. 合成する工程が、サービス語の置換および挿入、ならびに語尾の調整を含む、請求項17記載の方法。
  19. ソーステキストを解析する工程、該ソーステキストを翻訳されたテキストへ翻訳する工程、および合成する工程の各工程についての文法へ整理統合されるテキスト変形の規則を適用する工程をさらに含む、請求項18記載の方法。
  20. 合成する工程が、解析なしでターゲット言語におけるテキストの完全にタグ付けされた構造をもたらす、請求項19記載の方法。
  21. 解析なしでターゲット言語におけるテキストの完全にタグ付けされた構造へ合成する工程が通過(transit)翻訳である、請求項20記載の方法。
  22. CPU上でソフトウェアに結合されたGUIのフィールドへ翻訳されるべきソーステキストを入力する工程、翻訳プロセスを開始する工程、前記ソーステキストを分離してトークンにする工程、前記トークン化工程からの語彙素を識別する工程、前記語彙素に属性を割り当てる工程、前記語彙素を解析する工程、前記語彙素の曖昧さを排除する工程、語間の従属関係を確立する工程、翻訳されたテキストに、語彙素、各トークンに割り当てられた属性、およびトークン間の従属関係があるかどうか判定するために、前記翻訳されたテキストに翻訳文法および合成文法を適用する工程、前記翻訳されたテキストにおける前記属性の過剰または不足および前記翻訳されたテキストにおける従属関係の過剰または欠如があれば訂正するために合成の規則を適用する工程、ならびに前記翻訳されたテキストにおける任意の語順を訂正する工程、を含む、ソーステキストの意味をある自然言語から別の自然言語へ伝達して翻訳されたテキストにするソーステキストの翻訳のための方法。
  23. トークンが、識別子、数、句読点、日付、語といった、事前定義の特性によってグループ化された一連の記号を表す要素であり、ソーステキスト内の各トークンがスペースによって分離されており、そのためスペース間に位置するすべて要素が別々のトークンとして識別される、請求項22記載の方法。
  24. 文法および規則に基づくアルゴリズムを適用する工程をさらに含む、請求項23記載の方法。
  25. 文法が、言語情報を変形し、先頭から末尾まで連続して実行される規則のリストを含む機能ブロックである、請求項24記載の方法。
  26. 文法規則が一連の演算子を含む、請求項25記載の方法。
  27. 文法が、正書法辞書から獲得される定義された初期属性を有するトークンに分割された、入ってくる言語情報を扱う、請求項26記載の方法。
  28. 文法が、情報を受け取るための入力パラメータを有する、請求項27記載の方法。
  29. パラメータの実数値が文法入力へ提供される、請求項28記載の方法。
  30. 前記値が、中間修正の結果を記憶するための内部バッファである最新リストに記憶される、請求項29記載の方法。
  31. 演算子が最新リストの変更を行い、該変更が、トークンの追加または除去、語変異の除去、属性および従属関係の追加または除去を含む、請求項30記載の方法。
  32. 最新リストの変更が文の画像に対して加えられ、主文法がトリガされた場合に限って前記文自体へ移行される、請求項31記載の方法。
  33. 前記文法がトリガされなかった場合、変更を有する文の画像は削除され、初期文は、前記主文法がトリガされないときに文法によって最後に処理された後の形のままである、請求項32記載の方法。
  34. 主文法がトリガされた後に、文中のすべての変更が不可逆になる、請求項33記載の方法。
  35. 3つの文法グループがある、請求項34記載の方法。
  36. 3つの文法グループが、解析の文法、翻訳の文法、および合成の文法である、請求項35記載の方法。
  37. サービスの文法、辞書の文法、および補助の文法を含む動作文法をさらに含む、請求項36記載の方法。
  38. すべての弁別的属性を有する語を含む専用の正書法辞書を用いる工程をさらに含む、請求項37記載の方法。
  39. 辞書が、翻訳なしの語の使用のすべての可能な変異の表示を有するファミリとして構築されている、請求項38記載の方法。
  40. 翻訳プロセスが、翻訳辞書に含まれる語句の翻訳を含む、請求項39記載の方法。
  41. 翻訳辞書が、ある言語から別の言語への、一字句単位ずつの逐語訳を含む連続したエントリを含む、請求項40記載の方法。
  42. 翻訳辞書に含まれる句の翻訳をさらに含む、請求項41記載の方法。
  43. 句の意味および語間の文法的従属関係をある言語から別の言語へ変形する工程をさらに含む、請求項42記載の方法。
  44. 翻訳辞書が特殊なパラメータ化句と共に動作し、それにより広範囲の類似したソーステキストについての翻訳パターンの形成が可能になる、請求項43記載の方法。
  45. 各パラメータが、所与の句への語または語の組み合わせの配置の正確さを検査する専用文法に対応する、請求項44記載の方法。
  46. 句中の配置パラメータが、属性によって設定される条件によってフィルタリングされる、請求項45記載の方法。
  47. 所与の語のすべての語形の正確な処理のために句に属性を追加することができる、請求項46記載の方法。
  48. 句を幅広い文脈に適応可能にすることが目標である場合に、パラメータが特定の値の使用の有無を検査する、請求項47記載の方法。
  49. 複雑な語ならびに接頭辞および接尾辞を有する語の語形成のプロセスにおいて正書法辞書に欠如している語を獲得する工程をさらに含む、請求項47記載の方法。
  50. ワールド・ワイド・ウェブを介してブラウザによってアクセス可能なリモートサーバ上で保持される言語支援システム(「LSS」)にアクセスする工程をさらに含む、請求項14記載の方法。
  51. LSSにアクセスする工程により、言語学者および翻訳者が翻訳プロセスをモニタし、辞書を編集し、言語対の翻訳を追加し、システムの習得性を保証することが可能になる、請求項50記載の方法。
  52. ワールド・ワイド・ウェブを介してブラウザによってアクセス可能なリモートサーバ上で保持される言語支援システム(「LSS」)にアクセスする工程をさらに含む、請求項22記載の方法。
  53. LSSにアクセスする工程により、言語学者および翻訳者が翻訳プロセスをモニタし、辞書を編集し、言語対の翻訳を追加し、システムの習得性を保証することが可能になる、請求項52記載の方法。
JP2017501524A 2014-03-28 2015-03-30 機械翻訳システムおよび機械翻訳方法 Pending JP2017510924A (ja)

Applications Claiming Priority (5)

Application Number Priority Date Filing Date Title
US201461971764P 2014-03-28 2014-03-28
US61/971,764 2014-03-28
PCT/IB2015/000565 WO2015145259A1 (en) 2014-03-28 2015-03-30 Machine translation system and method
US14/673,268 2015-03-30
US14/673,268 US20150356074A1 (en) 2014-03-28 2015-03-30 Machine Translation System and Method

Publications (2)

Publication Number Publication Date
JP2017510924A true JP2017510924A (ja) 2017-04-13
JP2017510924A5 JP2017510924A5 (ja) 2018-06-28

Family

ID=54194036

Family Applications (1)

Application Number Title Priority Date Filing Date
JP2017501524A Pending JP2017510924A (ja) 2014-03-28 2015-03-30 機械翻訳システムおよび機械翻訳方法

Country Status (6)

Country Link
US (2) US20150356074A1 (ja)
JP (1) JP2017510924A (ja)
KR (1) KR20160138077A (ja)
RU (1) RU2016137833A (ja)
SG (2) SG11201607656SA (ja)
WO (1) WO2015145259A1 (ja)

Families Citing this family (13)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US9852131B2 (en) 2015-05-18 2017-12-26 Google Llc Techniques for providing visual translation cards including contextually relevant definitions and examples
DE112015006710T5 (de) * 2015-07-15 2018-04-12 Mitsubishi Electric Corporation Anzeigesteuervorrichtung und Anzeigesteuerverfahren
CN105740239A (zh) * 2016-02-01 2016-07-06 中译语通科技(北京)有限公司 一种网页上文字的翻译方法及系统
US10475524B2 (en) * 2016-09-15 2019-11-12 Apple Inc. Recovery of data read from memory with unknown polarity
US11455476B2 (en) * 2017-04-05 2022-09-27 TSTREET Pty Ltd Language translation aid
KR102449842B1 (ko) * 2017-11-30 2022-09-30 삼성전자주식회사 언어 모델 학습 방법 및 이를 사용하는 장치
KR102542914B1 (ko) * 2018-04-30 2023-06-15 삼성전자주식회사 다중언어 번역 장치 및 다중언어 번역 방법
US11049204B1 (en) * 2018-12-07 2021-06-29 Bottomline Technologies, Inc. Visual and text pattern matching
US10732789B1 (en) 2019-03-12 2020-08-04 Bottomline Technologies, Inc. Machine learning visualization
WO2021107449A1 (ko) * 2019-11-25 2021-06-03 주식회사 데이터마케팅코리아 음역 전환 신조어를 이용한 지식 그래프 기반 마케팅 정보 분석 서비스 제공 방법 및 그 장치
US11783136B2 (en) * 2021-04-30 2023-10-10 Lilt, Inc. End-to-end neural word alignment process of suggesting formatting in machine translations
CN113438542B (zh) * 2021-05-28 2022-11-08 北京智慧星光信息技术有限公司 字幕实时翻译方法、系统、电子设备及存储介质
KR102730242B1 (ko) * 2024-03-08 2024-11-15 주식회사 아이에이오 인공지능 기반 다유형 문서 변환 방법 및 장치

Citations (13)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JPH08265445A (ja) * 1995-03-07 1996-10-11 Siemens Ag コミュニケーション装置
JPH0969106A (ja) * 1995-06-23 1997-03-11 Roehm Properties Bv 機械翻訳装置及び翻訳処理方法
US5903858A (en) * 1995-06-23 1999-05-11 Saraki; Masashi Translation machine for editing a original text by rewriting the same and translating the rewrote one
JP2002007398A (ja) * 2000-06-23 2002-01-11 Nippon Telegr & Teleph Corp <Ntt> 翻訳制御方法及び装置及び翻訳制御プログラムを格納した記憶媒体
JP2002014959A (ja) * 2000-06-30 2002-01-18 Nippon Telegr & Teleph Corp <Ntt> 翻訳方法及び装置及び翻訳プログラムを格納した記憶媒体
JP2003271597A (ja) * 2002-02-07 2003-09-26 At & T Corp 無線デバイス用の広く普及した言語翻訳のシステムおよび方法
JP2005250746A (ja) * 2004-03-03 2005-09-15 Nec Corp 機械翻訳辞書登録装置、機械翻訳辞書登録方法、機械翻訳辞書登録プログラムおよび機械翻訳辞書登録システム
JP2007018523A (ja) * 1997-03-04 2007-01-25 Hiroshi Ishikura 言語解析システムおよび方法
US20080086300A1 (en) * 2006-10-10 2008-04-10 Anisimovich Konstantin Method and system for translating sentences between languages
US20090055160A1 (en) * 2006-06-29 2009-02-26 International Business Machines Corporation Apparatus And Method For Integrated Phrase-Based And Free-Form Speech-To-Speech Translation
JP2010515178A (ja) * 2007-01-04 2010-05-06 シンキング ソリューションズ ピーティーワイ リミテッド 言語分析
US20100121630A1 (en) * 2008-11-07 2010-05-13 Lingupedia Investments S. A R. L. Language processing systems and methods
US20100174523A1 (en) * 2009-01-06 2010-07-08 Samsung Electronics Co., Ltd. Multilingual dialogue system and controlling method thereof

Family Cites Families (7)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US5870700A (en) * 1996-04-01 1999-02-09 Dts Software, Inc. Brazilian Portuguese grammar checker
US6393389B1 (en) * 1999-09-23 2002-05-21 Xerox Corporation Using ranked translation choices to obtain sequences indicating meaning of multi-token expressions
US20070219782A1 (en) * 2006-03-14 2007-09-20 Qing Li User-supported multi-language online dictionary
US20080059200A1 (en) * 2006-08-22 2008-03-06 Accenture Global Services Gmbh Multi-Lingual Telephonic Service
US8145473B2 (en) * 2006-10-10 2012-03-27 Abbyy Software Ltd. Deep model statistics method for machine translation
EP2702508A4 (en) * 2011-04-27 2015-07-15 Vadim Berman GENERIC SYSTEM OF LANGUAGE ANALYSIS AND TRANSFORMATION
US9569425B2 (en) * 2013-03-01 2017-02-14 The Software Shop, Inc. Systems and methods for improving the efficiency of syntactic and semantic analysis in automated processes for natural language understanding using traveling features

Patent Citations (13)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JPH08265445A (ja) * 1995-03-07 1996-10-11 Siemens Ag コミュニケーション装置
JPH0969106A (ja) * 1995-06-23 1997-03-11 Roehm Properties Bv 機械翻訳装置及び翻訳処理方法
US5903858A (en) * 1995-06-23 1999-05-11 Saraki; Masashi Translation machine for editing a original text by rewriting the same and translating the rewrote one
JP2007018523A (ja) * 1997-03-04 2007-01-25 Hiroshi Ishikura 言語解析システムおよび方法
JP2002007398A (ja) * 2000-06-23 2002-01-11 Nippon Telegr & Teleph Corp <Ntt> 翻訳制御方法及び装置及び翻訳制御プログラムを格納した記憶媒体
JP2002014959A (ja) * 2000-06-30 2002-01-18 Nippon Telegr & Teleph Corp <Ntt> 翻訳方法及び装置及び翻訳プログラムを格納した記憶媒体
JP2003271597A (ja) * 2002-02-07 2003-09-26 At & T Corp 無線デバイス用の広く普及した言語翻訳のシステムおよび方法
JP2005250746A (ja) * 2004-03-03 2005-09-15 Nec Corp 機械翻訳辞書登録装置、機械翻訳辞書登録方法、機械翻訳辞書登録プログラムおよび機械翻訳辞書登録システム
US20090055160A1 (en) * 2006-06-29 2009-02-26 International Business Machines Corporation Apparatus And Method For Integrated Phrase-Based And Free-Form Speech-To-Speech Translation
US20080086300A1 (en) * 2006-10-10 2008-04-10 Anisimovich Konstantin Method and system for translating sentences between languages
JP2010515178A (ja) * 2007-01-04 2010-05-06 シンキング ソリューションズ ピーティーワイ リミテッド 言語分析
US20100121630A1 (en) * 2008-11-07 2010-05-13 Lingupedia Investments S. A R. L. Language processing systems and methods
US20100174523A1 (en) * 2009-01-06 2010-07-08 Samsung Electronics Co., Ltd. Multilingual dialogue system and controlling method thereof

Also Published As

Publication number Publication date
RU2016137833A3 (ja) 2018-11-13
US20150356074A1 (en) 2015-12-10
SG10201808556VA (en) 2018-11-29
US20160335254A1 (en) 2016-11-17
RU2016137833A (ru) 2018-03-23
WO2015145259A1 (en) 2015-10-01
SG11201607656SA (en) 2016-10-28
KR20160138077A (ko) 2016-12-02

Similar Documents

Publication Publication Date Title
JP2017510924A (ja) 機械翻訳システムおよび機械翻訳方法
JP4404211B2 (ja) マルチリンガル翻訳メモリ、翻訳方法および翻訳プログラム
US20070233460A1 (en) Computer-Implemented Method for Use in a Translation System
Bejček et al. Prague Dependency Treebank 2.5–a revisited version of PDT 2.0
US20140039879A1 (en) Generic system for linguistic analysis and transformation
KR100530154B1 (ko) 변환방식 기계번역시스템에서 사용되는 변환사전을생성하는 방법 및 장치
JPH0351020B2 (ja)
EP1525539A2 (en) Machine translation
Schoorlemmer Definiteness marking in Germanic: Morphological variations on the same syntactic theme
Chiarcos et al. Analyzing middle high German syntax with RDF and SPARQL
Terčon et al. CLASSLA-Stanza: The next step for linguistic processing of South Slavic languages
Dasgupta et al. Morphological parsing of Bangla wods using PC-KIMMO
Rajendran Parsing in tamil: Present state of art
EP3123354A1 (en) Machine translation system and method
Delmonte Treebanking in VIT: from phrase structure to dependency representation
JP2688020B2 (ja) 派生語処理方式
Dods Automatically inferring grammar specifications for adnominal possession from interlinear glossed text
Cheng et al. MAG-Tagalog: A rule-based Tagalog morphological analyzer and generator
Bosch et al. Towards Zulu corpus clean-up, lexicon development and corpus annotation by means of computational morphological analysis
Prakapenka et al. Creation of a Legal Domain Corpus for the Belarusian Module in NooJ: Texts, Dictionaries, Grammars
Kotsyba et al. UGTag: morphological analyzer and tagger for the Ukrainian language
Giovannetti et al. Constructing an Annotated Resource for Part-Of-Speech Tagging of Mishnaic Hebrew
de Almeida Suffix identification in Portuguese using transducers
Fraj et al. Parsing Arabic Texts Using Real Patterns of Syntactic Trees
Vadász et al. NORMO: An Automatic Normalization Tool for Middle Hungarian

Legal Events

Date Code Title Description
A621 Written request for application examination

Free format text: JAPANESE INTERMEDIATE CODE: A621

Effective date: 20180307

A521 Request for written amendment filed

Free format text: JAPANESE INTERMEDIATE CODE: A523

Effective date: 20180515

A977 Report on retrieval

Free format text: JAPANESE INTERMEDIATE CODE: A971007

Effective date: 20190130

A131 Notification of reasons for refusal

Free format text: JAPANESE INTERMEDIATE CODE: A131

Effective date: 20190306

A601 Written request for extension of time

Free format text: JAPANESE INTERMEDIATE CODE: A601

Effective date: 20190605

A02 Decision of refusal

Free format text: JAPANESE INTERMEDIATE CODE: A02

Effective date: 20191030