JP2000132550A - 機械翻訳のための中国語生成装置 - Google Patents
機械翻訳のための中国語生成装置Info
- Publication number
- JP2000132550A JP2000132550A JP10303775A JP30377598A JP2000132550A JP 2000132550 A JP2000132550 A JP 2000132550A JP 10303775 A JP10303775 A JP 10303775A JP 30377598 A JP30377598 A JP 30377598A JP 2000132550 A JP2000132550 A JP 2000132550A
- Authority
- JP
- Japan
- Prior art keywords
- chinese
- sentence
- phrase
- speech
- sentences
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Pending
Links
Classifications
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F40/00—Handling natural language data
- G06F40/20—Natural language analysis
- G06F40/205—Parsing
- G06F40/216—Parsing using statistical methods
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F40/00—Handling natural language data
- G06F40/40—Processing or translation of natural language
- G06F40/53—Processing of non-Latin text
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F40/00—Handling natural language data
- G06F40/40—Processing or translation of natural language
- G06F40/55—Rule-based translation
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F40/00—Handling natural language data
- G06F40/40—Processing or translation of natural language
- G06F40/55—Rule-based translation
- G06F40/56—Natural language generation
Landscapes
- Engineering & Computer Science (AREA)
- Theoretical Computer Science (AREA)
- Physics & Mathematics (AREA)
- Audiology, Speech & Language Pathology (AREA)
- Computational Linguistics (AREA)
- General Health & Medical Sciences (AREA)
- Health & Medical Sciences (AREA)
- General Engineering & Computer Science (AREA)
- General Physics & Mathematics (AREA)
- Artificial Intelligence (AREA)
- Probability & Statistics with Applications (AREA)
- Machine Translation (AREA)
- Document Processing Apparatus (AREA)
Abstract
(57)【要約】
【課題】 多数の意味的、文法的関連規則の代わりに中
国語生成のための統計的データを使用して機械翻訳を行
い、中国語を生成する。 【解決手段】 中国語の生成には多数の意味的または文
法的規則が必要であるという問題を克服するため、本発
明は、中国語文章の構成を基本的な文型品詞及びその他
の品詞に分割する。各中国語動詞によって生成が見込ま
れる基本文型の確率、及び基本文型に於けるその他のア
イテムによる位置確率は、まず中国語コーパスから検索
され、バッファ装置に保存される。最良の基本文型と他
の品詞の位置とは、分岐限定法の使用により、中国語の
中間形式の各構成品詞及びバッファ装置に於ける統計的
情報に従って発見することが可能であり、その結果、最
も適正な中国語文章を生成することができる。
国語生成のための統計的データを使用して機械翻訳を行
い、中国語を生成する。 【解決手段】 中国語の生成には多数の意味的または文
法的規則が必要であるという問題を克服するため、本発
明は、中国語文章の構成を基本的な文型品詞及びその他
の品詞に分割する。各中国語動詞によって生成が見込ま
れる基本文型の確率、及び基本文型に於けるその他のア
イテムによる位置確率は、まず中国語コーパスから検索
され、バッファ装置に保存される。最良の基本文型と他
の品詞の位置とは、分岐限定法の使用により、中国語の
中間形式の各構成品詞及びバッファ装置に於ける統計的
情報に従って発見することが可能であり、その結果、最
も適正な中国語文章を生成することができる。
Description
【0001】
【発明の属する技術分野】本発明は、多数の意味的及び
統語的規則の代わりに統計的データを使用する、機械翻
訳のための中国語生成装置に関する。
統語的規則の代わりに統計的データを使用する、機械翻
訳のための中国語生成装置に関する。
【0002】
【従来の技術】20世紀は、社会から取り残されること
のないように人々が学習を欠かすことのできない世紀で
ある。しかしながら、新たな知識の大部分は外国発であ
るため、外国文書の読取り効率にとっては、文書翻訳の
重要性が大である。文書翻訳の品質及び効率を向上させ
るために、人間ではなくコンピュータを使用して翻訳を
させる傾向がある。こうした翻訳装置は、一般に機械翻
訳装置と呼ばれている。こうした機械翻訳装置では、翻
訳される側の言語が原始言語、入力言語から翻訳される
出力言語が目的言語として知られている。例えば、日本
語−中国語機械翻訳装置の原始言語は日本語であり、目
的言語は中国語である。さらに、機械翻訳装置で使用さ
れる翻訳書式は、翻訳される言語の性質によって、直接
形式、中間変換形式またはピボット形式とすることがで
きる。概して、中間変換形式が一般的に使用されている
形式である。
のないように人々が学習を欠かすことのできない世紀で
ある。しかしながら、新たな知識の大部分は外国発であ
るため、外国文書の読取り効率にとっては、文書翻訳の
重要性が大である。文書翻訳の品質及び効率を向上させ
るために、人間ではなくコンピュータを使用して翻訳を
させる傾向がある。こうした翻訳装置は、一般に機械翻
訳装置と呼ばれている。こうした機械翻訳装置では、翻
訳される側の言語が原始言語、入力言語から翻訳される
出力言語が目的言語として知られている。例えば、日本
語−中国語機械翻訳装置の原始言語は日本語であり、目
的言語は中国語である。さらに、機械翻訳装置で使用さ
れる翻訳書式は、翻訳される言語の性質によって、直接
形式、中間変換形式またはピボット形式とすることがで
きる。概して、中間変換形式が一般的に使用されている
形式である。
【0003】図11を参照すると、中間変換形式を採用
している従来型の機械翻訳装置は、原始言語解析装置1
と、中間構造変換装置2と、目的言語生成装置3と、辞
書装置4とを含んでいる。但し、機械翻訳の品質は、原
始言語解析装置1に於いて入力文章が適正に解析される
か否か、中間構造変換装置2に於いて原始言語と目的言
語との間の差が除去される(例えば、構文または意味、
或いは語彙項目翻訳の選択上の相違を解くこと)か否
か、及び目的言語生成装置3に於いて目的言語の統語的
規則により目的言語が適正に生成されるか否か、に依存
している。しかしながら、中国語の文章は、文章中の語
彙の位置が変わると異なった意味を持つ。
している従来型の機械翻訳装置は、原始言語解析装置1
と、中間構造変換装置2と、目的言語生成装置3と、辞
書装置4とを含んでいる。但し、機械翻訳の品質は、原
始言語解析装置1に於いて入力文章が適正に解析される
か否か、中間構造変換装置2に於いて原始言語と目的言
語との間の差が除去される(例えば、構文または意味、
或いは語彙項目翻訳の選択上の相違を解くこと)か否
か、及び目的言語生成装置3に於いて目的言語の統語的
規則により目的言語が適正に生成されるか否か、に依存
している。しかしながら、中国語の文章は、文章中の語
彙の位置が変わると異なった意味を持つ。
【外1】 章は違う意味を有している。従って、中国語文章に於け
る幾つかの語彙の配置は所定の順序を有しており、そう
でなければ正しくない中国語文章が生成される可能性が
ある。以下は、場所を表す語彙が時間を表す語彙の前に
配置されなければならない場合の例である。
る幾つかの語彙の配置は所定の順序を有しており、そう
でなければ正しくない中国語文章が生成される可能性が
ある。以下は、場所を表す語彙が時間を表す語彙の前に
配置されなければならない場合の例である。
【0004】(正しい中国語文章) 他*昨天**在學校*
吃飯(彼は*昨日**学校で*食べた)(彼は昨日学校で夕
食を食べた。) (誤った中国語文章) 他*在學校**昨天*吃飯(彼は*
学校で**昨日*食べた) また、中国語文章の語彙列の中には、拘束のないものが
ある。以下の例は、時間を表す語彙が主語の前にも後に
も配置できるものである。 (時間表示語彙が主語の前に配置されている例) 昨天
他去學校(昨日彼は学校へ行った。) (時間表示語彙が主語の後に配置されている例) 他昨
天去學校(彼は昨日学校へ行った。)
吃飯(彼は*昨日**学校で*食べた)(彼は昨日学校で夕
食を食べた。) (誤った中国語文章) 他*在學校**昨天*吃飯(彼は*
学校で**昨日*食べた) また、中国語文章の語彙列の中には、拘束のないものが
ある。以下の例は、時間を表す語彙が主語の前にも後に
も配置できるものである。 (時間表示語彙が主語の前に配置されている例) 昨天
他去學校(昨日彼は学校へ行った。) (時間表示語彙が主語の後に配置されている例) 他昨
天去學校(彼は昨日学校へ行った。)
【0005】
【発明が解決しようとする課題】従って、機械翻訳装置
の目的言語が中国語である場合に解決しなければならな
い最も重要な問題は、中国語文章に於ける語彙の配置順
を如何にして正しく決定するか、にある。図12は、
R.O.C.(中華民国)特公第324804号公報が
開示した機械翻訳のための中国語生成装置を示してい
る。図12に於ける中国語生成装置の前処理装置200
は、中国語文章の依存構造では主語を省略する下部構造
のために、図13が示すように入力され、またダミー節
点を使用した中間構造である主語節点を回復する。次
に、基本項目展開装置300が、基本的文型記憶装置3
50に保存された基本的文型に従い、各下部構造の主要
品詞(動詞または形容詞)の動詞分類コードを探索キー
として使用して、図14が示すような基本的品詞を含む
基本的文章構造を生成する。非拘束品詞展開装置400
は、文章品詞情報記憶装置450に従い、各非拘束品詞
の格マーカー、原始言語の表層格マーカー、意味支配コ
ード及び依存構造に於ける自己の意味コードを探索キー
として使用して、句主要語の表層格マーカー、句末尾の
表層格マーカー及び文章品詞位置を検索し、文章構造に
於ける文章品詞スロット位置の対応する位置に従って、
図15のような各非拘束品詞による文章構造を生成す
る。特殊文型生成装置500は、各動詞または形容詞の
特殊な文型属性に従って、図16のような特殊文型によ
る文章構造を生成する。図17が示すように、品詞位置
調整装置600は、文章形成品詞順序記憶装置650か
ら、各文章品詞スロットに於ける品詞調整順序限定を順
次検索し、文章構造の各文章品詞スロットに於ける品詞
配置順序を調整する。その後、後処理装置700が、他
の付属品詞の生成と文章構造上の句読を実行し、文章構
造を整列させる。出力装置800は、翻訳結果である
「我把這本書放在車子裡」(私は車に本を置いた。)を
出力する。バッファ装置900は、基本項目展開装置3
00、非拘束品詞展開装置400及び品詞位置調整装置
600からの出力を一時的に保存するために使用され
る。
の目的言語が中国語である場合に解決しなければならな
い最も重要な問題は、中国語文章に於ける語彙の配置順
を如何にして正しく決定するか、にある。図12は、
R.O.C.(中華民国)特公第324804号公報が
開示した機械翻訳のための中国語生成装置を示してい
る。図12に於ける中国語生成装置の前処理装置200
は、中国語文章の依存構造では主語を省略する下部構造
のために、図13が示すように入力され、またダミー節
点を使用した中間構造である主語節点を回復する。次
に、基本項目展開装置300が、基本的文型記憶装置3
50に保存された基本的文型に従い、各下部構造の主要
品詞(動詞または形容詞)の動詞分類コードを探索キー
として使用して、図14が示すような基本的品詞を含む
基本的文章構造を生成する。非拘束品詞展開装置400
は、文章品詞情報記憶装置450に従い、各非拘束品詞
の格マーカー、原始言語の表層格マーカー、意味支配コ
ード及び依存構造に於ける自己の意味コードを探索キー
として使用して、句主要語の表層格マーカー、句末尾の
表層格マーカー及び文章品詞位置を検索し、文章構造に
於ける文章品詞スロット位置の対応する位置に従って、
図15のような各非拘束品詞による文章構造を生成す
る。特殊文型生成装置500は、各動詞または形容詞の
特殊な文型属性に従って、図16のような特殊文型によ
る文章構造を生成する。図17が示すように、品詞位置
調整装置600は、文章形成品詞順序記憶装置650か
ら、各文章品詞スロットに於ける品詞調整順序限定を順
次検索し、文章構造の各文章品詞スロットに於ける品詞
配置順序を調整する。その後、後処理装置700が、他
の付属品詞の生成と文章構造上の句読を実行し、文章構
造を整列させる。出力装置800は、翻訳結果である
「我把這本書放在車子裡」(私は車に本を置いた。)を
出力する。バッファ装置900は、基本項目展開装置3
00、非拘束品詞展開装置400及び品詞位置調整装置
600からの出力を一時的に保存するために使用され
る。
【0006】上述の従来型の機械翻訳用中国語生成装置
に付随する欠点は、以下のようなものである。 1.中国語の動詞または形容詞は、生成可能な多数の中
国語の基本的文型を有している。例えば、動詞「送」
は、以下のような基本的文型に於いて発生し得る。(S
は主語、Vは動詞、Oは直接目的語または間接目的語、
Cは補語を表す。) SVOO:我送他書(私は彼に本をあげた。) SVOOC:我送他書當作紀念(私は彼にお土産として
本をあげた。) SVOC:我送他回家(私は彼を家まで見送った。) SVO:他會送命(彼は殺される。) 従って、従来型の機械翻訳用中国語生成装置では、動詞
分類コードによって基本的文型間の相違の問題を解くこ
とができない。この問題は発見的手法による解決しかな
く、従って、翻訳品質の保証は不可能である。
に付随する欠点は、以下のようなものである。 1.中国語の動詞または形容詞は、生成可能な多数の中
国語の基本的文型を有している。例えば、動詞「送」
は、以下のような基本的文型に於いて発生し得る。(S
は主語、Vは動詞、Oは直接目的語または間接目的語、
Cは補語を表す。) SVOO:我送他書(私は彼に本をあげた。) SVOOC:我送他書當作紀念(私は彼にお土産として
本をあげた。) SVOC:我送他回家(私は彼を家まで見送った。) SVO:他會送命(彼は殺される。) 従って、従来型の機械翻訳用中国語生成装置では、動詞
分類コードによって基本的文型間の相違の問題を解くこ
とができない。この問題は発見的手法による解決しかな
く、従って、翻訳品質の保証は不可能である。
【0007】2.非拘束品詞の位置が、付随品詞の状態
ではなく文章品詞情報記憶装置の内容に従って割り付け
られるため、翻訳品質の向上が見込めない。例えば、時
間表示語彙「今天」(今日)が2に割り当てられるとす
ると、従来型の中国語生成装置は「我今天畢業」(私は
今日卒業した。)という文章しか生成できず、「今天」
(今日)を強調する「今天我畢業」(今日私は卒業し
た。)という文章を生成することができない。
ではなく文章品詞情報記憶装置の内容に従って割り付け
られるため、翻訳品質の向上が見込めない。例えば、時
間表示語彙「今天」(今日)が2に割り当てられるとす
ると、従来型の中国語生成装置は「我今天畢業」(私は
今日卒業した。)という文章しか生成できず、「今天」
(今日)を強調する「今天我畢業」(今日私は卒業し
た。)という文章を生成することができない。
【0008】3.同一スロットに於ける非拘束品詞間の
相対位置の調整が文章品詞順序記憶装置の内容に関連づ
けられるため、文章品詞順序記憶装置の内容が不完全な
ものであれば、奇妙な、或いは誤った中国語文章が生成
される可能性がある。
相対位置の調整が文章品詞順序記憶装置の内容に関連づ
けられるため、文章品詞順序記憶装置の内容が不完全な
ものであれば、奇妙な、或いは誤った中国語文章が生成
される可能性がある。
【0009】
【課題を解決するための手段】従って、本発明の主要な
目的は、前述の先行技術に付随する欠点を克服すること
のできる、機械翻訳のための中国語生成装置を提供する
ことにある。本発明によれば、多数の意味的、文法的及
び句構造的規則の代わりに統計的情報を使用し、入力さ
れた中国語文章の依存構造を中国語文章に変換する機械
翻訳のための中国語生成装置が、中国語文章の依存構造
の引数品詞と、可能な文型と、各スロットの可能な格マ
ーカー配置と、対応する確率値とを保存するための統計
情報記憶装置と、格マーカーと、原始言語表層格マーカ
ーと、引数意味コードと、修飾語の意味コードと、対応
する句主要部表層格マーカー及び句末尾部表層格マーカ
ーとを保存するための付属品詞情報記憶装置と、入力さ
れた中国語文章の依存構造から下部構造を検索し、下部
構造の主要引数を探索キーとして使用して統計情報記憶
装置から対応する可能な文型と、対応する各スロットの
可能な格マーカー配置と、対応する確率値とを検索し、
評価関数に従って順次中国語の句構造を生成するための
主要品詞位置決定装置と、中国語の句構造からリーフ節
点品詞の格マーカーと、原始言語表層格マーカーと、引
数意味コードと、対応する節点品詞意味コードとを探索
キーとして検索し、探索キーに従って付属品詞情報記憶
装置から句主要部表層格マーカーと句末尾表層格マーカ
ーとを検索し、順次、中国語句構造のための前置詞構造
を生成するための付属品詞生成装置と、中国語の句構造
から各節構造を検索し、疑問文または「把」(「b
a」)文または否定文または受動文または命令文及び対
応する時制マーカー及び句読を生成し、ライニング手法
を使用して中国語の句構造を中国語文章に変換するため
の後処理装置と、を備えている。
目的は、前述の先行技術に付随する欠点を克服すること
のできる、機械翻訳のための中国語生成装置を提供する
ことにある。本発明によれば、多数の意味的、文法的及
び句構造的規則の代わりに統計的情報を使用し、入力さ
れた中国語文章の依存構造を中国語文章に変換する機械
翻訳のための中国語生成装置が、中国語文章の依存構造
の引数品詞と、可能な文型と、各スロットの可能な格マ
ーカー配置と、対応する確率値とを保存するための統計
情報記憶装置と、格マーカーと、原始言語表層格マーカ
ーと、引数意味コードと、修飾語の意味コードと、対応
する句主要部表層格マーカー及び句末尾部表層格マーカ
ーとを保存するための付属品詞情報記憶装置と、入力さ
れた中国語文章の依存構造から下部構造を検索し、下部
構造の主要引数を探索キーとして使用して統計情報記憶
装置から対応する可能な文型と、対応する各スロットの
可能な格マーカー配置と、対応する確率値とを検索し、
評価関数に従って順次中国語の句構造を生成するための
主要品詞位置決定装置と、中国語の句構造からリーフ節
点品詞の格マーカーと、原始言語表層格マーカーと、引
数意味コードと、対応する節点品詞意味コードとを探索
キーとして検索し、探索キーに従って付属品詞情報記憶
装置から句主要部表層格マーカーと句末尾表層格マーカ
ーとを検索し、順次、中国語句構造のための前置詞構造
を生成するための付属品詞生成装置と、中国語の句構造
から各節構造を検索し、疑問文または「把」(「b
a」)文または否定文または受動文または命令文及び対
応する時制マーカー及び句読を生成し、ライニング手法
を使用して中国語の句構造を中国語文章に変換するため
の後処理装置と、を備えている。
【0010】本発明の機械翻訳用中国語生成装置によれ
ば、主要品詞位置決定装置は、入力された依存構造から
下部構造を検索し、下部構造の主要引数を探索キーとし
て統計情報記憶装置から対応する可能な文型と、各スロ
ットに於ける対応する可能な格マーカー配置と、対応す
る確率値とを検索し、評価関数に従って順次、中国語の
句構造を生成し、当該中国語句構造をバッファ装置に保
存する。次いで、付属品詞生成装置が、バッファ装置か
ら中国語の句構造を検索し、各リーフ節点を検索し、中
国語句構造から探索キーとしてリーフ節点の格マーカー
と、原始言語の表層格マーカーと、引数意味コードと、
対応する節点品詞意味コードとを検索し、探索キーに従
って付属品詞情報記憶装置から句主要部表層格マーカー
と、句末尾部表層格マーカーとを検索し、中国語句構造
の対応する位置に前置詞構造を生成する。次いで、後処
理装置が、中国語の句構造から各節構造を検索し、中国
語文法規則に従って疑問文、「把」(「ba」)文、否
定文、受動文、命令文及び対応する時制マーカー及び句
読の生成を実行し、最終的に、ライニング手法を使用し
て生成された中国語文章を検索し、生成された中国語文
章を出力装置へ出力する。
ば、主要品詞位置決定装置は、入力された依存構造から
下部構造を検索し、下部構造の主要引数を探索キーとし
て統計情報記憶装置から対応する可能な文型と、各スロ
ットに於ける対応する可能な格マーカー配置と、対応す
る確率値とを検索し、評価関数に従って順次、中国語の
句構造を生成し、当該中国語句構造をバッファ装置に保
存する。次いで、付属品詞生成装置が、バッファ装置か
ら中国語の句構造を検索し、各リーフ節点を検索し、中
国語句構造から探索キーとしてリーフ節点の格マーカー
と、原始言語の表層格マーカーと、引数意味コードと、
対応する節点品詞意味コードとを検索し、探索キーに従
って付属品詞情報記憶装置から句主要部表層格マーカー
と、句末尾部表層格マーカーとを検索し、中国語句構造
の対応する位置に前置詞構造を生成する。次いで、後処
理装置が、中国語の句構造から各節構造を検索し、中国
語文法規則に従って疑問文、「把」(「ba」)文、否
定文、受動文、命令文及び対応する時制マーカー及び句
読の生成を実行し、最終的に、ライニング手法を使用し
て生成された中国語文章を検索し、生成された中国語文
章を出力装置へ出力する。
【0011】
【発明の実施の形態】機械翻訳に於いて中国語の生成に
必要な意味的、文法的及び特殊な統語的規則の総数を減
らすためには、統計的情報が必須であることが分かって
いる。国内市場に於ける標識付け中国語平衡化コーパス
(tagged Chinese balanced corpus)の出現により、幾つ
かのソフトウェアツールを使用するだけで、機械翻訳に
使用される規則の代わりにコーパス場所から希望する情
報、例えば、動詞または形容詞から派生する基本文型及
び様々な項目が基本的文型に表出する確率、を抽出する
ことができる。さらに、条件付き確率の運用等、単純な
オペレーション手段の使用により、確率情報から簡単に
他の相対的確率情報が生成される。例えば、3語または
4語による相互接続の確率情報を、単一語の確率情報及
び2語の相互接続確率情報から演繹することができる。
必要な意味的、文法的及び特殊な統語的規則の総数を減
らすためには、統計的情報が必須であることが分かって
いる。国内市場に於ける標識付け中国語平衡化コーパス
(tagged Chinese balanced corpus)の出現により、幾つ
かのソフトウェアツールを使用するだけで、機械翻訳に
使用される規則の代わりにコーパス場所から希望する情
報、例えば、動詞または形容詞から派生する基本文型及
び様々な項目が基本的文型に表出する確率、を抽出する
ことができる。さらに、条件付き確率の運用等、単純な
オペレーション手段の使用により、確率情報から簡単に
他の相対的確率情報が生成される。例えば、3語または
4語による相互接続の確率情報を、単一語の確率情報及
び2語の相互接続確率情報から演繹することができる。
【0012】図1は、本発明による機械翻訳用中国語生
成装置の略システムブロック図である。10は、中国語
の依存構造を入力するための入力装置を示している。日
本語−中国語機械翻訳を例にとると、中国語依存構造
は、日本語の文章から日本語の解析処理及び中間構造の
変換によって取得される。例えば、図7が示すように、
V(動詞)が引数とされ、「我」、「今天」といったリ
ーフ節点は前記引数の修飾語である。25は、探索キー
としての中国語文章依存構造の引数品詞と、可能な格配
置と、対応する可能な文型の対応する確率値と、各文型
に於ける各スロット(図面中のスロット1−6等)を保
存するための統計情報記憶装置を示している。図5は、
当該記憶装置25の構造概略図である。20は、各下部
構造の引数を探索キーとして統計情報記憶装置25から
それぞれ関連情報を検索し、最良の基本的文型及び他の
品詞の相対的生成位置を決定し、分岐限定法等の最良の
経路探索方法によって中国語の句構造を生成するための
主要品詞位置決定装置を示している。図2は、この工程
フローチャートを示している。35は、図6に最も良く
示されているような、探索キーとして格マーカー、日本
語マーカー、引数意味コード及び意味コード、及び対応
する句主要部及び句末尾部マーカーを保存するための付
属品詞情報記憶装置を示している。30は、付属品詞情
報記憶装置35から中国語句構造の対応位置に於ける対
応する句主要部及び句末尾部マーカーを検索し、その格
マーカー、日本語マーカー(及び日本語辞書項目)、引
数意味コード及びそれ自体の意味コードを探索キーとし
て格リーフ節点を検索することにより、中国語前置詞構
造を生成するための付属品詞生成装置を示している。図
3は、その工程フローチャートを示している。40は、
ライニング手法によって中国語句構造から中国語文章を
生成し、否定、疑問、命令、「把」(「ba」)文、受
動、時間マーカー及び句読の諸工程を実行した後に当該
中国語文章を出力するための後処理装置を示している。
図4は、その工程フローチャートを示している。50
は、例えばモニターで構成される出力装置を示してい
る。60は、中間結果を一時的に保存するためのバッフ
ァ装置を示している。
成装置の略システムブロック図である。10は、中国語
の依存構造を入力するための入力装置を示している。日
本語−中国語機械翻訳を例にとると、中国語依存構造
は、日本語の文章から日本語の解析処理及び中間構造の
変換によって取得される。例えば、図7が示すように、
V(動詞)が引数とされ、「我」、「今天」といったリ
ーフ節点は前記引数の修飾語である。25は、探索キー
としての中国語文章依存構造の引数品詞と、可能な格配
置と、対応する可能な文型の対応する確率値と、各文型
に於ける各スロット(図面中のスロット1−6等)を保
存するための統計情報記憶装置を示している。図5は、
当該記憶装置25の構造概略図である。20は、各下部
構造の引数を探索キーとして統計情報記憶装置25から
それぞれ関連情報を検索し、最良の基本的文型及び他の
品詞の相対的生成位置を決定し、分岐限定法等の最良の
経路探索方法によって中国語の句構造を生成するための
主要品詞位置決定装置を示している。図2は、この工程
フローチャートを示している。35は、図6に最も良く
示されているような、探索キーとして格マーカー、日本
語マーカー、引数意味コード及び意味コード、及び対応
する句主要部及び句末尾部マーカーを保存するための付
属品詞情報記憶装置を示している。30は、付属品詞情
報記憶装置35から中国語句構造の対応位置に於ける対
応する句主要部及び句末尾部マーカーを検索し、その格
マーカー、日本語マーカー(及び日本語辞書項目)、引
数意味コード及びそれ自体の意味コードを探索キーとし
て格リーフ節点を検索することにより、中国語前置詞構
造を生成するための付属品詞生成装置を示している。図
3は、その工程フローチャートを示している。40は、
ライニング手法によって中国語句構造から中国語文章を
生成し、否定、疑問、命令、「把」(「ba」)文、受
動、時間マーカー及び句読の諸工程を実行した後に当該
中国語文章を出力するための後処理装置を示している。
図4は、その工程フローチャートを示している。50
は、例えばモニターで構成される出力装置を示してい
る。60は、中間結果を一時的に保存するためのバッフ
ァ装置を示している。
【0013】図2は、主要品詞位置決定装置20の工程
フローチャートである。ステップS201で入力装置1
0から送信された中国語依存構造から主要引数を検索し
た後、ステップS205で当該主要引数が存在している
かどうかが決定される。主要引数が存在していなけれ
ば、即ち節が何も存在していなければ、工程はステップ
S270に進み、特殊文章順序調整が行われる。例え
ば、複合句「進入禁止」は調整により「禁止進入」にさ
れる。ステップS270の実行後、工程は終了する。ス
テップS205で主要引数が存在すると決定されれば、
ステップS210が実行され、修飾語が存在するかどう
かが決定される。修飾語が存在していなければ、ステッ
プS265が実行され、他の修飾語に未処理の節引数が
存在しているかどうかが決定される。他の修飾語に未処
理の節引数が存在していなければ、ステップS270が
実行され、工程は終了する。修飾語が存在している場合
は、ステップS215で、引数品詞を探索キーとして統
計情報記憶装置25から可能な格マーカー配置及び対応
する可能な文型の対応する確率値及び対応スロットが検
索される。その後、ステップS220で、変数i(可能
な文型番号)の初期値が1に設定される。次にステップ
S225で、変数j(スロット番号)の値が1に設定さ
れる。ステップS225の後、工程はステップS230
に進んで、生成される可能性のある格マーカー配置がス
ロットijに存在しているかどうかが決定される。スロ
ットijに格マーカー配置が存在していれば、ステップ
S235で、未決定の修飾格マーカー及び対応する統計
情報を使用して各配置の評価関数値が計算され、最高の
評価値の格マーカー配置がスロットijの配置として使
用される。ステップS240でjが1増加された後、ス
テップS250で、値jがスロットの最大数(本実施例
の場合、スロットの最大数は6)より大きいかどうかが
決定される。値jがスロットの最大数より大きくなけれ
ば工程はステップS230に戻り、そうでなければステ
ップS255で、値iが可能な文型数(ステップS21
5の結果の一つ)より大きいかどうかが決定される。値
iが可能な文型数より大きくなければ、工程はステップ
S245でiが1増加された後、ステップS225に戻
る。そうでなければ、ステップS260で、評価関数値
に従って最良の生成配置が検索される。次に、ステップ
S265で、未処理の引数が未処理の修飾語に存在して
いるかどうかが決定される。未処理の修飾語に未処理引
数が存在していれば、工程はステップS210に戻り、
そうでなければ工程は、ステップS270で特殊な文章
順序が調整された後に終了する。
フローチャートである。ステップS201で入力装置1
0から送信された中国語依存構造から主要引数を検索し
た後、ステップS205で当該主要引数が存在している
かどうかが決定される。主要引数が存在していなけれ
ば、即ち節が何も存在していなければ、工程はステップ
S270に進み、特殊文章順序調整が行われる。例え
ば、複合句「進入禁止」は調整により「禁止進入」にさ
れる。ステップS270の実行後、工程は終了する。ス
テップS205で主要引数が存在すると決定されれば、
ステップS210が実行され、修飾語が存在するかどう
かが決定される。修飾語が存在していなければ、ステッ
プS265が実行され、他の修飾語に未処理の節引数が
存在しているかどうかが決定される。他の修飾語に未処
理の節引数が存在していなければ、ステップS270が
実行され、工程は終了する。修飾語が存在している場合
は、ステップS215で、引数品詞を探索キーとして統
計情報記憶装置25から可能な格マーカー配置及び対応
する可能な文型の対応する確率値及び対応スロットが検
索される。その後、ステップS220で、変数i(可能
な文型番号)の初期値が1に設定される。次にステップ
S225で、変数j(スロット番号)の値が1に設定さ
れる。ステップS225の後、工程はステップS230
に進んで、生成される可能性のある格マーカー配置がス
ロットijに存在しているかどうかが決定される。スロ
ットijに格マーカー配置が存在していれば、ステップ
S235で、未決定の修飾格マーカー及び対応する統計
情報を使用して各配置の評価関数値が計算され、最高の
評価値の格マーカー配置がスロットijの配置として使
用される。ステップS240でjが1増加された後、ス
テップS250で、値jがスロットの最大数(本実施例
の場合、スロットの最大数は6)より大きいかどうかが
決定される。値jがスロットの最大数より大きくなけれ
ば工程はステップS230に戻り、そうでなければステ
ップS255で、値iが可能な文型数(ステップS21
5の結果の一つ)より大きいかどうかが決定される。値
iが可能な文型数より大きくなければ、工程はステップ
S245でiが1増加された後、ステップS225に戻
る。そうでなければ、ステップS260で、評価関数値
に従って最良の生成配置が検索される。次に、ステップ
S265で、未処理の引数が未処理の修飾語に存在して
いるかどうかが決定される。未処理の修飾語に未処理引
数が存在していれば、工程はステップS210に戻り、
そうでなければ工程は、ステップS270で特殊な文章
順序が調整された後に終了する。
【0014】図3は、付属品詞生成装置30の工程フロ
ーチャートである。ステップS301で、主要品詞位置
決定装置20から中国語の句構造が送信される。ステッ
プS305で、未処理の節構造が上から下、左から右へ
と検索される。ステップS310に於いて未処理節構造
の検索が失敗であると決定されれば工程は終了し、そう
でなければ、ステップS315で、付属品詞情報記憶装
置35に従い、修飾語の格マーカー、原始言語辞書項目
マーカー及び(引数及びそれ自身の)意味コードを探索
キーとして、未処理の節構造から対応する句主要部マー
カー及び対応する句末尾部マーカーが検索される。次い
で、ステップS320で、句主要部及び句末尾部マーカ
ーを有する修飾語が、前置詞(PP)構造の句構造の対
応位置へと生成される。ステップS325では、ステッ
プS320で生成された前置詞構造が、バッファ装置6
0に保存された中国語句構造の対応節構造に取って替わ
る。次いで、工程はステップS305に戻る。
ーチャートである。ステップS301で、主要品詞位置
決定装置20から中国語の句構造が送信される。ステッ
プS305で、未処理の節構造が上から下、左から右へ
と検索される。ステップS310に於いて未処理節構造
の検索が失敗であると決定されれば工程は終了し、そう
でなければ、ステップS315で、付属品詞情報記憶装
置35に従い、修飾語の格マーカー、原始言語辞書項目
マーカー及び(引数及びそれ自身の)意味コードを探索
キーとして、未処理の節構造から対応する句主要部マー
カー及び対応する句末尾部マーカーが検索される。次い
で、ステップS320で、句主要部及び句末尾部マーカ
ーを有する修飾語が、前置詞(PP)構造の句構造の対
応位置へと生成される。ステップS325では、ステッ
プS320で生成された前置詞構造が、バッファ装置6
0に保存された中国語句構造の対応節構造に取って替わ
る。次いで、工程はステップS305に戻る。
【0015】図4は、後処理装置40の工程フローチャ
ートである。ステップS401で、バッファ装置60か
ら中国語の句構造がまず検索される。次に、ステップS
405で、未処理の節構造がそれぞれ上から下、左から
右へと検索される。ステップS410に於いて未処理節
構造の検索の失敗が決定されれば、ステップS465で
句構造のライニングによって中国語文章が検索された後
に処理が終了し、そうでなければ、ステップS415で
未処理節構造が疑問形であるかどうかが決定さ
ートである。ステップS401で、バッファ装置60か
ら中国語の句構造がまず検索される。次に、ステップS
405で、未処理の節構造がそれぞれ上から下、左から
右へと検索される。ステップS410に於いて未処理節
構造の検索の失敗が決定されれば、ステップS465で
句構造のライニングによって中国語文章が検索された後
に処理が終了し、そうでなければ、ステップS415で
未処理節構造が疑問形であるかどうかが決定さ
【外2】 ない場合、工程はステップS415の後で直接ステップ
S425に進み、「把」(「ba」)文であるかどうか
が決定される。文章が「把」(「ba」)文であれば、
ステップS430が実行されて「把」(「ba」)文が
生成され、工程はステップS435に進む。そうでない
場合、工程は直接ステップS435に進み、それが否定
形であるかどうかが決定される。文章が否定形であれ
ば、ステップS440が実行されて否定文が生成され、
工程はステップS445に進む。そうでない場合、工程
は直接ステップS445に進み、それが受動文または命
令文であるかどうかが決定される。文章が受動文または
命令文であれば、ステップS450が実行されて受動文
または命令文が生成され、工程はステップS455に進
む。そうでない場合、工程は直接ステップS455に進
み、時制マーカーの生成が実行される。次いで、ステッ
プS460で句読の生成が実行される。その後、生成さ
れた節構造が中国語句構造に於ける対応節構造と置換
し、工程はステップS405に戻る。
S425に進み、「把」(「ba」)文であるかどうか
が決定される。文章が「把」(「ba」)文であれば、
ステップS430が実行されて「把」(「ba」)文が
生成され、工程はステップS435に進む。そうでない
場合、工程は直接ステップS435に進み、それが否定
形であるかどうかが決定される。文章が否定形であれ
ば、ステップS440が実行されて否定文が生成され、
工程はステップS445に進む。そうでない場合、工程
は直接ステップS445に進み、それが受動文または命
令文であるかどうかが決定される。文章が受動文または
命令文であれば、ステップS450が実行されて受動文
または命令文が生成され、工程はステップS455に進
む。そうでない場合、工程は直接ステップS455に進
み、時制マーカーの生成が実行される。次いで、ステッ
プS460で句読の生成が実行される。その後、生成さ
れた節構造が中国語句構造に於ける対応節構造と置換
し、工程はステップS405に戻る。
【0016】以下、本発明のオペレーションについて、
さらに例によって説明する。図7が示すような中国語依
存構造が入力装置10によって入力される。次いで、主
要品詞位置決定装置20が、図2の工程フローチャート
に従って作動する。引数が「送」であるため、図5の統
計情報記憶装置25に従って以下のような情報が検索可
能である。
さらに例によって説明する。図7が示すような中国語依
存構造が入力装置10によって入力される。次いで、主
要品詞位置決定装置20が、図2の工程フローチャート
に従って作動する。引数が「送」であるため、図5の統
計情報記憶装置25に従って以下のような情報が検索可
能である。
【0017】可能な文型とその確率値: SVO 0.41、SVOO 0.30、SVOC
0.18、SVOOC 0.11 (1)SVO文型の各スロットの可能な格マーカー配置
とその確率値: スロット1:時間0.2、目的0.39 スロット2:時間0.39、位置0.09、時刻0.2
1、時間 時刻0.17時間 時刻 位置0.07 スロット4:行先0.25 (2)SVOO文型の各スロットの可能な格マーカー配
置とその確率値: スロット2:時間0.16 (3)SVOC文型の各スロットの可能な格マーカー配
置とその確率値: スロット2:時間0.24 (4)SVOOC文型の各スロットの可能な格マーカー
配置とその確率値: スロット2:時間0.11 最大スロット数:6 可能な文型数:4 中国語依存構造に於ける修飾語の格マーカー:主語、時
間、時刻、目的、行先
0.18、SVOOC 0.11 (1)SVO文型の各スロットの可能な格マーカー配置
とその確率値: スロット1:時間0.2、目的0.39 スロット2:時間0.39、位置0.09、時刻0.2
1、時間 時刻0.17時間 時刻 位置0.07 スロット4:行先0.25 (2)SVOO文型の各スロットの可能な格マーカー配
置とその確率値: スロット2:時間0.16 (3)SVOC文型の各スロットの可能な格マーカー配
置とその確率値: スロット2:時間0.24 (4)SVOOC文型の各スロットの可能な格マーカー
配置とその確率値: スロット2:時間0.11 最大スロット数:6 可能な文型数:4 中国語依存構造に於ける修飾語の格マーカー:主語、時
間、時刻、目的、行先
【0018】図8が示す中国語句構造は上述の情報及び
分岐限定アルゴリズム、換言すれば計算結果、の使用に
よって取得可能であり、格マーカーの配置はスロット1
よりスロット2の方が優れていることが周知である。次
いで、付属項目生成装置30は、バッファ装置60に於
ける中国語句構造に従い、それぞれ格マーカー、日本語
マーカー、各リーフ節点の意味的コードを探索キーとし
て検索し、図6の付属品詞情報記憶装置35に従って対
応する句主要部及び句末尾部マーカーを検索する。例え
ば、時刻の句主要部マーカーは「在」である。また同付
属品詞生成装置30は、中国語前置詞構造を生成し、例
えば、「九點」が前置詞構文中に生成されて「在九點」
とされる。図9は、この時点で生成された中国語句構造
を示している。次いで、後処理装置40が、この文型が
「把」(「ba」)文であることを判定し、その結果
「把」(「ba」)文処理が実行される。図10はこの
時点で生成された中国語句構造を示している。ライニン
グ方法を使用すれば、中国語文章「我今天在九點把書送
到學校」を生成することができる。次いで、出力装置5
0が、この中国語文章をモニタまたはプリンタ等の出力
装置に出力する。
分岐限定アルゴリズム、換言すれば計算結果、の使用に
よって取得可能であり、格マーカーの配置はスロット1
よりスロット2の方が優れていることが周知である。次
いで、付属項目生成装置30は、バッファ装置60に於
ける中国語句構造に従い、それぞれ格マーカー、日本語
マーカー、各リーフ節点の意味的コードを探索キーとし
て検索し、図6の付属品詞情報記憶装置35に従って対
応する句主要部及び句末尾部マーカーを検索する。例え
ば、時刻の句主要部マーカーは「在」である。また同付
属品詞生成装置30は、中国語前置詞構造を生成し、例
えば、「九點」が前置詞構文中に生成されて「在九點」
とされる。図9は、この時点で生成された中国語句構造
を示している。次いで、後処理装置40が、この文型が
「把」(「ba」)文であることを判定し、その結果
「把」(「ba」)文処理が実行される。図10はこの
時点で生成された中国語句構造を示している。ライニン
グ方法を使用すれば、中国語文章「我今天在九點把書送
到學校」を生成することができる。次いで、出力装置5
0が、この中国語文章をモニタまたはプリンタ等の出力
装置に出力する。
【0019】上述のように、本発明の装置は先行技術に
伴う諸問題を克服することができる。即ち、本発明の優
位点は以下のようなものにある。 (1)統計データ情報の使用により、機械翻訳のための
中国語生成に必要な規則数の3分の1を減らすことが可
能であり、機械翻訳の運転効率(速度)が大幅に増大す
る。 (2)生成可能な文型に於ける差異の克服が可能であ
り、また文章に於ける各品詞の配置順を同時に決定でき
るため、中国語生成の品質を大幅に向上させることがで
きる。 (3)規則数が減少するため、システムの保全が容易に
なる。さらに、規則間の競合が減少するため、翻訳品質
がさらに安定する。
伴う諸問題を克服することができる。即ち、本発明の優
位点は以下のようなものにある。 (1)統計データ情報の使用により、機械翻訳のための
中国語生成に必要な規則数の3分の1を減らすことが可
能であり、機械翻訳の運転効率(速度)が大幅に増大す
る。 (2)生成可能な文型に於ける差異の克服が可能であ
り、また文章に於ける各品詞の配置順を同時に決定でき
るため、中国語生成の品質を大幅に向上させることがで
きる。 (3)規則数が減少するため、システムの保全が容易に
なる。さらに、規則間の競合が減少するため、翻訳品質
がさらに安定する。
【0020】本発明を最も実用的で好適な実施例とされ
るものに関連して説明してきたが、本発明は、開示され
た実施例に限定されるものではなく、最も広義な解釈に
よる精神と範囲内にある様々な装置を包含し、こうした
全ての改造及び同等装置を含めるように意図されている
ことが理解される。例えば、原始言語は日本語に限定さ
れず、また、入力される言語構造は依存構造ではなく直
接句構造にすることができる。
るものに関連して説明してきたが、本発明は、開示され
た実施例に限定されるものではなく、最も広義な解釈に
よる精神と範囲内にある様々な装置を包含し、こうした
全ての改造及び同等装置を含めるように意図されている
ことが理解される。例えば、原始言語は日本語に限定さ
れず、また、入力される言語構造は依存構造ではなく直
接句構造にすることができる。
【図1】 本発明の1実施例による機械翻訳用中国語生
成装置のシステムブロック図である。
成装置のシステムブロック図である。
【図2】 本発明の実施例による主要品詞位置決定装置
の工程フローチャートである。
の工程フローチャートである。
【図3】 本発明の実施例による付属品詞生成装置の工
程フローチャートである。
程フローチャートである。
【図4】 本発明の実施例による後処理装置の工程フロ
ーチャートである。
ーチャートである。
【図5】 本発明の実施例による統計情報記憶装置の構
造概略図である。
造概略図である。
【図6】 本発明の実施例による付属品詞情報記憶装置
の構造概略図である。
の構造概略図である。
【図7】 本発明による処理を説明するための略図であ
る。
る。
【図8】 本発明による処理を説明するための略図であ
る。
る。
【図9】 本発明による処理を説明するための略図であ
る。
る。
【図10】 本発明による処理を説明するための略図で
ある。
ある。
【図11】 従来の機械翻訳装置の略システムブロック
図である。
図である。
【図12】 従来の機械翻訳用中国語生成装置の略シス
テムブロック図である。
テムブロック図である。
【図13】 先行技術による処理を説明するための略図
である。
である。
【図14】 先行技術による処理を説明するための略図
である。
である。
【図15】 先行技術による処理を説明するための略図
である。
である。
【図16】 先行技術による処理を説明するための略図
である。
である。
【図17】 先行技術による処理を説明するための略図
である。
である。
10…入力装置、 20…主要アイテム位置決定装置、
25…統計情報記憶装置、 30…付属アイテム生成装
置、35…付属アイテム情報記憶装置、 40…後処理
装置、50…出力装置、 60…バッファ装置。
25…統計情報記憶装置、 30…付属アイテム生成装
置、35…付属アイテム情報記憶装置、 40…後処理
装置、50…出力装置、 60…バッファ装置。
Claims (1)
- 【請求項1】 中国語文章の依存構造を中国語文章に変
換する機械翻訳のための中国語生成装置であって、 中国語文章の依存構造の引数アイテムと、可能な文型
と、各スロットの可能な格マーカー配置と、対応する確
率値とを保存するための統計情報記憶装置と、 格マーカーと、原始言語表層格マーカーと、引数意味コ
ードと、修飾語の意味コードと、対応する句主要部表層
格マーカー及び句末尾部表層格マーカーとを保存するた
めの付属アイテム情報記憶装置と、 入力された中国語文章の依存構造から下部構造を検索
し、下部構造の主要引数を探索キーとして使用して統計
情報記憶装置から対応する可能な文型と、対応する各ス
ロットの可能な格マーカー配置と、対応する確率値とを
検索し、評価関数に従って順次中国語の句構造を生成す
るための主要アイテム位置決定装置と、 中国語の句構造からリーフ節点アイテムの格マーカー
と、原始言語表層格マーカーと、引数意味コードと、対
応する節点アイテム意味コードとを探索キーとして検索
し、探索キーに従って付属アイテム情報記憶装置から句
主要部表層格マーカーと句末尾表層格マーカーとを検索
し、順次、中国語句構造のための前置詞構造を生成する
ための付属アイテム生成装置と、 中国語の句構造から各節構造を検索し、疑問文または
「把」(「ba」)文または否定文または受動文または
命令文及び対応する時制マーカー及び句読を生成し、ラ
イニング手法を使用して中国語の句構造を中国語文章に
変換するための後処理装置と、を備えた機械翻訳のため
の中国語生成装置。
Priority Applications (5)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
JP10303775A JP2000132550A (ja) | 1998-10-26 | 1998-10-26 | 機械翻訳のための中国語生成装置 |
US09/371,788 US6289302B1 (en) | 1998-10-26 | 1999-08-10 | Chinese generation apparatus for machine translation to convert a dependency structure of a Chinese sentence into a Chinese sentence |
TW088113959A TW446890B (en) | 1998-10-26 | 1999-08-16 | Chinese generation apparatus for machine translation |
SG1999004113A SG77266A1 (en) | 1998-10-26 | 1999-08-17 | Chinese generation apparatus for machine translation |
CN99119539A CN1252575A (zh) | 1998-10-26 | 1999-09-02 | 用于机器翻译的中文生成装置 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
JP10303775A JP2000132550A (ja) | 1998-10-26 | 1998-10-26 | 機械翻訳のための中国語生成装置 |
Publications (1)
Publication Number | Publication Date |
---|---|
JP2000132550A true JP2000132550A (ja) | 2000-05-12 |
Family
ID=17925146
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
JP10303775A Pending JP2000132550A (ja) | 1998-10-26 | 1998-10-26 | 機械翻訳のための中国語生成装置 |
Country Status (5)
Country | Link |
---|---|
US (1) | US6289302B1 (ja) |
JP (1) | JP2000132550A (ja) |
CN (1) | CN1252575A (ja) |
SG (1) | SG77266A1 (ja) |
TW (1) | TW446890B (ja) |
Cited By (1)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
KR20000072018A (ko) * | 2000-07-03 | 2000-12-05 | 이인섭 | 中國語 文章을 英語의 5型式 文章으로 變換시키는 方案 |
Families Citing this family (53)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
AU2001261505A1 (en) * | 2000-05-11 | 2001-11-20 | University Of Southern California | Machine translation techniques |
WO2002097663A1 (en) * | 2001-05-31 | 2002-12-05 | University Of Southern California | Integer programming decoder for machine translation |
AU2002316581A1 (en) | 2001-07-03 | 2003-01-21 | University Of Southern California | A syntax-based statistical translation model |
WO2004001623A2 (en) | 2002-03-26 | 2003-12-31 | University Of Southern California | Constructing a translation lexicon from comparable, non-parallel corpora |
US20030236658A1 (en) * | 2002-06-24 | 2003-12-25 | Lloyd Yam | System, method and computer program product for translating information |
US8548794B2 (en) | 2003-07-02 | 2013-10-01 | University Of Southern California | Statistical noun phrase translation |
US7711545B2 (en) * | 2003-07-02 | 2010-05-04 | Language Weaver, Inc. | Empirical methods for splitting compound words with application to machine translation |
CN1617133A (zh) * | 2003-11-14 | 2005-05-18 | 高庆狮 | 句义表达式的生成方法、机器翻译及电子词典 |
US7698125B2 (en) * | 2004-03-15 | 2010-04-13 | Language Weaver, Inc. | Training tree transducers for probabilistic operations |
US8296127B2 (en) * | 2004-03-23 | 2012-10-23 | University Of Southern California | Discovery of parallel text portions in comparable collections of corpora and training using comparable texts |
US8666725B2 (en) | 2004-04-16 | 2014-03-04 | University Of Southern California | Selection and use of nonstatistical translation components in a statistical machine translation framework |
DE202005022113U1 (de) | 2004-10-12 | 2014-02-05 | University Of Southern California | Training für eine Text-Text-Anwendung, die eine Zeichenketten-Baum-Umwandlung zum Training und Decodieren verwendet |
US8676563B2 (en) | 2009-10-01 | 2014-03-18 | Language Weaver, Inc. | Providing human-generated and machine-generated trusted translations |
US8886517B2 (en) | 2005-06-17 | 2014-11-11 | Language Weaver, Inc. | Trust scoring for language translation systems |
US7974833B2 (en) | 2005-06-21 | 2011-07-05 | Language Weaver, Inc. | Weighted system of expressing language information using a compact notation |
US20070005345A1 (en) * | 2005-07-01 | 2007-01-04 | Microsoft Corporation | Generating Chinese language couplets |
US7389222B1 (en) | 2005-08-02 | 2008-06-17 | Language Weaver, Inc. | Task parallelization in a text-to-text system |
US7813918B2 (en) * | 2005-08-03 | 2010-10-12 | Language Weaver, Inc. | Identifying documents which form translated pairs, within a document collection |
US7624020B2 (en) * | 2005-09-09 | 2009-11-24 | Language Weaver, Inc. | Adapter for allowing both online and offline training of a text to text system |
US10319252B2 (en) | 2005-11-09 | 2019-06-11 | Sdl Inc. | Language capability assessment and training apparatus and techniques |
US8943080B2 (en) | 2006-04-07 | 2015-01-27 | University Of Southern California | Systems and methods for identifying parallel documents and sentence fragments in multilingual document collections |
US7865352B2 (en) * | 2006-06-02 | 2011-01-04 | Microsoft Corporation | Generating grammatical elements in natural language sentences |
US8209163B2 (en) * | 2006-06-02 | 2012-06-26 | Microsoft Corporation | Grammatical element generation in machine translation |
US7725306B2 (en) * | 2006-06-28 | 2010-05-25 | Microsoft Corporation | Efficient phrase pair extraction from bilingual word alignments |
US8886518B1 (en) | 2006-08-07 | 2014-11-11 | Language Weaver, Inc. | System and method for capitalizing machine translated text |
US8433556B2 (en) | 2006-11-02 | 2013-04-30 | University Of Southern California | Semi-supervised training for statistical word alignment |
US9122674B1 (en) | 2006-12-15 | 2015-09-01 | Language Weaver, Inc. | Use of annotations in statistical machine translation |
US20080177656A1 (en) * | 2007-01-22 | 2008-07-24 | Microsoft Corporation | Client applications with third party payment integration |
US8468149B1 (en) | 2007-01-26 | 2013-06-18 | Language Weaver, Inc. | Multi-lingual online community |
US8615389B1 (en) | 2007-03-16 | 2013-12-24 | Language Weaver, Inc. | Generation and exploitation of an approximate language model |
US8831928B2 (en) | 2007-04-04 | 2014-09-09 | Language Weaver, Inc. | Customizable machine translation service |
US8825466B1 (en) | 2007-06-08 | 2014-09-02 | Language Weaver, Inc. | Modification of annotated bilingual segment pairs in syntax-based machine translation |
JP5256654B2 (ja) * | 2007-06-29 | 2013-08-07 | 富士通株式会社 | 文章分割プログラム、文章分割装置および文章分割方法 |
US7962507B2 (en) | 2007-11-19 | 2011-06-14 | Microsoft Corporation | Web content mining of pair-based data |
US8990064B2 (en) | 2009-07-28 | 2015-03-24 | Language Weaver, Inc. | Translating documents based on content |
CN102012900B (zh) * | 2009-09-04 | 2013-01-30 | 阿里巴巴集团控股有限公司 | 信息检索方法和系统 |
US8380486B2 (en) | 2009-10-01 | 2013-02-19 | Language Weaver, Inc. | Providing machine-generated translations and corresponding trust levels |
US10417646B2 (en) | 2010-03-09 | 2019-09-17 | Sdl Inc. | Predicting the cost associated with translating textual content |
KR101356417B1 (ko) * | 2010-11-05 | 2014-01-28 | 고려대학교 산학협력단 | 병렬 말뭉치를 이용한 동사구 번역 패턴 구축 장치 및 그 방법 |
US11003838B2 (en) | 2011-04-18 | 2021-05-11 | Sdl Inc. | Systems and methods for monitoring post translation editing |
US8694303B2 (en) | 2011-06-15 | 2014-04-08 | Language Weaver, Inc. | Systems and methods for tuning parameters in statistical machine translation |
JP2013069158A (ja) * | 2011-09-22 | 2013-04-18 | Toshiba Corp | 機械翻訳装置、機械翻訳方法および機械翻訳プログラム |
US8886515B2 (en) | 2011-10-19 | 2014-11-11 | Language Weaver, Inc. | Systems and methods for enhancing machine translation post edit review processes |
US8942973B2 (en) | 2012-03-09 | 2015-01-27 | Language Weaver, Inc. | Content page URL translation |
US10261994B2 (en) | 2012-05-25 | 2019-04-16 | Sdl Inc. | Method and system for automatic management of reputation of translators |
US9152622B2 (en) | 2012-11-26 | 2015-10-06 | Language Weaver, Inc. | Personalized machine translation via online adaptation |
US9213694B2 (en) | 2013-10-10 | 2015-12-15 | Language Weaver, Inc. | Efficient online domain adaptation |
CN103593469B (zh) * | 2013-11-30 | 2016-04-20 | 合一网络技术(北京)有限公司 | 一种采用互补信息的关联关键词计算方法及装置 |
CN106383818A (zh) | 2015-07-30 | 2017-02-08 | 阿里巴巴集团控股有限公司 | 一种机器翻译方法及装置 |
CN107704456B (zh) * | 2016-08-09 | 2023-08-29 | 松下知识产权经营株式会社 | 识别控制方法以及识别控制装置 |
CN110245347A (zh) * | 2019-05-08 | 2019-09-17 | 平安科技(深圳)有限公司 | 正反问句自动生成方法、装置与存储介质 |
CN111538862B (zh) * | 2020-05-15 | 2023-06-20 | 北京百度网讯科技有限公司 | 用于解说视频的方法及装置 |
CN112069800B (zh) * | 2020-09-14 | 2025-01-24 | 深圳前海微众银行股份有限公司 | 基于依存句法的句子时态识别方法、设备和可读存储介质 |
Family Cites Families (8)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
JPH0344764A (ja) * | 1989-07-12 | 1991-02-26 | Sharp Corp | 機械翻訳装置 |
JP2827321B2 (ja) | 1989-09-18 | 1998-11-25 | 日本電気株式会社 | 日本語から中国語への機械翻訳方式 |
JP2814634B2 (ja) * | 1989-12-29 | 1998-10-27 | 松下電器産業株式会社 | 機械翻訳装置 |
US5224040A (en) * | 1991-03-12 | 1993-06-29 | Tou Julius T | Method for translating chinese sentences |
US5384702A (en) * | 1993-09-19 | 1995-01-24 | Tou Julius T | Method for self-correction of grammar in machine translation |
US6014615A (en) * | 1994-08-16 | 2000-01-11 | International Business Machines Corporaiton | System and method for processing morphological and syntactical analyses of inputted Chinese language phrases |
JP3161942B2 (ja) * | 1995-06-14 | 2001-04-25 | シャープ株式会社 | 訳振り機械翻訳装置 |
US6002997A (en) * | 1996-06-21 | 1999-12-14 | Tou; Julius T. | Method for translating cultural subtleties in machine translation |
-
1998
- 1998-10-26 JP JP10303775A patent/JP2000132550A/ja active Pending
-
1999
- 1999-08-10 US US09/371,788 patent/US6289302B1/en not_active Expired - Fee Related
- 1999-08-16 TW TW088113959A patent/TW446890B/zh not_active IP Right Cessation
- 1999-08-17 SG SG1999004113A patent/SG77266A1/en unknown
- 1999-09-02 CN CN99119539A patent/CN1252575A/zh active Pending
Cited By (1)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
KR20000072018A (ko) * | 2000-07-03 | 2000-12-05 | 이인섭 | 中國語 文章을 英語의 5型式 文章으로 變換시키는 方案 |
Also Published As
Publication number | Publication date |
---|---|
US6289302B1 (en) | 2001-09-11 |
CN1252575A (zh) | 2000-05-10 |
SG77266A1 (en) | 2000-12-19 |
TW446890B (en) | 2001-07-21 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
JP2000132550A (ja) | 機械翻訳のための中国語生成装置 | |
JP2745370B2 (ja) | 機械翻訳方法及び機械翻訳装置 | |
JP3906356B2 (ja) | 構文解析方法及び装置 | |
JP4993762B2 (ja) | 用例ベースの機械翻訳システム | |
Ge et al. | A statistical semantic parser that integrates syntax and semantics | |
US5528491A (en) | Apparatus and method for automated natural language translation | |
JP4491187B2 (ja) | 単語間の翻訳関係を計算する方法 | |
KR20060043682A (ko) | 개선된 맞춤법 검사를 위한 시스템 및 방법 | |
JP2011118689A (ja) | 検索方法及びシステム | |
JP3743678B2 (ja) | 自動自然言語翻訳 | |
US4860206A (en) | Translation system allowing user designation of postpositional words | |
JPH0981568A (ja) | 機械翻訳用の中国語生成装置 | |
JPH08129554A (ja) | 関係表現抽出装置および関係表現検索装置 | |
Jacquemont et al. | Correct your text with Google | |
KR100327115B1 (ko) | 부분 대역 패턴 데이터베이스에 기반한 번역문 생성장치및 그 방법 | |
JP3682915B2 (ja) | 自然文マッチング装置、自然文マッチング方法、及び自然文マッチングプログラム | |
JP4812811B2 (ja) | 機械翻訳装置及び機械翻訳プログラム | |
JP4059501B2 (ja) | 自然語辞書更新装置 | |
JP3921543B2 (ja) | 機械翻訳装置 | |
JP4635585B2 (ja) | 質問応答システム、質問応答方法及び質問応答プログラム | |
JP2002278963A (ja) | 事例翻訳装置 | |
JP2011175306A (ja) | 情報処理装置 | |
JP2000250914A (ja) | 機械翻訳方法、装置、および機械翻訳プログラムを記録した記録媒体 | |
Henrich et al. | LISGrammarChecker: Language Independent Statistical Grammar Checking | |
Hurskainen | Linguistics cannot be omitted in machine translation |