WO1999063456A1

WO1999063456A1 - Dispositif de preparation de regles de conversion du langage, dispositif de conversion du langage et support d'enregistrement de programme

Info

Publication number: WO1999063456A1
Application number: PCT/JP1999/002954
Authority: WO
Inventors: Yumi Wakita
Original assignee: Matsushita Electric Industrial Co., Ltd.
Priority date: 1998-06-04
Filing date: 1999-06-02
Publication date: 1999-12-09
Also published as: US20060129381A1; US7072826B1; CN1311881A; CN1652107A; US7321850B2

Description

明細書言語変換規則作成装置、言語変換装置及びプロダラム記録媒体技術分野

本発明は、入力音声または入力テキストを、他言語または他の文体型などに変換して出力する言語変換装置とその変換規則を作成する言語変換規則作成装置に関する。背景技術

以下、従来の技術を言語変換装置の 1つである、入力音声を他言語に翻訳（以下通訳と呼ぶ）する装置を例にして説明する。

通訳装置は、音響信号として入力された発声文を単語テキスト列で表示された出力文に変換するための音声認識と、単語テキスト列で表示された文を入力し他言語文に翻訳する言語翻訳とを順次実行することで通訳を実現している。さらに上記言語翻訳部は、入力文の統語的または意味的構造を解析する言語解析部と、解析結果に基づいて他言語に変換する言語変換部と、翻訳結果から自然な出力文を生成する出力文生成部とから構成されている。

しかし、音声認識部が発声文の一部を誤認識した場合や、文にあいづちや言い直しなどが挿入されたり、文として不完結なまま発声を終えてしまうなど、発声文自体が統語的または意味的にも不自然な場合は、音声認識結果を言語解析部に入力しても解析が失敗し、結果的に翻訳結果が出力されないという問題があった。この問題を解決するために、フレーズに分割し、フレーズ内とフレーズ間とを分けて規則化し、不完結な発声にはフレーズ内規則のみを用いて解析し、解析結果の出力を可能にするように構成することである。（たとえば竹沢、森元：電子通信学会論文誌 D-II， Vol. J79-D-II (12) ) 。図 1 4は従来のフレーズ内及びフレーズ間規則例である。この例では、コーパス例 3 0 1の

「今晚シングルの部屋の予約お願いね」に対して、フレーズ内規則は、書き言葉にも共通な文法規則に基づきフレーズ內規則 3 0 2のような木構造で記述し、フレーズ間規則は、学習用コーパスにおけるフレーズ間の隣接確率で記述されている。例えばフレーズ間規則はフレーズ間規則 3 0 3のように記述される。

入力文を解析する際には、文頭から順次フレーズ内規則を当てはめ、フレーズの終端では、各フレーズ毎に隣接確率の高いフレーズ候補が隣接するようにフレーズを接続しながら入力文解析が行われる。このような文解析方法では、文の一部が誤認識を起こし通常の文全体の解析が失敗する場合でも、誤認識を含まない部分のフレーズ解析は正しく行われるため、解析された部分フレーズのみを翻訳することにより、翻訳結果を部分的に出力できる枠組みになっている。

また、この問題に解決するために、従来の文法に則って言語解析を行うのではなく、従来の文法では解析できないような発声文も含めた発声文例から、対応する原言語文と目的言語文の対訳フレーを抽出し、このフレーズ対をなるベく一般化した形で記述された対訳フレーズ辞書を作成し、この辞書を用いて言語解析と言語変換とを行う方法も提案されている。（たとえば、古瀬、隅田、飯田：情報処理学会論文誌 Vol35， no3， 1994- 3) 図 1 5は従来の言語変換規則作成装置である。通訳を行う前に、予め発声文対訳コーパスから対訳フレーズ辞書を作成する。ここでも、一部の単語が誤ったり省略されたりすることを考慮し、発声文例をフレーズ毎に分割し、フレーズ内規則とフレーズ間の依存規則とを作成している。まず形態素解析部 3 6 0で、原言語文と目的言語文との形態素解析を行ない、各文を形態素列に変換する。次にフレーズ決定部 3 6 1で、原言語及び目的言語の形態素例をフレーズ単位に分割し、フレーズ内規則とフレーズ間の依存関係規則を作成する。この際のフレーズ単位は、意味的にまとまった単位であることに加えて、対訳において対応関係が明らかな部分文であることを考慮して人手で決定される。たとえば、「部屋の予約をお願いしたいんですが」「 d like to reserve a room」とレヽぅ対訳文例は、（a) 「部屋の予約」「reserve a room」，（b) 「をお願いしたいんですが」「 d like toj という（a) (b) 2つの対訳フレーズに分割され、「（&)を0))する」「(b) to (a)」という依存関係が規則化される。上記対訳フレーズは対訳フレーズ辞書 3 6 2に、フレーズ間の依存関係を対訳の形で表されたものはフレーズ間規則テーブル 3 6 3に各々保管される。このような処理が対訳コーパスに含まれた全発声文分について行われる。このフレーズの分割と依存関係は、文の意味的情報やどの程度文法的に崩れていないかの度合いなどのファクターから決定されるため、自動的に各文について決定することが難しく、従来は人手で決定されている。

しかしながら、第 1の従来例における文解析手段においては、扱っているフレーズは原言語のみに依存した言語依存フレーズであり、目的言語のフレーズ単位とは合わない場合が多い。そのため、原言語においては正しいフレーズを言語変換部に入力しても、結局は受理できない場合が多い、という問題を有している。この第 1の従来例の枠組みは、言語非依存フレーズを用いても可能な枠組みではあるが、その場合は、言語非依存フレーズの解析を人手で作成する必要があり、開発に時間がかかる、人手の作成基準の揺れが規則性能を歪ませるという新たな問題が生じる。

また、第 2の従来例における対訳フレーズ辞書作成方法においては、発声文の意味的情報や文法的情報を自動的に解析できる手段がないために、人手で作成しなければならない。そのため、開発に時間がかかり、人手の作成基準の揺れが規則性能を歪ませるという問題点がある。たとえば、通訳装置の目標となるタスクを変更したり、原言語及び目的言語の言語種が変更になつた場合は、一度構築した規則を適応できずにはじめから規則を作成しなければならず、開発効率が悪く手間がかかる。

また、上記フレーズ辞書 3 6 2やフレーズ間規則 3 6 3は、対訳コーパスの対応関係を重視してフレーズ単位を決定しており、音声認識部 3 6 4が認識するのに適切なフレーズ単位であるかどうかの評価がなされているものではなレ、。音声認識にとつて適切なフレーズかどうかを人手で判断しながらフレーズ単位を決めることは困難であり、決定されたフレーズを用いて認識した場合、認識率が確保できる保証がない、という課題を有している。発明の開示

• 本発明の目的は以上の問題点を解決し、入力音声文に未学習部分があったり、音声認識が一部誤りを起こしても、必ず目的言語への変換を可能とし、さらに、変換に必要なフレーズ辞書作成やフレーズ間規則を、なるべく人手をかけずに自動的に作成できる言語変換装置を提供することにある。上述した課題を解決するために、第 1の本発明（請求項 1に対応）は、音声またはテキストで入力される言語変換の対象となる文（以下、原言語文と呼ぶ、これに対応して言語変換された文を目的言語文と呼ぶ）と、目的言語文とが対になった学習用データべ一ス（以下、対訳コ一パスと呼ぶ）から単語または単語列に対する文法的または意味的制約規則を学習して得られた言語規則を格納する格納手段と、

格納された前記言語規則を用いて入力音声の音声認識を行い、言語変換の対象となる文で認識結果を出力する音声認識部と、

前記音声認識部で用いられたのと同じ前記言語規則を用いて言語変換の対象となる文を言語変換された文に変換する言語変換部とを備えたことを特徴とする言語変換装置である。

また、第 2の本発明（請求項 2に対応）は、前記言語規則は、言語変換の対象となる文と、変換された文とが共に意味的なまとまりを形成する部分（体型非依存フレーズと呼ぶ）に分割し、前記体型非依存フレーズ内の言語規則と前記体型非依存フレーズ間の言語規則とを分けて規則化されて作られるものであることを特徴とする第 1の本発明に記載の言語変換装置である。また、第 3の本発明（請求項 3に対応）は、前記言語規則は、前記体型非依存フレーズ内の文法的または意味的規則と前記体型非依存フレーズ間の共起または連接関係を規則化されて作られるものであることを特徴とする第 2 の発明に記載の言語変換装置である。

また、第 4の本発明（請求項 4に対応）は、前記言語変換部で用いられたのと同じ言語規則を用いて前記言語変換された文を音声合成する音声合成部とを備えたことを特徴とする第 1の発明に記載の言語変換装置である。また、第 5の本発明（請求項 5に対応）は、前記言語規則のうち、目的言語文が同じである言語規則を同じカテゴリ一としてまとめられた言語規則群に対して、前記言語規則群に含まれる言語規則の言語変換の対象となる文の音響的規則間距離を算出する規則間距離算出部と、

音声認識の認識レベルを上げるために、算出された前記距離が近い言語規則どうしをマージすることで前記規則群の最適化を行う最適規則作成部と、を備えたことを特徴とする第 1〜 4の発明のいずれかに記載の言語変換装置である。

また、第 6の本発明（請求項 6に対応）は、対訳コーパスと、

その対訳コーパス中の原言語文及び目的言語文における単語または品詞の隣接頻度を算出し、頻度の高い単語及び品詞を連結して意味的なまとまりを形成する部分文（以下、フレーズと呼ぶ）を抽出するフレーズ抽出部と、前記フレーズ抽出部で抽出された前記フレーズで、原言語及び目的言語のフレーズの関係を調べることで対応するフレーズを決定するフレーズ決定部と、

決定された前記対応するフレーズを保管しておくフレーズ辞書とを備え、前記フレーズ辞書は、言語変換を行う際に用いられ、その言語変換は、原言語文が入力された際にこの入力文と前記フレーズ辞書に格納されている前記対応するフレーズとを照合することで言語または文体変換を行うものであるたことを特徴とする言語変換規則作成装置である。

また、第 7の本発明（請求項 7に対応）は、前記フレーズ決定部は、原言語及び目的言語のフレーズの共起関係を調べることで対応するフレーズを決定することを特徴とする第 6の本発明に記載の言語変換規則作成装置である。また、第 8の本発明（請求項 8に対応）は、前記対訳コーパスの原言語文を単語列に変換する形態素解析部と、

その形態素解析部の結果を利用して原言語文及び目的言語文の一部または全部の単語を品詞名で置き換えた対訳コーパスを作成する品詞化部を更に有し、

前記フレーズ抽出部は、前記品詞化部で品詞化された対訳コーパスからフレーズを抽出することを特徴とする第 6の本発明に記載の言語変換規則作成装置である。

また、第 9の本発明（請求項 9に対応）は、原言語と目的言語との対訳単語辞書を有し、

前記品詞化部は、前記対訳単語辞書で対応付けされている単語でかつ原言語が内容語である単語を品詞化することを特徴とする第 8の発明に記載の言語変換規則作成装置である。

また、第 1 0の本発明（請求項 1 0に対応）は、前記対訳コーパスの原言語文を単語列に変換する形態素解析部と、

その形態素解析部の結果を利用して、意味的類似した単語を同クラスと見なして単語を分類し、同クラス内の単語に同コードを与えている表（以下、分類語彙表という）に基づき、原言語文及び目的言語文の一部または全部の単語を前記分類語彙表のコードに置き換えた対訳コーパスを作成する意味コ一ド化部を更に有し、

前記フレーズ抽出部は、前記意味コード化部でコードに置き換えられた対訳コーパスからフレーズを抽出することを特徴とする請求項 ₆記載の言語変換規則作成装置である。また、第 1 1の本発明（請求項 1 1に対応）は、原言語と目的言語との対訳単語辞書を有し、

前記意味コード化部は、前記対訳単語辞書で対応つけられている単語のみ意味コ一ド化することを特徴とする第 1 0の発明に記載の言語変換規則作成装置である。

また、第 1 2の本発明（請求項 1 2に対応）は、前記フレーズ抽出部は、予め優先的にフレーズとみなしたい単語または品詞列を原言語と目的言語を対にして保管しておくフレーズ定義表をも利用して、フレーズを抽出することを特徴とする第 6の本発明に記載の言語変換規則作成装置である。

また、第 1 3の本発明（請求項 1 3に対応）は、コーパスのパ一プレキシティー（文複雑度）を算出する文複雑度算出部を有し、

前記フレーズ抽出部は、単語または単語クラスの隣接頻度と前記文複雑度を用いてフレーズを抽出することを特徴とする第 6〜 1 3の発明のいずれかに記載の言語変換規則作成装置である。

また、第 1 4の本発明（請求項 1 4に対応）は、第 1〜 1 3の発明のいずれかに記載の言語変換装置または言語変換規則作成装置の各構成要素の全部または一部の機能をコンピュータに実行するためのプログラムを格納していることを特徴とするプログラム記録媒体である。図面の簡単な説明

図 1は、本発明の第 1の実施の形態における言語変換装置の構成を示すブ口ック図である。

図 2は、本発明の第 2の実施の形態における言語変換装置の構成を示すブ口ック図である。

図 3は、本発明の第 1の実施の形態における言語規則の作成を説明する図である。

図 4は、本発明の第 2の実施の形態における最適言語規則の作成を説明する図である。

図 5は、本発明の第 3の実施の形態における言語変換装置及び言語規則作成装置の構成を示すプロック図である。

図 6は、本発明の第 3の実施の形態における言語変換規則の作成を説明する図である。

図 7は、本発明の第 3の実施の形態における対訳フレーズ間規則表と対訳フレーズ辞書の例を示す図である。

図 8は、本発明の第 4の実施の形態における言語変換装置及び言語規則作成装置の構成を示すプロック図である。

図 9は、本発明の第 4の実施の形態におけるフレーズ定義表の例を説明する図である。

図 1 0は、本発明の第 5の実施の形態における言語変換装置及び言語規則作成装置の構成を示すプロック図である。

図 1 1は、本発明の第 5の実施の形態における言語規則の作成を説明する図である。

図 1 2は、本発明の第 6の実施の形態における言語変換規則作成装置の構成を示すブロック図である。

図 1 3は、音声合成部を有する言語変換装置の構成例を示すブロック図である。図 14は、従来の言語変換装置で用いられる言語規則の例を示す図である。図 1 5は、従来の言語変換装置の構成を示すブロック図である。

(符号の説明）

1 対訳コーパス

2 言語規則再生部

3 フレーズ内言語規則

4 フレーズ間言語規則

5 文生成規則

6 マイクロフオン

7 音声認識部

8 音響モデル

9 言語変換部

10 出力文生成部

101 対訳コーパス

102 形態素解析部

103 内容語定義表

104 品詞化部

105 フレーズ抽出部

106 フレーズ決定部

107 対訳単語辞書

108 対訳フレーズ間規則表

109 対訳フレーズ辞書

1 10 音声認識 1 1 1 言語変換

1 1 2 出力文生成

1 1 3 音響モデル

1 1 4 文生成規則発明を実施するための最良の形態

以下に、本発明の実施の形態について図面を参照して説明する。

(第 1の実施の形態）

まず第 1の実施の形態について説明する。

第 1の実施の形態では、言語変換装置の一例として、従来例同様、異なる言語間の変換を行う通訳装置を用いて説明する。図 1は本実施の形態の通訳装置のブロック図である。

本実施の形態の通訳装置は、まず通訳する前に、言語解析部 2で予め対訳コーパスや対訳単語辞書などを有している学習用データベース 1から発声文の原言語及び目的言語の言語規則を学習する。言語規則の学習例を図 3に示す。

言語規則作成部 2では、たとえば、品詞タグが付与されている対訳コーパスを用いて原言語文及び目的言語文の内容語を品詞化する。さらに、原言語におけるフレーズと目的言語におけるフレーズとがーまとまりとして対応している場合に、その一まとまりを体型非依存フレーズとしてその境界を区切る。すなわち、原言語における体型依存フレーズと目的言語における体型依存フレーズとがーまとまりとして対応している場合に、その一まとまりを体型非依存フレーズの境界とする。原言語の体型依存フレーズに対応する目的言語の体型依存フレーズがひとまとまりとして対応しない場合には、対応する部分が一まとまりとして存在するまで体型依存フレーズの連結やフレーズ境界の修正を行い体型非依存フレーズとする。図 3において、対訳コーパスの文「今晩、部屋の予約をしたいんですが」「I' d l ike to room- res ervati on tonight；」 2 6が、内容語の品詞化 3 0で、「く普通名詞 > | <普通名詞〉の<サ変名詞〉 I をしたいんですが」 2 7のように品詞化されている。また「く普通名詞〉」、「く普通名詞〉の <サ変名詞〉」、「をしたいんです力^ のように体型非依存フレーズとして境界を区切られている。次に各体型非依存フレーズにおいて、品詞と単語の混合列、および品詞で表されている部分の単語名、さらに各体型非依存フレーズの対訳コーパスにおける出現頻度を体型非依存フレーズ内規則 ₃として記述する。対訳コーパスの全文に対して上記規則を記述する。図 3においては、上述した内容は、フレーズ内規則の記述 3 1により 3に記述される。図 3の 3において、規則 1は、日本語「く普通名詞〉」であり、英語が「く noun〉」である。品詞の內容としては、日本語が「今晩」、英語が「tonight」となっている。対訳コーパスに現れていれば、「明日」、「tomorrow」等も規則 1に記述されるものである。

さらに、各フレーズ内規則の共起関係を体型非依存フレーズ間規則 4として記述する。たとえば、共起関係をフレーズ bi-gramとして規則化する場合は、各体型非依存フレーズの隣接頻度を記述しておく。

上述した内容は、図 3において、フレーズ間規則の記述 3 2力 2 8を記述することを意味する。 2 8がフレーズ bi- gramの例である。規則番号対が例えば「（規則 1 ) (規則 2 ) ) 」となっており、その出現頻度が 4となっている。これは対訳コーパスから学習する過程で、規則 1と規則 2が文中にならんで出現する回数が 4回あったことを意味する。規則 2と規則 3が文中でならんで出現する回数は 2 8の例では 6回あったことになる。

さらに、各体型非依存フレーズ間の構文構造も体型非依存フレーズ間規則 4に記述しておく。これは図 3において、フレ一ズ間規則の記述 3 2が 2 9 を記述することである。つまりフレーズ間規則の記述 3 2が、日本語と英語で体型非依存フレーズが現れる順序が違うので、順序関係の対応をつけるために 2 5で言語構造をッリ一状にして対応をとっている。

文生成規則 5には、上記言語規則 3および 4で不足している目的言語規則を記述しておく。たとえば、日英翻訳の場合には、冠詞および不定冠詞規則や三人称単数化規則などがその内容として記述されている。

なお、フレーズ内言語規則 3及び Zまたはフレーズ間言語規則 4が本発明の格納手段の例である。

通訳の際には、まず発声された原言語音声はマイクロホン 6から入力され音声認識部 7に入力される。音声認識部では、たとえば、体型非依存フレーズ内言語規則 3として記述されている品詞および単語の混合列と体型非依存フレーズ間言語規則 4としてのフレーズ bi - gramとにより、時系列に沿って順次認識単語候補が予測される。予め学習されている音響モデル 8と入力音声との距離値をベースとした音響スコアとフレーズ bi- gramによる言語スコアとの和を認識スコアとし、 Nbest- searchにより認識候補である連続単語列が決定される。このように決定された連続単語列は言語変換部 9に入力される。フレーズ内言語規則 3、フレーズ間言語規則 4では、予め原言語と目的言語とが対応しながら規則化されている。言語変換部 9では、上記規則を用いて、本連続単語列は目的言語のフレーズ列に変換され出力される。この際、入力された原言語フレーズ列が、既に学習されたフレーズ間の構文構造に当てはまる場合には、目的言語のフレーズ列は構文構造に沿って修正された後出力される。

出力された目的言語文は出力文生成 1 0に入力され、文法的な不自然さを修正する。例えば、定冠詞や不定冠詞の付与、代名詞、動詞における 3人称化や複数化や過去形化などの最適化などが行われる。修正後の目的言語翻訳結果文はたとえばテキストとして出力される。

以上の実施の形態では、音声認識で使用する言語規則を学習する際に、原言語と目的言語とがともに意味をもつ一かたまりとなった部分を単位として規則化を行い、この規則の制約に基づいて認識を行うことにより、入力音声文に未学習部分があったり、音声認識が一部誤りを起こしても、全文に対する翻訳結果が全く出力されないという問題点を解決し、正しく認識された部分については、適切な翻訳結果を出力できる言語変換装置を実現できる。なお、本実施の形態では、言語変換装置の 1つの例として通訳装置を例にあげて説明したが、これは他の言語変換装置、例えばくだけた発話文を書き言葉のようなテキスト文に変換する言語変換装置においても、同様に使用することが出来る。

(第 2の実施の形態）

次に第 2の実施の形態について図面を参照しながら説明する。本実施の形態でも、第 1の実施の形態同様、通訳装置を用いて説明する。図 2は本実施の形態の通訳装置のブロック図である。

本実施の形態の通訳装置は、まず通訳する前に、予め言語規則作成部 1 1 で対訳コーパスや対訳単語辞書を有している学習データベース 1から発声文の原言語及び目的言語のフレーズ内言語規則 1 2、フレーズ間言語規則 1 3 を学習する。学習される規則は、第 1の実施の形態における言語規則の学習と同様である。次に学習された言語規則の最適化を行う。最適化の例を図 4 に示す。

まず、学習された体型非依存フレーズにおいて、目的言語フレーズが同じであるフレーズを同カテゴリ一としてまとめる。図 4において、 1 2は言語規則であり、規則間距離算出 1 4で、 3 3のようにカテゴリ一としてまとめる。規則 1、規則 2、規則 3は目的言語規則が「I' d like toj と同じであるので、同カテゴリーになる。また、規則 4は、目的言語規則が「please」となっているので、規則規則 2、規則 3とは別のカテゴリーに分類される。次に同カテゴリーに含まれる原言語フレーズ間の音響的距離を規則間距離算出部 1 4で算出する。図 4において、 1 5が原言語フレーズ間の音響的距離を算出した例である。 1 5では、規則 1と規則 2の距離は 7となっており、規則 1と規則 3の距離は 2となっている。

同カテゴリー規則における原言語フレーズの音響的距離は次のように算出する。まず、カテゴリ一内の全ての目的言語フレーズにおける混合列の品詞部分に、同品詞であれば同じ単語を当てはめ、全ての混合列を単語列に変換する。次に各単語列の発音が類似しているかを調べるために、各単語列の文字列の違いに対する距離を、（数 1 ) を用いて算出し、規則間距離テーブル

1 5に記述する。 n個の単語からなるフレーズ X = { xl，x2, x3， . · . xn} ( xは各単語）と m個の単語からなるフレーズ Y = { yl，y2, y3, . . ym}との間の距離を D(Xn， Ym)として、

【数 1】 D (Xi, Yj) = rain D (Xi - l, Yj) + d(xi, yj)

D (Xi— l, Yj - 1) + d(Xi, Yj)

D (Xi，Yj— 1) + d(Xi， Yj)

但し、. if xi=yj then d (xi, yj) =0

else d(xi, yj) =l 次に最適規則作成部 1 6で、距離値が一定値以内であるフレーズの中で、最も出現数の多い規則のみを残し、他の規則を消去する。たとえば、図 4の例では、上記一定値を 2とした場合、 3 3において、同カテゴリーである規則 1と規則 3との規則間距離は 2であり、上記一定値 2以下である。従って、この 2つの規則の出現頻度の多い規則 1を採用し、規則 3を規則から削除する。それに合わせて出現数も書き換える。

フレーズ内言語規則 1 2に書かれている全ての規則に対して上記最適規則化を行った後、消去されなかった言語規則のみをフレーズ内最適言語規則 1 7として保管する。最適化された規則に従い、フレーズ間規則 1 3の中の除去された規則を採用した規則で書き換え、合わせて出現数も修正する。図 4 において、最適規則作成 1 6により規則 3は削除され、規則 1として 1本化される。それにあわせて、規則 1の出現数は、 1 7のように削除された規則 3との和である 1 5となっている。

文生成規則 5には、コーパスから作成された上記言語規則で不足している目的言語規則を記述しておく。たとえば、日英翻訳の場合には、冠詞および不定冠詞規則や三人称単数化規則などがその内容として記述されている。通訳の際には、まず発声された原言語音声はマイクロホン 6から入力され音声認識部 7に入力される。音声認識部では、たとえば、体型非依存フレーズ内言語規則 1 7として記述されている品詞および列単語の混合列と体型非依存フレーズ間言語規則 1 8としてのフレーズ隣接頻度とにより、時系列に沿って順次認識単 Μ 補が予測される。予め学習されている音響モデル 8と入力音声との距離値をベースとした音響スコアとフレ一ズ bi - gramによる言語スコアとの和を認識スコァとし、 Nbest- searchにより認識候補である連続単語列が決定される。このように決定された連続単語列は言語変換部 9に入力される。言語規則 1 7、 1 8では、予め原言語と目的言語とが対応しながら規則化されている。言語変換部 9では、上記規則を用いて、本連続単語列は目的言語のフレーズ列に変換され出力される。この際、入力された原言語フレーズ列が、既に学習されたフレーズ間の構文構造に当てはまる場合には、目的語のフレーズ列は構文構造に沿って修正された後出力される。

出力された目的言語文は出力文生成部 1 0に入力され、文法的な不自然さを修正する。たとえば、定冠詞や不定冠詞の付与、代名詞、動詞における 3 人称化や複数化や過去形化などの最適化などが行われる。修正後の目的言語翻訳結果文はたとえばテキストとして出力される。

以上の実施の形態では、音声認識で使用する言語規則を学習する際に、原言語と目的言語とがともに意味をもつ一かたまりとなった部分を単位として規則化を行った後、規則化されている目的言語部分が同じである原言語フレーズが音響的に類似している場合には、類似している中から最も出現頻度の高い規則のみを採用し残りの規則を消去することにより、なるべく言語規則の性能を落とさずに、体型非依存フレーズを単位にすることによる規則数の増加を押さえ、従って高性能な認識及び言語変換を可能にする通訳装置を実現するものである。

なお、本実施の形態では、言語変換装置の 1つの例として通訳装置を例にあげて説明したが、これは他の言語変換装置、例えばくだけた発話文を書き言葉のようなテキスト文に変換する言語変換装置においても、同様に使用することが出来る。

(実施の形態 3 )

本実施の形態では、言語変換装置の一例として、従来例同様、異なる言語間の変換を行う通訳装置を用いて説明する。図 5は本実施の形態の通訳装置のブロック図である。

なお、本実施の形態のうち、対訳コーパス 1 0 1、内容語定義表 1 0 3、対訳単語辞書 1 0 7、形態素解析部 1 0 2、品詞化部 1 0 4、フレーズ抽出部 1 0 5、フレーズ決定部 1 0 6は、対訳フレーズ間規則表 1 0 8、対訳フレーズ辞書 1 0 9は、本発明の言語変換規則作成装置の例である。また、本実施の形態の対訳フレーズ辞書 1 0 9は本発明の請求項 6記載のフレーズ辞書の例である。

本実施の形態の通訳装置は、まず通訳する前に、形態素角军析部 1 0 2で対訳コーパス 1 0 1内の原言語文の形態素解析を行うことで原言語文のみ品詞タグが付与された対訳コーパスを作成する。たとえば、図 6の 1 2 0の「部屋の予約をお願いしたいんですが」の発声文例では、 1 2 1のような品詞タグが原言語文に与えられる。次に、品詞化部 1 Q 4で、上記コーパスの品詞タグ付き原言語文において、一部の単語名を品詞名に置きかえた品詞化対訳コーパスを作成する。この際に品詞名に変換される単語は以下の条件を満たすものとする。 ( 1 ) 内容語テーブルに記載の品詞に対応する単語である。

( 2 ) 対訳単語辞書に登録されている単語で、対訳単語辞書の目的言語訳に相当する単語が、コーパス内の相当する目的言語対訳文に存在する。

図 6の内容語定義表 1 0 3の例では、内容語テーブルに記載されている一般名詞、さ変名詞、動詞の中で、対訳単語辞書 1 0 7に登録されている「部屋」と「予約」のみが品詞化され、 1 2 2のようにこれらの単語を品詞名に置き換えたコーパスが作成される。さらに、相当する目的言語対訳文内の単語名も 1 2 3のように日本語品詞名に置き換える。

次に、上記の一部の内容語が品詞名に置き換えられたコーパスについて、フレーズ抽出部 1 0 5は、原言語文、目的言語文別々に、各単語または品詞の 2連鎖出現頻度（以後 bi - gramと呼ぶ）を算出する。算出式を（数 2 ) に示す。

【数 2】

コーパス内の全原言語文及び目的言語文を対象に bi- gramを算出した後、フレーズ抽出部 5で、最も出現頻度の高かった 2単語または品詞対を 1つの単語とみなして連結し、再度 bi-gramを算出する。これにより、たとえば頻度高く隣接する「お」「願い」、「願い」「し」、し」「ます」などの単語対が連結され、「お願いします」というフレーズ候補が形成される。目的言語では「I' d」 riikej 、 riikej 「to」の単語対が連結される。全原言語文及び目的言語文別々に、以上の連結と bi - gram算出とを、 bi - gramの値が全て一定閾値を超えなくなるまで繰り返す。そして、連結された単語も含めた個々の単語をフレーズ候補として抽出する。

次にフレーズ決定部 106で、原言語文と目的言語文対において、各フレーズが同時に出現している頻度を算出する。 i番目の原言語フレーズを J [ i ], j番目の目的言語フレーズを E[j ]とすると、フレーズ J [ i]と E[ j ]との共起頻度 K[ i， j ]は、算出式を（数 3) にて算出される。

【数 3】

K[ i， j ] = (フレーズ J [ i ]とフレーズ E「j ]とが、対訳文対に共起する数 }

1フレース J L i」の出現数 +フレーズ EL j」の出現数 } たとえば、図 7の例では、フレーズ列として記述された 3つの対訳文 1 3 0のうち、原言語フレーズの「お願いします」と目的言語フレーズの「I'd like toj との共起頻度は 2/ (2 + 3) 、「したいんですが」と目的言語フレーズの共起頻度は 1/ (1 + 3)となる。この頻度が一定値以上のフレーズ対を対訳フレーズとして決定し、頻度と共にフレーズ番号を付けて対訳フレーズ辞書 109に登録する。さらに、対訳フレーズとして決定されなかったフレーズ候補の中で、既に品詞化されている単語は、それ単独で対訳フレーズとして対訳フレーズ辞書 1 09に登録する。それ以外の部分は、対訳対の中で各々の単語列どうしを一対としてフレーズ辞書に登録する。

たとえば、図 7の例では、 131のように対訳フレーズ辞書 109に登録される。

このようにして、フレーズ登録を行なった後、一文に共起するフレーズ番号を記録し、フレーズ番号対として対訳フレーズ間規則表 108に登録する。図 7の例では 1 3 2となる。

また、上記フレーズ番号対のフレーズ bi- gramを求め、これも対訳フレーズ間規則表 1 0 8に記録する。すなわち、原言語コーパスを、対訳フレーズ辞書に登録されたフレーズ番号列で表し、フレーズ番号で表されたコーパスを用いてフレーズ b i- gramを求め、これも対訳フレーズ間規則表 8に記録する。フレーズ iに続くフレーズ jの出現確立を表すフレーズ bi - gramは（数 4 ) で表される。

【数 4】

{フレーズ i とフレーズ〗がこの順序で隣接して出現した数 }

{フレース iの虫数} 例えば図 7の 1 3 2では、例えばフレーズ 3とフレーズ 1のフレーズ bi - g ramを求める。またフレーズ 4、フレーズ 5、フレーズ 2のフレーズ間規則に関してはフレーズ 4、フレーズ 5及びフレーズ 5、フレーズ 2の bi-gramをそれぞれ求め、対訳フレーズ間規則表 1 0 8に記録する。

通訳の際には、まず発声された原言語音声は音声認識部 1 1 0に入力される。音声認識部 1 1 3では、たとえば、対訳フレーズ辞書 1 0 .9にフレーズとして記述されている単語のネットワークと対訳フレーズ間規則表 1 0 8にて記述されているフレーズ bi- gramとにより、時系列に沿って順次認識単語候補が予測される。予め学習されている音響モデル 1 1 3と入力音声との距離値をベースとした音響スコアとフレーズ bi-gramによる言語スコアとの和を認識スコアとし、 Nbest- searchにより認識候補である連続単語列が決定される。認識された連続単語列は、言語変換部 1 1 1に入力される。言語変換部 1 1 1では、入力された連続単語列を対訳フレーズ辞書 1 0 9內のフレーズ列に変換し、各フレーズ列に相当するフレーズ間規則を探索する。そして、各フレーズの対訳である目的言語フレーズと目的言語のフレーズ間規則とから、入力原言語認識結果文を目的言語文に変換する。

このように本実施の形態では、音声認識部 1 1 0と言語変換部 1 1 1とでともに対訳フレーズ辞書 1 0 9と対訳フレーズ間規則表 1 0 8が使用される。変換された目的言語文は出力文生成部 1 1 2に入力され、統語的な不自然さを修正する。たとえば、定冠詞や不定冠詞の付与、代名詞、動詞における 3人称化や複数化や過去形化などの最適化などが行われる。修正後の目的言語翻訳結果文はたとえばテキストとして出力される。

以上の実施例では、原言語フレーズと目的言語フレーズが対応した形で規則を記述しておき、このフレーズの単位で認識を行ないうことで、入力文の一部が未知部分文であったり、音声認識が一部誤ったとしても、正しく認識および解析された部分は適切に処理され出力される言語変換装置を可能にする。また、原言語文及び目的言語文各々における単語または品詞の隣接頻度と、対訳における頻度の高い単語列または品詞列の共起関係を用いて自動的に対訳フレ一ズとフレーズ間規則を決定し、この対訳フレ一ズ規則を用いて通訳を行うことにより、なるべく人手をかけずに、自動的に効率よくしかも品質の高い対訳フレーズ辞書を生成できる言語規則作成装置を可能とする。なお、本実施の形態では、言語変換装置の 1つの例として通訳装置を例にあげて説明したが、これは他の言語変換装置、例えばくだけた発話文を書き言葉のようなテキスト文に変換する言語変換装置においても、同様に使用することが出来る。 (実施の形態 4 )

本実施の形態も、言語変換装置の一例として、第 3の実施の形態同様、異なる言語間の変換を行う通訳装置を用いて説明する。図 8は本実施の形態の通訳装置のプロック図である。

なお、本実施の形態のうち、対訳コーパス 1 0 1、内容語定義表 1 0 3、対訳単語辞書 1 0 7、形態素解析部 1 0 2、品詞化部 1 0 4、フレーズ抽出部 1 4 2、フレーズ決定部 1 4 3は、対訳フレーズ間規則表 1 4 5、対訳フレーズ辞書 1 4 4、フレーズ定義表 1 4 1は、本発明の言語変換規則作成装置の例である。また、本実施の形態の対訳フレーズ辞書 1 4 4は本発明の請求項 6記載のフレーズ辞書の例である。

本実施の形態の通訳装置は、まず通訳する前に、第 3の実施の形態同様、形態素解析後、品詞タグが付与された対訳コーパスを作成する。

次に、フレーズ抽出部 1 4 2で、予めフレーズとして抽出したい単語または品詞列を規則化して記述してあるフレーズ定義表 1 4 1に従い、規則に相当する単語または品詞を連結する。たとえば図 9の 1 4 1の例では、「動詞 +助動詞」や「格助詞 +動詞」などの規則により、「を + (動詞） +たい」力 S 単語として連結される。このように、上記の一部の内容語が品詞名に置き換えられ、さらに上記のような単語または品詞列が連結され一単語とみなされたコーパスについて、原言語文、目的言語文別々に、各単語または品詞の 2 連鎖出現頻度（以後 bi - gramと呼ぶ）を算出する。算出式は（数 2 ) と同様である。

さらに、 bi- gramの値が全て一定閾値を超えなくなるまで、第 3の実施の形態と同等に、処理を繰り返す。そして、連結された単語も含めた個々の単語をフレーズ候補として抽出し、フレーズ決定部で、第 3の実施の形態と同様に対訳フレーズ辞書 1 4 4と対訳フレーズ間規則表 1 4 5を作成する。図 9 の 1 5 1はフレーズ定義表に従って単語または品詞が連結されたコーパスの例であり、 1 5 2が作成された対訳フレーズ辞書 1 4 4の例である。

通訳の際の動作も第 3の実施の形態と同様である。

以上の実施の形態では、予め定義されているフレーズとみなしたい単語または品詞列の規則に従って単語または品詞を連結した後、原言語文及び目的言語文各々における単語または品詞の隣接頻度と、対訳における頻度の高い単語列または品詞列の共起関係を用いて自動的に対訳フレーズとフレーズ間規則を決定し、この対訳フレーズ規則を用レ、て言語または文体変換とを行うことにより、人手を最小限度に押さえた範囲で、さらに効率よく品質の高い対訳フレーズ辞書を生成できる言語変換規則作成装置を提供することが出来る。

なお、本実施の形態の対訳フレーズは、本発明の対応するフレーズの例である。

さらに、本実施の形態では、言語変換装置の 1つの例として通訳装置を例にあげて説明したが、これは他の言語変換装置、例えばくだけた発話文を書き言葉のようなテキスト文に変換する言語変換装置においても、同様に使用することが出来る。

(実施の形態 5 )

第 3の実施の形態では、言語規則を構築する際に、コーパスの一部の単語を品詞化することで、より一般的で品質の高い規則の構築を実現しているが、品詞化の代わりに意味コード化することでも同様の効果が期待できる。以下に図 1 0を参照しながら、本実施の形態を説明する。本実施の形態でも、異なる言語間の変換を行う通訳装置を用いて説明する。

なお、本実施の形態のうち、対訳コーパス 2 0 1、分類語彙表 2 1 6、対訳単語辞書 2 0 7、形態素解析部 2 0 2、意味コ一ド化部 2 1 5、フレーズ抽出部 2 0 5、フレーズ決定部 2 0 6は、対訳フレ一ズ間規則表 2 0 8、対訳フレーズ辞書 2 0 9は、本発明の言語変換規則作成装置の例である。また、本実施の形態の対訳フレーズ辞書 2 0 9は本発明の請求項 6記載のフレーズ辞書の例である。

本実施の形態の通訳装置は、第 3の実施の形態同様、形態素解析部 2 0 2 で対訳コーパス 2 0 1内の原言語文の形態素解析を行うことで品詞タグが原言語文に与えられる。次に、意味コード化部 2 1 5で、原言語文の形態素列において、各形態素と分類語彙表 2 1 6に書かれている単語とを比較し、分類語彙表 2 1 6で意味コードが与えられている単語と一致した形態素については、形態素名を意味コードに置きかえることで、入力形態素列を一部の形態素が意味コード化された形態素列に変換する。この際に意味コード化される形態素には以下の条件を満たすものとする。

(条件）対訳単語辞書に登録されている単語で、対訳単語辞書の目的言語訳に相当する単語が、コーパス内の相当する目的言語対訳文に存在する。

図 1 1の例では、対訳単語辞書に登録されておりしかも分類語彙表でコ一ドが与えられている「部屋」と「予約」のみが意味コード化され、 2 1 3 2 のようにこれらの形態素を意味コードに置き換えた形態素列が作成される。さらに、相当する目的言語対訳文内の単語名も 2 1 3 3のように意味コードに置き換える。次に、上記の一部の内容語が意味コードに置き換えられたコーパスについて、フレーズ抽出部 2 0 5で、原言語文、目的言語文別々に、各単語または意味コードの 2連鎖出現頻度を算出する。算出式を（数 5 ) に示す。【数 5】

{単語（または意味コ-ト"） i と単語（または意味コ -に）丄が隣接して出現した数 _] (単語（または意味コ-に） iの全出現数十単語（またはコ- ） j .の全出現数) ~

コーパス内の全原言語文及び目的言語文を対象に bi-gramを算出した後、フレーズ抽出部で、最も出現頻度の高かった 2単語または意味コード対を 1つの単語とみなして連結し、再度 bi - gramを算出する。これにより、たとえば頻度高く隣接する「お」「願い」、「願い」「し」、「し」「ます」などの単語対が連結され、「お願いします」というフレーズ候補が形成される。目的言語では「I' d」 riikej 、 riikej 「to」の単語対が連結される。全原言語文及び目的言語文別々に、以上の連結と bi- gram算出とを、 bi-gr amの値が全て一定閾値を超えなくなるまで繰り返す。そして、連結された単語も含めた個々の単語をフレーズ候補として抽出する。以下第 3の実施の形態と同様にフレーズ決定部 2 0 6にて対訳フレーズを決定し、対訳フレーズ辞書 2 0 9に登録する。さらに第 3の実施の形態と同様にフレーズ間言語規則及ぴフレーズ bi- gramを作成し、対訳フレーズ間規則表 2 0 8に登録する。通訳の際も第 3の実施の形態と同様に動作する。以上の実施の形態では、原言語フレーズと目的言語フレ一ズが対応した形で規則を記述しておき、このフレーズの単位で認識を行ないうことで、入力文の一部が未知部分文であったり、音声認識が一部誤ったとしても、正しく認識および解析された部分は適切に処理され出力される言語変換装置を可能にする。また、原言語文及び目的言語文各々における単語または意味コードの隣接頻度と、対訳における頻度の高い単語列または意味コード列の共起関係を用いて自動的に対訳フレーズとフレーズ間規則を決定し、この対訳フレーズ規則を用いて通訳を行うことにより、なるべく人手をかけずに、自動的に効率よくしかも.品質の高い対訳フレーズ辞書を生成できる言語規則作成装置を可能とする。

なお、本実施の形態では、言語変換装置の 1つの例として通訳装置を例にあげて説明したが、これは他の言語変換装置、例えばくだけた発話文を書き言葉のようなテキスト文に変換する言語変換装置においても同様に使用することが出来る。

(実施の形態 6 )

第 5の実施の形態では、言語規則を構築する際に、隣接頻度の高い単語または品詞、意味コードを連結してフレーズを作成していたが、フレーズを作成した後に、文複雑度を評価することで、より品質が高く、認識率を保証できるフレーズを形成することができる。

以下に図 1 2を参照しながら、言語変換規則作成装置の実施の形態を説明する。

なお、本実施の形態における対訳フレーズ辞書は本発明の請求項 6記載のフレーズ辞書の例である。

先の実施の形態同様、形態素解析後、意味コード化部 2 1 3で一部の形態素を意味コードに変換した対訳コーパスを作成する。さらに、フレーズ抽出部で、原言語文、目的言語文別々に、各単語または意味コードの bi- gramを算出する。算出式は（数 5 ) と同様である。

さらに、 bi - gramの値が全て一定閾値を超えなくなるまで、先の実施の形態と同等に、処理を繰り返す。そして、連結された単語も含めた個々の単語をフレーズ候補として抽出する。

上記の処理を行う際に、文複雑度算出部 2 1 8で、各単語または意味コードの bi- gramを算出し、 bi- gramの値によって連結処理を行う際に、各単語対を連結した場合と連結しなレ、場合との文複雑度を算出し比較する。文複雑度は（数 6 ) で算出されるものである。【数 6】文複雑度 F = 2 ^H(L)

M

H(L) - ― ∑ P (Wi I Wi-1) log P (Wi I Wi-1) /M

P (Wi | Wi-l) ： i-1番目の形態素が Wi-1であった時に i番目の形態素が Wiである確率 M ：全コーパスにおける 2単語連鎖の種類数比較した結果、フレーズ抽出部 2 1 7で各単語または意味コードを連結することで文複雑度が増加するものについては、フレーズ候補から除去する。上記処理でフレーズ候補に残ったフレーズを対象に、先の実施の形態と同条件でフレーズを決定し、対訳フレーズ辞書 2 0 9とフレーズ間規則表 2 0 8を決定する。

以上の実施の形態では、対訳フレーズを決定する際に、意味コードによる単語クラス化された対訳コ一パスの文複雑度を用いて決定することにより、コーパスから対訳フレーズを自動的に抽出することを可能とし、人手をなるベく用いずに、効率よく品質の高い対訳フレーズ辞書を生成できる。また、文複雑度の尺度が、音声認識に適切なフレーズかどうかの尺度と密接に関係があるため、認識精度を保証しながら、自動的にフレーズ抽出することが可能となる。

なお、本実施の形態では、一部の単語を意味コード化したコーパスを扱つてフレーズ抽出する例を説明したが、品詞化したコ一パスを扱ってフレーズ抽出する場合でも同様の効果が期待できる。

さらに、第 4の実施の形態では、品詞タグが付与された対訳コーパスを扱つてフレーズ定義表によりフレーズを抽出する例を説明したが、第 5の実施の形態で説明したように一部の単語を意味コード化したコーパスを扱って、フレーズ定義表によりフレーズを抽出する場合でも同様の効果が期待できる。さらに、第 1〜5の実施の形態では言語変換装置は、音声認識部、言語変換部、出力文生成部から構成されるとして説明したが、これに限らない。図 1 3に示すように、出力文生成部 2 1 2が出力した翻訳結果文を音声合成する音声合成部を設けても構わない。そしてこの音声合成部は、音声合成する際に音声認識部 2 1 0、言語変換部 2 1 1で用いられたのと同じ対訳フレーズ間規則表 2 0 8、対訳フレーズ辞書 2 0 9を用いて音声合成を行う。このようにすれば入力音声文に未学習部分があったり、音声認識が一部誤りを起こしても、全文に対する音声合成結果が全く出力されないという問題点を解決し、正しく認識された部分については、適切な音声を出力できることが期待できる。

さらに、本発明の言語変換装置または言語変換規則作成装置の各構成要素の全部または一部の機能を専用のハードウェアを用いて実現しても構わないし、またコンピュータのプログラムによってソフトウエア的に実現しても構わない。

さらに、本発明の言語変換装置または言語変換規則作成装置の各構成要素の全部または一部の機能をコンピュータに実行させるためのプログラムを格納していることを特徴とするプログラム記録媒体も本発明に属する。産業上の利用可能性

以上説明したところから明らかなように、本発明は、必ず目的言語文に変換可能な認識結果を出力でき、従って、入力文の一部が未知部分文であったり、音声認識が一部誤ったとしても、正しく認識および解析された部分は適切に処理され出力されることを可能にする言語変換規則作成装置および言語変換装置を提供することが出来る。

また、本発明は、入力音声文に未学習部分があったり、音声認識が一部誤りを起こしても、正しく認識され適切な解析規則が当てはまった部分のみの変換が可能であり、部分的な変換結果を必ず出力することを可能にする言語変換規則作成装置および言語変換装置を提供することが出来る。

また、本発明は、なるべく人手をかけずに自動的に言語規則を作成することを可能にする言語変換規則作成装置を提供することが出来る。

また、本発明は、なるべく人手をかけずに自動的に、かつ、より効率よく高品質な言語規則を作成することを可能にする言語変換規則作成装置を提供することが出来る。

また、本発明は、自動的に、かつ、より効率よく高品質な言語規則を作成することを可能にする言語変換規則作成装置を提供することが出来る。

Claims

請求の範囲

1 . 音声またはテキストで入力される言語変換の対象となる文（以下、原言語文と呼ぶ、これに対応して言語変換された文を目的言語文と呼ぶ）と、目的言語文とが対になった学習用データベース（以下、対訳コーパスと呼ぶ）力ら単語または単語列に対する文法的または意味的制約規則を学習して得られた言語規則を格納する格納手段と、

前記音声認識部で用いられたのと同じ前記言語規則を用いて言語変換の対象となる文を言語変換された文に変換する言語変換部とを備えたことを特徴とする言語変換装置。

2 . 前記言語規則は、言語変換の対象となる文と、変換された文とが共に意味的なまとまりを形成する部分（体型非依存フレーズと呼ぶ）に分割し、前記体型非依存フレーズ內の言語規則と前記体型非依存フレーズ間の言語規則とを分けて規則化されて作られるものであることを特徴とする請求項 1 記載の言語変換装置。

3 . 前記言語規則は、前記体型非依存フレーズ内の文法的または意味的規則と前記体型非依存フレーズ間の共起または連接関係を規則化されて作られるものであることを特徴とする請求項 2記載の言語変換装置。

4 . 前記言語変換部で用いられたのと同じ言語規則を用いて前記言語変換された文を音声合成する音声合成部とを備えたことを特徴とする請求項 1 記載の言語変換装置。

5 . 前記言語規則のうち、目的言語文が同じである言語規則を同じカテゴリーとしてまとめられた言語規則群に対して、前記言語規則群に含まれる言語規則の言語変換の対象となる文の音響的規則間距離を算出する規則間距離算出部と、

音声認識の認識レベルを上げるために、算出された前記距離が近い言語規則どうしをマージすることで前記規則群の最適化を行う最適規則作成部と、を備えたことを特徴とする請求項 1〜 4のいずれかに記載の言語変換装置。

6 . 対訳コーパスと、

決定された前記対応するフレーズを保管しておくフレーズ辞書とを備え、前記フレーズ辞書は、言語変換を行う際に用いられ、その言語変換は、原言語文が入力された際にこの入力文と前記フレーズ辞書に格納されている前記対応するフレーズとを照合することで言語または文体変換を行うものであるたことを特徴とする言語変換規則作成装置。

7 . 前記フレーズ決定部は、原言語及び目的言語のフレーズの共起関係を調べることで対応するフレーズを決定することを特徴とする請求項 6記載の言語変換規則作成装置。

8 . 前記対訳コーパスの原言語文を単語列に変換する形態素解析部と、その形態素解析部の結果を利用して原言語文及び目的言語文の一部または全部の単語を品詞名で置き換えた対訳コーパスを作成する品詞化部を更に有し、

前記フレーズ抽出部は、前記品詞化部で品詞化された対訳コーパスからフレーズを抽出することを特徴とする請求項 6記載の言語変換規則作成装置。

9 . 原言語と目的言語との対訳単語辞書を有し、

前記品詞化部は、前記対訳単語辞書で対応付けされている単語でかつ原言語が内容語である単語を品詞化することを特徴とする請求項 8記載の言語変換規則作成装置。

1 0 . 前記対訳コ一パスの原言語文を単語列に変換する形態素解析部とその形態素解析部の結果を利用して、意味的羯似した単語を同クラスと見なして単語を分類し、同クラス内の単語に同コードを与えている表（以下、分類語彙表という）に基づき、原言語文及び目的言語文の一部または全部の単語を前記分類語彙表のコードに置き換えた対訳コーパスを作成する意味コ一ド化部を更に有し、

前記フレーズ抽出部は、前記意味コード化部でコードに置き換えられた対訳コーパスからフレーズを抽出することを特徴とする請求項 6記載の言語変換規則作成装置。

1 1 . 原言語と目的言語との対訳単語辞書を有し、

前記意味コード化部は、前記対訳単語辞書で対応つけられている単語のみ意味コード化することを特徴とする請求項 1 0記載の言語変換規則作成装置。

1 2 . 前記フレーズ抽出部は、予め優先的にフレーズとみなしたい単語または品詞列を原言語と目的言語を対にして保管しておくフレーズ定義表をも利用して、フレーズを抽出することを特徴とする請求項 6記載の言語変換規則作成装置。

1 3 . コーパスのパープレキシティ一（文複雑度）を算出する文複雑度算出部を有し、

前記フレーズ抽出部は、単語または単語クラスの隣接頻度と前記文複雑度を用いてフレーズを抽出することを特徴とする請求項 6〜 1 3のいずれかに記載の言語変換規則作成装置。

1 4 . 請求項 1〜 1 3のいずれかに記載の言語変換装置または言語変換規則作成装置の各構成要素の全部または一部の機能をコンピュータに実行するためのプログラムを格納していることを特徴とするプログラム記録媒体。