[go: up one dir, main page]

JP2626722B2 - 日本語生成装置 - Google Patents

日本語生成装置

Info

Publication number
JP2626722B2
JP2626722B2 JP61109631A JP10963186A JP2626722B2 JP 2626722 B2 JP2626722 B2 JP 2626722B2 JP 61109631 A JP61109631 A JP 61109631A JP 10963186 A JP10963186 A JP 10963186A JP 2626722 B2 JP2626722 B2 JP 2626722B2
Authority
JP
Japan
Prior art keywords
japanese
sentence
english
notation
noun
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Expired - Fee Related
Application number
JP61109631A
Other languages
English (en)
Other versions
JPS62267871A (ja
Inventor
壽彦 横川
泰之 沼田
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Ricoh Co Ltd
Original Assignee
Ricoh Co Ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Ricoh Co Ltd filed Critical Ricoh Co Ltd
Priority to JP61109631A priority Critical patent/JP2626722B2/ja
Publication of JPS62267871A publication Critical patent/JPS62267871A/ja
Application granted granted Critical
Publication of JP2626722B2 publication Critical patent/JP2626722B2/ja
Anticipated expiration legal-status Critical
Expired - Fee Related legal-status Critical Current

Links

Landscapes

  • Machine Translation (AREA)

Description

【発明の詳細な説明】 技術分野 本発明は日本語生成装置、とくに自動翻訳装置に有用
な日本語生成装置に関する。
従来技術 たとえば英語などの外国語の文からそれに対応する日
本語の文を作成する場合、入力された英文の形態素を解
析し、その構文を解析し、その文構造を変換し、そのの
ち日本語の訳文を生成する。
周知のように日本語文では一般に、複数個の名詞から
なる名詞句は、隣接する2つの名詞の間に助詞「の」を
挿入したり、中点「・」を挿入したり、何も挿入せず複
数の名詞の合成語としたり、はたまた英語などの外国語
の単語をそのまま表記する場合はスペースをはさんで列
記したりするなど、様々な形で表記される。
従来方式による英日自動翻訳装置では、このような複
数個の名詞からなる名詞句が対応する日本語に翻訳され
ると、単に、複数個の名詞の羅列か、あるいは各名詞間
にすべて助詞の「の」が挿入されるなど、日本語として
不自然な形で表記されることが多かった。
しかし現実の日本語文はかなり複雑である。たとえば
英語の名詞句“a woman director"の場合、説明を簡単
にするために、“woman"に対応する日本語として一般に
「女」と「女性」があり、“director"に対応する日本
語として一般に「ディレクター」と「編集者」があると
する。この場合一般に、“a woman director"の訳語と
して「女性ディレクター」「女性編集者」「女のディレ
クター」「女の編集者」などがあり、それぞれ文中にお
ける用法ないしはニュアンスが微妙に異なることがあ
る。したがって従来方式のように、一律に単に、複数個
の名詞を羅列したり、あるいは各名詞間にすべて助詞の
「の」を挿入しただけでは、日本語として不自然なこと
が多い。
目的 本発明はこのような従来技術の欠点を解消し、名詞句
の表記に関してより自然な日本語が生成される日本語生
成装置を提供することを目的とする。
構成 本発明は上記の目的を達成させるため、外国語の単語
についてそれに対応する日本語の訳語に関する辞書デー
タを格納した辞書手段と、形態素および構文が解析され
た外国語の文について辞書手段を索引して対応する日本
語の文を生成する日本語生成手段とを有し、日本語生成
手段は、外国語の文に複数個の名詞を含む名詞句がある
と、辞書手段より得られた名詞の訳語の字種を判別し、
その字種に応じて名詞相互間の連結表記を決定して日本
語の文を生成する日本語生成装置を特徴としたものであ
る。以下、本発明の実施例に基づいて具体的に説明す
る。
第1図を参照すると、本発明による自動翻訳装置の訳
文生成方式を英日自動翻訳装置に適用した実施例の全体
構成が示されている。なお本発明は、英語を日本語に翻
訳する英日自動翻訳装置のみならず、他の外国語を日本
語に翻訳する自動翻訳装置にも効果的に適用されること
は、言うまでもない。
同実施例は入力部10を有し、日本語に翻訳すべき英文
テキスト12がこれにより入力される。入力部10はたとえ
ば、英数字キーなどの文字キーや機能キーなどを有する
キーボード、紙に記録された英文テキストを読み取り光
学的文字読取装置(OCR),および(または)磁気ディ
スクなどの記憶媒体に記録された英文テキストを読み込
むファイル記憶装置などを含んでよい。
入力部10により入力された英文テキストは、前編集部
14に読み込まれ、翻訳の前処理が行なわれる。ここで
は、主として文の認定と未知語の処理を行なう。これは
形態素解析の一部として機能する。
前編集された英文データは、前編集で得られた情報と
ともに形態素解析部16に転送される。形態素解析部16で
は、単語辞書18を索引して文に分割し、英文の形態素を
解析し、未知語の処理、固有名詞、時の表現、数の表現
などの各種のまとめあげを行ない、付加疑問、同格の認
定などの文全体の処理を行なう。その形態素解析ルール
は解析ルールファイル36に格納されている。
こうして形態素解析された英文データは、形態素解析
で得られた辞書情報とともに構文解析I部20に転送され
る。構文解析I部20は、本実施例ではcfg文法(context
−free grammar:文脈自由文法)ルールを英文データに
適用して文についてbottom−up,right−to−leftに表層
構造の解析を行ない、すべての構文的可能性を見つけ出
す機能部である。
構文解析I部20で構文解析(パーズ)された英文デー
タは、その解析情報とともに構文解析II部22に送られ
る。ここでは、構文解析Iによる表層的なパーズ結果か
ら、構造記述を適用して解を選択する。これによって英
語文の確からしい解析木を作成し、その構造を作る。こ
れらの構文解析ルールはやはり、解析ルールファイル36
に格納されている。
構文解析された英文データは、解析木のデータとして
構造変換部24に転送される。構造変換部24では、英語文
の中間的構造である構文木から対応する日本語文の構文
木を作成し、日本語を訳出しやすい日本語基底構造に変
換する。
こうして構造変換された日本語の構文木を示す構文木
データは訳文生成部26に送出され、後者にて訳文の生成
が行なわれる。これは、日本語の構文木の木構造から日
本語の文を生成する機能である。まず、語順を日本語の
それに一致させるため、順序の入換えを行なって木構造
を変更する構文生成を行ない、次に形態素生成を行なっ
て構文木においてtop−down,left−to−rightに訳文を
生成する。
訳文生成された日本語文データ、すなわち訳文データ
は、後編集部30に送られる。後編集部30では、翻訳処理
に利用した情報を使用し、辞書18を索引して訳文データ
を修正し、より自然な日本語文を完成する。この日本語
文データは出力部32に転送され、翻訳された日本語文34
として出力部32から出力される。出力部32は、たとえば
プリンタ、ディスプレイ、および(または)磁気ディス
クなどのファイル記憶装置を含む。
これらの一連の翻訳処理の流れは、本装置全体の制御
を統括する制御部38によって制御される。単語辞書18に
は、本実施例では英語および日本語の単語についての辞
書データが格納され、解析ルールファイル36には、形態
素解析および構文解析のルールデータが格納されてい
る。
制御部38には、操作表示部40が接続されている。操作
表示部38は、操作者から本装置に様々な指示を与える、
たとえば翻訳指示キー、カーソルキーなどの操作キー
や、入力英語文テキスト、翻訳結果の日本語文、辞書情
報などの中間データ、操作者に対する様々な指示などを
可視表示するディスプレイやインジケータを有する。な
お、それらの操作表示機能の多くは、入力部10にキーボ
ードを備えている場合はそのキーボードに、また出力部
32にディスプレイを備えている場合はそのディスプレイ
に含まれるように構成してよい。
ところで構文解析I部20では、形態素解析された英文
データについて、ファイル記憶装置36に格納されている
cfg文法ルールを英文にright−to−liftに適用してその
文について可能性のあるすべての構文解を導出する。こ
の解は一般に構造木の形で理解される。これは、1つの
文ごとにそれに含まれる単語または句が修飾関係および
格関係などの従属ないしは共起関係によって相互に関連
づけられ、たとえば親、子、孫といった相互の従属関係
を示すものである。各単語または句は、構造木の節点す
なわちノードの位置を占める。
こうして構文上のまとまりと従属関係を規定するデー
タが得られると、これは構文解析II部24に送られる。こ
のデータは、前述した構文木の形で容易に理解される。
これは、さらに構造変換部24で日本語文の構造に変換さ
れ、訳文生成部26では、それに含まれる各ノードごとに
訳文を生成してゆく。構造木におけるノードの処理は、
top−down,left−to−rightで行なう。
本実施例における訳文生成部26では、日本語文を生成
する過程で、複数個の名詞を含む名詞句について次のよ
うな処理を行なう。すなわち、名詞句を形成する各名詞
について、それが一字の漢語であるか、二字以上の漢語
であるか、カタカナ語であるか、和語であるか、英文な
どの外国語そのままの表記であるかなど、名詞の表記の
仕方に応じて、すなわち単語の字種に応じて表層的に名
詞相互間の連結表記を生成している。
本実施例では、たとえば解析ルールファイル36の一部
に連結表記テーブルが用意され、このような名詞句を生
成する場合、この連結表記テーブルを参照し、これに応
じた連結表記を選択するような構成されている。連結表
記テーブルの例を第2図に示す。
このテーブルでは、名詞句を形成する各名詞のうち隣
接する2つの名詞について、両者が一字の漢語(漢語
1)であるか、二字以上の漢語(漢語2)であるか、カ
タカナ語であるか、和語であるか、英語などの外国語そ
のままの表記であるかなどの組合せに応じて、「1」な
いし「4」のコードが割り当てられる。この連結状態を
示すコードは、「1」で助詞「の」の挿入を規定し、
「2」で中点「・」の挿入を規定し、「3」で1字文の
スペースの挿入を規定し、「4」で助詞も中点もスペー
スも挿入しないことを規定している。なお、この連結表
記テーブルで英語とあるが、一般にこれは、英語にかぎ
らず外国語の文字をそのまま日本語文中に使用して表記
する単語の場合を包含している。
本実施例における訳文生成部26は、生成した日本語文
をシフトJISコードで表わしている。そこで、日本語単
語の字種をこの文字コードにより判定し、その判定結果
に従って連結表記テーブルを参照して連結コードを得
る。その処理フローを第3図に示す。
この例では、構文木の形に構文解析された英文におけ
る1つの名詞句を形成する連続した名詞Ni(i=1,
2,...n)について訳出を行なうものである。先頭の英語
名詞から順に処理を行なうが(50)、まず先頭の英語名
詞とそれに続く英語名詞をそれぞれレジスタNAとNBに格
納する(51,51)。そこでレジスタNAおよびNBの英単語
について辞書18を索引し(53,55),その日本語訳語を
それぞれレジスタJAおよびJBに格納する(54,56)。
そこで訳文生成部26は、レジスタJAおよびJBの内容に
ついてFUN1(JA,JB)なる処理を行なう。この処理FUN1
(JA,JB)は、レジスタJAとJBの内容の表記の関係から
一義的に決まる連結表記を発生する処理である。たとえ
ば、本実施例では、レジスタJAとJBに格納されている単
語の先頭文字の文字コードによってその単語の字種を判
定し、これに基づいて第2図に示す連結表記テーブルを
参照して対応する連結コードを発生する。たとえばシフ
トJISコードでは、カタカナ文字は0x8340から0x8396に
定められている。なお、判定した字種が漢語であるとき
は、さらにその漢語全体の字数も判定し、1字の漢語で
あるか、2字以上の漢語であるかを決定する。その処理
結果、すなわち連結コードはレジスタNOに格納される
(57)。
そこで、レジスタJAに格納されている日本語単語にレ
ジスタNOの内容に応じて、助詞「の」の付加、中点
「・」の付加、1字分のスペースの付加、何も付加しな
いなどの処理FUN2(JA,NO)を行ない、その結果をレジ
スタYAKUにセットする。レジスタYAKUは、こうして生成
された日本語訳が順次格納される記憶手段である。
このような一連の処理を1つの英語名詞句に含まれる
全名詞N1〜Nnについて先頭から順に実行する(59,6
0)。これによって、単なる名詞の羅列でなく、助詞
「の」や中点「・」、スペースなどが適切に挿入された
自然な日本語名詞句が生成される。こうして生成された
訳文は、後編集部30で後処理が行なわれ、操作表示部40
に可視表示されるとともに、出力部32にて日本文34とし
てたとえば印字出力される。
ところで、上述の処理FUN1(JA,JB)では日本語名詞
の表層構造すなわち字種を判定するのに文字コードを利
用するように構成されていた。しかし、このようにしな
いで、またはこれに加えて、辞書18に連結表記に関する
表記情報として字種のデータを備え、英単語により辞書
18を索引して日本語訳語を得るときにこの表記情報も入
手し、これに基づいて前述の助詞「の」の付加、中点
「・」の付加、1字分のスペースの付加、何も付加しな
いなどの処理を行なうように構成してもよい。その場
合、辞書18は、第4図に示すように各エントリのレコー
ドに訳語の表記情報が登録されている。そこで、このよ
うな辞書18を使用する場合は、ステップ57における処理
FUN1(JA,JB)では、レジスタJAおよびJBに格納されて
いる辞書エントリから表記情報を取り出し、これに従っ
て第2図の連結表記テーブルを索引して連結コードを得
る処理を行なう。
このような辞書18の表記情報による連結表記の処理
は、文字コードによる処理に比べて単語の意味まで考慮
したきめ細かい処理を行なうことができる。すべての名
詞について文字コードから字種を判定して連結テーブル
を索引するような方式をとらず、表記情報を全部辞書情
報から得るように構成してもよい。また文字コードから
判定する方式の補助的手法として辞書情報から得る方式
を併用してもよく、その場合は文字コードから判定する
方式の効率の良さと、これでは対処しきれない例外的ケ
ースを辞書情報により適切に処理できるきめ細かさの両
方の利点が得られる。
効果 本発明によれば、日本語の生成において、名詞句を形
成する名詞の字種に応じて、各名詞間の連結に助詞
「の」を付加するか否かなどの処理が行なわれる。この
方式によれば、比較的簡単な処理で日本語の自然さを失
うことなく名詞句を表記することができる。したがって
名詞句の表記に関してより自然な日本語が生成される。
【図面の簡単な説明】
第1図は、本発明による日本語生成装置を英日自動翻訳
装置に適用した実施例の全体構成を示す機能ブロック
図、 第2図は、第1図に示す実施例における解析ルールファ
イルに格納されている名詞の連結表記テーブルの例を示
す説明図、 第3図は、同実施例の日本語生成処理における名詞句の
処理の例を示すフロー図、 第4図は、同実施例における単語辞書に格納されている
英語の単語についての辞書情報の例を示す説明図であ
る。 主要部分の符号の説明 10……入力部 16……形態素解析部 18……単語辞書 20,22……構文解析部 24……構造変換部 26……訳文生成部 32……出力部 36……解析ルール 38……制御部 40……操作表示部

Claims (1)

    (57)【特許請求の範囲】
  1. 【請求項1】外国語の単語についてそれに対応する日本
    語の訳語に関する辞書データを格納した辞書手段と、 形態素および構文が解析された外国語の文について該辞
    書手段を索引して対応する日本語の文を生成する日本語
    生成手段とを有し、 該日本語生成手段は、日本語の文を生成する過程で、前
    記辞書手段より得られた訳語が名詞である場合に、該名
    詞の字種が漢字,カタカナ語,英語,和語のいずれであ
    るかを判別し、複数個の名詞を含む名詞句については、
    隣り合う名詞の字種の組合せから、該名詞の訳語相互間
    に連結表記を必要とするかを判別し、該名詞の訳語相互
    間に連結表記を必要とする場合には、隣り合う名詞の字
    種に応じて該名詞の訳語相互間の連結表記を複数の連結
    表記候補のうちから1つ選択して決定することを特徴と
    する日本語生成装置。
JP61109631A 1986-05-15 1986-05-15 日本語生成装置 Expired - Fee Related JP2626722B2 (ja)

Priority Applications (1)

Application Number Priority Date Filing Date Title
JP61109631A JP2626722B2 (ja) 1986-05-15 1986-05-15 日本語生成装置

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
JP61109631A JP2626722B2 (ja) 1986-05-15 1986-05-15 日本語生成装置

Publications (2)

Publication Number Publication Date
JPS62267871A JPS62267871A (ja) 1987-11-20
JP2626722B2 true JP2626722B2 (ja) 1997-07-02

Family

ID=14515173

Family Applications (1)

Application Number Title Priority Date Filing Date
JP61109631A Expired - Fee Related JP2626722B2 (ja) 1986-05-15 1986-05-15 日本語生成装置

Country Status (1)

Country Link
JP (1) JP2626722B2 (ja)

Families Citing this family (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JPH0258162A (ja) * 1988-08-24 1990-02-27 Toshiba Corp 機械翻訳装置および機械翻訳方法
JPH02281373A (ja) * 1989-04-24 1990-11-19 Sharp Corp 機械翻訳装置におけるハイフン生成方法
JPH0344764A (ja) * 1989-07-12 1991-02-26 Sharp Corp 機械翻訳装置

Family Cites Families (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JPS61272873A (ja) * 1985-05-29 1986-12-03 Hitachi Ltd テキストの補整表記方式

Also Published As

Publication number Publication date
JPS62267871A (ja) 1987-11-20

Similar Documents

Publication Publication Date Title
US7707026B2 (en) Multilingual translation memory, translation method, and translation program
US5587902A (en) Translating system for processing text with markup signs
JPS62163173A (ja) 機械翻訳方法
JPH02308370A (ja) 機械翻訳システム
JPH0344764A (ja) 機械翻訳装置
JP2626722B2 (ja) 日本語生成装置
JP7247460B2 (ja) 対応関係生成プログラム、対応関係生成装置、対応関係生成方法、及び翻訳プログラム
JPH02112068A (ja) テキスト簡略表示方式
JP2521435B2 (ja) 日本語生成装置
JP2632806B2 (ja) 言語解析装置
JP2688020B2 (ja) 派生語処理方式
JPS6174068A (ja) 翻訳装置
JP2938897B2 (ja) 文書作成処理装置
Farsi et al. ParsiPy: NLP Toolkit for Historical Persian Texts in Python
JP3313810B2 (ja) アスペクト処理装置
JPS62271054A (ja) 翻訳装置における形態素解析結果修正方式
JPH04282764A (ja) 非文訳出装置
JPH0816910B2 (ja) 言語解析装置
JPH02294779A (ja) 機械翻訳システム
Khosla et al. Information Theoretical Complexities in Developing a Bilingual Corpus: Critical comparison Hindi and Marathi
JPH0258162A (ja) 機械翻訳装置および機械翻訳方法
JPH04130577A (ja) 自然言語処理装置
Mohanlal et al. A SURVEY OF THE STATE OF THE ART IN TAMIL LANGUAGE TECHNOLOGY
JPS63180172A (ja) 機械翻訳装置
JPH10320395A (ja) 機械翻訳装置および機械翻訳処理プログラムを記録したコンピュータ読み取り可能な記録媒体

Legal Events

Date Code Title Description
LAPS Cancellation because of no payment of annual fees