JPH0242572A - 共起関係辞書生成保守方法 - Google Patents
共起関係辞書生成保守方法Info
- Publication number
- JPH0242572A JPH0242572A JP63192751A JP19275188A JPH0242572A JP H0242572 A JPH0242572 A JP H0242572A JP 63192751 A JP63192751 A JP 63192751A JP 19275188 A JP19275188 A JP 19275188A JP H0242572 A JPH0242572 A JP H0242572A
- Authority
- JP
- Japan
- Prior art keywords
- dictionary
- occurrence relationship
- occurrence
- input
- case
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Pending
Links
Classifications
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F40/00—Handling natural language data
- G06F40/20—Natural language analysis
- G06F40/237—Lexical tools
- G06F40/242—Dictionaries
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F40/00—Handling natural language data
- G06F40/20—Natural language analysis
- G06F40/237—Lexical tools
- G06F40/247—Thesauruses; Synonyms
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F40/00—Handling natural language data
- G06F40/20—Natural language analysis
- G06F40/253—Grammatical analysis; Style critique
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F40/00—Handling natural language data
- G06F40/40—Processing or translation of natural language
- G06F40/55—Rule-based translation
Landscapes
- Engineering & Computer Science (AREA)
- Theoretical Computer Science (AREA)
- Health & Medical Sciences (AREA)
- Artificial Intelligence (AREA)
- Audiology, Speech & Language Pathology (AREA)
- Computational Linguistics (AREA)
- General Health & Medical Sciences (AREA)
- Physics & Mathematics (AREA)
- General Engineering & Computer Science (AREA)
- General Physics & Mathematics (AREA)
- Machine Translation (AREA)
Abstract
(57)【要約】本公報は電子出願前の出願データであるた
め要約のデータは記録されません。
め要約のデータは記録されません。
Description
【発明の詳細な説明】
〔産業上の利用分野〕
本発明は1機械翻訳システムなどの自然言語処理システ
ムに関し、特に、ソース言語のための共起関係辞書の自
動的な生成と保守に関する。
ムに関し、特に、ソース言語のための共起関係辞書の自
動的な生成と保守に関する。
自然言語処理システムにおいて、共起関係とは、ある語
と他の語、主としである動詞とある名詞が。
と他の語、主としである動詞とある名詞が。
特定の格関係で結合されることをいう。共起関係の知識
又は情報の利用は、機械翻訳システム、ワードプロセッ
サ等の自然言語処理システムの処理結果の質の向上にと
って、非常に有効である。共起関係の知識は、通常、共
起関係辞書としてシステムに与えられる。共起関係辞書
は、特定の語が他の特定の語に対して持ちうる格を1語
の各組合せごとに示すレコードの集まりである。従来、
共起関係辞書は、人手によって用意され、かつ、人手に
よって保守(加除訂正)されていた。
又は情報の利用は、機械翻訳システム、ワードプロセッ
サ等の自然言語処理システムの処理結果の質の向上にと
って、非常に有効である。共起関係の知識は、通常、共
起関係辞書としてシステムに与えられる。共起関係辞書
は、特定の語が他の特定の語に対して持ちうる格を1語
の各組合せごとに示すレコードの集まりである。従来、
共起関係辞書は、人手によって用意され、かつ、人手に
よって保守(加除訂正)されていた。
用意しだい共起関係辞書の量は膨大であり、また、どの
範囲の共起関係知識が必要かの決定も困鷺な問題である
。しかも、この所要範囲は1個々のシステムが主として
扱う文辞の内容が関連する分野によって異なる。したが
って、大量の適切な共起関係知識を効率良く収集し、か
つ、システムの設置後も適切な保守を怠らないことが必
要である。従来のような人手による収集と保守は、甚だ
効率が悪く、かつ1分野の相違による所要共起関係知識
の相違にきめ細かく対処することが困難である。
範囲の共起関係知識が必要かの決定も困鷺な問題である
。しかも、この所要範囲は1個々のシステムが主として
扱う文辞の内容が関連する分野によって異なる。したが
って、大量の適切な共起関係知識を効率良く収集し、か
つ、システムの設置後も適切な保守を怠らないことが必
要である。従来のような人手による収集と保守は、甚だ
効率が悪く、かつ1分野の相違による所要共起関係知識
の相違にきめ細かく対処することが困難である。
本発明の目的は、個々のシステムに適切なソース言語用
共起関係辞書の生成とその不断の保守を、最少の人的労
力でもって効率良く行なえるようにすることにある。
共起関係辞書の生成とその不断の保守を、最少の人的労
力でもって効率良く行なえるようにすることにある。
本発明によれば、前記の目的は、入力文の構文解析を行
なう処理と、この解析の結果に含まれるある語と他の語
の2項関係の曖昧性を検査する処理と、曖昧でない2項
関係のみを所定の形式に変換して共起関係辞書に登録す
る処理を、自然言語処理装置に行なわせることによって
達成される。
なう処理と、この解析の結果に含まれるある語と他の語
の2項関係の曖昧性を検査する処理と、曖昧でない2項
関係のみを所定の形式に変換して共起関係辞書に登録す
る処理を、自然言語処理装置に行なわせることによって
達成される。
2項関係の暖味性は、その2項関係が構文解析のすべて
の可能な結果に共通に含まれるか否かによって、判定す
ることができる。蓄積された共起関係辞書の内容を用い
て格フレーム辞書(述語になりうる語とその語に意味上
直結する名詞との間の格関係の情報)を自動的に更新す
る処理が、付加されでもよい。
の可能な結果に共通に含まれるか否かによって、判定す
ることができる。蓄積された共起関係辞書の内容を用い
て格フレーム辞書(述語になりうる語とその語に意味上
直結する名詞との間の格関係の情報)を自動的に更新す
る処理が、付加されでもよい。
前述の諸処理は、独立した共起関係辞書生成又は保守処
理として行なわれてもよいし、翻訳処理の過程において
行なわれてもよい、後者の場合、翻訳のための構文解析
の結果を共起関係辞書の生成保守のために利用すること
ができる。更に、共起関係辞書の生成保守のみを行なう
か、それとも翻訳兼共起関係辞書生成保守を行なうかを
1選択的に指定できるようにしてもよい。
理として行なわれてもよいし、翻訳処理の過程において
行なわれてもよい、後者の場合、翻訳のための構文解析
の結果を共起関係辞書の生成保守のために利用すること
ができる。更に、共起関係辞書の生成保守のみを行なう
か、それとも翻訳兼共起関係辞書生成保守を行なうかを
1選択的に指定できるようにしてもよい。
本発明によれば、ユーザが適当な例文を入力として与え
て、共起関係辞書生成保守処理を起動することにより、
自動的に、例文から正しい共起関係情報が抽出されて、
共起関係辞書に登録され、あるいは1日常の翻訳処理の
過程を通じて、自動的に、正しい共起関係情報が抽出さ
れて、共起関係辞書に登録される。したがって、人的労
力をほとんど要せずに、適切な共起関係辞書を生成し、
あるいは−層適切なものに補強することができる。
て、共起関係辞書生成保守処理を起動することにより、
自動的に、例文から正しい共起関係情報が抽出されて、
共起関係辞書に登録され、あるいは1日常の翻訳処理の
過程を通じて、自動的に、正しい共起関係情報が抽出さ
れて、共起関係辞書に登録される。したがって、人的労
力をほとんど要せずに、適切な共起関係辞書を生成し、
あるいは−層適切なものに補強することができる。
格フレーム辞書更新処理が付加されれば、それにより1
個別的な共起関係情報が汎用の格フレーム情報に一般化
される。したがって、共起関係辞書のための記憶容量を
削減することができる。
個別的な共起関係情報が汎用の格フレーム情報に一般化
される。したがって、共起関係辞書のための記憶容量を
削減することができる。
以下、本発明の一実施例を日英機械翻訳システムを例に
とって説明する。
とって説明する。
第2図は1本システムのハードウェア構成を示し、それ
は、処理装置1と、これに接続された入力装置2、出力
装置3、語い辞書記憶装置4.格フレーム辞書記憶装置
5、共起関係辞書記憶装置6から成る。
は、処理装置1と、これに接続された入力装置2、出力
装置3、語い辞書記憶装置4.格フレーム辞書記憶装置
5、共起関係辞書記憶装置6から成る。
語い辞書記憶装置4内の語い辞書は、第3図に示すよう
なレコードで構成される。各レコードは。
なレコードで構成される。各レコードは。
日本語見出し41、品詞42、訳語43、意味コード4
4、格フレームコード45から成る。意味コード44は
、名詞の意味上のカテゴリーを示し、ANIは生物、O
BJは対象、CNTNは入れ物を表わす。格フレームコ
ード45は、後述する格フレームのレコードを識別する
情報である0語い辞書レコードは、日本語見出し41を
キーとじて検索できる。
4、格フレームコード45から成る。意味コード44は
、名詞の意味上のカテゴリーを示し、ANIは生物、O
BJは対象、CNTNは入れ物を表わす。格フレームコ
ード45は、後述する格フレームのレコードを識別する
情報である0語い辞書レコードは、日本語見出し41を
キーとじて検索できる。
格フレーム辞書記憶装置5内の格フレーム辞書は、第4
図に示すようなレコードで構成される。
図に示すようなレコードで構成される。
各レコードは、格フレームコード名51.深層格52、
表層格53.格要素(動詞に意味上直結する名詞)の意
味コード54から成る。深層格はコードで表わす、コー
ドA、O,Gは、それぞれ。
表層格53.格要素(動詞に意味上直結する名詞)の意
味コード54から成る。深層格はコードで表わす、コー
ドA、O,Gは、それぞれ。
動作主格、対象格、終点格を表わしている0表層格は深
層格に対応する日本語の助詞と英語の構文的役割を表わ
している。Sは5ubjectの略語であり、DはDi
rect 0bjectの略語である。格フレームレコ
ードは、格フレームコード名51をキーとして検索でき
る。
層格に対応する日本語の助詞と英語の構文的役割を表わ
している。Sは5ubjectの略語であり、DはDi
rect 0bjectの略語である。格フレームレコ
ードは、格フレームコード名51をキーとして検索でき
る。
共起関係辞書記憶装置6内の共起関係辞書は、第5図に
示すようなレコードで構成される。各レコードは、日本
語動詞61、日本語名詞62、深層格63から成る。共
起関係辞書レコードは、日本語動詞61と日本語名詞6
2の連接をキーとして検索できる。共起関係辞書は、一
般的な文法では表現できない動詞固有の共起関係を、動
詞と名詞の対として登録しており、解析処理においては
一般的な文法に優先して使用される。
示すようなレコードで構成される。各レコードは、日本
語動詞61、日本語名詞62、深層格63から成る。共
起関係辞書レコードは、日本語動詞61と日本語名詞6
2の連接をキーとして検索できる。共起関係辞書は、一
般的な文法では表現できない動詞固有の共起関係を、動
詞と名詞の対として登録しており、解析処理においては
一般的な文法に優先して使用される。
次に、処理装置1で実行される翻訳処理について、第1
図によって説明する。まず、入力装!i!2から、翻訳
又は共起関係辞書保守のいずれか一方を指定する処理選
択パラメータを入力する(11)。
図によって説明する。まず、入力装!i!2から、翻訳
又は共起関係辞書保守のいずれか一方を指定する処理選
択パラメータを入力する(11)。
次に、入力装置2から日本文を入力する(12)。
語い辞書と格フレーム辞書と共起関係辞書を参照して、
動詞に関して、入力文中の格要素の表層格(助詞)及び
意味コードと、対応する格フレームレコード中の表層格
及び意味コードとのパターンマツチングにより、語と語
の意味的な2項関係の集合としての中間表現を得る。こ
のとき、複数通りの解析が可能であれば、それらに対応
する中間表現をすべて求める(13)。次に、ステップ
13で得られた中間表現を構成する2項関係のうち、曖
昧性のないものを検出する。得られたいくつかの中間表
現のすべてに含まれる2項関係のみが、曖昧でない2項
関係である。換言すれば、ある2項関係は、得られた中
間表現のうちlこその2項関係を含まないものが存在す
れば、かつ、そのときにかぎり、曖昧である。
動詞に関して、入力文中の格要素の表層格(助詞)及び
意味コードと、対応する格フレームレコード中の表層格
及び意味コードとのパターンマツチングにより、語と語
の意味的な2項関係の集合としての中間表現を得る。こ
のとき、複数通りの解析が可能であれば、それらに対応
する中間表現をすべて求める(13)。次に、ステップ
13で得られた中間表現を構成する2項関係のうち、曖
昧性のないものを検出する。得られたいくつかの中間表
現のすべてに含まれる2項関係のみが、曖昧でない2項
関係である。換言すれば、ある2項関係は、得られた中
間表現のうちlこその2項関係を含まないものが存在す
れば、かつ、そのときにかぎり、曖昧である。
すべての中間表現に含まれる2項関係がすべて曖昧であ
る場合は、ステップ17へ飛ぶ。曖昧でない2項関係が
存在すれば、ステップ15へ進む(14)。ステップ1
4で曖昧性がないと判定された2項関係の集合を、共起
関係辞書内容に対応した形式の共起関係知識に変換する
(15)。この共起関係知識を共起関係辞書に登録する
(16)。
る場合は、ステップ17へ飛ぶ。曖昧でない2項関係が
存在すれば、ステップ15へ進む(14)。ステップ1
4で曖昧性がないと判定された2項関係の集合を、共起
関係辞書内容に対応した形式の共起関係知識に変換する
(15)。この共起関係知識を共起関係辞書に登録する
(16)。
ステップ11で入力された処理選択パラメータが「共起
関係辞書保守」を示していれば、処理を終了する(17
)。処理選択パラメータが「翻訳」を示していれば、語
い辞書と格フレームを参照し、動詞の持つ英語文法情報
に基づいて格要素の構文的役割を決定して、ステップ1
3で得られた中間表現から英文を生成する。中間表現が
複数ある場合は、最初に得られた中間表現を採用する(
18)。
関係辞書保守」を示していれば、処理を終了する(17
)。処理選択パラメータが「翻訳」を示していれば、語
い辞書と格フレームを参照し、動詞の持つ英語文法情報
に基づいて格要素の構文的役割を決定して、ステップ1
3で得られた中間表現から英文を生成する。中間表現が
複数ある場合は、最初に得られた中間表現を採用する(
18)。
最後に、得られた英文を出力装置3に出力する(19)
。
。
次に、第3図の語い辞書と第4図の格フレームと第5図
の共起関係辞書を用いた場合の日本語解析と共起関係知
識獲得の過程を、例をあげて詳しく説明する。
の共起関係辞書を用いた場合の日本語解析と共起関係知
識獲得の過程を、例をあげて詳しく説明する。
処理選択パラメータによりr翻訳」が選択されたとする
0次に日本文1人が入力する6」が入力されたとする。
0次に日本文1人が入力する6」が入力されたとする。
システムは、まず語い辞書を検索して入力文を単語列に
分解する。次に動詞[入力する」の格要素r人」の深層
格を決、定するため、まず、「入力する」と1人」の連
接をキーとして、共起関係辞書を検索する。第5図aの
共起関係辞書内には、このキーを持つレコードが存在し
ない。
分解する。次に動詞[入力する」の格要素r人」の深層
格を決、定するため、まず、「入力する」と1人」の連
接をキーとして、共起関係辞書を検索する。第5図aの
共起関係辞書内には、このキーを持つレコードが存在し
ない。
そこで、[入力する」をキーとして持つ語い辞書記憶装
置内のレコード(第3図)は格フレームコード[AAA
]を持つので、[AAA]をキーとして格フレームを検
索する。[AAA] をキーとして持つ格フレーム記憶
装置内のレコード(第4図)の先頭のパターンは9日本
語の表層格(助詞)が「が」で、任意の意味コードを持
つ格要素の深層格はAであることを示している。一方、
入力文中の名詞1人」の表層格を示す助詞は「が」であ
リ、「人」をキーとして持つ語い辞書記憶装置内のレコ
ードは、名詞「人」の意味コードがANI(生物)であ
ることを示している。したがって、この入力文のパター
ンは、第4図の格フレームレコードの先頭のパターンと
マツチする。そこで、まず一つの解析結果((入力する
=(A;人)))を得る0本実施例において、解析結果
である中間表現は、(述語:(深層路;格要素))の形
の2項関係の集合とする。[AAA]をキーとする格フ
レームレコードの残り2つのパターンは、助詞がそれぞ
れ「を」と「に」であるため、入力文のパターンとマツ
チしない。そこで、中間表現は2項関係を唯1つ含む集
合((入力する:(A;人)))の唯1通りに決定され
る。中間表現が唯1つであるので5この2項関係に曖昧
性はないと判定され、この2項関係は共起関係辞書レコ
ードに対応した共起関係表現に変換され、共起関係辞書
に登録されて、共起関係辞書は第5図すのようになる。
置内のレコード(第3図)は格フレームコード[AAA
]を持つので、[AAA]をキーとして格フレームを検
索する。[AAA] をキーとして持つ格フレーム記憶
装置内のレコード(第4図)の先頭のパターンは9日本
語の表層格(助詞)が「が」で、任意の意味コードを持
つ格要素の深層格はAであることを示している。一方、
入力文中の名詞1人」の表層格を示す助詞は「が」であ
リ、「人」をキーとして持つ語い辞書記憶装置内のレコ
ードは、名詞「人」の意味コードがANI(生物)であ
ることを示している。したがって、この入力文のパター
ンは、第4図の格フレームレコードの先頭のパターンと
マツチする。そこで、まず一つの解析結果((入力する
=(A;人)))を得る0本実施例において、解析結果
である中間表現は、(述語:(深層路;格要素))の形
の2項関係の集合とする。[AAA]をキーとする格フ
レームレコードの残り2つのパターンは、助詞がそれぞ
れ「を」と「に」であるため、入力文のパターンとマツ
チしない。そこで、中間表現は2項関係を唯1つ含む集
合((入力する:(A;人)))の唯1通りに決定され
る。中間表現が唯1つであるので5この2項関係に曖昧
性はないと判定され、この2項関係は共起関係辞書レコ
ードに対応した共起関係表現に変換され、共起関係辞書
に登録されて、共起関係辞書は第5図すのようになる。
処理選択パラメータとして「翻訳」が入力されていたの
で、得られた中間表現から英文を生成し、英文’A m
an 1nputs it、’ を出力する。処理選択
パラメータとして、「共起関係辞書保守」が入力されて
いた場合は、共起関係辞書の更新で処理を終了する。
で、得られた中間表現から英文を生成し、英文’A m
an 1nputs it、’ を出力する。処理選択
パラメータとして、「共起関係辞書保守」が入力されて
いた場合は、共起関係辞書の更新で処理を終了する。
入力文が「人が値を入力する」であった場合は、同様な
解析の結果は((入力する:(A;人))。
解析の結果は((入力する:(A;人))。
(入力する=(O;値)))の唯1通りになり、共起関
係辞書は、第5図Cのように更新される。
係辞書は、第5図Cのように更新される。
次に、入力文が「入力した値」であった場合を考える。
共起関係の解析は、動詞の原形「入力する」について行
なわれる。共起関係辞書が第5図aの場合は、「入力す
る」と「値」の連接をキーとして持つレコードが共起関
係辞書に存在しない。また「入力する」に対する「値」
の表層路を示す助詞が欠落しているため、[AAA]を
キーとして持つ格フレームレコード(第4図)の先頭か
ら二つのパターンが、入力文のパターンとマツチする(
欠落した要素は任意の値をとりうるとみなす)。
なわれる。共起関係辞書が第5図aの場合は、「入力す
る」と「値」の連接をキーとして持つレコードが共起関
係辞書に存在しない。また「入力する」に対する「値」
の表層路を示す助詞が欠落しているため、[AAA]を
キーとして持つ格フレームレコード(第4図)の先頭か
ら二つのパターンが、入力文のパターンとマツチする(
欠落した要素は任意の値をとりうるとみなす)。
3つめのパターンは格要素の意味コードがCNTN(入
れ物)であり、「値」の意味コード0BJ(対象)とマ
ツチしない、このため、解析結果は、((入力する:(
A;値))) と((入力する:(0;値)))の2通
り得られる。この場合は、解析結果に含まれる二つの2
項関係は、いずれか一方の解析結果にのみ現われ、した
がって、どちらも曖昧であるから、共起関係辞書への登
録は行なわれない、翻訳処理は、最初の解析結果である
((入力する:(A;値)))を採用して進められ、誤
った出力文’the inputting value
、’を得る。
れ物)であり、「値」の意味コード0BJ(対象)とマ
ツチしない、このため、解析結果は、((入力する:(
A;値))) と((入力する:(0;値)))の2通
り得られる。この場合は、解析結果に含まれる二つの2
項関係は、いずれか一方の解析結果にのみ現われ、した
がって、どちらも曖昧であるから、共起関係辞書への登
録は行なわれない、翻訳処理は、最初の解析結果である
((入力する:(A;値)))を採用して進められ、誤
った出力文’the inputting value
、’を得る。
しかし、共起関係辞書が第5図Cのように整備されてい
れば、「入力する」と「値」の連接をキーとして持つレ
コードの内容から、解析結果は、((入力する:(0;
値)))に決定される。その結果、正しい出力文’th
e 1nputted value、’が得られる。
れば、「入力する」と「値」の連接をキーとして持つレ
コードの内容から、解析結果は、((入力する:(0;
値)))に決定される。その結果、正しい出力文’th
e 1nputted value、’が得られる。
上記の実施例によれば、翻訳処理の実行に伴って自動的
に共起関係辞書が補強され、そして、システムが空いて
いる時に、必要に応じて、処理選択パラメータを変更し
て例文を入力することにより、共起関係辞書補強作業を
行なうことができる。
に共起関係辞書が補強され、そして、システムが空いて
いる時に、必要に応じて、処理選択パラメータを変更し
て例文を入力することにより、共起関係辞書補強作業を
行なうことができる。
上記実施例の拡張として、共通の格フレームを持つ複数
の動詞に関する共起関係知識が共起関係辞書内にある程
度蓄積された時に、格要素の意味コードを用いてその格
フレームを自動更新することができる1例えば、第5図
Cの共起関係辞書には、「データ」と「値」の2語が動
詞「入力する」と深層路0で共起するという知識が蓄え
られている。また、第3図の語い辞書は、「データ」と
「値」の2語が、共に意味コードOBJを持つことを示
している。このとき、「入力する」と共通の格フレーム
コード[AAA]を持つ他の動詞に関しても、意味コー
ドOBJを持つ格要素と深層路0で共起するというデー
タが、共起関係辞書にある程度蓄積されていれば、第4
図のコード名[AAA]を持つ格フレームレコードの深
層路0に対する格要素の意味コード欄をOBJに書き換
える。これに伴って、共起関係辞書において、動詞が「
入力する」であり、名詞が意味コードOBJを持ち、か
つ深層路が0であるようなレコードを、すべて削除して
よい。この方法によれば、新しい共起関係知識の自動的
獲得に加えて、その知識を自動的に格フレーム情報とし
て一般化し、それにより、共起関係辞書が占めるメモリ
サイズを削減することができる。この処理を指定する第
3の処理選択パラメータを追加し、このパラメータを与
えることにより、格フレーム辞書の更新とそれに伴なう
共起関係辞書の整理を独立した作業として行なえるよう
に、変形してもよい。
の動詞に関する共起関係知識が共起関係辞書内にある程
度蓄積された時に、格要素の意味コードを用いてその格
フレームを自動更新することができる1例えば、第5図
Cの共起関係辞書には、「データ」と「値」の2語が動
詞「入力する」と深層路0で共起するという知識が蓄え
られている。また、第3図の語い辞書は、「データ」と
「値」の2語が、共に意味コードOBJを持つことを示
している。このとき、「入力する」と共通の格フレーム
コード[AAA]を持つ他の動詞に関しても、意味コー
ドOBJを持つ格要素と深層路0で共起するというデー
タが、共起関係辞書にある程度蓄積されていれば、第4
図のコード名[AAA]を持つ格フレームレコードの深
層路0に対する格要素の意味コード欄をOBJに書き換
える。これに伴って、共起関係辞書において、動詞が「
入力する」であり、名詞が意味コードOBJを持ち、か
つ深層路が0であるようなレコードを、すべて削除して
よい。この方法によれば、新しい共起関係知識の自動的
獲得に加えて、その知識を自動的に格フレーム情報とし
て一般化し、それにより、共起関係辞書が占めるメモリ
サイズを削減することができる。この処理を指定する第
3の処理選択パラメータを追加し、このパラメータを与
えることにより、格フレーム辞書の更新とそれに伴なう
共起関係辞書の整理を独立した作業として行なえるよう
に、変形してもよい。
本発明によれば、翻訳処理に伴い、あるいは独立した生
成保守処理として、自動的に、入力文の解析結果から正
しい共起関係のみを選別して、それを共起関係辞書に登
録し、更には、格フレーム情報として一般化することが
でき、その結果、翻訳の質を、最少の人的労力で、能率
良く改善することができる。
成保守処理として、自動的に、入力文の解析結果から正
しい共起関係のみを選別して、それを共起関係辞書に登
録し、更には、格フレーム情報として一般化することが
でき、その結果、翻訳の質を、最少の人的労力で、能率
良く改善することができる。
第1図は日英機械翻訳システムに適用された本発明の一
実施例のフローチャートであり、第2図は日英機械翻訳
システムのハードウェア構成を示すブロックダイヤグラ
ムであり、第3図は語い辞書レコードの内容の例を示す
図であり、第4図は格フレームレコードの内容の例を示
す図であり、第5図は共起関係辞書レコードの内容の例
を示す図である。 1・・・処理装置、2・・・入力装置、3・・・出力装
置、4・・・語い辞書記憶装置、5・・・格フレーム辞
書記憶装置、6・・・共起関係辞書記憶装置、13・・
・入力文の構文解析、14・・・2項関係の曖昧性検査
、15゜16・・・共起関係辞書の更新、18・・・英
文生成。
実施例のフローチャートであり、第2図は日英機械翻訳
システムのハードウェア構成を示すブロックダイヤグラ
ムであり、第3図は語い辞書レコードの内容の例を示す
図であり、第4図は格フレームレコードの内容の例を示
す図であり、第5図は共起関係辞書レコードの内容の例
を示す図である。 1・・・処理装置、2・・・入力装置、3・・・出力装
置、4・・・語い辞書記憶装置、5・・・格フレーム辞
書記憶装置、6・・・共起関係辞書記憶装置、13・・
・入力文の構文解析、14・・・2項関係の曖昧性検査
、15゜16・・・共起関係辞書の更新、18・・・英
文生成。
Claims (1)
- 【特許請求の範囲】 1、入出力装置と、辞書情報を蓄積するための記憶装置
と、前記辞書情報を用いて入力文を処理するための処理
装置とを備えた自然言語処理システムにおいて、入力文
の構文解析を行なうステップと、前記解析の結果に含ま
れるある語と他の語の2項関係の曖昧性を検査するステ
ップと、前記検査により曖昧でないと判定された2項関
係のみを所定の形式に変換して共起関係辞書に登録する
ステップとを有する、共起関係辞書生成保守方法。 2、請求項1において、前記曖昧性検査は、前記解析の
すべての可能な結果に共通に含まれる2項関係を曖昧で
ないものと判定する、共起関係辞書生成保守方法。 3、請求項1又は2において、更に、蓄積された前記共
起関係辞書の内容を用いて、述語になりうる語とその格
要素との間に成立しうる格関係の情報である格フレーム
辞書を更新するステップを有する、共起関係辞書生成保
守方法。 4、請求項1、2又は3において、更に、前記解析の結
果を用いて前記入力文の翻訳である出力文を生成するス
テップを有する、共起関係辞書生成保守方法。 5、請求項4において、更に、前記出力文生成ステップ
を実行するか否かを指定する選択情報を予め外部から受
取るステップを有し、前記出力文生成ステップは前記選
択情報により実行が指定されたときにのみ実行される、
共起関係辞書生成保守方法。
Priority Applications (2)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
JP63192751A JPH0242572A (ja) | 1988-08-03 | 1988-08-03 | 共起関係辞書生成保守方法 |
US07/387,598 US5181163A (en) | 1988-08-03 | 1989-07-31 | Method and apparatus for generating and/or updating cooccurrence relation dictionary |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
JP63192751A JPH0242572A (ja) | 1988-08-03 | 1988-08-03 | 共起関係辞書生成保守方法 |
Publications (1)
Publication Number | Publication Date |
---|---|
JPH0242572A true JPH0242572A (ja) | 1990-02-13 |
Family
ID=16296446
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
JP63192751A Pending JPH0242572A (ja) | 1988-08-03 | 1988-08-03 | 共起関係辞書生成保守方法 |
Country Status (2)
Country | Link |
---|---|
US (1) | US5181163A (ja) |
JP (1) | JPH0242572A (ja) |
Cited By (1)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
US5652898A (en) * | 1992-09-08 | 1997-07-29 | Hitachi, Ltd. | Dictionary memory for text processing using word frequency and word recency occurrence information |
Families Citing this family (69)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
JP3266246B2 (ja) * | 1990-06-15 | 2002-03-18 | インターナシヨナル・ビジネス・マシーンズ・コーポレーシヨン | 自然言語解析装置及び方法並びに自然言語解析用知識ベース構築方法 |
US5418716A (en) * | 1990-07-26 | 1995-05-23 | Nec Corporation | System for recognizing sentence patterns and a system for recognizing sentence patterns and grammatical cases |
JPH05151260A (ja) * | 1991-11-29 | 1993-06-18 | Hitachi Ltd | 翻訳テンプレート学習方法および翻訳テンプレート学習システム |
US5383120A (en) * | 1992-03-02 | 1995-01-17 | General Electric Company | Method for tagging collocations in text |
JP2939050B2 (ja) * | 1992-05-26 | 1999-08-25 | シャープ株式会社 | デ−タ通信装置 |
US5675815A (en) * | 1992-11-09 | 1997-10-07 | Ricoh Company, Ltd. | Language conversion system and text creating system using such |
US5579223A (en) * | 1992-12-24 | 1996-11-26 | Microsoft Corporation | Method and system for incorporating modifications made to a computer program into a translated version of the computer program |
JP2821840B2 (ja) * | 1993-04-28 | 1998-11-05 | 日本アイ・ビー・エム株式会社 | 機械翻訳装置 |
US5523945A (en) * | 1993-09-17 | 1996-06-04 | Nec Corporation | Related information presentation method in document processing system |
US5675819A (en) * | 1994-06-16 | 1997-10-07 | Xerox Corporation | Document information retrieval using global word co-occurrence patterns |
JP3960562B2 (ja) * | 1994-09-30 | 2007-08-15 | 株式会社東芝 | 機械翻訳の学習方法 |
JP2817776B2 (ja) * | 1995-05-25 | 1998-10-30 | 日本電気株式会社 | 単語変換装置 |
US5737617A (en) * | 1995-06-06 | 1998-04-07 | International Business Machines Corporation | Method and system for English text analysis |
US5899989A (en) * | 1996-05-14 | 1999-05-04 | Sharp Kabushiki Kaisha | On-demand interface device |
US5989835A (en) | 1997-02-27 | 1999-11-23 | Cellomics, Inc. | System for cell-based screening |
GB2314183A (en) * | 1996-06-14 | 1997-12-17 | Sharp Kk | Accessing a database |
US6182066B1 (en) * | 1997-11-26 | 2001-01-30 | International Business Machines Corp. | Category processing of query topics and electronic document content topics |
IL142765A0 (en) * | 1998-11-13 | 2002-03-10 | Cellomics Inc | Methods and system for efficient collection and storage of experimental data |
US6684221B1 (en) * | 1999-05-06 | 2004-01-27 | Oracle International Corporation | Uniform hierarchical information classification and mapping system |
CA2396495A1 (en) | 2000-01-25 | 2001-08-02 | Cellomics, Inc. | Method and system for automated inference creation of physico-chemical interaction knowledge from databases of co-occurrence data |
JP2002023783A (ja) * | 2000-07-13 | 2002-01-25 | Fujitsu Ltd | 対話処理システム |
US6813615B1 (en) | 2000-09-06 | 2004-11-02 | Cellomics, Inc. | Method and system for interpreting and validating experimental data with automated reasoning |
US6768982B1 (en) | 2000-09-06 | 2004-07-27 | Cellomics, Inc. | Method and system for creating and using knowledge patterns |
US7181508B1 (en) * | 2000-11-09 | 2007-02-20 | Oki Data Americas, Inc. | System and method for communicating, monitoring and configuring a device operatively connected to a network |
WO2002097663A1 (en) * | 2001-05-31 | 2002-12-05 | University Of Southern California | Integer programming decoder for machine translation |
AU2002316581A1 (en) | 2001-07-03 | 2003-01-21 | University Of Southern California | A syntax-based statistical translation model |
EP1306775A1 (en) * | 2001-10-29 | 2003-05-02 | BRITISH TELECOMMUNICATIONS public limited company | Machine translation |
WO2004001623A2 (en) * | 2002-03-26 | 2003-12-31 | University Of Southern California | Constructing a translation lexicon from comparable, non-parallel corpora |
EP1349079A1 (en) * | 2002-03-28 | 2003-10-01 | BRITISH TELECOMMUNICATIONS public limited company | Machine translation |
US20040186704A1 (en) * | 2002-12-11 | 2004-09-23 | Jiping Sun | Fuzzy based natural speech concept system |
US7711545B2 (en) * | 2003-07-02 | 2010-05-04 | Language Weaver, Inc. | Empirical methods for splitting compound words with application to machine translation |
US8548794B2 (en) * | 2003-07-02 | 2013-10-01 | University Of Southern California | Statistical noun phrase translation |
US7366666B2 (en) * | 2003-10-01 | 2008-04-29 | International Business Machines Corporation | Relative delta computations for determining the meaning of language inputs |
US7698125B2 (en) * | 2004-03-15 | 2010-04-13 | Language Weaver, Inc. | Training tree transducers for probabilistic operations |
US8296127B2 (en) * | 2004-03-23 | 2012-10-23 | University Of Southern California | Discovery of parallel text portions in comparable collections of corpora and training using comparable texts |
US8666725B2 (en) * | 2004-04-16 | 2014-03-04 | University Of Southern California | Selection and use of nonstatistical translation components in a statistical machine translation framework |
DE202005022113U1 (de) * | 2004-10-12 | 2014-02-05 | University Of Southern California | Training für eine Text-Text-Anwendung, die eine Zeichenketten-Baum-Umwandlung zum Training und Decodieren verwendet |
US8886517B2 (en) | 2005-06-17 | 2014-11-11 | Language Weaver, Inc. | Trust scoring for language translation systems |
US8676563B2 (en) | 2009-10-01 | 2014-03-18 | Language Weaver, Inc. | Providing human-generated and machine-generated trusted translations |
US7974833B2 (en) | 2005-06-21 | 2011-07-05 | Language Weaver, Inc. | Weighted system of expressing language information using a compact notation |
US7389222B1 (en) | 2005-08-02 | 2008-06-17 | Language Weaver, Inc. | Task parallelization in a text-to-text system |
US7813918B2 (en) * | 2005-08-03 | 2010-10-12 | Language Weaver, Inc. | Identifying documents which form translated pairs, within a document collection |
US7624020B2 (en) * | 2005-09-09 | 2009-11-24 | Language Weaver, Inc. | Adapter for allowing both online and offline training of a text to text system |
US10319252B2 (en) * | 2005-11-09 | 2019-06-11 | Sdl Inc. | Language capability assessment and training apparatus and techniques |
US8943080B2 (en) | 2006-04-07 | 2015-01-27 | University Of Southern California | Systems and methods for identifying parallel documents and sentence fragments in multilingual document collections |
US8886518B1 (en) | 2006-08-07 | 2014-11-11 | Language Weaver, Inc. | System and method for capitalizing machine translated text |
US8433556B2 (en) | 2006-11-02 | 2013-04-30 | University Of Southern California | Semi-supervised training for statistical word alignment |
US9122674B1 (en) | 2006-12-15 | 2015-09-01 | Language Weaver, Inc. | Use of annotations in statistical machine translation |
US8468149B1 (en) | 2007-01-26 | 2013-06-18 | Language Weaver, Inc. | Multi-lingual online community |
US8615389B1 (en) | 2007-03-16 | 2013-12-24 | Language Weaver, Inc. | Generation and exploitation of an approximate language model |
US8831928B2 (en) * | 2007-04-04 | 2014-09-09 | Language Weaver, Inc. | Customizable machine translation service |
US8825466B1 (en) | 2007-06-08 | 2014-09-02 | Language Weaver, Inc. | Modification of annotated bilingual segment pairs in syntax-based machine translation |
US8990064B2 (en) | 2009-07-28 | 2015-03-24 | Language Weaver, Inc. | Translating documents based on content |
JP5525529B2 (ja) * | 2009-08-04 | 2014-06-18 | 株式会社東芝 | 機械翻訳装置および翻訳プログラム |
US8380486B2 (en) | 2009-10-01 | 2013-02-19 | Language Weaver, Inc. | Providing machine-generated translations and corresponding trust levels |
US10417646B2 (en) | 2010-03-09 | 2019-09-17 | Sdl Inc. | Predicting the cost associated with translating textual content |
CN102262622A (zh) * | 2010-05-31 | 2011-11-30 | 国际商业机器公司 | 文档处理、模板生成及概念库生成方法和装置 |
US11003838B2 (en) | 2011-04-18 | 2021-05-11 | Sdl Inc. | Systems and methods for monitoring post translation editing |
US8694303B2 (en) | 2011-06-15 | 2014-04-08 | Language Weaver, Inc. | Systems and methods for tuning parameters in statistical machine translation |
US8886515B2 (en) | 2011-10-19 | 2014-11-11 | Language Weaver, Inc. | Systems and methods for enhancing machine translation post edit review processes |
US8942973B2 (en) | 2012-03-09 | 2015-01-27 | Language Weaver, Inc. | Content page URL translation |
US10261994B2 (en) | 2012-05-25 | 2019-04-16 | Sdl Inc. | Method and system for automatic management of reputation of translators |
US9372924B2 (en) | 2012-06-12 | 2016-06-21 | International Business Machines Corporation | Ontology driven dictionary generation and ambiguity resolution for natural language processing |
US9152622B2 (en) | 2012-11-26 | 2015-10-06 | Language Weaver, Inc. | Personalized machine translation via online adaptation |
US9213694B2 (en) | 2013-10-10 | 2015-12-15 | Language Weaver, Inc. | Efficient online domain adaptation |
EP3640834A1 (en) | 2018-10-17 | 2020-04-22 | Verint Americas Inc. | Automatic discovery of business-specific terminology |
US11036941B2 (en) * | 2019-03-25 | 2021-06-15 | International Business Machines Corporation | Generating a plurality of document plans to generate questions from source text |
US11379669B2 (en) * | 2019-07-29 | 2022-07-05 | International Business Machines Corporation | Identifying ambiguity in semantic resources |
US11531811B2 (en) * | 2020-07-23 | 2022-12-20 | Hitachi, Ltd. | Method and system for extracting keywords from text |
Family Cites Families (4)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
JPS57201958A (en) * | 1981-06-05 | 1982-12-10 | Hitachi Ltd | Device and method for interpretation between natural languages |
JPH0664585B2 (ja) * | 1984-12-25 | 1994-08-22 | 株式会社東芝 | 翻訳編集装置 |
JPH083815B2 (ja) * | 1985-10-25 | 1996-01-17 | 株式会社日立製作所 | 自然言語の共起関係辞書保守方法 |
US4805100A (en) * | 1986-07-14 | 1989-02-14 | Nippon Hoso Kyokai | Language processing method and apparatus |
-
1988
- 1988-08-03 JP JP63192751A patent/JPH0242572A/ja active Pending
-
1989
- 1989-07-31 US US07/387,598 patent/US5181163A/en not_active Expired - Fee Related
Cited By (1)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
US5652898A (en) * | 1992-09-08 | 1997-07-29 | Hitachi, Ltd. | Dictionary memory for text processing using word frequency and word recency occurrence information |
Also Published As
Publication number | Publication date |
---|---|
US5181163A (en) | 1993-01-19 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
JPH0242572A (ja) | 共起関係辞書生成保守方法 | |
Gaizauskas et al. | University of Sheffield: Description of the LaSIE system as used for MUC-6 | |
Bouma et al. | Alpino: Wide-coverage computational analysis of Dutch | |
US5890103A (en) | Method and apparatus for improved tokenization of natural language text | |
US20050171757A1 (en) | Machine translation | |
US20050137853A1 (en) | Machine translation | |
WO1997004405A9 (en) | Method and apparatus for automated search and retrieval processing | |
JPH0644296A (ja) | 機械翻訳装置 | |
US20030154068A1 (en) | Computer-assisted memory translation scheme based on template automaton and latent semantic index principle | |
Orliac et al. | Collocation extraction for machine translation | |
Gardent et al. | Maurice gross' grammar lexicon and natural language processing | |
Hollingsworth et al. | Retrieving hierarchical text structure from typeset scientific articles–a prerequisite for e-science text mining | |
US7440890B2 (en) | Systems and methods for normalization of linguisitic structures | |
JPS59140582A (ja) | 自然言語翻訳援助方式 | |
JP2005025555A (ja) | シソーラス構築システム、シソーラス構築方法、この方法を実行するプログラム、およびこのプログラムを記憶した記憶媒体 | |
JP4635585B2 (ja) | 質問応答システム、質問応答方法及び質問応答プログラム | |
Badia et al. | A modular architecture for the processing of free text | |
JP2812511B2 (ja) | キーワード抽出装置 | |
Schwarz | The TINA Project: text content analysis at the Corporate Research Laboratories at Siemens | |
JP2840258B2 (ja) | 機械翻訳システムの対訳辞書及び共起関係辞書の作成方法 | |
Cybulski et al. | The use of templates and restricted english in structuring and analysis of informal requirements specifications | |
JPH0320866A (ja) | テキストベース検索方式 | |
JPH0561902A (ja) | 機械翻訳システム | |
JPS61187077A (ja) | 日本語解析装置 | |
JPH05158969A (ja) | 言語処理システム |