JP2001357065A - 類似文検索方法及び装置並びに類似文検索プログラムを記録した記録媒体 - Google Patents
類似文検索方法及び装置並びに類似文検索プログラムを記録した記録媒体Info
- Publication number
- JP2001357065A JP2001357065A JP2000178367A JP2000178367A JP2001357065A JP 2001357065 A JP2001357065 A JP 2001357065A JP 2000178367 A JP2000178367 A JP 2000178367A JP 2000178367 A JP2000178367 A JP 2000178367A JP 2001357065 A JP2001357065 A JP 2001357065A
- Authority
- JP
- Japan
- Prior art keywords
- sentence
- similar
- sentences
- data
- information
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Pending
Links
- 238000000034 method Methods 0.000 title claims abstract description 48
- 238000012217 deletion Methods 0.000 claims abstract description 38
- 230000037430 deletion Effects 0.000 claims abstract description 38
- 238000012545 processing Methods 0.000 claims abstract description 32
- 238000005192 partition Methods 0.000 claims abstract 2
- 238000013519 translation Methods 0.000 claims description 37
- 230000001419 dependent effect Effects 0.000 claims description 29
- 238000000605 extraction Methods 0.000 claims description 4
- 239000000284 extract Substances 0.000 claims description 3
- 230000014616 translation Effects 0.000 description 34
- 238000010586 diagram Methods 0.000 description 26
- 238000007792 addition Methods 0.000 description 24
- 230000000877 morphologic effect Effects 0.000 description 17
- 238000007796 conventional method Methods 0.000 description 8
- 230000014509 gene expression Effects 0.000 description 5
- 238000006467 substitution reaction Methods 0.000 description 3
- 230000001174 ascending effect Effects 0.000 description 1
- 230000021615 conjugation Effects 0.000 description 1
- 230000015654 memory Effects 0.000 description 1
- 238000004904 shortening Methods 0.000 description 1
Landscapes
- Information Retrieval, Db Structures And Fs Structures Therefor (AREA)
Abstract
(57)【要約】
【課題】本発明の課題は、文法的または意味的に類似し
た文が検索できる類似文検索方法及び装置並びに類似文
検索プログラムを記録した記録媒体を提供することにあ
る。 【解決手段】本発明は、例文集の類似候補文について事
前に文法的もしくは意味的に置換、削除、追加が可能な
箇所と種類の情報を付与し、入力文にも同様に置換が可
能な箇所や類似候補文の追加箇所との一致が可能な箇所
と種類の情報を付与した上で、入力文と類似候補文との
類似度計算の際に、各文の差分箇所に対しての同種の置
換箇所の一致、不要箇所の削除や不足箇所の追加を考慮
した処理を行い、最も類似度の高い類似候補文を類似文
として類似度とともに抽出することを特徴とする。
た文が検索できる類似文検索方法及び装置並びに類似文
検索プログラムを記録した記録媒体を提供することにあ
る。 【解決手段】本発明は、例文集の類似候補文について事
前に文法的もしくは意味的に置換、削除、追加が可能な
箇所と種類の情報を付与し、入力文にも同様に置換が可
能な箇所や類似候補文の追加箇所との一致が可能な箇所
と種類の情報を付与した上で、入力文と類似候補文との
類似度計算の際に、各文の差分箇所に対しての同種の置
換箇所の一致、不要箇所の削除や不足箇所の追加を考慮
した処理を行い、最も類似度の高い類似候補文を類似文
として類似度とともに抽出することを特徴とする。
Description
【0001】
【発明の属する技術分野】本発明は、自然言語の入力文
に対し類似文を検索する類似文検索方法及び装置並びに
類似文検索プログラムを記録した記録媒体に関する。な
お、検索した類似文に対応する訳文が存在する場合、そ
の訳文を抽出する。また、その類似文と訳文を利用して
入力文の訳文を生成する実例型翻訳方法およびその装置
の一部に適用できる。
に対し類似文を検索する類似文検索方法及び装置並びに
類似文検索プログラムを記録した記録媒体に関する。な
お、検索した類似文に対応する訳文が存在する場合、そ
の訳文を抽出する。また、その類似文と訳文を利用して
入力文の訳文を生成する実例型翻訳方法およびその装置
の一部に適用できる。
【0002】
【従来の技術】従来の類似文検索方法として、従来方法
1「Emmanuel Planas,et al.,
“Formalizing Translation
Memories”,MTSummit VII,Se
ptember,1999」内に記載されている方法が
ある。この方法では形態素解析で区切った単位を利用
し、語の表記だけでなく標準形さらに品詞まで一致対象
を拡張して処理を行うもので、入力文中の表記で一致し
た語の割合、入力文中の標準形で一致した語の割合、入
力文中の品詞で一致した語の割合、候補文中で入力文中
の語と共通な語の割合、入力文中で候補文中の語と共通
な語の割合について、上記列挙した順に2文間の類似度
を比較して、類似文検索を行っている。
1「Emmanuel Planas,et al.,
“Formalizing Translation
Memories”,MTSummit VII,Se
ptember,1999」内に記載されている方法が
ある。この方法では形態素解析で区切った単位を利用
し、語の表記だけでなく標準形さらに品詞まで一致対象
を拡張して処理を行うもので、入力文中の表記で一致し
た語の割合、入力文中の標準形で一致した語の割合、入
力文中の品詞で一致した語の割合、候補文中で入力文中
の語と共通な語の割合、入力文中で候補文中の語と共通
な語の割合について、上記列挙した順に2文間の類似度
を比較して、類似文検索を行っている。
【0003】また、別の類似文検索方法として、従来方
法2「特開平6−290210号の自然言語の翻訳装
置」内に記載されている方法がある。この方法では入力
文および検索対象の文から構文的な表層パターンを生成
してそれらを比較し、パターンの類似度によって類似文
検索を行っている。
法2「特開平6−290210号の自然言語の翻訳装
置」内に記載されている方法がある。この方法では入力
文および検索対象の文から構文的な表層パターンを生成
してそれらを比較し、パターンの類似度によって類似文
検索を行っている。
【0004】また、別の類似文検索方法として、従来方
法3「隅田英一郎,堤豊,“翻訳支援のための類似用例
の実用的検索法”,電子情報通信学会論文誌D−II,
Vol.J74−D−II,No.10,1991」に
記載されている方法がある。この方法では形態素解析し
た後、入力文に完全一致する文を検索する。一致しない
場合には入力文の品詞を一般化して、入力文と完全一致
する文を検索する。
法3「隅田英一郎,堤豊,“翻訳支援のための類似用例
の実用的検索法”,電子情報通信学会論文誌D−II,
Vol.J74−D−II,No.10,1991」に
記載されている方法がある。この方法では形態素解析し
た後、入力文に完全一致する文を検索する。一致しない
場合には入力文の品詞を一般化して、入力文と完全一致
する文を検索する。
【0005】
【発明が解決しようとする課題】しかしながら、従来方
法1は、一致対象が形態素解析で区切った形態素単位で
あるため、ある文の複数の形態素からなる表現と別の文
の表現を一致させて類似度計算を行うことができない。
法1は、一致対象が形態素解析で区切った形態素単位で
あるため、ある文の複数の形態素からなる表現と別の文
の表現を一致させて類似度計算を行うことができない。
【0006】従来方法2では、パターンに必ず動詞が現
れている必要があり、動詞が省略された文は扱えない。
れている必要があり、動詞が省略された文は扱えない。
【0007】従来方法3では、一般化するのが入力文の
みで、検索対象の文に関しては一般化が行われないの
で、検索の適用範囲は狭い。
みで、検索対象の文に関しては一般化が行われないの
で、検索の適用範囲は狭い。
【0008】従来方法1、3では、入力文と対訳用例の
同じ自然言語の文で類似文検索を行い、類似文の訳文を
編集して翻訳を行う実例型翻訳の一部として利用する場
合に、入力文と比べて不足している語句を類似文に追加
し、その訳文にも対応する語句を追加して適切な訳文を
生成する場合を考慮した類似文検索を行っていない。
同じ自然言語の文で類似文検索を行い、類似文の訳文を
編集して翻訳を行う実例型翻訳の一部として利用する場
合に、入力文と比べて不足している語句を類似文に追加
し、その訳文にも対応する語句を追加して適切な訳文を
生成する場合を考慮した類似文検索を行っていない。
【0009】また、従来方法1〜3では、文法的に類似
した文の検索であり、意味的な類似文の検索は考慮され
ていない。
した文の検索であり、意味的な類似文の検索は考慮され
ていない。
【0010】本発明は上記の事情に鑑みてなされたもの
で、表記だけでは類似度が高くない場合でも、文法的ま
たは意味的に類似した文が検索でき、また、入力文に似
ていない文をあらかじめ削除することで、類似度計算の
時間を短縮できる類似文検索方法及び装置並びに類似文
検索プログラムを記録した記録媒体を提供することを目
的とする。
で、表記だけでは類似度が高くない場合でも、文法的ま
たは意味的に類似した文が検索でき、また、入力文に似
ていない文をあらかじめ削除することで、類似度計算の
時間を短縮できる類似文検索方法及び装置並びに類似文
検索プログラムを記録した記録媒体を提供することを目
的とする。
【0011】
【課題を解決するための手段】上記目的を達成するため
に本発明は、例文集から入力文の類似文を検索する類似
文検索方法において、例文集の類似候補文について事前
に文法的もしくは意味的に置換、削除、追加が可能な箇
所に各情報を付与し、入力文にも同様に置換が可能な箇
所や類似候補文の追加可能箇所との一致が可能な箇所に
各情報を付与した上で、入力文と類似候補文との類似度
計算の際に、各文の差分箇所に対しての同種の置換箇所
の一致、不要箇所の削除や不足箇所の追加を考慮した処
理を行い、最も類似度の高い類似候補文を類似文として
類似度とともに抽出することを特徴とする。
に本発明は、例文集から入力文の類似文を検索する類似
文検索方法において、例文集の類似候補文について事前
に文法的もしくは意味的に置換、削除、追加が可能な箇
所に各情報を付与し、入力文にも同様に置換が可能な箇
所や類似候補文の追加可能箇所との一致が可能な箇所に
各情報を付与した上で、入力文と類似候補文との類似度
計算の際に、各文の差分箇所に対しての同種の置換箇所
の一致、不要箇所の削除や不足箇所の追加を考慮した処
理を行い、最も類似度の高い類似候補文を類似文として
類似度とともに抽出することを特徴とする。
【0012】また本発明は、前記類似文検索方法におい
て、類似度の最も高い類似候補文に加え、類似度が高い
方から所定の数の類似候補文を類似文として出力するこ
とを特徴とする。
て、類似度の最も高い類似候補文に加え、類似度が高い
方から所定の数の類似候補文を類似文として出力するこ
とを特徴とする。
【0013】また本発明は、前記類似文検索方法におい
て、置換、削除、追加の情報を付与するための基となる
データとして、汎用的に利用できるものと、文書の分野
に依存するものに分けて各データを作成し、文書分野に
依存するデータの自動作成において、既存の汎用的もし
くは分野依存のデータを用いて情報を例文に付与し、置
換可能かつ削除可能な箇所を削った例文集から類似して
いる文を集め、文中の置換情報が付与されていない箇所
で、その前後の箇所の表記や置換の種類が一致してお
り、該当箇所の情報が同じで表記の異なるものの集合を
新たな置換対象のデータとして作成し、同時に、新たな
置換対象のデータと前後の表記などを考慮して、新たな
削除対象のデータとして作成することを特徴とする。
て、置換、削除、追加の情報を付与するための基となる
データとして、汎用的に利用できるものと、文書の分野
に依存するものに分けて各データを作成し、文書分野に
依存するデータの自動作成において、既存の汎用的もし
くは分野依存のデータを用いて情報を例文に付与し、置
換可能かつ削除可能な箇所を削った例文集から類似して
いる文を集め、文中の置換情報が付与されていない箇所
で、その前後の箇所の表記や置換の種類が一致してお
り、該当箇所の情報が同じで表記の異なるものの集合を
新たな置換対象のデータとして作成し、同時に、新たな
置換対象のデータと前後の表記などを考慮して、新たな
削除対象のデータとして作成することを特徴とする。
【0014】また本発明は、前記類似文検索方法におい
て、類似候補文について、例文集の文が大量にある場合
に、入力文の語句と同じ語句の数が所定の閾値以上であ
る類似候補文を新たな類似候補文とすることを特徴とす
る。
て、類似候補文について、例文集の文が大量にある場合
に、入力文の語句と同じ語句の数が所定の閾値以上であ
る類似候補文を新たな類似候補文とすることを特徴とす
る。
【0015】また本発明は、前記類似文検索方法におい
て、例文集の各文と訳文の組である対訳用例を用いて、
入力文の類似文とその対訳を抽出することを特徴とす
る。
て、例文集の各文と訳文の組である対訳用例を用いて、
入力文の類似文とその対訳を抽出することを特徴とす
る。
【0016】また本発明の類似文検索装置は、用例文を
複数保存した用例部と、入力文を読み込む入力手段と、
前記用例部の用例文から得られる類似候補文を語句単位
に解析し、文法的もしくは意味的に置換、削除、追加が
可能な箇所に各情報を付与する用例解析・情報付与手段
と、前記入力手段によって読み込まれた入力文を語句単
位に解析し、文法的もしくは意味的に置換が可能な箇所
や類似候補文の追加可能箇所との一致が可能な箇所に各
情報を付与する解析・情報付与手段と、解析された類似
候補文について、入力文と類似候補文との類似度計算の
際に、各文の差分箇所に対して同種の置換箇所の一致、
不要箇所の削除や不足箇所の追加を考慮した上で類似度
を計算し、最も類似度が高い類似候補文を類似文として
抽出する検索手段、前記検索手段により抽出された類似
文を類似度とともに出力する出力手段とを有することを
特徴とするものである。
複数保存した用例部と、入力文を読み込む入力手段と、
前記用例部の用例文から得られる類似候補文を語句単位
に解析し、文法的もしくは意味的に置換、削除、追加が
可能な箇所に各情報を付与する用例解析・情報付与手段
と、前記入力手段によって読み込まれた入力文を語句単
位に解析し、文法的もしくは意味的に置換が可能な箇所
や類似候補文の追加可能箇所との一致が可能な箇所に各
情報を付与する解析・情報付与手段と、解析された類似
候補文について、入力文と類似候補文との類似度計算の
際に、各文の差分箇所に対して同種の置換箇所の一致、
不要箇所の削除や不足箇所の追加を考慮した上で類似度
を計算し、最も類似度が高い類似候補文を類似文として
抽出する検索手段、前記検索手段により抽出された類似
文を類似度とともに出力する出力手段とを有することを
特徴とするものである。
【0017】また本発明は、前記類似文検索装置におい
て、検索手段が、類似度の最も高い類似候補文に加え、
類似度が高い方から所定の数の類似候補文を類似文とし
て抽出することを特徴とするものである。
て、検索手段が、類似度の最も高い類似候補文に加え、
類似度が高い方から所定の数の類似候補文を類似文とし
て抽出することを特徴とするものである。
【0018】また本発明は、前記類似文検索装置におい
て、置換、削除、追加の情報の付与において、基となる
データとして、汎用的に利用できるものと、文書の分野
に依存するものに分けて各データを記述しておき、文書
の分野に依存するデータの自動作成において、既存の汎
用的もしくは分野依存のデータを用いて置換可能かつ削
除可能な箇所を削った例文集の文から類似している文を
集め、文中の置換情報が付与されていない箇所で、その
前後の箇所の表記や置換の種類が一致しており、該当箇
所の情報が同じで表記の異なるものの集合を新たな置換
対象のデータとして作成し、同時に、新たな置換対象の
データと前後の表記などを考慮して、新たな削除対象の
データとして作成するデータ作成手段を有することを特
徴とするものである。
て、置換、削除、追加の情報の付与において、基となる
データとして、汎用的に利用できるものと、文書の分野
に依存するものに分けて各データを記述しておき、文書
の分野に依存するデータの自動作成において、既存の汎
用的もしくは分野依存のデータを用いて置換可能かつ削
除可能な箇所を削った例文集の文から類似している文を
集め、文中の置換情報が付与されていない箇所で、その
前後の箇所の表記や置換の種類が一致しており、該当箇
所の情報が同じで表記の異なるものの集合を新たな置換
対象のデータとして作成し、同時に、新たな置換対象の
データと前後の表記などを考慮して、新たな削除対象の
データとして作成するデータ作成手段を有することを特
徴とするものである。
【0019】また本発明は、前記類似文検索装置におい
て、検索手段において、事前に入力文の語句と同じ語句
の数が所定の閾値以上の文を類似候補文として検索対象
とすることを特徴とするものである。
て、検索手段において、事前に入力文の語句と同じ語句
の数が所定の閾値以上の文を類似候補文として検索対象
とすることを特徴とするものである。
【0020】また本発明は、前記類似文検索装置におい
て、用例文に対して訳文が対応づけられた対訳用例を用
いた場合に、前記検索手段により抽出された類似文とそ
の訳文を出力する出力手段とを有することを特徴とする
ものである。
て、用例文に対して訳文が対応づけられた対訳用例を用
いた場合に、前記検索手段により抽出された類似文とそ
の訳文を出力する出力手段とを有することを特徴とする
ものである。
【0021】また本発明は、例文集から入力文の類似文
を検索する類似文検索プログラムを記録した記録媒体に
おいて、例文集の類似候補文について事前に文法的もし
くは意味的に置換、削除、追加が可能な箇所に各情報を
付与し、入力文にも同様に置換が可能な箇所や類似候補
文の追加可能箇所との一致が可能な箇所に各情報を付与
した上で、入力文と類似候補文との類似度計算の際に、
各文の差分箇所に対しての同種の置換箇所の一致、不要
箇所の削除や不足箇所の追加を考慮した処理を行い、最
も類似度の高い類似候補文を類似文として類似度ととも
に抽出する処理をコンピュータに実行させるためのもの
である。
を検索する類似文検索プログラムを記録した記録媒体に
おいて、例文集の類似候補文について事前に文法的もし
くは意味的に置換、削除、追加が可能な箇所に各情報を
付与し、入力文にも同様に置換が可能な箇所や類似候補
文の追加可能箇所との一致が可能な箇所に各情報を付与
した上で、入力文と類似候補文との類似度計算の際に、
各文の差分箇所に対しての同種の置換箇所の一致、不要
箇所の削除や不足箇所の追加を考慮した処理を行い、最
も類似度の高い類似候補文を類似文として類似度ととも
に抽出する処理をコンピュータに実行させるためのもの
である。
【0022】また本発明は、前記類似文検索プログラム
を記録した記録媒体において、類似度の最も高い類似候
補文に加え、類似度が高い方から所定の数の類似候補文
を類似文として出力する処理をコンピュータに実行させ
るためのものである。
を記録した記録媒体において、類似度の最も高い類似候
補文に加え、類似度が高い方から所定の数の類似候補文
を類似文として出力する処理をコンピュータに実行させ
るためのものである。
【0023】また本発明は、前記類似文検索プログラム
を記録した記録媒体において、置換、削除、追加の情報
を付与するための基となるデータとして、汎用的に利用
できるものと、文書の分野に依存するものに分けて各デ
ータを作成し、文書分野に依存するデータの自動作成に
おいて、既存の汎用的もしくは分野依存のデータを用い
て情報を例文に付与し、置換可能かつ削除可能な箇所を
削った例文集から類似している文を集め、文中の置換情
報が付与されていない箇所で、その前後の箇所の表記や
置換の種類が一致しており、該当箇所の情報が同じで表
記の異なるものの集合を新たな置換対象のデータとして
作成し、同時に、新たな置換対象のデータと前後の表記
などを考慮して、新たな削除対象のデータとして作成す
る処理をコンピュータに実行させるためのものである。
を記録した記録媒体において、置換、削除、追加の情報
を付与するための基となるデータとして、汎用的に利用
できるものと、文書の分野に依存するものに分けて各デ
ータを作成し、文書分野に依存するデータの自動作成に
おいて、既存の汎用的もしくは分野依存のデータを用い
て情報を例文に付与し、置換可能かつ削除可能な箇所を
削った例文集から類似している文を集め、文中の置換情
報が付与されていない箇所で、その前後の箇所の表記や
置換の種類が一致しており、該当箇所の情報が同じで表
記の異なるものの集合を新たな置換対象のデータとして
作成し、同時に、新たな置換対象のデータと前後の表記
などを考慮して、新たな削除対象のデータとして作成す
る処理をコンピュータに実行させるためのものである。
【0024】また本発明は、前記類似文検索プログラム
を記録した記録媒体において、類似候補文について、例
文集の文が大量にある場合に、入力文の語句と同じ語句
の数が所定の閾値以上である類似候補文を新たな類似候
補文とする処理をコンピュータに実行させるためのもの
である。
を記録した記録媒体において、類似候補文について、例
文集の文が大量にある場合に、入力文の語句と同じ語句
の数が所定の閾値以上である類似候補文を新たな類似候
補文とする処理をコンピュータに実行させるためのもの
である。
【0025】また本発明は、前記類似文検索プログラム
を記録した記録媒体において、例文集の各文と訳文の組
である対訳用例を用いて、入力文の類似文とその対訳を
抽出する処理をコンピュータに実行させるためのもので
ある。
を記録した記録媒体において、例文集の各文と訳文の組
である対訳用例を用いて、入力文の類似文とその対訳を
抽出する処理をコンピュータに実行させるためのもので
ある。
【0026】本発明は対訳例文集にある類似候補文から
入力文の類似文を検索する方法において、文法的もしく
は意味的に置換可能箇所、類似候補文の追加可能箇所と
の一致が可能な箇所の情報を付与された入力文と事前に
文法的もしくは意味的に置換、削除、追加可能箇所の情
報を付与された類似候補文を用いて、入力文と類似候補
文で表現が異なる箇所について、置換(入力文と類似候
補文)および削除、追加(類似候補文)を行って類似度
を計算し、最も類似度が高い類似候補文を類似文として
類似度とともに抽出すると同時に類似文の訳文を抽出す
るようにした。
入力文の類似文を検索する方法において、文法的もしく
は意味的に置換可能箇所、類似候補文の追加可能箇所と
の一致が可能な箇所の情報を付与された入力文と事前に
文法的もしくは意味的に置換、削除、追加可能箇所の情
報を付与された類似候補文を用いて、入力文と類似候補
文で表現が異なる箇所について、置換(入力文と類似候
補文)および削除、追加(類似候補文)を行って類似度
を計算し、最も類似度が高い類似候補文を類似文として
類似度とともに抽出すると同時に類似文の訳文を抽出す
るようにした。
【0027】また、装置構成として対訳用例に関するデ
ータを保存した用例部と、入力文を読み込む入力手段
と、前記用例部による類似候補文を語句単位に解析し、
文法的もしくは意味的に置換、削除、追加が可能な箇所
と種類の情報を付与する用例解析・情報付与手段と、前
記入力手段による入力文を語句単位に解析し、文法的も
しくは意味的に置換が可能な箇所や類似候補文の追加可
能箇所との一致が可能な箇所に各情報を付与する解析・
情報付与手段と、解析された類似候補文と解析された入
力文とで語句が異なる箇所について、入力文と類似候補
文の語句を置換したり、類似候補文の語句を削除した
り、類似候補文に語句を追加して、入力文との類似度を
計算し、最も類似度が高い類似候補文を類似文として抽
出すると同時に対訳も抽出する検索手段、検索結果を出
力する出力手段とを有するようにした。
ータを保存した用例部と、入力文を読み込む入力手段
と、前記用例部による類似候補文を語句単位に解析し、
文法的もしくは意味的に置換、削除、追加が可能な箇所
と種類の情報を付与する用例解析・情報付与手段と、前
記入力手段による入力文を語句単位に解析し、文法的も
しくは意味的に置換が可能な箇所や類似候補文の追加可
能箇所との一致が可能な箇所に各情報を付与する解析・
情報付与手段と、解析された類似候補文と解析された入
力文とで語句が異なる箇所について、入力文と類似候補
文の語句を置換したり、類似候補文の語句を削除した
り、類似候補文に語句を追加して、入力文との類似度を
計算し、最も類似度が高い類似候補文を類似文として抽
出すると同時に対訳も抽出する検索手段、検索結果を出
力する出力手段とを有するようにした。
【0028】また、用例部において、用例文をあらかじ
め解析し、かつ解析された語句に対して、置換、削除、
追加が可能な箇所に各情報を自動または手動により設定
するデータ作成手段を有するようにした。
め解析し、かつ解析された語句に対して、置換、削除、
追加が可能な箇所に各情報を自動または手動により設定
するデータ作成手段を有するようにした。
【0029】
【発明の実施の形態】以下図面を参照して本発明の実施
形態例を詳細に説明する。
形態例を詳細に説明する。
【0030】図1は、本発明の一実施形態例に係る類似
文検索装置の処理手順ならびに装置構成を示したもの
で、1は第1自然言語文を入力する入力部、2は解析・
情報付与部で、入力部1で読み込まれた文を図2(b)
に示すように形態素解析等によって、文を語句に分解し
後述する置換可能箇所や類似候補文の追加可能箇所との
一致可能箇所を付与する。3は、解析された入力文と後
述する解析された用例文とを比較して類似文を検索する
検索部、4は、検索部3で抽出された類似文、類似度、
類似文の訳文を出力する出力部である。5は、後述する
対訳用例集などを含む用例部である。
文検索装置の処理手順ならびに装置構成を示したもの
で、1は第1自然言語文を入力する入力部、2は解析・
情報付与部で、入力部1で読み込まれた文を図2(b)
に示すように形態素解析等によって、文を語句に分解し
後述する置換可能箇所や類似候補文の追加可能箇所との
一致可能箇所を付与する。3は、解析された入力文と後
述する解析された用例文とを比較して類似文を検索する
検索部、4は、検索部3で抽出された類似文、類似度、
類似文の訳文を出力する出力部である。5は、後述する
対訳用例集などを含む用例部である。
【0031】検索部3は、図13に示すように解析・情
報付与部2で解析・情報付与し、入力文の類似文を解析
済み対訳用例集60から検索する。まず、類似候補文抽
出部301では入力文に含まれる語句が閾値以上の数だ
け含まれている用例文を類似候補文として絞り込む。次
に類似候補文・入力文加工部302では、解析して情報
が付与された入力文と類似候補文を用いて、入力文と類
似候補文との差分箇所を同じ種類の記号に置換したり、
類似候補文だけにある不要箇所を削除したり、類似候補
文に不足している箇所の語句を追加して、お互いの文が
文法的もしくは意味的に類似するように加工を施す。次
に類似度計算部303で加工された入力文と類似候補文
を類似度計算し、最も類似度が高い文を類似度とともに
抽出する。
報付与部2で解析・情報付与し、入力文の類似文を解析
済み対訳用例集60から検索する。まず、類似候補文抽
出部301では入力文に含まれる語句が閾値以上の数だ
け含まれている用例文を類似候補文として絞り込む。次
に類似候補文・入力文加工部302では、解析して情報
が付与された入力文と類似候補文を用いて、入力文と類
似候補文との差分箇所を同じ種類の記号に置換したり、
類似候補文だけにある不要箇所を削除したり、類似候補
文に不足している箇所の語句を追加して、お互いの文が
文法的もしくは意味的に類似するように加工を施す。次
に類似度計算部303で加工された入力文と類似候補文
を類似度計算し、最も類似度が高い文を類似度とともに
抽出する。
【0032】10〜60は、用例部5に含まれ類似文検
索のためにあらかじめデータベースとして準備されてい
る対訳用例集およびその用例解析・情報付与部等で、4
0は図3に例示するように文番号の日本語文(第1自然
言語)とそれに対応する英語文(第2自然言語)とが対
になった対訳用例が複数データとして記憶されている対
訳用例集で、図3では、サッカーについての日本語と英
語の対訳の場合について示したもので、このような対訳
用例が必要に応じて分野毎、翻訳する言語間毎に用意さ
れている。
索のためにあらかじめデータベースとして準備されてい
る対訳用例集およびその用例解析・情報付与部等で、4
0は図3に例示するように文番号の日本語文(第1自然
言語)とそれに対応する英語文(第2自然言語)とが対
になった対訳用例が複数データとして記憶されている対
訳用例集で、図3では、サッカーについての日本語と英
語の対訳の場合について示したもので、このような対訳
用例が必要に応じて分野毎、翻訳する言語間毎に用意さ
れている。
【0033】10は、分野毎の用例に依存しない共通的
に使用される用例非依存の語句データ(データベース)
であり、用例非依存の語句データの例を図4に示す。図
4では、語句をそのまま列挙した辞書、複数の品詞や表
記を列挙した対訳パターン、ある条件により後述の対象
を決定するルールに分けられ、かつそれぞれ、入力文に
おける置換対象、追加一致対象、類似候補文における置
換対象、削除対象、追加対象をあらかじめ定めてある。
この各対象の指定は、あらかじめ手動または自動で行わ
れる。入力文における追加一致対象は類似候補文の追加
対象との一致を調べる対象であり、類似候補文における
削除対象と共通である。
に使用される用例非依存の語句データ(データベース)
であり、用例非依存の語句データの例を図4に示す。図
4では、語句をそのまま列挙した辞書、複数の品詞や表
記を列挙した対訳パターン、ある条件により後述の対象
を決定するルールに分けられ、かつそれぞれ、入力文に
おける置換対象、追加一致対象、類似候補文における置
換対象、削除対象、追加対象をあらかじめ定めてある。
この各対象の指定は、あらかじめ手動または自動で行わ
れる。入力文における追加一致対象は類似候補文の追加
対象との一致を調べる対象であり、類似候補文における
削除対象と共通である。
【0034】入力文、類似候補文における置換対象は、
解析・情報付与部2、用例解析・情報付与部50で形態
素解析した結果をもとに、接続詞や副詞や数詞や連体詞
などのパターンを置換対象とする。また、ルールによっ
て形容詞、形容動詞は各々の活用や型ごとに分けて指定
する。
解析・情報付与部2、用例解析・情報付与部50で形態
素解析した結果をもとに、接続詞や副詞や数詞や連体詞
などのパターンを置換対象とする。また、ルールによっ
て形容詞、形容動詞は各々の活用や型ごとに分けて指定
する。
【0035】入力文における追加一致対象、類似候補文
における削除対象は、修飾する語や独立している語を主
に対象とする。解析・情報付与部2、用例解析・情報付
与部50で形態素解析した結果をもとに、接続詞や副詞
や連体詞、形容詞の連体形および形容動詞の連体
形、“、”、名詞+“に”などを削除対象として指定す
る。
における削除対象は、修飾する語や独立している語を主
に対象とする。解析・情報付与部2、用例解析・情報付
与部50で形態素解析した結果をもとに、接続詞や副詞
や連体詞、形容詞の連体形および形容動詞の連体
形、“、”、名詞+“に”などを削除対象として指定す
る。
【0036】類似候補文における追加対象は、その種類
と語句の追加位置を指定する。図4のルールでは、ある
用例文1から削除可能箇所を挟んで前n個の語、後m個
の語を含むパターンを抽出し、そのうち削除可能箇所が
抜けているパターンを含むある用例文2を探し、前n
個、後m個の語に対応するものがそれぞれ品詞、型、活
用形で一致し、ある用例文1と同じ削除可能箇所の要素
がある用例文2に含まれていない場合に、その用例文2
の前n個と後m個の語間に追加可能箇所の情報を付与す
る。
と語句の追加位置を指定する。図4のルールでは、ある
用例文1から削除可能箇所を挟んで前n個の語、後m個
の語を含むパターンを抽出し、そのうち削除可能箇所が
抜けているパターンを含むある用例文2を探し、前n
個、後m個の語に対応するものがそれぞれ品詞、型、活
用形で一致し、ある用例文1と同じ削除可能箇所の要素
がある用例文2に含まれていない場合に、その用例文2
の前n個と後m個の語間に追加可能箇所の情報を付与す
る。
【0037】他の置換、削除、追加対象には、人手もし
くは既にある一般の辞書を利用して、必要最小限の辞
書、パターン、ルールを指定する。その例は図4のパタ
ーンの欄にある「[時間]」や「[時間]“に”」が該
当する。
くは既にある一般の辞書を利用して、必要最小限の辞
書、パターン、ルールを指定する。その例は図4のパタ
ーンの欄にある「[時間]」や「[時間]“に”」が該
当する。
【0038】20は用例依存の語句データ(データベー
ス)で、分野毎に用意されている。これは、分野非依存
な置換、削除、追加一致、追加対象とならない特有の表
現に関して補うことができる。用例依存の語句データ2
0の例を図5(b)に示す。図5(b)も図4と同様の
構成になっている。
ス)で、分野毎に用意されている。これは、分野非依存
な置換、削除、追加一致、追加対象とならない特有の表
現に関して補うことができる。用例依存の語句データ2
0の例を図5(b)に示す。図5(b)も図4と同様の
構成になっている。
【0039】30は用例依存データを自動的に作成する
データ作成部であり、例えば、置換対象などを得ること
ができる。置換対象を自動で得るためには、まず、対訳
用例集(データベース)40を用例非依存、用例依存の
語句対応データ(図5(a))を順に用いて、用例解析
・情報付与部50で用例文に情報を付与する。次に、そ
れらの情報を元に置換可能箇所と削除可能箇所が全く同
じ範囲に現れるものや、削除可能箇所に含まれていて全
ての名詞や形容詞といった自立語が置換可能箇所となっ
ている削除可能箇所を削り、得られた用例間で後述の入
力文と類似候補文との類似度計算(置換のみを考慮)を
利用し、類似度が閾値T以上の文を抽出し、各用例で置
換対象となっていないL語が同じ品詞列であり、その前
後K個が同じ要素である場合に、各用例のL語の語句を
新たな置換対象と定める。図6にその例を示す。その結
果追加されたものが図5(b)の「[置換1]」であ
る。この場合、「PK」も「フリーキック」も名詞であ
るので文法的に一致しているが、分野依存の用例文から
似ている文を選び、前後の要素の一致で制限しているこ
とから、より意味的に類似しているものが得られてい
る。また、得られた置換対象が名詞の場合は、「[置換
1]“で”」を削除対象とする。閾値Tを最初は高めに
設定し、所定の下限まで順次閾値を下げて置換対象を抽
出する。
データ作成部であり、例えば、置換対象などを得ること
ができる。置換対象を自動で得るためには、まず、対訳
用例集(データベース)40を用例非依存、用例依存の
語句対応データ(図5(a))を順に用いて、用例解析
・情報付与部50で用例文に情報を付与する。次に、そ
れらの情報を元に置換可能箇所と削除可能箇所が全く同
じ範囲に現れるものや、削除可能箇所に含まれていて全
ての名詞や形容詞といった自立語が置換可能箇所となっ
ている削除可能箇所を削り、得られた用例間で後述の入
力文と類似候補文との類似度計算(置換のみを考慮)を
利用し、類似度が閾値T以上の文を抽出し、各用例で置
換対象となっていないL語が同じ品詞列であり、その前
後K個が同じ要素である場合に、各用例のL語の語句を
新たな置換対象と定める。図6にその例を示す。その結
果追加されたものが図5(b)の「[置換1]」であ
る。この場合、「PK」も「フリーキック」も名詞であ
るので文法的に一致しているが、分野依存の用例文から
似ている文を選び、前後の要素の一致で制限しているこ
とから、より意味的に類似しているものが得られてい
る。また、得られた置換対象が名詞の場合は、「[置換
1]“で”」を削除対象とする。閾値Tを最初は高めに
設定し、所定の下限まで順次閾値を下げて置換対象を抽
出する。
【0040】50は、用例非依存の語句データ10、用
例依存の語句データ20、対訳用例集40から類似文と
して抽出された候補文を図2(a)に示すように形態素
解析等により解析する用例解析・情報付与部で、処理す
る入力文の解析・情報付与部2(図2(b))と同様に
置換、削除、追加可能箇所を調べ、情報を付与する。
例依存の語句データ20、対訳用例集40から類似文と
して抽出された候補文を図2(a)に示すように形態素
解析等により解析する用例解析・情報付与部で、処理す
る入力文の解析・情報付与部2(図2(b))と同様に
置換、削除、追加可能箇所を調べ、情報を付与する。
【0041】60は、解析済み対訳用例集(データベー
ス)で、用例解析・情報付与部50の出力を保持し、情
報付与された入力文と検索部3において比較するための
部分であり、その例を図8および図9に示す。
ス)で、用例解析・情報付与部50の出力を保持し、情
報付与された入力文と検索部3において比較するための
部分であり、その例を図8および図9に示す。
【0042】図8は、図3に示した対訳用例集の日本語
用例を、それぞれの文について解析し(図7)、図4に
示した用例非依存の語句データおよび図5(b)に示し
た用例依存の語句データにしたがい置換、削除、追加可
能箇所を示したものである。解析結果からの情報付与
は、用例非依存、用例依存の順に、置換対象、削除対
象、追加対象の順で行う。用例非依存と用例依存の語句
データは同じ種類であれば、非依存、依存に関係なく同
じ集合として扱う(例、[時間])。図7における品詞
および図8における置換、削除、追加の欄は、図9にあ
るように略称で示してある。ただし、図8の削除の欄は
削除語句の範囲を示したものである。また解析済み対訳
用例集60には、図2(a)の処理により文中の単語と
文番号の対応表(図10)も格納されている。
用例を、それぞれの文について解析し(図7)、図4に
示した用例非依存の語句データおよび図5(b)に示し
た用例依存の語句データにしたがい置換、削除、追加可
能箇所を示したものである。解析結果からの情報付与
は、用例非依存、用例依存の順に、置換対象、削除対
象、追加対象の順で行う。用例非依存と用例依存の語句
データは同じ種類であれば、非依存、依存に関係なく同
じ集合として扱う(例、[時間])。図7における品詞
および図8における置換、削除、追加の欄は、図9にあ
るように略称で示してある。ただし、図8の削除の欄は
削除語句の範囲を示したものである。また解析済み対訳
用例集60には、図2(a)の処理により文中の単語と
文番号の対応表(図10)も格納されている。
【0043】用例解析・情報付与部50および解析済み
対訳用例集60は、実施例では各データ10,20,対
訳用例集40に対応してあらかじめ解析済みデータを保
持している場合について説明するが、処理毎に各データ
10,20,対訳用例集40から抽出し、情報を付与す
る方式としてもよい。
対訳用例集60は、実施例では各データ10,20,対
訳用例集40に対応してあらかじめ解析済みデータを保
持している場合について説明するが、処理毎に各データ
10,20,対訳用例集40から抽出し、情報を付与す
る方式としてもよい。
【0044】
【実施例】以下、図面と共に本発明の実施例を説明す
る。以下の実施例では入力される語句を日本語、検索さ
れた類似文の訳文の語句を英語として説明するが、これ
に限定されない。
る。以下の実施例では入力される語句を日本語、検索さ
れた類似文の訳文の語句を英語として説明するが、これ
に限定されない。
【0045】[実施例1]まず、事前に図1の用例部5
にあるデータを準備する。
にあるデータを準備する。
【0046】図3を図1の対訳用例集40の対訳用例と
すると、図1の用例解析・情報付与部50内において、
図2の用例文の解析で形態素解析処理により図7が作成
される。図7は文節ごとに“|”で、品詞ごとに“/”
で区切っており、品詞、型の番号、活用形を記してい
る。また、図7と用例非依存の語句データ10と用例依
存の語句データ20を用いて、用例文ごとに置換、削
除、追加可能箇所を調べ、情報を付与すると図8が作成
される。このとき同時に、用例文に含まれている単語と
文番号の対応表(図10)も作成される。図8と図10
は、図1の解析済み対訳用例集60に蓄積される。
すると、図1の用例解析・情報付与部50内において、
図2の用例文の解析で形態素解析処理により図7が作成
される。図7は文節ごとに“|”で、品詞ごとに“/”
で区切っており、品詞、型の番号、活用形を記してい
る。また、図7と用例非依存の語句データ10と用例依
存の語句データ20を用いて、用例文ごとに置換、削
除、追加可能箇所を調べ、情報を付与すると図8が作成
される。このとき同時に、用例文に含まれている単語と
文番号の対応表(図10)も作成される。図8と図10
は、図1の解析済み対訳用例集60に蓄積される。
【0047】図8を作成する際に利用される図1の用例
依存の語句データ20(図5(b))の一部は自動的に
作成される。まず、用例依存の語句対応データの置換箇
所を追加するために、対訳用例集40について、用例非
依存の語句データ10(図4)と用例依存の語句データ
20(図5(a))を用いて情報付与を行う。次に、図
6に従うように置換可能箇所と削除可能箇所が全く同じ
範囲に現れているものや削除可能箇所に含まれている全
ての自立語が置換箇所となっている削除可能箇所を削
る。次に、後述の入力文と類似候補文の類似度計算と同
じ方法で得られた用例間の類似度計算(置換のみを考
慮)を行い、類似度が閾値T以上の文を抽出する。次
に、各用例で置換対象となっていないL語が同じ品詞列
であり、その前後K個が同じ要素となる場合に、各用例
のL語の語句を置換対象と定める。その結果、図5
(b)の置換対象の辞書の欄に「[置換1]」が、「対
訳辞書:[置換1]」が追加される。また、得られた置
換対象である[置換1]が名詞の場合は、他の単語と同
じように「[置換1]“で”」を削除対象のパターンに
追加する。閾値Tを最初は高めに設定し、所定の下限ま
で順次閾値を下げて置換対象を抽出することも可能であ
る。
依存の語句データ20(図5(b))の一部は自動的に
作成される。まず、用例依存の語句対応データの置換箇
所を追加するために、対訳用例集40について、用例非
依存の語句データ10(図4)と用例依存の語句データ
20(図5(a))を用いて情報付与を行う。次に、図
6に従うように置換可能箇所と削除可能箇所が全く同じ
範囲に現れているものや削除可能箇所に含まれている全
ての自立語が置換箇所となっている削除可能箇所を削
る。次に、後述の入力文と類似候補文の類似度計算と同
じ方法で得られた用例間の類似度計算(置換のみを考
慮)を行い、類似度が閾値T以上の文を抽出する。次
に、各用例で置換対象となっていないL語が同じ品詞列
であり、その前後K個が同じ要素となる場合に、各用例
のL語の語句を置換対象と定める。その結果、図5
(b)の置換対象の辞書の欄に「[置換1]」が、「対
訳辞書:[置換1]」が追加される。また、得られた置
換対象である[置換1]が名詞の場合は、他の単語と同
じように「[置換1]“で”」を削除対象のパターンに
追加する。閾値Tを最初は高めに設定し、所定の下限ま
で順次閾値を下げて置換対象を抽出することも可能であ
る。
【0048】次に、実際の処理において、図1の1から
入力文「中田がPKで貴重な得点をあげた。」が入力さ
れ、図1の解析、情報付与部2内において、図2の入力
文の解析で形態素解析処理により図11が作成される。
また、置換可能箇所と類似候補文との追加一致箇所を調
べ、情報を付与すると図12が作成される。
入力文「中田がPKで貴重な得点をあげた。」が入力さ
れ、図1の解析、情報付与部2内において、図2の入力
文の解析で形態素解析処理により図11が作成される。
また、置換可能箇所と類似候補文との追加一致箇所を調
べ、情報を付与すると図12が作成される。
【0049】次に、図1の検索部3において、入力文と
図3の用例文(日本語用例)から入力文の類似文を検索
する。検索部3は図13のようになっている。
図3の用例文(日本語用例)から入力文の類似文を検索
する。検索部3は図13のようになっている。
【0050】類似候補文抽出部301では、事前にあま
り似ていない用例文の処理を省くために、入力文の単語
と同じ単語が所定の閾値以上含んでいる文を選択する。
実際は入力文の単語を図10で調べ、入力文の単語数に
おける一致単語数の割合が閾値以上の文を選択する。文
1=8/10=0.8、文2=8/10=0.8、文3
=9/10=0.9、文4=1/10=0.1となり、
閾値が0.7であったとすると、文1〜3が選択され
る。
り似ていない用例文の処理を省くために、入力文の単語
と同じ単語が所定の閾値以上含んでいる文を選択する。
実際は入力文の単語を図10で調べ、入力文の単語数に
おける一致単語数の割合が閾値以上の文を選択する。文
1=8/10=0.8、文2=8/10=0.8、文3
=9/10=0.9、文4=1/10=0.1となり、
閾値が0.7であったとすると、文1〜3が選択され
る。
【0051】類似候補文・入力文加工部302で、入力
文と類似候補文がより類似するように類似候補文につい
て置換箇所の一般化や不要語句の削除や必要語句の追加
を行い、入力文について置換箇所の一般化を行う。図1
4に入力文と文3の例を示す。まず、入力文、類似候補
文の解析結果から、文節ごとに表記の一致を調べる。図
14のでは、入力文の先頭の文節から文3に同じもの
があるかどうか調べると、“中田が”、“PKで”、
“貴重な”、“得点を”が一致するので、対応している
印として1を格納している。次に、表記が一致しない文
節について語句の置換を施した文節ごとに一致を調べ
る。置換を施す際には、図14のの文3のように、1
文節内の表現が複数考えられる場合があるので、表記そ
のものが多く含まれるものを優先して、文節内の語と置
換可能箇所からなる要素の合計数が多く、置換可能箇所
に該当する単語数が少ない順に並列に蓄積しておき、そ
の順番で一致を調べる。文3の“30分に”は、
“[数]分 に”と“[時間]に”があるが、前者の方
が優先される。結果、図14のでは、入力文の“[動
_241_用]た。”は一致しない。図14のでは、
語句の置換を施した文節でも一致しない場合について、
その文節内で取りうる全ての単語や置換箇所を単位とし
て一致を調べる。ここでは、優先順位を複数の単語が一
致する置換可能箇所、1語の表記、1語の置換可能箇所
として順に並列に蓄積しておき、その順番で一致を調べ
る。結果、図14のでは、“た”と“。”が一致する
ので、対応している印として1を格納している。図14
のでは、類似候補文において1度も一致しない箇所に
ついて削除可能箇所ならば削除を施し、入力文において
1度も一致しない箇所と同じものが類似候補文に追加可
能箇所としてあれば、類似候補文にそれを追加する。ま
ず、入力文、文3ともに〜で対応した箇所を調べ、
次に文3の削除可能箇所を調べる。削除可能箇所は、ま
ず文節全体で削除できるものがあるか調べ、なければ残
りの削除可能箇所を組合せて最も多くの単語が削除でき
る削除可能箇所を選ぶ。結果、“そして、”と“30分
に”が削除される。次に文3において追加可能箇所を調
べるが、そのようなものはないため、入力文は「中田/
が/PK/で/貴重な/得点/を/あげ/た/。」、文
3は「中田/が/PK/で/貴重な/得点/を/し/た
/。」に加工される。同様に、文1、文2も加工すると
図15のようになる。
文と類似候補文がより類似するように類似候補文につい
て置換箇所の一般化や不要語句の削除や必要語句の追加
を行い、入力文について置換箇所の一般化を行う。図1
4に入力文と文3の例を示す。まず、入力文、類似候補
文の解析結果から、文節ごとに表記の一致を調べる。図
14のでは、入力文の先頭の文節から文3に同じもの
があるかどうか調べると、“中田が”、“PKで”、
“貴重な”、“得点を”が一致するので、対応している
印として1を格納している。次に、表記が一致しない文
節について語句の置換を施した文節ごとに一致を調べ
る。置換を施す際には、図14のの文3のように、1
文節内の表現が複数考えられる場合があるので、表記そ
のものが多く含まれるものを優先して、文節内の語と置
換可能箇所からなる要素の合計数が多く、置換可能箇所
に該当する単語数が少ない順に並列に蓄積しておき、そ
の順番で一致を調べる。文3の“30分に”は、
“[数]分 に”と“[時間]に”があるが、前者の方
が優先される。結果、図14のでは、入力文の“[動
_241_用]た。”は一致しない。図14のでは、
語句の置換を施した文節でも一致しない場合について、
その文節内で取りうる全ての単語や置換箇所を単位とし
て一致を調べる。ここでは、優先順位を複数の単語が一
致する置換可能箇所、1語の表記、1語の置換可能箇所
として順に並列に蓄積しておき、その順番で一致を調べ
る。結果、図14のでは、“た”と“。”が一致する
ので、対応している印として1を格納している。図14
のでは、類似候補文において1度も一致しない箇所に
ついて削除可能箇所ならば削除を施し、入力文において
1度も一致しない箇所と同じものが類似候補文に追加可
能箇所としてあれば、類似候補文にそれを追加する。ま
ず、入力文、文3ともに〜で対応した箇所を調べ、
次に文3の削除可能箇所を調べる。削除可能箇所は、ま
ず文節全体で削除できるものがあるか調べ、なければ残
りの削除可能箇所を組合せて最も多くの単語が削除でき
る削除可能箇所を選ぶ。結果、“そして、”と“30分
に”が削除される。次に文3において追加可能箇所を調
べるが、そのようなものはないため、入力文は「中田/
が/PK/で/貴重な/得点/を/あげ/た/。」、文
3は「中田/が/PK/で/貴重な/得点/を/し/た
/。」に加工される。同様に、文1、文2も加工すると
図15のようになる。
【0052】次に、類似度計算部303において、加工
した入力文と類似候補文を類似度計算する。ここでは、
類似度の計算式を以下のようにするが、他の方法で適切
なものがあればそれを利用しても構わない。
した入力文と類似候補文を類似度計算する。ここでは、
類似度の計算式を以下のようにするが、他の方法で適切
なものがあればそれを利用しても構わない。
【0053】類似度=2×一致要素数/(入力文の要素
数+類似候補文の要素数) 結果、図15にあるように、文2が類似文として選択さ
れる。
数+類似候補文の要素数) 結果、図15にあるように、文2が類似文として選択さ
れる。
【0054】最後に、図1の出力部において類似文と類
似文の訳文が出力される。この例では、文2「中山がフ
リーキックで貴重な得点をあげた。」と「Nakaya
maadded a valuable goal f
rom a free kick.」が出力される。仮
に、類似度が同じものが複数あった場合は、図15に示
すように、での削除後の要素(単語や置換可能箇所)
一致度、での要素一致度、での文節一致度、での
文節一致度を順に比較し、類似度に差が出た時点で類似
度の高い方を選択する。要素の一致とは、文節中に含ま
れる単語や置換箇所のレベルで行うことである。
似文の訳文が出力される。この例では、文2「中山がフ
リーキックで貴重な得点をあげた。」と「Nakaya
maadded a valuable goal f
rom a free kick.」が出力される。仮
に、類似度が同じものが複数あった場合は、図15に示
すように、での削除後の要素(単語や置換可能箇所)
一致度、での要素一致度、での文節一致度、での
文節一致度を順に比較し、類似度に差が出た時点で類似
度の高い方を選択する。要素の一致とは、文節中に含ま
れる単語や置換箇所のレベルで行うことである。
【0055】もし、図5(b)の置換対象として「[置
換1]」と「対訳辞書:[置換1]」を自動的に追加で
きていなければ、文1〜文3まで類似度が2×9/(1
0+10)=0.9となり、仮に複数の類似文を結果と
して出力せず、同じ類似度では文番号の早いものを出力
するとした場合、文全体の意味として他の文よりも入力
文に似ていない文1が選択されてしまう。
換1]」と「対訳辞書:[置換1]」を自動的に追加で
きていなければ、文1〜文3まで類似度が2×9/(1
0+10)=0.9となり、仮に複数の類似文を結果と
して出力せず、同じ類似度では文番号の早いものを出力
するとした場合、文全体の意味として他の文よりも入力
文に似ていない文1が選択されてしまう。
【0056】この例では、特定の分野の用例文を用い
て、文書の分野に依存するデータを自動作成しているた
め、文法的または意味的な置換箇所を増やすことで、よ
り細かな点を考慮した類似度計算をすることができ、ま
た、入力文に似ていない文をあらかじめ削除すること
で、類似度計算の時間を短縮できることを示した。
て、文書の分野に依存するデータを自動作成しているた
め、文法的または意味的な置換箇所を増やすことで、よ
り細かな点を考慮した類似度計算をすることができ、ま
た、入力文に似ていない文をあらかじめ削除すること
で、類似度計算の時間を短縮できることを示した。
【0057】[実施例2]実施例1と同様に説明する。
【0058】まず、事前に図1の用例部5にあるデータ
を準備する。
を準備する。
【0059】図16を図1の対訳用例集40の対訳用例
とすると、図1の用例解析・情報付与部50内におい
て、図2(a)の用例文の解析で形態素解析処理により
図17が作成される。図17は文節ごとに“|”で、品
詞ごとに“/”で区切っており、品詞、型の番号、活用
形を記している。また、図17と用例非依存の語句デー
タ10と用例依存の語句データ20を用いて、用例文ご
とに置換、削除、追加可能箇所を調べ、情報を付与する
と図18が作成される。このとき同時に、各対訳用例の
文ごとに含まれている単語と文番号の対応表(図19)
も作成される。図18と図19は、図1の解析済み対訳
用例集60に蓄積される。
とすると、図1の用例解析・情報付与部50内におい
て、図2(a)の用例文の解析で形態素解析処理により
図17が作成される。図17は文節ごとに“|”で、品
詞ごとに“/”で区切っており、品詞、型の番号、活用
形を記している。また、図17と用例非依存の語句デー
タ10と用例依存の語句データ20を用いて、用例文ご
とに置換、削除、追加可能箇所を調べ、情報を付与する
と図18が作成される。このとき同時に、各対訳用例の
文ごとに含まれている単語と文番号の対応表(図19)
も作成される。図18と図19は、図1の解析済み対訳
用例集60に蓄積される。
【0060】用例依存の語句データ20は、この例の対
訳用例が図16であるため、図5(a)が利用される。
また、図17、図18の置換、削除可能箇所と図4の用
例非依存の語句データにある追加対象のルール(m=2
とした場合)により、図18の文1の文頭に追加可能箇
所が付与されている(文2の文頭:「そして/、/固_
190_*/が」と文1の文頭:「固_190_*/が」に
おいて、「そして/、」が削除可能箇所となってい
る)。
訳用例が図16であるため、図5(a)が利用される。
また、図17、図18の置換、削除可能箇所と図4の用
例非依存の語句データにある追加対象のルール(m=2
とした場合)により、図18の文1の文頭に追加可能箇
所が付与されている(文2の文頭:「そして/、/固_
190_*/が」と文1の文頭:「固_190_*/が」に
おいて、「そして/、」が削除可能箇所となってい
る)。
【0061】次に、実際の処理において、図1の入力部
1から入力文「そして、中田が貴重な得点をした。」が
入力され、図1の解析・情報付与部2内において、図2
(b)の入力文の解析で形態素解析処理により図20が
作成される。また、置換可能箇所と類似候補文との追加
一致箇所を調べ、情報を付与すると図21が作成され
る。
1から入力文「そして、中田が貴重な得点をした。」が
入力され、図1の解析・情報付与部2内において、図2
(b)の入力文の解析で形態素解析処理により図20が
作成される。また、置換可能箇所と類似候補文との追加
一致箇所を調べ、情報を付与すると図21が作成され
る。
【0062】次に、図1の検索部3において、入力文と
図16の用例文(日本語用例)から入力文の類似文を検
索する。図13に沿って説明する。
図16の用例文(日本語用例)から入力文の類似文を検
索する。図13に沿って説明する。
【0063】類似候補文抽出部301では、事前にあま
り似ていない用例文の処理を省くために、入力文の単語
と同じ単語が所定の閾値以上含んでいる文を選択する。
実際は入力文の単語を図19で調べ、入力文の単語数に
おける一致単語数の割合が閾値以上の文を選択する。文
1=7/10=0.7、文2=8/10=0.8とな
り、閾値が0.7であったとすると、文1、文2の両方
が選択される。
り似ていない用例文の処理を省くために、入力文の単語
と同じ単語が所定の閾値以上含んでいる文を選択する。
実際は入力文の単語を図19で調べ、入力文の単語数に
おける一致単語数の割合が閾値以上の文を選択する。文
1=7/10=0.7、文2=8/10=0.8とな
り、閾値が0.7であったとすると、文1、文2の両方
が選択される。
【0064】類似候補文・入力文加工部302では、入
力文と類似候補文がより類似するように類似候補文につ
いて置換箇所の一般化や不要語句の削除や必要語句の追
加を行い、入力文について置換箇所の一般化を行う。図
22に入力文と文1の例を示す。まず、入力文、類似候
補文の解析結果から、文節ごとに表記の一致を調べる
と、において、“貴重な”、“得点 を”、“し た
。”が一致する。次に、表記が一致しない文節につい
て語句の置換を施した文節ごとに一致を調べると、に
おいて、“[固_190]が”一致する。語句の置換を
施しても一致しない文節について、その文節内で取りう
る全ての単語や置換箇所の要素の一致を調べると、文1
にはそのようなものがないのでは処理が省略される。
では、類似候補文において1度も一致しない箇所につ
いて削除可能箇所ならば削除を施し、入力文において1
度も一致しない箇所と同じ追加可能箇所が類似候補文に
あれば、類似候補文にそれを追加する。まず、入力文、
文1ともに〜で対応した箇所を調べる。次に文1の
削除可能箇所を調べると、文1に削除可能箇所はないの
で削除は行われない。次に入力文に一致していないもの
があり、文1に追加可能箇所があるので、それが一致す
るか調べる。処理は、、と同様の処理を行うが、
違いは入力文側のまだ対応が付いていない箇所と、文1
側は追加可能箇所の一致である。結果、“[接]、”で
一致するので、入力文は「(接 、 )/[固_19
0]/が/貴重な/得点/を/し/た/。」、文1は
「(接 、)/[固_190]/が/貴重な/得点/を
/し/た/。」に加工される。同様に、文2も加工する
と図23のようになる。
力文と類似候補文がより類似するように類似候補文につ
いて置換箇所の一般化や不要語句の削除や必要語句の追
加を行い、入力文について置換箇所の一般化を行う。図
22に入力文と文1の例を示す。まず、入力文、類似候
補文の解析結果から、文節ごとに表記の一致を調べる
と、において、“貴重な”、“得点 を”、“し た
。”が一致する。次に、表記が一致しない文節につい
て語句の置換を施した文節ごとに一致を調べると、に
おいて、“[固_190]が”一致する。語句の置換を
施しても一致しない文節について、その文節内で取りう
る全ての単語や置換箇所の要素の一致を調べると、文1
にはそのようなものがないのでは処理が省略される。
では、類似候補文において1度も一致しない箇所につ
いて削除可能箇所ならば削除を施し、入力文において1
度も一致しない箇所と同じ追加可能箇所が類似候補文に
あれば、類似候補文にそれを追加する。まず、入力文、
文1ともに〜で対応した箇所を調べる。次に文1の
削除可能箇所を調べると、文1に削除可能箇所はないの
で削除は行われない。次に入力文に一致していないもの
があり、文1に追加可能箇所があるので、それが一致す
るか調べる。処理は、、と同様の処理を行うが、
違いは入力文側のまだ対応が付いていない箇所と、文1
側は追加可能箇所の一致である。結果、“[接]、”で
一致するので、入力文は「(接 、 )/[固_19
0]/が/貴重な/得点/を/し/た/。」、文1は
「(接 、)/[固_190]/が/貴重な/得点/を
/し/た/。」に加工される。同様に、文2も加工する
と図23のようになる。
【0065】次に、類似度計算部303において、加工
した入力文と類似候補文を類似度計算する。
した入力文と類似候補文を類似度計算する。
【0066】結果、図23にあるように、文1が類似類
として選択される。
として選択される。
【0067】最後に、図1の出力部4において類似文と
類似文の訳文が出力される。この例では、文1「中山が
貴重な得点をした。」と「Nakayama adde
da valuable goal.」が出力される。
仮に、類似度が同じなのが複数あった場合は、図23に
示すように、での削除後の要素(単語や置換可能箇
所)一致度、での要素一致度、での文節一致度、
での文節一致度の順に比較し、類似度に差が出た時点で
類似度の高い方を選択する。要素の一致とは、文節中に
含まれる単語や置換箇所のレベルで一致を行うことであ
る。
類似文の訳文が出力される。この例では、文1「中山が
貴重な得点をした。」と「Nakayama adde
da valuable goal.」が出力される。
仮に、類似度が同じなのが複数あった場合は、図23に
示すように、での削除後の要素(単語や置換可能箇
所)一致度、での要素一致度、での文節一致度、
での文節一致度の順に比較し、類似度に差が出た時点で
類似度の高い方を選択する。要素の一致とは、文節中に
含まれる単語や置換箇所のレベルで一致を行うことであ
る。
【0068】もし、図13の類似候補文・入力文加工部
302において、類似候補文に追加対象を扱えなけれ
ば、文1に「[接、]」を追加できなくなるので、文1
の類似度が2×8/(10+8)=0.88となり、文
全体の意味として文1よりも入力文に似ていない文2が
選択されてしまう。
302において、類似候補文に追加対象を扱えなけれ
ば、文1に「[接、]」を追加できなくなるので、文1
の類似度が2×8/(10+8)=0.88となり、文
全体の意味として文1よりも入力文に似ていない文2が
選択されてしまう。
【0069】この例では、置換、削除のみならず、追加
も考慮することで、より細かな類似度計算をすることが
できることを示した。
も考慮することで、より細かな類似度計算をすることが
できることを示した。
【0070】[実施例3]実施例1,2と同様に説明す
る。
る。
【0071】まず、事前に図1の用例部5にあるデータ
を準備する。
を準備する。
【0072】図24を図1の対訳用例集40の対訳用例
とすると、図1の用例解析・情報付与部50内におい
て、図2(a)の用例文の解析で形態素解析処理により
図25が作成される。図25は文節ごとに“|”で、品
詞ごとに“/”で区切っており、品詞、型の番号、活用
形を記している。また、図25と用例非依存の語句デー
タ10と用例依存の語句データ20を用いて、用例ごと
に置換、削除、追加可能箇所を調べ、情報を付与すると
図26が作成される。このとき同時に、各対訳用例の文
ごとに含まれている単語と文番号の対応表(図27)も
作成される。図26と図27は、図1の解析済み対訳用
例集60に蓄積される。
とすると、図1の用例解析・情報付与部50内におい
て、図2(a)の用例文の解析で形態素解析処理により
図25が作成される。図25は文節ごとに“|”で、品
詞ごとに“/”で区切っており、品詞、型の番号、活用
形を記している。また、図25と用例非依存の語句デー
タ10と用例依存の語句データ20を用いて、用例ごと
に置換、削除、追加可能箇所を調べ、情報を付与すると
図26が作成される。このとき同時に、各対訳用例の文
ごとに含まれている単語と文番号の対応表(図27)も
作成される。図26と図27は、図1の解析済み対訳用
例集60に蓄積される。
【0073】用例依存の語句データは、この例の対訳用
例が図24であるため、図5(a)が利用される。
例が図24であるため、図5(a)が利用される。
【0074】次に、実際の処理において、図1の入力部
1から入力文「中山が30分に貴重な得点をした。」が
入力され、図1の解析・情報付与部2内において、図2
(b)の入力文の解析で形態素解析処理により図28が
作成される。また、置換可能箇所と類似候補文との追加
一致箇所を調べ、情報を付与すると図29が作成され
る。
1から入力文「中山が30分に貴重な得点をした。」が
入力され、図1の解析・情報付与部2内において、図2
(b)の入力文の解析で形態素解析処理により図28が
作成される。また、置換可能箇所と類似候補文との追加
一致箇所を調べ、情報を付与すると図29が作成され
る。
【0075】次に、図1の検索部3において、入力文と
図24の用例文(日本語用例)から入力文の類似文を検
索する。図13に沿って説明する。
図24の用例文(日本語用例)から入力文の類似文を検
索する。図13に沿って説明する。
【0076】類似候補文抽出部301では、事前にあま
り似ていない用例文の処理を省くために、入力文の単語
と同じ単語が所定の閾値以上含んでいる文を選択する。
実際は入力文の単語を図27で調べ、入力文の単語数に
おける一致単語数の割合が閾値以上の文を選択する。文
1=9/11=0.81、文2=10/11=0.90
となり、閾値が0.7であったとすると、文1、文2の
両方が選択される。
り似ていない用例文の処理を省くために、入力文の単語
と同じ単語が所定の閾値以上含んでいる文を選択する。
実際は入力文の単語を図27で調べ、入力文の単語数に
おける一致単語数の割合が閾値以上の文を選択する。文
1=9/11=0.81、文2=10/11=0.90
となり、閾値が0.7であったとすると、文1、文2の
両方が選択される。
【0077】類似候補文・入力文加工部302では、各
類似候補文と入力文がより類似するように類似候補文に
ついて置換箇所の一般化や不要語句の削除や必要語句の
追加を行い、入力文について置換箇所の一般化を行う。
実施例1、実施例2と同様な方法で処理を行った結果、
図30に示す文のようになる。
類似候補文と入力文がより類似するように類似候補文に
ついて置換箇所の一般化や不要語句の削除や必要語句の
追加を行い、入力文について置換箇所の一般化を行う。
実施例1、実施例2と同様な方法で処理を行った結果、
図30に示す文のようになる。
【0078】類似度計算部303では、加工した入力文
と類似候補文を類似度計算する。
と類似候補文を類似度計算する。
【0079】結果、図30にあるように、文1が類似文
として選択される。
として選択される。
【0080】最後に、図1の出力部4において類似文と
類似文の訳文が出力される。この例では、文1「中山が
開始直後貴重な得点をした。」と「After beg
inning,Nakayama added a v
aluable goal.」が出力される。仮に、類
似度が同じものが複数あった場合は、図30に示すよう
に、での削除後の要素(単語や置換可能箇所)一致
度、での要素一致度、での文節一致度、での文節
一致度の順に比較し、類似度に差が出た時点で類似度の
高い方を選択する。要素の一致とは、文節中に含まれる
単語や置換箇所のレベルで一致を行うことである。
類似文の訳文が出力される。この例では、文1「中山が
開始直後貴重な得点をした。」と「After beg
inning,Nakayama added a v
aluable goal.」が出力される。仮に、類
似度が同じものが複数あった場合は、図30に示すよう
に、での削除後の要素(単語や置換可能箇所)一致
度、での要素一致度、での文節一致度、での文節
一致度の順に比較し、類似度に差が出た時点で類似度の
高い方を選択する。要素の一致とは、文節中に含まれる
単語や置換箇所のレベルで一致を行うことである。
【0081】もし、図13の類似候補文・入力文加工部
302において、置換対象として複数の形態素列を1つ
の置換対象として扱えないならば、文1の類似度が2×
9/(11+11)=0.81となり、文全体の意味と
して他の文よりも入力文に似ていない文2が選択されて
しまう。
302において、置換対象として複数の形態素列を1つ
の置換対象として扱えないならば、文1の類似度が2×
9/(11+11)=0.81となり、文全体の意味と
して他の文よりも入力文に似ていない文2が選択されて
しまう。
【0082】この例では、置換可能箇所の単位を複数の
単語も許すことで、より細かな点を考慮した類似度計算
をすることができることを示した。
単語も許すことで、より細かな点を考慮した類似度計算
をすることができることを示した。
【0083】尚、図1の検索部3は、類似度の最も高い
類似候補文に加え、類似度が高い方から所定の数の類似
候補文を類似文として抽出するようにしてもよい。
類似候補文に加え、類似度が高い方から所定の数の類似
候補文を類似文として抽出するようにしてもよい。
【0084】また、本発明における類似文検索方法は、
具体的にはパーソナルコンピュータ(PC)等のコンピ
ュータにより、予め所定のコンピュータ読み取り可能な
記録媒体に記録された類似文検索プログラムに基づいて
実行される。すなわち、例文集から入力文の類似文を検
索する類似文検索プログラムを記録したコンピュータ読
み取り可能な記録媒体において、例文集の類似候補文に
ついて事前に文法的もしくは意味的に置換、削除、追加
が可能な箇所に各情報を付与し、入力文にも同様に置換
が可能な箇所や類似候補文の追加可能箇所との一致が可
能な箇所に各情報を付与した上で、入力文と類似候補文
との類似度計算の際に、各文の差分箇所に対しての同種
の置換箇所の一致、不要箇所の削除や不足箇所の追加を
考慮した処理を行い、最も類似度の高い類似候補文を類
似文として類似度とともに抽出する処理をコンピュータ
に実行させる。
具体的にはパーソナルコンピュータ(PC)等のコンピ
ュータにより、予め所定のコンピュータ読み取り可能な
記録媒体に記録された類似文検索プログラムに基づいて
実行される。すなわち、例文集から入力文の類似文を検
索する類似文検索プログラムを記録したコンピュータ読
み取り可能な記録媒体において、例文集の類似候補文に
ついて事前に文法的もしくは意味的に置換、削除、追加
が可能な箇所に各情報を付与し、入力文にも同様に置換
が可能な箇所や類似候補文の追加可能箇所との一致が可
能な箇所に各情報を付与した上で、入力文と類似候補文
との類似度計算の際に、各文の差分箇所に対しての同種
の置換箇所の一致、不要箇所の削除や不足箇所の追加を
考慮した処理を行い、最も類似度の高い類似候補文を類
似文として類似度とともに抽出する処理をコンピュータ
に実行させる。
【0085】また本発明は、前記類似文検索プログラム
を記録した記録媒体において、類似度の最も高い類似候
補文に加え、類似度が高い方から所定の数の類似候補文
を類似文として出力する処理をコンピュータに実行させ
る。
を記録した記録媒体において、類似度の最も高い類似候
補文に加え、類似度が高い方から所定の数の類似候補文
を類似文として出力する処理をコンピュータに実行させ
る。
【0086】また本発明は、前記類似文検索プログラム
を記録した記録媒体において、置換、削除、追加の情報
を付与するための基となるデータとして、汎用的に利用
できるものと、文書の分野に依存するものに分けて各デ
ータを作成し、文書分野に依存するデータの自動作成に
おいて、既存の汎用的もしくは分野依存のデータを用い
て情報を例文に付与し、置換可能かつ削除可能な箇所を
削った例文集から類似している文を集め、文中の置換情
報が付与されていない箇所で、その前後の箇所の表記や
置換の種類が一致しており、該当箇所の情報が同じで表
記の異なるものの集合を新たな置換対象のデータとして
作成し、同時に、新たな置換対象のデータと前後の表記
などを考慮して、新たな削除対象のデータを作成する処
理をコンピュータに実行させる。
を記録した記録媒体において、置換、削除、追加の情報
を付与するための基となるデータとして、汎用的に利用
できるものと、文書の分野に依存するものに分けて各デ
ータを作成し、文書分野に依存するデータの自動作成に
おいて、既存の汎用的もしくは分野依存のデータを用い
て情報を例文に付与し、置換可能かつ削除可能な箇所を
削った例文集から類似している文を集め、文中の置換情
報が付与されていない箇所で、その前後の箇所の表記や
置換の種類が一致しており、該当箇所の情報が同じで表
記の異なるものの集合を新たな置換対象のデータとして
作成し、同時に、新たな置換対象のデータと前後の表記
などを考慮して、新たな削除対象のデータを作成する処
理をコンピュータに実行させる。
【0087】また本発明は、前記類似文検索プログラム
を記録した記録媒体において、類似候補文について、例
文集の文が大量にある場合に、入力文の語句と同じ語句
の数が所定の閾値以上である類似候補文を新たな類似候
補文とする処理をコンピュータに実行させる。
を記録した記録媒体において、類似候補文について、例
文集の文が大量にある場合に、入力文の語句と同じ語句
の数が所定の閾値以上である類似候補文を新たな類似候
補文とする処理をコンピュータに実行させる。
【0088】また本発明は、前記類似文検索プログラム
を記録した記録媒体において、例文集の各文と訳文の組
である対訳用例を用いて、入力文の類似文とその対訳を
抽出する処理をコンピュータに実行させる。
を記録した記録媒体において、例文集の各文と訳文の組
である対訳用例を用いて、入力文の類似文とその対訳を
抽出する処理をコンピュータに実行させる。
【0089】
【発明の効果】以上述べたように本発明によれば、第1
自然言語の文のみ、もしくは、それに対応する第2自然
言語の文の組を含む対訳例文集を用いて、読み込まれた
第1自然言語の入力文から類似文を選択する際に、解析
された入力文と、解析された対訳用例文の類似度の比較
において、表記そのままや置換や削除だけでなく追加も
考慮し、また、置換、削除、追加の単位を複数単語列も
考慮するので、表記だけでは類似度が高くない場合で
も、文法的または意味的に類似した文が検索できる。ま
た、一部の置換や削除や追加の情報を付与するための元
となるデータを特定分野の対訳用例から自動的に得るこ
とができる。また、入力文に似ていない文をあらかじめ
削除することで、類似度計算の時間を短縮できる。
自然言語の文のみ、もしくは、それに対応する第2自然
言語の文の組を含む対訳例文集を用いて、読み込まれた
第1自然言語の入力文から類似文を選択する際に、解析
された入力文と、解析された対訳用例文の類似度の比較
において、表記そのままや置換や削除だけでなく追加も
考慮し、また、置換、削除、追加の単位を複数単語列も
考慮するので、表記だけでは類似度が高くない場合で
も、文法的または意味的に類似した文が検索できる。ま
た、一部の置換や削除や追加の情報を付与するための元
となるデータを特定分野の対訳用例から自動的に得るこ
とができる。また、入力文に似ていない文をあらかじめ
削除することで、類似度計算の時間を短縮できる。
【0090】また、特に対訳用例文の訳文を編集して入
力文の翻訳を行う処理の一部として、編集が容易で適切
な訳文となる対訳用例を選択するのに利用できる。
力文の翻訳を行う処理の一部として、編集が容易で適切
な訳文となる対訳用例を選択するのに利用できる。
【図1】本発明の実施形態例に係る類似文検索方法によ
る処理手順および類似文検索装置の構成説明図である。
る処理手順および類似文検索装置の構成説明図である。
【図2】本発明の実施例に係る解析処理の説明図であ
る。
る。
【図3】本発明の実施例に係る対訳用例集の例(1)を
示す説明図である。
示す説明図である。
【図4】本発明の実施例に係る用例非依存の語句データ
の例を示す説明図である。
の例を示す説明図である。
【図5】本発明の実施例に係る用例依存の語句データの
例を示す説明図である。
例を示す説明図である。
【図6】本発明の実施例に係る用例依存の語句データの
自動抽出例を示す説明図である。
自動抽出例を示す説明図である。
【図7】本発明の実施例に係る対訳用例集の例(1)の
日本語用例の形態素解析結果を示す説明図である。
日本語用例の形態素解析結果を示す説明図である。
【図8】本発明の実施例に係る対訳用例集の例(1)の
日本語用例の解析済み用例集を示す説明図である。
日本語用例の解析済み用例集を示す説明図である。
【図9】本発明の実施例に係る品詞、区分の説明図であ
る。
る。
【図10】本発明の実施例に係る対訳用例集の例(1)
の日本語用例における各文に含まれている単語と文番号
の対応を示す説明図である。
の日本語用例における各文に含まれている単語と文番号
の対応を示す説明図である。
【図11】本発明の実施例に係る入力文の形態素解析結
果(1)を示す説明図である。
果(1)を示す説明図である。
【図12】本発明の実施例に係る入力文の解析結果
(1)を示す説明図である。
(1)を示す説明図である。
【図13】本発明の実施例に係る検索部を示す構成説明
図である。
図である。
【図14】本発明の実施例に係る類似候補用例文と入力
文の加工の例(1)を示す説明図である。
文の加工の例(1)を示す説明図である。
【図15】本発明の実施例に係る類似度計算に利用する
文と類似度の例(1)を示す説明図である。
文と類似度の例(1)を示す説明図である。
【図16】本発明の実施例に係る対訳用例集の例(2)
を示す説明図である。
を示す説明図である。
【図17】本発明の実施例に係る対訳用例集の例(2)
の日本語用例の形態素解析結果を示す説明図である。
の日本語用例の形態素解析結果を示す説明図である。
【図18】本発明の実施例に係る対訳用例集の例(2)
の日本語用例の解析済み用例集を示す説明図である。
の日本語用例の解析済み用例集を示す説明図である。
【図19】本発明の実施例に係る対訳用例集の例(2)
の日本語用例における各文に含まれている単語と文番号
の対応を示す説明図である。
の日本語用例における各文に含まれている単語と文番号
の対応を示す説明図である。
【図20】本発明の実施例に係る入力文の形態素解析結
果(2)を示す説明図である。
果(2)を示す説明図である。
【図21】本発明の実施例に係る入力文の解析結果
(2)を示す説明図である。
(2)を示す説明図である。
【図22】本発明の実施例に係る類似候補用例文と入力
文の加工の例(2)を示す説明図である。
文の加工の例(2)を示す説明図である。
【図23】本発明の実施例に係る類似度計算に利用する
文と類似度の例(2)を示す説明図である。
文と類似度の例(2)を示す説明図である。
【図24】本発明の実施例に係る対訳用例集の例(3)
を示す説明図である。
を示す説明図である。
【図25】本発明の実施例に係る対訳用例集の例(3)
の日本語用例の形態素解析結果を示す説明図である。
の日本語用例の形態素解析結果を示す説明図である。
【図26】本発明の実施例に係る対訳用例集の例(3)
の日本語用例の解析済み用例集を示す説明図である。
の日本語用例の解析済み用例集を示す説明図である。
【図27】本発明の実施例に係る対訳用例集の例(3)
の日本語用例における各文に含まれている単語と文番号
の対応を示す説明図である。
の日本語用例における各文に含まれている単語と文番号
の対応を示す説明図である。
【図28】本発明の実施例に係る入力文の形態素解析結
果(3)を示す説明図である。
果(3)を示す説明図である。
【図29】本発明の実施例に係る入力文の解析結果
(3)を示す説明図である。
(3)を示す説明図である。
【図30】本発明の実施例に係る類似度計算に利用する
文と類似度の例(3)を示す説明図である。
文と類似度の例(3)を示す説明図である。
1 入力部 2 解析・情報付与部 3 検索部 4 出力部 5 用例部 10 用例非依存の語句データ 20 用例依存の語句データ 30 データ作成部 40 対訳用例集 50 用例解析・情報付与部 60 解析済み対訳用例集 301 類似候補文抽出部 302 類似候補文・入力文加工部 303 類似度計算部
Claims (15)
- 【請求項1】 例文集から入力文の類似文を検索する類
似文検索方法において、例文集の類似候補文について事
前に文法的もしくは意味的に置換、削除、追加が可能な
箇所に各情報を付与し、入力文にも同様に置換が可能な
箇所や類似候補文の追加可能箇所との一致が可能な箇所
に各情報を付与した上で、入力文と類似候補文との類似
度計算の際に、各文の差分箇所に対しての同種の置換箇
所の一致、不要箇所の削除や不足箇所の追加を考慮した
処理を行い、最も類似度の高い類似候補文を類似文とし
て類似度とともに抽出することを特徴とする類似文検索
方法。 - 【請求項2】 類似度の最も高い類似候補文に加え、類
似度が高い方から所定の数の類似候補文を類似文として
出力することを特徴とする請求項1記載の類似文検索方
法。 - 【請求項3】 置換、削除、追加の情報を付与するため
の基となるデータとして、汎用的に利用できるものと、
文書の分野に依存するものに分けて各データを作成し、
文書分野に依存するデータの自動作成において、既存の
汎用的もしくは分野依存のデータを用いて情報を例文に
付与し、置換可能かつ削除可能な箇所を削った例文集か
ら類似している文を集め、文中の置換情報が付与されて
いない箇所で、その前後の箇所の表記や置換の種類が一
致しており、該当箇所の情報が同じで表記の異なるもの
の集合を新たな置換対象のデータとして作成し、同時
に、新たな置換対象のデータと前後の表記などを考慮し
て、新たな削除対象のデータとして作成することを特徴
とする請求項1又は2記載の類似文検索方法。 - 【請求項4】 類似候補文について、例文集の文が大量
にある場合に、入力文の語句と同じ語句の数が所定の閾
値以上である類似候補文を新たな類似候補文とすること
を特徴とする請求項1、2叉は3記載の類似文検索方
法。 - 【請求項5】 例文集の各文と訳文の組である対訳用例
を用いて、入力文の類似文とその対訳を抽出することを
特徴とする請求項1、2、3叉は4記載の類似文検索方
法。 - 【請求項6】 用例文を複数保存した用例部と、入力文
を読み込む入力手段と、前記用例部の用例文から得られ
る類似候補文を語句単位に解析し、文法的もしくは意味
的に置換、削除、追加が可能な箇所に各情報を付与する
用例解析・情報付与手段と、前記入力手段によって読み
込まれた入力文を語句単位に解析し、文法的もしくは意
味的に置換が可能な箇所や類似候補文の追加可能箇所と
の一致が可能な箇所に各情報を付与する解析・情報付与
手段と、解析された類似候補文について、入力文と類似
候補文との類似度計算の際に、各文の差分箇所に対して
同種の置換箇所の一致、不要箇所の削除や不足箇所の追
加を考慮した上で類似度を計算し、最も類似度が高い類
似候補文を類似文として抽出する検索手段、前記検索手
段により抽出された類似文を類似度とともに出力する出
力手段とを有することを特徴とする類似文検索装置。 - 【請求項7】 検索手段が、類似度の最も高い類似候補
文に加え、類似度が高い方から所定の数の類似候補文を
類似文として抽出することを特徴とする請求項1記載の
類似文検索装置。 - 【請求項8】 置換、削除、追加の情報の付与におい
て、基となるデータとして、汎用的に利用できるもの
と、文書の分野に依存するものに分けて各データを記述
しておき、文書の分野に依存するデータの自動作成にお
いて、既存の汎用的もしくは分野依存のデータを用いて
置換可能かつ削除可能な箇所を削った例文集の文から類
似している文を集め、文中の置換情報が付与されていな
い箇所で、その前後の箇所の表記や置換の種類が一致し
ており、該当箇所の情報が同じで表記の異なるものの集
合を新たな置換対象のデータとして作成し、同時に、新
たな置換対象のデータと前後の表記などを考慮して、新
たな削除対象のデータとして作成するデータ作成手段を
有することを特徴とする請求項6叉は7記載の類似文検
索装置。 - 【請求項9】 検索手段において、事前に入力文の語句
と同じ語句の数が所定の閾値以上の文を類似候補文とし
て検索対象とすることを特徴とする請求項6、7叉は8
記載の類似文検索装置。 - 【請求項10】 用例文に対して訳文が対応づけられた
対訳用例を用いた場合に、前記検索手段により抽出され
た類似文とその訳文を出力する出力手段とを有すること
を特徴とする請求項6、7、8叉は9記載の類似文検索
装置。 - 【請求項11】 例文集から入力文の類似文を検索する
類似文検索プログラムを記録した記録媒体において、例
文集の類似候補文について事前に文法的もしくは意味的
に置換、削除、追加が可能な箇所に各情報を付与し、入
力文にも同様に置換が可能な箇所や類似候補文の追加可
能箇所との一致が可能な箇所に各情報を付与した上で、
入力文と類似候補文との類似度計算の際に、各文の差分
箇所に対しての同種の置換箇所の一致、不要箇所の削除
や不足箇所の追加を考慮した処理を行い、最も類似度の
高い類似候補文を類似文として類似度とともに抽出する
処理をコンピュータに実行させるための類似文検索プロ
グラムを記録したコンピュータ読み取り可能な記録媒
体。 - 【請求項12】 請求項11記載の類似文検索プログラ
ムを記録した記録媒体において、類似度の最も高い類似
候補文に加え、類似度が高い方から所定の数の類似候補
文を類似文として出力する処理をコンピュータに実行さ
せるための類似文検索プログラムを記録したコンピュー
タ読み取り可能な記録媒体。 - 【請求項13】 請求項11又は12記載の類似文検索
プログラムを記録した記録媒体において、置換、削除、
追加の情報を付与するための基となるデータとして、汎
用的に利用できるものと、文書の分野に依存するものに
分けて各データを作成し、文書分野に依存するデータの
自動作成において、既存の汎用的もしくは分野依存のデ
ータを用いて情報を例文に付与し、置換可能かつ削除可
能な箇所を削った例文集から類似している文を集め、文
中の置換情報が付与されていない箇所で、その前後の箇
所の表記や置換の種類が一致しており、該当箇所の情報
が同じで表記の異なるものの集合を新たな置換対象のデ
ータとして作成し、同時に、新たな置換対象のデータと
前後の表記などを考慮して、新たな削除対象のデータと
して作成する処理をコンピュータに実行させるための類
似文検索プログラムを記録したコンピュータ読み取り可
能な記録媒体。 - 【請求項14】 請求項11、12又は13記載の類似
文検索プログラムを記録した記録媒体において、類似候
補文について、例文集の文が大量にある場合に、入力文
の語句と同じ語句の数が所定の閾値以上である類似候補
文を新たな類似候補文とする処理をコンピュータに実行
させるための類似文検索プログラムを記録したコンピュ
ータ読み取り可能な記録媒体。 - 【請求項15】 請求項11、12、13又は14記載
の類似文検索プログラムを記録した記録媒体において、
例文集の各文と訳文の組である対訳用例を用いて、入力
文の類似文とその対訳を抽出する処理をコンピュータに
実行させるための類似文検索プログラムを記録したコン
ピュータ読み取り可能な記録媒体。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
JP2000178367A JP2001357065A (ja) | 2000-06-14 | 2000-06-14 | 類似文検索方法及び装置並びに類似文検索プログラムを記録した記録媒体 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
JP2000178367A JP2001357065A (ja) | 2000-06-14 | 2000-06-14 | 類似文検索方法及び装置並びに類似文検索プログラムを記録した記録媒体 |
Publications (1)
Publication Number | Publication Date |
---|---|
JP2001357065A true JP2001357065A (ja) | 2001-12-26 |
Family
ID=18679810
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
JP2000178367A Pending JP2001357065A (ja) | 2000-06-14 | 2000-06-14 | 類似文検索方法及び装置並びに類似文検索プログラムを記録した記録媒体 |
Country Status (1)
Country | Link |
---|---|
JP (1) | JP2001357065A (ja) |
Cited By (4)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
JP2004110835A (ja) * | 2002-09-19 | 2004-04-08 | Microsoft Corp | 確認文を検索するための方法およびシステム |
JP2009080777A (ja) * | 2007-09-27 | 2009-04-16 | Toshiba Corp | 機械翻訳装置及び機械翻訳プログラム |
CN104951469A (zh) * | 2014-03-28 | 2015-09-30 | 株式会社东芝 | 优化语料库的方法和装置 |
CN113505593A (zh) * | 2021-07-23 | 2021-10-15 | 北京中科凡语科技有限公司 | 相似语句检索方法、装置、电子设备及可读存储介质 |
-
2000
- 2000-06-14 JP JP2000178367A patent/JP2001357065A/ja active Pending
Cited By (8)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
JP2004110835A (ja) * | 2002-09-19 | 2004-04-08 | Microsoft Corp | 確認文を検索するための方法およびシステム |
US7974963B2 (en) | 2002-09-19 | 2011-07-05 | Joseph R. Kelly | Method and system for retrieving confirming sentences |
JP2009080777A (ja) * | 2007-09-27 | 2009-04-16 | Toshiba Corp | 機械翻訳装置及び機械翻訳プログラム |
JP4528818B2 (ja) * | 2007-09-27 | 2010-08-25 | 株式会社東芝 | 機械翻訳装置及び機械翻訳プログラム |
CN104951469A (zh) * | 2014-03-28 | 2015-09-30 | 株式会社东芝 | 优化语料库的方法和装置 |
CN104951469B (zh) * | 2014-03-28 | 2018-04-06 | 株式会社东芝 | 优化语料库的方法和装置 |
CN113505593A (zh) * | 2021-07-23 | 2021-10-15 | 北京中科凡语科技有限公司 | 相似语句检索方法、装置、电子设备及可读存储介质 |
CN113505593B (zh) * | 2021-07-23 | 2024-03-29 | 北京中科凡语科技有限公司 | 相似语句检索方法、装置、电子设备及可读存储介质 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
US5794177A (en) | Method and apparatus for morphological analysis and generation of natural language text | |
KR100453227B1 (ko) | 번역 지원 시스템에서의 유사 문장 검색 방법 | |
US6098034A (en) | Method for standardizing phrasing in a document | |
US20070233460A1 (en) | Computer-Implemented Method for Use in a Translation System | |
US20050171757A1 (en) | Machine translation | |
WO1997004405A9 (en) | Method and apparatus for automated search and retrieval processing | |
EP1941405A2 (en) | System and method for cross-language knowledge searching | |
JPS63231674A (ja) | コンピュータによる形態論的テキスト解析方法 | |
JPH083815B2 (ja) | 自然言語の共起関係辞書保守方法 | |
JP2001357065A (ja) | 類似文検索方法及び装置並びに類似文検索プログラムを記録した記録媒体 | |
Goweder et al. | Identifying Broken Plurals in Unvowelised Arabic Tex | |
JPH03132872A (ja) | 索引情報生成装置 | |
JP2005025555A (ja) | シソーラス構築システム、シソーラス構築方法、この方法を実行するプログラム、およびこのプログラムを記憶した記憶媒体 | |
JPH10177575A (ja) | 語句抽出装置および方法、情報記憶媒体 | |
JP3419748B2 (ja) | 辞書作成装置および方法と辞書作成プログラムを記録した記録媒体 | |
Schwarz | The TINA Project: text content analysis at the Corporate Research Laboratories at Siemens | |
JP3348872B2 (ja) | 日本語形態素解析装置 | |
Hickey | Corpus data processing with Lexa | |
JPH0561902A (ja) | 機械翻訳システム | |
JP4262529B2 (ja) | 全文検索装置、方法、プログラム及び記録媒体 | |
JP3508312B2 (ja) | キーワード抽出装置 | |
Kadam | Develop a Marathi Lemmatizer for Common Nouns and Simple Tenses of Verbs | |
Zakharov | Russian corpus of the 19th century | |
JPS6389976A (ja) | 言語解析装置 | |
JPS63109572A (ja) | 派生語処理方式 |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
A131 | Notification of reasons for refusal |
Free format text: JAPANESE INTERMEDIATE CODE: A131 Effective date: 20040824 |
|
A02 | Decision of refusal |
Free format text: JAPANESE INTERMEDIATE CODE: A02 Effective date: 20041221 |