[go: up one dir, main page]

JP4640593B2 - 多言語文書検索装置および多言語文書検索方法、並びに、多言語文書を検索するプログラム - Google Patents

多言語文書検索装置および多言語文書検索方法、並びに、多言語文書を検索するプログラム Download PDF

Info

Publication number
JP4640593B2
JP4640593B2 JP2005205370A JP2005205370A JP4640593B2 JP 4640593 B2 JP4640593 B2 JP 4640593B2 JP 2005205370 A JP2005205370 A JP 2005205370A JP 2005205370 A JP2005205370 A JP 2005205370A JP 4640593 B2 JP4640593 B2 JP 4640593B2
Authority
JP
Japan
Prior art keywords
document
category
translation
language
search
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Expired - Fee Related
Application number
JP2005205370A
Other languages
English (en)
Other versions
JP2007025939A (ja
Inventor
開 石川
亨 赤峯
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
NEC Corp
Original Assignee
NEC Corp
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by NEC Corp filed Critical NEC Corp
Priority to JP2005205370A priority Critical patent/JP4640593B2/ja
Publication of JP2007025939A publication Critical patent/JP2007025939A/ja
Application granted granted Critical
Publication of JP4640593B2 publication Critical patent/JP4640593B2/ja
Expired - Fee Related legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Landscapes

  • Machine Translation (AREA)
  • Information Retrieval, Db Structures And Fs Structures Therefor (AREA)

Description

本発明は、日本語や英語等の様々な言語で記述された文書データ群からコンピュータにより所望の文書データを検索する技術に関し、特に、言語ごとに独自のカテゴリが設けられている文書データ群に対し検索を実行する技術に関する。
従来、コンピュータにより多言語文書を検索する方法は、検索キーワードとして入力される検索クエリを検索対象と同じ言語に翻訳してから文書検索を行うという方法と、検索対象を検索クエリと同じ言語に翻訳してから文書検索を行う方法の二つに大別できる。前者の方法は、後者に比べて検索対象文書をあらかじめ翻訳しておく必要がないという利点がある一方で、検索の確度がクエリの翻訳精度に左右されるため、検索者の要求に見合った結果を得難いという難点がある。
多言語文書の検索に関し従来提案されている手法として、例えば、後述の特許文献1乃至6に記載のものがある。特許文献1に記載の手法は、各言語の文書が予めカテゴリに分類され、言語間で内容の対応するカテゴリが1対1で関連付けられている場合に、原言語の検索結果から適合カテゴリを選択し、目的言語での検索を選択カテゴリに対応するカテゴリに絞って行うというものである。
特許文献2に記載の手法は、クエリを翻訳する多言語検索において、検索クエリを翻訳する前後で検索語の類義語をシソーラスから求め、それをクエリに追加するというものである。特許文献3に記載の手法は、クエリを翻訳する多言語検索において、クエリのワード数が短く且つそれが翻訳辞書における新語の場合に適切な翻訳クエリが得られないという問題に対処するため、クエリから、原言語の検索結果に基づくTFIDFスコアを使って関連語を抽出し、この関連語の訳語を翻訳クエリに加えるというものである。
特許文献4に記載の手法は、クエリを翻訳する多言語検索において、初期検索要求による原言語の検索結果から検索要求に対する適合文書を検索者に選択させ、選択した適合文書中の、検索要求に関して特徴的な単語リストを、出現単語の統計情報に基づいて生成し、これを目的言語に翻訳して目的言語での検索を行うというものである。特許文献5に記載の手法は、クエリを翻訳する多言語検索において、検索結果の文書選択を効率化することを目的として、階層的ベイズクラスタリングを用いて検索結果の分類まとめ上げを行い、多言語の検索結果を統一的に提示するというものである。
特許文献6に記載の手法は、クエリを翻訳する多言語検索において、文書に発行日時、カテゴリ、分野等のメタデータが付加されており、検索要求に対する原言語の検索結果からメタデータに関するスクリーニング条件を検索者に選択させる。そして、この条件を他言語の絞込みに用いることにより、読むのが困難な外国語の文書を、原言語でのスクリーニングを利用して効率よく絞込みを行うというものである。
特開2002−189745号公報 特開平08−305728号公報 特開2003−208441号公報 特開2001−022787号公報 特開2003−76710号公報 特開2003−050821号公報
しかしながら、カテゴリの対応関係を用いて検索結果を絞り込むという従来の方法において適切な検索結果を得るには、異言語間のカテゴリの対応関係が1対1であることを必要とされる。このような条件は、例えば、新規の原文書が次々と検索対象に追加され、それに伴ってカテゴリの新設や分類軸の見直しが随時必要となるシステムには不向きである。この種のシステムは、例えば、サービス事業者のコンタクトセンターで利用される知識ベース、すなわち顧客応対業務の担当者たちが応対案件の報告書を登録し共有するデータベースなどがその典型例である。
本発明の目的は、検索対象の文書が言語毎に管理されており、且つ、各文書が言語毎に独自のカテゴリによって分類されている場合であっても、より適切な文書を提示し得る手法を提供することにある。
本発明に係る多言語文書検索装置は、プロセッサと、言語ごとに規定された文書カテゴリを割り当てられた複数の原文書を言語別に記憶する記憶媒体とを備え、前記プロセッサは、原文書の翻訳により翻訳文書を生成する手段と、翻訳文書を当該原文書に関連付けて言語別に前記記憶媒体へ格納する手段と、翻訳文書と同一言語の文書カテゴリから該翻訳文書の文書カテゴリを求める手段と、入力された検索クエリに適合する適合候補を該検索クエリと同一言語の原文書および翻訳文書から検索する手段と、前記適合候補に対する翻訳文書または原文書の文書カテゴリを認識し、該文書カテゴリに属する他の文書に対する翻訳文書または原文書のうち前記検索クエリと同一言語の文書を関連候補として抽出し、該関連候補および前記適合候補を検索結果として出力する手段とを有する。
本発明に係る多言語文書検索方法は、言語ごとに規定された文書カテゴリを割り当てられた複数の原文書を言語別に記憶する記憶媒体と接続されたプロセッサが、原文書の翻訳により翻訳文書を生成するステップと、翻訳文書を当該原文書に関連付けて言語別に前記記憶媒体へ格納するステップと、翻訳文書と同一言語の文書カテゴリから該翻訳文書の文書カテゴリを求めるステップと、入力手段により入力された検索クエリに適合する適合候補を該検索クエリと同一言語の原文書および翻訳文書から検索するステップと、前記適合候補に対する翻訳文書または原文書の文書カテゴリを認識し、該文書カテゴリに属する他の文書に対する翻訳文書または原文書のうち前記検索クエリと同一言語の文書を関連候補として抽出し、該関連候補および前記適合候補を検索結果として出力手段から出力するステップとを備える。
かかる本発明の基本構想を説明すると、文書検索の前処理として、各言語の原文書から翻訳処理により翻訳文書を生成し、生成した翻訳文書を当該言語の文書カテゴリに分類する。例えば、原文書が日本語である場合、翻訳した英語文書を英語の文書カテゴリに分類することとなる。
上記前処理の後、ある言語で検索クエリが入力されると、同言語の原文書および翻訳文書から検索クエリに適合する適合候補を検索する。また、検出された適合候補と言語上の対となる文書、すなわち適合候補に対し原文書及び翻訳文書の関係にある文書について、そのカテゴリを求める。
さらに、求めたカテゴリに属する他の文書と対になる文書のうち、検索クエリと同一言語の文書を関連候補として検出する。その結果、検索クエリと同一言語の適合候補および関連候補が検出され、これらの候補を検索結果として出力する。このような構成を採用し、多言語文書検索を行うことにより本発明の目的を達成することができる。
本発明によれば、多言語文書の検索処理において、検索クエリにマッチする適合候補に加え、この適合候補と対の文書が属するカテゴリを利用して関連候補を抽出することから、各言語のカテゴリの分類軸や粒度が一致せず、異言語間のカテゴリの対応関係が1対1とならない場合でも、適切な検索結果を提示することができる。これにより、新規の原文書が次々と検索対象に追加されるようなシステムにおいても検索精度の向上を図ることができる。
本発明を実施するための最良の形態について図面を参照して詳細に説明する。本実施形態では、検索対象の文書データが日本語及び英語の二言語であり、これら二言語のそれぞれに独自の文書カテゴリが設けられているとする。独自の文書カテゴリが設定された状態とは、すなわち、文学、政治、科学といった文書カテゴリの構成内容が各言語で共通ではないことを指す。また、以下の説明において日本語カテゴリ及び英語カテゴリとは、予め各言語の原文書に関連付けられている文書カテゴリを指す。
図1を参照すると、本実施形態の多言語文書検索装置であるコンピュータは、キーボードのような入力手段100と、プログラム制御により動作するプロセッサ200と、ハードディスクのような記憶媒体300と、ディスプレイおよびプリンタ等の出力手段400とを備える。
プロセッサ200は、その機能構成として、多言語文書の検索に関する処理を行う文書検索統合手段201、日本語文書検索手段202及び英語文書検索手段203と、文書検索に先立つ前処理を行う英日翻訳処理手段204、日英翻訳処理手段205、日本語カテゴリ判別手段206及び英語カテゴリ判別手段207とを有する。これらの機能構成は、記憶媒体300等に格納されているプログラム(図示略)をプロセッサ200が実行することにより実現される機能に対応する。
記憶媒体300は、日本語の原文書を記憶する日本語文書保持手段301と、英語の原文書を記憶する英語文書保持手段302と、言語ごとに独自に設定された文書カテゴリと原文書との関連を記憶する日本語カテゴリ保持手段303及び英語カテゴリ保持手段304と、英日翻訳処理手段204による翻訳文書を記憶する英日翻訳文書保持手段305と、日英翻訳処理手段205による翻訳文書を記憶する日英翻訳文書保持手段306と、日本語及び英語間の翻訳辞書を記憶する英日対訳辞書保持手段307及び日英対訳辞書保持手段308とを有する。
図2に示すフローチャートを参照して本実施形態の全体の動作について詳細に説明する。まず、検索を実行する前段階として、文書検索に必要なデータが記憶媒体300に登録されているか否かをチェックし(ステップA0)、否の場合、次に説明する前処理を実行する。
日英翻訳処理手段205は、日本語文書保持手段301に記憶されている日本語文書を入力して日英翻訳処理を行い、その翻訳結果を日英翻訳文書として、翻訳元の日本語文書との対応関係と共に日英翻訳文書保持手段306に記録する(ステップA1)。さらに、日英翻訳文書と翻訳元の日本語文書とを、翻訳処理の過程で得られるそれぞれの言語での単語境界情報と共に、英語カテゴリ判別手段207に出力する。
英語カテゴリ判別手段207は、入力された日英翻訳文書を英語カテゴリに分類する(ステップA2)。これは、現時点で未分類の日英翻訳文書を新たな英語の文書とみなし、それが英語カテゴリの何れに分類されるかを判断するという処理に相当する。具体的には、英語カテゴリ判別手段207が、対象の日英翻訳文書について、英語カテゴリ保持手段304に記憶されている英語カテゴリの何れに分類されるかを判断する。なお、一つの日英翻訳文書が3つ以上のカテゴリに分類されても、いずれのカテゴリに分類されなくてもよい。
日英翻訳文書を英語カテゴリに分類する方法としては二通りある。一つは、日英翻訳文書をそのまま分類するという方法であり、もう一つは、翻訳元の日本語文書を用いて日英翻訳文書を英語カテゴリに分類するというものである。前者は、対象の日英翻訳文書を既存の英語文書と比較し、両者間の単語の一致度に基づき日英翻訳文書の英語カテゴリを決定するという方法である。
以下、後者の日本語文書を用いて分類する方法について詳細に説明する。英語カテゴリ判別手段207は、英語カテゴリと各カテゴリに属する英語文書との対応関係を英語カテゴリ保持手段304から取得し、また、各カテゴリに属する英語文書を英語文書保持手段302から取得する。そして、翻訳元となる日本語文書と各英語文書との間の類似度を、両文書の単語が一致する割合などに基づいて計算する。
日本語文書と英語文書との類似度を計算するにあたっては、当分野にて従来知られた方法を用いる。例えば、文書中に出現する各単語を次元とし、その出現頻度、あるいは出現頻度に単語の重み付けを掛け合わせた値(tf*idf(tf:Term Frequency、idf:Inverse Document Frequency))を要素に持つような文書ベクトルを求め、この文書ベクトルの内積を二文書の類似度とするという方法を用いることができる。
また、英語カテゴリ判別手段207は、日本語文書中の単語を英語文書の単語と照合するにあたり、単語境界情報を用いて、日本語文書及び英語文書を構成する単語を認識する。そして、日本語文書中の単語に対する訳語候補を日英対訳辞書保持手段308から取得し、これらの訳語候補と合致する単語の候補を英語文書から求める。なお、日本語文書中の単語の訳語候補が、日英翻訳文書中で対応する単語の訳語と異なる場合は、日英翻訳文書中の該当箇所に第2訳語候補として括弧書きなどで挿入すれば、訳語選択誤りによる検索精度の低下や、翻訳誤りによる読みにくさを改善する効果が期待できる。
英語カテゴリ判別手段207は、日本語文書及び英語文書間の類似度についての計算結果を基に、日本語文書に極めて類似する英語文書が存在する英語カテゴリ、あるいは、大半の英語文書と日本語文書とが一定以上の類似度を示す英語カテゴリを選定する。そして、選定した英語カテゴリを、未分類であった日英翻訳文書のカテゴリに決定し、この日英翻訳文書をその英語カテゴリに関連付けて日英対訳辞書保持手段308へ保存する。
日英翻訳文書のカテゴリ分けに翻訳元の日本語文書を用いる上記方法には、次のメリットがある。一般に、翻訳処理では原語に対し訳語が一意に決定されるため、たとえ翻訳が正しく行われても、日本語での意味が同一となる英単語同士が文字的に一致しないことにより、該当文書として検出されない可能性がある。これに対し、日本語文書の単語を対訳辞書にて翻訳しながら英語文書と照合するという上記方法では、複数の訳語候補のうち、照合相手の単語と合致するものがあればカウントされるため、異言語間の文書照合に柔軟性を与えることができる。
英日翻訳処理手段204は、英語カテゴリ判別手段207が行った処理手順と同様な手順により、英語文書保持手段302に記憶されている英語文書を日本語に翻訳する(ステップA3)。日本語カテゴリ判別手段206は、英語カテゴリ判別手段207が日英方向で行った処理と同様の処理を英日方向で行う(ステップA4)。なお、図2に示す手順では日英翻訳の後に英日翻訳が行われるが、この順序は限定されるものではなく、図示の逆の順序であってもよい。
上記の前処理の完了後、ユーザが検索キーワードの入力操作を行うことにより、入力手段100から検索クエリが入力されると(ステップA5)、このクエリに対する検索処理を以下の手順にて行う。
まず、文書検索統合手段201は、入力された検索クエリの言語を判別し(ステップA5−1)、その結果、検索クエリの言語が日本語である場合は、日本語文書検索手段202との協働により、後述する日本語の適合候補および関連候補を検索する(ステップA6)。また、検索クエリの言語が英語である場合、文書検索統合手段201は、英語文書検索手段203との協働により英語の適合候補および関連候補を検索する(ステップA7)。
ここで、図3に示すフローチャートを参照して、適合候補及び関連候補の検索手順について説明する。以下、一例として、検索クエリが日本語であるケースを説明する。
文書検索統合手段201は、日本語の検索クエリを日本語文書検索手段202へ出力する。日本語文書検索手段202は、入力された検索クエリに対し、日本語文書保持手段301の全ての日本語文書と、英日翻訳文書保持手段305の全ての英日翻訳文書とを検索対象として、クエリの条件に適合する文書を検索し、これにより得られた文書集合を適合候補として文書検索統合手段201へ出力する(ステップS1)。適合候補としては、日本語文書および英日翻訳文書のいずれか一方に限らず、双方が混在してもよい。
文書検索統合手段201は、日本語文書検索手段202から適合候補を取得すると、適合候補となる日本語文書及び英日翻訳文書が属する日本語カテゴリを日本語カテゴリ保持手段303から取得する(ステップS2)。カテゴリの取得に成功した場合、すなわち適合候補が何れかの日本語カテゴリに属する場合(ステップS3:Yes)、そのカテゴリに含まれる他の文書を関連候補として抽出する(ステップS4)。
このとき、1つの文書に対し複数のカテゴリを得た場合は、各カテゴリから関連候補を抽出する。なお、対象のカテゴリ内に他の文書が存在しない場合、あるいは適合候補が何れのカテゴリにも属さない場合(ステップS3:No)は、次のステップへ移行する。
次に、文書検索統合手段201は、適合候補と対になる文書、すなわち日本語文書の翻訳結果にあたる日英翻訳文書、および、英日翻訳文書の翻訳元にあたる英語文書を検索し、それらのカテゴリを英語カテゴリ保持手段304から求める(ステップS5)。その結果、適合候補と対になる文書が何れかの英語カテゴリに属する場合(ステップS6:Yes)、そのカテゴリに属する他の文書に着目し、着目した各文書と対になる文書、すなわち日本語文書または英日翻訳文書を関連候補として抽出する(ステップS7)。
最後に、文書検索統合手段201は、上記手順により得た日本語の適合候補及び関連候補を併せて出力手段400へ出力する(ステップS8)。
上記説明は検索クエリが日本語であるケースであったが、英語の場合は、文書検索統合手段201がそのクエリを英語文書検索手段203へ出力することにより、以降、図3に示す上記手順に沿って同様の検索処理を行う。これにより、英語の検索クエリに対し、英語の適合候補及び関連候補を得る。
以上の処理により、先に入力された検索クエリに対する検索結果として、適合候補および関連候補が出力手段400によりユーザに提示される(図2:ステップA8)。
《具体例》
本実施形態の理解を深めるため、具体的な例を用いて詳細に説明する。ここでは、図4に示すように、日本語文書保持手段301にある日本語文書dJ1、dJ2、dJ3がカテゴリJaに分類され、また、英語文書保持手段302の英語文書dE1、dE2、dE3がカテゴリEbに分類されているとする。図5に、これら原文書の一例を示す。以降では、同図5に示す日本語の検索クエリqにより多言語文書を検索する例について説明する。
日英翻訳処理手段205は、日本語文書dJ1、dJ2、dJ3から日英翻訳文書dJ1´、dJ2´、dJ3´を生成して日英翻訳文書保持手段306に記録する(図2:ステップA1)。英日翻訳処理手段204は、英語文書dE1、dE2、dE3から英日翻訳文書dE1´、dE2´、dE3´を生成して英日翻訳文書保持手段305に記録する(図2:ステップA3)。図6に、上記の翻訳処理により生成された翻訳文書と原文書との関連を模式的に示す。
英語カテゴリ判別手段207は、日英翻訳文書dJ1´、dJ2´、dJ3´を英語カテゴリに分類する(図2:ステップA2)。ここでは、図7に示すように、日英翻訳文書dJ1´は英語文書dE1、dE2、dE3と同じ英語カテゴリEbに分類され、残りの日英翻訳文書dJ2´およびdJ3´はそれぞれ別の英語カテゴリEcおよびEdに分類されたとする。
また、日本語カテゴリ判別手段206が、英日翻訳文書dE1´、dE2´、dE3´に対し日本語カテゴリへの分類を行う(図2:ステップA4)。ここでは、図7に示すように、今回生成した全ての英日翻訳文書dE1´、dE2´、dE3´が何れの日本語カテゴリにも該当しないとする。
図7に示す状態にて前処理が完了した後、日本語検索クエリqが入力されると(図2:ステップA5)、日本語文書検索手段202は、この日本語の検索クエリqと同一言語である日本語文書dJ1、dJ2、dJ3、及び、英日翻訳文書dE1´、dE2´、dE3´を対象として適合候補の検索を行う。その結果、図8の(1)に示すように、検索クエリqに対し英日翻訳文書dE1´、dE2´が適合候補として検索されたとする。
次に、文書検索統合手段201が、適合候補としての英日翻訳文書dE1´、dE2´のカテゴリ、及び、その翻訳元である英語文書dE1、dE2のカテゴリを求め、各カテゴリから関連候補を抽出する。ここで、英日翻訳文書dE1´、dE2´は、いずれの日本語カテゴリにも属さないので、現時点で関連候補は抽出されない。なお、仮に、今回の適合候補が日本語文書dJ1であった場合は、そのカテゴリJaに属する他の文書である日本語文書dJ2、dJ3が関連候補として抽出されることとなる。
一方、英日翻訳文書dE1´、dE2´の翻訳元である英語文書dE1、dE2について検証すると、そのカテゴリは、図8の(2)に示すように英語カテゴリEbである。そこで、カテゴリEbにおいて、英語文書dE1、dE2以外の文書である英語文書dE3および日英翻訳文書dJ1´に着目し、これら着目した各文書と言語上の対になる文書を関連候補として抽出する。すなわち、図8の(3)に示すように、着目した英語文書dE3の翻訳結果である英日翻訳文書dE3´と、同じく着目した日英翻訳文書dJ1´の翻訳元である日本語文書dJ1とが関連候補となる。
最後に、文書検索統合手段201が、図8の(4)に示すように、適合候補としての2つの英日翻訳文書dE1´、dE2´と、関連候補としての2つの英日翻訳文書dE3´及び日本語文書dJ1とを検索クエリqに対する検索結果として出力手段400へ出力する。
以上説明した実施形態によれば、多言語文書の検索処理において、検索クエリにマッチする適合候補に加え、この適合候補と対の文書が属するカテゴリを利用して関連候補を抽出し、適合候補及び関連候補を併せて出力することから、各言語のカテゴリの分類軸や粒度が一致せず、異言語間のカテゴリの対応関係が1対1とならないシステムであっても、適切な検索結果を提示することができる。
なお、上記実施形態では、検索対象の言語種が2種類であったが、本発明は言語種が3種類以上である多言語文書検索にも適用可能である。その際、関連候補としての文書は、検索クエリと同一言語の文書を抽出するよう制御する。一例として、言語種が日本語/英語/独語の3種類である多言語検索について以下に説明する。
上記3言語による文書検索を実施するにあたっては、プロセッサ200の構成として、図1に示すものに、独語文書検索手段、独語カテゴリ判別手段、独日翻訳処理手段、日独翻訳処理手段、独英翻訳処理手段および英独翻訳処理手段を加える。また、記憶媒体300には、各言語に関し図1に示す構成と同様の、独語に関連する構成を加える。プロセッサ200による前処理としては、独語の原文書に対する日本語/英語への翻訳処理、日本語/英語の各原文書に対する独語への翻訳処理、及び、それぞれで得た翻訳文書を当該言語のカテゴリに分類する処理を加える。
次に、上記3言語による検索処理について具体例を用いて説明する。ここでは、図9に示すように、各言語の原文書である日本語文書dJ1/dJ2/dJ3、英語文書dE1/dE2/dE3、独語文書dG1/dG2が、それぞれ対応する日本語カテゴリJa、英語カテゴリEb、独語カテゴリGcに予め分類されているとする。
また、各言語の原文書に対する翻訳文書のカテゴリが、図10に示すように決定されたとする。図示の(J)なる符合は、日本語に翻訳された翻訳文書であることを示し、例えば、dE1 (J)は、英語文書dE1を和訳して得た英日翻訳文書を指す。また、同様に、(E)は英語の翻訳文書であることを示し、(G)は独語の翻訳文書であることを示す。
図10に示す状態にて前処理が完了した後、日本語クエリqが入力されると、日本語文書検索手段は、この日本語の検索クエリと同一言語である日本語文書dJ1/dJ2/dJ3、英日翻訳文書dE1 (J)/dE2 (J)/dE3 (J)、及び、独日翻訳文書dG1 (J)/dG2 (J)を対象として適合候補の検索を行う。その結果、図11の(1)に示すように、検索クエリqに対し英日翻訳文書dE1 (J)/dE2 (J)が適合候補として検索されたとする。
次に、文書検索統合手段が、適合候補としての英日翻訳文書dE1 (J)/dE2 (J)のカテゴリ、及び、その翻訳元である英語文書dE1/dE2のカテゴリを求め、各カテゴリから関連候補を抽出する。ここで、英日翻訳文書dE1 (J)/dE2 (J)は、いずれの日本語カテゴリにも属さないので、現時点で関連候補は抽出されない。
一方、英日翻訳文書dE1 (J)/dE2 (J)の翻訳元である英語文書dE1/dE2について検証すると、そのカテゴリは、図11の(2)に示すように英語カテゴリEbである。そこで、カテゴリEbにおいて、英語文書dE1/dE2以外の文書である英語文書dE3と、日英翻訳文書dJ1 (E)と、独英翻訳文書dG1 (E)/dG2 (E)とに着目し、これら着目した各文書と言語上の対になる文書を関連候補として抽出する。
図11の(3)に示すように、関連候補としては、まず、着目した英語文書dE3の翻訳結果である英日翻訳文書dE3 (J)と、同じく着目した日英翻訳文書dJ1 (E)の翻訳元である日本語文書dJ1とが抽出される。
また、同じく着目した独英翻訳文書dG1 (E)/dG2 (E)の場合、その翻訳元は独語文書dG1/dG2であり、今回の検索クエリ(日本語)とは言語が一致しない。この場合、独英翻訳文書dG1 (E)/dG2 (E)を関連候補の抽出処理から除外してもよいが、図11の(3)´に示すような手順を加えることにより、より多くの関連候補を得ることができる。すなわち、着目した独英翻訳文書dG1 (E)/dG2 (E)の翻訳元となる独語文書dG1/dG2に対する日本語による翻訳文書、すなわち独日翻訳文書dG1 (J)/dG2 (J)を関連候補に加える。
最後に、文書検索統合手段が、図11の(4)に示すように、適合候補としての2つの英日翻訳文書dE1 (J)/dE2 (J)と、関連候補としての日本語文書dJ1、英日翻訳文書dE3 (J)および独日翻訳文書dG1 (J)/dG2 (J)を検索クエリqに対する検索結果として出力手段へ出力する。
3言語以上の文書検索では、適合候補の対となる文書のカテゴリ(Eb)に、検索クエリの言語と関連しない独英翻訳文書dG1 (E)/dG2 (E)のような文書が含まれる可能性があるが、これらの文書を媒介にした(3)´に示す検索を加えることにより、文書の検索範囲が拡大され、結果、より多くの検索結果をユーザに提示することができる。
本発明は、特許、論文、製品やサービスFAQ、コンタクトセンターの応対記録、オフィス文書など、カテゴリ分類された多言語文書を検索する用途に好適である。また、このような多言語文書の分類及び検索を行う文書共有システムにも適用可能である。
本発明の実施形態の構成を示すブロック図である。 実施形態の動作手順を示すフローチャートである。 実施形態における文書検索に関する手順を示すフローチャートである。 実施形態の具体例を説明するための説明図(その1)である。 実施形態の具体例を説明するための説明図(その2)である。 実施形態の具体例を説明するための説明図(その3)である。 実施形態の具体例を説明するための説明図(その4)である。 実施形態の具体例を説明するための説明図(その5)である。 他の実施形態の具体例を説明するための説明図(その1)である。 他の実施形態の具体例を説明するための説明図(その2)である。 他の実施形態の具体例を説明するための説明図(その3)である。
符号の説明
100 入力手段
200 プロセッサ
300 記憶媒体
400 出力手段
201:文書検索統合手段、202:日本語文書検索手段、203:英語文書検索手段、204:英日翻訳処理手段、205:日英翻訳処理手段、206:日本語カテゴリ判別手段、207:英語カテゴリ判別手段
301:日本語文書保持手段、302:英語文書保持手段、303:日本語カテゴリ保持手段、304:英語カテゴリ保持手段、305:英日翻訳文書保持手段、306:日英翻訳文書保持手段、307:英日対訳辞書保持手段、308:日英対訳辞書保持手段

Claims (9)

  1. プロセッサと、言語ごとに規定された文書カテゴリを割り当てられた複数の原文書を言語別に記憶する記憶媒体とを備え、
    前記プロセッサは、
    原文書の翻訳により翻訳文書を生成する手段と、
    翻訳文書を当該原文書に関連付けて言語別に前記記憶媒体へ格納する手段と、
    翻訳文書と同一言語の文書カテゴリから該翻訳文書の文書カテゴリを求める手段と、
    入力された検索クエリに適合する適合候補を該検索クエリと同一言語の原文書および翻訳文書から検索する手段と、
    前記適合候補に対する翻訳文書または原文書の文書カテゴリを認識し、該文書カテゴリに属する他の文書に対する翻訳文書または原文書のうち前記検索クエリと同一言語の文書を関連候補として抽出し、該関連候補および前記適合候補を検索結果として出力する手段とを有することを特徴とする多言語文書検索装置。
  2. 前記プロセッサは、関連候補を抽出するとき、前記認識した文書カテゴリに属する他の文書に、対応する原文書の言語が前記検索クエリの言語と異なる翻訳文書が存在する場合、その原文書に対する翻訳文書のうち前記検索クエリと同一言語の翻訳文書を前記関連候補に加えることを特徴とする請求項1記載の多言語文書検索装置。
  3. 前記プロセッサは、翻訳文書の文書カテゴリを求めるとき、当該言語の文書カテゴリに属する原文書と前記翻訳文書の翻訳元の原文書とを単語ごとの対訳により照合し、該照合による両文書の類似度に基づき前記翻訳文書の文書カテゴリを決定することを特徴とする請求項1又は2記載の多言語文書検索装置。
  4. 前記プロセッサは、翻訳文書の文書カテゴリを求めるとき、当該言語の文書カテゴリに属する原文書と前記翻訳文書とを単語ごとに照合し、該照合による両文書の類似度に基づき前記翻訳文書の文書カテゴリを決定することを特徴とする請求項1又は2記載の多言語文書検索装置。
  5. コンピュータを、請求項1乃至4のいずれか1項に記載の多言語文書検索装置として機能させることを特徴とするプログラム。
  6. 言語ごとに規定された文書カテゴリを割り当てられた複数の原文書を言語別に記憶する記憶媒体と接続されたプロセッサが、
    原文書の翻訳により翻訳文書を生成するステップと、
    翻訳文書を当該原文書に関連付けて言語別に前記記憶媒体へ格納するステップと、
    翻訳文書と同一言語の文書カテゴリから該翻訳文書の文書カテゴリを求めるステップと、
    入力手段により入力された検索クエリに適合する適合候補を該検索クエリと同一言語の原文書および翻訳文書から検索するステップと、
    前記適合候補に対する翻訳文書または原文書の文書カテゴリを認識し、該文書カテゴリに属する他の文書に対する翻訳文書または原文書のうち前記検索クエリと同一言語の文書を関連候補として抽出し、該関連候補および前記適合候補を検索結果として出力手段から出力するステップとを備えることを特徴とする多言語文書検索方法。
  7. 前記プロセッサが、検索結果を出力する前記ステップにおいて、
    前記認識した文書カテゴリに属する他の文書に、対応する原文書の言語が前記検索クエリの言語と異なる翻訳文書が存在する場合、その原文書に対する翻訳文書のうち前記検索クエリと同一言語の翻訳文書を前記関連候補に加えることを特徴とする請求項6記載の多言語文書検索方法。
  8. 前記プロセッサが、翻訳文書の文書カテゴリを求める前記ステップにおいて、
    当該言語の文書カテゴリに属する原文書と前記翻訳文書の翻訳元の原文書とを単語ごとの対訳により照合し、該照合による両文書の類似度に基づき前記翻訳文書の文書カテゴリを決定することを特徴とする請求項6又は7記載の多言語文書検索方法。
  9. 前記プロセッサが、翻訳文書の文書カテゴリを求める前記ステップにおいて、
    当該言語の文書カテゴリに属する原文書と前記翻訳文書とを単語ごとに照合し、該照合による両文書の類似度に基づき前記翻訳文書の文書カテゴリを決定することを特徴とする請求項6又は7記載の多言語文書検索方法。
JP2005205370A 2005-07-14 2005-07-14 多言語文書検索装置および多言語文書検索方法、並びに、多言語文書を検索するプログラム Expired - Fee Related JP4640593B2 (ja)

Priority Applications (1)

Application Number Priority Date Filing Date Title
JP2005205370A JP4640593B2 (ja) 2005-07-14 2005-07-14 多言語文書検索装置および多言語文書検索方法、並びに、多言語文書を検索するプログラム

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
JP2005205370A JP4640593B2 (ja) 2005-07-14 2005-07-14 多言語文書検索装置および多言語文書検索方法、並びに、多言語文書を検索するプログラム

Publications (2)

Publication Number Publication Date
JP2007025939A JP2007025939A (ja) 2007-02-01
JP4640593B2 true JP4640593B2 (ja) 2011-03-02

Family

ID=37786626

Family Applications (1)

Application Number Title Priority Date Filing Date
JP2005205370A Expired - Fee Related JP4640593B2 (ja) 2005-07-14 2005-07-14 多言語文書検索装置および多言語文書検索方法、並びに、多言語文書を検索するプログラム

Country Status (1)

Country Link
JP (1) JP4640593B2 (ja)

Families Citing this family (6)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
WO2008120360A1 (ja) * 2007-03-29 2008-10-09 Fujitsu Limited 多言語検索プログラム
JP5526199B2 (ja) * 2012-08-22 2014-06-18 株式会社東芝 文書分類装置および文書分類処理プログラム
CN103399931B (zh) * 2013-08-07 2017-07-25 百度在线网络技术(北京)有限公司 搜索结果的提供方法、终端和系统及渲染方法
JP6484974B2 (ja) * 2014-09-24 2019-03-20 富士ゼロックス株式会社 情報処理装置、情報処理システム及びプログラム
KR20170122505A (ko) 2016-04-27 2017-11-06 삼성전자주식회사 부가 정보를 제공하는 단말 장치 및 제공 방법
JP6534767B1 (ja) * 2018-08-28 2019-06-26 本田技研工業株式会社 データベース作成装置及び検索システム

Citations (5)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2002183134A (ja) * 2000-12-18 2002-06-28 Logo Vista Corp 翻訳装置
JP2003076710A (ja) * 2001-09-04 2003-03-14 Japan Science & Technology Corp 多言語情報検索システム
JP2003141125A (ja) * 2001-11-07 2003-05-16 Nec Corp マルチメディア情報統合検索装置およびその方法
JP2003296356A (ja) * 2002-04-05 2003-10-17 Nec Corp Webページ検索方法、Webページ検索システム及びWebページ検索用プログラム
JP2005107705A (ja) * 2003-09-29 2005-04-21 Hitachi Ltd 複数言語を対象とした文書分類装置及び文書分類方法

Patent Citations (5)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2002183134A (ja) * 2000-12-18 2002-06-28 Logo Vista Corp 翻訳装置
JP2003076710A (ja) * 2001-09-04 2003-03-14 Japan Science & Technology Corp 多言語情報検索システム
JP2003141125A (ja) * 2001-11-07 2003-05-16 Nec Corp マルチメディア情報統合検索装置およびその方法
JP2003296356A (ja) * 2002-04-05 2003-10-17 Nec Corp Webページ検索方法、Webページ検索システム及びWebページ検索用プログラム
JP2005107705A (ja) * 2003-09-29 2005-04-21 Hitachi Ltd 複数言語を対象とした文書分類装置及び文書分類方法

Also Published As

Publication number Publication date
JP2007025939A (ja) 2007-02-01

Similar Documents

Publication Publication Date Title
Bennani-Smires et al. Simple unsupervised keyphrase extraction using sentence embeddings
US10489439B2 (en) System and method for entity extraction from semi-structured text documents
Putthividhya et al. Bootstrapped named entity recognition for product attribute extraction
US9280535B2 (en) Natural language querying with cascaded conditional random fields
US20070033001A1 (en) Identifying documents which form translated pairs, within a document collection
Ehsan et al. Candidate document retrieval for cross-lingual plagiarism detection using two-level proximity information
WO2005059771A1 (ja) 対訳判断装置、方法及びプログラム
WO2005124599A2 (en) Content search in complex language, such as japanese
JP2010519655A (ja) 名前照合システムの名前インデックス付け
Krishnaveni et al. Automatic text summarization by local scoring and ranking for improving coherence
Zhang et al. Continuous word embeddings for detecting local text reuses at the semantic level
US20040122660A1 (en) Creating taxonomies and training data in multiple languages
Kettunen et al. Analyzing and improving the quality of a historical news collection using language technology and statistical machine learning methods
US8554539B2 (en) Method for analyzing morpheme using additional information and morpheme analyzer for executing the method
Nehar et al. Rational kernels for Arabic root extraction and text classification
Yunus et al. A context free spell correction method using supervised machine learning algorithms
JP4640593B2 (ja) 多言語文書検索装置および多言語文書検索方法、並びに、多言語文書を検索するプログラム
Debnath et al. NLP-NITMZ@ CLScisumm-18.
Garrido et al. Improving the generation of infoboxes from data silos through machine learning and the use of semantic repositories
Alfonseca et al. German decompounding in a difficult corpus
Ehsan et al. A Pairwise Document Analysis Approach for Monolingual Plagiarism Detection.
Saeed et al. An abstractive summarization technique with variable length keywords as per document diversity
JP4401269B2 (ja) 対訳判断装置及びプログラム
Garrido et al. NEREA: Named entity recognition and disambiguation exploiting local document repositories
Çavusoğlu et al. Key extraction in table form documents: insurance policy as an example

Legal Events

Date Code Title Description
RD04 Notification of resignation of power of attorney

Free format text: JAPANESE INTERMEDIATE CODE: A7424

Effective date: 20080521

A621 Written request for application examination

Free format text: JAPANESE INTERMEDIATE CODE: A621

Effective date: 20080611

RD03 Notification of appointment of power of attorney

Free format text: JAPANESE INTERMEDIATE CODE: A7423

Effective date: 20100927

RD04 Notification of resignation of power of attorney

Free format text: JAPANESE INTERMEDIATE CODE: A7424

Effective date: 20100927

TRDD Decision of grant or rejection written
A01 Written decision to grant a patent or to grant a registration (utility model)

Free format text: JAPANESE INTERMEDIATE CODE: A01

Effective date: 20101104

A01 Written decision to grant a patent or to grant a registration (utility model)

Free format text: JAPANESE INTERMEDIATE CODE: A01

A61 First payment of annual fees (during grant procedure)

Free format text: JAPANESE INTERMEDIATE CODE: A61

Effective date: 20101117

R150 Certificate of patent or registration of utility model

Ref document number: 4640593

Country of ref document: JP

Free format text: JAPANESE INTERMEDIATE CODE: R150

FPAY Renewal fee payment (event date is renewal date of database)

Free format text: PAYMENT UNTIL: 20131210

Year of fee payment: 3

LAPS Cancellation because of no payment of annual fees