[go: up one dir, main page]

JP4066600B2 - 多言語文書検索システム - Google Patents

多言語文書検索システム Download PDF

Info

Publication number
JP4066600B2
JP4066600B2 JP2000387960A JP2000387960A JP4066600B2 JP 4066600 B2 JP4066600 B2 JP 4066600B2 JP 2000387960 A JP2000387960 A JP 2000387960A JP 2000387960 A JP2000387960 A JP 2000387960A JP 4066600 B2 JP4066600 B2 JP 4066600B2
Authority
JP
Japan
Prior art keywords
directory
language
search
document
holding
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Expired - Fee Related
Application number
JP2000387960A
Other languages
English (en)
Other versions
JP2002189745A (ja
Inventor
博 増市
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Fujifilm Business Innovation Corp
Original Assignee
Fuji Xerox Co Ltd
Fujifilm Business Innovation Corp
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Fuji Xerox Co Ltd, Fujifilm Business Innovation Corp filed Critical Fuji Xerox Co Ltd
Priority to JP2000387960A priority Critical patent/JP4066600B2/ja
Priority to US10/013,372 priority patent/US7047182B2/en
Publication of JP2002189745A publication Critical patent/JP2002189745A/ja
Application granted granted Critical
Publication of JP4066600B2 publication Critical patent/JP4066600B2/ja
Anticipated expiration legal-status Critical
Expired - Fee Related legal-status Critical Current

Links

Images

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F40/00Handling natural language data
    • G06F40/20Natural language analysis
    • G06F40/268Morphological analysis
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/30Information retrieval; Database structures therefor; File system structures therefor of unstructured textual data
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/90Details of database functions independent of the retrieved data types
    • G06F16/93Document management systems
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F40/00Handling natural language data
    • G06F40/40Processing or translation of natural language
    • G06F40/55Rule-based translation
    • YGENERAL TAGGING OF NEW TECHNOLOGICAL DEVELOPMENTS; GENERAL TAGGING OF CROSS-SECTIONAL TECHNOLOGIES SPANNING OVER SEVERAL SECTIONS OF THE IPC; TECHNICAL SUBJECTS COVERED BY FORMER USPC CROSS-REFERENCE ART COLLECTIONS [XRACs] AND DIGESTS
    • Y10TECHNICAL SUBJECTS COVERED BY FORMER USPC
    • Y10STECHNICAL SUBJECTS COVERED BY FORMER USPC CROSS-REFERENCE ART COLLECTIONS [XRACs] AND DIGESTS
    • Y10S707/00Data processing: database and file management or data structures
    • Y10S707/99941Database schema or data structure
    • Y10S707/99942Manipulating data structure, e.g. compression, compaction, compilation

Landscapes

  • Engineering & Computer Science (AREA)
  • Theoretical Computer Science (AREA)
  • General Engineering & Computer Science (AREA)
  • General Physics & Mathematics (AREA)
  • Physics & Mathematics (AREA)
  • Databases & Information Systems (AREA)
  • Data Mining & Analysis (AREA)
  • Health & Medical Sciences (AREA)
  • Artificial Intelligence (AREA)
  • Audiology, Speech & Language Pathology (AREA)
  • Computational Linguistics (AREA)
  • General Health & Medical Sciences (AREA)
  • Business, Economics & Management (AREA)
  • General Business, Economics & Management (AREA)
  • Machine Translation (AREA)
  • Information Retrieval, Db Structures And Fs Structures Therefor (AREA)

Description

【0001】
【発明の属する技術分野】
本発明はインターネット上に構築されたディレクトリ構造(階層構造)中に格納されている文書の検索システムに関し、特に異なる言語に対して構築された複数のディレクトリ構造をまたがる検索を行うシステムに関する。
【0002】
【従来の技術】
インターネット利用者の急増に伴い、インターネットの商業上の利用も拡大しつつある。WWWサーバー上に蓄積された多量の文書へのアクセスを容易にする方法の一つとして、ディレクトリ構造を定義し、適切なディレクトリに文書を格納するディレクトリサービスを挙げることができる。これは、ユーザが最上位のディレクトリから興味の対象に近いサブディレクトリを順に辿っていくことによって目的の文書に到達するという効果を狙ったものである。しかしながら、ユーザが常に最適なサブディレクトリを辿っていくことは不可能であり、全文検索等の検索技術を併用して目的の文書に到達する可能性を高めることがほとんどである。
【0003】
【発明が解決しようとする課題】
ディレクトリサービスは、特定の国/言語でサービスが開始された後、そこで使用されたディレクトリ構造がほとんどそのままの形で他の複数の国/言語へと移され、各国で同様のディレクトリサービスが行われることが多い。しかしながら、各国で行われているディレクトリサービスはそれぞれ独立したものであり、検索を行った場合単一のディレクトリ構造内に存在する文書が検索できるにすぎず、他国/他言語のディレクトリ構造内の文書を検索結果として得ることはできない。特にインターネット販売サイトやオークションサイト等の商用目的のディレクトリサービスでは、他の国/言語の文書を適切に検索できることは重要であり、現状においては多くの潜在的ビジネスチャンスを失っていることになる。
【0004】
本発明はこのような点に鑑みてなされたものであり、複数のディレクトリ構造をまたがっった検索を高い精度で実現することができる多言語文書検索システムを提供することを目的とする。
【0005】
【課題を解決するための手段】
これまで、言語の違いを超えて検索を行うために数多くの多言語情報検索手法が提案されてきた。例えば、「Deerwester, S., Dumais, S. T., Landauer, T. K., Furnas, G.W. and Harshman, R. A., ”Indexing by latent semantic analysis” Journal of the Society for Information Science, 41(6), 391−407.」に詳細が記述されているLatent Semantic Indexingと呼ばれる手法を翻訳テキストペアの集合(パラレルコーパス)へ適用することによって多言語情報検索を実現する方法が「Dumais, S. T., Landauer, T. K. and Littman, M. L., ”Automatic cross−linguistic information retrieval using Latent Semantic Indexing” In proceedings of SIGIR’96 − Workshop on Cross−Linguistic Information Retrieval,pp. 16−23, August 1996.」で提案されている。また、「Mark W. Davis and Ted E. Dunning, ”Query translation using evolutionary programming for multi−lingual information retrieval”, In Proceedings of the Fourth Annual Conference on Evolutionary Programming, March 1995.」で提案されている手法も多言語情報検索技術の代表例である。さらに「Peter F. Brown, Stephen A. Della Pietra,Vincent J. Della Pietra, and RobertL. Mercer, ”The mathematics of statistical Machine Translation: Parameter estimation”, Computational Linguistics, 32:263−311, 1993.」で述べられているように、パラレルコーパスを利用することによって機械翻訳を実現し、機械翻訳によって第1の言語で書かれた検索要求文を第2の言語へと翻訳することによって第2の言語で書かれた文書を検索するという手法の研究も多く行われてきた。
【0006】
しかしながら、現状においては、これらの多言語情報検索手法によって商用の実システムで使用するに充分な検索精度が実現できているとは言い難い。多言語情報検索の検索精度を低下させる最大の要因は、単語あるいはフレーズの意味曖昧性の問題である。一般に第1の言語のある単語(フレーズ)を第2の言語の単語(フレーズ)へと翻訳する際には、多くの翻訳候補が存在する。例えば、英語の「base」という単語は、軍事用語としては「基地」、野球用語としては「塁」、政治用語としては「支持母体」、数学用語としては「基数」、化学用語としては「塩基」、文法用語としては「期体」、建築用語としては「(塗料の)主成分」等、分野に依存して様々な翻訳候補が存在する。これらの翻訳候補は多くの場合分野依存であるため、多言語情報検索では、検索対象を特定の分野の文書集合に限れば高い精度が得られると言われている。
【0007】
本発明では、異なる言語を対象として構築された2つのディレクトリ構造間の各ディレクトリの対応関係を利用する。ユーザからの検索要求と関連性の高いディレクトリを選択し、得られたディレクトリと対応関係にある他言語のディレクトリに属する文書集合だけを検索対象として多言語情報検索を行うことによって、検索対象となる文書集合の分野を限定することができ、精度の高い多言語文書検索を行うことが可能となる。
【0008】
すなわち、図1に示すように、本発明の一側面によれば、上述の目的を達成するために、多言語検索システムに:第1の言語を対象として構築された第1のディレクトリ構造を保持する第1のディレクトリ保持手段1と;第2の言語を対象として構築された第2のディレクトリ構造を保持する第2のディレクトリ保持手段2と;第1のディレクトリ構造中の各ディレクトリと第2のディレクトリ構造中の各ディレクトリの対応関係を保持するディレクトリ関係保持手段3と;ユーザからの第1の言語による検索要求が第1のディレクトリ構造中のいずれのディレクトリと関連性が高いかを決定するディレクトリ検索手段4と;ディレクトリ検索手段によって決定されたディレクトリに対応する第2のディレクトリ構造中のディレクトリに属する文書群のうち、上記ユーザからの第1の言語による検索要求と関連性が高い文書を決定する多言語検索手段5とを設けるようにしている。
【0009】
この構成においては、先に述べたように、ユーザからの検索要求と関連性の高いディレクトリを選択し、得られたディレクトリと対応関係にある他言語のディレクトリに属する文書集合だけを検索対象として多言語情報検索を行うので、検索対象となる文書集合の分野を限定することができ、精度の高い多言語文書検索を行うことが可能となる。
【0010】
この構成において、第1のディレクトリが記憶されいるサーバと第2のディレクトリが記憶されているサーバとが異なる場合には、第1のディレクトリが記憶されているサーバに、第2のディレクトリが記憶されているサーバと通信可能な通信手段が設けられ、この通信手段を介して多言語の検索が行われる。
【0011】
なお、本発明の上述の一側面および他の側面は特許請求の範囲に記載されるとおりであり、以下詳細に説明される。
【0012】
また、本発明はシステムや装置として実現できるだけでなく、方法の態様でも実現できることはもちろんであり、その一部をコンピュータプログラムとして実現できることももちろんである。
【0013】
また、本発明は、検索サーバとして実現することも可能であり、また、本発明の一部をクライアント装置に実装するようにしても良いことはもちろんである。
【0014】
【発明の実施の形態】
以下、実施例を用いて本発明を詳細に説明する。
[実施例1]
本発明を実施例1に基づいて具体的に説明する。本実施例は請求項に対応するものである。図2を参照して本実施例に係る多言語文書検索システムの構成を説明する。なお、本実施例および後述する実施例2では日本語と英語を対象として説明を行うが、形態素解析処理(文を単語へと分割する処理)が適用可能な言語であればいかなる言語であっても同様の効果を得ることができる。
【0015】
第1のディレクトリ保持手段11および第2のディレクトリ保持手段12は、それぞれ複数の日本語文書および複数の英語文書を格納するディレクトリ構造(第1のディレクトリ構造と第2のディレクトリ構造)を計算機内部に保持する手段である。両手段によって保持されるディレクトリ構造の例(オークションサイトの例)を図3に示す。各ディレクトリには、ディレクトリに格納されている文書の内容(分野)に従って、それぞれ固有の名前(識別子)が付与されている。また、最下層のディレクトリにのみ文書が格納されている。
【0016】
ディレクトリ関係保持手段13には、第1のディレクトリ保持手段11に保持されている第1のディレクトリ構造中の各ディレクトリと第2のディレクトリ保持手段12に保持されている第2のディレクトリ構造中の各ディレクトリの対応関係が保持されている。ここでの対応関係とは、2つのディレクトリ中の文書集合の分野が等しいことを意味するものである。ディレクトリ関係保持手段13に保持される対応関係の例を図4に示す。本実施例では、第1のディレクトリ保持手段11に保持されている第1のディレクトリ構造中の各ディレクトリと第2のディレクトリ保持手段12に保持されている第2のディレクトリ構造中の各ディレクトリの対応関係が一対一に定義されており、また両ディレクトリの構造が完全に等しいものとする。しかし、対応関係が定義されていないディレクトリが一部存在する場合でも、対応関係が定義されているディレクトリについては全く同様の効果を得ることができる。
【0017】
全ディレクトリ単語ベクトル生成手段14は、第1のディレクトリ構造中に含まれる全ての日本語文書を学習データとして、そこに含まれる全ての日本語単語の各々に対して、対応する多次元ベクトル(単語ベクトル)を計算する手段である。以下、単語ベクトルを計算するアルゴリズムを説明する。
【0018】
<ステップS1>:第1のディレクトリ構造中に含まれる全ての日本語文書に対して形態素解析処理を施す。
<ステップS2>:ステップS1で得られた全日本語単語のうち、第1のディレクトリ構造中に含まれる全ての日本語文書中で出現頻度の多いものから順にn個の単語を選択する。ここで得られたn個の単語のことを特徴表現語と呼ぶことにする。nの値は数千のオーダーとする。
<ステップS3>:行と列がそれぞれ、ステップS1で得られた全日本語単語、および特徴表現語に対応する行列を作成する。ステップS1で得られた全日本語単語の総異なり語数が10万であり、nの値を3,000とした場合、10万行×3,000列の行列ができることになる。この行列の各要素には、その要素の行に対応する単語と列に対応する特徴表現語が、第1のディレクトリ構造中に含まれる全ての日本語文書中で何度共起したかを記録する。例えば、単語aと特徴表現語bが30の文書の中で共起している(同時に出現している)場合、対応する行列要素に30と記録することになる。こうして得られた行列のことを共起行列と呼ぶことにする。このようにして、日本語文書中に含まれる全ての日本語単語に対してn次元のベクトルを定義することができる。このベクトルは、各日本語単語がどのようなコンテキストで出現しやすい傾向にあるかを示すベクトルであるといえる。
<ステップS4>:ステップS3で得られたn次元のベクトルは次元数が大きいため、後に必要となる処理で計算時間が膨大なものになってしまう。そこで、計算処理を実時間の範囲に抑えるために、元のn次元のベクトルを行列の次元圧縮手法によって、n’次元(数百次元)のベクトルへと圧縮する。次元圧縮手法には様々なものが存在するが、「Berry, M., Do, T., O’Brien, G., Krishna, V. and Varadhan, S. (1993). ”SVDPACKC USER’S GUIDE”. Tech. Rep. CS−93−194. University of Tennessee, Knoxville, TN.」で詳細な説明がなされているSingular Value Decompositionがその代表例である。このようにして全ての日本語単語に対して得られたn’次元のベクトルを単語ベクトルと呼ぶことにする。
【0019】
全ディレクトリ単語ベクトル保持手段15は、全ディレクトリ単語ベクトル生成手段14で計算された全日本語単語に対応する単語ベクトルを計算機内部に保持する手段である。
【0020】
ディレクトリベクトル生成手段16は、第1のディレクトリ構造中の各ディレクトリに対応するディレクトリベクトルを計算する手段である。以下、ディレクトリベクトルを計算するアルゴリズムを説明する。
【0021】
<ステップS11>:第1のディレクトリ構造中に含まれる全日本語文書の各々に対応する文書ベクトルを計算する。ここで、文書ベクトルとは、その文書中に含まれる全単語に対応する単語ベクトルの総和を正規化した(ベクトルの長さを1とした)ベクトルであるとする。
<ステップS12>:最下層に位置する各ディレクトリのディレクトリベクトルを計算する。ここで、最下層に位置するディレクトリのディレクトリベクトルとは、そのディレクトリ中に含まれる全文書に対応する文書ベクトルの総和を正規化したベクトルであるとする。
<ステップS13>:最下層に位置しないディレクトリであって、ディレクトリ中に含まれる全ディレクトリに対応するディレクトリベクトルが既に計算されているディレクトリを一つ見つけ、ディレクトリベクトルを計算する。ただし、最下層に位置しないディレクトリのディレクトリベクトルは、そのディレクトリ中に含まれる全ディレクトリに対応するディレクトリベクトルの総和を正規化したベクトルであるとする。
<ステップS14>:全てのディレクトリについてディレクトリベクトルが計算されるまで、ステップS13を繰り返す。
【0022】
ディレクトリベクトル保持手段17は、ディレクトリベクトル生成手段16で計算された全ディレクトリに対応するディレクトリベクトルを計算機内部に保持する手段である。
【0023】
学習データ保持手段18は、第1のディレクトリ保持手段11に保持されている第1のディレクトリ構造(あるいは第2のディレクトリ保持手段12に保持されている第2のディレクトリ構造)中のディレクトリのうち、最下層に位置するディレクトリのそれぞれに対して、ディレクトリに含まれる文書の内容に関係する(文書の分野に属する)日英の翻訳対の集合(日英のパラレルコーパス)を学習データとして保持する手段である。学習データ保持手段18が保持する学習データの例を図5に示す。
【0024】
ディレクトリ毎単語ベクトル生成手段19は、学習データ保持手段18に保持されている日英のパラレルコーパスを学習データとして、第1のディレクトリ構造中の各ディレクトリの意味内容(第2のディレクトリ構造中の各ディレクトリの意味内容)に特化した単語ベクトル集合をそれぞれ計算する手段である。以下、任意の一つのディレクトリ(ディレクトリA)に対応する単語ベクトル集合を計算するアルゴリズムを説明する。
【0025】
<ステップS21>:ディレクトリAに含まれる全ての最下層ディレクトリ(ディレクトリAが最下層ディレクトリであればディレクトリAそのもの)に対応して、学習データ保持手段18に保持されている全ての日英パラレルコーパスをまとめて学習データとみなし、学習データ中に含まれる全ての日本語文書および英語文書に対して形態素解析処理を施す。図5の例において、ディレクトリAが「骨董品(Antiques)」のディレクトリであれば、パラレルコーパス1−4をまとめて学習データとすることになる。
<ステップS22>:ステップS1で得られた全日本語単語および全英語単語のうち、学習データ中で出現頻度の多いものから順にn個の単語を選択する。ここで得られたn個の単語のことをステップS2と同様に特徴表現語と呼ぶことにする。ただし、この場合特徴表現語には日本語単語と英語単語が混在することになる。nの値は、ステップS2と同様、数千のオーダーとする。
<ステップS23>:行と列がそれぞれ、ステップS1で得られた全ての日本語/英語単語、および特徴表現語に対応する共起行列を作成する。この行列の各要素には、その要素の行に対応する単語と列に対応する特徴表現語が、学習データ中に含まれる全ての日英翻訳対中で何度共起したかを記録する。すなわち、日英の翻訳対を一つの文書であるとみなして共起の回数をカウントする。このようにして、全日本語単語と全英語単語をn次元のベクトルで表現する共起行列を生成することができる。このベクトルは、ディレクトリAの意味内容(分野)に即した、各単語の出現傾向を示すベクトルであるといえる。
<ステップS24>:ステップS23で得られたn次元のベクトルを、ステップS4と同様に、行列の次元圧縮手法によって、n’次元(数百次元)のベクトルへと圧縮する。このようにして全ての日本語/英語単語に対して同じベクトル空間上で比較可能なn’次元の単語ベクトルが得られることになる。
【0026】
上記のアルゴリズムによる計算を、第1のディレクトリ構造中の全ディレクトリ(すなわち第2のディレクトリ構造中の全ディレクトリ)に対して適用することによって、ディレクトリ構造中の各ディレクトリの意味内容に特化した単語ベクトル集合をそれぞれ計算することができる。
【0027】
ディレクトリ毎単語ベクトル保持手段110は、ディレクトリ毎単語ベクトル生成手段19で計算された単語ベクトル集合をディレクトリ毎に保持する手段である。
【0028】
文書ベクトル生成手段111は、第2のディレクトリ保持手段12が保持する第2のディレクトリ構造中の全ディレクトリの各々に対して、ディレクトリに属する各英語文書の文書ベクトルを計算する手段である。任意のディレクトリAに対して、ディレクトリAに属する各英語文書の文書ベクトルを計算する際に、ディレクトリ毎単語ベクトル保持手段110中にディレクトリAに対応して保持されている単語ベクトル集合を用いる。ここで、各英語文書の文書ベクトルは、文書中に含まれる全英単語に対応する単語ベクトルの総和を正規化したベクトルであるとして計算を行う。このようにして、第2のディレクトリ構造中の各ディレクトリに対して、それぞれその意味内容(分野)に特化した文書ベクトル集合を計算することができる。
【0029】
文書ベクトル保持手段112は、文書ベクトル生成手段111で計算された文書ベクトル集合を第2のディレクトリ構造中の各ディレクトリ毎に保持する手段である。
【0030】
検索要求取得手段113は、ユーザから日本語の文章による検索要求を受け取ることができるユーザインタフェースを持つ手段である。受け取った検索要求には形態素解析処理が施され日本語単語へと分割される。
【0031】
全ディレクトリ検索要求ベクトル生成手段114は、検索要求取得手段113によって受け取られたユーザからの検索要求に対応する検索要求ベクトルを計算する手段である。全ディレクトリ単語ベクトル保持手段15に保持されている単語ベクトル集合を用い、検索要求文章中に含まれる全日本語単語に対応する単語ベクトルの総和を正規化したベクトルを検索要求ベクトルとする。
【0032】
ディレクトリ検索手段115は、検索要求取得手段113によって受け取られたユーザからの検索要求が、第1のディレクトリ構造中のいずれのディレクトリと最も関連性が高いかを決定する手段である。この決定を行うために、ディレクトリ検索手段115は、全ディレクトリ検索要求ベクトル生成手段114によって計算された検索要求ベクトルと、ディレクトリベクトル保持手段17中に保持されている各ディレクトリベクトルの関連度を計算し、最も関連度の高いディレクトリベクトルを持つディレクトリを選択する。関連度の定義としては、ベクトル間の内積(コサイン値)を使用する。したがって、関連度は0と1の間の実数であり、2つのベクトル間の角度が小さいほど1に近づくことになる。
【0033】
ディレクトリ毎検索要求ベクトル生成手段116は、ディレクトリ検索手段115によって計算された検索要求と最も関連度の高いディレクトリの分野に特化した検索要求ベクトルを計算する手段である。まず、ディレクトリ検索手段115から得られた第1のディレクトリ構造中のディレクトリに対応する第2のディレクトリ構造中のディレクトリを、ディレクトリ関係保持手段13を参照することによって決定する。次に、そのディレクトリに対応する単語ベクトル集合をディレクトリ毎単語ベクトル保持手段110から得る。得られた単語ベクトル集合を用いて、検索要求文章中に含まれる全ての日本語単語に対応する単語ベクトルの総和を正規化したベクトルを計算し、新たな検索要求ベクトルとする。
【0034】
多言語検索手段117は、ディレクトリ毎検索要求ベクトル生成手段116によって計算された検索要求ベクトルと、ディレクトリ検索手段115で決定されたディレクトリに対応して文書ベクトル保持手段112に保持されている各文書ベクトルとの間の関連度を計算する。関連度の定義はディレクトリ検索手段115での定義と同様である。検索要求ベクトルは日本語文章に対するベクトルであり、文書ベクトル保持手段112に保持されている各文書ベクトルは英語文書に対するベクトルであるが、どちらのベクトルも、日本語単語と英語単語を同一のベクトル空間上に表現したディレクトリ毎単語ベクトル保持手段110中のベクトルの和として計算されたベクトルであるため、比較可能である。
【0035】
検索結果表示手段118は、多言語検索手段117によって計算された検索要求ベクトルと各文書ベクトルとの間の関連度を参照し、検索要求ベクトルと関連度の高い(ベクトルの内積が大きい)文書ベクトルに対応する文書を、検索結果としてユーザに提示する。
【0036】
なお、本実施例では、ディレクトリ検索手段115によってユーザからの検索要求と関連性の高いディレクトリを自動的に決定するものとしたが、関連性の高いディレクトリをユーザがディレクトリ構造を辿ることによって人手で決定するものとしても構わない。
【0037】
以上の構成によって得られる多言語文書検索装置では、日本語文章による検索要求に対して関連する英語文書を検索結果として得ることができ、上述した問題点(発明の課題)を解決することができる。
【0038】
また、日本語文書を対象とする第1のディレクトリ構造と英語文書を対象とする第2のディレクトリ構造の間の対応関係を利用することによって、(1)検索要求と関連性の高い分野の英語文書のみを検索対象とすることができ、さらに、(2)検索要求と関連性の高い分野の学習データを用いて検索を行うことができる。この2点の分野限定効果によって、従来の多言語情報検索の精度を低下させる原因であった、単語の意味曖昧性(意味の分野依存性)の問題を回避することが可能となり、多言語文書検索の検索精度を飛躍的に向上させることができる。
【0039】
本実施例では学習データとして、各最下層ディレクトリに対してパラレルコーパスを用意するものとしたが、請求項1の構成のように分野に特化した学習データを用いずに多言語文書検索を行った場合でも、上記(1)の効果が得られるため、従来の多言語文書検索に比べて高い精度の検索を行うことが可能である。
【0040】
さらに、請求項1の構成のように分野に特化した学習データを用いずに多言語文書検索を行う場合であっても、ディレクトリ関係保持手段によって対応関係が保持されている第1のディレクトリ保持手段中のディレクトリと第2のディレクトリ保持手段中のディレクトリのペア中に含まれる文書集合(以下文書集合Dと呼ぶ)を用いて、分野に特化した多言語情報検索を行うことが可能である。以下にその方法について述べる。
【0041】
構成は図2に示した上記の構成と同じであるとする。ただし、分野ごと(最下層ディレクトリごと)の学習データは持たないため、学習データ保持手段18は、ディレクトリ毎単語ベクトル生成手段19が各ディレクトリに対応する単語ベクトル集合を作成する際に共通に用いる日英のパラレルコーパスを1セットだけ保持するものとする。
【0042】
したがって、ディレクトリ毎単語ベクトル生成手段19が各ディレクトリに対応する単語ベクトル集合を作成する際、ステップS21では学習データとして常に上記共通のパラレルコーパスを用いる。また、ステップS23中で作成する共起行列の各要素を単語と特徴表現語の共起回数とする替わりに、式1で定義されるχ を用いた重み付き共起回数とする。式1で定義されるχ は、単語wに対する重み(ディレクトリAの分野での単語wの重要度)であり、上記重み付き共起回数とは、単語wu1と特徴表現語wu2の共起回数に対してχ u1とχ u2とを乗じた値であるとする。上記のχ は一般にχ検定と呼ばれる手法で用いられる値であり、集合全体とその部分集合中で異なる出現傾向を示す要素に対して高い値となる性質を持つものである。
【数1】
Figure 0004066600
このようにして得られたディレクトリごとの単語ベクトル集合は、そのディレクトリの分野に特化した単語ベクトル集合となる。したがって、請求項1の構成のように分野に特化した学習データを用いずに多言語文書検索を行った場合でも、上記(1)の効果に加えて(2)の効果を得ることも可能であり、従来の多言語文書検索に比べて高い精度の検索を行うことが可能である。
【0043】
なお、本実施例で利用した多言語文書検索手法の詳細は、文献「Hiroshi Masuichi, Raymond Flournoy, StefanKaufmann and Stanley Peters, ”QueryTranslation Method for Cross Language Information Retrieval”, The Proceedings of Machine Translation SummitVII ’99 Workshop on Machine Translation for Cross Language Information Retrieval, (1999)」に記述されている。
【0044】
[実施例2]
以下は、本発明の実施例2の説明である。本実施例は請求項に対応するものである。本実施例は、実施例1と比較して学習データ保持手段18の構成のみが異なる。したがって以下の説明では、学習データ保持手段18に係わる部分についての説明だけを行うものとする。図6は、図2中の学習データ保持手段18に対応する範囲の本実施例の構成を示す図である。その他の構成要素は図2と同じである。
【0045】
第1のディレクトリ保持手段11、第2のディレクトリ保持手段12およびディレクトリ関係保持手段13は図2中の各手段と同等の機能を持つ手段である。ただし、本実施例では、第1のディレクトリ構造および第2のディレクトリ構造中に格納されている文書はWeb文書であり、第1のディレクトリ構造中には日本語で書かれた文書が主に格納されているが英語で書かれた文書も格納されているものとし、同様に、第2のディレクトリ構造中には英語で書かれた文書が主に格納されているが日本語で書かれた文書も格納されているものとする。しかしながら、第1のディレクトリ構造中の全文書を形態素解析して得られる英語単語については日本語単語と同等の扱いをし、第2のディレクトリ構造中の全文書を形態素解析して得られる日本語単語については英語単語と同等の扱いをすることにより、実施例1で説明を行った各手段のアルゴリズムを全く変更せずに処理を行うことが可能である。
【0046】
以下の21−26の各手段の説明は、第1のディレクトリ構造中の任意の最下層ディレクトリAおよびディレクトリAに対応する第2のディレクトリ構造中の最下層ディレクトリA’を対象とした場合のものである。したがって、ディレクトリ構造中の全最下層ディレクトリを対象として、それぞれ同じ処理を繰り返す必要がある。
【0047】
ペアテキスト抽出手段21は、第1のディレクトリ構造中の最下層ディレクトリAと、それに対応する第2のディレクトリ構造中の最下層ディレクトリA’に属する全てのWeb文書の中から、日英で対訳となっているWeb文書の対訳テキストペアを、既存の文書収集ロボット等の技術を用いて抽出する手段である。
【0048】
ペアテキスト保持手段22は、ペアテキスト抽出手段21によって得られた日英の対訳テキストペアの集合と、文書ペア抽出手段25によって得られた日英の文書ペアを計算機内部に保持する手段である。また、予め設定された一定数以上の日英ペア(対訳テキストペア+日英文書ペア)が手段内に保持されると、その日英ペア集合を学習データ保持手段へ渡す。
【0049】
単語ベクトル生成手段23は、ペアテキスト保持手段22中に保持されている日英ペアを学習データとして、実施例1中のディレクトリ毎単語ベクトル生成手段19と同等のアルゴリズムを用いることにより、単語ベクトルを計算する手段である。
【0050】
文書ベクトル生成手段24は、単語ベクトル生成手段23から得られた単語ベクトル集合を用いることにより、ディレクトリAおよびディレクトリA’に属する全ての文書に対応する文書ベクトルを計算する手段である。文書ベクトルは、文書中に含まれる全ての日本語/英語単語に対応する単語ベクトルの総和を正規化することによって計算する。
文書ペア抽出手段25はまず、文書ベクトル生成手段24から得られる文書ベクトルを参照することにより、以下の条件を満たす日本語文書と英語文書のペアを、ディレクトリAおよびディレクトリA’に属する全ての文書集合から抽出する。
【0051】
「ペア中の日本語文書に対応する文書ベクトルと最も関連度の高い(内積の値が大きい)英語文書ベクトルがペア中の英語文書ベクトルであり、逆にペア中の英語文書ベクトルと最も関連度の高い日本語文書ベクトルがペア中の日本語文書ベクトルである。」
次に、上記の条件を満たす日英文書ペアうち、ペア中の日英文書に対応する日英文書ベクトルの間の内積の値が予め設定された閾値よりも大きいペアを抽出する。このようにして得られた日英の文書ペアは、意味内容が極めて近いものであり、学習データとして使用することができるものとなる。得られたペアは、ペアテキスト抽出手段21によって得られた日英の対訳テキストペアの集合と共に、ペアテキスト保持手段22に保持される。
【0052】
学習データ保持手段26は、ペアテキスト保持手段から渡された日英ペア集合を計算機内部に保持する手段である。
【0053】
このような構成をとり、
(1)ペアテキスト保持手段22に保持された日英ペア集合を学習データとして、単語ベクトル生成手段23によって単語ベクトル集合を生成し、
(2)文書ベクトル生成手段24によって文書ベクトル集合を生成し、
(3)文書ペア抽出手段25によって意味内容が極めて近い日英の文書ペアを抽出し、
(4)得られた文書ペアを、ペアテキスト保持手段22に追加する(既に追加されている場合は以前のものと置き換える)。
という処理を繰り返し行うことにより、ペアテキスト保持手段22に保持される日英ペア集合の数を徐々に増やすことが可能となる。このような繰り返し手法を用いることによって、ペアテキスト抽出手段21から得られるペアテキストの数が少ない場合でも、実用上十分なサイズの学習データを得ることができることになる。このような繰り返し手法については、「Hiroshi Masuichi, Raymond Flournoy, Stefan Kaufmannand Stanley Peters, ”A Bootstrapping method for Extracting Bilingual Text Pairs”, The Proceedings of The 18th International Conference on Computational Linguistics, pp. 1066−1070 (2000)」に詳細が記述されている。この繰り返し手法は、ペアを抽出する元となる文書集合の分野が限定されている時のみ有効な手法である。本実施例では、第1のディレクトリ構造と第2のディレクトリ構造の対応関係を利用して文書集合の分野を限定することにより、繰り返し手法を適用することが可能となっている。
【0054】
このようにして学習データが得られた後の処理は、実施例1の処理と全く同じである。実施例1の例では、各最下層ディレクトリに対して学習データを予め用意しておく必要があったが、本実施例の構成によって得られる多言語文書検索装置では、Web文書の中から日英で対訳となっているWeb文書の対訳テキストペアを初期学習データとして用い、さらにそれを上記の繰り返し手法によって成長させることによって多言語文書検索に必要な学習データを自動生成することが可能となる。
【0055】
こうして得られた学習データ(2ヶ国語文書ペア)は、パラレルコーパスとして利用することができるものである。上記文献「Hiroshi Masuichi,Raymond Flournoy, Stefan Kaufmann and Stanley Peters, ”ABootstrapping method for Extracting Bilingual Text Pairs”,The Proceedings of The 18th International Conference on Computational Linguistics,pp. 1066−1070(2000)」でも述べられている通り、パラレルコーパスは多言語情報検索システムあるいは機械翻訳システムを実現する上で貴重な言語資源であるにもかかわらず、不足しているのが現状である。本実施例で説明した、2つのディレクトリ構造間の対応関係を利用することによって可能となる分野毎の学習データ生成手法は、パラレルコーパスの不足の問題を解決するための極めて有効な手法であると言える。
【0056】
なお、実施例1および実施例2共に、最下層ディレクトリにのみ文書が格納されている例を用いて説明を行ったが、最下層以外のディレクトリに文書が格納されている場合であっても、文書に対応する文書ベクトルをディレクトリベクトルと同等に扱うことによって、全く同じ処理を行うことが可能である。さらに、実施例1および実施例2共にディレクトリ構造を木構造として説明を行ったが、各ディレクトリが複数の親ディレクトリを持つようなネットワーク型のディレクトリ構造であっても、同様の処理を行うことができることは明らかである。
【0057】
また、請求項2、3、5、6、8、9では多言語文書検索手法を行う代わりに、検索要求あるいは文書を翻訳しておくことによって異なる言語の間の検索を可能とするものである。パラレルコーパスを学習データとして機械翻訳システムを実現する例として、前述の文献「PeterF. Brown, Stephen A. Della Pietra, Vincent J. Della Pietra, and Robert L. Mercer, ”The mathematics of statistical MachineTranslation: Parameterestimation”,Computational Linguistics, 32:263−311, 1993.」を挙げることができる。
【0058】
また、多言語検索手段が、直接多言語文書検索を行うのではなく、2ヶ国語文書ペアを予め抽出しておいてもよい。この抽出手法としては、実施例2で説明した学習データ生成手法をそのまま使用することが可能である。
【0059】
以下に具体的な例を用いて上述実施例の効果を確認する。インターネット上の検索サイト、販売サイトあるいはオークションサイトにおいて、ユーザが「自然公園巡りを目的とするバスのフリーパス」という日本語の検索質問文を用いることにより英語で書かれた情報にアクセスし、バスのフリーパスについての情報を得る/フリーパスの購入を行う状況を考える。この場合、典型的な多言語検索システムでは、まず上記質問文から「自然」「公園」「巡り」「目的」「バス」「フリー」「パス」のキーワードを抽出し、各日本語キーワードを、日英翻訳辞書を用いて、対応する英語キーワードに置き換える。対応する英語キーワードの例を図7に示す。各日本語キーワードに対応する英語キーワードは複数存在し、さらに、それぞれの英語キーワードの英語文中における意味も複数の可能性が考えられる。日本語キーワード「パス」に対応する英語キーワードには、「pass」「passing」「calipers(パス(ノギス)[機械用語])」「PAS(パス(パラアミノサリチル酸、para−aminosalicylic acid)[化学用語])」「path」等があり、さらに、例えば「pass」は英語文中で「(球技の)パス」「定期」「関門」「通過する」「合格する」等様々な意味で用いられる。したがって、これらの英語キーワードを用いて関連する英語文書を検索した場合、
▲1▼「フリーキック(free kick)、ゴール(goal)、パス(pass)」等を重要キーワードとして含むサッカーに関する文書
▲2▼「ホームランを打つ(square)、野球場(ball park)、チケット(ticket)」等を重要キーワードとして含む野球に関する文書
▲3▼「パス(パラアミノサリチル酸)(PAS)、遊離酸(free acid)」等を重要キーワードとして含む化学に関する文書
▲4▼「コンピュータバス(computer bus)、フリーアクセス(free access)、パス解析(path analysis)、回路(circuit)」等を重要キーワードとして含むコンピュータに関する文書
▲5▼「バスフィッシングツアー(bass fishing tour)」に関する文書
▲6▼「試供品のパス(ノギス)(free calipers)」に関する文書等、検索意図に反する検索結果が数多く得られてしまう結果となる。この状況を、ベクトル空間法に基づくシステム構成の例に基づいて表した模式図が図8である。単語の意味曖昧性に由来して、日本語検索質問を対応する英語単語で置き換えて得られる英語ベクトルと距離の近い英語文書ベクトルは様々な分野にわたって存在し、得られる検索結果の精度は極端に低いものとなってしまう。このように、多言語の情報検索を高精度で実現することは、単言語の情報検索と比べて極めて困難である。
【0060】
上述実施例による多言語情報検索システムでは、まず日本語のみを対象として検索質問文と最も関連性の高いディレクトリを検索する(図9参照)。この場合、日英の両言語にまたがることによって生じる単語の意味曖昧性を考慮する必要がないため、高い精度で関連ディレクトリを得ることができる。(上記質問文「自然公園巡りを目的とするバスのフリーパス」が旅行分野の検索要求であることを、日本語のみを対象として決定することは容易である。)その後、得られた日本語ディレクトリに対応する英語ディレクトリのみを対象として英語文書を検索することによって、検索意図に反する検索結果を除外することが可能となる。さらに、実施の形態で説明を行った通り、検索要求と最も関連するディレクトリに対応する学習データを用いて多言語情報検索を行うことによって、より精度の高い多言語検索を行うことが可能である。
【0061】
以上のように本発明によれば、第1の言語の文章による検索要求に対して適切な第2の言語の文書を検索結果として得ることができ、上述の問題点を解決することができる。
【0062】
すなわち、第1の言語の文書を対象とする第1のディレクトリ構造と第2の言語の文書を対象とする第2のディレクトリ構造の間の対応関係を利用することによって、(1)検索要求と関連性の高い分野に属する第2の言語の文書のみを検索対象とすることができ、さらに、(2)検索要求と関連性の高い分野の学習データを用いて検索を行うことができる。この2点の分野限定効果によって、従来の多言語情報検索の精度を低下させる原因であった、単語の意味曖昧性(意味の分野依存性)の問題を回避することが可能となり、多言語文書検索の検索精度を飛躍的に向上させることができる。
【0063】
さらに、第1のディレクトリ構造と第2のディレクトリ構造の間の対応関係を利用することによって、多言語文書検索の学習データを自動生成することも可能となる。
【0064】
【発明の効果】
以上のように本発明によれば、第1の言語の文章による検索要求に対して適切な第2の言語の文書を検索結果として得ることができる等の効果を実現できる。
【図面の簡単な説明】
【図1】 本発明に係る典型的な多言語文書検索システムの構成を示す図である。
【図2】 本発明の実施例1に係る多言語文書検索システムの構成を示す図である。
【図3】 ディレクトリ構造の一例を示す図である。
【図4】 ディレクトリ間の対応関係の一例を示す図である。
【図5】 学習データ(パラレルコーパス)の格納例を示す図である。
【図6】 本発明の実施例1に係る学習データ生成部の構成を示す図である。
【図7】 日本語質問文中の日本語単語に対応する英語単語の例を示す図である。
【図8】 典型的な多言語情報検索システムの動作例を示す模式図である。
【図9】 上述実施例による関連ディレクトリの検索動作例を示す模式図である。
【符号の説明】
11 第1のディレクトリ保持手段
12 第2のディレクトリ保持手段
13 ディレクトリ関係保持手段
14 全ディレクトリ単語ベクトル生成手段
15 全ディレクトリ単語ベクトル保持手段
16 ディレクトリベクトル生成手段
17 ディレクトリベクトル保持手段
18 学習データ保持手段
19 ディレクトリ毎単語ベクトル生成手段
110 ディレクトリ毎単語ベクトル保持手段
111 文書ベクトル生成手段
112 文書ベクトル保持手段
113 検索要求取得手段
114 全ディレクトリ検索要求ベクトル生成手段
115 ディレクトリ検索手段
116 ディレクトリ毎検索要求ベクトル生成手段
117 多言語検索手段
118 検索結果表示手段

Claims (12)

  1. 第1の言語を対象として構築された第1のディレクトリ構造を保持する第1のディレクトリ保持手段と、
    第2の言語を対象として構築された第2のディレクトリ構造を保持する第2のディレクトリ保持手段と、
    第1のディレクトリ構造中の各ディレクトリと第2のディレクトリ構造中の各ディレクトリの対応関係を保持するディレクトリ関係保持手段と、
    ユーザからの第1の言語による検索要求が第1のディレクトリ構造中のいずれのディレクトリと関連性が高いかを決定するディレクトリ検索手段と、
    ディレクトリ検索手段によって決定されたディレクトリに対応する第2のディレクトリ構造中のディレクトリを、上記ディレクトリ関係保持手段に保持されているディレクトリの対応関係に基づいて決定し、決定した第2のディレクトリ構造中の当該ディレクトリに属する文書群のうち、上記ユーザからの第1の言語による検索要求と関連性が高い文書を決定する多言語検索手段とを有することを特徴とする多言語文書検索システム。
  2. 第1の言語を対象として構築された第1のディレクトリ構造を保持する第1のディレクトリ保持手段と、
    第2の言語を対象として構築された第2のディレクトリ構造を保持する第2のディレクトリ保持手段と、
    第1のディレクトリ構造中の各ディレクトリと第2のディレクトリ構造中の各ディレクトリの対応関係を保持するディレクトリ関係保持手段と、
    ユーザからの第1の言語による検索要求が第1のディレクトリ構造中のいずれのディレクトリと関連性が高いかを決定するディレクトリ検索手段と、
    上記ユーザからの第1の言語による検索要求を第2の言語による検索要求に翻訳する翻訳手段と、
    ディレクトリ検索手段によって決定されたディレクトリに対応する第2のディレクトリ構造中のディレクトリを、上記ディレクトリ関係保持手段に保持されているディレクトリの対応関係に基づいて決定し、決定した第2のディレクトリ構造中の当該ディレクトリに属する文書群のうち、翻訳手段から得られる第2の言語による検索要求と関連性が高い文書を決定する検索手段とを有することを特徴とする多言語文書検索システム。
  3. 第1の言語を対象として構築された第1のディレクトリ構造を保持する第1のディレクトリ保持手段と、
    第2の言語を対象として構築された第2のディレクトリ構造を保持する第2のディレクトリ保持手段と、
    第1のディレクトリ構造中の各ディレクトリと第2のディレクトリ構造中の各ディレクトリの対応関係を保持するディレクトリ関係保持手段と、
    ユーザからの第1の言語による検索要求が第1のディレクトリ構造中のいずれのディレクトリと関連性が高いかを決定するディレクトリ検索手段と、
    第2のディレクトリ構造中の第2の言語による各文書を第1の言語に翻訳する翻訳手段と、
    ディレクトリ検索手段によって決定されたディレクトリに対応する第2のディレクトリ構造中のディレクトリを、上記ディレクトリ関係保持手段に保持されているディレクトリの対応関係に基づいて決定し、決定した第2のディレクトリ構造中の当該ディレクトリに属する、翻訳手段によって第1の言語へと翻訳された文書群のうち、上記ユーザからの第1の言語による検索要求と関連性が高い文書を決定する検索手段とを有することを特徴とする多言語文書検索システム。
  4. 上記ディレクトリ関係保持手段に保持されている各対応ディレクトリペアに対して、該ディレクトリペアの分野の辞書データあるいは対訳ペア等の多言語検索用学習データを保持する学習データ保持手段をさらに有し、上記多言語検索手段は、上記ディレクトリ検索手段によって決定されたディレクトリに対応する第2のディレクトリ構造中のディレクトリに属する文書群のうち、上記ユーザからの第1の言語による検索要求と関連性が高い文書を、上記学習データ保持手段に保持されている対応する学習データを用いて決定する請求項1記載の多言語文書検索システム。
  5. 上記ディレクトリ関係保持手段に保持されている各対応ディレクトリペアに対して、該ディレクトリペアの分野の辞書データあるいは対訳ペア等の翻訳用学習データを保持する学習データ保持手段をさらに有し、上記翻訳手段が、上記学習データ保持手段に保持されている、上記ディレクトリ検索手段から得られるディレクトリに対応する学習データを用いて、上記ユーザからの第1の言語による検索要求を第2の言語による検索要求に翻訳する請求項記載の多言語文書検索システム。
  6. 上記ディレクトリ関係保持手段に保持されている各対応ディレクトリペアに対して、該ディレクトリペアの分野の辞書データあるいは対訳ペア等の翻訳用学習データを保持する学習データ保持手段をさらに有し、上記翻訳手段が、上記学習データ保持手段に保持されている、各ディレクトリに対応する学習データを用いて、第2のディレクトリ構造中の第2の言語による各文書を第1の言語に翻訳する請求項記載の多言語文書検索システム。
  7. 上記ディレクトリ関係保持手段に保持されている各対応ディレクトリペアに属する文書のうち、第1の言語と第2の言語のテキストペアを持つ文書から該テキストペアを抽出し、多言語検索用学習データとして保持する学習データ保持手段をさらに有し、上記多言語検索手段は、上記ディレクトリ検索手段によって決定されたディレクトリに対応する第2のディレクトリ構造中のディレクトリに属する文書群のうち、上記ユーザからの第1の言語による検索要求と関連性が高い文書を、上記学習データ保持手段に保持されている対応する学習データを用いて決定する請求項1記載の多言語文書検索システム。
  8. 上記ディレクトリ関係保持手段に保持されている各対応ディレクトリペアに属する文書のうち、第1の言語と第2の言語のテキストペアを持つ文書から該テキストペアを抽出し、翻訳用学習データとして保持する学習データ保持手段をさらに有し、
    上記翻訳手段は、上記学習データ保持手段に保持されている、上記ディレクトリ検索手段から得られるディレクトリに対応する学習データを用いて、上記ユーザからの第1の言語による検索要求を第2の言語による検索要求に翻訳する請求項記載の多言語文書検索システム。
  9. 上記ディレクトリ関係保持手段に保持されている各対応ディレクトリペアに属する文書のうち、第1の言語と第2の言語のテキストペアを持つ文書から該テキストペアを抽出し、翻訳用学習データとして保持する学習データ保持手段をさらに有し、
    上記翻訳手段は、上記学習データ保持手段に保持されている、各ディレクトリに対応する学習データを用いて、第2のディレクトリ構造中の第2の言語による各文書を第1の言語に翻訳する請求項記載の多言語文書検索システム。
  10. 第1の言語を対象として構築された第1のディレクトリ構造中の各ディレクトリと第2の言語を対象として構築された第2のディレクトリ構造中の各ディレクトリの対応関係を保持するディレクトリ関係保持手段を有し、
    ユーザからの第1の言語による検索要求と関連性が高い第1のディレクトリ構造中のディレクトリに対応する第2のディレクトリ構造のディレクトリを、上記ディレクトリ関係保持手段に保持されているディレクトリの対応関係に基づいて決定し、上記決定された第2のディレクトリ構造中のディレクトリに属する文書群のうち、上記ユーザからの第1の言語による検索要求と関連性が高い文書を検索するよう指示する検索要求を発行することを特徴とする多言語文書検索システム。
  11. 第1の言語を対象として構築された第1のディレクトリ構造中の各ディレクトリと第2の言語を対象として構築された第2のディレクトリ構造中の各ディレクトリの対応関係を保持するディレクトリ関係保持手段と、
    ユーザからの第1の言語による検索要求を第2の言語による検索要求に翻訳する翻訳手段とを有し、ユーザからの第1の言語による検索要求と関連性が高い第1のディレクトリ構造中のディレクトリに対応する第2のディレクトリ構造のディレクトリを、上記ディレクトリ関係保持手段に保持されているディレクトリの対応関係に基づいて決定し、上記決定された第2のディレクトリ構造中のディレクトリに属する文書群のうち、第1の言語から第2の言語に翻訳した上記ユーザからの検索要求と関連性が高い文書を検索するよう指示する検索要求を発行することを特徴とする多言語文書検索システム。
  12. 第1の言語を対象として構築された第1のディレクトリ構造を保持する第1のディレクトリ保持手段と、
    第2の言語を対象として構築された第2のディレクトリ構造を保持する第2のディレクトリ保持手段と通信可能な通信手段と、
    第1のディレクトリ構造中の各ディレクトリと第2のディレクトリ構造中の各ディレクトリの対応関係を保持するディレクトリ関係保持手段と、
    ユーザからの第1の言語による検索要求に応じて第1のディレクトリ構造中のディレクトリを決定するディレクトリ検索手段と、
    上記通信手段を介してディレクトリ検索手段によって決定されたディレクトリに対応する第2のディレクトリ構造中のディレクトリを、上記ディレクトリ関係保持手段に保持されているディレクトリの対応関係に基づいて決定し、決定した第2のディレクトリ構造中の当該ディレクトリに属する文書群のうち、上記ユーザからの第1の言語による検索要求と関連性が高い文書を決定する多言語検索手段とを有することを特徴とする多言語文書検索システム。
JP2000387960A 2000-12-20 2000-12-20 多言語文書検索システム Expired - Fee Related JP4066600B2 (ja)

Priority Applications (2)

Application Number Priority Date Filing Date Title
JP2000387960A JP4066600B2 (ja) 2000-12-20 2000-12-20 多言語文書検索システム
US10/013,372 US7047182B2 (en) 2000-12-20 2001-12-13 Multilingual document retrieval system

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
JP2000387960A JP4066600B2 (ja) 2000-12-20 2000-12-20 多言語文書検索システム

Publications (2)

Publication Number Publication Date
JP2002189745A JP2002189745A (ja) 2002-07-05
JP4066600B2 true JP4066600B2 (ja) 2008-03-26

Family

ID=18854789

Family Applications (1)

Application Number Title Priority Date Filing Date
JP2000387960A Expired - Fee Related JP4066600B2 (ja) 2000-12-20 2000-12-20 多言語文書検索システム

Country Status (2)

Country Link
US (1) US7047182B2 (ja)
JP (1) JP4066600B2 (ja)

Families Citing this family (33)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
FI111762B (fi) * 2000-12-28 2003-09-15 Fonecta Ltd Menetelmä tietojenkyselynpalvelun aikaansaamiseksi sekä tietojenkyselypalvelujärjestelmä
US7392191B2 (en) * 2001-03-29 2008-06-24 Intellisist, Inc. Method and device to distinguish between voice conversation and automated speech recognition
US7146358B1 (en) 2001-08-28 2006-12-05 Google Inc. Systems and methods for using anchor text as parallel corpora for cross-language information retrieval
US7752266B2 (en) 2001-10-11 2010-07-06 Ebay Inc. System and method to facilitate translation of communications between entities over a network
GB0209563D0 (en) * 2002-04-26 2002-06-05 Univ Edinburgh Text processing method and system
US8078505B2 (en) 2002-06-10 2011-12-13 Ebay Inc. Method and system for automatically updating a seller application utilized in a network-based transaction facility
JP2004348241A (ja) * 2003-05-20 2004-12-09 Hitachi Ltd 情報提供方法、サーバ及びプログラム
JP2005202766A (ja) * 2004-01-16 2005-07-28 National Institute Of Information & Communication Technology 類似コンテンツの同時提示システム
US20050177358A1 (en) * 2004-02-10 2005-08-11 Edward Melomed Multilingual database interaction system and method
US9189568B2 (en) 2004-04-23 2015-11-17 Ebay Inc. Method and system to display and search in a language independent manner
US7620539B2 (en) * 2004-07-12 2009-11-17 Xerox Corporation Methods and apparatuses for identifying bilingual lexicons in comparable corpora using geometric processing
WO2006090732A1 (ja) * 2005-02-24 2006-08-31 Fuji Xerox Co., Ltd. 単語翻訳装置、翻訳方法および翻訳プログラム
JP2006277103A (ja) * 2005-03-28 2006-10-12 Fuji Xerox Co Ltd 文書翻訳方法および文書翻訳装置
WO2007089514A1 (en) * 2006-01-26 2007-08-09 Medicalert Foundation United States, Inc. Network health record and repository systems and methods
US8639782B2 (en) 2006-08-23 2014-01-28 Ebay, Inc. Method and system for sharing metadata between interfaces
EP2115630A4 (en) * 2007-01-04 2016-08-17 Thinking Solutions Pty Ltd LANGUAGE ANALYSIS
US7983903B2 (en) * 2007-09-07 2011-07-19 Microsoft Corporation Mining bilingual dictionaries from monolingual web pages
US7984034B1 (en) * 2007-12-21 2011-07-19 Google Inc. Providing parallel resources in search results
JP5008144B2 (ja) * 2008-02-13 2012-08-22 独立行政法人情報通信研究機構 対訳情報生成装置、対訳情報生成方法、及びプログラム
US20090287471A1 (en) * 2008-05-16 2009-11-19 Bennett James D Support for international search terms - translate as you search
CN101840402B (zh) * 2009-03-18 2014-05-07 日电(中国)有限公司 从多语言网站构建多语言的对象层次结构的方法和系统
US8577909B1 (en) 2009-05-15 2013-11-05 Google Inc. Query translation using bilingual search refinements
US8572109B1 (en) 2009-05-15 2013-10-29 Google Inc. Query translation quality confidence
US8577910B1 (en) * 2009-05-15 2013-11-05 Google Inc. Selecting relevant languages for query translation
US8538957B1 (en) 2009-06-03 2013-09-17 Google Inc. Validating translations using visual similarity between visual media search results
DE102009031970A1 (de) * 2009-07-06 2011-01-20 Michael Keil Automatisierte Ermittlung und/oder Aufbereitung von Informationen
TWI409646B (zh) * 2009-10-14 2013-09-21 Inst Information Industry 詞彙翻譯系統、詞彙翻譯方式以及電腦可讀寫儲存媒體
JP5483425B2 (ja) * 2010-02-22 2014-05-07 Necシステムテクノロジー株式会社 検索システム、その方法及びそのプログラム
US8533051B2 (en) 2010-10-27 2013-09-10 Nir Platek Multi-language multi-platform E-commerce management system
SE1450148A1 (sv) * 2014-02-11 2015-08-12 Mobilearn Dev Ltd Sökmotor med översättningsfunktion
JP2016133861A (ja) * 2015-01-16 2016-07-25 株式会社ぐるなび 情報多言語変換システム
JP6586026B2 (ja) * 2016-02-12 2019-10-02 日本電信電話株式会社 単語ベクトル学習装置、自然言語処理装置、方法、及びプログラム
CN107193807B (zh) * 2017-05-12 2021-05-28 北京百度网讯科技有限公司 基于人工智能的语言转换处理方法、装置及终端

Family Cites Families (13)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US6182062B1 (en) * 1986-03-26 2001-01-30 Hitachi, Ltd. Knowledge based information retrieval system
US5987402A (en) * 1995-01-31 1999-11-16 Oki Electric Industry Co., Ltd. System and method for efficiently retrieving and translating source documents in different languages, and other displaying the translated documents at a client device
AU6849196A (en) * 1995-08-16 1997-03-19 Syracuse University Multilingual document retrieval system and method using semantic vector matching
US5835912A (en) * 1997-03-13 1998-11-10 The United States Of America As Represented By The National Security Agency Method of efficiency and flexibility storing, retrieving, and modifying data in any language representation
US6349275B1 (en) * 1997-11-24 2002-02-19 International Business Machines Corporation Multiple concurrent language support system for electronic catalogue using a concept based knowledge representation
US6623529B1 (en) * 1998-02-23 2003-09-23 David Lakritz Multilingual electronic document translation, management, and delivery system
GB2338089A (en) * 1998-06-02 1999-12-08 Sharp Kk Indexing method
JP3114703B2 (ja) * 1998-07-02 2000-12-04 富士ゼロックス株式会社 対訳文検索装置
US6337509B2 (en) * 1998-07-16 2002-01-08 International Business Machines Corporation Fixture for attaching a conformal chip carrier to a flip chip
US6381598B1 (en) * 1998-12-22 2002-04-30 Xerox Corporation System for providing cross-lingual information retrieval
JP3055545B1 (ja) * 1999-01-19 2000-06-26 富士ゼロックス株式会社 関連文検索装置
US6901361B1 (en) * 1999-07-09 2005-05-31 Digital Esperanto, Inc. Computerized translator of languages utilizing indexed databases of corresponding information elements
US6885985B2 (en) * 2000-12-18 2005-04-26 Xerox Corporation Terminology translation for unaligned comparable corpora using category based translation probabilities

Also Published As

Publication number Publication date
US7047182B2 (en) 2006-05-16
JP2002189745A (ja) 2002-07-05
US20020123982A1 (en) 2002-09-05

Similar Documents

Publication Publication Date Title
JP4066600B2 (ja) 多言語文書検索システム
Yang et al. Automatic construction of English/Chinese parallel corpora
US20090182547A1 (en) Adaptive Web Mining of Bilingual Lexicon for Query Translation
JP2010519655A (ja) 名前照合システムの名前インデックス付け
Awajan Semantic similarity based approach for reducing Arabic texts dimensionality
Saad et al. Cross-lingual semantic similarity measure for comparable articles
Paramita et al. Methods for collection and evaluation of comparable documents
Toivonen et al. Translating cross-lingual spelling variants using transformation rules
Ogden et al. Keizai: An interactive cross-language text retrieval system
Matsuoka et al. Examination of effective features for CRF-based bibliography extraction from reference strings
Nagarathinam et al. State of art: Cross lingual information retrieval system for Indian languages
JP4013489B2 (ja) 対応カテゴリ検索システムおよび方法
Larson et al. Harvesting translingual vocabulary mappings for multilingual digital libraries
Rahimi et al. Building a multi-domain comparable corpus using a learning to rank method
Oard Adaptive filtering of multilingual document streams
Huang et al. Mining large-scale comparable corpora from Chinese-English news collections
Bajpai et al. Cross language information retrieval: In indian language perspective
Moghadam et al. Comparative study of various Persian stemmers in the field of information retrieval
Song et al. Metadata Similarity Calculation in Cross-Language Record Linkage based on Cross-Lingual Embedding Models
Chiu et al. Evaluating text reuse discovery on the web
Lin et al. Query Expansion from Wikipedia and Topic Web Crawler on CLIR.
Gurrutxaga et al. Automatic comparable web corpora collection and bilingual terminology extraction for specialized dictionary making
Shannaq Adapt clustering methods for arabic documents
Ali et al. Novel approach in multilingual and mixed English-Arabic test collection
Iswarya et al. Cross language text retrieval: a review

Legal Events

Date Code Title Description
A621 Written request for application examination

Free format text: JAPANESE INTERMEDIATE CODE: A621

Effective date: 20040921

A977 Report on retrieval

Free format text: JAPANESE INTERMEDIATE CODE: A971007

Effective date: 20070906

A131 Notification of reasons for refusal

Free format text: JAPANESE INTERMEDIATE CODE: A131

Effective date: 20070911

A521 Request for written amendment filed

Free format text: JAPANESE INTERMEDIATE CODE: A523

Effective date: 20071109

TRDD Decision of grant or rejection written
A01 Written decision to grant a patent or to grant a registration (utility model)

Free format text: JAPANESE INTERMEDIATE CODE: A01

Effective date: 20071218

A61 First payment of annual fees (during grant procedure)

Free format text: JAPANESE INTERMEDIATE CODE: A61

Effective date: 20071231

FPAY Renewal fee payment (event date is renewal date of database)

Free format text: PAYMENT UNTIL: 20110118

Year of fee payment: 3

R150 Certificate of patent or registration of utility model

Free format text: JAPANESE INTERMEDIATE CODE: R150

FPAY Renewal fee payment (event date is renewal date of database)

Free format text: PAYMENT UNTIL: 20120118

Year of fee payment: 4

FPAY Renewal fee payment (event date is renewal date of database)

Free format text: PAYMENT UNTIL: 20120118

Year of fee payment: 4

FPAY Renewal fee payment (event date is renewal date of database)

Free format text: PAYMENT UNTIL: 20130118

Year of fee payment: 5

FPAY Renewal fee payment (event date is renewal date of database)

Free format text: PAYMENT UNTIL: 20130118

Year of fee payment: 5

FPAY Renewal fee payment (event date is renewal date of database)

Free format text: PAYMENT UNTIL: 20140118

Year of fee payment: 6

LAPS Cancellation because of no payment of annual fees