JP2005043977A - 文書間の類似度算出方法および装置 - Google Patents
文書間の類似度算出方法および装置 Download PDFInfo
- Publication number
- JP2005043977A JP2005043977A JP2003200193A JP2003200193A JP2005043977A JP 2005043977 A JP2005043977 A JP 2005043977A JP 2003200193 A JP2003200193 A JP 2003200193A JP 2003200193 A JP2003200193 A JP 2003200193A JP 2005043977 A JP2005043977 A JP 2005043977A
- Authority
- JP
- Japan
- Prior art keywords
- search
- condition
- document
- similarity
- keyword
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Pending
Links
- 238000000034 method Methods 0.000 title abstract description 31
- 230000002776 aggregation Effects 0.000 claims description 41
- 238000004220 aggregation Methods 0.000 claims description 40
- 238000004364 calculation method Methods 0.000 claims description 20
- 238000004458 analytical method Methods 0.000 claims description 6
- 239000000284 extract Substances 0.000 claims description 5
- 238000000605 extraction Methods 0.000 claims description 3
- 239000000470 constituent Substances 0.000 claims 1
- 239000013598 vector Substances 0.000 abstract description 12
- 235000013399 edible fruits Nutrition 0.000 description 13
- 238000010586 diagram Methods 0.000 description 12
- 235000007119 Ananas comosus Nutrition 0.000 description 11
- 244000099147 Ananas comosus Species 0.000 description 10
- 235000004936 Bromus mango Nutrition 0.000 description 10
- 235000014826 Mangifera indica Nutrition 0.000 description 10
- 241000508269 Psidium Species 0.000 description 10
- 235000009184 Spondias indica Nutrition 0.000 description 10
- 241001093152 Mangifera Species 0.000 description 9
- 238000012790 confirmation Methods 0.000 description 6
- 235000015277 pork Nutrition 0.000 description 6
- 235000013372 meat Nutrition 0.000 description 4
- 230000005540 biological transmission Effects 0.000 description 3
- 235000011389 fruit/vegetable juice Nutrition 0.000 description 3
- 244000223760 Cinnamomum zeylanicum Species 0.000 description 2
- 230000001174 ascending effect Effects 0.000 description 2
- 235000017803 cinnamon Nutrition 0.000 description 2
- 235000013997 pineapple juice Nutrition 0.000 description 2
- 238000003825 pressing Methods 0.000 description 2
- 230000007704 transition Effects 0.000 description 2
- 241000234671 Ananas Species 0.000 description 1
- 235000008534 Capsicum annuum var annuum Nutrition 0.000 description 1
- 240000008384 Capsicum annuum var. annuum Species 0.000 description 1
- 244000018436 Coriandrum sativum Species 0.000 description 1
- 241000406668 Loxodonta cyclotis Species 0.000 description 1
- 240000007228 Mangifera indica Species 0.000 description 1
- 244000288157 Passiflora edulis Species 0.000 description 1
- 235000000370 Passiflora edulis Nutrition 0.000 description 1
- 235000020415 coconut juice Nutrition 0.000 description 1
- 230000000694 effects Effects 0.000 description 1
- 238000005516 engineering process Methods 0.000 description 1
- 229940102465 ginger root Drugs 0.000 description 1
- 235000020413 lychee juice Nutrition 0.000 description 1
- 235000015205 orange juice Nutrition 0.000 description 1
- 230000003252 repetitive effect Effects 0.000 description 1
- 230000004044 response Effects 0.000 description 1
- 235000014101 wine Nutrition 0.000 description 1
- 239000001841 zingiber officinale Substances 0.000 description 1
Images
Classifications
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F16/00—Information retrieval; Database structures therefor; File system structures therefor
- G06F16/30—Information retrieval; Database structures therefor; File system structures therefor of unstructured textual data
- G06F16/33—Querying
- G06F16/3331—Query processing
- G06F16/334—Query execution
- G06F16/3347—Query execution using vector based model
-
- Y—GENERAL TAGGING OF NEW TECHNOLOGICAL DEVELOPMENTS; GENERAL TAGGING OF CROSS-SECTIONAL TECHNOLOGIES SPANNING OVER SEVERAL SECTIONS OF THE IPC; TECHNICAL SUBJECTS COVERED BY FORMER USPC CROSS-REFERENCE ART COLLECTIONS [XRACs] AND DIGESTS
- Y10—TECHNICAL SUBJECTS COVERED BY FORMER USPC
- Y10S—TECHNICAL SUBJECTS COVERED BY FORMER USPC CROSS-REFERENCE ART COLLECTIONS [XRACs] AND DIGESTS
- Y10S707/00—Data processing: database and file management or data structures
- Y10S707/99931—Database or file accessing
- Y10S707/99933—Query processing, i.e. searching
-
- Y—GENERAL TAGGING OF NEW TECHNOLOGICAL DEVELOPMENTS; GENERAL TAGGING OF CROSS-SECTIONAL TECHNOLOGIES SPANNING OVER SEVERAL SECTIONS OF THE IPC; TECHNICAL SUBJECTS COVERED BY FORMER USPC CROSS-REFERENCE ART COLLECTIONS [XRACs] AND DIGESTS
- Y10—TECHNICAL SUBJECTS COVERED BY FORMER USPC
- Y10S—TECHNICAL SUBJECTS COVERED BY FORMER USPC CROSS-REFERENCE ART COLLECTIONS [XRACs] AND DIGESTS
- Y10S707/00—Data processing: database and file management or data structures
- Y10S707/99931—Database or file accessing
- Y10S707/99933—Query processing, i.e. searching
- Y10S707/99935—Query augmenting and refining, e.g. inexact access
Landscapes
- Engineering & Computer Science (AREA)
- Theoretical Computer Science (AREA)
- Computational Linguistics (AREA)
- Data Mining & Analysis (AREA)
- Databases & Information Systems (AREA)
- Physics & Mathematics (AREA)
- General Engineering & Computer Science (AREA)
- General Physics & Mathematics (AREA)
- Information Retrieval, Db Structures And Fs Structures Therefor (AREA)
Abstract
【課題】複数の単語で一つの概念が表現される場合でも、高精度に類似度を算出する類似度算出方法を提供することにある。
【解決手段】登録文書の特徴を表す各要素(特徴文字列)について、登録文書における出現情報を予め記憶しておく。登録文書の類似度を算出する際に、検索者により指定された検索条件を解析し、検索条件に含まれる各要素(単語)に対する出現情報を集計して、複数の単語間の関係を考慮した要素を有する特徴ベクトルを用いて登録文書における出現情報と比較して、文書間の類似度を算出する。
【選択図】 図1
【解決手段】登録文書の特徴を表す各要素(特徴文字列)について、登録文書における出現情報を予め記憶しておく。登録文書の類似度を算出する際に、検索者により指定された検索条件を解析し、検索条件に含まれる各要素(単語)に対する出現情報を集計して、複数の単語間の関係を考慮した要素を有する特徴ベクトルを用いて登録文書における出現情報と比較して、文書間の類似度を算出する。
【選択図】 図1
Description
【0001】
【発明の属する技術分野】
本発明は文書間の類似度算出方法に関し、特に、検索者が指定した文書に記述されている内容と類似する内容を含む文書を、文書データベースの中から検索する方法に関する。
【0002】
【従来の技術】
大量の電子化文書の中から目的の文書を検索する技術として、類似文書検索技術が知られている。類似文書検索技術は、検索者が指定した文書(以下、種文書という)および文書データベースに格納された文書(以下、登録文書という)を、該文書に含まれる単語の出現頻度などの出現情報を要素としたベクトル(以下、特徴ベクトルという)で表現し、該特徴ベクトル間の距離を文書間の類似度として算出する(例えば、特許文献1)。
【0003】
【特許文献1】
特開2002−73681号公報
【0004】
【発明が解決しようとする課題】
しかし、上記従来技術では、文書に出現する各単語の出現情報を一つの要素として特徴ベクトルを作成しているため、複数の単語で一つの概念を表現する場合には、その概念が強調されて類似度が算出されることになり、検索者の意図とは合わない検索結果となる場合が考えられる。
【0005】
本発明の目的は、複数の単語で一つの概念が表現される場合でも、高精度に類似度を算出する類似度算出方法を提供することにある。
【0006】
【課題を解決するための手段】
上記目的を達成するために本発明は、検索者により指定された検索条件に対する登録文書の類似度を算出する際に、登録文書の特徴を表す各要素を、複数の単語間の関係を用いて表現した特徴ベクトルを用い、文書データベースに登録された登録文書から取得した各要素に対応する出現情報を用いることにより、文書間の類似度を算出する。
【0007】
【発明の実施の形態】
以下、本発明の実施の形態を、図面を用いて詳細に説明する。
【0008】
まず、本発明の第一の実施例について図1を用いて説明する。本発明を適用した類似文書検索システムは、ディスプレイ100、キーボード101、中央演算処理装置(CPU)102、磁気ディスク装置103、フレキシブルディスクドライブ(FDD)104、主メモリ105、これらを結ぶバス106および他の機器と本システムを接続するネットワーク107から構成される。磁気ディスク装置103は二次記憶装置の一つであり、検索用インデクス170が格納される。FDD104を介してフレキシブルディスク108に格納されている情報が、主メモリ105あるいは磁気ディスク装置103へ読み込まれる。
【0009】
主メモリ105には、システム制御プログラム110、登録制御プログラム111、検索制御プログラム112、登録文書取得プログラム120、検索用インデクス作成登録プログラム121、検索条件解析プログラム130、類似度算出プログラム131、検索結果出力プログラム132が格納されると共にワークエリア140が確保される。
【0010】
検索条件解析プログラム130は、要素別集計条件抽出プログラム160で構成される。類似度算出プログラム131は、要素別出現情報集計プログラム161および要素別類似度算出プログラム162で構成される。ワークエリア140には、登録対象文書格納領域180、検索条件格納領域181、要素別集計条件格納領域182、要素別類似度格納領域183および登録文書別類似度格納領域184が確保される。
【0011】
登録制御プログラム111および検索制御プログラム112は、キーボード101からのユーザによる指示に応じてシステム制御プログラム110によって起動され、それぞれ登録文書取得プログラム120、検索用インデクス作成登録プログラム121の制御と、検索条件解析プログラム130、類似度算出プログラム131および検索結果出力プログラム132の制御を行う。
【0012】
なお本実施例では、キーボード101から入力されたコマンドにより、登録制御プログラム111や検索制御プログラム112が起動されるものとしたが、他の入力装置を介して入力されたコマンドあるいはイベントにより起動されるように構成してもよい。また、キーボード101から入力されたコマンドをもとに、CPUが各プログラムを起動する処理を行うこともできる。
【0013】
また、これらのプログラムは磁気ディスク装置103、フレキシブルディスク108、あるいはMO、CD−ROM、DVD等の記憶媒体(図1には示していない)に格納し、駆動装置を介して主メモリ105に読み込み、CPU102によって実行することも可能である。また、これらのプログラムをネットワーク107を介して主メモリ105に読み込み、CPU102によって実行することも可能である。
【0014】
さらに、本実施例では検索用インデクス170は磁気ディスク装置103に格納されるものとしたが、主メモリ105に格納されるものであってもよいし、あるいはフレキシブルディスク108、MO、CD−ROM、DVD等の記憶媒体(図1には示していない)に格納し、駆動装置を介して主メモリ105に読み込み利用することも可能である。また、これらのファイルは、ネットワーク107を介して他のシステムに接続された記憶媒体(図1には示していない)に格納されていてもよいし、あるいはネットワーク107に直接接続された記憶媒体に格納されていてもよい。
【0015】
また、ワークエリア140は、主メモリ105上に確保されるものとしたが、磁気ディスク装置103に確保されるものであってもよいし、フレキシブルディスク108、MO、CD−R、DVD等の書き込み可能な記憶媒体(図1には示していない)やネットワーク107に直接接続された書き込み可能な記憶媒体に確保されるものであってもよい。
【0016】
以下、本実施例における類似文書検索システムの処理手順について説明する。
【0017】
まず、システム制御プログラム110の処理手順について図2のPAD図を用いて説明する。
【0018】
システム制御プログラム110は、キーボード101から入力されたコマンドを解析する(ステップ200)。この解析の結果、登録実行のコマンドである場合には、登録制御プログラム111を起動して、文書の登録を行い(ステップ210)、検索実行のコマンドである場合には、検索制御プログラム112を起動して、類似文書の検索を行う(ステップ220)。
【0019】
次に、図2のステップ210に示す登録制御プログラム111の登録処理の手順について、図3のPAD図を用いて説明する。
【0020】
登録制御プログラム111は、まず登録文書取得プログラム120を起動し、登録対象として指定された文書(以下、登録対象文書という)を読み込み、ワークエリア140の登録対象文書格納領域180に格納する(ステップ301)。
次に、検索用インデクス作成登録プログラム121を起動し、ワークエリア140の登録対象文書格納領域180に格納されている登録対象文書に対する検索用インデクスを作成し、磁気ディスク装置103に検索用インデクス170として格納する(ステップ302)。
【0021】
次に、図2のステップ220に示す検索制御プログラム112の検索処理の手順について、図4のPAD図を用いて説明する。
【0022】
検索制御プログラム112は、まず検索条件解析プログラム130を起動し、検索者により入力された検索条件を解析する(ステップ401)。次に、類似度算出プログラム131を起動し、検索条件に対する各登録文書の類似度を算出する(ステップ402)。各登録文書は、登録対象文書格納領域180に格納されている。そして、検索結果出力プログラム132を起動し、上記ステップ402で算出された類似度算出結果を検索結果として出力する(ステップ403)。検索結果の出力先は、ディスプレイ100に表示してもよいし、ワークエリア140や磁気ディスク装置103上に格納してもよい。また、類似度算出結果をディスプレイ100に出力する場合には、類似度の昇順または降順に出力してもよいし、文書に付与された管理番号等の昇順あるいは降順に出力してもよい。
【0023】
次に、図4のステップ401に示す検索条件解析プログラム130の処理手順について説明する。
【0024】
検索条件解析プログラム130は、キーボード101から入力された検索条件を読み込み、ワークエリア140の検索条件格納領域181に格納する。そして、要素別集計条件抽出プログラム160を起動し、ワークエリア140の検索条件格納領域181に格納された検索条件の中から、要素別の集計条件を抽出し、ワークエリア140の要素別集計条件格納領域182に格納する。
【0025】
次に、図4のステップ402に示す類似度算出プログラム131の処理手順について、図5のPAD図を用いて説明する。
【0026】
類似度算出プログラム131は、前記検索条件解析プログラム130によりワークエリア140の要素別集計条件格納領域182に格納された要素別の集計条件を読み込み、各集計条件に対してステップ502〜ステップ503を繰返し実行する(ステップ501)。以下、繰返し処理中に行うステップ502からステップ503について説明する。
【0027】
まず、要素別出現情報集計プログラム161を起動し、前記ステップ501で読み込まれた要素別集計条件に基づき、検索用インデクス170を参照し、該要素の出現情報を集計する(ステップ502)。次に、要素別類似度算出プログラム162を起動し、上記ステップ502で集計した出現情報に基づき、該要素における類似度(以下、要素別類似度という)を算出し、ワークエリア140の要素別類似度格納領域183に格納する(ステップ503)。
【0028】
上記ステップ503においてワークエリア140の要素別類似度格納領域183に格納された要素別類似度から各登録文書の類似度を算出し、ワークエリア140の登録文書別類似度格納領域184に格納する(ステップ504)。
【0029】
なお、上記ステップ502における要素別類似度の算出には、例えばTF・IDF(Text Frequency, Inverted Documents Frequency)法を用いるものとしてもよい。
【0030】
以下、本発明の第一の実施例における類似文書検索システムの具体的な処理手順を図6および図7を用いて説明する。
【0031】
まず、本発明の第一の実施例に示した類似文書検索システムにおける文書の登録処理(図3)について、図6を用いて具体的に説明する。
【0032】
図6は、文書1「〜 Our Product 〜 10% Coconut Juice With Meat 25% Orange Juice 30% Mango Juice 40% Guava Juice 40% Lychee Juice 55% Passion Fruit with pineapple juice 100% Pineapple Juice 」および文書2「Cinnamon Pineapple Pork Stir in pineapple and juice, wine, ginger root, jalapeno pepper and cinnamon; simmer until liquid is reduced to 1/4 cup. Spoon pineapple mixture over cooked pork pieces; sprinkle with cilantro」が文書データベースに登録される場合の処理の流れである。
【0033】
まず、図3に示したステップ301が実行され、登録文書取得プログラム120により文書1および文書2がワークエリア140に読み込まれ、それぞれ文書601および文書602として格納される。
【0034】
次に、ワークエリア140上の文書601および文書602に対し、図3に示した検索用インデクス作成処理302が実行され、スペース等をデリミタとして抽出された各単語(または各文字列)に対する出現位置を格納した検索用インデクス170が磁気ディスク装置103内に作成される。
【0035】
本図に示した検索用インデクス170は、各単語の見出し、出現文書番号および出現位置が格納される場合の例である。本図において、「1/4 (2,22)」は、“1/4”という単語が文書2の22番目の単語として出現することを表す。
【0036】
次に、本発明の第一の実施例に示した類似文書検索システムにおける検索条件に対する要素別出現情報集計処理(図5のステップ502)の手順について、図7を用いて説明する。
【0037】
要素別出現情報集計処理では、まず検索者により入力された検索条件701をワークエリア140の検索条件格納領域181に格納する。
【0038】
検索条件701は、図7の例では3つの要素からなる特徴ベクトルを表しており、それぞれ(recipe)、(pork)、および(tropical⇔fruits, pineapple, mango, guava)の軸からなる。ここで、“tropical⇔fruits”は、単語“tropical”および“fruits”の近傍条件を表す。
【0039】
また、一つの要素内にカンマで区切られた複数のキーワードが存在する場合は、該要素は各キーワードのORで表わされることを示す。図7に示した例では、3番目の要素である(tropical⇔fruits, pineapple, mango, guava)が該当し、該要素は“tropical⇔fruits”、“pineapple”、“mango”および“guava”の4つのキーワードのORで表わされることを示す。
【0040】
次に、図4に示した検索条件解析ステップ401が実行され、ワークメモリ140に読み込まれた検索条件701を解析し、検索条件701内の括弧、カンマおよび近傍条件を表す記号「⇔」を識別することにより、要素別集計条件711「“recipe”」、712「“pork”」および713「(“tropical”,“fruits”, 5) or“pineapple”or“mango”or“guava”」を抽出する。ここで、例えば要素別集計条件711「“recipe”」は、キーワード“recipe”を含む文書が要素別集計条件の対象になることを表しており、また、要素別集計条件713「(“tropical”,“fruits”, 5) or“pineapple”or“mango”or“guava”」は、“tropical”と“fruits”が5単語以内に出現する文書、あるいは“pineapple”、“mango”、“guava”のいずれかを含む文書が要素別集計条件の対象となることを表す。
【0041】
次に、図5に示す要素別出現情報集計ステップ502が実行され、上記検索条件解析ステップ401で抽出された各要素別集計条件711、712および713が満たす出現情報を、検索用インデクス170を参照することにより取得する。
【0042】
本図に示した例では、要素別集計条件711「“recipe”」の出現情報0[NULL,NULL]、要素別集計条件712「“pork”」の出現情報として1[2,2]、要素別集計条件713「(“tropical”,“fruits”,5) or“pineapple”or“mango”or“guava”」の出現情報として2[1,4][2,3]を取得する。ここで、括弧の前の数字は出現文書数を表わしており、各括弧内数字は出現文書番号および出現数を表わしている。例えば、要素別集計条件712「“pork”」の出現情報である1[2,2]は、「文書数[文書番号,出現回数]」を示しており、この場合、該集計条件の満たす文書数は1であり、文書2に2回出現していることを表す。
【0043】
なお、上記ステップ401において検索条件701を解析する際には、検索条件701内の括弧、カンマ、および近傍条件を表す記号「⇔」を識別するものとしたが、スペースやピリオドなど他の文字列を識別するものであってもよい。
【0044】
以上説明したように、本発明の第一の実施例によれば、複数のキーワードで表現される概念を特徴ベクトルの一つの要素として表現することができるようになる。この結果、複雑な概念を考慮した類似度算出が可能となり、高精度な概念検索を実現することができる。
【0045】
なお、本実施例では、要素別集計条件の表現を近傍条件やORで表現するものとしたが、ANDやNOTなどその他の表現方法を用いてもよい。
【0046】
また、本実施例では、英語における類似文書検索システムの例で説明したが、英語に限らずその他の言語でもよい。すなわち、本発明の第一の実施例における文書登録処理では、スペース等をデリミタとして単語を抽出するものとしたが、日本語等の区切れ目が明確でない言語に対しては、単語辞書を参照して抽出された単語を用いるものとしてもよいし、N−gramを抽出するものであっても構わない。
【0047】
本実施例では、検索用インデクス170として単語インデクスを用いるものとしたが、インデクス方式によらず、例えば、N−gramインデクス方式であってもよい。さらに、本実施例では検索用インデクス170を各文書に出現する単語の索引形式を用いるものとしたが、各文書のシグネチャファイルを格納するものであってもよい。
【0048】
また本実施例では、類似文書検索システムの例で説明したが、本発明における類似度算出方法は、類似文書検索システムに限らず文書間の類似度算出に適用できる。例えば、文書内から検索条件に適合する箇所を抽出する類似箇所抽出システム、検索結果などの文書集合を、内容の類似性に基づき分類する文書分類システム、あるいは、予め作成されたカテゴリに対して分類先を判定する分類先判定システムなどの類似度算出に本発明に示した類似度算出方法を適用することができる。
【0049】
次に、本発明の第二の実施例について図8を用いて説明する。
【0050】
本実施例は、検索者が入力した種文書から要素別集計条件を自動生成しようとするものである。すなわち、複雑な特徴ベクトルを作成しなくても高精度な検索を実行できるようになり、検索者の負荷が軽減される。
【0051】
本実施例のシステム構成は、第一の実施例(図1)とほぼ同様であるが、図1の主メモリ105の検索条件解析プログラム130aは、要素別集計条件抽出プログラム160に加えて要素種別判定プログラム801を記憶し、さらに磁気ディスク装置103は、検索用インデクス170に加えて要素種別辞書802を有する。また、ワークエリア140には登録対象文書格納領域180、検索条件格納領域181、要素別集計条件格納領域182、要素別類似度格納領域183および登録文書別類似度格納領域184に加え、検索キーワード格納領域810、種文書格納領域811およびキーワード属性格納領域812が確保される。それ以外の部分は図1と同様の構成である。
【0052】
以下、本実施例における処理手順のうち、第一の実施例とは異なる検索条件解析プログラム130aにおける要素種別判定プログラム801の処理手順について、図9に示すPAD図を用いて説明する。
【0053】
要素種別判定プログラム801は、まず、キーボード101を介して入力された種文書を解析し、キーワードを抽出し、ワークエリア140の検索キーワード格納領域810に格納する(ステップ901)。
【0054】
次に、ワークエリア140の検索キーワード格納領域810に格納された全てのキーワードについて以下のステップ903を繰返し実行する(ステップ902)。すなわち、ステップ902で選択されたキーワードに対し、要素種別辞書802を参照し、該キーワードの種別を判定し(ステップ903)、キーワードの種別毎に集計条件を設定する(ステップ904)。
【0055】
以下、図9に示した本発明の第二の実施例における類似文書検索システムの処理手順を、図10を用いて具体的に説明する。
【0056】
図10は、検索者により入力された種文書1001がワークメモリ140の種文書格納領域811に読み込まれた場合の要素種別判定プログラム801の処理の流れである。
【0057】
まず、ワークエリア140の種文書格納領域811に格納された種文書1001“I want a recipe of pork and tropical fruits such as pineapple, mango, guava.”に対して、図9のキーワード抽出ステップ901が実行され、抽出された単語群1002が、ワークエリア140の検索キーワード格納領域810に格納される。
【0058】
次に、上記抽出された単語群1002内の各単語に対して図9に示したキーワード属性判定ステップ903が実行される。キーワード属性判定ステップ903では、指定された単語をキーとして要素種別辞書802を参照し、各単語の属性を判定する。本図に示した例では、単語に対する要素種別辞書802として「Group of fruits」1012および「Group of meat」1013が定義されている。従って、ワークエリア140の検索キーワード格納領域810に格納された単語群1002内に出現する“tropical fruits”、“pineapple”、“mango”、“guava”および“pork”が、それぞれ「Group of fruits」1012および「Group of meat」1013と判定され、属性ごとに分類されて、各単語のキーワード属性1003として、各単語が属性ごとにワークエリア140のキーワード属性格納領域812に格納される。
【0059】
次に、キーワード属性1003に対して図9の集計条件設定ステップ904が実行され、一つのキーワードからなる「Group of meat」は、単独で集計条件として設定され、複数のキーワードからなる「Group of fruits」は、各キーワードのOR条件として設定されるとともに、複数の単語からなる“tropical fruits”は近傍条件として設定される。この結果として、種文書1001から特徴ベクトル1004が生成される。
【0060】
次に、本発明を適用した類似文書検索システムにおける検索条件入力画面の例を図11に示す。
【0061】
図11に示した種文書入力画面1101は、種文書入力領域1114、検索実行指示送信ボタン1111、詳細条件設定ボタン1112および種文書入力領域1114等に入力されたデータを消去するリセットボタン1113を有する。
【0062】
種文書入力画面1101において、種文書入力領域1114に種文書を入力し、詳細条件設定ボタン1112を押下すると、詳細条件確認画面1102へ遷移する。
【0063】
詳細条件確認画面1102では、図9に示した要素種別判定プログラム801のキーワード属性判定ステップ903により判定されたキーワード属性別に、所属するキーワード群が表示される領域1121および1122を有するとともに、表示された条件で類似文書検索を実行するOKボタン1123および検索の実行を中止するキャンセルボタン1124を有する。
【0064】
なお、本図に示した例では、詳細条件設定ボタン1112が押下された時点で、種文書入力画面1101から詳細条件確認画面1102へと遷移するものとしたが、検索実行指示送信ボタン1111が押下された時点で遷移するものとしてもよい。
【0065】
また、本図に示した例では、詳細条件確認画面1102における領域1121および1122に同一グループに属するキーワード群を表示しているが、表示するだけでなく検索者が画面上で編集できるようにしてもよい。
【0066】
次に、図11に示した種文書入力画面1102における検索実行指示送信ボタン1111の押下、あるいは詳細条件確認画面1102における類似文書検索実行OKボタン1123の押下により実行される検索の結果出力される検索結果表示画面の例を図12に示す。
【0067】
検索結果表示画面1201では、図9に示した要素種別判定プログラム801のキーワード属性判定ステップ903により判定されたキーワード属性別に、所属するキーワード群が表示される領域1121および1122を有すると共に、該キーワード群を見直して再検索の実行を指示する再検索実行指示ボタン1210、キーワード属性別の検索結果表示領域1211、1212を有する。さらに、グループごとに検索された文書をもとに、さらに絞込検索を行いたいと検索者が判断する場合に押下する絞込検索ボタン1213を有する。
【0068】
この絞込み検索ボタン1213が押下されると、グループに共通する文書(図12の場合、グループ1とグループ2に共通して関連する文書)の絞込み検索が実行され、その検索結果が画面1202に検索結果1220として表示される。
【0069】
本図に示した例では、詳細条件確認画面1102における領域1121および1122に、同一グループに属するキーワード群が表示されるものとしたが、表示されるだけでなく検索者が画面上で編集できるものであってもよい。
【0070】
また、本図に示した例では、検索結果がキーワード属性別に表示されるものとしたが、各文書が文書全体に付与された類似度の降順に表示されるものであってもよいし、類似度と共にグループ別の類似度の割合が表示されるものであっても構わない。
【0071】
また、本図に示した検索結果表示領域1211、1212、1220には、登録文書の文書番号と共に該登録文書の見出しが表示されているが、検索に使用された各キーワード属性に対応する箇所が表示されるものであっても構わない。
【0072】
以上説明したように、第二の実施例によれば、高精度な検索結果を得るために、検索者が複雑な特徴ベクトルを考える必要がなくなり、検索者の負担が軽くなる。
【0073】
なお、本実施例におけるキーワード属性判定ステップ903では、要素種別辞書802を参照したが、予め用意された辞書を用いるものでなくてもよく、例えばキーワードの組が同一の登録文書に共に出現する確率であるキーワード共起確率を用いて判定してもよい。
【0074】
【発明の効果】
以上説明したように、本発明では、複数のキーワードで表現される概念を特徴ベクトルの一つの要素として表現することができるようになるため、複雑な概念を考慮した類似度算出が可能となり、高精度な概念検索を実現できる。
【図面の簡単な説明】
【図1】本発明第一の実施例における類似文書検索システムの全体構成を示す図である。
【図2】本発明の第一の実施例におけるシステム制御プログラム110の処理手順を説明するPAD図である。
【図3】本発明の第一の実施例における登録制御プログラム111の処理手順を説明するPAD図である。
【図4】本発明の第一の実施例における検索制御プログラム112の処理手順を説明するPAD図である。
【図5】本発明の第一の実施例における類似度算出プログラム131の処理手順を説明するPAD図である。
【図6】本発明の第一の実施例における登録処理手順を説明する図である。
【図7】本発明の第一の実施例における要素別出現情報集計処理手順を説明する図である。
【図8】本発明を適用した類似文書検索システムの第二の実施例における検索条件解析プログラム130aおよびワークエリア140の構成を示す図である。
【図9】本発明の第二の実施例における要素種別判定プログラム801の処理手順を説明するPAD図である。
【図10】本発明の第二の実施例における要素種別判定プログラム801の処理手順を説明する図である。
【図11】本発明の第二の実施例における検索条件入力画面例を示す図である。
【図12】本発明の第二の実施例における検索結果表示画面例を示す図である。
【符号の説明】
100…ディスプレイ、101…キーボード、102…中央演算処理装置(CPU)、103…磁気ディスク装置、104…フレキシブルディスクドライブ(FDD)、105…主メモリ、106…バス、107…ネットワーク、170…検索用インデクス、108…フレキシブルディスク、110…システム制御プログラム、111…登録制御プログラム、112…検索制御プログラム、120…登録文書取得プログラム、121…検索用インデクス作成登録プログラム、130…検索条件解析プログラム、131…類似度算出プログラム、132…検索結果出力プログラム、140…ワークエリア、160…要素別集計条件抽出プログラム、161…要素別出現情報集計プログラム、162…要素別類似度算出プログラム、180…登録対象文書格納領域、181…検索条件格納領域、182…要素別集計条件格納領域、183…要素別類似度格納領域、184…登録文書別類似度格納領域、801…要素種別判定プログラム、802…要素種別辞書、810…検索キーワード格納領域、811…種文書格納領域、812…キーワード属性格納領域
【発明の属する技術分野】
本発明は文書間の類似度算出方法に関し、特に、検索者が指定した文書に記述されている内容と類似する内容を含む文書を、文書データベースの中から検索する方法に関する。
【0002】
【従来の技術】
大量の電子化文書の中から目的の文書を検索する技術として、類似文書検索技術が知られている。類似文書検索技術は、検索者が指定した文書(以下、種文書という)および文書データベースに格納された文書(以下、登録文書という)を、該文書に含まれる単語の出現頻度などの出現情報を要素としたベクトル(以下、特徴ベクトルという)で表現し、該特徴ベクトル間の距離を文書間の類似度として算出する(例えば、特許文献1)。
【0003】
【特許文献1】
特開2002−73681号公報
【0004】
【発明が解決しようとする課題】
しかし、上記従来技術では、文書に出現する各単語の出現情報を一つの要素として特徴ベクトルを作成しているため、複数の単語で一つの概念を表現する場合には、その概念が強調されて類似度が算出されることになり、検索者の意図とは合わない検索結果となる場合が考えられる。
【0005】
本発明の目的は、複数の単語で一つの概念が表現される場合でも、高精度に類似度を算出する類似度算出方法を提供することにある。
【0006】
【課題を解決するための手段】
上記目的を達成するために本発明は、検索者により指定された検索条件に対する登録文書の類似度を算出する際に、登録文書の特徴を表す各要素を、複数の単語間の関係を用いて表現した特徴ベクトルを用い、文書データベースに登録された登録文書から取得した各要素に対応する出現情報を用いることにより、文書間の類似度を算出する。
【0007】
【発明の実施の形態】
以下、本発明の実施の形態を、図面を用いて詳細に説明する。
【0008】
まず、本発明の第一の実施例について図1を用いて説明する。本発明を適用した類似文書検索システムは、ディスプレイ100、キーボード101、中央演算処理装置(CPU)102、磁気ディスク装置103、フレキシブルディスクドライブ(FDD)104、主メモリ105、これらを結ぶバス106および他の機器と本システムを接続するネットワーク107から構成される。磁気ディスク装置103は二次記憶装置の一つであり、検索用インデクス170が格納される。FDD104を介してフレキシブルディスク108に格納されている情報が、主メモリ105あるいは磁気ディスク装置103へ読み込まれる。
【0009】
主メモリ105には、システム制御プログラム110、登録制御プログラム111、検索制御プログラム112、登録文書取得プログラム120、検索用インデクス作成登録プログラム121、検索条件解析プログラム130、類似度算出プログラム131、検索結果出力プログラム132が格納されると共にワークエリア140が確保される。
【0010】
検索条件解析プログラム130は、要素別集計条件抽出プログラム160で構成される。類似度算出プログラム131は、要素別出現情報集計プログラム161および要素別類似度算出プログラム162で構成される。ワークエリア140には、登録対象文書格納領域180、検索条件格納領域181、要素別集計条件格納領域182、要素別類似度格納領域183および登録文書別類似度格納領域184が確保される。
【0011】
登録制御プログラム111および検索制御プログラム112は、キーボード101からのユーザによる指示に応じてシステム制御プログラム110によって起動され、それぞれ登録文書取得プログラム120、検索用インデクス作成登録プログラム121の制御と、検索条件解析プログラム130、類似度算出プログラム131および検索結果出力プログラム132の制御を行う。
【0012】
なお本実施例では、キーボード101から入力されたコマンドにより、登録制御プログラム111や検索制御プログラム112が起動されるものとしたが、他の入力装置を介して入力されたコマンドあるいはイベントにより起動されるように構成してもよい。また、キーボード101から入力されたコマンドをもとに、CPUが各プログラムを起動する処理を行うこともできる。
【0013】
また、これらのプログラムは磁気ディスク装置103、フレキシブルディスク108、あるいはMO、CD−ROM、DVD等の記憶媒体(図1には示していない)に格納し、駆動装置を介して主メモリ105に読み込み、CPU102によって実行することも可能である。また、これらのプログラムをネットワーク107を介して主メモリ105に読み込み、CPU102によって実行することも可能である。
【0014】
さらに、本実施例では検索用インデクス170は磁気ディスク装置103に格納されるものとしたが、主メモリ105に格納されるものであってもよいし、あるいはフレキシブルディスク108、MO、CD−ROM、DVD等の記憶媒体(図1には示していない)に格納し、駆動装置を介して主メモリ105に読み込み利用することも可能である。また、これらのファイルは、ネットワーク107を介して他のシステムに接続された記憶媒体(図1には示していない)に格納されていてもよいし、あるいはネットワーク107に直接接続された記憶媒体に格納されていてもよい。
【0015】
また、ワークエリア140は、主メモリ105上に確保されるものとしたが、磁気ディスク装置103に確保されるものであってもよいし、フレキシブルディスク108、MO、CD−R、DVD等の書き込み可能な記憶媒体(図1には示していない)やネットワーク107に直接接続された書き込み可能な記憶媒体に確保されるものであってもよい。
【0016】
以下、本実施例における類似文書検索システムの処理手順について説明する。
【0017】
まず、システム制御プログラム110の処理手順について図2のPAD図を用いて説明する。
【0018】
システム制御プログラム110は、キーボード101から入力されたコマンドを解析する(ステップ200)。この解析の結果、登録実行のコマンドである場合には、登録制御プログラム111を起動して、文書の登録を行い(ステップ210)、検索実行のコマンドである場合には、検索制御プログラム112を起動して、類似文書の検索を行う(ステップ220)。
【0019】
次に、図2のステップ210に示す登録制御プログラム111の登録処理の手順について、図3のPAD図を用いて説明する。
【0020】
登録制御プログラム111は、まず登録文書取得プログラム120を起動し、登録対象として指定された文書(以下、登録対象文書という)を読み込み、ワークエリア140の登録対象文書格納領域180に格納する(ステップ301)。
次に、検索用インデクス作成登録プログラム121を起動し、ワークエリア140の登録対象文書格納領域180に格納されている登録対象文書に対する検索用インデクスを作成し、磁気ディスク装置103に検索用インデクス170として格納する(ステップ302)。
【0021】
次に、図2のステップ220に示す検索制御プログラム112の検索処理の手順について、図4のPAD図を用いて説明する。
【0022】
検索制御プログラム112は、まず検索条件解析プログラム130を起動し、検索者により入力された検索条件を解析する(ステップ401)。次に、類似度算出プログラム131を起動し、検索条件に対する各登録文書の類似度を算出する(ステップ402)。各登録文書は、登録対象文書格納領域180に格納されている。そして、検索結果出力プログラム132を起動し、上記ステップ402で算出された類似度算出結果を検索結果として出力する(ステップ403)。検索結果の出力先は、ディスプレイ100に表示してもよいし、ワークエリア140や磁気ディスク装置103上に格納してもよい。また、類似度算出結果をディスプレイ100に出力する場合には、類似度の昇順または降順に出力してもよいし、文書に付与された管理番号等の昇順あるいは降順に出力してもよい。
【0023】
次に、図4のステップ401に示す検索条件解析プログラム130の処理手順について説明する。
【0024】
検索条件解析プログラム130は、キーボード101から入力された検索条件を読み込み、ワークエリア140の検索条件格納領域181に格納する。そして、要素別集計条件抽出プログラム160を起動し、ワークエリア140の検索条件格納領域181に格納された検索条件の中から、要素別の集計条件を抽出し、ワークエリア140の要素別集計条件格納領域182に格納する。
【0025】
次に、図4のステップ402に示す類似度算出プログラム131の処理手順について、図5のPAD図を用いて説明する。
【0026】
類似度算出プログラム131は、前記検索条件解析プログラム130によりワークエリア140の要素別集計条件格納領域182に格納された要素別の集計条件を読み込み、各集計条件に対してステップ502〜ステップ503を繰返し実行する(ステップ501)。以下、繰返し処理中に行うステップ502からステップ503について説明する。
【0027】
まず、要素別出現情報集計プログラム161を起動し、前記ステップ501で読み込まれた要素別集計条件に基づき、検索用インデクス170を参照し、該要素の出現情報を集計する(ステップ502)。次に、要素別類似度算出プログラム162を起動し、上記ステップ502で集計した出現情報に基づき、該要素における類似度(以下、要素別類似度という)を算出し、ワークエリア140の要素別類似度格納領域183に格納する(ステップ503)。
【0028】
上記ステップ503においてワークエリア140の要素別類似度格納領域183に格納された要素別類似度から各登録文書の類似度を算出し、ワークエリア140の登録文書別類似度格納領域184に格納する(ステップ504)。
【0029】
なお、上記ステップ502における要素別類似度の算出には、例えばTF・IDF(Text Frequency, Inverted Documents Frequency)法を用いるものとしてもよい。
【0030】
以下、本発明の第一の実施例における類似文書検索システムの具体的な処理手順を図6および図7を用いて説明する。
【0031】
まず、本発明の第一の実施例に示した類似文書検索システムにおける文書の登録処理(図3)について、図6を用いて具体的に説明する。
【0032】
図6は、文書1「〜 Our Product 〜 10% Coconut Juice With Meat 25% Orange Juice 30% Mango Juice 40% Guava Juice 40% Lychee Juice 55% Passion Fruit with pineapple juice 100% Pineapple Juice 」および文書2「Cinnamon Pineapple Pork Stir in pineapple and juice, wine, ginger root, jalapeno pepper and cinnamon; simmer until liquid is reduced to 1/4 cup. Spoon pineapple mixture over cooked pork pieces; sprinkle with cilantro」が文書データベースに登録される場合の処理の流れである。
【0033】
まず、図3に示したステップ301が実行され、登録文書取得プログラム120により文書1および文書2がワークエリア140に読み込まれ、それぞれ文書601および文書602として格納される。
【0034】
次に、ワークエリア140上の文書601および文書602に対し、図3に示した検索用インデクス作成処理302が実行され、スペース等をデリミタとして抽出された各単語(または各文字列)に対する出現位置を格納した検索用インデクス170が磁気ディスク装置103内に作成される。
【0035】
本図に示した検索用インデクス170は、各単語の見出し、出現文書番号および出現位置が格納される場合の例である。本図において、「1/4 (2,22)」は、“1/4”という単語が文書2の22番目の単語として出現することを表す。
【0036】
次に、本発明の第一の実施例に示した類似文書検索システムにおける検索条件に対する要素別出現情報集計処理(図5のステップ502)の手順について、図7を用いて説明する。
【0037】
要素別出現情報集計処理では、まず検索者により入力された検索条件701をワークエリア140の検索条件格納領域181に格納する。
【0038】
検索条件701は、図7の例では3つの要素からなる特徴ベクトルを表しており、それぞれ(recipe)、(pork)、および(tropical⇔fruits, pineapple, mango, guava)の軸からなる。ここで、“tropical⇔fruits”は、単語“tropical”および“fruits”の近傍条件を表す。
【0039】
また、一つの要素内にカンマで区切られた複数のキーワードが存在する場合は、該要素は各キーワードのORで表わされることを示す。図7に示した例では、3番目の要素である(tropical⇔fruits, pineapple, mango, guava)が該当し、該要素は“tropical⇔fruits”、“pineapple”、“mango”および“guava”の4つのキーワードのORで表わされることを示す。
【0040】
次に、図4に示した検索条件解析ステップ401が実行され、ワークメモリ140に読み込まれた検索条件701を解析し、検索条件701内の括弧、カンマおよび近傍条件を表す記号「⇔」を識別することにより、要素別集計条件711「“recipe”」、712「“pork”」および713「(“tropical”,“fruits”, 5) or“pineapple”or“mango”or“guava”」を抽出する。ここで、例えば要素別集計条件711「“recipe”」は、キーワード“recipe”を含む文書が要素別集計条件の対象になることを表しており、また、要素別集計条件713「(“tropical”,“fruits”, 5) or“pineapple”or“mango”or“guava”」は、“tropical”と“fruits”が5単語以内に出現する文書、あるいは“pineapple”、“mango”、“guava”のいずれかを含む文書が要素別集計条件の対象となることを表す。
【0041】
次に、図5に示す要素別出現情報集計ステップ502が実行され、上記検索条件解析ステップ401で抽出された各要素別集計条件711、712および713が満たす出現情報を、検索用インデクス170を参照することにより取得する。
【0042】
本図に示した例では、要素別集計条件711「“recipe”」の出現情報0[NULL,NULL]、要素別集計条件712「“pork”」の出現情報として1[2,2]、要素別集計条件713「(“tropical”,“fruits”,5) or“pineapple”or“mango”or“guava”」の出現情報として2[1,4][2,3]を取得する。ここで、括弧の前の数字は出現文書数を表わしており、各括弧内数字は出現文書番号および出現数を表わしている。例えば、要素別集計条件712「“pork”」の出現情報である1[2,2]は、「文書数[文書番号,出現回数]」を示しており、この場合、該集計条件の満たす文書数は1であり、文書2に2回出現していることを表す。
【0043】
なお、上記ステップ401において検索条件701を解析する際には、検索条件701内の括弧、カンマ、および近傍条件を表す記号「⇔」を識別するものとしたが、スペースやピリオドなど他の文字列を識別するものであってもよい。
【0044】
以上説明したように、本発明の第一の実施例によれば、複数のキーワードで表現される概念を特徴ベクトルの一つの要素として表現することができるようになる。この結果、複雑な概念を考慮した類似度算出が可能となり、高精度な概念検索を実現することができる。
【0045】
なお、本実施例では、要素別集計条件の表現を近傍条件やORで表現するものとしたが、ANDやNOTなどその他の表現方法を用いてもよい。
【0046】
また、本実施例では、英語における類似文書検索システムの例で説明したが、英語に限らずその他の言語でもよい。すなわち、本発明の第一の実施例における文書登録処理では、スペース等をデリミタとして単語を抽出するものとしたが、日本語等の区切れ目が明確でない言語に対しては、単語辞書を参照して抽出された単語を用いるものとしてもよいし、N−gramを抽出するものであっても構わない。
【0047】
本実施例では、検索用インデクス170として単語インデクスを用いるものとしたが、インデクス方式によらず、例えば、N−gramインデクス方式であってもよい。さらに、本実施例では検索用インデクス170を各文書に出現する単語の索引形式を用いるものとしたが、各文書のシグネチャファイルを格納するものであってもよい。
【0048】
また本実施例では、類似文書検索システムの例で説明したが、本発明における類似度算出方法は、類似文書検索システムに限らず文書間の類似度算出に適用できる。例えば、文書内から検索条件に適合する箇所を抽出する類似箇所抽出システム、検索結果などの文書集合を、内容の類似性に基づき分類する文書分類システム、あるいは、予め作成されたカテゴリに対して分類先を判定する分類先判定システムなどの類似度算出に本発明に示した類似度算出方法を適用することができる。
【0049】
次に、本発明の第二の実施例について図8を用いて説明する。
【0050】
本実施例は、検索者が入力した種文書から要素別集計条件を自動生成しようとするものである。すなわち、複雑な特徴ベクトルを作成しなくても高精度な検索を実行できるようになり、検索者の負荷が軽減される。
【0051】
本実施例のシステム構成は、第一の実施例(図1)とほぼ同様であるが、図1の主メモリ105の検索条件解析プログラム130aは、要素別集計条件抽出プログラム160に加えて要素種別判定プログラム801を記憶し、さらに磁気ディスク装置103は、検索用インデクス170に加えて要素種別辞書802を有する。また、ワークエリア140には登録対象文書格納領域180、検索条件格納領域181、要素別集計条件格納領域182、要素別類似度格納領域183および登録文書別類似度格納領域184に加え、検索キーワード格納領域810、種文書格納領域811およびキーワード属性格納領域812が確保される。それ以外の部分は図1と同様の構成である。
【0052】
以下、本実施例における処理手順のうち、第一の実施例とは異なる検索条件解析プログラム130aにおける要素種別判定プログラム801の処理手順について、図9に示すPAD図を用いて説明する。
【0053】
要素種別判定プログラム801は、まず、キーボード101を介して入力された種文書を解析し、キーワードを抽出し、ワークエリア140の検索キーワード格納領域810に格納する(ステップ901)。
【0054】
次に、ワークエリア140の検索キーワード格納領域810に格納された全てのキーワードについて以下のステップ903を繰返し実行する(ステップ902)。すなわち、ステップ902で選択されたキーワードに対し、要素種別辞書802を参照し、該キーワードの種別を判定し(ステップ903)、キーワードの種別毎に集計条件を設定する(ステップ904)。
【0055】
以下、図9に示した本発明の第二の実施例における類似文書検索システムの処理手順を、図10を用いて具体的に説明する。
【0056】
図10は、検索者により入力された種文書1001がワークメモリ140の種文書格納領域811に読み込まれた場合の要素種別判定プログラム801の処理の流れである。
【0057】
まず、ワークエリア140の種文書格納領域811に格納された種文書1001“I want a recipe of pork and tropical fruits such as pineapple, mango, guava.”に対して、図9のキーワード抽出ステップ901が実行され、抽出された単語群1002が、ワークエリア140の検索キーワード格納領域810に格納される。
【0058】
次に、上記抽出された単語群1002内の各単語に対して図9に示したキーワード属性判定ステップ903が実行される。キーワード属性判定ステップ903では、指定された単語をキーとして要素種別辞書802を参照し、各単語の属性を判定する。本図に示した例では、単語に対する要素種別辞書802として「Group of fruits」1012および「Group of meat」1013が定義されている。従って、ワークエリア140の検索キーワード格納領域810に格納された単語群1002内に出現する“tropical fruits”、“pineapple”、“mango”、“guava”および“pork”が、それぞれ「Group of fruits」1012および「Group of meat」1013と判定され、属性ごとに分類されて、各単語のキーワード属性1003として、各単語が属性ごとにワークエリア140のキーワード属性格納領域812に格納される。
【0059】
次に、キーワード属性1003に対して図9の集計条件設定ステップ904が実行され、一つのキーワードからなる「Group of meat」は、単独で集計条件として設定され、複数のキーワードからなる「Group of fruits」は、各キーワードのOR条件として設定されるとともに、複数の単語からなる“tropical fruits”は近傍条件として設定される。この結果として、種文書1001から特徴ベクトル1004が生成される。
【0060】
次に、本発明を適用した類似文書検索システムにおける検索条件入力画面の例を図11に示す。
【0061】
図11に示した種文書入力画面1101は、種文書入力領域1114、検索実行指示送信ボタン1111、詳細条件設定ボタン1112および種文書入力領域1114等に入力されたデータを消去するリセットボタン1113を有する。
【0062】
種文書入力画面1101において、種文書入力領域1114に種文書を入力し、詳細条件設定ボタン1112を押下すると、詳細条件確認画面1102へ遷移する。
【0063】
詳細条件確認画面1102では、図9に示した要素種別判定プログラム801のキーワード属性判定ステップ903により判定されたキーワード属性別に、所属するキーワード群が表示される領域1121および1122を有するとともに、表示された条件で類似文書検索を実行するOKボタン1123および検索の実行を中止するキャンセルボタン1124を有する。
【0064】
なお、本図に示した例では、詳細条件設定ボタン1112が押下された時点で、種文書入力画面1101から詳細条件確認画面1102へと遷移するものとしたが、検索実行指示送信ボタン1111が押下された時点で遷移するものとしてもよい。
【0065】
また、本図に示した例では、詳細条件確認画面1102における領域1121および1122に同一グループに属するキーワード群を表示しているが、表示するだけでなく検索者が画面上で編集できるようにしてもよい。
【0066】
次に、図11に示した種文書入力画面1102における検索実行指示送信ボタン1111の押下、あるいは詳細条件確認画面1102における類似文書検索実行OKボタン1123の押下により実行される検索の結果出力される検索結果表示画面の例を図12に示す。
【0067】
検索結果表示画面1201では、図9に示した要素種別判定プログラム801のキーワード属性判定ステップ903により判定されたキーワード属性別に、所属するキーワード群が表示される領域1121および1122を有すると共に、該キーワード群を見直して再検索の実行を指示する再検索実行指示ボタン1210、キーワード属性別の検索結果表示領域1211、1212を有する。さらに、グループごとに検索された文書をもとに、さらに絞込検索を行いたいと検索者が判断する場合に押下する絞込検索ボタン1213を有する。
【0068】
この絞込み検索ボタン1213が押下されると、グループに共通する文書(図12の場合、グループ1とグループ2に共通して関連する文書)の絞込み検索が実行され、その検索結果が画面1202に検索結果1220として表示される。
【0069】
本図に示した例では、詳細条件確認画面1102における領域1121および1122に、同一グループに属するキーワード群が表示されるものとしたが、表示されるだけでなく検索者が画面上で編集できるものであってもよい。
【0070】
また、本図に示した例では、検索結果がキーワード属性別に表示されるものとしたが、各文書が文書全体に付与された類似度の降順に表示されるものであってもよいし、類似度と共にグループ別の類似度の割合が表示されるものであっても構わない。
【0071】
また、本図に示した検索結果表示領域1211、1212、1220には、登録文書の文書番号と共に該登録文書の見出しが表示されているが、検索に使用された各キーワード属性に対応する箇所が表示されるものであっても構わない。
【0072】
以上説明したように、第二の実施例によれば、高精度な検索結果を得るために、検索者が複雑な特徴ベクトルを考える必要がなくなり、検索者の負担が軽くなる。
【0073】
なお、本実施例におけるキーワード属性判定ステップ903では、要素種別辞書802を参照したが、予め用意された辞書を用いるものでなくてもよく、例えばキーワードの組が同一の登録文書に共に出現する確率であるキーワード共起確率を用いて判定してもよい。
【0074】
【発明の効果】
以上説明したように、本発明では、複数のキーワードで表現される概念を特徴ベクトルの一つの要素として表現することができるようになるため、複雑な概念を考慮した類似度算出が可能となり、高精度な概念検索を実現できる。
【図面の簡単な説明】
【図1】本発明第一の実施例における類似文書検索システムの全体構成を示す図である。
【図2】本発明の第一の実施例におけるシステム制御プログラム110の処理手順を説明するPAD図である。
【図3】本発明の第一の実施例における登録制御プログラム111の処理手順を説明するPAD図である。
【図4】本発明の第一の実施例における検索制御プログラム112の処理手順を説明するPAD図である。
【図5】本発明の第一の実施例における類似度算出プログラム131の処理手順を説明するPAD図である。
【図6】本発明の第一の実施例における登録処理手順を説明する図である。
【図7】本発明の第一の実施例における要素別出現情報集計処理手順を説明する図である。
【図8】本発明を適用した類似文書検索システムの第二の実施例における検索条件解析プログラム130aおよびワークエリア140の構成を示す図である。
【図9】本発明の第二の実施例における要素種別判定プログラム801の処理手順を説明するPAD図である。
【図10】本発明の第二の実施例における要素種別判定プログラム801の処理手順を説明する図である。
【図11】本発明の第二の実施例における検索条件入力画面例を示す図である。
【図12】本発明の第二の実施例における検索結果表示画面例を示す図である。
【符号の説明】
100…ディスプレイ、101…キーボード、102…中央演算処理装置(CPU)、103…磁気ディスク装置、104…フレキシブルディスクドライブ(FDD)、105…主メモリ、106…バス、107…ネットワーク、170…検索用インデクス、108…フレキシブルディスク、110…システム制御プログラム、111…登録制御プログラム、112…検索制御プログラム、120…登録文書取得プログラム、121…検索用インデクス作成登録プログラム、130…検索条件解析プログラム、131…類似度算出プログラム、132…検索結果出力プログラム、140…ワークエリア、160…要素別集計条件抽出プログラム、161…要素別出現情報集計プログラム、162…要素別類似度算出プログラム、180…登録対象文書格納領域、181…検索条件格納領域、182…要素別集計条件格納領域、183…要素別類似度格納領域、184…登録文書別類似度格納領域、801…要素種別判定プログラム、802…要素種別辞書、810…検索キーワード格納領域、811…種文書格納領域、812…キーワード属性格納領域
Claims (5)
- 予め登録された文書の類似度を算出する類似度算出方法であって、
前記予め登録された文書に含まれる文字列を検索用インデクスとして記憶し、
検索者によって入力された検索条件に含まれる構成要素を抽出し、
該抽出した構成要素に含まれるキーワード間の関係を示す情報に基づいて、前記検索条件の要素別集計条件を設定し、
該設定した要素別集計条件と前記記憶した検索用インデクスとを比較して、前記要素別集計条件が満たす出現情報を取得し、
該取得した出現情報をもとに、前記検索条件と、前記予め登録された文書との類似度を算出することを特徴とする類似度算出方法。 - 前記検索条件に含まれるキーワードに対して予め属性が設定されている場合は、該キーワードの属性を判定し、
該判定した属性ごとに前記抽出したキーワードを分類して記憶し、
該記憶したキーワードの属性に基づいて、前記検索条件の要素別集計条件を設定することを特徴とする請求項1記載の類似度算出方法。 - 予め登録された文書を検索する文書検索システムにおける文書の類似度を算出する類似度算出方法において、
前記予め登録された文書に含まれる文字列を検索用インデクスとして記憶し、
検索者によって入力された検索条件に含まれるキーワードを抽出し、
該抽出したキーワードに対して属性が予め設定されている場合は、該キーワードの属性を判定し、
該判定結果に従って前記抽出したキーワードを属性ごとに分類してキーワード属性として記憶し、
該記憶したキーワード属性に基づいて、前記検索条件の要素別集計条件を設定し、
該設定した要素別集計条件と前記記憶した検索用インデクスとを比較して、前記要素別集計条件が満たす出現情報を取得し、
該取得した出現情報をもとに、前記検索条件と、前記予め登録された文書との類似度を算出することを特徴とする類似度算出方法。 - 予め登録された文書の類似度を算出する類似度算出装置であって、
前記予め登録された文書に含まれる文字列の出現位置を示す検索用インデクスとして記憶する記憶手段と、
検索者によって入力された検索条件に含まれる構成要素を抽出する検索条件解析手段と、
該検索条件解析手段が抽出した構成要素に含まれるキーワード間の関係を示す情報に基づいて、前記検索条件の要素別集計条件を抽出する要素別集計条件抽出手段と、
該要素別集計条件抽出手段が抽出した要素別集計条件と前記記憶した検索用インデクスとを比較して、前記要素別集計条件が満たす出現情報を取得する要素別出現情報集計手段と、
該要素別出現情報集計手段が取得した出現情報をもとに、前記検索条件と前記予め登録された文書との類似度を算出する要素別類似度算出手段を備えることを特徴とする類似度算出装置。 - 前記記憶手段は、文字列に対する属性ごとに文字列を分類して記憶する要素種別辞書を備え、
前記類似度算出装置はさらに、
前記検索条件に含まれるキーワードに対して、前記要素種別辞書に予め属性が設定されている場合は、該キーワードの属性を判定する要素種別判定手段と、
該判定したキーワードの属性に基づいて、前記検索条件の要素別集計条件を設定する要素別集計条件抽出手段を備えることを特徴とする請求項4記載の類似度算出方法。
Priority Applications (2)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
JP2003200193A JP2005043977A (ja) | 2003-07-23 | 2003-07-23 | 文書間の類似度算出方法および装置 |
US10/838,231 US7440938B2 (en) | 2003-07-23 | 2004-05-05 | Method and apparatus for calculating similarity among documents |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
JP2003200193A JP2005043977A (ja) | 2003-07-23 | 2003-07-23 | 文書間の類似度算出方法および装置 |
Publications (1)
Publication Number | Publication Date |
---|---|
JP2005043977A true JP2005043977A (ja) | 2005-02-17 |
Family
ID=34074456
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
JP2003200193A Pending JP2005043977A (ja) | 2003-07-23 | 2003-07-23 | 文書間の類似度算出方法および装置 |
Country Status (2)
Country | Link |
---|---|
US (1) | US7440938B2 (ja) |
JP (1) | JP2005043977A (ja) |
Cited By (1)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
WO2007105273A1 (ja) * | 2006-03-10 | 2007-09-20 | Fujitsu Limited | 機密情報管理プログラム、方法及び装置 |
Families Citing this family (19)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
EP1049030A1 (en) * | 1999-04-28 | 2000-11-02 | SER Systeme AG Produkte und Anwendungen der Datenverarbeitung | Classification method and apparatus |
EP1128278B1 (en) * | 2000-02-23 | 2003-09-17 | SER Solutions, Inc | Method and apparatus for processing electronic documents |
US9177828B2 (en) | 2011-02-10 | 2015-11-03 | Micron Technology, Inc. | External gettering method and device |
EP1182577A1 (en) | 2000-08-18 | 2002-02-27 | SER Systeme AG Produkte und Anwendungen der Datenverarbeitung | Associative memory |
DK1288792T3 (da) | 2001-08-27 | 2012-04-02 | Bdgb Entpr Software Sarl | Fremgangsmåde til automatisk indeksering af dokumenter |
US7814105B2 (en) * | 2004-10-27 | 2010-10-12 | Harris Corporation | Method for domain identification of documents in a document database |
JP4524640B2 (ja) * | 2005-03-31 | 2010-08-18 | ソニー株式会社 | 情報処理装置および方法、並びにプログラム |
US8938474B2 (en) | 2006-08-07 | 2015-01-20 | International Business Machines Corporation | Securing application information in system-wide search engines |
US8103650B1 (en) * | 2009-06-29 | 2012-01-24 | Adchemy, Inc. | Generating targeted paid search campaigns |
US8321357B2 (en) * | 2009-09-30 | 2012-11-27 | Lapir Gennady | Method and system for extraction |
US9152883B2 (en) * | 2009-11-02 | 2015-10-06 | Harry Urbschat | System and method for increasing the accuracy of optical character recognition (OCR) |
US9158833B2 (en) * | 2009-11-02 | 2015-10-13 | Harry Urbschat | System and method for obtaining document information |
US9213756B2 (en) * | 2009-11-02 | 2015-12-15 | Harry Urbschat | System and method of using dynamic variance networks |
JP5910134B2 (ja) * | 2012-02-07 | 2016-04-27 | カシオ計算機株式会社 | テキスト検索装置及びプログラム |
US9098543B2 (en) * | 2013-03-14 | 2015-08-04 | Wal-Mart Stores, Inc. | Attribute detection |
CN106934010A (zh) * | 2017-03-09 | 2017-07-07 | 深圳市华第时代科技有限公司 | 自动查重方法及装置 |
WO2018161309A1 (zh) * | 2017-03-09 | 2018-09-13 | 深圳市华第时代科技有限公司 | 自动查重方法及装置 |
US10977250B1 (en) * | 2018-09-11 | 2021-04-13 | Intuit, Inc. | Responding to similarity queries using vector dimensionality reduction |
US20230026656A1 (en) * | 2021-07-21 | 2023-01-26 | The Boeing Company | Machine learning for categorizing text |
Family Cites Families (10)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
JP3270783B2 (ja) * | 1992-09-29 | 2002-04-02 | ゼロックス・コーポレーション | 複数の文書検索方法 |
US6240424B1 (en) * | 1998-04-22 | 2001-05-29 | Nbc Usa, Inc. | Method and system for similarity-based image classification |
US6990628B1 (en) * | 1999-06-14 | 2006-01-24 | Yahoo! Inc. | Method and apparatus for measuring similarity among electronic documents |
JP3573688B2 (ja) * | 2000-06-28 | 2004-10-06 | 松下電器産業株式会社 | 類似文書検索装置及び関連キーワード抽出装置 |
US6728728B2 (en) * | 2000-07-24 | 2004-04-27 | Israel Spiegler | Unified binary model and methodology for knowledge representation and for data and information mining |
JP4045728B2 (ja) | 2000-08-28 | 2008-02-13 | 株式会社日立製作所 | 類似文書検索方法および装置および、類似文書検索方法のためのプログラムが記録された記憶媒体 |
JP3717808B2 (ja) * | 2001-06-29 | 2005-11-16 | 株式会社日立製作所 | 情報検索システム |
JP2003242176A (ja) * | 2001-12-13 | 2003-08-29 | Sony Corp | 情報処理装置および方法、記録媒体、並びにプログラム |
US20040034633A1 (en) * | 2002-08-05 | 2004-02-19 | Rickard John Terrell | Data search system and method using mutual subsethood measures |
US20040091843A1 (en) * | 2002-11-12 | 2004-05-13 | Albro Todd M. | Menu generator, system and methods for generating clinical menus |
-
2003
- 2003-07-23 JP JP2003200193A patent/JP2005043977A/ja active Pending
-
2004
- 2004-05-05 US US10/838,231 patent/US7440938B2/en not_active Expired - Fee Related
Cited By (2)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
WO2007105273A1 (ja) * | 2006-03-10 | 2007-09-20 | Fujitsu Limited | 機密情報管理プログラム、方法及び装置 |
JP4824750B2 (ja) * | 2006-03-10 | 2011-11-30 | 富士通株式会社 | 機密情報管理プログラム、方法及び装置 |
Also Published As
Publication number | Publication date |
---|---|
US7440938B2 (en) | 2008-10-21 |
US20050021508A1 (en) | 2005-01-27 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
JP2005043977A (ja) | 文書間の類似度算出方法および装置 | |
JP2783558B2 (ja) | 要約生成方法および要約生成装置 | |
US8024175B2 (en) | Computer program, apparatus, and method for searching translation memory and displaying search result | |
JPH11110416A (ja) | データベースからドキュメントを検索するための方法および装置 | |
JPH0424869A (ja) | 文書処理システム | |
KR20200038984A (ko) | 동의어 사전 작성 장치, 동의어 사전 작성 프로그램 및 동의어 사전 작성 방법 | |
US20150205860A1 (en) | Information retrieval device, information retrieval method, and information retrieval program | |
JP2011248596A (ja) | 画像入り文書の検索システム及び検索方法 | |
JP2009199302A (ja) | ドキュメントを解析するためのプログラム,装置および方法 | |
JP5269399B2 (ja) | 構造化文書検索装置、方法およびプログラム | |
JP7117168B2 (ja) | 情報処理装置および情報処理方法 | |
JP2003263441A (ja) | キーワード決定データベース作成方法、キーワード決定方法、装置、プログラム、および記録媒体 | |
JPH11143902A (ja) | n−gramを用いた類似文書検索方法 | |
JP2004361992A (ja) | 関連語抽出装置、関連語抽出方法及びプログラム | |
JP2003303194A (ja) | 慣用句辞書作成装置、検索用インデックス作成装置、文書検索装置、それらの方法、プログラム及び記録媒体 | |
Springorum et al. | Automatic classification of German'an'particle verbs. | |
KR101088483B1 (ko) | 이종 분류체계들을 매핑시키는 방법 및 장치 | |
JP2002108888A (ja) | ディジタルコンテンツのキーワード抽出装置、方法及びコンピュータ読み取り可能な記録媒体 | |
JP7047825B2 (ja) | 検索装置、検索方法、検索プログラム | |
JPH08137895A (ja) | 類似文書検索システム | |
JP2001142897A (ja) | 文書検索装置、文書検索方法、文書検索システム及び文書検索方法を実行させるためのプログラムを記録したコンピュータ読み取り可能な記録媒体 | |
JP2004152041A (ja) | 重要語句抽出装置、プログラムおよび記録媒体 | |
JP2001092831A (ja) | 文書検索装置及び文書検索方法 | |
JP4206266B2 (ja) | 全文検索装置、処理方法、処理プログラム及び記録媒体 | |
TWI703453B (zh) | 建議詞語生成裝置、記錄有建議詞語生成程式之電腦可讀取之記錄媒體及建議詞語生成方法 |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
A621 | Written request for application examination |
Free format text: JAPANESE INTERMEDIATE CODE: A621 Effective date: 20050914 |
|
RD01 | Notification of change of attorney |
Free format text: JAPANESE INTERMEDIATE CODE: A7421 Effective date: 20060420 |
|
A131 | Notification of reasons for refusal |
Free format text: JAPANESE INTERMEDIATE CODE: A131 Effective date: 20080819 |
|
A02 | Decision of refusal |
Free format text: JAPANESE INTERMEDIATE CODE: A02 Effective date: 20081224 |