[go: up one dir, main page]

JP2000148793A - 複合メディア文書の類似検索方法及び装置及び複合メディア文書の類似検索プログラムを格納した記憶媒体 - Google Patents

複合メディア文書の類似検索方法及び装置及び複合メディア文書の類似検索プログラムを格納した記憶媒体

Info

Publication number
JP2000148793A
JP2000148793A JP11055950A JP5595099A JP2000148793A JP 2000148793 A JP2000148793 A JP 2000148793A JP 11055950 A JP11055950 A JP 11055950A JP 5595099 A JP5595099 A JP 5595099A JP 2000148793 A JP2000148793 A JP 2000148793A
Authority
JP
Japan
Prior art keywords
document
similarity
information
composite media
search
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Pending
Application number
JP11055950A
Other languages
English (en)
Inventor
Tomohiro Hasegawa
知洋 長谷川
Masayoshi Umeda
昌義 梅田
Noburo Taniguchi
展郎 谷口
Masashi Yamamuro
雅司 山室
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Nippon Telegraph and Telephone Corp
Original Assignee
Nippon Telegraph and Telephone Corp
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Nippon Telegraph and Telephone Corp filed Critical Nippon Telegraph and Telephone Corp
Priority to JP11055950A priority Critical patent/JP2000148793A/ja
Publication of JP2000148793A publication Critical patent/JP2000148793A/ja
Pending legal-status Critical Current

Links

Landscapes

  • Information Retrieval, Db Structures And Fs Structures Therefor (AREA)

Abstract

(57)【要約】 【課題】 テキスト情報の類似性を重視した類似検索や
画像情報の類似性を重視した類似検索や構造情報の類似
性を重視した類似検索などが可能な複合メディア文書の
類似検索方法及び装置及び複合メディア文書の類似検索
プログラムを格納した記憶媒体を提供する。 【解決手段】 本発明は、検索条件として複合メディア
文書が例示されると、例示された文書に含まれるテキス
ト情報、画像や音声の情報、構造情報などの特徴情報と
蓄積された文書に含まれるテキスト情報、画像や音声の
情報、構造情報などの特徴情報とをそれぞれ比較し、テ
キスト情報の類似度、画像情報の類似度、音声情報の類
似度、構造情報の類似度を個々に計算し、それらに重み
の値を掛け合わせ、総合的な評価値を計算したものを文
書レベルでの類似度とし、重みの値を調節して、類似度
が高い順に文書を検索結果として出力する。

Description

【発明の詳細な説明】
【0001】
【発明の属する技術分野】本発明は、複合メディア文書
の類似検索方法及び装置及び複合メディア文書の類似検
索プログラムを格納した記憶媒体に係り、特に、複合メ
ディア文書データベースについて、類似した複合メディ
ア文書を検索するための複合メディア文書の類似検索方
法及び装置及び複合メディア文書の類似検索プログラム
を格納した記憶媒体に関する。
【0002】
【従来の技術】構造化文書検索方法に関する従来の技術
としては、奈良先端大学のStructureIndex とContent I
ndex の組み合わせ(金本、加藤、絹谷、吉川、“効率
的な更新が可能な構造化文書検索法”)等がある。これ
らのシステムでは、SGML文書やXML文書などの構
造化文書に格納されたテキスト情報や文書構造の情報
(エレメント名など)の出現位置に関する転置ファイル
などの索引を予め用意し、テキスト情報または、テキス
ト情報と構造情報の組み合わせを検索キーとして与え、
与えたキーワードが文書に含まれているか否かを判定す
る論理検索や、指定した範囲内に与えたキーワードが出
現するか否かを判定する範囲検索を行うことで、構造化
文書の検索を可能にしている。
【0003】ジャストシステムのConceptBase やコマツ
ソフトのVextSearchなどのシステムで、検索キーとして
自然文などで入力されたテキストに含まれる概念と検索
対象となるテキストに含まれる概念とを比較して、類似
文書(テキストのみ)の検索を可能にしている。
【0004】
【発明が解決しようとする課題】しかしながら、上記の
従来の方法を複合メディア文書を対象とした類似検索に
適用しようとした場合、複合メディア文書を対象とした
類似検索法が確立されていないため、以下のような問題
が発生する。 ・利用者が構造化文書中のエレメント名(注:構造情報
を表すタグ名)などの文書構造に関する情報を予め知ら
なければ、検索キーの一部に構造情報を与えた検索を行
うことができない。
【0005】・画像や音声などテキスト以外のメディア
の情報や構造情報を検索キーとして使用した複合メディ
ア文書の類似検索ができない。 本発明は、上記の点に鑑みなされたもので、検索条件と
して複合メディア文書が例示されると、例示された文書
に含まれるテキスト情報、画像や音声の情報、構造情報
などの特徴情報と蓄積された文書に含まれるテキスト情
報、画像や音声の情報、構造情報などの特徴情報とをそ
れぞれ比較し、テキスト情報の類似度、画像情報の類似
度、音声情報の類似度、構造情報の類似度を個々に計算
し、それらに重みの値を掛け合わせ、総合的な評価値を
計算したものを文書レベルでの類似度とし、重みの値を
調節することで、テキスト情報の類似性を重視した類似
検索や画像情報の類似性を重視した類似検索や構造情報
の類似性を重視した類似検索などが可能な複合メディア
文書の類似検索方法及び装置及び複合メディア文書の類
似検索プログラムを格納した記憶媒体を提供することを
目的とする。
【0006】
【課題を解決するための手段】図1は、本発明の原理を
説明するための図である。本発明(請求項1)は、テキ
スト情報、画像情報、人間の声のデータである音声デー
タに加え、CDやレコードを含む楽曲データや音楽デー
タを含む音声情報から構成される構造化文書である複合
メディア文書の類似検索方法において、与えられた複合
メディア文書を構文解析し(ステップ1)、解析された
結果得られる複合メディア文書の構成要素から第1の特
徴情報を抽出し(ステップ2)、文書及び抽出した特徴
情報を蓄積し(ステップ3)、複合メディア文書を検索
条件として入力し(ステップ4)、入力された検索条件
を構文解析し(ステップ5)、解析された結果得られる
検索条件の構成要素から第2の特徴情報を抽出し(ステ
ップ6)、蓄積されている第1の特徴情報と第2の特徴
情報に基づいて2つの複合メディア文書の類似度を判定
し(ステップ7)、類似した複合メディア文書を出力す
る(ステップ8)。
【0007】本発明(請求項2)は、検索時において、
利用者が例示した文書を検索キーとして入力し、例示さ
れた文書から第2の特徴情報を抽出し、抽出された第2
の特徴情報と第1の特徴情報により文書間の類似度を計
算する。本発明(請求項3)は、複合メディア文書の類
似度を計算する際に、検索キーとして例示された文書を
構成しているテキスト、画像、音声を含むメディアの情
報及び構造情報と、蓄積されている文書を構成している
テキスト、画像、音声を含むメディアの情報及び構造情
報との構成要素毎の類似性判定結果に基づく評価値を、
複合メディア文書全体の類似度として設定する。
【0008】本発明(請求項4)は、構成要素毎の類似
性判定結果として、例示された文書のテキスト情報と、
蓄積された文書のテキスト情報の類似性判定結果と、例
示された文書の画像情報と、該蓄積された文書の画像情
報との類似性判定結果と、該例示された文書の音声情報
と、該蓄積された文書の音声情報との類似性判定結果
と、該例示された文書の構造情報と、該蓄積された文書
の構造情報との類似性判定結果を用いる。
【0009】本発明(請求項5)は、複合メディア文書
の類似度を計算する際に、文書に含まれるテキスト情
報、画像情報や音声情報、及び構造情報の特徴情報毎
に、類似度を計算し、類似度に重みの値を掛け、線形和
をとったものを、複合メディア文書全体としての類似度
とする。
【0010】本発明(請求項6)は、複合メディア文書
の類似度を計算する際に、同一文書中に同一メディアが
複数存在する場合に、例示された文書中に含まれるテキ
スト情報、画像情報、音声情報を含むメディア毎の全て
の検索キーについて、蓄積された文書中の該メディアに
おける該検索キーに対する全ての類似度を計算し、類似
度が最も高いものを検索キーに対する代表の類似度とす
る。
【0011】本発明(請求項7)は、複合メディア文書
の類似度を計算する際に、検索キーとして、例示された
文書の構造情報と蓄積された文書の構造情報のそれぞれ
を、順序ラベル付木(ordered labeled tree)として表
現し、例示された文書を表現した順序ラベル付木と、蓄
積された文書を表現した順序ラベル付木との形状を比較
することで、文書の構造情報の類似度を設定する。
【0012】本発明(請求項8)は、構造情報の類似度
を設定する際に、文書構造を木と見做し、例示された文
書を表す木から蓄積された文書を表す木へ変換するため
に必要なノードの挿入、ノードの削除、ノード名の変更
を含む編集操作を行った回数と、該編集操作を行うのに
必要なコストから算出する編集距離を文書の類似度とし
て設定する。
【0013】本発明(請求項9)は、複合メディア文書
の類似度を計算する際に、文書に含まれるテキスト情
報、画像情報や音声情報、構造情報の特徴情報に基づく
類似度を計算し、構造情報の特徴情報に基づく類似度計
算結果に基づく第1段階目の選択を行い、文書に含まれ
るテキスト情報、画像情報や音声情報の特徴情報に基づ
く類似度を、複合メディア文書全体としての類似度とす
る。
【0014】本発明(請求項10)は、複合メディア文
書の類似度を計算する際に、文書に含まれるテキスト情
報、画像情報や音声情報、構造情報の特徴情報に基づく
類似度を計算し、テキスト情報、画像情報や音声情報の
特徴情報に基づく類似度計算結果に基づく第1段階目の
選択を行い、文書に含まれる構造情報の特徴情報に基づ
く類似度を、複合メディア文書全体としての類似度とす
る。
【0015】本発明(請求項11)は、複合メディア文
書の類似度を計算する際に、検索キーとして例示された
文書中に同一メディアが複数存在する場合に、該メディ
アの文書レベルでの類似度を設定する。本発明(請求項
12)は、メディアの文書レベルでの類似度を設定する
際に、検索キーとして例示された文書中に複数存在する
メディアの各検索キーについて、例示された文書中に含
まれるテキスト情報、画像情報、音声情報を含むメディ
ア毎の全ての検索キーについて、蓄積された文書中の該
メディアにおける該検索キーに対する全ての類似度を計
算し、類似度が最も高いものを検索キーに対する代表の
類似度とし、代表の類似度の平均値を計算し、メディア
の文書レベルでの類似度を設定する。
【0016】本発明(請求項13)は、メディアの文書
レベルでの類似度を設定する際に、検索キーとして例示
された文書中に複数存在するメディアの各検索キーにつ
いて、例示された文書中に含まれるテキスト情報、画像
情報、音声情報を含むメディア毎の全ての検索キーにつ
いて、蓄積された文書中の該メディアにおける該検索キ
ーに対する全ての類似度を計算し、類似度が最も高いも
のを検索キーに対する代表の類似度とし、代表の類似度
のうち、最も類似度が高いものをメディアの文書レベル
での類似度とする。
【0017】本発明(請求項14)は、複合メディア文
書の類似検索を行う際に、検索キーとして例示された文
書の構造情報と蓄積された文書の構造情報のそれぞれを
順序ラベル付き木(ordered labeled tree) として表現
し、それぞれの文書中の各メディアの特徴情報を順序ラ
ベル付き木におけるノードの属性として格納した属性付
き順序ラベル付き木として表現し、例示された文書を表
現した属性付き順序ラベル付き木と蓄積された文書を表
現した属性付き順序ラベル付き木との属性と形状を比較
することで、複合メディア文書の類似度を設定する。
【0018】本発明(請求項15)は、複合メディア文
書の類似検索を行う際に、例示された文書を表現した属
性付き順序ラベル付き木の各ノードの属性である特徴情
報と類似した特徴情報を属性として持つノードを持つ蓄
積された文書を表現した属性付き順序ラベル付き木につ
いて、ノードの構造的な位置関係の差異から複合メディ
ア文書の類似度を設定する。
【0019】本発明(請求項16)は、構造情報の類似
度を設定する際に、文書構造を順序ラベル付き木と見做
し、該順序ラベル付き木に関する特徴情報に基づいて、
多次元ベクトル空間上に該特徴情報を数値化してマッピ
ングし、ベクトル空間上での距離を文書の類似度として
設定する。本発明(請求項17)は、順序付きラベル木
に関する特徴情報として、順序ラベル付き木の各ノード
の名前やノード数や各ノードの位置情報を数値化して利
用することで文書の類似度を計算する。
【0020】本発明(請求項18)は、特徴情報とし
て、テキスト情報であれば、テキストの記述内容が表す
概念や各単語の出現頻度、画像情報であれば、画像の色
相や彩度や輝度、色配置、音声情報であれば、音の強弱
やメロディ、構造情報であれば、文書構造を順序ラベル
付き木で表現した場合の木の形状やノードのラベル名、
リンク情報などを、複合メディア文書の構成要素から抽
出される特徴情報とする。
【0021】本発明(請求項19)は、類似度を判定す
る際に、例示された文書に対する蓄積された文書の類似
度を、検索キーとして例示された文書を構成しているテ
キスト、画像、音声を含むメディアの情報及び構造情報
と、蓄積されている文書を構成しているテキスト、画
像、音声を含むメディアの情報及び構造情報との構成要
素毎の類似性判定結果に基づく評価値を、複合メディア
文書全体類似度として設定し、蓄積された文書の類似度
を降順に並べることで順位付けし、類似度を判定する。
【0022】本発明(請求項20)は、類似度を設定す
る際に、複合メディア文書の各構成要素毎に、類似度を
設定し、文書に含まれるテキスト情報、画像情報や音声
情報、及び構造情報の特徴情報毎に、類似度を計算し、
類似度に重みの値を掛け、線形和をとったものを、複合
メディア文書全体としての類似度とする。
【0023】本発明(請求項21)は、複合メディア文
書全体の類似度を設定する際に、文書の構成要素毎の類
似性判定結果に基づく評価値として、各構成要素の類似
度そのもの、または、各構成要素の類似度に利用者から
与えられた重みを掛け合わせたものを利用する。図2
は、本発明の原理構成図である。
【0024】本発明(請求項22)は、テキスト情報、
画像情報、人間の声のデータである音声データに加え、
CDやレコードを含む楽曲データや音楽データを含む音
声情報から構成される構造化文書である複合メディア文
書の類似検索装置であって、複合メディア文書を入力す
る複合メディア文書入力手段10と、複合メディア文書
入力手段10により与えられた複合メディア文書及び、
入力された検索条件を構文解析する文書解析手段40
と、文書解析手段40で解析された結果得られる文書の
構成要素から特徴情報を抽出する特徴情報抽出手段50
と、複合メディア文書及び特徴情報抽出手段50で抽出
された特徴情報を蓄積する蓄積手段60と、複合メディ
ア文書を検索条件として入力する検索条件入力手段30
と、蓄積手段60に蓄積されている複合メディア文書の
特徴情報と、入力された検索条件を文書解析手段40で
解析した結果に基づいて特徴情報抽出手段50で抽出さ
れた特徴情報に基づいて2つの複合メディア文書の類似
度を判定する文書比較手段80と、文書比較手段80で
判定された類似度に基づいて、類似した複合メディア文
書を出力する出力手段90とを有する。
【0025】本発明(請求項23)は、検索条件入力手
段30において、利用者が例示した文書を検索キーとし
て入力する手段を含み、特徴情報抽出手段50におい
て、与えられた複合メディア文書から検索キーとして例
示された複合メディア文書を抽出する入力文書特徴情報
抽出手段と、利用者から例示された文書から検索情報の
特徴情報を抽出する検索特徴情報抽出手段を含み、文書
比較手段80において、入力文書特徴情報抽出手段で抽
出された入力文書特徴情報と、検索特徴情報抽出手段で
抽出された検索特徴情報により、複合メディア文書と検
索キーとして例示された複合メディア文書間の類似度を
計算する類似度計算手段を含む。
【0026】本発明(請求項24)は、類似度計算手段
において、検索条件入力手段30で検索キーとして例示
された文書を構成しているテキスト情報、画像情報、音
声情報及び構造情報と、蓄積手段に蓄積されている複合
メディア文書を構成しているテキスト情報、画像情報、
音声情報及び構造情報との構成要素毎の類似性判定結果
に基づく評価値を、複合メディア文書全体の類似度とし
て設定する類似度設定手段を含む。
【0027】本発明(請求項25)は、類似度設定手段
において、構成要素毎の類似性判定結果として、例示さ
れた文書のテキスト情報と蓄積手段に蓄積されている文
書のテキスト情報の類似性判定結果と、該例示された文
書の画像情報と、該蓄積手段に蓄積されている文書の画
像情報との類似性判定結果と、該例示された文書の音声
情報と該蓄積手段に蓄積されている文書の音声情報との
類似性判定結果と、該例示さた文書の構造情報と該蓄積
手段に蓄積されている文書の構造情報との類似性判定結
果を用いる。
【0028】本発明(請求項26)は、類似度設定手段
において、文書に含まれるテキスト情報、画像情報や音
声情報、及び構造情報の特徴情報毎に、類似度を計算
し、該類似度に重みの値を掛け、線形和をとったもの
を、複合メディア文書全体としての類似度とする線形和
算出手段を含む。本発明(請求項27)は、文書比較手
段において、同一文書中に同一メディアが複数存在する
場合に、例示された文書中に含まれるテキスト、画像、
音声を含むメディア毎の全ての検索キーについて、蓄積
された文書中のメディアにおける該検索キーに対する全
ての類似度を計算し、該類似度が最も高いものを検索キ
ーに対する代表の類似度とする代表類似度決定手段を含
む。
【0029】本発明(請求項28)は、類似度計算手段
において、検索キーとして、例示された文書の構造情報
と蓄積された文書の構造情報のそれぞれを、順序ラベル
付木(ordered labeled tree)として表現し、例示され
た文書を表現した順序ラベル付木と、蓄積された文書を
表現した順序ラベル付木との形状を比較することで、文
書の構造情報の類似度を設定する順序ラベル付木形状比
較手段を含む。
【0030】本発明(請求項29)は、順序ラベル付木
形状比較手段において、構造情報の類似度を判定する際
に、文書構造を木と見做し、例示された文書を表す木か
ら蓄積された文書を表す木へ変換するために必要なノー
ドの挿入、ノードの削除、ノード名の変更を含む編集操
作を行った回数と、該編集操作を行うのに必要なコスト
から算出する編集距離を文書の類似度として設定する編
集距離算出手段を含む。
【0031】本発明(請求項30)は、類似度計算手段
において、文書に含まれるテキスト情報、画像情報や音
声情報、構造情報の特徴情報に基づく類似度を計算する
手段と、構造情報の特徴情報に基づく類似度計算結果に
基づく第1段階目の選択を行う手段と、文書に含まれる
テキスト情報、画像情報や音声情報の特徴情報に基づく
類似度を、複合メディア文書全体としての類似度とする
手段とを含む。
【0032】本発明(請求項31)は、類似度計算手段
において、文書に含まれるテキスト情報、画像情報や音
声情報、構造情報の特徴情報に基づく類似度を計算する
手段と、テキスト情報、画像情報や音声情報の特徴情報
に基づく類似度計算結果に基づく第1段階目の選択を行
う手段と、文書に含まれる構造情報の特徴情報に基づく
類似度を、複合メディア文書全体としての類似度とする
手段とを含む。
【0033】本発明(請求項32)は、類似度計算手段
において、検索キーとして例示された文書中に同一メデ
ィアが複数存在する場合に、該メディアの文書レベルで
の類似度を設定する文書レベル類似度計算手段を含む。
本発明(請求項33)は、文書レベル類似度計算手段に
おいて、検索キーとして例示された文書中に複数存在す
るメディアの各検索キーについて、例示された文書中に
含まれるテキスト情報、画像情報、音声情報を含むメデ
ィア毎の全ての検索キーについて、蓄積された文書中の
該メディアにおける該検索キーに対する全ての類似度を
計算する手段と、類似度が最も高いものを検索キーに対
する代表の類似度とする手段と、代表の類似度の平均値
を計算する手段と、メディアの文書レベルでの類似度を
設定する文書レベル類似度設定手段とを含む。
【0034】本発明(請求項34)は、文書レベル類似
度設定手段において、検索キーとして例示された文書中
に複数存在するメディアの各検索キーについて、該例示
された文書中に含まれるテキスト情報、画像情報、音声
情報を含むメディア毎の全ての検索キーについて、蓄積
された文書中の該メディアにおける該検索キーに対する
全ての類似度を計算する手段と、類似度が最も高いもの
を検索キーに対する代表の類似度とする手段と、代表の
類似度のうち、最も類似度が高いものをメディアの文書
レベルでの類似度とする手段とを含む。
【0035】本発明(請求項35)は、類似度計算手段
において、検索キーとして例示された文書の構造情報と
蓄積された文書の構造情報のそれぞれを順序ラベル付き
木(ordered labeled tree) として表現し、それぞれの
文書中の各メディアの特徴情報を順序ラベル付き木にお
けるノードの属性として格納した属性付き順序ラベル付
き木として表現し、例示された文書を表現した属性付き
順序ラベル付き木と蓄積された文書を表現した属性付き
順序ラベル付き木との属性と形状を比較することで、複
合メディア文書の類似度を設定する類似検索手段を含
む。
【0036】本発明(請求項36)は、類似検索手段に
おいて、例示された文書を表現した属性付き順序ラベル
付き木の各ノードの属性である特徴情報と類似した特徴
情報を属性として持つノードを持つ蓄積された文書を表
現した属性付き順序ラベル付き木について、該ノードの
構造的な位置関係の差異から複合メディア文書の類似度
を設定する手段を含む。
【0037】本発明(請求項37)は、順序ラベル付き
木形状比較手段において、文書構造を順序ラベル付き木
と見做し、該順序ラベル付き木に関する特徴情報に基づ
いて、多次元ベクトル空間上に該特徴情報を数値化して
マッピングする手段と、ベクトル空間上での距離を文書
の類似度として設定する手段とを含む。
【0038】本発明(請求項38)は、順序付きラベル
木に関する特徴情報として、順序ラベル付き木の各ノー
ドの名前やノード数や各ノードの位置情報を数値化して
利用することで文書の類似度を計算する。本発明(請求
項39)は、特徴情報として、テキスト情報であれば、
テキストの記述内容が表す概念や各単語の出現頻度、画
像情報であれば、画像の色相や彩度や輝度、色配置、音
声情報であれば、音の強弱やメロディ、構造情報であれ
ば、文書構造を順序ラベル付き木で表現した場合の木の
形状やノードのラベル名、リンク情報などを、複合メデ
ィア文書の構成要素から抽出される特徴情報とする。
【0039】本発明(請求項40)は、文書比較手段8
0において、例示された文書に対する蓄積された文書の
類似度を、検索キーとして例示された文書を構成してい
るテキスト、画像、音声を含むメディアの情報及び構造
情報と、蓄積されている文書を構成しているテキスト、
画像、音声を含むメディアの情報及び構造情報との構成
要素毎の類似性判定結果に基づく評価値を、複合メディ
ア文書全体類似度として設定する手段と、蓄積された文
書の類似度を降順に並べることで順位付けし、類似度を
判定する手段とを含む。
【0040】本発明(請求項41)は、類似度設定手段
において、複合メディア文書の各構成要素毎に、類似度
を設定する手段と、文書に含まれるテキスト情報、画像
情報や音声情報、及び構造情報の特徴情報毎に、類似度
を計算する手段と、類似度に重みの値を掛け、線形和を
とったものを、複合メディア文書全体としての類似度と
する手段とを含む。
【0041】本発明(請求項42)は、類似度設定手段
において、文書の構成要素毎の類似性判定結果に基づく
評価値として、各構成要素の類似度そのもの、または、
各構成要素の類似度に利用者から与えられた重みを掛け
合わせたものを利用する手段を含む。本発明(請求項4
3)は、テキスト情報、画像情報、人間の声のデータで
ある音声データに加え、CDやレコードを含む楽曲デー
タや音楽データを含む音声情報から構成される構造化文
書である複合メディア文書の類似検索プログラムを格納
した記憶媒体であって、与えられた複合メディア文書及
び、入力された検索条件を構文解析する文書解析プロセ
スと、文書解析プロセスで解析された結果、得られる文
書の構成要素から特徴情報を抽出する特徴情報抽出プロ
セスと、複合メディア文書及び特徴情報抽出プロセスで
抽出された特徴情報を記憶手段に格納する格納プロセス
と、複合メディア文書を検索条件として入力させる検索
条件入力プロセスと、記憶手段に蓄積されている複合メ
ディア文書の特徴情報と、入力された検索条件を文書解
析プロセスで解析した結果に基づいて特徴情報抽出プロ
セスで抽出された特徴情報から2つの複合メディア文書
の類似度を判定する文書比較プロセスと、文書比較プロ
セスで判定された類似度に基づいて、類似した複合メデ
ィア文書を出力させる出力プロセスとを有する。
【0042】本発明(請求項44)は、検索条件入力プ
ロセスにおいて、利用者が例示した文書を検索キーとし
て入力するプロセスを含み、特徴情報抽出プロセスにお
いて、与えられた複合メディア文書から特徴情報を抽出
する入力文書特徴情報抽出プロセスと、利用者から例示
された文書から検索キーとして例示された複合メディア
文書の特徴情報を抽出する検索特徴情報抽出プロセスを
含み、文書比較プロセスにおいて、入力文書特徴情報抽
出プロセスで抽出された入力文書特徴情報と、検索特徴
情報抽出プロセスで抽出された検索特徴情報により、複
合メディア文書と検索キーとして例示された複合メディ
ア文書間の類似度を計算する類似度計算プロセスを含
む。
【0043】本発明(請求項45)は、類似度計算プロ
セスにおいて、検索条件入力プロセスで検索キーとして
例示された文書を構成しているテキスト情報、画像情
報、音声情報及び構造情報と、記憶手段に蓄積されてい
る複合メディア文書を構成しているテキスト情報、画像
情報、音声情報及び構造情報との構成要素毎の類似性判
定結果に基づく評価値を、複合メディア文書全体の類似
度として設定する類似度設定プロセスを含む。
【0044】本発明(請求項46)は、類似度設定プロ
セスにおいて、構成要素毎の類似性判定結果として、例
示された文書のテキスト情報と記憶手段に蓄積されてい
る文書のテキスト情報の類似性判定結果と、該例示され
た文書の画像情報と、該記憶手段に蓄積されている文書
の画像情報との類似性判定結果と、該例示された文書の
音声情報と該記憶手段に蓄積されている文書の音声情報
との類似性判定結果と、該例示さた文書の構造情報と該
記憶手段に蓄積されている文書の構造情報との類似性判
定結果を用いる。
【0045】本発明(請求項47)は、類似度設定プロ
セスにおいて、文書に含まれるテキスト情報、画像情報
や音声情報、及び構造情報の特徴情報毎に、類似度を計
算し、該類似度に重みの値を掛け、線形和をとったもの
を、複合メディア文書全体としての類似度とする線形和
算出プロセスを含む。本発明(請求項48)は、文書比
較プロセスにおいて、同一文書中に同一メディアが複数
存在する場合に、例示された文書中に含まれるテキス
ト、画像、音声を含むメディア毎の全ての検索キーにつ
いて、蓄積された文書中のメディアにおける該検索キー
に対する全ての類似度を計算し、該類似度が最も高いも
のを検索キーに対する代表の類似度とする代表類似度決
定プロセスを含む。
【0046】本発明(請求項49)は、類似度計算プロ
セスにおいて、検索キーとして、例示された文書の構造
情報と蓄積された文書の構造情報のそれぞれを、順序ラ
ベル付木(ordered labeled tree)として表現し、例示
された文書を表現した順序ラベル付木と、蓄積された文
書を表現した順序ラベル付木との形状を比較すること
で、文書の構造情報の類似度を設定する順序ラベル付木
形状比較プロセスを含む。
【0047】本発明(請求項50)は、順序ラベル付木
形状比較プロセスにおいて、構造情報の類似度を判定す
る際に、文書構造を木と見做し、例示された文書を表す
木から蓄積された文書を表す木へ変換するために必要な
ノードの挿入、ノードの削除、ノード名の変更を含む編
集操作を行った回数と、該編集操作を行うのに必要なコ
ストから算出する編集距離を文書の類似度として設定す
る編集距離算出プロセスを含む。
【0048】本発明(請求項51)は、類似度計算プロ
セスにおいて、文書に含まれるテキスト情報、画像情報
や音声情報、構造情報の特徴情報に基づく類似度を計算
するプロセスと、構造情報の特徴情報に基づく類似度計
算結果に基づく第1段階目の選択を行うプロセスと、文
書に含まれるテキスト情報、画像情報や音声情報の特徴
情報に基づく類似度を、複合メディア文書全体としての
類似度とするプロセスとを含む。
【0049】本発明(請求項52)は、類似度計算プロ
セスにおいて、文書に含まれるテキスト情報、画像情報
や音声情報、構造情報の特徴情報に基づく類似度を計算
するプロセスと、テキスト情報、画像情報や音声情報の
特徴情報に基づく類似度計算結果に基づく第1段階目の
選択を行うプロセスと、文書に含まれる構造情報の特徴
情報に基づく類似度を、複合メディア文書全体としての
類似度とするプロセスとを含む。
【0050】本発明(請求項53)は、類似度計算プロ
セスにおいて、検索キーとして例示された文書中に同一
メディアが複数存在する場合に、該メディアの文書レベ
ルでの類似度を設定する文書レベル類似度計算プロセス
を含む。本発明(請求項54)は、文書レベル類似度計
算プロセスにおいて、検索キーとして例示された文書中
に複数存在するメディアの各検索キーについて、例示さ
れた文書中に含まれるテキスト情報、画像情報、音声情
報を含むメディア毎の全ての検索キーについて、蓄積さ
れた文書中の該メディアにおける該検索キーに対する全
ての類似度を計算するプロセスと、類似度が最も高いも
のを検索キーに対する代表の類似度とするプロセスと、
代表の類似度の平均値を計算するプロセスと、メディア
の文書レベルでの類似度を設定する文書レベル類似度設
定プロセスとを含む。
【0051】本発明(請求項55)は、文書レベル類似
度設定プロセスにおいて、検索キーとして例示された文
書中に複数存在するメディアの各検索キーについて、該
例示された文書中に含まれるテキスト情報、画像情報、
音声情報を含むメディア毎の全ての検索キーについて、
蓄積された文書中の該メディアにおける該検索キーに対
する全ての類似度を計算するプロセスと、類似度が最も
高いものを検索キーに対する代表の類似度とするプロセ
スと、代表の類似度のうち、最も類似度が高いものをメ
ディア文書中レベルでの類似度とするプロセスとを含
む。
【0052】本発明(請求項56)は、類似度計算プロ
セスにおいて、検索キーとして例示された文書の構造情
報と蓄積された文書の構造情報のそれぞれを順序ラベル
付き木(ordered labeled tree) として表現し、それぞ
れの文書中の各メディアの特徴情報を順序ラベル付き木
におけるノードの属性として格納した属性付き順序ラベ
ル付き木として表現し、例示された文書を表現した属性
付き順序ラベル付き木と蓄積された文書を表現した属性
付き順序ラベル付き木との属性と形状を比較すること
で、複合メディア文書の類似度を設定する類似検索プロ
セスを含む。
【0053】本発明(請求項57)は、類似検索プロセ
スにおいて、例示された文書を表現した属性付き順序ラ
ベル付き木の各ノードの属性である特徴情報と類似した
特徴情報を属性として持つノードを持つ蓄積された文書
を表現した属性付き順序ラベル付き木について、該ノー
ドの構造的な位置関係の差異から複合メディア文書の類
似度を設定するプロセスを含む。
【0054】本発明(請求項58)は、順序ラベル付き
木形状比較プロセスにおいて、文書構造を順序ラベル付
き木と見做し、該順序ラベル付き木に関する特徴情報に
基づいて、多次元ベクトル空間上に該特徴情報を数値化
してマッピングするプロセスと、ベクトル空間上での距
離を文書の類似度として設定するプロセスとを含む。
【0055】本発明(請求項59)は、順序付きラベル
木に関する特徴情報として、順序ラベル付き木の各ノー
ドの名前やノード数や各ノードの位置情報を数値化して
利用することで文書の類似度を計算する。本発明(請求
項60)は、特徴情報として、テキスト情報であれば、
テキストの記述内容が表す概念や各単語の出現頻度、画
像情報であれば、画像の色相や彩度や輝度、色配置、音
声情報であれば、音の強弱やメロディ、構造情報であれ
ば、文書構造を順序ラベル付き木で表現した場合の木の
形状やノードのラベル名、リンク情報などを、複合メデ
ィア文書の構成要素から抽出される特徴情報とする。
【0056】本発明(請求項61)は、文書比較プロセ
スにおいて、例示された文書に対する蓄積された文書の
類似度を、検索キーとして例示された文書を構成してい
るテキスト、画像、音声を含むメディアの情報及び構造
情報と、蓄積されている文書を構成しているテキスト、
画像、音声を含むメディアの情報及び構造情報との構成
要素毎の類似性判定結果に基づく評価値を、複合メディ
ア文書全体類似度として設定するプロセスと、蓄積され
た文書の類似度を降順に並べることで順位付けし、類似
度を判定するプロセスとを含む。
【0057】本発明(請求項62)は、類似度設定プロ
セスにおいて、複合メディア文書の各構成要素毎に、類
似度を設定するプロセスと、文書に含まれるテキスト情
報、画像情報や音声情報、及び構造情報の特徴情報毎
に、類似度を計算するプロセスと、類似度に重みの値を
掛け、線形和をとったものを、複合メディア文書全体と
しての類似度とするプロセスとを含む。
【0058】本発明(請求項63)は、類似度設定プロ
セスにおいて、文書の構成要素毎の類似性判定結果に基
づく評価値として、各構成要素の類似度そのもの、また
は、各構成要素の類似度に利用者から与えられた重みを
掛け合わせたものを利用するプロセスを含む。上記のよ
うに、本発明では、与えられた文書の構文解析を行うこ
とで、例示された文書と蓄積された文書の間で比較を行
うべきメディアの情報及び構造情報などの構成要素の単
位を決定することが可能となる。
【0059】また、抽出した特徴情報により、文書を特
徴付けることで、文書の内容や論理構造の情報に基づい
た検索を可能にする。また、テキスト情報だけでなく、
画像情報や音声情報、構造情報なども検索キーの一部と
して利用することが可能となる。さらに、蓄積されてい
るテキスト情報、画像情報、音声情報、構造情報などか
ら、それらを含んでいた文書への索引を作成すること
で、文書に高速にアクセスすることが可能となる。
【0060】また、ディスプレイ上で文書のテキスト情
報、画像情報などの特徴情報の内容を確認できるので、
利用者が意図した特徴情報を含む複合メディア文書を検
索キーとして入力することが容易である。また、検索キ
ーとして入力された複合メディア文書に含まれる特徴情
報毎に、類似度を計算し、それらに基づく評価値を計算
する。例えば、文書の特徴情報毎に、類似度を計算し、
それらに重みの値を掛け、足しあわせたものを文書レベ
ルでの類似度として計算することで、テキスト情報以外
に画像や音声情報、構造情報の類似性も検索条件として
利用した複合メディア文書の類似検索が可能になる。
【0061】また、文書中の特徴情報毎に、類似度を計
算するので、個々の類似度計算方法に関して、例えば、
画像情報の類似度計算方法だけ異なる類似度計算方法を
採用し、部分的に置き換えるということが容易に行うこ
とができる。
【0062】
【発明の実施の形態】複合メディア文書の構成要素とし
ては、図3に示すように、テキスト情報、画像情報、音
声情報及び構造情報等がある。以下、当該複合メディア
文書における類似検索について説明する。図4は、本発
明の複合メディア文書の類似検索装置の構成を示す。
【0063】同図に示す複合メディア文書の類似検索装
置は、複合メディア文書入力装置10、検索条件入力装
置20、検索条件入力部30、複合メディア文書解析部
40、特徴情報抽出部50、蓄積部60、メモリ70、
文書比較部80、表示装置90から構成される。複合メ
ディア文書入力装置10は、テキスト情報、画像情報、
音声情報及び構造情報を含む文書を入力する。
【0064】検索条件入力装置20は、利用者が入力の
ために利用するマウス等のポインティングデバイスや、
キーボード等である。検索条件入力部30は、利用者に
検索条件入力装置20であるキーボードから文書のファ
イル名を入力させたり、マウスを操作させて文書のアイ
コンをクリックさせたり、前回の検索結果で得られた文
書をマウスでクリックさせることで検索キーとして入力
する複合メディア文書を取得する。詳しくは、複合メデ
ィア文書を検索するための検索キーとなる複合メディア
文書を例示する。例示する文書のファイル名を指定した
り、例示する文書のアイコンをポインティングデバイス
などによりディスプレイ上でクリックすることで検索キ
ーを例示する。また、文書を例示する際に、利用者が類
似性を重視したい部分を指定することが可能であり、類
似性を重視したい部分の特徴情報に対し、重視する度合
いを示す重みの値を適宜変更して入力することが可能で
ある。この時、文書中のどの部分の類似性を重視するか
という重みの値と検索結果として返却する文書数kを利
用者から取得する。あるいは、システムのデフォルト値
を利用する。
【0065】複合メディア文書解析部40は、複合メデ
ィア文書入力装置10または、検索条件入力部30から
与えられた文書の構文解析を行い、テキスト情報、画像
情報、音声情報、構造情報などの文書の構成要素を検出
する。複合メディア文書解析部40は、ここで、SGM
LやXMLのパーサ(parser:構文解析プログラム)を
用いて入力された文書を解析し、文書からテキスト情
報、画像情報、音声情報、構造情報等の文書の構成要素
を検出する。
【0066】特徴情報抽出部50は、テキスト情報、画
像情報、音声情報、構造情報などの文書の構成要素の特
徴を表現している特徴情報を抽出する。例えば、テキス
ト情報ならテキストの記述内容が表す概念など、画像情
報なら、画像情報の色相や彩度や輝度、色配置など、音
声情報なら音の強弱やメロディなどの特徴情報を、特徴
情報が格納されていた文書のID、エレメント名や出現
位置の情報と共に抽出する。また、構造情報なら、文書
構造を順序ラベル付き木で表現した場合の木の形状(階
層構造など)やノードのラベル名、また、リンク情報な
どを複合メディア文書の構成要素から抽出される特徴情
報とする。
【0067】蓄積部60は、与えられた文書をメモリ7
0に蓄積する。また、各特徴情報から当該特徴情報を含
んでいた文書への索引を作成する。文書比較部80は、
例示された複合メディア文書とメモリ70に蓄積された
複合メディア文書との特徴情報を比較することにより、
類似度を求め、類似度の高いものを出力する。複合メデ
ィア文書としての類似度は、テキスト情報、画像情報、
音声情報、構造情報などの個々の類似度計算結果に基づ
いた評価値を計算したものとする。例えば、テキスト情
報、画像情報、音声情報などの類似度に関しては、多次
元ベクトル空間モデルに基づき、各特徴情報を多次元ベ
クトル空間上へマッピングし、多次元ベクトル空間上の
例示された文書の特徴情報と蓄積された文書の特徴情報
との2点間の距離が近ければ、類似度が高くなるように
設定するというアプローチを採用することが可能であ
る。また、蓄積された文書の類似度を降順に並べること
で順位付けをし、類似度を判定することも可能である。
【0068】以下、上記の構成における動作を複合メデ
ィア文書蓄積フェーズと、複合メディア文書検索フェー
ズに分けて説明する。図5は、本発明の複合メディア文
書蓄積フェーズのフローチャートである。 ステップ101) まず、複合メディア文書入力装置1
0から複合メディア文書を入力する。
【0069】ステップ102) 複合メディア文書解析
部40が、複合メディア文書入力装置10から入力され
た複合メディア文書の構文解析を行い、テキスト情報、
画像情報、音声情報、構造情報などの文書の構成要素を
検出する。 ステップ103) 次に、特徴情報抽出部50は、テキ
スト情報、画像情報、音声情報、構造情報などの文書構
成要素について、例えば、テキスト情報なら、テキスト
の記述内容が表す概念など、画像情報なら画像の色相や
彩度や輝度や色配置など、音声情報なら音の強弱やメロ
ディなどの特徴情報を、特徴情報が格納されていた文書
のID、エレメント名や出現位置の情報と共に抽出す
る。当該処理をすべての構成要素の数分繰り返す。
【0070】ステップ104) 蓄積部60は、与えら
れた文書及び、各特徴情報から当該特徴情報を含んでい
た文書への索引を作成し、メモリ70に格納する。次
に、複合メディア文書検索フェーズの動作を説明する。
図6は、本発明の複合メディア文書検索フェーズのフロ
ーチャートである。 ステップ201) 検索条件入力部30は、検索条件入
力装置20であるキーボードから文書のファイル名を入
力させたり、マウスを操作させて文書のアイコンをクリ
ックさせたり、前回の検索結果で得られた文書をマウス
でクリックさせることで、検索キーとして入力する複合
メディア文書を取得する。この時、文書中のどの部分の
類似性を重視するかという重みの値と、検索結果として
返却する文書数kを利用者から取得する。あるいは、シ
ステムのデフォルト値を利用する。
【0071】ステップ202) 次に、複合メディア文
書解析部40は、複合メディア文書蓄積フェーズの処理
と同様に、複合メディア検索条件入力部30から入力さ
れた複合メディア文書の構文解析を行い、テキスト情
報、画像情報、音声情報、構造情報などの文書の構成要
素を検出する。 ステップ203) 特徴情報抽出部50が、複合メディ
ア文書蓄積フェーズと同様に、テキスト情報、画像情
報、音声情報、構造情報などの文書構成要素の特徴情報
を、特徴情報が格納されていた文書のID、エレメント
名や出現位置の情報と共に抽出し、例示された文書のテ
キスト情報、画像情報、音声情報、構造情報などの文書
の構成要素について特徴情報を抽出する。当該処理をす
べての構成要素の数分繰り返す。
【0072】ステップ204) 文書比較部80は、例
示された文書の特徴情報とメモリ70に蓄積された文書
の特徴情報とを比較し、個々の特徴情報毎に類似度を計
算し、それらの計算結果に基づいた評価値を複合メディ
ア文書としての類似度として計算する。類似度の計算方
法は後述する。 ステップ205) 文書比較部80は、類似度を降順に
並べ、利用者が要求した上位k件の文書を類似度の高い
文書として索引から選ぶ。
【0073】ステップ206) 選択された類似度の高
い文書を検索結果として表示装置90に表示する。次
に、上記における類似度を求める方法について説明す
る。図7は、本発明の類似度を求めるための文書比較を
行う際のフローチャート(その1)である。
【0074】ステップ301) 文書比較部80は、特
徴情報抽出部50から検索条件入力部30から入力され
た文書(検索条件)の特徴情報と、蓄積部60から入力
された複合メディア文書の特徴情報を取得する。 ステップ302) 特徴情報が構造情報である場合には
ステップ303に移行し、そうでない場合にはステップ
304に移行する。
【0075】ステップ303) 文書比較部80は、検
索条件の特徴情報と複合メディア文書の特徴情報の構造
情報を木と見做して、当該2つの木の間の編集距離を計
算し、ステップ306に移行する。また、ノード間の構
造的位置関係を計算する、木を多次元ベクトル化し、多
次元ベクトル空間上の距離計算する等の方法も可能であ
る。
【0076】ステップ304) 文書比較部80は、多
次元ベクトル空間上の距離を計算する。 ステップ305) 同種の特徴情報のうち、距離が最小
のものを代表として選択する。 ステップ306) 文書レベルでの類似度を計算する。
【0077】ステップ307) 類似度が高い文書を索
引から選択する。 ステップ308) 選択された文書を表示装置90に出
力する。上記の類似度計算の一方法として、例えば、以
下のようにして類似度を求めることが可能である。 (1) 第1の類似度計算方法:検索キーとして例示さ
れた文書を構成しているテキスト、画像、音声を含むメ
ディアの情報及び構造情報と、メモリ70に蓄積されて
いる文書を構成しているテキスト、画像、音声を含むメ
ディアの情報及び構造情報との構成要素毎の類似性判定
結果に基づく評価値を、複合メディア文書全体類似度と
して設定する。ここで、類似判定結果に基づく評価値と
は、各構成要素の類似度そのもの、または、各構成要素
の類似度に利用者から与えられた重みを掛け合わせたも
のなどを利用する。
【0078】(2) 第2の類似度計算方法:テキスト
情報の類似度は、入力されたテキスト情報の特徴情報と
メモリ70に蓄積されたテキスト情報の特徴情報との多
次元ベクトル空間上での距離を求めることで計算する。
画像情報の類似度は、入力された画像情報の特徴情報と
メモリ70に蓄積された画像情報の特徴情報との多次元
ベクトル空間上での距離を求めることで計算する。
【0079】音声情報の類似度は、入力された音声情報
の特徴情報とメモリ70に蓄積された音声情報の特徴情
報との多次元ベクトル空間上での距離を求めることで計
算する。上記の各々の情報において、多次元ベクトル空
間上での距離が小さいものが、類似度が高いものとして
計算される。
【0080】(3) 第3の類似度計算方法:また、上
記の(2)の方法に加えて、同一文書中に同一メディア
が複数存在する場合は、類似度が最も高いものを代表の
類似度と設定する。例えば、図8に示すように、画像情
報を複数含んでいる文書などでは、検索キーとして例示
された文書中に存在する画像情報について、蓄積された
文書中に複数存在する画像情報との類似度を計算し、そ
の中で類似度が最も高いものを代表の類似度として設定
する。これを、検索キーとして例示された文書中に存在
するすべての画像情報について行う。
【0081】図8において、例示文書中の画像Aと蓄積
文書中の画像a,b,cとのそれぞれの類似度を求め、
類似度が最も高いもの(例えば、画像a)を例示文書中
の画像Aに対する蓄積文書中の類似画像とする。さら
に、例示文書中の画像Bと蓄積文書中の画像a,b,c
とのそれぞれの類似度を求め、類似度が最も高いもの
(例えば、画像c)を例示文書中の画像Bに対する蓄積
文書中の類似画像とする。
【0082】(4) 第4の類似度計算方法:また、特
徴情報のうちの構造情報は、文書構造を木と見做し、一
方の木からもう一方の木へ変換するために必要な編集距
離を計算し、編集距離が小さければ類似度が高くなるよ
うに設定する。編集距離は、木を変換する際に必要なノ
ードの挿入、ノードの削除、ノード名の変更という編集
操作を行った回数と、それらの編集操作を行うのに必要
なコストから算出する。これにより、類似度を計算する
ことが可能であり、編集距離が小さいものが類似度の高
いものとして計算される。
【0083】(5) 第5の類似度計算方法:テキスト
情報、画像情報、音声情報、構造情報などの類似度をそ
れぞれ計算し、検索条件入力部30で取得した文書中の
どの部分の類似性を重視するかという重みの値、あるい
は、システムのデフォルト値に基づいて、テキスト情
報、画像情報、音声情報、構造情報などの類似度それぞ
れに与えられた個別の重みの値を掛け、線形和をとる。
この線形和をとったものが、複合メディア文書としての
類似度に相当する。
【0084】(6) 第6の類似度計算方法:次に、文
書比較部80において、複合メディア文書の類似度を計
算する際に、文書に含まれるテキスト情報、画像情報や
音声情報、構造情報の特徴情報に基づく類似度を計算
し、構造情報の特徴情報に基づく類似度計算結果に基づ
いて、第1段階目の選抜を行った後で、文書に含まれる
テキスト情報、画像情報や音声情報の特徴情報に基づく
類似度を、複合メディア文書全体としての類似度とす
る。
【0085】以下にこの方法を詳細に説明する。図9
は、本発明の類似度を求めるための文書比較を行う際の
フローチャート(その2)である。 ステップ401) 特徴情報情報抽出部50において、
入力された検索条件に対する特徴情報が入力される。
【0086】ステップ402) テキスト情報の類似度
は、入力されたテキスト情報の特徴情報とメモリ70に
蓄積されたテキスト情報の特徴情報との多次元ベクトル
空間上での距離を求めたり、入力されたテキスト情報の
特徴情報と蓄積されたテキスト情報の特徴情報との出現
頻度などから得られる値の差を求めることで計算する。
【0087】画像情報の類似度は、入力された画像情報
の特徴情報とメモリ70に蓄積された画像情報の特徴情
報との多次元ベクトル空間上での距離を求めることで計
算する。音声情報の類似度は、入力された音声情報の特
徴情報とメモリ70に蓄積された音声情報の特徴情報の
多次元ベクトル空間上での距離を求めることで計算す
る。なお、多次元ベクトル空間上での距離が小さいもの
や、出現頻度などから得られる値の差の絶対値が小さい
ものが、類似度が高いものとして計算される。
【0088】また、特徴情報のうち、構造情報は、文書
情報を木と見做し、一方の木からもう一方の木へ変換す
るために必要な編集距離を計算することや、木の特徴情
報を数値化して多次元ベクトル化して多次元ベクトル空
間上での距離を求めることなどで類似度を計算すること
が可能である。編集距離が小さいものや、多次元ベクト
ル空間上での距離が小さいものが、類似度の高いものと
して計算される。
【0089】ステップ403) テキスト情報、画像情
報、音声情報、構造情報などの類似度をそれぞれ計算
し、検索条件入力部30で取得した文書中のどの部分の
類似性を重視するかという重みの値、あるいは、システ
ムのデフォルト値に基づき、構造情報の類似度に基づく
第1段階目の選抜を行う。 ステップ404) 第1段階目の選抜を行った後に残っ
た文書のテキスト情報、画像情報、音声情報などの類似
度が、複合メディア文書としての類似度に相当する。
【0090】ステップ405) 類似度が高い文書を索
引から選択する。 ステップ406) 選択された文書を表示装置90に表
示する。 (7) 第7の類似度計算方法;次に、文書比較部80
において、複合メディア文書の類似度を計算する際に、
文書に含まれるテキスト情報、画像情報や音声情報、構
造情報の特徴情報に基づく類似度を計算し、テキスト情
報、画像情報や音声情報の特徴情報に基づく類似度計算
結果に基づく第1段階目の選抜を行った後で、文書に含
まれる構造情報の特徴情報に基づく類似度を、複合メデ
ィア文書全体としての類似度とする。
【0091】以下にこの方法を詳細に説明する。図10
は、本発明の類似度を求めるための文書比較を行う際の
フローチャート(その3)である。 ステップ501) 入力された検索条件の特徴情報が入
力される。 ステップ502) テキスト情報の類似度は、入力され
たテキスト情報の特徴情報とメモリ70に蓄積されたテ
キスト情報の特徴情報との多次元ベクトル空間上での距
離を求めたり、入力されたテキスト情報の特徴情報と蓄
積されたテキスト情報の特徴情報との出現頻度などから
得られる値の差を求めることで計算する。
【0092】画像情報の類似度は、入力された画像情報
の特徴情報と蓄積された画像情報の特徴情報との多次元
ベクトル空間上での距離を求めることで計算する。音声
情報の類似度は、入力された音声情報の特徴情報と蓄積
された音声情報の特徴情報との多次元ベクトル空間上で
の距離を求めることで計算する。多次元ベクトル空間上
での距離が小さいものや、出現頻度などから得られる値
の差の絶対値が小さいものが類似度が高いものとして計
算される。
【0093】また、特徴情報のうち構造情報は、文書構
造を木と見做し、一方の木からもう一方の木へ変換する
ために必要な編集距離を計算することや、木の特徴情報
を数値化して多次元ベクトル化して多次元ベクトル空間
上での距離を求めることなどで類似度を計算することが
可能である。編集距離が小さいものや、多次元ベクトル
空間上での距離が小さいものが、類似度が高いものとし
て計算される。
【0094】ステップ503) テキスト情報、画像情
報、音声情報、構造情報などの類似度をそれぞれ計算
し、検索条件入力部30で取得した文書中のどの部分の
類似性を重視するかという重みの値、あるいは、システ
ムのデフォルト値に基づき、テキスト情報、画像情報、
音声情報などの類似度に基づく第1段階目の選抜を行
う。
【0095】ステップ504) 第1段階目の選抜を行
った後に、残った文書の構造情報の類似度が複合メディ
ア文書としての類似度に相当する。 ステップ505) 類似度の高い文書を索引から選択す
る。 ステップ506) 選択された文書を表示装置90に出
力する。 (8) 第8の類似度計算方法:複合メディア文書の類
似度を計算する際に、検索キーとして例示された文書中
に同一メディアが複数存在する場合に、当該メディアの
文書レベルでの類似度を設定する。例えば、上記の
(3)では、蓄積された検索対象の文書中に同一メディ
アが複数存在する場合について述べたが、(8)では、
検索キーとなる文書中に異なる画像が3つ存在する場
合、検索キーとなる文書における画像の類似度をどう設
定するのかという点について説明する。
【0096】複合メディア文書の類似度を計算する際
に、検索キーとして例示された文書中に同一メディアが
複数存在する場合に、当該メディアの文書レベルでの類
似度を設定する2種類の例に基づいて、文書中に画像情
報が存在する場合について述べる。 メディアの文書レベルでの類似度を設定する際に、
検索キーとして例示された文書中に複数存在する当該メ
ディアの各検索キーについて、蓄積された文書中のメデ
ィアにおける検索キーに対する全ての類似度を計算し、
類似度が最も高いものを検索キーに対する代表の類似度
とし、代表の類似度の平均値を計算してメディアの文書
レベルでの類似度とする場合に、図8に示す、例示文書
中の画像Aに対する蓄積文書中の類似画像として画像a
を得る。さらに、例示文書中の画像Bに対する蓄積文書
中の類似画像として画像cを得る。画像Aと画像aとの
間の類似度と、画像Bと画像cとの間の類似度の平均値
を計算し、その値を例示文書と蓄積文書との間の文書レ
ベルでの画像情報の類似度と設定する。
【0097】 メディアの文書レベルでの類似度を設
定する際に、検索キーとして例示された文書中に複数存
在する当該メディアの各検索キーについて、蓄積された
文書中のメディアにおける検索キーに対する全ての類似
度を計算し、類似度が最も高いものを検索キーに対する
代表の類似度とし、代表の類似度のうち、最も類似度が
高いものをメディアの文書レベルでの類似度とする場合
に、図8に示す、例示文書中の画像Aに対する蓄積文書
中の類似画像として画像aを得る。さらに、例示文書中
の画像Bに対する蓄積文書中の類似画像として画像cを
得る。画像Aと画像aとの間の類似度と、画像Bと画像
cとの間の類似度のうち、最も類似度が高いもの(例え
ば、画像Aと画像aとの間の類似度)を例示文書と蓄積
文書との間の文書レベルでの画像情報の類似度として設
定する。
【0098】次に、複合メディア文書の類似検索を行う
際に、検索キーとして例示された文書の構造情報と蓄積
された文書の構造情報のそれぞれを順序ラベル付き木
(ordered labeled tree) として表現する例について説
明する。図11は、本発明の複合メディア文書を属性付
き順序ラベル付き木として表現することを説明するため
の図である。
【0099】複合メディア文書の類似検索を行う際に、
それぞれの文書中の各メディアの特徴情報を当該順序ラ
ベル付き木におけるノードの属性として格納した属性付
き順序ラベル付き木(順序ラベル付き木を拡張した木)
として表現し、例示された文書を表現した属性付き順序
ラベル付き木と蓄積された文書を表現した属性付き順序
ラベル付き木との属性と形状を比較することで、複合メ
ディア文書の類似度を設定する。
【0100】この複合メディア文書の類似度を設定する
際に、順序付きラベル付き木に関する特徴情報に基づい
て、多次元ベクトル空間上に、当該特徴情報を数値化し
てマッピングし、当該ベクトル空間上での距離を文書の
類似度として設定する。なお、特徴情報の数値化は、各
ノードの名前(ラベル名)やノード数、各ノードの位置
情報を数値化するものとする。
【0101】上述のように、利用者が詳細な文書構造を
知らなくても、テキスト情報以外に構造情報も利用した
文書の検索が行うことができる。また、テキスト情報の
他に画像や音声の情報や構造情報も検索キーの一部に含
めて文書の類似検索を行うことができる。また、図3に
示す検索条件入力部30、複合メディア文書解析部4
0、特徴情報抽出部50、蓄積部60、文書比較部80
をプログラムとして構築し、複合メディア文書の類似検
索装置として利用されるコンピュータに接続されるディ
スク装置や、フロッピーディスクやCD−ROM等の可
搬記憶媒体に格納しておき、本発明を実施する際にイン
ストールすることにより容易に本発明を実現できる。
【0102】なお、本発明は、上記の実施例に限定され
ることなく、特許請求の範囲内で種々変更・応用が可能
である。
【0103】
【発明の効果】上述のように、本発明によれば、利用者
が詳細な文書構造を知らなくても、テキスト情報以外の
構造情報も利用した文書の検索を行うことができる。ま
た、テキスト情報の他に画像や音声の情報や構造情報も
検索キーの一部に含めて文書の類似を検索を行うことが
できる。
【図面の簡単な説明】
【図1】本発明の原理を説明するための図である。
【図2】本発明の原理構成図である。
【図3】本発明の複合メディア文書を説明するための図
である。
【図4】本発明の複合メディア文書の類似検索装置の構
成図である。
【図5】本発明の複合メディア文書蓄積フェーズのフロ
ーチャートである。
【図6】本発明の複合メディア文書検索フェーズのフロ
ーチャートである。
【図7】本発明の類似度を求めるための文書比較を行う
際のフローチャート(その1)である。
【図8】本発明の同一文書中に同一メディアが複数存在
する場合における類似度設定の方法を説明するための図
である。
【図9】本発明の類似度を求めるための文書比較を行う
際のフローチャート(その2)である。
【図10】本発明の類似度を求めるための文書比較を行
う際のフローチャート(その3)である。
【図11】本発明の複合メディア文書の属性付き順序ラ
ベル付き木として表現することを説明するための図であ
る。
【符号の説明】
10 複合メディア文書入力手段、複合メディア文書入
力装置 20 検索条件入力装置 30 検索条件入力手段、検索条件入力部 40 文書解析手段、複合メディア文書解析部 50 特徴抽出手段、特徴情報抽出部 60 蓄積手段、蓄積部 70 メモリ 80 文書比較手段、文書比較部 90 出力手段、表示装置
───────────────────────────────────────────────────── フロントページの続き (72)発明者 谷口 展郎 東京都新宿区西新宿三丁目19番2号 日本 電信電話株式会社内 (72)発明者 山室 雅司 東京都新宿区西新宿三丁目19番2号 日本 電信電話株式会社内 Fターム(参考) 5B075 ND03 ND06 ND14 ND16 PP24 PR06 QM08

Claims (63)

    【特許請求の範囲】
  1. 【請求項1】 テキスト情報、画像情報、人間の声のデ
    ータである音声データに加え、CDやレコードを含む楽
    曲データや音楽データを含む音声情報から構成される構
    造化文書である複合メディア文書の類似検索方法におい
    て、 与えられた前記複合メディア文書を構文解析し、 解析された結果得られる前記複合メディア文書の構成要
    素から第1の特徴情報を抽出し、 前記複合メディア文書及び抽出した前記特徴情報を蓄積
    し、 複合メディア文書を検索条件として入力し、 入力された前記検索条件を構文解析し、 解析された結果得られる前記検索条件の構成要素から第
    2の特徴情報を抽出し、 蓄積されている前記第1の特徴情報と前記第2の特徴情
    報に基づいて2つの複合メディア文書の類似度を判定
    し、類似した複合メディア文書を出力することを特徴と
    する複合メディア文書の類似検索方法。
  2. 【請求項2】 検索時において、 利用者が例示した文書を検索キーとして入力し、 例示された文書から前記第2の特徴情報を抽出し、 抽出された前記第2の特徴情報と前記第1の特徴情報に
    より文書間の類似度を計算する請求項1記載の複合メデ
    ィア文書の類似検索方法。
  3. 【請求項3】 前記複合メディア文書の類似度を計算す
    る際に、 前記検索キーとして例示された前記文書を構成している
    テキスト、画像、音声を含むメディアの情報及び構造情
    報と、 蓄積されている前記文書を構成しているテキスト、画
    像、音声を含むメディアの情報及び構造情報との構成要
    素毎の類似性判定結果に基づく評価値を、複合メディア
    文書全体類似度として設定する請求項1及び2記載の複
    合メディア文書の類似検索方法。
  4. 【請求項4】 前記構成要素毎の類似性判定結果とし
    て、 前記例示された文書のテキスト情報と、蓄積された前記
    文書のテキスト情報の類似性判定結果と、前記例示され
    た文書の画像情報と、該蓄積された文書の画像情報との
    類似性判定結果と、該例示された文書の音声情報と、該
    蓄積された文書の音声情報との類似性判定結果と、該例
    示された文書の構造情報と、該蓄積された文書の構造情
    報との類似性判定結果を用いる請求項3記載の複合メデ
    ィア文書の類似検索方法。
  5. 【請求項5】 前記複合メディア文書の類似度を計算す
    る際に、 前記文書に含まれるテキスト情報、画像情報や音声情
    報、及び構造情報の特徴情報毎に、類似度を計算し、 前記類似度に重みの値を掛け、線形和をとったものを、
    前記複合メディア文書全体としての類似度とする請求項
    3記載の複合メディア文書の類似検索方法。
  6. 【請求項6】 前記複合メディア文書の類似度を計算す
    る際に、 同一文書中に同一メディアが複数存在する場合に、 前記例示された文書中に含まれるテキスト情報、画像情
    報、音声情報を含むメディア毎の全ての検索キーについ
    て、蓄積された文書中の該メディアにおける該検索キー
    に対する全ての類似度を計算し、 前記類似度が最も高いものを前記検索キーに対する代表
    の類似度とする請求項2及び3記載の複合メディア文書
    の類似検索方法。
  7. 【請求項7】 前記複合メディア文書の類似度を計算す
    る際に、 前記検索キーとして、前記例示された文書の構造情報と
    前記蓄積された文書の構造情報のそれぞれを、順序ラベ
    ル付木(ordered labeled tree)として表現し、 前記例示された文書を表現した前記順序ラベル付木と、
    前記蓄積された文書を表現した順序ラベル付木との形状
    を比較することで、文書の構造情報の類似度を設定する
    請求項1記載の複合メディア文書の類似検索方法。
  8. 【請求項8】 前記構造情報の類似度を設定する際に、 前記文書構造を木と見做し、前記例示された文書を表す
    木から蓄積された前記文書を表す木へ変換するために必
    要なノードの挿入、ノードの削除、ノード名の変更を含
    む編集操作を行った回数と、該編集操作を行うのに必要
    なコストから算出する編集距離を前記文書の類似度とし
    て設定する請求項7記載の複合メディア文書の類似検索
    方法。
  9. 【請求項9】 複合メディア文書の類似度を計算する際
    に、 文書に含まれるテキスト情報、画像情報や音声情報、構
    造情報の特徴情報に基づく類似度を計算し、 構造情報の特徴情報に基づく類似度計算結果に基づく第
    1段階目の選択を行い、 前記文書に含まれるテキスト情報、画像情報や音声情報
    の特徴情報に基づく類似度を、複合メディア文書全体と
    しての類似度とする請求項3記載の複合メディア文書の
    類似検索方法。
  10. 【請求項10】 複合メディア文書の類似度を計算する
    際に、 文書に含まれるテキスト情報、画像情報や音声情報、構
    造情報の特徴情報に基づく類似度を計算し、 前記テキスト情報、前記画像情報や前記音声情報の特徴
    情報に基づく類似度計算結果に基づく第1段階目の選択
    を行い、 前記文書に含まれる構造情報の特徴情報に基づく類似度
    を、複合メディア文書全体としての類似度とする請求項
    3記載の複合メディア文書の類似検索方法。
  11. 【請求項11】 複合メディア文書の類似度を計算する
    際に、 検索キーとして例示された文書中に同一メディアが複数
    存在する場合に、該メディアの文書レベルでの類似度を
    設定する請求項2及び3記載の複合メディア文書の類似
    検索方法。
  12. 【請求項12】 前記メディアの文書レベルでの類似度
    を設定する際に、 検索キーとして例示された文書中に複数存在する前記メ
    ディアの各検索キーについて、 前記例示された文書中に含まれるテキスト情報、画像情
    報、音声情報を含むメディア毎の全ての検索キーについ
    て、蓄積された文書中の該メディアにおける該検索キー
    に対する全ての類似度を計算し、 前記類似度が最も高いものを前記検索キーに対する代表
    の類似度とし、 前記代表の類似度の平均値を計算し、 前記メディアの文書レベルでの類似度を設定する請求項
    11記載の複合メディア文書の類似検索方法。
  13. 【請求項13】 前記メディアの文書レベルでの類似度
    を設定する際に、 検索キーとして例示された文書中に複数存在する前記メ
    ディアの各検索キーについて、 前記例示された文書中に含まれるテキスト情報、画像情
    報、音声情報を含むメディア毎の全ての検索キーについ
    て、蓄積された文書中の該メディアにおける該検索キー
    に対する全ての類似度を計算し、 前記類似度が最も高いものを前記検索キーに対する代表
    の類似度とし、 前記代表の類似度のうち、最も類似度が高いものを前記
    メディアの文書レベルでの類似度とする請求項11記載
    の複合メディア文書の類似検索方法。
  14. 【請求項14】 複合メディア文書の類似検索を行う際
    に、 検索キーとして例示された文書の構造情報と蓄積された
    文書の構造情報のそれぞれを順序ラベル付き木(ordere
    d labeled tree) として表現し、 それぞれの文書中の各メディアの特徴情報を前記順序ラ
    ベル付き木におけるノードの属性として格納した属性付
    き順序ラベル付き木として表現し、 前記例示された文書を表現した属性付き順序ラベル付き
    木と前記蓄積された文書を表現した属性付き順序ラベル
    付き木との属性と形状を比較することで、複合メディア
    文書の類似度を設定する請求項7記載の複合メディア文
    書の類似検索方法。
  15. 【請求項15】 複合メディア文書の類似検索を行う際
    に、 前記例示された文書を表現した属性付き順序ラベル付き
    木の各ノードの属性である特徴情報と類似した特徴情報
    を属性として持つノードを持つ蓄積された文書を表現し
    た属性付き順序ラベル付き木について、 前記ノードの構造的な位置関係の差異から複合メディア
    文書の類似度を設定する請求項14記載の複合メディア
    文書の類似検索方法。
  16. 【請求項16】 前記構造情報の類似度を設定する際
    に、 文書構造を順序ラベル付き木と見做し、該順序ラベル付
    き木に関する特徴情報に基づいて、多次元ベクトル空間
    上に該特徴情報を数値化してマッピングし、 前記ベクトル空間上での距離を文書の類似度として設定
    する請求項7記載の複合メディア文書の類似検索方法。
  17. 【請求項17】 前記順序付きラベル木に関する特徴情
    報として、 前記順序ラベル付き木の各ノードの名前やノード数や各
    ノードの位置情報を数値化して利用することで文書の類
    似度を計算する請求項16記載の複合メディア文書の類
    似検索方法。
  18. 【請求項18】 前記特徴情報として、 テキスト情報であれば、テキストの記述内容が表す概念
    や各単語の出現頻度、画像情報であれば、画像の色相や
    彩度や輝度、色配置、音声情報であれば、音の強弱やメ
    ロディ、構造情報であれば、文書構造を順序ラベル付き
    木で表現した場合の木の形状やノードのラベル名、リン
    ク情報等を、前記複合メディア文書の構成要素から抽出
    される特徴情報とする請求項1記載の複合メディア文書
    の類似検索方法。
  19. 【請求項19】 前記類似度を判定する際に、 前記例示された文書に対する蓄積された文書の類似度
    を、 前記検索キーとして例示された前記文書を構成している
    テキスト、画像、音声を含むメディアの情報及び構造情
    報と、蓄積されている前記文書を構成しているテキス
    ト、画像、音声を含むメディアの情報及び構造情報との
    構成要素毎の類似性判定結果に基づく評価値を、複合メ
    ディア文書全体類似度として設定し、 前記蓄積された文書の類似度を降順に並べることで順位
    付けし、類似度を判定する請求項1記載の複合メディア
    文書の類似検索方法。
  20. 【請求項20】 前記類似度を設定する際に、 前記複合メディア文書の各構成要素毎に、類似度を設定
    し、 前記文書に含まれるテキスト情報、画像情報や音声情
    報、及び構造情報の特徴情報毎に、類似度を計算し、 前記類似度に重みの値を掛け、線形和をとったものを、
    前記複合メディア文書全体としての類似度とする請求項
    3記載の複合メディア文書の類似検索方法。
  21. 【請求項21】 前記複合メディア文書全体の類似度を
    設定する際に、 前記文書の構成要素毎の類似性判定結果に基づく評価値
    として、各構成要素の類似度そのもの、または、各構成
    要素の類似度に利用者から与えられた重みを掛け合わせ
    たものを利用する請求項3記載の複合メディア文書の類
    似検索方法。
  22. 【請求項22】 テキスト情報、画像情報、人間の声の
    データである音声データに加え、CDやレコードを含む
    楽曲データや音楽データを含む音声情報から構成される
    構造化文書である複合メディア文書の類似検索装置であ
    って、 複合メディア文書を入力する複合メディア文書入力手段
    と、 前記複合メディア文書入力手段により与えられた前記複
    合メディア文書及び、入力された検索条件を構文解析す
    る文書解析手段と、 前記文書解析手段で解析された結果得られる文書の構成
    要素から特徴情報を抽出する特徴情報抽出手段と、 前記複合メディア文書及び前記特徴情報抽出手段で抽出
    された前記特徴情報を蓄積する蓄積手段と、 複合メディア文書を検索条件として入力する検索条件入
    力手段と、 前記蓄積手段に蓄積されている前記複合メディア文書の
    特徴情報と、入力された前記検索条件を前記文書解析手
    段で解析した結果に基づいて前記特徴情報抽出手段で抽
    出された特徴情報に基づいて2つの複合メディア文書の
    類似度を判定する文書比較手段と、 前記文書比較手段で判定された類似度に基づいて、類似
    した複合メディア文書を出力する出力手段とを有するこ
    とを特徴とする複合メディア文書の類似検索装置。
  23. 【請求項23】 前記検索条件入力手段は、 利用者が例示した文書を検索キーとして入力する手段を
    含み、 前記特徴情報抽出手段は、 与えられた前記複合メディア文書から検索キーとして例
    示された複合メディア文書を抽出する入力文書特徴情報
    抽出手段と、 前記利用者から例示された文書から前記検索情報の特徴
    情報を抽出する検索特徴情報抽出手段を含み、 前記文書比較手段は、 前記入力文書特徴情報抽出手段で抽出された入力文書特
    徴情報と、前記検索特徴情報抽出手段で抽出された検索
    特徴情報により、前記複合メディア文書と前記検索キー
    として例示された複合メディア文書間の類似度を計算す
    る類似度計算手段を含む請求項22記載の複合メディア
    文書の類似検索装置。
  24. 【請求項24】 前記類似度計算手段は、 前記検索条件入力手段で前記検索キーとして前記例示さ
    れた文書を構成しているテキスト情報、画像情報、音声
    情報及び構造情報と、前記蓄積手段に蓄積されている前
    記複合メディア文書を構成しているテキスト情報、画像
    情報、音声情報及び構造情報との構成要素毎の類似性判
    定結果に基づく評価値を、複合メディア文書全体の類似
    度として設定する類似度設定手段を含む請求項21及び
    22記載の複合メディア文書の類似検索装置。
  25. 【請求項25】 前記類似度設定手段は、 前記構成要素毎の類似性判定結果として、 前記例示された文書のテキスト情報と前記蓄積手段に蓄
    積されている前記文書のテキスト情報の類似性判定結果
    と、該例示された文書の画像情報と、該蓄積手段に蓄積
    されている文書の画像情報との類似性判定結果と、該例
    示された文書の音声情報と該蓄積手段に蓄積されている
    文書の音声情報との類似性判定結果と、該例示さた文書
    の構造情報と該蓄積手段に蓄積されている文書の構造情
    報との類似性判定結果を用いる請求項24記載の複合メ
    ディア文書の類似検索装置。
  26. 【請求項26】 前類似度設定手段は、 前記文書に含まれるテキスト情報、画像情報や音声情
    報、及び構造情報の特徴情報毎に、類似度を計算し、該
    類似度に重みの値を掛け、線形和をとったものを、前記
    複合メディア文書全体としての類似度とする線形和算出
    手段を含む請求項24記載の複合メディア文書の類似検
    索装置。
  27. 【請求項27】 前記文書比較手段は、 同一文書中に同一メディアが複数存在する場合に、前記
    例示された文書中に含まれるテキスト、画像、音声を含
    むメディア毎の全ての検索キーについて、蓄積された文
    書中のメディアにおける該検索キーに対する全ての類似
    度を計算し、該類似度が最も高いものを前記検索キーに
    対する代表の類似度とする代表類似度決定手段を含む請
    求項22及び23記載の複合メディア文書の類似検索装
    置。
  28. 【請求項28】 前記類似度計算手段は、 前記検索キーとして、前記例示された文書の構造情報と
    蓄積された文書の構造情報のそれぞれを、順序ラベル付
    木(ordered labeled tree)として表現し、 前記例示された文書を表現した前記順序ラベル付木と、
    前記蓄積された文書を表現した順序ラベル付木との形状
    を比較することで、文書の構造情報の類似度を設定する
    順序ラベル付木形状比較手段を含む請求項23記載の複
    合メディア文書の類似検索装置。
  29. 【請求項29】 前記順序ラベル付木形状比較手段は、 前記構造情報の類似度を判定する際に、前記文書構造を
    木と見做し、前記例示された文書を表す木から蓄積され
    た前記文書を表す木へ変換するために必要なノードの挿
    入、ノードの削除、ノード名の変更を含む編集操作を行
    った回数と、該編集操作を行うのに必要なコストから算
    出する編集距離を前記文書の類似度として設定する編集
    距離算出手段を含む請求項28記載の複合メディア文書
    の類似検索装置。
  30. 【請求項30】 前記類似度計算手段は、 文書に含まれるテキスト情報、画像情報や音声情報、構
    造情報の特徴情報に基づく類似度を計算する手段と、 構造情報の特徴情報に基づく類似度計算結果に基づく第
    1段階目の選択を行う手段と、 前記文書に含まれるテキスト情報、画像情報や音声情報
    の特徴情報に基づく類似度を、複合メディア文書全体と
    しての類似度とする手段とを含む請求項24記載の複合
    メディア文書の類似検索装置。
  31. 【請求項31】 前記類似度計算手段は、 文書に含まれるテキスト情報、画像情報や音声情報、構
    造情報の特徴情報に基づく類似度を計算する手段と、 前記テキスト情報、前記画像情報や前記音声情報の特徴
    情報に基づく類似度計算結果に基づく第1段階目の選択
    を行う手段と、 前記文書に含まれる構造情報の特徴情報に基づく類似度
    を、複合メディア文書全体としての類似度とする手段と
    を含む請求項24記載の複合メディア文書の類似検索装
    置。
  32. 【請求項32】 前記類似度計算手段は、 検索キーとして例示された文書中に同一メディアが複数
    存在する場合に、該メディアの文書レベルでの類似度を
    設定する文書レベル類似度計算手段を含む請求項23及
    び24記載の複合メディア文書の類似検索装置。
  33. 【請求項33】 前記文書レベル類似度計算手段は、 検索キーとして例示された文書中に複数存在する前記メ
    ディアの各検索キーについて、前記例示された文書中に
    含まれるテキスト情報、画像情報、音声情報を含むメデ
    ィア毎の全ての検索キーについて、蓄積された文書中の
    該メディアにおける該検索キーに対する全ての類似度を
    計算する手段と、 前記類似度が最も高いものを前記検索キーに対する代表
    の類似度とする手段と、 前記代表の類似度の平均値を計算する手段と、 前記メディアの文書レベルでの類似度を設定する文書レ
    ベル類似度設定手段とを含む請求項32記載の複合メデ
    ィア文書の類似検索装置。
  34. 【請求項34】 前記文書レベル類似度設定手段は、 検索キーとして例示された文書中に複数存在する前記メ
    ディアの各検索キーについて、該例示された文書中に含
    まれるテキスト情報、画像情報、音声情報を含むメディ
    ア毎の全ての検索キーについて、蓄積された文書中の該
    メディアにおける該検索キーに対する全ての類似度を計
    算する手段と、 前記類似度が最も高いものを前記検索キーに対する代表
    の類似度とする手段と、 前記代表の類似度のうち、最も類似度が高いものを前記
    メディアの文書レベルでの類似度とする手段とを含む請
    求項32記載の複合メディア文書の類似検索装置。
  35. 【請求項35】 前記類似度計算手段は、 検索キーとして例示された文書の構造情報と蓄積された
    文書の構造情報のそれぞれを順序ラベル付き木(ordere
    d labeled tree) として表現し、それぞれの文書中の各
    メディアの特徴情報を前記順序ラベル付き木におけるノ
    ードの属性として格納した属性付き順序ラベル付き木と
    して表現し、前記例示された文書を表現した属性付き順
    序ラベル付き木と前記蓄積された文書を表現した属性付
    き順序ラベル付き木との属性と形状を比較することで、
    複合文書の類似度を設定する類似検索手段を含む請求項
    28記載の複合メディア文書の類似検索装置。
  36. 【請求項36】 前記類似検索手段は、 例示された文書を表現した属性付き順序ラベル付き木の
    各ノードの属性である特徴情報と類似した特徴情報を属
    性として持つノードを持つ蓄積された文書を表現した属
    性付き順序ラベル付き木について、該ノードの構造的な
    位置関係の差異から複合メディア文書の類似度を設定す
    る手段を含む請求項35記載の複合メディア文書の類似
    検索装置。
  37. 【請求項37】 前記順序ラベル付き木形状比較手段
    は、 文書構造を順序ラベル付き木と見做し、該順序ラベル付
    き木に関する特徴情報に基づいて、多次元ベクトル空間
    上に該特徴情報を数値化してマッピングする手段と、 前記ベクトル空間上での距離を文書の類似度として設定
    する手段とを含む請求項30記載の複合メディア文書の
    類似検索装置。
  38. 【請求項38】 前記順序付きラベル木に関する特徴情
    報として、 前記順序ラベル付き木の各ノードの名前やノード数や各
    ノードの位置情報を数値化して利用することで文書の類
    似度を計算する請求項37記載の複合メディア文書の類
    似検索装置。
  39. 【請求項39】 前記特徴情報として、 テキスト情報であれば、テキストの記述内容が表す概念
    や各単語の出現頻度、画像情報であれば、画像の色相や
    彩度や輝度、色配置、音声情報であれば、音の強弱やメ
    ロディ、構造情報であれば、文書構造を順序ラベル付き
    木で表現した場合の木の形状やノードのラベル名、リン
    ク情報などを、前記複合メディア文書の構成要素から抽
    出される特徴情報とする請求項22記載の複合メディア
    文書の類似検索装置。
  40. 【請求項40】 前記文書比較手段は、 前記例示された文書に対する蓄積された文書の類似度
    を、 前記検索キーとして例示された前記文書を構成している
    テキスト、画像、音声を含むメディアの情報及び構造情
    報と、蓄積されている前記文書を構成しているテキス
    ト、画像、音声を含むメディアの情報及び構造情報との
    構成要素毎の類似性判定結果に基づく評価値を、複合メ
    ディア文書全体類似度として設定する手段と、 前記蓄積された文書の類似度を降順に並べることで順位
    付けし、類似度を判定する手段とを含む請求項22記載
    の複合メディア文書の類似検索装置。
  41. 【請求項41】 前記類似度設定手段は、 前記複合メディア文書の各構成要素毎に、類似度を設定
    する手段と、 前記文書に含まれるテキスト情報、画像情報や音声情
    報、及び構造情報の特徴情報毎に、類似度を計算する手
    段と、 前記類似度に重みの値を掛け、線形和をとったものを、
    前記複合メディア文書全体としての類似度とする手段と
    を含む請求項24記載の複合メディア文書の類似検索装
    置。
  42. 【請求項42】 前記類似度設定手段は、 前記文書の構成要素毎の類似性判定結果に基づく評価値
    として、各構成要素の類似度そのもの、または、各構成
    要素の類似度に利用者から与えられた重みを掛け合わせ
    たものを利用する手段を含む請求項24記載の複合メデ
    ィア文書の類似検索装置。
  43. 【請求項43】 テキスト情報、画像情報、人間の声の
    データである音声データに加え、CDやレコードを含む
    楽曲データや音楽データを含む音声情報から構成される
    構造化文書である複合メディア文書の類似検索プログラ
    ムを格納した記憶媒体であって、 与えられた前記複合メディア文書及び、入力された検索
    条件を構文解析する文書解析プロセスと、 前記文書解析プロセスで解析された結果、得られる文書
    の構成要素から特徴情報を抽出する特徴情報抽出プロセ
    スと、 前記複合メディア文書及び前記特徴情報抽出プロセスで
    抽出された前記特徴情報を記憶手段に格納する格納プロ
    セスと、 複合メディア文書を検索条件として入力させる検索条件
    入力プロセスと、 前記記憶手段に蓄積されている前記複合メディア文書の
    特徴情報と、入力された前記検索条件を前記文書解析プ
    ロセスで解析した結果に基づいて前記特徴情報抽出プロ
    セスで抽出された特徴情報から2つの複合メディア文書
    の類似度を判定する文書比較プロセスと、 前記文書比較プロセスで判定された類似度に基づいて、
    類似した複合メディア文書を出力させる出力プロセスと
    を有することを特徴とする複合メディア文書の類似検索
    プログラムを格納した記憶媒体。
  44. 【請求項44】 前記検索条件入力プロセスは、 利用者が例示した文書を検索キーとして入力するプロセ
    スを含み、 前記特徴情報抽出プロセスは、 与えられた前記複合メディア文書から特徴情報を抽出す
    る入力文書特徴情報抽出プロセスと、 前記利用者から例示された文書から検索キーとして例示
    された複合メディア文書の特徴情報を抽出する検索特徴
    情報抽出プロセスを含み、 前記文書比較プロセスは、 前記入力文書特徴情報抽出プロセスで抽出された入力文
    書特徴情報と、前記検索特徴情報抽出プロセスで抽出さ
    れた検索特徴情報により、前記複合メディア文書と前記
    検索キーとして例示された複合メディア文書間の類似度
    を計算する類似度計算プロセスを含む請求項43記載の
    複合メディア文書の類似検索プログラムを格納した記憶
    媒体。
  45. 【請求項45】 前記類似度計算プロセスは、 前記検索条件入力プロセスで前記検索キーとして例示さ
    れた文書を構成しているテキスト情報、画像情報、音声
    情報及び構造情報と、前記記憶手段に蓄積されている前
    記複合メディア文書を構成しているテキスト情報、画像
    情報、音声情報及び構造情報との構成要素毎の類似性判
    定結果に基づく評価値を、複合メディア文書全体の類似
    度として設定する類似度設定プロセスを含む請求項43
    及び44記載の複合メディア文書の類似検索プログラム
    を格納した記憶媒体。
  46. 【請求項46】 前記類似度設定プロセスは、 前記構成要素毎の類似性判定結果として、 前記例示された文書のテキスト情報と前記記憶手段に蓄
    積されている前記文書のテキスト情報の類似性判定結果
    と、該例示された文書の画像情報と、該記憶手段に蓄積
    されている文書の画像情報との類似性判定結果と、該例
    示された文書の音声情報と該記憶手段に蓄積されている
    文書の音声情報との類似性判定結果と、該例示さた文書
    の構造情報と該記憶手段に蓄積されている文書の構造情
    報との類似性判定結果を用いる請求項45記載の複合メ
    ディア文書の類似検索プログラムを格納した記憶媒体。
  47. 【請求項47】 前類似度設定プロセスは、 前記文書に含まれるテキスト情報、画像情報や音声情
    報、及び構造情報の特徴情報毎に、類似度を計算し、該
    類似度に重みの値を掛け、線形和をとったものを、前記
    複合メディア文書全体としての類似度とする線形和算出
    プロセスを含む請求項45記載の複合メディア文書の類
    似検索プログラムを格納した記憶媒体。
  48. 【請求項48】 前記文書比較プロセスは、 同一文書中に同一メディアが複数存在する場合に、前記
    例示された文書中に含まれるテキスト、画像、音声を含
    むメディア毎の全ての検索キーについて、蓄積された文
    書中のメディアにおける該検索キーに対する全ての類似
    度を計算し、該類似度が最も高いものを前記検索キーに
    対する代表の類似度とする代表類似度決定プロセスを含
    む請求項43及び44記載の複合メディア文書の類似検
    索プログラムを格納した記憶媒体。
  49. 【請求項49】 前記類似度計算プロセスは、 前記検索キーとして、前記例示された文書の構造情報と
    蓄積された文書の構造情報のそれぞれを、順序ラベル付
    木(ordered labeled tree)として表現し、前記例示さ
    れた文書を表現した前記順序ラベル付木と、前記蓄積さ
    れた文書を表現した順序ラベル付木との形状を比較する
    ことで、文書の構造情報の類似度を設定する順序ラベル
    付木形状比較プロセスを含む請求項44記載の複合メデ
    ィア文書の類似検索プログラムを格納した記憶媒体。
  50. 【請求項50】 前記順序ラベル付木形状比較プロセス
    は、 前記構造情報の類似度を判定する際に、前記文書構造を
    木と見做し、前記例示された文書を表す木から蓄積され
    た前記文書を表す木へ変換するために必要なノードの挿
    入、ノードの削除、ノード名の変更を含む編集操作を行
    った回数と、該編集操作を行うのに必要なコストから算
    出する編集距離を前記文書の類似度として設定する編集
    距離算出プロセスを含む請求項49記載の複合メディア
    文書の類似検索プログラムを格納した記憶媒体。
  51. 【請求項51】 前記類似度計算プロセスは、 文書に含まれるテキスト情報、画像情報や音声情報、構
    造情報の特徴情報に基づく類似度を計算するプロセス
    と、 構造情報の特徴情報に基づく類似度計算結果に基づく第
    1段階目の選択を行うプロセスと、 前記文書に含まれるテキスト情報、画像情報や音声情報
    の特徴情報に基づく類似度を、複合メディア文書全体と
    しての類似度とするプロセスとを含む請求項44記載の
    複合メディア文書の類似検索プログラムを格納した記憶
    媒体。
  52. 【請求項52】 前記類似度計算プロセスは、 文書に含まれるテキスト情報、画像情報や音声情報、構
    造情報の特徴情報に基づく類似度を計算するプロセス
    と、 前記テキスト情報、前記画像情報や前記音声情報の特徴
    情報に基づく類似度計算結果に基づく第1段階目の選択
    を行うプロセスと、 前記文書に含まれる構造情報の特徴情報に基づく類似度
    を、複合メディア文書全体としての類似度とするプロセ
    スとを含む請求項43及び、44記載の複合メディア文
    書の類似検索プログラムを格納した記憶媒体。
  53. 【請求項53】 前記類似度計算プロセスは、 検索キーとして例示された文書中に同一メディアが複数
    存在する場合に、該メディアの文書レベルでの類似度を
    設定する文書レベル類似度計算プロセスを含む請求項4
    3及び44記載の複合メディア文書の類似検索プログラ
    ムを格納した記憶媒体。
  54. 【請求項54】 前記文書レベル類似度計算プロセス
    は、 検索キーとして例示された文書中に複数存在する前記メ
    ディアの各検索キーについて、前記例示された文書中に
    含まれるテキスト情報、画像情報、音声情報を含むメデ
    ィア毎の全ての検索キーについて、蓄積された文書中の
    該メディアにおける該検索キーに対する全ての類似度を
    計算するプロセスと、 前記類似度が最も高いものを前記検索キーに対する代表
    の類似度とするプロセスと、 前記代表の類似度の平均値を計算するプロセスと、 前記メディアの文書レベルでの類似度を設定する文書レ
    ベル類似度設定プロセスとを含む請求項53記載の複合
    メディア文書の類似検索プログラムを格納した記憶媒
    体。
  55. 【請求項55】 前記文書レベル類似度設定プロセス
    は、 検索キーとして例示された文書中に複数存在する前記メ
    ディアの各検索キーについて、該例示された文書中に含
    まれるテキスト情報、画像情報、音声情報を含むメディ
    ア毎の全ての検索キーについて、蓄積された文書中の該
    メディアにおける該検索キーに対する全ての類似度を計
    算するプロセスと、 前記類似度が最も高いものを前記検索キーに対する代表
    の類似度とするプロセスと、 前記代表の類似度のうち、最も類似度が高いものを前記
    メディアの文書レベルでの類似度とするプロセスとを含
    む請求項54記載の複合メディア文書の類似検索プログ
    ラムを格納した記憶媒体。
  56. 【請求項56】 前記類似度計算プロセスは、 検索キーとして例示された文書の構造情報と蓄積された
    文書の構造情報のそれぞれを順序ラベル付き木(ordere
    d labeled tree) として表現し、それぞれの文書中の各
    メディアの特徴情報を前記順序ラベル付き木におけるノ
    ードの属性として格納した属性付き順序ラベル付き木と
    して表現し、前記例示された文書を表現した属性付き順
    序ラベル付き木と前記蓄積された文書を表現した属性付
    き順序ラベル付き木との属性と形状を比較することで、
    複合文書の類似度を設定する類似検索プロセスを含む請
    求項49記載の複合メディア文書の類似検索プログラム
    を格納した記憶媒体。
  57. 【請求項57】 前記類似検索プロセスは、 例示された文書を表現した属性付き順序ラベル付き木の
    各ノードの属性である特徴情報と類似した特徴情報を属
    性として持つノードを持つ蓄積された文書を表現した属
    性付き順序ラベル付き木について、該ノードの構造的な
    位置関係の差異から複合メディア文書の類似度を設定す
    るプロセスを含む請求項56記載の複合メディア文書の
    類似検索プログラムを格納した記憶媒体。
  58. 【請求項58】 前記順序ラベル付き木形状比較プロセ
    スは、 文書構造を順序ラベル付き木と見做し、該順序ラベル付
    き木に関する特徴情報に基づいて、多次元ベクトル空間
    上に該特徴情報を数値化してマッピングするプロセス
    と、 前記ベクトル空間上での距離を文書の類似度として設定
    するプロセスとを含む請求項49記載の複合メディア文
    書の類似検索プログラムを格納した記憶媒体。
  59. 【請求項59】 前記順序付きラベル木に関する特徴情
    報として、 前記順序ラベル付き木の各ノードの名前やノード数や各
    ノードの位置情報を数値化して利用することで文書の類
    似度を計算する請求項58記載の複合メディア文書の類
    似検索プログラムを格納した記憶媒体。
  60. 【請求項60】 前記特徴情報として、 テキスト情報であれば、テキストの記述内容が表す概念
    や各単語の出現頻度、画像情報であれば、画像の色相や
    彩度や輝度、色配置、音声情報であれば、音の強弱やメ
    ロディ、構造情報であれば、文書構造を順序ラベル付き
    木で表現した場合の木の形状やノードのラベル名、リン
    ク情報などを、前記複合メディア文書の構成要素から抽
    出される特徴情報とする請求項43記載の複合メディア
    文書の類似検索プログラムを格納した記憶媒体。
  61. 【請求項61】 前記文書比較プロセスは、 前記例示された文書に対する蓄積された文書の類似度
    を、 前記検索キーとして例示された前記文書を構成している
    テキスト、画像、音声を含むメディアの情報及び構造情
    報と、蓄積されている前記文書を構成しているテキス
    ト、画像、音声を含むメディアの情報及び構造情報との
    構成要素毎の類似性判定結果に基づく評価値を、複合メ
    ディア文書全体類似度として設定するプロセスと、 前記蓄積された文書の類似度を降順に並べることで順位
    付けし、類似度を判定するプロセスとを含む請求項43
    記載の複合メディア文書の類似検索プログラムを格納し
    た記憶媒体。
  62. 【請求項62】 前記類似度設定プロセスは、 前記複合メディア文書の各構成要素毎に、類似度を設定
    するプロセスと、 前記文書に含まれるテキスト情報、画像情報や音声情
    報、及び構造情報の特徴情報毎に、類似度を計算するプ
    ロセスと、 前記類似度に重みの値を掛け、線形和をとったものを、
    前記複合メディア文書全体としての類似度とするプロセ
    スとを含む請求項44記載の複合メディア文書の類似検
    索プログラムを格納した記憶媒体。
  63. 【請求項63】 前記類似度設定プロセスは、 前記文書の構成要素毎の類似性判定結果に基づく評価値
    として、各構成要素の類似度そのもの、または、各構成
    要素の類似度に利用者から与えられた重みを掛け合わせ
    たものを利用するプロセスを含む請求項44記載の複合
    メディア文書の類似検索プログラムを格納した記憶媒
    体。
JP11055950A 1998-09-11 1999-03-03 複合メディア文書の類似検索方法及び装置及び複合メディア文書の類似検索プログラムを格納した記憶媒体 Pending JP2000148793A (ja)

Priority Applications (1)

Application Number Priority Date Filing Date Title
JP11055950A JP2000148793A (ja) 1998-09-11 1999-03-03 複合メディア文書の類似検索方法及び装置及び複合メディア文書の類似検索プログラムを格納した記憶媒体

Applications Claiming Priority (3)

Application Number Priority Date Filing Date Title
JP10-258763 1998-09-11
JP25876398 1998-09-11
JP11055950A JP2000148793A (ja) 1998-09-11 1999-03-03 複合メディア文書の類似検索方法及び装置及び複合メディア文書の類似検索プログラムを格納した記憶媒体

Publications (1)

Publication Number Publication Date
JP2000148793A true JP2000148793A (ja) 2000-05-30

Family

ID=26396840

Family Applications (1)

Application Number Title Priority Date Filing Date
JP11055950A Pending JP2000148793A (ja) 1998-09-11 1999-03-03 複合メディア文書の類似検索方法及び装置及び複合メディア文書の類似検索プログラムを格納した記憶媒体

Country Status (1)

Country Link
JP (1) JP2000148793A (ja)

Cited By (21)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
KR20000058996A (ko) * 2000-07-08 2000-10-05 강승일 웹을 이용한 저작권 분석/등록 시스템 및 방법
KR20000072192A (ko) * 2000-08-16 2000-12-05 박성용 음악방송 자동통계 처리 시스템 및 그 서비스 방법
WO2001097044A1 (fr) * 2000-06-14 2001-12-20 Mitsubishi Denki Kabushiki Kaisha Dispositif et procede de recherche/distribution de contenu
KR20020001097A (ko) * 2000-06-24 2002-01-09 정용활 인터넷을 통하여 음악 표절 검색 서비스를 제공하는컴퓨터 시스템 및 그 방법
JP2002007413A (ja) * 2000-06-20 2002-01-11 Fujitsu Ltd 画像検索装置
JP2004348706A (ja) * 2003-04-30 2004-12-09 Canon Inc 情報処理装置及び情報処理方法ならびに記憶媒体、プログラム
US7548916B2 (en) 2003-04-30 2009-06-16 Canon Kabushiki Kaisha Calculating image similarity using extracted data
US7630879B2 (en) 2002-09-13 2009-12-08 Fuji Xerox Co., Ltd. Text sentence comparing apparatus
US7664794B2 (en) 2000-02-14 2010-02-16 Nice Systems Ltd. Content-based storage management
KR100971139B1 (ko) 2008-04-25 2010-07-20 주식회사 비즈모델라인 문서 저작권 관리 방법 및 시스템과 이를 위한 기록매체
US7783976B2 (en) 2005-10-24 2010-08-24 Fujitsu Limited Method and apparatus for comparing documents, and computer product
JP2010186214A (ja) * 2009-02-10 2010-08-26 Yahoo Japan Corp 検索装置
JP2011175568A (ja) * 2010-02-25 2011-09-08 Mitsubishi Electric Corp 文書間距離算出器および文章検索器
WO2011115024A1 (ja) * 2010-03-15 2011-09-22 日本電気株式会社 情報処理装置、情報処理方法及び情報処理プログラム
JP2012032886A (ja) * 2010-07-28 2012-02-16 Fujitsu Ltd 検索装置、検索プログラム、および検索方法
JP4979842B1 (ja) * 2011-06-30 2012-07-18 パナソニック株式会社 類似症例検索装置および類似症例検索方法
CN101669119B (zh) * 2007-04-27 2012-08-08 日本电气株式会社 内容处理装置和内容处理方法
US9430716B2 (en) 2011-04-07 2016-08-30 Hitachi, Ltd. Image processing method and image processing system
JP2018206376A (ja) * 2017-05-31 2018-12-27 株式会社半導体エネルギー研究所 情報検索システム、知的財産情報検索システム、情報検索方法、及び知的財産情報検索方法
JP2019139525A (ja) * 2018-02-09 2019-08-22 株式会社東芝 情報処理装置、情報処理方法、およびプログラム
KR20220032253A (ko) * 2020-09-07 2022-03-15 주식회사 한글과컴퓨터 다국어 번역 기능을 지원하는 문서 파일 제공 서버 및 그 동작 방법

Citations (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JPH05233719A (ja) * 1992-02-18 1993-09-10 Nippon Telegr & Teleph Corp <Ntt> 複合的な情報間の関連性識別方法
JPH10171826A (ja) * 1996-12-11 1998-06-26 Nippon Telegr & Teleph Corp <Ntt> 類似オブジェクト検索方法および装置
JPH10198682A (ja) * 1996-12-28 1998-07-31 Nec Corp データベース検索装置およびデータベース登録装置

Patent Citations (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JPH05233719A (ja) * 1992-02-18 1993-09-10 Nippon Telegr & Teleph Corp <Ntt> 複合的な情報間の関連性識別方法
JPH10171826A (ja) * 1996-12-11 1998-06-26 Nippon Telegr & Teleph Corp <Ntt> 類似オブジェクト検索方法および装置
JPH10198682A (ja) * 1996-12-28 1998-07-31 Nec Corp データベース検索装置およびデータベース登録装置

Cited By (27)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US7664794B2 (en) 2000-02-14 2010-02-16 Nice Systems Ltd. Content-based storage management
US8195616B2 (en) 2000-02-14 2012-06-05 Nice Systems Ltd. Content-based storage management
WO2001097044A1 (fr) * 2000-06-14 2001-12-20 Mitsubishi Denki Kabushiki Kaisha Dispositif et procede de recherche/distribution de contenu
US7310628B2 (en) 2000-06-14 2007-12-18 Mitsubishi Denki Kabushiki Kaisha Content searching/distributing device and content searching/distributing method
JP2002007413A (ja) * 2000-06-20 2002-01-11 Fujitsu Ltd 画像検索装置
KR20020001097A (ko) * 2000-06-24 2002-01-09 정용활 인터넷을 통하여 음악 표절 검색 서비스를 제공하는컴퓨터 시스템 및 그 방법
KR20000058996A (ko) * 2000-07-08 2000-10-05 강승일 웹을 이용한 저작권 분석/등록 시스템 및 방법
KR20000072192A (ko) * 2000-08-16 2000-12-05 박성용 음악방송 자동통계 처리 시스템 및 그 서비스 방법
US7630879B2 (en) 2002-09-13 2009-12-08 Fuji Xerox Co., Ltd. Text sentence comparing apparatus
JP2004348706A (ja) * 2003-04-30 2004-12-09 Canon Inc 情報処理装置及び情報処理方法ならびに記憶媒体、プログラム
US7548916B2 (en) 2003-04-30 2009-06-16 Canon Kabushiki Kaisha Calculating image similarity using extracted data
US7593961B2 (en) 2003-04-30 2009-09-22 Canon Kabushiki Kaisha Information processing apparatus for retrieving image data similar to an entered image
US7783976B2 (en) 2005-10-24 2010-08-24 Fujitsu Limited Method and apparatus for comparing documents, and computer product
CN101669119B (zh) * 2007-04-27 2012-08-08 日本电气株式会社 内容处理装置和内容处理方法
KR100971139B1 (ko) 2008-04-25 2010-07-20 주식회사 비즈모델라인 문서 저작권 관리 방법 및 시스템과 이를 위한 기록매체
JP2010186214A (ja) * 2009-02-10 2010-08-26 Yahoo Japan Corp 検索装置
JP2011175568A (ja) * 2010-02-25 2011-09-08 Mitsubishi Electric Corp 文書間距離算出器および文章検索器
WO2011115024A1 (ja) * 2010-03-15 2011-09-22 日本電気株式会社 情報処理装置、情報処理方法及び情報処理プログラム
US9015663B2 (en) 2010-03-15 2015-04-21 Nec Corporation Information processing device, information processing method, and information processing program
JP2012032886A (ja) * 2010-07-28 2012-02-16 Fujitsu Ltd 検索装置、検索プログラム、および検索方法
US9430716B2 (en) 2011-04-07 2016-08-30 Hitachi, Ltd. Image processing method and image processing system
US8953857B2 (en) 2011-06-30 2015-02-10 Panasonic Corporation Similar case searching apparatus and similar case searching method
JP4979842B1 (ja) * 2011-06-30 2012-07-18 パナソニック株式会社 類似症例検索装置および類似症例検索方法
JP2018206376A (ja) * 2017-05-31 2018-12-27 株式会社半導体エネルギー研究所 情報検索システム、知的財産情報検索システム、情報検索方法、及び知的財産情報検索方法
JP2019139525A (ja) * 2018-02-09 2019-08-22 株式会社東芝 情報処理装置、情報処理方法、およびプログラム
KR20220032253A (ko) * 2020-09-07 2022-03-15 주식회사 한글과컴퓨터 다국어 번역 기능을 지원하는 문서 파일 제공 서버 및 그 동작 방법
KR102375561B1 (ko) 2020-09-07 2022-03-17 주식회사 한글과컴퓨터 다국어 번역 기능을 지원하는 문서 파일 제공 서버 및 그 동작 방법

Similar Documents

Publication Publication Date Title
JP2000148793A (ja) 複合メディア文書の類似検索方法及び装置及び複合メディア文書の類似検索プログラムを格納した記憶媒体
US6598043B1 (en) Classification of information sources using graph structures
JP3879321B2 (ja) 文書要約装置、文書要約方法及び文書要約プログラムを記録した記録媒体
US5404435A (en) Non-text object storage and retrieval
US20070156645A1 (en) System and Method for Storing and Retrieving Non-Text-Based Information
JP3266586B2 (ja) データ分析システム
JP2005122295A (ja) 関係図作成プログラム、関係図作成方法、および関係図作成装置
JP2005182280A (ja) 情報検索システム、検索結果加工システム及び情報検索方法並びにプログラム
Pérez-Sancho et al. Genre classification using chords and stochastic language models
Choudhury Optical music recognition system within a large-scale digitization project
Golub et al. Knowledge organisation for digital humanities: An introduction
JP2007094855A (ja) 文書処理装置及び文書処理方法
JP2007183927A (ja) 情報処理装置および方法、並びにプログラム
JP2005078245A (ja) デンドログラムを用いたコンテンツ検索装置
JP2003330966A (ja) 文書分析方法及び装置及び文書分析プログラム及び文書分析プログラムを格納した記憶媒体
EP4287039A1 (en) System and method for content-based music project recommendation
JP2001067364A (ja) 複合メディア検索方法および複合メディア検索用プログラム記録媒体
JP2009251845A (ja) 検索結果評価装置及び検索結果評価方法
JP2008269106A (ja) スキーマ抽出方法、情報処理装置、コンピュータプログラム及び記録媒体
JP2003288332A (ja) 構造化文書作成支援方法及び構造化文書作成支援システム
JPH1145238A (ja) 文書管理システムおよびそのシステムとしてコンピュータを機能させるためのプログラムを記録したコンピュータ読み取り可能な記録媒体
EP4250134A1 (en) System and method for automated music pitching
Moutselakis et al. Semantic Web multimedia Metadata retrieval: A music approach
JP2002366577A (ja) 情報検索システム、情報検索方法、情報検索プログラム、情報検索プログラムを記録した記録媒体、出力情報選択装置、出力情報選択方法、出力情報選択プログラム及び出力情報選択プログラムを記録した記録媒体
JP2002334099A (ja) 分散マルチメディア情報の検索装置、検索方法、プログラムおよび記録媒体

Legal Events

Date Code Title Description
A521 Written amendment

Free format text: JAPANESE INTERMEDIATE CODE: A523

Effective date: 20040109

A02 Decision of refusal

Free format text: JAPANESE INTERMEDIATE CODE: A02

Effective date: 20040210