JP3547069B2 - 情報関連づけ装置およびその方法 - Google Patents
情報関連づけ装置およびその方法 Download PDFInfo
- Publication number
- JP3547069B2 JP3547069B2 JP14851997A JP14851997A JP3547069B2 JP 3547069 B2 JP3547069 B2 JP 3547069B2 JP 14851997 A JP14851997 A JP 14851997A JP 14851997 A JP14851997 A JP 14851997A JP 3547069 B2 JP3547069 B2 JP 3547069B2
- Authority
- JP
- Japan
- Prior art keywords
- search
- user
- time difference
- predetermined
- formula
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Expired - Lifetime
Links
Images
Classifications
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F16/00—Information retrieval; Database structures therefor; File system structures therefor
- G06F16/30—Information retrieval; Database structures therefor; File system structures therefor of unstructured textual data
- G06F16/35—Clustering; Classification
- G06F16/355—Creation or modification of classes or clusters
-
- Y—GENERAL TAGGING OF NEW TECHNOLOGICAL DEVELOPMENTS; GENERAL TAGGING OF CROSS-SECTIONAL TECHNOLOGIES SPANNING OVER SEVERAL SECTIONS OF THE IPC; TECHNICAL SUBJECTS COVERED BY FORMER USPC CROSS-REFERENCE ART COLLECTIONS [XRACs] AND DIGESTS
- Y10—TECHNICAL SUBJECTS COVERED BY FORMER USPC
- Y10S—TECHNICAL SUBJECTS COVERED BY FORMER USPC CROSS-REFERENCE ART COLLECTIONS [XRACs] AND DIGESTS
- Y10S707/00—Data processing: database and file management or data structures
- Y10S707/99931—Database or file accessing
- Y10S707/99933—Query processing, i.e. searching
Landscapes
- Engineering & Computer Science (AREA)
- Theoretical Computer Science (AREA)
- Data Mining & Analysis (AREA)
- Databases & Information Systems (AREA)
- Physics & Mathematics (AREA)
- General Engineering & Computer Science (AREA)
- General Physics & Mathematics (AREA)
- Information Retrieval, Db Structures And Fs Structures Therefor (AREA)
- Machine Translation (AREA)
Description
【発明の属する技術分野】
本発明は、検索時に使用された複数の検索語の相互間における関連度を計算し、各検索語の相互間における関連づけを行う装置およびその方法に関するものである。
【0002】
【従来の技術】
情報検索とは、文書等の集合をデータベース等に蓄積し、利用者が与えた検索式に関連する文書を、そのデータベースから取り出す技術である。検索式とは、たとえば「通信」のような1つの単語だけではなく、「通信AND計算機」のように、「通信」と「計算機」との両方の単語に関連する文書の取り出しを指定したり、「通信OR計算機」のように、「通信」と「計算機」とのうちのいずれかの単語に関連する文書の取り出しを指定する式である。ここで「単語に関連する文書」とは、ある文書にキーワードとしてある単語が予め付与されている場合、そのキーワードに対応する文書であり、また、ある文書中にある単語が含まれている場合、その単語に対応する文書である。
【0003】
ここで、情報検索において、多くの人が共通して欲している情報を把握することができれば、それを情報収集計画に反映したり、または、メニュー選択によってその情報へアクセスできるようにすることによって、効果的な情報検索サービスを提供することができる。
【0004】
【発明が解決しようとする課題】
しかし、1つの情報について、各利用者が互いに異なる固有の視点に基づいて見ることがあるので、同一の情報を検索する場合、各利用者は、互いに異なる検索語を用い、したがって、検索語の使用頻度を単純に集計するだけでは、多くの人が共通して欲している情報が何であるかを正確に把握することはできない。
【0005】
ところで、所定の期間において使用された検索語同士の関連度の強さを求めることができれば、互いに強い関連を持つ語は、同一の情報を得るために使用された語であると見なすことができ、したがって、データベース等に蓄積されている情報が要求されている強さを、検索語に基づいて求めることができる。
【0006】
この場合、従来、関連語辞書では、1つの検索語と別の検索語語との関係を静的に定義しており、この関連語辞書を利用すれば、検索語同士の関係を得ることができ、したがって、データベース等に蓄積されている情報を要求する強さを求めることができる。
【0007】
しかし、上記の関連語辞書では、個々の商品名や省略形等、時代を反映した新語や、検索の時点で利用者が「関連している」と見なした複数の検索語同士の関連、いわば「一時的に関連の強くなった検索語同士の関連」に対応することができない。たとえば、「年賀状」と「当選番号」は、年末年始の期間では「お年玉つき年賀ハガキの当選番号」を調べるために使用されることが多いので、同一の情報要求として1つのグループにまとめることが好ましいが、年末年始以外の期間のように、当該期間とは別の期間においては1つのグループにまとめるべきではない。「サッカー」と「ワールドカップ」、「スキー」と「北海道」等も上記と同様に、1つのグループにまとめるべきではない。
【0008】
つまり、従来例においては、同一の情報を要求する複数の検索語を適切にグループ化することができないので、検索語間の関連度を適切に計算することができず、したがって、多くのユーザが欲している情報が何であるかを的確に把握することが困難であるという問題がある。
【0009】
本発明は、多くのユーザが欲している情報が何であるかを、的確にしかも容易に把握することができる情報関連づけ装置およびその方法を提供することを目的とするものである。
【0010】
請求項1、2、6、7に記載の発明は、蓄積されている情報から、所定の検索式を使用して所望の情報を検索する場合、過去の所定期間中に行われた検索におけるデータから、検索ユーザ毎に、検索時刻と上記検索式とを抽出し、上記抽出した検索式を検索語に分解し、この分解された複数の検索語が使用された時刻と、上記分解された複数の検索語のうちの別の検索語が使用された時刻との時刻差のうちの最小値である最小時刻差を、上記検索ユーザ毎に計算し、所定の検索ユーザにおける上記最小時刻差に基づいて、上記最小時刻差に対応する上記1つの検索語と上記別の検索語との関連度を、上記所定の検索ユーザ毎に計算し、複数の上記検索ユーザについて計算された上記関連度を集計するものである。
【0011】
請求項3〜5、8に記載の発明は、蓄積されている情報から、所定の検索式を使用して所望の情報を検索する場合、過去の所定期間中に行われた検索におけるデータから、所定時間毎に検索ユーザ毎に、上記検索式を抽出し、上記検索ユーザ毎に、上記検索式を検索語へ分解し、上記所定時間毎における上記各検索語の使用回数を上記検索ユーザ毎に計算し、上記検索ユーザ毎に計算された各検索語の使用回数を、全ての上記検索ユーザについて集計し、上記集計された上記所定時間毎における上記各検索語の使用回数に基づいて、2つの検索語相互間の相関係数を計算するものである。
【0012】
【発明の実施の形態および実施例】
図1は、本発明の一実施例である情報関連づけ装置IC1を示すブロック図である。
【0013】
情報関連づけ装置IC1は、蓄積されている情報から、所定の検索式を使用して所望の情報を検索する情報検索システムであり、2つの検索語が使用された時刻差のうちで最小時刻差に応じて、その2つの検索語の間における関連度を計算するものである。
【0014】
また、情報関連づけ装置IC1は、ユーザ別検索時刻・検索式抽出部10と、最小時刻差計算部20と、関連度計算・集計部30とを有する。
【0015】
ユーザ別検索時刻・検索式抽出部10は、過去の所定期間中に行われた検索におけるデータから、検索ユーザ毎に、検索時刻と上記検索式とを抽出する手段である。
【0016】
最小時刻差計算部20は、ユーザ別検索時刻・検索式抽出部10が抽出した検索式を検索語に分解し、この分解された複数の検索語が使用された時刻と、上記分解された複数の検索語のうちの別の検索語が使用された時刻との時刻差のうちの最小値である最小時刻差を、上記検索ユーザ毎に計算する手段である。
【0017】
関連度計算・集計部30は、所定の検索ユーザにおける上記最小時刻差に基づいて、上記最小時刻差に対応する上記1つの検索語と上記別の検索語との関連度を、上記所定の検索ユーザ毎に計算し、複数の上記検索ユーザについて計算された上記関連度を集計する手段である。
【0018】
図2は、情報関連づけ装置IC1に入力された検索記録を示す図である。
【0019】
検索記録として、検索時刻と、検索を行ったユーザIDと、検索式とが記録される。たとえば、図2の1行目は、ユーザID1234のユーザが、1997年1月17日の14時54分32秒に、「年賀状」という検索式で検索を行ったことを示している。
【0020】
図3は、上記実施例において、ユーザ別検索時刻・検索式抽出部10の出力結果の例を示す図である。
【0021】
ユーザ別検索時刻・検索式抽出部10は、図2に示す検索記録をユーザ別にまとめる手段であり、図3には、ユーザID1234のユーザが検索したときに使用された検索式が、その検索時刻とともに示されている。
【0022】
図4は、上記実施例における最小時刻差計算部20の一例を示すブロック図である。
【0023】
最小時刻差計算部20は、検索式分解部21と、最小時刻差演算部22とを有する。検索式分解部21は、各検索式を検索語毎に分解し、検索語とその使用時刻とを出力するものである。最小時刻差計算部20は、たとえば、図3の2行目の「お年玉ANDハガキAND抽選」を、「お年玉」と「ハガキ」と「抽選」とに分解し、これら分解された各検索語のそれぞれと、その検索時刻である1997年1月17日の14時54分59秒とを出力する。
【0024】
図5は、検索式分解部21の出力結果の例を示す図である。
【0025】
最小時刻差演算部22は、1つの検索語1の使用時刻と、別の検索語2の使用時刻との差である時刻差D121、D122、D123……を求め、これら時刻差D121、D122、D123……のうちで最も短い最小時刻差を求める。そして、最小時刻差演算部22は、検索語2の使用時刻と、検索語3の使用時刻との差である時刻差D231、D232、D233……を求め、これら時刻差D231、D232、D233……のうちで最も短い最小時刻差を求め、以下、同様にして、互いに異なる2つの検索語同士における最小時刻差を求める。
【0026】
図5において、検索語「年賀状」は、1997年1月17日の17時54分32秒と17時55分23秒とに使用され、また、検索語「抽選」は、1997年1月17日の17時54分59秒と17時55分23秒とに使用されているので、検索語「年賀状」と「抽選」とにおける最小時刻差は「0秒」である。
【0027】
図6は、上記実施例において、検索語1の使用時刻と検索語2の使用時刻との最小時刻差を求める動作を示すフローチャートである。
【0028】
ここで、検索語1がn回使用され、その使用時刻を、T1[1]、T1[2]、…、T1[n]とし、検索語2がm回使用され、その使用時刻をT2[1]、T2[2]、…、T2[m]とし、T1[i]とT2[j]との差のうちで、その最小値を求める(S2〜S9)。なお、最小値の初期値として「T1[1]−T2[1]」の絶対値を求め、この「T1[1]−T2[1]」の絶対値を変数minに格納し(S1)、この格納されている「T1[1]−T2[1]」の絶対値を各「T1[i]−T2[j]」の絶対値と比較し、この比較の結果、その小さい方を、変数minに格納する(S2〜S4)。ただし、変数min=0になれば(S5)、比較の計算を終了する。
【0029】
図7は、上記実施例において、最小時刻差演算部22の出力結果の例を示す図である。
【0030】
図8は、上記実施例において、最小時刻差に基づいて、検索語同士の関連度を求めるグラフである。
【0031】
つまり、2つの検索語における最小時刻差が計算されたら、この計算された最小時刻差に基づいて、図8に示すグラフを使用し、その2つの検索語同士の関連度を求める。
【0032】
図8において、検索語同士の最小時刻差が「0」であれば、検索語同士の関連度を「2」とし、上記最小時刻差が0秒よりも大きく60秒以下であれば、検索語同士の関連度を「1」とし、上記最小時刻差が60秒以上300秒以下であれば、上記検索語同士の関連度をyとする。ここで、関連度yは、次の1次関数
y=−x/300+1.2
によって求められる。なお、xは、検索語同士の時刻差(秒)である。
【0033】
図9は、図7に示す最小時刻差演算部22の出力結果を、図8に示す最小時刻差対関連度のグラフに基づいて求めた関連度(ユーザ別)を示す図である。
【0034】
図10は、図9に示す2つの検索語間の関連度を全てのユーザについて集計したものであり、2つの検索語間の関連度をユーザ毎に加算して求めた検索語間の関連度(全ユーザの集計結果)を示す図である。
【0035】
次に、上記実施例を、実際の検索記録に適用した場合について説明する。
【0036】
図11は、上記実施例における検索記録の例を示す図である。なお、図11〜図14は、実際に行った実験の結果を示す図である。
【0037】
図11には、検索時刻、ユーザID、検索式が、検索毎に示され、検索時刻、ユーザID、検索式のそれぞれは、T=、U=、O=、に続く文字列によって示されている。図11のたとえば1行目に記載されている「T=12:12:26U=yvgXgzMfiI8AAD7D O=サッカー+ワールドカップ」は、「12時12分26秒に、ユーザID『yvgXgzMfiI8AAD7D』のユーザが、検索式『サッカー+ワールドカップ』を使用して検索を行った」旨を示すものである。
【0038】
図12は、上記実施例おいて、集計された検索記録を、ユーザ毎に示す図である。
【0039】
図12によれば、上記ユーザ「yvgXgzMfiI8AAD7D」が12時8分28秒、12時10分50秒、12時12分26秒にそれぞれ検索を行ったことがわかる。
【0040】
図13は、図8に示す最小時刻差対検索語同士の関連度との関係に基づいて、検索語同士の関連度を計算し、全てのユーザについて検索語間の関連度を計算した結果の例を示す図である。
【0041】
図14は、検索語「サッカー」と検索語「ワールドカップ」との使用頻度を日毎に示した図である。
【0042】
検索語「サッカー」は、図14の期間(b)に集中して使用され、また、図14の期間(b)において、「サッカー」と関連度の高い語が「ワールドカップ」であるので、「サッカーのワールドカップ」に関係した情報を、ユーザが欲していると判断できる。実際に、図14の期間(a)は、サッカーのワールドカップのアジア予選で日本チームの試合が行われた期間であり、期間(a)と(b)とがほぼ一致している。
【0043】
上記実施例では、最小時刻差に基づいて検索語同士の関連度を求める方法として、図8に示す関係を用いたが、図8に示す関係以外でも、最小時刻差と検索語同士の関連度との関係を定義した計算法であれば、図8に示す関係以外の関係を使用するようにしてもよい。また、図6に示すフローチャート以外のフローチャートによって、検索語同士の最小時刻差を求めるようにしてもよい。
【0044】
上記実施例においては、検索式を検索語に分解するようにしているが、検索式が1つの検索語で構成されている場合には、検索式を分解せずに、その検索式を検索語として扱えばよい。
【0045】
図15は、本発明の他の実施例である情報関連づけ装置IC2を示すブロック図である。
【0046】
情報関連づけ装置IC2は、蓄積されている情報から、所定の検索式を使用して所望の情報を検索する情報検索システムであり、2つの検索語の使用頻度に応じて、その2つの検索語の間における相関係数を求めるものである。また、情報関連づけ装置IC2は、時間別・ユーザ別検索式抽出部40と、検索式分解部50と、検索語集計部60と、相関係数計算部70とを有するものである。
【0047】
時間別・ユーザ別検索式抽出部40は、図2に示す検索記録を時間別・ユーザ別にまとめる手段である。情報関連づけ装置IC2は、1日単位で、その集計を行い、使用された検索式を、日毎・ユーザ毎にまとめる手段である。
【0048】
検索式分解部50は、各検索式を検索語毎に分解し、重複を除くものである。たとえば、図16に示すユーザID1234のユーザが使用した検索式「年賀状」は「年賀状」とに分解され、検索式「お年玉ANDハガキAND抽選」は、「お年玉」と「ハガキ」と「抽選」とに分解され、検索式「年賀状AND抽選」は、「年賀状」と「抽選」とに分解され、これらのうちで、重複している検索語を除くと、結局、検索語は、「年賀状」、「お年玉」、「ハガキ」、「抽選」の4つの検索語になる。
【0049】
検索語集計部60は、日毎・検索語毎の使用頻度を集計する手段である。同一のユーザが使用した検索語の中で重複使用されている検索語は、検索式分解部50で除かれるので、1つの検索語に注目した場合、その検索語の使用頻度の種類の数は、その検索語を使用したユーザ数と等しい。つまり、たとえば10人のユーザが検索語「年賀状」を使用したとすれば、検索語「年賀状」の使用頻度は10種類求められる。換言すれば、そのうちの1人が検索語「年賀状」をたとえ1000回使用したとしても、その1人については、検索語「年賀状」の使用頻度は1種類である。
【0050】
相関係数計算部70は、日毎に集計された各検索語の使用頻度に基づいて、それぞれの時系列間における2つの検索語の相関係数を求めるものである。
【0051】
図16は、情報関連づけ装置IC2において、時間別・ユーザ別検索式抽出部40が出力した結果の例を示す図である。
【0052】
図17は、情報関連づけ装置IC2において、検索式分解部50の出力結果の例を示す図である。
【0053】
図18は、情報関連づけ装置IC2において、検索語集計部60の出力結果の例を示す図である。
【0054】
次に、情報関連づけ装置IC2の動作について説明する。
【0055】
図19は、情報関連づけ装置IC2において、検索語1と検索語2との相関係数Rを求める動作を示すフローチャートである。
【0056】
対象となる期間をn日とし、各日における検索語1の使用回数をC1[1]、C1[2]、…、C1[n]とし、検索語2の使用回数をC2[1]、C2[2]、…、C2[n]とする。
【0057】
まず、検索語1の使用回数の平均値をA1とし、検索語2の使用回数の平均値をA2とし、検索語1の使用回数の平均値A1と、検索語2の使用回数の平均値A2とを求める(S11〜S15)。ここで、日にちの関数をiとし、相関係数Rを求めるための途中の関数をR1、R2とした場合、最初に、i=1、関数R1=0、関数R2=0とする(S16)。
【0058】
次に、(C1[i]−A1)・(C2[i]−A2)と、(C1[i]−A1)・(C1[i]−A1)と、(C2[i]−A2)・(C2[i]−A2)との総和を求め、それぞれを関数R3、R2、R1とする(S17〜S19)。そして、検索語1と検索語2との相関係数Rは、R3/(R1・R2)1/2 によって計算される(S20)。
【0059】
図20は、情報関連づけ装置IC2において、検索語1と検索語2との間における相関係数Rの例を示す図である。
【0060】
次に、情報関連づけ装置IC2を実際の検索記録に適用した場合における動作について説明する。
【0061】
図21は、情報関連づけ装置IC2において、日毎・ユーザ毎に検索記録を2週間分まとめた後に、それぞれの検索語間の相関係数を求めた結果を示す図である。
【0062】
図21によれば、検索語「年賀ハガキ」と「年賀状」との相関係数、検索語「お年玉」と「年賀ハガキ」との相関係数、検索語「当選番号」と「年賀状」との相関係数、検索語「当選番号」と「年賀ハガキ」との相関係数が高いので、これらの検索語は、「お年玉付き年賀ハガキの当選番号」という情報を検索したときに使用された検索語であったと推測できる。
【0063】
また、検索語「道路情報」と「交通情報」と「道路交通情報」等、相関係数の高さに基づいて、実際に要求が強かった情報が何であったかを、容易に推測することができる。
【0064】
つまり、従来のように個々の検索語の使用回数を見ただけでは、実際に要求が強かった情報が何であったかを推測することが困難であるが、相関係数が所定の閾値以上である検索語を所定の基準でグループ化し、その使用回数を集計することによって、実際に要求が強かった情報が何であるかを推測することが容易になる。
【0065】
つまり、検索語をグループ化する上記所定の基準は、次のような基準である。まず、相関係数計算部70が計算した相関係数のうちで、その相関係数が所定の値(たとえば0.93)以上である相関係数を特定相関係数とすると、その特定相関係数が複数存在し、1つの特定相関係数(図21における相関係数が0.96118205122325の相関係数)に対応する2つの検索語(「お年玉」と「年賀状」)のうちの一方の検索語(たとえば「年賀状」)が、他の上記特定相関係数(図21における相関係数が0.95255599585591の相関係数)に対応する一方の検索語(「年賀状」)と同じであれば、上記1つの特定相関係数に対応する2つの検索語(「お年玉」と「年賀状」)と、上記他の特定相関係数に対応する2つの検索語(「年賀ハガキ」と「年賀状」)とを1つのグループにまとめる。すなわち、上記基準によれば、「お年玉」と「年賀状」と「年賀ハガキ」とが1つのグループにまとめられる。また、上記基準によって、芋づる式にまたは枝状に、複数の検索語が1つのグループにまとめられる。
【0066】
上記のように複数の検索語を1つのグループにまとめる検索語まとめ手段が、相関係数計算部70に設けられている。
【0067】
図22は、情報関連づけ装置IC2において、2週間分の検索記録に基づいて、各検索語の使用回数をグラフ化した図である。
【0068】
図21において、たとえば、相関係数Rがたとえば0.93以上(0.93以外の数値以上であってもよい)である2つの検索語は、同一の情報を要求したときに使用された検索語であると考える。そして、上記基準に応じて、相関係数Rが0.93以上である検索語を図21から抜き出すと、検索語「年賀」と「年賀状」と「年賀ハガキ」と「お年玉」と「当選番号」が1つのグループにまとめられる。
【0069】
図22には、各検索語が使用された回数の推移と、それら各検索語が使用された回数を集計した(合計した)ものの推移とを併せて示してある。このように、個々の検索語の使用回数の推移を見ただけでは、強く要求されていた情報が何であるかを認識できないが、個々の検索語の使用回数をまとめたもの(集計したもの)の推移を見ることによって、要求されていた情報のその要求の度合いが顕著に示され、情報の要求の度合が高かったことを容易に把握することができる。
【0070】
図23は、情報関連付け装置IC2において、C1[i]とC2[i]との共分散Cと、それぞれの分散V1とV2とを計算し、C/(V1・V2)1/2 によって、相関係数Rを求める動作を示すフローチャートである。
【0071】
相関係数Rを求める場合、順序列の相関係数を求める計算方法であれば、図23に示すフローチャート等のように、図18に示すフローチャート以外のフローチャートを使用するようにしてもよい。
【0072】
上記各実施例によれば、検索記録に基づいて検索語間の関連度、相関係数を計算しているので、実際のユーザの視点を反映した検索語関係を求めることができる。また、ある特定の期間に限定された検索語間の関連度、相関係数を計算することができるので、ある検索語の使用頻度が通常よりも多かったり少なかったりしたときに、その原因を求めることができる。さらに、特定の情報への要求に使用された異なる検索語をグループ化することができるので、ある期間における情報要求をより正確に把握することができる。
【0073】
【発明の効果】
本発明によれば、多くのユーザが欲している情報が何であるかを、的確にしかも容易に把握することができるという効果を奏する。
【図面の簡単な説明】
【図1】本発明の一実施例である情報関連づけ装置IC1を示すブロック図である。
【図2】情報関連づけ装置IC1に入力された検索記録を示す図である。
【図3】上記実施例において、ユーザ別検索時刻・検索式抽出部10の出力結果の例を示す図である。
【図4】上記実施例における最小時刻差計算部20の一例を示すブロック図である。
【図5】検索式分解部21の出力結果の例を示す図である。
【図6】上記実施例において、検索語1の使用時刻と検索語2の使用時刻との最小時刻差を求める動作を示すフローチャートである。
【図7】上記実施例において、最小時刻差演算部22の出力結果例を示す図である。
【図8】上記実施例において、最小時刻差に基づいて、検索語同士の関連度を求めるグラフである。
【図9】図7に示す最小時刻差演算部22の出力結果を、図8に示す最小時刻差対関連度のグラフに基づいて求めた関連度(ユーザ別)を示す図である。
【図10】図9に示す2つの検索語間の関連度を全てのユーザについて集計したものであり、2つの検索語間の関連度をユーザ毎に加算して求めた検索語間の関連度(全ユーザの集計結果)を示す図である。
【図11】上記実施例における検索記録の例を示す図である。
【図12】上記実施例おいて、集計された検索記録を、ユーザ毎に示す図である。
【図13】図8に示す最小時刻差対検索語同士の関連度との関係に基づいて、検索語同士の関連度を計算し、全てのユーザについて検索語間の関連度を計算した結果の例を示す図である。
【図14】検索語「サッカー」と検索語「ワールドカップ」との使用頻度を日毎に示した図である。
【図15】本発明の他の実施例である情報関連づけ装置IC2のブロック図である。
【図16】情報関連づけ装置IC2において、時間別・ユーザ別検索式抽出部40が出力した結果の例を示す図である。
【図17】情報関連づけ装置IC2において、検索式分解部50の出力結果の例を示す図である。
【図18】情報関連づけ装置IC2において、検索語集計部60の出力結果の例を示す図である。
【図19】情報関連づけ装置IC2において、検索語1と検索語2との相関係数Rを求める動作を示すフローチャートである。
【図20】情報関連づけ装置IC2において、検索語1と検索語2との間における相関係数Rの例を示す図である。
【図21】情報関連づけ装置IC2において、日毎・ユーザ毎に検索記録を2週間分まとめた後に、それぞれの検索語間の相関係数を求めた結果を示す図である。
【図22】情報関連づけ装置IC2において、2週間分の検索記録に基づいて、各検索語の使用回数をグラフ化した図である。
【図23】情報関連付け装置IC2において、C1[i]とC2[i]との共分散Cと、それぞれの分散V1とV2とを計算し、C/(V1・V2)1/2 によって、相関係数Rを求める動作を示すフローチャートである。
【符号の説明】
IC1、IC2…情報関連づけ装置、
10…ユーザ別検索時刻・検索式抽出部、
20…最小時刻差計算部、
21…検索式分解部、
22…最小時刻差演算部、
30…関連度計算・集計部、
40…時間別・ユーザ別検索式抽出部、
50…検索式分解部、
60…検索語集計部、
70…相関係数計算部。
Claims (8)
- 蓄積されている情報から、所定の検索式を使用して所望の情報を検索する情報検索システムにおいて、
過去の所定期間中に行われた検索におけるデータから、検索ユーザ毎に、検索時刻と上記検索式とを抽出するユーザ別検索時刻・検索式抽出手段と;
上記ユーザ別検索時刻・検索式抽出手段が抽出した検索式を検索語に分解する分解手段と;
上記分解された複数の検索語が使用された時刻と、上記分解された複数の検索語のうちの別の検索語が使用された時刻との時刻差のうちの最小値である最小時刻差を、上記検索ユーザ毎に計算する最小時刻差計算手段と;
所定の検索ユーザにおける上記最小時刻差に基づいて、上記最小時刻差に対応する上記1つの検索語と上記別の検索語との関連度を、上記所定の検索ユーザ毎に計算し、複数の上記検索ユーザについて計算された上記関連度を集計する関連度計算・集計手段と;
を有することを特徴とする情報関連づけ装置。 - 請求項1において、
上記最小時刻差計算手段は、上記検索式を検索語に分解し、上記分解された検索語のうちの1つの検索語が使用された時刻と、上記分解された検索語のうちの別の検索語が使用された時刻との時刻差のうちの最小値である最小時刻差を、上記検索ユーザ毎に計算する手段であり、
上記関連度計算・集計手段は、所定の検索ユーザにおける上記最小時刻差に基づいて、上記最小時刻差に対応する上記1つの検索語と上記別の検索語との関連度を、上記所定の検索ユーザ毎に計算し、複数の上記検索ユーザについて計算された上記関連度を集計する手段であることを特徴とする情報関連づけ装置。 - 蓄積されている情報から、所定の検索式を使用して所望の情報を検索する情報検索システムにおいて、
過去の所定期間中に行われた検索におけるデータから、所定時間毎に検索ユーザ毎に、上記検索式を抽出する時間別・ユーザ別検索式抽出手段と;
上記検索ユーザ毎に、上記検索式を検索語へ分解する検索式分解手段と;
上記所定時間毎における上記各検索語の使用回数を上記検索ユーザ毎に計算し、上記検索ユーザ毎に計算された各検索語の使用回数を、全ての上記検索ユーザについて集計する検索語集計手段と;
上記集計された上記所定時間毎における上記各検索語の使用回数に基づいて、2つの検索語相互間の相関係数を計算する相関係数計算手段と;
を有することを特徴とする情報関連づけ装置。 - 請求項3において、
上記相関係数計算手段が計算した上記相関係数のうちで、上記相関係数が所定の値以上である特定相関係数が複数存在する場合、1つの上記特定相関係数に対応する2つの検索語のうちの一方の検索語が、他の上記特定相関係数に対応する一方の検索語と同じであれば、上記1つの特定相関係数に対応する2つの検索語と、上記他の特定相関係数に対応する2つの検索語とを1つのグループにまとめる検索語まとめ手段を有することを特徴とする情報関連づけ装置。 - 請求項3において、
上記検索式分解手段は、1つの上記ユーザにおいて、同一の検索語について重複を除く手段であることを特徴とする情報関連づけ装置。 - 蓄積されている情報から、所定の検索式を使用して所望の情報を検索する情報検索方法において、
過去の所定期間中に行われた検索におけるデータから、検索ユーザ毎に、検索時刻と上記検索式とを抽出するユーザ別検索時刻・検索式抽出段階と;
上記ユーザ別検索時刻・検索式抽出段階で抽出した検索式を検索語に分解する分解段階と;
上記分解された複数の検索語が使用された時刻と、上記分解された複数の検索語のうちの別の検索語が使用された時刻との時刻差のうちの最小値である最小時刻差を、上記検索ユーザ毎に計算する最小時刻差計算段階と;
所定の検索ユーザにおける上記最小時刻差に基づいて、上記最小時刻差に対応する上記1つの検索語と上記別の検索語との関連度を、上記所定の検索ユーザ毎に計算し、複数の上記検索ユーザについて計算された上記関連度を集計する関連度計算・集計段階と;
を有することを特徴とする情報関連づけ方法。 - 請求項6において、
上記最小時刻差計算段階は、上記検索式を検索語に分解し、上記分解された検索語のうちの1つの検索語が使用された時刻と、上記分解された検索語のうちの別の検索語が使用された時刻との時刻差のうちの最小値である最小時刻差を、上記検索ユーザ毎に計算する段階であり、
上記関連度計算・集計段階は、所定の検索ユーザにおける上記最小時刻差に基づいて、上記最小時刻差に対応する上記1つの検索語と上記別の検索語との関連度を、上記所定の検索ユーザ毎に計算し、複数の上記検索ユーザについて計算された上記関連度を集計する段階であることを特徴とする情報関連づけ方法。 - 蓄積されている情報から、所定の検索式を使用して所望の情報を検索する情報検索方法において、
過去の所定期間中に行われた検索におけるデータから、所定時間毎に検索ユーザ毎に、上記検索式を抽出する時間別・ユーザ別検索式抽出段階と;
上記検索ユーザ毎に、上記検索式を検索語へ分解する検索式分解段階と;
上記所定時間毎における上記各検索語の使用回数を上記検索ユーザ毎に計算し、上記検索ユーザ毎に計算された各検索語の使用回数を、全ての上記検索ユーザについて集計する検索語集計段階と;
上記集計された上記所定時間毎における上記各検索語の使用回数に基づいて、2つの検索語相互間の相関係数を計算する相関係数計算段階と;
を有することを特徴とする情報関連づけ方法。
Priority Applications (2)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
JP14851997A JP3547069B2 (ja) | 1997-05-22 | 1997-05-22 | 情報関連づけ装置およびその方法 |
US09/083,690 US6065001A (en) | 1997-05-22 | 1998-05-21 | Information associating apparatus and method |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
JP14851997A JP3547069B2 (ja) | 1997-05-22 | 1997-05-22 | 情報関連づけ装置およびその方法 |
Publications (2)
Publication Number | Publication Date |
---|---|
JPH10320419A JPH10320419A (ja) | 1998-12-04 |
JP3547069B2 true JP3547069B2 (ja) | 2004-07-28 |
Family
ID=15454598
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
JP14851997A Expired - Lifetime JP3547069B2 (ja) | 1997-05-22 | 1997-05-22 | 情報関連づけ装置およびその方法 |
Country Status (2)
Country | Link |
---|---|
US (1) | US6065001A (ja) |
JP (1) | JP3547069B2 (ja) |
Cited By (2)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
US8533150B2 (en) | 2006-09-13 | 2013-09-10 | Fujitsu Limited | Search index generation apparatus |
US8595229B2 (en) | 2006-07-28 | 2013-11-26 | Fujitsu Limited | Search query generator apparatus |
Families Citing this family (53)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
US6144958A (en) * | 1998-07-15 | 2000-11-07 | Amazon.Com, Inc. | System and method for correcting spelling errors in search queries |
US6381594B1 (en) * | 1999-07-12 | 2002-04-30 | Yahoo! Inc. | System and method for personalized information filtering and alert generation |
US6360221B1 (en) | 1999-09-21 | 2002-03-19 | Neostar, Inc. | Method and apparatus for the production, delivery, and receipt of enhanced e-mail |
US9092535B1 (en) | 1999-09-21 | 2015-07-28 | Google Inc. | E-mail embedded textual hyperlink object |
US6963863B1 (en) * | 1999-09-28 | 2005-11-08 | Thomas Bannon | Network query and matching system and method |
US6480837B1 (en) * | 1999-12-16 | 2002-11-12 | International Business Machines Corporation | Method, system, and program for ordering search results using a popularity weighting |
CN1146821C (zh) * | 2000-02-21 | 2004-04-21 | 国际商业机器公司 | 面向用户的数据库查询方法及系统 |
US7136880B2 (en) * | 2000-07-20 | 2006-11-14 | Market Models, Inc. | Method and apparatus for compiling business data |
JP2003006195A (ja) * | 2001-06-21 | 2003-01-10 | Nec System Technologies Ltd | キーワード情報通知方式及びその方法 |
KR100877461B1 (ko) * | 2001-12-28 | 2009-01-07 | 인터내셔널 비지네스 머신즈 코포레이션 | 실시간 데이터 웨어하우징 |
JP2003216634A (ja) * | 2002-01-28 | 2003-07-31 | Ricoh Techno Systems Co Ltd | 情報検索システム |
EP1563628A4 (en) * | 2002-11-06 | 2010-03-10 | Ibm | COMMON USE OF CONFIDENTIAL DATA AND RESOLUTION OF ANONYTE ENTITIES |
US8620937B2 (en) | 2002-12-27 | 2013-12-31 | International Business Machines Corporation | Real time data warehousing |
WO2004061668A1 (en) * | 2002-12-31 | 2004-07-22 | International Business Machines Corporation | Authorized anonymous authentication |
US7200602B2 (en) * | 2003-02-07 | 2007-04-03 | International Business Machines Corporation | Data set comparison and net change processing |
WO2004097596A2 (en) * | 2003-03-24 | 2004-11-11 | Systems Research & Development | Secure coordinate identification method, system and program |
JP4471737B2 (ja) * | 2003-10-06 | 2010-06-02 | 日本電信電話株式会社 | グループ化条件決定装置と方法およびそれを用いたキーワード拡張装置と方法ならびにコンテンツ検索システムおよびコンテンツ情報提供システムと方法ならびにプログラム |
US7734631B2 (en) * | 2005-04-25 | 2010-06-08 | Microsoft Corporation | Associating information with an electronic document |
JP4773761B2 (ja) * | 2005-07-25 | 2011-09-14 | ヤフー株式会社 | 情報検索サーバー、情報検索方法、情報検索プログラム |
US7321892B2 (en) * | 2005-08-11 | 2008-01-22 | Amazon Technologies, Inc. | Identifying alternative spellings of search strings by analyzing self-corrective searching behaviors of users |
JP2007188225A (ja) * | 2006-01-12 | 2007-07-26 | Yafoo Japan Corp | 要約文抽出システム |
US7953740B1 (en) * | 2006-02-13 | 2011-05-31 | Amazon Technologies, Inc. | Detection of behavior-based associations between search strings and items |
US8024235B2 (en) | 2006-06-21 | 2011-09-20 | Microsoft Corporation | Automatic search functionality within business applications |
CN100524307C (zh) * | 2006-06-27 | 2009-08-05 | 国际商业机器公司 | 一种建立文档间关联关系的方法和装置 |
US7779003B2 (en) * | 2006-07-17 | 2010-08-17 | Siemens Medical Solutions Usa, Inc. | Computerized search system for medication and other items |
US8204831B2 (en) * | 2006-11-13 | 2012-06-19 | International Business Machines Corporation | Post-anonymous fuzzy comparisons without the use of pre-anonymization variants |
JP4656330B2 (ja) * | 2006-12-15 | 2011-03-23 | 一般財団法人工業所有権協力センター | 類義語統合システム |
JP4899128B2 (ja) * | 2007-03-16 | 2012-03-21 | 一般財団法人工業所有権協力センター | 関連語統合システム |
JP5241828B2 (ja) * | 2007-06-14 | 2013-07-17 | グーグル・インコーポレーテッド | 辞書の単語及び熟語の判定 |
JP2009064391A (ja) * | 2007-09-10 | 2009-03-26 | Sharp Corp | キーワード抽出装置、キーワード抽出方法、キーワード抽出プログラム、および、キーワード抽出プログラムを記録した記録媒体 |
KR100913051B1 (ko) | 2007-09-18 | 2009-08-20 | 엔에이치엔(주) | 연관 급상승어 검색 방법 및 그 시스템 |
US8447778B2 (en) | 2007-11-15 | 2013-05-21 | Siemens Medical Solutions Usa, Inc. | Adaptively optimizing order entry system |
JP2009223844A (ja) * | 2008-03-19 | 2009-10-01 | Nippon Telegr & Teleph Corp <Ntt> | 関連情報検索装置、関連情報検索方法、関連情報検索プログラムおよびそのプログラムを記録した記録媒体 |
JP5354981B2 (ja) * | 2008-07-14 | 2013-11-27 | キヤノン株式会社 | 文書管理装置、文書管理方法及びプログラム |
US8751559B2 (en) * | 2008-09-16 | 2014-06-10 | Microsoft Corporation | Balanced routing of questions to experts |
JP5387578B2 (ja) * | 2008-09-24 | 2014-01-15 | 日本電気株式会社 | 情報分析装置、情報分析方法、及びプログラム |
US8612202B2 (en) | 2008-09-25 | 2013-12-17 | Nec Corporation | Correlation of linguistic expressions in electronic documents with time information |
US9195739B2 (en) * | 2009-02-20 | 2015-11-24 | Microsoft Technology Licensing, Llc | Identifying a discussion topic based on user interest information |
US8463769B1 (en) | 2009-09-16 | 2013-06-11 | Amazon Technologies, Inc. | Identifying missing search phrases |
JP5273735B2 (ja) * | 2009-10-13 | 2013-08-28 | 日本電信電話株式会社 | テキスト要約方法、その装置およびプログラム |
JP5208232B2 (ja) * | 2011-02-23 | 2013-06-12 | ヤフー株式会社 | クエリ抽出装置及び方法 |
JP5993938B2 (ja) | 2011-04-30 | 2016-09-21 | ヴイエムウェア インコーポレイテッドVMware,Inc. | コンピュータリソースのエンタイトルメントおよびプロビジョニングのためのグループの動的管理 |
WO2012176374A1 (ja) * | 2011-06-21 | 2012-12-27 | 日本電気株式会社 | 数値範囲検索装置、数値範囲検索方法、および数値範囲検索プログラム |
JP6394388B2 (ja) * | 2012-03-30 | 2018-09-26 | 日本電気株式会社 | 同義関係判定装置、同義関係判定方法、及びそのプログラム |
US9805124B2 (en) * | 2013-04-25 | 2017-10-31 | Microsoft Technology Licensing, Llc | Automatic generation of a collection of content |
JP5950282B2 (ja) * | 2013-05-13 | 2016-07-13 | インターナショナル・ビジネス・マシーンズ・コーポレーションInternational Business Machines Corporation | ユーザインターフェースを生成する装置及び方法 |
EP3151131A1 (en) * | 2015-09-30 | 2017-04-05 | Hitachi, Ltd. | Apparatus and method for executing an automated analysis of data, in particular social media data, for product failure detection |
JP6946050B2 (ja) * | 2017-05-18 | 2021-10-06 | ヤフー株式会社 | 生成装置、生成方法および生成プログラム |
JP6866266B2 (ja) * | 2017-09-15 | 2021-04-28 | ヤフー株式会社 | 生成装置、生成方法、及び生成プログラム |
JP7192507B2 (ja) * | 2019-01-09 | 2022-12-20 | 富士フイルムビジネスイノベーション株式会社 | 情報処理装置、及び情報処理プログラム |
CN111259173B (zh) * | 2020-01-19 | 2023-03-21 | 北京字节跳动网络技术有限公司 | 一种搜索信息推荐方法及装置 |
KR102491077B1 (ko) * | 2020-08-10 | 2023-01-20 | 네이버 주식회사 | 실시간 이슈에 대한 스포츠 팀 랭킹 제공 방법 및 시스템 |
JP6990757B1 (ja) * | 2020-11-19 | 2022-01-12 | ヤフー株式会社 | 生成装置、生成方法及び生成プログラム |
Family Cites Families (4)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
US5371885A (en) * | 1989-08-29 | 1994-12-06 | Microsoft Corporation | High performance file system |
JP3168479B2 (ja) * | 1992-05-01 | 2001-05-21 | 日本電信電話株式会社 | 時間変動する情報に対応する情報の蓄積及び検索方法 |
JP3525948B2 (ja) * | 1994-05-31 | 2004-05-10 | 富士通株式会社 | 情報検索装置 |
US5826253A (en) * | 1995-07-26 | 1998-10-20 | Borland International, Inc. | Database system with methodology for notifying clients of any additions, deletions, or modifications occurring at the database server which affect validity of a range of data records cached in local memory buffers of clients |
-
1997
- 1997-05-22 JP JP14851997A patent/JP3547069B2/ja not_active Expired - Lifetime
-
1998
- 1998-05-21 US US09/083,690 patent/US6065001A/en not_active Expired - Lifetime
Cited By (2)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
US8595229B2 (en) | 2006-07-28 | 2013-11-26 | Fujitsu Limited | Search query generator apparatus |
US8533150B2 (en) | 2006-09-13 | 2013-09-10 | Fujitsu Limited | Search index generation apparatus |
Also Published As
Publication number | Publication date |
---|---|
US6065001A (en) | 2000-05-16 |
JPH10320419A (ja) | 1998-12-04 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
JP3547069B2 (ja) | 情報関連づけ装置およびその方法 | |
Callan et al. | Query-based sampling of text databases | |
Ganesan et al. | Exploiting hierarchical domain structure to compute similarity | |
US6389412B1 (en) | Method and system for constructing integrated metadata | |
CN101408886B (zh) | 通过分析文档的段落来选择该文档的标签 | |
US8180785B2 (en) | Method and system for searching numerical terms | |
US6363379B1 (en) | Method of clustering electronic documents in response to a search query | |
US7693704B2 (en) | Automated system and method for generating reasons that a court case is cited | |
US20070033229A1 (en) | System and method for indexing structured and unstructured audio content | |
Chan | Constructing web user profiles: a non-invasive learning approach | |
US7849070B2 (en) | System and method for dynamically ranking items of audio content | |
US20070250319A1 (en) | Song feature quantity computation device and song retrieval system | |
Schedl et al. | Hybrid retrieval approaches to geospatial music recommendation | |
CA2471592A1 (en) | Systems, methods and software for hyperlinking names | |
CN104008171A (zh) | 一种法律数据库构建方法及法律检索服务方法 | |
US8838580B2 (en) | Method and system for providing keyword ranking using common affix | |
Hemayati et al. | Semantic-based grouping of search engine results using WordNet | |
US8005827B2 (en) | System and method for accessing preferred provider of audio content | |
JP2003173352A (ja) | 検索ログ解析方法および装置、文書情報検索方法および装置、検索ログ解析プログラム、文書情報検索プログラム、および記録媒体 | |
WO1998049632A1 (en) | System and method for entity-based data retrieval | |
JP4569380B2 (ja) | ベクトル生成方法及び装置及びカテゴリ分類方法及び装置及びプログラム及びプログラムを格納したコンピュータ読み取り可能な記録媒体 | |
JP3547074B2 (ja) | データ検索方法、その装置および記録媒体 | |
AT&T | ||
JP3715413B2 (ja) | 類似文書検索装置および類似文書検索方法 | |
Salem et al. | A multiple-domain ontology builder |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
A521 | Request for written amendment filed |
Free format text: JAPANESE INTERMEDIATE CODE: A523 Effective date: 20040210 |
|
TRDD | Decision of grant or rejection written | ||
A01 | Written decision to grant a patent or to grant a registration (utility model) |
Free format text: JAPANESE INTERMEDIATE CODE: A01 Effective date: 20040409 |
|
A61 | First payment of annual fees (during grant procedure) |
Free format text: JAPANESE INTERMEDIATE CODE: A61 Effective date: 20040409 |
|
R150 | Certificate of patent or registration of utility model |
Free format text: JAPANESE INTERMEDIATE CODE: R150 |
|
FPAY | Renewal fee payment (event date is renewal date of database) |
Free format text: PAYMENT UNTIL: 20090423 Year of fee payment: 5 |
|
FPAY | Renewal fee payment (event date is renewal date of database) |
Free format text: PAYMENT UNTIL: 20090423 Year of fee payment: 5 |
|
FPAY | Renewal fee payment (event date is renewal date of database) |
Free format text: PAYMENT UNTIL: 20100423 Year of fee payment: 6 |
|
FPAY | Renewal fee payment (event date is renewal date of database) |
Free format text: PAYMENT UNTIL: 20100423 Year of fee payment: 6 |
|
FPAY | Renewal fee payment (event date is renewal date of database) |
Free format text: PAYMENT UNTIL: 20110423 Year of fee payment: 7 |
|
FPAY | Renewal fee payment (event date is renewal date of database) |
Free format text: PAYMENT UNTIL: 20120423 Year of fee payment: 8 |
|
FPAY | Renewal fee payment (event date is renewal date of database) |
Free format text: PAYMENT UNTIL: 20130423 Year of fee payment: 9 |
|
FPAY | Renewal fee payment (event date is renewal date of database) |
Free format text: PAYMENT UNTIL: 20140423 Year of fee payment: 10 |
|
S531 | Written request for registration of change of domicile |
Free format text: JAPANESE INTERMEDIATE CODE: R313531 |
|
R350 | Written notification of registration of transfer |
Free format text: JAPANESE INTERMEDIATE CODE: R350 |
|
EXPY | Cancellation because of completion of term |