JP2008310811A - Information retrieval system, information retrieval method and information retrieval server - Google Patents
Information retrieval system, information retrieval method and information retrieval server Download PDFInfo
- Publication number
- JP2008310811A JP2008310811A JP2008129782A JP2008129782A JP2008310811A JP 2008310811 A JP2008310811 A JP 2008310811A JP 2008129782 A JP2008129782 A JP 2008129782A JP 2008129782 A JP2008129782 A JP 2008129782A JP 2008310811 A JP2008310811 A JP 2008310811A
- Authority
- JP
- Japan
- Prior art keywords
- search
- matrix
- information
- server
- dimensional
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Granted
Links
- 238000000034 method Methods 0.000 title claims abstract description 33
- 239000011159 matrix material Substances 0.000 claims abstract description 143
- 239000013598 vector Substances 0.000 claims description 53
- 230000005540 biological transmission Effects 0.000 abstract description 6
- 238000004891 communication Methods 0.000 abstract description 2
- 230000006870 function Effects 0.000 description 22
- 230000007246 mechanism Effects 0.000 description 7
- 238000012545 processing Methods 0.000 description 7
- 238000005516 engineering process Methods 0.000 description 6
- 238000004364 calculation method Methods 0.000 description 4
- 238000010586 diagram Methods 0.000 description 3
- 241000556720 Manga Species 0.000 description 2
- 230000008859 change Effects 0.000 description 2
- 150000001875 compounds Chemical class 0.000 description 2
- 230000006855 networking Effects 0.000 description 2
- 230000008569 process Effects 0.000 description 2
- 241001385733 Aesculus indica Species 0.000 description 1
- 239000004235 Orange GGN Substances 0.000 description 1
- 238000003491 array Methods 0.000 description 1
- 238000007796 conventional method Methods 0.000 description 1
- 238000010411 cooking Methods 0.000 description 1
- 230000002498 deadly effect Effects 0.000 description 1
- 230000000694 effects Effects 0.000 description 1
- 238000011156 evaluation Methods 0.000 description 1
- 239000000284 extract Substances 0.000 description 1
- 238000000605 extraction Methods 0.000 description 1
- 239000004137 magnesium phosphate Substances 0.000 description 1
- 230000008707 rearrangement Effects 0.000 description 1
- 230000007115 recruitment Effects 0.000 description 1
- 230000003068 static effect Effects 0.000 description 1
Images
Landscapes
- Information Retrieval, Db Structures And Fs Structures Therefor (AREA)
Abstract
Description
本発明は、汎用ネットワークを介した情報検索に適用して有効な技術である。 The present invention is a technology effective when applied to information retrieval via a general-purpose network.
汎用ネットワークであるインターネット上での検索システムとしては、google.com等の検索エンジンと呼ばれている検索サーバシステムが知られている。 As a search system on the Internet, which is a general-purpose network, a search server system called a search engine such as google.com is known.
このような検索エンジンにおいては、検索結果として表示される情報の一覧の表示順位は、当該情報が格納されているアドレス(URL:Uniform Resorce Locator)への他サ
イトからのリンク数、その情報が検索される頻度、および情報が更新される頻度などの要素から総合的に決定されているといわれているが、これらの要素は検索ユーザが期待する検索条件との一致度とは関係ない要素が大半を占めている場合が多い。
In such a search engine, the display order of the list of information displayed as a search result is the number of links from other sites to the address (URL: Uniform Resorce Locator) where the information is stored, and the information is searched. It is said that it is determined comprehensively based on factors such as the frequency at which information is updated and the frequency at which information is updated, but most of these factors are not related to the degree of match with the search conditions expected by the search user. In many cases.
情報受信者としての検索ユーザが、閲覧される頻度が高い情報(人気のあるサイト)を求めている場合には問題ないが、人気はなくても、ある特殊な条件に合致する情報を上位に表示して欲しいと求めている場合には、これまでの技術では十分な満足を得られない。 There is no problem when a search user as an information receiver requests information (a popular site) that is frequently viewed, but information that meets certain special conditions is ranked higher even if it is not popular. If you want to display, you can't get enough satisfaction with the technology so far.
また、検索の結果、表示対象となるか否かという点についても、単純なキーワードの羅列による検索を行った場合、表示対象となるのは、検索ユーザが入力したキーワードの全てに一致したものだけである。 In addition, as to whether or not the search target is displayed as a result of the search, when a simple keyword enumeration is performed, only the keywords that match all the keywords entered by the search user are displayed. It is.
たとえばキーワードを3個入力したときには何百件もの情報がヒットしたにもかかわらず、キーワードを1個増やして4個にした途端、ヒットする情報がゼロになってしまうというのも、よくあることである。 For example, when you enter three keywords, it is common that hundreds of information hits, but as soon as you increase one keyword to four, the hit information becomes zero. It is.
しかし、キーワードを1個増やした結果、不一致となり、検索結果から外れてしまった情報の中に、実は検索ユーザが最も求めている情報が存在する可能性も高い。 However, as a result of adding one keyword, there is a high possibility that the information that the search user most demands is actually present in the information that is inconsistent and is out of the search result.
ここで、検索条件を指定する際に、キーワード同士をAND条件(論理積)やOR条件(論理和)を組み合わせて、ある程度複雑な検索条件を指定することは可能である。しかし、これらの複合条件を正確に記述するには、論理式を組み立てるための高度な論理能力が必要であり、サーチャーと呼ばれる専門家の領域にまで検索に熟練する必要がある。 Here, when specifying the search condition, it is possible to specify a search condition that is somewhat complicated by combining the keywords with an AND condition (logical product) or an OR condition (logical sum). However, in order to accurately describe these compound conditions, it is necessary to have a high level of logical ability to assemble a logical expression, and it is necessary to be proficient in searching even to an expert area called a searcher.
そもそも、一般の検索ユーザが求める情報は、検索を行う時点では、どのキーワードをどのように組み合わせれば、自分が最も期待している情報にたどり着くのかが明確ではない場合も多く、仮に複雑な論理式による複合条件を指定して検索したとしても、本来希望していた検索結果は、必ずしも正確に復号条件に完全に合致するものに限られるわけではなく、いくつかの条件には合致していなくても表示対象から除外して欲しくないものも存在していたはずである。 In the first place, the information required by general search users is often not clear at the time of searching which keyword is combined and how to get to the information that is most expected. Even if you search by specifying a compound condition with an expression, the search result you originally wanted is not necessarily limited to exactly exactly the decryption condition, but it does not match some conditions. However, there should have been something that you do not want to exclude from the display.
一方、検索エンジンの検索対象となる情報発信側の特性も考慮されなければならない。 On the other hand, the characteristics of the information transmission side to be searched by the search engine must also be considered.
すなわち、電子掲示板への書き込みをはじめとして、近年はブログやSNS(ソーシャル・ネットワーキング・サービス)の普及により、以前に比べて情報発信を行うネットワークユーザが増えてきてはいるが、それでも、インターネット全体の利用者からみると、それほど大きな比率とはいえない。 In other words, with the spread of blogs and social networking services (SNS) in recent years, such as writing on electronic bulletin boards, the number of network users who send out information has increased compared to before. From the user's point of view, it's not that big.
ネットワークユーザが自らは情報発信を行わないのは、そのような必要性を感じていないからだという考え方もありうるが、見方を変えると、情報を他人に公開できるような形までまとめあげるのが難しかったり面倒だったりする点もあると考えられる。 There may be an idea that network users do not send information themselves because they do not feel such a necessity, but it is difficult to summarize the information so that it can be disclosed to others by changing the way of view. It may be troublesome.
以前は、インターネット上で情報発信しようと思えば、ホームページを作成して、自らのサイトを持つ必要があったが、ブログやSNSの登場によって、ホームページの画面レイアウトなどは、必ずしも自らが行う必要はなくなった。 Previously, if you wanted to send information on the Internet, you had to create a homepage and have your own site, but with the advent of blogs and SNSs, it is not always necessary for you to do the screen layout of your homepage. lost.
とはいっても、イラストや動画のサイトを別にすれば、依然として「文章」が、情報発信には不可欠の要素である。文章を書くことに抵抗のない人、それなりに他人に見せられる文章をかけるという自信のある人でないと、インターネット上で自ら情報を発信しようという気には、なかなかならないのが現実といえる。 However, apart from illustration and video sites, “text” is still an essential element for information transmission. Unless you are a person who has no resistance to writing, or a person who is confident that you can write a sentence that can be shown to others, it can be said that the reality is that it will be difficult to send information on the Internet.
なお、キーワードの先頭から検索する文字を入力するごとに候補文字を絞り込む絞り込み検索を高速に実行できるようにする技術として特開2007−11438号公報(特許文献1)があるが、人名や住所などのキーワード文字列を格納するデータに対して、そのキーワードの文字単位に、該当するデータ件数と、その文字に続く次候補文字情報を持つようにインデクスを構成するものにすぎず、ユーザの意図する検索結果を考慮して工夫された技術ではなかった。
本発明は、前記のような点に鑑みてなされたものであり、益々増加する傾向にあるインターネットユーザに対して、検索ユーザに対しては従来の検索エンジンによる完全一致型の検索出力ではなく、検索ユーザの検索意図を反映した検索結果を出力できる技術を提供し、情報提供ユーザに対しては、簡易に情報発信が可能でかつその情報発信によって発信者が意図した検索ユーザに索出されやすく、それによってユーザ同士のコミュニケーションが円滑になる情報発信技術を提供することを技術的課題とする。 The present invention has been made in view of the above-mentioned points, and for Internet users who tend to increase more and more, search users are not completely matched search outputs by conventional search engines, Provide a technology that can output search results that reflect the search user's search intentions. Information can be easily transmitted to information providing users, and the information can be easily searched by the search user intended by the caller. Therefore, it is a technical problem to provide an information transmission technology that facilitates communication between users.
前記課題を解決するために、本発明では、以下の手段を採用した。 In order to solve the above problems, the present invention employs the following means.
本発明は、データの組み合わせからなる登録マトリクスを蓄積するサーバと、ネットワークと、ネットワークを介して接続される検索ユーザ端末とからなり、前記サーバに蓄積されたデータの組み合わせからなる登録マトリクスに対して、ネットワークを介して接続されるユーザ端末より入力されたデータの組み合わせからなる検索マトリクスを送信し、前記サーバにおいて、前記で入力された検索マトリクスと前記登録マトリクスと照合してマトリクス同士の相似性により検索結果を出力し、前記検索ユーザ端末に送信する情報検索システムである。 The present invention comprises a server for storing a registration matrix consisting of a combination of data, a network, and a search user terminal connected via the network, and a registration matrix consisting of a combination of data stored in the server. , Transmitting a search matrix composed of a combination of data input from user terminals connected via a network, and comparing the search matrix input in the above and the registration matrix in the server according to the similarity between the matrices An information search system that outputs search results and transmits the search results to the search user terminal.
また、この情報検索システムは、情報検索サーバまたは情報検索サーバにおける情報検索方法としても実現可能である。 The information search system can also be realized as an information search server or an information search method in the information search server.
ここで、前記登録マトリクスと検索マトリクスとは、ジャンルと、テーマと、前記テーマに関連する2以上のキーワードとで構成されている。 Here, the registration matrix and the search matrix are composed of a genre, a theme, and two or more keywords related to the theme.
ただし、このような3つのデータ構造に限定される必要はない。たとえば、テーマの下にサブテーマが追加されこのサブテーマの下にキーワードが配置されていてもよい。 However, it is not necessary to be limited to these three data structures. For example, a sub theme may be added under the theme, and a keyword may be placed under the sub theme.
また、前記登録マトリクスと検索マトリクスとの照合において、互いのキーワードが一致している個数が多いテーマは一致ポイントが高いと評価して、相似性が高いと判定する。 Further, in the matching between the registration matrix and the search matrix, themes having a large number of matching keywords are evaluated as having high matching points, and are judged to have high similarity.
さらに、前記一致している個数をnとし、所定パラメータ(マトリクスの項の要素個数)のn乗を一致ポイントとして算出すればよい。 Further, the number of coincidence may be set as n, and the nth power of a predetermined parameter (number of elements in a matrix term) may be calculated as a coincidence point.
ここで、情報の検索という行為の本質について考えてみた場合、検索ユーザは検索を行っている時点では、その求める情報についての完全な知識を持ってはいないという点に着目すべきである。なぜなら、既に完全な知識を有しているのならば、そのような情報を求めて検索を行う必要性が存在しないからである。その意味では、検索ユーザが検索を行っている時点での知識と、求めている情報の内容がイコールということは、本質的にあり得ないのである。 Here, when considering the essence of the act of searching for information, it should be noted that the searching user does not have complete knowledge about the information to be searched at the time of searching. This is because, if you already have complete knowledge, there is no need to search for such information. In that sense, the knowledge at the time when the search user is searching and the content of the requested information are essentially impossible.
情報検索という行為は、検索ユーザがその時点で有している知識を元に、その時点での要求に最も近い情報を探すことなのであるから、検索ユーザが検索のために指定される知識内容と、求めている情報の内容は、=(イコール)の関係ではなく、≒(近似値)の関係にある。にもかかわらず、従来の検索技術においては、論理的な条件の一致(最終的に真か偽かという二者択一)による絞込みの方法がとられていたため、検索ユーザが最も期待する情報を探してくれるという機能においては、限界が生じていたのである。すなわち、「一致ポイント」は、「登録マトリクス」と「検索マトリクス」の相似性という観点からみて、その希少性を測る指標としての機能を持つ。 The act of information search is to search for information closest to the request at that time based on the knowledge that the search user has at that time. The content of the information that is sought is not an equal (equal) relationship but an approximate (approximate) relationship. Nevertheless, in the conventional search technology, a method of narrowing down by matching logical conditions (an alternative of true or false in the end) has been adopted, so the information that the search user expects most is There was a limit to the function of searching. That is, the “match point” has a function as an index for measuring the rarity from the viewpoint of similarity between the “registration matrix” and the “search matrix”.
このように、本発明における情報検索は、従来の技術とは異なり、「登録マトリクス」と「検索マトリクス」の照合という方法により、検索時点での知識と求める情報とが「似ている」ことを最優先とすることを可能とした方式であり、また、たとえ閲覧される頻度が少ない登録情報であっても、たまたまそれに相似した情報を求めている検索ユーザが存在する場合には、容易にそれを見つけ出すことを可能とする方法である。 As described above, the information search in the present invention is different from the conventional technique in that the knowledge at the time of search and the information to be searched are “similar” by the method of matching the “registration matrix” and the “search matrix”. It is a method that enables the highest priority, and even if registered information is viewed less frequently, it is easy to do so if there is a search user who happens to seek similar information. It is a method that makes it possible to find out.
検索結果は、相似性の高い順番に表示されるため、以後の記述ではこの検索方式を「OLL(Order that Looks Like)検索方式」と呼ぶ。 Since the search results are displayed in order of high similarity, this search method is referred to as an “OLL (Order that Looks Like) search method” in the following description.
なお、このOLL検索方式ではマトリクスを生成するための検索エンジンは汎用の検索サイトで用いられている既存の検索エンジン(サーバの検索プログラム)であってもよい。 In this OLL search method, a search engine for generating a matrix may be an existing search engine (server search program) used in a general-purpose search site.
本発明によれば、「登録マトリクス」と「検索マトリクス」とを照合する、いわゆるOLL検索方式を実現することによって、検索時点での知識と求める情報とが「似ている」ことを最優先した検索が可能となり、たとえ閲覧される頻度が少ない登録情報であっても、たまたまそれに相似した情報を求めている検索ユーザが存在する場合には、容易にそれを見つけ出すことが可能となる。 According to the present invention, by realizing a so-called OLL search method that collates a “registration matrix” with a “search matrix”, the priority is given to “similar” between the knowledge at the time of search and the information that is sought. Search can be performed, and even if registered information is browsed less frequently, if there is a search user who happens to request similar information, it can be easily found.
本実施形態は、インターネット上における会員登録制の情報登録・検索システムである。 This embodiment is a member registration system information registration / retrieval system on the Internet.
図14および図15を用いて、本実施形態の情報登録・検索システムの構成について説明する。 The configuration of the information registration / retrieval system according to the present embodiment will be described with reference to FIGS. 14 and 15.
同図に示すように、本システムはサーバ(SV)と、ネットワーク(NW)と、前記ネットワーク(NW)を介して前記サーバ(NW)と接続されるユーザ端末(UT1,UT2)とで構成されている。 As shown in the figure, this system includes a server (SV), a network (NW), and user terminals (UT1, UT2) connected to the server (NW) via the network (NW). ing.
サーバ(SV)は、汎用のネットワーク接続可能なコンピュータで構成されており、ここでは、Webサーバ、アプリケーションサーバ、データベースサーバの機能を併せ持ったものとして説明するが、これらの機能毎に別個にサーバが構築されていてもよいことはいうまでもない。 The server (SV) is composed of a general-purpose network-connectable computer. Here, the server (SV) is described as having the functions of a Web server, an application server, and a database server. However, a server is separately provided for each of these functions. Needless to say, it may be constructed.
サーバ(SV)は図15に示すように、中央処理装置(CPU)およびメインメモリ(MM)を中心にバス(BUS)を介して接続される、大規模記憶装置としてのハードディスク装置(HD)、入力装置としてのキーボード(KBD)、出力装置としてのディスプレイ装置(DISP)を備えている。 As shown in FIG. 15, the server (SV) is connected to a central processing unit (CPU) and a main memory (MM) via a bus (BUS), and a hard disk device (HD) as a large-scale storage device, A keyboard (KBD) as an input device and a display device (DISP) as an output device are provided.
また、バス(BUS)はネットワーク(NW)と接続されている。 The bus (BUS) is connected to the network (NW).
前記ハードディスク装置(HD)には、オペレーティングソフトウエア(OS)とともに、後述のWebサーバプログラム、ユーザデータベース(DB)、このユーザデータベースを登録するための情報登録プログラム、登録された情報をユーザ端末からのリクエストによって検索するための情報検索プログラム等(総称して「プログラム」)が登録されている。 In the hard disk device (HD), together with operating software (OS), a Web server program (to be described later), a user database (DB), an information registration program for registering this user database, and registered information from the user terminal Information search programs and the like (collectively “programs”) for searching by request are registered.
前記各種プログラムは、バス(BUS)およびメインメモリ(MM)を介して順次中央処理装置(CPU)に読み込まれることによってサーバとしての機能が実行される。 The various programs are sequentially loaded into a central processing unit (CPU) via a bus (BUS) and a main memory (MM), thereby executing a server function.
なお、ネットワーク(NW)を介して接続されるユーザ端末もほぼ同様のハードウエア構成を有しているため説明は省略するが、ユーザ端末のハードディスク装置(HD)には、サーバにアクセスするためにブラウザプログラムやサーバからダウンロードした所定のプログラムが登録されている。なお、ユーザ端末としては、汎用のパーソナルコンピュータのほか、通信可能なPDAや、ネットワーク(NW)に接続された基地局(BS)を介してネットワーク(NW)にアクセス可能な携帯電話機(MP)のような移動体端末装置なども用いることができる。 The user terminal connected via the network (NW) has almost the same hardware configuration, and thus the description thereof will be omitted. However, the hard disk device (HD) of the user terminal is used to access the server. A browser program or a predetermined program downloaded from the server is registered. As a user terminal, in addition to a general-purpose personal computer, a mobile phone (MP) that can access the network (NW) via a communicable PDA or a base station (BS) connected to the network (NW). Such mobile terminal devices can also be used.
前述のようにサーバ(SV)は、たとえばWebサーバプログラムおよびデータベースを備え、Webサーバおよびデータベースサーバとして機能する。ハードディスク装置(HD)に格納されたWebサーバプログラムは、ユーザ端末から送信されるHTTPリクエストによるメッセージを受け付けて、そのメッセージに対応した処理を行うためのものである。具体的には、サーバは、ユーザ端末からのメッセージがURLによって指定されるWebページにアクセスするためのメッセージであると判断する場合には、ユーザ端末にそのWebページのソースファイルおよびコンテンツデータを提供する。 As described above, the server (SV) includes, for example, a Web server program and a database, and functions as a Web server and a database server. The Web server program stored in the hard disk device (HD) is for receiving a message by an HTTP request transmitted from a user terminal and performing processing corresponding to the message. Specifically, when the server determines that the message from the user terminal is a message for accessing the Web page specified by the URL, the server provides the source file and content data of the Web page to the user terminal. To do.
Webページは、たとえばHTML(Hyper Text Mark-up Language)などの規定の書式
を用いて設計されるユーザ端末に提供すべき画面を構成するデータでありデータベースに格納されている。
The Web page is data constituting a screen to be provided to a user terminal designed using a prescribed format such as HTML (Hyper Text Mark-up Language), and is stored in a database.
Webページは、静的なデータとしてあらかじめ用意されているものの他、所定のプログラムによって動的に生成されるものが該当する。 The Web page is prepared in advance as static data and dynamically generated by a predetermined program.
この所定のプログラムは、WebサーバソフトウエアがHTTPにより特定のメッセージを受け付けた場合に実行され、メッセージに従う処理を実行することにより、ユーザの
指示に従ったWebページを動的に生成するようにサーバを機能させる。データベースには、会員による登録情報の他、Webページやユーザに提供すべき画像情報なども格納されている。
The predetermined program is executed when the Web server software receives a specific message by HTTP, and executes a process according to the message so that a Web page according to a user instruction is dynamically generated. To work. In addition to registration information by members, the database also stores Web pages and image information to be provided to users.
なお、本実施形態においてサーバが備える機能は、単一の装置(サーバ)が全ての機能を備えていてもよいし、複数の装置(ネットワークに接続された複数のサーバ)が備えるように構成してもよい。 In this embodiment, the server has a function that a single device (server) may have all the functions, or a plurality of devices (a plurality of servers connected to a network). May be.
次に、本システムを用いた情報登録方法について説明する。 Next, an information registration method using this system will be described.
情報を登録するユーザは、まずユーザ端末からネットワーク(NW)を介してサーバのアドレス(URL)にアクセスして、サーバの情報登録プログラムにより提供された画面上で個人情報(住所、氏名、クレジットカードの番号等)を入力することにより会員登録を行い、これがサーバによって承認されると、登録者を識別するための登録ユーザIDが付与される。これにより、ユーザは、当該サービスの会員になり、このサービスシステムへの情報登録が可能になる。 A user who registers information first accesses the server address (URL) from the user terminal via the network (NW), and personal information (address, name, credit card) on the screen provided by the server information registration program. Member registration is performed by inputting the number, and if this is approved by the server, a registered user ID for identifying the registrant is given. As a result, the user becomes a member of the service and can register information in the service system.
会員としての登録を終えた後、その登録者ないしは登録内容を特徴を表す情報として、任意の複数の文字列(ストリング)を、多次元の配列の形で登録するものとする。これらの情報は全てサーバのハードディスク装置(HD)に構築されたユーザデータベースに登録される。 After completing the registration as a member, a plurality of arbitrary character strings (strings) are registered in the form of a multidimensional array as information indicating the characteristics of the registrant or registered contents. All of these pieces of information are registered in a user database constructed in the hard disk device (HD) of the server.
ユーザデータベース中の文字列は、文(sentence)というよりも、単語(word)に近いも
のを想定し、最大長を10〜20文字程度に制限する。ただし、この文字数以内であれば、厳密な意味で”単語”であることは必要とされない。以後の記述では、この文字列の多次元配列による登録情報を「登録マトリクス」と呼ぶ。この「登録マトリクス」としての情報は、登録情報の中核部分であるから、情報発信を行うためには必須入力情報とする。
The character string in the user database is assumed to be closer to a word rather than a sentence, and the maximum length is limited to about 10 to 20 characters. However, if it is within this number of characters, it is not required to be a “word” in a strict sense. In the following description, the registration information based on the multidimensional array of character strings is referred to as a “registration matrix”. Since the information as the “registration matrix” is a core part of the registration information, it is assumed to be essential input information for transmitting information.
サーバの情報登録プログラムは、配列の次元の数、要素の数、文字列(ストリング)の最大長を規定しており、その規定に従った登録を許容する。 The server information registration program defines the number of array dimensions, the number of elements, and the maximum length of a character string (string), and allows registration according to the rules.
情報登録ユーザは、その次元数、要素数、ストリング長の範囲内で登録を行うことができる。たとえば、図1に示すように、3次元の配列で構成された場合を仮定し、最上位次元を「ジャンル」、第2次元を「テーマ」、最下位次元を「キーワード」と仮に呼ぶこととする。また、仮に、「ジャンル」の最大要素数を3個、「テーマ」の最大要素数を4個、「キーワード」の最大要素数を5個とし、ストリング長を10文字とする。 The information registration user can perform registration within the range of the number of dimensions, the number of elements, and the string length. For example, as shown in FIG. 1, assuming a case of a three-dimensional array, suppose that the highest dimension is “genre”, the second dimension is “theme”, and the lowest dimension is “keyword”. To do. Also, suppose that the maximum number of elements of “genre” is 3, the maximum number of elements of “theme” is 4, the maximum number of elements of “keyword” is 5, and the string length is 10 characters.
この場合、情報登録ユーザは、「ジャンル」として任意の文字列を3個まで登録することが可能で、1個の「ジャンル」について、それに関連する「テーマ」を4個まで登録することが可能で、1個の「テーマ」について、それに関する「キーワード」を5個まで登録することが可能になる。 In this case, the information registration user can register up to three arbitrary character strings as “genres”, and can register up to four “themes” related to one “genre”. Thus, up to five “keywords” related to one “theme” can be registered.
すなわち、3次元の配列といった形で制限された構造の中で、最大3個の「ジャンル」名、最大12個の「テーマ」名、最大60個の「キーワード」を登録することができる。 That is, a maximum of three “genre” names, a maximum of 12 “theme” names, and a maximum of 60 “keywords” can be registered in a structure limited in the form of a three-dimensional array.
図2に、「登録マトリクス」を登録するための画面の1例を示す。図2は、1ページに1つの「ジャンル」が登録でき、それを複数ページ用意することにより複数「ジャンル」を登録することができる形にした場合の例である。 FIG. 2 shows an example of a screen for registering a “registration matrix”. FIG. 2 shows an example in which one “genre” can be registered per page, and a plurality of “genres” can be registered by preparing a plurality of pages.
ここでは、ジャンルとして「自己紹介」が登録されている。 Here, “self-introduction” is registered as a genre.
そして、テーマ1として「転職」、このテーマ1に関連するキーワードとして「ホームページ」、「Webデザイナー」、「動画」、「IT」、「経理」が登録されている。
“Job change” is registered as
また、テーマ2として「趣味」、このテーマ2に関連するキーワードとして「マンガを書くこと」、「料理」、「散歩」、「ゲーム」、「映画」が登録されている。
In addition, “hobby” is registered as
また、テーマ3として「好きなテレビ番組」、このテーマ3に関連するキーワードとして、「チャン○○の誓い」、「華○なる○族」、「花より○子」、「TR○CK」、「○○ライダーカブト」が登録されている。
In addition, the
また、テーマ4として「好きなゲーム」、このテーマ4に関連するキーワードとして、「ドラ○エIV」、「ドラ○エII」、「ドラ○エV」、「F○ IX」、「サクラ○戦」が登録されている。
The
ユーザデータベースに登録される情報は、前記の「登録マトリクス」は必須のものであるが、それ以外の情報を登録することを排除するものではなく、たとえば、メールアドレスや登録者のプロフィールや、文章によるコメントなど、任意入力情報も登録可能な仕組みとする。これらの任意入力情報は、それらを公開するか否かを、項目別に登録者が選択できるようになっている。 For the information registered in the user database, the “registration matrix” described above is indispensable, but it does not exclude registering other information. For example, e-mail addresses, registrant profiles, and text Arbitrary input information such as comments by can be registered. These optional input information items can be selected by the registrant for each item as to whether or not to disclose them.
図3はユーザデータベースに格納される「登録マトリクス」のデータ構造である。このように、ジャンル→テーマ→キーワードがツリー状に関連付けられて登録されている。 FIG. 3 shows a data structure of a “registration matrix” stored in the user database. In this way, genres → themes → keywords are registered in a tree-like manner.
ここで、本実施形態の特徴として、情報を検索するユーザは、登録された必須入力情報と同じ構造のデータを指定することにより、情報の検索を行うことが挙げられる。 Here, as a feature of the present embodiment, a user who searches for information can search for information by specifying data having the same structure as the registered essential input information.
すなわち、ユーザ端末からの情報検索は、情報登録を行った際と同様の多次元の配列からなる複数の文字列を体系的に指定することにより行う点が特徴である。 In other words, the information search from the user terminal is characterized in that it is performed by systematically specifying a plurality of character strings made up of the same multidimensional array as when information was registered.
以後の記述では、この文字列の多次元配列によって指定される検索情報、すなわち「ジャンル」、「テーマ」、「キーワード」の組み合わせを「検索マトリクス」と呼ぶ。 In the following description, search information designated by the multi-dimensional array of character strings, that is, a combination of “genre”, “theme”, and “keyword” is referred to as “search matrix”.
図4に、「検索マトリクス」として検索されるための情報検索画面の1例を示す。 FIG. 4 shows an example of an information search screen for searching as a “search matrix”.
ここでは、ジャンルとして「自己紹介」が登録されている。 Here, “self-introduction” is registered as a genre.
そして、テーマ1として「転職」、このテーマ1に関連するキーワードとして「IT」、「Web」、「システムエンジニア」、「検索技術」、「動画配信」が登録されている。
Then, “job change” is registered as
また、テーマ2として「趣味」、このテーマ2に関連するキーワードとして「寝ること」、「散歩」、「マンガ」、「映画」、「小説」が登録されている。
In addition, “hobby” is registered as
また、テーマ3として「*指定なし」、このテーマ3に関連するキーワードとして、「村上○樹」、「宮○みゆき」、「ケス○ナー」、「○馬遼太郎」、「オシ○監督」が登録されている。
In addition, “* not specified” is the
また、テーマ4として「*指定なし」、このテーマ4に関連するキーワードとして、「
チャン○○」、「ドラ○エ」、「○国志」、「○○ライダー」、「必殺○○人」が登録されている。
The
“Chang XX”, “Dora XX”, “XX Kunishi”, “XX Rider”, and “Deadly XX people” are registered.
なお、図2に示した情報登録画面で登録された「登録マトリクス」と、図4に示された情報検索画面で入力された「検索マトリクス」との関係については後で詳述する。 The relationship between the “registration matrix” registered on the information registration screen shown in FIG. 2 and the “search matrix” input on the information search screen shown in FIG. 4 will be described in detail later.
サーバの情報検索プログラムは、ユーザ端末から入力された「検索マトリクス」のデータと、情報登録プログラムにより登録された情報の中の「登録マトリクス」のデータを照合することにより、情報検索の結果として表示すべき情報を検索する。 The server's information search program displays the result of the information search by collating the "search matrix" data input from the user terminal with the "registration matrix" data in the information registered by the information registration program. Search for information to do.
図7は、検索処理の流れを示している。 FIG. 7 shows the flow of search processing.
情報検索においては、まず、ユーザ端末から検索マトリクスデータを受信し(ステップ701〜702)、「ジャンル」として登録された文字列同士の照合を繰り返し(ステップ703〜705)、一致したデータがあった場合には、次に、その「ジャンル」に属するものとして登録された「テーマ」の文字列について照合を行い、さらに一致したデータがあった場合には、その「テーマ」に関するものとして登録された「キーワード」の文字列について照合を行う(ステップ704)。
In the information search, first, search matrix data is received from the user terminal (steps 701 to 702), the character strings registered as “genre” are repeatedly collated (
そして、検索結果としての表示対象データを全体の総合一致ポイントで降順となるようにソートし(ステップ706)、表示対象データをHTMLフォーマットに変換して検索を行ったユーザ端末に対してネットワーク(NW)を介して送信する。 Then, the display target data as a search result is sorted in descending order at the overall total matching points (step 706), and the network (NW) ) To send via.
図8は、マトリクスの照合手順を示している。 FIG. 8 shows a matrix collation procedure.
ここでは、登録マトリクスと検索マトリクスの照合を、ジャンルと(ステップ804〜805)、テーマと(ステップ807〜808)、キーワードと(ステップ810〜811)の全てについて繰り返す(ステップ813〜817)。
Here, collation of the registration matrix and the search matrix is repeated for all of the genre (
ここで、「キーワード」についても一致するデータがあった場合には、その登録情報に対して、一致度の比較を行うための「一致ポイント」を付与する(ステップ814)。 Here, if there is matching data for the “keyword”, a “matching point” for comparing the degree of matching is given to the registered information (step 814).
このように、同一「テーマ」に属する全ての「キーワード」に関してこのような照合を行い、「キーワード」が一致した個数に応じて「一致ポイント」を計算する(ステップ8
18)。
In this way, all such “keywords” belonging to the same “theme” are collated, and “match points” are calculated according to the number of matching “keywords” (step 8).
18).
このような照合と一致ポイントの計算を、全ての「テーマ」、全ての「ジャンル」について実行し、得られた合計の「一致ポイント」を、その登録情報全体の「総合一致ポイント」とする(ステップ818)。 Such collation and calculation of matching points are executed for all “themes” and all “genres”, and the total “matching points” obtained are set as “total matching points” of the entire registration information ( Step 818).
ただし、「総合一致ポイント」は、単純に「キーワード」の一致個数を加算するのではなく、たとえば、同一の「テーマ」について一致する「キーワード」が1個だけの場合と3個ある場合とでは、「一致ポイント」を単純に3倍するのではなく、9倍にするなど、一致個数による重み付けを行う。 However, the “total match point” is not simply adding the number of matches of “keywords”. For example, when there are only one “keyword” that matches the same “theme” and when there are three “keywords” , “Match points” are weighted by the number of matches, such as 9 times instead of simply 3 times.
これは、同一の「テーマ」について、「キーワード」が1個だけ一致する確率と、「キーワード」が3個一致する確率は、3倍をはるかに超える大きな差があるからである。 This is because, for the same “theme”, the probability that only one “keyword” matches and the probability that three “keywords” match will have a large difference far exceeding three times.
このことは確率論における「積の法則」によって説明できる。すなわち、サイコロを一回振って”1”の目が出る確率は6分の1だが、三回振って全て”1”の目になる確率は
、216分の1である。このように、キーワードのみならずテーマの一致も参照することによって、ユーザが望む確率の高い検索結果が得られる。
一致ポイントの算出方法として、データベース登録マトリクスの「テーマ」に対して、検索マトリクスの要素数YのうちX個が一致した場合の一致度合い数値を関数F(X)とし
て表し、関数F(X)はYのX乗、F(X)=YX 、とするものとし、各ベクトル毎のF(X)数値を全
ての「テーマ」について加算したものを一致ポイント数値とする情報検索を行ってもよい。あるいは、登録マトリクスの該「テーマ」の要素数の個数をZとし、検索マトリクスの
該「テーマ」の要素のうちX個が一致した場合の一致度合い数値を関数F(X)をF(X)=ZX 、としてもよい。
また、一般化した一致ポイント数値算出方式として、一致個数が多くなると加速度的に該一致ポイント数値を大きくするために、下記性質を持つ関数F(X)を定義して用いてもよい。
F(X+1)/F(X) > (X+1)/X、 X>0、 F(0)=0、 F(1)=1
かつ、
F(X+2)/F(X+1) > F(X+1)/F(X)
この関数F(X)の性質は、一致個数Xが1増加すると、F(X)は1より大きく増加し、かつ、Xが1増加したときの増加よりX+1がさらに1増加したときの増加割合が大きい特性を持つ
。その一例として、F(X)=YX (Y>1) という関数が考えられる。
This can be explained by the "law of product" in probability theory. That is, the probability that a "1" will appear when a dice is shaken once is 1/6, but the probability that an all "1" will appear when shaken three times is 1/216. In this way, a search result with a high probability that the user desires can be obtained by referring not only to the keyword but also the matching of the theme.
As a method for calculating the matching point, the matching degree value when X out of the number Y of elements in the search matrix matches the “theme” of the database registration matrix is expressed as a function F (X), and the function F (X) It is assumed that Y is raised to the Xth power, F (X) = Y X , and an information search is performed using the F (X) value of each vector added for all the themes as the matching point value. Good. Alternatively, if the number of elements of the “theme” in the registration matrix is Z, and the X matches among the elements of the “theme” in the search matrix, the function F (X) is expressed as F (X) = Z X may be used.
Further, as a generalized matching point numerical value calculation method, a function F (X) having the following properties may be defined and used in order to increase the matching point numerical value as the number of matches increases.
F (X + 1) / F (X)> (X + 1) / X, X> 0, F (0) = 0, F (1) = 1
And,
F (X + 2) / F (X + 1)> F (X + 1) / F (X)
The function F (X) has the property that when the number of matches X increases by 1, F (X) increases more than 1 and when X + 1 increases by 1 more than when X increases by 1. It has characteristics that increase rate is large. As an example, a function F (X) = Y X (Y> 1) can be considered.
図9は、1つの「ジャンル」についての一致ポイント算出例を示している。この例では、同一「テーマ」における「キーワード」の一致個数を”N”、その「テーマ」についての一致ポイントを”Y”とした場合、「Y=3のN乗」 の式により一致ポイントの計算
を行っている。
FIG. 9 shows an example of calculating coincidence points for one “genre”. In this example, if the number of matches of “keywords” in the same “theme” is “N” and the match point for that “theme” is “Y”, the match point is expressed by the formula “Y = 3 to the Nth power”. Calculation is performed.
この計算を、全ての「ジャンル」について行い、それらのポイントを加算して、その登録情報の一致ポイントとする。 This calculation is performed for all “genres”, and those points are added to obtain matching points of the registered information.
このように、本実施形態では、「一致ポイント」を、「登録マトリクス」と「検索マトリクス」の相似性という観点から付与して、その希少性を測る指標として採用している。 As described above, in the present embodiment, the “match point” is given from the viewpoint of the similarity between the “registration matrix” and the “search matrix” and is used as an index for measuring the rarity.
このように、「登録マトリクス」と「検索マトリクス」とを照合し、検索時点での知識と求める情報とが「似ている」ことを最優先にした検索結果を得ることができ、たとえ閲覧される頻度が少ない登録情報であっても、たまたまそれに相似した情報を求めている検索ユーザが存在する場合には、容易にそれを見つけ出すことが可能である。 In this way, the “registration matrix” and the “search matrix” are collated, and a search result that gives the highest priority to “similarity” between the knowledge at the time of the search and the information to be obtained can be obtained. Even if the registered information has a low frequency, if there is a search user who happens to seek similar information, it can be easily found.
サーバの情報検索プログラムは、以上のような照合を全ての登録情報について実行し、「一致ポイント」の高かった登録情報を順番にHTMLフォーマットのデータとして情報検索を行ったユーザ端末に送る。このとき、サーバの情報検索プログラムは、データの一致の有無の判定においては、文字列同士が完全に等しいものであることは要求されず、「登録マトリクス」の文字列の一部に、「検索マトリクス」の文字列が含まれている場合は、一致データとみなす。 The information retrieval program of the server executes the above collation for all the registered information, and sequentially sends the registered information having a high “match point” as data in HTML format to the user terminal that has performed the information retrieval. At this time, the server information search program does not require that the character strings be completely equal in determining whether or not there is a match between the data. When the character string “matrix” is included, it is regarded as matching data.
サーバの情報検索プログラムは、ユーザデータベースから索出された登録情報を、「一致ポイント」の高い順番に一覧の形で表示する。
サーバからクライアントへの検索結果送信に際して、クライアントが検索マトリクスをサーバに送信するとき、類似相似性の低い情報が多数サーバから送られてくるのを避けるため、予め総合一致ポイントの下限を定めて検索マトリクスを作成して送信してもよい。
The server information search program displays the registration information retrieved from the user database in the form of a list in descending order of “match points”.
When sending a search result from the server to the client, when the client sends a search matrix to the server, a search is performed by setting a lower limit of the total matching points in advance in order to avoid sending a lot of information with low similarity to the server. A matrix may be created and transmitted.
図5に、検索結果を一覧表示するための画面イメージを示す。 FIG. 5 shows a screen image for displaying a list of search results.
この一覧表示の際には、登録ユーザIDによって識別される登録単位に従い、登録ユーザに関する識別情報が表示され、その中の1つが選択されることにより、さらに、「登録マトリクス」やその他の任意入力情報を含む詳細な登録情報が表示される。 When this list is displayed, according to the registration unit identified by the registered user ID, identification information regarding the registered user is displayed, and by selecting one of them, a “registration matrix” or other optional input is further displayed. Detailed registration information including information is displayed.
また、図6に、詳細情報を表示するための画面イメージを示す。 FIG. 6 shows a screen image for displaying detailed information.
索出された登録情報の登録者がメールアドレスやホームページのURLを公開していれば、検索ユーザはその公開された情報を元に、このサービスシステムを介さずに、直接に登録者にコンタクトをとることができる。登録者がメールアド
レスやURLを公開していない場合には、このサービスシステムのメッセージ伝達機能を利用して、登録者にコンタクトをとることができる仕組みとする。以後の記述では、このメッセージ機能を「コンタクトメッセージ」と呼ぶ。
If the registrant of the registered information that has been found out publishes the e-mail address or URL of the homepage, the search user can contact the registrant directly without going through this service system based on the published information. Can take. When the registrant does not disclose the e-mail address or URL, a system is adopted in which the registrant can be contacted using the message transmission function of this service system. In the following description, this message function is referred to as “contact message”.
このようにユーザの会員登録を受け付けて、そのプロファイルに基づいて登録マトリクスと検索マトリクスを照合して検索ユーザにプロファイル情報を提供するサービスを「WMP(Word Matrix Profiling)サービス」と呼ぶ。
「WMPサービス」は、独立したサービスとして運用することもできるが、ブログやSNS(ソーシャル・ネットワーキング・サービス)など、既存の会員登録型サービスの付加機能として利用することもできる。
A service that accepts a user's membership registration and collates the registration matrix with the search matrix based on the profile and provides profile information to the search user is called a “WMP (Word Matrix Profiling) service”.
The “WMP service” can be operated as an independent service, but can also be used as an additional function of an existing member registration type service such as a blog or SNS (social networking service).
図10に、「WMPサービス」の流れを示す。 FIG. 10 shows the flow of the “WMP service”.
同図では、情報登録ユーザのユーザ端末と、サーバと、情報検索ユーザのユーザ端末との間のデータの送受信の関係を時系列的に示したものである。 In the figure, the data transmission / reception relationship among the user terminal of the information registration user, the server, and the user terminal of the information search user is shown in time series.
前記の「WMPサービス」とは別に、「WMPサービス」の情報検索機能の「OLL検索方式」を利用して、従来の検索サービスとは異なる新たな方法でWebサイトの検索を行う検索サービスを行うことができる。 In addition to the “WMP service” described above, a search service for searching websites by using a new method different from the conventional search service is performed using the “OLL search method” of the information search function of the “WMP service”. be able to.
以後の記述では、「OLL検索方式」を利用したWebサイトの検索サービスを「OLL検索サービス」と呼ぶ。
「OLL検索サービス」は、独立した検索サービスとして運用することもできるが、従来の検索サービスの追加機能として利用することもできる。
In the following description, a Web site search service using the “OLL search method” is referred to as an “OLL search service”.
The “OLL search service” can be operated as an independent search service, but can also be used as an additional function of the conventional search service.
従来の検索エンジンは、Webページが登録される際、または登録された後に、そのページを検索するためのキーワードの抽出と再配置の処理を行っているが、配置されたキーワードのデータ構造は、一致度の比較を行うという前提に立ったものではなかった。
「OLL検索サービス」を採用した検索エンジンにおいては、Webサイトの検索を行うためのキーワードデータを生成する際に、一致度の比較を可能とする構造を持ったデータを生成することにより、検索時に一致度の高い順に表示を行うことを可能にする仕組みを提供する。
Conventional search engines perform keyword extraction and rearrangement processing for searching for a web page when or after registration, but the data structure of the arranged keywords is as follows: It was not based on the premise of comparing the degree of agreement.
In a search engine that employs the “OLL search service”, when generating keyword data for searching a Web site, data having a structure that allows comparison of the degree of coincidence is generated. Provide a mechanism that enables display in descending order of match.
「OLL検索サービス」においては、Webサイトを構成する各ページのHTMLの中に、「WMPサービス」と同様の構造を持った「登録マトリクス」を埋め込むという方法で登録を行う。すなわち、Webの各ページのHTMLに対し、そのページの本来の表示や動作に影響を与えないような形で、「登録マトリクス」の情報を記述し、その「登録マトリクス」の情報については、「OLL検索サービス」の情報検索プログラムだけが解釈するような仕組みを作るのである。 In the “OLL search service”, registration is performed by embedding a “registration matrix” having the same structure as the “WMP service” in the HTML of each page constituting the Web site. That is, the information of the “registration matrix” is described in the form that does not affect the original display or operation of the page for the HTML of each page of the Web. A mechanism that only the information search program of the “OLL search service” interprets is created.
「OLL検索サービス」の情報検索プログラムが規定する一定のルール(規則)に基づ
き、Webページの作成者の側が、そのルールに従った形で「登録マトリクス」情報を記述する。ただし、この情報は「OLL検索サービス」だけに使用されるものなので、それ以外の検索サービスはもちろん、本来の表示や動作に影響を与えないようにするため、Webブラウザにとっては無意味または無効な記述となるような形でのルールを規定する。具体的には、以下の方法により、これを実現する。
Based on certain rules (rules) prescribed by the information search program of “OLL search service”, the creator of the Web page describes “registration matrix” information in a form according to the rules. However, since this information is used only for the “OLL search service”, it is meaningless or invalid for the Web browser so as not to affect the original display and operation as well as other search services. Define the rules in such a way that they are descriptive. Specifically, this is realized by the following method.
Webページを作成するユーザは、対象とするページのHTMLの中のHTMLタグの直後に、ある特定の名称を持つスクリプト(たとえばOLLmatrix.ja)を実行する記述
を埋め込み、かつ、この"OLLmatrix.ja"ファイルの中身は空(0バイトファイル)とする。他方、「WMPサービス」と同様の構造を持つ「登録マトリクス」データを、ファイル名がOLLmatrix.xlsというXMLファイルの形式で作成し、OLLmatrix.jaのファ
イルと同じフォルダに格納する。
The user who creates the Web page embeds a description for executing a script having a specific name (for example, OLLmatrix.ja) immediately after the HTML tag in the HTML of the target page, and this “OLLmatrix.ja” "The file is empty (0 byte file). On the other hand, “registration matrix” data having the same structure as that of the “WMP service” is created in the XML file format whose file name is OLLmatrix.xls and stored in the same folder as the file of OLLmatrix.ja.
「登録マトリクス」の次元数や、配列の要素数などのルールについては、「OLL検索サービス」を提供する側が規定する。 Rules such as the number of dimensions of the “registration matrix” and the number of elements in the array are defined by the side providing the “OLL search service”.
Webページを作成するユーザは、このようなルールに従って「登録マトリクス」ファイルを作成すれば、会員登録などは行う必要なしに、「OLL検索サービス」の検索対象としてのページを作成することができる。 If a user who creates a Web page creates a “registration matrix” file according to such a rule, the user can create a page as a search target of the “OLL search service” without performing member registration or the like.
このとき、HTMLの記述やXMLファイルの作成が一見面倒に感じられるかもしれないが、「OLL検索サービス」を提供する側が、これらの登録情報を作成を支援するツールを無償配布することにより、この問題は解決できる。 At this time, the description of HTML and the creation of the XML file may seem awkward at first glance, but the side providing the “OLL search service” distributes this registration information free of charge by distributing this tool free of charge. The problem can be solved.
この「登録情報作成支援ツール」は、ユーザインターフェースに関しては、「WMPサービス」の情報登録プログラムとほぼ同様の仕組みとする。 This “registration information creation support tool” has almost the same mechanism as the information registration program of “WMP service” with respect to the user interface.
「OLL検索サービス」においては、情報検索機能については、「WMPサービス」の情報検索プログラムと同様の仕組みを持つ。 In the “OLL search service”, the information search function has the same mechanism as the information search program of the “WMP service”.
情報検索ユーザは、「検索マトリクス」を入力することにより登録情報の検索を行う。「WMPサービス」との違いは、検索対象となる登録情報が一般のWebページであるという点である。 The information search user searches for registered information by inputting a “search matrix”. The difference from the “WMP service” is that the registration information to be searched is a general Web page.
次は、従来のWebサイト検索エンジンと融合したシステムについて説明する。
任意数のキーワードの全てを含む情報を検索できる情報検索サーバを利用でいる環境で、クライアント端末においてn個の要素としてのキーワードを持つ1次元検索マトリクスM(1)を生成し、M(1)のn個の要素中よりm個以上、但しn≧m、の要素を持つ、計j個のサブ検索マトリクスMS1(1)、MS2(1)、、、MSj(1)を生成する。但しjは下記数式で算出さ
れる。
j=(nCm)+(nCm+1)+、、、+(nCn)
ここにxCyは組合わせ関数で、x個からy個取り出す総組合わせ数を表す。
nCm =n!/(m!×(n-m)!)
これらj個のサブ検索マトリクスの全ての要素キーワードに全て一致する情報を順次前記
情報検索サーバに送って情報検索し、該検索結果情報を一旦蓄積し、j個のサブ検索マト
リクス全ての検索を終えた後、それら検索結果情報を一致キーワード数n個から順次m個まで整理して表示する情報検索クライアント端末装置。
Next, a system integrated with a conventional Web site search engine will be described.
In an environment where an information search server that can search for information including all of an arbitrary number of keywords is used, a one-dimensional search matrix M (1) having keywords as n elements is generated at the client terminal, and M (1) Generate a total of j sub-search matrices MS 1 (1), MS 2 (1), MS j (1) having m or more elements, but n ≧ m elements. . However, j is calculated by the following mathematical formula.
j = ( n C m ) + ( n C m + 1 ) +,, + ( n C n )
Here, x C y is a combination function and represents the total number of combinations to be extracted from x.
n C m = n! / (M! × (nm)!)
Information that matches all the element keywords of these j sub search matrices is sequentially sent to the information search server for information search, the search result information is temporarily stored, and all the j sub search matrices are searched. After that, an information search client terminal device that arranges and displays the search result information from the number n of matching keywords to m sequentially.
前述の説明では、「OLL検索方式」を完全に採用した形での「OLL検索サービス」について説明したが、「OLL検索方式」の考え方の一部のみを採用した、「擬似OLL
検索サービス」も可能である。
In the above description, the “OLL search service” in a form that completely adopts the “OLL search method” has been described. However, the “pseudo OLL” that employs only a part of the concept of the “OLL search method”.
A search service is also possible.
これは、既存の検索サービスの一部に、「OLL検索方式」の機能を組み込んだものである。 In this method, a function of “OLL search method” is incorporated into a part of an existing search service.
「擬似OLL検索サービス」においては、情報登録者は、登録に際して何ら特別の情報(「登録マトリクス」)を登録する必要はない。 In the “pseudo-OLL search service”, the information registrant does not need to register any special information (“registration matrix”) at the time of registration.
1つのWebページについて、従来の検索エンジンの仕組みにより抽出したキーワードに対し、それを一次元の「登録マトリクス」データとして再構成を行う。 For one Web page, a keyword extracted by a conventional search engine mechanism is reconstructed as one-dimensional “registration matrix” data.
たとえば、Webページのフルテキストからキーワードを抽出する検索エンジンの場合、その抽出されたキーワードから、1次元で要素数無限の「登録マトリクス」を生成するのである。 For example, in the case of a search engine that extracts keywords from the full text of a Web page, a “registration matrix” having an infinite number of elements in one dimension is generated from the extracted keywords.
情報検索に関しては、既存の検索サービスと同様に複数のキーワードを1行に羅列して指定するが、これらはAND条件やOR条件などの区別は不可とし、1次元の「検索マトリクス」として解釈される。 For information retrieval, a plurality of keywords are specified in a single row in the same way as existing retrieval services, but these cannot be distinguished from AND conditions and OR conditions, and are interpreted as a one-dimensional “search matrix”. The
情報検索プログラムにおいては、「OLL検索方式」に従って前記の「登録マトリクス」と前記の「検索マトリクス」との照合を行い、総合一致ポイントの大きい順に検索結果を表示する。 In the information search program, the “registration matrix” and the “search matrix” are collated according to the “OLL search method”, and the search results are displayed in descending order of the total matching points.
「擬似OLL検索サービス」においては、マトリクスが1次元配列であることや、登録情報については量的な制限がないため、情報の”相似性”の評価という点で正確さが減少するが、Webページの作成者が特別な登録を行うことなしに少しでも”相似性”の要素を加味した検索を行いたい場合には有効である。 In the “pseudo-OLL search service”, the accuracy is reduced in terms of evaluation of “similarity” of information because the matrix is a one-dimensional array and there is no quantitative limitation on registered information. This is effective when the creator of the page wants to perform a search that takes into account the element of "similarity" even without any special registration.
「ジャンル」と、「テーマ」と、「キーワード」とからなる登録マトリクスの入力に際しては、既に登録済みの文字列を一覧表示して、その中から選択することもできる仕組みを持つ。 When inputting a registration matrix consisting of “genre”, “theme”, and “keyword”, a list of already registered character strings can be displayed and selected from the list.
図11に、一覧からの選択による入力を行う画面の1例を示す。
「ジャンル」、「テーマ」などの上位次元の配列のワードに関しては、”指定なし”も許容するものとする。
FIG. 11 shows an example of a screen for performing input by selection from a list.
“Unspecified” is allowed for words in higher-order arrays such as “genre” and “theme”.
たとえば、「テーマ」に関して”指定なし”が入力された場合、検索処理においては、「テーマ」関しては常に一致したものとして扱われ、「キーワード」が一致すれば一致ポイントが加算されるが、「テーマ」が指定された上で「キーワード」も一致した場合よりは、一致ポイントの値を低いものとする。
”指定なし”とした検索マトリクス書式をサーバに送った場合、それに該当する項目の一致ポイントは1つのキーワードのみが検索で一致したものと見なして一致ポイントを算出して、総合一致ポイントを算出するようにしてもよいし、あるいは該項目の全てが一致したものとして、総合一致ポイントを算出してもよい。
For example, if “No specification” is entered for “Theme”, the search process always treats “Theme” as a match, and if “Keyword” matches, a match point is added. The value of the matching point is set lower than when “theme” is specified and “keyword” also matches.
When a search matrix format with “not specified” is sent to the server, the matching point of the corresponding item is calculated as a matching point assuming that only one keyword matches in the search, and the total matching point is calculated. Alternatively, the total matching point may be calculated on the assumption that all the items match.
「WMPサービス」は、情報検索によって得られた特定の登録情報の登録者にコンタクトすることを希望する情報検索ユーザが存在していた場合、登録者に対してその旨を通知するため「コンタクトメッセージ」の仕組みを持つ。 When there is an information search user who wishes to contact a registrant of specific registration information obtained by information search, the “WMP service” uses a “contact message” to notify the registrant to that effect. "Has a mechanism.
ただし、スパムメール的な利用を防ぐため、この通知を行うためには会員として登録さ
れていることを条件とし、一定期間内に「コンタクトメッセージ」を送ることができる登録者の数を限定する仕組みを持たせてもよい。
However, in order to prevent spam-like usage, the number of registrants who can send “contact messages” within a certain period is limited on the condition that they are registered as members in order to make this notification. May be provided.
「登録マトリクス」として登録される情報は、原則として、登録者が自由に入力できる文字列データであるが、「WMPサービス」自体が特定の単語を予約ワードとすることも可能である。たとえば、「ジャンル名」として”お見合い”を「ジャンル」予約ワードとし、それに属する「テーマ名」として”自己紹介”、”相手に求めること”などを、「テーマ」予約ワードとしておく。このジャンルへの登録を希望する登録者は、テーマとして、”自己紹介”、”相手に求めること”などに関するキーワードの入力が必要となるが、それ以外の任意の「テーマ名」の指定も可能である。 The information registered as the “registration matrix” is, in principle, character string data that can be freely input by the registrant, but the “WMP service” itself can also use a specific word as a reserved word. For example, “match” as “genre name” is a “genre” reserved word, “self-introduction” as “theme name” belonging to the “genre name”, “request from other party”, etc. are set as “theme” reserved words. Registrants who wish to register in this genre need to enter keywords related to “self-introduction”, “request for others”, etc., but any other “theme name” can be specified. It is.
「WMPサービス」で予約された「ジャンル」や「テーマ」の場合には、「登録マトリクス」の次元数や要素数も、「WMPサービス」の側で、その予約キーワードに特有の設定を行うことができる仕組みとする。たとえば、前記の”お見合い”「ジャンル」の例では、この「ジャンル」に関しては、それに属する「テーマ」数を6個にするといった形で当該「ジャンル」に特有の要素数を設定したり、”自己紹介”という「テーマ」の下にはさらに「サブテーマ」として、”趣味”や”職業”を設定するなど、当該「ジャンル」に特有の次元数を設定してもよい。 In the case of “genre” or “theme” reserved by “WMP service”, the number of dimensions and the number of elements of “registration matrix” must also be set on the side of “WMP service” specific to the reserved keyword. A mechanism that can For example, in the example of “match” and “genre”, the number of elements unique to the “genre” can be set in such a way that the number of “themes” belonging to the “genre” is six, A number of dimensions specific to the “genre” may be set under the “theme” of “self-introduction”, such as “hobby” or “profession” as a “sub-theme”.
「WMPサービス」で予約された「ジャンル」の登録が行われる場合には、通常の登録画面とは異なる、その「ジャンル」専用の登録画面を提供してもよい。 When the “genre” reserved by the “WMP service” is registered, a registration screen dedicated to the “genre” different from the normal registration screen may be provided.
図12に、一例として、「社員募集ジャンル」専用の登録画面イメージを示している。また、図13に、一例として、「お見合いジャンル」専用の登録画面イメージを示している。 FIG. 12 shows a registration screen image dedicated to “employee recruitment genre” as an example. In addition, FIG. 13 shows a registration screen image dedicated to “matching genre” as an example.
予約された「ジャンル名」や「テーマ名」の情報は、サーバの中のデータ形式としては、予約ワードであることを識別することができる特殊なコードを付加して格納することにより、全く同じワードが任意入力により登録された場合のデータと区別する。 Information on reserved "genre name" and "theme name" is exactly the same as the data format in the server by adding a special code that can identify the reserved word. Distinguishes from data when a word is registered by arbitrary input.
予約された「ジャンル」や「テーマ」に関しては、「キーワード」の入力についても、通常の任意入力以外に、あらかじめ用意されたワードの一覧からの選択という形式での入力も可能な仕組みとする。たとえば図13の例で、「サブテーマ」として”年収”が用意されていたとした場合、そのキーワード入力の方法は、通常の任意入力ではなく、あらかじめ用意される一覧(ドロップダウンリスト等)の中に、”400万円以下”、”400万円〜500万円”、”500万円〜600万円”、”600万円〜700万円”、”700万円〜800万円”、”800万円〜900万円”、”900万円〜1000万円”、”1000万円以上”等の項目が表示されており、その中から該当する項目を選択することによって入力を行ってもよい。 Regarding the reserved “genre” and “theme”, it is possible to input “keyword” in the form of selection from a list of words prepared in advance in addition to normal arbitrary input. For example, in the example of FIG. 13, when “annual income” is prepared as a “sub theme”, the keyword input method is not a normal arbitrary input but a list prepared in advance (such as a drop-down list). “4 million yen or less”, “4 million yen to 5 million yen”, “5 million yen to 6 million yen”, “6 million yen to 7 million yen”, “7 million yen to 8 million yen”, “ Items such as “8 million yen to 9 million yen”, “9 million yen to 10 million yen”, “more than 10 million yen” are displayed, and even if you input by selecting the corresponding item from among them Good.
予約された「ジャンル」や「テーマ」に関して検索を行う場合、特定のキーワードに関しては、必ず一致した場合のみを検索結果として表示できるような、「必須一致ワード」の設定を可能としてもよい。 When searching for a reserved “genre” or “theme”, it is possible to set a “required matching word” so that a specific keyword can always be displayed as a search result only when it matches.
たとえば図13の例で、「サブテーマ」として”性別”が用意されていたとした場合、情報検索ユーザにとっては、登録者が男性なのか女性なのかは最も重要な事項であるため、この項目が一致しない場合には、たとえそれ以外の項目でどれほど一致ポイントが高い場合でも、情報検索ユーザにとっては無意味な情報になるため、検索結果から除外できるようにしておくことが望ましい。
検索マトリクス書式において、幾つかのベクトルや要素を“必須一致ワード”とし、そ
の指定をした項の検索が不一致の場合は、その項(ベクトル)の一致ポイントを0としたり、該項目の上位ベクトルや検索マトリクス全体の総合一致ポイントを0とし、複数の“必須一致ワード”が指定されていた場合は、“必須一致ワード”のどの項が不一致だったかを含めてクライアントに検索結果を送信してもよい。
図16は3次元データベース登録マトリクスMA(3)の例を図示している。
図17には3次元データベース登録マトリクスによるクラシック音楽のデータベースの構成例を示しており、登録マトリクスMA(3)は第1次元ベクトルとして、V1、V2、V3 からなり、V1 は第2次元ベクトルV11、V12、V13、V14 からなり、以下同様に、V3 は第2次
元ベクトルV31、V32、V33、V34 からなる。計12個の各第2次元ベクトルV11、V12、、、V34 はそれぞれ登録要素E111、E112 、、、E343 の各3個、合計36個の要素からなる。ここでは各ベクトルの名称を付与しており、例えばV1 には作曲家の「ベートーベン」を付与
し、V11には「交響曲」を付与している。このような登録マトリクスで作成されたデータ
ベースを検索するための検索マトリクスは、この登録マトリクスと類似の書式で記述できる。
検索マトリクスは登録マトリクスに類似した書式が利便性から好ましく、データベース検索用サーバはクライアント(検索ユーザ)に登録マトリクスと類似だが要素がブランクとなっている検索マトリクス書式を送り、クライアントはその書式の各要素に求めるキーワードを記述していく手順で情報検索することが可能である。
図18は、空(それに属する元が無いベクトルやキーワード要素)のベクトルや要素を含む登録マトリクスMA(3)の例を図示している。このマトリクスでは、空のベクトルは、例
えばそれに属するジャンルが存在しないことが明らかな場合、また空の要素はそれに属するキーワードが存在しないことが明らかな場合、あるいは再分割個数が他のベクトルと同じ個数とならない場合などに対して適用できる。一例として音楽を考えると、ブラームスはオペラ作品が無く、その部分のベクトルあるいは要素は空とすることができる。
また、第1次元ベクトルのうち、第2次元ベクトルとしてV3はV31のみしか無いことになるが、これはV1とV2は第2次元ベクトルに再分割するが、V3は第2次元ベクトルに再分割できない場合に、第2次元ベクトルはV31のみとすると、V3はV31と同一としてデータベース構築できる。
図19は空のベクトルや要素を含む検索マトリクスMB(3)の例を示している。この例で
は第2次元ベクトルV12、V32、V34とそれに属する要素が空で、ベクトルは空ではないがそのベクトル要素のうちV13中S132とV33中S333が空となっている。これら空のベクトルや空の要素は、登録および検索マトリクスが長方形状、直方体形状、あるいは4次元以上では
超直方体(4次元以上の座標系における直方体)形状としている。データベース内容によ
っては幾つかのベクトルは再度ベクトル分割しなければならいが、幾つかのベクトルはそれ以上の再分割できないような状況、あるいは再分割の個数が項目によって異なる場合が一般的である。このとき、これら双方の状況をマトリクスで実現するために、空のベクトルと要素を用いることができる。
For example, in the example of FIG. 13, when “gender” is prepared as the “sub-theme”, for the information search user, it is the most important matter whether the registrant is male or female. If they do not match, no matter how high the matching points are in other items, it becomes meaningless information for the information search user, so it is desirable to be able to exclude it from the search results.
In the search matrix format, if some vectors or elements are “essential match words” and the search for the specified term does not match, the match point of the term (vector) is set to 0, or the upper vector of the item If the total match point of the entire search matrix is 0 and multiple “mandatory match words” are specified, the search results are sent to the client including which terms of the “mandatory match words” did not match. Also good.
FIG. 16 illustrates an example of a three-dimensional database registration matrix MA (3).
FIG. 17 shows a configuration example of a classical music database using a three-dimensional database registration matrix. The registration matrix MA (3) includes V 1 , V 2 , and V 3 as first dimension vectors, and V 1 is the first one . It consists of two-dimensional vectors V 11 , V 12 , V 13 , V 14 , and similarly V 3 consists of second-dimensional vectors V 31 , V 32 , V 33 , V 34 . Each three total of 12 of each of the two-dimensional vector V 11, V 12 ,,, V 34 each register element E 111 is, E 112 ,,, E 343, consisting of a total of 36 elements. Here are given the name of each vector, is to grant the "Beethoven" of the composer, for example, V 1, the V 11 have granted the "symphony". A search matrix for searching a database created with such a registration matrix can be described in a format similar to this registration matrix.
The search matrix is preferably a format similar to the registration matrix for convenience. The database search server sends a search matrix format similar to the registration matrix to the client (search user) but with blank elements. It is possible to search for information by a procedure of describing a keyword to be found in an element.
FIG. 18 illustrates an example of a registration matrix MA (3) including empty vectors and elements (empty vectors and keyword elements belonging to it). In this matrix, an empty vector is, for example, a case where it is clear that there is no genre belonging to it, a case where it is clear that an empty element has no keyword belonging to it, or the number of subdivisions is the same as that of other vectors. It can be applied to cases where Considering music as an example, Brahms has no opera works, and the vector or element of that part can be empty.
Also, among the first dimension vectors, V 3 has only V 31 as the second dimension vector. This means that V 1 and V 2 are subdivided into second dimension vectors, but V 3 is the second dimension vector. If the second dimension vector is only V 31 when it cannot be subdivided into dimension vectors, the database can be constructed with V 3 identical to V 31 .
FIG. 19 shows an example of a search matrix MB (3) including empty vectors and elements. In this example, the second dimension vectors V 12 , V 32 , V 34 and the elements belonging to them are empty, and the vector is not empty, but among the vector elements, S 132 in V 13 and S 333 in V 33 are empty. Yes. These empty vectors and empty elements have a registration and search matrix of a rectangular shape, a rectangular parallelepiped shape, or a shape of a super rectangular parallelepiped (a rectangular parallelepiped in a coordinate system of four dimensions or more) when the dimension is four or more. Depending on the contents of the database, some vectors must be divided again. In general, some vectors cannot be further subdivided, or the number of subdivisions varies depending on the item. At this time, empty vectors and elements can be used to realize both of these situations in a matrix.
本発明は、インターネットにおける検索システムに利用できる。 The present invention can be used for a search system on the Internet.
SV サーバ
UT ユーザ端末
NW ネットワーク
CPU 中央処理装置
MM メインメモリ
BUS バス
HD ハードディスク装置
KBD キーボード
DISP ディスプレイ装置
OS オペレーティングシステム
SV server UT User terminal NW Network CPU Central processing unit MM Main memory BUS Bus HD Hard disk device KBD Keyboard DISP Display device OS Operating system
Claims (10)
前記サーバに蓄積されたデータの組み合わせからなる登録マトリクスに対して、ネットワークを介して接続されるユーザ端末より入力されたデータの組み合わせからなる検索マトリクスを送信し、
前記サーバにおいて、前記で入力された検索マトリクスと前記登録マトリクスと照合してマトリクス同士の相似性により検索結果を出力し、前記検索ユーザ端末に送信する情報検索システム。 It consists of a server that stores a registration matrix consisting of a combination of data, a network, and a search user terminal connected via the network,
A search matrix consisting of a combination of data input from a user terminal connected via a network is sent to a registration matrix consisting of a combination of data stored in the server,
In the server, an information search system that collates the search matrix input in the above and the registration matrix, outputs a search result based on similarity between the matrices, and transmits the search result to the search user terminal.
前記サーバに蓄積されたデータの組み合わせからなる登録マトリクスを設定するステップと、
ネットワークを介して接続されるユーザ端末より入力されたデータの組み合わせからなる検索マトリクスを送信するステップと、
前記サーバにおいて、前記で入力された検索マトリクスと前記登録マトリクスと照合してマトリクス同士の相似性により検索結果を出力するステップと、
前記検索結果を前記検索ユーザ端末に送信するステップとからなる情報検索方法。 It consists of a server that stores a registration matrix consisting of a combination of data, a network, and a search user terminal connected via the network,
Setting a registration matrix comprising a combination of data stored in the server;
Transmitting a search matrix comprising a combination of data input from user terminals connected via a network;
In the server, collating the search matrix inputted in the above and the registration matrix and outputting a search result by similarity between the matrices;
Transmitting the search result to the search user terminal.
前記サーバに蓄積されたデータの組み合わせからなる登録マトリクスを設定するステップと、
ネットワークを介して接続されるユーザ端末より入力されたデータの組み合わせからなる検索マトリクスを送信するステップと、
前記サーバにおいて、前記で入力された検索マトリクスと前記登録マトリクスと照合してマトリクス同士の相似性により検索結果を出力するステップと、
前記検索結果情報を前記検索ユーザ端末に送信するステップとからなるサーバで実行可能な情報検索プログラム。 A search processing program executed by the server, comprising a server for storing a registration matrix comprising a combination of data, a network, and a search user terminal connected via the network,
Setting a registration matrix comprising a combination of data stored in the server;
Transmitting a search matrix comprising a combination of data input from user terminals connected via a network;
In the server, collating the search matrix inputted in the above and the registration matrix and outputting a search result by similarity between the matrices;
An information search program executable on a server comprising the step of transmitting the search result information to the search user terminal.
前記サーバにおいて、蓄積されたデータの組み合わせからなる登録マトリクスに対して、ネットワークを介して接続されるユーザ端末より入力されたデータの組み合わせからなる検索マトリクスを受信し、
前記サーバにおいて、前記で入力された検索マトリクスと前記登録マトリクスと照合してマトリクス同士の相似性により検索結果を出力し、前記検索ユーザ端末に送信する情報
検索サーバ。 A server that accumulates a registration matrix consisting of a combination of data and accepts a search matrix from a search user terminal connected via a network,
In the server, a search matrix consisting of a combination of data input from a user terminal connected via a network is received for a registration matrix consisting of a combination of accumulated data,
In the server, an information search server that collates the search matrix input in the above and the registration matrix, outputs a search result based on similarity between the matrices, and transmits the search result to the search user terminal.
、E1,,12、、、E1,,1nNとし、以下同様にVn1,,n(N-1) を構成する各要素をEn1,,n(N-1)1、En1,,n(N-1)2、、、En1,,n(N-1)nNとし、このように構成されたデータベースを検
索するために、類似のN次元検索マトリクスMB(N)を用いるとき、N次元検索マトリクスMB(N)の大きさはm1xm2x,,mNで、MB(N) を構成する第1次元の各(N-1)次元要素ベク
トルをU1、U2、、、Un1とし、次に各(N-1)次元ベクトルU1、U2、、、Un1を構成する第2
次元ベクトルをU1に関してU11、U12、、、U1n2とし、U2に関してU21、U22、、、U2n2とし、以下同様にUn1に関してUn11、Un12、、、Un1n2とし、以下同様に第(N-1)次元ベクトルU1,,1を構成する各要素をS1,,11、S1,,12、、、S1,,1nN とし、以下同様にUn1,,n(N-1) を構成する各要素をSn1,,n(N-1)1、Sn1,,n(N-1)2、、、Sn1,,n(N-1)nN とし、データベース分類N次元マトリクスMA(N)と情報検索N次元マトリクスMB(N)それぞれの各第(N-1)次元ベクトル群の各ベクトル毎の各要素群の一致度合いを数値化して、一致度合い数値と伴に検索された情報を順次出力する情報検索装置。 A system for performing information retrieval according to a predetermined database structure from a database created in advance with a structure of a predetermined classification method, and the structure of the database is determined in the form of an N-dimensional matrix MA (N) , the n-size dimension matrix to the n 1 xn 2 x ,, n n , V 1 a first dimension of the (n-1) dimension element vectors constituting the n-dimensional matrix, V 2 ,,, V n1 and then, then the respective (N-1) dimensional vector V 1, V 2 ,,, V 11 the first two-dimensional vector with respect to V 1 constituting the V n1, V 12 ,,, V 1n2 , V with respect to V 2 21 , V 22, ..., V 2n2, and similarly V n11 , V n12, ... V n1n2 with respect to V n1 , and similarly, each element constituting the (N−1) -dimensional vector V 1 ,, 1 E 1 ,, 11
, E 1,, 12 ,,, E 1,, and 1 nN, hereinafter likewise V n1,, n (N- 1) each element constituting E of n1,, n (N-1 ) 1, E n1, , n (N-1) 2, ..., E n1 ,, n (N-1) nN, and using a similar N-dimensional search matrix MB (N) to search a database constructed in this way , The size of the N-dimensional search matrix MB (N) is m 1 xm 2 x ,, m N , and each (N-1) -dimensional element vector of the first dimension constituting MB (N) is represented by U 1 , U 2. ,,, and U n1, then the (N-1) dimensional vector U 1, second constituting the U 2 ,,, U n1
The dimension vector is U 11 , U 12 ,, U 1n2 for U 1 , U 21 , U 22 ,, U 2n2 for U 2 , and so on, as well as U n11 , U n12 ,, U n1n2 for U n1. , and so the (N-1) dimensional vector U 1,, S 1 the elements constituting the 1,, 11, S 1, , 12 ,,, S 1,, and 1 nN, Similarly U n1, , n (N-1) is represented by S n1 ,, n (N-1) 1 , S n1 ,, n (N-1) 2 ,, S n1 ,, n (N-1) nN And quantifying the degree of matching of each element group for each vector of each (N-1) -dimensional vector group of the database classification N-dimensional matrix MA (N) and information retrieval N-dimensional matrix MB (N) An information retrieval device that sequentially outputs information retrieved together with a degree value.
スMA(N)の態様で定められており、該N次元登録マトリクスの大きさはn1xn2x,,nNとし、N次元登録マトリクスを構成する第1次元の各(N-1)次元要素ベクトルをV1、V2、、、Vn1とし、次に各(N-1)次元ベクトルV1、V2、、、Vn1を構成する第2次元ベクトルをV1に
関してV11、V12、、、V1n2とし、V2に関してV21、V22、、、V2n2とし、以下同様にVn1に
関してVn11、Vn12、、、Vn1n2とし、以下同様に第(N-1)次元ベクトルV1,,1を構成する
各要素をE1,,11、E1,,12、、、E1,,1nNとし、以下同様にVn1,,n(N-1) を構成する各要素をEn1,,n(N-1)1、En1,,n(N-1)2、、、En1,,n(N-1)nNとし、該登録マトリクスの第1次元より第(N-1)次元の幾つかのベクトルが空ベクトルで、第(N-1)次元の要素の幾つかが空であるものとし、このように構成されたデータベースを検索するために、類似のN次元検索マトリクスMB(N)を用いるとき、N次元検索マトリクスMB(N)の大きさはm1xm2x,
,mNで、MB(N) を構成する第1次元の各(N-1)次元要素ベクトルをU1、U2、、、Un1とし
、次に各(N-1)次元ベクトルU1、U2、、、Un1を構成する第2次元ベクトルをU1に関してU11、U12、、、U1n2とし、U2に関してU21、U22、、、U2n2とし、以下同様にUn1に関してUn11、Un12、、、Un1n2とし、以下同様に第(N-1)次元ベクトルU1,,1を構成する各要素をS1,,11、S1,,12、、、S1,,1nN とし、以下同様にUn1,,n(N-1) を構成する各要素をSn1,,n(N-1)1、Sn1,,n(N-1)2、、、Sn1,,n(N-1)nN とし、データベース分類N次元登録マトリクスMA(N)と情報検索用N次元検索マトリクスMB(N)それぞれの各第(N-1)次元ベクトル群の各ベクトル毎の各要素群の一致度合いを、登録マトリクスMA(N)の空のベクトル及び空の要素に
対しては行わないで数値化して、一致度合い数値と伴に検索された情報を順次出力する情報検索装置。 A system for performing information retrieval according to a predetermined database structure from a database created in advance with a structure of a predetermined classification system, the structure of the database being determined in the form of an N-dimensional registration matrix MA (N) The size of the N-dimensional registration matrix is n 1 xn 2 x ,, n N, and each (N-1) -dimensional element vector of the first dimension constituting the N-dimensional registration matrix is represented by V 1 , V 2 ,. , and V n1, then the respective (N-1) V 11 with respect to dimensional vectors V 1, V 2 ,,, V 1 the second dimensional vectors forming the V n1, V 12 ,,, V 1n2 , V 2 and V 21, V 22 ,,, V 2n2 respect, and so the V n11, V n12 ,,, V n1n2 respect V n1, Similarly the (N-1) constituting the dimensional vector V 1 ,, 1 Each element is set to E 1 ,, 11 , E 1 ,, 12, ..., E 1,, 1nN, and similarly, each element constituting V n1 ,, n (N-1) is set to E n1 ,, n (N -1) 1 , E n1 ,, n (N-1) 2 ,, E n1 ,, n (N-1) Suppose that nN , some vectors of the (N-1) th dimension from the first dimension of the registration matrix are empty vectors, and some of the elements of the (N-1) th dimension are empty, like this When using a similar N-dimensional search matrix MB (N) to search the constructed database, the size of the N-dimensional search matrix MB (N) is m 1 xm 2 x,
, M N and the first (N-1) dimensional element vectors constituting the MB (N) as U 1 , U 2 , U n1, and then each (N-1) dimensional vector U 1 the second dimension vectors forming the U 2 ,,, U n1 and U 11, U 12 ,,, U 1n2 respect U 1, and U 21, U 22 ,,, U 2n2 respect U 2, hereinafter likewise U and U n11, U n12 ,,, U n1n2 respect n1, hereinafter likewise the (N-1) dimensional vector U 1,, S 1 the elements constituting the 1,, 11, S 1, , 12 ,,, S 1,, 1nN, and similarly, each element constituting U n1 ,, n (N-1) is represented by S n1 ,, n (N-1) 1 , S n1,, n (N-1) 2 , , S n1 ,, n (N-1) nN, and each of the (N-1) -dimensional vector groups of the database classification N-dimensional registration matrix MA (N) and the information search N-dimensional search matrix MB (N). The degree of coincidence of each element group for each vector was quantified without performing it on empty vectors and empty elements in the registration matrix MA (N), and searched together with the degree of coincidence value. Information retrieval apparatus for sequentially outputting the broadcast.
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
JP2008129782A JP5277499B2 (en) | 2007-05-16 | 2008-05-16 | Information retrieval device |
Applications Claiming Priority (3)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
JP2007130710 | 2007-05-16 | ||
JP2007130710 | 2007-05-16 | ||
JP2008129782A JP5277499B2 (en) | 2007-05-16 | 2008-05-16 | Information retrieval device |
Publications (2)
Publication Number | Publication Date |
---|---|
JP2008310811A true JP2008310811A (en) | 2008-12-25 |
JP5277499B2 JP5277499B2 (en) | 2013-08-28 |
Family
ID=40238314
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
JP2008129782A Expired - Fee Related JP5277499B2 (en) | 2007-05-16 | 2008-05-16 | Information retrieval device |
Country Status (1)
Country | Link |
---|---|
JP (1) | JP5277499B2 (en) |
Cited By (3)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
JP2012527043A (en) * | 2009-05-11 | 2012-11-01 | カピトール インコーポレイテッド | Method and system for interacting with and manipulating information |
JP2016085660A (en) * | 2014-10-28 | 2016-05-19 | セイコーエプソン株式会社 | Retrieval server, retrieval system, and retrieval method |
CN114780690A (en) * | 2022-06-20 | 2022-07-22 | 成都信息工程大学 | Patent text retrieval method and device based on multimodal matrix-vector representation |
Citations (9)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
JPH07282087A (en) * | 1994-04-07 | 1995-10-27 | Fuji Xerox Co Ltd | Information structuring and displaying device |
JPH1069485A (en) * | 1996-08-29 | 1998-03-10 | Mitsubishi Denki Bill Techno Service Kk | Interactive information retrieval device |
JPH11149477A (en) * | 1997-11-17 | 1999-06-02 | Nissan Diesel Motor Co Ltd | Retrieval helping method and device |
JPH11288418A (en) * | 1998-04-02 | 1999-10-19 | Canon Inc | Device and method for retrieving image |
JPH11312248A (en) * | 1998-04-30 | 1999-11-09 | Canon Inc | Image retrieval device and its method |
JP2001188678A (en) * | 2000-01-05 | 2001-07-10 | Mitsubishi Electric Corp | Language case inferring device, language case inferring method, and storage medium on which language case inference program is described |
JP2005275505A (en) * | 2004-03-23 | 2005-10-06 | Sony Corp | Information processing apparatus and method, and program |
JP2005332080A (en) * | 2004-05-18 | 2005-12-02 | Nippon Telegr & Teleph Corp <Ntt> | Visual information classification method and apparatus, program, and storage medium recording visual information classification program |
JP2006171966A (en) * | 2004-12-14 | 2006-06-29 | Canon Inc | Index retrieving device |
-
2008
- 2008-05-16 JP JP2008129782A patent/JP5277499B2/en not_active Expired - Fee Related
Patent Citations (9)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
JPH07282087A (en) * | 1994-04-07 | 1995-10-27 | Fuji Xerox Co Ltd | Information structuring and displaying device |
JPH1069485A (en) * | 1996-08-29 | 1998-03-10 | Mitsubishi Denki Bill Techno Service Kk | Interactive information retrieval device |
JPH11149477A (en) * | 1997-11-17 | 1999-06-02 | Nissan Diesel Motor Co Ltd | Retrieval helping method and device |
JPH11288418A (en) * | 1998-04-02 | 1999-10-19 | Canon Inc | Device and method for retrieving image |
JPH11312248A (en) * | 1998-04-30 | 1999-11-09 | Canon Inc | Image retrieval device and its method |
JP2001188678A (en) * | 2000-01-05 | 2001-07-10 | Mitsubishi Electric Corp | Language case inferring device, language case inferring method, and storage medium on which language case inference program is described |
JP2005275505A (en) * | 2004-03-23 | 2005-10-06 | Sony Corp | Information processing apparatus and method, and program |
JP2005332080A (en) * | 2004-05-18 | 2005-12-02 | Nippon Telegr & Teleph Corp <Ntt> | Visual information classification method and apparatus, program, and storage medium recording visual information classification program |
JP2006171966A (en) * | 2004-12-14 | 2006-06-29 | Canon Inc | Index retrieving device |
Cited By (3)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
JP2012527043A (en) * | 2009-05-11 | 2012-11-01 | カピトール インコーポレイテッド | Method and system for interacting with and manipulating information |
JP2016085660A (en) * | 2014-10-28 | 2016-05-19 | セイコーエプソン株式会社 | Retrieval server, retrieval system, and retrieval method |
CN114780690A (en) * | 2022-06-20 | 2022-07-22 | 成都信息工程大学 | Patent text retrieval method and device based on multimodal matrix-vector representation |
Also Published As
Publication number | Publication date |
---|---|
JP5277499B2 (en) | 2013-08-28 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
KR100813333B1 (en) | Search engine supplemented with url's that provide access to the search results from predefined search queries | |
US9990422B2 (en) | Contextual analysis engine | |
JP5300960B2 (en) | Adding attributes and labels to structured data | |
US8301616B2 (en) | Search equalizer | |
JP4638439B2 (en) | Personalized web search | |
USRE44794E1 (en) | Method and apparatus for representing and navigating search results | |
JP5572596B2 (en) | Personalize the ordering of place content in search results | |
CN102687138B (en) | Search is advised cluster and is presented | |
JP5116593B2 (en) | SEARCH DEVICE, SEARCH METHOD, AND SEARCH PROGRAM USING PUBLIC SEARCH ENGINE | |
US8972856B2 (en) | Document modification by a client-side application | |
US9069867B2 (en) | Resource management system, method and program for selecting candidate tag | |
US20130166528A1 (en) | System And Method For Generating A Search Index And Executing A Context-Sensitive Search | |
US20150106157A1 (en) | Text extraction module for contextual analysis engine | |
US20110060717A1 (en) | Systems and methods for improving web site user experience | |
US20150106156A1 (en) | Input/output interface for contextual analysis engine | |
CN102171689A (en) | Providing posts to discussion threads in response to a search query | |
US8631097B1 (en) | Methods and systems for finding a mobile and non-mobile page pair | |
WO2009081393A2 (en) | System and method for invoking functionalities using contextual relations | |
JP2009512954A (en) | Search on structured data | |
CN110869925B (en) | Multiple entity aware pre-entry in a search | |
CN101661490A (en) | Search engine, client thereof and method for searching page | |
CN103262079B (en) | Search device and search method | |
JP5277499B2 (en) | Information retrieval device | |
CN107851114A (en) | Automated information retrieval | |
JP6433270B2 (en) | Content search result providing system and content search result providing method |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
A521 | Request for written amendment filed |
Free format text: JAPANESE INTERMEDIATE CODE: A523 Effective date: 20081027 |
|
A621 | Written request for application examination |
Free format text: JAPANESE INTERMEDIATE CODE: A621 Effective date: 20110512 |
|
A521 | Request for written amendment filed |
Free format text: JAPANESE INTERMEDIATE CODE: A523 Effective date: 20120511 |
|
A977 | Report on retrieval |
Free format text: JAPANESE INTERMEDIATE CODE: A971007 Effective date: 20121228 |
|
A131 | Notification of reasons for refusal |
Free format text: JAPANESE INTERMEDIATE CODE: A131 Effective date: 20130108 |
|
A521 | Request for written amendment filed |
Free format text: JAPANESE INTERMEDIATE CODE: A523 Effective date: 20130311 |
|
TRDD | Decision of grant or rejection written | ||
A01 | Written decision to grant a patent or to grant a registration (utility model) |
Free format text: JAPANESE INTERMEDIATE CODE: A01 Effective date: 20130402 |
|
A61 | First payment of annual fees (during grant procedure) |
Free format text: JAPANESE INTERMEDIATE CODE: A61 Effective date: 20130502 |
|
R150 | Certificate of patent or registration of utility model |
Ref document number: 5277499 Country of ref document: JP Free format text: JAPANESE INTERMEDIATE CODE: R150 Free format text: JAPANESE INTERMEDIATE CODE: R150 |
|
R250 | Receipt of annual fees |
Free format text: JAPANESE INTERMEDIATE CODE: R250 |
|
LAPS | Cancellation because of no payment of annual fees |