[go: up one dir, main page]

JP5154109B2 - Document search apparatus, method, and program - Google Patents

Document search apparatus, method, and program Download PDF

Info

Publication number
JP5154109B2
JP5154109B2 JP2007064571A JP2007064571A JP5154109B2 JP 5154109 B2 JP5154109 B2 JP 5154109B2 JP 2007064571 A JP2007064571 A JP 2007064571A JP 2007064571 A JP2007064571 A JP 2007064571A JP 5154109 B2 JP5154109 B2 JP 5154109B2
Authority
JP
Japan
Prior art keywords
score
document
static
search
structured
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Expired - Fee Related
Application number
JP2007064571A
Other languages
Japanese (ja)
Other versions
JP2008225957A (en
Inventor
真悟 越智
隆教 日野
徹 森
Original Assignee
株式会社ジャストシステム
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by 株式会社ジャストシステム filed Critical 株式会社ジャストシステム
Priority to JP2007064571A priority Critical patent/JP5154109B2/en
Publication of JP2008225957A publication Critical patent/JP2008225957A/en
Application granted granted Critical
Publication of JP5154109B2 publication Critical patent/JP5154109B2/en
Expired - Fee Related legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Landscapes

  • Information Retrieval, Db Structures And Fs Structures Therefor (AREA)

Description

本発明は、構造化文書を対象とした情報検索技術に関する。   The present invention relates to an information retrieval technique for structured documents.

コンピュータの普及とネットワーク技術の進展にともない、ネットワークを介した電子情報の交換が盛んになっている。これにより、従来においては紙ベースで行われていた事務処理の多くが、ネットワークベースの処理に置き換えられつつある。特に、近年では多くの文書ファイルが、XML(eXtensible Markup Language)やHTML(Hyper Text Markup Language)、XHTML(eXtensible HyperText Markup Language)とよばれる構造化文書として作成されるようになってきている。ネットワーク技術の進展と情報検索性に優れた構造化文書の普及は、情報取得コストを急激に低下させている。
特開2006−048536号公報
With the spread of computers and the development of network technology, the exchange of electronic information via networks has become popular. As a result, many of the business processes that have been conventionally performed on a paper basis are being replaced by network-based processes. Particularly, in recent years, many document files have been created as structured documents called XML (eXtensible Markup Language), HTML (Hyper Text Markup Language), and XHTML (eXtensible HyperText Markup Language). Advances in network technology and the spread of structured documents with excellent information searchability have drastically reduced information acquisition costs.
JP 2006-048536 A

通常、文書検索処理では、データの検索条件が入力され、検索条件に適合するデータを含む文書が特定される。文書が特定されると、ユーザはその文書の内容を閲読することにより、求める情報が確かに存在しているかを確認する。複数の文書が特定された場合、複数の文書に対して何らかの順序付けがなされ、その順序付けに応じて構造化文書を表示するのが一般的である。多くのユーザは概ね、上位に表示された文書から内容の閲読を行う。
本発明者は、この閲読に伴うユーザの負荷に着目し、情報取得効率をいっそう高めるためには、求める情報を含む可能性が高い文書を高精度で特定し、上位に順序付けする技術が重要であると想到した。
Normally, in the document search process, data search conditions are input, and a document including data that meets the search conditions is specified. When a document is specified, the user reads the contents of the document to confirm whether or not the requested information exists. When a plurality of documents are specified, some order is generally given to the plurality of documents, and a structured document is generally displayed according to the ordering. Many users generally read content from documents displayed at the top.
The present inventor pays attention to the user's load accompanying this reading, and in order to further improve the information acquisition efficiency, it is important to identify a document that has a high possibility of containing the requested information with high accuracy and order it at the top. I thought it was.

本発明は、本発明者による上記着目に基づいて完成された発明であり、その主たる目的は、構造化文書群のうち、所定の検索条件に該当する構造化文書を示す情報(以下、「検索結果情報」と呼ぶ。)の表示の際に、検索結果情報に含まれる構造化文書をユーザの利便性が高まるように合理的に順序付けするための技術、を提供することにある。   The present invention has been completed on the basis of the above-mentioned attention by the present inventor, and its main purpose is information indicating a structured document corresponding to a predetermined search condition (hereinafter referred to as “search”). It is an object of the present invention to provide a technique for rationally ordering structured documents included in search result information so as to enhance user convenience when displaying “result information”.

本発明のある態様は、タグの階層構造に基づく経路式によってデータの位置が特定される構造化文書を保持するデータベースを検索し、その検索結果を順序付けして出力する文書検索装置に関する。本装置では、ユーザによる順序付けのための静的条件の設定入力を検出する静的条件受付部と、静的条件を保持する静的条件保持部と、構造化文書の検索条件として、検索文字列と順序付けのための動的条件を含む検索要求情報のユーザによる入力を検出する検索要求受付部と、検索文字列を含む構造化文書をデータベースから検索し、その検索結果を検索結果情報として取得する検索実行部と、検索結果情報に含まれる複数の構造化文書と動的条件との適合度を動的スコアとして算出する動的スコア計算部と、検索結果情報に含まれる複数の構造化文書と静的条件との適合度を静的スコアとして算出する静的スコア計算部と、動的スコアと静的スコアに基づいて構造化文書ごとに文書スコアを算出する文書スコア付与部と、構造化文書に付与された文書スコアをもとに、検索結果情報に含まれる複数の構造化文書の順序を決定する順序決定部と、検索結果情報に含まれる複数の構造化文書を決定された順序にて優先順位付けして画面表示させる検索結果出力部と、を備える。   One embodiment of the present invention relates to a document search apparatus that searches a database holding a structured document whose data position is specified by a path expression based on a hierarchical structure of tags, and outputs the search results in order. In this apparatus, as a search condition for a structured document, a search character string is received as a static condition receiving unit for detecting a static condition setting input for ordering by a user, a static condition holding unit for holding a static condition, Search request receiving unit that detects input by the user of search request information including dynamic conditions for ordering and search the structured document including the search character string from the database, and obtain the search result as search result information A search execution unit, a dynamic score calculation unit that calculates a degree of matching between a plurality of structured documents included in the search result information and a dynamic condition as a dynamic score, and a plurality of structured documents included in the search result information; A static score calculation unit that calculates a degree of conformance with a static condition as a static score, a document score assignment unit that calculates a document score for each structured document based on the dynamic score and the static score, and a structured document Attached to And an order determination unit that determines the order of the plurality of structured documents included in the search result information based on the document score, and the priority order in the determined order of the plurality of structured documents included in the search result information. And a search result output unit for displaying on the screen.

この構成によれば、所定の評価基準に基づく静的条件を静的スコアに反映し、また検索を実行するユーザ(以下、「検索実行ユーザ」と呼ぶ。)の主観に基づく動的条件を動的スコアに反映して、最終的な文書スコアを算出し、検索結果情報に含まれる構造化文書の順序付けができる。これにより、所定の評価基準に基づきつつ、検索実行ユーザの要求も満足するように、検索結果情報に含まれる構造化文書を合理的に順序付けしやすくなる。   According to this configuration, a static condition based on a predetermined evaluation criterion is reflected in a static score, and a dynamic condition based on the subjectivity of a user who executes a search (hereinafter referred to as “search execution user”) is changed. The final document score is calculated by reflecting it on the target score, and the structured documents included in the search result information can be ordered. This makes it easier to rationally order the structured documents included in the search result information so that the search execution user's request is satisfied while being based on a predetermined evaluation criterion.

なお、以上の構成要素の任意の組合せ、本発明の表現を方法、システム、プログラム、記録媒体などの間で変換したものもまた、本発明の態様として有効である。   It should be noted that any combination of the above-described constituent elements and a conversion of the expression of the present invention between a method, a system, a program, a recording medium, etc. are also effective as an aspect of the present invention.

本発明によれば、構造化文書の検索における検索結果情報の表示の際に、検索結果情報に含まれる構造化文書をユーザの利便性が高まるように合理的に順序付けしやすくなる。   According to the present invention, when displaying the search result information in the search of the structured document, it becomes easy to reasonably order the structured documents included in the search result information so as to enhance the convenience for the user.

本実施の形態に係る文書検索装置は、検索結果情報に含まれる複数の構造化文書に対し、静的条件に基づいて静的スコアを算出する機能、動的条件に基づいて動的スコアを算出する機能、静的・動的スコアに基づいて文書スコアを算出する機能、そして文書スコアに基づいて構造化文書の順序を決定する機能を備える。これにより、検索結果情報に含まれる構造化文書を合理的に順序付けし、検索実行ユーザにとって利便性の高い文書検索機能を提供する。   The document search apparatus according to the present embodiment calculates a dynamic score based on a dynamic condition and a function that calculates a static score based on a static condition for a plurality of structured documents included in search result information. A function for calculating the document score based on the static / dynamic score, and a function for determining the order of the structured document based on the document score. Thereby, the structured documents included in the search result information are rationally ordered, and a document search function that is highly convenient for the search execution user is provided.

データベースに含まれる文書は、外部公開用の文書と内部公開用の文書、信頼度の高い文書と低い文書のように、様々な評価基準に基づいて分類することができる。静的条件とは、このようにデータベースに含まれる文書群(以下、「コーパス」と呼ぶ。)全体におけるある文書の位置づけを示す条件である。例えば、「信頼度が高い文書」という静的条件にてコーパスから文書検索を実行する場合、社外公開用の文書には社内レビュー中の文書よりも高い静的スコアが付与される。あるいは、社長が作成した文書には一般社員が作成した文書よりも高い静的スコアが付与されるかもしれない。ここでいう静的スコアとは、所定の静的条件に対する各文書の適合度を示す。静的スコアの具体的な算出方法については後述する。   Documents included in the database can be classified on the basis of various evaluation criteria, such as documents for external disclosure and documents for internal disclosure, documents with high reliability, and documents with low reliability. The static condition is a condition indicating the position of a document in the entire document group (hereinafter referred to as “corpus”) included in the database. For example, when a document search is executed from the corpus under the static condition of “document with high reliability”, a static score higher than that of a document currently being reviewed internally is given to a document for external publication. Alternatively, a document created by the president may be given a higher static score than a document created by a general employee. The static score here indicates the degree of fitness of each document with respect to a predetermined static condition. A specific method for calculating the static score will be described later.

なお、静的条件は、データベースに様々な構造化文書を登録する側のユーザである文書登録ユーザによって指定される。ここでいう文書登録ユーザには、実際に構造化文書を登録するユーザだけでなく、静的条件のみを登録するユーザも含む。   The static condition is specified by a document registration user who is a user who registers various structured documents in the database. The document registration user here includes not only a user who actually registers a structured document but also a user who registers only a static condition.

一方、動的条件とは、検索実行ユーザの主観に基づく基準とある文書との適合度を測る条件である。例えば、検索文字列に加えて、「第1優先:タイトル領域、第2優先:キーワード領域」という動的条件にてコーパスから文書検索を実行する場合、タイトル領域に検索文字列を含む文書にはキーワード領域のみに検索文字列を含む文書よりも高い動的スコアが付与される。あるいは、本文領域のみに検索文字列を含む文書には動的スコアは付与されないかもしれない。ここでいう動的スコアとは、検索実行ユーザが指定する動的条件に対する各文書の適合度を示す。   On the other hand, the dynamic condition is a condition for measuring the degree of matching between a reference based on the subject of the search execution user and a certain document. For example, in addition to the search character string, when a document search is executed from the corpus under the dynamic condition of “first priority: title area, second priority: keyword area”, a document including the search character string in the title area Only a keyword area is given a higher dynamic score than a document including a search character string. Alternatively, a dynamic score may not be given to a document that includes a search character string only in the body area. The dynamic score here indicates the degree of suitability of each document for the dynamic condition specified by the search execution user.

なお、動的条件として、文書の中での検索文字列の出現回数が指定されてもよい。この場合、検索文字列の出現回数に基づいて動的スコアが付与される。その他の動的スコアの具体的な算出方法については後述する。   Note that the number of appearances of the search character string in the document may be specified as the dynamic condition. In this case, a dynamic score is given based on the number of appearances of the search character string. Other specific methods for calculating the dynamic score will be described later.

図1は、文書検索装置100の処理の概要を示す模式図である。
検索実行ユーザが文書検索装置100に対して、検索文字列と動的条件を含む検索要求情報を入力すると、文書検索装置100はその検索文字列を含む構造化文書をデータベース300から検索し、複数の構造化文書を含む検索結果情報を取得する。検索文字列は一定の意味をなす文字列であり、自然文であってもよいしキーワードであってもよい。データベース300の構造化文書は、XML文書やXHTML文書のようにタグによって構造化された文書である。
FIG. 1 is a schematic diagram showing an outline of processing of the document search apparatus 100.
When the search execution user inputs search request information including a search character string and dynamic conditions to the document search apparatus 100, the document search apparatus 100 searches the database 300 for a structured document including the search character string, and The search result information including the structured document is acquired. The search character string is a character string having a certain meaning, and may be a natural sentence or a keyword. The structured document in the database 300 is a document structured by tags such as an XML document or an XHTML document.

文書検索装置100の検索ランキング制御部140は、検索結果情報に含まれる各構造化文書に対し、動的スコア・静的スコアを算出する。ここで、動的スコア算出は、動的条件に基づいて行い、静的スコア算出は、静的条件保持部120の静的条件に基づいて行う。そして、動的スコア・静的スコアから文書スコアを算出し、文書スコアをもとに各構造化文書を順序付けする。ここでいう文書スコアとは、それぞれの構造化文書の動的スコア・静的スコアをもとに所定の評価関数により算出され、順序付けの基準となるスコアである。最終的に文書検索装置100は、優先順位付けがされた複数の構造化文書を検索結果情報として検索実行ユーザに返却する。   The search ranking control unit 140 of the document search apparatus 100 calculates a dynamic score / static score for each structured document included in the search result information. Here, the dynamic score calculation is performed based on the dynamic condition, and the static score calculation is performed based on the static condition of the static condition holding unit 120. Then, a document score is calculated from the dynamic score / static score, and each structured document is ordered based on the document score. The document score here is a score that is calculated by a predetermined evaluation function based on the dynamic score / static score of each structured document and serves as a reference for ordering. Finally, the document search apparatus 100 returns a plurality of structured documents with priorities as search result information to the search execution user.

図2は、文書検索装置100の構成を示す機能ブロック図である。
ここに示す各ブロックは、ハードウェア的には、コンピュータのCPUをはじめとする素子や機械装置で実現でき、ソフトウェア的にはコンピュータプログラム等によって実現されるが、ここでは、それらの連携によって実現される機能ブロックを描いている。したがって、これらの機能ブロックはハードウェア、ソフトウェアの組み合わせによっていろいろなかたちで実現できることは、当業者には理解されるところである。
FIG. 2 is a functional block diagram showing the configuration of the document search apparatus 100. As shown in FIG.
Each block shown here can be realized in hardware by an element such as a CPU of a computer or a mechanical device, and in software it is realized by a computer program or the like. Draw functional blocks. Therefore, those skilled in the art will understand that these functional blocks can be realized in various forms by a combination of hardware and software.

文書検索装置100は、ユーザインタフェイス処理部110、静的条件保持部120、検索実行部130、検索ランキング制御部140を含む。
前述したようにデータベース300は、検索対象となる構造化文書を保持し、通信ネットワーク200を介して文書検索装置100と接続される。ここで、通信ネットワーク200には、インターネット、LAN、WAN等様々な通信手段が含まれる。さらには、文書検索装置100とデータベース300は同一のハードウェア上で実現されてもよい。
検索実行部130は、ユーザからの検索要求情報に含まれる検索文字列を含む構造化文書をデータベース300から検索し、その検索結果を検索結果情報として取得する。
The document search apparatus 100 includes a user interface processing unit 110, a static condition holding unit 120, a search execution unit 130, and a search ranking control unit 140.
As described above, the database 300 holds a structured document to be searched and is connected to the document search apparatus 100 via the communication network 200. Here, the communication network 200 includes various communication means such as the Internet, LAN, and WAN. Furthermore, the document search apparatus 100 and the database 300 may be realized on the same hardware.
The search execution unit 130 searches the database 300 for a structured document including the search character string included in the search request information from the user, and acquires the search result as search result information.

ユーザインタフェイス処理部110は、ユーザからの入力処理やユーザに対する情報表示のようなユーザインタフェイス全般に関する処理を担当する。本実施例においては、ユーザインタフェイス処理部110により文書検索装置100のユーザインタフェイスサービスが提供されるものとして説明する。別例として、ユーザはインターネットを介して文書検索装置100を操作してもよい。または、クライアントアプリケーションが通信ネットワークを介して文書検索装置100と入出力を行ってもよい。いずれの場合も、図示しない通信部が、ユーザ端末またはクライアントアプリケーションからの検索要求情報を受信し、またその要求に基づいて実行された検索結果情報をユーザ端末またはクライアントアプリケーションに送信することになる。   The user interface processing unit 110 is in charge of processing related to the entire user interface, such as input processing from the user and information display to the user. In the present embodiment, description will be made assuming that the user interface service of the document search apparatus 100 is provided by the user interface processing unit 110. As another example, the user may operate the document search apparatus 100 via the Internet. Alternatively, the client application may perform input / output with the document search apparatus 100 via a communication network. In either case, a communication unit (not shown) receives search request information from the user terminal or client application, and transmits search result information executed based on the request to the user terminal or client application.

ユーザインタフェイス処理部110は、静的条件受付部112と検索要求受付部114、検索結果出力部116を含む。
静的条件受付部112は、文書登録ユーザからの静的条件の入力操作を受け付け、前述した静的条件保持部120に静的条件を格納する。検索要求受付部114は、検索実行ユーザからの検索要求情報の入力操作を受け付ける。検索結果出力部116は、検索結果情報に含まれる複数の構造化文書を検索ランキング制御部140が決定した順序にて優先順位付けして検索実行ユーザの画面に表示させる。
The user interface processing unit 110 includes a static condition receiving unit 112, a search request receiving unit 114, and a search result output unit 116.
The static condition receiving unit 112 receives a static condition input operation from a document registration user, and stores the static condition in the static condition holding unit 120 described above. The search request receiving unit 114 receives an input operation for search request information from a search execution user. The search result output unit 116 prioritizes a plurality of structured documents included in the search result information in the order determined by the search ranking control unit 140 and displays the structured documents on the screen of the search execution user.

本実施の形態における、検索実行ユーザの画面に表示させられる「検索結果情報」は、文書スコアが上位のものから所定数の文書名とその文書の一部を示すページとして提供される。なお、その他の表示態様であってもよい。例えば、文書スコアが上位の文書は、他の文書と比較してフォントが大きく表示される、他の文書と比較して目立つところに表示される、等の態様であってもよい。また、文書スコアに応じて、一部の文書については文書名のみの提供とされてもよい。   The “search result information” displayed on the screen of the search execution user in the present embodiment is provided as a page indicating a predetermined number of document names and a part of the document from the top of the document score. Other display modes may be used. For example, a document with a higher document score may be displayed in a font larger than other documents, or displayed in a more prominent place compared to other documents. Further, only the document name may be provided for some documents according to the document score.

図1にて機能を説明した検索ランキング制御部140は、動的スコア計算部142、静的スコア計算部144、文書スコア付与部146、順序決定部148を含む。
動的スコア計算部142は、検索結果情報に含まれる複数の構造化文書と動的条件との適合度を動的スコアとして算出する。静的スコア計算部144は、検索結果情報に含まれる複数の構造化文書と静的条件との適合度を静的スコアとして算出する。動的スコアの算出、及び静的スコアの算出の例は後述する。
順序決定部148は、文書スコア付与部146が算出した構造化文書の文書スコアに基づいて、検索結果情報に含まれる複数の構造化文書名を並べる順序を決定する。順序の決定方法は一部のアルゴリズムには限定されない。例えば、文書スコアの降順・昇順で順序を決定してもよいし、文書スコアとその他のパラメータを調整して順序を決定してもよい。
The search ranking control unit 140 whose function has been described with reference to FIG. 1 includes a dynamic score calculation unit 142, a static score calculation unit 144, a document score assignment unit 146, and an order determination unit 148.
The dynamic score calculation unit 142 calculates the degree of matching between the plurality of structured documents included in the search result information and the dynamic condition as a dynamic score. The static score calculation unit 144 calculates the degree of matching between the plurality of structured documents included in the search result information and the static conditions as a static score. An example of calculation of the dynamic score and calculation of the static score will be described later.
The order determining unit 148 determines the order in which a plurality of structured document names included in the search result information are arranged based on the document score of the structured document calculated by the document score assigning unit 146. The order determination method is not limited to some algorithms. For example, the order may be determined in descending / ascending order of the document score, or the order may be determined by adjusting the document score and other parameters.

文書スコア付与部146は、各構造化文書に対する動的スコア・静的スコアをもとに、構造化文書ごとの文書スコアを算出する。文書スコアは、各構造化文書の順序が文書スコアにより判定できる形式で出力されれば、どのように算出されてもよい。例えば、動的スコア・静的スコアの単純な加算でもよいし、積算や既知の様々な算術的・統計的手法を用いて算出されてもよい。   The document score assigning unit 146 calculates a document score for each structured document based on the dynamic score / static score for each structured document. The document score may be calculated in any way as long as the order of each structured document is output in a format that can be determined by the document score. For example, it may be a simple addition of a dynamic score or a static score, or may be calculated using integration or various known arithmetic / statistical methods.

さらに、動的スコア・静的スコアのそれぞれが文書スコアに寄与する割合を示す重み付けの設定が動的条件の一部として与えられ、文書スコア付与部146はその重み付け設定に従って、動的スコア及び静的スコアが文書スコアの算出に寄与する割合を変更してもよい。これにより検索実行ユーザの主観的な基準に基づく動的スコアと、客観的な基準に基づく静的スコアの重み付けを調整でき、検索実行ユーザの状況や共通的な順序付けポリシ等に応じた最適な順序付けを実現できる。   Furthermore, a weighting setting indicating the ratio of each of the dynamic score and the static score contributing to the document score is given as a part of the dynamic condition, and the document score assigning unit 146 follows the dynamic setting and the static score according to the weighting setting. The ratio at which the target score contributes to the calculation of the document score may be changed. As a result, the weighting of the dynamic score based on the subjective criteria of the search execution user and the static score based on the objective criteria can be adjusted, and the optimal ordering according to the status of the search execution user and common ordering policies, etc. Can be realized.

以下重み付け設定に基づく文書スコア算出の例を示す。例えば重み付け設定が、動的:静的=1:1である場合で、動的スコアが50点満点中20点、静的スコアが50点満点中30点で、文書スコアの満点が100点である場合には、文書スコアへの寄与度に差がないためそのまま和算をして、文書スコアは50点となる。別の例として、スコアはそのままで、重み付け設定のみ動的:静的=2:3とすると、動的スコアの寄与度は40%となるため、40点満点に正規化すると動的スコアの寄与分は16点となる。同様に静的スコアの寄与度は60%となるため、60点満点に正規化すると静的スコアの寄与分は36点となる。その結果、文書スコアは52点となる。   An example of document score calculation based on the weight setting is shown below. For example, when the weighting setting is dynamic: static = 1: 1, the dynamic score is 20 points out of 50, the static score is 30 points out of 50, and the document score is 100 points. In some cases, since there is no difference in the degree of contribution to the document score, it is added as it is, and the document score becomes 50 points. As another example, if the score is left as it is and only the weighting setting is dynamic: static = 2: 3, the contribution degree of the dynamic score is 40%. The minute is 16 points. Similarly, since the contribution of the static score is 60%, the contribution of the static score is 36 points when normalized to a full score of 60. As a result, the document score is 52 points.

このように、検索実行ユーザの主観的な基準での順序付けを重くしたければ、文書スコアに対する動的スコアの寄与分を大きくすればよい。逆にコーパスでの構造化文書の位置づけを示す信頼度や重要度といった客観的な基準での順序付けを重くしたければ、文書スコアに対する静的スコアの寄与分を大きくすればよい。   As described above, if the ordering on the subjective basis of the search execution user is to be increased, the contribution of the dynamic score to the document score may be increased. Conversely, if the ordering based on objective criteria such as reliability and importance indicating the positioning of the structured document in the corpus is to be increased, the contribution of the static score to the document score may be increased.

重み付けの設定の極端な例として、静的スコアの重み付けを100%に設定し、動的スコアの重み付けがゼロに設定された場合について説明する。この場合、検索要求情報に含まれる動的条件は意味を失い、検索文字列に基づく構造化文書の絞り込みのみ行われる。文書スコア付与部146は、動的スコアの文書スコアに対する寄与を無効化し、静的スコアのみに基づいて文書スコアを算出する。この重み付けの設定の下では、構造化文書の動的スコアは文書スコアに反映されないため、静的スコアが大きい構造化文書はそのまま文書スコアが大きい構造化文書となる。信頼度や重要度といった客観的な基準にのみ基づいて構造化文書を順序付けした検索結果情報を得たい場合に、この設定は有用である。
逆の極端な例として、動的スコアの重み付けを100%に設定し、静的スコアの重み付けがゼロに設定された場合について説明する。この場合、文書スコア付与部146は、静的スコアの文書スコアに対する寄与を無効化し、動的スコアのみに基づいて文書スコアを算出する。検索実行ユーザの主観的な基準にのみ基づいて構造化文書を順序付けした検索結果情報を得たい場合に、この設定は有用である。
As an extreme example of the weighting setting, a case where the static score weighting is set to 100% and the dynamic score weighting is set to zero will be described. In this case, the dynamic condition included in the search request information loses meaning, and only the structured document is narrowed down based on the search character string. The document score assigning unit 146 invalidates the contribution of the dynamic score to the document score, and calculates the document score based only on the static score. Under this weighting setting, since the dynamic score of the structured document is not reflected in the document score, a structured document with a large static score becomes a structured document with a large document score as it is. This setting is useful when you want to obtain search result information in which structured documents are ordered based only on objective criteria such as reliability and importance.
As an extreme example, the case where the dynamic score weighting is set to 100% and the static score weighting is set to zero will be described. In this case, the document score assigning unit 146 invalidates the contribution of the static score to the document score, and calculates the document score based only on the dynamic score. This setting is useful when it is desired to obtain search result information in which structured documents are ordered based only on the subjective criteria of the search execution user.

図3は、文書検索装置100での処理の流れを示すフローチャートである。同図は、ここまで説明した各機能ブロックによる処理の流れを示している。なお、静的条件については、構造化文書登録時にユーザにより入力され、静的条件受付部112を介して静的条件保持部120に保持されているものとする。
検索要求受付部114は、ユーザによる検索要求情報の入力を検出する(ステップS1)。検索要求情報には、検索文字列と動的条件が含まれる。検索実行部130は検索文字列を含む構造化文書をデータベース300から検索し、その検索結果を検索結果情報として取得する(ステップS2)。動的スコア計算部142は、検索結果情報に含まれる各構造化文書と動的条件から動的スコアを算出する(ステップS3)。ただし、動的スコアの重み付けがゼロの場合、S3の処理はスキップされる。静的スコア計算部144は、検索結果情報に含まれる各構造化文書と静的条件から静的スコアを算出する(ステップS4)。ただし、静的スコアの重み付けがゼロの場合、S4の処理はスキップされる。文書スコア付与部146は、各構造化文書の動的スコア・静的スコアから、その文書の文書スコアを算出する(ステップS5)。順序決定部148は、構造化文書の文書スコアから、検索結果情報に含まれる複数の構造化文書の順序を決定する(ステップS6)。検索結果出力部116は、決定された順序をもとに、各構造化文書に対し優先順位付けして画面表示させる(ステップS7)。
FIG. 3 is a flowchart showing the flow of processing in the document search apparatus 100. This figure shows the flow of processing by each functional block described so far. Note that the static condition is input by the user when the structured document is registered, and is held in the static condition holding unit 120 via the static condition receiving unit 112.
The search request receiving unit 114 detects input of search request information by the user (step S1). The search request information includes a search character string and a dynamic condition. The search execution unit 130 searches the database 300 for a structured document including the search character string, and acquires the search result as search result information (step S2). The dynamic score calculation unit 142 calculates a dynamic score from each structured document and dynamic conditions included in the search result information (step S3). However, if the weighting of the dynamic score is zero, the process of S3 is skipped. The static score calculation unit 144 calculates a static score from each structured document and static conditions included in the search result information (step S4). However, when the static score weight is zero, the process of S4 is skipped. The document score assigning unit 146 calculates the document score of the document from the dynamic score / static score of each structured document (step S5). The order determination unit 148 determines the order of the plurality of structured documents included in the search result information from the document score of the structured document (step S6). Based on the determined order, the search result output unit 116 prioritizes each structured document and displays it on the screen (step S7).

以下、動的スコア、及び静的スコアの算出方法について、具体例を挙げて説明する。なお以下においては、構造化文書としてXML文書、経路式としてXPathを例として示す。   Hereinafter, the calculation method of the dynamic score and the static score will be described with specific examples. In the following, an XML document is shown as an example of a structured document and XPath is shown as an example of a path expression.

なお、本明細書では、XPath式のように、タグの階層構造に基づいてタグのパスを示す構文のことを「経路式」と呼ぶ。例えば、以下のようなXML文書があったとする。
<doc>
<title></title>
<gaiyou>
<comment>コメント1</comment>
</gaiyou>
<body>
<chapter1>
<comment>コメント2</comment>
</chapter1>
</body>
</doc>
ここで、「コメント1」に係る「comment」タグは「/doc/gaiyou/comment」という経路式で特定でき、「コメント2」に係る「comment」タグは「/doc/body/chapter1/comment」という経路式で特定できる。
In this specification, a syntax that indicates a tag path based on a tag hierarchical structure, such as an XPath expression, is referred to as a “path expression”. For example, assume that there is an XML document as follows.
<doc>
<title></title>
<gaiyou>
<comment> Comment 1 </ comment>
</ gaiyou>
<body>
<chapter1>
<comment> Comment 2 </ comment>
</ chapter1>
</ body>
</ doc>
Here, the “comment” tag related to “comment 1” can be specified by the path expression “/ doc / gaiyou / comment”, and the “comment” tag related to “comment 2” is “/ doc / body / chapter1 / comment”. Can be specified by the path expression

XPathは、省略記号にも対応できる表記法となっている。例えば、「//comment」という経路式は、XML文書のどこかにある「comment」タグを意味し、前述のXML文書では、2つの「comment」タグが指定されることになる。また、「/*/*/comment」という経路式は、XML文書の第3階層のどこかにある「comment」タグを意味し、前述のXML文書では「コメント1」に係る「comment」タグが指定されることになる。   XPath is a notation that can handle ellipsis. For example, the path expression “// comment” means a “comment” tag somewhere in the XML document, and two “comment” tags are specified in the XML document. The path expression “/ * / * / comment” means a “comment” tag somewhere in the third level of the XML document. In the XML document, the “comment” tag related to “comment 1” is Will be specified.

ユーザが省略記号のない経路式を記述できれば、構造化文書の特定のタグを一意に指定することができる。しかし、常に正確に経路式がわかるとは限らない。例えば、指定すべきタグが「body」タグの下の「comment」タグであるとはわかっていても、「body」タグと「comment」タグとの間に、どのようなタグが何階層あるかわからないことがある。このような場合に、タグの名前をキーとして柔軟なタグの指定を許容する、前述したような省略記号を含む経路式は有用である。また、タグの名前をキーとして複数のタグを一度に指定したい場合にも、省略記号を含む経路式は有用である。
本明細書では、省略記号を含む経路式を「不完全経路式」と呼び、省略記号を含まない経路式を「完全経路式」と呼ぶ。完全経路式は、構造化文書の特定のタグを一意に特定することができる経路式であり、不完全経路式は、構造化文書の特定のタグを一意に特定するには不十分な経路式であるといえる。言い換えれば、不完全経路式は、複数のタグを一度に指定できる、柔軟性のある経路式であるともいえる。
本明細書の「経路式」とは、完全経路式と不完全経路式の両方を含む概念である。
If the user can describe a path expression without an ellipsis, a specific tag of the structured document can be uniquely specified. However, it is not always possible to know the path formula accurately. For example, even if you know that the tag you want to specify is the "comment" tag under the "body" tag, what kind of tag is between the "body" tag and the "comment" tag I don't understand. In such a case, a path expression including an ellipsis as described above that allows flexible tag specification using the tag name as a key is useful. A path expression that includes an ellipsis is also useful when you want to specify multiple tags at once using the tag name as a key.
In this specification, a path expression that includes an ellipsis is referred to as an “incomplete path expression”, and a path expression that does not include an ellipsis is referred to as a “complete path expression”. A complete path expression is a path expression that can uniquely identify a specific tag in a structured document, and an incomplete path expression is insufficient to uniquely identify a specific tag in a structured document. You can say that. In other words, the incomplete path expression can be said to be a flexible path expression that can specify a plurality of tags at once.
The “path expression” in this specification is a concept including both a complete path expression and an incomplete path expression.

(実施例1)
本実施例の動的条件には、構造化文書内の特定の領域を指定する経路式が含まれる。以下、動的条件または静的条件に指定される経路式のことを特に「指定経路式」と呼ぶことにする。検索実行部130は、指定経路式で指定された特定の領域(以下、「指定経路領域」と呼ぶ。)に検索文字列を含む構造化文書をデータベース300から検索して、その検索結果を検索結果情報として取得する。
Example 1
The dynamic conditions of this embodiment include a path expression that designates a specific area in the structured document. Hereinafter, a path expression designated as a dynamic condition or a static condition will be specifically referred to as a “designated path expression”. The search execution unit 130 searches the database 300 for a structured document including a search character string in a specific area (hereinafter referred to as “specified path area”) specified by the specified path expression, and searches the search result. Obtained as result information.

図4、図5は、データベース300に登録されている構造化文書の例である。例えば、検索実行ユーザが検索文字列として「内線番号」、指定経路式「/doc/keywordt」を指定したとする。この場合、図4の構造化文書は指定経路領域に検索文字列「内線番号」を含んでいるため、この構造化文書は検索結果情報に含まれる。一方で図5の構造化文書は指定経路領域に検索文字列を含まないため、検索結果情報には含まれない。つまり指定経路領域に検索文字列を含む構造化文書だけが検索結果情報に含まれる。   4 and 5 are examples of structured documents registered in the database 300. FIG. For example, it is assumed that the search execution user designates “extension number” and a designated route expression “/ doc / keywordt” as a search character string. In this case, since the structured document of FIG. 4 includes the search character string “extension number” in the designated path area, the structured document is included in the search result information. On the other hand, the structured document of FIG. 5 does not include the search character string in the designated route area, and thus is not included in the search result information. That is, only the structured document including the search character string in the designated route area is included in the search result information.

本実施例によれば、データベースに登録された多数の構造化文書の中から、検索実行ユーザが指定した検索文字列を特定の領域に含むことを条件にして、検索結果情報に含まれる構造化文書を絞り込むことができる。この結果、ユーザが検索結果情報を閲読する際の利便性が向上する。
例えば、検索実行ユーザが検索文字列を「内線番号」として、検索の範囲を特に指定しない場合、図5の構造化文書も「/doc/body」に検索文字列を含むため検索結果情報に含まれることになる。しかし、指定経路式「/doc/keywordt」を与えることで、指定経路領域に検索文字列「内線番号」を含まない図5の構造化文書は検索結果情報には含まれなくなる。もし、この検索実行ユーザが内線番号表を必要とする状況であれば、この実施例に係る方法により、検索実行ユーザにとって不要な図5に係る文書を排除して検索結果情報を閲読する負荷を軽減することができる。
According to the present embodiment, the structured information included in the search result information is provided on the condition that the search character string designated by the search execution user is included in a specific area from among a large number of structured documents registered in the database. You can narrow down documents. As a result, the convenience when the user reads the search result information is improved.
For example, if the search execution user designates the search character string as “extension number” and does not specify the search range, the structured document in FIG. 5 also includes the search character string in “/ doc / body” and is included in the search result information. Will be. However, by providing the designated path expression “/ doc / keywordt”, the structured document of FIG. 5 that does not include the search character string “extension number” in the designated path area is not included in the search result information. If this search execution user needs an extension number table, the method according to this embodiment reduces the load of reading the search result information by eliminating the document according to FIG. 5 unnecessary for the search execution user. Can be reduced.

変形例として、検索実行部130は、検索文字列を含む構造化文書をデータベース300から検索して、その検索結果を検索結果情報として取得してもよい。このとき動的スコア計算部142は、指定経路領域に検索文字列を含む構造化文書に対してのみ所定のスコア調整値により動的スコアを調整する。
上の例でいえば、図4の構造化文書も、図5の構造化文書も、ともに文書中に検索文字列「内線番号」を含むため、検索結果情報に含まれることになる。図4の構造化文書は指定経路領域に「内線番号」を含むため、動的スコア計算部142は、図4の構造化文書の動的スコアを、所定のスコア調整値を加算等して増加させる。一方で、図5の構造化文書は指定経路領域に「内線番号」を含まないため、動的スコア計算部142は、図5の構造化文書の動的スコアを増加させない。その結果、図4の構造化文書の方が上位に順序付けされやすくなる。ただし、図5の構造化文書も検索結果情報には含まれるため、検索実行ユーザは図5の構造化文書についても検索結果情報の表示から確認することができる。
As a modification, the search execution unit 130 may search the structured document including the search character string from the database 300 and acquire the search result as search result information. At this time, the dynamic score calculation unit 142 adjusts the dynamic score with a predetermined score adjustment value only for the structured document including the search character string in the designated path area.
In the above example, both the structured document in FIG. 4 and the structured document in FIG. 5 include the search character string “extension number” in the document, and thus are included in the search result information. Since the structured document in FIG. 4 includes “extension number” in the designated route area, the dynamic score calculation unit 142 increases the dynamic score of the structured document in FIG. 4 by adding a predetermined score adjustment value or the like. Let On the other hand, since the structured document of FIG. 5 does not include the “extension number” in the designated route area, the dynamic score calculation unit 142 does not increase the dynamic score of the structured document of FIG. As a result, the structured document of FIG. 4 is more likely to be ordered higher. However, since the structured document in FIG. 5 is also included in the search result information, the search execution user can check the structured document in FIG. 5 from the display of the search result information.

(実施例2)
本実施例の動的条件には、複数種類の指定経路式と、各指定経路式に対するスコア調整値が含まれる。動的スコア計算部142は、指定経路領域に検索文字列を含む構造化文書の動的スコアを指定経路式に対応するスコア調整値により調整する。
(Example 2)
The dynamic conditions of the present embodiment include a plurality of types of designated route expressions and score adjustment values for each designated route expression. The dynamic score calculation unit 142 adjusts the dynamic score of the structured document including the search character string in the designated route area by the score adjustment value corresponding to the designated route expression.

検索実行ユーザが検索文字列として「内線番号」、動的条件として(指定経路式,スコア調整値)=(/doc/title,10倍)、(/doc/body,1.5倍)を指定したとする。
例えば、ある構造化文書が指定経路領域に検索文字列を含む場合、動的スコアとして1点が加算される。「/doc/title」に「内線番号」を含むなら、その10倍の10点が加算される。一方、「/doc/body」に「内線番号」を含むなら、1.5点が加算される。「/doc/body」に「内線番号」を3回含むなら、1.5×3=4.5点が加算される。すなわち、「/doc/body」に検索文字列「内線番号」を複数含むよりも、「/doc/title」に「内線番号」が含まれる方が動的スコアは高くなりやすい。言い換えれば、検索実行ユーザは、「/doc/title」に「内線番号」を含む構造化文書は、求める構造化文書である可能性が高いと考えていることになる。本実施例によれば、このような検索実行ユーザの検索ポリシを緻密に反映させた形で文書検索を実行できる。
The search execution user specifies "extension number" as the search character string, and (specified route expression, score adjustment value) = (/ doc / title, 10 times), (/ doc / body, 1.5 times) as the dynamic condition Suppose that
For example, when a certain structured document includes a search character string in the designated route area, one point is added as a dynamic score. If “extension number” is included in “/ doc / title”, 10 times that number is added. On the other hand, if “extension number” is included in “/ doc / body”, 1.5 points are added. If “/ doc / body” includes “extension number” three times, 1.5 × 3 = 4.5 points are added. That is, the dynamic score tends to be higher when “/ doc / title” includes “extension number” than “/ doc / body” includes a plurality of search character strings “extension number”. In other words, the search execution user thinks that a structured document including “extension number” in “/ doc / title” is highly likely to be a desired structured document. According to the present embodiment, it is possible to execute a document search in a form that closely reflects the search policy of such a search execution user.

なお、本実施例では動的スコアのスコア調整の例として、積算を示したが、これは加算でもよく、他の文書の動的スコアを減算してもよい。さらに、その他の既知の算術的・統計的スコア計算方法でスコア調整がされてもよい。加算の場合には、例えば、指定経路式に対応するスコア加算値を構造化文書の動的スコアに加算する。減算の場合には、例えば、指定経路式に対応するスコア減算値を他の構造化文書の動的スコアから減算する。他の実施例においても同様である。   In this embodiment, the integration is shown as an example of the score adjustment of the dynamic score. However, this may be addition, or the dynamic score of another document may be subtracted. Furthermore, the score may be adjusted by other known arithmetic / statistical score calculation methods. In the case of addition, for example, the score addition value corresponding to the designated path expression is added to the dynamic score of the structured document. In the case of subtraction, for example, the score subtraction value corresponding to the designated path expression is subtracted from the dynamic scores of other structured documents. The same applies to other embodiments.

また、前述したように、指定経路式には不完全経路式を指定することもできる。動的条件として不完全経路式が指定された場合、指定経路領域は複数になることがある。本実施例の場合、個々の指定経路領域ごとに検索文字列の存否が判断され、動的スコアが調整される。例えば、以下のようなXML文書が検索結果情報に含まれたとする。
<doc>
<title></title>
<gaiyou>
<comment>TODO ○○を修正して下さい。</comment>
</gaiyou>
<body>
<chapter1>
<comment>TODO △△を削除して下さい。</comment>
</chapter1>
</body>
</doc>
ここで、指定経路式として「//comment」が指定されると、指定経路領域は「/doc/gaiyou/comment」のデータ領域、「/doc/body/chapter1/comment」のデータ領域となる。検索文字列が「TODO」だったとすると、それぞれの指定経路領域に検索文字列を含むため、本XML文書の動的スコアは2回調整される。
ここで示したように、ユーザは指定経路式として不完全経路式を指定することで、タグ名をキーとして、構造化文書内の複数の領域を柔軟に指定できる。他の実施例においても同様である。本実施例では、指定したそれぞれの領域の値をもとに動的スコアの調整ができる。
As described above, an incomplete path expression can be specified as the specified path expression. When an incomplete route expression is designated as a dynamic condition, there may be a plurality of designated route areas. In this embodiment, the presence or absence of a search character string is determined for each designated route area, and the dynamic score is adjusted. For example, it is assumed that the following XML document is included in the search result information.
<doc>
<title></title>
<gaiyou>
Please correct <comment> TODO ○○. </ comment>
</ gaiyou>
<body>
<chapter1>
<comment> TODO Please delete △△. </ comment>
</ chapter1>
</ body>
</ doc>
Here, when “// comment” is designated as the designated route expression, the designated route area becomes a data area of “/ doc / gaiyou / comment” and a data area of “/ doc / body / chapter1 / comment”. If the search character string is “TODO”, since the search character string is included in each designated route area, the dynamic score of the XML document is adjusted twice.
As shown here, the user can flexibly specify a plurality of areas in the structured document using the tag name as a key by specifying the incomplete path expression as the specified path expression. The same applies to other embodiments. In this embodiment, the dynamic score can be adjusted based on the value of each designated area.

(実施例3)
本実施例の動的条件には、構造化文書の中の部分領域として動的スコア領域を指定する動的スコア領域指定情報が含まれる。動的スコア領域指定情報は、構造化文書のタグ構造において末端に位置するノードにより示される領域を指定する情報であってもよいし、構造化文書の所定ノードとその所定ノードの近傍のノードにより示される領域を指定する情報であってもよいし、または構造化文書の全体として示される領域を指定する情報であってもよい。動的スコア計算部142は、指定された動的スコア領域を対象として動的スコアを算出する。
(Example 3)
The dynamic condition of the present embodiment includes dynamic score area designation information for designating a dynamic score area as a partial area in the structured document. The dynamic score area designation information may be information for designating an area indicated by a node located at the end in the tag structure of the structured document, or by a predetermined node of the structured document and a node near the predetermined node. It may be information for designating an area to be displayed, or information for designating an area to be shown as an entire structured document. The dynamic score calculation unit 142 calculates a dynamic score for the specified dynamic score area.

図6は、本実施例の動的スコア領域指定情報で指定する領域の説明をする図である。検索実行ユーザは、動的スコアの付与対象となる領域を以下のように指定することができる。
1)構造化文書のタグ構造において末端に位置するノードにより示される領域412
2)構造化文書の所定ノードとその所定ノードの近傍のノードにより示される領域410
3)構造化文書の全体として示される領域400
また、上記2における、構造化文書の所定ノードとその所定ノードの近傍のノードにより示される領域、は検索実行ユーザが指定してもよいし、文書検索装置100が自動的に近傍ノードの計算を行ってもよい。
FIG. 6 is a diagram for explaining an area designated by the dynamic score area designation information according to the present embodiment. The search execution user can specify a region to which a dynamic score is to be assigned as follows.
1) Region 412 indicated by the node located at the end in the tag structure of the structured document
2) Area 410 indicated by a predetermined node of the structured document and a node near the predetermined node
3) Area 400 shown as a whole of the structured document
In addition, the area indicated by the predetermined node of the structured document and the node in the vicinity of the predetermined node in 2 above may be specified by the search execution user, or the document search apparatus 100 automatically calculates the adjacent node. You may go.

近傍ノードとは、構造化文書における特定のノードと階層構造上における位置が近いノードのことをいう。例えば、図4の構造化文書において、検索実行ユーザにより「/doc/title」が指定された場合に、構造化文書における階層の深さが同じで、隣り合うノードである「/doc/author」及び「/doc/keywordt」を近傍ノードと判定してもよい。   A neighboring node refers to a node that is close to a specific node in a structured document in a hierarchical structure. For example, in the structured document of FIG. 4, when “/ doc / title” is designated by the search execution user, “/ doc / author” which is the adjacent node having the same hierarchy depth in the structured document. Also, “/ doc / keywordt” may be determined as a neighboring node.

本実施例の具体例を示す。図4の構造化文書において、検索文字列を「社内書類」として、動的スコア領域指定情報を「/doc/title」ノードとした場合には、動的スコア計算部142は、この構造化文書の動的スコアを増加させない。しかし、動的スコア領域指定情報を「/doc/title」ノード及びその近傍ノードとした場合であって、「/doc/keywordt」が「/doc/title」の近傍ノードとなる場合には、動的スコア計算部142は、この構造化文書の動的スコアを増加させる。   A specific example of this embodiment will be shown. In the structured document of FIG. 4, when the search character string is “in-house document” and the dynamic score area designation information is “/ doc / title” node, the dynamic score calculation unit 142 displays the structured document. Do not increase the dynamic score. However, if the dynamic score area specification information is the “/ doc / title” node and its neighboring nodes, and “/ doc / keywordt” is the neighboring node of “/ doc / title”, The static score calculation unit 142 increases the dynamic score of the structured document.

本実施例によれば、動的スコアを算出する領域を検索実行ユーザが指定することにより、検索結果情報に含まれる構造化文書の表示を、検索実行ユーザの意思を反映した順序にしやすくなる。例えば、特定のノードがわかっていて、その中の検索文字列の出現回数で順序付けをしたい場合は上記1を指定すればよい。また、文書全体における検索文字列の出現回数で順序付けをしたい場合は上記3を指定すればよい。さらにまた、検索文字列がありそうなだいたいの位置はわかるがもしかすると違うかもしれないと考える場合や、階層構造上の位置が近い近傍ノードも含んだ部分領域における検索文字列の出現回数で順序付けをしたい場合は上記2を指定すればよい。このように、検索実行ユーザの構造化文書の構造の理解及び順序付けのニーズに応じて順序付けを柔軟に変更できる点で有用である。さらに、文書検索装置100が近傍ノードを自動計算することで、前述した例のように検索実行ユーザの構造化文書の構造の理解を補完し、さらに検索実行ユーザの利便性を高めることができる。   According to the present embodiment, when the search execution user designates an area for calculating the dynamic score, the structured document included in the search result information is easily displayed in an order reflecting the intention of the search execution user. For example, if a specific node is known and it is desired to order by the number of appearances of the search character string in the node, the above 1 may be specified. If it is desired to order by the number of appearances of the search character string in the entire document, the above-mentioned 3 may be specified. Furthermore, if you think that the approximate position of the search string is known but may be different, order by the number of occurrences of the search string in the partial area that also includes neighboring nodes that are close in the hierarchical structure. If you want to do this, specify 2 above. Thus, it is useful in that the ordering can be flexibly changed in accordance with the understanding of the structure of the structured document of the search execution user and the need for ordering. Further, the document search apparatus 100 automatically calculates the neighboring nodes, so that the understanding of the structure of the search execution user's structured document can be supplemented as in the above-described example, and the convenience of the search execution user can be further enhanced.

なお、近傍ノードの計算については、所定ノードから固定値の距離にあるノードを固定的に近傍ノードと判定してもよい。また、所定ノードを基準ノードとし、さらに構造化文書から近傍ノードの候補となる比較ノードを選択し、基準ノードと比較ノードの階層構造上における位置の近さに基づいて近傍ノードを判定してもよい。
後者の例を以下説明する。ここでは、基準ノードと比較ノードの階層構造上における位置の近さをタグ隣接度として算出し、そのタグ隣接度が所定の閾値以上となる比較ノードを、近傍ノードとして判定する。タグ隣接度の算出にあたっては、まず、基準タグと比較タグの共通する親タグのうち、ルートノードから見て階層が最も深い位置にあるタグを共通タグとして特定する。次に、共通タグ、基準タグ、および比較タグの階層の深さをもとに深度要素値を算出する。そして、共通タグから基準タグへの経路、および共通タグから比較タグへの経路をもとに順序要素値を算出する。最後に、タグ隣接度を深度要素値と順序要素値の加重平均により算出する。
Regarding the calculation of neighboring nodes, a node located at a fixed value distance from a predetermined node may be fixedly determined as a neighboring node. Alternatively, a predetermined node may be used as a reference node, a comparison node that is a candidate for a neighboring node may be selected from a structured document, and a neighboring node may be determined based on the proximity of the reference node and the comparison node in the hierarchical structure Good.
The latter example will be described below. Here, the proximity of the position of the reference node and the comparison node on the hierarchical structure is calculated as the tag adjacency, and the comparison node whose tag adjacency is equal to or greater than a predetermined threshold is determined as the neighborhood node. In calculating the tag adjacency, first of all, the tag at the deepest level when viewed from the root node is identified as the common tag among the parent tags common to the reference tag and the comparison tag. Next, the depth element value is calculated based on the depth of the hierarchy of the common tag, the reference tag, and the comparison tag. Then, the order element value is calculated based on the path from the common tag to the reference tag and the path from the common tag to the comparison tag. Finally, the tag adjacency is calculated by a weighted average of the depth element value and the order element value.

深度要素値は、共通タグが深い位置にあり、共通タグの深さと基準タグの深さの差、共通タグの深さと比較タグの深さの差が小さいほど大きくなる。すなわち、タグの階層において、深い位置で深さに関して近い関係にある基準タグと比較タグの深度要素値は大きくなるという特徴を持つ。
順序要素値は、共通タグが深い位置にあり、共通タグから基準タグへの経路と共通タグから比較タグへの経路が近い関係にあるほど大きくなる。すなわち、順序要素値は、タグの階層において深い位置で経路に関して近い関係にある基準タグと比較タグについては大きな値となるという特徴を持つ。
タグ隣接度は、深度要素値が大きいほど大きく、同じく、順序要素値が大きいほど大きくなるという特徴を持つ。
The depth element value increases as the common tag is located deeper and the difference between the common tag depth and the reference tag depth, and the difference between the common tag depth and the comparison tag depth are smaller. That is, in the tag hierarchy, the depth element value of the reference tag and the comparison tag, which are closely related to the depth at a deep position, has a characteristic of increasing.
The order element value increases as the common tag is located deeper and the path from the common tag to the reference tag and the path from the common tag to the comparison tag are closer to each other. That is, the order element value has a characteristic that it becomes a large value for the reference tag and the comparison tag that are closely related to the route at a deep position in the tag hierarchy.
The tag adjacency has a feature that it increases as the depth element value increases, and similarly increases as the order element value increases.

通常、タグの階層構造は文章構造をそのまま規定することが多く、タグの階層構造によって文書の内容がある程度構造化される。例えば、共通タグが深いほど、共通タグのスコープにおいて示される領域が詳細化・具体化されることが多い。また、共通タグに対して、基準タグや比較タグが深さや経路の面で近い位置にあるほど、共通タグのスコープに含まれる情報のうちでも、基準タグのスコープにある情報と比較タグのスコープにある情報が密接な関係にあることが多い。前述した近傍ノードの計算は、このような知見に基づくものであり、基準ノードから固定値の距離のノードを固定的に近傍ノードとするのに比べて、近傍ノードの範囲を合理的に特定しやすくなる。   Usually, the tag hierarchy often defines the sentence structure as it is, and the contents of the document are structured to some extent by the tag hierarchy. For example, the deeper the common tag, the more frequently the area indicated in the scope of the common tag is detailed and embodied. Also, the closer the reference tag and comparison tag are to the common tag in terms of depth and path, the more information included in the scope of the common tag and the scope of the comparison tag will be included in the information included in the scope of the common tag. Often, the information in is closely related. The calculation of the neighboring node described above is based on such knowledge, and the range of the neighboring node is rationally specified as compared to the case where the node having a fixed value distance from the reference node is fixed as the neighboring node. It becomes easy.

(実施例4)
本実施例において、静的条件には、構造化文書内の特定の領域を指定する経路式と、その指定経路領域に検索文字列を含む構造化文書の静的スコアを調整するためのスコア調整値が含まれる。静的スコア計算部144は、指定経路領域に検索文字列を含む構造化文書の静的スコアをスコア調整値により調整する。
Example 4
In this embodiment, the static condition includes a path expression that specifies a specific area in the structured document and a score adjustment for adjusting the static score of the structured document that includes the search character string in the specified path area. Contains the value. The static score calculation unit 144 adjusts the static score of the structured document including the search character string in the designated route area by the score adjustment value.

静的条件保持部120は、静的条件を保持する間、指定経路領域を含む文書の文書IDと、指定経路領域のノードIDと、スコア調整値の組を第1のインデックスとして作成して保持する。静的スコア計算部144は、検索結果情報に含まれる各構造化文書から、検索文字列を含む文書の文書IDと検索文字列を含むノードのノードIDの組を取得し第2のインデックスとして作成する。静的スコア計算部144は、さらに、第1のインデックスと第2のインデックスの文書ID・ノードIDを比較し、一致した場合には、その文書ID・ノードIDに対応するスコア加算値により構造化文書の静的スコアを調整する。   While holding the static condition, the static condition holding unit 120 creates and holds a set of the document ID of the document including the designated path area, the node ID of the designated path area, and the score adjustment value as the first index. To do. The static score calculation unit 144 acquires, from each structured document included in the search result information, a set of the document ID of the document including the search character string and the node ID of the node including the search character string as a second index To do. The static score calculation unit 144 further compares the document ID / node ID of the first index and the second index, and if they match, the static score calculation unit 144 is structured by the score addition value corresponding to the document ID / node ID. Adjust the static score of the document.

図4の構造化文書の文書登録ユーザが静的条件として、指定経路式「/doc/keywordt」を指定し、それに対応するスコア調整値として「50」を指定していたとする。検索実行ユーザが検索文字列として「内線番号」を指定したとすると、この構造化文書は「/doc/keywordt」に「内線番号」を含むため、静的スコア計算部144は、この構造化文書の静的スコアにスコア調整値「50」を加算する。   Assume that the document registration user of the structured document in FIG. 4 specifies the specified path expression “/ doc / keywordt” as a static condition and “50” as the corresponding score adjustment value. If the search execution user designates “extension number” as a search character string, this structured document includes “extension number” in “/ doc / keywordt”. The score adjustment value “50” is added to the static score.

このように、構造化文書における指定経路領域でのキーワードの存否に基づいたスコア調整を行うことで、客観的な基準に基づいて順序付けされた検索結果情報の表示が可能となる。言い換えれば、登録される構造化文書に関するキーワードを特定の領域に記述し、そのキーワードとの合致で順序付けをする、という共通的な基準の設定が可能となる。例えば、「検索文字列とキーワードタグの文字列が合致した文書は高い順序付けにする」といった共通的なポリシに基づいて検索結果情報に含まれる構造化文書の順序付けを行いたい場合などに有用である。   In this way, by performing score adjustment based on the presence / absence of keywords in the designated route region in the structured document, it is possible to display search result information ordered based on objective criteria. In other words, it is possible to set a common standard in which a keyword related to a structured document to be registered is described in a specific area and ordered according to the matching with the keyword. For example, it is useful when you want to order structured documents included in search result information based on a common policy, such as “Highly order documents that match the search string and keyword tag string”. .

(実施例5)
本実施例において、静的条件には、構造化文書内の特定のノードを指定する経路式と、特定のノードの値に基づいて各構造化文書を順序付けるための規則を示す静的順序付け情報が含まれる。静的スコア計算部144は、構造化文書から経路式で指定された特定のノードの値を取得し、静的順序付け情報を参照して、特定のノードの値に基づいて構造化文書の静的スコアを算出する。
(Example 5)
In the present embodiment, the static condition includes static ordering information indicating a path expression designating a specific node in the structured document and a rule for ordering each structured document based on the value of the specific node. Is included. The static score calculation unit 144 acquires a value of a specific node designated by a path expression from the structured document, refers to the static ordering information, and statically calculates the static value of the structured document based on the value of the specific node. Calculate the score.

本実施例における静的順序付け情報とは、例えば「昇順」や「降順」のように特定のデータ列を順序づけるための規則を示す。
静的条件保持部120は、静的条件を保持する間、経路式で指定される特定のノードを含む文書の文書IDと、経路式で指定される特定のノードのノードIDと、静的順序付け情報の組を第1のインデックスとして作成して保持する。静的スコア計算部144は、検索結果情報に含まれる各構造化文書から、検索文字列を含む文書の文書IDを取得し第2のインデックスとして作成する。静的スコア計算部144は、さらに、第1のインデックスと第2のインデックスの文書IDを比較し、一致した場合には、第1のインデックスで保持されているノードIDに指定されるノードの値を取得する。そして、そのノードの値と静的順序付け情報に基づいて順序づけられるように構造化文書の静的スコアを所定の調整スコアで調整する。
The static ordering information in this embodiment indicates a rule for ordering a specific data string such as “ascending order” or “descending order”.
While holding the static condition, the static condition holding unit 120 includes the document ID of the document including the specific node specified by the path expression, the node ID of the specific node specified by the path expression, and the static ordering. A set of information is created and held as a first index. The static score calculation unit 144 acquires the document ID of the document including the search character string from each structured document included in the search result information, and creates it as a second index. The static score calculation unit 144 further compares the document IDs of the first index and the second index, and if they match, the value of the node designated as the node ID held in the first index To get. Then, the static score of the structured document is adjusted with a predetermined adjustment score so as to be ordered based on the value of the node and the static ordering information.

静的条件として、経路式に「/doc/doc_rank」を指定し、それに対応する静的順序付け情報として「昇順」を指定していたとする。静的スコア計算部144は、検索結果情報に含まれる各構造化文書の「/doc/doc_rank」を取得し、それが降順に順序付けされるように各構造化文書の静的スコアを調整する。ここで、この静的条件に図4及び図5の構造化文書が関連付けられていたとする。
この場合、図4の構造化文書の「/doc/doc_rank」は「80」となっており、図5の構造化文書の「/doc/doc_rank」は「200」となっている。静的順序づけ情報は「昇順」となっているため、静的スコア計算部144は、図4の構造化文書が図5の構造化文書よりも高い順序づけになるように静的スコアを調整する。例えば、図4の構造化文書の静的スコアには図5の構造化文書の静的スコアよりも大きなスコア調整値を加算する。
As a static condition, it is assumed that “/ doc / doc_rank” is specified in the path expression and “ascending order” is specified as the corresponding static ordering information. The static score calculation unit 144 acquires “/ doc / doc_rank” of each structured document included in the search result information, and adjusts the static score of each structured document so that it is ordered in descending order. Here, it is assumed that the structured document of FIGS. 4 and 5 is associated with this static condition.
In this case, “/ doc / doc_rank” of the structured document of FIG. 4 is “80”, and “/ doc / doc_rank” of the structured document of FIG. 5 is “200”. Since the static ordering information is “ascending order”, the static score calculation unit 144 adjusts the static score so that the structured document in FIG. 4 is ordered higher than the structured document in FIG. 5. For example, a larger score adjustment value than the static score of the structured document of FIG. 5 is added to the static score of the structured document of FIG.

このように、構造化文書における文書登録ユーザが指定した特定のノードの値と順序付け情報に基づいたスコア調整を行うことで、客観的な基準に基づいて順序付けされた検索結果情報の表示が可能となる。言い換えれば、登録される構造化文書の順序付けのための値を特定のノードに記述し、そのノードの値と順序付け情報に基づき順序付けする、という共通的な基準の設定が可能となる。例えば、共通的な社内ポリシに基づいて検索結果情報に含まれる構造化文書の順序付けを行いたい場合などに有用である。   In this way, it is possible to display search result information ordered based on objective criteria by performing score adjustment based on the value of a specific node specified by the document registration user in the structured document and the ordering information. Become. In other words, it is possible to set a common standard in which a value for ordering structured documents to be registered is described in a specific node and ordered based on the value of the node and ordering information. For example, it is useful when it is desired to order structured documents included in search result information based on a common in-house policy.

前述の例でさらに示すと、「/doc/doc_rank」の値を、文書作成組織が社長室であれば「20」とし、文書作成組織が総務部であれば「80」とし、文書作成組織が人事部であれば「60」する。そして静的順序付け情報を「昇順」とする。この場合、静的スコアは「/doc/doc_rank」の大きさの順に調整され、データベース300に多数の登録文書があった場合でも、文書作成組織が「社長室」、「人事部」、「総務部」の順で文書が順序付けされやすくなる。
他の例としては、「更新日時」を記述したノードに基づく順序付けや、不動産情報における「駅からの徒歩時間」を記述したノードに基づく順序付けなどが可能になる。
Further in the above example, the value of “/ doc / doc_rank” is set to “20” if the document creation organization is the president's office, “80” if the document creation organization is the general affairs department, If the personnel department, “60”. The static ordering information is assumed to be “ascending order”. In this case, the static score is adjusted in the order of the size of “/ doc / doc_rank”, and even if there are many registered documents in the database 300, the document creation organization is “President's office”, “HR department”, “General affairs” Documents are easily ordered in the order of “part”.
As another example, ordering based on a node describing “update date and time”, ordering based on a node describing “walking time from a station” in real estate information, and the like are possible.

(実施例6)
本実施例において、静的条件には、構造化文書内の特定のノードを指定する経路式と、特定のノードの値の範囲を指定する情報が含まれ、静的スコア計算部144は、構造化文書から経路式で指定された特定のノードの値を取得し、特定のノードの値と範囲を指定する情報をもとに、構造化文書の静的スコアを調整する
(Example 6)
In the present embodiment, the static condition includes a path expression that specifies a specific node in the structured document and information that specifies a value range of the specific node. The static score calculation unit 144 The value of a specific node specified by a path expression is obtained from the structured document, and the static score of the structured document is adjusted based on the information specifying the value and range of the specific node

本実施例における範囲を指定する情報とは、例えば「閾値以上」や「第1の閾値以上で第2の閾値以下」のように特定の値の範囲を指定する範囲指定情報である。
静的条件保持部120は、静的条件を保持する間、経路式で指定される特定のノードを含む文書の文書IDと、経路式で指定される特定のノードのノードIDと、範囲指定情報の組を第1のインデックスとして作成して保持する。静的スコア計算部144は、検索結果情報に含まれる各構造化文書から、検索文字列を含む文書の文書IDを取得し第2のインデックスとして作成する。静的スコア計算部144は、さらに、第1のインデックスと第2のインデックスの文書IDを比較し、一致した場合には、第1のインデックスで保持されているノードIDに指定されるノードの値を取得する。そして、そのノードの値が範囲指定情報で指定される範囲に含まれるかを判定し、含まれる場合、構造化文書の静的スコアを所定の調整スコアで調整する。
The information for designating a range in this embodiment is range designating information for designating a range of a specific value such as “above threshold value” or “below the first threshold value and below the second threshold value”.
While holding the static condition, the static condition holding unit 120 includes a document ID of a document including a specific node specified by the path expression, a node ID of the specific node specified by the path expression, and range specification information Is created and held as a first index. The static score calculation unit 144 acquires the document ID of the document including the search character string from each structured document included in the search result information, and creates it as a second index. The static score calculation unit 144 further compares the document IDs of the first index and the second index, and if they match, the value of the node designated as the node ID held in the first index To get. Then, it is determined whether the value of the node is included in the range specified by the range specification information. If included, the static score of the structured document is adjusted with a predetermined adjustment score.

静的条件として、経路式に「/doc/date」を指定し、それに対応する範囲指定情報として「2006年4月1日以降」を指定していたとする。つまり、2006年4月1日以降の新しい文書を静的スコアの面で優遇し、高い順序づけを行うという共通的な基準があることになる。静的スコア計算部144は、各構造化文書の「/doc/date」の値を取得し、その値と範囲指定情報とを比較する。構造化文書の「/doc/date」の値が範囲指定情報の条件を満たす場合、静的スコア計算部144はその構造化文書の静的スコアを調整する。
この場合、図4の構造化文書の「/doc/date」は「2007/02/01」となっており、図5の構造化文書の「/doc/date」は「2006/01/08」となっている。したがって静的スコア計算部144は、範囲指定情報の条件を満たす図4の構造化文書の静的スコアを、所定のスコア調整値を加算等することで増加させる。
As a static condition, it is assumed that “/ doc / date” is specified in the path expression and “after April 1, 2006” is specified as the corresponding range specification information. In other words, there is a common standard in which new documents after April 1, 2006 are given preferential treatment in terms of static scores and are highly ordered. The static score calculation unit 144 acquires the value of “/ doc / date” of each structured document and compares the value with the range designation information. When the value of “/ doc / date” of the structured document satisfies the condition of the range designation information, the static score calculation unit 144 adjusts the static score of the structured document.
In this case, “/ doc / date” of the structured document of FIG. 4 is “2007/02/01”, and “/ doc / date” of the structured document of FIG. 5 is “2006/01/08”. It has become. Therefore, the static score calculation unit 144 increases the static score of the structured document in FIG. 4 that satisfies the condition of the range designation information by adding a predetermined score adjustment value or the like.

なお、この静的スコアの調整に関し、静的スコア計算部144は、ノードの値が範囲指定情報で指定される範囲に含まれるかを判定し、含まれる場合、構造化文書の静的スコアをそのノードの値に応じて異なる調整スコアで調整してもよい。例えば、第1の閾値以上で第2の閾値以下のような範囲指定情報であった場合、ノードの値が、第1の閾値と同じ値の場合には最小の調整スコアを加算し、第2の閾値と同じ値の場合には最大の調整スコアを加算し、その間である場合にはノードの値に応じて最小調整スコアと最大の調整スコアとの加重平均値を加算してもよい。つまり、ノードの値が、第1の閾値に近いほど小さい調整スコアを加算し、第2の閾値に近いほど大きい調整スコアを加算するようにしてもよい。   Regarding the adjustment of the static score, the static score calculation unit 144 determines whether the value of the node is included in the range specified by the range specification information. If included, the static score of the structured document is determined. You may adjust with a different adjustment score according to the value of the node. For example, when the range designation information is greater than or equal to the first threshold and less than or equal to the second threshold, if the value of the node is the same value as the first threshold, the minimum adjustment score is added, and the second The maximum adjustment score may be added when the value is the same as the threshold value, and the weighted average value of the minimum adjustment score and the maximum adjustment score may be added according to the value of the node when the value is between them. That is, a smaller adjustment score may be added as the node value is closer to the first threshold value, and a larger adjustment score may be added as the node value is closer to the second threshold value.

さらに、この静的スコアの調整に関し、静的スコア計算部144は、ノードの値が範囲指定情報で指定される範囲に含まれるかを判定し、含まれない場合でも、構造化文書の静的スコアをそのノードの値に応じて異なる調整スコアで調整してよい。例えば、第1の閾値以上で第2の閾値以下のような範囲指定情報であった場合、ノードの値が、第1の閾値未満の場合には常に最小の調整スコアを加算し、第2の閾値より大きい場合には常に最大の調整スコアを加算してもよい。   Furthermore, regarding the adjustment of the static score, the static score calculation unit 144 determines whether or not the value of the node is included in the range specified by the range specification information. The score may be adjusted with a different adjustment score depending on the value of the node. For example, when the range designation information is greater than or equal to the first threshold and less than or equal to the second threshold, if the value of the node is less than the first threshold, the minimum adjustment score is always added, and the second When it is larger than the threshold value, the maximum adjustment score may always be added.

このように、構造化文書における文書登録ユーザが指定した特定のノードの値と範囲指定情報に基づいたスコア調整を行うことで、客観的な基準に基づいて順序付けされた検索結果情報の表示が可能となる。言い換えれば、登録される構造化文書の順序付けのための情報を特定のノードに記述し、その情報が特定の範囲に含まれる場合には高い順序付けをする、という共通的な基準の設定が可能になる。前述の例では、2006年4月1日以降の新しい内線番号表を上位に順位付けしやすくなるという効果がある。逆に、現在の状況と対応しない可能性が高い、古い内線番号表を下位に順序付けしやすくなる。
他の例としては、売上実績が目標に満たない売上月報の抽出、不動産情報における駅からの徒歩時間の範囲指定での検索などが可能になる。
In this way, it is possible to display search result information ordered based on objective criteria by adjusting scores based on specific node values and range specification information specified by document registration users in structured documents. It becomes. In other words, it is possible to set a common standard in which information for ordering structured documents to be registered is described in a specific node, and when the information is included in a specific range, a high order is set. Become. In the above-described example, there is an effect that it becomes easy to rank a new extension number table after April 1, 2006 as a higher rank. On the contrary, it becomes easy to order the old extension number table which is likely not to correspond to the current situation in the lower order.
As another example, it is possible to extract a monthly sales report whose sales performance does not meet the target, or search by specifying a range of walking time from the station in the real estate information.

(実施例7)
本実施例において、静的条件には、構造化文書内の特定のノードを指定する経路式と、特定のノードの値との比較対象となる所定の固定値と、所定の固定値と関連付けられたスコア調整値が含まれる。静的スコア計算部144は、構造化文書から経路式で指定された特定のノードの値を取得し、特定のノードの値が固定値と一致するときには、構造化文書の静的スコアをその固定値に対応するスコア調整値により調整する。
(Example 7)
In this embodiment, the static condition is associated with a path expression that specifies a specific node in the structured document, a predetermined fixed value to be compared with the value of the specific node, and a predetermined fixed value. The score adjustment value is included. The static score calculation unit 144 acquires a value of a specific node specified by a path expression from the structured document, and when the value of the specific node matches a fixed value, the static score of the structured document is fixed. Adjust by the score adjustment value corresponding to the value.

静的条件保持部120は、静的条件を保持する際に、経路式で指定される特定のノードを含む文書の文書IDと、経路式で指定される特定のノードのノードIDの組を第1のインデックスとして作成する。そして、ノードIDと、比較対象となる固定値と、スコア調整値の組をレコードとする固定値テーブルを作成する。静的スコア計算部144は、検索結果情報に含まれる構造化文書から、検索文字列を含む文書の文書IDを取得し第2のインデックスとして作成する。静的スコア計算部144は、さらに、第1のインデックスと第2のインデックスの文書IDを比較し、一致した場合には、第1のインデックスで保持されているノードIDに指定されるノードの値を取得する。次に、そのノードの値が固定値テーブルで保持するいずれかの固定値と一致するかを判定し、一致する場合、その固定値に対応するスコア調整値により構造化文書の静的スコアを調整する。   When the static condition holding unit 120 holds the static condition, the static condition holding unit 120 sets a set of a document ID of a document including a specific node specified by the path expression and a node ID of the specific node specified by the path expression. Create as 1 index. Then, a fixed value table having a record of a set of the node ID, the fixed value to be compared, and the score adjustment value is created. The static score calculation unit 144 acquires the document ID of the document including the search character string from the structured document included in the search result information, and creates it as a second index. The static score calculation unit 144 further compares the document IDs of the first index and the second index, and if they match, the value of the node designated as the node ID held in the first index To get. Next, it is determined whether the value of the node matches one of the fixed values held in the fixed value table. If they match, the static score of the structured document is adjusted by the score adjustment value corresponding to the fixed value. To do.

静的条件として、経路式に「/doc/author」を指定し、固定値とそれに対応するスコア調整値として以下のように指定していたとする。
(固定値,スコア調整値)=(A社長,100)、(B部長,80)、(C課長,60)。
図7は、本実施例における構造化文書の例である。検索実行ユーザが検索文字列として「年頭の業務指針」を指定したとすると、検索実行部130は、図7の構造化文書を検索結果情報として取得する。静的スコア計算部144は、各構造化文書の「/doc/author」の値を取得し、その値が固定値テーブルに存在するかを判定する。この場合には、「B部長」は固定値テーブルに存在するため、対応するスコア調整値80で図7の構造化文書の静的スコアを加算等して増加させる。
As a static condition, it is assumed that “/ doc / author” is specified in the path expression, and the fixed value and the corresponding score adjustment value are specified as follows.
(Fixed value, score adjustment value) = (President A, 100), (B department head, 80), (C section head, 60).
FIG. 7 is an example of a structured document in this embodiment. If the search execution user designates “year-old business guidelines” as a search character string, the search execution unit 130 acquires the structured document of FIG. 7 as search result information. The static score calculation unit 144 acquires the value of “/ doc / author” of each structured document and determines whether the value exists in the fixed value table. In this case, since “B section manager” exists in the fixed value table, the static score of the structured document in FIG. 7 is increased by adding the corresponding score adjustment value 80 or the like.

このように、構造化文書における文書登録ユーザが指定した特定のノードの値と範囲指定情報に基づいたスコア調整を行うことで、客観的な基準に基づいて順序付けされた検索結果情報の表示が可能となる。言い換えれば、構造化文書の特定のノードの値が、所定の固定値である場合には高い順序付けをする、という共通的な基準の設定が可能になる。前述の例では、データベース300に多数の登録文書があった場合でも、「/doc/author」の値つまり作成者が「A社長」「B部長」「C課長」の順で順序付けされやすくなる。   In this way, it is possible to display search result information ordered based on objective criteria by adjusting scores based on specific node values and range specification information specified by document registration users in structured documents. It becomes. In other words, it is possible to set a common criterion that, when the value of a specific node in the structured document is a predetermined fixed value, a high ordering is performed. In the above-described example, even when there are a large number of registered documents in the database 300, the value of “/ doc / author”, that is, the creator, is easily ordered in the order of “A president”, “B department manager”, and “C section manager”.

(実施例8)
本実施例において、静的条件には、構造化文書内の特定のノードを指定する経路式と、その特定のノードの値をもとにスコア調整値を算出するスコア計算式が含まれる。静的スコア計算部144は、構造化文書から経路式で指定された特定のノードの値を取得し、その特定のノードの値とスコア計算式からスコア調整値を算出して、構造化文書の静的スコアをスコア調整値により調整する。本実施例における計算式には、四則演算・階乗計算・累乗計算・対数関数・三角関数等、既知の計算方法が含まれる。
(Example 8)
In the present embodiment, the static condition includes a path expression that specifies a specific node in the structured document and a score calculation expression that calculates a score adjustment value based on the value of the specific node. The static score calculation unit 144 acquires a value of a specific node specified by a path expression from the structured document, calculates a score adjustment value from the value of the specific node and the score calculation expression, and The static score is adjusted by the score adjustment value. The calculation formula in the present embodiment includes known calculation methods such as four arithmetic operations, factorial calculation, power calculation, logarithmic function, trigonometric function, and the like.

静的条件保持部120は、静的条件を保持する際に、経路式で指定される特定のノードを含む文書の文書IDと、経路式で指定される特定の領域のノードIDの組を第1のインデックスとして作成するとともに、スコア計算式を文書IDと関連付けて保持する。静的スコア計算部144は、検索結果情報に含まれる構造化文書から、検索文字列を含む文書の文書IDを取得し第2のインデックスとして作成する。静的スコア計算部144は、さらに、第1のインデックスと第2のインデックスの文書IDを比較し、一致した場合には、第1のインデックスで保持されているノードIDに指定されるノードの値を取得する。次に、文書IDと関連付けられた計算式を取得し、先に取得したノードの値をもとにスコア加算値を算出する。最後に、算出したスコア加算値により構造化文書の静的スコアを調整する。   When the static condition holding unit 120 holds a static condition, the static condition holding unit 120 determines a set of a document ID of a document including a specific node specified by the path expression and a node ID of a specific area specified by the path expression. 1 is created as an index, and a score calculation formula is stored in association with the document ID. The static score calculation unit 144 acquires the document ID of the document including the search character string from the structured document included in the search result information, and creates it as a second index. The static score calculation unit 144 further compares the document IDs of the first index and the second index, and if they match, the value of the node designated as the node ID held in the first index To get. Next, a calculation formula associated with the document ID is acquired, and a score addition value is calculated based on the previously acquired node value. Finally, the static score of the structured document is adjusted by the calculated score addition value.

ここでは、本実施例に係る文書検索装置100による役職を利用した静的スコア算出の例を示す。例えば役職区分が以下の場合に、構造化文書を作成者の役職順に順序付けをしたいとする。
(役職,役職区分)=(社長,1)、(部長,10)、(課長,50)、(一般社員,100)
ここで、図7の構造化文書を検索対象とする場合には、経路式を「役職区分 = /doc/author[@yakusyoku]」とすると、<author>の属性であるyakusyokuの値が変数「役職区分」に取得できる。スコア計算式を「スコア = 10000−役職区分^2」とすると、図8のような検索結果情報が表示される。なお、「^」は、べき乗を示す。
Here, an example of static score calculation using a job title by the document search apparatus 100 according to the present embodiment is shown. For example, suppose that it is desired to order structured documents in the order of the creator's post when the post classification is as follows.
(Job title, job title) = (President, 1), (Department manager, 10), (Manager, 50), (General employee, 100)
Here, when the structured document in FIG. 7 is to be searched, if the path expression is “position classification = / doc / author [@yakusyoku]”, the value of yakusyoku, which is the attribute of <author>, is the variable “ It can be acquired in "Job title classification". When the score calculation formula is “score = 10000−position classification ^ 2”, search result information as shown in FIG. 8 is displayed. “^” Indicates a power.

また別の例として、本実施例に係る文書検索装置100による店舗情報を利用した静的スコア算出の例を示す。例えば、店舗データとして店舗位置の東経・北緯の数値、及び現在位置の東経・北緯の数値がわかるとする。
この場合、店舗情報について記述された構造化文書から、例えば以下のような経路式で店舗位置の東経・北緯の数値を取得する。
店舗位置東経 = /doc/shop/gps/tokei
店舗位置北緯 = /doc/shop/gps/hokui
また、以下のようなスコア計算式を用いると、図9のような検索結果情報が表示される。

Figure 0005154109
As another example, an example of static score calculation using store information by the document search apparatus 100 according to the present embodiment will be shown. For example, it is assumed that the store data includes the values of the east longitude and north latitude of the store position and the values of east longitude and north latitude of the current position.
In this case, from the structured document describing the store information, for example, numerical values of the east longitude and north latitude of the store position are acquired by the following route formula.
Store location East longitude = / doc / shop / gps / tokei
North latitude = / doc / shop / gps / hokui
Further, when the following score calculation formula is used, search result information as shown in FIG. 9 is displayed.
Figure 0005154109

検索結果情報に含まれる構造化文書の順序付けの精度を高めるためには、構造化文書に存在する様々な情報をスコア計算のパラメータとして取得する必要がある。さらに、それらのパラメータを複雑に組み合わせてスコアを計算する必要もある。
本実施例によれば、構造化文書に存在する役職区分やGPS位置情報といった既存の様々な情報を取得できる。また取得した情報を活用し任意の計算式で静的スコアを算出できる。これにより、順序付けの柔軟性と精度をいっそう高めることができる。
In order to increase the ordering accuracy of the structured documents included in the search result information, it is necessary to acquire various information existing in the structured documents as parameters for score calculation. Furthermore, it is necessary to calculate a score by combining these parameters in a complicated manner.
According to the present embodiment, it is possible to acquire various existing information such as job titles and GPS position information existing in the structured document. In addition, the static score can be calculated using an arbitrary calculation formula using the acquired information. Thereby, the flexibility and accuracy of ordering can be further increased.

(実施例9)
本実施例において、静的スコアは、複数種類の静的条件に対応付けられる複数種類のスコア調整値により調整され、さらに静的条件には、前記静的スコアの算出に複数のスコア調整値が寄与する割合についての重み付け設定が含まれ、静的スコア計算部144は、その重み付け設定に基づいて、複数のスコア調整値により静的スコアを調整する。
Example 9
In this embodiment, the static score is adjusted by a plurality of types of score adjustment values associated with a plurality of types of static conditions, and the static conditions include a plurality of score adjustment values for calculating the static score. A weighting setting for the contribution ratio is included, and the static score calculation unit 144 adjusts the static score by a plurality of score adjustment values based on the weighting setting.

本実施例の重み付け設定は、静的条件保持部120に保持される。静的スコア計算部144は、静的条件保持部120のこの重み付け設定を参照して静的スコアの算出を行う。
上記の実施例4から7において、静的条件に基づく順序付けについて例を示した。これらはいずれも同時に設定されうるものであり、また同じ実施例に係る静的条件についても同時に複数の静的条件が設定されうる。これは例えば、構造化文書に対して作成者・作成日時・重要度といった複数の評価基準に基づいて順序付けを行いたい場合に起こりうる。本実施例では、これら複数の静的条件の重み付けを調整できるようにすることで組織の共通的なポリシ等に応じた最適な順序付けを実現する。
The weighting setting of this embodiment is held in the static condition holding unit 120. The static score calculation unit 144 refers to this weighting setting of the static condition holding unit 120 and calculates a static score.
In the above-described Examples 4 to 7, an example of ordering based on static conditions is shown. These can all be set simultaneously, and a plurality of static conditions can be set simultaneously for the static conditions according to the same embodiment. This may occur, for example, when it is desired to order structured documents based on a plurality of evaluation criteria such as creator, creation date / time, and importance. In this embodiment, it is possible to adjust the weighting of the plurality of static conditions, thereby realizing the optimal ordering according to the common policy of the organization.

例えば、同一の構造化文書における静的条件として、(1)実施例4に係るキーワード合致によるスコア調整、(2)実施例6に係る更新日時によるスコア調整、(3)実施例7に係る作成者によるスコア調整、が設定されているとする。この場合、(1)の寄与度は40%、(2)の寄与度は30%、(3)の寄与度は30%と設定されていたとすると、どんなに社長が作成した文書であっても、キーワードに合致がなければ静的スコアは小さく算出される。また、キーワードに合致したとしても更新日時が古ければ静的スコアは小さく算出される。   For example, as static conditions in the same structured document, (1) score adjustment by keyword matching according to the fourth embodiment, (2) score adjustment by update date and time according to the sixth embodiment, (3) creation according to the seventh embodiment It is assumed that the score adjustment by the person is set. In this case, if the contribution of (1) is set to 40%, the contribution of (2) is set to 30%, and the contribution of (3) is set to 30%, no matter how the document created by the president, If the keyword does not match, the static score is calculated small. Even if it matches the keyword, if the update date is old, the static score is calculated to be small.

なお、本実施例の重み付けの設定は、動的条件として検索実行ユーザにより与えられてもよい。この場合には、静的スコア計算部144は、動的条件に含まれるこの重み付けの設定を取得して静的スコアの算出を行う。これにより、検索実行ユーザの主観に基づき複数の静的条件個々の重み付けが可能になる。   Note that the weighting setting of this embodiment may be given by the search execution user as a dynamic condition. In this case, the static score calculation unit 144 obtains the weighting setting included in the dynamic condition and calculates the static score. Thereby, it is possible to weight each of the plurality of static conditions based on the subjectivity of the search execution user.

本明細書におけるいずれの実施例においても、静的条件の登録は構造化文書の登録の前であっても、後であってもよい。構造化文書の登録の前に静的条件が登録された場合、構造化文書の登録時に、関連付けられた静的条件に基き前述した第1のインデックスが作成される。構造化文書の登録の後に静的条件が登録された場合、静的条件の登録時に、関連付けられた構造化文書を走査し前述した第1のインデックスが作成される。
さらに、静的条件と構造化文書の関連付けに関し、文書登録ユーザは登録済みの静的条件を文書登録時に選択するようにしてもよい。または、文書のタイトルや作成者に基づいて、自動的に登録済みの静的条件が登録文書に対し関連付けられるようにしてもよい。これにより、文書登録ユーザの手間が軽減されるとともに、文書登録ユーザの手作業によるミスを減らすことができる。さらに、組織の共通ポリシに基づく順序付けを徹底できる点で有用である。
In any of the embodiments herein, the registration of the static condition may be before or after the registration of the structured document. When the static condition is registered before the structured document is registered, the first index described above is created based on the associated static condition when the structured document is registered. When a static condition is registered after registration of a structured document, the associated structured document is scanned to create the first index described above when the static condition is registered.
Further, regarding the association between the static condition and the structured document, the document registration user may select a registered static condition at the time of document registration. Alternatively, a registered static condition may be automatically associated with a registered document based on the document title or creator. Thereby, the labor of the document registration user can be reduced, and mistakes caused by the manual operation of the document registration user can be reduced. Furthermore, it is useful in that the ordering based on the common policy of the organization can be thoroughly implemented.

さらに、いずれの実施例においても、経路式の指定先の領域は、構造化文書と物理的に同一のファイルの領域には限られない。例えば、図4や図5等で示した実体情報を格納する実体文書に関連付けられた、注釈情報を格納する注釈文書についても指定することができる。   Furthermore, in any of the embodiments, the area to which the path expression is designated is not limited to the area of the file that is physically the same as the structured document. For example, it is possible to specify an annotation document storing annotation information associated with an entity document storing entity information shown in FIGS.

ここで、「実体情報」とは検索対象コンテンツとなるデータであり、たとえば、要素やタグ、属性などである。「実体文書」とは実体情報を格納する構造化文書である。「注釈情報」とは実体情報に対して、ユーザが付与する注釈を示すデータであり、たとえば、要素やタグ、属性などである。「注釈文書」とは注釈情報を格納する構造化文書である。実体情報と注釈情報は、それぞれ実体文書と注釈文書という別々の文書に分けて格納され、実体文書と注釈文書のそれぞれについて、データと文書の対応関係がインデックス化される。この2種類のインデックス情報により、実体情報と注釈情報の両面から、求める実体文書を検索できる。   Here, “substance information” is data serving as search target content, such as elements, tags, and attributes. An “entity document” is a structured document that stores entity information. “Annotation information” is data indicating an annotation given by the user to the entity information, such as an element, a tag, and an attribute. An “annotation document” is a structured document that stores annotation information. The entity information and the annotation information are stored separately in separate documents, ie, the entity document and the annotation document, and the correspondence between the data and the document is indexed for each of the entity document and the annotation document. With these two types of index information, the desired entity document can be searched from both the entity information and the annotation information.

経路式の指定先を注釈文書内の注釈情報とした場合には、注釈情報の値により、実体文書を検索結果情報に含めることができ、また注釈文書と関連付けられた実体文書の動的スコア及び静的スコアの調整ができる。例えば、実施例1の場合であれば、経路式を注釈文書に対する「//TODO」とすることで、注釈文書内の「TODO」ノードの領域の注釈情報と関連する実体情報を検索結果情報に含めることができる。また例えば、実施例4の場合であれば、注釈文書内の特定のタグを指定しておき、検索文字列がそのタグの要素と合致した場合には、その注釈文書と関連する実体文書の静的スコアを増加等させ、高い順序を付けることができる。   When the destination of the path expression is the annotation information in the annotation document, the entity document can be included in the search result information according to the value of the annotation information, and the dynamic score of the entity document associated with the annotation document and Static score can be adjusted. For example, in the case of the first embodiment, the path expression is set to “// TODO” for the annotation document, and the entity information related to the annotation information in the area of the “TODO” node in the annotation document is used as the search result information. Can be included. Further, for example, in the case of the fourth embodiment, a specific tag in the annotation document is designated, and when the search character string matches the element of the tag, the static document of the entity document related to the annotation document is specified. The target score can be increased and the order can be increased.

実体文書の記述に対する他者からの修正依頼や記述内容の変更予定のメモなどは、注釈文書側に記述されることが多い。したがって検索実行ユーザは、注釈文書の注釈情報をもとに検索結果情報に含まれる実体情報を順序付けしたいと考えることもある。本実施例では、このような検索実行ユーザのニーズに応え、注釈情報の値による実体文書のスコア調整を実現することで検索実行ユーザの利便性を高める。   An amendment request from another person for a description of an entity document or a memo to change the description content is often described on the annotation document side. Therefore, the search execution user may want to order the entity information included in the search result information based on the annotation information of the annotation document. In the present embodiment, in response to the needs of the search execution user, the convenience of the search execution user is improved by adjusting the score of the entity document based on the value of the annotation information.

以上、本発明を実施の形態をもとに説明した。この実施の形態は例示であり、それらの各構成要素や各処理プロセスの組合せにいろいろな変形例が可能なこと、またそうした変形例も本発明の範囲にあることは当業者に理解されるところである。   The present invention has been described based on the embodiments. This embodiment is an exemplification, and it will be understood by those skilled in the art that various modifications can be made to combinations of the respective constituent elements and processing processes, and such modifications are also within the scope of the present invention. is there.

本実施例ではXML文書を対象として説明したが、文書検索装置100は、XHTMLやHTML、SGMLなど、タグの階層構造に基づく経路式によってデータの位置が特定されるタイプの文書ファイルであれば、いずれを対象としても応用可能である。   In the present embodiment, the XML document has been described as an object. However, the document search apparatus 100 is a document file of a type in which the position of data is specified by a path expression based on a hierarchical structure of tags, such as XHTML, HTML, and SGML. It can be applied to any target.

本発明の実施の形態に係る文書検索装置の処理の概要を示す模式図である。It is a schematic diagram which shows the outline | summary of a process of the document search device concerning embodiment of this invention. 文書検索装置の構成を示す機能ブロック図である。It is a functional block diagram which shows the structure of a document search device. 文書検索装置での処理の流れを示すフローチャートである。It is a flowchart which shows the flow of a process in a document search device. 構造化文書の例である。It is an example of a structured document. 構造化文書の例である。It is an example of a structured document. 動的スコア領域指定情報で指定する領域の説明をする図である。It is a figure explaining the area | region designated with dynamic score area | region designation | designated information. 構造化文書の例である。It is an example of a structured document. 検索結果情報の表示例である。It is a display example of search result information. 検索結果情報の表示例である。It is a display example of search result information.

符号の説明Explanation of symbols

100 文書検索装置、110 ユーザインタフェイス処理部、112 静的条件受付部、114 検索要求受付部、116 検索結果出力部、120 静的条件保持部、130 検索実行部、140 検索ランキング制御部、142 動的スコア計算部、144 静的スコア計算部、146 文書スコア付与部、148 順序決定部、200 通信ネットワーク、300 データベース、400 構造化文書の全体として示される領域、410 構造化文書の所定ノードとその所定ノードの近傍のノードにより示される領域、412 構造化文書のタグ構造において末端に位置するノードにより示される領域、S1 検索要求情報を検出するステップ、S2 検索結果情報を取得するステップ、S3 動的スコアを算出するステップ、S4 静的スコアを算出するステップ、S5 文書スコアを算出するステップ、S6 各文書の順序を決定するステップ、S7 結果を画面表示するステップ。   DESCRIPTION OF SYMBOLS 100 Document search apparatus, 110 User interface process part, 112 Static condition reception part, 114 Search request reception part, 116 Search result output part, 120 Static condition holding part, 130 Search execution part, 140 Search ranking control part, 142 Dynamic score calculation unit, 144 Static score calculation unit, 146 Document score assignment unit, 148 Order determination unit, 200 Communication network, 300 Database, 400 Area shown as a whole of structured document 410 Predetermined node of structured document The area indicated by the node in the vicinity of the predetermined node, 412 the area indicated by the node located at the end in the tag structure of the structured document, the step of detecting S1 search request information, the step of acquiring S2 search result information, and the operation of S3 Step of calculating a static score, S4 static score The step of leaving, calculating an S5 document score, determining S6 order of each document, S7 step of the result screen.

Claims (14)

タグの階層構造に基づく経路式によってデータの位置が特定される構造化文書を保持するデータベースを検索し、その検索結果を順序付けして出力する文書検索装置であって、
ユーザによる前記順序付けのための静的条件の設定入力を検出する静的条件受付部と、
前記静的条件を保持する静的条件保持部と、
構造化文書の検索条件として、検索文字列と前記順序付けのための動的条件を含む検索要求情報のユーザによる入力を検出する検索要求受付部と、
前記検索文字列を含む構造化文書を前記データベースから検索し、その検索結果を検索結果情報として取得する検索実行部と、
前記検索結果情報に含まれる複数の構造化文書と前記動的条件との適合度を動的スコアとして算出する動的スコア計算部と、
前記検索結果情報に含まれる複数の構造化文書と前記静的条件との適合度を静的スコアとして算出する静的スコア計算部と、
前記動的スコアと前記静的スコアに基づいて構造化文書ごとに文書スコアを算出する文書スコア付与部と、
前記構造化文書に付与された前記文書スコアをもとに、前記検索結果情報に含まれる複数の構造化文書の順序を決定する順序決定部と、
前記検索結果情報に含まれる複数の構造化文書を前記決定された順序にて優先順位付けして画面表示させる検索結果出力部と、
を備え
前記静的条件には、前記構造化文書内の特定のノードを指定する経路式と、前記特定のノードの値をもとにスコア調整値を算出するスコア計算式が含まれ、
前記静的スコア計算部は、構造化文書から前記経路式で指定された特定のノードの値を取得し、前記特定のノードの値と前記スコア計算式からスコア調整値を算出して、前記構造化文書の静的スコアを前記スコア調整値により調整することを特徴とする文書検索装置。
A document search device that searches a database holding a structured document in which a data position is specified by a path expression based on a hierarchical structure of tags, and outputs the search results in order,
A static condition receiving unit for detecting a setting input of a static condition for ordering by the user;
A static condition holding unit for holding the static condition;
A search request receiving unit for detecting input by a user of search request information including a search character string and a dynamic condition for ordering as a search condition of a structured document;
A search execution unit that searches the database for a structured document including the search character string and acquires the search result as search result information;
A dynamic score calculation unit that calculates a degree of matching between a plurality of structured documents included in the search result information and the dynamic condition as a dynamic score;
A static score calculation unit that calculates a degree of conformity between the plurality of structured documents included in the search result information and the static condition as a static score;
A document score assigning unit that calculates a document score for each structured document based on the dynamic score and the static score;
An order determination unit that determines the order of a plurality of structured documents included in the search result information based on the document score assigned to the structured document;
A search result output unit configured to prioritize a plurality of structured documents included in the search result information in the determined order and display them on a screen;
Equipped with a,
The static condition includes a path expression that specifies a specific node in the structured document and a score calculation expression that calculates a score adjustment value based on the value of the specific node.
The static score calculation unit obtains a value of a specific node designated by the path expression from a structured document, calculates a score adjustment value from the value of the specific node and the score calculation expression, and the structure document search apparatus characterized that you adjust the static score document by the score adjustment value.
前記動的条件には、更に、前記文書スコアの算出において、前記動的スコアと前記静的スコアが寄与する割合についての重み付け設定が含まれ、
前記文書スコア付与部は、前記重み付け設定に基づいて、前記動的スコアと前記静的スコアから前記文書スコアを算出することを特徴とする請求項1に記載の文書検索装置。
The dynamic condition further includes a weighting setting for a ratio that the dynamic score and the static score contribute in the calculation of the document score,
The document search apparatus according to claim 1, wherein the document score assigning unit calculates the document score from the dynamic score and the static score based on the weighting setting.
前記重み付け設定において、前記静的スコアのみに重み付けが設定され、前記動的スコアには重み付けが設定されない場合、
前記文書スコア付与部は、前記動的スコアの前記文書スコアに対する寄与を無効化し、前記静的スコアのみに基づいて前記文書スコアを算出することを特徴とする請求項2に記載の文書検索装置。
In the weight setting, when only the static score is weighted and the dynamic score is not weighted,
The document search apparatus according to claim 2, wherein the document score assigning unit invalidates the contribution of the dynamic score to the document score, and calculates the document score based only on the static score.
前記動的条件には、前記構造化文書内の特定の領域を指定する経路式が含まれ、
前記検索実行部は、前記経路式で指定された特定の領域に前記検索文字列を含む構造化文書を前記データベースから検索し、その検索結果を検索結果情報として取得することを特徴とする請求項1から3のいずれかに記載の文書検索装置。
The dynamic condition includes a path expression that specifies a specific area in the structured document,
The search execution unit searches the database for a structured document including the search character string in a specific area specified by the path expression, and acquires the search result as search result information. The document search device according to any one of 1 to 3.
前記動的条件には、複数種類の経路式と、前記複数種類の経路式のそれぞれについてのスコア調整値が含まれ、
前記動的スコア計算部は、前記動的条件として指定された経路式が示す領域に前記検索文字列を含む構造化文書の動的スコアを前記経路式に対応するスコア調整値により調整することを特徴とする請求項1から3のいずれかに記載の文書検索装置。
The dynamic condition includes a plurality of types of route expressions and score adjustment values for each of the plurality of types of route expressions.
The dynamic score calculation unit adjusts a dynamic score of a structured document including the search character string in an area indicated by the path expression designated as the dynamic condition by a score adjustment value corresponding to the path expression. The document search apparatus according to claim 1, wherein the document search apparatus is a document search apparatus.
前記動的条件には、前記構造化文書の中の部分領域として動的スコア領域を指定する動的スコア領域指定情報が含まれ、
前記動的スコア計算部は、前記動的スコア領域を対象として動的スコアを算出し、
前記動的スコア領域指定情報は、前記構造化文書のタグ構造において末端に位置するノードにより示される領域、前記構造化文書の所定ノードとその所定ノードの近傍のノードにより示される領域、または前記構造化文書の全体として示される領域、のいずれかを前記動的スコア領域として指定する情報であることを特徴とする請求項1から5のいずれかに記載の文書検索装置。
The dynamic condition includes dynamic score area designation information for designating a dynamic score area as a partial area in the structured document,
The dynamic score calculation unit calculates a dynamic score for the dynamic score area,
The dynamic score area designation information includes an area indicated by a node located at the end in the tag structure of the structured document, an area indicated by a predetermined node of the structured document and a node near the predetermined node, or the structure 6. The document search apparatus according to claim 1, wherein the document search apparatus is information that designates one of the areas indicated as a whole of the digitized document as the dynamic score area.
前記静的条件には、前記構造化文書内の特定の領域を指定する経路式と、前記経路式により指定される領域に前記検索文字列を含む構造化文書の静的スコアを調整するためのスコア調整値がさらに含まれ、
前記静的スコア計算部は、前記経路式で指定された領域に前記検索文字列を含む構造化文書の静的スコアを前記スコア調整値によりさらに調整することを特徴とする請求項1から3のいずれかに記載の文書検索装置。
The static condition includes a path expression that specifies a specific area in the structured document, and a static score of the structured document that includes the search character string in the area specified by the path expression. Including additional score adjustment values,
The static score calculation unit further adjusts a static score of a structured document including the search character string in an area specified by the path expression by the score adjustment value. The document search device according to any one of the above.
前記静的条件には、前記構造化文書内の特定のノードを指定する経路式と、前記特定のノードの値に基づいて各構造化文書を順序付けるための規則を示す静的順序付け情報がさらに含まれ、
前記静的スコア計算部は、構造化文書から前記経路式で指定された特定のノードの値を取得し、前記静的順序付け情報を参照して、前記特定のノードの値に基づいて前記構造化文書の静的スコアをさらに調整することを特徴とする請求項1から3のいずれかに記載の文書検索装置。
Wherein the static condition, the path expression to specify a particular node of the structured document, the static ordering information indicating the rules for ordering the structured document based on the value of the particular node further Included,
The static score calculation unit obtains a value of a specific node specified by the path expression from a structured document, refers to the static ordering information, and performs the structured based on the value of the specific node. 4. The document retrieval apparatus according to claim 1, further comprising adjusting a static score of the document.
前記静的条件には、前記構造化文書内の特定のノードを指定する経路式と、前記特定のノードの値の範囲を指定する情報がさらに含まれ、
前記静的スコア計算部は、構造化文書から前記経路式で指定された特定のノードの値を取得し、前記特定のノードの値と前記範囲を指定する情報をもとに、前記構造化文書の静的スコアをさらに調整することを特徴とする請求項1から3のいずれかに記載の文書検索装置。
The static condition further includes a path expression that specifies a specific node in the structured document and information that specifies a range of values of the specific node.
The static score calculation unit acquires a value of a specific node specified by the path expression from the structured document, and based on the information specifying the value of the specific node and the range, the structured document The document retrieval apparatus according to claim 1, further adjusting the static score of the document.
前記静的条件には、前記構造化文書内の特定のノードを指定する経路式と、前記特定のノードの値との比較対象となる所定の固定値と、前記所定の固定値と関連付けられたスコア調整値がさらに含まれ、
前記静的スコア計算部は、構造化文書から前記経路式で指定された特定のノードの値を取得し、前記特定のノードの値が前記固定値と一致するときには、前記構造化文書の静的スコアを前記固定値に対応する前記スコア調整値によりさらに調整することを特徴とする請求項1から3のいずれかに記載の文書検索装置。
The static condition is associated with a path expression that specifies a specific node in the structured document, a predetermined fixed value to be compared with the value of the specific node, and the predetermined fixed value. Including additional score adjustment values,
The static score calculation unit acquires a value of a specific node specified by the path expression from a structured document, and when the value of the specific node matches the fixed value, the static score of the structured document 4. The document search apparatus according to claim 1, wherein the score is further adjusted by the score adjustment value corresponding to the fixed value. 5.
前記静的スコアは、複数種類の静的条件に対応付けられる複数種類のスコア調整値により調整され、
前記静的条件には、前記静的スコアの算出に複数のスコア調整値が寄与する割合についての重み付け設定が含まれ、
前記静的スコア計算部は、前記重み付け設定に基づいて、前記複数のスコア調整値により前記静的スコアを調整することを特徴とする請求項1から3のいずれかに記載の文書検索装置。
The static score is adjusted by a plurality of types of score adjustment values associated with a plurality of types of static conditions,
The static condition includes a weighting setting for a ratio of a plurality of score adjustment values contributing to the calculation of the static score,
4. The document search apparatus according to claim 1, wherein the static score calculation unit adjusts the static score based on the plurality of score adjustment values based on the weighting setting. 5.
前記静的スコアは、複数種類の静的条件に対応付けられる複数種類のスコア調整値により調整され、
前記動的条件には、前記静的スコアの算出に複数のスコア調整値が寄与する割合についての重み付け設定が含まれ、
前記静的スコア計算部は、前記重み付け設定に基づいて、複数のスコア調整値により前記静的スコアを調整することを特徴とする請求項1から3のいずれかに記載の文書検索装置。
The static score is adjusted by a plurality of types of score adjustment values associated with a plurality of types of static conditions,
The dynamic condition includes a weighting setting for a ratio that a plurality of score adjustment values contribute to the calculation of the static score,
The document search apparatus according to claim 1, wherein the static score calculation unit adjusts the static score by a plurality of score adjustment values based on the weighting setting.
タグの階層構造に基づく経路式によってデータの位置が特定される構造化文書を保持するデータベースを検索し、その検索結果を順序付けして出力する文書検索方法であって、
ユーザによる前記順序付けのための静的条件の設定入力を検出するステップと、
構造化文書の検索条件として、検索文字列と前記順序付けのための動的条件を含む検索要求情報のユーザによる入力を検出するステップと、
前記検索文字列を含む構造化文書を前記データベースから検索し、その検索結果を検索結果情報として取得するステップと、
前記検索結果情報に含まれる複数の構造化文書と前記動的条件との適合度を動的スコアとして算出するステップと、
前記検索結果情報に含まれる複数の構造化文書と前記静的条件との適合度を静的スコアとして算出する静的スコア計算ステップと、
前記動的スコアと前記静的スコアに基づいて構造化文書ごとに文書スコアを算出するステップと、
前記構造化文書に付与された前記文書スコアをもとに、前記検索結果情報に含まれる複数の構造化文書の順序を決定するステップと、
前記検索結果情報に含まれる複数の構造化文書を前記決定された順序にて優先順位付けして画面表示させるステップと、
を備え
前記静的条件には、前記構造化文書内の特定のノードを指定する経路式と、前記特定のノードの値をもとにスコア調整値を算出するスコア計算式が含まれ、
前記静的スコア計算ステップは、構造化文書から前記経路式で指定された特定のノードの値を取得し、前記特定のノードの値と前記スコア計算式からスコア調整値を算出して、前記構造化文書の静的スコアを前記スコア調整値により調整することを特徴とする文書検索方法。
A document search method for searching a database holding a structured document in which a data position is specified by a path expression based on a hierarchical structure of tags, and ordering and outputting the search results,
Detecting a setting input of a static condition for the ordering by a user;
Detecting input by a user of search request information including a search string and a dynamic condition for ordering as a search condition for a structured document;
Retrieving a structured document including the search character string from the database, and obtaining the search result as search result information;
Calculating a fitness score between a plurality of structured documents included in the search result information and the dynamic condition as a dynamic score;
A static score calculation step of calculating a degree of conformity between the plurality of structured documents included in the search result information and the static condition as a static score ;
Calculating a document score for each structured document based on the dynamic score and the static score;
Determining an order of a plurality of structured documents included in the search result information based on the document score assigned to the structured document;
Prioritizing a plurality of structured documents included in the search result information in the determined order and displaying them on the screen;
Equipped with a,
The static condition includes a path expression that specifies a specific node in the structured document and a score calculation expression that calculates a score adjustment value based on the value of the specific node.
The static score calculation step acquires a value of a specific node specified by the path expression from a structured document, calculates a score adjustment value from the value of the specific node and the score calculation expression, and calculates the structure document search method characterized that you adjust the static score document by the score adjustment value.
タグの階層構造に基づく経路式によってデータの位置が特定される構造化文書を保持するデータベースを検索し、その検索結果を順序付けして出力する文書検索機能をコンピュータに実現させるコンピュータプログラムであって、
ユーザによる前記順序付けのための静的条件の設定入力を検出する機能と、
前記静的条件を保持する機能と、
構造化文書の検索条件として、検索文字列と前記順序付けのための動的条件を含む検索要求情報のユーザによる入力を検出する機能と、
前記検索文字列を含む構造化文書を前記データベースから検索し、その検索結果を検索結果情報として取得する機能と、
前記検索結果情報に含まれる複数の構造化文書と前記動的条件との適合度を動的スコアとして算出する機能と、
前記検索結果情報に含まれる複数の構造化文書と前記静的条件との適合度を静的スコアとして算出する静的スコア計算機能と、
前記動的スコアと前記静的スコアに基づいて構造化文書ごとに文書スコアを算出する機能と、
前記構造化文書に付与された前記文書スコアをもとに、前記検索結果情報に含まれる複数の構造化文書の順序を決定する機能と、
前記検索結果情報に含まれる複数の構造化文書を前記決定された順序にて優先順位付けして画面表示させる機能と、
をコンピュータに実現させ
前記静的条件には、前記構造化文書内の特定のノードを指定する経路式と、前記特定のノードの値をもとにスコア調整値を算出するスコア計算式が含まれ、
前記静的スコア計算機能は、構造化文書から前記経路式で指定された特定のノードの値を取得し、前記特定のノードの値と前記スコア計算式からスコア調整値を算出して、前記構造化文書の静的スコアを前記スコア調整値により調整することを特徴とするコンピュータプログラム。
A computer program for causing a computer to realize a document search function for searching a database holding a structured document whose data position is specified by a path expression based on a hierarchical structure of tags, and ordering and outputting the search results,
A function for detecting a setting input of a static condition for the ordering by a user;
A function of holding the static condition;
A function for detecting input by a user of search request information including a search string and a dynamic condition for ordering as a search condition of a structured document;
A function for retrieving a structured document including the search character string from the database and acquiring the search result as search result information;
A function for calculating a fitness score between a plurality of structured documents included in the search result information and the dynamic condition;
A static score calculation function for calculating a degree of conformity between the plurality of structured documents included in the search result information and the static condition as a static score ;
A function for calculating a document score for each structured document based on the dynamic score and the static score;
A function of determining the order of a plurality of structured documents included in the search result information based on the document score assigned to the structured document;
A function of prioritizing a plurality of structured documents included in the search result information in the determined order and displaying them on a screen;
Is realized on a computer ,
The static condition includes a path expression that specifies a specific node in the structured document and a score calculation expression that calculates a score adjustment value based on the value of the specific node.
The static score calculation function acquires a value of a specific node specified by the path expression from a structured document, calculates a score adjustment value from the value of the specific node and the score calculation expression, and the structure computer program characterized that you adjust the static score document by the score adjustment value.
JP2007064571A 2007-03-14 2007-03-14 Document search apparatus, method, and program Expired - Fee Related JP5154109B2 (en)

Priority Applications (1)

Application Number Priority Date Filing Date Title
JP2007064571A JP5154109B2 (en) 2007-03-14 2007-03-14 Document search apparatus, method, and program

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
JP2007064571A JP5154109B2 (en) 2007-03-14 2007-03-14 Document search apparatus, method, and program

Publications (2)

Publication Number Publication Date
JP2008225957A JP2008225957A (en) 2008-09-25
JP5154109B2 true JP5154109B2 (en) 2013-02-27

Family

ID=39844484

Family Applications (1)

Application Number Title Priority Date Filing Date
JP2007064571A Expired - Fee Related JP5154109B2 (en) 2007-03-14 2007-03-14 Document search apparatus, method, and program

Country Status (1)

Country Link
JP (1) JP5154109B2 (en)

Families Citing this family (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP5630863B2 (en) * 2010-11-26 2014-11-26 インターナショナル・ビジネス・マシーンズ・コーポレーションInternational Business Machines Corporation Method, apparatus, and computer program for determining and visualizing total order relation of nodes included in structured document based on log information
WO2013038519A1 (en) * 2011-09-14 2013-03-21 株式会社マイニングブラウニー Web page analysis device and program for analyzing web page
US9317614B2 (en) * 2013-07-30 2016-04-19 Facebook, Inc. Static rankings for search queries on online social networks
JP6577925B2 (en) * 2016-09-20 2019-09-18 株式会社トヨタマップマスター FACILITY SEARCH DEVICE, FACILITY SEARCH METHOD, COMPUTER PROGRAM, AND RECORDING MEDIUM CONTAINING COMPUTER PROGRAM

Family Cites Families (6)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JPH09160908A (en) * 1995-12-12 1997-06-20 Canon Inc Document processor and its method, and storage medium
JP2000020202A (en) * 1998-06-30 2000-01-21 Fujitsu Ltd Information reference support device
JP2000200286A (en) * 1999-01-07 2000-07-18 Hitachi Ltd Structured document search method and system, search device, and computer-readable recording medium storing structured document search program
JP3632643B2 (en) * 2000-10-25 2005-03-23 松下電器産業株式会社 Structured document management device
JP4453229B2 (en) * 2001-07-03 2010-04-21 日本電気株式会社 Information search system, information search method, and information search program
JP2005338992A (en) * 2004-05-25 2005-12-08 Fuji Xerox Co Ltd Document search device and program

Also Published As

Publication number Publication date
JP2008225957A (en) 2008-09-25

Similar Documents

Publication Publication Date Title
JP5116775B2 (en) Information retrieval method and apparatus, program, and computer-readable recording medium
US7657504B2 (en) User interface for displaying images of sights
US8285702B2 (en) Content analysis simulator for improving site findability in information retrieval systems
JP4920023B2 (en) Inter-object competition index calculation method and system
JP4878624B2 (en) Document processing apparatus and document processing method
JP6906419B2 (en) Information providing equipment, information providing method, and program
JP5187313B2 (en) Document importance calculation system, document importance calculation method, and program
US20080183695A1 (en) Using activation paths to cluster proximity query results
JP2004213675A (en) Search of structured document
JP4746439B2 (en) Document search server and document search method
JP2010129061A (en) Index creating system, information retrieval system, and index creating method
JP2007188352A (en) Page reranking device, page reranking program
JPH07319917A (en) Document data base managing device and document data base system
WO2011091442A1 (en) System and method for optimizing search objects submitted to a data resource
JP5154109B2 (en) Document search apparatus, method, and program
JP5266975B2 (en) Personal search system, information processing apparatus, personal search method, program, and recording medium
JP6662689B2 (en) Word judgment device
JP2009271659A (en) Information processing apparatus, information processing method, information processing program and recording medium
JP2004206492A (en) Document display method and gateway device with link destination selection function using the same
JP3647671B2 (en) Information sharing system and information maintenance management method thereof
JP7259854B2 (en) Question answering device, question answering method and program
KR101078978B1 (en) System for grouping documents
JP7103414B2 (en) Display format determination device, display format determination method and program
JP7078569B2 (en) Information processing equipment, information processing methods, and programs
JP2024118178A (en) Information processing device, information processing method, and information processing program

Legal Events

Date Code Title Description
A621 Written request for application examination

Free format text: JAPANESE INTERMEDIATE CODE: A621

Effective date: 20100302

A977 Report on retrieval

Free format text: JAPANESE INTERMEDIATE CODE: A971007

Effective date: 20120307

A131 Notification of reasons for refusal

Free format text: JAPANESE INTERMEDIATE CODE: A131

Effective date: 20120321

A521 Written amendment

Free format text: JAPANESE INTERMEDIATE CODE: A523

Effective date: 20120521

TRDD Decision of grant or rejection written
A01 Written decision to grant a patent or to grant a registration (utility model)

Free format text: JAPANESE INTERMEDIATE CODE: A01

Effective date: 20121120

A61 First payment of annual fees (during grant procedure)

Free format text: JAPANESE INTERMEDIATE CODE: A61

Effective date: 20121205

FPAY Renewal fee payment (event date is renewal date of database)

Free format text: PAYMENT UNTIL: 20151214

Year of fee payment: 3

R150 Certificate of patent or registration of utility model

Free format text: JAPANESE INTERMEDIATE CODE: R150

LAPS Cancellation because of no payment of annual fees