JP4119413B2 - Knowledge information collection system, knowledge search system, and knowledge information collection method - Google Patents
Knowledge information collection system, knowledge search system, and knowledge information collection method Download PDFInfo
- Publication number
- JP4119413B2 JP4119413B2 JP2004289070A JP2004289070A JP4119413B2 JP 4119413 B2 JP4119413 B2 JP 4119413B2 JP 2004289070 A JP2004289070 A JP 2004289070A JP 2004289070 A JP2004289070 A JP 2004289070A JP 4119413 B2 JP4119413 B2 JP 4119413B2
- Authority
- JP
- Japan
- Prior art keywords
- information
- knowledge
- expression
- knowledge information
- natural language
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Expired - Fee Related
Links
Images
Landscapes
- Information Retrieval, Db Structures And Fs Structures Therefor (AREA)
Description
本発明は、ナレッジマネジメントシステムで用いられる知識データベースに登録すべき情報を外部データソースから収集し、また知識データベースに登録された情報を検索するのに好適な、知識情報収集システム、知識検索システム及び知識情報収集方法に関する。 The present invention collects information to be registered in a knowledge database used in a knowledge management system from an external data source, and is suitable for retrieving information registered in a knowledge database, a knowledge retrieval system, and a knowledge retrieval system It relates to a method for collecting knowledge information.
近年、知識情報の共有支援を図るためのナレッジマネジメントシステムが開発されている。このナレッジマネジメントシステムは、個人のノウハウなどの知識情報を知識データベースに蓄積して管理するためのものであり、自然言語検索などの検索機能と組み合わせることにより、蓄積された知識情報の効率的な活用を実現する。 In recent years, knowledge management systems for supporting sharing of knowledge information have been developed. This knowledge management system is for accumulating and managing knowledge information such as personal know-how in a knowledge database. By combining it with a search function such as natural language search, the knowledge management system can be used efficiently. To realize.
このようなナレッジマネジメントシステムでは、知識情報をいかに効率よく収集するかが重要なポイントとなる。そこで最近は、外部データソースとしてのネットワーク、例えばインターネットから、ファイル形式の異なる様々な種類の文書ファイルを知識情報として効率よく収集するための知識情報収集システムが開発されている(例えば、特許文献1参照)。この特許文献1に記載された知識情報収集システムにおいては、設定ファイルに設定された知識情報収集のための条件(知識情報収集条件)に従って、インターネットから、文書情報が次のように収集される。
In such a knowledge management system, how to efficiently collect knowledge information is an important point. Therefore, recently, a knowledge information collection system for efficiently collecting various types of document files having different file formats as knowledge information from a network as an external data source, such as the Internet, has been developed (for example, Patent Document 1). reference). In the knowledge information collection system described in
まず、知識情報収集システムは、設定ファイルとWeb収集モジュールとを有する。設定ファイルには、ユーザ(例えば管理者である管理ユーザ)の操作によって、情報収集の対象となるリンクの段数及びリンク毎の収集ファイル個数の少なくとも一方が、起点URL(Uniform Resource Locator)と共に設定される。Web収集モジュールは、起点URL及びリンクの段数が設定ファイルに設定されている場合、当該起点URLから設定されたリンクの段数の上限を超えない範囲で、全てのリンクを辿ってインターネットから文書情報(ページ情報)を収集する。また、起点URL及びリンクの段数に加えて、リンク毎の収集ファイル個数が設定されている場合、Web収集モジュールは、起点URLから設定されたリンクの段数の上限を超えず、かつ設定されたリンク毎の収集ファイル個数を超えない範囲で、全てのリンクを辿ってインターネットから文書情報を収集する。
上記したように、特許文献1に記載された知識情報収集技術(以下、先行技術と称する)によれば、設定ファイルを用いて、ネットワーク上からの情報収集の対象となるリンクの段数等を任意に指定することで、起点URLから指定のリンクの段数の上限を超えない範囲で、全てのリンクを辿って文書情報が収集される。 As described above, according to the knowledge information collection technique described in Patent Document 1 (hereinafter referred to as the prior art), the number of link stages or the like to be collected from the network can be arbitrarily set using the setting file. Is specified, the document information is collected by tracing all the links within the range not exceeding the upper limit of the number of stages of the specified links from the starting URL.
このように先行技術では、あるURLの情報を収集することができるが、元情報がどのように書かれているかは考慮されていない。このため先行技術においては、元情報中に表があっても、表内に記述されている単語は単純なテキストとして、知識データベースに格納されるだけであり、自然言語検索をする場合の精度に対する工夫はなされていない。したがって先行技術には、収集された知識情報が表形式で書かれている場合に、知識データベースを対象とする自然言語検索の精度が芳しくなく、且つ表示される要約が利用者に分かりにくいという問題がある。 As described above, in the prior art, information on a certain URL can be collected, but it is not considered how the original information is written. For this reason, in the prior art, even if there is a table in the original information, the words described in the table are only stored as simple texts in the knowledge database, and the accuracy for the natural language search is reduced. There is no ingenuity. Therefore, in the prior art, when the collected knowledge information is written in a tabular format, the accuracy of the natural language search for the knowledge database is not good and the displayed summary is difficult for the user to understand. There is.
本発明は上記事情を考慮してなされたものでその目的は、収集された知識情報に含まれる表情報を自然言語で知識データベースへ登録することができる知識情報収集システム及び方法を提供することにある。 The present invention has been made in view of the above circumstances, and an object thereof is to provide a knowledge information collection system and method capable of registering table information included in collected knowledge information in a knowledge database in a natural language. is there.
本発明の他の目的は、知識情報収集システムによって収集された知識情報が登録された知識データベースを有効に利用することで、ユーザにとって分かりやすい要約を提示できる知識検索システムを提供することにある。 Another object of the present invention is to provide a knowledge search system capable of presenting an easy-to-understand summary for a user by effectively using a knowledge database in which knowledge information collected by a knowledge information collection system is registered.
本発明の1つの観点によれば、知識条件設定手段により設定された知識情報収集条件をもとに、知識データベースに登録すべき知識情報を外部データソースから収集する知識情報収集システムが提供される。この知識情報収集システムは、表を構成する、少なくとも、要素値、当該要素値に対応する項目の種類を表す要素種別、及び表名に相当する対象の各カテゴリ毎に、そのカテゴリに適用し得る表現を保持する解析辞書と、前記収集された知識情報に、少なくとも、要素値、当該要素値に対応する項目の種類を表す要素種別、及び表名に相当する対象の各カテゴリから構成される表を示す表情報が含まれているかを判定する判定手段と、前記収集された知識情報に前記表情報が含まれていると判定された場合、当該表情報を解析することによって、前記解析辞書に保持されている表現に合致する、当該表情報によって示される表を構成する対象の表現、要素種別の表現及び要素値の表現を抽出する表情報解析手段と、前記抽出された対象の表現、要素種別の表現及び要素値の表現が、特定の助詞でつながれた自然言語を作成する自然言語変換手段と、前記収集された知識情報からテキストデータを抽出するテキスト抽出手段と、前記自然言語変換手段によって作成された自然言語を、対応する表情報を含む知識情報から抽出されたテキストデータに付して、前記知識データベースへの知識情報登録を行う登録手段へ送出する送出手段とを備える。 According to one aspect of the present invention, there is provided a knowledge information collection system that collects knowledge information to be registered in a knowledge database from an external data source based on the knowledge information collection conditions set by the knowledge condition setting means. . This knowledge information collecting system can be applied to each category of at least an element value, an element type representing an item type corresponding to the element value, and a target category corresponding to the table name constituting the table. An analysis dictionary that holds expressions, and a table that includes at least the element value, the element type that represents the type of the item corresponding to the element value, and the target category corresponding to the table name in the collected knowledge information determination means for determining includes a table information indicating, when the table information is determined to be included in the collected knowledge information by analyzing the table data, the analysis dictionary matches the expression are held, expression of the target constituting the table indicated by the table information, the schedule information analyzing means for extracting a representation of representation and element values of elements type, representation of the extracted object Representation of representation and element values of the element type is a natural language conversion means for generating a natural language which is connected with a specific particle, and text extracting means for extracting text data from the collected knowledge information, the natural language conversion means the natural language created by and subjected to text data extracted from the knowledge information including corresponding table information, and a transmitting means for transmitting to a registering means for performing knowledge information registration in the knowledge database.
このような構成においては、収集された知識情報に含まれている表情報を自然言語として当該知識情報(から抽出されたテキストデータ)に付して知識データベースに登録することが可能となるため、自然言語検索の精度の向上が期待できる。 In such a configuration, the table information included in the collected knowledge information can be registered in the knowledge database with the knowledge information (text data extracted from) as natural language, Expected to improve the accuracy of natural language search.
また、本発明の他の観点によれば、上記知識情報収集システムによって収集された知識情報が登録される知識データベースと、ユーザにより指定された自然言語検索条件に従って自然言語検索処理を行って上記知識データベースから当該検索条件に合致した検索結果を取得する検索手段であって、検索結果に表情報を含む知識情報がある場合、当該知識情報に付されている上記表情報から変換された自然言語を、当該知識情報の要約としてユーザに提示する検索手段とを備えた知識検索システムが提供される。 According to another aspect of the present invention, the knowledge database in which the knowledge information collected by the knowledge information collection system is registered and the natural language search process according to the natural language search condition specified by the user are performed, and the knowledge A search means for acquiring a search result that matches the search condition from a database, and when there is knowledge information including table information in the search result, a natural language converted from the table information attached to the knowledge information is There is provided a knowledge search system comprising search means for presenting to the user as a summary of the knowledge information.
このような構成においては、検索結果に表情報を含む知識情報がある場合、ユーザに提示される検索結果としての当該知識情報の要約に、表情報から変換された自然言語が用いられるため、ユーザは目的の検索結果を探し易くなる。 In such a configuration, when there is knowledge information including table information in the search result, the natural language converted from the table information is used for the summary of the knowledge information as the search result presented to the user. Makes it easier to find the desired search results.
本発明によれば、収集された知識データベースに登録すべき知識情報に表情報が含まれている場合、その表情報を自然言語に変換して当該知識データベースに登録することが可能となるため、自然言語検索の精度の向上が可能となる。 According to the present invention, when table information is included in the knowledge information to be registered in the collected knowledge database, it is possible to convert the table information into a natural language and register it in the knowledge database. The accuracy of natural language search can be improved.
また本発明によれば、検索結果に表情報を含む知識情報がある場合、ユーザに提示する当該知識情報の要約に、表情報から変換された自然言語を用いることにより、ユーザにとって分かり易い要約を提示することができる。 Further, according to the present invention, when there is knowledge information including table information in the search result, a summary that is easy to understand for the user can be obtained by using a natural language converted from the table information for the summary of the knowledge information presented to the user. Can be presented.
以下、本発明の一実施形態につき図面を参照して説明する。
図1は本発明の一実施形態に係るナレッジマネジメントシステムの構成を示すブロック図である。このナレッジマネジメントシステムは、知識情報の収集、分析及び検索等のサービスを提供する。ナレッジマネジメントシステムは、Web情報収集システム11、知識検索システム12、登録モジュール13及び設定ファイル14を含む。Web情報収集システム11、登録モジュール13及び設定ファイル14は、ナレッジマネジメントシステムが提供するサービスの1つである知識情報の収集を行うための知識情報収集システムを構築する。
Hereinafter, an embodiment of the present invention will be described with reference to the drawings.
FIG. 1 is a block diagram showing a configuration of a knowledge management system according to an embodiment of the present invention. This knowledge management system provides services such as collection, analysis and search of knowledge information. The knowledge management system includes a Web
Web情報収集システム11は、外部データソースとしてのネットワーク、例えばインターネット/イントラネット20上のWebサーバ等からユーザに有用なWeb情報(ページ情報)を収集してテキスト部分を抽出する。Web情報収集システム11は、収集制御モジュール111、表情報自然言語変換機構112及びテキスト抽出モジュール114から構成される。
The Web
表情報自然言語変換機構112は、表情報解析モジュール112a、自然言語付加モジュール112b及び解析用辞書112cと、変換設定ファイル113とを備える。表情報解析モジュール112aは、収集された情報から表情報を検出して当該表情報を解析する。自然言語付加モジュール112bは、表情報解析モジュール112aによって解析された結果を自然言語に変換する。解析用辞書112cは、表情報解析モジュール112aによる表情報解析と、自然言語付加モジュール112bによる自然言語への変換に用いられる。変換設定ファイル113は、表情報解析モジュール112aによる表情報解析と、自然言語付加モジュール112bによる自然言語への変換の条件等を保持するのに用いられる。
The table information natural
図2は、表情報の示す表の一例を示す。ここでは、自動車ABCの商品内容が表形式で示されている。一般に、表は、タイトル(表名)と、セルの行列とから構成される。表のタイトル(表名)等を「対象」と呼ぶ。表内のセルは、項目が設定される項目セルと、データ(要素値)が設定されるデータセル(要素値セル)とに大別される。項目セルは、「対象」を補足する「副対象」項目セルと、要素値の種別を表す「要素種別」項目セルとに分類される。つまり、表は、「対象」と、「副対象」と、「要素種別」と、「要素値」とによって表すことができる。但し、「副対象」(「副対象」項目)を持たない表もある。図2の表の例では、「X」「Y」が記載されたセルが「副対象」項目セルであり、「車両価格」「駆動方式」「全長」「全幅」「全高」「室内長」「室内幅」「室内高」が記載されたセルが「要素種別」項目セルである。 FIG. 2 shows an example of a table indicated by the table information. Here, the product contents of the automobile ABC are shown in a table format. In general, a table is composed of a title (table name) and a matrix of cells. The title of the table (table name) is called “target”. The cells in the table are roughly classified into item cells in which items are set and data cells (element value cells) in which data (element values) are set. The item cells are classified into “sub-target” item cells that supplement “target” and “element type” item cells that represent the types of element values. That is, the table can be represented by “target”, “sub-target”, “element type”, and “element value”. However, some tables do not have a “sub-object” (“sub-object” item). In the example of the table of FIG. 2, the cell in which “X” and “Y” are described is the “sub-target” item cell, and “vehicle price”, “drive system”, “full length”, “full width”, “full height”, “room length” A cell in which “indoor width” and “indoor height” are described is an “element type” item cell.
図3は解析用辞書112cのデータ構造例を示す。解析用辞書112cは、表を表現する要素、つまり表の構成要素である、「対象」「副対象」「要素種別」及び「要素値」の4つのカテゴリ(表現カテゴリ)毎に、適用し得る表現(文字列)例を保持している。但し、「要素値」は、複数の要素値型(データ型)に分類され、要素値型によっては、その要素値型に固有の表現形式を示す情報を保持している。図3の解析用辞書112cの例では、要素値型は、「○×」型、「数値」型、「非数値」型に分類される。ここでは、「○×」型の場合、つまり要素値が記号「○」または「×」の場合、それぞれ文字列「あり」「無し」を「要素値の表現」とすることが示されている。また、「数値」型の場合、つまり要素値が数値の場合、対応する要素値(=数値)に一致する「数字」を「要素値の表現」とすることが示されている。同様に、「非数値」型の場合、つまり要素値が非数値の場合、対応する要素値(=非数値)をそのまま「要素値の表現」とすることが示されている。
FIG. 3 shows an example of the data structure of the
再び図1を参照すると、知識検索システム12は、知識DB121及び検索エンジン122から構成される。知識DB121は、Web情報収集システム11内の収集制御モジュール111によって収集されたページ情報から、テキスト抽出モジュール114によって抽出された文書情報(テキスト)を蓄積しておくのに用いられる。検索エンジン122は、ユーザ102の操作に応じてWebブラウザ16から入力された検索要求の示す検索条件に従って知識DB121を対象に全文検索または自然言語検索を行う。
Referring again to FIG. 1, the
次に、図1のシステムにおける情報収集と検索の概要について説明する。 Next, an outline of information collection and search in the system of FIG. 1 will be described.
管理ユーザ(管理者)は、図示せぬクライアント端末上で動作するWebブラウザ15を通して、起点URL、インターネット/イントラネット20上からの情報収集の対象となるリンクの段数、収集ページ数の上限等、Web情報収集のための条件(知識情報収集条件)を指定するための入力操作を行う。この入力操作で指定された知識情報収集条件は、設定ファイル14に設定される。
An administrative user (administrator) can use a
収集制御モジュール111は、設定ファイル14に設定された知識情報収集条件に従って、インターネット/イントラネット20から知識情報を収集する。つまり設定ファイル14は、知識条件設定手段として用いられる。以下の説明では、収集制御モジュール111によって収集される知識情報が、HTML(HyperText Markup Language)文書情報であるものとする。
The
表情報自然言語変換機構112は、収集制御モジュール111によって収集された知識情報に表情報が含まれている場合、その表情報を解析し、当該表情報から自然言語を作成するための表情報自然言語変換処理を行う。この表情報自然言語変換機構112の動作の詳細は後述する。
When the knowledge information collected by the
テキスト抽出モジュール114は、収集制御モジュール111によって収集された知識情報からテキスト情報を抽出する。テキスト抽出モジュール114は、抽出されたテキスト情報を、表情報自然言語変換機構112によって作成された自然言語と組み合わせて、登録モジュール13へ送る。登録モジュール13は、テキスト抽出モジュール114から送られたテキスト情報を知識DB121へ登録する。
The text extraction module 114 extracts text information from the knowledge information collected by the
ユーザ102は、図示せぬクライアント端末上で動作するWebブラウザ16を通して、検索条件を指定するための入力操作を行う。この入力操作で指定された検索条件は、Webブラウザ16により知識検索システム12に送られる。知識検索システム12内の検索エンジン122は、Webブラウザ16から送られた検索条件に従って、知識DB121に格納されている情報から検索結果を得る。検索エンジン122は、この検束結果をWebブラウザ16を介してユーザ102に提示する。
The
次に、表情報自然言語変換機構112による表情報自然言語変換処理の手順について、図4のフローチャートを参照して説明する。
まず表情報自然言語変換機構112の表情報解析モジュール112aは、収集制御モジュール111によって収集された知識情報、例えばHTML文書情報を解析して、当該文書情報に表情報に含まれているかを判定する(ステップS1)。本実施形態では、表を示すタグ(例えばHTMLの<TABLE>)があるか否かにより、表情報であるか否かが判定される。
Next, the procedure of the table information natural language conversion process by the table information natural
First, the table
さて、収集された文書情報が、「ABCについて」というタイトルの文書情報であり、当該文書情報に図2の表を示す表情報が含まれているものとする。この場合、表情報解析モジュール112aは、図3に示されている解析用辞書112cを参照して、当該表情報から、「対象の表現」を取得する(ステップS2)。ここでは、表情報から、解析用辞書112cに「対象」カテゴリの「表現」として保持されている文字列に一致する文字列を抽出することにより、「対象の表現」が取得される。具体的には、「ABC」が「対象の表現」として抽出される。この他に、HTMLの<TITLE>タグで示される要素の内容を、「対象」カテゴリの「表現」として取得することも可能である。
Now, it is assumed that the collected document information is document information titled “About ABC”, and the document information includes table information indicating the table of FIG. In this case, the table
次に表情報解析モジュール112aは、表の1列を示すタグ(例えばHTMLの<TR>タグ)から表情報の列数を取得し、その列数分だけ、次のステップS4を繰り返す(ステップS3)。
Next, the table
また表情報解析モジュール112aは、表の項目を示すタグ(例えばHTMLの<TD>タグ)から、列の項目数を取得し、その項目数分だけ、次のステップS5及びS6を繰り返す(ステップS4)。なお、本実施形態で適用される表は、第1列に項目が存在することを前提としている。
Further, the table
以下、ステップS5及びS6と、ステップS6に続いて自然言語付加モジュール112bによって実行されるステップS7の処理について説明する。
表情報解析モジュール112aはステップS5において、対象となる項目が存在する第i行(ここではi=2)の第1列のセルから単語を取り出す。表情報解析モジュール112aは、取り出された単語をキーに解析用辞書112cを参照することにより、当該単語が「要素種別の表現」であるかを判別し、「要素種別の表現」であれば、当該単語を「要素種別の表現」として取り出す。図2の表の例では、i=2の場合、「車両価格」が「要素種別の表現」として取り出される。
Hereinafter, steps S5 and S6, and step S7 executed by the natural
In step S5, the table
次に、表情報解析モジュール112aはステップS6において、対象となる項目が存在する第i行の第j列(ここでは、j=2)のセルから単語を取り出す。表情報解析モジュール112aは、取り出された単語をキーに解析用辞書112cを参照することにより、当該単語が「要素値の表現」であるかを判別し、「要素値の表現」であれば、当該単語を「要素値の表現」として取り出す。図2の表の例では、i=2,j=2の場合、「123万円」が「要素値の表現」として取り出される。
Next, in step S6, the table
また、図4のフローチャートでは省略されているが、図2の表のように、第1列の第1行のセルに「要素種別の表現」が存在しない場合、第j列の第1行のセルから単語が取り出されて、「副対象の表現」であるかが判別される。そして、「副対象の表現」であれば、当該単語が「副対象の表現」として取り出される。ここでは、「X」が「副対象の表現」として取り出される。 Although omitted in the flowchart of FIG. 4, as shown in the table of FIG. 2, when “element type expression” does not exist in the cell of the first row of the first column, the first row of the j-th column A word is taken out from the cell, and it is determined whether it is “sub-object expression”. If it is “sub-object expression”, the word is extracted as “sub-object expression”. Here, “X” is extracted as “sub-object expression”.
自然言語付加モジュール112bは、表情報解析モジュール112aによってステップS2で取得された「対象の表現」と、ステップS5及びS6でそれぞれ取り出された「要素種別の表現」及び「要素値の表現」に基づいて、例えば『「対象の表現」の(「副対象の表現」)の「要素種別の表現」は「要素値の表現」です』という自然言語を作成する。上記の例では、「ABCのXの車両価格は123万円です」という自然言語が作成される。
The natural
ステップS5乃至S7は、列を切り替えながら、最終列まで繰り返される。この動作が、項目数分行を変えながら繰り返される。これにより図2の表の例では、上記自然言語の他に、「ABCのXの駆動方式はFFです」「ABCのZの駆動方式はAWDです」「ABCのXの全幅は1760mmです」などが作成される。 Steps S5 to S7 are repeated until the last column while switching the columns. This operation is repeated while changing the number of items. Thus, in the example of the table of FIG. 2, in addition to the above natural language, “ABC X drive system is FF”, “ABC Z drive system is AWD”, “ABC X full width is 1760 mm”, etc. Is created.
また、解析用辞書112cに含まれる「要素種別の表現」または「要素値の表現」に合致するものが表内に存在しない、次のケース1乃至3においても、以下の手順で自然言語を作成することが可能である。
Also, in the following
<ケース1>
まず、解析用辞書112cに含まれる「要素種別の表現」に合致するものが表内に見つからないケース1の動作について、図5のフローチャートを参照して説明する。
<
First, the operation of
表情報解析モジュール112aは、表が出現する直前の文中に「対象の表現」と一致するものがあるかを判定する(ステップS11)。もし、「対象の表現」と一致するものがあるならば、表情報解析モジュール112aは、表の2列目以降において、1行目或は2行目から最終行(つまり、少なくとも2行目から最終行)までのセルに、「要素値」カテゴリに含まれる「表現」が出現するかを判定する(ステップS12)。
The table
表情報解析モジュール112aは、ステップS11及びS12の判定条件を満たす場合、ステップS12の判定条件を満たす列で一番左側に位置する列に対し、その左側に隣接する列のセルの内容を「要素種別の表現」とみなす(ステップS13)。
When the determination condition of steps S11 and S12 is satisfied, the table
この際、ステップS12の判定条件を満たす列の1行目のセルに、「要素値」カテゴリに含まれる表現がないならば(ステップS14)、表情報解析モジュール112aは、当該セルの内容を「副対象の表現」とみなす(ステップS15)。
At this time, if there is no expression included in the “element value” category in the cell in the first row of the column satisfying the determination condition in step S12 (step S14), the table
<ケース2>
次に、解析用辞書112cに含まれる「要素値の表現」に合致するものが表内に見つからないケース2の動作について、図6のフローチャートを参照して説明する。
<Case 2>
Next, the operation of Case 2 in which no element matching the “element value expression” included in the
表情報解析モジュール112aは、表が出現する直前の文中に「対象の表現」と一致するものがあるかを判定する(ステップS21)。もし、「対象の表現」と一致するものがあるならば、表内に「要素種別の表現」が出現する列の右列以降を、それぞれ「要素値」のセルを含む列と見なす(ステップS22)。
The table
この際、表情報解析モジュール112aは、「要素種別の表現」が出現する列の1行目のセルが「要素種別の表現」に合致しないならば(ステップS23)、1行目をタイトル行と見なし、1行目で「要素種別の表現」が出現する列の右列以降のセルの内容を「副対象の表現」と見なす。
At this time, if the cell in the first row of the column in which the “element type expression” appears does not match the “element type expression” (step S23), the table
<ケース3>
次に、解析用辞書112cに含まれる「要素種別の表現」及び「要素値の表現」が共に表内に見つからないケース3の動作について、図7のフローチャートを参照して説明する。
<
Next, the operation of
表情報解析モジュール112aは、表が出現する直前の文中に「対象の表現」と一致するものがあるかを判定する(ステップS31)。もし、「対象の表現」と一致するものがあるならば、表情報解析モジュール112aは、表の2列目以降において、1行目或は2行目から最終行までのセルに、「数字のみ」または「数字+一定文字数以下の短い文字列」の表現が出現するかを判定する(ステップS32)。
The table
表情報解析モジュール112aは、ステップS31及びS32の判定条件を満たす場合、ステップS32の判定条件を満たす列で一番左側に位置する列に対し、その左側に隣接する列のセルの内容を「要素種別の表現」とみなす(ステップS33)。
When the determination condition of steps S31 and S32 is satisfied, the table
この際、ステップS32の判定条件を満たす列の1行目のセルに、「数字のみ」または「数字+短い文字列」の表現がないならば(ステップS34)、表情報解析モジュール112aは、当該セルの内容を「副対象の表現」とみなす(ステップS35)。
At this time, if there is no expression of “numbers only” or “numbers + short character strings” in the cell in the first row of the column satisfying the determination condition of step S32 (step S34), the table
これにより、解析用辞書112cに含まれる「要素種別の表現」または「要素値の表現」に合致するものが表内に存在しない場合にも、当該「要素種別の表現」または「要素値の表現」、更には「副対象の表現」が既出されたセルを推定できるため、自然言語を作成することが可能である。
Thus, even if there is no element in the table that matches the “element type expression” or “element value expression” included in the
ここでは、上記ケース1乃至3の処理に関し、いずれのケースの処理を適用するか否かを、管理ユーザ101が変換設定ファイル113に従って選択することができる。
Here, regarding the processes in the
更に、上記ケース1,2,3のそれぞれステップS11,S21,S31の判定で、表が出現する直前の文において「対象の表現」と一致するものが含まれないと判定された場合に、以前に「対象の表現」が見つかった文において、(A)「対象の表現出現直前までの記述」及び(B)「対象の表現出現直後の記述」を記憶しておくことにより、(A)と(B)に挟まれた表現を「対象の表現」と見なすことも可能である。この動作についても、管理ユーザ101が変換設定ファイル113に従って選択することができる。
Further, when it is determined in the cases S1, S21, and S31 in the
なお、要素種別の項目と副対象の項目の配列が逆の場合に対処するには、上述の説明の列と行とを入れ替えて処理すれば良い。 In order to cope with the case where the arrangement of the element type item and the sub target item is reversed, the above-described column and row may be exchanged.
前述したように、自然言語付加モジュール112bによって作成された自然言語は、テキスト抽出モジュール114によって知識情報から抽出されたテキスト情報と組み合わされて、登録モジュール13へ送られる。ここでは、タイトルが「ABCについて」の文書情報から抽出されたテキスト情報に、自然言語付加モジュール112bによって作成された自然言語が付されて、登録モジュール13へ送られる。登録モジュール13は、この自然言語が付されたテキスト情報を知識DB121へ登録する。このように、知識情報に含まれている表情報を自然言語に変換して知識DB121に登録した場合、単に表情報から単語を抽出する場合と比べて、自然言語検索の精度を向上することができる。
As described above, the natural language created by the natural
例えば、図2の表を示す表情報を収集した場合、先行技術では、「自動車ABCの商品内容」「X」「Y」「車両価格」「123万円」「138万円」「駆動方式」「FF」「AWD」「全幅」「1760mm」…とそれぞれが1つの単語として収集されるだけである。このため、「ABCの全幅は?」といった自然言語検索では、「全幅」そのものの値はあるものの、全幅とその値が結びついてないため検索精度は必ずしも良くない。これに対して本実施形態では、「ABCのXの全幅は1760mmです」などの自然言語が作成されて元の知識情報(文書情報)から抽出されたテキスト情報と合わせて知識DB121に登録される。このため、先行技術と比べて自然言語検索の精度を向上することができる。
For example, when the table information indicating the table of FIG. 2 is collected, according to the prior art, “Product contents of automobile ABC” “X” “Y” “Vehicle price” “1.33 million yen” “13.8 million yen” “Drive system” “FF”, “AWD”, “full width”, “1760 mm”... Are each collected as one word. For this reason, in a natural language search such as “What is the full width of ABC?”, Although there is a value of “full width” itself, the search accuracy is not necessarily good because the full width and the value are not linked. On the other hand, in the present embodiment, a natural language such as “ABC X full width is 1760 mm” is created and registered in the
図8は、自然言語検索の検索画面例を示す。この検索画面は、検索エンジン122によりWebブラウザ16を介してユーザ102に提示される。ユーザ102は、検索画面に配置された検索条件入力フィールド51に、任意の検索条件を入力するための操作を行う。図8の例は、自然言語検索のために「ABCの金額は?」という検索条件が検索条件入力フィールド51に入力されて、検索ボタン52が押された場合を想定している。この場合、検索エンジン122は、「ABCの金額は?」に合致する知識情報を知識DB121から検索し、その検索結果の一覧を図8に示す検索画面の検索結果表示領域に配置する。この検索結果の一覧に、タイトルが「ABCについて」の文書情報が含まれているものとする。この場合、検索エンジン122は、タイトルが「ABCについて」の文書情報に含まれている図2に示す表から変換された自然言語のうち、検索条件に合致した自然言語「ABCのXの車両価格は123万円です」を、図8に示すように、タイトルが「ABCについて」の文書情報の要約43として提示する。つまり、検索結果の要約に自然言語が表示される。これにより、ユーザ102は、検索結果一覧から目的の検索結果を容易に探すことができる。
FIG. 8 shows an example of a search screen for natural language search. This search screen is presented to the
なお、本発明は、上記実施形態そのままに限定されるものではなく、実施段階ではその要旨を逸脱しない範囲で構成要素を変形して具体化できる。また、上記実施形態に開示されている複数の構成要素の適宜な組み合せにより種々の発明を形成できる。例えば、実施形態に示される全構成要素から幾つかの構成要素を削除してもよい。 Note that the present invention is not limited to the above-described embodiment as it is, and can be embodied by modifying the constituent elements without departing from the scope of the invention in the implementation stage. Further, various inventions can be formed by appropriately combining a plurality of constituent elements disclosed in the embodiment. For example, some components may be deleted from all the components shown in the embodiment.
11…Web情報収集システム、12…知識検索システム、13…登録モジュール、14…設定ファイル、20…インターネット/イントラネット、111…収集制御モジュール、112…表情報自然言語変換機構、112a…表情報解析モジュール、112b…自然言語付加モジュール、112c…解析用辞書、113…変換設定ファイル、114…テキスト抽出モジュール、121…知識DB(データベース)、122…検索エンジン。
DESCRIPTION OF
Claims (5)
表を構成する、少なくとも、要素値、当該要素値に対応する項目の種類を表す要素種別、及び表名に相当する対象の各カテゴリ毎に、そのカテゴリに適用し得る表現を保持する解析辞書と、
前記収集された知識情報に、少なくとも、要素値、当該要素値に対応する項目の種類を表す要素種別、及び表名に相当する対象の各カテゴリから構成される表を示す表情報が含まれているかを判定する判定手段と、
前記収集された知識情報に前記表情報が含まれていると判定された場合、当該表情報を解析することによって、前記解析辞書に保持されている表現に合致する、当該表情報によって示される表を構成する対象の表現、要素種別の表現及び要素値の表現を抽出する表情報解析手段と、
前記抽出された対象の表現、要素種別の表現及び要素値の表現が、特定の助詞でつながれた自然言語を作成する自然言語変換手段と、
前記収集された知識情報からテキストデータを抽出するテキスト抽出手段と、
前記自然言語変換手段によって作成された自然言語を、対応する表情報を含む知識情報から抽出されたテキストデータに付して、前記知識データベースへの知識情報登録を行う登録手段へ送出する送出手段と
を具備することを特徴とする知識情報収集システム。 In a knowledge information collection system that collects knowledge information to be registered in the knowledge database from an external data source based on the knowledge information collection conditions set by the knowledge condition setting means,
An analysis dictionary that holds at least an element value that constitutes a table, an element type that represents the type of an item corresponding to the element value, and an expression applicable to the category for each category corresponding to the table name ,
The collected knowledge information includes at least an element value, an element type indicating an item type corresponding to the element value, and table information indicating a table composed of each category of the target corresponding to the table name. Determining means for determining whether or not
When it is determined that the table information is included in the collected knowledge information, the table indicated by the table information that matches the expression stored in the analysis dictionary by analyzing the table information Table information analysis means for extracting the expression of the object that constitutes, the expression of the element type and the expression of the element value,
Natural language conversion means for creating a natural language in which the extracted object representation, element type expression and element value expression are connected by a specific particle;
Text extraction means for extracting text data from the collected knowledge information;
Sending means for sending the natural language created by the natural language conversion means to text data extracted from knowledge information including corresponding table information and sending it to a registration means for registering knowledge information in the knowledge database; A knowledge information collecting system comprising:
前記表情報解析手段は、前記解析辞書に保持されている表現に合致する前記要素種別の表現が前記表情報によって示される表内に存在しない場合、前記抽出された要素値の表現が出現するセルの列の左側に隣接する列のセルの内容を、当該要素値に対応する項目の種類を表す要素種別の表現とみなす
ことを特徴とする請求項1記載の知識情報収集システム。 The table information indicated by the table information is composed of a matrix of cells,
The table information analysis means is a cell in which the expression of the extracted element value appears when the expression of the element type that matches the expression held in the analysis dictionary does not exist in the table indicated by the table information. The knowledge information collection system according to claim 1, wherein the content of a cell in a column adjacent to the left side of the column is regarded as an expression of an element type indicating an item type corresponding to the element value.
前記表情報解析手段は、前記解析辞書に保持されている表現に合致する前記要素値の表現が前記表情報によって示される表内に存在しない場合、前記抽出された要素種別の表現が出現するセルの列の右側に隣接する列以降の列の内容を、要素値の表現とみなす
ことを特徴とする請求項1記載の知識情報収集システム。 The table information indicated by the table information is composed of a matrix of cells,
The table information analyzing means is configured to display a cell in which the expression of the extracted element type appears when the expression of the element value that matches the expression held in the analysis dictionary does not exist in the table indicated by the table information. The knowledge information collection system according to claim 1, wherein the contents of columns after the column adjacent to the right side of the column are regarded as element value representations .
ユーザにより指定された自然言語検索条件に従って自然言語検索処理を行って前記知識データベースから当該検索条件に合致した検索結果を取得する検索手段であって、検索結果に表情報を含む知識情報がある場合、当該知識情報に付されている前記表情報から作成された自然言語を、当該知識情報の要約としてユーザに提示する検索手段と
を具備することを特徴とする知識検索システム。 A knowledge database in which knowledge information collected by the knowledge information collection system according to claim 1 is registered;
A search means for performing a natural language search process according to a natural language search condition specified by a user and obtaining a search result that matches the search condition from the knowledge database, wherein the search result includes knowledge information including table information Search means for presenting a natural language created from the table information attached to the knowledge information to the user as a summary of the knowledge information;
A knowledge search system comprising:
前記収集された知識情報に、少なくとも、要素値、当該要素値に対応する項目の種類を表す要素種別、及び表名に相当する対象の各カテゴリから構成される表を示す表情報が含まれているかを判定するステップと、 The collected knowledge information includes at least an element value, an element type indicating an item type corresponding to the element value, and table information indicating a table composed of each category of the target corresponding to the table name. Determining whether or not
前記収集された知識情報に前記表情報が含まれていると判定された場合、当該表情報を解析することによって、前記解析辞書に保持されている表現に合致する、当該表情報によって示される表を構成する対象の表現、要素種別の表現及び要素値の表現を抽出するステップと、 When it is determined that the table information is included in the collected knowledge information, the table indicated by the table information that matches the expression stored in the analysis dictionary by analyzing the table information Extracting the representation of the object comprising the element, the representation of the element type and the representation of the element value;
前記抽出された対象の表現、要素種別の表現及び要素値の表現が、特定の助詞でつながれた自然言語を作成するステップと、 Creating a natural language in which the expression of the extracted object, the expression of the element type and the expression of the element value are connected by a specific particle;
前記収集された知識情報からテキストデータを抽出するステップと、 Extracting text data from the collected knowledge information;
前記作成された自然言語を、対応する表情報を含む知識情報から抽出されたテキストデータに付して、前記知識データベースへの知識情報登録を行う登録手段へ送出するステップと Sending the created natural language to text data extracted from knowledge information including corresponding table information and sending it to a registration means for registering knowledge information in the knowledge database;
を具備することを特徴とする知識情報収集方法。 A knowledge information collecting method comprising:
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
JP2004289070A JP4119413B2 (en) | 2004-09-30 | 2004-09-30 | Knowledge information collection system, knowledge search system, and knowledge information collection method |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
JP2004289070A JP4119413B2 (en) | 2004-09-30 | 2004-09-30 | Knowledge information collection system, knowledge search system, and knowledge information collection method |
Publications (2)
Publication Number | Publication Date |
---|---|
JP2006106872A JP2006106872A (en) | 2006-04-20 |
JP4119413B2 true JP4119413B2 (en) | 2008-07-16 |
Family
ID=36376578
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
JP2004289070A Expired - Fee Related JP4119413B2 (en) | 2004-09-30 | 2004-09-30 | Knowledge information collection system, knowledge search system, and knowledge information collection method |
Country Status (1)
Country | Link |
---|---|
JP (1) | JP4119413B2 (en) |
Families Citing this family (3)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
JP5091549B2 (en) * | 2007-06-06 | 2012-12-05 | 株式会社東芝 | Document data processing device |
CN101542743B (en) * | 2007-07-27 | 2012-09-05 | 松下电器产业株式会社 | Method for manufacturing semiconductor device |
CN111078216B (en) * | 2019-11-08 | 2023-06-02 | 泰康保险集团股份有限公司 | Information display method, information display device, electronic equipment and computer readable medium |
Family Cites Families (5)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
JP3518998B2 (en) * | 1998-09-21 | 2004-04-12 | 日本電信電話株式会社 | Method and apparatus for creating semantic attribute dictionary and recording medium recording semantic attribute dictionary creating program |
JP2002099294A (en) * | 2000-06-29 | 2002-04-05 | Fujitsu Ltd | Information processing device |
JP2002140620A (en) * | 2000-11-06 | 2002-05-17 | Matsushita Electric Ind Co Ltd | System for providing comparison information |
JP2003150624A (en) * | 2001-11-12 | 2003-05-23 | Mitsubishi Electric Corp | Information extraction device and information extraction method |
JP2004102369A (en) * | 2002-09-05 | 2004-04-02 | Sangaku Renkei Kiko Kyushu:Kk | Information retrieval method to acquire same system information, information retrieval method on wide-area network to acquire same system information, information retrieval unit, retrieving engine server unit, same system system retrieval engine server unit, retrieval index creating unit, and information retrieval system |
-
2004
- 2004-09-30 JP JP2004289070A patent/JP4119413B2/en not_active Expired - Fee Related
Also Published As
Publication number | Publication date |
---|---|
JP2006106872A (en) | 2006-04-20 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
US8321396B2 (en) | Automatically extracting by-line information | |
US8290967B2 (en) | Indexing and search query processing | |
US8332208B2 (en) | Information processing apparatus, information processing method, and program | |
Han et al. | Wrapping web data into XML | |
US20080115057A1 (en) | High precision data extraction | |
CN102741838A (en) | Systems and methods for block segmentation, identifying and indexing visual elements, and searching documents | |
CN108090104B (en) | Method and device for acquiring webpage information | |
JP2011108085A (en) | Knowledge construction device and program | |
JP3803961B2 (en) | Database generation apparatus, database generation processing method, and database generation program | |
JP6653169B2 (en) | Keyword extraction device, content generation system, keyword extraction method, and program | |
JP2005346495A (en) | Information processing system, information processing method, and information processing program | |
JP4768882B2 (en) | Information search device, information search method, information search program, and recording medium on which information search program is recorded | |
JP2012123681A (en) | Search device, search system, search method, search program, and computer readable recording medium for storing search program | |
Rasmussen et al. | The data documentation initiative: a preservation standard for research | |
CN101782924A (en) | Information processing method, information processing apparatus, and program | |
JP4119413B2 (en) | Knowledge information collection system, knowledge search system, and knowledge information collection method | |
JP4853915B2 (en) | Search system | |
US20120150899A1 (en) | System and method for selectively generating tabular data from semi-structured content | |
JP2007108889A (en) | Intellectual property management system, intellectual property management method and program | |
JP4505389B2 (en) | Advertisement content transmission system and advertisement content transmission method | |
JP5008152B2 (en) | Procurement information search system | |
US20030237042A1 (en) | Document processing device and document processing method | |
KR20090095939A (en) | System and Method for Displaying Search Result and Recording Medium | |
JP2007012100A (en) | Search method and search device based on person information, or information providing system | |
JP2010003159A (en) | Web user support system, web user support method, and web user support program |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
A131 | Notification of reasons for refusal |
Free format text: JAPANESE INTERMEDIATE CODE: A131 Effective date: 20070731 |
|
A521 | Written amendment |
Free format text: JAPANESE INTERMEDIATE CODE: A523 Effective date: 20070928 |
|
A131 | Notification of reasons for refusal |
Free format text: JAPANESE INTERMEDIATE CODE: A131 Effective date: 20080129 |
|
A521 | Written amendment |
Free format text: JAPANESE INTERMEDIATE CODE: A523 Effective date: 20080321 |
|
TRDD | Decision of grant or rejection written | ||
A01 | Written decision to grant a patent or to grant a registration (utility model) |
Free format text: JAPANESE INTERMEDIATE CODE: A01 Effective date: 20080422 |
|
A61 | First payment of annual fees (during grant procedure) |
Free format text: JAPANESE INTERMEDIATE CODE: A61 Effective date: 20080424 |
|
R150 | Certificate of patent or registration of utility model |
Ref document number: 4119413 Country of ref document: JP Free format text: JAPANESE INTERMEDIATE CODE: R150 Free format text: JAPANESE INTERMEDIATE CODE: R150 |
|
FPAY | Renewal fee payment (event date is renewal date of database) |
Free format text: PAYMENT UNTIL: 20110502 Year of fee payment: 3 |
|
FPAY | Renewal fee payment (event date is renewal date of database) |
Free format text: PAYMENT UNTIL: 20110502 Year of fee payment: 3 |
|
FPAY | Renewal fee payment (event date is renewal date of database) |
Free format text: PAYMENT UNTIL: 20120502 Year of fee payment: 4 |
|
FPAY | Renewal fee payment (event date is renewal date of database) |
Free format text: PAYMENT UNTIL: 20120502 Year of fee payment: 4 |
|
FPAY | Renewal fee payment (event date is renewal date of database) |
Free format text: PAYMENT UNTIL: 20130502 Year of fee payment: 5 |
|
FPAY | Renewal fee payment (event date is renewal date of database) |
Free format text: PAYMENT UNTIL: 20130502 Year of fee payment: 5 |
|
FPAY | Renewal fee payment (event date is renewal date of database) |
Free format text: PAYMENT UNTIL: 20140502 Year of fee payment: 6 |
|
S531 | Written request for registration of change of domicile |
Free format text: JAPANESE INTERMEDIATE CODE: R313531 |
|
R350 | Written notification of registration of transfer |
Free format text: JAPANESE INTERMEDIATE CODE: R350 |
|
LAPS | Cancellation because of no payment of annual fees |