JP5964149B2 - Apparatus and program for identifying co-occurrence words - Google Patents
Apparatus and program for identifying co-occurrence words Download PDFInfo
- Publication number
- JP5964149B2 JP5964149B2 JP2012138820A JP2012138820A JP5964149B2 JP 5964149 B2 JP5964149 B2 JP 5964149B2 JP 2012138820 A JP2012138820 A JP 2012138820A JP 2012138820 A JP2012138820 A JP 2012138820A JP 5964149 B2 JP5964149 B2 JP 5964149B2
- Authority
- JP
- Japan
- Prior art keywords
- data
- morpheme
- text
- keyword
- text data
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Expired - Fee Related
Links
- 238000004458 analytical method Methods 0.000 claims description 35
- 238000013075 data extraction Methods 0.000 claims description 28
- 230000005540 biological transmission Effects 0.000 claims description 16
- 230000000877 morphologic effect Effects 0.000 claims description 16
- 238000013500 data storage Methods 0.000 claims description 15
- 238000000034 method Methods 0.000 description 24
- 238000000605 extraction Methods 0.000 description 13
- 238000010586 diagram Methods 0.000 description 8
- 239000004973 liquid crystal related substance Substances 0.000 description 6
- 238000004891 communication Methods 0.000 description 5
- 239000000284 extract Substances 0.000 description 5
- 238000004519 manufacturing process Methods 0.000 description 3
- 230000004048 modification Effects 0.000 description 2
- 238000012986 modification Methods 0.000 description 2
- 230000000699 topical effect Effects 0.000 description 2
- 238000004364 calculation method Methods 0.000 description 1
- 239000002245 particle Substances 0.000 description 1
Images
Landscapes
- Machine Translation (AREA)
- Information Retrieval, Db Structures And Fs Structures Therefor (AREA)
Description
本発明は、ユーザが関心を持つ情報を示すキーワードとともに同じ文章中に出現する言葉である共起語を特定する技術に関する。 The present invention relates to a technique for specifying a co-occurrence word that is a word that appears in the same sentence together with a keyword indicating information of interest to a user.
広くインターネットを介した情報検索が行われている。情報検索を行うユーザは、例えば端末装置において動作するWebブラウザの検索画面において自分が関心を持つ言葉を検索キーワードとして入力し、検索エンジン機能を備えたサーバ装置に送信する。サーバ装置はインターネット上に公開されている多数のWebページの中から、端末装置から送信されてきた検索キーワードを含むWebページを所定の規則に従い抽出し、その抽出結果を示すWebページを端末装置に送信する。ユーザはサーバ装置から端末装置に送信されてきたWebページにリンクされているWebページを開くことにより、検索キーワードに関連する情報を得ることができる。 Information retrieval is widely performed via the Internet. For example, a user who searches for information inputs a word of interest as a search keyword on a search screen of a Web browser operating on a terminal device, and transmits it to a server device having a search engine function. The server device extracts a Web page including a search keyword transmitted from the terminal device from a large number of Web pages published on the Internet according to a predetermined rule, and a Web page indicating the extraction result is stored in the terminal device. Send. The user can obtain information related to the search keyword by opening a Web page linked to the Web page transmitted from the server device to the terminal device.
しかしながら、検索キーワードの送信に応じてサーバ装置から送信されてくる抽出結果には、ユーザが求める情報を提供しないWebページがリンクされることも多い。そのため、ユーザは多数の検索キーワードを組み合わせるなどして抽出結果の質の向上を図ることができるが、手間である。 However, the extraction result transmitted from the server device in response to the transmission of the search keyword is often linked to a Web page that does not provide information requested by the user. Therefore, the user can improve the quality of the extraction result by combining a large number of search keywords, but this is troublesome.
そのような手間を軽減する技術として、例えば特許文献1には、ユーザが指定した検索キーワードとともに同じ文章中で高い頻度で使用されている単語を共起語として特定しておき、ユーザが指定した検索キーワードにそれらの共起語を自動的に追加して文章を抽出することで、抽出結果の質の向上を図る技術が提案されている。 As a technique for reducing such effort, for example, in Patent Document 1, a word that is frequently used in the same sentence together with a search keyword specified by the user is specified as a co-occurrence word and specified by the user. Techniques have been proposed for improving the quality of extraction results by automatically adding those co-occurrence words to search keywords and extracting sentences.
上記のような検索キーワードによる抽出結果にいわゆるノイズと呼ばれる不要な情報が混入する一つの理由として、検索時点における話題傾向が必ずしも考慮されていない、という点が挙げられる。例えば、最新の液晶ディスプレイの機能を知りたいと思ったユーザが、「液晶ディスプレイ」という検索キーワードを入力しWebページの抽出を行ったとする。その際、もし液晶ディスプレイの基本原理を詳しく説明しているWebページAが長年にわたり多くの人々に閲覧されていれば、抽出結果にそのWebページAが含まれることになる。この場合、ユーザは液晶ディスプレイの基本原理には関心がないため、抽出結果に含まれるWebページAはノイズである。 One reason why unnecessary information called so-called noise is mixed in the extraction result based on the search keyword as described above is that the topic tendency at the time of search is not necessarily taken into consideration. For example, a user who wants to know the latest liquid crystal display functions inputs a search keyword “liquid crystal display” and extracts a Web page. At that time, if the Web page A that explains the basic principle of the liquid crystal display in detail has been browsed by many people for many years, the Web page A is included in the extraction result. In this case, since the user is not interested in the basic principle of the liquid crystal display, the Web page A included in the extraction result is noise.
上記のように、ユーザが現在というタイミングにおけるいわゆる話題傾向を考慮した情報を検索したい場合には、例えば「3D」、「白色LED」、「IPSパネル」などの最近話題性が高まっているキーワードを「液晶ディスプレイ」とともに検索キーワードとして入力すればよい。なお、本願において「話題傾向」とは、多くの人々が関心を示す話題を意味する。話題は単一の言葉ではなく複数の言葉の組み合わせから生じるため、上記のように複数の検索キーワードを組み合わせることにより話題傾向を考慮した抽出結果を得ることができる。 As described above, when the user wants to search for information that takes into account the so-called topical trend at the present time, keywords such as “3D”, “white LED”, “IPS panel”, etc., which have recently become highly topical, are being used. What is necessary is just to input as a search keyword with "liquid crystal display". In the present application, the “topic trend” means a topic in which many people are interested. Since a topic arises not from a single word but from a combination of a plurality of words, an extraction result considering a topic tendency can be obtained by combining a plurality of search keywords as described above.
しかしながら、ユーザは必ずしも現在の話題傾向を容易に知ることはできず、従ってそれらの追加すべき検索キーワードを特定することが難しい場合が多い。また、この例のように、話題傾向自体を知りたいこともある。その場合には、ユーザはとりあえず「液晶ディスプレイ」等の一般的な検索キーワードを入力し、その結果として得られるノイズの多い抽出結果の中から必要な情報を探し出さなければならない。 However, the user cannot always easily know the current topic trend, and therefore it is often difficult to specify the search keyword to be added. Also, as in this example, you may want to know the topic trend itself. In that case, the user must first input a general search keyword such as “liquid crystal display” and search for necessary information from the noisy extraction results obtained as a result.
本発明は上記の事情に鑑み、ユーザが興味を持つキーワードに関連する特定期間内における話題傾向を容易に知ることを可能とする技術を提供することを目的とする。 In view of the circumstances described above, an object of the present invention is to provide a technique that allows a user to easily know a topic trend within a specific period related to a keyword in which a user is interested.
上述した課題を解決するため、本発明は、文章を示すテキストデータを、時刻を示す時刻データとともに取得するテキストデータ取得手段と、前記テキストデータ取得手段により取得されたテキストデータが示す文章を形態素解析により形態素に分割して当該分割した形態素を各々示す複数の形態素データを生成する形態素解析手段と、前記形態素解析手段により複数のテキストデータの各々を分割して生成された形態素データのうちの1以上の形態素データの各々に関し、当該形態素データと、当該形態素データの生成に用いられたテキストデータを識別するテキストデータ識別データと、当該形態素データの生成に用いられたテキストデータとともに前記テキストデータ取得手段により取得された時刻データとを記憶する形態素データ記憶手段と、一のキーワードを示す一のキーワードデータに関し、前記形態素データ記憶手段において、所定の期間内の時刻を示す時刻データとともに記憶され、かつ、前記一のキーワードデータが示す前記一のキーワードを示す形態素データとともに前記形態素データ記憶手段に記憶されているテキストデータ識別データと同一のテキストデータ識別データとともに記憶されている形態素データを、前記一のキーワードデータに対応する共起語データとして抽出する共起語データ抽出手段とを備える装置を提案する。 In order to solve the above-described problem, the present invention provides a text data acquisition unit that acquires text data indicating a sentence together with time data indicating a time, and a morphological analysis of the sentence indicated by the text data acquired by the text data acquisition unit The morpheme analyzing means for dividing the morpheme and generating a plurality of morpheme data each indicating the divided morpheme, and one or more of the morpheme data generated by dividing each of the plurality of text data by the morpheme analyzing means For each of the morpheme data, the text data acquisition means together with the morpheme data, the text data identification data for identifying the text data used to generate the morpheme data, and the text data used to generate the morpheme data Morphological data storage that stores the acquired time data And the keyword data indicating one keyword, the morpheme data storage means stores the time keyword indicating the time within a predetermined period and the one keyword indicated by the one keyword data. Co-occurrence extracting morpheme data stored together with morpheme data together with the same text data identification data as the text data identification data stored in the morpheme data storage means as co-occurrence word data corresponding to the one keyword data An apparatus comprising word data extraction means is proposed.
このような装置によれば、特定期間内に公開された多数のテキストデータにおいて特定のキーワードと共に用いられている共起語が抽出されるため、特定のキーワードに関連する特定期間における話題傾向を示す情報が得られる。 According to such an apparatus, since co-occurrence words used together with a specific keyword are extracted in a large number of text data published within a specific period, the trend of topics in the specific period related to the specific keyword is indicated. Information is obtained.
また、上述した装置において、前記一のキーワードデータが示す前記一のキーワードを示す形態素データとともに記憶されている一のテキストデータ識別データに関し、前記形態素データ記憶手段において、前記一のキーワードデータに対応する共起語データとして前記共起語データ抽出手段により抽出された形態素データの各々に関し、前記一のテキストデータ識別データとともに記憶されている当該形態素データと同一の形態素データを、前記一のテキストデータに含まれる前記一のキーワードデータに対応する共起語データとして抽出し、前記共起語データ抽出手段により抽出された前記一のキーワードデータに対応する共起語データの各々の数と、前記一のテキストデータに含まれる前記一のキーワードデータに対応する共起語データの各々の数とに基づき、前記一のテキストデータと前記一のキーワードデータとの間の関連度を示す関連度データを生成する関連度データ生成手段を備える、という構成が採用されてもよい。 Further, in the above-described apparatus, the text data identification data stored together with the morpheme data indicating the one keyword indicated by the one keyword data corresponds to the one keyword data in the morpheme data storage unit. For each piece of morpheme data extracted by the co-occurrence word data extraction unit as co-occurrence word data, the same morpheme data as the morpheme data stored together with the one text data identification data is stored in the one text data. Each of the co-occurrence word data corresponding to the one keyword data extracted by the co-occurrence word data extraction means, extracted as co-occurrence word data corresponding to the one keyword data included, and the one Co-occurrence word data corresponding to the one keyword data included in the text data Of based on the number of each, the provided relevance data generating means for generating a relevance data indicating the degree of association between one of the text data and the one of keyword data, it may be configured that the adopted.
このような装置によれば、特定期間内に公開された多数のテキストデータにおいて特定のキーワードと共に用いられている共起語が、特定のテキストデータにおいてその特定のキーワードと共にどれだけ用いられているかという情報に基づき、特定期間内における特定のテキストデータと特定のキーワードとの間の関連度が特定される。従って、ユーザはその特定期間内における話題傾向を把握していなくても、それらの話題傾向を考慮した上で特定のキーワードに関連すると思われるテキストデータを得ることができる。 According to such a device, how many co-occurrence words used with a specific keyword in a large number of text data released within a specific period are used with the specific keyword in specific text data. Based on the information, the degree of association between specific text data and a specific keyword within a specific period is specified. Therefore, even if the user does not grasp the topic trend within the specific period, the user can obtain text data that seems to be related to the specific keyword in consideration of the topic trend.
また、上述した装置において、前記関連度データ生成手段は、前記共起語データ抽出手段により抽出された共起語データの数に基づき所定の規則に従い定められるウェイトに従い、前記関連度データの生成において各共起語データに関する数の加重を行う、という構成が採用されてもよい。 Further, in the above-described apparatus, the relevance level data generation unit is configured to generate the relevance level data according to a weight determined according to a predetermined rule based on the number of co-occurrence word data extracted by the co-occurrence word data extraction unit. A configuration may be employed in which the number of numbers related to each co-occurrence word data is weighted.
このような装置によれば、一般的に話題傾向をより強く特徴付ける出現数が多い共起語が関連度の特定においてより大きく考慮されるため、話題傾向をあまり特徴付けない出現数が少ない共起語が多数存在するような場合であっても、話題傾向の特徴が十分に反映された関連度データが得られる。 According to such an apparatus, since co-occurrence words having a large number of appearances that generally characterize topic trends more strongly are considered in determining the relevance, co-occurrence with a small number of occurrences that do not characterize the topic tendency much Even in the case where there are many words, relevance data that sufficiently reflects the characteristics of the topic tendency can be obtained.
また、上述した装置において、端末装置から前記一のキーワードデータもしくは前記一のキーワードデータを含むテキストデータを受信するキーワードデータ受信手段と、前記テキストデータ取得手段により取得されたテキストデータを記憶するテキストデータ記憶手段と、前記関連度データ生成手段により算出された、前記テキストデータ記憶手段に記憶されている複数のテキストデータの各々と前記キーワードデータ受信手段により前記端末装置から受信された前記一のキーワードデータとの間の関連度データを、当該複数のテキストデータの各々に関連付けて前記端末装置に送信する関連度データ送信手段とを備える、という構成が採用されてもよい。 In the above-described apparatus, the keyword data receiving means for receiving the one keyword data or the text data including the one keyword data from the terminal device, and the text data for storing the text data acquired by the text data acquiring means Each of the plurality of text data stored in the text data storage means and the one keyword data received from the terminal device by the keyword data reception means, calculated by the storage means and the relevance data generation means And a degree-of-association data transmitting unit that associates each of the plurality of text data with each of the plurality of text data and transmits the data to the terminal device.
このような装置によれば、関連度の特定のための処理がユーザの端末装置とは異なる装置において行われるため、多数のテキストデータに関する形態素解析や共起語の特定、それらの処理の結果の記憶等の処理を各ユーザの端末装置が各々行う必要がない。 According to such an apparatus, since the process for specifying the degree of association is performed in an apparatus different from the terminal apparatus of the user, morphological analysis regarding a large number of text data, identification of co-occurrence words, and results of those processes There is no need for each user's terminal device to perform processing such as storage.
また、上述した装置において、前記関連度データ送信手段は、前記複数のテキストデータを、前記関連度データにより示される関連度に従った順序でソートした上で前記関連度データとともに前記端末装置に送信する、という構成が採用されてもよい。 Further, in the above-described apparatus, the relevance data transmission means sorts the plurality of text data in an order according to the relevance indicated by the relevance data and transmits the text data together with the relevance data to the terminal device. A configuration may be employed.
このような装置によれば、端末装置のユーザは関連度に応じてソートされたテキストデータの内容を見ることにより、特定期間内における話題傾向を考慮した知りたい情報を容易に得ることができるとともに、その順序により、どのような話題が世の中の関心をより多く集めているか、という話題傾向の内容についても知ることができる。 According to such a device, the user of the terminal device can easily obtain information he / she wants to know in consideration of the topic trend within a specific period by looking at the contents of the text data sorted according to the degree of relevance. By that order, it is possible to know the contents of the topic trend of what topics are attracting more attention from the world.
また、本発明は、コンピュータを、文章を示すテキストデータを、時刻を示す時刻データとともに取得するテキストデータ取得手段と、前記テキストデータ取得手段により取得されたテキストデータが示す文章を形態素解析により形態素に分割して当該分割した形態素を各々示す複数の形態素データを生成する形態素解析手段と、前記形態素解析手段により複数のテキストデータの各々を分割して生成した形態素データのうちの1以上の形態素データの各々に関し、当該形態素データと、当該形態素データの生成に用いたテキストデータを識別するテキストデータ識別データと、当該形態素データの生成に用いたテキストデータとともに前記テキストデータ取得手段により取得された時刻データとを記憶する形態素データ記憶手段と、一のキーワードを示す一のキーワードデータに関し、前記形態素データ記憶手段において、所定の期間内の時刻を示す時刻データとともに記憶され、かつ、前記一のキーワードデータが示すキーワードを示す形態素データとともに前記形態素データ記憶手段に記憶されているテキストデータ識別データと同一のテキストデータ識別データとともに記憶されている形態素データを、前記一のキーワードデータに対応する共起語データとして抽出する共起語データ抽出手段として機能させるためのプログラムを提案する。 Further, the present invention causes a computer, the text data indicating a text, and the text data acquisition means for acquiring together with time data indicating the time, the text indicated by the acquired text data by the text data acquisition means into morphemes by morphological analysis A morpheme analysis unit that divides and generates a plurality of morpheme data each indicating the divided morpheme, and one or more morpheme data of the morpheme data generated by dividing each of the plurality of text data by the morpheme analysis unit For each, the morpheme data, the text data identification data for identifying the text data used to generate the morpheme data, the time data acquired by the text data acquisition means together with the text data used to generate the morpheme data, and morphological data storing means for storing, one key Relates one keyword data indicating a word in the morpheme data storage means is stored together with time data indicating the time within a predetermined time period, and the morphological data storage means together with the morpheme data representing a keyword indicating the one keyword data because make function morphemes data stored together with the text data identification data of the same text data identification data stored, as co-occurrence word data extraction means for extracting as occurrence word data corresponding to the one keyword data to propose a program.
このようなプログラムによれば、一般的なコンピュータを用いて上述した装置が実現される。 According to such a program, the above-described apparatus is realized using a general computer.
本発明によれば、ユーザは興味を持つキーワードに関連する特定期間内における話題傾向を容易に知ることができる。 According to the present invention, a user can easily know a topic tendency within a specific period related to a keyword of interest.
[実施形態]
以下に、図面を参照しながら本発明の実施形態について説明する。図1は本実施形態にかかるテキスト検索システム1の構成を示した図である。テキスト検索システム1はユーザが文章の検索に用いる端末装置11と、ユーザにより入力された検索キーワードを端末装置11から受信し、受信した検索キーワードに応じた複数のテキストデータを検索キーワードとの関連度を示す関連度データとともに端末装置11に送信するサーバ装置12を備えている。端末装置11とサーバ装置12はネットワーク9を介して互いに各種データの送受信を行う。
[Embodiment]
Embodiments of the present invention will be described below with reference to the drawings. FIG. 1 is a diagram showing a configuration of a text search system 1 according to the present embodiment. The text search system 1 receives from the terminal device 11 a
なお、図1においては図の簡略化のため端末装置11を1台のみ示しているが、端末装置11の数はテキスト検索システム1を利用するユーザの数に応じて任意に変化する。サーバ装置12の数もまた、テキスト検索システム1におけるテキストデータの検索サービスの規模に応じて任意に変化し得る。
In FIG. 1, only one
端末装置11は、ユーザから入力されたデータをサーバ装置12に送信可能であり、サーバ装置12から送信されてくるデータを受信可能であり、受信したデータに従いユーザに対する情報の表示が可能な装置であれば如何なる装置であってもよい。従ってその形態は、例えば携帯電話、スマートフォン、ノート型PC(Personal Computer)、タッチパッド型PC、デスクトップ型PC、PDA(Personal Digital Assistant)、通信機能を備えたゲーム端末、通信機能を備えたテレビ等のいずれであってもよい。端末装置11の構成および動作は、サーバ装置との間でデータ通信可能な一般的な端末装置と同様であるので、その説明を省略する。
The
サーバ装置12のハードウェア構成は、通信機能を備えた一般的なコンピュータのハードウェア構成と同様であるので、その説明を省略する。サーバ装置12は本発明にかかるアプリケーションプログラムに従った処理を行うことにより、図2に示す機能構成を備える装置として動作する。
Since the hardware configuration of the
サーバ装置12はその機能構成部として、以下の構成部を備えている。
(計時部121)基準の時刻からの経過時間を継続的に計測し、現在時刻を示す時刻データを生成する。
(形態素解析部122)サーバ装置12がインターネットを介して他のサーバ装置から取得してきたテキストデータが示すテキストを形態素解析手法に従い形態素に分割しそれらの形態素を示す形態素データを生成する。
(テキストデータ取得部123)インターネットを介して他のサーバ装置から定期的に新たに公開されたテキストデータを取得する。
(検索キーワードデータ受信部124)端末装置11から検索キーワードを示す検索キーワードデータを受信する。
The
(Timer 121) The elapsed time from the reference time is continuously measured, and time data indicating the current time is generated.
(Morphological Analysis Unit 122) The
(Text data acquisition unit 123) The newly acquired text data is periodically acquired from another server device via the Internet.
(Search keyword data receiving unit 124) Receives search keyword data indicating a search keyword from the
(共起語データ抽出部125)主として形態素解析部122により生成された形態素データに基づき検索キーワードデータ受信部124により受信された検索キーワードデータにより示される検索キーワードとともに所定期間内に共に同じテキスト内で用いられている言葉である共起語を抽出し、抽出した共起語を示す共起語データを生成する。
(関連度データ生成部126)形態素解析部122により生成された形態素データおよび共起語データ抽出部125により生成された共起語データに基づき検索キーワードデータ受信部124により受信された検索キーワードデータとテキストデータ取得部123により取得されたテキストデータとの関連度を示す関連度データを生成する。
(関連度データ送信部127)関連度データ生成部126により生成された関連度データに従いテキストデータ取得部123により取得されたテキストデータをソートし、関連度データとともに端末装置11に送信する。
(記憶部128)各種データを記憶する。
(Co-occurrence word data extraction unit 125) Along with the search keyword indicated by the search keyword data received by the search keyword
(Relevance data generation unit 126) Search keyword data received by the search keyword
(Relevance level data transmission unit 127) The text data acquired by the text
(Storage unit 128) Stores various data.
また、記憶部128には、以下のデータが記憶されている。
(辞書DB)形態素解析部122が形態素解析を行う際に用いる辞書データを格納したDB(Database)。
(文法DB)形態素解析部122が形態素解析を行う際に用いる文法データを格納したDB。
(テキストDB)テキストデータ取得部123により取得されたテキストデータを格納するDB。
(形態素DB)形態素解析部122により生成された形態素データを格納するDB。
(共起語DB)共起語データ抽出部125により生成された共起語データを格納するDB。
The
(Dictionary DB) DB (Database) that stores dictionary data used when the
(Grammar DB) A DB that stores grammar data used when the
(Text DB) A DB that stores text data acquired by the text
(Morpheme DB) A DB that stores morpheme data generated by the
(Co-occurrence word DB) A DB that stores co-occurrence word data generated by the co-occurrence word
辞書DBおよび文法DBは一般的な形態素解析において用いられる既知のデータベースであるため、そのデータ構成の説明を省略する。 Since the dictionary DB and the grammar DB are known databases used in general morphological analysis, description of the data structure is omitted.
図3はテキストDBのデータ構成の例を模式的に示した図である。テキストDBはテキストデータ取得部123により取得されたテキストデータの各々に応じたデータレコードの集まりであり、各データレコードは、テキストデータを識別するテキストID(Identifier)を格納するデータフィールド「テキストID」、テキストデータが取得された時刻を示す時刻データを格納するデータフィールド「時刻」、テキストデータを格納するデータフィールド「テキスト」を備えている。
FIG. 3 is a diagram schematically showing an example of the data structure of the text DB. The text DB is a collection of data records corresponding to each of the text data acquired by the text
図4は形態素DBのデータ構成の例を模式的に示した図である。形態素DBは形態素解析部122により生成された形態素データの各々に応じたデータレコードの集まりであり、各データレコードは、形態素データの生成に用いられたテキストデータのテキストIDを格納するデータフィールド「テキストID」、そのテキストデータが取得された時刻を示す時刻データを格納するデータフィールド「時刻」、形態素データを格納するデータフィールド「形態素」を備えている。
FIG. 4 is a diagram schematically showing an example of the data structure of the morpheme DB. The morpheme DB is a collection of data records corresponding to each of the morpheme data generated by the
形態素解析部122が行う形態素分析は既知の技術であるため、その詳細な説明は省略するが、形態素解析部122が行う形態素分析の処理の結果例を図5に示す。図5は、テキストデータ「○○ツリーはやはり高い。○○ツリータウンも面白そうだな。」を形態素解析部122が形態素分析した際の結果を示している。図5に示されるデータフィールド「表層形」は入力されたテキストから分割された形態素を示している。データフィールド「品詞」は形態素の品詞を示している。データフィールド「原形」は形態素の原形を示している。例えば、表層形が「面白」の形態素は原形が「面白い」であり、以下に説明するサーバ装置12の処理においては言葉の比較が原形により行われ、変化形により同じ意味の言葉が異なる言葉として扱われることはない。従って、形態素DBのデータフィールド「形態素」に格納されるデータは形態素の原形を示すデータである。
The morpheme analysis performed by the
なお、形態素解析部122が形態素DBに登録する形態素データは図5に示すようにテキストから分割された形態素(原形)の全てではなく、その言葉が単体で意味を持つ品詞のものに限られる。具体的には、名詞、動詞、形容詞、形容動詞などは形態素DBに登録され、助詞、副詞、助動詞、接続詞、記号などは形態素DBに登録されない。
Note that the morpheme data registered in the morpheme DB by the
図6は共起語DBのデータ構成の例を模式的に示した図である。共起語DBは共起語データ抽出部125により生成された共起語データの各々に応じたデータレコードの集まりであり、各データレコードは、端末装置11からサーバ装置12に対し送信されてきた検索のリクエストを識別する検索IDを格納するデータフィールド「検索ID」、検索のリクエストにおいて端末装置11から送信されてきた検索キーワードデータを格納するデータフィールド「検索キーワード」、抽出対象の形態素をそのソースのテキストデータの取得された時刻により絞り込む時間帯を示す時間帯データを格納するデータフィールド「時間帯」、共起語として抽出された形態素を示す共起語データを格納するデータフィールド「共起語」、検索キーワードと共起語との間の共起係数(後述)を示す共起係数データを格納するデータフィールド「共起係数」を備えている。
FIG. 6 is a diagram schematically showing an example of the data structure of the co-occurrence word DB. The co-occurrence word DB is a collection of data records corresponding to each of the co-occurrence word data generated by the co-occurrence word
図6に示されるように、共起語データ抽出部125により生成される共起語データおよび共起係数データは、特定の時間帯内において取得されたテキストから生成された形態素から抽出した共起語およびその共起係数を示している。本実施形態において、この時間帯はサーバ装置12が端末装置11から検索のリクエストを受信した時刻から前1ヶ月間の時間帯であるものとし、共起語データ抽出部125により自動的に設定される。
As shown in FIG. 6, the co-occurrence word data and the co-occurrence coefficient data generated by the co-occurrence word
続いて、テキスト検索システム1の動作を説明する。まず、サーバ装置12は定期的に(例えば、1日に1回、所定時刻に)、インターネットにおいて前日以降に新たに公開された文書を示すテキストデータを様々なサーバ装置からクロールして、それらのテキストデータを用いて形態素解析を行い、形態素データの登録を行う。図7はそれらの形態素データの登録に伴いサーバ装置12が行う処理を示した図である。
Next, the operation of the text search system 1 will be described. First, the
まず、テキストデータ取得部123は外部の各サーバ装置に対し、過去最後に同様の要求を行った日時を示す時刻データを含むテキストデータの送信要求を行い、その応答として各サーバ装置から送信されてくる、新たに更新されたテキストデータを受信する(S101)。テキストデータ取得部123は取得したそれらのテキストデータの各々にテキストIDを割り当て、計時部121から取得した時刻データ(その取得時の時刻を示す)とともにテキストDB(図3)に格納する(S102)。
First, the text
形態素解析部122は、テキストデータ取得部123によりテキストDBに格納されたテキストデータを用いて形態素解析を行い(S103)、生成した形態素データの中から単独で意味を生じる品詞のものを抽出し(S104)、抽出した形態素データを、その生成に用いたテキストデータのテキストIDおよび時刻データとともに形態素DB(図4)に格納する(S105)。以上が形態素データの登録に伴う処理である。
The
ユーザは、自分が関心を持つ検索キーワードを端末装置11に入力し、サーバ装置12に送信することで、その応答としてサーバ装置12から端末装置11に送信されてくる、その検索キーワードに関連したテキストデータを、その検索キーワードとの関連度データとともに閲覧することができる。その際、サーバ装置12から端末装置11に送信されてくるテキストデータの選択に用いられた関連度データは、例えば、過去1ヶ月間に取得したテキストデータから生成された形態素データに基づき生成された共起語データおよび共起係数データに基づいて生成されたものである。従って、ユーザに対し提供されるテキストデータは、過去1ヶ月における話題傾向が考慮されて抽出されたものである。
A user inputs a search keyword in which he / she is interested in the
図8は、ユーザにより端末装置11に入力された検索キーワードがサーバ装置12に送信された際に、サーバ装置12において行われる共起語データおよび共起係数データの生成に伴う処理を示した図である。
FIG. 8 is a diagram illustrating processing associated with generation of co-occurrence word data and co-occurrence coefficient data performed in the
まず、端末装置11から送信された検索キーワードデータは、検索キーワードデータ受信部124により受信される(S201)。検索キーワードデータの受信をトリガに、共起語データ抽出部125は形態素DB(図4)から、データフィールド「時刻」に過去1ヶ月の時間帯に含まれる時刻を示す時刻データが格納されているデータレコード群を抽出する(S202)。
First, the search keyword data transmitted from the
続いて、共起語データ抽出部125はステップS202において抽出したデータレコード群の中から、ステップS201において受信した検索キーワードデータと同じデータがデータフィールド「形態素」に格納されているデータレコード群を抽出する(S203)。
Subsequently, the co-occurrence word
続いて、共起語データ抽出部125はステップS203において抽出したデータレコード群をデータフィールド「テキストID」によりグループ化し、それらのグループの数、すなわち検索キーワードデータを含むテキストデータの数を検索キーワードの出現文書数df(wi)として特定する(S204)。
Subsequently, the co-occurrence word
続いて、共起語データ抽出部125はステップS202において抽出したデータレコード群をデータフィールド「形態素」によりグループ化する(S205)。以下、ステップS205において、第1〜第n(ただし、nは任意の自然数)までの形態素に応じたデータレコード群が生成されたものとする。
Subsequently, the co-occurrence word
続いて、共起語データ抽出部125はステップS205において生成したn個のデータレコード群の中から第m(ただし、mは1以上n以下の任意の自然数)の形態素のデータレコード群を選択する(S206)。
Subsequently, the co-occurrence word
続いて、共起語データ抽出部125はステップS206において選択した第mの形態素のデータレコード群をデータフィールド「テキストID」によりグループ化し、それらのグループの数、すなわち第mの形態素データを含むテキストデータの数を第mの形態素の出現文書数df(wjm)として特定する(S207)。
Subsequently, the co-occurrence word
続いて、共起語データ抽出部125はステップS203において抽出したデータレコード群のいずれかのデータフィールド「テキストID」に格納され、ステップS206において選択した第mの形態素のデータレコード群のいずれかのデータフィールド「テキストID」にも格納されるテキストIDの数を共起文書数df(wi,wjm)として特定する(S208)。なお、このように特定される共起文書数df(wi,wjm)は、検索キーワードデータと第mの形態素を示す形態素データをともに含むテキストデータの数である。
Subsequently, the co-occurrence word
続いて、共起語データ抽出部125はステップ204において特定した出現文書数df(wi)、ステップ207において特定した出現文書数df(wjm)、ステップS208において特定した共起文書数df(wi,wjm)を用いて、以下の式に従い共起係数Dice(wi,wjm)を算出する(S209)。
なお、共起係数とは、2つの単語(この場合、検索キーワードと第mの形態素)が同じ文書に出現する頻度を示す指標であり、上記の式はダイス係数として知られる共起係数の算出式である。 The co-occurrence coefficient is an index indicating the frequency with which two words (in this case, the search keyword and the m-th morpheme) appear in the same document, and the above formula is a calculation of the co-occurrence coefficient known as a dice coefficient. It is a formula.
続いて、共起語データ抽出部125はステップ209において算出した共起係数Dice(wi,wjm)を示す共起係数データを、ステップS201において検索キーワードデータの受信に際しその検索のリクエストに対し検索キーワードデータ受信部124により割り振られた検索ID、ステップS201において受信された検索キーワードデータ、検索キーワードデータの受信のタイミングより前1ヶ月間を示す時間帯データ、第mの形態素を示す共起語データとともに共起語DB(図6)に格納する(S210)。
Subsequently, the co-occurrence word
続いて、共起語データ抽出部125はステップS205においてグループ化したn個の形態素に応じたグループの全てに関し、ステップS210の登録処理が完了したか否かを判定する(S211)。ステップS211の判定において、まだ登録処理が完了していない形態素のグループがあると判定した場合(S211;No)、共起語データ抽出部125は処理をステップS206に戻し、第(m+1)の形態素のデータレコード群を選択し、ステップS207以降の処理を行う。一方、ステップS211の判定において、全ての形態素のグループに関し登録処理が完了したと判定した場合(S211;Yes)、共起語データ抽出部125は一連の処理を終了する。
Subsequently, the co-occurrence word
以上が、ユーザが入力した検索キーワードに関する共起語データおよび共起係数データの生成に伴う処理である。 The above is the process accompanying the generation of co-occurrence word data and co-occurrence coefficient data related to the search keyword input by the user.
共起語データ抽出部125による共起語データおよび共起係数データの生成の処理が完了すると、続いて関連度データ生成部126による関連度データの生成と、関連度データ送信部127によるテキストデータおよび関連度データの端末装置11に対する送信の処理が行われる。図9はそれらの処理を示した図である。
When the process of generating the co-occurrence word data and the co-occurrence coefficient data by the co-occurrence word
まず、関連度データ生成部126は、共起語DB(図6)から、ステップS201において端末装置11から送信されてきた検索キーワードデータの受信に伴い検索キーワードデータ受信部124によりその検索のリクエストに対し割り当てられた検索IDをデータフィールド「検索ID」に含むデータレコードを抽出する(S301)。
First, the degree-of-association
続いて、関連度データ生成部126は形態素DB(図4)から、データフィールド「時刻」に過去1ヶ月間に含まれる時刻を示す時刻データが格納されているデータレコードを抽出する(S302)。
Subsequently, the relevance
続いて、関連度データ生成部126はステップS302において抽出したデータレコード群をデータフィールド「テキストID」によりグループ化する(ステップS303)。以下、ステップS303において、第1〜第x(ただし、xは任意の自然数)までのテキストデータに応じたデータレコード群が生成されたものとする。
Subsequently, the relevance
続いて、関連度データ生成部126はステップS303において生成したx個のデータレコード群の中から第y(ただし、yは1以上x以下の任意の自然数)のテキストデータのデータレコード群を選択する(S304)。
Subsequently, the relevance
続いて、関連度データ生成部126はステップS304において選択した第yのテキストデータのデータレコード群をデータフィールド「形態素」によりグループ化し、それらのグループの各々に含まれるデータレコードの数をカウントする(S305)。今、ステップS305のグループ化により第1〜第p(ただし、pは任意の自然数)までの形態素に応じたデータレコード群が生成されたものとし、第q(ただし、qは1以上r以下の任意の自然数)の形態素に応じたデータレコード群の数としてデータレコード数Cqがカウントされたものとする。
Subsequently, the relevance
続いて、関連度データ生成部126は第1〜第pの形態素の各々(以下、第qとする)に関し、共起語DB(図6)から、ステップS201において検索キーワードデータ受信部124により割り当てられた検索IDがデータフィールド「検索ID」に格納され、第qの形態素を示す共起語データがデータフィールド「共起語」に格納されているデータレコードを検索し、検索したデータレコードのデータフィールド「共起係数」に格納される共起係数データを第qの形態素に関する共起係数Dqとして読み出す(S306)。
Subsequently, the relevance
続いて、関連度データ生成部126は以下の式に従い、第yのテキストデータと検索キーワードデータとの間の関連度Ryを算出し、算出した関連度Ryを示す関連度データを生成する(S307)。
続いて、関連度データ生成部126はステップS303においてグループ化したx個のテキストデータに応じたグループの全てに関し、ステップS307の関連度データの生成処理が完了したか否かを判定する(S308)。ステップS308の判定において、まだ関連度データの生成処理が完了していないテキストデータのグループがあると判定した場合(S308;No)、関連度データ生成部126は処理をステップS304に戻し、第(y+1)のテキストデータのデータレコード群を選択し、ステップS305以降の処理を行う。
Subsequently, the relevance
一方、ステップS308の判定において、全てのテキストデータのグループに関し関連度データの生成処理が完了したと判定した場合(S308;Yes)、関連度データ生成部126は一連の処理を終え、続いて関連度データ送信部127によるテキストデータおよび関連度データの送信の処理が行われる。
On the other hand, in the determination of step S308, when it is determined that the relevance data generation processing has been completed for all text data groups (S308; Yes), the relevance
関連度データ送信部127は、第1〜第xのテキストデータを、ステップS303においてグループ化されたデータレコード群の各々に関し、データフィールド「テキストID」に格納されているテキストIDを検索キーとして、テキストDB(図3)から第1〜第xのテキストデータを抽出する(S309)。
The relevance
続いて、関連度データ送信部127はステップS309において抽出した第1〜第xのテキストデータとステップS307において第1〜第xのテキストデータに関し生成された関連度データとを各々対応付けた後、関連度データが示す関連度の降順となるようにテキストデータをソートする(S310)。
Subsequently, the association degree
続いて、関連度データ送信部127はステップS310においてソートを行ったテキストデータを、それらに対応付けた関連度データとともに端末装置11に送信する(S311)。以上が関連度データ生成部126による関連度データの生成および関連度データ送信部127によるテキストデータと関連度データの送信に伴う処理である。
Subsequently, the relevance
端末装置11はサーバ装置12から送信されてくる関連度データを伴うテキストデータを受信すると、その内容を表示する。図10は、端末装置11において表示される抽出結果の表示画面を模式的に示した図である。ユーザは抽出結果の表示画面を見ることにより、先に自分が入力した検索キーワードに関連する文書の内容を知ることができる。その際、表示されるテキストデータは、過去1ヶ月間において検索キーワードと共に同じ文書において用いられた共起語の出現頻度を考慮して選択されたテキストデータであり、またその表示順序は共起語の出現頻度を考慮して算出された関連度の高い順であるため、その内容を読むとユーザは過去1ヶ月間における、検索キーワードに関連する話題傾向を知ることができる。
When the
[変形例]
上述した実施形態は本発明の一実施形態であり、本発明の技術的思想の範囲内において様々に変形可能である。以下にそれらの変形の例を示す。
[Modification]
The embodiment described above is an embodiment of the present invention, and can be variously modified within the scope of the technical idea of the present invention. Examples of these modifications are shown below.
上述した実施形態においては、テキスト検索システム1が端末装置11とサーバ装置12により構成され、検索キーワードデータの入力および結果表示を除く処理が全てサーバ装置12において行われる。これに代えて、サーバ装置12が行う処理の全てもしくは一部が端末装置11において行われる構成が採用されてもよい。例えば、端末装置11がデスクトップPCのように十分な処理速度、通信速度、記憶容量等を備えている場合、端末装置11がサーバ装置12の役割を兼ねることができる。
In the embodiment described above, the text search system 1 is configured by the
また、上述した実施形態においては、共起係数としてDice係数が採用されているが、共起の程度を示す指標であれば、Dice係数以外のいずれの指標が共起係数として採用されてもよい。 In the embodiment described above, the Dice coefficient is employed as the co-occurrence coefficient. However, any index other than the Dice coefficient may be employed as the co-occurrence coefficient as long as the index indicates the degree of co-occurrence. .
また、上述した実施形態においては、ユーザに対し提示されるテキストデータは、過去1ヶ月間にサーバ装置12において取得されたテキストデータの中から抽出されたものであるが、抽出対象のテキストデータの取得時期の範囲は任意に変更可能であり、取得時期に基づく抽出を行わない構成が採用されてもよい。すなわち、共起語データおよび共起係数データの生成において用いる形態素データの取得時刻は過去1ヶ月等の所定期間内に限定されるが、抽出対象のテキストデータはその所定期間外に取得されたものであってもよい。
In the above-described embodiment, the text data presented to the user is extracted from the text data acquired in the
また、上述した実施形態においては、共起語データおよび共起係数データの生成において用いる形態素データをその取得時刻に基づき絞り込む際に用いる所定期間を過去1ヶ月間としたが、この所定期間は任意に変更可能であり、例えばユーザが検索キーワードを入力する際にこの所定期間を指定可能とし、ユーザにより指定された所定期間において取得された形態素データに基づき、共起語データおよび共起係数データの生成が行われる構成が採用されてもよい。 In the above-described embodiment, the predetermined period used when narrowing down the morpheme data used in the generation of the co-occurrence word data and the co-occurrence coefficient data based on the acquisition time is the past one month. For example, when the user inputs a search keyword, the predetermined period can be specified. Based on the morpheme data acquired in the predetermined period specified by the user, the co-occurrence word data and the co-occurrence coefficient data A configuration in which generation is performed may be adopted.
また、上述した実施形態においては、所定期間内における出現回数の多少にかかわらず全ての形態素が一様に関連度データの生成に用いられるが、例えば所定期間内における出現回数が多い形態素に対し、出現回数が少ない形態素よりも大きいウェイトを与え、関連度データの生成においてウェイトに応じて加重することにより、出現回数が多い形態素が共起語として出現するほど、出現回数が少ない形態素が共起語として出現する場合よりも高い関連度を示す関連度データが生成される構成が採用されてもよい。例えば、所定の閾値より少ない出現回数の形態素にはウェイトとして「0」を与え、所定の閾値以上の出現回数の形態素にはウェイトとして「1」を与えることにより、所定の閾値以上の出現回数の形態素のみを関連度データの生成において考慮する構成が採用されてもよい。 In the above-described embodiment, all morphemes are uniformly used for generating relevance data regardless of the number of appearances within a predetermined period. For example, for morphemes with a large number of appearances within a predetermined period, A morpheme with a smaller number of occurrences appears as a co-occurrence word by giving a larger weight than a morpheme with a smaller number of occurrences, and weighting according to the weight in the generation of relevance data. A configuration may be employed in which relevance data indicating a higher relevance level than when it appears. For example, by assigning “0” as a weight to a morpheme with an appearance count less than a predetermined threshold and giving “1” as a weight to a morpheme with an appearance count greater than or equal to a predetermined threshold, A configuration may be adopted in which only morphemes are considered in generating relevance data.
また、上述した実施形態においては、形態素データに対応する時刻データとして、そのソースとなるテキストデータが取得された時刻を示す時刻データが用いられる構成が採用されている。形態素データに対応する時刻データはこれに限られず、例えばソースとなるテキストデータにその文書の掲載時刻を示す時刻データが伴っている場合には、その時刻データを形態素データに対応する時刻データとして用いる構成が採用されてもよい。 In the above-described embodiment, a configuration is employed in which time data indicating the time at which text data as the source is acquired is used as time data corresponding to morpheme data. The time data corresponding to the morpheme data is not limited to this. For example, when the text data as the source is accompanied by the time data indicating the publication time of the document, the time data is used as the time data corresponding to the morpheme data. A configuration may be employed.
また、上述した実施形態においては、ユーザが単一の検索キーワードを入力し、単一の検索キーワードデータに応じた関連度データの生成が行われるものとしたが、ユーザが複数の検索キーワードを入力し、それらの複数の検索キーワードを各々示す複数の検索キーワードデータに応じた関連度データの生成が行われる構成が採用されてもよい。その場合、例えば関連度データ生成部126が各検索キーワードデータに関し算出した関連度の加算値を示す関連度データを生成する構成が採用されてもよい。
In the above-described embodiment, the user inputs a single search keyword, and the relevance data corresponding to the single search keyword data is generated. However, the user inputs a plurality of search keywords. And the structure by which the production | generation of the relevance data according to the some search keyword data which respectively show those some search keywords may be employ | adopted. In that case, for example, a configuration may be employed in which the relevance
さらに、ユーザが検索キーワードを入力する代わりにテキストデータを指定し、サーバ装置12において形態素解析部122によりそのテキストデータから分割して生成した複数の形態素データを検索キーワードとして用いる構成が採用されてもよい。その場合、ユーザは自分が興味を持った文書を指定することで、その文書に関連する文書を読むことができる。その場合も、ユーザに提示されるテキストデータは所定期間における話題傾向が考慮されて選択されたものとなる。
Furthermore, even if the user designates text data instead of inputting a search keyword and the
また、上述した実施形態においては、関連度データは共起語の出現数に対し共起係数により重み付けをしたものを合算した数値を示すものとしたが、例えば共起係数を用いず、共起語の出現数を示すデータをそのまま関連度データとして用いたり、共起係数とは異なる係数を用いたりしてもよい。 In the above-described embodiment, the relevance data indicates a numerical value obtained by adding the weights of the co-occurrence words weighted by the co-occurrence coefficient. For example, the co-occurrence coefficient is not used and the co-occurrence coefficient is not used. Data indicating the number of occurrences of words may be used as relevance data as it is, or a coefficient different from the co-occurrence coefficient may be used.
また、上述した実施形態においては、サーバ装置12から端末装置11に送信されるテキストデータは対応する関連度が高い順(降順)にソートされるものとしたが、例えば、サーバ装置12から端末装置11に対しては任意の順序で並べられたテキストデータが関連度データとともに送信され、端末装置11においてテキストデータのソートが行われる構成が採用されてもよい。また、ソートの順序は任意に変更可能である。例えば、テキストデータが示すテキストの長さ順や取得された時刻が新しい順などでソートが行われてもよい。また、テキストデータがWebページに掲載されており、そのテキストデータに対し他のWebページから貼られているリンクの数やそのWebページの閲覧数といったそのテキストデータに対する世間の関心度の指標となるデータが得られる場合には、それらの指標(リンク数や閲覧数など)に従いソートが行われる構成が採用されてもよい。
In the embodiment described above, the text data transmitted from the
また、上述した実施形態においては、一般的なコンピュータに本発明にかかるプログラムに従った処理を実行させることによりサーバ装置12が実現されるものとしたが、例えば図2に示した機能構成をハードウェアにより実現するいわゆる専用機としてサーバ装置12が構成されてもよい。
In the above-described embodiment, the
なお、上述した実施形態において示した数式や処理フローの内容および順序は説明のための一例であって、様々に変更可能である。 Note that the formulas and the contents and order of the processing flows shown in the above-described embodiments are examples for explanation, and can be variously changed.
1…テキスト検索システム、9…ネットワーク、11…端末装置、12…サーバ装置、121…計時部、122…形態素解析部、123…テキストデータ取得部、124…検索キーワードデータ受信部、125…共起語データ抽出部、126…関連度データ生成部、127…関連度データ送信部、128…記憶部 DESCRIPTION OF SYMBOLS 1 ... Text search system, 9 ... Network, 11 ... Terminal device, 12 ... Server apparatus, 121 ... Timekeeping part, 122 ... Morphological analysis part, 123 ... Text data acquisition part, 124 ... Search keyword data receiving part, 125 ... Co-occurrence Word data extraction unit, 126 ... relevance data generation unit, 127 ... relevance data transmission unit, 128 ... storage unit
Claims (6)
前記テキストデータ取得手段により取得されたテキストデータが示す文章を形態素解析により形態素に分割して当該分割した形態素を各々示す複数の形態素データを生成する形態素解析手段と、
前記形態素解析手段により複数のテキストデータの各々を分割して生成された形態素データのうちの1以上の形態素データの各々に関し、当該形態素データと、当該形態素データの生成に用いられたテキストデータを識別するテキストデータ識別データと、当該形態素データの生成に用いられたテキストデータとともに前記テキストデータ取得手段により取得された時刻データとを記憶する形態素データ記憶手段と、
一のキーワードを示す一のキーワードデータに関し、前記形態素データ記憶手段において、所定の期間内の時刻を示す時刻データとともに記憶され、かつ、前記一のキーワードデータが示す前記一のキーワードを示す形態素データとともに前記形態素データ記憶手段に記憶されているテキストデータ識別データと同一のテキストデータ識別データとともに記憶されている形態素データを、前記一のキーワードデータに対応する共起語データとして抽出する共起語データ抽出手段と
を備える装置。 Text data acquisition means for acquiring text data indicating a sentence together with time data indicating a time;
A morpheme analysis unit that divides a sentence indicated by the text data acquired by the text data acquisition unit into a morpheme by morpheme analysis and generates a plurality of morpheme data each indicating the divided morpheme;
For each of one or more morpheme data generated by dividing each of a plurality of text data by the morpheme analysis unit, the morpheme data and the text data used to generate the morpheme data are identified. Morpheme data storage means for storing the text data identification data and the time data acquired by the text data acquisition means together with the text data used for generating the morpheme data;
With respect to one keyword data indicating one keyword, the morpheme data storage means stores the time data indicating the time within a predetermined period and the morpheme data indicating the one keyword indicated by the one keyword data. Co-occurrence word data extraction for extracting morpheme data stored together with the same text data identification data as the text data identification data stored in the morpheme data storage means as co-occurrence word data corresponding to the one keyword data A device comprising:
を備える請求項1に記載の装置。 With respect to one text data identification data stored together with morpheme data indicating the one keyword indicated by the one keyword data, the co-occurrence word data corresponding to the one keyword data is stored in the morpheme data storage unit as the co-occurrence word data. For each of the morpheme data extracted by the word data extraction means, the one keyword data included in the one text data is the same morpheme data as the morpheme data stored together with the one text data identification data. And the number of co-occurrence word data corresponding to the one keyword data extracted by the co-occurrence word data extracting means and the one text data included in the one text data And the number of co-occurrence word data corresponding to the keyword data of The apparatus of claim 1, further comprising a relevance data generating means for generating a relevance data indicating the degree of association between the text data and the one of the keyword data.
請求項2に記載の装置。 The relevance data generation means is a number related to each co-occurrence word data in the generation of the relevance data according to a weight determined according to a predetermined rule based on the number of co-occurrence word data extracted by the co-occurrence word data extraction means. The apparatus according to claim 2, wherein weighting is performed.
前記テキストデータ取得手段により取得されたテキストデータを記憶するテキストデータ記憶手段と、
前記関連度データ生成手段により算出された、前記テキストデータ記憶手段に記憶されている複数のテキストデータの各々と前記キーワードデータ受信手段により前記端末装置から受信された前記一のキーワードデータとの間の関連度データを、当該複数のテキストデータの各々に関連付けて前記端末装置に送信する関連度データ送信手段と
を備える請求項2または3に記載の装置。 Keyword data receiving means for receiving the one keyword data or text data including the one keyword data from a terminal device;
Text data storage means for storing text data acquired by the text data acquisition means;
Between each of the plurality of text data stored in the text data storage means and the one keyword data received from the terminal device by the keyword data receiving means, calculated by the relevance level data generating means. The device according to claim 2, further comprising: relevance data transmission means for transmitting relevance data to the terminal device in association with each of the plurality of text data.
請求項4に記載の装置。 5. The relevance data transmitting means transmits the plurality of text data to the terminal device together with the relevance data after sorting the plurality of text data in an order according to the relevance indicated by the relevance data. apparatus.
文章を示すテキストデータを、時刻を示す時刻データとともに取得するテキストデータ取得手段と、
前記テキストデータ取得手段により取得されたテキストデータが示す文章を形態素解析により形態素に分割して当該分割した形態素を各々示す複数の形態素データを生成する形態素解析手段と、
前記形態素解析手段により複数のテキストデータの各々を分割して生成した形態素データのうちの1以上の形態素データの各々に関し、当該形態素データと、当該形態素データの生成に用いたテキストデータを識別するテキストデータ識別データと、当該形態素データの生成に用いたテキストデータとともに前記テキストデータ取得手段により取得された時刻データとを記憶する形態素データ記憶手段と、
一のキーワードを示す一のキーワードデータに関し、前記形態素データ記憶手段において、所定の期間内の時刻を示す時刻データとともに記憶され、かつ、前記一のキーワードデータが示すキーワードを示す形態素データとともに前記形態素データ記憶手段に記憶されているテキストデータ識別データと同一のテキストデータ識別データとともに記憶されている形態素データを、前記一のキーワードデータに対応する共起語データとして抽出する共起語データ抽出手段
として機能させるためのプログラム。 The computer,
Text data acquisition means for acquiring text data indicating a sentence together with time data indicating a time;
A morpheme analysis unit that divides a sentence indicated by the text data acquired by the text data acquisition unit into a morpheme by morpheme analysis and generates a plurality of morpheme data each indicating the divided morpheme;
Text identifying the morpheme data and the text data used to generate the morpheme data for each of one or more morpheme data generated by dividing each of the plurality of text data by the morpheme analysis unit Morpheme data storage means for storing data identification data and time data acquired by the text data acquisition means together with text data used for generating the morpheme data ;
Relates one keyword data showing one keyword, the morpheme in the data storage means is stored together with time data indicating the time within a predetermined time period, and the morphological data with morphological data indicating a keyword indicating the one keyword data occurrence word data extracting means for extracting morphemes data stored with the same text data identification data and text data identification data stored in the storage means, as the occurrence word data corresponding to the one keyword data
Program for make function as.
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
JP2012138820A JP5964149B2 (en) | 2012-06-20 | 2012-06-20 | Apparatus and program for identifying co-occurrence words |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
JP2012138820A JP5964149B2 (en) | 2012-06-20 | 2012-06-20 | Apparatus and program for identifying co-occurrence words |
Publications (2)
Publication Number | Publication Date |
---|---|
JP2014002653A JP2014002653A (en) | 2014-01-09 |
JP5964149B2 true JP5964149B2 (en) | 2016-08-03 |
Family
ID=50035751
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
JP2012138820A Expired - Fee Related JP5964149B2 (en) | 2012-06-20 | 2012-06-20 | Apparatus and program for identifying co-occurrence words |
Country Status (1)
Country | Link |
---|---|
JP (1) | JP5964149B2 (en) |
Families Citing this family (5)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
JP5957048B2 (en) | 2014-08-19 | 2016-07-27 | インターナショナル・ビジネス・マシーンズ・コーポレーションInternational Business Machines Corporation | Teacher data generation method, generation system, and generation program for eliminating ambiguity |
JP6374771B2 (en) * | 2014-11-19 | 2018-08-15 | Kddi株式会社 | Retrieval device, program, and method for retrieving vague record of user's memory |
JP6789860B2 (en) * | 2017-03-14 | 2020-11-25 | ヤフー株式会社 | Information providing equipment, information providing method, and information providing program |
JP6767465B2 (en) * | 2018-12-14 | 2020-10-14 | ヤフー株式会社 | Information processing equipment, information processing methods, and information processing programs |
CN111522863B (en) * | 2020-04-15 | 2023-07-25 | 北京百度网讯科技有限公司 | Theme concept mining method, device, equipment and storage medium |
Family Cites Families (7)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
JP2001318939A (en) * | 2000-05-09 | 2001-11-16 | Hitachi Ltd | Document processing method and apparatus, and medium storing processing program thereof |
JP2002183175A (en) * | 2000-12-08 | 2002-06-28 | Hitachi Ltd | Text mining method |
JP2007018285A (en) * | 2005-07-07 | 2007-01-25 | Cac:Kk | Information providing system, information providing method, information providing apparatus, and information providing program |
JP4234740B2 (en) * | 2006-08-03 | 2009-03-04 | 株式会社東芝 | Keyword presenting apparatus, program, and keyword presenting method |
JP2009116457A (en) * | 2007-11-02 | 2009-05-28 | Intec Systems Institute Inc | Method and device for analyzing internet site information |
JPWO2009096523A1 (en) * | 2008-01-30 | 2011-05-26 | 日本電気株式会社 | Information analysis apparatus, search system, information analysis method, and information analysis program |
JP5330046B2 (en) * | 2009-03-23 | 2013-10-30 | 株式会社東芝 | Co-occurrence expression extraction apparatus and co-occurrence expression extraction method |
-
2012
- 2012-06-20 JP JP2012138820A patent/JP5964149B2/en not_active Expired - Fee Related
Also Published As
Publication number | Publication date |
---|---|
JP2014002653A (en) | 2014-01-09 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
KR101506380B1 (en) | Infinite browse | |
KR101171405B1 (en) | Personalization of placed content ordering in search results | |
JP5647508B2 (en) | System and method for identifying short text communication topics | |
Pu et al. | Subject categorization of query terms for exploring Web users' search interests | |
JP5168961B2 (en) | Latest reputation information notification program, recording medium, apparatus and method | |
US8332208B2 (en) | Information processing apparatus, information processing method, and program | |
JP2002334106A (en) | Topic extraction device, method, program, and recording medium for recording the program | |
KR101100830B1 (en) | Object Retrieval using the Internet and Hybrid-based Opinion Analysis System and Method therefor | |
WO2007078380A2 (en) | System and method for monitoring evolution over time of temporal content | |
JP2007188352A (en) | Page reranking device, page reranking program | |
JP5964149B2 (en) | Apparatus and program for identifying co-occurrence words | |
KR20090003739A (en) | Terminal device for collecting user taste information using tag information, method and recording medium | |
Strzelecki et al. | Direct answers in Google search results | |
JP2011108053A (en) | System for evaluating news article | |
JP2011103075A (en) | Method for extracting excerpt sentence | |
JP4466334B2 (en) | Information classification method and apparatus, program, and storage medium storing program | |
JP5151368B2 (en) | Information processing apparatus and information processing program | |
JP2008262506A (en) | Information extraction system, information extraction method, and information extraction program | |
JP4569380B2 (en) | Vector generation method and apparatus, category classification method and apparatus, program, and computer-readable recording medium storing program | |
KR101850853B1 (en) | Method and apparatus of search using big data | |
JP4796527B2 (en) | Document narrowing search apparatus, method and program | |
KR101308821B1 (en) | Keyword extraction system for search engines and extracting method thereof | |
JP5513929B2 (en) | Experience information reusability evaluation apparatus, method and program | |
KR101132431B1 (en) | System and method for providing interest information | |
CN105740436B (en) | Method and device for pushing written works based on Internet search technology |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
A621 | Written request for application examination |
Free format text: JAPANESE INTERMEDIATE CODE: A621 Effective date: 20150216 |
|
A977 | Report on retrieval |
Free format text: JAPANESE INTERMEDIATE CODE: A971007 Effective date: 20160107 |
|
A131 | Notification of reasons for refusal |
Free format text: JAPANESE INTERMEDIATE CODE: A131 Effective date: 20160202 |
|
A521 | Written amendment |
Free format text: JAPANESE INTERMEDIATE CODE: A523 Effective date: 20160404 |
|
TRDD | Decision of grant or rejection written | ||
A01 | Written decision to grant a patent or to grant a registration (utility model) |
Free format text: JAPANESE INTERMEDIATE CODE: A01 Effective date: 20160621 |
|
A61 | First payment of annual fees (during grant procedure) |
Free format text: JAPANESE INTERMEDIATE CODE: A61 Effective date: 20160629 |
|
R150 | Certificate of patent or registration of utility model |
Ref document number: 5964149 Country of ref document: JP Free format text: JAPANESE INTERMEDIATE CODE: R150 |
|
LAPS | Cancellation because of no payment of annual fees |