JP6411800B2 - Information management apparatus, information management system, and information management program - Google Patents
Information management apparatus, information management system, and information management program Download PDFInfo
- Publication number
- JP6411800B2 JP6411800B2 JP2014147085A JP2014147085A JP6411800B2 JP 6411800 B2 JP6411800 B2 JP 6411800B2 JP 2014147085 A JP2014147085 A JP 2014147085A JP 2014147085 A JP2014147085 A JP 2014147085A JP 6411800 B2 JP6411800 B2 JP 6411800B2
- Authority
- JP
- Japan
- Prior art keywords
- information
- event
- spot
- name
- post
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Expired - Fee Related
Links
- 238000000605 extraction Methods 0.000 claims description 39
- 238000010801 machine learning Methods 0.000 claims description 28
- 230000010354 integration Effects 0.000 claims description 24
- 239000000284 extract Substances 0.000 claims description 13
- 230000007717 exclusion Effects 0.000 claims description 6
- 238000012545 processing Methods 0.000 claims description 6
- 238000007726 management method Methods 0.000 description 29
- 238000000034 method Methods 0.000 description 15
- 238000012986 modification Methods 0.000 description 15
- 230000004048 modification Effects 0.000 description 15
- 238000001914 filtration Methods 0.000 description 13
- 230000008569 process Effects 0.000 description 10
- 238000004458 analytical method Methods 0.000 description 9
- 238000010586 diagram Methods 0.000 description 8
- 230000014509 gene expression Effects 0.000 description 7
- 230000004044 response Effects 0.000 description 5
- 238000004422 calculation algorithm Methods 0.000 description 4
- 239000013598 vector Substances 0.000 description 4
- 230000006870 function Effects 0.000 description 3
- 230000000877 morphologic effect Effects 0.000 description 3
- 238000004891 communication Methods 0.000 description 2
- 238000012706 support-vector machine Methods 0.000 description 2
- 230000006399 behavior Effects 0.000 description 1
- 238000004364 calculation method Methods 0.000 description 1
- 238000004590 computer program Methods 0.000 description 1
- 239000000470 constituent Substances 0.000 description 1
- 238000012217 deletion Methods 0.000 description 1
- 230000037430 deletion Effects 0.000 description 1
- 230000000694 effects Effects 0.000 description 1
- 238000011156 evaluation Methods 0.000 description 1
- 238000002474 experimental method Methods 0.000 description 1
- 230000010365 information processing Effects 0.000 description 1
- 238000003780 insertion Methods 0.000 description 1
- 230000037431 insertion Effects 0.000 description 1
- 230000006855 networking Effects 0.000 description 1
- 238000012552 review Methods 0.000 description 1
- 238000010187 selection method Methods 0.000 description 1
- 238000011425 standardization method Methods 0.000 description 1
- 238000012360 testing method Methods 0.000 description 1
Images
Landscapes
- Information Retrieval, Db Structures And Fs Structures Therefor (AREA)
- Management, Administration, Business Operations System, And Electronic Commerce (AREA)
- Information Transfer Between Computers (AREA)
Description
本発明は、情報管理装置、情報管理システム、及び情報管理方法に関する。 The present invention relates to an information management apparatus, an information management system, and an information management method.
近年、実世界におけるユーザの外出行動を支援するため、スマートフォンやPC等の情報端末を介して、観光スポット、地域に関連したイベント、地域に関連した商品(特産品)等の地域情報を提供する地域情報サービスが提供されている。以上の地域情報サービスの有用性は、最新の(up-to-dateな)地域情報が数多く提供されることにより向上する。 In recent years, in order to support users' going-out behavior in the real world, local information such as sightseeing spots, local events, local products (special products), etc. are provided via information terminals such as smartphones and PCs. Regional information services are provided. The usefulness of the above regional information service is improved by providing a lot of up-to-date local information.
出願人の調査によれば、イベントに関する情報(以下、イベント情報と称する)の提供件数は、観光スポットや商品に関する情報の提供件数と比較して、顕著に少ない。地域情報サービスの有用性の観点からは、イベント情報がより多く提供されると好適である。また、イベントは、日時や期間を限定して開催されるため、頻繁な情報収集によってイベント情報の鮮度を保つことが重要である。しかしながら、多数のイベント情報を高頻度に手動で収集し続けることは、作業負荷及び作業コストの観点から困難である。 According to the applicant's survey, the number of information related to events (hereinafter referred to as event information) is significantly smaller than the number of information related to sightseeing spots and products. From the viewpoint of the usefulness of the regional information service, it is preferable that more event information is provided. In addition, since events are held with a limited date and time, it is important to maintain the freshness of event information through frequent information collection. However, it is difficult to manually collect a large number of event information manually from a viewpoint of work load and work cost.
以上の事情を考慮して、本発明は、イベント情報を適切に収集することを目的とする。 In view of the above circumstances, an object of the present invention is to appropriately collect event information.
本発明の情報管理装置は、複数の投稿情報から、当該投稿情報に含まれる地理的情報に基づいて、スポットに関連する投稿情報を選別するスポット投稿選別部と、複数の投稿情報から、当該投稿情報に含まれる文言に基づいて、イベントに関連する投稿情報を選別するイベント投稿選別部と、前記スポット投稿選別部および前記イベント投稿選別部によって選別された選別済み投稿情報を分析して、前記選別済み投稿情報に含まれるイベント名称と、当該イベント名称に対応するイベントが開催される開催スポット名称とを含むイベント情報を抽出するイベント情報抽出部とを備える。 The information management device according to the present invention includes a spot post sorting unit that sorts post information related to a spot from a plurality of pieces of post information based on geographical information included in the post information, and a plurality of pieces of post information. Based on the wording included in the information, the event posting sorting unit that sorts the posted information related to the event, and the sorted posted information sorted by the spot post sorting unit and the event post sorting unit, An event information extraction unit that extracts event information including an event name included in the posted information and a holding spot name where the event corresponding to the event name is held.
本発明の情報管理システムは、複数の投稿情報から、前記投稿情報に含まれる地理的情報に基づいて、スポットに関連する投稿情報を選別するスポット投稿選別部と、複数の投稿情報から、前記投稿情報に含まれる文言に基づいて、イベントに関連する投稿情報を選別するイベント投稿選別部と、前記スポット投稿選別部および前記イベント投稿選別部によって選別された選別済み投稿情報を分析して、前記選別済み投稿情報に含まれるイベント名称と、当該イベント名称に対応するイベントが開催される開催スポット名称とを含むイベント情報を抽出するイベント情報抽出部とを備える。 The information management system of the present invention includes a spot post sorting unit that sorts post information related to a spot from a plurality of pieces of post information based on geographical information included in the post information, and a plurality of pieces of post information. Based on the wording included in the information, the event posting sorting unit that sorts the posted information related to the event, and the sorted posted information sorted by the spot post sorting unit and the event post sorting unit, An event information extraction unit that extracts event information including an event name included in the posted information and a holding spot name where the event corresponding to the event name is held.
本発明の情報管理方法は、複数の投稿情報から、前記投稿情報に含まれる地理的情報に基づいて、スポットに関連する投稿情報を選別することと、複数の投稿情報から、前記投稿情報に含まれる文言に基づいて、イベントに関連する投稿情報を選別することと、選別された選別済み投稿情報を分析して、前記選別済み投稿情報に含まれるイベント名称と、当該イベント名称に対応するイベントが開催される開催スポット名称とを含むイベント情報を抽出することとを備える。 The information management method of the present invention includes selecting post information related to a spot from a plurality of post information based on geographical information included in the post information, and including the post information from a plurality of post information. The posting information related to the event is selected based on the wording, and the selected posted information is analyzed, and the event name included in the selected posted information and the event corresponding to the event name are Extracting event information including names of held spots.
本発明によれば、複数の投稿情報からイベント情報が適切に収集される。 According to the present invention, event information is appropriately collected from a plurality of post information.
以下、図面を参照しながら本発明の実施形態を詳細に説明する。 Hereinafter, embodiments of the present invention will be described in detail with reference to the drawings.
1. 実施形態
1(1). 情報管理サーバの概略
図1を参照して、本発明の実施形態に係る情報管理サーバMSと、情報管理サーバMSに関係する複数のコンピュータ装置とを概略的に示す。本実施形態のコンピュータ装置は、所定のプロトコル(TCP/IP等)に従って通信を実行する。
1. Embodiment 1 (1). Overview of Information Management Server With reference to FIG. 1, an information management server MS according to an embodiment of the present invention and a plurality of computer devices related to the information management server MS are schematically shown. The computer apparatus according to the present embodiment executes communication according to a predetermined protocol (TCP / IP or the like).
ブログサーバBSは、ユーザ端末(たとえば、スマートフォン)から投稿される投稿情報PIを受信して記憶し、外部からの要求に応じて投稿情報PIを提供する。以下、本実施形態における投稿情報PIの例を、非限定的に列挙する。
−マイクロブログサービス(例えば、Twitter[登録商標])における140文字以下の短文投稿(例えば、ツイート[登録商標])
−ブログ(ウェブログ)サービスにおける日記や寸評等の投稿
−ソーシャルネットワーキングサービス(SNS)におけるステータス投稿
The blog server BS receives and stores post information PI posted from a user terminal (for example, a smartphone), and provides the post information PI in response to an external request. Hereinafter, examples of post information PI in the present embodiment will be enumerated without limitation.
-Short postings (eg, tweets [registered trademark]) of 140 characters or less in a microblog service (such as Twitter [registered trademark])
-Posting diaries and reviews on blog (web log) services-Status posting on social networking services (SNS)
投稿情報取得サーバASは、ブログサーバBSから提供される投稿情報PIを取得して蓄積する。投稿情報取得サーバASは、ブログサーバBSに投稿される全ての投稿情報PIを蓄積してもよいし、一部の投稿情報PI(例えば、日本語の投稿情報PIのみ)を蓄積してもよい。 The posting information acquisition server AS acquires and accumulates the posting information PI provided from the blog server BS. The posting information acquisition server AS may accumulate all the posting information PI posted to the blog server BS, or may accumulate a part of the posting information PI (for example, only Japanese posting information PI). .
また、投稿情報取得サーバASは、情報管理サーバMSからの要求に応じて投稿情報PIを情報管理サーバMSに供給する。投稿情報取得サーバASは、蓄積している全ての投稿情報PIを情報管理サーバMSに供給してもよいし、一部の投稿情報PIを供給してもよい。 Further, the posting information acquisition server AS supplies the posting information PI to the information management server MS in response to a request from the information management server MS. The posted information acquisition server AS may supply all of the accumulated posted information PI to the information management server MS, or may supply a part of the posted information PI.
情報管理サーバMSは、投稿情報取得サーバASから供給される投稿情報PIを解析してイベント情報EIを収集及び蓄積すると共に、クライアント端末CLからの要求に応じてイベント情報EIを提示するコンピュータ装置である。本実施形態においては、日本語の投稿情報PIが解析対象である。なお、所定の基準に従って限定された投稿情報PIを解析対象としてもよい。例えば、特定のアカウント(Twitter上の公式アカウント等)が投稿した投稿情報PIのみを解析対象としてもよい。 The information management server MS is a computer device that analyzes the posting information PI supplied from the posting information acquisition server AS, collects and accumulates event information EI, and presents the event information EI in response to a request from the client terminal CL. is there. In the present embodiment, Japanese posting information PI is an analysis target. Post information PI limited according to a predetermined standard may be the analysis target. For example, only post information PI posted by a specific account (such as an official account on Twitter) may be analyzed.
投稿情報PIに基づいて収集されるイベント情報EIは、祝祭や展覧会、演奏会等のイベントに関する情報である。イベント情報EIは、イベントの名称及びイベントが開催されるスポットの名称を少なくとも含む。また、イベント情報EIは、イベントが開催される日時、イベントが開催される場所の緯度・経度、イベントに関するウェブサイトを指定するURL、イベントに関連する特徴語等を含んでもよい。例えば、あるイベント情報EIは、「イベント名称:サイエンスフェスティバル」、「開催スポット名称:ディスカバリーパーク焼津」、及び「開催日時:2014年3月23日11時00分から」という情報を含む。 The event information EI collected based on the posted information PI is information related to events such as festivals, exhibitions, and concerts. The event information EI includes at least the name of the event and the name of the spot where the event is held. The event information EI may include the date and time when the event is held, the latitude / longitude of the place where the event is held, a URL that specifies a website related to the event, a feature word related to the event, and the like. For example, certain event information EI includes information “event name: science festival”, “host spot name: discovery park Yaizu”, and “date and time of holding: from 13:00 on March 23, 2014”.
クライアント端末CLは、イベント情報EIを情報管理サーバMSに要求して取得すると共に、ユーザからの要求に応じてディスプレイに情報を表示する。例えば、クライアント端末CLは、イベント情報EIを電子地図上に重ねて表示する。 The client terminal CL requests and acquires the event information EI from the information management server MS, and displays information on the display in response to a request from the user. For example, the client terminal CL displays the event information EI superimposed on the electronic map.
電子地図の表示に用いられる電子地図データは、ユーザからの要求に応じてクライアント端末CLが地図サーバ(不図示)から取得してもよいし、予めクライアント端末CLに記憶されていてもよい。また、イベント情報EIと共に情報管理サーバMSから提供されてもよい。その場合、情報管理サーバMSは予め電子地図データを記憶していてもよいし、地図サーバから都度又は定期的に取得してもよい。 The electronic map data used for displaying the electronic map may be acquired from the map server (not shown) by the client terminal CL in response to a request from the user, or may be stored in the client terminal CL in advance. Further, it may be provided from the information management server MS together with the event information EI. In that case, the information management server MS may store electronic map data in advance, or may acquire it from the map server each time or periodically.
1(2). 物理的構成
1(2)−1. サーバ装置の構成
図2は、情報管理サーバMSを始めとする本実施形態の各サーバ装置の物理的構成を示すブロック図である。各サーバ装置(AS,BS,MS)は、ネットワークインタフェース10と入力部12と出力部14とCPU(Central Processing Unit)16とRAM(Random Access Memory)18とROM(Read Only Memory)20とHDD(Hard Disk Drive)22とを備える。
1 (2). Physical configuration 1 (2) -1. Configuration of Server Device FIG. 2 is a block diagram showing the physical configuration of each server device of this embodiment including the information management server MS. Each server device (AS, BS, MS) includes a
ネットワークインタフェース10は、ネットワークを介して他のコンピュータ装置と通信を実行する。入力部12は、キーボード等の入力装置からの入力信号を受け付ける。出力部14は、ディスプレイ等の出力装置に対して出力信号を送信する。CPU16は、主記憶装置であるRAM18及びROM20に記憶されているプログラムを実行することにより種々の制御及び演算を行う。HDD22は、RAM18上に展開可能なプログラム及びデータを記憶する補助記憶装置である。なお、HDD22に代えて又は加えてSSD等の記憶媒体が採用されてもよい。
The
当業者が当然に理解する通り、1つのサーバが複数のコンピュータ装置によって構成されてもよいし、1つのコンピュータ装置が仮想化された複数のサーバを備えてもよい。 As a person skilled in the art understands naturally, one server may be configured by a plurality of computer devices, or one computer device may include a plurality of virtualized servers.
1(2)−2. クライアント端末の構成
図3は、本実施形態のクライアント端末CLの物理的構成を示すブロック図である。クライアント端末CLは、ネットワークインタフェース30と入力部32と出力部34とCPU36とRAM38とROM40とHDD42とを備える。以上の各要素は、各サーバが備える、図2を参照して説明された要素と同様の構成を有する。
1 (2) -2. Configuration of Client Terminal FIG. 3 is a block diagram showing a physical configuration of the client terminal CL of the present embodiment. The client terminal CL includes a
1(3). 論理的構成
図4は、情報管理サーバMSの論理的構成を示すブロック図である。情報管理サーバMSは、投稿情報選別部100とイベント情報抽出部110とイベント情報統合部120と情報提示部130とを機能ブロックとして備える。投稿情報選別部100は、スポット投稿選別部102とイベント投稿選別部104とを備える。また、情報管理サーバMSは、スポット情報テーブル140とスポット投稿テーブル150とイベント投稿テーブル160とイベント情報テーブル170とを論理テーブルとして備える。
1 (3). Logical Configuration FIG. 4 is a block diagram showing a logical configuration of the information management server MS. The information management server MS includes a posted
各機能ブロックの概略的な動作を説明する。投稿情報選別部100は、投稿情報取得サーバASから供給される投稿情報PIを選別する。より具体的には、スポット投稿選別部102は、投稿情報PIに含まれる地理的情報に基づいて、スポット名称に関連する投稿情報PIを選別する。イベント投稿選別部104は、投稿情報PIに含まれる文言に基づいて、イベントに関連する投稿情報PIを選別する。イベント情報抽出部110は、選別された投稿情報PI(選別済み投稿情報SPI)を分析して、選別済み投稿情報SPIに含まれるイベント名称と、そのイベント名称に対応するイベントが開催される開催スポット名称とを含むイベント情報EIを抽出する。イベント情報統合部120は、抽出されたイベント情報EIのうち同一のイベントに対応する複数のイベント情報EIを、1つの統合イベント情報IEIに統合する。情報提示部130は、統合済みのイベント情報EI(統合イベント情報IEI)をクライアント端末CLに提示する。
A schematic operation of each functional block will be described. The posted
図5は、投稿情報取得サーバASの論理的構成を示すブロック図である。投稿情報取得サーバASは、ブログサーバBSから取得した投稿情報PIを蓄積する投稿情報処理部200を機能ブロックとして備えると共に、投稿情報テーブル210を論理テーブルとして備える。
FIG. 5 is a block diagram showing a logical configuration of the posting information acquisition server AS. The posting information acquisition server AS includes a posting
以上の機能ブロックは、各サーバ(AS,MS)の主記憶装置に記憶されているコンピュータプログラムをCPU16が実行することにより実現される。また、以上の論理テーブルは、複数のテーブルが所定の関係(リレーション)に基づいて連結される関係データベースの構成要素である。関係データベースは、不揮発性メモリであるHDD22にデータが記憶されるオンディスクデータベースで実装されてもよいし、揮発性メモリであるRAM18にデータが記憶されるインメモリデータベースで実装されてもよい。
The above functional blocks are realized by the
1(4). イベント情報収集動作
本実施形態のイベント情報収集動作を以下に説明する。図6は、本実施形態のイベント情報収集動作を概略的に示すフローチャートである。ステップS1010及びS1020にて段階的に選別された投稿情報PIから、イベント情報EIが抽出される(S1030)。1つのイベントに関する複数のイベント情報EIがステップS1040にて統合(名寄せ)される。
1 (4). Event Information Collection Operation The event information collection operation of this embodiment will be described below. FIG. 6 is a flowchart schematically showing the event information collection operation of the present embodiment. Event information EI is extracted from the posted information PI selected stepwise in steps S1010 and S1020 (S1030). A plurality of pieces of event information EI relating to one event are integrated (name identification) in step S1040.
1(4)−1. スポット投稿選別動作(ステップS1010)
ステップS1010において、スポット投稿選別部102がスポット投稿選別動作を実行する。以下、図7を参照して具体的な動作を説明する。スポット投稿選別部102は、投稿情報取得サーバASから取得した複数の投稿情報PIの各々に対して形態素解析を実行し、各投稿情報PIに含まれる形態素を取得する(S1012)。
1 (4) -1. Spot post sorting operation (step S1010)
In step S1010, the spot
次いで、スポット投稿選別部102は、各投稿情報PIについて、ステップS1012にて取得された形態素と、スポット情報テーブル140に含まれるスポット名称とのマッチングを実行する(S1014)。スポット情報テーブル140は、複数のスポット情報エントリを含む。各スポット情報エントリは、スポット名称及びスポットの緯度・経度を少なくとも含む他、スポットに関する説明文等の付加情報を含む場合がある。なお、同一のスポットに対応する複数のスポット名称(例えば、「金閣寺」と「鹿苑寺」)がスポット情報テーブル140に含まれると、投稿情報PIに含まれるスポット名称の揺らぎを吸収できるので好適である。
Next, the spot
ステップS1014のマッチング処理の結果、スポット名称が含まれると判定された投稿情報PIに対して、スポット投稿選別部102がフィルタリング処理を実行する(S1016)。任意のフィルタリング処理が適用され得る。例えば、スポット名称でも人名でもあり得る語句(例えば、「松島」や「川崎」)が、スポット名称ではなく人名として使用されている投稿情報PIを排除する人名フィルタリングや、複数のスポットに対応する1つのスポット名称(例えば、京都府の「円山公園」と北海道の「円山公園」)がどのスポットを示すかを判定する同名フィルタリングが実行される。複数のフィルタリング処理が並列的に実行されてもよい。なお、人名として使用され得るスポット名称に対応するスポット情報エントリに、その旨を示すフラグが付与されていると好適である。重複するスポット名称に対応するスポット情報エントリについても同様である。
As a result of the matching process in step S1014, the spot
以上のフィルタリング処理には任意のアルゴリズムが採用され得る。例えば、スポットに関する説明文から逆文書頻度(Inverse Document Frequency, IDF)に基づいて取得される語句が投稿情報PIに含まれるか否かに応じて以上のフィルタリング(人名フィルタリング,同名フィルタリング)が実行されてもよい。また、人名フィルタリングに関しては、同一の語句が人名として使用されているかスポット名称として使用されているかを判定するための機械学習をスポット投稿選別部102に実行させた上で、その機械学習により構築されたモデルに基づいて人名かスポット名称かが判定されてもよい。以上の機械学習は、例えば、条件付き確率場(Conditional Random Field, CRF)に基づいて実行される。人名フィルタリングに関して、IDFによるフィルタリングとCRFによるフィルタリングとが並列して実行されてもよい。
An arbitrary algorithm can be adopted for the above filtering process. For example, the above filtering (personal name filtering, same name filtering) is executed depending on whether or not the post information PI includes a phrase acquired from an explanatory text related to a spot based on Inverse Document Frequency (IDF). May be. Further, the personal name filtering is constructed by machine learning after causing the spot
以上のステップS1010(ステップS1012からS1016)により、投稿情報PIの全体からスポット名称に関連する投稿情報PIが選別され、スポット投稿テーブル150に記憶される。なお、選別された投稿情報PIがイベント投稿選別部104に直接的に供給されてもよい。
Through the above steps S1010 (steps S1012 to S1016), post information PI related to the spot name is selected from the entire post information PI and stored in the spot post table 150. The selected posting information PI may be directly supplied to the event
1(4)−2. イベント投稿選別動作(ステップS1020)
ステップS1020において、イベント投稿選別部104がイベント投稿選別動作を実行する。以下、図8を参照して具体的な動作を説明する。イベント投稿選別部104は、スポット投稿テーブル150(又はスポット投稿選別部102)から取得した複数の投稿情報PIの各々から素性(feature)を抽出する(S1022)。
1 (4) -2. Event posting selection operation (step S1020)
In step S1020, the event
抽出される素性は、投稿情報PIに含まれる文言に関する任意の指標である。例えば、投稿情報PIに含まれる単語を示す単語ベクトルが素性の例として挙げられる。以上の単語ベクトルは、典型的には単語の出現頻度をも示すベクトルであるが、単語の出現頻度を示さない(単語の有無のみを示す)単語ベクトルが採用されてもよい。また、逆文書頻度に基づく単語の珍しさを示す指標が素性として採用されてもよい。 The extracted feature is an arbitrary index related to the wording included in the posting information PI. For example, a word vector indicating a word included in the posting information PI is an example of the feature. The above word vectors are typically vectors that also indicate the appearance frequency of words, but word vectors that do not indicate the appearance frequency of words (only indicate the presence or absence of words) may be employed. In addition, an index indicating the unusualness of the word based on the reverse document frequency may be adopted as the feature.
イベント投稿選別部104は、抽出された素性に基づいて、イベントに関連する投稿情報PIを選別する(S1024)。投稿情報PIがイベントに関連するか否かは、任意の基準によって判定される。例えば、投稿情報PIとイベントとの関連性に関する機械学習の結果に基づいて、投稿情報PIがイベントに関連するか否かをイベント投稿選別部104が判定すると好適である。
The event
図9及び図10を参照して、機械学習の具体例を説明する。図9はステップS1024の推定フェーズに先立って実行される学習フェーズの動作フローであり、図10は学習フェーズで用いられる学習データの例である。本実施形態では、教師有り機械学習の一種であるサポートベクタマシン(Support Vector Machine, SVM)が採用される。SVMのカーネル関数として線形カーネルが採用されると処理負荷が軽いため好適であるが、他のカーネル関数が採用されてもよい。 A specific example of machine learning will be described with reference to FIGS. 9 and 10. FIG. 9 is an operation flow of the learning phase executed prior to the estimation phase of step S1024, and FIG. 10 is an example of learning data used in the learning phase. In this embodiment, a support vector machine (Support Vector Machine, SVM), which is a type of supervised machine learning, is employed. The use of a linear kernel as the SVM kernel function is preferable because the processing load is light, but other kernel functions may be adopted.
学習フェーズにおいては、まず、イベントに関連するか否かを示すラベルが投稿情報PIに付与される(S800)。イベント名称(イベントの固有名称)を含む投稿情報PIには「関連有り」を示すラベルが付与され、イベント名称を含まない投稿情報PIには「関連無し」を示すラベルが付与される。図10には、ラベルが付与された後の学習データが示されている。 In the learning phase, first, a label indicating whether or not the event is related is given to the posting information PI (S800). The post information PI including the event name (the unique name of the event) is given a label indicating “related”, and the post information PI not including the event name is assigned a label indicating “not related”. FIG. 10 shows the learning data after the label is assigned.
ラベルが付与された投稿情報PIの各々について、ステップS1022と同様の素性抽出処理が実行される(S810)。その後、「関連有り」ラベルが付与された投稿情報PIを正例とし、「関連無し」ラベルが付与された投稿情報PIを負例として、イベント投稿選別部104に機械学習を行わせる(S820)。
A feature extraction process similar to that in step S1022 is executed for each post information PI to which a label is assigned (S810). Thereafter, the posting information PI assigned with the “related” label is taken as a positive example, and the posting information PI given the “not related” label is taken as a negative example, and the event
ステップS1024では、以上の機械学習によって構築されたモデルに基づいて、イベントに関連すると推定される投稿情報PIが選別される。選別された投稿情報PIはイベント投稿テーブル160に記憶される。なお、選別された投稿情報PIがイベント情報抽出部110に直接的に供給されてもよい。
In step S1024, post information PI estimated to be related to the event is selected based on the model constructed by the above machine learning. The selected posting information PI is stored in the event posting table 160. The selected posting information PI may be directly supplied to the event
選別されなかった投稿情報PI(イベントに関連しないと推定された投稿情報PI)は破棄されてもよいし、何らかの目的のために(例えば、機械学習の負例として)蓄積されてもよい。 Post information PI that has not been selected (post information PI estimated not to be related to an event) may be discarded or may be accumulated for some purpose (for example, as a negative example of machine learning).
1(4)−3. イベント情報抽出動作(ステップS1030)
ステップS1030において、イベント情報抽出部110がイベント情報抽出動作を実行する。以下、図11を参照して具体的な動作を説明する。イベント情報抽出部110は、イベント投稿テーブル160(又はイベント投稿選別部104)から取得した複数の投稿情報PIの各々から素性を抽出する(S1032)。
1 (4) -3. Event information extraction operation (step S1030)
In step S1030, the event
抽出される素性は、各投稿情報PIに含まれる文言に関する任意の情報である。本実施形態においては、投稿情報PIの形態素解析により取得される単語の表記、品詞、原形、読み、及びグループ、並びに文字数及び文字種を含む情報が、素性として抽出される。 The extracted feature is arbitrary information regarding the wording included in each post information PI. In the present embodiment, information including word notation, part of speech, original form, reading, group, number of characters, and character type acquired by morphological analysis of the posted information PI is extracted as a feature.
イベント情報抽出部110は、抽出された素性に基づいてイベント情報EIを抽出する(S1034)。前述の通り、イベント情報EIはイベント名称と開催スポット名称とを含む。イベント名称は、任意の手法によって抽出される。例えば、投稿情報PIに含まれるイベント名称に関する機械学習の結果に基づいた固有表現抽出によって、イベント情報抽出部110がイベント名称を抽出すると好適である。なお、以上の固有表現抽出によって開催日時も抽出されると更に好適である。
The event
図12及び図13を参照して、機械学習の具体例を説明する。図12はステップS1034の推定フェーズに先立って実行される学習フェーズの動作フローであり、図13は学習フェーズで用いられる学習データの例である。本実施形態では、教師有り機械学習の一種である条件付き確率場(Conditional Random Field, CRF)が採用される。ただし、他の機械学習アルゴリズムが採用されてもよい。 A specific example of machine learning will be described with reference to FIGS. 12 and 13. FIG. 12 is an operation flow of the learning phase executed prior to the estimation phase of step S1034, and FIG. 13 is an example of learning data used in the learning phase. In this embodiment, a conditional random field (CRF), which is a type of supervised machine learning, is employed. However, other machine learning algorithms may be employed.
学習フェーズにおいては、まず、固有表現に関するラベルが投稿情報PIに含まれる語句に付与される(S900)。図13に示される通り、以下の5種類のラベルが語句に付与される(BはBeginを、IはInsideを、OはOutsideを、それぞれ意味する)。
・B-Event:イベント名称に相当する固有表現の開始を示す。
・I-Event:イベント名称に相当する固有表現の一部であることを示す。
・B-Time:開催日時に相当する固有表現の開始を示す。
・I-Time:開催日時に相当する固有表現の一部であることを示す。
・O:その他の要素であることを示す。
In the learning phase, first, a label related to the unique expression is given to a word / phrase included in the posting information PI (S900). As shown in FIG. 13, the following five types of labels are given to words (B means Begin, I means Inside, and O means Outside).
-B-Event: Indicates the start of a specific expression corresponding to the event name.
-I-Event: Indicates that it is a part of the unique expression corresponding to the event name.
-B-Time: Indicates the start of a specific expression corresponding to the date and time of the event
-I-Time: Indicates that it is a part of the unique expression corresponding to the date and time of the event.
・ O: Indicates other elements.
ラベルが付与された投稿情報PIの各々について、ステップS1032と同様の素性抽出処理が実行される(S910)。その後、付与されたラベルと抽出された素性とに基づいて、イベント情報抽出部110に機械学習を行わせる(S920)。
The feature extraction process similar to step S1032 is executed for each piece of posted information PI to which a label is assigned (S910). Thereafter, the event
ステップS1034では、以上の機械学習によって構築されたモデルに基づいて、イベント情報EIに含まれるべきイベント名称が抽出される。より具体的には、イベント情報抽出部110は、1つのB-Eventラベルと1つ以上のI-Eventラベルを付与した一連の形態素を、イベント名称として抽出する。好適には、イベント情報EIに含まれるべき開催日時も同様に抽出される。
In step S1034, an event name to be included in the event information EI is extracted based on the model constructed by the above machine learning. More specifically, the event
イベント情報EIに含まれるべき開催スポット名称については、前述のステップS1014にて特定されたスポット名称がそのまま開催スポット名称に採用されてもよいし、機械学習(例えば、上述のCRFを用いた機械学習)によって開催スポット名称が抽出されてもよい。CRFを用いた機械学習により抽出される場合、前述の学習フェーズにおいては、開催スポット名称についてのラベル(B-Spot及びI-Spot)も語句に付与される。 As for the holding spot name to be included in the event information EI, the spot name specified in the above step S1014 may be adopted as the holding spot name as it is, or machine learning (for example, machine learning using the above-mentioned CRF). ) May be used to extract the name of the holding spot. When extracted by machine learning using CRF, labels (B-Spot and I-Spot) about the name of the holding spot are also given to the phrase in the learning phase described above.
抽出されたイベント情報EIは、イベント情報テーブル170に記憶される。なお、抽出されたイベント情報EIがイベント情報統合部120に直接的に供給されてもよい。
The extracted event information EI is stored in the event information table 170. The extracted event information EI may be directly supplied to the event
後述するイベント情報統合動作が実行されずに、ステップS1030(ステップS1032, S1034)にてイベント情報収集動作が終了してもよい。しかしながら、少なくとも従来のイベント情報収集によれば、同一のイベントに対して複数のイベント名称が抽出されるケースが多い。本実施形態では、以下のイベント情報統合動作によって、以上の課題を解決する。 The event information collection operation may be terminated in step S1030 (steps S1032 and S1034) without performing the event information integration operation described later. However, at least according to conventional event information collection, a plurality of event names are often extracted for the same event. In the present embodiment, the above problems are solved by the following event information integration operation.
1(4)−4. イベント情報統合動作(ステップS1040)
ステップS1040において、イベント情報統合部120がイベント情報統合動作(名寄せ)を実行する。以下、図14を参照して具体的な動作を説明する。イベント情報統合部120は、イベント情報テーブル170(又はイベント情報抽出部110)から取得した複数のイベント情報EIを、開催スポット名称ごとにグループ化する(S1042)。本例では、ある1つの開催スポット名称について、[21世紀の未来展]というイベント名称(ブラケットはイベント名称の文字列に含まれない。以下同様とする)を有するイベント情報EIaと、[21世紀のみらい展]というイベント名称を有するイベント情報EIbとがグループ化されたと想定する。
1 (4) -4. Event information integration operation (step S1040)
In step S1040, the event
1つの開催スポット名称について複数のイベント情報EIが存在する場合、イベント情報統合部120は、これらのイベント情報EIに含まれるイベント名称のペア(スポット同一イベントペア)を全通り作成する(S1044)。本例では、[21世紀の未来展]−[21世紀のみらい展]という1つのスポット同一イベントペアが作成される。1つの開催スポット名称についてのイベント情報EIの数がn個である場合、スポット同一イベントペアの数はnC2個であることが当然に理解される。
When multiple event information EI exists for one holding spot name, the event
なお、1つの開催スポット名称について1つのイベント情報EIのみが存在する場合、その開催スポット名称についてのイベント情報統合動作は終了する。 When only one event information EI exists for one held spot name, the event information integration operation for the held spot name ends.
次いで、イベント情報統合部120は、各スポット同一イベントペアについて、最長共通部分列長を取得した後に標準化を行い、標準化最長共通部分列長を算出する(S1046)。標準化共通部分列長は、スポット同一イベントペアに対応する2つのイベント名称の類似度を示す指標の一例である。最長共通部分列長とは、2つの文字列に共通して表れる部分文字列のうち最長の文字列の長さを意味する。本例([21世紀の未来展]−[21世紀のみらい展])では、[21世紀の展]が最長共通部分列であり、その列長は「6」である。また、ステップS1046における標準化は、文字列の長さの影響を排除するための処理であり、スポット同一イベントペアのうちより長い方の文字列長で最長共通部分列長を除算する処理である。本例の標準化では、より長い[21世紀のみらい展]の文字列長「9」で最長共通部分列長「6」が除算される。したがって、本例における標準化最長共通部分列長は「0.67」(=6/9。小数点以下3桁目を四捨五入)である。
Next, the event
イベント情報統合部120は、標準化最長共通部分列長に基づいてイベント情報EIを統合すべきか否かを判定する(S1048)。標準化最長共通部分列長が閾値Th以上である場合、イベント情報統合部120は、スポット同一イベントペアに対応する2つのイベント情報EIを1つの統合イベント情報IEIに統合するようにイベント情報テーブル170を更新する(S1050)。一方、標準化最長共通部分列長が閾値Th未満である場合、イベント情報EIは統合されない(S1052)。
The event
ステップS1048にて使用される閾値Thは任意に設定される。例えば、出願人によるテストデータを用いた試行によれば、閾値Thの好適な一例は「0.44」である。閾値Thが好適であるか否かの評価手法も任意である。 The threshold value Th used in step S1048 is arbitrarily set. For example, according to the trial using the test data by the applicant, a suitable example of the threshold value Th is “0.44”. An evaluation method for determining whether the threshold value Th is suitable is also arbitrary.
ステップS1050において、スポット同一イベントペアのうちいずれのイベント名称を統合イベント情報IEIのイベント名称に採用するかの基準は任意である。例えば、より短い方のイベント名称が採用されてもよいし、より多くの投稿情報PIに含まれるイベント名称が採用されてもよい。また、投稿情報PIがツイート(登録商標)である場合には、より多くリツイートされた投稿情報PIに含まれるイベント名称が採用されてもよい。その他、検索エンジンに入力した場合にヒット数がより多いイベント名称が採用されてもよいし、URL等の付加的情報を含む投稿情報PIに含まれるイベント名称が採用されてもよい。 In step S1050, the criteria for determining which event name of the spot identical event pair is adopted as the event name of the integrated event information IEI is arbitrary. For example, a shorter event name may be employed, or an event name included in more post information PI may be employed. Further, when the posting information PI is a tweet (registered trademark), an event name included in the posting information PI retweeted more may be adopted. In addition, an event name having a larger number of hits when input to the search engine may be employed, or an event name included in the posting information PI including additional information such as a URL may be employed.
1(5). 実施例(実験結果)
実施形態についての1つの実施例を以下に説明する。本実施例の実験では、2013年11月に投稿された日本語ツイート(約16億9200万件)について、本実施形態のイベント情報収集動作(S1010〜S1040)が実行された。SVMの機械学習(S800〜S820)には2012年に投稿された2000件のツイート(イベント名称を含む正例200件、イベント名称を含まない負例1800件)が使用され、CRFの機械学習(S900〜S920)には2012年に投稿されたイベント関連情報を含む254件のツイートが使用された。結果として、9781件のイベント情報EIが収集された。なお、ステップS1040のイベント情報統合動作が実行される前のイベント情報EIは、約13万7800件であった。
1 (5). Example (experimental result)
One example of the embodiment is described below. In the experiment of this example, the event information collection operation (S1010 to S1040) of this embodiment was executed for Japanese tweets posted in November 2013 (about 1,692 million). SVM machine learning (S800-S820) uses 2000 tweets posted in 2012 (200 positive examples including event names, 1800 negative examples not including event names), and CRF machine learning ( S900-S920) used 254 tweets including event-related information posted in 2012. As a result, 9781 event information EI was collected. The event information EI before the event information integration operation in step S1040 was executed was about 137,800.
収集された9781件のイベント情報EIから400件を無作為に抽出して、収集されたイベント名称の精度を評価した。400件のうち、実際のイベント名称と完全に一致したイベント名称が276件(69%)、実際のイベント名称と部分的に一致したイベント名称が55件(13%)、誤検出であったイベント名称が69件(17%)であった。 400 items were randomly extracted from the collected event information EI of 9781 cases, and the accuracy of the collected event names was evaluated. Of the 400 events, 276 (69%) event names completely matched the actual event name, 55 (13%) event names that partially matched the actual event name, and falsely detected events The name was 69 (17%).
1(6). 本実施形態の効果
以上の本実施形態の構成によれば、段階的な投稿情報PIの選別が行われた後に、選別された投稿情報PIからイベント情報EIの抽出が実行される。したがって、イベント情報EIが適切に収集される。また、同一のイベントに対応する複数のイベント情報EIが1つのイベント情報EI(統合イベント情報IEI)に統合される。そのため、収集されたイベント情報EIがより適切に整理される。
1 (6). Effects of the Embodiment According to the configuration of the present embodiment described above, the event information EI is extracted from the selected posted information PI after the stepwise selection of the posted information PI is performed. Therefore, the event information EI is appropriately collected. A plurality of event information EI corresponding to the same event is integrated into one event information EI (integrated event information IEI). Therefore, the collected event information EI is arranged more appropriately.
2. 変形例
以上の実施形態は多様に変形される。具体的な変形の態様を以下に例示する。以上の実施の形態および以下の例示から任意に選択された2以上の態様は、相互に矛盾しない限り適宜に併合され得る。
2. Modifications The above embodiment can be variously modified. Specific modifications are exemplified below. Two or more aspects arbitrarily selected from the above embodiments and the following examples can be appropriately combined as long as they do not contradict each other.
2(1). 変形例1
以上の実施形態では、スポット投稿選別動作(S1010)において形態素解析による文言解析が実行される。しかし、形態素解析は必須では無く、他の手法による文言解析、例えば、Nグラムによる解析が実行されてもよい。
2 (1). Modification 1
In the above embodiment, the word analysis by the morphological analysis is executed in the spot posting selection operation (S1010). However, morphological analysis is not essential, and wording analysis by other methods, for example, analysis by N-gram may be executed.
また、以上の実施形態では、文言的なマッチング処理によって投稿情報PIが選別されるが、他の選別手法、例えば、投稿情報PIが有する緯度経度情報(ジオタグ)によって選別が実行されてもよい。例えば、スポット情報テーブル140に含まれるスポットの緯度経度から所定距離以内の緯度経度を有する投稿情報PIが選別されてもよい。 Further, in the above embodiment, the posted information PI is selected by the lexical matching process. However, the selection may be performed by other selection methods, for example, latitude / longitude information (geotag) included in the posted information PI. For example, post information PI having a latitude and longitude within a predetermined distance from the latitude and longitude of a spot included in the spot information table 140 may be selected.
本例におけるイベント情報EIは、イベントの名称及びそのイベントが開催される場所の緯度・経度を少なくとも含む。「イベントが開催される場所の緯度・経度」は任意に取得される。例えば、イベントに関連すると推定された投稿情報PIが投稿された位置の緯度経度情報(ジオタグ)がイベント情報EIに含まれる。 The event information EI in this example includes at least the name of the event and the latitude and longitude of the place where the event is held. The “latitude / longitude of the place where the event is held” is arbitrarily acquired. For example, the event information EI includes latitude / longitude information (geotag) of the position where the post information PI estimated to be related to the event is posted.
以上から理解されるように、ステップS1010においては、投稿情報PIに含まれる地理的情報(スポット名称、ジオタグ等)に基づいて、スポットに関連する投稿情報PI(スポット名称を含む投稿情報PI、スポットの近傍で投稿された投稿情報PI等)が選別される。 As understood from the above, in step S1010, based on the geographical information (spot name, geotag, etc.) included in the post information PI, post information PI related to the spot (post information PI including the spot name, spot) The posting information PI etc. posted in the vicinity of is selected.
2(2). 変形例2
以上の実施形態では、イベント投稿選別動作(S1020)における機械学習アルゴリズムとしてSVMが採用されるが、他の機械学習アルゴリズムが採用されてもよい。また、機械学習以外の手法によってイベントに関連する投稿情報PIが選別されてもよい。例えば、「開催」や「参加」等のイベントに関連する単語を有するか否かに基づいて投稿情報PIが選別(フィルタリング)されてもよい。
2 (2). Modification 2
In the above embodiment, SVM is adopted as the machine learning algorithm in the event posting selection operation (S1020), but other machine learning algorithms may be adopted. Further, post information PI related to an event may be selected by a method other than machine learning. For example, the posting information PI may be selected (filtered) based on whether or not it has a word related to an event such as “held” or “participation”.
2(3). 変形例3
以上の実施形態では、スポット投稿選別動作の後にイベント投稿選別動作が実行されるが、逆順に実行されてもよい(すなわち、S1020の後にS1010が実行されてもよい)。また、両動作が並列的に実行されてもよい。ただし、実施形態のように、ステップS1010にてマッチング等の比較的単純な処理を実行し、ステップS1020にてSVM等の比較的複雑な処理を実行する場合には、ステップS1010にて投稿情報PIを選別した上でステップS1020を実行することにより、ステップS1020における処理負荷をより低減することができる。
2 (3). Modification 3
In the above embodiment, the event posting selection operation is executed after the spot posting selection operation, but may be executed in the reverse order (that is, S1010 may be executed after S1020). Further, both operations may be executed in parallel. However, when a relatively simple process such as matching is executed in step S1010 and a relatively complicated process such as SVM is executed in step S1020 as in the embodiment, post information PI in step S1010. The processing load in step S1020 can be further reduced by executing step S1020 after sorting.
2(4). 変形例4
イベント情報抽出動作(ステップS1030)において、イベント情報抽出部110が、NGユーザリストに登録されているNGユーザによって投稿された投稿情報PIを、イベント情報EIを抽出する対象から除外してもよい。NGユーザリストには任意のユーザが登録され得る。例えば、ブログサーバBSにて凍結された(サスペンドされた)アカウントに対応するユーザが、NGユーザとして登録されてもよい。
2 (4). Modification 4
In the event information extraction operation (step S1030), the event
2(5). 変形例5
以上の実施形態では、文字列の類似度を示す標準化共通部分列長に基づいてイベント情報統合動作(S1040)が実行されるが、類似度を示す他の指標(例えば、編集距離)に基づいてイベント情報EIの統合が実行されてもよい。例えば、スポット同一イベントペアに対応する2つのイベント名称の編集距離が閾値Th2以下である場合に、イベント情報EIが統合されてもよい。編集距離は、ある文字列を他の文字列に変形するのに必要な編集操作(挿入、削除、及び置換)の回数を意味する。以上の変形例において、標準化された編集距離が用いられてもよい。標準化の手法は任意であるが、例えば、実施形態と同様に、スポット同一イベントペアのうちより長い方の文字列長で最長共通部分列長を除算する手法が採用され得る。
2 (5). Modification 5
In the above embodiment, the event information integration operation (S1040) is executed based on the standardized common substring length indicating the similarity of the character strings, but based on another index (for example, edit distance) indicating the similarity. Integration of event information EI may be performed. For example, the event information EI may be integrated when the edit distance between two event names corresponding to the same spot event pair is equal to or less than the threshold Th2. The editing distance means the number of editing operations (insertion, deletion, and replacement) necessary to transform a character string into another character string. In the above modification, a standardized edit distance may be used. The standardization method is arbitrary. For example, as in the embodiment, a method of dividing the longest common substring length by the longer character string length of the spot identical event pairs may be employed.
また、イベント情報EIに含まれる緯度・経度に基づいてイベント情報統合動作(S1040)が実行されてもよい。例えば、ステップS1042において、イベント情報統合部120が、複数のイベント情報EIを、緯度及び経度に基づいて分割された網目状の領域(メッシュ)ごとにグループ化してもよい。以上のグループ化は、緯度経度によって投稿情報PIを選別する変形例1の構成(投稿情報PIがスポット名称を含まない可能性がある構成)において、特に好適である。なお、以上のメッシュの具体例としては、日本国の総務省統計局が提供する標準地域メッシュ(例えば、4分の1地域メッシュ)が挙げられる。
Further, the event information integration operation (S1040) may be executed based on the latitude / longitude included in the event information EI. For example, in step S1042, the event
2(6). 変形例6
イベント情報抽出部110が、抽出されたイベント情報EIのうち、不要なイベント情報EIを排除してもよい。例えば、イベント情報抽出部110が、排除リストに登録された単語(例えば、NGワード等)を含むイベント情報EIを排除してもよい。
2 (6). Modification 6
The event
また、スポット情報テーブル140に含まれるスポット名称が以上の排除リストに含まれてもよい。スポットの名称自体は、イベント名称では無いと考えられる。したがって、イベント情報抽出部110が、排除リストに登録されたスポット名称に一致するイベント名称を含むイベント情報EIを排除すると好適である。
The spot names included in the spot information table 140 may be included in the above exclusion list. The name of the spot itself is not an event name. Therefore, it is preferable that the event
2(7). 変形例7
イベント情報抽出部110が、抽出されたイベント名称を整形してもよい。例えば、カギ括弧等の区切り文字(デリミタ)がイベント名称に含まれる場合、イベント情報抽出部110は、その区切り文字をイベント名称から削除すると好適である。区切り文字自体はイベント名称に含まれない可能性が高いからである。
2 (7). Modification 7
The event
2(8). 変形例8
1つの投稿情報PIに、複数のイベント名称と複数の開催スポット名称とが含まれる場合がある。例えば、投稿情報PIが『[イベント名称1]は[開催スポット名称1]で開催されます。[イベント名称2]は[開催スポット名称2]で開催されます。』という本文を含むような場合である。以上の場合、ステップS1030において、間違った対応付けがなされたイベント情報EIが抽出される場合がある。例えば、[イベント名称1]と[開催スポット名称2]とが対応付けられる場合である。
2 (8). Modification 8
One posting information PI may include a plurality of event names and a plurality of holding spot names. For example, the posting information PI is “[Event name 1] will be held at [Spot name 1]. [Event Name 2] will be held at [Spot Name 2]. Is included. In the above case, in step S1030, event information EI associated with an incorrect association may be extracted. For example, [Event Name 1] and [Event Spot Name 2] are associated with each other.
以上のような間違った対応付けを抑制するため、イベント情報抽出部110が、イベント情報EIを抽出する際に、イベント名称と開催スポット名称との距離(間に存在する文字数)が最も小さくなるように対応付けを行うと好適である。また、単純な文字数ではなく、文字の種別ごとに重み付け(例えば、句読点の重みを他の文字の重みよりも重くする)をした重み付け距離に基づいてイベント名称と開催スポット名称との対応付けが実行されてもよい。
In order to suppress the erroneous association as described above, when the event
2(9). 変形例9
イベント情報抽出動作において、イベント名称、開催スポット名称、及び開催日時以外の様々な情報が抽出されてもよい。例えば、イベント情報抽出部110が投稿情報PIを解析し、その投稿情報PIに含まれる外部リンク情報(URL等)を抽出してイベント情報EIに含めてもよい。また、イベント情報EIが投稿情報PIを解析し、その投稿情報PIに含まれる特徴語を抽出してイベント情報EIに含めてもよい。特徴語を抽出するための手法は任意である。例えば、イベント情報抽出部110が、投稿情報PIに含まれる各語句についてtf-idf(term frequency - inverse document frequency)を算定し、tf-idfの値が最も大きい語を特徴語として抽出してもよい。また、tf-idfの値が所定の閾値より高い1以上の語を特徴語として抽出してもよい。
2 (9). Modification 9
In the event information extraction operation, various information other than the event name, the holding spot name, and the holding date may be extracted. For example, the event
2(10). 変形例10
以上の実施形態では、1つの装置である情報管理サーバMSが、イベント情報収集動作を実行する。しかしながら、複数の装置によって構成される情報管理システムが、イベント情報収集動作を実行してもよい。例えば、スポット投稿選別部102、イベント投稿選別部104、イベント情報抽出部110、イベント情報統合部120、及び情報提示部130が2以上のサーバ装置を含む情報管理システムによって実装されてもよい。
2 (10).
In the above embodiment, the information management server MS, which is one device, executes the event information collection operation. However, an information management system constituted by a plurality of devices may execute the event information collection operation. For example, the spot
投稿情報取得サーバASと情報管理サーバMSとが一体である構成も採用可能である。 A configuration in which the posting information acquisition server AS and the information management server MS are integrated can also be employed.
2(11). 変形例11
コンピュータ装置、特に、情報管理サーバMS及び投稿情報取得サーバASにおいてCPUが実行する各機能は、FPGA(Field Programmable Gate Array)またはDSP(Digital Signal Processor)等のプログラマブルロジックデバイスで実行されてもよい。
2 (11). Modification 11
Each function executed by the CPU in the computer apparatus, particularly the information management server MS and the posted information acquisition server AS, may be executed by a programmable logic device such as an FPGA (Field Programmable Gate Array) or a DSP (Digital Signal Processor).
AS……投稿情報取得サーバ、BS……ブログサーバ、CL……クライアント端末、EI……イベント情報、IEI……統合イベント情報、MS……情報管理サーバ、PI……投稿情報、100……投稿情報選別部、102……スポット投稿選別部、104……イベント投稿選別部、110……イベント情報抽出部、120……イベント情報統合部、130……情報提示部、140……スポット情報テーブル、150……スポット投稿テーブル、160……イベント投稿テーブル、170……イベント情報テーブル、200……投稿情報処理部、210……投稿情報テーブル。
AS: Post information acquisition server, BS: Blog server, CL: Client terminal, EI: Event information, IEI: Integrated event information, MS: Information management server, PI: Post information, 100: Post Information sorting unit, 102 …… Spot post sorting unit, 104 …… Event post sorting unit, 110 …… Event information extraction unit, 120 …… Event information integration unit, 130 …… Information presentation unit, 140 …… Spot information table, 150... Spot posting table, 160... Event posting table, 170... Event information table, 200.
Claims (10)
前記スポット投稿選別部によって選別された複数の投稿情報の中から、当該投稿情報に含まれる文言に基づいて、イベントに関連する投稿情報を機械学習により選別するイベント投稿選別部と、
前記スポット投稿選別部および前記イベント投稿選別部によって選別された選別済み投稿情報を分析して、前記選別済み投稿情報に含まれるイベント名称と、当該イベント名称に対応するイベントが開催される開催スポット名称とを含むイベント情報を抽出するイベント情報抽出部とを備える
情報管理装置。 A spot post sorting unit that sorts post information related to a spot by matching processing based on geographical information included in the post information from a plurality of post information;
Among the plurality of pieces of post information selected by the spot post selection unit, an event post selection unit for selecting post information related to the event by machine learning based on the wording included in the post information,
Analyzing the selected posted information selected by the spot posted selecting section and the event posted selecting section, the event name included in the selected posted information, and the name of the spot where the event corresponding to the event name is held And an event information extraction unit that extracts event information including the information management device.
請求項1の情報管理装置。 The information management device according to claim 1, further comprising: an event information integration unit that integrates a plurality of event information corresponding to the same event among the extracted event information into one integrated event information.
1つの開催スポット名称に対応する複数のイベント名称の類似度に基づいて、複数の前記イベント情報が同一の前記イベントに対応すると判定する
請求項2の情報管理装置。 The event information integration unit
The information management device according to claim 2, wherein a plurality of pieces of event information are determined to correspond to the same event based on the similarity of a plurality of event names corresponding to one holding spot name.
抽出された前記イベント情報のうち、排除リストに登録された単語に関連するイベント名称を含むイベント情報を排除する
請求項1の情報管理装置。 The event information extraction unit
The information management device according to claim 1, wherein event information including an event name related to a word registered in an exclusion list is excluded from the extracted event information.
前記イベント情報抽出部は、
抽出された前記イベント情報のうち、前記排除リストに登録された前記スポット名称に一致するイベント名称を含むイベント情報を排除する
請求項4の情報管理装置。 The exclusion list includes a spot name indicating the name of the spot;
The event information extraction unit
The information management device according to claim 4, wherein event information including an event name that matches the spot name registered in the exclusion list is excluded from the extracted event information.
選別された前記選別済み投稿情報のうち、NGユーザリストに登録されたユーザによって投稿された投稿情報を、前記イベント情報の抽出対象から除外する
請求項1の情報管理装置。 The event information extraction unit
The information management apparatus according to claim 1, wherein post information posted by a user registered in an NG user list is excluded from extraction targets of the event information among the selected post information selected.
前記選別済み投稿情報を分析して、前記イベント名称に対応する前記イベントが開催される開催日時を更に含む前記イベント情報を抽出する
請求項1の情報管理装置。 The event information extraction unit
The information management apparatus according to claim 1, wherein the selected post information is analyzed to extract the event information further including a date and time when the event corresponding to the event name is held.
前記選別済み投稿情報を分析して、前記選別済み投稿情報に含まれる特徴語を更に含む前記イベント情報を抽出する
請求項1の情報管理装置。 The event information extraction unit
The information management apparatus according to claim 1, wherein the selected post information is analyzed to extract the event information further including a characteristic word included in the selected post information.
前記スポット投稿選別部によって選別された複数の投稿情報の中から、前記投稿情報に含まれる文言に基づいて、イベントに関連する投稿情報を機械学習により選別するイベント投稿選別部と、
前記スポット投稿選別部および前記イベント投稿選別部によって選別された選別済み投稿情報を分析して、前記選別済み投稿情報に含まれるイベント名称と、当該イベント名称に対応するイベントが開催される開催スポット名称とを含むイベント情報を抽出するイベント情報抽出部とを備える
情報管理システム。 From a plurality of posting information, based on the geographical information included in the posting information, a spot posting sorting unit that sorts the posting information related to the spot by matching processing,
Out of a plurality of pieces of post information selected by the spot post selection unit, an event post selection unit that selects post information related to an event by machine learning based on a word included in the post information;
Analyzing the selected posted information selected by the spot posted selecting section and the event posted selecting section, the event name included in the selected posted information, and the name of the spot where the event corresponding to the event name is held And an event information extraction unit that extracts event information including the information management system.
前記選別された複数の投稿情報の中から、前記投稿情報に含まれる文言に基づいて、イベントに関連する投稿情報を機械学習により選別することと、
選別された選別済み投稿情報を分析して、前記選別済み投稿情報に含まれるイベント名称と、当該イベント名称に対応するイベントが開催される開催スポット名称とを含むイベント情報を抽出することと
をコンピュータに実行させる情報管理プログラム。 From among a plurality of pieces of post information, based on geographical information included in the post information, selecting post information related to the spot by matching processing;
From among the selected plurality of posted information, based on the wording included in the posted information, to select the posted information related to the event by machine learning ,
Analyzing the selected posted information, and extracting event information including an event name included in the selected posted information and a holding spot name where an event corresponding to the event name is held. Information management program to be executed.
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
JP2014147085A JP6411800B2 (en) | 2014-07-17 | 2014-07-17 | Information management apparatus, information management system, and information management program |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
JP2014147085A JP6411800B2 (en) | 2014-07-17 | 2014-07-17 | Information management apparatus, information management system, and information management program |
Publications (2)
Publication Number | Publication Date |
---|---|
JP2016024545A JP2016024545A (en) | 2016-02-08 |
JP6411800B2 true JP6411800B2 (en) | 2018-10-24 |
Family
ID=55271273
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
JP2014147085A Expired - Fee Related JP6411800B2 (en) | 2014-07-17 | 2014-07-17 | Information management apparatus, information management system, and information management program |
Country Status (1)
Country | Link |
---|---|
JP (1) | JP6411800B2 (en) |
Cited By (1)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
US11588780B2 (en) | 2020-07-31 | 2023-02-21 | Rakuten Group, Inc. | Posting right giving device, posting right giving method, and computer readable medium storing posting right giving program |
Families Citing this family (8)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
JP6635865B2 (en) * | 2016-03-31 | 2020-01-29 | 株式会社エヌ・ティ・ティ・データ | Post extraction device, post extraction method, and program |
JP6806589B2 (en) * | 2017-02-27 | 2021-01-06 | 日本放送協会 | Information judgment model learning device, information judgment device and their programs |
CN109325114A (en) * | 2018-07-24 | 2019-02-12 | 武汉理工大学 | A Text Classification Algorithm Integrating Statistical Features and Attention Mechanism |
JP6832322B2 (en) * | 2018-11-02 | 2021-02-24 | 株式会社トヨタマップマスター | Search device, search method, search program and recording medium |
CN110851738B (en) | 2019-10-28 | 2021-03-19 | 百度在线网络技术(北京)有限公司 | Method, device and equipment for acquiring POI state information and computer storage medium |
CN111401033B (en) * | 2020-03-19 | 2023-07-25 | 北京百度网讯科技有限公司 | Event extraction method, event extraction device and electronic equipment |
CN111414482B (en) * | 2020-03-20 | 2024-02-20 | 北京百度网讯科技有限公司 | Event argument extraction method and device and electronic equipment |
CN111325020B (en) * | 2020-03-20 | 2023-03-31 | 北京百度网讯科技有限公司 | Event argument extraction method and device and electronic equipment |
Family Cites Families (4)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
JP2013168021A (en) * | 2012-02-15 | 2013-08-29 | Nifty Corp | Event detection device |
JP5649619B2 (en) * | 2012-06-25 | 2015-01-07 | ヤフー株式会社 | Information providing apparatus, information providing method, and information providing program |
JP5836892B2 (en) * | 2012-06-28 | 2015-12-24 | Kddi株式会社 | Apparatus, program, and method for tagging identification name of geographical feature to event location |
JP5836902B2 (en) * | 2012-09-04 | 2015-12-24 | Kddi株式会社 | Event comment text detection device, program and method for detecting only comment text related to an event |
-
2014
- 2014-07-17 JP JP2014147085A patent/JP6411800B2/en not_active Expired - Fee Related
Cited By (1)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
US11588780B2 (en) | 2020-07-31 | 2023-02-21 | Rakuten Group, Inc. | Posting right giving device, posting right giving method, and computer readable medium storing posting right giving program |
Also Published As
Publication number | Publication date |
---|---|
JP2016024545A (en) | 2016-02-08 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
JP6411800B2 (en) | Information management apparatus, information management system, and information management program | |
JP6388988B2 (en) | Static ranking for search queries in online social networks | |
US9448999B2 (en) | Method and device to detect similar documents | |
JP6377807B2 (en) | Rewriting search queries in online social networks | |
JP2017157192A (en) | Method of matching between image and content item based on key word | |
CN104035972B (en) | A kind of knowledge recommendation method and system based on microblogging | |
CN107688616B (en) | Make the unique facts of the entity appear | |
CN103793481B (en) | Microblog word cloud generating method based on user interest mining and accessing supporting system | |
CN104685495A (en) | A system and method for automatically generating information-rich content from multiple microblogs, each containing only sparse information | |
CN113392329B (en) | Content recommendation method, device, electronic device and storage medium | |
JP6363682B2 (en) | Method for selecting an image that matches content based on the metadata of the image and content | |
WO2015188719A1 (en) | Association method and association device for structural data and picture | |
CN107463592B (en) | Method, device and data processing system for matching a content item with an image | |
JP6371587B2 (en) | Presentation system, presentation device, and presentation program | |
CN105760380A (en) | Database query method, device and system | |
JP5731940B2 (en) | Text position determination apparatus and text position determination method | |
CN112989824A (en) | Information pushing method and device, electronic equipment and storage medium | |
JP2018504686A (en) | Method and apparatus for processing search data | |
JP6557959B2 (en) | Information presentation program, information presentation method, and information presentation apparatus | |
EP3631737A1 (en) | Automated classification of network-accessible content | |
JP2018005633A (en) | Related content extraction device, related content extraction method, and related content extraction program | |
JP2017091436A (en) | Feature word selection device | |
CN108170693B (en) | Hot word pushing method and device | |
JP7042720B2 (en) | Information processing equipment, information processing methods, and programs | |
Samah et al. | TF-IDF and Data Visualization For Syafie Madhhab Hadith Scriptures Authenticity |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
A621 | Written request for application examination |
Free format text: JAPANESE INTERMEDIATE CODE: A621 Effective date: 20170209 |
|
A977 | Report on retrieval |
Free format text: JAPANESE INTERMEDIATE CODE: A971007 Effective date: 20171120 |
|
A131 | Notification of reasons for refusal |
Free format text: JAPANESE INTERMEDIATE CODE: A131 Effective date: 20171205 |
|
A521 | Request for written amendment filed |
Free format text: JAPANESE INTERMEDIATE CODE: A523 Effective date: 20180119 |
|
A131 | Notification of reasons for refusal |
Free format text: JAPANESE INTERMEDIATE CODE: A131 Effective date: 20180619 |
|
A521 | Request for written amendment filed |
Free format text: JAPANESE INTERMEDIATE CODE: A523 Effective date: 20180726 |
|
TRDD | Decision of grant or rejection written | ||
A01 | Written decision to grant a patent or to grant a registration (utility model) |
Free format text: JAPANESE INTERMEDIATE CODE: A01 Effective date: 20180904 |
|
A61 | First payment of annual fees (during grant procedure) |
Free format text: JAPANESE INTERMEDIATE CODE: A61 Effective date: 20180927 |
|
R150 | Certificate of patent or registration of utility model |
Ref document number: 6411800 Country of ref document: JP Free format text: JAPANESE INTERMEDIATE CODE: R150 |
|
R250 | Receipt of annual fees |
Free format text: JAPANESE INTERMEDIATE CODE: R250 |
|
LAPS | Cancellation because of no payment of annual fees |