[go: up one dir, main page]

JP6411800B2 - 情報管理装置、情報管理システム、及び情報管理プログラム - Google Patents

情報管理装置、情報管理システム、及び情報管理プログラム Download PDF

Info

Publication number
JP6411800B2
JP6411800B2 JP2014147085A JP2014147085A JP6411800B2 JP 6411800 B2 JP6411800 B2 JP 6411800B2 JP 2014147085 A JP2014147085 A JP 2014147085A JP 2014147085 A JP2014147085 A JP 2014147085A JP 6411800 B2 JP6411800 B2 JP 6411800B2
Authority
JP
Japan
Prior art keywords
information
event
spot
name
post
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Expired - Fee Related
Application number
JP2014147085A
Other languages
English (en)
Other versions
JP2016024545A (ja
Inventor
悠 菊地
悠 菊地
桂一 落合
桂一 落合
大祐 鳥居
大祐 鳥居
太田 賢
賢 太田
山田 渉
渉 山田
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
NTT Docomo Inc
Original Assignee
NTT Docomo Inc
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by NTT Docomo Inc filed Critical NTT Docomo Inc
Priority to JP2014147085A priority Critical patent/JP6411800B2/ja
Publication of JP2016024545A publication Critical patent/JP2016024545A/ja
Application granted granted Critical
Publication of JP6411800B2 publication Critical patent/JP6411800B2/ja
Expired - Fee Related legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Landscapes

  • Information Retrieval, Db Structures And Fs Structures Therefor (AREA)
  • Management, Administration, Business Operations System, And Electronic Commerce (AREA)
  • Information Transfer Between Computers (AREA)

Description

本発明は、情報管理装置、情報管理システム、及び情報管理方法に関する。
近年、実世界におけるユーザの外出行動を支援するため、スマートフォンやPC等の情報端末を介して、観光スポット、地域に関連したイベント、地域に関連した商品(特産品)等の地域情報を提供する地域情報サービスが提供されている。以上の地域情報サービスの有用性は、最新の(up-to-dateな)地域情報が数多く提供されることにより向上する。
特開2011−145879号公報
出願人の調査によれば、イベントに関する情報(以下、イベント情報と称する)の提供件数は、観光スポットや商品に関する情報の提供件数と比較して、顕著に少ない。地域情報サービスの有用性の観点からは、イベント情報がより多く提供されると好適である。また、イベントは、日時や期間を限定して開催されるため、頻繁な情報収集によってイベント情報の鮮度を保つことが重要である。しかしながら、多数のイベント情報を高頻度に手動で収集し続けることは、作業負荷及び作業コストの観点から困難である。
以上の事情を考慮して、本発明は、イベント情報を適切に収集することを目的とする。
本発明の情報管理装置は、複数の投稿情報から、当該投稿情報に含まれる地理的情報に基づいて、スポットに関連する投稿情報を選別するスポット投稿選別部と、複数の投稿情報から、当該投稿情報に含まれる文言に基づいて、イベントに関連する投稿情報を選別するイベント投稿選別部と、前記スポット投稿選別部および前記イベント投稿選別部によって選別された選別済み投稿情報を分析して、前記選別済み投稿情報に含まれるイベント名称と、当該イベント名称に対応するイベントが開催される開催スポット名称とを含むイベント情報を抽出するイベント情報抽出部とを備える。
本発明の情報管理システムは、複数の投稿情報から、前記投稿情報に含まれる地理的情報に基づいて、スポットに関連する投稿情報を選別するスポット投稿選別部と、複数の投稿情報から、前記投稿情報に含まれる文言に基づいて、イベントに関連する投稿情報を選別するイベント投稿選別部と、前記スポット投稿選別部および前記イベント投稿選別部によって選別された選別済み投稿情報を分析して、前記選別済み投稿情報に含まれるイベント名称と、当該イベント名称に対応するイベントが開催される開催スポット名称とを含むイベント情報を抽出するイベント情報抽出部とを備える。
本発明の情報管理方法は、複数の投稿情報から、前記投稿情報に含まれる地理的情報に基づいて、スポットに関連する投稿情報を選別することと、複数の投稿情報から、前記投稿情報に含まれる文言に基づいて、イベントに関連する投稿情報を選別することと、選別された選別済み投稿情報を分析して、前記選別済み投稿情報に含まれるイベント名称と、当該イベント名称に対応するイベントが開催される開催スポット名称とを含むイベント情報を抽出することとを備える。
本発明によれば、複数の投稿情報からイベント情報が適切に収集される。
実施形態に係る情報管理サーバと、情報管理サーバに関連するコンピュータ装置とを示す図である。 実施形態のサーバの物理構成ブロック図である。 実施形態のクライアント端末の物理構成ブロック図である。 実施形態の情報管理サーバの論理構成ブロック図である。 実施形態の投稿情報取得サーバの論理構成ブロック図である。 実施形態のイベント情報収集動作を概略的に示すフローチャートである。 スポット投稿選別動作を示すフローチャートである。 イベント投稿選別動作を示すフローチャートである。 機械学習(SVM)の流れを示すフローチャートである。 学習データの一例を示す図である。 イベント情報抽出動作を示すフローチャートである。 機械学習(CRF)の流れを示すフローチャートである。 学習データの一例を示す図である。 イベント得情報統合動作を示すフローチャートである。
以下、図面を参照しながら本発明の実施形態を詳細に説明する。
1. 実施形態
1(1). 情報管理サーバの概略
図1を参照して、本発明の実施形態に係る情報管理サーバMSと、情報管理サーバMSに関係する複数のコンピュータ装置とを概略的に示す。本実施形態のコンピュータ装置は、所定のプロトコル(TCP/IP等)に従って通信を実行する。
ブログサーバBSは、ユーザ端末(たとえば、スマートフォン)から投稿される投稿情報PIを受信して記憶し、外部からの要求に応じて投稿情報PIを提供する。以下、本実施形態における投稿情報PIの例を、非限定的に列挙する。
−マイクロブログサービス(例えば、Twitter[登録商標])における140文字以下の短文投稿(例えば、ツイート[登録商標])
−ブログ(ウェブログ)サービスにおける日記や寸評等の投稿
−ソーシャルネットワーキングサービス(SNS)におけるステータス投稿
投稿情報取得サーバASは、ブログサーバBSから提供される投稿情報PIを取得して蓄積する。投稿情報取得サーバASは、ブログサーバBSに投稿される全ての投稿情報PIを蓄積してもよいし、一部の投稿情報PI(例えば、日本語の投稿情報PIのみ)を蓄積してもよい。
また、投稿情報取得サーバASは、情報管理サーバMSからの要求に応じて投稿情報PIを情報管理サーバMSに供給する。投稿情報取得サーバASは、蓄積している全ての投稿情報PIを情報管理サーバMSに供給してもよいし、一部の投稿情報PIを供給してもよい。
情報管理サーバMSは、投稿情報取得サーバASから供給される投稿情報PIを解析してイベント情報EIを収集及び蓄積すると共に、クライアント端末CLからの要求に応じてイベント情報EIを提示するコンピュータ装置である。本実施形態においては、日本語の投稿情報PIが解析対象である。なお、所定の基準に従って限定された投稿情報PIを解析対象としてもよい。例えば、特定のアカウント(Twitter上の公式アカウント等)が投稿した投稿情報PIのみを解析対象としてもよい。
投稿情報PIに基づいて収集されるイベント情報EIは、祝祭や展覧会、演奏会等のイベントに関する情報である。イベント情報EIは、イベントの名称及びイベントが開催されるスポットの名称を少なくとも含む。また、イベント情報EIは、イベントが開催される日時、イベントが開催される場所の緯度・経度、イベントに関するウェブサイトを指定するURL、イベントに関連する特徴語等を含んでもよい。例えば、あるイベント情報EIは、「イベント名称:サイエンスフェスティバル」、「開催スポット名称:ディスカバリーパーク焼津」、及び「開催日時:2014年3月23日11時00分から」という情報を含む。
クライアント端末CLは、イベント情報EIを情報管理サーバMSに要求して取得すると共に、ユーザからの要求に応じてディスプレイに情報を表示する。例えば、クライアント端末CLは、イベント情報EIを電子地図上に重ねて表示する。
電子地図の表示に用いられる電子地図データは、ユーザからの要求に応じてクライアント端末CLが地図サーバ(不図示)から取得してもよいし、予めクライアント端末CLに記憶されていてもよい。また、イベント情報EIと共に情報管理サーバMSから提供されてもよい。その場合、情報管理サーバMSは予め電子地図データを記憶していてもよいし、地図サーバから都度又は定期的に取得してもよい。
1(2). 物理的構成
1(2)−1. サーバ装置の構成
図2は、情報管理サーバMSを始めとする本実施形態の各サーバ装置の物理的構成を示すブロック図である。各サーバ装置(AS,BS,MS)は、ネットワークインタフェース10と入力部12と出力部14とCPU(Central Processing Unit)16とRAM(Random Access Memory)18とROM(Read Only Memory)20とHDD(Hard Disk Drive)22とを備える。
ネットワークインタフェース10は、ネットワークを介して他のコンピュータ装置と通信を実行する。入力部12は、キーボード等の入力装置からの入力信号を受け付ける。出力部14は、ディスプレイ等の出力装置に対して出力信号を送信する。CPU16は、主記憶装置であるRAM18及びROM20に記憶されているプログラムを実行することにより種々の制御及び演算を行う。HDD22は、RAM18上に展開可能なプログラム及びデータを記憶する補助記憶装置である。なお、HDD22に代えて又は加えてSSD等の記憶媒体が採用されてもよい。
当業者が当然に理解する通り、1つのサーバが複数のコンピュータ装置によって構成されてもよいし、1つのコンピュータ装置が仮想化された複数のサーバを備えてもよい。
1(2)−2. クライアント端末の構成
図3は、本実施形態のクライアント端末CLの物理的構成を示すブロック図である。クライアント端末CLは、ネットワークインタフェース30と入力部32と出力部34とCPU36とRAM38とROM40とHDD42とを備える。以上の各要素は、各サーバが備える、図2を参照して説明された要素と同様の構成を有する。
1(3). 論理的構成
図4は、情報管理サーバMSの論理的構成を示すブロック図である。情報管理サーバMSは、投稿情報選別部100とイベント情報抽出部110とイベント情報統合部120と情報提示部130とを機能ブロックとして備える。投稿情報選別部100は、スポット投稿選別部102とイベント投稿選別部104とを備える。また、情報管理サーバMSは、スポット情報テーブル140とスポット投稿テーブル150とイベント投稿テーブル160とイベント情報テーブル170とを論理テーブルとして備える。
各機能ブロックの概略的な動作を説明する。投稿情報選別部100は、投稿情報取得サーバASから供給される投稿情報PIを選別する。より具体的には、スポット投稿選別部102は、投稿情報PIに含まれる地理的情報に基づいて、スポット名称に関連する投稿情報PIを選別する。イベント投稿選別部104は、投稿情報PIに含まれる文言に基づいて、イベントに関連する投稿情報PIを選別する。イベント情報抽出部110は、選別された投稿情報PI(選別済み投稿情報SPI)を分析して、選別済み投稿情報SPIに含まれるイベント名称と、そのイベント名称に対応するイベントが開催される開催スポット名称とを含むイベント情報EIを抽出する。イベント情報統合部120は、抽出されたイベント情報EIのうち同一のイベントに対応する複数のイベント情報EIを、1つの統合イベント情報IEIに統合する。情報提示部130は、統合済みのイベント情報EI(統合イベント情報IEI)をクライアント端末CLに提示する。
図5は、投稿情報取得サーバASの論理的構成を示すブロック図である。投稿情報取得サーバASは、ブログサーバBSから取得した投稿情報PIを蓄積する投稿情報処理部200を機能ブロックとして備えると共に、投稿情報テーブル210を論理テーブルとして備える。
以上の機能ブロックは、各サーバ(AS,MS)の主記憶装置に記憶されているコンピュータプログラムをCPU16が実行することにより実現される。また、以上の論理テーブルは、複数のテーブルが所定の関係(リレーション)に基づいて連結される関係データベースの構成要素である。関係データベースは、不揮発性メモリであるHDD22にデータが記憶されるオンディスクデータベースで実装されてもよいし、揮発性メモリであるRAM18にデータが記憶されるインメモリデータベースで実装されてもよい。
1(4). イベント情報収集動作
本実施形態のイベント情報収集動作を以下に説明する。図6は、本実施形態のイベント情報収集動作を概略的に示すフローチャートである。ステップS1010及びS1020にて段階的に選別された投稿情報PIから、イベント情報EIが抽出される(S1030)。1つのイベントに関する複数のイベント情報EIがステップS1040にて統合(名寄せ)される。
1(4)−1. スポット投稿選別動作(ステップS1010)
ステップS1010において、スポット投稿選別部102がスポット投稿選別動作を実行する。以下、図7を参照して具体的な動作を説明する。スポット投稿選別部102は、投稿情報取得サーバASから取得した複数の投稿情報PIの各々に対して形態素解析を実行し、各投稿情報PIに含まれる形態素を取得する(S1012)。
次いで、スポット投稿選別部102は、各投稿情報PIについて、ステップS1012にて取得された形態素と、スポット情報テーブル140に含まれるスポット名称とのマッチングを実行する(S1014)。スポット情報テーブル140は、複数のスポット情報エントリを含む。各スポット情報エントリは、スポット名称及びスポットの緯度・経度を少なくとも含む他、スポットに関する説明文等の付加情報を含む場合がある。なお、同一のスポットに対応する複数のスポット名称(例えば、「金閣寺」と「鹿苑寺」)がスポット情報テーブル140に含まれると、投稿情報PIに含まれるスポット名称の揺らぎを吸収できるので好適である。
ステップS1014のマッチング処理の結果、スポット名称が含まれると判定された投稿情報PIに対して、スポット投稿選別部102がフィルタリング処理を実行する(S1016)。任意のフィルタリング処理が適用され得る。例えば、スポット名称でも人名でもあり得る語句(例えば、「松島」や「川崎」)が、スポット名称ではなく人名として使用されている投稿情報PIを排除する人名フィルタリングや、複数のスポットに対応する1つのスポット名称(例えば、京都府の「円山公園」と北海道の「円山公園」)がどのスポットを示すかを判定する同名フィルタリングが実行される。複数のフィルタリング処理が並列的に実行されてもよい。なお、人名として使用され得るスポット名称に対応するスポット情報エントリに、その旨を示すフラグが付与されていると好適である。重複するスポット名称に対応するスポット情報エントリについても同様である。
以上のフィルタリング処理には任意のアルゴリズムが採用され得る。例えば、スポットに関する説明文から逆文書頻度(Inverse Document Frequency, IDF)に基づいて取得される語句が投稿情報PIに含まれるか否かに応じて以上のフィルタリング(人名フィルタリング,同名フィルタリング)が実行されてもよい。また、人名フィルタリングに関しては、同一の語句が人名として使用されているかスポット名称として使用されているかを判定するための機械学習をスポット投稿選別部102に実行させた上で、その機械学習により構築されたモデルに基づいて人名かスポット名称かが判定されてもよい。以上の機械学習は、例えば、条件付き確率場(Conditional Random Field, CRF)に基づいて実行される。人名フィルタリングに関して、IDFによるフィルタリングとCRFによるフィルタリングとが並列して実行されてもよい。
以上のステップS1010(ステップS1012からS1016)により、投稿情報PIの全体からスポット名称に関連する投稿情報PIが選別され、スポット投稿テーブル150に記憶される。なお、選別された投稿情報PIがイベント投稿選別部104に直接的に供給されてもよい。
1(4)−2. イベント投稿選別動作(ステップS1020)
ステップS1020において、イベント投稿選別部104がイベント投稿選別動作を実行する。以下、図8を参照して具体的な動作を説明する。イベント投稿選別部104は、スポット投稿テーブル150(又はスポット投稿選別部102)から取得した複数の投稿情報PIの各々から素性(feature)を抽出する(S1022)。
抽出される素性は、投稿情報PIに含まれる文言に関する任意の指標である。例えば、投稿情報PIに含まれる単語を示す単語ベクトルが素性の例として挙げられる。以上の単語ベクトルは、典型的には単語の出現頻度をも示すベクトルであるが、単語の出現頻度を示さない(単語の有無のみを示す)単語ベクトルが採用されてもよい。また、逆文書頻度に基づく単語の珍しさを示す指標が素性として採用されてもよい。
イベント投稿選別部104は、抽出された素性に基づいて、イベントに関連する投稿情報PIを選別する(S1024)。投稿情報PIがイベントに関連するか否かは、任意の基準によって判定される。例えば、投稿情報PIとイベントとの関連性に関する機械学習の結果に基づいて、投稿情報PIがイベントに関連するか否かをイベント投稿選別部104が判定すると好適である。
図9及び図10を参照して、機械学習の具体例を説明する。図9はステップS1024の推定フェーズに先立って実行される学習フェーズの動作フローであり、図10は学習フェーズで用いられる学習データの例である。本実施形態では、教師有り機械学習の一種であるサポートベクタマシン(Support Vector Machine, SVM)が採用される。SVMのカーネル関数として線形カーネルが採用されると処理負荷が軽いため好適であるが、他のカーネル関数が採用されてもよい。
学習フェーズにおいては、まず、イベントに関連するか否かを示すラベルが投稿情報PIに付与される(S800)。イベント名称(イベントの固有名称)を含む投稿情報PIには「関連有り」を示すラベルが付与され、イベント名称を含まない投稿情報PIには「関連無し」を示すラベルが付与される。図10には、ラベルが付与された後の学習データが示されている。
ラベルが付与された投稿情報PIの各々について、ステップS1022と同様の素性抽出処理が実行される(S810)。その後、「関連有り」ラベルが付与された投稿情報PIを正例とし、「関連無し」ラベルが付与された投稿情報PIを負例として、イベント投稿選別部104に機械学習を行わせる(S820)。
ステップS1024では、以上の機械学習によって構築されたモデルに基づいて、イベントに関連すると推定される投稿情報PIが選別される。選別された投稿情報PIはイベント投稿テーブル160に記憶される。なお、選別された投稿情報PIがイベント情報抽出部110に直接的に供給されてもよい。
選別されなかった投稿情報PI(イベントに関連しないと推定された投稿情報PI)は破棄されてもよいし、何らかの目的のために(例えば、機械学習の負例として)蓄積されてもよい。
1(4)−3. イベント情報抽出動作(ステップS1030)
ステップS1030において、イベント情報抽出部110がイベント情報抽出動作を実行する。以下、図11を参照して具体的な動作を説明する。イベント情報抽出部110は、イベント投稿テーブル160(又はイベント投稿選別部104)から取得した複数の投稿情報PIの各々から素性を抽出する(S1032)。
抽出される素性は、各投稿情報PIに含まれる文言に関する任意の情報である。本実施形態においては、投稿情報PIの形態素解析により取得される単語の表記、品詞、原形、読み、及びグループ、並びに文字数及び文字種を含む情報が、素性として抽出される。
イベント情報抽出部110は、抽出された素性に基づいてイベント情報EIを抽出する(S1034)。前述の通り、イベント情報EIはイベント名称と開催スポット名称とを含む。イベント名称は、任意の手法によって抽出される。例えば、投稿情報PIに含まれるイベント名称に関する機械学習の結果に基づいた固有表現抽出によって、イベント情報抽出部110がイベント名称を抽出すると好適である。なお、以上の固有表現抽出によって開催日時も抽出されると更に好適である。
図12及び図13を参照して、機械学習の具体例を説明する。図12はステップS1034の推定フェーズに先立って実行される学習フェーズの動作フローであり、図13は学習フェーズで用いられる学習データの例である。本実施形態では、教師有り機械学習の一種である条件付き確率場(Conditional Random Field, CRF)が採用される。ただし、他の機械学習アルゴリズムが採用されてもよい。
学習フェーズにおいては、まず、固有表現に関するラベルが投稿情報PIに含まれる語句に付与される(S900)。図13に示される通り、以下の5種類のラベルが語句に付与される(BはBeginを、IはInsideを、OはOutsideを、それぞれ意味する)。
・B-Event:イベント名称に相当する固有表現の開始を示す。
・I-Event:イベント名称に相当する固有表現の一部であることを示す。
・B-Time:開催日時に相当する固有表現の開始を示す。
・I-Time:開催日時に相当する固有表現の一部であることを示す。
・O:その他の要素であることを示す。
ラベルが付与された投稿情報PIの各々について、ステップS1032と同様の素性抽出処理が実行される(S910)。その後、付与されたラベルと抽出された素性とに基づいて、イベント情報抽出部110に機械学習を行わせる(S920)。
ステップS1034では、以上の機械学習によって構築されたモデルに基づいて、イベント情報EIに含まれるべきイベント名称が抽出される。より具体的には、イベント情報抽出部110は、1つのB-Eventラベルと1つ以上のI-Eventラベルを付与した一連の形態素を、イベント名称として抽出する。好適には、イベント情報EIに含まれるべき開催日時も同様に抽出される。
イベント情報EIに含まれるべき開催スポット名称については、前述のステップS1014にて特定されたスポット名称がそのまま開催スポット名称に採用されてもよいし、機械学習(例えば、上述のCRFを用いた機械学習)によって開催スポット名称が抽出されてもよい。CRFを用いた機械学習により抽出される場合、前述の学習フェーズにおいては、開催スポット名称についてのラベル(B-Spot及びI-Spot)も語句に付与される。
抽出されたイベント情報EIは、イベント情報テーブル170に記憶される。なお、抽出されたイベント情報EIがイベント情報統合部120に直接的に供給されてもよい。
後述するイベント情報統合動作が実行されずに、ステップS1030(ステップS1032, S1034)にてイベント情報収集動作が終了してもよい。しかしながら、少なくとも従来のイベント情報収集によれば、同一のイベントに対して複数のイベント名称が抽出されるケースが多い。本実施形態では、以下のイベント情報統合動作によって、以上の課題を解決する。
1(4)−4. イベント情報統合動作(ステップS1040)
ステップS1040において、イベント情報統合部120がイベント情報統合動作(名寄せ)を実行する。以下、図14を参照して具体的な動作を説明する。イベント情報統合部120は、イベント情報テーブル170(又はイベント情報抽出部110)から取得した複数のイベント情報EIを、開催スポット名称ごとにグループ化する(S1042)。本例では、ある1つの開催スポット名称について、[21世紀の未来展]というイベント名称(ブラケットはイベント名称の文字列に含まれない。以下同様とする)を有するイベント情報EIaと、[21世紀のみらい展]というイベント名称を有するイベント情報EIbとがグループ化されたと想定する。
1つの開催スポット名称について複数のイベント情報EIが存在する場合、イベント情報統合部120は、これらのイベント情報EIに含まれるイベント名称のペア(スポット同一イベントペア)を全通り作成する(S1044)。本例では、[21世紀の未来展]−[21世紀のみらい展]という1つのスポット同一イベントペアが作成される。1つの開催スポット名称についてのイベント情報EIの数がn個である場合、スポット同一イベントペアの数は個であることが当然に理解される。
なお、1つの開催スポット名称について1つのイベント情報EIのみが存在する場合、その開催スポット名称についてのイベント情報統合動作は終了する。
次いで、イベント情報統合部120は、各スポット同一イベントペアについて、最長共通部分列長を取得した後に標準化を行い、標準化最長共通部分列長を算出する(S1046)。標準化共通部分列長は、スポット同一イベントペアに対応する2つのイベント名称の類似度を示す指標の一例である。最長共通部分列長とは、2つの文字列に共通して表れる部分文字列のうち最長の文字列の長さを意味する。本例([21世紀の未来展]−[21世紀のみらい展])では、[21世紀の展]が最長共通部分列であり、その列長は「6」である。また、ステップS1046における標準化は、文字列の長さの影響を排除するための処理であり、スポット同一イベントペアのうちより長い方の文字列長で最長共通部分列長を除算する処理である。本例の標準化では、より長い[21世紀のみらい展]の文字列長「9」で最長共通部分列長「6」が除算される。したがって、本例における標準化最長共通部分列長は「0.67」(=6/9。小数点以下3桁目を四捨五入)である。
イベント情報統合部120は、標準化最長共通部分列長に基づいてイベント情報EIを統合すべきか否かを判定する(S1048)。標準化最長共通部分列長が閾値Th以上である場合、イベント情報統合部120は、スポット同一イベントペアに対応する2つのイベント情報EIを1つの統合イベント情報IEIに統合するようにイベント情報テーブル170を更新する(S1050)。一方、標準化最長共通部分列長が閾値Th未満である場合、イベント情報EIは統合されない(S1052)。
ステップS1048にて使用される閾値Thは任意に設定される。例えば、出願人によるテストデータを用いた試行によれば、閾値Thの好適な一例は「0.44」である。閾値Thが好適であるか否かの評価手法も任意である。
ステップS1050において、スポット同一イベントペアのうちいずれのイベント名称を統合イベント情報IEIのイベント名称に採用するかの基準は任意である。例えば、より短い方のイベント名称が採用されてもよいし、より多くの投稿情報PIに含まれるイベント名称が採用されてもよい。また、投稿情報PIがツイート(登録商標)である場合には、より多くリツイートされた投稿情報PIに含まれるイベント名称が採用されてもよい。その他、検索エンジンに入力した場合にヒット数がより多いイベント名称が採用されてもよいし、URL等の付加的情報を含む投稿情報PIに含まれるイベント名称が採用されてもよい。
1(5). 実施例(実験結果)
実施形態についての1つの実施例を以下に説明する。本実施例の実験では、2013年11月に投稿された日本語ツイート(約16億9200万件)について、本実施形態のイベント情報収集動作(S1010〜S1040)が実行された。SVMの機械学習(S800〜S820)には2012年に投稿された2000件のツイート(イベント名称を含む正例200件、イベント名称を含まない負例1800件)が使用され、CRFの機械学習(S900〜S920)には2012年に投稿されたイベント関連情報を含む254件のツイートが使用された。結果として、9781件のイベント情報EIが収集された。なお、ステップS1040のイベント情報統合動作が実行される前のイベント情報EIは、約13万7800件であった。
収集された9781件のイベント情報EIから400件を無作為に抽出して、収集されたイベント名称の精度を評価した。400件のうち、実際のイベント名称と完全に一致したイベント名称が276件(69%)、実際のイベント名称と部分的に一致したイベント名称が55件(13%)、誤検出であったイベント名称が69件(17%)であった。
1(6). 本実施形態の効果
以上の本実施形態の構成によれば、段階的な投稿情報PIの選別が行われた後に、選別された投稿情報PIからイベント情報EIの抽出が実行される。したがって、イベント情報EIが適切に収集される。また、同一のイベントに対応する複数のイベント情報EIが1つのイベント情報EI(統合イベント情報IEI)に統合される。そのため、収集されたイベント情報EIがより適切に整理される。
2. 変形例
以上の実施形態は多様に変形される。具体的な変形の態様を以下に例示する。以上の実施の形態および以下の例示から任意に選択された2以上の態様は、相互に矛盾しない限り適宜に併合され得る。
2(1). 変形例1
以上の実施形態では、スポット投稿選別動作(S1010)において形態素解析による文言解析が実行される。しかし、形態素解析は必須では無く、他の手法による文言解析、例えば、Nグラムによる解析が実行されてもよい。
また、以上の実施形態では、文言的なマッチング処理によって投稿情報PIが選別されるが、他の選別手法、例えば、投稿情報PIが有する緯度経度情報(ジオタグ)によって選別が実行されてもよい。例えば、スポット情報テーブル140に含まれるスポットの緯度経度から所定距離以内の緯度経度を有する投稿情報PIが選別されてもよい。
本例におけるイベント情報EIは、イベントの名称及びそのイベントが開催される場所の緯度・経度を少なくとも含む。「イベントが開催される場所の緯度・経度」は任意に取得される。例えば、イベントに関連すると推定された投稿情報PIが投稿された位置の緯度経度情報(ジオタグ)がイベント情報EIに含まれる。
以上から理解されるように、ステップS1010においては、投稿情報PIに含まれる地理的情報(スポット名称、ジオタグ等)に基づいて、スポットに関連する投稿情報PI(スポット名称を含む投稿情報PI、スポットの近傍で投稿された投稿情報PI等)が選別される。
2(2). 変形例2
以上の実施形態では、イベント投稿選別動作(S1020)における機械学習アルゴリズムとしてSVMが採用されるが、他の機械学習アルゴリズムが採用されてもよい。また、機械学習以外の手法によってイベントに関連する投稿情報PIが選別されてもよい。例えば、「開催」や「参加」等のイベントに関連する単語を有するか否かに基づいて投稿情報PIが選別(フィルタリング)されてもよい。
2(3). 変形例3
以上の実施形態では、スポット投稿選別動作の後にイベント投稿選別動作が実行されるが、逆順に実行されてもよい(すなわち、S1020の後にS1010が実行されてもよい)。また、両動作が並列的に実行されてもよい。ただし、実施形態のように、ステップS1010にてマッチング等の比較的単純な処理を実行し、ステップS1020にてSVM等の比較的複雑な処理を実行する場合には、ステップS1010にて投稿情報PIを選別した上でステップS1020を実行することにより、ステップS1020における処理負荷をより低減することができる。
2(4). 変形例4
イベント情報抽出動作(ステップS1030)において、イベント情報抽出部110が、NGユーザリストに登録されているNGユーザによって投稿された投稿情報PIを、イベント情報EIを抽出する対象から除外してもよい。NGユーザリストには任意のユーザが登録され得る。例えば、ブログサーバBSにて凍結された(サスペンドされた)アカウントに対応するユーザが、NGユーザとして登録されてもよい。
2(5). 変形例5
以上の実施形態では、文字列の類似度を示す標準化共通部分列長に基づいてイベント情報統合動作(S1040)が実行されるが、類似度を示す他の指標(例えば、編集距離)に基づいてイベント情報EIの統合が実行されてもよい。例えば、スポット同一イベントペアに対応する2つのイベント名称の編集距離が閾値Th2以下である場合に、イベント情報EIが統合されてもよい。編集距離は、ある文字列を他の文字列に変形するのに必要な編集操作(挿入、削除、及び置換)の回数を意味する。以上の変形例において、標準化された編集距離が用いられてもよい。標準化の手法は任意であるが、例えば、実施形態と同様に、スポット同一イベントペアのうちより長い方の文字列長で最長共通部分列長を除算する手法が採用され得る。
また、イベント情報EIに含まれる緯度・経度に基づいてイベント情報統合動作(S1040)が実行されてもよい。例えば、ステップS1042において、イベント情報統合部120が、複数のイベント情報EIを、緯度及び経度に基づいて分割された網目状の領域(メッシュ)ごとにグループ化してもよい。以上のグループ化は、緯度経度によって投稿情報PIを選別する変形例1の構成(投稿情報PIがスポット名称を含まない可能性がある構成)において、特に好適である。なお、以上のメッシュの具体例としては、日本国の総務省統計局が提供する標準地域メッシュ(例えば、4分の1地域メッシュ)が挙げられる。
2(6). 変形例6
イベント情報抽出部110が、抽出されたイベント情報EIのうち、不要なイベント情報EIを排除してもよい。例えば、イベント情報抽出部110が、排除リストに登録された単語(例えば、NGワード等)を含むイベント情報EIを排除してもよい。
また、スポット情報テーブル140に含まれるスポット名称が以上の排除リストに含まれてもよい。スポットの名称自体は、イベント名称では無いと考えられる。したがって、イベント情報抽出部110が、排除リストに登録されたスポット名称に一致するイベント名称を含むイベント情報EIを排除すると好適である。
2(7). 変形例7
イベント情報抽出部110が、抽出されたイベント名称を整形してもよい。例えば、カギ括弧等の区切り文字(デリミタ)がイベント名称に含まれる場合、イベント情報抽出部110は、その区切り文字をイベント名称から削除すると好適である。区切り文字自体はイベント名称に含まれない可能性が高いからである。
2(8). 変形例8
1つの投稿情報PIに、複数のイベント名称と複数の開催スポット名称とが含まれる場合がある。例えば、投稿情報PIが『[イベント名称1]は[開催スポット名称1]で開催されます。[イベント名称2]は[開催スポット名称2]で開催されます。』という本文を含むような場合である。以上の場合、ステップS1030において、間違った対応付けがなされたイベント情報EIが抽出される場合がある。例えば、[イベント名称1]と[開催スポット名称2]とが対応付けられる場合である。
以上のような間違った対応付けを抑制するため、イベント情報抽出部110が、イベント情報EIを抽出する際に、イベント名称と開催スポット名称との距離(間に存在する文字数)が最も小さくなるように対応付けを行うと好適である。また、単純な文字数ではなく、文字の種別ごとに重み付け(例えば、句読点の重みを他の文字の重みよりも重くする)をした重み付け距離に基づいてイベント名称と開催スポット名称との対応付けが実行されてもよい。
2(9). 変形例9
イベント情報抽出動作において、イベント名称、開催スポット名称、及び開催日時以外の様々な情報が抽出されてもよい。例えば、イベント情報抽出部110が投稿情報PIを解析し、その投稿情報PIに含まれる外部リンク情報(URL等)を抽出してイベント情報EIに含めてもよい。また、イベント情報EIが投稿情報PIを解析し、その投稿情報PIに含まれる特徴語を抽出してイベント情報EIに含めてもよい。特徴語を抽出するための手法は任意である。例えば、イベント情報抽出部110が、投稿情報PIに含まれる各語句についてtf-idf(term frequency - inverse document frequency)を算定し、tf-idfの値が最も大きい語を特徴語として抽出してもよい。また、tf-idfの値が所定の閾値より高い1以上の語を特徴語として抽出してもよい。
2(10). 変形例10
以上の実施形態では、1つの装置である情報管理サーバMSが、イベント情報収集動作を実行する。しかしながら、複数の装置によって構成される情報管理システムが、イベント情報収集動作を実行してもよい。例えば、スポット投稿選別部102、イベント投稿選別部104、イベント情報抽出部110、イベント情報統合部120、及び情報提示部130が2以上のサーバ装置を含む情報管理システムによって実装されてもよい。
投稿情報取得サーバASと情報管理サーバMSとが一体である構成も採用可能である。
2(11). 変形例11
コンピュータ装置、特に、情報管理サーバMS及び投稿情報取得サーバASにおいてCPUが実行する各機能は、FPGA(Field Programmable Gate Array)またはDSP(Digital Signal Processor)等のプログラマブルロジックデバイスで実行されてもよい。
AS……投稿情報取得サーバ、BS……ブログサーバ、CL……クライアント端末、EI……イベント情報、IEI……統合イベント情報、MS……情報管理サーバ、PI……投稿情報、100……投稿情報選別部、102……スポット投稿選別部、104……イベント投稿選別部、110……イベント情報抽出部、120……イベント情報統合部、130……情報提示部、140……スポット情報テーブル、150……スポット投稿テーブル、160……イベント投稿テーブル、170……イベント情報テーブル、200……投稿情報処理部、210……投稿情報テーブル。

Claims (10)

  1. 複数の投稿情報の中から、当該投稿情報に含まれる地理的情報に基づいて、スポットに関連する投稿情報をマッチング処理により選別するスポット投稿選別部と、
    前記スポット投稿選別部によって選別された複数の投稿情報の中から、当該投稿情報に含まれる文言に基づいて、イベントに関連する投稿情報を機械学習により選別するイベント投稿選別部と、
    前記スポット投稿選別部および前記イベント投稿選別部によって選別された選別済み投稿情報を分析して、前記選別済み投稿情報に含まれるイベント名称と、当該イベント名称に対応するイベントが開催される開催スポット名称とを含むイベント情報を抽出するイベント情報抽出部とを備える
    情報管理装置。
  2. 抽出された前記イベント情報のうち同一のイベントに対応する複数のイベント情報を、1つの統合イベント情報に統合するイベント情報統合部をさらに備える
    請求項1の情報管理装置。
  3. 前記イベント情報統合部は、
    1つの開催スポット名称に対応する複数のイベント名称の類似度に基づいて、複数の前記イベント情報が同一の前記イベントに対応すると判定する
    請求項2の情報管理装置。
  4. 前記イベント情報抽出部は、
    抽出された前記イベント情報のうち、排除リストに登録された単語に関連するイベント名称を含むイベント情報を排除する
    請求項1の情報管理装置。
  5. 前記排除リストは前記スポットの名称を示すスポット名称を含み、
    前記イベント情報抽出部は、
    抽出された前記イベント情報のうち、前記排除リストに登録された前記スポット名称に一致するイベント名称を含むイベント情報を排除する
    請求項4の情報管理装置。
  6. 前記イベント情報抽出部は、
    選別された前記選別済み投稿情報のうち、NGユーザリストに登録されたユーザによって投稿された投稿情報を、前記イベント情報の抽出対象から除外する
    請求項1の情報管理装置。
  7. 前記イベント情報抽出部は、
    前記選別済み投稿情報を分析して、前記イベント名称に対応する前記イベントが開催される開催日時を更に含む前記イベント情報を抽出する
    請求項1の情報管理装置。
  8. 前記イベント情報抽出部は、
    前記選別済み投稿情報を分析して、前記選別済み投稿情報に含まれる特徴語を更に含む前記イベント情報を抽出する
    請求項1の情報管理装置。
  9. 複数の投稿情報の中から、前記投稿情報に含まれる地理的情報に基づいて、スポットに関連する投稿情報をマッチング処理により選別するスポット投稿選別部と、
    前記スポット投稿選別部によって選別された複数の投稿情報の中から、前記投稿情報に含まれる文言に基づいて、イベントに関連する投稿情報を機械学習により選別するイベント投稿選別部と、
    前記スポット投稿選別部および前記イベント投稿選別部によって選別された選別済み投稿情報を分析して、前記選別済み投稿情報に含まれるイベント名称と、当該イベント名称に対応するイベントが開催される開催スポット名称とを含むイベント情報を抽出するイベント情報抽出部とを備える
    情報管理システム。
  10. 複数の投稿情報の中から、前記投稿情報に含まれる地理的情報に基づいて、スポットに関連する投稿情報をマッチング処理により選別することと、
    前記選別された複数の投稿情報の中から、前記投稿情報に含まれる文言に基づいて、イベントに関連する投稿情報を機械学習により選別することと、
    選別された選別済み投稿情報を分析して、前記選別済み投稿情報に含まれるイベント名称と、当該イベント名称に対応するイベントが開催される開催スポット名称とを含むイベント情報を抽出することと
    をコンピュータに実行させる情報管理プログラム。
JP2014147085A 2014-07-17 2014-07-17 情報管理装置、情報管理システム、及び情報管理プログラム Expired - Fee Related JP6411800B2 (ja)

Priority Applications (1)

Application Number Priority Date Filing Date Title
JP2014147085A JP6411800B2 (ja) 2014-07-17 2014-07-17 情報管理装置、情報管理システム、及び情報管理プログラム

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
JP2014147085A JP6411800B2 (ja) 2014-07-17 2014-07-17 情報管理装置、情報管理システム、及び情報管理プログラム

Publications (2)

Publication Number Publication Date
JP2016024545A JP2016024545A (ja) 2016-02-08
JP6411800B2 true JP6411800B2 (ja) 2018-10-24

Family

ID=55271273

Family Applications (1)

Application Number Title Priority Date Filing Date
JP2014147085A Expired - Fee Related JP6411800B2 (ja) 2014-07-17 2014-07-17 情報管理装置、情報管理システム、及び情報管理プログラム

Country Status (1)

Country Link
JP (1) JP6411800B2 (ja)

Cited By (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US11588780B2 (en) 2020-07-31 2023-02-21 Rakuten Group, Inc. Posting right giving device, posting right giving method, and computer readable medium storing posting right giving program

Families Citing this family (8)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP6635865B2 (ja) * 2016-03-31 2020-01-29 株式会社エヌ・ティ・ティ・データ 投稿抽出装置、投稿抽出方法、及びプログラム
JP6806589B2 (ja) * 2017-02-27 2021-01-06 日本放送協会 情報判定モデル学習装置、情報判定装置およびそれらのプログラム
CN109325114A (zh) * 2018-07-24 2019-02-12 武汉理工大学 一种融合统计特征与Attention机制的文本分类算法
JP6832322B2 (ja) * 2018-11-02 2021-02-24 株式会社トヨタマップマスター 探索装置、探索方法、探索プログラムおよび記録媒体
CN110851738B (zh) 2019-10-28 2021-03-19 百度在线网络技术(北京)有限公司 获取poi状态信息的方法、装置、设备和计算机存储介质
CN111401033B (zh) * 2020-03-19 2023-07-25 北京百度网讯科技有限公司 事件抽取方法、事件抽取装置和电子设备
CN111414482B (zh) * 2020-03-20 2024-02-20 北京百度网讯科技有限公司 一种事件论元抽取方法、装置以及电子设备
CN111325020B (zh) * 2020-03-20 2023-03-31 北京百度网讯科技有限公司 一种事件论元抽取方法、装置以及电子设备

Family Cites Families (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2013168021A (ja) * 2012-02-15 2013-08-29 Nifty Corp イベント検出装置
JP5649619B2 (ja) * 2012-06-25 2015-01-07 ヤフー株式会社 情報提供装置、情報提供方法及び情報提供プログラム
JP5836892B2 (ja) * 2012-06-28 2015-12-24 Kddi株式会社 イベント位置に地理的な特徴物の識別名称をタグ付けする装置、プログラム及び方法
JP5836902B2 (ja) * 2012-09-04 2015-12-24 Kddi株式会社 イベントに関するコメント文章のみ検出するイベントコメント文章検出装置、プログラム及び方法

Cited By (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US11588780B2 (en) 2020-07-31 2023-02-21 Rakuten Group, Inc. Posting right giving device, posting right giving method, and computer readable medium storing posting right giving program

Also Published As

Publication number Publication date
JP2016024545A (ja) 2016-02-08

Similar Documents

Publication Publication Date Title
JP6411800B2 (ja) 情報管理装置、情報管理システム、及び情報管理プログラム
JP6388988B2 (ja) オンライン・ソーシャル・ネットワークにおける検索クエリのための静的ランク付け
US9448999B2 (en) Method and device to detect similar documents
JP6377807B2 (ja) オンライン・ソーシャル・ネットワークにおける検索クエリの書き換え
JP2017157192A (ja) キーワードに基づいて画像とコンテンツアイテムをマッチングする方法
CN104035972B (zh) 一种基于微博的知识推荐方法与系统
CN107688616B (zh) 使实体的独特事实显现
CN103793481B (zh) 基于用户兴趣挖掘的微博词云生成方法及访问支持系统
CN104685495A (zh) 一种从多个微博中自动生成信息丰富的内容的系统和方法,每个微博仅包含稀疏信息
CN113392329B (zh) 内容推荐方法、装置、电子设备及存储介质
JP6363682B2 (ja) 画像とコンテンツのメタデータに基づいてコンテンツとマッチングする画像を選択する方法
WO2015188719A1 (zh) 结构化数据与图片的关联方法与关联装置
CN107463592B (zh) 用于将内容项目与图像匹配的方法、设备和数据处理系统
JP6371587B2 (ja) 提示システム、提示装置、及び提示プログラム
CN105760380A (zh) 数据库查询方法、装置及系统
JP5731940B2 (ja) テキスト位置判定装置及びテキスト位置判定方法
CN112989824A (zh) 信息推送方法及装置、电子设备及存储介质
JP2018504686A (ja) 検索データを処理するための方法及び装置
JP6557959B2 (ja) 情報提示プログラム、情報提示方法及び情報提示装置
EP3631737A1 (en) Automated classification of network-accessible content
JP2018005633A (ja) 関連コンテンツ抽出装置、関連コンテンツ抽出方法及び関連コンテンツ抽出プログラム
JP2017091436A (ja) 特徴語選択装置
CN108170693B (zh) 推送热词的方法及装置
JP7042720B2 (ja) 情報処理装置、情報処理方法、およびプログラム
Samah et al. TF-IDF and Data Visualization For Syafie Madhhab Hadith Scriptures Authenticity

Legal Events

Date Code Title Description
A621 Written request for application examination

Free format text: JAPANESE INTERMEDIATE CODE: A621

Effective date: 20170209

A977 Report on retrieval

Free format text: JAPANESE INTERMEDIATE CODE: A971007

Effective date: 20171120

A131 Notification of reasons for refusal

Free format text: JAPANESE INTERMEDIATE CODE: A131

Effective date: 20171205

A521 Request for written amendment filed

Free format text: JAPANESE INTERMEDIATE CODE: A523

Effective date: 20180119

A131 Notification of reasons for refusal

Free format text: JAPANESE INTERMEDIATE CODE: A131

Effective date: 20180619

A521 Request for written amendment filed

Free format text: JAPANESE INTERMEDIATE CODE: A523

Effective date: 20180726

TRDD Decision of grant or rejection written
A01 Written decision to grant a patent or to grant a registration (utility model)

Free format text: JAPANESE INTERMEDIATE CODE: A01

Effective date: 20180904

A61 First payment of annual fees (during grant procedure)

Free format text: JAPANESE INTERMEDIATE CODE: A61

Effective date: 20180927

R150 Certificate of patent or registration of utility model

Ref document number: 6411800

Country of ref document: JP

Free format text: JAPANESE INTERMEDIATE CODE: R150

R250 Receipt of annual fees

Free format text: JAPANESE INTERMEDIATE CODE: R250

LAPS Cancellation because of no payment of annual fees