JP6411800B2 - 情報管理装置、情報管理システム、及び情報管理プログラム - Google Patents
情報管理装置、情報管理システム、及び情報管理プログラム Download PDFInfo
- Publication number
- JP6411800B2 JP6411800B2 JP2014147085A JP2014147085A JP6411800B2 JP 6411800 B2 JP6411800 B2 JP 6411800B2 JP 2014147085 A JP2014147085 A JP 2014147085A JP 2014147085 A JP2014147085 A JP 2014147085A JP 6411800 B2 JP6411800 B2 JP 6411800B2
- Authority
- JP
- Japan
- Prior art keywords
- information
- event
- spot
- name
- post
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Expired - Fee Related
Links
- 238000000605 extraction Methods 0.000 claims description 39
- 238000010801 machine learning Methods 0.000 claims description 28
- 230000010354 integration Effects 0.000 claims description 24
- 239000000284 extract Substances 0.000 claims description 13
- 230000007717 exclusion Effects 0.000 claims description 6
- 238000012545 processing Methods 0.000 claims description 6
- 238000007726 management method Methods 0.000 description 29
- 238000000034 method Methods 0.000 description 15
- 238000012986 modification Methods 0.000 description 15
- 230000004048 modification Effects 0.000 description 15
- 238000001914 filtration Methods 0.000 description 13
- 230000008569 process Effects 0.000 description 10
- 238000004458 analytical method Methods 0.000 description 9
- 238000010586 diagram Methods 0.000 description 8
- 230000014509 gene expression Effects 0.000 description 7
- 230000004044 response Effects 0.000 description 5
- 238000004422 calculation algorithm Methods 0.000 description 4
- 239000013598 vector Substances 0.000 description 4
- 230000006870 function Effects 0.000 description 3
- 230000000877 morphologic effect Effects 0.000 description 3
- 238000004891 communication Methods 0.000 description 2
- 238000012706 support-vector machine Methods 0.000 description 2
- 230000006399 behavior Effects 0.000 description 1
- 238000004364 calculation method Methods 0.000 description 1
- 238000004590 computer program Methods 0.000 description 1
- 239000000470 constituent Substances 0.000 description 1
- 238000012217 deletion Methods 0.000 description 1
- 230000037430 deletion Effects 0.000 description 1
- 230000000694 effects Effects 0.000 description 1
- 238000011156 evaluation Methods 0.000 description 1
- 238000002474 experimental method Methods 0.000 description 1
- 230000010365 information processing Effects 0.000 description 1
- 238000003780 insertion Methods 0.000 description 1
- 230000037431 insertion Effects 0.000 description 1
- 230000006855 networking Effects 0.000 description 1
- 238000012552 review Methods 0.000 description 1
- 238000010187 selection method Methods 0.000 description 1
- 238000011425 standardization method Methods 0.000 description 1
- 238000012360 testing method Methods 0.000 description 1
Images
Landscapes
- Information Retrieval, Db Structures And Fs Structures Therefor (AREA)
- Management, Administration, Business Operations System, And Electronic Commerce (AREA)
- Information Transfer Between Computers (AREA)
Description
1(1). 情報管理サーバの概略
図1を参照して、本発明の実施形態に係る情報管理サーバMSと、情報管理サーバMSに関係する複数のコンピュータ装置とを概略的に示す。本実施形態のコンピュータ装置は、所定のプロトコル(TCP/IP等)に従って通信を実行する。
−マイクロブログサービス(例えば、Twitter[登録商標])における140文字以下の短文投稿(例えば、ツイート[登録商標])
−ブログ(ウェブログ)サービスにおける日記や寸評等の投稿
−ソーシャルネットワーキングサービス(SNS)におけるステータス投稿
1(2)−1. サーバ装置の構成
図2は、情報管理サーバMSを始めとする本実施形態の各サーバ装置の物理的構成を示すブロック図である。各サーバ装置(AS,BS,MS)は、ネットワークインタフェース10と入力部12と出力部14とCPU(Central Processing Unit)16とRAM(Random Access Memory)18とROM(Read Only Memory)20とHDD(Hard Disk Drive)22とを備える。
図3は、本実施形態のクライアント端末CLの物理的構成を示すブロック図である。クライアント端末CLは、ネットワークインタフェース30と入力部32と出力部34とCPU36とRAM38とROM40とHDD42とを備える。以上の各要素は、各サーバが備える、図2を参照して説明された要素と同様の構成を有する。
図4は、情報管理サーバMSの論理的構成を示すブロック図である。情報管理サーバMSは、投稿情報選別部100とイベント情報抽出部110とイベント情報統合部120と情報提示部130とを機能ブロックとして備える。投稿情報選別部100は、スポット投稿選別部102とイベント投稿選別部104とを備える。また、情報管理サーバMSは、スポット情報テーブル140とスポット投稿テーブル150とイベント投稿テーブル160とイベント情報テーブル170とを論理テーブルとして備える。
本実施形態のイベント情報収集動作を以下に説明する。図6は、本実施形態のイベント情報収集動作を概略的に示すフローチャートである。ステップS1010及びS1020にて段階的に選別された投稿情報PIから、イベント情報EIが抽出される(S1030)。1つのイベントに関する複数のイベント情報EIがステップS1040にて統合(名寄せ)される。
ステップS1010において、スポット投稿選別部102がスポット投稿選別動作を実行する。以下、図7を参照して具体的な動作を説明する。スポット投稿選別部102は、投稿情報取得サーバASから取得した複数の投稿情報PIの各々に対して形態素解析を実行し、各投稿情報PIに含まれる形態素を取得する(S1012)。
ステップS1020において、イベント投稿選別部104がイベント投稿選別動作を実行する。以下、図8を参照して具体的な動作を説明する。イベント投稿選別部104は、スポット投稿テーブル150(又はスポット投稿選別部102)から取得した複数の投稿情報PIの各々から素性(feature)を抽出する(S1022)。
ステップS1030において、イベント情報抽出部110がイベント情報抽出動作を実行する。以下、図11を参照して具体的な動作を説明する。イベント情報抽出部110は、イベント投稿テーブル160(又はイベント投稿選別部104)から取得した複数の投稿情報PIの各々から素性を抽出する(S1032)。
・B-Event:イベント名称に相当する固有表現の開始を示す。
・I-Event:イベント名称に相当する固有表現の一部であることを示す。
・B-Time:開催日時に相当する固有表現の開始を示す。
・I-Time:開催日時に相当する固有表現の一部であることを示す。
・O:その他の要素であることを示す。
ステップS1040において、イベント情報統合部120がイベント情報統合動作(名寄せ)を実行する。以下、図14を参照して具体的な動作を説明する。イベント情報統合部120は、イベント情報テーブル170(又はイベント情報抽出部110)から取得した複数のイベント情報EIを、開催スポット名称ごとにグループ化する(S1042)。本例では、ある1つの開催スポット名称について、[21世紀の未来展]というイベント名称(ブラケットはイベント名称の文字列に含まれない。以下同様とする)を有するイベント情報EIaと、[21世紀のみらい展]というイベント名称を有するイベント情報EIbとがグループ化されたと想定する。
実施形態についての1つの実施例を以下に説明する。本実施例の実験では、2013年11月に投稿された日本語ツイート(約16億9200万件)について、本実施形態のイベント情報収集動作(S1010〜S1040)が実行された。SVMの機械学習(S800〜S820)には2012年に投稿された2000件のツイート(イベント名称を含む正例200件、イベント名称を含まない負例1800件)が使用され、CRFの機械学習(S900〜S920)には2012年に投稿されたイベント関連情報を含む254件のツイートが使用された。結果として、9781件のイベント情報EIが収集された。なお、ステップS1040のイベント情報統合動作が実行される前のイベント情報EIは、約13万7800件であった。
以上の本実施形態の構成によれば、段階的な投稿情報PIの選別が行われた後に、選別された投稿情報PIからイベント情報EIの抽出が実行される。したがって、イベント情報EIが適切に収集される。また、同一のイベントに対応する複数のイベント情報EIが1つのイベント情報EI(統合イベント情報IEI)に統合される。そのため、収集されたイベント情報EIがより適切に整理される。
以上の実施形態は多様に変形される。具体的な変形の態様を以下に例示する。以上の実施の形態および以下の例示から任意に選択された2以上の態様は、相互に矛盾しない限り適宜に併合され得る。
以上の実施形態では、スポット投稿選別動作(S1010)において形態素解析による文言解析が実行される。しかし、形態素解析は必須では無く、他の手法による文言解析、例えば、Nグラムによる解析が実行されてもよい。
以上の実施形態では、イベント投稿選別動作(S1020)における機械学習アルゴリズムとしてSVMが採用されるが、他の機械学習アルゴリズムが採用されてもよい。また、機械学習以外の手法によってイベントに関連する投稿情報PIが選別されてもよい。例えば、「開催」や「参加」等のイベントに関連する単語を有するか否かに基づいて投稿情報PIが選別(フィルタリング)されてもよい。
以上の実施形態では、スポット投稿選別動作の後にイベント投稿選別動作が実行されるが、逆順に実行されてもよい(すなわち、S1020の後にS1010が実行されてもよい)。また、両動作が並列的に実行されてもよい。ただし、実施形態のように、ステップS1010にてマッチング等の比較的単純な処理を実行し、ステップS1020にてSVM等の比較的複雑な処理を実行する場合には、ステップS1010にて投稿情報PIを選別した上でステップS1020を実行することにより、ステップS1020における処理負荷をより低減することができる。
イベント情報抽出動作(ステップS1030)において、イベント情報抽出部110が、NGユーザリストに登録されているNGユーザによって投稿された投稿情報PIを、イベント情報EIを抽出する対象から除外してもよい。NGユーザリストには任意のユーザが登録され得る。例えば、ブログサーバBSにて凍結された(サスペンドされた)アカウントに対応するユーザが、NGユーザとして登録されてもよい。
以上の実施形態では、文字列の類似度を示す標準化共通部分列長に基づいてイベント情報統合動作(S1040)が実行されるが、類似度を示す他の指標(例えば、編集距離)に基づいてイベント情報EIの統合が実行されてもよい。例えば、スポット同一イベントペアに対応する2つのイベント名称の編集距離が閾値Th2以下である場合に、イベント情報EIが統合されてもよい。編集距離は、ある文字列を他の文字列に変形するのに必要な編集操作(挿入、削除、及び置換)の回数を意味する。以上の変形例において、標準化された編集距離が用いられてもよい。標準化の手法は任意であるが、例えば、実施形態と同様に、スポット同一イベントペアのうちより長い方の文字列長で最長共通部分列長を除算する手法が採用され得る。
イベント情報抽出部110が、抽出されたイベント情報EIのうち、不要なイベント情報EIを排除してもよい。例えば、イベント情報抽出部110が、排除リストに登録された単語(例えば、NGワード等)を含むイベント情報EIを排除してもよい。
イベント情報抽出部110が、抽出されたイベント名称を整形してもよい。例えば、カギ括弧等の区切り文字(デリミタ)がイベント名称に含まれる場合、イベント情報抽出部110は、その区切り文字をイベント名称から削除すると好適である。区切り文字自体はイベント名称に含まれない可能性が高いからである。
1つの投稿情報PIに、複数のイベント名称と複数の開催スポット名称とが含まれる場合がある。例えば、投稿情報PIが『[イベント名称1]は[開催スポット名称1]で開催されます。[イベント名称2]は[開催スポット名称2]で開催されます。』という本文を含むような場合である。以上の場合、ステップS1030において、間違った対応付けがなされたイベント情報EIが抽出される場合がある。例えば、[イベント名称1]と[開催スポット名称2]とが対応付けられる場合である。
イベント情報抽出動作において、イベント名称、開催スポット名称、及び開催日時以外の様々な情報が抽出されてもよい。例えば、イベント情報抽出部110が投稿情報PIを解析し、その投稿情報PIに含まれる外部リンク情報(URL等)を抽出してイベント情報EIに含めてもよい。また、イベント情報EIが投稿情報PIを解析し、その投稿情報PIに含まれる特徴語を抽出してイベント情報EIに含めてもよい。特徴語を抽出するための手法は任意である。例えば、イベント情報抽出部110が、投稿情報PIに含まれる各語句についてtf-idf(term frequency - inverse document frequency)を算定し、tf-idfの値が最も大きい語を特徴語として抽出してもよい。また、tf-idfの値が所定の閾値より高い1以上の語を特徴語として抽出してもよい。
以上の実施形態では、1つの装置である情報管理サーバMSが、イベント情報収集動作を実行する。しかしながら、複数の装置によって構成される情報管理システムが、イベント情報収集動作を実行してもよい。例えば、スポット投稿選別部102、イベント投稿選別部104、イベント情報抽出部110、イベント情報統合部120、及び情報提示部130が2以上のサーバ装置を含む情報管理システムによって実装されてもよい。
コンピュータ装置、特に、情報管理サーバMS及び投稿情報取得サーバASにおいてCPUが実行する各機能は、FPGA(Field Programmable Gate Array)またはDSP(Digital Signal Processor)等のプログラマブルロジックデバイスで実行されてもよい。
Claims (10)
- 複数の投稿情報の中から、当該投稿情報に含まれる地理的情報に基づいて、スポットに関連する投稿情報をマッチング処理により選別するスポット投稿選別部と、
前記スポット投稿選別部によって選別された複数の投稿情報の中から、当該投稿情報に含まれる文言に基づいて、イベントに関連する投稿情報を機械学習により選別するイベント投稿選別部と、
前記スポット投稿選別部および前記イベント投稿選別部によって選別された選別済み投稿情報を分析して、前記選別済み投稿情報に含まれるイベント名称と、当該イベント名称に対応するイベントが開催される開催スポット名称とを含むイベント情報を抽出するイベント情報抽出部とを備える
情報管理装置。 - 抽出された前記イベント情報のうち同一のイベントに対応する複数のイベント情報を、1つの統合イベント情報に統合するイベント情報統合部をさらに備える
請求項1の情報管理装置。 - 前記イベント情報統合部は、
1つの開催スポット名称に対応する複数のイベント名称の類似度に基づいて、複数の前記イベント情報が同一の前記イベントに対応すると判定する
請求項2の情報管理装置。 - 前記イベント情報抽出部は、
抽出された前記イベント情報のうち、排除リストに登録された単語に関連するイベント名称を含むイベント情報を排除する
請求項1の情報管理装置。 - 前記排除リストは前記スポットの名称を示すスポット名称を含み、
前記イベント情報抽出部は、
抽出された前記イベント情報のうち、前記排除リストに登録された前記スポット名称に一致するイベント名称を含むイベント情報を排除する
請求項4の情報管理装置。 - 前記イベント情報抽出部は、
選別された前記選別済み投稿情報のうち、NGユーザリストに登録されたユーザによって投稿された投稿情報を、前記イベント情報の抽出対象から除外する
請求項1の情報管理装置。 - 前記イベント情報抽出部は、
前記選別済み投稿情報を分析して、前記イベント名称に対応する前記イベントが開催される開催日時を更に含む前記イベント情報を抽出する
請求項1の情報管理装置。 - 前記イベント情報抽出部は、
前記選別済み投稿情報を分析して、前記選別済み投稿情報に含まれる特徴語を更に含む前記イベント情報を抽出する
請求項1の情報管理装置。 - 複数の投稿情報の中から、前記投稿情報に含まれる地理的情報に基づいて、スポットに関連する投稿情報をマッチング処理により選別するスポット投稿選別部と、
前記スポット投稿選別部によって選別された複数の投稿情報の中から、前記投稿情報に含まれる文言に基づいて、イベントに関連する投稿情報を機械学習により選別するイベント投稿選別部と、
前記スポット投稿選別部および前記イベント投稿選別部によって選別された選別済み投稿情報を分析して、前記選別済み投稿情報に含まれるイベント名称と、当該イベント名称に対応するイベントが開催される開催スポット名称とを含むイベント情報を抽出するイベント情報抽出部とを備える
情報管理システム。 - 複数の投稿情報の中から、前記投稿情報に含まれる地理的情報に基づいて、スポットに関連する投稿情報をマッチング処理により選別することと、
前記選別された複数の投稿情報の中から、前記投稿情報に含まれる文言に基づいて、イベントに関連する投稿情報を機械学習により選別することと、
選別された選別済み投稿情報を分析して、前記選別済み投稿情報に含まれるイベント名称と、当該イベント名称に対応するイベントが開催される開催スポット名称とを含むイベント情報を抽出することと
をコンピュータに実行させる情報管理プログラム。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
JP2014147085A JP6411800B2 (ja) | 2014-07-17 | 2014-07-17 | 情報管理装置、情報管理システム、及び情報管理プログラム |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
JP2014147085A JP6411800B2 (ja) | 2014-07-17 | 2014-07-17 | 情報管理装置、情報管理システム、及び情報管理プログラム |
Publications (2)
Publication Number | Publication Date |
---|---|
JP2016024545A JP2016024545A (ja) | 2016-02-08 |
JP6411800B2 true JP6411800B2 (ja) | 2018-10-24 |
Family
ID=55271273
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
JP2014147085A Expired - Fee Related JP6411800B2 (ja) | 2014-07-17 | 2014-07-17 | 情報管理装置、情報管理システム、及び情報管理プログラム |
Country Status (1)
Country | Link |
---|---|
JP (1) | JP6411800B2 (ja) |
Cited By (1)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
US11588780B2 (en) | 2020-07-31 | 2023-02-21 | Rakuten Group, Inc. | Posting right giving device, posting right giving method, and computer readable medium storing posting right giving program |
Families Citing this family (8)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
JP6635865B2 (ja) * | 2016-03-31 | 2020-01-29 | 株式会社エヌ・ティ・ティ・データ | 投稿抽出装置、投稿抽出方法、及びプログラム |
JP6806589B2 (ja) * | 2017-02-27 | 2021-01-06 | 日本放送協会 | 情報判定モデル学習装置、情報判定装置およびそれらのプログラム |
CN109325114A (zh) * | 2018-07-24 | 2019-02-12 | 武汉理工大学 | 一种融合统计特征与Attention机制的文本分类算法 |
JP6832322B2 (ja) * | 2018-11-02 | 2021-02-24 | 株式会社トヨタマップマスター | 探索装置、探索方法、探索プログラムおよび記録媒体 |
CN110851738B (zh) | 2019-10-28 | 2021-03-19 | 百度在线网络技术(北京)有限公司 | 获取poi状态信息的方法、装置、设备和计算机存储介质 |
CN111401033B (zh) * | 2020-03-19 | 2023-07-25 | 北京百度网讯科技有限公司 | 事件抽取方法、事件抽取装置和电子设备 |
CN111414482B (zh) * | 2020-03-20 | 2024-02-20 | 北京百度网讯科技有限公司 | 一种事件论元抽取方法、装置以及电子设备 |
CN111325020B (zh) * | 2020-03-20 | 2023-03-31 | 北京百度网讯科技有限公司 | 一种事件论元抽取方法、装置以及电子设备 |
Family Cites Families (4)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
JP2013168021A (ja) * | 2012-02-15 | 2013-08-29 | Nifty Corp | イベント検出装置 |
JP5649619B2 (ja) * | 2012-06-25 | 2015-01-07 | ヤフー株式会社 | 情報提供装置、情報提供方法及び情報提供プログラム |
JP5836892B2 (ja) * | 2012-06-28 | 2015-12-24 | Kddi株式会社 | イベント位置に地理的な特徴物の識別名称をタグ付けする装置、プログラム及び方法 |
JP5836902B2 (ja) * | 2012-09-04 | 2015-12-24 | Kddi株式会社 | イベントに関するコメント文章のみ検出するイベントコメント文章検出装置、プログラム及び方法 |
-
2014
- 2014-07-17 JP JP2014147085A patent/JP6411800B2/ja not_active Expired - Fee Related
Cited By (1)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
US11588780B2 (en) | 2020-07-31 | 2023-02-21 | Rakuten Group, Inc. | Posting right giving device, posting right giving method, and computer readable medium storing posting right giving program |
Also Published As
Publication number | Publication date |
---|---|
JP2016024545A (ja) | 2016-02-08 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
JP6411800B2 (ja) | 情報管理装置、情報管理システム、及び情報管理プログラム | |
JP6388988B2 (ja) | オンライン・ソーシャル・ネットワークにおける検索クエリのための静的ランク付け | |
US9448999B2 (en) | Method and device to detect similar documents | |
JP6377807B2 (ja) | オンライン・ソーシャル・ネットワークにおける検索クエリの書き換え | |
JP2017157192A (ja) | キーワードに基づいて画像とコンテンツアイテムをマッチングする方法 | |
CN104035972B (zh) | 一种基于微博的知识推荐方法与系统 | |
CN107688616B (zh) | 使实体的独特事实显现 | |
CN103793481B (zh) | 基于用户兴趣挖掘的微博词云生成方法及访问支持系统 | |
CN104685495A (zh) | 一种从多个微博中自动生成信息丰富的内容的系统和方法,每个微博仅包含稀疏信息 | |
CN113392329B (zh) | 内容推荐方法、装置、电子设备及存储介质 | |
JP6363682B2 (ja) | 画像とコンテンツのメタデータに基づいてコンテンツとマッチングする画像を選択する方法 | |
WO2015188719A1 (zh) | 结构化数据与图片的关联方法与关联装置 | |
CN107463592B (zh) | 用于将内容项目与图像匹配的方法、设备和数据处理系统 | |
JP6371587B2 (ja) | 提示システム、提示装置、及び提示プログラム | |
CN105760380A (zh) | 数据库查询方法、装置及系统 | |
JP5731940B2 (ja) | テキスト位置判定装置及びテキスト位置判定方法 | |
CN112989824A (zh) | 信息推送方法及装置、电子设备及存储介质 | |
JP2018504686A (ja) | 検索データを処理するための方法及び装置 | |
JP6557959B2 (ja) | 情報提示プログラム、情報提示方法及び情報提示装置 | |
EP3631737A1 (en) | Automated classification of network-accessible content | |
JP2018005633A (ja) | 関連コンテンツ抽出装置、関連コンテンツ抽出方法及び関連コンテンツ抽出プログラム | |
JP2017091436A (ja) | 特徴語選択装置 | |
CN108170693B (zh) | 推送热词的方法及装置 | |
JP7042720B2 (ja) | 情報処理装置、情報処理方法、およびプログラム | |
Samah et al. | TF-IDF and Data Visualization For Syafie Madhhab Hadith Scriptures Authenticity |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
A621 | Written request for application examination |
Free format text: JAPANESE INTERMEDIATE CODE: A621 Effective date: 20170209 |
|
A977 | Report on retrieval |
Free format text: JAPANESE INTERMEDIATE CODE: A971007 Effective date: 20171120 |
|
A131 | Notification of reasons for refusal |
Free format text: JAPANESE INTERMEDIATE CODE: A131 Effective date: 20171205 |
|
A521 | Request for written amendment filed |
Free format text: JAPANESE INTERMEDIATE CODE: A523 Effective date: 20180119 |
|
A131 | Notification of reasons for refusal |
Free format text: JAPANESE INTERMEDIATE CODE: A131 Effective date: 20180619 |
|
A521 | Request for written amendment filed |
Free format text: JAPANESE INTERMEDIATE CODE: A523 Effective date: 20180726 |
|
TRDD | Decision of grant or rejection written | ||
A01 | Written decision to grant a patent or to grant a registration (utility model) |
Free format text: JAPANESE INTERMEDIATE CODE: A01 Effective date: 20180904 |
|
A61 | First payment of annual fees (during grant procedure) |
Free format text: JAPANESE INTERMEDIATE CODE: A61 Effective date: 20180927 |
|
R150 | Certificate of patent or registration of utility model |
Ref document number: 6411800 Country of ref document: JP Free format text: JAPANESE INTERMEDIATE CODE: R150 |
|
R250 | Receipt of annual fees |
Free format text: JAPANESE INTERMEDIATE CODE: R250 |
|
LAPS | Cancellation because of no payment of annual fees |