WO2016132558A1

WO2016132558A1 - 情報処理装置及び方法並びにプログラム

Info

Publication number: WO2016132558A1
Application number: PCT/JP2015/054890
Authority: WO
Inventors: ヤコブハルスコウ; 秀樹武田
Original assignee: 株式会社Ｕｂｉｃ
Priority date: 2015-02-20
Filing date: 2015-02-20
Publication date: 2016-08-25

Abstract

【課題】　利便性を向上させる情報処理装置及び方法並びにプログラムを提案する。【解決手段】　選定された対象概念と、当該対象概念の下位概念となるデータ要素とを対応付けたデータベースを作成し、データの中からデータベースに登録されたデータ要素を含むデータを抽出し、抽出したデータの内容を当該データ要素の上位概念で表現した要約を作成し、作成した要約に基づいて、データベースに登録されたデータ要素を含むデータを分類し、分類結果を表示するようにした。

Description

情報処理装置及び方法並びにプログラム

　本発明は、情報処理装置及び方法並びにプログラムに関し、例えば、電子メールを監視する情報処理装置に適用して好適なものである。

　従来、環境の変化を検知した場合や、特定の状態を検出した場合に、当該変化又は特定の状態を検出したことをユーザに通知するシステムが広く研究されている。例えば、特許文献１には、制御システムにおいて発生する異常を効率的に検出し、異常が認められた制御システムを隔離する異常検出システムが開示されている。

特開２０１２－１６８７５５号公報

　ところで、かかるシステムでは、システムが「変化」や「特定の状態」を検出していないときには、システムが正常に機能しているが真に「変化」や「特定の状態」が発生していないのか、又は、システムが正常に機能していないために「変化」や「特定の状態」を検出できていないのかをユーザが認識することができない。

　従って、このようなシステムにおいて、システムが「変化」や「特定の状態」を検出していない状態のときに、例えば所定期間内における電子メールの内容の全体像をユーザに提供できれば、システムは正常に機能しているが真に「変化」や「特定状態」が発生していないことをユーザが容易に認識し得、システムに対する安心感や信頼性を向上させることができるものと考えられる。またこのようにすることによって、ユーザが個々の電子メールに目を通すことなく、所定期間内における電子メールの内容の全体像をユーザが認識することができるため、ユーザから見たシステムの利便性を向上させ得るものと考えられる。

　また近年、インターネット上の商品の販売サイトや飲食店等の紹介サイトなどでは、商品や飲食店等に関する利用者のレビューを掲載するケースが増えてきている。このような利用者のレビューは、その商品を購入し又はその飲食店等を利用しようとしているユーザにとって有益な情報であるものの、すべてのレビューに目を通すためには相当の時間及び労力を要することとなる。

　従って、このようなウェブサイトにおいて、かかるレビューの全体像をユーザに提供することができれば、個々のレビューに目を通す時間や労力を省略させて、ユーザから見たインターネットシステム全体としての利便性を向上させ得るものと考えられる。

　本発明は以上の点を考慮してなされたもので、データの全体像をユーザに提示することにより当該ユーザから見た利便性を向上させ得る情報処理装置及び方法並びにプログラムを提案しようとするものである。

　かかる課題を解決するため本発明においては、情報処理装置において、選定された対象概念と、当該対象概念の下位概念となるデータ要素とを対応付けたデータベースを作成するデータベース作成部と、対象とするデータの中から前記データベースに登録された前記データ要素を含むデータを抽出し、抽出した前記データの内容を当該データ要素の上位概念で表現した要約を作成する要約作成部と、前記要約に基づいて、前記データベースに登録された前記データ要素を含む前記データを分類し、分類結果を表示する表示部とを設けるようにした。

　また本発明においては、情報処理方法において、情報処理装置が、選定された対象概念と、当該対象概念の下位概念となるデータ要素とを対応付けたデータベースを作成する第１のステップと、前記情報処理装置が、データの中から前記データベースに登録された前記データ要素を含むデータを抽出し、抽出した前記データの内容を当該データ要素の上位概念で表現した要約を作成する第２のステップと、前記情報処理装置が、前記要約に基づいて、前記データベースに登録された前記データ要素を含む前記データを分類し、分類結果を表示する第３のステップとを含むようにした。

　さらに本発明においては、プログラムにおいて、情報処理装置に、選定された対象概念と、当該対象概念の下位概念となるデータ要素とを対応付けたデータベースを作成する第１のステップと、データの中から前記データベースに登録された前記データ要素を含むデータを抽出し、抽出した前記データの内容を当該データ要素の上位概念で表現した要約を作成する第２のステップと、前記要約に基づいて、前記データベースに登録された前記データ要素を含む前記データを分類し、分類結果を表示する第３のステップとを含む処理を実行させるようにした。

　本情報処理装置及び情報処理方法並びにプログラムによれば、ユーザは、情報処理装置の表示結果に基づいて、データの全体像を把握することができるため、ユーザが個々のデータに目を通す手間を省略させることができる。

　本発明によれば、ユーザから見た利便性を向上させ得る情報処理装置及び方法並びにプログラムを実現できる。

本実施の形態による情報処理装置の概略構成を示すブロック図である。電子化辞書の説明に供するグラフである。（Ａ）は本発明の概要説明に供する概念図であり、（Ｂ）は分類結果の表示形式の一例を示す略線図である。対象概念の説明に供する概念図である。抽出電子メール管理テーブルの概略構成を示す概念図である。データベース作成処理の処理手順を示すフローチャートである。要約作成処理の処理手順を示すフローチャートである。抽象度フィルタリング処理の説明に供するグラフである。表示処理の処理手順を示すフローチャートである。

　以下図面について、本発明の一実施の形態を詳述する。

（１）第１の実施の形態
（１－１）本実施の形態による情報処理装置の構成
　図１において、１は全体として本実施を適用した情報処理装置を示す。本情報処理装置１は、社内ＬＡＮ（Local Area Network）等のネットワーク２を流通する電子メールを監視し、電子メールのデータ（件名、本文及び添付ファイルを含む）内に予め設定された特定のキーワードを検出した場合に、これを管理者に通知する電子メール監視機能と、後述するトピック検出機能とが搭載されたコンピュータ装置である。この情報処理装置１は、ＣＰＵ１０、メモリ１１、ハードディスク装置１２、インタフェース１３、入力装置１４及び表示装置１５を備えて構成される。

　ＣＰＵ１０は、情報処理装置１全体の動作制御を司る機能を有するプロセッサ（コントローラ）である。またメモリ１１は、例えば不揮発性の半導体メモリから構成され、ＣＰＵ１０のワークメモリとして利用される。メモリ１１には、電子メール監視プログラム２０、トピック検出プログラム２１及び抽出電子メール管理テーブル２２が格納される。電子メール監視プログラム２０は、上述の電子メール監視機能を実現するための各種処理を実行するプログラムである。トピック検出プログラム２１及び抽出電子メール管理テーブル２２の詳細については、後述する。

　ハードディスク装置１２は、各種プログラムや各種データを長期間保存するために利用される。ハードディスク装置１２には、電子化辞書２３及び対象概念抽出用データベース２４が格納される。電子化辞書２３は、日本語の単語や概念を階層的に分類し、これら単語や概念を体系化した形で収録した辞書である。この電子化辞書２３を利用することにより、例えば図２に示すような概念の上下関係を表すグラフを構築することができる。対象概念抽出用データベース２４の詳細については、後述する。

　入力装置１４は、例えばキーボードやマウスなどから構成され、ユーザが操作入力や設定等を行うために利用される。また表示装置１５は、液晶ディスプレイなどから構成され、各種情報を表示するために利用される。

（１－２）トピック検出機能
　次に、かかる情報処理装置１に搭載されたトピック検出機能について説明する。本情報処理装置１には、図３（Ａ）に示すように、所定期間内にネットワーク２を流通した電子メールの中から予め選定された概念（以下、これを対象概念と呼ぶ）の下位概念のキーワードをテキストに含む電子メールを抽出し、抽出した各電子メールの内容の要約を適度な抽象度でそれぞれ作成し、作成した要約に基づいて電子メールを分類（クラスタリング）し、所定期間内における電子メールの分類結果を例えば図３（Ｂ）のような形式でユーザに提示するトピック検出機能が搭載されている。

　このようなトピック検出機能は、準備フェーズ及び適用フェーズの２段階のフェーズにより実現される。準備フェーズは、電子化辞書２３（図１）の中から予めユーザにより設定された各対象概念の下位概念のキーワードだけを抽出し、抽出したキーワードをそれぞれ対応する対象概念に対応付けた上述の対象概念抽出用データベース２４（図１）を作成するためのフェーズである。また適用フェーズは、準備フェーズで作成した対象概念抽出用データベース２４を利用して該当する電子メールの内容を上位概念で表現した要約を作成し、作成した要約に基づいて該当する電子メールを分類し、分類結果をユーザからの要求に応じて表示するフェーズである。なお、ここで言う「該当する電子メール」とは、対象概念抽出用データベース２４に登録されたキーワードをテキスト内に含む電子メールを指す。以下においても同様である。

　準備フェーズでは、まず、ユーザが、電子メールのテキストから検出したい話題（トピック）に応じた幾つかの対象概念を選定し、選定した対象概念を予め情報処理装置１に登録する。例えば、検出したいトピックが「不正」及び「不満」である場合、図４に示すように、概念のカテゴリを「行動」、「感情」、「性質や状態」、「リスク」及び「金銭」の５つに分けて、例えば「行動」については「復讐する」及び「軽蔑する」など、「感情」については「苦しむこと」及び「腹を立てること」など、「性質や状態」については「鈍重だ」及び「心や態度が悪い」など、「リスク」については「脅す」及び「だます」など、「金銭」については「人の労働に対して支払われるお金」などの概念を対象概念としてそれぞれ設定する。

　情報処理装置１は、このようにして対象概念が設定されると、登録された対象概念ごとに、その下位概念を表すキーワードを電子化辞書２３上で検索し、当該検索により検出した個々のキーワードをそれぞれ対応する対象概念に対応付けた上述の対象概念抽出用データベース２４を作成する。

　一方、適用フェーズでは、情報処理装置１は、上述のようにして作成した対象概念抽出用データベース２４を利用して、ネットワーク２を流通する電子メールの中から、対象概念抽出用データベース２４に登録されたキーワードをテキスト内に含む電子メールを抽出する。また情報処理装置１は、このようにして抽出した電子メールについて、そのテキストの内容をそのとき検出したキーワードの上位概念を用いて表した要約を作成する。

　例えば図３の場合、図３（Ａ）に示すように、「e-mail_1」については、「監視システム受注」という箇所から「システム」、「販売」及び「する」という対象概念が抽出され、「e-mail_2」については、「会計システム導入」という箇所から「システム」、「販売」及び「する」という上位概念が抽出されるため、これら「e-mail_1」及び「e-mail_2」については、いずれも「システム　販売　する」という要約が作成されることになる。

　そして情報処理装置１は、この後、ユーザからの要求があった場合に、このようにして作成した該当する電子メールの要約に基づいて、所定期間内における該当する電子メールをその内容に応じて分類し、分類結果をユーザに提示する。

　例えば図３の場合、上述のように「e-mail_1」及び「e-mail_2」について「システム　販売　する」という同じ要約が作成されるため、これら「e-mail_1」及び「e-mail_2」が同一のグループに分類される。そして、この分類結果が例えば図３（Ｂ）のように要約を「内容」とする形式で表示される。

　以上のようなトピック検出機能を実現するための手段として、情報処理装置１のメモリ１１（図１）には、図１について上述したようにトピック検出プログラム２１及び抽出電子メール管理テーブル２２が格納されている。

　トピック検出プログラム２１は、上述のトピック検出機能に関する各種処理を実行するためのプログラムであり、図１に示すように、データベース作成部３０、要約作成部３１及び表示部３２から構成される。

　データベース作成部３０は、ユーザにより設定された対象概念に基づいて上述の対象概念抽出用データベース２４を作成する機能を有するモジュールである。また要約作成部３１は、対象概念抽出用データベース２４に登録されたキーワードをテキスト内に含む電子メールを抽出し、その要約を作成する機能を有するモジュールである。さらに表示部３２は、ユーザからの要求に応じて、該当する電子メールをその要約を利用して分類し、所定期間内における該当する電子メールの全体像を表示する機能を有するモジュールである。

　また抽出電子メール管理テーブル２２は、適用フェーズにおいて抽出された、対象概念抽出用データベース２４に登録されたキーワードをテキスト内に含む電子メールを管理するために利用されるテーブルである。

　この抽出電子メール管理テーブル２２は、図５に示すように、送信日時欄２２Ａ、内容欄２２Ｂ、送信元アドレス欄２２Ｃ及び送信先アドレス欄２２Ｄなどを備えて構成される。そして送信日時欄２２Ａには、その電子メールが送信元から送信された日時が格納され、内容欄２２Ｂには、その電子メールについて作成された上述の要約が格納される。また送信元アドレス欄２２Ｃには、その電子メールの送信元のメールアドレスが格納され、送信先アドレス欄２２Ｄには、その電子メールの送信先のメールアドレスが格納される。

　従って、図５の例では、「2014/12/15 09:31:15」に「a_okamoto@aaa.co.jp」というメールアドレス（送信元）から「m_higasi@aaa.co.jp」というメールアドレス（送信先）に「システム　販売　する」という内容の電子メールが送信されたことが示されている。

　図６、図７及び図９は、以上のトピック検出機能に関連して情報処理装置１において実行される各種処理の具体的な処理内容を示す。なお以下においては、各種処理の処理主体を「モジュール（～部）」として説明するが、実際上は、その「モジュール（～部）」に基づいて、その処理をＣＰＵ１０が実行することは言うまでもない。

　図６は、準備フェーズにおける一連の処理の流れを示す。この処理（以下、これをデータベース作成処理と呼ぶ）は、データベース作成部３０により実行される。

　実際上、データベース作成部３０は、入力装置１４（図１）が操作されて対象概念抽出用データベース２４の作成指示が入力されるとこの図６に示すデータベース作成処理を開始し、まず、ユーザにより１又は複数の対象概念が選定されるのを待ち受ける（ＳＰ１）。

　そしてデータベース作成部３０は、やがて１又は複数の対象概念が選定されると、そのとき選定された対象概念ごとに、その下位概念を電子化辞書上で検索し、すべての下位概念をそれぞれ抽出する（ＳＰ２）。

　続いて、データベース作成部３０は、ステップＳＰ２で抽出した対象概念ごとのすべての下位概念について、その下位概念に関連するすべてのキーワードを電子化辞書からそれぞれ抽出する（ＳＰ３）。

　さらにデータベース作成部３０は、ステップＳＰ３で抽出したすべてのキーワードをそれぞれ対応する対象概念と対応付けた対象概念抽出用データベース２４を作成する（ＳＰ４）。そしてデータベース作成部３０は、この後、このデータベース作成処理を終了する。

　一方、図７は、適用フェーズの一連の処理のうち、対象概念抽出用データベース２４に登録されたキーワードをテキストに含む電子メールを抽出し、その要約を作成するまでの処理の流れを示す。この処理（以下、これを要約作成処理と呼ぶ）は、要約作成部３１により実行される。

　実際上、要約作成部３１は、図６について上述したデータベース作成処理が終了すると、この図７に示す要約作成処理を開始し、まず、上述の電子メール監視機能を実行するためにネットワーク２から取り込んだ電子メールの中から分析対象とする電子メールを１つの選択する（ＳＰ１０）。

　続いて、要約作成部３１は、選択した電子メールのテキストを形態素分析することにより、当該テキストを個々の形態素（言語で意味をもつ最小単位）に分割し（ＳＰ１１）、この後、このとき得られた各形態素を対象概念抽出用データベース２４上でそれぞれ検索することにより、かかる形態素分析で得られた形態素の中に、対象概念抽出用データベース２４にキーワードとして登録された形態素が存在するか否かを判断する（ＳＰ１２）。

　要約作成部３１は、この判断で否定結果を得ると、ステップＳＰ１０に戻り、次の未処理の電子メールに処理を移す。これに対して要約作成部３１は、ステップＳＰ１２の判断で肯定結果を得ると、ステップＳＰ１１の形態素分析で得られた形態素のうち、対象概念抽出用データベース２４にキーワードとして登録された各形態素について、対象概念抽出用データベース２４を参照して、その形態素（キーワード）の上位概念である対象概念をそれぞれ検出する（ＳＰ１３）。

　続いて、要約作成部３１は、ステップＳＰ１３で検出した各対象概念について、その下位概念の中から、所定の抽象度を有する概念を抽出する抽象度フィルタンリング処理を実行する（ＳＰ１４）。これは、あまりにも上位の概念を用いて要約を作成しても、結果的にユーザがその要約に基づいて電子メールの内容を把握することができないため、ユーザが電子メールの内容を認識可能な抽象度を有する上位概念を用いて要約を作成するためである。

　本実施の形態の場合、要約作成部３１は、かかる抽象度フィルタリング処理として、図８に示すように、対象概念ごとに、対象概念抽出用データベース２４に登録されたキーワードのうち、図２について上述した電子化辞書を利用することにより構築される概念の上下関係を表すグラフにおいて、リーフレベルのキーワード（下位概念を持たないキーワードであり、図８の「leaf_1」～「leaf_3」が相当）への平均距離が予め設定された閾値未満であり、かつ、かかる平均距離が最も大きい上位概念を要約に利用する上位概念として検出する。

　ここで、図８において「C:」というノードから「leaf_1」～「leaf_3」という３つのリーフノードへの平均距離は、「C:」というノードから「leaf_1」～「leaf_3」という３つのリーフノードへの総合距離を計算し、この合計距離をリーフノードの数で除算することにより算出することができる。

　具体的に、図８の例の場合、「leaf_1」というノードから「C:」というノードへの距離と、「leaf_2」というノードから「C:」というノードへの距離はいずれも「２」であり、「leaf_3」というノードから「C:」というノードへの距離は「１」であるため、総合距離は、これら距離の合計値である「５」となる。従って、この「５」をリーフノード数である「３」で除算した「５／３（～1.67）」が「C:」というノードから「leaf_1」～「leaf_3」という３つのリーフノードへの平均距離となる。

　そこで要約作成部３１は、ステップＳＰ１４において、ステップＳＰ１３で検出した対象概念ごとに、対象概念抽出用データベース２４に登録されたキーワードのうち、ステップＳＰ１２で検出した形態素（キーワード）よりも上位のすべての概念（上位概念）についてこのような演算をそれぞれ実行することにより、これら上位概念からリーフノードまでの平均距離をそれぞれ算出し、算出した平均距離が予め設定された閾値よりも小さくかつ、当該平均距離が最も閾値に近い上位概念を１つ抽出する。

　次いで、要約作成部３１は、このようにして抽出した対象概念ごとの上位概念を並べることによりその電子メールの要約を作成し（ＳＰ１５）、さらにその電子メールに関する必要な情報を図５について上述した抽出電子メール管理テーブル２２に格納した後（ＳＰ１６）、ステップＳＰ１０に戻る。

　他方、図９は、適用フェーズの一連の処理のうち、ユーザから所定期間内における該当する電子メールの全体像を表示すべき旨の指示（以下、これを全体像表示指示と呼ぶ）が与えられた場合に情報処理装置１において実行される処理の流れを示す。この処理（以下、これを表示処理と呼ぶ）は、表示部３２（図１）により実行される。

　実際上、表示部３２は、入力装置１４が操作されてかかる全体像表示指示が与えられるとこの図９に示す表示処理を開始し、まず、抽出電子メール管理テーブル２２に登録された電子メールのうち所定期間内に送信元から送信されたすべての電子メールをその要約の内容に応じて分類する（ＳＰ２０）。

　この際の分類方法としては、例えば、要約の内容が完全一致する電子メール同士を同一グループとして分類する方法や、要約の内容が完全一致していない場合でも、要約を構成する各概念の上位概念が完全一致又は部分的に一致する場合には同一グループに分類する方法などを適用することができる。

　続いて、表示部３２は、ステップＳＰ２２の分類結果を、例えば図３（Ｂ）について上述した所定形式で表示装置１５（図１）に表示し（ＳＰ２１）、この後、この表示処理を終了する。

（１－３）本実施の形態の効果
　以上のように本実施の形態の情報処理装置１では、選定された対象概念と、当該対象概念の下位概念を表すキーワードとを対応付けた対象概念抽出用データベース２４を作成し、この対象概念抽出用データベース２４に登録されたキーワードをテキスト内に含む電子メールを抽出すると共に、その電子メールの内容を上位概念で表す要約を作成し、ユーザからの要求に応じて、その要約に基づいて該当する電子メールを分類し、分類結果を表示する。

　従って、本情報処理装置１によれば、電子メール監視機能に基づく監視処理中に、電子メール監視機能に基づいて予め設定されたキーワードを含む電子メールを検出していない状態のときにも、かかる分類結果に基づいて、対象概念抽出用データベース２４に登録されたキーワードを含む電子メールの全体像を認識することができるため、当該情報処理装置１が正常に機能していることをユーザが認識することができる。すなわち本情報処理装置１によれば、ユーザは個々の電子メールのテキストに目を通すことなく、所定期間内における電子メールの内容の全体像を認識することができる。かくして本情報処理装置１によれば、ユーザから見た利便性を向上させることができる。

（２）第２の実施の形態
　第１の実施の形態においては、ユーザが所望する特定のトピックに関する対象概念を登録することで、当該対象概念の下位概念のキーワードを含む電子メールを抽出し、これらの電子メールの全体像を表示するよう構成しているが、情報処理装置１がすべての電子メールについてその要約を作成し、作成した要約に基づいて電子メールを分類し、分類結果の全体像を表示するようにしても良い。

　この場合には、上述した準備フェーズは必要なく、電子メールのテキストを形態素分析し、その結果から特徴的な形態素を抽出し（特徴的形態素抽出処理）、抽出した形態素の上位概念を検出し（上概念検出処理）、検出した上位概念の中から、かかる適度なレベルの上位概念を抽出し（抽象フィルタリング及び上位概念ランキング処理）、その結果に基づいて上述の実施の形態と同様にして電子メールを分類して分類結果の全体像を表示するようにすれば良い。

　具体的には、特徴的形態素抽出処理では、
（Ａ）参照コーパス（reference corpus）を用意する。ここで、当該参照コーパスは、自然言語の文章を構造化し、大規模に集積したものであり、当該参照コーパスから形態素の出現頻度を容易に取り出すことができる。

（Ｂ）ある形態素が、分析対象となる未知データに出現する頻度をＯ_１１、参照コーパスに出現する頻度をＯ_１２とし、当該形態素とは異なる他のすべての形態素が未知データに出現する頻度をＯ_２１、当該他のすべての形態素が参照コーパスに出現する頻度をＯ_２２とする。

（Ｃ）Ｒ_１及びＲ_２をそれぞれ次式

とし、Ｃ_１、Ｃ_２、Ｎをそれぞれ次式

として、期待出現頻度（expected frequencies）Ｅ_１１～Ｅ_２２をそれぞれ次式により算出する。

（Ｄ）対数尤度比（log-likelihood-ratio）を次式により算出する。

　この対数尤度比は、その値が高いほど、当該形態素が未知データを特徴付けるものである確率が高いことを示す。よって、例えば対数尤度比が予め設定した形態素を特徴的な形態素として抽出する。

　また上位概念検出処理では、上述の特徴的形態素抽出処理で抽出した形態素の上位概念を図１について上述した電子辞書２３で検索することにより検出する。

　さらに抽象度フィルタリング及び上位概念ランキング処理では、まず、上位概念検出処理で検出した上位概念の中から図７のステップＳＰ１４について上述した抽象度フィルタリング処理により程度な抽象度を有する上位概念を抽出する。この抽出処理により抽出された上位概念が複数あった場合、次式

により概念の出現頻度（Concept Frequency；ＣＦ）が求められるため、当該概念の出現頻度をランキングすることにより、当該出現頻度が高い所定個数又は出現頻度が予め設定された閾値以上の上位概念を抽出し、これらの上位概念を並べたものをその電子メールの要約とする。なお、上述のように上位概念をランキングする方法としては、単に出現頻度をその大きさの順番で決定する方法以外にも、例えば、ＣＦ／ＤＦ（文書頻度；Document Frequency）又はＣＦ／ＴＦ－ｉＤＦ（単語の出現頻度と文書頻度とから計算される指標）により計算した値を利用してランキングする方法や、これ以外の方法を利用することもできる。この後は、この要約を用いて所定期間内のすべての電子メールを分類し、分類結果を表示する。

　以上の本実施の形態による情報処理装置によれば、すべての電子メールをその内容に応じて分類することができるため、ユーザが所定期間内におけるすべての電子メールの内容の全体像を認識することができ、かくしてユーザから見た利便性をより一層と向上させることができる。

（３）他の実施の形態
　なお上述の第１及び第２の実施の形態においては、情報処理装置１が電子化辞書を保持している場合について述べたが、本発明はこれに限らず、情報処理装置１は電子化辞書を保持しておらず、情報処理装置１が電子化辞書を保持する外部装置に対して電子化辞書上での各種検索を依頼し、その結果を受け取るようにシステム（装置）を構築するようにしても良い。

　また上述の第１及び第２の実施の形態においては、図７について上述した要約作成処理のステップＳＰ１４において、リーフレベルへの平均距離が予め設定された閾値未満の距離を有する概念を電子メールのテキストから抽出したキーワードの上位概念として、当該上位概念を用いてその電子メールの要約を作成するようにした場合について述べたが、本発明はこれに限らず、例えば、電子メールのテキストから抽出した対象概念抽出用データベース２４に登録されたキーワードの上位概念を求め、当該上位概念を利用してその電子メールの要約を作成するようにしても良い。

　さらに上述の第１及び第２の実施の形態においては、該当する電子メールの全体像を例えば図３（Ｂ）のような形式で表示するようにした場合について述べたが、本発明はこれに限らず、例えば要約・分類された各結果が全体に占める割合を明示した円グラフ・棒グラフ・折れ線グラフ等のチャートをかかる全体像として表示する（例えば、トピックＡは全体の２０％を占め、トピックＢは全体の１０％を占め、トピックＣは全体の５％を占め、その他のトピックは全体の６５％を占めるなど）など、この他種々の表示形式を広く適用することができる。

　さらに上述の第１及び第２の実施の形態においては、電子メール監視機能及びトピック検出機能を同じ１つの情報処理装置１に搭載（つまり電子メール監視プログラム２０及びトピック検出プログラム２１を１つの情報処理装置１に実装）するようにした場合について述べたが、本発明はこれに限らず、これら２つの機能を別個の情報処理装置に搭載（例えば、電子メール監視プログラム２０及びトピック検出プログラム２１を別個の情報処理装置に実装）するようにしても良い。また電子メール監視機能やトピック検出機能を複数台の情報処理装置で実行する分散システムとしてシステムを構築するようにしても良い。

　さらに上述の第１及び第２の実施の形態においては、電子メールの要約を作成し、当該要約に基づいて電子メールを分類し、分類結果の全体像をユーザに提供するようにした場合について述べたが、本発明はこれに限らず、例えば、情報処理装置１が、ある概念（第１の概念）と当該概念とは異なる他の概念（第２の概念）との相関（共起）を考慮して、データを分析できるようにしても良い。例えば、「システム」という第１の概念（評価対象）と「腹を立てること」という第２の概念（価値判断）とが同じデータに同時に出現することが多い場合、当該「システム」という評価対象は評価が低いという価値判断を、情報処理装置１がユーザに提示できるようにしても良い。

　さらに上述の第１の実施の形態においては、準備フェーズにおいてキーワードと対象概念とを対応付けただけの対象概念抽出用データベース２４を作成するようにした場合について述べたが、本発明はこれに限らず、例えば、情報処理装置１が、準備フェーズにおいてキーワードと対象概念とを対応付けるだけでなく、当該キーワードに対するスコア（当該キーワードがポジティブな感情を示すものか、ネガティブな感情を示すものかを、例えば、０～１の値で定量化した指標）を概念感情スコアとして対応付け、適用フェーズにおいてデータから抽出された概念に対応する概念感情スコアに基づいて（例えば、当該概念感情スコアを合算・積算することによって）、当該概念（評価対象）に対する感情（価値判断）をユーザに提示できるようにしても良い。

　さらに上述の第１の実施の形態においては、予め選定された対象概念の下位概念に属するキーワードを含む電子メールを抽出し、当該キーワードの上位概念を用いてその電子メールの要約を作成するようにした場合について述べたが、本発明はこれに限らず、例えば、情報処理装置１が、センテンスに含まれる動詞句を上位概念として抽出し、抽出した動詞句を利用して当該センテンスを含むデータの要約を作成するようにしても良い。例えば、情報処理装置１が、「私は料理を楽しみました」というセンテンスから「楽しみました」という動詞句を抽出し、当該動詞句を要約としてユーザに提示するようにしても良い。

　さらに上述の第１及び第２の実施の形態においては、本発明を電子メールの監視を行う情報処理装置１に適用するようにした場合について述べたが、本発明はこれに限らず、以下の実施の目的、或いは、実施の形態にも適用することができる。

　例えば、本発明は、インターネット応用システムに適用することもできる。例えば、ユーザがＳＮＳに投稿したメッセージ、ウェブサイトに掲載されたお勧め情報やレビュー、ユーザ又は団体のプロフィールなどのデータを本発明の情報処理装置により要約してユーザに提供することができる。すなわち、上記情報処理装置は、評価対象（例えば、ユーザがウェブサイトに投稿した商品レビューの場合、当該商品）と、価値判断（当該商品に対してどのような評価をしたのかについての要約）とを示すことができるため、インターネットに関するユーザの利便性を向上させることができる。

　また本発明は、医療応用システム（例えば、電子カルテ、看護記録、患者の日記などをデータとして、患者の予後を予測したり、薬効を検証したりするシステム）に適用することもできる。この場合、例えば、電子カルテ、看護記録、患者の日記などを本発明の情報処理装置により要約したものを提示することによって、例えば、患者が危険な状態（例えば、転倒するなど）に陥ることの予測を容易化させることができる。

　さらに本発明は、ディスカバリ支援システムに適用することもできる。例えば、ドキュメント、電子メール、表計算データなどのデータを本発明の情報処理装置により要約することによって、例えば、本件訴訟に関連する文書のみをユーザが効率的に抽出して法廷に提出することができる。

　さらに本発明は、フォレンジックシステムに適用することもできる。この場合、例えば、ドキュメント、電子メール、表計算データなどのデータを本発明の情報処理装置により要約することによって、例えば、当該犯罪行為を立証する証拠の抽出を容易化させることができ、そのような作業効率を向上させることができる。

　さらに本発明は、例えばプレディクティブコーディング機能（少数の訓練データに基づいて、多数の未知データに対してスコア（当該未知データと所定の事案との関連性の高低を示す指標）を算出することによって、当該多数の未知データを序列化する機能）が搭載されたデータ分析システムに適用することもできる。なお、プレディクティブコーディング機能が搭載されたデータ分析システムは、そのデータ分析を実行するデータ分析プログラムの一部又は全部を実行するクライアント装置（例えば、パーソナルコンピュータ、スマートフォンなどのユーザ端末）と、上記データ分析プログラムの一部又は全部を実行し、実行した結果を上記クライアント装置に返送するサーバ装置とを有し、データ分析プログラムに含まれる処理をクライアント装置及びサーバ装置において任意に分担するように構成される。

　なお本発明をプレディクティブコーディング機能が搭載されたデータ分析システムに適用する場合、データの要約によって示された価値判断に基づいて、上記プレディクティブコーディング機能によって当該データに対して算出されたスコアを調整するようにしても良い。例えば、上記プレディクティブコーディング機能によって、ユーザの嗜好に合っていると考えられるデータほど高いスコアが付けられた場合であって、当該データから「関心がない」ことを示す価値判断が要約として示された場合（すなわち、スコアと要約とが矛盾する場合）、本発明の情報処理装置が、例えば、上記算出されたスコアを減少させるなど、当該スコアを調整できるようにしても良い。

　さらに本発明は、特許調査システムに適用することもできる。例えば、特許文献、発明を要約した文書などのデータを本情報処理装置により要約することによって、大量の特許文献の中から無効資料を抽出する作業をユーザが効率良く行うことができる。

　このように本発明の情報処理装置は、電子メールを監視する情報処理装置１だけでなく、フォレンジックシステム、ディスカバリ支援システム、医療応用システム、インターネット応用システム、特許調査システムなどの種々のシステムに広く適用することができる。さらに、本発明の情報処理装置は、ポータルサイト運営システム、プロジェクト評価システム、取引管理システム、コールセンターエスカレーションシステム、マーケティングシステムなど、任意のシステムに広く適用することができる。すなわち、本発明は、データから上位概念を抽出し、当該上位概念で表現した要約を作成し、当該要約をユーザに提示することによって、データの全体像を当該ユーザに提示するシステムに広く適用され得る。

　本発明は、環境の変化又は特定の状態を検出する情報処理装置や、インターネット上でウェブページを提供するサーバ装置など、種々の情報処理装置に広く適用することができる。

　１……情報処理装置、１０……ＣＰＵ、１５……表示装置、２１……トピック検出プログラム、２２……抽出電子メール管理テーブル、２３……電子化辞書、２４……対象概念抽出用データベース、３０……データベース作成部、３１……要約作成部、３２……表示部。

Claims

　選定された対象概念と、当該対象概念の下位概念となるデータ要素とを対応付けたデータベースを作成するデータベース作成部と、
　対象とするデータの中から前記データベースに登録された前記データ要素を含むデータを抽出し、抽出した前記データの内容を当該データ要素の上位概念で表現した要約を作成する要約作成部と、
　前記要約に基づいて、前記データベースに登録された前記データ要素を含む前記データを分類し、分類結果を表示する表示部と
　を備えることを特徴とする情報処理装置。
　前記データ要素及び概念を階層的に分類し、前記データ要素及び前記概念を収録した辞書が予め与えられ、
　前記データベース作成部は、
　当該辞書から選定された対象概念のすべての下位概念を前記辞書上で検索し、
　当該検索により検出したすべての前記下位概念に対応するすべての前記データ要素を抽出し、
　抽出したすべての前記データ要素をそれぞれ対応する前記対象概念と対応付けるようにして前記データベースを作成する
　ことを特徴とする請求項１に記載の情報処理装置。
　前記要約作成部は、
　前記データに含まれる前記データベースに登録された前記データ要素の上位概念である前記対象概念を検出し、
　検出した前記対象概念の下位の概念のうち、前記データから抽出した前記データ要素の上位概念であって、所定の抽象度を有する概念を検出し、検出した概念を利用して前記要約を作成する
　ことを特徴とする請求項１に記載の情報処理装置。
　所定の前記抽象度を有する前記概念は、
　概念の上下関係を表すグラフにおいて、リーフレベルへの平均距離が予め設定された閾値未満の距離を有する概念である
　ことを特徴とする請求項２又は３に記載の情報処理装置。
　情報処理装置が、選定された対象概念と、当該対象概念の下位概念となるデータ要素とを対応付けたデータベースを作成する第１のステップと、
　前記情報処理装置が、データの中から前記データベースに登録された前記データ要素を含むデータを抽出し、抽出した前記データの内容を当該データ要素の上位概念で表現した要約を作成する第２のステップと、
　前記情報処理装置が、前記要約に基づいて、前記データベースに登録された前記データ要素を含む前記データを分類し、分類結果を表示する第３のステップと
　を含むことを特徴とする情報処理方法。
　選定された対象概念と、当該対象概念の下位概念となるデータ要素とを対応付けたデータベースを作成する第１のステップと、
　データの中から前記データベースに登録された前記データ要素を含むデータを抽出し、抽出した前記データの内容を当該データ要素の上位概念で表現した要約を作成する第２のステップと、
　前記要約に基づいて、前記データベースに登録された前記データ要素を含む前記データを分類し、分類結果を表示する第３のステップと
　を含む処理を情報処理装置に実行させることを特徴とするプログラム。