JP2010224623A

JP2010224623A - 関連記事推奨方法および関連記事推奨プログラム

Info

Publication number: JP2010224623A
Application number: JP2009068146A
Authority: JP
Inventors: Tomoyasu Okada; 智靖岡田
Original assignee: Nomura Research Institute Ltd
Current assignee: Nomura Research Institute Ltd
Priority date: 2009-03-19
Filing date: 2009-03-19
Publication date: 2010-10-07

Abstract

【課題】ユーザが関心のある記事に関連する記事として、内容が実質的に重複せず、かつユーザ毎の嗜好・関心に合った関連記事を精度良く推奨する関連記事推奨方法を提供する。
【解決手段】元記事４０１における特徴語の重み付け値を算出して特徴語データとする第１ステップと、各購読記事２０４における特徴語の重み付け値を算出して特徴語データとする第２ステップと、元記事４０１の特徴語データと各購読記事２０４の特徴語データとの類似度を算出する第３ステップと、前記類似度に基づいて購読記事２０４から関連記事４０２を分類する第４ステップと、各既読記事２０７における特徴語の重み付け値の平均値を算出してユーザ嗜好を表す特徴語データとする第５ステップと、ユーザ嗜好を表す特徴語データと各関連記事４０２の特徴語データとの類似度を算出する第６ステップと、前記類似度が上位の関連記事４０２を優先的にユーザに提示する第７ステップとを実行する。
【選択図】図１

Description

本発明は、テキスト情報のフィルタリング技術に関し、特に、特定の記事の内容に関連する内容を有する他の記事を自動で推奨する関連記事推奨方法および関連記事推奨プログラムに適用して有効な技術に関するものである。

近年、インターネット等の普及により、コンピュータを利用して非常に多くの種類の情報を入手することが可能である。例えば、各種ニュースサイトや検索エンジンを用いて多くの情報を収集することができる。また、電子メール等によっても多くの情報を得ることができる。また、インターネット上に限らず、例えば、社内のサーバに電子化されて保管されている各種の社内資料などからも多くの情報を入手することができる。これらの多くの電子情報を有効に利用するためには、ユーザが自分の関心と合致する内容の情報を精度良く見つけられるだけでなく、参照している情報に対して自分では気づかない関連する他の情報を発見できるようにしてユーザの関心の広がりをサポートするような情報のフィルタリングの仕組みが必要である。

このような要望に対して、例えば、ユーザが関心のあるニュース記事等の情報に対して、自然言語処理などを利用した記事内容の類似度の判定により、類似する記事を関連記事として提示する技術がいくつか提案されている。このような技術では、ユーザが関連記事を参照する際の効率を維持するため、ユーザが参照している元の記事の内容と実質的に内容が同一で重複する記事については関連記事から除外して提示しないようにする必要がある。このため、実質的に内容が重複する記事を特定し、これを除外したり一まとめにしてタイトルのみ一覧表示したりするなどしてユーザが認識できるようにしている。

このような関連記事を提示する技術として、例えば、特開平９−１０１９９０号公報（特許文献１）には、記事表現を自然言語処理により記事間で比較することによって記事同士の類似度を算出し、その類似度に従ってユーザに提示される記事とそれに関連する関連記事を決定し、その際、互いに類似度が高く、かつ情報源が異なる記事の集合を、重複記事の集合として分類する技術が開示されている。

また、例えば、特開２００５−３５２８５７号公報（特許文献２）には、特許文献１などの分類手法では出現する単語の分布などが似ていなくても実質的な内容が同一であるような記事の集合を特定できない場合もあることを考慮し、ユーザが動向を把握したいトピック等を表すキーワードを含む複数の記事について、発信日時の差があらかじめ登録された閾値より小さく、かつ発信者が互いに異なるものを実質的に同じ内容の記事として特定する技術が開示されている。

特開平９−１０１９９０号公報特開２００５−３５２８５７号公報

ユーザが関心のあるニュース記事等の情報を参照して利用する場合、上述のように、ユーザはそれぞれ自分の関心、興味や嗜好に合った意外な関連記事を発見したいと要望する。しかし、特許文献１、２に記載されている技術では、関連記事を提示する際に重複記事を特定することは可能であるが、任意の記事に対して提示される関連記事はどのユーザの場合でも同じものとなり、ユーザ毎の嗜好・関心に合った関連記事を推奨するということはできない。

そこで本発明の目的は、ユーザが関心のある記事に関連する記事として、内容が実質的に重複せず、かつユーザ毎の嗜好・関心に合った関連記事を精度良く推奨する関連記事推奨方法および関連記事推奨プログラムを提供することにある。本発明の前記ならびにその他の目的と新規な特徴は、本明細書の記述および添付図面から明らかになるであろう。

本願において開示される発明のうち、代表的なものの概要を簡単に説明すれば、以下のとおりである。

本発明の代表的な実施の形態による関連記事推奨方法は、コンピュータシステムによって、ユーザが参照しているテキストデータからなる元記事に対して、内容が関連する関連記事を提示して前記ユーザに推奨するものであって、前記コンピュータシステムは、前記ユーザ毎に、前記ユーザの参照対象である複数の購読記事と、前記各購読記事についての参照履歴とを保持し、前記元記事から所定の抽出条件に基づいて１つ以上の単語を特徴語として抽出し、抽出した前記各特徴語について、所定の算出条件に基づいて前記元記事における前記特徴語の重要度を示す重み付け値を算出して前記元記事の特徴語データとする第１ステップと、前記各購読記事から前記所定の抽出条件に基づいて１つ以上の単語を特徴語として抽出し、抽出した前記各特徴語について、前記所定の算出条件に基づいて前記各購読記事における前記特徴語の前記重み付け値を算出して前記各購読記事の特徴語データとする第２ステップと、所定の比較条件に基づいて、前記第１ステップで算出した前記元記事の特徴語データと、前記第２ステップで算出した前記各購読記事の特徴語データとの類似度を算出する第３ステップと、前記第３ステップで算出した前記類似度が所定の閾値より高くかつ前記元記事との発行日時の差が所定の時間間隔以上である前記購読記事を前記関連記事として分類し、前記第２ステップで算出した対象の前記各購読記事の特徴語データを、前記各関連記事の特徴語データとする第４ステップと、前記各購読記事と前記参照履歴とに基づいて前記ユーザの既読記事を取得し、全ての前記既読記事から前記所定の抽出条件に基づいて１つ以上の単語を特徴語として抽出し、抽出した前記各特徴語について、前記所定の算出条件に基づいて前記各既読記事における前記特徴語の前記重み付け値を算出し、前記既読記事全てにおけるその平均値を算出して前記ユーザの嗜好を表す特徴語データとする第５ステップと、前記所定の比較条件に基づいて、前記第５ステップで算出した前記ユーザの嗜好を表す特徴語データと、前記第４ステップで分類した前記各関連記事の特徴語データとの類似度を算出する第６ステップと、前記第６ステップで算出した前記類似度が上位の前記関連記事を優先的に前記ユーザに提示する第７ステップとを実行することを特徴とするものである。

本願において開示される発明のうち、代表的なものによって得られる効果を簡単に説明すれば以下のとおりである。

本発明の代表的な実施の形態によれば、ユーザ毎に過去に参照した記事の履歴を利用することにより、ユーザが関心のある記事に関連する記事として、内容が実質的に重複せず、かつユーザ毎の嗜好・関心に合った関連記事を精度良く推奨することが可能となる。

本発明の一実施の形態におけるユーザが元記事を参照する際の関連記事抽出部の処理フロー例の概要を説明する図である。本発明の一実施の形態である関連記事推奨方法を適用した情報収集管理システムの構成例の概要を示した図である。本発明の一実施の形態におけるデータベースのテーブル構成例の概要を示した図である。本発明の一実施の形態における記事のテキストデータから特徴語を抽出して特徴語データを算出する処理の例を説明する図である。本発明の一実施の形態における元記事の特徴語データと各購読記事の特徴語データとの類似度を算出する処理の例を説明する図である。本発明の一実施の形態における購読記事から関連記事と重複記事とを分類する処理の例を説明する図である。本発明の一実施の形態における既読記事からユーザ嗜好を表す特徴語データを算出する処理の例を説明する図である。本発明の一実施の形態におけるユーザ嗜好を表す特徴語データと各関連記事の特徴語データとの類似度を算出する処理の例を説明する図である。

以下、本発明の実施の形態を図面に基づいて詳細に説明する。なお、実施の形態を説明するための全図において、同一部には原則として同一の符号を付し、その繰り返しの説明は省略する。

本発明の一実施の形態である関連記事推奨方法を適用した情報収集管理システムは、各種Ｗｅｂサイトや電子メール、電子文書などのテキスト情報（以下ではこれらを総称して「記事」という場合がある）を一ヶ所に収集して各ユーザから参照可能とし、各ユーザが情報を利用・参照した行動履歴を蓄積して、蓄積された行動履歴を再利用することによって各ユーザにとって価値ある情報を推奨することを可能とし、蓄積した情報を生産的に活用することができる仕組みを提供するシステムである。

本実施の形態では、各ユーザの購読の指定に基づいて収集した購読記事から、ユーザが関心のあるニュース等の記事を参照する際に、ユーザの関心・嗜好に合った関連記事を抽出して提示・推奨することにより、ユーザの嗜好に合った意外な関連記事を発見する可能性を向上させ、ユーザの関心・興味の広がりを支援することを可能としている。また、関連記事を提示する際に、実質的に内容が重複する重複記事を関連記事から除外することにより、ユーザが情報利用の活動を効率的に行うことを可能としている。

［システム構成］
図２は、本発明の一実施の形態である関連記事推奨方法を適用した情報収集管理システムの構成例の概要を示した図である。情報収集管理システムは、情報収集管理サーバ１００およびデータベース２００から構成される。データベース２００は、情報収集管理サーバ１００上に実装されてもよいし、別のデータベースサーバ等の機器上に実装されてもよい。

情報収集管理サーバ１００は、新着記事収集部１１０により、例えば、Ｗｅｂサーバ３１０上のＷｅｂサイトや、社内の文書サーバ３２０などから新着記事としてテキストデータを収集する。新着記事の収集方法としては、例えば、ＲＳＳ（RDF Site Summary）のフィードを利用することができる。新着記事収集部１１０がＲＳＳリーダーとして動作することにより、Ｗｅｂサイト上のニュース等の記事に限らず、文書サーバ３２０上に格納される社内資料等の電子データや電子メール等もＲＳＳ化することで収集対象とすることができる。

上記のＲＳＳフィードの情報は、本実施の形態の情報収集管理システムを利用する各ユーザ毎に、各ユーザが購読したいＷｅｂサイト等についての情報である購読指定２０６としてデータベース２００のユーザ購読情報２０３の一部として保持される。購読指定２０６の内容に基づいて新着記事収集部１１０により収集された新着記事は、データベース２００の記事群２０１に記事２０２として格納される。

ユーザ購読情報２０３には、記事２０２のうち、対象のユーザの購読指定２０６に基づいて収集された記事２０２を特定する情報が購読記事２０４として保持される。すなわち、記事群２０１には全てのユーザの購読指定２０６に基づいて収集された全ての記事２０２が格納されており、ユーザ購読情報２０３には各ユーザの参照対象である購読記事２０４がそれぞれ格納されているということと等価である。なお、記事２０２および購読記事２０４には、ＲＳＳフィード等の購読指定２０６によって収集されたものだけではなく、ユーザがテキストデータを直接クリップするなどして後の参照用に登録したものなども含まれる。

データベース２００のユーザ購読情報２０３には、さらに、対象のユーザが購読記事２０４を実際に参照した履歴が参照履歴２０５として保持される。購読記事２０４と参照履歴２０５とに基づいて、対象のユーザが過去に参照した既読記事を特定することができる。

クライアント端末４００を介してユーザから自らの関心のある記事（元記事４０１）を参照したい旨の要求を受けた情報収集管理サーバ１００は、購読記事２０４の中から元記事４０１を取得して図示しないＷｅｂサーバプログラム等を介してクライアント端末４００に提示する。さらに情報収集管理サーバ１００は、関連記事抽出部１２０によって、各購読記事２０４の内容（特徴語）と元記事４０１の内容（特徴語）との類似度を判断することにより、元記事４０１と関連する内容を有する関連記事４０２を抽出し、同様にクライアント端末４００に提示する。

このとき、対象のユーザの既読記事全体の内容（特徴語）と各関連記事４０２の内容（特徴語）との類似度を判断することにより、関連記事４０２の中でもよりユーザの関心・嗜好に合った関連記事４０２を推奨するように提示する。また、実質的に内容が重複する重複記事は除外し、関連記事４０２として提示されないようにする。

なお、新着記事収集部１１０および関連記事抽出部１２０は、情報収集管理サーバ１００上で稼働するソフトウェアプログラムとして実装され、例えば、図示しないＷｅｂサーバ上で稼働するアプリケーションとして実装することができる。また、関連記事抽出部１２０は、詳細は後述するが、例えば、特徴語データ算出部１２１、関連記事分類部１２２、類似度算出部１２３からなり、関連記事抽出部１２０における上述したような機能を実現する。

［テーブル構成］
図３は、データベース２００のテーブル構成例の概要を示した図である。データベース２００に格納されるテーブルは、例えば、ユーザ情報２１０、購読情報２２０、フィード一覧２３０、リアクション情報２４０、記事データ２５０からなる。図中のテーブル間の矢印は、例えば、Ａ→Ｂである場合に、Ａ：Ｂ＝１：ｎの関係（A has many Bs）にあることを示している。

ユーザ情報２１０は、各ユーザに関する情報を保持するテーブルであり、例えば、ユーザＩＤ、パスワード、ユーザ名などの項目を有する。ユーザ情報２１０は、ユーザが情報収集管理システムへログインする際の認証時などに利用される。フィード一覧２３０は、各種情報（記事）を自動収集するためのＲＳＳフィードの基本的な情報を保持するテーブルであり、例えば、フィードＩＤ、サイト名、ＵＲＬ（Uniform Resource Locator）などの項目を有する。上述したように、Ｗｅｂサーバ３１０上のニュースサイト等から提供されるＲＳＳフィードだけでなく、文書サーバ３２０等に格納されている各種電子文書や電子メールなどもＲＳＳ化することで、これらの情報を新着記事収集部１１０により自動的に巡回して収集することができる。

購読情報２２０は、各ユーザがどのＲＳＳフィードを購読しているかの情報を保持するテーブルであり、例えば、ユーザＩＤ、フィードＩＤ、購読開始日時、未読数などの項目を有する。購読情報２２０は、図２における購読指定２０６に相当する。各ユーザは複数のＲＳＳフィードを購読することができ、また、各ＲＳＳフィードは、複数のユーザから購読されることができる。

記事データ２５０は、各ＲＳＳフィードに含まれる記事やユーザがＷｅｂサイトからクリップした記事、電子文書など、収集した記事の内容を保持するテーブルであり、例えば、記事ＩＤ、フィードＩＤ、発行日時、記事内容などの項目を有する。記事データ２５０は図２における記事２０２に相当し、購読情報２２０のフィードＩＤの値で特定される記事データ２５０のエントリは図２における購読記事２０４に相当する。なお、発行日時の項目は、記事ＩＤの項目で特定される記事２０２が発行もしくは発信された日時を表し、記事内容の項目は、記事ＩＤの項目で特定される記事２０２の具体的なテキストデータである。

リアクション情報２４０は、各ユーザが各購読記事２０４に対してどのようなリアクションを行ったかの情報（行動履歴）を保持するテーブルであり、例えば、ユーザＩＤ、記事ＩＤ、参照日時、タグ、メモ、ハイライト範囲などの項目を有する。記事ＩＤおよび参照日時の項目は、図２における参照履歴２０５に相当する。なお、購読記事２０４に対するリアクションとしては、購読記事２０４の参照の他に、例えば、購読記事２０４に、その内容を表す分類用のタグを付与したり、テキストのメモを付加したり、任意の範囲をハイライトしたりすることなどが可能であり、これらの内容をそれぞれタグやメモ、ハイライト範囲の項目に保持することができる。なお、上述した各テーブルの項目は一例であり、これら以外の項目を有していてもよい。

［処理フロー］
図１は、ユーザが元記事４０１を参照する際の関連記事抽出部１２０の処理フロー例の概要を説明する図である。情報収集管理サーバ１００が、図示しないＷｅｂサーバプログラム等を介して、クライアント端末４００からユーザによる元記事４０１の参照要求を受け取ると、関連記事抽出部１２０は関連記事４０２を抽出する処理を開始する。

まず、特徴語データ算出部１２１により、元記事４０１のテキストデータから自然言語処理により１つ以上の単語を特徴語として抽出する。さらに抽出した各特徴語について後述するＴＦ−ＩＤＦ値（Term Frequency-Inverse Document Frequency）を算出して、元記事４０１の特徴語データとする（ステップＳ１０１）。同様に、特徴語データ算出部１２１により、全ての購読記事２０４のテキストデータから自然言語処理により１つ以上の単語を特徴語として抽出する。さらに抽出した各特徴語についてＴＦ−ＩＤＦ値を算出して、各購読記事２０４の特徴語データとする（ステップＳ１０２）。

次に、類似度算出部１２３により、ステップＳ１０１で算出した元記事４０１の特徴語データと、ステップＳ１０２で算出した各購読記事２０４の特徴語データとをそれぞれ後述するようにベクトル空間化する。さらに、元記事４０１の特徴語データについてのベクトルと、各購読記事２０４の特徴語データについてのベクトルとの内積を求め、内積の値に基づいて元記事４０１の特徴語データと各購読記事２０４の特徴語データとの類似度を算出する（ステップＳ１０３）。

次に、関連記事分類部１２２により、ステップＳ１０３で算出した類似度が所定の閾値より高く、かつ元記事４０１との発行日時の差が所定の時間間隔以上である購読記事２０４を、関連記事４０２として分類し、ステップＳ１０２で算出した対象の各購読記事２０４の特徴語データを、各関連記事４０２の特徴語データとする（ステップＳ１０４）。このとき、ステップＳ１０３で算出した類似度が所定の閾値より高く、かつ元記事４０１との発行日時の差が所定の時間間隔よりも小さい購読記事２０４は、実質的に内容が同じである重複記事４０３として分類する（ステップＳ１０４）。

次に、関連記事抽出部１２０により、ユーザの購読記事２０４と参照履歴２０５とに基づいてユーザの既読記事２０７を取得する。さらに、特徴語データ算出部１２１により、全ての既読記事２０７のテキストデータから自然言語処理により１つ以上の単語を特徴語として抽出する。さらに抽出した各特徴語についてＴＦ−ＩＤＦ値を算出し、各特徴語毎に既読記事２０７全てにおけるＴＦ−ＩＤＦ値の平均値を算出して、ユーザの嗜好を表す特徴語データとする（ステップＳ１０５）。

次に、類似度算出部１２３により、ステップＳ１０３と同様に、ステップＳ１０５で算出したユーザの嗜好を表す特徴語データと、ステップＳ１０４で分類した各関連記事４０２の特徴語データとをそれぞれベクトル空間化する。さらに、ユーザの嗜好を表す特徴語データについてのベクトルと、各関連記事４０２の特徴語データについてのベクトルとの内積を求め、内積の値に基づいてユーザの嗜好を表す特徴語データと各関連記事４０２の特徴語データとの類似度を算出する（ステップＳ１０６）。最後に、ステップＳ１０６で算出した類似度が上位の順に関連記事４０２を並び替えてユーザに提示して処理を終了する（ステップＳ１０７）。

［記事の特徴語データ算出］
図４は、特徴語データ算出部１２１における、記事のテキストデータから特徴語を抽出して特徴語データを算出する処理の例を説明する図である。ここでの処理は、上述した元記事４０１の特徴語データの算出処理（ステップＳ１０１）、各購読記事２０４の特徴語データの算出処理（ステップＳ１０２）、およびユーザ嗜好を表す特徴語データの算出処理（ステップＳ１０５）において行われる。

まず、対象の記事のテキストデータから、形態素解析により複合名詞を抽出する。形態素解析は自然言語処理において一般的に行われており、また、形態素解析エンジンやソフトウェアも種々のものが提供されているため、これらを利用してもよい。なお、ユーザ嗜好を表す特徴語の算出処理（ステップＳ１０５）では、後述するように、全ての既読記事２０７から複合名詞を抽出し、これをマージして特徴語とする。

次に、抽出した各複合名詞について、記事における単語の重要度についての重み付け値であるＴＦ−ＩＤＦ値を算出する。ＴＦ−ＩＤＦ値によって文章中の特徴的な単語（重要とみなされる単語）を抽出することは一般的に行われている。本実施の形態の関連記事推奨方法でもこの手法を用いて特徴語データを算出するが、特徴語データの算出手法はこれに限るものではなく、単語毎に数値（重み付け値）として評価が可能な手法であれば利用することができる。

ここで、ＴＦ（Term Frequency）は、記事中の単語（複合名詞）の出現頻度であり、この値が大きいほどこの単語はこの記事の特徴をよく表しているものと考えられる。ある記事Ｄにおけるある単語ｔのＴＦ値は、例えば、記事Ｄ中の単語ｔの出現頻度をｆとすると、記事Ｄにおける単語の種類数ｍおよび対数で正規化して以下の式で表される。

ＴＦの値が大きい単語であっても、多くの記事に頻繁に出現する単語は、特定の記事の特徴を表す単語ではない一般的な単語である場合が多い。ここで、ＩＤＦ（Inverse Document Frequency）は、対象の単語が出現する記事数の逆数であり、この値が大きいほどこの単語が出現する記事数が少なく、この単語は特定の記事の特徴をよく表しているものと考えられる。ある単語ｔのＩＤＦ値は、例えば、全記事の中で単語ｔが出現する文書数をＤｆとすると、全記事数Ｎで正規化して以下の式で表される。

上記のＴＦとＩＤＦの両者の値が大きい単語ｔが、文書Ｄの特徴を真によく表していると考えられるため、単語ｔのＴＦ−ＩＤＦ値は、ＴＦとＩＤＦの積を整数化した以下の式で表される。

このＴＦ−ＩＤＦ値を対象の記事について特徴語（複合名詞）毎に算出する。対象の記事が異なれば、記事に含まれる特徴語も異なり、また、同じ特徴語であってもその記事中での出現頻度が異なるため、ＴＦ−ＩＤＦ値はそれぞれ異なる値となる。なお、数２式において、全記事数Ｎは、対象の記事が多くなるほど精度が高くなると考えられるため、他のユーザの購読分も含めた記事２０２全体の総数とする。また、単語ｔが出現する文書数Ｄｆは、記事２０２全体を単語ｔをキーとして全文検索する等によって求めることができる。

なお、本実施の形態では、短い文章の記事であっても特徴語データに内容が反映され、類似度を適切に比較することができるように、特徴語に漏れが出ないよう、記事から抽出された複合名詞全てを特徴語の対象としているが、所定の条件に基づいてＴＦ−ＩＤＦ値が小さいものを特徴語から除外するようにしてもよい。また、ＴＦ値、ＩＤＦ値の算出式については種々のものが提案されており、上記の算出式に限らず精度や処理時間などに応じて適当なものを用いることができる。

［元記事と購読記事の類似度算出］
図５は、ステップＳ１０１で算出した元記事４０１の特徴語データと、ステップＳ１０２で算出した各購読記事２０４の特徴語データとの類似度を算出する処理（ステップＳ１０３）の例を説明する図である。類似度の算出に際しては、類似度算出部１２３により、上述した特徴語データ算出部１２１での処理によってステップＳ１０１、Ｓ１０２にて算出された元記事４０１の特徴語データ（ＴＦ−ＩＤＦ値）と各購読記事２０４の特徴語データ（ＴＦ−ＩＤＦ値）とを、それぞれベクトル空間化する。さらに、元記事４０１の特徴語データのベクトルと、各購読記事２０４の特徴語データのベクトルとの内積を用いることによって類似度を算出するベクトル空間法を利用する。

元記事４０１の特徴語データおよび各購読記事２０４の特徴語データに含まれる特徴語を全てマージした数がｎ個であった場合、元記事４０１の特徴語データｄ_ｏのベクトルＶ（ｄ_ｏ）および、各購読記事２０４の特徴語データｄ_１、ｄ_２、…のベクトルＶ（ｄ_１）、Ｖ（ｄ_２）、…は、それぞれ、ｎ個の特徴語のＴＦ−ＩＤＦ値を要素とするｎ次元のベクトルとして表される。このとき、対象の特徴語を含まない特徴語データについては、当該特徴語に対応するベクトルの要素の値は０である。

ここで、ベクトルの方向は対象の記事の特徴を表していると考えられる。従って、元記事４０１の特徴語データと各購読記事２０４の特徴語データとの類似度は、ベクトルＶ（ｄ_ｏ）とベクトルＶ（ｄ_１）、Ｖ（ｄ_２）、…とのなす角の小ささで表すことができる。すなわち、二つのベクトルのなす角をθとした場合に、ｃｏｓθが１に近いほど類似度が高いと言うことができる。ｃｏｓθは二つのベクトルの内積を各ベクトルの絶対値で除算することにより求められる。従って、特徴語データｄ_ａ、ｄ_ｂの類似度ｓｉｍ（ｄ_ａ，ｄ_ｂ）は、二つのベクトルＶ（ｄ_ａ）、Ｖ（ｄ_ｂ）により以下の式で表される。

数４式を用いて、元記事４０１の特徴語データと各購読記事２０４の特徴語データとの類似度をそれぞれ算出する。すなわち、ｓｉｍ（ｄ_ｏ，ｄ_１）、ｓｉｍ（ｄ_ｏ，ｄ_２）、…をそれぞれ算出する。全ての購読記事２０４について元記事４０１の特徴語データとの類似度を算出すると、算出された類似度が上位の順に購読記事２０４を並び替える。図５の例では、類似度が上位の順に「購読記事３」、「購読記事１」、「購読記事２」の順に並び替えられたことを示している。なお、本実施の形態では、元記事４０１と各購読記事２０４との類似度をベクトル空間法を用いて算出しているが、これに限らず他の算出方法によって類似度を算出してもよい。

［関連記事と重複記事の分類］
図６は、ステップＳ１０３で算出した元記事４０１の特徴語データと各購読記事２０４の特徴語データとの類似度に基づいて、購読記事２０４から関連記事４０２と重複記事４０３とを分類する処理（ステップＳ１０４）の例を説明する図である。

まず、関連記事分類部１２２により、ステップＳ１０３で類似度が上位の順に並び替えられた購読記事２０４のうち、類似度が所定の閾値よりも高いもののみを抽出する。次に、抽出した各購読記事２０４について、元記事４０１との発行日時の差が所定の時間間隔以上であるか否かを判定し、所定の時間間隔以上である購読記事２０４を関連記事４０２として分類し、所定の時間間隔より小さい購読記事２０４を重複記事４０３として分類する。特許文献２などにも記載されているように、内容が類似しており、かつ発行日時が近い記事は、実質的に同じ内容である可能性が高い。従って、これらの記事については重複記事４０３として分類し、関連記事４０２からは除外する。

なお、上記の所定の閾値や時間間隔は情報収集管理サーバ１００においてデータベース２００や定義ファイルなどの適当な手段により保持し、状況に応じて適宜設定を変更できるようにするのが望ましい。本実施の形態では、図６に示すように所定の閾値を０．２としている。上述したステップＳ１０３でのベクトル空間法を用いた類似度の算出方法による場合、所定の閾値を０．２とすることで実用上支障のない精度で関連記事４０２が抽出できることを実験的に確認している。

［ユーザ嗜好を表す特徴語データ算出］
図７は、既読記事２０７からユーザ嗜好を表す特徴語データを算出する処理（ステップＳ１０５）の例を説明する図である。まず、対象のユーザの購読記事２０４と参照履歴２０５とに基づいて対象のユーザの既読記事２０７を取得し、全ての既読記事２０４について、上述した特徴語データ算出部１２１での処理によって特徴語データをそれぞれ算出する。

次に、既読記事２０７全体における、各特徴語の特徴語データ（ＴＦ−ＩＤＦ値）の平均値を算出する。ここで、各特徴語は、全ての既読記事２０７から抽出された特徴語をマージしたものとなる。このとき、ある特徴語についてそれが含まれていない既読記事２０７については、当該既読記事２０７における当該特徴語のＴＦ−ＩＤＦ値は０である。なお、本実施の形態では、単純に全ての既読記事２０７での各特徴語のＴＦ−ＩＤＦ値の合計値を、既読記事２０７の数で除算してＴＦ−ＩＤＦ値の平均値を求めているが、平均値の算出方法はこれに限らず、例えば所定の条件により加重平均を算出するようにしてもよい。

ここで算出されたＴＦ−ＩＤＦ値の平均値は、既読記事２０７全体の内容の特徴を表すデータ、すなわち対象のユーザの嗜好を表すものであり、これをユーザ嗜好を表す特徴語データとする。このように、ユーザ毎の参照履歴２０５を保持し、これを利用することにより、ユーザの嗜好・関心を表す情報を取得することができる。

［ユーザ嗜好と関連記事の類似度算出］
図８は、ステップＳ１０５で算出したユーザ嗜好を表す特徴語データと、ステップＳ１０４で分類した各関連記事４０２の特徴語データとの類似度を算出する処理（ステップＳ１０６）の例を説明する図である。類似度の算出方法は、図５に示したステップＳ１０３での類似度の算出処理での算出方法と同様である。

すなわち、類似度算出部１２３により、ステップＳ１０５で算出したユーザ嗜好を表す特徴語データと、ステップＳ１０４で分類した各関連記事４０２の特徴語データ（ステップＳ１０２で算出した対象の各購読記事２０４の特徴語データ）とをそれぞれベクトル空間化する。さらに、ユーザ嗜好を表す特徴語データのベクトルと、各関連記事４０２の特徴語データのベクトルとの内積を用いることによって類似度を算出するベクトル空間法を利用する。

全ての関連記事４０２についてステップＳ１０３での算出方法と同様の手順でユーザ嗜好を表す特徴語データと関連記事４０２の特徴語データとの類似度を算出すると、算出された類似度が上位の順に関連記事４０２を並び替える。図８の例では、類似度が上位の順に「関連記事３」、「関連記事１」、「関連記事２」の順に並び替えられたことを示している。このように並び替えられた関連記事４０２をユーザに提示することで、ユーザに対してユーザの関心・嗜好に合った関連記事４０２を推奨することができる。

なお、本実施の形態では、関連記事４０２を類似度が上位の順に並び替えて表示することで、ユーザの嗜好に合った関連記事４０２を優先的に提示して推奨しているが、優先的に提示する手段はこれに限らず、例えば文字色やフォントを変更したりして強調表示するなど、種々の方法をとることができる。また、本実施の形態では重複記事４０３を関連記事４０２から除外しているが、関連記事４０２をユーザに提示する際に、例えば、重複記事４０３を一まとめにしてタイトルのみ一覧表示したりするなどしてユーザが認識できるようにしてもよい。

以上に説明したように、本実施の形態の関連記事推奨方法によれば、ユーザ毎に保持している過去に参照した購読記事２０４の参照履歴２０５を利用することにより、ユーザが関心があり参照している元記事に対してユーザ毎の嗜好・関心に合った関連記事４０２を推奨することが可能となる。これにより、ユーザの嗜好に合った意外な関連記事４０２を発見する可能性を向上させ、ユーザの関心・興味の広がりを支援することを可能としている。

また、関連記事４０２を提示する際に、実質的に内容が重複する重複記事４０３を関連記事４０２から除外することにより、ユーザが情報利用の活動を効率的に行うことを可能としている。さらに、継続した使用によってユーザ毎の既読記事２０７（参照履歴２０５）が多く蓄積されるほど、ユーザの嗜好に合った関連記事４０２の推奨の精度が向上し、より効果的にユーザが情報利用の活動を行うことが可能となる。

以上、本発明者によってなされた発明を実施の形態に基づき具体的に説明したが、本発明は前記実施の形態に限定されるものではなく、その要旨を逸脱しない範囲で種々変更可能であることはいうまでもない。

本発明は、特定の記事の内容に関連する内容を有する他の記事を自動で推奨する関連記事推奨方法および関連記事推奨プログラムに利用可能である。

１００…情報収集管理サーバ、１１０…新着記事収集部、１２０…関連記事抽出部、１２１…特徴語データ算出部、１２２…関連記事分類部、１２３…類似度算出部、
２００…データベース、２０１…記事群、２０２…記事、２０３…ユーザ購読情報、２０４…購読記事、２０５…参照履歴、２０６…購読指定、２０７…既読記事、２１０…ユーザ情報、２２０…購読情報、２３０…フィード一覧、２４０…リアクション情報、２５０…記事データ、
３１０…Ｗｅｂサーバ、３２０…文書サーバ、
４００…クライアント端末、４０１…元記事、４０２…関連記事、４０３…重複記事。

Claims

コンピュータシステムによって、ユーザが参照しているテキストデータからなる元記事に対して、内容が関連する関連記事を提示して前記ユーザに推奨する関連記事推奨方法であって、
前記コンピュータシステムは、前記ユーザ毎に、前記ユーザの参照対象である複数の購読記事と、前記各購読記事についての参照履歴とを保持し、
前記元記事から所定の抽出条件に基づいて１つ以上の単語を特徴語として抽出し、抽出した前記各特徴語について、所定の算出条件に基づいて前記元記事における前記特徴語の重要度を示す重み付け値を算出して前記元記事の特徴語データとする第１ステップと、
前記各購読記事から前記所定の抽出条件に基づいて１つ以上の単語を特徴語として抽出し、抽出した前記各特徴語について、前記所定の算出条件に基づいて前記各購読記事における前記特徴語の前記重み付け値を算出して前記各購読記事の特徴語データとする第２ステップと、
所定の比較条件に基づいて、前記第１ステップで算出した前記元記事の特徴語データと、前記第２ステップで算出した前記各購読記事の特徴語データとの類似度を算出する第３ステップと、
前記第３ステップで算出した前記類似度が所定の閾値より高くかつ前記元記事との発行日時の差が所定の時間間隔以上である前記購読記事を前記関連記事として分類し、前記第２ステップで算出した対象の前記各購読記事の特徴語データを、前記各関連記事の特徴語データとする第４ステップと、
前記各購読記事と前記参照履歴とに基づいて前記ユーザの既読記事を取得し、全ての前記既読記事から前記所定の抽出条件に基づいて１つ以上の単語を特徴語として抽出し、抽出した前記各特徴語について、前記所定の算出条件に基づいて前記各既読記事における前記特徴語の前記重み付け値を算出し、前記既読記事全てにおけるその平均値を算出して前記ユーザの嗜好を表す特徴語データとする第５ステップと、
前記所定の比較条件に基づいて、前記第５ステップで算出した前記ユーザの嗜好を表す特徴語データと、前記第４ステップで分類した前記各関連記事の特徴語データとの類似度を算出する第６ステップと、
前記第６ステップで算出した前記類似度が上位の前記関連記事を優先的に前記ユーザに提示する第７ステップとを実行することを特徴とする関連記事推奨方法。
請求項１に記載の関連記事推奨方法において、
前記第４ステップでは、前記第３ステップで算出した前記類似度が所定の閾値より高くかつ前記元記事との発行日時の差が所定の時間間隔より小さい前記購読記事を、前記元記事に対して実質的に内容が重複する重複記事として分類し、
前記第７ステップでは、前記重複記事を前記ユーザが認識可能なように前記ユーザに提示することを特徴とする関連記事推奨方法。
請求項１または２に記載の関連記事推奨方法において、
前記重み付け値は、前記特徴語について前記特徴語が含まれる前記記事を対象として算出したＴＦ値と、全ての前記ユーザの前記購読記事を対象として算出したＩＤＦ値とから算出したＴＦ−ＩＤＦ値であることを特徴とする関連記事推奨方法。
請求項１〜３のいずれか１項に記載の関連記事推奨方法において、
前記第３ステップおよび前記第６ステップにおける前記所定の比較条件は、前記類似度を算出する対象の前記特徴語データをそれぞれベクトル空間化し、両ベクトルのなす角に基づいて前記類似度を算出するものであることを特徴とする関連記事推奨方法。
コンピュータシステムを、ユーザが参照しているテキストデータからなる元記事に対して、内容が関連する関連記事を提示して前記ユーザに推奨するよう機能させる関連記事推奨プログラムであって、
前記コンピュータシステムは、前記ユーザ毎に、前記ユーザの参照対象である複数の購読記事と、前記各購読記事についての参照履歴とを保持しており、
前記関連記事推奨プログラムは、前記元記事から所定の抽出条件に基づいて１つ以上の単語を特徴語として抽出し、抽出した前記各特徴語について、所定の算出条件に基づいて前記元記事における前記特徴語の重要度を示す重み付け値を算出して前記元記事の特徴語データとする第８ステップと、
前記各購読記事から前記所定の抽出条件に基づいて１つ以上の単語を特徴語として抽出し、抽出した前記各特徴語について、前記所定の算出条件に基づいて前記各購読記事における前記特徴語の前記重み付け値を算出して前記各購読記事の特徴語データとする第９ステップと、
所定の比較条件に基づいて、前記第８ステップで算出した前記元記事の特徴語データと、前記第９ステップで算出した前記各購読記事の特徴語データとの類似度を算出する第１０ステップと、
前記第１０ステップで算出した前記類似度が所定の閾値より高くかつ前記元記事との発行日時の差が所定の時間間隔以上である前記購読記事を前記関連記事として分類し、前記第９ステップで算出した対象の前記各購読記事の特徴語データを、前記各関連記事の特徴語データとする第１１ステップと、
前記各購読記事と前記参照履歴とに基づいて前記ユーザの既読記事を取得し、全ての前記既読記事から前記所定の抽出条件に基づいて１つ以上の単語を特徴語として抽出し、抽出した前記各特徴語について、前記所定の算出条件に基づいて前記各既読記事における前記特徴語の前記重み付け値を算出し、前記既読記事全てにおけるその平均値を算出して前記ユーザの嗜好を表す特徴語データとする第１２ステップと、
前記所定の比較条件に基づいて、前記第１２ステップで算出した前記ユーザの嗜好を表す特徴語データと、前記第１１ステップで分類した前記各関連記事の特徴語データとの類似度を算出する第１３ステップと、
前記第１３ステップで算出した前記類似度が上位の前記関連記事を優先的に前記ユーザに提示する第１４ステップとを実行することを特徴とする関連記事推奨プログラム。
請求項５に記載の関連記事推奨プログラムにおいて、
前記第１１ステップでは、前記第１０ステップで算出した前記類似度が所定の閾値より高くかつ前記元記事との発行日時の差が所定の時間間隔より小さい前記購読記事を、前記元記事に対して実質的に内容が重複する重複記事として分類し、
前記第１４ステップでは、前記重複記事を前記ユーザが認識可能なように前記ユーザに提示することを特徴とする関連記事推奨プログラム。
請求項５または６に記載の関連記事推奨プログラムにおいて、
前記重み付け値は、前記特徴語について前記特徴語が含まれる前記記事を対象として算出したＴＦ値と、全ての前記ユーザの前記購読記事を対象として算出したＩＤＦ値とから算出したＴＦ−ＩＤＦ値であることを特徴とする関連記事推奨プログラム。
請求項５〜７のいずれか１項に記載の関連記事推奨プログラムにおいて、
前記第１０ステップおよび前記第１３ステップにおける前記所定の比較条件は、前記類似度を算出する対象の前記特徴語データをそれぞれベクトル空間化し、両ベクトルのなす角に基づいて前記類似度を算出するものであることを特徴とする関連記事推奨プログラム。