[go: up one dir, main page]

JP2010176327A - 学習装置、学習方法、情報処理装置、データ選択方法、データ蓄積方法、データ変換方法、及びプログラム - Google Patents

学習装置、学習方法、情報処理装置、データ選択方法、データ蓄積方法、データ変換方法、及びプログラム Download PDF

Info

Publication number
JP2010176327A
JP2010176327A JP2009017190A JP2009017190A JP2010176327A JP 2010176327 A JP2010176327 A JP 2010176327A JP 2009017190 A JP2009017190 A JP 2009017190A JP 2009017190 A JP2009017190 A JP 2009017190A JP 2010176327 A JP2010176327 A JP 2010176327A
Authority
JP
Japan
Prior art keywords
data
user preference
preference data
compressed
parameter group
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Withdrawn
Application number
JP2009017190A
Other languages
English (en)
Inventor
Shingo Takamatsu
慎吾 高松
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Sony Corp
Original Assignee
Sony Corp
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Sony Corp filed Critical Sony Corp
Priority to JP2009017190A priority Critical patent/JP2010176327A/ja
Priority to US12/688,647 priority patent/US8468105B2/en
Priority to CN2010101057935A priority patent/CN101840410B/zh
Publication of JP2010176327A publication Critical patent/JP2010176327A/ja
Withdrawn legal-status Critical Current

Links

Images

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06QINFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR ADMINISTRATIVE, COMMERCIAL, FINANCIAL, MANAGERIAL OR SUPERVISORY PURPOSES; SYSTEMS OR METHODS SPECIALLY ADAPTED FOR ADMINISTRATIVE, COMMERCIAL, FINANCIAL, MANAGERIAL OR SUPERVISORY PURPOSES, NOT OTHERWISE PROVIDED FOR
    • G06Q30/00Commerce
    • G06Q30/02Marketing; Price estimation or determination; Fundraising

Landscapes

  • Business, Economics & Management (AREA)
  • Strategic Management (AREA)
  • Engineering & Computer Science (AREA)
  • Accounting & Taxation (AREA)
  • Development Economics (AREA)
  • Finance (AREA)
  • Economics (AREA)
  • Game Theory and Decision Science (AREA)
  • Entrepreneurship & Innovation (AREA)
  • Marketing (AREA)
  • Physics & Mathematics (AREA)
  • General Business, Economics & Management (AREA)
  • General Physics & Mathematics (AREA)
  • Theoretical Computer Science (AREA)
  • Information Retrieval, Db Structures And Fs Structures Therefor (AREA)
  • Information Transfer Between Computers (AREA)

Abstract

【課題】データ空間が異なる領域の間でユーザの嗜好やコンテンツの属性を共通的に扱えるようにする。
【解決手段】第1のデータ空間に属す第1のユーザ嗜好データを取得する第1データ取得部と、第1のデータ空間とは異なる第2のデータ空間に属す第2のユーザ嗜好データであって、第1のユーザ嗜好データと共通するユーザについての第2のユーザ嗜好データを取得する第2データ取得部と、第1のパラメータ群を用いて、第1のユーザ嗜好データから、よりデータ項目数の少ない第1の圧縮ユーザ嗜好データを生成する第1圧縮部と、第2のパラメータ群を用いて、第2のユーザ嗜好データから、第1の圧縮ユーザ嗜好データとデータ項目数の等しい第2の圧縮ユーザ嗜好データを生成する第2圧縮部と、第1の圧縮ユーザ嗜好データと第2の圧縮ユーザ嗜好データとの差が複数のユーザにわたって小さくなるように、第1及び第2のパラメータ群を学習する学習部とを備える。
【選択図】図9

Description

本発明は、学習装置、学習方法、情報処理装置、データ選択方法、データ蓄積方法、データ変換方法、及びプログラムに関する。
近年、情報技術の発展に伴い、音楽、映像、書籍、ニュース記事など様々な分野のコンテンツがインターネットなどのネットワークを介してユーザに提供されている。このようなコンテンツ提供サービスにおいては、膨大な量のコンテンツが取り扱われるため、個々のユーザが自己に見合った適切なコンテンツを独力で見つけ出すことは難しい。そこで、例えばユーザの購買や視聴などといった行動の履歴をもとにユーザの嗜好を把握し、個々のユーザに見合ったコンテンツを選択して提示するための、推薦と呼ばれる技術が利用されている。
現在利用されている推薦技術の多くに共通する点の1つは、ユーザの行動履歴に応じてユーザの嗜好を数値等で表したユーザ嗜好データ(UP:User Preference)を用いて推薦を行う点である。例えば、協調フィルタリング(Collaborative Filtering)と呼ばれる推薦アルゴリズムでは、異なるユーザ間でユーザ嗜好データが比較され、類似する嗜好を持つユーザを特定して、そのユーザにより過去に利用されたコンテンツが推薦の対象となる。かかる推薦アルゴリズムの例は、下記特許文献1又は2などに開示されている。また、例えば、内容ベースフィルタリング(Content-Based Filtering)と呼ばれる推薦アルゴリズムでは、共通するデータ空間に属すユーザ嗜好データとコンテンツの属性を表すコンテンツ属性データとが比較され、ユーザの嗜好に適合すると判断されるコンテンツが推薦の対象となり得る。
特開2006−215867号公報 特開2008−077386号公報
しかしながら、ユーザ嗜好データ又はコンテンツ属性データのデータ空間は、例えば、推薦の対象とするコンテンツの分野、ユーザ嗜好データを生成する機器の種類、又は当該機器を供給するベンダなどによって異なる場合がある。そして、データ空間が異なると、ユーザ嗜好データ又はコンテンツ属性データに基づいて推薦可能なコンテンツの範囲が制限されることに加えて、例えば行動履歴の蓄積が不十分となり、適切なコンテンツを推薦することが困難となる場合もある。
そこで、本発明は、データ空間が異なる領域の間でユーザの嗜好やコンテンツの属性を共通的に扱うことを可能とする、新規かつ改良された学習装置、学習方法、情報処理装置、データ選択方法、データ蓄積方法、データ変換方法、及びプログラムを提供しようとするものである。
本発明のある実施形態によれば、第1のデータ空間に属す第1のユーザ嗜好データを取得する第1データ取得部と、前記第1のデータ空間とは異なる第2のデータ空間に属す第2のユーザ嗜好データであって、前記第1のユーザ嗜好データと共通するユーザについての前記第2のユーザ嗜好データを取得する第2データ取得部と、第1のパラメータ群を用いて、前記第1のユーザ嗜好データから、よりデータ項目数の少ない第1の圧縮ユーザ嗜好データを生成する圧縮部と、前記第2のユーザ嗜好データから前記第1の圧縮ユーザ嗜好データとデータ項目数の等しい第2の圧縮ユーザ嗜好データを生成する際に使用される第2のパラメータ群を、前記第1の圧縮ユーザ嗜好データと前記第2の圧縮ユーザ嗜好データとの差が複数のユーザにわたって小さくなるように学習する学習部と、を備える学習装置が提供される。
また、前記学習部は、前記圧縮部により生成される前記第1の圧縮ユーザ嗜好データを前記第2の圧縮ユーザ嗜好データの教師データとして前記第2のパラメータ群を学習してもよい。
また、前記圧縮部は、マルチトピックモデルに従って前記第1の圧縮ユーザ嗜好データを生成してもよい。
また、前記第1のパラメータ群及び前記第2のパラメータ群は、マルチトピックモデルにおけるトピックの固有分布に対応するパラメータ群であってもよい。
また、前記第1のデータ空間及び前記第2のデータ空間は、互いに異なるコンテンツ領域に対応するデータ空間であってもよい。
また、前記第1のデータ空間及び前記第2のデータ空間は、互いに異なる機器により生成されるユーザ嗜好データのデータ空間であってもよい。
また、本発明の別の実施形態によれば、第1のデータ空間に属す第1のユーザ嗜好データを取得するステップと、前記第1のデータ空間とは異なる第2のデータ空間に属す第2のユーザ嗜好データであって、前記第1のユーザ嗜好データと共通するユーザについての前記第2のユーザ嗜好データを取得するステップと、第1のパラメータ群を用いて、前記第1のユーザ嗜好データから、よりデータ項目数の少ない第1の圧縮ユーザ嗜好データを生成するステップと、前記第2のユーザ嗜好データから前記第1の圧縮ユーザ嗜好データとデータ項目数の等しい第2の圧縮ユーザ嗜好データを生成する際に使用される第2のパラメータ群を、前記第1の圧縮ユーザ嗜好データと前記第2の圧縮ユーザ嗜好データとの差が複数のユーザにわたって小さくなるように学習するステップと、を含む学習方法が提供される。
また、本発明の別の実施形態によれば、情報処理装置を制御するコンピュータを、第1のデータ空間に属す第1のユーザ嗜好データを取得する第1データ取得部と、前記第1のデータ空間とは異なる第2のデータ空間に属す第2のユーザ嗜好データであって、前記第1のユーザ嗜好データと共通するユーザについての前記第2のユーザ嗜好データを取得する第2データ取得部と、第1のパラメータ群を用いて、前記第1のユーザ嗜好データから、よりデータ項目数の少ない第1の圧縮ユーザ嗜好データを生成する圧縮部と、前記第2のユーザ嗜好データから前記第1の圧縮ユーザ嗜好データとデータ項目数の等しい第2の圧縮ユーザ嗜好データを生成する際に使用される第2のパラメータ群を、前記第1の圧縮ユーザ嗜好データと前記第2の圧縮ユーザ嗜好データとの差が複数のユーザにわたって小さくなるように学習する学習部と、として機能させるためのプログラムが提供される。
また、本発明の別の実施形態によれば、第1のデータ空間に属す第1のユーザ嗜好データを取得するデータ取得部と、第1のパラメータ群を用いて、前記第1のユーザ嗜好データから、よりデータ項目数の少ない第1の圧縮ユーザ嗜好データを生成する圧縮部と、前記第1のデータ空間とは異なる第2のデータ空間に属す第2のユーザ嗜好データ又はコンテンツ属性データから第2のパラメータ群を用いて生成された、前記第1の圧縮ユーザ嗜好データとデータ項目数の等しい複数のデータを記憶している記憶部と、前記記憶部に記憶されている前記複数のデータから、前記圧縮部により生成された前記第1の圧縮ユーザ嗜好データとの類似度に応じて少なくとも1つのデータを選択する選択部と、を備え、前記記憶部に記憶されている前記複数のデータは、共通するユーザについての前記第1の圧縮ユーザ嗜好データと前記第2のユーザ嗜好データから生成される第2の圧縮ユーザ嗜好データとの差が複数のユーザにわたって小さくなるように学習された前記第2のパラメータ群を用いて、それぞれ予め生成されたデータである、情報処理装置が提供される。
また、本発明の別の実施形態によれば、第1のデータ空間に属す第1のユーザ嗜好データを取得するステップと、第1のパラメータ群を用いて、前記第1のユーザ嗜好データから、よりデータ項目数の少ない第1の圧縮ユーザ嗜好データを生成するステップと、前記第1のデータ空間とは異なる第2のデータ空間に属す第2のユーザ嗜好データ又はコンテンツ属性データから第2のパラメータ群を用いて生成された、前記第1の圧縮ユーザ嗜好データとデータ項目数の等しい複数のデータから、前記第1の圧縮ユーザ嗜好データとの類似度に応じて少なくとも1つのデータを選択するステップと、を含むデータ選択方法であって、前記複数のデータは、共通するユーザについての前記第1の圧縮ユーザ嗜好データと前記第2のユーザ嗜好データから生成される第2の圧縮ユーザ嗜好データとの差が複数のユーザにわたって小さくなるように学習された前記第2のパラメータ群を用いて、それぞれ予め生成されたデータである、前記データ選択方法が提供される。
また、本発明の別の実施形態によれば、情報処理装置を制御するコンピュータを、第1のデータ空間に属す第1のユーザ嗜好データを取得するデータ取得部と、第1のパラメータ群を用いて、前記第1のユーザ嗜好データから、よりデータ項目数の少ない第1の圧縮ユーザ嗜好データを生成する圧縮部と、前記第1のデータ空間とは異なる第2のデータ空間に属す第2のユーザ嗜好データ又はコンテンツ属性データから第2のパラメータ群を用いて生成された、前記第1の圧縮ユーザ嗜好データとデータ項目数の等しい複数のデータを記憶している記憶部と、前記記憶部に記憶されている前記複数のデータから、前記圧縮部により生成された前記第1の圧縮ユーザ嗜好データとの類似度に応じて少なくとも1つのデータを選択する選択部と、として機能させるためのプログラムであって、前記記憶部に記憶されている前記複数のデータは、共通するユーザについての前記第1の圧縮ユーザ嗜好データと前記第2のユーザ嗜好データから生成される第2の圧縮ユーザ嗜好データとの差が複数のユーザにわたって小さくなるように学習された前記第2のパラメータ群を用いて、それぞれ予め生成されたデータである、前記プログラムが提供される。
また、本発明の別の実施形態によれば、第1のデータ空間に属す第1のユーザ嗜好データを取得する第1データ取得部と、前記第1のデータ空間とは異なる第2のデータ空間に属す第2のユーザ嗜好データを取得する第2データ取得部と、第1のパラメータ群を用いて、前記第1のユーザ嗜好データから、よりデータ項目数の少ない第1の圧縮ユーザ嗜好データを生成して記録媒体に記録する第1圧縮部と、第2のパラメータ群を用いて、前記第2のユーザ嗜好データから、前記第1の圧縮ユーザ嗜好データとデータ項目数の等しい第2の圧縮ユーザ嗜好データを生成して記録媒体に記録する第2圧縮部と、を備え、前記第1のパラメータ群又は前記第2のパラメータ群は、共通するユーザについての前記第1の圧縮ユーザ嗜好データと前記第2の圧縮ユーザ嗜好データとの差が複数のユーザにわたって小さくなるように学習されたパラメータ群である、情報処理装置が提供される。
また、本発明の別の実施形態によれば、第1のデータ空間に属す第1のユーザ嗜好データを取得するステップと、前記第1のデータ空間とは異なる第2のデータ空間に属す第2のユーザ嗜好データを取得するステップと、第1のパラメータ群を用いて、前記第1のユーザ嗜好データから、よりデータ項目数の少ない第1の圧縮ユーザ嗜好データを生成して記録媒体に記録するステップと、第2のパラメータ群を用いて、前記第2のユーザ嗜好データから、前記第1の圧縮ユーザ嗜好データとデータ項目数の等しい第2の圧縮ユーザ嗜好データを生成して記録媒体に記録するステップと、を含むデータ蓄積方法であって、前記第1のパラメータ群又は前記第2のパラメータ群は、共通するユーザについての前記第1の圧縮ユーザ嗜好データと前記第2の圧縮ユーザ嗜好データとの差が複数のユーザにわたって小さくなるように学習されたパラメータ群である、前記データ蓄積方法が提供される。
また、本発明の別の実施形態によれば、情報処理装置を制御するコンピュータを、第1のデータ空間に属す第1のユーザ嗜好データを取得する第1データ取得部と、前記第1のデータ空間とは異なる第2のデータ空間に属す第2のユーザ嗜好データを取得する第2データ取得部と、第1のパラメータ群を用いて、前記第1のユーザ嗜好データから、よりデータ項目数の少ない第1の圧縮ユーザ嗜好データを生成して記録媒体に記録する第1圧縮部と、第2のパラメータ群を用いて、前記第2のユーザ嗜好データから、前記第1の圧縮ユーザ嗜好データとデータ項目数の等しい第2の圧縮ユーザ嗜好データを生成して記録媒体に記録する第2圧縮部と、として機能させるためのプログラムであって、前記第1のパラメータ群又は前記第2のパラメータ群は、共通するユーザについての前記第1の圧縮ユーザ嗜好データと前記第2の圧縮ユーザ嗜好データとの差が複数のユーザにわたって小さくなるように学習されたパラメータ群である、前記プログラムが提供される。
また、本発明の別の実施形態によれば、第1のデータ空間に属す第1のユーザ嗜好データからよりデータ項目数の少ない第1の圧縮ユーザ嗜好データを生成するための第1のパラメータ群、及び、前記第1のデータ空間とは異なる第2のデータ空間に属す第2のユーザ嗜好データから前記第1の圧縮ユーザ嗜好データとデータ項目数の等しい第2の圧縮ユーザ嗜好データを生成するための第2のパラメータ群を記憶している記憶部と、前記記憶部に記憶されている前記第1のパラメータ群及び前記第2のパラメータ群に基づいて、前記第1のユーザ嗜好データを前記第2のユーザ嗜好データに変換する変換部と、を備え、前記第1のパラメータ群又は前記第2のパラメータ群は、共通するユーザについての前記第1の圧縮ユーザ嗜好データと前記第2の圧縮ユーザ嗜好データとの差が複数のユーザにわたって小さくなるように学習されたパラメータ群である、情報処理装置が提供される。
また、前記変換部は、前記第1のパラメータ群と前記第2のパラメータ群との間のデータ項目ごとのパラメータ値の類似度に応じて決定される、前記第1のユーザ嗜好データのデータ項目と前記第2のユーザ嗜好データのデータ項目との対応関係に従って、前記第1のユーザ嗜好データを前記第2のユーザ嗜好データに変換してもよい。
また、前記情報処理装置は、前記第1のパラメータ群を用いて、前記第1のユーザ嗜好データから前記第1の圧縮ユーザ嗜好データを生成する圧縮部、をさらに備え、前記変換部は、前記圧縮部により生成される前記第1の圧縮ユーザ嗜好データを前記第2のパラメータ群を用いて生成し得る尤もらしい第2のユーザ嗜好データを、前記第1のユーザ嗜好データから変換される前記第2のユーザ嗜好データとして決定してもよい。
また、本発明の別の実施形態によれば、第1のデータ空間に属す第1のユーザ嗜好データからよりデータ項目数の少ない第1の圧縮ユーザ嗜好データを生成するための第1のパラメータ群、及び、前記第1のデータ空間とは異なる第2のデータ空間に属す第2のユーザ嗜好データから前記第1の圧縮ユーザ嗜好データとデータ項目数の等しい第2の圧縮ユーザ嗜好データを生成するための第2のパラメータ群に基づいて、前記第1のユーザ嗜好データを前記第2のユーザ嗜好データに変換するステップ、を含むデータ変換方法であって、前記第1のパラメータ群又は前記第2のパラメータ群は、共通するユーザについての前記第1の圧縮ユーザ嗜好データと前記第2の圧縮ユーザ嗜好データとの差が複数のユーザにわたって小さくなるように学習されたパラメータ群である、前記データ変換方法が提供される。
また、本発明の別の実施形態によれば、情報処理装置を制御するコンピュータを、第1のデータ空間に属す第1のユーザ嗜好データからよりデータ項目数の少ない第1の圧縮ユーザ嗜好データを生成するための第1のパラメータ群、及び、前記第1のデータ空間とは異なる第2のデータ空間に属す第2のユーザ嗜好データから前記第1の圧縮ユーザ嗜好データとデータ項目数の等しい第2の圧縮ユーザ嗜好データを生成するための第2のパラメータ群を記憶している記憶部と、前記記憶部に記憶されている前記第1のパラメータ群及び前記第2のパラメータ群に基づいて、前記第1のユーザ嗜好データを前記第2のユーザ嗜好データに変換する変換部と、として機能させるためのプログラムであって、前記第1のパラメータ群又は前記第2のパラメータ群は、共通するユーザについての前記第1の圧縮ユーザ嗜好データと前記第2の圧縮ユーザ嗜好データとの差が複数のユーザにわたって小さくなるように学習されたパラメータ群である、前記プログラムが提供される。
以上説明したように、本発明に係る学習装置、学習方法、情報処理装置、データ選択方法、データ蓄積方法、データ変換方法、及びプログラムによれば、データ空間が異なる領域の間でユーザの嗜好やコンテンツの属性を共通的に扱うことが可能となる。
一実施形態に関連する推薦技術が適用されるシステムの概要を示す模式図である。 図1の端末装置の具体的な構成の一例を示すブロック図である。 図1の情報処理装置の具体的な構成の一例を示すブロック図である。 コンテンツ属性データからユーザ嗜好データを計算する計算処理について説明するための説明図である。 マルチトピックモデルに従ってデータを圧縮する処理について説明するための説明図である。 圧縮されたユーザ嗜好データ及びコンテンツ属性データの一例を示す説明図である。 一実施形態に関連する推薦処理の流れの一例を示すフローチャートである。 一実施形態に係る学習処理の概要を説明するための説明図である。 一実施形態に係る学習装置の構成の一例を示すブロック図である。 一実施形態に係る推薦処理を行う情報処理装置の構成の一例を示すブロック図である。 一実施形態に係るデータ蓄積処理が行われるシステムの概要を示す模式図である。 図11の端末装置の具体的な構成の一例を示すブロック図である。 図11の他の端末装置の具体的な構成の一例を示すブロック図である。 図11の情報処理装置の具体的な構成の一例を示すブロック図である。 一実施形態に係るデータ変換処理が行われるシステムの概要を示す模式図である。 図15の情報処理装置の具体的な構成の一例を示すブロック図である。 データ項目同士の対応関係の決定処理について説明するための説明図である。 ユーザ嗜好データの変換処理について説明するための説明図である。 データ変換装置の変形例に係る具体的な構成を示すブロック図である。 汎用コンピュータのハードウェア構成を示すブロック図である。
以下に添付図面を参照しながら、本発明の好適な実施の形態について詳細に説明する。なお、本明細書及び図面において、実質的に同一の機能構成を有する構成データ項目については、同一の符号を付することにより重複説明を省略する。
また、以下の順序にしたがって当該「発明を実施するための最良の形態」を説明する。
1.関連技術の説明
2.一実施形態に係る学習装置の説明
3.一実施形態に係る推薦装置の説明
4.一実施形態に係るデータ蓄積装置の説明
5.一実施形態に係るデータ変換装置の説明
6.まとめ
<1.関連技術の説明>
まず、後述する本発明の一実施形態に関連する推薦技術について、図1〜図7を用いて説明する。
図1は、本発明の一実施形態に関連する推薦技術が適用される情報処理システム1の概要を示す模式図である。図1を参照すると、情報処理システム1には、端末装置10、ネットワーク20、及び情報処理装置30が含まれる。
端末装置10は、情報処理装置30から推薦サービスの提供を受けるユーザが使用する装置である。端末装置10は、例えば、PC(Personal Computer)やPDA(Personal Digital Assistants)などの情報処理端末、携帯電話端末、ゲーム端末、音楽プレーヤ、又はテレビジョン受像機を始めとするデジタル家電機器などであってよい。
図2は、端末装置10のより具体的な構成の一例を示すブロック図である。図2を参照すると、端末装置10は、ユーザインタフェース部12及び処理部14を備える。
ユーザインタフェース部12は、例えば、端末装置10がユーザに情報を表示するための表示手段と、ユーザが端末装置12に情報を入力するための入力手段とを提供する。表示手段とは、例えば、CRT、PDP、LCD、OLEDなどの表示装置に相当する。また、入力手段とは、例えば、マウスやキーボード、タッチパネル、ボタン、又はスイッチなどに相当する。
処理部14は、例えば、インターネット上のWebページを取得してユーザに閲覧させるブラウザなどであってよい。その場合には、ユーザによるインターネット上でのコンテンツの購買や視聴などのユーザの行動に関する要求が、処理部14から情報処理装置30へ送信される。また、処理部14は、端末装置10においてコンテンツを再生又は実行するアプリケーションなどであってもよい。その場合には、ユーザによるコンテンツの再生や実行などの行動に関する情報が、処理部14から情報処理装置30へ送信される。なお、処理部14は、ユーザによる個々の行動の履歴を端末装置10の内部に一時的に蓄積しておき、蓄積された行動履歴を所定のタイミングで情報処理装置30へ送信してもよい。
図1に戻り、情報処理システム1の説明を継続する。
ネットワーク20は、端末装置10と情報処理装置30との間を接続する。ネットワーク20は、インターネット、有線若しくは無線LAN(Local Area Network)、WAN(Wide Area Network)、専用線、又はVPN(Virtual Private Network)などの任意の形態のネットワークであってよい。
情報処理装置30は、端末装置10を使用するユーザに推薦サービスを提供する装置である。情報処理装置30は、例えば、コンテンツ属性データやユーザ嗜好データを記憶する記憶装置にアクセス可能なコンピュータとして構成される。情報処理装置30は、例えば、推薦サービスを提供するためのサーバ装置であってもよい。また、情報処理装置30は、PCやワークステーション、又は上述したデジタル家電機器などであってもよい。
図3は、情報処理装置30のより具体的な構成の一例を示すブロック図である。図3を参照すると、情報処理装置30は、ユーザ嗜好取得部32、圧縮部34、推薦部36、及び記憶部40を備える。また、記憶部40は、ユーザ嗜好DB(データベース)42、コンテンツ属性DB44、圧縮ユーザ嗜好DB46、圧縮コンテンツ属性DB48、及びパラメータDB50を有する。
ユーザ嗜好取得部32は、例えば、端末装置10から送信されるユーザの行動(又は行動履歴)に応じて、当該ユーザの嗜好を表すユーザ嗜好データを取得する。例えば、内容ベースフィルタリングに適用されるユーザ嗜好データは、ユーザの行動の対象となったコンテンツのコンテンツ領域に対応するデータ空間上で、コンテンツ属性データの線形和として表現され得る。
図4は、記憶部40のコンテンツ属性DB44に記憶されているコンテンツ属性データからユーザ嗜好データを計算する計算処理の一例を説明するための説明図である。
図4の例において、コンテンツ属性DB44には、識別子“C01”、“C02”、及び“C03”により表される3つのコンテンツ属性データが含まれている。各コンテンツ属性データは、属性A〜Eの5つのデータ項目を有する。即ち、この場合のコンテンツ属性データのデータ空間は、属性A〜Eに対応する5つの次元を持つベクトル空間である。かかるベクトル空間において、コンテンツC01のコンテンツ属性データは、例えばベクトル(1,0,0,1,0)として表される。また、コンテンツC02、C03のコンテンツ属性データは、それぞれベクトル(0,0,1,0,1)、ベクトル(0,0,1,0,0)として表される。さらに、図4では、コンテンツ属性データごとに、ユーザ嗜好データの計算に使用される重みがそれぞれ定義されている。
図4の例において、ユーザ嗜好データのデータ空間もまた属性A〜Eの5つのデータ項目を有する。これら5つのデータ項目の値は、例えば、ユーザの行動の対象となったコンテンツについての、コンテンツ属性DB44に記憶されているコンテンツ属性データの重み付け線形和として計算される。例えば、識別子“U01”で表されるユーザU01が、コンテンツC01、C02、及びC03を利用したとする。その場合、ユーザU01のユーザ嗜好データのうち、属性Aの値は、1×0.4+0×0.9+0×0.4=0.4である。また、属性Bの値は、0×0.4+0×0.9+0×0.4=0.0である。属性Cの値は、0×0.4+1×0.9+1×0.4=1.3である。属性Dの値は、1×0.4+0×0.9+0×0.4=0.4である。属性Eの値は、0×0.4+1×0.9+0×0.4=0.9である。従って、ユーザU01のユーザ嗜好データは、属性A〜Eを要素とするベクトル空間において、(0.4,0.0,1.3,0.4,0.9)と表される。ユーザ嗜好取得部32は、かかるユーザ嗜好データを計算し、ユーザ嗜好DB42に記憶させる。
なお、ここではユーザ嗜好データがコンテンツ属性データの重み付け線形和として計算される例について説明したが、線形和の計算の際に必ずしも重み付けが行われなくてもよい。また、コンテンツ属性データと共通するデータ空間において、線形和以外の方法でユーザ嗜好データが計算されてもよい。
ここで、図4の例では、属性A〜Eの5つのデータ項目のみを示したが、実用上のコンテンツ属性データ(及びユーザ嗜好データ)のデータ空間は、一般的に、より高次元なものとなる。コンテンツ属性データは、例えば、コンテンツを説明した説明文をTF/IDF(Term Frequency/Inverse Document Frequency)などの手法により解析し、又はコンテンツデータ自体を音響解析や映像解析することにより予め与えられる。このようなコンテンツ属性データは、高次元のベクトル空間において多くのデータ項目がゼロ(又は空値)であるスパース(疎)なベクトルとなり易く、内容ベースフィルタリングなどの推薦アルゴリズムにとって処理コストや推薦結果の精度などの面で不利である。そこで、図3に示した圧縮部34により、コンテンツ属性データ又はユーザ嗜好データを、より低次元のデータへと圧縮する。
図3において、圧縮部34は、パラメータDB50に記憶されているパラメータ群を用いて、ユーザ嗜好データから、よりデータ項目数の少ない圧縮ユーザ嗜好データを生成する。また、圧縮部34は、パラメータDB50に記憶されているパラメータ群を用いて、コンテンツ属性データから、よりデータ項目数の少ない圧縮コンテンツ属性データを生成することもできる。
圧縮部34によるユーザ嗜好データの圧縮は、例えば、マルチトピックモデルの考え方に従って行われてもよい。マルチトピックモデルとは、データ固有のトピック空間上の確率分布と、メタデータ空間上でトピックごとに割当てられた確率分布とを用いる確率モデルである。具体的な確率モデルの内容は、例えば下記非特許文献1又は2などにおいて複数のバリエーションが提案されているが、本発明と関連する主な部分は次の通りである。
まず、マルチトピックモデルにおいては、直接的に観測することのできない潜在的な離散確率変数の実現値としてのトピックが複数定義される。トピックには、それぞれメタデータ空間の確率分布が割当てられる。これら各トピックに割当てられるメタデータ空間の確率分布をトピック固有分布という。
このようなマルチトピックモデルの考え方を推薦システムに適用すると、トピック固有分布は、例えば、コンテンツ属性データ及び/又はユーザ嗜好データの集合を学習データとし、統計的な学習によって予め推定される。そして、各コンテンツ属性データ又は各ユーザ嗜好データは、潜在的な変数空間であるトピック空間において、トピック分布と呼ばれる固有の確率分布を持つ。そして、各コンテンツ属性データ又は各ユーザ嗜好データのメタデータ空間上の確率分布は、例えば、トピック分布を用いてトピック固有分布を平均化することで与えられる。なお、ここでのメタデータ空間とは、例えば図4に示した属性A〜Eを要素とするベクトル空間などとすることができる。
ここで、トピック分布のパラメータは一般に低次元である。また、トピック分布は、コンテンツ属性データ又はユーザ嗜好データごとに定まるため、コンテンツ属性データ又はユーザ嗜好データから生成されたトピック分布のパラメータを、各データの次元を圧縮したデータとみなすことができる。そこで、本明細書では、コンテンツ属性データに対応するトピック分布のパラメータを圧縮コンテンツ属性データ、ユーザ嗜好データに対応するトピック分布のパラメータを圧縮ユーザ嗜好データと呼ぶものとする。
こうした圧縮コンテンツ属性データ又は圧縮ユーザ嗜好データは、一度トピック固有分布を定めてしまえば、新しいコンテンツ属性データ又はユーザ嗜好データについても計算可能である。即ち、高次元の疎ベクトルであるコンテンツ属性データ又はユーザ嗜好データの次元を、マルチトピックモデルに従って低次元に圧縮することができる。
Thomas Hofmann, "Probabilistic Latent Semantic Indexing", Proceedings of the Twenty-Second Annual International SIGIR Conference on Research and Development in Information Retrieval, 1999 David M. Blei, Andrew Y. Ng, Michael I. Jordan, "Latent Dirichlet Allocation", Journal of Machine Learning Research 3, 2003
図3に示した圧縮部34は、例えばこうしたマルチトピックモデルの考え方に従い、予め学習により決定されたトピック固有分布のパラメータを用いて、ユーザ嗜好データに対応するトピック分布である圧縮ユーザ嗜好データを生成することができる。この場合、トピック固有分布のパラメータが、図3のパラメータDB50に予め保持される。以下、本明細書において、ユーザ嗜好データ又はコンテンツ属性データの圧縮に使用されるトピック固有分布のパラメータをモデルパラメータという。なお、圧縮に使用されるパラメータは、マルチトピックモデルにおけるトピック固有分布のパラメータに限定されず、その他の任意のパラメータであってよい。
図5は、マルチトピックモデルの考え方に従ってユーザ嗜好データからよりデータ項目数の少ない圧縮ユーザ嗜好データを生成する処理についてさらに説明するための説明図である。
図5を参照すると、まず、属性1〜属性NのN個の要素を含むベクトル空間であるデータ空間Dにおいて与えられるユーザ嗜好データUPが示されている。また、データ空間Dにおいて予め学習により決定されたk個のモデルパラメータP(x)(i=1〜k)も示されている。各モデルパラメータP(x)(i=1〜k)は、データ空間Dにおいてk個のトピックにそれぞれ対応する確率分布、即ちトピック固有分布に相当する。上述したように、一般にkはNよりも小さい。そして、ユーザ嗜好データUPの所与のデータ値のデータ空間Dにおける出現確率をP(x)とすると、P(x)は、k個のモデルパラメータP(x)(i=1〜k)を用いて次式で表される。
Figure 2010176327
(1)
ここで、w(i=1〜k)は、ユーザ嗜好データUPに対応するトピック分布のパラメータである。即ち、個々のwは、トピック混合比に相当する。このようなトピック混合比w(i=1〜k)を用いて、圧縮ユーザ嗜好データUP´を、トピック混合比を要素とするベクトル(w,w,…,w)として計算する。なお、このようなデータの圧縮は、ユーザ嗜好データではなくコンテンツ属性データに対しても同様に行うことができる。
図3に戻り、情報処理装置30の構成の説明を継続する。
情報処理装置30の推薦部36は、上述したように圧縮部34により次元を圧縮された(データ項目数の削減された)圧縮ユーザ嗜好データ及び圧縮コンテンツ属性データを用いて、ユーザに見合ったコンテンツを特定し、推薦結果として端末装置10へ送信する。
図6は、圧縮ユーザ嗜好データ及び圧縮コンテンツ属性データのデータ例を示す説明図である。
図6を参照すると、ユーザ嗜好DB42には、属性A〜Eの5次元のデータ空間におけるユーザU01及びU02についての2件のユーザ嗜好データが含まれている。これに対し、圧縮ユーザ嗜好DB46には、それぞれ3次元に圧縮された2件の圧縮ユーザ嗜好データが含まれている。このようにユーザ嗜好データを圧縮することにより、圧縮前には類似度の低かった2つのユーザ嗜好データが、圧縮後に高い類似度を示す場合がある。これは、潜在的に関連性を有していた異なるデータ項目の属性値が、マルチトピックモデルを適用することで1つのトピック混合比の値に集約されたために生じる事象である。それにより、ユーザ間の潜在的な類似性を推薦のために考慮することが可能となり、よりユーザの嗜好に見合ったコンテンツの推薦が行われる。この点は、ユーザ嗜好データとコンテンツ属性データとを比較する場合にも同様である。
図6の例において、コンテンツ属性DB44には、属性A〜Eの5次元のデータ空間におけるコンテンツC01及びC02についての2件のコンテンツ属性データが含まれている。これに対し、圧縮コンテンツ属性DB48には、それぞれ3次元に圧縮された2件の圧縮コンテンツ属性データが含まれている。このような圧縮コンテンツ属性データは、予め圧縮部34により生成され、圧縮コンテンツ属性DB48に記憶されている。図3に示した推薦部46は、このような圧縮ユーザ嗜好データ及び圧縮コンテンツ属性データを用いて、図7に示した手順で推薦対象のコンテンツを特定する。
図7は、推薦部46による推薦処理の流れの一例を示すフローチャートである。
図7を参照すると、推薦部46は、まず、推薦サービスを提供する対象のユーザに関する圧縮ユーザ嗜好データを、圧縮ユーザ嗜好DB46から読み込む(S2)。次に、推薦部46は、圧縮コンテンツ属性データを、圧縮コンテンツ属性DB48から読み込む(S4)。ここで読み込まれる圧縮コンテンツ属性データは、例えば、所定の抽出条件に従って抽出された一部のデータであってもよい。次に、推薦部46は、ステップS2で読み込んだ圧縮ユーザ嗜好データと、ステップS4で読み込んだ各圧縮コンテンツ属性データとの間の類似度を計算する(S6)。なお、ここでの類似度とは、ベクトル間の標準内積、ユークリッド距離の符号反転、又はコサイン距離などとすることができる。そして、推薦部46は、例えば算出された類似度が高い順に所定の数のコンテンツのリストを生成し、生成したリストを推薦結果として端末装置10へ送信する(S8)。
なお、ここでは推薦部36が内容ベースフィルタリングに基づく推薦処理を行う例について説明したが、推薦部36が例えば協調フィルタリングなどの他のアルゴリズムに基づく推薦処理を行った場合でも、上述したデータの圧縮による効果を得ることができる。
ここまで、図1〜図7を用いて、本発明の一実施形態に関連する推薦技術について説明した。かかる推薦技術によれば、高次元のデータ空間に属すユーザ嗜好データ又はコンテンツ属性データの次元がマルチトピックモデルに従って圧縮された上で推薦が行われる。そのため、よりユーザの嗜好に見合った推薦が行われ、推薦されるコンテンツの目新しさや幅を広げることができる。
ところで、かかる関連技術において、図3に示した圧縮部34によるユーザ嗜好データ又はコンテンツ属性データの圧縮に使用されるモデルパラメータは、ユーザ嗜好データ及びコンテンツ属性データが属すデータ空間ごとに予め学習により決定される。そのため、ユーザ嗜好データ及びコンテンツ属性データが属すデータ空間が異なれば、それぞれのデータ空間で圧縮されたデータを相互に比較して推薦を行うことができない。これに対し、次節にて説明する学習方法を用いることで、異なるデータ空間に属すユーザ嗜好データ又はコンテンツ属性データを用いた領域横断的な推薦を実現することが可能となる。
<2.一実施形態に係る学習装置の説明>
[学習処理の概要]
図8は、本発明の一実施形態に係る学習処理の概要を説明するための説明図である。
図8を参照すると、2つの異なるデータ空間D1及びD2が示されている。データ空間D1は、例えば“書籍”のコンテンツ領域に関するデータ空間である。データ空間D1には、n個のデータ項目A1〜Anが含まれる。例えば、データ項目A1は「作者X」、データ項目A2は「作者Y」、…、データ項目Anは「ジャンルZ」などとなる。一方、データ空間D2は、例えば“テレビジョン番組(TV番組)”のコンテンツ領域に関するデータ空間である。データ空間D2には、m個のデータ項目B1〜Bmが含まれる。例えば、データ項目B1は「タレントα」、データ項目B2は「タレントβ」、…、データ項目Bmは「時間帯ω」などとなる。
このようなデータ空間D1及びD2において、共通するユーザU1のユーザ嗜好データが、それぞれUP1=(2,1,…,1)、UP2=(0,2,…,0)であったとする。このままでは、ユーザ嗜好データUP1及びUP2の次元は異なり、各要素の持つ意味も関連していないため、ユーザ嗜好データUP1とUP2とを直接的に比較することはできない。そこで、まず、ユーザ嗜好データUP1からモデルパラメータP1を用いて圧縮ユーザ嗜好データUP1´を生成することを想定する。このとき、圧縮ユーザ嗜好データUP1´の次元は、トピック混合比w〜wの数、即ちモデルパラメータP1の数に相当する。これに対し、モデルパラメータP1の数と同数のモデルパラメータP2を用いてユーザ嗜好データUP2から圧縮ユーザ嗜好データUP2´を生成すれば、圧縮ユーザ嗜好データUP2´の次元は、圧縮ユーザ嗜好データUP1´の次元と等しくなる。さらに、共通するユーザについてのUP1及びUP2から生成されるトピック混合比w〜wが複数のユーザにわたって一致し、又は少なくともその差が小さくなるようにモデルパラメータP1又はモデルパラメータP2を決定する。そうすることで、ユーザ嗜好データUP1から生成した圧縮ユーザ嗜好データUP1´とユーザ嗜好データUP2から生成した圧縮ユーザ嗜好データUP2´とを相互に比較することが可能となる。
本節で説明する一実施形態に係る学習装置100は、このようなモデルパラメータP1又はモデルパラメータP2のうちモデルパラメータP2を学習により決定する。
[学習装置の構成]
図9は、学習装置100の論理的な構成を示すブロック図である。図9を参照すると、学習装置100は、第1データ取得部120、圧縮部122、学習部130、及び第2データ取得部140を備える。さらに、学習装置100は、第1ユーザ嗜好DB110、第2ユーザ嗜好DB112、第1パラメータDB114、第1圧縮ユーザ嗜好DB124、及び第2パラメータDB132を備える。
学習装置100による学習処理の実行時には、学習に使用されるデータが、第1ユーザ嗜好DB110、第2ユーザ嗜好DB112、及び第1パラメータDB114に、それぞれ予め用意される。第1ユーザ嗜好DB110には、例えば図8に示したデータ空間D1に属す第1のユーザ嗜好データが複数用意される。また、第2ユーザ嗜好DB112には、データ空間D1とは異なるデータ空間D2に属す、第1のユーザ嗜好データと共通するユーザについての第2のユーザ嗜好データが複数用意される。また、第1パラメータDB114には、第1のユーザ嗜好データから、よりデータ項目数の少ない第1の圧縮ユーザ嗜好データを生成する際に用いられるk個のモデルパラメータP1(i=1〜k)が用意される。
そして、学習装置100による学習処理が開始されると、まず、第1データ取得部120が第1ユーザ嗜好DB110からデータ空間D1に属す第1のユーザ嗜好データを取得し、圧縮部122へ出力する。次に、圧縮部122は、第1パラメータDB114に用意されたk個のモデルパラメータP1を用いて、第1のユーザ嗜好データを圧縮し、第1の圧縮ユーザ嗜好データを生成する。圧縮部122により生成された第1の圧縮ユーザ嗜好データは、第1圧縮ユーザ嗜好DB124へ格納される。ここで生成された第1の圧縮ユーザ嗜好データは、後述する学習部130により、第2の圧縮ユーザ嗜好データの教師データとして扱われる。
一方、第2データ取得部140は、第2ユーザ嗜好DB112からデータ空間D2に属す第2のユーザ嗜好データを取得し、学習部130へ出力する。すると、学習部130は、まず、第1圧縮ユーザ嗜好DB124から共通するユーザについての第1の圧縮ユーザ嗜好データを読み込み、当該第1の圧縮ユーザ嗜好データを、第2のユーザ嗜好データを圧縮した場合の圧縮結果(即ち教師データ)をとみなす。そして、学習部130は、上述した第2のユーザ嗜好データから教師データを生成するためのk個のモデルパラメータP2(j=1〜k)を学習により決定し、第2パラメータDB132に格納する。このような学習処理を、十分な数のユーザについて行うことで、圧縮部122により生成される第1圧縮ユーザ嗜好データと第2圧縮部142により生成される第2圧縮ユーザ嗜好データとの差を、新たなユーザについても小さいものとすることができる。
なお、ここではデータ空間D1についてのモデルパラメータP1を固定値とし、データ空間D2についてのモデルパラメータP2を学習する例について説明したが、モデルパラメータP1及びモデルパラメータP2が学習により同時に決定されてもよい。
<3.一実施形態に係る推薦装置の説明>
学習装置100により決定されたモデルパラメータP1及びP2を使用すれば、図8に示したように、異なるデータ空間D1及びD2に属すユーザ嗜好データ及びコンテンツ属性データを、共通の圧縮データ空間D´に属すデータに圧縮できる。即ち、異なるコンテンツ領域において与えられるユーザ嗜好データ又はコンテンツ属性データを用いて、複数の領域にまたがった領域横断的な推薦を行うことが可能となる。そこで、本節では、上述した学習装置100により決定されたモデルパラメータP1及びモデルパラメータP2を使用してコンテンツの推薦を行う情報処理装置(推薦装置)について説明する。
図10は、本発明の一実施形態に係る推薦処理を行う情報処理装置200の論理的な構成を示すブロック図である。図10を参照すると、情報処理装置200は、データ取得部210、圧縮部220、推薦部230、及び記憶部240を備える。また、推薦部230は、選択部232及び送信部234を有する。また、記憶部240は、ユーザ嗜好DB242、コンテンツ属性DB244、圧縮ユーザ嗜好DB246、圧縮コンテンツ属性DB248、及びパラメータDB250を有する。
データ取得部210は、第1のコンテンツ領域に対応するデータ空間D1に属す第1のユーザ嗜好データを取得する。より具体的には、データ取得部210は、例えば、第1のコンテンツ領域に関するユーザの行動又は行動履歴に基づいて、コンテンツ属性DB244に予め記憶されている第1のコンテンツ属性データを用いて、第1のユーザ嗜好データを計算して取得してもよい。その代わりに、データ取得部210は、予め算出された第1のユーザ嗜好データを情報処理装置200の内部又は外部のデータベースなどから取得してもよい。データ取得部210は、取得した第1のユーザ嗜好データを、ユーザ嗜好DB242へ格納する。
圧縮部220は、第1のパラメータ群を用いて、第1のユーザ嗜好データから、よりデータ項目数の少ない第1の圧縮ユーザ嗜好データを生成する。より具体的には、圧縮部220は、例えば、パラメータDB250に記憶されている第1のモデルパラメータP1を用いて、図5を用いて説明したマルチトピックモデルの考え方に従って、第1の圧縮ユーザ嗜好データを生成してもよい。圧縮部220は、生成した第1の圧縮ユーザ嗜好データを、圧縮ユーザ嗜好DB246へ格納する。
記憶部240の圧縮ユーザ嗜好DB246には、データ空間D1とは異なるデータ空間D2に属す第2のユーザ嗜好データから第2のモデルパラメータ群P2を用いて生成された、複数のユーザに関する第2の圧縮ユーザ嗜好データが予め記憶されている。また、圧縮コンテンツ属性DB248には、データ空間D2に属す第2のコンテンツ属性データから第2のモデルパラメータP2を用いて生成された、複数のコンテンツに関する第2の圧縮コンテンツ属性データが予め記憶されている。ここで、例えば、第2の圧縮ユーザ嗜好データ及び第2の圧縮コンテンツ属性データの生成に用いられる第2のモデルパラメータP2は、共通するユーザについての第1の圧縮ユーザ嗜好データと第2の圧縮ユーザ嗜好データとの差が複数のユーザにわたって小さくなるように予め学習されたパラメータ群である。
推薦部230の選択部232は、上述した複数の第2の圧縮ユーザ嗜好データ又は第2の圧縮コンテンツ属性データから、圧縮部220により生成された第1の圧縮ユーザ嗜好データとの類似度に応じて少なくとも1つのデータを選択する。より具体的には、選択部232は、例えば、内容ベースフィルタリングの考え方に従って、圧縮部220により生成された第1の圧縮ユーザ嗜好データとの類似度の高い第2の圧縮コンテンツ属性データを選択してもよい。ここでの類似度とは、例えば、ベクトル間の標準内積、ユークリッド距離の符号反転、又はコサイン距離などとして計算され得る。そして、選択部232は、選択した少なくとも1つの圧縮コンテンツ属性データに対応するコンテンツ識別子などを、送信部234へ出力する。また、選択部232は、例えば、協調フィルタリングの考え方に従って、圧縮部220により生成された第1の圧縮ユーザ嗜好データとの類似度の高い第2の圧縮ユーザ嗜好データを選択してもよい。そうした場合には、例えば、選択部232により選択された第2の圧縮ユーザ嗜好データに対応するユーザが過去に利用したコンテンツを特定するコンテンツ識別子などが、送信部234へ出力される。
送信部234は、例えば、選択部232から入力されたコンテンツ識別子に応じて推薦結果(コンテンツ識別子の一覧、又は推薦結果を表示するWebページなど)を生成し、例えば図1に示した端末装置10などの外部装置へ送信する。
ここでの説明から理解されるように、情報処理装置200は、第1のコンテンツ領域に対応するデータ空間D1における第1のユーザ嗜好データを用いて、データ空間D2に対応する第2のコンテンツ領域のコンテンツを推薦することができる。かかる推薦処理は、2つの異なるデータ空間D1及びD2におけるデータを共通的な圧縮データ空間D´のデータに圧縮可能なモデルパラメータを学習することにより実現される。このような情報処理装置200による推薦処理により、例えば、音楽、映像、書籍、ニュース記事などの様々なコンテンツ領域をまたがって、ユーザに見合ったコンテンツを領域横断的に推薦することが可能となる。
また、データ空間D1及びD2は、異なるコンテンツ領域に対応するデータ区間に限定されない。即ち、データ空間D1及びD2は、例えば同一のコンテンツ領域について定義された異なるデータ項目を有するデータ空間であってもよい。例えば、同一の“音楽”領域についてのユーザ嗜好データであっても、ユーザ嗜好データを生成するPCや音楽プレーヤなどの装置の種類又は装置を製造したベンダなどが異なる場合には、ユーザ嗜好データのデータ空間が異なることが考えられる。そうした場合にも、本実施形態に係る情報処理装置200によれば、ある1つのデータ空間で生成されたユーザ嗜好データに基づいて、他のデータ空間に属すユーザ嗜好データ又はコンテンツ属性データを用いた推薦を行うことが可能となる。
<4.一実施形態に係るデータ蓄積装置の説明>
さらに、学習装置100により決定されたモデルパラメータP1及びP2を使用すれば、異なるデータ空間D1及びD2において生成されたユーザ嗜好データ及びコンテンツ属性データを共通の圧縮データ空間D´のデータに圧縮して蓄積することができる。それにより、様々な機器において異なるデータ空間のデータとして分散しているユーザ嗜好データを1つのデータ蓄積装置に蓄積し、推薦処理の処理結果の精度を高めることが可能となる。そこで、本節では、複数の機器において生成されたユーザ嗜好データを、上述した学習装置100により決定されたモデルパラメータを使用して1つの圧縮データ空間のデータとして蓄積可能な情報処理装置(データ蓄積装置)について説明する。
図11は、本発明の一実施形態に係るデータ蓄積装置が使用される情報処理システム300の概要を示す模式図である。図11を参照すると、情報処理システム300は、端末装置310及び320、並びに情報処理装置330を含む。
図11の例では、端末装置310の一例として音楽プレーヤが示されているが、端末装置310はかかる例に限定されず任意の装置であってよい。同様に、端末装置320の一例としてテレビジョン受像機が示されているが、端末装置320はかかる例に限定されず任意の装置であってよい。端末装置310及び320はそれぞれ、異なるデータ空間に属すユーザ嗜好データを生成し、情報処理装置330へ送信する。
図12は、端末装置310の論理的な構成を示すブロック図である。図12を参照すると、端末装置310は、第1アプリケーション部311、第1データ生成部312、第1ユーザ嗜好DB313、第1コンテンツ属性DB314、及び第1データ送信部315を備える。
第1アプリケーション部311は、端末装置310を利用するユーザの行動の対象となるコンテンツを扱うアプリケーションである。即ち、ユーザによる第1アプリケーション部311を用いたコンテンツの再生又は実行などの行動に応じて、後述する第1のユーザ嗜好データが生成される。第1アプリケーション部311を用いたユーザによる行動に関する情報は、第1データ生成部312へ出力される。
第1データ生成部312は、第1アプリケーション部311から上述したユーザの行動に関する情報を受け取ると、第1コンテンツ属性DB314に予め記憶されている第1のコンテンツ属性データを用いて、第1のデータ空間に属す第1のユーザ嗜好データを生成する。第1のデータ空間とは、例えば、第1アプリケーション部311が音楽再生用アプリケーションである場合には、“音楽”領域に対応するデータ空間などとなる。第1データ生成部312による第1のユーザ嗜好データの生成処理は、例えば、図4を用いて説明した内容ベースフィルタリングに従った処理であってもよい。第1データ生成部312は、生成した第1のユーザ嗜好データを、第1ユーザ嗜好DB313へ格納する。
第1データ送信部315は、例えば、第1データ生成部312により生成された第1のユーザ嗜好データを第1ユーザ嗜好DB313から取得し、図11に示した情報処理装置330へ送信する。また、第1データ送信部315は、第1コンテンツ属性DB314から取得した第1のデータ空間に属す第1のコンテンツ属性データを情報処理装置330へ送信してもよい。第1データ送信部315による情報処理装置330へのデータの送信処理は、例えば、ユーザが第1アプリケーション部311を使用したとき、又は予め与えられる所定の時間間隔で行われてよい。
図13は、端末装置320の論理的な構成を示すブロック図である。図13を参照すると、端末装置320は、第2アプリケーション部321、第2データ生成部322、第2ユーザ嗜好DB323、第2コンテンツ属性DB324、及び第2データ送信部325を備える。
第2アプリケーション部321は、端末装置320を利用するユーザの行動の対象となるコンテンツを扱うアプリケーションである。即ち、ユーザによる第2アプリケーション部321を用いたコンテンツの再生又は実行などの行動に応じて、後述する第2のユーザ嗜好データが生成される。第2アプリケーション部321を用いたユーザによる行動に関する情報は、第2データ生成部322へ出力される。
第2データ生成部322は、第2アプリケーション部321から上述したユーザの行動に関する情報を受け取ると、第2コンテンツ属性DB324に予め記憶されている第2のコンテンツ属性データを用いて、第2のデータ空間に属す第2のユーザ嗜好データを生成する。第2のデータ空間とは、例えば、第2アプリケーション部321がテレビジョン番組を表示するテレビジョン受像機である場合には、“テレビジョン番組”領域に対応するデータ空間などとなる。第2データ生成部322による第2のユーザ嗜好データの生成処理は、例えば、図4を用いて説明した内容ベースフィルタリングに従った処理であってもよい。第2データ生成部322は、生成した第2のユーザ嗜好データを、第2ユーザ嗜好DB323へ格納する。
第2データ送信部325は、例えば、第2データ生成部322により生成された第2のユーザ嗜好データを第2ユーザ嗜好DB323から取得し、図11に示した情報処理装置330へ送信する。また、第2データ送信部325は、第2コンテンツ属性DB324から取得した第2のデータ空間に属す第2のコンテンツ属性データを情報処理装置330へ送信してもよい。第2データ送信部325による情報処理装置330へのデータの送信処理は、上述した第1データ送信部315による送信処理と同様、例えば、ユーザが第2アプリケーション部321を使用したとき、又は予め与えられる所定の時間間隔で行われてよい。
図14は、情報処理装置330の論理的な構成を示すブロック図である。図14を参照すると、情報処理装置330は、データ受信部332、第1データ取得部334、第2データ取得部336、第1圧縮部338、及び第2圧縮部340を備える。さらに、情報処理装置330は、識別子同定DB350、パラメータDB352、圧縮ユーザ嗜好DB354、及び圧縮コンテンツ属性DB356を備える。
データ受信部332は、上述した端末装置310及び端末装置320から送信されるユーザ嗜好データ又はコンテンツ属性データを受信する。ここで、端末装置310及び端末装置320から送信されるユーザ嗜好データに含まれるユーザ識別子、又はコンテンツ属性データに含まれるコンテンツ識別子は、必ずしも端末装置間で統一されているとは限らない。そこで、データ受信部332は、識別子同定DB350に予め記憶されている識別子の対応テーブルを用いて、受信したデータと関連付けられるユーザ又はコンテンツを同定する。そして、データ受信部332は、同定したユーザ又はコンテンツに対応するデータ空間に応じて、受信したデータを第1データ取得部334又は第2データ取得部336へ出力する。
第1データ取得部334は、データ受信部332が受信したデータのうち、第1のデータ空間に属す第1のユーザ嗜好データ又は第1のコンテンツ属性データを取得し、第1圧縮部338へ出力する。一方、第2データ取得部336は、データ受信部332が受信したデータのうち、第2のデータ空間に属す第2のユーザ嗜好データ又は第2のコンテンツ属性データを取得し、第2圧縮部340へ出力する。
第1圧縮部338は、パラメータDB352に予め記憶されている第1のパラメータ群を用いて、例えば、第1データ取得部334により入力された第1のユーザ嗜好データから、よりデータ項目数の少ない第1の圧縮ユーザ嗜好データを生成する。そして、第1圧縮部338は、生成した第1の圧縮ユーザ嗜好データを圧縮ユーザ嗜好DB354へ出力して記録させる。また、第1圧縮部338は、第1データ取得部334により入力された第1のコンテンツ属性データを圧縮して圧縮コンテンツ属性DB356に記録させてもよい。
また、第2圧縮部340は、パラメータDB352に予め記憶されている第2のパラメータ群を用いて、例えば、第2データ取得部336により入力された第2のユーザ嗜好データから、よりデータ項目数の少ない第2の圧縮ユーザ嗜好データを生成する。そして、第2圧縮部340は、生成した第2の圧縮ユーザ嗜好データを圧縮ユーザ嗜好DB354へ出力して記録させる。また、第2圧縮部340は、第2データ取得部336により入力された第2のコンテンツ属性データを圧縮して圧縮コンテンツ属性DB356に記録させてもよい。
ここで、パラメータDB352に予め記憶されている第1及び第2のパラメータ群は、例えば、上述した学習装置100による学習処理を経て決定されたマルチトピックモデルにおけるモデルパラメータなどに相当する。即ち、本実施形態に係る第1及び第2のパラメータ群は、共通するユーザについての第1の圧縮ユーザ嗜好データと第2の圧縮ユーザ嗜好データとの差が複数のユーザにわたって小さくなるように学習されたパラメータ群である。従って、本実施形態に係る情報処理装置330によれば、端末装置310及び320によりそれぞれ生成されたデータを、共通的な圧縮データ空間に属すデータとして各DBに蓄積することができる。このとき、共通するユーザの第1の圧縮ユーザ嗜好データと第2の圧縮ユーザ嗜好データとを所定の比率を乗じて足し合わせて第3の圧縮ユーザ嗜好データを計算し、当該第3の圧縮ユーザ嗜好データをデータベースに蓄積してもよい。第1の圧縮ユーザ嗜好データ及び第2の圧縮ユーザ嗜好データに乗算される比率は、例えば、機器ごとのユーザ履歴に含まれる履歴数などに応じて決定され得る。このように共通的な圧縮データ空間のデータとしてユーザ嗜好データ及びコンテンツ属性データを蓄積することで、様々な機器に分散するデータを1つのデータベースに集約して有効活用し、当該データを用いた推薦処理の精度を高めることが可能となる。
なお、ここでは、端末装置310及び320が異なる種類の装置である例について説明した。しかしながら、例えば端末装置310及び320の装置の種類は同じであって、ベンダや取扱い言語が異なるためにユーザ嗜好データ等のデータ空間が異なる場合についても、情報処理装置330によるデータ蓄積の効果は同様に期待できる。
<5.一実施形態に係るデータ変換装置の説明>
学習装置100により決定されたモデルパラメータP1及びP2は、各データ空間を構成するデータ項目の、共通的な圧縮データ空間における特徴を表していると考えることもできる。よって、異なるデータ空間に属す2つのデータ項目に対応するモデルパラメータP1及びP2のパラメータ値が類似していれば、その2つのデータ項目同士に類似性が認められるとみなすことができる。従って、学習装置100により決定されたモデルパラメータP1及びP2に基づいて、ある1つのデータ空間において生成されたユーザ嗜好データ又はコンテンツ属性データを、他のデータ空間に属すデータとマッピングすることができる。それにより、ユーザ嗜好データ又はコンテンツ属性データを異なるデータ空間の間で相互に変換して流通又は再利用させ、例えば推薦サービスの提供の機会を増加させることができる。そこで、本節では、ある1つのデータ空間において生成されたユーザ嗜好データ又はコンテンツ属性データを、他のデータ空間に属すデータに変換可能な情報処理装置(データ変換装置)について説明する。
図15は、本発明の一実施形態に係るデータ変換装置が使用される情報処理システム400の概要を示す模式図である。図15を参照すると、情報処理システム400は、推薦装置410及び420、端末装置412及び422、並びに情報処理装置430を含む。
推薦装置410は、データ空間D1に属す第1のコンテンツ属性データ及び第1のユーザ嗜好データを用いて、端末装置412に推薦サービスを提供する推薦装置である。端末装置412は、推薦装置410からデータ空間D1に対応する領域のコンテンツの推薦結果を受信し、ユーザに提示する。
一方、推薦装置420は、データ空間D1と異なるデータ空間D2に属す第2のコンテンツ属性データ及び第2のユーザ嗜好データを用いて、端末装置422に推薦サービスを提供する推薦装置である。端末装置422は、推薦装置420からデータ空間D2に対応する領域のコンテンツの推薦結果を受信し、ユーザに提示する。
情報処理装置430は、このような2つの推薦装置410及び420の間で、第1のデータ空間に属す第1のユーザ嗜好データを、第1のデータ空間と異なる第2のデータ空間に属す第2のユーザ嗜好データに変換する。
図16は、情報処理装置430の論理的な構成の一例を示すブロック図である。図16を参照すると、情報処理装置430は、パラメータDB432、マッピング部434、及び変換部436を備える。
パラメータDB432は、データ空間D1に属す第1のユーザ嗜好データから第1の圧縮ユーザ嗜好データを生成するための第1のパラメータ群、及びデータ空間D2に属す第2のユーザ嗜好データから第2の圧縮ユーザ嗜好データを生成するための第2のパラメータ群を記憶している。これら第1及び第2のパラメータ群は、上述した学習装置100を用いて、共通するユーザについての第1の圧縮ユーザ嗜好データと第2の圧縮ユーザ嗜好データとの差が複数のユーザにわたって小さくなるように学習されたパラメータ群である。第1及び第2のパラメータ群は、それぞれマルチトピックモデルに従ったモデルパラメータであってよい。
マッピング部434は、パラメータDB432から取得した上述した第1及び第2のパラメータ群のデータ項目ごとのパラメータ値の類似度に応じて、第1のユーザ嗜好データのデータ項目と第2のユーザ嗜好データのデータ項目との間の対応関係を決定する。
図17は、マッピング部434による対応関係の決定処理について説明するための説明図である。
図17を参照すると、データ空間D1のデータ項目としての属性a1〜aN、及びデータ空間D2のデータ項目としての属性b1〜bMが示されている。また、これらデータ空間D1及びD2において上述した学習により決定された第1のモデルパラメータPa(i=1〜k)及び第2のモデルパラメータPb(j=1〜k)もまた示されている。
図17において、例えばデータ空間D1の属性a2に着目すると、属性a2の共通的な圧縮データ空間と関連付けられる特徴を、第1のモデルパラメータPaのk個のパラメータ値を要素とするベクトル(0.1,0.3,…,0.1)で表すことができる。本明細書では、このような特定のデータ項目に着目した場合のモデルパラメータのパラメータ値を要素とするベクトルを、当該データ項目のインデックスという。そうすると、N次元のデータ空間D1についてはN個のデータ項目のインデックス、M次元のデータ空間D2についてはM個のデータ項目のインデックスがそれぞれ取得される。
マッピング部434は、例えば、異なる2つのデータ空間D1及びD2からデータ項目ごとにこのようなインデックスを取得し、データ項目同士のインデックスの類似度を計算する。インデックスの類似度とは、例えば、ベクトル間の標準内積、ユークリッド距離の符号反転、又はコサイン距離などであってよい。そして、マッピング部434は、例えば、データ空間D2の各データ項目について、それぞれインデックスの類似度が最も高いデータ空間D1のデータ項目を決定する。
例えば、図17の例では、データ空間D2の属性b1と最も類似度の高いデータ空間D1のデータ項目は属性a2である。また、データ空間D2の属性b2と最も類似度の高いデータ空間D1のデータ項目は属性a3である。また、データ空間D2の属性bMと最も類似度の高いデータ空間D1のデータ項目は属性a1である。マッピング部434は、例えば、このように決定したデータ空間D1からデータ空間D2へのデータ項目の対応関係を、変換部436へ出力する。
変換部436は、マッピング部434により決定されたデータ空間D1及びD2のデータ項目の対応関係に従って、例えば図15に示した推薦装置410から受信した第1のユーザ嗜好データを、第2のユーザ嗜好データに変換する。
図18は、変換部436によるデータ変換処理について説明するための説明図である。
図18には、マッピング部434により決定されたデータ空間D1及びD2のデータ項目の対応関係が示されている。ここでは、データ空間D1の属性a2がデータ空間D2の属性b1に、データ空間D1の属性a3がデータ空間D2の属性b2に、データ空間D1の属性a1がデータ空間D2の属性bMに対応付けられている。また、図18には、例えば図15に示した推薦装置410から受信された第1のユーザ嗜好データUP1も示されている。ここでは、第1のユーザ嗜好データUP1=(1.0,0.0,0.2,…,2.0)である。
変換部436は、例えば、図示した対応関係に従って、第1のユーザ嗜好データUP1から属性b1、b2、…、bMに対応するデータ値を順に取得し、第2のユーザ嗜好データUP2を生成する。この場合、第1のユーザ嗜好データUP2は、上述した対応関係に従って、UP2=(0.0,0.2,…,1.0)となる。変換部436により変換された第2のユーザ嗜好データUP2は、例えば図15に示した推薦装置420へ出力される。
このように異なるデータ空間の間でユーザ嗜好データを相互に変換することができれば、様々なデータ空間において生成され得るユーザ嗜好データを機器間又はシステム間で流通又は再利用することが可能となる。このとき、各機器又は各システムに実装された既存のアプリケーションやデータベースに変更を加える必要が無いため、追加的なコストを要することなく、それらアプリケーションやデータベースを活用して推薦サービスの提供の機会を増加させることができる。
[変形例]
図19は、データ変換装置の変形例に係る情報処理装置530の論理的な構成の一例を示すブロック図である。図19を参照すると、情報処理装置530は、パラメータDB532、圧縮部534、及び変換部536を備える。
パラメータDB532は、図16に示したパラメータDB432と同様に第1及び第2のパラメータ群を記憶している。これら第1及び第2のパラメータ群は、上述した学習装置100を用いて学習されたパラメータ群である。例えば、第1及び第2のパラメータ群は、それぞれマルチトピックモデルに従ったモデルパラメータであってよい。
圧縮部534は、パラメータDB532から取得した上述した第1のパラメータ群を用いて、変換部536から入力される第1のユーザ嗜好データから第1の圧縮ユーザ嗜好データを生成する。そして、圧縮部534は、生成した第1の圧縮ユーザ嗜好データを変換部536へ出力する。
変換部536は、圧縮部534により第1の圧縮ユーザ嗜好データが生成されると、パラメータDB532に記憶されている第2のパラメータ群を用いて当該第1の圧縮ユーザ嗜好データと等しい第2の圧縮ユーザ嗜好データを生成し得る、尤もらしい第2のユーザ嗜好データを決定する。より具体的には、例えば、変換部536は、第1の圧縮ユーザ嗜好データと等しい第2の圧縮ユーザ嗜好データを生成し得る第2のユーザ嗜好データを、式(1)の確率分布に従って所定の試行回数だけ生じさせる。ここで、所定の試行回数とは、第1のユーザ嗜好データをベクトルとみなしたときの絶対値が大きいほど多い回数とするのが好適である。変換部536は、例えばこのように決定した第2のユーザ嗜好データを、ユーザ嗜好データの変換結果として出力してもよい。
<6.まとめ>
ここまで、図8〜図19を用いて、本発明の一実施形態に係る学習装置、推薦装置、データ蓄積装置、及びデータ変換装置について詳細に説明した。これら実施形態によれば、データ空間が異なる領域の間でユーザの嗜好やコンテンツの属性を共通的に扱うことが可能となり、領域横断的な推薦の実現、推薦結果の精度の向上、推薦サービスの提供機会の増加などといった効果を期待することができる。
なお、本明細書において説明した各実施形態に係る一連の処理をハードウェアで実現するかソフトウェアで実現するかは問わない。一連の処理又はその一部をソフトウェアで実行させる場合には、ソフトウェアを構成するプログラムが、専用のハードウェアに組み込まれたコンピュータ、又は例えば図20に示した汎用コンピュータなどを用いて実行される。
図20において、CPU(Central Processing Unit)902は、汎用コンピュータの動作全般を制御する。ROM(Read Only Memory)904には、一連の処理の一部又は全部を記述したプログラム又はデータが格納される。RAM(Random Access Memory)906には、処理の実行時にCPU902により用いられるプログラムやデータなどが一時的に記憶される。
CPU902、ROM904、及びRAM906は、バス910を介して相互に接続される。バス910にはさらに、入出力インタフェース912が接続される。
入出力インタフェース912は、CPU902、ROM904、及びRAM906と、入力装置920、出力装置922、記憶装置924、通信装置926、及びドライブ930とを接続するためのインタフェースである。
入力装置920は、例えばマウスやキーボード、タッチパネル、ボタン、又はスイッチなどの入力装置を介して、ユーザからの指示や情報入力を受け付ける。出力装置922は、例えばCRT、PDP、液晶ディスプレイ、OLEDなどの表示装置、又はスピーカなどの音声出力装置を介してユーザに情報を出力する。
記憶装置924は、例えばハードディスクドライブ又はフラッシュメモリなどにより構成され、プログラムやデータを記憶する。通信装置926は、LAN又はインターネットなどのネットワークを介する通信処理を行う。ドライブ930は、必要に応じて汎用コンピュータに設けられ、例えばドライブ930にはリムーバブルメディア932が装着される。
上述した一連の処理をソフトウェアで実行する場合には、例えば図20に示したROM904、記憶装置924、又はリムーバブルメディア932に格納されたプログラムが、実行時にRAM906に読み込まれ、CPU902によって実行される。
以上、添付図面を参照しながら本発明の好適な実施形態について詳細に説明したが、本発明はかかる例に限定されない。本発明の属する技術の分野における通常の知識を有する者であれば、特許請求の範囲に記載された技術的思想の範疇内において、各種の変更例または修正例に想到し得ることは明らかであり、これらについても、当然に本発明の技術的範囲に属するものと了解される。
例えば、本明細書では、異なる2つのデータ空間に対応する領域の間でユーザの嗜好やコンテンツの属性を共通的に扱うことを可能とする例について説明したが、本発明が3つ以上のデータ空間に対しても同様に適用され得ることは言うまでもない。
100 学習装置
120 第1データ取得部
122 第1圧縮部
132 学習部
140 第2データ取得部
142 第2圧縮部
200 情報処理装置(推薦装置)
210 データ取得部
220 圧縮部
232 選択部
240 記憶部
330 情報処理装置(データ蓄積装置)
334 第1データ取得部
336 第2データ取得部
338 第1圧縮部
340 第2圧縮部
430、530 情報処理装置(データ変換装置)
432、532 パラメータDB(記憶部)
534 圧縮部
436、536 変換部

Claims (19)

  1. 第1のデータ空間に属す第1のユーザ嗜好データを取得する第1データ取得部と;
    前記第1のデータ空間とは異なる第2のデータ空間に属す第2のユーザ嗜好データであって、前記第1のユーザ嗜好データと共通するユーザについての前記第2のユーザ嗜好データを取得する第2データ取得部と;
    第1のパラメータ群を用いて、前記第1のユーザ嗜好データから、よりデータ項目数の少ない第1の圧縮ユーザ嗜好データを生成する圧縮部と;
    前記第2のユーザ嗜好データから前記第1の圧縮ユーザ嗜好データとデータ項目数の等しい第2の圧縮ユーザ嗜好データを生成する際に使用される第2のパラメータ群を、前記第1の圧縮ユーザ嗜好データと前記第2の圧縮ユーザ嗜好データとの差が複数のユーザにわたって小さくなるように学習する学習部と;
    を備える学習装置。
  2. 前記学習部は、前記圧縮部により生成される前記第1の圧縮ユーザ嗜好データを前記第2の圧縮ユーザ嗜好データの教師データとして前記第2のパラメータ群を学習する、請求項1に記載の学習装置。
  3. 前記圧縮部は、マルチトピックモデルに従って前記第1の圧縮ユーザ嗜好データを生成する、請求項1又は請求項2のいずれかに記載の学習装置。
  4. 前記第1のパラメータ群及び前記第2のパラメータ群は、マルチトピックモデルにおけるトピックの固有分布に対応するパラメータ群である、請求項3に記載の学習装置。
  5. 前記第1のデータ空間及び前記第2のデータ空間は、互いに異なるコンテンツ領域に対応するデータ空間である、請求項1に記載の学習装置。
  6. 前記第1のデータ空間及び前記第2のデータ空間は、互いに異なる機器により生成されるユーザ嗜好データのデータ空間である、請求項1に記載の学習装置。
  7. 第1のデータ空間に属す第1のユーザ嗜好データを取得するステップと;
    前記第1のデータ空間とは異なる第2のデータ空間に属す第2のユーザ嗜好データであって、前記第1のユーザ嗜好データと共通するユーザについての前記第2のユーザ嗜好データを取得するステップと;
    第1のパラメータ群を用いて、前記第1のユーザ嗜好データから、よりデータ項目数の少ない第1の圧縮ユーザ嗜好データを生成するステップと;
    前記第2のユーザ嗜好データから前記第1の圧縮ユーザ嗜好データとデータ項目数の等しい第2の圧縮ユーザ嗜好データを生成する際に使用される第2のパラメータ群を、前記第1の圧縮ユーザ嗜好データと前記第2の圧縮ユーザ嗜好データとの差が複数のユーザにわたって小さくなるように学習するステップと;
    を含む学習方法。
  8. 情報処理装置を制御するコンピュータを:
    第1のデータ空間に属す第1のユーザ嗜好データを取得する第1データ取得部と;
    前記第1のデータ空間とは異なる第2のデータ空間に属す第2のユーザ嗜好データであって、前記第1のユーザ嗜好データと共通するユーザについての前記第2のユーザ嗜好データを取得する第2データ取得部と;
    第1のパラメータ群を用いて、前記第1のユーザ嗜好データから、よりデータ項目数の少ない第1の圧縮ユーザ嗜好データを生成する圧縮部と;
    前記第2のユーザ嗜好データから前記第1の圧縮ユーザ嗜好データとデータ項目数の等しい第2の圧縮ユーザ嗜好データを生成する際に使用される第2のパラメータ群を、前記第1の圧縮ユーザ嗜好データと前記第2の圧縮ユーザ嗜好データとの差が複数のユーザにわたって小さくなるように学習する学習部と;
    として機能させるための、プログラム。
  9. 第1のデータ空間に属す第1のユーザ嗜好データを取得するデータ取得部と;
    第1のパラメータ群を用いて、前記第1のユーザ嗜好データから、よりデータ項目数の少ない第1の圧縮ユーザ嗜好データを生成する圧縮部と;
    前記第1のデータ空間とは異なる第2のデータ空間に属す第2のユーザ嗜好データ又はコンテンツ属性データから第2のパラメータ群を用いて生成された、前記第1の圧縮ユーザ嗜好データとデータ項目数の等しい複数のデータを記憶している記憶部と;
    前記記憶部に記憶されている前記複数のデータから、前記圧縮部により生成された前記第1の圧縮ユーザ嗜好データとの類似度に応じて少なくとも1つのデータを選択する選択部と;
    を備え、
    前記記憶部に記憶されている前記複数のデータは、共通するユーザについての前記第1の圧縮ユーザ嗜好データと前記第2のユーザ嗜好データから生成される第2の圧縮ユーザ嗜好データとの差が複数のユーザにわたって小さくなるように学習された前記第2のパラメータ群を用いて、それぞれ予め生成されたデータである、
    情報処理装置。
  10. 第1のデータ空間に属す第1のユーザ嗜好データを取得するステップと;
    第1のパラメータ群を用いて、前記第1のユーザ嗜好データから、よりデータ項目数の少ない第1の圧縮ユーザ嗜好データを生成するステップと;
    前記第1のデータ空間とは異なる第2のデータ空間に属す第2のユーザ嗜好データ又はコンテンツ属性データから第2のパラメータ群を用いて生成された、前記第1の圧縮ユーザ嗜好データとデータ項目数の等しい複数のデータから、前記第1の圧縮ユーザ嗜好データとの類似度に応じて少なくとも1つのデータを選択するステップと;
    を含むデータ選択方法であって、
    前記複数のデータは、共通するユーザについての前記第1の圧縮ユーザ嗜好データと前記第2のユーザ嗜好データから生成される第2の圧縮ユーザ嗜好データとの差が複数のユーザにわたって小さくなるように学習された前記第2のパラメータ群を用いて、それぞれ予め生成されたデータである、
    前記データ選択方法。
  11. 情報処理装置を制御するコンピュータを:
    第1のデータ空間に属す第1のユーザ嗜好データを取得するデータ取得部と;
    第1のパラメータ群を用いて、前記第1のユーザ嗜好データから、よりデータ項目数の少ない第1の圧縮ユーザ嗜好データを生成する圧縮部と;
    前記第1のデータ空間とは異なる第2のデータ空間に属す第2のユーザ嗜好データ又はコンテンツ属性データから第2のパラメータ群を用いて生成された、前記第1の圧縮ユーザ嗜好データとデータ項目数の等しい複数のデータを記憶している記憶部と;
    前記記憶部に記憶されている前記複数のデータから、前記圧縮部により生成された前記第1の圧縮ユーザ嗜好データとの類似度に応じて少なくとも1つのデータを選択する選択部と;
    として機能させるためのプログラムであって、
    前記記憶部に記憶されている前記複数のデータは、共通するユーザについての前記第1の圧縮ユーザ嗜好データと前記第2のユーザ嗜好データから生成される第2の圧縮ユーザ嗜好データとの差が複数のユーザにわたって小さくなるように学習された前記第2のパラメータ群を用いて、それぞれ予め生成されたデータである、
    前記プログラム。
  12. 第1のデータ空間に属す第1のユーザ嗜好データを取得する第1データ取得部と;
    前記第1のデータ空間とは異なる第2のデータ空間に属す第2のユーザ嗜好データを取得する第2データ取得部と;
    第1のパラメータ群を用いて、前記第1のユーザ嗜好データから、よりデータ項目数の少ない第1の圧縮ユーザ嗜好データを生成して記録媒体に記録する第1圧縮部と;
    第2のパラメータ群を用いて、前記第2のユーザ嗜好データから、前記第1の圧縮ユーザ嗜好データとデータ項目数の等しい第2の圧縮ユーザ嗜好データを生成して記録媒体に記録する第2圧縮部と;
    を備え、
    前記第1のパラメータ群又は前記第2のパラメータ群は、共通するユーザについての前記第1の圧縮ユーザ嗜好データと前記第2の圧縮ユーザ嗜好データとの差が複数のユーザにわたって小さくなるように学習されたパラメータ群である、
    情報処理装置。
  13. 第1のデータ空間に属す第1のユーザ嗜好データを取得するステップと;
    前記第1のデータ空間とは異なる第2のデータ空間に属す第2のユーザ嗜好データを取得するステップと;
    第1のパラメータ群を用いて、前記第1のユーザ嗜好データから、よりデータ項目数の少ない第1の圧縮ユーザ嗜好データを生成して記録媒体に記録するステップと;
    第2のパラメータ群を用いて、前記第2のユーザ嗜好データから、前記第1の圧縮ユーザ嗜好データとデータ項目数の等しい第2の圧縮ユーザ嗜好データを生成して記録媒体に記録するステップと;
    を含むデータ蓄積方法であって、
    前記第1のパラメータ群又は前記第2のパラメータ群は、共通するユーザについての前記第1の圧縮ユーザ嗜好データと前記第2の圧縮ユーザ嗜好データとの差が複数のユーザにわたって小さくなるように学習されたパラメータ群である、
    前記データ蓄積方法。
  14. 情報処理装置を制御するコンピュータを:
    第1のデータ空間に属す第1のユーザ嗜好データを取得する第1データ取得部と;
    前記第1のデータ空間とは異なる第2のデータ空間に属す第2のユーザ嗜好データを取得する第2データ取得部と;
    第1のパラメータ群を用いて、前記第1のユーザ嗜好データから、よりデータ項目数の少ない第1の圧縮ユーザ嗜好データを生成して記録媒体に記録する第1圧縮部と;
    第2のパラメータ群を用いて、前記第2のユーザ嗜好データから、前記第1の圧縮ユーザ嗜好データとデータ項目数の等しい第2の圧縮ユーザ嗜好データを生成して記録媒体に記録する第2圧縮部と;
    として機能させるためのプログラムであって、
    前記第1のパラメータ群又は前記第2のパラメータ群は、共通するユーザについての前記第1の圧縮ユーザ嗜好データと前記第2の圧縮ユーザ嗜好データとの差が複数のユーザにわたって小さくなるように学習されたパラメータ群である、
    前記プログラム。
  15. 第1のデータ空間に属す第1のユーザ嗜好データからよりデータ項目数の少ない第1の圧縮ユーザ嗜好データを生成するための第1のパラメータ群、及び、前記第1のデータ空間とは異なる第2のデータ空間に属す第2のユーザ嗜好データから前記第1の圧縮ユーザ嗜好データとデータ項目数の等しい第2の圧縮ユーザ嗜好データを生成するための第2のパラメータ群を記憶している記憶部と;
    前記記憶部に記憶されている前記第1のパラメータ群及び前記第2のパラメータ群に基づいて、前記第1のユーザ嗜好データを前記第2のユーザ嗜好データに変換する変換部と;
    を備え、
    前記第1のパラメータ群又は前記第2のパラメータ群は、共通するユーザについての前記第1の圧縮ユーザ嗜好データと前記第2の圧縮ユーザ嗜好データとの差が複数のユーザにわたって小さくなるように学習されたパラメータ群である、
    情報処理装置。
  16. 前記変換部は、前記第1のパラメータ群と前記第2のパラメータ群との間のデータ項目ごとのパラメータ値の類似度に応じて決定される、前記第1のユーザ嗜好データのデータ項目と前記第2のユーザ嗜好データのデータ項目との対応関係に従って、前記第1のユーザ嗜好データを前記第2のユーザ嗜好データに変換する、請求項15に記載の情報処理装置。
  17. 前記情報処理装置は、
    前記第1のパラメータ群を用いて、前記第1のユーザ嗜好データから前記第1の圧縮ユーザ嗜好データを生成する圧縮部、
    をさらに備え、
    前記変換部は、前記圧縮部により生成される前記第1の圧縮ユーザ嗜好データを前記第2のパラメータ群を用いて生成し得る尤もらしい第2のユーザ嗜好データを、前記第1のユーザ嗜好データから変換される前記第2のユーザ嗜好データとして決定する、
    請求項15に記載の情報処理装置。
  18. 第1のデータ空間に属す第1のユーザ嗜好データからよりデータ項目数の少ない第1の圧縮ユーザ嗜好データを生成するための第1のパラメータ群、及び、前記第1のデータ空間とは異なる第2のデータ空間に属す第2のユーザ嗜好データから前記第1の圧縮ユーザ嗜好データとデータ項目数の等しい第2の圧縮ユーザ嗜好データを生成するための第2のパラメータ群に基づいて、前記第1のユーザ嗜好データを前記第2のユーザ嗜好データに変換するステップ;
    を含むデータ変換方法であって、
    前記第1のパラメータ群又は前記第2のパラメータ群は、共通するユーザについての前記第1の圧縮ユーザ嗜好データと前記第2の圧縮ユーザ嗜好データとの差が複数のユーザにわたって小さくなるように学習されたパラメータ群である、
    前記データ変換方法。
  19. 情報処理装置を制御するコンピュータを:
    第1のデータ空間に属す第1のユーザ嗜好データからよりデータ項目数の少ない第1の圧縮ユーザ嗜好データを生成するための第1のパラメータ群、及び、前記第1のデータ空間とは異なる第2のデータ空間に属す第2のユーザ嗜好データから前記第1の圧縮ユーザ嗜好データとデータ項目数の等しい第2の圧縮ユーザ嗜好データを生成するための第2のパラメータ群を記憶している記憶部と;
    前記記憶部に記憶されている前記第1のパラメータ群及び前記第2のパラメータ群に基づいて、前記第1のユーザ嗜好データを前記第2のユーザ嗜好データに変換する変換部と;
    として機能させるためのプログラムであって、
    前記第1のパラメータ群又は前記第2のパラメータ群は、共通するユーザについての前記第1の圧縮ユーザ嗜好データと前記第2の圧縮ユーザ嗜好データとの差が複数のユーザにわたって小さくなるように学習されたパラメータ群である、
    前記プログラム。
JP2009017190A 2009-01-28 2009-01-28 学習装置、学習方法、情報処理装置、データ選択方法、データ蓄積方法、データ変換方法、及びプログラム Withdrawn JP2010176327A (ja)

Priority Applications (3)

Application Number Priority Date Filing Date Title
JP2009017190A JP2010176327A (ja) 2009-01-28 2009-01-28 学習装置、学習方法、情報処理装置、データ選択方法、データ蓄積方法、データ変換方法、及びプログラム
US12/688,647 US8468105B2 (en) 2009-01-28 2010-01-15 Learning apparatus, learning method, information processing apparatus, data selection method, data accumulation method, data conversion method and program
CN2010101057935A CN101840410B (zh) 2009-01-28 2010-01-28 学习装置和方法、信息处理装置和方法以及程序

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
JP2009017190A JP2010176327A (ja) 2009-01-28 2009-01-28 学習装置、学習方法、情報処理装置、データ選択方法、データ蓄積方法、データ変換方法、及びプログラム

Publications (1)

Publication Number Publication Date
JP2010176327A true JP2010176327A (ja) 2010-08-12

Family

ID=42354950

Family Applications (1)

Application Number Title Priority Date Filing Date
JP2009017190A Withdrawn JP2010176327A (ja) 2009-01-28 2009-01-28 学習装置、学習方法、情報処理装置、データ選択方法、データ蓄積方法、データ変換方法、及びプログラム

Country Status (3)

Country Link
US (1) US8468105B2 (ja)
JP (1) JP2010176327A (ja)
CN (1) CN101840410B (ja)

Cited By (8)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2012098975A (ja) * 2010-11-04 2012-05-24 Hitachi Ltd アイテムの推薦方法及び装置
JP2012118659A (ja) * 2010-11-30 2012-06-21 Nippon Telegr & Teleph Corp <Ntt> 情報検索装置、情報検索方法及びそのプログラム
WO2014027415A1 (ja) * 2012-08-16 2014-02-20 株式会社Jx通信社 情報提供装置、情報提供方法、及びプログラム
JP2017204134A (ja) * 2016-05-11 2017-11-16 日本電信電話株式会社 属性推定装置、属性推定方法およびプログラム
JP2017204133A (ja) * 2016-05-11 2017-11-16 日本電信電話株式会社 推定装置、推定方法およびプログラム
US10410114B2 (en) 2015-09-18 2019-09-10 Samsung Electronics Co., Ltd. Model training method and apparatus, and data recognizing method
JP2020506511A (ja) * 2017-01-27 2020-02-27 シグニファイ ホールディング ビー ヴィSignify Holding B.V. 照明システム用の推薦エンジン
WO2022049680A1 (ja) * 2020-09-02 2022-03-10 日本電気株式会社 結合テーブル特定システム、結合テーブル探索装置、方法およびプログラム

Families Citing this family (23)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US8612463B2 (en) * 2010-06-03 2013-12-17 Palo Alto Research Center Incorporated Identifying activities using a hybrid user-activity model
US9112926B2 (en) * 2011-04-04 2015-08-18 Qualcomm, Incorporated Recommending mobile content by matching similar users
CN102833295B (zh) * 2011-06-17 2017-11-10 南京中兴新软件有限责任公司 分布式缓存系统中的数据操作方法和装置
CN102959539B (zh) * 2011-06-29 2015-09-23 华为技术有限公司 一种业务交叉时的项目推荐方法及系统
US8996549B2 (en) * 2011-10-11 2015-03-31 Microsoft Technology Licensing, Llc Recommending data based on user and data attributes
CN102999553B (zh) * 2011-10-11 2016-02-24 微软技术许可有限责任公司 基于用户和数据属性推荐数据
US20140074650A1 (en) * 2012-03-01 2014-03-13 Qloo, Inc. Personalized cross-domain recommender system
US20130232412A1 (en) * 2012-03-02 2013-09-05 Nokia Corporation Method and apparatus for providing media event suggestions
US9396758B2 (en) 2012-05-01 2016-07-19 Wochit, Inc. Semi-automatic generation of multimedia content
US9524751B2 (en) 2012-05-01 2016-12-20 Wochit, Inc. Semi-automatic generation of multimedia content
US20130294746A1 (en) * 2012-05-01 2013-11-07 Wochit, Inc. System and method of generating multimedia content
WO2015006942A1 (en) * 2013-07-17 2015-01-22 Nokia Corporation A method and apparatus for learning user preference with preservation of privacy
CN103442269B (zh) * 2013-09-17 2017-03-15 北京奇艺世纪科技有限公司 一种推送节目信息的方法及装置
US10049656B1 (en) 2013-09-20 2018-08-14 Amazon Technologies, Inc. Generation of predictive natural language processing models
US9553904B2 (en) 2014-03-16 2017-01-24 Wochit, Inc. Automatic pre-processing of moderation tasks for moderator-assisted generation of video clips
US9635529B2 (en) * 2014-06-05 2017-04-25 Empire Technology Development Llc PAPR adjustment using precoder data
US9659219B2 (en) 2015-02-18 2017-05-23 Wochit Inc. Computer-aided video production triggered by media availability
US10970629B1 (en) * 2017-02-24 2021-04-06 Amazon Technologies, Inc. Encodings for reversible sparse dimensionality reduction
US20190066186A1 (en) * 2017-08-24 2019-02-28 Artivatic Data Labs Private Limited Cross domain recommendation system and method
US20190347349A1 (en) * 2018-05-08 2019-11-14 Comcast Cable Communications, Llc Using contextual data to recommend relevant content
US11604844B2 (en) * 2018-11-05 2023-03-14 Samsung Electronics Co., Ltd. System and method for cross-domain recommendations
US11494734B2 (en) * 2019-09-11 2022-11-08 Ila Design Group Llc Automatically determining inventory items that meet selection criteria in a high-dimensionality inventory dataset
US11978059B2 (en) * 2020-02-20 2024-05-07 Dell Products L.P. Guided problem resolution using machine learning

Family Cites Families (5)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US8352331B2 (en) * 2000-05-03 2013-01-08 Yahoo! Inc. Relationship discovery engine
US7412202B2 (en) * 2001-04-03 2008-08-12 Koninklijke Philips Electronics N.V. Method and apparatus for generating recommendations based on user preferences and environmental characteristics
JP2006215867A (ja) 2005-02-04 2006-08-17 Sony Corp 情報処理システム、情報提供装置および方法、情報処理装置および方法、並びにプログラム
JP4240096B2 (ja) 2006-09-21 2009-03-18 ソニー株式会社 情報処理装置および方法、プログラム並びに記録媒体
US20100245361A1 (en) * 2009-03-31 2010-09-30 Microsoft Corporation Context-based management of markers

Cited By (12)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2012098975A (ja) * 2010-11-04 2012-05-24 Hitachi Ltd アイテムの推薦方法及び装置
JP2012118659A (ja) * 2010-11-30 2012-06-21 Nippon Telegr & Teleph Corp <Ntt> 情報検索装置、情報検索方法及びそのプログラム
WO2014027415A1 (ja) * 2012-08-16 2014-02-20 株式会社Jx通信社 情報提供装置、情報提供方法、及びプログラム
JPWO2014027415A1 (ja) * 2012-08-16 2016-07-25 株式会社Jx通信社 情報提供装置、情報提供方法、及びプログラム
US10410114B2 (en) 2015-09-18 2019-09-10 Samsung Electronics Co., Ltd. Model training method and apparatus, and data recognizing method
JP2017204134A (ja) * 2016-05-11 2017-11-16 日本電信電話株式会社 属性推定装置、属性推定方法およびプログラム
JP2017204133A (ja) * 2016-05-11 2017-11-16 日本電信電話株式会社 推定装置、推定方法およびプログラム
JP2020506511A (ja) * 2017-01-27 2020-02-27 シグニファイ ホールディング ビー ヴィSignify Holding B.V. 照明システム用の推薦エンジン
WO2022049680A1 (ja) * 2020-09-02 2022-03-10 日本電気株式会社 結合テーブル特定システム、結合テーブル探索装置、方法およびプログラム
JPWO2022049680A1 (ja) * 2020-09-02 2022-03-10
JP7424501B2 (ja) 2020-09-02 2024-01-30 日本電気株式会社 結合テーブル特定システム、結合テーブル探索装置、方法およびプログラム
US12222916B2 (en) 2020-09-02 2025-02-11 Nec Corporation Coupling table specification system, coupling table search device, method, and program

Also Published As

Publication number Publication date
CN101840410B (zh) 2013-09-11
US8468105B2 (en) 2013-06-18
CN101840410A (zh) 2010-09-22
US20100191682A1 (en) 2010-07-29

Similar Documents

Publication Publication Date Title
JP2010176327A (ja) 学習装置、学習方法、情報処理装置、データ選択方法、データ蓄積方法、データ変換方法、及びプログラム
US9864747B2 (en) Content recommendation device, recommended content search method, and program
US8589434B2 (en) Recommendations based on topic clusters
US8380727B2 (en) Information processing device and method, program, and recording medium
US10152517B2 (en) System and method for identifying similar media objects
US8650140B2 (en) Information processing apparatus and method, and program thereof
Sieg et al. Improving the effectiveness of collaborative recommendation with ontology-based user profiles
US20110208750A1 (en) Information processing device, importance calculation method, and program
WO2019183173A1 (en) Recommendations based on object detected in an image
Lai et al. Novel personal and group-based trust models in collaborative filtering for document recommendation
JPWO2012118087A1 (ja) レコメンダシステム、レコメンド方法、及びプログラム
WO2012160693A1 (ja) 情報検索方法、情報検索装置及び記憶媒体
US8997008B2 (en) System and method for searching through a graphic user interface
JP2011227717A (ja) 情報提示装置
JP2007058842A (ja) 情報処理装置、特徴抽出方法、記録媒体、および、プログラム
CN111651678B (zh) 一种基于知识图谱的个性化推荐方法
US8954414B2 (en) Search model updates
JP2018073429A (ja) 検索装置、検索方法および検索プログラム
EP2849095A1 (en) Information processing device, information processing method, and program
Liu et al. Online recommendations based on dynamic adjustment of recommendation lists
JP5416063B2 (ja) コンテンツ推薦装置,コンテンツ推薦プログラムおよびその記録媒体
US10529000B1 (en) System and method for automatically tagging products for an e-commerce web application and providing product recommendations
JP2014038480A (ja) 情報処理装置、情報処理方法及びプログラム
JPWO2003017137A1 (ja) ユーザプロファイル管理装置および推薦装置
JP2004240887A (ja) 検索情報表示システム及び検索キーワード情報表示方法及び検索キーワード情報表示プログラム

Legal Events

Date Code Title Description
A300 Application deemed to be withdrawn because no request for examination was validly filed

Free format text: JAPANESE INTERMEDIATE CODE: A300

Effective date: 20120403