JP2017004493A - データ分析方法、データ分析装置およびプログラム - Google Patents
データ分析方法、データ分析装置およびプログラム Download PDFInfo
- Publication number
- JP2017004493A JP2017004493A JP2016020209A JP2016020209A JP2017004493A JP 2017004493 A JP2017004493 A JP 2017004493A JP 2016020209 A JP2016020209 A JP 2016020209A JP 2016020209 A JP2016020209 A JP 2016020209A JP 2017004493 A JP2017004493 A JP 2017004493A
- Authority
- JP
- Japan
- Prior art keywords
- matrix
- columns
- rows
- data analysis
- row
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Pending
Links
Images
Landscapes
- Complex Calculations (AREA)
Abstract
【課題】多様な情報を反映したクラスタリングを可能とする。【解決手段】データ分生方法は、N個の第1対象物のそれぞれと、M個の第2対象物のそれぞれとの関連度を示すN行M列の基礎行列を、3つの行列に分解して第1対象物および前記第2対象物の少なくとも一つをクラスタリングする。データ分析方法は、基礎行列の各要素に対して、関連度を示す値が入力された基礎行列を取得する取得ステップと、第1対象物のクラスタ数を示すKと、第2対象物のクラスタ数を示すLとを設定する設定ステップと、3つの行列を、N行K列の第1行列と、K行L列の行列の第2行列と、L行M列の第3行列とし、第1行列、第2行列および第3行列の積が、基礎行列に近似するように、第1行列、第2行列および第3行列に分解する分解ステップと、第1行列、第2行列および第3行列の少なくとも一つを出力することで、クラスタリング結果を出力する出力ステップと、を含む。【選択図】図6
Description
本発明は、データ分析方法、データ分析装置およびプログラムに関する。
近年、ネットワーク化が進み、様々な機器を介して様々なデータが収集され蓄積されるようになった。様々なデータとはWEBサイトのアクセス情報であったり、顧客の購買履歴であったり、番組の録画視聴履歴であったり、顧客の年齢・性別などの情報である。そのなかで、購買履歴や録画履歴などを用いて、ユーザを、好みなどの属性ごとにクラスタリングし、商品をお勧めするなどのレコメンドサービスが行われている。現在知られているクラスタリングの方法として、NMFや、さらにそのNMFを拡張したTri−NMFという行列分解方法が提案されている(例えば非特許文献1)。非特許文献1では、入力データとなる行列を3つの行列の積で近似できるような行列分解を行うことで、その3つの内の1つの行列を用いてクラスタリングを行っている。
Orthogonal Nonnegative Matrix Tri-Factorizations for Clustering
より多様な情報を反映したクラスタリングが求められている。
そこで、本発明は、多様な情報を反映したクラスタリングが可能なデータ分析方法、データ分析装置およびプログラムを提供する。
本発明の一態様に係るデータ分析方法は、N個の第1対象物のそれぞれと、M個の第2対象物のそれぞれとの関連度を示すN行M列の基礎行列を、3つの行列に分解して第1対象物および第2対象物のうち少なくとも一つをクラスタリングするデータ分析方法であって、基礎行列の各要素に対して、関連度を示す値が入力された基礎行列を取得する取得ステップと、第1対象物のクラスタ数を示すKと、第2対象物のクラスタ数を示すLとを設定する設定ステップと、3つの行列を、N行K列の第1行列と、K行L列の行列であって、特定の1行および特定の1列の少なくとも一方の各要素に、所定範囲に収まる数値が格納されている第2行列と、L行M列の第3行列とし、第1行列、第2行列および第3行列の積が、基礎行列に近似するように、第1行列、第2行列および第3行列に分解する分解ステップと、第1行列、第2行列および第3行列の少なくとも一つを出力することで、第1対象物および第2対象物のうち少なくとも一つのクラスタリング結果を出力する出力ステップと、を含む。
なお、これらの包括的または具体的な態様は、システム、方法、集積回路、コンピュータプログラムまたはコンピュータ読み取り可能なCD−ROMなどの記録媒体で実現されてもよく、システム、方法、集積回路、コンピュータプログラムおよび記録媒体の任意な組み合わせで実現されてもよい。
本発明のデータ分析方法、データ分析装置およびプログラムは、多様な情報を反映したクラスタリングが可能となる。
(本発明の基礎となった知見)
本発明者は、「背景技術」の欄において記載した方法に関し、以下の問題が生じることを見出した。
本発明者は、「背景技術」の欄において記載した方法に関し、以下の問題が生じることを見出した。
購買履歴や録画履歴などを収集する場合、収集できるデータは、ある人が、「ある商品を購入した」、または「ある番組を録画した」という情報のみが収集されていて、「商品を購入していない」、「番組を録画していない」という情報は直接的には収集できてはいない。以下、説明の便宜上、収集データが録画履歴に関するデータである場合を例示して説明する。すなわち、「録画していない」という情報は、「録画した」という情報が蓄積されているため、「蓄積されていない」=「録画していない」というように逆算で求められる。つまり、「録画した」という情報は、「ユーザがその番組が好きだから録画した」というように考えられるが、「録画していない」という情報には、「ユーザがその番組が嫌いだから録画していない」という意味と、「ユーザがそもそもその番組の存在を知らない」という意味との2種類の意味が考えられる。しかしながら、非特許文献1の方法では、それらの2種類の「録画していない」という情報は考慮されず、「録画した」=「その番組が好き」という情報のみを考慮してクラスタリングが行われている。つまり、その番組が「嫌いである」という情報は全く考慮されていないことになる。
このため、「嫌いである」という情報を考慮したクラスタリングを可能とすることで、多様な情報を反映したクラスタリングを可能とする。
このような問題を解決するため、本発明の一態様にかかるデータ分析方法は、N個の第1対象物のそれぞれと、M個の第2対象物のそれぞれとの関連度を示すN行M列の基礎行列を、3つの行列に分解して第1対象物および第2対象物のうち少なくとも一つをクラスタリングするデータ分析方法であって、基礎行列の各要素に対して、関連度を示す値が入力された基礎行列を取得する取得ステップと、第1対象物のクラスタ数を示すKと、第2対象物のクラスタ数を示すLとを設定する設定ステップと、3つの行列を、N行K列の第1行列と、K行L列の行列であって、特定の1行および特定の1列の少なくとも一方の各要素に、所定範囲に収まる数値が格納されている第2行列と、L行M列の第3行列とし、第1行列、第2行列および第3行列の積が、基礎行列に近似するように、第1行列、第2行列および第3行列に分解する分解ステップと、第1行列、第2行列および第3行列の少なくとも一つを出力することで、第1対象物および第2対象物のうち少なくとも一つのクラスタリング結果を出力する出力ステップと、を含む。
これにより、ユーザが対象物を取得しなかった要因を考慮したクラスタリングを行うことが可能となる。したがって、多様な情報を反映したクラスタリングが可能となる。
例えば、特定の1行および特定の1列の各要素に所定範囲に収まる数値が格納されていてもよい。
これにより、第2行列の特定の1行および特定の1列の各要素に所定範囲に収まる数値が格納されているので、異なる情報(対象物の周知度、ユーザの取得頻度)を反映させたクラスタリングが可能となる。
例えば、所定の範囲に収まる数値を、実質的に0となる正の値としてもよい。
これにより、所定の範囲に収まる数値が実質的に0となる正の値であるので、クラスタとの関連度をほとんどなくすことができ、多様な情報に特化した値を求めることができる。
例えば、第1行列の各行における各要素の総和を全ての行で実質的に同じ値としてもよい。
これにより、第1行列の各行における各要素の総和が全ての行で実質的に同じ値であるので、第1行列の各列の値の比較を容易に行うことができる。
例えば、第3行列の各列における各要素の総和を全ての列で実質的に同じ値としてもよい。
これにより、第3行列の各列における各要素の総和が全ての列で実質的に同じ値であるので、第3行列の各行の値の比較を容易に行うことができる。
例えば、分解ステップは、第1行列、第2行列および第3行列の積と、基礎行列との差が小さくなるように、第1行列、第2行列および第3行列を更新することを繰り返すことにしてもよい。
これにより、第1行列、第2行列および第3行列の積と、基礎行列との差が小さくなるように、第1行列、第2行列および第3行列を更新しているので、行列分解をスムーズに行うことができる。
例えば、分解ステップは、第2行列の特定の1行以外の行において、k行目における各要素が所定範囲に収まる数値である場合には、第2行列におけるk行目を削除し、第1行列におけるk列目を削除することで、N行K−1列の第1行列と、K−1行L列の第2行列と、L行M列の第3行列とに更新することにしてもよい。
これにより、処理の高速化、クラスタリングの正確性を高めることができる。
例えば、分解ステップは、第2行列の特定の1列以外の列において、l行目における各要素が所定範囲に収まる数値である場合には、第2行列におけるl列目を削除し、第3行列におけるl行目を削除することで、N行K列の第1行列と、K行L−1列の第2行列と、L−1行M列の第3行列とに更新することとしてもよい。
これにより、処理の高速化、クラスタリングの正確性を高めることができる。
例えば、第1対象物はユーザであり、N行M列の基礎行列の各要素に対する関連度は、M個の第2対象物のそれぞれに対するN人のユーザの関心の有無を示すのでもよい。
また、本発明の一態様にかかるデータ分析装置は、N個の第1対象物のそれぞれと、M個の第2対象物のそれぞれとの関連度を示すN行M列の基礎行列を、3つの行列に分解して第1対象物および第2対象物のうち少なくとも一つをクラスタリングするデータ分析装置であって、基礎行列の各要素に対して、関連度を示す値が入力された基礎行列を取得する取得部と、第1対象物のクラスタ数を示すKと、第2対象物のクラスタ数を示すLとを設定する設定部と、3つの行列を、N行K列の第1行列と、K行L列の行列であって、特定の行および特定の列の少なくとも一方の各要素に、所定の範囲に収まる数値が格納されている第2行列と、L行M列の第3行列とし、第1行列、第2行列および第3行列の積が、基礎行列に近似するように、第1行列、第2行列および第3行列に分解する分解部と、第1行列、第2行列および第3行列の少なくとも一つを出力することで、前記第1対象物および前記第2対象物のうち少なくとも一つのクラスタリング結果を出力する出力部と、を有する。
これにより、ユーザが対象物を取得しなかった要因を考慮したクラスタリングを行うことが可能となる。したがって、多様な情報を反映したクラスタリングが可能となる。
また、本発明の一態様にかかるプログラムは、コンピュータに、上記の記載のデータ分析方法を実行させるためのプログラムである。
これにより、ユーザが対象物を取得しなかった要因を考慮したクラスタリングを行うことが可能となる。したがって、多様な情報を反映したクラスタリングが可能となる。
なお、これらの包括的または具体的な態様は、システム、方法、集積回路、コンピュータプログラムまたはコンピュータ読み取り可能なCD−ROMなどの記録媒体で実現されてもよく、システム、方法、集積回路、コンピュータプログラムおよび記録媒体の任意な組み合わせで実現されてもよい。
(実施の形態1)
以下、実施の形態に係るデータ分析方法について、図面を参照しながら具体的に説明する。なお、以下で説明する実施の形態は、いずれも包括的または具体的な例を示すものである。以下の実施の形態で示される数値、形状、材料、構成要素、構成要素の配置位置および接続形態、ステップ、ステップの順序等は、一例であり、本発明を限定する主旨ではない。また、以下の実施の形態における構成要素のうち、最上位概念を示す独立請求項に記載されていない構成要素については、任意の構成要素として説明される。
以下、実施の形態に係るデータ分析方法について、図面を参照しながら具体的に説明する。なお、以下で説明する実施の形態は、いずれも包括的または具体的な例を示すものである。以下の実施の形態で示される数値、形状、材料、構成要素、構成要素の配置位置および接続形態、ステップ、ステップの順序等は、一例であり、本発明を限定する主旨ではない。また、以下の実施の形態における構成要素のうち、最上位概念を示す独立請求項に記載されていない構成要素については、任意の構成要素として説明される。
[システムの全体構成]
図1は、実施の形態1に係るデータ分析方法を実行するためのデータ分析システムの概略構成を示すブロック図である。
図1は、実施の形態1に係るデータ分析方法を実行するためのデータ分析システムの概略構成を示すブロック図である。
データ分析システム1は、M個の対象物のそれぞれに対するN人のユーザの関心の有無を示すN行M列の基礎行列を3つの行列に分解して、ユーザをクラスタリングするデータ分析方法を実行する。対象物は、ユーザが関心を持つ対象物であり、例えばユーザによって購入或いはレンタルされる商品と、ユーザによって視聴又は録画・録音されるテレビ番組、ラジオ番組などの番組とが挙げられる。関心の有無としては、対象物が商品の場合では、購入したことを「関心有り」とし、購入していないことを「関心無し」とする。他方、対象物が番組の場合では、番組を視聴又は録画・録音したことを「関心有り」とし、番組を見ていないこと又は録画・録音していないことを「関心無し」とする。
図2は、基礎行列の一例を示す説明図である。
図2に示す基礎行列では、N人のユーザU1,U2,U3,U4,U5…がM個の対象物O1,O2,O3,O4,O5,O6…のそれぞれに対する関心の有無を示している。基礎行列の各要素に対しては、関心の有無を示す値が入力されている。具体的に、関心がある要素に対しては「1」が代入されており、関心のない要素には「0」が代入されている。例えば、対象物を番組として、当該番組に対する録画の有無を関心の有無とした場合には、ユーザが録画している番組に対しては「1」が入力され、ユーザが録画していない番組に対しては「0」が入力される。なお、データの値と形式は、あくまでも一例であり、これに限定されるものではない。各要素に入力される値は非負の値であればよい。
図3は、基礎行列の変形例を示す説明図である。
図3の例では、番組に対する関心の有無を5段階評価で示した場合を示している。この場合においても、最大値である「5」が「1」となるように、各要素の値を正規化すればよい。
そして、データ分析システム1は、この基礎行列を3つの行列に分解することで、ユーザ或いは対象物をクラスタリングする。
具体的に、データ分析システム1は、図1に示すように、入力装置200と、表示装置300と、データ分析装置400とを備えている。入力装置200と、表示装置300と、データ分析装置400とはネットワーク500を介して通信可能に接続されている。
ネットワーク500とは、イーサネット(登録商標)等の有線ネットワーク、無線LAN等の無線ネットワーク、公衆網、または、これらのネットワークが組み合わされたネットワーク等である。公衆網とは、電気通信事業者が、不特定多数の利用者の通信のために提供している通信回線のことであり、例えば、一般電話回線またはISDNなどが挙げられる。
入力装置200は、N行M列の基礎行列が入力される装置である。入力装置200は、例えばキーボード、タッチパネル、ポインティングデバイスなどの入力部210を備えたパーソナルコンピューター、スマートフォン、フィーチャーフォン、タブレット端末などである。入力装置200は、N行M列の基礎行列が入力されると、当該基礎行列をネットワーク500を介してデータ分析装置400に送信する。
表示装置300は、基礎行列と、3つの行列とのうち少なくとも一つの行列がデータ分析装置400から入力されると、当該少なくとも一つの行列を表示する装置である。表示装置300は、例えばディスプレイなどの表示部310を備えたパーソナルコンピューター、スマートフォン、フィーチャーフォン、タブレット端末などである。表示装置300の表示部310に表示された少なくとも一つの行列を解析者が閲覧することで、クラスタリングされた結果を解析することができる。
なお、本実施の形態では、入力装置200と表示装置300とが独立した異なる端末である場合を例示しているが、入力装置200と表示装置300とが一台の端末であってもよい。
[データ分析装置]
データ分析装置400は、N行M列の基礎行列を3つの行列に分解する処理装置である。データ分析装置400は、例えば、サーバ、パーソナルコンピューター、スマートフォン、フィーチャーフォン、タブレット端末などである。
データ分析装置400は、N行M列の基礎行列を3つの行列に分解する処理装置である。データ分析装置400は、例えば、サーバ、パーソナルコンピューター、スマートフォン、フィーチャーフォン、タブレット端末などである。
図4は、データ分析装置400の概略構成を示すブロック図である。
図4に示すように、データ分析装置400は、取得部410と、処理部420と、出力部430とを備えている。
取得部410は、入力装置200からネットワーク500を介して入力された基礎行列を取得し、処理部420に出力する。
処理部420は、取得部410から入力された基礎行列を3つの行列に分解する処理部であり、CPU、RAM、ROM等を備える。処理部420は、格納部421と、設定部422と、分解部423とを備える。
格納部421は、取得部410から入録された基礎行列を記憶する記憶領域であり、例えば不揮発性メモリまたは揮発性メモリである。
設定部422は、分解部423での分解処理で用いられる設定項目を記憶している。設定項目としては、例えば3つの行列のサイズを決める値であるKとLとが挙げられる。また、設定項目としては、分解処理時における収束判定条件などが挙げられる。設定部422は、分解部423で分解処理が行われる際に、設定項目を分解部423に出力することで、設定項目を設定する。
なお、設定項目は、設定部422に予め記憶されていなくとも、入力装置200から入力された設定値を設定項目としてもよい。この場合、入力装置200から取得部410を介して受信した設定項目を設定部422が記憶する。
分解部423は、3つの行列を、N行K列の第1行列と、K行L列の行列であって、特定の1行および特定の1列の少なくとも一方の各要素に、所定範囲に収まる数値が格納されている第2行列と、L行M列の第3行列とし、第1行列、第2行列および第3行列の積が、基礎行列に近似するように、第1行列、第2行列および第3行列に分解する。
図5は、本実施の形態に係る基礎行列、第1行列、第2行列および第3行列の概念を示す説明図である。
例えばN行M列の基礎行列を14行20列の行列とし、K=3、L=3とすると、N行K列の第1行列は20行3列の行列となり、K行L列の第2行列は3行3列の行列となり、L行M列の第3行列は3行14列の行列となる。
Kとは、ユーザクラスタ数の値である。Lとは、対象物クラスタ数の値である。ただし、ユーザクラスタ(第1対象物のクラスタ)および対象物クラスタ(第2対象物クラスタ)とは直接関係の無い要素(クラスタ)が1列或いは1行分だけ第1行列、第2行列および第3行列に含まれる。
図5の場合においては、第1対象物のクラスタ数を示すKを「3」として、第2対象物のクラスタ数を示すLを「3」としており、今後の説明においては、それぞれ3つのクラスタのうち、2つは第1対象物と第2対象物とのそれぞれのクラスタに直接関係があり、1つはそれぞれのクラスタに直接関係の無いクラスタであるものとして説明する。なお、解析者によって、分類したいクラスタのうちで、それぞれのクラスタに直接関係のあるユーザクラスタ数と対象物クラスタ数だけが入力された場合においては、設定部422或いは分解部423で各クラスタ数に1を加えた値(直接関係の無い要素を加えた値)をK、Lとするようにしてもよい。
ここで、所定範囲に収まる数値とは、実質的に0となる正の値であり、具体的には0以上0.1以下の範囲に収まる値であり、好ましくは0以上0.01以下の範囲に収まる値である。また、第2行列における特定の1行および特定の1列の少なくとも一方の各要素の値は、所定の範囲に収まる数値であれば同一でなくともよい。本実施の形態では、第2行列におけるK行目およびL列目の各要素の値を0とする場合を例示して説明する。しかし、第2行列におけるK行目およびL列目の一方の各要素の値を所定の範囲に収まる数値としてもよい。なお、特定の1行はK行目以外の行であってもよいし、特定の1列はL列目以外の列であってもよい。
また、第2行列の特定の1列の各要素を所定の範囲に収まる数値とする場合、第3行列では、各列における各要素の総和が全ての列で同じ値とする条件を付与する。他方、第2行列の特定の1行の各要素を所定の範囲に収まる数値とする場合、第1行列では、各行における各要素の総和が全ての行で同じ値とする条件を付与する。「同じ値」としては、完全に一致する値でなくともよく、わずかに許容範囲を有した実質的に「同じ値」であればよい。「同じ値」は、如何なる値でもよいが、ユーザと対象物と各クラスタとの関係性が認識しやすくするべく「1」、「100」などを用いてもよい。
なお、第1行列、第2行列および第3行列のより具体的は説明については後述する。
そして、分解部423は、第1行列、第2行列および第3行列の積と、基礎行列との誤差が小さくなるように第1行列、第2行列および第3行列を繰り返し更新するが、設定部422に記憶された収束判定条件を満たすと更新を終了する。例えば所定回数(1000回など)以上の繰り返しが行われた場合に収束判定条件を満たしたと判定する方式、第1行列、第2行列および第3行列の積と、基礎行列との誤差が所定値(例えば1e−6)以下となった場合に収束判定条件を満たしたと判定する方式、一回の更新の前後での第1行列、第2行列および第3行列の積の誤差が所定値(例えば1e−6)以下となった場合に収束判定条件を満たしたと判定する方式などが挙げられる。各方式を一つだけ用いてもよいし、組み合わせて用いてもよい。また、誤差とは、各行列要素の引き算で得られた値の和であってもいいし、各要素の引き算で得られた値の二乗和であってもよい。
図4に示すように、出力部430は、基礎行列、第1行列、第2行列および第3行列の少なくとも一つを表示装置300に出力する。出力部430は、基礎行列、第1行列、第2行列および第3行列を一括して出力してもよいし、これらを組み合わせて出力してもよい。また、出力部430は、最終的な、第1行列、第2行列および第3行列の積と、基礎行列との誤差も表示装置300に出力してもよい。
[データ分析方法]
次に、本実施の形態に係るデータ分析方法について説明する。
次に、本実施の形態に係るデータ分析方法について説明する。
図6は、本実施の形態に係るデータ分析方法の流れを示すフローチャートである。
入力装置200では、基礎行列の各要素に、関心の有無を示す値が入力される。また、入力装置200では、K、L、収束判定条件も入力される。これらの入力後においては、入力装置200は、基礎行列、K、Lおよび収束判定条件をデータ分析装置400に出力する。なお、設定項目がすでにデータ分析装置400の設定部422に設定されていて、それが以降の処理に用いられる場合には、入力装置200での設定項目の入力は不要である。
データ分析装置400の取得部410は、入力装置200からネットワークを介して入力された基礎行列、K、Lおよび収束判定条件を取得する(ステップS1)。取得後においては、取得部410は、基礎行列を格納部421に格納する。
また、設定部422は、取得部410で取得したKとLと収束判定条件とを設定項目として記憶する(ステップS2,S3)。
データ分析装置400の分解部423は、基礎行列と設定項目とに基づいて分解処理を実行する。
図7は本実施の形態に係る分解処理の流れを示すフローチャートである。
分解部423は、N、M、K、Lに基づいて第1行列、第2行列および第3行列を生成する。このとき、分解部423は、第1行列、第2行列、第3行列の各要素に対してランダムな値を代入し、初期化する(ステップS11)。
次いで、分解部423は、iを0とする(ステップS12)。
次いで、分解部423は、iが収束判定条件の所定回数以上であるか否かを判定し、所定回数未満である場合にはステップS14に移行し、所定回数以上である場合には分解処理を終了する。
ステップS14では、分解部423は、第1行列、第2行列および第3行列を更新する。
更新時においては、分解部423は、初期化した第1行列、第2行列および第3行列を、所定の行列更新式を用いて、更新を行うことで、第1行列、第2行列および第3行列の積が基礎行列に近似する第1行列、第2行列および第3行列を求める。このとき、分解部423は、第2行列のK行目およびL列目の各要素の値が0となるように更新する。
以下に行列更新式の一例を示す。
なお、以下の行列更新式(1)では基礎行列がXであり、第1行列がFであり、第2行列がSであり、第3行列がGTである。またα、β、γは定数である。S*は、Sの特定
の1行および特定の1列の少なくとも一方の各要素の値に所定の範囲に収まる値(本実施の形態では0)を入れた行列である。
の1行および特定の1列の少なくとも一方の各要素の値に所定の範囲に収まる値(本実施の形態では0)を入れた行列である。
分解部423はこの行列更新式(1)が最小となるように第1行列、第2行列および第3行列を更新する。
行列更新式(1)の詳細を示した数式の一例を下記に示す。
但し、Fw,kは、Fのw行k列の要素の値示す(1≦w≦N、1≦k≦K)。
Sk,lは、Sのk行l列の要素の値を示す(1≦k≦K、1≦l≦L)。
Gt,lは、Gのt行l列の要素の値の値を示す(1≦t≦M、1≦l≦L)。
FTは、Fの転置行列を示す。
GTは、Gの転置行列を示す。
STは、Sの転置行列を示す。
XTは、Xの転置行列を示す。
ATは、Aの転置行列を示す。
Sk,lは、Sのk行l列の要素の値を示す(1≦k≦K、1≦l≦L)。
Gt,lは、Gのt行l列の要素の値の値を示す(1≦t≦M、1≦l≦L)。
FTは、Fの転置行列を示す。
GTは、Gの転置行列を示す。
STは、Sの転置行列を示す。
XTは、Xの転置行列を示す。
ATは、Aの転置行列を示す。
分解部423は、式(2)〜(4)を用いて第1行列、第2行列および第3行列を更新することで、誤差が小さくなるように更新することができる。
次いで、分解部423は、更新後の第1行列、第2行列、第3行列の積と、基礎行列との誤差を算出する(ステップS15)。
次いで、分解部423は、ステップS15で求めた誤差が所定値以下か否かを判定し、所定値以下の場合にはステップS17に移行し、所定値よりも大きい場合には分解処理を終了する。
ステップS17では、分解部423は、iに1を加えてステップS13に移行する。これにより、誤差が所定値以下となるまで、或いはiが所定回数となるまで、第1行列、第2行列および第3行列の更新が繰り返されることになる。分解処理の終了時においては、第1行列、第2行列および第3行列の積と基礎行列との誤差がほとんどない第1行列、第2行列および第3行列が求められる。
分解処理が終了し、図5のステップS5に移行すると、出力部430を表示装置300に対して基礎行列、第1行列、第2行列および第3行列を出力する。表示装置300では、基礎行列、第1行列、第2行列および第3行列が表示されるので、解析者がこれらを閲覧することで、クラスタリングされた結果を解析することができる。
[各行列の一例]
次に、データ分析方法で用いた基礎行列と、データ分析方法によって得られた第1行列、第2行列および第3行列の一例について説明する。
次に、データ分析方法で用いた基礎行列と、データ分析方法によって得られた第1行列、第2行列および第3行列の一例について説明する。
図8は、基礎行列の一例を示す説明図である。
図8に示す基礎行列は、20行14列の行列である。20人のユーザU1〜U20が14個の対象物としての番組P1〜P14を録画したか否かを図7の基礎行列に示している。各ユーザが録画をした番組に対しては「1」が入力され、録画していない番組に対しては「0」が入力されている。この「1」および「0」が関心の有無を示す値である。
図9は、図8の基礎行列を基にしてデータ分析方法を行い、得られた第1行列、第2行列、第3行列の一例を示す説明図である。なお、同じ基礎行列を用いたとしても、最終的な第1行列、第2行列、第3行列は、初期化時の各要素の値、収束判定条件、行列更新式によって異なる。
図8の例では、Kを3とし、第2行列の3列(K列)目を特定の1列としている。つまり、第2行列の1列目、2列目はユーザクラスタUC1,UC2に関する列となる。また、Lを3とし、第2行列の3行(L行)目を特定の1行としている。つまり、第2行列の1行目、2行目は番組クラスタPC1,PC2に関する列となる。
第1行列では、20人のユーザU1〜U20と、ユーザクラスタUC1,UC2および録画頻度とのそれぞれの関連度合いが各要素に格納されている。第2行列では、ユーザクラスタUC1,UC2および録画頻度と、番組クラスタPC1,PC2および周知度とのそれぞれの関連度合いが各要素に格納されている。第3行列では、番組クラスタPC1,PC2および周知度と、14個の番組P1〜P14とのそれぞれの関連度合いが各要素に格納されている。
ここで、本発明者は、第2行列の特定の1列に対して、ユーザクラスタUC1,UC2との関連度が殆どないことを示す数値(所定範囲に収まる数値)を格納することで、結果的に番組(対象物)の周知度を示す行(図9に示す第3行列では3行目)が生成されることを見出した。図9の第3行列の場合、周知度を示す行(3行目)の各値が大きければ周知度の度合いは小さく、各値が小さければ周知度の度合いは大きいことを示している。周知度とは、その番組(対象物)がどれだけ知られているかを示す指標であり、その番組の人気度として用いてもよい。周知度が高い番組を録画しないユーザは、「その番組を知らないから録画していない」のではなく、「知っているのに録画しない」と推測することができる。「人気がある番組をあえて録画しない」とも考えられるので、「このユーザはこの番組を嫌い」であると推察することができる。この周知度を示す行が第3行列に生成されているために、分解処理では周知度が反映されて第1行列、第2行列および第3行列が更新される。したがって、「嫌い」という情報を考慮したクラスタリングが可能となる。
さらに、本発明者は、第2行列の特定の1行に対して番組クラスタPC1,PC2との関連度が殆どないことを示す数値(所定範囲に収まる数値)を格納することで、結果的にユーザの録画頻度を示す行(図9に示す第1行列では3列目)が生成されることを見出した。図9の第1行列の場合、録画頻度を示す行(3列目)の各値が大きければユーザの録画頻度が小さく、各値が小さければ録画頻度が大きいことを示している。録画頻度とは、ユーザが番組を録画する度合いを示す指標である。そして、本発明者は、録画頻度を示す列が第1行列に生成されると、分解処理後の第1行列のその他の列には、各ユーザU1〜U20と、ユーザクラスタUC1,UC2との関連度が、録画頻度の影響を極力除いた値として格納されることを見出した。これにより、録画頻度によらず、嗜好の似通ったユーザのクラスタリングが可能となる。
なお、本実施の形態では、対象物が番組であるので、所定範囲に収まる数値を第2行列の特定の1行に格納することで、第1行列の1つの行に録画頻度が出現することになった。しかし対象物が商品である場合には、ユーザが商品を購入(或いはレンタル)する購入頻度が第1行列の1つの行に出現することになる。購入頻度、録画頻度ともにユーザが対象物を取得する度合いを示す指標であるため、これらをまとめて取得頻度と称してもよい。
また、本実施の形態では、各ユーザU1〜U20が第1行列における各行に対応し、各番組P1〜P14が第3行列の各列に対応しているため、第2行列の特定の1列が周知度に対応し、特定の1行が録画頻度に対応している。逆に、各ユーザU1〜U20が第3行列における各列に対応し、各番組P1〜P14が第1行列の各行に対応している場合には、第2行列の特定の1行が周知度に対応し、特定の1列が録画頻度に対応する。つまり、クラスタリングしたい対象と、第1行列、第2行列および第3行列との関係性によって、周知度や録画頻度に対応する要素が第2行列の一つの行となったり、一つの列となったりする。周知度や録画頻度(取得頻度)の一方のみを考慮したクラスタリングを行うのであれば、上述の関係性を考慮して、第2行列の特定の1行および特定の1列の一方の各要素に対して、所定の範囲に収まる数値を格納すればよい。
[効果等]
以上のように、本実施の形態によれば、N行K列の第1行列と、K行L列の行列であって、特定の1行および特定の1列の少なくとも一方の各要素に、所定範囲に収まる数値が格納されている第2行列と、L行M列の第3行列との3つの行列の積が、基礎行列に近似するように、第1行列、第2行列および第3行列が分解されている。これにより、ユーザが対象物(番組、商品)を取得しなかった要因を考慮したクラスタリングを行うことが可能となる。したがって、多様な情報を反映したクラスタリングが可能となる。
以上のように、本実施の形態によれば、N行K列の第1行列と、K行L列の行列であって、特定の1行および特定の1列の少なくとも一方の各要素に、所定範囲に収まる数値が格納されている第2行列と、L行M列の第3行列との3つの行列の積が、基礎行列に近似するように、第1行列、第2行列および第3行列が分解されている。これにより、ユーザが対象物(番組、商品)を取得しなかった要因を考慮したクラスタリングを行うことが可能となる。したがって、多様な情報を反映したクラスタリングが可能となる。
そして、本実施の形態の場合では、ユーザの録画履歴から「嫌い」といった情報が推察できていたが、上述したデータ分析方法がなければ「嫌い」という情報も収集しなければならない。つまり、多様な情報を反映したクラスタリングを行えるのであれば、それだけ情報収集に関するエネルギー消費を低減することができる。
また、第2行列の特定の1行および特定の1列の各要素に所定範囲に収まる数値が格納されているので、対象物の周知度と、ユーザの取得頻度とを反映させたクラスタリングが可能となる。
また、所定の範囲に収まる数値が実質的に0となる正の値であるので、ユーザクラスタや番組クラスタとの関連度をほとんどなくすことができ、周知度、取得頻度に特化した値を求めることができる。
また、第1行列の各行における各要素の総和が全ての行で実質的に同じ値であるので、取得頻度を示す各列の値を前記同じ値を基準にして算出することができる。したがって、前記各列の値の比較を容易に行うことができる。
また、第3行列の各列における各要素の総和が全ての列で実質的に同じ値であるので、周知度を示す各行の値を前記同じ値を基準にして算出することができる。したがって、前記各行の値の比較を容易に行うことができる。
また、第1行列、第2行列および第3行列の積と、基礎行列との差が小さくなるように、第1行列、第2行列および第3行列を更新しているので、行列分解をスムーズに行うことができる。
(実施の形態2)
実施の形態1で例示したデータ分析方法では、ある程度大きなK、Lが設定された場合、更新時に特定の1行と同じような行が発生したり、特定の1列と同じような列が発生したりすることが想定される。こうなった場合、クラスタリングの正確性が低下するおそれがあるため、この実施の形態2では、データ分析方法の実行時に、特定の1行と同じような性質の行が第2行列に発生した場合又は特定の1列と同じような性質の列が第2行列に発生した場合には、同じ性質となった行又は列を削除する方法について説明する。
実施の形態1で例示したデータ分析方法では、ある程度大きなK、Lが設定された場合、更新時に特定の1行と同じような行が発生したり、特定の1列と同じような列が発生したりすることが想定される。こうなった場合、クラスタリングの正確性が低下するおそれがあるため、この実施の形態2では、データ分析方法の実行時に、特定の1行と同じような性質の行が第2行列に発生した場合又は特定の1列と同じような性質の列が第2行列に発生した場合には、同じ性質となった行又は列を削除する方法について説明する。
図10は、実施の形態2に係る分解処理の流れを示すフローチャートである。
図10に示すフローチャートは、実施の形態1に係る分解処理のステップS14とステップS15との間に、削除処理を行うステップS18を追加している。このため、ここではステップS18についてのみ説明し、他のステップについては説明を省略する。
ステップS18の削除処理では、分解部423は、特定の1行と同じような性質の行が第2行列に発生した場合又は特定の1列と同じような性質の列が第2行列に発生した場合には、同じ性質となった行又は列を削除する。
図11は削除処理の流れを示すフローチャートである。
分解部423は、第2行列における特定の1列(L列目)の各値と、他の各列の各値との差を計算する(ステップS21)。
次いで、分解部423は、全ての要素で差の絶対値が一定値以下となる列(l列目)があるか否かを判定し(ステップS22)、l列目があった場合にはステップS23に移行し、l列目がない場合にはステップS24に移行する。
ステップS23では、分解部423は、第2行列のl列目を削除し、第3行列のl行目を削除することで、N行K列の第1行列と、K行L−1列の第2行列と、L−1行M列の第3行列とに更新する。
ステップS24では、分解部423は、第2行列における特定の1行(K行目)の各値と、他の各行の各値との差を計算する。
次いで、分解部423は、全ての要素で差の絶対値が一定値以下となる行(k行目)があるか否かを判定し(ステップS25)、k行目があった場合にはステップS26に移行し、k行目がない場合には削除処理を終了する。
ステップS26では、分解部423は、第2行列のk行目を削除し、第1行列のk列目を削除することで、N行K−1列の第1行列と、K−1行L列の第2行列と、L行M列の第3行列とに更新し、削除処理を終了する。
なお、一定値は例えば0.1以下の値である。また、ステップS21からステップS23までの処理と、ステップS24からステップS26までの処理とが逆の順序でもよい。さらに、ステップS22,S25では差の絶対値を基に判定を行ったが、特定の1行や特定の1列の各要素が0に近い値である場合には、ある行やある列の各要素の総和が一定値以下であるか否かで判定を行ってもよい。
[効果等]
以上のように、本実施の形態によれば、第2行列の特定の1行以外の行において、k行目における各要素が所定範囲に収まる数値である場合には、第2行列におけるk行目を削除し、第1行列におけるk列目を削除することで、N行K−1列の第1行列と、K−1行L列の第2行列と、L行M列の第3行列とに更新する。これにより、分割処理の高速化、クラスタリングの正確性を高めることができる。
以上のように、本実施の形態によれば、第2行列の特定の1行以外の行において、k行目における各要素が所定範囲に収まる数値である場合には、第2行列におけるk行目を削除し、第1行列におけるk列目を削除することで、N行K−1列の第1行列と、K−1行L列の第2行列と、L行M列の第3行列とに更新する。これにより、分割処理の高速化、クラスタリングの正確性を高めることができる。
また、第2行列の特定の1列以外の列において、l行目における各要素が所定範囲に収まる数値である場合には、第2行列におけるl列目を削除し、第3行列におけるl行目を削除することで、N行K列の前記第1行列と、K行L−1列の前記第2行列と、L−1行M列の第3行列とに更新する。これにより、分割処理の高速化、クラスタリングの正確性を高めることができる。
(その他の実施の形態)
以上のように、本出願において開示する技術の例示として、実施の形態1,2を説明した。しかしながら、本実施の形態における技術は、これに限定されず、適宜、変更、置き換え、付加、省略などを行った実施の形態にも適用可能である。また、上記各実施の形態で説明した各構成要素を組み合わせて、新たな実施の形態とすることも可能である。
以上のように、本出願において開示する技術の例示として、実施の形態1,2を説明した。しかしながら、本実施の形態における技術は、これに限定されず、適宜、変更、置き換え、付加、省略などを行った実施の形態にも適用可能である。また、上記各実施の形態で説明した各構成要素を組み合わせて、新たな実施の形態とすることも可能である。
以下の説明において上記実施の形態と同一部分については同一の符号を付してその説明を省略する場合がある。
例えば、上記の実施の形態では、ネットワーク500を介して基礎行列がデータ分析装置400に入力される場合を例示して説明したが、データ分析装置に直接基礎行列が入力(作成)されてもよい。
図12はデータ分析装置の変形例を示すブロック図である。
図12に示すように、データ分析装置400Aには、入力部450と、処理部420と、表示部460とが設けられている。入力部450はキーボード、タッチパネル、マウスなどの入力デバイスであり、解析者が入力部450を操作することにより基礎行列が入力(作成)される。つまり、入力部450が取得部である。また、表示部460は、ディスプレイであり、基礎行列、第1行列、第2行列および第3行列の少なくとも一つを表示することで出力する。つまり、表示部460が出力部である。さらに、データ分析装置400Aは、基礎行列、第1行列、第2行列および第3行列を蓄積するハードディスクやメモリなどの蓄積部を備えていてもよい。
なお、上記各実施の形態において、各構成要素は、専用のハードウェアで構成されるか、各構成要素に適したソフトウェアプログラムを実行することによって実現されてもよい。各構成要素は、CPUまたはプロセッサなどのプログラム実行部が、ハードディスクまたは半導体メモリなどの記録媒体に記録されたソフトウェアプログラムを読み出して実行することによって実現されてもよい。ここで、上記各実施の形態の画像復号化装置などを実現するソフトウェアは、次のようなプログラムである。
すなわち、このプログラムは、コンピュータに、N個の第1対象物のそれぞれと、M個の第2対象物のそれぞれとの関連度を示すN行M列の基礎行列を、3つの行列に分解して第1対象物および前記第2対象物のうち少なくとも一つをクラスタリングするデータ分析方法であって、基礎行列の各要素に対して、関連度を示す値が入力された基礎行列を取得する取得ステップと、第1対象物のクラスタ数を示すKと、前記第2対象物のクラスタ数を示すLとを設定する設定ステップと、3つの行列を、N行K列の第1行列と、K行L列の行列であって、特定の1行および特定の1列の少なくとも一方の各要素に、所定範囲に収まる数値が格納されている第2行列と、L行M列の第3行列とし、第1行列、第2行列および第3行列の積が、基礎行列に近似するように、第1行列、第2行列および第3行列に分解する分解ステップと、第1行列、第2行列および第3行列の少なくとも一つを出力することで、前記第1対象物および前記第2対象物のうち少なくとも一つのクラスタリング結果を出力する出力ステップとを含むデータ分析方法を実行させる。
また、上記各実施の形態において、特定の処理部が実行する処理を別の処理部が実行してもよい。また、複数の処理の順序が変更されてもよいし、複数の処理が並行して実行されてもよい。
以上、一つまたは複数の態様に係るデータ分析方法について、実施の形態に基づいて説明したが、本発明は、この実施の形態に限定されるものではない。本発明の趣旨を逸脱しない限り、当業者が思いつく各種変形を本実施の形態に施したものや、異なる実施の形態における構成要素を組み合わせて構築される形態も、一つまたは複数の態様の範囲内に含まれてもよい。
本発明は、クラスタリングに用いられるデータ分析方法、データ分析装置およびプログラムとして有用である。すなわち、本発明は、推薦システムや文章分類などクラスタリングを必要とする様々な分野で応用可能である。
1 データ分析システム
200 入力装置
300 表示装置
400 データ分析装置
410 取得部
420 処理部
421 格納部
422 設定部
423 分解部
430 出力部
500 ネットワーク
200 入力装置
300 表示装置
400 データ分析装置
410 取得部
420 処理部
421 格納部
422 設定部
423 分解部
430 出力部
500 ネットワーク
Claims (11)
- N個の第1対象物のそれぞれと、M個の第2対象物のそれぞれとの関連度を示すN行M列の基礎行列を、3つの行列に分解して前記第1対象物および前記第2対象物のうち少なくとも一つをクラスタリングするデータ分析方法であって、
前記基礎行列の各要素に対して、前記関連度を示す値が入力された前記基礎行列を取得する取得ステップと、
前記第1対象物のクラスタ数を示すKと、前記第2対象物のクラスタ数を示すLとを設定する設定ステップと、
前記3つの行列を、N行K列の第1行列と、K行L列の行列であって、特定の1行および特定の1列の少なくとも一方の各要素に、所定範囲に収まる数値が格納されている第2行列と、L行M列の第3行列とし、前記第1行列、前記第2行列および前記第3行列の積が、前記基礎行列に近似するように、前記第1行列、前記第2行列および前記第3行列に分解する分解ステップと、
前記第1行列、前記第2行列および前記第3行列の少なくとも一つを出力することで、前記第1対象物および前記第2対象物のうち少なくとも一つのクラスタリング結果を出力する出力ステップと、
を含むデータ分析方法。 - 前記特定の1行および前記特定の1列の各要素に前記所定範囲に収まる数値が格納されている
請求項1に記載のデータ分析方法。 - 前記所定範囲に収まる数値は、実質的に0となる正の値である
請求項1又は2に記載のデータ分析方法。 - 前記第1行列は、各行における各要素の総和が全ての行で実質的に同じ値である
請求項1〜3のいずれか一項に記載のデータ分析方法。 - 前記第3行列は、各列における各要素の総和が全ての列で実質的に同じ値である
請求項1〜4のいずれか一項に記載のデータ分析方法。 - 前記分解ステップは、
前記第1行列、前記第2行列および前記第3行列の積と、前記基礎行列との差が小さくなるように、前記第1行列、前記第2行列および前記第3行列を更新することを繰り返す
請求項1〜5のいずれか一項に記載のデータ分析方法。 - 前記分解ステップは、
前記第2行列の前記特定の1行以外の行において、k行目における各要素が前記所定範囲に収まる数値である場合には、前記第2行列におけるk行目を削除し、前記第1行列におけるk列目を削除することで、N行K−1列の前記第1行列と、K−1行L列の前記第2行列と、L行M列の第3行列とに更新する
請求項1〜6のいずれか一項に記載のデータ分析方法。 - 前記分解ステップは、
前記第2行列の前記特定の1列以外の列において、l行目における各要素が前記所定範囲に収まる数値である場合には、前記第2行列におけるl列目を削除し、前記第3行列におけるl行目を削除することで、N行K列の前記第1行列と、K行L−1列の前記第2行列と、L−1行M列の第3行列とに更新する
請求項1〜7のいずれか一項に記載のデータ分析方法。 - 前記第1対象物はユーザであり、前記基礎行列の各要素に対する関連度は、M個の前記第2対象物のそれぞれに対するN人のユーザの関心の有無を示す
請求項1〜8のいずれか一項に記載のデータ分析方法。 - N個の第1対象物のそれぞれと、M個の第2対象物のそれぞれとのの関連度を示すN行M列の基礎行列を、3つの行列に分解して前記第1対象物および前記第2対象物のうち少なくとも一つをクラスタリングするデータ分析装置であって、
前記基礎行列の各要素に対して、前記関連度を示す値が入力された前記基礎行列を取得する取得部と、
前記第1対象物のクラスタ数を示すKと、前記第2対象物のクラスタ数を示すLとを設定する設定部と、
前記3つの行列を、N行K列の第1行列と、K行L列の行列であって、特定の行および特定の列の少なくとも一方の各要素に、所定の範囲に収まる数値が格納されている第2行列と、L行M列の第3行列とし、前記第1行列、前記第2行列および前記第3行列の積が、前記基礎行列に近似するように、前記第1行列、前記第2行列および前記第3行列に分解する分解部と、
前記第1行列、前記第2行列および前記第3行列の少なくとも一つを出力することで、前記第1対象物および前記第2対象物のうち少なくとも一つのクラスタリング結果を出力する出力部と、
を有するデータ分析装置。 - コンピュータに、請求項1に記載のデータ分析方法を実行させるためのプログラム。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
US15/169,767 US20160357708A1 (en) | 2015-06-05 | 2016-06-01 | Data analysis method, data analysis apparatus, and recording medium having recorded program |
Applications Claiming Priority (2)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
JP2015115084 | 2015-06-05 | ||
JP2015115084 | 2015-06-05 |
Publications (1)
Publication Number | Publication Date |
---|---|
JP2017004493A true JP2017004493A (ja) | 2017-01-05 |
Family
ID=57754228
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
JP2016020209A Pending JP2017004493A (ja) | 2015-06-05 | 2016-02-04 | データ分析方法、データ分析装置およびプログラム |
Country Status (1)
Country | Link |
---|---|
JP (1) | JP2017004493A (ja) |
Cited By (2)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
JP2020009209A (ja) * | 2018-07-10 | 2020-01-16 | データ・ケーキベーカ株式会社 | マッチング・マインド・マップを生成するデータ分析方法、システム、およびプログラム |
KR20240072654A (ko) | 2022-11-17 | 2024-05-24 | 서울대학교산학협력단 | 다양하게 정규화된 행렬 분해 기반의 아이템 추천 방법 및 장치 |
Citations (3)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
JP2009213067A (ja) * | 2008-03-06 | 2009-09-17 | Toshiba Corp | 番組推薦装置および番組推薦方法 |
US20110270835A1 (en) * | 2010-04-28 | 2011-11-03 | International Business Machines Corporation | Computer information retrieval using latent semantic structure via sketches |
JP2015052859A (ja) * | 2013-09-05 | 2015-03-19 | 株式会社東芝 | サービス分析装置及びその動作方法 |
-
2016
- 2016-02-04 JP JP2016020209A patent/JP2017004493A/ja active Pending
Patent Citations (3)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
JP2009213067A (ja) * | 2008-03-06 | 2009-09-17 | Toshiba Corp | 番組推薦装置および番組推薦方法 |
US20110270835A1 (en) * | 2010-04-28 | 2011-11-03 | International Business Machines Corporation | Computer information retrieval using latent semantic structure via sketches |
JP2015052859A (ja) * | 2013-09-05 | 2015-03-19 | 株式会社東芝 | サービス分析装置及びその動作方法 |
Non-Patent Citations (1)
Title |
---|
CHRIS DING, TAO LI, WEI PENG, HAESUN PARK: "Orthogonal Nonnegative Matrix Tri-factorizations for Clustering", PROCEEDINGS OF THE 12TH ACM SIGKDD INTERNATIONAL CONFERENCE ON KNOWLEDGE DISCOVERY AND DATA MINING, JPN7019001771, 20 August 2006 (2006-08-20), pages 126 - 135, ISSN: 0004049444 * |
Cited By (2)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
JP2020009209A (ja) * | 2018-07-10 | 2020-01-16 | データ・ケーキベーカ株式会社 | マッチング・マインド・マップを生成するデータ分析方法、システム、およびプログラム |
KR20240072654A (ko) | 2022-11-17 | 2024-05-24 | 서울대학교산학협력단 | 다양하게 정규화된 행렬 분해 기반의 아이템 추천 방법 및 장치 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
CN110321422B (zh) | 在线训练模型的方法、推送方法、装置以及设备 | |
Giesselmann et al. | Getting the within estimator of cross-level interactions in multilevel models with pooled cross-sections: Why country dummies (sometimes) do not do the job | |
Yan et al. | Model selection for Cox models with time-varying coefficients | |
CN110008397B (zh) | 一种推荐模型训练方法及装置 | |
US20150278350A1 (en) | Recommendation System With Dual Collaborative Filter Usage Matrix | |
Park et al. | Clustering multivariate functional data with phase variation | |
Lee et al. | Near unit root in the spatial autoregressive model | |
JP5662299B2 (ja) | 情報推薦装置及び方法及び装置及びプログラム | |
CN111159563A (zh) | 用户兴趣点信息的确定方法、装置、设备及存储介质 | |
JP5404662B2 (ja) | 商品推薦装置及び方法及びプログラム | |
CN111159578A (zh) | 一种推荐对象的方法和系统 | |
US20150278910A1 (en) | Directed Recommendations | |
US20150278907A1 (en) | User Inactivity Aware Recommendation System | |
JP6077984B2 (ja) | アイテム推薦装置、アイテム推薦方法、およびアイテム推薦プログラム | |
CA3111094C (en) | Noise contrastive estimation for collaborative filtering | |
Moretti et al. | Parametric bootstrap mean squared error of a small area multivariate EBLUP | |
Liang et al. | Measure prediction capability of data for collaborative filtering | |
JP5903376B2 (ja) | 情報推薦装置、情報推薦方法、及び情報推薦プログラム | |
JP2017004493A (ja) | データ分析方法、データ分析装置およびプログラム | |
CN109697628B (zh) | 产品数据推送方法及装置、存储介质、计算机设备 | |
US20160357708A1 (en) | Data analysis method, data analysis apparatus, and recording medium having recorded program | |
CN116186395A (zh) | 一种资源推荐、模型训练方法及装置、设备及存储介质 | |
Gangwar et al. | An adaptive boosting technique to mitigate popularity bias in recommender system | |
Georgiadis et al. | Nonparametric estimation of the stationary distribution of a discrete-time semi-Markov process | |
Homrighausen et al. | Compressed and penalized linear regression |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
A621 | Written request for application examination |
Free format text: JAPANESE INTERMEDIATE CODE: A621 Effective date: 20180823 |
|
A977 | Report on retrieval |
Free format text: JAPANESE INTERMEDIATE CODE: A971007 Effective date: 20190424 |
|
A131 | Notification of reasons for refusal |
Free format text: JAPANESE INTERMEDIATE CODE: A131 Effective date: 20190611 |
|
A02 | Decision of refusal |
Free format text: JAPANESE INTERMEDIATE CODE: A02 Effective date: 20200121 |