[go: up one dir, main page]

JP2016062411A - Information analysis device, information analysis method, and information analysis program - Google Patents

Information analysis device, information analysis method, and information analysis program Download PDF

Info

Publication number
JP2016062411A
JP2016062411A JP2014191104A JP2014191104A JP2016062411A JP 2016062411 A JP2016062411 A JP 2016062411A JP 2014191104 A JP2014191104 A JP 2014191104A JP 2014191104 A JP2014191104 A JP 2014191104A JP 2016062411 A JP2016062411 A JP 2016062411A
Authority
JP
Japan
Prior art keywords
information
user
information analysis
cluster
machine learning
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Granted
Application number
JP2014191104A
Other languages
Japanese (ja)
Other versions
JP6226846B2 (en
Inventor
孝太 坪内
Kota Tsubouchi
孝太 坪内
純 西村
Jun Nishimura
純 西村
僚太 中山
Ryota Nakayama
僚太 中山
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Yahoo Japan Corp
Original Assignee
Yahoo Japan Corp
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Yahoo Japan Corp filed Critical Yahoo Japan Corp
Priority to JP2014191104A priority Critical patent/JP6226846B2/en
Publication of JP2016062411A publication Critical patent/JP2016062411A/en
Application granted granted Critical
Publication of JP6226846B2 publication Critical patent/JP6226846B2/en
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Landscapes

  • Management, Administration, Business Operations System, And Electronic Commerce (AREA)
  • Information Retrieval, Db Structures And Fs Structures Therefor (AREA)

Abstract

PROBLEM TO BE SOLVED: To provide an information analysis device, information analysis method, and information analysis program capable of performing effective machine learning.SOLUTION: A server device 20 that is an information analysis device includes: log acquisition means 31 that obtains action logs at the time when a user identified by a user ID accesses a service providing site by using a user terminal; clustering means 32 that classifies action patterns based on action logs obtained by the log acquisition means 31 into at least one or more clusters; and machine learning means 34 that generates an identification function by performing machine learning using a plurality of identities including cluster information obtained by classification by the clustering means 32.SELECTED DRAWING: Figure 2

Description

本発明は、ユーザのアクセスログなどから機械学習を行う情報分析装置、情報分析方法および情報分析プログラムに関する。   The present invention relates to an information analysis apparatus, an information analysis method, and an information analysis program that perform machine learning from a user access log or the like.

WEBサイトに掲載される広告の掲載者に対する報酬額などを決定するために、ユーザとサービスの関係を考慮してユーザの価値を評価するID価値評価装置が知られている(例えば特許文献1参照)。
特許文献1のID価値評価装置は、予め用意されたユーザ属性情報、サービス属性情報、一般情報、ユーザの行動履歴の組を学習データとする機械学習により評価関数を生成し、この評価関数で評価対象のユーザの価値を示す価値評価値を出力していた。
An ID value evaluation apparatus that evaluates a user's value in consideration of the relationship between the user and the service in order to determine a remuneration amount for an advertisement publisher placed on a WEB site is known (see, for example, Patent Document 1). ).
The ID value evaluation apparatus of Patent Literature 1 generates an evaluation function by machine learning using a set of user attribute information, service attribute information, general information, and user action history prepared in advance as learning data, and evaluation is performed using this evaluation function. A value evaluation value indicating the value of the target user was output.

ここで、前記ユーザ属性情報とは、例えば、ユーザの年齢、性別等の情報であり、サービズ属性情報とは、閲覧サイト種類、人気度、広告商品、価格等の広告掲載サイト属性情報や広告主サイト属性情報である。また、一般情報は、日時、季節、特別なイベント、イベント開催地などのユーザやサービスの属性とは独立の情報である。
また、ユーザの行動履歴は、購入の有無やブログで紹介したか否かであり、定性的に与えられるデータであった。
Here, the user attribute information is, for example, information such as the user's age and gender, and the service attribute information is advertisement site attribute information such as browsing site type, popularity, advertising product, price, etc. Site attribute information. The general information is information independent of user and service attributes such as date and time, season, special event, and event venue.
The user's action history is data that is given qualitatively depending on whether or not a purchase has been made and whether or not the information has been introduced on a blog.

特開2012−48360号公報JP 2012-48360 A

前記特許文献1のような機械学習は、ユーザに対して広告配信やコンテンツ配信を行う際に、そのユーザに対して効果が高い広告やコンテンツ等のサービスを提供するために利用できる。このため、より効果的な機械学習を行うことで各ユーザに対してより効果が高い広告やコンテンツ等のサービスを提供できる情報分析装置および情報分析方法が求められている。   The machine learning as in Patent Literature 1 can be used to provide services such as advertisements and contents that are highly effective for users when performing advertisement distribution and content distribution to the users. For this reason, there is a need for an information analysis apparatus and an information analysis method that can provide services such as advertisements and contents that are more effective for each user by performing more effective machine learning.

本発明の目的は、効果的な機械学習を行うことができる情報分析装置、情報分析方法および情報分析プログラムを提供することにある。   An object of the present invention is to provide an information analysis apparatus, an information analysis method, and an information analysis program capable of performing effective machine learning.

本発明の情報分析装置は、ユーザIDで特定されるユーザが端末を用いてサービス提供サイトにアクセスした際の行動ログを取得するログ取得手段と、前記ログ取得手段で取得した前記行動ログに基づく行動パターンを少なくとも1以上のクラスタに分類するクラスタリング手段と、前記クラスタリング手段で分類されたクラスタ情報を含む複数の素性を用いて機械学習を行って識別関数を生成する機械学習手段と、を備えることを特徴とする。   The information analysis apparatus of the present invention is based on log acquisition means for acquiring an action log when a user specified by a user ID accesses a service providing site using a terminal, and the action log acquired by the log acquisition means Clustering means for classifying action patterns into at least one cluster and machine learning means for generating a discrimination function by performing machine learning using a plurality of features including cluster information classified by the clustering means It is characterized by.

本発明によれば、クラスタリング手段は、ログ取得手段が取得した行動ログの行動パターンを少なくとも1以上のクラスタに分類する。機械学習手段は、前記クラスタリング手段で分類されたクラスタ情報を素性に用いて識別関数を生成する。このため、機械学習を行う際に、同じような行動パターンを行うユーザの素性を関連づけて学習できるので、効果的な機械学習を行うことができる。   According to the present invention, the clustering unit classifies the behavior pattern of the behavior log acquired by the log acquisition unit into at least one cluster. The machine learning means generates an identification function using the cluster information classified by the clustering means as a feature. For this reason, when performing machine learning, it is possible to learn by associating the features of a user who performs a similar behavior pattern, so that effective machine learning can be performed.

実施形態に係る情報分析システムの構成を示すブロック図である。It is a block diagram which shows the structure of the information analysis system which concerns on embodiment. 実施形態に係るサーバ装置の構成を示すブロック図である。It is a block diagram which shows the structure of the server apparatus which concerns on embodiment. 実施形態に係るアクセスログの一例を示す図である。It is a figure which shows an example of the access log which concerns on embodiment. 実施形態に係る情報分析処理を示すフローチャートである。It is a flowchart which shows the information analysis process which concerns on embodiment. (A)は1時間毎のアクセス回数の推移を示す図、(B)は1時間毎のアクセスの有無を示す2値化した行動パターンを示す図、(C)は類似するパターンをグループ化した行動グループを示す図である。(A) is a diagram showing the transition of the number of accesses per hour, (B) is a diagram showing binarized behavior patterns indicating the presence or absence of access every hour, (C) is a grouping of similar patterns It is a figure which shows an action group. ユーザID毎の1時間毎のアクセスの有無を示すログデータを示す図である。It is a figure which shows the log data which show the presence or absence of the access for every hour for every user ID. 正規化したログデータを示す図である。It is a figure which shows the log data normalized. (A)はユーザID毎のクラスタリング番号を示す図、(B)はクラスタリング番号毎の行動パターンを示す図である。(A) is a figure which shows the clustering number for every user ID, (B) is a figure which shows the action pattern for every clustering number. カテゴリーIDとその内容を示す図である。It is a figure which shows category ID and its content. テキスト広告の一例を示す図である。It is a figure which shows an example of a text advertisement. 機械学習手段に入力されるSVM形式のデータを示す図である。It is a figure which shows the data of the SVM format input into a machine learning means. CTR予測モデルによって広告を配信する処理を示すフローチャートである。It is a flowchart which shows the process which delivers an advertisement by a CTR prediction model.

以下、本発明の実施形態を図面に基づいて説明する。
[全体構成]
図1は、本実施形態の情報分析システム1の概略構成を示すブロック図である。
図1に示すように、情報分析システム1は、ユーザ端末10と、本発明の情報分析装置として機能するサーバ装置20と、を備え、これらのユーザ端末10及びサーバ装置20がネットワーク(例えばインターネット等のWAN(Wide Area Network))5を介して通信可能に接続されている。
Hereinafter, embodiments of the present invention will be described with reference to the drawings.
[overall structure]
FIG. 1 is a block diagram showing a schematic configuration of an information analysis system 1 of the present embodiment.
As shown in FIG. 1, the information analysis system 1 includes a user terminal 10 and a server device 20 that functions as the information analysis device of the present invention. The user terminal 10 and the server device 20 are connected to a network (for example, the Internet or the like). Communication via a WAN (Wide Area Network) 5.

[ユーザ端末の構成]
ユーザ端末10としては、例えば、デスクトップ型パーソナルコンピュータ、ノート側パーソナルコンピュータ、スマートフォン、携帯電話、タブレット端末等の各種デバイスを例示できる。また、図1に示すように、一人のユーザが、デスクトップ型パーソナルコンピュータ(パソコン10A)、スマートフォン10B、タブレット端末10Cの複数のデバイスを所持している場合もある。
[User terminal configuration]
Examples of the user terminal 10 include various devices such as a desktop personal computer, a notebook personal computer, a smartphone, a mobile phone, and a tablet terminal. Further, as shown in FIG. 1, a single user may have a plurality of devices such as a desktop personal computer (PC 10A), a smartphone 10B, and a tablet terminal 10C.

一般的なユーザ端末10の概略構成を、図1に示すユーザ端末10Dの構成を示すブロック図で説明する。
ユーザ端末10は、図1に示すように、表示部11と、入力操作部12と、端末通信部13と、端末記憶部14と、端末制御部15と、を含んで構成される。
A schematic configuration of a general user terminal 10 will be described with reference to a block diagram showing a configuration of a user terminal 10D shown in FIG.
As shown in FIG. 1, the user terminal 10 includes a display unit 11, an input operation unit 12, a terminal communication unit 13, a terminal storage unit 14, and a terminal control unit 15.

表示部11は、例えば液晶ディスプレイ等により構成され、端末制御部15の制御の下、所定の画像を表示させる。
入力操作部12は、ユーザ操作による操作信号を端末制御部15に出力する。入力操作部12としては、例えば、表示部11と一体に設けられたタッチパネルや、キーボード、マウス等の入力装置等を例示できる。
端末通信部13は、ネットワーク5上の所定の装置と通信する。
The display unit 11 is configured by a liquid crystal display, for example, and displays a predetermined image under the control of the terminal control unit 15.
The input operation unit 12 outputs an operation signal generated by a user operation to the terminal control unit 15. Examples of the input operation unit 12 include a touch panel provided integrally with the display unit 11, an input device such as a keyboard and a mouse, and the like.
The terminal communication unit 13 communicates with a predetermined device on the network 5.

端末記憶部14は、例えばメモリ、ハードディスク等のデータ記録装置により構成されている。端末記憶部14には、例えば、ユーザを特定するためのユーザIDや、ユーザ端末10のデバイスを判定するためのデバイスデータなどが記憶されている。
ユーザIDは、ユーザ端末10がサーバ装置20にアクセスした際に、サーバ装置20から送信されるクッキーに記憶されている番号などが利用できる。
デバイスデータとしては、例えばユーザ端末10のデバイス製造会社や、デバイスの機種名、通信会社のキャリア名等が記録される。
また、端末記憶部14には、その他、ユーザ端末を制御するための各種プログラム等が記憶される。
The terminal storage unit 14 is configured by a data recording device such as a memory or a hard disk. The terminal storage unit 14 stores, for example, a user ID for specifying a user, device data for determining a device of the user terminal 10, and the like.
As the user ID, a number stored in a cookie transmitted from the server device 20 when the user terminal 10 accesses the server device 20 can be used.
As the device data, for example, the device manufacturer of the user terminal 10, the device model name, the carrier name of the communication company, and the like are recorded.
In addition, the terminal storage unit 14 stores various programs for controlling the user terminal.

端末制御部15は、CPU(Central Processing Unit)等の演算回路、RAM(Random Access Memory)等の記憶回路により構成され、ユーザ端末10の各部を制御する。端末制御部15は、端末記憶部14等に記憶されているプログラムの中から所定のアプリケーション等のプログラム(ソフトウェア)をRAMに展開し、RAMに展開されたプログラムとの協働で、各種処理を実行する。これにより、端末制御部15は、サーバ装置20に対してネットワーク5を介して通信可能になり、例えば、サーバ装置20が提供する各種サービスを利用することが可能となる。この際、端末制御部15は、サーバ装置20に対して、ユーザ端末10を特定するデバイスデータや、ユーザを特定するためのユーザID等を同時に送信する。   The terminal control unit 15 includes an arithmetic circuit such as a CPU (Central Processing Unit) and a storage circuit such as a RAM (Random Access Memory), and controls each unit of the user terminal 10. The terminal control unit 15 expands a program (software) such as a predetermined application from among the programs stored in the terminal storage unit 14 and the like, and performs various processes in cooperation with the program expanded in the RAM. Run. Thereby, the terminal control unit 15 can communicate with the server device 20 via the network 5, and can use various services provided by the server device 20, for example. At this time, the terminal control unit 15 transmits device data for specifying the user terminal 10, a user ID for specifying the user, and the like to the server device 20 at the same time.

[サーバ装置の構成]
図2は、サーバ装置20の概略構成を示すブロック図である。
サーバ装置20は、コンピュータにより構成され、本発明の情報分析装置として機能するとともに、ユーザ端末10に対して各種サービスを提供するWEBサーバ等のサービス提供装置としても機能する。このサーバ装置20は、サーバ通信部21と、サーバ記憶部22と、サーバ制御部30と、入力装置24と、表示装置25等を含んで構成されている。
[Configuration of server device]
FIG. 2 is a block diagram illustrating a schematic configuration of the server device 20.
The server device 20 is configured by a computer and functions as an information analysis device of the present invention, and also functions as a service providing device such as a WEB server that provides various services to the user terminal 10. The server device 20 includes a server communication unit 21, a server storage unit 22, a server control unit 30, an input device 24, a display device 25, and the like.

サーバ通信部21は、ネットワーク5に接続されており、ユーザ端末10と通信する。
また、入力装置24は、キーボード、タッチパネル、マウス等で構成される。入力装置24は、分析条件等を入力する場合等に利用される。例えば、クラスタリングする際のハイパーパラメータα、βやクラスタリング上限数等を入力装置24で入力することができる。
表示装置25は、液晶ディスプレイなどで構成され、分析結果等を表示する。なお、サーバ装置20には、入力装置24および表示装置25を設けずに、サーバ装置20にLAN等を介して分析用端末を接続し、この分析用端末で分析条件を入力したり、分析結果を表示してもよい。
The server communication unit 21 is connected to the network 5 and communicates with the user terminal 10.
The input device 24 includes a keyboard, a touch panel, a mouse, and the like. The input device 24 is used when inputting analysis conditions and the like. For example, hyperparameters α and β for clustering, the upper limit number of clustering, and the like can be input with the input device 24.
The display device 25 is composed of a liquid crystal display or the like, and displays analysis results and the like. The server device 20 is not provided with the input device 24 and the display device 25, but an analysis terminal is connected to the server device 20 via a LAN or the like, and an analysis condition is input at the analysis terminal or an analysis result is obtained. May be displayed.

サーバ記憶部22は、例えばメモリ、ハードディスク等により構成されたデータ記録装置である。このサーバ記憶部22は、ユーザ端末10の行動ログ(行動履歴データ)としてのアクセスログを蓄積し、記憶している。すなわち、サーバ記憶部22は、行動ログ記憶手段として機能する。また、サーバ記憶部22には、サーバ装置20を制御するための各種プログラムが記憶される。   The server storage unit 22 is a data recording device configured with, for example, a memory, a hard disk, and the like. The server storage unit 22 accumulates and stores an access log as an action log (action history data) of the user terminal 10. That is, the server storage unit 22 functions as an action log storage unit. The server storage unit 22 stores various programs for controlling the server device 20.

[サーバ制御部の構成]
サーバ制御部30は、CPU等の演算回路、RAM等の記憶回路により構成され、サーバ記憶部22等に記憶されているプログラム(ソフトウェア)をRAMに展開し、RAMに展開されたプログラムとの協働で、各種処理を実行する。そして、サーバ制御部30は、上記各種処理を実行することで、図2に示すように、ログ取得手段31、クラスタリング手段32、代表パターン生成手段33、機械学習手段34、評価値算出手段35、情報配信手段36、クラスタ特性推定手段37及びサービス提供手段40等として機能する。
[Configuration of server control unit]
The server control unit 30 includes an arithmetic circuit such as a CPU and a storage circuit such as a RAM. The server control unit 30 expands a program (software) stored in the server storage unit 22 and the like in the RAM and cooperates with the program expanded in the RAM. Various processes are executed by operation. Then, the server control unit 30 executes the above-described various processes, and as shown in FIG. 2, the log acquisition unit 31, the clustering unit 32, the representative pattern generation unit 33, the machine learning unit 34, the evaluation value calculation unit 35, It functions as information distribution means 36, cluster characteristic estimation means 37, service provision means 40, and the like.

[ログ取得手段]
ログ取得手段31は、ユーザ端末10からアクセスがあった際に、ユーザID、アクセス時刻(時刻情報)、ユーザ端末10のデバイスデータ、アクセス先のサービスである利用サービスデータ等を取得し、これらを関連付けて、図3に示すようなアクセスログとしてサーバ記憶部22に蓄積する。すなわち、アクセスログは、分析対象であるユーザ(ユーザ端末10)のアクセス行動が検出された時刻を示す時刻情報と、前記ユーザの状況を特定可能な分類情報(デバイスデータや利用サービスデータ)とを含む行動ログ(行動履歴)データである。従って、ログ取得手段31は、行動ログデータ(アクセスログ)を取得する行動履歴取得手段として機能する。
[Log acquisition means]
The log acquisition unit 31 acquires a user ID, an access time (time information), device data of the user terminal 10, use service data as an access destination service, and the like when accessed from the user terminal 10. In association with each other, it is stored in the server storage unit 22 as an access log as shown in FIG. That is, the access log includes time information indicating the time when the access behavior of the user (user terminal 10) to be analyzed is detected, and classification information (device data and usage service data) that can identify the user's situation. Action log (action history) data included. Therefore, the log acquisition unit 31 functions as an action history acquisition unit that acquires action log data (access log).

ユーザIDは、分析対象であるユーザを示す匿名化されたIDである。なお、同一ユーザが複数デバイスを所持する場合は、ユーザ毎にユーザIDを設定してもよいが、同一ユーザの異なるデバイス毎に異なるユーザIDを設定することが好ましい。これにより、使用するデバイス毎に行動ログを蓄積でき、ユーザの行動ログを詳細に取得できる。
アクセス時刻は、ユーザ端末10がWEBサーバであるサーバ装置20にアクセスした時刻である。
The user ID is an anonymized ID that indicates a user to be analyzed. When the same user has a plurality of devices, a user ID may be set for each user, but it is preferable to set a different user ID for each different device of the same user. Thereby, an action log can be accumulated for every device used, and a user's action log can be acquired in detail.
The access time is the time when the user terminal 10 accesses the server device 20 that is a WEB server.

アクセスログに含まれるデバイスデータは、上述したように、ユーザ端末10のデバイスの種類である。このデバイスデータは、多値のいずれかが選択可能なデータとされている。つまり、デバイスデータは、例えば、パソコン10A、スマートフォン10B、タブレット端末10C、あるいはその他の端末といった4値のいずれかが選択されるパラメータとなる。なお、上記例では、デバイスデータは、4値のいずれかの例を示すが、例えば、ユーザに装着して利用するウェアラブル端末からのアクセスがあった場合の値を追加してもよい。さらに、デバイスがスマートフォンである場合に、さらにその機種や、仕事用かプライベート用か等も分類したデータとしてもよい。
なお、デバイスデータは、必ずしも必須のデータではないが、デバイスデータを備えていれば、アクセス環境の分析を詳細に行うことができる。
The device data included in the access log is the device type of the user terminal 10 as described above. This device data is data that can be selected from one of multiple values. That is, the device data is a parameter for selecting one of four values such as the personal computer 10A, the smartphone 10B, the tablet terminal 10C, and other terminals. In the above example, the device data shows an example of any of four values, but for example, a value when there is an access from a wearable terminal that is worn and used by the user may be added. Furthermore, when the device is a smartphone, it may be data that further classifies the model, whether it is for work or private use.
Note that the device data is not necessarily essential data, but if the device data is provided, the access environment can be analyzed in detail.

アクセスログに含まれる利用サービスデータも、多値のいずれかが選択可能なデータとなる。つまり、利用サービスデータとしては、例えば、サービス提供手段40が提供するサービスのいずれにアクセスしたかを示すパラメータであり、提供されるサービス数に対応した多値のパラメータとなる。例えば、行動状態を分類したいサービスとして、メール、ヘッドラインニュース、デイリーニュース、オークション、ショッピング、金融、知恵袋、野球、地図、その他の10種類が設定されている場合、前記利用サービスデータは、前記10種類のサービスのいずれかにアクセスしたことを示す10値のいずれかの値に設定される。   The usage service data included in the access log is also data that can be selected from any of multiple values. In other words, the usage service data is, for example, a parameter indicating which of the services provided by the service providing unit 40 is accessed, and is a multi-value parameter corresponding to the number of services provided. For example, when 10 types of services such as mail, headline news, daily news, auction, shopping, finance, wisdom bag, baseball, map, etc. are set as services to be classified, the usage service data is the 10 It is set to one of 10 values indicating that one of the types of services has been accessed.

なお、アクセスログに含まれる分類情報としては、デバイスデータ、利用サービスデータに限らず、アクセスした場所を示す位置データや、アクセス時の天気、気温、湿度などの気象データなどでもよい。要するに、分類情報の種類は、行動パターンを分析する目的などに応じて設定すればよい。   The classification information included in the access log is not limited to device data and usage service data, but may be location data indicating an accessed place, weather data such as weather, temperature, and humidity at the time of access. In short, the type of classification information may be set according to the purpose of analyzing the behavior pattern.

[クラスタリング手段]
クラスタリング手段32は、サーバ記憶部22に記憶、蓄積されたアクセスログに基づいた各ユーザの行動パターンを、ディリクレ過程(Dirichlet process)などを用いて少なくとも1以上つまり複数の行動グループ(クラスタ)に分類(クラスタリング)する。
このため、クラスタリング手段32は、分析対象設定部321と、行動履歴データ抽出手段322と、行動パターン作成手段323と、グループ化手段324とを備える。これらの各手段の詳細は、後述するクラスタリング処理において説明する。
[Clustering means]
The clustering means 32 classifies each user's action pattern based on the access log stored and accumulated in the server storage unit 22 into at least one or more action groups (clusters) using a Dirichlet process or the like. (Clustering).
Therefore, the clustering unit 32 includes an analysis target setting unit 321, an action history data extraction unit 322, an action pattern creation unit 323, and a grouping unit 324. Details of these means will be described in the clustering process described later.

[代表パターン生成手段]
代表パターン生成手段33は、各行動グループの代表的な行動パターンを生成する。
従って、本実施形態では、クラスタリング手段32および代表パターン生成手段33によって、行動パターン分析装置が構成される。
[Representative pattern generation means]
The representative pattern generation unit 33 generates a representative behavior pattern for each behavior group.
Therefore, in this embodiment, the behavior pattern analysis apparatus is configured by the clustering unit 32 and the representative pattern generation unit 33.

[機械学習手段]
機械学習手段34は、例えばサポートベクターマシーン(SVM)等の手法を利用して識別関数f(x)を生成する。識別関数f(x)は下記の式(1)のように表される。
[Machine learning means]
The machine learning unit 34 generates a discriminant function f (x) using a technique such as a support vector machine (SVM). The discriminant function f (x) is expressed as the following formula (1).

Figure 2016062411
Figure 2016062411

ここで、xは各素性を示し、wは各素性の重みベクトルを示し、bはバイアス項であり、dは次元数である。ユーザ端末10でアクセスしたサイトのページ(例えばニュースのページ)が表示された際に、そのページに配信・表示されたテキスト広告に対してCTRを予測するために用いる識別関数f(x)の具体例を式(2)に示す。   Here, x represents each feature, w represents a weight vector of each feature, b represents a bias term, and d represents the number of dimensions. Specifics of an identification function f (x) used for predicting CTR for a text advertisement distributed / displayed on a page (for example, a news page) accessed on the user terminal 10 An example is shown in equation (2).

Figure 2016062411
Figure 2016062411

上記式(2)で使用している素性は、実績CTRと、単語およびカテゴリーIDの2種類のコサイン類似度と、AD(advertisement:広告)の単語の重みと、ADとユーザ属性の両方に出てくるカテゴリーIDの重みと、ページのドメイン毎のポジションの重みと、本発明で新たに追加した素性であるクラスタリング結果およびカテゴリーを組み合わせたクロス素性とを用いている。
具体的には、xNCTRおよびwNCTRは実績CTRの素性および重みである。実績CTRとは、過去にその広告がクリックされた回数を配信された回数で割った値である。この実績CTRは様々な粒度で集計することができる。例えば、その広告の単位や、広告主単位、ユーザの性別や年齢の単位、またはそれらを掛け合わせた単位などである。
xcosおよびwcosは単語のコサイン類似度の素性および重みである。単語のコサイン類似度とは、ユーザ端末10でアクセスしたページと広告の類似度に着目したものであり、前記ページの語句ベクトルと、テキスト広告の語句ベクトルのコサイン類似度を求めたものである。
xbtcosおよびwbtcosはカテゴリーのコサイン類似度の素性および重みである。カテゴリーのコサイン類似度とは、ユーザと広告の関連度に着目したものであり、ユーザおよび広告の双方にカテゴリーを付与し、カテゴリーベクトルのコサイン類似度を求めたものである。
xtermαおよびwtermαは広告(AD)の単語の素性および重みである。
xfidiおよびwfidiは広告(AD)とユーザの両方に出てくる(共起する)カテゴリーの素性および重みである。
wrk,dはページのドメイン毎のポジションの重みである。
The features used in equation (2) appear in both the actual CTR, the cosine similarity of two types of words and category IDs, the AD (advertisement) word weight, and both AD and user attributes. The weights of the category IDs to be received, the weights of the positions for each domain of the page, and the clustering result and the cross feature combining the categories, which are features newly added in the present invention, are used.
Specifically, x NCTR and w NCTR are the features and weights of the actual CTR. The actual CTR is a value obtained by dividing the number of times the advertisement has been clicked in the past by the number of times of distribution. The actual CTR can be aggregated with various granularities. For example, the unit of the advertisement, the unit of the advertiser, the gender and age of the user, or the unit obtained by multiplying them.
x cos and w cos are the features and weights of cosine similarity of words. The word cosine similarity is based on the similarity between the page accessed by the user terminal 10 and the advertisement, and the cosine similarity between the word vector of the page and the word vector of the text advertisement is obtained.
x btcos and w btcos are the features and weights of the cosine similarity of the category. The category cosine similarity refers to the degree of association between the user and the advertisement. The category is assigned to both the user and the advertisement, and the cosine similarity of the category vector is obtained.
xtermα and wtermα are the word features and weights of the advertisement (AD).
x fidi and w fidi are the features and weights of categories that appear (co-occur) in both advertisements (AD) and users.
w rk, d is the weight of the position for each domain of the page.

xnewおよびwnewは本発明の特徴であるクラスタ情報とカテゴリー情報とを掛け合わせた素性および重みである。クラスタ情報は、ページにアクセスしているユーザ端末10によるアクセス操作の行動パターンが、クラスタリング手段32でグループ化されて分類されたクラスタ(行動パターン)のいずれに該当するかを表す数字である。例えば、行動パターンのクラスタが8種類に分類された場合、ユーザ端末10の行動パターンは、クラスタ情報「1」〜「8」のいずれかの数字が設定される。
カテゴリー情報は、配信された各広告のカテゴリーを表すコードである。
そして、xnewには、前記クラスタ情報およびカテゴリー情報を掛け渡したクロス素性が設定される。
機械学習手段34は、機械学習を行うことで各素性の重みを算出する。
x new and w new are features and weights obtained by multiplying the cluster information and the category information, which are features of the present invention. The cluster information is a number representing which of the clusters (behavior patterns) that the action pattern of the access operation by the user terminal 10 accessing the page is classified and grouped by the clustering means 32. For example, when the behavior pattern clusters are classified into eight types, the behavior pattern of the user terminal 10 is set to any number of cluster information “1” to “8”.
The category information is a code that represents the category of each distributed advertisement.
In x new , a cross feature obtained by passing the cluster information and category information is set.
The machine learning means 34 calculates the weight of each feature by performing machine learning.

[評価値算出手段]
評価値算出手段35は、評価値として各テキスト広告がクリックされる確率である予測CTRを求める。具体的には、評価値算出手段35は、ロジスティック回帰モデルを用いて構築した次の式(3)のCTR予測モデルを用いて評価値である予測CTRを算出する。
[Evaluation value calculation means]
The evaluation value calculation means 35 obtains a predicted CTR that is a probability that each text advertisement is clicked as an evaluation value. Specifically, the evaluation value calculation means 35 calculates a predicted CTR, which is an evaluation value, using a CTR prediction model of the following equation (3) constructed using a logistic regression model.

Figure 2016062411
Figure 2016062411

前記式(3)において、fは前記機械学習手段34で求められる式(2)の識別関数であり、A,Bは定数である。   In the equation (3), f is an identification function of the equation (2) obtained by the machine learning means 34, and A and B are constants.

[情報配信手段]
情報配信手段36は、評価値算出手段35で算出した評価値(予測CTR)が高い情報(テキスト広告)をユーザがアクセスしているページに配信する。
情報配信手段36が、予測CTRが高い広告を配信するのは、期待収益の高い広告を配信して表示させるためである。すなわち、クリック課金型の広告では、ユーザが広告をクリックした場合のみ広告主はその代金を支払う。したがって、オンライン広告サービスの提供者が得られる収益を最大化するためには、期待収益(eCPM)の高い広告をユーザ端末に配信する必要がある。
そして、正確な期待収益(eCPM)を求めるためには、CTRの予測が必要となる。期待収益は、広告主が設定した入札額(Bid)と、クリック率(click-through rate;CTR)とで求められる(eCPM=CTR×bid)。
ここで、あるユーザが操作するユーザ端末に広告を表示したときに、どのくらいの確率で前記広告がクリックされるのかというクリック率は未知なので、予測する必要がある。このため、式(2)を用いた機械学習によって式(3)のCTR予測モデルを構築し、情報配信手段36は予測CTRの高い広告を優先して配信している。
[Information distribution means]
The information distribution unit 36 distributes information (text advertisement) having a high evaluation value (predicted CTR) calculated by the evaluation value calculation unit 35 to a page accessed by the user.
The information distribution means 36 distributes an advertisement with a high predicted CTR in order to distribute and display an advertisement with a high expected profit. In other words, in the click charge type advertisement, the advertiser pays the price only when the user clicks the advertisement. Therefore, in order to maximize the profits that the online advertising service provider can obtain, it is necessary to distribute advertisements with high expected profits (eCPM) to user terminals.
In order to obtain an accurate expected profit (eCPM), it is necessary to predict CTR. Expected revenue is obtained from the bid amount (Bid) set by the advertiser and the click-through rate (CTR) (eCPM = CTR × bid).
Here, when an advertisement is displayed on a user terminal operated by a certain user, the probability of clicking the advertisement with a certain probability is unknown, so it is necessary to predict it. For this reason, the CTR prediction model of Expression (3) is constructed by machine learning using Expression (2), and the information distribution means 36 distributes the advertisement with high predicted CTR with priority.

[クラスタ特性推定手段]
クラスタ特性推定手段37は、クラスタリング手段32でグループ化された各クラスタの特性を推定する。すなわち、クラスタリング手段32は、ディリクレ過程等を用いてクラスタリングするため、グループ化された各クラスタがどのような特性を有するものであるかは不明であった。そこで、クラスタ特性推定手段37は、後述するように、機械学習手段34においてクラスタ情報およびカテゴリー情報を掛け渡したクロス素性を用いていることを利用し、重みの高いクロス素性を調べることで、各クラスタの特性を推定する。
[Cluster characteristic estimation means]
The cluster characteristic estimation unit 37 estimates the characteristics of each cluster grouped by the clustering unit 32. That is, since the clustering means 32 performs clustering using a Dirichlet process or the like, it is unclear what characteristics each grouped cluster has. Therefore, as will be described later, the cluster characteristic estimation unit 37 uses the cross feature obtained by passing the cluster information and the category information in the machine learning unit 34, and checks each cross feature having a high weight. Estimate cluster characteristics.

[サービス提供手段]
サービス提供手段40は、ユーザ端末10からの要求に応じて、WEB上で利用可能なサービスをユーザ端末10に提供する。サービス提供手段40により提供されるサービスとしては、例えば、ニュース等の情報発信サービス、オンライン上での商取引サービス(例えば株取引やオンライショッピング等)、メールサービス等が含まれる。
[Service provision means]
The service providing unit 40 provides the user terminal 10 with a service that can be used on the WEB in response to a request from the user terminal 10. The services provided by the service providing means 40 include, for example, information transmission services such as news, online commercial transaction services (for example, stock transactions and online shopping), mail services, and the like.

[情報分析方法]
次に、上記のようなサーバ装置(情報分析装置)20における処理方法について図4のフローチャートも参照して説明する。図4のステップS1〜S4は、蓄積されたアクセスログに基づいて、各ユーザの行動パターンをクラスタリングして行動グループを分類するクラスタリング処理であり、ステップS5はその代表パターンを生成する代表パターン生成処理である。さらに、ステップS6は、クロス素性を作成する処理であり、ステップS7は、ペアワイズ法などを用いて機械学習する処理である。
[Information analysis method]
Next, a processing method in the server apparatus (information analysis apparatus) 20 as described above will be described with reference to the flowchart of FIG. Steps S1 to S4 in FIG. 4 are clustering processing for classifying the behavior groups by clustering the behavior patterns of each user based on the accumulated access log, and step S5 is representative pattern generation processing for generating the representative patterns. It is. Further, step S6 is a process for creating a cross feature, and step S7 is a process for machine learning using a pairwise method or the like.

以下、各処理の詳細を説明する。
サーバ装置20は、ユーザ端末10から所定のサービス提供サイトに対してアクセスがあった際に、サーバ装置20は、そのアクセスログ(行動ログ)を検出して蓄積する。
サービス提供サイトが提供するサービスしては、ニュース等の情報発信サービス、オンライン上での商取引サービス(例えば株取引やオンライショッピング等)、メールサービス等が含まれる。これらのサービス提供サイトは、サーバ装置20で構築することもできるし、図示しない他のサーバ装置で構築することもできる。
さらに、サーバ装置20は、サービス提供サイト毎にアクセスログを蓄積することもできるし、これらの各種サービスへのアクセスログをまとめて蓄積してもよい。
Details of each process will be described below.
When the server device 20 is accessed from the user terminal 10 to a predetermined service providing site, the server device 20 detects and accumulates the access log (behavior log).
Services provided by the service providing site include information transmission services such as news, online commerce services (for example, stock trading and online shopping), mail services, and the like. These service providing sites can be constructed by the server device 20 or by other server devices not shown.
Furthermore, the server device 20 can accumulate access logs for each service providing site, or can collect access logs for these various services collectively.

[クラスタリング処理]
サーバ装置20のクラスタリング手段32によるクラスタリング処理について、図面に基づいて説明する。
分析準備として、クラスタリング手段32の分析対象設定部321は、行動パターンを分析する際に、どのようなユーザの行動を分析するかを指定する分析対象条件を設定する(ステップS1)。具体的には、分析対象とする行動ログデータを収集する収集期間情報と、行動パターンを分析するための期間を示す分析期間情報と、行動パターンを分析する際の単位期間情報とを設定する。さらに、ハイパーパラメータα、βと、クラスタリング上限数を適切に入力する。例えば、ハイパーパラメータα、βは共に「1」に設定し、クラスタリング上限数は「10」に設定する。この設定は、分析者が入力装置24を用いてサーバ装置20に入力することで設定される。
[Clustering processing]
Clustering processing by the clustering means 32 of the server device 20 will be described based on the drawings.
As an analysis preparation, the analysis target setting unit 321 of the clustering means 32 sets an analysis target condition for designating what kind of user behavior is analyzed when analyzing the behavior pattern (step S1). Specifically, collection period information for collecting behavior log data to be analyzed, analysis period information indicating a period for analyzing a behavior pattern, and unit period information for analyzing a behavior pattern are set. Further, the hyper parameters α and β and the upper limit number of clustering are appropriately input. For example, both the hyper parameters α and β are set to “1”, and the upper limit number of clustering is set to “10”. This setting is set when an analyst inputs to the server device 20 using the input device 24.

収集期間情報は、サーバ記憶部22に記憶されたアクセスログの分析対象期間を設定するものである。例えば、5月11日から8月18日など、収集期間の始期と終期とで期間情報を設定する。
分析期間情報は、どの程度の期間の行動パターンを分析対象とするかを設定するものである。例えば、1日毎の行動パターンを分析する場合には、前記分析期間情報は1日(例えば、00:00:00から23:59:59)が設定される。また、1週間毎の行動パターンを分析する場合には、前記分析期間情報は1週間(例えば、日曜日から土曜日)が設定される。さらに、6時間毎の行動パターンを分析する場合には、前記分析期間情報は6時間(例えば、00:00:00から05:59:59、06:00:00〜11:59:59、12:00:00から17:59:59、18:00:00〜23:59:59)が設定される。
単位期間情報は、前記分析期間情報よりも短い時間間隔であり、行動(アクセス)の有無を判定する単位時間を設定するものである。例えば、分析期間情報が1日である場合に、単位期間情報は1時間単位(例えば、00:00:00から00:59:59、01:00:00から01:59:59、…、23:00:00から23:59:59)に設定される。なお、単位期間情報は、1時間単位に限定されず、30分単位としてもよいし、2時間単位にしてもよく、行動パターンの分析目的等に応じて設定すればよい。
The collection period information sets the analysis target period of the access log stored in the server storage unit 22. For example, period information is set at the beginning and end of the collection period, such as from May 11 to August 18.
The analysis period information sets what period of behavior pattern is to be analyzed. For example, when analyzing a daily behavior pattern, the analysis period information is set to one day (for example, 00:00 to 23:59:59). Further, when analyzing the behavior pattern for each week, the analysis period information is set to one week (for example, Sunday to Saturday). Furthermore, when analyzing a behavior pattern every 6 hours, the analysis period information is 6 hours (for example, from 00:00:00 to 05:59:59, 06:00:00 to 11:59:59, 12 : 00: 00 to 17:59:59, 18:00:00 to 23:59:59).
The unit period information is a time interval shorter than the analysis period information, and sets a unit time for determining the presence or absence of an action (access). For example, when the analysis period information is one day, the unit period information is an hour unit (for example, 00:00:00 to 00:59:59, 01:00 to 01:59:59,..., 23 : 00: 00 to 23:59:59). The unit period information is not limited to one hour unit, may be a unit of 30 minutes, may be a unit of two hours, and may be set according to the purpose of analyzing the behavior pattern.

分類情報は、蓄積されたアクセスログから分析対象とする分類情報、つまりどのような状況でアクセスしたユーザの行動パターンを分析するかを設定するものである。例えば、分類情報として、デバイスデータを指定したり、サービスデータを指定することができる。また、デバイスデータとサービスデータのように複数の分類情報を指定することもできる。したがって、ニュースサイトにアクセスしたアクセスログのみを分析(クラスタリング)の対象とすることもできる。
さらに、分類情報としては、デバイスデータのうちの1つあるいは複数のデバイスを指定することもできる。例えば、パソコン10Aのみを指定したり、スマートフォン10Bのみを指定してもよいし、スマートフォン10Bおよびタブレット端末10Cの2つのデバイスを指定してもよい。同様に、サービスデータのうちの1つあるいは複数のサービスを指定してもよい。従って分類情報は、分析者が分析目的に応じて設定する。
The classification information is used to set classification information to be analyzed from the accumulated access log, that is, under what circumstances the behavior pattern of the accessed user is analyzed. For example, device data or service data can be specified as the classification information. It is also possible to specify a plurality of classification information such as device data and service data. Therefore, only the access log accessed to the news site can be the target of analysis (clustering).
Further, one or more devices in the device data can be designated as the classification information. For example, only the personal computer 10A may be specified, only the smartphone 10B may be specified, or two devices of the smartphone 10B and the tablet terminal 10C may be specified. Similarly, one or more services of service data may be specified. Therefore, the classification information is set by the analyst according to the analysis purpose.

次に、行動履歴データ抽出手段322は、分析対象設定部321で設定された収集期間情報、分析期間情報、単位期間情報に基づいて、アクセスログから分析対象条件に該当する行動履歴データ(行動ログデータ)を抽出する(ステップS2)。例えば、収集期間情報が5月11日から8月18日であり、分析期間情報が1日毎であり、単位期間情報が1時間であれば、行動履歴データ抽出手段322はアクセス時間が上記収集期間内の行動ログデータを取得し、この取得データを1日毎に分割して1日毎の行動ログデータを抽出し、さらに1日毎の行動ログデータを1時間毎に集計する。
図5(A)は、抽出されたユーザの1日分の行動ログデータである。なお、この際、分析対象条件の分類情報には、例えば、利用サービスデータとしてニュースサイトを指定し、デバイスデータは特定していない。また、1時間毎にアクセス回数が集計されている。このため、図5(A)のグラフは、横軸が1日の時間、縦軸がアクセス数とされた時間毎のアクセス数の推移を示すグラフである。
Next, based on the collection period information, analysis period information, and unit period information set by the analysis target setting unit 321, the action history data extraction unit 322 selects action history data (action log) corresponding to the analysis target condition from the access log. Data) is extracted (step S2). For example, if the collection period information is from May 11 to August 18, the analysis period information is every day, and the unit period information is 1 hour, the action history data extracting unit 322 may access time to the collection period. The behavior log data is acquired, the acquired data is divided every day, the behavior log data for each day is extracted, and the behavior log data for each day is totaled every hour.
FIG. 5A shows the action log data for the extracted user for one day. At this time, for example, the news site is specified as the service data to be used for the analysis target condition classification information, and the device data is not specified. The number of accesses is counted every hour. For this reason, the graph of FIG. 5A is a graph showing the transition of the number of accesses for each hour with the horizontal axis representing the time of the day and the vertical axis representing the number of accesses.

次に、行動パターン作成手段323は、抽出された行動ログデータから、単位期間毎(1時間単位)でサーバ装置20に対してアクセスしたか否かを検出し、アクセスがある場合に「1」、無い場合に「0」を返した2値化データを行動パターンとして作成する(ステップS3)。すなわち、行動パターン作成手段323は、図5(A)に示す各ユーザの1日の毎のアクセス数の推移を、分類情報毎(図5の例では利用サービスデータがニュースサイトの場合)にベルヌーイ分布に落とし込んで、図5(B)に示す行動パターンのグラフを作成する。なお、図5(B)の行動パターンを数値データで表せば、図6に示すようになる。すなわち、ユーザIDと、0時から23時の各時間帯でのアクセスの有無を「1」、「0」で表したログデータとなる。   Next, the behavior pattern creation unit 323 detects whether or not the server device 20 has been accessed every unit period (one hour unit) from the extracted behavior log data. If not, binarized data that returns “0” is created as an action pattern (step S3). That is, the behavior pattern creation means 323 determines the transition of the number of accesses per day for each user shown in FIG. 5 (A) for each category information (in the example of FIG. The behavior pattern graph shown in FIG. 5B is created by dropping into the distribution. In addition, if the action pattern of FIG. 5 (B) is represented by numerical data, it will become as shown in FIG. That is, the log data represents the user ID and the presence / absence of access in each time zone from 0:00 to 23:00 as “1” and “0”.

グループ化手段324は、行動パターン作成手段323で作成した各ユーザの行動パターンのうち類似パターン同士をグループ化(クラスタリング)するスクリプトを実行する(ステップS4)。
なお、グループ化手段324に入力される各ユーザの行動ログデータは、「1」、「0」の2値で表せるものに限定されず、例えば、図7に示すように、「0〜1」の間の数値で表すものでもよい。図7に示す行動ログデータは、ユーザIDの数が100万程度のデータを抽出したものである。すなわち、平日5日間にアクセスログが記憶された100万程度のユーザ端末(ユーザID)の0時から23時の各時間帯毎のアクセス数をカウントし、各ユーザIDの各時間帯のアクセス数を、そのユーザIDの全時間帯の合計アクセス数で割って正規化したものである。このような行動ログデータをグループ化手段324に入力してグループ化してもよい。
グループ化手段324は、これらの入力データを用いてクラスタリングを実施する。なお、クラスタリングの実施方法は、例えば、多値のパラメータを有する複合ディリクレプロセスモデルを用いて、ノンパラメトリックベイズ法により行うことができる。
グループ化手段324は、最適な数の行動グループを算出し、図5(C)に示すように、行動パターンをクラスタリングした複数個の行動グループを出力する。図5(C)は、4つの行動グループが出力された例である。
さらに、グループ化手段324は、図8(A)に示すように、各ユーザIDがどのグループに該当するかを示すラベル(クラスタリング番号、つまりクラスタ情報)を出力する。
The grouping means 324 executes a script for grouping (clustering) similar patterns among the user's action patterns created by the action pattern creating means 323 (step S4).
Note that the action log data of each user input to the grouping unit 324 is not limited to data that can be represented by binary values of “1” and “0”. For example, as shown in FIG. It may be expressed by a numerical value between. The action log data shown in FIG. 7 is obtained by extracting data having about 1 million user IDs. That is, the number of accesses for each time zone from 0 o'clock to 23:00 of about 1 million user terminals (user IDs) whose access logs are stored for 5 days on weekdays is counted, and the number of accesses for each user ID in each time zone Is normalized by dividing by the total number of accesses of all times of the user ID. Such action log data may be input to the grouping unit 324 to be grouped.
The grouping means 324 performs clustering using these input data. The clustering can be performed by, for example, a non-parametric Bayes method using a composite Dirichlet process model having multi-value parameters.
The grouping means 324 calculates an optimum number of action groups, and outputs a plurality of action groups obtained by clustering action patterns as shown in FIG. FIG. 5C is an example in which four action groups are output.
Further, as shown in FIG. 8A, the grouping unit 324 outputs a label (clustering number, that is, cluster information) indicating which group each user ID corresponds to.

次に、代表パターン生成手段33は、ステップS4により生成された各行動グループにおける代表パターンを生成する(ステップS5)。
このステップS5では、代表パターン生成手段33は、例えば、各行動グループに含まれる複数の行動パターンの平均値を算出する。図8(B)には、代表パターンの一例が示されている。
図8(B)のType1は、午前中から夜までアクセス数が低い値で一定しているタイプであり、Type2は午前12時頃に最もアクセス数が増加するタイプであり、Type3は深夜の時間帯にアクセス数が増加するタイプである。
このように、代表パターン生成手段33が代表パターンを生成し、表示装置25等に出力すれば、分析者は各パターンの特徴を容易に把握できる。
Next, the representative pattern generation unit 33 generates a representative pattern in each action group generated in step S4 (step S5).
In step S5, the representative pattern generation unit 33 calculates, for example, an average value of a plurality of behavior patterns included in each behavior group. FIG. 8B shows an example of a representative pattern.
In FIG. 8B, Type 1 is a type in which the number of accesses is low and constant from morning until night, Type 2 is a type in which the number of accesses increases most around 12:00 am, and Type 3 is a midnight time. This type increases the number of accesses.
Thus, if the representative pattern generation means 33 generates a representative pattern and outputs it to the display device 25 or the like, the analyst can easily grasp the characteristics of each pattern.

前記クラスタリング手段32の出力結果であるラベル番号(クラスタ情報)は、機械学習手段34で素性として用いられる。なお、本実施形態の機械学習手段34は、ペアワイズ法で機械学習を行うため、ユーザIDに対応するクラスタ情報を単純に追加すると、ペアワイズ法で差分を取った際に消去されてしまう。
このため、機械学習手段34は、ラベル番号と広告のカテゴリー情報とをクロスしたクロス素性を作成する(ステップS6)。
The label number (cluster information) that is the output result of the clustering means 32 is used as a feature by the machine learning means 34. In addition, since the machine learning means 34 of this embodiment performs a machine learning by a pairwise method, if the cluster information corresponding to a user ID is simply added, it will be erase | eliminated when the difference is taken by the pairwise method.
Therefore, the machine learning means 34 creates a cross feature that crosses the label number and the category information of the advertisement (step S6).

図9は、広告のカテゴリー情報の一例を示す図である。図9に示す広告のカテゴリー情報を示すカテゴリーIDと、カテゴリーの内容とは関連づけられてサーバ記憶部22に予め記憶されている。
そして、機械学習手段34は、前記ステップS4のクラスタリング処理によって、例えば10個のクラスタが生成された場合には、1〜10のラベル番号と、カテゴリーIDとのクロス素性として新たな番号を割り振る。
たとえば、カテゴリーIDが「1000738796(ファッション・アクセサリー)」とラベル番号1とのクロス素性を「10501」とし、「1000738796(ファッション・アクセサリー)」とラベル番号2とのクロス素性を「10502」とし、「1000738796(ファッション・アクセサリー)」とラベル番号10とのクロス素性を「10510」とする。
また、カテゴリーIDが「1000552812(各種人材サービス)」とラベル番号1とのクロス素性を「10621」とし、「1000552812(各種人材サービス)」とラベル番号10とのクロス素性を「10630」とする。
このように、機械学習手段34は、各カテゴリーIDとラベル番号とを掛け合わせたクロス素性を作成して新たな番号を割り振る。
FIG. 9 is a diagram illustrating an example of advertisement category information. The category ID indicating the category information of the advertisement shown in FIG. 9 and the category contents are associated with each other and stored in advance in the server storage unit 22.
The machine learning unit 34 assigns a new number as a cross feature between the label number 1 to 10 and the category ID when, for example, 10 clusters are generated by the clustering process in step S4.
For example, the cross feature between the category ID “1000738796 (fashion accessory)” and the label number 1 is “10501”, the cross feature between “1000738796 (fashion accessory)” and the label number 2 is “10502”, The cross feature between “1000738796 (fashion accessory)” and label number 10 is “10510”.
In addition, the cross feature between the category ID “1000552812 (various human resource services)” and the label number 1 is “10621”, and the cross feature between “1000552812 (various human resource services)” and the label number 10 is “10630”.
In this way, the machine learning means 34 creates a cross feature by multiplying each category ID and the label number, and assigns a new number.

次に、機械学習手段34は、設定された学習期間の行動ログデータを用いて機械学習を行う(ステップS7)。
例えば、図10に示すようなテキスト広告のクリックを予測するためには、機械学習手段34は、前記学習期間における、各テキスト広告に対するクリックの有無の行動ログデータを図11に示すようなsvm形式にして前記式(2)に入力し、機械学習を行う。
図11は、1行が1つのテキスト広告に対応している。各行の最初の値はクリックの有無を示し、「+1」はクリック有り、「−1」はクリック無しを示す。したがって、図11の例では、3行目が「+1」であるので、図11の3行目のテキスト広告「《格安》九州旅行なら」がクリックされ、他のテキスト広告はクリックされていないことを示す。
さらに、図11に示すように、各行には、各テキスト広告に対する行動ログデータが素性のkey:valueという形式で並んでいる。
素性のkeyは、各素性の種類を示す番号であり、例えば、図11においては、「1」は「実績CTR」、「2」は「単語のコサイン類似度」、「3」は「カテゴリーのコサイン類似度」などのように、予め設定された素性を示す。
素性のvalueは、各素性の重みを示す値であり、機械学習を行うことで求められ、これにより識別関数が生成される(ステップS8)。
Next, the machine learning means 34 performs machine learning using the action log data for the set learning period (step S7).
For example, in order to predict a click on a text advertisement as shown in FIG. 10, the machine learning means 34 displays action log data on the presence or absence of a click on each text advertisement in the learning period as shown in FIG. Then, the above equation (2) is input to perform machine learning.
In FIG. 11, one line corresponds to one text advertisement. The first value in each row indicates whether or not there is a click, “+1” indicates that there is a click, and “−1” indicates that there is no click. Therefore, in the example of FIG. 11, since the third line is “+1”, the text advertisement “<<cheap> Kyushu trip” in the third line of FIG. 11 is clicked, and no other text advertisement is clicked. Indicates.
Furthermore, as shown in FIG. 11, action log data for each text advertisement is arranged in each row in the form of feature key: value.
The feature key is a number indicating the type of each feature. For example, in FIG. 11, “1” is “actual CTR”, “2” is “word cosine similarity”, and “3” is “category”. It indicates a preset feature such as “cosine similarity”.
The value of the feature is a value indicating the weight of each feature and is obtained by performing machine learning, thereby generating an identification function (step S8).

以上の機械学習を行うことで、各素性の重みが算出されるため、クラスタ特性推定手段37は、重みの高いクロス素性を調べることで、グループ化された各クラスタの特性を推定する(ステップS9)。たとえば、ラベル番号2つまりクラスタ番号2のグループと各カテゴリーIDとのクロス素性のうち、最も重みが大きいものが、例えばクロス素性「10502」であったとする。このクロス素性「10502」は「1000738796(ファッション・アクセサリー)」とラベル番号2とのクロス素性である。このため、クラスタ特性推定手段37は、クラスタ番号2のグループは、ファッション・アクセサリーに興味がある特性を有するグループであることを推定できる。クラスタ特性推定手段37は、クラスタ番号2の代表パターンと、クラスタ番号2の特性(前記カテゴリーIDの分野であるファッション・アクセサリー)との関連が高いことを分析できるので、同様の行動パターンのユーザは同じ分野に興味があると推定でき、情報配信手段36はそのユーザに対して効果的な情報配信を行える。例えば、クラスタ番号2が平日の夜にニュースサイトへのアクセス回数が増える行動パターンであれば、平日の夜にニュースサイトを閲覧するユーザに対しては、ファッション・アクセサリーのカテゴリーの広告を配信することが有効であると推測でき、効果的に広告配信を行うことができる。   Since the weight of each feature is calculated by performing the above machine learning, the cluster characteristic estimation unit 37 estimates the characteristic of each grouped cluster by examining the cross feature having a high weight (step S9). ). For example, it is assumed that the cross feature between the group having the label number 2, that is, the cluster number 2 and each category ID has the largest weight, for example, the cross feature “10502”. This cross feature “10502” is a cross feature between “1000738796 (fashion accessory)” and label number 2. For this reason, the cluster characteristic estimation means 37 can estimate that the group of cluster number 2 is a group having a characteristic that is interested in fashion accessories. The cluster characteristic estimation means 37 can analyze that the relation between the representative pattern of cluster number 2 and the characteristic of cluster number 2 (fashion accessory which is the category ID field) is high. It can be estimated that the user is interested in the same field, and the information distribution means 36 can effectively distribute information to the user. For example, if the cluster number 2 is an action pattern in which the number of accesses to the news site increases on weekday nights, a fashion / accessory category advertisement is distributed to users who browse the news site on weekday nights. Can be presumed to be effective, and advertising can be distributed effectively.

次に、上記機械学習で求めた式(2)の識別関数を用いたCTR予測モデルによって、選別した広告を配信する方法を説明する。
図12に示すように、ユーザがユーザ端末10を用いてニュースサイトなどのサービス提供サイトにアクセスすると、サーバ装置20の評価値算出手段35は、アクセスしたユーザの情報と、アクセス先のページの情報を用いて配信する広告の候補を検索して抽出する(ステップS11)。
そして、評価値算出手段35は、候補の広告に対して前記式(3)のCTR予測モデルを用いて、各広告のCTRを予測する(ステップS12)。
次に、情報配信手段36は、前記CTRのスコア順に基づいて配信する広告とその順序を決定し、ユーザ端末10がアクセスしているページに広告を配信する(ステップS13)。
Next, a method for delivering a selected advertisement using the CTR prediction model using the discriminant function of Expression (2) obtained by the machine learning will be described.
As shown in FIG. 12, when a user accesses a service providing site such as a news site using the user terminal 10, the evaluation value calculation means 35 of the server device 20 includes information on the accessed user and information on the page to be accessed. Are used to search for and extract advertisement candidates to be distributed (step S11).
Then, the evaluation value calculation means 35 predicts the CTR of each advertisement using the CTR prediction model of the formula (3) for the candidate advertisement (step S12).
Next, the information distribution means 36 determines an advertisement to be distributed and its order based on the CTR score order, and distributes the advertisement to the page accessed by the user terminal 10 (step S13).

ユーザがユーザ端末10を用いて配信された広告をクリックしたか否かの行動ログは、サーバ装置20のサーバ記憶部22に蓄積される。機械学習手段34は、サーバ記憶部22に新たに蓄積された行動ログを、一定期間毎(例えば1週間毎)にSVM形式で入力することで、識別関数の機械学習を行い、識別関数の精度を向上させることができる。
また、クラスタリング手段32も、サーバ記憶部22に新たに蓄積された行動ログを用いて一定期間毎にクラスタリング処理を行ってもよい。
An action log indicating whether or not the user has clicked on an advertisement distributed using the user terminal 10 is stored in the server storage unit 22 of the server device 20. The machine learning unit 34 performs machine learning of the discriminant function by inputting the action log newly accumulated in the server storage unit 22 in a SVM format at regular intervals (for example, every week), and the accuracy of the discriminant function. Can be improved.
The clustering means 32 may also perform the clustering process at regular intervals using the action log newly accumulated in the server storage unit 22.

[作用効果]
本実施形態のサーバ装置20は、予測モデルの素性として、各ユーザの行動パターンをクラスタリングして分類した番号(クラスタ情報)を追加したので、予測モデルの精度を向上することができる。実際に、過去のログを用いてオフライン評価を行ったところ、AUC(Area Under the Curve)の評価指標が上昇し、クラスタ情報が有効な素性であることを確認できた。したがって、実際にユーザがユーザ端末10を用いて各種のサービスページにアクセスした場合に、効果的な広告を配信することができ、広告のCTRも向上できて期待収益も向上することができる。
[Function and effect]
Since the server device 20 of the present embodiment adds a number (cluster information) obtained by clustering and classifying each user's behavior pattern as the feature of the prediction model, the accuracy of the prediction model can be improved. Actually, when offline evaluation was performed using past logs, the evaluation index of AUC (Area Under the Curve) increased, and it was confirmed that the cluster information was an effective feature. Therefore, when the user actually accesses various service pages using the user terminal 10, an effective advertisement can be distributed, the CTR of the advertisement can be improved, and the expected profit can be improved.

また、クラスタ情報を素性として追加する際に、クラスタ情報単独で追加せずに、カテゴリーIDと組み合わせたクロス素性として追加したので、機械学習の際にポイントワイズ法に比べて学習精度の高いペアワイズ法を利用することができる。   In addition, when adding cluster information as a feature, it was added as a cross feature combined with a category ID instead of adding the cluster information alone, so the pair-wise method with higher learning accuracy than the point-wise method in machine learning Can be used.

さらに、クロス素性を用いて機械学習を行うことで、各クロス素性の重みを判定して各クラスタ情報のグループの特性(意味づけ)を判断することができる。従来、不特定多数のユーザをその行動ログに基づいてクラスタリングしてグループ分けした場合、そのグループがどのような属性でまとまっているかを判断することは困難であったが、本実施形態のようにクラスタ情報にカテゴリーIDを組み合わせたクロス素性を用いて機械学習を行うことで、クラスタリング結果のグループに意味づけすることを容易に行うことができ、分析者は様々な視点でクラスタを評価することができる。   Furthermore, by performing machine learning using the cross feature, it is possible to determine the weight of each cross feature and determine the characteristics (meaning) of each cluster information group. Conventionally, when an unspecified number of users are clustered and grouped based on their action logs, it has been difficult to determine what attributes the group is grouped with, as in this embodiment By performing machine learning using the cross feature that combines the category ID with the cluster information, it is possible to easily make the meaning to the group of the clustering result, and the analyst can evaluate the cluster from various viewpoints. it can.

クラスタリング手段32のグループ化手段324は、行動パターンをクラスタリングする際に、ノンパラメトリックベイズ法により、行動パターンをクラスタリングしている。このため、クラスタ数の上限値を設定するだけで、行動グループのクラスタ数が自動的に最適値に設定できる。このため、各ユーザの行動パターンを精度よく分類できる。
したがって、例えば、予めグループの数を3個などと設定しておき、ユーザの行動パターンをこれらのグループのいずれかに属するかを判定する場合に比べて、各ユーザの固有の行動パターンに合わせた最適なクラスタリングを実施できる。
The grouping unit 324 of the clustering unit 32 clusters the behavior patterns by the nonparametric Bayes method when clustering the behavior patterns. For this reason, the cluster number of the action group can be automatically set to the optimum value only by setting the upper limit value of the cluster number. For this reason, each user's action pattern can be classified accurately.
Therefore, for example, the number of groups is set in advance to 3 or the like, and the user's behavior pattern is matched to the unique behavior pattern of each user as compared with the case where it is determined whether the user belongs to any of these groups. Optimal clustering can be performed.

さらに、本実施形態では、代表パターン生成手段33で行動グループの代表パターンを生成しているので、分析者は各ユーザの行動パターンを容易に分析できる。特に、クラスタ特性推定手段37が重みの高いクロス素性により各グループの特性を推定できるため、分析者はユーザの行動パターンとそのユーザが興味のある分野を関連付けて容易に分析できる。例えば、平日の夜間にニュースサイトにアクセスするユーザのグループは、ファッションへの興味が高い等の分析を容易に行うことができる。
このため、各ユーザの行動パターンを精度良く判定できることで、各ユーザに適したサービスや情報をユーザに対して提供することができ、ユーザの利便性も向上できる。
Furthermore, in this embodiment, the representative pattern generation unit 33 generates the representative pattern of the action group, so that the analyst can easily analyze the action pattern of each user. In particular, since the cluster characteristic estimation unit 37 can estimate the characteristics of each group based on a cross feature with a high weight, the analyst can easily analyze the user's behavior pattern in association with the field in which the user is interested. For example, a group of users who access a news site on weekday nights can easily analyze such as high interest in fashion.
For this reason, since the behavior pattern of each user can be accurately determined, services and information suitable for each user can be provided to the user, and user convenience can be improved.

[変形例]
なお、本発明は、上述した実施形態に限定されるものではなく、本発明の目的を達成できる範囲で、以下に示される変形をも含むものである。
[Modification]
In addition, this invention is not limited to embodiment mentioned above, In the range which can achieve the objective of this invention, the deformation | transformation shown below is also included.

[変形例1]
前記実施形態では、クラスタ情報とカテゴリーIDとを組み合わせたクロス素性を用いていたが、クラスタ情報と組み合わせる素性としてはカテゴリーIDに限定されない。すなわち、同一のユーザIDで同一の値となる素性(例えば年齢、性別等)以外の素性であればよい。換言すれば、ペアワイズ法で差分を取った際に削除されることがない素性であればよい。
さらに、ペアワイズ法以外の手法(例えばポイントワイズ法)で機械学習を行う場合には、前記クラスタ情報を単独の素性として用いてもよい。この場合、識別関数は、例えば、次の式(4)とすればよい。
[Modification 1]
In the above embodiment, the cross feature combining the cluster information and the category ID is used. However, the feature combined with the cluster information is not limited to the category ID. In other words, any feature other than the feature (for example, age, sex, etc.) having the same value with the same user ID may be used. In other words, what is necessary is just the feature which is not deleted when a difference is taken by the pairwise method.
Furthermore, when performing machine learning by a method other than the pairwise method (for example, the pointwise method), the cluster information may be used as a single feature. In this case, the discriminant function may be, for example, the following equation (4).

Figure 2016062411
Figure 2016062411

[変形例2]
素性としては、アクセス時の現在地を示す位置データや、アクセス時の天気、気温、湿度などを示す気象データ等を利用してもよい。
位置データは、ユーザ端末10がサーバ装置20にアクセスした際のユーザ端末10の現在位置を示すデータであり、アクセスログに記憶すればよい。この位置データとしては、例えば、現在位置の都道府県を示すパラメータ等に設定した場合は、都道府県数に対応した多値のパラメータとなる。
なお、ユーザ端末10がGPSセンサー等の位置計測手段を備えている場合には、位置計測手段で計測された位置情報(緯度、経度)を前記位置データとして記録すればよい。また、ユーザ端末10が位置計測手段を備えていない場合には、ユーザ端末10が通信する基地局の位置情報(緯度および経度または住所データ)を前記位置データとして記録すればよい。
このような位置データを分類情報として用いれば、ユーザのアクセス時のシチュエーションとして、例えば、自宅でのアクセスか、会社でのアクセスか、あるいは通勤中のアクセスであるかなどのアクセス場所による分類情報に基づいて行動パターンを分析できる。従って、各ユーザの行動パターンをより精度よく分類できる。
[Modification 2]
As the features, position data indicating the current location at the time of access, weather data indicating the weather at the time of access, temperature, humidity, or the like may be used.
The position data is data indicating the current position of the user terminal 10 when the user terminal 10 accesses the server device 20, and may be stored in the access log. For example, when the position data is set to a parameter indicating the prefecture at the current position, the position data is a multi-value parameter corresponding to the number of prefectures.
In addition, when the user terminal 10 includes position measurement means such as a GPS sensor, the position information (latitude and longitude) measured by the position measurement means may be recorded as the position data. Further, when the user terminal 10 does not include a position measuring unit, the position information (latitude and longitude or address data) of the base station with which the user terminal 10 communicates may be recorded as the position data.
If such location data is used as classification information, the situation at the time of access by the user can be classified into classification information according to the access location such as access at home, access at the office, or access during commuting, for example. Based on the behavior pattern can be analyzed. Therefore, each user's action pattern can be classified more accurately.

さらに、気象データは、ユーザ端末10がアクセスした基地局に設けられた環境センサーのデータ等を用いて記録すればよい。
このような気象データを分類情報として用いれば、ユーザのアクセス時のシチュエーション、例えば、天気が晴れで湿度が60%以下の場合の行動パターンも分類できる。従って、各ユーザの行動パターンやCTRが天候にどのように影響されるのかなどを高精度に分析することができる。
Furthermore, the weather data may be recorded using data from environmental sensors provided in the base station accessed by the user terminal 10.
If such weather data is used as classification information, it is possible to classify situations at the time of user access, for example, an action pattern when the weather is fine and the humidity is 60% or less. Therefore, it is possible to analyze with high accuracy the behavior pattern of each user and how the CTR is affected by the weather.

[変形例3]
評価値算出手段35は、予測CTRを算出していたが、広告主が目標とする特定のユーザ行動(例えば、商品の購入行動や資料請求行動など)の確率であるコンバージョン率(conversion rate:CVR)を予測してもよいし、他の評価指標を予測してもよい。
[Modification 3]
The evaluation value calculation means 35 calculates the predicted CTR, but the conversion rate (CVR) is the probability of a specific user behavior (for example, product purchase behavior or data request behavior) targeted by the advertiser. ) May be predicted, or another evaluation index may be predicted.

[変形例4]
情報配信手段36が配信する情報はテキスト広告に限定されず、画像、動画、音楽などの各種コンテンツであってもよい。
前記実施形態の代表パターン生成手段33は、行動グループに含まれる各行動パターンの平均値、つまり各単位期間の「0,1」の値を単位期間毎に平均したもので代表パターンを生成していたが、他の方法で生成してもよい。例えば、単位期間毎に「0,1」のいずれか最頻値によって代表パターンを生成してもよい。さらに、同じグループ内の各行動パターンの類似度を計算して、似通っているものをまとめる再クラスタリングを行い、まとめられた複数の行動パターンの類似度の中間点によって代表パターンを生成してもよい。
[Modification 4]
Information distributed by the information distribution means 36 is not limited to text advertisements, and may be various contents such as images, moving images, and music.
The representative pattern generation means 33 of the embodiment generates a representative pattern by averaging the average value of each behavior pattern included in the behavior group, that is, the value of “0, 1” of each unit period for each unit period. However, it may be generated by other methods. For example, the representative pattern may be generated with the most frequent value of “0, 1” for each unit period. Furthermore, the similarity of each action pattern within the same group may be calculated, and re-clustering may be performed to collect similar ones, and a representative pattern may be generated based on the midpoint of the similarity of the plurality of action patterns that have been combined. .

その他、本発明の実施の際の具体的な構造および手順は、本発明の目的を達成できる範囲で他の構造などに適宜変更できる。例えば、サーバ装置20を分散システムで構成し、アクセスログが蓄積されるサーバ記憶部22を備えるサーバなどのコンピュータと、ログ取得手段31、クラスタリング手段32、代表パターン生成手段33、機械学習手段34、評価値算出手段35、情報配信手段36、サービス提供手段40等を備えるコンピュータとを別々に設けてもよい。   In addition, the specific structure and procedure for carrying out the present invention can be appropriately changed to other structures and the like within a range in which the object of the present invention can be achieved. For example, a computer such as a server having a server storage unit 22 in which the server device 20 is configured as a distributed system and accumulating access logs, a log acquisition unit 31, a clustering unit 32, a representative pattern generation unit 33, a machine learning unit 34, You may provide separately the computer provided with the evaluation value calculation means 35, the information delivery means 36, the service provision means 40 grade | etc.,.

1…情報分析システム分析システム、10…ユーザ端末、20…サーバ装置、21…サーバ通信部、22…サーバ記憶部、30…サーバ制御部、24…入力装置、25…表示装置、31…ログ取得手段、32…クラスタリング手段、321…分析対象設定部、322…行動履歴データ抽出手段、323…行動パターン作成手段、324…グループ化手段、33…代表パターン生成手段、34…機械学習手段、35…評価値算出手段、36…情報配信手段、37…クラスタ特性推定手段、40…サービス提供手段。   DESCRIPTION OF SYMBOLS 1 ... Information analysis system analysis system, 10 ... User terminal, 20 ... Server apparatus, 21 ... Server communication part, 22 ... Server memory | storage part, 30 ... Server control part, 24 ... Input device, 25 ... Display apparatus, 31 ... Log acquisition Means 32: Clustering means 321: Analysis target setting unit 322 Action history data extraction means 323 Action pattern creation means 324 Grouping means 33 ... Representative pattern generation means 34 ... Machine learning means 35 ... Evaluation value calculation means, 36... Information distribution means, 37... Cluster characteristic estimation means, 40.

Claims (10)

ユーザIDで特定されるユーザが端末を用いてサービス提供サイトにアクセスした際の行動ログを取得するログ取得手段と、
前記ログ取得手段で取得した前記行動ログに基づく行動パターンを少なくとも1以上のクラスタに分類するクラスタリング手段と、
前記クラスタリング手段で分類されたクラスタ情報を含む複数の素性を用いて機械学習を行って識別関数を生成する機械学習手段と、を備える
ことを特徴とする情報分析装置。
Log acquisition means for acquiring an action log when a user specified by a user ID accesses a service providing site using a terminal;
Clustering means for classifying the behavior pattern based on the behavior log acquired by the log acquisition means into at least one cluster;
Machine learning means for generating a discriminant function by performing machine learning using a plurality of features including cluster information classified by the clustering means.
請求項1に記載の情報分析装置において、
前記素性は、前記サービス提供サイトで提供されるサービス内容の属性と、前記クラスタ情報とを組み合わせた素性を含む
ことを特徴とする情報分析装置。
In the information analysis device according to claim 1,
The information includes a feature that combines an attribute of service content provided on the service providing site and the cluster information.
請求項1または請求項2に記載の情報分析装置において、
前記機械学習手段は、前記各素性の重みを算出する
ことを特徴とする情報分析装置。
In the information analysis device according to claim 1 or 2,
The information analyzing apparatus, wherein the machine learning means calculates a weight of each feature.
請求項1から請求項3のいずれか一項に記載の情報分析装置において、
前記サービス提供サイトで提供されるサービス内容の属性と前記クラスタ情報とを組み合わせた素性の重みに基づいて、前記クラスタの特性を推定するクラスタ特性推定手段を有する
ことを特徴とする情報分析装置。
In the information analysis device according to any one of claims 1 to 3,
An information analysis apparatus comprising: cluster characteristic estimation means for estimating a characteristic of the cluster based on a feature weight obtained by combining an attribute of service content provided at the service providing site and the cluster information.
請求項1から請求項4のいずれか一項に記載の情報分析装置において、
前記ログ取得手段は、前記ユーザが端末を用いてサービス提供サイトにアクセスした時刻情報を含む行動ログを取得し、
前記クラスタリング手段は、前記行動ログを所定の分析期間毎に抽出し、前記分析期間を特定の時間単位毎に分割し、各時間単位におけるユーザのアクセス状態を示す値に基づいて前記行動パターンを作成し、前記行動パターンの類似度によって前記行動パターンを少なくとも1以上のクラスタに分類する
ことを特徴とする情報分析装置。
In the information analysis device according to any one of claims 1 to 4,
The log acquisition means acquires an action log including time information when the user accesses a service providing site using a terminal,
The clustering means extracts the behavior log for each predetermined analysis period, divides the analysis period into specific time units, and creates the behavior pattern based on a value indicating a user access state in each time unit. And classifying the behavior pattern into at least one cluster according to the similarity of the behavior pattern.
請求項1から請求項5のいずれか一項に記載の情報分析装置において、
前記識別関数を用いて前記ユーザIDに対応する評価値を算出する評価値算出手段と、
前記評価値に基づいて選定した配信情報を前記サービス提供サイトに配信する情報配信手段とを備える
ことを特徴とする情報分析装置。
In the information analysis device according to any one of claims 1 to 5,
Evaluation value calculating means for calculating an evaluation value corresponding to the user ID using the identification function;
An information analysis apparatus comprising: information distribution means for distributing distribution information selected based on the evaluation value to the service providing site.
請求項6に記載の情報分析装置において、
前記サービス提供サイトに配信される前記配信情報は、広告またはコンテンツであり、
前記評価値算出手段は、前記配信情報がクリックされる確率を予測した予測CTRを算出し、
前記情報配信手段は、前記予測CTRの高い配信情報を前記サービス提供サイトに配信する
ことを特徴とする情報分析装置。
The information analysis device according to claim 6,
The distribution information distributed to the service providing site is an advertisement or content,
The evaluation value calculating means calculates a predicted CTR that predicts a probability that the delivery information is clicked,
The information distribution unit distributes distribution information having a high predicted CTR to the service providing site.
請求項7に記載の情報分析装置において、
前記機械学習手段で用いられる前記素性は、
前記配信情報の過去の配信実績に基づく実績CTRと、
前記サービス提供サイトの属性および前記配信情報の属性の類似度と、
前記ユーザIDで特定されるユーザ属性および前記配信情報の属性の類似度と、
前記配信情報の属性と、
前記配信情報の表示位置を示すポジションとを備える
ことを特徴とする情報分析装置。
In the information analysis device according to claim 7,
The feature used in the machine learning means is
A track record CTR based on a past track record of the distribution information;
Similarity between the attribute of the service providing site and the attribute of the distribution information;
The similarity between the user attribute identified by the user ID and the attribute of the distribution information;
Attributes of the delivery information;
An information analysis apparatus comprising: a position indicating a display position of the distribution information.
コンピュータにより機械学習処理を実施する情報分析方法であって、
前記コンピュータは、
ユーザIDで特定されるユーザが端末を用いてサービス提供サイトにアクセスした際の行動ログを取得し、
取得した前記行動ログに基づく行動パターンを少なくとも1以上のクラスタに分類し、
前記分類されたクラスタ情報を含む複数の素性を用いて機械学習を行って識別関数を生成する
ことを特徴とする情報分析方法。
An information analysis method for performing machine learning processing by a computer,
The computer
Acquire an action log when the user specified by the user ID accesses the service providing site using the terminal,
Classifying action patterns based on the acquired action logs into at least one cluster;
A discriminant function is generated by performing machine learning using a plurality of features including the classified cluster information.
コンピュータにより読み込み実行される情報分析プログラムであって、
前記コンピュータを、請求項1から請求項8のいずれか1項に記載の情報分析装置として機能させる
ことを特徴とする情報分析プログラム。
An information analysis program read and executed by a computer,
An information analysis program that causes the computer to function as the information analysis apparatus according to any one of claims 1 to 8.
JP2014191104A 2014-09-19 2014-09-19 Information analysis apparatus, information analysis method, and information analysis program Active JP6226846B2 (en)

Priority Applications (1)

Application Number Priority Date Filing Date Title
JP2014191104A JP6226846B2 (en) 2014-09-19 2014-09-19 Information analysis apparatus, information analysis method, and information analysis program

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
JP2014191104A JP6226846B2 (en) 2014-09-19 2014-09-19 Information analysis apparatus, information analysis method, and information analysis program

Publications (2)

Publication Number Publication Date
JP2016062411A true JP2016062411A (en) 2016-04-25
JP6226846B2 JP6226846B2 (en) 2017-11-08

Family

ID=55796096

Family Applications (1)

Application Number Title Priority Date Filing Date
JP2014191104A Active JP6226846B2 (en) 2014-09-19 2014-09-19 Information analysis apparatus, information analysis method, and information analysis program

Country Status (1)

Country Link
JP (1) JP6226846B2 (en)

Cited By (23)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2018005662A (en) * 2016-07-05 2018-01-11 ヤフー株式会社 Information analysis device, information analysis method, and information analysis program
JP2018116688A (en) * 2016-11-23 2018-07-26 アクセンチュア グローバル ソリューションズ リミテッド Cognitive robotics analyzer
KR101890805B1 (en) * 2018-04-17 2018-08-22 (주)시큐레이어 Method for processing unstructured log in real-time on the basis of machine learning and server using the same
JP2018136845A (en) * 2017-02-23 2018-08-30 株式会社Wacul Log collection system, log collection method, access analysis system, access analysis method, and program
FR3071085A1 (en) * 2017-09-14 2019-03-15 Amadeus S.A.S. AN AUTOMATIC LEARNING METHOD AND SYSTEM FOR PREDICTING USER INTERACTIONS ONLINE
WO2019052869A1 (en) * 2017-09-14 2019-03-21 Amadeus S.A.S. A machine learning method and system for predicting online user interactions
KR101966356B1 (en) * 2018-11-30 2019-04-08 (주)시큐레이어 Method for pauseless parser update based on machine learning and solution server using the same
JP2020517038A (en) * 2017-05-22 2020-06-11 ベイジン センスタイム テクノロジー デベロップメント カンパニー, リミテッド Business object recommendation method, device, electronic device and storage medium
CN111291772A (en) * 2018-12-06 2020-06-16 北京嘀嘀无限科技发展有限公司 Information pushing method and device, electronic equipment and computer readable storage medium
CN111401950A (en) * 2020-03-12 2020-07-10 上海数川数据科技有限公司 Advertisement flow anti-cheating method and device based on wavelet feature clustering
JP2020149137A (en) * 2019-03-11 2020-09-17 株式会社ビービット Behavior pattern analyzers, methods and programs
US10943184B2 (en) 2017-09-14 2021-03-09 Amadeus S.A.S. Machine learning methods and systems for predicting online user interactions
JP2021125128A (en) * 2020-02-07 2021-08-30 ヤフー株式会社 Information processing equipment, information processing methods and information processing programs
US11120480B2 (en) 2017-09-14 2021-09-14 Amadeus S.A.S. Systems and methods for real-time online traveler segmentation using machine learning
JP2022009936A (en) * 2017-02-23 2022-01-14 株式会社Wacul Access analysis system, access analysis method, and program
JP2022507229A (en) * 2018-11-13 2022-01-18 スリーエム イノベイティブ プロパティズ カンパニー Deep causal learning for e-commerce content generation and optimization
CN114077663A (en) * 2020-08-10 2022-02-22 中国移动通信集团浙江有限公司 Application log analysis method and device
CN114491361A (en) * 2022-01-11 2022-05-13 北京达佳互联信息技术有限公司 Click-through rate model generation method, click-through rate determination method and related equipment
JP2023502805A (en) * 2020-10-14 2023-01-26 グーグル エルエルシー Privacy-preserving machine learning predictions
JP2023044970A (en) * 2021-09-21 2023-04-03 Tis株式会社 Information processing system, information processing method, and program
WO2023163172A1 (en) * 2022-02-28 2023-08-31 株式会社Uacj Method for generating trained prediction model that predicts amount of dross generated in melting furnace, method for predicting amount of dross generated in melting furnace, and computer program
JP2023138029A (en) * 2022-03-18 2023-09-29 ヤフー株式会社 Information processing device, information processing method, and information processing program
JP2024140127A (en) * 2023-03-28 2024-10-10 株式会社ビデオリサーチ Connection status analysis system

Citations (5)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US20080059390A1 (en) * 2006-05-02 2008-03-06 Earl Cox Fuzzy logic based viewer identification for targeted asset delivery system
JP2010033377A (en) * 2008-07-29 2010-02-12 Yahoo Japan Corp Search device for automatically estimating search request attribute to web query, and retrieving method and program
JP2013125468A (en) * 2011-12-15 2013-06-24 Yahoo Japan Corp Advertisement distribution device
JP2013149140A (en) * 2012-01-20 2013-08-01 Hitachi Consumer Electronics Co Ltd Information processing device and information processing method
JP2013218485A (en) * 2012-04-06 2013-10-24 Yahoo Japan Corp Content provision device, low-rank approximate matrix generation device, content provision method, low-rank approximate matrix generation method and program

Patent Citations (5)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US20080059390A1 (en) * 2006-05-02 2008-03-06 Earl Cox Fuzzy logic based viewer identification for targeted asset delivery system
JP2010033377A (en) * 2008-07-29 2010-02-12 Yahoo Japan Corp Search device for automatically estimating search request attribute to web query, and retrieving method and program
JP2013125468A (en) * 2011-12-15 2013-06-24 Yahoo Japan Corp Advertisement distribution device
JP2013149140A (en) * 2012-01-20 2013-08-01 Hitachi Consumer Electronics Co Ltd Information processing device and information processing method
JP2013218485A (en) * 2012-04-06 2013-10-24 Yahoo Japan Corp Content provision device, low-rank approximate matrix generation device, content provision method, low-rank approximate matrix generation method and program

Cited By (27)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2018005662A (en) * 2016-07-05 2018-01-11 ヤフー株式会社 Information analysis device, information analysis method, and information analysis program
JP2018116688A (en) * 2016-11-23 2018-07-26 アクセンチュア グローバル ソリューションズ リミテッド Cognitive robotics analyzer
US10970639B2 (en) 2016-11-23 2021-04-06 Accenture Global Solutions Limited Cognitive robotics analyzer
JP2018136845A (en) * 2017-02-23 2018-08-30 株式会社Wacul Log collection system, log collection method, access analysis system, access analysis method, and program
JP7114037B2 (en) 2017-02-23 2022-08-08 株式会社Wacul Access analysis system, access analysis method, and program
JP2022009936A (en) * 2017-02-23 2022-01-14 株式会社Wacul Access analysis system, access analysis method, and program
JP2020517038A (en) * 2017-05-22 2020-06-11 ベイジン センスタイム テクノロジー デベロップメント カンパニー, リミテッド Business object recommendation method, device, electronic device and storage medium
FR3071085A1 (en) * 2017-09-14 2019-03-15 Amadeus S.A.S. AN AUTOMATIC LEARNING METHOD AND SYSTEM FOR PREDICTING USER INTERACTIONS ONLINE
WO2019052869A1 (en) * 2017-09-14 2019-03-21 Amadeus S.A.S. A machine learning method and system for predicting online user interactions
US11120480B2 (en) 2017-09-14 2021-09-14 Amadeus S.A.S. Systems and methods for real-time online traveler segmentation using machine learning
US10943184B2 (en) 2017-09-14 2021-03-09 Amadeus S.A.S. Machine learning methods and systems for predicting online user interactions
KR101890805B1 (en) * 2018-04-17 2018-08-22 (주)시큐레이어 Method for processing unstructured log in real-time on the basis of machine learning and server using the same
JP2022507229A (en) * 2018-11-13 2022-01-18 スリーエム イノベイティブ プロパティズ カンパニー Deep causal learning for e-commerce content generation and optimization
KR101966356B1 (en) * 2018-11-30 2019-04-08 (주)시큐레이어 Method for pauseless parser update based on machine learning and solution server using the same
CN111291772B (en) * 2018-12-06 2024-04-16 北京嘀嘀无限科技发展有限公司 Information pushing method and device, electronic equipment and computer readable storage medium
CN111291772A (en) * 2018-12-06 2020-06-16 北京嘀嘀无限科技发展有限公司 Information pushing method and device, electronic equipment and computer readable storage medium
JP2020149137A (en) * 2019-03-11 2020-09-17 株式会社ビービット Behavior pattern analyzers, methods and programs
JP7177107B2 (en) 2020-02-07 2022-11-22 ヤフー株式会社 Information processing device, information processing method and information processing program
JP2021125128A (en) * 2020-02-07 2021-08-30 ヤフー株式会社 Information processing equipment, information processing methods and information processing programs
CN111401950A (en) * 2020-03-12 2020-07-10 上海数川数据科技有限公司 Advertisement flow anti-cheating method and device based on wavelet feature clustering
CN114077663A (en) * 2020-08-10 2022-02-22 中国移动通信集团浙江有限公司 Application log analysis method and device
JP2023502805A (en) * 2020-10-14 2023-01-26 グーグル エルエルシー Privacy-preserving machine learning predictions
JP2023044970A (en) * 2021-09-21 2023-04-03 Tis株式会社 Information processing system, information processing method, and program
CN114491361A (en) * 2022-01-11 2022-05-13 北京达佳互联信息技术有限公司 Click-through rate model generation method, click-through rate determination method and related equipment
WO2023163172A1 (en) * 2022-02-28 2023-08-31 株式会社Uacj Method for generating trained prediction model that predicts amount of dross generated in melting furnace, method for predicting amount of dross generated in melting furnace, and computer program
JP2023138029A (en) * 2022-03-18 2023-09-29 ヤフー株式会社 Information processing device, information processing method, and information processing program
JP2024140127A (en) * 2023-03-28 2024-10-10 株式会社ビデオリサーチ Connection status analysis system

Also Published As

Publication number Publication date
JP6226846B2 (en) 2017-11-08

Similar Documents

Publication Publication Date Title
JP6226846B2 (en) Information analysis apparatus, information analysis method, and information analysis program
US11809465B2 (en) Matching anonymized user identifiers across differently anonymized data sets
Di Clemente et al. Sequences of purchases in credit card data reveal lifestyles in urban populations
JP6271345B2 (en) Extraction apparatus, extraction method, and extraction program
JP5960887B1 (en) Calculation device, calculation method, and calculation program
US20150269251A1 (en) Method and system of evaluating the impact of distributed digital content
US20150006286A1 (en) Targeting users based on categorical content interactions
US20150006295A1 (en) Targeting users based on previous advertising campaigns
CN111400613A (en) Article recommendation method, device, medium and computer equipment
Johnson The impact of privacy policy on the auction market for online display advertising
US20180240158A1 (en) Computer implemented system and method for customer profiling using micro-conversions via machine learning
Baumann et al. The price of privacy: An evaluation of the economic value of collecting clickstream data
US10672035B1 (en) Systems and methods for optimizing advertising spending using a user influenced advertisement policy
CN103942236A (en) System and method for serving electronic content
JP2016526712A (en) Digital receipt economy
JP7532304B2 (en) Information processing device, information processing method, and information processing program
JP2016061987A (en) Information processing apparatus, distribution control method, and distribution control program
JP2021500659A (en) Automated attribution modeling and measurement
Wang et al. Probabilistic models for ad viewability prediction on the web
Zheng et al. A scalable purchase intention prediction system using extreme gradient boosting machines with browsing content entropy
JP2015535102A (en) Method and device for information distribution to users with mobile terminals for communication by information filtering and learning using bipartite graphs or neural networks
CN112070554A (en) System for accurately pushing advertisements according to analysis result of user types
KR102405503B1 (en) Method for creating predictive market growth index using transaction data and social data, system for creating predictive market growth index using the same and computer program for the same
Iankovets MEDIA PLANNING OF DIGITAL ADVERTISING CAMPAIGNS.
Lloyd et al. Detecting address uncertainty in loyalty card data

Legal Events

Date Code Title Description
A621 Written request for application examination

Free format text: JAPANESE INTERMEDIATE CODE: A621

Effective date: 20160915

A977 Report on retrieval

Free format text: JAPANESE INTERMEDIATE CODE: A971007

Effective date: 20170831

TRDD Decision of grant or rejection written
A01 Written decision to grant a patent or to grant a registration (utility model)

Free format text: JAPANESE INTERMEDIATE CODE: A01

Effective date: 20170912

A61 First payment of annual fees (during grant procedure)

Free format text: JAPANESE INTERMEDIATE CODE: A61

Effective date: 20171010

R150 Certificate of patent or registration of utility model

Ref document number: 6226846

Country of ref document: JP

Free format text: JAPANESE INTERMEDIATE CODE: R150

S533 Written request for registration of change of name

Free format text: JAPANESE INTERMEDIATE CODE: R313533

R350 Written notification of registration of transfer

Free format text: JAPANESE INTERMEDIATE CODE: R350

S111 Request for change of ownership or part of ownership

Free format text: JAPANESE INTERMEDIATE CODE: R313111

R350 Written notification of registration of transfer

Free format text: JAPANESE INTERMEDIATE CODE: R350

R250 Receipt of annual fees

Free format text: JAPANESE INTERMEDIATE CODE: R250

R250 Receipt of annual fees

Free format text: JAPANESE INTERMEDIATE CODE: R250

S111 Request for change of ownership or part of ownership

Free format text: JAPANESE INTERMEDIATE CODE: R313111

R350 Written notification of registration of transfer

Free format text: JAPANESE INTERMEDIATE CODE: R350

R250 Receipt of annual fees

Free format text: JAPANESE INTERMEDIATE CODE: R250

R250 Receipt of annual fees

Free format text: JAPANESE INTERMEDIATE CODE: R250