JP4641389B2 - Information processing method and information processing apparatus - Google Patents
Information processing method and information processing apparatus Download PDFInfo
- Publication number
- JP4641389B2 JP4641389B2 JP2004166135A JP2004166135A JP4641389B2 JP 4641389 B2 JP4641389 B2 JP 4641389B2 JP 2004166135 A JP2004166135 A JP 2004166135A JP 2004166135 A JP2004166135 A JP 2004166135A JP 4641389 B2 JP4641389 B2 JP 4641389B2
- Authority
- JP
- Japan
- Prior art keywords
- emotion
- user
- information processing
- processing apparatus
- scene
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Expired - Fee Related
Links
Images
Landscapes
- User Interface Of Digital Computer (AREA)
- Image Analysis (AREA)
Description
本発明は、ユーザの表情や動作等といった反応を検出し、その検出した反応からユーザの感情を認識する為の技術に関するものである。 The present invention relates to a technique for detecting a reaction such as a user's facial expression or action and recognizing a user's emotion from the detected reaction.
近年、機械と人間とのインターフェースとして、人間の意志や感情を認識し、人間とのコミュニケーションを行う人工エージェントの研究が進んでいる。また、様々なペットロボットが登場し、使用者の行動や感情等を認識し、その認識結果によりペットロボットの行動を変化させるものもあり、このようなペットロボットは一種の人工エージェントと言える。このような人工エージェントにおいては、カメラやマイクを用いて、人物の状態を検出し、検出した状態に基づいて人物の喜怒哀楽等といった感情を認識することが必要とされている。 In recent years, research on artificial agents that recognize human intentions and emotions and communicate with humans as an interface between machines and humans is progressing. In addition, various pet robots appear, and there are those that recognize the user's behavior and emotions and change the behavior of the pet robot according to the recognition result. Such a pet robot can be said to be a kind of artificial agent. In such an artificial agent, it is necessary to detect the state of a person using a camera or a microphone and recognize emotions such as emotions of the person based on the detected state.
例えば、CCDカメラ等で撮影された画像から顔の表情を検出する装置が従来から開示されている(例えば特許文献1を参照)。これは、入力画像に対してウェーブレット変換を行い、各周波数領域での平均電力と無表情の時の平均電力との差分から、表情を検出するものである。 For example, an apparatus for detecting a facial expression from an image taken with a CCD camera or the like has been conventionally disclosed (see, for example, Patent Document 1). In this method, wavelet transform is performed on an input image, and a facial expression is detected from the difference between the average power in each frequency region and the average power when there is no expression.
また、音声と画像の両方を用いて、被写体の顔の表情と感情を検出する技術が従来から開示されている(例えば非特許文献1を参照)。 In addition, a technique for detecting facial expressions and emotions of a subject using both sound and images has been conventionally disclosed (for example, see Non-Patent Document 1).
さらに、顔の変位に応じた特徴ベクトルと、表情の各カテゴリごとに用意したベクトル量子化を行うためのコードブックとを使用し、ベクトル量子化後のシンボル列に基づいてカテゴリを決定する技術が従来から開示されている(例えば特許文献2を参照)。 Furthermore, there is a technology for determining a category based on a symbol sequence after vector quantization using a feature vector corresponding to face displacement and a code book for vector quantization prepared for each category of facial expression. It has been conventionally disclosed (for example, see Patent Document 2).
さらにまた、笑顔画像に対して、眼や口や眉の位置やサイズ等の変動から、その笑顔を、快の笑顔・不快の笑顔・社交的な笑顔に分類する検討を行なう技術も開示されている(例えば非特許文献2を参照)。
上記説明したように、カメラやマイクを用いて人物の状態(反応)を検出し、さらに検出した状態(反応)に基づいて人物の喜怒哀楽等といった感情を認識する研究が進められている。しかし、検出した状態(反応)と感情とを正確に対応させるのは容易ではない。 As described above, research is being conducted to detect a person's state (reaction) using a camera or a microphone, and to recognize emotions such as a person's emotions based on the detected state (reaction). However, it is not easy to accurately correspond the detected state (reaction) and emotion.
例えば、反応の一つとして表情を考えれば、表情の豊かな人もいれば、そうでない人もいる。つまり、同じ感情を持った人が全員同じ表情をするわけではない。逆に言うと、同じ表情をした人たちが、同じ感情を持っているとは限らない。そのため、表情といった人物の状態(反応)と感情との対応は、個人毎に設定する必要がある。上記従来例においては、ユーザ個々人の個人差に関しては言及がない。 For example, if one considers facial expressions as one of the reactions, some people have rich facial expressions and others do not. In other words, not all people with the same emotions have the same facial expression. In other words, people with the same facial expression do not always have the same emotion. For this reason, the correspondence between a person's state (reaction) such as a facial expression and emotion must be set for each individual. In the above conventional example, there is no mention regarding individual differences among individual users.
本発明は以上の問題に鑑みてなされたものであり、表情に代表される人物の状態(反応)と感情との対応を、個人毎に簡便に設定する為の技術を提供することを目的とする。 The present invention has been made in view of the above problems, and an object of the present invention is to provide a technique for easily setting a correspondence between a person's state (reaction) represented by a facial expression and an emotion for each individual. To do.
本発明の目的を達成するために、例えば本発明の情報処理装置は以下の構成を備える。 In order to achieve the object of the present invention, for example, an information processing apparatus of the present invention comprises the following arrangement.
すなわち、映画のデータを再生する情報処理装置であって、
前記映画のシーン毎に、該シーンを見る人が持つと思われる感情を示す感情情報を予め関連付けて記憶保持している記憶保持手段と、
前記映画のデータを再生する再生手段と、
前記映画のデータを見ているときのユーザの画像を撮像する撮像手段と、
前記画像から得られる前記ユーザの特徴量に基づいて、前記映画のシーンを見ているときの前記ユーザの感情を、予め設定された認識モデルを用いて推定する推定手段と、
前記ユーザが前記シーンを見ているときに前記推定手段により推定される感情が、該シーンに関連付けて前記記憶保持手段に記憶保持されている感情情報が示す感情として推定されるように、前記認識モデルのパラメータを修正する修正手段と
を備えることを特徴とする。
That is, an information processing apparatus for reproducing movie data,
Memory holding means for pre-associating and holding emotion information indicating an emotion that a person who sees the scene seems to have for each scene of the movie;
Playback means for playing back the movie data;
Imaging means for capturing an image of a user when viewing the movie data;
Estimating means for estimating the user's emotion when watching the scene of the movie based on the feature amount of the user obtained from the image using a preset recognition model;
Wherein such user emotion estimated by the estimating means when viewing the scene, emotion information stored and held in the storage holding means in association with the scene is estimated as emotion indicated, the recognition Correction means for correcting the parameters of the model.
本発明の目的を達成するために、例えば本発明の情報処理装置は以下の構成を備える。 In order to achieve the object of the present invention, for example, an information processing apparatus of the present invention comprises the following arrangement.
すなわち、ゲームを再生する情報処理装置であって、
前記ゲームの各進展具合を示す情報毎に、該進展具合において前記ゲームをしている人が持つと思われる感情を示す感情情報を予め関連付けて記憶保持している記憶保持手段と、
前記ゲームを行っているときのユーザの画像を撮像する撮像手段と、
前記ユーザが行っているゲームの進展具合を監視する監視手段と、
前記画像から得られる前記ユーザの特徴量に基づいて、前記ゲームの各進展具合における前記ユーザの感情を、予め設定された認識モデルを用いて推定する推定手段と、
前記ゲームの各進展具合について前記推定手段により推定される感情が、前記記憶保持手段に該進展具合を示す情報に関連付けられて保持された感情情報が示す感情として推定されるように、前記認識モデルのパラメータを修正する修正手段と
を備えることを特徴とする。
That is, an information processing apparatus that plays a game,
Every information indicating each progress degree of the game, a storage holding means in advance in association with memory retention emotion information indicating the emotion that seems to have the person with Oite the game該進exhibition condition,
Imaging means for capturing an image of the user when the game is being played ;
Monitoring means for monitoring the progress of the game being played by the user;
Estimating means for estimating the user's emotion in each progress of the game using a preset recognition model based on the feature amount of the user obtained from the image;
As emotion estimated by the estimating means for each progress condition of the game, emotion information held associated with the information indicating the該進exhibition degree in the storage holding means is estimated as emotion indicated, the recognition model And a correction means for correcting the parameters of.
本発明の目的を達成するために、例えば本発明の情報処理方法は以下の構成を備える。 In order to achieve the object of the present invention, for example, an information processing method of the present invention comprises the following arrangement.
すなわち、映画のデータを再生する情報処理装置が行う情報処理方法であって、
前記情報処理装置が有する記憶保持手段が、前記映画のシーン毎に、該シーンを見る人が持つと思われる感情を示す感情情報を予め関連付けて記憶保持部に記憶保持する記憶保持工程と、
前記情報処理装置が有する再生手段が、前記映画のデータを再生する再生工程と、
前記情報処理装置が有する撮像手段が、前記映画のデータを見ているときのユーザの画像を撮像する撮像工程と、
前記情報処理装置が有する推定手段が、前記画像から得られる前記ユーザの特徴量に基づいて、前記映画のシーンを見ているときの前記ユーザの感情を、予め設定された認識モデルを用いて推定する推定工程と、
前記情報処理装置が有する修正手段が、前記ユーザが前記シーンを見ているときに前記推定工程により推定される感情が、該シーンに関連付けて前記記憶保持部に記憶保持されている感情情報が示す感情として推定されるように、前記認識モデルのパラメータを修正する修正工程と
を備えることを特徴とする。
That is, an information processing method performed by an information processing apparatus that reproduces movie data,
A memory holding step in which the memory holding means of the information processing apparatus associates in advance and stores in the memory holding unit emotion information indicating the feeling that a person who sees the scene seems to have for each scene of the movie;
A reproduction step in which reproduction means included in the information processing apparatus reproduces the data of the movie;
An imaging process in which an imaging unit included in the information processing apparatus captures an image of a user when viewing the movie data;
Based on the feature amount of the user obtained from the image, the estimation means included in the information processing apparatus estimates the emotion of the user when watching the movie scene using a preset recognition model. An estimation process to
Correction means said information processing apparatus has found the emotion estimated by the estimation process, shown emotion information stored and held in the storage holding unit in association with the scene when the user is viewing the scene A correction step of correcting the parameters of the recognition model so as to be estimated as emotions.
本発明の目的を達成するために、例えば本発明の情報処理方法は以下の構成を備える。 In order to achieve the object of the present invention, for example, an information processing method of the present invention comprises the following arrangement.
すなわち、ゲームを再生する情報処理装置が行う情報処理方法であって、
前記情報処理装置が有する記憶保持手段が、前記ゲームの各進展具合を示す情報毎に、該進展具合において前記ゲームをしている人が持つと思われる感情を示す感情情報を予め関連付けて記憶保持部に記憶保持する記憶保持工程と、
前記情報処理装置が有する撮像手段が、前記ゲームを行っているときのユーザの画像を撮像する撮像工程と、
前記情報処理装置が有する監視手段が、前記ユーザが行っているゲームの進展具合を監視する監視工程と、
前記情報処理装置が有する推定手段が、前記画像から得られる前記ユーザの特徴量に基づいて、前記ゲームの各進展具合における前記ユーザの感情を、予め設定された認識モデルを用いて推定する推定工程と、
前記情報処理装置が有する修正手段が、前記ゲームの各進展具合について前記推定工程により推定される感情が、前記記憶保持部に該進展具合を示す情報に関連付けられて保持された感情情報が示す感情として推定されるように、前記認識モデルのパラメータを修正する修正工程と
を備えることを特徴とする。
That is, an information processing method performed by an information processing apparatus that plays a game,
Storage retaining means said information processing apparatus has found the each information indicating each progress condition of the game, in advance associate emotion information indicating the emotion that seems to have the person with Oite the game該進Exhibition degree A memory holding step for storing and holding in the memory holding unit;
An imaging process in which an imaging unit included in the information processing apparatus captures an image of a user when the game is being played ,
A monitoring step in which the monitoring means of the information processing apparatus monitors the progress of the game being played by the user;
An estimation step in which the estimation unit included in the information processing apparatus estimates the emotion of the user in each progress of the game using a preset recognition model based on the feature amount of the user obtained from the image. When,
Emotion correction means said information processing apparatus has the emotion estimated by the estimating step for each progress condition of the game, indicated by the emotion information stored associated with information indicating the該進exhibition degree in the storage holder And a correction step of correcting the parameters of the recognition model.
本発明の構成により、表情に代表される人物の状態(反応)と感情との対応を、個人毎に簡便に設定することができる。 With the configuration of the present invention, the correspondence between the state (reaction) of a person typified by a facial expression and emotion can be easily set for each individual.
以下添付図面を参照して、本発明を好適な実施形態に従って詳細に説明する。 Hereinafter, the present invention will be described in detail according to preferred embodiments with reference to the accompanying drawings.
[第1の実施形態]
図1は、本実施形態に係る情報処理システムの機能構成を示す図である。
[First Embodiment]
FIG. 1 is a diagram illustrating a functional configuration of the information processing system according to the present embodiment.
同図において100はユーザで、以下では、このユーザの表情と感情との対応関係を設定する処理について説明する。本実施形態に係るシステムは、カメラ、101、マイク102、制御部103、反応計測部104、感情認識部105、刺激データ提示部106、感情データ保持部107、感情モデル修正部108、感情モデル109により構成されている。
In the figure,
以下、システムを構成する各部について簡単に説明する。 Hereinafter, each part which comprises a system is demonstrated easily.
カメラ101はユーザの様子を動画像として撮像するものである。マイク102は、ユーザの音声を収集するものである。カメラ101、マイク102により得られた画像情報、音声情報は、後段の反応計測部104に出力される。
The
制御部103は、同図に示したシステムを構成する各部を制御するものである。反応計測部104は、カメラ101から得られた画像情報、もしくはマイク102から得られた音声情報を用いて、ユーザ100の反応を計測する。この反応とは例えば、ユーザ100の顔における眼や口等の位置や大きさ、また声の大きさ等といったものである。
The
感情認識部105は、反応計測部104が計測したユーザ100の反応を示す情報、及び感情モデル109を用いて、ユーザ100の感情を認識する。この認識方法については後述する。
The
刺激データ提示部106は、刺激データに従った画像や音声をユーザ100に提示(再生)するものである。刺激データには、この刺激データに従った画像や音声を一般のユーザに提示した場合に、一般のユーザが抱くとおぼしき感情を示すデータ(情報)が関連付けられている。この刺激データについては詳しくは後述する。感情データ保持部107は、上記刺激データ、及びこの刺激データに関連付けられている感情を示すデータを保持する。
The stimulus
感情モデル修正部108は、刺激データ提示部106によってユーザ100に刺激データを提示した場合に、感情認識部105が認識した感情が、提示した刺激データに関連付けらた感情として認識されるように、感情モデル109のパラメータを修正するものである。感情モデル109は、反応計測部104からの情報を入力とし、この入力に基づいて、ユーザ100の感情を認識する為のモデルである。
When emotion data is presented to the
図7は、本実施形態に係るシステムのハードウェア構成を示す図である。本実施形態では、カメラ101、マイク102をPC(パーソナルコンピュータ)やWS(ワークステーション)などのコンピュータに接続し、一連の上記認識処理、感情モデル109のパラメータ修正処理をこのコンピュータにおいて行うとする。
FIG. 7 is a diagram illustrating a hardware configuration of a system according to the present embodiment. In the present embodiment, it is assumed that the
701はCPUで、RAM702やROM703に格納されているプログラムやデータを用いてコンピュータ全体の制御を行うと共に、I/F707を介してカメラ101から入力される各フレームのデータ、マイク102から入力されるアナログ信号を受ける処理をも行う。また、後述する一連の認識処理、感情モデル109のパラメータ修正処理をも行う。CPU701は、図1では制御部103として機能するものである。
702はRAMで、外部記憶装置706に保存されており、CPU701の制御によりロードされたプログラムやデータを一時的に記憶するためのエリアを備えると共に、CPU701が各種の処理を行うために使用するワークエリアも備える。また、I/F707を介してカメラ101、マイク102から入力される画像情報、音声情報を一時的に記憶するためのエリアを備える。
703はROMで、コンピュータを起動するためのプログラムやデータなどを格納する。
704は操作部で、キーボードやマウスなどにより構成されており、各種の指示をCPU701に入力することができる。
An
705は表示部で、CRTや液晶画面などにより構成されており、画像や文字などを表示することができる。また、表示部705は音声出力も可能である。表示部705は、図1では刺激データ提示部106として機能するものである。
A
706は外部記憶装置で、ハードディスク装置などの大容量情報記憶装置として機能するものであり、ここにOS(オペレーティングシステム)やCPU701に後述する一連の処理を実行させるためのプログラムやデータを保存させておくことができる。本実施形態では、反応計測部104、感情認識部105、感情モデル109、感情モデル修正部108は全てプログラムやデータなどにより構成され、外部記憶装置706に保存されており、CPU701の制御に従ってRAM702にロードされるものであるとする。また、外部記憶装置706は、図1では、感情データ保持部107として機能するものである。
707はI/Fで、カメラ101やマイク102を接続することができ、このI/F707を介してカメラ101から入力される各フレームのデータ、マイク102から入力されるアナログ信号を受けることができる。なお、I/F707には、カメラ101やマイク102からのアナログ信号をディジタルデータに変換するためのA/D変換器が内蔵されているものとする。
708は上述の各部を繋ぐバスである。
以下では、このコンピュータが行う感情認識処理、及びユーザ100の感情を認識するための感情モデル109のパラメータの修正処理について、これらの処理のフローチャートを示す図3を参照して詳細に説明する。
Hereinafter, the emotion recognition process performed by the computer and the parameter correction process of the
ここで、本実施形態では、表示部705によってユーザ100に提示するものを映画とする。すなわち、上記刺激データは、映画のデータとする。従って刺激データは、映画の各フレームの画像データ、及び音声データにより構成される。また、刺激データには、映画の各シーン毎に、そのシーンを見ている人が(一般に)抱くとおぼしき感情を示す情報が関連付けられている。
Here, in this embodiment, what is presented to the
このように刺激データとして映画を使用することに対してはいくつかの長所がある。一つは、多数の人が同じ体験をすることが出来るので、平均的な反応と個人の特異な反応との比較がしやすい。つまり、日常生活の中での経験に基づいて個人ごとの設定を行おうとすると、状況がまったく同じであることはまれであるので比較がしにくいが、映画を使用することで、そのような問題を回避できる。 There are several advantages to using movies as stimulus data. One is that many people can have the same experience, so it is easy to compare the average response with the individual's unique response. In other words, when trying to make individual settings based on experience in daily life, it is rare that the situation is exactly the same, so it is difficult to compare, but using movies makes such a problem Can be avoided.
また、一般的に映画は多くのシーンがあり映画を一通り見ると、基本的な感情全てに対する反応が得られる。さらに、ユーザが同じ感情を持つ複数のシーンがあるので、ある特異なシーンのみで感情モデルが作成されるのではなく、ユーザが同じ感情をもつ複数のシーンに対する平均的な反応を使用して、感情モデルを作成するため、精度の高い感情モデルが作成できる。 In general, movies have many scenes, and when you watch a movie, you can get a response to all the basic emotions. Furthermore, since there are multiple scenes where the user has the same emotion, instead of creating an emotion model only with one particular scene, the average reaction for multiple scenes where the user has the same emotion is used, Since an emotion model is created, an accurate emotion model can be created.
図2は、各シーン毎に感情を示すデータを関連付けた感情データシートの構成例を示す図である。例えば映画開始から10分21秒目のフレームから12分20秒目のフレームまでのシーンを見た場合、多くの人は「怒り」の感情を抱くというように統計が取れているので、同図に示す如く、10分21秒目のフレームから12分20秒目のフレームまでのシーンには、「怒り」の感情を示すデータが関連付けられている。これは他のシーンについても同様である。
FIG. 2 is a diagram illustrating a configuration example of an emotion data sheet in which data indicating emotion is associated with each scene. For example, if you watch a scene from the frame of 10 minutes 21 seconds to the frame of 12
このような感情データシートのデータは予め作成され、外部記憶装置706に保存されており、必要に応じてRAM702にロードされる。
Such emotion data sheet data is created in advance, stored in the
そしてCPU701は外部記憶装置706に保存されている映画のデータ、各シーンに関連付けられている感情を示すデータ、上記感情データシートのデータをRAM702にロードし、映画のデータを再生して表示部705に映画の各フレームの画像情報、音声情報を出力(再生)する(ステップS301)。
The
ユーザ100はこの提示された映画の画像を見、提示された音声情報を聞くのであるが、このときのユーザの様子(反応)はカメラ101、マイク102により収集される。カメラ101はユーザ100の動画像を撮像しており、撮像した各フレームの画像のデータはI/F707を介して順次RAM702に出力される。同様にマイク102はユーザ100から発せられる音声を収集しており、収集した音声信号はI/F707を介してRAM702に出力される。
The
CPU701は、カメラ101、マイク102からRAM702に出力された画像情報、音声情報を用いて、映画を見ているユーザ100の反応を計測する(ステップS302)。反応の計測とは上述の通り、ユーザ100の顔の眼・口・鼻といった顔を構成する部品の画像上における位置や大きさ、またそれらの変化、その他にも手や足の画像上における位置やその位置の変化、またユーザ100の発する音声の大きさ等といった特徴量が、後述する感情モデル109への入力に使用されるパラメータ計測値として計測される。なお、このような特徴量の内容については特に限定するものではないし、またその計測、算出方法については周知のものであるので、これ以上の説明は省略する。
The
そしてCPU701は、得られた計測値に基づいてユーザ100の感情を認識(推定)する(ステップS303)。すなわち、ステップS301で提示したシーンを見、聞いているユーザ100の感情を認識する。この認識のために、感情モデル109を用いる。感情モデル109は、プログラムやデータの形態で外部記憶装置706からRAM702にロードされており、CPU701がこれを用いることで、以下説明する認識処理を行うことができる。
Then, the
感情モデル109としては例えば周知のニューラルネットワークを用いることができる。図4は、周知の階層型ニューラルネットワークの構成例を示す図である。同図に示す如く、階層型ニューラルネットワークは、入力層、中間層、出力層の3層構造でもって構成されるもので、入力層に入力された情報は中間層でもって処理され、その処理結果は出力層でもって更に処理されて、出力層を構成する各ニューロンから出力される。
As the
入力層を構成するニューロンの数は、ステップS302で求めた特徴量の数だけ用意される。従って入力層を構成する各ニューロンには、ステップS302で求めたそれぞれの特徴量(ユーザ100の顔の眼・口・鼻といった顔を構成する部品の位置や大きさ、またそれらの変化、その他にも手や足の位置やその位置の変化、またユーザ100の発する音声の大きさ等)が入力される。
The number of neurons constituting the input layer is prepared by the number of feature amounts obtained in step S302. Therefore, each neuron constituting the input layer includes the feature amount obtained in step S302 (the position and size of the parts constituting the face such as the eyes, mouth, and nose of the
一方、出力層を構成する各ニューロンは、それぞれが異なる感情を示す為のもので、入力層を構成する各ニューロンに、ステップS302で求めたそれぞれの特徴量を入力すると、出力層を構成するニューロンの何れか1つが発火する。従って、発火したニューロンに割り当てられた感情が、認識結果とする。例えば出力層を構成するニューロンの数を7つとすると、各ニューロンに“幸福”“怒り”“悲しみ”“嫌悪”“驚き”“恐れ”“感情なし”の何れか1つを重複なしに割り当てる。そして例えば”驚き”を割り当てられたニューロンのみが発火した場合には、認識結果は”驚き”となる。なお、感情の種類はこれに限定するものではないし、これに伴って出力層を構成するニューロンの数もこれに限定するものではない。 On the other hand, each neuron constituting the output layer is for showing different emotions, and when each feature amount obtained in step S302 is input to each neuron constituting the input layer, the neuron constituting the output layer Any one of them will ignite. Therefore, the emotion assigned to the fired neuron is the recognition result. For example, when the number of neurons constituting the output layer is seven, any one of “happiness”, “anger”, “sadness”, “disgust”, “surprise”, “fear”, and “no emotion” is assigned to each neuron without duplication. For example, when only a neuron assigned with “surprise” fires, the recognition result is “surprise”. The type of emotion is not limited to this, and the number of neurons constituting the output layer is not limited to this.
なお、周知の通り、各層間のニューロン間の重み係数はすでに設定されているのであるが、この重み係数は、平均的な人の反応データのパラメータ計測値が入力されたときに、平均的な人の感情を出力するように初期設定されている。この初期設定は、多数の人に同じ刺激データを提示し、その時の反応データのパラメータ計測値を入力層への入力信号とし、そしてそのときの平均的な感情を教師信号として学習することにより、行われる。 As is well known, a weighting factor between neurons between layers is already set, but this weighting factor is averaged when parameter measurement values of average human reaction data are input. It is initially set to output human emotions. In this initial setting, the same stimulus data is presented to a large number of people, the parameter measurement value of the response data at that time is used as an input signal to the input layer, and the average emotion at that time is learned as a teacher signal, Done.
これにより、様々な人の反応データをニューラルネットワークに入力しても、出力層からは、おおよその人が抱くであろう感情を示すニューロンのみが発火するようになる。 As a result, even when various human reaction data are input to the neural network, only the neurons that show the emotions that the approximate person will have will fire from the output layer.
しかし、人によっては、例えば怒っている場合の顔の特徴量をニューラルネットワークに入力しても、悲しみの感情を割り当てられたニューロンが発火してしまうことがある。これは、この人の表情が平均的な表情ではない場合等に生ずる。 However, depending on the person, for example, even if the facial feature amount when angry is input to the neural network, the neuron assigned with the emotion of sadness may fire. This occurs when the facial expression of this person is not an average facial expression.
従って以下で詳しく説明するが、感情モデル109としてニューラルネットワークを用いる場合には、あるシーンを見たユーザ100の反応データをニューラルネットワークに入力した場合の出力層におけるニューロンの発火パターンが、このシーンに関連付けられている感情を示す出力層におけるニューロンの発火パターンに一致するように、ニューロン間の重み係数を修正する必要がある。
Therefore, as will be described in detail below, when a neural network is used as the
一方、感情モデル109としてニューラルネットワーク以外のモデルを用いた場合について説明する。ニューラルネットワーク以外のモデルとして、ステップS302で計測されるユーザ100の反応データのパラメータ計測値の存在範囲を、各感情毎に規定している感情モデルを使用する。
On the other hand, a case where a model other than the neural network is used as the
図5は、このようなモデルが規定する各反応パラメータの範囲の例を示す図である。同図に示した感情モデルシート501には、前述した“幸福”・・・といった各感情ごとに、眼や口等、及びそれらを構成するさらに小さな部位の位置やその変化といった反応データのパラメータ計測値の存在範囲が記述されている。例えば、“幸福”という感情は、眼に関しては、目の中心位置と目尻の位置関係が規定されている。原点を画像の左上にとり、眼の垂直方向の長さをEv、眼の中心位置をEx,Ey、とすると、目尻の垂直方向の位置Eeyは、
Eey≧Ey+a×Ev 且つ Eey<Ey+b×Ev (a=0.1,b=1.0)
という条件式に従っている。つまり、この式から、“幸福”という感情をしめす時には目尻が下がっているということがわかる。
FIG. 5 is a diagram showing an example of the range of each reaction parameter defined by such a model. In the
Eey ≧ Ey + a × Ev and Eey <Ey + b × Ev (a = 0.1, b = 1.0)
It follows the conditional expression. In other words, this expression shows that when the emotion of “happiness” is expressed, the corners of the eyes are lowered.
逆にいうと、ユーザ100の反応データにおいて、眼の中心位置及び目尻の位置というパラメータ計測値がこの式を満足したときに、ユーザ100が“幸福”という状態である可能性があるということである。そして、この感情モデル109を用いて、この他にも、眼・口等の構成部品それぞれに対して求められたパラメータ計測値が、それぞれの位置関係を示す式を満足しているかどうかを調べ、満足した式が最も多い感情をユーザ100の感情として認識する。
In other words, in the reaction data of the
このように各感情時の顔の構成部品の位置や変化、また手や足の動作や声の大きさ等の存在範囲を規定することで、モデルシート上で各感情を表現することができる。なお、上記式におけるパラメータ(係数)(a,b)の値は、平均的な人の反応データのパラメータ計測値が入力されたときに、平均的な人の感情を出力するように初期設定されている。当然、他の関係式におけるパラメータについても同様に初期設定されている。 In this way, by defining the positions and changes of the components of the face at the time of each emotion, and the existence ranges such as the movements of the hands and feet and the loudness of the voice, each emotion can be expressed on the model sheet. Note that the values of the parameters (coefficients) (a, b) in the above formula are initially set so that the average human emotion is output when the parameter measurement values of the average human reaction data are input. ing. Of course, the parameters in the other relational expressions are similarly initialized.
これにより、様々な人の反応データを図5に示すようなモデルシートに記述された各条件式に当てはめてみても、おおよその人が抱くであろう感情に該当する各条件式を満たすようになる。 As a result, even if the response data of various people are applied to the conditional expressions described in the model sheet as shown in FIG. 5, the conditional expressions corresponding to the emotions that an approximate person will have are satisfied. Become.
しかし、人によっては、例えば怒っている場合の顔の特徴量を各条件式に代入してみても、悲しみの感情に該当する条件式を満たすようになることがある。これは、この人の表情が平均的な表情ではない場合等に生ずる。 However, depending on the person, for example, even if the facial feature amount when angry is substituted into each conditional expression, the conditional expression corresponding to the emotion of sadness may be satisfied. This occurs when the facial expression of this person is not an average facial expression.
従って以下で詳しく説明するが、感情モデル109として感情毎に設けた条件式群を用いる場合には、あるシーンを見たユーザ100の反応データを感情毎に設けた条件式群に代入した場合に、このシーンに関連付けられている感情に対して設けた条件式群を最も満たすように、各条件式群におけるパラメータを修正する必要がある。
Therefore, as will be described in detail below, when a group of conditional expressions provided for each emotion is used as the
以上のようにして、感情モデル109に何れのモデルを用いたとしても、本実施形態では、あるシーンを見ているユーザ100の反応データに基づいて、ユーザ100の感情がこのシーンに関連付けられている感情として認識されるように、感情モデル109のパラメータを修正する必要がある。
As described above, regardless of which model is used for the
従ってステップS304では、感情モデル109のパラメータの修正処理を行う。
Accordingly, in step S304, the parameter of the
先ず、感情モデル109としてニューラルネットワークを用いた場合のステップS304における処理について説明する。
First, the process in step S304 when a neural network is used as the
図8は、感情モデル109としてニューラルネットワークを用いた場合のステップS304における処理を説明する図である。ここでは出力層を構成するニューロンの数を3とするが、これに限定するものではない。
FIG. 8 is a diagram illustrating the process in step S304 when a neural network is used as the
同図において出力層を構成するニューロン801,802,803にはそれぞれ「怒り」、「悲しみ」、「幸福」の感情を割り当てているものとする。従ってニューロン801のみが発火する場合(「1 0 0」の出力パターンが出力層から出力された場合)、ニューラルネットワークは認識結果として「怒り」を出力したことになる。一方、ニューロン802のみが発火する場合(「0 1 0」の出力パターンが出力層から出力された場合)、ニューラルネットワークは認識結果として「悲しみ」を出力したことになる。一方、ニューロン803のみが発火する場合(「0 0 1」の出力パターンが出力層から出力された場合)、ニューラルネットワークは認識結果として「幸福」を出力したことになる。
In the figure, it is assumed that emotions “anger”, “sadness”, and “happiness” are assigned to the
ここで、あるシーンを見ているユーザ100の反応データが入力層に入力され、出力層から「0.1 0.2 0.9」の出力パターンが出力され、更にこのシーンには「幸福」を示す情報が関連付けられているとする。
Here, the response data of the
この場合、このシーンを見て一般的にはユーザ100は「幸福」な感情を抱くと予想されるので、ユーザ100の感情の認識結果として「幸福」を示すパターン「0 0 1」が出力層から出力されることが好ましい。ところが、これとは異なる「0.1 0.2 0.9」の出力パターンが出力されたということは、これはすなわち、重み係数を修正し、ニューラルネットワークが上記反応データを入力した場合には所望の出力パターン(「0 0 1」)を出力するようにする必要があるということである。
In this case, since it is generally expected that the
従ってこのような場合には、上記反応データを入力層に入力することで出力層から出力される出力パターンと、教師信号としての上記所望の出力パターンとの差(誤差)を求め、この差に基づいて周知のバックプロパゲーション処理を行うことで、各層間のニューロン間の重み係数を修正する(学習処理)。このような処理を複数回繰り返して重み係数を修正することで、幸福なシーンを見ているユーザ100の反応データをニューラルネットワークに入力すると、「0 0 1」の出力パターンが出力層から出力される、すなわち、「幸福」の感情として認識されることになる。
Therefore, in such a case, by inputting the reaction data to the input layer, a difference (error) between the output pattern output from the output layer and the desired output pattern as a teacher signal is obtained, and Based on this, a known back-propagation process is performed to correct the weighting factor between the neurons between the layers (learning process). By repeating such processing a plurality of times and correcting the weighting coefficient, when the response data of the
また、これは他のシーン(他の感情を抱かせるシーン)をユーザ100に見せ、そのときのユーザ100の感情を認識するために用いる重み係数の修正処理を行う場合についても同じである。なお、本実施形態では、1つのシーン(図2に示した各シーン)について上記誤差が所定値となるまで行ってから次にシーンに処理を移行しても良いし、各シーンについて1回ずつ順次行うようにしても良い。また、上記学習処理のアルゴリズムについては様々なものが適用可能であり、特に限定するものではない。また、学習処理の終了基準についても特に限定するものではない。
The same applies to the case where the
次に、感情モデル109がパラメータ計測値の存在範囲を各感情毎に規定している感情モデルの場合のステップS304における処理について説明する。
Next, the process in step S304 in the case where the
例えばユーザ100が「幸福」を示す情報が関連付けられたシーンを見ている場合、このときのユーザ100の反応データの存在範囲が、「幸福」の感情に該当する条件式を満たすように、条件式に含まれているパラメータを修正する。例えば幸福という感情として認識するための目に関する上記条件式
Eey≧Ey+a×Ev 且つ Eey<Ey+b×Ev
の場合、「幸福」を示す情報が関連付けられたシーンを見ているユーザ100の反応データに含まれる眼の垂直方向の長さEv、眼の中心位置Ex,Eyをこの式に代入し、この式を満たすように係数a、bを修正する。
For example, when the
Eey ≧ Ey + a × Ev and Eey <Ey + b × Ev
In this case, the vertical length Ev and the center positions Ex and Ey of the eye included in the response data of the
なお、本実施形態では、1つのシーン(図2に示した各シーン)について条件式のパラメータ修正処理を行ってから次にシーンに処理を移行しても良いし、各シーンについて1回ずつ順次行うようにしても良い。 In this embodiment, the conditional expression parameter correction process may be performed for one scene (each scene shown in FIG. 2), and then the process may be transferred to the next scene. Alternatively, each scene may be sequentially performed once. You may make it do.
以上の処理を映画の終了時まで行う(ステップS305)。 The above processing is performed until the end of the movie (step S305).
以上説明した処理を行うことにより、各シーンに関連付けられた感情をユーザ100が抱いた場合に、どのような表情、手足の動き、声の大きさであるのかを感情モデル109に含まれるパラメータを修正することにより、学習することができ、その結果、学習後の感情モデル109は、ユーザ100の感情を、ユーザ100固有の視覚的な情報、聴覚的な情報でもって認識することができるモデルとなる。
By performing the processing described above, the parameters included in the
このようにユーザ個人毎の感情モデルを作成し、その個人ごとの感情モデルに基づいて、ユーザの反応に対して感情を認識することにより、正確にユーザの感情を認識することが出来る。つまり、一般的に同じ感情を抱いていても個人の反応(表情等)は異なるが、同じ刺激に対する各個人の反応を学習したため、個人の反応の差異に影響を受けない感情認識が可能になる。 Thus, by creating an emotion model for each individual user and recognizing the emotion for the user's reaction based on the individual emotion model, the user's emotion can be accurately recognized. In other words, although the individual responses (facial expressions, etc.) are generally different even if they hold the same emotions, they can learn emotions that are not affected by differences in individual responses because they learned each individual response to the same stimulus. .
また、刺激データに映画を使用することで、前述のように、精度の高い感情モデルが作成できるため、精度の高い感情認識が可能になる。 In addition, by using a movie as the stimulus data, a highly accurate emotion model can be created as described above, so that highly accurate emotion recognition is possible.
また本実施形態では、感情モデル109のパラメータの初期値は、平均的な人の反応データのパラメータ計測値が入力されたときに、平均的な人の感情を出力するように初期設定されているので、初期値を全て0と設定するよりも、容易に個人ごとの感情モデルが作成できる。
In this embodiment, the initial values of the parameters of the
また、各シーンごとに感情を認識するのではなく、ユーザ100の表情が変化したり、ユーザ100の動作が変化したとき等、ユーザ100の反応データのパラメータ計測値に変化が起こった時のみに、感情を認識するようにしてもよい。このようにすることで、反応の乏しい人に対して感情モデルを作成する時に、無反応の時の誤差を減少させることが出来る。
Also, instead of recognizing emotion for each scene, only when a change occurs in the parameter measurement value of the reaction data of the
なお、本実施形態では、ユーザ100の画像情報と音声情報の両方を収集して感情を認識するようにしていたが、ユーザによっては如何なる感情を抱いても声を出さない場合もある。その場合には、画像情報のみを用いて感情を認識するようにしても良い。その場合には、マイク102は必要はないし、感情モデル109には、上記画像情報のみを入力することになる。
In the present embodiment, both image information and audio information of the
[第2の実施形態]
第1の実施形態では刺激データとして映画のデータとしたが、本実施形態ではテレビゲームのプログラム、及びデータとする。
[Second Embodiment]
In the first embodiment, movie data is used as stimulus data, but in this embodiment, a video game program and data are used.
つまり、ゲームを再生し、ゲームの進展具合と、その進展具合に対して人が抱く感情とに関して関連付けられた感情データを用意する。そして、ゲームの進展具合に対する感情データと、その進展具合に対するユーザの反応とから、そのユーザの感情モデルを第1の実施形態と同様にして作成する。 That is, the game is played, and emotion data associated with the progress of the game and the emotion that the person has with respect to the progress is prepared. Then, the emotion model of the user is created in the same manner as in the first embodiment from the emotion data for the progress of the game and the user's reaction to the progress.
ここでいうゲームの進展具合とは、ある場面をクリアするのにどれくらい時間がかかっているか、またはある時間内にどれだけの敵を倒したか、またはある時間内に自分のキャラクタが敵に連続して負けたか等である。なお、本実施形態では、感情データ保持部107には、ゲームの進展具合とその時の感情とを関連付けた感情データを保持している。
The progress of the game here means how long it takes to clear a scene, how many enemies have been defeated within a certain period of time, Or have lost. In the present embodiment, the emotion
図6は、本実施形態における感情データシートの構成例を示している。 FIG. 6 shows a configuration example of an emotion data sheet in the present embodiment.
感情データシート601では、前述のようなゲームの進展具合と感情とを関連付けている。この関連付けは、多数の人にゲームをやってもらい、そのときのゲームの進展具合に応じた感情をまとめた平均的な感情データから作成される。
The
よってCPU701は、同図に示した各進展具合についてユーザ100のプレイを監視(クリア時間は?ある時間内にどの程度の数の敵を倒したか?等を監視)し、同図の感情データシートにおいて該当する進展具合を特定する。特定した各進展具合には感情が関連付けられているので、それぞれの進展具合に関連付けられた感情のうち、最も多いものを認識結果として出力する。すなわち、ここで認識したのは、「この進展具合なら、ユーザ100はこのような感情を抱くであろう」感情(推定感情)である。
Therefore, the
一方で、第1の実施形態と同様にして、カメラ101、マイク102からの画像情報、音声情報に基づいて感情モデル109によりユーザ100の感情を認識する。そして、認識した感情と上記推定感情(第1の実施形態では教師信号に該当)とを参照し、第1の実施形態と同様にして感情モデル109のパラメータを修正する。
On the other hand, as in the first embodiment, the emotion of the
以上の説明からもわかるとおり、第1の実施形態では、各シーン毎に感情を示す情報が予め関連付けられて感情データシートの形態で記憶保持されていたので、各シーン毎に認識されるべき感情はこの感情データシートを参照することにより得られたのであるが、本実施形態では、刺激データとしてゲームのプログラム、データを用いたことにより、感情データシートの構成、及びこの感情データシートを用いたユーザ100の感情を認識する方法は異なる。
As can be seen from the above description, in the first embodiment, information indicating emotions is associated with each scene in advance and stored in the form of an emotion data sheet, so the emotions to be recognized for each scene. Is obtained by referring to this emotion data sheet, but in this embodiment, by using a game program and data as stimulus data, the configuration of the emotion data sheet and this emotion data sheet are used. The method for recognizing the emotion of the
すなわち、CPU701は常にユーザ100のゲームの進展具合を監視し、所定の時間毎に感情データシートのどの進展具合に該当するのかを判断する。そして該当する進展具合に関連付けられた感情のうち、最も多いものを認識結果とする。これにより、CPU701は、「この進展具合なら、ユーザ100はこのような感情を抱くであろう」と判断して、感情を認識することができる。
In other words, the
このように、現在のユーザ100の感情がどのようなものであるかを得るために映画の代わりにテレビゲームを用いることで、感情データシートの構成、及びこの感情データシートを用いたユーザ100の感情を認識する方法が異なる以外は、本実施形態は第1の実施形態と同じである。
Thus, by using a video game instead of a movie in order to obtain what the current user's 100 emotion is, the configuration of the emotion data sheet and the
このように刺激データとしてテレビゲームを使用すると以下のような長所がある。すなわち、多数の人がゲームの進展に沿って、ほぼ同じ体験をすることが出来るので、平均的な反応と個人の特異な反応との比較がしやすい。さらに、同じ感情を持つ状態がいくつかあるので、ある特異な状態のみで感情モデルが作成されるのではなく、同じ感情をもつ複数の状態に対する平均的な反応を使用して感情モデルを作成するため、精度の高い感情モデルが作成できる。 Thus, using a video game as stimulus data has the following advantages. That is, since many people can experience almost the same experience as the game progresses, it is easy to compare the average response with the individual specific response. In addition, since there are several states with the same emotion, an emotion model is created using an average response to multiple states with the same emotion, instead of creating an emotion model only with a specific state. Therefore, an accurate emotion model can be created.
また、テレビゲームはインタラクティブ性があり、ユーザが映画よりも更に主体的に取り組むので、声を出したりして、ユーザの反応も強くなり、喜怒哀楽の感情が出やすい。そのため、ユーザの反応データのパラメータ計測が行いやすい。しかし、感情モデルの作成及び修正時には、入力されるユーザの反応データのパラメータ計測値に対して出力される感情の強さは最大のレベルとする必要がある。つまり、ゲームを実行中の反応データのパラメータ計測値のレベルより低い値を入力した時に、出力される感情のレベルが通常レベルになるようにする必要がある。 In addition, the video game is interactive, and the user works more proactively than the movie. Therefore, the user's reaction becomes stronger by making a voice and the emotion of emotion is easily generated. Therefore, it is easy to perform parameter measurement of user reaction data. However, when creating and correcting an emotion model, the strength of the emotion that is output with respect to the parameter measurement value of the input response data of the user needs to be at the maximum level. That is, when a value lower than the parameter measurement value level of the reaction data during the game is input, the emotion level to be output needs to be set to the normal level.
なお、本実施形態では、ユーザ100の画像情報と音声情報の両方を収集して感情を認識するようにしていたが、ユーザによっては如何なる感情を抱いても声を出さない場合もある。その場合には、画像情報のみを用いて感情を認識するようにしても良い。その場合には、マイク102は必要はないし、感情モデル109には、上記画像情報のみを入力することになる。
In the present embodiment, both image information and audio information of the
なお、ユーザ100の反応データを得る形態は上記実施形態以外にも考えられる。例えば、第1の実施形態ではシーンを見ているユーザ100の画像情報、音声情報を反応データとして収集したが、シーンを見ているユーザの脈拍数を計測し、計測した脈拍数が単位時間あたりどの程度の脈拍数であるかによって、感情を推定するようにしても良い。例えば興奮時には単位時間あたりの脈拍数は多くなる等、脈拍数は感情の部分情報になりうるので、この脈拍数を反応データとして用いることも可能である。また、反応データとして以上説明したものを適宜組み合わせて用いるようにしても良い。
In addition, the form which obtains the reaction data of the
[その他の実施形態]
本発明の目的は、前述した実施形態の機能を実現するソフトウェアのプログラムコードを記録した記録媒体(または記憶媒体)を、システムあるいは装置に供給し、そのシステムあるいは装置のコンピュータ(またはCPUやMPU)が記録媒体に格納されたプログラムコードを読み出し実行することによっても、達成されることは言うまでもない。この場合、記録媒体から読み出されたプログラムコード自体が前述した実施形態の機能を実現することになり、そのプログラムコードを記録した記録媒体は本発明を構成することになる。
[Other Embodiments]
An object of the present invention is to supply a recording medium (or storage medium) that records software program codes for realizing the functions of the above-described embodiments to a system or apparatus, and the computer of the system or apparatus (or CPU or MPU). Needless to say, this can also be achieved by reading and executing the program code stored in the recording medium. In this case, the program code itself read from the recording medium realizes the functions of the above-described embodiment, and the recording medium on which the program code is recorded constitutes the present invention.
また、コンピュータが読み出したプログラムコードを実行することにより、前述した実施形態の機能が実現されるだけでなく、そのプログラムコードの指示に基づき、コンピュータ上で稼働しているオペレーティングシステム(OS)などが実際の処理の一部または全部を行い、その処理によって前述した実施形態の機能が実現される場合も含まれることは言うまでもない。 Further, by executing the program code read by the computer, not only the functions of the above-described embodiments are realized, but also an operating system (OS) running on the computer based on the instruction of the program code. It goes without saying that a case where the function of the above-described embodiment is realized by performing part or all of the actual processing and the processing is included.
さらに、記録媒体から読み出されたプログラムコードが、コンピュータに挿入された機能拡張カードやコンピュータに接続された機能拡張ユニットに備わるメモリに書込まれた後、そのプログラムコードの指示に基づき、その機能拡張カードや機能拡張ユニットに備わるCPUなどが実際の処理の一部または全部を行い、その処理によって前述した実施形態の機能が実現される場合も含まれることは言うまでもない。 Furthermore, after the program code read from the recording medium is written into a memory provided in a function expansion card inserted into the computer or a function expansion unit connected to the computer, the function is based on the instruction of the program code. It goes without saying that the CPU or the like provided in the expansion card or the function expansion unit performs part or all of the actual processing and the functions of the above-described embodiments are realized by the processing.
本発明を上記記録媒体に適用する場合、その記録媒体には、先に説明したフローチャート(機能構成)に対応するプログラムコードが格納されることになる。 When the present invention is applied to the recording medium, program code corresponding to the flowchart (functional configuration) described above is stored in the recording medium.
Claims (11)
前記映画のシーン毎に、該シーンを見る人が持つと思われる感情を示す感情情報を予め関連付けて記憶保持している記憶保持手段と、
前記映画のデータを再生する再生手段と、
前記映画のデータを見ているときのユーザの画像を撮像する撮像手段と、
前記画像から得られる前記ユーザの特徴量に基づいて、前記映画のシーンを見ているときの前記ユーザの感情を、予め設定された認識モデルを用いて推定する推定手段と、
前記ユーザが前記シーンを見ているときに前記推定手段により推定される感情が、該シーンに関連付けて前記記憶保持手段に記憶保持されている感情情報が示す感情として推定されるように、前記認識モデルのパラメータを修正する修正手段と
を備えることを特徴とする情報処理装置。 An information processing apparatus for reproducing movie data,
Memory holding means for pre-associating and holding emotion information indicating an emotion that a person who sees the scene seems to have for each scene of the movie;
Playback means for playing back the movie data;
Imaging means for capturing an image of a user when viewing the movie data;
Estimating means for estimating the user's emotion when watching the scene of the movie based on the feature amount of the user obtained from the image using a preset recognition model;
Wherein such user emotion estimated by the estimating means when viewing the scene, emotion information stored and held in the storage holding means in association with the scene is estimated as emotion indicated, the recognition An information processing apparatus comprising: correction means for correcting a parameter of the model.
前記推定手段は前記画像から得られる特徴量、及び前記音声情報から得られる特徴量に基づいて、前記シーンを見ているときの前記ユーザの感情を、予め設定された認識モデルを用いて推定することを特徴とする請求項1乃至5の何れか1項に記載の情報処理装置。 And further comprising a collecting means for collecting the user's voice information,
The estimation means estimates the emotion of the user when viewing the scene using a preset recognition model based on the feature amount obtained from the image and the feature amount obtained from the audio information. The information processing apparatus according to claim 1, wherein the information processing apparatus is an information processing apparatus.
前記ゲームの各進展具合を示す情報毎に、該進展具合において前記ゲームをしている人が持つと思われる感情を示す感情情報を予め関連付けて記憶保持している記憶保持手段と、
前記ゲームを行っているときのユーザの画像を撮像する撮像手段と、
前記ユーザが行っているゲームの進展具合を監視する監視手段と、
前記画像から得られる前記ユーザの特徴量に基づいて、前記ゲームの各進展具合における前記ユーザの感情を、予め設定された認識モデルを用いて推定する推定手段と、
前記ゲームの各進展具合について前記推定手段により推定される感情が、前記記憶保持手段に該進展具合を示す情報に関連付けられて保持された感情情報が示す感情として推定されるように、前記認識モデルのパラメータを修正する修正手段と
を備えることを特徴とする情報処理装置。 An information processing apparatus for playing a game,
Every information indicating each progress degree of the game, a storage holding means in advance in association with memory retention emotion information indicating the emotion that seems to have the person with Oite the game該進exhibition condition,
Imaging means for capturing an image of the user when the game is being played ;
Monitoring means for monitoring the progress of the game being played by the user;
Estimating means for estimating the user's emotion in each progress of the game using a preset recognition model based on the feature amount of the user obtained from the image;
As emotion estimated by the estimating means for each progress condition of the game, emotion information held associated with the information indicating the該進exhibition degree in the storage holding means is estimated as emotion indicated, the recognition model An information processing apparatus comprising: correction means for correcting the parameters of the information processing apparatus.
前記情報処理装置が有する記憶保持手段が、前記映画のシーン毎に、該シーンを見る人が持つと思われる感情を示す感情情報を予め関連付けて記憶保持部に記憶保持する記憶保持工程と、
前記情報処理装置が有する再生手段が、前記映画のデータを再生する再生工程と、
前記情報処理装置が有する撮像手段が、前記映画のデータを見ているときのユーザの画像を撮像する撮像工程と、
前記情報処理装置が有する推定手段が、前記画像から得られる前記ユーザの特徴量に基づいて、前記映画のシーンを見ているときの前記ユーザの感情を、予め設定された認識モデルを用いて推定する推定工程と、
前記情報処理装置が有する修正手段が、前記ユーザが前記シーンを見ているときに前記推定工程により推定される感情が、該シーンに関連付けて前記記憶保持部に記憶保持されている感情情報が示す感情として推定されるように、前記認識モデルのパラメータを修正する修正工程と
を備えることを特徴とする情報処理方法。 An information processing method performed by an information processing apparatus for reproducing movie data,
A memory holding step in which the memory holding means of the information processing apparatus associates in advance and stores in the memory holding unit emotion information indicating the feeling that a person who sees the scene seems to have for each scene of the movie;
A reproduction step in which reproduction means included in the information processing apparatus reproduces the data of the movie;
An imaging process in which an imaging unit included in the information processing apparatus captures an image of a user when viewing the movie data;
Based on the feature amount of the user obtained from the image, the estimation means included in the information processing apparatus estimates the emotion of the user when watching the movie scene using a preset recognition model. An estimation process to
Correction means said information processing apparatus has found the emotion estimated by the estimation process, shown emotion information stored and held in the storage holding unit in association with the scene when the user is viewing the scene A correction step of correcting a parameter of the recognition model so as to be estimated as emotion.
前記情報処理装置が有する記憶保持手段が、前記ゲームの各進展具合を示す情報毎に、該進展具合において前記ゲームをしている人が持つと思われる感情を示す感情情報を予め関連付けて記憶保持部に記憶保持する記憶保持工程と、
前記情報処理装置が有する撮像手段が、前記ゲームを行っているときのユーザの画像を撮像する撮像工程と、
前記情報処理装置が有する監視手段が、前記ユーザが行っているゲームの進展具合を監視する監視工程と、
前記情報処理装置が有する推定手段が、前記画像から得られる前記ユーザの特徴量に基づいて、前記ゲームの各進展具合における前記ユーザの感情を、予め設定された認識モデルを用いて推定する推定工程と、
前記情報処理装置が有する修正手段が、前記ゲームの各進展具合について前記推定工程により推定される感情が、前記記憶保持部に該進展具合を示す情報に関連付けられて保持された感情情報が示す感情として推定されるように、前記認識モデルのパラメータを修正する修正工程と
を備えることを特徴とする情報処理方法。 An information processing method performed by an information processing apparatus that plays a game,
Storage retaining means said information processing apparatus has found the each information indicating each progress condition of the game, in advance associate emotion information indicating the emotion that seems to have the person with Oite the game該進Exhibition degree A memory holding step for storing and holding in the memory holding unit;
An imaging process in which an imaging unit included in the information processing apparatus captures an image of a user when the game is being played ,
A monitoring step in which the monitoring means of the information processing apparatus monitors the progress of the game being played by the user;
An estimation step in which the estimation unit included in the information processing apparatus estimates the emotion of the user in each progress of the game using a preset recognition model based on the feature amount of the user obtained from the image. When,
Emotion correction means said information processing apparatus has the emotion estimated by the estimating step for each progress condition of the game, indicated by the emotion information stored associated with information indicating the該進exhibition degree in the storage holder And a correction step of correcting the parameters of the recognition model so as to be estimated as follows.
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
JP2004166135A JP4641389B2 (en) | 2004-06-03 | 2004-06-03 | Information processing method and information processing apparatus |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
JP2004166135A JP4641389B2 (en) | 2004-06-03 | 2004-06-03 | Information processing method and information processing apparatus |
Publications (3)
Publication Number | Publication Date |
---|---|
JP2005346471A JP2005346471A (en) | 2005-12-15 |
JP2005346471A5 JP2005346471A5 (en) | 2010-04-22 |
JP4641389B2 true JP4641389B2 (en) | 2011-03-02 |
Family
ID=35498780
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
JP2004166135A Expired - Fee Related JP4641389B2 (en) | 2004-06-03 | 2004-06-03 | Information processing method and information processing apparatus |
Country Status (1)
Country | Link |
---|---|
JP (1) | JP4641389B2 (en) |
Families Citing this family (21)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
JP4757787B2 (en) * | 2006-12-08 | 2011-08-24 | 株式会社トヨタIt開発センター | Emotion estimation device |
JP2009026125A (en) * | 2007-07-20 | 2009-02-05 | Denso It Laboratory Inc | Emotion analysis device, emotion analysis method, and program |
JP5026887B2 (en) * | 2007-08-10 | 2012-09-19 | 花王株式会社 | Method for judging emotion |
JP5326843B2 (en) * | 2009-06-11 | 2013-10-30 | 日産自動車株式会社 | Emotion estimation device and emotion estimation method |
JP2011227710A (en) * | 2010-04-20 | 2011-11-10 | Mega Chips Corp | Data processor, data processing system, and program |
JP5494468B2 (en) * | 2010-12-27 | 2014-05-14 | 富士通株式会社 | Status detection device, status detection method, and program for status detection |
JP6236875B2 (en) | 2013-05-24 | 2017-11-29 | 富士通株式会社 | Content providing program, content providing method, and content providing apparatus |
JP2016110631A (en) * | 2014-12-02 | 2016-06-20 | 三星電子株式会社Samsung Electronics Co.,Ltd. | State estimation device, state estimation method and program |
EP3384495B1 (en) * | 2015-12-04 | 2021-06-23 | Sling Media L.L.C. | Processing of multiple media streams |
JP2017138343A (en) * | 2016-02-01 | 2017-08-10 | カシオ計算機株式会社 | Emotion estimation device, emotion estimation method and program |
US9711056B1 (en) * | 2016-03-14 | 2017-07-18 | Fuvi Cognitive Network Corp. | Apparatus, method, and system of building and processing personal emotion-based computer readable cognitive sensory memory and cognitive insights for enhancing memorization and decision making skills |
JP6273311B2 (en) * | 2016-04-19 | 2018-01-31 | Cocoro Sb株式会社 | Emotion determination system, system and program |
JP6772881B2 (en) * | 2017-02-15 | 2020-10-21 | トヨタ自動車株式会社 | Voice dialogue device |
JP6922284B2 (en) * | 2017-03-15 | 2021-08-18 | 富士フイルムビジネスイノベーション株式会社 | Information processing equipment and programs |
WO2019144542A1 (en) * | 2018-01-26 | 2019-08-01 | Institute Of Software Chinese Academy Of Sciences | Affective interaction systems, devices, and methods based on affective computing user interface |
JP7350735B2 (en) * | 2018-06-22 | 2023-09-26 | 株式会社半導体エネルギー研究所 | image display device |
CN109491499B (en) * | 2018-11-05 | 2022-05-24 | 创维集团智能科技有限公司 | Electric equipment control method and device, electric equipment and medium |
JP7111017B2 (en) * | 2019-02-08 | 2022-08-02 | 日本電信電話株式会社 | Paralinguistic information estimation model learning device, paralinguistic information estimation device, and program |
WO2020246075A1 (en) * | 2019-06-04 | 2020-12-10 | ソニー株式会社 | Action control device, action control method, and program |
JP7251392B2 (en) * | 2019-08-01 | 2023-04-04 | 株式会社デンソー | emotion estimation device |
WO2021166207A1 (en) * | 2020-02-21 | 2021-08-26 | 日本電信電話株式会社 | Recognition device, learning device, method for same, and program |
Citations (21)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
JPH02165285A (en) * | 1988-12-20 | 1990-06-26 | Fujitsu Ltd | pattern recognition device |
JPH032136B2 (en) * | 1986-08-05 | 1991-01-14 | Fuso Kagaku Kogyo | |
JPH06231257A (en) * | 1993-02-02 | 1994-08-19 | Nec Corp | Device for generating learning data |
JPH0719834A (en) * | 1993-07-02 | 1995-01-20 | Fujitsu Ltd | Object recognition device |
JPH08249447A (en) * | 1995-03-13 | 1996-09-27 | Atr Tsushin Syst Kenkyusho:Kk | Expression detector |
JP2593625B2 (en) * | 1994-01-12 | 1997-03-26 | 株式会社脳機能研究所 | Biological information automatic identification device |
JP2874858B2 (en) * | 1997-01-30 | 1999-03-24 | 株式会社エイ・ティ・アール知能映像通信研究所 | Interactive movie system |
JPH11219195A (en) * | 1998-02-04 | 1999-08-10 | Atr Chino Eizo Tsushin Kenkyusho:Kk | Interactive mode poem reading aloud system |
JP2001051967A (en) * | 1999-08-04 | 2001-02-23 | Fuji Xerox Co Ltd | Associated storage device |
JP2001209779A (en) * | 1999-11-18 | 2001-08-03 | Toshiba Corp | Virtual living system and pattern learning method in virtual living system |
JP3348956B2 (en) * | 1994-03-24 | 2002-11-20 | ソニー株式会社 | Display device |
JP2003099084A (en) * | 2001-07-13 | 2003-04-04 | Sony France Sa | Emotion recognition method and device |
JP2003162294A (en) * | 2001-10-05 | 2003-06-06 | Sony Internatl Europ Gmbh | Method and device for detecting emotion |
JP2003178078A (en) * | 2001-12-12 | 2003-06-27 | Matsushita Electric Ind Co Ltd | Additional indicator data to image and voice data, and its adding method |
JP2003330485A (en) * | 2002-05-10 | 2003-11-19 | Tokai Rika Co Ltd | Voice recognition device, voice recognition system, and method for voice recognition |
JP2004064433A (en) * | 2002-07-29 | 2004-02-26 | Seiko Epson Corp | Device operation system, device operation program, and device operation method |
JP2004144996A (en) * | 2002-10-24 | 2004-05-20 | Daiichikosho Co Ltd | Information presentation system |
JP2004153770A (en) * | 2002-10-31 | 2004-05-27 | Sega Corp | Digital movie system |
JP2004178593A (en) * | 2002-11-25 | 2004-06-24 | Eastman Kodak Co | Imaging method and system |
JP2005063163A (en) * | 2003-08-13 | 2005-03-10 | Sony Corp | Device and method for retrieval reproduction of imaging information, device and method for retrieval reproduction of contents and device and method for emotion retrieval |
JP2005128884A (en) * | 2003-10-24 | 2005-05-19 | Sony Corp | Device and method for editing information content |
-
2004
- 2004-06-03 JP JP2004166135A patent/JP4641389B2/en not_active Expired - Fee Related
Patent Citations (21)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
JPH032136B2 (en) * | 1986-08-05 | 1991-01-14 | Fuso Kagaku Kogyo | |
JPH02165285A (en) * | 1988-12-20 | 1990-06-26 | Fujitsu Ltd | pattern recognition device |
JPH06231257A (en) * | 1993-02-02 | 1994-08-19 | Nec Corp | Device for generating learning data |
JPH0719834A (en) * | 1993-07-02 | 1995-01-20 | Fujitsu Ltd | Object recognition device |
JP2593625B2 (en) * | 1994-01-12 | 1997-03-26 | 株式会社脳機能研究所 | Biological information automatic identification device |
JP3348956B2 (en) * | 1994-03-24 | 2002-11-20 | ソニー株式会社 | Display device |
JPH08249447A (en) * | 1995-03-13 | 1996-09-27 | Atr Tsushin Syst Kenkyusho:Kk | Expression detector |
JP2874858B2 (en) * | 1997-01-30 | 1999-03-24 | 株式会社エイ・ティ・アール知能映像通信研究所 | Interactive movie system |
JPH11219195A (en) * | 1998-02-04 | 1999-08-10 | Atr Chino Eizo Tsushin Kenkyusho:Kk | Interactive mode poem reading aloud system |
JP2001051967A (en) * | 1999-08-04 | 2001-02-23 | Fuji Xerox Co Ltd | Associated storage device |
JP2001209779A (en) * | 1999-11-18 | 2001-08-03 | Toshiba Corp | Virtual living system and pattern learning method in virtual living system |
JP2003099084A (en) * | 2001-07-13 | 2003-04-04 | Sony France Sa | Emotion recognition method and device |
JP2003162294A (en) * | 2001-10-05 | 2003-06-06 | Sony Internatl Europ Gmbh | Method and device for detecting emotion |
JP2003178078A (en) * | 2001-12-12 | 2003-06-27 | Matsushita Electric Ind Co Ltd | Additional indicator data to image and voice data, and its adding method |
JP2003330485A (en) * | 2002-05-10 | 2003-11-19 | Tokai Rika Co Ltd | Voice recognition device, voice recognition system, and method for voice recognition |
JP2004064433A (en) * | 2002-07-29 | 2004-02-26 | Seiko Epson Corp | Device operation system, device operation program, and device operation method |
JP2004144996A (en) * | 2002-10-24 | 2004-05-20 | Daiichikosho Co Ltd | Information presentation system |
JP2004153770A (en) * | 2002-10-31 | 2004-05-27 | Sega Corp | Digital movie system |
JP2004178593A (en) * | 2002-11-25 | 2004-06-24 | Eastman Kodak Co | Imaging method and system |
JP2005063163A (en) * | 2003-08-13 | 2005-03-10 | Sony Corp | Device and method for retrieval reproduction of imaging information, device and method for retrieval reproduction of contents and device and method for emotion retrieval |
JP2005128884A (en) * | 2003-10-24 | 2005-05-19 | Sony Corp | Device and method for editing information content |
Also Published As
Publication number | Publication date |
---|---|
JP2005346471A (en) | 2005-12-15 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
JP4641389B2 (en) | Information processing method and information processing apparatus | |
Celiktutan et al. | Multimodal human-human-robot interactions (mhhri) dataset for studying personality and engagement | |
KR101590186B1 (en) | Electronic apparatus video content editing method and recording medium for program | |
CN100425071C (en) | Conference information processing apparatus, and conference information processing method and storage medium readable by computer | |
KR20200130231A (en) | Direct live entertainment using biometric sensor data for detection of neural conditions | |
Chou et al. | NNIME: The NTHU-NTUA Chinese interactive multimodal emotion corpus | |
JP6751536B2 (en) | Equipment, robots, methods, and programs | |
CN112379780B (en) | Multi-mode emotion interaction method, intelligent device, system, electronic device and medium | |
JP2010066844A (en) | Method and device for processing video content, and program for processing video content | |
JP2011186521A (en) | Emotion estimation device and emotion estimation method | |
US9014475B2 (en) | Image pickup apparatus and photographing method of image pickup apparatus | |
JP2010128281A (en) | Interaction activating system and interaction activating robot | |
Malatesta et al. | Towards modeling embodied conversational agent character profiles using appraisal theory predictions in expression synthesis | |
JP4407198B2 (en) | Recording / reproducing apparatus, reproducing apparatus, recording / reproducing method, and reproducing method | |
KR20180011664A (en) | A method for analysing face information, and an appratus for analysing face information to present faces, identify mental status or compensate it | |
CN114967937B (en) | Virtual human motion generation method and system | |
EP3956748B1 (en) | Headset signals to determine emotional states | |
CN112055257B (en) | Interactive method, device, device and storage medium for video classroom | |
EP3799407A1 (en) | Initiating communication between first and second users | |
Petridis et al. | Prediction-based classification for audiovisual discrimination between laughter and speech | |
US20220020196A1 (en) | System and method for voice driven lip syncing and head reenactment | |
CN114222077A (en) | Video processing method and device, storage medium and electronic equipment | |
Arendsen et al. | When and how well do people see the onset of gestures? | |
JP2009032056A (en) | Communication system | |
CN109697413B (en) | Personality analysis method, system and storage medium based on head gesture |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
A521 | Request for written amendment filed |
Free format text: JAPANESE INTERMEDIATE CODE: A523 Effective date: 20070604 |
|
A621 | Written request for application examination |
Free format text: JAPANESE INTERMEDIATE CODE: A621 Effective date: 20070604 |
|
RD03 | Notification of appointment of power of attorney |
Free format text: JAPANESE INTERMEDIATE CODE: A7423 Effective date: 20070604 |
|
A521 | Request for written amendment filed |
Free format text: JAPANESE INTERMEDIATE CODE: A523 Effective date: 20100308 |
|
A977 | Report on retrieval |
Free format text: JAPANESE INTERMEDIATE CODE: A971007 Effective date: 20100601 |
|
A131 | Notification of reasons for refusal |
Free format text: JAPANESE INTERMEDIATE CODE: A131 Effective date: 20100607 |
|
A521 | Request for written amendment filed |
Free format text: JAPANESE INTERMEDIATE CODE: A523 Effective date: 20100805 |
|
A131 | Notification of reasons for refusal |
Free format text: JAPANESE INTERMEDIATE CODE: A131 Effective date: 20100910 |
|
A521 | Request for written amendment filed |
Free format text: JAPANESE INTERMEDIATE CODE: A523 Effective date: 20101108 |
|
TRDD | Decision of grant or rejection written | ||
A01 | Written decision to grant a patent or to grant a registration (utility model) |
Free format text: JAPANESE INTERMEDIATE CODE: A01 Effective date: 20101126 |
|
A01 | Written decision to grant a patent or to grant a registration (utility model) |
Free format text: JAPANESE INTERMEDIATE CODE: A01 |
|
A61 | First payment of annual fees (during grant procedure) |
Free format text: JAPANESE INTERMEDIATE CODE: A61 Effective date: 20101129 |
|
R150 | Certificate of patent or registration of utility model |
Free format text: JAPANESE INTERMEDIATE CODE: R150 Ref document number: 4641389 Country of ref document: JP Free format text: JAPANESE INTERMEDIATE CODE: R150 |
|
FPAY | Renewal fee payment (event date is renewal date of database) |
Free format text: PAYMENT UNTIL: 20131210 Year of fee payment: 3 |
|
LAPS | Cancellation because of no payment of annual fees |