JP5930946B2 - 対話状態推定装置、対話状態推定方法、およびプログラム - Google Patents
対話状態推定装置、対話状態推定方法、およびプログラム Download PDFInfo
- Publication number
- JP5930946B2 JP5930946B2 JP2012252982A JP2012252982A JP5930946B2 JP 5930946 B2 JP5930946 B2 JP 5930946B2 JP 2012252982 A JP2012252982 A JP 2012252982A JP 2012252982 A JP2012252982 A JP 2012252982A JP 5930946 B2 JP5930946 B2 JP 5930946B2
- Authority
- JP
- Japan
- Prior art keywords
- action
- learning
- interpretation
- estimation
- time series
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Active
Links
Images
Landscapes
- Image Processing (AREA)
- Image Analysis (AREA)
Description
実施形態の説明に先立ち、この発明の概要について説明する。
この発明の対話状態推定技術における一番のポイントは、対話二者間での与え手の行動表出とそれに対する受け手の反応表出との間での行動の時間差と、対話二者間でそれらの行動が一致しているか否かを示す一致性によって、その二者を見た外部観察者がその対話の状態をどう解釈するのかを確率的にモデル化したことである。この背後にあるのは、外部観察者が二者の間の対話状態を解釈する際に、人が相手の働きかけに対してどのように反応するかというこれまでに得られている心理学分野の知見を、意識的あるいは無意識的に利用しているであろうという仮説である。このモデルにより、対話二者の行動の時系列が与えられたときに、外部観察者の集団が各時刻において共感状態をどう解釈するのかの得票率が推定できる。
以下、この発明の実施の形態について詳細に説明する。なお、図面中において同じ機能を有する構成部には同じ番号を付し、重複説明を省略する。
図1を参照して、この実施形態の対話状態推定装置1の構成例について説明する。対話状態推定装置1は入力部10と行動認識部20と共感解釈付与部30とパラメタ学習部40と事後確率推定部50と出力部60と学習用映像記憶部70と推定用映像記憶部72とモデルパラメタ記憶部74とを備える。学習用映像記憶部70と推定用映像記憶部72は、例えば、RAM(Random Access Memory)などの主記憶装置、ハードディスクや光ディスクもしくはフラッシュメモリなどの半導体メモリ素子により構成される補助記憶装置、などにより構成することができる。モデルパラメタ記憶部74は、学習用映像記憶部70と同様に構成してもよいし、リレーショナルデータベースやキーバリューストアなどのミドルウェア、などにより構成してもよい。
図3を参照して、対話状態推定装置1の学習フェーズにおける動作例を説明する。
この実施形態のモデルについて詳述する。この実施形態では、外部観察者が与える共感解釈は対話二者の組み合わせ毎に独立であることを仮定する。よって、以下では対話者が二人のみの場合を想定する。なお、対話者が三人以上の場合には、それぞれの対話二者の組み合わせのみに注目して学習と推定を行えばよい。
この実施形態における行動チャネルbについてのタイミングモデルは式(2)のように定義される。
時間差関数P(dt~t b|ct b,et)は、対話二者間の行動が行動チャネルbにおいて一致しているか否かを示す一致性cとその時間差dtによって共感解釈eがどの種類となりやすいかの尤度を表す。この実施形態では、外部観察者の共感解釈の時系列をヒストグラム化した際のビン番号dt~t bを使用している。ビンサイズについては例えば200ミリ秒とする。
変化タイミング関数πはどのタイミングで共感解釈eが変化するかを表す。別の見方をすると、変化タイミング関数πは時間差関数がどの範囲にわたってどの程度の強さで式(1)における共感解釈eの推定に寄与するかを決定する。
静的モデルP(bt|et)は、時刻tに行動チャネルbについて対話二者間で特定の行動が共起した場合に、共感解釈eがどの程度の尤度で生成されるかをモデル化したものである。
この実施形態では、いずれのモデルについても離散状態として記述されているため、学習フェーズではその離散状態が学習サンプル中に何回出現したかの頻度を取り、最後にその頻度を正規化(確率化)すればよい。
図4を参照して、対話状態推定装置1の推定フェーズにおける動作例を説明する。
この発明の効果を確認するために実験を行った。対話者4名によって、二者択一の議題に対してグループで一つの意見を決めるという合意形成型の対話を対象とした。初対面かつ同年代(20代〜30代)の女性計16名を4つの対話グループに分け、全10対話74分間の対話映像を評価データとして使用した。すべての対話はIEEE1394カメラを用いてフレームレート30fpsにて撮影された。外部観察者は20代〜30代の日本人女性9名が参加した。全員がお互いとも対話者16名とも面識がなかった。行動の時系列は、1名の外部観察者が、映像中の各対話者について、表情、視線、頭部ジェスチャ、および発話有無をフレーム単位でラベル付けした。
この発明により推定される共感解釈の事後分布などの結果によって期待される効果は以下のようなものである。まず、推定される共感解釈の事後確率分布P(et|B)は、ある一人の外部観察者に対象の二者の対話映像を提示した際に、それぞれの種類の共感解釈(ここでは、共感/どちらでもない/反感、の3種類)を抱く確率である。あるいは、外部観察者が複数の場合は、彼らが与える各共感解釈の種類の得票率を表す。対話状態値etはある一人の外部観察者がどう解釈するかの推定結果である。事後確率分布P(et|B)がばらついた分布となっているほど、その対話の場面を観察した人物(例えば、その対話中の傍参与者(話し手でもなく、話し手が直接語りかけている聞き手でもない人物))の間で共感解釈が異なる可能性が高いことを意味する。すなわちそれは、対話二者の相互作用が共感解釈についての曖昧性を多く含んでおり、誤解が生じたり意思疎通が困難であったりする可能性が高いことを意味する。その対話を仕切っている、あるいは支援している人物(例えば、ファシリテータや対話エージェント)がこの対話の状態を活用すれば、その対話をより充実させて満足や納得のいくものに変えることができると期待される。
この発明は上述の実施形態に限定されるものではなく、この発明の趣旨を逸脱しない範囲で適宜変更が可能であることはいうまでもない。上記実施例において説明した各種の処理は、記載の順に従って時系列に実行されるのみならず、処理を実行する装置の処理能力あるいは必要に応じて並列的にあるいは個別に実行されてもよい。
10 入力部
20 行動認識部
30 共感解釈付与部
40 パラメタ学習部
42 事前分布学習部
44 タイミングモデル学習部
46 静的モデル学習部
50 事後確率推定部
60 出力部
70 学習用映像記憶部
72 推定用映像記憶部
74 モデルパラメタ記憶部
Claims (10)
- 複数の対話者の頭部を撮影した映像を入力とし、前記映像中の対話者の行動を検出して時系列にラベル付けした行動時系列を出力する行動認識部と、
複数の対話者の頭部を撮影した学習用映像を入力として前記行動認識部が出力した学習用行動時系列と、前記学習用映像に基づいて共感解釈を時系列にラベル付けした学習用共感解釈時系列とに基づいて、共感解釈の事前分布、行動の時間差と行動の一致性とに基づく共感解釈の尤度を表すタイミングモデル、および行動の共起性に基づく共感解釈の尤度を表す静的モデルを含むモデルパラメタを学習するパラメタ学習部と、
複数の対話者の頭部を撮影した推定用映像を入力として前記行動認識部が出力した推定用行動時系列に基づいて、前記モデルパラメタを用いて前記推定用映像中の対話者間の共感解釈を推定する事後確率推定部と、
を含み、
前記事後確率推定部は、eを前記共感解釈とし、tを時刻とし、Bを前記推定用行動時系列とし、P(e t )を前記事前分布とし、bを前記行動の種類である行動チャネルとし、dtを前記時間差とし、cを前記一致性とし、P(dt t b |c t b ,e t )を前記タイミングモデルとし、P(b t ,e t )を前記静的モデルとし、以下の式により表される事後確率分布P(e t |B)を求めるものである、
対話状態推定装置。 - 1つの行動の種類(以下、「行動チャネル」という)は複数の行動の状態を取り、対話者は複数の行動の状態(ただし、行動の状態が2の場合を除く)を取る行動チャネルを少なくとも1つ用いるとして、
複数の対話者の頭部を撮影した映像を入力とし、前記映像中の対話者が用いる行動チャネルに関する行動の状態を検出して時系列にラベル付けした行動時系列を出力する行動認識部と、
複数の対話者の頭部を撮影した学習用映像を入力として前記行動認識部が出力した学習用行動時系列と、前記学習用映像に基づいて共感解釈を時系列にラベル付けした学習用共感解釈時系列とに基づいて、行動の状態の切り替わり時刻の差を示す行動の時間差と、前記切り替わり後の対話者間の行動の状態が一致しているか否かを示す行動の一致性とに基づく共感解釈の尤度を表すタイミングモデルを含むモデルパラメタを学習するパラメタ学習部と、
複数の対話者の頭部を撮影した推定用映像を入力として前記行動認識部が出力した推定用行動時系列に基づいて、前記モデルパラメタを用いて前記推定用映像中の対話者間の共感解釈を推定する事後確率推定部と、
を含む対話状態推定装置。 - 請求項2に記載の対話状態推定装置であって、
前記パラメタ学習部は、共感解釈の事前分布、前記タイミングモデル、および行動の共起性に基づく共感解釈の尤度を表す静的モデルを含む前記モデルパラメタを学習する
ことを特徴とする対話状態推定装置。 - 請求項1から3のいずれかに記載の対話状態推定装置であって、
前記パラメタ学習部は、行動の時間差と行動の一致性とに基づいて共感解釈の尤度を表す時間差関数と、行動の時間差に応じた重みを表す変化タイミング関数とにより表される前記タイミングモデルを学習する
ことを特徴とする対話状態推定装置。 - 請求項1に記載の対話状態推定装置であって、
前記行動認識部は、前記対話者の頭部の動作を示す頭部ジェスチャと、前記対話者が発話しているか否かを示す発話有無との少なくとも一つを前記行動として検出する
ことを特徴とする対話状態推定装置。 - 請求項2から5のいずれかに記載の対話状態推定装置であって、
前記行動認識部は、少なくとも前記対話者の頭部の動作を示す頭部ジェスチャを前記行動として検出する
ことを特徴とする対話状態推定装置。 - 複数の対話者の頭部を撮影した学習用映像を入力とし、前記学習用映像中の対話者の行動を検出して時系列にラベル付けした学習用行動時系列を出力する学習用行動認識ステップと、
前記学習用行動時系列と、前記学習用映像に基づいて共感解釈を時系列にラベル付けした学習用共感解釈時系列とに基づいて、共感解釈の事前分布と、行動の時間差と行動の一致性とに基づく共感解釈の尤度を表すタイミングモデル、および行動の共起性に基づく共感解釈の尤度を表す静的モデルを含むモデルパラメタを学習するパラメタ学習ステップと、
複数の対話者の頭部を撮影した推定用映像を入力とし、前記推定用映像中の対話者の行動を検出して時系列にラベル付けした推定用行動時系列を出力する推定用行動認識ステップと、
前記推定用行動時系列に基づいて、前記モデルパラメタを用いて前記推定用映像中の対話者間の共感解釈を推定する事後確率推定ステップと、
を含み、
前記事後確率推定ステップは、eを前記共感解釈とし、tを時刻とし、Bを前記推定用行動時系列とし、P(e t )を前記事前分布とし、bを前記行動の種類である行動チャネルとし、dtを前記時間差とし、cを前記一致性とし、P(dt t b |c t b ,e t )を前記タイミングモデルとし、P(b t ,e t )を前記静的モデルとし、以下の式により表される事後確率分布P(e t |B)を求めるものである、
対話状態推定方法。 - 1つの行動の種類(以下、「行動チャネル」という)は複数の行動の状態を取り、対話者は複数の行動の状態(ただし、行動の状態が2の場合を除く)を取る行動チャネルを少なくとも1つ用いるとして、
複数の対話者の頭部を撮影した学習用映像を入力とし、前記学習用映像中の対話者が用いる行動チャネルに関する行動の状態を検出して時系列にラベル付けした学習用行動時系列を出力する学習用行動認識ステップと、
前記学習用行動時系列と、前記学習用映像に基づいて共感解釈を時系列にラベル付けした学習用共感解釈時系列とに基づいて、行動の状態の切り替わり時刻の差を示す行動の時間差と、前記切り替わり後の対話者間の行動の状態が一致しているか否かを示す行動の一致性とに基づく共感解釈の尤度を表すタイミングモデルを含むモデルパラメタを学習するパラメタ学習ステップと、
複数の対話者の頭部を撮影した推定用映像を入力とし、前記推定用映像中の対話者が用いる行動チャネルに関する行動の状態を検出して時系列にラベル付けした推定用行動時系列を出力する推定用行動認識ステップと、
前記推定用行動時系列に基づいて、前記モデルパラメタを用いて前記推定用映像中の対話者間の共感解釈を推定する事後確率推定ステップと、
を含む対話状態推定方法。 - 請求項1から7のいずれかに記載の対話状態推定装置としてコンピュータを機能させるためのプログラム。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
JP2012252982A JP5930946B2 (ja) | 2012-11-19 | 2012-11-19 | 対話状態推定装置、対話状態推定方法、およびプログラム |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
JP2012252982A JP5930946B2 (ja) | 2012-11-19 | 2012-11-19 | 対話状態推定装置、対話状態推定方法、およびプログラム |
Publications (2)
Publication Number | Publication Date |
---|---|
JP2014102606A JP2014102606A (ja) | 2014-06-05 |
JP5930946B2 true JP5930946B2 (ja) | 2016-06-08 |
Family
ID=51025078
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
JP2012252982A Active JP5930946B2 (ja) | 2012-11-19 | 2012-11-19 | 対話状態推定装置、対話状態推定方法、およびプログラム |
Country Status (1)
Country | Link |
---|---|
JP (1) | JP5930946B2 (ja) |
Cited By (1)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
WO2024029946A1 (ko) * | 2022-08-03 | 2024-02-08 | 주식회사 프로키언 | 문제 풀이 영상 분석을 통한 맞춤형 수학 개념 제공 방법 및 장치 |
Families Citing this family (2)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
JP7624660B2 (ja) | 2021-08-23 | 2025-01-31 | 日本電信電話株式会社 | 予測装置、主観的印象予測方法、及びプログラム |
WO2023119658A1 (ja) * | 2021-12-24 | 2023-06-29 | 日本電信電話株式会社 | 推定方法、推定装置及び推定プログラム |
Family Cites Families (1)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
JP2007041988A (ja) * | 2005-08-05 | 2007-02-15 | Sony Corp | 情報処理装置および方法、並びにプログラム |
-
2012
- 2012-11-19 JP JP2012252982A patent/JP5930946B2/ja active Active
Cited By (1)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
WO2024029946A1 (ko) * | 2022-08-03 | 2024-02-08 | 주식회사 프로키언 | 문제 풀이 영상 분석을 통한 맞춤형 수학 개념 제공 방법 및 장치 |
Also Published As
Publication number | Publication date |
---|---|
JP2014102606A (ja) | 2014-06-05 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
JP6023685B2 (ja) | 感情情報表示制御装置、その方法及びプログラム | |
Celiktutan et al. | Multimodal human-human-robot interactions (mhhri) dataset for studying personality and engagement | |
Zhao et al. | Multi-modal multi-cultural dimensional continues emotion recognition in dyadic interactions | |
JP5437297B2 (ja) | 対話状態推定装置、方法、及びプログラム | |
Oertel et al. | A gaze-based method for relating group involvement to individual engagement in multimodal multiparty dialogue | |
CN112651334A (zh) | 机器人视频交互方法和系统 | |
Hung et al. | Investigating automatic dominance estimation in groups from visual attention and speaking activity | |
Mou et al. | Alone versus in-a-group: A multi-modal framework for automatic affect recognition | |
Wang et al. | Emp: Emotion-guided multi-modal fusion and contrastive learning for personality traits recognition | |
JP5930946B2 (ja) | 対話状態推定装置、対話状態推定方法、およびプログラム | |
CN111950481B (zh) | 图像中面部表情量化、识别方法及其装置、设备与介质 | |
Terrell et al. | A regression-based approach to modeling addressee backchannels | |
Kondo et al. | Siamese-structure deep neural network recognizing changes in facial expression according to the degree of smiling | |
US20210385212A1 (en) | System and method for assessing authenticity of a communication | |
Luo et al. | ReactFace: Online Multiple Appropriate Facial Reaction Generation in Dyadic Interactions | |
CN112055257B (zh) | 视频课堂的互动方法、装置、设备及存储介质 | |
Zhang et al. | A multi-stream recurrent neural network for social role detection in multiparty interactions | |
CN115376187A (zh) | 一种多人机交互场景下说话对象检测装置及方法 | |
JP6023684B2 (ja) | 感情情報表示制御装置、その方法及びプログラム | |
JP5840186B2 (ja) | 感情検索装置、方法及びプログラム | |
JP5931021B2 (ja) | 対人認知傾向モデル学習装置、対人認知状態推定装置、対人認知傾向モデル学習方法、対人認知状態推定方法及びプログラム | |
Yang et al. | Omni-Emotion: Extending Video MLLM with Detailed Face and Audio Modeling for Multimodal Emotion Analysis | |
Kumano et al. | Understanding communicative emotions from collective external observations | |
JP5909472B2 (ja) | 共感解釈推定装置、方法、プログラム | |
Tsihrintzis et al. | On improving visual-facial emotion recognition with audio-lingual and keyboard stroke pattern information |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
A621 | Written request for application examination |
Free format text: JAPANESE INTERMEDIATE CODE: A621 Effective date: 20141211 |
|
A977 | Report on retrieval |
Free format text: JAPANESE INTERMEDIATE CODE: A971007 Effective date: 20150917 |
|
A131 | Notification of reasons for refusal |
Free format text: JAPANESE INTERMEDIATE CODE: A131 Effective date: 20150929 |
|
A521 | Written amendment |
Free format text: JAPANESE INTERMEDIATE CODE: A523 Effective date: 20151120 |
|
TRDD | Decision of grant or rejection written | ||
A01 | Written decision to grant a patent or to grant a registration (utility model) |
Free format text: JAPANESE INTERMEDIATE CODE: A01 Effective date: 20160419 |
|
A61 | First payment of annual fees (during grant procedure) |
Free format text: JAPANESE INTERMEDIATE CODE: A61 Effective date: 20160426 |
|
R150 | Certificate of patent or registration of utility model |
Ref document number: 5930946 Country of ref document: JP Free format text: JAPANESE INTERMEDIATE CODE: R150 |