[go: up one dir, main page]

JP7192222B2 - 発話システム - Google Patents

発話システム Download PDF

Info

Publication number
JP7192222B2
JP7192222B2 JP2018042377A JP2018042377A JP7192222B2 JP 7192222 B2 JP7192222 B2 JP 7192222B2 JP 2018042377 A JP2018042377 A JP 2018042377A JP 2018042377 A JP2018042377 A JP 2018042377A JP 7192222 B2 JP7192222 B2 JP 7192222B2
Authority
JP
Japan
Prior art keywords
situation
emotion
unit
atmosphere
conversation
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Active
Application number
JP2018042377A
Other languages
English (en)
Other versions
JP2019158975A (ja
Inventor
圭介 岡本
俊樹 遠藤
聡彦 渡部
真 本多
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Toyota Motor Corp
Original Assignee
Toyota Motor Corp
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Toyota Motor Corp filed Critical Toyota Motor Corp
Priority to JP2018042377A priority Critical patent/JP7192222B2/ja
Priority to CN201910156944.0A priority patent/CN110246492A/zh
Priority to US16/294,081 priority patent/US20190279629A1/en
Publication of JP2019158975A publication Critical patent/JP2019158975A/ja
Application granted granted Critical
Publication of JP7192222B2 publication Critical patent/JP7192222B2/ja
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F40/00Handling natural language data
    • G06F40/20Natural language analysis
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V20/00Scenes; Scene-specific elements
    • G06V20/50Context or environment of the image
    • G06V20/59Context or environment of the image inside of a vehicle, e.g. relating to seat occupancy, driver state or inner lighting conditions
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V40/00Recognition of biometric, human-related or animal-related patterns in image or video data
    • G06V40/10Human or animal bodies, e.g. vehicle occupants or pedestrians; Body parts, e.g. hands
    • G06V40/16Human faces, e.g. facial parts, sketches or expressions
    • G06V40/174Facial expression recognition
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L15/00Speech recognition
    • G10L15/22Procedures used during a speech recognition process, e.g. man-machine dialogue
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L15/00Speech recognition
    • G10L15/22Procedures used during a speech recognition process, e.g. man-machine dialogue
    • G10L2015/223Execution procedure of a spoken command
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L15/00Speech recognition
    • G10L15/22Procedures used during a speech recognition process, e.g. man-machine dialogue
    • G10L2015/225Feedback of the input speech
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L15/00Speech recognition
    • G10L15/22Procedures used during a speech recognition process, e.g. man-machine dialogue
    • G10L2015/226Procedures used during a speech recognition process, e.g. man-machine dialogue using non-speech characteristics
    • G10L2015/227Procedures used during a speech recognition process, e.g. man-machine dialogue using non-speech characteristics of the speaker; Human-factor methodology
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L25/00Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00
    • G10L25/48Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00 specially adapted for particular use
    • G10L25/51Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00 specially adapted for particular use for comparison or discrimination
    • G10L25/63Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00 specially adapted for particular use for comparison or discrimination for estimating an emotional state

Landscapes

  • Engineering & Computer Science (AREA)
  • Health & Medical Sciences (AREA)
  • Physics & Mathematics (AREA)
  • Multimedia (AREA)
  • Human Computer Interaction (AREA)
  • Theoretical Computer Science (AREA)
  • Audiology, Speech & Language Pathology (AREA)
  • Computational Linguistics (AREA)
  • General Health & Medical Sciences (AREA)
  • General Physics & Mathematics (AREA)
  • Acoustics & Sound (AREA)
  • Oral & Maxillofacial Surgery (AREA)
  • Signal Processing (AREA)
  • Psychiatry (AREA)
  • Hospice & Palliative Care (AREA)
  • Child & Adolescent Psychology (AREA)
  • Artificial Intelligence (AREA)
  • General Engineering & Computer Science (AREA)
  • User Interface Of Digital Computer (AREA)

Description

本発明は、複数の人が存在する環境において、仮想オブジェクトや、ロボットなどの現実のオブジェクトの発話を制御する技術に関する。
特許文献1は、会議や授業に参加するロボットを開示する。このロボットは、複数のユーザから言動情報を取得して、適切なタイミングでユーザの言動を反映した言動を実行する。
特開2007-30050号公報
特許文献1に開示されるロボットは、その場に参加している参加者間の意思疎通を良好にすることを目的として、参加者の気持ちを代弁するように行動する。本発明者は、複数の人が存在する場の雰囲気に着目し、仮想オブジェクトや、ロボットなどの現実のオブジェクトの行動によって、場の雰囲気に良好な影響を与えられる可能性を見いだした。
本発明はこうした状況に鑑みてなされたものであり、その目的は、仮想オブジェクト又は現実のオブジェクトに、場の雰囲気に好影響を与えるような行動をさせる技術を提供することにある。
上記課題を解決するために、本発明のある態様の発話システムは、複数の人のそれぞれの感情を示す感情情報と、当該複数の人同士による会話状況から、当該複数の人の間の状況を示す状況値を取得する状況管理部と、状況管理部が取得した状況値にもとづいて、オブジェクトに発話させるか否かを決定する発話制御部とを備える。当該複数の人の間の状況を示す状況値は、当該複数の人が存在する場の雰囲気の良し悪しの程度を表現する値であってよい。オブジェクトは、仮想オブジェクト又は現実のオブジェクトであってよく、発話制御部は、仮想オブジェクト又は現実のオブジェクトの発話を制御する。現実のオブジェクトは、典型的にはロボットであるが、音声出力機能を有する機器であればよい。
この態様によると、発話制御部は、複数の人の間の状況を示す状況値にもとづいてオブジェクトの発話を制御することで、複数の人の間の状況を改善したり、または当該状況に対して良好な影響を与えることが可能となる。
話制御部は、場の雰囲気の良し悪しの程度にもとづいてオブジェクトの発話を制御することで、場の雰囲気を改善したり、または場の雰囲気に良好な影響を与えることが可能となる。
状況管理部は、各人の感情情報に加えて、当該複数の人同士による会話状況も用いて、当該複数の人の間の状況を示す状況値を取得してよい。これにより場の雰囲気の良し悪しの程度を、より客観的に取得できるようになる。
発話制御部は、状況値にもとづいて、オブジェクトに発話させるか否かを決定してよい。状況管理部が、場の雰囲気が悪いことを示す状況値を取得すると、発話制御部は、オブジェクトに発話させることを決定し、状況管理部が、場の雰囲気が良いことを示す状況値を取得すると、発話制御部は、オブジェクトに発話させないことを決定してよい。
本発明によれば、複数の人の間の状況に応じてオブジェクトの発話を制御する技術を提供することができる。
情報処理システムの概略構成を示す図である。 車室内の様子を示す図である。 情報処理システムの機能ブロックを示す図である。 撮影画像の一例を示す図である。 雰囲気評価テーブルの一例を示す図である。 (a)、(b)は、キャラクタの発話内容の例を示す図である。 (a)、(b)は、キャラクタの発話内容の別の例を示す図である。
実施形態の情報処理システムは、複数の人が乗車している車室内において各乗員の感情を推定し、各乗員の感情を示す感情情報から、複数の乗員の間の状況を示す状況値を取得する。この状況値は、車室内の雰囲気の良し悪しの程度を表現するものであってよく、情報処理システムは状況値にもとづいて、車載ディスプレイに表示される仮想オブジェクトの発話を制御する。したがって実施形態の情報処理システムは、仮想オブジェクトの発話を制御する「発話システム」を構成する。
実施形態では、仮想オブジェクトが、車室内の雰囲気の改善を目的として、乗員に対し発話するが、対象とする環境は車室内に限らず、複数の人同士が会話する会議室などの会話空間であってよく、会話空間は、複数の人同士がインターネットを通じて電子的に繋がる仮想的な空間であってもよい。また実施形態では、仮想オブジェクトが乗員に対して発話するが、発話は、ロボットなどの現実のオブジェクトによって行われてもよい。
図1は、実施形態の情報処理システム1の概略構成を示す。情報処理システム1は、車両2に搭載された車載機10と、インターネットなどのネットワーク5に接続されたサーバ装置3とを備える。サーバ装置3は、たとえばデータセンターに設置されて、車載機10から送信されるデータを処理する機能をもつ。車載機10は、基地局である無線局4との無線通信機能を有する端末装置であって、ネットワーク5経由でサーバ装置3と通信可能に接続できる。
情報処理システム1は、仮想オブジェクトであるキャラクタが車両2の乗員に対して発話する発話システムを構成し、キャラクタは、車室内の雰囲気に影響を与えるような言葉(発話内容)を音声出力する。たとえば乗員同士の会話中に、意見が対立して雰囲気が悪くなってしまったような場合に、キャラクタは、乗員の気分を和らげるような内容の発話を行って、場の雰囲気を改善するように努める。
発話システムは、各乗員の感情を推定して、各乗員の感情を示す感情情報を生成し、それぞれの感情情報から複数の乗員の間の状況を示す状況値を取得する。この状況値は、車室内の雰囲気の良し悪しの程度を表現する値であり、雰囲気の良し悪しを複数段階に分類したうちの1つの段階を示す値である。発話システムは状況値にもとづいて、キャラクタが発話するか否かを決定し、発話する場合には、その発話内容を決定する。特に状況値が雰囲気の悪いことを示す場合には、キャラクタが、雰囲気を改善させる発話内容を出力する。
各乗員の感情を推定する処理、推定した各乗員の感情から状況値を導出する処理、状況値にもとづいてオブジェクトの発話を制御する処理は、それぞれサーバ装置3および/または車載機10で実施されてよい。たとえば全ての処理が車載機10で実施されてもよく、また全ての処理がサーバ装置3で実施されてもよい。全ての処理がサーバ装置3で実施される場合には、オブジェクトからの発話処理のみが車載機10で実施される。なお感情推定処理には、画像分析や音声分析などの処理が必要であるため、感情推定処理のみがサーバ装置3で実施されて、残りの処理が車載機10で実施されてもよい。以下、これらの処理が主として車載機10で実施する場合について説明するが、実施形態の発話システムは、動作主体を車載機10に限定するものではない。
図2は、車室内の様子を示す。車載機10は、画像および音声を出力可能な出力部12を有する。出力部12は、車載ディスプレイ装置およびスピーカを含む。車載機10は、乗員に情報を提供するエージェントアプリケーションを実行し、エージェントアプリケーションは、仮想オブジェクトであるキャラクタ11から、乗員に情報を画像および/または音声で提供する。この例でキャラクタ11は顔画像で表現されており、キャラクタ11の発話内容はスピーカから音声出力され、さらに吹き出しの形式で車載ディスプレイ装置に表示されてもよい。なおキャラクタ11は顔画像に限らず、全身画像で表現されてもよく、さらに他の態様の画像で表現されてもよい。
実施形態でキャラクタ11は、乗員同士の間に形成される雰囲気に良好な影響を与えるように発話制御される。具体的にキャラクタ11は、乗員同士の意見が対立して、お互いに「怒り」の感情が強くなっている場合に、気持ちを静めさせるような発話を行って、雰囲気の改善に努める。車両2は、車室内を撮影するカメラ13と、車室内の音声を取得するマイク14とを備える。
図3は、情報処理システム1の機能ブロックを示す。情報処理システム1は、処理部20および記憶部18と、入出力インタフェースである出力部12、カメラ13、マイク14、車両センサ15、GPS(Global Positioning System, 全地球測位システム)受信機16および通信部17を備える。処理部20はCPUなどのプロセッサによって構成され、ナビゲーションアプリケーション(以下、「ナビアプリ」と呼ぶ)22、乗員状態管理部30、プロファイル取得部42、状況管理部50および発話制御部60の各機能を実施する。ナビアプリ22は、当日の運転距離や運転時間などの運転情報を、乗員状態管理部30に提供する。乗員状態管理部30、プロファイル取得部42、状況管理部50および発話制御部60は、エージェントアプリケーションの一機能を実現する構成であってよい。
乗員状態管理部30は、画像分析部32、音声分析部34、会話状況分析部36、車両データ分析部38および感情推定部40を有して、車室内の各乗員の感情を推定し、また複数の乗員同士による会話状況を評価する。状況管理部50は、乗員状態取得部52、会話状況取得部54および状況値取得部56を有する。発話制御部60は、発話判定部62および発話内容決定部64を有する。
図3に示す各種機能は、ハードウェア的には、回路ブロック、メモリ、その他のLSIで構成することができ、ソフトウェア的には、メモリにロードされたシステムソフトウェアやアプリケーションプログラムなどによって実現される。したがって、これらの機能が車載機10および/またはサーバ装置3において、ハードウェアのみ、ソフトウェアのみ、またはそれらの組合せによっていろいろな形で実現できることは当業者には理解されるところであり、いずれかに限定されるものではない。
カメラ13は車室内の乗員を撮影する。カメラ13は、車室全体を撮影できるようにバックミラーに取り付けられてよい。カメラ13による撮影画像は処理部20に供給されて、画像分析部32が、撮影画像を画像分析する。
図4は、カメラ13により撮影された撮影画像の一例を示す。ここでは2人が乗車しており、乗員Aが運転者、乗員Bが同乗者である。画像分析部32は、撮影画像に含まれる人を検出して、人の顔画像を抽出する。画像分析部32は、感情推定処理のために、乗員の顔画像を感情推定部40に供給する。このとき画像分析部32は、乗員Aの顔画像を、運転者であることを示す情報とともに感情推定部40に供給する。
なお記憶部18には、登録ユーザの顔画像の特徴量が記憶されている。画像分析部32は、記憶部18に記憶された登録ユーザの顔画像の特徴量を参照して、乗員A,Bの顔画像の認証処理を実行し、乗員A,Bが登録ユーザであるか否かを判定する。たとえば車両2がファミリーカーである場合、家族全員の顔画像の特徴量が記憶部18に記憶されていてよい。また車両2が社用車である場合、車両2を利用する社員の顔画像の特徴量が記憶部18に記憶されていてよい。
画像分析部32は、顔画像の特徴量と乗員A,Bの顔画像の特徴量とを比較して、乗員A、Bが登録ユーザであるか否かを判定する。画像分析部32は、乗員が登録ユーザであることを判定すると、乗員の顔画像を、登録ユーザの識別情報とともに感情推定部40に供給する。
マイク14は、車室内の乗員A,Bの会話を取得する。マイク14で取得された音声データは処理部20に供給されて、音声分析部34が、音声データを音声分析する。
音声分析部34は、話者認識機能を有して、乗員Aの音声データか、または乗員Bの音声データかを識別する。記憶部18には、乗員A,Bの音声テンプレートが登録されており、音声分析部34は、記憶部18に記憶された音声テンプレートと照合して、話者が誰であるかを特定する。
なお登録ユーザでない場合、記憶部18に乗員の音声テンプレートは登録されていないため、音声分析部34は、複数人の会話の中で、発言した話者を識別する話者識別機能を有して、発言と話者とを紐付ける。このとき画像分析部32は乗員の口が動いているタイミングを提供し、音声分析部34は、音声データのタイミングと同期させることで、運転者の発言であるか、同乗者の発言であるかを特定してよい。
また音声分析部34は音声信号処理機能を有して、音声データの話速、音量、声の抑揚、イントネーション、言葉遣いなどの情報を抽出する。また音声分析部34は音声認識機能を有して、音声データをテキストデータに変換する。音声分析部34は、これらの音声分析の結果を、感情推定処理のために感情推定部40に供給し、また乗員同士の会話状況の分析のために会話状況分析部36にも供給する。
会話状況分析部36は、自然言語処理機能を有し、音声分析結果による乗員A,Bの間の会話状況を分析する。会話状況分析部36は自然言語理解を実施して、乗員A,Bの会話が噛み合っているか否か、意見が対立しているか否か、一方のみが発言して他方が沈黙しているか、一方が適当に相槌のみをうっているか、などの会話状況を分析する。また話者の発話頻度や、声の大きさに差があるかなども会話状況として分析する。このような分析により会話状況分析部36は会話状況の良し悪しを評価し、具体的には会話状況の良し悪しを複数段階に分類したうちの現在の会話状況を示す評価値を決定し、記憶部18に記憶する。この評価値は、乗員A,Bの会話の状況に応じて変動する。
会話状況分析部36は、会話状況を、以下の5段階の評価値で評価する。
「非常に良い」
「良い」
「普通」
「悪い」
「非常に悪い」
なお、この評価は数値表現されてよく、たとえば「非常に良い」はレベル5、「良い」はレベル4、「普通」はレベル3、「悪い」はレベル2、「非常に悪い」はレベル1と設定されてよい。会話状況分析部36は乗員A,Bの間の会話状況を監視して、会話状況に変化があれば評価値を更新して、記憶部18に記憶する。以下、会話状況の評価例を示す。
乗員A,B間の会話が噛み合っており、両者が同様に高頻度で発話していれば、会話状況分析部36は会話状況を「非常に良い」と評価する。
乗員A,B間の会話が噛み合っており、一方の発話頻度が高く、一方で他方の発話頻度が低ければ、会話状況分析部36は会話状況を「良い」と評価する。
乗員A,B間の会話が噛み合っており、両者の発話頻度が低ければ、会話状況分析部36は会話状況を「普通」と評価する。
乗員A,B間の会話が所定時間以上、途切れている場合、会話状況分析部36は会話状況を「悪い」と評価する。
乗員A,B間で意見が対立している場合、会話状況分析部36は会話状況を「非常に悪い」と評価する。
なおプロファイル取得部42は、乗員A,Bのユーザ属性情報をサーバ装置3から取得する。ユーザ属性情報は、ユーザの発話の仕方、よく使う表現、話の聞き方などの情報を含んでよい。会話状況分析部36は、ユーザ属性情報も加味して、乗員間の会話状況を評価してよい。
たとえば乗員Aが、よく喋るタイプであり、乗員Bが物静かで、積極的に喋るタイプではないとする。このとき乗員Aが高い頻度で話して、乗員Bの発話頻度が低くなっていることは、乗員A,Bの間では非常に良い会話状況に該当する可能性が高い。このように会話状況分析部36は、各乗員のユーザ属性情報も参照して、乗員間の会話の状況を評価することで、乗員間の関係に応じた評価値を取得できるようになる。
会話状況分析部36が会話状況を評価すると、評価値を記憶部18に記憶する。なお会話状況は時々刻々と変化するものであるため、会話状況分析部36は、両者の会話を監視し続け、会話状況に変化があれば評価値を更新して、記憶部18に記憶する。会話状況の評価値は、状況管理部50によって、車室内の雰囲気の推定処理に利用される。
車両センサ15は、車両2に設けられた各種センサであって、たとえば速度センサ、加速度センサ、アクセルポジションセンサなどを含む。車両データ分析部38は、車両センサ15からセンサ検出値を取得して、運転者による運転状況を分析する。この分析結果は、運転者である乗員Aの感情を推定するために利用される。たとえば車両データ分析部38は、加速度センサの検出値により車両2の急加速や急制動を判定すると、この判定結果を感情推定部40に供給する。車両データ分析部38は、ナビアプリ22から現在までの運転時間などの情報を供給されて、運転者による運転状況を分析してもよい。たとえば運転開始から現在まで2時間以上が経過しているような場合、車両データ分析部38は、2時間以上運転していることを感情推定部40に伝えてよい。
感情推定部40は、車室内の乗員A,Bのそれぞれの感情を推定する。感情推定部40は、各乗員の感情を、画像分析部32により抽出された顔画像の表情、および音声分析部34による音声分析結果にもとづいて推定する。なお感情推定部40は、運転者である乗員Aの感情の推定処理に、さらに車両データ分析部38による運転状況分析結果も利用する。
感情推定部40は、怒り、楽しさ、悲しさ、驚き、疲れなどの感情指標のそれぞれについて指標値を導出することで、各乗員の感情を推定する。なお実施形態では乗員の感情を単純なモデルで推定し、感情推定部40は、各感情指標を2つの指標値で表現する。つまり「怒り」の指標値は、怒っているか、怒っていないかの2値をとり、また「楽しさ」の指標値は、楽しいか、楽しくないかの2値をとる。
感情推定部40は、画像分析部32により抽出された乗員の顔画像から表情を特定して、乗員の感情を推定する。従来より感情と表情との関係について様々な研究がされており、感情推定部40は、以下のように乗員の感情を推定してよい。
感情推定部40は、眉毛が左右とも引き下がり、上瞼はつり上がっている表情である場合、「怒っている」感情であることを推定する。
感情推定部40は、口角が両側で上がっている表情である場合、「楽しい」感情であることを推定する。
感情推定部40は、眉毛の下隅が上がり、上瞼が垂れ下がり、口唇の両端が下がっている表情である場合、「悲しい」感情であることを推定する。
感情推定部40は、眉毛が上がってアーチを描くように丸い形になり、上瞼も上がっている表情である場合、「驚いた」感情であることを推定する。
感情と表情の関係はデータベース化されて記憶部18に記憶されている。感情推定部40は、画像分析部32により抽出された乗員の顔画像から、データベース化された関係を参照して乗員の感情を推定し、感情情報を生成する。人の感情は時々刻々と変化するため、感情推定部40は乗員の表情の監視を継続して実行し、表情の変化を検出すると、表情にもとづく感情を示す感情情報を更新し、記憶部18に一時記憶する。
また感情推定部40は、音声分析部34により分析された乗員の音声分析結果から、乗員の感情を推定する。音声から感情を推定する様々な手法が提案されているが、感情推定部40は、機械学習等により構築された感情推定器を利用して、乗員の音声から感情を推定してよい。また感情推定部40は、音声特徴の変化から感情を推定してもよく、いずれにしても既知の手法を用いて、乗員の音声にもとづく感情を示す感情情報を生成し、記憶部18に一時記憶する。
なおプロファイル取得部42がユーザ属性情報を取得することを説明したが、ユーザ属性情報には、ユーザの感情に対応する表情や音声情報などの感情推定のためのデータが含まれてよい。この場合、感情推定部40は、ユーザ属性情報を参照して、ユーザの感情を高精度に推定し、感情情報を生成してよい。
以上のようにして感情推定部40は、乗員の顔の表情から乗員の感情を推定し、また乗員の発話音声から乗員の感情を推定する。感情推定部40は、顔の表情にもとづく系統で推定した感情情報と、発話音声にもとづく系統で生成した感情情報のそれぞれに、推定の確からしさを示す情報を付加する。
感情推定部40は、両系統で推定された感情情報が一致していれば、その感情情報を状況管理部50に通知する。なお感情推定部40は、両系統の感情情報が一致していなければ、各系統の感情情報に付加された確からしさを参照して、確からしさの高い感情情報を選択してよい。また感情推定部40は、運転者である乗員Aの感情を、車両データ分析部38による運転状況分析結果を加味して推定してもよい。たとえば運転時間が長時間に及んでいたり、また急加速や急制動が高頻度に検出されている場合には、感情推定部40は、乗員Aが疲れていることを推定する。運転状況分析結果にもとづく系統で推定した感情情報にも確からしさを示す情報が付加されて、感情推定部40は、複数系統で推定された感情情報のうち、確からしさの高い感情情報を選択することで乗員の感情情報を決定し、状況管理部50に通知する。なお各系統で推定された感情情報に変化があると、感情推定部40は、あらためて複数系統の感情情報から1つを選択して、決定した感情情報を状況管理部50に通知する。
状況管理部50において、乗員状態取得部52は、感情推定部40で推定された各乗員の状態、この例では各乗員の感情を示す感情情報を取得する。状況値取得部56は、各乗員の感情情報から、複数の乗員間の状況を示す状況値を生成して取得する。
実施形態において、状況値取得部56が取得する状況値は、複数の乗員が存在する場の雰囲気、つまり車室内の雰囲気の良し悪しの程度を表現する値である。状況値取得部56は、少なくとも各乗員の感情情報にもとづいて、車室内の雰囲気の良し悪しの程度を表現する状況値を取得する。
実施形態で会話状況取得部54は、会話状況分析部36で分析された乗員間の会話状況の評価値を取得し、状況値取得部56は、各乗員の感情情報だけでなく、会話状況の評価値も加味して、場の雰囲気に関する状況値を取得してよい。
状況値取得部56は、雰囲気評価テーブルにしたがって、雰囲気の評価値を取得する。雰囲気評価テーブルは、各乗員の感情情報と会話状況との組合せに、雰囲気の評価値を対応付けており、記憶部18に記憶されている。
図5は、雰囲気評価テーブルの一例を示す。場の雰囲気は、雰囲気評価テーブルにしたがって、以下の5段階の評価値で評価される。
「非常に良い」
「良い」
「普通」
「悪い」
「非常に悪い」
なお図5には、運転者の感情と1名の同乗者の感情と会話状況の組合せが示されているが、実際の雰囲気評価テーブルは、運転者の感情と2名以上の同乗者の感情と会話状況の組合せに、雰囲気の評価値を対応付けて構成されている。
図5に示す雰囲気の評価値について説明する。
乗員Aの感情が「楽しい」、乗員Bの感情が「楽しい」と推定され、会話状況が「非常に良い」と評価されている場合、状況値取得部56は、雰囲気が「非常に良い」とする評価値を取得する。
乗員Aの感情が「楽しい」、乗員Bの感情が「楽しい」と推定され、会話状況が「悪い」と評価されている場合、状況値取得部56は、雰囲気が「普通」とする評価値を取得する。会話状況は、乗員間の会話が所定時間以上途切れると「悪い」と評価されるが、乗員A,Bの感情がともに「楽しい」と推定されているのであれば、場の雰囲気は「普通」と評価される。
乗員Aの感情が「疲れている」、乗員Bの感情が「楽しい」と推定され、会話状況が「悪い」と評価されている場合、状況値取得部56は、雰囲気が「悪い」とする評価値を取得する。たとえば乗員Aの運転が長時間に及び、会話も所定時間以上途切れている場合には、乗員Bの感情が「楽しい」と推定されていても、場の雰囲気は「悪い」と評価される。
乗員Aの感情が「疲れている」、乗員Bの感情が「楽しい」と推定され、会話状況が「普通」と評価されている場合、状況値取得部56は、雰囲気が「普通」とする評価値を取得する。たとえば乗員Aの運転が長時間に及んでいるが、両者の会話が噛み合っている場合には、乗員Aの感情が「疲れている」と推定されていても、場の雰囲気は「普通」と評価される。
乗員Aの感情が「悲しい」、乗員Bの感情が「怒っている」と推定され、会話状況が「非常に悪い」と評価されている場合、状況値取得部56は、雰囲気が「非常に悪い」とする評価値を取得する。また乗員Aの感情が「驚いている」、乗員Bの感情が「怒っている」と推定され、会話状況が「非常に悪い」と評価されている場合、状況値取得部56は、雰囲気が「非常に悪い」とする評価値を取得する。また乗員Aの感情が「怒っている」、乗員Bの感情が「怒っている」と推定され、会話状況が「非常に悪い」と評価されている場合、状況値取得部56は、雰囲気が「非常に悪い」とする評価値を取得する。
図5に示す雰囲気評価テーブルでは、乗員の1人の感情が「怒っている」と推定されるか、または会話状況が「非常に悪い」と評価されているケースでは、雰囲気の評価値が「非常に悪い」となるように定義されている。しかしながら、このようなケースに限らず、乗員A,B間で議論を楽しんでいるような場合、意見が対立しているために会話状況は「非常に悪い」と評価されるが、乗員A,Bの感情が「楽しい」と推定されていれば、雰囲気の評価値が「普通」となるように定義されてもよい。
雰囲気評価テーブルは、ベイジアンネットワークにより過去の感情情報や会話状況などをもとに作成されてよく、また他の機械学習の手法を用いて作成されてもよい。
以上のように状況値取得部56は状況値(雰囲気の評価値)を取得し、雰囲気の評価値を記憶部18に記憶する。発話制御部60は、状況値取得部56が取得した状況値にもとづいて、仮想オブジェクトであるキャラクタ11の発話を制御する。
具体的に発話判定部62は、状況値にもとづいて、キャラクタ11に発話させるか否かを決定する。ここで発話判定部62は、状況値が場の雰囲気が悪いことを示していれば、キャラクタ11に発話させることを決定する。一方で発話判定部62は、状況値が場の雰囲気が良いことを示していれば、キャラクタ11に発話させないことを決定する。
雰囲気の状況値は、「非常に良い」、「良い」、「普通」、「悪い」、「非常に悪い」のいずれかの評価値をとるが、「非常に良い」、「良い」の評価値は、場の雰囲気が良いことを示し、「悪い」、「非常に悪い」の評価値は、場の雰囲気が悪いことを示す。したがって発話判定部62は、状況値が「悪い」または「非常に悪い」であれば、キャラクタ11に発話させることを決定し、状況値が「非常に良い」または「良い」であれば、キャラクタ11に発話させないことを決定する。なお状況値が「普通」である場合、発話判定部62は、キャラクタ11に発話させることを決定してもよい。
実施形態で発話判定部62は、状況値が「普通」、「悪い」、「非常に悪い」のいずれかであれば、場の雰囲気をよりよい方向に向かわせるように、キャラクタ11に発話させるようにする。発話判定部62がキャラクタ11に発話させることを判定すると、発話内容決定部64が、場の雰囲気に応じた発話内容を決定する。なお発話内容決定部64は、キャラクタ11の発話内容を決定する際に、プロファイル取得部42が取得した各乗員のユーザ属性情報を参照することで、その場に適した発話内容を決定してよい。なおプロファイル取得部42は、乗員間の関係性等も示すグループ属性情報を取得し、発話内容決定部64が、グループ属性情報を参照して、発話内容を決定できてもよい。グループ属性情報は、たとえば乗員A,Bが家族である、または上司部下の関係にある、などといった情報である。またグループ属性情報には、乗員A,Bの関係性とともに、過去の会話の履歴等が含まれてもよい。
一方で、発話判定部62は、状況値が「非常に良い」、「良い」のいずれかであれば、既によい雰囲気が作り上げられているため、キャラクタ11を場に介入させる必要性に乏しいことから、キャラクタ11に発話させないようにする。
以下、シーンにおける各乗員の感情、会話の状況、雰囲気の状況と、キャラクタ11の発話内容を例示する。
図6(a)、(b)は、キャラクタ11の発話内容の例を示す。なお、ここでは車載ディスプレイ装置において、キャラクタ11の発話内容が吹き出しの形式で表示されている様子を示しているが、キャラクタ11の発話内容はスピーカから出力されて、乗員がキャラクタ11を見ていなくても、キャラクタ11の発話内容を聞き取れることが好ましい。
この例は、ドライブ中に乗員Bが突然怒り出し、乗員Aは、その理由が分からず、驚いて右往左往しているシーンを想定している。会話の状況、雰囲気ともに、非常に悪い。
発話内容決定部64は、乗員A,Bのユーザ属性情報から、今日が乗員Bの誕生日であることを突き止める。そこで発話内容決定部64は、キャラクタ11に「Aさん、今日は何月何日ですか」と問いかけさせ、乗員Aが自分で、今日が乗員Bの誕生日であることを気付かせるようにする。
それでも乗員Aが気付かなければ、発話内容決定部64は、さらにキャラクタ11に「今日はBさんの大事な日ですよ」と発話させ、乗員Aにヒントを与える。これにより乗員Aは、今日が乗員Bの誕生日であることに気づく。このようにキャラクタ11に介入させることで、その後は乗員間の会話の状況も良くなり、雰囲気が改善されることが期待される。
図7(a)、(b)は、キャラクタ11の発話内容の別の例を示す。ここでもキャラクタ11の発話内容が吹き出しの形式で表示されているが、キャラクタ11の発話内容はスピーカから出力される。
この例は、ドライブ中に乗員A,Bが何を食べたいかで対立し、お互いに収まりがつかず、怒っているシーンを想定している。会話の状況、雰囲気ともに、非常に悪い。
発話内容決定部64は、まずは2人を落ち着かせるべく、2人の主張を整理して、キャラクタ11に「Aさんはお肉が食べたくて、Bさんはお魚が食べたいんですね」と発話させる。そこで乗員A,Bが同意する言動をとると、発話内容決定部64は、ナビアプリ22から肉と魚を提供する近くのレストラン情報を取得して、キャラクタ11「それでは近くにあるABCレストランはいかがでしょう。お肉もお魚もあります。」と発話させる。このように発話内容決定部64は、2人の雰囲気が悪ければ、その雰囲気を改善させるために、キャラクタ11を、その場に介入させるようにする。
なお発話内容決定部64は、乗員A,Bの過去の会話の履歴を参照して、キャラクタ11に「前回はAさんの意見で焼き肉屋さんに行きましたから、今回はBさんの行きたい魚料理屋さんにしませんか」と発話させてもよい。また発話内容決定部64は、乗員Aのユーザ属性情報を参照して、キャラクタ11に「Aさんは、特定のお魚にアレルギーがあるんですよね」と発話させて、乗員Bに、乗員Aがアレルギー持ちであることを知らせるようにしてもよい。特に乗員同士が上司部下の関係にあるような場合に、部下は上司に言いづらいところもあるため、発話内容決定部64は、角が立たないように、部下が言いづらい内容をキャラクタ11に代弁させてもよい。
以上、実施形態をもとに本発明を説明した。実施形態はあくまでも例示であり、各構成要素や各処理プロセスの組合せにいろいろな変形例が可能なこと、またそうした変形例も本発明の範囲にあることは当業者に理解されるところである。実施形態では、発話機能を有する仮想オブジェクトを示したが、オブジェクトはロボットなどの現実のオブジェクトであってもよい。
実施形態では、乗員状態管理部30の各機能が、車載機10に搭載されることを説明したが、サーバ装置3に備えられてもよい。この場合、車両2において取得されるカメラ13の撮影画像、マイク14の音声データ、車両センサ15の検出値、GPS受信機16の位置情報が通信部17からサーバ装置3に送信されて、サーバ装置3が、車室内の各乗員の感情を推定し、また複数の乗員同士による会話状況を判断して、感情情報および会話状況を車両2に送信する。
1・・・情報処理システム、2・・・車両、3・・・サーバ装置、10・・・車載機、11・・・キャラクタ、12・・・出力部、18・・・記憶部、20・・・処理部、30・・・乗員状態管理部、32・・・画像分析部、34・・・音声分析部、36・・・会話状況分析部、38・・・車両データ分析部、40・・・感情推定部、42・・・プロファイル取得部、50・・・状況管理部、52・・・乗員状態取得部、54・・・会話状況取得部、56・・・状況値取得部、60・・・発話制御部、62・・・発話判定部、64・・・発話内容決定部。

Claims (2)

  1. 複数の人のそれぞれの感情を示す感情情報と、当該複数の人同士による会話状況から、当該複数の人の間の状況を示す状況値を取得する状況管理部と、
    前記状況管理部が取得した状況値にもとづいて、オブジェクトに発話させるか否かを決定する発話制御部と、を備え、
    当該複数の人の間の状況を示す状況値は、当該複数の人が存在する場の雰囲気の良し悪しの程度を表現する値であ
    前記状況管理部が、場の雰囲気が悪いことを示す状況値を取得すると、前記発話制御部は、オブジェクトに発話させることを決定し、
    前記状況管理部が、場の雰囲気が良いことを示す状況値を取得すると、前記発話制御部は、オブジェクトに発話させないことを決定する、
    ことを特徴とする発話システム。
  2. オブジェクトは、仮想オブジェクト又は現実のオブジェクトである、
    ことを特徴とする請求項1に記載の発話システム。
JP2018042377A 2018-03-08 2018-03-08 発話システム Active JP7192222B2 (ja)

Priority Applications (3)

Application Number Priority Date Filing Date Title
JP2018042377A JP7192222B2 (ja) 2018-03-08 2018-03-08 発話システム
CN201910156944.0A CN110246492A (zh) 2018-03-08 2019-03-01 话语系统
US16/294,081 US20190279629A1 (en) 2018-03-08 2019-03-06 Speech system

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
JP2018042377A JP7192222B2 (ja) 2018-03-08 2018-03-08 発話システム

Publications (2)

Publication Number Publication Date
JP2019158975A JP2019158975A (ja) 2019-09-19
JP7192222B2 true JP7192222B2 (ja) 2022-12-20

Family

ID=67843381

Family Applications (1)

Application Number Title Priority Date Filing Date
JP2018042377A Active JP7192222B2 (ja) 2018-03-08 2018-03-08 発話システム

Country Status (3)

Country Link
US (1) US20190279629A1 (ja)
JP (1) JP7192222B2 (ja)
CN (1) CN110246492A (ja)

Families Citing this family (8)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN108428446B (zh) * 2018-03-06 2020-12-25 北京百度网讯科技有限公司 语音识别方法和装置
CN110998725B (zh) * 2018-04-19 2024-04-12 微软技术许可有限责任公司 在对话中生成响应
JP2020060830A (ja) * 2018-10-05 2020-04-16 本田技研工業株式会社 エージェント装置、エージェント提示方法、およびプログラム
US10908677B2 (en) * 2019-03-25 2021-02-02 Denso International America, Inc. Vehicle system for providing driver feedback in response to an occupant's emotion
US11170800B2 (en) * 2020-02-27 2021-11-09 Microsoft Technology Licensing, Llc Adjusting user experience for multiuser sessions based on vocal-characteristic models
JP7532963B2 (ja) 2020-07-08 2024-08-14 株式会社Jvcケンウッド 画像処理装置および画像処理方法
US20220036554A1 (en) * 2020-08-03 2022-02-03 Healthcare Integrated Technologies Inc. System and method for supporting the emotional and physical health of a user
WO2023073856A1 (ja) * 2021-10-28 2023-05-04 パイオニア株式会社 音声出力装置、音声出力方法、プログラム及び記憶媒体

Citations (9)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2001215993A (ja) 2000-01-31 2001-08-10 Sony Corp 対話処理装置および対話処理方法、並びに記録媒体
JP2004048570A (ja) 2002-07-15 2004-02-12 Nissan Motor Co Ltd 車載情報提供装置
JP2011186521A (ja) 2010-03-04 2011-09-22 Nec Corp 感情推定装置および感情推定方法
JP2012133530A (ja) 2010-12-21 2012-07-12 Denso Corp 車載装置
JP2015088108A (ja) 2013-11-01 2015-05-07 株式会社ユピテル システム及びプログラム
JP2017009826A (ja) 2015-06-23 2017-01-12 トヨタ自動車株式会社 グループ状態判定装置およびグループ状態判定方法
JP2017167797A (ja) 2016-03-16 2017-09-21 富士ゼロックス株式会社 ロボット制御システム
JP2018063486A (ja) 2016-10-11 2018-04-19 本田技研工業株式会社 サービス提供装置、サービス提供方法およびサービス提供プログラム
US20180373547A1 (en) 2017-06-21 2018-12-27 Rovi Guides, Inc. Systems and methods for providing a virtual assistant to accommodate different sentiments among a group of users by correlating or prioritizing causes of the different sentiments

Family Cites Families (5)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US20090210476A1 (en) * 2008-02-19 2009-08-20 Joseph Arie Levy System and method for providing tangible feedback according to a context and personality state
CN101917585A (zh) * 2010-08-13 2010-12-15 宇龙计算机通信科技(深圳)有限公司 调节视频电话向对端发送的视频信息的方法、装置及终端
CN103745575B (zh) * 2014-01-10 2016-04-20 宁波多尔贝家居制品实业有限公司 一种家庭气氛调节装置及其工作控制方法
CN105991847B (zh) * 2015-02-16 2020-11-20 北京三星通信技术研究有限公司 通话方法和电子设备
JP6866715B2 (ja) * 2017-03-22 2021-04-28 カシオ計算機株式会社 情報処理装置、感情認識方法、及び、プログラム

Patent Citations (9)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2001215993A (ja) 2000-01-31 2001-08-10 Sony Corp 対話処理装置および対話処理方法、並びに記録媒体
JP2004048570A (ja) 2002-07-15 2004-02-12 Nissan Motor Co Ltd 車載情報提供装置
JP2011186521A (ja) 2010-03-04 2011-09-22 Nec Corp 感情推定装置および感情推定方法
JP2012133530A (ja) 2010-12-21 2012-07-12 Denso Corp 車載装置
JP2015088108A (ja) 2013-11-01 2015-05-07 株式会社ユピテル システム及びプログラム
JP2017009826A (ja) 2015-06-23 2017-01-12 トヨタ自動車株式会社 グループ状態判定装置およびグループ状態判定方法
JP2017167797A (ja) 2016-03-16 2017-09-21 富士ゼロックス株式会社 ロボット制御システム
JP2018063486A (ja) 2016-10-11 2018-04-19 本田技研工業株式会社 サービス提供装置、サービス提供方法およびサービス提供プログラム
US20180373547A1 (en) 2017-06-21 2018-12-27 Rovi Guides, Inc. Systems and methods for providing a virtual assistant to accommodate different sentiments among a group of users by correlating or prioritizing causes of the different sentiments

Also Published As

Publication number Publication date
CN110246492A (zh) 2019-09-17
US20190279629A1 (en) 2019-09-12
JP2019158975A (ja) 2019-09-19

Similar Documents

Publication Publication Date Title
JP7192222B2 (ja) 発話システム
JP7091807B2 (ja) 情報提供システムおよび情報提供方法
JP6466385B2 (ja) サービス提供装置、サービス提供方法およびサービス提供プログラム
US20160379643A1 (en) Group Status Determining Device and Group Status Determining Method
US10614203B2 (en) Robot-human interactive device which performs control for authenticating a user, robot, interaction method, and recording medium storing program
JP6713490B2 (ja) 情報提供装置及び情報提供方法
JP6382273B2 (ja) 施設満足度算出装置
JP2017009825A (ja) 会話状況分析装置および会話状況分析方法
US10592997B2 (en) Decision making support device and decision making support method
JP2018205211A (ja) 情報提供装置及び情報提供方法
CN109302486B (zh) 一种根据车内环境推送音乐的方法和系统
CN112307816B (zh) 车内图像获取方法、装置以及电子设备、存储介质
CN115088033A (zh) 代表对话中的人参与者生成的合成语音音频数据
JP2019101472A (ja) 感情推定装置
JP2018200192A (ja) 地点提案装置及び地点提案方法
JP2018133696A (ja) 車載装置、コンテンツ提供システムおよびコンテンツ提供方法
JP2019101805A (ja) 対話システム
JP6785889B2 (ja) サービス提供装置
CN113850106A (zh) 车辆及其控制方法
CN111866382A (zh) 用于采集图像的方法、电子设备及计算机可读存储介质
JP2006313287A (ja) 音声対話装置
US20250058726A1 (en) Voice assistant optimization dependent on vehicle occupancy
CN119317956A (zh) 情绪感知语音助理
WO2023031640A1 (ja) 情報処理システム及び情報処理方法
CN119768846A (zh) 基于语义情境的头像面部表情

Legal Events

Date Code Title Description
A621 Written request for application examination

Free format text: JAPANESE INTERMEDIATE CODE: A621

Effective date: 20201026

A977 Report on retrieval

Free format text: JAPANESE INTERMEDIATE CODE: A971007

Effective date: 20210727

A131 Notification of reasons for refusal

Free format text: JAPANESE INTERMEDIATE CODE: A131

Effective date: 20210810

A521 Request for written amendment filed

Free format text: JAPANESE INTERMEDIATE CODE: A523

Effective date: 20210927

A131 Notification of reasons for refusal

Free format text: JAPANESE INTERMEDIATE CODE: A131

Effective date: 20220104

A521 Request for written amendment filed

Free format text: JAPANESE INTERMEDIATE CODE: A523

Effective date: 20220228

A02 Decision of refusal

Free format text: JAPANESE INTERMEDIATE CODE: A02

Effective date: 20220524

A521 Request for written amendment filed

Free format text: JAPANESE INTERMEDIATE CODE: A523

Effective date: 20220819

C60 Trial request (containing other claim documents, opposition documents)

Free format text: JAPANESE INTERMEDIATE CODE: C60

Effective date: 20220819

A911 Transfer to examiner for re-examination before appeal (zenchi)

Free format text: JAPANESE INTERMEDIATE CODE: A911

Effective date: 20220906

C21 Notice of transfer of a case for reconsideration by examiners before appeal proceedings

Free format text: JAPANESE INTERMEDIATE CODE: C21

Effective date: 20220913

TRDD Decision of grant or rejection written
A01 Written decision to grant a patent or to grant a registration (utility model)

Free format text: JAPANESE INTERMEDIATE CODE: A01

Effective date: 20221108

A61 First payment of annual fees (during grant procedure)

Free format text: JAPANESE INTERMEDIATE CODE: A61

Effective date: 20221121

R151 Written notification of patent or utility model registration

Ref document number: 7192222

Country of ref document: JP

Free format text: JAPANESE INTERMEDIATE CODE: R151