JP2019074498A

JP2019074498A - 運転支援装置

Info

Publication number: JP2019074498A
Application number: JP2017202838A
Authority: JP
Inventors: 晋大須賀; Susumu Osuga; 博幸森▲崎▼; Hiroyuki Morisaki; 和久永石; Kazuhisa Nagaishi; 教英北岡; Norihide Kitaoka; 哲嗣田村; Tetsutsugu Tamura
Original assignee: Aisin Seiki Co Ltd
Current assignee: Aisin Corp
Priority date: 2017-10-19
Filing date: 2017-10-19
Publication date: 2019-05-16

Abstract

【課題】一例として、よりスムーズに乗員と対話可能な運転支援装置を提供する。【解決手段】実施形態にかかる運転支援装置は、乗員に対して音声を出力する音声出力部と、車内を撮像する撮像装置の撮像画像に含まれる乗員の画像を取得する取得部と、取得部の取得結果に含まれる乗員の動作や状態に基づいて、音声の出力を中断するか否かを判断する判断部と、を備える。音声出力部は、判断部が、音声の出力を中断すると判断した場合に、音声の出力を中断する。【選択図】図４

Description

本発明の実施形態は、運転支援装置に関する。

従来、音声ガイダンスを出力し、乗員（ユーザ）の応答を音声認識することによって、乗員との対話を行う運転支援装置が知られている。また、ユーザと対話を行うシステムにおいて、システムから音声ガイダンスが出力されている途中で、ユーザの音声によるバージイン（割り込み）を行うことが可能な技術が知られている。

特開２００４−１６３５４１号公報

しかしながら、従来技術においては、乗員と運転支援装置との対話を、よりスムーズに行うことが望まれていた。

本発明の実施形態にかかる運転支援装置は、一例として、乗員に対して音声を出力する音声出力部と、車内を撮像する撮像装置の撮像画像に含まれる乗員の画像を取得する取得部と、取得部の取得結果に含まれる乗員の動作や状態に基づいて、音声の出力を中断するか否かを判断する判断部と、を備える。音声出力部は、判断部が、音声の出力を中断すると判断した場合に、音声の出力を中断する。このため、実施形態の運転支援装置によれば、乗員の動作や状態に基づいて、音声の出力を中断するため、例えば、よりスムーズに乗員と対話することができる。

上記運転支援装置では、一例として、所定の動作は、発話の動作、承認の意思を表す動作、否定の意思を表す動作、保留の意思を表す動作、または、出力された音声が聞き取れないことを表す動作のいずれかである。このため、実施形態にかかる運転支援装置によれば、乗員の意思を踏まえて音声を中断することにより、例えば、乗員にとって不要な音声の出力を抑制できる。これにより、実施形態にかかる運転支援装置によれば、よりスムーズに乗員と対話することができる。

上記運転支援装置では、一例として、乗員が承認の意思を表す動作をしていると判断された場合、出力された音声の承認に対応する処理を実行する対話制御部、をさらに備える。よって、実施形態にかかる運転支援装置によれば、例えば、乗員の意思を確認した上で、乗員の意思に沿った後続の処理を、迅速に開始することができる。このため、実施形態にかかる運転支援装置によれば、例えば、対話に要する時間を短縮し、よりスムーズに乗員との対話を行うことができる。

上記運転支援装置では、一例として、乗員が否定の意思を表す動作をしていると判断された場合、出力された音声の否定に対応する処理を実行する対話制御部、をさらに備える。よって、実施形態にかかる運転支援装置によれば、例えば、乗員の意思を確認した上で、乗員の意思に沿った後続の処理を、迅速に開始することができる。このため、実施形態にかかる運転支援装置によれば、例えば、対話に要する時間を短縮し、よりスムーズに乗員との対話を行うことができる。

上記運転支援装置では、一例として、音声出力部が出力した音声に対して乗員が発話する音声を認識する音声認識部、をさらに備える。また、乗員が保留の意思を表す動作をしていると判断された場合、音声認識部は、乗員が発話する音声の認識時間を延長する。よって、実施形態にかかる運転支援装置によれば、乗員が意思決定を行うまで待つことができ、乗員が回答するペースに合わせて対話を行うことができる。

上記運転支援装置では、一例として、乗員が保留の意思を表す動作をしていると判断された場合、音声出力部は、乗員が保留の意思を表す動作をしていると判断された際に出力していた音声と異なる音声を出力する。よって、実施形態にかかる運転支援装置によれば、当初出力された音声の内容とは異なる選択肢を提示することによって、乗員の意思決定を支援することができる。

上記運転支援装置では、一例として、乗員が音声が聞き取れないことを表す動作をしていると判断された場合、音声出力部は、乗員が音声が聞き取れないことを表す動作をしていると判断された際に出力していた音声を再度出力する。よって、実施形態にかかる運転支援装置によれば、乗員が聞き取れなかった音声を再度出力することにより、乗員との対話を円滑に行うことができる。

図１は、実施形態にかかる車両の車室の一部が透視された状態が示された例示的な斜視図である。図２は、実施形態にかかる撮像装置の配置の一例を示す図である。図３は、実施形態にかかる運転支援システムのハードウェア構成の一例を示す図である。図４は、実施形態にかかるＥＣＵが有する機能の一例を示すブロック図である。図５は、実施形態にかかる対話制御処理の手順の一例を示すフローチャートである。図６は、実施形態にかかるＥＣＵによる音声ガイダンスと、乗員との対話の一例を示す図である。図７は、実施形態にかかる乗員の承認の意思を表す動作の一例を示す図である。図８は、実施形態にかかる乗員の否定の意思を表す動作の一例を示す図である。図９は、実施形態にかかる乗員の発話の動作の一例を示す図である。図１０は、実施形態にかかる出力された音声が聞き取れないことを表す動作の一例を示す図である。図１１は、変形例４にかかる保留に対応する処理の一例を示す図である。

本実施形態においては、乗員の動作に応じて運転支援装置が音声の出力を中断することにより、乗員と運転支援装置とがよりスムーズに対話することができる。以下、本実施形態の運転支援装置を車両に搭載した例を挙げて説明する。

図１は、本実施形態にかかる車両１の車室２ａの一部が透視された状態が示された例示的な斜視図である。車両１は、例えば、内燃機関自動車であってもよいし、電気自動車や燃料電池自動車、ハイブリッド自動車等であってもよいし、他の駆動源を備えた自動車であってもよい。また、車両１は、種々の変速装置を搭載することができるし、内燃機関や電動機を駆動するのに必要な種々の装置、例えばシステムや部品等を搭載することができる。

また、図１に例示されるように、車両１は、例えば、四輪自動車であり、左右２つの前輪３Ｆと、左右２つの後輪３Ｒとを有する。これら４つの車輪３は、いずれも転舵可能に構成されうる。車両１における車輪３の駆動に関わる装置の方式や、数、レイアウト等は、種々に設定することができる。

図１に例示されるように、車体２は、不図示の乗員が乗車する車室２ａを構成している。車室２ａ内には、乗員としての運転者の座席４０ａ（運転席）に臨む状態で、操舵部４や、加速操作部５、制動操作部６、変速操作部７等が設けられている。

操舵部４は、例えば、ダッシュボード１２から突出したステアリングホイール（ハンドル）である。また、加速操作部５は、例えば、運転者の足下に位置されたアクセルペダルである。また、制動操作部６は、例えば、運転者の足下に位置されたブレーキペダルである。また、変速操作部７は、例えば、センターコンソールから突出したシフトレバーである。なお、操舵部４や、加速操作部５、制動操作部６、変速操作部７は、これらに限定されるものではない。

また、車室２ａ内には、モニタ装置１１が設けられている。モニタ装置１１には、表示装置（図３に図示）や、音声出力装置（図３に図示）が設けられている。音声出力装置は、例えば、スピーカである。また、表示装置は、例えば、ＬＣＤ（liquid crystal display）や、ＯＥＬＤ（organic electroluminescent display）等である。また、表示装置は、例えば、タッチパネル等、透明な操作入力部（図３に図示）で覆われている。また、モニタ装置１１とは異なる車室２ａ内の他の位置に、不図示の音声出力装置が設けられても良い。なお、モニタ装置１１は、例えば、ナビゲーションシステムやオーディオシステムと兼用されうる。

また、車体２の天井には、音声入力部２４が設けられている。音声入力部２４は例えばマイクであり、車室２ａ内の乗員の音声を入力可能である。図１に示す音声入力部２４の設置位置は一例であり、これに限定されるものではない。

また、操舵部４とダッシュボード１２とを接続するハンドルコラム（図２に図示）には、車両１の車内を撮像する撮像装置１５が設置されている。この撮像装置１５は、例えば、ＣＣＤ（Charge Coupled Device）カメラ等である。

図２は、本実施形態にかかる撮像装置１５の配置の一例を示す図である。本実施形態においては、撮像装置１５は、ハンドルコラム４１に設置されている。撮像装置１５は、座席４０ａに着座する乗員４２の顔が、視野中心に位置するように、視野角及び姿勢が調整されている。この撮像装置１５は、車両１の車内を撮像し、撮像により得た画像データである撮像画像を、後述するＥＣＵへ順次出力する。

図２に示す撮像装置１５の設置位置は一例であり、これに限定されるものではない。例えば、撮像装置１５は、ダッシュボード１２の上や、モニタ装置１１等に設けられた広角カメラであっても良い。

図３は、本実施形態にかかる運転支援システム１０のハードウェア構成の一例を示す図である。図３に示すように、車両１に搭載された運転支援システム１０では、ＥＣＵ１４や、モニタ装置１１等の他、ブレーキシステム１８、舵角センサ１９（角度センサ）、アクセルセンサ２０、シフトセンサ２１、車輪速センサ２２、操舵システム１３、音声入力部２４等が、電気通信回線としての車内ネットワーク２３を介して電気的に接続されている。車内ネットワーク２３は、例えば、ＣＡＮ（controller area network）として構成される。なお、音声入力部２４は車内ネットワーク２３を介さずに、直接ＥＣＵ１４と接続する構成を採用しても良い。

ＥＣＵ１４は、各種の演算処理および運転支援システム１０の各構成の制御を実行することができる。より詳細には、ＥＣＵ１４は、車内ネットワーク２３を通じて制御信号を送ることで、操舵システム１３、ブレーキシステム１８等を制御する。また、ＥＣＵ１４は、モニタ装置１１に含まれる表示装置８ａ、音声出力装置８ｂを制御する。また、ＥＣＵ１４は、車内ネットワーク２３を介して、トルクセンサ１３ｂ、ブレーキセンサ１８ｂ、舵角センサ１９、アクセルセンサ２０、シフトセンサ２１、車輪速センサ２２、音声入力部２４等の検出結果、ならびに、操作入力部８ｃ等の指示信号（制御信号、操作信号、入力信号、データ）を受け取る。また、ＥＣＵ１４は、撮像装置１５から撮像画像を取得する。ＥＣＵ１４は、本実施形態における運転支援装置の一例である。

ＥＣＵ１４は、例えば、ＣＰＵ１４ａ（central processing unit）や、ＲＯＭ１４ｂ（read only memory）、ＲＡＭ１４ｃ（random access memory）、表示制御部１４ｄ、ＳＳＤ１４ｆ（solid state drive、フラッシュメモリ）等を有している。

ＣＰＵ１４ａは、ＲＯＭ１４ｂ等の不揮発性の記憶装置にインストールされ記憶されたプログラムを読み出し、当該プログラムにしたがって演算処理を実行する。また、表示制御部１４ｄは、ＥＣＵ１４での演算処理のうち、主として、撮像装置１５で得られた画像データを用いた画像処理や、表示装置８ａで表示される画像データの合成等を実行する。

操舵システム１３は、少なくとも２つの車輪３を操舵する。操舵システム１３は、アクチュエータ１３ａと、トルクセンサ１３ｂとを有する。また、ブレーキシステム１８は、アクチュエータ１８ａと、ブレーキセンサ１８ｂとを有する。ブレーキシステム１８は、アクチュエータ１８ａを介して、車輪３ひいては車両１に制動力を与える。

上述した各種センサやアクチュエータの構成や、配置、電気的な接続形態等は、一例であって、種々に設定（変更）することができる。

図４は、本実施形態にかかるＥＣＵ１４が有する機能の一例を示すブロック図である。図４に示すように、ＥＣＵ１４は、記憶部１４０と、取得部１４１と、判断部１４２と、音声認識部１４３と、音声出力部１４４と、対話制御部１４５とを備える。

取得部１４１と、判断部１４２と、音声認識部１４３と、音声出力部１４４と、対話制御部１４５との各構成は、ＣＰＵ１４ａが、ＲＯＭ１４ｂ内に格納されたプログラムを実行することで実現される。なお、これらの構成をハードウェア回路で実現するように構成しても良い。

記憶部１４０は、後述の音声出力部１４４が出力する音声ガイダンスのテキスト等を記憶する。また、記憶部１４０は、例えば、ＳＳＤ１４ｆ等の記憶装置によって構成される。

取得部１４１は、撮像装置１５の撮像画像に含まれる乗員４２の画像を取得する。より詳細には、取得部１４１は、撮像装置１５から撮像画像を取得し、画像処理により当該撮像画像に含まれる乗員４２の画像を抽出（取得）する。本実施形態においては、乗員４２の画像を、取得部１４１の取得結果という。撮像画像から乗員４２の画像を取得する手法は、公知の技術を採用することができる。

判断部１４２は、取得部１４１の取得結果に含まれる乗員４２の動作や状態に基づいて、後述の音声出力部１４４による音声の出力を中断するか否かを判断する。

より詳細には、判断部１４２は、取得部１４１が取得した撮像画像に含まれる乗員４２の画像から、乗員４２の動作や状態を判断する。例えば、判断部１４２は、乗員４２が、発話の動作、承認の意思を表す動作、否定の意思を表す動作、保留の意思を表す動作、または、出力された音声が聞き取れないことを表す動作のいずれかをしているか否かを判断する。以下、発話の動作を「発話動作」、承認の意思を表す動作を「承認動作」、否定の意思を表す動作を「否定動作」、保留の意思を表す動作を「保留動作」、出力された音声が聞き取れないことを表す動作を「聞き取れないことを表す動作」という。また、発話の動作、承認の意思を表す動作、否定の意思を表す動作、または、保留の意思を表す動作、出力された音声が聞き取れないことを表す動作、を総称して、所定の動作という。

発話動作は、例えば、口を開く動作である。一般に、車内にはラジオの音等の雑音が存在するが、判断部１４２は、撮像画像から乗員４２の発話動作の有無を判断するため、雑音等を乗員４２の発話として誤判断することを抑制できる。このため、本実施形態の判断部１４２は、乗員４２の発話の有無を高精度に判断することができる。また、判断部１４２は、乗員４２が音声を発しようとして口を動かした時点で発話動作をしたと判断するため、より早い段階で乗員４２の発話を認識することができる。

承認動作は、例えば、首を縦に振って頷く動作であり、後述の音声出力部１４４が出力した音声の内容に対して乗員４２が承認したことを示す動作である。

また、否定動作は、例えば、首を横に振る動作であり、後述の音声出力部１４４が出力した音声の内容に対して乗員４２が否定したことを示す動作である。

保留動作は、例えば、首を傾げる動作である。また、顔をしかめる、眉を寄せる、といった顔の動きを、保留動作としても良い。保留動作とは、乗員４２が、後述の音声出力部１４４が出力した音声に対して、承認か否定かの意思決定をまだしていないことを示す動作である。

聞き取れないことを表す動作は、例えば、目を見開く動作であり、乗員４２が、後述の音声出力部１４４が出力した音声を聞き取れなかったことを示す動作である。

判断部１４２は、乗員４２の画像から、乗員４２が発話の動作、承認の意思を表す動作、否定の意思を表す動作、または、保留の意思を表す動作、聞き取れないことを表す動作、のいずれかをしていると判断した場合に、音声の出力を中断すると判断する。なお、発話動作、承認動作、否定動作、保留動作、聞き取れないことを表す動作の具体的な動作の内容は、上述の例に限定されるものではない。また、判断部１４２は、動作だけではなく、乗員４２の姿勢等の状態に基づいて、乗員４２の意思を判断して、音声の出力を中断するか否かを判断しても良い。

また、判断部１４２は、ＲＮＮ（Recurrent Neural Network）等のディープラーニングの手法を用いて、入力された乗員４２の画像から、音声の出力を中断するか否かを判断しても良い。判断部１４２が音声の出力を中断するか否かを判断する手法は、ＲＮＮに限定されるものではなく、他のディープラーニングや、ディープラーニング以外の手法を採用しても良い。

また、本実施形態においては取得部１４１が取得した乗員４２の画像に基づいて、判断部１４２が、乗員４２の動作や状態を判断するとしたが、取得部１４１が乗員４２の動作や状態を検出する構成を採用しても良い。この場合、乗員４２の画像から検出された乗員４２の動作や状態を、取得部１４１の取得結果という。

音声認識部１４３は、音声入力部２４に入力された音声に対して音声認識処理を行い、命令の内容を特定する。本実施形態においては、音声認識部１４３は、後述の音声出力部１４４が出力した音声に対して乗員４２が発話する音声を認識する。より詳細には、音声認識部１４３は、乗員４２の音声から、承認または否定の意思を示す単語を特定する。また、音声認識部１４３は、乗員４２の音声から、車両１の行先を示す固有名詞や、車両１が実行する処理を示す動詞等を特定する。

本実施形態においては、音声認識部１４３は、音声出力部１４４が乗員４２に対して質問等の音声を出力した後に設けられる、音声の認識時間において、乗員４２の音声を認識する。音声認識部１４３が音声認識を行うタイミングはこれに限定されるものではなく、常時、音声認識処理を行っているものとしても良い。また、音声認識部１４３は、乗員４２が操作入力部８ｃ等によって音声認識の開始の操作をした場合にのみ音声認識を行うものとしても良い。また、音声認識部１４３が乗員４２の音声を認識する手法は、公知の手法を採用することができる。また、音声認識部１４３は、判断部１４２が乗員４２が保留動作をしていると判断した場合、音声の認識時間を延長する。音声の認識時間中は、音声出力部１４４による音声の出力の中断は継続される。音声の認識時間の延長は、本実施形態における保留に対応する処理の一例であり、判断部１４２が乗員４２が保留動作をしていると判断した場合に行われる処理は、これに限定されるものではない。

音声出力部１４４は、乗員４２に対して音声を出力する。一例として、音声出力部１４４は、音声出力装置８ｂを制御して、ナビゲーションシステムの操作の音声ガイダンスを出力する。また、音声出力部１４４は、判断部１４２が、音声の出力を中断すると判断した場合に、音声の出力を中断する。また、音声出力部１４４は、判断部１４２が、乗員４２が聞き取れないことを表す動作をしていると判断した場合、乗員４２が聞き取れないことを表す動作をしていると判断された際に出力していた音声を再度出力する。

対話制御部１４５は、乗員４２と、ＥＣＵ１４との対話を制御する。また、対話制御部１４５は、音声出力部１４４から出力された音声に対する乗員４２の反応に応じて、後続の処理を実行する。例えば、対話制御部１４５は、判断部１４２が、乗員４２が承認動作をしていると判断した場合、出力された音声に対する承認に対応する処理を実行する。また、対話制御部１４５は、判断部１４２が、乗員４２が否定動作をしていると判断した場合、出力された音声に対する否定に対応する処理を実行する。承認に対応する処理、および否定に対応する処理は、音声出力部１４４によって出力された音声の内容に応じて異なる。

また、対話制御部１４５は、音声認識部１４３が乗員４２の音声から、承認の意思を特定した場合、承認に対応する処理を実行する。また、対話制御部１４５は、音声認識部１４３が乗員４２の音声から、否定の意思を特定した場合、否定に対応する処理を実行する。

承認に対応する処理は、出力された音声に対して乗員４２が承認をした場合に、実行されることが予め定められた処理である。また、否定に対応する処理は、出力された音声に対して乗員４２が否定をした場合に、実行されることが予め定められた処理である。承認に対応する処理、および、否定に対応する処理の具体例については、後述する。

次に、以上のように構成された本実施形態のＥＣＵ１４における対話制御処理について図５〜１０を用いて説明する。図５は、本実施形態にかかる対話制御処理の手順の一例を示すフローチャートである。

音声出力部１４４は、音声出力装置８ｂを制御して、乗員４２に対する音声の出力を開始する（Ｓ１）。また、図６は、本実施形態にかかるＥＣＵ１４による音声ガイダンスと、乗員４２との対話の一例を示す図である。図５に示すＳ１の処理では、図６に示す音声ガイダンスの中の、音声ｔ２の出力が開始されたものとする。

また、図５のフローチャートに戻り、取得部１４１は、撮像装置１５から撮像画像を取得する（Ｓ２）。また、取得部１４１は、撮像画像から、乗員４２の画像を取得する。また、判断部１４２は、取得部１４１が取得した乗員４２の画像から、乗員４２の動作を判断する。

判断部１４２は、音声ｔ２が出力されている途中で、乗員４２が承認動作をしたと判断した場合（Ｓ３“Ｙｅｓ”）、音声の出力を中断すると判断する。この場合、音声出力部１４４は、音声ｔ２の出力を中断する（Ｓ４）。そして、対話制御部１４５は、音声ｔ２の承認に対応する処理を実行する（Ｓ５）。

図７は、本実施形態にかかる乗員４２の承認動作の一例を示す図である。図７に示すように、音声ｔ２の途中で乗員４２が頷く等の承認動作をしたと判断部１４２が判断した場合、音声出力部１４４は音声ｔ２の出力を中断する。また、対話制御部１４５は、音声ｔ２の承認に対応する処理を実行する。

図７に示す例では、音声ｔ２は、目的地に対する承認または否定を求める音声であるため、音声ｔ２の承認に対応する処理は、音声ｔ２に含まれる目的地を、乗員４２が承認した場合に実行される処理である。音声ｔ２の承認に対応する処理として、対話制御部１４５は、音声出力部１４４に、乗員４２の承認に対して応答する音声ｔ３を出力させる。また、対話制御部１４５は、音声ｔ２で示した目的地を、ナビゲーションシステムの目的地として設定する。音声ｔ２の承認に対応する処理は、これに限定されるものではなく、出力された音声ｔ２の内容に応じて異なる。

一般に、乗員４２が音声ｔ２の内容を承認しているにも関わらず、音声ｔ２が最後まで出力されると、乗員４２は音声ｔ２の終了を待たなければならず、対話をスムーズに行うことが困難になる場合がある。本実施形態の音声出力部１４４は、音声ｔ２の途中で乗員４２が承認動作をした場合に音声ｔ２の出力を中断し、対話制御部１４５が後続の処理に移行することで、スムーズに乗員４２と対話することができる。

また、一般に、人間同士での対話では、音声だけではなく、動作によっても承認等の意思を伝達し合うことでスムーズに対話を進めている。本実施形態の判断部１４２は、乗員４２の承認等の意思を表す動作を判断することができるため、音声出力部１４４は、より自然なタイミングで音声ｔ２の出力を中断することができる。また、音声出力部１４４は、乗員４２が承認動作をした場合に音声ｔ２の出力を中断することにより、対話に要する時間を短縮することができる。

図５のフローチャートに戻り、判断部１４２は、音声ｔ２が出力されている途中で、乗員４２が否定動作をしたと判断した場合（Ｓ３“Ｎｏ”、Ｓ６“Ｙｅｓ”）、音声の出力を中断すると判断する。この場合、音声出力部１４４は、音声ｔ２の出力を中断する（Ｓ７）。そして、対話制御部１４５は、音声ｔ２の否定に対応する処理を実行する（Ｓ８）。

図８は、本実施形態にかかる乗員４２の否定動作の一例を示す図である。図８に示すように、音声ｔ２の途中で乗員４２が首を横に振る等の否定動作をしたと判断部１４２が判断した場合、音声出力部１４４は音声ｔ２の出力を中断する。また、対話制御部１４５は、音声ｔ２の否定に対応する処理を実行する。

音声ｔ２の否定に対応する処理の一例として、対話制御部１４５は、音声出力部１４４に、乗員４２の否定に対して応答する音声ｔ４を出力させる。例えば、図８に示すように、音声出力部１４４が目的地がＡ牧場であることを音声で出力している間に、乗員４２が否定動作をした場合は、対話制御部１４５は、音声出力部１４４に、目的地を質問する音声を出力させる。音声ｔ２の否定に対応する処理は、これに限定されるものではなく、出力された音声ｔ２の内容に応じて異なる。

乗員４２が否定動作をしたと判断された場合に音声出力部１４４が、音声ｔ２の出力を中断し、対話制御部１４５が後続の処理に移行することで、ＥＣＵ１４は、乗員４２を待たせずにスムーズに対話をすることができる。また、音声出力部１４４は、乗員４２が否定動作をした場合に音声ｔ２の出力を中断することにより、対話に要する時間を短縮することができる。

図５のフローチャートに戻り、判断部１４２は、音声ｔ２が出力されている途中で、乗員４２が発話動作をしたと判断した場合（Ｓ６“Ｎｏ”、Ｓ９“Ｙｅｓ”）、音声の出力を中断すると判断する。この場合、音声出力部１４４は、音声ｔ２の出力を中断する（Ｓ１０）。

図９は、本実施形態にかかる乗員４２の発話動作の一例を示す図である。図９に示すように、音声ｔ２の途中で乗員４２が口を開く等の発話動作をしたと判断部１４２が判断した場合、音声出力部１４４は音声ｔ２の出力を中断する。

乗員４２が発話動作をした場合に音声出力部１４４が音声ｔ２の出力を中断することで、対話における話し手が、ＥＣＵ１４から乗員４２に自然なタイミングで交代する。このため、乗員４２は、音声ｔ２に発話を妨げられずに、スムーズに発話を行うことができる。また、乗員４２が発話した音声と、音声出力部１４４が出力した音声ｔ２とが重複しないため、音声認識部１４３が乗員４２が発話した音声をより高精度に認識することができる。

本実施形態においては、乗員４２が発話動作をしたと判断された場合は音声ｔ２の出力を中断して処理が終了するが、音声ｔ２の出力が中断された後に、音声認識部１４３による音声認識待ちの状態となっても良い。また、音声ｔ２の出力が中断されている間に、取得部１４１が撮像画像を繰り返し取得して判断の処理を繰り返し、乗員４２が発話動作をしていないと判断された場合に、音声出力部１４４が音声ｔ２の出力を再開しても良い。

図５のフローチャートに戻り、判断部１４２は、音声ｔ２が出力されている途中で、乗員４２が保留動作をしたと判断した場合（Ｓ９“Ｎｏ”、Ｓ１１“Ｙｅｓ”）、音声の出力を中断すると判断する。この場合、音声出力部１４４は、音声ｔ２の出力を中断する（Ｓ１２）。そして、保留に対応する処理が開始される（Ｓ１３）。本実施形態においては。保留に対応する処理は、音声の認識時間の延長である。音声の認識時間において、音声認識部１４３は、乗員４２の音声が音声入力部２４に入力されることを待つ、認識待ち状態となる。乗員４２の音声が入力されると、音声認識部１４３は、当該音声を認識し、内容を特定する。

また、判断部１４２は、音声ｔ２が出力されている途中で、乗員４２が聞き取れないことを表す動作をしたと判断した場合（Ｓ１１“Ｎｏ”、Ｓ１４“Ｙｅｓ”）、音声の出力を中断すると判断する。この場合、音声出力部１４４は、音声ｔ２の出力を中断する（Ｓ１５）。そして、音声出力部１４４は、Ｓ１に戻り、乗員４２が聞き取れないことを表す動作をしたと判断された際に出力していた音声ｔ２を、再度出力する。

図１０は、本実施形態にかかる聞き取れないことを表す動作の一例を示す図である。図１０に示すように、音声ｔ２の途中で乗員４２が目を見開く等の、聞き取れないことを表す動作をしたと判断部１４２が判断した場合、音声出力部１４４は、音声ｔ２を冒頭から再度出力する。

図５のフローチャートに戻り、判断部１４２が、乗員４２が承認動作、否定動作、発話動作、保留動作、聞き取れないことを表す動作、のいずれもしていないと判断した場合であって（Ｓ１４“Ｎｏ”）、音声出力部１４４が音声ｔ２の出力を終了しない場合は（Ｓ１６“Ｎｏ”）、Ｓ２〜Ｓ１６の処理が繰り返される。

また、判断部１４２が、乗員４２が承認動作、否定動作、発話動作、保留動作、聞き取れないことを表す動作、のいずれもしていないと判断した場合であって（Ｓ１４“Ｎｏ”）、音声ｔ２の出力が終了した場合（Ｓ１６“Ｙｅｓ”）、当該フローチャートの処理は終了する。

判断部１４２が、乗員４２が承認動作、否定動作、発話動作、保留動作、聞き取れないことを表す動作、のいずれもしていないと判断した場合であって、音声ｔ２の出力が終了した場合は、図６に示すように、対話制御部１４５は、音声認識部１４３によって認識された乗員４２が発話した音声による応答、または、動作による応答に応じて、後続の処理を行う。例えば、対話制御部１４５は、図６に示す音声ｔ２に対して、乗員４２が承認の応答をした場合、音声ｔ２に対する承認に対応する処理を実行する。また、対話制御部１４５は、音声ｔ２に対して、乗員４２が否定の応答をした場合、音声ｔ２に対する否定に対応する処理を実行する。

また、音声ガイダンスが継続しており、音声出力部１４４が次の音声を出力する場合は、図５のフローチャートの処理は繰り返し実行される。

図６〜１０に示す音声出力部１４４が出力する音声ｔ１〜ｔ４および乗員４２が発話する音声ｒ１〜ｒ３の内容は一例であり、これに限定されるものではない。

また、承認に対応する処理、および、否定に対応する処理は、図６〜１０に示す内容に限定されるものではない。また、図６に示す音声ｔ１のように、乗員４２に対して承認または否定を求める内容ではない音声が出力されている間に乗員４２が承認動作または否定動作をしたと判断された場合は、音声出力部１４４が単に音声の出力を中断するだけでも良い。

このように、本実施形態のＥＣＵ１４は、撮像画像に含まれる乗員４２の画像から取得された乗員４２の動作や状態に基づいて、音声の出力を中断するため、よりスムーズに乗員４２と対話することができる。

また、本実施形態のＥＣＵ１４は、乗員４２が発話動作、承認動作、否定動作、保留動作、聞き取れないことを表す動作、のいずれかの動作をしたと判断した場合に、音声の出力を中断する。このため、本実施形態のＥＣＵ１４によれば、乗員４２にとって不要な音声の出力を抑制できる。

例えば、ＥＣＵ１４が、乗員４２が発話動作をしたと判断した場合に音声の出力を中断することで、乗員４２の発話を妨げることを抑制することができる。これにより、本実施形態のＥＣＵ１４によれば、乗員４２がスムーズに発話を行うことができる。また、本実施形態のＥＣＵ１４によれば、乗員４２が承認動作、または否定動作をしたと判断した場合に音声の出力を中断することで、乗員４２にとって不要な音声の出力を抑制して対話に要する時間を削減すると共に、スムーズに対話を行うことができる。また、本実施形態のＥＣＵ１４によれば、乗員４２が保留動作をしたと判断した場合に音声の出力を中断することで、乗員４２が承認か否定かの意思決定をしていない状態のまま音声の出力が継続することを抑制することができる。また、本実施形態のＥＣＵ１４によれば、乗員４２が聞き取れないことを表す動作をしたと判断した場合に音声の出力を中断することで、乗員４２が音声を聞き取れていない状態で音声の出力が継続することを抑制することができる。

さらに、本実施形態のＥＣＵ１４によれば、乗員４２が承認動作をしたと判断した場合、音声の出力を中断し、出力された音声の承認に対応する処理を実行するため、乗員４２の承認の意思に沿った後続の処理を、乗員４２を待たせずに、迅速に開始することができる。このため、本実施形態にかかるＥＣＵ１４によれば、よりスムーズに乗員４２との対話を行うことができる。

さらに、本実施形態のＥＣＵ１４によれば、乗員４２が否定動作をしたと判断した場合、音声の出力を中断し、出力された音声の否定に対応する処理を実行するため、乗員４２の否定の意思に沿った後続の処理を、乗員４２を待たせずに、迅速に開始することができる。このため、本実施形態にかかるＥＣＵ１４によれば、よりスムーズに乗員４２との対話を行うことができる。

さらに、本実施形態のＥＣＵ１４は、乗員４２が保留動作をしたと判断した場合、乗員４２の音声の認識時間を延長する。このため、本実施形態のＥＣＵ１４によれば、乗員４２が意思決定を行うまで待つことができ、乗員４２が回答するペースに合わせて対話を行うことができる。

さらに、本実施形態のＥＣＵ１４は、乗員４２が聞き取れないことを表す動作をしたと判断した場合、出力していた音声を再度出力する。本実施形態のＥＣＵ１４によれば、乗員４２が聞き取れなかった音声を再度出力することにより、乗員４２との対話を円滑に行うことができる。また、本実施形態のＥＣＵ１４によれば、乗員４２が音声の再出力の操作をしたり、ＥＣＵ１４との対話を最初からやり直したり、といった手間が発生することを抑制することができる。

なお、本実施形態では、音声出力部１４４と対話制御部１４５とを異なる機能部としたが、音声出力部１４４と対話制御部１４５との機能は、１つの機能部が有する構成としても良い。また、判断部１４２と、対話制御部１４５との機能は、１つの機能部が有する構成としても良い。

（変形例１）
上述の実施形態では、乗員４２が頷く動作をした場合に、当該動作を承認動作と判断し、音声の出力を中断していた。しかしながら、一般に、人間は、話し手に対して話を促す意図で、相槌として、連続して頷く動作をする場合がある。そこで、本変形例では、乗員４２が相槌をした場合には、音声の出力を中断しない。

本変形例の判断部１４２は、取得部１４１が取得した撮像画像に含まれる乗員４２の画像から、乗員４２が相槌をしたか否かを判断する。より詳細には、判断部１４２は、複数フレームに渡る撮像画像を画像処理することにより、一定の時間における乗員４２の連続する動作を判断する。判断部１４２は、乗員４２が首を縦に１度振った場合は、当該動作を承認動作と判断する。また、判断部１４２は、乗員４２が連続して複数回首を縦に振った場合は、当該動作を相槌と判断する。なお、承認動作と相槌とを区別する手法は、これに限定されるものではない。また、乗員４２の連続する動作を検出する画像処理は、取得部１４１が行うものとしても良い。また、判断部１４２は、入力された乗員４２の画像をＲＮＮ等のディープラーニングの手法を用いて処理することにより、乗員４２が相槌したことを判断しても良い。

本変形例の判断部１４２は、乗員４２が相槌をしたと判断した場合は、音声の出力を中断しないと判断する。そして、音声出力部１４４は、判断部１４２が音声の出力を中断しないと判断した場合には、音声の出力を継続する。

また、本変形例の対話制御部１４５は、音声出力部１４４が出力した音声と、当該音声の出力中に乗員４２が相槌をしたと判断されたタイミングとを対応付けて、記憶部１４０に保存する。例えば、音声出力部１４４は、出力した音声を特定する識別情報と、出力開始時刻と、乗員４２が相槌をしたと判断された時刻とを対応付けて、記憶部１４０に保存する。記憶部１４０に保存される内容は一例であり、これに限定されるものではない。

乗員４２が相槌をしたと判断された時点においては、乗員４２は、出力された音声の内容に対して同意している可能性が高い。このため、出力された音声と、相槌のタイミングとを対応付けて保存することにより、乗員４２が相槌をしたと判断された時点までに出力された音声の内容に対しては、乗員４２の同意を得ていたことについての信頼性を担保することができる。

（変形例２）
上述の実施形態では、乗員４２の音声を音声認識する機能を有するＥＣＵ１４を例として説明したが、ＥＣＵ１４は、音声認識の機能を有さなくても良い。例えば、音声出力部１４４が出力した音声に対して、乗員４２が承認や否定等の動作をしたと判断部１４２が判断することによって、ＥＣＵ１４は、音声認識の機能がなくとも、乗員４２との対話を行うことができる。

（変形例３）
上述の実施形態では、音声の出力を中断した後の処理（例えば、承認に対応する処理、および、否定に対応する処理）は、出力されていた音声の内容に応じて予め定められているものとしていたが、音声の出力を中断した後の処理は、これに限定されるものではない。

例えば、対話制御部１４５は、ＲＮＮ等のディープラーニングの手法を用いて、音声の出力を中断した後の処理を決定しても良い。より詳細には、対話制御部１４５は、ディープラーニングの入力データとして、撮像画像に含まれる乗員４２の動作または状態を示す時系列のデータと、音声の出力内容の時系列のデータとを入力し、音声の中断後の後続処理を決定しても良い。また、ディープラーニングの入力データとして、撮像画像が用いられても良い。また、当該ディープラーニングの処理は、判断部１４２が実行するものとしても良い。

（変形例４）
上述の実施形態では、保留に対応する処理は音声の認識時間の延長としていたが、これに限定されるものではない。例えば、乗員４２が保留動作をしていると判断された場合、本変形例の音声出力部１４４は、乗員４２が保留動作をしていると判断された際に出力していた音声と異なる音声を出力する。より詳細には、乗員４２が保留動作をしていると判断された際に出力していた音声と異なる音声は、乗員４２に他の提案を行う音声である。

図１１は、本変形例にかかる保留に対応する処理の一例を示す図である。図１１に示すように、音声入力によって目的地の入力を行う処理において、音声出力部１４４は、乗員４２が発話した音声に対する音声認識部１４３の音声認識によって特定された第１の候補として、「Ａ牧場」を示す音声ｔ２を出力する。ここで、乗員４２が保留動作をしたと判断された場合に、音声出力部１４４は、第２候補として「Ｂ牧場」を提案する音声ｔ５を出力する。

第２の候補を決定する手法は、例えば、音声認識部１４３による音声認識結果から、乗員４２が発話した可能性が高い順に、第１候補、第２候補の単語を特定しても良い。または、対話制御部１４５または判断部１４２が、第１候補である目的地（Ａ牧場）から距離が近く、単語のカテゴリ（牧場等）が同じである地名や施設名等を、不図示の地図情報から検索しても良い。

このように、本変形例のＥＣＵ１４は、乗員４２が保留動作をしていると判断された際に出力していた音声と異なる音声を出力するため、乗員４２が当初出力された音声の内容を承認または否定しない場合、他の選択肢を提示することによって、乗員４２が意思決定をすることを支援することができる。

以上、本発明の実施形態を例示したが、上記実施形態および変形例はあくまで一例であって、発明の範囲を限定することは意図していない。上記実施形態や変形例は、その他の様々な形態で実施されることが可能であり、発明の要旨を逸脱しない範囲で、種々の省略、置き換え、組み合わせ、変更を行うことができる。また、各実施形態や各変形例の構成や形状は、部分的に入れ替えて実施することも可能である。

１…車両、８ｂ…音声出力装置、１０…運転支援システム、１４…ＥＣＵ、１５…撮像装置、２４…音声入力部、４２…乗員、１４０…記憶部、１４１…取得部、１４２…判断部、１４３…音声認識部、１４４…音声出力部、１４５…対話制御部。

Claims

乗員に対して音声を出力する音声出力部と、
車内を撮像する撮像装置の撮像画像に含まれる乗員の画像を取得する取得部と、
前記取得部の取得結果に含まれる前記乗員の動作や状態に基づいて、前記音声の出力を中断するか否かを判断する判断部と、を備え、
前記音声出力部は、前記判断部が、前記音声の出力を中断すると判断した場合に、前記音声の出力を中断する、
運転支援装置。
前記動作は、発話の動作、承認の意思を表す動作、否定の意思を表す動作、保留の意思を表す動作、または、出力された前記音声が聞き取れないことを表す動作のいずれかである、
請求項１に記載の運転支援装置。
前記乗員が前記承認の意思を表す動作をしていると判断された場合、前記出力された音声の承認に対応する処理を実行する対話制御部、をさらに備えた、
請求項２に記載の運転支援装置。
前記乗員が前記否定の意思を表す動作をしていると判断された場合、前記出力された音声の否定に対応する処理を実行する対話制御部、をさらに備えた、
請求項２または３に記載の運転支援装置。
前記音声出力部が出力した前記音声に対して前記乗員が発話する音声を認識する音声認識部、をさらに備え、
前記乗員が前記保留の意思を表す動作をしていると判断された場合、前記音声認識部は、前記乗員が発話する音声の認識時間を延長する、
請求項２から４のいずれか１項に記載の運転支援装置。
前記乗員が前記保留の意思を表す動作をしていると判断された場合、前記音声出力部は、前記乗員が前記保留の意思を表す動作をしていると判断された際に出力していた前記音声と異なる音声を出力する、
請求項２から４のいずれか１項に記載の運転支援装置。
前記乗員が前記音声が聞き取れないことを表す動作をしていると判断された場合、前記音声出力部は、前記乗員が前記音声が聞き取れないことを表す動作をしていると判断された際に出力していた前記音声を再度出力する、
請求項２から６のいずれか１項に記載の運転支援装置。