JP2012128440A - 音声対話装置 - Google Patents
音声対話装置 Download PDFInfo
- Publication number
- JP2012128440A JP2012128440A JP2012022981A JP2012022981A JP2012128440A JP 2012128440 A JP2012128440 A JP 2012128440A JP 2012022981 A JP2012022981 A JP 2012022981A JP 2012022981 A JP2012022981 A JP 2012022981A JP 2012128440 A JP2012128440 A JP 2012128440A
- Authority
- JP
- Japan
- Prior art keywords
- voice
- response
- speaker
- speed
- speech
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Pending
Links
- 230000002452 interceptive effect Effects 0.000 title claims description 14
- 230000004044 response Effects 0.000 claims abstract description 116
- 238000001514 detection method Methods 0.000 claims abstract description 30
- 230000007613 environmental effect Effects 0.000 claims description 25
- 230000015572 biosynthetic process Effects 0.000 abstract description 18
- 238000003786 synthesis reaction Methods 0.000 abstract description 18
- 230000035945 sensitivity Effects 0.000 abstract description 10
- 230000008859 change Effects 0.000 abstract description 6
- 230000003993 interaction Effects 0.000 abstract description 5
- 238000000034 method Methods 0.000 description 9
- 238000010295 mobile communication Methods 0.000 description 9
- 230000008569 process Effects 0.000 description 5
- 238000012545 processing Methods 0.000 description 4
- 238000010586 diagram Methods 0.000 description 3
- 230000007274 generation of a signal involved in cell-cell signaling Effects 0.000 description 3
- 230000005236 sound signal Effects 0.000 description 3
- 230000001133 acceleration Effects 0.000 description 2
- 230000005540 biological transmission Effects 0.000 description 2
- 230000007794 irritation Effects 0.000 description 2
- 238000012544 monitoring process Methods 0.000 description 2
- 230000008901 benefit Effects 0.000 description 1
- 238000004891 communication Methods 0.000 description 1
- 230000006835 compression Effects 0.000 description 1
- 238000007906 compression Methods 0.000 description 1
- 230000006837 decompression Effects 0.000 description 1
- 230000003111 delayed effect Effects 0.000 description 1
- 238000005516 engineering process Methods 0.000 description 1
- 238000012986 modification Methods 0.000 description 1
- 230000004048 modification Effects 0.000 description 1
- 238000003672 processing method Methods 0.000 description 1
- 230000000717 retained effect Effects 0.000 description 1
- 230000002194 synthesizing effect Effects 0.000 description 1
- 230000007704 transition Effects 0.000 description 1
Images
Landscapes
- Telephone Function (AREA)
- Navigation (AREA)
- Fittings On The Vehicle Exterior For Carrying Loads, And Devices For Holding Or Mounting Articles (AREA)
Abstract
【課題】音声対話装置において、話者の感性に即した円滑な対話を行うこと。
【解決手段】応答制御部7は、音声認識部4が認識した話者の発話内容に応じた応答音声を、音声合成部2からスピーカ8を通じて出力する。この場合、通常状態では、音声認識部4が話者の発話の終了を検出した時点から応答音声の提供を開始するまでの応答時間を、話速検出部5により検出された発話速度に応じて変化させる。
【選択図】図1
【解決手段】応答制御部7は、音声認識部4が認識した話者の発話内容に応じた応答音声を、音声合成部2からスピーカ8を通じて出力する。この場合、通常状態では、音声認識部4が話者の発話の終了を検出した時点から応答音声の提供を開始するまでの応答時間を、話速検出部5により検出された発話速度に応じて変化させる。
【選択図】図1
Description
本発明は、話者の発話内容の認識結果に応じた応答音声を合成音声により提供するようにした音声対話装置に関する。
例えば、カーナビゲーションシステムやハンズフリー電話システムなどの車載システムにおいては、ユーザからの発話音声を、予め記憶された認識対象語彙の標準音声発生パターンと比較することにより、ユーザが発話した音声コマンドの認識を行い、その音声コマンドに応じた制御処理を行うものが普及している。この種の音声認識技術を利用する場合、ユーザからの1回の発話音声を解析するだけでは、その発話内容を一意的に特定できない場合が多く、誤って特定した場合には不要な制御処理が行われてしまう。そこで、このような事態への対策として、車載システム側でユーザによる発話内容を特定するための質問(応答音声)を出力して返答を求めることで対話的に発話内容を理解する音声対話装置が考えられている。
一般的な音声対話装置は、話者(ユーザ)の発話内容に対する応答音声の合成速度や応答時間(応答開始までの時間)が画一的な構成となっている。ところが、話者の発話速度は、その個人毎の特性などに応じて異なってくるという事情がある。このため、話者側で、応答音声の出力が終了するまで不要に待たされると感じたり、質問に対する返答を急がされるという感じを持ったりするなど、話者の感性に即した円滑な対話(話者が苛立つことが少ない対話)が困難になる状態が発生しやすいという問題点があった。このような問題点を解決するために、従来では、例えば特許文献1に見られるように、話者による発話速度を測定し、測定された発話速度に応じて応答音声の出力速度を変化させるようにした音声対話装置が考えられている。
特公平7−21759号公報
上記従来の音声対話装置では、応答音声の出力速度を話者の発話速度に応じて単純に変化させているに過ぎないため、その出力が完了するまでの期間は、応答音声の速度が一定に保持されることになる。このため、応答音声の出力途中の段階で、話者側で応答音声が早期に終わって欲しいと感じるイベント(例えば、電話の着信)が発生した場合でも、その応答音声が終了するまで不要に待たされることがあり、これにより、話者側の苛立ちが増大するなど、話者の感性に即した円滑な対話が困難になる恐れがあった。また、音声対話装置では、会話における所謂「間」が、話者の感性に合った円滑な対話を行う上で非常に重要な要素となるものであるが、従来では、この「間」が話者の発話速度と無関係に一定であったため、話者の感性に即した円滑な対話が困難になるという状況下にあった。
本発明は上記事情に鑑みてなされたものであり、その目的は、話者の感性に即した円滑な対話を行うことができる音声対話装置を提供することにある。
請求項1記載の手段によれば、話者の発話内容が音声認識手段により認識された場合には、応答制御手段が、その認識結果に応じた応答音声を合成音声により提供するようになる。この場合、話者による発話速度を検出する話速検出手段が設けられており、応答制御手段は、音声認識手段が話者の発話の終了を検出した時点から応答音声を提供するまでの応答時間、つまり、会話における所謂「間」を、前記話速検出手段により検出された発話速度に応じて変化させるようになる。このように、話者の感性に合った円滑な対話を行う上で非常に重要な要素となる「間」が、その話者の発話速度に応じた長さに制御される結果、話者の感性に即した円滑な対話を実現できるようになる。
請求項2記載の手段によれば、応答制御手段は、環境条件検出センサから取り込んだ検出信号が予め決められた環境条件を満たすものであった場合に、その環境条件が解除されるまでの期間だけ応答音声の提供を見合わせた待機状態を呈するようになる。このため、例えば、話者が応答音声に反応しない方が良いと考えられる環境条件(音声対話装置が車載システムとして搭載されていた場合、車両の右左折などに伴うステアリング操作を実施中の状態や、急ブレーキによる減速操作を実施中の状態などが考えられる)の下では、応答音声の提供が見合わされることになって、対話の信頼性が向上するようになる。
請求項3記載の手段によれば、応答制御手段は、音声認識手段による認識結果に、制御対象機器に係る動作開始コマンド或いは動作停止コマンドが含まれていた場合に、当該コマンドの実行タイミングを、環境条件検出センサからの検出信号により示される環境条件に応じた最適なタイミングとなるように調整するようになる。このため、話者からの動作開始コマンド或いは動作停止コマンドに基づいた制御対象機器の制御動作を実行しようとする際に、その実行を直ちに行わない方が良いと考えられる環境条件(制御対象機器が車両用のものであった場合、車両の右左折などに伴うステアリング操作を実施中の期間や、車両の後退走行期間などが考えられる)の下では、制御対象機器の制御動作の開始が見合わされることになるから、制御対象機器の制御に係る信頼性が向上するようになる。
以下、本発明の一実施例について図面を参照しながら説明する。
図1には、音声対話装置1及びこれに関連した部分の基本的な構成例が機能ブロックの組み合わせにより概略的に示されている。この図1において、音声対話装置1は、車両に搭載されて、話者(車両運転者)との間での音声応答処理及びその話者による音声コマンドに応じた制御処理を行うように構成されたもので、具体的に図示しないが、カーナビゲーション装置やエンジン制御ECU、移動体通信用ECUなどとの間で例えば車内LANを介してデータの授受を行い得るように構成されている。
図1には、音声対話装置1及びこれに関連した部分の基本的な構成例が機能ブロックの組み合わせにより概略的に示されている。この図1において、音声対話装置1は、車両に搭載されて、話者(車両運転者)との間での音声応答処理及びその話者による音声コマンドに応じた制御処理を行うように構成されたもので、具体的に図示しないが、カーナビゲーション装置やエンジン制御ECU、移動体通信用ECUなどとの間で例えば車内LANを介してデータの授受を行い得るように構成されている。
音声対話装置1を構成する音声合成部2、話速制御部3(話速制御手段に相当)、音声認識部4(音声認識手段に相当)、話速検出部5(話速検出手段に相当)、対話エージェント部6、応答制御部7(応答制御手段に相当)は、実際には、音声対話装置用ECUのプログラムにより実現されたものであり、それぞれには以下のような機能が設定されている。
音声合成部2は、応答制御部7からの指示に基づいた音声信号を、周知の音声合成処理によってリアルタイムに生成し、その音声信号を応答音声として車載スピーカ8から出力する。尚、このスピーカ8は専用のものでも良いが、カーオーディオ装置のスピーカを兼用できるものである。
話速制御部3は、音声合成部2から出力される応答音声の発話速度を、応答制御部7からの指示速度に基づいた速度となるようにリアルタイム且つ連続的に変更する機能を備えたものである。この場合、話速制御部3は、その発話速度の変更アルゴリズムとして、例えば、応答音声の時間軸を圧縮伸長するという周知のTDHS(Time Domain Harmonic Scaling)法を採用しており、応答音声のピッチが一定のまま発話速度が変更されることになる。
音声認識部4は、車載マイクロホン9から入力された話者の音声を取り込み、その音声(つまり、話者の発話内容)を、例えばキーワードスポッティングを使用した音声認識処理方式より解析することにより、対話に必要な語彙を認識する。
話速検出部5は、音声認識部4が認識した語彙とその発声時間に基づいて、話者による発話速度を検出(予測)する。
対話エージェント部6は、対話のマネージメントのために設けられたもので、音声認識部4が認識した語彙中に含まれるコマンドを選別して応答制御部7に与える構成となっている。
話速検出部5は、音声認識部4が認識した語彙とその発声時間に基づいて、話者による発話速度を検出(予測)する。
対話エージェント部6は、対話のマネージメントのために設けられたもので、音声認識部4が認識した語彙中に含まれるコマンドを選別して応答制御部7に与える構成となっている。
応答制御部7は、上述したような音声合成部2及び話速制御部3の制御機能の他に、車両に搭載された移動体通信機器(携帯電話、自動車電話、データコミュニケーションモジュール(DCM)など)、カーナビゲーション装置、カーオーディオ装置などの制御対象機器群10の動作制御を実行する機能を備えたもので、車載センサ群11(環境条件検出センサに相当)からの各種の検出信号が入力されるようになっている。この場合、上記車載センサ群11の構成要素としては、車両の走行状態や操作状態を検出するための車速センサ、加速度センサ、操舵角センサの他に、移動体通信機器の動作状態などを検出するためのアダプタなどが含まれるものであり、また、カーナビゲーション装置における経路案内情報、渋滞情報のような運転者支援情報などを出力するためのインタフェース部や、所定の車載機器の操作状況をモニタする手段なども含まれ、必要に応じて、車両運転者の視線方向を検出するための視線認識装置や車室内の騒音や会話をモニタするためのマイクロホンも含まれるものである。尚、車載センサ群11からの検出信号は、エンジン制御ECU、移動体通信用ECUなどから車内LANを通じて入力する構成であっても良い。
さて、以下においては、応答制御部7による制御内容のうち、本発明の要旨に関係した部分について関連した作用と共に説明する。
即ち、応答制御部7は、通常状態ではノンアクティブ状態を呈しているが、例えば話者(車両運転者)が操作可能な位置に設けられた対話開始スイッチがオンされたとき、或いは、音声応答装置1の動作開始を要求する特定音声コマンドが音声認識部4及び対話エージェント部6を通じて与えられたとき(話者がマイクロホン9を通じて特定音声コマンドを入力したとき)に、アクティブ状態に切り換えられて話者との対話がスタートする構成となっている。
即ち、応答制御部7は、通常状態ではノンアクティブ状態を呈しているが、例えば話者(車両運転者)が操作可能な位置に設けられた対話開始スイッチがオンされたとき、或いは、音声応答装置1の動作開始を要求する特定音声コマンドが音声認識部4及び対話エージェント部6を通じて与えられたとき(話者がマイクロホン9を通じて特定音声コマンドを入力したとき)に、アクティブ状態に切り換えられて話者との対話がスタートする構成となっている。
話者との対話がスタートしたときには、マイクロホン9を通じて入力された話者の発話内容が音声認識部4にて解析されて対話に必要な語彙が認識される共に、その語彙中に含まれるコマンドが対話エージェント部6により選別されて応答制御部7に与えられる。
上記のようなコマンドを受けた応答制御部7は、以下(1)、(2)のような制御を連続的に実行する。
(1)話速検出部5により検出される話者の発話速度に応じた長さのポーズ時間を決定すると共に、そのポーズ時間が経過したときに、音声合成部2に対して与えられたコマンドに応じた応答を行うための音声信号の作成を指示する制御。
(1)話速検出部5により検出される話者の発話速度に応じた長さのポーズ時間を決定すると共に、そのポーズ時間が経過したときに、音声合成部2に対して与えられたコマンドに応じた応答を行うための音声信号の作成を指示する制御。
(2)話速制御部3に対して、上記音声合成部2での音声信号の生成速度、つまり、スピーカ8を通じて出力される応答音声の発話速度を、話速検出部5により検出される話者の発話速度に応じた指示速度となるように決定し、その指示速度を話速制御部3に与える制御。
尚、本実施例では、上記ポーズ時間は、話者の発話速度が速い状態時ほど比例的に短くなるように制御され、また、上記指示速度は、後述するようなイベントが発生していない通常状態では、話者の発話速度が速い状態時ほど比例的に高速化するように制御される。
尚、本実施例では、上記ポーズ時間は、話者の発話速度が速い状態時ほど比例的に短くなるように制御され、また、上記指示速度は、後述するようなイベントが発生していない通常状態では、話者の発話速度が速い状態時ほど比例的に高速化するように制御される。
応答制御部7には、車載センサ群11からの検出信号をモニタすることにより、予め決められた所定のイベント、例えば、話者側で応答音声が早期に終わって欲しいと感じるイベント(電話の着信など)の発生の有無を監視する機能が設定されている。応答制御部7は、上記のような応答音声の出力途中の段階で、当該イベントが発生したときには、以下(3)のような制御を実行する。
(3)音声合成部2での音声信号の生成速度、つまり、応答音声の発話速度を、それまでの速度より連続的に高速化する制御(応答音声のピッチは変化しない)。
また、応答制御部7は、車載センサ群11から取り込んだ検出信号が予め決められた環境条件(例えば、車両の右左折などに伴うステアリング操作を実施中の状態、車両の急制動を実施中の状態)を満たすものであった場合には、以下(4)、(5)のような制御を実行する。
また、応答制御部7は、車載センサ群11から取り込んだ検出信号が予め決められた環境条件(例えば、車両の右左折などに伴うステアリング操作を実施中の状態、車両の急制動を実施中の状態)を満たすものであった場合には、以下(4)、(5)のような制御を実行する。
(4)上記のような環境条件が解除されるまでの期間だけ、音声合成部2による音声合成処理を禁止した状態、要するに、スピーカ8からの応答音声の提供を見合わせた待機状態を呈する制御。
(5)応答音声の出力途中の段階で上記環境条件が満たされた場合には、例えば、応答音声の出力を一旦停止し、その後に環境条件が解除されたときに、当該応答音声を最初から出力し直すという制御。
(5)応答音声の出力途中の段階で上記環境条件が満たされた場合には、例えば、応答音声の出力を一旦停止し、その後に環境条件が解除されたときに、当該応答音声を最初から出力し直すという制御。
さらに、応答制御部7は、音声認識部4による認識結果に、制御対象機器群10に係る動作開始コマンド或いは動作停止コマンドが含まれていた場合に、以下(6)のような制御を行う。
(6)動作開始コマンド或いは動作停止コマンドの実行タイミングを、車載センサ群11から取り込んだ検出信号により示される環境条件(例えば、車両の右左折などに伴うステアリング操作を実施中の状態、車両の急制動を実施中の状態)に応じた最適なタイミングとなるように調整する制御(具体的には、例えば、上記動作開始コマンドが、移動体通信機器によるハンズフリー電話に対する発信コマンドであった場合には、上記環境条件が満たされている状態では当該発信コマンドの実行を見合わせ、その後に当該環境条件が解除されたときに始めて発信コマンドを実行することになる)。
(6)動作開始コマンド或いは動作停止コマンドの実行タイミングを、車載センサ群11から取り込んだ検出信号により示される環境条件(例えば、車両の右左折などに伴うステアリング操作を実施中の状態、車両の急制動を実施中の状態)に応じた最適なタイミングとなるように調整する制御(具体的には、例えば、上記動作開始コマンドが、移動体通信機器によるハンズフリー電話に対する発信コマンドであった場合には、上記環境条件が満たされている状態では当該発信コマンドの実行を見合わせ、その後に当該環境条件が解除されたときに始めて発信コマンドを実行することになる)。
図2のシーケンス図には、上記(1)、(2)、(4)〜(6)に係る制御内容についての具体例が示されており、以下これについて説明する。即ち、この図2の例は、話者である車両運転者が「A」さん宛てにハンズフリー電話をかけるというシチュエーションに対応したものであり、車両の運転状況が、直進→右折(或いは左折)→直進→急制動→直進再開というように変化した場合における、車載センサ群11、話者、音声認識部4、音声合成部2、話速検出部5、話速制御部3、応答制御部7、対話エージェント部6、制御対象機器群10の動作内容の推移が概略的に示されている。
S1:車両の直進状態で、話者が「電話したい」と発話する。
S2:音声認識部4が「電話したい」という発話内容を認識し、話速検出部5が話者による発話速度を検出し、対話エージェント部6が音声認識部4による音声認識結果に応じたコマンド(電話発信を要求するコマンド)を選別して応答制御部7へ出力する。
S2:音声認識部4が「電話したい」という発話内容を認識し、話速検出部5が話者による発話速度を検出し、対話エージェント部6が音声認識部4による音声認識結果に応じたコマンド(電話発信を要求するコマンド)を選別して応答制御部7へ出力する。
S3:応答制御部7が、ポーズ時間・指示速度決定及び音声出力処理を行う。この処理時には、話者の発話速度が速い状態時ほど比例的に短くなるポーズ時間と、話者の発話速度が速い状態時ほど比例的に高速化する指示速度とを決定し、そのポーズ時間経過後に上記指示速度を話速制御部3に与えると共に、音声合成部2に対し、所定の音声信号(例えば、話者の発話を受け付けたことを示すと共に、電話の発信先に質問するための「はい、どちらですか」の音声信号の生成を指示する制御が行われる。
S4:音声合成部2が、指示された音声信号(「はい、どちらですか」)を生成し、その音声信号を応答音声としてスピーカ8から出力すると共に、話速制御部3が、応答音声の発話速度を応答制御部7からの指示速度となるように制御する。
S5:話者が「Aさんの携帯」と発話する(車両は直進状態のまま)。
S6:音声認識部4が「Aさんの携帯」という発話内容を認識し、話速検出部5が話者による発話速度を検出し、対話エージェント部6が音声認識部4による音声認識結果に応じたコマンド(電話発信左記を指示するコマンド)を選別して応答制御部7へ出力する。
S5:話者が「Aさんの携帯」と発話する(車両は直進状態のまま)。
S6:音声認識部4が「Aさんの携帯」という発話内容を認識し、話速検出部5が話者による発話速度を検出し、対話エージェント部6が音声認識部4による音声認識結果に応じたコマンド(電話発信左記を指示するコマンド)を選別して応答制御部7へ出力する。
S7:応答制御部7が、ポーズ時間・指示速度決定及び音声出力処理を行う。この処理時には、ポーズ時間及び指示速度を決定し、そのポーズ時間経過後に上記指示速度を話速制御部3に与えると共に、音声合成部2に対し、所定の音声信号(例えば、電話の発信先に報知するための「Aさんの携帯に電話します」の音声信号の生成を指示する制御が行われる。
S8:話者が車両を右折(或いは左折)させるためのステアリング操作を行う。
S9:車載センサ群11(特には操舵角センサ)が右折(或いは左折)のためのステアリング操作を検出する。尚、車載センサ群11に車両運転者の視線方向を検出するための視線認識装置が含まれていた場合には、その視線認識装置による検出出力を車両の右折或いは左折操作の判定に利用しても良い。
S9:車載センサ群11(特には操舵角センサ)が右折(或いは左折)のためのステアリング操作を検出する。尚、車載センサ群11に車両運転者の視線方向を検出するための視線認識装置が含まれていた場合には、その視線認識装置による検出出力を車両の右折或いは左折操作の判定に利用しても良い。
S10:応答制御部7が、音声合成部2による音声合成(音声信号の生成)をストップさせる。
S11:話者が車両を直進状態に戻すためのステアリング操作を行う。
S12:車載センサ群11(特には操舵角センサ)が車両を直進状態へ戻すためのステアリング操作を検出する。
S13:応答制御部7が、音声合成部2による音声合成(音声信号の生成)をスタートさせる。尚、車両の右折(或いは左折)が、前記ポーズ時間が経過する前に行われたときには、音声合成が最初から行われることは当然であるが、車両の右折(或いは左折)がポーズ時間経過したタイミングであって応答音声の出力中に行われた場合にも、音声合成を最初からスタートさせる構成となっている。
S11:話者が車両を直進状態に戻すためのステアリング操作を行う。
S12:車載センサ群11(特には操舵角センサ)が車両を直進状態へ戻すためのステアリング操作を検出する。
S13:応答制御部7が、音声合成部2による音声合成(音声信号の生成)をスタートさせる。尚、車両の右折(或いは左折)が、前記ポーズ時間が経過する前に行われたときには、音声合成が最初から行われることは当然であるが、車両の右折(或いは左折)がポーズ時間経過したタイミングであって応答音声の出力中に行われた場合にも、音声合成を最初からスタートさせる構成となっている。
S14:音声合成部2が、指示された音声信号(「Aさんの携帯に電話します」)を生成し、その音声信号を応答音声としてスピーカ8から出力すると共に、話速制御部3が、応答音声の発話速度を応答制御部7からの指示速度となるように制御する。
S15:話者が車両に急ブレーキをかける操作を所定期間だけ行う。
S16:車載センサ群11が急ブレーキ操作を検出する。尚、この検出は、車載センサ群11の車速センサ或いは加速度センサの出力に基づいて行うことができる。
S15:話者が車両に急ブレーキをかける操作を所定期間だけ行う。
S16:車載センサ群11が急ブレーキ操作を検出する。尚、この検出は、車載センサ群11の車速センサ或いは加速度センサの出力に基づいて行うことができる。
S17:車載センサ群11(特には、車速センサ)が、急ブレーキの解除に伴う直進状態の再開を検出する。
S18:応答制御部7が、制御対象機器群10(特には、移動体通信機器)に対して、Aさんへの電話発信コマンドを送出する。
S18:応答制御部7が、制御対象機器群10(特には、移動体通信機器)に対して、Aさんへの電話発信コマンドを送出する。
S19:制御対象機器群10(特には、移動体通信機器)が、Aさんへの電話発信を行う。尚、この電話発信に必要な電話番号は、例えば音声対話装置1内或いは移動体通信機器側に予め構築された電話番号データベースから取得する構成になっている。また、電話発信時には、その発信音が例えば移動体通信機器から報知されるものであるが、例えば、音声合成部2にて電話発信音を生成し、その発信音をスピーカ8から出力する構成としても良い。
要するに、上記した実施例の構成によれば、話者の発話内容が音声認識部4により認識された場合には、応答制御部7が、その認識結果に応じた応答音声を、音声合成部2による合成音声により提供するようになる。この場合、話者による発話速度を検出する話速検出部5及び上記応答音声の発話速度を調整するための話速制御部3が設けられており、通常状態では、当該応答音声の発話速度が、そのピッチを変化させることなく、話者の発話速度が速い状態時ほど比例的に高速化された速度となるように制御される。これにより、話者の感性に即した円滑な対話が可能になる。
また、応答音声は、話者の発話内容が音声認識部4により認識されたときに直ちに出力されるのではなく、話者の発話速度が速い状態時ほど比例的に短くなるように制御されるポーズ時間が経過したときに始めて出力される構成、換言すれば、音声認識部4が話者の発話内容を認識した時点から応答音声を提供するまでの応答時間、つまり、会話における所謂「間」を、話者の実際の発話速度に応じて変化させる構成となっている。このように、話者の感性に合った円滑な対話を行う上で非常に重要な要素となる「間」が、その話者の発話速度に応じた長さに制御される結果、話者の感性に即した円滑な対話を実現できるようになる。
一方、応答音声の出力期間中に、話者側で応答音声が早期に終わって欲しいと感じるイベント(電話の着信など)が発生したときには、応答音声の発話速度が、そのピッチを変化させることなく、それまでの速度より連続的に高速化するように制御される。このため、話者側で応答音声が早期に終わって欲しいと感ずるような範疇のイベントが発生した場合に、その応答音声が終了するまで不要に待たされる事態を防止できるようになり、以て話者側の苛立ちが増大する恐れがなくなるなど、話者の感性に即した円滑な対話が可能になるものである。また、この場合には、イベントの発生に応じて応答音声の発話速度が変化することになるから、話者側では、イベントが発生したことを応答音声の発話速度の変化に基づいて間接的に認知可能になるという利点もある。
尚、例えば、話者側で、応答音声の内容を確実に認識したいと感ずるような範疇のイベントが発生した場合には、応答音声を、ピッチを変化させることなく連続的に低速化する制御を行う構成とすれば良く、このような構成とした場合には、その応答音声内容を話者側で確実に認識できるようになり、以て話者の要求に応じた円滑な対話が可能になるものである。
応答制御部7は、車載センサ群11から取り込んだ検出信号が予め決められた環境条件を満たすものであった場合に、その環境条件が解除されるまでの期間だけ応答音声の提供を見合わせた待機状態を呈するようになる。このため、例えば、話者が応答音声に反応しない方が良いと考えられる環境条件(実施例中で説明したような車両の右左折などに伴うステアリング操作を実施中の状態、或いは、車両の急制動を実施中の状態など)の下では、応答音声の提供が見合わされることになって、対話の信頼性が向上するようになる。
また、応答制御部7は、音声認識部4による認識結果に、制御対象機器群10の動作に係るコマンドが含まれていた場合に、当該コマンドの実行タイミングを、車載センサ群11からの検出信号により示される環境条件に応じた最適なタイミングとなるように調整するようになる。このため、話者からのコマンドに基づいた制御対象機器群10の制御動作を実行しようとする際に、その実行を直ちに行わない方が良いと考えられる環境条件(実施例中で説明したような車両の急制動を実施中の期間や、車両の後退走行期間などが考えられる)の下では、制御対象機器群10の制御動作の開始が見合わされることになるから、その制御対象機器群10の制御に係る信頼性が向上するようになる。
(その他の実施の形態)
本発明は上記した実施例に限定されるものではなく、例えば以下のような変形または拡張が可能である。
音声対話装置1を車両に搭載した場合の実施例について説明したが、所謂デジタル家電の動作を制御するための音声対話装置などに適用しても良い。
話速制御部3は、応答音声の発話速度をTDHS法により変更する構成としたが、他の方式の音声時間軸圧縮伸長アルゴリズムを採用しても良く、また、音声信号の生成スピードを変えることで応答音声の発話速度を変える手法を採用しても良い。
本発明は上記した実施例に限定されるものではなく、例えば以下のような変形または拡張が可能である。
音声対話装置1を車両に搭載した場合の実施例について説明したが、所謂デジタル家電の動作を制御するための音声対話装置などに適用しても良い。
話速制御部3は、応答音声の発話速度をTDHS法により変更する構成としたが、他の方式の音声時間軸圧縮伸長アルゴリズムを採用しても良く、また、音声信号の生成スピードを変えることで応答音声の発話速度を変える手法を採用しても良い。
応答制御部7は、話者の発話に応答するための応答音声の発話速度を、その応答直前の話者の発話速度に応じた指示速度となるように決定する構成となっているが、対話が開始された後における話者側の一連の発話速度を順次平均し、その平均発話速度に応じた指示速度を決定する構成としても良い。この構成によれば、話者の発話速度が一時的要因により変化した場合であっても、最終的には、応答音声の発話速度が当該話者の感性にあった状態に収束するようになるから、円滑な対話を行う上で有益になる。
音声対話装置1を複数の話者が利用する場合には、話速検出部5により検出される話者の発話速度に応じた指示速度のデフォルト値を、実際に音声対話装置1を利用する話者毎に変更する構成としても良い。このような構成とする場合には、各話者の発話速度の平均値を別途に記憶しておき、その平均値に応じて上記指示速度のデフォルト値を変更することになる。
話者の発話に応答した応答音声の出力が終了する前に、その話者が次の発話を行った場合には、その発話に対する応答音声に係るポーズ時間や発話速度を早くする制御を行う構成としても良い。この構成によれば、例えば、話者側に対話を急ぎたい事由がある場合や、所謂せっかちな話者に対するケアが可能になるものである。
請求項1、請求項2に関しては、音声対話装置のみならず、ETCシステムやカーナビの音声ガイド(案内)などのように音声合成によって情報提供するシステムにおいても有効である。
また、本音声対話装置においては、マイクロホン9またはその近傍、或いは、それを象徴する物をドライバーが注視したことを、車両運転者の視線方向を検出するための視線認識装置によって認識し、その時点で音声認識が可能となるようにしても良い。
請求項2において、応答音声の提供を待機状態とするだけでなく、予め設定された条件に合致したときは、やめるようにしても良い。例えば、ドライバーが運転をやめる(停車)状態となったときのように、情報をやり取りする前提がなくなったような場合である。
また、本音声対話装置においては、マイクロホン9またはその近傍、或いは、それを象徴する物をドライバーが注視したことを、車両運転者の視線方向を検出するための視線認識装置によって認識し、その時点で音声認識が可能となるようにしても良い。
請求項2において、応答音声の提供を待機状態とするだけでなく、予め設定された条件に合致したときは、やめるようにしても良い。例えば、ドライバーが運転をやめる(停車)状態となったときのように、情報をやり取りする前提がなくなったような場合である。
1は音声対話装置、2は音声合成部、3は話速制御部(話速制御手段)、4は音声認識部(音声認識手段)、5は話速検出部(話速検出手段)、6は対話エージェント部、7は応答制御部(応答制御手段)、10は制御対象機器群、11は車載センサ群(環境条件検出センサ)を示す。
Claims (3)
- 話者の発話内容を認識する音声認識手段、及びその認識結果に応じた応答音声を合成音声により提供する応答制御手段を備えた音声対話装置において、
前記話者による発話速度を検出する話速検出手段を備え、
前記応答制御手段は、前記音声認識手段が話者の発話の終了を検出した時点から前記応答音声の提供を開始するまでの応答時間を、前記話速検出手段により検出された発話速度に応じて変化させることを特徴とする音声対話装置。 - 前記応答制御手段は、環境条件検出センサからの検出信号を取り込むように構成され、その検出信号が予め決められた環境条件を満たすものであった場合に、その環境条件が解除されるまでの期間だけ前記応答音声の提供を見合わせた待機状態を呈することを特徴とする請求項1記載の音声対話装置。
- 前記応答制御手段は、制御対象機器の動作を制御可能に構成されると共に、環境条件検出センサからの検出信号を取り込むように構成され、前記音声認識手段による認識結果に前記制御対象機器に係る動作開始コマンド或いは動作停止コマンドが含まれていた場合に、当該コマンドの実行タイミングを、前記環境条件検出センサからの検出信号により示される環境条件に応じた最適なタイミングとなるように調整することを特徴とする請求項1または2に記載の音声対話装置。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
JP2012022981A JP2012128440A (ja) | 2012-02-06 | 2012-02-06 | 音声対話装置 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
JP2012022981A JP2012128440A (ja) | 2012-02-06 | 2012-02-06 | 音声対話装置 |
Related Parent Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
JP2006196871A Division JP2008026463A (ja) | 2006-07-19 | 2006-07-19 | 音声対話装置 |
Publications (1)
Publication Number | Publication Date |
---|---|
JP2012128440A true JP2012128440A (ja) | 2012-07-05 |
Family
ID=46645438
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
JP2012022981A Pending JP2012128440A (ja) | 2012-02-06 | 2012-02-06 | 音声対話装置 |
Country Status (1)
Country | Link |
---|---|
JP (1) | JP2012128440A (ja) |
Cited By (18)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
JP2015069037A (ja) * | 2013-09-30 | 2015-04-13 | ヤマハ株式会社 | 音声合成装置およびプログラム |
KR20160021850A (ko) * | 2013-06-21 | 2016-02-26 | 마이크로소프트 테크놀로지 라이센싱, 엘엘씨 | 환경 인식 다이얼로그 정책 및 응답 생성 |
WO2017098940A1 (ja) | 2015-12-07 | 2017-06-15 | ヤマハ株式会社 | 音声対話装置および音声対話方法 |
CN108962283A (zh) * | 2018-01-29 | 2018-12-07 | 北京猎户星空科技有限公司 | 一种发问结束静音时间的确定方法、装置及电子设备 |
JP2019512102A (ja) * | 2016-03-01 | 2019-05-09 | グーグル エルエルシー | 開発者ボイスアクションシステム |
CN109961787A (zh) * | 2019-02-20 | 2019-07-02 | 北京小米移动软件有限公司 | 确定采集结束时间的方法及装置 |
US10430157B2 (en) | 2015-01-19 | 2019-10-01 | Samsung Electronics Co., Ltd. | Method and apparatus for recognizing speech signal |
CN110364145A (zh) * | 2018-08-02 | 2019-10-22 | 腾讯科技(深圳)有限公司 | 一种语音识别的方法、语音断句的方法及装置 |
US10490181B2 (en) | 2013-05-31 | 2019-11-26 | Yamaha Corporation | Technology for responding to remarks using speech synthesis |
US10497367B2 (en) | 2014-03-27 | 2019-12-03 | Microsoft Technology Licensing, Llc | Flexible schema for language model customization |
US10572602B2 (en) | 2013-06-21 | 2020-02-25 | Microsoft Technology Licensing, Llc | Building conversational understanding systems using a toolset |
US10854219B2 (en) | 2015-12-07 | 2020-12-01 | Yamaha Corporation | Voice interaction apparatus and voice interaction method |
KR20210033850A (ko) * | 2019-09-19 | 2021-03-29 | 주식회사 세미콘네트웍스 | 목소리 및 얼굴 안면 감정값의 산출 방법 및 이를 이용한 인공지능 스피커의 출력 방법 |
JPWO2021106080A1 (ja) * | 2019-11-26 | 2021-06-03 | ||
CN113208592A (zh) * | 2021-03-29 | 2021-08-06 | 济南大学 | 一种具有多作答模式的心理测试系统 |
JP2022003388A (ja) * | 2020-12-22 | 2022-01-11 | 阿波羅智聯(北京)科技有限公司Apollo Intelligent Connectivity(Beijing) Technology Co., Ltd. | 車載機器の応答速度を試験する方法、装置、機器及び記憶媒体 |
CN113994424A (zh) * | 2019-04-19 | 2022-01-28 | 奇跃公司 | 识别语音识别引擎的输入 |
US11403060B2 (en) | 2020-01-31 | 2022-08-02 | Fujifilm Business Innovation Corp. | Information processing device and non-transitory computer readable medium for executing printing service according to state of utterance |
Citations (8)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
JPH02210497A (ja) * | 1989-02-10 | 1990-08-21 | Ricoh Co Ltd | 音声合成装置 |
JPH05289691A (ja) * | 1992-04-10 | 1993-11-05 | Nippon Telegr & Teleph Corp <Ntt> | 発話速度測定装置 |
JPH05323993A (ja) * | 1992-03-16 | 1993-12-07 | Toshiba Corp | 音声対話システム |
JPH0721759B2 (ja) * | 1983-05-25 | 1995-03-08 | 株式会社東芝 | 音声認識応答装置 |
JP2000338994A (ja) * | 1999-05-27 | 2000-12-08 | Fujitsu Ten Ltd | 車載用音声認識装置 |
JP2001179667A (ja) * | 1999-12-28 | 2001-07-03 | Sony Corp | 同期制御装置および方法、並びに記録媒体 |
JP2004078100A (ja) * | 2002-08-22 | 2004-03-11 | Denso Corp | 音声出力制御システムおよびコンピュータプログラム |
JP2005321817A (ja) * | 1995-12-04 | 2005-11-17 | Jared C Bernstein | 教育及び試験における適応対話の音声信号から複合情報を得る方法及び装置 |
-
2012
- 2012-02-06 JP JP2012022981A patent/JP2012128440A/ja active Pending
Patent Citations (8)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
JPH0721759B2 (ja) * | 1983-05-25 | 1995-03-08 | 株式会社東芝 | 音声認識応答装置 |
JPH02210497A (ja) * | 1989-02-10 | 1990-08-21 | Ricoh Co Ltd | 音声合成装置 |
JPH05323993A (ja) * | 1992-03-16 | 1993-12-07 | Toshiba Corp | 音声対話システム |
JPH05289691A (ja) * | 1992-04-10 | 1993-11-05 | Nippon Telegr & Teleph Corp <Ntt> | 発話速度測定装置 |
JP2005321817A (ja) * | 1995-12-04 | 2005-11-17 | Jared C Bernstein | 教育及び試験における適応対話の音声信号から複合情報を得る方法及び装置 |
JP2000338994A (ja) * | 1999-05-27 | 2000-12-08 | Fujitsu Ten Ltd | 車載用音声認識装置 |
JP2001179667A (ja) * | 1999-12-28 | 2001-07-03 | Sony Corp | 同期制御装置および方法、並びに記録媒体 |
JP2004078100A (ja) * | 2002-08-22 | 2004-03-11 | Denso Corp | 音声出力制御システムおよびコンピュータプログラム |
Non-Patent Citations (2)
Title |
---|
CSNG200600721007; 東海林 圭輔: '対話に関するリズムや同調作用を考慮した音声対話システム' 情報処理学会研究報告 Vol.2006 No.40, 20060511, 社団法人情報処理学会 * |
JPN6011009280; 東海林 圭輔: '対話に関するリズムや同調作用を考慮した音声対話システム' 情報処理学会研究報告 Vol.2006 No.40, 20060511, 社団法人情報処理学会 * |
Cited By (26)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
US10490181B2 (en) | 2013-05-31 | 2019-11-26 | Yamaha Corporation | Technology for responding to remarks using speech synthesis |
KR20160021850A (ko) * | 2013-06-21 | 2016-02-26 | 마이크로소프트 테크놀로지 라이센싱, 엘엘씨 | 환경 인식 다이얼로그 정책 및 응답 생성 |
CN105378708A (zh) * | 2013-06-21 | 2016-03-02 | 微软技术许可有限责任公司 | 环境感知对话策略和响应生成 |
JP2016524190A (ja) * | 2013-06-21 | 2016-08-12 | マイクロソフト テクノロジー ライセンシング,エルエルシー | 環境を認識した対話ポリシーおよび応答生成 |
KR102231733B1 (ko) | 2013-06-21 | 2021-03-23 | 마이크로소프트 테크놀로지 라이센싱, 엘엘씨 | 환경 인식 다이얼로그 정책 및 응답 생성 |
US10304448B2 (en) | 2013-06-21 | 2019-05-28 | Microsoft Technology Licensing, Llc | Environmentally aware dialog policies and response generation |
US10572602B2 (en) | 2013-06-21 | 2020-02-25 | Microsoft Technology Licensing, Llc | Building conversational understanding systems using a toolset |
JP2015069037A (ja) * | 2013-09-30 | 2015-04-13 | ヤマハ株式会社 | 音声合成装置およびプログラム |
US10497367B2 (en) | 2014-03-27 | 2019-12-03 | Microsoft Technology Licensing, Llc | Flexible schema for language model customization |
US10430157B2 (en) | 2015-01-19 | 2019-10-01 | Samsung Electronics Co., Ltd. | Method and apparatus for recognizing speech signal |
WO2017098940A1 (ja) | 2015-12-07 | 2017-06-15 | ヤマハ株式会社 | 音声対話装置および音声対話方法 |
US10854219B2 (en) | 2015-12-07 | 2020-12-01 | Yamaha Corporation | Voice interaction apparatus and voice interaction method |
JP2019512102A (ja) * | 2016-03-01 | 2019-05-09 | グーグル エルエルシー | 開発者ボイスアクションシステム |
CN108962283A (zh) * | 2018-01-29 | 2018-12-07 | 北京猎户星空科技有限公司 | 一种发问结束静音时间的确定方法、装置及电子设备 |
CN110364145A (zh) * | 2018-08-02 | 2019-10-22 | 腾讯科技(深圳)有限公司 | 一种语音识别的方法、语音断句的方法及装置 |
CN109961787A (zh) * | 2019-02-20 | 2019-07-02 | 北京小米移动软件有限公司 | 确定采集结束时间的方法及装置 |
CN113994424A (zh) * | 2019-04-19 | 2022-01-28 | 奇跃公司 | 识别语音识别引擎的输入 |
KR20210033850A (ko) * | 2019-09-19 | 2021-03-29 | 주식회사 세미콘네트웍스 | 목소리 및 얼굴 안면 감정값의 산출 방법 및 이를 이용한 인공지능 스피커의 출력 방법 |
KR102276951B1 (ko) * | 2019-09-19 | 2021-07-13 | 주식회사 세미콘네트웍스 | 목소리 및 얼굴 안면 감정값의 산출 방법 및 이를 이용한 인공지능 스피커의 출력 방법 |
WO2021106080A1 (ja) * | 2019-11-26 | 2021-06-03 | 日本電信電話株式会社 | 対話装置、方法及びプログラム |
JPWO2021106080A1 (ja) * | 2019-11-26 | 2021-06-03 | ||
US11403060B2 (en) | 2020-01-31 | 2022-08-02 | Fujifilm Business Innovation Corp. | Information processing device and non-transitory computer readable medium for executing printing service according to state of utterance |
JP2022003388A (ja) * | 2020-12-22 | 2022-01-11 | 阿波羅智聯(北京)科技有限公司Apollo Intelligent Connectivity(Beijing) Technology Co., Ltd. | 車載機器の応答速度を試験する方法、装置、機器及び記憶媒体 |
JP7346496B2 (ja) | 2020-12-22 | 2023-09-19 | 阿波羅智聯(北京)科技有限公司 | 車載機器の応答速度を試験する方法、装置、機器及び記憶媒体 |
CN113208592A (zh) * | 2021-03-29 | 2021-08-06 | 济南大学 | 一种具有多作答模式的心理测试系统 |
CN113208592B (zh) * | 2021-03-29 | 2022-08-16 | 济南大学 | 一种具有多作答模式的心理测试系统 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
JP2012128440A (ja) | 音声対話装置 | |
JP2008026463A (ja) | 音声対話装置 | |
JP5709980B2 (ja) | 音声認識装置およびナビゲーション装置 | |
CN107808665B (zh) | 用于处理口头话语流的方法、系统和存储介质 | |
EP1901282B1 (en) | Speech communications system for a vehicle | |
JP2007219207A (ja) | 音声認識装置 | |
JP2020080074A (ja) | 視線検出装置、プログラム、及び、視線検出方法 | |
JP2016018078A (ja) | 音声認識装置及び音声認識システム | |
JPWO2007138741A1 (ja) | 音声入力システム、対話型ロボット、音声入力方法、および、音声入力プログラム | |
US20240212689A1 (en) | Speaker-specific speech filtering for multiple users | |
JP6459330B2 (ja) | 音声認識装置、音声認識方法、及び音声認識プログラム | |
WO2020223304A1 (en) | Speech dialog system aware of ongoing conversations | |
JP2002520681A (ja) | 自動音声認識方法 | |
JP2008250236A (ja) | 音声認識装置および音声認識方法 | |
JP2020077135A (ja) | 制御装置、エージェント装置及びプログラム | |
JP6673243B2 (ja) | 音声認識装置 | |
JP5979303B2 (ja) | 音声制御システム、音声制御方法、音声制御用プログラムおよび耐雑音音声出力用プログラム | |
JP2004301875A (ja) | 音声認識装置 | |
JP2019204015A (ja) | 情報処理装置、プログラム、及び制御方法 | |
JP2008157987A (ja) | 対話制御装置、対話制御方法及び対話制御プログラム | |
JP2020060730A (ja) | 音声認識装置 | |
JP2004318026A (ja) | セキュリティペットロボット及びその装置に関する信号処理方法 | |
JP6332072B2 (ja) | 対話装置 | |
JP7084848B2 (ja) | 制御装置、エージェント装置及びプログラム | |
JP7465700B2 (ja) | 車載装置および車載装置における音声処理方法 |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
A02 | Decision of refusal |
Free format text: JAPANESE INTERMEDIATE CODE: A02 Effective date: 20131022 |