JP3398401B2 - 音声認識方法及び音声対話装置 - Google Patents
音声認識方法及び音声対話装置Info
- Publication number
- JP3398401B2 JP3398401B2 JP21176892A JP21176892A JP3398401B2 JP 3398401 B2 JP3398401 B2 JP 3398401B2 JP 21176892 A JP21176892 A JP 21176892A JP 21176892 A JP21176892 A JP 21176892A JP 3398401 B2 JP3398401 B2 JP 3398401B2
- Authority
- JP
- Japan
- Prior art keywords
- voice
- response
- output
- input
- power
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Expired - Lifetime
Links
- 238000000034 method Methods 0.000 title claims description 31
- 230000003993 interaction Effects 0.000 title claims description 6
- 230000004044 response Effects 0.000 claims abstract description 383
- 238000012546 transfer Methods 0.000 claims description 33
- 238000001514 detection method Methods 0.000 claims description 25
- 230000015572 biosynthetic process Effects 0.000 claims description 23
- 238000009499 grossing Methods 0.000 claims description 23
- 238000003786 synthesis reaction Methods 0.000 claims description 23
- 238000001228 spectrum Methods 0.000 claims description 13
- 206010002953 Aphonia Diseases 0.000 claims description 3
- 230000002194 synthesizing effect Effects 0.000 claims 1
- 230000003044 adaptive effect Effects 0.000 abstract description 19
- 230000005236 sound signal Effects 0.000 abstract description 7
- 230000002452 interceptive effect Effects 0.000 abstract description 2
- 238000010586 diagram Methods 0.000 description 30
- 230000006870 function Effects 0.000 description 29
- 230000008859 change Effects 0.000 description 14
- 230000006978 adaptation Effects 0.000 description 12
- 238000004422 calculation algorithm Methods 0.000 description 12
- 238000012545 processing Methods 0.000 description 12
- 230000007704 transition Effects 0.000 description 12
- 235000015220 hamburgers Nutrition 0.000 description 8
- 238000003909 pattern recognition Methods 0.000 description 8
- 230000008569 process Effects 0.000 description 7
- 238000004364 calculation method Methods 0.000 description 6
- 230000007423 decrease Effects 0.000 description 5
- 230000000007 visual effect Effects 0.000 description 5
- 230000000694 effects Effects 0.000 description 4
- 239000000203 mixture Substances 0.000 description 4
- 235000011389 fruit/vegetable juice Nutrition 0.000 description 3
- 235000003913 Coccoloba uvifera Nutrition 0.000 description 2
- 235000016795 Cola Nutrition 0.000 description 2
- 235000011824 Cola pachycarpa Nutrition 0.000 description 2
- 240000008976 Pterocarpus marsupium Species 0.000 description 2
- 244000061456 Solanum tuberosum Species 0.000 description 2
- 235000002595 Solanum tuberosum Nutrition 0.000 description 2
- 238000012790 confirmation Methods 0.000 description 2
- 238000003708 edge detection Methods 0.000 description 2
- 230000007613 environmental effect Effects 0.000 description 2
- 238000011156 evaluation Methods 0.000 description 2
- 235000015243 ice cream Nutrition 0.000 description 2
- 239000011159 matrix material Substances 0.000 description 2
- 230000000737 periodic effect Effects 0.000 description 2
- 235000012015 potatoes Nutrition 0.000 description 2
- 102100035353 Cyclin-dependent kinase 2-associated protein 1 Human genes 0.000 description 1
- 241001417093 Moridae Species 0.000 description 1
- 208000025174 PANDAS Diseases 0.000 description 1
- 208000021155 Paediatric autoimmune neuropsychiatric disorders associated with streptococcal infection Diseases 0.000 description 1
- 240000000220 Panda oleosa Species 0.000 description 1
- 235000016496 Panda oleosa Nutrition 0.000 description 1
- 102100029860 Suppressor of tumorigenicity 20 protein Human genes 0.000 description 1
- 206010000210 abortion Diseases 0.000 description 1
- 230000002238 attenuated effect Effects 0.000 description 1
- 238000004891 communication Methods 0.000 description 1
- 238000012937 correction Methods 0.000 description 1
- 230000036039 immunity Effects 0.000 description 1
- 230000001788 irregular Effects 0.000 description 1
- 230000007257 malfunction Effects 0.000 description 1
- 230000007246 mechanism Effects 0.000 description 1
- 238000011160 research Methods 0.000 description 1
- 238000005070 sampling Methods 0.000 description 1
- 230000035945 sensitivity Effects 0.000 description 1
- 230000002123 temporal effect Effects 0.000 description 1
Description
対話する音声対話システムに関する。
スとして、音声情報を用いた音声対話システムの開発が
盛んに進められている。
ラフィック情報や画像,アニメーション等の視覚データ
の表示を行なうマルチメディア対話システムとして有効
であり、話者がマイクロホンに向かって発話すると、こ
の音声を認識し、これに対する音声応答をスピーカから
出力して人間との対話を行なうものである。このような
音声対話システムを、例えばハンバーガーショップで用
いた例を説明する。まず、客がマイクロホンに向かって
「ハンバーガー2個とジュース3個」と発話すると、シ
ステムはこれを認識し、「ハンバーガー2個とジュース
3個ですね」と確認を示す発話が出力される。その後、
客が「はい」と返事をすれば、注文がハンバーガー2個
とジュース3個であることが確認され、従業員に通知さ
れる。
個…」と言ってしまった場合には、即時に取消すことは
できず、システムが「ハンバーガー3個…ですね」と確
認の応答がされたときに取消しをして、再度、「ハンバ
ーガー2個…」と発話しなければならない。また、例え
ば客が「ハンバーガー2個とコーラとアイスクリームを
下さい」と言った場合に、システムが誤認識して、「ポ
テト4個とコーラとアイスクリームですね」という応答
がされてしまった場合には、客は、「ポテト4個…」と
応答があった時点で直ちに割込んで訂正したいが、シス
テムの応答がすべて終了するまで訂正することはできな
い。このため、対話に長時間を要してしまい、非常に煩
らわしい。
ける音声対話システムでは、話者からの音声入力と音声
応答出力とを同時に行なうことはできず、システムから
の応答音声がすべて終了した後に、音声を入力しなけれ
ばならない。従って、システムが誤認識した際には、再
度入力するために長時間を有してしまい、効率の良い対
話ができないという欠点があった。
るためになされたもので、その第1の目的は、システム
が音声応答を発しているときにおいても、話者からの音
声入力を取込んで認識することのできる音声認識方法及
び音声対話装置を提供することである。
の重要度に応じて音声応答の出力を変更し得る音声対話
装置を提供することである。
め、本願第1の発明は、マイクロホンなどの入力手段か
ら入力された音声を認識し、この認識結果に基づいて所
定の音声応答をスピーカなどの出力手段から出力して対
話を行なうための音声認識方法において、前記出力手段
から出力された音声応答のインパルス応答の周波数スペ
クトルである伝送関数を、前記音声応答を合成するため
の応答生成パラメータを用いて推定し、推定された前記
インパルス応答により該音声応答を補正し、補正された
前記音声応答のみを入力された音声からキャンセル
し、該音声応答をキャンセルした後の音声を認識するこ
とを特徴とする 。
状態での背景雑音パワーを求める手段と、合成音声出力
時のインパルス応答を基にマイクロホン信号中の合成音
パワーを求める手段と、 前記背景雑音パワーと前記合
成音パワーとの和を音声入力パワーの検出しきい値と
し、該しきい値を超えた音声入力パワーの継続時間を基
に音声入力があるか否かを判定する手段と、この判定手
段によって音声入力があると判断されたときのみ音声認
識を行なう手段と、を具備することを特徴とする 。
ド、ポインティングデバイスのうち少なくとも1つによ
る利用者からの入力を認識するパターン認識手段と、こ
のパターン認識手段による理解結果に基づいて音声応
答、画像応答の応答内容を決定する対話管理手段と、前
記パターン認識手段による理解結果及び前記対話管理手
段から出力される応答内容に基づいて、利用者からの割
込みを受付けるか否かを判定する割込制御手段と、この
割込制御手段からの割込制御情報及び対話管理手段から
の応答内容に基づいて出力中の画像応答や音声応答を打
切るか、もしくは前記割込制御情報及び前記応答内容に
基づいて出力中の画像応答や音声応答の発話速度・韻律
・パワー等の応答生成パラメータを変更して該 画像応
答や音声応答を出力する応答生成出力手段と、を有する
ことを特徴とする。
声応答におけるパワー,ピッチ等の音声特性によって音
声応答が補正され、この補正された信号がマイクロホン
入力から減算される。従って、音声応答が重畳したユー
ザの発話信号から、音声応答が除去された後、音声が認
識される。このため、音声応答出力中においてもユーザ
の発話を行なうことができるようになる。
ィルタを設け、この出力を基に、音声応答が出力されて
いないときには適応化を停止するように制御すれば、音
声応答が出力されていないときに伝達関数推定精度が低
下することはなく、高い推定精度を維持することができ
る。
のパワーを求め、これよりも大きい入力があったときに
入力された音声を認識している。そして、音声応答が完
全に除去されず、スピーカからの音声応答がマイクロホ
ンから取込まれた場合でも、この音声応答のパワーに応
じて音声入力を認識する際のしきい値を上下させること
によって誤入力を防止している。従って、高精度な音声
入力が可能となる。
利用者からの割込入力があった場合にこの入力内容の重
要度及び音声応答の重要度を基に、割込を許可すべきか
否かが決められ音声応答の出力が制御される。これによ
って、入力音声及び音声応答の内容に応じた高度な対話
が可能となる。
する。図1は本発明が適用された音声対話システムの第
1実施例を示す構成図である。
話者からの入力音声を取込むマイクロホン1と、システ
ムの音声応答を出力するスピーカ8と、話者からの入力
音声に重畳された音声応答を除去する音声応答除去部2
と、この音声応答除去部2の出力を取込んで話者の発話
内容を認識する音声認識部5と、認識された音声に対応
する音声応答を選択制御する対話制御部6と、実際に音
声応答をスピーカ8、及び音声応答除去部2に出力する
音声応答部7及び、グラフィック情報や画像,アニメー
ション等の視覚データを表示するディスプレイ16から
構成されている。
ー情報,ピッチ情報,振幅情報、及び有声/無声,無音
等の情報が予め記憶されるルックアップテーブル3a
と、後述するLMS/ニュートンアルゴリズムによって
インパルス応答を求め、これによって音声応答を補正し
て出力するアダプティブフィルタ3と、マイクロホン1
の入力からアダプティブフィルタ3の出力を減じる減算
器4を有している。
の動作を図3に示すフローチャートを参照しながら説明
する。
力すると、この音声信号は音声応答除去部2を介して音
声認識部5に供給される。このとき、音声応答部7から
の出力はないので、音声応答除去部2での処理は行なわ
れず、マイクロホン1から入力された音声信号はそのま
ま音声認識部5に供給される。その後、対話制御部6で
は認識された音声に対する音声応答が選択され(ステッ
プST1)、この音声応答が音声応答部7から出力され
るので、アダプティブフィルタ3に音声応答が供給され
るとともに、スピーカ8から出力される(ステップST
2,ST3)。
の(1)式によってインパルス応答を求める。
算式である。ここで、kは時相を示す因子であり、kが
今回の出力、k+1が次回の出力である。また、R′は
音声応答の相関マトリクスの逆行列であり、ルックアッ
プテーブル3aから与えられる。
された音声応答は、そのままマイクロホン1に入力され
るわけではなく、周囲環境によって反射や減衰等が生じ
る。μはこれらの変化を加味して伝達関数Wを決めるた
めの因子である。また、eはエラー、Xは入力信号ベク
トルである。
応答Xに乗じて出力信号yを生成し、減算器4へ出力す
る(ステップST4)。
らの音声応答が重畳した入力音声が取込まれる。そし
て、取込まれた音声信号dは減算器4に供給され(ステ
ップST5)、減算器4では減算信号sが次の(3)式
で求められる(ステップST6)。
(ステップST7)、話者からの入力音声が認識され、
これに対応する音声応答が対話制御部6によって選択さ
れ、音声応答部7から出力される。そして、アダプティ
ブフィルタ3は、この音声応答を取込んで次のインパル
ス応答を求め(ステップST8)、上述した動作が音声
入力が終了するまで繰り返される(ステップST9)。
8から出力される音声応答をLSM/ニュートンアルゴ
リズムを用いて補正し、補正後の信号をマイクロホン1
から入力された信号から減じることで、マイクロホン1
から取込まれるスピーカ8の出力をキャンセルしてい
る。従って、音声応答がスピーカ8から出力されている
際においても、話者はマイクロホン1から音声を入力す
ることができるようになる。
関マクリクスの逆数R′を用いてアルゴリズムを実施し
たが、音声応答が規則合成されている場合には、音声の
パワー,有声/無声,母音/子音,無音,持続時間情
報、等を用いても良い。特に、音声のパワーpを用い
て、LMS/ニュートンアルゴリズムを実施する場合
は、次の(4)式に示す演算式が用いられる。
実施例の音声対話システムでは、予めルックアップテー
ブル3a内に、音声応答のパワー情報,ピッチ情報等の
特性が記憶されているので、音声応答の特性に応じた好
適なインパルス応答を得ることができる。
答除去部2での除去結果を示す特性図であり、曲線S3
は音声応答のパワー情報、曲線S1 はこのパワー情報を
一定値としてアルゴリズムを実施したときの音声応答の
除去結果、そして、曲線S2はパワー情報が曲線S3 の
如く変化したときのデータを基にアルゴリズムを実施し
たときの音声応答の除去結果である。同図から明らかな
ように、ルックアップテーブル3a内に記憶されたパワ
ー情報を用いてアルゴリズムを実施した方が音声応答の
除去結果が良好であり、高精度に音声応答を除去できる
ことが理解される。
される応答が音声のみの例について述べたが、音声と同
時に音楽を出力させたい場合には、図1に示す音声応答
部7を図6の如く構成する。即ち、音声応答部7は音声
信号を出力する音声合成部10と、音楽信号を出力する
音楽合成部11、及びこれらを合成するミキサ9を有し
ている。そして、音楽の特性情報は、音符から容易に入
手することができ、これを図1に示すルックアップテー
ブル3a内に記憶させれば、前述した音声信号のみの場
合と同様に、音声応答を除去することができる。
の鳴き声等)やブザー音等の音響信号に対しても適用可
能である。ブザー音は周期信号であり、また、ランダム
雑音は不規則であるが定常雑音であるという性質が予め
わかっているので、これらの情報を利用して高精度なノ
イズキャンセルが行なえる。
広帯域雑音(白色雑音)である場合は、スピーカ8から
マイクロホン1までの伝達関数Wの推定が容易であるこ
とが知られている。即ち、音声信号の有声音(母音等)
は、周期信号であり、しかも、非定常性を有するので、
短時間周波数スペクトルは線スペクトルとなる。このた
め、スペクトル成分が広帯域にあるわけではなく、イン
パルス応答の推定精度を悪化させている。そこで、図6
に示した構成とすれば、音声メッセージ以外に音声応答
の周波数成分のないところに雑音や音楽等の広帯域信号
を付加することができ、LMS及びFLMSアルゴリズ
ムの精度を向上させることができる。
する。上述した第1実施例では、当該音声対話システム
へのユーザの音声入力があった場合に、インパルス応答
の推定精度が著しく低下することが知られている。そこ
で、第2実施例では、図8に示すように伝達関数更新制
御部15を設け、推定精度を向上させる。以下、この動
作について説明する。
ンアルゴリズムを用いて推定する際に、過去のインパル
ス応答を例えば100[ms]毎に5秒間だけ保持す
る。
認識部5において、ユーザの音声が検出された場合に
は、インパルス応答の設定を音声発話以前のものに変更
する。つまり、たとえば750[ms]だけ前にユーザ
からの音声が入力された場合には、800[ms]前の
インパルス応答W-8がW0 に変わって逐次処理に使用さ
れるのである。また、この動作を図7に示すタイムチャ
ートに基づいて説明する。
り、曲線S5 はユーザの発話信号である。そして、音声
応答除去部2で100[ms]毎にインパルス応答を更
新しながら音声応答を除去し、音声認識部5でユーザの
発話を検出して発話の始点tS、終点tE を検出する。
また、ユーザの発話を検出した場合には図8に示すイン
パルス応答更新制御部15により、インパルス応答の推
定値W0 を更新するか、過去の推定値Wi (i=−1〜
−50)を用いるかを100[ms]毎に判定する。こ
れによって、アダプティブフィルタ3では、より精度の
良いインパルス応答を得ることができるので、音声応答
の除去効率が向上する。
生成するために音声規則合成を行なっており、以下この
音声合成に必要な一連の内部情報(例えば、ピッチ,パ
ワーの時系列)から精度の良いインパルス応答を推定す
るための方法について図5,図4を参照しながら説明す
る。図5は、「取消します(torikeshimas
u)」という音声応答を合成する場合のパワーとピッチ
の時間変化を示す図である。また、図4はFLMSの集
束係数を求める際のフローチャートである。ただしFL
MSではインパルス応答の周波数スペクトルである伝達
関数の推定を行う。
示すパワー情報から無音区間であるかどうかを判定する
(ステップST11)。そして無音であると判定された
場合(ステップST11でYES)にはFLMSの集束
係数μ(f)をすべての周波数において「0」とおく
(ステップST14)。これによって、伝達関数の推定
値は適応推定によっても変化しなくなるため、無音区間
で雑音がマイクロホン1から入力されても伝達関数の推
定値は影響を受けない。
(ステップST11でNO)、音韻が子音であるか母音
であるかが判定される(ステップST12)。この判定
は現在の音韻が既知であるため容易に行なえる。
テップST12で「子音」側)には、更にそのパワーが
しきい値(例えば、周囲の環境雑音レベル+20dB)
以上であるか否かが判定される(ステップST15)。
そして、しきい値以下の場合(ステップST15でN
O)にはすべての周波数についてμ(f)=0とする
(ステップST16)。また、しきい値以上の場合はす
べての周波数においてμ(f)=a(aは所定の集束係
数)とする(ステップST17)。
T12で「母音」側)には、そのパワーがしきい値以上
であるか否かが判定される(ステップST13)。そし
て、しきい値以下の場合(ステップST13でNO)に
は、すべての周波数についてμ(f)=0とする(ステ
ップST18)。
でYES)には、例えば、ピッチ周波数fp の整数倍の
周波数のまわり±(1/3)fp の範囲で、μ(f)=
aとする。また、この範囲外ではμ(f)=0とする
(ステップST19)。即ち、次の(5)式である。
す(ステップST20)。
ワーの大きい周波数成分を重視して伝達関数推定値の更
新を行なうため、高精度の推定が可能である。
る。前記したLMS/ニュートンアルゴリズムによる伝
達関数推定では、音声のような非定常信号を入力とした
場合には推定精度が変化し、推定動作が不安定になるこ
とが知られている。しかし、対話システムでは合成音声
を入力とした場合でも安定なインパルス応答推定が必要
である。そこで、以下では入力信号に大きなパワー変動
がある場合でも高精度のインパルス応答を安定に求める
方法を説明する。
であり、図1に示した音声応答除去部2の内部構成を示
している。図示のように、この音声応答除去部2は、合
成入力側(音声応答)、及びマイク入力側にそれぞれ設
けられたA/D変換器31,32と、音声応答信号パワ
ーを平滑化する第1の平滑化フィルタ33、第2の平滑
化フィルタ34と、各平滑化フィルタの出力信号を基に
適応化を行なうか否かを判定する適応・停止切換部35
と、アダプティブフィルタ3と、たたみ込み演算部36
と、減算部4から構成されている。
さく設定されており、例えば時定数t1 は10[ms]
である。
きく設定されており、例えば時定数t2 は100[m
s]である。
化フィルタ33の出力が所定のしきい値Va 以下となっ
た場合にアダプティブフィルタ3による適応化を停止さ
せ、第2の平滑化フィルタ34の出力が所定のしきい値
Vb 以上となったときに適応化を開始させるように動作
する。
情報を示しており、同図(a)は第1の平滑化フィルタ
33の出力、そして、同図(b)は第2の平滑化フィル
タ34の出力を示している。なお、時定数の違いから第
2の平滑化フィルタ34の出力信号の方が滑らかになっ
ていることは言うまでもない。
音がとぎれた点付近の各フィルタ33,34の出力を重
ねた図である。通常、無音部分と音声部分との亘りの部
分のように音声のパワーが大きく変化したときに伝達関
数の推定精度がわずかの時間内、例えば1[msec]
の間に急激に低下する。従って、音声のパワーが大きく
変化したときにはす早く適応化を停止することによっ
て、高い推定精度を維持することができる。そこで、図
14に示す如く、第1の平滑化フィルタ33の出力Pa
(t)がしきい値Va 以下となったときに適応化を停止
し、第2の平滑化フィルタ34の出力Pb (t)がしき
い値Vb 以上となったときに適応化を開始すれば、音声
のパワーが大きく変化したときの適応化は行なわれな
い。これによって、高い推定精度を維持することができ
る。
音声を入力したときのインパルス応答の推定結果を示し
ており、曲線S11は、上記した適応化推定停止を行な
った場合、曲線S12は行なわない場合の推定結果であ
る。同図から明らかなように、停止を行なうほうが高精
度にインパルス応答を推定できることが理解される。
ある。図から明らかなようにインパルス応答精度が高い
程、すなわち合成音除去量が大きい程音声認識率は高く
なり、合成音声除去の効果が理解される。また、認識方
式は、上記キーワードスポッティングと雑音免疫学習の
組み合わせに限る必要はなく、単語音声認識やHMMに
よる連続音声認識方式でも良い。
の係数であるステップゲインを求める際の動作を示すフ
ローチャートである。
31)、第1の平滑化フィルタ33の出力パワーp
a (k)がしきい値Va (例えばVa =合成音の平均パ
ワーである−20dB)以下であるか否かを判定する
(ステップST32)。そして、しきい値Va 以下であ
ると判定された場合には(ステップST32でYE
S)、LMSのμを0として(ステップST36)伝達
関数の更新を行なわないようにする。これは、前記した
(4)式から容易に理解され、集束係数μ=0の際には
Wk は更新されない。
上であると判定されると(ステップST32でNO)、
次に第2の平滑化フィルタ34の出力パワーpb (k)
がしきい値Vb 以下であるか否かを判定する(ステップ
ST33)。そして、しきい値Vb 以下であると判定さ
れた場合には(ステップST33でYES)、集束係数
μ=0(ステップST37)として伝達関数の更新を行
なわない。すなわち、図14における「停止」の部分を
示している。
以上となると(ステップST33でNO)、ステップゲ
インを以下の(5)式で求める。
号のパワーが低減した場合には、適応化を停止させるの
で、高い推定精度を維持することが可能である。
個設ける構成としたが、特にこれに限定されるものでは
なく、1、又は3以上の平滑化フィルタを用いても構成
可能であることは自明である。
応フィルタの入力信号である合成音声と希望出力である
マイクロホン信号とが常に一定の時間差をもって得られ
ることが必要である。すなわちマイクロホン信号中の合
成音成分は、スピーカから出力された合成音とは音響伝
達系の伝播遅延分だけ時間差があり、伝達関数推定の際
はこれが保存されている必要がある。入力信号の合成音
声を計算機内部から直接得る場合には、計算機の負荷の
具合や思わぬ誤動作により、計算機内部に持っている合
成音声が期待したタイミングでスピーカから出力されな
い場合が考えられる。このような場合にも安定に伝達関
数推定を行なうため、図9に示すように2chのA/D
変換器31,32によってマイクロホン信号と合成音声
信号とを得ることにより、一定のタイミングで2つの信
号を得ることが可能である。
実時間で計算を終えるためにDSPボードを用いて音声
応答除去部を構成できる。
システムの外観である。利用者はマイクロホン23に向
かって音声を入力し、システムの合成音声応答がスピー
カ21から出力される。上記AD変換装置は音声信号の
帯域を考慮して12[kHz]のサンプリング周波数を使
用している。利用者はモニタ22の補助情報を見ながら
対話を進めていくが、合成音除去装置によって合成音声
が打ち消されており、音声認識装置には利用者の音声だ
けが入力されるので、利用者はシステムが応答中でも割
り込んで音声を入力することができる。このとき、マイ
クロホンはスピーカからの合成音声をなるべく拾わない
ように指向性のものを用いても良いが、周囲の壁からの
反射音は残ってしまうため、指向性マイクホンの使用の
みでは合成音声を消すことはできない。又、入力音声の
SN比を良くするためになるべくマイクロホンの近く、
例えばマイクロホンから30cm以内程度の距離で発声す
るのが望ましいが、ユーザの体に反射した合成音がマイ
クロホンに入ってしまうことになる。この大きさはユー
ザとマイクロホンが近いために反射音の中で最もレベル
が大きく、且つ体の動きによって振幅と時間遅れが変化
する。以上のような場合でも適応フィルタによって伝達
関数を更新しているので周囲の壁による反射やユーザの
動き、あるいは他の人々の動きによる伝達関数の変化に
追随することができ効果的に合成音を除去することがで
きる。
る。これは、システムが誤って合成音を検出してしまう
ことを防止する例である。
ク図である。図示のように、この音声対話システムは減
算器4の出力側に音声検出部31が設けられている。
背景雑音及び除去されるべき合成音が誤って残ってしま
った信号を基に音声入力があったか否かを判定するもの
であり、図17に示すように、検出しきい値決定部32
と、音声判定部33と、インパルス応答推定部34から
構成されている。
とマイクロホン1間のインパルス応答を推定し、これを
検出しきい値決定部32に供給する。
ス応答とスピーカ8から出力される合成音声を基に、減
算器4の出力が音声入力であるか否かを判定するための
しきい値を決定する。
値を越えた信号の継続時間等に基づいて入力信号が音声
入力であるか否かを判定するものである。
同図は音声検出に使う検出パラメータの例を表したもの
で、音声の始端をA、終端をBで表してある。予め背景
雑音パワーPoを測定し、これに始端決定用のマージン
Ms、例えば5dBを加えた値を始端検出しきい値P
s、終端決定用マージンMe、例えば3dBを加えた値
を終端検出しきい値Peと定める。また、始端決定用の
音声持続時間Tsを例えば20ms、終端決定用の無音
持続時間Teを例えば200ms、最小音声持続時間T
vを例えば200msと定める。
間隔、例えば10ms毎に行い、新しい値が得られる度
に検出しきい値との比較を行いながら、例えば図19の
状態遷移図に従って検出状態の遷移を行い、音声検出を
行うことができる。時間はパワー計算時間間隔の倍数で
表すことにし、図19で始端Aから測った時間をns、
終端から測った時間をneとしてある。また、時刻を
i、時刻iにおけるパワーをPiで表してある。また、
矢印は状態の遷移先を示し、矢印の傍らの式は遷移条件
を表している。状態数は6個であり、音声が入力されて
いない状態を表す無音状態(S0)、仮の始端が定まっ
た状態を表す始端仮定状態(S1)、始端が確定した状
態を表す始端確定状態(S2)、音声であることが確定
していることを表す音声確定状態(S3)、仮の終端が
定まった状態を表す終端仮定状態(S4)、音声がまだ
継続していることを表す音声継続状態(S5)、終端が
確定し、音声検出が終了した状態を表す終端確定状態
(S6)がある。
の状態にあり、ある時刻is でパワーPiが始端検出し
きい値Psを越えると時刻is を仮の始端と定め、始端
仮定状態(S1)へと遷移する。Psを越えない場合は
無音状態(S0)のままである。
sを測りはじめ、パワーが始端検出しきい値Psを越え
たままnsが始端決定用の音声持続時間Ts以上になっ
た場合には時刻is を始端であると定めて始端確定状態
(S2)へと遷移する。時間Tsが経過するまでは始端
仮定状態(S1)でいる。時間がTsに達する前にパワ
ーが始端検出しきい値Psを下回った場合には無音状態
(S0)へと遷移する。次いで、始端確定状態(S2)
においてパワーがPs以上のまま時間nsが最小音声持
続時間Tv以上になった場合には時刻is から現在まで
の入力信号が音声であるとみなし、音声確定状態(S
3)へと遷移する。Tvに達する前にパワーがPsを下
回った場合には無音状態(S0)へと遷移する。
ワーがPeを下回った場合にはこのときの時刻ie が終
端であると仮定し、終端仮定状態(S4)へと遷移す
る。時刻ie から終端決定用の時間長パラメータneを
測り始める。パワーがPe以上の場合には音声確定状態
(S3)のままである。その後、終端仮定状態(S4)
においてパワーがPeを下回ったままneが終端決定用
の無音持続時間Te以上となった場合には終端が決定し
たものとし、終端決定状態(S6)へ遷移して検出処理
を終了する。Teに達する前にパワーPがPe以上とな
った場合には音声継続状態(S5)へと遷移する。次い
で、音声継続状態(S5)おいてパワーPiがPeを下
回った場合にはこのときの時刻ie ′が終端であると仮
定し、終端仮定状態(S4)へと遷移する。パワーがP
e以上の場合には音声継続状態(S5)のままである。
こうして、音声入力が認識されるのである。
8からの音声応答が完全に除去されないときの音声検出
の方法について説明する。音声応答が出力されている場
合には合成音の分だけ入力信号レベルが上がるので、検
出しきい値をその分上げておくことによって誤った音声
検出をなくすことができる。高いレベルの合成音が入力
されても検出されないように、安全のためにしきい値の
上げ幅を大きな一定値で不変の値とすると、音声応答が
ない場合の検出性能を低下させることになる。したがっ
て、常に検出性能を高く保つには、応答音声のパワーに
応じて最低限の上げ幅でしきい値を毎時設定することが
望ましい。以下に図20のタイムチャートを使って音声
応答のパワーに応じたしきい値設定方法を説明する。
ワーPoの測定(ステップST41)、及び、一定時
間、例えば3秒間合成音を出力してスピーカ−マイクロ
ホン間のインパルス応答推定を行う(ステップST4
2)。インパルス応答推定は応答音声除去部2で行って
いるのでその結果を使うことができ、新たに推定部を設
ける必要はない(ステップST43)。次に推定したイ
ンパルス応答に音声応答信号を畳み込んでマイクロホン
信号中の合成音成分とそのパワーPsを求める(ステッ
プST44)。合成音パワーPsと背景雑音パワーPo
との和Pを音声検出のベースレベルPbとおくことによ
って合成音パワーに応じたしきい値設定を行うことがで
きる(ステップST45)。時間i=0以後、パワー計
算は一定時間間隔、例えば10ms毎に行うことにより
計算量を減らすことができ、その際応答音声除去部2で
推定された新しいインパルス応答を使うことによって音
響系の変化にも対応できる。合成音は音声応答除去部2
によって消去されているので、音声応答パワーの推定値
Psはもっと小さい値にすることも可能であるが、音響
系が変化している場合はインパルス応答の推定が音響系
の変化に追随できずに消去率が小さくなることもあるの
でPsをそのまま使うのが安全である。
について説明する。適応フィルタの入力である音声信号
は周波数スペクトルが平坦でないため、LMSアルゴリ
ズムによる適応フィルタの収束速度が遅くなることが知
られている。そこで、広帯域雑音を合成音声に付加する
ことによって全周波数のS/Nを上げ、伝達関数の高精
度な推定を行うことができる。その際、応答音声信号パ
ワーに応じて雑音パワーを変化させることにより雑音が
ユーザーにとって耳障りとならないようにすることがで
きる。特に無音部では雑音が気になりやすいので雑音振
幅を0とおくとよい。
場所における環境雑音、例えば駅の人込みの雑音や計算
機室の雑音を録音したものか、または似たような雑音と
すれば一定の振幅で連続して出力しても耳障りでないよ
うにできる。
駆動時の収束速度の低下は、入力信号のスペクトル平坦
化によっても改善されることが知られている。平坦化の
ためには通常逆フィルタが使われるが、入力の差分信号
をとることによっても低周波成分に偏ったパワーを補正
することができる。差分処理は非常に簡単な処理である
ため計算量も少なく、リアルタイムシステムには都合が
良い。図21は合成音の「いらっしゃい」の「い」の音
の周波数スペクトルで、曲線aは差分処理後、曲線bは
もとのスペクトルを表している。差分処理によって中高
域成分のパワーが低域と同等となり、平坦化しているこ
とが理解される。
という合成音声を入力としたときの伝達関数推定結果で
ある。曲線cは音声応答パワーに対して20dB低いレ
ベルの白色雑音を付加した場合、曲線bは差分処理を使
った場合、dはどちらの処理も行わない場合の推定結果
であるが、雑音付加、差分処理各々により推定精度が向
上することが理解できる。更に、曲線aは雑音付加と差
分処理を併用した場合の実験結果であるが、両処理の併
用により更に推定精度が向上することが理解できる。
キャンセルする際の合成音の音量、スピーカとマイクロ
ホンの位置と向きの設定方法に関する例を以下に説明す
る。
の関係を示している。図でaは消去されたパワーを、b
は残留パワーを表している。合成音を大きくするほど消
去パワーは大きくなるが残留パワーも大きくなるので、
音声認識に対しては合成音を小さく設定する方が効果的
であることが理解される。また、音声入力用のマイクロ
ホンや出力用のスピーカは指向性を持ち、設定によって
マイクロホンに入力される音声応答のパワーが異なるた
め、キャンセルの効果にも差が出てくる。図24はマイ
クロホンの向きとキャンセル性能の関係を表した図で、
図25に示すような設定でマイクロホンとスピーカのな
す角度φを変化させた結果である。図でbは消去された
パワーを、cは残留パワーを表している。マイクロホン
は広く使用されている単一指向性のもので、感度最小と
なる死角はマイクロホンの握り柄の方向である。マイク
ロホンの頭をスピーカに向けた場合が最も消去パワーが
大きいが、残留パワーも大きくなる。逆に死角をスピー
カに向けた場合が残留パワーが最も小さいため、音声認
識に対して効果的であることが理解される。
の間の距離とキャンセル性能の関係を表している。図で
aは消去されたパワーを、bは残留パワーを表してい
る。距離を大きくするほど残留パワーも小さくなること
が理解される。
る合成音をなるべく小さくすることが音声認識に対して
効果的な音響系の設定であることが理解される。したが
って、(1) 出力合成音は対話に差支えない範囲内で可能
な限り小さい音量とする、(2) マイクロホンの死角に入
るようにスピーカを置く、(3) スピーカとマイクロホン
はなるべく距離を離す、ことが効果的な音響系設定であ
る。
る。該第5実施例は、システムからの応答出力中に利用
者が割り込んで入力を行うことへの対処を考慮した音声
対話システムであり、図27に示すように入力認識理解
部41と、対話管理部42と、応答生成出力部43と、
割込制御部44から構成されている。そして、例えば図
28(a)に示す如くの応答中に利用者からの割込み入
力を受けることのできない対話から同図(b),
(c),(d)に示すように、割込み入力の意味を理解
するに必要なキーワードを認識し、あるいは、入力音声
の電力が最小音声持続時間TV 以上続けて始端検出しき
い値PS を越えた場合、割込み入力があったものとして
検出する。この検出に要する時間をTdet とする。そし
て、割込みを受けたら応答を中断する場合(b)、割込
みを受けたら応答をフェードアウトさせる場合(c)、
そして、割込みを受けたら応答の区切りの良いところま
で出力する場合(d)など柔軟な対話を可能とさせる。
入力を検出、認識してその内容を理解するためのもの
で、入力メディアとして音声、キーボード、マウスやタ
ッチパネルなどのポインティングデバイスを利用してい
る。音声入力では、例えばHMMやキーワードスポッテ
ィングなどの方法により発話内容を認識、意味を理解す
る。キーボード入力では文字列解析を行い、ポインティ
ングデバイスでは例えばポイント位置や移動方向、移動
速度情報からその意味を理解する。
1から得た入力の理解結果から、次に出力すべき応答の
内容を決める。例えば、入力の理解結果とその履歴や入
力の直前のシステムの応答内容から計算機の内部状態が
決まるように対話の流れを状態遷移で表現し、予め決め
ておいた各状態での出力すべき応答内容のテーブルを参
照して、応答内容を決定する。応答内容の例を表1〜表
5に示す。
ですね。」という応答内容である。表1の例は、応答内
容の中に特に強調すべきポイントのない普通の場合であ
る。表2は、「きのう」であるかどうかを確認するとき
の応答内容の例であり、「きのう」の部分の重要性を高
くしている。表3は、「表示」するかどうかを確認する
ときの応答内容の例であり、「表示ですね」の部分の重
要性を高くしている。表4,5は「ホストpanda から応
答がありません。」という警告のための応答内容であ
り、応答内容の一部の重要性が高い例と応答全体の重要
性が高い例を示している。
決められた応答内容にしたがい、音声を含む応答メディ
ア、例えば応答内容にしたがった音韻処理、音響パラメ
ータの生成、音声波形の生成の順に処理することによる
合成音声などの聴覚的なメディアを用いた応答の生成、
音声応答と同じ応答文あるいはその要約した内容、ある
いはそのポイントとなる言葉のテキストや応答内容にし
たがい、システムの内部状態などを提示するグラフィク
スなどの視覚的なメディアなどを用いた応答を生成出力
する。対話管理部42から応答内容が渡されると、応答
出力とその出力タイミングを示す応答出力位置情報を決
定し、それにしたがい応答出力を開始する。応答出力位
置情報の例を表6,図29に示す。
りこの限りではなく、他の聴覚メディア、あるいは視覚
メディアについても同様の出力タイミングを示す応答出
力位置情報を決めることができる。
合、出力する応答の例えば文、節、句、文節、単語、音
節、あるいはこれら複数からなる意味上のまとまりをな
すシーケンスを合成単位とし、この合成単位とその出力
時間を示すデータを一覧にしたものである。このような
合成単位毎の出力時間の一覧は、発話速度、合成素片の
継続時間長、応答出力開始時刻から容易に作成できる。
この応答出力位置情報により、図29に示すように、応
答出力の途中におけるユーザの割込みがあると、その割
込みのあった時刻を応答出力と対応づけて知ることがで
き、割込制御部44は割込制御情報を出力し、例えば応
答出力を途中で打切ったり、フェードアウトさせたり、
応答生成パラメータを変更することができる。
生成を、公知の方法、例えば河井恒:“日本語テキスト
からの音声合成システム”東京大学学位論文(昭和63
年12月)に示されている方法により、図30に構成例
を示すように、音声応答の発話速度、韻律、パワーなど
の応答生成パラメータの値を、それぞれ、発話速度決定
部45、韻律決定部46、パワー決定部47において、
応答内容に応じて決定する。応答生成パラメータ値は、
音響パラメータの生成の際に決定する。またパワーの値
は、後述するように、波形生成後に変更することができ
る。例えば、後述するように応答内容の重要性が高けれ
ば、発話速度を緩め、イントネーションの変化幅を大き
く、パワーは大きめにするなどのように決める。イント
ネーションの変化幅は、公知の方法、例えば藤崎、須
藤:“日本語単語アクセントの基本周波数パタンとその
生成機構のモデル”日本音響学会誌,27,9,pp4
45〜453(昭和46年)の方法により容易に制御で
きる。
成例に示すように、割込制御部44から応答割込制御情
報を受け取ると、それにしたがい出力中の音声を含む応
答を打切るか、出力中の音声応答の発話速度、韻律、パ
ワーを含む応答生成パラメータを変更する。応答を打切
る場合、出力中の合成単位までは出力してそこで出力を
打切る。合成単位が音節の場合、例えば、出力中の音節
や単語や文節の直後の境界まで応答を出力する。前述し
た通り、合成単位はさまざまな場合が考えられ、出力を
打切る場所の選び方はこの限りではない。このような応
答の中断方法は、合成単位を音節、単語、文節、句など
にすることにより、自然に応答出力を打切ることができ
る。規則合成などの場合には、音韻、単語、文節、句な
どの単位でまとめて合成をし、途中で打切る場合は、出
力中の合成単位までで応答が終わるように中断させ、録
音音声を再生する場合は、出力中の音声素片の出力が終
わった時点でそのまま応答を打切ればよい。また、応答
生成パラメータを変更する場合、発話速度決定部45に
おいて発話速度を例えば±30%変化させるとか、韻律
決定部46においてアクセント・フレーズに対応するイ
ントネーションの変化率を±50%変化させるとか、パ
ワー決定部47おいて例えば1秒後に0になるようにフ
ェードアウトさせる減衰曲線を用意しておき、応答出力
波形にたたみこみをする、あるいは音響パラメータ生成
の際に、パワーの時間変化にこの減衰曲線をたたみこむ
などの方法により制御する。この減衰曲線は、打切り
用、フェードアウト用など複数用意しておくことができ
る。また、たたみこみの結果、出力が完全に0になると
ころで、応答出力を完了したものとして次の処理に移
る。なお、これらの変化率の値の例は応用に応じて変わ
りうるもので、必ずしもこの限りではない。
は応答打切りなどのときの応答出力、同図(b)は4番
目の出力単位で応答を打切る際の応答出力を示してい
る。また、図32(a)は応答打切制御を示すフローチ
ャートであり、同図(b)は応答内容のn番目の応答の
生成出力を具体的に示すフローチャートである。この例
では、CV音節パラメータを合成素片とする音声合成応
答の生成を示している。応用によりCVC音節パラメー
タを合成素片としたり、録音音声を再生することも可能
であり、応答生成出力の方法はこの限りではない。
ドアウトさせるタイミング、あるいは応答生成パラメー
タ値の変更を始めるタイミングは割込制御情報で指定さ
れる。例えば、発話速度を変える場合には、図33に示
すように割込制御情報で指定されたタイミングから発話
速度を変更する。この例では応答内容の4番目の応答か
ら速度が上昇している。値の変更は、合成単位毎に変化
させてもよいが、指定されたタイミングからなめらかな
目標値に変化させても良い。また、韻律制御の場合は図
34,35に示されており、図34は韻律変化が普通の
場合、図35は応答内容の4番目の応答から変化が大き
くなった例である。録音音声を再生する場合は、韻律の
変化幅を変えた数種類の合成素片を用意しておき、割込
制御情報を受けて、変化幅に応じた素片を選択して再生
を行う。
り、このパワー制御曲線を、パワーのパラメータ値にた
たみこむか、あるいはパワーのパラメータのオフセット
値として利用する。同図(a)は応答内容の4番目応答
からパワーが増加する例、同図(d)は4番目の応答か
らパワーが減少する例、同図(c)は4番目の応答から
フェードアウトする例である。パワーのように時間的に
急激に変化させると本質的にノイズを生じてしまうパラ
メータでは、なめらかな曲線、例えば、臨界制動系のス
テップ応答曲線や、多項式曲線、三角関数による曲線な
どのたたみこみを行う。
示す各フローチャートの流れにしたがって応答割込制御
情報を出力する。
割込を許可しない制御を行う例であり、応答出力中には
(ステップST51でYES)未出力応答の長さが基準
値以上であるか否かが判定される(ステップST5
2)。基準値は、合成単位の数やモーラ数、単語数、文
節数などを単位として決めておく。例えば8モーラと
か、3単語とか、合成単位1回分のような値にする。そ
して、基準値以上である場合には(ステップST52で
YES)、すでに必要な情報を出力されていると見な
し、応答打切り等の制御を行う(ステップST53)。
一方、未出力応答の長さが基準以下である場合には(ス
テップST52でNO)、未出力応答をそのまま出力す
る(ステップST54)。その後、次の応答内容を決定
し、応答生成出力を行う(ステップST55)。
答を中断せずそのまま出力するよう制御する例であり、
応答出力中には(ステップST61でYES)出力中の
応答内容の重要性を判断する(ステップST62)。そ
して、重要である場合には(ステップST62でN
O)、例えばパワーを減少させたり、発話速度を遅くさ
せる等の制御を行う(ステップST62)。また、出力
中の応答内容が重要である場合には(ステップST62
でYES)、未出力応答を出力する(ステップST6
4)。その後、次の応答内容を決定し応答生成出力を行
う(ステップST68)。前述したように応答内容の重
要性は、応答全体に対しても、あるいは応答の一部であ
る合成単位ごとに対しても判断でき、各場合についての
具体例は後述する。
力中の応答内容の重要性を比較して制御する例である。
つまり、話者からの入力内容とスピーカからの応答内容
とを比較して重要な方を優先させようとするものであ
る。
でYES)入力理解内容と出力理解内容との重要性の比
較が行われる(ステップST72)。その結果、入力理
解内容の方が重要である場合には(ステップST72で
YES)、応答出力のパワーを減少させたり、発話速度
を遅くすることにより、応答出力を制御する(ステップ
ST74)。また、出力理解内容の方が重要である場合
には(ステップST72でNO)、未入力応答をそのま
ま出力する(ステップST73)。その後、次の応答内
容を決定し、応答生成出力を行う(ステップST7
5)。
れているうちは割込みを行わないよう制御する例であ
る。いま、応答出力中には(ステップST81でYE
S)未出力応答中に重要な内容があるか否がか判定され
る(ステップST82)。そして、重要な内容がある場
合には(ステップST82でYES)、未出力の部分の
応答生成出力を行い(ステップST83)、重要な内容
が出力されるまで繰り返す。そして、重要な内容が出力
されると(ステップST82でNO)、例えば応答打切
り等により応答出力を中断する(ステップST84)。
その後、次の応答内容を決定し、応答生成出力を行う
(ステップST85)。
果を利用する場合、表8に例を示すように、その利用者
の割込み発声の内容の重要性を評価する。
うに、応答の中断を要求する発話には普通の割込み発声
よりも高くなるように入力内容重要性を評価する。例え
ば相づちなど出力中の応答の中断を必要としない割込み
があった場合のように、入力の理解結果内容の重要性の
評価結果が低い場合、出力中の応答はそのまま出力す
る。また、評価結果が普通ないしは重要な場合には、出
力中の応答を中断ないしは応答生成パラメータを変更す
る応答割込制御情報を出力する。例えば、応答の中断を
要求する割込みがあった場合は、応答を中断させるか、
あるいは発話速度を速めたりして応答を早く終了させ
る。なお、表8に示した理解内容、重要性の例はあくま
で一例であり、応用によりこの限りではない。
利用する場合、応答内容の重要性と、割込みタイミング
を参照して応答出力の優先度を評価する。この応答出力
の優先度は、表1〜表5に例を示したように、応答の合
成単位毎、あるいは応答内容の全体の重要性を参照し
て、表9〜表12に例を示すように評価する。
用者へ伝える応答内容のとき割込みがあった場合、即
ち、応答出力の優先度が高い場合、図38に例を示した
ように、割込み入力を受け付けない。あるいは警告や緊
急性の極めて高い応答内容を出力中に割込みがあった場
合、応答出力の優先度が極めて高い場合、発話速度をゆ
っくり、ピッチ・パワーが高めになるような応答割込制
御情報を出力する。こうすることによってシステムから
の応答に対して割込みを許さない極めて重要な内容であ
ることを伝えることができる。また、ある程度応答出力
の優先度が高いとき割込みがあった場合、発話速度を速
く、ピッチ・パワーが高めになるよう応答割込制御情報
を出力する。一般の警告や緊急性の比較的高いメッセー
ジの出力の場合にこのような応答を出力することによ
り、割込みに対応して直ちに応答は止められないもの
の、できるだけ早く割込みに対処しようとしていること
を伝えることができる。なお、表9に示した応答内容、
重要性はあくまで一例であり、応用によりこの限りでは
ない。
順を追って説明する。システムからの応答の内容は、表
1〜表5に例を示した応答内容の形で、対話制御部が決
定する。これにしたがい、応答生成出力部は、まず、発
話速度決定部、韻律決定部、パワー決定部で発話速度、
韻律、パワーを求める。発話速度は、通常の応答の場合
には、例えば毎秒7モーラ程度の速度に設定し、韻律は
公知の方法で、例えば、広瀬、藤崎、河井、山口“基本
周波数パターン生成過程モデルに基づく文章音声の合
成”電子情報通信学会論文誌 A,vol.J72−
A,No. 1,pp32〜40(平成元年1月)にある方
法で設定する。この発話速度にしたがい、合成素片の時
間長と応答出力開始時刻から表6に例を示した応答出力
位置情報を生成する。同時に応答を生成し出力を開始す
る。利用者からの割込入力があった場合に、パターン認
識理解部はこの入力を検出し、割込制御部に知らせると
共に、その意味内容を理解する。割込制御部は入力検出
を通知されると、応答出力位置情報と照合して割込入力
タイミングを調べる。割込入力タイミングが応答出力完
了後であれば、割込制御部は応答割込制御情報を出力せ
ず、対話制御部が次の応答内容を決定する。割込み入力
タイミングが応答出力完了の前であった場合、その入力
のパターン認識理解部41での理解結果と応答生成出力
部43で出力中の応答内容のいずれかまたは双方を利用
して応答割込制御情報を出力する。応答割込制御情報は
発話速度決定部、韻律決定部、パワー決定部、応答打切
制御部に送られ、前述のように発話速度を速める、ある
いは応答を打切る、パワーをフェートアウトさせるなど
の制御をする。また、応答割込制御情報にはどのタイミ
ングから応答出力を変更するかの情報も含まれており、
例えば応答内容のうち出力中の次の合成単位から応答出
力を変更する。
は、ユーザの発話信号に音声応答が重畳されてマイクロ
ホンから入力された場合でも、音声応答が除去され、発
話信号のみが音声認識される。従って、スピーカから音
声応答が出力されている際においても、ユーザからの発
話を認識することができる。その結果、極めて円滑な対
話が可能になるという効果が得られる。また、特にグラ
フィック情報や画像,アニメーション等の視覚データの
表示を行なってユーザと対話するマルチメディアシステ
ムにおいても極めて有効である。また、音声信号のパワ
ーが低減した際に適応化を停止させれば、伝達関数の推
定精度が低下することはなく、常に高い推定精度を維持
することができる。
からの取込まれた音声応答のパワーに応じて音声入力を
認識する際のしきい値を変化させている。従って、誤入
力を防止することが可能となり高精度な音声認識が可能
となる。
中に利用者からの割込みがあった場合に、この入力内容
に応じて音声応答出力を継続するか、打切るか、途中ま
で継続するか等の制御を行う。これによって、スピーデ
ィに次の応答に移ることができ、入力内容に応じた高度
な対話が可能となるという効果が得られる。
施例の構成を示すブロック図である。
る。
フローチャートである。
イムチャートである。
る。
示すタイムチャートである。
施例の構成を示すブロック図である。
ある。
である。
る。
る。
である。
す説明図である。
トである。
ルを示す特性図である。
力したときの伝達関数推定結果を示す特性図である。
示す特性図である。
係を示す特性図である。
説明図である。
ャンセル性能との関係を示す特性図である。
である。
タイムチャートである。
イムチャートである。
図である。
力を示すタイムチャートである。
ある。
トである。
イムチャートである。
ムチャートである。
る。
止する動作を示すフローチャートである。
よう制御する際のフローチャートである。
みを許可するか否かを決める際のフローチャートであ
る。
には割込みを禁止するよう制御する際のフローチャート
である。
Claims (4)
- 【請求項1】 マイクロホンなどの入力手段から入力さ
れた音声を認識し、この認識結果に基づいて所定の音声
応答をスピーカなどの出力手段から出力して対話を行な
うための音声認識方法において、 前記出力手段から出力された音声応答のインパルス応答
の周波数スペクトルである伝送関数を、前記音声応答を
合成するための応答生成パラメータを用いて推定し、前記インパルス応答を推定する際に用いた伝送関数推定
値を記憶し、 前記入力手段から音声が入力されたのを検出した場合、
記憶した過去の推定値によるインパルス応答を推定する
か、推定値を更新してインパルス応答を推定するかを判
定し、 前記判定の結果として 推定された前記インパルス応答に
より該音声応答を補正し、 補正された前記音声応答のみを入力された音声からキャ
ンセルし、 該音声応答をキャンセルした後の音声を認識することを
特徴とする音声認識方法。 - 【請求項2】 マイクロホンなどの入力手段から入力さ
れた音声を認識し、この認識結果に基づいて所定の音声
応答をスピーカなどの出力手段から出力して対話を行な
うための音声認識方法において、 前記出力手段から出力された音声応答のインパルス応答
の周波数スペクトルである伝送関数を、前記音声応答を
合成するための応答生成パラメータを用いて推定し、 前記音声応答の音声信号パワーを平滑化し、平滑化した
音声信号を基に、音声応答が出力されていないと判定し
たときには、前記伝送関数の推定値を更新しないことと
し、推定された前記インパルス応答により該音声応答を補正
し、 補正された前記音声応答のみを入力された音声からキャ
ンセルし、 該音声応答をキャンセルした後の音声を認識することを
特徴とする音声認識方法。 - 【請求項3】 前記音声応答の音声信号パワーを平滑化
し、平滑化した音声信号を基に、音声応答が出力されて
いないと判定したときには、前記伝送関数の推定値を更
新しないことを特徴とする請求項1に記載の音声認識方
法。 - 【請求項4】音声入力がない状態での背景雑音パワーを
求める手段と、 合成音声出力時のインパルス応答を基にマイクロホン信
号中の合成音パワーを求める手段と、 前記背景雑音パワーと前記合成音パワーとの和を音声入
力パワーの検出しきい値とし、該しきい値を超えた音声
入力パワーの継続時間を基に音声入力があるか否かを判
定する手段と、 この判定手段によって音声入力があると判断されたとき
のみ音声認識を行なう手段と、を具備することを特徴と
する音声対話装置。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
JP21176892A JP3398401B2 (ja) | 1992-03-16 | 1992-08-07 | 音声認識方法及び音声対話装置 |
Applications Claiming Priority (3)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
JP5833892 | 1992-03-16 | ||
JP4-58338 | 1992-03-16 | ||
JP21176892A JP3398401B2 (ja) | 1992-03-16 | 1992-08-07 | 音声認識方法及び音声対話装置 |
Publications (2)
Publication Number | Publication Date |
---|---|
JPH05323993A JPH05323993A (ja) | 1993-12-07 |
JP3398401B2 true JP3398401B2 (ja) | 2003-04-21 |
Family
ID=13081537
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
JP21176892A Expired - Lifetime JP3398401B2 (ja) | 1992-03-16 | 1992-08-07 | 音声認識方法及び音声対話装置 |
Country Status (1)
Country | Link |
---|---|
JP (1) | JP3398401B2 (ja) |
Cited By (2)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
JP2003131692A (ja) * | 2001-10-24 | 2003-05-09 | Sharp Corp | 対話装置 |
US11961508B2 (en) | 2019-11-15 | 2024-04-16 | Samsung Electronics Co., Ltd. | Voice input processing method and electronic device supporting same |
Families Citing this family (28)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
JP3682562B2 (ja) * | 1996-10-09 | 2005-08-10 | 日本電信電話株式会社 | 出力制御可能型言語生成方法及び装置 |
US5956675A (en) * | 1997-07-31 | 1999-09-21 | Lucent Technologies Inc. | Method and apparatus for word counting in continuous speech recognition useful for reliable barge-in and early end of speech detection |
US6570555B1 (en) * | 1998-12-30 | 2003-05-27 | Fuji Xerox Co., Ltd. | Method and apparatus for embodied conversational characters with multimodal input/output in an interface device |
WO2002061729A1 (fr) * | 2001-01-31 | 2002-08-08 | Cai Co., Ltd | Procede et systeme pour l'interaction vocale personne/ordinateur |
JP2002297186A (ja) * | 2001-03-30 | 2002-10-11 | Kddi Corp | 音声認識装置 |
JP3892302B2 (ja) * | 2002-01-11 | 2007-03-14 | 松下電器産業株式会社 | 音声対話方法および装置 |
JP3902483B2 (ja) | 2002-02-13 | 2007-04-04 | 三菱電機株式会社 | 音声処理装置及び音声処理方法 |
JP2003241797A (ja) * | 2002-02-22 | 2003-08-29 | Fujitsu Ltd | 音声対話システム |
JP2004085963A (ja) * | 2002-08-28 | 2004-03-18 | Alpine Electronics Inc | ナビゲーション音声補正装置 |
JP3788793B2 (ja) * | 2003-04-25 | 2006-06-21 | 日本電信電話株式会社 | 音声対話制御方法、音声対話制御装置、音声対話制御プログラム |
JP2005338454A (ja) * | 2004-05-27 | 2005-12-08 | Toshiba Tec Corp | 音声対話装置 |
JP4491438B2 (ja) * | 2006-06-26 | 2010-06-30 | Necシステムテクノロジー株式会社 | 音声対話装置、音声対話方法、およびプログラム |
JP2008026463A (ja) * | 2006-07-19 | 2008-02-07 | Denso Corp | 音声対話装置 |
JP5198477B2 (ja) * | 2007-03-05 | 2013-05-15 | テレフオンアクチーボラゲット エル エム エリクソン(パブル) | 定常的な背景雑音の平滑化を制御するための方法及び装置 |
US8370145B2 (en) | 2007-03-29 | 2013-02-05 | Panasonic Corporation | Device for extracting keywords in a conversation |
JP2009053581A (ja) * | 2007-08-29 | 2009-03-12 | Oki Electric Ind Co Ltd | 音声出力装置 |
JP2010164992A (ja) * | 2010-03-19 | 2010-07-29 | Toshiba Tec Corp | 音声対話装置 |
JP5405381B2 (ja) * | 2010-04-19 | 2014-02-05 | 本田技研工業株式会社 | 音声対話装置 |
JP2012128440A (ja) * | 2012-02-06 | 2012-07-05 | Denso Corp | 音声対話装置 |
JP6064566B2 (ja) * | 2012-12-07 | 2017-01-25 | ヤマハ株式会社 | 音響処理装置 |
CN107146611B (zh) * | 2017-04-10 | 2020-04-17 | 北京猎户星空科技有限公司 | 一种语音响应方法、装置及智能设备 |
JP6768613B2 (ja) * | 2017-09-14 | 2020-10-14 | 日本電信電話株式会社 | 音声処理装置、方法およびプログラム |
US11373635B2 (en) | 2018-01-10 | 2022-06-28 | Sony Corporation | Information processing apparatus that fades system utterance in response to interruption |
WO2020204907A1 (en) | 2019-04-01 | 2020-10-08 | Google Llc | Adaptive management of casting requests and/or user inputs at a rechargeable device |
KR102170088B1 (ko) * | 2019-07-24 | 2020-10-26 | 네이버 주식회사 | 인공지능 기반 자동 응답 방법 및 시스템 |
JP2020008876A (ja) * | 2019-09-24 | 2020-01-16 | 株式会社ユピテル | システム及びプログラム |
CN112750442B (zh) * | 2020-12-25 | 2023-08-08 | 浙江弄潮儿智慧科技有限公司 | 一种具有小波变换的朱鹮种群生态体系监测系统及其方法 |
WO2025013419A1 (ja) * | 2023-07-13 | 2025-01-16 | ソニーグループ株式会社 | 情報処理装置、情報処理方法およびプログラム |
-
1992
- 1992-08-07 JP JP21176892A patent/JP3398401B2/ja not_active Expired - Lifetime
Cited By (2)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
JP2003131692A (ja) * | 2001-10-24 | 2003-05-09 | Sharp Corp | 対話装置 |
US11961508B2 (en) | 2019-11-15 | 2024-04-16 | Samsung Electronics Co., Ltd. | Voice input processing method and electronic device supporting same |
Also Published As
Publication number | Publication date |
---|---|
JPH05323993A (ja) | 1993-12-07 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
JP3398401B2 (ja) | 音声認識方法及び音声対話装置 | |
US5548681A (en) | Speech dialogue system for realizing improved communication between user and system | |
EP3928316B1 (en) | End-to-end speech conversion | |
US7698133B2 (en) | Noise reduction device | |
JP4440332B2 (ja) | 音信号加工方法及び音信号加工装置 | |
US6643619B1 (en) | Method for reducing interference in acoustic signals using an adaptive filtering method involving spectral subtraction | |
KR100438826B1 (ko) | 스무딩 필터를 이용한 음성 합성 시스템 및 그 방법 | |
JP4246792B2 (ja) | 声質変換装置および声質変換方法 | |
US7065485B1 (en) | Enhancing speech intelligibility using variable-rate time-scale modification | |
JPH11126090A (ja) | 音声認識方法及び音声認識装置並びに音声認識装置を動作させるためのプログラムが記録された記録媒体 | |
US20060247927A1 (en) | Controlling an output while receiving a user input | |
JP2004347761A (ja) | 音声認識装置、音声認識方法、該音声認識方法をコンピュータに対して実行させるためのコンピュータ実行可能なプログラムおよび記憶媒体 | |
JP3376487B2 (ja) | 言い淀み検出方法及び装置 | |
JP2005070430A (ja) | 音声出力装置および方法 | |
JP7139628B2 (ja) | 音処理方法および音処理装置 | |
JP3877271B2 (ja) | 音声認識用オーディオキャンセル装置 | |
US7280969B2 (en) | Method and apparatus for producing natural sounding pitch contours in a speech synthesizer | |
WO2010050103A1 (ja) | 音声合成装置 | |
JPH08160994A (ja) | 雑音抑圧装置 | |
JP4358221B2 (ja) | 音信号加工方法及び音信号加工装置 | |
KR20180127020A (ko) | 자연어 대화체 음성 인식 방법 및 장치 | |
JPH10149198A (ja) | ノイズ削減装置 | |
JP4765394B2 (ja) | 音声対話装置 | |
McLoughlin et al. | Speech recognition engine adaptions for smart home dialogues | |
JP7106897B2 (ja) | 音声処理方法、音声処理装置およびプログラム |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
FPAY | Renewal fee payment (event date is renewal date of database) |
Free format text: PAYMENT UNTIL: 20080214 Year of fee payment: 5 |
|
FPAY | Renewal fee payment (event date is renewal date of database) |
Free format text: PAYMENT UNTIL: 20090214 Year of fee payment: 6 |
|
FPAY | Renewal fee payment (event date is renewal date of database) |
Free format text: PAYMENT UNTIL: 20100214 Year of fee payment: 7 |
|
FPAY | Renewal fee payment (event date is renewal date of database) |
Free format text: PAYMENT UNTIL: 20100214 Year of fee payment: 7 |
|
FPAY | Renewal fee payment (event date is renewal date of database) |
Free format text: PAYMENT UNTIL: 20110214 Year of fee payment: 8 |
|
FPAY | Renewal fee payment (event date is renewal date of database) |
Free format text: PAYMENT UNTIL: 20120214 Year of fee payment: 9 |
|
FPAY | Renewal fee payment (event date is renewal date of database) |
Free format text: PAYMENT UNTIL: 20120214 Year of fee payment: 9 |
|
FPAY | Renewal fee payment (event date is renewal date of database) |
Free format text: PAYMENT UNTIL: 20130214 Year of fee payment: 10 |
|
EXPY | Cancellation because of completion of term | ||
FPAY | Renewal fee payment (event date is renewal date of database) |
Free format text: PAYMENT UNTIL: 20130214 Year of fee payment: 10 |