JP3892302B2 - 音声対話方法および装置 - Google Patents
音声対話方法および装置 Download PDFInfo
- Publication number
- JP3892302B2 JP3892302B2 JP2002004552A JP2002004552A JP3892302B2 JP 3892302 B2 JP3892302 B2 JP 3892302B2 JP 2002004552 A JP2002004552 A JP 2002004552A JP 2002004552 A JP2002004552 A JP 2002004552A JP 3892302 B2 JP3892302 B2 JP 3892302B2
- Authority
- JP
- Japan
- Prior art keywords
- user
- voice
- utterance
- speech
- word
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Expired - Fee Related
Links
- 238000000034 method Methods 0.000 title claims description 50
- 230000003993 interaction Effects 0.000 claims description 27
- 230000002452 interceptive effect Effects 0.000 claims description 14
- 238000012937 correction Methods 0.000 claims description 13
- 230000002194 synthesizing effect Effects 0.000 claims description 10
- 230000001939 inductive effect Effects 0.000 claims description 5
- 230000015572 biosynthetic process Effects 0.000 description 27
- 238000003786 synthesis reaction Methods 0.000 description 27
- 238000010586 diagram Methods 0.000 description 21
- 238000012545 processing Methods 0.000 description 10
- 230000000306 recurrent effect Effects 0.000 description 8
- 238000012790 confirmation Methods 0.000 description 6
- 238000012821 model calculation Methods 0.000 description 5
- 238000004422 calculation algorithm Methods 0.000 description 4
- 230000001186 cumulative effect Effects 0.000 description 4
- 206010071299 Slow speech Diseases 0.000 description 3
- 239000000284 extract Substances 0.000 description 3
- 230000000694 effects Effects 0.000 description 2
- 238000000605 extraction Methods 0.000 description 2
- 230000006698 induction Effects 0.000 description 2
- 238000003780 insertion Methods 0.000 description 2
- 230000037431 insertion Effects 0.000 description 2
- 125000002066 L-histidyl group Chemical group [H]N1C([H])=NC(C([H])([H])[C@](C(=O)[*])([H])N([H])[H])=C1[H] 0.000 description 1
- 230000007423 decrease Effects 0.000 description 1
- 230000002708 enhancing effect Effects 0.000 description 1
- 238000012544 monitoring process Methods 0.000 description 1
Images
Description
【発明の属する技術分野】
本発明は、音声認識や音声合成を使用した音声対話の方法およびその装置に関する。
【0002】
【従来の技術】
従来、ユーザの発話中に相づちを打ってユーザとの対話を円滑に進める方法は特開平11−75093号公報に記載されたものがある。
【0003】
図19は、従来の音声対話方法の動作例を示す。
【0004】
この従来の音声対話方法では、例えば、会議室の予約で「月曜日のですね午後2時なんですが」の入力発話1321に対し、音声認識の処理により「えっと」1341、「どよう」1342、「げつよう」1331、「び」1332、、、の認識の中間結果を応答生成部(図示せず)に入力して、途中応答が必要かの判断をし、必要なものに対し、ここでは予約の条件となる「月曜」、「午後二時」の各音声認識に対し途中応答信号を生成し、途中応答発話「ハイ」1355、1356を行っている。
【0005】
【発明が解決しようとする課題】
しかしながら、従来の音声対話方法においては、途中の音声認識の信頼度が低い場合でも相づちをうつだけで、ユーザの発話が終了するまで音声認識の結果がわからない場合があり、ユーザとの対話の効率に問題を有していた。
【0006】
本発明は、このような従来の問題を解決するためになされたもので、ユーザの途中発話の認識の信頼度が低い場合にはユーザの発話途中であってもユーザに即座に訂正発話を要求するようにしたり、逆にユーザの発話が終わった後の確認応答で、誤認識の疑いの高い部分については確認のための合成音声の話速を遅くし、かつ語尾を伸長してユーザの訂正発話を誘発しやすくしたりして、ユーザとの対話の効率を高めることができる音声対話方法を提供するものである。
【0007】
【課題を解決するための手段】
本発明の第1の局面は、音声対話方法であって、ユーザの音声の認識結果に基づく前記ユーザへの返答の中で、前記認識結果に自信が持てない部分を自信が持てる部分よりゆっくりと復唱し、かつ語尾を伸ばす。
【0008】
また、音声対話方法は、ユーザの訂正発声を誘発する言葉を該復唱にさらに入れても構わない。
【0009】
本発明の第2の局面は、音声対話装置であって、ユーザの音声を認識する手段と、前記音声の認識結果に基づき前記ユーザへの返答文を生成する手段と、前記返答文を音声化するときに前記認識結果が低かった単語部分の話速を他より遅くする話速設定手段と、前記単語部分の語尾を伸長する語尾伸長手段と、前記単語部分につき話速設定されかつ語尾が伸長された返答文を音声合成する音声合成手段とを備える。
【0010】
また、音声対話装置は、訂正発声誘発のための音声を挿入する手段をさらに備えていても構わない。
【0011】
【発明の実施の形態】
以下、本発明の実施の形態について、図面を用いて説明する。
【0012】
図1は、本発明の第1の実施形態の音声対話方法のフローチャートを示す。
【0013】
図1に示すように、この第1の実施形態の音声対話方法は、まず、ユーザへのレスポンスの音声出力を開始し101、ユーザからの何らかの発声に対する認識結果のレスポンス(復唱)を装置がテキスト音声合成や音声編集合成によって行っている間に、誤認識を発見したユーザがレスポンス音声の出力中にユーザから新たな音声入力があったとき102、訂正発声を行うと装置は即座にレスポンス音声出力を中断し103、この新たな訂正発声に対し認識処理を行いキーワードを抽出する104。連続音声認識によってユーザが発声したと推定される単語列が抽出され、ユーザの訂正発声の前に行っていたレスポンス音声のもとになるレスポンスの文の単語列とキーワードが比較される。不一致のキーワードが見つかると、このキーワードから前の単語列は削除され、「ああ」とか「えっ」などの間投詞付与し106、付与した間投詞を先頭にした新たなレスポンス文が作成させる。次に、このレスポンスをテキスト音声合成や音声編集合成によって読み上げられる。以後、このような動作が続けられる。ユーザからの訂正発声がないと、この一連の対話処理は終了する。
【0014】
この対話の様子は、例えば図13に示す本発明の第1の実施形態の音声対話方法の対話例のようになる。すなわち、ユーザからの「大崎駅東口まで行って」という音声を認識処理し、「大阪駅東口に行って」と誤認識した装置は、行き先を告げる文パターンの行き先部分を「大阪駅東口」に設定し、このレスポンス文の音声合成出力を始める。しかし、「大阪駅」と聞いたユーザが即座に「違うよ、大崎駅だよ」と訂正すると、装置は先ほどの訂正発声を即座に中止し、ユーザからの訂正発声を認識処理し、その単語列からキーワードの行き先になりうる「大崎駅」を抽出する。そして、先ほどのレスポンス文の「大阪駅」を「大崎駅」に置き換え、その前の「行き先は」を削除し、驚きを表現する間投詞「ああ」を先頭に挿入して効果的なレスポンス文を作成する。次に、このレスポンス文を音声出力し、ユーザに認識結果を確認させる。この例では、誤認識がなくなったためユーザが「そう」と、肯定的な発声をして終わっている。
【0015】
以上のように本発明の第1の実施形態によれば、装置がユーザの音声を認識し、その認識結果に基づいてユーザへのレスポンスをしている最中にユーザからの訂正発声を受付け、この訂正発声の認識結果に基づき返答内容を一部変更した上で返答を再開するようにしたものであり、誤認識の訂正発声が即座に可能になり、その新たな認識結果もユーザには即座にレスポンスから判断できるようにしたため、ユーザとの対話の効率を高めることができる。
【0016】
図2は、本発明の第2の実施形態の音声対話方法のフローチャートを示す。
【0017】
図2に示すように、この第2の実施形態の音声対話方法は、まず、ユーザの音声の認識を開始し201、ユーザからの何らかの発声に対する認識処理の結果、連続音声認識によって最終的に文(単語列)が推定されるが、連続音声認識の最中には、数10msec毎に入力音声と単語仮説(候補となりうる単語)との照合がビタビアルゴリズムなどを利用して行われ、入力音声の時間軸と単語仮説の時間軸によって形成される2次元空間上のノード毎に最上位単語がスコア(尤度)とともに残されてゆく。一般的には、そのノードのその時点までの累積スコアが残されるが、この発明では、単語毎の尤度が必要なため、推定単語候補とともに、その尤度も記憶する202。ユーザ発話が終了すると、累積スコアが最小となる単語列パスがバックトラック処理によって抽出される203。このように、ユーザ発声に対する推定単語列が、各単語の尤度とともに明らかになる。装置は、レスポンスのための音声出力を開始し205、この尤度と予め設定してあった閾値を比較し、閾値より低いものは誤認識している可能性が高いと判断する。
【0018】
このような単語は、ユーザに確認させ、訂正発声をさせたいが、わざわざ「○○でよろしいですか」と確認のレスポンスを行っていては効率の良い対話にならない。そこで、推定した単語列をレスポンスする際に、誤認識している可能性が高いと判断された単語は、わざとゆっくりした話速(3モーラ/秒程度)で音声合成出力を行わせ、読み上げ速度を遅くし206、ユーザの注意を喚起するとともに、ユーザが訂正発声を即座にしやすいようにする。そして、ユーザからの訂正発声があったら207、この訂正発声に対しても同様の処理を行う。もちろん、誤認識がなければユーザからの訂正発声がないので対話は終了する。
【0019】
この対話の様子は、図14に示す本発明の第2の実施形態の音声対話方法の対話例のようになる。すなわち、ユーザからの「大崎駅東口まで行って」という発声を認識処理し、「西口」と誤認識した装置は、この尤度が低いため、誤認識の可能性が高いと判断し、レスポンス文を合成する際に「西口」をわざとゆっくりした話速で出力する。急に話速が変わって注意を喚起されたユーザは、「西口」と聞き、即座に「違うよ、東口だ」と訂正すると、装置はレスポンスの音声合成出力を即座に中止し、ユーザからの訂正発声を認識処理し、その単語列からキーワードの行き先になりうる「東口」を抽出する。そして、レスポンス文「ああ、東口ですね」を作成する。次に、このレスポンス文を音声出力し、ユーザに認識結果を確認させる。この例では、誤認識がなくなったためユーザが「そう」と、肯定的な発声をしたあと、全体のレスポンス文「行き先を大崎駅東口にします」を合成する。
【0020】
以上のように本発明の第2の実施形態によれば、ユーザの音声を認識し、その認識結果に基づくユーザへの返答の中で、認識結果に自信が持てない部分はゆっくりと復唱し、ユーザの訂正発声を誘発するようにしたため、ユーザが訂正発話をしやすくなり、ユーザとの対話の効率を高めることができる。
【0021】
図3は、本発明の第3の実施形態の音声対話方法のフローチャートを示す。
【0022】
図3に示すように、この第3の実施形態の音声対話方法は、まず、ユーザの音声の認識を開始し201、ユーザからの何らかの発声に対する認識処理の結果、連続音声認識によって最終的に文(単語列)が推定されるが、連続音声認識の最中には、数10msec毎に入力音声と単語仮説(候補となりうる単語)との照合がビタビアルゴリズムなどを利用して行われ、入力音声の時間軸と単語仮説の時間軸によって形成される2次元空間上のノード毎に最上位単語がスコア(尤度)とともに残されてゆく。一般的には、そのノードのその時点までの累積スコアが残されるが、この発明では、単語毎の尤度が必要なため、推定単語候補とともに、その尤度も記憶する202。ユーザ発話が終了すると、累積スコアが最小となる単語列パスがバックトラック処理によって抽出される203。このように、ユーザ発声に対する推定単語列が、各単語の尤度とともに明らかに。装置は、レスポンスのための音声出力を開始し205、この尤度と予め設定してあった閾値を比較し、閾値より低いものは誤認識している可能性が高いと判断する。
【0023】
このような単語は、ユーザに確認させ、訂正発声をさせたいが、わざわざ「○○でよろしいですか」と確認のレスポンスを行っていては効率の良い対話にならない。そこで、推定した単語列をレスポンスする際に、誤認識している可能性が高いと判断された単語は、わざとゆっくりした話速で音声合成出力を行わせ、さらにユーザの注意を喚起するために語尾を延ばしたり206a、語尾にポーズを挿入したり、語尾でわざと「えーと」などの言いよどみを入れて206b、自然に時間をかせぎ、ユーザが訂正発声をしやすいようにする。そして、ユーザからの訂正発声があったら207、この訂正発声に対しても同様の処理を行う。もちろん、誤認識がなければユーザからの訂正発声がないので対話は終了する。
【0024】
図15は、本発明の第3の実施形態の音声対話方法の対話例(a)、(b)を示す。
【0025】
この対話の様子は、例えば図15の対話例(a)ようになり、すなわち、ユーザからの「大崎駅東口まで行って」という発声を認識処理し、「西口」と誤認識した装置は、この尤度が低いため、誤認識の可能性が高いと判断し、レスポンス文を合成する際に「ニシグチ」をわざとゆっくりした話速で出力するとともに最終音節のチを延ばして合成する。急に話速が変わって注意を喚起されたユーザは、「西口ー」と聞き、この合成音声が終了する前に「違うよ、東口だ」と訂正できる。すると、装置はレスポンスの音声出力を即座に中止し、ユーザからの訂正発声を認識処理し、その単語列からキーワードである行先になりうる「東口」を抽出する。そして、レスポンス文「ああ、東口ですね」を作成する。次に、このレスポンス文を音声出力し、ユーザに認識結果を確認させる。
【0026】
図15の対話例(b)では、西口の語尾に「えーと」という言いよどみを入れ、図15の対話例(a)と同様の効果を出している。
【0027】
以上のように本発明の第3の実施形態によれば、ユーザの音声を認識し、その認識結果に基づくユーザへの返答の中で、認識結果に自信が持てない部分はゆっくりと復唱し、語尾の最終音節伸長などで時間を稼ぐためユーザが訂正発声をしやすくなり、ユーザとの対話の効率を高めることができる。
【0028】
図4は、本発明の第4の実施形態の音声対話方法のフローチャートを示す。
【0029】
図4に示すように、この第4の実施形態の音声対話方法は、まず、ユーザの発話を10msec〜30msec毎のフレームバッファに順次格納しつつ、そのフレームデータの特徴量抽出を行う。認識辞書には第1番目になりうる単語の候補が入っており、これらの音声のフレーム毎の特徴量と入力音声のフレーム特徴量間の距離(スコア)が計算され、ビタビアルゴリズムなどで最適なフレーム対応が明らかにされる。フレーム番号が進むたびに累積した累積スコアにもとづく足切りが実施され、候補単語が絞られていくのが一般的である。例えば上位数単語との照合が終了した段階で、最上位単語のスコアが予め定められた閾値より低いと、どの単語をも最終候補とすることはできず、ユーザがまだ発声している最中でも途中レスポンス文を選択し、音声合成でユーザに訂正発声を要求する。この途中レスポンス文は、最上位単語のスコアによって変えることが効果的である。
【0030】
表1に途中レスポンス文の例を示す。
【0031】
【表1】
【0032】
表1に示すように、例えば、最上位候補単語のスコアが低いときは、ユーザに丁寧な再発声を促すため、丁寧に「すみません。もう一度おっしゃって下さい。」と途中レスポンスをするが、スコアがやや低いときは、「はあ」と簡単に再発声を促す。また、スコアが普通の場合は認識できている可能性が高いので何もレスポンスせず、明らかにスコアが高い場合は確信を持てるため、「はい」と相づちをうち、ユーザとの対話の自然性を上げるようにする。ある単語との照合が終わると、想定されている単語列規則(文法)にしたがって、認識辞書は、次に来るべき単語の入った認識辞書に更新され、入力音声の認識処理が継続される。単語照合に失敗し訂正発話を要求した場合には、単語辞書更新はせず、再入力された音声の認識処理を行う。このようにユーザの音声入力が終わるまで単語照合が行われ、最終的には各ステップで最上位となった単語の時系列が文として出力される。
【0033】
例えば、図16に示す本発明の第4の実施形態の音声対話方法の対話例のように「あのね」に対してはスコアが高く、「あのね」の後にポーズがあるため「はい」と相づちを打つだけであるが、「待ち合わせ場所は」に対してはスコアが低いため「はあ」と訂正発話を要求している。このようにして「待ち合わせ場所は渋谷」という認識結果を得る。
【0034】
以上のように本発明の第4の実施形態によれば、ユーザが発声している最中に逐次、音声認識処理を行い、認識結果に自信が持てないときにはユーザの発声の最中でも即座にユーザに再発声を要請するようにしたことにより、誤認識した部分に対しユーザが即座に訂正発声をしやすくすることができる。
【0035】
図5は、本発明の第5の実施形態の音声対話方法のフローチャートを示す。
【0036】
図5に示すように、この第5の実施形態の音声対話方法は、まず、ユーザの発話を10msec〜30msec毎のフレームバッファに順次格納しつつ、そのフレームデータの特徴量抽出を行う。認識辞書には第1番目になりうる単語の候補が入っており、これら音声のフレーム毎の特徴量と入力音声のフレーム特徴量間の距離(スコア)が計算され、ビタビアルゴリズムなどで最適なフレーム対応が明らかにされる。フレーム番号が進むたびに累積した累積スコアにもとづく足切りが実施され、候補単語が絞られていくのが一般的である。例えば上位数単語との照合が終了した段階で、最上位単語のスコアが予め定められた閾値より低いと、どの単語をも最終候補とすることはできず、ユーザがまだ発声している最中でも途中レスポンス文を作成し、音声合成でユーザに訂正発声を要求する。この際、訂正要求文に装置が推定した認識結果を入れるようにする。このようにすることにより、ユーザは自分の発声のし方がどのような問題を持つかを知ることができ、訂正発声をより的確にすることができる。ある単語との照合が終わると、想定されている単語列規則(文法)にしたがって、認識辞書は、次に来るべき単語の入った認識辞書に更新され、入力音声の認識処理が継続される。単語照合に失敗し訂正発話を要求した場合には、単語辞書更新はせず、再入力された音声の認識処理を行う。このようにユーザの音声入力が終わるまで単語照合が行われ、最終的には各ステップで最上位となった単語の時系列が文として出力される。
【0037】
例えば、図17に示す本発明の第5の実施形態の音声対話方法の対話例のように「あのね」に対してはスコアが高く、「あのね」の後にポーズがあるため「はい」と相づちを打つだけであるが、「待ち合わせ場所は」に対しては誤認識して「打ち合わせ場所」と認識しているが、スコアが低いため「打ち合わせ場所ですか」と訂正発話を要求している。このようにしてユーザに「待ち合わせだよ」という訂正発声を促している。
【0038】
以上のように本発明の第5の実施形態によれば、ユーザが発声している最中に逐次、音声認識処理を行い、認識結果に自信が持てないときにはユーザの発声の最中でもスコアの低い単語を挿入した訂正要求を発して、即座にユーザに再発声を促すようにしたことにより、誤認識した部分に対しユーザが即座に訂正発声をしやすくすることができる。
【0039】
図6は、本発明の第6の実施形態の音声対話方法のフローチャートを示す。
【0040】
図6に示すように、この第6の実施形態の音声対話方法は、まず、ユーザの発話を10msec〜30msec毎のフレームバッファに順次格納しつつ、そのフレームデータの特徴量を抽出し、フレームデータの音響分析を行う601。毎回、当該フレームの数フレーム前までのデータの音声のある部分とない部分の平均エネルギー比を計算してSN比を算出する。次にSN比が十分に高い場合は602、そのまま音声認識処理に移るが605、SN比が十分に高くない場合は602、予め保持してある騒音データと入力データとを比較し603、類似性を算出し、最も近い騒音を推定する。次に推定された騒音の種類をユーザに告げて再発声を要求する604。このようにすることにより、ユーザに騒音源を止めたり、騒音源がなくなってから再発声をさせることで、より認識しやすい状況を作り出すことができる。
【0041】
例えば、図18に示す本発明の第6の実施形態の音声対話方法の対話例のように「あのね」と「月曜の」に対してはスコアが高く、「あのね」については、その後にポーズがあるため「はい」と相づちを打つが、「待ち合わせ場所は」に対しては騒音が混入し、SN比が低くなるため、入力騒音と保持した複数の騒音データを比較し、航空機騒音と推定している。したがって、「うわ、飛行機みたいな音がうるさい」と言ってから訂正発話「もう一度言ってよ」を要求している。このようにしてユーザに音声認識の妨げとなる騒音を指摘してから訂正発声を促している。
【0042】
以上のように本発明の第6の実施の形態によれば、ユーザの音声以外の周囲騒音がユーザの音声に混入し、このためにユーザ音声の認識結果に自信が持てなくなった場合には、その騒音の種類を推定し、ユーザの発話に割り込み、周囲騒音の種類をユーザに伝え、この騒音が原因で認識が困難になったことを伝えるようにしたものであり、誤認識の原因をユーザが取り除けるようにすることができる。
【0043】
図7は、本発明の第7の実施形態の音声対話装置のブロック図を示す。
【0044】
図7に示すように、この第7の実施形態の音声対話装置は、まず、ユーザからの何らかの発声を音声認識手段11で認識し、その結果に対する認識結果のレスポンス(復唱)を行っている最中に、新たにユーザから訂正発声が入ると、音声認識手段11はこれを即座に認識するとともに、現在出力していたレスポンスを音声合成出力中止手段12によって即座に中止させる。次に、訂正発声を認識した結果として単語列が推定されるが、その中からキーワードがレスポンス文生成手段13によって抽出され、レスポンス文選択手段14によって、レスポンス用文パターンデータベース15から選択されていたレスポンス文パターンに候補単語列を埋め込んでレスポンス文を作成する。多くの場合、ユーザには前の発声に対する復唱のための文パターンと一致し、復唱の文の一部を変更しているように見える。このレスポンス文は音声合成手段16に渡され、合成音声となるが、その出力タイミングは、ユーザ心理モデル計算手段18が音声合成出力制御手段17に指令を出すことによって決められる。すなわち、ユーザ心理モデル計算手段18は、当該訂正発声入力までに訂正発声が続いているようだとユーザが苛々している可能性が高いと判断し、ユーザ発声から0.3秒以内に「えーと」など、兎に角なんらかの発声をするが、まだ対話をし始めたばかりの段階では、レスポンス文が生成されるまで1秒を最長として待ち時間を設けるようにする。このようにしてユーザはいつでも訂正発声をすることができ、かつ、その認識結果をすぐに確認することができる。
【0045】
以上のように本発明の第7の実施形態によれば、ユーザの音声を認識する音声認識手段の認識結果に基づいてユーザへの返答文を選定する手段と、この返答文を音声化する音声合成手段と、前記返答の最中であってもユーザの訂正発声を認識する音声認識手段と、ユーザの訂正発声が検知された場合に音声合成を中止する手段と、この訂正発声の認識結果に基づき返答内容を修正する手段と、この修正した返答の合成音声をユーザ心理モデルに基づく適切なタイミングで出力する手段を備えるようにしたものであり、ユーザが心理的な負荷なしに訂正発話をし、その結果をすぐに確認することができる。
【0046】
図8は、本発明の第8の実施形態の音声対話装置のブロック図を示す。
【0047】
図8に示すように、この第8の実施形態の音声対話装置は、まず、ユーザからの何らかの発声を音声認識手段21で認識し、その結果に対する認識結果のレスポンス(復唱)を行う際に、話速設定手段29は、スコアの低かった単語だけ、故意に遅い話速(3モーラ/秒程度)で合成するよう音声合成手段26に指令を出す。このようにしてユーザに誤認識している可能性の高い部分を判りやすく提示する。これに対し、ユーザから訂正発声が入ると、音声認識手段21はこれを即座に認識するとともに、現在出力していたレスポンスを音声合成出力中止手段22によって即座に中止させる。次に、訂正発声を認識した結果として単語列が推定されるが、その中からキーワードがレスポンス文生成手段23によって抽出され、レスポンス文選択手段24によって、レスポンス用文パターンデータベース25から選択されていたレスポンス文パターンに候補単語列を埋め込んでレスポンス文を作成する。このレスポンス文は音声合成手段26に渡され、合成音声となるが、その出力タイミングは、ユーザ心理モデル計算手段28が音声合成出力制御手段27に指令を出すことによって決められる。このようにしてユーザは誤認識している可能性の高い部分を知って、すぐに訂正発声をすることができ、かつ、その認識結果をすぐに確認することができる。
【0048】
以上のように本発明の第8の実施形態によれば、ユーザの音声を認識する音声認識手段の認識結果に基づいてユーザへの返答文を選定する手段と、この返答文を音声化する音声合成手段と、前記返答の最中であってもユーザの訂正発声を認識する音声認識手段と、ユーザの訂正発声が検知された場合に音声合成を中止する手段と、この訂正発声の認識結果に基づき返答内容を修正する手段と、この修正した返答の合成音声をユーザ心理モデルに基づく適切なタイミングで出力する手段を備えるようにしたため、ユーザが心理的な負荷なしに訂正発話をし、その結果をすぐに確認することができる。
【0049】
図9は、本発明の第9の実施形態の音声対話装置のブロック図を示す。
【0050】
図9に示すように、この第9の実施形態の音声対話装置は、まず、ユーザからの何らかの発声を音声認識手段31で認識し、その結果に対する認識結果のレスポンス(復唱)を行う際に、話速設定手段39は、スコアの低かった単語だけ、故意に遅い話速(3モーラ/秒程度)で合成するよう音声合成手段36に指令を出す。さらに、語尾伸長手段30は、当該単語の語尾を故意に伸長する(この部分は、ポーズ挿入手段30aとして当該単語の直後にポーズ(スコアが低いほど長くなる)を挿入したり、訂正発話誘発手段30bとして「えーと」などの迷いを表現して、訂正発話を誘発する語を挿入してもよい)このようにしてユーザに誤認識している可能性の高い部分を判りやすく提示する。これに対し、ユーザから訂正発声が入ると、音声認識手段31はこれを即座に認識するとともに、現在出力していたレスポンスを音声合成出力中止手段32によって即座に中止させる。
【0051】
次に、訂正発声を認識した結果として単語列が推定されるが、その中からキーワードがレスポンス文生成手段33によって抽出され、レスポンス文選択手段34によって、レスポンス用文パターンデータベース35から選択されていたレスポンス文パターンに候補単語列を埋め込んでレスポンス文を作成する。このレスポンス文は音声合成手段36に渡され、合成音声となるが、その出力タイミングは、ユーザ心理モデル計算手段38が音声合成出力制御手段37に指令を出すことによって決められる。このようにしてユーザは誤認識している可能性の高い部分を知って、すぐに訂正発声をすることができ、かつ、その認識結果をすぐに確認することができる。
【0052】
以上のように本発明の第9の実施形態によれば、認識の信頼度の低かった単語は他より発話を遅くすることに加え、この単語の語尾を伸長するか、または認識結果の信頼度に応じたポーズ長を挿入するか、または「えーと」などの訂正発声誘発のための音声を挿入する手段を備えるようにしたため、さらにユーザの訂正発声をしやすくすることができる。
【0053】
図10は、本発明の第10の実施形態の音声対話装置のブロック図を示す。
【0054】
図10に示すように、この第10の実施形態の音声対話装置は、まず、ユーザの発話が音声認識手段41によって10msec〜30msec毎にフレームバッファに順次格納されつつ、特徴量抽出が行われる。認識辞書49には第1番目になりうる単語の候補が入っており、音声認識手段41によって、逐次これらの音声のフレーム毎に特徴量と入力音声のフレーム特徴量間の距離(スコア)が計算され、ビタビアルゴリズムなどで最適なフレーム対応が明らかにされる。フレーム番号が進むたびに累積した累積スコアにもとづく足切りが実施され、候補単語が絞られていくのが一般的である。例えば上位数単語との照合が終了した段階で、最上位単語のスコアが予め定められた閾値より低いと、どの単語をも最終候補とすることはできず、ユーザがまだ発声している最中でも再発声文選択手段44によって再発要求文パターンデータベース45から適切な再発声要求文が選択される。再発声文生成手段43は、この選択された再発声要求文を音声合成手段46に渡し音声合成し、ユーザに訂正発声を要求する。このため、ユーザは装置がどの単語を認識できなかったかを即座に知ることができる。
【0055】
以上のように本発明の第10の実施形態によれば、ユーザが発声している最中に逐次、音声認識処理を行う手段と、この部分的な認識結果の信頼度を判断する手段と、この信頼度を使ってユーザに再発声を要請するか否かを判断する手段と、ユーザに再発声をうながすための文を選定する手段と、この文を音声化する音声合成手段とを備えるようにしたため、誤認識した部分に対しユーザは即座に訂正発声を行うことができる。
【0056】
図11は、本発明の第11の実施形態の音声対話装置のブロック図を示す。
【0057】
図11に示すように、この第11の実施形態の音声対話装置は、まず、ユーザの発話が音声認識手段51によって10msec〜30msec毎にフレームバッファに順次格納されつつ、特徴量抽出が行われる。認識辞書59には第1番目になりうる単語の候補が入っており、音声認識手段51によって、逐次これらの音声のフレーム毎に特徴量と入力音声のフレーム特徴量間の距離(スコア)が計算され、ビタビアルゴリズムなどで最適なフレーム対応が明らかにされる。フレーム番号が進むたびに累積した累積スコアにもとづく足切りが実施され、候補単語が絞られていくのが一般的である。例えば上位数単語との照合が終了した段階で、最上位単語のスコアが予め定められた閾値より低いと、どの単語をも最終候補とすることはできず、ユーザがまだ発声している最中でも再発声文選択手段54によって再発要求文パターンデータベース55から適切な再発声要求文が選択される。再発声文生成手段53は、この選択された再発声要求文に音声認識手段51から得た単語候補を埋め込み、これを音声合成手段56に渡し、音声合成し、ユーザに訂正発声を要求する。このため、ユーザは装置が認識できたのか、またはどのように誤認識したかを即座に知ることができる。
【0058】
以上のように本発明の第11の実施形態によれば、ユーザが発声している最中に逐次、音声認識処理を行う手段と、この部分的な認識結果の信頼度を判断する手段と、この信頼度を使ってユーザに再発声を要請するか否かを判断する手段と、認識結果を利用してユーザに再発声を誘発するための文を生成する手段と、この文を音声化する音声合成手段と、この合成音声を適切なタイミングで出力する手段を備えるようにしたため、ユーザの発声終了以前に誤認識を修正しやすいくすることができる。
【0059】
図12は、本発明の第12の実施形態の音声対話装置のブロック図を示す。
【0060】
図12に示すように、この第12の実施形態の音声対話装置は、まず、音響分析手段61によってユーザの発話を10msec〜30msec毎にフレームバッファに順次格納しつつ、そのフレームデータの特徴量抽出を行う。騒音判別手段68は毎回、当該フレームの数フレーム前までのデータの音声のある部分とない部分の平均エネルギー比を計算してSN比を算出する。
【0061】
次にSN比が十分に高い場合はそのまま認識処理に移るが、SN比が低く、音声認識手段62の出力するスコアも低いときは、騒音判別手段68は予め保持してある騒音データベース69と入力データの類似性を算出し、最も近い騒音を推定する。推定された騒音の種類を音声合成手段66によってユーザに告げて再発声を要求する。このようにすることにより、ユーザに騒音源を止めたり、騒音源がなくなってから再発声をさせることで、より認識しやすい状況を作り出すことができる。
【0062】
以上のように本発明の第12の実施形態によれば、ユーザの音声とそれ以外の音源からの入力を識別する手段と、予め定められた種類の音源と入力を比較する手段と、ユーザが発声している最中に逐次、音声認識を行う手段と、常時その認識結果の信頼度を監視する手段と、この信頼度が低くなったときに原因を説明する文を生成する手段と、生成された文を音声化する音声合成手段を備えるようにしたため、ユーザが誤認識の原因と取り除きやすくすることができる。
【0063】
【発明の効果】
以上、本発明は、ユーザの発話の認識結果の信頼度が低い場合にはユーザの発話途中であっても装置側からユーザに即座に訂正発話を要求するようにしたり、逆にユーザの発話が終わった後の確認応答で、誤認識の疑いの高い部分については確認のための合成音声の話速を遅くし、かつ語尾を伸長してユーザの訂正発話を誘発しやすくしたりして、ユーザとの対話の効率を高めることができる。
【図面の簡単な説明】
【図1】本発明の第1の実施形態の音声対話方法のフローチャートを示す図
【図2】本発明の第2の実施形態の音声対話方法のフローチャートを示す図
【図3】本発明の第3の実施形態の音声対話方法のフローチャートを示す図
【図4】本発明の第4の実施形態の音声対話方法のフローチャートを示す図
【図5】本発明の第5の実施形態の音声対話方法のフローチャートを示す図
【図6】本発明の第6の実施形態の音声対話方法のフローチャートを示す図
【図7】本発明の第7の実施形態の音声対話装置のブロック図
【図8】本発明の第8の実施形態の音声対話装置のブロック図
【図9】本発明の第9の実施形態の音声対話装置のブロック図
【図10】本発明の第10の実施形態の音声対話装置のブロック図
【図11】本発明の第11の実施形態の音声対話装置のブロック図
【図12】本発明の第12の実施形態の音声対話装置のブロック図
【図13】本発明の第1の実施形態の音声対話方法の対話例を示す図
【図14】本発明の第2の実施形態の音声対話方法の対話例を示す図
【図15】本発明の第3の実施形態の音声対話方法の対話例を示す図
【図16】本発明の第4の実施形態の音声対話方法の対話例を示す図
【図17】本発明の第5の実施形態の音声対話方法の対話例を示す図
【図18】本発明の第6の実施形態の音声対話方法の対話例を示す図
【図19】従来の音声対話方法の動作例を示す図
【符号の説明】
11、21、31、41、51、62 音声認識手段
12、22、32 音声合成出力中止手段
13、23、33 レスポンス文生成手段
14、24、34 レスポンス文選択手段
15、25、35 レスポンス用文パターンデータベース
16、26、36、46、56、66 音声合成手段
17、27、37 音声合成出力制御手段
18、28、38 ユーザ心理モデル計算手段
29、39 話速設定手段
30 語尾伸長手段
30a ポーズ挿入手段
30b 訂正発話誘発手段
49、59 認識辞書
44、54 再発声文選択手段
43、53 再発声文生成手段
45、55 再発要求文パターンデータベース
61 音響分析手段
68 騒音判別手段
69 騒音データベース
Claims (4)
- ユーザの音声の認識結果に基づく前記ユーザへの返答の中で、前記認識結果に自信が持てない部分を自信が持てる部分よりゆっくりと復唱し、かつ語尾を伸ばす、音声対話方法。
- 前記ユーザの訂正発声を誘発する言葉を入れる、請求項1に記載の音声対話方法。
- ユーザの音声を認識する手段と、前記音声の認識結果に基づき前記ユーザへの返答文を生成する手段と、前記返答文を音声化するときに前記認識結果が低かった単語部分の話速を他より遅くする話速設定手段と、前記単語部分の語尾を伸長する語尾伸長手段と、前記単語部分につき話速設定されかつ語尾が伸長された返答文を音声合成する音声合成手段とを備えた、音声対話装置。
- 訂正発声誘発のための音声を挿入する手段をさらに備えた、請求項3に記載の音声対話装置。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
JP2002004552A JP3892302B2 (ja) | 2002-01-11 | 2002-01-11 | 音声対話方法および装置 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
JP2002004552A JP3892302B2 (ja) | 2002-01-11 | 2002-01-11 | 音声対話方法および装置 |
Publications (2)
Publication Number | Publication Date |
---|---|
JP2003208196A JP2003208196A (ja) | 2003-07-25 |
JP3892302B2 true JP3892302B2 (ja) | 2007-03-14 |
Family
ID=27643855
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
JP2002004552A Expired - Fee Related JP3892302B2 (ja) | 2002-01-11 | 2002-01-11 | 音声対話方法および装置 |
Country Status (1)
Country | Link |
---|---|
JP (1) | JP3892302B2 (ja) |
Cited By (2)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN106463114A (zh) * | 2015-03-31 | 2017-02-22 | 索尼公司 | 信息处理设备、控制方法及程序 |
US11961508B2 (en) | 2019-11-15 | 2024-04-16 | Samsung Electronics Co., Ltd. | Voice input processing method and electronic device supporting same |
Families Citing this family (11)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
JP2006201749A (ja) * | 2004-12-21 | 2006-08-03 | Matsushita Electric Ind Co Ltd | 音声による選択装置、及び選択方法 |
JP4481972B2 (ja) | 2006-09-28 | 2010-06-16 | 株式会社東芝 | 音声翻訳装置、音声翻訳方法及び音声翻訳プログラム |
US8370145B2 (en) | 2007-03-29 | 2013-02-05 | Panasonic Corporation | Device for extracting keywords in a conversation |
JP4987623B2 (ja) * | 2007-08-20 | 2012-07-25 | 株式会社東芝 | ユーザと音声により対話する装置および方法 |
JP5398295B2 (ja) * | 2009-02-16 | 2014-01-29 | 株式会社東芝 | 音声処理装置、音声処理方法及び音声処理プログラム |
WO2017200080A1 (ja) * | 2016-05-20 | 2017-11-23 | 日本電信電話株式会社 | 対話方法、対話装置、及びプログラム |
JP6761007B2 (ja) * | 2018-08-03 | 2020-09-23 | ソフトバンク株式会社 | 情報処理装置、音声出力方法、音声出力プログラム |
JP2020187163A (ja) * | 2019-05-10 | 2020-11-19 | 本田技研工業株式会社 | 音声操作システム、音声操作制御方法、及び音声操作制御プログラム |
KR102331675B1 (ko) | 2019-09-09 | 2021-11-30 | 엘지전자 주식회사 | 사용자의 음성을 인식하는 인공 지능 장치 및 그 방법 |
JP7396490B2 (ja) * | 2020-06-30 | 2023-12-12 | 日産自動車株式会社 | 情報処理装置及び情報処理方法 |
KR20220099831A (ko) | 2021-01-07 | 2022-07-14 | 삼성전자주식회사 | 전자 장치 및 전자 장치에서 사용자 발화 처리 방법 |
Family Cites Families (10)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
JP2877350B2 (ja) * | 1989-05-24 | 1999-03-31 | 株式会社東芝 | 環境モニタ付音声認識装置 |
JP3398401B2 (ja) * | 1992-03-16 | 2003-04-21 | 株式会社東芝 | 音声認識方法及び音声対話装置 |
JP3566977B2 (ja) * | 1993-12-27 | 2004-09-15 | 株式会社東芝 | 自然言語処理装置及びその方法 |
JP3454897B2 (ja) * | 1994-01-31 | 2003-10-06 | 株式会社日立製作所 | 音声対話システム |
JPH08166866A (ja) * | 1994-10-14 | 1996-06-25 | Hitachi Ltd | 対話型インターフェースを具備した編集支援システム |
JPH08146991A (ja) * | 1994-11-17 | 1996-06-07 | Canon Inc | 情報処理装置及びその制御方法 |
JPH11126092A (ja) * | 1997-10-22 | 1999-05-11 | Toyota Motor Corp | 音声認識装置および車両用音声認識装置 |
JP3797003B2 (ja) * | 1999-03-05 | 2006-07-12 | オムロン株式会社 | 音声出力装置 |
JP2001249924A (ja) * | 2000-03-03 | 2001-09-14 | Nippon Telegr & Teleph Corp <Ntt> | 対話型自動説明装置および対話型自動説明方法およびこの方法の実行プログラムを記録した記録媒体 |
JP3581881B2 (ja) * | 2000-07-13 | 2004-10-27 | 独立行政法人産業技術総合研究所 | 音声補完方法、装置および記録媒体 |
-
2002
- 2002-01-11 JP JP2002004552A patent/JP3892302B2/ja not_active Expired - Fee Related
Cited By (3)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN106463114A (zh) * | 2015-03-31 | 2017-02-22 | 索尼公司 | 信息处理设备、控制方法及程序 |
CN106463114B (zh) * | 2015-03-31 | 2020-10-27 | 索尼公司 | 信息处理设备、控制方法及程序存储单元 |
US11961508B2 (en) | 2019-11-15 | 2024-04-16 | Samsung Electronics Co., Ltd. | Voice input processing method and electronic device supporting same |
Also Published As
Publication number | Publication date |
---|---|
JP2003208196A (ja) | 2003-07-25 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
JP3762327B2 (ja) | 音声認識方法および音声認識装置および音声認識プログラム | |
US5712957A (en) | Locating and correcting erroneously recognized portions of utterances by rescoring based on two n-best lists | |
EP0867857B1 (en) | Enrolment in speech recognition | |
US6064959A (en) | Error correction in speech recognition | |
US7085716B1 (en) | Speech recognition using word-in-phrase command | |
US6601027B1 (en) | Position manipulation in speech recognition | |
US8332212B2 (en) | Method and system for efficient pacing of speech for transcription | |
US6424943B1 (en) | Non-interactive enrollment in speech recognition | |
US5333275A (en) | System and method for time aligning speech | |
US7974843B2 (en) | Operating method for an automated language recognizer intended for the speaker-independent language recognition of words in different languages and automated language recognizer | |
US7062439B2 (en) | Speech synthesis apparatus and method | |
EP2048655B1 (en) | Context sensitive multi-stage speech recognition | |
US7062440B2 (en) | Monitoring text to speech output to effect control of barge-in | |
JP3892302B2 (ja) | 音声対話方法および装置 | |
JP2007057844A (ja) | 音声認識システムおよび音声処理システム | |
JP2002304190A (ja) | 発音変化形生成方法及び音声認識方法 | |
JP2006251800A (ja) | ユーザ適応型の音声認識方法及び音声認識装置 | |
JP2008009153A (ja) | 音声対話システム | |
US11715472B2 (en) | Speech-processing system | |
WO2006083020A1 (ja) | 抽出された音声データを用いて応答音声を生成する音声認識システム | |
US20170270923A1 (en) | Voice processing device and voice processing method | |
EP1734509A1 (en) | Method and system for speech recognition | |
JPH1083195A (ja) | 入力言語認識装置及び入力言語認識方法 | |
JP2003044085A (ja) | コマンド入力機能つきディクテーション装置 | |
JPH06161488A (ja) | 音声認識装置 |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
A621 | Written request for application examination |
Free format text: JAPANESE INTERMEDIATE CODE: A621 Effective date: 20040714 |
|
A977 | Report on retrieval |
Free format text: JAPANESE INTERMEDIATE CODE: A971007 Effective date: 20060830 |
|
A131 | Notification of reasons for refusal |
Free format text: JAPANESE INTERMEDIATE CODE: A131 Effective date: 20060905 |
|
A521 | Request for written amendment filed |
Free format text: JAPANESE INTERMEDIATE CODE: A523 Effective date: 20061031 |
|
TRDD | Decision of grant or rejection written | ||
A01 | Written decision to grant a patent or to grant a registration (utility model) |
Free format text: JAPANESE INTERMEDIATE CODE: A01 Effective date: 20061205 |
|
A61 | First payment of annual fees (during grant procedure) |
Free format text: JAPANESE INTERMEDIATE CODE: A61 Effective date: 20061206 |
|
R150 | Certificate of patent or registration of utility model |
Free format text: JAPANESE INTERMEDIATE CODE: R150 |
|
FPAY | Renewal fee payment (event date is renewal date of database) |
Free format text: PAYMENT UNTIL: 20091215 Year of fee payment: 3 |
|
FPAY | Renewal fee payment (event date is renewal date of database) |
Free format text: PAYMENT UNTIL: 20101215 Year of fee payment: 4 |
|
FPAY | Renewal fee payment (event date is renewal date of database) |
Free format text: PAYMENT UNTIL: 20101215 Year of fee payment: 4 |
|
FPAY | Renewal fee payment (event date is renewal date of database) |
Free format text: PAYMENT UNTIL: 20111215 Year of fee payment: 5 |
|
FPAY | Renewal fee payment (event date is renewal date of database) |
Free format text: PAYMENT UNTIL: 20111215 Year of fee payment: 5 |
|
FPAY | Renewal fee payment (event date is renewal date of database) |
Free format text: PAYMENT UNTIL: 20121215 Year of fee payment: 6 |
|
LAPS | Cancellation because of no payment of annual fees |