JP2007183516A - 音声対話装置及び音声認識方法 - Google Patents
音声対話装置及び音声認識方法 Download PDFInfo
- Publication number
- JP2007183516A JP2007183516A JP2006003048A JP2006003048A JP2007183516A JP 2007183516 A JP2007183516 A JP 2007183516A JP 2006003048 A JP2006003048 A JP 2006003048A JP 2006003048 A JP2006003048 A JP 2006003048A JP 2007183516 A JP2007183516 A JP 2007183516A
- Authority
- JP
- Japan
- Prior art keywords
- speech
- voice
- utterance
- signal processing
- recognition result
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Pending
Links
Images
Abstract
【課題】訂正発話時におけるユーザの負担を軽減することができる音声対話装置を提供する。
【解決手段】音声対話装置における信号処理装置14は、音声認識の対象となる語彙を含む第1の言語モデルを用いて第1の発話音声を照合した第1の照合結果が採用されなかった場合には、その語彙の属性を表す他の語彙を含む第2の言語モデルを用いて第2の発話音声を照合し、得られた第2の照合結果によって限定される言語モデルを用いて第1の発話音声を再度音声認識し、音声認識結果に応じたシステム応答を生成する。
【選択図】図3
【解決手段】音声対話装置における信号処理装置14は、音声認識の対象となる語彙を含む第1の言語モデルを用いて第1の発話音声を照合した第1の照合結果が採用されなかった場合には、その語彙の属性を表す他の語彙を含む第2の言語モデルを用いて第2の発話音声を照合し、得られた第2の照合結果によって限定される言語モデルを用いて第1の発話音声を再度音声認識し、音声認識結果に応じたシステム応答を生成する。
【選択図】図3
Description
本発明は、発話された音声に応じて対話をする音声対話装置、及び発話された音声を認識する音声認識方法に関する。
従来から、発話された音声に応じて対話をする音声対話装置を用いて、ユーザが発話した目的地の施設名称などを認識し、認識した目的地に対応する経路情報を提供するナビゲーション装置が提案されている(例えば、特許文献1など参照。)。
この種のナビゲーション装置においては、自車両が存在する都道府県内の施設名称のみをユーザが発話することにより、目的地入力を行うことができる。また、ナビゲーション装置においては、他県の施設については、都道府県名称といった当該施設に関する属性の名称と施設名称とをユーザが連続的に発話することにより、目的地などを入力することができる。さらに、ナビゲーション装置においては、入力した目的地が誤認識された場合であっても、ユーザが訂正指示を入力して再度発話するなど、いわゆる訂正発話(言い直し発話)を行うことにより、目的地を再入力することもできる。
特開平2002−350163号公報
しかしながら、従来の音声対話装置においては、先に入力された施設名称の誤認識を訂正するために、ユーザが訂正発話を行った場合には、当該先に入力された施設名称の全てが取り消されてしまうことから、取り消された施設名称を最初から入力する手間を強いるという問題があった。例えば、従来の音声対話装置においては、自車両位置が東京都内であり、ユーザが目的地として神奈川県に存在する「追浜駅」と発話したにもかかわらず、これを東京都内に存在する駅名称と照合した結果「奥多摩駅」であるものと誤認識した場合には、ユーザが訂正発話によって「神奈川県の追浜駅」と発話せざるを得なかった。このように、従来の音声対話装置においては、先の発話内容の入力はなかったものとして取り扱うことから、ユーザが重複した発話を繰り返さなければならないという問題があった。
そこで、本発明は、上述した実情に鑑みて提案されたものであり、訂正発話時におけるユーザの負担を軽減することができる音声対話装置及び音声認識方法を提供することを目的とする。
本発明にかかる音声対話装置は、発話音声を入力する入力手段と、前記入力手段によって入力された発話音声を音声認識し、音声認識結果に応じたシステム応答を生成する音声認識手段と、前記音声認識手段によって生成された前記システム応答を出力する出力手段とを備える。そして、前記音声認識手段は、音声認識の対象となる語彙を含む第1の言語モデルを用いて第1の発話音声を照合した第1の照合結果が採用されなかった場合には、前記語彙の属性を表す他の語彙を含む第2の言語モデルを用いて第2の発話音声を照合し、得られた第2の照合結果によって限定される言語モデルを用いて前記第1の発話音声を再度音声認識し、音声認識結果に応じたシステム応答を生成することにより、上述の課題を解決する。
また、本発明にかかる音声認識方法は、入力された発話音声を音声認識し、音声認識結果に応じたシステム応答を生成する音声認識工程と、前記音声認識工程にて生成された前記システム応答を出力する出力工程とを備える。そして、前記音声認識工程では、音声認識の対象となる語彙を含む第1の言語モデルを用いて第1の発話音声を照合した第1の照合結果が採用されなかった場合には、前記語彙の属性を表す他の語彙を含む第2の言語モデルを用いて第2の発話音声を照合し、得られた第2の照合結果によって限定される言語モデルを用いて前記第1の発話音声を再度音声認識し、音声認識結果に応じたシステム応答を生成することにより、上述の課題を解決する。
本発明にかかる音声対話装置及び音声認識方法においては、第1の言語モデルを用いてユーザが発話した第1の発話音声を照合した結果、誤認識した場合であっても、訂正発話として、第1の発話音声の語彙の属性を表す語彙を含む第2の発話音声のみを発話すればよく、これに応じて、第2の言語モデルを用いて第2の発話音声を照合して得られた第2の照合結果によって限定される言語モデルを用いて第1の発話音声を再度照合することにより、当該第1の発話音声の語彙を正しく音声認識することが可能となる。
したがって、本発明にかかる音声対話装置及び音声認識方法においては、ユーザが訂正発話する際に、第2の発話音声として第1の発話音声を重複する必要がなくなり、当該ユーザの負担を軽減することができる。
以下、本発明の実施の形態について図面を参照して説明する。
この実施の形態として示す音声対話装置は、車両や、携帯端末装置などに搭載されるナビゲーション装置に適用した場合の構成である。この音声対話装置をナビゲーション装置に適用すると、ナビゲーション装置で要求される各種機能を、ユーザとシステムとのインタラクティブな対話によって動作させることができる。
なお、本発明は、これに限定されるものではなく、各種情報処理装置に搭載されて、各種機能をインタラクティブに段階的に動作させることができる、どのようなアプリケーションにも適用することができる。
[第1の実施の形態]
[音声対話装置の構成]
まず、図1を用いて、本発明の第1の実施の形態として示す音声対話装置の構成について説明をする。
[音声対話装置の構成]
まず、図1を用いて、本発明の第1の実施の形態として示す音声対話装置の構成について説明をする。
音声対話装置は、信号処理ユニット1と、マイク2と、スピーカ3と、入力装置4と、ディスプレイ5とを備えている。なお、本発明にかかわる主要構成要素ではないことから、図示しないが、携帯端末装置のナビゲーション装置であれば、他に送受信手段を備えた構成であってもよく、また、車両に搭載されたナビゲーション装置であれば、送受信手段または通信接続手段などを備えた構成であってもよい。
信号処理ユニット1は、マイク2から入力されるユーザによって発話された音声をデジタル音声信号に変換して出力するA/Dコンバータ11と、システム応答として信号処理装置14から出力されるデジタル音声信号をアナログ音声信号に変換して出力するD/Aコンバータ12と、D/Aコンバータ12から出力されるアナログ音声信号を増幅する出力アンプ13と、信号処理装置14と、外部記憶装置15とを備えている。
信号処理装置14は、CPU(Central Processing Unit)21と、メモリ22とを備えており、マイク2から、A/Dコンバータ11を介して入力されるユーザによって発話された音声の音声認識処理を実行し、音声認識処理結果を出力する。また、信号処理装置14は、バージイン機能を備えており、当該信号処理装置14によるシステム応答に割り込むように入力されたユーザの発話音声に対しても音声認識処理を実行することができる。
CPU21は、信号処理装置14を統括的に制御する制御手段である。CPU21は、メモリ22に記憶されている処理プログラムを読み出して実行し、音声認識処理を制御したり、バージイン機能の制御を行ったりする。
通常、バージイン機能は、有効となっておらず機能していない。バージイン機能は、システム応答に対して、ユーザによる割り込み発話がなされると予測された場合にのみ有効となり、割り込み発話に対する音声認識処理が実行される。
メモリ22は、CPU21で実行される処理プログラムや、使用頻度の高い各種データなどをあらかじめ記憶している。また、メモリ22は、CPU21によって音声認識処理が実行される場合には、外部記憶装置15から読み出された認識対象語及びその音響モデルが格納されることにより、認識対象語の辞書が構築される。
信号処理装置14のCPU21は、このメモリ22に構築された辞書を参照して、ユーザによって発話された発話音声の音声特徴パターンと、認識対象語の音響モデルの音声パターンとの一致度を演算することで音声認識処理を行う。
外部記憶装置15は、ナビゲーション装置で使用される各種データや、信号処理装置14で実行される音声認識処理で使用される認識対象データや、システム応答用の音声データなどを記憶している。外部記憶装置15は、認識対象データとして、音声認識処理で音声認識の対象となる認識対象語や、認識対象語の音響モデル、さらに、認識対象語とその接続関係を規定したネットワーク文法などの言語モデルを記憶している。認識対象語の音響モデルは、音響的に意味を持つ部分単語モデルを定義したものである。
認識対象語の音響モデルは、音響的に意味を持つ部分単語モデルを定義したものであり、一般的な発話速度で発話される際の通常発話と、通常発話を一旦行った際に誤認識されたと判断した後に、ユーザによって発話される訂正発話(言い直し発話)とにそれぞれ対応した音響モデルが用意されている。
また、ネットワーク文法とは、認識対象語の接続関係を規定するためのルールであり、例えば、図2に示すような階層構造で表すことができる。図2に示す例では、認識対象語である“駅名”を下位の階層Bとし、この下位の階層Bに接続される上位の階層Aとして“都道府県名”を規定している。
信号処理装置14は、図2に示すように認識対象語に対して規定された階層構造をなすネットワーク文法を用いることで、ユーザによって、例えば、「神奈川県の鶴見駅」といったような発話がなされた場合でも、音声認識をすることができる。
また、“都道府県名”と、“駅名”とを、それぞれ個別に有するネットワーク文法を切り替えて用いれば、「神奈川県」で発話が一旦完了され、その後「鶴見駅」と発話された場合でも音声認識をすることができる。
マイク2は、ユーザの発話音声を、当該音声対話装置に入力する。マイク2から入力されたユーザの発話音声は、電気信号である音声信号に変換され、A/Dコンバータ11でデジタル音声信号に変換されて信号処理装置14に供給される。
スピーカ3は、システムの発話として、信号処理装置14から出力され、D/Aコンバータ12でアナログ音声信号に変換され、出力アンプ13で信号増幅されたアナログ音声信号を音声として出力する。
入力装置4は、ユーザによって押下される発話スイッチ4a及び訂正スイッチ4bを備えている。発話スイッチ4aは、音声認識の開始指示を行うためのスイッチである。一方、訂正スイッチ4bは、ユーザによって発話された音声が、システムにおいて誤認識された場合に、訂正を行うためのスイッチである。なお、この訂正スイッチ4bを一定期間押し続けると、音声認識処理を途中で終了させることができる。
ディスプレイ5は、例えばLCD(液晶表示装置)などで実現され、ナビゲーションの行き先や、探索条件設定時のガイダンス表示を行ったり、経路誘導などの画面を表示したり、信号処理装置14による音声認識処理結果である応答画像を表示させたりする。
[音声対話装置の動作]
このような構成からなる音声対話装置は、図3に示す一連の手順にしたがった処理動作を行う。なお、同図においては、ナビゲーション装置の所定の機能を動作させる場合に、ユーザが、要求される設定事項を音声対話装置を介して入力し、ナビゲーション装置を動作させるまでの一連の処理工程を示している。
このような構成からなる音声対話装置は、図3に示す一連の手順にしたがった処理動作を行う。なお、同図においては、ナビゲーション装置の所定の機能を動作させる場合に、ユーザが、要求される設定事項を音声対話装置を介して入力し、ナビゲーション装置を動作させるまでの一連の処理工程を示している。
まず、音声対話装置における信号処理装置14は、ステップS1において、ユーザによる発話スイッチ4aの操作によって発話開始が指示されたことに応じて、発話された音声に対する音声認識処理を開始する。
続いて、信号処理装置14は、ステップS2において、初期状態で認識対象語として待ち受ける文法(言語モデル)を読み出し、メモリ22に設定することにより、語彙の初期化を行う。すなわち、信号処理装置14は、認識対象データとして外部記憶装置15に記憶されている音声認識処理で音声認識の対象となる認識対象語や、認識対象語の音響モデル、さらには、認識対象語とその接続関係を規定したネットワーク文法などの言語モデルを読み出し、メモリ22に設定する。
ここで、信号処理装置14は、例えば図4乃至図7に示すような住所や施設名称などを認識対象とする。
具体的には、信号処理装置14は、図4に示すように、“都道府県名”、“市名”、“区町村名”などからなる住所の文法に基づいて、「神奈川県横須賀市夏島町」といった住所の連続音声発話や、「神奈川県」、「横須賀市」、「夏島町」といった単語毎に分割された音声発話を認識することができる。また、信号処理装置14は、図5に示すように、“都道府県名”、“駅名”などからなる施設の文法に基づいて、「神奈川県追浜駅」といった施設の連続音声発話や、「神奈川県」、「追浜駅」、といった単語毎に分割された音声発話を認識することができる。
さらに、信号処理装置14は、図6及び図7に示すように、自車両位置Oの近傍に存在する施設名称を集めて動的に構築される文法(言語モデル)を利用することもできる。図6は、領域Aに存在する施設を文法に登録し、領域A以外の領域に存在する施設は登録されない場合の例を示している。ここで、領域Aは、通常、半径数十キロメートルの円領域などとされる。一方、図7は、領域Aを内包する領域Cに存在する施設を文法に登録し、領域Bに存在する施設は登録されない場合の例を示している。なお、領域Aは、領域Cと比較して詳細度の高い施設名称までを抽出して文法が構築される領域である。通常、領域Aは、半径数十キロメートルの円領域などとされ、領域Cは、半径数百キロメートルの円領域などとされる。なお、動的に構築される文法の領域としては、自車両が存在する都道府県領域とすることもできる。この実施の形態においては、自車両位置が東京都内であり、領域Aには数千箇所程度の近傍施設名称が含まれているものとする。
また、信号処理装置14は、図示しないナビゲーション操作コマンドなどを認識対象としてもよい。
信号処理装置14は、このようにして語彙の初期化を行うと、図3中ステップS3において、外部記憶装置15に記憶された告知音声データを読み出して、D/Aコンバータ12、出力アンプ13、スピーカ3を介して出力させることで、処理を開始した旨をユーザに告知し、発話要求を行う。
すなわち、ユーザは、スピーカ3を介して出力される、信号処理装置14による処理が開始された旨を知らせる告知音声を聞いたことに応じて、認識対象データに含まれる認識対象語の発話を開始する。ユーザによって発話され、マイク2を介して入力された音声は、A/Dコンバータ11でデジタル音声信号に変化されて、信号処理装置14に出力される。
続いて、信号処理装置14は、ステップS4において、ユーザによって発話された音声の取り込みを開始する。
通常、信号処理装置14は、発話スイッチ4aの操作がなされるまでは、D/Aコンバータ12の出力(デジタル音声信号)の平均パワーを演算している。信号処理装置14は、上述したステップS1において、発話スイッチ4aの操作がなされると、演算された平均パワーと、入力されたデジタル音声信号の瞬間パワーとを比較する。そして、信号処理装置14は、入力されたデジタル音声信号が、演算された平均パワーよりも所定値以上大きくなった場合に、ユーザが発話をした音声区間であると判断して、音声の取り込みを開始する。その後も、信号処理装置14は、平均パワーの演算を継続して実行し、平均パワーが所定値よりも小さくなった場合に、ユーザの発話が終了したと判断をする。
続いて、信号処理装置14は、ステップS5において、取り込まれた発話音声と、外部記憶装置15からメモリ22に読み込まれた認識対象語との一致度演算を開始する。一致度は、音声区間部分のデジタル音声信号と、個々の認識対象語がどの程度似ているのかをスコアとして示したものである。例えば、信号処理装置14は、スコアの値が大きい認識対象語ほど一致度が高いと評価する。なお、信号処理装置14は、この一致度演算を実行している間も、並列処理により音声取り込みを継続して実行する。
そして、信号処理装置14は、ステップS6において、デジタル音声信号の瞬間パワーが所定時間以上、所定値以下となったことに応じて、ユーザの発話が終了したと判断し、音声取り込みを終了する。
信号処理装置14は、音声取り込みを終了すると、ステップS7において、ステップS5における一致度演算が終了するまで待機し、認識対象語を音声認識結果として確定したか否かを判定する。具体的には、信号処理装置14は、音声認識結果の信頼度を演算し、その信頼度が所定の閾値以上であった場合に音声認識結果として確定する。なお、音声認識結果の信頼度の演算については、“駒谷、河原著、「音声対話システムにおける音声認識結果の信頼度の利用法」、日本音響学会全国大会論文集3−5−2、pp.73−74、2000年”などに詳細に記載されている。
ここで、信号処理装置14は、認識対象語を音声認識結果として確定した場合には、ステップS8へと処理を移行する一方で、認識対象語を音声認識結果として確定しない場合には、ステップS12へと処理を移行し、再度発話してもらいたい旨をユーザに告知するために、再発話要求を行い、ステップS4からの処理を繰り返す。
なお、ここでは、自車両位置が東京都内であり、自車両位置に応じて動的に構築される辞書に含まれる施設名称が東京都内近傍に存在する施設名称のみとなることから、ユーザが目的地として神奈川県に存在する「追浜駅」と発話したにもかかわらず、これを東京都内に存在する駅名称と照合した結果「奥多摩駅」であるものと誤認識したものとする。この場合、「奥多摩駅」は、その発音が「追浜駅」と非常に似ており、信頼度も十分に大きな値となることから、信号処理装置14は、「奥多摩駅」を音声認識結果として確定し、ステップS8へと処理を移行することになる。
信号処理装置14は、ステップS8において、先に図5に示したような文法のように、音声認識した語彙が最下層の語彙を含むか否かを判定する。信号処理装置14は、音声認識した語彙が最下層の語彙を含まないと判定した場合には、ステップS13へと処理を移行する一方で、音声認識した語彙が最下層の語彙を含むと判定した場合には、ステップS9へと処理を移行する。この場合、信号処理装置14は、音声認識した「奥多摩駅」という語彙自体が地点情報を有する最下層の語彙であることから、ステップS9へと処理を移行する。
続いて、信号処理装置14は、ステップS9において、システム応答を生成して出力する。具体的には、信号処理装置14は、図示しない音声合成処理機能を用いて音声認識結果である「奥多摩駅」を音声信号に変換する。この音声信号は、D/Aコンバータ12でアナログ音声信号に変換され、出力アンプ13で信号増幅された上で、スピーカ3を介して音声として出力される。
そして、信号処理装置14は、ステップS10において、ユーザによる訂正スイッチ4bの押下があるか否かを所定時間待ち受ける。ここで、信号処理装置14は、訂正スイッチ4bの押下がなかった場合には、音声認識結果をユーザが認容したと判断し、ステップS11において、音声認識結果を決定し、その音声認識結果に応じた処理を行う。例えば、ナビゲーション装置に適用された音声対話装置においては、音声認識結果の住所を目的地として設定し、一連の処理を終了する。一方、信号処理装置14は、訂正スイッチ4bの押下があった場合には、音声認識結果をユーザが否定したと判断し、ステップS12へと処理を移行する。
なお、ここでは、ユーザによる発話音声「追浜駅」に対して、システム応答が「奥多摩駅」となったことから、当該ユーザが訂正スイッチ4bを押下し、ステップS12へと処理を移行し、再度発話してもらいたい旨をユーザに告知するために、再発話要求を行い、ステップS4からの処理を繰り返すことになる。
信号処理装置14は、ステップS4乃至ステップS7において、ユーザによる第2の発話音声の音声認識処理を行う。ここで、ユーザは、発話音声「追浜駅」に対して東京都内に存在する「奥多摩駅」と誤認識されたことに応じて、第2の発話にて「神奈川県」と訂正発話したとする。ユーザによって発話され、マイク2を介して入力された音声は、A/Dコンバータ11でデジタル音声信号に変化されて、信号処理装置14に出力される。これに応じて、信号処理装置14は、音声認識処理を行い、「神奈川県」と正しい音声認識結果を得たとする。
この場合、信号処理装置14は、ステップS8において、音声認識した「神奈川県」という語彙が上位階層の語彙であることから、ステップS13へと処理を移行する。信号処理装置14は、ステップS13において、ステップS7と同様に、「神奈川県」という音声認識結果の信頼度の評価を再度行い、その信頼度が所定の閾値以上であった場合に音声認識結果として確定する。なお、この信頼度の評価においては、ステップS7にて用いた閾値よりも高い閾値を用いる。信号処理装置14は、かかる閾値を用いることによって十分に信頼できる場合にのみ、認識対象語を音声認識結果として確定し、ステップS14へと処理を移行する。一方、信号処理装置14は、認識対象語を音声認識結果として確定しない場合には、第1の発話音声「追浜駅」の利用を諦め、ステップS21へと処理を移行する。なお、ここでは、音声認識結果の確定を行い、ステップS14へと処理を移行したものとする。
続いて、信号処理装置14は、ステップS14において、1つ前のシステム応答としての発話がユーザによって否定されたという事実があったか否かを判定する。ここで、信号処理装置14は、1つ前の発話が存在し、それが否定された場合には、誤認識を訂正しようとするユーザの意図があったと判断し、ステップS15へと処理を移行する一方で、そうでない場合には、ステップS21へと処理を移行する。なお、ここでは、発話音声「追浜駅」に対して東京都内に存在する「奥多摩駅」と誤認識されたことに応じて、第2の発話音声として「神奈川県」と訂正発話したことから、ステップS15へと処理を移行することになる。
続いて、信号処理装置14は、ステップS15において、音声認識結果である「神奈川県」を信頼し、神奈川県内の施設を待ち受け語として設定する。すなわち、信号処理装置14は、先に図5に示した神奈川県の下位階層に位置する施設名称語彙のみを待ち受け範囲として絞り込み、図4に示した文法、図5の他の部分、図6又は図7に示した文法を待ち受け範囲外とする。
続いて、信号処理装置14は、ステップS16において、前回の音声認識時に保存しておいたユーザによる第1の発話音声と、ステップS15にて絞り込んだ文法との照合を行うことにより、再度音声認識処理を行う。
そして、信号処理装置14は、ステップS17において、ステップS7と同様に、「追浜駅」という音声認識結果の信頼度の評価を再度行い、その信頼度が所定の閾値以上であった場合に音声認識結果として確定する。なお、この信頼度の評価においても、ステップS7にて用いた閾値よりも高い閾値を用いる。信号処理装置14は、かかる閾値を用いることによって十分に信頼できる場合にのみ、認識対象語を音声認識結果として確定し、ステップS18へと処理を移行する。一方、信号処理装置14は、認識対象語を音声認識結果として確定しない場合には、第1の発話音声の利用を諦め、ステップS20において、第1の発話音声を破棄した上で、ステップS21へと処理を移行する。
信号処理装置14は、認識対象語を音声認識結果として確定した場合には、ステップS18において、図示しない音声合成処理機能を用いて音声認識結果である「神奈川県の追浜駅」を音声信号に変換する。この音声信号は、D/Aコンバータ12でアナログ音声信号に変換され、出力アンプ13で信号増幅された上で、スピーカ3を介して音声として出力される。
そして、信号処理装置14は、ステップS19において、ユーザによる訂正スイッチ4bの押下があるか否かを所定時間待ち受ける。ここで、信号処理装置14は、訂正スイッチ4bの押下がなかった場合には、音声認識結果をユーザが認容したと判断し、ステップS11において、音声認識結果を決定し、上述したように、その音声認識結果に応じた処理を行い、一連の処理を終了する。一方、信号処理装置14は、訂正スイッチ4bの押下があった場合には、音声認識結果をユーザが否定したと判断し、ステップS20において、第1の発話音声を破棄した上で、ステップS21へと処理を移行する。
また、信号処理装置14は、ステップS21へと処理を移行した場合には、「神奈川県」という発話音声のみを受理した状態であることから、ステップS22において、ユーザによる訂正スイッチ4bの押下があるか否かを所定時間待ち受ける。ここで、信号処理装置14は、訂正スイッチ4bの押下がなかった場合には、音声認識結果をユーザが認容したと判断し、ステップS23において、文法を、神奈川県内の住所及び施設に限定し、ステップS4からの処理を繰り返す。一方、信号処理装置14は、訂正スイッチ4bの押下があった場合には、音声認識結果をユーザが否定したと判断し、ステップS12において、再度発話してもらいたい旨をユーザに告知するために、再発話要求を行った上で、ステップS4からの処理を繰り返す。
音声対話装置は、このような一連の手順にしたがった処理動作を行うことにより、第1の発話音声が誤認識された場合であっても、第2の発話音声を音声認識することによって正しい目的地を設定し、ナビゲーション装置の所定の機能を動作させることができる。
[第1の実施の形態の効果]
以上詳細に説明したように、第1の実施の形態として示した音声対話装置においては、信号処理装置14により、音声認識の対象となる語彙を含む第1の言語モデルを用いて第1の発話音声を照合した第1の照合結果が採用されなかった場合には、その語彙の属性を表す他の語彙を含む第2の言語モデルを用いて第2の発話音声を照合し、得られた第2の照合結果によって限定される言語モデルを用いて第1の発話音声を再度音声認識し、音声認識結果に応じたシステム応答を生成する。
以上詳細に説明したように、第1の実施の形態として示した音声対話装置においては、信号処理装置14により、音声認識の対象となる語彙を含む第1の言語モデルを用いて第1の発話音声を照合した第1の照合結果が採用されなかった場合には、その語彙の属性を表す他の語彙を含む第2の言語モデルを用いて第2の発話音声を照合し、得られた第2の照合結果によって限定される言語モデルを用いて第1の発話音声を再度音声認識し、音声認識結果に応じたシステム応答を生成する。
これにより、この音声対話装置においては、ユーザが訂正発話する際に、第2の発話音声として第1の発話音声を重複する必要がなくなり、当該ユーザの負担を軽減することができる。
具体的には、音声対話装置においては、信号処理装置14により、第2の照合結果によって限定される言語モデルとして、第2の発話音声によって指示される地点に含まれる第1の発話音声と同じ属性を表す語彙を含む言語モデルに絞り込む。例えば、音声対話装置においては、自車両位置が東京都内であるときに、ユーザが目的地として「追浜駅」と発話したにもかかわらず、これを東京都内に存在する施設名称と照合した結果「奥多摩駅」であるものと誤認識した場合であっても、訂正発話として、「追浜駅」の属性としての都道府県を表す「神奈川県」とのみ発話すればよい。これに応じて、音声対話装置においては、神奈川県内に存在する施設名称と第1の発話音声である「追浜駅」とを照合することにより、「追浜駅」という正しい音声認識結果を出力することが可能となる。なお、音声対話装置においては、訂正発話として、例えば「神奈川県の横須賀市」や「京浜急行本線」といったように、都道府県以外の属性を含む発話を第2の発話音声としてもよい。
また、音声対話装置においては、信号処理装置14により、第2の発話音声の音声認識結果の信頼度が所定の閾値以上であった場合にのみ、第1の発話音声を再度音声認識する。これにより、音声対話装置においては、第2の照合結果が信頼できない場合に、これに基づいて辞書を切り替えて再度音声認識してしまうことがなく、再認識結果が誤認識となってしまう事態を回避することができる。また、音声対話装置においては、無駄に再認識してしまうことによる演算量の増加も回避することができる。
さらに、音声対話装置においては、信号処理装置14により、第1の発話音声の再音声認識結果の信頼度が所定の閾値以上であった場合にのみ、システム応答を生成する。これにより、音声対話装置においては、再認識結果が誤認識となってしまう事態を回避することができる。
さらにまた、音声対話装置においては、信号処理装置14により、第2の発話音声の音声認識結果の信頼度演算に用いる閾値、又は、第1の発話音声の再音声認識結果の信頼度演算に用いる閾値として、第1の発話音声の音声認識結果の信頼度演算に用いる閾値よりも高い閾値を用いる。これにより、音声対話装置においては、辞書を切り替えて再度音声認識を行った結果の採用基準を高くすることができ、再認識結果が誤認識となってしまう事態を確実に回避することができる。
[第2の実施の形態]
つぎに、本発明の第2の実施の形態として示す音声対話装置について説明をする。
つぎに、本発明の第2の実施の形態として示す音声対話装置について説明をする。
この第2の実施の形態として示す音声対話装置は、図1を用いて説明した第1の実施の形態として示す音声対話装置と同一の構成である。したがって、第2の実施の形態として示す音声対話装置の構成については、同一符号を付すことによってその説明を省略する。
また、この第2の実施の形態として示す音声対話装置は、上述した第1の実施の形態として示した音声対話装置と同様に、誤認識があった場合における訂正発話時に、使用する言語モデルを限定することにより、ユーザが重複した発話を繰り返すのを回避することができるものであるが、ユーザによる発話音声によって指示された地点からの距離に基づいて、使用する言語モデルを限定するものである。
したがって、第2の実施の形態として示す音声対話装置の処理動作は、第1の実施の形態として示した音声対話装置の処理動作として図3を用いて説明したフローチャートの一部が変更されるだけであり、同一の処理内容については、同一ステップ番号を付すことによってその説明を省略する。
[音声対話装置の動作]
第2の実施の形態として示す音声対話装置は、図8に示す一連の手順にしたがった処理動作を行う。なお、同図においては、ナビゲーション装置の所定の機能を動作させる場合に、ユーザが、要求される設定事項を音声対話装置を介して入力し、ナビゲーション装置を動作させるまでの一連の処理工程を示している。
第2の実施の形態として示す音声対話装置は、図8に示す一連の手順にしたがった処理動作を行う。なお、同図においては、ナビゲーション装置の所定の機能を動作させる場合に、ユーザが、要求される設定事項を音声対話装置を介して入力し、ナビゲーション装置を動作させるまでの一連の処理工程を示している。
音声対話装置における信号処理装置14は、ステップS1乃至ステップS6の処理を行い、音声取り込みを終了すると、ステップS7において、音声認識結果の信頼度を演算し、その信頼度が所定の閾値以上であった場合に音声認識結果として確定する。
なお、ここでは、自車両位置が東京都内であり、自車両位置に応じて動的に構築される辞書に含まれる施設名称が東京都内近傍に存在する施設名称のみであるのに応じて、ユーザが目的地として神奈川県に存在する「海洋研究開発機構」と発話したにもかかわらず、これを東京都内に存在する施設名称と照合した結果「葛西臨海公園」であるものと誤認識したものとする。この場合、「葛西臨海公園」は、その発音が「海洋研究開発機構」と非常に似ており、信頼度も十分に大きな値となることから、信号処理装置14は、「葛西臨海公園」を音声認識結果として確定し、ステップS8へと処理を移行することになる。
信号処理装置14は、ステップS8において、先に図5に示したような文法のように、音声認識した語彙が最下層の語彙を含むか否かを判定する。信号処理装置14は、音声認識した語彙が最下層の語彙を含まないと判定した場合には、ステップS21へと処理を移行する一方で、音声認識した語彙が最下層の語彙を含むと判定した場合には、ステップS31へと処理を移行する。この場合、信号処理装置14は、音声認識した「葛西臨海公園」という語彙自体が地点情報を有する最下層の語彙であることから、ステップS31へと処理を移行する。
続いて、信号処理装置14は、ステップS31において、1つ前のシステム応答としての発話がユーザによって否定されたという事実があったか否かを判定する。ここで、信号処理装置14は、1つ前の発話が存在し、それが否定された場合には、誤認識を訂正しようとするユーザの意図があったと判断し、ステップS32へと処理を移行する一方で、そうでない場合には、ステップS9へと処理を移行する。なお、ここでは、最初の発話音声(第1の発話音声)しか入力されていないことから、ステップS9へと処理を移行することになる。
続いて、信号処理装置14は、ステップS9において、システム応答を生成して出力する。具体的には、信号処理装置14は、図示しない音声合成処理機能を用いて音声認識結果である「葛西臨海公園」を音声信号に変換する。この音声信号は、D/Aコンバータ12でアナログ音声信号に変換され、出力アンプ13で信号増幅された上で、スピーカ3を介して音声として出力される。
そして、信号処理装置14は、ステップS10において、ユーザによる訂正スイッチ4bの押下があるか否かを所定時間待ち受ける。ここで、信号処理装置14は、訂正スイッチ4bの押下がなかった場合には、音声認識結果をユーザが認容したと判断し、ステップS11において、音声認識結果を決定し、その音声認識結果に応じた処理を行う。例えば、ナビゲーション装置に適用された音声対話装置においては、音声認識結果の住所を目的地として設定し、一連の処理を終了する。一方、信号処理装置14は、訂正スイッチ4bの押下があった場合には、音声認識結果をユーザが否定したと判断し、ステップS12へと処理を移行する。
なお、ここでは、ユーザによる発話音声「海洋研究開発機構」に対して、システム応答が「葛西臨海公園」となったことから、当該ユーザが訂正スイッチ4bを押下し、ステップS12へと処理を移行し、再度発話してもらいたい旨をユーザに告知するために、再発話要求を行い、ステップS4からの処理を繰り返すことになる。
信号処理装置14は、ステップS4乃至ステップS8において、ユーザによる第2の発話音声の音声認識処理を行う。ここで、ユーザは、発話音声「海洋研究開発機構」に対して東京都内に存在する「葛西臨海公園」と誤認識されたことに応じて、第2の発話音声として「海洋研究開発機構」の代替施設としての「神奈川県の追浜駅」と訂正発話したとする。ユーザによって発話され、マイク2を介して入力された音声は、A/Dコンバータ11でデジタル音声信号に変化されて、信号処理装置14に出力される。これに応じて、信号処理装置14は、音声認識処理を行い、「神奈川県の追浜駅」と正しい音声認識結果を得たとする。
この場合、信号処理装置14は、ステップS8において、ユーザが発話した「神奈川県の追浜駅」という語彙が最下層の語彙であることから、ステップS31へと処理を移行し、1つ前のシステム応答としての発話がユーザによって否定されたという事実があったか否かを判定する。なお、ここでは、発話音声「海洋研究開発機構」に対して東京都内に存在する「葛西臨海公園」と誤認識されたことに応じて、第2の発話音声として「神奈川県の追浜駅」と訂正発話したことから、ステップS32へと処理を移行することになる。
信号処理装置14は、ステップS32において、音声認識結果である「神奈川県の追浜駅」を信頼し、追浜駅から所定距離内に存在する近傍施設を待ち受け語として設定する。すなわち、信号処理装置14は、例えば図9に示すように、追浜駅Aから所定距離内に存在する近傍施設名称を集めて動的に文法(言語モデル)を構築し、その施設名称語彙のみを待ち受け範囲として絞り込む。このとき、信号処理装置14は、追浜駅Aの近傍施設として、詳細度の高い施設名称を抽出し、その施設名称を文法に組み込む。
続いて、信号処理装置14は、ステップS33において、前回の音声認識時に保存しておいたユーザによる第1の発話音声と、ステップS32にて絞り込んだ文法との照合を行うことにより、再度音声認識処理を行う。なお、ここでは、音声認識結果として「海洋研究開発機構」が得られたものとする。
そして、信号処理装置14は、ステップS34において、ステップS7と同様に、「海洋研究開発機構」という音声認識結果の信頼度の評価を再度行い、その信頼度が所定の閾値以上であった場合に音声認識結果として確定する。なお、この信頼度の評価においては、ステップS7にて用いた閾値よりも高い閾値を用いる。信号処理装置14は、かかる閾値を用いることによって十分に信頼できる場合にのみ、認識対象語を音声認識結果として確定し、ステップS35へと処理を移行する。一方、信号処理装置14は、認識対象語を音声認識結果として確定しない場合には、第1の発話音声の利用を諦め、ステップS37において、第1の発話音声を破棄した上で、ステップS38へと処理を移行する。
信号処理装置14は、認識対象語を音声認識結果として確定した場合には、ステップS35において、図示しない音声合成処理機能を用いて音声認識結果である「神奈川県の追浜駅付近の海洋研究開発機構」を音声信号に変換する。この音声信号は、D/Aコンバータ12でアナログ音声信号に変換され、出力アンプ13で信号増幅された上で、スピーカ3を介して音声として出力される。
そして、信号処理装置14は、ステップS36において、ユーザによる訂正スイッチ4bの押下があるか否かを所定時間待ち受ける。ここで、信号処理装置14は、訂正スイッチ4bの押下がなかった場合には、音声認識結果をユーザが認容したと判断し、ステップS11において、音声認識結果を決定し、上述したように、その音声認識結果に応じた処理を行い、一連の処理を終了する。一方、信号処理装置14は、訂正スイッチ4bの押下があった場合には、音声認識結果をユーザが否定したと判断し、ステップS37において、第1の発話音声を破棄した上で、ステップS38へと処理を移行する。
また、信号処理装置14は、ステップS38へと処理を移行した場合には、第1の発話音声が破棄されていることから、今回の音声認識結果である「神奈川県の追浜駅」を図示しない音声合成処理機能を用いて音声信号に変換する。この音声信号は、D/Aコンバータ12でアナログ音声信号に変換され、出力アンプ13で信号増幅された上で、スピーカ3を介して音声として出力される。
そして、信号処理装置14は、ステップS39において、ユーザによる訂正スイッチ4bの押下があるか否かを所定時間待ち受ける。ここで、信号処理装置14は、訂正スイッチ4bの押下がなかった場合には、音声認識結果をユーザが認容したと判断し、ステップS11において、音声認識結果を決定し、上述したように、その音声認識結果に応じた処理を行い、一連の処理を終了する。一方、信号処理装置14は、訂正スイッチ4bの押下があった場合には、音声認識結果をユーザが否定したと判断し、ステップS12へと処理を移行し、再度発話してもらいたい旨をユーザに告知するために、再発話要求を行った上で、ステップS4からの処理を繰り返す。
音声対話装置は、このような一連の手順にしたがった処理動作を行うことにより、第1の発話音声が誤認識された場合であっても、第2の発話音声を音声認識することによって正しい目的地を設定し、ナビゲーション装置の所定の機能を動作させることができる。
[第2の実施の形態の効果]
以上詳細に説明したように、第2の実施の形態として示した音声対話装置においては、信号処理装置14により、第2の照合結果によって限定される言語モデルとして、第2の発話音声によって指示される地点から所定距離内に存在する第1の発話音声と同じ属性を表す語彙を含む言語モデルに絞り込む。
以上詳細に説明したように、第2の実施の形態として示した音声対話装置においては、信号処理装置14により、第2の照合結果によって限定される言語モデルとして、第2の発話音声によって指示される地点から所定距離内に存在する第1の発話音声と同じ属性を表す語彙を含む言語モデルに絞り込む。
これにより、この音声対話装置においては、ユーザが訂正発話する際に、第2の発話音声として第1の発話音声を重複する必要がなくなり、当該ユーザの負担を軽減することができる。例えば、音声対話装置においては、自車両位置が東京都内であるときに、ユーザが目的地として「海洋研究開発機構」と発話したにもかかわらず、これを東京都内に存在する施設名称と照合した結果「葛西臨海公園」であるものと誤認識した場合であっても、訂正発話として、「神奈川県の追浜駅」と目的とする施設の代替となる施設を発話すればよい。これに応じて、音声対話装置においては、神奈川県の追浜駅から所定距離内に存在する施設名称と第1の発話音声である「海洋研究開発機構」とを照合することにより、「海洋研究開発機構」という正しい音声認識結果を出力することが可能となる。
なお、上述の実施の形態は本発明の一例である。このため、本発明は、上述の実施の形態に限定されることはなく、この実施の形態以外の形態であっても、本発明に係る技術的思想を逸脱しない範囲であれば、設計などに応じて種々の変更が可能であることは勿論である。
1 信号処理ユニット
2 マイク
3 スピーカ
4 入力装置
4a 発話スイッチ
4b 訂正スイッチ
5 ディスプレイ
11 A/Dコンバータ
12 D/Aコンバータ
13 出力アンプ
14 信号処理装置
15 外部記憶装置
21 CPU
22 メモリ
2 マイク
3 スピーカ
4 入力装置
4a 発話スイッチ
4b 訂正スイッチ
5 ディスプレイ
11 A/Dコンバータ
12 D/Aコンバータ
13 出力アンプ
14 信号処理装置
15 外部記憶装置
21 CPU
22 メモリ
Claims (7)
- 発話音声を入力する入力手段と、
前記入力手段によって入力された発話音声を音声認識し、音声認識結果に応じたシステム応答を生成する音声認識手段と、
前記音声認識手段によって生成された前記システム応答を出力する出力手段とを備え、
前記音声認識手段は、音声認識の対象となる語彙を含む第1の言語モデルを用いて第1の発話音声を照合した第1の照合結果が採用されなかった場合には、前記語彙の属性を表す他の語彙を含む第2の言語モデルを用いて第2の発話音声を照合し、得られた第2の照合結果によって限定される言語モデルを用いて前記第1の発話音声を再度音声認識し、音声認識結果に応じたシステム応答を生成すること
を特徴とする音声対話装置。 - 前記音声認識手段は、前記第2の照合結果によって限定される言語モデルとして、前記第2の発話音声によって指示される地点に含まれる前記第1の発話音声と同じ属性を表す語彙を含む言語モデルに絞り込むこと
を特徴とする請求項1記載の音声対話装置。 - 前記音声認識手段は、前記第2の照合結果によって限定される言語モデルとして、前記第2の発話音声によって指示される地点から所定距離内に存在する前記第1の発話音声と同じ属性を表す語彙を含む言語モデルに絞り込むこと
を特徴とする請求項1記載の音声対話装置。 - 前記音声認識手段による音声認識結果の信頼度を演算する信頼度演算手段を備え、
前記音声認識手段は、前記信頼度演算手段によって求められた前記第2の発話音声の音声認識結果の信頼度が所定の閾値以上であった場合にのみ、前記第1の発話音声を再度音声認識すること
を特徴とする請求項1記載の音声対話装置。 - 前記音声認識手段は、前記信頼度演算手段によって求められた前記第1の発話音声の再音声認識結果の信頼度が所定の閾値以上であった場合にのみ、システム応答を生成すること
を特徴とする請求項4記載の音声対話装置。 - 前記信頼度演算手段は、前記第2の発話音声の音声認識結果の信頼度演算に用いる閾値、又は、前記第1の発話音声の再音声認識結果の信頼度演算に用いる閾値として、前記第1の発話音声の音声認識結果の信頼度演算に用いる閾値よりも高い閾値を用いること
を特徴とする請求項4又は請求項5記載の音声対話装置。 - 入力された発話音声を音声認識し、音声認識結果に応じたシステム応答を生成する音声認識工程と、
前記音声認識工程にて生成された前記システム応答を出力する出力工程とを備え、
前記音声認識工程では、音声認識の対象となる語彙を含む第1の言語モデルを用いて第1の発話音声を照合した第1の照合結果が採用されなかった場合には、前記語彙の属性を表す他の語彙を含む第2の言語モデルを用いて第2の発話音声を照合し、得られた第2の照合結果によって限定される言語モデルを用いて前記第1の発話音声を再度音声認識し、音声認識結果に応じたシステム応答を生成すること
を特徴とする音声認識方法。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
JP2006003048A JP2007183516A (ja) | 2006-01-10 | 2006-01-10 | 音声対話装置及び音声認識方法 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
JP2006003048A JP2007183516A (ja) | 2006-01-10 | 2006-01-10 | 音声対話装置及び音声認識方法 |
Publications (1)
Publication Number | Publication Date |
---|---|
JP2007183516A true JP2007183516A (ja) | 2007-07-19 |
Family
ID=38339667
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
JP2006003048A Pending JP2007183516A (ja) | 2006-01-10 | 2006-01-10 | 音声対話装置及び音声認識方法 |
Country Status (1)
Country | Link |
---|---|
JP (1) | JP2007183516A (ja) |
Cited By (3)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
JP2008065202A (ja) * | 2006-09-11 | 2008-03-21 | Alpine Electronics Inc | 地点探索装置及びナビゲーション装置 |
JP2013072974A (ja) * | 2011-09-27 | 2013-04-22 | Toshiba Corp | 音声認識装置、方法及びプログラム |
JP2016522903A (ja) * | 2013-06-14 | 2016-08-04 | 三菱電機株式会社 | 音声を認識するシステムおよび方法 |
-
2006
- 2006-01-10 JP JP2006003048A patent/JP2007183516A/ja active Pending
Cited By (3)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
JP2008065202A (ja) * | 2006-09-11 | 2008-03-21 | Alpine Electronics Inc | 地点探索装置及びナビゲーション装置 |
JP2013072974A (ja) * | 2011-09-27 | 2013-04-22 | Toshiba Corp | 音声認識装置、方法及びプログラム |
JP2016522903A (ja) * | 2013-06-14 | 2016-08-04 | 三菱電機株式会社 | 音声を認識するシステムおよび方法 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
JP6570651B2 (ja) | 音声対話装置および音声対話方法 | |
JP4304952B2 (ja) | 車載制御装置、並びにその操作説明方法をコンピュータに実行させるプログラム | |
US8639508B2 (en) | User-specific confidence thresholds for speech recognition | |
KR20190001434A (ko) | 발화 인식 모델을 선택하는 시스템 및 전자 장치 | |
JP6024675B2 (ja) | 音声認識端末装置、音声認識システム、音声認識方法 | |
JP2008009153A (ja) | 音声対話システム | |
JP2010191400A (ja) | 音声認識装置およびデータ更新方法 | |
JP2003114696A (ja) | 音声認識装置、プログラム及びナビゲーションシステム | |
EP1899955B1 (en) | Speech dialog method and system | |
KR20210098250A (ko) | 전자 장치 및 이의 제어 방법 | |
JP4914632B2 (ja) | ナビゲーション装置 | |
JP2010197644A (ja) | 音声認識システム | |
JP2018116206A (ja) | 音声認識装置、音声認識方法及び音声認識システム | |
JP2007183516A (ja) | 音声対話装置及び音声認識方法 | |
JP4056711B2 (ja) | 音声認識装置 | |
JP4951422B2 (ja) | 音声認識装置、および音声認識方法 | |
JP3846500B2 (ja) | 音声認識対話装置および音声認識対話処理方法 | |
JP4639094B2 (ja) | 音声認識システム、音声認識装置及び音声認識プログラム | |
JP2007127896A (ja) | 音声認識装置及び音声認識方法 | |
JP6811865B2 (ja) | 音声認識装置および音声認識方法 | |
JP4624825B2 (ja) | 音声対話装置および音声対話方法 | |
JP2005114964A (ja) | 音声認識方法および音声認識処理装置 | |
JP2003330488A (ja) | 音声認識装置 | |
JP2006337942A (ja) | 音声対話装置及び割り込み発話制御方法 | |
WO2015102039A1 (ja) | 音声認識装置 |