JP2007183516A

JP2007183516A - 音声対話装置及び音声認識方法

Info

Publication number: JP2007183516A
Application number: JP2006003048A
Authority: JP
Inventors: Takeshi Ono; 健大野; Keiko Katsuragawa; 景子桂川
Original assignee: Nissan Motor Co Ltd
Current assignee: Nissan Motor Co Ltd
Priority date: 2006-01-10
Filing date: 2006-01-10
Publication date: 2007-07-19

Abstract

【課題】訂正発話時におけるユーザの負担を軽減することができる音声対話装置を提供する。
【解決手段】音声対話装置における信号処理装置１４は、音声認識の対象となる語彙を含む第１の言語モデルを用いて第１の発話音声を照合した第１の照合結果が採用されなかった場合には、その語彙の属性を表す他の語彙を含む第２の言語モデルを用いて第２の発話音声を照合し、得られた第２の照合結果によって限定される言語モデルを用いて第１の発話音声を再度音声認識し、音声認識結果に応じたシステム応答を生成する。
【選択図】図３

Description

本発明は、発話された音声に応じて対話をする音声対話装置、及び発話された音声を認識する音声認識方法に関する。

従来から、発話された音声に応じて対話をする音声対話装置を用いて、ユーザが発話した目的地の施設名称などを認識し、認識した目的地に対応する経路情報を提供するナビゲーション装置が提案されている（例えば、特許文献１など参照。）。

この種のナビゲーション装置においては、自車両が存在する都道府県内の施設名称のみをユーザが発話することにより、目的地入力を行うことができる。また、ナビゲーション装置においては、他県の施設については、都道府県名称といった当該施設に関する属性の名称と施設名称とをユーザが連続的に発話することにより、目的地などを入力することができる。さらに、ナビゲーション装置においては、入力した目的地が誤認識された場合であっても、ユーザが訂正指示を入力して再度発話するなど、いわゆる訂正発話（言い直し発話）を行うことにより、目的地を再入力することもできる。
特開平２００２−３５０１６３号公報

しかしながら、従来の音声対話装置においては、先に入力された施設名称の誤認識を訂正するために、ユーザが訂正発話を行った場合には、当該先に入力された施設名称の全てが取り消されてしまうことから、取り消された施設名称を最初から入力する手間を強いるという問題があった。例えば、従来の音声対話装置においては、自車両位置が東京都内であり、ユーザが目的地として神奈川県に存在する「追浜駅」と発話したにもかかわらず、これを東京都内に存在する駅名称と照合した結果「奥多摩駅」であるものと誤認識した場合には、ユーザが訂正発話によって「神奈川県の追浜駅」と発話せざるを得なかった。このように、従来の音声対話装置においては、先の発話内容の入力はなかったものとして取り扱うことから、ユーザが重複した発話を繰り返さなければならないという問題があった。

そこで、本発明は、上述した実情に鑑みて提案されたものであり、訂正発話時におけるユーザの負担を軽減することができる音声対話装置及び音声認識方法を提供することを目的とする。

本発明にかかる音声対話装置は、発話音声を入力する入力手段と、前記入力手段によって入力された発話音声を音声認識し、音声認識結果に応じたシステム応答を生成する音声認識手段と、前記音声認識手段によって生成された前記システム応答を出力する出力手段とを備える。そして、前記音声認識手段は、音声認識の対象となる語彙を含む第１の言語モデルを用いて第１の発話音声を照合した第１の照合結果が採用されなかった場合には、前記語彙の属性を表す他の語彙を含む第２の言語モデルを用いて第２の発話音声を照合し、得られた第２の照合結果によって限定される言語モデルを用いて前記第１の発話音声を再度音声認識し、音声認識結果に応じたシステム応答を生成することにより、上述の課題を解決する。

また、本発明にかかる音声認識方法は、入力された発話音声を音声認識し、音声認識結果に応じたシステム応答を生成する音声認識工程と、前記音声認識工程にて生成された前記システム応答を出力する出力工程とを備える。そして、前記音声認識工程では、音声認識の対象となる語彙を含む第１の言語モデルを用いて第１の発話音声を照合した第１の照合結果が採用されなかった場合には、前記語彙の属性を表す他の語彙を含む第２の言語モデルを用いて第２の発話音声を照合し、得られた第２の照合結果によって限定される言語モデルを用いて前記第１の発話音声を再度音声認識し、音声認識結果に応じたシステム応答を生成することにより、上述の課題を解決する。

本発明にかかる音声対話装置及び音声認識方法においては、第１の言語モデルを用いてユーザが発話した第１の発話音声を照合した結果、誤認識した場合であっても、訂正発話として、第１の発話音声の語彙の属性を表す語彙を含む第２の発話音声のみを発話すればよく、これに応じて、第２の言語モデルを用いて第２の発話音声を照合して得られた第２の照合結果によって限定される言語モデルを用いて第１の発話音声を再度照合することにより、当該第１の発話音声の語彙を正しく音声認識することが可能となる。

したがって、本発明にかかる音声対話装置及び音声認識方法においては、ユーザが訂正発話する際に、第２の発話音声として第１の発話音声を重複する必要がなくなり、当該ユーザの負担を軽減することができる。

以下、本発明の実施の形態について図面を参照して説明する。

この実施の形態として示す音声対話装置は、車両や、携帯端末装置などに搭載されるナビゲーション装置に適用した場合の構成である。この音声対話装置をナビゲーション装置に適用すると、ナビゲーション装置で要求される各種機能を、ユーザとシステムとのインタラクティブな対話によって動作させることができる。

なお、本発明は、これに限定されるものではなく、各種情報処理装置に搭載されて、各種機能をインタラクティブに段階的に動作させることができる、どのようなアプリケーションにも適用することができる。

［第１の実施の形態］
［音声対話装置の構成］
まず、図１を用いて、本発明の第１の実施の形態として示す音声対話装置の構成について説明をする。

音声対話装置は、信号処理ユニット１と、マイク２と、スピーカ３と、入力装置４と、ディスプレイ５とを備えている。なお、本発明にかかわる主要構成要素ではないことから、図示しないが、携帯端末装置のナビゲーション装置であれば、他に送受信手段を備えた構成であってもよく、また、車両に搭載されたナビゲーション装置であれば、送受信手段または通信接続手段などを備えた構成であってもよい。

信号処理ユニット１は、マイク２から入力されるユーザによって発話された音声をデジタル音声信号に変換して出力するＡ／Ｄコンバータ１１と、システム応答として信号処理装置１４から出力されるデジタル音声信号をアナログ音声信号に変換して出力するＤ／Ａコンバータ１２と、Ｄ／Ａコンバータ１２から出力されるアナログ音声信号を増幅する出力アンプ１３と、信号処理装置１４と、外部記憶装置１５とを備えている。

信号処理装置１４は、ＣＰＵ（Central Processing Unit）２１と、メモリ２２とを備えており、マイク２から、Ａ／Ｄコンバータ１１を介して入力されるユーザによって発話された音声の音声認識処理を実行し、音声認識処理結果を出力する。また、信号処理装置１４は、バージイン機能を備えており、当該信号処理装置１４によるシステム応答に割り込むように入力されたユーザの発話音声に対しても音声認識処理を実行することができる。

ＣＰＵ２１は、信号処理装置１４を統括的に制御する制御手段である。ＣＰＵ２１は、メモリ２２に記憶されている処理プログラムを読み出して実行し、音声認識処理を制御したり、バージイン機能の制御を行ったりする。

通常、バージイン機能は、有効となっておらず機能していない。バージイン機能は、システム応答に対して、ユーザによる割り込み発話がなされると予測された場合にのみ有効となり、割り込み発話に対する音声認識処理が実行される。

メモリ２２は、ＣＰＵ２１で実行される処理プログラムや、使用頻度の高い各種データなどをあらかじめ記憶している。また、メモリ２２は、ＣＰＵ２１によって音声認識処理が実行される場合には、外部記憶装置１５から読み出された認識対象語及びその音響モデルが格納されることにより、認識対象語の辞書が構築される。

信号処理装置１４のＣＰＵ２１は、このメモリ２２に構築された辞書を参照して、ユーザによって発話された発話音声の音声特徴パターンと、認識対象語の音響モデルの音声パターンとの一致度を演算することで音声認識処理を行う。

外部記憶装置１５は、ナビゲーション装置で使用される各種データや、信号処理装置１４で実行される音声認識処理で使用される認識対象データや、システム応答用の音声データなどを記憶している。外部記憶装置１５は、認識対象データとして、音声認識処理で音声認識の対象となる認識対象語や、認識対象語の音響モデル、さらに、認識対象語とその接続関係を規定したネットワーク文法などの言語モデルを記憶している。認識対象語の音響モデルは、音響的に意味を持つ部分単語モデルを定義したものである。

認識対象語の音響モデルは、音響的に意味を持つ部分単語モデルを定義したものであり、一般的な発話速度で発話される際の通常発話と、通常発話を一旦行った際に誤認識されたと判断した後に、ユーザによって発話される訂正発話（言い直し発話）とにそれぞれ対応した音響モデルが用意されている。

また、ネットワーク文法とは、認識対象語の接続関係を規定するためのルールであり、例えば、図２に示すような階層構造で表すことができる。図２に示す例では、認識対象語である“駅名”を下位の階層Ｂとし、この下位の階層Ｂに接続される上位の階層Ａとして“都道府県名”を規定している。

信号処理装置１４は、図２に示すように認識対象語に対して規定された階層構造をなすネットワーク文法を用いることで、ユーザによって、例えば、「神奈川県の鶴見駅」といったような発話がなされた場合でも、音声認識をすることができる。

また、“都道府県名”と、“駅名”とを、それぞれ個別に有するネットワーク文法を切り替えて用いれば、「神奈川県」で発話が一旦完了され、その後「鶴見駅」と発話された場合でも音声認識をすることができる。

マイク２は、ユーザの発話音声を、当該音声対話装置に入力する。マイク２から入力されたユーザの発話音声は、電気信号である音声信号に変換され、Ａ／Ｄコンバータ１１でデジタル音声信号に変換されて信号処理装置１４に供給される。

スピーカ３は、システムの発話として、信号処理装置１４から出力され、Ｄ／Ａコンバータ１２でアナログ音声信号に変換され、出力アンプ１３で信号増幅されたアナログ音声信号を音声として出力する。

入力装置４は、ユーザによって押下される発話スイッチ４ａ及び訂正スイッチ４ｂを備えている。発話スイッチ４ａは、音声認識の開始指示を行うためのスイッチである。一方、訂正スイッチ４ｂは、ユーザによって発話された音声が、システムにおいて誤認識された場合に、訂正を行うためのスイッチである。なお、この訂正スイッチ４ｂを一定期間押し続けると、音声認識処理を途中で終了させることができる。

ディスプレイ５は、例えばＬＣＤ（液晶表示装置）などで実現され、ナビゲーションの行き先や、探索条件設定時のガイダンス表示を行ったり、経路誘導などの画面を表示したり、信号処理装置１４による音声認識処理結果である応答画像を表示させたりする。

［音声対話装置の動作］
このような構成からなる音声対話装置は、図３に示す一連の手順にしたがった処理動作を行う。なお、同図においては、ナビゲーション装置の所定の機能を動作させる場合に、ユーザが、要求される設定事項を音声対話装置を介して入力し、ナビゲーション装置を動作させるまでの一連の処理工程を示している。

まず、音声対話装置における信号処理装置１４は、ステップＳ１において、ユーザによる発話スイッチ４ａの操作によって発話開始が指示されたことに応じて、発話された音声に対する音声認識処理を開始する。

続いて、信号処理装置１４は、ステップＳ２において、初期状態で認識対象語として待ち受ける文法（言語モデル）を読み出し、メモリ２２に設定することにより、語彙の初期化を行う。すなわち、信号処理装置１４は、認識対象データとして外部記憶装置１５に記憶されている音声認識処理で音声認識の対象となる認識対象語や、認識対象語の音響モデル、さらには、認識対象語とその接続関係を規定したネットワーク文法などの言語モデルを読み出し、メモリ２２に設定する。

ここで、信号処理装置１４は、例えば図４乃至図７に示すような住所や施設名称などを認識対象とする。

具体的には、信号処理装置１４は、図４に示すように、“都道府県名”、“市名”、“区町村名”などからなる住所の文法に基づいて、「神奈川県横須賀市夏島町」といった住所の連続音声発話や、「神奈川県」、「横須賀市」、「夏島町」といった単語毎に分割された音声発話を認識することができる。また、信号処理装置１４は、図５に示すように、“都道府県名”、“駅名”などからなる施設の文法に基づいて、「神奈川県追浜駅」といった施設の連続音声発話や、「神奈川県」、「追浜駅」、といった単語毎に分割された音声発話を認識することができる。

さらに、信号処理装置１４は、図６及び図７に示すように、自車両位置Ｏの近傍に存在する施設名称を集めて動的に構築される文法（言語モデル）を利用することもできる。図６は、領域Ａに存在する施設を文法に登録し、領域Ａ以外の領域に存在する施設は登録されない場合の例を示している。ここで、領域Ａは、通常、半径数十キロメートルの円領域などとされる。一方、図７は、領域Ａを内包する領域Ｃに存在する施設を文法に登録し、領域Ｂに存在する施設は登録されない場合の例を示している。なお、領域Ａは、領域Ｃと比較して詳細度の高い施設名称までを抽出して文法が構築される領域である。通常、領域Ａは、半径数十キロメートルの円領域などとされ、領域Ｃは、半径数百キロメートルの円領域などとされる。なお、動的に構築される文法の領域としては、自車両が存在する都道府県領域とすることもできる。この実施の形態においては、自車両位置が東京都内であり、領域Ａには数千箇所程度の近傍施設名称が含まれているものとする。

また、信号処理装置１４は、図示しないナビゲーション操作コマンドなどを認識対象としてもよい。

信号処理装置１４は、このようにして語彙の初期化を行うと、図３中ステップＳ３において、外部記憶装置１５に記憶された告知音声データを読み出して、Ｄ／Ａコンバータ１２、出力アンプ１３、スピーカ３を介して出力させることで、処理を開始した旨をユーザに告知し、発話要求を行う。

すなわち、ユーザは、スピーカ３を介して出力される、信号処理装置１４による処理が開始された旨を知らせる告知音声を聞いたことに応じて、認識対象データに含まれる認識対象語の発話を開始する。ユーザによって発話され、マイク２を介して入力された音声は、Ａ／Ｄコンバータ１１でデジタル音声信号に変化されて、信号処理装置１４に出力される。

続いて、信号処理装置１４は、ステップＳ４において、ユーザによって発話された音声の取り込みを開始する。

通常、信号処理装置１４は、発話スイッチ４ａの操作がなされるまでは、Ｄ／Ａコンバータ１２の出力（デジタル音声信号）の平均パワーを演算している。信号処理装置１４は、上述したステップＳ１において、発話スイッチ４ａの操作がなされると、演算された平均パワーと、入力されたデジタル音声信号の瞬間パワーとを比較する。そして、信号処理装置１４は、入力されたデジタル音声信号が、演算された平均パワーよりも所定値以上大きくなった場合に、ユーザが発話をした音声区間であると判断して、音声の取り込みを開始する。その後も、信号処理装置１４は、平均パワーの演算を継続して実行し、平均パワーが所定値よりも小さくなった場合に、ユーザの発話が終了したと判断をする。

続いて、信号処理装置１４は、ステップＳ５において、取り込まれた発話音声と、外部記憶装置１５からメモリ２２に読み込まれた認識対象語との一致度演算を開始する。一致度は、音声区間部分のデジタル音声信号と、個々の認識対象語がどの程度似ているのかをスコアとして示したものである。例えば、信号処理装置１４は、スコアの値が大きい認識対象語ほど一致度が高いと評価する。なお、信号処理装置１４は、この一致度演算を実行している間も、並列処理により音声取り込みを継続して実行する。

そして、信号処理装置１４は、ステップＳ６において、デジタル音声信号の瞬間パワーが所定時間以上、所定値以下となったことに応じて、ユーザの発話が終了したと判断し、音声取り込みを終了する。

信号処理装置１４は、音声取り込みを終了すると、ステップＳ７において、ステップＳ５における一致度演算が終了するまで待機し、認識対象語を音声認識結果として確定したか否かを判定する。具体的には、信号処理装置１４は、音声認識結果の信頼度を演算し、その信頼度が所定の閾値以上であった場合に音声認識結果として確定する。なお、音声認識結果の信頼度の演算については、“駒谷、河原著、「音声対話システムにおける音声認識結果の信頼度の利用法」、日本音響学会全国大会論文集３−５−２、ｐｐ．７３−７４、２０００年”などに詳細に記載されている。

ここで、信号処理装置１４は、認識対象語を音声認識結果として確定した場合には、ステップＳ８へと処理を移行する一方で、認識対象語を音声認識結果として確定しない場合には、ステップＳ１２へと処理を移行し、再度発話してもらいたい旨をユーザに告知するために、再発話要求を行い、ステップＳ４からの処理を繰り返す。

なお、ここでは、自車両位置が東京都内であり、自車両位置に応じて動的に構築される辞書に含まれる施設名称が東京都内近傍に存在する施設名称のみとなることから、ユーザが目的地として神奈川県に存在する「追浜駅」と発話したにもかかわらず、これを東京都内に存在する駅名称と照合した結果「奥多摩駅」であるものと誤認識したものとする。この場合、「奥多摩駅」は、その発音が「追浜駅」と非常に似ており、信頼度も十分に大きな値となることから、信号処理装置１４は、「奥多摩駅」を音声認識結果として確定し、ステップＳ８へと処理を移行することになる。

信号処理装置１４は、ステップＳ８において、先に図５に示したような文法のように、音声認識した語彙が最下層の語彙を含むか否かを判定する。信号処理装置１４は、音声認識した語彙が最下層の語彙を含まないと判定した場合には、ステップＳ１３へと処理を移行する一方で、音声認識した語彙が最下層の語彙を含むと判定した場合には、ステップＳ９へと処理を移行する。この場合、信号処理装置１４は、音声認識した「奥多摩駅」という語彙自体が地点情報を有する最下層の語彙であることから、ステップＳ９へと処理を移行する。

続いて、信号処理装置１４は、ステップＳ９において、システム応答を生成して出力する。具体的には、信号処理装置１４は、図示しない音声合成処理機能を用いて音声認識結果である「奥多摩駅」を音声信号に変換する。この音声信号は、Ｄ／Ａコンバータ１２でアナログ音声信号に変換され、出力アンプ１３で信号増幅された上で、スピーカ３を介して音声として出力される。

そして、信号処理装置１４は、ステップＳ１０において、ユーザによる訂正スイッチ４ｂの押下があるか否かを所定時間待ち受ける。ここで、信号処理装置１４は、訂正スイッチ４ｂの押下がなかった場合には、音声認識結果をユーザが認容したと判断し、ステップＳ１１において、音声認識結果を決定し、その音声認識結果に応じた処理を行う。例えば、ナビゲーション装置に適用された音声対話装置においては、音声認識結果の住所を目的地として設定し、一連の処理を終了する。一方、信号処理装置１４は、訂正スイッチ４ｂの押下があった場合には、音声認識結果をユーザが否定したと判断し、ステップＳ１２へと処理を移行する。

なお、ここでは、ユーザによる発話音声「追浜駅」に対して、システム応答が「奥多摩駅」となったことから、当該ユーザが訂正スイッチ４ｂを押下し、ステップＳ１２へと処理を移行し、再度発話してもらいたい旨をユーザに告知するために、再発話要求を行い、ステップＳ４からの処理を繰り返すことになる。

信号処理装置１４は、ステップＳ４乃至ステップＳ７において、ユーザによる第２の発話音声の音声認識処理を行う。ここで、ユーザは、発話音声「追浜駅」に対して東京都内に存在する「奥多摩駅」と誤認識されたことに応じて、第２の発話にて「神奈川県」と訂正発話したとする。ユーザによって発話され、マイク２を介して入力された音声は、Ａ／Ｄコンバータ１１でデジタル音声信号に変化されて、信号処理装置１４に出力される。これに応じて、信号処理装置１４は、音声認識処理を行い、「神奈川県」と正しい音声認識結果を得たとする。

この場合、信号処理装置１４は、ステップＳ８において、音声認識した「神奈川県」という語彙が上位階層の語彙であることから、ステップＳ１３へと処理を移行する。信号処理装置１４は、ステップＳ１３において、ステップＳ７と同様に、「神奈川県」という音声認識結果の信頼度の評価を再度行い、その信頼度が所定の閾値以上であった場合に音声認識結果として確定する。なお、この信頼度の評価においては、ステップＳ７にて用いた閾値よりも高い閾値を用いる。信号処理装置１４は、かかる閾値を用いることによって十分に信頼できる場合にのみ、認識対象語を音声認識結果として確定し、ステップＳ１４へと処理を移行する。一方、信号処理装置１４は、認識対象語を音声認識結果として確定しない場合には、第１の発話音声「追浜駅」の利用を諦め、ステップＳ２１へと処理を移行する。なお、ここでは、音声認識結果の確定を行い、ステップＳ１４へと処理を移行したものとする。

続いて、信号処理装置１４は、ステップＳ１４において、１つ前のシステム応答としての発話がユーザによって否定されたという事実があったか否かを判定する。ここで、信号処理装置１４は、１つ前の発話が存在し、それが否定された場合には、誤認識を訂正しようとするユーザの意図があったと判断し、ステップＳ１５へと処理を移行する一方で、そうでない場合には、ステップＳ２１へと処理を移行する。なお、ここでは、発話音声「追浜駅」に対して東京都内に存在する「奥多摩駅」と誤認識されたことに応じて、第２の発話音声として「神奈川県」と訂正発話したことから、ステップＳ１５へと処理を移行することになる。

続いて、信号処理装置１４は、ステップＳ１５において、音声認識結果である「神奈川県」を信頼し、神奈川県内の施設を待ち受け語として設定する。すなわち、信号処理装置１４は、先に図５に示した神奈川県の下位階層に位置する施設名称語彙のみを待ち受け範囲として絞り込み、図４に示した文法、図５の他の部分、図６又は図７に示した文法を待ち受け範囲外とする。

続いて、信号処理装置１４は、ステップＳ１６において、前回の音声認識時に保存しておいたユーザによる第１の発話音声と、ステップＳ１５にて絞り込んだ文法との照合を行うことにより、再度音声認識処理を行う。

そして、信号処理装置１４は、ステップＳ１７において、ステップＳ７と同様に、「追浜駅」という音声認識結果の信頼度の評価を再度行い、その信頼度が所定の閾値以上であった場合に音声認識結果として確定する。なお、この信頼度の評価においても、ステップＳ７にて用いた閾値よりも高い閾値を用いる。信号処理装置１４は、かかる閾値を用いることによって十分に信頼できる場合にのみ、認識対象語を音声認識結果として確定し、ステップＳ１８へと処理を移行する。一方、信号処理装置１４は、認識対象語を音声認識結果として確定しない場合には、第１の発話音声の利用を諦め、ステップＳ２０において、第１の発話音声を破棄した上で、ステップＳ２１へと処理を移行する。

信号処理装置１４は、認識対象語を音声認識結果として確定した場合には、ステップＳ１８において、図示しない音声合成処理機能を用いて音声認識結果である「神奈川県の追浜駅」を音声信号に変換する。この音声信号は、Ｄ／Ａコンバータ１２でアナログ音声信号に変換され、出力アンプ１３で信号増幅された上で、スピーカ３を介して音声として出力される。

そして、信号処理装置１４は、ステップＳ１９において、ユーザによる訂正スイッチ４ｂの押下があるか否かを所定時間待ち受ける。ここで、信号処理装置１４は、訂正スイッチ４ｂの押下がなかった場合には、音声認識結果をユーザが認容したと判断し、ステップＳ１１において、音声認識結果を決定し、上述したように、その音声認識結果に応じた処理を行い、一連の処理を終了する。一方、信号処理装置１４は、訂正スイッチ４ｂの押下があった場合には、音声認識結果をユーザが否定したと判断し、ステップＳ２０において、第１の発話音声を破棄した上で、ステップＳ２１へと処理を移行する。

また、信号処理装置１４は、ステップＳ２１へと処理を移行した場合には、「神奈川県」という発話音声のみを受理した状態であることから、ステップＳ２２において、ユーザによる訂正スイッチ４ｂの押下があるか否かを所定時間待ち受ける。ここで、信号処理装置１４は、訂正スイッチ４ｂの押下がなかった場合には、音声認識結果をユーザが認容したと判断し、ステップＳ２３において、文法を、神奈川県内の住所及び施設に限定し、ステップＳ４からの処理を繰り返す。一方、信号処理装置１４は、訂正スイッチ４ｂの押下があった場合には、音声認識結果をユーザが否定したと判断し、ステップＳ１２において、再度発話してもらいたい旨をユーザに告知するために、再発話要求を行った上で、ステップＳ４からの処理を繰り返す。

音声対話装置は、このような一連の手順にしたがった処理動作を行うことにより、第１の発話音声が誤認識された場合であっても、第２の発話音声を音声認識することによって正しい目的地を設定し、ナビゲーション装置の所定の機能を動作させることができる。

［第１の実施の形態の効果］
以上詳細に説明したように、第１の実施の形態として示した音声対話装置においては、信号処理装置１４により、音声認識の対象となる語彙を含む第１の言語モデルを用いて第１の発話音声を照合した第１の照合結果が採用されなかった場合には、その語彙の属性を表す他の語彙を含む第２の言語モデルを用いて第２の発話音声を照合し、得られた第２の照合結果によって限定される言語モデルを用いて第１の発話音声を再度音声認識し、音声認識結果に応じたシステム応答を生成する。

これにより、この音声対話装置においては、ユーザが訂正発話する際に、第２の発話音声として第１の発話音声を重複する必要がなくなり、当該ユーザの負担を軽減することができる。

具体的には、音声対話装置においては、信号処理装置１４により、第２の照合結果によって限定される言語モデルとして、第２の発話音声によって指示される地点に含まれる第１の発話音声と同じ属性を表す語彙を含む言語モデルに絞り込む。例えば、音声対話装置においては、自車両位置が東京都内であるときに、ユーザが目的地として「追浜駅」と発話したにもかかわらず、これを東京都内に存在する施設名称と照合した結果「奥多摩駅」であるものと誤認識した場合であっても、訂正発話として、「追浜駅」の属性としての都道府県を表す「神奈川県」とのみ発話すればよい。これに応じて、音声対話装置においては、神奈川県内に存在する施設名称と第１の発話音声である「追浜駅」とを照合することにより、「追浜駅」という正しい音声認識結果を出力することが可能となる。なお、音声対話装置においては、訂正発話として、例えば「神奈川県の横須賀市」や「京浜急行本線」といったように、都道府県以外の属性を含む発話を第２の発話音声としてもよい。

また、音声対話装置においては、信号処理装置１４により、第２の発話音声の音声認識結果の信頼度が所定の閾値以上であった場合にのみ、第１の発話音声を再度音声認識する。これにより、音声対話装置においては、第２の照合結果が信頼できない場合に、これに基づいて辞書を切り替えて再度音声認識してしまうことがなく、再認識結果が誤認識となってしまう事態を回避することができる。また、音声対話装置においては、無駄に再認識してしまうことによる演算量の増加も回避することができる。

さらに、音声対話装置においては、信号処理装置１４により、第１の発話音声の再音声認識結果の信頼度が所定の閾値以上であった場合にのみ、システム応答を生成する。これにより、音声対話装置においては、再認識結果が誤認識となってしまう事態を回避することができる。

さらにまた、音声対話装置においては、信号処理装置１４により、第２の発話音声の音声認識結果の信頼度演算に用いる閾値、又は、第１の発話音声の再音声認識結果の信頼度演算に用いる閾値として、第１の発話音声の音声認識結果の信頼度演算に用いる閾値よりも高い閾値を用いる。これにより、音声対話装置においては、辞書を切り替えて再度音声認識を行った結果の採用基準を高くすることができ、再認識結果が誤認識となってしまう事態を確実に回避することができる。

［第２の実施の形態］
つぎに、本発明の第２の実施の形態として示す音声対話装置について説明をする。

この第２の実施の形態として示す音声対話装置は、図１を用いて説明した第１の実施の形態として示す音声対話装置と同一の構成である。したがって、第２の実施の形態として示す音声対話装置の構成については、同一符号を付すことによってその説明を省略する。

また、この第２の実施の形態として示す音声対話装置は、上述した第１の実施の形態として示した音声対話装置と同様に、誤認識があった場合における訂正発話時に、使用する言語モデルを限定することにより、ユーザが重複した発話を繰り返すのを回避することができるものであるが、ユーザによる発話音声によって指示された地点からの距離に基づいて、使用する言語モデルを限定するものである。

したがって、第２の実施の形態として示す音声対話装置の処理動作は、第１の実施の形態として示した音声対話装置の処理動作として図３を用いて説明したフローチャートの一部が変更されるだけであり、同一の処理内容については、同一ステップ番号を付すことによってその説明を省略する。

［音声対話装置の動作］
第２の実施の形態として示す音声対話装置は、図８に示す一連の手順にしたがった処理動作を行う。なお、同図においては、ナビゲーション装置の所定の機能を動作させる場合に、ユーザが、要求される設定事項を音声対話装置を介して入力し、ナビゲーション装置を動作させるまでの一連の処理工程を示している。

音声対話装置における信号処理装置１４は、ステップＳ１乃至ステップＳ６の処理を行い、音声取り込みを終了すると、ステップＳ７において、音声認識結果の信頼度を演算し、その信頼度が所定の閾値以上であった場合に音声認識結果として確定する。

なお、ここでは、自車両位置が東京都内であり、自車両位置に応じて動的に構築される辞書に含まれる施設名称が東京都内近傍に存在する施設名称のみであるのに応じて、ユーザが目的地として神奈川県に存在する「海洋研究開発機構」と発話したにもかかわらず、これを東京都内に存在する施設名称と照合した結果「葛西臨海公園」であるものと誤認識したものとする。この場合、「葛西臨海公園」は、その発音が「海洋研究開発機構」と非常に似ており、信頼度も十分に大きな値となることから、信号処理装置１４は、「葛西臨海公園」を音声認識結果として確定し、ステップＳ８へと処理を移行することになる。

信号処理装置１４は、ステップＳ８において、先に図５に示したような文法のように、音声認識した語彙が最下層の語彙を含むか否かを判定する。信号処理装置１４は、音声認識した語彙が最下層の語彙を含まないと判定した場合には、ステップＳ２１へと処理を移行する一方で、音声認識した語彙が最下層の語彙を含むと判定した場合には、ステップＳ３１へと処理を移行する。この場合、信号処理装置１４は、音声認識した「葛西臨海公園」という語彙自体が地点情報を有する最下層の語彙であることから、ステップＳ３１へと処理を移行する。

続いて、信号処理装置１４は、ステップＳ３１において、１つ前のシステム応答としての発話がユーザによって否定されたという事実があったか否かを判定する。ここで、信号処理装置１４は、１つ前の発話が存在し、それが否定された場合には、誤認識を訂正しようとするユーザの意図があったと判断し、ステップＳ３２へと処理を移行する一方で、そうでない場合には、ステップＳ９へと処理を移行する。なお、ここでは、最初の発話音声（第１の発話音声）しか入力されていないことから、ステップＳ９へと処理を移行することになる。

続いて、信号処理装置１４は、ステップＳ９において、システム応答を生成して出力する。具体的には、信号処理装置１４は、図示しない音声合成処理機能を用いて音声認識結果である「葛西臨海公園」を音声信号に変換する。この音声信号は、Ｄ／Ａコンバータ１２でアナログ音声信号に変換され、出力アンプ１３で信号増幅された上で、スピーカ３を介して音声として出力される。

なお、ここでは、ユーザによる発話音声「海洋研究開発機構」に対して、システム応答が「葛西臨海公園」となったことから、当該ユーザが訂正スイッチ４ｂを押下し、ステップＳ１２へと処理を移行し、再度発話してもらいたい旨をユーザに告知するために、再発話要求を行い、ステップＳ４からの処理を繰り返すことになる。

信号処理装置１４は、ステップＳ４乃至ステップＳ８において、ユーザによる第２の発話音声の音声認識処理を行う。ここで、ユーザは、発話音声「海洋研究開発機構」に対して東京都内に存在する「葛西臨海公園」と誤認識されたことに応じて、第２の発話音声として「海洋研究開発機構」の代替施設としての「神奈川県の追浜駅」と訂正発話したとする。ユーザによって発話され、マイク２を介して入力された音声は、Ａ／Ｄコンバータ１１でデジタル音声信号に変化されて、信号処理装置１４に出力される。これに応じて、信号処理装置１４は、音声認識処理を行い、「神奈川県の追浜駅」と正しい音声認識結果を得たとする。

この場合、信号処理装置１４は、ステップＳ８において、ユーザが発話した「神奈川県の追浜駅」という語彙が最下層の語彙であることから、ステップＳ３１へと処理を移行し、１つ前のシステム応答としての発話がユーザによって否定されたという事実があったか否かを判定する。なお、ここでは、発話音声「海洋研究開発機構」に対して東京都内に存在する「葛西臨海公園」と誤認識されたことに応じて、第２の発話音声として「神奈川県の追浜駅」と訂正発話したことから、ステップＳ３２へと処理を移行することになる。

信号処理装置１４は、ステップＳ３２において、音声認識結果である「神奈川県の追浜駅」を信頼し、追浜駅から所定距離内に存在する近傍施設を待ち受け語として設定する。すなわち、信号処理装置１４は、例えば図９に示すように、追浜駅Ａから所定距離内に存在する近傍施設名称を集めて動的に文法（言語モデル）を構築し、その施設名称語彙のみを待ち受け範囲として絞り込む。このとき、信号処理装置１４は、追浜駅Ａの近傍施設として、詳細度の高い施設名称を抽出し、その施設名称を文法に組み込む。

続いて、信号処理装置１４は、ステップＳ３３において、前回の音声認識時に保存しておいたユーザによる第１の発話音声と、ステップＳ３２にて絞り込んだ文法との照合を行うことにより、再度音声認識処理を行う。なお、ここでは、音声認識結果として「海洋研究開発機構」が得られたものとする。

そして、信号処理装置１４は、ステップＳ３４において、ステップＳ７と同様に、「海洋研究開発機構」という音声認識結果の信頼度の評価を再度行い、その信頼度が所定の閾値以上であった場合に音声認識結果として確定する。なお、この信頼度の評価においては、ステップＳ７にて用いた閾値よりも高い閾値を用いる。信号処理装置１４は、かかる閾値を用いることによって十分に信頼できる場合にのみ、認識対象語を音声認識結果として確定し、ステップＳ３５へと処理を移行する。一方、信号処理装置１４は、認識対象語を音声認識結果として確定しない場合には、第１の発話音声の利用を諦め、ステップＳ３７において、第１の発話音声を破棄した上で、ステップＳ３８へと処理を移行する。

信号処理装置１４は、認識対象語を音声認識結果として確定した場合には、ステップＳ３５において、図示しない音声合成処理機能を用いて音声認識結果である「神奈川県の追浜駅付近の海洋研究開発機構」を音声信号に変換する。この音声信号は、Ｄ／Ａコンバータ１２でアナログ音声信号に変換され、出力アンプ１３で信号増幅された上で、スピーカ３を介して音声として出力される。

そして、信号処理装置１４は、ステップＳ３６において、ユーザによる訂正スイッチ４ｂの押下があるか否かを所定時間待ち受ける。ここで、信号処理装置１４は、訂正スイッチ４ｂの押下がなかった場合には、音声認識結果をユーザが認容したと判断し、ステップＳ１１において、音声認識結果を決定し、上述したように、その音声認識結果に応じた処理を行い、一連の処理を終了する。一方、信号処理装置１４は、訂正スイッチ４ｂの押下があった場合には、音声認識結果をユーザが否定したと判断し、ステップＳ３７において、第１の発話音声を破棄した上で、ステップＳ３８へと処理を移行する。

また、信号処理装置１４は、ステップＳ３８へと処理を移行した場合には、第１の発話音声が破棄されていることから、今回の音声認識結果である「神奈川県の追浜駅」を図示しない音声合成処理機能を用いて音声信号に変換する。この音声信号は、Ｄ／Ａコンバータ１２でアナログ音声信号に変換され、出力アンプ１３で信号増幅された上で、スピーカ３を介して音声として出力される。

そして、信号処理装置１４は、ステップＳ３９において、ユーザによる訂正スイッチ４ｂの押下があるか否かを所定時間待ち受ける。ここで、信号処理装置１４は、訂正スイッチ４ｂの押下がなかった場合には、音声認識結果をユーザが認容したと判断し、ステップＳ１１において、音声認識結果を決定し、上述したように、その音声認識結果に応じた処理を行い、一連の処理を終了する。一方、信号処理装置１４は、訂正スイッチ４ｂの押下があった場合には、音声認識結果をユーザが否定したと判断し、ステップＳ１２へと処理を移行し、再度発話してもらいたい旨をユーザに告知するために、再発話要求を行った上で、ステップＳ４からの処理を繰り返す。

［第２の実施の形態の効果］
以上詳細に説明したように、第２の実施の形態として示した音声対話装置においては、信号処理装置１４により、第２の照合結果によって限定される言語モデルとして、第２の発話音声によって指示される地点から所定距離内に存在する第１の発話音声と同じ属性を表す語彙を含む言語モデルに絞り込む。

これにより、この音声対話装置においては、ユーザが訂正発話する際に、第２の発話音声として第１の発話音声を重複する必要がなくなり、当該ユーザの負担を軽減することができる。例えば、音声対話装置においては、自車両位置が東京都内であるときに、ユーザが目的地として「海洋研究開発機構」と発話したにもかかわらず、これを東京都内に存在する施設名称と照合した結果「葛西臨海公園」であるものと誤認識した場合であっても、訂正発話として、「神奈川県の追浜駅」と目的とする施設の代替となる施設を発話すればよい。これに応じて、音声対話装置においては、神奈川県の追浜駅から所定距離内に存在する施設名称と第１の発話音声である「海洋研究開発機構」とを照合することにより、「海洋研究開発機構」という正しい音声認識結果を出力することが可能となる。

なお、上述の実施の形態は本発明の一例である。このため、本発明は、上述の実施の形態に限定されることはなく、この実施の形態以外の形態であっても、本発明に係る技術的思想を逸脱しない範囲であれば、設計などに応じて種々の変更が可能であることは勿論である。

本発明の実施の形態として示す音声対話装置の構成について説明するブロック図である。ネットワーク文法について説明するための図である。本発明の第１の実施の形態として示す音声対話装置の処理動作について説明するフローチャートである。住所の文法について説明するための図である。施設の文法について説明するための図である。自車両位置の近傍に存在する施設名称を集めて動的に構築される文法について説明するための図である。自車両位置の近傍に存在する施設名称を集めて動的に構築される文法について説明するための図であり、図６とは異なる文法について説明するための図である。本発明の第２の実施の形態として示す音声対話装置の処理動作について説明するフローチャートである。代替施設から所定距離内に存在する近傍施設名称を集めて動的に構築される文法について説明するための図である。

符号の説明

１信号処理ユニット
２マイク
３スピーカ
４入力装置
４ａ発話スイッチ
４ｂ訂正スイッチ
５ディスプレイ
１１Ａ／Ｄコンバータ
１２Ｄ／Ａコンバータ
１３出力アンプ
１４信号処理装置
１５外部記憶装置
２１ＣＰＵ
２２メモリ

Claims

発話音声を入力する入力手段と、
前記入力手段によって入力された発話音声を音声認識し、音声認識結果に応じたシステム応答を生成する音声認識手段と、
前記音声認識手段によって生成された前記システム応答を出力する出力手段とを備え、
前記音声認識手段は、音声認識の対象となる語彙を含む第１の言語モデルを用いて第１の発話音声を照合した第１の照合結果が採用されなかった場合には、前記語彙の属性を表す他の語彙を含む第２の言語モデルを用いて第２の発話音声を照合し、得られた第２の照合結果によって限定される言語モデルを用いて前記第１の発話音声を再度音声認識し、音声認識結果に応じたシステム応答を生成すること
を特徴とする音声対話装置。
前記音声認識手段は、前記第２の照合結果によって限定される言語モデルとして、前記第２の発話音声によって指示される地点に含まれる前記第１の発話音声と同じ属性を表す語彙を含む言語モデルに絞り込むこと
を特徴とする請求項１記載の音声対話装置。
前記音声認識手段は、前記第２の照合結果によって限定される言語モデルとして、前記第２の発話音声によって指示される地点から所定距離内に存在する前記第１の発話音声と同じ属性を表す語彙を含む言語モデルに絞り込むこと
を特徴とする請求項１記載の音声対話装置。
前記音声認識手段による音声認識結果の信頼度を演算する信頼度演算手段を備え、
前記音声認識手段は、前記信頼度演算手段によって求められた前記第２の発話音声の音声認識結果の信頼度が所定の閾値以上であった場合にのみ、前記第１の発話音声を再度音声認識すること
を特徴とする請求項１記載の音声対話装置。
前記音声認識手段は、前記信頼度演算手段によって求められた前記第１の発話音声の再音声認識結果の信頼度が所定の閾値以上であった場合にのみ、システム応答を生成すること
を特徴とする請求項４記載の音声対話装置。
前記信頼度演算手段は、前記第２の発話音声の音声認識結果の信頼度演算に用いる閾値、又は、前記第１の発話音声の再音声認識結果の信頼度演算に用いる閾値として、前記第１の発話音声の音声認識結果の信頼度演算に用いる閾値よりも高い閾値を用いること
を特徴とする請求項４又は請求項５記載の音声対話装置。
入力された発話音声を音声認識し、音声認識結果に応じたシステム応答を生成する音声認識工程と、
前記音声認識工程にて生成された前記システム応答を出力する出力工程とを備え、
前記音声認識工程では、音声認識の対象となる語彙を含む第１の言語モデルを用いて第１の発話音声を照合した第１の照合結果が採用されなかった場合には、前記語彙の属性を表す他の語彙を含む第２の言語モデルを用いて第２の発話音声を照合し、得られた第２の照合結果によって限定される言語モデルを用いて前記第１の発話音声を再度音声認識し、音声認識結果に応じたシステム応答を生成すること
を特徴とする音声認識方法。