JP2004301875A

JP2004301875A - 音声認識装置

Info

Publication number: JP2004301875A
Application number: JP2003091311A
Authority: JP
Inventors: Hiroyuki Hoshino; 博之星野
Original assignee: Toyota Central R&D Labs Inc
Current assignee: Toyota Central R&D Labs Inc
Priority date: 2003-03-28
Filing date: 2003-03-28
Publication date: 2004-10-28

Abstract

【課題】特定の言葉により音声認識を開始する音声認識装置において、特定の言葉が普通の会話に出現することにより、発話者の意図しない音声認識が開始されることが無く、さらに発話負担の少ない音声認識装置を得ること。
【解決手段】普通の会話に特定の言葉が出現する頻度を少なくするために、特定の言葉を、限られた複数の言葉とし、さらに、発話者の母国語でない言語による言葉を用いるようにした。さらに、発話負担を少なくするために、特定の言葉の内いくつかには、音声操作コマンドの意味を持たせ、音声認識の開始と同時に操作の実行を行うようにした。
【選択図】図１

Description

【０００１】
【発明の属する技術分野】
本発明は、音声認識装置に関し、特に、手動のトークスイッチが不要な音声認識装置に関する。
【０００２】
【従来の技術】
【特許文献１】
特開平１１−３５９２８７号公報
【特許文献２】
特開２０００−５６７９０号公報
【特許文献３】
特開２０００−１９４２９３号公報
【特許文献４】
特開２０００−３２２０７８号公報
【特許文献５】
特開２０００−１９４３９３号公報
【０００３】
従来、音声認識装置においては、発話者は発声の度に毎回トークスイッチを操作しなければならず、このようなスイッチ操作は煩わしいものである。特に、車載のナビゲーション装置における音声入力をする際には、運転操作中にトークスイッチを操作するのは煩雑な作業である。このような問題を解決するためにトークスイッチの代わりに話者の画像から発話の有無を判定するもの、特定の言葉を認識する手段を設けることにより音声認識を開始するものが各社から考案されている。
【０００４】
特開平１１−３５９２８７号公報「音声認識装置」は、カメラにより発話者を撮影し、話者の画像から、発話の有無を判定することにより、トークスイッチを不要としている。また、特開２０００−５６７９０号公報「音声伝達方式」、特開２０００−１９４２９３号公報「音声認識制御装置」、特開２０００−３２２０７８号公報「車載型音声認識装置」は、特定の言葉を認識する手段を設けることにより、音声認識を開始するものである。特開２０００−１９４３９３号公報においては、トークスイッチとも併用できる装置を示している。
【０００５】
【発明が解決しようとする課題】
トークスイッチの代わりに特定の言葉を認識する手段を設けることにより、音声認識を開始する装置では、特定の言葉の次に再び音声操作コマンドを入力する必要があり、発話者の発話負担が大きく、使い勝手を損なっていた。また、その「特定の言葉」が、発話者の母国語の場合、通常の会話にその言葉が出現し、それが誤って認識されると、発話者が意図していないのに音声認識が開始されてしまうという問題があった。
【０００６】
本発明の目的は、この点を考慮し、音声認識開始のための特定の言葉を、あまり多くない複数とし、その内のいくつかには、音声操作コマンドの役割りを持たせることにより、発話者の発話負担を軽くし、使い勝手を向上させる。
【０００７】
さらに、上記の「特定の言葉」が、通常の会話に出現し、誤って認識されることにより発話者の意図しない音声認識が開始されない音声認識装置を得ることである。
【０００８】
なお、上述したある１つの発明が、上記した全ての目的を同時に達成するものと解されるべきではなく、個々の発明が、それぞれの目的を達成するものと解されるべきである。
【０００９】
【課題を解決するための手段】
従って、本発明においては、発話者が発した音声を認識する音声認識装置において、複数の特定の言葉である複数のキーワードを認識するキーワード認識手段と、キーワード認識手段により認識されたキーワードが操作の意味を持つ操作コマンドかどうかを判定する操作コマンド判定手段を有するようにした。さらに、操作コマンド判定手段により操作コマンドと判定された場合は、コマンド操作を実行し、操作コマンドと判定されない場合は、音声認識手段により音声認識を行い、認識結果に基づいた操作を実行するようにしたキーワード制御手段を有するようにしたことを特徴とする。
【００１０】
さらに、請求項２の発明は、キーワードが普通の会話に出現することにより意図しない音声認識が開始されないようにするために、キーワードは、一般的な会話への出現頻度の少ない特定の複数の言葉であることを特徴とする。
【００１１】
さらに、請求項３の発明は、キーワードが普通の会話に出現することにより意図しない音声認識が開始されないようにするために、キーワードは、本音声認識装置において想定している主なユーザが用いる言語による会話において使用することの少ない他国語であることを特徴とする。例えば、本装置が、主なユーザとして日本人を想定している場合、会話に用いられる言語は、日本語である。この場合、キーワードとして、日本語でない、英語、フランス語等を用いることを特徴とする。
【００１２】
【発明の作用及び、効果】
従って、請求項１の発明によれば、発話者が発した音声を認識する音声認識装置において、複数の特定の言葉である複数のキーワードを認識するキーワード認識手段を設けることにより、発話者の発したキーワードを認識することができるようになる。さらに、キーワード認識手段により認識されたキーワードが操作の意味を持つ操作コマンドかどうかを判定する操作コマンド判定手段と、操作コマンド判定手段により操作コマンドと判定された場合は、コマンド操作を実行し、操作コマンドと判定されない場合は、音声認識手段により音声認識を行い、認識結果に基づいた操作を実行するようにしたキーワード制御手段を有するようにした。従って、発話者が発したキーワードが、操作コマンドである場合には、音声認識の開始と共に、コマンド操作が開始されるようになり、発話者の発話負担が軽減されるようになる。また、キーワードが、操作コマンドで無い場合は、通常の音声認識が開始されるようになる。
【００１３】
さらに、請求項２の発明によれば、キーワードは、一般的な会話への出現頻度の少ない複数の特定の言葉であるようにしたので、キーワードが発話者の通常の会話に出現する頻度が少なくなり、キーワードが誤認識され、発話者の意図しない音声認識が開始されることが少なくなる。
【００１４】
さらに、請求項３の発明によれば、キーワードは、本音声認識装置において想定している主なユーザが用いる言語による会話において使用することの少ない他国語を用いるようにした。従って、例えば、日本語を用いるユーザに対する音声認識装置としては、キーワードとして、英語を用いることにより、通常の日本語の会話にキーワードが出現する頻度を極めて低くすることが可能となる。同様に、英語を用いるユーザに対する音声認識装置のキーワードとして、日本語を用いることにより、英語の通常会話にキーワードが出現する頻度を低くすることが可能となる。このように、対象としているユーザが用いる言語以外の他国語を用いることにより、通常の会話にキーワードが出現する頻度を少なくすることが可能となり、発話者の意図しない音声認識の開始を少なくすることが可能となる。さらに、キーワードとして設定する特定の言葉として、キーワードが要求される本来の意味を持った言葉を設定することが可能となる。これにより、会話には出現する頻度は低いが、キーワードとしての意味は妥当である単語を選定することが可能となる。
【００１５】
【発明の実施の形態】
ここでは、車載のナビゲーション装置等に用いられる音声認識装置に本発明を適用した具体例に関して述べる。
先ず、図１は本発明の実施形態の一例である音声認識装置１０を用いたナビゲーション装置１の構成を示すブロック図である。構成及び、動作の概要を図により説明する。音声認識装置１０は、マイクロホン１８、音声認識ＥＣＵ（ＥｌｅｃｔｒｏｎｉｃＣｏｎｔｒｏｌＵｎｉｔ）により構成され、発話者が音声コマンド（例えば走行目的地を指定するためのコマンド）を発すると、音声はマイクロホン１８に入力され、電気的な信号に変換されて音声認識ＥＣＵ１９に送られる。音声認識ＥＣＵ１９は、ＤＳＰ（デジタルシグナルプロセッサ）を有し、音声データを解析し、発話者が何を言ったのかを認識する。周知の認識処理が行われればよく、ダイナミックプログラミング法（動的計画法、ＤＰ法）や、ヒドンマルコフモデル（隠れマルコフモデル、ＨＭＭ）を使った確率手法などが適用可能である。概略的には、例えば、入力信号に対して窓関数処理、フーリエ変換処理などが行われ、音声データのケプストラムなどが求められる（音響処理）。その後、キーワード認識手段１１により、音響処理後の信号と、予め用意されたキーワードテンプレート１２（認識対象単語のデータ）とのパターンマッチングが行われる。マッチング結果のよい単語が、発声された単語であると決定される。認識結果は操作コマンド判定手段１３に、出力され、操作コマンドであるかどうか判定される。
【００１６】
この場合も、例えば、操作コマンドテンプレート１４が用意され、パターンマッチングが行われる。判定結果は、キーワード制御手段１５に出力され、操作コマンドであると判定されると、操作コマンドが、ナビゲーション装置２０に出力され、操作コマンドで無いと判定されると、さらに、発せられた音声が何であるか、判定するために、音声認識手段１６において、音声認識ワードテンプレート１７とのパターンマッチングにより決定する。結果は、キーワード制御手段１５に出力され、ナビゲーション手段３０への指令及び、返答として出力される。ナビゲーション手段３０は、発話者の発した音声コマンド及び、返答に従って、表示装置４０への地図の表示、スピーカ２０を介して、さらに発話を促したり、経路の誘導を行う等の動作する。
【００１７】
次に、図２に示す本発明の特徴である、特定の言葉であるキーワードを用いた処理の例を、図３のフローチャートに従い処理の概要について説明する。
【００１８】
先ず、マイクロホン１８からの音声の入力があった場合、ステップ１００において、音声入力処理が行われる。次に、ステップ１０２において、音声認識ＥＣＵ１９において、音声データの解析処理がなされる。
【００１９】
次に、ステップ１０４において、解析された音声が、キーワードであるかどうか、キーワードテンプレート（ａ）を用いて、パターンマッチングがなされ、発話が、「現在地」、「行き先」、「ナビ操作」で有るかどうか判断される。ここで、キーワードでないと判断されると、音声認識は開始されないので、キーワードが入力されるか、トークスイッチが押されるまで、音声認識は開始されない。一方、キーワードであると判断されると、トークスイッチが押された場合と同様に音声認識処理が開始される。これらのうち、「現在地」、「行き先」は、通常ナビゲーション装置において、特に良く用いられるコマンド語である。
【００２０】
この「現在地」、「行き先」には、音声認識開始だけでなく、音声操作コマンドの役割を持っているので、ステップ１０６において、操作コマンドテンプレート（ｃ）とのパターンマッチングにより、「現在地」、「行き先」と判断されると、ステップ１０８において、認識コマンド操作処理が行われる。これは、キーワード制御手段１５により、「現在地」、「行き先」コマンドが入力されたことが、ナビゲーション手段３０に出力され、ナビゲーション手段３０において、現在地の表示、行き先設定がなされるように処理がされる。必要に応じて、次の音声入力を促するためのガイダンスがスピーカ２０よりなされる。また、発話が「ナビ操作」の場合、キーワード制御手段１５は、音声認識手段に対するトークスイッチが押された場合と同じように、全ての音声コマンドを入力できる状態にする（ステップ１１０）。その後、ステップ１１２において、音声認識手段１６により、音声認識ワードテンプレート１７を用いて、音声認識を行い、音声認識結果が、コマンドであれば、コマンドに対する操作を実行するようにする（ステップ１１４）。
【００２１】
さらに、他の実施例として、キーワードテンプレートにおいて、特定の言葉「現在地」、「行き先」「ナビ操作」を日本語でなく、キーワードテンプレート（ｂ）のように、英語の「ポジション」、「デスティネーション」、「オペレーション」を用いる。これにより、普段日本人が、会話で用いない言葉とすることによが可能となり、通常に会話に、「特定の言葉」が出現し、それが誤って認識され発話者の意図しない音声認識が開始されてしまうことを少なくすることができる。
【００２２】
さらに、他の実施例として、上記２つの実施例ともに、当然トークスイッチと組み合わせを変えることも可能である。例えば、英語の「デスティネーション」のみを音声認識開始、かつ、音声操作コマンドとすることにより、ナビ操作において、最もよく使われる機能の一つである行き先設定を、トークスイッチ無しで、かつ、少ない発声で短時間に完了することができる。その他の音声コマンドは、トークスイッチを押すことにより、入力可能となる。これにより、さらに、発話者の意図しない音声認識の開始を防ぐことが可能となる。
【００２３】
本発明の会話の一例
発話者：「デスティネーション」
ナビ：「行き先を言ってください」
発話者：「名古屋城」
【００２４】
従来の発明の会話の例
発話者：「ナビ」
ナビ：「ナビ音声認識を開始します。コマンドをどうぞ。」
発話者：「行き先」
ナビ：「行き先を言ってください。」
発話者：「名古屋城」
【００２５】
以上により、本発明は、発話者の発話負担を小さくし、トークスイッチの操作を減らすことが可能となる。トークスイッチの操作は、発話者が、運転手の場合には、負担の大きい操作であるので、使い勝手を向上させることができる。さらには、操作時間の短縮が可能になるので、運転中に車載ナビゲーション装置を使用する場合の安全性の向上を期待することができる。
【００２６】
尚、上記実施例では、日本語キーワードとして、「現在地」、「行き先」、「ナビ操作」、代表的な外国語のキーワードとして英語を用い、「ポジション」、「デスティネーション」、「オペレーション」を用いたが、もちろんこれ以外でも良く、発明の主旨を損なわない程度であれば、さらにキーワードを増やしても良い。
【００２７】
尚、上記実施例では、対象とする主なユーザが、日本語を用いる場合を想定しているが、ユーザが英語を用いる場合は、キーワードとして、日本語、ドイツ語等を用いるようにすれば良い。他の言語においても同様に想定するユーザが用いる言語以外の言語によりキーワードを設定すればよい。
【００２８】
さらに、音声認識ワードテンプレートに記した単語は、一例であり、実際に認識できる単語は、これより多くても良く、また、１つの意味に対して、複数の単語を用意することにより、さらに、使い勝手を良くすることが可能である。
【００２９】
本実施例では、車両用ナビゲーション装置に本発明の音声認識装置が備えられていた。しかし、本発明の適用範囲が車両用ナビゲーション装置に限定されないことはもちろんである。本発明は、他の車載機器に備えられる認識装置にも、また、車両以外の環境で使われる音声認識装置にも同様に適用可能である。
【００３０】
上述した実施形態は、本発明の一例であって、これに限定されるものではなく、発明の本質に照らして、様々な変形例が考えられる。
【図面の簡単な説明】
【図１】本発明の実施形態の音声認識装置の構成を示すブロック図である。
【図２】音声認識に用いられるキーワード、操作コマンド、音声認識ワードのテンプレートの一例を示した説明図。
【図３】本発明の音声認識装置の動作を示すフローチャートである。
【符号の説明】
１…ナビゲーション装置
１０…音声認識装置
１１…キーワード認識手段
１２…キーワードテンプレート
１３…操作コマンド判定手段
１４…操作コマンドテンプレート
１５…キーワード制御手段
１６…音声認識手段
１７…音声認識ワードテンプレート
１８…マイクロホン
１９…音声認識ＥＣＵ
２０…スピーカ
３０…ナビゲーション手段
４０…表示装置

Claims

発話者が発した音声を認識する音声認識装置において、
複数の特定の言葉である複数のキーワードを認識するキーワード認識手段と、
前記キーワード認識手段により認識された前記キーワードが操作の意味を持つ操作コマンドかどうかを判定する操作コマンド判定手段と、
前記操作コマンド判定手段により操作コマンドと判定された場合は、コマンド操作を実行し、操作コマンドと判定されない場合は、音声認識手段により音声認識を行い、認識結果に基づいた操作を実行するようにしたキーワード制御手段を有することを特徴とする音声認識装置。
前記キーワードは、一般的な会話への出現頻度の少ない複数の特定の言葉であることを特徴とする請求項１に記載の音声認識装置。
前記キーワードは、本音声認識装置において想定している主なユーザが用いる言語による会話において使用することの少ない他国語であることを特徴とする請求項１または請求項２に記載の音声認識装置。