[go: up one dir, main page]

JP2004301875A - 音声認識装置 - Google Patents

音声認識装置 Download PDF

Info

Publication number
JP2004301875A
JP2004301875A JP2003091311A JP2003091311A JP2004301875A JP 2004301875 A JP2004301875 A JP 2004301875A JP 2003091311 A JP2003091311 A JP 2003091311A JP 2003091311 A JP2003091311 A JP 2003091311A JP 2004301875 A JP2004301875 A JP 2004301875A
Authority
JP
Japan
Prior art keywords
keyword
speech recognition
voice
speaker
operation command
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Pending
Application number
JP2003091311A
Other languages
English (en)
Inventor
Hiroyuki Hoshino
博之 星野
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Toyota Central R&D Labs Inc
Original Assignee
Toyota Central R&D Labs Inc
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Toyota Central R&D Labs Inc filed Critical Toyota Central R&D Labs Inc
Priority to JP2003091311A priority Critical patent/JP2004301875A/ja
Publication of JP2004301875A publication Critical patent/JP2004301875A/ja
Pending legal-status Critical Current

Links

Images

Landscapes

  • Navigation (AREA)
  • Traffic Control Systems (AREA)

Abstract

【課題】特定の言葉により音声認識を開始する音声認識装置において、特定の言葉が普通の会話に出現することにより、発話者の意図しない音声認識が開始されることが無く、さらに発話負担の少ない音声認識装置を得ること。
【解決手段】普通の会話に特定の言葉が出現する頻度を少なくするために、特定の言葉を、限られた複数の言葉とし、さらに、発話者の母国語でない言語による言葉を用いるようにした。さらに、発話負担を少なくするために、特定の言葉の内いくつかには、音声操作コマンドの意味を持たせ、音声認識の開始と同時に操作の実行を行うようにした。
【選択図】 図1

Description

【0001】
【発明の属する技術分野】
本発明は、音声認識装置に関し、特に、手動のトークスイッチが不要な音声認識装置に関する。
【0002】
【従来の技術】
【特許文献1】
特開平11−359287号公報
【特許文献2】
特開2000−56790号公報
【特許文献3】
特開2000−194293号公報
【特許文献4】
特開2000−322078号公報
【特許文献5】
特開2000−194393号公報
【0003】
従来、音声認識装置においては、発話者は発声の度に毎回トークスイッチを操作しなければならず、このようなスイッチ操作は煩わしいものである。特に、車載のナビゲーション装置における音声入力をする際には、運転操作中にトークスイッチを操作するのは煩雑な作業である。このような問題を解決するためにトークスイッチの代わりに話者の画像から発話の有無を判定するもの、特定の言葉を認識する手段を設けることにより音声認識を開始するものが各社から考案されている。
【0004】
特開平11−359287号公報「音声認識装置」 は、カメラにより発話者を撮影し、話者の画像から、発話の有無を判定することにより、トークスイッチを不要としている。また、特開2000−56790号公報「音声伝達方式」 、特開2000−194293号公報「音声認識制御装置」 、特開2000−322078号公報「車載型音声認識装置」は、特定の言葉を認識する手段を設けることにより、音声認識を開始するものである。特開2000−194393号公報においては、トークスイッチとも併用できる装置を示している。
【0005】
【発明が解決しようとする課題】
トークスイッチの代わりに特定の言葉を認識する手段を設けることにより、音声認識を開始する装置では、特定の言葉の次に再び音声操作コマンドを入力する必要があり、発話者の発話負担が大きく、使い勝手を損なっていた。また、その「特定の言葉」 が、発話者の母国語の場合、通常の会話にその言葉が出現し、それが誤って認識されると、発話者が意図していないのに音声認識が開始されてしまうという問題があった。
【0006】
本発明の目的は、この点を考慮し、音声認識開始のための特定の言葉を、あまり多くない複数とし、その内のいくつかには、音声操作コマンドの役割りを持たせることにより、発話者の発話負担を軽くし、使い勝手を向上させる。
【0007】
さらに、上記の「特定の言葉」 が、通常の会話に出現し、誤って認識されることにより発話者の意図しない音声認識が開始されない音声認識装置を得ることである。
【0008】
なお、上述したある1つの発明が、上記した全ての目的を同時に達成するものと解されるべきではなく、個々の発明が、それぞれの目的を達成するものと解されるべきである。
【0009】
【課題を解決するための手段】
従って、本発明においては、発話者が発した音声を認識する音声認識装置において、複数の特定の言葉である複数のキーワードを認識するキーワード認識手段と、キーワード認識手段により認識されたキーワードが操作の意味を持つ操作コマンドかどうかを判定する操作コマンド判定手段を有するようにした。さらに、操作コマンド判定手段により操作コマンドと判定された場合は、コマンド操作を実行し、操作コマンドと判定されない場合は、音声認識手段により音声認識を行い、認識結果に基づいた操作を実行するようにしたキーワード制御手段を有するようにしたことを特徴とする。
【0010】
さらに、請求項2の発明は、キーワードが普通の会話に出現することにより意図しない音声認識が開始されないようにするために、キーワードは、一般的な会話への出現頻度の少ない特定の複数の言葉であることを特徴とする。
【0011】
さらに、請求項3の発明は、キーワードが普通の会話に出現することにより意図しない音声認識が開始されないようにするために、キーワードは、本音声認識装置において想定している主なユーザが用いる言語による会話において使用することの少ない他国語であることを特徴とする。例えば、本装置が、主なユーザとして日本人を想定している場合、会話に用いられる言語は、日本語である。この場合、キーワードとして、日本語でない、英語、フランス語等を用いることを特徴とする。
【0012】
【発明の作用及び、効果】
従って、請求項1の発明によれば、発話者が発した音声を認識する音声認識装置において、複数の特定の言葉である複数のキーワードを認識するキーワード認識手段を設けることにより、発話者の発したキーワードを認識することができるようになる。さらに、キーワード認識手段により認識されたキーワードが操作の意味を持つ操作コマンドかどうかを判定する操作コマンド判定手段と、操作コマンド判定手段により操作コマンドと判定された場合は、コマンド操作を実行し、操作コマンドと判定されない場合は、音声認識手段により音声認識を行い、認識結果に基づいた操作を実行するようにしたキーワード制御手段を有するようにした。従って、発話者が発したキーワードが、操作コマンドである場合には、音声認識の開始と共に、コマンド操作が開始されるようになり、発話者の発話負担が軽減されるようになる。また、キーワードが、操作コマンドで無い場合は、通常の音声認識が開始されるようになる。
【0013】
さらに、請求項2の発明によれば、キーワードは、一般的な会話への出現頻度の少ない複数の特定の言葉であるようにしたので、キーワードが発話者の通常の会話に出現する頻度が少なくなり、キーワードが誤認識され、発話者の意図しない音声認識が開始されることが少なくなる。
【0014】
さらに、請求項3の発明によれば、キーワードは、本音声認識装置において想定している主なユーザが用いる言語による会話において使用することの少ない他国語を用いるようにした。従って、例えば、日本語を用いるユーザに対する音声認識装置としては、キーワードとして、英語を用いることにより、通常の日本語の会話にキーワードが出現する頻度を極めて低くすることが可能となる。同様に、英語を用いるユーザに対する音声認識装置のキーワードとして、日本語を用いることにより、英語の通常会話にキーワードが出現する頻度を低くすることが可能となる。このように、対象としているユーザが用いる言語以外の他国語を用いることにより、通常の会話にキーワードが出現する頻度を少なくすることが可能となり、発話者の意図しない音声認識の開始を少なくすることが可能となる。さらに、キーワードとして設定する特定の言葉として、キーワードが要求される本来の意味を持った言葉を設定することが可能となる。これにより、会話には出現する頻度は低いが、キーワードとしての意味は妥当である単語を選定することが可能となる。
【0015】
【発明の実施の形態】
ここでは、車載のナビゲーション装置等に用いられる音声認識装置に本発明を適用した具体例に関して述べる。
先ず、図1は本発明の実施形態の一例である音声認識装置10を用いたナビゲーション装置1の構成を示すブロック図である。構成及び、動作の概要を図により説明する。音声認識装置10は、マイクロホン18、音声認識ECU(Electronic Control Unit) により構成され、発話者が音声コマンド(例えば走行目的地を指定するためのコマンド)を発すると、音声はマイクロホン18に入力され、電気的な信号に変換されて音声認識ECU19に送られる。音声認識ECU19は、DSP(デジタルシグナルプロセッサ)を有し、音声データを解析し、発話者が何を言ったのかを認識する。周知の認識処理が行われればよく、ダイナミックプログラミング法(動的計画法、DP法)や、ヒドンマルコフモデル(隠れマルコフモデル、HMM)を使った確率手法などが適用可能である。概略的には、例えば、入力信号に対して窓関数処理、フーリエ変換処理などが行われ、音声データのケプストラムなどが求められる(音響処理)。その後、キーワード認識手段11により、音響処理後の信号と、予め用意されたキーワードテンプレート12(認識対象単語のデータ)とのパターンマッチングが行われる。マッチング結果のよい単語が、発声された単語であると決定される。認識結果は操作コマンド判定手段13に、出力され、操作コマンドであるかどうか判定される。
【0016】
この場合も、例えば、操作コマンドテンプレート14が用意され、パターンマッチングが行われる。判定結果は、キーワード制御手段15に出力され、操作コマンドであると判定されると、操作コマンドが、ナビゲーション装置20に出力され、操作コマンドで無いと判定されると、さらに、発せられた音声が何であるか、判定するために、音声認識手段16において、音声認識ワードテンプレート17とのパターンマッチングにより決定する。結果は、キーワード制御手段15に出力され、ナビゲーション手段30への指令及び、返答として出力される。ナビゲーション手段30は、発話者の発した音声コマンド及び、返答に従って、表示装置40への地図の表示、スピーカ20を介して、さらに発話を促したり、経路の誘導を行う等の動作する。
【0017】
次に、図2に示す本発明の特徴である、特定の言葉であるキーワードを用いた処理の例を、図3のフローチャートに従い処理の概要について説明する。
【0018】
先ず、マイクロホン18からの音声の入力があった場合、ステップ100において、音声入力処理が行われる。次に、ステップ102において、音声認識ECU19において、音声データの解析処理がなされる。
【0019】
次に、ステップ104において、解析された音声が、キーワードであるかどうか、キーワードテンプレート(a) を用いて、パターンマッチングがなされ、発話が、「現在地」 、「行き先」 、「ナビ操作」 で有るかどうか判断される。ここで、キーワードでないと判断されると、音声認識は開始されないので、キーワードが入力されるか、トークスイッチが押されるまで、音声認識は開始されない。一方、キーワードであると判断されると、トークスイッチが押された場合と同様に音声認識処理が開始される。これらのうち、「現在地」 、「行き先」 は、通常ナビゲーション装置において、特に良く用いられるコマンド語である。
【0020】
この「現在地」 、「行き先」 には、音声認識開始だけでなく、音声操作コマンドの役割を持っているので、ステップ106において、操作コマンドテンプレート(c)とのパターンマッチングにより、「現在地」 、「行き先」 と判断されると、ステップ108において、認識コマンド操作処理が行われる。これは、キーワード制御手段15により、「現在地」 、「行き先」 コマンドが入力されたことが、ナビゲーション手段30に出力され、ナビゲーション手段30において、現在地の表示、行き先設定がなされるように処理がされる。必要に応じて、次の音声入力を促するためのガイダンスがスピーカ20よりなされる。また、発話が「ナビ操作」 の場合、キーワード制御手段15は、音声認識手段に対するトークスイッチが押された場合と同じように、全ての音声コマンドを入力できる状態にする(ステップ110)。その後、ステップ112において、音声認識手段16により、音声認識ワードテンプレート17を用いて、音声認識を行い、音声認識結果が、コマンドであれば、コマンドに対する操作を実行するようにする(ステップ114)。
【0021】
さらに、他の実施例として、キーワードテンプレートにおいて、特定の言葉「現在地」 、「行き先」 「ナビ操作」 を日本語でなく、キーワードテンプレート(b)のように、英語の「ポジション」 、「デスティネーション」 、「オペレーション」 を用いる。これにより、普段日本人が、会話で用いない言葉とすることによが可能となり、通常に会話に、「特定の言葉」 が出現し、それが誤って認識され発話者の意図しない音声認識が開始されてしまうことを少なくすることができる。
【0022】
さらに、他の実施例として、上記2つの実施例ともに、当然トークスイッチと組み合わせを変えることも可能である。例えば、英語の「デスティネーション」 のみを音声認識開始、かつ、音声操作コマンドとすることにより、ナビ操作において、最もよく使われる機能の一つである行き先設定を、トークスイッチ無しで、かつ、少ない発声で短時間に完了することができる。その他の音声コマンドは、トークスイッチを押すことにより、入力可能となる。これにより、さらに、発話者の意図しない音声認識の開始を防ぐことが可能となる。
【0023】
本発明の会話の一例
発話者:「デスティネーション」
ナビ:「行き先を言ってください」
発話者:「 名古屋城」
【0024】
従来の発明の会話の例
発話者:「ナビ」
ナビ:「 ナビ音声認識を開始します。コマンドをどうぞ。」
発話者:「 行き先」
ナビ:「 行き先を言ってください。」
発話者:「 名古屋城」
【0025】
以上により、本発明は、発話者の発話負担を小さくし、トークスイッチの操作を減らすことが可能となる。トークスイッチの操作は、発話者が、運転手の場合には、負担の大きい操作であるので、使い勝手を向上させることができる。さらには、操作時間の短縮が可能になるので、運転中に車載ナビゲーション装置を使用する場合の安全性の向上を期待することができる。
【0026】
尚、上記実施例では、日本語キーワードとして、「現在地」 、「行き先」 、「ナビ操作」 、代表的な外国語のキーワードとして英語を用い、「ポジション」 、「デスティネーション」 、「オペレーション」 を用いたが、もちろんこれ以外でも良く、発明の主旨を損なわない程度であれば、さらにキーワードを増やしても良い。
【0027】
尚、上記実施例では、対象とする主なユーザが、日本語を用いる場合を想定しているが、ユーザが英語を用いる場合は、キーワードとして、日本語、ドイツ語等を用いるようにすれば良い。他の言語においても同様に想定するユーザが用いる言語以外の言語によりキーワードを設定すればよい。
【0028】
さらに、音声認識ワードテンプレートに記した単語は、一例であり、実際に認識できる単語は、これより多くても良く、また、1つの意味に対して、複数の単語を用意することにより、さらに、使い勝手を良くすることが可能である。
【0029】
本実施例では、車両用ナビゲーション装置に本発明の音声認識装置が備えられていた。しかし、本発明の適用範囲が車両用ナビゲーション装置に限定されないことはもちろんである。本発明は、他の車載機器に備えられる認識装置にも、また、車両以外の環境で使われる音声認識装置にも同様に適用可能である。
【0030】
上述した実施形態は、本発明の一例であって、これに限定されるものではなく、発明の本質に照らして、様々な変形例が考えられる。
【図面の簡単な説明】
【図1】本発明の実施形態の音声認識装置の構成を示すブロック図である。
【図2】音声認識に用いられるキーワード、操作コマンド、音声認識ワードのテンプレートの一例を示した説明図。
【図3】本発明の音声認識装置の動作を示すフローチャートである。
【符号の説明】
1…ナビゲーション装置
10…音声認識装置
11…キーワード認識手段
12…キーワードテンプレート
13…操作コマンド判定手段
14…操作コマンドテンプレート
15…キーワード制御手段
16…音声認識手段
17…音声認識ワードテンプレート
18…マイクロホン
19…音声認識ECU
20…スピーカ
30…ナビゲーション手段
40…表示装置

Claims (3)

  1. 発話者が発した音声を認識する音声認識装置において、
    複数の特定の言葉である複数のキーワードを認識するキーワード認識手段と、
    前記キーワード認識手段により認識された前記キーワードが操作の意味を持つ操作コマンドかどうかを判定する操作コマンド判定手段と、
    前記操作コマンド判定手段により操作コマンドと判定された場合は、コマンド操作を実行し、操作コマンドと判定されない場合は、音声認識手段により音声認識を行い、認識結果に基づいた操作を実行するようにしたキーワード制御手段を有することを特徴とする音声認識装置。
  2. 前記キーワードは、一般的な会話への出現頻度の少ない複数の特定の言葉であることを特徴とする請求項1に記載の音声認識装置。
  3. 前記キーワードは、本音声認識装置において想定している主なユーザが用いる言語による会話において使用することの少ない他国語であることを特徴とする請求項1または請求項2に記載の音声認識装置。
JP2003091311A 2003-03-28 2003-03-28 音声認識装置 Pending JP2004301875A (ja)

Priority Applications (1)

Application Number Priority Date Filing Date Title
JP2003091311A JP2004301875A (ja) 2003-03-28 2003-03-28 音声認識装置

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
JP2003091311A JP2004301875A (ja) 2003-03-28 2003-03-28 音声認識装置

Publications (1)

Publication Number Publication Date
JP2004301875A true JP2004301875A (ja) 2004-10-28

Family

ID=33404711

Family Applications (1)

Application Number Title Priority Date Filing Date
JP2003091311A Pending JP2004301875A (ja) 2003-03-28 2003-03-28 音声認識装置

Country Status (1)

Country Link
JP (1) JP2004301875A (ja)

Cited By (9)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2006337513A (ja) * 2005-05-31 2006-12-14 Funai Electric Co Ltd テレビ受像機
WO2007013308A1 (ja) * 2005-07-28 2007-02-01 Matsushita Electric Industrial Co., Ltd. 番組録画装置、番組管理サーバ、番組管理方法、番組管理プログラム及び番組管理プログラムを記録したコンピュータ読み取り可能な記録媒体
KR100749088B1 (ko) * 2004-11-24 2007-08-13 주식회사 현대오토넷 대화형 네비게이션 시스템 및 그 제어방법
WO2017090115A1 (ja) * 2015-11-25 2017-06-01 三菱電機株式会社 音声対話装置および音声対話方法
JP2017173720A (ja) * 2016-03-25 2017-09-28 パイオニア株式会社 音声認識装置及び方法、並びにコンピュータプログラム及び記録媒体
CN110503951A (zh) * 2018-05-18 2019-11-26 夏普株式会社 判定装置、电子设备、响应系统、判定装置的控制方法
CN110503950A (zh) * 2018-05-18 2019-11-26 夏普株式会社 判定装置、电子设备、响应系统、判定装置的控制方法
JP2020060730A (ja) * 2018-10-12 2020-04-16 トヨタ自動車株式会社 音声認識装置
JP2020065186A (ja) * 2018-10-18 2020-04-23 清水建設株式会社 通信装置、通信システム、及び通信方法

Cited By (12)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
KR100749088B1 (ko) * 2004-11-24 2007-08-13 주식회사 현대오토넷 대화형 네비게이션 시스템 및 그 제어방법
JP2006337513A (ja) * 2005-05-31 2006-12-14 Funai Electric Co Ltd テレビ受像機
WO2007013308A1 (ja) * 2005-07-28 2007-02-01 Matsushita Electric Industrial Co., Ltd. 番組録画装置、番組管理サーバ、番組管理方法、番組管理プログラム及び番組管理プログラムを記録したコンピュータ読み取り可能な記録媒体
WO2017090115A1 (ja) * 2015-11-25 2017-06-01 三菱電機株式会社 音声対話装置および音声対話方法
JPWO2017090115A1 (ja) * 2015-11-25 2018-03-15 三菱電機株式会社 音声対話装置および音声対話方法
US10706853B2 (en) 2015-11-25 2020-07-07 Mitsubishi Electric Corporation Speech dialogue device and speech dialogue method
JP2017173720A (ja) * 2016-03-25 2017-09-28 パイオニア株式会社 音声認識装置及び方法、並びにコンピュータプログラム及び記録媒体
CN110503951A (zh) * 2018-05-18 2019-11-26 夏普株式会社 判定装置、电子设备、响应系统、判定装置的控制方法
CN110503950A (zh) * 2018-05-18 2019-11-26 夏普株式会社 判定装置、电子设备、响应系统、判定装置的控制方法
JP2020060730A (ja) * 2018-10-12 2020-04-16 トヨタ自動車株式会社 音声認識装置
JP2020065186A (ja) * 2018-10-18 2020-04-23 清水建設株式会社 通信装置、通信システム、及び通信方法
JP7186059B2 (ja) 2018-10-18 2022-12-08 清水建設株式会社 通信装置、及び通信システム

Similar Documents

Publication Publication Date Title
CN106796786B (zh) 语音识别系统
EP2196989B1 (en) Grammar and template-based speech recognition of spoken utterances
CN106030697B (zh) 车载控制装置及车载控制方法
JP4859982B2 (ja) 音声認識装置
US20050216271A1 (en) Speech dialogue system for controlling an electronic device
US9881609B2 (en) Gesture-based cues for an automatic speech recognition system
JP4104313B2 (ja) 音声認識装置、プログラム及びナビゲーションシステム
JP2009251388A (ja) 母国語発話装置
CN111199735A (zh) 车载装置以及语音识别方法
JP2004301875A (ja) 音声認識装置
JP7280074B2 (ja) エージェント装置、エージェント装置の制御方法、およびプログラム
JP6459330B2 (ja) 音声認識装置、音声認識方法、及び音声認識プログラム
US11996099B2 (en) Dialogue system, vehicle, and method of controlling dialogue system
JP2018116130A (ja) 車内音声処理装置および車内音声処理方法
US11542744B2 (en) Agent device, agent device control method, and storage medium
JP7239359B2 (ja) エージェント装置、エージェント装置の制御方法、およびプログラム
JP5074759B2 (ja) 対話制御装置、対話制御方法及び対話制御プログラム
JPH0673800U (ja) 音声認識装置
JPWO2006025106A1 (ja) 音声認識システム、音声認識方法およびそのプログラム
US10158745B2 (en) Vehicle and communication control method for determining communication data connection for the vehicle
CN116798415A (zh) 对话管理方法、用户终端和计算机可读记录介质
JP4624825B2 (ja) 音声対話装置および音声対話方法
JP2006023444A (ja) 音声対話装置
US20230238020A1 (en) Speech recognition system and a method for providing a speech recognition service
JP2019212168A (ja) 音声認識システムおよび情報処理装置