JP2000181485A

JP2000181485A - 音声認識装置及び方法

Info

Publication number: JP2000181485A
Application number: JP10354995A
Authority: JP
Inventors: Masaaki Ichihara; 雅明市原
Original assignee: Toyota Motor Corp
Current assignee: Toyota Motor Corp
Priority date: 1998-12-14
Filing date: 1998-12-14
Publication date: 2000-06-30

Abstract

(57)【要約】【課題】音声でナビゲーション用の目的地を設定する
際に、ユーザの発声負担を軽減する。【解決手段】ユーザはマイク１０からナビゲーション
用の目的地データを入力する。制御部１４は、入力発声
データを発声データ記憶部２２に記憶するとともに、音
声データベース１８を用いて入力発声データの少なくと
も一部を解析する。解析して得られた結果を用いて解析
に使用する音声データベース１８を切替え、発声データ
記憶部２２に記憶された発声データを読み出して再解析
を行う。記憶された発声データを用いるので、ユーザは
１回の発声だけで高精度に目的地を設定できる。

Description

【発明の詳細な説明】

【０００１】

【発明の属する技術分野】本発明は音声認識装置及び方
法、特にナビゲーションシステムにおいて目的地を設定
する際の音声認識に関する。

【０００２】

【従来の技術】従来より、音声でナビゲーションシステ
ムの各種処理、例えば目的地設定を行う技術が提案され
ている。このような技術においては、いかに迅速かつ正
確にユーザが発した音声を認識するかが重要な課題であ
る。通常、音声認識はユーザの発声データと予め用意さ
れた音声データベース内の音声データとを比較すること
で行われるが、音声データベースは階層化して用いられ
ることが多い。

【０００３】例えば、特開平１０−６２１９９号公報に
は、音声データベースを３つの階層に分け、階層１に位
置情報を有する施設名と位置情報を有しない施設ジャン
ル名を記憶し、階層２に階層１のジャンル名に該当す
る、位置情報を有する施設名と位置情報を有しない都道
府県名を記憶し、階層３に階層２の都道府県に該当す
る、位置情報を有する施設名を記憶して、ユーザの発声
データに応じて順次階層を変化させて音声認識する技術
が開示されている。

【０００４】

【発明が解決しようとする課題】しかしながら、上記従
来技術ではユーザの発声毎に音声データベースの階層を
切り替えているため、例えばユーザがナビゲーションの
目的地をデパートの＊＊百貨店に設定したいと欲して
も、順次「施設」→「デパート」→「＊＊百貨店」と繰
り返し発声しなければならず、「デパートの＊＊百貨店
に行きたい」などのように自然な発声１回で目的地を設
定することができなかった。

【０００５】また、ユーザによっては、例えば「＊＊百
貨店の近くの駐車場」の如く、ある目標物を起点として
目的地を設定したいと欲する場合があるが、従来技術で
はこのような目標物を起点とした目的地設定を認識する
ことができない問題があった。

【０００６】本発明は、上記従来技術の有する課題に鑑
みなされたものであり、その目的は、ユーザの発声の負
担を軽減してより簡易に所望のデータを音声で設定でき
る装置及び方法を提供することにある。

【０００７】

【課題を解決するための手段】上記目的を達成するため
に、第１の発明は、ユーザの発声データを記憶する発声
データ記憶手段と、前記発声データと音声データベース
内の音声データとを比較することにより前記発声データ
の少なくとも一部を解析する第１音声解析手段と、前記
第１音声解析手段で得られた解析データに基づいて前記
音声データベースを切り替える切替手段と、前記発声デ
ータ記憶手段に記憶された発声データを読み出し、前記
切替手段で切り替えられた音声データベース内の音声デ
ータとを比較することにより前記発声データを再解析す
る第２音声解析手段とを有することを特徴とする。第１
音声解析手段で解析し、さらに記憶しておいた発声デー
タを読み出して第２音声解析手段で再解析する（再解析
時には、音声データベースが切り替えられて最適化され
ている）ことで、ユーザの１回の発声で確実に音声認識
を行うことができる。なお、第１音声解析手段と第２音
声解析手段は別個に存在する必要はなく、同一の手段で
両機能を達成することも可能である。

【０００８】また、第２の発明は、第１の発明におい
て、前記発声データはナビゲーション用の目的地データ
であり、前記第２音声解析手段で所定のデータが得られ
た場合に、該データを前記目的地用の目標物として処理
する手段を有することを特徴とする。音声解析して得ら
れた所定のデータを目標物としてとらえることで、例え
ば「＊＊の近くの○○」という発声データについても、
「＊＊の近くの」という所定データを得ることで「＊
＊」を目標物として用い本来の目的地の「○○」を得る
ことが可能となる。

【０００９】また、第３の発明は、ユーザの発声データ
を記憶する記憶ステップと、前記ユーザの発声データと
音声データベース内の音声データとを比較することによ
り前記音声データの少なくとも一部を解析する第１解析
ステップと、前記第１解析ステップで得られた解析デー
タに基づいて前記音声データベースを切り替える切替ス
テップと、前記記憶ステップで記憶された発声データを
読み出し、読み出された発声データと前記切替ステップ
で切り替えられた音声データベース内の音声データとを
比較することにより再解析する第２解析ステップとを有
することを特徴とする。

【００１０】また、第４の発明は、第３の発明におい
て、前記発声データはナビゲーション用の目的地データ
であり、前記第２解析ステップにおいて所定のデータが
得られた場合に、該データを前記目的地用の目標物とし
て処理する処理ステップをさらに有することを特徴とす
る。

【００１１】

【発明の実施の形態】以下、図面に基づき本発明の実施
形態について、ナビゲーションシステムにおける目的地
設定を例にとり説明する。

【００１２】図１は、本実施形態の構成ブロック図であ
り、音声認識機能を有するナビゲーションシステムの構
成を示す図である。

【００１３】マイク１０は、ユーザ（車両乗員）の発声
を入力して制御部１４に供給する。現在位置検出部１２
は、ＧＰＳや車速センサ、方位センサなどで構成され、
車両の現在位置を検出して制御部１４に供給する。

【００１４】制御部１４は、具体的にはマイクロコンピ
ュータで構成され、ナビゲーションに必要な各種制御を
実行するとともに、マイク１０から入力されたユーザの
発声データを解析して目的地を設定する。本実施形態で
は、この制御部１４が第１音声解析手段、第２音声解析
手段として機能するとともに、音声データベース１８の
内、解析に使用するデータを切り替える切替手段として
機能する。

【００１５】音声データベース１８は、制御部１４でユ
ーザの発声データを解析する際に発声データと比較すべ
き音声データを記憶するもので、階層構造を有してい
る。制御部１４は、適宜この音声データベース１８にア
クセスして発声データを解析する。音声データベース１
８は、例えばＣＤ−ＲＯＭやＤＶＤ等で構成される。

【００１６】地図データ記憶部２０は、ナビゲーション
に必要な地図データ（表示用地図データ及び経路探索用
地図データ）を記憶しており、制御部１４は検出された
現在位置周辺の地図データを地図データ記憶部２０から
読み出して表示部２４に表示し、あるいは発声データを
解析することで得られた目的地に至る経路を経路探索用
地図データを用いて探索し、推奨経路として表示部２４
に表示する。もちろん、推奨経路はスピーカから音声で
報知してもよい。地図データ記憶部２０は、例えばＣＤ
−ＲＯＭやＤＶＤ等で構成される。

【００１７】発声データ記憶部２２は、マイク１０から
入力した発声データを記憶するもので、制御部１４はこ
の発声データ記憶部２２に記憶された発声データを読み
出すことで、ユーザに対して再度の発声を要求すること
なく発声データの複数回の解析を行うことができる。発
声データ記憶部２２は、例えば半導体メモリで構成する
ことができる。

【００１８】なお、操作部１６は、表示部２４に表示さ
れた地図データのスクロールや、音声によらない手動の
目的地設定等の各種入力操作に用いられる。

【００１９】図２には、音声データベース１８の階層構
造が示されている。音声データベースは、全国レベルの
認識グラマー辞書、都道府県レベルの認識グラマー辞
書、市町村レベルの認識グラマー辞書の３階層から構成
されている。なお、「グラマー辞書」とは、制御部１４
で発声データを解析する際に用いられるグラマー手法に
おける音声データの集合であり、グラマー手法について
は後述する。全国レベルの認識グラマー辞書には日本全
国の主要な地名や名前のデータが記憶され、都道府県レ
ベルの認識グラマー辞書には各都道府県毎に区分されて
その都道府県内の地名や名前のデータが記憶され、市町
村レベルの認識グラマー辞書には各市町村毎に区分され
てその市町村内の地名や名前のデータが記憶されてい
る。

【００２０】音声データベース１８のどの階層のどこの
データを読み出して利用するかは、検出された現在位置
及び発声データの解析結果に応じて制御部１４が決定す
る。具体的には、例えば車両の現在位置が静岡県裾野市
である場合には、制御部１４は音声データベース１８内
の都道府県レベルの認識グラマー辞書として静岡県を指
定し、市町村レベルの認識グラマー辞書として裾野市及
びその近隣の市を指定する。そして、車両が移動して車
両の現在位置が東京都千代田区となった場合には、制御
部１４は都道府県レベルの認識グラマー辞書として東京
都を指定し、市町村レベルの認識グラマー辞書として千
代田区及びその近隣の区を指定する。現在位置に応じた
音声データベースを指定する利点は、現在位置周辺を目
的地として発声した場合に、迅速に解析して認識できる
点である。また、制御部１４は、発声データの解析結果
に応じて音声データベース１８の利用データを切り替え
る。例えば、発声データの解析により三島市が対象とな
っていることが分かれば、市町村レベルの認識グラマー
辞書を三島市に切り替えて解析を続行する。

【００２１】図３には、本実施形態における音声認識の
処理フローチャートが示されている。まず、ユーザが発
声して目的地を入力する（Ｓ１０１）。発声の形態とし
ては、例えば「みしましの＊＊しょうてん（三島市の＊
＊商店）」や、「みしまえきのちかくのちゅうしゃじょ
うにいきたい（三島駅の近くの駐車場に行きたい）」な
どである。マイク１０から入力されたこれらの発声デー
タは、発声データ記憶部２２に記憶されるとともに（Ｓ
１０２）、制御部１４は入力した発声データをグラマー
手法を用いて解析する（Ｓ１０３）。

【００２２】ここで、グラマー手法について説明する。
グラマー手法とは、認識させたい語の並びを予め定義し
て認識させる手法であり、例えば文の並びを＜ａ＞＜ｂ
＞＜ｃ＞とし、＜ａ＞として「今日は」あるいは「明日
は」あるいは「あさっては」を候補とし、＜ｂ＞として
「天気は」あるいは「天気が」を候補とし、＜ｃ＞とし
て「いい」あるいは「悪い」を候補として、発声データ
「今日は天気がいい」や「今日は天気が悪い」や「明日
は天気がいい」などを認識するものである。本実施形態
では、目的地認識を行うために、以下のような語の並び
（フレーズと称する）を用いている。

【００２３】基本フレーズ１＝＜地名＞＜ｅｎｄ＞？基本フレーズ２＝＜ＮＵＬＬ＞？＜名前＞＜ｅｎｄ＞？基本フレーズ３＝＜地名＞の＜ＮＵＬＬ＞？＜名前＞＜
ｅｎｄ＞？基本フレーズ４＝＜地名＞の＜名前＞の＜ＮＵＬＬ＞？
＜名前＞＜ｅｎｄ＞？基本フレーズ５＝＜名前＞の＜ＮＵＬＬ＞？＜名前＞＜
ｅｎｄ＞？基本フレーズ６＝＜地名＞＜方向＞＜ｅｎｄ＞？但し、＜地名＞は住所あるいはエリアを表す語句で、住
所は「しずおか」や「しずおかけん」等であり、エリア
は「いず」や「ぼうそう」等である。また、＜ｅｎｄ＞
は文の終わりを示す語句で、「にいきたい」「へいきた
い」「にとめたい」「にかえる」「にいく」「たのむ」
「まで」「までたのみ」「へ」等である。＜ＮＵＬＬ＞
は範囲や程度を表す語句で、「ちかくの」「しゅうへん
の」「いちばん」「いちばんちかくの」「ちかい」「や
すい」「うまい」「おいしい」「いつもの」「そばの」
「ここら」等である。この＜ＮＵＬＬ＞データは目標物
を設定する際に必要となるデータでもある。＜名前＞は
名称や施設を表す語句で「＊＊えき」「＊＊ちゅうしゃ
じょう」「＊＊ごるふじょう」「＊＊こうえん」「＊＊
いんたーちぇんじ」「＊＊びょういん」「＊＊みなと」
「＊＊かわ」「＊＊かんこうち」「＊＊おんせん」等で
ある。＜方向＞は「＊＊ほうめん」等である。また、＜
＞の後の？は、その＜＞の語句が必須ではなく、なくて
も良いことを示す。したがって、基本フレーズ１には、
「しずおかにいきたい（静岡に行きたい）」の他、「し
ずおか」も含まれる。上述の例における「みしましの＊
＊商店（三島市の＊＊商店）」は基本フレーズ３に該当
し、「みしまえきのちかくのちゅうしゃじょう（三島駅
の近くの駐車場）」は基本フレーズ５に該当する。

【００２４】このようなグラマー手法を用いてユーザの
発声データを解析すると、少なくとも一部は解析できる
ものの、残りのデータ（特に発声の後半部分のデータ）
が解析できない場合が生じる。具体的には、上述の発声
データ「みしましの＊＊しょうてん（三島市の＊＊商
店）」を解析した場合、「みしまし（三島市）」は全国
レベルの認識グラマー辞書には存在して解析可能である
が、「＊＊しょうてん（＊＊商店）」という名前は市町
村レベルの認識グラマー辞書でなければ解析できず、し
かも市町村レベルの認識グラマー辞書が三島市以外の市
町村に指定されている場合（例えば車両の現在位置が裾
野市である場合には、市町村レベルの認識グラマー辞書
のデフォルト値は裾野市）には発声データを解析できな
い。そこで、解析して得られた結果を用いて音声データ
ベース１８のグラマー辞書を切り替える（Ｓ１０４）。
上述の場合、「みしまし（三島市）」が得られているの
で、市町村レベルの認識グラマー辞書を三島市用のデー
タに切り替える。

【００２５】音声データベース１８を切り替えた後、Ｓ
１０２の処理で発声データ記憶部２２に記憶した発声デ
ータを読み出し、再度解析する（Ｓ１０５）。このと
き、市町村レベルの認識グラマー辞書は三島市用のデー
タとなっているため、発声データの内の「＊＊しょうて
ん（＊＊商店）」を解析することができる。発声データ
のすべての解析が終了すると、制御部１４は解析結果を
用いて地図データから目的地を検索する（Ｓ１０６）。
この例では、三島市用の地図データを読み出して＊＊商
店を検索することになる。

【００２６】一方、発声データが「みしまえきのちかく
のちゅうしゃじょうにいきたい（三島駅の近くの駐車場
に行きたい）」の場合でも、同様にしてＳ１０３で解析
を行い、アクティブな認識グラマー辞書（この場合は全
国レベル）がヒットして「みしまえき（三島駅）」「ち
かくの（近くの）」「ちゅうしゃじょう（駐車場）」を
解析することができる。そして、市町村レベルの認識グ
ラマー辞書を三島市用のデータに切替え（Ｓ１０４）、
発声データ記憶部２２に記憶された発声データを読み出
して再度解析を行う（Ｓ１０５）。なお、この例の場合
では、１回目の解析で全ての発声データを解析できるの
で、２回目の解析結果は１回目の解析結果と同一であ
る。もちろん、発声データが「みしまえきのちかくの＊
＊ちゅうしゃじょうにいきたい（三島駅の近くの＊＊駐
車場に行きたい）」である場合には、１回目の解析では
「＊＊ちゅうしゃじょう（＊＊駐車場）」の部分は解析
不能となり、音声データベースを切り替えた後の２回目
の解析で「＊＊ちゅうしゃじょう」の部分も解析できる
ことになる。そして、＜ＮＵＬＬ＞データである「近く
の」が存在するため、制御部１４は＜ＮＵＬＬ＞データ
の前に存在する＜名前＞データの解析結果を目標物とし
て処理し、地図データ上でこの目標物（三島駅）の座標
（Ｘ、Ｙ）から近い順に駐車場を検索する（Ｓ１０
６）。

【００２７】このように、本実施形態ではユーザの発声
データを記憶しておき、１回目の解析で解析できなかっ
た場合でも音声データベースを自動的に切り替えて再度
解析を行うので、音声認識の精度が向上するとともに、
ユーザは１回の発声で目的地を設定することができる。

【００２８】また、本実施形態では、＜ＮＵＬＬ＞デー
タが存在する場合には、その前のデータを目標物とみな
して地図データから検索し、その目標物周辺の地図デー
タを検索することで本来の目的地を検索することができ
るので、ユーザは自然な発声で所望の目的地を容易に設
定することが可能となる。

【００２９】また、本実施形態において、同音異義語が
存在する場合には、認識率を向上させるためにユーザに
対してより多くの情報を求めることが好適である。例え
ば、ユーザが「とよた」と発声した場合、スピーカから
「とよたしですか、とよたちょうですか」と問い合わせ
る等である。

【００３０】さらに、発声データの解析を行う場合、得
られたデータの種類を表すアノテーションを付与し、地
図データベースの検索を容易とする等の技術は当然なが
ら本実施形態においても用いることができる。例えば、
地名の中の県名にはアノテーションとして数字の１１、
市名には数字の１３、エリアには４２を付与し、名前に
はアノテーションとして数字の３２を付与する等であ
る。この場合、＜ＮＵＬＬ＞データの内の「ちかい」や
「ちかくの」にはアノテーションとして数字を付与する
（例えば９１）一方、＜ＮＵＬＬ＞データの内の「うま
い」や「やすい」にはアノテーションを付与しないのが
好適である。これらは目的地の設定（地図データの検
索）にとって不要な語句だからである。

【００３１】

【発明の効果】以上説明したように、本発明によればユ
ーザの発声の負担を軽減してより簡易に所望のデータ、
例えばナビゲーション用の目的地を音声で設定すること
ができる。

【図面の簡単な説明】

【図１】実施形態の構成ブロック図である。

【図２】実施形態の音声データベースの構造を示す説
明図である。

【図３】実施形態の処理フローチャートである。

【符号の説明】

１０マイク、１２現在位置検出部、１４制御部、
１６操作部、１８音声データベース、２０地図デー
タ記憶部、２２発声データ記憶部、２４表示部。

───────────────────────────────────────────────────── フロントページの続き (51)Int.Cl.⁷ 識別記号ＦＩテーマコート゛(参考）Ｇ０９Ｂ 29/10 Ｇ０９Ｂ 29/10 ＺＦターム(参考） 2C032 HB06 HC16 HD16 2F029 AA02 AB01 AB07 AB09 AC01 AC02 AC04 AC18 5D015 HH13 HH16 KK02 LL10 5H180 AA01 BB04 BB13 CC12 CC27 FF04 FF05 FF22 FF25 FF32 FF33

Claims

【特許請求の範囲】

【請求項１】ユーザの発声データを記憶する発声デー
タ記憶手段と、前記発声データと音声データベース内の音声データとを
比較することにより前記発声データの少なくとも一部を
解析する第１音声解析手段と、前記第１音声解析手段で得られた解析データに基づいて
前記音声データベースを切り替える切替手段と、前記発声データ記憶手段に記憶された発声データを読み
出し、前記切替手段で切り替えられた音声データベース
内の音声データとを比較することにより前記発声データ
を再解析する第２音声解析手段と、を有することを特徴とする音声認識装置。
【請求項２】請求項１記載の装置において、前記発声データはナビゲーション用の目的地データであ
り、前記第２音声解析手段で所定のデータが得られた場合
に、該データを前記目的地用の目標物として処理する手
段を有することを特徴とする音声認識装置。
【請求項３】ユーザの発声データを記憶する記憶ステ
ップと、前記ユーザの発声データと音声データベース内の音声デ
ータとを比較することにより前記音声データの少なくと
も一部を解析する第１解析ステップと、前記第１解析ステップで得られた解析データに基づいて
前記音声データベースを切り替える切替ステップと、前記記憶ステップで記憶された発声データを読み出し、
読み出された発声データと前記切替ステップで切り替え
られた音声データベース内の音声データとを比較するこ
とにより再解析する第２解析ステップと、を有することを特徴とする音声認識方法。
【請求項４】請求項３の方法において、前記発声データはナビゲーション用の目的地データであ
り、前記第２解析ステップにおいて所定のデータが得られた
場合に、該データを前記目的地用の目標物として処理す
る処理ステップをさらに有することを特徴とする音声認
識方法。