JP2000181485A - 音声認識装置及び方法 - Google Patents
音声認識装置及び方法Info
- Publication number
- JP2000181485A JP2000181485A JP10354995A JP35499598A JP2000181485A JP 2000181485 A JP2000181485 A JP 2000181485A JP 10354995 A JP10354995 A JP 10354995A JP 35499598 A JP35499598 A JP 35499598A JP 2000181485 A JP2000181485 A JP 2000181485A
- Authority
- JP
- Japan
- Prior art keywords
- data
- voice
- utterance
- analysis
- destination
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Pending
Links
- 238000000034 method Methods 0.000 title claims description 19
- 238000013500 data storage Methods 0.000 claims abstract description 16
- 238000010586 diagram Methods 0.000 description 3
- 101100016591 Oryza sativa subsp. japonica HD16 gene Proteins 0.000 description 1
- 238000001514 detection method Methods 0.000 description 1
- 239000004065 semiconductor Substances 0.000 description 1
Landscapes
- Navigation (AREA)
- Traffic Control Systems (AREA)
- Instructional Devices (AREA)
Abstract
際に、ユーザの発声負担を軽減する。 【解決手段】 ユーザはマイク10からナビゲーション
用の目的地データを入力する。制御部14は、入力発声
データを発声データ記憶部22に記憶するとともに、音
声データベース18を用いて入力発声データの少なくと
も一部を解析する。解析して得られた結果を用いて解析
に使用する音声データベース18を切替え、発声データ
記憶部22に記憶された発声データを読み出して再解析
を行う。記憶された発声データを用いるので、ユーザは
1回の発声だけで高精度に目的地を設定できる。
Description
法、特にナビゲーションシステムにおいて目的地を設定
する際の音声認識に関する。
ムの各種処理、例えば目的地設定を行う技術が提案され
ている。このような技術においては、いかに迅速かつ正
確にユーザが発した音声を認識するかが重要な課題であ
る。通常、音声認識はユーザの発声データと予め用意さ
れた音声データベース内の音声データとを比較すること
で行われるが、音声データベースは階層化して用いられ
ることが多い。
は、音声データベースを3つの階層に分け、階層1に位
置情報を有する施設名と位置情報を有しない施設ジャン
ル名を記憶し、階層2に階層1のジャンル名に該当す
る、位置情報を有する施設名と位置情報を有しない都道
府県名を記憶し、階層3に階層2の都道府県に該当す
る、位置情報を有する施設名を記憶して、ユーザの発声
データに応じて順次階層を変化させて音声認識する技術
が開示されている。
来技術ではユーザの発声毎に音声データベースの階層を
切り替えているため、例えばユーザがナビゲーションの
目的地をデパートの**百貨店に設定したいと欲して
も、順次「施設」→「デパート」→「**百貨店」と繰
り返し発声しなければならず、「デパートの**百貨店
に行きたい」などのように自然な発声1回で目的地を設
定することができなかった。
貨店の近くの駐車場」の如く、ある目標物を起点として
目的地を設定したいと欲する場合があるが、従来技術で
はこのような目標物を起点とした目的地設定を認識する
ことができない問題があった。
みなされたものであり、その目的は、ユーザの発声の負
担を軽減してより簡易に所望のデータを音声で設定でき
る装置及び方法を提供することにある。
に、第1の発明は、ユーザの発声データを記憶する発声
データ記憶手段と、前記発声データと音声データベース
内の音声データとを比較することにより前記発声データ
の少なくとも一部を解析する第1音声解析手段と、前記
第1音声解析手段で得られた解析データに基づいて前記
音声データベースを切り替える切替手段と、前記発声デ
ータ記憶手段に記憶された発声データを読み出し、前記
切替手段で切り替えられた音声データベース内の音声デ
ータとを比較することにより前記発声データを再解析す
る第2音声解析手段とを有することを特徴とする。第1
音声解析手段で解析し、さらに記憶しておいた発声デー
タを読み出して第2音声解析手段で再解析する(再解析
時には、音声データベースが切り替えられて最適化され
ている)ことで、ユーザの1回の発声で確実に音声認識
を行うことができる。なお、第1音声解析手段と第2音
声解析手段は別個に存在する必要はなく、同一の手段で
両機能を達成することも可能である。
て、前記発声データはナビゲーション用の目的地データ
であり、前記第2音声解析手段で所定のデータが得られ
た場合に、該データを前記目的地用の目標物として処理
する手段を有することを特徴とする。音声解析して得ら
れた所定のデータを目標物としてとらえることで、例え
ば「**の近くの○○」という発声データについても、
「**の近くの」という所定データを得ることで「*
*」を目標物として用い本来の目的地の「○○」を得る
ことが可能となる。
を記憶する記憶ステップと、前記ユーザの発声データと
音声データベース内の音声データとを比較することによ
り前記音声データの少なくとも一部を解析する第1解析
ステップと、前記第1解析ステップで得られた解析デー
タに基づいて前記音声データベースを切り替える切替ス
テップと、前記記憶ステップで記憶された発声データを
読み出し、読み出された発声データと前記切替ステップ
で切り替えられた音声データベース内の音声データとを
比較することにより再解析する第2解析ステップとを有
することを特徴とする。
て、前記発声データはナビゲーション用の目的地データ
であり、前記第2解析ステップにおいて所定のデータが
得られた場合に、該データを前記目的地用の目標物とし
て処理する処理ステップをさらに有することを特徴とす
る。
形態について、ナビゲーションシステムにおける目的地
設定を例にとり説明する。
り、音声認識機能を有するナビゲーションシステムの構
成を示す図である。
を入力して制御部14に供給する。現在位置検出部12
は、GPSや車速センサ、方位センサなどで構成され、
車両の現在位置を検出して制御部14に供給する。
ュータで構成され、ナビゲーションに必要な各種制御を
実行するとともに、マイク10から入力されたユーザの
発声データを解析して目的地を設定する。本実施形態で
は、この制御部14が第1音声解析手段、第2音声解析
手段として機能するとともに、音声データベース18の
内、解析に使用するデータを切り替える切替手段として
機能する。
ーザの発声データを解析する際に発声データと比較すべ
き音声データを記憶するもので、階層構造を有してい
る。制御部14は、適宜この音声データベース18にア
クセスして発声データを解析する。音声データベース1
8は、例えばCD−ROMやDVD等で構成される。
に必要な地図データ(表示用地図データ及び経路探索用
地図データ)を記憶しており、制御部14は検出された
現在位置周辺の地図データを地図データ記憶部20から
読み出して表示部24に表示し、あるいは発声データを
解析することで得られた目的地に至る経路を経路探索用
地図データを用いて探索し、推奨経路として表示部24
に表示する。もちろん、推奨経路はスピーカから音声で
報知してもよい。地図データ記憶部20は、例えばCD
−ROMやDVD等で構成される。
入力した発声データを記憶するもので、制御部14はこ
の発声データ記憶部22に記憶された発声データを読み
出すことで、ユーザに対して再度の発声を要求すること
なく発声データの複数回の解析を行うことができる。発
声データ記憶部22は、例えば半導体メモリで構成する
ことができる。
れた地図データのスクロールや、音声によらない手動の
目的地設定等の各種入力操作に用いられる。
造が示されている。音声データベースは、全国レベルの
認識グラマー辞書、都道府県レベルの認識グラマー辞
書、市町村レベルの認識グラマー辞書の3階層から構成
されている。なお、「グラマー辞書」とは、制御部14
で発声データを解析する際に用いられるグラマー手法に
おける音声データの集合であり、グラマー手法について
は後述する。全国レベルの認識グラマー辞書には日本全
国の主要な地名や名前のデータが記憶され、都道府県レ
ベルの認識グラマー辞書には各都道府県毎に区分されて
その都道府県内の地名や名前のデータが記憶され、市町
村レベルの認識グラマー辞書には各市町村毎に区分され
てその市町村内の地名や名前のデータが記憶されてい
る。
データを読み出して利用するかは、検出された現在位置
及び発声データの解析結果に応じて制御部14が決定す
る。具体的には、例えば車両の現在位置が静岡県裾野市
である場合には、制御部14は音声データベース18内
の都道府県レベルの認識グラマー辞書として静岡県を指
定し、市町村レベルの認識グラマー辞書として裾野市及
びその近隣の市を指定する。そして、車両が移動して車
両の現在位置が東京都千代田区となった場合には、制御
部14は都道府県レベルの認識グラマー辞書として東京
都を指定し、市町村レベルの認識グラマー辞書として千
代田区及びその近隣の区を指定する。現在位置に応じた
音声データベースを指定する利点は、現在位置周辺を目
的地として発声した場合に、迅速に解析して認識できる
点である。また、制御部14は、発声データの解析結果
に応じて音声データベース18の利用データを切り替え
る。例えば、発声データの解析により三島市が対象とな
っていることが分かれば、市町村レベルの認識グラマー
辞書を三島市に切り替えて解析を続行する。
処理フローチャートが示されている。まず、ユーザが発
声して目的地を入力する(S101)。発声の形態とし
ては、例えば「みしましの**しょうてん(三島市の*
*商店)」や、「みしまえきのちかくのちゅうしゃじょ
うにいきたい(三島駅の近くの駐車場に行きたい)」な
どである。マイク10から入力されたこれらの発声デー
タは、発声データ記憶部22に記憶されるとともに(S
102)、制御部14は入力した発声データをグラマー
手法を用いて解析する(S103)。
グラマー手法とは、認識させたい語の並びを予め定義し
て認識させる手法であり、例えば文の並びを<a><b
><c>とし、<a>として「今日は」あるいは「明日
は」あるいは「あさっては」を候補とし、<b>として
「天気は」あるいは「天気が」を候補とし、<c>とし
て「いい」あるいは「悪い」を候補として、発声データ
「今日は天気がいい」や「今日は天気が悪い」や「明日
は天気がいい」などを認識するものである。本実施形態
では、目的地認識を行うために、以下のような語の並び
(フレーズと称する)を用いている。
end>? 基本フレーズ4=<地名>の<名前>の<NULL>?
<名前><end>? 基本フレーズ5=<名前>の<NULL>?<名前><
end>? 基本フレーズ6=<地名><方向><end>? 但し、<地名>は住所あるいはエリアを表す語句で、住
所は「しずおか」や「しずおかけん」等であり、エリア
は「いず」や「ぼうそう」等である。また、<end>
は文の終わりを示す語句で、「にいきたい」「へいきた
い」「にとめたい」「にかえる」「にいく」「たのむ」
「まで」「までたのみ」「へ」等である。<NULL>
は範囲や程度を表す語句で、「ちかくの」「しゅうへん
の」「いちばん」「いちばんちかくの」「ちかい」「や
すい」「うまい」「おいしい」「いつもの」「そばの」
「ここら」等である。この<NULL>データは目標物
を設定する際に必要となるデータでもある。<名前>は
名称や施設を表す語句で「**えき」「**ちゅうしゃ
じょう」「**ごるふじょう」「**こうえん」「**
いんたーちぇんじ」「**びょういん」「**みなと」
「**かわ」「**かんこうち」「**おんせん」等で
ある。<方向>は「**ほうめん」等である。また、<
>の後の?は、その<>の語句が必須ではなく、なくて
も良いことを示す。したがって、基本フレーズ1には、
「しずおかにいきたい(静岡に行きたい)」の他、「し
ずおか」も含まれる。上述の例における「みしましの*
*商店(三島市の**商店)」は基本フレーズ3に該当
し、「みしまえきのちかくのちゅうしゃじょう(三島駅
の近くの駐車場)」は基本フレーズ5に該当する。
発声データを解析すると、少なくとも一部は解析できる
ものの、残りのデータ(特に発声の後半部分のデータ)
が解析できない場合が生じる。具体的には、上述の発声
データ「みしましの**しょうてん(三島市の**商
店)」を解析した場合、「みしまし(三島市)」は全国
レベルの認識グラマー辞書には存在して解析可能である
が、「**しょうてん(**商店)」という名前は市町
村レベルの認識グラマー辞書でなければ解析できず、し
かも市町村レベルの認識グラマー辞書が三島市以外の市
町村に指定されている場合(例えば車両の現在位置が裾
野市である場合には、市町村レベルの認識グラマー辞書
のデフォルト値は裾野市)には発声データを解析できな
い。そこで、解析して得られた結果を用いて音声データ
ベース18のグラマー辞書を切り替える(S104)。
上述の場合、「みしまし(三島市)」が得られているの
で、市町村レベルの認識グラマー辞書を三島市用のデー
タに切り替える。
102の処理で発声データ記憶部22に記憶した発声デ
ータを読み出し、再度解析する(S105)。このと
き、市町村レベルの認識グラマー辞書は三島市用のデー
タとなっているため、発声データの内の「**しょうて
ん(**商店)」を解析することができる。発声データ
のすべての解析が終了すると、制御部14は解析結果を
用いて地図データから目的地を検索する(S106)。
この例では、三島市用の地図データを読み出して**商
店を検索することになる。
のちゅうしゃじょうにいきたい(三島駅の近くの駐車場
に行きたい)」の場合でも、同様にしてS103で解析
を行い、アクティブな認識グラマー辞書(この場合は全
国レベル)がヒットして「みしまえき(三島駅)」「ち
かくの(近くの)」「ちゅうしゃじょう(駐車場)」を
解析することができる。そして、市町村レベルの認識グ
ラマー辞書を三島市用のデータに切替え(S104)、
発声データ記憶部22に記憶された発声データを読み出
して再度解析を行う(S105)。なお、この例の場合
では、1回目の解析で全ての発声データを解析できるの
で、2回目の解析結果は1回目の解析結果と同一であ
る。もちろん、発声データが「みしまえきのちかくの*
*ちゅうしゃじょうにいきたい(三島駅の近くの**駐
車場に行きたい)」である場合には、1回目の解析では
「**ちゅうしゃじょう(**駐車場)」の部分は解析
不能となり、音声データベースを切り替えた後の2回目
の解析で「**ちゅうしゃじょう」の部分も解析できる
ことになる。そして、<NULL>データである「近く
の」が存在するため、制御部14は<NULL>データ
の前に存在する<名前>データの解析結果を目標物とし
て処理し、地図データ上でこの目標物(三島駅)の座標
(X、Y)から近い順に駐車場を検索する(S10
6)。
データを記憶しておき、1回目の解析で解析できなかっ
た場合でも音声データベースを自動的に切り替えて再度
解析を行うので、音声認識の精度が向上するとともに、
ユーザは1回の発声で目的地を設定することができる。
タが存在する場合には、その前のデータを目標物とみな
して地図データから検索し、その目標物周辺の地図デー
タを検索することで本来の目的地を検索することができ
るので、ユーザは自然な発声で所望の目的地を容易に設
定することが可能となる。
存在する場合には、認識率を向上させるためにユーザに
対してより多くの情報を求めることが好適である。例え
ば、ユーザが「とよた」と発声した場合、スピーカから
「とよたしですか、とよたちょうですか」と問い合わせ
る等である。
られたデータの種類を表すアノテーションを付与し、地
図データベースの検索を容易とする等の技術は当然なが
ら本実施形態においても用いることができる。例えば、
地名の中の県名にはアノテーションとして数字の11、
市名には数字の13、エリアには42を付与し、名前に
はアノテーションとして数字の32を付与する等であ
る。この場合、<NULL>データの内の「ちかい」や
「ちかくの」にはアノテーションとして数字を付与する
(例えば91)一方、<NULL>データの内の「うま
い」や「やすい」にはアノテーションを付与しないのが
好適である。これらは目的地の設定(地図データの検
索)にとって不要な語句だからである。
ーザの発声の負担を軽減してより簡易に所望のデータ、
例えばナビゲーション用の目的地を音声で設定すること
ができる。
明図である。
16 操作部、18音声データベース、20 地図デー
タ記憶部、22 発声データ記憶部、24表示部。
Claims (4)
- 【請求項1】 ユーザの発声データを記憶する発声デー
タ記憶手段と、 前記発声データと音声データベース内の音声データとを
比較することにより前記発声データの少なくとも一部を
解析する第1音声解析手段と、 前記第1音声解析手段で得られた解析データに基づいて
前記音声データベースを切り替える切替手段と、 前記発声データ記憶手段に記憶された発声データを読み
出し、前記切替手段で切り替えられた音声データベース
内の音声データとを比較することにより前記発声データ
を再解析する第2音声解析手段と、 を有することを特徴とする音声認識装置。 - 【請求項2】 請求項1記載の装置において、 前記発声データはナビゲーション用の目的地データであ
り、 前記第2音声解析手段で所定のデータが得られた場合
に、該データを前記目的地用の目標物として処理する手
段を有することを特徴とする音声認識装置。 - 【請求項3】 ユーザの発声データを記憶する記憶ステ
ップと、 前記ユーザの発声データと音声データベース内の音声デ
ータとを比較することにより前記音声データの少なくと
も一部を解析する第1解析ステップと、 前記第1解析ステップで得られた解析データに基づいて
前記音声データベースを切り替える切替ステップと、 前記記憶ステップで記憶された発声データを読み出し、
読み出された発声データと前記切替ステップで切り替え
られた音声データベース内の音声データとを比較するこ
とにより再解析する第2解析ステップと、 を有することを特徴とする音声認識方法。 - 【請求項4】 請求項3の方法において、 前記発声データはナビゲーション用の目的地データであ
り、 前記第2解析ステップにおいて所定のデータが得られた
場合に、該データを前記目的地用の目標物として処理す
る処理ステップをさらに有することを特徴とする音声認
識方法。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
JP10354995A JP2000181485A (ja) | 1998-12-14 | 1998-12-14 | 音声認識装置及び方法 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
JP10354995A JP2000181485A (ja) | 1998-12-14 | 1998-12-14 | 音声認識装置及び方法 |
Publications (1)
Publication Number | Publication Date |
---|---|
JP2000181485A true JP2000181485A (ja) | 2000-06-30 |
Family
ID=18441272
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
JP10354995A Pending JP2000181485A (ja) | 1998-12-14 | 1998-12-14 | 音声認識装置及び方法 |
Country Status (1)
Country | Link |
---|---|
JP (1) | JP2000181485A (ja) |
Cited By (8)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
JP2003005786A (ja) * | 2001-06-18 | 2003-01-08 | Oki Electric Ind Co Ltd | 音声対話インターフェース装置 |
JP2003108184A (ja) * | 2001-04-24 | 2003-04-11 | Microsoft Corp | 入力モードバイアスを適用するための方法およびシステム |
WO2004029933A1 (en) * | 2002-09-25 | 2004-04-08 | Toyota Infotechnology Center Co., Ltd. | Multiple pass speech recognition method and system |
US7328155B2 (en) | 2002-09-25 | 2008-02-05 | Toyota Infotechnology Center Co., Ltd. | Method and system for speech recognition using grammar weighted based upon location information |
WO2013069172A1 (ja) * | 2011-11-10 | 2013-05-16 | 三菱電機株式会社 | ナビゲーション装置および方法 |
JPWO2013069172A1 (ja) * | 2011-11-10 | 2015-04-02 | 三菱電機株式会社 | ナビゲーション装置および方法 |
US9899028B2 (en) | 2014-08-21 | 2018-02-20 | Honda Motor Co., Ltd. | Information processing device, information processing system, information processing method, and information processing program |
JP7488382B2 (ja) | 2018-11-16 | 2024-05-21 | グーグル エルエルシー | 自動音声認識のためのコンテキスト非正規化 |
-
1998
- 1998-12-14 JP JP10354995A patent/JP2000181485A/ja active Pending
Cited By (12)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
JP2003108184A (ja) * | 2001-04-24 | 2003-04-11 | Microsoft Corp | 入力モードバイアスを適用するための方法およびシステム |
JP2006276867A (ja) * | 2001-04-24 | 2006-10-12 | Microsoft Corp | 入力モードバイアスを適用するための方法およびシステム |
JP2003005786A (ja) * | 2001-06-18 | 2003-01-08 | Oki Electric Ind Co Ltd | 音声対話インターフェース装置 |
WO2004029933A1 (en) * | 2002-09-25 | 2004-04-08 | Toyota Infotechnology Center Co., Ltd. | Multiple pass speech recognition method and system |
US7184957B2 (en) | 2002-09-25 | 2007-02-27 | Toyota Infotechnology Center Co., Ltd. | Multiple pass speech recognition method and system |
US7328155B2 (en) | 2002-09-25 | 2008-02-05 | Toyota Infotechnology Center Co., Ltd. | Method and system for speech recognition using grammar weighted based upon location information |
WO2013069172A1 (ja) * | 2011-11-10 | 2013-05-16 | 三菱電機株式会社 | ナビゲーション装置および方法 |
CN103917847A (zh) * | 2011-11-10 | 2014-07-09 | 三菱电机株式会社 | 导航装置及方法 |
US8965697B2 (en) | 2011-11-10 | 2015-02-24 | Mitsubishi Electric Corporation | Navigation device and method |
JPWO2013069172A1 (ja) * | 2011-11-10 | 2015-04-02 | 三菱電機株式会社 | ナビゲーション装置および方法 |
US9899028B2 (en) | 2014-08-21 | 2018-02-20 | Honda Motor Co., Ltd. | Information processing device, information processing system, information processing method, and information processing program |
JP7488382B2 (ja) | 2018-11-16 | 2024-05-21 | グーグル エルエルシー | 自動音声認識のためのコンテキスト非正規化 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
EP1233407B1 (en) | Speech recognition with spatially built word list | |
US5797116A (en) | Method and apparatus for recognizing previously unrecognized speech by requesting a predicted-category-related domain-dictionary-linking word | |
US9805722B2 (en) | Interactive speech recognition system | |
US20140100847A1 (en) | Voice recognition device and navigation device | |
JP4116233B2 (ja) | 音声認識装置ならびにその方法 | |
EP1197951B1 (en) | Handling homophones in a spoken query system | |
US10515634B2 (en) | Method and apparatus for searching for geographic information using interactive voice recognition | |
JP2013512476A (ja) | 複数の辞書を用いたスピーチ認識 | |
EP2660562A1 (en) | Route Guidance Apparatus and Method with Voice Recognition | |
JPH06208389A (ja) | 情報処理方法及び装置 | |
JP3462322B2 (ja) | テキスト音声読み上げシステム | |
JP2000181485A (ja) | 音声認識装置及び方法 | |
JPH0764480A (ja) | 車載情報処理用音声認識装置 | |
JP4262837B2 (ja) | 音声認識機能を用いたナビゲーション方法 | |
WO2014199428A1 (ja) | 候補告知装置、候補告知方法及び候補告知用プログラム | |
JP3296783B2 (ja) | 車載用ナビゲーション装置および音声認識方法 | |
JP5455355B2 (ja) | 音声認識装置及びプログラム | |
JP3645104B2 (ja) | 辞書検索装置及び辞書検索プログラムを記録した記録媒体 | |
JPH0850698A (ja) | 音声対話型ナビゲーション装置 | |
JP3830124B2 (ja) | 音声認識装置 | |
JP3759313B2 (ja) | 車載用ナビゲーション装置 | |
KR20100126992A (ko) | 명령횟수를 줄일 수 있는 음성 인식을 이용한 주소 검색 방법 | |
JP2003005783A (ja) | ナビゲーションシステムおよびその目的地入力方法 | |
JP2000089782A (ja) | 音声認識装置と方法、ナビゲーションシステム、及び記録媒体 | |
JP2005031260A (ja) | 情報処理方法及び装置 |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
A977 | Report on retrieval |
Free format text: JAPANESE INTERMEDIATE CODE: A971007 Effective date: 20040130 |
|
A131 | Notification of reasons for refusal |
Free format text: JAPANESE INTERMEDIATE CODE: A131 Effective date: 20040210 |
|
A521 | Request for written amendment filed |
Free format text: JAPANESE INTERMEDIATE CODE: A523 Effective date: 20040412 |
|
RD04 | Notification of resignation of power of attorney |
Free format text: JAPANESE INTERMEDIATE CODE: A7424 Effective date: 20040412 |
|
A02 | Decision of refusal |
Free format text: JAPANESE INTERMEDIATE CODE: A02 Effective date: 20040713 |