JP4520555B2 - 音声認識装置および音声認識ナビゲーション装置 - Google Patents
音声認識装置および音声認識ナビゲーション装置 Download PDFInfo
- Publication number
- JP4520555B2 JP4520555B2 JP25598399A JP25598399A JP4520555B2 JP 4520555 B2 JP4520555 B2 JP 4520555B2 JP 25598399 A JP25598399 A JP 25598399A JP 25598399 A JP25598399 A JP 25598399A JP 4520555 B2 JP4520555 B2 JP 4520555B2
- Authority
- JP
- Japan
- Prior art keywords
- recognition
- word
- speech recognition
- speech
- storage means
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Expired - Fee Related
Links
Images
Landscapes
- Navigation (AREA)
- Traffic Control Systems (AREA)
Description
【発明の属する技術分野】
本発明は、音声認識、および音声認識ナビゲーション装置に関する。
【0002】
【従来の技術】
自動車の現在地を表示し、地図の広域・詳細表示を行い、目的地までの進行方向および残距離を誘導する車載用ナビゲーション装置(以下、ナビゲーション装置と言う)が知られている。また、ナビゲーション装置の一機能として、運転中のドライバからの操作指示を音声で行い、ドライバの安全性を高めるいわゆる音声認識ナビゲーション装置も知られている(例えば特開平09−292255号公報)。
【0003】
音声認識ナビゲーション装置で使用する音声認識ソフトは、一般的に、発話スイッチ等を押し、その後、ユーザが発話した音データと認識辞書内の認識語との相関値を算出する。その結果、相関値が最大になった認識語を認識結果と判断する。
【0004】
【発明が解決しようとする課題】
しかし、発話スイッチを押してすぐに発話する場合誤認識の確率が高くなると言う問題があった。また、実際の発話が漢字の読みとは微妙に異なる言葉で誤認識の確率が高くなると言う問題があった。
【0005】
本発明は、実際の発話が漢字の読みとは微妙に異なる場合にも、確実に音声認識を成功させることが可能な音声認識装置、および、音声認識ナビゲーション装置を提供する。
【0006】
【課題を解決するための手段】
請求項1の発明は、音声入力手段と、音声認識対象の言葉に対応しその言葉の読みを表す認識語を格納する格納手段と、音声入力手段により得られた音データと認識語に基づき生成された音声認識用データとを比較して音声認識処理を行う音声認識処理手段とを備えた音声認識装置に適用され、格納手段は第1の格納手段と第2の格納手段を有し、第1の格納手段には、音声認識対象の言葉の全体の読みに対応する第1の認識語が予め格納され、音声認識処理手段が第1の認識語を使用して音声認識処理を行うときに、全体の読みに五十音のえ段の音節の後に「い」の音節が並ぶ場合、この「い」の音節を「え」の音節に置き換える法則に基づき第2の認識語を生成して第2の格納手段に格納する生成手段をさらに備え、音声認識処理手段は、第1の格納手段に格納された第1の認識語と第2の格納手段に格納された第2の認識語の双方とも音声認識対象の言葉の認識語として使用することを特徴とするものである。
請求項2の発明は、音声入力手段と、音声認識対象の言葉に対応しその言葉の読みを表す認識語を格納する格納手段と、音声入力手段により得られた音データと認識語に基づき生成された音声認識用データとを比較して音声認識処理を行う音声認識処理手段とを備えた音声認識装置に適用され、格納手段は第1の格納手段と第2の格納手段を有し、第1の格納手段には、音声認識対象の言葉の全体の読みに対応する第1の認識語が予め格納され、音声認識処理手段が第1の認識語を使用して音声認識処理を行うときに、全体の読みに五十音のお段の音節の後に「う」の音節が並ぶ場合、この「う」の音節を「お」の音節に置き換える法則に基づき第2の認識語を生成して第2の格納手段に格納する生成手段をさらに備え、音声認識処理手段は、第1の格納手段に格納された第1の認識語と第2の格納手段に格納された第2の認識語の双方とも音声認識対象の言葉の認識語として使用することを特徴とするものである。
請求項3の発明は、請求項1または2記載の音声認識装置において、認識語は長音符号「ー」を含む仮名により指定され、第2の認識語において、置き換える音節を長音符号「ー」により置き換えることを特徴とするものである。
請求項4の発明は、請求項1から3のいずれか1項に記載の音声認識装置において、生成手段は、1つの第1の認識語に法則に基づき置き換える音節が複数個存在する場合、この複数個の組み合わせによる複数の第2の認識語を生成して第2の格納手段に格納することを特徴とするものである。
請求項5の発明は、音声認識ナビゲーション装置に適用され、請求項1から4のいずれか1項記載の音声認識装置と、地図情報を格納する地図情報格納手段と、少なくとも音声認識装置の認識結果と地図情報とに基づき、道案内のための制御を行う制御手段とを備えることを特徴とするものである。
【0007】
なお、上記課題を解決するための手段の項では、分かりやすく説明するため実施の形態の図と対応づけたが、これにより本発明が実施の形態に限定されるものではない。
【0008】
【発明の実施の形態】
−第1の実施の形態−
図1は、本発明の車載用ナビゲーションシステムの第1の実施の形態の構成を示す図である。車載用ナビゲーションシステムは、ナビゲーション装置100および音声ユニット200により構成される。第1の実施の形態のナビゲーションシステムは、施設名称が長い場合にも確実に音声認識に成功させるようにしたものである。
【0009】
ナビゲーション装置100は、GPS受信機101と、ジャイロセンサ102と、車速センサ103と、ドライバ104と、CPU105と、RAM106と、ROM107と、CD−ROMドライブ108と、表示装置109と、バスライン110等から構成される。
【0010】
音声ユニット200は、マイク201と、A/D変換部202と、D/A変換部203と、アンプ204と、スピーカ205と、発話スイッチ206と、ドライバ207と、CPU208と、RAM209と、ROM210と、バスライン212等から構成される。ナビゲーション装置100と音声ユニット200は、通信ライン211を介して接続される。
【0011】
GPS受信機101は、GPS(Global Positioning System)衛星からの信号を受信し、自車の絶対位置、絶対方位を検出する。ジャイロセンサ102は、例えば振動ジャイロで構成され、車のヨー角速度を検出する。車速センサ103は、車が所定距離走行毎に出すパルス数に基づき、車の移動距離を検出する。ジャイロセンサ102と車速センサ103により、車の2次元的な移動が検出できる。ドライバ104は、GPS受信機101、ジャイロセンサ102、車速センサ103からの信号をバスライン110に接続するためのドライバである。すなわち、それぞれのセンサ出力をCPU105が読むことができるデータに変換する。
【0012】
CPU105は、ROM107に格納されたプログラムを実行することによりナビゲーション装置100全体を制御する。RAM106は揮発性メモリであり、ワークデータ領域を確保する。ROM107は、不揮発性メモリで、上述した制御プログラム等を格納する。CD−ROMドライブ108は、CD−ROMを記録媒体とし、ベクトル道路データ等の道路地図情報を格納する。CD−ROMドライブは、DVDを記録媒体とするDVDドライブやその他の記録装置であってもよい。表示装置109は、車の現在地および周辺の道路地図、目的地までのルート情報、次の誘導交差点情報等を表示する。例えば、液晶表示装置あるいはCRTで構成される。バスライン110は、ナビゲーション装置100のCPU105等の構成要素をバス接続するラインである。
【0013】
音声ユニット200は、音声認識、音声合成等、音声に関する処理を行う。発話スイッチ206は、ユーザが押すことにより音声認識の開始を指示するスイッチである。発話スイッチ206が押された後所定時間、音データの入力がマイク201を介して行われる。入力された音は、A/D変換部202およびドライバ207により、デジタル音声データに変換される。
【0014】
音声ユニット200のROM210には、音声認識ソフト(プログラム)、音声合成ソフト(プログラム)、音声認識辞書(以下、単に認識辞書と言う)、音声合成辞書(以下、単に合成辞書と言う)等が格納されている。音声認識ソフトは、デジタル音声データと、認識辞書内の全認識語との相関値を算出し、最も相関値の高い認識語を認識結果として求める。音声合成ソフトは、指定した文章をスピーカから発声させるためのデータを算出する。両ソフトウェアについては、公知な内容であるので詳細な説明は省略する。
【0015】
認識辞書は、音声認識の対象となる言葉(語)を複数集めたひとかたまりのデータである。具体的には、ひらがなやカタカナやローマ字(実際にはその文字コード)で指定されたそれぞれの言葉の読みデータが格納されている。認識辞書に格納された言葉を認識語という。各認識語には、読みデータの他その言葉の文字データや、施設名であれば座標情報などの情報が付帯している。認識辞書の詳細については後述する。合成辞書は、音声合成のために必要な音源データ等が格納されている。
【0016】
発話終了時、CPU208は、RAM209、ROM210等を使い音声認識ソフトを実行し、デジタル音声データの音声認識を行う。音声認識ソフトは、認識辞書内の認識語の読みデータ(ひらがなやカタカナやローマ字で指定されたデータ)を参照しながらその言葉の音声認識用データを生成し、デジタル音声データとの相関値を算出する。すべての認識語についてデジタル音声データとの相関値を算出し、相関値が最も高くかつ所定の値以上の認識語を決定して音声認識を完了する。その認識語にリンクしたエコーバック語を音声合成ソフトを使い、発声用のデータに変換する。その後、D/A変換部203、アンプ204、スピーカ205を用い、認識結果をエコーバック出力させる。
【0017】
もし、算出したどの相関値も所定の値以下である場合は、音声認識できなかったとしてナビの操作を行わないようにする。具体的には、「プップー」等の認識失敗を意味するビープ音を鳴らすことや、「認識できません」と応答(エコーバック)させる。バスライン212は、音声ユニット200のバスラインである。
【0018】
次に、認識辞書について詳細に説明する。図2は、10件のゴルフ場名に関する認識語を格納したゴルフ場認識辞書を示す図である。認識語は、その施設名(図2はゴルフ場名)に関する読みデータである。図2では、分かりやすいように漢字を含む文字で記載しているが、ひらがなあるいはカタカナあるいはローマ字で指定され対応する文字コードが格納される。各認識語には付帯情報がついている。付帯情報は、その施設の地図上の座標情報、次に読み込む認識辞書の番号、施設の諸属性情報、その施設名の表示用文字データ等の各種の情報が格納されている。図2では、代表して座標情報のみを示している。
【0019】
図2のゴルフ場認識辞書の例で、長いゴルフ場名(言葉)の場合に認識に失敗する確率が高いことについて分析をする。例えば、ユーザが図2の上から3番目のゴルフ場名「御田原ゴルフ倶楽部松田コース」を発話して、それを音声認識させる場合を考えてみる。すべてのユーザがこの長い言葉を一気に発話するとは限らない。中には、途中で一寸休んでから話すユーザもいる。例えば、ユーザが「御田原ゴルフ倶楽部」でいったん言いよどみ、その後「松田コース」と発話したと仮定する。もし言いよどんだ時間が短い時は、音声認識ソフトは「御田原ゴルフ倶楽部松田コース」という音データを一つの入力として扱う。そのため、正しく認識でき問題はない。
【0020】
ところが、音声認識ソフトは、一般に発話開始から発話が無くなった時点で発話終了と判断する。言いよどみの時間が長いときは、言いよどんだ時点で発話が終了したと判断し、言いよどみ以降再開した発話データは捨てられる。すなわち「御田原ゴルフ倶楽部」という音データだけを入力として使うことになる。その結果、特に類似語が多数存在する場合は、誤認識を犯す確率が非常に高くなる。
【0021】
以上の分析の結果、第1の実施の形態では、図2のゴルフ場認識辞書について以下に説明するようにする。上述の「御田原ゴルフ倶楽部松田コース」では、ほとんどの場合「御田原ゴルフ倶楽部」と「松田コース」の間で一寸休むと思われる。そこで「御田原ゴルフ倶楽部松田コース」に対して「御田原ゴルフ倶楽部」という短い認識語を追加する。付帯情報は「御田原ゴルフ倶楽部松田コース」と同じ座標情報3とする。このように、正規の認識語について準備する別な言い回しの認識語を「言い替え語」と呼ぶ。
【0022】
図3は、図2のゴルフ場認識辞書に言い替え語を追加した場合の一例を示す図である。「厚本国際カントリー倶楽部」については「厚本国際」という言い替え語を、「御田急藤沢ゴルフクラブ」については「御田急藤沢」という言い替え語を、「御田原湯本カントリークラブ」については「御田原湯本」という言い替え語を、「大厚本カントリー倶楽部本コース」については「大厚本カントリー倶楽部」という言い替え語などを追加し同一の認識辞書に格納する。
【0023】
例えば「大厚本カントリー倶楽部本コース」と発話したとき、言いよどみの結果「大厚本カントリー倶楽部」としか音が入力できなかったとしても、「大厚本カントリー倶楽部」という短い認識語を準備しているため、認識に成功させることができる。このように、長い言葉に関して、正規の認識語から区切りのよい所までの言い替え語を準備し、認識辞書に追加しておけば、途中でユーザが言いよどんだ時でも、確実に認識に成功させることができる。これは、認識辞書の容量が大きくなり、認識実行時間が長くなるというデメリットが生じるが、長い施設名称でも言いよどみによる誤認識を確実に低減することができるという大きなメリットが生じる。
【0024】
なお、言い替え語は、所定の長さ以上の長い言葉だけを選択して準備するようにしもよい。また、言葉の長さにかかわらず経験的に言いよどみが起こりそうな言葉のみを選択して準備するようにしてもよい。さらに、正規の認識語に対して長さの異なる複数個の言い替え語を準備するようにしてもよい。
【0025】
短い言い替え語を作成する場合の区切りの決め方は、前もって実験や経験により言いよどみが最も起こりそうなところを考察し決めればよい。また、長い言葉は一般に複数の短い言葉の集まりであるため、例えば、全体の読みのちょうど半分の位置に最も近い短い言葉の区切りの位置をその区切りとすることもできる。あるいは、無条件に先頭から数個目の短い言葉の区切りで決めることも考えられる。さらには、無条件に先頭から数音節のところで区切るようにしてもよい。
【0026】
図4は、音声ユニット200において、音声認識を行う制御のフローチャートを示す図である。制御プログラムはROM210に格納され、CPU208がその制御プログラムを実行する。ナビゲーション装置100および音声ユニット200の電源オンにより本ルーチンはスタートする。
【0027】
ステップS1では、発話スイッチ206が押されたかどうかを判断し、押されている場合はステップS2へ進む。押されていない場合は、本ルーチンを終了する。ユーザは発話スイッチ206を押した後、一定時間内に例えば図2に示されたゴルフ場名を発話する。ステップS2では、マイク201からの音声信号をデジタル音声データに変換する。ステップS3では、発話が終了したかどうかを判断する。発話の終了は、一定時間音声信号が途切れた場合を発話の終了と判断する。発話が終了したと判断した場合はステップS4に進み、発話がまだ終了していないと判断した場合はステップS2に戻る。
【0028】
ステップS4では、ステップS2で取得したデジタル音声データと図3の認識辞書内の全認識語について相関値を算出し、ステップS5に進む。認識辞書は、図2の認識辞書に言い替え語が追加された図3の認識辞書を使用する。ステップS5では、算出された相関値のうち最も高い相関値が所定の値以上かどうかを判断する。所定の値以上であれば、その語が認識できたとしてステップS6に進む。ステップS6では、相関値の最も高かった認識語を音声によりエコーバックする。
【0029】
さらに、ステップS6では該当ゴルフ場名(施設名称)が認識できたことをナビゲーション装置100に知らせた後、処理を終了する。ナビゲーション装置100に知らせるときは、付帯情報の文字情報および地図上の座標を知らせる。ナビゲーション装置100は、通信ライン211を介して送信されてきた該当ゴルフ場(施設)の地図上の座標データとCD−ROMドライブ108の地図情報等に基づき、該当施設近辺の道路地図を表示装置109に表示する。
【0030】
一方、ステップS5において、最も高い相関値が所定の値未満であれば発話された言葉が認識できなかったとしてステップS7に進む。ステップS7では、「認識できません」と音声によりエコーバックし、処理を終了する。ナビゲーション装置100においても何も処理をしない。
【0031】
以上のようにして、音声認識を行うとき言い替え語が追加された認識辞書を使用するようにしている。これにより、長い施設名などを発話するとき、途中で言いよどんでも、その長い施設名の音声認識に確実に成功することができる。
【0032】
−第2の実施の形態−
第2の実施の形態の車載用ナビゲーションシステムは、発話スイッチを押した後すぐに発話した場合でも確実に音声認識に成功させるようにしたものである。第2の実施の形態の車載用ナビゲーションシステムの構成は、図1の第1の実施の形態の車載用ナビゲーションシステムと同一であるので、その説明を省略する。
【0033】
第1の実施の形態とは認識辞書について異なるため、以下、その認識辞書について説明する。図5は、5件の駅名に関する認識語を格納した駅名認識辞書を示す図である。各認識語には付帯情報がついている。認識語は、その施設名(駅名)に関する読みデータである。認識語はひらがなあるいはカタカナあるいはローマ字で指定されその文字コードが格納される。図5では、ひらがなの場合を示している。仮名1字で示される音を1音節という。付帯情報は、ナビゲーション装置に表示させる表示データに関する情報(図5の場合は駅名の表示用文字データ)、施設の地図上の座標に関する情報、ナビ操作コマンドに関する情報、エコーバックデータに関する情報などがある。図5では、代表して表示用文字データと座標情報を示している。
【0034】
図5の駅名認識辞書の例で、発話スイッチ206を押した後すぐに発話をする場合に認識に失敗する確率が高いことについて分析をする。
【0035】
音声認識ソフトは、一般的に、発話スイッチ206を押し、その後、ユーザが発話した音データと認識辞書内の全認識語との相関値を算出する。その結果、相関値が最大になった認識語を認識結果と判断する。音声認識ソフトは、発話スイッチ206が押された後マイク201を介した音声を受け付けるまで若干準備時間を要する。従って、ユーザが発話スイッチ206を押した後即座に発話したとき、最悪、発話した言葉の頭が若干抜ける場合がある。例えば「そうぶだいまえ」という駅名を発話スイッチ206を押した後即座に発話した場合、先頭語の「そ」の子音が抜け「おうぶだいまえ」と聞こえるように入力される場合がある。その結果、特に類似語が多数存在するときは、誤認識の確率が極めて高くなる。
【0036】
以上の分析の結果、第2の実施の形態では、図5の駅名認識辞書について以下に説明するようにする。例えば、「そうぶだいまえ」という駅名の認識語を考えたとき、先頭の「そ」を取りこぼした場合を想定する。この場合、上述のように「おうぶだいまえ」と聞こえる場合がある。そこで、先頭の「そ」の代わりにその母音である「お」で言い替えた「おうぶだいまえ」という認識語を認識辞書に追加する。付帯情報は、正規の「そうぶだいまえ」と同じ付帯情報をつける。これにより、発話スイッチ206を押した後即座に「そうぶだいまえ」と発話し、最悪先頭の子音が取りこぼされても確実に音声認識に成功する。なお、正規の認識語について準備する別な言い回しの認識語を「言い替え語」と呼ぶ。
【0037】
また、「おだきゅうさがみはら」という駅名の認識語を考え、先頭の「お」を取りこぼした場合を想定する。この場合「だきゅうさがみはら」と聞こえる場合がある。そこで、先頭の「お」を削除した「だきゅうさがみはら」という認識語の言い替え語を認識辞書に追加する。付帯情報は、正規の「おだきゅうさがみはら」と同じ付帯情報をつける。これにより、発話スイッチ206を押した後即座に「おだきゅうさがみはら」と発話し、最悪先頭の「お」が取りこぼされても確実に音声認識に成功する。
【0038】
図6は、図5の駅名辞書に言い替え語を追加した場合の一例を示す図である。言い替え語を作成する場合の規則として、例えば、先頭の語をその母音で言い替えること、特にその先頭が子音である場合にその母音に言い替えること、先頭から所定数の語を削除した言葉で言い替えること、先頭の語1語のみを削除した言葉で言い替えること、先頭の語が母音である場合にのみその母音を削除した言葉で言い替えることなどが考えられる。また、発話スイッチ206を押した後即座に発話したときに、実験によりあるいは経験的に聞こえる言い替え語を追加するようにしてもよい。正規の認識語に対して複数個の言い替え語を準備するようにしてもよい。なお、ここで「先頭の語」という場合の「語」は、五十音の1語(1音節)をいうものとする。
【0039】
第2の実施の形態の音声認識を行う制御のフローチャートは、使用する認識辞書を除き第1の実施の形態の図4と同じであるので、その説明を省略する。認識辞書は言い替え語が追加された図6の認識辞書を使用する。
【0040】
以上のようにして、正規の認識語の先頭の語あるいは先頭からいくつかの語を削除したり母音に言い替えたりした言い替え語を認識辞書に追加する。これにより、ユーザが発話スイッチ206をオンした後すぐに発話しても、その言葉の音声認識に確実に成功することが可能となる。
【0041】
−第3の実施の形態−
第3の実施の形態の車載用ナビゲーションシステムは、例えば「通り」を「とうり」と発話しても「とおり」と発話しても「とーり」と発話しても、確実に音声認識に成功させるようにしたものである。第3の実施の形態の車載用ナビゲーションシステムの構成は、図1の第1の実施の形態の車載用ナビゲーションシステムと同一であるので、その説明を省略する。
【0042】
第1の実施の形態とは認識辞書について異なるため、以下、その認識辞書について説明する。図7は、4件の駅名に関する認識語を格納した駅名認識辞書を示す図である。各認識語には付帯情報がついている。認識語は、その施設名(駅名)に関する読みデータである。認識語はひらがなあるいはカタカナあるいはローマ字で指定されその文字コードが格納される。図7では、カタカナの場合を示している。仮名1字で示される音を1音節という。付帯情報は、ナビゲーション装置に表示させる表示データに関する情報(図7の場合は駅名の表示用文字データ)、施設の地図上の座標に関する情報、ナビ操作コマンドに関する情報、エコーバックデータに関する情報などがある。図7では、代表して表示用文字データと情報番号を示している。
【0043】
図7の駅名認識辞書の例で、例えば「明大前」を発話をする場合に認識に失敗する確率が高いことについて分析をする。「明大前」の漢字の読みは「メイダイマエ」であるので、「メイダイマエ」の認識語が準備されている。しかし、「明大前」を「メエダイマエ」あるいは「メーダイマエ」と発話する人も多い。そのような場合、「メイダイマエ」の認識語との相関値が低くなり、特に類似語が多数存在するときは、誤認識の確率が高くなる。
【0044】
以上の分析の結果、第3の実施の形態では、図7の駅名認識辞書について以下に説明するようにする。例えば、上記の「明大前」という駅名の認識語を考えたとき、「メイダイマエ」と「メエダイマエ」の2つの認識語を準備する。「調布」という駅名の認識語については、「チョウフ」と「チョオフ」の2つの認識語を準備する。なお、正規の読みの認識語について準備する別な言い回しの認識語を「言い替え語」と呼ぶ。言い替え語の付帯情報は、それぞれ正規の認識語と同じものが指定される。
【0045】
上記より、次のような法則が見いだされる。「エ」「ケ」「セ」「テ」「ネ」等の五十音のえ段の語(音節)の後に「イ」が並ぶ読みの言葉の場合、その「イ」を「エ」に置き換えたように発話する人が多い。また、「オ」「コ」「ソ」「ト」「ノ」等のお段の語(音節)の後に「ウ」が並ぶ読みの言葉の場合、その「ウ」を「オ」に置き換えたように発話する人が多い。
【0046】
従って、この法則に従った認識語を追加するようにする。図8の駅名辞書は、図7の駅名辞書に対して上記の法則により認識語を追加したものである。これにより、「明大前」を、文字通りの読み「メイダイマエ」とは異なり、会話で一般に発話される「メエダイマエ」と発話しても、確実に「明大前」の駅名が認識できる。
【0047】
なお、「エ」あるいは「オ」に置き換える代わりに、長音符号「ー」に置き換えるようにしてもよい。あるいは、「エ」または「オ」に置き換えた認識語と、長音符号「ー」に置き換えた認識語の両方を追加するようにしてもよい。
【0048】
上記は、読みの指定をひらがなやカタカナで行う音声認識システムの場合である。しかし、ローマ字で指定する場合も、同様に考えればよい。例えば、「明大前」は、ローマ字では正規の認識語として「meidaimae」と指定する。「e」に続く「i」を「e」に置き換えて「meedaimae」という認識語を追加する。「調布」については、正規の認識語として「chouhu」を指定する。「o」に続く「u」を「o」に置き換えて「choohu」とする。
【0049】
次に、「東名高速道路」という言葉について考える。この読みは「トウメイコウソクドウロ」であるため、上記の法則を適用すると、置き換えの対象となる部分は4箇所ある。この4箇所の組み合わせを考えると、新たに15個の認識語を追加する必要が生じる。このため、認識辞書の大きさが膨大になり膨大な容量のROM210が必要になる。この対策として、一つは、認識辞書をROM210に格納する代わりに、CD−ROMやDVD−ROMのような大容量の記録媒体を使用するようにすればよい。
【0050】
他の一つの対策として次のような内容が考えられる。ROM210には正規の読みの認識語のみを格納した認識辞書を準備する。そして、音声認識ソフトが音声認識処理にあたり認識辞書を使用するときに、所定のプログラムを実行させることにより、正規の読みの認識語に基づく上記法則による言い替え語をRAM209上に生成するようにすればよい。このRAM209は作業メモリエリアであるので、他の認識辞書を使用するときは、前に作成した言い替え語がクリアされ、新たに他の認識辞書に基づく言い替え語がRAM209上に生成される。これにより、膨大な容量のROMの必要はなくなる。また、ROM210には漢字の読みそのままのデータのみを作成すればよいので、認識語の作成が容易である。漢字を仮名変換するようなプログラムを使用すれば、自動化あるいは半自動化で容易に正規の読みのみの認識辞書を作成することができる。
【0051】
第3の実施の形態の音声認識を行う制御のフローチャートは、使用する認識辞書を除き第1の実施の形態の図4と同じであるので、その説明を省略する。認識辞書は言い替え語が追加された図8の認識辞書を使用する。
【0052】
以上のようにして、正規の読みの認識語において母音が「エイ」と続く場合は「エエ」あるいは「エー」と置き換え、母音が「オウ」と続く場合は「オオ」あるいは「オー」と置き換える認識語を新たに追加する。これにより、実際の発話に近い認識語が準備されるため、音声認識に成功する確率が高くなる。
【0053】
上記第3の実施の形態では、置き換え語の組み合わせが多く言い替え語が多数必要な場合に、音声認識処理を行うときに、所定のプログラムを実行することにより正規の読みの認識語に基づき言い替え語の認識語を生成する例を示した(「東名高速道路」の場合)。この内容は、言い替え語が多くない場合にも適用できる(例えば上述の「明大前」の場合)。さらに、第1の実施の形態(例えば上述の「御田原ゴルフ倶楽部松田コース」の場合)および第2の実施の形態(例えば上述の「そうぶだいまえ」の場合)において言い替え語を生成する場合にも適用できる。
【0054】
上記第1〜3の実施の形態では、車載用ナビゲーションシステムについて説明をしたがこの内容に限定する必要はない。車載用に限らず携帯用のナビゲーション装置にも適用できる。さらには、ナビゲーション装置に限らず音声認識を行うすべての装置に適用できる。
【0055】
上記第1〜3の実施の形態では、ナビゲーション装置100と音声ユニット200を分離した構成で説明をしたが、この内容に限定する必要はない。音声ユニットを内部に含んだ一つのナビゲーション装置として構成してもよい。また、上記制御プログラムや認識辞書などをCD−ROMなどの記録媒体で提供することも可能である。さらには、制御プログラムや認識辞書などをCD−ROMなどの記録媒体で提供し、パーソナルコンピュータやワークステーションなどのコンピュータ上で上記システムを実現することも可能である。
【0056】
上記第1〜3の実施の形態では、音声ユニット200で施設名の検索に成功した場合、その内容をナビゲーション装置100に知らせ、ナビゲーション装置100では道案内等のナビゲーション処理の一つとしてその施設近辺の地図を表示する例で説明をしたが、この内容に限定する必要はない。ナビゲーション装置100では、音声ユニット200で検索に成功した結果に基づき、経路探索や経路誘導その他の各種のナビゲーション処理が考えられる。
【0057】
【発明の効果】
本発明は、一つの音声認識対象の言葉に対して、読みの異なる複数の認識語(第1の認識語と第2の認識語)を準備するので、その言葉を発話したとき、いろいろな条件で正規の読みとは微妙に異なるように聞こえても、確実に音声認識に成功させることができる。そして、第2の認識語を、音声認識処理手段が音声認識処理を行うときに、生成手段により生成しているので、メモリ容量の削減を図ることができる。例えば、第2認識語をある法則に基づきかなりの数を準備する場合でも、予めそれらの認識語を格納しておくメモリの必要が無く、認識語のためのメモリの増加をきたさずより確実に音声認識を成功させることができる。
【図面の簡単な説明】
【図1】本発明の車載用ナビゲーションシステムの構成を示す図である。
【図2】第1の実施の形態における改善前の認識辞書を示す図である。
【図3】第1の実施の形態における改善後の認識辞書を示す図である。
【図4】第1の実施の形態において、音声認識を行う制御のフローチャートを示す図である。
【図5】第2の実施の形態における改善前の認識辞書を示す図である。
【図6】第2の実施の形態における改善後の認識辞書を示す図である。
【図7】第3の実施の形態における改善前の認識辞書を示す図である。
【図8】第3の実施の形態における改善後の認識辞書を示す図である。
【符号の説明】
100 ナビゲーション装置
101 GPS受信機
102 ジャイロセンサ
103 車速センサ
104 ドライバ
105 CPU
106 RAM
107 ROM
108 CD−ROMドライブ
109 表示装置
110 バスライン
200 音声ユニット
201 マイク
202 A/D変換部
203 D/A変換部
204 アンプ
205 スピーカ
206 発話スイッチ
207 ドライバ
208 CPU
209 RAM
210 ROM
211 通信ライン
212 バスライン
Claims (5)
- 音声入力手段と、
音声認識対象の言葉に対応しその言葉の読みを表す認識語を格納する格納手段と、
前記音声入力手段により得られた音データと前記認識語に基づき生成された音声認識用データとを比較して音声認識処理を行う音声認識処理手段とを備えた音声認識装置において、
前記格納手段は第1の格納手段と第2の格納手段を有し、
前記第1の格納手段には、前記音声認識対象の言葉の全体の読みに対応する第1の認識語が予め格納され、
前記音声認識処理手段が前記第1の認識語を使用して音声認識処理を行うときに、前記全体の読みに五十音のえ段の音節の後に「い」の音節が並ぶ場合、この「い」の音節を「え」の音節に置き換える法則に基づき第2の認識語を生成して前記第2の格納手段に格納する生成手段をさらに備え、
前記音声認識処理手段は、前記第1の格納手段に格納された前記前記第1の認識語と前記第2の格納手段に格納された前記第2の認識語の双方とも前記音声認識対象の言葉の認識語として使用することを特徴とする音声認識装置。 - 音声入力手段と、
音声認識対象の言葉に対応しその言葉の読みを表す認識語を格納する格納手段と、
前記音声入力手段により得られた音データと前記認識語に基づき生成された音声認識用データとを比較して音声認識処理を行う音声認識処理手段とを備えた音声認識装置において、
前記格納手段は第1の格納手段と第2の格納手段を有し、
前記第1の格納手段には、前記音声認識対象の言葉の全体の読みに対応する第1の認識語が予め格納され、
前記音声認識処理手段が前記第1の認識語を使用して音声認識処理を行うときに、前記全体の読みに五十音のお段の音節の後に「う」の音節が並ぶ場合、この「う」の音節を「お」の音節に置き換える法則に基づき第2の認識語を生成して前記第2の格納手段に格納する生成手段をさらに備え、
前記音声認識処理手段は、前記第1の格納手段に格納された前記前記第1の認識語と前記第2の格納手段に格納された前記第2の認識語の双方とも前記音声認識対象の言葉の認識語として使用することを特徴とする音声認識装置。 - 請求項1または2記載の音声認識装置において、
前記認識語は長音符号「ー」を含む仮名により指定され、
前記第2の認識語において、前記置き換える音節を長音符号「ー」により置き換えることを特徴とする音声認識装置。 - 請求項1から3のいずれか1項に記載の音声認識装置において、
前記生成手段は、1つの前記第1の認識語に前記法則に基づき置き換える音節が複数個存在する場合、この複数個の組み合わせによる複数の前記第2の認識語を生成して前記第2の格納手段に格納することを特徴とする音声認識装置。 - 請求項1から4のいずれか1項記載の音声認識装置と、
地図情報を格納する地図情報格納手段と、
少なくとも前記音声認識装置の認識結果と前記地図情報とに基づき、道案内のための制御を行う制御手段とを備えることを特徴とする音声認識ナビゲーション装置。
Priority Applications (3)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
JP25598399A JP4520555B2 (ja) | 1999-09-09 | 1999-09-09 | 音声認識装置および音声認識ナビゲーション装置 |
EP00307745A EP1083545A3 (en) | 1999-09-09 | 2000-09-07 | Voice recognition of proper names in a navigation apparatus |
US09/659,679 US6708150B1 (en) | 1999-09-09 | 2000-09-11 | Speech recognition apparatus and speech recognition navigation apparatus |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
JP25598399A JP4520555B2 (ja) | 1999-09-09 | 1999-09-09 | 音声認識装置および音声認識ナビゲーション装置 |
Publications (2)
Publication Number | Publication Date |
---|---|
JP2001083983A JP2001083983A (ja) | 2001-03-30 |
JP4520555B2 true JP4520555B2 (ja) | 2010-08-04 |
Family
ID=17286287
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
JP25598399A Expired - Fee Related JP4520555B2 (ja) | 1999-09-09 | 1999-09-09 | 音声認識装置および音声認識ナビゲーション装置 |
Country Status (1)
Country | Link |
---|---|
JP (1) | JP4520555B2 (ja) |
Families Citing this family (6)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
JP4667082B2 (ja) * | 2005-03-09 | 2011-04-06 | キヤノン株式会社 | 音声認識方法 |
KR101063607B1 (ko) | 2005-10-14 | 2011-09-07 | 주식회사 현대오토넷 | 음성인식을 이용한 명칭 검색 기능을 가지는 네비게이션시스템 및 그 방법 |
JP5266761B2 (ja) * | 2008-01-10 | 2013-08-21 | 日産自動車株式会社 | 情報案内システムおよびその認識辞書データベース更新方法 |
JP6003127B2 (ja) * | 2012-03-19 | 2016-10-05 | 富士ゼロックス株式会社 | 言語モデル作成プログラム及び言語モデル作成装置 |
JP6400937B2 (ja) * | 2014-04-28 | 2018-10-03 | ヘルスセンシング株式会社 | 振動信号抽出装置 |
JP7195947B2 (ja) * | 2019-01-22 | 2022-12-26 | 菱洋エレクトロ株式会社 | 音声認識システム、及び音声認識装置 |
Citations (3)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
JPH08248979A (ja) * | 1995-03-06 | 1996-09-27 | Fuji Xerox Co Ltd | 音声認識装置 |
JPH0942988A (ja) * | 1995-07-28 | 1997-02-14 | Mazda Motor Corp | 車載用地図表示装置 |
JPH1069291A (ja) * | 1996-08-27 | 1998-03-10 | Nissan Motor Co Ltd | 音声認識装置 |
-
1999
- 1999-09-09 JP JP25598399A patent/JP4520555B2/ja not_active Expired - Fee Related
Patent Citations (3)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
JPH08248979A (ja) * | 1995-03-06 | 1996-09-27 | Fuji Xerox Co Ltd | 音声認識装置 |
JPH0942988A (ja) * | 1995-07-28 | 1997-02-14 | Mazda Motor Corp | 車載用地図表示装置 |
JPH1069291A (ja) * | 1996-08-27 | 1998-03-10 | Nissan Motor Co Ltd | 音声認識装置 |
Also Published As
Publication number | Publication date |
---|---|
JP2001083983A (ja) | 2001-03-30 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
US6708150B1 (en) | Speech recognition apparatus and speech recognition navigation apparatus | |
US20060100871A1 (en) | Speech recognition method, apparatus and navigation system | |
JP4188989B2 (ja) | 音声認識装置、音声認識方法、及び音声認識プログラム | |
US8005673B2 (en) | Voice recognition device, voice recognition method, and voice recognition program | |
US6012028A (en) | Text to speech conversion system and method that distinguishes geographical names based upon the present position | |
JP4104313B2 (ja) | 音声認識装置、プログラム及びナビゲーションシステム | |
JP4642953B2 (ja) | 音声検索装置、および、音声認識ナビゲーション装置 | |
JP4520555B2 (ja) | 音声認識装置および音声認識ナビゲーション装置 | |
JP4914632B2 (ja) | ナビゲーション装置 | |
JP2008089625A (ja) | 音声認識装置、音声認識方法及び音声認識プログラム | |
JP2008076811A (ja) | 音声認識装置、音声認識方法及び音声認識プログラム | |
JP2002350146A (ja) | ナビゲーション装置 | |
JPH07319383A (ja) | 地図表示装置 | |
KR101063607B1 (ko) | 음성인식을 이용한 명칭 검색 기능을 가지는 네비게이션시스템 및 그 방법 | |
JP4550207B2 (ja) | 音声認識装置および音声認識ナビゲーション装置 | |
US20040015354A1 (en) | Voice recognition system allowing different number-reading manners | |
JP2001083982A (ja) | 音声認識装置、音声認識のためのデータを記録した記録媒体、および、音声認識ナビゲーション装置 | |
JP4652504B2 (ja) | 音声認識装置および音声認識ナビゲーション装置 | |
JP2005114964A (ja) | 音声認識方法および音声認識処理装置 | |
JP2005157166A (ja) | 音声認識装置、音声認識方法及びプログラム | |
JP2006039954A (ja) | データベース検索装置、プログラム及びナビゲーション装置 | |
JP4639990B2 (ja) | 音声対話装置及び音声理解結果生成方法 | |
JP3706495B2 (ja) | 音声合成装置 | |
JP2008152043A (ja) | 音声認識装置及び音声認識方法 | |
JP4684609B2 (ja) | 音声合成装置、制御方法、制御プログラム及び記録媒体 |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
A621 | Written request for application examination |
Free format text: JAPANESE INTERMEDIATE CODE: A621 Effective date: 20060907 |
|
A977 | Report on retrieval |
Free format text: JAPANESE INTERMEDIATE CODE: A971007 Effective date: 20090619 |
|
A131 | Notification of reasons for refusal |
Free format text: JAPANESE INTERMEDIATE CODE: A131 Effective date: 20090707 |
|
A521 | Request for written amendment filed |
Free format text: JAPANESE INTERMEDIATE CODE: A523 Effective date: 20090904 |
|
A711 | Notification of change in applicant |
Free format text: JAPANESE INTERMEDIATE CODE: A712 Effective date: 20100212 |
|
TRDD | Decision of grant or rejection written | ||
A01 | Written decision to grant a patent or to grant a registration (utility model) |
Free format text: JAPANESE INTERMEDIATE CODE: A01 Effective date: 20100427 |
|
A01 | Written decision to grant a patent or to grant a registration (utility model) |
Free format text: JAPANESE INTERMEDIATE CODE: A01 |
|
A61 | First payment of annual fees (during grant procedure) |
Free format text: JAPANESE INTERMEDIATE CODE: A61 Effective date: 20100521 |
|
FPAY | Renewal fee payment (event date is renewal date of database) |
Free format text: PAYMENT UNTIL: 20130528 Year of fee payment: 3 |
|
R150 | Certificate of patent or registration of utility model |
Free format text: JAPANESE INTERMEDIATE CODE: R150 |
|
FPAY | Renewal fee payment (event date is renewal date of database) |
Free format text: PAYMENT UNTIL: 20140528 Year of fee payment: 4 |
|
R250 | Receipt of annual fees |
Free format text: JAPANESE INTERMEDIATE CODE: R250 |
|
R250 | Receipt of annual fees |
Free format text: JAPANESE INTERMEDIATE CODE: R250 |
|
LAPS | Cancellation because of no payment of annual fees |