JP3990075B2

JP3990075B2 - 音声認識支援方法及び音声認識システム

Info

Publication number: JP3990075B2
Application number: JP18585999A
Authority: JP
Inventors: 三慶舘森; 博史金澤
Original assignee: Toshiba Corp
Current assignee: Toshiba Corp
Priority date: 1999-06-30
Filing date: 1999-06-30
Publication date: 2007-10-10
Anticipated expiration: 2019-06-30
Also published as: US6718304B1; US20040083108A1; JP2001013991A; US6978237B2

Description

【０００１】
【発明の属する技術分野】
本発明は、音声による地図検索が可能なシステムに好適な音声認識支援方法及び音声認識システムに関する。
【０００２】
【従来の技術】
カーナビゲーションシステムに代表される、音声コマンドによる地図検索が可能なシステムでは、ユーザは検索対象地域内の場所または施設の名称（地名または施設名）を発声することが多い。したがって、認識結果の表す地点が検索対象地域から遠く離れた場所または施設の場合は誤認識である可能性が高い。そのため、このような認識結果に対してシステムが無条件に動作（例えば、認識結果の表す場所の付近の地図を拡大表示する動作）を行うと、結果的に誤動作となる場合が多い。
【０００３】
そこで、現在のカーナビゲーションシステムでは、地図検索を音声コマンドで行う場合には、地域を階層化して音声入力できる地域を限定し、上位階層から下位階層へ降りるごとに検索対象地域（を指定する語彙）がより制限されるようになっている。しかし、音声入力できる地域を限定している状態で、限定範囲外の場所名を入力するには一旦限定を解除しなくてはならず、システムの使い勝手が悪くなる。
【０００４】
【発明が解決しようとする課題】
このように、地図検索を音声コマンドで行うカーナビゲーションシステムに代表される従来のシステムでは、誤動作を避けるために、地域を階層化して、音声入力できる地域を限定すると、つまり音声入力できる場所（を表す語彙）を限定すると、限定範囲外の場所名を入力するには一旦限定を解除しなくてはならず、システムの使い勝手が悪くなるという問題があった。
【０００５】
本発明は上記事情を考慮してなされたものでその目的は、音声で指定可能な地図上の場所等を表す語彙の範囲を限定することなく、誤認識による不要な誤動作を回避し、システムの使い勝手を向上することができる音声認識支援方法及び音声認識システムを提供することにある。
【０００６】
【課題を解決するための手段】
本発明の音声認識支援方法は、ユーザからの入力音声に対する音声認識結果が地図上の地点を表す場合に、その認識結果の表す地点から地図検索の基準位置となる基準点までの距離を判定し、つまり認識結果の表す地点が基準点から遠いか或いは近いかの遠近を判定し、遠いと判定された場合、つまり認識結果の表す地点が基準点から離れた場所にある場合には、当該認識結果の正否の確認を促す確認応答（確認メッセージ）をユーザに提示して、ユーザの指示を仰ぐようにしたことを特徴とする。ここで、基準点には、システム（を搭載した物体、例えば車両、或いはシステムを携帯するユーザ）の現在位置或いは着目地点等を用いるとよい。この基準点は、ユーザからの要求に応じて、或いはシステムの自律的な動作により、変更設定可能とすることができる。
【０００７】
このように本発明においては、音声認識結果で表される場所や施設が現在位置或いは着目地点といった基準点から離れた場所にあると判定された場合には、ユーザに認識結果の確認を促す確認応答を提示して、ユーザの指示を仰ぐようにしているため、音声で指定可能な地図上の場所等を表す語彙の範囲、つまり検索対象範囲を限定しなくても、誤認識による不要な誤動作を回避し、システムの使い勝手を向上することができる。
【０００８】
ここで、音声認識結果として複数の認識候補が取得されるシステムでは、認識結果中の第１位候補が地図上の地点を表す場合に、当該認識結果中から地図上の地点を表す認識候補を抽出し、その抽出した認識候補の各々の入力音声との照合スコア（類似度或いは距離を表す評価値）を、当該認識結果の表す地点と基準点との距離を加味した新たなスコアに変換する再スコアリングを行って、その再スコアリング後の各認識候補の新たなスコアで決まる第１位候補の表す地点の距離判定を行い、その第１位候補の表す地点が遠いと判定された場合、再スコアリング後の所定数を上限とする上位候補について、その認識結果の正否の確認をユーザに対して促すための確認応答を生成してユーザに提示するとよい。この音声認識支援方法においても、語彙（検索対象範囲）を限定しなくても、誤認識による不要な誤動作を回避し、システムの使い勝手を向上することができる。
【０００９】
また本発明は、上記距離判定のための基準を所定のパラメータに従って変更設定することをも特徴とする。この判定基準には、認識結果の表す地点の基準点からの遠近を両地点間の距離から判定する場合には、上記パラメータで決まる距離の閾値が用いられる。また、距離判定の基準として地図上の限定された範囲を表す基準範囲を用い、基準点を含む基準範囲を所定のパラメータに従って変更設定することにより、認識結果の表す地点の基準点からの遠近を、当該地点の基準範囲に対する位置関係から（例えば、当該地点が基準範囲に入っていないか或いは入っているかにより）判定するようにしてもよい。ここで、上記パラメータとして、画面表示される地図の拡大／縮小倍率Ｍを用いるとよく、Ｍが大きくなるほど上記判定基準（距離の閾値）を低くし（小さくし）、上記基準範囲を狭い地域に変更設定するとよい。
【００１０】
このように、所定のパラメータに従って距離判定の基準を変更設定することにより、例えば指定された縮尺（拡大／縮小率）に応じて距離判定を行うことができる。
【００１１】
また本発明は、距離判定の対象となる認識結果の信頼度を判定し、信頼できないと判定された場合のみ距離判定を行うことをも特徴とする。ここで、認識結果の信頼度を、当該認識結果の照合スコアを対応する入力音声の長さに基づいて正規化した値で判定するならば、高精度な判定が可能となる。
【００１２】
このように、認識結果が十分信頼できると判定される場合には、基準点からの距離（遠近）に無関係に、確認応答の生成対象外とすることで、ユーザに不要な確認動作を強いるのを回避できる。
【００１３】
また本発明は、地図上の地点を表す認識対象語彙を地図上の所定の区分に応じて階層化して管理し、上記認識結果が地図上の地点を表す場合には、その地点から距離判定の基準となる階層の区分を決定し、その区分自体、またはその区分と基準点が属す区分との関係（例えば、その区分に基準点が属すか否か）に応じて距離判定を行うことをも特徴とする。
このように階層単位で判定基準を切り替えることで、距離を計算することなく距離判定が可能となる。
【００１４】
この他に、地図上の地点を表す認識語彙ごとに距離判定の基準を指定する属性を予め付与しておき、認識結果の表す地点の距離判定を、認識された語彙の属性で指定される判定基準に従って行うならば、語彙単位で判定基準を切り替え設定できる。この場合も、距離を計算することなく距離判定が可能となる。
【００１５】
なお、方法に係る本発明は装置（音声認識システム）に係る発明としても成立する。
また、本発明は、コンピュータに当該発明に相当する手順を実行させるための（或いはコンピュータを当該発明に相当する手段として機能させるための、或いはコンピュータに当該発明に相当する機能を実現させるための）プログラムを記録したコンピュータ読み取り可能な記録媒体としても成立する。
【００１６】
【発明の実施の形態】
以下、本発明の実施の形態につき図面を参照して説明する。
【００１７】
［第１の実施形態］
図１は、本発明の第１の実施形態に係る音声認識システムを概略的に示すものである。
ここでは、カーナビゲーションシステムにおいて、音声入力（音声コマンド）によって地図検索を行う場合の音声認識に適用される音声認識システムを想定している。説明を簡単にするために、音声認識対象語彙が地名と施設名に限定されており、それぞれの語彙には、その地理的位置を表す座標（以下、単に位置座標と呼ぶ）が付与されているものとする。
【００１８】
図１の音声認識システムは、全体制御部１１、基準点設定部１２、音声認識部１３、及び応答生成部１４を備えている。応答生成部１４は、距離判定部１４０を有する。
【００１９】
全体制御部１１は、マイクロホン等の音声入力手段（図示せず）からの音声入力、表示画面の制御や種々のパラメータの設定・変更、更には必要な情報のデータベースの制御など、カーナビゲーションシステム全体の制御を行う。
【００２０】
基準点設定部１２は、地図検索の基準となる地点（基準点）の座標情報（位置座標）を設定・保持する。基準点の初期値には、カーナビゲーションシステムの現在位置、或いは予め設定されている所定の場所（着目地点）の位置座標が用いられる。この基準点の位置座標は、ユーザからの要求に応じて、或いはシステムの自律的な動作により、変更設定可能なようになっている。また、基準点の位置座標は、ＧＰＳ（ＧｌｏｂａｌＰｏｓｉｔｉｏｎｉｎｇＳｙｓｔｅｍ）から得られる緯度及び経度、或いはデータベースに登録された位置座標、地図上の位置などから計算される。
【００２１】
音声認識部１３は、全体制御部１１が制御する音声入力手段（ここではマイクロホンとＡ／Ｄ変換器により構成される音声入力手段）から入力音声を受け取って、その入力音声を音響分析してその特徴パターン系列を求め、当該特徴パターン系列と認識語彙の標準特徴パターン（標準モデル）との照合演算を行って、認識結果を出力する。ここで、音声の検出に失敗するなどの理由で認識結果が得られなかった場合には、音声認識部１３は認識失敗を出力する。
【００２２】
音声認識部１３で適用可能な具体的な照合方法として既に数多くの方法が知られている。したがって、その中の１つを選択して使用すればよい。音声認識の具体例は、ＮＴＴアドバンステクノロジ株式会社の『音声認識の基礎（上）（下）』Ｌ．Ｒａｂｉｎｅｒ，Ｂｉｉｇｎ−ＨｗａｎｇＪｕａｎｇ共著、古井貞煕監訳、に詳しい。
本実施形態では、説明を簡単にするため、音声認識部１３での認識結果が１個のみで、地図上の場所または施設を示す場合について述べる。
【００２３】
応答生成部１４は、音声認識部１３から認識結果を（１個）受け取り、図２に示すフローチャートに従ってユーザへの応答を次のように生成する。
まず応答生成部１４の距離判定部１４０は、基準点設定部１２により設定・保持されている基準点の位置座標と認識結果とされた地名または施設名（語彙）の示す場所または施設（つまり、認識結果の示す地点）の位置座標とから、その２点間のユークリッド距離Ｄを算出する（ステップＳ１１）。
【００２４】
次に応答生成部１４の距離判定部１４０は、算出した２点間の距離Ｄに基づいて、認識結果の示す地点から基準点までの距離の判定、つまり認識結果の示す地点の基準点に対する遠近判定を行うため、当該距離Ｄを予め定められた閾値Ｔと比較する（ステップＳ１２）。
【００２５】
もし、Ｄ＜Ｔならば、距離判定部１４０は認識結果の示す地点が基準点から近いものと判定し、その判定結果を示す距離判定フラグＤＦを第１の状態に設定する。この場合、応答生成部１４は、距離判定部１４０による遠近判定結果を表す距離判定フラグＤＦの第１の状態に従い、即ち認識結果の示す地点が基準点から近いとの遠近判定結果に従い、次に述べる応答出力は生成せずに全体制御部１１に認識結果のみを出力する（ステップＳ１３）。
【００２６】
一方、Ｄ＜Ｔでない場合、つまりＤ≧Ｔの場合には、距離判定部１４０は認識結果の示す地点が基準点から遠いものと判定し、距離判定フラグＤＦを第２の状態に設定する。この場合、応答生成部１４は、距離判定フラグＤＦの第２の状態に従い、即ち認識結果の示す地点が基準点から遠いとの遠近判定結果に従い、認識結果をユーザに確認するためのメッセージ（確認応答）、例えば「○○ですか」（○○は認識結果）、を生成し、このメッセージ（確認メッセージ）と認識結果の対を全体制御部１１に出力する（ステップＳ１４）。
なお、認識結果が得られない認識失敗の場合には、その旨（認識失敗）が応答生成部１４から全体制御部１１に通知される。
【００２７】
全体制御部１１は、応答生成部１４から（ステップＳ１４により）確認メッセージと認識結果の対が通知された場合には、音声出力、或いは画面表示などにより、確認メッセージをユーザに提示し、ユーザの確認（判断）を待つ。ユーザはボタン操作などにより、認識結果の正否を入力する。
【００２８】
ユーザの操作により、認識結果が「不正解」であることが入力された場合、全体制御部１１は音声出力または画面表示により、ユーザに対して再度発声するように促す。また、「正解」であることが入力された場合には、全体制御部１１は認識結果に対応した動作を行う。
【００２９】
これに対し、応答生成部１４からの応答出力に確認メッセージがない場合、即ち（ステップＳ１３により）認識結果のみが通知された場合、或いは認識失敗が通知された場合には、全体制御部１１はユーザの確認を待つことなく、通知内容に対応した動作を行う。
【００３０】
以上に述べた実施形態では、説明の簡略化のために音声認識対象語彙が位置座標を持つ場合に限定した。しかし音声認識対象語彙には、システムの制御コマンド名などの位置座標を持たない語彙も含まれるのが一般的である。
【００３１】
そこで図１の音声認識システムにおいて、音声認識部１３での認識結果が位置座標を持たない語彙の場合にも対応可能なように、例えば認識対象となる全ての語彙に、その語彙の属性として、その語が位置座標を持つ語か否かを表す位置座標フラグＰＦを付与しておき、音声認識部１３から応答生成部１４には、その位置座標フラグＰＦが付された認識結果が渡される構成とするとよい。このような構成における応答生成部１４の動作を以下に述べる。
【００３２】
まず、応答生成部１４の距離判定部１４０は、音声認識部１３から渡された認識結果に付されている位置座標フラグＰＦを検査して、当該認識結果が位置情報を持つ語であるか否かを判定する。
【００３３】
もし、位置情報を持たない語（認識結果）であるならば、距離判定部１４０は例えばＤ≧Ｔ（具体的にはＤ＝Ｔ）とみなして距離判定フラグＤＦを第２の状態に設定する。この場合、応答生成部１４から全体制御部１１には、図２のフローチャートから明らかなように、確認メッセージと認識結果の対が出力されることになる。また、上記とは逆に、Ｄ＜Ｔ（具体的にはＤ＝０）とみなして距離判定フラグＤＦを第１の状態に設定してもよい。この場合、応答生成部１４から全体制御部１１には、図２のフローチャートから明らかなように、認識結果のみが出力されることになる。この他、Ｄ≧Ｔ（Ｄ＝Ｔ）とみなすか、或いはＤ＜Ｔ（Ｄ＝０）とみなすかを、カーナビゲーションシステムの内部状態に応じて決定するようにしてもよい。
【００３４】
［第２の実施形態］
次に、本発明の第２の実施形態に係る音声認識システムについて説明する。
この第２の実施形態に係る音声認識システムの特徴は、前記第１の実施形態では、音声認識部が１個の音声認識結果のみを出力することを前提としていたのに対し、音声認識部が複数の認識候補を音声認識結果として出力し得る点と、この音声認識部の複数認識候補出力機能に対応して応答生成部及び全体制御部に新たな機能を持たせている点にある。但し、便宜的に図１の構成を援用する。
【００３５】
以下、第２の実施形態に係る音声認識システムの動作について、応答生成部１４と全体制御部１１での処理を中心に述べる。
まず、応答生成部１４の処理について、図３のフローチャートを参照して説明する。
【００３６】
今、音声認識部１３から応答生成部１４に複数の認識候補が認識結果として渡されたものとする。また、この認識候補には、入力音声（の特徴パターン系列）と当該候補（の標準特徴パターン）との類似度または距離を表す評価値（パターンマッチング結果）としての照合スコアＳと、当該候補が位置情報を持つ語であるか否かを示す位置情報フラグＰＦが付されているものとする。
【００３７】
応答生成部１４の距離判定部１４０は、まず第１位の認識候補（１位候補）について、位置情報フラグＰＦから位置座標を持つ語であるか否かを判定する（ステップＳ２１）。
もし、１位候補が位置座標を持たない語である場合、応答生成部１４は１位候補のみを認識結果として全体制御部１１に出力し（ステップＳ２２）、前記第１の実施形態と同様に処理する。
【００３８】
一方、１位候補が位置座標を持つ場合には、応答生成部１４の距離判定部１４０は音声認識部１３から渡された認識候補の中から位置座標を持つ候補のみを全て抽出する（ステップＳ２３）。
【００３９】
続いて距離判定部１４０は、抽出した候補のそれぞれについて、（基準点設定部１２により設定・保持されている）基準点と当該候補となった地点との距離Ｄを求め、この距離Ｄと当該候補のスコアＳとから、次式（１）
Ｓ′＝αＳ＋βＧ（Ｄ） …（１）
に従って新しいスコアＳ′を求め、そのスコアＳ′に基づいて、スコアの大きい順となるように候補順位の変更（候補の並べ替え）を行う（ステップＳ２４）。なお、（１）式中のα、βは実験的に決定される係数、Ｇ（Ｄ）はＤについての関数であり、単調減少関数、または単調非増加関数である。
【００４０】
上記ステップＳ２４の候補の並べ替えは、上記（１）式において、例えばα＝０、β＞０、Ｇ（Ｄ）がＤの単調減少関数の場合は、候補のスコアＳに無関係に、単純に基準点から近い順に並べ替えることと同義である。また、α＞０、β＝０の場合は再スコア計算を行わないことと同義である。なお、スコアＳ′を求めるのに必ずしも（１）式を用いる必要はなく、少なくとも距離ＤとスコアＳとから算出されるものであればよい。
【００４１】
距離判定部１４０は、上記したステップＳ２４での再スコアリングによる候補順位の入れ替えを行うと、その入れ替えにより第１位となった候補の示す地点と基準点との距離Ｄを算出する（ステップＳ２５）。そして距離判定部１４０は、算出した距離Ｄを閾値Ｔと比較することで、１位候補の示す地点の基準点からの遠近判定を行い、その判定結果に応じて距離判定フラグＤＦを第１の状態（Ｄ＜Ｔの場合）、または第２の状態（Ｄ≧Ｔ）に設定する（ステップＳ２６）。
【００４２】
応答生成部１４は、距離判定部１４０による遠近判定結果がＤ＜Ｔの場合、１位候補の認識結果のみを全体制御部１１に通知する（ステップＳ２２）。これに対し、遠近判定結果がＤ≧Ｔの場合には、応答生成部１４は上位Ｎ位（Ｎは予め定められた自然数）までのＮ個の候補（候補がＮ個ない場合は全候補）のそれぞれについて、第１の実施形態と同様の確認メッセージと対応する認識結果の対を全体制御部１１に通知する（ステップＳ２７）。なお、音声認識部１３で認識結果が得られずに、音声認識部１３から応答生成部１４に認識失敗が通知された場合には、応答生成部１４から全体制御部１１にも認識失敗が通知される。
【００４３】
全体制御部１１は、応答生成部１４からの通知内容に応じた処理を、図４のフローチャートに従って次のように実行する。
【００４４】
まず全体制御部１１は、応答生成部１４からの通知内容に基づいて認識失敗か否かを判定する（ステップＳ３１）。認識失敗であるならば、全体制御部１１は認識失敗に対応した処理（ステップＳ３２）を行う。なお、認識失敗の場合の処理自体は本発明に直接関係しないため説明を省略する。
【００４５】
これに対し、認識失敗でないならば、全体制御部１１は認識候補順位を表す順位番号ｎを初期値１に設定する（ステップＳ３３）。この例のように、ｎの値が候補数を超えていない場合（ステップＳ３５）、全体制御部１１はｎ位候補に確認メッセージが付されているか否かを調べる（ステップＳ３６）。もし、ｎ位候補に確認メッセージがないならば、全体制御部１１は認識失敗の場合と同様の処理を行う（ステップＳ３２）。このような確認メッセージがない候補は、応答生成部１４から（前記ステップＳ２２で）１位候補の認識結果のみが通知された場合にだけ存在する。
【００４６】
一方、ｎ位候補に確認メッセージがあるならば、全体制御部１１は当該確認メッセージを音声出力または画面表示によりユーザに提示し、ユーザの確認（判断）を待つ（ステップＳ３７）。このような確認メッセージのある候補は、応答生成部１４から（前記ステップＳ２７で）上位Ｎ位までの候補がそれぞれ確認メッセージと対にして通知された場合にだけ存在する。
【００４７】
さて、ユーザへの確認メッセージの提示に対して、ユーザの操作により、ｎ位候補が「正解」であることが入力された場合、全体制御部１１はｎ位候補（認識結果）に対応した動作を行う（ステップＳ３８，Ｓ３９）。
【００４８】
これに対し、ユーザの操作により、ｎ位候補が「不正解」であることが入力された場合、全体制御部１１はｎを１インクリメントして（ステップＳ３８，Ｓ３４）、そのインクリメント後のｎの値が候補数を超えたか否かを調べる（ステップＳ３５）。もし、インクリメント後のｎの値が候補数を超えていないならば、全体制御部１１は、そのｎの値で示される（確認メッセージ付きの）ｎ位候補についてステップＳ３６以降の処理を行う。
【００４９】
このように全体制御部１１は、応答生成部１４から上位Ｎ位までの候補（候補数がＮに満たない場合には全候補）がそれぞれ確認メッセージと対にして通知された場合には、ユーザに対して上位候補から順に対応する確認メッセージを提示する動作を、ユーザが「正解」を入力するまで繰り返す。そしてユーザが正解を入力した場合は、その際のｎ位候補を認識結果として、その認識結果に対応した動作を行う。また、すべての候補についてユーザが承諾しなければ（ステップＳ３５）、全体制御部１１は認識失敗の場合と同様の処理を行う（ステップＳ３２）。
【００５０】
［第３の実施形態］
次に、本発明の第３の実施形態に係る音声認識システムについて説明する。
一般にカーナビゲーションシステムでは、画面表示する地図の縮尺が可変できるようになっている。この種のシステムでは、ユーザの指示やカーナビゲーションシステムによる制御によって、指定された地域を拡大、或いは縮小表示するように地図の縮尺が変更される。ユーザが音声入力を行う場合、殆どの場合、指定された範囲内にある場所（または施設）の名称（地名、施設名）を発声することが予想される。この場合、地図表示の縮尺が変更されたにも係わらず、基準点の座標を変更しないならば、正しい遠近判定が困難となる。
【００５１】
第３の実施形態に係る音声認識システムの特徴は、地図表示の縮尺が変更された場合にも、正しい遠近判定を可能とする点にある。この場合、基準点設定部と応答生成部の機能は前記第１の実施形態に係る音声認識システムのそれとは一部異なるが、便宜的に図１の構成を援用する。
【００５２】
以下、第３の実施形態に係る音声認識システムの動作について、縮尺が可変の地図表示が可能なカーナビゲーションシステムに適用される場合を例に、基準点設定部１２での基準点設定と応答生成部１４での遠近判定を中心に述べる。
まず、ユーザの指示やカーナビゲーションシステムによる制御によって、指定された地域を拡大、或いは縮小表示するように地図の縮尺が変更されたものとする。この場合、基準点設定部１２は、拡大、或いは縮小表示された地図の中心点を基準点に設定する。
【００５３】
すると応答生成部１４の距離判定部１４０は、地図の拡大／縮小率Ｍ（Ｍが大きいほど狭い地域に限定される）を全体制御部１１から取得し、そのＭの値に基づいて、閾値Ｔを
Ｔ＝Ｆ（Ｍ） …（２）
のように設定する。ここで、Ｆ（Ｍ）はＭについての単調非増加関数である。
【００５４】
さて、このような状態で、ユーザが地図上の所望の場所（または施設）の名称を発声し、その発声内容に対する音声認識部１３での認識結果が応答生成部１４に渡されたものとする。ここでは、説明を簡単にするために、１個の音声認識結果のみが渡されたものとする。
【００５５】
応答生成部１４の距離判定部１４０は、音声認識部１３から渡された認識結果の示す地点と基準点設定部１２により設定されている基準点との距離Ｄを算出し、そのＤと先に設定した閾値Ｔとの大小を比較することで、認識結果の示す地点の遠近を判定する。明らかなように、Ｄ＞Ｔならば基準点から遠いと判定される。
【００５６】
以上は、拡大／縮小率可変な地図表示可能なカーナビゲーションシステムにおいて、拡大／縮小率Ｍに基づいて閾値を変更設定する場合について説明したが、これに限るものではない。例えば、遠近判定の基準範囲（確認応答を生成しない無条件検索対象地域）という概念を導入して、拡大／縮小率Ｍに基づいて当該基準範囲を変更設定し、認識結果の示す地点が単に当該基準範囲に入っているか否かにより、その地点が基準点から近いか否かを判定するようにしても構わない。ここで基準範囲は基準点を中心に設定するとよい。また拡大／縮小率Ｍに代えて、遠近判定の基準（閾値、基準範囲）を表す所定のパラメータを導入してもよい。
【００５７】
［第４の実施形態］
以上に述べた実施形態では、基準点と認識結果（以下、認識結果は、第２の実施形態のように複数の候補がある場合には、再スコアリング後の１位候補を表すものとする）の示す地点との距離Ｄは、座標からユークリッド距離によって求めていた。しかし、この距離Ｄは、２点間の遠近の判定に用いるためのものであることから、ユークリッド距離に限るものではなく、２点間の遠近を表す尺度であればよい。
【００５８】
そこで、基準点と認識結果の示す地点との間の距離（以下、基準点と認識結果との距離と称する）Ｄとして、ユークリッド距離に代えて、２点間の遠近を表す尺度を用いるようにした本発明の第４の実施形態に係る音声認識システムについて、日本における状況を例に、便宜的に図１の構成を援用して説明する。
【００５９】
まず本実施形態では、位置座標を持つ認識対象語彙は、上位のものから順に、県、市町村、丁字、施設に階層化されており、それぞれの語は、市町村名であればそれが属す県、丁字名であればそれが属す県および市町村、施設名であればそれが属す県、市町村、丁字が判定できるものとする。また、現在地のように、ＧＰＳから送られる情報から位置座標のみしか求められない場合には、ユークリッド距離で位置座標の最も近い丁字を求め、その丁字、及びその丁字の属す県、市町村、丁字を現在地が属すものとする。
【００６０】
このような例では、応答生成部１４の距離判定部１４０は、音声認識部１３での認識結果と基準点との距離Ｄを、基準点と認識結果とが同じ県に属す場合はＤ＝０、そうでなければＤ＝Ｔ（Ｔは遠近判定の閾値）とする。
【００６１】
したがって応答生成部１４では、基準点と認識結果とが同じ県に属さないときはＤ＝Ｔとされることから、例えば図２ステップＳ１２，Ｓ１４から明らかなように確認メッセージを生成することになる。これに対し、基準点と認識結果とが同じ県に属すときはＤ＝０とされることから、応答生成部１４では、例えば図２ステップＳ１２，Ｓ１３から明らかなように認識結果のみを出力することになる。
【００６２】
以上に述べた距離Ｄの計算（決定）手法を用いた場合、応答生成部１４の距離判定部１４０での遠近判定、即ち距離Ｄと閾値Ｔとの大小比較は、Ｄを計算せずに同じ県に属すか否かにより判定を行うことと同義である。したがって、距離判定部１４０では、上記の手法により基準点と認識結果との距離Ｄを計算（決定）し、その距離Ｄを閾値Ｔと比較することで認識結果（の示す場所、施設）の遠近を判定する代わりに、Ｄを計算せずに基準点と認識結果とが同一県に属すか否かにより遠近判定を行うようにしても構わない。
【００６３】
なお、ここでは基準点と認識結果とが同一県に属すか否かによって距離計算及び遠近判定をしたが、これは県でなくとも、市町村や丁字であってもよい。但し、遠近の判定基準に、例えば市町村を用いる場合には、認識結果が県名であれば、基準点と同一市町村に属すか否かが判定できなくなること、即ち認識結果が判定基準よりも上位階層の語となった場合には遠近判定ができなくなることを考慮する必要がある。そこで、このような場合は、基準点と認識結果とが同一階層の語で表される地域に属さないものとして扱い、Ｄ＝Ｔとして、つまり認識結果（の示す場所、施設）は基準点から遠いものとして、応答生成部１４で確認メッセージを生成すればよい。
【００６４】
また、県より上位階層として地方−例えば、関東地方や東海地方など−という階層、あるいは一般に知られている地理的区分や行政単位とは異なる階層を設けて、同様に距離計算、遠近判定を行ってもよい。
【００６５】
（第４の実施形態の変形例）
以上に述べた第４の実施形態では、遠近判定の基準が予め県などと決まっていたが、これに限るものではなく、例えば認識結果によって異なる判定基準を用いるようにしても構わない。
【００６６】
そこで、遠近判定の基準を認識結果に応じて切り替え設定するようにした第４の実施形態の変形例について、再び日本の場合を例に、便宜的に図１の構成を援用して説明する。
【００６７】
ここでは、県名より上位階層はないものとする。応答生成部１４の距離判定部１４０は、音声認識部１３での認識結果が県名であれば、無条件にＤ＝Ｔとして、つまり認識結果（の示す場所、施設）は基準点から遠いものとして、応答生成部１４で確認メッセージを生成させる。また距離判定部１４０は、認識結果が市町村の場合には、基準点と認識結果（の市町村）が属す県とが一致するか否かによって遠近を判定する。即ち距離判定部１４０は、認識結果より１つ上の階層において、基準点と一致するか否かによる遠近判定を行う。なお、認識結果が最上位階層の場合には、上述の県のように、無条件でＤ＝Ｔ或いはＤ＝０にするなどすればよい。
【００６８】
この他に、階層単位ではなく、例えば「○○ガソリンスタンド××町店」などは市町村レベル、「□□遊園地」などは県レベルでというように、認識語彙やカテゴリごとに、判定基準を切り替えてもよい。更には、単語によっては無条件にＤ＝Ｔにする、或いはＤ＝０にするなどしてもよい。このような判定基準の切り替えは、例えば認識語彙に判定基準を指定するための属性を付与しておけば実現可能である。
【００６９】
［第５の実施形態］
以上に述べた実施形態では、位置座標をもつ認識結果は、無条件に判定結果が決まっている場合を除き、必ず応答生成部１４の距離判定部１４０において遠近判定を受けていた。しかし、認識結果が十分に信頼できる場合には、基準点からの距離とは無関係にユーザへの確認応答を生成しない方が、ユーザに不要な確認動作を強いることを回避できる。
【００７０】
そこで、認識結果の信頼度に基づく確認応答生成制御を行うようにした本発明の第５の実施形態に係る音声認識システムについて、便宜的に図１の構成を援用すると共に図５のフローチャートを参照して説明する。
【００７１】
今、音声認識部１３から応答生成部１４に複数の認識候補が認識結果として渡されたものとする。また、この認識候補には、入力音声（の特徴パターン系列）と当該候補（の標準特徴パターン）との類似度または距離を表す評価値である照合スコアＳと、当該音声の長さ（時間）Ｔと、当該候補が位置情報を持つ語であるか否かを示す位置情報フラグＰＦとが付されているものとする。
【００７２】
応答生成部１４の距離判定部１４０は、まず１位候補について、位置情報フラグＰＦから位置座標を持つ語であるか否かを判定する（ステップＳ４１）。１位候補が位置座標を持たない語である場合の動作は、例えば図３のステップＳ２２と同様であり、応答生成部１４から全体制御部１１に１位候補のみが認識結果として出力される（ステップＳ４２）。
【００７３】
一方、１位候補が位置座標を持つ場合には、応答生成部１４の距離判定部１４０は前記第２の実施形態（図３のフローチャート参照）と異なって、当該１位候補の信頼度Ｒを算出する（ステップＳ４３）。以下、この信頼度Ｒについて述べる。
【００７４】
まず、音声認識部１３で取得される認識結果の照合スコアＳは、単位時間（例えばフレーム周期）ごとのスコアの累積値である。したがって、認識結果の信頼度Ｒは単に照合スコアＳの大きさだけからは決まらない。そこで本実施形態では、認識結果（１位候補）の信頼度Ｒを、例えば
Ｒ＝Ｓ／Ｔ …（３）
によって求める。ここでＴは認識対象となった音声の長さ（時間）であり、上述のようにスコアＳと共に音声認識部１３から渡される。この（３）式に従う信頼度Ｒの算出は距離判定部１４０で行うものとするが、音声認識部１３で行うようにしてもよい。
【００７５】
距離判定部１４０は、１位候補の信頼度Ｒを算出すると、当該信頼度Ｒを予め定められた閾値Ａと比較することで、１位候補が信頼できるものであるか否かを判定する（ステップＳ４４）。
【００７６】
もし、ＲがＡより大（Ｒ＞Ａ）ならば、距離判定部１４０は１位候補（認識結果）が十分信頼できるものと判定する。この場合、応答生成部１４は、認識結果が位置座標を持たない場合、或いは認識結果と基準点との距離ＤがＴより小さい場合と同様に、確認応答を生成せず、１位候補のみを全体制御部１１に出力する（ステップＳ４２）。
【００７７】
一方、ＲがＡ以下（Ｒ≦Ａ）ならば、距離判定部１４０は１位候補（認識結果）は信頼できないものと判定する。この場合、距離判定部１４０は前記第２の実施形態（で適用した図３のフローチャートのステップＳ２３〜Ｓ２６）と同様の処理ステップＳ４５〜Ｓ４８による遠近判定（距離判定）を行い、確認応答生成の判断を行う。
【００７８】
以上、本発明の第１乃至第５の実施形態について説明したが、同実施形態における全体制御部１１、基準点設定部１２、音声認識部１３、応答生成部１４の各機能は、ソフトウェアとしても実現可能である。
【００７９】
また、本発明は、以上の実施形態に係る音声認識システムで適用した手順、特に応答生成部１４での遠近判定及び確認メッセージ（確認応答）生成処理と、全体制御部１１でのユーザに対する確認メッセージ提示処理とを含む所定の手順をコンピュータに実行させるための（或いはコンピュータを音声認識システムの持つ所定の手段として機能させるための、或いはコンピュータに音声認識システムの持つ所定の機能を実現させるための）プログラムを記録したコンピュータ読み取り可能なＣＤ−ＲＯＭ等の記録媒体として実施することもできる。また、このプログラムが通信媒体を介してダウンロードされるものであっても構わない。
【００８０】
この他、本発明の実現形態には上述の例に対して種々の変形が可能であり、それらも趣旨に反しない限り本発明の実施形態の範囲内である。
【００８１】
【発明の効果】
以上詳述したように本発明によれば、入力音声に対する認識結果で表される地点が基準点から離れた場所にあると判定された場合に、ユーザに認識結果の確認を促す確認応答を提示して、ユーザの指示を仰ぐようにしたので、音声で指定可能な地図上の場所等を表す語彙の範囲、つまり検索対象範囲を限定することなく、誤認識による不要な誤動作を回避し、システムの使い勝手を向上することができる。
【図面の簡単な説明】
【図１】本発明の一実施形態に係る音声認識システムの概略構成を示すブロック図。
【図２】図１中の音声認識部１３が１個の認識結果のみを出力する場合の応答生成部１４の処理手順を説明するためのフローチャート。
【図３】図１中の音声認識部１３が複数個の候補を認識結果として出力する場合の応答生成部１４の処理手順を説明するためのフローチャート。
【図４】図１中の全体制御部１１による（図３のフローチャートに従って動作する）応答生成部１４からの通知内容に応じた処理手順を説明するためのフローチャート。
【図５】図１中の音声認識部１３が複数個の候補を認識結果として出力する場合の応答生成部１４の処理手順の変形例を説明するためのフローチャート。
【符号の説明】
１１…全体制御部（提示手段）
１２…基準点設定部
１３…音声認識部
１４…応答生成部
１４０…距離判定部（再スコアリング手段）

Claims

音声による地図検索が可能なシステムに適用される音声認識支援方法であって、
ユーザからの入力音声を認識してその認識結果を取得し、
前記認識結果が地図上の地点を表す場合に、その認識結果の表す地点から地図検索の基準位置として設定されている基準点までの距離を判定し、
前記認識結果の表す地点が前記基準点から遠いと判定された場合に、当該認識結果の正否の確認をユーザに対して促すための確認応答を生成して、その確認応答をユーザに提示することを特徴とする音声認識支援方法。
音声による地図検索が可能なシステムに適用される音声認識支援方法であって、
ユーザからの入力音声を認識して複数の認識候補を認識結果として取得し、
前記認識結果中の第１位候補が地図上の地点を表す場合に、前記認識結果中から地図上の地点を表す認識候補を抽出し、
前記抽出された認識候補の各々の入力音声との類似度或いは距離を表す照合スコアを、当該認識結果の表す地点と地図検索の基準位置として設定されている基準点との距離を加味した新たなスコアに変換する再スコアリングを行い、
前記再スコアリング後の各認識候補の新たなスコアで決まる第１位候補の表す地点から前記基準点までの距離を判定し、
前記再スコアリング後の第１位候補の表す地点が前記基準点から遠いと判定された場合、前記再スコアリング後の所定数を上限とする上位候補について、その認識結果の正否の確認をユーザに対して促すための確認応答を生成して、その確認応答をユーザに提示することを特徴とする音声認識支援方法。
前記認識結果の表す地点から前記基準点までの距離を判定するための判定基準を、所定のパラメータに従って変更設定することを特徴とする請求項１または請求項２記載の音声認識支援方法。
前記基準点を含む距離判定の基準範囲を所定のパラメータに従って変更設定し、前記認識結果の表す地点から前記基準点までの距離を当該地点の前記基準範囲に対する位置関係から判定することを特徴とする請求項１または請求項２記載の音声認識支援方法。
前記距離判定の対象となる認識結果の信頼度を判定し、
信頼できないと判定された場合のみ前記距離判定を行うことを特徴とする請求項１または請求項２記載の音声認識支援方法。
地図上の地点を表す認識対象語彙を地図上の所定の区分に応じて階層化して管理し、
前記認識結果が地図上の地点を表す場合に、その地点から距離判定の基準となる階層の区分を決定し、その区分自体、またはその区分と前記基準点が属す区分との関係に応じて前記距離判定を行うことを特徴とする請求項１または請求項２記載の音声認識支援方法。
地図上の地点を表す認識語彙ごとに前記距離判定の基準を指定する属性を予め付与しておき、
前記認識結果の表す地点の前記距離判定を、当該認識結果の認識語彙の属性で指定される判定基準に従って行うことを特徴とする請求項１または請求項２記載の音声認識支援方法。
音声による地図検索が可能なシステムに適用される音声認識システムであって、
地図検索の基準位置となる基準点を設定する基準点設定部手段と、
ユーザからの入力音声を認識してその認識結果を取得する音声認識手段と、
前記音声認識手段により取得された認識結果が地図上の地点を表す場合に、当該認識結果の表す地点から前記基準点までの距離を判定する距離判定手段と、
前記距離判定手段により前記認識結果の表す地点が前記基準点から遠いと判定された場合に、当該認識結果の正否の確認をユーザに対して促すための確認応答を生成する応答生成手段と、
前記応答生成手段により生成された確認応答をユーザに提示する提示手段とを具備することを特徴とする音声認識システム。
音声による地図検索が可能なシステムに適用される音声認識システムであって、
地図検索の基準位置となる基準点を設定する基準点設定部手段と、
ユーザからの入力音声を認識して複数の認識候補を認識結果として取得する音声認識手段と、
前記音声認識手段により取得された認識結果中の第１位候補が地図上の地点を表す場合に、前記認識結果中から地図上の地点を表す認識候補を抽出して、その抽出した認識候補の各々の入力音声との類似度或いは距離を表す照合スコアを、当該認識結果の表す地点と前記基準点との距離を加味した新たなスコアに変換する再スコアリングを行う再スコアリング手段と、
前記再スコアリング手段による再スコアリング後の各認識候補の新たなスコアで決まる第１位候補の表す地点から前記基準点までの距離を判定する距離判定手段と、
前記距離判定手段により前記再スコアリング後の第１位候補の表す地点が前記基準点から遠いと判定された場合、前記再スコアリング後の所定数を上限とする上位候補について、その認識結果の正否の確認をユーザに対して促すための確認応答を生成する応答生成手段と、
前記応答生成手段により生成された確認応答をユーザに提示する提示手段とを具備することを特徴とする音声認識システム。