JP3991914B2

JP3991914B2 - 移動体用音声認識装置

Info

Publication number: JP3991914B2
Application number: JP2003129740A
Authority: JP
Inventors: 光伸神沼; 晃伸李
Original assignee: Nissan Motor Co Ltd
Current assignee: Nissan Motor Co Ltd
Priority date: 2003-05-08
Filing date: 2003-05-08
Publication date: 2007-10-17
Anticipated expiration: 2023-05-08
Also published as: US20050004798A1; EP1475780B1; EP1475780A1; JP2004333870A; DE602004002230D1; DE602004002230T2

Description

【０００１】
【発明の属する技術分野】
本発明は車両等移動体に設置されて使用される音声認識装置に関するもので、特に音声認識の時間と精度を向上するために用いられる辞書構成の改善に係る。
【０００２】
【従来の技術】
【非特許文献１】
「音声認識システム」オーム社
【非特許文献２】
「単語Ｎ−ｇｒａｍとネットワーク文法を併用したアルゴリズムの検討」鶴見、李、猿渡、鹿野；日本音響学会２００２年秋季研究発表会、２００２年９月２６日
音声認識システムにおいては、発話された言語に関する辞書が必要である。この辞書としては、単語の接続状態をネットワーク構造によって単語あるいは形態素の接続文法を表現したネットワーク文法言語辞書と、単語間の統計的な接続関係を表現した統計的言語辞書の２種類が主に提案されている。前者は、認識能力は高いものの入力可能言語の数が限定される。また、上記非特許文献１によれば、後者については入力可能言語の制限は緩和されるものの、認識率が低いため音声認識用途には適切ではないとの指摘がある。
この問題の解決策として、上記非特許文献２が提案されている。これは、上記のようなネットワーク文法の単語を後述のｎ−ｇｒａｍ言語辞書に追加し、これによりネットワーク文法言語辞書で連接対となっている単語の遷移確率を一律に上げる手法がある。
【０００３】
【発明が解決しようとする課題】
カーナビゲーションのように、移動体内環境下での音声認識を用いたアプリケーションでは、住所入力や操作コマンド入力など、特定のタスクに限定した音声発話を受理すればよいため、ネットワーク文法を用いた言語辞書が広く用いられてきた。一方、ｎ−ｇｒａｍ言語辞書は入力可能な文法の自由度は高いものの、音声認識精度がネットワーク文法言語辞書と比較して低いため、タスク限定音声発話を受理する目的には用いられてこなかった。
本発明では、これら両言語辞書の特徴を生かして簡単な次発話予測を行い、逐次的にｎ−ｇｒａｍ言語辞書の連接単語の確率を発話ターン毎、あるいは出力される情報の内容に応じて変動させることで、カーナビゲーションに代表される音声認識を能率よく実行し得る認識装置の実現を目的としている。
【０００４】
【課題を解決するための手段】
上記目的を達成するために、本発明においては、入力された音声発話を分析するための文法が統計的に記述された統計的言語辞書を記憶しておく記憶手段と、前記入力された音声発話を前記統計的言語辞書を用いて分析する音声認識手段と、前記音声認識手段で認識された結果に基づいて使用者が次に発話する可能性のある連接単語を予測する次発話予測手段と、前記次発話予測手段により予測された連接単語に基づいて前記統計的言語辞書内の連接単語の接続に関する確率を変更する手段と、を備え、かつ、移動体に設置した状態で使用される移動体用音声認識装置において、前記記憶手段は、前記統計的言語辞書と、発話内容に関連した単語、文節あるいは形態素を記述した複数のネットワーク文法言語辞書と、を記憶しており、前記確率変更手段は、前記次発話予測手段によって予測された次発話に適合する特定のネットワーク文法言語辞書を前記複数のネットワーク言語辞書の中から選択し、前記統計的言語辞書内において前記選択されたネットワーク文法言語辞書に含まれる連接単語の遷移確率を高くする構成の移動体用音声認識装置としている。上記の統計的言語辞書は、例えば音素辞書、単語辞書、および連接語辞書に関する文法が統計的に記述されている辞書であり、複数のネットワーク文法言語辞書は発話内容に関連した単語、文節あるいは形態素を記述したものである。
【０００５】
【発明の効果】
本発明により、入力音声に対して文法的制約を低減することなく認識精度を維持し得る移動体用音声認識装置の実現を可能とした。同時に記憶容量および計算時間の低減も可能となった。
【０００６】
【発明の実施の形態】
はじめに、本発明に関する音声認識技術の一般的事項について説明する。すなわち、音声認識では、入力された音声をＡＤ変換し、その離散系列ｘに最も適合する言語表現ωを推定する。これらを実現するためには言語表現ωを予測するため、予め言語表現を記述した辞書（以下、言語辞書と記述）が必要となる。従来提案されている手法としては、単語の接続状態をネットワーク構造によって文法を表現したネットワーク文法言語辞書と、単語間の統計的な接続確率を表現した統計的言語辞書が主に提案されている。
【０００７】
ネットワーク文法では、例えば、図１５のように「住所は＜県名＞県」のような入力を許す言語辞書を設計することができる。このとき、システムは「住所は」の発話の後には必ず「＜県名＞」が入力（発話）され、更に「＜県名＞」の後には必ず「県」が入力されることを想定している。ここで、＜県名＞の部分は予め必要な県名を記述しておく必要がある。もちろん県名以下の入力、例えば市区町村等も同様の手法で記述することができる。この手法では、入力可能な語彙とその接続過程を限定することで高い認識性能が得られる。
【０００８】
一方、統計的言語辞書では、大量のサンプルデータから統計的な手法によって、単語と単語（形態素と形態素）の遷移確率の推定を行う。最も単純で広く用いられている手法がｎ−ｇｒａｍモデルと呼ばれるものである。これは、入力された単語列ω_１ω_２…ω_ｎに対する出現確率をＰ（ω_１ω_２…ω_ｎ）として言語表現の推定をする場合に、
【０００９】
【数１】

のような近似を行うモデルである。特に、ｎ＝１の時をｕｎｉ−ｇｒａｍ、ｎ＝２の時をｂｉ−ｇｒａｍ（２−ｇｒａｍ）、ｎ＝３の時をｔｒｉ−ｇｒａｍ（３−ｇｒａｍ）という。図１６ではｂｉ−ｇｒａｍによる言語辞書を用いたときを例にとり、ω_ｎ−１の入力単語で「奈良」が出現した時、ω_ｎでの其々の単語列への推移計算を示している。このとき、
【００１０】
【数２】

のように、直前の単語だけに依存すると考える。ｎ−ｇｒａｍ言語辞書は学習させるサンプルデータが膨大であれば、多くの単語間の接続パターンを自動的に含むことができるため、ネットワーク文法と異なり設計者が想像できなかった言い回しで入力された文法を受理することも可能である。しかし、この統計的言語辞書は自由度が高い反面、特定のタスクに限定した音声認識を行うことは、その認識率の低さに問題があるとされている。
このような問題を解決する一手段として、前記非特許文献２の手法（ＧＡ方式）の提案があり、この手法を用いることにより、認識精度において、ｎ−ｇｒａｍ言語辞書だけを用いた場合と比較して５ｐｔ以上改善している。
【００１１】
カーナビゲーションのように、移動体内環境下での音声認識を用いたアプリケーションでは、住所入力や操作コマンド入力など、特定のタスクに限定した音声発話を受理すればよいため、ネットワーク文法を用いた言語辞書が広く用いられてきた。しかし、ネットワーク文法言語辞書を用いた音声認識では、入力できる文法を予め決定しておく必要があるため、
１）使用者が使える文法を予め記憶しておく、
２）設計者が使用者の発話しうる文法をすべて記述しておく、等のいずれかの条件を満たしておく必要がある。
【００１２】
一方、ｎ−ｇｒａｍ言語辞書では、入力可能な文法の自由度は高いものの、音声認識精度がネットワーク文法言語辞書と比較して低いため、タスク限定音声発話を受理する目的には用いられてこなかった。しかしながら、上記のネットワーク文法言語辞書に要求される条件のうち、２）は、設計コスト等の問題で困難である。このため、ｎ−ｇｒａｍ言語辞書のように自由度の高い発話の受理能力を保ちつつ、特定の条件下においてはネットワーク文法言語辞書に近い認識性能を動的に取得することのできる音声認識装置が望まれている。
【００１３】
前記非特許文献２に記載のＧＡ方式においては、ネットワーク文法を事前に決定し、その情報をもとにｎ−ｇｒａｍ言語辞書でネットワーク文法とカテゴリの一致する連接単語の対数尤度に係数を乗算し、最終的な認識スコアを修整する操作を行っている。このとき、ネットワーク文法に含まれる語彙が大きいほど、出力時に修整される連接単語の数は増加し、出力結果はネットワーク文法言語だけを用いた辞書に近づいていくため、ＧＡ方式をカーナビゲーションのタスクに単純に適用させても、ネットワーク文法言語辞書と比較して効果が少ないことが予想される。
本発明では、簡単な次発話予測を行い、逐次的にｎ−ｇｒａｍ言語辞書の連接単語の確率を発話ターン毎（ここで１ターンは、１回の入力（発話）と、その入力に対するシステムの応答までを指す）、あるいは出力される情報の内容に応じて変動させることで、ＧＡ方式と同様の効果をカーナビゲーションに代表される音声認識のタスクにおいても実現させるように構成している。
【００１４】
以下、本発明の構成について説明する。
図１は本発明による音声認識の演算処理を行う演算処理装置に関する第１の実施の形態を示すブロック図、図２はこの演算処理装置に関する第２の実施の形態を示すブロック図、図３は本発明における音声認識装置の全体構成を示すブロック図である。なお、本発明は車両等の移動体に設置して使用するものである。
【００１５】
図１の１１０および図２の２１０に示す音声信号入力手段では使用者が発話した音声を収集し、処理し易い音声信号に変換する。これは図３の音声信号入力装置３１０およびＡＤ変換装置３２０に相当し、具体的にはマイクに代表される図３における音声入力装置３１０と、実時間信号離散化装置であるＡＤ変換装置３２０等によって構成される。この部分で音声信号は収集され、ＡＤ変換を行って離散的な音声信号に変換する。
【００１６】
図１の１２０および図２の２２０に示す音声認識手段では、入力された音声信号を認識して、認識結果信号Ｒ１００を送出する。認識結果信号Ｒ１００は、例えばテキストなどの情報形態に変換されている。これは図３の演算装置３３０と例えば図２における記憶手段２７０とによって実現できる。演算装置３３０としては、例えば、一般的なパーソナルコンピュータ、マイクロコンピュータ、信号処理装置としての演算機能を有するシステムを構成するＣＰＵ、ＭＰＵ、ＤＳＰを単数、或いは複数個組み合わせればよく、実時間処理が可能な演算能力を有していることが望ましい。また記憶装置もキャッシュメモリ、メインメモリ、ディスクメモリ、フラッシュメモリ、ＲＯＭ等、一般的な情報処理機器に用いられている情報記憶能力を有する機器を用いればよい。
【００１７】
図１に示す次発話予測手段１３０では、認識された語彙をもとに、次に使用者が発話する内容を予測し、予測された情報を図１に示す確率変更手段１５０に送る。一方、図２に示す次発話予測手段２５０では、図２に示す情報制御手段２３０から得られる情報をもとに、次に使用者が発話する内容を予測し、予測された情報を図２に示す確率変更手段２６０に送る。尚、図１および図２の次発話予測手段１３０および２５０については入力情報信号は異なるが、出力する情報信号は同一である。
【００１８】
図１に示す確率変更手段１５０では、送られてきた次発話予測情報を基に、図１に示す記憶手段１４０に記憶されている統計的言語辞書内に含まれる単語間の文法に関する正答確率を高くする。図２に示す確率変更手段２６０も同様の機能を有する。
【００１９】
図１に示す記憶手段１４０には音声認識に必要な、音素辞書、単語辞書、単語の接続を記述した一つ以上の言語辞書が記憶されており、認識などの演算時に参照される。図２に示す記憶手段２７０では、更に、類語辞書、履歴情報も記録されている。
【００２０】
図２に示す情報制御手段２３０では、出力する情報を決定し、図２の情報提示手段２４０と図２の次発話予測手段２５０とに出力情報を送出する。これらは図３に示す演算装置３３０を構成するものである。
【００２１】
図２に示す情報提示手段２４０では、図２の情報制御手段２３０から受け取った出力情報を使用者に対して提示する。これは図３に示す情報提示装置３４０を用いて実現できる。ここで出力情報とは、画像情報、音情報、接触情報等、五感に関する情報であり、これらを実現する情報提示装置の代表的な形態としては、表示型ディスプレイ、音出力用のスピーカ、接触ディスプレイ、フォースフィードバックスイッチなどが挙げられる。
【００２２】
以下、図４を用いて本発明における実施の形態に関する動作の流れについて説明する。
システムが動作を開始すると、はじめにステップＳ１１０において、システムが初期化される。このとき、初期状態として音声認識に必要とされる辞書がメモリ（ＲＡＭ）上に展開されるが、所有している全ての辞書を読込む必要はない。ステップＳ１２０では、入力された音信号が音声かどうかを判断する。音声信号であればステップＳ１３０に進み（Ｙｅｓの場合）、音声でなければ音声が入力されるまで待ち受ける（Ｎｏの場合）。ステップＳ１３０では、ｎ−１番目に入力された音声を認識して、音声情報に含まれる情報を、例えばテキスト情報のような形式に変換する。ステップＳ１４０では、ステップＳ１３０で出力された情報をもとに、発話状態の変化を検出する。例えば、Ｓ１３０で出力された情報が、「住所を入力したい」というテキスト列であった場合(Ｙｅｓの場合)は、使用者の次発話は具体的な住所であると判断できる。このような状態変化を検出し、次発話内容を予測する。また、状態変化が検出されなかった場合（Ｎｏの場合）には再び音声入力の待ち受けに戻る。
【００２３】
ステップＳ１５０では、ステップＳ１４０で検出された発話状態の変化と予測された次発話をもとに、統計的言語辞書内に存在する予測された次発話の単語間の文法に関する確率を変更する。なお、確率の変更対象については後述する。ステップＳ１６０で次の発話を検出し、次いでステップＳ１７０で、ｎ番目に入力された音声を検出し、音声発話がある場合には（Ｙｅｓの場合）入力された音声をステップＳ１７０において認識して音声情報に含まれる情報を、例えばテキスト情報のような形式に変換する。音声発話がない場合(Ｎｏの場合)は音声発話待ちの状態に戻る。この時はステップＳ１５０によって、統計的言語辞書の単語間の文法に関する確率がすでに修正処理されていることにより、ｎ番目発話音声の認識のために適切な状態となっており、ステップＳ１５０を導入しない場合と比較して認識率が向上している。同様にステップＳ１８０では、次発話の予測を行い、次発話の状態変更が検出された場合（Ｙｅｓの場合）はＳ１９０で、統計的言語辞書内に存在する予測された次発話の単語間の文法に関する確率を変更する。また、状態変化が検出されなかった場合（Ｎｏの場合）は、状態変化待ちの状態に戻る。
【００２４】
以下、図４のステップＳ１５０における確率の変更方法について述べる。
図５では、図４のステップＳ１４０において、次発話が住所入力であることが予測できた後の、統計的言語辞書の変更例を示している。図５のネットワーク文法言語辞書には、神奈川、奈良、埼玉とそれに続く県が記述されている。このとき、ネットワーク文法言語辞書における単語の接続である「神奈川-県」「奈良-県」「埼玉-県」を、統計的言語辞書の中から探し、それぞれに割り振られている確率を高くするように変更する。例えば、「奈良-県」の連接単語では、
【００２５】
【数３】

を計算する。このときα＞１であり、事前に決定しておく。
【００２６】
一方、図６では、ネットワーク文法言語辞書に含まれる単語と、その単語に接続し得る単語および形態素間の接続確率を向上させる例を示している。ここでは、ネットワーク文法に記述されている単語間の接続と、前記単語に接続し得る形態素と単語の接続確率の何れも変更している。例えば、図６のネットワーク文法言語辞書には、神奈川、奈良、埼玉と、それに続く県が記述されている。このとき、神奈川、奈良、埼玉に接続される可能性のある、統計的言語辞書に含まれる全ての単語の接続確率を変更する。「神奈川」に続く可能性のある単語で統計的言語辞書に含まれるものは、「県」あるいは「の」であるため、Ｐ（県│神奈川）、Ｐ（の│神奈川）の２つの確率を（数３）式を適用して変更する。
尚、確率修整の計算は、音声認識前に統計的言語辞書に対して行なう場合と、音声認識中に、音声認識結果候補として出力された文節に含まれる連接単語とネットワーク文法言語辞書とを比較して、前記連接単語がネットワーク文法言語辞書に存在した場合に計算するような仕組みとの何れを選択しても良い。
【００２７】
以下では、前述のネットワーク文法言語辞書の利用手法について説明する。
本発明に用いる、ネットワーク文法言語辞書について、２つの利用手法が考えられる。一つは、図７に示すような複数個の小規模なネットワーク文法言語辞書を切り替える手法である。例えば、インターネットのホームページ画面のように、表示内容が予測できない場合、図７のように、記憶手段７０１に表示画面が取り込まれた段階で辞書として登録する。このような場合、現在表示されている内容および過去に表示された内容を認識することが望ましいため、複数の小規模なネットワーク文法言語辞書７０２、７０３を記憶手段７０１に読み込むか、あるいは不必要な言語辞書を削除する動作を行う。一度登録された言語辞書は音声認識手段７０４に内蔵のスイッチ制御部７０５の操作で音声認識手段７０４に接続され、一時的に不必要なときはスイッチをＯＦＦに、あるいは当分使用しないと判断される場合は記憶手段７０１から削除する。
【００２８】
もう一方は、図８に示すように、あらかじめ大規模なネットワーク文法言語辞書８０２を記憶手段に有し、必要な情報すなわち予測される次発話に関係しているノードだけを動的に有効にしていく方法である。例えば、カーナビゲーションシステムでは、目的地設定などは必須のタスクである住所、施設などの情報を予め記憶手段８０１に記憶しておくことが望ましい。
すなわち、記憶手段８０１は、統計的言語辞書８０３と、発話内容を含む一つ以上のネットワーク文法言語辞書８０２と、を記憶しており、確率変更手段８０４は、次発話予測手段８０５によって予測された次発話に適合するネットワーク文法言語辞書８０２内のノードを選択し、前記統計的言語辞書内においてネットワーク文法言語辞書内のノードに含まれる連接単語の遷移確率を高くするように機能する。
また、ネットワーク文法言語辞書は、例えば複数の階層と、複数のノードをもつ木構造を有している。なお、木構造とは、枝を張った木のように、太い幹から順次細かく枝分かれして行く構造、つまり階層の高いものから低いものへ分かれて行く構造を意味する。
【００２９】
以下、図１および図２における次発話予測手段による予測手法について具体例を挙げて説明する。
はじめに、カーナビゲーションシステムで用いられることの多い住所入力のタスクを、本発明と表示装置を組み合わせて実現する例について説明する。カーナビゲーションシステムの住所入力タスクでは、県名、市区町村名、町域名、番地のように、階層構造に情報を並べ、上位階層から情報を音声入力させる手法が一般的である。従来のシステムとしては、階層毎に区切って入力する手法と、上位階層から連続して入力する手法が存在し、入力されるコマンドの情報はネットワーク文法言語辞書として記述されている。
【００３０】
本発明においては、図９に示すように表示装置にネットワーク文法言語辞書を表示させている。これは使用者にネットワーク文法言語辞書内の単語を知らしめることでシステムのコマンドの入力限界を示し、更に、表示された単語入力を促すねらいがある。表示された連接単語は使用者にとって発話しやすい音声コマンドに含まれるため、次発話予測手段では“表示された連接単語”を次発話の可能性があると判断する。図９の表示画面９０１の例では、４つの県名と、カーソル（アンダーバ）が設定されている埼玉県の４つ市（さいたま市、川口市、志木市、川越市）が表示されており、統計的言語辞書内において、前記表示連接単語の接続に関する確率が変更される。
【００３１】
図１０では、図９の表示画面右側のスクロールを動かした場合の変更された連接単語を示す。図９では「さいたま市」、「川口市」、「志木市」、「川越市」が表示画面９０１の市町村名の窓に表示されていたが、図１０では「川越市」、「鴻巣市」、「吹上市」、「春日部市」が表示されている。よって、次発話として予測され、接続に関する確率が変更される連接単語は図１０のように、表示変更後の画面に存在する連接単語となる。
図１１では、表示されている連接単語に加えて表示されている単語に文法的に接続し得る形態素との連接単語を次発話として予測した例を示している。県名の後に続く語彙としては、「神奈川」→「県」の場合と、使用者によって県が省略され「神奈川」→「の」と発話される場合が考えられる。このように、名詞の後に助詞をつけて後置詞句を作成するような、文法的に典型的な単語の接続パターンについては次発話として予測する。このような典型的な文例に関しては、対象言語の品詞接続表および特定単語に対する処理などを記憶手段に保存しておくと効率的に運用できる。同様の発想で、「神奈川」のような地名が表示されている場合は「神奈川」→「に」、「に」→「行く」のように、関連しそうな述語まで含めて連接単語の接続に関する確率を変更しても良い。
図１２では、表示されている単語と、表示されている単語の下位階層に位置する単語を連接単語とみなして、前記連接単語を次発話として予測した例を示している。表示単語である「さいたま市」の下位階層には複数の区名が存在する。よって、「さいたま」→「市」、「市」→「浦和区」、「市」→「大宮区」のように市区名の連接単語を次発話として予測する。
【００３２】
次に、インターネットのホームページ情報の表示で用いられることの多い文節、文章についての次発話予測の例を説明する。
図１３では、４つの文節が表示されており、それぞれに複数の連接単語が含まれている。このような場合、それぞれの連接単語を次発話として予測するのはもちろんのこと、個々の単語と、前記単語から接続される可能性のある単語による連接単語についても次発話として予測する。図１３では、「スカイライン」という単語について、既に表示されている「スカイライン」→「クーペ」の他に、後置詞句をつくる「スカイライン」→「の」などが次発話として予測される。その他にも商品ラインナップ情報などを記憶手段に保存しておけば、「スカイライン」→「セダン」などの情報も次発話として予測できる。
【００３３】
文節、文章を用いた情報は音声ガイダンスとして提示される場合もある。音声ガイダンスによる情報提示では、次発話として予測される語彙を減らすことができる。図１３を例に取ると、４つの文節メニューの内、先頭の、
「新型スカイラインクーペプレゼント」
が音声によって提示された場合、変更する連接単語の例として、
（連接単語群１）「新型」→「スカイライン」、「新型」→「キューブ」、…
（連接単語群２）「スカイライン」→「クーペ」、「スカイライン」→「セダン」、…
（連接単語群３）「クーペ」→「プレゼント」、…
などが考えられる。２番目の、
「ＴＲＹ！コンパクトカーキャンペーン」
が音声によって提示された場合、
（連接単語群４）「ＴＲＹ」→「コンパクト」
（連接単語群５）「コンパクト」→「カー」、「コンパクト」→「な」、…
（連接単語群６）「カー」→「キャンペーン」、「カー」→「ディーラー」、…
などが変更する連接単語の例としてあげられる。この場合、音声提示された順に連接単語の接続に関する確率を変更していき、音声提示が終了して一定時間経過した後、徐々に変更前の確率に戻していく。このように音声ガイダンスと本発明を組み合わせると、次発話予測する連接単語の範囲を狭めることができるため効果的である。
【００３４】
表示、音声などで提示された連接単語の類語も次発話として予測できる。最も簡単な方法は、前記記憶手段に類語辞典を有し、入力された単語の類語を調べ、この単語と置き換えた連接単語を予測値とすることである。図１４は、４つの単語が表示された画面において、「エアコン」に関する類語を前記統計的言語辞書に加え、連接単語を作成して追加した例である。追加される単語は「クーラー」、「空調」、「冷房」であり、エアコンの場合と同様に、連接単語としてそれぞれ、
「クーラー」→「ＯＮ」、「クーラー」→「の」
「空調」→「ＯＮ」、「空調」→「の」
「冷房」→「ＯＮ」、「冷房」→「の」
が次発話として予測されている。また、以上の処理で次発話として予測された単語を文章の主語および述語としての機能を有する単語に限定することにより、処理効率をさらに高めることが出来る。
【００３５】
最後に、音声の入力履歴を用いて次発話を予測する方法について説明する。
音声ガイダンスの例でも述べたように、提示された情報の履歴をもとに、統計的言語辞書内において履歴の増加と共に徐々に連接単語の接続に関する確率を変更していくことは有効である。更なる発展法としては、
１．階層構造の情報において、一度使用者が表示させた階層は一定期間、連接単語の接続に関する確率を変更しつづける、
２．数ターン前に入力された内容に含まれる連接単語は一定期間、連接単語の接続に関する確率を変更しつづける、
３．使用者の癖が履歴で明らかなときには関連する連接単語の接続に関する確率を変更しつづける、
等が考えられる。３について、例えば、
・システム起動時に必ずラジオを設定する、
・特定の時間にラジオをつける、
といった動作が履歴により発見されたとき、操作に関連する連接単語の接続に関する確率を変更することで、使用者にとって使い勝手のよいシステムとなる。
【００３６】
なお、以上述べた処理において、予測された連接単語が統計的言語辞書に存在しないことが判明した場合、その時点で当該単語を統計的言語辞書に追加すると同時に、連接単語の接続に関する確率を付加する。
上記に述べた例はあくまで発明内容の理解を容易に行なうためであり、発明の範囲は上記に限定されるものではない。
【００３７】
以上述べたように本発明によれば、入力音声に対して文法的制約を低減することなく認識精度を維持し得る移動体用音声認識装置の実現を可能としたのみならず、以下の効果についても実現している。すなわち、
記憶容量の増加を抑えることができたため、装置規模の増大を抑えることができた。
また、計算時間を少なくできたため移動体における実時間処理を可能としている。
このような効果は、認識処理アルゴリズムにおいて複数の階層と木構造を採用し、ネットワーク文法言語辞書の内容を工夫することにより実現し得たものである。
また、使用者に提示する情報とリンクすることで、次発話予測の制度を向上している。
さらに、文節および文章で与えられた情報に対しても、精度の高い次発話予測を可能としている。
このため、使用者による発話自由度も高く出来、その上、統計的言語辞書の語彙を増加させることもなく、また、統計的言語辞書に含まれていない単語が次発話として予測された場合でも、処理を可能とすることができるようになった。
【図面の簡単な説明】
【図１】本発明における音声認識結果から次発話予測を行う実施例のブロック図。
【図２】本発明における情報制御手段の出力から次発話予測を行う実施例のブロック図。
【図３】本発明のハード構成の一実施例を示すブロック図。
【図４】本発明における処理のフロー図。
【図５】本発明の確率変更の処理手順を示したフロー図。
【図６】本発明の確率変更の処理手順を示したフロー図。
【図７】本発明のクレーム２に対応したブロック図。
【図８】本発明のクレーム３に対応したブロック図。
【図９】本発明における次発話予測方法の具体例を示す図。
【図１０】本発明における次発話予測方法の他の具体例を示す図。
【図１１】本発明における次発話予測方法の他の具体例を示す図。
【図１２】本発明における次発話予測方法の他の具体例を示す図。
【図１３】本発明における次発話予測方法の他の具体例を示す図。
【図１４】本発明における次発話予測方法の他の具体例を示す図。
【図１５】従来のネットワーク文法言語辞書における処理を示すフロー図。
【図１６】ｎ−ｇｒａｍ言語辞書における処理手順を示すフロー図。
【符号の説明】
１１０、２１０：音声入力手段１２０、２２０：音声認識手段
１３０、２５０：次発話予測手段１４０、２７０：記憶手段
１５０、２６０：確率変更手段２３０：情報制御手段
２４０：情報提示手段３１０：音声信号入力手段
３２０：Ａ／Ｄ変換装置３３０：演算装置
３４０：情報提示装置３５０：記憶装置
７０１：記憶手段
７０２：ネットワーク文法言語辞書１
７０３：ネットワーク文法言語辞書２
７０４：音声認識手段７０５：スイッチ制御部
８０１：記憶手段
８０２：ネットワーク文法言語辞書９０１：表示画面

Claims

音声を入力する音声入力手段と、
入力された音声発話と比較して評価するための音素辞書、単語辞書および連接単語に関する文法が統計的に記述された統計的言語辞書を記憶しておく記憶手段と、
前記音声発話を検出する発話検出手段と、
前記検出された発話信号を、前記統計的言語辞書を用いて分析する音声認識手段と、
前記音声認識手段により認識された結果に基づいて使用者が次に発話する可能性のある連接単語を予測する次発話予測手段と、
前記次発話予測手段により予測された連接単語に基づいて前記統計的言語辞書内の連接単語の接続に関する確率を変更する確率変更手段と、
を備え、かつ、移動体に設置した状態で使用される移動体用音声認識装置において、
前記記憶手段は、前記統計的言語辞書と、発話内容に関連した単語、文節あるいは形態素を記述した複数のネットワーク文法言語辞書と、を記憶しており、
前記確率変更手段は、前記次発話予測手段によって予測された次発話に適合する特定のネットワーク文法言語辞書を前記複数のネットワーク言語辞書の中から選択し、前記統計的言語辞書内において前記選択されたネットワーク文法言語辞書に含まれる連接単語の遷移確率を高くする、ことを特徴とする移動体用音声認識装置。
前記記憶手段は、前記統計的言語辞書と、一つ以上のネットワーク文法言語辞書と、を記憶しており、
前記確率変更手段は、前記次発話予測手段によって予測された次発話に適合する前記ネットワーク文法言語辞書内のノードを選択し、前記統計的言語辞書内において前記ネットワーク文法言語辞書内のノードに含まれる連接単語の遷移確率を高くする、ことを特徴とする請求項１に記載の移動体用音声認識装置。
前記ネットワーク文法言語辞書は、複数の階層と、複数のノードをもつ木構造を有していることを特徴とする請求項１または請求項２に記載の移動体用音声認識装置。
前記ネットワーク文法言語辞書は、複数の文節、単語および形態素を第１階層とし、その前後に接続され得る文節、単語および形態素を記述するものであることを特徴とする請求項１または請求項２に記載の移動体用音声認識装置。
前記ネットワーク文法言語辞書は、広域から狭域に至る階層構造を有する地名情報を記憶しており、前記次発話予測手段は、前記階層構造を用いて使用者が次に発話する可能性のある地名の連接単語を予測することを特徴とする請求項３または請求項４に記載の移動体用音声認識装置。