JP3991914B2 - 移動体用音声認識装置 - Google Patents
移動体用音声認識装置 Download PDFInfo
- Publication number
- JP3991914B2 JP3991914B2 JP2003129740A JP2003129740A JP3991914B2 JP 3991914 B2 JP3991914 B2 JP 3991914B2 JP 2003129740 A JP2003129740 A JP 2003129740A JP 2003129740 A JP2003129740 A JP 2003129740A JP 3991914 B2 JP3991914 B2 JP 3991914B2
- Authority
- JP
- Japan
- Prior art keywords
- language dictionary
- words
- dictionary
- utterance
- word
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Expired - Fee Related
Links
- 230000007704 transition Effects 0.000 claims description 7
- 238000001514 detection method Methods 0.000 claims 1
- 238000011156 evaluation Methods 0.000 claims 1
- 238000000034 method Methods 0.000 description 32
- 230000008859 change Effects 0.000 description 21
- 238000012545 processing Methods 0.000 description 16
- 238000010586 diagram Methods 0.000 description 14
- 230000014509 gene expression Effects 0.000 description 6
- 238000004364 calculation method Methods 0.000 description 5
- 230000005236 sound signal Effects 0.000 description 5
- 230000000694 effects Effects 0.000 description 4
- 230000006870 function Effects 0.000 description 4
- 230000008569 process Effects 0.000 description 4
- 238000004378 air conditioning Methods 0.000 description 3
- 238000006243 chemical reaction Methods 0.000 description 3
- 238000001816 cooling Methods 0.000 description 3
- 238000004422 calculation algorithm Methods 0.000 description 2
- 238000012937 correction Methods 0.000 description 1
- 238000013461 design Methods 0.000 description 1
- 238000011161 development Methods 0.000 description 1
- 238000005516 engineering process Methods 0.000 description 1
- 230000006872 improvement Effects 0.000 description 1
- 230000010365 information processing Effects 0.000 description 1
- 230000007246 mechanism Effects 0.000 description 1
- 239000002245 particle Substances 0.000 description 1
- 238000007619 statistical method Methods 0.000 description 1
Images
Classifications
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L15/00—Speech recognition
- G10L15/08—Speech classification or search
- G10L15/18—Speech classification or search using natural language modelling
- G10L15/183—Speech classification or search using natural language modelling using context dependencies, e.g. language models
- G10L15/19—Grammatical context, e.g. disambiguation of the recognition hypotheses based on word sequence rules
- G10L15/197—Probabilistic grammars, e.g. word n-grams
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L15/00—Speech recognition
- G10L15/08—Speech classification or search
- G10L15/18—Speech classification or search using natural language modelling
- G10L15/183—Speech classification or search using natural language modelling using context dependencies, e.g. language models
Landscapes
- Engineering & Computer Science (AREA)
- Physics & Mathematics (AREA)
- Probability & Statistics with Applications (AREA)
- Artificial Intelligence (AREA)
- Computational Linguistics (AREA)
- Health & Medical Sciences (AREA)
- Audiology, Speech & Language Pathology (AREA)
- Human Computer Interaction (AREA)
- Acoustics & Sound (AREA)
- Multimedia (AREA)
- Machine Translation (AREA)
Description
【発明の属する技術分野】
本発明は車両等移動体に設置されて使用される音声認識装置に関するもので、特に音声認識の時間と精度を向上するために用いられる辞書構成の改善に係る。
【0002】
【従来の技術】
【非特許文献1】
「音声認識システム」オーム社
【非特許文献2】
「単語N−gramとネットワーク文法を併用したアルゴリズムの検討」鶴見、李、猿渡、鹿野;日本音響学会2002年秋季研究発表会、2002年9月26日
音声認識システムにおいては、発話された言語に関する辞書が必要である。この辞書としては、単語の接続状態をネットワーク構造によって単語あるいは形態素の接続文法を表現したネットワーク文法言語辞書と、単語間の統計的な接続関係を表現した統計的言語辞書の2種類が主に提案されている。前者は、認識能力は高いものの入力可能言語の数が限定される。また、上記非特許文献1によれば、後者については入力可能言語の制限は緩和されるものの、認識率が低いため音声認識用途には適切ではないとの指摘がある。
この問題の解決策として、上記非特許文献2が提案されている。これは、上記のようなネットワーク文法の単語を後述のn−gram言語辞書に追加し、これによりネットワーク文法言語辞書で連接対となっている単語の遷移確率を一律に上げる手法がある。
【0003】
【発明が解決しようとする課題】
カーナビゲーションのように、移動体内環境下での音声認識を用いたアプリケーションでは、住所入力や操作コマンド入力など、特定のタスクに限定した音声発話を受理すればよいため、ネットワーク文法を用いた言語辞書が広く用いられてきた。一方、n−gram言語辞書は入力可能な文法の自由度は高いものの、音声認識精度がネットワーク文法言語辞書と比較して低いため、タスク限定音声発話を受理する目的には用いられてこなかった。
本発明では、これら両言語辞書の特徴を生かして簡単な次発話予測を行い、逐次的にn−gram言語辞書の連接単語の確率を発話ターン毎、あるいは出力される情報の内容に応じて変動させることで、カーナビゲーションに代表される音声認識を能率よく実行し得る認識装置の実現を目的としている。
【0004】
【課題を解決するための手段】
上記目的を達成するために、本発明においては、入力された音声発話を分析するための文法が統計的に記述された統計的言語辞書を記憶しておく記憶手段と、前記入力された音声発話を前記統計的言語辞書を用いて分析する音声認識手段と、前記音声認識手段で認識された結果に基づいて使用者が次に発話する可能性のある連接単語を予測する次発話予測手段と、前記次発話予測手段により予測された連接単語に基づいて前記統計的言語辞書内の連接単語の接続に関する確率を変更する手段と、を備え、かつ、移動体に設置した状態で使用される移動体用音声認識装置において、前記記憶手段は、前記統計的言語辞書と、発話内容に関連した単語、文節あるいは形態素を記述した複数のネットワーク文法言語辞書と、を記憶しており、前記確率変更手段は、前記次発話予測手段によって予測された次発話に適合する特定のネットワーク文法言語辞書を前記複数のネットワーク言語辞書の中から選択し、前記統計的言語辞書内において前記選択されたネットワーク文法言語辞書に含まれる連接単語の遷移確率を高くする構成の移動体用音声認識装置としている。上記の統計的言語辞書は、例えば音素辞書、単語辞書、および連接語辞書に関する文法が統計的に記述されている辞書であり、複数のネットワーク文法言語辞書は発話内容に関連した単語、文節あるいは形態素を記述したものである。
【0005】
【発明の効果】
本発明により、入力音声に対して文法的制約を低減することなく認識精度を維持し得る移動体用音声認識装置の実現を可能とした。同時に記憶容量および計算時間の低減も可能となった。
【0006】
【発明の実施の形態】
はじめに、本発明に関する音声認識技術の一般的事項について説明する。すなわち、音声認識では、入力された音声をAD変換し、その離散系列xに最も適合する言語表現ωを推定する。これらを実現するためには言語表現ωを予測するため、予め言語表現を記述した辞書(以下、言語辞書と記述)が必要となる。従来提案されている手法としては、単語の接続状態をネットワーク構造によって文法を表現したネットワーク文法言語辞書と、単語間の統計的な接続確率を表現した統計的言語辞書が主に提案されている。
【0007】
ネットワーク文法では、例えば、図15のように「住所は<県名>県」のような入力を許す言語辞書を設計することができる。このとき、システムは「住所は」の発話の後には必ず「<県名>」が入力(発話)され、更に「<県名>」の後には必ず「県」が入力されることを想定している。ここで、<県名>の部分は予め必要な県名を記述しておく必要がある。もちろん県名以下の入力、例えば市区町村等も同様の手法で記述することができる。この手法では、入力可能な語彙とその接続過程を限定することで高い認識性能が得られる。
【0008】
一方、統計的言語辞書では、大量のサンプルデータから統計的な手法によって、単語と単語(形態素と形態素)の遷移確率の推定を行う。最も単純で広く用いられている手法がn−gramモデルと呼ばれるものである。これは、入力された単語列ω1ω2…ωnに対する出現確率をP(ω1ω2…ωn)として言語表現の推定をする場合に、
【0009】
【数1】
のような近似を行うモデルである。特に、n=1の時をuni−gram、n=2の時をbi−gram(2−gram)、n=3の時をtri−gram(3−gram)という。図16ではbi−gramによる言語辞書を用いたときを例にとり、ωn−1の入力単語で「奈良」が出現した時、ωnでの其々の単語列への推移計算を示している。このとき、
【0010】
【数2】
のように、直前の単語だけに依存すると考える。n−gram言語辞書は学習させるサンプルデータが膨大であれば、多くの単語間の接続パターンを自動的に含むことができるため、ネットワーク文法と異なり設計者が想像できなかった言い回しで入力された文法を受理することも可能である。しかし、この統計的言語辞書は自由度が高い反面、特定のタスクに限定した音声認識を行うことは、その認識率の低さに問題があるとされている。
このような問題を解決する一手段として、前記非特許文献2の手法(GA方式)の提案があり、この手法を用いることにより、認識精度において、n−gram言語辞書だけを用いた場合と比較して5pt以上改善している。
【0011】
カーナビゲーションのように、移動体内環境下での音声認識を用いたアプリケーションでは、住所入力や操作コマンド入力など、特定のタスクに限定した音声発話を受理すればよいため、ネットワーク文法を用いた言語辞書が広く用いられてきた。しかし、ネットワーク文法言語辞書を用いた音声認識では、入力できる文法を予め決定しておく必要があるため、
1)使用者が使える文法を予め記憶しておく、
2)設計者が使用者の発話しうる文法をすべて記述しておく、等のいずれかの条件を満たしておく必要がある。
【0012】
一方、n−gram言語辞書では、入力可能な文法の自由度は高いものの、音声認識精度がネットワーク文法言語辞書と比較して低いため、タスク限定音声発話を受理する目的には用いられてこなかった。しかしながら、上記のネットワーク文法言語辞書に要求される条件のうち、2)は、設計コスト等の問題で困難である。このため、n−gram言語辞書のように自由度の高い発話の受理能力を保ちつつ、特定の条件下においてはネットワーク文法言語辞書に近い認識性能を動的に取得することのできる音声認識装置が望まれている。
【0013】
前記非特許文献2に記載のGA方式においては、ネットワーク文法を事前に決定し、その情報をもとにn−gram言語辞書でネットワーク文法とカテゴリの一致する連接単語の対数尤度に係数を乗算し、最終的な認識スコアを修整する操作を行っている。このとき、ネットワーク文法に含まれる語彙が大きいほど、出力時に修整される連接単語の数は増加し、出力結果はネットワーク文法言語だけを用いた辞書に近づいていくため、GA方式をカーナビゲーションのタスクに単純に適用させても、ネットワーク文法言語辞書と比較して効果が少ないことが予想される。
本発明では、簡単な次発話予測を行い、逐次的にn−gram言語辞書の連接単語の確率を発話ターン毎(ここで1ターンは、1回の入力(発話)と、その入力に対するシステムの応答までを指す)、あるいは出力される情報の内容に応じて変動させることで、GA方式と同様の効果をカーナビゲーションに代表される音声認識のタスクにおいても実現させるように構成している。
【0014】
以下、本発明の構成について説明する。
図1は本発明による音声認識の演算処理を行う演算処理装置に関する第1の実施の形態を示すブロック図、図2はこの演算処理装置に関する第2の実施の形態を示すブロック図、図3は本発明における音声認識装置の全体構成を示すブロック図である。なお、本発明は車両等の移動体に設置して使用するものである。
【0015】
図1の110および図2の210に示す音声信号入力手段では使用者が発話した音声を収集し、処理し易い音声信号に変換する。これは図3の音声信号入力装置310およびAD変換装置320に相当し、具体的にはマイクに代表される図3における音声入力装置310と、実時間信号離散化装置であるAD変換装置320等によって構成される。この部分で音声信号は収集され、AD変換を行って離散的な音声信号に変換する。
【0016】
図1の120および図2の220に示す音声認識手段では、入力された音声信号を認識して、認識結果信号R100を送出する。認識結果信号R100は、例えばテキストなどの情報形態に変換されている。これは図3の演算装置330と例えば図2における記憶手段270とによって実現できる。演算装置330としては、例えば、一般的なパーソナルコンピュータ、マイクロコンピュータ、信号処理装置としての演算機能を有するシステムを構成するCPU、MPU、DSPを単数、或いは複数個組み合わせればよく、実時間処理が可能な演算能力を有していることが望ましい。また記憶装置もキャッシュメモリ、メインメモリ、ディスクメモリ、フラッシュメモリ、ROM等、一般的な情報処理機器に用いられている情報記憶能力を有する機器を用いればよい。
【0017】
図1に示す次発話予測手段130では、認識された語彙をもとに、次に使用者が発話する内容を予測し、予測された情報を図1に示す確率変更手段150に送る。一方、図2に示す次発話予測手段250では、図2に示す情報制御手段230から得られる情報をもとに、次に使用者が発話する内容を予測し、予測された情報を図2に示す確率変更手段260に送る。尚、図1および図2の次発話予測手段130および250については入力情報信号は異なるが、出力する情報信号は同一である。
【0018】
図1に示す確率変更手段150では、送られてきた次発話予測情報を基に、図1に示す記憶手段140に記憶されている統計的言語辞書内に含まれる単語間の文法に関する正答確率を高くする。図2に示す確率変更手段260も同様の機能を有する。
【0019】
図1に示す記憶手段140には音声認識に必要な、音素辞書、単語辞書、単語の接続を記述した一つ以上の言語辞書が記憶されており、認識などの演算時に参照される。図2に示す記憶手段270では、更に、類語辞書、履歴情報も記録されている。
【0020】
図2に示す情報制御手段230では、出力する情報を決定し、図2の情報提示手段240と図2の次発話予測手段250とに出力情報を送出する。これらは図3に示す演算装置330を構成するものである。
【0021】
図2に示す情報提示手段240では、図2の情報制御手段230から受け取った出力情報を使用者に対して提示する。これは図3に示す情報提示装置340を用いて実現できる。ここで出力情報とは、画像情報、音情報、接触情報等、五感に関する情報であり、これらを実現する情報提示装置の代表的な形態としては、表示型ディスプレイ、音出力用のスピーカ、接触ディスプレイ、フォースフィードバックスイッチなどが挙げられる。
【0022】
以下、図4を用いて本発明における実施の形態に関する動作の流れについて説明する。
システムが動作を開始すると、はじめにステップS110において、システムが初期化される。このとき、初期状態として音声認識に必要とされる辞書がメモリ(RAM)上に展開されるが、所有している全ての辞書を読込む必要はない。ステップS120では、入力された音信号が音声かどうかを判断する。音声信号であればステップS130に進み(Yesの場合)、音声でなければ音声が入力されるまで待ち受ける(Noの場合)。ステップS130では、n−1番目に入力された音声を認識して、音声情報に含まれる情報を、例えばテキスト情報のような形式に変換する。ステップS140では、ステップS130で出力された情報をもとに、発話状態の変化を検出する。例えば、S130で出力された情報が、「住所を入力したい」というテキスト列であった場合(Yesの場合)は、使用者の次発話は具体的な住所であると判断できる。このような状態変化を検出し、次発話内容を予測する。また、状態変化が検出されなかった場合(Noの場合)には再び音声入力の待ち受けに戻る。
【0023】
ステップS150では、ステップS140で検出された発話状態の変化と予測された次発話をもとに、統計的言語辞書内に存在する予測された次発話の単語間の文法に関する確率を変更する。なお、確率の変更対象については後述する。ステップS160で次の発話を検出し、次いでステップS170で、n番目に入力された音声を検出し、音声発話がある場合には(Yesの場合)入力された音声をステップS170において認識して音声情報に含まれる情報を、例えばテキスト情報のような形式に変換する。音声発話がない場合(Noの場合)は音声発話待ちの状態に戻る。この時はステップS150によって、統計的言語辞書の単語間の文法に関する確率がすでに修正処理されていることにより、n番目発話音声の認識のために適切な状態となっており、ステップS150を導入しない場合と比較して認識率が向上している。同様にステップS180では、次発話の予測を行い、次発話の状態変更が検出された場合(Yesの場合)はS190で、統計的言語辞書内に存在する予測された次発話の単語間の文法に関する確率を変更する。また、状態変化が検出されなかった場合(Noの場合)は、状態変化待ちの状態に戻る。
【0024】
以下、図4のステップS150における確率の変更方法について述べる。
図5では、図4のステップS140において、次発話が住所入力であることが予測できた後の、統計的言語辞書の変更例を示している。図5のネットワーク文法言語辞書には、神奈川、奈良、埼玉とそれに続く県が記述されている。このとき、ネットワーク文法言語辞書における単語の接続である「神奈川-県」「奈良-県」「埼玉-県」を、統計的言語辞書の中から探し、それぞれに割り振られている確率を高くするように変更する。例えば、「奈良-県」の連接単語では、
【0025】
【数3】
を計算する。このときα>1であり、事前に決定しておく。
【0026】
一方、図6では、ネットワーク文法言語辞書に含まれる単語と、その単語に接続し得る単語および形態素間の接続確率を向上させる例を示している。ここでは、ネットワーク文法に記述されている単語間の接続と、前記単語に接続し得る形態素と単語の接続確率の何れも変更している。例えば、図6のネットワーク文法言語辞書には、神奈川、奈良、埼玉と、それに続く県が記述されている。このとき、神奈川、奈良、埼玉に接続される可能性のある、統計的言語辞書に含まれる全ての単語の接続確率を変更する。「神奈川」に続く可能性のある単語で統計的言語辞書に含まれるものは、「県」あるいは「の」であるため、P(県│神奈川)、P(の│神奈川)の2つの確率を(数3)式を適用して変更する。
尚、確率修整の計算は、音声認識前に統計的言語辞書に対して行なう場合と、音声認識中に、音声認識結果候補として出力された文節に含まれる連接単語とネットワーク文法言語辞書とを比較して、前記連接単語がネットワーク文法言語辞書に存在した場合に計算するような仕組みとの何れを選択しても良い。
【0027】
以下では、前述のネットワーク文法言語辞書の利用手法について説明する。
本発明に用いる、ネットワーク文法言語辞書について、2つの利用手法が考えられる。一つは、図7に示すような複数個の小規模なネットワーク文法言語辞書を切り替える手法である。例えば、インターネットのホームページ画面のように、表示内容が予測できない場合、図7のように、記憶手段701に表示画面が取り込まれた段階で辞書として登録する。このような場合、現在表示されている内容および過去に表示された内容を認識することが望ましいため、複数の小規模なネットワーク文法言語辞書702、703を記憶手段701に読み込むか、あるいは不必要な言語辞書を削除する動作を行う。一度登録された言語辞書は音声認識手段704に内蔵のスイッチ制御部705の操作で音声認識手段704に接続され、一時的に不必要なときはスイッチをOFFに、あるいは当分使用しないと判断される場合は記憶手段701から削除する。
【0028】
もう一方は、図8に示すように、あらかじめ大規模なネットワーク文法言語辞書802を記憶手段に有し、必要な情報すなわち予測される次発話に関係しているノードだけを動的に有効にしていく方法である。例えば、カーナビゲーションシステムでは、目的地設定などは必須のタスクである住所、施設などの情報を予め記憶手段801に記憶しておくことが望ましい。
すなわち、記憶手段801は、統計的言語辞書803と、発話内容を含む一つ以上のネットワーク文法言語辞書802と、を記憶しており、確率変更手段804は、次発話予測手段805によって予測された次発話に適合するネットワーク文法言語辞書802内のノードを選択し、前記統計的言語辞書内においてネットワーク文法言語辞書内のノードに含まれる連接単語の遷移確率を高くするように機能する。
また、ネットワーク文法言語辞書は、例えば複数の階層と、複数のノードをもつ木構造を有している。なお、木構造とは、枝を張った木のように、太い幹から順次細かく枝分かれして行く構造、つまり階層の高いものから低いものへ分かれて行く構造を意味する。
【0029】
以下、図1および図2における次発話予測手段による予測手法について具体例を挙げて説明する。
はじめに、カーナビゲーションシステムで用いられることの多い住所入力のタスクを、本発明と表示装置を組み合わせて実現する例について説明する。カーナビゲーションシステムの住所入力タスクでは、県名、市区町村名、町域名、番地のように、階層構造に情報を並べ、上位階層から情報を音声入力させる手法が一般的である。従来のシステムとしては、階層毎に区切って入力する手法と、上位階層から連続して入力する手法が存在し、入力されるコマンドの情報はネットワーク文法言語辞書として記述されている。
【0030】
本発明においては、図9に示すように表示装置にネットワーク文法言語辞書を表示させている。これは使用者にネットワーク文法言語辞書内の単語を知らしめることでシステムのコマンドの入力限界を示し、更に、表示された単語入力を促すねらいがある。表示された連接単語は使用者にとって発話しやすい音声コマンドに含まれるため、次発話予測手段では“表示された連接単語”を次発話の可能性があると判断する。図9の表示画面901の例では、4つの県名と、カーソル(アンダーバ)が設定されている埼玉県の4つ市(さいたま市、川口市、志木市、川越市)が表示されており、統計的言語辞書内において、前記表示連接単語の接続に関する確率が変更される。
【0031】
図10では、図9の表示画面右側のスクロールを動かした場合の変更された連接単語を示す。図9では「さいたま市」、「川口市」、「志木市」、「川越市」が表示画面901の市町村名の窓に表示されていたが、図10では「川越市」、「鴻巣市」、「吹上市」、「春日部市」が表示されている。よって、次発話として予測され、接続に関する確率が変更される連接単語は図10のように、表示変更後の画面に存在する連接単語となる。
図11では、表示されている連接単語に加えて表示されている単語に文法的に接続し得る形態素との連接単語を次発話として予測した例を示している。県名の後に続く語彙としては、「神奈川」→「県」の場合と、使用者によって県が省略され「神奈川」→「の」と発話される場合が考えられる。このように、名詞の後に助詞をつけて後置詞句を作成するような、文法的に典型的な単語の接続パターンについては次発話として予測する。このような典型的な文例に関しては、対象言語の品詞接続表および特定単語に対する処理などを記憶手段に保存しておくと効率的に運用できる。同様の発想で、「神奈川」のような地名が表示されている場合は「神奈川」→「に」、「に」→「行く」のように、関連しそうな述語まで含めて連接単語の接続に関する確率を変更しても良い。
図12では、表示されている単語と、表示されている単語の下位階層に位置する単語を連接単語とみなして、前記連接単語を次発話として予測した例を示している。表示単語である「さいたま市」の下位階層には複数の区名が存在する。よって、「さいたま」→「市」、「市」→「浦和区」、「市」→「大宮区」のように市区名の連接単語を次発話として予測する。
【0032】
次に、インターネットのホームページ情報の表示で用いられることの多い文節、文章についての次発話予測の例を説明する。
図13では、4つの文節が表示されており、それぞれに複数の連接単語が含まれている。このような場合、それぞれの連接単語を次発話として予測するのはもちろんのこと、個々の単語と、前記単語から接続される可能性のある単語による連接単語についても次発話として予測する。図13では、「スカイライン」という単語について、既に表示されている「スカイライン」→「クーペ」の他に、後置詞句をつくる「スカイライン」→「の」などが次発話として予測される。その他にも商品ラインナップ情報などを記憶手段に保存しておけば、「スカイライン」→「セダン」などの情報も次発話として予測できる。
【0033】
文節、文章を用いた情報は音声ガイダンスとして提示される場合もある。音声ガイダンスによる情報提示では、次発話として予測される語彙を減らすことができる。図13を例に取ると、4つの文節メニューの内、先頭の、
「新型スカイラインクーペプレゼント」
が音声によって提示された場合、変更する連接単語の例として、
(連接単語群1)「新型」→「スカイライン」、「新型」→「キューブ」、…
(連接単語群2)「スカイライン」→「クーペ」、「スカイライン」→「セダン」、…
(連接単語群3)「クーペ」→「プレゼント」、…
などが考えられる。2番目の、
「TRY!コンパクトカーキャンペーン」
が音声によって提示された場合、
(連接単語群4)「TRY」→「コンパクト」
(連接単語群5)「コンパクト」→「カー」、「コンパクト」→「な」、…
(連接単語群6)「カー」→「キャンペーン」、「カー」→「ディーラー」、…
などが変更する連接単語の例としてあげられる。この場合、音声提示された順に連接単語の接続に関する確率を変更していき、音声提示が終了して一定時間経過した後、徐々に変更前の確率に戻していく。このように音声ガイダンスと本発明を組み合わせると、次発話予測する連接単語の範囲を狭めることができるため効果的である。
【0034】
表示、音声などで提示された連接単語の類語も次発話として予測できる。最も簡単な方法は、前記記憶手段に類語辞典を有し、入力された単語の類語を調べ、この単語と置き換えた連接単語を予測値とすることである。図14は、4つの単語が表示された画面において、「エアコン」に関する類語を前記統計的言語辞書に加え、連接単語を作成して追加した例である。追加される単語は「クーラー」、「空調」、「冷房」であり、エアコンの場合と同様に、連接単語としてそれぞれ、
「クーラー」→「ON」、「クーラー」→「の」
「空調」→「ON」、「空調」→「の」
「冷房」→「ON」、「冷房」→「の」
が次発話として予測されている。また、以上の処理で次発話として予測された単語を文章の主語および述語としての機能を有する単語に限定することにより、処理効率をさらに高めることが出来る。
【0035】
最後に、音声の入力履歴を用いて次発話を予測する方法について説明する。
音声ガイダンスの例でも述べたように、提示された情報の履歴をもとに、統計的言語辞書内において履歴の増加と共に徐々に連接単語の接続に関する確率を変更していくことは有効である。更なる発展法としては、
1.階層構造の情報において、一度使用者が表示させた階層は一定期間、連接単語の接続に関する確率を変更しつづける、
2.数ターン前に入力された内容に含まれる連接単語は一定期間、連接単語の接続に関する確率を変更しつづける、
3.使用者の癖が履歴で明らかなときには関連する連接単語の接続に関する確率を変更しつづける、
等が考えられる。3について、例えば、
・システム起動時に必ずラジオを設定する、
・特定の時間にラジオをつける、
といった動作が履歴により発見されたとき、操作に関連する連接単語の接続に関する確率を変更することで、使用者にとって使い勝手のよいシステムとなる。
【0036】
なお、以上述べた処理において、予測された連接単語が統計的言語辞書に存在しないことが判明した場合、その時点で当該単語を統計的言語辞書に追加すると同時に、連接単語の接続に関する確率を付加する。
上記に述べた例はあくまで発明内容の理解を容易に行なうためであり、発明の範囲は上記に限定されるものではない。
【0037】
以上述べたように本発明によれば、入力音声に対して文法的制約を低減することなく認識精度を維持し得る移動体用音声認識装置の実現を可能としたのみならず、以下の効果についても実現している。すなわち、
記憶容量の増加を抑えることができたため、装置規模の増大を抑えることができた。
また、計算時間を少なくできたため移動体における実時間処理を可能としている。
このような効果は、認識処理アルゴリズムにおいて複数の階層と木構造を採用し、ネットワーク文法言語辞書の内容を工夫することにより実現し得たものである。
また、使用者に提示する情報とリンクすることで、次発話予測の制度を向上している。
さらに、文節および文章で与えられた情報に対しても、精度の高い次発話予測を可能としている。
このため、使用者による発話自由度も高く出来、その上、統計的言語辞書の語彙を増加させることもなく、また、統計的言語辞書に含まれていない単語が次発話として予測された場合でも、処理を可能とすることができるようになった。
【図面の簡単な説明】
【図1】本発明における音声認識結果から次発話予測を行う実施例のブロック図。
【図2】本発明における情報制御手段の出力から次発話予測を行う実施例のブロック図。
【図3】本発明のハード構成の一実施例を示すブロック図。
【図4】本発明における処理のフロー図。
【図5】本発明の確率変更の処理手順を示したフロー図。
【図6】本発明の確率変更の処理手順を示したフロー図。
【図7】本発明のクレーム2に対応したブロック図。
【図8】本発明のクレーム3に対応したブロック図。
【図9】本発明における次発話予測方法の具体例を示す図。
【図10】本発明における次発話予測方法の他の具体例を示す図。
【図11】本発明における次発話予測方法の他の具体例を示す図。
【図12】本発明における次発話予測方法の他の具体例を示す図。
【図13】本発明における次発話予測方法の他の具体例を示す図。
【図14】本発明における次発話予測方法の他の具体例を示す図。
【図15】従来のネットワーク文法言語辞書における処理を示すフロー図。
【図16】n−gram言語辞書における処理手順を示すフロー図。
【符号の説明】
110、210:音声入力手段 120、220:音声認識手段
130、250:次発話予測手段 140、270:記憶手段
150、260:確率変更手段 230:情報制御手段
240:情報提示手段 310:音声信号入力手段
320:A/D変換装置 330:演算装置
340:情報提示装置 350:記憶装置
701:記憶手段
702:ネットワーク文法言語辞書1
703:ネットワーク文法言語辞書2
704:音声認識手段 705:スイッチ制御部
801:記憶手段
802:ネットワーク文法言語辞書 901:表示画面
Claims (5)
- 音声を入力する音声入力手段と、
入力された音声発話と比較して評価するための音素辞書、単語辞書および連接単語に関する文法が統計的に記述された統計的言語辞書を記憶しておく記憶手段と、
前記音声発話を検出する発話検出手段と、
前記検出された発話信号を、前記統計的言語辞書を用いて分析する音声認識手段と、
前記音声認識手段により認識された結果に基づいて使用者が次に発話する可能性のある連接単語を予測する次発話予測手段と、
前記次発話予測手段により予測された連接単語に基づいて前記統計的言語辞書内の連接単語の接続に関する確率を変更する確率変更手段と、
を備え、かつ、移動体に設置した状態で使用される移動体用音声認識装置において、
前記記憶手段は、前記統計的言語辞書と、発話内容に関連した単語、文節あるいは形態素を記述した複数のネットワーク文法言語辞書と、を記憶しており、
前記確率変更手段は、前記次発話予測手段によって予測された次発話に適合する特定のネットワーク文法言語辞書を前記複数のネットワーク言語辞書の中から選択し、前記統計的言語辞書内において前記選択されたネットワーク文法言語辞書に含まれる連接単語の遷移確率を高くする、ことを特徴とする移動体用音声認識装置。 - 前記記憶手段は、前記統計的言語辞書と、一つ以上のネットワーク文法言語辞書と、を記憶しており、
前記確率変更手段は、前記次発話予測手段によって予測された次発話に適合する前記ネットワーク文法言語辞書内のノードを選択し、前記統計的言語辞書内において前記ネットワーク文法言語辞書内のノードに含まれる連接単語の遷移確率を高くする、ことを特徴とする請求項1に記載の移動体用音声認識装置。 - 前記ネットワーク文法言語辞書は、複数の階層と、複数のノードをもつ木構造を有していることを特徴とする請求項1または請求項2に記載の移動体用音声認識装置。
- 前記ネットワーク文法言語辞書は、複数の文節、単語および形態素を第1階層とし、その前後に接続され得る文節、単語および形態素を記述するものであることを特徴とする請求項1または請求項2に記載の移動体用音声認識装置。
- 前記ネットワーク文法言語辞書は、広域から狭域に至る階層構造を有する地名情報を記憶しており、前記次発話予測手段は、前記階層構造を用いて使用者が次に発話する可能性のある地名の連接単語を予測することを特徴とする請求項3または請求項4に記載の移動体用音声認識装置。
Priority Applications (4)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
JP2003129740A JP3991914B2 (ja) | 2003-05-08 | 2003-05-08 | 移動体用音声認識装置 |
DE602004002230T DE602004002230T2 (de) | 2003-05-08 | 2004-05-04 | Spracherkennungssystem für ein Mobilgerät |
EP04010579A EP1475780B1 (en) | 2003-05-08 | 2004-05-04 | Voice recognition system for mobile unit |
US10/839,747 US20050004798A1 (en) | 2003-05-08 | 2004-05-06 | Voice recognition system for mobile unit |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
JP2003129740A JP3991914B2 (ja) | 2003-05-08 | 2003-05-08 | 移動体用音声認識装置 |
Publications (2)
Publication Number | Publication Date |
---|---|
JP2004333870A JP2004333870A (ja) | 2004-11-25 |
JP3991914B2 true JP3991914B2 (ja) | 2007-10-17 |
Family
ID=32985641
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
JP2003129740A Expired - Fee Related JP3991914B2 (ja) | 2003-05-08 | 2003-05-08 | 移動体用音声認識装置 |
Country Status (4)
Country | Link |
---|---|
US (1) | US20050004798A1 (ja) |
EP (1) | EP1475780B1 (ja) |
JP (1) | JP3991914B2 (ja) |
DE (1) | DE602004002230T2 (ja) |
Families Citing this family (45)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
JP4624825B2 (ja) * | 2005-03-08 | 2011-02-02 | 日産自動車株式会社 | 音声対話装置および音声対話方法 |
US8024195B2 (en) * | 2005-06-27 | 2011-09-20 | Sensory, Inc. | Systems and methods of performing speech recognition using historical information |
JP4855421B2 (ja) * | 2005-12-14 | 2012-01-18 | 三菱電機株式会社 | 音声認識装置 |
US20080033713A1 (en) * | 2006-07-10 | 2008-02-07 | Sony Ericsson Mobile Communications Ab | Predicting entered text |
JP2008064885A (ja) * | 2006-09-05 | 2008-03-21 | Honda Motor Co Ltd | 音声認識装置、音声認識方法、及び音声認識プログラム |
US9318108B2 (en) | 2010-01-18 | 2016-04-19 | Apple Inc. | Intelligent automated assistant |
US8949130B2 (en) * | 2007-03-07 | 2015-02-03 | Vlingo Corporation | Internal and external speech recognition use with a mobile communication facility |
US8886545B2 (en) | 2007-03-07 | 2014-11-11 | Vlingo Corporation | Dealing with switch latency in speech recognition |
US8635243B2 (en) * | 2007-03-07 | 2014-01-21 | Research In Motion Limited | Sending a communications header with voice recording to send metadata for use in speech recognition, formatting, and search mobile search application |
US8996379B2 (en) | 2007-03-07 | 2015-03-31 | Vlingo Corporation | Speech recognition text entry for software applications |
US8949266B2 (en) * | 2007-03-07 | 2015-02-03 | Vlingo Corporation | Multiple web-based content category searching in mobile search application |
US8886540B2 (en) * | 2007-03-07 | 2014-11-11 | Vlingo Corporation | Using speech recognition results based on an unstructured language model in a mobile communication facility application |
US10056077B2 (en) | 2007-03-07 | 2018-08-21 | Nuance Communications, Inc. | Using speech recognition results based on an unstructured language model with a music system |
US8838457B2 (en) * | 2007-03-07 | 2014-09-16 | Vlingo Corporation | Using results of unstructured language model based speech recognition to control a system-level function of a mobile communications facility |
JP5025353B2 (ja) | 2007-07-03 | 2012-09-12 | ニュアンス コミュニケーションズ,インコーポレイテッド | 対話処理装置、対話処理方法及びコンピュータ・プログラム |
US8124697B2 (en) * | 2008-02-27 | 2012-02-28 | Westlake Longview Corporation | Method of preventing or reducing agglomeration on grid in fluidized-bed vessel |
JP2009229529A (ja) * | 2008-03-19 | 2009-10-08 | Toshiba Corp | 音声認識装置及び音声認識方法 |
US8996376B2 (en) | 2008-04-05 | 2015-03-31 | Apple Inc. | Intelligent text-to-speech conversion |
US10241752B2 (en) | 2011-09-30 | 2019-03-26 | Apple Inc. | Interface for a virtual digital assistant |
US10276170B2 (en) | 2010-01-18 | 2019-04-30 | Apple Inc. | Intelligent automated assistant |
US8682667B2 (en) | 2010-02-25 | 2014-03-25 | Apple Inc. | User profiling for selecting user specific voice input processing information |
DE102011107934B4 (de) | 2011-07-19 | 2018-08-23 | Deutsches Zentrum für Luft- und Raumfahrt e.V. | Assistenzsystem |
US9721563B2 (en) | 2012-06-08 | 2017-08-01 | Apple Inc. | Name recognition system |
JP5967569B2 (ja) * | 2012-07-09 | 2016-08-10 | 国立研究開発法人情報通信研究機構 | 音声処理システム |
US9547647B2 (en) | 2012-09-19 | 2017-01-17 | Apple Inc. | Voice-based media searching |
JP6083819B2 (ja) * | 2013-01-22 | 2017-02-22 | Necソリューションイノベータ株式会社 | 入力支援システム、入力支援方法および入力支援プログラム |
WO2014197334A2 (en) | 2013-06-07 | 2014-12-11 | Apple Inc. | System and method for user-specified pronunciation of words for speech synthesis and recognition |
US9338493B2 (en) | 2014-06-30 | 2016-05-10 | Apple Inc. | Intelligent automated assistant for TV user interactions |
US9668121B2 (en) | 2014-09-30 | 2017-05-30 | Apple Inc. | Social reminders |
KR102267405B1 (ko) * | 2014-11-21 | 2021-06-22 | 삼성전자주식회사 | 음성 인식 장치 및 음성 인식 장치의 제어 방법 |
US10567477B2 (en) | 2015-03-08 | 2020-02-18 | Apple Inc. | Virtual assistant continuity |
WO2016176820A1 (en) * | 2015-05-05 | 2016-11-10 | Nuance Communications, Inc. | Automatic data switching approach in onboard voice destination entry (vde) navigation solution |
US10146979B2 (en) * | 2015-06-03 | 2018-12-04 | Lenovo Enterprise Solutions (Singapore) Pte. Ltd. | Processing visual cues to improve device understanding of user input |
US9578173B2 (en) | 2015-06-05 | 2017-02-21 | Apple Inc. | Virtual assistant aided communication with 3rd party service in a communication session |
US10067938B2 (en) | 2016-06-10 | 2018-09-04 | Apple Inc. | Multilingual word prediction |
US10043516B2 (en) | 2016-09-23 | 2018-08-07 | Apple Inc. | Intelligent automated assistant |
US10593346B2 (en) | 2016-12-22 | 2020-03-17 | Apple Inc. | Rank-reduced token representation for automatic speech recognition |
DK201770439A1 (en) | 2017-05-11 | 2018-12-13 | Apple Inc. | Offline personal assistant |
DK179745B1 (en) | 2017-05-12 | 2019-05-01 | Apple Inc. | SYNCHRONIZATION AND TASK DELEGATION OF A DIGITAL ASSISTANT |
DK179496B1 (en) | 2017-05-12 | 2019-01-15 | Apple Inc. | USER-SPECIFIC Acoustic Models |
DK201770431A1 (en) | 2017-05-15 | 2018-12-20 | Apple Inc. | Optimizing dialogue policy decisions for digital assistants using implicit feedback |
DK201770432A1 (en) | 2017-05-15 | 2018-12-21 | Apple Inc. | Hierarchical belief states for digital assistants |
DK179560B1 (en) | 2017-05-16 | 2019-02-18 | Apple Inc. | FAR-FIELD EXTENSION FOR DIGITAL ASSISTANT SERVICES |
DE102018127010A1 (de) | 2018-10-29 | 2020-04-30 | Uwe Rodenwald | Verfahren, Computerprogramm und Vorrichtung zur automatisierten computerbasierten Kommunikationsverarbeitung |
CN112017642B (zh) * | 2019-05-31 | 2024-04-26 | 华为技术有限公司 | 语音识别的方法、装置、设备及计算机可读存储介质 |
Family Cites Families (5)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
EP0602296A1 (en) * | 1992-12-17 | 1994-06-22 | International Business Machines Corporation | Adaptive method for generating field dependant models for intelligent systems |
JP3741156B2 (ja) * | 1995-04-07 | 2006-02-01 | ソニー株式会社 | 音声認識装置および音声認識方法並びに音声翻訳装置 |
JP3627299B2 (ja) * | 1995-07-19 | 2005-03-09 | ソニー株式会社 | 音声認識方法及び装置 |
JP4465564B2 (ja) * | 2000-02-28 | 2010-05-19 | ソニー株式会社 | 音声認識装置および音声認識方法、並びに記録媒体 |
US20020087309A1 (en) * | 2000-12-29 | 2002-07-04 | Lee Victor Wai Leung | Computer-implemented speech expectation-based probability method and system |
-
2003
- 2003-05-08 JP JP2003129740A patent/JP3991914B2/ja not_active Expired - Fee Related
-
2004
- 2004-05-04 DE DE602004002230T patent/DE602004002230T2/de not_active Expired - Fee Related
- 2004-05-04 EP EP04010579A patent/EP1475780B1/en not_active Expired - Lifetime
- 2004-05-06 US US10/839,747 patent/US20050004798A1/en not_active Abandoned
Also Published As
Publication number | Publication date |
---|---|
US20050004798A1 (en) | 2005-01-06 |
EP1475780B1 (en) | 2006-09-06 |
EP1475780A1 (en) | 2004-11-10 |
JP2004333870A (ja) | 2004-11-25 |
DE602004002230D1 (de) | 2006-10-19 |
DE602004002230T2 (de) | 2006-12-28 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
JP3991914B2 (ja) | 移動体用音声認識装置 | |
KR100679042B1 (ko) | 음성인식 방법 및 장치, 이를 이용한 네비게이션 시스템 | |
JP4188989B2 (ja) | 音声認識装置、音声認識方法、及び音声認識プログラム | |
Kirchhoff et al. | Morphology-based language modeling for conversational Arabic speech recognition | |
US8909529B2 (en) | Method and system for automatically detecting morphemes in a task classification system using lattices | |
US8010361B2 (en) | Method and system for automatically detecting morphemes in a task classification system using lattices | |
Zheng et al. | Navigation-orientated natural spoken language understanding for intelligent vehicle dialogue | |
JP2001005488A (ja) | 音声対話システム | |
US20080177541A1 (en) | Voice recognition device, voice recognition method, and voice recognition program | |
JP4468264B2 (ja) | 多言語による名称の音声認識のための方法とシステム | |
JP5274191B2 (ja) | 音声認識装置 | |
JP2008089625A (ja) | 音声認識装置、音声認識方法及び音声認識プログラム | |
US5875425A (en) | Speech recognition system for determining a recognition result at an intermediate state of processing | |
JP2005249829A (ja) | 音声認識を行うコンピュータネットワークシステム | |
JP5243325B2 (ja) | 音声認識に仮名漢字変換システムを用いた端末、方法及びプログラム | |
JP2871557B2 (ja) | 音声認識装置 | |
JP2006012179A (ja) | 自然言語処理装置および自然言語処理方法 | |
JP4411965B2 (ja) | 音声認識装置および音声認識方法 | |
Sugamura et al. | Speech processing technologies and telecommunications applications at NTT | |
Lin et al. | A hierarchical tag-graph search scheme with layered grammar rules for spontaneous speech understanding | |
JP4423967B2 (ja) | 音声認識装置用辞書作成方法 | |
JP2008134503A (ja) | 音声認識装置、および音声認識方法 | |
JP2005070330A (ja) | 音声認識装置及びプログラム | |
Vertanen | Efficient computer interfaces using continuous gestures, language models, and speech | |
JP2008076812A (ja) | 音声認識装置、音声認識方法、及び音声認識プログラム |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
A621 | Written request for application examination |
Free format text: JAPANESE INTERMEDIATE CODE: A621 Effective date: 20040928 |
|
A131 | Notification of reasons for refusal |
Free format text: JAPANESE INTERMEDIATE CODE: A131 Effective date: 20070313 |
|
A521 | Request for written amendment filed |
Free format text: JAPANESE INTERMEDIATE CODE: A523 Effective date: 20070427 |
|
A131 | Notification of reasons for refusal |
Free format text: JAPANESE INTERMEDIATE CODE: A131 Effective date: 20070529 |
|
A521 | Request for written amendment filed |
Free format text: JAPANESE INTERMEDIATE CODE: A523 Effective date: 20070608 |
|
TRDD | Decision of grant or rejection written | ||
A01 | Written decision to grant a patent or to grant a registration (utility model) |
Free format text: JAPANESE INTERMEDIATE CODE: A01 Effective date: 20070703 |
|
A61 | First payment of annual fees (during grant procedure) |
Free format text: JAPANESE INTERMEDIATE CODE: A61 Effective date: 20070716 |
|
R150 | Certificate of patent or registration of utility model |
Free format text: JAPANESE INTERMEDIATE CODE: R150 |
|
FPAY | Renewal fee payment (event date is renewal date of database) |
Free format text: PAYMENT UNTIL: 20100803 Year of fee payment: 3 |
|
LAPS | Cancellation because of no payment of annual fees |