[go: up one dir, main page]

JP4461646B2 - 音声認識装置、ビームサーチ方法、およびビームサーチプログラム - Google Patents

音声認識装置、ビームサーチ方法、およびビームサーチプログラム Download PDF

Info

Publication number
JP4461646B2
JP4461646B2 JP2001195050A JP2001195050A JP4461646B2 JP 4461646 B2 JP4461646 B2 JP 4461646B2 JP 2001195050 A JP2001195050 A JP 2001195050A JP 2001195050 A JP2001195050 A JP 2001195050A JP 4461646 B2 JP4461646 B2 JP 4461646B2
Authority
JP
Japan
Prior art keywords
hypothesis
hypotheses
expansion
pruning
threshold
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Expired - Fee Related
Application number
JP2001195050A
Other languages
English (en)
Other versions
JP2003015683A (ja
Inventor
孝 友枝
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
NEC Corp
Original Assignee
NEC Corp
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by NEC Corp filed Critical NEC Corp
Priority to JP2001195050A priority Critical patent/JP4461646B2/ja
Publication of JP2003015683A publication Critical patent/JP2003015683A/ja
Application granted granted Critical
Publication of JP4461646B2 publication Critical patent/JP4461646B2/ja
Anticipated expiration legal-status Critical
Expired - Fee Related legal-status Critical Current

Links

Images

Description

【0001】
【発明の属する技術分野】
本発明は、音声認識装置、ビームサーチ方法、およびビームサーチプログラムに関する。
【0002】
【従来の技術】
音声認識処理において、ビームサーチ法と呼ばれる方法が知られている。これは、大語彙連続音声認識などにおいて、保持する仮説(認識候補)を一定数内に納めて演算量・メモリ容量を削減するための方法の1つである。ビームサーチ法では、各フレームにおける仮説群において、所定のビーム幅を用いて、評価値の高いものだけ残し、低いものは枝刈り(プルーニング)する。
【0003】
携帯端末やカーナビでは、メモリ量の小さな組み込み用途のCPU上で動作する連続音声認識装置が求められている。そのアプリケーションとしては、目的地検索のための住所入力や目的地である施設名の入力などがある。これらのタスクを想定すると、組み込み用途の音声認識エンジンに求められる機能としては、以下のようなものが挙げられる。
【0004】
○大語彙な固有名詞の認識 ○発声中の息継ぎの許容 ○誤認識があった場合に、正しく認識された部分を省略して誤認識された所から再発声することの許容○「えー」などの付加語の許容 ○語順を入れ替えた発声の許容 ○与えられた一定のメモリ量内での動作(一時的にでもそのメモリ量を超えることは望ましくない)など。
【0005】
従来のビームサーチ法の一例が、ICSLP94,YOKOHAMA 1994年の「IMPROVEMENTS IN BEAM SEARCH」と題されたVolker Steinbissらによる論文に掲載されている。この従来方法について図10および図11を参照して説明する。ここでは、説明を簡略化して、1フレーム分の処理について述べる。
【0006】
あるフレームについて、仮説展開処理を施す前の仮説群のことを「展開前仮説」と呼ぶことにする。また、仮説展開処理が施された後の仮説群のことを「展開後仮説」と呼ぶことにする。
【0007】
ステップ1:サーチ制御部22は、展開前仮説の中から1つ仮説を取り出し、以下のステップ3までの処理を行う。サーチ制御部22は、全ての展開前仮説に対して順次このループ処理を行う。
【0008】
ステップ2:仮説を、ネットワーク管理部23に記録されているネットワーク(=音素などの認識単位をアークとするネットワーク)に従って、定められた遷移先(自己遷移を含む)に展開する。もし、ネットワークの展開処理(=サーチ処理に必要なネットワーク部分を外部記憶からメモリ上に展開する処理)が必要であれば、ネットワーク管理部23はネットワークを展開する。
【0009】
ステップ3:仮説を遷移先に展開した際に単語遷移が発生した場合、ワードエンドテーブル管理部24は、単語遷移情報を記録する。
【0010】
ステップ4:展開前仮説に対する仮説展開処理が完了すると、ビーム調整部21は、展開後仮説中で最も高いスコアSを求める。
【0011】
ステップ5:ビーム調整部21は、ステップ4で求めた最高スコアSから所定のビーム幅bを差し引いた値を枝刈りの閾値thとして決定して、展開後仮説のうち閾値th以下のスコアを持つ仮説を枝刈り(プルーニング)して棄却する。
【0012】
ステップ6:ビーム調整部21は、展開後仮説のうち、枝刈り処理後に残った仮説の数nを求める。
【0013】
ステップ7:ステップ6で求めた枝刈り後仮説数nが、予め指定された最大仮説数Nmaxよりも多い場合、ビーム調整部21は、枝刈り後の仮説数が上記Nmaxになるような仮説スコアの閾値th’を求める。ここでは、ヒストグラムを用いてその閾値を求めている。ステップ6で求めた仮説数nが、Nmax以下の場合、このフレームでの仮説展開処理は終了する。
【0014】
ステップ8:サーチ制御部22は、ステップ7においてビーム調整部21が新たに求めた閾値th’を用いて、展開後仮説をさらに枝刈りする。この結果、枝刈りされずに残っている仮説の個数は、Nmax以下に収まる。これでこのフレームでの仮説展開処理は終了する。
【0015】
【発明が解決しようとする課題】
しかしながら、上記従来のビームサーチ方法は、仮説個数の制御を仮説展開処理後に行っているため、仮説展開処理中、一時的に、仮説数が予め指定された個数を超えてしまう。これは、メモリの最大使用量が制限される組み込み用途での音声認識処理には不都合であるという問題点がある。
【0016】
本発明は、かかる問題点に鑑みてなされたものであり、ビーム幅を動的に調整制御することにより、仮説展開処理中および仮説展開処理後の仮説数を予め指定された一定個数内に抑え、処理に必要となるメモリ量を予め指定された一定容量内に納めることのできる音声認識装置、ビームサーチ方法、およびビームサーチプログラムを提供することを目的とする。
【0017】
【課題を解決するための手段】
かかる目的を達成するために、請求項1記載の発明は、連続音声認識におけるフレーム同期ビームサーチの制御を行うサーチ制御手段と、ビームサーチの際、展開される仮説が所定の最大許容仮説数および仮説を保持するための所定のメモリ容量内に納まるようにビーム幅の動的な調整処理を行うビーム調整手段と、ビームサーチの際に使用するネットワークを記憶するネットワーク管理手段と、仮説の単語履歴情報を保持するワードエンドテーブル管理手段とを有し、ビーム調整手段は、現在フレームでの仮説展開の前に、過去のフレームでの仮説展開の振る舞いを調べ、過去のフレームでの仮説展開速度、仮説展開加速度、および現在フレームでの仮説展開前の仮説数を用いて、現在フレームでの展開後仮説数の予測を行い、該予測に基づきビーム幅の調整を行うことを特徴としている。
【0018】
請求項2記載の発明は、離散単語認識におけるトレリス上でのビームサーチを制御するサーチ制御手段と、ビームサーチの際、展開される仮説が所定の最大許容仮説数および仮説を保持するための所定のメモリ容量内に納まるようにビーム幅の動的な調整処理を行うビーム調整手段と、ビームサーチにおいて使用するネットワークを記憶するネットワーク管理手段とを有し、ビーム調整手段は、現在フレームでの仮説展開の前に、過去のフレームでの仮説展開の振る舞いを調べ、過去のフレームでの仮説展開速度、仮説展開加速度、および現在フレームでの仮説展開前の仮説数を用いて、現在フレームでの展開後仮説数の予測を行い、該予測に基づきビーム幅の調整を行うことを特徴としている。
【0019】
請求項3記載の発明は、連続音声認識におけるフレーム同期ビームサーチの制御を行うサーチ制御手段と、ビームサーチの際、展開される仮説が所定の最大許容仮説数および仮説を保持するための所定のメモリ容量内に納まるようにビーム幅の動的な調整処理を行うビーム調整手段と、ビームサーチの際に使用するネットワークを記憶するネットワーク管理手段と、仮説の単語履歴情報を保持するワードエンドテーブル管理手段と、を有し、ビーム調整手段は、現在フレームでの仮説展開の前に、過去のフレームでの仮説展開の振る舞いを調べ、過去のフレームにおける仮説展開の振る舞いが現在フレームにおける仮説展開の振る舞いを予測するための良質な指標となるかどうかを判断し、良質な指標とはならないと判断した場合、現在フレームにおける仮説展開の振る舞いの予測を他の方法に変更して行い、該予測に基づきビーム幅の調整を行うことを特徴としている。
【0020】
請求項4記載の発明は、離散単語認識におけるトレリス上でのビームサーチを制御するサーチ制御手段と、ビームサーチの際、展開される仮説が所定の最大許容仮説数および仮説を保持するための所定のメモリ容量内に納まるようにビーム幅の動的な調整処理を行うビーム調整手段と、ビームサーチにおいて使用するネットワークを記憶するネットワーク管理手段と、を有し、ビーム調整手段は、現在フレームでの仮説展開の前に、過去のフレームでの仮説展開の振る舞いを調べ、過去のフレームにおける仮説展開の振る舞いが現在フレームにおける仮説展開の振る舞いを予測するための良質な指標となるかどうかを判断し、良質な指標とはならないと判断した場合、現在フレームにおける仮説展開の振る舞いの予測を他の方法に変更して行い、該予測に基づきビーム幅の調整を行うことを特徴としている。
【0021】
請求項5記載の発明は、音声認識におけるビームサーチ方法であって、時間フレーム上の仮説群について、評価値を計算するステップと、該ステップで導出された最高評価値から所定のビーム幅を差し引いて枝刈り用の評価値閾値を計算する閾値計算ステップと、該閾値計算ステップ後、閾値以上の評価値を持つ仮説の数を求め、該仮説数に基づき、展開後仮説数の予測を行うか否か判断するステップと、該ステップで展開後仮説数の予測を行うと判断された場合に閾値以上の評価値を持つ仮説についての展開後仮説数の予測を行い、該予測された仮説数が所定の最大許容数を越える場合、該最大許容数以内に納まるようにビーム幅を調整して閾値を補正する予測ステップと、以上のステップにおいて求めた閾値を用いて仮説群の枝刈りを行う枝刈りステップと、該枝刈りステップにおいて枝刈りされた後の仮説群について、ネットワークに従った展開処理を行う展開ステップと、該展開ステップ中、展開された仮説の数が最大許容数を越えることが確定した場合、展開処理のキャンセルを行って仮説展開前の状態に戻し、ビーム幅を再調整して新たな閾値を求め、枝刈りステップに戻って該閾値により再度枝刈りを行って展開処理をやり直すステップと、を有することを特徴としている。
【0022】
請求項6記載の発明は、音声認識におけるビームサーチ方法であって、時間フレーム上の仮説群について、評価値を計算するステップと、該ステップで導出された最高評価値から所定のビーム幅を差し引いて枝刈り用の評価値閾値を計算する閾値計算ステップと、閾値以上の評価値を持つ仮説についての展開後仮説数の予測を行い、該予測された仮説数が所定の最大許容数を越える場合、該最大許容数以内に納まるようにビーム幅を調整して閾値を補正する予測ステップと、以上のステップにおいて求めた閾値を用いて仮説群の枝刈りを行う枝刈りステップと、該枝刈りステップにおいて枝刈りされた後の仮説群について、ネットワークに従った展開処理を行う展開ステップと、該展開ステップ中、展開された仮説の数が最大許容数を越えることが確定した場合、展開処理のキャンセルを行って仮説展開前の状態に戻し、ビーム幅を再調整して新たな閾値を求め、枝刈りステップに戻って該閾値により再度枝刈りを行って展開処理をやり直すステップと、を有し、予測ステップは、過去のフレームでの仮説展開速度、仮説展開加速度、および現在フレームでの仮説展開前の仮説数を用いて展開後仮説数の予測を行うことを特徴としている。
【0023】
請求項7記載の発明は、音声認識におけるビームサーチ方法であって、時間フレーム上の仮説群について、評価値を計算するステップと、該ステップで導出された最高評価値から所定のビーム幅を差し引いて枝刈り用の評価値閾値を計算する閾値計算ステップと、閾値以上の評価値を持つ仮説についての展開後仮説数の予測を行い、該予測された仮説数が所定の最大許容数を越える場合、該最大許容数以内に納まるようにビーム幅を調整して閾値を補正する予測ステップと、以上のステップにおいて求めた閾値を用いて仮説群の枝刈りを行う枝刈りステップと、該枝刈りステップにおいて枝刈りされた後の仮説群について、ネットワークに従った展開処理を行う展開ステップと、該展開ステップ中、展開された仮説の数が最大許容数を越えることが確定した場合、展開処理のキャンセルを行って仮説展開前の状態に戻し、ビーム幅を再調整して新たな閾値を求め、枝刈りステップに戻って該閾値により再度枝刈りを行って展開処理をやり直すステップと、を有し、予測ステップは、過去のフレームでの仮説展開の振る舞いに応じて、展開後仮説数予測方法の変更を行うことを特徴としている。
【0024】
請求項8記載の発明は、音声認識におけるビームサーチ方法であって、時間フレーム上の仮説群について、評価値を計算するステップと、該ステップで導出された最高評価値から所定のビーム幅を差し引いて枝刈り用の評価値閾値を計算する閾値計算ステップと、閾値以上の評価値を持つ仮説についての展開後仮説数の予測を行い、該予測された仮説数が所定の最大許容数を越える場合、該最大許容数以内に納まるようにビーム幅を調整して閾値を補正する予測ステップと、以上のステップにおいて求めた閾値を用いて仮説群の枝刈りを行う枝刈りステップと、該枝刈りステップにおいて枝刈りされた後の仮説群について、ネットワークに従った展開処理を行う展開ステップと、該展開ステップ中、展開された仮説の数が最大許容数を越えることが確定した場合、展開処理のキャンセルを行って仮説展開前の状態に戻し、ビーム幅を再調整して新たな閾値を求め、枝刈りステップに戻って該閾値により再度枝刈りを行って展開処理をやり直すステップと、を有し、予測ステップは、過去のフレームでの仮説展開速度、仮説展開加速度、および現在フレームでの仮説展開前の仮説数を用いて展開後仮説数の予測を行うとともに、過去のフレームでの仮説展開の振る舞いに応じて、展開後仮説数予測方法の変更を行うことを特徴としている。
【0025】
請求項9記載の発明は、音声認識におけるビームサーチプログラムであって、時間フレーム上の仮説群について、評価値を計算する処理と、該処理で導出された最高評価値から所定のビーム幅を差し引いて枝刈り用の評価値閾値を計算する閾値計算処理と、該閾値計算処理後、閾値以上の評価値を持つ仮説の数を求め、該仮説数に基づき、展開後仮説数の予測を行うか否か判断する処理と、該処理で展開後仮説数の予測を行うと判断された場合に閾値以上の評価値を持つ仮説についての展開後仮説数の予測を行い、該予測された仮説数が所定の最大許容数を越える場合、該最大許容数以内に納まるようにビーム幅を調整して閾値を補正する予測処理と、以上の処理において求めた閾値を用いて仮説群の枝刈りを行う枝刈り処理と、該枝刈り処理において枝刈りされた後の仮説群について、ネットワークに従った展開を行う展開処理と、該展開処理中、展開された仮説の数が最大許容数を越えることが確定した場合、該展開処理のキャンセルを行って仮説展開前の状態に戻し、ビーム幅を再調整して新たな閾値を求め、枝刈り処理に戻って該閾値により再度枝刈りを行って展開処理をやり直す処理と、をコンピュータに実行させることを特徴としている。
【0026】
請求項10記載の発明は、音声認識におけるビームサーチプログラムであって、時間フレーム上の仮説群について、評価値を計算する処理と、該処理で導出された最高評価値から所定のビーム幅を差し引いて枝刈り用の評価値閾値を計算する閾値計算処理と、閾値以上の評価値を持つ仮説についての展開後仮説数の予測を行い、該予測された仮説数が所定の最大許容数を越える場合、該最大許容数以内に納まるようにビーム幅を調整して閾値を補正する予測処理と、以上の処理において求めた閾値を用いて仮説群の枝刈りを行う枝刈り処理と、該枝刈り処理において枝刈りされた後の仮説群について、ネットワークに従った展開を行う展開処理と、該展開処理中、展開された仮説の数が最大許容数を越えることが確定した場合、該展開処理のキャンセルを行って仮説展開前の状態に戻し、ビーム幅を再調整して新たな閾値を求め、枝刈り処理に戻って該閾値により再度枝刈りを行って展開処理をやり直す処理と、をコンピュータに実行させ、予測処理は、過去のフレームでの仮説展開速度、仮説展開加速度、および現在フレームでの仮説展開前の仮説数を用いて展開後仮説数の予測を行うことを特徴としている。
【0027】
請求項11記載の発明は、音声認識におけるビームサーチプログラムであって、時間フレーム上の仮説群について、評価値を計算する処理と、該処理で導出された最高評価値から所定のビーム幅を差し引いて枝刈り用の評価値閾値を計算する閾値計算処理と、閾値以上の評価値を持つ仮説についての展開後仮説数の予測を行い、該予測された仮説数が所定の最大許容数を越える場合、該最大許容数以内に納まるようにビーム幅を調整して閾値を補正する予測処理と、以上の処理において求めた閾値を用いて仮説群の枝刈りを行う枝刈り処理と、該枝刈り処理において枝刈りされた後の仮説群について、ネットワークに従った展開を行う展開処理と、該展開処理中、展開された仮説の数が最大許容数を越えることが確定した場合、該展開処理のキャンセルを行って仮説展開前の状態に戻し、ビーム幅を再調整して新たな閾値を求め、枝刈り処理に戻って該閾値により再度枝刈りを行って展開処理をやり直す処理と、をコンピュータに実行させ、予測処理は、過去のフレームでの仮説展開の振る舞いに応じて、展開後仮説数予測方法の変更を行うことを特徴としている。
【0028】
請求項12記載の発明は、音声認識におけるビームサーチプログラムであって、時間フレーム上の仮説群について、評価値を計算する処理と、該処理で導出された最高評価値から所定のビーム幅を差し引いて枝刈り用の評価値閾値を計算する閾値計算処理と、閾値以上の評価値を持つ仮説についての展開後仮説数の予測を行い、該予測された仮説数が所定の最大許容数を越える場合、該最大許容数以内に納まるようにビーム幅を調整して閾値を補正する予測処理と、以上の処理において求めた閾値を用いて仮説群の枝刈りを行う枝刈り処理と、該枝刈り処理において枝刈りされた後の仮説群について、ネットワークに従った展開を行う展開処理と、該展開処理中、展開された仮説の数が最大許容数を越えることが確定した場合、該展開処理のキャンセルを行って仮説展開前の状態に戻し、ビーム幅を再調整して新たな閾値を求め、枝刈り処理に戻って該閾値により再度枝刈りを行って展開処理をやり直す処理と、をコンピュータに実行させ、予測処理は、過去のフレームでの仮説展開速度、仮説展開加速度、および現在フレームでの仮説展開前の仮説数を用いて展開後仮説数の予測を行うとともに、過去のフレームでの仮説展開の振る舞いに応じて、展開後仮説数予測方法の変更を行うことを特徴としている。
【0037】
【発明の実施の形態】
以下、本発明の実施の形態を添付図面を参照しながら詳細に説明する。
【0038】
図1は、本発明の実施の形態における音声認識装置の構成を示すブロック図である。本装置は、ビーム調整部1と、サーチ制御部2と、ネットワーク管理部3と、ワードエンドテーブル管理部4とを有する。また、図示しない音声入力処理部、認識結果出力処理部などを有する。各部は、本発明のビームサーチ方法およびプログラムに従って動作する。ビーム調整部1は、ビームサーチの際のビーム幅の動的調整処理を行う。サーチ制御部2は、ビームサーチの主要な制御、つまり、枝刈りや仮説展開などを行う。ネットワーク管理部3は、ビームサーチの際に参照するネットワークを記憶および管理する。ワードエンドテーブル管理部4は、連続音声認識を行う際に必要な要素であり、単語履歴情報(単語終端情報・単語遷移情報を含む)を保持して管理する。
【0039】
本実施例における音声認識装置で使用するネットワークの例について説明する。本装置では、文脈自由文法(CFG)を、再帰を許すネットワーク文法の形式で記述して音声認識を行う。本装置でのネットワーク文法全体は、複数のサブネットワーク文法(ルールと呼ぶ)から構成される。ネットワーク文法全体をルールの集合で表すことにより、木構造ルールの効率的な利用などが可能である。
【0040】
例えば、図3に示す11万語全国住所認識タスクでは、全国の住所を3階層の木構造ルールから構成しており、県名の木構造ルールの出力は、各県ごとに別の木構造ルール(「神奈川県の市を集めた木構造ルール」など)に接続される。
【0041】
また、図4に示すように、ネットワーク文法中に同一の木構造ルール(「地名」や「カテゴリ名」)が重複して多数回出現するような場合にも、それら木構造ルールの形式が共有されるので、各ルールはただ1つだけ保持すればよい。これにより語順の自由度が高まる。
【0042】
図7は、本発明の実施の形態における音声認識装置でのビームサーチ方法およびビームサーチプログラムの動作を示すフローチャートである。図7および図6を用いて、本音声認識装置でのビームサーチにおける枝刈り処理方法、ビーム幅の決定、単語終端情報の記録、およびサーチ制御に必要な各種処理の例を説明する。その他の動作は、従来の連続音声認識または離散単語音声認識におけるフレーム同期ビームサーチ方法に従うものとする。以下、あるフレームについて、仮説展開処理を施す前の仮説群のことを「展開前仮説」と呼ぶことにする。また、仮説展開処理が施された後の仮説群のことを「展開後仮説」と呼ぶことにする(図6参照)。
【0043】
本発明の第1の実施の形態における音声認識装置は、以下の処理を行う。あるフレームについて、ビーム調整部1は、展開前仮説の中から最も高いスコアSを求める(ステップS1)。ビーム調整部1は、最高スコアSから、所定のビーム幅bを差し引いた値thを枝刈り用の閾値とする(ステップS2、図2参照)。そして、閾値th以上のスコアを持つ仮説の個数nを求める(ステップS3)。
【0044】
ビーム調整部1は、ステップ3で求めた仮説数nと予め指定された数Nとを比較して、展開後仮説数の予測を行う必要があるかどうか判断する(ステップS4)。nがNより小さい場合、枝刈り用の閾値をステップS2で求めたthに決定する(ステップS4・NO)。nがNよりも大きい場合(ステップS4・NO)、展開後仮説が予め指定された最大仮説数Nmaxを越える可能性があると判断して、ビーム調整部1は、所定の手法(後述)に基づき、展開後仮説数の予測を行う(予測された展開後仮説数をnpとする)(ステップS5)。そして、予測された仮説数npと、予め指定された最大仮説数Nmaxとを比較する(ステップS6)。npがNmax以下の場合、枝刈りのための仮説スコア閾値として、ステップ2で求めた閾値thを使う(ステップS7)。npがNmaxより大きい場合、展開後の仮説数がNmax(あるいはNmaxを越えることのなく最も近い数)になるような仮説スコアの閾値th’を計算して求める(ステップS8)。
【0045】
サーチ制御部2は、上記ステップにおいて決定された閾値(thまたはth’)を用いて、展開前仮説の枝刈り処理を行う(ステップS9)。
【0046】
サーチ制御部2は、展開前仮説の中から1つずつ仮説を取り出し、以下のステップS17までの仮説展開ループ処理を行う(ステップS10)。サーチ制御部2は、仮説を、ネットワーク管理部3に記録されているネットワークに従って、定められた遷移先(自己遷移を含む)に展開する(ステップS11)。もし、ネットワークの展開処理(メモリへのロード)が必要であれば、ネットワーク管理部3は、ネットワークの展開処理を行う(ステップS12、13)。サーチ制御部2は、仮説展開処理中、展開された仮説の個数naをカウントする(ステップS14)。仮説展開処理において、単語遷移が発生した場合、ワードエンドテーブル管理部4は、単語遷移情報を記録する(ステップS16、17)。
【0047】
仮説展開処理中、展開された仮説数naがNmaxを越えることが確定した場合(ステップS15・YES)、サーチ制御部2は、後述の仮説展開キャンセル処理A〜Cを行い、ビーム調整部1に対し、枝刈りのための新しい閾値th’’を要求する(ステップS18)。ビーム調整部1は、サーチ制御部2の要求に応じて、その時点での閾値(thまたはth’)より大きな閾値th’’を求めてサーチ制御部2に返す。サーチ制御部2は、新しい閾値th’’を用いて、再度、枝刈り処理を行って展開前仮説数を減らす。そして、ステップ10以降の仮説展開ループ処理をやり直す。
【0048】
キャンセル処理A:サーチ制御部2は、仮説展開処理において展開前仮説に対して行った変更を全て元に戻し、展開後仮説を保持しているメモリを、新たに仮説を記録することができるように初期化する。
【0049】
キャンセル処理B:連続音声認識の場合、サーチ制御部2は、ワードエンドテーブル管理部4がこのフレーム中に記録した全ての単語終端情報を削除し、再びこのフレームにおける処理で発生する単語終端情報を記録することができるようにワードエンドテーブル管理部4を初期化する。
【0050】
キャンセル処理C:サーチ制御部2は、仮説展開処理においてネットワーク管理部3の記憶するネットワーク情報を変更している場合、変更部分を、仮説展開処理前の状態に戻す。以上で、仮説展開のやり直しのためのキャンセル処理は終了である。
【0051】
本発明の第2の実施例における音声認識装置について、図8を参照して説明する。第2の実施例でのビーム調整部1は、過去のフレームにおける仮説展開の振る舞いから、現在フレームでの仮説展開における適切なビーム幅を予測して動的に調整制御する。第iフレームにおける、仮説展開前の仮説数をNb(i)、仮説展開後の仮説数をNa(i)と定義する。ここで、Na(i)=Nb(i)×V(i)が成り立つような係数V(i)を仮説展開速度と定義する。予め定められた最大仮説数をNmaxとすると、Nb(i)×V(i)=NmaxとなるようなNb(i)は、Nmax/V(i)と求まる。もし、Nmax/V(i)<Nb(i)である場合、枝刈りによってNb(i)個の仮説をNmax/V(i)個に減らすための、枝刈り閾値を求める。この閾値の導出計算では、従来方法と同様にヒストグラムを使用することにより、演算量を小さく抑えることができる。
【0052】
本発明の第3の実施例における音声認識装置について、図8を参照して説明する。第3の実施例でのビーム調整部1は、1つ前のフレームでの仮説展開速度V(i−1)から現在フレームでの仮説展開速度V(i)を予測し、ビーム幅を調整する。第iフレームにおける仮説展開加速度を、A(i)=V(i)/V(i−1)と定義する。理想的には、認識対象である入力音声は、フレーム間では急激には変化しないため、A(i)≒1が成り立つことが多い。このため、例えば、V(i)≒V(i−1)とみなし、第2の実施例の方法を用いてビーム幅の調整を行う。
【0053】
また、A(i)=V(i)/V(i−1)≒1としてNa(i)を予測する方法以外にも、過去数フレーム分のV(j)(j<i)を用いた回帰計算を用いてV(i)を予測する方法も可能である。
【0054】
本発明の第4の実施の形態における音声認識装置のビーム調整部1は、サーチ制御部2から枝刈り閾値の変更要求を受けると、より多くの仮説を枝刈りするために、枝刈り閾値を上げる(=ビーム幅を狭める)。閾値の変更例をいくつか挙げる。
【0055】
例1:ビーム調整部1は、変更要求を受けた時点でのビーム幅に、予め定められた1より小さな値を掛けることにより、ビーム幅を狭め、現在残っている仮説のスコアの中で最も良いスコアから上記新たなビーム幅を差し引いたスコアを新たな閾値としてサーチ制御部2に渡す。
【0056】
例2:図9を参照して説明する。変更要求を受けた時点での、展開前仮説のうち仮説展開処理の終了済みの仮説の数をNeとする。変更要求を受けた時点で、展開後仮説数は、予め指定された最大値Nmaxに達しているので、仮説展開速度をNmax/Neとみなす。展開後仮説数をNmaxにするためには、展開前仮説数をNeとすればよい。ビーム調整部1は、展開前仮説数をNeとするような閾値を計算し、サーチ制御部2に渡す。また、安全係数として予め定められた1より小さな値sをNeに掛け、展開前仮説数をs×Neとしてもよい。
【0057】
例3:例2で求めた仮説展開速度Nmax/Neと、変更要求を受けた時点で計算されている仮説展開速度Vとから、新たな仮説展開速度を内挿して求める。例えば、定数a(0≦a≦1)を用いて、aV+(1−a)Nmax/Neとする。この仮説展開速度を用いると、展開前仮説数は、Nmax/{aV+(1−a)Nmax/Ne}となる。ビーム調整部1は、展開前仮説数がこの数になる閾値を求め、サーチ制御部2に渡す。
【0058】
本発明の第5の実施の形態における音声認識装置のサーチ制御部2は、展開後仮説数が、予め指定された最大値Nmaxを越えた場合、そのフレームで既に行った展開前仮説に対する仮説展開処理による全ての変更をキャンセルして元に戻す。
【0059】
例えば、前述の従来方法では、ネットワークのアークの持つ情報として、仮説へのポインタを持つ必要があり、仮説展開処理中に、このポインタの値は、アーク上の展開前仮説のポインタから展開後仮説へのポインタに書き換えられる。この場合、アークの持つ仮説へのポインタを仮説展開前の状態に戻す必要がある。
【0060】
また、ワードエンドテーブル管理部4に、そのフレームで発生した単語遷移情報が記録されており、この記録も削除しなくてはならない。第5の実施例の音声認識装置のサーチ制御部2は、以上のようなキャンセル処理の必要な情報を全て初期化する(展開処理前の状態に戻す)。ただし、ネットワーク展開のキャンセル処理は行っても行わなくても良い。ネットワーク展開のキャンセル処理を行った場合、別の閾値で再びこのフレームのサーチ処理を行う際にネットワーク展開処理を行わなくてはならないが、仮説展開処理のやり直しを行う前に既に展開されてしまった不必要なネットワーク展開のための必要なメモリを要しないため、メモリ量が少なくて済む。ネットワーク展開のキャンセル処理を行わなかった場合、別の閾値で再びこのフレームのビームサーチを行う際にネットワーク展開処理を行う必要はなく、ネットワーク展開のための演算量を減らすことができる。但しこの場合、不必要なネットワーク展開も記録したままとなるため、余分なメモリ量を必要とする。
【0061】
本発明の第6の実施の形態における音声認識装置のワードエンドテーブル管理部4は、サーチ制御部2から、現在フレームでの仮説展開処理において記録された単語終端情報の削除要求があった場合、現在フレームでの仮説展開処理において記録された全ての単語終端情報を削除することにより、不要なメモリを削減する。
【0062】
本発明の第7の実施の形態における音声認識装置のビーム調整部1は、仮説展開の予測が困難であると判断したとき、予測方法を変更する。仮説展開の予測が困難であるケースの1つとして、ビームサーチを行っている対象のネットワーク中で急激に分岐数が増える箇所があり、そこに到達した仮説が一気に多くの仮説に展開されるというケースが考えられる。このため、仮説展開加速度が、予め指定された一定値(=Amaxとする)を越えた場合、仮説展開の予測方法を別の方法に変更した方が良い。予測方法としては以下のものが考えられる。
【0063】
方法1:仮説展開速度を1とする。この仮説展開速度を用いて、第2の実施例の方法で展開後仮説数を予測する。
【0064】
方法2:仮説展開速度として、現在求められている仮説展開速度ではなく、V(i−1)/Amaxを用いる。この仮説展開速度を用いて、第2の実施例の方法で展開後仮説数を予測する。
【0065】
方法3:現在生き残っている仮説の存在するアークについて、全ての後続アーク数をネットワークから求め、V=([全ての後続アーク数]+[現在の仮説の存在するアーク数])/[現在の仮説の存在するアーク数]を仮説展開速度とする。この仮説展開速度を用いて、第2の実施例の方法で展開後仮説数を予測する。また、予め定めた安全係数s(0<s<1)を上記Vに掛け、s×Vを仮説展開速度としても良い。
【0066】
なお、上述した実施形態は、本発明の好適な実施形態の一例を示すものであり、本発明はそれに限定されるものではなく、その要旨を逸脱しない範囲内において、種々変形実施が可能である。
【0067】
【発明の効果】
以上の説明から明らかなように、本発明によれば、仮説を保持する数およびメモリ容量を所定値内に納めることにより、省メモリ・省演算量を実現することができる。
【図面の簡単な説明】
【図1】本発明の実施の形態における音声認識装置の構成を示すブロック図である。
【図2】枝刈り閾値の決定の仕方について示す図である。
【図3】ネットワークの例(11万語全国住所タスク)を示す図である。
【図4】ネットワークの例(施設名入力タスク)を示す図である。
【図5】あるフレームにおける展開前仮説と展開後仮説について示す図である。
【図6】本発明のビームサーチ方法について説明するための図である。
【図7】本発明の実施の形態における音声認識装置でのビームサーチ方法およびビームサーチプログラムの処理を示すフローチャートである。
【図8】第3の実施例における予測方法を説明するための図である。
【図9】第4の実施例における閾値変更例2を説明するための図である。
【図10】従来のビームサーチを行う音声認識装置の構成を示すブロック図である。
【図11】従来のビームサーチ方法の一例の動作を示すフローチャートである。
【符号の説明】
1 ビーム調整部
2 サーチ制御部
3 ネットワーク管理部
4 ワードエンドテーブル管理部
21 ビーム調整部
22 サーチ制御部
23 ネットワーク管理部
24 ワードエンドテーブル管理部

Claims (12)

  1. 連続音声認識におけるフレーム同期ビームサーチの制御を行うサーチ制御手段と、
    前記ビームサーチの際、展開される仮説が所定の最大許容仮説数および仮説を保持するための所定のメモリ容量内に納まるようにビーム幅の動的な調整処理を行うビーム調整手段と、
    前記ビームサーチの際に使用するネットワークを記憶するネットワーク管理手段と、
    前記仮説の単語履歴情報を保持するワードエンドテーブル管理手段と、
    を有し、
    前記ビーム調整手段は、現在フレームでの仮説展開の前に、過去のフレームでの仮説展開の振る舞いを調べ、過去のフレームでの仮説展開速度、仮説展開加速度、および現在フレームでの仮説展開前の仮説数を用いて、現在フレームでの展開後仮説数の予測を行い、該予測に基づきビーム幅の調整を行うことを特徴とする音声認識装置。
  2. 離散単語認識におけるトレリス上でのビームサーチを制御するサーチ制御手段と、
    前記ビームサーチの際、展開される仮説が所定の最大許容仮説数および仮説を保持するための所定のメモリ容量内に納まるようにビーム幅の動的な調整処理を行うビーム調整手段と、
    前記ビームサーチにおいて使用するネットワークを記憶するネットワーク管理手段と、
    を有し、
    前記ビーム調整手段は、現在フレームでの仮説展開の前に、過去のフレームでの仮説展開の振る舞いを調べ、過去のフレームでの仮説展開速度、仮説展開加速度、および現在フレームでの仮説展開前の仮説数を用いて、現在フレームでの展開後仮説数の予測を行い、該予測に基づきビーム幅の調整を行うことを特徴とする音声認識装置。
  3. 連続音声認識におけるフレーム同期ビームサーチの制御を行うサーチ制御手段と、
    前記ビームサーチの際、展開される仮説が所定の最大許容仮説数および仮説を保持するための所定のメモリ容量内に納まるようにビーム幅の動的な調整処理を行うビーム調整手段と、
    前記ビームサーチの際に使用するネットワークを記憶するネットワーク管理手段と、
    前記仮説の単語履歴情報を保持するワードエンドテーブル管理手段と、
    を有し、
    前記ビーム調整手段は、現在フレームでの仮説展開の前に、過去のフレームでの仮説展開の振る舞いを調べ、過去のフレームにおける仮説展開の振る舞いが現在フレームにおける仮説展開の振る舞いを予測するための良質な指標となるかどうかを判断し、良質な指標とはならないと判断した場合、前記現在フレームにおける仮説展開の振る舞いの予測を他の方法に変更して行い、該予測に基づきビーム幅の調整を行うことを特徴とする音声認識装置。
  4. 離散単語認識におけるトレリス上でのビームサーチを制御するサーチ制御手段と、
    前記ビームサーチの際、展開される仮説が所定の最大許容仮説数および仮説を保持するための所定のメモリ容量内に納まるようにビーム幅の動的な調整処理を行うビーム調整手段と、
    前記ビームサーチにおいて使用するネットワークを記憶するネットワーク管理手段と、
    を有し、
    前記ビーム調整手段は、現在フレームでの仮説展開の前に、過去のフレームでの仮説展開の振る舞いを調べ、過去のフレームにおける仮説展開の振る舞いが現在フレームにおける仮説展開の振る舞いを予測するための良質な指標となるかどうかを判断し、良質な指標とはならないと判断した場合、前記現在フレームにおける仮説展開の振る舞いの予測を他の方法に変更して行い、該予測に基づきビーム幅の調整を行うことを特徴とする音声認識装置。
  5. 音声認識におけるビームサーチ方法であって、
    時間フレーム上の仮説群について、評価値を計算するステップと、
    該ステップで導出された最高評価値から所定のビーム幅を差し引いて枝刈り用の評価値閾値を計算する閾値計算ステップと、
    該閾値計算ステップ後、前記閾値以上の評価値を持つ仮説の数を求め、該仮説数に基づき、展開後仮説数の予測を行うか否か判断するステップと、
    該ステップで展開後仮説数の予測を行うと判断された場合に前記閾値以上の評価値を持つ仮説についての展開後仮説数の予測を行い、該予測された仮説数が所定の最大許容数を越える場合、該最大許容数以内に納まるように前記ビーム幅を調整して前記閾値を補正する予測ステップと、
    以上のステップにおいて求めた前記閾値を用いて前記仮説群の枝刈りを行う枝刈りステップと、
    該枝刈りステップにおいて枝刈りされた後の仮説群について、ネットワークに従った展開処理を行う展開ステップと、
    該展開ステップ中、展開された仮説の数が前記最大許容数を越えることが確定した場合、展開処理のキャンセルを行って仮説展開前の状態に戻し、前記ビーム幅を再調整して新たな閾値を求め、前記枝刈りステップに戻って該閾値により再度枝刈りを行って前記展開処理をやり直すステップと、
    を有することを特徴とするビームサーチ方法。
  6. 音声認識におけるビームサーチ方法であって、
    時間フレーム上の仮説群について、評価値を計算するステップと、
    該ステップで導出された最高評価値から所定のビーム幅を差し引いて枝刈り用の評価値閾値を計算する閾値計算ステップと、
    前記閾値以上の評価値を持つ仮説についての展開後仮説数の予測を行い、該予測された仮説数が所定の最大許容数を越える場合、該最大許容数以内に納まるように前記ビーム幅を調整して前記閾値を補正する予測ステップと、
    以上のステップにおいて求めた前記閾値を用いて前記仮説群の枝刈りを行う枝刈りステップと、
    該枝刈りステップにおいて枝刈りされた後の仮説群について、ネットワークに従った展開処理を行う展開ステップと、
    該展開ステップ中、展開された仮説の数が前記最大許容数を越えることが確定した場合、展開処理のキャンセルを行って仮説展開前の状態に戻し、前記ビーム幅を再調整して新たな閾値を求め、前記枝刈りステップに戻って該閾値により再度枝刈りを行って前記展開処理をやり直すステップと、
    を有し、
    前記予測ステップは、過去のフレームでの仮説展開速度、仮説展開加速度、および現在フレームでの仮説展開前の仮説数を用いて展開後仮説数の予測を行うことを特徴とするビームサーチ方法。
  7. 音声認識におけるビームサーチ方法であって、
    時間フレーム上の仮説群について、評価値を計算するステップと、
    該ステップで導出された最高評価値から所定のビーム幅を差し引いて枝刈り用の評価値閾値を計算する閾値計算ステップと、
    前記閾値以上の評価値を持つ仮説についての展開後仮説数の予測を行い、該予測された仮説数が所定の最大許容数を越える場合、該最大許容数以内に納まるように前記ビーム幅を調整して前記閾値を補正する予測ステップと、
    以上のステップにおいて求めた前記閾値を用いて前記仮説群の枝刈りを行う枝刈りステップと、
    該枝刈りステップにおいて枝刈りされた後の仮説群について、ネットワークに従った展開処理を行う展開ステップと、
    該展開ステップ中、展開された仮説の数が前記最大許容数を越えることが確定した場合、展開処理のキャンセルを行って仮説展開前の状態に戻し、前記ビーム幅を再調整して新たな閾値を求め、前記枝刈りステップに戻って該閾値により再度枝刈りを行って前記展開処理をやり直すステップと、
    を有し、
    前記予測ステップは、過去のフレームでの仮説展開の振る舞いに応じて、展開後仮説数予測方法の変更を行うことを特徴とするビームサーチ方法。
  8. 音声認識におけるビームサーチ方法であって、
    時間フレーム上の仮説群について、評価値を計算するステップと、
    該ステップで導出された最高評価値から所定のビーム幅を差し引いて枝刈り用の評価値閾値を計算する閾値計算ステップと、
    前記閾値以上の評価値を持つ仮説についての展開後仮説数の予測を行い、該予測された仮説数が所定の最大許容数を越える場合、該最大許容数以内に納まるように前記ビーム幅を調整して前記閾値を補正する予測ステップと、
    以上のステップにおいて求めた前記閾値を用いて前記仮説群の枝刈りを行う枝刈りステップと、
    該枝刈りステップにおいて枝刈りされた後の仮説群について、ネットワークに従った展開処理を行う展開ステップと、
    該展開ステップ中、展開された仮説の数が前記最大許容数を越えることが確定した場合、展開処理のキャンセルを行って仮説展開前の状態に戻し、前記ビーム幅を再調整して新たな閾値を求め、前記枝刈りステップに戻って該閾値により再度枝刈りを行って前記展開処理をやり直すステップと、
    を有し、
    前記予測ステップは、過去のフレームでの仮説展開速度、仮説展開加速度、および現在フレームでの仮説展開前の仮説数を用いて展開後仮説数の予測を行うとともに、過去のフレームでの仮説展開の振る舞いに応じて、展開後仮説数予測方法の変更を行うことを特徴とするビームサーチ方法。
  9. 音声認識におけるビームサーチプログラムであって、
    時間フレーム上の仮説群について、評価値を計算する処理と、
    該処理で導出された最高評価値から所定のビーム幅を差し引いて枝刈り用の評価値閾値を計算する閾値計算処理と、
    該閾値計算処理後、前記閾値以上の評価値を持つ仮説の数を求め、該仮説数に基づき、展開後仮説数の予測を行うか否か判断する処理と、
    該処理で展開後仮説数の予測を行うと判断された場合に前記閾値以上の評価値を持つ仮説についての展開後仮説数の予測を行い、該予測された仮説数が所定の最大許容数を越える場合、該最大許容数以内に納まるように前記ビーム幅を調整して前記閾値を補正する予測処理と、
    以上の処理において求めた前記閾値を用いて前記仮説群の枝刈りを行う枝刈り処理と、
    該枝刈り処理において枝刈りされた後の仮説群について、ネットワークに従った展開を行う展開処理と、
    該展開処理中、展開された仮説の数が前記最大許容数を越えることが確定した場合、該展開処理のキャンセルを行って仮説展開前の状態に戻し、前記ビーム幅を再調整して新たな閾値を求め、前記枝刈り処理に戻って該閾値により再度枝刈りを行って前記展開処理をやり直す処理と、
    をコンピュータに実行させることを特徴とするビームサーチプログラム。
  10. 音声認識におけるビームサーチプログラムであって、
    時間フレーム上の仮説群について、評価値を計算する処理と、
    該処理で導出された最高評価値から所定のビーム幅を差し引いて枝刈り用の評価値閾値を計算する閾値計算処理と、
    前記閾値以上の評価値を持つ仮説についての展開後仮説数の予測を行い、該予測された仮説数が所定の最大許容数を越える場合、該最大許容数以内に納まるように前記ビーム幅を調整して前記閾値を補正する予測処理と、
    以上の処理において求めた前記閾値を用いて前記仮説群の枝刈りを行う枝刈り処理と、
    該枝刈り処理において枝刈りされた後の仮説群について、ネットワークに従った展開を行う展開処理と、
    該展開処理中、展開された仮説の数が前記最大許容数を越えることが確定した場合、該展開処理のキャンセルを行って仮説展開前の状態に戻し、前記ビーム幅を再調整して新たな閾値を求め、前記枝刈り処理に戻って該閾値により再度枝刈りを行って前記展開処理をやり直す処理と、
    をコンピュータに実行させ、
    前記予測処理は、過去のフレームでの仮説展開速度、仮説展開加速度、および現在フレームでの仮説展開前の仮説数を用いて展開後仮説数の予測を行うことを特徴とするビームサーチプログラム。
  11. 音声認識におけるビームサーチプログラムであって、
    時間フレーム上の仮説群について、評価値を計算する処理と、
    該処理で導出された最高評価値から所定のビーム幅を差し引いて枝刈り用の評価値閾値を計算する閾値計算処理と、
    前記閾値以上の評価値を持つ仮説についての展開後仮説数の予測を行い、該予測された仮説数が所定の最大許容数を越える場合、該最大許容数以内に納まるように前記ビーム幅を調整して前記閾値を補正する予測処理と、
    以上の処理において求めた前記閾値を用いて前記仮説群の枝刈りを行う枝刈り処理と、
    該枝刈り処理において枝刈りされた後の仮説群について、ネットワークに従った展開を行う展開処理と、
    該展開処理中、展開された仮説の数が前記最大許容数を越えることが確定した場合、該展開処理のキャンセルを行って仮説展開前の状態に戻し、前記ビーム幅を再調整して新たな閾値を求め、前記枝刈り処理に戻って該閾値により再度枝刈りを行って前記展開処理をやり直す処理と、
    をコンピュータに実行させ、
    前記予測処理は、過去のフレームでの仮説展開の振る舞いに応じて、展開後仮説数予測方法の変更を行うことを特徴とするビームサーチプログラム。
  12. 音声認識におけるビームサーチプログラムであって、
    時間フレーム上の仮説群について、評価値を計算する処理と、
    該処理で導出された最高評価値から所定のビーム幅を差し引いて枝刈り用の評価値閾値を計算する閾値計算処理と、
    前記閾値以上の評価値を持つ仮説についての展開後仮説数の予測を行い、該予測された仮説数が所定の最大許容数を越える場合、該最大許容数以内に納まるように前記ビーム幅を調整して前記閾値を補正する予測処理と、
    以上の処理において求めた前記閾値を用いて前記仮説群の枝刈りを行う枝刈り処理と、
    該枝刈り処理において枝刈りされた後の仮説群について、ネットワークに従った展開を行う展開処理と、
    該展開処理中、展開された仮説の数が前記最大許容数を越えることが確定した場合、該展開処理のキャンセルを行って仮説展開前の状態に戻し、前記ビーム幅を再調整して新たな閾値を求め、前記枝刈り処理に戻って該閾値により再度枝刈りを行って前記展開処理をやり直す処理と、
    をコンピュータに実行させ、
    前記予測処理は、過去のフレームでの仮説展開速度、仮説展開加速度、および現在フレームでの仮説展開前の仮説数を用いて展開後仮説数の予測を行うとともに、過去のフレームでの仮説展開の振る舞いに応じて、展開後仮説数予測方法の変更を行うことを特徴とするビームサーチプログラム。
JP2001195050A 2001-06-27 2001-06-27 音声認識装置、ビームサーチ方法、およびビームサーチプログラム Expired - Fee Related JP4461646B2 (ja)

Priority Applications (1)

Application Number Priority Date Filing Date Title
JP2001195050A JP4461646B2 (ja) 2001-06-27 2001-06-27 音声認識装置、ビームサーチ方法、およびビームサーチプログラム

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
JP2001195050A JP4461646B2 (ja) 2001-06-27 2001-06-27 音声認識装置、ビームサーチ方法、およびビームサーチプログラム

Publications (2)

Publication Number Publication Date
JP2003015683A JP2003015683A (ja) 2003-01-17
JP4461646B2 true JP4461646B2 (ja) 2010-05-12

Family

ID=19033089

Family Applications (1)

Application Number Title Priority Date Filing Date
JP2001195050A Expired - Fee Related JP4461646B2 (ja) 2001-06-27 2001-06-27 音声認識装置、ビームサーチ方法、およびビームサーチプログラム

Country Status (1)

Country Link
JP (1) JP4461646B2 (ja)

Families Citing this family (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP4680691B2 (ja) * 2005-06-15 2011-05-11 富士通株式会社 対話システム
JP5369079B2 (ja) * 2010-12-03 2013-12-18 日本電信電話株式会社 音響モデル作成方法とその装置とプログラム
CN112151020B (zh) * 2019-06-28 2024-06-18 北京声智科技有限公司 语音识别方法、装置、电子设备及存储介质
WO2021111611A1 (ja) * 2019-12-06 2021-06-10 日本電信電話株式会社 スレッド同期装置、スレッド同期方法、およびプログラム

Also Published As

Publication number Publication date
JP2003015683A (ja) 2003-01-17

Similar Documents

Publication Publication Date Title
EP0813735B1 (en) Speech recognition
EP1128361B1 (en) Language models for speech recognition
US6266634B1 (en) Method and apparatus for generating deterministic approximate weighted finite-state automata
US6741963B1 (en) Method of managing a speech cache
EP1505573B1 (en) Speech recognition device
US20050159952A1 (en) Pattern matching for large vocabulary speech recognition with packed distribution and localized trellis access
US20050149326A1 (en) Speech recognition system and technique
US6725196B2 (en) Pattern matching method and apparatus
EP1385147A2 (en) Method of speech recognition using time-dependent interpolation and hidden dynamic value classes
JP2980420B2 (ja) 動的計画法照合装置
JP2000293191A (ja) 音声認識装置及び音声認識方法並びにその方法に用いられる木構造辞書の作成方法
US6484141B1 (en) Continuous speech recognition apparatus and method
JP4461646B2 (ja) 音声認識装置、ビームサーチ方法、およびビームサーチプログラム
US20050075876A1 (en) Continuous speech recognition apparatus, continuous speech recognition method, continuous speech recognition program, and program recording medium
JP2003208195A5 (ja)
US20030061046A1 (en) Method and system for integrating long-span language model into speech recognition system
EP0977173B1 (en) Minimization of search network in speech recognition
JP3171107B2 (ja) 音声認識装置
US6631349B1 (en) Speech recognition method and system
JP3042455B2 (ja) 連続音声認識方式
JP3494338B2 (ja) 音声認識方法
JP3148322B2 (ja) 音声認識装置
JP3315565B2 (ja) 音声認識装置
JPH0782357B2 (ja) 適応的探索方法
JP3033479B2 (ja) 音声認識装置

Legal Events

Date Code Title Description
A621 Written request for application examination

Free format text: JAPANESE INTERMEDIATE CODE: A621

Effective date: 20060516

A977 Report on retrieval

Free format text: JAPANESE INTERMEDIATE CODE: A971007

Effective date: 20090414

A131 Notification of reasons for refusal

Free format text: JAPANESE INTERMEDIATE CODE: A131

Effective date: 20090519

A521 Request for written amendment filed

Free format text: JAPANESE INTERMEDIATE CODE: A523

Effective date: 20090715

TRDD Decision of grant or rejection written
A01 Written decision to grant a patent or to grant a registration (utility model)

Free format text: JAPANESE INTERMEDIATE CODE: A01

Effective date: 20100126

A01 Written decision to grant a patent or to grant a registration (utility model)

Free format text: JAPANESE INTERMEDIATE CODE: A01

A61 First payment of annual fees (during grant procedure)

Free format text: JAPANESE INTERMEDIATE CODE: A61

Effective date: 20100208

FPAY Renewal fee payment (event date is renewal date of database)

Free format text: PAYMENT UNTIL: 20130226

Year of fee payment: 3

R150 Certificate of patent or registration of utility model

Free format text: JAPANESE INTERMEDIATE CODE: R150

FPAY Renewal fee payment (event date is renewal date of database)

Free format text: PAYMENT UNTIL: 20130226

Year of fee payment: 3

FPAY Renewal fee payment (event date is renewal date of database)

Free format text: PAYMENT UNTIL: 20140226

Year of fee payment: 4

LAPS Cancellation because of no payment of annual fees