JPH06266386A - ワードスポッティング方法 - Google Patents
ワードスポッティング方法Info
- Publication number
- JPH06266386A JPH06266386A JP5056214A JP5621493A JPH06266386A JP H06266386 A JPH06266386 A JP H06266386A JP 5056214 A JP5056214 A JP 5056214A JP 5621493 A JP5621493 A JP 5621493A JP H06266386 A JPH06266386 A JP H06266386A
- Authority
- JP
- Japan
- Prior art keywords
- word
- time
- state
- speech
- automaton
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Pending
Links
Abstract
(57)【要約】
【目的】 入力音声の時刻に同期して高速に且つ精度良
く、入力音声中に存在するキーワードを検出する。 【構成】 尤度計算部は、音声分析部2からの音声特徴
量の時系列を入力し、記憶部7,8の部分単語列を表す
キーワードおよびガーベッジ隠れマルコフモデルを用い
て、記憶部9に設定されたオートマトンの開始状態から
各状態までで受理可能な認識対象単語及び未知語からな
る全ての部分単語系列と、音声始端から各時刻までの入
力音声の特徴系列との間で、尤度を時刻に同期して逐次
求める。事後確率計算部4は、この尤度を用いて、各時
刻が認識対象単語を最後尾単語とする各部分単語系列の
発声終了の事後確率、各時刻が各部分単語系列の発声途
中の事後確率を求める。認識判定部5は、これらの事後
確率を時刻毎に比較し、部分単語系列中に存在する認識
対象単語を判定する。
く、入力音声中に存在するキーワードを検出する。 【構成】 尤度計算部は、音声分析部2からの音声特徴
量の時系列を入力し、記憶部7,8の部分単語列を表す
キーワードおよびガーベッジ隠れマルコフモデルを用い
て、記憶部9に設定されたオートマトンの開始状態から
各状態までで受理可能な認識対象単語及び未知語からな
る全ての部分単語系列と、音声始端から各時刻までの入
力音声の特徴系列との間で、尤度を時刻に同期して逐次
求める。事後確率計算部4は、この尤度を用いて、各時
刻が認識対象単語を最後尾単語とする各部分単語系列の
発声終了の事後確率、各時刻が各部分単語系列の発声途
中の事後確率を求める。認識判定部5は、これらの事後
確率を時刻毎に比較し、部分単語系列中に存在する認識
対象単語を判定する。
Description
【0001】
【産業上の利用分野】この発明は、人間が自由に発声し
た音声の中に存在するキーワードを、機械に認識あるい
は検出させるワードスポッティング方法に関するもので
ある。
た音声の中に存在するキーワードを、機械に認識あるい
は検出させるワードスポッティング方法に関するもので
ある。
【0002】
【従来の技術】近年音声認識技術の研究開発が活発に行
われ、いくつかの商品化も行われている。なかでも、人
間が連続的に発声した文章を認識対象とする連続音声認
識が可能となれば、多くの人間と機械間のインタフェー
スを飛躍的に改善できる。しかし現状では、数百程度の
限られた語彙数での連続音声認識が可能であるに過ぎ
ず、入力音声中に認識装置に登録されていない未知語が
存在する場合には、正しい認識結果が得られないという
問題が起こる。
われ、いくつかの商品化も行われている。なかでも、人
間が連続的に発声した文章を認識対象とする連続音声認
識が可能となれば、多くの人間と機械間のインタフェー
スを飛躍的に改善できる。しかし現状では、数百程度の
限られた語彙数での連続音声認識が可能であるに過ぎ
ず、入力音声中に認識装置に登録されていない未知語が
存在する場合には、正しい認識結果が得られないという
問題が起こる。
【0003】ワードスポッティング技術は、このような
問題の解決を目指したもので、連続的に発声された文章
音声あるいは発声時の周囲環境雑音などが音声区間の前
後に付加した入力音声信号中のどの位置に、認識装置に
登録されているキーワードが存在しているかを推定する
ものであり、入力音声中での未知語の存在を許容する認
識技術となっている。
問題の解決を目指したもので、連続的に発声された文章
音声あるいは発声時の周囲環境雑音などが音声区間の前
後に付加した入力音声信号中のどの位置に、認識装置に
登録されているキーワードが存在しているかを推定する
ものであり、入力音声中での未知語の存在を許容する認
識技術となっている。
【0004】このようなワードスポッティング方法の従
来技術としては、例えば、日本音響学会平成2年度春季
研究発表会講演論文集I(1990年3月)の29〜3
0ページに掲載されている論文「HMMによる電話音声
スポッティング」(以下、第一の方法と称する)や、I
EEE Transactions on Acoustics,Speech,andS
ignal Processing,Vol.38,No.11(1990年
11月)の1870〜1878ページに掲載されている
論文「Automatic Recognition of Keywordsin Unco
nstrained Speech Using Hidden Markov Models」
(以下、第二の方法と称する)がある。
来技術としては、例えば、日本音響学会平成2年度春季
研究発表会講演論文集I(1990年3月)の29〜3
0ページに掲載されている論文「HMMによる電話音声
スポッティング」(以下、第一の方法と称する)や、I
EEE Transactions on Acoustics,Speech,andS
ignal Processing,Vol.38,No.11(1990年
11月)の1870〜1878ページに掲載されている
論文「Automatic Recognition of Keywordsin Unco
nstrained Speech Using Hidden Markov Models」
(以下、第二の方法と称する)がある。
【0005】第一の方法では、認識装置は認識対象語に
ついてだけ統計的な確率音響モデル(キーワード隠れマ
ルコフモデル)を持ち、入力音声の各時刻を各認識対象
語の終端と仮定しながら、尤もらしい始端時刻を探索す
る方法をとっている。キーワードは、推定された単語の
時間的な長さや、推定された区間に対する確率音響モデ
ルからの尤度が、キーワード毎に決められた閾値範囲内
に入っている場合に、検出されるようになっている。し
たがって、第一の方法では入力音声中に未知語が存在し
ていても、時刻に同期してその時点で終端するキーワー
ドを高速に求めることができる。
ついてだけ統計的な確率音響モデル(キーワード隠れマ
ルコフモデル)を持ち、入力音声の各時刻を各認識対象
語の終端と仮定しながら、尤もらしい始端時刻を探索す
る方法をとっている。キーワードは、推定された単語の
時間的な長さや、推定された区間に対する確率音響モデ
ルからの尤度が、キーワード毎に決められた閾値範囲内
に入っている場合に、検出されるようになっている。し
たがって、第一の方法では入力音声中に未知語が存在し
ていても、時刻に同期してその時点で終端するキーワー
ドを高速に求めることができる。
【0006】一方、第二の方法では、入力音声中でのキ
ーワードおよび未知語相互の出現順序を有限状態オート
マトンで規定し、認識対象単語を表す確率音響モデル
(キーワード隠れマルコフモデル)と、音声以外の雑音
区間や想定される複数の未知語を用いて作成した確率音
響モデル(ガーベッジ隠れマルコフモデル)を用いてい
る。認識は、与えられたオートマトンで受理することが
可能であるような未知語を途中に含む全単語モデル列に
対する入力音声の尤度を求め、尤度が最大となる単語列
を検出することにより行うものである。このように、第
二の方法では単語の出現順序を考慮することで、誤った
位置でのキーワードの検出や正解の脱落の低減が可能で
ある。
ーワードおよび未知語相互の出現順序を有限状態オート
マトンで規定し、認識対象単語を表す確率音響モデル
(キーワード隠れマルコフモデル)と、音声以外の雑音
区間や想定される複数の未知語を用いて作成した確率音
響モデル(ガーベッジ隠れマルコフモデル)を用いてい
る。認識は、与えられたオートマトンで受理することが
可能であるような未知語を途中に含む全単語モデル列に
対する入力音声の尤度を求め、尤度が最大となる単語列
を検出することにより行うものである。このように、第
二の方法では単語の出現順序を考慮することで、誤った
位置でのキーワードの検出や正解の脱落の低減が可能で
ある。
【0007】
【発明が解決しようとする課題】上記従来技術におい
て、第一の方法では、入力音声中に未知語が存在してい
ても、時刻に同期してその時点で終端するキーワードを
高速に求められる反面、キーワード検出のための閾値範
囲の設定によっては、誤った位置でのキーワードの検出
や正解の脱落などを生じてしまう問題がある。この問題
に対応するためには、ワードスポッティング結果を用い
た繁雑な後処理が必要である。また、入力音声中でのキ
ーワードおよび未知語相互の出現順序に関する情報や、
未知語に関する確率音響モデルを利用していないため、
時間的に長い単語の中に存在する短い単語を検出してし
まうという部分マッチングの問題も生じることがあり、
これを解決するためには、部分マッチングが生じる可能
性のある単語対について、その相互位置関係に関する情
報を用いた後処理も必要であるという問題がある。
て、第一の方法では、入力音声中に未知語が存在してい
ても、時刻に同期してその時点で終端するキーワードを
高速に求められる反面、キーワード検出のための閾値範
囲の設定によっては、誤った位置でのキーワードの検出
や正解の脱落などを生じてしまう問題がある。この問題
に対応するためには、ワードスポッティング結果を用い
た繁雑な後処理が必要である。また、入力音声中でのキ
ーワードおよび未知語相互の出現順序に関する情報や、
未知語に関する確率音響モデルを利用していないため、
時間的に長い単語の中に存在する短い単語を検出してし
まうという部分マッチングの問題も生じることがあり、
これを解決するためには、部分マッチングが生じる可能
性のある単語対について、その相互位置関係に関する情
報を用いた後処理も必要であるという問題がある。
【0008】これに対し、第二の方法では、入力音声中
でのキーワードおよび未知語相互の出現順序を考慮し、
認識対象単語を表すキーワード隠れマルコフモデルと、
発声以外の雑音区間や想定される複数の未知語を用いて
作成したガーベッジ隠れマルコフモデルを用いること
で、第一の方法で問題となるキーワードの誤った位置で
の検出や正解の脱落、部分マッチングの低減を可能とし
ている。しかし、この方法では、未知語を一つの単語と
みなしており、入力音声がオートマトンで受理されるど
の単語列であるかを推定する連続単語認識を行っている
のと等価であるから、第一の方法のように、入力の時刻
に同期して、各時点で終端するキーワードを求めること
は不可能であり、入力される音声区間が確定、すなわち
発声が終了しなければ、認識結果が求められないという
問題がある。
でのキーワードおよび未知語相互の出現順序を考慮し、
認識対象単語を表すキーワード隠れマルコフモデルと、
発声以外の雑音区間や想定される複数の未知語を用いて
作成したガーベッジ隠れマルコフモデルを用いること
で、第一の方法で問題となるキーワードの誤った位置で
の検出や正解の脱落、部分マッチングの低減を可能とし
ている。しかし、この方法では、未知語を一つの単語と
みなしており、入力音声がオートマトンで受理されるど
の単語列であるかを推定する連続単語認識を行っている
のと等価であるから、第一の方法のように、入力の時刻
に同期して、各時点で終端するキーワードを求めること
は不可能であり、入力される音声区間が確定、すなわち
発声が終了しなければ、認識結果が求められないという
問題がある。
【0009】この発明は、上記第一および第二の方法に
代表される従来のワードスポッティング方法が持つ問題
点を解消し、キーワードや未知語の出現順序を考慮しな
がら、入力音声の時刻に同期して高速に、かつ精度良
く、入力音声中に存在するキーワードおよびいくつかの
キーワードの時間的連鎖を検出することが可能なワード
スポッティング方法を提供することを目的とする。
代表される従来のワードスポッティング方法が持つ問題
点を解消し、キーワードや未知語の出現順序を考慮しな
がら、入力音声の時刻に同期して高速に、かつ精度良
く、入力音声中に存在するキーワードおよびいくつかの
キーワードの時間的連鎖を検出することが可能なワード
スポッティング方法を提供することを目的とする。
【0010】
【課題を解決するための手段】この目的を達成するため
に、この発明では、まず、予め検出したい認識対象単語
とその他の未知が出現する順序関係を規定した有限状態
オートマトンと、認識対象単語の音声特徴時系列を表す
キーワード隠れマルコフモデルおよび未知語の音声特徴
時系列や雑音などの非音声の特徴時系列を包括的に表す
ガーベッジ隠れマルコフモデルを作成しておく。次いで
発声者から音声が入力されると、設定したオートマトン
の開始状態から各状態までで受理可能な認識単語および
未知語からなる全ての部分単語系列と、音声始端から各
時刻までの入力音声の特徴系列との間で、部分単語列を
表すキーワードおよびガーベッジ隠れマルコフモデルを
用いて、尤度を時刻に同期して逐次的に求める。さら
に、この尤度を用いて、各時刻が認識対象単語を最後尾
単語とするような各部分単語系列の発声終了である場合
の事後確率と、各時刻が各部分系列の発声途中である場
合の事後確率を算出する。これらの事後確率を時刻毎に
比較して、そのうちで最大値を示すものが、ある部分単
語系列の発声終了である場合に対応する時に、その部分
単語系列中に存在する認識対象単語が部分単語系列内で
の出現順序通りに、最大値を検出した時刻までに現われ
たと認識する。
に、この発明では、まず、予め検出したい認識対象単語
とその他の未知が出現する順序関係を規定した有限状態
オートマトンと、認識対象単語の音声特徴時系列を表す
キーワード隠れマルコフモデルおよび未知語の音声特徴
時系列や雑音などの非音声の特徴時系列を包括的に表す
ガーベッジ隠れマルコフモデルを作成しておく。次いで
発声者から音声が入力されると、設定したオートマトン
の開始状態から各状態までで受理可能な認識単語および
未知語からなる全ての部分単語系列と、音声始端から各
時刻までの入力音声の特徴系列との間で、部分単語列を
表すキーワードおよびガーベッジ隠れマルコフモデルを
用いて、尤度を時刻に同期して逐次的に求める。さら
に、この尤度を用いて、各時刻が認識対象単語を最後尾
単語とするような各部分単語系列の発声終了である場合
の事後確率と、各時刻が各部分系列の発声途中である場
合の事後確率を算出する。これらの事後確率を時刻毎に
比較して、そのうちで最大値を示すものが、ある部分単
語系列の発声終了である場合に対応する時に、その部分
単語系列中に存在する認識対象単語が部分単語系列内で
の出現順序通りに、最大値を検出した時刻までに現われ
たと認識する。
【0011】
【作用】この発明では、予め用意した認識対象単語およ
び未知語の出現順序を規定した有限状態オートマトンと
認識対象単語を表すガーベッジ隠れマルコフモデルおよ
び未知語や雑音などを包括的に表すガーベッジ隠れマル
コフモデルを用いて、設定したオートマトンの開始状態
から各状態までで受理可能な認識対象単語および未知語
からなる全ての部分単語系列と、音声始端から各時刻ま
での入力音声の特徴系列との間で、尤度を時刻に同期し
て逐次的に求め、この尤度から各時刻が認識対象単語を
最後尾単語とするような各部分単語系列の発声終了であ
る場合の事後確率と、各時刻が各部分単語系列の発声途
中である場合の事後確率を算出している。さらに、これ
らの事後確率を時刻毎に比較して、そのうちで最大値を
示すものが、ある部分単語系列の発声終了である場合に
対応する時に、その部分単語系列中に存在する認識対象
単語がその時刻までに現われたと認識する方法となって
いる。すなわち、この発明は、入力音声が最後まで発声
されて音声区間が確定する以前に、オートマトンで規定
されるような一連の単語連鎖の一部分までが発声された
かどうかを、入力の時刻に同期して検出できる方法とな
っている。
び未知語の出現順序を規定した有限状態オートマトンと
認識対象単語を表すガーベッジ隠れマルコフモデルおよ
び未知語や雑音などを包括的に表すガーベッジ隠れマル
コフモデルを用いて、設定したオートマトンの開始状態
から各状態までで受理可能な認識対象単語および未知語
からなる全ての部分単語系列と、音声始端から各時刻ま
での入力音声の特徴系列との間で、尤度を時刻に同期し
て逐次的に求め、この尤度から各時刻が認識対象単語を
最後尾単語とするような各部分単語系列の発声終了であ
る場合の事後確率と、各時刻が各部分単語系列の発声途
中である場合の事後確率を算出している。さらに、これ
らの事後確率を時刻毎に比較して、そのうちで最大値を
示すものが、ある部分単語系列の発声終了である場合に
対応する時に、その部分単語系列中に存在する認識対象
単語がその時刻までに現われたと認識する方法となって
いる。すなわち、この発明は、入力音声が最後まで発声
されて音声区間が確定する以前に、オートマトンで規定
されるような一連の単語連鎖の一部分までが発声された
かどうかを、入力の時刻に同期して検出できる方法とな
っている。
【0012】
【実施例】以下、この発明の一実施例を図面を参照しな
がら説明する。
がら説明する。
【0013】図1は、この発明の一実施例を示す認識装
置のブロック図である。この図において、1は音声入力
部、2は音声分析部、3は尤度計算部、4は事後確率計
算部、5は認識判定部、6は認識結果出力部、7はキー
ワード隠れマルコフモデル記憶部、8はカーベッジ隠れ
マルコフモデル記憶部、9はオートマトン記憶部、10
は全体の制御部である。
置のブロック図である。この図において、1は音声入力
部、2は音声分析部、3は尤度計算部、4は事後確率計
算部、5は認識判定部、6は認識結果出力部、7はキー
ワード隠れマルコフモデル記憶部、8はカーベッジ隠れ
マルコフモデル記憶部、9はオートマトン記憶部、10
は全体の制御部である。
【0014】この認識装置の動作の中心は尤度計算部
3、事後確率計算部4、認識判定部5にあるが、最初
に、音声分析部2、キーワード隠れマルコフモデル記憶
部7、ガーベッジ隠れマルコフモデル記憶部8およびオ
ートマトン記憶部9について、以下に説明する。なお、
ここでは、ワードスポッティングの対象としてNw個の
単語からなる認識対象単語セット{Nw}と、入力され
る音声中に現れる認識対象語以外の未知語や雑音を表す
ものとしてNg個の単語からなる未知単語セット{Ng}
を考え、合計N=Nw+Ng}個からなる語彙を、有限オ
ートマトンで用いる単語セット{N}とする。
3、事後確率計算部4、認識判定部5にあるが、最初
に、音声分析部2、キーワード隠れマルコフモデル記憶
部7、ガーベッジ隠れマルコフモデル記憶部8およびオ
ートマトン記憶部9について、以下に説明する。なお、
ここでは、ワードスポッティングの対象としてNw個の
単語からなる認識対象単語セット{Nw}と、入力され
る音声中に現れる認識対象語以外の未知語や雑音を表す
ものとしてNg個の単語からなる未知単語セット{Ng}
を考え、合計N=Nw+Ng}個からなる語彙を、有限オ
ートマトンで用いる単語セット{N}とする。
【0015】この認識装置では、認識が可能な入力音声
における認識対象語および認識対象語以外の未知語の出
現順序には制約があり、図2に示すような状態数がQ+
1個の有限状態オートマトンで規定されているとする。
図2のオートマトンにおいて、状態0は開始状態であ
り、この状態を出発点として遷移枝の上に書かれた単語
の内いずれか一つを出力しながら、次々と状態を遷移
し、その結果、ある状態まで達したところまでで得られ
た出力済みの単語列が、その状態まででこのオートマト
ンが受理できる単語列、すなわち、この認識装置で認識
可能な単語列となる。このようなオートマトンによって
規定された状態pから状態qへ単語nを出力しての遷移
を、δ(p,n)=qと表記することにする。オートマ
トン記憶部9には、このような認識対象語とその他の未
知語が出現する順序関係を規定した有限状態オートマト
ンがあらかじめ記憶されている。
における認識対象語および認識対象語以外の未知語の出
現順序には制約があり、図2に示すような状態数がQ+
1個の有限状態オートマトンで規定されているとする。
図2のオートマトンにおいて、状態0は開始状態であ
り、この状態を出発点として遷移枝の上に書かれた単語
の内いずれか一つを出力しながら、次々と状態を遷移
し、その結果、ある状態まで達したところまでで得られ
た出力済みの単語列が、その状態まででこのオートマト
ンが受理できる単語列、すなわち、この認識装置で認識
可能な単語列となる。このようなオートマトンによって
規定された状態pから状態qへ単語nを出力しての遷移
を、δ(p,n)=qと表記することにする。オートマ
トン記憶部9には、このような認識対象語とその他の未
知語が出現する順序関係を規定した有限状態オートマト
ンがあらかじめ記憶されている。
【0016】音声入力部1に入力される音声信号は、音
声分析部2によって特徴抽出が行われ、ある一定時間間
隔(以下では、これをフレームと称する)ごとに特徴量
xtへ変換される。この音声分析部2において抽出され
る特徴量としては、線形予測分析法、フーリエ変換法、
フィルタバンク分析法など種々の手法を用いることがで
きる。
声分析部2によって特徴抽出が行われ、ある一定時間間
隔(以下では、これをフレームと称する)ごとに特徴量
xtへ変換される。この音声分析部2において抽出され
る特徴量としては、線形予測分析法、フーリエ変換法、
フィルタバンク分析法など種々の手法を用いることがで
きる。
【0017】各認識対象単語および未知語は、音声分析
部2からの出力として得られる特徴量xtの時系列が、
単語毎にどのような出現順序や出現頻度をもって現れる
かを表現する隠れマルコフモデルで表わすことができ
る。各単語nの隠れマルコフモデルの構造を特徴づける
基本的なパラメータとしては、状態数Jn、隠れマルコ
フモデルの状態jが初期状態となる確率πj n、状態iか
ら状態jへの遷移確率an ij、状態iから状態jへの状
態遷移において入力された音声のある特徴量xtを出力
するというシンボル出力確率bij n(xt)がある。各単
語nの隠れマルコフモデルの状態の内、初期状態確率π
j nが0ではなく初期状態になり得るものの集合を{SI
n}とし、単語の終点を表す最終状態であるものの集合
を{SFn}と表すことにする。認識対象単語に対する
これらのパラメータは、キーワード隠れマルコフモデル
記憶部7に、未知語に対しては、ガーベッジ隠れマルコ
フモデル記憶部8に、それぞれ記憶されているものとす
る。これら、初期状態確率πj n、状態遷移確率aij n、
シンボル出力確率bij n(xt)については、例えば、I
EEE ASSP Magazine,Vol.3,No.1(198
6年1月)の4〜16ページに掲載されている論文「A
n Introduction to Hidden Markov Models」で紹介
されているバウムウェルヒ再推定法を応用することによ
り、学習データを用いて各単語に最適な値に設定するこ
とができる。
部2からの出力として得られる特徴量xtの時系列が、
単語毎にどのような出現順序や出現頻度をもって現れる
かを表現する隠れマルコフモデルで表わすことができ
る。各単語nの隠れマルコフモデルの構造を特徴づける
基本的なパラメータとしては、状態数Jn、隠れマルコ
フモデルの状態jが初期状態となる確率πj n、状態iか
ら状態jへの遷移確率an ij、状態iから状態jへの状
態遷移において入力された音声のある特徴量xtを出力
するというシンボル出力確率bij n(xt)がある。各単
語nの隠れマルコフモデルの状態の内、初期状態確率π
j nが0ではなく初期状態になり得るものの集合を{SI
n}とし、単語の終点を表す最終状態であるものの集合
を{SFn}と表すことにする。認識対象単語に対する
これらのパラメータは、キーワード隠れマルコフモデル
記憶部7に、未知語に対しては、ガーベッジ隠れマルコ
フモデル記憶部8に、それぞれ記憶されているものとす
る。これら、初期状態確率πj n、状態遷移確率aij n、
シンボル出力確率bij n(xt)については、例えば、I
EEE ASSP Magazine,Vol.3,No.1(198
6年1月)の4〜16ページに掲載されている論文「A
n Introduction to Hidden Markov Models」で紹介
されているバウムウェルヒ再推定法を応用することによ
り、学習データを用いて各単語に最適な値に設定するこ
とができる。
【0018】次に、図1の尤度計算部3、事後確率計算
部4および認識判定部5の動作の説明に現れるいくつか
の変数を以下のように定義する。
部4および認識判定部5の動作の説明に現れるいくつか
の変数を以下のように定義する。
【0019】Lq n(t,j):オートマトンの状態qに
至る単語nの隠れマルコフモデルの状態jでのフレーム
時刻tまでの累積尤度。
至る単語nの隠れマルコフモデルの状態jでのフレーム
時刻tまでの累積尤度。
【0020】Bq n(t,j):上記Lq n(t,j)に対
応する最適状態遷移パスに対するバックポインタ。
応する最適状態遷移パスに対するバックポインタ。
【0021】Lq(t) :フレーム時刻tでオート
マトンの状態qに至る単語列の隠れマルコフモデルの最
大累積尤度。
マトンの状態qに至る単語列の隠れマルコフモデルの最
大累積尤度。
【0022】Nq(t) :Lq(t)に対応する単
語列の最後尾の単語名。
語列の最後尾の単語名。
【0023】Bq(t) :Nq(t)に対応する単
語の開始フレーム時刻から1を引いた値。
語の開始フレーム時刻から1を引いた値。
【0024】Qq(t) :Lq(t)に対応する単
語列の状態qの直前の状態番号。
語列の状態qの直前の状態番号。
【0025】Pq n(t,j):オートマトンの状態qに
至る単語nの隠れマルコフモデルの状態jでのフレーム
時刻tまでの事後確率。
至る単語nの隠れマルコフモデルの状態jでのフレーム
時刻tまでの事後確率。
【0026】PFq n(t):オートマトンの状態qに至
る単語nがフレーム時刻tで発声終了である事後確率。
る単語nがフレーム時刻tで発声終了である事後確率。
【0027】PCq n(t):オートマトンの状態qに至
る単語nがフレーム時刻tで発声途中である事後確率。
る単語nがフレーム時刻tで発声途中である事後確率。
【0028】Sq n(t) :オートマトンの状態qに至
る単語nのフレーム時刻tでの隠れマルコフモデルの最
適最終状態。
る単語nのフレーム時刻tでの隠れマルコフモデルの最
適最終状態。
【0029】図3は、図1の認識装置におけるワードス
ポッティング手順の全体的フローチャートを示したもの
で、尤度計算、事後確率計算、認識判定は、それぞれ尤
度計算部3、事後確率計算部4、認識判定部5で行われ
る処理である。ここで、尤度計算、事後確率計算、認識
判定の各処理はフレーム時刻毎に繰り返し行われる
()。さらに、この間に、尤度計算と事後確率計算の
各処理が、まず、オートマトンの状態qに至る単語毎に
繰り返され(と)、それがオートマトンの状態毎に
繰り返される(と)。この繰り返し制御は、制御部
10が司る。また、制御部10は、ワードスポッティン
グ処理に先立って所定の初期設定を行う。
ポッティング手順の全体的フローチャートを示したもの
で、尤度計算、事後確率計算、認識判定は、それぞれ尤
度計算部3、事後確率計算部4、認識判定部5で行われ
る処理である。ここで、尤度計算、事後確率計算、認識
判定の各処理はフレーム時刻毎に繰り返し行われる
()。さらに、この間に、尤度計算と事後確率計算の
各処理が、まず、オートマトンの状態qに至る単語毎に
繰り返され(と)、それがオートマトンの状態毎に
繰り返される(と)。この繰り返し制御は、制御部
10が司る。また、制御部10は、ワードスポッティン
グ処理に先立って所定の初期設定を行う。
【0030】以下、この発明の実施例におけるワードス
ポッティンク手順を詳述する。ワードスポッティング
は、以下のステップ1〜21を繰り返し行うことによっ
て動作する。なお、ステップ1、2および21は制御部
10での処理、ステップ3からステップ11までは尤度
計算部3で、ステップ12からステップ14までは事後
確率計算部4で、ステップ15からステップ20までは
認識判定部5でそれぞれ行われる処理である。
ポッティンク手順を詳述する。ワードスポッティング
は、以下のステップ1〜21を繰り返し行うことによっ
て動作する。なお、ステップ1、2および21は制御部
10での処理、ステップ3からステップ11までは尤度
計算部3で、ステップ12からステップ14までは事後
確率計算部4で、ステップ15からステップ20までは
認識判定部5でそれぞれ行われる処理である。
【0031】<初期設定>ステップ1(初期設定) まず、音声が入力される前に初期設定として、各変数に
次のような値を設定する。
次のような値を設定する。
【0032】
【数1】
【0033】<フレームの繰り返し制御> ステップ2(フレーム時刻毎の繰り返し) フレーム時刻t=1,2,…,Tについて、ステップ3
からステップ21までを繰り返す。ただし、ここでT
は、入力される音声のフレーム総数である。
からステップ21までを繰り返す。ただし、ここでT
は、入力される音声のフレーム総数である。
【0034】<尤度計算> ステップ3(オートマトンの状態毎の繰り返し) オートマトンの状態q=1,2,…,Qについて、ステ
ップ4からステップ11までを繰り返す。
ップ4からステップ11までを繰り返す。
【0035】ステップ4(オートマトンの状態qに至る
単語毎の繰り返し) 次式で与えられるような、オートマトンの状態qに至る
すべての単語nについて、ステップ5からステップ10
までを繰り返す。
単語毎の繰り返し) 次式で与えられるような、オートマトンの状態qに至る
すべての単語nについて、ステップ5からステップ10
までを繰り返す。
【0036】
【数2】
【0037】ステップ5(単語nの初期状態毎の繰り返
し) 単語nのすべての初期状態j∈{SIn}について、ス
テップ6からステップ7を繰り返す。
し) 単語nのすべての初期状態j∈{SIn}について、ス
テップ6からステップ7を繰り返す。
【0038】ステップ6(最適パスの決定> もし、オトーマトンの状態qに至る単語nの隠れマルコ
フモデルの初期状態jでのフレーム時刻t−1までの累
積尤度Lq n(t−1,j)が、次式の条件を満たせば、
ステップ7を実行する。
フモデルの初期状態jでのフレーム時刻t−1までの累
積尤度Lq n(t−1,j)が、次式の条件を満たせば、
ステップ7を実行する。
【0039】
【数3】
【0040】ステップ7(最適パスのバックポインタの
再設定) オートマトンの状態q至る単語nの隠れマルコフモデル
の初期状態jでのフレーム時刻t−1までの累積尤度L
q n(t−1,j)およびそれに対応する最適パスのバッ
クポインタBq n(t−1,j)を、次のように再設定す
る。
再設定) オートマトンの状態q至る単語nの隠れマルコフモデル
の初期状態jでのフレーム時刻t−1までの累積尤度L
q n(t−1,j)およびそれに対応する最適パスのバッ
クポインタBq n(t−1,j)を、次のように再設定す
る。
【0041】
【数4】
【0042】ステップ8(単語nの状態毎の繰り返し) 単語nの各状態(j=1,2,…,Jn)について、ス
テップ9を繰り返す。
テップ9を繰り返す。
【0043】ステップ9(尤度および最適パスの計算) オートマトンの状態qに至る単語nの隠れマルコフモデ
ルの各状態jでのフレーム時刻tまでの累積尤度L
q n(t,j)およびそれに対応する最適パスのバックポ
インタBq n(t,j)を、単語nの隠れマルコフモデル
の各パラメータおよびフレーム時刻tにおける入力音声
の特徴量xtを用いて、次のように計算する。
ルの各状態jでのフレーム時刻tまでの累積尤度L
q n(t,j)およびそれに対応する最適パスのバックポ
インタBq n(t,j)を、単語nの隠れマルコフモデル
の各パラメータおよびフレーム時刻tにおける入力音声
の特徴量xtを用いて、次のように計算する。
【0044】
【数5】
【0045】このステップ9の動作によって、オートマ
トンの開始状態から各状態までで受理可能な認識対象単
語および未知語からなるすべての部分単語系列と、音声
始端からフレーム時刻tまでの入力音声の特徴系列との
間で、部分単語列を表すキーワードおよびガーベッジ隠
れマルコフモデルによって計算される尤度を求めたこと
になる。
トンの開始状態から各状態までで受理可能な認識対象単
語および未知語からなるすべての部分単語系列と、音声
始端からフレーム時刻tまでの入力音声の特徴系列との
間で、部分単語列を表すキーワードおよびガーベッジ隠
れマルコフモデルによって計算される尤度を求めたこと
になる。
【0046】ステップ10(フレーム時刻tでの最適最
終状態の決定) オートマトンの状態qに至る単語nのフレーム時刻tで
の隠れマルコフモデルの最適最終状態Sq n(t)を、次
式のように決定する。
終状態の決定) オートマトンの状態qに至る単語nのフレーム時刻tで
の隠れマルコフモデルの最適最終状態Sq n(t)を、次
式のように決定する。
【0047】
【数6】
【0048】ステップ11(最適単語列の決定) フレーム時刻tでオートマトンの状態pに至る各単語n
の内で最適なものを選び、次のLq(t),Nq(t),
Bq(t),Qq(t)を求める。
の内で最適なものを選び、次のLq(t),Nq(t),
Bq(t),Qq(t)を求める。
【0049】
【数7】
【0050】<事後確率計算> ステップ12(オートマトンの状態毎の繰り返し) オートマトンの状態q=1,2,…,Qについて、ステ
ップ13からステップ14までを繰り返す。
ップ13からステップ14までを繰り返す。
【0051】ステップ13(オートマトンの状態qに至
る単語毎の繰り返し) 次式で与えられるような、オートマトンの状態qに至る
単語nについて、ステップ14を繰り返す。
る単語毎の繰り返し) 次式で与えられるような、オートマトンの状態qに至る
単語nについて、ステップ14を繰り返す。
【0052】
【数8】
【0053】ステップ14(事後確率の算出) 次式によって、オートマトンの状態qに至る認識対象単
語n∈{Nw}がフレーム時刻tで時刻tで発声終了で
ある事後確率PFq n(t)と、オートマトンの状態qに
至る認識対象単語あるいは未知語n∈{N}がフレーム
時刻tで発声途中である事後確率PCq n(t)が求めら
れる。
語n∈{Nw}がフレーム時刻tで時刻tで発声終了で
ある事後確率PFq n(t)と、オートマトンの状態qに
至る認識対象単語あるいは未知語n∈{N}がフレーム
時刻tで発声途中である事後確率PCq n(t)が求めら
れる。
【0054】
【数9】
【0055】<認識判定> ステップ15(事後確率最大の単語の決定) ステップ14で求めたオートマトンの状態qに至る認識
対象単語nがフレーム時刻tで発声終了である事後確率
PFq n(t)と、オトーマトンの状態qに至る認識対象
単語あるいは未知語nがフレーム時刻tで発声途中であ
る事後確率PCq n(t)から、フレーム時刻tが単語の
発声終了であるとした場合の最大事後確率を持つ単語n
Fとそれに対応するオートマトンの状態qF、および単語
の発声途中であるとした場合の最大事後確率を持つ単語
nCとそれに対応するオートマトンの状態qCを次のよう
にして求める。
対象単語nがフレーム時刻tで発声終了である事後確率
PFq n(t)と、オトーマトンの状態qに至る認識対象
単語あるいは未知語nがフレーム時刻tで発声途中であ
る事後確率PCq n(t)から、フレーム時刻tが単語の
発声終了であるとした場合の最大事後確率を持つ単語n
Fとそれに対応するオートマトンの状態qF、および単語
の発声途中であるとした場合の最大事後確率を持つ単語
nCとそれに対応するオートマトンの状態qCを次のよう
にして求める。
【0056】
【数10】
【0057】ここで、それぞれの最大事後確率を次のよ
うに定義する。
うに定義する。
【0058】
【数11】
【0059】このステップ15では、さらに、このAと
Bの大小を比較し、Aの方が大きい場合には、現在のフ
レーム時刻tで終端する単語nFからなるワードスポッ
ティング結果があると判断し、ステップ16へ移る。ま
た、Bの方が大きい場合には、ワードスポッティング結
果なしと判断し、ステップ21へ移る。
Bの大小を比較し、Aの方が大きい場合には、現在のフ
レーム時刻tで終端する単語nFからなるワードスポッ
ティング結果があると判断し、ステップ16へ移る。ま
た、Bの方が大きい場合には、ワードスポッティング結
果なしと判断し、ステップ21へ移る。
【0060】ステップ16(ワードスポッティング結果
の単語列の決定) ワードスポッティングされたオートマトンの状態qFに
至る最後尾単語がnFであるような単語列を構成する各
認識対象単語を求めるために、q0=qFおよびb0=
t,i=0,k=0として、ステップ17からステップ
19を繰り返す。
の単語列の決定) ワードスポッティングされたオートマトンの状態qFに
至る最後尾単語がnFであるような単語列を構成する各
認識対象単語を求めるために、q0=qFおよびb0=
t,i=0,k=0として、ステップ17からステップ
19を繰り返す。
【0061】ステップ17(認識対象かどうかの判定) もし、Nqi(bi)が認識対象単語であれば、次式のよ
うにkを1増加させると同時に、認識結果Wkとして登
録する。
うにkを1増加させると同時に、認識結果Wkとして登
録する。
【0062】
【数12】
【0063】ステップ18(直前の単語の終端時刻と状
態の決定) Nqi(bi)の直前の単語の終端フレーム時刻bi+1と、
その単語が至ったオートマトンの状態qi+1を、次式に
よって求める。
態の決定) Nqi(bi)の直前の単語の終端フレーム時刻bi+1と、
その単語が至ったオートマトンの状態qi+1を、次式に
よって求める。
【0064】
【数13】
【0065】ステップ19(音声の始端まで達したかど
うかの判定) もし、bi+1=0ならば、音声の始端にまで遡って単語
をすべて検索し終ったことになり、ステップ20へ移
る。それ以外の場合は、i=i+1として、ステップ1
7へ戻る。
うかの判定) もし、bi+1=0ならば、音声の始端にまで遡って単語
をすべて検索し終ったことになり、ステップ20へ移
る。それ以外の場合は、i=i+1として、ステップ1
7へ戻る。
【0066】ステップ20(ワードスポッティング結果
の出力) 認識結果出力部6に、フレーム時刻tで終端するk個の
認識対象単語からなる単語列Wk,Wk-1,…,W1がワ
ードスポッティングされたことを出力する。
の出力) 認識結果出力部6に、フレーム時刻tで終端するk個の
認識対象単語からなる単語列Wk,Wk-1,…,W1がワ
ードスポッティングされたことを出力する。
【0067】<フレーム時刻の更新制御>ステップ21(フレーム時刻の更新) フレーム時刻tを一つ進めて、入力音声の終端に達して
いないならば、ステップ2に戻る。
いないならば、ステップ2に戻る。
【0068】以上のような動作によって、図1の実施例
では、予め作成して各記憶部7,8,9に記憶しておい
た、認識対象単語とその他の未知語が出現する順序関係
を規定した有限状態オートマトンと、認識対象単語の音
声特徴時系列をあらわすキーワード隠れマルコフモデル
および未知語の音声特徴時系列や雑音などの非音声の特
徴時系列を包括的にあらわすガーベッジ隠れマルコフモ
デルを用いて、制御部10の繰り返し動作制御下で、尤
度計算部3では、オートマトンの開始状態から各状態ま
でで受理可能な認識対象単語および未知語からなる全て
の部分単語系列と、音声始端から各時刻までの入力音声
の特徴系列との間で、部分単語列を表すキーワードおよ
びガーベッジ隠れマルコフモデルによって計算される尤
度が時刻に同期して逐次的に求められる。同様に、事後
確率計算部4では、この尤度を用いることによって、各
時刻が認識対象単語を最後尾単語とするような各部分単
語系列の発声終了である場合の事後確率と、各時刻が各
部分単語系列の発声途中である場合の事後確率が算出さ
れる。認識判定部5では、これらの事後確率のうちで最
大値を示すものが、ある部分単語系列の発声終了である
場合に対応するときに、その部分単語系列中に存在する
認識対象単語が部分単語系列内での出現順序通りに現れ
たと判定し、その認識結果が認識結果出力部6から出力
される。
では、予め作成して各記憶部7,8,9に記憶しておい
た、認識対象単語とその他の未知語が出現する順序関係
を規定した有限状態オートマトンと、認識対象単語の音
声特徴時系列をあらわすキーワード隠れマルコフモデル
および未知語の音声特徴時系列や雑音などの非音声の特
徴時系列を包括的にあらわすガーベッジ隠れマルコフモ
デルを用いて、制御部10の繰り返し動作制御下で、尤
度計算部3では、オートマトンの開始状態から各状態ま
でで受理可能な認識対象単語および未知語からなる全て
の部分単語系列と、音声始端から各時刻までの入力音声
の特徴系列との間で、部分単語列を表すキーワードおよ
びガーベッジ隠れマルコフモデルによって計算される尤
度が時刻に同期して逐次的に求められる。同様に、事後
確率計算部4では、この尤度を用いることによって、各
時刻が認識対象単語を最後尾単語とするような各部分単
語系列の発声終了である場合の事後確率と、各時刻が各
部分単語系列の発声途中である場合の事後確率が算出さ
れる。認識判定部5では、これらの事後確率のうちで最
大値を示すものが、ある部分単語系列の発声終了である
場合に対応するときに、その部分単語系列中に存在する
認識対象単語が部分単語系列内での出現順序通りに現れ
たと判定し、その認識結果が認識結果出力部6から出力
される。
【0069】したがって、入力音声の時刻に同期して、
各時刻までに存在するキーワードの連鎖を高速に検出で
き、また、オートマトンによって単語列を規定すること
によって誤ったキーワードの検出や脱落を最小限にとど
めることが可能となる。
各時刻までに存在するキーワードの連鎖を高速に検出で
き、また、オートマトンによって単語列を規定すること
によって誤ったキーワードの検出や脱落を最小限にとど
めることが可能となる。
【0070】
【発明の効果】以上説明したように、この発明によるワ
ードスポッティング方法では、入力音声が最後まで発声
されて音声区間が確定する以前に、オートマトンで推定
されるような一連の単語連鎖の一部分までが達成された
かどうかを、入力の時刻に同期して検出できる。したが
って、従来の代表的方法が持つ問題点、すなわち、先の
第一の方法のような、誤った位置でのキーワードの検出
や正解の脱落などを生じてしまうという問題点、部分マ
ッチングに対応するために単語対の相互位置関係に関す
る情報を用いた後処理が必要であるという問題点、ま
た、先の第二の方法のような、入力の時刻に同期して、
各時点で終端するキーワードを求めることが不可能であ
り、入力される音声区間が確定(発声が終了)しなけれ
ば認識結果が求められないという問題点をいずれも同時
に解消し、キーワードや未知語の出現順序を考慮しなが
ら、入力音声の時刻に同期して高速に、かつ精度良く、
入力音声中に存在するキーワードおよびいくつかのキー
ワードの時間的連鎖を検出することが可能になる。
ードスポッティング方法では、入力音声が最後まで発声
されて音声区間が確定する以前に、オートマトンで推定
されるような一連の単語連鎖の一部分までが達成された
かどうかを、入力の時刻に同期して検出できる。したが
って、従来の代表的方法が持つ問題点、すなわち、先の
第一の方法のような、誤った位置でのキーワードの検出
や正解の脱落などを生じてしまうという問題点、部分マ
ッチングに対応するために単語対の相互位置関係に関す
る情報を用いた後処理が必要であるという問題点、ま
た、先の第二の方法のような、入力の時刻に同期して、
各時点で終端するキーワードを求めることが不可能であ
り、入力される音声区間が確定(発声が終了)しなけれ
ば認識結果が求められないという問題点をいずれも同時
に解消し、キーワードや未知語の出現順序を考慮しなが
ら、入力音声の時刻に同期して高速に、かつ精度良く、
入力音声中に存在するキーワードおよびいくつかのキー
ワードの時間的連鎖を検出することが可能になる。
【図1】この発明を適用した認識装置の一実施例のブロ
ック構成図である。
ック構成図である。
【図2】この発明の実施例において用いられている有限
状態オートマトンの一例を示す図である。
状態オートマトンの一例を示す図である。
【図3】この発明の実施例におけるワードスポッティン
グ手順の全体的フローチャートである。
グ手順の全体的フローチャートである。
1 音声入力部 2 音声分析部 3 尤度計算部 4 事後確率計算部 5 認識判定部 6 認識結果出力部 7 キーワード隠れマルコフモデル記憶部 8 ガーベッジ隠れマルコフモデル記憶部 9 オートマトン記憶部 10 制御部
Claims (1)
- 【請求項1】 予め、認識対象単語とその他の未知語が
出現する順序関係を規定した有限状態オートマトンと、
認識対象単語の音声特徴時系列を表すキーワード隠れマ
ルコフモデルおよび未知語の音声特徴時系列や雑音など
の非音声の特徴時系列を包括的に表すガーベッジ隠れマ
ルコフモデルを作成しておき、 オートマトンの開始状態から各状態までで受理可能な認
識対象単語および未知語からなる全ての部分単語系列
と、音声始端から各時刻までの入力音声の特徴系列との
間で、部分単語列を表すキーワードおよびガーベッジ隠
れマルコフモデルを用いて、尤度を時刻に同期して逐次
的に求め、 上記尤度を用いて、各時刻が認識対象単語を最後尾単語
とするような各部単語系列の発声終了である場合の事後
確率と、各時刻が各部分単語系列の発声途中である場合
の事後確率を算出し、 上記事後確率のうちで最大値を示すものが、ある部分単
語系列の発声終了である場合に対応する時に、その部分
単語系列中に存在する認識対象単語が部分単語系列内で
の出現順序通りに現れたと認識する、ことを特徴とする
ワードスポッティング方法。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
JP5056214A JPH06266386A (ja) | 1993-03-16 | 1993-03-16 | ワードスポッティング方法 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
JP5056214A JPH06266386A (ja) | 1993-03-16 | 1993-03-16 | ワードスポッティング方法 |
Publications (1)
Publication Number | Publication Date |
---|---|
JPH06266386A true JPH06266386A (ja) | 1994-09-22 |
Family
ID=13020862
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
JP5056214A Pending JPH06266386A (ja) | 1993-03-16 | 1993-03-16 | ワードスポッティング方法 |
Country Status (1)
Country | Link |
---|---|
JP (1) | JPH06266386A (ja) |
Cited By (7)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
EP0762709A2 (en) * | 1995-09-12 | 1997-03-12 | Texas Instruments Incorporated | Method and system for enrolling addresses in a speech recognition database |
KR100434522B1 (ko) * | 1997-04-29 | 2004-07-16 | 삼성전자주식회사 | 시간축 상호관계를 이용한 음성인식 방법 |
EP1758351A3 (en) * | 1995-09-12 | 2008-06-25 | Texas Instruments Incorporated | Method and system for enrolling addresses in a speech recognition database |
US7653541B2 (en) | 2002-11-21 | 2010-01-26 | Sony Corporation | Speech processing device and method, and program for recognition of out-of-vocabulary words in continuous speech |
US10311874B2 (en) | 2017-09-01 | 2019-06-04 | 4Q Catalyst, LLC | Methods and systems for voice-based programming of a voice-controlled device |
CN112420020A (zh) * | 2019-08-23 | 2021-02-26 | 株式会社东芝 | 信息处理装置及信息处理方法 |
KR20230006055A (ko) * | 2018-07-13 | 2023-01-10 | 구글 엘엘씨 | 종단 간 스트리밍 키워드 탐지 |
-
1993
- 1993-03-16 JP JP5056214A patent/JPH06266386A/ja active Pending
Cited By (9)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
EP0762709A2 (en) * | 1995-09-12 | 1997-03-12 | Texas Instruments Incorporated | Method and system for enrolling addresses in a speech recognition database |
EP0762709A3 (en) * | 1995-09-12 | 2000-03-29 | Texas Instruments Incorporated | Method and system for enrolling addresses in a speech recognition database |
EP1758351A3 (en) * | 1995-09-12 | 2008-06-25 | Texas Instruments Incorporated | Method and system for enrolling addresses in a speech recognition database |
KR100434522B1 (ko) * | 1997-04-29 | 2004-07-16 | 삼성전자주식회사 | 시간축 상호관계를 이용한 음성인식 방법 |
US7653541B2 (en) | 2002-11-21 | 2010-01-26 | Sony Corporation | Speech processing device and method, and program for recognition of out-of-vocabulary words in continuous speech |
US10311874B2 (en) | 2017-09-01 | 2019-06-04 | 4Q Catalyst, LLC | Methods and systems for voice-based programming of a voice-controlled device |
KR20230006055A (ko) * | 2018-07-13 | 2023-01-10 | 구글 엘엘씨 | 종단 간 스트리밍 키워드 탐지 |
CN112420020A (zh) * | 2019-08-23 | 2021-02-26 | 株式会社东芝 | 信息处理装置及信息处理方法 |
CN112420020B (zh) * | 2019-08-23 | 2024-05-03 | 株式会社东芝 | 信息处理装置及信息处理方法 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
CN108305634B (zh) | 解码方法、解码器及存储介质 | |
US10074363B2 (en) | Method and apparatus for keyword speech recognition | |
US5995928A (en) | Method and apparatus for continuous spelling speech recognition with early identification | |
US20110077943A1 (en) | System for generating language model, method of generating language model, and program for language model generation | |
US20030088412A1 (en) | Pattern recognition using an observable operator model | |
US8494847B2 (en) | Weighting factor learning system and audio recognition system | |
US7177810B2 (en) | Method and apparatus for performing prosody-based endpointing of a speech signal | |
JP2017097162A (ja) | キーワード検出装置、キーワード検出方法及びキーワード検出用コンピュータプログラム | |
JPH05197389A (ja) | 音声認識装置 | |
JPS62231996A (ja) | 音声認識方法 | |
JPH0583918B2 (ja) | ||
EP1385147A2 (en) | Method of speech recognition using time-dependent interpolation and hidden dynamic value classes | |
US20020026309A1 (en) | Speech processing system | |
EP1443495A1 (en) | Method of speech recognition using hidden trajectory hidden markov models | |
CN111951796A (zh) | 语音识别方法及装置、电子设备、存储介质 | |
CN112509560A (zh) | 一种基于缓存语言模型的语音识别自适应方法和系统 | |
CN109065026B (zh) | 一种录音控制方法及装置 | |
JP3496706B2 (ja) | 音声認識方法及びそのプログラム記録媒体 | |
JPH06266386A (ja) | ワードスポッティング方法 | |
JP4666129B2 (ja) | 発声速度正規化分析を用いた音声認識装置 | |
JP2012053218A (ja) | 音響処理装置および音響処理プログラム | |
JP2001312293A (ja) | 音声認識方法およびその装置、並びにコンピュータ読み取り可能な記憶媒体 | |
JP2996925B2 (ja) | 音素境界検出装置及び音声認識装置 | |
EP1488410B1 (en) | Distortion measure determination in speech recognition | |
JPH08314490A (ja) | ワードスポッティング型音声認識方法と装置 |