JP2001255887A - 音声認識装置、音声認識方法及び音声認識方法を記録した媒体 - Google Patents
音声認識装置、音声認識方法及び音声認識方法を記録した媒体Info
- Publication number
- JP2001255887A JP2001255887A JP2000071067A JP2000071067A JP2001255887A JP 2001255887 A JP2001255887 A JP 2001255887A JP 2000071067 A JP2000071067 A JP 2000071067A JP 2000071067 A JP2000071067 A JP 2000071067A JP 2001255887 A JP2001255887 A JP 2001255887A
- Authority
- JP
- Japan
- Prior art keywords
- model
- hidden markov
- markov model
- gaussian distribution
- speech recognition
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Pending
Links
Abstract
(57)【要約】
【課題】 話者が交代したことを迅速に認識することを
可能とした音声認識装置等を提供する。 【解決手段】 周波数分析部12からは音声のスペクト
ラムの特徴を示す音響特徴量が出力され、この音響特徴
量に基づいて最大尤度GMM選択部41に予め記憶され
ているGMMの尤度が算出される。そして、最大尤度を
与えるGMMが選択され、最適HMM選択部42におい
てこれに対応するHMMが選択され、音素認識部13に
おける音素認識に使用される。音素列は単語・文章認識
部15において辞書16を使用して、単語あるいは文章
に構成される。
可能とした音声認識装置等を提供する。 【解決手段】 周波数分析部12からは音声のスペクト
ラムの特徴を示す音響特徴量が出力され、この音響特徴
量に基づいて最大尤度GMM選択部41に予め記憶され
ているGMMの尤度が算出される。そして、最大尤度を
与えるGMMが選択され、最適HMM選択部42におい
てこれに対応するHMMが選択され、音素認識部13に
おける音素認識に使用される。音素列は単語・文章認識
部15において辞書16を使用して、単語あるいは文章
に構成される。
Description
【0001】
【発明の属する技術分野】本発明は音声認識装置、音声
認識方法及び音声認識方法を記録した媒体に係わり、特
にガウス混合分布モデル(Gaussian Mixture Density M
odel、以下GMMと略記する)が音声認識に使用する隠
れマルコフモデル(Hidden Markov Model、以下HMM
と略記する)の要約として使用できることに着目して、
話者が交代したことを迅速に認識することを可能とした
音声認識装置、音声認識方法及び音声認識方法を記録し
た媒体に関する。
認識方法及び音声認識方法を記録した媒体に係わり、特
にガウス混合分布モデル(Gaussian Mixture Density M
odel、以下GMMと略記する)が音声認識に使用する隠
れマルコフモデル(Hidden Markov Model、以下HMM
と略記する)の要約として使用できることに着目して、
話者が交代したことを迅速に認識することを可能とした
音声認識装置、音声認識方法及び音声認識方法を記録し
た媒体に関する。
【0002】
【従来の技術】近年パーソナルコンピュータのデータ入
力、聴覚障害者向けのテロップ表示、電話問い合わせに
対する自動応答装置等に適用するために音声認識装置の
実用化が進められている。図1は既に提案されている音
声認識装置の機能線図であって、話者10の発声した音
声sはマイクロフォン11で電気信号eに変換される。
力、聴覚障害者向けのテロップ表示、電話問い合わせに
対する自動応答装置等に適用するために音声認識装置の
実用化が進められている。図1は既に提案されている音
声認識装置の機能線図であって、話者10の発声した音
声sはマイクロフォン11で電気信号eに変換される。
【0003】周波数分析部12は、電気信号eを取り込
み周波数分析して、周波数スペクトラムの特徴を表す音
響特徴量の時系列xを出力する。音素認識部13は、音
響特徴量の時系列xを取り込んで、予め記憶されている
音素モデル14と比較し、音素列pを出力する。単語・
文認識部15は、音素列pを取り込み、予め作成、記憶
されている辞書及び言語モデル16に基づいて単語ある
いは文章列wを出力する。そして、音素モデルとしてH
MMを使用することが一般的である。
み周波数分析して、周波数スペクトラムの特徴を表す音
響特徴量の時系列xを出力する。音素認識部13は、音
響特徴量の時系列xを取り込んで、予め記憶されている
音素モデル14と比較し、音素列pを出力する。単語・
文認識部15は、音素列pを取り込み、予め作成、記憶
されている辞書及び言語モデル16に基づいて単語ある
いは文章列wを出力する。そして、音素モデルとしてH
MMを使用することが一般的である。
【0004】図2は1つの音素(母音と子音からなる言
語学的な意味での音声の最小単位であって、 "a
(ア)" 、 "i(イ)" 等の母音が5種類、ならびに
"K" 、 "S" 等の子音が約20種類の合計約25種類
の音素が存在する)の構成図であって、 "a" をいう音
声のスペクトラムを予め定められた4つの状態からの出
力として表わした場合の構成を示す。
語学的な意味での音声の最小単位であって、 "a
(ア)" 、 "i(イ)" 等の母音が5種類、ならびに
"K" 、 "S" 等の子音が約20種類の合計約25種類
の音素が存在する)の構成図であって、 "a" をいう音
声のスペクトラムを予め定められた4つの状態からの出
力として表わした場合の構成を示す。
【0005】即ち、このHMMは最初の状態がq1 であ
り、第2の状態がq2 であり、第3の状態がq3 であ
り、最終の状態がq4 であることを示している。なお、
aijは状態qi から状態qj への遷移確率であり、bij
(x)は周波数スペクトラムの特徴を表すパラメータx
の出現確率である。実際の音声認識装置にあっては、約
25個の音素に対するHMMで構成される不特定話者H
MM(Speaker independent Hidden Markov Model ,以
下SI−HMMと記す)をエンロールメントにより特定
話者に適応させた話者適応音素モデル(Speaker Adapti
ve Hidden Markov Model,以下SA−HMMと記す)を
生成し、このSA−HMMによって入力された音声を認
識している。
り、第2の状態がq2 であり、第3の状態がq3 であ
り、最終の状態がq4 であることを示している。なお、
aijは状態qi から状態qj への遷移確率であり、bij
(x)は周波数スペクトラムの特徴を表すパラメータx
の出現確率である。実際の音声認識装置にあっては、約
25個の音素に対するHMMで構成される不特定話者H
MM(Speaker independent Hidden Markov Model ,以
下SI−HMMと記す)をエンロールメントにより特定
話者に適応させた話者適応音素モデル(Speaker Adapti
ve Hidden Markov Model,以下SA−HMMと記す)を
生成し、このSA−HMMによって入力された音声を認
識している。
【0006】従って、音声入力中に話者が交代した場合
には、新しい話者の音声を認識するためにはエンロール
メントにより生成済みのSA−HMMの中から新しい話
者の音響特徴量に最も適合するSA−HMMを選択する
ことが必要となる。
には、新しい話者の音声を認識するためにはエンロール
メントにより生成済みのSA−HMMの中から新しい話
者の音響特徴量に最も適合するSA−HMMを選択する
ことが必要となる。
【0007】
【発明が解決しようとする課題】しかしながら、新しい
話者の音響特徴量に適合する新たなSA−HMMを選択
するためには、新しい話者の音響特徴量の生成済みの複
数のSA−HMMに対する尤度を計算し、最大尤度を有
するSA−HMMを選択する必要があるため計算量が膨
大となり、実時間処理が困難となることは回避できな
い。
話者の音響特徴量に適合する新たなSA−HMMを選択
するためには、新しい話者の音響特徴量の生成済みの複
数のSA−HMMに対する尤度を計算し、最大尤度を有
するSA−HMMを選択する必要があるため計算量が膨
大となり、実時間処理が困難となることは回避できな
い。
【0008】本発明は上記課題に鑑みなされたものであ
って、GMMがHMMの要約として使用できることに着
目して、GMMを使用して話者の交代を検出することに
より、話者に適合したHMMの探索時の計算量を低減す
ることの可能な音声認識装置、音声認識方法及び音声認
識方法を記録した媒体を提供することを目的とする。
って、GMMがHMMの要約として使用できることに着
目して、GMMを使用して話者の交代を検出することに
より、話者に適合したHMMの探索時の計算量を低減す
ることの可能な音声認識装置、音声認識方法及び音声認
識方法を記録した媒体を提供することを目的とする。
【0009】
【課題を解決するための手段】第1の発明に係る音声認
識装置は、音声信号を周波数分析し周波数スペクトラム
の特徴を表す音響特徴量を時系列データとして出力する
周波数分析手段と、周波数分析手段から出力される音響
特徴量に対応する予め記憶されている混合ガウス分布モ
デルの尤度を算出し最大平均尤度を与える混合ガウス分
布モデルを最尤混合ガウス分布モデルとして選択する最
尤混合ガウス分布モデル選択手段と、最尤混合ガウス分
布モデル選択手段で選択された最尤混合ガウス分布モデ
ルに対応する隠れマルコフモデルを最適隠れマルコフモ
デルとして予め記憶されている隠れマルコフモデルの中
から選択する最適隠れマルコフモデル選択手段と、最適
隠れマルコフモデル選択手段で選択された最適隠れマル
コフモデルを使用して周波数分析手段から出力される音
響特徴量に基づいて音素を認識し音素列データとして出
力する音素認識手段と、音素認識手段から出力される音
素列データを予め記憶されている辞書及び言語モデルを
使用して単語又は文章を構成する単語・文章構成手段
と、を具備する。
識装置は、音声信号を周波数分析し周波数スペクトラム
の特徴を表す音響特徴量を時系列データとして出力する
周波数分析手段と、周波数分析手段から出力される音響
特徴量に対応する予め記憶されている混合ガウス分布モ
デルの尤度を算出し最大平均尤度を与える混合ガウス分
布モデルを最尤混合ガウス分布モデルとして選択する最
尤混合ガウス分布モデル選択手段と、最尤混合ガウス分
布モデル選択手段で選択された最尤混合ガウス分布モデ
ルに対応する隠れマルコフモデルを最適隠れマルコフモ
デルとして予め記憶されている隠れマルコフモデルの中
から選択する最適隠れマルコフモデル選択手段と、最適
隠れマルコフモデル選択手段で選択された最適隠れマル
コフモデルを使用して周波数分析手段から出力される音
響特徴量に基づいて音素を認識し音素列データとして出
力する音素認識手段と、音素認識手段から出力される音
素列データを予め記憶されている辞書及び言語モデルを
使用して単語又は文章を構成する単語・文章構成手段
と、を具備する。
【0010】本発明にあっては、音素認識に使用する隠
れマルコフモデルを選択するために隠れマルコフモデル
の要約である混合ガウス分布モデルが使用される。第2
の発明に係る音声認識装置は、周波数分析手段から出力
される音響特徴量に基づいて最尤混合ガウス分布モデル
選択手段に含まれる混合ガウス分布モデルのパラメータ
及び最適隠れマルコフモデル選択手段に含まれる隠れマ
ルコフモデルのパラメータを学習し最尤混合ガウス分布
モデル選択手段に含まれる混合ガウス分布モデル及び最
適隠れマルコフモデル選択手段に含まれる隠れマルコフ
モデルを適応化するモデル適応化手段を更に具備する。
れマルコフモデルを選択するために隠れマルコフモデル
の要約である混合ガウス分布モデルが使用される。第2
の発明に係る音声認識装置は、周波数分析手段から出力
される音響特徴量に基づいて最尤混合ガウス分布モデル
選択手段に含まれる混合ガウス分布モデルのパラメータ
及び最適隠れマルコフモデル選択手段に含まれる隠れマ
ルコフモデルのパラメータを学習し最尤混合ガウス分布
モデル選択手段に含まれる混合ガウス分布モデル及び最
適隠れマルコフモデル選択手段に含まれる隠れマルコフ
モデルを適応化するモデル適応化手段を更に具備する。
【0011】本発明にあっては、入力された音声を使用
して混合ガウス分布モデル及び隠れマルコフモデルのパ
ラメータの適応化が実行される。第3の発明に係る音声
認識装置は、最尤混合ガウス分布モデル選択手段及び最
適隠れマルコフモデル選択手段が、少なくとも1種類の
不特定話者混合ガウス分布モデル及び不特定話者隠れマ
ルコフモデルと、モデル適応化手段で適応化処理後の混
合ガウス分布モデル及び隠れマルコフモデルである話者
特定混合ガウス分布モデル及び話者特定隠れマルコフモ
デルを含む。
して混合ガウス分布モデル及び隠れマルコフモデルのパ
ラメータの適応化が実行される。第3の発明に係る音声
認識装置は、最尤混合ガウス分布モデル選択手段及び最
適隠れマルコフモデル選択手段が、少なくとも1種類の
不特定話者混合ガウス分布モデル及び不特定話者隠れマ
ルコフモデルと、モデル適応化手段で適応化処理後の混
合ガウス分布モデル及び隠れマルコフモデルである話者
特定混合ガウス分布モデル及び話者特定隠れマルコフモ
デルを含む。
【0012】本発明にあっては、少なくとも1つの不特
定話者ガウス分布モデル及び適応化済みの特定話者ガウ
ス分布に基づいて、モデル不特定話者隠れマルコフモデ
ル及び特定話者隠れマルコフモデルの中から音声認識に
使用する隠れマルコフモデルが選択される。第4の発明
に係る音声認識装置は、モデル適応化手段による適応化
後の隠れマルコフモデルを使用して音素を再認識し、再
認識された音素に基づいて単語又は文章を再構成する再
音声認識手段を更に具備する。
定話者ガウス分布モデル及び適応化済みの特定話者ガウ
ス分布に基づいて、モデル不特定話者隠れマルコフモデ
ル及び特定話者隠れマルコフモデルの中から音声認識に
使用する隠れマルコフモデルが選択される。第4の発明
に係る音声認識装置は、モデル適応化手段による適応化
後の隠れマルコフモデルを使用して音素を再認識し、再
認識された音素に基づいて単語又は文章を再構成する再
音声認識手段を更に具備する。
【0013】本発明にあっては、適応化後の隠れマルコ
フモデルを用いて入力された音声の音素が再認識され
る。
フモデルを用いて入力された音声の音素が再認識され
る。
【0014】
【発明の実施の形態】図3は本発明に係る音声認識装置
の構成図であって、ディジタルコンピュータシステムと
して構成される。即ち、ディジタルコンピュータ30は
バス300を中心として、CPU301、メモリ30
2、入力インターフェイス(II/F)303及び出力
インターフェイス(OI/F)304を具備する。
の構成図であって、ディジタルコンピュータシステムと
して構成される。即ち、ディジタルコンピュータ30は
バス300を中心として、CPU301、メモリ30
2、入力インターフェイス(II/F)303及び出力
インターフェイス(OI/F)304を具備する。
【0015】そしてII/F303には、話者の音声を
電気信号に変換するマイクロフォン11、CD31に記
録されているプログラムを読み取るCD再生器32、及
びキーボード33が接続されている。又、OI/F30
4にはディスプレイ34が接続されており、音声認識結
果の表示に使用される。
電気信号に変換するマイクロフォン11、CD31に記
録されているプログラムを読み取るCD再生器32、及
びキーボード33が接続されている。又、OI/F30
4にはディスプレイ34が接続されており、音声認識結
果の表示に使用される。
【0016】本発明に係る音声認識プログラムは、例え
ばCD−ROM31である媒体に記録されており、CD
再生器32を介してメモリ302にロードされると、デ
ィジタルコンピュータ30は音声認識装置として機能す
る。図4は本発明に係る音声認識装置の機能構成図であ
って、話者10の発声した音声sはマイクロフォン11
で電気信号eに変換され、周波数分析部12で周波数分
析して周波数スペクトラムの特徴を表す音響特徴量の時
系列データx(t)を出力する。
ばCD−ROM31である媒体に記録されており、CD
再生器32を介してメモリ302にロードされると、デ
ィジタルコンピュータ30は音声認識装置として機能す
る。図4は本発明に係る音声認識装置の機能構成図であ
って、話者10の発声した音声sはマイクロフォン11
で電気信号eに変換され、周波数分析部12で周波数分
析して周波数スペクトラムの特徴を表す音響特徴量の時
系列データx(t)を出力する。
【0017】なお、本発明においては周波数スペクトラ
ムの特徴を表す音響特徴量として複数のケプストラム及
び1個の正規化対数パワ、並びにこれらの一次及び二次
微分値を使用している。即ち音響特徴量は多次元のベク
トルである。そして、周波数分析部12は、音響特徴量
の時系列データx(t)を予め定められた短時間ごとに
出力して、最大尤度GMM選択部41及び音素認識部1
3に伝送する。
ムの特徴を表す音響特徴量として複数のケプストラム及
び1個の正規化対数パワ、並びにこれらの一次及び二次
微分値を使用している。即ち音響特徴量は多次元のベク
トルである。そして、周波数分析部12は、音響特徴量
の時系列データx(t)を予め定められた短時間ごとに
出力して、最大尤度GMM選択部41及び音素認識部1
3に伝送する。
【0018】最大尤度GMM選択部41では、伝送され
た音響特徴量xに対して予め記憶されている複数のGM
Mi (SI−GMM及びSA−GMMの双方を含む)を
使用して尤度λi を算出し、時系列データ全体について
最大平均尤度λmax を与えるGMMi であるGMMmlを
選択する。図5は最大尤度GMM選択部の動作説明図で
あって、横軸に音響特徴量平均値xavを、縦軸に尤度λ
をとる。なお、説明の都合上音響特徴量x(t)は1次
元としている。
た音響特徴量xに対して予め記憶されている複数のGM
Mi (SI−GMM及びSA−GMMの双方を含む)を
使用して尤度λi を算出し、時系列データ全体について
最大平均尤度λmax を与えるGMMi であるGMMmlを
選択する。図5は最大尤度GMM選択部の動作説明図で
あって、横軸に音響特徴量平均値xavを、縦軸に尤度λ
をとる。なお、説明の都合上音響特徴量x(t)は1次
元としている。
【0019】即ち、音響特徴量xに対してGMM1 (実
線)、GMM2 (破線)及びGMM 3 (一点鎖線)の3
つのGMMを使用して、3つの尤度λ1 、λ2 及びλ3
を算出する。そして、3つのGMMに対する尤度をそれ
ぞれ全音声区間で平均する。この結果、平均尤度が最大
となるGMMを選定し、これをGMMmlとする。この結
果は最適HMM選択部42に伝送され、予め記憶されて
いるHMMi の中からGMMmlに対応するHMMである
HMMop(最適HMM)を選択する。このHMMopは音
素認識部13に転送され、入力された音声の音素認識に
使用される。
線)、GMM2 (破線)及びGMM 3 (一点鎖線)の3
つのGMMを使用して、3つの尤度λ1 、λ2 及びλ3
を算出する。そして、3つのGMMに対する尤度をそれ
ぞれ全音声区間で平均する。この結果、平均尤度が最大
となるGMMを選定し、これをGMMmlとする。この結
果は最適HMM選択部42に伝送され、予め記憶されて
いるHMMi の中からGMMmlに対応するHMMである
HMMop(最適HMM)を選択する。このHMMopは音
素認識部13に転送され、入力された音声の音素認識に
使用される。
【0020】音素認識部13からは、HMMopを使用し
て認識された音素列popが出力される。単語・文認識部
15はこの音素列popを取り込み、予め作成、記憶され
ている辞書及び言語モデル16に基づいて単語あるいは
文章列wopを出力する。本発明に係る音声認識装置は、
既に記憶されているGMM及びHMMを話者にさらに適
応させる適応化部43及び適応後のGMM及びHMMを
使用して今回入力された音声を再認識する音声再認識部
44を具備してもよい。
て認識された音素列popが出力される。単語・文認識部
15はこの音素列popを取り込み、予め作成、記憶され
ている辞書及び言語モデル16に基づいて単語あるいは
文章列wopを出力する。本発明に係る音声認識装置は、
既に記憶されているGMM及びHMMを話者にさらに適
応させる適応化部43及び適応後のGMM及びHMMを
使用して今回入力された音声を再認識する音声再認識部
44を具備してもよい。
【0021】適応部43で使用する適応化アルゴリズム
としては、周知のアルゴリズム、例えば最大尤度線形変
換(MLLR)法、最大事後確率推定(MAP)法及び
移動ベクトル場平滑化(VFS)法を組み合わせたアル
ゴリズムを使用することができる。さらに、音声再認識
部44で適応化後のGMM及びHMMを使用して今回入
力された音声を再認識することにより、認識率を向上さ
せることが可能となる。
としては、周知のアルゴリズム、例えば最大尤度線形変
換(MLLR)法、最大事後確率推定(MAP)法及び
移動ベクトル場平滑化(VFS)法を組み合わせたアル
ゴリズムを使用することができる。さらに、音声再認識
部44で適応化後のGMM及びHMMを使用して今回入
力された音声を再認識することにより、認識率を向上さ
せることが可能となる。
【0022】図6はCD−ROM31に記録されCD再
生器32を介してメモリ302に読み込まれる音声認識
プログラムのフローチャートであって、音声が入力され
るたびに実行が開始される。即ち、ステップ60で音声
sに対応した電気信号eが読み込まれる。次にステップ
61で電気信号eを周波数分析をして音響特徴量の短時
間毎の値を出力する周波数分析処理が実行される。
生器32を介してメモリ302に読み込まれる音声認識
プログラムのフローチャートであって、音声が入力され
るたびに実行が開始される。即ち、ステップ60で音声
sに対応した電気信号eが読み込まれる。次にステップ
61で電気信号eを周波数分析をして音響特徴量の短時
間毎の値を出力する周波数分析処理が実行される。
【0023】ステップ61でGMM尤度検定処理を実行
して、今回入力された音声の特徴を最も良く表すGMM
mlを選択する。ステップ62でGMMmlがSI−GMM
から選択されたかSA−GMMから選択されたかを判定
し、SI−GMMから選択されたと判定されたときは、
ステップ63でSI−HMMを使用して音声認識を行う
SI−HMM音声認識処理を実施してステップ65に進
む。
して、今回入力された音声の特徴を最も良く表すGMM
mlを選択する。ステップ62でGMMmlがSI−GMM
から選択されたかSA−GMMから選択されたかを判定
し、SI−GMMから選択されたと判定されたときは、
ステップ63でSI−HMMを使用して音声認識を行う
SI−HMM音声認識処理を実施してステップ65に進
む。
【0024】なお、SI−GMM及びSI−HMMは音
声認識装置の使用開始前に少なくとも一つ設定するもの
である。SI−GMMを1つだけ設定する場合は、不特
定多数話者全体の特性を表すGMMを使用する。複数の
SI−GMMを設定する場合は、不特定多数話者を幾つ
かのグループに分割し、各グループの特性を表すGMM
を設定することが可能であるので、当初から高い認識率
を得ることが可能となる。
声認識装置の使用開始前に少なくとも一つ設定するもの
である。SI−GMMを1つだけ設定する場合は、不特
定多数話者全体の特性を表すGMMを使用する。複数の
SI−GMMを設定する場合は、不特定多数話者を幾つ
かのグループに分割し、各グループの特性を表すGMM
を設定することが可能であるので、当初から高い認識率
を得ることが可能となる。
【0025】ステップ62でSA−GMMから選択され
たと判定されたときは、ステップ64でSA−HMMを
使用して音声認識を行うSA−HMM音声認識処理を実
施してステップ65に進む。ステップ65において適応
化処理の施されたGMM及びHMMを考慮して再音声認
識処理を実行し、最後にステップ66で音声認識結果を
出力してこのルーチンを終了する。
たと判定されたときは、ステップ64でSA−HMMを
使用して音声認識を行うSA−HMM音声認識処理を実
施してステップ65に進む。ステップ65において適応
化処理の施されたGMM及びHMMを考慮して再音声認
識処理を実行し、最後にステップ66で音声認識結果を
出力してこのルーチンを終了する。
【0026】図7は音声認識プログラムのステップ63
で実行されるSI−HMM音声認識処理のフローチャー
トであって、ステップ630においてSI−GMMmlに
対応するSI−HMMopを使用して音声sの音素認識処
理を実行する。そして、ステップ631で音素列を例え
ば辞書とTrigram である言語モデルを使用して単語又は
文章列に変換する。
で実行されるSI−HMM音声認識処理のフローチャー
トであって、ステップ630においてSI−GMMmlに
対応するSI−HMMopを使用して音声sの音素認識処
理を実行する。そして、ステップ631で音素列を例え
ば辞書とTrigram である言語モデルを使用して単語又は
文章列に変換する。
【0027】最後に、ステップ632で入力された特定
話者の音声を使用してSI−GMM及びSI−HMMの
パラメータ適応化を実行して、新しいSA−GMM及び
SA−HMMとして登録してこの処理を終了する。図8
は音声認識プログラムのステップ64で実行されるSA
−HMM音声認識処理のフローチャートであって、ステ
ップ640においてSA−GMMmlに対応するSA−H
MMopを使用して音声sの音素認識処理を実行する。そ
して、ステップ641で音素列を例えば辞書とTrigram
である言語モデルを使用して単語又は文章列に変換す
る。
話者の音声を使用してSI−GMM及びSI−HMMの
パラメータ適応化を実行して、新しいSA−GMM及び
SA−HMMとして登録してこの処理を終了する。図8
は音声認識プログラムのステップ64で実行されるSA
−HMM音声認識処理のフローチャートであって、ステ
ップ640においてSA−GMMmlに対応するSA−H
MMopを使用して音声sの音素認識処理を実行する。そ
して、ステップ641で音素列を例えば辞書とTrigram
である言語モデルを使用して単語又は文章列に変換す
る。
【0028】最後に、ステップ642で入力された音声
を使用してSA−GMM及びSA−HMMのパラメータ
適応化を実行してこの処理を終了する。図9はステップ
631及びステップ641で実行されるパラメータ適応
化処理のフローチャートであって、ステップ90におい
て "尤度最大化線形回帰(MLLR)法" によりGMM
及びHMMのパラメータの適応化を実施する。
を使用してSA−GMM及びSA−HMMのパラメータ
適応化を実行してこの処理を終了する。図9はステップ
631及びステップ641で実行されるパラメータ適応
化処理のフローチャートであって、ステップ90におい
て "尤度最大化線形回帰(MLLR)法" によりGMM
及びHMMのパラメータの適応化を実施する。
【0029】ステップ91において "最大事後確率推定
(MAP)法" によりGMM及びHMMのパラメータの
適応化を実施する。そしてステップ92において "移動
ベクトル場平滑化(VFS)法" によりGMM及びHM
Mのパラメータを平滑化して、この処理を終了する。図
10は本発明の効果を示すグラフであって、縦軸は単語
の誤認識率をとる。そして、aは適応化しない場合を、
bはGMMを使用してHMMを選択し適応化を行った場
合を、cはGMMを使用せずに直接HMMを選択し適応
化を行った場合を示す。
(MAP)法" によりGMM及びHMMのパラメータの
適応化を実施する。そしてステップ92において "移動
ベクトル場平滑化(VFS)法" によりGMM及びHM
Mのパラメータを平滑化して、この処理を終了する。図
10は本発明の効果を示すグラフであって、縦軸は単語
の誤認識率をとる。そして、aは適応化しない場合を、
bはGMMを使用してHMMを選択し適応化を行った場
合を、cはGMMを使用せずに直接HMMを選択し適応
化を行った場合を示す。
【0030】このグラフから判明するように、適応化を
実施することにより誤認識率を1〜2%低下させること
ができるだけでなく、GMMを使用した場合でも直接H
MMを選択した場合に比較して誤認識率はほとんど悪化
しない。一方、GMMを使用してHMMを選択する時間
は、HMMを直接選択する場合に比較して1/100〜
1/1000に短縮される。
実施することにより誤認識率を1〜2%低下させること
ができるだけでなく、GMMを使用した場合でも直接H
MMを選択した場合に比較して誤認識率はほとんど悪化
しない。一方、GMMを使用してHMMを選択する時間
は、HMMを直接選択する場合に比較して1/100〜
1/1000に短縮される。
【0031】
【発明の効果】第1の発明に係る音声認識装置によれ
ば、音声認識に使用するHMMを選択するためにHMM
の要約であるGMMを使用するので、話者が交代した場
合にも最適なHMMを選択することが可能となる。第2
の発明に係る音声認識装置によれば、入力された音声に
よりGMM及びHMMのパラメータが適応化されるの
で、話者に対するGMM及びHMMの適合性を改善する
ことが可能となる。
ば、音声認識に使用するHMMを選択するためにHMM
の要約であるGMMを使用するので、話者が交代した場
合にも最適なHMMを選択することが可能となる。第2
の発明に係る音声認識装置によれば、入力された音声に
よりGMM及びHMMのパラメータが適応化されるの
で、話者に対するGMM及びHMMの適合性を改善する
ことが可能となる。
【0032】第3の発明に係る音声認識装置によれば、
少なくとも1つの不特定話者GMMと適応化処理された
特定特定話者GMMに基づいて音声認識に使用するHM
Mが選択されるので、音声認識認識率をより向上させる
ことが可能となる。第4の発明に係る音声認識装置によ
れば、適応化されたGMM及びHMMを考慮して音声が
再認識されるので、認識率を一層向上させることが可能
となる。
少なくとも1つの不特定話者GMMと適応化処理された
特定特定話者GMMに基づいて音声認識に使用するHM
Mが選択されるので、音声認識認識率をより向上させる
ことが可能となる。第4の発明に係る音声認識装置によ
れば、適応化されたGMM及びHMMを考慮して音声が
再認識されるので、認識率を一層向上させることが可能
となる。
【図1】既に提案されている音声認識装置の機能線図で
ある。
ある。
【図2】1つの音素の構成図である。
【図3】本発明に係る音声認識装置の構成図である。
【図4】本発明に係る音声認識装置の機能線図である。
【図5】GMM尤度検定部の動作説明図である。
【図6】音声認識プログラムのフローチャートである。
【図7】SI−HMM音声認識処理のフローチャートで
ある。
ある。
【図8】SA−HMM音声認識処理のフローチャートで
ある。
ある。
【図9】パラメータ適応化処理のフローチャートであ
る。
る。
【図10】本発明の効果を示すグラフである。
10…話者 11…マイクロフォン 12…周波数分析部 13…音素認識部 14…単語・文章認識部 41…最大尤度GMM選択部 42…最適HMM選択部 43…適応化部 44…音声再認識部
Claims (11)
- 【請求項1】 音声信号を周波数分析し、周波数スペク
トラムの特徴を表す音響特徴量を時系列データとして出
力する周波数分析手段と、 前記周波数分析手段から出力される音響特徴量に対応す
る予め記憶されている混合ガウス分布モデルの尤度を算
出し、最大平均尤度を与える混合ガウス分布モデルを最
尤混合ガウス分布モデルとして選択する最尤混合ガウス
分布モデル選択手段と、 前記最尤混合ガウス分布モデル選択手段で選択された最
尤混合ガウス分布モデルに対応する隠れマルコフモデル
を最適隠れマルコフモデルとして予め記憶されている隠
れマルコフモデルの中から選択する最適隠れマルコフモ
デル選択手段と、 前記最適隠れマルコフモデル選択手段で選択された最適
隠れマルコフモデルを使用して前記周波数分析手段から
出力される音響特徴量に基づいて音素を認識し、音素列
データとして出力する音素認識手段と、 前記音素認識手段から出力される音素列データを予め記
憶されている辞書を使用して単語又は文章を構成する単
語・文章構成手段と、を具備する音声認識装置。 - 【請求項2】 前記周波数分析手段から出力される音響
特徴量に基づいて、前記最尤混合ガウス分布モデル選択
手段に含まれる混合ガウス分布モデルのパラメータ、及
び前記最適隠れマルコフモデル選択手段に含まれる隠れ
マルコフモデルのパラメータを学習し、前記最尤混合ガ
ウス分布モデル選択手段に含まれる混合ガウス分布モデ
ル及び前記最適隠れマルコフモデル選択手段に含まれる
隠れマルコフモデルを適応化するモデル適応化手段を更
に具備する請求項1に記載の音声認識装置。 - 【請求項3】 前記最尤混合ガウス分布モデル選択手段
及び前記最適隠れマルコフモデル選択手段が、少なくと
も1種類の不特定話者混合ガウス分布モデル及び不特定
話者隠れマルコフモデルと、前記モデル適応化手段で適
応化処理後の混合ガウス分布モデル及び隠れマルコフモ
デルである話者特定混合ガウス分布モデル及び話者特定
隠れマルコフモデルを含む請求項2に記載の音声認識装
置。 - 【請求項4】 前記モデル適応化手段による適応化後の
隠れマルコフモデルを使用して音素を再認識し、前記再
認識された音素に基づいて単語又は文章を再構成する再
音声認識手段を更に具備する請求項2又は3に記載の音
声認識装置。 - 【請求項5】 前記周波数分析手段から出力される音響
特徴量が、複数の線形予測分析ケプストラム及び正規化
対数パワ、並びにその1次及び2次微分値で構成される
請求項1から4のいずれか1項に記載の音声認識装置。 - 【請求項6】 音声信号を周波数分析し、周波数スペク
トラムの特徴を表す音響特徴量を時系列データとして出
力する周波数分析段階と、 前記周波数分析段階で出力される音響特徴量に対応する
予め記憶されている混合ガウス分布モデルの尤度を算出
し、最大尤度を与える混合ガウス分布モデルを最尤混合
ガウス分布モデルとして選択する最尤混合ガウス分布モ
デル選択段階と、 前記最尤混合ガウス分布モデル選択段階で選択された最
尤混合ガウス分布モデルに対応する隠れマルコフモデル
を最適隠れマルコフモデルとして予め記憶されている隠
れマルコフモデルの中から選択する最適隠れマルコフモ
デル選択段階と、 前記最適隠れマルコフモデル選択段階で選択された最適
隠れマルコフモデルを使用して前記周波数分析段階で出
力される音響特徴量に基づいて音素を認識し、音素列デ
ータとして出力する音素認識段階と、 前記音素認識段階で出力される音素列データを予め記憶
されている辞書を使用して単語又は文章を構成する単語
・文章構成段階と、で構成される音声認識方法。 - 【請求項7】 前記周波数分析段階から出力される音響
特徴量に基づいて、前記最尤混合ガウス分布モデル選択
段階で使用する混合ガウス分布モデルのパラメータ、及
び前記最適隠れマルコフモデル選択段階で使用する隠れ
マルコフモデルのパラメータを学習し、前記最尤混合ガ
ウス分布モデル選択段階で使用する混合ガウス分布モデ
ル及び前記最適隠れマルコフモデル選択段階で使用する
隠れマルコフモデルを適応化するモデル適応化段階を更
に含む請求項6に記載の音声認識方法。 - 【請求項8】 前記最尤混合ガウス分布モデル選択段階
及び前記最適隠れマルコフモデル選択段階で使用される
混合ガウス分布モデル及び隠れマルコフモデルが、少な
くとも1種類の不特定話者混合ガウス分布モデル及び不
特定話者隠れマルコフモデルと、前記モデル適応化段階
で適応化処理後の混合ガウス分布モデル及び隠れマルコ
フモデルである話者特定混合ガウス分布モデル及び話者
特定隠れマルコフモデルである請求項7に記載の音声認
識装置。 - 【請求項9】 前記モデル適応化段階における適応化後
の隠れマルコフモデルを使用して音素を再認識し、前記
再認識された音素に基づいて単語又は文章を再構成する
再音声認識段階を更に含む請求項7又は8に記載の音声
認識方法。 - 【請求項10】 前記周波数分析段階で出力される音響
特徴量が、複数の線形予測分析ケプストラム及び正規化
対数パワ、並びにその1次及び2次微分値で構成される
請求項6から9のいずれか1項に記載の音声認識方法。 - 【請求項11】 請求項6から10のいずれか1項に記
載の音声認識方法をコンピュータに実行させるためのプ
ログラムを記録した記録媒体。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
JP2000071067A JP2001255887A (ja) | 2000-03-09 | 2000-03-09 | 音声認識装置、音声認識方法及び音声認識方法を記録した媒体 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
JP2000071067A JP2001255887A (ja) | 2000-03-09 | 2000-03-09 | 音声認識装置、音声認識方法及び音声認識方法を記録した媒体 |
Publications (1)
Publication Number | Publication Date |
---|---|
JP2001255887A true JP2001255887A (ja) | 2001-09-21 |
Family
ID=18589705
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
JP2000071067A Pending JP2001255887A (ja) | 2000-03-09 | 2000-03-09 | 音声認識装置、音声認識方法及び音声認識方法を記録した媒体 |
Country Status (1)
Country | Link |
---|---|
JP (1) | JP2001255887A (ja) |
Cited By (7)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
US7209881B2 (en) | 2001-12-20 | 2007-04-24 | Matsushita Electric Industrial Co., Ltd. | Preparing acoustic models by sufficient statistics and noise-superimposed speech data |
JP2007193813A (ja) * | 2006-01-20 | 2007-08-02 | Mitsubishi Electric Research Laboratories Inc | データサンプルを複数のクラスのうちの1つに分類する方法及びデータサンプルを2つのクラスのうちの1つに分類する方法 |
JP2007233149A (ja) * | 2006-03-02 | 2007-09-13 | Nippon Hoso Kyokai <Nhk> | 音声認識装置及び音声認識プログラム |
CN100397438C (zh) * | 2005-11-04 | 2008-06-25 | 黄中伟 | 聋哑人汉语发音计算机辅助学习方法 |
JP2011150280A (ja) * | 2009-12-22 | 2011-08-04 | Vinogradov Alexei | 信号検出方法、信号検出装置、及び、信号検出プログラム |
JP2014502375A (ja) * | 2010-12-10 | 2014-01-30 | パナソニック株式会社 | 話者照合のためのパスフレーズ・モデリングのデバイスおよび方法、ならびに話者照合システム |
JP2016080916A (ja) * | 2014-10-17 | 2016-05-16 | 富士通株式会社 | 話者交替検出装置、話者交替検出方法及び話者交替検出用コンピュータプログラム |
-
2000
- 2000-03-09 JP JP2000071067A patent/JP2001255887A/ja active Pending
Cited By (8)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
US7209881B2 (en) | 2001-12-20 | 2007-04-24 | Matsushita Electric Industrial Co., Ltd. | Preparing acoustic models by sufficient statistics and noise-superimposed speech data |
CN100397438C (zh) * | 2005-11-04 | 2008-06-25 | 黄中伟 | 聋哑人汉语发音计算机辅助学习方法 |
JP2007193813A (ja) * | 2006-01-20 | 2007-08-02 | Mitsubishi Electric Research Laboratories Inc | データサンプルを複数のクラスのうちの1つに分類する方法及びデータサンプルを2つのクラスのうちの1つに分類する方法 |
JP2007233149A (ja) * | 2006-03-02 | 2007-09-13 | Nippon Hoso Kyokai <Nhk> | 音声認識装置及び音声認識プログラム |
JP4700522B2 (ja) * | 2006-03-02 | 2011-06-15 | 日本放送協会 | 音声認識装置及び音声認識プログラム |
JP2011150280A (ja) * | 2009-12-22 | 2011-08-04 | Vinogradov Alexei | 信号検出方法、信号検出装置、及び、信号検出プログラム |
JP2014502375A (ja) * | 2010-12-10 | 2014-01-30 | パナソニック株式会社 | 話者照合のためのパスフレーズ・モデリングのデバイスおよび方法、ならびに話者照合システム |
JP2016080916A (ja) * | 2014-10-17 | 2016-05-16 | 富士通株式会社 | 話者交替検出装置、話者交替検出方法及び話者交替検出用コンピュータプログラム |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
KR102769179B1 (ko) | 목소리 변환 및 스피치 인식 모델을 사용한 합성 데이터 증강 | |
US11823655B2 (en) | Synthetic speech processing | |
JP4351385B2 (ja) | 連続および分離音声を認識するための音声認識システム | |
JP5229219B2 (ja) | 話者選択装置、話者適応モデル作成装置、話者選択方法、話者選択用プログラムおよび話者適応モデル作成プログラム | |
CN1121680C (zh) | 语音识别 | |
US20030088414A1 (en) | Background learning of speaker voices | |
US11282495B2 (en) | Speech processing using embedding data | |
Masuko et al. | Imposture using synthetic speech against speaker verification based on spectrum and pitch. | |
Aggarwal et al. | Acoustic modeling problem for automatic speech recognition system: conventional methods (Part I) | |
JPH075892A (ja) | 音声認識方法 | |
JP3130524B2 (ja) | 音声信号認識方法およびその方法を実施する装置 | |
KR20220134347A (ko) | 다화자 훈련 데이터셋에 기초한 음성합성 방법 및 장치 | |
JP2004325635A (ja) | 音声処理装置、音声処理方法、音声処理プログラム、および、プログラム記録媒体 | |
JP2003022088A (ja) | 話者特徴抽出装置および話者特徴抽出方法、音声認識装置、並びに、プログラム記録媒体 | |
JP2002236494A (ja) | 音声区間判別装置、音声認識装置、プログラム及び記録媒体 | |
JP2001255887A (ja) | 音声認識装置、音声認識方法及び音声認識方法を記録した媒体 | |
JP6594251B2 (ja) | 音響モデル学習装置、音声合成装置、これらの方法及びプログラム | |
JP4461557B2 (ja) | 音声認識方法および音声認識装置 | |
Shen et al. | Automatic selection of phonetically distributed sentence sets for speaker adaptation with application to large vocabulary Mandarin speech recognition | |
JP2000194392A (ja) | 騒音適応型音声認識装置及び騒音適応型音声認識プログラムを記録した記録媒体 | |
JP2003330484A (ja) | 音声認識装置及び音声認識方法 | |
JP2011053312A (ja) | 適応化音響モデル生成装置及びプログラム | |
JP2001312293A (ja) | 音声認識方法およびその装置、並びにコンピュータ読み取り可能な記憶媒体 | |
JP2886118B2 (ja) | 隠れマルコフモデルの学習装置及び音声認識装置 | |
JP5722295B2 (ja) | 音響モデル生成方法と音声合成方法とそれらの装置とプログラム |