JP4510517B2 - 音響モデル雑音適応化方法およびこの方法を実施する装置 - Google Patents
音響モデル雑音適応化方法およびこの方法を実施する装置 Download PDFInfo
- Publication number
- JP4510517B2 JP4510517B2 JP2004156037A JP2004156037A JP4510517B2 JP 4510517 B2 JP4510517 B2 JP 4510517B2 JP 2004156037 A JP2004156037 A JP 2004156037A JP 2004156037 A JP2004156037 A JP 2004156037A JP 4510517 B2 JP4510517 B2 JP 4510517B2
- Authority
- JP
- Japan
- Prior art keywords
- acoustic model
- noise
- clean
- state
- distribution
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Expired - Fee Related
Links
Images
Description
図6において、入力音声601は、音声分析部602において特徴ベクトル603の時系列に変換され、探索処理部605に入力される。探索処理部605においては、音響モデル604を用いて、文法606で表現される単語或いは単語列と特徴ベクトル603の時系列との間の照合、即ち、探索処理が行われ、最も尤度が高い単語或いは単語列が認識結果607として出力される。
音声分析部602における音声分析方法としてよく用いられるのは、ケプストラム分析であり、特徴量としては、MFCC(Mel Frequency Cepstral Coefficient)、△MFCC、△△MFCC、対数パワー、△対数パワーその他があり、それらが、10〜100次元程度の特徴量ベクトルを構成する。分析フレーム幅30ms程度、分析フレームシフト幅10ms程度で分析が実行される。音響モデル604は、先のMFCCその他の音声特徴量を適切なカテゴリで標準パターンとして保持したものであり、入力音声の或る区間の特徴量に対して、各標準パターンとの音響的な近さを尤度として計算し、それがどのカテゴリに属するかを推定する。現在、音響モデル604としては、確率・統計理論に基づいてモデル化された隠れマルコフモデル(Hidden Markov Model、略して、HMM)が汎用されている。通常、HMMは音素カテゴリ単位で作成され、音素HMMの集合として一つの音響モデルが構築される。
音響モデル604の構造を図7を参照して説明する。
先ず、図7に示される如く、状態Sが混合確率分布Mとして表現される。混合確率分布の各要素分布としては、離散確率分布と連続確率分布があるが、現在、最もよく用いられているのは、連続確率分布の一つである多次元正規(ガウス)分布であり、その内でも次元間の相関がない(共分散行列の対角成分が0である)多次元無相関正規分布が最もよく用いられている。多次元正規分布の各次元は、先の特徴量ベクトルの各次元に対応する。図7においては、状態Sが4つの多次元正規分布を要素分布とする多次元混合正規分布Mとして表現されている。図7においては、特徴量ベクトルの或る次元iについて示しているが、特徴量ベクトルの各次元について同様に表現される。図7に示される状態の数個〜十数個程度の確率連鎖によって、音素HMMが構築される。音素HMMが、幾つの状態の如何なる確率連鎖によって構築されるかに関しては、様々なバリエーションがある。また、音素HMM毎に異なる構造をとることもある。現在、最も一般的に用いられている構造は、例えば、図8に示す音素HMMの如き3状態のleft−to−right型HMMと呼ばれるもので、3つの状態S1 (第1状態)、S2 (第2状態)、S3 (第3状態)を左から右に並べたものであり、状態の確率連鎖(状態遷移)としては、自分自身への遷移(自己遷移)S1 →S1 、S2 →S2 、S3 →S3 と、次状態への遷移S1 →S2 、S2 →S3 から成る。音響モデル中の全ての音素HMMがこの3状態left−to−right型HMMの構造をとることが多い。
図8の音素HMMに、或る特徴ベクトルの時系列が入力されたときの尤度計算について解説する。例えば、6フレーム分の特徴量ベクトルの時系列X=X1 、X2 、X3 、X4 、X5 、X6 が、音素HMMの或る一つの状態遷移系列S=S1 →S1 →S2 →S2 →S3 →S3 から出力される確率(尤度)P(X|S、HMM)は、以下の通りに計算される。
P(X|S、HMM)=b1(X1)a11b1(X2)a12b2(X3)a22b2(X4)a23b3(X5)a33b3(X6)・・・・・式(1)
ここで、ajkは、状態Sjから状態Skへの遷移確率である。また、bj(Xt)は、時刻t(t番目のフレーム)における特徴ベクトルXtが状態Sjを表現する混合正規分布Mjから出力される確率であり、混合正規分布Mjを構成するm番目の正規分布の出力確率Pjm(Xt)を用いて以下の通りに計算される。
以上の尤度計算は、或る一つの状態遷移系列Sに対するものであるが、このような状態遷移系列は他にもあげることができる。このような状態遷移系列全てに対して、特徴ベクトルの時系列Xを出力する確率を計算し、それらを加算したものを音素HMMに特徴ベクトルの時系列Xが入力されたときの尤度とする方法はトレリス(trellis)アルゴリズムと呼ばれる。一方、全ての状態遷移系列のなかで最も高い尤度を与える状態遷移系列を特徴ベクトルの時系列によりフレーム単位で逐次的に求め、最終フレームに到達したときの尤度を音素HMMに特徴ベクトルの時系列Xが入力されたときの尤度とする方法をビタービ(Viterbi)アルゴリズムという。一般的には、トレリスアルゴリズムと比較して計算量を大幅に削減することができるビタービアルゴリズムが用いられることが多い。
また、以上の尤度計算では、確率値をそのまま扱ったが、実際には、アンダーフローを防ぐために、確率値の対数をとって計算を行う。
ところで、以上の音声認識装置の従来例が実際に使用される環境には様々な種類の雑音が存在しており、これが音声認識精度の低下を招く要因となっている。雑音は大きく分けて二種類に分類することができる。一つは、音声に畳み込みの関係で影響を及ぽす乗算性歪みと呼ばれるもので、例えば、話者の口からマイクまでの空間の伝達特性、電話回線の伝達特性である。もう一つは、伝達特性の影響を受けた音声に加算の関係で影響を及ぼす加算性雑音と呼ばれるもので、例えば、オフィスにおいては、計算機が出す雑音、紙をめくる音の如き雑音であり、自動車内においてはエンジンの回転音を挙げることができる。時刻tにおける雑音のない、クリーンな音声をs(t)、乗法性歪み(伝達特性)をh(t)、加算性雑音をn(t)とすると、雑音のある音声のy(t)は以下の式で与えられる。以下で、※は畳み込みを表す。
近年、音声認識装置の雑音対策として、音響モデルのマルチコンディション(マルチスタイル)学習が研究されており、非常に単純でありながら、様々な雑音への耐性の高い雑音適応音響モデルが得られる学習方法として注目されている。
音響モデルのマルチコンディション学習について図を参照して解説する。
図9は音響モデルのマルチコンディション学習の流れを図示したものである。先ず、雑音のないクリーン音声データ908とその発声内容ラベルデータ909を用いて音響モデル学習部910によりクリーン音響モデル904を作成しておく。また、音声認識装置の使用環境に存在する雑音の情報として、乗算性歪みを表す伝達特性データ911と加算性雑音データを表す雑音データ912をそれぞれ想定される分だけ組み合わせで準備しておく。ここにおいては、N個の伝達特性データ911−1〜911−Nと雑音データ912−1〜912−Nの組み合わせがあるものとする。そして、クリーン音声データ908に対して、伝達特性畳み込み部913において伝達特性データ911を畳み込み、その後、雑音加算部914において雑音データ912を加算する。この操作をN個の伝達特性データ911と雑音データ912の組み合わせ全てに対して行い、それらの集合としてマルチコンディション音声データ915が作成される。元のクリーン音声データ908もマルチコンディション音声データ915に含める場合があり、ここにおいてはその様にしている。次に、音響モデル追加学習部916において、マルチコンディション音声データ915と発声内容ラベルデータ909を用いて、クリーン音響モデル904に対して、追加学習により音響モデルの学習を行い、その結果として雑音適応音響モデル918が作成される。クリーン音響モデル904に対する追加学習ではなく、マルチコンディション音声データ915を用いて最初から雑音適応音響モデル918を学習する方法も考えられるが、ここにおいては、追加学習を行うものとする。なお、追加学習であるため、クリーン音響モデル904と雑音適応音響モデル918の状態連鎖構造、状態における確率分布数を含む構造は等しい。
財団法人 電子情報通信学会編、中川 聖一 著 『確率モデルによる音声認識』 J.C.Segura,A.de la Torre,M.C.Benitez,A.M.Peinado,"Model-based compensation of the additivenoise for continuous speech recognition.Experiments using the AURORA II database and tasks",Proc. EUROSPEECH' 2001, vol.1, pp.221-24, Scandinavia,2001 滝口哲也、西村雅史、"車内音声認識におけるマルチスタイル学習法の効果について"、日本音響学会2001年秋季研究発表会講演論文集、1−Q−8、pp.155−156 國枝伸行、木村達也、石田明、"Multi-Style学習で作成した電話音声認識向け音響モデルの評価−SN比と電話機特性に対する効果−"
請求項4:請求項2に記載される音響モデル雑音適応化装置において、音響モデルパラメータ変化量計算部は、クリーン音響モデルAから雑音適応音響モデルBへの雑音適応化による各パラメータの変化量を計算するに際して、クリーン音響モデルAの各状態と対応する雑音適応音響モデルBの各状態において、状態における全ての分布を統合した分布を作成し、その統合分布のパラメータ変化量を、状態における全ての分布のパラメータ変化量とする音響モデル雑音適応化装置を構成した。
請求項6:請求項2ないし請求項5の内の何れかに記載される音響モデル雑音適応化装置において、分布間距離尺度として、Kullback−Leiblerダイバージェンスを用いる音響モデル雑音適応化装置を構成した。
請求項8:請求項2ないし請求項5の内の何れかに記載される音響モデル雑音適応化装置において、分布間距離尺度として、分布統合前後の尤度差分を用いる音響モデル雑音適応化装置を構成した。
請求項9:請求項2ないし請求項5の内の何れかに記載される音響モデル雑音適応化装置において、分布間距離尺度として、分布統合前後の変分ペイズ法に基づく評価関数値の差分を用いる音響モデル雑音適応化装置を構成した。
図1はこの発明による音響モデル雑音適応化装置の実施例の概要を説明する図である。ここにおいては、入力される別のクリーン音響モデルC:104−Cの雑音適応化を行い、新規の雑音適応音響モデルD:118−Dを得ることを目的としている。
先ず、クリーン音響モデルA:104−Aの雑音適応化が雑音適応化部117において行われ、雑音適応音響モデルB:118−Bが予め得られているものとする。なお、雑音適応化部117は、図9を参照して先に説明された点線内の雑音適応化部917に相当する。ここにおいては、クリーン音響モデルA:104Aと雑音適応音響モデルB:118−Bの状態連鎖構造、状態における確率分布数を含む構造は等しいものとするが、構造が異なる場合でも容易に拡張することができる。このクリーン音響モデルA:104−Aと雑音適応音響モデルB:118−Bを入力として、音響モデルパラメータ変化量計算部119において、雑音適応化によるクリーン音響モデルA:104−Aの各パラメータ、状態遷移確率、要素確率分布の平均・分散・分布重み、の変化量を計算する。一方、音響モデル構造参照関係決定部120において、別のクリーン音響モデルC:104−Cの各パラメータが参照するクリーン音響モデルA:104−Aの各パラメータを決定する。次に、音響モデルパラメータ調整部121において、雑音適応化によるクリーン音響モデルA:104−Aの各パラメータの変化量と、別のクリーン音響モデルC:104−Cとクリーン音響モデルA:l04−Aの参照関係を基に、別のクリーン音響モデルC:104−Cの各パラメータを調整し、雑音適応音響モデルD:118−Dを作成する。
先ず、音響モデルパラメータ変化量計算部219において、クリーン音響モデルA:204−Aと雑音適応音響モデルB:218−Bの対応する状態の遷移確率(クリーン音響モデルA:204Aと雑音適応音響モデルB:218−Bは構造が同じであるので、状態遷移確率の対応は1対1にとることができる)より、雑音適応化によるクリーン音響モデルA:204−Aの状態遷移確率の変化率を計算する。次に、音響モデル構造参照決定部220における処理を説明するが、ここにおいては、別のクリーン音響モデルC:204−Cに含まれる音素HMMとして、音素p−a−t(triphone)を例に挙げて説明する。音響モデル構造参照決定部220おける、別のクリーン音響モデルC:204−Cの音素p−a−t(triphone)が参照するクリーン音響モデルA:204−Aの音素HMMの検索方法には、幾つかのバリエーションが考えられるが、最も一般的な方法としては、前後の音素環境依存性を段階的に無視して行く方法である。この方法は、先ず、クリーン音響モデルA:204−Aに音素p−a−t(triphone)が存在するか否かを検索し、存在すれば、別のクリーン音響モデルC:204−Cの音素p−a−t(tripbone)が参照するクリーン音響モデルA:204−Aの音素HMMを音素p−a−t(triphone)とする。クリーン音響モデルA:204−Aに音素p−a−t(triphone)が存在しない場合は、音素p−a−t(triphone)に近い音素HMMとして、音素p−a−*(先行音素環境依存biphone)を検索する。クリーン音響モデルA:204−Aに音素p−a−*(先行音素環境依存biphone)が存在すれば、別のクリーン音響モデルC:204−Cの音素p−a−t(triphone)が参照するクリーン音響モデルA:204−Aの音素HMMを音素p−a−*(先行音素環境依存biphone)とする。クリーン音響モデルA:204−Aに音素p−a−*(先行音素環境依存biphone)が存在しない場合は、音素p−a−*(先行音素環境依存biphone)の次に音素p−a−t(triphone)に近い音素HMMとして、音素*−a−t(後続音素環境依存biphone)を検索する。先行音素環境依存biphoneと後続音素環境依存biphoneの何れを優先させるかというバリエーションも考えられる。クリーン音響モデルA:204−Aに音素*−a−t(後続音素環境依存biphone)が存在すれば、別のクリーン音響モデルC:204−Cの音素p−a−t(triphone)が参照するクリーン音響モデルA:204−Aの音素HMMを音素*−a−t(後続音素環境依存biphone)とする。クリーン音響モデルA:204−Aに音素*−a−t(後続音素環境依存biphone)が存在しない場合は、音素*−a−t(後続音素環境依存biphone)の次に音素p−a−t(triphone)に近い音素HMMとして、音素*−a−*(monophone)を検索する。通常、各音素のmonophone−HMMは音響モデルに含まれるので、音素*−a−*(monophone)は必ず見つかると考えてよい。この様に、最終的には、別のクリーン音響モデルC:204−Cの音素p−a−t(triphone)が参照するクリーン音響モデルA:204−Aの音素HMMが音素*−a−*(monophone)となる。以上は、前後の音素環境依存性を段階的に無視して行く方法であるが、例えば、別のクリーン音響モデルC:204−Cの音素p−a−t(triphone)が参照するクリーン音響モデルA:204−Aの音素HMMとして、初めから音素*−a−*(monophone)を選択する方法も考えられる。図2の場合は、前後の音素環境依存性を段階的に無視していく方法で、クリーン音響モデルA:204−Aに音素p−a−t(triphone)は存在しなかったが、音素p−a−*(先行音素環境依存biphone)が存在したため、別のクリーン音響モデルC:204−Cの音素p−a−t(triphone)が参照するクリーン音響モデルA:204−Aの音素HMMは音素p−a−*(先行音素環境依存biphone)となっている。この様にして、別のクリーン音響モデルC:204−Cの音素p−a−t(triphone)とクリーン音響モデルA:204−Aの音素HMMは、音素p−a−*(先行音素環境依存biphone)の対応が取れれば、両音素HMMは、3状態のleft−to−right型の構造をとるので、両音素HMMの状態同士の対応もとれる。最後に、音響モデルパラメータ調整部221において、音響モデルパラメータ変化量計算部219で計算された雑音適応化によるクリーン音響モデルA:204−Aの状態遷移確率の変化率と、音響モデル構造参照関係決定部220において決定された別のクリーン音響モデルC:204−Cの各状態とクリーン音響モデルA:204−Aの各状態の対応関係を基に、別のクリーン音響モデルC:204−Cの各状態遷移確率を調整し、雑音適応音響モデルD:218−Dの各状態遷移確率とする。
先ず、音響モデルパラメータ変化量計算部319において、クリーン音響モデルA:304−Aの状態SA1と対応する雑音適応音響モデルB:318−Bの状態SB1から状態SA1の各要素正規分布NA1、NA2、NA3、NA4のパラメータ(平均、分散、分布重み)の変化量を求めるが、この例は、状態SA1の最も分布重みの大きい要素正規分布NA3のパラメータ変化量をもって状態SA1における全ての要素正規分布NA1、NA2、NA3、NA4のパラメータ変化量(平均、分散)とする。これは状態SA1に付随するパラメータ変化量と見ることができる。一方、音響モデル構造参照関係決定部320においては、別のクリーン音響モデルC:304−Cの状態SC1とクリーン音響モデルA:304−Aの状態SA1の対応がとれており、この例の場合は、要素正規分布同士の対応は取る必要はない。そして、音響モデルパラメータ調整部321において、音響モデルパラメータ変化量計算部319において計算された状態SA1の最も分布重みの大きい要素正規分布NA3 のパラメータ変化量と、音響モデル構造参照関係決定部320において決定された状態SC1と状態SA1の対応を基に、状態SC1の各要素正規分布のパラメータ(平均、分散)の調整を行い、雑音適応音響モデルD:318−Dの状態SD1の各要素正規分布のパラメータ(平均、分散)とする。この例は、分布重みの調整は行わない。
先ず、音響モデルパラメータ変化量計算部419において、クリーン音響モデルA:404−Aの状態SA1と対応する雑音適応音響モデルB:418−Bの状態SB1から状態SA1の各要素正規分布のパラメータ(平均、分散、分布重み)の変化量を求めるが、この例は、状態SA1における各要素正規分布NA1、NA2、NA3、NA4を統合して一つの統合分布NA を作成すると共に、状態SBlにおける各要素正規分布NB1、NB2、NB3、NB4を統合して一つの統合分布NB を作成し、統合分布NA から統合分布NB へのパラメータ変化量をもって状態SA1における全ての要素正規分布NA1、NA2、NA3、NA4のパラメータ変化量(平均、分散)とする。これは、状態SA1に付随するパラメータ変化量と見ることができる。統合分布NA の次元iの平均μAi、分散σ2 Aiおよび分布重みWAは、各要素正規分布NA1、NA2、NA3、NA4の次元iの平均μA1i、μA2i、μA3i、μA4i、分散σ2 A1i、σ2 A2i、σ2 A3i、σ2 A4i;、および分布重みWA1、WA2、WA3、WA4を用いて以下の式で得られる。
先ず、音響モデルパラメータ変化量計算部519−Aにおいて、クリーン音響モデルA:504−Aの状態SA1と対応する雑音適応音響モデルB:518−Bの状態SB1から状態SA1の各要素正規分布のパラメータ(平均、分散、分布重み)の変化量を求めるが、この例は、状態SA1における各要素正規分布NA1、NA2、NA3、NA4と状態SB1における各要素正規分布NB1、NB2、NB3、NB4の対応から、状態SA1における各要素正規分布NA1、NA2、NA3、NA4のパラメ一タ変化量(平均、分散、分布重み)を個別に計算しておく。一方、音響モデル構造参照関係決定部520においては、別のクリーン音響モデルC:504−Cの状態SC1とクリーン音響モデルA:404−Aの状態SA1の対応がとれており、更に、状態SC1の各要素正規分布NC1、NC2、NC3、NC4がそれぞれ参照する状態SA1における要素正規分布を決めるが、この参照関係を、分布間距離を基準に決める。ここにおいては、NC1との分布間距離が最も近い状態SA1の要素正規分布としてNA1が選ばれており、以下、同様に、NC2に対してNA2、NC3に対してNA4、NC4に対してNA4が選ばれている。この様に、状態SC1と状態SA1の要素正規分布数が同じであったとしても、必ずしも要素正規分布同士の対応は1対1になるとは限らない。そして、音響モデルパラメータ調整部521において、音響モデルパラメータ変化量計算部519において計算された状態SA1の各要素正規分布NA1、NA2、NA3、NA4のパラメータ変化量と、音響モデル構造参照関係決定部520において決定された状態SC1における各要素正規分布NC1、NC2、NC3、NC4とそれが参照する状態SA1における各要素正規分布NA1、NA2、NA4を基に、状態SC1の各要素正規分布NC1、NC2、NC3、NC4のパラメータ(平均、分散、分布重み)の調整を行い、雑音適応音響モデルD:518−Dの状態SD1の各要素正規分布ND1、ND2、ND3、ND4のパラメータ(平均、分散、分布重み)とする。
△P(N1、N2→N)=P1+P2−P ・・・・・式(12)
また、図5の例における他の分布間距離尺度としては、分布統合前後の変分ベイズ法に基づく評価関数値の差分を用いることができる。変分ベイズ法に基づく評価関数値については、参考文献(渡部晋治、南泰浩、中村篤、上田修功、“ベイズ的基準を用いた状態共有型HMM構造の選択”、電子情報通信学会論文誌、D-II,Vol.J86-D-II, No.6, pp.776-786, 2003年6月)に開示されている。
104−C 別のクリーン音響モデルC
117 雑音適応化部
118−B 雑音適応音響モデルB
118−D 新規の雑音適応音響モデルD
119 音響モデルパラメータ変化量計算部
120 音響モデル構造参照関係決定部
121 音響モデルパラメータ調整部
Claims (9)
- 雑音のない音声データで学習されたクリーン音響モデルAと当該クリーン音響モデルAを元に雑音適応化された雑音適応音響モデルBとを準備し、
クリーン音響モデルAから雑音適応音響モデルBへの雑音適応化によるクリーン音響モデルAの各状態のパラメータ変化量を計算し、
雑音のない音声データで学習された別のクリーン音響モデルCとクリーン音響モデルAとを入力し、別のクリーン音響モデルCの各状態とクリーン音響モデルAの各状態の対応関係を音素環境依存性により決定し、
計算されたクリーン音響モデルAの雑音適応化による各状態のパラメータ変化量と、決定されたクリーン音響モデルAの各状態と別のクリーン音響モデルCの各状態との対応関係とを入力し、別のクリーン音響モデルCの各状態のパラメータを、該音響モデルCに対応すると決定された音響モデルAの各状態の雑音適応化によるパラメータ変化量を用いて調整して、新規の雑音適応音響モデルDを作成することを特徴とする音響モデル雑音適応化方法。 - 雑音のない音声データで学習されたクリーン音響モデルAを具備し、
クリーン音響モデルAを入力してこれを雑音適応化する雑音適応化部を具備し、
クリーン音響モデルAを元に雑音適応化された雑音適応音響モデルBを具備し、
クリーン音響モデルAと雑音適応音響モデルBとを入力して、クリーン音響モデルAから雑音適応音響モデルBへの雑音適応化によるクリーン音響モデルAの各状態のパラメータ変化量を計算する音響モデルパラメータ変化量計算部を具備し、
雑音のない音声データで学習された別のクリーン音響モデルCとクリーン音響モデルAとを入力し、別のクリーン音響モデルCの各状態とクリーン音響モデルAの各状態の対応関係を音素環境依存性により決定する音響モデル構造参照関係決定部を具備し、
音響モデルパラメータ変化量計算部において計算されたクリーン音響モデルAの雑音適応化による各状態のパラメータ変化量と、音響モデル構造参照関係決定部において決定されたクリーン音響モデルAの各状態と別のクリーン音響モデルCの各状態との対応関係とを入力し、別のクリーン音響モデルCの各状態のパラメータを音響モデル構造参照関係決定部において決定された該音響モデルCに対応する音響モデルAの各状態の雑音適応化によるパラメータ変化量を用いて調整して新規の雑音適応音響モデルDを作成する音響モデルパラメータ調整部を具備することを特徴とする音響モデル雑音適応化装置。 - 雑音のない音声データで学習されたクリーン音響モデルAを具備し、
クリーン音響モデルAを入力してこれを雑音適応化する雑音適応化部を具備し、
クリーン音響モデルAを元に雑音適応化された雑音適応音響モデルBを具備し、
クリーン音響モデルAと雑音適応音響モデルBとを入力して、クリーン音響モデルAから雑音適応音響モデルBへの雑音適応化によるクリーン音響モデルAの各状態の状態遷移確率の変化率と各状態において重みの最も大きい分布のパラメータ変化量を計算する音響モデルパラメータ変化量計算部を具備し、
雑音のない音声データで学習された別のクリーン音響モデルCとクリーン音響モデルAとを入力し、別のクリーン音響モデルCの各状態とクリーン音響モデルAの各状態の対応関係を音素環境依存性により決定する音響モデル構造参照関係決定部を具備し、
音響モデルパラメータ変化量計算部において計算されたクリーン音響モデルAの雑音適応化による各状態の状態遷移確率の変化率と各状態において重みの最も大きい分布のパラメータ変化量と、音響モデル構造参照関係決定部において決定されたクリーン音響モデルAの各状態と別のクリーン音響モデルCの各状態との対応関係とを入力し、別のクリーン音響モデルCの各状態の状態遷移確率と各状態における全ての分布のパラメータを、音響モデル構造参照関係決定部において決定された該音響モデルCに対応する音響モデルAの各状態の雑音適応化による状態遷移確率の変化率と各状態において重みの最も大きい分布のパラメータ変化量を用いて調整して新規の雑音適応音響モデルDを作成する音響モデルパラメータ調整部を具備することを特徴とする音響モデル雑音適応化装置。 - 請求項2に記載される音響モデル雑音適応化装置において、
音響モデルパラメータ変化量計算部は、クリーン音響モデルAから雑音適応音響モデルBへの雑音適応化による各パラメータの変化量を計算するに際して、クリーン音響モデルAの各状態と対応する雑音適応音響モデルBの各状態において、状態における全ての分布を統合した分布を作成し、その統合分布のパラメータ変化量を、状態における全ての分布のパラメータ変化量とすることを特徴とする音響モデル雑音適応化装置。 - 請求項2に記載される音響モデル雑音適応化装置において、
音響モデルパラメータ変化量計算部は、さらに、クリーン音響モデルAから雑音適応音響モデルBへの雑音適応化によるクリーン音響モデルAの各状態の各分布のパラメータ変化量である分布パラメータ変化量を計算し、
音響モデル構造参照関係決定部は、さらに、別のクリーン音響モデルCの各状態と対応するクリーン音響モデルAの各状態における分布同士の対応を、分布間距離の近さを基準として決定し、
音響モデルパラメータ調整部は、音響モデルパラメータ変化量計算部において計算されたクリーン音響モデルAの雑音適応化による各状態の各分布パラメータ変化量と、音響モデル構造参照関係決定部において決定されたクリーン音響モデルAの各状態の各分布と別のクリーン音響モデルCの各状態の各分布との対応関係とを入力し、別のクリーン音響モデルCの各状態の各分布パラメータを、音響モデル構造参照関係決定部において決定された該音響モデルCに対応する音響モデルAの各状態の各分布の雑音適応化による分布パラメータ変化量を用いて調整して新規の雑音適応音響モデルDを作成することを特徴とする音響モデル雑音適応化装置。 - 請求項5に記載される音響モデル雑音適応化装置において、
分布間距離尺度として、Kullback−Leiblerダイバージェンスを用いることを特徴とする音響モデル雑音適応化装置。 - 請求項5に記載される音響モデル雑音適応化装置において、
分布間距離尺度として、バタチャリヤ距離を用いることを特徴とする音響モデル雑音適応化装置。 - 請求項5に記載される音響モデル雑音適応化装置において、
分布間距離尺度として、分布統合前後の尤度差分を用いることを特徴とする音響モデル雑音適応化装置。 - 請求項5に記載される音響モデル雑音適応化装置において、
分布間距離尺度として、分布統合前後の変分ペイズ法に基づく評価関数値の差分を用いることを特徴とする音響モデル雑音適応化装置。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
JP2004156037A JP4510517B2 (ja) | 2004-05-26 | 2004-05-26 | 音響モデル雑音適応化方法およびこの方法を実施する装置 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
JP2004156037A JP4510517B2 (ja) | 2004-05-26 | 2004-05-26 | 音響モデル雑音適応化方法およびこの方法を実施する装置 |
Publications (2)
Publication Number | Publication Date |
---|---|
JP2005338358A JP2005338358A (ja) | 2005-12-08 |
JP4510517B2 true JP4510517B2 (ja) | 2010-07-28 |
Family
ID=35492021
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
JP2004156037A Expired - Fee Related JP4510517B2 (ja) | 2004-05-26 | 2004-05-26 | 音響モデル雑音適応化方法およびこの方法を実施する装置 |
Country Status (1)
Country | Link |
---|---|
JP (1) | JP4510517B2 (ja) |
Cited By (1)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
WO2020241923A1 (ko) * | 2019-05-29 | 2020-12-03 | 엘지전자 주식회사 | 사용자 환경에서의 음성 인식 모델의 성능을 예측하는 인공 지능 장치 및 그 방법 |
Families Citing this family (4)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
JP4571921B2 (ja) * | 2006-03-15 | 2010-10-27 | 日本電信電話株式会社 | 音響モデル適応化装置、音響モデル適応化方法、音響モデル適応化プログラム及びその記録媒体 |
JP5041934B2 (ja) * | 2006-09-13 | 2012-10-03 | 本田技研工業株式会社 | ロボット |
US8107735B2 (en) | 2007-04-10 | 2012-01-31 | Denso Corporation | Three dimensional shape reconstitution device and estimation device |
CN117706376B (zh) * | 2024-02-04 | 2024-05-24 | 深圳海辰储能科技有限公司 | 电池容量预测方法、装置、电子设备及存储介质 |
Citations (10)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
JPH0822296A (ja) * | 1994-07-07 | 1996-01-23 | Nippon Telegr & Teleph Corp <Ntt> | パターン認識方法 |
JPH08248976A (ja) * | 1995-03-10 | 1996-09-27 | Atr Onsei Honyaku Tsushin Kenkyusho:Kk | 話者適応化装置及び音声認識装置 |
JPH0990981A (ja) * | 1995-09-22 | 1997-04-04 | Nippon Telegr & Teleph Corp <Ntt> | パターン認識のためのモデル学習方法 |
JPH09114483A (ja) * | 1995-10-23 | 1997-05-02 | Sanyo Electric Co Ltd | Hmmの学習装置 |
JPH10149191A (ja) * | 1996-09-20 | 1998-06-02 | Nippon Telegr & Teleph Corp <Ntt> | モデル適応方法、装置およびその記憶媒体 |
JPH10161692A (ja) * | 1996-12-03 | 1998-06-19 | Canon Inc | 音声認識装置及び音声認識方法 |
JP2000010582A (ja) * | 1998-06-19 | 2000-01-14 | Nec Corp | 音声認識装置 |
JP2002268675A (ja) * | 2001-03-13 | 2002-09-20 | Nec Corp | 音声認識装置 |
JP2003263186A (ja) * | 2002-03-08 | 2003-09-19 | Ricoh Co Ltd | 音声認識装置、音声認識方法および音声認識プログラムが記録された記録媒体 |
JP2004109464A (ja) * | 2002-09-18 | 2004-04-08 | Pioneer Electronic Corp | 音声認識装置及び音声認識方法 |
-
2004
- 2004-05-26 JP JP2004156037A patent/JP4510517B2/ja not_active Expired - Fee Related
Patent Citations (10)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
JPH0822296A (ja) * | 1994-07-07 | 1996-01-23 | Nippon Telegr & Teleph Corp <Ntt> | パターン認識方法 |
JPH08248976A (ja) * | 1995-03-10 | 1996-09-27 | Atr Onsei Honyaku Tsushin Kenkyusho:Kk | 話者適応化装置及び音声認識装置 |
JPH0990981A (ja) * | 1995-09-22 | 1997-04-04 | Nippon Telegr & Teleph Corp <Ntt> | パターン認識のためのモデル学習方法 |
JPH09114483A (ja) * | 1995-10-23 | 1997-05-02 | Sanyo Electric Co Ltd | Hmmの学習装置 |
JPH10149191A (ja) * | 1996-09-20 | 1998-06-02 | Nippon Telegr & Teleph Corp <Ntt> | モデル適応方法、装置およびその記憶媒体 |
JPH10161692A (ja) * | 1996-12-03 | 1998-06-19 | Canon Inc | 音声認識装置及び音声認識方法 |
JP2000010582A (ja) * | 1998-06-19 | 2000-01-14 | Nec Corp | 音声認識装置 |
JP2002268675A (ja) * | 2001-03-13 | 2002-09-20 | Nec Corp | 音声認識装置 |
JP2003263186A (ja) * | 2002-03-08 | 2003-09-19 | Ricoh Co Ltd | 音声認識装置、音声認識方法および音声認識プログラムが記録された記録媒体 |
JP2004109464A (ja) * | 2002-09-18 | 2004-04-08 | Pioneer Electronic Corp | 音声認識装置及び音声認識方法 |
Cited By (2)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
WO2020241923A1 (ko) * | 2019-05-29 | 2020-12-03 | 엘지전자 주식회사 | 사용자 환경에서의 음성 인식 모델의 성능을 예측하는 인공 지능 장치 및 그 방법 |
US11211045B2 (en) | 2019-05-29 | 2021-12-28 | Lg Electronics Inc. | Artificial intelligence apparatus and method for predicting performance of voice recognition model in user environment |
Also Published As
Publication number | Publication date |
---|---|
JP2005338358A (ja) | 2005-12-08 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
JP5418223B2 (ja) | 音声分類装置、音声分類方法、および音声分類用プログラム | |
Gales | Model-based techniques for noise robust speech recognition | |
JP3742236B2 (ja) | 音声認識のための隠れマルコフ・モデルの適応技術 | |
US7065488B2 (en) | Speech recognition system with an adaptive acoustic model | |
US6327565B1 (en) | Speaker and environment adaptation based on eigenvoices | |
JP2006215564A (ja) | 自動音声認識システムにおける単語精度予測方法、及び装置 | |
JP2002014692A (ja) | 音響モデル作成装置及びその方法 | |
Liao et al. | Uncertainty decoding for noise robust speech recognition | |
JP2004347761A (ja) | 音声認識装置、音声認識方法、該音声認識方法をコンピュータに対して実行させるためのコンピュータ実行可能なプログラムおよび記憶媒体 | |
WO2010128560A1 (ja) | 音声認識装置、音声認識方法、及び音声認識プログラム | |
Gales et al. | Model-based approaches to handling additive noise in reverberant environments | |
JP2751856B2 (ja) | 木構造を用いたパターン適応化方式 | |
JP5740362B2 (ja) | 雑音抑圧装置、方法、及びプログラム | |
JP4510517B2 (ja) | 音響モデル雑音適応化方法およびこの方法を実施する装置 | |
CN102237082B (zh) | 语音识别系统的自适应方法 | |
Kurian | A review on technological development of automatic speech recognition | |
JP2004509364A (ja) | 音声認識システム | |
GB2480084A (en) | An adaptive speech processing system | |
JP4571921B2 (ja) | 音響モデル適応化装置、音響モデル適応化方法、音響モデル適応化プログラム及びその記録媒体 | |
JP5104732B2 (ja) | 拡張認識辞書学習装置、これを用いた音声認識システム、その方法及びそのプログラム | |
JPH08110792A (ja) | 話者適応化装置及び音声認識装置 | |
JP2000259198A (ja) | パターン認識装置および方法、並びに提供媒体 | |
JP2005321660A (ja) | 統計モデル作成方法、その装置、パターン認識方法、その装置、これらのプログラム、その記録媒体 | |
JP4004368B2 (ja) | 音声認識システム | |
Sodanil et al. | Thai word recognition using hybrid MLP-HMM |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
A621 | Written request for application examination |
Free format text: JAPANESE INTERMEDIATE CODE: A621 Effective date: 20060725 |
|
RD03 | Notification of appointment of power of attorney |
Free format text: JAPANESE INTERMEDIATE CODE: A7423 Effective date: 20060725 |
|
A977 | Report on retrieval |
Free format text: JAPANESE INTERMEDIATE CODE: A971007 Effective date: 20090202 |
|
A131 | Notification of reasons for refusal |
Free format text: JAPANESE INTERMEDIATE CODE: A131 Effective date: 20090519 |
|
A521 | Request for written amendment filed |
Free format text: JAPANESE INTERMEDIATE CODE: A523 Effective date: 20090715 |
|
TRDD | Decision of grant or rejection written | ||
A01 | Written decision to grant a patent or to grant a registration (utility model) |
Free format text: JAPANESE INTERMEDIATE CODE: A01 Effective date: 20100420 |
|
A01 | Written decision to grant a patent or to grant a registration (utility model) |
Free format text: JAPANESE INTERMEDIATE CODE: A01 |
|
A61 | First payment of annual fees (during grant procedure) |
Free format text: JAPANESE INTERMEDIATE CODE: A61 Effective date: 20100430 |
|
FPAY | Renewal fee payment (event date is renewal date of database) |
Free format text: PAYMENT UNTIL: 20130514 Year of fee payment: 3 |
|
R150 | Certificate of patent or registration of utility model |
Free format text: JAPANESE INTERMEDIATE CODE: R150 |
|
FPAY | Renewal fee payment (event date is renewal date of database) |
Free format text: PAYMENT UNTIL: 20140514 Year of fee payment: 4 |
|
LAPS | Cancellation because of no payment of annual fees |