JP3589044B2 - Speaker adaptation device - Google Patents
Speaker adaptation device Download PDFInfo
- Publication number
- JP3589044B2 JP3589044B2 JP29792498A JP29792498A JP3589044B2 JP 3589044 B2 JP3589044 B2 JP 3589044B2 JP 29792498 A JP29792498 A JP 29792498A JP 29792498 A JP29792498 A JP 29792498A JP 3589044 B2 JP3589044 B2 JP 3589044B2
- Authority
- JP
- Japan
- Prior art keywords
- recognition result
- speaker
- speaker adaptation
- standard pattern
- reliability
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Expired - Fee Related
Links
Images
Abstract
Description
【0001】
【発明の属する技術分野】
本発明は、多数の話者の音声データによりパラメータ学習を行った標準パタンを、ある話者に適応した話者適応パタンに更新するようにした教師なし話者適応化装置、及びその話者適応パタンを用いた音声認識装置に関する。
【0002】
【従来の技術】
音声認識のアプリケーションを想定した場合、事前の話者音声の登録を必要としない不特定話者音声認識システムの要望が高く、隠れマルコフモデル(HiddenMarkov Model、以下HMMとする)、ニューラルネット(Neural Network、以下NNとする)を用いた音声認識方式による実用化検討が行われている。HMM、NNの詳細は、例えば「音声認識の基礎(上、下)」L.RABINER、B.H.JUANG、古井 監訳、1995年、11月、NTTアドバンステクノロジ (以下、文献1という)に記されている。これらの方法は、予め多数の話者からの単語、文などの音声データを用いた、標準パタンの学習によって不特定話者標準パタンを作成するものである。
【0003】
しかしながら、HMMやNNによる不特定話者音声認識システムは、特定話者に限定した場合、その特定話者からの単語、文などの音声データによって標準パタンを学習した特定話者認識システムと比較して、単語誤り率で2〜3倍程度であるのが現状である。そこで不特定話者音声認識システムの向上をはかるため、話者適応技術の研究が最近盛んに行われている。
【0004】
話者適応化技術は、特定話者の少量の音声データ(以下適応データとする)を用いて、音声認識システムを使用する前や使用中に、不特定話者音声認識システムの標準パタンのパラメータを適応学習して認識率の向上を図るものである。話者適応化方式については、「音声認識における話者適応」松本 弘、日本音響学会平成7年春季研究発表会講演論文集、pp.27−301995年3月(以下、文献2という)に詳しい。話者適応化法としては、適応学習データの発話の内容が既知の音声を用いるか、あるいは任意の未知の発話内容の音声を使用するかにより、「教師あり/教師なし」の2つの方法がある。教師あり話者適応方式は、適応データを用いた適応学習後の認識精度は高いが、音声認識装置の使用者が使用前に予め決められた単語や文章を発声しなければならず、使用者の負担が大きい。一方、教師なし話者適応方式は、音声認識装置の使用中に使用者が適応学習を意識することなく認識率の改善を得ようとする方法である。実際の音声認識のアプリケーションでは、教師なし話者適応の確立が望まれている。
【0005】
従来の教師なし適応化では、入力音声に対して不特定話者用の標準パタンを用いて照合を行い、照合を行った結果として得られる認識結果を発声内容であるとして、不特定話者用標準パタンを連結し、入力音声を適応データとして標準パタンのパラメータを更新する。例えば 「Speaker Adaptation of ContinuousDensity HMMs Using Multivariate Linear Regression」 C. L. Leggetter andP. C. Woodland, Proc. of ICSLP94、pp.451−454、1994年 (以下、文献3という)で報告されている。
【0006】
以下に従来例として文献3に記述されている認識結果を発声内容とする教師なし話者適応化装置を図21のブロック図を参照して説明する。図21において、入力音声2001は、認識装置の使用話者が発声した単語や文章の音声である。ここでの1発声はポーズからポーズの間の文節や文章として説明を行う。
【0007】
音声特徴量抽出手段2002は入力音声2001の音声信号をA/D変換し、A/D変換された信号を5ミリ秒〜20ミリ秒程度の一定時間間隔のフレームで切り出し、音響分析を行って音声特徴量を抽出する。ここで音声特徴量とは、少い情報量で音声の特徴を表現できるものであり、例えばケプストラム、ケプストラムの動的特徴の物理量で構成する特徴量ベクトルである。
【0008】
照合手段2003では、認識辞書2005でテキスト表記によって設定している認識対象の単語 [W(1), W(2), ..., W(wn)](括弧内は単語番号、wnは認識対象単語数)を認識ユニットのラベル表記へ変換し、ラベルに対応した認識ユニットの標準パタン2004を連結することで認識対象単語の標準パタンを作成する。そして音声特徴量抽出手段2002からの出力である発声1から発声Nまでの音声特徴量の時系列 O = [o(1), o(2) ,..., o(T)](括弧内は時刻、Tは最大フレーム数)に対して照合を行い、話者適応学習用音声認識結果2006を出力する。話者適応学習用音声認識結果2006は発声に対して最も照合スコア(尤度とも言う) が高い単語番号系列 Rn■=[r■(1), r■(2) ,..., r■(m■)]を計算し、単語番号に対応した単語のテキスト表記Rw■=[W(r■(1)), W(r■(2)) ,..., W(r■(m■))]を出力する。ここで、r■(i)は話者適応学習用音声認識結果2006の単語列中のi番目の単語の単語番号を示す。また、m■は話者適応用音声認識結果2006の単語列数を示す。
【0009】
標準パタン2004は、予め用意した標準パタンであり、文献3では認識ユニットを前後音素環境 (コンテキスト) 依存の音素としたHMMを用い、多数の話者の音声データでパラメータ学習を行った標準パタンを初期の標準パタンとして使用している。HMMは状態単位で以下の情報をパラメータとして有することで複数の認識ユニットの標準パタンを形成する。
(a)状態番号
(b)受理可能なコンテキストクラス
(c)先行状態及び後続状態のリスト
(d)出力確率密度分布のパラメータ
(e)自己遷移確率確率及び後続状態への遷移確率
【0010】
認識辞書2005は、予め定めた認識対象とする単語や文章をテキストで格納し、テキスト表記から認識ユニットラベルへの変換を行って、このラベル系列にしたがって標準パタン2004から対応する認識ユニット標準パタンを連結して照合手段2003で用いる認識対象単語の標準パタンを生成する。例えば認識辞書2005に「あお」が存在するならば、これは音素系列で表した場合は/ao/となる。離散発声の「あお」の認識に用いる標準パタンは中心音素が/a/であり、先行音素が無音、後続音素が/o/である認識ユニットのHMM λ−aoと、中心音素が/o/であり、先行音素が/a/、後続音素が無音の認識ユニットのHMM λao−を連結したHMMによって照合を行う。最近ではこのような前後音素環境依存の音素HMMを用いて、認識対象語彙が40,000単語以上の音声認識システムの検討が行われている。
【0011】
教師なし話者適応手段2007は、照合手段2003の出力である話者適応学習用音声認識結果2006と標準パタン2004を入力し、認識結果の認識ユニットラベル系列に基づき、標準パタン2004の音素HMMを連結し、音声特徴量抽出手段2002からの出力である音声特徴量の時系列を適応データとして標準パタンのパラメータを更新し、教師なし話者適応パタン2008を出力する。
【0012】
文献3では、数式1で示される重回帰写像モデルに基づき、HMMのパラメータの一つであるガウス分布の平均ベクトルを線形変換することで教師なし話者適応パタン2008を計算する。数式1においてμ(q)、μa(q)は更新前後のガウス分布番号qの平均ベクトルであり、次元数はdであり音声特徴量ベクトルの次元数と同じである。Aはd×dの変換行列であり、vはd次元の定数項ベクトルである。変換行列Aとvは数式2によってAのp行目、vのp次元目を算出する。数式2において、Ψは更新を行うガウス分布番号の集合、r(i,t)は時刻tにガウス分布iに特徴ベクトルo(t)が存在する期待値、μ(i,r)はガウス分布iの平均ベクトルのr次元目の要素、σ2(i,p)はガウス分布iの共分散行列のp行p列目の要素、o(t,p)は特徴ベクトルo(t)のp次元目の要素、Tは適応データの総フレーム数である。
【数1】
【数2】
【0013】
教師なし話者適応パタン2008は、教師なし話者適応手段2007からの出力であり、この標準パタンを用いて音声認識装置などで音声認識が行われる。
【0014】
【発明が解決しようとする課題】
しかし、従来の教師なし話者適応化装置では、照合を行って得られた話者適応用認識結果を発声内容として標準パタンのパラメータの更新を行っていたため、話者適応学習用認識結果が誤った場合には、パラメータの誤った推定が行われ認識率が低下する、という問題点があった。
【0015】
そこで、本発明は、以上の問題点を解決し、教師なし話者適応方式において話者適応学習用認識結果が誤った場合においても、標準パタンのパラメータ誤推定を防ぎ、認識率を向上させることのできる話者適応化装置、およびその話者適応化装置により更新された教師なし話者適応パタン使用して音声認識を行う音声認識装置を提供することを目的とする。
【0016】
【課題を解決するための手段】
この発明に係る話者適応化装置では、話者の入力音声から抽出した音声特徴量と、多数の話者の音声データによりパラメータ学習を行って得た標準パタンと、を照合して認識結果を出力するとともに、前記標準パタンを、前記入力音声を発した話者に適応した話者適応パタンに更新するか否かを、前記認識結果の信頼度に応じて決定する話者適応化装置において、
前記音声特徴量と前記標準パタンから推定適応パタンを最尤推定により算出する標準パタンパラメータ最尤推定手段と、
この標準パタンパラメータ最尤推定手段により算出された推定適応パタンを構成するパラメータの値と前記標準パタンを構成するパラメータの値とを、前記信頼度に応じて線形補間することにより前記話者適応パタンを算出するパラメータ線形補間手段と、
を備えるものである。
【0017】
また、次の発明に係る話者適応化装置では、話者の入力音声から抽出した音声特徴量と、多数の話者の音声データによりパラメータ学習を行って得た標準パタンと、を照合して認識結果を出力するとともに、前記標準パタンを、前記入力音声を発した話者に適応した話者適応パタンに更新するか否かを、前記認識結果の信頼度に応じて決定する話者適応化装置において、
前記信頼度に基づいて、前記入力音声から得られる話者適応用データのパラメータ学習への重み付けを計算し、重み付けされた話者適応用データを用いて、前記標準パタンからを構成するパラメータを、前記話者適応パタンを構成するパラメータに更新する適応学習手段を備えたことを特徴とする。
【0018】
また、次の発明に係る話者適応化装置では、話者の入力音声から抽出した音声特徴量と、多数の話者の音声データによりパラメータ学習を行って得た標準パタンと、を照合して認識結果を出力するとともに、前記標準パタンを、前記入力音声を発した話者に適応した話者適応パタンに更新するか否かを、前記認識結果の信頼度に応じて決定する話者適応化装置において、
過去に出力した前記認識結果の信頼度の値に基づいて、異なる話者適用学習アルゴリズムを選択する話者適用方式選択手段を備えたことを特徴とする。
【0039】
【発明の実施の形態】
実施の形態1.
図1は、請求項1記載の発明による話者適応化装置の1構成である実施の形態1を示すブロック図である。図1において従来技術の説明図である図21と同一の機能ブロックは同一の符号を付し説明を省略する。従来技術と異る本発明の特徴的な部分は、認識結果信頼度演算手段101を備えたことと、教師なし話者適応手段2007の代りに認識結果信頼度付き教師なし話者適応手段102を備えたことである。
【0040】
次に図1を参照しながら動作について説明する。認識結果信頼度演算手段101は、照合手段2003からの出力である話者適応学習用音声認識結果2006と音声特徴量抽出手段2002からの出力である音声特徴量、及び標準パタン2004を入力し、話者適応学習用認識結果2006に対する信頼度を演算する。認識結果の信頼度は、例えば「種々の統計量を用いた単語リジェクト方式の検討」花沢、阿部、日本音響学会平成10年春期研究発表会講演論文集、pp.141−142、1998年3月(以降、文献4という)に示されている統計量を用いる。
【0041】
文献4では、認識結果の信頼度を得るために(1)音響尤度差、(2)音素継続時間長、(3)音素混同行列の3種類の統計量を用いている。
(1)の音響尤度差は、入力音声の話者適応学習用音声認識結果2006であるRw■のフレーム尤度と、全音素接続の音素タイプライタによる音声認識装置の認識結果Rw■の区間に対しての尤度の差を数式3により計算して信頼度とするものである。数式3においてltはフレームtにおける認識結果Rw■の対数フレーム尤度、Ltは、音素タイプライタによる対数フレーム尤度である。また、NはRw■の音素数、biとeiは、i番目の音素の始端と終端フレームである。Saは値が小さいほど信頼性が高い統計量であるので通常はマイナスを乗じた値として信頼度とする。
【数3】
【0042】
(2)の音素継続時間長は、入力音声に対する話者適応学習用音声認識結果Rw■の各音素の隣接音素間の継続時間長の整合性に基づく信頼性の統計量であり、数式4によって信頼度を計算する。数式4においてdiはRw■を構成するi番目の音素を中心として前後1音素づつの継続時間長を並べた3次元のベクトルであり、Diは他の多数話者の音声データを用いて事前に求めた前記3音素の継続時間長の平均値を並べた3次元ベクトルである。数式4によって演算するSdは、認識結果Rw■中の隣接する3音素間の継続時間長の比が、学習データによって求めた平均時間長の比に近いほど大きな値をとる。したがって、Sdは値が大きいほど認識結果の信頼度が高い統計量である。
【数4】
【0043】
(3)の音素混同行列は、音素タイプライタによる音素認識を並行して行い、話者適応学習用音声認識結果Rw■を構成する音素系列と音素タイプライタによる認識結果である音素系列とを時間軸上で対応づけ、事前に求めた音素混同行列を用いて数式5によって信頼度を計算する。数式5において、hiはR■wを構成するi番目の音素モデル、pikは音素タイプライタによる音素系列中でhiと区間が重なる音素、Kiはhiと区間が重なる音素数、m(h,p)は事前に求めた音素h音素pの混同率、wikはhiとpikとの区間重なり率であり、数式6によって計算する。数式5のScは、値が大きいほど認識結果の信頼度が高い統計量である。最終的なRw■の認識結果信頼度は上記の3種類の統計量を用い、数式7によって計算する。数式7においてw2、w3は重み係数であり実験的に設定する。
【数5】
【数6】
【数7】
【0044】
認識結果信頼度付き教師なし話者適応手段102は、認識結果信頼度演算手段101からの出力である認識結果信頼度と、照合手段2003からの出力である話者適応学習用音声認識結果2006と、音声特徴量抽出手段2002からの出力である音声特徴量と、標準パタン2004を入力して標準パタンのパラメータの更新を行い、教師なし話者適応パタン2008を出力する。
従って、この実施の形態1の話者適応化装置によれば、上記のように認識結果に対して信頼度を付加して教師なし話者適応を行うので認識結果が誤っている場合でも、標準パタンのパラメータの誤った更新を防ぐので、認識率を向上させることができる。
【0045】
実施の形態2.
図2は、請求項2記載の発明による話者適応化装置の1構成例である実施の形態2を示すブロック図である。図2において、実施の形態1と同一の機能ブロックは同一の番号を付し説明を省略する。本発明の特徴的な部分は、先行する発声によって更新した教師なし話者適応パタン2008を標準パタン2004へ代入し、引き続く発声に対して教師なし話者適応を行うことを特徴としたことである。
【0046】
次に図2を参照しながら動作について説明する。認識結果信頼度付き教師なし話者適応手段102は、使用者の最初の発声O(1) = [o(t1),o(t1+1), ..., o(T1)]を用いて標準パタン2004のパラメータを更新して教師なし話者適応パタン2008を出力する。ここで、この最初の発声によって得られた教師なし話者適応パタンをΛ(1)とする。次にΛ(1)を標準パタン2004とし、使用者の2番目の発声O(2) = [o(t2), o(t2+1), ..., o(T2)] を用いて教師なし話者適応処理によって更に標準パタン2004を更新して、教師なし話者適応パタン2008を計算する。このようにj番目の発声を用いた教師なし話者適応の更新前の標準パタンとして(j−1)番目の発声までに逐次的に更新したΛ(j−1)を用いる。
従って、この実施の形態2の話者適応化装置によれば、上記のように認識結果に対して信頼度を付加して逐次的に教師なし話者適応を行うので認識結果が誤っている場合でも、標準パタンのパラメータの誤った更新を防ぐので、認識率を向上させることができる。
【0047】
実施の形態3.
図3は、請求項3記載の発明による話者適応化装置の認識結果信頼度演算手段の動作説明図であり、実施の形態3の特徴を示す図である。本実施の形態3の特徴的な部分は、認識結果信頼度演算手段101から出力である認識結果信頼度は、ポーズで区切られた1発声毎に1つ計算することである。認識結果信頼度演算手段101は、図3に示すようにk番目の発声の始端と終端をtus(k)、tue(k)とした場合に、tue(k)とtue(k)との間のフレームに関して1つの認識結果信頼度Su(k)を計算して、tue(k)とtue(k)との間の各フレームの認識結果信頼度をSu(k)とする。
従って、この実施の形態3の話者適応化装置によれば、上記のように1発声毎に認識結果に対して信頼度を付加して教師なし話者適応を行うので、認識結果が誤っている場合でも、標準パタンのパラメータの誤った更新を防ぐので、認識率を向上させることができる。
【0048】
実施の形態4.
図4は、請求項4記載の発明による話者適応化装置の認識結果信頼度演算手段の動作説明図であり、実施の形態4の特徴を示す図である。本実施の形態4の特徴的な部分は、認識結果信頼度演算手段101からの出力である認識結果信頼度は、認識ユニットに1つ計算することである。認識ユニットとは標準パタンの基本単位であり、認識ユニットを連結することで認識対象の単語、文章を認識する標準パタンを構成する。認識結果信頼度演算手段101は入力音声の話者適応学習用音声認識結果2006に基づき、認識ユニットラベル系列にしたがって標準パタンを連結し、この標準パタンによって音声特徴量の時系列を認識ユニットに分割する。分割されたu番目の認識ユニットの始端と終端をtrs(u)、tre(u)とした場合に、trs(u)とtre(u)の間のフレームに関して1つの認識結果信頼度Sr(u)を図4のように計算し、区間内のフレームの認識結果信頼度をSr(u)とする。図4は認識結果が5個の認識ユニットによって構成されている例である。
従って、この実施の形態4の話者適応化装置によれば、上記のように1認識ユニット毎に認識結果に対して信頼度を付加して教師なし話者適応を行うので認識結果が誤っている場合でも、標準パタンのパラメータの誤った更新を防ぐので、認識率を向上させることができる。
【0049】
実施の形態5.
図5は,請求項5記載の発明による話者適応化装置の認識結果信頼度演算手段の動作説明図であり、実施の形態5の特徴を示す図である。本実施の形態5の特徴的な部分は、認識結果信頼度演算手段101からの出力である認識結果信頼度は、音素や音節などの音声単位に1つ計算することである。以下では音声単位が音素である場合で説明する。認識結果信頼度演算手段101は入力音声の話者適応学習用音声認識結果2006の音素系列にしたがって、音声特徴量の時系列を音素単位に分割する。分割されたp番目の音素の始端と終端をtps(p)、tps(p)とした場合に、tps(p)とtpe(p)との間のフレームに関しては認識結果信頼度Sp(p)を図5のように計算して、tps(p)とtpe(p)との区間内の各フレームの認識結果信頼度をSp(p)とする。図5は入力音声の話者適応学習用認識結果が/onsei/の5音素によって構成されている例である。
従って、この実施の形態5の話者適応化装置によれば、上記のように1音素毎に認識結果に対して信頼度を付加して教師なし話者適応を行うので認識結果が誤っている場合でも、標準パタンのパラメータの誤った更新を防ぐので、認識率を向上させることができる。
【0050】
実施の形態6.
図6は、請求項6記載の発明による話者適応化装置の認識結果信頼度演算手段の動作説明図であり、実施の形態6の特徴を示す図である。本実施の形態6の特徴的な部分は、認識結果信頼度演算手段101からの出力である認識結果信頼度は、一定時間間隔のフレーム単位に計算することである。以下では図6を参照しながら動作説明を行う。認識結果信頼度演算手段101は、入力音声を5ミリ秒〜20ミリ秒程度の一定時間間隔のフレーム単位に認識結果信頼度を出力する。図6は、フレームt〜t+5毎に認識結果信頼度[Sf(t), Sf(t+1), ..., , Sf(t+5)]を出力を示したものである。
従って、この実施の形態6の話者適応化装置によれば、このように一定時間間隔のフレーム単位で認識結果信頼度を計算するので、認識結果が誤っている場合でも、標準パタンのパラメータの誤った更新を防ぐことができ、認識率を向上させることができる。
【0051】
実施の形態7.
図7は、請求項7記載の発明による話者適応化装置の1構成例である実施の形態7を示すブロック図である。図7において、実施の形態1と同一の機能ブロックは同一の番号を付し説明を省略する。本発明の特徴的な部分は、認識結果信頼度付き教師なし話者適応手段102は、音声データセグメンテーション手段701と認識結果信頼度付き標準パタンパラメータ更新手段702で構成することを特徴としたことである。
【0052】
次に図7を参照しながら動作について説明する。音声データセグメンテーション手段701は、話者適応学習用音声認識結果2006に基づいて、標準パタン2004から対応する認識ユニット標準パタンを連結し、音声特徴量の時系列を認識ユニット毎にセグメンテーションする。セグメンテーションは、例えば標準パタンがHMMである場合は文献1に記載されているビタービアルゴリズムによって行う。ビタービアルゴリズムは、音声特徴量の時系列[o(1), o(2), ..., o(t)]に対する1本の最適状態系列[q1, q2, ..., qt]を見つけるアルゴリズムである。例えば単語標準パタンが3つの認識ユニットからなり、1認識ユニット当り1状態のHMMであるとし、状態が(s1,s2,s3)で構成されるとする。そしてビタービアルゴリズムによって得られた最適状態系列[s1, s1, s2, s2, s2, s3, s3, s3]であったならば、フレーム1〜2がユニット1、フレーム3〜5がユニット2、フレーム6〜8がユニット3にセグメンテーションされる。
【0053】
認識結果信頼度付き標準パタンパラメータ更新手段702は、認識ユニットの標準パタンパラメータを、セグメンテーションによって分割された音声特徴量と認識結果信頼度を用いて更新する。
従って、この実施の形態7の話者適応化装置によれば、上記のように音声データセグメンテーションを行って識結果信頼度付き標準パタンパラメータの学習を行うので、話者適応学習用認識結果が誤っている場合でも、標準パタンのパラメータの誤った更新を防ぐことができ、認識率を向上させることができる。
【0054】
実施の形態8.
図8は、請求項8記載の発明による話者適応化装置の1構成例である実施の形態8を示すブロック図である。図8において、実施の形態1と同一の機能ブロックは同一の番号を付し説明を省略する。本発明において特徴的な部分は、認識結果信頼度付き教師なし話者適応手段102を、標準パタンパラメータ最尤推定手段801と、認識結果信頼度に基づくパラメータ線形補間手段802とで構成することである。
【0055】
次に図8を参照しながら動作について説明する。標準パタンパラメータ最尤推定手段801は、音声特徴量抽出手段2002の出力である音声特徴量と、話者適応学習用音声認識結果2006に基づいて標準パタン2004の認識ユニット標準パタンを連結した標準パタンを用いて、標準パタンのパラメータの最尤推定を行い、推定後の標準パタンΛmを得る。最尤推定は、例えば文献1に記載されているBaum−Welch法によってパラメータ推定を行う。
【0056】
認識結果信頼度に基づくパラメータ線形補間手段802は、標準パタンパラメータ最尤推定手段801からの出力である最尤推定後の標準パタンΛm、及び推定前の標準パタンΛを入力し、認識結果信頼度演算手段101からの出力である認識結果信頼度によってΛmとΛのパラメータの線形補間を行い、得られた値を教師なし話者適応パタン2008のパラメータとする。例えば標準パタンがHMMであり、ガウス分布の平均ベクトルμ(q) (qはガウス分布の番号) を更新する場合には、数式8によって教師なし話者適応パタン2008の平均ベクトルμa(q)を計算する。数式8においてμ(q)、μm(q)は最尤推定前後の平均ベクトルの値である。またwm(q)は、値が0から1.0の重み係数であり、μ(q)の更新に用いた適応データの認識結果信頼度によって決定する。
【数8】
従って、この実施の形態8の話者適応化装置によれば、上記のように標準パタンパラメータ最尤推定後に認識結果信頼度に基づいてパラメータの線形補間を行うので、話者適応学習用認識結果が誤っている場合でも、標準パタンのパラメータの誤った更新を防ぐことができ、認識率を向上させることができる。
【0057】
実施の形態9.
実施の形態9は、実施の形態8の話者適応化装置における標準パタンのパラメータの線形補間において、パラメータの最尤推定に使用した適応データの認識結果信頼度の合計値が大きければ最尤推定値の重みを大きくすることを特徴とした請求項9記載の発明による話者適応化装置である。数式9は数式8の重み係数wm(q)の値を計算する請求項9記載の発明の1例である。数式9においてSf(t)はフレームtにおける認識結果信頼度、Ωはパラメータμの更新に用いる適応データのフレームの時刻の集合、τは値が0以上の制御定数である。
【数9】
従って、この実施の形態9の話者適応化装置によれば、上記のように構成することで認識結果が誤っている場合でも、標準パタンのパラメータの誤った学習を防ぐことができ、認識率を向上させることができる。
【0058】
実施の形態10.
図9は、請求項10記載の発明による話者適応化装置の1構成例である実施の形態10を示すブロック図である。図9において、実施の形態1と同一の機能ブロックは同一の番号を付し説明を省略する。本発明において特徴的な部分は、認識結果信頼度付き教師なし話者適応手段102は、認識結果信頼度重み付き学習データによる適応学習手段901で構成することである。
【0059】
次に図9を参照しながら動作について説明する。認識結果信頼度重み付き学習データによる適応学習手段901は、話者適応学習用音声認識結果2006と標準パタン2004と認識結果信頼度演算手段101の出力である認識結果信頼度と音声特徴量抽出手段2002の出力である音声特長量の時系列とを入力し、認識結果信頼度によって適応データへ重み付けしたパラメータ更新を行う。例えば、標準パタン2004がHMMである話者適応化装置では、数式10によってガウス分布の平均ベクトル、数式11によってガウス分布の共分散行列の更新を行う。数式10のoh(t)は認識結果信頼度によって重み付けされた音声特徴量であり、例えば数式12よって計算する。
数式12において、μ(q)は更新前のガウス分布の平均ベクトル、o(t)は時刻tの音声特徴量であり、τは値が0以上の制御定数、Sf(t)はフレームtの認識結果信頼度であるので、Sf(t) が小さい場合はoh(t)は更新前の平均ベクトルに近い値となり、o(t)のパラメータ更新への寄与度が小さく、またSf(t)が大きい場合は、oh(t)はo(t)に近い値となりパラメータ更新への寄与度が大きくなる。数式10においてγ(q,t)は、時刻tにガウス分布qに音声特徴量 o(t) が存在する期待値であるが、重み付けされた音声特徴量oh(t)が存在する期待値として計算してもよい。また、ここで得られたμa(q)を数式8のμm(q)として更新前の標準パタンパラメータとの線形補間を行うことも可能である。
【数10】
【数11】
【数12】
従って、この実施の形態10の話者適応化装置によれば、このように構成することで認識結果が誤っている場合でも、標準パタンのパラメータの誤った学習を防ぐことができ、認識率を向上させることができる。
【0060】
実施の形態11.
また、実施の形態11は、実施の形態10の話者適応化装置において、認識結果信頼度をフレーム毎に付与し、その値が0〜1であり、信頼度が高い場合には1に近い値を出力することを特長とした請求項11記載の話者適応化装置である。
従って、この実施の形態11の話者適応化装置によれば、上記のように構成することで認識結果が誤っている場合でも、標準パタンのパラメータの誤った学習を防ぐことができ、認識率を向上させることができる。
【0061】
実施の形態12.
図10は、請求項12記載の発明による話者適応化装置の1構成例である実施の形態12を示すブロック図である。図10において、実施の形態1と同一の機能ブロックは同一の番号を付し説明を省略する。本発明において特徴的な部分は、照合手段2003は複数認識結果候補出力照合手段1001で構成し、認識結果信頼度演算手段101は複数認識結果候補信頼度演算手段1002で構成し、認識結果信頼度付き教師なし話者適応手段102は複数認識結果候補信頼度付き教師なし話者適応手段1003で構成することを特徴としたことである。
【0062】
次に図10を参照しながら動作について説明する。複数認識結果候補出力照合手段1001は、認識辞書2005によって定められた認識対象単語にしたがい標準パタン2004連結して、音声特徴量抽出手段2002の出力である音声特徴量に対して照合を行ない、予め定めた候補数の認識結果[Rw■(1), Rw■(2), ...,Rw■(N)](Rw■(n)は、入力音声に対してn番目にスコアが高い話者適応学習用音声認識結果、Nは予め定めた候補数) を照合スコアが高い認識結果候補から順に出力する。
【0063】
複数認識結果候補信頼度演算手段1002は、複数認識結果候補出力照合手段1001の出力である複数認識結果候補[Rw■(1), Rw■(2), ..., Rw■(N)]と音声特徴量と標準パタン2004とを入力して複数の認識結果候補の各々に対して認識結果信頼度[Sm(1), Sm(2), ..., Sm(N)]を計算する。ここで、Sm(n)は入力音声に対するn番目の認識結果候補に対する認識結果信頼度の時系列である。認識結果信頼度がフレーム毎のSf(n,t)であるならば、Sm(n)=[Sf(n,1), Sf(n,2) ,...,Sf(n,Tn)]である。複数認識結果候補信頼度付き教師なし話者適応手段1003は、複数認識結果候補出力照合手段1001の出力である複数認識結果候補と複数認識結果候補信頼度演算手段1002からの出力である認識結果信頼度と標準パタン2004を入力して標準パタンのパラメータ更新を行い、教師なし話者適応パタン2008を出力する。
【0064】
複数認識結果候補信頼度付き教師なし話者適応手段1003は、例えば複数認識結果各々を用いて独立にN個の教師なし話者適応パタンを作成して、N個の標準パタンのパラメータを合成することで最終的な教師なし話者適応パタン2008を得る方法がある。例えば標準パタンがHMMであり更新するパラメータをガウス分布の平均ベクトル、共分散行列とした場合、数式13によってガウス分布qの平均ベクトル、数式14によって共分散行列を計算する。数式13においてμi(n,q)は、第n番目の認識結果候補を用いて更新したガウス分布qの平均ベクトルであり、数式14においてCi(n,q)はn番目の認識結果候補を用いて更新したガウス分布qの共分散行列である。数式13、数式14においてβ(n)は第n番目の認識結果候補に対する重み付けであり数式15によって計算する。数式15においてSi(n)は第n番目の認識結果候補の認識結果信頼度であり、例えばフレーム毎の認識結果信頼度の合計である。
【数13】
【数14】
【数15】
従って、この実施の形態12の話者適応化装置によれば、このように複数認識結果候補を出力し複数認識結果候補に対して認識結果信頼度を計算して、認識結果信頼度付き教師なし話者適応を行うので認識結果が誤っている場合でも、標準パタンのパラメータの誤った学習を防ぐことができ、認識率を向上させることができる。
【0065】
実施の形態13.
図11は、請求項13記載の発明による話者適応化装置の1構成例である実施の形態13を示すブロック図である。図11において、実施の形態1と同一の機能ブロックは同一の番号を付し説明を省略する。本発明において特徴的な部分は、認識結果信頼度付き教師なし話者適応手段102の前段に、認識結果信頼度比較手段1101が付加されていることである。
【0066】
次に図11を参照しながら動作について説明する。認識結果信頼度比較手段1101は、認識結果信頼度演算手段101からの出力である認識結果信頼度を入力し、認識結果信頼度が予め定めた閾値より大きければ、認識結果信頼度付き教師なし話者適応手段102で処理を行う。一方、認識結果信頼度が予め定めた閾値より小さければ、標準パタンのパラメータの更新は行わず、標準パタン2004の値を教師なし話者適応パタン2008とする。
【0067】
例えば、1発声の認識結果信頼度の合計が閾値Th以下であるならば、この発声を用いた標準パタンのパラメータ更新は行わない話者適応化装置である。また、標準パタンのパラメータ毎にセグメンテーションによって分割された適応データの認識結果信頼度の合計を計算し、パラメータ毎の認識結果信頼度と閾値を比較し、閾値以下であるならばパラメータの更新を行わず、閾値より大きいパラメータは更新を行う話者適応化装置である。
従って、この実施の形態13の話者適応化装置によれば、このように認識結果信頼度が予め定めた閾値以下であるならばパラメータの更新を行わないように構成することで認識結果が誤っている場合でも、標準パタンのパラメータの誤った学習を防ぐことができ、認識率を向上させることができる。
【0068】
実施の形態14.
図12は、請求項14記載の発明による話者適応化装置の1構成例である実施の形態14を示すブロック図である。図12において、実施の形態1と同一の機能ブロックは同一の番号を付し説明を省略する。本発明において特徴的な部分は、認識結果信頼度付き教師なし話者適応手段102の前段に、認識結果信頼度による話者適応方式選択手段1201と、M個の認識結果信頼度付き教師なし話者適応手段1202−1〜1202−Mを備えたことである。
【0069】
次に図12を参照しながら動作について説明する。認識結果信頼度による話者適応方式選択手段1201は、認識結果信頼度演算手段101からの出力である認識結果信頼度を入力して予め定めた方式選択閾値[Th(1),Th(2) ,..., Th(K)]によって教師なし話者適応方式の選択を行う。例えば認識結果信頼度の値がSである場合は、Th(k)≦Su<Th(k+1)では認識結果信頼度付き教師なし話者適応方式1202−kを選択する。ここでSuは1発声の認識結果信頼度の合計値である。
【0070】
認識結果信頼度付き教師なし話者適応手段1202−1〜1202−Mは、例えば「A Study on Speaker Adaptation of the Parameters of Continuous DensityHidden Markov Models」 C.H.Lee, C.H.Lin, B.H.Juang, IEEE TRANSACTION ONSIGNAL PEOCESSING, Vol. 39, No. 4, 1991年 (以下、文献5という)で提案されている最大事後確率推定法が1202−1、「連続混合分布HMMを用いた移動ベクトル場平滑化話者適応化方式」大倉、杉山、嵯峨山、電子情報通信学会技術報告、SP92− 16、1992年(以下、文献6という)で提案されている移動ベクトル場平滑化話者適応方式が1202−2、重回帰写像モデルに基づく話者適応方式 (文献3)が1202−3であるとして構成できる。
従って、この実施の形態14の話者適応化装置によれば、このように構成することで話者適応学習用音声認識結果が誤っている場合でも、標準パタンのパラメータの誤った学習を防ぐことができ、認識率を向上させることができる。
【0071】
実施の形態15.
図13は、請求項15記載の発明による話者適応化装置の1構成例である実施の形態15を示すブロック図である。図13において、実施の形態1と同一の機能ブロックは同一の番号を付し説明を省略する。本発明において特徴的な部分は、認識結果信頼度付き教師なし話者適応手段を、標準パタンパラメータクラスタリング手段1301と、認識結果信頼度付きパラメータグループ教師なし話者適応手段1302とで構成することである。
【0072】
次に図13を参照しながら動作について説明する。標準パタンパラメータグループ化手段1301は、標準パタン2004に格納されている標準パタンパラメータをクラスタリングによってグループ化する。標準パタンがHMMの場合はガウス分布[g(1), g(2) ,.., g(Mg)](Mgは全ガウス分布数)を例えば数式16のバタチャリヤの距離によってガウス分布 g(i) と g(j) 間の距離 dv(g(i),g(j)) を定義してクラスタリングを行い、グループG(x)=[g(x(1)), g(x(2)), ...,g(x(n))] (x(.) は分布番号)を決定する。クラスタリング法は例えば文献1に記載されて 「るK−平均法を用いて行う。
認識結果信頼度付きパラメータグループ教師なし話者適応手段1302は、標準パタンパラメータグループ化手段1301からの出力である標準パタンパラメータグループと認識結果信頼度演算手段101からの出力である認識結果信頼度を入力し、グループ毎に標準パタンパラメータの変動量の計算を行う。例えば標準パタンがHMMである場合の平均ベクトルのp次元目の移動量は数式17によって計算する。数式17においてα(x)は数式18に示す信頼度によって決定される重み係数である。また、Ψxはパラメータグループxのガウス分布番号の集合、Ωiはガウス分布番号iの適応データの時刻の集合、σ2(i,p)はガウス分布番号iの共分散行列のp行p列目である。数式18において、Sf(t)はフレームtの認識結果信頼度であり、τは値が0以上の制御定数である。
また、数式19によってグループxの平均ベクトルの共通な移動量v(x,p)を求めることも可能である。数式19においてoh(t)は数式12に示した認識結果信頼度によって重み付けされた適応データであり、γ(i,t)は、時刻tにガウス分布iに音声特徴量 o(t) が存在する期待値であるが、重み付けされた音声特徴量oh(t)が存在する期待値として計算してもよい。
【数16】
【数17】
【数18】
【数19】
従って、この実施の形態15の話者適応化装置によれば、このように構成することで認識結果が誤っている場合でも、標準パタンのパラメータの誤った学習を防ぐことができ、認識率を向上させることができる。
【0073】
実施の形態16.
図14は、請求項16記載の発明による話者適応化装置の1構成例である実施の形態16を示すブロック図である。図14において、実施の形態1と同一の機能ブロックは同一の番号を付し説明を省略する。本発明において特徴的な部分は、認識結果信頼度付き教師なし話者適応手段102を、標準パタンパラメータ木構造クラスタリング手段1401と、木構造化パラメータに基づく標準パタンパラメータグループ化手段1402と、認識結果信頼度付きパラメータグループ教師なし話者適応手段1302とで構成することである。
【0074】
次に図14を参照しながら動作について説明する。標準パタンパラメータ木構造クラスタリング手段1401は、標準パタンパラメータを例えば数式16に示すバタチャリヤの距離によって木構造にクラスタリングする。木構造化は、まず木構造の1階層目のグループ化として全パラメータをN個のパラメータグループ[G(1,1,1), G(1,1,2) ,...,, G(1,1,N)] (G(i,j,k)):iは階層、jは親グループ番号、kはグループ番号)にクラスタリングする。
次に2階層目のクラスタリングとして、G(1,m1,n1)を[G(2,n1,1), G(2,n1,1) ,..., G(2,n1,Nn1)]のグループにクラスタリングする。
さらに3階層目としてG(2,m2,n2)を[G(3,n2,1),G(3,n2,1) ,..., G(3,n2,Nn2)]にクラスタリングにグループ化する。このように予め定めた階層までクラスタリングを行う。木構造パラメータに基づく標準パタンパラメータグループ化手段1402は、認識結果信頼度演算手段101の出力の認識結果信頼度によって標準パラメータ木構造クラスタリングの出力である木構造化されたパラメータに基づいてパラメータをグループ化する。
【0075】
図15は、認識結果信頼度による木構造化パラメータのグループ化の説明図である。ノード以下に属するパラメータの適応データの認識結果信頼度の合計をノードの情報として計算する。子ノードの認識結果信頼度が予め定めた閾値thより小さく、親ノードの認識結果信頼度がth以上である場合に、親ノード以下のパラメータグループを子ノード以下に属するパラメータの推定に用いる。図15において括弧内の数字がノード以下のパラメータの適応データの認識結果信頼度である。例えばthを40とすれば、Node(3,1)では信頼度20、その親ノードのNode(2,1)では100であるのでパラメータの更新には、Node(2,1)以下のパラメータの適応データと認識結果信頼度および標準パタンパラメータを用いて、パラメータに共通の変動量を求めてNode(3,2)以下のパラメータ更新を行う。パラメータグループのパラメータ変動量を演算する認識結果信頼度付きパラメータグループ教師なし話者適応手段1302は、実施の形態15で記述したようにパラメータグループにおいて変動量を求め更新を行う。
従って、この実施の形態17の話者適応化装置によれば、上記のように構成することで認識結果が誤っている場合でも、標準パタンのパラメータの誤った学習を防ぐことができ、認識率を向上させることができる。
【0076】
実施の形態17.
また、実施の形態17の話者適応化装置は、標準パタンとして、連続混合分布型隠れマルコフモデルを用いることを特徴とした請求項17記載の発明による話者適応化装置である。連続混合分布型隠れマルコフモデルについては文献1に詳細が記載されているので説明は省略する。
【0077】
実施の形態18.
また、実施の形態18の話者適応化装置は、連続混合分布型隠れマルコフモデルのシンボル出力確率密度関数を構成する要素分布関数はガウス分布であることを特徴とする請求項18記載の発明による話者適応化装置である。ガウス分布関数は数式20で与えられる。数式20において、μ(i)、C(i)はガウス分布iの平均ベクトルと共分散行列である。また、dは平均ベクトルの次元数であり、oは特徴量ベクトルである。
【数20】
【0078】
実施の形態19.
また、実施の形態17の話者適応化装置は、適応するパラメータはガウス分布の平均ベクトルであることを特徴とする請求項19記載の発明による話者適応化装置である。
【0079】
実施の形態20.
図16は、請求項20記載の発明による話者適応化装置の1構成例である実施の形態20を示すブロック図である。図16において、実施の形態1と実施の形態7と同一の機能ブロックは同一の番号を付し説明を省略する。本発明において特徴的な部分は、認識結果信頼度付き教師なし話者適応手段102を、認識結果信頼度付き標準パタンパラメータ更新手段702と標準パタンパラメータ補間手段1601とで構成することである。
【0080】
次に図16を参照して動作について説明する。認識結果信頼度付きパラメータ更新手段702は実施の形態8や実施の形態10に記述したパラメータ更新によってガウス分布の平均値の更新を行う。パラメータ補間手段1601は、適応学習データが存在しなかったガウス分布の平均ベクトルを認識結果信頼度付きパラメータ更新手段702によって学習されたガウス分布の平均ベクトルの更新前後の差ベクトルを用いて数式21によって補間する。
【数21】
【0081】
図17はガウス分布平均値の補間の概念図である。図17においてμ(1)、μ(2)、μ(3)は適応データが存在するガウス分布の平均ベクトルであり、μa(1)、μa(2)、μa(3)は教師なし話者適応によって更新した後の平均ベクトルである。また、μ(4)は適応データが存在しない平均ベクトルである。この適応データが存在しないμ(4)は、数式21によって、近傍の平均ベクトルの更新前後の差ベクトルによって補間を行う。数式21において、μ(q)、μa(q)はq番目の更新前後の平均ベクトル、αp,qは重み係数、TV(p)は更新前後の平均ベクトルの差ベクトル (移動ベクトル)、Pは補間に用いる近傍の平均ベクトルの集合である。またfは制御定数であり、dp,qはマハラノビス距離であり、C(q)はガウス分布qの共分散行列であり、上付き−1は逆行列を表す。
従って、この実施の形態20の話者適応化装置によれば、このように適応データが存在しないガウス分布の平均ベクトルは、適応データが存在するガウス分布の平均ベクトルの差ベクトルによって補間を行って適応するので認識結果が誤っている場合でも、標準パタンのパラメータの誤った学習を防ぐことができ、認識率を向上させることができる。
【0082】
実施の形態21.
図18は、請求項21記載の発明による話者適応化装置の1構成例である実施の形態21を示すブロック図である。図18において、実施の形態1と同一の機能ブロックは同一の番号を付し説明を省略する。本発明において特徴的な部分は、認識結果信頼度付き教師なし話者適応手段102は、認識結果信頼度付き重回帰写像モデルに基づく話者適応手段1801であることである。
【0083】
次に図18を参照しながら動作について説明する。認識結果信頼度付き重回帰写像モデルに基づく話者適応手段1801は、認識結果信頼度演算手段101の出力である認識結果信頼度と話者適応学習用音声認識結果2006と標準パタン2004とを入力し、数式1の重回帰写像モデルに基づく線形変換によってガウス分布の平均ベクトルを更新する。数式1のAとvは数式12に示されている認識結果信頼度によって重み付けした適応データoh(t)を用いて、数式22によってAのp行目、vのp次元目の要素を求める。数式22においてoh(t,p)は認識結果信頼度によって重み付けした適応データoh(t)のp次元目の要素であり、その他の変数に関しては数式2と同一である。また、γ(i,t)は、時刻tにガウス分布iに音声特徴量o(t)が存在する期待値であるが、重み付けされた音声特徴量oh(t)が存在する期待値として計算してもよい。
【数22】
【0084】
また、認識結果信頼度付き重回帰写像モデルに基づく話者適応手段1801は、従来の重回帰写像モデルによる話者適応と同様に数式1、数式2によって平均ベクトルを更新してμa■(q)を求め、このμa■(q)を数式8のμm(q)として認識結果信頼度によって線形補間する構成としてもよい。
従って、この実施の形態21の話者適応化装置によれば、このように認識結果信頼度付きの重回帰写像モデルに基づく教師なし話者適応を行うので、話者適応学習用認識結果が誤った場合のパラメータの誤った更新を防ぐことができ、認識率が向上する。
【0085】
実施の形態22.
図19は、請求項22記載の発明による話者適応化装置の1構成例である実施の形態22を示すブロック図である。図19において、実施の形態1、実施の形態15、及び実施の形態18と同一の機能ブロックは同一の番号を付し説明を省略する。本発明において特徴的な部分は、認識結果信頼度付き教師なし話者適応手段102を、ガウス分布グループ化手段1901と、認識結果信頼度付き重回帰写像モデルに基づく話者適応手段1801とで構成することである。
【0086】
次に図19を参照しながら動作について説明する。ガウス分布グループ化手段1901は、標準パタン2004のガウス分布をクラスタリングによってグループ化し、グループ内のガウス分布の適応データの認識結果信頼度に基づいてグループ毎に実施の形態21で記述した認識結果信頼度付き重回帰写像モデルに基づく話者適応を行う。
従って、この実施の形態22の話者適応化装置によれば、このように標準パタンをグループ化して認識結果信頼度付きの重回帰写像モデルに基づいて教師なし話者適応を行うので、話者適応学習用認識結果が誤った場合のパラメータの誤った更新を防ぐことができ、認識率が向上する。
【0087】
実施の形態23.
図20は、請求項23記載の発明による音声認識装置、すなわち上記実施の形態1〜22の教師なし話者適応化装置により更新された教師なし話者適応パタン2008を使用した音声認識装置である実施の形態23の構成を示すブロック図である。尚、図20において、図1等に示す話者適応化装置と同じ構成には、同一の番号を付して説明を省略する。
【0088】
認識辞書2005によって設定した認識対象の単語[W(1), W(2), ..., W(wn)]のテキスト表記から認識ユニットラベルへ変換し、このラベルにしたがって教師なし話者適応パタン2008を連結し、認識対象単語の標準パタンを作成する。この認識対象単語の標準パタンを用いて、音声特徴量抽出手段2002の出力である音声特徴量に対して照合を行い、音声認識結果2101を出力する。このとき、入力音声2001は教師なし適応用に用いた単語と同一でも、それ以外の単語でも良い。音声認識結果2101は、入力音声2001に対して認識対象語彙の標準パタン中で最も照合スコア(尤度)が高い単語系列のテキスト表記Rw=[W(r(1)), W(r(2)), ..., W(r(m))]としてを出力される。ここで、r(i)は音声認識結果の単語時系列のi番目の単語の認識辞書単語番号を示す。また、mは認識単語系列の単語数を示す。
従って、この実施の形態23の音声認識装置によれば、このように認識結果信頼度付きの教師なし話者適応行って得られた教師なし話者適応パタン2008を用いて音声認識を行うので、話者適応学習用認識結果が誤った場合のパラメータの誤った更新を防ぐことができ、認識率が向上する。
【0096】
また次の発明によれば、認識結果信頼度付き教師なし話者適応手段は、前記認識ユニットの標準パタンパラメータ更新用の分割された適応データを用い、最尤推定によって標準パタンのパラメータを推定し、認識ユニットの標準パタンのパラメータ更新に用いた適応データの認識結果信頼度の合計値に基づき、最尤推定前後のパラメータの値の線形補間によって前記標準パタンパラメータから前記話者適応パタンのパラメータへ更新するので、適応学習用音声認識結果が誤った場合でも、標準パタンのパラメータの誤った更新を防ぐことができ認識率が向上する。
【0098】
また次の発明によれば、認識結果信頼度付き教師なし話者適応手段は、前記認識ユニットの標準パタンのパラメータ更新用の分割された適応データを用い、認識結果信頼度によって適応データのパラメータ学習への重みを計算して、重み付けされた適応データによって前記標準パタンパラメータから前記話者適応パタンのパラメータへ更新するので、適応学習用音声認識結果が誤った場合でも、標準パタンのパラメータの誤った更新を防ぐことができ認識率が向上する。
【0102】
また次の発明によれば、認識結果信頼度付き教師なし話者適応手段は、前記第1の発声の認識結果信頼度の値によって更新方法を切り替えるので、適応学習用音声認識結果が誤った場合でも、標準パタンのパラメータの誤った更新を防ぐことができ認識率が向上する。
【0103】
また次の発明によれば、標準パタンのパラメータは、クラスタリングによってグループ化し、グループ内のパラメータの更新用の分割された適応データと認識結果信頼度を用いてグループに共通なパラメータの変動量を演算し、前記パラメータ変動量によって前記標準パタンのグループのパラメータを前記話者適応パタンのグループのパラメータへ更新するので、適応学習用音声認識結果が誤った場合でも、標準パタンのパラメータの誤った更新を防ぐことができ認識率が向上する。
【0104】
また次の発明によれば、クラスタリングは、木構造クラスタリングを行って木構造状に標準パタンのパラメータをクラスタリングし、木構造のノード以下に属する標準パタンのパラメータ更新用の分割された適応データの認識結果信頼度が閾値以上であるノード以下の標準パタンのパラメータをグループとして、グループ内のパラメータの更新用の分割された適応データと認識結果信頼度を用いてグループに共通なパラメータの変動量を演算し、前記変動量によって前記標準パタンのグループのパラメータを前記話者適応パタンのグループのパラメータへ更新するので、適応学習用音声認識結果が誤った場合でも、標準パタンのパラメータの誤った更新を防ぐことができ認識率が向上する。
【0105】
また次の発明によれば、標準パタン、及び前記話者適応パタンとして、連続混合分布型隠れマルコフモデルを用いるので、適応学習用音声認識結果が誤った場合でも、標準パタンのパラメータの誤った更新を防ぐことができ認識率が向上する。
【0106】
また次の発明によれば、連続混合分布型隠れマルコフモデルのシンボル出力確率密度関数を構成する要素分布関数は、ガウス分布であるので、適応学習用音声認識結果が誤った場合でも、標準パタンのパラメータの誤った更新を防ぐことができ認識率が向上する。
【0107】
また次の発明によれば、認識結果信頼度付き教師なし話者適応手段において更新するパラメータは前記ガウス分布の平均ベクトルであるので、適応学習用音声認識結果が誤った場合でも、標準パタンのパラメータの誤った更新を防ぐことができ認識率が向上する。
【0108】
また次の発明によれば、ガウス分布の平均ベクトルの更新は、適応データが存在するガウス分布の平均ベクトルは認識結果信頼度付き更新を行い、適応データが存在しないガウス分布の平均ベクトルは適応データが存在するガウス分布の更新前後の平均ベクトルの値の差分ベクトルを用いた補間によって前記標準パタンのパラメータを前記話者適応パタンのパラメータへ更新するので、適応学習用音声認識結果が誤った場合でも、標準パタンのパラメータの誤った更新を防ぐことができ認識率が向上する。
【0109】
また次の発明によれば、認識結果信頼度付き教師なし話者適応手段は、認識結果信頼度を用いた重回帰写像モデルに基づく話者適応によって、前記標準パタンのパラメータであるガウス分布の平均ベクトルを前記話者適応パタンのガウス分布の平均ベクトルへ更新するので、適応学習用音声認識結果が誤った場合でも、標準パタンのパラメータの誤った更新を防ぐことができ認識率が向上する。
【0110】
また次の発明によれば、重回帰写像モデルに基づく話者適応は、標準パタンのガウス分布をクラスタリングしてグループ化し、グループ内のガウス分布更新用の適応データと認識結果信頼度に基づいてガウス分布のグループに1つの回帰係数を演算し、標準パタンの平均ベクトルを回帰係数を用いて話者適応パタンの平均ベクトルへ更新するので、適応学習用音声認識結果が誤った場合でも、標準パタンのパラメータの誤った更新を防ぐことができ認識率が向上する。
【0111】
また次の発明によれば、請求項1〜22のうちいずれかに記載の話者適応化装置によって更新された教師なし話者適応パタンと、話者の入力音声から音声特徴量を抽出する音声特徴量抽出手段と、前記音声特徴量抽出手段が抽出した音声特徴量と前記教師なし話者適応パタンとを照合して認識結果を出力する照合手段と、を備えたので、適応学習用音声認識結果が誤った場合でも、標準パタンのパラメータの誤った更新を防ぐことができ認識率が向上する。
【図面の簡単な説明】
【図1】この発明による話者適応化装置の実施の形態1の構成を示すブロック図である。
【図2】この発明による話者適応化装置の実施の形態2の構成を示すブロック図である。
【図3】この発明による話者適応化装置の実施の形態3の動作説明図である。
【図4】この発明による話者適応化装置の実施の形態4の動作説明図である。
【図5】この発明による話者適応化装置の実施の形態5の動作説明図である。
【図6】この発明による話者適応化装置の実施の形態6の動作説明図である。
【図7】この発明による話者適応化装置の実施の形態7の構成を示すブロック図である。
【図8】この発明による話者適応化装置の実施の形態8の構成を示すブロック図である。
【図9】この発明による話者適応化装置の実施の形態10の構成を示すブロック図である。
【図10】この発明による話者適応化装置の実施の形態12の構成を示すブロック図である。
【図11】この発明による話者適応化装置の実施の形態13の構成を示すブロック図である。
【図12】この発明による話者適応化装置の実施の形態14の構成を示すブロック図である。
【図13】この発明による話者適応化装置の実施の形態15の構成を示すブロック図である。
【図14】この発明による話者適応化装置の実施の形態16の構成を示すブロック図である。
【図15】この発明による話者適応化装置の実施の形態16の動作説明図である。
【図16】この発明による話者適応化装置の実施の形態20の構成を示すブロック図である。
【図17】この発明による話者適応化装置の実施の形態20の動作説明図である。
【図18】この発明による話者適応化装置の実施の形態21の構成を示すブロック図である。
【図19】この発明による話者適応化装置の実施の形態22の構成を示すブロック図である。
【図20】この発明による音声認識装置の実施の形態23の構成を示すブロック図である。
【図21】従来の話者適応化装置の構成を示すブロック図である。
【符号の説明】
101 認識結果信頼度演算手段
102 認識結果信頼度付き教師なし話者適応手段
701 音声データセグメンテーション手段
702 認識結果信頼度付き標準パタンパラメータ更新手段
801 標準パタンパラメータ最尤推定手段
802 認識結果信頼度に基づくパラメータ線形補間手段
901 認識結果信頼度重み付き学習データによる適応学習手段
1001 複数認識結果候補出力照合手段
1002 複数認識結果候補信頼度演算手段
1003 複数認識結果候補信頼度付き教師なし話者適応手段
1101 認識結果信頼度比較手段
1201 認識結果信頼度による話者適応方式選択手段
1202−1〜M 認識結果信頼度付き教師なし話者適応手段 1〜M
1301 標準パタンパラメータクラスタリング手段
1302 認識結果信頼度付きパラメータグループ教師なし話者適応手段
1401 標準パタンパラメータ木構造クラスタリング手段
1402 木構造化パラメータに基づく標準パタンパラメータグループ化手段
1601 標準パタンパラメータ補間手段
1801 認識結果信頼度付き重回帰写像モデルに基づく話者適応手段
1901 ガウス分布グループ化手段
2001 入力音声
2002 音声特徴量抽出手段
2003 照合手段
2004 標準パタン
2005 認識辞書
2006 話者適応学習用音声認識結果
2007 教師なし話者適応手段
2008 教師なし話者適応パタン
2101 音声認識結果[0001]
TECHNICAL FIELD OF THE INVENTION
The present invention relates to an unsupervised speaker adaptation apparatus configured to update a standard pattern obtained by performing parameter learning based on voice data of many speakers to a speaker adaptation pattern adapted to a certain speaker, and the speaker adaptation. The present invention relates to a speech recognition device using a pattern.
[0002]
[Prior art]
Assuming a speech recognition application, there is a strong demand for an unspecified speaker speech recognition system that does not require registration of speaker speech in advance. NN) is being studied for practical use by a voice recognition method using the same. Details of the HMM and NN are described in, for example, “Basics of speech recognition (upper, lower)” RABINER, B.A. H. JUANG, edited by Furui Furui, November, 1995, NTT Advanced Technology (hereinafter referred to as Reference 1). In these methods, an unspecified speaker standard pattern is created by learning standard patterns using voice data such as words and sentences from a large number of speakers in advance.
[0003]
However, an unspecified speaker recognition system based on HMM or NN, when limited to a specific speaker, is compared with a specific speaker recognition system that has learned a standard pattern based on voice data such as words and sentences from the specific speaker. At present, the word error rate is about 2-3 times. In order to improve the speaker-independent speaker recognition system, studies on speaker adaptation techniques have been actively conducted recently.
[0004]
The speaker adaptation technique uses a small amount of speech data (hereinafter referred to as adaptation data) of a specific speaker before or during use of the speech recognition system, and sets parameters of a standard pattern of an unspecified speaker speech recognition system. Is adaptively learned to improve the recognition rate. For speaker adaptation methods, see "Speaker Adaptation in Speech Recognition", Hiroshi Matsumoto, Proc. 27-30 March 1995 (hereinafter referred to as Reference 2). There are two speaker adaptation methods, "supervised / unsupervised", depending on whether the content of the utterance of the adaptive learning data uses a known voice or an arbitrary unknown utterance. is there. Although the supervised speaker adaptation method has high recognition accuracy after adaptive learning using adaptive data, the user of the speech recognizer must utter a predetermined word or sentence before use. Burden is great. On the other hand, the unsupervised speaker adaptation method is a method in which the user tries to improve the recognition rate without using the adaptive learning while using the speech recognition device. In an actual speech recognition application, establishment of unsupervised speaker adaptation is desired.
[0005]
In conventional unsupervised adaptation, the input speech is collated using a standard pattern for unspecified speakers, and the recognition result obtained as a result of the collation is regarded as utterance content, and The standard patterns are connected, and the parameters of the standard patterns are updated using the input voice as adaptive data. For example, “Speaker Adaptation of Continuity Density HMMs Using Multivariate Linear Regression” C.I. L. Leggetter and P.L. C. Woodland, Proc. of ICSLP94, pp. 451-454, 1994 (hereinafter referred to as Reference 3).
[0006]
Hereinafter, an unsupervised speaker adaptation apparatus that uses the recognition result described in
[0007]
The audio feature amount extraction means 2002 performs A / D conversion on the audio signal of the
[0008]
In the matching
[0009]
The
(A) State number
(B) Acceptable context class
(C) List of preceding and succeeding states
(D) Parameters of output probability density distribution
(E) Self transition probability and transition to subsequent state
[0010]
The
[0011]
The unsupervised
[0012]
In
(Equation 1)
(Equation 2)
[0013]
The unsupervised
[0014]
[Problems to be solved by the invention]
However, in the conventional unsupervised speaker adaptation apparatus, the recognition result for speaker adaptation obtained by performing the matching is used to update the parameters of the standard pattern as the utterance content. In such a case, there is a problem that the parameter is erroneously estimated and the recognition rate is reduced.
[0015]
Therefore, the present invention solves the above problems, and prevents erroneous estimation of the standard pattern parameters even when the recognition result for speaker adaptation learning is incorrect in the unsupervised speaker adaptation method, and improves the recognition rate. It is an object of the present invention to provide a speaker adaptation apparatus capable of performing the above-described steps, and a speech recognition apparatus that performs speech recognition using an unsupervised speaker adaptation pattern updated by the speaker adaptation apparatus.
[0016]
[Means for Solving the Problems]
In the speaker adapting apparatus according to the present invention,A speech feature extracted from a speaker's input speech is compared with a standard pattern obtained by performing parameter learning based on speech data of a large number of speakers, and a recognition result is output. In a speaker adaptation device that determines whether to update to a speaker adaptation pattern adapted to a speaker that has emitted a voice according to the reliability of the recognition result,
A standard pattern parameter maximum likelihood estimating means for calculating an estimated adaptive pattern from the voice features and the standard pattern by maximum likelihood estimation,
The speaker adaptive pattern is obtained by linearly interpolating the values of the parameters constituting the estimated adaptive pattern calculated by the standard pattern parameter maximum likelihood estimating means and the values of the parameters constituting the standard pattern according to the reliability. Parameter linear interpolation means for calculating
It is provided with.
[0017]
Further, in the speaker adapting apparatus according to the next invention,A speech feature extracted from a speaker's input speech is compared with a standard pattern obtained by performing parameter learning based on speech data of a large number of speakers, and a recognition result is output. In a speaker adaptation device that determines whether to update to a speaker adaptation pattern adapted to a speaker that has emitted a voice according to the reliability of the recognition result,
Based on the reliability, calculate the weight to the parameter learning of the speaker adaptation data obtained from the input voice, using the weighted speaker adaptation data, the parameters constituting the standard pattern, Comprising adaptive learning means for updating to parameters constituting the speaker adaptation patternIt is characterized by the following.
[0018]
Further, in the speaker adapting apparatus according to the next invention,A speech feature extracted from a speaker's input speech is compared with a standard pattern obtained by performing parameter learning based on speech data of a large number of speakers, and a recognition result is output. In a speaker adaptation device that determines whether to update to a speaker adaptation pattern adapted to a speaker that has emitted a voice according to the reliability of the recognition result,
A speaker application method selecting unit that selects a different speaker application learning algorithm based on the value of the reliability of the recognition result output in the past.It is characterized by the following.
[0039]
BEST MODE FOR CARRYING OUT THE INVENTION
FIG. 1 is a block
[0040]
Next, the operation will be described with reference to FIG. Recognition result reliability calculation means 101 inputs speaker adaptive learning
[0041]
In
The acoustic likelihood difference of (1) is an interval between the frame likelihood of Rw ■, which is the
(Equation 3)
[0042]
The phoneme duration of (2) is a reliability statistic based on the consistency of the duration of adjacent phonemes of each phoneme in the speech recognition result for speaker adaptation learning Rw # for the input speech. Calculate reliability. In
(Equation 4)
[0043]
The phoneme confusion matrix of (3) is obtained by performing phoneme recognition by a phoneme typewriter in parallel, and converting a phoneme sequence constituting a speech recognition result Rw ■ for speaker adaptation learning and a phoneme sequence as a recognition result by the phoneme typewriter into time. The reliability is calculated by
(Equation 5)
(Equation 6)
(Equation 7)
[0044]
The unsupervised speaker adaptation means with
Therefore, according to the speaker adaptation apparatus of the first embodiment, since unsupervised speaker adaptation is performed by adding reliability to the recognition result as described above, even if the recognition result is incorrect, Since erroneous updating of pattern parameters is prevented, the recognition rate can be improved.
[0045]
FIG. 2 is a block
[0046]
Next, the operation will be described with reference to FIG. The unsupervised speaker adaptation means 102 with recognition result reliability outputs the user's first utterance O (1) = [o (t1), o (t1 + 1),. . . , O (T1)], and outputs the unsupervised
Therefore, according to the speaker adaptation apparatus of the second embodiment, since the unsupervised speaker adaptation is sequentially performed by adding reliability to the recognition result as described above, the recognition result is incorrect. However, erroneous updating of the parameters of the standard pattern is prevented, so that the recognition rate can be improved.
[0047]
FIG. 3 is a diagram for explaining the operation of the recognition result reliability calculating means of the speaker adapting apparatus according to the third aspect of the present invention, and is a diagram showing the features of the third embodiment. A characteristic part of the third embodiment is that one recognition result reliability output from the recognition result reliability calculation means 101 is calculated for each utterance separated by a pause. When the start and end of the k-th utterance are tus (k) and tue (k), as shown in FIG. 3, the recognition result reliability calculating means 101 determines the interval between tue (k) and tue (k). One recognition result reliability Su (k) is calculated for the frame of, and the recognition result reliability of each frame between tue (k) and tue (k) is set to Su (k).
Therefore, according to the speaker adaptation apparatus of the third embodiment, since the unsupervised speaker adaptation is performed by adding reliability to the recognition result for each utterance as described above, the recognition result is erroneously obtained. Even if there is, erroneous updating of the parameters of the standard pattern is prevented, so that the recognition rate can be improved.
[0048]
FIG. 4 is a diagram for explaining the operation of the recognition result reliability calculating means of the speaker adapting apparatus according to the fourth aspect of the present invention, and is a diagram showing the features of the fourth embodiment. A characteristic part of the fourth embodiment is that one recognition result reliability, which is an output from the recognition result reliability calculation means 101, is calculated by the recognition unit. The recognition unit is a basic unit of a standard pattern, and forms a standard pattern for recognizing a word or a sentence to be recognized by connecting the recognition units. Based on the
Therefore, according to the speaker adaptation apparatus of the fourth embodiment, since unsupervised speaker adaptation is performed by adding reliability to the recognition result for each recognition unit as described above, the recognition result is erroneously obtained. Even if there is, erroneous updating of the parameters of the standard pattern is prevented, so that the recognition rate can be improved.
[0049]
FIG. 5 is a diagram for explaining the operation of the recognition result reliability calculating means of the speaker adaptation apparatus according to the fifth aspect of the present invention, and is a diagram showing the features of the fifth embodiment. A characteristic part of the fifth embodiment is that one recognition result reliability output from the recognition result reliability calculation means 101 is calculated for each voice unit such as a phoneme or a syllable. Hereinafter, a case where the voice unit is a phoneme will be described. The recognition result reliability calculation means 101 divides the time series of speech feature amounts into phoneme units according to the phoneme sequence of the
Therefore, according to the speaker adaptation apparatus of the fifth embodiment, since unsupervised speaker adaptation is performed by adding reliability to the recognition result for each phoneme as described above, the recognition result is incorrect. Even in this case, erroneous updating of the standard pattern parameters is prevented, so that the recognition rate can be improved.
[0050]
Embodiment 6 FIG.
FIG. 6 is a diagram for explaining the operation of the recognition result reliability calculating means of the speaker adapting apparatus according to the sixth aspect of the present invention, and is a diagram showing the features of the sixth embodiment. A characteristic part of the sixth embodiment is that the recognition result reliability output from the recognition result reliability calculation means 101 is calculated in units of frames at fixed time intervals. The operation will be described below with reference to FIG. The recognition result reliability calculation means 101 outputs the recognition result reliability of the input speech in frame units at a fixed time interval of about 5 to 20 milliseconds. FIG. 6 shows the recognition result reliability [Sf (t), Sf (t + 1),. . . ,, Sf (t + 5)].
Therefore, according to the speaker adaptation apparatus of the sixth embodiment, since the recognition result reliability is calculated in units of frames at fixed time intervals, even if the recognition result is wrong, the parameter of the standard pattern Erroneous updating can be prevented, and the recognition rate can be improved.
[0051]
Embodiment 7 FIG.
FIG. 7 is a block diagram showing a seventh embodiment which is one configuration example of the speaker adaptation apparatus according to the seventh aspect of the present invention. In FIG. 7, the same functional blocks as in the first embodiment are denoted by the same reference numerals, and description thereof will be omitted. A characteristic part of the present invention is that the unsupervised speaker adaptation means with
[0052]
Next, the operation will be described with reference to FIG. The speech data segmentation means 701 connects the corresponding recognition unit standard pattern from the
[0053]
The standard pattern parameter with recognition result
Therefore, according to the speaker adaptation apparatus of the seventh embodiment, since the speech data segmentation is performed to learn the standard pattern parameter with intelligibility reliability as described above, the recognition result for speaker adaptation learning is incorrect. In this case, erroneous updating of the standard pattern parameters can be prevented, and the recognition rate can be improved.
[0054]
Embodiment 8 FIG.
FIG. 8 is a block diagram showing an eighth embodiment which is one configuration example of the speaker adaptation apparatus according to the eighth aspect of the present invention. 8, the same functional blocks as those in the first embodiment are denoted by the same reference numerals, and description thereof will be omitted. A characteristic part of the present invention is that the unsupervised speaker adaptation means 102 with recognition result reliability is configured by a standard pattern parameter maximum likelihood estimation means 801 and a parameter linear interpolation means 802 based on recognition result reliability. is there.
[0055]
Next, the operation will be described with reference to FIG. The standard pattern parameter maximum
[0056]
The parameter linear interpolation means 802 based on the recognition result reliability inputs the standard pattern {m} after the maximum likelihood estimation, which is the output from the standard pattern parameter maximum likelihood estimation means 801, and the standard pattern 前 before the estimation, and outputs the recognition result reliability. The parameters of の m and Λ are linearly interpolated according to the recognition result reliability output from the calculating means 101, and the obtained values are used as the parameters of the unsupervised
(Equation 8)
Therefore, according to the speaker adaptation apparatus of the eighth embodiment, since the parameter is linearly interpolated based on the recognition result reliability after the standard pattern parameter maximum likelihood estimation as described above, the recognition result for speaker adaptation learning is obtained. Is incorrect, it is possible to prevent erroneous updating of the standard pattern parameters, and improve the recognition rate.
[0057]
Embodiment 9 FIG.
In the ninth embodiment, in the linear interpolation of the parameters of the standard pattern in the speaker adaptation apparatus of the eighth embodiment, the maximum likelihood estimation is performed if the total value of the recognition result reliability of the adaptive data used for the maximum likelihood estimation of the parameter is large. A speaker adapting apparatus according to claim 9, wherein the weight of the value is increased. Expression 9 is an example of the invention according to claim 9, which calculates the value of the weighting coefficient wm (q) in Expression 8. In Expression 9, Sf (t) is the recognition result reliability in the frame t, Ω is the set of frame times of adaptive data used for updating the parameter μ, and τ is a control constant having a value of 0 or more.
(Equation 9)
Therefore, according to the speaker adaptation apparatus of the ninth embodiment, even if the recognition result is wrong, it is possible to prevent erroneous learning of the parameters of the standard pattern by the configuration described above, and to improve the recognition rate. Can be improved.
[0058]
Embodiment 10 FIG.
FIG. 9 is a block diagram showing a tenth embodiment which is one configuration example of the speaker adapting apparatus according to the tenth aspect of the present invention. In FIG. 9, the same functional blocks as those in the first embodiment are denoted by the same reference numerals, and description thereof will be omitted. A characteristic part of the present invention is that the unsupervised speaker adaptation means 102 with recognition result reliability is constituted by an adaptive learning means 901 using learning data with recognition result reliability weighted.
[0059]
Next, the operation will be described with reference to FIG. The adaptive learning means 901 based on the recognition result weighted learning data includes a
In Expression 12, μ (q) is an average vector of the Gaussian distribution before updating, o (t) is a speech feature amount at time t, τ is a control constant having a value of 0 or more, and Sf (t) is a value of frame t. Since the recognition result is reliability, when Sf (t) is small, oh (t) becomes a value close to the average vector before update, and the contribution of o (t) to the parameter update is small, and Sf (t) is small. Is large, oh (t) becomes a value close to o (t), and the degree of contribution to parameter update increases. In Expression 10, γ (q, t) is an expected value at which the voice feature amount o (t) exists in the Gaussian distribution q at time t, and is an expected value at which the weighted voice feature amount oh (t) exists. It may be calculated. Further, it is also possible to use μa (q) obtained here as μm (q) in Expression 8 and perform linear interpolation with the standard pattern parameters before updating.
(Equation 10)
[Equation 11]
(Equation 12)
Therefore, according to the speaker adaptation apparatus of the tenth embodiment, even if the recognition result is incorrect, erroneous learning of the parameters of the standard pattern can be prevented, and the recognition rate can be reduced. Can be improved.
[0060]
Embodiment 11 FIG.
Also, in the eleventh embodiment, in the speaker adaptation apparatus of the tenth embodiment, the recognition result reliability is given for each frame, and the value is 0 to 1, and is close to 1 when the reliability is high. The speaker adapting apparatus according to claim 11, wherein the apparatus outputs a value.
Therefore, according to the speaker adaptation apparatus of the eleventh embodiment, even if the recognition result is incorrect, the configuration described above can prevent erroneous learning of the parameters of the standard pattern, and the recognition rate can be reduced. Can be improved.
[0061]
Embodiment 12 FIG.
FIG. 10 is a block diagram showing a twelfth embodiment which is one configuration example of the speaker adaptation apparatus according to the twelfth aspect of the present invention. In FIG. 10, the same functional blocks as those in the first embodiment are denoted by the same reference numerals, and description thereof will be omitted. A characteristic part of the present invention is that the matching means 2003 is constituted by a plurality of recognition result candidate output matching means 1001 and the recognition result reliability calculating means 101 is constituted by a plurality of recognition result candidate
[0062]
Next, the operation will be described with reference to FIG. The multiple-recognition-result candidate
[0063]
The multiple recognition result candidate reliability calculating means 1002 outputs the multiple recognition result candidates [Rw ■ (1), Rw ■ (2),. . . , Rw ■ (N)], the speech feature value, and the
[0064]
The unsupervised speaker adaptation means with multiple recognition
(Equation 13)
[Equation 14]
(Equation 15)
Therefore, according to the speaker adaptation apparatus of the twelfth embodiment, a plurality of recognition result candidates are output in this way, the recognition result reliability is calculated for the plurality of recognition result candidates, and there is no teacher with the recognition result reliability. Since speaker adaptation is performed, even if the recognition result is incorrect, erroneous learning of the standard pattern parameters can be prevented, and the recognition rate can be improved.
[0065]
Embodiment 13 FIG.
FIG. 11 is a block diagram showing a thirteenth embodiment which is one configuration example of the speaker adaptation apparatus according to the thirteenth aspect of the present invention. In FIG. 11, the same functional blocks as those in the first embodiment are denoted by the same reference numerals, and description thereof will be omitted. A characteristic part of the present invention is that a recognition result
[0066]
Next, the operation will be described with reference to FIG. The recognition result
[0067]
For example, if the total recognition result reliability of one utterance is equal to or smaller than the threshold Th, the speaker adaptation apparatus does not update the parameters of the standard pattern using this utterance. Also, the total of the recognition result reliability of the adaptive data divided by the segmentation for each parameter of the standard pattern is calculated, the recognition result reliability of each parameter is compared with the threshold, and if the value is equal to or less than the threshold, the parameter is updated. Instead, the parameter larger than the threshold is the speaker adaptation device that performs the update.
Therefore, according to the speaker adaptation apparatus of the thirteenth embodiment, if the recognition result reliability is equal to or less than the predetermined threshold value, the parameter is not updated, so that the recognition result is incorrect. In this case, erroneous learning of the standard pattern parameters can be prevented, and the recognition rate can be improved.
[0068]
Embodiment 14 FIG.
FIG. 12 is a block diagram showing a fourteenth embodiment which is one configuration example of the speaker adaptation apparatus according to the fourteenth aspect of the present invention. 12, the same functional blocks as those in the first embodiment are denoted by the same reference numerals, and description thereof will be omitted. A characteristic part of the present invention is that, before the unsupervised speaker adaptation means 102 with recognition result reliability, a speaker adaptation method selection means 1201 based on recognition result reliability, and M unsupervised talks with recognition result reliability. This means that the user adaptation means 1202-1 to 1202-M are provided.
[0069]
Next, the operation will be described with reference to FIG. The speaker adaptation method selection means 1201 based on the recognition result reliability inputs the recognition result reliability output from the recognition result reliability calculation means 101 and receives a predetermined method selection threshold [Th (1), Th (2). ,. . . , Th (K)], an unsupervised speaker adaptation method is selected. For example, when the value of the recognition result reliability is S, the unsupervised speaker adaptation method with recognition result reliability 1202-k is selected for Th (k) ≦ Su <Th (k + 1). Here, Su is the total value of the recognition result reliability of one utterance.
[0070]
The unsupervised speaker adaptation means 1202-1 to 1202-M with the recognition result reliability are described in, for example, "A Study on Speaker Adaptation of the Parameters of Continuity Density Hidden Markov Models". H. Lee, C.I. H. Lin, B .; H. Jiang, IEEE TRANSACTION ONSIGNAL PEOCESSING, Vol. 39, No. 4, 1991 (hereinafter referred to as reference 5), the maximum posterior probability estimation method is 1202-1, "Moving vector field smoothing speaker adaptation method using continuous mixture distribution HMM", Okura, Sugiyama, Saga Yama, 1202-2, a moving vector field smoothing speaker adaptation method proposed in IEICE Technical Report, SP92-16, 1992 (hereinafter referred to as reference 6), speaker adaptation based on multiple regression mapping model The method (Reference 3) can be configured as 1202-3.
Therefore, according to the speaker adaptation apparatus of the fourteenth embodiment, even if the speaker recognition learning speech recognition result is erroneous, erroneous learning of the standard pattern parameters can be prevented by such a configuration. And the recognition rate can be improved.
[0071]
Embodiment 15 FIG.
FIG. 13 is a block diagram showing a fifteenth embodiment which is one configuration example of the speaker adapting apparatus according to the fifteenth aspect of the present invention. In FIG. 13, the same functional blocks as those in the first embodiment are denoted by the same reference numerals, and description thereof will be omitted. A characteristic part of the present invention is that the unsupervised speaker adaptation means with recognition result reliability is configured by the standard pattern parameter clustering means 1301 and the parameter group with recognition result reliability unsupervised speaker adaptation means 1302. is there.
[0072]
Next, the operation will be described with reference to FIG. The standard pattern parameter grouping means 1301 groups the standard pattern parameters stored in the
The parameter group with unrecognized result reliability unsupervised speaker adaptation means 1302 compares the standard pattern parameter group output from the standard pattern parameter grouping means 1301 and the recognition result reliability output from the recognition result reliability calculation means 101. Input and calculate the fluctuation amount of the standard pattern parameter for each group. For example, the moving amount of the p-th dimension of the average vector when the standard pattern is the HMM is calculated by Expression 17. In Expression 17, α (x) is a weight coefficient determined by the reliability shown in Expression 18. Ψx is a set of Gaussian distribution numbers of the parameter group x, Ωi is a set of adaptive data times of the Gaussian distribution number i, and σ2 (i, p) is a p-th row and a p-th column of a covariance matrix of the Gaussian distribution number i. is there. In Expression 18, Sf (t) is the recognition result reliability of the frame t, and τ is a control constant having a value of 0 or more.
Further, it is also possible to calculate the common movement amount v (x, p) of the average vector of the group x by using Expression 19. In Expression 19, oh (t) is adaptive data weighted by the recognition result reliability shown in Expression 12, and γ (i, t) is a speech feature o (t) in Gaussian distribution i at time t. However, the weighted audio feature value oh (t) may be calculated as an expected value.
(Equation 16)
[Equation 17]
(Equation 18)
[Equation 19]
Therefore, according to the speaker adaptation apparatus of the fifteenth embodiment, even if the recognition result is incorrect, erroneous learning of the standard pattern parameters can be prevented, and the recognition rate can be reduced. Can be improved.
[0073]
Embodiment 16 FIG.
FIG. 14 is a block diagram showing a sixteenth embodiment which is one configuration example of the speaker adaptation apparatus according to the sixteenth aspect of the present invention. 14, the same functional blocks as those in the first embodiment are denoted by the same reference numerals, and description thereof will be omitted. A characteristic part of the present invention is that the unsupervised speaker adaptation means 102 with the recognition result reliability includes a standard pattern parameter tree structure clustering means 1401, a standard pattern parameter grouping means 1402 based on tree structure parameters, and a recognition result. And a parameter group with reliability and an unsupervised speaker adaptation means 1302.
[0074]
Next, the operation will be described with reference to FIG. The standard pattern parameter tree structure clustering means 1401 clusters the standard pattern parameters into a tree structure based on, for example, a Batacharya distance shown in Expression 16. In tree structure, first, all parameters are grouped into N parameter groups [G (1,1,1), G (1,1,2),. . . ,, G (1,1, N)] (G (i, j, k)): i is a cluster, j is a parent group number, and k is a group number.
Next, as clustering of the second layer, G (1, m1, n1) is represented by [G (2, n1, 1), G (2, n1, 1),. . . , G (2, n1, Nn1)].
Further, as a third layer, G (2, m2, n2) is represented by [G (3, n2, 1), G (3, n2, 1),. . . , G (3, n2, Nn2)]. Thus, clustering is performed up to a predetermined hierarchy. The standard pattern parameter grouping means 1402 based on the tree structure parameters groups the parameters based on the tree structured parameters which are the outputs of the standard parameter tree structure clustering according to the recognition result reliability of the output of the recognition result reliability calculation means 101. Become
[0075]
FIG. 15 is an explanatory diagram of the grouping of the tree structuring parameters based on the recognition result reliability. The sum of the recognition result reliability of the adaptive data of the parameters belonging to the nodes and below is calculated as the node information. When the recognition result reliability of the child node is smaller than a predetermined threshold th and the recognition result reliability of the parent node is not less than th, the parameter group below the parent node is used for estimating parameters belonging to the child node and below. In FIG. 15, the number in parentheses is the recognition result reliability of the adaptive data of the parameters below the node. For example, if th is 40, the reliability is 20 for Node (3, 1) and 100 for Node (2, 1) of its parent node. Using the adaptation data, the recognition result reliability, and the standard pattern parameters, a common variation is obtained for the parameters, and the parameters below Node (3, 2) are updated. The parameter-without-recognition-unsupervised speaker adaptation means 1302 for calculating the parameter variation of the parameter group obtains and updates the variation in the parameter group as described in the fifteenth embodiment.
Therefore, according to the speaker adapting apparatus of the seventeenth embodiment, even if the recognition result is erroneous, erroneous learning of the standard pattern parameters can be prevented by the configuration described above, and the recognition rate can be reduced. Can be improved.
[0076]
Embodiment 17 FIG.
The speaker adaptation apparatus according to the seventeenth embodiment is characterized in that a continuous mixture distribution type hidden Markov model is used as a standard pattern. The details of the continuous mixture distribution type hidden Markov model are described in
[0077]
Embodiment 18 FIG.
In the speaker adaptation apparatus according to the eighteenth embodiment, the element distribution function constituting the symbol output probability density function of the continuous mixture distribution type hidden Markov model is a Gaussian distribution. It is a speaker adaptation device. The Gaussian distribution function is given by
(Equation 20)
[0078]
Embodiment 19 FIG.
The speaker adaptation apparatus according to the seventeenth embodiment is characterized in that the parameter to be adapted is a mean vector of Gaussian distribution.
[0079]
FIG. 16 is a block
[0080]
Next, the operation will be described with reference to FIG. The parameter updating unit with
(Equation 21)
[0081]
FIG. 17 is a conceptual diagram of interpolation of a Gaussian distribution average value. In FIG. 17, μ (1), μ (2), and μ (3) are mean vectors of a Gaussian distribution in which adaptive data exists, and μa (1), μa (2), and μa (3) are unsupervised speakers. It is the average vector after updating by adaptation. Μ (4) is an average vector having no adaptive data. For μ (4) for which there is no adaptation data, interpolation is performed using the difference vector before and after the update of the neighboring average vector according to Expression 21. In Equation 21, μ (q) and μa (q) are average vectors before and after the q-th update, αp, q are weighting factors, TV (p) is a difference vector (moving vector) between the average vectors before and after the update, and P is This is a set of neighborhood average vectors used for interpolation. Further, f is a control constant, dp and q are Mahalanobis distances, C (q) is a covariance matrix of Gaussian distribution q, and superscript −1 represents an inverse matrix.
Therefore, according to the speaker adapting apparatus of the twentieth embodiment, the mean vector of the Gaussian distribution without such adaptive data is interpolated by the difference vector of the mean vector of the Gaussian distribution with the adaptive data. Since adaptation is performed, even if the recognition result is incorrect, erroneous learning of the parameters of the standard pattern can be prevented, and the recognition rate can be improved.
[0082]
Embodiment 21 FIG.
FIG. 18 is a block diagram showing Embodiment 21 which is one configuration example of the speaker adapting apparatus according to the twenty-first aspect of the present invention. In FIG. 18, the same functional blocks as those in the first embodiment are denoted by the same reference numerals, and description thereof will be omitted. A characteristic part of the present invention is that the unsupervised speaker adaptation means with
[0083]
Next, the operation will be described with reference to FIG. The speaker adaptation means 1801 based on the multiple regression mapping model with recognition result reliability inputs the recognition result reliability output from the recognition result reliability calculation means 101, the
(Equation 22)
[0084]
Further, the speaker adapting means 1801 based on the multiple regression mapping model with the recognition result reliability updates the average vector by using
Therefore, according to the speaker adaptation apparatus of the twenty-first embodiment, since the unsupervised speaker adaptation based on the multiple regression mapping model with the recognition result reliability is performed, the recognition result for the speaker adaptation learning is incorrect. In this case, erroneous updating of parameters can be prevented, and the recognition rate is improved.
[0085]
Embodiment 22 FIG.
FIG. 19 is a block diagram showing Embodiment 22 which is an example of the configuration of the speaker adaptation apparatus according to the present invention. In FIG. 19, the same functional blocks as those in the first, fifteenth, and eighteenth embodiments are denoted by the same reference numerals, and description thereof will be omitted. A characteristic part of the present invention is that the unsupervised speaker adaptation means 102 with recognition result reliability is composed of a Gaussian distribution grouping means 1901 and a speaker adaptation means 1801 based on a multiple regression mapping model with recognition result reliability. It is to be.
[0086]
Next, the operation will be described with reference to FIG. The Gaussian
Therefore, according to the speaker adaptation apparatus of the twenty-second embodiment, the unsupervised speaker adaptation is performed based on the multiple regression mapping model with the recognition result reliability by grouping the standard patterns in this way. It is possible to prevent erroneous updating of parameters when the recognition result for adaptive learning is wrong, and the recognition rate is improved.
[0087]
Embodiment 23 FIG.
FIG. 20 shows a speech recognition apparatus according to the twenty-third aspect of the present invention, that is, a speech recognition apparatus using the unsupervised
[0088]
The words to be recognized set by the recognition dictionary 2005 [W (1), W (2),. . . , W (wn)] into a recognition unit label, and concatenates unsupervised
Therefore, according to the speech recognition apparatus of the twenty-third embodiment, speech recognition is performed using the unsupervised
[0096]
According to the next invention, the unsupervised speaker adaptation means with recognition result reliability estimates the parameters of the standard pattern by maximum likelihood estimation using the divided adaptation data for updating the standard pattern parameters of the recognition unit. Based on the total value of the recognition result reliability of the adaptive data used for updating the parameters of the standard pattern of the recognition unit, from the standard pattern parameters to the parameters of the speaker adaptive pattern by linear interpolation of the values of the parameters before and after the maximum likelihood estimation. Since updating is performed, even if the result of speech recognition for adaptive learning is erroneous, erroneous updating of the standard pattern parameters can be prevented, and the recognition rate is improved.
[0098]
According to the next invention, the unsupervised speaker adaptation means with recognition result reliability uses the divided adaptation data for updating the parameters of the standard pattern of the recognition unit, and learns the parameter of the adaptation data based on the recognition result reliability. Is calculated, and the standard pattern parameters are updated to the parameters of the speaker adaptation pattern by the weighted adaptation data.Therefore, even when the speech recognition result for adaptive learning is incorrect, the parameter of the standard pattern is incorrect. Updates can be prevented, and the recognition rate improves.
[0102]
Further, according to the next invention, the unsupervised speaker adaptation means with recognition result reliability switches the updating method according to the value of the recognition result reliability of the first utterance. However, erroneous updating of the standard pattern parameters can be prevented, and the recognition rate is improved.
[0103]
Further, according to the next invention, the parameters of the standard pattern are grouped by clustering, and the variation of the parameter common to the group is calculated using the divided adaptive data for updating the parameters in the group and the recognition result reliability. Since the parameter of the group of the standard pattern is updated to the parameter of the group of the speaker adaptive pattern according to the parameter variation, even if the speech recognition result for adaptive learning is incorrect, the parameter of the standard pattern is incorrectly updated. Can be prevented and the recognition rate is improved.
[0104]
According to the next invention, the clustering performs tree structure clustering to cluster standard pattern parameters in a tree structure, and recognizes divided adaptive data for updating a parameter of a standard pattern belonging to a node below the tree structure. Calculate the amount of parameter variation common to the group using the divided adaptive data for updating the parameters in the group and the recognition result reliability using the standard pattern parameters below the node whose result reliability is equal to or greater than the threshold as a group. Since the parameter of the group of the standard pattern is updated to the parameter of the group of the speaker adaptive pattern according to the amount of variation, even if the result of speech recognition for adaptive learning is incorrect, erroneous updating of the parameter of the standard pattern is prevented. The recognition rate can be improved.
[0105]
According to the next invention, a continuous mixture distribution type hidden Markov model is used as the standard pattern and the speaker adaptation pattern. Therefore, even when the speech recognition result for adaptive learning is incorrect, the parameter of the standard pattern is incorrectly updated. Can be prevented and the recognition rate is improved.
[0106]
Further, according to the next invention, the element distribution function constituting the symbol output probability density function of the continuous mixture distribution type hidden Markov model is a Gaussian distribution, so that even if the speech recognition result for adaptive learning is incorrect, the standard pattern Incorrect updating of parameters can be prevented, and the recognition rate is improved.
[0107]
According to the next invention, since the parameter to be updated in the unsupervised speaker adaptation means with recognition result reliability is the average vector of the Gaussian distribution, even if the speech recognition result for adaptive learning is incorrect, the parameter of the standard pattern Erroneous updating can be prevented, and the recognition rate is improved.
[0108]
According to the next invention, the mean vector of the Gaussian distribution is updated by updating the mean vector of the Gaussian distribution in which the adaptive data exists, with the recognition result reliability, and the mean vector of the Gaussian distribution in which the adaptive data does not exist is the adaptive data. The parameters of the standard pattern are updated to the parameters of the speaker adaptation pattern by interpolation using the difference vector of the average vector values before and after the update of the Gaussian distribution in which the speaker learning adaptive recognition speech recognition result is incorrect. In addition, erroneous updating of the standard pattern parameters can be prevented, and the recognition rate is improved.
[0109]
Further, according to the next invention, the unsupervised speaker adaptation means with recognition result reliability, by speaker adaptation based on a multiple regression mapping model using the recognition result reliability, averages the Gaussian distribution which is a parameter of the standard pattern. Since the vector is updated to the average vector of the Gaussian distribution of the speaker adaptation pattern, even if the result of speech recognition for adaptive learning is incorrect, erroneous updating of the standard pattern parameters can be prevented, and the recognition rate improves.
[0110]
According to the next invention, the speaker adaptation based on the multiple regression mapping model is performed by clustering the Gaussian distribution of the standard pattern and grouping the Gaussian distribution based on the Gaussian distribution based on the adaptive data for updating the Gaussian distribution in the group and the recognition result reliability. One regression coefficient is calculated for the group of distributions, and the average vector of the standard pattern is updated to the average vector of the speaker adaptation pattern using the regression coefficient. Incorrect updating of parameters can be prevented, and the recognition rate is improved.
[0111]
According to the next invention, an unsupervised speaker adaptation pattern updated by the speaker adaptation apparatus according to any one of
[Brief description of the drawings]
FIG. 1 is a block diagram showing a configuration of a first embodiment of a speaker adaptation apparatus according to the present invention.
FIG. 2 is a block diagram showing a configuration of a speaker adaptation apparatus according to a second embodiment of the present invention;
FIG. 3 is an operation explanatory diagram of
FIG. 4 is an operation explanatory diagram of a speaker adaptation apparatus according to a fourth embodiment of the present invention;
FIG. 5 is an operation explanatory diagram of
FIG. 6 is an operation explanatory diagram of Embodiment 6 of the speaker adaptation apparatus according to the present invention.
FIG. 7 is a block diagram showing a configuration of a seventh embodiment of the speaker adaptation apparatus according to the present invention.
FIG. 8 is a block diagram showing a configuration of a speaker adaptation apparatus according to an eighth embodiment of the present invention;
FIG. 9 is a block diagram showing a configuration of a tenth embodiment of the speaker adaptation apparatus according to the present invention.
FIG. 10 is a block diagram showing a configuration of a twelfth embodiment of the speaker adaptation apparatus according to the present invention.
FIG. 11 is a block diagram showing a configuration of a thirteenth embodiment of the speaker adaptation apparatus according to the present invention.
FIG. 12 is a block diagram showing a configuration of a fourteenth embodiment of the speaker adaptation apparatus according to the present invention;
FIG. 13 is a block diagram showing a configuration of a fifteenth embodiment of the speaker adaptation apparatus according to the present invention.
FIG. 14 is a block diagram showing a configuration of a sixteenth embodiment of the speaker adaptation apparatus according to the present invention.
FIG. 15 is an operation explanatory diagram of Embodiment 16 of the speaker adaptation apparatus according to the present invention.
FIG. 16 is a block diagram showing a configuration of a twentieth embodiment of the speaker adaptation apparatus according to the present invention.
FIG. 17 is an operation explanatory diagram of
FIG. 18 is a block diagram showing a configuration of a twenty-first embodiment of the speaker adaptation apparatus according to the present invention.
FIG. 19 is a block diagram showing a configuration of a speaker adaptation apparatus according to a twenty-second embodiment of the present invention.
FIG. 20 is a block diagram showing a configuration of a speech recognition apparatus according to Embodiment 23 of the present invention.
FIG. 21 is a block diagram illustrating a configuration of a conventional speaker adaptation apparatus.
[Explanation of symbols]
101 Recognition result reliability calculation means
102 Unsupervised speaker adaptation means with recognition result reliability
701 Audio data segmentation means
702 Standard pattern parameter updating means with recognition result reliability
801 Standard pattern parameter maximum likelihood estimation means
802 Parameter linear interpolation means based on recognition result reliability
901 Adaptive learning means using recognition result weighted learning data
1001 Multiple recognition result candidate output collation means
1002 Multiple recognition result candidate reliability calculation means
1003 Unsupervised speaker adaptation means with multiple recognition result candidate reliability
1101 Recognition result reliability comparison means
1201 Speaker adaptation method selection means based on recognition result reliability
1202-1 -M Unsupervised speaker adaptation means with recognition result reliability 1 -M
1301 Standard pattern parameter clustering means
1302 Parameter group with recognition result reliability unsupervised speaker adaptation means
1401 Standard pattern parameter tree structure clustering means
1402 Standard Pattern Parameter Grouping Means Based on Tree Structured Parameters
1601 Standard pattern parameter interpolation means
1801 Speaker adaptation based on multiple regression mapping model with recognition result reliability
1901 Gaussian distribution grouping means
2001 input voice
2002 Voice feature extraction means
2003 collation means
2004 Standard pattern
2005 recognition dictionary
2006 Speech recognition result for speaker adaptive learning
2007 Unsupervised speaker adaptation
2008 Unsupervised speaker adaptation pattern
2101 Speech recognition result
Claims (3)
前記音声特徴量と前記標準パタンから推定適応パタンを最尤推定により算出する標準パタンパラメータ最尤推定手段と、
この標準パタンパラメータ最尤推定手段により算出された推定適応パタンを構成するパラメータの値と前記標準パタンを構成するパラメータの値とを、前記信頼度に応じて線形補間することにより前記話者適応パタンを算出するパラメータ線形補間手段と、
を備えたことを特徴とする話者適応化装置。 A speech feature extracted from a speaker's input speech is compared with a standard pattern obtained by performing parameter learning based on speech data of a large number of speakers, and a recognition result is output. In a speaker adaptation device that determines whether to update to a speaker adaptation pattern adapted to a speaker that has emitted a voice according to the reliability of the recognition result,
A standard pattern parameter maximum likelihood estimating means for calculating an estimated adaptive pattern from the voice features and the standard pattern by maximum likelihood estimation,
The speaker adaptive pattern is obtained by linearly interpolating the values of the parameters constituting the estimated adaptive pattern calculated by the standard pattern parameter maximum likelihood estimating means and the values of the parameters constituting the standard pattern according to the reliability. Parameter linear interpolation means for calculating
A speaker adaptation device comprising:
前記信頼度に基づいて、前記入力音声から得られる話者適応用データのパラメータ学習への重み付けを計算し、重み付けされた話者適応用データを用いて、前記標準パタンからを構成するパラメータを、前記話者適応パタンを構成するパラメータに更新する適応学習手段を備えたことを特徴とする話者適応化装置。 A speech feature extracted from a speaker's input speech is compared with a standard pattern obtained by performing parameter learning based on speech data of a large number of speakers, and a recognition result is output. In a speaker adaptation device that determines whether to update to a speaker adaptation pattern adapted to a speaker that has emitted a voice according to the reliability of the recognition result,
Based on the reliability, calculate the weight to the parameter learning of the speaker adaptation data obtained from the input speech, using the weighted speaker adaptation data, the parameters constituting the standard pattern, A speaker adaptation apparatus, comprising: an adaptive learning unit that updates parameters constituting the speaker adaptation pattern .
過去に出力した前記認識結果の信頼度の値に基づいて、異なる話者適用学習アルゴリズムを選択する話者適用方式選択手段を備えたことを特徴とする話者適応化装置。A speaker adaptation apparatus, comprising: speaker application method selection means for selecting a different speaker application learning algorithm based on a value of reliability of the recognition result output in the past.
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
JP29792498A JP3589044B2 (en) | 1998-10-20 | 1998-10-20 | Speaker adaptation device |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
JP29792498A JP3589044B2 (en) | 1998-10-20 | 1998-10-20 | Speaker adaptation device |
Publications (2)
Publication Number | Publication Date |
---|---|
JP2000122689A JP2000122689A (en) | 2000-04-28 |
JP3589044B2 true JP3589044B2 (en) | 2004-11-17 |
Family
ID=17852861
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
JP29792498A Expired - Fee Related JP3589044B2 (en) | 1998-10-20 | 1998-10-20 | Speaker adaptation device |
Country Status (1)
Country | Link |
---|---|
JP (1) | JP3589044B2 (en) |
Families Citing this family (7)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
KR100679044B1 (en) * | 2005-03-07 | 2007-02-06 | 삼성전자주식회사 | User adaptive speech recognition method and apparatus |
JP2006293489A (en) * | 2005-04-06 | 2006-10-26 | Sony Corp | Learning device, learning method, and learning program |
JP4594885B2 (en) * | 2006-03-15 | 2010-12-08 | 日本電信電話株式会社 | Acoustic model adaptation apparatus, acoustic model adaptation method, acoustic model adaptation program, and recording medium |
JP5161183B2 (en) * | 2009-09-29 | 2013-03-13 | 日本電信電話株式会社 | Acoustic model adaptation apparatus, method, program, and recording medium |
JP5767825B2 (en) * | 2011-02-28 | 2015-08-19 | 綜合警備保障株式会社 | Sound processing apparatus and sound processing method |
JP6148150B2 (en) * | 2013-10-23 | 2017-06-14 | 日本電信電話株式会社 | Acoustic analysis frame reliability calculation device, acoustic model adaptation device, speech recognition device, their program, and acoustic analysis frame reliability calculation method |
JP2021529978A (en) * | 2018-05-10 | 2021-11-04 | エル ソルー カンパニー, リミテッドLlsollu Co., Ltd. | Artificial intelligence service method and equipment for it |
-
1998
- 1998-10-20 JP JP29792498A patent/JP3589044B2/en not_active Expired - Fee Related
Also Published As
Publication number | Publication date |
---|---|
JP2000122689A (en) | 2000-04-28 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
US5839105A (en) | Speaker-independent model generation apparatus and speech recognition apparatus each equipped with means for splitting state having maximum increase in likelihood | |
US5825978A (en) | Method and apparatus for speech recognition using optimized partial mixture tying of HMM state functions | |
JPH0372998B2 (en) | ||
WO2018066436A1 (en) | Learning device for acoustic model and computer program for same | |
US5956676A (en) | Pattern adapting apparatus using minimum description length criterion in pattern recognition processing and speech recognition system | |
US5924066A (en) | System and method for classifying a speech signal | |
KR100832556B1 (en) | Speech Recognition Method for Robust Remote Speech Recognition System | |
Rosdi et al. | Isolated malay speech recognition using Hidden Markov Models | |
US6173076B1 (en) | Speech recognition pattern adaptation system using tree scheme | |
EP1074019B1 (en) | Adaptation of a speech recognizer for dialectal and linguistic domain variations | |
JP3589044B2 (en) | Speaker adaptation device | |
CN102237082B (en) | Self-adaption method of speech recognition system | |
JP2938866B1 (en) | Statistical language model generation device and speech recognition device | |
Birkenes et al. | Penalized logistic regression with HMM log-likelihood regressors for speech recognition | |
JP2982689B2 (en) | Standard pattern creation method using information criterion | |
JP2005156593A (en) | Acoustic model creation method, acoustic model creation device, acoustic model creation program, and speech recognition device | |
JP3216565B2 (en) | Speaker model adaptation method for speech model, speech recognition method using the method, and recording medium recording the method | |
JPH06266384A (en) | Acousting model adaption system | |
Uchat | Hidden Markov Model and Speech Recognition | |
JP2005091504A (en) | Voice recognition device | |
JPH10254477A (en) | Phonemic boundary detector and speech recognition device | |
Siniscalchi | Combining speech attribute detection and penalized logistic regression for phoneme recognition | |
JP2976795B2 (en) | Speaker adaptation method | |
JPH0822296A (en) | Pattern recognition method | |
JPH0981179A (en) | Speaker adaptive device and voice recognition device |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
A131 | Notification of reasons for refusal |
Free format text: JAPANESE INTERMEDIATE CODE: A131 Effective date: 20040330 |
|
A521 | Request for written amendment filed |
Free format text: JAPANESE INTERMEDIATE CODE: A523 Effective date: 20040525 |
|
RD01 | Notification of change of attorney |
Free format text: JAPANESE INTERMEDIATE CODE: A7421 Effective date: 20040622 |
|
TRDD | Decision of grant or rejection written | ||
A01 | Written decision to grant a patent or to grant a registration (utility model) |
Free format text: JAPANESE INTERMEDIATE CODE: A01 Effective date: 20040727 |
|
A61 | First payment of annual fees (during grant procedure) |
Free format text: JAPANESE INTERMEDIATE CODE: A61 Effective date: 20040809 |
|
FPAY | Renewal fee payment (event date is renewal date of database) |
Free format text: PAYMENT UNTIL: 20070827 Year of fee payment: 3 |
|
FPAY | Renewal fee payment (event date is renewal date of database) |
Free format text: PAYMENT UNTIL: 20080827 Year of fee payment: 4 |
|
FPAY | Renewal fee payment (event date is renewal date of database) |
Free format text: PAYMENT UNTIL: 20080827 Year of fee payment: 4 |
|
FPAY | Renewal fee payment (event date is renewal date of database) |
Free format text: PAYMENT UNTIL: 20090827 Year of fee payment: 5 |
|
FPAY | Renewal fee payment (event date is renewal date of database) |
Free format text: PAYMENT UNTIL: 20090827 Year of fee payment: 5 |
|
FPAY | Renewal fee payment (event date is renewal date of database) |
Free format text: PAYMENT UNTIL: 20100827 Year of fee payment: 6 |
|
FPAY | Renewal fee payment (event date is renewal date of database) |
Free format text: PAYMENT UNTIL: 20110827 Year of fee payment: 7 |
|
FPAY | Renewal fee payment (event date is renewal date of database) |
Free format text: PAYMENT UNTIL: 20110827 Year of fee payment: 7 |
|
FPAY | Renewal fee payment (event date is renewal date of database) |
Free format text: PAYMENT UNTIL: 20120827 Year of fee payment: 8 |
|
FPAY | Renewal fee payment (event date is renewal date of database) |
Free format text: PAYMENT UNTIL: 20120827 Year of fee payment: 8 |
|
FPAY | Renewal fee payment (event date is renewal date of database) |
Free format text: PAYMENT UNTIL: 20130827 Year of fee payment: 9 |
|
LAPS | Cancellation because of no payment of annual fees |