JP3035239B2 - 話者正規化装置、話者適応化装置及び音声認識装置 - Google Patents
話者正規化装置、話者適応化装置及び音声認識装置Info
- Publication number
- JP3035239B2 JP3035239B2 JP9054596A JP5459697A JP3035239B2 JP 3035239 B2 JP3035239 B2 JP 3035239B2 JP 9054596 A JP9054596 A JP 9054596A JP 5459697 A JP5459697 A JP 5459697A JP 3035239 B2 JP3035239 B2 JP 3035239B2
- Authority
- JP
- Japan
- Prior art keywords
- speaker
- model
- vector
- hmm
- hidden markov
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Expired - Fee Related
Links
Description
対して話者依存の音声データの特徴パラメータを用いて
話者正規化を行って、話者正規化された隠れマルコフモ
デル(以下、HMMという。)を作成する話者正規化装
置、話者正規化されたHMMに対して話者適応用学習デ
ータを用いて話者適応化を行って、話者適応化されたH
MMを作成する話者適応化装置、及び、話者正規化又は
話者適応化されたHMMを用いて音声認識する音声認識
装置に関する。
合、事前の話者登録無しに使用が可能の不特定話者音声
認識システムの要望が高い。しかしながら、現状の不特
定話者音声認識の性能は、特定話者音声認識よりも低
く、その差は、誤り率で2〜3倍程度である。不特定話
者音声認識の性能を向上されるため、特定話者が発声し
た少量の適応データを用い、不特定話者音声認識の音響
モデルを特定話者へ近づける話者適応化処理(例えば、
従来技術文献1「C.L.Leggetter et al.,“MaximumLike
lihood Linear Regression for Speaker Adaptation of
Continuous Density Hidden Markov Models",Computer
Speech and Language,Vol.9,pp.171-185,1995年」参
照。)の研究が行なわれているが、特定話者音声認識と
同等の性能を示すまでには、多量の学習用適応化データ
が必要となっている。
独立な不特定話者HMM(以下、SI−HMMとい
う。)の学習は複数の話者の音声データを用いて行う。
学習データには話者による違いだけでなく、学習対象の
単位の置かれた状況(コンテキスト)等の違いが混在す
るにも関わらず、特定話者音声認識の音響モデル(話者
に依存するHMM(以下、SD−HMMという。)であ
る。)の学習と同様に処理する。これにより、SI−H
MMには話者の違いに起因する変動と音韻コンテキスト
の変動の両方が混在し、広がりの大きなモデルになって
しまう。これが識別性能劣化の要因の1つなっていると
考えられる。連続混合分布型HMMを基本とした音声認
識システムの場合では、ガウス分布の分散が大きくなる
現象であり、認識単位間の重なりが発生し、識別を困難
となるという問題点があった。
た、従来例の重回帰写像モデルを用いて話者適応化した
場合に、学習用適応化データが少量であるときに、適応
化のパラメータの推定精度が比較的悪く、音声認識率が
比較的低いという問題点があった。
来例に比較して適応化のパラメータの推定精度を改善す
ることができ、しかも音声認識率を改善することができ
る話者正規化装置、話者適応化装置及び音声認識装置を
提供することにある。
載の話者正規化装置は、所定の隠れマルコフモデルの初
期モデルを学習するための学習データであり、複数の話
者にそれぞれ依存する音声データの特徴ベクトルを記憶
する記憶装置と、上記記憶装置に記憶された音声データ
の特徴ベクトルに基づいて、上記隠れマルコフモデルの
初期モデルに対して、最尤線形回帰法により、重回帰写
像モデルに基づく平均ベクトルの変換のための変換行列
と、スペクトルに共通する個人差を表す定数項ベクトル
とを含む第1の変換係数を上記各話者毎に演算する第1
の演算手段と、上記記憶装置に記憶された音声データの
特徴ベクトルから上記各話者毎に、上記第1の演算手段
によって演算された定数項ベクトルを減算して正規化さ
れた音声データの特徴ベクトルを演算する第2の演算手
段と、上記第2の演算手段によって演算された正規化さ
れた音声データの特徴ベクトルに基づいて、上記隠れマ
ルコフモデルの初期モデルを、所定の学習アルゴリズム
を用いて学習することにより、話者正規化された隠れマ
ルコフモデルのモデルパラメータを演算する第3の演算
手段とを備えたことを特徴とする。
応化装置は、話者適応化する話者の音声データの特徴ベ
クトルに基づいて、請求項1記載の話者正規化装置の第
3の演算手段によって演算された隠れマルコフモデルに
対して、最尤線形回帰法により、重回帰写像モデルに基
づく平均ベクトルの変換のための変換行列と定数項ベク
トルを含む第2の変換係数を演算する第4の演算手段
と、上記第4の演算手段によって演算された変換行列と
定数項ベクトルを含む第2の変換係数に基づいて、最大
事後確率推定法により、話者適応化された重回帰写像モ
デルに基づく平均ベクトルの変換のための変換行列と定
数項ベクトルを含む第3の変換係数を演算する第5の演
算手段と、上記第5の演算手段によって演算された変換
行列と定数項ベクトルを含む第3の変換係数に対して、
所定の線形変換処理を実行することにより、話者適応化
後の隠れマルコフモデルの平均ベクトルを演算する第6
の演算手段とを備えたことを特徴とする。
請求項1記載の話者正規化装置の第3の演算手段によっ
て演算された隠れマルコフモデルを用いて、入力された
発声音声文の音声信号に基づいて、音声認識して音声認
識結果を出力する音声認識手段とを備えたことを特徴と
する。
請求項2記載の話者適応化装置の第6の演算手段によっ
て演算された隠れマルコフモデルの平均ベクトルを含む
隠れマルコフモデルを用いて、入力された発声音声文の
音声信号に基づいて、音声認識して音声認識結果を出力
する音声認識手段とを備えたことを特徴とする。
る実施形態について説明する。図1は本発明に係る一実
施形態である音声認識装置のブロック図である。この実
施形態は、話者正規化制御部20と、話者適応化制御部
21とを備えたことを特徴とする。
複数M人の話者にそれぞれ依存する音声データ32−1
乃至32−Mの特徴ベクトルに基づいて、所定のHMM
の初期モデル(以下、初期HMMという。)31に対し
て、最尤線形回帰法により、重回帰写像モデルに基づく
平均ベクトルの変換のための変換行列と定数項ベクトル
を含む第1の変換係数Ac (m),bc ( m)を、後述する数6
乃至数11を用いて各話者m(m=1,2,…,M)毎
に演算し、(b)後述する数12を用いて、上記複数M
人の話者にそれぞれ依存する音声データ32−1乃至3
2−Mの特徴ベクトルot (m)から上記各話者m毎に、上
記演算された定数項ベクトルbc (m)を減算して正規化さ
れた音声データの特徴ベクトルohtを演算し、(c)
上記演算された正規化された音声データの特徴ベクトル
ohtに基づいて、隠れマルコフモデルの初期モデル3
1を、所定の学習アルゴリズムを用いて学習することに
より、話者正規化されたHMM33のモデルパラメータ
を演算することを特徴とする。ここで、モデルパラメー
タは、平均ベクトル、ガウス分布の分散、状態遷移確率
などのHMMのモデルパラメータを含む。
者適応化する音声データである話者適応用学習データ3
4の特徴ベクトルに基づいて、話者正規化装置20によ
って演算された話者正規化されたHMM33に対して、
最尤線形回帰法により、後述する数6を用いて、重回帰
写像モデルに基づく平均ベクトルの変換のための変換行
列と定数項ベクトルを含む第2の変換係数Ac,bcを演
算し、(e)上記演算された変換行列と定数項ベクトル
を含む第2の変換係数Ac,bcに基づいて、最大事後確
率推定法により、後述する数14及び数15を用いて、
話者適応化された重回帰写像モデルに基づく平均ベクト
ルの変換のための変換行列と定数項ベクトルを含む第3
の変換係数Ac,k MAP,bc,k MAPを演算し、(f)上記演
算された変換行列と定数項ベクトルを含む第3の変換係
数Ac,k MAP,bc,k MAPに対して、後述する数13を用い
て所定の線形変換処理を実行することにより、話者適応
化後のHMMの平均ベクトルμhk, MAPを演算すること
を特徴とする。
適応化されたHMM11を用いて、入力された発声音声
文の音声信号に基づいて、音声認識して音声認識結果を
出力する。また、話者正規化されたHMM33を用い
て、入力された発声音声文の音声信号に基づいて、音声
認識して音声認識結果を出力してもよい。
を取り除く話者正規化手法によって音響モデルを生成す
ることを検討した。話者正規化を行なうことでモデルの
広がりが小さくなり、識別性能の向上が期待できる。ま
た、このような話者正規化により、変動分が音韻コンテ
キストを主としているものとみなせるモデルが得られる
ならば、話者適応の初期モデルとしても有効であると考
えられる。正規化処理は、重回帰写像モデルの定数項を
用いる。定数項は声帯音源スペクトルの概形や回線特性
のような広範囲のスペクトルに共通する個人差を表すと
考えられる。定数項を個人差ベクトルと考え、定数項を
学習データから引くことで正規化を行なう。さらにここ
では、話者正規化を施した音声データによって学習した
話者正規化されたHMMを初期モデルとする話者適応化
を、重回帰写像モデルによる話者適応と最大事後確率推
定法(以下、MAP推定法という。)を組み合わせた方
法を用いる。
像モデルについて説明する。重回帰写像モデルによる話
者適応化は初期モデルのk番目のガウス分布の平均ベク
トルμk(次元数n)を、次式によって、話者適応化モ
デルに基づく平均ベクトルμhkに変換することで行な
われる。
bcはn次元の定数項ベクトルであり、共有化されたガ
ウス分布のクラスΩc毎に求める。ここでは、学習用適
応化データに関して最尤を基準に変換係数Ac,bcを推
定する最尤線形回帰法(Maximum likelihood linear re
gression;以下、MLLR方法という。;例えば、従来
技術文献1参照。)を用いて推定する方法について述べ
る。MLLR法では時刻tにk番目のガウス分布(以
下、ガウス分布kという。)において入力ベクトルot
観測される確率密度関数bk(ot)を次式の通り仮定す
る。
×exp[−(1/2){ot−(Acμk+bc)}'Σk -1{ot
−(Acμk+bc)}]
[σ2 k1,σ2 k2,…,σ2 kn]である。また、’は転置
行列を表わす。さらに、Σk -1は行列Σkの逆行列を表わ
す。変換係数は次式のバーム(Baum)の補助関数を
最大にすることによって得る。
タの特徴ベクトルの系列(o1,o2,…,oT)を表し
ている。また、λ,λbは適応化前後のモデルパラメー
タである。θは状態系列(θ1,θ2,…,θT)であ
り、Θは可能な全ての状態系列の集合を表している。F
(O,θ│λ),F(O,θ│λb)はそれぞれ状態系
列θにおける適応前後の尤度である。
は、次式のように、補助関数をAc,bcで偏微分し、偏
微分したものを共有化クラスΩcにおいて零とすること
で得られる。
て時刻tに入力ベクトルが観測される期待値である。ま
た、μk’は平均ベクトルμkの転置行列である。従っ
て、数4及び数5から、変換行列Acのp行目の要素a
cp,i,及び定数項bcのp番目の要素bcpは次式で与え
られる。
素であり、σkpは対角共分散行列の(p,p)要素であ
り、otpは時刻tの入力ベクトルのp番目の要素を表し
ている。以上が重回帰写像モデルについての説明であ
る。
規化による音響モデル作成について説明する。重回帰写
像モデルの定数項bcは声帯音源スペクトルの概形や回
線特性のような広範囲のスペクトルに共通する個人差を
表すと考えられる。そこで、本実施形態では定数項bc
を個人差ベクトルと仮定し、話者正規化を行なう。図4
及び図5は発明した話者正規化方法の概念図である。ま
た、図2は、図1の話者正規化制御部20によって実行
される、M人の話者の音声データを用いて話者正規化モ
デルを作成する話者正規化処理のフローチャートであ
り、図7はそのブロック図である。図1において、話者
正規化制御部20、話者適応化制御部21、特徴抽出部
2、音素照合部4、LRパーザ5は例えば、デジタル計
算機などの演算制御装置で構成され、バッファメモリ3
は例えばハードディスクメモリであり、初期HMM31
及び各話者1乃至Mの音声データの特徴パラメータベク
トル、話者正規化されたHMM33、話者適応用学習デ
ータ34、話者適応化されたHMM11、LRテーブル
12及び文脈自由文法13は例えばハードディスクメモ
リに記憶される。なお、各話者の音声データ32−1乃
至32−Mは各話者の音声波形信号から特徴抽出した特
徴パラメータのベクトル、すなわち特徴ベクトルであ
る。本明細書において、音声データとは、特徴ベクトル
をいう。以下に、図2及び図7を参照して、話者正規化
モデルの作成手順を述べる。
図2のステップS1で、不特定話者HMMである初期H
MM(HMMの初期モデル)31を読み出して処理対象
のHMMとする。次いで、ステップS2で、図4に示す
ように、処理対象のHMMに対してMLLR法により数
6乃至数11を用いて各話者1乃至M毎に重回帰写像モ
デルの変換係数Ac (m),bc (m),m=1,2,…,Mを
演算する。さらに、ステップS3で、図5に示すよう
に、数12を用いて各話者1乃至Mの音声データot (m)
32−1乃至32−Mから重回帰写像モデルの定数項ベ
クトルbc (m)を減算することにより正規化音声データo
htを演算する。
き正規化音声データohtに対してバーム・ウエルチ
(Baum−Welch)の学習アルゴリズムを用いて
再学習を行う。そして、ステップS5で所定の繰り返し
回数となったか否かが判断され、なっていないときは、
ステップS6で再学習後のHMMを処理対象のHMMと
して、再び、ステップS2に戻り、上記の処理を実行す
る。一方、ステップS5で、所定の繰り返し回数(好ま
しい実施例においては、3回)となったときは、ステッ
プS7で再学習後のHMMを話者正規化HMM33とし
てメモリに記憶する。そして当該話者正規化処理を終了
する。
の話者適応化処理について説明する。MLLR法は学習
用適応データに対して最尤を基準に平均ベクトルの推定
を行うため、初期モデルの事前知識を有効に利用した話
者適応化ではない。従って、話者正規化モデルが良い事
前知識を持っていても、十分に活用できない可能性があ
る。そこで、事前知識を有効に利用する方法であるMA
P推定法(例えば、従来技術文献2「C.H.Lee et al.,
“A Study on Speaker Adaptation of the Parameters
of Continuous Density Hidden Markov Models",IEEE T
ransactions onSignal Processing,Vol.39,No.4,pp.806
-814,1991年」参照。)をMLLR法に適用した手法
(以下、MAP−MLLR法という。また、MAP−M
LLR法による処理をMAP−MLLR処理という。)
によって話者適応を行なうことを以下のように発明し
た。ここで、MAP−MLLR法による話者適応化後の
ガウス分布kの平均ベクトルμhk MAPは下式で与えられ
る。
kは事前知識の確からしさに関する定数である。好まし
い実施例においては、τk=4.0に設定される。
初期モデルに基づく平均ベクトル(事前知識)と最尤推
定による平均ベクトルとの線形結合になっている。図6
はMAP推定法を用いたMLLR法による平均ベクトル
の推定についての概念図である。図6における矢印の太
さは、ガウス分布において学習データが観測される期待
値の大きさを示している。図6の例のように、学習デー
タが観測される期待値が大きいガウス分布は、MLLR
法によって推定される平均ベクトル付近に推定される。
また反対に、観測される期待値が小さいガウス分布では
初期モデルに基づく平均ベクトル付近への推定となる。
このようにMAP推定法を導入することで、MLLR法
により話者適応化による平均ベクトル推定の信頼性を考
慮して、適切に事前知識の情報を用いる話者適応化が行
なわれる。ここで、本実施形態の方法は、すべての係数
を推定し、ガウス分布個々に変換係数を求める。このた
め、本実施形態の方法は、従来例に比較して精密な話者
適応を行なうことが可能である。
って実行される話者適応化処理のフローチャートであ
り、図8はそのブロック図である。図3において、ステ
ップS11でまず、話者正規化されたHMM33と、話
者適応化する話者の音声データの特徴ベクトルを含む話
者適応化用学習データ34を読み出す。次いで、ステッ
プS12でMLLR法により数6乃至数11を用いて変
換係数Ac,bcを演算する。そして、ステップS13
で、MAP法により数14及び数15を用いて変換係数
Ac,k MAP,bc,k MAPを演算する。さらに、数13を用い
て線形変換処理を行って話者適応化されたHMM11を
得る。最後に、話者適応化されたHMM11をメモリに
記憶する。以上で、MAP−MLLR法による当該話者
適応化処理が終了する。
部4に接続され、HM網として複数の状態のネットワー
クとして表すこともできる。HMM11内の個々の状態
は、音声空間上の1つの確率的定常信号源と見なすこと
ができ、それぞれ以下の情報を保有している。(a)状
態番号、(b)受理可能なコンテキストクラス、(c)
先行する状態および後続する状態のリスト、(d)音声
の特徴空間上に割り当てられた確率分布のパラメータ、
(e)自己遷移確率および後続状態への遷移確率。話者
適応化されたHMM11では、入力データとそのコンテ
キスト情報が与えられた場合、そのコンテキストを受理
することができる状態を先行および後続状態リストの制
約内で連結することによって、入力データに対するモデ
ルを一意に決定することができる。ここで、出力確率密
度関数は34次元の対角共分散行列をもつ混合ガウス分
布(本明細書において、ガウス分布という。)であり、
各ガウス分布は、初期HMM31を用いて話者正規化制
御部20により話者正規化されかつ、話者正規化された
HMM33を用いて話者適応化制御部21により話者適
応化されている。なお、話者正規化されたHMM33を
音素照合部4に接続して音素検出に用いてもよい。
して少量の適応データにより話者適応を行なう場合、ガ
ウス分布の平均値の適応は他のパラメータの適応に比べ
て効果が大きいことが知られている(例えば、従来技術
文献3「大倉計美ほか,“混合連続分布HMMを用いた
移動ベクトル場平滑化話者適応方式”,音響学会講演論
文集,2−Q−17,pp.191−192,1992
年3月」参照。)。本実施形態においては、各ガウス分
布の平均値のみの適応を行ない、分散値、状態遷移確率
及び、混合ガウス分布の重み係数の適応は行なわない。
法及び話者適応化方法を用いた、SSS−LR(left-t
o-right rightmost型)不特定話者連続音声認識装置に
ついて説明する。この装置は、HMM11を含むHM網
のメモリに格納された音素環境依存型の効率のよいHM
Mの表現形式を用いている。また、上記SSSにおいて
は、音素の特徴空間上に割り当てられた確率的定常信号
源(状態)の間の確率的な遷移により音声パラメータの
時間的な推移を表現した確率モデルに対して、尤度最大
化の基準に基づいて個々の状態をコンテキスト方向又は
時間方向へ分割するという操作を繰り返すことによっ
て、モデルの精密化を逐次的に実行する。
ホン1に入力されて音声信号に変換された後、特徴抽出
部2に入力される。特徴抽出部2は、入力された音声信
号をA/D変換した後、例えばLPC分析を実行し、対
数パワー、16次ケプストラム係数、Δ対数パワー及び
16次Δケプストラム係数を含む34次元の特徴パラメ
ータを抽出する。抽出された特徴パラメータの時系列は
バッファメモリ3を介して音素照合部4に入力される。
LRパーザ5からの音素照合要求に応じて音素照合処理
を実行する。そして、話者適応化されたHMM11のメ
モリに格納された音素HMMの話者モデルを用いて音素
照合区間内のデータに対する尤度が計算され、この尤度
の値が音素照合スコアとしてLRパーザ5に返される。
このとき、前向きパスアルゴリズムを使用する。
所定の文脈自由文法(CFG)を公知の通り自動的に変
換してLRテーブル12を作成してそのメモリに格納さ
れる。LRパーザ5は、上記LRテーブル12を参照し
て、入力された音素予測データについて左から右方向
に、後戻りなしに処理する。構文的にあいまいさがある
場合は、スタックを分割してすべての候補の解析が平行
して処理される。LRパーザ5は、上記LRテーブル1
2から次にくる音素を予測して音素予測データを音素照
合部4に出力する。これに応答して、音素照合部4は、
その音素に対応するHMM11内の情報を参照して照合
し、その尤度を音声認識スコアとしてLRパーザ5に戻
し、順次音素を連接していくことにより、連続音声の認
識を行う。上記連続音声の認識において、複数の音素が
予測された場合は、これらすべての存在をチェックし、
ビームサーチの方法により、部分的な音声認識の尤度の
高い部分木を残すという枝刈りを行って高速処理を実現
する。
識装置について、評価実験を以下の如く行った。評価実
験として26音素を対象とした言語制約を用いない音素
タイプライター型の音素認識実験を行なった。表1に音
響分析条件、使用した音声データを示す。
M網)は、男性話者1名の単語発声を用い、逐次状態分
割法(例えば、従来技術文献4「J.Takami et al.,A Su
ccessive State Splitting Algorithm for Efficient A
llophone Modeling",Proceedings of CASSP'92,pp.573-
576,1992年」参照。)によって決定した。状態数は20
0とし(各5混合)、1状態(10混合)の無音モデル
を付加したモデルを使用した。話者正規化、及び話者適
応に用いるMLLR法の共有化クラスの数は1とした。
すなわち全てのガウス分布を共有化して変換係数の推定
を行う。
例のSI−HMMモデルの作成は、15話者の音声デー
タを用い、バーム・ウエルチ(Baum−Welch)
アルゴリズムで学習を行なった。この15話者は285
人のモデルから代表となる話者としてクラスタリング法
(例えば、従来技術文献5「T.Kosaka et al.,“Tree-S
tructured Speaker Clustering For Fast Speaker Adap
tation",Proceedingsof ICASSP'94,pp.245-248,1994
年」参照。)により選択した。上述のステップS5にお
ける話者正規化処理の繰り返し回数は3回とした。さら
に、話者適応化処理においては、MAP推定法の事前知
識の確からしさに関する定数τkは全てのガウス分布で
同一の値とし、実験的定めた4.0を用いた。図3及び
図8に示されている手順で教師あり話者適応を行ない、
各適応文節数に対して選択文節を変えた評価をそれぞれ
3回繰り返した平均の音素認識率を求めた。
かめるために、話者正規化HMM33を用い、適応処理
なしで音素認識実験を行なった。表2に結果を示す。比
較として従来例のSI−HMMモデルの認識結果も合わ
せて記述している。
てにおいて話者正規化モデルの認識率が高く、平均音素
誤り率が21.1%から18.4%に減少(12.8%
の誤り削減率)した。特に、従来例のSI−HMMモデ
ルでの認識率が低い話者(FMS,FYM)における改
善効果が大きい。話者正規化により、ガウス分布の分散
が小さくなり、認識単位間の識別が明確となり性能が向
上した結果と考えられる。
化されたHMM33を用いた場合と、従来例のSI−H
MMモデルを用いた場合のMAP−MLLR法による話
者適応の認識結果を示す。
節数において、話者正規化されたHMM33を初期モデ
ルとした話者適応が高い認識率を示している。話者正規
化モデルは、話者適応に適した事前知識を有する初期モ
デルであり、正確な話者適応を実現している。
ば、重回帰写像モデルを用い、話者正規化モデルを作成
する方法を発明した。この話者正規化方法によって作成
した音響モデル33は、従来例のSI−HMMモデルよ
りも音素認識で高い性能が得られた。また、話者正規化
されたHMM33を初期モデルとし、MAP−MLLR
法によって話者適応化を行なった場合においても、初期
モデルの事前知識が反映され、正確な話者適応が実現で
きた。また、学習用適用データが少量であっても、話者
正規化又は話者適応化されたHMMのパラメータの推定
精度を従来例に比較して大幅に改善することができる。
項1記載の話者正規化装置によれば、所定の隠れマルコ
フモデルの初期モデルを学習するための学習データであ
り、複数の話者にそれぞれ依存する音声データの特徴ベ
クトルを記憶する記憶装置と、上記記憶装置に記憶され
た音声データの特徴ベクトルに基づいて、上記隠れマル
コフモデルの初期モデルに対して、最尤線形回帰法によ
り、重回帰写像モデルに基づく平均ベクトルの変換のた
めの変換行列と、スペクトルに共通する個人差を表す定
数項ベクトルとを含む第1の変換係数を上記各話者毎に
演算する第1の演算手段と、上記記憶装置に記憶された
音声データの特徴ベクトルから上記各話者毎に、上記第
1の演算手段によって演算された定数項ベクトルを減算
して正規化された音声データの特徴ベクトルを演算する
第2の演算手段と、上記第2の演算手段によって演算さ
れた正規化された音声データの特徴ベクトルに基づい
て、上記隠れマルコフモデルの初期モデルを、所定の学
習アルゴリズムを用いて学習することにより、話者正規
化された隠れマルコフモデルのモデルパラメータを演算
する第3の演算手段とを備える。従って、当該話者正規
化装置によって、隠れマルコフモデルのパラメータの推
定精度を従来例に比較して大幅に改善することができ、
当該話者正規化装置によって得られた、話者正規化され
た隠れマルコフモデルを用いて音声認識することによ
り、従来例に比較して高い音声認識率で音声認識するこ
とができる。
応化装置によれば、話者適応化する話者の音声データの
特徴ベクトルに基づいて、請求項1記載の話者正規化装
置の第3の演算手段によって演算された隠れマルコフモ
デルに対して、最尤線形回帰法により、重回帰写像モデ
ルに基づく平均ベクトルの変換のための変換行列と定数
項ベクトルを含む第2の変換係数を演算する第4の演算
手段と、上記第4の演算手段によって演算された変換行
列と定数項ベクトルを含む第2の変換係数に基づいて、
最大事後確率推定法により、話者適応化された重回帰写
像モデルに基づく平均ベクトルの変換のための変換行列
と定数項ベクトルを含む第3の変換係数を演算する第5
の演算手段と、上記第5の演算手段によって演算された
変換行列と定数項ベクトルを含む第3の変換係数に対し
て、所定の線形変換処理を実行することにより、話者適
応化後の隠れマルコフモデルの平均ベクトルを演算する
第6の演算手段とを備える。従って、当該話者適応化装
置によって、話者適応化のパラメータの推定精度を従来
例に比較して大幅に改善することができ、当該話者適応
化装置によって得られた、話者適応化された隠れマルコ
フモデルを用いて音声認識することにより、従来例に比
較して高い音声認識率で音声認識することができる。
れば、請求項1記載の話者正規化装置の第3の演算手段
によって演算された隠れマルコフモデルを用いて、入力
された発声音声文の音声信号に基づいて、音声認識して
音声認識結果を出力する音声認識手段とを備える。従っ
て、上記話者正規化装置によって得られた、話者正規化
された隠れマルコフモデルを用いて音声認識することに
より、従来例に比較して高い音声認識率で音声認識する
ことができる。
れば、請求項2記載の話者適応化装置の第6の演算手段
によって演算された隠れマルコフモデルの平均ベクトル
を含む隠れマルコフモデルを用いて、入力された発声音
声文の音声信号に基づいて、音声認識して音声認識結果
を出力する音声認識手段とを備える。従って、上記話者
適応化装置によって得られた、話者適応化された隠れマ
ルコフモデルを用いて音声認識することにより、従来例
に比較して高い音声認識率で音声認識することができ
る。
のブロック図である。
話者正規化処理を示すフローチャートである。
話者適応化処理を示すフローチャートである。
MLLR処理を示す図である。
話者正規化処理を示す図である。
話者適応化処理を示す図である。
話者正規化処理を示すブロック図である。
話者適応化処理を示すブロック図である。
Claims (4)
- 【請求項1】 所定の隠れマルコフモデルの初期モデル
を学習するための学習データであり、複数の話者にそれ
ぞれ依存する音声データの特徴ベクトルを記憶する記憶
装置と、 上記記憶装置に記憶された音声データの特徴ベクトルに
基づいて、上記隠れマルコフモデルの初期モデルに対し
て、最尤線形回帰法により、重回帰写像モデルに基づく
平均ベクトルの変換のための変換行列と、スペクトルに
共通する個人差を表す定数項ベクトルとを含む第1の変
換係数を上記各話者毎に演算する第1の演算手段と、 上記記憶装置に記憶された音声データの特徴ベクトルか
ら上記各話者毎に、上記第1の演算手段によって演算さ
れた定数項ベクトルを減算して正規化された音声データ
の特徴ベクトルを演算する第2の演算手段と、 上記第2の演算手段によって演算された正規化された音
声データの特徴ベクトルに基づいて、上記隠れマルコフ
モデルの初期モデルを、所定の学習アルゴリズムを用い
て学習することにより、話者正規化された隠れマルコフ
モデルのモデルパラメータを演算する第3の演算手段と
を備えたことを特徴とする話者正規化装置。 - 【請求項2】 話者適応化する話者の音声データの特徴
ベクトルに基づいて、請求項1記載の話者正規化装置の
第3の演算手段によって演算された隠れマルコフモデル
に対して、最尤線形回帰法により、重回帰写像モデルに
基づく平均ベクトルの変換のための変換行列と定数項ベ
クトルを含む第2の変換係数を演算する第4の演算手段
と、 上記第4の演算手段によって演算された変換行列と定数
項ベクトルを含む第2の変換係数に基づいて、最大事後
確率推定法により、話者適応化された重回帰写像モデル
に基づく平均ベクトルの変換のための変換行列と定数項
ベクトルを含む第3の変換係数を演算する第5の演算手
段と、 上記第5の演算手段によって演算された変換行列と定数
項ベクトルを含む第3の変換係数に対して、所定の線形
変換処理を実行することにより、話者適応化後の隠れマ
ルコフモデルの平均ベクトルを演算する第6の演算手段
とを備えたことを特徴とする話者適応化装置。 - 【請求項3】 請求項1記載の話者正規化装置の第3の
演算手段によって演算された隠れマルコフモデルを用い
て、入力された発声音声文の音声信号に基づいて、音声
認識して音声認識結果を出力する音声認識手段とを備え
たことを特徴とする音声認識装置。 - 【請求項4】 請求項2記載の話者適応化装置の第6の
演算手段によって演算された隠れマルコフモデルの平均
ベクトルを含む隠れマルコフモデルを用いて、入力され
た発声音声文の音声信号に基づいて、音声認識して音声
認識結果を出力する音声認識手段とを備えたことを特徴
とする音声認識装置。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
JP9054596A JP3035239B2 (ja) | 1997-03-10 | 1997-03-10 | 話者正規化装置、話者適応化装置及び音声認識装置 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
JP9054596A JP3035239B2 (ja) | 1997-03-10 | 1997-03-10 | 話者正規化装置、話者適応化装置及び音声認識装置 |
Publications (2)
Publication Number | Publication Date |
---|---|
JPH10254485A JPH10254485A (ja) | 1998-09-25 |
JP3035239B2 true JP3035239B2 (ja) | 2000-04-24 |
Family
ID=12975124
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
JP9054596A Expired - Fee Related JP3035239B2 (ja) | 1997-03-10 | 1997-03-10 | 話者正規化装置、話者適応化装置及び音声認識装置 |
Country Status (1)
Country | Link |
---|---|
JP (1) | JP3035239B2 (ja) |
Cited By (1)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
JP3088357B2 (ja) | 1997-09-08 | 2000-09-18 | 株式会社エイ・ティ・アール音声翻訳通信研究所 | 不特定話者音響モデル生成装置及び音声認識装置 |
Families Citing this family (2)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
JP2002366187A (ja) * | 2001-06-08 | 2002-12-20 | Sony Corp | 音声認識装置および音声認識方法、並びにプログラムおよび記録媒体 |
CN111462762B (zh) * | 2020-03-25 | 2023-02-24 | 清华大学 | 一种说话人向量正则化方法、装置、电子设备和存储介质 |
-
1997
- 1997-03-10 JP JP9054596A patent/JP3035239B2/ja not_active Expired - Fee Related
Non-Patent Citations (14)
Title |
---|
Proceedings of 1981 IEEE International Conference on Acoustics,Speech and Signal Processing Vol.1/3,"Speaker Identification and Verification Combined with Speaker Independent Word Recognition"p.184−187 |
Proceedings of 1995 IEEE International Conference on Acoustics,Speech and Signal Processing,Vol.1"Speaker Adaptation based on Spectral Normal ization and Dynamic HMM Parameter adaptaion"p.704−707 |
Proceedings of 1996 IEEE International Conference on Acoustics,Speech and Signal Procesing Vol.2,"Normalized Discriminant Analysis with Application to a Hybrid Speaker−Verification System"p.681−684 |
Proceedings of 1996 IEEE International Conference on Acoustics,Speech and Signal Processing Vol.1,"Speaker Background Models for Connected Digit Password Speker Verification"p.81−84 |
Proceedings of 1996 IEEE International Conference on Spoken Language Processing,"Compact Model for Speaker−Adaptive Training",p.1137−1140,1996 |
Proceedings of 1996 IEEE International Conference on Spoken Language Processing,"Novel Training Method for Classifiers used in Speaker Adaptation",p.2119−2122,1996 |
Proceedings of 1997 IEEE International Conference on Acoustics,Speech and Signal Processing Vol.2,"Speaker−Adapted Training on the Switchboard Corpus"p.1059−1062 |
Proceedings of 1997 IEEE International Conference on Acoustics,Speech and Signal Processing Vol.2,"Speaker−Adaptive Training:A Maximum Likelihood Approach to Speaker Normalization"p.1043−1046 |
日本音響学会平成7年度春季研究発表会講演論文集▲I▼ 2−5−6「MAP−VFS話者適応法における平滑化係数制御の効果」p.41−42(平成7年3月) |
日本音響学会平成7年度秋季研究発表会講演論文集▲I▼ 3−2−9「状態別話者クラスタリングを用いた不特定話者モデルの検討」p.123−124(平成7年9月) |
日本音響学会平成8年度春季研究発表会講演論文集▲I▼ 1−5−22「制限付き重回帰モデルによる話者適応の検討」p.51−52(平成8年3月26日発行) |
日本音響学会平成8年度秋季研究発表会講演論文集▲I▼ 3−3−17「重回帰モデルに基づく話者適応方式の検討」p.119−120(平成8年9月25日) |
日本音響学会平成9年度春季研究発表会講演論文集▲I▼ 2−6−16「重回帰モデルを用いた話者適応のための話者正規化方式」p.75−76(平成9年3月17日) |
電子情報通信学会技術研究報告[音声]Vol.94 No.271 SP94−51「最大事後確率推定法と移動ベクトル場平滑法を統合した話者適応方式」p.25−30(1994/10/13) |
Cited By (1)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
JP3088357B2 (ja) | 1997-09-08 | 2000-09-18 | 株式会社エイ・ティ・アール音声翻訳通信研究所 | 不特定話者音響モデル生成装置及び音声認識装置 |
Also Published As
Publication number | Publication date |
---|---|
JPH10254485A (ja) | 1998-09-25 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
US11450332B2 (en) | Audio conversion learning device, audio conversion device, method, and program | |
JP2965537B2 (ja) | 話者クラスタリング処理装置及び音声認識装置 | |
JP3933750B2 (ja) | 連続密度ヒドンマルコフモデルを用いた音声認識方法及び装置 | |
JP2986792B2 (ja) | 話者正規化処理装置及び音声認識装置 | |
US6542866B1 (en) | Speech recognition method and apparatus utilizing multiple feature streams | |
EP2888669B1 (en) | Method and system for selectively biased linear discriminant analysis in automatic speech recognition systems | |
Kadyan et al. | A comparative study of deep neural network based Punjabi-ASR system | |
EP1701337B1 (en) | Method of speech recognition | |
JP3088357B2 (ja) | 不特定話者音響モデル生成装置及び音声認識装置 | |
Robinson | The 1994 ABBOT hybrid connectionist-HMM large-vocabulary recognition system | |
JP3027544B2 (ja) | 統計的言語モデル生成装置及び音声認識装置 | |
Cui et al. | Stereo hidden Markov modeling for noise robust speech recognition | |
JP3035239B2 (ja) | 話者正規化装置、話者適応化装置及び音声認識装置 | |
JP2938866B1 (ja) | 統計的言語モデル生成装置及び音声認識装置 | |
JP3088364B2 (ja) | 音声言語理解装置及び音声言語理解システム | |
JP2905674B2 (ja) | 不特定話者連続音声認識方法 | |
JP2852210B2 (ja) | 不特定話者モデル作成装置及び音声認識装置 | |
US6275799B1 (en) | Reference pattern learning system | |
Young | Acoustic modelling for large vocabulary continuous speech recognition | |
JPH08110792A (ja) | 話者適応化装置及び音声認識装置 | |
JP3439700B2 (ja) | 音響モデル学習装置、音響モデル変換装置及び音声認識装置 | |
JP3029803B2 (ja) | 音声認識のための単語モデル生成装置及び音声認識装置 | |
JP2888781B2 (ja) | 話者適応化装置及び音声認識装置 | |
Kaur et al. | Speech based retrieval system for Punjabi language | |
JPH08123468A (ja) | 不特定話者モデル作成装置及び音声認識装置 |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
FPAY | Renewal fee payment (event date is renewal date of database) |
Free format text: PAYMENT UNTIL: 20090218 Year of fee payment: 9 |
|
FPAY | Renewal fee payment (event date is renewal date of database) |
Free format text: PAYMENT UNTIL: 20100218 Year of fee payment: 10 |
|
FPAY | Renewal fee payment (event date is renewal date of database) |
Free format text: PAYMENT UNTIL: 20110218 Year of fee payment: 11 |
|
FPAY | Renewal fee payment (event date is renewal date of database) |
Free format text: PAYMENT UNTIL: 20120218 Year of fee payment: 12 |
|
FPAY | Renewal fee payment (event date is renewal date of database) |
Free format text: PAYMENT UNTIL: 20130218 Year of fee payment: 13 |
|
FPAY | Renewal fee payment (event date is renewal date of database) |
Free format text: PAYMENT UNTIL: 20140218 Year of fee payment: 14 |
|
R250 | Receipt of annual fees |
Free format text: JAPANESE INTERMEDIATE CODE: R250 |
|
LAPS | Cancellation because of no payment of annual fees |