JPH09114483A - Hmmの学習装置 - Google Patents
Hmmの学習装置Info
- Publication number
- JPH09114483A JPH09114483A JP7274225A JP27422595A JPH09114483A JP H09114483 A JPH09114483 A JP H09114483A JP 7274225 A JP7274225 A JP 7274225A JP 27422595 A JP27422595 A JP 27422595A JP H09114483 A JPH09114483 A JP H09114483A
- Authority
- JP
- Japan
- Prior art keywords
- speaker
- subspace
- movement vector
- representative
- vector
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Granted
Links
- 239000013598 vector Substances 0.000 claims abstract description 377
- 230000006978 adaptation Effects 0.000 claims abstract description 35
- 230000001419 dependent effect Effects 0.000 claims description 35
- 238000004364 calculation method Methods 0.000 abstract description 40
- 230000007704 transition Effects 0.000 abstract description 12
- 238000010276 construction Methods 0.000 description 13
- 238000010586 diagram Methods 0.000 description 13
- 238000009826 distribution Methods 0.000 description 13
- 230000006870 function Effects 0.000 description 9
- 238000000034 method Methods 0.000 description 9
- 239000000470 constituent Substances 0.000 description 3
- 230000000694 effects Effects 0.000 description 3
- 230000003044 adaptive effect Effects 0.000 description 1
- 230000001667 episodic effect Effects 0.000 description 1
- 239000000138 intercalating agent Substances 0.000 description 1
- 239000000463 material Substances 0.000 description 1
- 238000010187 selection method Methods 0.000 description 1
- 230000001568 sexual effect Effects 0.000 description 1
Abstract
(57)【要約】
【課題】 代表話者から最も入力話者の話者部分空間移
動ベクトルに近い代表話者の話者部分空間移動ベクトル
をモデル学習のために使用するHMM学習装置では、不
特定多数の入力話者の音声特徴をカバーする為に、多数
の代表話者の話者部分空間移動ベクトルを記憶しておか
なければならなず、記憶容量の増加および、多数の代表
話者の話者部分空間移動ベクトルを計算するために多数
の人の音声を収集しなければならない。 【解決手段】 複数の代表話者の話者部分空間移動ベク
トルvi,s,m nのあらゆる組み合わせに対応して計算さ
れる内挿話者の話者部分空間移動ベクトルvi,s,m
inter(p)の内、最も類似性が高い話者部分空間移動ベク
トルを選択し、該話者部分空間移動ベクトルvi,s,m
inter(spno)と入力話者のHMMの平均ベクトル
μi,s,m inpを用いることによりHMMを学習すること
を特徴とする。
動ベクトルに近い代表話者の話者部分空間移動ベクトル
をモデル学習のために使用するHMM学習装置では、不
特定多数の入力話者の音声特徴をカバーする為に、多数
の代表話者の話者部分空間移動ベクトルを記憶しておか
なければならなず、記憶容量の増加および、多数の代表
話者の話者部分空間移動ベクトルを計算するために多数
の人の音声を収集しなければならない。 【解決手段】 複数の代表話者の話者部分空間移動ベク
トルvi,s,m nのあらゆる組み合わせに対応して計算さ
れる内挿話者の話者部分空間移動ベクトルvi,s,m
inter(p)の内、最も類似性が高い話者部分空間移動ベク
トルを選択し、該話者部分空間移動ベクトルvi,s,m
inter(spno)と入力話者のHMMの平均ベクトル
μi,s,m inpを用いることによりHMMを学習すること
を特徴とする。
Description
【0001】
【発明の属する技術分野】本発明は、音声の統計的特徴
をガウス分布等の分布により近似的に表現する確率モデ
ルであるHidden Markov Model(以
下、「HMM」という。)の学習装置に関する。
をガウス分布等の分布により近似的に表現する確率モデ
ルであるHidden Markov Model(以
下、「HMM」という。)の学習装置に関する。
【0002】
【従来の技術】近年、HMMを用いた音声認識装置の開
発が盛んに行われている。このHMMは大量の音声デー
タから得られる音声の統計的特徴をモデル化したもので
あり、このモデルは、(1)発声の揺らぎを分布という
形で統計的に処理できる、(2)話者による発声時間長
の違いを吸収できる、といった利点を備えている。
発が盛んに行われている。このHMMは大量の音声デー
タから得られる音声の統計的特徴をモデル化したもので
あり、このモデルは、(1)発声の揺らぎを分布という
形で統計的に処理できる、(2)話者による発声時間長
の違いを吸収できる、といった利点を備えている。
【0003】これらの利点を備えた音素HMMを用いて
単語の音声認識を行なう場合を例に挙げて説明する。
単語の音声認識を行なう場合を例に挙げて説明する。
【0004】一般的に、単語はそれより小さい単位、例
えば音素が繋ぎ合わさって成立しているように、音素単
位でHMMを作成しておくと、その音素HMMの連結に
より任意の単語に対する単語認識を行なうことができ
る。
えば音素が繋ぎ合わさって成立しているように、音素単
位でHMMを作成しておくと、その音素HMMの連結に
より任意の単語に対する単語認識を行なうことができ
る。
【0005】例えば、辞書に登録されている認識対象が
「うちけす(U/CH/I/K/E/S/U)」、「う
ちあわせ(U/CH/I/A/W/A/S/E)」及び
「うる(U/R/U)」の3単語である場合、作成する
必要がある音素HMMは辞書中に出現する「U/CH/
I/K/E/S/A/W/R」の9種類のみでよい。
「うちけす(U/CH/I/K/E/S/U)」、「う
ちあわせ(U/CH/I/A/W/A/S/E)」及び
「うる(U/R/U)」の3単語である場合、作成する
必要がある音素HMMは辞書中に出現する「U/CH/
I/K/E/S/A/W/R」の9種類のみでよい。
【0006】したがって、単語認識に際しては、音素H
MMを連結することにより辞書内に存在する単語に対応
する単語HMMを作成し、入力音声(単語)と近いもの
を確率的尤度(確からしさ)として得ることができるよ
うな構成をとる。
MMを連結することにより辞書内に存在する単語に対応
する単語HMMを作成し、入力音声(単語)と近いもの
を確率的尤度(確からしさ)として得ることができるよ
うな構成をとる。
【0007】このように、予め話者の音声情報を学習し
て音素HMMを作成しておくことによって、入力音声が
単語の場合であっても認識することが可能である。
て音素HMMを作成しておくことによって、入力音声が
単語の場合であっても認識することが可能である。
【0008】ところで、斯かる音素HMMは、一般的に
数百語の学習用単語等を用いて作成される。しかし、使
用者に数百語もの単語を発声させるのは、使用者の負担
を考えると現実的ではない。かかる点を回避するために
少数の学習単語を用いて音素HMMを使用者の音声特徴
にチューニングする方法として話者適応法があり、本発
明者は日本音響学会平成6年度秋季研究発表会講演論文
集Ipp.81〜82に於いて話者適応法を発表してい
る。
数百語の学習用単語等を用いて作成される。しかし、使
用者に数百語もの単語を発声させるのは、使用者の負担
を考えると現実的ではない。かかる点を回避するために
少数の学習単語を用いて音素HMMを使用者の音声特徴
にチューニングする方法として話者適応法があり、本発
明者は日本音響学会平成6年度秋季研究発表会講演論文
集Ipp.81〜82に於いて話者適応法を発表してい
る。
【0009】一般的にHMMでは、音声の特徴をガウス
分布のような確率密度関数で表現するものである。例え
ば、16チャネルの帯域フィルタ等で音声を分析した場
合は、各々のチャネルに対応して1つのガウス分布が求
められる。ここで、斯かる16個のガウス分布を1つの
コンポーネントと見做すことにより、このコンポーネン
トに含まれる16個の各々のガウス分布の平均値をベク
トルとして表現でき、以下斯かるベクトルを平均ベクト
ルという。
分布のような確率密度関数で表現するものである。例え
ば、16チャネルの帯域フィルタ等で音声を分析した場
合は、各々のチャネルに対応して1つのガウス分布が求
められる。ここで、斯かる16個のガウス分布を1つの
コンポーネントと見做すことにより、このコンポーネン
トに含まれる16個の各々のガウス分布の平均値をベク
トルとして表現でき、以下斯かるベクトルを平均ベクト
ルという。
【0010】ところで、図6は本発明者が上記日本音響
学会平成6年度秋季研究発表会講演論文集Ipp.81
〜82に於いて発表したHMMの話者適応に基づくHM
Mの学習装置の概略構成図である。
学会平成6年度秋季研究発表会講演論文集Ipp.81
〜82に於いて発表したHMMの話者適応に基づくHM
Mの学習装置の概略構成図である。
【0011】図6において、1は入力音声の特徴を周波
数帯域毎に分析する音声分析部、2は学習することによ
りHMMの初期モデルを記憶する初期モデル記憶部であ
り、斯かる初期モデルは特定の話者の音声を用いて作成
した特定話者のHMMでも良いし、多数の話者の音声を
用いて学習した不特定話者のHMMでも良い。具体的な
学習方法としては、周知のフォワードバックワードアル
ゴリズムやビタビアライメントに基づく学習則等を用い
ればよい。
数帯域毎に分析する音声分析部、2は学習することによ
りHMMの初期モデルを記憶する初期モデル記憶部であ
り、斯かる初期モデルは特定の話者の音声を用いて作成
した特定話者のHMMでも良いし、多数の話者の音声を
用いて学習した不特定話者のHMMでも良い。具体的な
学習方法としては、周知のフォワードバックワードアル
ゴリズムやビタビアライメントに基づく学習則等を用い
ればよい。
【0012】3は、上述の初期モデルを入力音声を用い
て再学習する学習部であり、この学習部3では、HMM
を表すパラメータの内、平均ベクトルのみを学習するも
のとする。
て再学習する学習部であり、この学習部3では、HMM
を表すパラメータの内、平均ベクトルのみを学習するも
のとする。
【0013】4は学習部3において再学習したHMMを
より高精度なモデルにするための話者適応部である。
より高精度なモデルにするための話者適応部である。
【0014】5は話者適応部4にて用いる代表話者の話
者部分空間移動ベクトルを計算するための代表話者の話
者部分空間移動ベクトル計算部である。
者部分空間移動ベクトルを計算するための代表話者の話
者部分空間移動ベクトル計算部である。
【0015】6は代表話者の話者部分空間移動ベクトル
計算部5に於いて計算された値を記憶しておく代表話者
の話者部分空間移動ベクトル記憶部である。
計算部5に於いて計算された値を記憶しておく代表話者
の話者部分空間移動ベクトル記憶部である。
【0016】7は話者適応を行ったHMMのパラメータ
とその他のパラメータから適応後モデルを作成する適応
後モデル作成部である。
とその他のパラメータから適応後モデルを作成する適応
後モデル作成部である。
【0017】8は話者適応部4にて適応化を行った後の
HMMを記憶しておく適応後モデル記憶部である。
HMMを記憶しておく適応後モデル記憶部である。
【0018】上述が従来のHMMの学習装置の構成であ
り、以下に各部の処理について説明する。
り、以下に各部の処理について説明する。
【0019】代表話者の話者部分空間移動ベクトル計算
部5は、複数の代表話者の話者部分空間移動ベクトルを
求める機能を有する。ここで、話者部分空間移動ベクト
ルとは、初期モデルと斯かる初期モデルを再学習した後
のHMMのガウス分布の平均ベクトルの差分を用いて求
められるものであり、以下のステップで話者部分空間移
動ベクトルを求めることができる。
部5は、複数の代表話者の話者部分空間移動ベクトルを
求める機能を有する。ここで、話者部分空間移動ベクト
ルとは、初期モデルと斯かる初期モデルを再学習した後
のHMMのガウス分布の平均ベクトルの差分を用いて求
められるものであり、以下のステップで話者部分空間移
動ベクトルを求めることができる。
【0020】ステップ1;初期モデル記憶部2に記憶さ
れている初期モデル(λ)を各代表話者の音素HMMの
初期モデルとする。
れている初期モデル(λ)を各代表話者の音素HMMの
初期モデルとする。
【0021】λ={λ1,・・・,λi,・・・,λI} ここで、Iは音素HMMの番号を示している。たとえば
39個の音素HMMを用いている場合、I=39であ
る。また、λiはi番目の音素HMMを示している。
39個の音素HMMを用いている場合、I=39であ
る。また、λiはi番目の音素HMMを示している。
【0022】また、λiはλi={wi,s,m,ai,s1,
s2,μi,s,m,σi,s,m 2}で表される。
s2,μi,s,m,σi,s,m 2}で表される。
【0023】尚、wi,s,m、μi,s,m、及びσi,s,
m 2はi番目の音素HMMの第s状態のm番目のガウス分
布に関する重み、平均ベクトル、分散値のベクトルを夫
々表している。ai,s1,s2はi番目の音素HMMの第
s1状態から第s2状態への遷移確率を示しており、た
とえば特徴量として33次元ベクトルを用いる場合、μ
i,s,m、σi,s,m 2は33次元のベクトルとなる。
m 2はi番目の音素HMMの第s状態のm番目のガウス分
布に関する重み、平均ベクトル、分散値のベクトルを夫
々表している。ai,s1,s2はi番目の音素HMMの第
s1状態から第s2状態への遷移確率を示しており、た
とえば特徴量として33次元ベクトルを用いる場合、μ
i,s,m、σi,s,m 2は33次元のベクトルとなる。
【0024】ここで、初期モデルとしては、特定話者モ
デルや不特定話者モデルを用いる。
デルや不特定話者モデルを用いる。
【0025】ステップ2;代表話者の入力音声の音素系
列に対応するように代表話者のHMMを連結し学習を行
なう。学習はwi,s,m及びμi,s,mのみ行ないn番目
の代表話者モデルとしてλi n={wi n,s,m,
ai,s1,s2,μi n,s,m,σi,s,m 2}を得る。ここ
で、nは代表話者の番号を表し、n=1,2,・・・・・,
Nであり、たとえば10名の代表話者を用いた場合はN
=10となる。
列に対応するように代表話者のHMMを連結し学習を行
なう。学習はwi,s,m及びμi,s,mのみ行ないn番目
の代表話者モデルとしてλi n={wi n,s,m,
ai,s1,s2,μi n,s,m,σi,s,m 2}を得る。ここ
で、nは代表話者の番号を表し、n=1,2,・・・・・,
Nであり、たとえば10名の代表話者を用いた場合はN
=10となる。
【0026】ステップ3;各代表話者について、平均値
の差分ti,s,m nを求める。
の差分ti,s,m nを求める。
【0027】∀i,s,m∈Ω ti,s,m n = μi,s,
m n−μi,s,m (n=1,2,・・・・・,N) ここで、Ωはλに含まれる平均ベクトルμi,s,mの添
字i,s,mの組を表す。
m n−μi,s,m (n=1,2,・・・・・,N) ここで、Ωはλに含まれる平均ベクトルμi,s,mの添
字i,s,mの組を表す。
【0028】ステップ4;数1に従い、代表話者の話者
部分空間移動ベクトルvi,s,m nを求める。ここでは、
μi,s,mの距離的に近くにあるK個の平均ベクトルを
用いて、部分空間毎に話者部分空間移動ベクトルを求め
るものとする。
部分空間移動ベクトルvi,s,m nを求める。ここでは、
μi,s,mの距離的に近くにあるK個の平均ベクトルを
用いて、部分空間毎に話者部分空間移動ベクトルを求め
るものとする。
【0029】
【数1】
【0030】ここで、Ki,s,mはμi,s,mの近傍にあ
るK個の平均ベクトルに関する添字の組である。また、
D(a,b)はベクトルa,b間の距離を表す。fはフ
ァジネスと呼ばれるファジイ級関数の値を制御する変数
である。また、ファジイ級関数以外に三角窓や矩形窓、
ガウス分布等の関数等を用いることも可能である。
るK個の平均ベクトルに関する添字の組である。また、
D(a,b)はベクトルa,b間の距離を表す。fはフ
ァジネスと呼ばれるファジイ級関数の値を制御する変数
である。また、ファジイ級関数以外に三角窓や矩形窓、
ガウス分布等の関数等を用いることも可能である。
【0031】一方、ti,s,m nを代表話者の話者部分空
間移動ベクトルとしてもよい。
間移動ベクトルとしてもよい。
【0032】また、学習は{wi,s,m,ai,s1,s2,
μi,s,m,σi,s,m 2}のうち、少なくともμi,s,m
を含むように学習すれば良い。当然、{wi,s,m,
ai,s 1,s2,μi,s,m,σi,s,m 2}の全てを学習し
ても良い。
μi,s,m,σi,s,m 2}のうち、少なくともμi,s,m
を含むように学習すれば良い。当然、{wi,s,m,
ai,s 1,s2,μi,s,m,σi,s,m 2}の全てを学習し
ても良い。
【0033】上述のステップに従い計算した複数の代表
話者の話者部分空間移動ベクトルv i,s,m nを代表話
者の話者部分空間移動ベクトル記憶部6に記憶する。
話者の話者部分空間移動ベクトルv i,s,m nを代表話
者の話者部分空間移動ベクトル記憶部6に記憶する。
【0034】次に、入力話者の適応後モデルの作成方法
を図7に従い説明する。
を図7に従い説明する。
【0035】入力話者のモデル学習用音声は、音声分析
部1により分析される。該分析結果を用いて学習部3に
より初期モデルの学習を行う。
部1により分析される。該分析結果を用いて学習部3に
より初期モデルの学習を行う。
【0036】初期モデルの学習;初期モデル記憶部2に
記憶されている初期モデル(λ)を入力話者の音素HM
Mの初期モデルとする。
記憶されている初期モデル(λ)を入力話者の音素HM
Mの初期モデルとする。
【0037】λ={λ1,・・・,λi,・・・,λI} また、λiはλi={wi,s,m,ai,s1,s2,μi,s,
m,σi,s,m 2}で表される。
m,σi,s,m 2}で表される。
【0038】次に入力話者の入力音声の音素系列に対応
するように入力話者のHMMを連結し学習を行なう。学
習はμi,s,mのみ行ない学習後のモデルとしてλi inp
={wi,s,m,ai,s1,s2,μi inp,s,m,σi,s,
m 2}を得る。
するように入力話者のHMMを連結し学習を行なう。学
習はμi,s,mのみ行ない学習後のモデルとしてλi inp
={wi,s,m,ai,s1,s2,μi inp,s,m,σi,s,
m 2}を得る。
【0039】次に学習部3により学習されたモデルに基
づいて、入力話者の話者部分空間移動ベクトルvi,s,
m inpを以下のステップで求める。尚、ここで、inpは
入力話者を表している。
づいて、入力話者の話者部分空間移動ベクトルvi,s,
m inpを以下のステップで求める。尚、ここで、inpは
入力話者を表している。
【0040】ステップ1;平均値の差分ti,s,m inpを
算出する。
算出する。
【0041】
【数2】
【0042】ステップ2;数3に従い、入力話者部分空
間移動ベクトルvi,s,m inpを求める。
間移動ベクトルvi,s,m inpを求める。
【0043】
【数3】
【0044】ここで、Eは学習音声資料中に現れた音素
に対応した音素HMMの平均ベクトルの添字の組を表
す。
に対応した音素HMMの平均ベクトルの添字の組を表
す。
【0045】入力話者の話者部分空間移動ベクトル記憶
部4bは入力話者の話者部分空間移動ベクトル計算部4
aで算出した入力話者部分空間移動ベクトルvi,s,m
inpを記憶する。
部4bは入力話者の話者部分空間移動ベクトル計算部4
aで算出した入力話者部分空間移動ベクトルvi,s,m
inpを記憶する。
【0046】音素HMMの各コンポーネントの分岐確率
を考慮して、入力話者部分空間移動ベクトルvi,s,m
inpと距離的に近い代表話者の部分空間移動ベクトル
vi,s, m nをもつ代表話者の番号(spno)、及びこ
の代表話者の番号(spno)を有する代表話者の部分
空間移動ベクトルvi,s,m spnoを数4に従い、代表話
者選択部4cにて選択する。
を考慮して、入力話者部分空間移動ベクトルvi,s,m
inpと距離的に近い代表話者の部分空間移動ベクトル
vi,s, m nをもつ代表話者の番号(spno)、及びこ
の代表話者の番号(spno)を有する代表話者の部分
空間移動ベクトルvi,s,m spnoを数4に従い、代表話
者選択部4cにて選択する。
【0047】
【数4】
【0048】話者適応後モデル構築部4dでは、代表話
者選択部4cにて得られた代表話者の話者部分空間移動
ベクトルvi,s,m spno、入力話者の話者部分空間移動
ベクトルvi,s,m inp、及び初期モデルの平均ベクトル
μi,s,mを用いて、数5に従い、話者適応後の平均ベ
クトルμi,s,m adaptを求める。
者選択部4cにて得られた代表話者の話者部分空間移動
ベクトルvi,s,m spno、入力話者の話者部分空間移動
ベクトルvi,s,m inp、及び初期モデルの平均ベクトル
μi,s,mを用いて、数5に従い、話者適応後の平均ベ
クトルμi,s,m adaptを求める。
【0049】
【数5】
【0050】適応後モデル作成部7では、話者適応後モ
デル構築部4dで構築された話者適応後の平均ベクトル
μi,s,m inp、並びに初期モデル記憶部2に記憶されて
いる初期モデルのガウス分布に関する重みwi,s,m、
遷移確率ai,s1,s2及び分散値ベクトルσi,s,m 2又
は入力話者のガウス分布に関する重みwi,s,m inp、遷
移確率ai,s1,s2 inp及び分散値ベクトルσi,s,m inp
又は代表話者の話者空間移動ベクトル記憶部6に記憶さ
れているガウス分布に関する重みwi,s,m spno、遷移
確率ai,s1,s2 spno及び分散値ベクトル(σi,s,m
spno)2を用いて、適応後のモデルを作成する。
デル構築部4dで構築された話者適応後の平均ベクトル
μi,s,m inp、並びに初期モデル記憶部2に記憶されて
いる初期モデルのガウス分布に関する重みwi,s,m、
遷移確率ai,s1,s2及び分散値ベクトルσi,s,m 2又
は入力話者のガウス分布に関する重みwi,s,m inp、遷
移確率ai,s1,s2 inp及び分散値ベクトルσi,s,m inp
又は代表話者の話者空間移動ベクトル記憶部6に記憶さ
れているガウス分布に関する重みwi,s,m spno、遷移
確率ai,s1,s2 spno及び分散値ベクトル(σi,s,m
spno)2を用いて、適応後のモデルを作成する。
【0051】最後に、適応後モデル作成部7で作成され
た適応後モデルを適応後モデル記憶部8に記憶する。
た適応後モデルを適応後モデル記憶部8に記憶する。
【0052】
【発明が解決しようとする課題】然し乍ら、上述の如
く、従来のHMMの作成においては、以下に示す課題が
あった。
く、従来のHMMの作成においては、以下に示す課題が
あった。
【0053】従来のHMMの作成においては、代表話者
の話者部分空間移動ベクトル記憶部6に記憶されている
代表話者から最も入力話者の話者部分空間移動ベクトル
に近い代表話者の話者部分空間移動ベクトルをモデル学
習のために使用しており、不特定多数の入力話者の音声
特徴をカバーする為には、多数の代表話者の話者部分空
間移動ベクトルを代表話者の話者部分空間移動ベクトル
記憶部6に記憶しておかなければならなかった。
の話者部分空間移動ベクトル記憶部6に記憶されている
代表話者から最も入力話者の話者部分空間移動ベクトル
に近い代表話者の話者部分空間移動ベクトルをモデル学
習のために使用しており、不特定多数の入力話者の音声
特徴をカバーする為には、多数の代表話者の話者部分空
間移動ベクトルを代表話者の話者部分空間移動ベクトル
記憶部6に記憶しておかなければならなかった。
【0054】つまり、多数の代表話者の話者部分空間移
動ベクトルを用いることは、記憶容量の増加を招き、更
には、多数の代表話者の話者部分空間移動ベクトルを計
算するために、多数の人の音声を収集しなければならな
いという問題点がある。
動ベクトルを用いることは、記憶容量の増加を招き、更
には、多数の代表話者の話者部分空間移動ベクトルを計
算するために、多数の人の音声を収集しなければならな
いという問題点がある。
【0055】また、代表話者の話者部分空間移動ベクト
ルは、認識モデルが十分に学習できるだけの音声を用い
て学習するため、偏りの少ないベクトルであるが、これ
に対して、少数のモデル学習用音声から得られた入力話
者の話者部分空間移動ベクトルは、モデル学習用音声の
特徴に依存したものである。例えば、学習用音声が”ア
カイ”という言葉だけであった場合、”アカイ”という
学習用発声に含まれる特徴のみが学習されることにな
る。
ルは、認識モデルが十分に学習できるだけの音声を用い
て学習するため、偏りの少ないベクトルであるが、これ
に対して、少数のモデル学習用音声から得られた入力話
者の話者部分空間移動ベクトルは、モデル学習用音声の
特徴に依存したものである。例えば、学習用音声が”ア
カイ”という言葉だけであった場合、”アカイ”という
学習用発声に含まれる特徴のみが学習されることにな
る。
【0056】つまり、”ウ”や”エ”といった”アカ
イ”という学習用発声に含まれない音声の特徴が存在せ
ず、学習単語の内容に偏った話者部分空間移動ベクトル
となる。
イ”という学習用発声に含まれない音声の特徴が存在せ
ず、学習単語の内容に偏った話者部分空間移動ベクトル
となる。
【0057】このような十分な音声を用いて学習された
偏りの少ない代表話者の話者部分空間移動ベクトルと、
学習用音声の特徴に依存した入力話者の話者部分空間移
動ベクトルの間の類似性に基づく従来の代表話者選択法
では、高精度な話者選択を行うことは難しかった。
偏りの少ない代表話者の話者部分空間移動ベクトルと、
学習用音声の特徴に依存した入力話者の話者部分空間移
動ベクトルの間の類似性に基づく従来の代表話者選択法
では、高精度な話者選択を行うことは難しかった。
【0058】
【課題を解決するための手段】そこで、本発明は上述の
問題点に鑑み為されたものであり、複数の代表話者の話
者部分空間移動ベクトルvi,s,m nのあらゆる組み合わ
せに対応して計算される内挿話者の話者部分空間移動ベ
クトルvi,s,m inter(p)の中から、入力話者の話者部
分空間移動ベクトルvi,s,m inpと最も類似性が高い話
者部分空間移動ベクトルを選択し、該話者部分空間移動
ベクトルvi,s,m inter(spno)と入力話者の話者部分空
間移動ベクトルvi,s,m inpおよび入力話者のHMMの
平均ベクトルμi,s,m inpを用いることによりHMMを
学習することを特徴とする。
問題点に鑑み為されたものであり、複数の代表話者の話
者部分空間移動ベクトルvi,s,m nのあらゆる組み合わ
せに対応して計算される内挿話者の話者部分空間移動ベ
クトルvi,s,m inter(p)の中から、入力話者の話者部
分空間移動ベクトルvi,s,m inpと最も類似性が高い話
者部分空間移動ベクトルを選択し、該話者部分空間移動
ベクトルvi,s,m inter(spno)と入力話者の話者部分空
間移動ベクトルvi,s,m inpおよび入力話者のHMMの
平均ベクトルμi,s,m inpを用いることによりHMMを
学習することを特徴とする。
【0059】更に、本発明は入力音声の特徴を分析する
音声分析部(1)と、HMMの初期モデルを記憶する初期
モデル記憶部(2)と、上記音声分析部(1)において入力話
者の音声を分析した結果を用いて初期モデル記憶部(2)
に記憶されたHMMを学習する学習部(3)と、該学習部
(3)において学習された入力話者のHMMの平均ベクト
ルμi,s,m inpと初期モデル記憶部(2)に記憶されてい
るHMMの平均ベクトルμi,s,mの差分から求められ
る差分ベクトルを用いて計算される入力話者の話者部分
空間移動ベクトルvi,s,m inpを計算する入力話者の話
者部分空間移動ベクトル計算部(4a)と、該入力話者の話
者部分空間移動ベクトル計算部(4a)にて求められた入力
話者の話者部分空間移動ベクトルvi,s,m inpを記憶す
る入力話者の話者部分空間移動ベクトル記憶部(4b)と、
代表話者の話者部分空間移動ベクトルvi,s,m nを記憶
する代表話者の話者部分空間移動ベクトル記憶部(6)
と、該代表話者の話者部分空間移動ベクトル記憶部(6)
に記憶されたN名(Nは1以上の整数)の代表話者の話
者部分空間移動ベクトルvi,s,m nから話者内挿のため
にP名のあらゆる組み合わせをもとめる内挿話者候補選
択部(9a)と、内挿話者候補選択部(9a)で選択された組み
合わせに基づいて話者を内挿し、内挿話者の話者部分空
間移動ベクトルvi,s,m inter(p)を計算する内挿話者
の話者部分空間移動ベクトル計算部(9b)と、計算した内
挿話者の話者部分空間移動ベクトルを記憶する内挿話者
の話者部分空間移動ベクトル記憶部(9c)と、入力話者の
話者部分空間移動ベクトル記憶部(4b)に記憶された入力
話者の話者部分空間移動ベクトルv i,s,m inpと類似性
の高い内挿話者の話者部分空間移動ベクトル記憶部(9c)
に記憶された内挿話者の話者部分空間移動ベクトル
vi,s,m inter(spno)を選択する代表話者選択部(4c)
と、該代表話者選択部(4c)にて得られた内挿話者の話者
部分空間移動ベクトルvi,s,m inter(spno)、入力話者
の話者部分空間移動ベクトルvi,s,m inp、及び初期モ
デルの平均ベクトルμi,s,mを用いて、話者適応後の
平均ベクトルμi,s,m adaptを求める話者適応後モデル
構築部(4d)と、を具備することを特徴とする。
音声分析部(1)と、HMMの初期モデルを記憶する初期
モデル記憶部(2)と、上記音声分析部(1)において入力話
者の音声を分析した結果を用いて初期モデル記憶部(2)
に記憶されたHMMを学習する学習部(3)と、該学習部
(3)において学習された入力話者のHMMの平均ベクト
ルμi,s,m inpと初期モデル記憶部(2)に記憶されてい
るHMMの平均ベクトルμi,s,mの差分から求められ
る差分ベクトルを用いて計算される入力話者の話者部分
空間移動ベクトルvi,s,m inpを計算する入力話者の話
者部分空間移動ベクトル計算部(4a)と、該入力話者の話
者部分空間移動ベクトル計算部(4a)にて求められた入力
話者の話者部分空間移動ベクトルvi,s,m inpを記憶す
る入力話者の話者部分空間移動ベクトル記憶部(4b)と、
代表話者の話者部分空間移動ベクトルvi,s,m nを記憶
する代表話者の話者部分空間移動ベクトル記憶部(6)
と、該代表話者の話者部分空間移動ベクトル記憶部(6)
に記憶されたN名(Nは1以上の整数)の代表話者の話
者部分空間移動ベクトルvi,s,m nから話者内挿のため
にP名のあらゆる組み合わせをもとめる内挿話者候補選
択部(9a)と、内挿話者候補選択部(9a)で選択された組み
合わせに基づいて話者を内挿し、内挿話者の話者部分空
間移動ベクトルvi,s,m inter(p)を計算する内挿話者
の話者部分空間移動ベクトル計算部(9b)と、計算した内
挿話者の話者部分空間移動ベクトルを記憶する内挿話者
の話者部分空間移動ベクトル記憶部(9c)と、入力話者の
話者部分空間移動ベクトル記憶部(4b)に記憶された入力
話者の話者部分空間移動ベクトルv i,s,m inpと類似性
の高い内挿話者の話者部分空間移動ベクトル記憶部(9c)
に記憶された内挿話者の話者部分空間移動ベクトル
vi,s,m inter(spno)を選択する代表話者選択部(4c)
と、該代表話者選択部(4c)にて得られた内挿話者の話者
部分空間移動ベクトルvi,s,m inter(spno)、入力話者
の話者部分空間移動ベクトルvi,s,m inp、及び初期モ
デルの平均ベクトルμi,s,mを用いて、話者適応後の
平均ベクトルμi,s,m adaptを求める話者適応後モデル
構築部(4d)と、を具備することを特徴とする。
【0060】本発明はN名の代表話者の話者部分空間移
動ベクトルvi,s,m nから、入力話者の話者部分空間移
動ベクトルvi,s,m inpと類似性の高い上位N’名
(N’≦N)の該代表話者の話者部分空間移動ベクトル
vi,s,m nを選択し、選択された代表話者の話者部分空
間移動ベクトルvi,s,m nの組み合わせに対応して計算
される内挿話者の話者部分空間移動ベクトルvi,s,m
inter(p)の中から、入力話者の話者部分空間移動ベクト
ルvi,s,m inpと最も類似性が高い話者部分空間移動ベ
クトルを選択し、該話者部分空間移動ベクトルvi,s,
m inter(spno)と入力話者の話者部分空間移動ベクトルv
i,s,m inpおよび入力話者のHMMの平均ベクトル
μi,s,m inpを用いることによりHMMを学習すること
を特徴とする。
動ベクトルvi,s,m nから、入力話者の話者部分空間移
動ベクトルvi,s,m inpと類似性の高い上位N’名
(N’≦N)の該代表話者の話者部分空間移動ベクトル
vi,s,m nを選択し、選択された代表話者の話者部分空
間移動ベクトルvi,s,m nの組み合わせに対応して計算
される内挿話者の話者部分空間移動ベクトルvi,s,m
inter(p)の中から、入力話者の話者部分空間移動ベクト
ルvi,s,m inpと最も類似性が高い話者部分空間移動ベ
クトルを選択し、該話者部分空間移動ベクトルvi,s,
m inter(spno)と入力話者の話者部分空間移動ベクトルv
i,s,m inpおよび入力話者のHMMの平均ベクトル
μi,s,m inpを用いることによりHMMを学習すること
を特徴とする。
【0061】本発明は入力音声の特徴を分析する音声分
析部(1)と、HMMの初期モデルを記憶する初期モデル
記憶部(2)と、上記音声分析部(1)において入力話者の音
声を分析した結果を用いて初期モデル記憶部(2)に記憶
されたHMMを学習する学習部(3)と、該学習部(3)にお
いて学習された入力話者のHMMの平均ベクトル
μi,s,m inpと初期モデル記憶部(2)に記憶されている
HMMの平均ベクトルμi,s,mの差分から求められる
差分ベクトルを用いて計算される入力話者の話者部分空
間移動ベクトルvi,s,m inpを計算する入力話者の話者
部分空間移動ベクトル計算部(4a)と、該入力話者の話者
部分空間移動ベクトル計算部(4a)にて求められた入力話
者の話者部分空間移動ベクトルvi,s,m inpを記憶する
入力話者の話者部分空間移動ベクトル記憶部(4b)と、代
表話者の話者部分空間移動ベクトルvi,s,m nを記憶す
る代表話者の話者部分空間移動ベクトル記憶部(6)と、
上記入力話者の話者部分空間移動ベクトル記憶部(4b)に
記憶された入力話者の話者部分空間移動ベクトル
vi,s,m inpと代表話者の話者部分空間移動ベクトルv
i,s,m n間の類似性を計算する類似性計算部(9d-1)と、
類似性計算部(9d-1)により算出された値に基づき類似性
の高いものから順に並べ記憶する上位内挿話者候補作成
部(9d-2)と、上位内挿話者候補作成部(9d-2)に記憶され
た順序に従って上位N’名(N’は1以上の整数)の代
表話者の話者部分空間移動ベクトルvi,s,m nから話者
を内挿し、内挿話者の話者部分空間移動ベクトル
vi,s,m inter(p)を計算する内挿話者の話者部分空間
移動ベクトル計算部(9b)と、計算した内挿話者の話者部
分空間移動ベクトルを記憶する内挿話者の話者部分空間
移動ベクトル記憶部(9c)と、入力話者の話者部分空間移
動ベクトル記憶部(4b)に記憶された入力話者の話者部分
空間移動ベクトルvi,s,m inpと類似性の高い内挿話者
の話者部分空間移動ベクトル記憶部(9c)に記憶された内
挿話者の話者部分空間移動ベクトルv i,s,m
inter(spno)を選択する代表話者選択部(4c)と、該代表
話者選択部(4c)にて得られた内挿話者の話者部分空間移
動ベクトルvi,s,m inter(spno)、入力話者の話者部分
空間移動ベクトルvi,s,m inp、及び初期モデルの平均
ベクトルμ i,s,mを用いて、話者適応後の平均ベクト
ルμi,s,m adaptを求める話者適応後モデル構築部(4d)
と、を具備することを特徴とする。
析部(1)と、HMMの初期モデルを記憶する初期モデル
記憶部(2)と、上記音声分析部(1)において入力話者の音
声を分析した結果を用いて初期モデル記憶部(2)に記憶
されたHMMを学習する学習部(3)と、該学習部(3)にお
いて学習された入力話者のHMMの平均ベクトル
μi,s,m inpと初期モデル記憶部(2)に記憶されている
HMMの平均ベクトルμi,s,mの差分から求められる
差分ベクトルを用いて計算される入力話者の話者部分空
間移動ベクトルvi,s,m inpを計算する入力話者の話者
部分空間移動ベクトル計算部(4a)と、該入力話者の話者
部分空間移動ベクトル計算部(4a)にて求められた入力話
者の話者部分空間移動ベクトルvi,s,m inpを記憶する
入力話者の話者部分空間移動ベクトル記憶部(4b)と、代
表話者の話者部分空間移動ベクトルvi,s,m nを記憶す
る代表話者の話者部分空間移動ベクトル記憶部(6)と、
上記入力話者の話者部分空間移動ベクトル記憶部(4b)に
記憶された入力話者の話者部分空間移動ベクトル
vi,s,m inpと代表話者の話者部分空間移動ベクトルv
i,s,m n間の類似性を計算する類似性計算部(9d-1)と、
類似性計算部(9d-1)により算出された値に基づき類似性
の高いものから順に並べ記憶する上位内挿話者候補作成
部(9d-2)と、上位内挿話者候補作成部(9d-2)に記憶され
た順序に従って上位N’名(N’は1以上の整数)の代
表話者の話者部分空間移動ベクトルvi,s,m nから話者
を内挿し、内挿話者の話者部分空間移動ベクトル
vi,s,m inter(p)を計算する内挿話者の話者部分空間
移動ベクトル計算部(9b)と、計算した内挿話者の話者部
分空間移動ベクトルを記憶する内挿話者の話者部分空間
移動ベクトル記憶部(9c)と、入力話者の話者部分空間移
動ベクトル記憶部(4b)に記憶された入力話者の話者部分
空間移動ベクトルvi,s,m inpと類似性の高い内挿話者
の話者部分空間移動ベクトル記憶部(9c)に記憶された内
挿話者の話者部分空間移動ベクトルv i,s,m
inter(spno)を選択する代表話者選択部(4c)と、該代表
話者選択部(4c)にて得られた内挿話者の話者部分空間移
動ベクトルvi,s,m inter(spno)、入力話者の話者部分
空間移動ベクトルvi,s,m inp、及び初期モデルの平均
ベクトルμ i,s,mを用いて、話者適応後の平均ベクト
ルμi,s,m adaptを求める話者適応後モデル構築部(4d)
と、を具備することを特徴とする。
【0062】更に、本発明は上位内挿話者候補作成部(9
d-2)に記憶された順序に従って上位N’名(N’は1以
上の整数)の代表話者の話者部分空間移動ベクトル
vi,s, m nから話者を内挿し、内挿話者の話者部分空間
移動ベクトルvi,s,m inter(p)を計算する場合におい
て、上位N’名の代表話者のあらゆる組み合わせから話
者を内挿することを特徴とする。
d-2)に記憶された順序に従って上位N’名(N’は1以
上の整数)の代表話者の話者部分空間移動ベクトル
vi,s, m nから話者を内挿し、内挿話者の話者部分空間
移動ベクトルvi,s,m inter(p)を計算する場合におい
て、上位N’名の代表話者のあらゆる組み合わせから話
者を内挿することを特徴とする。
【0063】本発明は上位内挿話者候補作成部(9d-2)に
記憶された順序に従って上位N’名(N’は1以上の整
数)の代表話者の話者部分空間移動ベクトルvi,s,m n
から話者を内挿し、内挿話者の話者部分空間移動ベクト
ルvi,s,m inter(p)を計算する場合において、N’名
から第P位までの代表話者を順次用いて話者を内挿する
ことを特徴とする。
記憶された順序に従って上位N’名(N’は1以上の整
数)の代表話者の話者部分空間移動ベクトルvi,s,m n
から話者を内挿し、内挿話者の話者部分空間移動ベクト
ルvi,s,m inter(p)を計算する場合において、N’名
から第P位までの代表話者を順次用いて話者を内挿する
ことを特徴とする。
【0064】本発明は入力話者の話者部分空間移動ベク
トルvi,s,m inpを計算するために用いた入力話者の音
声と同一内容の発声を用いて計算した代表話者の学習語
依存話者部分空間移動ベクトルζi,s,m nと、該入力話
者の話者部分空間移動ベクトルvi,s,m inpとの類似性
に基づいて、代表話者選択を行うことを特徴とする。
トルvi,s,m inpを計算するために用いた入力話者の音
声と同一内容の発声を用いて計算した代表話者の学習語
依存話者部分空間移動ベクトルζi,s,m nと、該入力話
者の話者部分空間移動ベクトルvi,s,m inpとの類似性
に基づいて、代表話者選択を行うことを特徴とする。
【0065】本発明は入力話者の話者部分空間移動ベク
トルvi,s,m inpを計算するために用いた入力話者の音
声と同一内容の発声を用いて計算した代表話者の学習語
依存話者部分空間移動ベクトルζi,s,m nと、該入力話
者の話者部分空間移動ベクトルvi,s,m inpとの類似性
に基づいて代表話者選択を行い、該選択された代表話者
の番号に対応した代表話者の話者部分空間移動ベクトル
vi,s,m spnoと入力話者の話者部分空間移動ベクトル
vi,s,m inp、及び初期モデルの平均ベクトルμi,s,
mとを用いることによりHMMを学習することを特徴と
する。
トルvi,s,m inpを計算するために用いた入力話者の音
声と同一内容の発声を用いて計算した代表話者の学習語
依存話者部分空間移動ベクトルζi,s,m nと、該入力話
者の話者部分空間移動ベクトルvi,s,m inpとの類似性
に基づいて代表話者選択を行い、該選択された代表話者
の番号に対応した代表話者の話者部分空間移動ベクトル
vi,s,m spnoと入力話者の話者部分空間移動ベクトル
vi,s,m inp、及び初期モデルの平均ベクトルμi,s,
mとを用いることによりHMMを学習することを特徴と
する。
【0066】更に、本発明は入力話者の話者部分空間移
動ベクトルvi,s,m inpを計算するために用いた入力話
者の音声と同一内容の発声を用いて計算した代表話者の
学習語依存話者部分空間移動ベクトルζi,s,m nと、該
入力話者の話者部分空間移動ベクトルvi,s,m inpとの
類似性に基づいて代表話者選択を行い、該選択された代
表話者の番号に対応した代表話者の話者部分空間移動ベ
クトルvi,s,m spnoと学習語依存話者部分空間移動ベ
クトルζi,s,m spnoと、入力話者の話者部分空間移動
ベクトルvi,s,m inpと、初期モデルの平均ベクトルμ
i,s,mとを用いることによりHMMを学習することを
特徴とする。
動ベクトルvi,s,m inpを計算するために用いた入力話
者の音声と同一内容の発声を用いて計算した代表話者の
学習語依存話者部分空間移動ベクトルζi,s,m nと、該
入力話者の話者部分空間移動ベクトルvi,s,m inpとの
類似性に基づいて代表話者選択を行い、該選択された代
表話者の番号に対応した代表話者の話者部分空間移動ベ
クトルvi,s,m spnoと学習語依存話者部分空間移動ベ
クトルζi,s,m spnoと、入力話者の話者部分空間移動
ベクトルvi,s,m inpと、初期モデルの平均ベクトルμ
i,s,mとを用いることによりHMMを学習することを
特徴とする。
【0067】また、本発明は代表話者の話者部分空間移
動ベクトルvi,s,m spnoと学習語依存話者部分空間移
動ベクトルζi,s,m spnoの差分と、入力話者の話者部
分空間移動ベクトルvi,s,m inpと、初期モデルの平均
ベクトルμi,s,mから、話者適応後の平均ベクトル
μi,s,m adaptを求めることを特徴とする。
動ベクトルvi,s,m spnoと学習語依存話者部分空間移
動ベクトルζi,s,m spnoの差分と、入力話者の話者部
分空間移動ベクトルvi,s,m inpと、初期モデルの平均
ベクトルμi,s,mから、話者適応後の平均ベクトル
μi,s,m adaptを求めることを特徴とする。
【0068】本発明は入力音声の特徴を分析する音声分
析部(1)と、HMMの初期モデルを記憶する初期モデル
記憶部(2)と、上記音声分析部(1)において入力話者の音
声を分析した結果を用いて初期モデル記憶部(2)に記憶
されたHMMを学習する学習部(3)と、該学習部(3)にお
いて学習された入力話者のHMMの平均ベクトル
μi,s,m inpと初期モデル記憶部(2)に記憶されている
HMMの平均ベクトルμi,s,mの差分から求められる
差分ベクトルを用いて計算される入力話者の話者部分空
間移動ベクトルvi,s,m inpを計算する入力話者の話者
部分空間移動ベクトル計算部(4a)と、該入力話者の話者
部分空間移動ベクトル計算部(4a)にて求められた入力話
者の話者部分空間移動ベクトルvi,s,m inpを記憶する
入力話者の話者部分空間移動ベクトル記憶部(4b)と、代
表話者の話者部分空間移動ベクトルvi,s,m nを記憶す
る代表話者の話者部分空間移動ベクトル記憶部(6)と、
入力話者の話者部分空間移動ベクトルvi,s,m inpを計
算した入力話者の音声と同一内容の代表話者の音声を用
いて作成した代表話者の学習語依存話者部分空間移動ベ
クトルζi,s,m nを記憶する代表話者の学習語依存話者
部分空間移動ベクトル記憶部(11)と、上記入力話者の話
者部分空間移動ベクトル記憶部(4b)に記憶された入力話
者の話者部分空間移動ベクトルvi,s,m inpと最も類似
性の高い学習語依存話者部分空間移動ベクトルζi,s,
m nをもつ代表話者の番号(spno)を選択する代表話
者選択部(4c)と、該選択された代表話者の番号に対応し
た代表話者の話者部分空間移動ベクトルvi,s,m spno
と入力話者の話者部分空間移動ベクトルvi,s,m inp、
及び初期モデルの平均ベクトルμi,s,mを用いて、話
者適応後の平均ベクトルμi,s,m adaptを求める話者適
応後モデル構築部(4d)と、を具備することを特徴とす
る。
析部(1)と、HMMの初期モデルを記憶する初期モデル
記憶部(2)と、上記音声分析部(1)において入力話者の音
声を分析した結果を用いて初期モデル記憶部(2)に記憶
されたHMMを学習する学習部(3)と、該学習部(3)にお
いて学習された入力話者のHMMの平均ベクトル
μi,s,m inpと初期モデル記憶部(2)に記憶されている
HMMの平均ベクトルμi,s,mの差分から求められる
差分ベクトルを用いて計算される入力話者の話者部分空
間移動ベクトルvi,s,m inpを計算する入力話者の話者
部分空間移動ベクトル計算部(4a)と、該入力話者の話者
部分空間移動ベクトル計算部(4a)にて求められた入力話
者の話者部分空間移動ベクトルvi,s,m inpを記憶する
入力話者の話者部分空間移動ベクトル記憶部(4b)と、代
表話者の話者部分空間移動ベクトルvi,s,m nを記憶す
る代表話者の話者部分空間移動ベクトル記憶部(6)と、
入力話者の話者部分空間移動ベクトルvi,s,m inpを計
算した入力話者の音声と同一内容の代表話者の音声を用
いて作成した代表話者の学習語依存話者部分空間移動ベ
クトルζi,s,m nを記憶する代表話者の学習語依存話者
部分空間移動ベクトル記憶部(11)と、上記入力話者の話
者部分空間移動ベクトル記憶部(4b)に記憶された入力話
者の話者部分空間移動ベクトルvi,s,m inpと最も類似
性の高い学習語依存話者部分空間移動ベクトルζi,s,
m nをもつ代表話者の番号(spno)を選択する代表話
者選択部(4c)と、該選択された代表話者の番号に対応し
た代表話者の話者部分空間移動ベクトルvi,s,m spno
と入力話者の話者部分空間移動ベクトルvi,s,m inp、
及び初期モデルの平均ベクトルμi,s,mを用いて、話
者適応後の平均ベクトルμi,s,m adaptを求める話者適
応後モデル構築部(4d)と、を具備することを特徴とす
る。
【0069】本発明は入力音声の特徴を分析する音声分
析部(1)と、HMMの初期モデルを記憶する初期モデル
記憶部(2)と、上記音声分析部(1)において入力話者の音
声を分析した結果を用いて初期モデル記憶部(2)に記憶
されたHMMを学習する学習部(3)と、該学習部(3)にお
いて学習された入力話者のHMMの平均ベクトル
μi,s,m inpと初期モデル記憶部(2)に記憶されている
HMMの平均ベクトルμi,s,mの差分から求められる
差分ベクトルを用いて計算される入力話者の話者部分空
間移動ベクトルvi,s,m inpを計算する入力話者の話者
部分空間移動ベクトル計算部(4a)と、該入力話者の話者
部分空間移動ベクトル計算部(4a)にて求められた入力話
者の話者部分空間移動ベクトルvi,s,m inpを記憶する
入力話者の話者部分空間移動ベクトル記憶部(4b)と、代
表話者の話者部分空間移動ベクトルvi,s,m nを記憶す
る代表話者の話者部分空間移動ベクトル記憶部(6)と、
入力話者の話者部分空間移動ベクトルvi,s,m inpを計
算した入力話者の音声と同一内容の代表話者の音声を用
いて作成した代表話者の学習語依存話者部分空間移動ベ
クトルζi,s,m nを記憶する代表話者の学習語依存話者
部分空間移動ベクトル記憶部(11)と、上記入力話者の話
者部分空間移動ベクトル記憶部(4b)に記憶された入力話
者の話者部分空間移動ベクトルvi,s,m inpと最も類似
性の高い学習語依存話者部分空間移動ベクトルζi,s,
m nをもつ代表話者の番号(spno)を選択する代表話
者選択部(4c)と、該選択された代表話者の番号に対応し
た代表話者の話者部分空間移動ベクトルvi,s,m spno
と学習語依存話者部分空間移動ベクトルζi,s,m spno
と、入力話者の話者部分空間移動ベクトルvi,s,m inp
と、初期モデルの平均ベクトルμi,s,mを用いて、話
者適応後の平均ベクトルμi,s,m adaptを求める第二話
者適応後モデル構築部(4e)と、を具備することを特徴と
する。
析部(1)と、HMMの初期モデルを記憶する初期モデル
記憶部(2)と、上記音声分析部(1)において入力話者の音
声を分析した結果を用いて初期モデル記憶部(2)に記憶
されたHMMを学習する学習部(3)と、該学習部(3)にお
いて学習された入力話者のHMMの平均ベクトル
μi,s,m inpと初期モデル記憶部(2)に記憶されている
HMMの平均ベクトルμi,s,mの差分から求められる
差分ベクトルを用いて計算される入力話者の話者部分空
間移動ベクトルvi,s,m inpを計算する入力話者の話者
部分空間移動ベクトル計算部(4a)と、該入力話者の話者
部分空間移動ベクトル計算部(4a)にて求められた入力話
者の話者部分空間移動ベクトルvi,s,m inpを記憶する
入力話者の話者部分空間移動ベクトル記憶部(4b)と、代
表話者の話者部分空間移動ベクトルvi,s,m nを記憶す
る代表話者の話者部分空間移動ベクトル記憶部(6)と、
入力話者の話者部分空間移動ベクトルvi,s,m inpを計
算した入力話者の音声と同一内容の代表話者の音声を用
いて作成した代表話者の学習語依存話者部分空間移動ベ
クトルζi,s,m nを記憶する代表話者の学習語依存話者
部分空間移動ベクトル記憶部(11)と、上記入力話者の話
者部分空間移動ベクトル記憶部(4b)に記憶された入力話
者の話者部分空間移動ベクトルvi,s,m inpと最も類似
性の高い学習語依存話者部分空間移動ベクトルζi,s,
m nをもつ代表話者の番号(spno)を選択する代表話
者選択部(4c)と、該選択された代表話者の番号に対応し
た代表話者の話者部分空間移動ベクトルvi,s,m spno
と学習語依存話者部分空間移動ベクトルζi,s,m spno
と、入力話者の話者部分空間移動ベクトルvi,s,m inp
と、初期モデルの平均ベクトルμi,s,mを用いて、話
者適応後の平均ベクトルμi,s,m adaptを求める第二話
者適応後モデル構築部(4e)と、を具備することを特徴と
する。
【0070】本発明は第二話者適応後モデル構築部(4e)
に於て、代表話者の話者部分空間移動ベクトルvi,s,
m spnoと学習語依存話者部分空間移動ベクトルζi,s,m
spnoの差分と、入力話者の話者部分空間移動ベクトルv
i,s,m inpと、初期モデルの平均ベクトルμi,s,mか
ら、話者適応後の平均ベクトルμi,s,m adaptを求める
ことを特徴とする。
に於て、代表話者の話者部分空間移動ベクトルvi,s,
m spnoと学習語依存話者部分空間移動ベクトルζi,s,m
spnoの差分と、入力話者の話者部分空間移動ベクトルv
i,s,m inpと、初期モデルの平均ベクトルμi,s,mか
ら、話者適応後の平均ベクトルμi,s,m adaptを求める
ことを特徴とする。
【0071】
【発明の実施の形態】本発明の実施の形態の例を図1乃
至図5に基づいて説明する。
至図5に基づいて説明する。
【0072】図1乃至図5の構成図では、従来のHMM
学習装置と同一構成については同一番号を付している。
学習装置と同一構成については同一番号を付している。
【0073】図1は本発明の第一の実施形態の概略構成
図である。
図である。
【0074】本発明の第一の実施形態のHMMの学習装
置の構成が従来のそれと異なる第一の点は、代表話者の
話者部分空間移動ベクトル記憶部6に接続する内挿話者
の話者部分空間移動ベクトル作成部9を設けたことであ
る。
置の構成が従来のそれと異なる第一の点は、代表話者の
話者部分空間移動ベクトル記憶部6に接続する内挿話者
の話者部分空間移動ベクトル作成部9を設けたことであ
る。
【0075】後述(図2参照)するように、該内挿話者
の話者部分空間移動ベクトル作成部9は、内挿話者候補
選択部9a、内挿話者の話者部分空間移動ベクトル計算
部9b、及び内挿話者の話者部分空間移動ベクトル記憶
部9cから構成されている。
の話者部分空間移動ベクトル作成部9は、内挿話者候補
選択部9a、内挿話者の話者部分空間移動ベクトル計算
部9b、及び内挿話者の話者部分空間移動ベクトル記憶
部9cから構成されている。
【0076】本発明の第一の実施形態のHMMの学習装
置の構成が従来のそれと異なる第二の点は、代表話者の
話者部分空間移動ベクトル記憶部6と話者適応部4及び
適応後モデル作成部7の接続に代えて、内挿話者の話者
部分空間移動ベクトル作成部9と話者適応部4及び適応
後モデル作成部7の接続を設けたことである。
置の構成が従来のそれと異なる第二の点は、代表話者の
話者部分空間移動ベクトル記憶部6と話者適応部4及び
適応後モデル作成部7の接続に代えて、内挿話者の話者
部分空間移動ベクトル作成部9と話者適応部4及び適応
後モデル作成部7の接続を設けたことである。
【0077】図2は本発明の第一の実施形態のHMMの
学習装置の構成図である。
学習装置の構成図である。
【0078】以下に、本発明の第一の実施形態における
代表的な構成要件である、内挿話者の話者部分空間移動
ベクトル作成部9の機能について詳述する。
代表的な構成要件である、内挿話者の話者部分空間移動
ベクトル作成部9の機能について詳述する。
【0079】内挿話者候補選択部9aは、代表話者の話
者部分空間移動ベクトル記憶部6に記憶されているN名
の代表話者の話者部分空間移動ベクトルから、P名のあ
らゆる組み合わせを作り、これに対応する代表話者の話
者部分空間移動ベクトルvi,s,m n、重みwi,s,m n、
平均ベクトルμi,s,m n、遷移確率ai,s1,s2 n、及び
分散ベクトル(σi,s,m 2)nを内挿話者の話者部分空
間移動ベクトル計算部9bに送出する。内挿話者の話者
部分空間移動ベクトル計算部9bでは送られてきた代表
話者の話者部分空間移動ベクトルvi,s,m nを用いて内
挿話者の話者部分空間移動ベクトルvi,s,m inter(p)
を計算する。
者部分空間移動ベクトル記憶部6に記憶されているN名
の代表話者の話者部分空間移動ベクトルから、P名のあ
らゆる組み合わせを作り、これに対応する代表話者の話
者部分空間移動ベクトルvi,s,m n、重みwi,s,m n、
平均ベクトルμi,s,m n、遷移確率ai,s1,s2 n、及び
分散ベクトル(σi,s,m 2)nを内挿話者の話者部分空
間移動ベクトル計算部9bに送出する。内挿話者の話者
部分空間移動ベクトル計算部9bでは送られてきた代表
話者の話者部分空間移動ベクトルvi,s,m nを用いて内
挿話者の話者部分空間移動ベクトルvi,s,m inter(p)
を計算する。
【0080】代表話者が(a,b,c,d,e)の5名
(N=5)である場合について詳細に上記の処理を説明
する。
(N=5)である場合について詳細に上記の処理を説明
する。
【0081】まず、内挿話者候補選択部9aは、P=1
の場合として(a)、(b)、(c)、(d)、及び
(e)を順次内挿話者の話者部分空間移動ベクトル計算
部9bに送る。
の場合として(a)、(b)、(c)、(d)、及び
(e)を順次内挿話者の話者部分空間移動ベクトル計算
部9bに送る。
【0082】次に、P=2の場合として5名から2名を
選ぶ10通りの代表話者の組み合わせを順次内挿話者の
話者部分空間移動ベクトル計算部9bに送る。ここで1
0通りとは、(a,b)、(a,c)、(a,d)、
(a,e)、(b,c)、(b,d)、(b,d)、
(c,d)(c,e)、及び(d,e)である。
選ぶ10通りの代表話者の組み合わせを順次内挿話者の
話者部分空間移動ベクトル計算部9bに送る。ここで1
0通りとは、(a,b)、(a,c)、(a,d)、
(a,e)、(b,c)、(b,d)、(b,d)、
(c,d)(c,e)、及び(d,e)である。
【0083】次に、P=3の組み合わせである10通
り、次にP=4の場合の5通り、次にP=5の場合の1
通りの代表話者の組み合わせを順次内挿話者の話者部分
空間移動ベクトル計算部9bに送る。
り、次にP=4の場合の5通り、次にP=5の場合の1
通りの代表話者の組み合わせを順次内挿話者の話者部分
空間移動ベクトル計算部9bに送る。
【0084】本例の場合、31通り(5+10+10+
5+1)の組み合わせに対応した代表話者の話者部分空
間移動ベクトルvi,s,m nが順次内挿話者の話者部分空
間移動ベクトル計算部9bに送られる。
5+1)の組み合わせに対応した代表話者の話者部分空
間移動ベクトルvi,s,m nが順次内挿話者の話者部分空
間移動ベクトル計算部9bに送られる。
【0085】内挿話者の話者部分空間移動ベクトル計算
部9bでは、内挿話者候補選択部9aから順次送られて
くる代表話者の話者部分空間移動ベクトルvi,s,m nの
重み付き平均として数6に従い内挿話者の話者部分空間
移動ベクトルvi,s,m inter (p)を計算する。
部9bでは、内挿話者候補選択部9aから順次送られて
くる代表話者の話者部分空間移動ベクトルvi,s,m nの
重み付き平均として数6に従い内挿話者の話者部分空間
移動ベクトルvi,s,m inter (p)を計算する。
【0086】また、同時に内挿話者の話者部分空間移動
ベクトル計算部9bは、内挿話者の分散ベクトル
(σi,s,m inter(p))、重みwi,s,m inter(p)、遷
移確率ai, s1,s2 inter(p)を数7に従い計算する。
ベクトル計算部9bは、内挿話者の分散ベクトル
(σi,s,m inter(p))、重みwi,s,m inter(p)、遷
移確率ai, s1,s2 inter(p)を数7に従い計算する。
【0087】本例の場合31通りの内挿話者の話者部分
空間移動ベクトルvi,s,m inter(p )が計算される。
空間移動ベクトルvi,s,m inter(p )が計算される。
【0088】
【数6】
【0089】
【数7】
【0090】ここで、Φは本例における31通りの組み
合わせ中の要素である。また、WGHT(n)は代表話
者の話者部分空間移動ベクトルvi,s,m nに関する重み
である。
合わせ中の要素である。また、WGHT(n)は代表話
者の話者部分空間移動ベクトルvi,s,m nに関する重み
である。
【0091】計算された内挿話者の話者部分空間移動ベ
クトルvi,s,m inter(p)は内挿話者の話者部分空間移
動ベクトル記憶部9cに記憶される。
クトルvi,s,m inter(p)は内挿話者の話者部分空間移
動ベクトル記憶部9cに記憶される。
【0092】内挿話者の話者部分空間移動ベクトル記憶
部9cに記憶される内挿話者の話者部分空間移動ベクト
ルvi,s,m inter(p)は、代表話者の話者部分空間移動
ベクトルvi,s,m nと同質のものであり、代表話者数を
内挿により増加させた場合に対応するため、以降の処理
は従来例と同様の処理を行うことにより、適応後モデル
が作成できる。
部9cに記憶される内挿話者の話者部分空間移動ベクト
ルvi,s,m inter(p)は、代表話者の話者部分空間移動
ベクトルvi,s,m nと同質のものであり、代表話者数を
内挿により増加させた場合に対応するため、以降の処理
は従来例と同様の処理を行うことにより、適応後モデル
が作成できる。
【0093】本例の場合、5名の代表話者から31名の
擬似的な代表話者(上記の内挿話者)を作成できる。
擬似的な代表話者(上記の内挿話者)を作成できる。
【0094】例えば、代表話者選択部4cは、内挿話者
の話者部分空間移動ベクトルvi,s,m inter(p)と入力
話者の話者部分空間移動ベクトルvi,s,m inpとの距離
を計算し、入力話者部分空間移動ベクトルvi,s,m inp
と距離的に近い内挿話者の部分空間移動ベクトル
vi,s,m inter(p)をもつ内挿話者の番号(spn
o)、及び該内挿話者の番号(spno)を有する内挿
話者の話者部分空間移動ベクトルvi,s,m inter(spno)
を話者適応後モデル構築部4dへ送出し、話者適応後の
平均ベクトルμi,s,m adaptを求める。
の話者部分空間移動ベクトルvi,s,m inter(p)と入力
話者の話者部分空間移動ベクトルvi,s,m inpとの距離
を計算し、入力話者部分空間移動ベクトルvi,s,m inp
と距離的に近い内挿話者の部分空間移動ベクトル
vi,s,m inter(p)をもつ内挿話者の番号(spn
o)、及び該内挿話者の番号(spno)を有する内挿
話者の話者部分空間移動ベクトルvi,s,m inter(spno)
を話者適応後モデル構築部4dへ送出し、話者適応後の
平均ベクトルμi,s,m adaptを求める。
【0095】適応後モデル作成部7は、話者適応後の平
均ベクトルμi,s,m adapt、spno番の内挿話者の分
散ベクトル(σi,s,m inter(spno))、重みwi,s,m
inter (spno)、遷移確率ai,s1,s2 inter(spno)に基づ
き適応後のモデルを作成する。
均ベクトルμi,s,m adapt、spno番の内挿話者の分
散ベクトル(σi,s,m inter(spno))、重みwi,s,m
inter (spno)、遷移確率ai,s1,s2 inter(spno)に基づ
き適応後のモデルを作成する。
【0096】図3は本発明の第二のHMMの学習装置の
実施形態の構成図である。
実施形態の構成図である。
【0097】本発明の第二の実施形態のHMMの学習装
置の構成が従来のそれと異なる第一の点は、代表話者の
話者部分空間移動ベクトル記憶部6に接続する内挿話者
の話者部分空間移動ベクトル作成部9を設けたことであ
る。
置の構成が従来のそれと異なる第一の点は、代表話者の
話者部分空間移動ベクトル記憶部6に接続する内挿話者
の話者部分空間移動ベクトル作成部9を設けたことであ
る。
【0098】該内挿話者の話者部分空間移動ベクトル作
成部9は、第二内挿話者候補選択部9d、内挿話の話者
部分空間移動ベクトル計算部9b、及び内挿話者の話者
部分空間移動ベクトの記憶部9cから構成されている。
成部9は、第二内挿話者候補選択部9d、内挿話の話者
部分空間移動ベクトル計算部9b、及び内挿話者の話者
部分空間移動ベクトの記憶部9cから構成されている。
【0099】また、第二内挿話者候補選択部9dは、類
似性計算部9d−1及び上位内挿話者候補作成部9d−
2から構成される。
似性計算部9d−1及び上位内挿話者候補作成部9d−
2から構成される。
【0100】本発明の第二の実施形態のHMMの学習装
置の構成が従来のそれと異なる第二の点は、代表話者の
話者部分空間移動ベクトル記憶部6と代表話者選択部4
c及び適応後モデル作成部7の接続に代えて、内挿話者
の話者部分空間移動ベクトル作成部9と代表話者選択部
4c及び適応後モデル作成部7の接続を設けたことであ
る。
置の構成が従来のそれと異なる第二の点は、代表話者の
話者部分空間移動ベクトル記憶部6と代表話者選択部4
c及び適応後モデル作成部7の接続に代えて、内挿話者
の話者部分空間移動ベクトル作成部9と代表話者選択部
4c及び適応後モデル作成部7の接続を設けたことであ
る。
【0101】本発明の第二の実施形態のHMMの学習装
置の構成が従来のそれと異なる第三の点は、入力話者の
話者部分空間移動ベクトル記憶部4bと内挿話者候補選
択部9dとの接続を設けたことである。
置の構成が従来のそれと異なる第三の点は、入力話者の
話者部分空間移動ベクトル記憶部4bと内挿話者候補選
択部9dとの接続を設けたことである。
【0102】本発明の第二の実施形態のHMMの学習装
置の構成が、第一の実施形態のそれと異なる点は、内挿
話者候補選択部9aに代えて第二内挿話者候補選択部9
dを設けたことである。
置の構成が、第一の実施形態のそれと異なる点は、内挿
話者候補選択部9aに代えて第二内挿話者候補選択部9
dを設けたことである。
【0103】以下に、本発明の第二の実施形態のHMM
の学習装置の代表的な構成要件である、内挿話者の話者
部分空間移動ベクトル作成部9の機能について詳述す
る。
の学習装置の代表的な構成要件である、内挿話者の話者
部分空間移動ベクトル作成部9の機能について詳述す
る。
【0104】類似性計算部9d−1では、代表話者の話
者部分空間移動ベクトル記憶部6に記憶された代表話者
の話者部分空間移動ベクトルvi,s,m nと入力話者の話
者部分空間移動ベクトル記憶部4bに記憶された入力話
者の話者部分空間移動ベクトルvi,s,m inpとの間の距
離を計算する。
者部分空間移動ベクトル記憶部6に記憶された代表話者
の話者部分空間移動ベクトルvi,s,m nと入力話者の話
者部分空間移動ベクトル記憶部4bに記憶された入力話
者の話者部分空間移動ベクトルvi,s,m inpとの間の距
離を計算する。
【0105】上位内挿話者候補作成部9d−2は類似性
計算部9d−1で得られた距離のうち距離値が小さい上
位N’名(N’≦N)選択し、N’名を対象に第一の実
施形態と同様にP名のあらゆる組み合わせを作り、これ
に対応する代表話者の話者部分空間移動ベクトル
vi,s,m n、重みwi,s,m n、平均ベクトル
μi,s,m n、遷移確率ai,s1,s2 n、及び分散ベクトル
(σi,s,m 2)nを内挿話者の話者部分空間移動ベクト
ル計算部9bに送出する。
計算部9d−1で得られた距離のうち距離値が小さい上
位N’名(N’≦N)選択し、N’名を対象に第一の実
施形態と同様にP名のあらゆる組み合わせを作り、これ
に対応する代表話者の話者部分空間移動ベクトル
vi,s,m n、重みwi,s,m n、平均ベクトル
μi,s,m n、遷移確率ai,s1,s2 n、及び分散ベクトル
(σi,s,m 2)nを内挿話者の話者部分空間移動ベクト
ル計算部9bに送出する。
【0106】例えばN’=5である場合は、第一の実施
例と同様に31通りの組み合わせに対応した代表話者の
話者部分空間移動ベクトルvi,s,m nが順次内挿話者の
話者部分空間移動ベクトル計算部9bに送られ、内挿話
者の話者部分空間移動ベクトル計算部9bは、各々の組
み合わせについて内挿話者の話者部分空間移動ベクトル
vi,s,m inter(p)を計算する。
例と同様に31通りの組み合わせに対応した代表話者の
話者部分空間移動ベクトルvi,s,m nが順次内挿話者の
話者部分空間移動ベクトル計算部9bに送られ、内挿話
者の話者部分空間移動ベクトル計算部9bは、各々の組
み合わせについて内挿話者の話者部分空間移動ベクトル
vi,s,m inter(p)を計算する。
【0107】また、同時に内挿話者の話者部分空間移動
ベクトル計算部9bは、内挿話者の分散ベクトル
(σi,s,m inter(p))、重みwi,s,m inter(p)、及
び遷移確率ai,s1,s2 inter(p)を数7に従い計算す
る。
ベクトル計算部9bは、内挿話者の分散ベクトル
(σi,s,m inter(p))、重みwi,s,m inter(p)、及
び遷移確率ai,s1,s2 inter(p)を数7に従い計算す
る。
【0108】N名からN’名を選択することにより、内
挿話者の話者部分空間移動ベクトルvi,s,m inter(p)
の処理量の削減ができるという効果が得られる。
挿話者の話者部分空間移動ベクトルvi,s,m inter(p)
の処理量の削減ができるという効果が得られる。
【0109】また、上位内挿話者候補作成部9d−2
は、N’名から上位P位までの候補を順次内挿話者の話
者部分空間移動ベクトル計算部9bに送出するような構
成としてもよい。
は、N’名から上位P位までの候補を順次内挿話者の話
者部分空間移動ベクトル計算部9bに送出するような構
成としてもよい。
【0110】ここで、上位P位までの候補を順次送ると
は、以下の処理を示す。
は、以下の処理を示す。
【0111】N’=5及びP=5の場合の例を以下に説
明する。
明する。
【0112】上位5名の候補が(a,b,c,d,e)
の順であった場合、まず、(a)の話者部分空間移動ベ
クトルを内挿話者の話者部分空間移動ベクトル計算部9
bに送る。次に(a,b)、次に(a,b,c)、次に
(a,b,c,d)、次に(a,b,c,d,e)の話
者部分空間移動ベクトルの組を内挿話者の話者部分空間
移動ベクトル計算部9bに順次送出する。
の順であった場合、まず、(a)の話者部分空間移動ベ
クトルを内挿話者の話者部分空間移動ベクトル計算部9
bに送る。次に(a,b)、次に(a,b,c)、次に
(a,b,c,d)、次に(a,b,c,d,e)の話
者部分空間移動ベクトルの組を内挿話者の話者部分空間
移動ベクトル計算部9bに順次送出する。
【0113】本例の場合、内挿話者の話者部分空間移動
ベクトル計算部9bは、順次送られてくる、代表話者の
話者部分空間移動ベクトルvi,s,m nに関する5通りの
組み合わせに各々対応した5通りの内挿話者の話者部分
空間移動ベクトルvi,s,m i nter(p)を計算する。
ベクトル計算部9bは、順次送られてくる、代表話者の
話者部分空間移動ベクトルvi,s,m nに関する5通りの
組み合わせに各々対応した5通りの内挿話者の話者部分
空間移動ベクトルvi,s,m i nter(p)を計算する。
【0114】また、同時に内挿話者の話者部分空間移動
ベクトル計算部9bは、内挿話者の分散ベクトル
(σi,s,m inter(p))、重みwi,s,m inter(p)、及
び遷移確率ai,s1,s2 inter(p)を数7に従い計算す
る。
ベクトル計算部9bは、内挿話者の分散ベクトル
(σi,s,m inter(p))、重みwi,s,m inter(p)、及
び遷移確率ai,s1,s2 inter(p)を数7に従い計算す
る。
【0115】計算された内挿話者の話者部分空間移動ベ
クトルvi,s,m inter(p)は内挿話者の話者部分空間移
動ベクトル記憶部9cに記憶される。
クトルvi,s,m inter(p)は内挿話者の話者部分空間移
動ベクトル記憶部9cに記憶される。
【0116】代表話者選択部4cは、内挿話者の話者部
分空間移動ベクトルvi,s,m inter (p)と入力話者の話
者部分空間移動ベクトルvi,s,m inpとの距離を計算
し、入力話者部分空間移動ベクトルvi,s,m inpと距離
的に近い内挿話者の部分空間移動ベクトルvi,s,m
inter(p)をもつ内挿話者の番号(spno)、及び該内
挿話者の番号(spno)を有する内挿話者の話者部分
空間移動ベクトルvi,s, m inter(spno)を話者適応後モ
デル構築部4dへ送出し、話者適応後の平均ベクトルμ
i,s,m adaptを求める。
分空間移動ベクトルvi,s,m inter (p)と入力話者の話
者部分空間移動ベクトルvi,s,m inpとの距離を計算
し、入力話者部分空間移動ベクトルvi,s,m inpと距離
的に近い内挿話者の部分空間移動ベクトルvi,s,m
inter(p)をもつ内挿話者の番号(spno)、及び該内
挿話者の番号(spno)を有する内挿話者の話者部分
空間移動ベクトルvi,s, m inter(spno)を話者適応後モ
デル構築部4dへ送出し、話者適応後の平均ベクトルμ
i,s,m adaptを求める。
【0117】適応後モデル作成部7は、話者適応後の平
均ベクトルμi,s,m adapt、spno番の内挿話者の分
散ベクトル(σi,s,m inter(spno))、重みwi,s,m
inter (spno)、遷移確率ai,s1,s2 inter(spno)に基づ
き適応後のモデルを作成する。
均ベクトルμi,s,m adapt、spno番の内挿話者の分
散ベクトル(σi,s,m inter(spno))、重みwi,s,m
inter (spno)、遷移確率ai,s1,s2 inter(spno)に基づ
き適応後のモデルを作成する。
【0118】図4は本発明の第三のHMMの学習装置の
実施形態の構成図である。
実施形態の構成図である。
【0119】本発明の第三の実施形態のHMMの学習装
置の構成が従来のそれと異なる第一の点は、代表話者選
択部4cに接続して代表話者の学習語依存話者部分空間
移動ベクトル記憶部11およびこれに接続する代表話者
の学習語依存話者部分空間移動ベクトル計算部10を設
けたことである。
置の構成が従来のそれと異なる第一の点は、代表話者選
択部4cに接続して代表話者の学習語依存話者部分空間
移動ベクトル記憶部11およびこれに接続する代表話者
の学習語依存話者部分空間移動ベクトル計算部10を設
けたことである。
【0120】本発明の第三の実施形態のHMMの学習装
置の構成が従来のそれと異なる第二の点は、代表話者選
択部4cにおいて選択された代表話者の番号(spn
o)を代表話者の話者部分空間移動ベクトル記憶部6に
送出するようにしたことである。
置の構成が従来のそれと異なる第二の点は、代表話者選
択部4cにおいて選択された代表話者の番号(spn
o)を代表話者の話者部分空間移動ベクトル記憶部6に
送出するようにしたことである。
【0121】以下に、本発明の第三の実施形態の代表的
な構成要件である、代表話者の学習語依存の話者部分空
間移動ベクトル計算部10および代表話者の学習語依存
話者部分空間移動ベクトル記憶部11を中心に本実施例
について詳述する。
な構成要件である、代表話者の学習語依存の話者部分空
間移動ベクトル計算部10および代表話者の学習語依存
話者部分空間移動ベクトル記憶部11を中心に本実施例
について詳述する。
【0122】代表話者の学習語依存話者部分空間移動ベ
クトル計算部10の機能は、入力話者の学習語依存話者
部分空間移動ベクトル計算部4aと基本的に同一の機能
を有する。違いは、入力話者の適応語依存の話者部分空
間移動ベクトル計算部4aでは音声分析部1により分析
された入力話者の音声を用いて入力話者の話者部分空間
移動ベクトルvi,s,m inpを計算することに対して、代
表話者の学習語依存話者部分空間移動ベクトル計算部1
0では各代表話者の音声を分析した結果を用いてn番目
の代表話者について代表話者の学習語依存話者部分空間
移動ベクトルζ i,s,m nを計算するものである。ただ
し、代表話者の学習語依存話者部分空間移動ベクトルζ
i,s,m nを計算するために使用する代表話者の音声は、
入力話者の音声と同一内容であるものとする。
クトル計算部10の機能は、入力話者の学習語依存話者
部分空間移動ベクトル計算部4aと基本的に同一の機能
を有する。違いは、入力話者の適応語依存の話者部分空
間移動ベクトル計算部4aでは音声分析部1により分析
された入力話者の音声を用いて入力話者の話者部分空間
移動ベクトルvi,s,m inpを計算することに対して、代
表話者の学習語依存話者部分空間移動ベクトル計算部1
0では各代表話者の音声を分析した結果を用いてn番目
の代表話者について代表話者の学習語依存話者部分空間
移動ベクトルζ i,s,m nを計算するものである。ただ
し、代表話者の学習語依存話者部分空間移動ベクトルζ
i,s,m nを計算するために使用する代表話者の音声は、
入力話者の音声と同一内容であるものとする。
【0123】代表話者の学習語依存話者部分空間移動ベ
クトル記憶部11は、代表話者の学習語依存話者部分空
間移動ベクトル計算部10に於て計算した代表話者の学
習語依存話者部分空間移動ベクトルζi,s,m nを記憶す
る。
クトル記憶部11は、代表話者の学習語依存話者部分空
間移動ベクトル計算部10に於て計算した代表話者の学
習語依存話者部分空間移動ベクトルζi,s,m nを記憶す
る。
【0124】代表話者選択部4cでは、入力話者部分空
間移動ベクトルvi,s,m inpと距離的に近い代表話者の
学習語依存話者部分空間移動ベクトルζi,s,m nをもつ
代表話者の番号(spno)を選択し、かかる代表話者
の番号(spno)を代表話者の話者部分空間移動ベク
トル記憶部6に送出する。代表話者の話者部分空間移動
ベクトル記憶部6では選択された代表話者の番号に対応
した代表話者の話者部分空間移動ベクトルvi,s,m
spnoを話者適応後モデル4dに送出する。
間移動ベクトルvi,s,m inpと距離的に近い代表話者の
学習語依存話者部分空間移動ベクトルζi,s,m nをもつ
代表話者の番号(spno)を選択し、かかる代表話者
の番号(spno)を代表話者の話者部分空間移動ベク
トル記憶部6に送出する。代表話者の話者部分空間移動
ベクトル記憶部6では選択された代表話者の番号に対応
した代表話者の話者部分空間移動ベクトルvi,s,m
spnoを話者適応後モデル4dに送出する。
【0125】話者適応後モデル構築部4dでは、代表話
者選択部4cにて選択された代表話者の話者部分空間移
動ベクトルvi,s,m spno、入力話者の話者部分空間移
動ベクトルvi,s,m inp、及び初期モデルの平均ベクト
ルμi,s,mを用いて、話者適応後の平均ベクトルμi,
s,m adaptを求める。以降の処理は従来例と同一である
ので説明を割愛する。
者選択部4cにて選択された代表話者の話者部分空間移
動ベクトルvi,s,m spno、入力話者の話者部分空間移
動ベクトルvi,s,m inp、及び初期モデルの平均ベクト
ルμi,s,mを用いて、話者適応後の平均ベクトルμi,
s,m adaptを求める。以降の処理は従来例と同一である
ので説明を割愛する。
【0126】図5は本発明の第四の実施形態のHMMの
学習装置の構成図である。
学習装置の構成図である。
【0127】本発明の第四の実施形態のHMMの学習装
置の構成が従来のそれと異なる第一および第二の点は、
本発明の第三の実施形態と同一である。
置の構成が従来のそれと異なる第一および第二の点は、
本発明の第三の実施形態と同一である。
【0128】本発明の第四の実施形態のHMMの学習装
置が第三の実施形態のそれと大きく異なる点は、話者適
応後モデル構築部4dに代えて、第二話者適応後モデル
構築部4eを設けた事である。
置が第三の実施形態のそれと大きく異なる点は、話者適
応後モデル構築部4dに代えて、第二話者適応後モデル
構築部4eを設けた事である。
【0129】本第四の実施形態においては、代表話者選
択部4cにおいて入力話者部分空間移動ベクトル
vi,s,m inpと距離的に近い代表話者の学習語依存話者
部分空間移動ベクトルζi,s,m nをもつ代表話者の番号
(spno)を選択する処理までは第三の実施形態と同
一である。
択部4cにおいて入力話者部分空間移動ベクトル
vi,s,m inpと距離的に近い代表話者の学習語依存話者
部分空間移動ベクトルζi,s,m nをもつ代表話者の番号
(spno)を選択する処理までは第三の実施形態と同
一である。
【0130】ただし、代表話者選択部4cは、代表話者
の番号(spno)を代表話者の話者部分空間移動ベク
トル記憶部6に送出するとともに第二話者適応後モデル
構築部4eに代表話者の学習語依存話者部分空間移動ベ
クトルζi,s,m spnoを送出する。
の番号(spno)を代表話者の話者部分空間移動ベク
トル記憶部6に送出するとともに第二話者適応後モデル
構築部4eに代表話者の学習語依存話者部分空間移動ベ
クトルζi,s,m spnoを送出する。
【0131】第二話者適応後モデル構築部4dでは、代
表話者選択部4cにて選択された代表話者の話者部分空
間移動ベクトルvi,s,m spno、代表話者の学習語依存
話者部分空間移動ベクトルζi,s,m spno、入力話者の
話者部分空間移動ベクトルvi,s,m inp、及び初期モデ
ルの平均ベクトルμi,s,mを用いて、数8に従い、話
者適応後の平均ベクトルμi,s,m adaptを求める。
表話者選択部4cにて選択された代表話者の話者部分空
間移動ベクトルvi,s,m spno、代表話者の学習語依存
話者部分空間移動ベクトルζi,s,m spno、入力話者の
話者部分空間移動ベクトルvi,s,m inp、及び初期モデ
ルの平均ベクトルμi,s,mを用いて、数8に従い、話
者適応後の平均ベクトルμi,s,m adaptを求める。
【0132】
【数8】
【0133】以降の処理は従来例と同一であるので説明
を割愛する。
を割愛する。
【0134】
【発明の効果】以上の説明から明らかなように本発明
は、代表話者の話者部分空間移動ベクトル記憶部6に記
憶されているN名の代表話者の話者部分空間移動ベクト
ルvi,s,m nから内挿話者の話者部分空間移動ベクトル
vi,s,m inter(p)を作成することにより、擬似的に代
表話者数を増やすという作用があり、代表話者の話者部
分空間移動ベクトル記憶部6に記憶しておく代表話者数
が少なくてすみ、記憶容量が削減できるという効果を奏
する。
は、代表話者の話者部分空間移動ベクトル記憶部6に記
憶されているN名の代表話者の話者部分空間移動ベクト
ルvi,s,m nから内挿話者の話者部分空間移動ベクトル
vi,s,m inter(p)を作成することにより、擬似的に代
表話者数を増やすという作用があり、代表話者の話者部
分空間移動ベクトル記憶部6に記憶しておく代表話者数
が少なくてすみ、記憶容量が削減できるという効果を奏
する。
【0135】更には、代表話者数が少なくてすむことよ
り、代表話者の話者部分空間移動ベクトルを計算するた
めの人数が少なくてすみ、代表話者の話者部分空間移動
ベクトルを作成するために必要となる音声の収集量が少
なくてすむという効果を奏する。
り、代表話者の話者部分空間移動ベクトルを計算するた
めの人数が少なくてすみ、代表話者の話者部分空間移動
ベクトルを作成するために必要となる音声の収集量が少
なくてすむという効果を奏する。
【0136】また、入力話者の学習用音声と同一内容の
代表話者の音声から計算することにより得られた入力話
者の話者部分空間移動ベクトルvi,s,m inpと同じ偏り
をもつ代表話者の学習語依存話者部分空間移動ベクトル
ζi,s,m nと、入力話者の話者部分空間移動ベクトルv
i,s,m inpとの類似性により代表話者選択を行うため、
学習用音声に固有の特徴による偏りを考慮した高精度な
話者選択が可能となる。
代表話者の音声から計算することにより得られた入力話
者の話者部分空間移動ベクトルvi,s,m inpと同じ偏り
をもつ代表話者の学習語依存話者部分空間移動ベクトル
ζi,s,m nと、入力話者の話者部分空間移動ベクトルv
i,s,m inpとの類似性により代表話者選択を行うため、
学習用音声に固有の特徴による偏りを考慮した高精度な
話者選択が可能となる。
【0137】また、代表話者の話者部分空間移動ベクト
ル記憶部6に記憶されているN名の代表話者の話者部分
空間移動ベクトルvi,s,m nから内挿話者の話者部分空
間移動ベクトルvi,s,m inter(p)を作成することによ
り、擬似的に代表話者数を増やし、学習用音声に固有の
特徴による偏りを考慮した高精度な話者選択を行うこと
により、高精度のHMMの学習が可能となる。
ル記憶部6に記憶されているN名の代表話者の話者部分
空間移動ベクトルvi,s,m nから内挿話者の話者部分空
間移動ベクトルvi,s,m inter(p)を作成することによ
り、擬似的に代表話者数を増やし、学習用音声に固有の
特徴による偏りを考慮した高精度な話者選択を行うこと
により、高精度のHMMの学習が可能となる。
【図1】本発明に係るHMMの学習装置の概略構成図で
ある。
ある。
【図2】本発明における第一の実施形態のHMMの学習
装置の構成図である。
装置の構成図である。
【図3】本発明における第二の実施形態のHMMの学習
装置の構成図である。
装置の構成図である。
【図4】本発明における第三の実施形態のHMMの学習
装置の構成図である。
装置の構成図である。
【図5】本発明における第四の実施形態のHMMの学習
装置の構成図である。
装置の構成図である。
【図6】従来のHMMの話者適応に基づくHMMの学習
装置である。
装置である。
【図7】従来のHMMの話者適応に基づくHMMの学習
装置の詳細構成図である。
装置の詳細構成図である。
1・・・・・・・・・・音声分析部 2・・・・・・・・・・初期モデル記憶部 3・・・・・・・・・・学習部 4・・・・・・・・・・話者適応部 4a・・・・・・・・入力話者の話者部分空間移動ベクトル計算
部 4b・・・・・・・・入力話者の話者部分空間移動ベクトル記憶
部 4c・・・・・・・・代表話者選択部 4d・・・・・・・・話者適応後モデル構築部 4e・・・・・・・・第二話者適応後モデル構築部 5・・・・・・・・・・代表話者の話者部分空間移動ベクトル計算
部 6・・・・・・・・・・代表話者の話者部分空間移動ベクトル記憶
部 7・・・・・・・・・・適応後モデル作成部 8・・・・・・・・・・適応後モデル記憶部 9・・・・・・・・・・内挿話者の話者部分空間移動ベクトル作成
部 9a・・・・・・・・内挿話者候補選択部 9b・・・・・・・・内挿話者の話者部分空間移動ベクトル計算
部 9c・・・・・・・・内挿話者の話者部分空間移動ベクトル記憶
部 9d・・・・・・・・第二内挿話者候補選択部 9d−1・・・・類似性計算部 9d−2・・・・上位内挿話者候補作成部 10・・・・・・・・代表話者の学習語依存話者部分空間移動ベ
クトル計算部 11・・・・・・・・代表話者の学習語依存話者部分空間移動ベ
クトル記憶部
部 4b・・・・・・・・入力話者の話者部分空間移動ベクトル記憶
部 4c・・・・・・・・代表話者選択部 4d・・・・・・・・話者適応後モデル構築部 4e・・・・・・・・第二話者適応後モデル構築部 5・・・・・・・・・・代表話者の話者部分空間移動ベクトル計算
部 6・・・・・・・・・・代表話者の話者部分空間移動ベクトル記憶
部 7・・・・・・・・・・適応後モデル作成部 8・・・・・・・・・・適応後モデル記憶部 9・・・・・・・・・・内挿話者の話者部分空間移動ベクトル作成
部 9a・・・・・・・・内挿話者候補選択部 9b・・・・・・・・内挿話者の話者部分空間移動ベクトル計算
部 9c・・・・・・・・内挿話者の話者部分空間移動ベクトル記憶
部 9d・・・・・・・・第二内挿話者候補選択部 9d−1・・・・類似性計算部 9d−2・・・・上位内挿話者候補作成部 10・・・・・・・・代表話者の学習語依存話者部分空間移動ベ
クトル計算部 11・・・・・・・・代表話者の学習語依存話者部分空間移動ベ
クトル記憶部
Claims (5)
- 【請求項1】 複数の代表話者の話者部分空間移動ベク
トルvi,s,m nのあらゆる組み合わせに対応して計算さ
れる内挿話者の話者部分空間移動ベクトルv i,s,m
inter(p)の中から、入力話者の話者部分空間移動ベクト
ルvi,s,m inpと最も類似性が高い話者部分空間移動ベ
クトルを選択し、該話者部分空間移動ベクトルvi,s,
m inter(spno)と入力話者の話者部分空間移動ベクトルv
i,s,m i npおよび入力話者のHMMの平均ベクトル
μi,s,m inpを用いることによりHMMを学習すること
を特徴とするHMMの学習装置。 - 【請求項2】 N名の代表話者の話者部分空間移動ベク
トルvi,s,m nから、入力話者の話者部分空間移動ベク
トルvi,s,m inpと類似性の高い上位N’名(N’≦
N)の該代表話者の話者部分空間移動ベクトルvi,s,
m nを選択し、選択された代表話者の話者部分空間移動ベ
クトルvi,s,m nの組み合わせに対応して計算される内
挿話者の話者部分空間移動ベクトルvi,s,m inter(p)
の中から、入力話者の話者部分空間移動ベクトル
vi,s,m inpと最も類似性が高い話者部分空間移動ベク
トルを選択し、該話者部分空間移動ベクトルvi,s,m
inter(spn o)と入力話者の話者部分空間移動ベクトル
vi,s,m inpおよび入力話者のHMMの平均ベクトルμ
i,s,m inpを用いることによりHMMを学習することを
特徴とするHMMの学習装置。 - 【請求項3】 入力話者の話者部分空間移動ベクトルv
i,s,m inpを計算するために用いた入力話者の音声と同
一内容の発声を用いて計算した代表話者の学習語依存話
者部分空間移動ベクトルζi,s,m nと、該入力話者の話
者部分空間移動ベクトルvi,s,m inpとの類似性に基づ
いて代表話者選択を行い、該選択された代表話者の番号
に対応した代表話者の話者部分空間移動ベクトル
vi,s,m spn oと入力話者の話者部分空間移動ベクトル
vi,s,m inp、及び初期モデルの平均ベクトルμi,s,
mとを用いることによりHMMを学習することを特徴と
するHMMの学習装置。 - 【請求項4】 請求項3において代表話者の話者部分空
間移動ベクトルvi,s,m spnoと学習語依存話者部分空
間移動ベクトルζi,s,m spnoの差分と、入力話者の話
者部分空間移動ベクトルvi,s,m inpと、初期モデルの
平均ベクトルμi,s,mから、話者適応後の平均ベクト
ルμi,s,m adaptを求めることを特徴とするHMMの学
習装置。 - 【請求項5】 入力話者の話者部分空間移動ベクトルv
i,s,m inpを計算するために用いた入力話者の音声と同
一内容の発声を用いて計算した代表話者の学習語依存話
者部分空間移動ベクトルζi,s,m nと、該入力話者の話
者部分空間移動ベクトルvi,s,m inpとの類似性に基づ
いて代表話者選択を行い、該選択された代表話者の番号
に対応した代表話者の話者部分空間移動ベクトル
vi,s,m spn oと学習語依存話者部分空間移動ベクトル
ζi,s,m spnoと、入力話者の話者部分空間移動ベクト
ルvi,s,m inpと、初期モデルの平均ベクトルμi,s,
mとを用いることによりHMMを学習することを特徴と
するHMMの学習装置。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
JP27422595A JP3316355B2 (ja) | 1995-10-23 | 1995-10-23 | Hmmの学習装置 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
JP27422595A JP3316355B2 (ja) | 1995-10-23 | 1995-10-23 | Hmmの学習装置 |
Publications (2)
Publication Number | Publication Date |
---|---|
JPH09114483A true JPH09114483A (ja) | 1997-05-02 |
JP3316355B2 JP3316355B2 (ja) | 2002-08-19 |
Family
ID=17538769
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
JP27422595A Expired - Fee Related JP3316355B2 (ja) | 1995-10-23 | 1995-10-23 | Hmmの学習装置 |
Country Status (1)
Country | Link |
---|---|
JP (1) | JP3316355B2 (ja) |
Cited By (1)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
JP2005338358A (ja) * | 2004-05-26 | 2005-12-08 | Nippon Telegr & Teleph Corp <Ntt> | 音響モデル雑音適応化方法およびこの方法を実施する装置 |
Families Citing this family (1)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
WO2006112198A1 (ja) * | 2005-03-30 | 2006-10-26 | Pioneer Corporation | 音声認識装置、音声認識方法、音声認識プログラム、および記録媒体 |
-
1995
- 1995-10-23 JP JP27422595A patent/JP3316355B2/ja not_active Expired - Fee Related
Cited By (2)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
JP2005338358A (ja) * | 2004-05-26 | 2005-12-08 | Nippon Telegr & Teleph Corp <Ntt> | 音響モデル雑音適応化方法およびこの方法を実施する装置 |
JP4510517B2 (ja) * | 2004-05-26 | 2010-07-28 | 日本電信電話株式会社 | 音響モデル雑音適応化方法およびこの方法を実施する装置 |
Also Published As
Publication number | Publication date |
---|---|
JP3316355B2 (ja) | 2002-08-19 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
US10650802B2 (en) | Voice recognition method, recording medium, voice recognition device, and robot | |
JP5768093B2 (ja) | 音声処理システム | |
CN106971709B (zh) | 统计参数模型建立方法和装置、语音合成方法和装置 | |
JP2871561B2 (ja) | 不特定話者モデル生成装置及び音声認識装置 | |
CN111081230B (zh) | 语音识别方法和设备 | |
CN113920977A (zh) | 一种语音合成模型、模型的训练方法以及语音合成方法 | |
CN109903750B (zh) | 一种语音识别方法及装置 | |
CN111916111A (zh) | 带情感的智能语音外呼方法及装置、服务器、存储介质 | |
JP2002366187A (ja) | 音声認識装置および音声認識方法、並びにプログラムおよび記録媒体 | |
JPH0934486A (ja) | 音声認識方法、情報形成方法、音声認識装置および記録媒体 | |
JP2012529664A (ja) | テキスト音声合成方法及びシステム | |
EP4231283A1 (en) | Speech recognition method and apparatus, and device, storage medium and program product | |
JPH0962291A (ja) | 記述長最小基準を用いたパターン適応化方式 | |
JP2898568B2 (ja) | 声質変換音声合成装置 | |
JP3088357B2 (ja) | 不特定話者音響モデル生成装置及び音声認識装置 | |
JPH08211889A (ja) | 木構造を用いたパターン適応化方式 | |
JPH11143486A (ja) | 話者適応装置および方法 | |
JP2003005785A (ja) | 音源の分離方法および分離装置 | |
JP3316355B2 (ja) | Hmmの学習装置 | |
JP2996925B2 (ja) | 音素境界検出装置及び音声認識装置 | |
JPH08110792A (ja) | 話者適応化装置及び音声認識装置 | |
JP6748607B2 (ja) | 音声合成学習装置、音声合成装置、これらの方法及びプログラム | |
Takahashi et al. | Tied-structure HMM based on parameter correlation for efficient model training | |
Lanchantin et al. | Dynamic model selection for spectral voice conversion. | |
JP2002169586A (ja) | 音声及び画像の合成モデル生成装置、音声及び画像の合成モデルのための環境適応化装置、並びに音声認識装置 |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
LAPS | Cancellation because of no payment of annual fees |