[go: up one dir, main page]

JP2705537B2 - 話者学習装置 - Google Patents

話者学習装置

Info

Publication number
JP2705537B2
JP2705537B2 JP5257406A JP25740693A JP2705537B2 JP 2705537 B2 JP2705537 B2 JP 2705537B2 JP 5257406 A JP5257406 A JP 5257406A JP 25740693 A JP25740693 A JP 25740693A JP 2705537 B2 JP2705537 B2 JP 2705537B2
Authority
JP
Japan
Prior art keywords
vector
frame
node
adaptation
cluster
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Expired - Fee Related
Application number
JP5257406A
Other languages
English (en)
Other versions
JPH07114394A (ja
Inventor
浩一 篠田
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
NEC Corp
Original Assignee
NEC Corp
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by NEC Corp filed Critical NEC Corp
Priority to JP5257406A priority Critical patent/JP2705537B2/ja
Publication of JPH07114394A publication Critical patent/JPH07114394A/ja
Application granted granted Critical
Publication of JP2705537B2 publication Critical patent/JP2705537B2/ja
Anticipated expiration legal-status Critical
Expired - Fee Related legal-status Critical Current

Links

Description

【発明の詳細な説明】
【0001】
【産業上の利用分野】本発明は音声認識における話者学
習装置に関し、特に標準パタンを用いた音声認識システ
ム並びに混合連続分布モデル型HMMによる音声認識シ
ステムにおける話者学習装置に関する。
【0002】
【従来の技術】近年、音声パターンの機械による認識に
関する研究が行われ、数々の手法が提案されている。こ
の中で、よく使われる代表的なものに、DPマッチング
(ダイナミックプログラミングマッチング)と呼ばれる
方法、並びに、隠れマルコフモデル(HMM)と呼ばれ
る方法がある。DPマッチングによる方法では、特徴ベ
クトルの時系列として表された2つのパタン、すなわち
標準パタンと入力パタン、のマッチングを動的計画法
(ダイナミックプログラミング)を用いて行う。マッチ
ングは、2つのパタンの間の類似度が最大(距離が最
小)となるように時間的に伸縮した時間対応付けを見い
だすことにより行われる。DPマッチングの詳細な説明
は、文献1:中川聖一、確率モデルによる音声認識、1
8〜20ページ、電子情報通信学会編(昭和63)に詳
述されている。DPマッチングの基本的な方法を以下に
概説する。入力パタンX、標準パタンBをそれぞれ X=x1 ,x2 ,…,xt ,…,xT (1) B=b1 ,b2 ,…,bj ,…,bJ (2) とする。パタンX,Bは時間長T,Jが異なり、2つの
パタンの間の距離を求めるには、2つのパタンの間での
時間的な対応付けを付けなければならない。時間的な対
応付けを歪関数j=j(t)で表す。これは、入力パタ
ンのある時刻tに対応する標準パタンの時刻がj(t)
であるこを表す。問題は、パタン間距離D(X,B)に
関する最小化問題を解くことにある。すなわち、
【0003】
【数1】
【0004】ここで、d(t,j)は、入力パタンの時
刻tの特徴ベクトルxt と標準パタンの時刻jの特徴ベ
クトル(フレームベクトルと呼ぶ)bj 間の距離(フレ
ーム距離と呼ぶ)である。この最小化問題は、距離累積
値g(t,j)に関する以下の漸化式により解くことが
できる。
【0005】
【数2】
【0006】漸化式(5)は一列でありいろいろのバエ
ーションが存在する。フレーム距離として、通常ユーク
リッド距離
【0007】
【数3】
【0008】が用いられる。標準パタンの単位として、
単語単位、音素単位等種々のものが用いられる。入力パ
タンの各時刻iに対して、フレーム距離の計算は、(標
準パタン数)×(標準パタンの時間長)回必要である。
標準パタンの各時刻のフレームベクトルのうち類似のも
のをベクトル量子化により共通的な表現とし、標準パタ
ンの圧縮とフレーム距離の計算を低減する方法が知られ
ている(文献1:26〜27ページに詳述されてい
る)。すなわち、標準パタンBは、フレームベクトル系
列ではなく、コード列 B′=c1 ,c2 ,…,cj ,…cJ (9) により表現される。ここで、各cj はフレームベクトル
のコードブック b(1),b(2),…b(k),…b(K) (10) の番号を表す。すなわちここではフレームベクトルbj
はコードブックベクトルb(cj )により近似的に表現
される。ベクトル量子化を採用した場合には、フレーム
距離計算の回数は、入力パタンの各時刻tにおいてK回
である。
【0009】HMMは、音声パタンの様々な揺らぎに対
処するため、標準パタンの記述に統計的な考えを導入し
たものである。HMMの詳細な説明は、文献1の40〜
46頁、55〜60頁、69〜74頁にかかれている。
HMMのパラメータには遷移確率と出力確率パラメータ
がある。遷移確率パラメータは音声パタンの時間的な揺
らぎを表現するためのパラメータである。出力確率パラ
メータは、音声パタンの声色の揺らぎを表現するもので
あり、離散確率分布表現と連続確率分布表現がある。離
散確率分布表現では、量子化誤差の影響が問題となり、
連続確率分布表現の方が優れていると考えられる。連続
確率分布表現では、混合連続分布、すなわち、複数のガ
ウス分布を重みつきで加算した分布が使われる。遷移確
率パラメータ、出力確率分布パラメータは、あらかじ
め、学習データを用いて、前向き後ろ向き(フォワード
バックワ−ド)アルゴリズムにより求められる。認識時
の処理は、次の通りである。特徴ベクトルの時系列とし
て表現された入力パタンXを X=x1 ,x2 ,…xt ,…,xT (11) とする。出力確率は混合連続確率分布とする。遷移確率
をaj i 、出力確率分布の混合重みをλi m 、各要素ガ
ウス分布(フレーム分布とよぶ)の平均ベクトルをμ
i m 、共分散行列をΣi m とする。ここで、tは入力時
刻、i,jはHMMの状態、mは混合要素番号を表す。
前向き確率α(i,t)に関する次の漸化式計算を行
う。
【0010】
【数4】
【0011】入力パタンに対する尤度は P(X)=α(I,T) (16) により求められる。Iは最終状態である。入力パタンの
各時刻tに対して、フレーム分布に対するフレーム尤度
N(x;μi m ,Σi m )の計算は、(HMMの個数)
×(1つのHMMの状態数)×(混合数)回行われる。
【0012】上述した方法による音声認識システムは、
DPマッチングでは、ベクトル量子化を行わない場合に
は、標準パタンの個数および長さが増えるに従って、ベ
クトル量子化を行った場合には、量子化数が増えるに従
って、また、HMMでは、HMMの状態数および混合数
が増えるに従って、計算量が増える。そこで、計算量を
削減し、認識性能の低下が押えられる認識システムとし
て特願平5−133049音声認識システム(以後、文
献2)に示されるシステムが考案された。このシステム
では、標準パタンを木構造表現することにより、距離計
算の演算量を削減している。以下に、このシステムにつ
いて概略を説明する。
【0013】まず、DPマッチングにおけるフレーム距
離計算では、入力パタンの各時刻のベクトルxに対し
て、フレーム距離集合
【0014】
【数5】
【0015】を計算する。ここで、b(k)は、フレー
ム番号kのフレームベクトルであり、kは標準パタンの
時刻(ベクトル量子化なしのとき)、または、ベクトル
量子化コード番号を表す。フレームベクトルの集合は、
図1に示すように、木構造表現される。各ノード
(N1 ,N1 1 ,N1 2 ,N1 3 等)はクラスタ、即ち
フレームベクトルの部分集合を表す。ルートノード(N
1 )はフレームベクトル全体の集合を表す。あるノード
の子ノード群は、親ノードに対応するフレームベクトル
集合をクラスタに分けたときのクラスタを表す。各ノー
ドすなわち各クラスタは、クラスタを代表するベクトル
(クラスタベクトル)を持つ。リーフノード(F1 ,F
2 ,F3 等)は1つのフレームベクトル(b(1),b
(2),b(3)等)に対応し、リーフノードのクラス
タベクトルはフレームベクトルそのものである。入力ベ
クトルxに対してフレーム距離集合は以下の手順により
求められる。 (A1)親ノードをルートノードにする。 (A2)親ノードの子ノードの各々に対して、距離(ク
ラスタ距離)を計算する。 (A3)(A2)で計算されたクラスタ距離のうち距離
の小さい方から子ノードあらかじめ指定した個数選択す
る。 (A4)(A3)で選択された子ノードの各々を新たに
親ノードとし、(A2)へ行く。ただし、リーフノード
ならばそのノードの処理はそれ以上行わない。 (A5)選択されたノードがすべてリーフノードになる
まで(A2)〜(A4)を繰り返す。 (A6)対応するリーフノードが選択されたフレームベ
クトルに対しては、リーフノードのクラスタ距離がその
ままフレーム距離となる。対応するリーフノードが選択
されなかったフレームベクトルに対しては、最後に選択
された上位ノードクラスタ距離をフレーム距離とする。
【0016】フレームベクトルの木構造の作成の方法に
ついては、文献2(0032)(0033)に詳しい。
HMMでは、入力ベクトルxの、フレーム分布に対する
フレーム尤度の集合 p(k)=N(x;μk ,Σk ), k=1,…,K (18) を計算する。ここでN(x;μk ,Σk )は平均値ベク
トルμk 、共分散Σk の多次元ガウス分布を表し、kは
フレームの番号を表す。フレーム分布の集合は、フレー
ムベクトルの集合の場合と同様に、第1図に示すよう
に、木構造表現される。フレームベクトルの場合と異な
る点は、各ノードにクラスタベクトルではなく、クラス
タ分布が付随することである。入力ベクトルxに対して
フレーム尤度集合は以下の手順により求められる。 (B1)親ノードをルートノードとする。 (B2)親ノードの子ノードの各々に対して、入力ベク
トルのクラスタ分布に対する尤度(クラスタ尤度)を計
算する。 (B3)(B2)で計算されたクラスタ尤度のうち尤度
の大きい方から子ノードをあらかじめ指定した個数選択
する。 (B4)(B3)で選択された子ノードの各々を新たに
親ノードとし、(B2)へ行く。ただし、リーフノード
ならばそのノードの処理はそれ以上行わない。 (B5)選択されたノードがすべてリーフノードになる
まで(B2)〜(B4)を繰り返す。 (B6)対応するリーフノードが選択されたフレーム分
布に対しては、リーフノードのクラスタ尤度がそのまま
フレーム尤度となる。対応するリーフノードが選択され
なかったフレーム分布に対しては、最後に選択された上
位ノードのクラスタを尤度をフレーム尤度とする。フレ
ーム分布の木構造の作成の方法については、文献2(0
041)〜(0057)に詳しい。
【0017】
【発明が解決しようとする課題】上述した文献2に記載
された音声認識方式では、従来方式に比べ、高速ではあ
るが、反面、ノードの選択誤りのために認識率は若干低
下する。また、従来方式と同様、標準パターン作成に用
いた話者と使用者がことなる場合、認識率が低下すると
いう問題点がある。本発明の目的は、使用者の少量の音
声を用いて、木構造表現した標準パターンを用いた音声
認識システムの性能を向上させる話者学習装置を提供す
ることである。
【0018】
【課題を解決するための手段】第1の発明による話者学
習装置は、フレームベクトルの時系列として表現された
標準パタンを複数の入力パタンを用いて学習する話者学
習方式において、入力パタンのベクトル時系列を保持す
る記憶手段と、木構造表現された標準パタンのフレーム
ベクトルを保持する記憶手段と、入力パタンの各時刻の
特徴ベクトルとフレームベクトルとの距離(フレーム距
離)を算出するフレーム距離計算手段と、前記フレーム
距離を用いて、入力パタンと標準パタンとのマッチング
を行う手段と、前記マッチングにより対応づけられた、
入力パタンの各時刻の特徴ベクトルと標準パタンのフレ
ームベクトルとの差ベクトルを算出する手段と、前記差
ベクトルを対応するリーフノード毎に保持する差ベクト
ル記憶手段と、前記差ベクトル記憶手段により保持され
た差ベクトルからリーフノードの適応化ベクトルを計算
し出力する手段と、指定されたノード(クラスタ)の適
応化ベクトルを子ノードの適応化ベクトルから求める手
段と、前記適応化ベクトル算出手段を制御して、リーフ
ノードから親ノードをたどって順次適応化ベクトルを求
める手段と、クラスタベクトルに適応化ベクトルを加え
新しいクラスタベクトルとする手段と、を含んで構成さ
れることを特徴とする。
【0019】第2の発明による話者学習装置は、第1の
発明の話者学習装置において、対応する適応化ベクトル
がないリーフノードの適応化ベクトルを特徴ベクトル空
間における内挿を用いて求める手段を含んで構成される
ことを特徴とする。
【0020】第3の発明による話者学習装置は、第1の
発明の話者学習装置において、マッチングの手段として
DPマッチングを用いることを特徴とする。
【0021】第4の発明による話者学習装置は、第1の
発明の話者学習装置において、マッチングの手段として
混合連続分布HMMを用い、フレーム間距離としてフレ
ーム分布に対する特徴ベクトルの尤度を用い、クラスタ
ベクトルとしてフレーム分布の平均ベクトルを用いるこ
とを特徴とする。
【0022】第5の発明による話者学習装置は、第1の
発明の話者学習装置において、指定されたノード(クラ
スタ)の適応化ベクトルをそのノードの下のリーフノー
ドに対応する差ベクトルから計算することを特徴とす
る。
【0023】
【作用】まず、DPマッチングを例として説明する。標
本パタン単語ごとに作成されるものとし、今、1つの木
構造表現された標準パタンBに対し複数の入力パタンを
用いて話者学習を行なう場合を考える。複数の入力パタ
ンX(1),X(2),…,X(NX)とする。NXは
標準パタンXに対応する入力パタンの数である。まず、
標準パタンBと入力パタンX1とのDPマッチングを行
う。DPマッチングにおけるフレーム距離計算は、文献
の(0027)〜(0031)に記載されている方法
を用いる。
【0024】DPマッチングにおいて最小のパタン間距
離D(X1,B)が求められるが、その際、その最小の
パタン間距離を与える歪み関数J(t)も求められる。
歪み関数は、文献の(0004)に記載の歪み関数と
同様のもので、Xの各特徴ベクトルxt と、Bの各フレ
ームベクトルBj を対応づけるものである。対応づけら
れた組を(xt , j(t))と書き、それぞれの組に対
し、差ベクトルst を次式で計算する。
【0025】 st =xt −bj ( t ) (19) 各時刻について計算されたst ,t=1,…,Tは対応
するjごとに、差ベクトル群Sj としてまとめられる。
すなわち、 Sj ={st |J(t)=j}; (20) 以
上の処理をパタンBに対する他の入力パタンX(2),
…,X(NX)について行なう。
【0026】そののち、各差ベクトル群において以下の
計算を行ない、適応化ベクトルvjを求める。
【0027】
【数6】
【0028】ここではNj は差ベクトル群Sj における
差ベクトルの個数である。このようにして求められた適
応化ベトルをフレームベクトルに足し込む。
【0029】
【数7】
【0030】このようにしてリーフノードのフレームベ
クトルが学習される。以上の処理を他の単語の標準パタ
ンについても同様に行なう。もし、標準パタンが式
(9)で表されるような、コード列で表される場合に
は、コードブックベクトル毎に適応化ベクトルが求めら
れる。このようにして、木構造標準パタンにおけるすべ
てのリーフノードのフレームベクトルが学習される。
【0031】次に、木構造標準パターンの親ノードのク
ラスタベクトルは、以下のように学習する。リーフノー
ドjの親ノードをkとし、その関係を、
【0032】
【数8】
【0033】と表すこととする。親ノードの適応化ベク
トルvk は以下の式で求められる。
【0034】
【数9】
【0035】和はノードkのすべての子ノードについて
とる。ここでNk はノードkの子ノードの個数、すなわ
ち、その親ノードに対応するすべての子ノードの適応化
ベクトルを平均し、親ノードの適応化ベクトルとする。
次に、この適応化ベクトルをクラスタべクトルに足し込
む。
【0036】
【数10】
【0037】上式の代わりに以下のようにvk をもとめ
ることもできる。
【0038】
【数11】
【0039】和はノードkのすべての子ノードについて
とる。ここでNk はノードkの子ノーの個数、wk
ノードjの重みである。ここでの重みは、各子ノードに
対応する差ベクトル群における差ベクトルの数を正規化
したものである。すなわち、
【0040】
【数12】
【0041】また、重みとしては以下の式で求めても良
い。
【0042】
【数13】
【0043】ここで、D(bk ,bj )は、フレームベ
クトルbj とクラスタベクトルbk との距離、mは適当
な実数である。
【0044】また、次のように重みを決めることができ
る。
【数14】
【0045】ここでの和はすべてのフレームベクトルに
ついてとられる。このとき、距離の小さいものから順に
K個のフレームベクトルをとりだし、そのK個を用いて
重みを計算することもできる。
【0046】親ノードの適応化ベクトルを求める際に
は、その下のリーフノードに対応するすべての差ベクト
ルを用いることもできる。すなわち、
【0047】
【数15】
【0048】上の同様、距離による重みづけ平均をとる
ことも可能である。
【0049】今、入力単語数が極めて少ない場合を考え
る。各々の単語の標準パタン式(9)で表されるコード
列で表されるとき、コードブック内のコードの中には、
どの標準パタンのコード列にも含まれないものが出てく
る。このようなコードに対応するコードベクトルは上で
述べた手続きでは学習することができない。そのような
コードクトルbj の差ベクトルは以下のようにもとめ
る。
【0050】
【数16】
【0051】ここで、和はすべてのフレームベクトルに
ついてとられる。このとき、距離の小さいものからK個
とりだし、そのK個を用いて重みを計算することもでき
る。
【0052】つぎに混合連続分布HMMを標準パタンと
して用いた場合について説明する。HMMの場合には各
リーフノードjのクラスタ分布の平均ベクトルをフレー
ベクトルj とみなし、また、親ノードkの平均ベク
トルをクラスタベクトルbkとみなし、上記のDPマッ
チングの場合と同様な処理を行なう。
【0053】DPマッチングの歪み関数に対応する歪み
関数は、ビタービ・アルゴリズムを用いて求める。ビタ
ービ・アルゴリズムについては文献1の44ページから
46ページに詳しい。具体的には、前向き確率を求める
式(12)の代わりに以下の式を用いる。
【0054】
【数17】
【0055】この漸化式をt=1からt=Tまで適用す
ることにより、最大のΦ(I,T)をあたえる歪み関数
i=I(t)を求めることができる。これ以後はDPマ
ッチングの場合と同様の処理を行なうことにより、木構
造表現されたフレーム分布を学習することができる。平
均ベクトルの内挿も式(29)(30)と同様の式を用
いて行なうことができる。
【0056】
【実施例】図2は、本発明の第2の実施例のブロック図
である。入力パタン記憶部103は(1)式の入力パタ
ンXを保持する。フレームベクトル木記憶部101は、
木構造表現されたフレームベクトル集合を保持する。標
準パタン記憶部103は、フレームベクトル木記憶部1
01から入力パタンに対応する標準パタンをとりだし記
憶する。フレーム距離計算部104は、入力パタンと標
準パタンの間の(14)式で表されるフレーム距離集合
d(k)を出力する。マッチング部105は、104で
計算したフレーム距離を用いて、式(4),(5),
(6)を実行し、入力パタンと標準パタンの対応づけを
求める。差ベクトル計算部106は対応づけられたフレ
ームベクトルと特徴ベクトルの間の差ベクトルを計算す
る。差ベクトル群記憶部107は、差ベクトルを各フレ
ームベクトル毎に記憶する。101から107までの処
理は複数の入力パタンに対して行なわれる。リーフノー
ド適応部108は、リーフノードのフレームベクトルご
とに記憶された差ベクトル群を平均することにより、フ
レームベクトルの適応化ベクトルを計算する。リーフノ
ード内挿部109は、フレームベクトル木記憶部101
にあるリーフノードのうち、101から107の処理で
学習されなかったリーフノードに対し、内挿を行ない適
応化ベクトルを求める。親ノード適応部110は、木構
造において下層のノードから順に、子ノードの適応化ベ
クトルを平均することにより、ノードのクラスタベクト
ルの適応化ベクトルを求める。108、109、110
で計算された適応化ベクトルは対応するクラスタベクト
ルに足され、新しいクラスタベクトルは、フレームベク
トル木記憶部に今までものの代わりに記憶される。
【0057】図3は、本発明の第4の実施例のブロック
図である。入力パタン記憶部203は(1)式の入力パ
タンXを保持する。フレーム分布木記憶部201は、木
構造表現されたフレーム分布集合を保持する。標準パタ
ン記憶部203は、フレーム分布木記憶部201から入
力パタンに対応する標準パタンをとりだし記憶する。フ
レーム尤度計算部204は、入力パタンと標準パタンの
間の(18)式で表されるフレーム尤度集合p(k)を
出力する。マッチング部205は、204で計算したフ
レーム尤度を用いて、入力パタンと標準パタンの対応づ
けを求める。差ベクトル計算部206は対応づけられた
フレーム分布の平均ベクトルと特徴ベクトルの間の差ベ
クトルを計算する。差ベクトル群記憶部207は、差ベ
クトルを各フレーム分布毎に記憶する。201から20
7までの処理は複数の入力パタンに対して行なわれる。
リーフノード適応部208は、リーフノードのフレーム
分布ごとに記憶された差ベクトル群を平均することによ
り、フレーム分布の平均ベクトルの適応化ベクトルを計
算する。リーフノード内挿部209は、フレーム分布木
記憶部201にあるリーフノードのうち、201から2
07の処理で学習されなかったリーフノードに対し、内
挿を行ない適応化ベクトルを求める。親ノード適応部2
10は、木構造において下層のノードから順に、子ノー
ドの適応化ベクトルを平均することにより、ノードのク
ラスタ分布の適応化ベクトルを求める。208、20
9、210で計算された適応化ベクトルは対応するクラ
スタ分布の平均ベクトルに足され、新しい平均ベクトル
は、フレーム分布木記憶部に今までのものの代わりに記
憶される。
【0058】
【発明の効果】以上説明したように、本発明は、木構造
表現された標準パターンを用いた音声認識方式におい
て、リーフノードから順次ボトムアップに適応量を求め
ることにより、少ない発声および少ない計算量で、標準
パターンを使用者に適応させ、認識性能を向上させるこ
とができる。
【図面の簡単な説明】
【図1】フレームベクトル木およびフレーム分布木
【図2】第2の実施例のブロック図
【図3】第4の実施例のブロック図
【符号の説明】
101 フレームベクトル木記憶部 102、202 標準パタン記憶部 103、203 入力パタン記憶部 104 フレーム距離計算部 105、205 マッチング部 106、206 差ベクトル計算部 107、207 差ベクトル群記憶部 108、208 リーフノード適応部 109、209 リーフノード内挿部 110、210 親ノード適応部 201 フレーム分布木記憶部 204 フレーム尤度計算部
フロントページの続き (56)参考文献 渡部、篠田ら「木構造確率分布を用い た音声認識」音講論集1−8−7(平成 5年10月),PP13−14 古井「音声認識における話者適応化技 術」テレビジョン学会誌VOL.43,N O.9(1989),PP929−934 山下、松本「単語音声認識におけるベ クトル量子化誤差を利用した話者適応」 信学技報SP87−118,PP35−42 篠田、渡部「木構造化された確率分布 を用いた話者適応化」音講論集2−5− 10(平成7年3月),PP49−50

Claims (5)

    (57)【特許請求の範囲】
  1. 【請求項1】 フレームベクトルの時系列として表現さ
    れた標準パタンを複数の入力パタンを用いて学習する話
    者学習装置において、 入力パタンのベクトル時系列を保持する記憶手段と、 木構造表現された標準パタンのフレームベクトルを保持
    する記憶手段と、入力パタンの各時刻の特徴ベクトルと
    フレームベクトルとの距離(フレーム距離)を算出する
    フレーム距離計算手段と、 前記フレーム距離を用いて、入力パタンと標準パタンと
    のマッチングを行う手段と、 前記マッチングにより対応づけられた、入力パタンの各
    時刻の特徴ベクトルと標準パタンのフレームベクトルと
    の差ベクトルを算出する手段と、 前記差ベクトルを対応するリーフノード毎に保持する差
    ベクトル記憶手段と、 前記差ベクトル記憶手段により保持された差ベクトルか
    らリーフノードの適応化ベクトルを計算し出力する手段
    と、 指定されたノード(クラスタ)の適応化ベクトルを子ノ
    ード適応化ベクトルから求める手段と、 前記適応化ベクトル算出手段を制御して、リーフノード
    から親ノードをたどって順次適応化ベクトルを求める手
    段と、 クラスタベクトルに適応化ベクトルを加え新しいクラス
    タベクトルとする手段と、を含んで構成されることを特
    徴とする話者学習装置。
  2. 【請求項2】 対応する適応化ベクトルがないリーフノ
    ードの適応化ベクトルを特徴ベクトル空間における内挿
    を用いて求める手段を含んで構成されることを特徴とす
    る請求項1記載の話者学習装置。
  3. 【請求項3】 マッチングの手段としてDPマッチング
    を用いることを特徴とする請求項1記載の話者学習装
    置。
  4. 【請求項4】 マッチングの手段として混合連続分布
    HMMを用い、フレーム間距離としてフレーム分布に対
    する特徴ベクトルの尤度を用い、クラスタベクトルとし
    てフレーム分布の平均ベクトルを用いることを特徴とす
    る請求項1記載の話者学習装置。
  5. 【請求項5】 指定されたノード(クラスタ)の適応化
    ベクトルをそのノードの下のリーフノードに対応する差
    ベクトルから計算することを特徴とす請求項1記載の話
    者学習装置。
JP5257406A 1993-10-15 1993-10-15 話者学習装置 Expired - Fee Related JP2705537B2 (ja)

Priority Applications (1)

Application Number Priority Date Filing Date Title
JP5257406A JP2705537B2 (ja) 1993-10-15 1993-10-15 話者学習装置

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
JP5257406A JP2705537B2 (ja) 1993-10-15 1993-10-15 話者学習装置

Publications (2)

Publication Number Publication Date
JPH07114394A JPH07114394A (ja) 1995-05-02
JP2705537B2 true JP2705537B2 (ja) 1998-01-28

Family

ID=17305940

Family Applications (1)

Application Number Title Priority Date Filing Date
JP5257406A Expired - Fee Related JP2705537B2 (ja) 1993-10-15 1993-10-15 話者学習装置

Country Status (1)

Country Link
JP (1) JP2705537B2 (ja)

Families Citing this family (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP3092491B2 (ja) * 1995-08-30 2000-09-25 日本電気株式会社 記述長最小基準を用いたパターン適応化方式
JP6429383B2 (ja) * 2015-01-13 2018-11-28 日本放送協会 下位表現抽出装置およびプログラム

Family Cites Families (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JPS62245294A (ja) * 1986-04-17 1987-10-26 株式会社リコー 音声認識方式

Non-Patent Citations (4)

* Cited by examiner, † Cited by third party
Title
古井「音声認識における話者適応化技術」テレビジョン学会誌VOL.43,NO.9(1989),PP929−934
山下、松本「単語音声認識におけるベクトル量子化誤差を利用した話者適応」信学技報SP87−118,PP35−42
渡部、篠田ら「木構造確率分布を用いた音声認識」音講論集1−8−7(平成5年10月),PP13−14
篠田、渡部「木構造化された確率分布を用いた話者適応化」音講論集2−5−10(平成7年3月),PP49−50

Also Published As

Publication number Publication date
JPH07114394A (ja) 1995-05-02

Similar Documents

Publication Publication Date Title
JP2795058B2 (ja) 時系列信号処理装置
JP2522154B2 (ja) 音声認識システム
US5812975A (en) State transition model design method and voice recognition method and apparatus using same
JP5418223B2 (ja) 音声分類装置、音声分類方法、および音声分類用プログラム
US5793891A (en) Adaptive training method for pattern recognition
JP2733955B2 (ja) 適応型音声認識装置
JP2007047818A (ja) 最適化された部分的確率混合共通化を用いる音声認識のための方法および装置
JPH0934486A (ja) 音声認識方法、情報形成方法、音声認識装置および記録媒体
EP1465154A2 (en) Method of speech recognition using variational inference with switching state space models
JP3092491B2 (ja) 記述長最小基準を用いたパターン適応化方式
WO2007105409A1 (ja) 標準パタン適応装置、標準パタン適応方法および標準パタン適応プログラム
Digalakis et al. Rapid speech recognizer adaptation to new speakers
JP2751856B2 (ja) 木構造を用いたパターン適応化方式
JP2009086581A (ja) 音声認識の話者モデルを作成する装置およびプログラム
JP2852298B2 (ja) 標準パターン適応化方式
US7089183B2 (en) Accumulating transformations for hierarchical linear regression HMM adaptation
JP2705537B2 (ja) 話者学習装置
JP3589044B2 (ja) 話者適応化装置
JP2570448B2 (ja) 標準パターン学習方法
JP4256314B2 (ja) 音声認識用音響モデル作成方法、音声認識用音響モデル作成装置、音声認識用音響モデル作成プログラム及びこのプログラムを記録した記録媒体
JP3091648B2 (ja) 隠れマルコフモデルの学習方法
JP4004368B2 (ja) 音声認識システム
JP3251005B2 (ja) 標準パターン作成方法
JP2701500B2 (ja) 音声認識装置のための標準パターン学習方式
JP2005321660A (ja) 統計モデル作成方法、その装置、パターン認識方法、その装置、これらのプログラム、その記録媒体

Legal Events

Date Code Title Description
A01 Written decision to grant a patent or to grant a registration (utility model)

Free format text: JAPANESE INTERMEDIATE CODE: A01

Effective date: 19970909

FPAY Renewal fee payment (event date is renewal date of database)

Free format text: PAYMENT UNTIL: 20071009

Year of fee payment: 10

FPAY Renewal fee payment (event date is renewal date of database)

Free format text: PAYMENT UNTIL: 20081009

Year of fee payment: 11

FPAY Renewal fee payment (event date is renewal date of database)

Free format text: PAYMENT UNTIL: 20091009

Year of fee payment: 12

FPAY Renewal fee payment (event date is renewal date of database)

Free format text: PAYMENT UNTIL: 20091009

Year of fee payment: 12

FPAY Renewal fee payment (event date is renewal date of database)

Free format text: PAYMENT UNTIL: 20101009

Year of fee payment: 13

FPAY Renewal fee payment (event date is renewal date of database)

Free format text: PAYMENT UNTIL: 20111009

Year of fee payment: 14

FPAY Renewal fee payment (event date is renewal date of database)

Free format text: PAYMENT UNTIL: 20121009

Year of fee payment: 15

FPAY Renewal fee payment (event date is renewal date of database)

Free format text: PAYMENT UNTIL: 20131009

Year of fee payment: 16

LAPS Cancellation because of no payment of annual fees