JP3427500B2 - Membership calculation device and HMM device - Google Patents
Membership calculation device and HMM deviceInfo
- Publication number
- JP3427500B2 JP3427500B2 JP18747294A JP18747294A JP3427500B2 JP 3427500 B2 JP3427500 B2 JP 3427500B2 JP 18747294 A JP18747294 A JP 18747294A JP 18747294 A JP18747294 A JP 18747294A JP 3427500 B2 JP3427500 B2 JP 3427500B2
- Authority
- JP
- Japan
- Prior art keywords
- degree
- occurrence
- calculation
- observation vector
- hmm
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Expired - Fee Related
Links
- 238000004364 calculation method Methods 0.000 title claims description 38
- 239000013598 vector Substances 0.000 claims description 69
- 238000013528 artificial neural network Methods 0.000 claims description 13
- 230000006870 function Effects 0.000 claims description 9
- 230000001537 neural effect Effects 0.000 claims 1
- 238000000034 method Methods 0.000 description 10
- 230000002195 synergetic effect Effects 0.000 description 7
- 238000010586 diagram Methods 0.000 description 5
- 238000000605 extraction Methods 0.000 description 5
- 239000000654 additive Substances 0.000 description 3
- 230000000996 additive effect Effects 0.000 description 3
- 238000005192 partition Methods 0.000 description 2
- 238000013139 quantization Methods 0.000 description 2
- 230000007704 transition Effects 0.000 description 2
- 238000004422 calculation algorithm Methods 0.000 description 1
- 230000000694 effects Effects 0.000 description 1
- 238000002372 labelling Methods 0.000 description 1
- 238000003909 pattern recognition Methods 0.000 description 1
- 230000017105 transposition Effects 0.000 description 1
Description
【0001】[0001]
【産業上の利用分野】本発明は音声認識装置に関するも
のである。BACKGROUND OF THE INVENTION 1. Field of the Invention The present invention relates to a voice recognition device.
【0002】[0002]
【従来の技術】HMM(Hidden Markov Model)が音声
認識の分野で盛んに用いられるようになってきた。その
中の1つにファジィベクトル量子化に基づくHMM(F
VQ/HMM)がある。電子情報通信学会技術報告SP
93−27(1993年6月)には相乗型と相加型のF
VQ/HMMが記載されており、特に相乗型FVQ/H
MMは優れた性能を示すものとして注目に値する。2. Description of the Related Art HMM (Hidden Markov Model) has been widely used in the field of speech recognition. One of them is the HMM (F
VQ / HMM). IEICE Technical Report SP
93-27 (June 1993) has a synergistic and additive F
VQ / HMM is described, especially synergistic FVQ / H
It is worth noting that MM shows excellent performance.
【0003】(図1)(a)はFVQ/HMMの一般的
な原理を説明するブロック図である。FIG. 1A is a block diagram for explaining the general principle of FVQ / HMM.
【0004】100は特徴抽出部であって、認識すべき
入力音声は、例えば、10msec毎に特徴ベクトルに変換
される。特徴量としては、例えばケプストラムおよびそ
の回帰係数等が最近では良く用いられる。Reference numeral 100 denotes a feature extraction unit, which converts an input voice to be recognized into a feature vector every 10 msec, for example. As the feature amount, for example, cepstrum and its regression coefficient are often used recently.
【0005】101はベクトル量子化部であって、前記
特徴ベクトルは帰属度ベクトルに変換される。102は
コードブックであって前記ベクトル量子化は、このコー
ドブックの情報に基づいて行われる。Reference numeral 101 is a vector quantizer, which converts the feature vector into a membership vector. Reference numeral 102 denotes a codebook, and the vector quantization is performed based on the information of this codebook.
【0006】コードブック102はコードブック作成用
の訓練ベクトル集合をMのクラスタにクラスタリング
し、各クラスタにラベル付けし、前記各クラスタの代表
ベクトルをそのラベルで検索可能な形で記憶したもので
ある。ここで、前記訓練ベクトル集合は、予めコードブ
ック作成のために発声された種々の音声を、前記特徴抽
出部100を用いて、もしくはそれと同様な動作をする
特徴抽出手段を用いて、別途特徴ベクトルに変換したも
のからなる。前記代表ベクトルは、通常は前記各クラス
タの平均ベクトルである。The codebook 102 is obtained by clustering a training vector set for creating a codebook into M clusters, labeling each cluster, and storing a representative vector of each cluster in a searchable form by the label. . Here, the training vector set is obtained by using the feature extraction unit 100 or a feature extraction unit that operates in a similar manner as the feature vectors of various voices uttered in advance for codebook creation. It consists of the converted into. The representative vector is usually an average vector of each cluster.
【0007】前記帰属度ベクトルは、各時点における特
徴ベクトルの前記各クラスタに対する帰属度を要素とす
るベクトルであって、時点tにおける特徴ベクトルをy
t、前記クラスタをC1,...,CMとし、ytのCmに対する
帰属度をutmとすれば、ytが変換された帰属度ベクト
ルはut=(ut1,...,utM)Tとなる。以後本願において
はベクトルは縦ベクトルとし、Tは転置を表すこととす
る。ここに、utmの定義としては種々考えられるが、C
mの代表ベクトルをμm、ytとμmのユークリッド距離を
dtm=[(yt−μm)T(yt−μm)]1/2とするとき、例えばThe belonging degree vector is a vector having the degree of belonging of the feature vector at each time point to each cluster as an element, and the feature vector at the time point t is y.
t, C 1 the cluster, ..., and C M, y if t attribution degree for C m and u tm of the membership vector y t is converted u t = (u t1, .. ., u tM ) T. Hereinafter, in the present application, the vector is a vertical vector, and T represents transposition. There are various possible definitions of u tm here, but C
When the representative vector of m is μ m and the Euclidean distance between y t and μ m is d tm = [(y t −μ m ) T (y t −μ m )] 1/2 , for example,
【0008】[0008]
【数1】 [Equation 1]
【0009】と定義できる(J. G. Bezdek:“Pattern R
ecognition with Fuzzy Objective Function Algorith
m", Plenum Press, New York (1981).)。[JG Bezdek: “Pattern R
ecognition with Fuzzy Objective Function Algorith
m ", Plenum Press, New York (1981).).
【0010】計算量の削減のために、実際には、前記帰
属度は、全てのクラスタについて計算されるものではな
く、dtmが最小のクラスタからk番目に小さいクラスタ
について計算される。即ち、前記帰属度ベクトルutを
形成する要素は、帰属度の大きいクラスタの上位k(k-
nearest neighbor)に関しては(数1)で計算された値
であり、他は0とされる。In order to reduce the amount of calculation, actually, the degree of membership is not calculated for all the clusters, but is calculated for the kth smallest cluster from the cluster with the smallest d tm . That is, the elements forming the degree-of-association vector u t are the upper k (k-k
"nearest neighbor" is a value calculated by (Equation 1), and other values are set to 0.
【0011】103はHMM記憶部であって、認識すべ
き単語や音節等の各認識単位w=1,...,Wに対応した
HMMを記憶したものである。104は尤度計算部であ
って、前記ベクトル量子化部の出力に得られる帰属度ベ
クトル系列から、前記各HMMの入力音声に対する尤
度、即ち、前記特徴ベクトルの系列y1,...,yTが前記
各HMMから発生する度合を計算するものである。Reference numeral 103 denotes an HMM storage unit which stores HMMs corresponding to respective recognition units w = 1, ..., W such as words and syllables to be recognized. Reference numeral 104 denotes a likelihood calculation unit, which calculates the likelihood of the input voice of each HMM, that is, the feature vector sequence y 1 , ..., From the belonging degree vector sequence obtained at the output of the vector quantization unit. The degree of occurrence of y T from each HMM is calculated.
【0012】105は判定部であって、y1,...,yTが
HMMwから発生する度合いをL w とするときReference numeral 105 denotes a determination unit, which is used when the degree of occurrence of y 1 , ..., Y T from HMMw is L w.
【0013】[0013]
【数2】 [Equation 2]
【0014】を計算し、w*を認識結果とするものであ
る。(図1)(b)はHMMの原理を説明する説明図で
ある。q1,...,qJ+1は状態、aijは状態iから状態j
への遷移確率、ωi(yt)は状態iにおけるytの発生度
合である。これらの記号を用いれば、特徴ベクトルの系
列y1,...,yTがこのHMMから発生する度合Lは(数
3)のようになる。ただし、X=(x1,x2,...,xT+1=
qJ+1)は状態系列であって、最終状態J+1を仮定し、
時点T+1で状態J+1に到達するものとし、状態J+
1においてはベクトルは発生しないとする。また、πi
はt=1で状態iである確率、λは当該HMMのパラメ
ータ集合である。Is calculated, and w * is used as the recognition result. (FIG. 1) (b) is an explanatory view for explaining the principle of the HMM. q 1 , ..., q J + 1 is a state, a ij is a state i to a state j
The transition probability to, ω i (y t ) is the degree of occurrence of y t in state i. If these symbols are used, the degree L that the series of feature vectors y 1 , ..., Y T is generated from this HMM is as shown in (Equation 3). However, X = (x 1 , x 2 , ..., x T + 1 =
q J + 1 ) is a sequence of states, assuming the final state J + 1,
Assume that state J + 1 is reached at time T + 1, and state J +
In the case of 1, no vector is generated. Also, π i
Is the probability that the state is i at t = 1, and λ is the parameter set of the HMM.
【0015】[0015]
【数3】 [Equation 3]
【0016】尤度計算部104は、認識単位wに対応す
る尤度Lwをw=1,...,Wについて(数3)に従って計
算するものであるが、前記ωi(yt)の定義の仕方によっ
て種々のHMMが定義される。ここで問題としているF
VQ/HMMはωi(yt)を原理的には次のように定義し
たものである。
(1)相乗型FVQ/HMMの場合The likelihood calculating unit 104 calculates the likelihood L w corresponding to the recognition unit w in accordance with (Equation 3) for w = 1, ..., W. The above-mentioned ω i (y t ) Various HMMs are defined according to the definition method of. The problem here is F
In VQ / HMM, ω i (y t ) is defined in principle as follows. (1) In the case of synergistic FVQ / HMM
【0017】[0017]
【数4】 [Equation 4]
【0018】相乗型という呼称は(数4)後者の表現か
ら来ている。
(2)相加型FVQ/HMMThe name synergistic comes from the latter expression (Equation 4). (2) Additive FVQ / HMM
【0019】[0019]
【数5】 [Equation 5]
【0020】相加型という呼称は(数5)の表現から来
ている。ここで、bimは状態iにおけるクラスタmの発
生確率、utmはytのクラスタmへの帰属度である。前
記のように実際には(数4)あるいは(数5)における
加算あるいは乗算は帰属度の上位Kクラスタのみで行わ
れるものであり、この場合は、(数4)(数5)は(数
6)(数7)のようになる。ただし、h(k)はytがk
番目に帰属度の高いクラスタである。The name "additive type" comes from the expression (Equation 5). Here, b im is the probability of occurrence of cluster m in state i, and u tm is the degree of membership of y t in cluster m. As described above, the addition or multiplication in (Equation 4) or (Equation 5) is actually performed only in the upper K cluster of the degree of membership, and in this case, (Equation 4) (Equation 5) becomes 6) It becomes like (Equation 7). However, for h (k), y t is k
This is the second highest cluster.
【0021】[0021]
【数6】 [Equation 6]
【0022】[0022]
【数7】 [Equation 7]
【0023】実際の尤度計算は、(数3)をそのまま計
算するのではなく、Viterbi法がよく用いられ、対数化
して加算の形で用いられるのが普通である。即ち、For the actual likelihood calculation, the Viterbi method is often used instead of calculating (Equation 3) as it is, and it is common to use it in the form of addition after logarithmizing it. That is,
【0024】[0024]
【数8】 [Equation 8]
【0025】を計算し、L'を尤度とする。(数8)は
動的計画法によって効率的に計算することができる。即
ち、## EQU1 ## Let L'be the likelihood. (Equation 8) can be efficiently calculated by dynamic programming. That is,
【0026】[0026]
【数9】 [Equation 9]
【0027】をφi(1)=log πiとして、t=2,...,
T+1、i=1,...,J+1について漸化的に計算し、Let φ i (1) = log π i and t = 2, ...,
Recursively for T + 1, i = 1, ..., J + 1,
【0028】[0028]
【数10】 [Equation 10]
【0029】として求められる。認識結果としては、L
を用いてもL'を用いても大差がないということから、
認識においてはViterbi法を用いるのが一般的である。
なお、(数9)の漸化式の計算においてはlog ωj(yt)
の計算が必要であるが、相乗型の場合は、bimの代わり
にlog bimを記憶しておけば、(数6)前半の式を用い
ることにより、log ωj(yt)の計算は積和のみで済むか
ら、計算量的にも相乗型を用いるのが最も有利である。Is calculated as The recognition result is L
Since there is no big difference between using and L ',
The Viterbi method is generally used for recognition.
In the calculation of the recurrence formula of (Equation 9), log ω j (y t )
It is necessary for calculation in the case of a synergistic type, by storing the log b im instead of b im, by using the equation (6) the first half of the equation, log omega j calculations (y t) Since only the sum of products is required, it is most advantageous to use the synergistic type in terms of calculation amount.
【0030】[0030]
【発明が解決しようとする課題】前記従来例において
は、帰属度utmは(数1)により計算している。これ
は、ファジィクラスタリングにおける目的関数In the above conventional example, the degree of membership u tm is calculated by ( Equation 1). This is the objective function in fuzzy clustering
【0031】[0031]
【数11】 [Equation 11]
【0032】をTo
【0033】[0033]
【数12】 [Equation 12]
【0034】の条件のもとで最小化すると言う基準によ
り導かれたものである。然るに、(数11)は、天下り
的に与えられたものであって、理論的あるいは実験的に
導かれたものではなく、実際の世界におけるモデルとし
て必ずしも最適であるとは言えない。It is derived by the criterion of minimizing under the condition of. However, (Equation 11) is given in a descending direction, is not derived theoretically or experimentally, and cannot be said to be optimal as a model in the actual world.
【0035】[0035]
【課題を解決するための手段】クラスタ数をM、観測ベ
クトルをyとするとき、階層型ニューラルネットワーク
からなり、その入力層のユニットのそれぞれをyの各要
素に対応させ、出力層の第m番のユニットの出力をyの
クラスタm(=1,...,M)への帰属度あるいはクラス
タmのyに対する事後確率(以後、これも含めて帰属度
と呼ぶ)となしたことを特徴とする帰属度算出手段。When the number of clusters is M and the observation vector is y, it consists of a hierarchical neural network, and each unit of its input layer is associated with each element of y, and the m-th layer of the output layer. The output of the number unit is the degree of membership of y in cluster m (= 1, ..., M) or the posterior probability of cluster m in y (hereinafter, this is also referred to as membership degree). A means of calculating the degree of belonging.
【0036】[0036]
【作用】クラスタ数をM、観測ベクトルをyとすると
き、階層型ニューラルネットワークの入力層のユニット
のそれぞれをyの各要素に対応させ、出力層の第m番の
ユニットの出力をyのクラスタm(=1,...,M)への
帰属度あるいはクラスタmのyに対する事後確率(以
後、これも含めて帰属度と呼ぶ)となす。When the number of clusters is M and the observation vector is y, each unit of the input layer of the hierarchical neural network corresponds to each element of y, and the output of the m-th unit of the output layer is the cluster of y. The degree of membership to m (= 1, ..., M) or the posterior probability of cluster m to y (hereinafter also referred to as the degree of membership).
【0037】[0037]
【実施例】Cmをクラスタmとするとき、utmは事後確
率P(Cm|yt)であると解釈でき、FVQ/HMMはク
ラスタの事後確率を帰属度で定義したものであると解釈
できる。然らば、この考え方を敷衍して、ytに対する
Cmの事後確率を別途何等かの方法で求めることが出来
れば、これをFVQ/HMMの帰属度として用いること
が出来るはずである。EXAMPLES When C m is a cluster m, u tm can be interpreted as a posterior probability P (C m | y t ), and FVQ / HMM is a posterior probability of a cluster defined by a degree of membership. Can be interpreted. Obviously, if this idea is applied and the posterior probability of C m with respect to y t can be obtained by some other method, this should be used as the degree of membership of FVQ / HMM.
【0038】一方、階層型ニューラルネットワークを、
入力層の各ユニットを識別すべき特徴ベクトルの要素の
それぞれに対応させ、出力層の第mユニットをクラスタ
mに対応させた構成とし、学習用ベクトル集合を用い
て、入力層に順次与えられるベクトルに対して、そのベ
クトルが帰属すべきクラスタに対応する出力層のユニッ
トの出力が1、他のユニットの出力が0になるように学
習しておけば、未知入力ytが入力されたときに第mユ
ニットの出力に得られる出力は、P(Cm|yt)に相当す
るという知見がある(栗田多喜夫:"情報量基準による
3層ニューラルネットの隠れ層のユニット数の決定
法",電子情報通信学会論文誌D-II,Vol.J73-D-II,No.
11,pp.1872-1878(1990年11月))。本願発明はこの事実
を利用するものである。On the other hand, the hierarchical neural network is
Each unit of the input layer is made to correspond to each element of the feature vector to be identified, and the m-th unit of the output layer is made to correspond to the cluster m, and a vector sequentially given to the input layer by using the learning vector set. On the other hand, if learning is performed so that the output of the unit in the output layer corresponding to the cluster to which the vector should belong becomes 1 and the outputs of other units become 0, when the unknown input y t is input. It is known that the output obtained as the output of the m-th unit corresponds to P (C m | y t ). (Takio Kurita: “Method of determining the number of hidden layer units in a three-layer neural network based on the information criterion”), IEICE Transactions D-II, Vol.J73-D- II, No.
11, pp.1872-1878 (November 1990)). The present invention utilizes this fact.
【0039】従って、モデル作成の手順は次のようにな
る。
(1)コードブックの作成
訓練ベクトル集合をクラスタリングしてM個のクラスタ
に分ける。各クラスタにはラベル1,...,Mが振られ、
そのラベルによって各クラスタのセントロイド、即ち、
各クラスタの代表ベクトルが検索可能な形で記憶され
る。具体的にはL.B.Gアルゴリズム等が用いられる。
(2)ニューラルネットワークの学習
ここで用いるべきニューラルネットワークは(図3)に
示す。本例は3層の場合である。それぞれ入力層、中間
層、出力層等と呼ばれる。○はユニットと呼ばれるもの
で、入出力特性は、入力層では1、中間層では1/[1
+exp(−θ)]、出力層では1または1/[1+exp(−
θ)]とする場合が多い。ここで、θは入力レベルであ
る。1/[1+exp(−θ)]はシグモイド関数と呼ばれ
る。第u層の第kユニットと第u+1層の第jユニット
の間は、重みwu k u+1 jで結合され、第u層の第kユニッ
トの出力をou kとすれば、第u+1層の第jユニットの
入力はiu+1 j=Σk ou kwu k u+1 jである。Therefore, the model creating procedure is as follows. (1) Creating a codebook The training vector set is clustered and divided into M clusters. Labels 1, ..., M are assigned to each cluster,
By its label, the centroid of each cluster, ie
The representative vector of each cluster is stored in a searchable form. Specifically, the LBG algorithm or the like is used. (2) Learning of neural network The neural network to be used here is shown in (Fig. 3). This example is a case of three layers. They are called the input layer, the intermediate layer, and the output layer, respectively. ○ is called a unit, and the input / output characteristics are 1 in the input layer and 1 / [1 in the intermediate layer.
+ Exp (-θ)], 1 or 1 / [1 + exp (-
θ)] in many cases. Here, θ is the input level. 1 / [1 + exp (-θ)] is called a sigmoid function. The k-th unit of the u-th layer and the j-th unit of the u + 1-th layer are connected with a weight w u k u + 1 j , and if the output of the k-th unit of the u-th layer is o u k , then the u + 1-th unit The input of the j-th unit of the layer is i u + 1 j = Σ k o u k w u k u + 1 j .
【0040】ニューラルネットワークの学習は、学習用
入力ベクトルに対して所望の出力を教師信号として与え
ることにより、これら重み係数を決定することである。
これは実際の出力と所望の出力との2乗誤差を最小化す
る値として、繰り返し計算により求められる。本発明に
おいては具体的には次のようにして行う。The learning of the neural network is to determine these weighting factors by giving a desired output as a teacher signal to the learning input vector.
This is a value that minimizes the squared error between the actual output and the desired output, and is obtained by iterative calculation. In the present invention, specifically, it is performed as follows.
【0041】出力層の第kユニットの出力をoU kとする
とき、上記クラスタリングにおいて、yn∈Cmの学習ベ
クトルに対して、oU k=1(k=m)、oU k=0(k≠
m)となるように学習する。ただし、n=1,...,Nは
訓練ベクトルに付された通し番号である。このとき最小
化すべき目的関数は(数13)のようになる。ただし、
δkmはクロネッカーのδであって、k=mのときはδkm
=1、k≠mのときはδkm=0である。When the output of the k-th unit of the output layer is o U k , in the above clustering, o U k = 1 (k = m), o U k = for the learning vector of y n εC m. 0 (k ≠
m) to learn. However, n = 1, ..., N is a serial number attached to the training vector. At this time, the objective function to be minimized is as shown in (Equation 13). However,
δ km is Kronecker δ, and when k = m, δ km
= 1 and k ≠ m, δ km = 0.
【0042】[0042]
【数13】 [Equation 13]
【0043】(数13)の最小化はバックプロパゲーシ
ョンと呼ばれる周知の方法によって計算される(省
略)。
(3)HMMの学習
HMMの学習は、初期確率πi、状態遷移確率aij、ク
ラスタの発生確率bimを学習データ(単語などの認識単
位に対応して得られた特徴ベクトル系列の集合)から推
定することであって、Baum-Welchと呼ばれる周知の方法
によって行われ得る(省略)。この場合、本願発明の従
来のモデルと異なるところは(数4)〜(数7)におけ
るutmの計算を入力ytに対する前記ニューラルネット
ワークの出力とする点である。The minimization of (Equation 13) is calculated by a known method called back propagation (omitted). (3) Learning of HMM In learning of HMM, initial probability π i , state transition probability a ij , cluster occurrence probability b im are learning data (a set of feature vector sequences obtained corresponding to recognition units such as words). It can be performed by a well-known method called Baum-Welch (omitted). In this case, the difference from the conventional model of the present invention is that the calculation of u tm in ( Equation 4) to ( Equation 7) is used as the output of the neural network for the input y t .
【0044】単語1,...,Wを認識する場合は、単語
1,...,Wに対応した発声音声から学習用特徴ベクトル
系列群を得る。When recognizing words 1, ..., W, a learning feature vector sequence group is obtained from the voiced speech corresponding to words 1 ,.
【0045】認識の手順は次のようになる。
(1)尤度の計算
入力された音声に対するHMMの尤度の計算法を説明す
る。(図2)は本発明による尤度計算装置の一実施例で
ある。尤度を計算すべきHMMは上記のごとくして既に
計算され、HMM記憶部204に記憶されている。20
0は音声入力端子であって、認識すべき音声が入力され
る。201は特徴抽出部であって、例えば、10msec毎
(フレームと呼ばれる)に特徴ベクトルytに変換され
る。tはフレーム番号である。特徴量としては、LPC
やケプストラム等周知のものが用いられ、ytはこれら
の特徴量を要素とする通常10数次元のベクトルであ
る。202は帰属度計算部であって、前述のごとく階層
型のニューラルネットワークで構成されており、ytの
各クラスタへの帰属度(ytに対する各クラスタの事後
確率)utm=P(Cm|yt)が計算される。203は尤度
計算部であって、前記帰属度に基づいて(数9)が計算
される。205は計算された尤度の出力端子である。
(2)認識
(図4)は本発明による音声認識装置の一実施例であ
る。206はHMM記憶部であって、認識単位1,...,
Wに対応したモデル、即ち、HMM 1,HMM 2,...,
HMM Wが記憶されている。200〜203は(図
2)における同じ番号を付したブロックと同じ働きをす
るブロックである。ただし、203では帰属度計算部2
03の出力に対してるHMM 1,HMM 2,..., HM
M Wすべてのモデルの尤度が計算される。207は判
定部であって、認識単位wに対する尤度をLwとすると
き、(数2)を計算するものである。208は認識結果
w*を出力する端子である。The recognition procedure is as follows. (1) Calculation of Likelihood A method of calculating the likelihood of HMM for the input speech will be described. FIG. 2 shows an embodiment of the likelihood calculation device according to the present invention. The HMM for which the likelihood should be calculated is already calculated as described above and is stored in the HMM storage unit 204. 20
Reference numeral 0 is a voice input terminal for inputting a voice to be recognized. Reference numeral 201 denotes a feature extraction unit, which converts the feature vector y t every 10 msec (called a frame), for example. t is a frame number. As a feature quantity, LPC
Well-known ones such as a cepstrum and a cepstrum are used, and y t is usually a vector of ten-odd dimension having these feature quantities as elements. 202 is a degree of membership calculation unit is constituted by a neural network of a hierarchical as described above, (posterior probability of each cluster for y t) membership to each cluster of y t u tm = P (C m | y t ) is calculated. A likelihood calculating unit 203 calculates (Equation 9) based on the degree of membership. 205 is an output terminal of the calculated likelihood. (2) Recognition (FIG. 4) is an embodiment of the voice recognition device according to the present invention. Reference numeral 206 denotes an HMM storage unit, which has recognition units 1, ...,
A model corresponding to W, that is, HMM 1, HMM 2, ...,
HMM W is stored. Reference numerals 200 to 203 are blocks having the same functions as the blocks having the same numbers in (FIG. 2). However, in 203, the degree of membership calculator 2
HMM 1, HMM 2, ..., HM for output 03
MW The likelihoods of all models are calculated. A determination unit 207 calculates (Equation 2) when the likelihood for the recognition unit w is L w . A terminal 208 outputs the recognition result w * .
【0046】[0046]
【発明の効果】以上のようにして、実際のデータからク
ラスタの事後確率を計算するニューラルネットワークを
直接学習するようにしたので、より現実に近い形でyt
に対する各クラスタの事後確率を得ることが出来、認識
率の向上が期待される。As described above, since the neural network for calculating the posterior probability of clusters is directly learned from the actual data, y t can be obtained in a more realistic manner.
The posterior probability of each cluster can be obtained, and the recognition rate is expected to improve.
【図1】従来のFVQ/HMMの一実施例を示すブロッ
ク図FIG. 1 is a block diagram showing an embodiment of a conventional FVQ / HMM.
【図2】本発明による尤度計算の一実施例を示すブロッ
ク図FIG. 2 is a block diagram showing an embodiment of likelihood calculation according to the present invention.
【図3】本発明による音声認識装置の一実施例を示す図FIG. 3 is a diagram showing an embodiment of a voice recognition device according to the present invention.
【図4】本発明による音声認識装置の一実施例を示すブ
ロック図FIG. 4 is a block diagram showing an embodiment of a voice recognition device according to the present invention.
100 特徴抽出部 101 ベクトル量子化部 102 コードブック 103 HMM記憶部 104 尤度算出部 105 判定部 100 feature extraction unit 101 Vector quantizer 102 Codebook 103 HMM storage unit 104 Likelihood calculator 105 determination unit
フロントページの続き (56)参考文献 丹康雄,江島俊朗,多入/出力素子を 用いたネットワークFuzzy Par tition Modelの提案とその 基本的性質,電子情報通信学会技術研究 報告[パターン認識・理解],1989年 9月21日,PRU89−45,p.39−46 坪香英一,中橋順一,相乗型FVQ /HMM,電子情報通信学会技術研究報 告[音声],日本,1993年 6月18日, SP93−27,p.25−32 坪香英一,中橋順一,FVQ/HMM に関する一考察,日本音響学会平成4年 度秋季研究発表会講演論文集,日本, 1992年10月 5日,2−1−2,p.81 −82 中橋順一,坪香英一,コードベクトル 作成におけるHMMの構造反映の効果, 日本音響学会平成5年度春季研究発表会 講演論文集,日本,1993年 3月17日, 2−4−3,p.23−24 加藤喜永,杉山雅英,ファジィパーテ ィションモデルを用いた連続音声認識, 電子情報通信学会技術研究報告[音声 ],日本,1992年 6月30日,SP92− 28,p.31−37 坪香英一,中橋順一,特徴ベクトル間 の非類似度を帰属度ベクトル間の非類似 度とする音声認識,電子情報通信学会論 文誌D−II,日本,1996年12月,Vo l.J79−D−II No.12,p. 2039−2046 (58)調査した分野(Int.Cl.7,DB名) G10L 15/10 G10L 15/14 G10L 15/16 G06F 15/18 560 JICSTファイル(JOIS)Continuation of the front page (56) References Yasuo Tan, Toshiro Ejima, Proposal of a network Fuzzy Partition Model using multiple input / output elements and its basic properties, IEICE Technical Report [Pattern Recognition / Understanding], September 21, 1989, PRU89-45, p. 39-46 Eiichi Tsubo, Junichi Nakahashi, Synergistic FVQ / HMM, Technical Report of IEICE [Voice], Japan, June 18, 1993, SP93-27, p. 25-32 Eiichi Tsubo, Junichi Nakahashi, A Study on FVQ / HMM, Proceedings of the 1994 Autumn Meeting of the Acoustical Society of Japan, Japan, October 5, 1992, 2-1-2, p. 81-82 Junichi Nakahashi, Eiichi Tsubo, Effect of HMM Structure Reflection on Code Vector Creation, Proceedings of the 5th Spring Research Conference of ASJ, Japan, March 17, 1993, 2-4-3 , P. 23-24 Kato Yoshinaga, Sugiyama Masahide, Continuous Speech Recognition Using Fuzzy Partition Model, IEICE Technical Report [Speech], Japan, June 30, 1992, SP92-28, p. 31-37 Eiichi Tsubo, Junichi Nakahashi, Speech recognition with dissimilarity between feature vectors as dissimilarity between attribution vectors, IEICE Transactions D-II, Japan, December 1996, Vol. J79-D-II No. 12, p. 2039-2046 (58) Fields investigated (Int.Cl. 7 , DB name) G10L 15/10 G10L 15/14 G10L 15/16 G06F 15/18 560 JISST file (JOIS)
Claims (14)
とき、階層型ニューラルネットワークからなり、その入
力層のユニットのそれぞれをyの各要素に対応させ、出
力層の第m(=1,...,M)番のユニットの出力をyの
クラスタmへの帰属度あるいはクラスタmのyに対する
事後確率(以後、これも含めて帰属度と呼ぶ)となした
帰属度算出手段と、クラスタmの発生確率をb m 、yの
クラスタmへの帰属度をu m とするとき、yの発生度合
(yの観測される度合)をb m とu m の関数として算出す
るものであって、u m は前記帰属度算出手段によって算
出されることを特徴とする観測ベクトル発生度合算出装
置。 1. When the number of clusters is M and the observation vector is y, it is composed of a hierarchical neural network, each unit of its input layer is associated with each element of y, and the m-th (= 1, 1, The output of unit No ...., M) is defined as the degree of membership of y to cluster m or the posterior probability of cluster m to y (hereinafter, this is also referred to as the degree of membership) .
The degree of membership calculation means and the probability of occurrence of cluster m in b m and y
When the degree of membership in cluster m is u m , the degree of occurrence of y
Calculate (observed degree of y) as a function of b m and u m
Where u m is calculated by the degree-of-attribute calculating means.
A device for calculating the degree of occurrence of observation vectors characterized by being transmitted
Place
を重みとする重み付き算術平均として算出することを特
徴とする請求項1記載の観測ベクトル発生度合算出装
置。2. The logarithm of the degree of occurrence is u m of the logarithm of b m .
Is calculated as a weighted arithmetic mean with
The observation vector generation degree calculation device according to claim 1, which is a characteristic .
付き幾何平均として算出することを特徴とする請求項1
記載の観測ベクトル発生度合算出装置。3. The degree of occurrence is the weight of b m , with u m as the weight.
The calculation is performed as an attached geometric mean.
The observation vector generation degree calculation device described .
付き算術平均として算出することを特徴とする請求項1
記載の観測ベクトル発生度合算出装置。4. The degree of occurrence is a weight of b m with a weight of u m
2. The calculation is performed as an arithmetic mean with addition.
The observation vector generation degree calculation device described .
kov Model)からなり、状態iにおけるクラスタm(=
1,...,M)の発生確率をb im 、時点tにおける観測ベ
クトルをy t 、y t のクラスタmへの帰属度をu tm とする
とき、状態iにおけるy t の発生度合(y t の観測される
度合)をb im とu tm の関数として算出する観測ベクトル
発生度合算出手段と、観測ベクトル系列y 1 ,y 2 ,...,y
T が前記HMMから発生する度合を前記観測ベクトル発
生度合算出手段の算出結果を用いて計算する観測ベクト
ル系列発生度合算出手段とを備え、u tm は、クラスタ数
をM、観測ベクトルをyとするとき、階層型ニューラル
ネットワークからなり、その入力層のユニットのそれぞ
れをyの各要素に対応させ、出力層の第m番のユニット
の出力をyのクラスタm(=1,...,M)への帰属度と
なしたことを特徴とする帰属度算出装置によって算出さ
れることを特徴とする尤度計算装置。 5. A hidden Markov model (HMM: Hidden Mar
kov Model), and the cluster m (=
1, ..., M) occurrence probability b im , and the observation vector at time t.
Let k utl be the degree of membership in the cluster m of y t and u tm .
Then, the occurrence degree of y t in state i (y t is observed
Degree) as the function of b im and u tm
Occurrence degree calculation means and observation vector series y 1 , y 2 , ..., y
The degree of occurrence of T from the HMM is calculated from the observation vector
Observation vector calculated using the calculation result of the degree calculation method
And u tm is the number of clusters
Is M and the observation vector is y, the hierarchical neural
It consists of a network and each of its input layer units
It corresponds to each element of y, and the mth unit of the output layer
Of the output of y to the cluster m (= 1, ..., M) of y
Calculated by a device for calculating degree of belonging characterized by
Likelihood calculation device characterized by the following.
Mと、隠れマルコフモデルwの状態iにおけるクラスタ
m(=1,...,M)の発生確率をb w im 、時点tにおける
観測ベクトルをy t 、y t のクラスタmへの帰属度をu tm
とするとき、HMM wの状態iにおけるy t の発生度合
(y t の観測される度合)をb w im とu tm の関数として算
出する観測ベクトル発生度合算出手段と、観測ベクトル
系列y 1 ,y 2 ,...,y T がHMM wから発生する度合L w
を前記観測ベクトル発生度合算出手段の算出結果を用い
てw=1,...,Wについて計算する観測ベクトル系列発
生度合算出手段と、L 1 ,...,L W のうちで最大となるw
を算出しそのwを認識結果と判定する認識結果判定手段
とを備え、u tm は、クラスタ数をM、観測ベクトルをy
とするとき、階層型ニューラルネットワークからなり、
その入力層のユニットのそれぞれをyの各要素に対応さ
せ、出力層の第m番のユニットの出力をyのクラスタm
(=1,...,M)への帰属度となしたことを特徴とする
帰属度算出装置によって算出されることを特徴とする認
識装置。 6. W HMs corresponding to recognition units 1, ..., W
M and a cluster in the state i of the hidden Markov model w
The probability of occurrence of m (= 1, ..., M) is b w im , at time t
The observation vector is y t , and the degree of membership of y t in cluster m is u tm
And the occurrence degree of y t in the state i of HMM w
Calculate ( observed degree of y t ) as a function of b w im and u tm
Observation vector generation degree calculation means to be issued and observation vector
Degree L w that the sequence y 1 , y 2 , ..., y T is generated from HMM w
Using the calculation result of the observation vector generation degree calculation means
, W, 1, ..., W calculation of observation vector series
The maximum w among the degree-of-life calculation means and L 1 , ..., L W
Result determination means for calculating and determining w as a recognition result
And u tm has the number of clusters M and the observation vector y
And consists of a hierarchical neural network,
Each of its input layer units corresponds to each element of y
The output of the m-th unit in the output layer to the cluster m of y
Characterized by the degree of membership in (= 1, ..., M)
An identification feature characterized by being calculated by a degree of membership calculator
Intelligence device.
を重みとする重み付き算術平均として算出することを特
徴とする請求項6記載の認識装置。7. The logarithmic value of the degree of occurrence is u m of the logarithmic value of b m .
Is calculated as a weighted arithmetic mean with
The recognition device according to claim 6, which is used as a signature .
付き幾何平均として算出することを特徴とする請求項6
記載の認識装置。8. The degree of occurrence is a weight of b m with a weight of u m
7. The calculation is performed as a geometric mean with a weight.
The recognition device described .
付き算術平均として算出することを特徴とする請求項6
記載の認識装置。9. The degree of occurrence is the weight of b m , with u m as the weight.
7. The calculation is performed as an arithmetic mean with addition.
The recognition device described .
ラスタm(=1,...,M)の発生確率をb w im 、時点tに
おける観測ベクトルをy t 、y t のクラスタmへの帰属度
をu tm とするとき、状態iにおけるy t の発生度合(y t
の観測される度合)をb w im とu tm の関数として算出す
る観測ベクトル発生度合算出手段と、観測ベクトル系列
y 1 ,y 2 ,...,y T が前記HMMから発生する度合を前記
観測ベクトル発生度合算出手段の算出結果を用いて計算
する観測ベクトル系列発生度合算出手段と、認識単位w
に対応するHMMを認識単位wに対して準備された複数
の学習用観測ベクトル系列の、前記観測ベクトル系列発
生度合算出手段によって算出された発生度合を最大とな
すようにHMM wのパラメータを学習するパラメータ
学習手段とを備え、u tm は、クラスタ数をM、観測ベク
トルをyとすると き、階層型ニューラルネットワークか
らなり、その入力層のユニットのそれぞれをyの各要素
に対応させ、出力層の第m番のユニットの出力をyのク
ラスタm(=1,...,M)への帰属度となしたことを特
徴とする帰属度算出装置によって算出されることを特徴
とするHMM作成装置。 10. The HMM of the recognition unit w in the state i
Probability of occurrence of raster m (= 1, ..., M) is b w im at time t
The observation vectors in y t , the degree of membership of y t in cluster m
Is u tm , the degree of occurrence of y t in state i (y t
(Observed degree of) as a function of b w im and u tm
Observation vector generation degree calculation means and observation vector series
The degree of occurrence of y 1 , y 2 , ..., y T from the HMM is described above.
Calculation using the calculation result of the observation vector generation degree calculation means
Observation vector sequence occurrence degree calculating means and recognition unit w
HMMs corresponding to
Of the observation vector sequence for learning of
Maximize the occurrence degree calculated by the liveness degree calculation means.
Parameters to learn the parameters of HMM w
And learning means, u tm is M number of clusters, observation vector
A torque when you and y, or hierarchical neural network
Each of the units in its input layer to each element of y
The output of the m-th unit in the output layer
It is specified that the degree of belonging to the raster m (= 1, ..., M)
Characteristic that it is calculated by a device for calculating the degree of belonging
HMM creation device.
u m を重みとする重み付き算術平均として算出すること
を特徴とする請求項10に記載のHMM作成装置。11. The logarithmic value of the degree of occurrence is the logarithmic value of b m ,
Calculate as a weighted arithmetic mean with u m as the weight
The HMM creating apparatus according to claim 10, wherein
み付き幾何平均として算出することを特徴とする請求項
10記載のHMM作成装置。12. The degree of occurrence is the weight of b m , with u m as the weight.
Calculated as a weighted geometric mean
10. The HMM creation device according to item 10 .
み付き算術平均として算出することを特徴とする請求項
10記載のHMM作成装置。13. The degree of occurrence is the weight of b m , with u m as the weight.
The calculation is performed as a weighted arithmetic average.
10. The HMM creation device according to item 10 .
るクラスタリング手段と、第mのクラスタに属する学習
ベクトルを入力とするとき、出力層の第mユニットの出
力を1、他の出力層のユニットの出力を0として重み係
数を学習することを特徴とする請求項1記載の帰属度算
出装置。14. Clustering means for clustering a set of learning vectors, and when a learning vector belonging to the mth cluster is input, the output of the mth unit of the output layer is 1, and the output of units of other output layers is The membership degree calculation device according to claim 1, wherein the weighting coefficient is learned as 0.
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
JP18747294A JP3427500B2 (en) | 1994-08-09 | 1994-08-09 | Membership calculation device and HMM device |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
JP18747294A JP3427500B2 (en) | 1994-08-09 | 1994-08-09 | Membership calculation device and HMM device |
Publications (2)
Publication Number | Publication Date |
---|---|
JPH0854893A JPH0854893A (en) | 1996-02-27 |
JP3427500B2 true JP3427500B2 (en) | 2003-07-14 |
Family
ID=16206685
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
JP18747294A Expired - Fee Related JP3427500B2 (en) | 1994-08-09 | 1994-08-09 | Membership calculation device and HMM device |
Country Status (1)
Country | Link |
---|---|
JP (1) | JP3427500B2 (en) |
Families Citing this family (3)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
US7356466B2 (en) * | 2002-06-28 | 2008-04-08 | Samsung Electronics Co., Ltd. | Method and apparatus for performing observation probability calculations |
JP6389776B2 (en) * | 2015-02-23 | 2018-09-12 | 日本電信電話株式会社 | Language identification model learning device, language identification device, language identification method, and program |
WO2017149722A1 (en) * | 2016-03-03 | 2017-09-08 | 三菱電機株式会社 | Computing device and computation method |
-
1994
- 1994-08-09 JP JP18747294A patent/JP3427500B2/en not_active Expired - Fee Related
Non-Patent Citations (6)
Title |
---|
中橋順一,坪香英一,コードベクトル作成におけるHMMの構造反映の効果,日本音響学会平成5年度春季研究発表会講演論文集,日本,1993年 3月17日,2−4−3,p.23−24 |
丹康雄,江島俊朗,多入/出力素子を用いたネットワークFuzzy Partition Modelの提案とその基本的性質,電子情報通信学会技術研究報告[パターン認識・理解],1989年 9月21日,PRU89−45,p.39−46 |
加藤喜永,杉山雅英,ファジィパーティションモデルを用いた連続音声認識,電子情報通信学会技術研究報告[音声],日本,1992年 6月30日,SP92−28,p.31−37 |
坪香英一,中橋順一,FVQ/HMMに関する一考察,日本音響学会平成4年度秋季研究発表会講演論文集,日本,1992年10月 5日,2−1−2,p.81−82 |
坪香英一,中橋順一,特徴ベクトル間の非類似度を帰属度ベクトル間の非類似度とする音声認識,電子情報通信学会論文誌D−II,日本,1996年12月,Vol.J79−D−II No.12,p.2039−2046 |
坪香英一,中橋順一,相乗型FVQ/HMM,電子情報通信学会技術研究報告[音声],日本,1993年 6月18日,SP93−27,p.25−32 |
Also Published As
Publication number | Publication date |
---|---|
JPH0854893A (en) | 1996-02-27 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
JP2795058B2 (en) | Time series signal processing device | |
KR100324988B1 (en) | Signal analyzer | |
JPH064093A (en) | Hmm generating device, hmm storage device, likelihood calculating device, and recognizing device | |
Franco et al. | Context-dependent connectionist probability estimation in a hybrid hidden Markov model-neural net speech recognition system | |
US5794190A (en) | Speech pattern recognition using pattern recognizers and classifiers | |
Bridle et al. | Recnorm: Simultaneous normalisation and classification applied to speech recognition | |
Morgan et al. | Hybrid neural network/hidden markov model systems for continuous speech recognition | |
US5924066A (en) | System and method for classifying a speech signal | |
Chien | Online hierarchical transformation of hidden Markov models for speech recognition | |
Bennani et al. | Neural networks for discrimination and modelization of speakers | |
Mohamed et al. | HMM/ANN hybrid model for continuous Malayalam speech recognition | |
Dugast et al. | Combining TDNN and HMM in a hybrid system for improved continuous-speech recognition | |
Cohen et al. | Context-dependent multiple distribution phonetic modeling with MLPs | |
Dai | Isolated word recognition using Markov chain models | |
Zavaliagkos et al. | A hybrid continuous speech recognition system using segmental neural nets with hidden Markov models | |
JP3427500B2 (en) | Membership calculation device and HMM device | |
Huang | A study on speaker-adaptive speech recognition | |
Zhao et al. | Hierarchical mixtures of experts methodology applied to continuous speech recognition | |
Rigoll et al. | A new hybrid system based on MMI-neural networks for the RM speech recognition task | |
Rigoll et al. | A NN/HMM hybrid for continuous speech recognition with a discriminant nonlinear feature extraction | |
Wolfertstetter et al. | Structured Markov models for speech recognition | |
Zhao et al. | Use of Kohonen self-organising feature maps for HMM parameter smoothing in speech recognition | |
Neukirchen et al. | A continuous density interpretation of discrete HMM systems and MMI-neural networks | |
EP0802523A2 (en) | Standard pattern production system employing information criterion | |
Juang et al. | Mixture autoregressive hidden Markov models for speaker independent isolated word recognition |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
LAPS | Cancellation because of no payment of annual fees |