JP4964194B2 - Speech recognition model creation device and method thereof, speech recognition device and method thereof, program and recording medium thereof - Google Patents
Speech recognition model creation device and method thereof, speech recognition device and method thereof, program and recording medium thereof Download PDFInfo
- Publication number
- JP4964194B2 JP4964194B2 JP2008178572A JP2008178572A JP4964194B2 JP 4964194 B2 JP4964194 B2 JP 4964194B2 JP 2008178572 A JP2008178572 A JP 2008178572A JP 2008178572 A JP2008178572 A JP 2008178572A JP 4964194 B2 JP4964194 B2 JP 4964194B2
- Authority
- JP
- Japan
- Prior art keywords
- speech recognition
- recognition model
- model
- initial value
- state
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Expired - Fee Related
Links
- 238000000034 method Methods 0.000 title claims description 44
- 239000013598 vector Substances 0.000 claims description 56
- 238000009826 distribution Methods 0.000 claims description 31
- 230000007704 transition Effects 0.000 claims description 24
- 238000004364 calculation method Methods 0.000 claims description 22
- 230000008569 process Effects 0.000 claims description 9
- 238000000605 extraction Methods 0.000 claims description 7
- 230000005236 sound signal Effects 0.000 claims description 5
- 239000000284 extract Substances 0.000 claims description 3
- 230000003044 adaptive effect Effects 0.000 description 25
- 230000014509 gene expression Effects 0.000 description 19
- 230000006870 function Effects 0.000 description 17
- 230000000694 effects Effects 0.000 description 8
- 238000007476 Maximum Likelihood Methods 0.000 description 7
- 238000006243 chemical reaction Methods 0.000 description 7
- 239000011159 matrix material Substances 0.000 description 7
- 238000012545 processing Methods 0.000 description 7
- 230000006978 adaptation Effects 0.000 description 5
- 239000000203 mixture Substances 0.000 description 4
- 238000004088 simulation Methods 0.000 description 4
- 230000015572 biosynthetic process Effects 0.000 description 3
- 238000004422 calculation algorithm Methods 0.000 description 3
- 238000007796 conventional method Methods 0.000 description 3
- 230000003287 optical effect Effects 0.000 description 3
- 238000003786 synthesis reaction Methods 0.000 description 3
- 238000010276 construction Methods 0.000 description 2
- 230000001419 dependent effect Effects 0.000 description 2
- 238000002474 experimental method Methods 0.000 description 2
- 238000005070 sampling Methods 0.000 description 2
- 239000004065 semiconductor Substances 0.000 description 2
- 238000010972 statistical evaluation Methods 0.000 description 2
- 238000004458 analytical method Methods 0.000 description 1
- 238000010586 diagram Methods 0.000 description 1
- 230000007613 environmental effect Effects 0.000 description 1
- 230000037433 frameshift Effects 0.000 description 1
- 230000006872 improvement Effects 0.000 description 1
- 238000012417 linear regression Methods 0.000 description 1
- 238000004519 manufacturing process Methods 0.000 description 1
- 238000013139 quantization Methods 0.000 description 1
- 230000002194 synthesizing effect Effects 0.000 description 1
- 230000009466 transformation Effects 0.000 description 1
- 230000017105 transposition Effects 0.000 description 1
Images
Description
この発明は、音声認識モデルを効率良く学習する音声認識モデル作成装置とその方法と、その方法を用いた音声認識装置と音声認識方法と、プログラムと記録媒体に関する。 The present invention relates to a speech recognition model creation apparatus and method for efficiently learning a speech recognition model, a speech recognition apparatus and speech recognition method using the method, a program, and a recording medium.
音声認識装置は、入力される音声信号を分析して得られる音響的特徴量ベクトルの系列と、音声をモデル化した音響モデルとの間の尤度を算出し、認識すべき語彙、単語間の接続のし易さ、規則を表わす言語モデルなどの言語的制約の中において、尤度の最も高い単語列を認識結果として出力するものである。音声認識が対象とする音声は、一般に、様々な話者や言語、ノイズ等の外部環境によってその特徴を大きく変化させるものである。そのような多様な特徴を持つ音声を認識するために、複数の音声認識モデルを用いて音声認識を行う音声認識手法が広く研究されている。 The speech recognition apparatus calculates a likelihood between a sequence of acoustic feature vectors obtained by analyzing an input speech signal and an acoustic model obtained by modeling speech, and recognizes between words to be recognized and words A word string having the highest likelihood is output as a recognition result in terms of linguistic constraints such as ease of connection and a language model representing a rule. The voice targeted for voice recognition generally changes its characteristics greatly depending on the external environment such as various speakers, languages and noise. In order to recognize speech having such various features, speech recognition methods that perform speech recognition using a plurality of speech recognition models have been widely studied.
例えば非特許文献1に、音響環境として英語・ドイツ語が混在した音声認識を対象とし、両言語用の2種類の音声認識モデルを用意することで言語の切り替えに関して頑健な音声認識を実現した例が示されている。また、非特許文献2には、多人数が参加する会議における複数話者混在の音声認識を対象に、複数の音声認識モデルを用意することで話者切り替えに関して頑健な音声認識を実現した例が示されている。非特許文献2の例では、各話者の音声認識モデル毎に適応学習を行うことにより、音声認識装置の性能改善を実現している。適応学習とは、音声認識装置に記録された限られた音声認識モデルを、実際に使用される場面における話者や環境によって変わる音響的特徴に適応させることである。
For example, Non-Patent
従来の複数の音響モデルを用意した音声認識装置900の機能構成例を図9にし、その動作を簡単に説明する。音声認識装置900は、音声認識モデル90、A/D変換部91、特徴量抽出部92、音声認識部93、適応学習部94を備える。
An example of the functional configuration of a speech recognition apparatus 900 prepared with a plurality of conventional acoustic models will be briefly described with reference to FIG. The speech recognition apparatus 900 includes a
音声認識モデル90は、例えば複数の言語や複数の話者に対応した音声認識モデルである。例えば、ある一人の話者用の第1音声認識モデル901は、第1音響モデルメモリ901aと第1言語モデルメモリ901bと第1発話辞書モデルメモリ901cとで構成される。他の話者用の第2音声認識モデル902も同様に第2音響モデルメモリ902aと第2言語モデルメモリ902bと第2発話辞書モデルメモリ902cとで構成される。
The
A/D変換部91は、入力されるアナログ信号の音声を、例えばサンプリング周波数16kHzで離散的なディジタル信号に変換する。特徴量抽出部92は、離散値化された音声信号を例えば320個を1フレーム(20ms)とし、フレーム毎の音声信号から特徴量ベクトルを抽出する。特徴量ベクトルは、例えばメル周波数ケプストラム係数(MFCC)分析によって抽出される。音声認識部93は、スコア計算部931と単語列探索部932とからなる。スコア計算部931は、特徴量ベクトルと、音声認識モデル901からの言語モデルと、音響モデルとを入力として、特徴量ベクトルに対するスコアを算出する。単語列探索部932は、スコアが最大となる単語列を発話辞書モデルメモリ901cから探索して認識結果として出力する。適応学習部94は、単語列探索部932の出力する単語列を教師信号として、第1音声認識モデル901と第2音声認識モデル902毎に適応処理を行う。
従来法による複数の音声認識モデルの適応学習では、各音声認識モデルに対して独立に適応学習を行うので、適応学習データを複数のモデルに分配することになり、割り当てられるデータ量が単一モデルの適応学習と比較して少なくなる。そのため、データ量の減少により適応学習の効果が限定的となってしまう課題があった。 In adaptive learning of multiple speech recognition models by the conventional method, adaptive learning is performed independently for each speech recognition model, so adaptive learning data is distributed to multiple models, and the amount of allocated data is a single model. Compared to the adaptive learning of. For this reason, there is a problem that the effect of adaptive learning becomes limited due to a decrease in the data amount.
この発明は、このような点に鑑みてなされたものであり、複数の音声認識モデルの適応学習を効率良く行える音声認識モデル作成装置とその方法と、その方法を用いた音声認識装置と音声認識方法と、プログラムとその記録媒体を提供することを目的とする。 The present invention has been made in view of these points, and a speech recognition model creation apparatus and method capable of efficiently performing adaptive learning of a plurality of speech recognition models, a speech recognition apparatus using the method, and speech recognition. It is an object to provide a method, a program, and a recording medium thereof.
この発明の音声認識モデル作成装置は、初期値音声認識モデル記録部と、尤度計算部と、モデル更新部と、更新音声認識モデル記録部とを具備する。初期値音声認識モデル記録部は、複数の音声認識モデルのパラメータをそれぞれ表現するベクトルを連結した一つのベクトルである初期値音声認識モデルであって、上記複数の音声認識モデルは複数の音源にそれぞれ対応する音声認識モデルである、初期値音声認識モデルを記録する。尤度計算部は、上記各音声認識モデルにそれぞれ対応する複数の音声認識ネットワークをユニオン演算した状態確率遷移を基に音声信号を音声認識した結果である状態列の集合と上記音声信号の特徴量ベクトルとを入力として、フレーム毎の各状態の尤度を計算する。モデル更新部は、尤度と特徴量ベクトルとを入力として、初期値音声認識モデルを更新した更新音声認識モデルを生成する。更新音声認識モデル記録部は、更新音声認識モデルを記録する。 The speech recognition model creation device according to the present invention includes an initial value speech recognition model recording unit, a likelihood calculation unit, a model update unit, and an updated speech recognition model recording unit. The initial value speech recognition model recording unit is an initial value speech recognition model that is a vector obtained by concatenating vectors representing parameters of a plurality of speech recognition models, and the plurality of speech recognition models are respectively connected to a plurality of sound sources. An initial value speech recognition model , which is a corresponding speech recognition model, is recorded. The likelihood calculation unit, feature amounts of the plurality of sets and the audio signal of the state sequence is the result of voice recognition a voice signal voice recognition network based on union operation state transition probability respectively corresponding to each speech recognition model Using the vector as an input , the likelihood of each state for each frame is calculated. Model updating unit as inputs the likelihood and the feature amount vector, to generate the updates to update the speech recognition model initial values speech recognition models. The updated speech recognition model recording unit records the updated speech recognition model.
この発明の音声認識モデル作成装置は、複数の音声認識モデルを含む初期値音声認識モデルを1つのベクトルとして扱う。そして初期値音声認識モデルを、複数の音声認識モデルの組み合わせから成る状態確率遷移を基に音声認識された音声認識結果を用いて更新する。つまり、複数の音声認識モデルがまとめて学習できるので、少量の音声データでも十分な適応学習の効果を得ることが出来る。 The speech recognition model creation apparatus according to the present invention handles an initial value speech recognition model including a plurality of speech recognition models as one vector. Then, the initial value speech recognition model is updated using a speech recognition result that is speech-recognized based on a state probability transition composed of a combination of a plurality of speech recognition models. That is, since a plurality of speech recognition models can be learned together, a sufficient adaptive learning effect can be obtained even with a small amount of speech data.
以下、この発明の実施の形態を図面を参照して説明する。複数の図面中同一のものには同じ参照符号を付し、説明は繰り返さない。 Embodiments of the present invention will be described below with reference to the drawings. The same reference numerals are given to the same components in a plurality of drawings, and the description will not be repeated.
〔この発明の基本的な考え〕
この発明の音声認識モデルの作成方法の基本的な考えについて説明する。現在広く用いられる確率統計的音声認識方法は、確率モデルを用いて音声認識過程を音声データと単語(若しくは音素、HMM(Hidden Markov Model))の出現確率(尤度関数)として表現し、事後確率最大化や尤度最大化等の確率統計的評価規範を用いて音声認識のためのパラメータ推定を行う方法である。この発明の音声認識モデル作成方法も、この確率統計的評価規範を用いる部分では同じである。
[Basic idea of the present invention]
The basic idea of the voice recognition model creation method of the present invention will be described. Probabilistic speech recognition methods that are widely used nowadays use a probabilistic model to express the speech recognition process as the appearance probability (likelihood function) of speech data and words (or phonemes, HMM (Hidden Markov Model)), and the posterior probability. This is a method for estimating parameters for speech recognition using probability statistical evaluation criteria such as maximization and likelihood maximization. The speech recognition model creation method of the present invention is the same in the portion using this probability statistical evaluation criterion.
この発明が従来法と異なる点は、複数の音声認識モデルを含む初期値音声認識モデルを1つのベクトルとして扱い、その初期値音声認識モデルを、複数の音声認識モデルの組み合わせから成る状態確率遷移を基に音声認識された音声認識結果を用いて適応学習させる部分である。なお、ここで音声認識結果としては、単語列や音素列、HMM状態列などの音声シンボル列がそれにあたる。これらを総称して状態列と呼ぶ。また、状態列は単一の系列だけでなく、上位スコアn個の状態列の集合(n−best)やラティスなどの音声認識ネットワークのサブネットワークなどから、集合として表現される。これらを総称して状態列の集合と呼ぶ。 The present invention is different from the conventional method in that an initial value speech recognition model including a plurality of speech recognition models is treated as one vector, and the initial value speech recognition model is treated as a state probability transition composed of a combination of a plurality of speech recognition models. This is a part for adaptive learning using a speech recognition result recognized based on speech. Here, the speech recognition result corresponds to a speech symbol sequence such as a word sequence, a phoneme sequence, or an HMM state sequence. These are collectively called a state sequence. In addition, the state sequence is expressed not only as a single series, but also as a set from a set of state sequences of n high-order scores (n-best), a sub-network of a speech recognition network such as lattice. These are collectively referred to as a set of state sequences.
特徴量抽出部92が出力する音響特徴量の特徴量ベクトルの時系列集合O={Ot=1,Ot=2,…}が、一つの音源Aが出力する時系列集合の部分集合Oe=1={Oe=1,t=1,Oe=1,t=2,…}と、他の音源Bが出力する時系列集合の部分集合Oe=2={Oe=2,t=1,Oe=2,t=2,…}とに分かれていると仮定する。ここで、音源Aに対応した音声認識モデルをe=1、音源Bに対応した音声認識モデルをe=2とする。なお、ここでは説明のし易さのため2つの音源を対象にしているが、3つ以上の音源の場合も同様である。音源Aが出力する特徴量ベクトルの時系列集合をOe=1,音声認識モデルをΘe=1,隠れ変数をZe=1={Ze=1,t=1,Ze=1,t=2,…}とする。ここで隠れ変数とは、どの対象に属しているか観測できない変数のことである。HMMを用いた音声認識モデルの場合は隠れ変数Ze=1は各フレーム時刻におけるHMM状態のIDを表す。このとき完全データの尤度関数は式(1)で表現できる。
The time series set O = {O t = 1 , O t = 2 ,...] Of the feature quantity vectors of the acoustic feature quantity output by the feature
また音声認識モデルe=2に対しても同様に完全データの尤度関数は式(2)で表現できる。
このように各モデルの時系列集合の部分集合Oe=1,Oe=2が予め与えられれば、その尤度関数を独立に与えることができる。しかし、一般には音声認識をする音声データが、音源Aか音源Bのどちらの音であるかは分からない。そこで、この発明では、各フレーム時刻tにおいて音源A又は音源Bのどちらの音声が出現するかを表す隠れ変数Ut={Ze=1,t,Ze=2,t,}を新たに導入する。その結果、全体の隠れ変数は式(3)に示すようにZe=1,Ze=2,とU={Ut=1,Ut=2,…}で構成される。
Zの取り得る値としては、実際には各時刻で任意のHMM状態系列が出現するのではなく、発音規則(発音辞書モデル)や単語の接続のし易さ(言語モデル)を考慮した、スコア付きの音声認識ネットワーク上の状態系列が出現する。音声認識で一般的に用いられる音声認識ネットワーク(状態確率遷移の時系列)は、HMM(H),辞書(L),文法(G)の3つのネットワークの合成で構成される。音声認識ネットワークNは、それらのネットワークを合成演算した式(4)で表現される。
同一言語・2話者の対話環境を考えた場合、辞書や文法のモデルは同一で、HMMネットワークのみが異なる状態確率遷移の時系列を用意すれば良い。この場合の音声認識ネットワークNは、文間で遷移が起こると考えて、式(5)に示すように2つの音声認識ネットワークを結合させることによって構築できる。
ここでU(+)は2つのネットワークをユニオン演算を用いて始端と終端を一致させる、ネットワークに対する二項演算である。(+)はユニオン演算を表す。(+)は式中の表記が正しい。図1にユニオン演算を概念的に示す。N1は状態数14、アーク数27のネットワークであり、N2は状態数8、アーク数8のネットワークである。ネットワークN1とN2をユニオン演算すると、始端と終端を一致させて2つのネットワークを並列して記述することができる。式(5)の演算は、音声認識ネットワーク(He=1・L・G)と(He=2・L・G)の2つの選択肢を与えることを意味する。なお、どちらのネットワークが選択されるかについては、探索過程における事後確率値や尤度値などのスコアの高いものが選ばれる。このように、式(5)で表現される合成されたネットワーク上で探索を行うことにより、複数の音源が混在する場合における、音声認識結果ならびに後述する学習のための状態列の集合を求めることができる。 Here, U (+) is a binary operation for a network in which two networks are matched with the start and end using a union operation. (+) Represents a union operation. (+) Is correct in the expression. FIG. 1 conceptually shows the union operation. N 1 is a network having 14 states and 27 arcs, and N 2 is a network having 8 states and 8 arcs. When the unions of the networks N 1 and N 2 are performed, the two networks can be described in parallel by matching the start and end points. The calculation of equation (5) means giving two choices of speech recognition network (H e = 1 · L · G) and (H e = 2 · L · G). As to which network is selected, a network having a high score such as a posteriori probability value or likelihood value in the search process is selected. In this way, by performing a search on the synthesized network expressed by Expression (5), a speech recognition result and a set of state sequences for learning to be described later when a plurality of sound sources are mixed are obtained. Can do.
この発明では、式(5)に示すような複数の音声認識モデルの組み合わせから成る音声認識ネットワークを記録した音声認識ネットワークデータベースを備える。また、音声認識モデルの初期値として式(6)に示す初期値音声認識モデルμ0を備える。適応学習により更新された音声認識モデルの平均ベクトルμも式(6)と同じ1つのベクトルとして扱われる。
式(6)は平均ベクトルのみを示すが、分散行列Σや混合重みw、状態遷移確率aについても同様にベクトルとしてまとめることにより、複数の音声認識モデルが1つのベクトルとして扱われる。その複数の音声認識モデルが1つのベクトルとして扱われた初期値音声認識モデルΘと、式(3)の隠れ変数Zを用いると尤度関数は式(7)で表現できる。
このように、この発明では合成されたネットワークZ及びモデルパラメータΘを用いて、複数環境の音声認識を式(1)と式(2)で表現される単一の音声認識モデルと同様の尤度関数を用いて実現できる。つまり、式(7)を用いることにより、音声認識デコーダ(音声認識部)を変更することなく、複数環境の音声認識を実現できる。 As described above, in the present invention, using the synthesized network Z and the model parameter Θ, speech recognition in a plurality of environments is performed with the same likelihood as the single speech recognition model expressed by the equations (1) and (2). It can be realized using a function. That is, by using Expression (7), it is possible to realize speech recognition in a plurality of environments without changing the speech recognition decoder (speech recognition unit).
この発明の音声認識モデルの作成方法は、式(7)の尤度関数と複数の音声認識モデルが1つのベクトルとして扱われた初期値音声認識モデルΘとから、式(8)に示す音声認識に使用される更新音声認識モデルΘ ̄を生成する。
初期値音声認識モデルΘと更新音声認識モデルΘ ̄とは、関数F(・)を用いてパラメットリックに表現され、関係パラメータφによって関係付けられる。このようにこの発明の音声認識モデル作成方法は、複数の音声認識モデルを1つのベクトルとして一度に学習できるので、少量の音声データでも十分な適応学習の効果を得ることができる。 The initial value speech recognition model Θ and the updated speech recognition model Θ ̄ are expressed parametrically using the function F (•) and are related by the relation parameter φ. As described above, since the speech recognition model creation method of the present invention can learn a plurality of speech recognition models as one vector at a time, a sufficient adaptive learning effect can be obtained even with a small amount of speech data.
図2にこの発明の音声認識モデル作成装置100と、それを構成要素とする音声認識装置200の機能構成例を示す。図3に音声認識モデル作成装置100の動作フローを示す。図2と図3を参照して音声認識モデル作成装置100の動作を説明する。
FIG. 2 shows a functional configuration example of the speech recognition
音声認識モデル作成装置100は、初期値音声認識モデル記録部10と、モデル更新部12と、尤度計算部13と、更新音声認識モデル記録部14と、制御部16とを備える。音声認識モデル作成装置100と音声認識装置200は、例えばROM、RAM、CPU等で構成されるコンピュータに所定のプログラムが読み込まれて、CPUがそのプログラムを実行することで実現されるものである。
The speech recognition
初期値音声認識モデル記録部10は、複数の音声認識モデルを含む初期値音声認識モデルを記録する。尤度計算部13は、複数の音声認識モデルの組み合わせから成る状態確率遷移を基に音声認識された状態列の集合を入力としてフレーム毎の各状態の尤度を計算する(ステップS13)。
The initial value speech recognition
ここで、フレームと各状態とガウス分布と、状態確率遷移との関係について説明する。音声認識モデルを構成する音素モデルは、図4に示す状態によって構築される。各状態iは、混合正規分布Miとして表現される。混合正規分布Miは、例えば3つの正規分布、N(μi1,Σi1),N(μi2,Σi2),N(μi3,Σi3)で構成される。 Here, the relationship between the frame, each state, the Gaussian distribution, and the state probability transition will be described. The phoneme model constituting the speech recognition model is constructed according to the state shown in FIG. Each state i is expressed as a mixed normal distribution M i . The mixed normal distribution M i is composed of, for example, three normal distributions, N (μ i1 , Σ i1 ), N (μ i2 , Σ i2 ), and N (μ i3 , Σ i3 ).
音素モデルは、状態iの数個〜十数個程度の確率連鎖によって構築される。図5に3状
態で構成される音素モデルの概念図を一例として示す。図5に示す例は、left−to−r
ight型HMMと呼ばれるもので、3つの状態i1(第1状態)、i2(第2状態)、i3(第3状態)を並べたものであり、状態の確率連鎖(状態遷移)としては、自己遷移a11、a22、a33と、次状態へのa12、a23、a34からなる。図6に、状態iとフレームtとの時系列の関係を示す。横軸は時間経過でありフレーム番号で表す。縦軸は、各フレームの状態iである。各状態iは図4に示したように混合正規分布からなる。●は各フレーム内で出力確率スコアが最大になる最尤状態である。最尤状態●を時系列に並べたのが最尤状態系列である。この最尤状態系列が音声認識結果として出力される。
The phoneme model is constructed by a probability chain of several to about a dozen of states i. FIG. 5 shows a conceptual diagram of a phoneme model composed of three states as an example. The example shown in FIG.
This is called an “ight type HMM”, which is an array of three states i 1 (first state), i 2 (second state), and i 3 (third state), as a state probability chain (state transition). Consists of self transitions a 11 , a 22 , a 33 and a 12 , a 23 , a 34 to the next state. FIG. 6 shows a time-series relationship between the state i and the frame t. The horizontal axis represents the passage of time and is represented by a frame number. The vertical axis represents the state i of each frame. Each state i has a mixed normal distribution as shown in FIG. ● is the maximum likelihood state in which the output probability score is maximized within each frame. The maximum likelihood state sequence is the maximum likelihood state sequence arranged in time series. This maximum likelihood state sequence is output as a speech recognition result.
尤度計算部13は、各状態iの尤度p(O,Zt=i|Θ^)を、例えばフォワード・バックワードアルゴリズムで求める。各状態iの尤度p(O,Zt=i|Θ^)は、フォワード係数αとバックワード係数βを用いて式(9)で計算できる。尤度pと特徴量ベクトルOは、改めて尤度計算部13で計算しなくても、事前に音声認識装置で求められたそれらの値を記録して置き、逐次読み出すようにしても良い。
フォワード係数αとバックワード係数βは、最尤推定法(EMアルゴリズム)における
反復計算によって式(10)と(11)で計算される。
ここで、kは状態iを構成するガウス分布の指標である。aijは状態iがiからjに遷移する際の状態遷移確率、wjkは状態jにおけるガウス分布kに対する混合重み因子、Nは平均ベクトルμjk、共分散行列Σjkのガウス分布を表す。式(10)と(11)中の^は、上記した各パラメータが、期待値最大化法における反復計算の前のステップで推定された値であることを示している。 Here, k is an index of the Gaussian distribution constituting the state i. a ij represents a state transition probability when the state i transitions from i to j, w jk represents a mixture weight factor for the Gaussian distribution k in the state j, N represents a Gaussian distribution of the mean vector μ jk and the covariance matrix Σ jk . ^ In Equations (10) and (11) indicates that each parameter described above is a value estimated in a step before the iterative calculation in the expected value maximization method.
モデル更新部12は、尤度を入力として、初期値音声認識モデルを1つのベクトルとして更新した更新音声認識モデルを生成する(ステップS12)。更新音声認識モデル記録部14は、更新音声認識モデルを記録する(ステップS14)。モデル更新部12と更新音声認識モデル記録部14は、制御部16が動作終了を指示する信号を発するまで動作を継続する(ステップS16のN)。
The
このようにモデル更新部12が、複数の音声認識モデルを含む初期値音声認識モデルを1つのベクトルとして扱って適応学習を行うので、少量の音声データでも十分な適応学習の効果を得ることが出来る。図7に音声認識モデル作成装置100のモデル更新部12の詳細な機能構成例を示して更に詳しく説明する。
As described above, the
モデル更新部12は、事後確率計算部121と、関係パラメータ生成部122と、更新モデル生成部123とを備える。事後確率計算部121は、フレーム時刻tにおける状態iの事後確率を式(12)の計算で求める(ステップS121、図3)。事後確率は、各状態iの尤度(式(9))をフレーム内状態尤度の総和で正規化した値である。
音声認識モデルの中で最も認識性能に寄与するパラメータは、ガウス分布中の平均ベク
トルである。したがって以降の説明は、平均ベクトルについての適応学習について説明を
行う。音声認識モデルの平均ベクトルに焦点を当てた場合、補助関数Qは式(13)に示
す具体系に書き直すことができる。
ここで、ζe,k,tは、フレーム時刻tにおける音源Aに対応した音声認識モデルeのガウス分布kに割り当てられた事後確率である。このガウス分布毎の事後確率値ζe,k,tは、各状態iの事後確率を計算したのと同じように事後確率計算部121において、各ガウス分布k毎に計算される。
Here, ζ e, k, t is a posterior probability assigned to the Gaussian distribution k of the speech recognition model e corresponding to the sound source A at the frame time t. The a posteriori probability value ζ e, k, t for each Gaussian distribution is calculated for each Gaussian distribution k in the a posteriori
式(13)の補助関数Qは、式(14)で表現できる。
ここで´は行列の転置を表す。ζe,kは式(15)、me,kは式(16)で表せる十分統計量である。
更に式(14)の補助関数Qは、式(17)で表現することができる。
ここでμは、式(18)に示すように複数の音声認識モデルを1つのベクトルとして扱
ったものである。
更に、
ルμの2次形式(式(17)の右辺第1項)で表現することができるので、安定した解が
得られる。そして、この実施例の適応学習は、初期値音声認識モデルの平均ベクトルμ0
と推定すべきμに対して式(21)に示す線形変換を仮定する。
Furthermore,
Assuming that μ is to be estimated, the linear transformation shown in the equation (21) is assumed.
関係パラメータ生成部122は、式(17)に、式(21)を代入してBについてのa
rgmaxを取る演算をすることにより、適応データからパラメータA,bを最尤推定法により推定する(ステップS122)。パラメータA,bは、式(4)と(17)に示したφに相当するものである。
The relation
By calculating rgmax, the parameters A and b are estimated from the adaptive data by the maximum likelihood estimation method (step S122). Parameters A and b correspond to φ shown in equations (4) and (17).
しかし、A,bは巨大な行列(数10万次元以上)であるため、適応データのみでそれらを推定するとデータ量が不足し、過学習問題が生じる。この過学習を解決するためには、行列Aのブロック化を行い、非対角要素を0と近似する。また、bについてもブロック化することで、変換式(21)は式(22)のように書き直せる。
つまり、各平均ベクトルμe,kがAe,k,be,kによって変換される。また、複数の平均ベクトルでA,bを共有することにより推定すべきパラメータを更に減らすことができる。これは、平均ベクトル集合に対して事前にクラスタリングを行い、クラスター中の平均ベクトルを複数含むクラスターをデータ量に応じて求めれば良い。これによりA,bを少ないパラメータで効率よく推定することができる。 That is, each average vector μ e, k is converted by A e, k , b e, k . Further, the parameters to be estimated can be further reduced by sharing A and b with a plurality of average vectors. This is achieved by performing clustering on the average vector set in advance and obtaining a cluster including a plurality of average vectors in the cluster according to the data amount. Thereby, A and b can be efficiently estimated with a small number of parameters.
A,bのパラメータ削減のための平均ベクトル集合に対するクラスタリングには、音響
モデル適応の代表的手法である最尤線形回帰法などでよく用いられるガウス分布共有木を
用いれば良い。ガウス分布共有木は、単一のガウス分布をリーフ、それらの集合をノード
とする木構造を用いてガウス分布の集合を表現する手法である。このとき、どのガウス分
布を一つの集合とするかについては、ユークリッド距離などの分布間距離が用いられる。
例えば2分木の場合は、分布間距離の近い2つのガウス分布を1つのノードとして表現す
る。複数音響モデルに対するガウス分布共有木の構築については、次の2種類がある。
For the clustering of the average vector set for reducing the parameters A and b, a Gaussian distribution shared tree often used in the maximum likelihood linear regression method or the like, which is a typical method for acoustic model adaptation, may be used. The Gaussian distribution shared tree is a technique for expressing a set of Gaussian distributions using a tree structure in which a single Gaussian distribution is a leaf and the set is a node. At this time, an inter-distribution distance such as an Euclidean distance is used to determine which Gaussian distribution is one set.
For example, in the case of a binary tree, two Gaussian distributions having a close distance between distributions are expressed as one node. There are two types of Gaussian distribution tree construction for multiple acoustic models:
(1)合成前の環境依存音響モデルそれぞれに対して独立に分布間距離を用いて共有木を
構築し、それらのルートノードを小ノードとする共通の親ノードを用意することにより、
共有木を合成する。この場合、回帰行列は同一話者内で共有されるため、話者性情報を利
用した共有構造が構築される。
(1) By constructing a shared tree using the inter-distribution distance independently for each environment-dependent acoustic model before synthesis, and preparing a common parent node whose root node is a small node,
Synthesize a shared tree. In this case, since the regression matrix is shared within the same speaker, a shared structure using speaker property information is constructed.
(2)複数モデルを合成した音響モデルに対して分布間距離を用いてクラスタリングを行
い共有木を構築する。この場合、回帰行列は複数話者にまたがって分布間距離の近いガウ
ス分布に対して共有される。つまり、話者性情報は直接的には考慮されず、音韻的に近い
ガウス分布が共有されることが想定される。
(2) A shared tree is constructed by clustering an acoustic model obtained by combining a plurality of models using the distance between distributions. In this case, the regression matrix is shared for Gaussian distributions with close distances between the speakers. That is, it is assumed that speaker property information is not directly taken into account and a phonologically close Gaussian distribution is shared.
後述するシミュレーションでは、2種類の共有木を用いた手法を組み合わせて、初めに
上記した(2)を用いた適応実験を行い、そのモデルを初期モデルにして上記した(1)
を用いた適応実験を行った。
In the simulation described later, an adaptation experiment using (2) described above is first performed by combining the methods using two types of shared trees, and the above model is used as the initial model (1).
The adaptation experiment using was conducted.
更新モデル生成部123は、関係パラメータ生成部122からのパラメータA,bと、初期値音声認識モデル記録部10に記録された初期値音声認識モデルμ0を入力として式(21)の計算を行って音声認識モデルを更新する(ステップS123)。
The update
以上述べたように実施例1に示す音声認識モデル作成装置100は、複数の音声認識モデルを含む初期値音声認識モデルを1つのベクトルとして扱い、その初期値音声認識モデルを、複数の音声認識モデルの組み合わせから成る状態確率遷移を基に音声認識された音声認識結果を用いて更新する。したがって、複数の音声認識モデルがまとめて学習できるので、少量の音声データでも十分な適応学習の効果を得ることが出来る。
As described above, the speech recognition
〔音声認識装置〕
実施例1で説明した音声認識モデル作成装置100は、音声認識装置に利用することが可能である。音声認識モデル作成装置100を用いた音声認識装置200の機能構成例を図7に示す。その動作フローを図8に示す。音声認識装置200は、音声認識モデル作成装置100と、音声認識ネットワークデータベース22と、A/D変換部91と、特徴量抽出部92と、スコア計算部931と、音声認識ネットワーク選択部201とを備える。A/D変換部91、特徴量抽出部92、スコア計算部931は、従来技術で説明した音声認識装置900と同じものである。よって、音声認識ネットワークデータベース22と、音声認識ネットワーク選択部201とについて説明する。
[Voice recognition device]
The speech recognition
音声認識ネットワークデータベース22は、複数の音声認識モデルの組み合わせから成る状態確率遷移を記録する。式(5)と図1に示した複数の音声認識モデルを含む音声認識ネットワークを記録したものである。式(5)は、同一言語・2話者の対話環境を考えた場合の音声認識ネットワークの結合を意味する。多言語音声認識のように、単語や文法自体も異なる環境では、それぞれのネットワークを準備して式(23)に示すようにして音声認識ネットワークデータベース22を構築する。式(23)は発話間遷移の場合である。単語間遷移であれば式(24)で構築できる。
このように、同一言語複数話者や多言語環境における発話(単語)間遷移モデルなどの多様な音響環境モデルの構築は、ネットワーク同士の合成演算やユニオン演算等で実現でき、これらは重み付有限状態トランスデューサ(WFST,これを用いた音声認識デコーダをWFST型デコーダという)等の既存アリゴリズムを用いて効率良く行うことができる。WFST型デコーダでは、音響モデルはHMM状態のIDとそこに含まれる混合ガウス分布モデルのパラメータ値の情報のみを扱う。従って、複数の音響モデルの合成に関しては、各モデルのHMM状態のIDと相当する混合ガウス分布モデルのパラメータ値を合成音響モデルに追加して行けば良い。その際のID番号の重複に注意が必要である。また、相当するWFST中のHMM状態IDもそれに合わせて変更する必要がある。 In this way, the construction of various acoustic environment models, such as multiple speakers in the same language and transition models between utterances (words) in a multilingual environment, can be realized by synthesizing networks, union operations, etc., which are weighted finite It can be efficiently performed using an existing algorithm such as a state transducer (WFST, a speech recognition decoder using the state transducer is called a WFST type decoder). In the WFST decoder, the acoustic model handles only the information of the HMM state ID and the parameter value of the mixed Gaussian distribution model included therein. Accordingly, regarding the synthesis of a plurality of acoustic models, the parameter values of the mixed Gaussian distribution model corresponding to the ID of the HMM state of each model may be added to the synthesized acoustic model. Attention should be paid to duplication of ID numbers. Also, the corresponding HMM state ID in the WFST needs to be changed accordingly.
音声認識ネットワーク選択部201は、スコア計算部931が音響特徴量と、音声認識モデル作成装置100が更新した更新音声認識モデルとを用いて計算されたスコアが、最も大きくなる状態確率遷移の音声認識ネットワークから成る状態列、若しくはその集合を、音声認識ネットワークデータベース22から選択して音声認識結果として出力する(ステップS201)。音声認識結果の状態列の集合は、音声認識モデル作成装置100の尤度計算部13にも入力され、適応学習の教師信号となる。
The speech recognition
音声認識ネットワーク選択部201は、状態列の集合と共に選択した音声認識ネットワークを構成する音声認識モデルの種別eも環境情報として出力するようにしても良い。例えば、音声認識ネットワークデータベース22が、日本語e=1と英語e=2の2種類の音声認識ネットワークを記録していたとすると種別eも出力する。そうすることで、音声認識している環境状況も知り得る効果を奏する。
The voice recognition
〔シミュレーション結果〕
この発明の音声認識モデル作成方法の有効性を確認する目的でシミュレーションを行っ
た。シミュレーション条件は、複数の音響環境として、性別依存音響モデル2種類(男性・女性)を用意した。音声認識の条件は、サンプリング周波数を16kHz、量子化数16bit、ウインドウタイプはハミング窓、フレーム長を25ms、フレームシフトを10msとした。言語モデルはトライグラム(新聞記事14年分)、語彙数は700,000個とした。
〔simulation result〕
A simulation was performed for the purpose of confirming the effectiveness of the speech recognition model creation method of the present invention. As the simulation conditions, two types of sex-dependent acoustic models (male and female) were prepared as a plurality of acoustic environments. The speech recognition conditions were a sampling frequency of 16 kHz, a quantization number of 16 bits, a window type of a Hamming window, a frame length of 25 ms, and a frame shift of 10 ms. The language model was trigram (
単語正解精度を、この発明の方法と、従来法の性別非依存の単一音響モデルと複数の音
響モデルを用いた方法と比較した。その結果を表1に示す。
この発明の適応学習による単語正解率が、85.5%と最も良い数値を示し、複数モデルを用いた従来の適応学習方法よりも認識性能を1%改善する効果が得られた。単一モデル適応と比較すると、3%も単語正解精度を高めることができた。このようにこの発明の音声認識モデル作成方法も用いた音声認識装置によれば、単語正解精度を向上させる効果が得られた。 The word correct answer rate by the adaptive learning of the present invention showed the best numerical value of 85.5%, and the effect of improving the recognition performance by 1% over the conventional adaptive learning method using a plurality of models was obtained. Compared with single model adaptation, the word accuracy was improved by 3%. As described above, according to the speech recognition apparatus that also uses the speech recognition model creation method of the present invention, an effect of improving the word correct answer accuracy is obtained.
この発明の技術思想に基づく音声認識モデル作成装置とその方法、及び音声認識装置とその方法は、上述の実施形態に限定されるものではなく、この発明の趣旨を逸脱しない範囲で適宜変更が可能である。上記した装置及び方法において説明した処理は、記載の順に従って時系列に実行されるのみならず、処理を実行する装置の処理能力あるいは必要に応じて並列的にあるいは個別に実行されるとしてもよい。例えば、上記した実施例では、音声認識モデル作成装置100の構成に尤度計算部13を含む例で説明を行ったが、音声認識装置を構成する場合は、音声認識装置が持つ尤度計算部で計算した尤度、若しくはスコアを用いることで、尤度計算部13は削除することができる。また、初期値音声認識モデル記録部10に初期値音声認識モデルを1つのベクトルとして記録する例で説明を行ったが、初期値音声認識モデル記録部10に複数の音声認識モデルをそれぞれ独立した形で記録して置き、関係パラメータ生成部122でそれぞれの音声認識モデルを1つのベクトルとして扱うようにしても良い。また、音声認識装置200は、A/D変換部91を備える例で説明したが、音声データがディジタル化された音声データファイルである場合は、A/D変換部91は必要がない。
The speech recognition model creation device and method based on the technical idea of the present invention, and the speech recognition device and method are not limited to the above-described embodiment, and can be appropriately changed without departing from the spirit of the present invention. It is. The processes described in the above-described apparatus and method are not only executed in time series according to the order described, but may be executed in parallel or individually as required by the processing capability of the apparatus that executes the process. . For example, in the above-described embodiment, an example in which the
また、上記装置における処理手段をコンピュータによって実現する場合、各装置が有すべき機能の処理内容はプログラムによって記述される。そして、このプログラムをコンピュータで実行することにより、各装置における処理手段がコンピュータ上で実現される。 Further, when the processing means in the above apparatus is realized by a computer, the processing contents of functions that each apparatus should have are described by a program. Then, by executing this program on the computer, the processing means in each apparatus is realized on the computer.
この処理内容を記述したプログラムは、コンピュータで読み取り可能な記録媒体に記録しておくことができる。コンピュータで読み取り可能な記録媒体としては、例えば、磁気記録装置、光ディスク、光磁気記録媒体、半導体メモリ等どのようなものでもよい。具体的には、例えば、磁気記録装置として、ハードディスク装置、フレキシブルディスク、磁気テープ等を、光ディスクとして、DVD(Digital Versatile Disc)、DVD-RAM(Random Access Memory)、CD-ROM(Compact Disc Read Only Memory)、CD-R(Recordable)/RW(ReWritable)等を、光磁気記録媒体として、MO(Magneto Optical disc)等を、半導体メモリとしてフラッシュメモリー等を用いることができる。 The program describing the processing contents can be recorded on a computer-readable recording medium. As the computer-readable recording medium, for example, any recording medium such as a magnetic recording device, an optical disk, a magneto-optical recording medium, and a semiconductor memory may be used. Specifically, for example, as a magnetic recording device, a hard disk device, a flexible disk, a magnetic tape, etc., and as an optical disk, a DVD (Digital Versatile Disc), a DVD-RAM (Random Access Memory), a CD-ROM (Compact Disc Read Only) Memory), CD-R (Recordable) / RW (ReWritable), etc. can be used as magneto-optical recording media, MO (Magneto Optical disc) can be used, and flash memory can be used as semiconductor memory.
また、このプログラムの流通は、例えば、そのプログラムを記録したDVD、CD−ROM等の可搬型記録媒体を販売、譲渡、貸与等することによって行う。さらに、このプログラムをサーバコンピュータの記録装置に格納しておき、ネットワークを介して、サーバコンピュータから他のコンピュータにそのプログラムを転送することにより、このプログラムを流通させる構成としてもよい。 The program is distributed by selling, transferring, or lending a portable recording medium such as a DVD or CD-ROM in which the program is recorded. Further, the program may be distributed by storing the program in a recording device of a server computer and transferring the program from the server computer to another computer via a network.
また、各手段は、コンピュータ上で所定のプログラムを実行させることにより構成することにしてもよいし、これらの処理内容の少なくとも一部をハードウェア的に実現することとしてもよい。 Each means may be configured by executing a predetermined program on a computer, or at least a part of these processing contents may be realized by hardware.
Claims (10)
上記各音声認識モデルにそれぞれ対応する複数の音声認識ネットワークをユニオン演算した状態確率遷移を基に音声信号を音声認識した結果である状態列の集合と上記音声信号の特徴ベクトルとを入力として、フレーム毎の各状態の尤度を計算する尤度計算部と、
上記尤度と上記特徴量ベクトルとを入力として、上記初期値音声認識モデルを更新した更新音声認識モデルを生成するモデル更新部と、
上記更新音声認識モデルを記録する更新音声認識モデル記録部と、
を具備する音声認識モデル作成装置。 An initial value speech recognition model that is a vector obtained by concatenating vectors representing parameters of a plurality of speech recognition models, wherein the plurality of speech recognition models are speech recognition models respectively corresponding to a plurality of sound sources. An initial value speech recognition model recording unit that records a value speech recognition model;
As inputs the feature vectors of a plurality of sets and the audio signal of the state sequence is the result of voice recognition a voice signal voice recognition network based on union operation state transition probability respectively corresponding to each of the speech recognition model, the frame A likelihood calculator that calculates the likelihood of each state for each;
As input and the likelihood and the feature vectors, and the model update unit to generate an updated speech recognition model update the initial value speech recognition models,
An updated speech recognition model recording unit for recording the updated speech recognition model;
A speech recognition model creation device comprising:
上記モデル更新部は、
上記尤度と特徴量ベクトルとを入力として上記状態を構成するガウス分布毎の事後確率値を計算する事後確率計算部と、
上記ガウス分布毎の事後確率値と上記初期値音声認識モデルとを入力とし、上記初期値音声認識モデルを1つのベクトルとして更新する関係パラメータを生成する関係パラメータ生成部と、
上記初期値音声認識モデルを上記関係パラメータで更新した更新音声認識モデルを出力する更新モデル生成部と、
を備えることを特徴とする音声認識モデル作成装置。 In the speech recognition model creation device according to claim 1,
The model update unit
A posterior probability calculation unit for calculating a posterior probability value for each Gaussian distribution constituting the state, using the likelihood and the feature vector as inputs,
A relational parameter generating unit that receives the posterior probability value for each Gaussian distribution and the initial value speech recognition model as input, and generates a relational parameter that updates the initial value speech recognition model as one vector;
An update model generation unit that outputs an updated speech recognition model obtained by updating the initial value speech recognition model with the related parameters;
A speech recognition model creation device comprising:
尤度計算部が、上記各音源に対応する複数の音声認識モデルにそれぞれ対応する複数の音声認識ネットワークをユニオン演算した状態確率遷移を基に音声信号を音声認識した結果である状態列の集合と上記音声信号の特徴量ベクトルとを入力として、フレーム毎の各状態の尤度を計算する尤度計算過程と、
モデル更新部が、上記尤度と上記特徴量ベクトルとを入力として上記初期値音声認識モデルを更新した更新音声認識モデルを生成するモデル更新過程と、
更新音声認識モデル記録部が、上記更新音声認識モデルを記録する更新音声認識モデル記録過程と、
を含む音声認識モデル作成方法。 In the initial value speech recognition model recording unit, an initial value speech recognition model that is one vector obtained by concatenating vectors representing the parameters of a plurality of speech recognition models corresponding to each sound source is stored.
A set of state sequences as a result of speech recognition of speech signals based on state probability transitions obtained by union-calculating a plurality of speech recognition networks respectively corresponding to the plurality of speech recognition models corresponding to the sound sources ; A likelihood calculation process for calculating the likelihood of each state for each frame , using the feature vector of the speech signal as an input,
Model updating unit, and a model update step of generating an updated speech recognition model on Symbol initial value speech recognition model was updated as input and the likelihood and the feature vector,
An updated speech recognition model recording process in which the updated speech recognition model recording unit records the updated speech recognition model;
Speech recognition model creation method including.
上記モデル更新過程は、
事後確率計算部が、上記尤度を入力として上記状態を構成するガウス分布毎の事後確率値を計算する事後確率計算ステップと、
関係パラメータ生成部が、上記ガウス分布毎の事後確率値と上記初期値音声認識モデルと特徴量ベクトルとを入力とし、上記初期値音声認識モデルを1つのベクトルとして更新する関係パラメータを生成する関係パラメータ生成ステップと、
更新モデル生成部が、上記初期値音声認識モデルを上記関係パラメータで更新した更新音声認識モデルを出力する更新モデル生成ステップと、
を含むことを特徴とする音声認識モデル作成方法。 In the speech recognition model creation method according to claim 3,
The model update process
A posteriori probability calculation unit calculates a posteriori probability value for each Gaussian distribution constituting the state by using the likelihood as an input; and
A relational parameter generating unit receives a posterior probability value for each Gaussian distribution, the initial value speech recognition model, and a feature vector, and generates a relational parameter for updating the initial value speech recognition model as one vector. Generation step;
An update model generation step, wherein an update model generation unit outputs an updated speech recognition model in which the initial value speech recognition model is updated with the related parameters;
A speech recognition model creation method characterized by comprising:
複数の音声認識モデルの組み合わせから成る状態確率遷移を記録した音声認識ネットワークデータベースと、
離散値化された音声信号のフレーム毎に特徴量ベクトルを抽出する特徴量抽出部と、
上記特徴量ベクトルと、上記初期値音声認識モデルとを入力として、上記初期値音声認識モデルを音声認識結果で更新した更新音声認識モデルを用いてスコアを計算するスコア計算部と、
上記スコアが最も大きくなる上記状態確率遷移の音声認識ネットワークを、上記音声認識ネットワークデータベースから選択して上記音声認識結果として出力する音声認識ネットワーク選択部と、
を具備する音声認識装置。 The speech recognition model creation device according to claim 1 or 2,
A speech recognition network database that records state probability transitions consisting of combinations of multiple speech recognition models;
A feature amount extraction unit that extracts a feature amount vector for each frame of a discrete audio signal;
A score calculator that calculates the score using the updated speech recognition model obtained by updating the initial value speech recognition model with the speech recognition result, using the feature vector and the initial value speech recognition model as inputs;
A voice recognition network selection unit that selects the voice recognition network of the state probability transition with the highest score from the voice recognition network database and outputs the result as the voice recognition result;
A speech recognition apparatus comprising:
上記音声認識ネットワーク選択部は、上記選択した音声認識ネットワークから環境情報も出力するものであることを特徴とする音声認識装置。 The speech recognition apparatus according to claim 5.
The voice recognition apparatus, wherein the voice recognition network selection unit outputs environment information from the selected voice recognition network.
特徴量抽出部が、離散値化された音声信号のフレーム毎に特徴量ベクトルを抽出する特徴量抽出過程と、
スコア計算部が、上記特徴量ベクトルと上記更新音声認識モデルとを入力として上記特徴量ベクトルに対応したスコアを計算するスコア計算過程と、
上記スコアが最も大きくなる上記状態確率遷移の音声認識ネットワークを、上記音声認識ネットワークデータベースから選択して状態列の集合として出力する音声認識ネットワーク選択過程と、
を備える音声認識方法。 A speech recognition model creation method according to claim 3 or 4,
A feature quantity extraction unit that extracts a feature quantity vector for each frame of a discrete audio signal;
A score calculation process in which a score calculation unit calculates a score corresponding to the feature vector by receiving the feature vector and the updated speech recognition model;
Selecting a speech recognition network of the state probability transition with the highest score from the speech recognition network database and outputting it as a set of state sequences; and
A speech recognition method comprising:
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
JP2008178572A JP4964194B2 (en) | 2008-07-09 | 2008-07-09 | Speech recognition model creation device and method thereof, speech recognition device and method thereof, program and recording medium thereof |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
JP2008178572A JP4964194B2 (en) | 2008-07-09 | 2008-07-09 | Speech recognition model creation device and method thereof, speech recognition device and method thereof, program and recording medium thereof |
Publications (2)
Publication Number | Publication Date |
---|---|
JP2010019941A JP2010019941A (en) | 2010-01-28 |
JP4964194B2 true JP4964194B2 (en) | 2012-06-27 |
Family
ID=41704936
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
JP2008178572A Expired - Fee Related JP4964194B2 (en) | 2008-07-09 | 2008-07-09 | Speech recognition model creation device and method thereof, speech recognition device and method thereof, program and recording medium thereof |
Country Status (1)
Country | Link |
---|---|
JP (1) | JP4964194B2 (en) |
Cited By (1)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN111696526A (en) * | 2020-06-22 | 2020-09-22 | 北京达佳互联信息技术有限公司 | Method for generating voice recognition model, voice recognition method and device |
Families Citing this family (3)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
JP5672487B2 (en) * | 2010-11-11 | 2015-02-18 | 株式会社国際電気通信基礎技術研究所 | Spoken language identification device learning device, spoken language identification device, and program therefor |
CN104900230A (en) * | 2014-03-03 | 2015-09-09 | 联想(北京)有限公司 | Information processing method and electronic equipment |
CN111243574B (en) * | 2020-01-13 | 2023-01-03 | 苏州奇梦者网络科技有限公司 | Voice model adaptive training method, system, device and storage medium |
Family Cites Families (4)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
JPH07122871B2 (en) * | 1992-08-06 | 1995-12-25 | 株式会社エイ・ティ・アール自動翻訳電話研究所 | Speech recognition method |
JP3532248B2 (en) * | 1994-07-12 | 2004-05-31 | 三菱電機株式会社 | Speech recognition device using learning speech pattern model |
TW436758B (en) * | 1998-04-30 | 2001-05-28 | Matsushita Electric Ind Co Ltd | Speaker and environment adaptation based on eigenvoices including maximum likelihood method |
DE10047723A1 (en) * | 2000-09-27 | 2002-04-11 | Philips Corp Intellectual Pty | Method for determining an individual space for displaying a plurality of training speakers |
-
2008
- 2008-07-09 JP JP2008178572A patent/JP4964194B2/en not_active Expired - Fee Related
Cited By (1)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN111696526A (en) * | 2020-06-22 | 2020-09-22 | 北京达佳互联信息技术有限公司 | Method for generating voice recognition model, voice recognition method and device |
Also Published As
Publication number | Publication date |
---|---|
JP2010019941A (en) | 2010-01-28 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
Lee | On stochastic feature and model compensation approaches to robust speech recognition | |
JP4195428B2 (en) | Speech recognition using multiple speech features | |
JP3933750B2 (en) | Speech recognition method and apparatus using continuous density Hidden Markov model | |
KR101415534B1 (en) | Multi-stage speech recognition apparatus and method | |
US11315548B1 (en) | Method and system for performing domain adaptation of end-to-end automatic speech recognition model | |
CN107615376B (en) | Voice recognition device and computer program recording medium | |
US11227579B2 (en) | Data augmentation by frame insertion for speech data | |
EP1447792A2 (en) | Method and apparatus for modeling a speech recognition system and for predicting word error rates from text | |
JP2002366187A (en) | Device and method for recognizing voice, program and recording medium | |
JP5249967B2 (en) | Speech recognition device, weight vector learning device, speech recognition method, weight vector learning method, program | |
Chuangsuwanich | Multilingual techniques for low resource automatic speech recognition | |
Weng et al. | Discriminative training using non-uniform criteria for keyword spotting on spontaneous speech | |
JP6631883B2 (en) | Model learning device for cross-lingual speech synthesis, model learning method for cross-lingual speech synthesis, program | |
JP4964194B2 (en) | Speech recognition model creation device and method thereof, speech recognition device and method thereof, program and recording medium thereof | |
WO2020136948A1 (en) | Speech rhythm conversion device, model learning device, methods for these, and program | |
Wang et al. | Sequence teacher-student training of acoustic models for automatic free speaking language assessment | |
Sahu et al. | A study on automatic speech recognition toolkits | |
JP6027754B2 (en) | Adaptation device, speech recognition device, and program thereof | |
JP7423056B2 (en) | Reasoners and how to learn them | |
JP6594251B2 (en) | Acoustic model learning device, speech synthesizer, method and program thereof | |
JP4950600B2 (en) | Acoustic model creation apparatus, speech recognition apparatus using the apparatus, these methods, these programs, and these recording media | |
Kurian | A review on technological development of automatic speech recognition | |
EP4068279B1 (en) | Method and system for performing domain adaptation of end-to-end automatic speech recognition model | |
JP2010054588A (en) | Sound model preparing device, voice recognition device using the same, these method, these program and these recording medium | |
Young | Acoustic modelling for large vocabulary continuous speech recognition |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
A621 | Written request for application examination |
Free format text: JAPANESE INTERMEDIATE CODE: A621 Effective date: 20100726 |
|
RD03 | Notification of appointment of power of attorney |
Free format text: JAPANESE INTERMEDIATE CODE: A7423 Effective date: 20110810 |
|
A977 | Report on retrieval |
Free format text: JAPANESE INTERMEDIATE CODE: A971007 Effective date: 20111215 |
|
A131 | Notification of reasons for refusal |
Free format text: JAPANESE INTERMEDIATE CODE: A131 Effective date: 20111227 |
|
A521 | Request for written amendment filed |
Free format text: JAPANESE INTERMEDIATE CODE: A523 Effective date: 20120224 |
|
TRDD | Decision of grant or rejection written | ||
A01 | Written decision to grant a patent or to grant a registration (utility model) |
Free format text: JAPANESE INTERMEDIATE CODE: A01 Effective date: 20120321 |
|
A01 | Written decision to grant a patent or to grant a registration (utility model) |
Free format text: JAPANESE INTERMEDIATE CODE: A01 |
|
A61 | First payment of annual fees (during grant procedure) |
Free format text: JAPANESE INTERMEDIATE CODE: A61 Effective date: 20120327 |
|
R150 | Certificate of patent or registration of utility model |
Free format text: JAPANESE INTERMEDIATE CODE: R150 |
|
FPAY | Renewal fee payment (event date is renewal date of database) |
Free format text: PAYMENT UNTIL: 20150406 Year of fee payment: 3 |
|
S531 | Written request for registration of change of domicile |
Free format text: JAPANESE INTERMEDIATE CODE: R313531 |
|
R350 | Written notification of registration of transfer |
Free format text: JAPANESE INTERMEDIATE CODE: R350 |
|
LAPS | Cancellation because of no payment of annual fees |