JP6031316B2 - 音声認識装置、誤り修正モデル学習方法、及びプログラム - Google Patents
音声認識装置、誤り修正モデル学習方法、及びプログラム Download PDFInfo
- Publication number
- JP6031316B2 JP6031316B2 JP2012220426A JP2012220426A JP6031316B2 JP 6031316 B2 JP6031316 B2 JP 6031316B2 JP 2012220426 A JP2012220426 A JP 2012220426A JP 2012220426 A JP2012220426 A JP 2012220426A JP 6031316 B2 JP6031316 B2 JP 6031316B2
- Authority
- JP
- Japan
- Prior art keywords
- model
- speech
- error correction
- data
- recognition
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Active
Links
- 238000012937 correction Methods 0.000 title claims description 146
- 238000000034 method Methods 0.000 title claims description 74
- 230000006870 function Effects 0.000 claims description 69
- 238000003860 storage Methods 0.000 claims description 56
- 230000008569 process Effects 0.000 claims description 43
- 230000010354 integration Effects 0.000 claims description 35
- 238000013179 statistical model Methods 0.000 claims description 32
- 238000011156 evaluation Methods 0.000 claims description 21
- 238000002156 mixing Methods 0.000 claims description 13
- 239000000203 mixture Substances 0.000 claims description 10
- 238000007619 statistical method Methods 0.000 claims 3
- 230000002194 synthesizing effect Effects 0.000 claims 1
- 238000012545 processing Methods 0.000 description 19
- 238000009826 distribution Methods 0.000 description 15
- 230000014509 gene expression Effects 0.000 description 13
- 238000011161 development Methods 0.000 description 11
- 238000007796 conventional method Methods 0.000 description 10
- 238000006243 chemical reaction Methods 0.000 description 7
- 238000010586 diagram Methods 0.000 description 7
- 238000004364 calculation method Methods 0.000 description 6
- 230000008859 change Effects 0.000 description 6
- 238000010411 cooking Methods 0.000 description 6
- 230000015572 biosynthetic process Effects 0.000 description 4
- 239000000284 extract Substances 0.000 description 4
- 238000005070 sampling Methods 0.000 description 4
- 238000003786 synthesis reaction Methods 0.000 description 4
- 238000013518 transcription Methods 0.000 description 4
- 230000035897 transcription Effects 0.000 description 4
- 238000000605 extraction Methods 0.000 description 3
- 239000011159 matrix material Substances 0.000 description 3
- 230000009466 transformation Effects 0.000 description 3
- 238000004891 communication Methods 0.000 description 2
- 230000015654 memory Effects 0.000 description 2
- 238000010606 normalization Methods 0.000 description 2
- 238000005457 optimization Methods 0.000 description 2
- 230000000699 topical effect Effects 0.000 description 2
- 238000007476 Maximum Likelihood Methods 0.000 description 1
- 230000006978 adaptation Effects 0.000 description 1
- 230000008901 benefit Effects 0.000 description 1
- 230000000694 effects Effects 0.000 description 1
- 238000005516 engineering process Methods 0.000 description 1
- 230000036541 health Effects 0.000 description 1
- 230000006872 improvement Effects 0.000 description 1
- 238000012417 linear regression Methods 0.000 description 1
- 238000004519 manufacturing process Methods 0.000 description 1
- 230000002093 peripheral effect Effects 0.000 description 1
- 238000010187 selection method Methods 0.000 description 1
- 238000001228 spectrum Methods 0.000 description 1
- 238000010183 spectrum analysis Methods 0.000 description 1
- 230000007704 transition Effects 0.000 description 1
Images
Landscapes
- Machine Translation (AREA)
Description
この発明によれば、音声認識装置は、特定話者の音声データを、その特定話者の音響モデルと特定話題の言語モデルとを用いて音声認識し、認識誤りを含む音声認識結果を学習データとして生成する。音声認識装置は、音声データから生成した学習データと、その音声データの正解文とから統計的に認識誤りの傾向を分析して誤り修正モデルを生成した後、生成した誤り修正モデルと特定話題以外の言語モデルとを統合して特定話者及び特定話題の音声認識に用いる統合モデルを生成する。
これにより、言語モデルの統合方法に応じて学習データとなる音声認識結果を作成し直す必要がなく、効率的に統合モデルを学習することができる。
この発明によれば、音声認識装置は、音声データに対応したテキストデータを正解文とみなしたときの正解文候補に含まれる単語の認識誤りと、誤り修正モデルにより得られた正解文候補の音響スコア及び認識誤り傾向が修正された言語スコアと、特定話題とは異なる話題の言語モデルから得られた正解文候補の言語スコアとに基づいて定められる評価関数によって算出した評価値が、最も認識誤りが少ないことを示す評価値になるように言語モデルの混合重みを算出し、算出した混合重みにより誤り修正モデルと複数の言語モデルとを統合する。
これにより、音声認識装置は、特定話者の特定話題についての発話を音声認識するために適した誤り修正モデルを生成した後に、認識率が上がるように他の話題の言語モデルを統合する際の混合重みを決定することができる。
この発明によれば、音声認識装置は、特定話題のテキストデータから音声合成により特定話者の音声データを生成し、生成した音声データの音声認識結果とテキストデータが示す正解文とから誤り修正モデルを生成する。
これにより、音声認識装置は、特定話者の音声データが統計的に十分な量とならない場合でも、特定話題のテキストデータから誤り修正モデルを生成することができる。
この発明によれば、音声認識装置は、単語や音素などに基づく言語的特徴を表す素性関数とその素性重みとで定義される誤り修正モデルが用いる素性重みを、音声認識結果から得られた素性関数の値と認識誤りとを用いて定められる評価関数によって算出した評価値が、最も認識誤りが少ないことを示す評価値となるように決定し、誤り修正モデルを生成する。
これにより、音声認識装置は、特定話者の特定話題についての発話を音声認識するために適した誤り修正モデルを生成した上で、他の話題についての誤り傾向を統合することができる。
この発明によれば、音声認識装置は、特定話者及び特定話題について学習した統合モデルに基づいて音声認識を行う。
これにより、音声認識装置は、特定話者の特定話題の発話について認識率のよい音声認識結果を得ることができる。
音声認識の誤り傾向を反映した、いわゆる誤り修正モデルでは、誤り傾向を学習するために音声・テキストデータのほかに、統計的音響モデル(以下、「音響モデル」と記載する。)と統計的言語モデル(以下、「言語モデル」と記載する。)が必要となる。従来の音声認識装置は、この2つの統計的モデルを用いて音声データを音声認識し、認識誤りを含む仮説(音声認識結果)を生成する。仮説の生成の際に使われる言語モデルは、単一のテキスト集合から学習された言語モデルだけではなく、複数の異なるテキスト集合から個別に学習された言語モデルを組み合わせて使うことが多い。従来法では、言語モデルの統合が先に行われ、その後に、統合された言語モデルに整合した誤り修正モデルが学習される。しかし、この学習順序では、異なる組み合わせで言語モデルを統合する都度、誤り修正モデルの学習に用いる認識誤りを含む仮説を生成することとなり、実用性の面からも効率的であるとはいえない。
続いて、本発明の一実施形態による音声認識装置の処理概要を説明する。
上述したように、本実施形態の音声認識装置は、特定の音響モデル及び言語モデルにより誤り修正モデルを学習した後、学習した誤り修正モデルと単語の予測を行う複数の言語モデルとを統合する。以下、複数の言語モデルと統合した誤り修正モデルを統合モデルと記載する。本実施形態の音声認識装置は、統合する際の言語モデル間の混合重みを調整することで、音声認識対象の話題及び話者にマッチした統合モデルを得る。
ベイズの定理によれば、音声入力xが与えられたとき、この音声入力xに対して尤もらしい単語列w^(「^」は、「ハット」を表す。)は、以下の式(1)により求めることができる。
また、P(x|w)は、単語列wに対する音響的な尤もらしさを示す尤度であり、そのスコア(音響スコア)は隠れマルコフモデル(Hidden Markov Model、HMM)及びガウス混合分布(Gaussian Mixture Model,GMM)に代表される音響モデルに基づいて計算される。言い換えれば、音響特徴量が与えられたとき、複数の正解候補の単語列それぞれに対する尤もらしさを表すスコアが音響スコアである。
一方、P(w)は、単語列wに対する言語的な尤もらしさであり、そのスコア(言語スコア)は、単語n−gramモデル等の言語モデルにより計算される。言い換えれば、音声認識対象の単語の前または後の単語列、あるいは前後両方の単語列が与えられたとき、複数の正解候補の単語列それぞれに対する尤もらしさを表すスコアが言語スコアである。なお、単語n−gramモデルは、N単語連鎖(Nは、例えば1、2、または3である。)の統計に基づいて、(N−1)単語の履歴から次の単語の生起確率を与えるモデルである。
(b)単語列wに含まれる連続しない単語2項組み(u,v)の数
前節で述べたように、本実施形態の音声認識装置は、特定の話者及び話題に依存した音声認識の誤り傾向を学習して統計的な誤り修正モデルを生成する。本実施形態の音声認識装置は、この生成した誤り修正モデルを音声認識に適用して認識率の改善をはかる。
同図に示すように、従来法では、誤り学習に用いる音響モデルとして音響モデルA1〜ANの中から特定話者の音響モデル(同図では、音響モデルA2)を選択し、言語モデルとして複数の言語モデルB1〜BMを統合する。誤り修正モデルの学習データは、これらの特定話者の音響モデル、及び、統合した言語モデルで音声データを音声認識することにより得られる。そのため、従来法では、複数の言語モデルの組み合わせの条件が変わってしまうと(すなわち、式(6)におけるモデルパラメータθjの値が変わると)、誤り修正モデルの学習データである音声認識結果が大きく変わってしまう。従って、ある条件に適した誤り修正モデルを学習するには、言語モデルの組み合わせに合わせて、音声認識結果を生成しなければならない。これでは、学習データを生成するための計算時間がかかりすぎてしまい、効率的とはいえない。
図2は、本実施形態の音声認識装置による統合モデル学習処理の概要処理フローを示す。
本実施形態の音声認識装置は、音声データとその書き起こしであるテキストデータとからなる音声言語資源データを音声言語資源格納部に予め格納している。さらに本実施形態の音声認識装置は、音響モデル及び言語モデルを統計モデル格納部に予め格納している。音声データ及び音響モデルには、少なくとも話者を示すラベルデータが付与されており、テキストデータ及び言語モデルには、少なくとも話題や番組を示すラベルデータが付与されている。
まず、本実施形態の音声認識装置の利用者は、認識率を改善したい話題及び話者を選択する。例えば、利用者は、音声言語資源データの各音声データや各テキストデータに付与されたラベルデータが示す番組や話題、話者の情報に基づいて、話者名や話題(料理・健康・旅行など)のラベルデータを指定する。本実施形態の音声認識装置は、誤り修正モデルの学習に用いる音声言語資源データとして、指定された話者名や話題のラベルデータが付与された音声データやテキストデータを選択する。
次に、本実施形態の音声認識装置は、統計モデル格納部から、ステップS1において指定された話題や話者に適合した言語モデル及び音響モデルを選択する。これらのモデルは、音声言語資源格納部に記憶されている音声データやテキストデータから統計的手段により推定された音響モデル及び言語モデルでもよく、他の音声データやテキストデータから推定された音響モデル及び言語モデルでもよい。
本実施形態の音声認識装置は、ステップS1で選択した音声データを、ステップS2で選択した音響モデル及び言語モデルにより音声認識し、認識誤りを含む仮説(音声認識結果)を学習データとして生成する。なお、ステップS1においてテキストデータを選択した場合、本実施形態の音声認識装置は、音響モデル及び言語モデルを用いて擬似的に誤りを含む仮説を生成することも可能である。
本実施形態の音声認識装置は、ステップS3において得られた認識誤りを含む仮説を学習データとして用い、統計的手段により誤り修正モデルを推定する。この誤り修正モデルの推定の際、本実施形態の音声認識装置は、修正モデルの推定に用いる言語的な特徴を、ステップS1で選択したテキストデータが示す書き起こし(正解文)とステップS3で得られた誤りを含む仮説とから予め定めておく。
本実施形態の音声認識装置は、ステップS4において得られた誤り修正モデルと、統計モデル格納部に記憶されている任意の数の言語モデルを線形補間などの手法で統合し、統合モデルを生成する。この際、本実施形態の音声認識装置は、認識性能を改善したい話題・話者の音声データを用い、その認識性能を最大にするよう各言語モデルの混合重み(モデルパラメータ)を推定して統合する。
図3は、本発明の一実施形態による音声認識装置1の構成を示す機能ブロック図であり、本実施形態と関係する機能ブロックのみ抽出して示してある。
音声認識装置1は、コンピュータ装置により実現され、同図に示すように、音声言語資源管理部2、統計モデル管理部3、認識誤り生成部4、誤り修正モデル学習部5、モデル統合部6、音声認識部7、及び記憶部8を備えて構成される。
記憶部8は、各機能部が使用する各種データを記憶する。
続いて、図2に示す統合モデル学習処理において、音声認識装置1が実行する詳細な処理手順について説明する。
音声言語資源管理部2は、音声言語資源データの音声データ及びテキストデータとして放送音声・字幕データD1を収集し、音声言語資源格納部21に格納する。あるいは、音声言語資源管理部2は、音声認識装置1とネットワークにより接続されるサーバコンピュータ等からウェブデータを収集し、テキストデータのみからなる音声言語資源データとして音声言語資源格納部21に格納する。収集した音声データ及びテキストデータには、音声言語資源管理部2により、あるいは、人手によりラベルデータが付与される。例えば、放送音声・字幕データD1に付与されている番組情報をラベルデータに利用することができる。また、ウェブデータが例えばニュースのテキストデータである場合、そのニュースが属するカテゴリをウェブデータから取得し、ラベルデータに使用することができる。
統計モデル格納部31には、音声言語資源データとして音声言語資源格納部21に格納された音声データ及びテキストデータ、もしくは、他の音声言語資源データから学習された音響モデル及び言語モデルが、ラベルデータと対応づけて格納されている。統計モデル管理部3は、統計モデル格納部31に格納されているラベルデータに基づいて、特定話者データD2に対応する音響モデルと、特定話題データD3に対応する言語モデルを選択する。さらに、統計モデル管理部3は、誤り修正モデルと統合するための言語モデルD8として、統計モデル格納部31に格納されている言語モデルの中から言語モデルD7とは異なる言語モデルを1以上選択する。
認識誤り生成部4は、音響モデルD6及び言語モデルD7を用いて、音声・テキストデータD4に含まれる音声データを音声認識する。ここでは、音声認識結果を、上位n個(nは1以上の整数)の最尤単語系列(n−best)または単語ラティスとする。認識誤り生成部4は、音声データの音声認識結果を示す学習データD9を記憶部8に書き込む。
まず、認識誤り生成部4は、音声・テキストデータD4に含まれるテキストデータが示す各単語列を、正解音素列に変換する。この正解音素列の変換処理には様々な変換方法が考えられるが、本実施形態では、以下のように変換する。
式(8)に用いられる素性関数として、例えば、以下があげられる。
(b)単語列wのi−1番目の単語wi−1=単語u、かつ、i番目の単語wi=単語vであり発音qi=βであれば1、それ以外は0。例えば、単語wi−1が単語u「へ」であり、直後の単語wiが単語u「行って」、かつ、単語wiの発音qiが音素列α「/i/ /Q/ /t/ /e/」に合致すれば「1」となる。
認識誤り生成部4は、ステップS30において得られた正解の発音系列である正解音素列q^から、対応するHMMの状態系列を求める。例えば、認識誤り生成部4は、音響モデルD6が示す各音素に対応したHMMを参照し、正解音素列q^を構成する各音素に対応したHMMを結合してHMMの状態系列を生成する。
認識誤り生成部4は、音響モデルD6が示すHMMの各状態における多変量混合Gauss(ガウス)分布から、音響特徴量をサンプリングにより求める。なお、多変量混合Gauss分布とは、式(10)に示す確率密度関数Ν(x;μ,Σ)を持つ分布である。
ここで、HMMは、式(10)に示す確率密度関数Ν(x;μ,Σ)の多変量混合Gauss分布を用いて、式(11)に示す混合Gauss分布で定められる。
線形変換処理は、オプションである。認識誤り生成部4は、ステップS32においてサンプリングにより得た音響特徴量に対して、音声認識がコンフュージョンを起こしやすくするように、予め記憶部8に記憶されている特徴量変換行列D33を用いて、特徴量空間での最尤線形回帰(feature-space Maximum Likelihood Linear Regression;fMLLR)を行う。この処理は、文献「Y. Li et al. Incremental on-line feature space MLLR adaptation for telephony speech recognition, In ICSLP, 2002.」に記載の技術を用いる。通常、HMMのような統計的なモデルでは、音響特徴量空間上で識別面(他のHMMよりも高い確率を出力する空間)を構成する。そこで、特徴量変換行列による線形変換を使って、特徴量を識別面から離す(どこか遠い別の点に近づける)ことにより、識別性能を故意に劣化させることができる。近づける対象の点としては、ある音素を統計的に間違いが生じやすい他の音素に置き換えた点を用いることができる。
最後に、認識誤り生成部4は、ステップS33により得られた音響特徴量(あるいは、ステップS32により得られた音響特徴量)を、音響モデルD6及び言語モデルD7を用いて音声認識し、音声認識結果を得る。音声認識結果は、n−bestまたは単語ラティスとする。音声認識結果には、複数の正解文候補と、各正解文候補の音響スコア及び言語スコアが含まれる。認識誤り生成部4は、音声認識結果を学習データD9として記憶部8に書き込む。
[4.4.1 言語的特徴抽出処理]
ステップS4において誤り修正モデル学習部5は最初に、記憶部8に記憶されている音声・テキストデータD4及び学習データD9から、誤り傾向学習のために用いる言語的特徴に基づく素性関数を抽出する。素性関数のルールは、例えば、連続する単語、単語を構成する音素、連続しない2単語以上の単語、音素間の共起関係、単語の構文的な情報または意味的な情報、などの言語的特徴である。
(b)単語列wに連続しない単語2項組み(u,v)が含まれる場合、その数を返す関数
(d)単語列wに連続しない品詞2項組み(c(u),c(v))が含まれる場合、その数を返す関数
(f)単語列wに連続しない意味カテゴリ2項組み(s(u),s(v))が含まれる場合、その数を返す関数
本実施形態では、誤り修正モデル学習部5は、誤り傾向を反映した誤り修正モデルを得るために、以下で述べるリスク最小化法を用いる。
リスク最小化手法に基づく、統計的な誤り修正モデルでは、発話xm(mは1以上M以下の整数、Mは学習データの数)と、この発話xmに対応した正解単語列wm,0が与えられたとき、目的関数L(Λ)を以下の式(13)のように定める。
誤り修正モデル学習部5は、先に示した言語的特徴抽出処理により、誤り傾向学習で用いる素性関数fiを抽出する。
誤り修正モデル学習部5は、ステップS40において得られた素性関数fiの素性重みλiを全てゼロに初期化する。
誤り修正モデル学習部5は、学習データD9から音声認識結果を読み込み、音声・テキストデータD4からこの音声認識結果に対応した正解単語列(テキストデータ)を読み込む。誤り修正モデル学習部5は、読み込んだこれらのデータを用いて、現在のΛ=(λ1,λ2,…)の値を用い、式(13)により目的関数L(Λ)の値を計算する。
誤り修正モデル学習部5は、準ニュートン法に基づいて、誤り修正モデルのパラメータΛを更新する。準ニュートン法は、適当な初期値を与えて解に近い次の値を生成し、その値からまた次の解に近い値を生成することを繰り返し、最終的に最適解に収束させるものである。準ニュートン法の詳細については、非特許文献1を参照のこと。
誤り修正モデル学習部5は、パラメータの更新により変更された目的関数L(Λ)の値と、変更前の目的関数L(Λ)の値を比較する。誤り修正モデル学習部5は、値の変化が所定以上であればステップS42からの処理を繰り返し、所定よりも小さければ更新が収束したとみなしてステップS45の処理を実行する。
誤り修正モデル学習部5は、更新が収束したときの誤り修正モデルの素性重みΛ=(λ0,λ1,…)を用いた誤り修正モデルD10を記憶部8に書き込む。
モデル統合部6は、ステップS4において生成された誤り修正モデルD10と、統計モデル格納部31から選択された複数の言語モデルD8とを統合し、統合モデルD11を生成する。
また、θk∈Θは、各言語モデルに対する混合重み(モデルパラメータ)であり、Σkθk=1を満たす。モデル統合部6は、モデルパラメータΘを推定する。この推定したモデルパラメータΘを用いた式(18)が、求める統合モデルである。
つまり、式(18)は、学習データから得られた認識誤りの誤り傾向を反映させた式(15)に示す誤り修正モデルの言語スコアの部分に、混合重みに従って各言語モデルD8による言語スコアを線形補間したものである。
モデルパラメータΘは、誤り修正モデルと同様に、N個の発話から構成される開発データD5を用いて、以下の式(23)に示すリスク最小化問題を解くことにより得られる。
モデル統合部6は、モデルパラメータΘを初期化する。ここでは、言語モデルの個数をK個とし、モデル統合部6は、θk=1/Kとして初期化する。
モデル統合部6は、記憶部8から開発データD5を読み出す。モデル統合部6は、特定話者の音響モデルD6と、言語モデルD7及び言語モデルD8を用いて開発データD5の音声データを音声認識し、現在のモデルパラメータΘの値を使って式(23)によって目的関数L(Θ)の値を算出する。
なお、文仮説wn,m(m=1,...)は開発データD5の音声データが示す発話xnの第m番目の正解文候補である。発話xnの正解文wn,0は、開発データD5のテキストデータから得られる。モデル統合部6は、発話xnの正解文wn,0と文仮説wn,mとを用いて、式(23)におけるLevenshtein編集距離R(wn,o,wn,m)を算出する。
また、式(23)における事後確率P(wn,m|xn;Θ)は、発話xnが発生したときに正解文候補wn,mが得られる事後確率であり、以下の式(24)のように算出される。
モデル統合部6は、準ニュートン法に基づいて、誤り修正モデルのモデルパラメータΘを更新する。
モデル統合部6は、パラメータの更新により変更された目的関数値と、変更前の目的関数値を比較して、値の変化が所定以上であればステップS51からの処理を繰り返し、所定よりも小さければ更新が収束したとみなしてステップS54の処理を実行する。
モデル統合部6は、更新が収束したときのモデルパラメータΘ=(θ0,θ1,…)を用いた式(18)を統合モデルD11として記憶部8に書き込む。
音声認識部7は、音声データが入力されると、リアルタイムで音声認識を行う。音声認識部7は、入力された音声データの話者及び話題に対応して記憶部8に記憶されている統合モデルD11と、話者に対応して統計モデル格納部31に記憶されている音響モデル、及び、話題に対応して統計モデル格納部31に記憶されている言語モデルとを用いて、入力された音声データの正解文候補とそのスコアを得る。音声認識部7は、スコアの最も良い正解文候補を示す音声認識結果データD12を出力する。
本実施形態によれば、音声認識装置1は、認識率を向上させたい話者・話題などの情報が誤り傾向に反映された統合モデルを生成することができるため、従来の音声認識よりも認識誤りが削減される。
また、音声認識装置1は、複数の言語モデルの統合を、誤り修正モデルの学習後に行うため、従来よりも効率的にモデル学習を行うことができる。
なお、上述の音声認識装置1は、内部にコンピュータシステムを有している。そして、音声認識装置1の動作の過程は、プログラムの形式でコンピュータ読み取り可能な記録媒体に記憶されており、このプログラムをコンピュータシステムが読み出して実行することによって、上記処理が行われる。ここでいうコンピュータシステムとは、CPU及び各種メモリやOS、周辺機器等のハードウェアを含むものである。
また、「コンピュータ読み取り可能な記録媒体」とは、フレキシブルディスク、光磁気ディスク、ROM、CD−ROM等の可搬媒体、コンピュータシステムに内蔵されるハードディスク等の記憶装置のことをいう。さらに「コンピュータ読み取り可能な記録媒体」とは、インターネット等のネットワークや電話回線等の通信回線を介してプログラムを送信する場合の通信線のように、短時間の間、動的にプログラムを保持するもの、その場合のサーバやクライアントとなるコンピュータシステム内部の揮発性メモリのように、一定時間プログラムを保持しているものも含むものとする。また上記プログラムは、前述した機能の一部を実現するためのものであっても良く、さらに前述した機能をコンピュータシステムにすでに記録されているプログラムとの組み合わせで実現できるものであっても良い。
2 音声言語資源管理部
21 音声言語資源格納部
3 統計モデル管理部
31 統計モデル格納部
4 認識誤り生成部
5 誤り修正モデル学習部
6 モデル統合部
7 音声認識部
8 記憶部
Claims (7)
- 特定話者の発話の音声データと前記音声データに対応する正解文であるテキストデータとを格納する音声言語資源格納部と、
前記特定話者の音響モデルと話題別の言語モデルとを格納する統計モデル格納部と、
前記特定話者の前記音響モデルと特定話題の前記言語モデルとを用いて前記音声データを音声認識し、認識誤りを含む音声認識結果を生成する認識誤り生成部と、
前記認識誤り生成部により生成された前記音声認識結果と、前記テキストデータにより示される前記正解文とから統計的に認識誤りの傾向を分析し、分析された認識誤りの傾向を修正する誤り修正モデルを生成する誤り修正モデル学習部と、
前記特定話者の音響モデルと複数の前記言語モデルとを用いて前記誤り修正モデルの生成に使用した前記音声データとは異なる音声データを音声認識し、音声認識により得られた正解文候補と前記異なる音声データに対応した正解文とを比較して得られる認識誤りに基づいて、前記誤り修正モデル学習部により生成された前記誤り修正モデルに前記複数の言語モデルを統合するときの混合重みを統計的に算出し、算出した前記混合重みに従って前記特定話題とは異なる話題の前記言語モデルを前記誤り修正モデルに統合して統合モデルを生成するモデル統合部と、
を備えることを特徴とする音声認識装置。 - 前記モデル統合部は、前記正解文候補から得られた前記認識誤りと、前記誤り修正モデルにより得られた前記正解文候補の音響スコア及び前記認識誤り傾向が修正された言語スコアと、前記特定話題とは異なる話題の前記言語モデルから得られた前記正解文候補の言語スコアとを用いて定められる評価関数によって算出した評価値に基づいて前記混合重みを統計的に算出する、
ことを特徴とする請求項1に記載の音声認識装置。 - 前記認識誤り生成部は、前記特定話題に対応した前記テキストデータの発話内容を前記特定話者の前記音響モデルを用いて音声合成して音声データを生成し、生成した前記音声データを前記特定話者の前記音響モデルと前記特定話題の前記言語モデルとを用いて音声認識して認識誤りを含む音声認識結果を生成する、
ことを特徴とする請求項1または請求項2に記載の音声認識装置。 - 前記誤り修正モデルは、連続する単語、単語を構成する音素、連続しない複数の単語、音素間の共起関係、単語の構文的な情報、または単語の意味的な情報に基づく言語的特徴を表す素性関数とその素性重みとを用いて定義され、
前記誤り修正モデル学習部は、前記音声認識結果から得られた前記素性関数の値と前記音声認識結果に含まれる前記認識誤りとを用いて定められる評価関数によって算出した評価値に基づいて前記素性重みを統計的に算出し、算出した前記素性重みを用いて前記誤り修正モデルを生成する、
ことを特徴とする請求項1から請求項3のいずれか1項に記載の音声認識装置。 - 前記モデル統合部により生成された前記統合モデルを用いて前記特定話者による前記特定話題の発話の音声データを音声認識する音声認識部をさらに備える、
ことを特徴とする請求項1から請求項4のいずれか1項に記載の音声認識装置。 - 特定話者の発話の音声データと前記音声データに対応する正解文であるテキストデータとを格納する音声言語資源格納過程と、
前記特定話者の音響モデルと話題別の言語モデルとを格納する統計モデル格納過程と、
前記特定話者の前記音響モデルと特定話題の前記言語モデルとを用いて前記音声データを音声認識し、認識誤りを含む音声認識結果を生成する認識誤り生成過程と、
前記認識誤り生成過程において生成された前記音声認識結果と、前記テキストデータにより示される前記正解文とから統計的に認識誤りの傾向を分析し、分析された認識誤りの傾向を修正する誤り修正モデルを生成する誤り修正モデル学習過程と、
前記特定話者の音響モデルと複数の前記言語モデルとを用いて前記誤り修正モデルの生成に使用した前記音声データとは異なる音声データを音声認識し、音声認識により得られた正解文候補と前記異なる音声データに対応した正解文とを比較して得られる認識誤りに基づいて、前記誤り修正モデル学習過程において生成された前記誤り修正モデルに前記複数の言語モデルを統合するときの混合重みを統計的に算出し、算出した前記混合重みに従って前記特定話題とは異なる話題の前記言語モデルを前記誤り修正モデルに統合して統合モデルを生成するモデル統合過程と、
を有することを特徴とする誤り修正モデル学習方法。 - コンピュータを、
特定話者の発話の音声データと前記音声データに対応する正解文であるテキストデータとを格納する音声言語資源格納手段と、
前記特定話者の音響モデルと話題別の言語モデルとを格納する統計モデル格納手段と、
前記特定話者の前記音響モデルと特定話題の前記言語モデルとを用いて前記音声データを音声認識し、認識誤りを含む音声認識結果を生成する認識誤り生成手段と、
前記認識誤り生成手段により生成された前記音声認識結果と、前記テキストデータにより示される前記正解文とから統計的に認識誤りの傾向を分析し、分析された認識誤りの傾向を修正する誤り修正モデルを生成する誤り修正モデル学習手段と、
前記特定話者の音響モデルと複数の前記言語モデルとを用いて前記誤り修正モデルの生成に使用した前記音声データとは異なる音声データを音声認識し、音声認識により得られた正解文候補と前記異なる音声データに対応した正解文とを比較して得られる認識誤りに基づいて、前記誤り修正モデル学習手段により生成された前記誤り修正モデルに前記複数の言語モデルを統合するときの混合重みを統計的に算出し、算出した前記混合重みに従って前記特定話題とは異なる話題の前記言語モデルを前記誤り修正モデルに統合して統合モデルを生成するモデル統合手段と、
を具備する音声認識装置として機能させるためのプログラム。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
JP2012220426A JP6031316B2 (ja) | 2012-10-02 | 2012-10-02 | 音声認識装置、誤り修正モデル学習方法、及びプログラム |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
JP2012220426A JP6031316B2 (ja) | 2012-10-02 | 2012-10-02 | 音声認識装置、誤り修正モデル学習方法、及びプログラム |
Publications (2)
Publication Number | Publication Date |
---|---|
JP2014074732A JP2014074732A (ja) | 2014-04-24 |
JP6031316B2 true JP6031316B2 (ja) | 2016-11-24 |
Family
ID=50748936
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
JP2012220426A Active JP6031316B2 (ja) | 2012-10-02 | 2012-10-02 | 音声認識装置、誤り修正モデル学習方法、及びプログラム |
Country Status (1)
Country | Link |
---|---|
JP (1) | JP6031316B2 (ja) |
Families Citing this family (9)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
JP7021437B2 (ja) * | 2018-08-15 | 2022-02-17 | 日本電信電話株式会社 | 学習データ生成装置、学習データ生成方法、及びプログラム |
JP7120064B2 (ja) * | 2019-02-08 | 2022-08-17 | 日本電信電話株式会社 | 言語モデルスコア計算装置、言語モデル作成装置、それらの方法、プログラム、および記録媒体 |
CN111310836B (zh) * | 2020-02-20 | 2023-08-18 | 浙江工业大学 | 一种基于声谱图的声纹识别集成模型的防御方法及防御装置 |
JP7111758B2 (ja) * | 2020-03-04 | 2022-08-02 | 株式会社東芝 | 音声認識誤り訂正装置、音声認識誤り訂正方法及び音声認識誤り訂正プログラム |
CN113903340A (zh) * | 2020-06-18 | 2022-01-07 | 北京声智科技有限公司 | 样本筛选方法及电子设备 |
CN114678027B (zh) * | 2020-12-24 | 2024-12-03 | 深圳Tcl新技术有限公司 | 语音识别结果的纠错方法、装置、终端设备及存储介质 |
WO2023073887A1 (ja) * | 2021-10-28 | 2023-05-04 | 日本電気株式会社 | 情報処理システム、情報処理装置、情報処理方法、及び記録媒体 |
CN116052657B (zh) * | 2022-08-01 | 2023-10-20 | 荣耀终端有限公司 | 语音识别的字符纠错方法和装置 |
CN115359799A (zh) * | 2022-08-18 | 2022-11-18 | 北京字跳网络技术有限公司 | 语音识别方法、训练方法、装置、电子设备及存储介质 |
Family Cites Families (1)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
JP4852448B2 (ja) * | 2007-02-28 | 2012-01-11 | 日本放送協会 | 誤り傾向学習音声認識装置及びコンピュータプログラム |
-
2012
- 2012-10-02 JP JP2012220426A patent/JP6031316B2/ja active Active
Also Published As
Publication number | Publication date |
---|---|
JP2014074732A (ja) | 2014-04-24 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
JP6031316B2 (ja) | 音声認識装置、誤り修正モデル学習方法、及びプログラム | |
US8019602B2 (en) | Automatic speech recognition learning using user corrections | |
JP4301102B2 (ja) | 音声処理装置および音声処理方法、プログラム、並びに記録媒体 | |
EP1447792B1 (en) | Method and apparatus for modeling a speech recognition system and for predicting word error rates from text | |
US9672815B2 (en) | Method and system for real-time keyword spotting for speech analytics | |
JP2010170137A (ja) | 音声理解装置 | |
JP6051004B2 (ja) | 音声認識装置、誤り修正モデル学習方法、及びプログラム | |
US20140058731A1 (en) | Method and System for Selectively Biased Linear Discriminant Analysis in Automatic Speech Recognition Systems | |
JP6047364B2 (ja) | 音声認識装置、誤り修正モデル学習方法、及びプログラム | |
KR101153078B1 (ko) | 음성 분류 및 음성 인식을 위한 은닉 조건부 랜덤 필드모델 | |
JP2004226982A (ja) | 隠れ軌跡隠れマルコフモデルを使用した音声認識の方法 | |
JPWO2007105409A1 (ja) | 標準パタン適応装置、標準パタン適応方法および標準パタン適応プログラム | |
JP6183988B2 (ja) | 音声認識装置、誤り修正モデル学習方法、及びプログラム | |
JP5180800B2 (ja) | 統計的発音変異モデルを記憶する記録媒体、自動音声認識システム及びコンピュータプログラム | |
US6662158B1 (en) | Temporal pattern recognition method and apparatus utilizing segment and frame-based models | |
JP2013117683A (ja) | 音声認識装置、誤り傾向学習方法、及びプログラム | |
JP6027754B2 (ja) | 適応化装置、音声認識装置、およびそのプログラム | |
JP5288378B2 (ja) | 音響モデルの話者適応装置及びそのためのコンピュータプログラム | |
JP6086714B2 (ja) | 音声認識装置、誤り修正モデル学習方法、及びプログラム | |
JP4362054B2 (ja) | 音声認識装置及び音声認識プログラム | |
JP4659541B2 (ja) | 音声認識装置及び音声認識プログラム | |
JP2004101963A (ja) | 音声認識結果の訂正方法および音声認識結果の訂正のためのコンピュータプログラム | |
Nallasamy | Adaptation techniques to improve ASR performance on accented speakers | |
JP4528076B2 (ja) | 音声認識装置及び音声認識プログラム | |
Magdin et al. | Discriminative training of n-gram language models for speech recognition via linear programming |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
A621 | Written request for application examination |
Free format text: JAPANESE INTERMEDIATE CODE: A621 Effective date: 20150901 |
|
A977 | Report on retrieval |
Free format text: JAPANESE INTERMEDIATE CODE: A971007 Effective date: 20160914 |
|
TRDD | Decision of grant or rejection written | ||
A01 | Written decision to grant a patent or to grant a registration (utility model) |
Free format text: JAPANESE INTERMEDIATE CODE: A01 Effective date: 20160927 |
|
A61 | First payment of annual fees (during grant procedure) |
Free format text: JAPANESE INTERMEDIATE CODE: A61 Effective date: 20161024 |
|
R150 | Certificate of patent or registration of utility model |
Ref document number: 6031316 Country of ref document: JP Free format text: JAPANESE INTERMEDIATE CODE: R150 |
|
R250 | Receipt of annual fees |
Free format text: JAPANESE INTERMEDIATE CODE: R250 |
|
R250 | Receipt of annual fees |
Free format text: JAPANESE INTERMEDIATE CODE: R250 |
|
R250 | Receipt of annual fees |
Free format text: JAPANESE INTERMEDIATE CODE: R250 |
|
R250 | Receipt of annual fees |
Free format text: JAPANESE INTERMEDIATE CODE: R250 |
|
R250 | Receipt of annual fees |
Free format text: JAPANESE INTERMEDIATE CODE: R250 |
|
R250 | Receipt of annual fees |
Free format text: JAPANESE INTERMEDIATE CODE: R250 |