JP5149107B2 - 音響処理装置およびプログラム - Google Patents
音響処理装置およびプログラム Download PDFInfo
- Publication number
- JP5149107B2 JP5149107B2 JP2008222817A JP2008222817A JP5149107B2 JP 5149107 B2 JP5149107 B2 JP 5149107B2 JP 2008222817 A JP2008222817 A JP 2008222817A JP 2008222817 A JP2008222817 A JP 2008222817A JP 5149107 B2 JP5149107 B2 JP 5149107B2
- Authority
- JP
- Japan
- Prior art keywords
- data
- acoustic model
- recognition
- phoneme
- processing unit
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Active
Links
- 238000012545 processing Methods 0.000 title claims description 271
- 238000000034 method Methods 0.000 claims description 132
- 230000008569 process Effects 0.000 claims description 97
- 238000007476 Maximum Likelihood Methods 0.000 claims description 59
- 230000006978 adaptation Effects 0.000 claims description 57
- 238000013138 pruning Methods 0.000 claims description 42
- 238000004458 analytical method Methods 0.000 description 20
- 238000010586 diagram Methods 0.000 description 18
- 238000013500 data storage Methods 0.000 description 17
- 239000013598 vector Substances 0.000 description 16
- 230000006870 function Effects 0.000 description 13
- 238000013518 transcription Methods 0.000 description 11
- 230000035897 transcription Effects 0.000 description 11
- 230000000877 morphologic effect Effects 0.000 description 10
- 238000000605 extraction Methods 0.000 description 8
- 230000015572 biosynthetic process Effects 0.000 description 7
- 238000002474 experimental method Methods 0.000 description 7
- 238000003786 synthesis reaction Methods 0.000 description 7
- 230000001419 dependent effect Effects 0.000 description 6
- 230000000694 effects Effects 0.000 description 6
- 238000004891 communication Methods 0.000 description 5
- 230000008859 change Effects 0.000 description 4
- 238000007796 conventional method Methods 0.000 description 4
- 238000012986 modification Methods 0.000 description 4
- 230000004048 modification Effects 0.000 description 4
- 238000004364 calculation method Methods 0.000 description 3
- 238000001514 detection method Methods 0.000 description 3
- 238000011156 evaluation Methods 0.000 description 3
- 239000000284 extract Substances 0.000 description 3
- 230000006872 improvement Effects 0.000 description 3
- 241000102542 Kara Species 0.000 description 2
- 244000141353 Prunus domestica Species 0.000 description 2
- 230000003044 adaptive effect Effects 0.000 description 2
- 230000003247 decreasing effect Effects 0.000 description 2
- 230000036541 health Effects 0.000 description 2
- 238000012417 linear regression Methods 0.000 description 2
- NGVDGCNFYWLIFO-UHFFFAOYSA-N pyridoxal 5'-phosphate Chemical compound CC1=NC=C(COP(O)(O)=O)C(C=O)=C1O NGVDGCNFYWLIFO-UHFFFAOYSA-N 0.000 description 2
- 230000011218 segmentation Effects 0.000 description 2
- 230000002194 synthesizing effect Effects 0.000 description 2
- 238000012360 testing method Methods 0.000 description 2
- 208000032041 Hearing impaired Diseases 0.000 description 1
- 241001648319 Toronia toru Species 0.000 description 1
- 230000005540 biological transmission Effects 0.000 description 1
- 238000013461 design Methods 0.000 description 1
- 238000005516 engineering process Methods 0.000 description 1
- 230000012447 hatching Effects 0.000 description 1
- 239000000203 mixture Substances 0.000 description 1
- 230000002093 peripheral effect Effects 0.000 description 1
- 238000003672 processing method Methods 0.000 description 1
- 230000004044 response Effects 0.000 description 1
- 238000013179 statistical model Methods 0.000 description 1
- 238000012549 training Methods 0.000 description 1
Images
Description
Long Nguyen,外1名,"Light Supervision in Acoustic Model Training",IEEE International Conference on Acoustics, Speech, and Signal Processing, 2004. Proceedings. (ICASSP apos;04),2004年,Volume 1,p.17−21
1)音素と該音素に対応する音響特徴量とを関連付けた音響モデルを記憶する音響モデル記憶部を備え、
2)認識処理部が、前記音響モデル記憶部から読み出した音響モデルを用いて音声の認識処理を行い、認識仮説を含んだ認識結果データを出力し、
3)選択処理部は、前記認識処理部が出力した認識結果データに基づき、各々の音素に対する信頼度データを付加した教師系列データを求め、前記教師系列データとこれに対応する音響特徴量データとを、学習データとして出力し、そして、
4)音響モデル適応化部は、前記選択処理部が出力した学習データを読み込み、前記学習データに含まれる各々の音素の観測確率を求め、前記音素ごとに、音響モデルを用いて、前記音響モデル記憶部を更新する。
ここで、言語的単位とは、言語的にまとまりのある単位であり、例えば、形態素、単語などである。また、認識仮説とは、認識処理の結果得られる認識の仮説であり、ある時刻でみたときには、複数の仮説が並立する場合もある。例えば形態素を単位としてみたとき、認識仮説は、形態素がアークに対応し、形態素間の接続点がノードに対応する形のラティス構造(時間方向の半順序構造)を有する。ある時刻において複数のアーク(相互に対立するアーク)が存在するとき、それらに対する確率を与えることができるが、本態様ではその確率を信頼度データとしている。また、教師系列データとは、信頼度データが付与されたラティスである。
本態様では、音響処理装置は、認識仮説の最尤パスと(書き起こしの字幕などの)テキストデータとの一致に基づき音声の区間を切り出す代わりに、教師音素列の信頼度を導入し、信頼度に基づいて学習する部分と学習しない部分を特定する。選択処理部が出力する学習データには、音声と教師音素列に加えて、それらに対応する教師音素列の信頼度を含んでいる。そして音響モデル適応化部は、音響モデルの統計量を推定する際に、例えばフォワードバックワードアルゴリズム(Forward-Backward Algorithm)やビタビアルゴリズム(Viterbi Algorithm)により得られる教師音素列の各音素の観測確率に、上記の信頼
度による重み付けを行なって推定する。さらに、一致区間に対立する区間を枝刈りしているため、一致区間の事後確率は1となる。つまり、この一致区間に含まれる音素には最高信頼度を表わす信頼度データ(=1)が付加される。そして、本態様では、音響処理装置は、認識結果データの形態素ラティスを利用し、最尤仮説とテキストデータとの一致区間以外の形態素にも非零の信頼度を付与する。これは、時間軸上で最尤仮説と対立する(重複する)仮説の枝刈り処理を行なった後の認識仮説のラティスを用いて、最尤仮説の各形態素の事後確率を算出し、この事後確率を信頼度として付与する方法である。
このような構成により、認識結果データの中の一致区間だけではなく、その他の部分の音声の音響特徴量データを用いて、音響モデルの学習(音響モデル記憶部の更新(適応化))を行なえる。また、信頼度データを用いて、それによって重み付けをしていることにより、信頼度に応じた適切な学習を行なうことが可能となる。また、一致区間に最高信頼度を表わす信頼度データを付加し、その他の区間にも事後確率に応じた非零の信頼でデータを付加し、その重みを用いて音響モデルの学習を行なえる。
これに対して、本発明の第2の態様による音響処理装置は、音素と該音素に対応する音響特徴量とを関連付けた音響モデルを記憶する音響モデル記憶部と、前記音響モデル記憶部から読み出した音響モデルを用いて音声の認識処理を行い、認識仮説を含んだ認識結果データを出力する認識処理部と、前記認識処理部が出力した認識結果データと前記音声に対応するテキストデータとを読み込み、前記認識結果データに含まれる最尤パスと前記テキストデータが一致する一致区間と時間軸上で対立する区間を枝刈りする処理を行ない、この枝刈り後の認識結果データに含まれる言語的単位ごとの事後確率を前記言語的単位に含まれる各々の音素に対する信頼度データとして付加した教師系列データを求め、前記教師系列データとこれに対応する音響特徴量データとを、学習データとして出力する選択処理部と、前記選択処理部が出力した学習データを読み込み、フォワードバックワードアルゴリズムを用いて前記学習データに含まれる各々の音素の観測確率を求め、前記音素ごとに、前記観測確率で重み付けられた前記音響特徴量データとして得られる音響モデルを用いて、前記音響モデル記憶部を更新する音響モデル適応化部とを具備することを特徴とするものである。
前記の第1の態様による音響処理装置と比較して、本態様の特徴は、音響処理装置が、観測確率で重み付けられた音響特徴量データとして得られる音響モデルを用いて音響モデル記憶部を更新する点である。また、選択処理部は、認識結果データに含まれる最尤パスとテキストデータが一致する一致区間と時間軸上で対立する区間を枝刈りする処理を行ない、この枝刈り後の認識結果データに含まれる言語的単位ごとの事後確率を前記言語的単位に含まれる各々の音素に対する信頼度データとして付加する。
本態様では、音響処理装置は、枝刈り処理後の認識仮説のラティス(このラティスには、下で述べる観測確率に信頼度が含まれている)を教師系列として、このラティスに直接フォワードバックワードアルゴリズムを適用して、音響モデルを学習する。この方法では、単語の信頼度(事後確率)は直接用いず、フォワードバックワードアルゴリズムにより得られる観測確率に信頼度が含まれている。
本態様では、音響処理装置は、認識仮説のラティスとテキストデータの一致が最大になる形態素系列を教師系列とする。そして、一致区間には最高信頼度を表わす信頼度データを付加し、その他の区間にも適宜信頼度データを付加する。つまり、最尤仮説ではないパス内に一致区間が存在する場合にもそのような一致区間に最高信頼度が与えられる。これにより、最尤仮説とテキストデータとの間の表記の揺らぎや形態素分割の異なりに起因して不一致区間と判定されてしまう区間を一致区間として利用し、音響モデルを学習することができる。
前記選択処理部が出力した学習データを読み込み、フォワードバックワードアルゴリズムを用いて前記学習データに含まれる各々の音素の観測確率を求め、前記音素ごとに、前記観測確率で重み付けられた前記音響特徴量データとして得られる音響モデルを用いて、前記音響モデル記憶部を更新する音響モデル適応化部とを具備することを特徴とする。
前記の第2の態様による音響処理装置が最尤パスとテキストデータとが一致する一致区間を基準として対立する区間を枝刈りするのに対して、この第4の態様による音響処理装置は、認識結果データの全体(最尤パス以外の仮説も含む)とテキストデータとが一致する一致区間を基準として対立する区間を枝刈りする点が特徴である。
[第1の実施の形態]
図1は、第1の実施形態による音響モデル学習装置の機能構成を示すブロック図である。図示するように、音響モデル学習装置100は、字幕テキスト記憶部1と、形態素解析処理部2と、重み付け処理部3と、ベースラインコーパス記憶部4と、合成処理部5と、バイアス化言語モデル記憶部6(言語モデル記憶部)と、重み付け処理部7と、番組音声記憶部8と、音響モデル記憶部9と、認識処理部10と、認識仮説記憶部11と、アライメント処理部12と、選択処理部13と、学習データ記憶部14と、音響モデル適応化部15とを含んで構成される。
音響モデル記憶部9は、音素とその音素に対応する音響特徴量とを関連付けた音響モデルのデータを記憶する。音響モデルのデータについては後でも説明する。
一例として、選択処理部13は、最尤パスと字幕テキストデータとが一致する区間(およびその区間に含まれる音素)には信頼度1(最高信頼度を表わす)を与え、その他の区間(およびその区間に含まれる音素)には信頼度0(最低信頼度を表わす)を与える。そして、選択処理部13は、信頼度データが付加された認識結果データ(これが教師系列データであり、この系列中に音素が含まれる)と、これに対応する音響特徴量データとを、対応付けて出力する。具体的には、選択処理部13は、このデータを学習データ記憶部14に書き込む。
これは、実験結果からも得られた適切な重み値である。具体的には、本願発明者らが、NHK(日本放送協会)の実際に番組の音声および字幕テキストを用いて行なった実験では、Wbias<5000の領域において、Wlmの変化による単語誤認識率(WER)の差が小さい。また、Wlm<18の領域において、Wbiasの変化による単語誤認識率の差が小さい。そして、Wbias<5000且つWlm<18の場合に、単語誤認識率がそれほど上がらずに、且つ得られる学習データの量が多くなる。そして、Wbiasが1000程度でWlmが16程度のときに、特に、単語誤認識率がそれほど上がらずに、且つ得られる学習データの量が多くなる。
図2は、バイアス化言語モデル記憶部6によって記憶され認識処理部10によって認識処理の際に使用される言語モデルのデータの構成を示す概略図である。
図2(a)は、形態素単体での出現確率を表わすテーブルを示す。このテーブルは、表形式のデータであり、形態素と出現確率の項目(列)を有する。テーブルの行は、形態素の種類ごとに存在する。各形態素と、その形態素の出現確率とが関連付けられてこのテーブルに保持される。
図2(b)は、形態素と形態素の接続確率を表わすテーブルである。このテーブルは、表形式のデータであり、形態素1と形態素2と接続確率の項目(列)を有する。テーブルの行は、形態素1と形態素2の組み合わせごとに存在する。各行は、形態素1が出現したときその形態素1に直ちに続いて形態素2が出現する(接続する)確率である接続確率の情報を表わしている。
図3は、音響モデル記憶部9によって記憶され認識処理部10によって認識処理の際に使用される音響モデルのデータの構成を示す概略図である。図示するように、音響モデルは、音素と、その音素が発話されるときの音響的特徴量とを関連付けて保持するデータである。音響的特徴量としては、例えば、10ミリ秒ごとの間隔でそれぞれ開始する25ミリ秒のフレーム内の周波数パワー分布を基にしたMFCC(メル周波数ケプストラム係数,Mel-Frequency Cepstrum Coefficient)や、PLP(Perceptual Linear Predictive)などを用いる。
図4は、認識処理部10によって出力され認識仮説記憶部11によって記憶される認識仮説のデータ構成およびデータ例を示す概略図である。認識仮説は、論理的には、言語的単位(形態素)をアークとするラティス構造(半順序(partial order)構造)のグラフで表現される。
図5は、音響モデル学習装置100全体の処理手順を示すフローチャートである。
図示するように、ステップS01において、まず形態素解析処理部2が、字幕テキスト記憶部1から読み出した字幕テキストの形態素解析処理を行なう。形態素解析処理は、既存の技術により可能である。
判定の結果、繰り返し処理を終了しない場合(ステップS08:NO)には、次のステップS09に進む。
判定の結果、繰り返しを終了する場合(ステップS08:YES)には、このフローチャート全体の処理を終了する。このとき、学習データ記憶部14に累積的に書き込まれたデータが、本装置による学習処理の結果として得られた音響モデルである。
また、
本実施形態では、選択処理部13は、次の式(2)により信頼度を与えている。
そして、選択処理部13は、各々の区間の信頼度を、その区間に含まれる音素の信頼度として付加する。
図7において、形態素解析結果は字幕テキストを形態素解析して得られたデータであり、このデータは形態素(単語)の一次元的な列である(図中のそれぞれの四角が形態素に相当)。また、認識結果は、認識処理部10による音声認識処理の結果得られる認識仮説のラティスに含まれるパスの一部に相当するデータである(図中のそれぞれの四角が形態素に相当)。そして、この図においては形態素解析結果と最尤パスとが一致する一致区間をハッチングで表わしている。また、これらの各々の区間には、音響特徴量および信頼度が対応付いている。本実施形態では、上記の一致区間の信頼度は1.0であり、その他の区間の信頼度は0.0である。そして、各区間に含まれる音素と、対応する音響特徴量と、対応する信頼度とを関連付けたものが、選択処理部13によって得られる学習データである。
次に第2の実施形態について説明する。本実施形態では、認識結果の単語ラティスを用いて、最尤パスと字幕テキストとの一致区間以外の形態素をも学習データとして利用する。
なお、以下では、本実施形態特有の部分のみを説明し、その他の部分については前記の実施形態1と同様であるため説明を省略する。
図8は、選択処理部13によって枝刈りされた後の認識仮説のデータ例を示す概略図である。そして、図4に示したデータが、選択処理部13によって枝刈りされる前の認識仮説のデータである。
まず、選択処理部13は、図4に示した認識仮説のデータと字幕テキストのデータとの一致区間を選択する。ここでは選択処理部13は1形態素以上連続して両者が一致する区間を一致区間として選択するものとする。その結果、形態素B(始点ノードが「2」で終点ノードが「3」)と形態素C(始点ノードが「3」で終点ノードが「4」)と形態素E(始点ノードが「5」で終点ノードが「6」)が一致区間として選択される。
つまり、図4に示すラティスのうち、形態素IとJとLとMとNとOとPのそれぞれのアークが選択処理部13によって枝刈りされる。その枝刈りの結果として残るのは、形態素BとCとEとFとGとHとKのそれぞれのアークであり、これらのアークに対応するデータが、図8に示すデータである。
図8(b)は、図8(a)の表形式のデータが表現するラティスを絵的に示した概略図である。
式(5)に表わすように、形態素mの前向き確率は、形態素mに左から接続する各形態素m´の前向き確率α(m´)に当該形態素mのスコアL(m)を乗じた値の、左から接続する全ての形態素についての総和である。このように前向き確率は再帰的な定義となっているが、始端単語から前向きに順次計算していくことにより、ラティス中の全ての形態素の前向き確率を算出できる。
式(6)に表わすように、形態素mの後ろ向き確率は、形態素mに右から接続する各形態素m´の後ろ向き確率β(m´)に当該形態素mのスコアL(m)を乗じた値の、右から接続する全ての形態素についての総和である。このように後ろ向き確率は再帰的な定義となっているが、終端単語から後ろ向きに順次計算していくことにより、ラティス中の全ての形態素の後ろ向き確率を算出できる。
式(7)に表わすように、終端単語の前向き確率および始端単語の後ろ向き確率をZとする。
そして、音響モデル適応化部15は、選択処理部13が得た信頼度データを用いて、第1の実施形態と同様に、例えば前記の式(1)を用いて音素に対応するベクトルの更新式を得て、これにより音響モデル記憶部9に記憶された音響モデルを更新する。
次に第3の実施形態について説明する。本実施形態では、選択処理部13が、第2の実施形態における枝刈り処理と同様の処理を行なう。そして、枝刈り後の認識結果のラティスに対して、直接フォワードバックワードアルゴリズムによる処理を行い、各音素の統計量を学習する。この場合、フォワードバックワードアルゴリズムの処理より得られる観測確率に、既に信頼度が含まれる。
そして、音響モデル適用化部15は、学習データ記憶部14からこの学習データを読み込み、フォワードバックワードアルゴリズムを用いて、教師系列データ(ラティス)に含まれる各音素の観測確率を求め、この観測確率で重み付けられた観測ベクトルの平均ベクトルを音素ごとに算出し、得られた平均ベクトルを音響モデルとして用いて音響モデル記憶部に記憶されている音響モデルを適応化する。
次に、第4の実施形態を説明する。第1〜第3の実施形態が最尤パスと字幕テキストが一致する区間を基準として教師系列を求めていたのに対し、本実施形態の特徴は、認識結果のラティスと字幕テキストが一致する区間を基準として教師系列を作成する点である。
本実施形態では、選択処理部13は、認識結果のラティスと字幕テキストとのビタビアライメントを取ることにより、認識結果のラティスと字幕テキストが一致する区間を基に教師系列を得る。
例えば、形態素cは「ですから」であり、形態素c0−c1の系列は「です/から」に対応する。本実施形態の方法では、認識結果における最尤パスが「です/から」を含むものであっても、字幕テキストと一致する「ですから」を選択して教師形態素列を作る。つまり、最尤パスにおける形態素分割の結果が字幕テキストと異なることに起因して不一致区間と判定されてしまう区間を、一致区間と同等に扱うことができるようになる。
また例えば、形態素eは「こと」に対応し、形態素e´は「事」に対応する。本実施形態の方法では、認識結果における最尤パスが「事」を含むものであっても、字幕テキストと一致する「こと」を選択して教師形態素列を作る。つまり、表記の揺らぎに起因して不一致区間と判定されてしまう区間を、一致区間と同等に扱うことができるようになる。
次に、第5の実施形態を説明する。第5の実施形態は、第4の実施形態と同様に、認識結果のラティスと字幕テキストが一致する区間を基準として教師系列を作成する点である。
本実施形態では、選択処理部13は、認識結果のラティスと字幕テキストとのビタビアライメントを取ることにより、認識結果のラティスと字幕テキストが一致する区間を得る。
そして、選択処理部13は、得られた一致区間と対立する区間の枝刈り処理を行なう。ここで、枝刈り処理の手法そのものは第3の実施形態におけるそれと同様であるが、第3の実施形態が最尤パスと字幕テキストとの一致区間を基準としていたのに対し、本実施形態は、認識結果のラティスと字幕テキストが最大に一致する区間を基準とする。
そのように枝刈り後のラティスが得られた後の処理は、第3の実施形態における処理と同様である。つまり、音響モデル適用化部15は、選択処理部13が出力した学習データを読み込み、フォワードバックワードアルゴリズムを用いて学習データに含まれる各々の音素の観測確率を求め、音素ごとに、観測確率で重み付けられた音響特徴量データとして得られる音響モデルを用いて、前記音響モデル記憶部を更新する。
本発明の追加実施形態の1について説明する。
図11は、同実施形態による音響モデル学習装置101の機能構成を示すブロック図である。図示するように、音響モデル学習装置101は、内部に、音響モデル学習装置(番組A用)101Aと音響モデル学習装置(番組B用)101Bと音響モデル学習装置(番組C用)101Cと音響モデル学習装置(番組D用)101Dとを含んで構成されている。これら音響モデル学習装置101A〜101Dの各々は、それぞれ単一の番組用のものである。
なお、音響モデル学習装置101が内部に備える番組個別用の音響モデル学習装置の数は、4に限定されず、任意の自然数として構成しても良い。
本実施形態においても、選択処理部13は、アライメント処理部12によってアライメントされたデータを用いて、認識結果データに信頼度を付加し、学習データとして出力する。
言い換えれば、音響モデル記憶部9は音響モデルを番組ごとに記憶するものであり、認識処理部10は番組の音声を当該番組に対応した音響モデルを用いて音声の認識処理を行なうものであり、選択処理部13は番組ごとに学習データを出力し、音響モデル適応化部15は、当該番組用の音響モデルを更新する。
なお、この実施形態は、前述した第1から第5のいずれかの実施形態と組み合わせて実現してよい。言い換えれば、第1から第5のいずれかの実施形態で述べた、選択処理部13および音響モデル適応化部15の処理を用いて、番組ごとに音響モデルの学習を行なうようにする。
次に、本発明の追加実施形態の2について説明する。上記の実施形態では、認識処理部10による認識処理の際の言語モデルと音響モデルそれぞれの重みに影響する重み値Wlmとして固定的な値を用いていた。本実施形態では、音響モデルの適応度合いに応じて、この重み値Wlmを変化させる。
Wlm(n)=13−0.5n ・・・ (10)
とする。つまり、上の式(10)に従えば、1回目の認識処理に用いる重み値Wlm(1)は12.5であり、2回目の認識処理に用いる重み値Wlm(2)は12.0であり、3回目の認識処理に用いる重み値Wlm(3)は11.5であり、以下同様に、前回の認識処理のときよりも小さい重み値Wlm(n)を用いる。これは、認識処理において、前回の認識処理のときよりも言語モデルによる制約の影響をより小さくすることを意味する。
ステップS40の処理が終わると、ステップS34の処理に戻って新たな重み付け係数Wlmによる言語モデルの重み付けを行い、以下、ステップS35以降の処理に続く。
さらにまた、本実施例の変形例として、重み値Wlmと重み値Wbiasの両方を認識処理の繰り返しに伴って徐々に小さくしていっても、今回認識処理においては前回の認識処理のときよりも言語モデルが相対的に音響モデルよりもより小さい重みで用いられるという同様の作用が得られる。
さらに詳細に述べると、前記の各実施形態では、認識精度を高めるため、従来技術による方法よりも強い言語的な制約を用いた認識処理を行なうようにしている。つまり、言語モデルの重み付けの度合いを比較的大きくしている。しかしながら、音響モデルを適応化する処理を繰り返すことにより、比較的小さな言語的な制約で認識精度を確保できるようになる。従って、本実施形態では、繰り返し処理による音響モデルの精度向上に応じて言語的制約を減ずるようにしている。この言語的制約の調整により、字幕と発話の不一致区間の検出制度の向上が可能となる。
なお、この実施形態は、前述した第1から第5のいずれかの実施形態と組み合わせて実現してよい。言い換えれば、第1から第5のいずれかの実施形態で述べた、選択処理部13および音響モデル適応化部15の処理を用いながら、重み値Wlmを徐々に変化させる。
次に、本発明の追加実施形態の3について説明する。本実施形態では、話者の交代あるいは話者の属性の交代を検出し、話者に依存した音響モデル或いは話者の属性に依存した音響モデルを用いて認識処理を行なう点が特徴的である。
音声区間切り出し部18は、女声発話モデル記憶部16Fから読み出した女声発話モデルと男声発話モデル記憶部16Mから読み出した男声発話モデルとを用いて、番組音声の中の、女声で発話されている部分と、男声で発話されている部分と、発話以外の部分(番組中の、例えば無音部分や、背景雑音のみの部分や、音楽の部分や、効果音の部分など)とを区別する。つまり音声区間切り出し部18は、入力される音声がヒトによる発話であるか否かを検出するとともに、発話である場合にはその話者属性(ここでは、話者の性別)を検知する。つまり、音声区間切り出し部18は、話者属性別発話モデルを用いて音声の中の所定音声区間における話者又は話者属性を推定する話者属性推定手段としても機能する。そして、音声区間切り出し部18は、女声による音声区間と男声による音声区間とをそれぞれ切り出した形で認識処理部10MFに渡す。
これと同様に、アライメント処理部12Mは、認識仮説記憶部11Mから読み出した男声音声区間の認識仮説のみを用いて、前述した実施形態と同様のアライメント処理を行なう。選択処理部13Mは、アライメント処理部12Mによる処理結果に基づき、男声音声区間の認識仮説に、前述の手法を用いて信頼度データを付加し、得られた学習データを学習データ記憶部14Mに書き込む。
このように、音声区間切り出し部18によって切り出された女声音声区間および男声音声区間それぞれに基づいて、女性用および男性用のそれぞれ専用の学習データが得られる。
また、話者属性(性別)に依存した音響モデルを使用して認識処理を行なうことにより、話者属性非依存の音響モデルを用いた場合に比べ、高い認識精度を得ることができ、より多くの学習データを作成することができる。
また、入力音声の統計量を利用して話者或いは話者属性の推定手段(音声区間切り出し部18)を備えた音声アルゴリズムを併用する場合に、得られた学習データを用いて話者推定用の統計量(女声発話モデルおよび男声発話モデル)を適応化するとともに、話者(或いは話者属性)ごとに音響モデルを設けて(音響モデル記憶部9Fおよび9M)、これらをそれぞれ適応化しているため、さらに、認識精度の向上が図れる。
なお、上述した各実施形態における音響モデル学習装置の機能をコンピュータで実現するようにしても良い。その場合、この音響モデル学習の機能を実現するためのプログラムをコンピュータ読み取り可能な記録媒体に記録して、この記録媒体に記録されたプログラムをコンピュータシステムに読み込ませ、実行することによって実現しても良い。なお、ここでいう「コンピュータシステム」とは、OSや周辺機器等のハードウェアを含むものとする。また、「コンピュータ読み取り可能な記録媒体」とは、フレキシブルディスク、光磁気ディスク、ROM、CD−ROM等の可搬媒体、コンピュータシステムに内蔵されるハードディスク等の記憶装置のことをいう。さらに「コンピュータ読み取り可能な記録媒体」とは、インターネット等のネットワークや電話回線等の通信回線を介してプログラムを送信する場合の通信線のように、短時刻の間、動的にプログラムを保持するもの、その場合のサーバやクライアントとなるコンピュータシステム内部の揮発性メモリのように、一定時刻プログラムを保持しているものも含んでも良い。また上記プログラムは、前述した機能の一部を実現するためのものであっても良く、さらに前述した機能をコンピュータシステムにすでに記録されているプログラムとの組み合わせで実現できるものであっても良い。
例えば、一致区間を選択する際に、選択処理部13は字幕テキストと認識仮説が3単語以上連続して一致している区間を選択することを説明したが、「3」に限らず、適宜所定の単語数以上連続して位置している区間を選択するようにしても良い。また、語数を基準とする代わりに、所定の文字数(例えば、5文字)以上連続して一致している区間を選択するようにしても良い。
ここで、本願発明者らが実際に行なった認識実験について説明する。
2004年10月14日、および2007年6月25日、27日、28日(本放送と再放送を含む)にNHKで放送された5回分の番組「きょうの健康」を評価音声として認識実験を行なった。各放送回には約2600単語(形態素)の発話があり総計12807単語を評価した。
LS0:これは従来技術による手法であり、認識結果(最尤仮説)と書き起こしのテキストデータとの一致部分の音声を切り出して、学習音声とした。
LS1:信頼度を全て1として、一致区間情報を利用しない教師なし学習とした。
LS2:最尤仮説と書き起こしのテキストデータとの一致部分の信頼度を1とし、それ以外の部分の信頼度を0として、音声を切り出さずに一区間のみを用いた学習とした。
LS3:最尤仮説と書き起こしのテキストデータとの一致部分の信頼度を1とし、最尤仮説の単語の事後確率から不一致部分の信頼度を得て、学習した。
言語モデルは、情報番組の書き起こしの字幕テキストデータを基に、番組ホームページから得られる各放送回の番組内容紹介テキストに20倍の重みを付けて学習した番組依存言語モデルである。この言語モデルのテストセットパープレキシティーは59であり、未知語率は0.8%であった。
2 形態素解析(Morphological analysis)処理部
3 重み付け処理部
4 ベースラインコーパス(Baseline corpus)記憶部
5 合成処理部
6 バイアス化言語モデル(Biased LM)記憶部(言語モデル記憶部)
7 重み付け処理部
8 番組音声(Program audio)記憶部
9,9F,9M 音響モデル(AM)記憶部
10,10MF 認識(Recognition)処理部
11,11F,11M 認識仮説記憶部
12,12F,12M アライメント(Alignment)処理部
13,13F,13M 選択(Selection)処理部
14,14F,14M 学習データ(Transcripts)記憶部
15,15F,15M 音響モデル適応化部(Adaptation)
16F 女声発話モデル(Female speech model)記憶部(話者属性別発話モデル記憶手段)
16M 男声発話モデル(Male speech model)記憶部(話者属性別発話モデル記憶手段)
17F,17M 発話モデル適応化部(Adaptation)
18 音声区間切り出し部(話者属性推定手段)
100,101,101A〜101D,102 音響モデル学習装置
Claims (5)
- 音素と該音素に対応する音響特徴量とを関連付けた音響モデルを記憶する音響モデル記憶部と、
前記音響モデル記憶部から読み出した音響モデルを用いて音声の認識処理を行い、認識仮説を含んだ認識結果データを出力する認識処理部と、
前記認識処理部が出力した認識結果データに基づき、教師系列データを取得し、前記教師系列データに含まれる各々の音素に信頼度データを付加し、前記信頼度データが付加された前記教師系列データと該教師系列データに対応する音響特徴量データとを、学習データとして出力する選択処理部と、
前記選択処理部が出力した学習データを読み込み、前記学習データに含まれる各々の前記音素の観測確率データを算出し、前記音素ごとに、前記学習データに含まれる前記音響特徴量データと算出された前記観測確率データとに基づき、且つ、前記信頼度データを重みとして乗じて得られる音響モデルを用いて、前記音響モデル記憶部を更新する音響モデル適応化部と、を具備する音響処理装置であって、
前記選択処理部は、前記音声に対応するテキストデータを読み込み、前記認識結果データに含まれる最尤パスと前記テキストデータが一致する一致区間と時間軸上で対立する区間を枝刈りする処理を行ない、この枝刈り処理の結果得られる系列を前記教師系列データとして取得し、当該教師系列データに含まれる言語的単位ごとの事後確率を前記言語的単位に含まれる前記音素に対する信頼度データとして付加する、
ことを特徴とする音響処理装置。 - 音素と該音素に対応する音響特徴量とを関連付けた音響モデルを記憶する音響モデル記憶部と、
前記音響モデル記憶部から読み出した音響モデルを用いて音声の認識処理を行い、認識仮説を含んだ認識結果データを出力する認識処理部と、
前記認識処理部が出力した認識結果データと前記音声に対応するテキストデータとを読み込み、前記認識結果データに含まれる最尤パスと前記テキストデータが一致する一致区間と時間軸上で対立する区間を枝刈りする処理を行ない、この枝刈り後の認識結果データに含まれる言語的単位ごとの事後確率を前記言語的単位に含まれる各々の音素に対する信頼度データとして付加した教師系列データを求め、前記教師系列データとこれに対応する音響特徴量データとを、学習データとして出力する選択処理部と、
前記選択処理部が出力した学習データを読み込み、フォワードバックワードアルゴリズムを用いて前記学習データに含まれる各々の音素の観測確率を求め、前記音素ごとに、前記観測確率で重み付けられた前記音響特徴量データとして得られる音響モデルを用いて、前記音響モデル記憶部を更新する音響モデル適応化部と、
を具備することを特徴とする音響処理装置。 - 音素と該音素に対応する音響特徴量とを関連付けた音響モデルを記憶する音響モデル記憶部と、
前記音響モデル記憶部から読み出した音響モデルを用いて音声の認識処理を行い、認識仮説を含んだ認識結果データを出力する認識処理部と、
前記認識処理部が出力した認識結果データに基づき、教師系列データを取得し、前記教師系列データに含まれる各々の音素に信頼度データを付加し、前記信頼度データが付加された前記教師系列データと該教師系列データに対応する音響特徴量データとを、学習データとして出力する選択処理部と、
前記選択処理部が出力した学習データを読み込み、前記学習データに含まれる各々の前記音素の観測確率データを算出し、前記音素ごとに、前記学習データに含まれる前記音響特徴量データと算出された前記観測確率データとに基づき、且つ、前記信頼度データを重みとして乗じて得られる音響モデルを用いて、前記音響モデル記憶部を更新する音響モデル適応化部と、を具備する音響処理装置であって、
前記選択処理部は、前記音声に対応するテキストデータを読み込み、前記認識結果データから、前記テキストデータとの一致が最大となるようなパスを選択して前記教師系列データとして取得するとともに、当該教師系列データと前記テキストデータが一致する一致区間に含まれる前記音素に対しては最高信頼度を表わす信頼度データを付加する、
ことを特徴とする音響処理装置。 - 音素と該音素に対応する音響特徴量とを関連付けた音響モデルを記憶する音響モデル記憶部と、
前記音響モデル記憶部から読み出した音響モデルを用いて音声の認識処理を行い、認識仮説を含んだ認識結果データを出力する認識処理部と、
前記認識処理部が出力した認識結果データと前記音声に対応するテキストデータとを読み込み、前記認識結果データから、前記テキストデータとの一致が最大となるようなパスを選択して前記教師系列データとして取得するとともに、当該教師系列データ内で前記認識結果データと前記テキストデータとが一致する一致区間を選択し、前記一致区間と時間軸上で対立する区間を枝刈りする処理を行ない、この枝刈り後の認識結果データに含まれる言語的単位ごとの事後確率を前記言語的単位に含まれる各々の音素に対する信頼度データとして付加した教師系列データを求め、前記教師系列データとこれに対応する音響特徴量データとを、学習データとして出力する選択処理部と、
前記選択処理部が出力した学習データを読み込み、フォワードバックワードアルゴリズムを用いて前記学習データに含まれる各々の音素の観測確率を求め、前記音素ごとに、前記観測確率で重み付けられた前記音響特徴量データとして得られる音響モデルを用いて、前記音響モデル記憶部を更新する音響モデル適応化部と、
を具備することを特徴とする音響処理装置。 - 音素と該音素に対応する音響特徴量とを関連付けた音響モデルを記憶する音響モデル記憶部を備えるコンピュータに、
前記音響モデル記憶部から読み出した音響モデルを用いて音声の認識処理を行い、認識仮説を含んだ認識結果データを出力する認識処理過程と、
前記認識処理過程で出力した認識結果データに基づき、教師系列データを取得し、前記教師系列データに含まれる各々の音素に信頼度データを付加し、前記信頼度データが付加された前記教師系列データと該教師系列データに対応する音響特徴量データとを、学習データとして出力する選択処理過程と、
前記選択処理過程で出力した学習データを読み込み、前記学習データに含まれる各々の前記音素の観測確率データを算出し、前記音素ごとに、前記学習データに含まれる前記音響特徴量データと算出された前記観測確率データとに基づき、且つ、前記信頼度データを重みとして乗じて得られる音響モデルを用いて、前記音響モデル記憶部を更新する音響モデル適応化過程と、
の処理を実行させるためのプログラムであって、
前記選択処理過程は、前記音声に対応するテキストデータを読み込み、前記認識結果データに含まれる最尤パスと前記テキストデータが一致する一致区間と時間軸上で対立する区間を枝刈りする処理を行ない、この枝刈り処理の結果得られる系列を前記教師系列データとして取得し、当該教師系列データに含まれる言語的単位ごとの事後確率を前記言語的単位に含まれる前記音素に対する信頼度データとして付加する過程である、
処理を実行させるプログラム。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
JP2008222817A JP5149107B2 (ja) | 2008-08-29 | 2008-08-29 | 音響処理装置およびプログラム |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
JP2008222817A JP5149107B2 (ja) | 2008-08-29 | 2008-08-29 | 音響処理装置およびプログラム |
Publications (2)
Publication Number | Publication Date |
---|---|
JP2010055030A JP2010055030A (ja) | 2010-03-11 |
JP5149107B2 true JP5149107B2 (ja) | 2013-02-20 |
Family
ID=42070978
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
JP2008222817A Active JP5149107B2 (ja) | 2008-08-29 | 2008-08-29 | 音響処理装置およびプログラム |
Country Status (1)
Country | Link |
---|---|
JP (1) | JP5149107B2 (ja) |
Families Citing this family (12)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
JP2013025299A (ja) | 2011-07-26 | 2013-02-04 | Toshiba Corp | 書き起こし支援システムおよび書き起こし支援方法 |
JP5342621B2 (ja) * | 2011-09-08 | 2013-11-13 | 日本電信電話株式会社 | 音響モデル生成装置、音響モデル生成方法、プログラム |
JP5749186B2 (ja) * | 2012-02-06 | 2015-07-15 | 日本電信電話株式会社 | 音響モデル適応装置と音声認識装置とそれらの方法と、プログラム |
JP6183988B2 (ja) * | 2012-12-11 | 2017-08-23 | 日本放送協会 | 音声認識装置、誤り修正モデル学習方法、及びプログラム |
JP2015018186A (ja) * | 2013-07-12 | 2015-01-29 | 日本放送協会 | 適応化装置およびプログラム |
JP6327745B2 (ja) * | 2014-02-24 | 2018-05-23 | 日本放送協会 | 音声認識装置、及びプログラム |
JP6344849B2 (ja) * | 2014-06-26 | 2018-06-20 | 日本放送協会 | 映像識別器学習装置、及びプログラム |
JP2015187733A (ja) * | 2015-04-28 | 2015-10-29 | 株式会社東芝 | 書き起こし支援システムおよび書き起こし支援方法 |
JP6637332B2 (ja) * | 2015-08-24 | 2020-01-29 | 日本放送協会 | 音声言語コーパス生成装置およびそのプログラム |
JP6387044B2 (ja) * | 2016-05-25 | 2018-09-05 | 株式会社東芝 | テキスト処理装置、テキスト処理方法およびテキスト処理プログラム |
US12125482B2 (en) | 2019-11-22 | 2024-10-22 | Intel Corporation | Adaptively recognizing speech using key phrases |
EP4443429A4 (en) * | 2021-12-03 | 2025-02-26 | Panasonic Ip Man Co Ltd | VOICE RECORDING DEVICE AND VOICE RECORDING METHOD |
Family Cites Families (3)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
JP2000305589A (ja) * | 1999-04-16 | 2000-11-02 | Kobe Steel Ltd | 適応型音声認識装置,音声処理装置,及びペット玩具 |
JP2000352993A (ja) * | 1999-06-14 | 2000-12-19 | Oki Electric Ind Co Ltd | 音声認識システム及びヒドン・マルコフ・モデルの学習方法 |
JP4779239B2 (ja) * | 2001-06-13 | 2011-09-28 | 日本電気株式会社 | 音響モデル学習装置、音響モデル学習方法、およびそのプログラム |
-
2008
- 2008-08-29 JP JP2008222817A patent/JP5149107B2/ja active Active
Also Published As
Publication number | Publication date |
---|---|
JP2010055030A (ja) | 2010-03-11 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
JP5149107B2 (ja) | 音響処理装置およびプログラム | |
JP4869268B2 (ja) | 音響モデル学習装置およびプログラム | |
US11545142B2 (en) | Using context information with end-to-end models for speech recognition | |
US20200120396A1 (en) | Speech recognition for localized content | |
US9117450B2 (en) | Combining re-speaking, partial agent transcription and ASR for improved accuracy / human guided ASR | |
Woodland et al. | The development of the 1996 HTK broadcast news transcription system | |
Huijbregts | Segmentation, diarization and speech transcription: surprise data unraveled | |
JP5271299B2 (ja) | 音声認識装置、音声認識システム、及び音声認識プログラム | |
JP6637332B2 (ja) | 音声言語コーパス生成装置およびそのプログラム | |
JP6183988B2 (ja) | 音声認識装置、誤り修正モデル学習方法、及びプログラム | |
Lanchantin et al. | The development of the Cambridge University alignment systems for the Multi-Genre Broadcast challenge | |
JP2013050605A (ja) | 言語モデル切替装置およびそのプログラム | |
JP5184467B2 (ja) | 適応化音響モデル生成装置及びプログラム | |
Georgescu et al. | Rodigits-a romanian connected-digits speech corpus for automatic speech and speaker recognition | |
JP2013182261A (ja) | 適応化装置、音声認識装置、およびそのプログラム | |
JP4949310B2 (ja) | 音響処理装置およびプログラム | |
JP6637333B2 (ja) | 音響モデル生成装置およびそのプログラム | |
Hansen et al. | Audio stream phrase recognition for a national gallery of the spoken word:" one small step". | |
JP2004347732A (ja) | 言語自動識別方法及び装置 | |
JP4972660B2 (ja) | 音声学習装置及びプログラム | |
Siohan | CTC Training of Multi-Phone Acoustic Models for Speech Recognition. | |
Kubala et al. | Broadcast news transcription | |
Govender et al. | Objective measures to improve the selection of training speakers in HMM-based child speech synthesis | |
US20240153493A1 (en) | Techniques for improved audio processing using combinations of clipping engines and acoustic models | |
Ang et al. | Automatic speech recognition for closed-captioning of Filipino news broadcasts |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
A621 | Written request for application examination |
Free format text: JAPANESE INTERMEDIATE CODE: A621 Effective date: 20101201 |
|
A977 | Report on retrieval |
Free format text: JAPANESE INTERMEDIATE CODE: A971007 Effective date: 20120123 |
|
A131 | Notification of reasons for refusal |
Free format text: JAPANESE INTERMEDIATE CODE: A131 Effective date: 20120207 |
|
A521 | Request for written amendment filed |
Free format text: JAPANESE INTERMEDIATE CODE: A523 Effective date: 20120323 |
|
TRDD | Decision of grant or rejection written | ||
A01 | Written decision to grant a patent or to grant a registration (utility model) |
Free format text: JAPANESE INTERMEDIATE CODE: A01 Effective date: 20121030 |
|
A61 | First payment of annual fees (during grant procedure) |
Free format text: JAPANESE INTERMEDIATE CODE: A61 Effective date: 20121129 |
|
R150 | Certificate of patent or registration of utility model |
Ref document number: 5149107 Country of ref document: JP Free format text: JAPANESE INTERMEDIATE CODE: R150 Free format text: JAPANESE INTERMEDIATE CODE: R150 |
|
FPAY | Renewal fee payment (event date is renewal date of database) |
Free format text: PAYMENT UNTIL: 20151207 Year of fee payment: 3 |
|
R250 | Receipt of annual fees |
Free format text: JAPANESE INTERMEDIATE CODE: R250 |
|
R250 | Receipt of annual fees |
Free format text: JAPANESE INTERMEDIATE CODE: R250 |
|
R250 | Receipt of annual fees |
Free format text: JAPANESE INTERMEDIATE CODE: R250 |
|
R250 | Receipt of annual fees |
Free format text: JAPANESE INTERMEDIATE CODE: R250 |
|
R250 | Receipt of annual fees |
Free format text: JAPANESE INTERMEDIATE CODE: R250 |
|
R250 | Receipt of annual fees |
Free format text: JAPANESE INTERMEDIATE CODE: R250 |
|
R250 | Receipt of annual fees |
Free format text: JAPANESE INTERMEDIATE CODE: R250 |
|
R250 | Receipt of annual fees |
Free format text: JAPANESE INTERMEDIATE CODE: R250 |
|
R250 | Receipt of annual fees |
Free format text: JAPANESE INTERMEDIATE CODE: R250 |
|
R250 | Receipt of annual fees |
Free format text: JAPANESE INTERMEDIATE CODE: R250 |