JP7508409B2

JP7508409B2 - 音声認識装置、方法およびプログラム

Info

Publication number: JP7508409B2
Application number: JP2021091236A
Authority: JP
Inventors: 大智早川; 岳彦籠嶋
Original assignee: Toshiba Corp
Current assignee: Toshiba Corp
Priority date: 2021-05-31
Filing date: 2021-05-31
Publication date: 2024-07-01
Anticipated expiration: 2041-05-31
Also published as: JP2022183758A; CN115482822A; US20220383860A1

Description

本発明の実施形態は、音声認識装置、方法およびプログラムに関する。

大量の汎用音声データによってあらかじめ学習された音響モデルを用いて、話し言葉音声を認識する技術がある。話し言葉音声の認識性能が低下する要因としては、例えば以下の４つが考えられる。

（要因１）話し言葉に環境雑音が混入する場合。
（要因２）話速が汎用音声データと著しく異なる場合。認識対象とする話し言葉が、著しく早口であったりゆっくりであったりした場合。
（要因３）話者の特徴が汎用音声データと著しく異なる場合。例えば、汎用音声データが大人の発話で構成されている一方、認識対象が子供の話し言葉の場合。
（要因４）入力する音声の振幅が汎用音声データと著しく異なる場合。例えば、話し言葉音声を収音するマイクロフォンのゲインを著しく小さく設定した場合。

以上４つの要因のいずれか１つでも起きると、話し言葉音声である認識対象音声データの特徴が、汎用音声データの特徴と一致しなくなり、音声認識の性能が著しく低下するという問題が発生する。

上記問題を解決する有効な手法の一つに、入力音声を複数の音響モデルを用いて認識し、その認識結果を統合する手法がある。音響モデルごとに異なる雑音、異なる話速や話者の特徴、異なる振幅の音声データを学習させることで、４つの要因に対応することが可能となる。しかしながら、音響モデルを複数学習させるのは時間コストがかかる。また、計算機で複数の音響モデルを用いて音声認識を行うと、非常に多くのメモリを消費するため、実用には難がある。

問題を解決するもう一つの有効な手法に、単一の音響モデルを用いて雑音に頑健な音声認識を行う手法がある。この手法では、単一の音響モデルに、雑音が含まれた入力信号と、入力信号を雑音抑圧した音声強調信号がまとめて入力される。しかしながら、この方法では、４つの要因のうち（要因１）は解決できるが、（要因２）から（要因４）までは解決できない。また、音響モデルに入力する入力信号と音声強調信号の数をあらかじめ決めた上で、音響モデルを学習しなければならず、制約が大きい。

特開２０２０－０１２９２８号公報

H. Xu, D. Povey, L. Mangu, J. Xhu, "An Improved Consensus-Like method for Minimum Bayes Risk Decoding and Lattice Combination,"in Proceedings of ICASSP, 2010. Y. Qian, P. C. Woodland, "Very Deep Convolutional Neural Networks for Robust Speech Recognition,"arXiv:1610.00277, 2016.

本発明が解決しようとする課題は、音声認識性能を向上することができる音声認識装置、方法およびプログラムを提供することである。

一実施形態に係る音声認識装置は、データ拡張部と、音響スコア計算部と、調整部と、音響スコア統合部と、ラティス生成部と、探索部とを備える。データ拡張部は、入力音声データに基づいて複数の拡張音声データを生成する。音響スコア計算部は、複数の拡張音声データのそれぞれと音響モデルとに基づいて複数の音響スコアを生成する。調整部は、複数の音響スコアをそれぞれリサンプリングすることによって複数の調整済音響スコアを生成する。音響スコア統合部は、複数の調整済音響スコアを統合することによって統合済音響スコアを生成する。ラティス生成部は、統合済音響スコアと発音辞書と言語モデルとに基づいて統合済ラティスを生成する。探索部は、統合済ラティスから尤度の最も高い音声認識結果を探索する。

図１は、第１の実施形態に係る音声認識装置の構成を例示するブロック図。図２は、図１の統合処理部の構成を例示するブロック図。図３は、図１の音声認識装置の動作を例示するフローチャート。図４は、図３のフローチャートの統合処理を例示するフローチャート。図５は、図２の調整部におけるリサンプリングを説明する図。図６は、第１の実施形態の変形例に係る音声認識装置の統合処理部の構成を例示するブロック図。図７は、第１の実施形態の変形例に係る音声認識装置の動作における統合処理を例示するフローチャート。図８は、第１の実施形態の変形例に係る音声認識装置の実験結果を例示するテーブル。図９は、第２の実施形態に係る音声認識装置の構成を例示するブロック図。図１０は、図９のパラメータ自動決定部の構成を例示するブロック図。図１１は、図９の音声認識装置の動作を例示するフローチャート。図１２は、図９のフローチャートのパラメータ自動推定処理を例示するフローチャート。図１３は、第３の実施形態に係る音声認識装置の構成を例示するブロック図。図１４は、第４の実施形態に係る音声認識装置の構成を例示するブロック図。図１５は、一実施形態に係るコンピュータのハードウェア構成を例示するブロック図。図１６は、従来の音声認識装置を含む音声認識システムの構成を例示するブロック図。

初めに、従来の音声認識装置の概要について説明する。

図１６は、従来の音声認識装置１０を含む音声認識システムの構成を例示するブロック図である。音声認識システムは、音声認識装置１０と、集音デバイス２０と、出力装置３０とを備える。

集音デバイス２０は、音声認識対象となる音声データを取得する。集音デバイス２０は、例えば、マイクロフォンである。集音デバイス２０は、取得した音声データを音声認識装置１０へと出力する。以降では、集音デバイス２０で取得された音声データを入力音声データと称する。

音声認識装置１０は、音響スコア計算部１１と、ラティス生成部１２と、探索部１３と、音響モデル記憶部１４と、発音辞書記憶部１５と、言語モデル記憶部１６とを備える。以下では、先に音響モデル記憶部１４と、発音辞書記憶部１５と、言語モデル記憶部１６とについて説明する。

音響モデル記憶部１４は、音響モデルを記憶している。音響モデルは、例えば、音声データによって予め学習された機械学習の学習済モデルである。機械学習としては、例えば、ＤＮＮ（ＤｅｅｐＮｅｕｒａｌＮｅｔｗｏｒｋ）が用いられる。具体的には、音響モデルは、例えば、音素、音節、文字、単語片、および単語のうちの少なくとも一つの単位ごとに、音声データの波形を入力することによって音響スコアに対応する事後確率を出力するように学習された単一のモデルであり、上記ＤＮＮが用いられる。尚、音響モデルは、例えばパワースペクトルやメルフィルタバンク特徴量など音声データの波形から抽出された特徴量（或いは、特徴ベクトル）を入力することによって学習されたモデルでもよい。

発音辞書記憶部１５は、発音辞書を記憶している。発音辞書は、例えば、ある単語がどのような音素の系列（音素系列）で表現されるかを表した辞書である。発音辞書は、音響スコアに基づいて単語を得るために用いられる。

言語モデル記憶部１６は、言語モデルを記憶している。言語モデルは、単語列から文を構成する規則や制約を記述しているモデルである。例えば、言語モデルには、ルールベースで文法を記述する手法や、Ｎ－ｇｒａｍなどの統計的な手法を用いたものがある。言語モデルは、単語列により構成される認識結果を発話文の複数の候補それぞれの確率を出力する際に用いられる。

音響スコア計算部１１は、集音デバイス２０から入力音声データを受け取り、音響モデル記憶部１４から音響モデルを受け取る。音響スコア計算部１１は、入力音声データと音響モデルとに基づいて音響スコアを生成する。音響スコア計算部１１は、生成した音響スコアをラティス生成部１２へと出力する。

具体的には、音響スコア計算部１１は、例えば、入力音声データである波形データをフレーム毎に分割し、フレーム毎に音響スコアを生成する。また、音響スコア計算部１１は、メルフィルタバンク特徴量に代表されるような、フレーム毎に分割された波形データから得られた特徴ベクトルを用いて音響スコアを生成してもよい。これらのことは、音響モデルの種類に応じて適宜変更されてよい。

換言すると、音響スコア計算部１１は、フレーム毎に分割された波形データ、または特徴ベクトルを音響モデルに入力し、フレーム毎に音響スコアを生成する。

ラティス生成部１２は、音響スコア計算部１１から音響スコアを受け取り、発音辞書記憶部１５から発音辞書を受け取り、言語モデル記憶部１６から言語モデルを受け取る。ラティス生成部１２は、音響スコアと発音辞書と言語モデルとに基づいてラティスを生成する。ラティス生成部１２は、生成したラティスを探索部１３へと出力する。

具体的には、ラティス生成部１２は、音響スコアと発音辞書と言語モデルとに基づいて、出力単語列の上位候補を出力する。上位候補は、出力単語列の上位候補をノード、上位候補の単語の尤度をエッジとするラティスという形で出力される。より広い概念では、ラティスは、音声認識による候補単語をノード、候補単語の尤度をエッジとしたものである。尚、ラティスは、単語ラティスと呼ばれてもよい。

探索部１３は、ラティス生成部１２からラティスを受け取る。探索部１３は、ラティスから尤度の最も高い音声認識結果を探索する。探索部１３は、音声認識結果を出力装置３０へと出力する。

なお、ラティス生成部１２における出力単語列の上位候補の生成、および探索部１３における音声認識結果の探索には、例えば、参考文献１（D. Rybach, J. Schalkwyk, M. Riley, “On Lattice Generation for Large Vocabulary Speech Recognition,” IEEE Automatic Speech Recognition and Understanding Workshop (ASRU), 2017）などに記載の手法を用いることができる。

出力装置３０は、音声認識装置１０から音声認識結果を受け取る。出力装置３０は、例えばディスプレイである。出力装置３０は、音声認識結果を所望の表示形式に変換してユーザに提示する。

以下、図面を参照しながら、音声認識装置の各実施形態について詳細に説明する。

（第１の実施形態）
図１は、第１の実施形態に係る音声認識装置１００の構成を例示するブロック図である。音声認識装置１００は、データ拡張部１１０と、統合処理部１２０と、探索部１３０と、音響モデル記憶部１４０と、発音辞書記憶部１５０と、言語モデル記憶部１６０とを備える。尚、音声認識装置１００は、入力音声データを取得する取得部および入力音声データを記憶する入力音声データ記憶部を備えてもよい。また、音響モデル記憶部１４０と、発音辞書記憶部１５０と、言語モデル記憶部１６０とは、一つ以上の記憶部に統合されてもよいし、音声認識装置１００の外部にそれぞれ、或いは統合されて設けられてもよい。

なお、音響モデル記憶部１４０と、発音辞書記憶部１５０と、言語モデル記憶部１６０とは、図１６の音響モデル記憶部１４と、発音辞書記憶部１５と、言語モデル記憶部１６と略同様の構成であるため説明を省略する。

データ拡張部１１０は、集音デバイス（図示せず）から入力音声データを受け取る。データ拡張部１１０は、入力音声データに基づいて複数の拡張音声データを生成する。データ拡張部１１０は、複数の拡張音声データを統合処理部１２０へと出力する。

具体的には、データ拡張部１１０は、入力音声データに対して、話速変換、音量変換、および声質変換のうちの少なくとも一つの変換処理を実行することによって複数の拡張音声データのうちの少なくとも一つを生成する。尚、複数の拡張音声データは、入力音声データを含んでもよい。以下では、変換処理について、話速変換、音量変換、および声質変換のそれぞれの場合に分けて説明する。

変換処理が話速変換の場合、データ拡張部１１０は、入力音声データをａ倍速する話速変換を実行することによって拡張音声データを生成する。係数ａは、ａ＞０かつａ≠１を満たす実数を条件とし、以降では「話速変換パラメータ」と称する。話速変換は、例えば、入力音声データのサンプリングレートとは異なるサンプリングレートで音声を再生させ、異なるサンプリングレートで再生された音声をもとのサンプリングレートに変換することで実現できる。話速変換パラメータａは、上記条件を満たす任意の値でよいが、例えば、０．９および１．１がよく用いられる。

変換処理が音量変換の場合、データ拡張部１１０は、入力音声データの波形の振幅をｂ倍する音量変換を実行することによって拡張音声データを生成する。係数ｂは、例えば、入力音声データが１６ｂｉｔ形式である場合、０＜ｂ＜（３２７６７／音声データの振幅の最大値）を満たす実数を条件とし、以降では「音量変換パラメータ」と称する。音量変換パラメータｂは、上記条件からランダムに選ばれてよい。

変換処理が声質変換の場合、データ拡張部１１０は、入力音声データのピッチをｃ倍する声質変換を実行することによって拡張音声データを生成する。係数ｃは、０より大きい実数を条件とし、以降では、「声質変換パラメータ」と称する。声質変換は、例えば、ピッチ同期オーバーラップ加算（ＰＳＯＬＡ：ＰｉｔｃｈＳｙｎｃｈｒｏｎｏｕｓＯｖｅｒｌａｐａｎｄＡｄｄ）を用いることで実現できる。

なお、ＰＳＯＬＡは、例えば、参考文献２（E. Moulines, and F. Charpentier, “Pitch synchronous waveform processing techniques for text-to-speech synthesis using diphones,” Speech Commn., 9:453-467, 1990.）などに記載されている。

なお、データ拡張部１１０は、変換処理である話速変換、音量変換、および声質変換のうちのいずれか一つを用いてもよいし、それらを複数組み合わせ用いてもよい。また、データ拡張部１１０は、変換パラメータである話速変換パラメータａ、音量変換パラメータｂ、および声質変換パラメータｃを設定して複数の拡張音声データを生成してもよい。変換処理の種類、生成する拡張音声データの数、変換パラメータの組み合わせは、ユーザが任意に設定可能である。

統合処理部１２０は、データ拡張部１１０から複数の拡張音声データを受け取り、音響モデル記憶部１４０から音響モデルを受け取り、発音辞書記憶部１５０から発音辞書を受け取り、言語モデル記憶部１６０から言語モデルを受け取る。統合処理部１２０は、複数の拡張音声データを用いて統合処理を実行することによって統合済ラティスを生成する。統合処理部１２０は、統合済ラティスを探索部１３０へと出力する。次に、統合処理部１２０のより具体的な構成について、図２を用いて説明する。

図２は、図１の統合処理部１２０の構成を例示するブロック図である。統合処理部１２０は、音響スコア計算部１２１と、調整部１２２と、音響スコア統合部１２３と、ラティス生成部１２４とを備える。

音響スコア計算部１２１は、データ拡張部１１０から複数の拡張音声データを受け取り、音響モデル記憶部１４０から音響モデルを受け取る。音響スコア計算部１２１は、複数の拡張音声データのそれぞれと音響モデルとに基づいて複数の音響スコアを生成する。音響スコア計算部１２１は、生成した複数の音響スコアを調整部１２２へと出力する。尚、音響スコアの具体的な生成は、図１６の音響スコア計算部１１と略同様である。

調整部１２２は、音響スコア計算部１２１から複数の音響スコアを受け取る。調整部１２２は、複数の音響スコアをそれぞれリサンプリングすることによって複数の調整済音響スコアを生成する。調整部１２２は、生成した複数の調整済音響スコアを音響スコア統合部１２３へと出力する。

具体的には、調整部１２２は、複数の音響スコアにそれぞれ対応付けられた時間フレーム数と、入力音声データの時間フレーム数とが一致するように、複数の音響スコアそれぞれをリサンプリングすることによって複数の調整済音響スコアを生成する。尚、調整部１２２は、一致させるフレーム数として、入力音声データを基準としてもよいし、任意の拡張音声データを基準としてもよい。

なお、音響スコア計算部１２１および調整部１２２は、生成される拡張音声データの数に合わせて、それぞれ複数の計算部および複数の調整部を有してもよい。例えば、拡張音声データの数がＮ（Ｎ＞１）の場合、音響スコア計算部１２１は、第１計算部１２１－１、第２計算部１２１－２、…、第Ｎ計算部１２１－Ｎを有し、調整部１２２は、第１調整部１２２－１、第２調整部１２２－２、…、第Ｎ調整部１２２－Ｎを有する。よって、音響スコア計算部１２１は、Ｎ個の音響スコアを出力し、調整部１２２は、Ｎ個の調整済音響スコアを出力する。

音響スコア統合部１２３は、調整部１２２から複数の調整済音響スコアを受け取る。音響スコア統合部１２３は、複数の調整済音響スコアを統合することによって統合済音響スコアを生成する。音響スコア統合部１２３は、生成した統合済音響スコアをラティス生成部１２４へと出力する。

具体的には、音響スコア統合部１２３は、複数の調整済音響スコアの平均値、中央値、および最大値のうちの少なくとも一つを算出することによって統合済音響スコアを生成する。尚、音響スコア統合部１２３は、算出する数値の種類（平均値、中央値、および最大値）をそれぞれ組み合わせてもよいし、フレーム毎に算出する数値の種類を変えてもよい。

ラティス生成部１２４は、音響スコア統合部１２３から統合済音響スコアを受け取り、発音辞書記憶部１５０から発音辞書を受け取り、言語モデル記憶部１６０から言語モデルを受け取る。ラティス生成部１２４は、統合済音響スコアと発音辞書と言語モデルとに基づいて統合済ラティスを生成する。ラティス生成部１２４は、生成した統合済ラティスを探索部１３０へと出力する。尚、ラティス生成部１２４の具体的な構成は、図１６のラティス生成部１２と略同様である。

探索部１３０は、統合処理部１２０から統合済ラティスを受け取る。探索部１３０は、統合済ラティスから尤度の最も高い音声認識結果を探索する。探索部１３０は、音声認識結果を出力装置（図示せず）へと出力する。尚、探索部１３０の具体的な構成は、図１６の探索部１３と略同様である。

以上、第１の実施形態に係る音声認識装置１００の構成について説明した。次に、音声認識装置１００の動作について、図３のフローチャートを用いて説明する。

図３は、図１の音声認識装置１００の動作を例示するフローチャートである。図３のフローチャートは、例えば、入力音声データの一文に相当するラティスから音声認識結果を出力する一連の流れを示している。

（ステップＳＴ１１０）
音声認識装置１００は、集音デバイスから入力音声データを取得する。

（ステップＳＴ１２０）
入力音声データを取得した後、データ拡張部１１０は、入力音声データに基づいて複数の拡張音声データを生成する。

（ステップＳＴ１３０）
複数の拡張音声データを生成した後、統合処理部１２０は、複数の拡張音声データを用いて統合処理を実行することによって統合済ラティスを生成する。以降では、ステップＳＴ１３０の処理を「統合処理」と称する。統合処理の具体例について図４のフローチャートを用いて説明する。

図４は、図３のフローチャートの統合処理を例示するフローチャートである。図４のフローチャートは、ステップＳＴ１２０から遷移する。

（ステップＳＴ１３１）
複数の拡張音声データを生成した後、音響スコア計算部１２１は、複数の拡張音声データのそれぞれと音響モデルとに基づいて複数の音響スコアを生成する。

（ステップＳＴ１３２）
複数の音響スコアを生成した後、調整部１２２は、複数の音響スコアをそれぞれリサンプリングすることによって複数の調整済音響スコアを生成する。以下、調整部１２２の処理について具体例を挙げて説明する。

例えば、複数の音響スコア（以降、Ｎ個の音響スコアとも称する）を統合して一つの統合済音響スコアを生成する際、音響スコア統合部１２３は、これらＮ個の音響スコアの時間フレーム数がそれぞれ一致しているという前提のもと、フレームごとに処理を実行することが望ましい。

しかし、例えば、話速変換によって拡張音声データを生成した場合、入力音声データの時間長と、生成した拡張音声データの時間長とはそれぞれ異なるため、それぞれの音響スコアに対応付けられた時間フレーム数が一致しないという問題が生じる。この問題により、音響スコア統合部１２３は、フレームごとに処理を実行することができない。そこで、調整部１２２によって、複数の音響スコアのそれぞれに対応付けられた時間フレーム数を一致させる処理を実行し、上記問題の解決を図る。

入力音声データの時間フレーム数をＴ、時間フレームのインデックスをｔ（１≦ｔ≦Ｔ）とおく。また、Ｎ個の拡張音声の時間フレーム数をＴ_ｎ（１≦ｎ≦Ｎ）とおく。ｎ番目の拡張音声データを入力したときのｔフレーム目における音響スコアをＹ_ｔ ^ｎとおく。このＹ_ｔ ^ｎはＫ次元（Ｋは自然数）のベクトルである。

ｎ番目の拡張音声データが話速変換や声質変換によって生成されたものであるならば、Ｔ_ｎ＝Ｔが成立する。しかし、拡張音声データが話速変換によって生成された場合、Ｔ_ｎ≠Ｔとなるため、Ｔ_ｎフレーム分の音響スコアからＴフレーム分の音響スコアに変換する必要がある。

上記変換は次の手順で行うことができる。まず、調整部１２２は、１フレーム目からＴ_ｎフレーム目までの音響スコアＹ_ｔ ^ｎのうち、ｋ次元目（１≦ｋ≦Ｋ）を抜き取る（ステップ１）。次に、調整部１２２は、抜き取ったＴ_ｎ個のスコアをＴ_ｎサンプルの時系列データとみなして、Ｔ／Ｔ_ｎ倍のサンプリングレートでリサンプリングしたものを作成する。これにより、調整部１２２は、Ｔ_ｎ個のスコアをＴ個のスコアに変換することができる（ステップ２）。そして、調整部１２２は、上記ステップ１およびステップ２を１≦ｋ≦Ｋについて繰り返すことによって、Ｔ_ｎフレーム分の音響スコアＹ_ｔ ^ｎをＴフレーム分の音響スコアに変換することが可能となる。この変換された音響スコアが上述の調整済音響スコアである。

図５は、図２の調整部１２２におけるリサンプリングを説明する図である。図５では、Ｔ_ｎ＝５からＴ＝４にダウンサンプリングすることが示されている。調整部１２２は、例えば、１フレーム目からＴ_ｎ＝５フレーム目までの音響スコアのうち、１次元目を抜き取る。次に調整部１２２は、抜き取った５個のスコアを５サンプルの時系列データとみなして、４／５倍のサンプリングレートでダウンサンプリングしたものを作成する。これにより、調整部１２２は、５個のスコアを４個のスコアに変換することができる。

（ステップＳＴ１３３）
複数の調整済音響スコアを生成した後、音響スコア統合部１２３は、複数の調整済音響スコアを統合することによって統合済音響スコアを生成する。以下、音響スコア統合部１２３の処理について具体例を挙げて説明する。

音響スコア統合部１２３は、Ｔフレーム分の音響スコアに変換されたＮ個の調整済音響スコアを入力し、Ｔフレーム分の一つの統合済音響スコアを出力する。ｎ番目の拡張音声データを入力したときのtフレーム目における調整済音響スコアをＺ_ｔ ^ｎとおく。また、統合済音響スコアをＳ_ｔとおく。ここで、Ｚ_ｔ ^ｎとＳ_ｔとはＫ次元のベクトルであり、それぞれ、以下の式（１）および式（２）で表される。

式（１）および式（２）における’（ダッシュ）は、転置を示す。そして、統合済音響スコアＳ_ｔの各要素Ｓ_ｔ，ｋは例えば以下の式（３）から式（５）のいずれかで求めることができる。

Ｎ個の調整済音響スコアに対して、式（３）は平均値を算出し、式（４）は中央値を算出し、式（５）は最大値を算出するものである。尚、式（４）におけるｍｅｄｉａｎ（・）は、１≦ｎ≦Ｎに関する中央値をとる関数である。また、式（５）におけるｍａｘ（・）は、１≦ｎ≦Ｎに関する最大値をとる関数である。

概説すると、音響スコア統合部１２３は、Ｎ個の調整済音響スコアの平均値、中央値、および最大値のうちの少なくとも一つを算出することによって一つの統合済音響スコアを生成することができる。

（ステップＳＴ１３４）
統合済音響スコアを生成した後、ラティス生成部１２４は、統合済音響スコアと発音辞書と言語モデルとに基づいて統合済ラティスを生成する。ステップＳＴ１３４の処理の後、処理はステップＳＴ１４０へ遷移する。

（ステップＳＴ１４０）
統合済ラティスを生成した後、探索部１３０は、統合済ラティスから尤度の最も高い音声認識結果を探索する。

（ステップＳＴ１５０）
音声認識結果を探索した後、音声認識装置１００は、音声認識結果を出力装置へと出力する。ステップＳＴ１５０の後、処理は終了する。

尚、音声認識装置１００は、入力音声データが取得され続ける限り、図３のフローチャートの処理に従い、入力音声データに対応する音声認識結果を出力し続けてよい。

以上説明したように、第１の実施形態に係る音声認識装置は、入力音声データに基づいて複数の拡張音声データを生成し、複数の拡張音声データのそれぞれと音響モデルとに基づいて複数の音響スコアを生成し、複数の音響スコアをそれぞれリサンプリングすることによって複数の調整済音響スコアを生成し、複数の調整済音響スコアを統合することによって統合済音響スコアを生成し、統合済音響スコアと発音辞書と言語モデルとに基づいて統合済ラティスを生成し、記統合済ラティスから尤度の最も高い音声認識結果を探索する。従って、第１の実施形態に係る音声認識装置は、音声認識性能を向上させることができる。

第１の実施形態に係る音声認識装置は、音響モデルが１つしかなくとも、（要因２）から（要因４）までを解決することができる。以下、（要因２）から（要因４）までの解決についてそれぞれ具体例を示す。

（要因２）について、例えば、入力音声データが早口で、そのまま入力すると認識すると正しい認識結果が得られないが、話速変換で０．９倍速にすると正しい認識結果が得られるようになった箇所があったとする。この場合、０．９倍速のデータをデータ拡張部で生成して、入力音声データと０．９倍速のデータとに対して統合処理を適用することで、入力音声データの認識結果と０．９倍速のデータの認識結果とのいいとこ取りができるようになる。その結果、第１の実施形態に係る音声認識装置は、音声認識性能を向上することができる。

（要因３）について、例えば、入力音声データが子供の音声で、そのまま入力すると認識すると正しい認識結果が得られないが、声質変換でピッチを０．９５倍して正しい認識結果が得られるようになった箇所があったとする。この場合、ピッチ０．９５倍の音声データをデータ拡張部で生成して、入力音声データとピッチ０．９５倍の音声データとに対して統合処理を適用することで、入力音声データの認識結果とピッチを０．９５倍にした音声データの認識結果とのいいとこ取りができるようになる。その結果、第１の実施形態に係る音声認識装置は、音声認識性能を向上することができる。

（要因４）について、例えば、入力音声データを収音するマイクのゲインが小さく、そのまま入力すると認識すると正しい認識結果が得られないが、音量変換で振幅を２倍にすると正しい認識結果が得られるようになった箇所があったとする。この場合、振幅２倍の音声データを拡張部で生成して、入力音声データと振幅２倍の音声データとに対して統合処理を適用することで、入力音声データの認識結果とピッチを振幅２倍にした音声データの認識結果とのいいとこ取りができるようになる。その結果、第１の実施形態に係る音声認識装置は、音声認識性能を向上することができる。

（第１の実施形態の変形例）
第１の実施形態に係る音声認識装置は、統合処理部において、複数の音響スコアを統合することによって統合済ラティスを生成していた。他方、第１の実施形態の変形例に係る音声認識装置は、複数の音響スコアからそれぞれ複数のラティスを生成し、この複数のラティスを統合することによって統合済ラティスを生成する。

第１の実施形態の変形例に係る音声認識装置は、データ拡張部１１０と、統合処理部１２０Ａと、探索部１３０と、音響モデル記憶部１４０と、発音辞書記憶部１５０と、言語モデル記憶部１６０とを備える。

図６は、第１の実施形態の変形例に係る音声認識装置の統合処理部１２０Ａの構成を例示するブロック図である。統合処理部１２０Ａは、音響スコア計算部１２１Ａと、ラティス生成部１２２Ａと、ラティス統合部１２３Ａとを備える。尚、音響スコア計算部１２１Ａは、図２の音響スコア計算部１２１と略同様の構成であるため説明を省略する。

ラティス生成部１２２Ａは、音響スコア計算部１２１Ａから複数の音響スコアを受け取り、発音辞書記憶部１５０から発音辞書を受け取り、言語モデル記憶部１６０から言語モデルを受け取る。ラティス生成部１２２Ａは、複数の音響スコアのそれぞれと発音辞書と言語モデルとに基づいて複数のラティスを生成する。複数のラティスのそれぞれは、例えば、音声認識による候補単語をノードとし、候補単語の尤度をエッジとする単語ラティスである。ラティス生成部１２２Ａは、生成した複数のラティスをラティス統合部１２３Ａへと出力する。

なお、音響スコア計算部１２１Ａおよびラティス生成部１２２Ａは、生成される拡張音声データの数に合わせて、それぞれ複数の計算部および複数の生成部を有してもよい。例えば、拡張音声データの数がＮ（Ｎ＞１）の場合、音響スコア計算部１２１Ａは、第１計算部１２１Ａ－１、第２計算部１２１Ａ－２、…、第Ｎ計算部１２１Ａ－Ｎを有し、ラティス生成部１２２Ａは、第１生成部１２２Ａ－１、第２生成部１２２Ａ－２、…、第Ｎ生成部１２２Ａ－Ｎを有する。よって、音響スコア計算部１２１Ａは、Ｎ個の音響スコアを出力し、ラティス生成部１２２Ａは、Ｎ個のラティスを出力する。

ラティス統合部１２３Ａは、ラティス生成部１２２Ａから複数のラティスを受け取る。ラティス統合部１２３Ａは、複数のラティスを統合することによって統合済ラティスを生成する。ラティス統合部１２３Ａは、生成した統合済ラティスを探索部１３０へと出力する。

具体的には、ラティス統合部１２３Ａは、複数のラティスのそれぞれの始点同士および終点同士を接続し、候補単語の共通部分を統合することによって統合済ラティスを生成する。複数のラティスの統合には、参考文献３（V. Le, S. Seng, L. Besacier and B. Bigi, "Word/sub-word lattices decomposition and combination for speech recognition," IEEE International Conference on Acoustics, Speech and Signal Processing, 2008）などに記載の手法を用いることができる。

以上、第１の実施形態の変形例に係る音声認識装置の構成について説明した。次に、本実施形態の統合処理部１２０Ａに関する動作について、図７のフローチャートを用いて説明する。尚、第１の実施形態の変形例に係る音声認識装置の動作は、図３のフローチャートにおける、ステップＳＴ１３０の処理をステップＳＴ１３０Ａの処理に置き換えたものである。

図７は、第１の実施形態の変形例に係る音声認識装置の動作における統合処理を例示するフローチャートである。図７のフローチャートは、ステップＳＴ１３０Ａの処理に相当し、ステップＳＴ１２０から遷移する。

（ステップＳＴ１３１Ａ）
複数の拡張音声データを生成した後、音響スコア計算部１２１Ａは、複数の拡張音声データのそれぞれと音響モデルとに基づいて複数の音響スコアを生成する。

（ステップＳＴ１３２Ａ）
複数の音響スコアを生成した後、ラティス生成部１２２Ａは、複数の音響スコアのそれぞれと発音辞書と言語モデルとに基づいて複数のラティスを生成する。

（ステップＳＴ１３３Ａ）
複数のラティスを生成した後、ラティス統合部１２３Ａは、複数のラティスを統合することによって統合済ラティスを生成する。ステップＳＴ１３３Ａの処理の後、処理はステップＳＴ１４０へと遷移する。

以上説明したように、第１の実施形態の変形例に係る音声認識装置は、入力音声データに基づいて複数の拡張音声データを生成し、複数の拡張音声データのそれぞれと音響モデルとに基づいて複数の音響スコアを生成し、複数の音響スコアのそれぞれと発音辞書と言語モデルとに基づいて複数のラティスを生成し、複数のラティスを統合することによって統合済ラティスを生成し、統合済ラティスから尤度の最も高い音声認識結果を探索する。従って、第１の実施形態の変形例に係る音声認識装置は、音声認識性能を向上させることができる。

図８は、第１の実施形態の変形例に係る音声認識装置の実験結果を例示するテーブルである。図８は、従来手法における認識性能と、拡張部で入力音声の話速を０．９倍、話速１．１倍したものを生成し、第１の実施形態の変形例の手法を適用したときの認識性能を比較した結果である。評価尺度は単語誤り率（ＷＥＲ：ＷｏｒｄＥｒｒｒｏｒＲａｔｅ）であり、値が低いほど認識性能が良いことを示す。また、音響モデル、発音辞書、および言語モデルは、日本語話し言葉コーパス（ＣＳＪ：ＣｏｒｐｕｓｏｆＳｐｏｎｔａｎｅｏｕｓＪａｐａｎｅｓｅ）に基づいて学習し、評価にはＣＳＪの評価セットを用いた。

なお、ＣＳＪは、参考文献４（K. Maekawa, “Corpus of spontaneous Japanese: Its design and evaluation,” In Proceedings ISCA and IEEE workshop on spontaneous speech processing and recognition, SSPR 2003）などに記載されている。

図８における従来手法では、入力音声データ（Ａ：等速）、入力音声データの話速を０．９倍にしたデータ（Ｂ：０．９倍速）、および話速を１．１倍にしたデータ（Ｃ：１．１倍速）をそのまま音声認識装置に入力したときのＷＥＲである。他方、図８における提案手法では、入力音声データと入力音声データの話速を０．９倍にしたデータとを生成して統合したデータ（Ｄ：Ａ＋Ｂ）、入力音声データと入力音声データの話速を１．１倍にしたデータとを生成して統合したデータ（Ｅ：Ａ＋Ｃ）、および入力音声データと入力音声データの話速を０．９倍にしたデータと入力音声データの話速を１．１倍にしたデータとを生成して統合したデータ（Ｆ：Ａ＋Ｂ＋Ｃ）のＷＥＲである。図８のＤからＦまでの結果より、提案手法の方が良好な認識性能が得られていることがわかる。

（第２の実施形態）
第１の実施形態に係る音声認識装置および第１の実施形態の変形例に係る音声認識装置は、データ拡張部において、予め設定された変換パラメータを用いて拡張音声データを生成していた。他方、第２の実施形態に係る音声認識装置は、入力音声データに基づいて変換パラメータをリアルタイムに決定し、リアルタイムに決定される変換パラメータを用いて拡張音声データを生成する。

図９は、第２の実施形態に係る音声認識装置２００の構成を例示するブロック図である。音声認識装置２００は、データ拡張部１１０と、統合処理部１２０と、探索部１３０と、音響モデル記憶部１４０と、発音辞書記憶部１５０と、言語モデル記憶部１６０と、パラメータ自動決定部２１０とを備える。

第２の実施形態において、データ拡張部１１０は、集音デバイス（図示せず）から入力音声データを受け取り、パラメータ自動決定部２１０から変換パラメータを受け取る。データ拡張部１１０は、入力音声データと変換パラメータとに基づいて複数の拡張音声データを生成する。

図１０は、図９のパラメータ自動決定部２１０の構成を例示するブロック図である。パラメータ自動決定部２１０は、振幅抽出部２１１と、汎用振幅データ記憶部２１２と、音量変換パラメータ推定部２１３と、ピッチ抽出部２１４と、汎用ピッチデータ記憶部２１５と、声質変換パラメータ推定部２１６と、話速抽出部２１７と、汎用話速データ記憶部２１８と、話速変換パラメータ推定部２１９とを備える。以下では、先に汎用振幅データ記憶部２１２と、汎用ピッチデータ記憶部２１５と、汎用話速データ記憶部２１８とについて説明する。

なお、汎用振幅データ記憶部２１２と、汎用ピッチデータ記憶部２１５と、汎用話速データ記憶部２１８とは、一つ以上の記憶部に統合されてもよいし、音声認識装置１００の外部にそれぞれ、或いは統合されて設けられてもよい。

汎用振幅データ記憶部２１２は、汎用振幅データを記憶している。汎用振幅データとして、例えば、汎用音声データ各々を短時間フーリエ変換して得られたパワースペクトルの平均を用いる。汎用音声データは、例えば、音響モデルの学習に用いられた音声データを用いることができる。

汎用ピッチデータ記憶部２１５は、汎用ピッチデータを記憶している。汎用ピッチデータとして、例えば、汎用音声データ各々から発話ごとのピッチ平均を用いる。ピッチ平均は、時間フレーム毎にピッチ情報を得た後、時間フレーム毎のピッチを平均することによって取得することができる。

なお、ピッチ平均の取得は、例えば、参考文献５（M. Lahat, R. Niederjohn and D. Krubsack, “A spectral autocorrelation method for measurement of the fundamental frequency of noise-corrupted speech,” in IEEE Transactions on Acoustics, Speech, and Signal Processing, vol. 35, no. 6, pp. 741-750, June 1987, doi: 10.1109/TASSP.1987.1165224.）などに記載の手法を用いることができる。

汎用話速データ記憶部２１８は、汎用話速データを記憶している。汎用話速データとして、例えば、汎用音声データ各々の単位時間あたり（例えば５秒あたり）のモーラ数を用いる。モーラとは、日本語のリズムにおける基本的な単位である。単位時間当たりのモーラ数は、例えば、汎用音声データの長さとラベル（書き起こし）の情報から取得することができる。

振幅抽出部２１１は、集音デバイスから入力音声データを受け取る。振幅抽出部２１１は、入力音声データの振幅を抽出する。具体的には、振幅抽出部２１１は、例えば、入力音声データを短時間フーリエ変換して得られたパワースペクトルを平均することによって振幅を抽出する。振幅抽出部２１１は、抽出した振幅の情報（振幅情報）を音量変換パラメータ推定部２１３へと出力する。

音量変換パラメータ推定部２１３は、振幅抽出部２１１から振幅情報を受け取り、汎用振幅データ記憶部２１２から汎用振幅データを受け取る。音量変換パラメータ推定部２１３は、振幅情報と汎用振幅データとに基づいて音量変換パラメータを推定する。音量変換パラメータ推定部２１３は、推定した音量変換パラメータをデータ拡張部１１０へと出力する。

ピッチ抽出部２１４は、集音デバイスから入力音声データを受け取る。ピッチ抽出部２１４は、入力音声データのピッチを抽出する。具体的には、ピッチ抽出部２１４は、入力音声データから発話毎のピッチ平均を取得することによってピッチを抽出する。ピッチ抽出部２１４は、抽出したピッチの情報（ピッチ情報）を声質変換パラメータ推定部２１６へと出力する。

声質変換パラメータ推定部２１６は、ピッチ抽出部２１４からピッチ情報を受け取り、汎用ピッチデータ記憶部２１５から汎用ピッチデータを受け取る。声質変換パラメータ推定部２１６は、ピッチ情報と汎用ピッチデータとに基づいて声質変換パラメータを推定する。声質変換パラメータ推定部２１６は、推定した声質変換パラメータをデータ拡張部１１０へと出力する。

話速抽出部２１７は、音声認識装置２００によって生成された音声認識結果を受け取る。話速抽出部２１７は、音声認識結果の話速を抽出する。具体的には、話速抽出部２１７は、単位時間当たりのモーラ数を音声認識結果に対応する入力音声データの長さと音声認識結果とから取得することによって話速を抽出する。音声認識結果は、対応する入力音声データの長さが対応付けられていてもよい。話速抽出部２１７は、抽出した話速の情報（話速情報）を話速変換パラメータ推定部２１９へと出力する。尚、話速抽出部２１７は、音声認識結果に対応する入力音声データを受け取ってもよい。

話速変換パラメータ推定部２１９は、話速抽出部２１７から話速情報を受け取り、汎用話速データ記憶部２１８から汎用話速データを受け取る。話速変換パラメータ推定部２１９は、話速情報と汎用話速データとに基づいて話速変換パラメータを推定する。話速変換パラメータ推定部２１９は、推定した話速変換パラメータをデータ拡張部１１０へと出力する。

以上、第２の実施形態に係る音声認識装置２００の構成について説明した。次に、音声認識装置２００の動作について、図１１のフローチャートを用いて説明する。

図１１は、図９の音声認識装置２００の動作を例示するフローチャートである。図１１のフローチャートは、例えば、入力音声データの一文に相当するラティスから音声認識結果を出力する一連の流れを示している。

（ステップＳＴ２１０）
音声認識装置１００は、集音デバイスから入力音声データを取得する。尚、図１１のフローチャートの処理が一巡した後、音声認識装置１００は、後述するパラメータ自動推定処理で用いるために、出力される音声認識結果をさらに取得（或いは、保持）してもよい。

（ステップＳＴ２２０）
入力音声データを取得した後、パラメータ自動決定部２１０は、拡張音声データの生成に関する変換パラメータを推定する。換言すると、パラメータ自動決定部２１０は、入力音声データに基づいて変換処理に関する変換パラメータを自動決定する。以降では、ステップＳＴ２２０の処理を「パラメータ自動推定処理」と称する。パラメータ自動推定処理の具体例について図１２のフローチャートを用いて説明する。

図１２は、図９のフローチャートのパラメータ自動推定処理を例示するフローチャートである。図１２のフローチャートは、ステップＳＴ２２０から遷移する。尚、以下では、音声認識装置１００が一つ以上の音声認識結果を出力しているものとする。

（ステップＳＴ２２１）
入力音声データを取得した後、振幅抽出部２１１は、入力音声データの振幅を抽出する。

（ステップＳＴ２２２）
振幅を抽出した後、音量変換パラメータ推定部２１３は、抽出した振幅と、汎用振幅データとに基づいて音量変換パラメータを推定する。以下、音量変換パラメータ推定部２１３の処理について具体例を挙げて説明する。

音量変換パラメータの推定は、入力音声データを取得した時点で行うことができる。音量変換パラメータ推定部２１３は、抽出した振幅の情報である入力音声データの振幅（パワースペクトルの平均）をＰとし、汎用振幅データの平均をＰ’として、以下の式（６）を用いて音量変換パラメータｂを推定する。

（ステップＳＴ２２３）
音量変換パラメータを推定した後、ピッチ抽出部２１４は、入力音声データのピッチを抽出する。

（ステップＳＴ２２４）
ピッチを抽出した後、声質変換パラメータ推定部２１６は、抽出したピッチと、汎用ピッチデータとに基づいて声質変換パラメータを推定する。以下、声質変換パラメータ推定部２１６の処理について具体例を挙げて説明する。

声質変換パラメータの推定は、入力音声データを取得した時点で行うことができる。声質変換パラメータ推定部２１６は、抽出したピッチの情報である入力音声データのピッチ平均をＦとし、汎用ピッチデータの平均をＦ’として、以下の式（７）を用いて声質変換パラメータｃを推定する。

（ステップＳＴ２２５）
声質変換パラメータを推定した後、話速抽出部２１７は、入力音声データに基づく音声認識結果の話速を抽出する。

（ステップＳＴ２２６）
話速を抽出した後、話速変換パラメータ推定部２１９は、抽出した話速と、汎用話速データとに基づいて話速変換パラメータを推定する。以下、話速変換パラメータ推定部２１９の処理について具体例を挙げて説明する。

話速変換パラメータの推定は、少なくとも一つの発話に対して音声認識処理を行った後でなければ行えない。話速変換パラメータ推定部２１９は、抽出した話速の情報である入力音声データの単位時間当たりのモーラ数をＭとし、汎用音声データの平均をＭ’として、以下の式（８）を用いて話速変換パラメータａを推定する。

（ステップＳＴ２２７）
音量変換パラメータ、声質変換パラメータ、および話速変換パラメータを推定した後、パラメータ自動決定部２１０は、音量変換パラメータ、声質変換パラメータ、および話速変換パラメータを出力する。ステップＳＴ２２７の処理の後、処理はステップＳＴ２３０へと遷移する。

なお、上記のステップＳＴ２２１およびステップＳＴ２２２の処理、ステップＳＴ２２３およびステップＳＴ２２４の処理、およびステップＳＴ２２５およびステップＳＴ２２６の処理は、それぞれ順番が入れ替えられてもよいし、それぞれ同時に行われてもよい。

（ステップＳＴ２３０）
変換パラメータが推定された後、データ拡張部１１０は、入力音声データと変換パラメータとに基づいて複数の拡張音声データを生成する。

なお、ステップＳＴ２４０からステップＳＴ２６０までの処理は、図３のステップＳＴ１３０からステップＳＴ１５０までの処理と略同様であるため、説明を省略する。

以上説明したように、第２の実施形態に係る音声認識装置は、入力音声データに合わせてリアルタイムに変換パラメータを推定し、拡張音声データの生成に適用することができる。これにより、第２の実施形態に係る音声認識装置は、音響モデルの学習データセットの環境に近い拡張音声データを生成することができるため、音声認識性能を向上させることができる。

（第３の実施形態）
第１の実施形態に係る音声認識装置および第１の実施形態の変形例に係る音声認識装置は、入力音声データに対して音声認識処理を実行し音声認識結果を出力していた。他方、第３の実施形態に係る音声認識装置は、更に、入力音声データと、入力音声データに対応する音声認識結果とを音響モデルに適応させ適応済音響モデルを生成する。

図１３は、第３の実施形態に係る音声認識装置３００の構成を例示するブロック図である。音声認識装置３００は、データ拡張部１１０と、統合処理部１２０と、探索部１３０と、音響モデル記憶部１４０と、発音辞書記憶部１５０と、言語モデル記憶部１６０と、適応部３１０と、適応済音響モデル記憶部３２０とを備える。尚、音響モデル記憶部１４０と、発音辞書記憶部１５０と、言語モデル記憶部１６０と、適応部３１０と、適応済音響モデル記憶部３２０とは、一つ以上の記憶部に統合されてもよいし、音声認識装置１００の外部にそれぞれ、或いは統合されて設けられてもよい。

適応部３１０は、集音デバイス（図示せず）から入力音声データを受け取り、音響モデル記憶部１４０から音響モデルを受け取り、探索部１３０から音声認識結果を受け取る。適応部３１０は、入力音声データと、入力音声データに対応する音声認識結果とに基づいて、音響モデルを入力音声データの話者に適応させた適応済音響モデルを生成する。適応部３１０は、生成した適応済音響モデルを適応済音響モデル記憶部３２０へと出力する。

具体的には、適応部３１０は、音声認識結果を正解ラベルとして、入力音声データと正解ラベルとをセットにした適応データを用いて音響モデルを適応する。音響モデルの適応は、例えば、音響モデルのパラメータを、適応データを用いて最適化することによって行われる。より具体的には、適応部３１０は、音響モデルにＤＮＮが用いられている場合、音響モデル記憶部１４０に記憶されている音響モデルのパラメータを初期値として最適化を行う。最適化の方法には、例えば、参考文献６（P. J. Werbos, “Backpropagation Through Time: What It Does and How to Do It,” Proceedings of the IEEE, vol. 78, no. 10, 1990．）などに記載の手法を用いることができる。

適応済音響モデル記憶部３２０は、適応部３１０から適応済音響モデルを受け取る。適応済音響モデル記憶部３２０は、適応済音響モデルを記憶する。適応済音響モデル記憶部３２０は、所定の条件を満たした後、統合処理部１２０に適応済音響モデルを出力する。所定の条件は、例えば、音声認識装置３００によって音声認識が開始されてからの経過時間である。

適応部３１０と適応済音響モデル記憶部３２０の具体的な適用例について説明する。ユーザが音声認識装置３００を起動すると、最初の一定時間（例えば、最低２０分から３０分まで位）では、音声認識装置３００は、音響モデル記憶部１４０に記憶された音響モデル（以降、初期音響モデルと称する）を用いて音声認識処理を実行する。この処理と同時に、適応部３１０は、音声認識結果と入力音声データとに基づいてバックグラウンドで音響モデルを学習し、適応済音響モデルを適応済音響モデル記憶部３２０へと出力する。そして、一定時間経過後、音声認識装置３００は、初期音響モデルから適応済音響モデルに切り替えて音声認識処理を実行する。

なお、音声認識装置３００は、一定時間経過後に、音響モデルを切り替えるかどうかをユーザに選択させる機能を有し、ユーザに選択させてもよい。また、音声認識装置３００は、初期音響モデルによる音声認識結果の信頼度と、適応済音響モデルによる音声認識結果の信頼度とを比較することによって、音響モデルを切り替えるかどうかを自動的に判定して決定する機能を有してもよい。信頼度の計算には、例えば、参考文献７（A. Lee, et. al. ,"Real-time word confidence scoring using local posterior probabilities on tree trellis search," ICASSP 2004）および参考文献８（A. Kastanos, et al. , “Confidence Estimation for Black Box Automatic Speech Recognition Systems Using Lattice Recurrent Neural Networks,” ICASSP 2020）などに記載の手法を用いることができる。

以上説明したように、第３の実施形態に係る音声認識装置は、入力音声データと音声認識結果とに基づいて、音響モデルを入力音声データの話者に適応させた適応済音響モデルを生成することができる。これにより、第３の実施形態に係る音声認識装置は、入力音声データに適応させた音響モデルを生成することができるため、音声認識性能を向上させることができる。

（第４の実施形態）
第２の実施形態に係る音声認識装置は、第１の実施形態に係る音声認識装置（或いは、第１の実施形態の変形例に係る音声認識装置）に対してパラメータ自動決定部が追加されたものである。他方、第３の実施形態に係る音声認識装置は、第１の実施形態に係る音声認識装置（或いは、第１の実施形態の変形例に係る音声認識装置）に対して適応部および適応済音響モデル記憶部が追加されたものである。第４の実施形態に係る音声認識装置は、それら全てを包括するものである。

図１４は、第４の実施形態に係る音声認識装置４００の構成を例示するブロック図である。音声認識装置４００は、データ拡張部１１０と、統合処理部１２０と、探索部１３０と、音響モデル記憶部１４０と、発音辞書記憶部１５０と、言語モデル記憶部１６０と、パラメータ自動決定部４１０と、適応部４２０と、適応済音響モデル記憶部４３０とを備える。

パラメータ自動決定部４１０は、図９のパラメータ自動決定部２１０と略同様であり、適応部４２０は、図１３の適応部３１０と略同様であり、適応済音響モデル記憶部４３０は、図１３の適応済音響モデル記憶部３２０と略同様である。

以上説明したように、第４の実施形態に係る音声認識装置は、上記各実施形態に係る音声認識装置と同様の効果が見込める。

図１５は、一実施形態に係るコンピュータのハードウェア構成を例示するブロック図である。コンピュータ５００は、ハードウェアとして、ＣＰＵ（ＣｅｎｔｒａｌＰｒｏｃｅｓｓｉｎｇＵｎｉｔ）５１０、ＲＡＭ（ＲａｎｄｏｍＡｃｃｅｓｓＭｅｍｏｒｙ）５２０、プログラムメモリ５３０、補助記憶装置５４０、入出力インタフェース５５０を備える。ＣＰＵ５１０は、バス５６０を介して、ＲＡＭ５２０、プログラムメモリ５３０、補助記憶装置５４０、および入出力インタフェース５５０と通信する。

ＣＰＵ５１０は、汎用プロセッサの一例である。ＲＡＭ５２０は、ワーキングメモリとしてＣＰＵ５１０に使用される。ＲＡＭ５２０は、ＳＤＲＡＭ（ＳｙｎｃｈｒｏｎｏｕｓＤｙｎａｍｉｃＲａｎｄｏｍＡｃｃｅｓｓＭｅｍｏｒｙ）などの揮発性メモリを含む。プログラムメモリ５３０は、音声認識処理プログラムなどを含む種々のプログラムを記憶する。プログラムメモリ５３０として、例えば、ＲＯＭ（Ｒｅａｄ－ＯｎｌｙＭｅｍｏｒｙ）、補助記憶装置５４０の一部、またはその組み合わせが使用される。補助記憶装置５４０は、データを非一時的に記憶する。補助記憶装置５４０は、ＨＤＤまたはＳＳＤなどの不揮発性メモリを含む。

入出力インタフェース５５０は、他のデバイスと接続するためのインタフェースである。入出力インタフェース５５０は、例えば、集音デバイスおよび出力装置との接続に使用される。

プログラムメモリ５３０に記憶されている各プログラムはコンピュータ実行可能命令を含む。プログラム（コンピュータ実行可能命令）は、ＣＰＵ５１０により実行されると、ＣＰＵ５１０に所定の処理を実行させる。例えば、音声認識処理プログラムなどは、ＣＰＵ５１０により実行されると、ＣＰＵ５１０に図１、２、６、９、１０、１３、および１４の各部に関して説明された一連の処理を実行させる。

プログラムは、コンピュータで読み取り可能な記憶媒体に記憶された状態でコンピュータ５００に提供されてよい。この場合、例えば、コンピュータ５００は、記憶媒体からデータを読み出すドライブ（図示せず）をさらに備え、記憶媒体からプログラムを取得する。記憶媒体の例は、磁気ディスク、光ディスク（ＣＤ－ＲＯＭ、ＣＤ－Ｒ、ＤＶＤ－ＲＯＭ、ＤＶＤ－Ｒなど）、光磁気ディスク（ＭＯなど）、半導体メモリを含む。また、プログラムを通信ネットワーク上のサーバに格納し、コンピュータ５００が入出力インタフェース５５０を使用してサーバからプログラムをダウンロードするようにしてもよい。

実施形態において説明される処理は、ＣＰＵ５１０などの汎用ハードウェアプロセッサがプログラムを実行することにより行われることに限らず、ＡＳＩＣ（ＡｐｐｌｉｃａｔｉｏｎＳｐｅｃｉｆｉｃＩｎｔｅｇｒａｔｅｄＣｉｒｃｕｉｔ）などの専用ハードウェアプロセッサにより行われてもよい。処理回路（処理部）という語は、少なくとも一つの汎用ハードウェアプロセッサ、少なくとも一つの専用ハードウェアプロセッサ、または少なくとも一つの汎用ハードウェアプロセッサと少なくとも一つの専用ハードウェアプロセッサとの組み合わせを含む。図１５に示す例では、ＣＰＵ５１０、ＲＡＭ５２０、およびプログラムメモリ５３０が処理回路に相当する。

よって、以上の各実施形態によれば、音声認識性能を向上することができる。

本発明のいくつかの実施形態を説明したが、これらの実施形態は、例として提示したものであり、発明の範囲を限定することは意図していない。これら新規な実施形態は、その他の様々な形態で実施されることが可能であり、発明の要旨を逸脱しない範囲で、種々の省略、置き換え、変更を行うことができる。これら実施形態やその変形は、発明の範囲や要旨に含まれるとともに、特許請求の範囲に記載された発明とその均等の範囲に含まれる。

１０…音声認識装置、１１…音響スコア計算部、１２…ラティス生成部、１３…探索部、１４…音響モデル記憶部、１５…発音辞書記憶部、１６…言語モデル記憶部、２０…集音デバイス、３０…出力装置、１００…音声認識装置、１１０…データ拡張部、１２０…統合処理部、１２１…音響スコア計算部、１２１－１…第１計算部、１２１－２…第２計算部、１２１－Ｎ…第Ｎ計算部、１２２…調整部、１２２－１…第１調整部、１２２－２…第２調整部、１２２－Ｎ…第Ｎ調整部、１２３…音響スコア統合部、１２４…ラティス生成部、１２０Ａ…統合処理部、１２１Ａ…音響スコア計算部、１２１Ａ－１…第１計算部、１２１Ａ－２…第２計算部、１２１Ａ－Ｎ…第Ｎ計算部、１２２Ａ…ラティス生成部、１２２Ａ－１…第１生成部、１２２Ａ－２…第２生成部、１２２Ａ－Ｎ…第Ｎ生成部、１２３Ａ…ラティス統合部、１３０…探索部、１４０…音響モデル記憶部、１５０…発音辞書記憶部、１６０…言語モデル記憶部、２００…音声認識装置、２１０…パラメータ自動決定部、２１１…振幅抽出部、２１２…汎用振幅データ記憶部、２１３…音量変換パラメータ推定部、２１４…ピッチ抽出部、２１５…汎用ピッチデータ記憶部、２１６…声質変換パラメータ推定部、２１７…話速抽出部、２１８…汎用話速データ記憶部、２１９…話速変換パラメータ推定部、３００…音声認識装置、３１０…適応部、３２０…適応済音響モデル記憶部、４００…音声認識装置、４１０…パラメータ自動決定部、４２０…適応部、４３０…適応済音響モデル記憶部、５００…コンピュータ、５３０…プログラムメモリ、５４０…補助記憶装置、５５０…入出力インタフェース、５６０…バス。

Claims

入力音声データに基づいて複数の拡張音声データを生成するデータ拡張部と、
前記複数の拡張音声データのそれぞれと音響モデルとに基づいて複数の音響スコアを生成する音響スコア計算部と、
前記複数の音響スコアをそれぞれリサンプリングすることによって複数の調整済音響スコアを生成する調整部と、
前記複数の調整済音響スコアを統合することによって統合済音響スコアを生成する音響スコア統合部と、
前記統合済音響スコアと発音辞書と言語モデルとに基づいて統合済ラティスを生成するラティス生成部と、
前記統合済ラティスから尤度の最も高い音声認識結果を探索する探索部と
を具備する、音声認識装置。
前記調整部は、前記複数の音響スコアにそれぞれ対応付けられた時間フレーム数と、前記入力音声データの時間フレーム数とが一致するように、前記複数の音響スコアをそれぞれリサンプリングすることによって前記複数の調整済音響スコアを生成する、
請求項１に記載の音声認識装置。
前記音響スコア統合部は、前記複数の調整済音響スコアの平均値、中央値、および最大値のうちの少なくとも一つを算出することによって前記統合済音響スコアを生成する、
請求項１または請求項２に記載の音声認識装置。
前記統合済ラティスは、音声認識による候補単語をノードとし、前記候補単語の尤度をエッジとする単語ラティスである、
請求項１から請求項３までのいずれか一項に記載の音声認識装置。
前記データ拡張部は、前記入力音声データに対して、話速変換、音量変換、および声質変換のうちの少なくとも一つの変換処理を実行することによって前記複数の拡張音声データのうちの少なくとも一つを生成する、
請求項１から請求項４までのいずれか一項に記載の音声認識装置。
前記入力音声データに基づいて前記変換処理に関する変換パラメータを自動決定するパラメータ自動決定部
を更に具備する、請求項５に記載の音声認識装置。
前記パラメータ自動決定部は、前記入力音声データに対応する音声認識結果に基づいて前記話速変換に関する話速変換パラメータを推定し、
前記データ拡張部は、前記話速変換パラメータを用いて拡張音声データを生成する、
請求項６に記載の音声認識装置。
前記パラメータ自動決定部は、前記入力音声データに基づいて前記音量変換に関する音量変換パラメータを推定し、
前記データ拡張部は、前記音量変換パラメータを用いて拡張音声データを生成する、
請求項６または請求項７に記載の音声認識装置。
前記パラメータ自動決定部は、前記入力音声データに基づいて前記声質変換に関する声質変換パラメータを推定し、
前記データ拡張部は、前記声質変換パラメータを用いて拡張音声データを生成する、
請求項６から請求項８までのいずれか一項に記載の音声認識装置。
前記複数の拡張音声データは、前記入力音声データを含む、
請求項１から請求項９までのいずれか一項に記載の音声認識装置。
前記音響モデルは、音素、音節、文字、単語片、および単語のうちの少なくとも一つの単位ごとに、音声データを入力することによって音響スコアに対応する事後確率を出力するように学習された単一のモデルである、
請求項１から請求項１０までのいずれか一項に記載の音声認識装置。
前記入力音声データと、前記入力音声データに対応する前記音声認識結果とに基づいて、前記音響モデルを前記入力音声データの話者に適応させた適応済音響モデルを生成する適応部
を更に具備する、請求項１から請求項１１までのいずれか一項に記載の音声認識装置。
入力音声データに基づいて複数の拡張音声データを生成することと、
前記複数の拡張音声データのそれぞれと音響モデルとに基づいて複数の音響スコアを生成することと、
前記複数の音響スコアをそれぞれリサンプリングすることによって複数の調整済音響スコアを生成することと、
前記複数の調整済音響スコアを統合することによって統合済音響スコアを生成することと、
前記統合済音響スコアと発音辞書と言語モデルとに基づいて統合済ラティスを生成することと、
前記統合済ラティスから尤度の最も高い音声認識結果を探索することと
を具備する、音声認識方法。
コンピュータを、
入力音声データに基づいて複数の拡張音声データを生成する手段と、
前記複数の拡張音声データのそれぞれと音響モデルとに基づいて複数の音響スコアを生成する手段と、
前記複数の音響スコアをそれぞれリサンプリングすることによって複数の調整済音響スコアを生成する手段と、
前記複数の調整済音響スコアを統合することによって統合済音響スコアを生成する手段と、
前記統合済音響スコアと発音辞書と言語モデルとに基づいて統合済ラティスを生成する手段と、
前記統合済ラティスから尤度の最も高い音声認識結果を探索する手段
として機能させるためのプログラム。