[go: up one dir, main page]

JP7508409B2 - 音声認識装置、方法およびプログラム - Google Patents

音声認識装置、方法およびプログラム Download PDF

Info

Publication number
JP7508409B2
JP7508409B2 JP2021091236A JP2021091236A JP7508409B2 JP 7508409 B2 JP7508409 B2 JP 7508409B2 JP 2021091236 A JP2021091236 A JP 2021091236A JP 2021091236 A JP2021091236 A JP 2021091236A JP 7508409 B2 JP7508409 B2 JP 7508409B2
Authority
JP
Japan
Prior art keywords
acoustic
data
unit
speech
speech recognition
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Active
Application number
JP2021091236A
Other languages
English (en)
Other versions
JP2022183758A (ja
Inventor
大智 早川
岳彦 籠嶋
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Toshiba Corp
Original Assignee
Toshiba Corp
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Toshiba Corp filed Critical Toshiba Corp
Priority to JP2021091236A priority Critical patent/JP7508409B2/ja
Priority to CN202210188336.XA priority patent/CN115482822A/zh
Priority to US17/652,823 priority patent/US20220383860A1/en
Publication of JP2022183758A publication Critical patent/JP2022183758A/ja
Application granted granted Critical
Publication of JP7508409B2 publication Critical patent/JP7508409B2/ja
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Classifications

    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L15/00Speech recognition
    • G10L15/26Speech to text systems
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L15/00Speech recognition
    • G10L15/06Creation of reference templates; Training of speech recognition systems, e.g. adaptation to the characteristics of the speaker's voice
    • G10L15/063Training
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L15/00Speech recognition
    • G10L15/08Speech classification or search
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L15/00Speech recognition
    • G10L15/20Speech recognition techniques specially adapted for robustness in adverse environments, e.g. in noise, of stress induced speech
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L15/00Speech recognition
    • G10L15/08Speech classification or search
    • G10L15/16Speech classification or search using artificial neural networks
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L15/00Speech recognition
    • G10L15/08Speech classification or search
    • G10L15/18Speech classification or search using natural language modelling
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L15/00Speech recognition
    • G10L15/08Speech classification or search
    • G10L2015/081Search algorithms, e.g. Baum-Welch or Viterbi
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L21/00Speech or voice signal processing techniques to produce another audible or non-audible signal, e.g. visual or tactile, in order to modify its quality or its intelligibility
    • G10L21/003Changing voice quality, e.g. pitch or formants
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L21/00Speech or voice signal processing techniques to produce another audible or non-audible signal, e.g. visual or tactile, in order to modify its quality or its intelligibility
    • G10L21/02Speech enhancement, e.g. noise reduction or echo cancellation
    • G10L21/0316Speech enhancement, e.g. noise reduction or echo cancellation by changing the amplitude
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L21/00Speech or voice signal processing techniques to produce another audible or non-audible signal, e.g. visual or tactile, in order to modify its quality or its intelligibility
    • G10L21/04Time compression or expansion
    • G10L21/043Time compression or expansion by changing speed

Landscapes

  • Engineering & Computer Science (AREA)
  • Computational Linguistics (AREA)
  • Health & Medical Sciences (AREA)
  • Audiology, Speech & Language Pathology (AREA)
  • Human Computer Interaction (AREA)
  • Physics & Mathematics (AREA)
  • Acoustics & Sound (AREA)
  • Multimedia (AREA)
  • Artificial Intelligence (AREA)
  • Machine Translation (AREA)

Description

本発明の実施形態は、音声認識装置、方法およびプログラムに関する。
大量の汎用音声データによってあらかじめ学習された音響モデルを用いて、話し言葉音声を認識する技術がある。話し言葉音声の認識性能が低下する要因としては、例えば以下の4つが考えられる。
(要因1)話し言葉に環境雑音が混入する場合。
(要因2)話速が汎用音声データと著しく異なる場合。認識対象とする話し言葉が、著しく早口であったりゆっくりであったりした場合。
(要因3)話者の特徴が汎用音声データと著しく異なる場合。例えば、汎用音声データが大人の発話で構成されている一方、認識対象が子供の話し言葉の場合。
(要因4)入力する音声の振幅が汎用音声データと著しく異なる場合。例えば、話し言葉音声を収音するマイクロフォンのゲインを著しく小さく設定した場合。
以上4つの要因のいずれか1つでも起きると、話し言葉音声である認識対象音声データの特徴が、汎用音声データの特徴と一致しなくなり、音声認識の性能が著しく低下するという問題が発生する。
上記問題を解決する有効な手法の一つに、入力音声を複数の音響モデルを用いて認識し、その認識結果を統合する手法がある。音響モデルごとに異なる雑音、異なる話速や話者の特徴、異なる振幅の音声データを学習させることで、4つの要因に対応することが可能となる。しかしながら、音響モデルを複数学習させるのは時間コストがかかる。また、計算機で複数の音響モデルを用いて音声認識を行うと、非常に多くのメモリを消費するため、実用には難がある。
問題を解決するもう一つの有効な手法に、単一の音響モデルを用いて雑音に頑健な音声認識を行う手法がある。この手法では、単一の音響モデルに、雑音が含まれた入力信号と、入力信号を雑音抑圧した音声強調信号がまとめて入力される。しかしながら、この方法では、4つの要因のうち(要因1)は解決できるが、(要因2)から(要因4)までは解決できない。また、音響モデルに入力する入力信号と音声強調信号の数をあらかじめ決めた上で、音響モデルを学習しなければならず、制約が大きい。
特開2020-012928号公報
H. Xu, D. Povey, L. Mangu, J. Xhu, "An Improved Consensus-Like method for Minimum Bayes Risk Decoding and Lattice Combination,"in Proceedings of ICASSP, 2010. Y. Qian, P. C. Woodland, "Very Deep Convolutional Neural Networks for Robust Speech Recognition,"arXiv:1610.00277, 2016.
本発明が解決しようとする課題は、音声認識性能を向上することができる音声認識装置、方法およびプログラムを提供することである。
一実施形態に係る音声認識装置は、データ拡張部と、音響スコア計算部と、調整部と、音響スコア統合部と、ラティス生成部と、探索部とを備える。データ拡張部は、入力音声データに基づいて複数の拡張音声データを生成する。音響スコア計算部は、複数の拡張音声データのそれぞれと音響モデルとに基づいて複数の音響スコアを生成する。調整部は、複数の音響スコアをそれぞれリサンプリングすることによって複数の調整済音響スコアを生成する。音響スコア統合部は、複数の調整済音響スコアを統合することによって統合済音響スコアを生成する。ラティス生成部は、統合済音響スコアと発音辞書と言語モデルとに基づいて統合済ラティスを生成する。探索部は、統合済ラティスから尤度の最も高い音声認識結果を探索する。
図1は、第1の実施形態に係る音声認識装置の構成を例示するブロック図。 図2は、図1の統合処理部の構成を例示するブロック図。 図3は、図1の音声認識装置の動作を例示するフローチャート。 図4は、図3のフローチャートの統合処理を例示するフローチャート。 図5は、図2の調整部におけるリサンプリングを説明する図。 図6は、第1の実施形態の変形例に係る音声認識装置の統合処理部の構成を例示するブロック図。 図7は、第1の実施形態の変形例に係る音声認識装置の動作における統合処理を例示するフローチャート。 図8は、第1の実施形態の変形例に係る音声認識装置の実験結果を例示するテーブル。 図9は、第2の実施形態に係る音声認識装置の構成を例示するブロック図。 図10は、図9のパラメータ自動決定部の構成を例示するブロック図。 図11は、図9の音声認識装置の動作を例示するフローチャート。 図12は、図9のフローチャートのパラメータ自動推定処理を例示するフローチャート。 図13は、第3の実施形態に係る音声認識装置の構成を例示するブロック図。 図14は、第4の実施形態に係る音声認識装置の構成を例示するブロック図。 図15は、一実施形態に係るコンピュータのハードウェア構成を例示するブロック図。 図16は、従来の音声認識装置を含む音声認識システムの構成を例示するブロック図。
初めに、従来の音声認識装置の概要について説明する。
図16は、従来の音声認識装置10を含む音声認識システムの構成を例示するブロック図である。音声認識システムは、音声認識装置10と、集音デバイス20と、出力装置30とを備える。
集音デバイス20は、音声認識対象となる音声データを取得する。集音デバイス20は、例えば、マイクロフォンである。集音デバイス20は、取得した音声データを音声認識装置10へと出力する。以降では、集音デバイス20で取得された音声データを入力音声データと称する。
音声認識装置10は、音響スコア計算部11と、ラティス生成部12と、探索部13と、音響モデル記憶部14と、発音辞書記憶部15と、言語モデル記憶部16とを備える。以下では、先に音響モデル記憶部14と、発音辞書記憶部15と、言語モデル記憶部16とについて説明する。
音響モデル記憶部14は、音響モデルを記憶している。音響モデルは、例えば、音声データによって予め学習された機械学習の学習済モデルである。機械学習としては、例えば、DNN(Deep Neural Network)が用いられる。具体的には、音響モデルは、例えば、音素、音節、文字、単語片、および単語のうちの少なくとも一つの単位ごとに、音声データの波形を入力することによって音響スコアに対応する事後確率を出力するように学習された単一のモデルであり、上記DNNが用いられる。尚、音響モデルは、例えばパワースペクトルやメルフィルタバンク特徴量など音声データの波形から抽出された特徴量(或いは、特徴ベクトル)を入力することによって学習されたモデルでもよい。
発音辞書記憶部15は、発音辞書を記憶している。発音辞書は、例えば、ある単語がどのような音素の系列(音素系列)で表現されるかを表した辞書である。発音辞書は、音響スコアに基づいて単語を得るために用いられる。
言語モデル記憶部16は、言語モデルを記憶している。言語モデルは、単語列から文を構成する規則や制約を記述しているモデルである。例えば、言語モデルには、ルールベースで文法を記述する手法や、N-gramなどの統計的な手法を用いたものがある。言語モデルは、単語列により構成される認識結果を発話文の複数の候補それぞれの確率を出力する際に用いられる。
音響スコア計算部11は、集音デバイス20から入力音声データを受け取り、音響モデル記憶部14から音響モデルを受け取る。音響スコア計算部11は、入力音声データと音響モデルとに基づいて音響スコアを生成する。音響スコア計算部11は、生成した音響スコアをラティス生成部12へと出力する。
具体的には、音響スコア計算部11は、例えば、入力音声データである波形データをフレーム毎に分割し、フレーム毎に音響スコアを生成する。また、音響スコア計算部11は、メルフィルタバンク特徴量に代表されるような、フレーム毎に分割された波形データから得られた特徴ベクトルを用いて音響スコアを生成してもよい。これらのことは、音響モデルの種類に応じて適宜変更されてよい。
換言すると、音響スコア計算部11は、フレーム毎に分割された波形データ、または特徴ベクトルを音響モデルに入力し、フレーム毎に音響スコアを生成する。
ラティス生成部12は、音響スコア計算部11から音響スコアを受け取り、発音辞書記憶部15から発音辞書を受け取り、言語モデル記憶部16から言語モデルを受け取る。ラティス生成部12は、音響スコアと発音辞書と言語モデルとに基づいてラティスを生成する。ラティス生成部12は、生成したラティスを探索部13へと出力する。
具体的には、ラティス生成部12は、音響スコアと発音辞書と言語モデルとに基づいて、出力単語列の上位候補を出力する。上位候補は、出力単語列の上位候補をノード、上位候補の単語の尤度をエッジとするラティスという形で出力される。より広い概念では、ラティスは、音声認識による候補単語をノード、候補単語の尤度をエッジとしたものである。尚、ラティスは、単語ラティスと呼ばれてもよい。
探索部13は、ラティス生成部12からラティスを受け取る。探索部13は、ラティスから尤度の最も高い音声認識結果を探索する。探索部13は、音声認識結果を出力装置30へと出力する。
なお、ラティス生成部12における出力単語列の上位候補の生成、および探索部13における音声認識結果の探索には、例えば、参考文献1(D. Rybach, J. Schalkwyk, M. Riley, “On Lattice Generation for Large Vocabulary Speech Recognition,” IEEE Automatic Speech Recognition and Understanding Workshop (ASRU), 2017)などに記載の手法を用いることができる。
出力装置30は、音声認識装置10から音声認識結果を受け取る。出力装置30は、例えばディスプレイである。出力装置30は、音声認識結果を所望の表示形式に変換してユーザに提示する。
以下、図面を参照しながら、音声認識装置の各実施形態について詳細に説明する。
(第1の実施形態)
図1は、第1の実施形態に係る音声認識装置100の構成を例示するブロック図である。音声認識装置100は、データ拡張部110と、統合処理部120と、探索部130と、音響モデル記憶部140と、発音辞書記憶部150と、言語モデル記憶部160とを備える。尚、音声認識装置100は、入力音声データを取得する取得部および入力音声データを記憶する入力音声データ記憶部を備えてもよい。また、音響モデル記憶部140と、発音辞書記憶部150と、言語モデル記憶部160とは、一つ以上の記憶部に統合されてもよいし、音声認識装置100の外部にそれぞれ、或いは統合されて設けられてもよい。
なお、音響モデル記憶部140と、発音辞書記憶部150と、言語モデル記憶部160とは、図16の音響モデル記憶部14と、発音辞書記憶部15と、言語モデル記憶部16と略同様の構成であるため説明を省略する。
データ拡張部110は、集音デバイス(図示せず)から入力音声データを受け取る。データ拡張部110は、入力音声データに基づいて複数の拡張音声データを生成する。データ拡張部110は、複数の拡張音声データを統合処理部120へと出力する。
具体的には、データ拡張部110は、入力音声データに対して、話速変換、音量変換、および声質変換のうちの少なくとも一つの変換処理を実行することによって複数の拡張音声データのうちの少なくとも一つを生成する。尚、複数の拡張音声データは、入力音声データを含んでもよい。以下では、変換処理について、話速変換、音量変換、および声質変換のそれぞれの場合に分けて説明する。
変換処理が話速変換の場合、データ拡張部110は、入力音声データをa倍速する話速変換を実行することによって拡張音声データを生成する。係数aは、a>0かつa≠1を満たす実数を条件とし、以降では「話速変換パラメータ」と称する。話速変換は、例えば、入力音声データのサンプリングレートとは異なるサンプリングレートで音声を再生させ、異なるサンプリングレートで再生された音声をもとのサンプリングレートに変換することで実現できる。話速変換パラメータaは、上記条件を満たす任意の値でよいが、例えば、0.9および1.1がよく用いられる。
変換処理が音量変換の場合、データ拡張部110は、入力音声データの波形の振幅をb倍する音量変換を実行することによって拡張音声データを生成する。係数bは、例えば、入力音声データが16bit形式である場合、0<b<(32767/音声データの振幅の最大値)を満たす実数を条件とし、以降では「音量変換パラメータ」と称する。音量変換パラメータbは、上記条件からランダムに選ばれてよい。
変換処理が声質変換の場合、データ拡張部110は、入力音声データのピッチをc倍する声質変換を実行することによって拡張音声データを生成する。係数cは、0より大きい実数を条件とし、以降では、「声質変換パラメータ」と称する。声質変換は、例えば、ピッチ同期オーバーラップ加算(PSOLA:Pitch Synchronous Overlap and Add)を用いることで実現できる。
なお、PSOLAは、例えば、参考文献2(E. Moulines, and F. Charpentier, “Pitch synchronous waveform processing techniques for text-to-speech synthesis using diphones,” Speech Commn., 9:453-467, 1990.)などに記載されている。
なお、データ拡張部110は、変換処理である話速変換、音量変換、および声質変換のうちのいずれか一つを用いてもよいし、それらを複数組み合わせ用いてもよい。また、データ拡張部110は、変換パラメータである話速変換パラメータa、音量変換パラメータb、および声質変換パラメータcを設定して複数の拡張音声データを生成してもよい。変換処理の種類、生成する拡張音声データの数、変換パラメータの組み合わせは、ユーザが任意に設定可能である。
統合処理部120は、データ拡張部110から複数の拡張音声データを受け取り、音響モデル記憶部140から音響モデルを受け取り、発音辞書記憶部150から発音辞書を受け取り、言語モデル記憶部160から言語モデルを受け取る。統合処理部120は、複数の拡張音声データを用いて統合処理を実行することによって統合済ラティスを生成する。統合処理部120は、統合済ラティスを探索部130へと出力する。次に、統合処理部120のより具体的な構成について、図2を用いて説明する。
図2は、図1の統合処理部120の構成を例示するブロック図である。統合処理部120は、音響スコア計算部121と、調整部122と、音響スコア統合部123と、ラティス生成部124とを備える。
音響スコア計算部121は、データ拡張部110から複数の拡張音声データを受け取り、音響モデル記憶部140から音響モデルを受け取る。音響スコア計算部121は、複数の拡張音声データのそれぞれと音響モデルとに基づいて複数の音響スコアを生成する。音響スコア計算部121は、生成した複数の音響スコアを調整部122へと出力する。尚、音響スコアの具体的な生成は、図16の音響スコア計算部11と略同様である。
調整部122は、音響スコア計算部121から複数の音響スコアを受け取る。調整部122は、複数の音響スコアをそれぞれリサンプリングすることによって複数の調整済音響スコアを生成する。調整部122は、生成した複数の調整済音響スコアを音響スコア統合部123へと出力する。
具体的には、調整部122は、複数の音響スコアにそれぞれ対応付けられた時間フレーム数と、入力音声データの時間フレーム数とが一致するように、複数の音響スコアそれぞれをリサンプリングすることによって複数の調整済音響スコアを生成する。尚、調整部122は、一致させるフレーム数として、入力音声データを基準としてもよいし、任意の拡張音声データを基準としてもよい。
なお、音響スコア計算部121および調整部122は、生成される拡張音声データの数に合わせて、それぞれ複数の計算部および複数の調整部を有してもよい。例えば、拡張音声データの数がN(N>1)の場合、音響スコア計算部121は、第1計算部121-1、第2計算部121-2、…、第N計算部121-Nを有し、調整部122は、第1調整部122-1、第2調整部122-2、…、第N調整部122-Nを有する。よって、音響スコア計算部121は、N個の音響スコアを出力し、調整部122は、N個の調整済音響スコアを出力する。
音響スコア統合部123は、調整部122から複数の調整済音響スコアを受け取る。音響スコア統合部123は、複数の調整済音響スコアを統合することによって統合済音響スコアを生成する。音響スコア統合部123は、生成した統合済音響スコアをラティス生成部124へと出力する。
具体的には、音響スコア統合部123は、複数の調整済音響スコアの平均値、中央値、および最大値のうちの少なくとも一つを算出することによって統合済音響スコアを生成する。尚、音響スコア統合部123は、算出する数値の種類(平均値、中央値、および最大値)をそれぞれ組み合わせてもよいし、フレーム毎に算出する数値の種類を変えてもよい。
ラティス生成部124は、音響スコア統合部123から統合済音響スコアを受け取り、発音辞書記憶部150から発音辞書を受け取り、言語モデル記憶部160から言語モデルを受け取る。ラティス生成部124は、統合済音響スコアと発音辞書と言語モデルとに基づいて統合済ラティスを生成する。ラティス生成部124は、生成した統合済ラティスを探索部130へと出力する。尚、ラティス生成部124の具体的な構成は、図16のラティス生成部12と略同様である。
探索部130は、統合処理部120から統合済ラティスを受け取る。探索部130は、統合済ラティスから尤度の最も高い音声認識結果を探索する。探索部130は、音声認識結果を出力装置(図示せず)へと出力する。尚、探索部130の具体的な構成は、図16の探索部13と略同様である。
以上、第1の実施形態に係る音声認識装置100の構成について説明した。次に、音声認識装置100の動作について、図3のフローチャートを用いて説明する。
図3は、図1の音声認識装置100の動作を例示するフローチャートである。図3のフローチャートは、例えば、入力音声データの一文に相当するラティスから音声認識結果を出力する一連の流れを示している。
(ステップST110)
音声認識装置100は、集音デバイスから入力音声データを取得する。
(ステップST120)
入力音声データを取得した後、データ拡張部110は、入力音声データに基づいて複数の拡張音声データを生成する。
(ステップST130)
複数の拡張音声データを生成した後、統合処理部120は、複数の拡張音声データを用いて統合処理を実行することによって統合済ラティスを生成する。以降では、ステップST130の処理を「統合処理」と称する。統合処理の具体例について図4のフローチャートを用いて説明する。
図4は、図3のフローチャートの統合処理を例示するフローチャートである。図4のフローチャートは、ステップST120から遷移する。
(ステップST131)
複数の拡張音声データを生成した後、音響スコア計算部121は、複数の拡張音声データのそれぞれと音響モデルとに基づいて複数の音響スコアを生成する。
(ステップST132)
複数の音響スコアを生成した後、調整部122は、複数の音響スコアをそれぞれリサンプリングすることによって複数の調整済音響スコアを生成する。以下、調整部122の処理について具体例を挙げて説明する。
例えば、複数の音響スコア(以降、N個の音響スコアとも称する)を統合して一つの統合済音響スコアを生成する際、音響スコア統合部123は、これらN個の音響スコアの時間フレーム数がそれぞれ一致しているという前提のもと、フレームごとに処理を実行することが望ましい。
しかし、例えば、話速変換によって拡張音声データを生成した場合、入力音声データの時間長と、生成した拡張音声データの時間長とはそれぞれ異なるため、それぞれの音響スコアに対応付けられた時間フレーム数が一致しないという問題が生じる。この問題により、音響スコア統合部123は、フレームごとに処理を実行することができない。そこで、調整部122によって、複数の音響スコアのそれぞれに対応付けられた時間フレーム数を一致させる処理を実行し、上記問題の解決を図る。
入力音声データの時間フレーム数をT、時間フレームのインデックスをt(1≦t≦T)とおく。また、N個の拡張音声の時間フレーム数をT(1≦n≦N)とおく。n番目の拡張音声データを入力したときのtフレーム目における音響スコアをY とおく。このY はK次元(Kは自然数)のベクトルである。
n番目の拡張音声データが話速変換や声質変換によって生成されたものであるならば、T=Tが成立する。しかし、拡張音声データが話速変換によって生成された場合、T≠Tとなるため、Tフレーム分の音響スコアからTフレーム分の音響スコアに変換する必要がある。
上記変換は次の手順で行うことができる。まず、調整部122は、1フレーム目からTフレーム目までの音響スコアY のうち、k次元目(1≦k≦K)を抜き取る(ステップ1)。次に、調整部122は、抜き取ったT個のスコアをTサンプルの時系列データとみなして、T/T倍のサンプリングレートでリサンプリングしたものを作成する。これにより、調整部122は、T個のスコアをT個のスコアに変換することができる(ステップ2)。そして、調整部122は、上記ステップ1およびステップ2を1≦k≦Kについて繰り返すことによって、Tフレーム分の音響スコアY をTフレーム分の音響スコアに変換することが可能となる。この変換された音響スコアが上述の調整済音響スコアである。
図5は、図2の調整部122におけるリサンプリングを説明する図である。図5では、T=5からT=4にダウンサンプリングすることが示されている。調整部122は、例えば、1フレーム目からT=5フレーム目までの音響スコアのうち、1次元目を抜き取る。次に調整部122は、抜き取った5個のスコアを5サンプルの時系列データとみなして、4/5倍のサンプリングレートでダウンサンプリングしたものを作成する。これにより、調整部122は、5個のスコアを4個のスコアに変換することができる。
(ステップST133)
複数の調整済音響スコアを生成した後、音響スコア統合部123は、複数の調整済音響スコアを統合することによって統合済音響スコアを生成する。以下、音響スコア統合部123の処理について具体例を挙げて説明する。
音響スコア統合部123は、Tフレーム分の音響スコアに変換されたN個の調整済音響スコアを入力し、Tフレーム分の一つの統合済音響スコアを出力する。n番目の拡張音声データを入力したときのtフレーム目における調整済音響スコアをZ とおく。また、統合済音響スコアをSとおく。ここで、Z とSとはK次元のベクトルであり、それぞれ、以下の式(1)および式(2)で表される。
式(1)および式(2)における’(ダッシュ)は、転置を示す。そして、統合済音響スコアSの各要素St,kは例えば以下の式(3)から式(5)のいずれかで求めることができる。
N個の調整済音響スコアに対して、式(3)は平均値を算出し、式(4)は中央値を算出し、式(5)は最大値を算出するものである。尚、式(4)におけるmedian(・)は、1≦n≦Nに関する中央値をとる関数である。また、式(5)におけるmax(・)は、1≦n≦Nに関する最大値をとる関数である。
概説すると、音響スコア統合部123は、N個の調整済音響スコアの平均値、中央値、および最大値のうちの少なくとも一つを算出することによって一つの統合済音響スコアを生成することができる。
(ステップST134)
統合済音響スコアを生成した後、ラティス生成部124は、統合済音響スコアと発音辞書と言語モデルとに基づいて統合済ラティスを生成する。ステップST134の処理の後、処理はステップST140へ遷移する。
(ステップST140)
統合済ラティスを生成した後、探索部130は、統合済ラティスから尤度の最も高い音声認識結果を探索する。
(ステップST150)
音声認識結果を探索した後、音声認識装置100は、音声認識結果を出力装置へと出力する。ステップST150の後、処理は終了する。
尚、音声認識装置100は、入力音声データが取得され続ける限り、図3のフローチャートの処理に従い、入力音声データに対応する音声認識結果を出力し続けてよい。
以上説明したように、第1の実施形態に係る音声認識装置は、入力音声データに基づいて複数の拡張音声データを生成し、複数の拡張音声データのそれぞれと音響モデルとに基づいて複数の音響スコアを生成し、複数の音響スコアをそれぞれリサンプリングすることによって複数の調整済音響スコアを生成し、複数の調整済音響スコアを統合することによって統合済音響スコアを生成し、統合済音響スコアと発音辞書と言語モデルとに基づいて統合済ラティスを生成し、記統合済ラティスから尤度の最も高い音声認識結果を探索する。従って、第1の実施形態に係る音声認識装置は、音声認識性能を向上させることができる。
第1の実施形態に係る音声認識装置は、音響モデルが1つしかなくとも、(要因2)から(要因4)までを解決することができる。以下、(要因2)から(要因4)までの解決についてそれぞれ具体例を示す。
(要因2)について、例えば、入力音声データが早口で、そのまま入力すると認識すると正しい認識結果が得られないが、話速変換で0.9倍速にすると正しい認識結果が得られるようになった箇所があったとする。この場合、0.9倍速のデータをデータ拡張部で生成して、入力音声データと0.9倍速のデータとに対して統合処理を適用することで、入力音声データの認識結果と0.9倍速のデータの認識結果とのいいとこ取りができるようになる。その結果、第1の実施形態に係る音声認識装置は、音声認識性能を向上することができる。
(要因3)について、例えば、入力音声データが子供の音声で、そのまま入力すると認識すると正しい認識結果が得られないが、声質変換でピッチを0.95倍して正しい認識結果が得られるようになった箇所があったとする。この場合、ピッチ0.95倍の音声データをデータ拡張部で生成して、入力音声データとピッチ0.95倍の音声データとに対して統合処理を適用することで、入力音声データの認識結果とピッチを0.95倍にした音声データの認識結果とのいいとこ取りができるようになる。その結果、第1の実施形態に係る音声認識装置は、音声認識性能を向上することができる。
(要因4)について、例えば、入力音声データを収音するマイクのゲインが小さく、そのまま入力すると認識すると正しい認識結果が得られないが、音量変換で振幅を2倍にすると正しい認識結果が得られるようになった箇所があったとする。この場合、振幅2倍の音声データを拡張部で生成して、入力音声データと振幅2倍の音声データとに対して統合処理を適用することで、入力音声データの認識結果とピッチを振幅2倍にした音声データの認識結果とのいいとこ取りができるようになる。その結果、第1の実施形態に係る音声認識装置は、音声認識性能を向上することができる。
(第1の実施形態の変形例)
第1の実施形態に係る音声認識装置は、統合処理部において、複数の音響スコアを統合することによって統合済ラティスを生成していた。他方、第1の実施形態の変形例に係る音声認識装置は、複数の音響スコアからそれぞれ複数のラティスを生成し、この複数のラティスを統合することによって統合済ラティスを生成する。
第1の実施形態の変形例に係る音声認識装置は、データ拡張部110と、統合処理部120Aと、探索部130と、音響モデル記憶部140と、発音辞書記憶部150と、言語モデル記憶部160とを備える。
図6は、第1の実施形態の変形例に係る音声認識装置の統合処理部120Aの構成を例示するブロック図である。統合処理部120Aは、音響スコア計算部121Aと、ラティス生成部122Aと、ラティス統合部123Aとを備える。尚、音響スコア計算部121Aは、図2の音響スコア計算部121と略同様の構成であるため説明を省略する。
ラティス生成部122Aは、音響スコア計算部121Aから複数の音響スコアを受け取り、発音辞書記憶部150から発音辞書を受け取り、言語モデル記憶部160から言語モデルを受け取る。ラティス生成部122Aは、複数の音響スコアのそれぞれと発音辞書と言語モデルとに基づいて複数のラティスを生成する。複数のラティスのそれぞれは、例えば、音声認識による候補単語をノードとし、候補単語の尤度をエッジとする単語ラティスである。ラティス生成部122Aは、生成した複数のラティスをラティス統合部123Aへと出力する。
なお、音響スコア計算部121Aおよびラティス生成部122Aは、生成される拡張音声データの数に合わせて、それぞれ複数の計算部および複数の生成部を有してもよい。例えば、拡張音声データの数がN(N>1)の場合、音響スコア計算部121Aは、第1計算部121A-1、第2計算部121A-2、…、第N計算部121A-Nを有し、ラティス生成部122Aは、第1生成部122A-1、第2生成部122A-2、…、第N生成部122A-Nを有する。よって、音響スコア計算部121Aは、N個の音響スコアを出力し、ラティス生成部122Aは、N個のラティスを出力する。
ラティス統合部123Aは、ラティス生成部122Aから複数のラティスを受け取る。ラティス統合部123Aは、複数のラティスを統合することによって統合済ラティスを生成する。ラティス統合部123Aは、生成した統合済ラティスを探索部130へと出力する。
具体的には、ラティス統合部123Aは、複数のラティスのそれぞれの始点同士および終点同士を接続し、候補単語の共通部分を統合することによって統合済ラティスを生成する。複数のラティスの統合には、参考文献3(V. Le, S. Seng, L. Besacier and B. Bigi, "Word/sub-word lattices decomposition and combination for speech recognition," IEEE International Conference on Acoustics, Speech and Signal Processing, 2008)などに記載の手法を用いることができる。
以上、第1の実施形態の変形例に係る音声認識装置の構成について説明した。次に、本実施形態の統合処理部120Aに関する動作について、図7のフローチャートを用いて説明する。尚、第1の実施形態の変形例に係る音声認識装置の動作は、図3のフローチャートにおける、ステップST130の処理をステップST130Aの処理に置き換えたものである。
図7は、第1の実施形態の変形例に係る音声認識装置の動作における統合処理を例示するフローチャートである。図7のフローチャートは、ステップST130Aの処理に相当し、ステップST120から遷移する。
(ステップST131A)
複数の拡張音声データを生成した後、音響スコア計算部121Aは、複数の拡張音声データのそれぞれと音響モデルとに基づいて複数の音響スコアを生成する。
(ステップST132A)
複数の音響スコアを生成した後、ラティス生成部122Aは、複数の音響スコアのそれぞれと発音辞書と言語モデルとに基づいて複数のラティスを生成する。
(ステップST133A)
複数のラティスを生成した後、ラティス統合部123Aは、複数のラティスを統合することによって統合済ラティスを生成する。ステップST133Aの処理の後、処理はステップST140へと遷移する。
以上説明したように、第1の実施形態の変形例に係る音声認識装置は、入力音声データに基づいて複数の拡張音声データを生成し、複数の拡張音声データのそれぞれと音響モデルとに基づいて複数の音響スコアを生成し、複数の音響スコアのそれぞれと発音辞書と言語モデルとに基づいて複数のラティスを生成し、複数のラティスを統合することによって統合済ラティスを生成し、統合済ラティスから尤度の最も高い音声認識結果を探索する。従って、第1の実施形態の変形例に係る音声認識装置は、音声認識性能を向上させることができる。
図8は、第1の実施形態の変形例に係る音声認識装置の実験結果を例示するテーブルである。図8は、従来手法における認識性能と、拡張部で入力音声の話速を0.9倍、話速1.1倍したものを生成し、第1の実施形態の変形例の手法を適用したときの認識性能を比較した結果である。評価尺度は単語誤り率(WER:Word Errror Rate)であり、値が低いほど認識性能が良いことを示す。また、音響モデル、発音辞書、および言語モデルは、日本語話し言葉コーパス(CSJ:Corpus of Spontaneous Japanese)に基づいて学習し、評価にはCSJの評価セットを用いた。
なお、CSJは、参考文献4(K. Maekawa, “Corpus of spontaneous Japanese: Its design and evaluation,” In Proceedings ISCA and IEEE workshop on spontaneous speech processing and recognition, SSPR 2003)などに記載されている。
図8における従来手法では、入力音声データ(A:等速)、入力音声データの話速を0.9倍にしたデータ(B:0.9倍速)、および話速を1.1倍にしたデータ(C:1.1倍速)をそのまま音声認識装置に入力したときのWERである。他方、図8における提案手法では、入力音声データと入力音声データの話速を0.9倍にしたデータとを生成して統合したデータ(D:A+B)、入力音声データと入力音声データの話速を1.1倍にしたデータとを生成して統合したデータ(E:A+C)、および入力音声データと入力音声データの話速を0.9倍にしたデータと入力音声データの話速を1.1倍にしたデータとを生成して統合したデータ(F:A+B+C)のWERである。図8のDからFまでの結果より、提案手法の方が良好な認識性能が得られていることがわかる。
(第2の実施形態)
第1の実施形態に係る音声認識装置および第1の実施形態の変形例に係る音声認識装置は、データ拡張部において、予め設定された変換パラメータを用いて拡張音声データを生成していた。他方、第2の実施形態に係る音声認識装置は、入力音声データに基づいて変換パラメータをリアルタイムに決定し、リアルタイムに決定される変換パラメータを用いて拡張音声データを生成する。
図9は、第2の実施形態に係る音声認識装置200の構成を例示するブロック図である。音声認識装置200は、データ拡張部110と、統合処理部120と、探索部130と、音響モデル記憶部140と、発音辞書記憶部150と、言語モデル記憶部160と、パラメータ自動決定部210とを備える。
第2の実施形態において、データ拡張部110は、集音デバイス(図示せず)から入力音声データを受け取り、パラメータ自動決定部210から変換パラメータを受け取る。データ拡張部110は、入力音声データと変換パラメータとに基づいて複数の拡張音声データを生成する。
図10は、図9のパラメータ自動決定部210の構成を例示するブロック図である。パラメータ自動決定部210は、振幅抽出部211と、汎用振幅データ記憶部212と、音量変換パラメータ推定部213と、ピッチ抽出部214と、汎用ピッチデータ記憶部215と、声質変換パラメータ推定部216と、話速抽出部217と、汎用話速データ記憶部218と、話速変換パラメータ推定部219とを備える。以下では、先に汎用振幅データ記憶部212と、汎用ピッチデータ記憶部215と、汎用話速データ記憶部218とについて説明する。
なお、汎用振幅データ記憶部212と、汎用ピッチデータ記憶部215と、汎用話速データ記憶部218とは、一つ以上の記憶部に統合されてもよいし、音声認識装置100の外部にそれぞれ、或いは統合されて設けられてもよい。
汎用振幅データ記憶部212は、汎用振幅データを記憶している。汎用振幅データとして、例えば、汎用音声データ各々を短時間フーリエ変換して得られたパワースペクトルの平均を用いる。汎用音声データは、例えば、音響モデルの学習に用いられた音声データを用いることができる。
汎用ピッチデータ記憶部215は、汎用ピッチデータを記憶している。汎用ピッチデータとして、例えば、汎用音声データ各々から発話ごとのピッチ平均を用いる。ピッチ平均は、時間フレーム毎にピッチ情報を得た後、時間フレーム毎のピッチを平均することによって取得することができる。
なお、ピッチ平均の取得は、例えば、参考文献5(M. Lahat, R. Niederjohn and D. Krubsack, “A spectral autocorrelation method for measurement of the fundamental frequency of noise-corrupted speech,” in IEEE Transactions on Acoustics, Speech, and Signal Processing, vol. 35, no. 6, pp. 741-750, June 1987, doi: 10.1109/TASSP.1987.1165224.)などに記載の手法を用いることができる。
汎用話速データ記憶部218は、汎用話速データを記憶している。汎用話速データとして、例えば、汎用音声データ各々の単位時間あたり(例えば5秒あたり)のモーラ数を用いる。モーラとは、日本語のリズムにおける基本的な単位である。単位時間当たりのモーラ数は、例えば、汎用音声データの長さとラベル(書き起こし)の情報から取得することができる。
振幅抽出部211は、集音デバイスから入力音声データを受け取る。振幅抽出部211は、入力音声データの振幅を抽出する。具体的には、振幅抽出部211は、例えば、入力音声データを短時間フーリエ変換して得られたパワースペクトルを平均することによって振幅を抽出する。振幅抽出部211は、抽出した振幅の情報(振幅情報)を音量変換パラメータ推定部213へと出力する。
音量変換パラメータ推定部213は、振幅抽出部211から振幅情報を受け取り、汎用振幅データ記憶部212から汎用振幅データを受け取る。音量変換パラメータ推定部213は、振幅情報と汎用振幅データとに基づいて音量変換パラメータを推定する。音量変換パラメータ推定部213は、推定した音量変換パラメータをデータ拡張部110へと出力する。
ピッチ抽出部214は、集音デバイスから入力音声データを受け取る。ピッチ抽出部214は、入力音声データのピッチを抽出する。具体的には、ピッチ抽出部214は、入力音声データから発話毎のピッチ平均を取得することによってピッチを抽出する。ピッチ抽出部214は、抽出したピッチの情報(ピッチ情報)を声質変換パラメータ推定部216へと出力する。
声質変換パラメータ推定部216は、ピッチ抽出部214からピッチ情報を受け取り、汎用ピッチデータ記憶部215から汎用ピッチデータを受け取る。声質変換パラメータ推定部216は、ピッチ情報と汎用ピッチデータとに基づいて声質変換パラメータを推定する。声質変換パラメータ推定部216は、推定した声質変換パラメータをデータ拡張部110へと出力する。
話速抽出部217は、音声認識装置200によって生成された音声認識結果を受け取る。話速抽出部217は、音声認識結果の話速を抽出する。具体的には、話速抽出部217は、単位時間当たりのモーラ数を音声認識結果に対応する入力音声データの長さと音声認識結果とから取得することによって話速を抽出する。音声認識結果は、対応する入力音声データの長さが対応付けられていてもよい。話速抽出部217は、抽出した話速の情報(話速情報)を話速変換パラメータ推定部219へと出力する。尚、話速抽出部217は、音声認識結果に対応する入力音声データを受け取ってもよい。
話速変換パラメータ推定部219は、話速抽出部217から話速情報を受け取り、汎用話速データ記憶部218から汎用話速データを受け取る。話速変換パラメータ推定部219は、話速情報と汎用話速データとに基づいて話速変換パラメータを推定する。話速変換パラメータ推定部219は、推定した話速変換パラメータをデータ拡張部110へと出力する。
以上、第2の実施形態に係る音声認識装置200の構成について説明した。次に、音声認識装置200の動作について、図11のフローチャートを用いて説明する。
図11は、図9の音声認識装置200の動作を例示するフローチャートである。図11のフローチャートは、例えば、入力音声データの一文に相当するラティスから音声認識結果を出力する一連の流れを示している。
(ステップST210)
音声認識装置100は、集音デバイスから入力音声データを取得する。尚、図11のフローチャートの処理が一巡した後、音声認識装置100は、後述するパラメータ自動推定処理で用いるために、出力される音声認識結果をさらに取得(或いは、保持)してもよい。
(ステップST220)
入力音声データを取得した後、パラメータ自動決定部210は、拡張音声データの生成に関する変換パラメータを推定する。換言すると、パラメータ自動決定部210は、入力音声データに基づいて変換処理に関する変換パラメータを自動決定する。以降では、ステップST220の処理を「パラメータ自動推定処理」と称する。パラメータ自動推定処理の具体例について図12のフローチャートを用いて説明する。
図12は、図9のフローチャートのパラメータ自動推定処理を例示するフローチャートである。図12のフローチャートは、ステップST220から遷移する。尚、以下では、音声認識装置100が一つ以上の音声認識結果を出力しているものとする。
(ステップST221)
入力音声データを取得した後、振幅抽出部211は、入力音声データの振幅を抽出する。
(ステップST222)
振幅を抽出した後、音量変換パラメータ推定部213は、抽出した振幅と、汎用振幅データとに基づいて音量変換パラメータを推定する。以下、音量変換パラメータ推定部213の処理について具体例を挙げて説明する。
音量変換パラメータの推定は、入力音声データを取得した時点で行うことができる。音量変換パラメータ推定部213は、抽出した振幅の情報である入力音声データの振幅(パワースペクトルの平均)をPとし、汎用振幅データの平均をP’として、以下の式(6)を用いて音量変換パラメータbを推定する。
(ステップST223)
音量変換パラメータを推定した後、ピッチ抽出部214は、入力音声データのピッチを抽出する。
(ステップST224)
ピッチを抽出した後、声質変換パラメータ推定部216は、抽出したピッチと、汎用ピッチデータとに基づいて声質変換パラメータを推定する。以下、声質変換パラメータ推定部216の処理について具体例を挙げて説明する。
声質変換パラメータの推定は、入力音声データを取得した時点で行うことができる。声質変換パラメータ推定部216は、抽出したピッチの情報である入力音声データのピッチ平均をFとし、汎用ピッチデータの平均をF’として、以下の式(7)を用いて声質変換パラメータcを推定する。
(ステップST225)
声質変換パラメータを推定した後、話速抽出部217は、入力音声データに基づく音声認識結果の話速を抽出する。
(ステップST226)
話速を抽出した後、話速変換パラメータ推定部219は、抽出した話速と、汎用話速データとに基づいて話速変換パラメータを推定する。以下、話速変換パラメータ推定部219の処理について具体例を挙げて説明する。
話速変換パラメータの推定は、少なくとも一つの発話に対して音声認識処理を行った後でなければ行えない。話速変換パラメータ推定部219は、抽出した話速の情報である入力音声データの単位時間当たりのモーラ数をMとし、汎用音声データの平均をM’として、以下の式(8)を用いて話速変換パラメータaを推定する。
(ステップST227)
音量変換パラメータ、声質変換パラメータ、および話速変換パラメータを推定した後、パラメータ自動決定部210は、音量変換パラメータ、声質変換パラメータ、および話速変換パラメータを出力する。ステップST227の処理の後、処理はステップST230へと遷移する。
なお、上記のステップST221およびステップST222の処理、ステップST223およびステップST224の処理、およびステップST225およびステップST226の処理は、それぞれ順番が入れ替えられてもよいし、それぞれ同時に行われてもよい。
(ステップST230)
変換パラメータが推定された後、データ拡張部110は、入力音声データと変換パラメータとに基づいて複数の拡張音声データを生成する。
なお、ステップST240からステップST260までの処理は、図3のステップST130からステップST150までの処理と略同様であるため、説明を省略する。
以上説明したように、第2の実施形態に係る音声認識装置は、入力音声データに合わせてリアルタイムに変換パラメータを推定し、拡張音声データの生成に適用することができる。これにより、第2の実施形態に係る音声認識装置は、音響モデルの学習データセットの環境に近い拡張音声データを生成することができるため、音声認識性能を向上させることができる。
(第3の実施形態)
第1の実施形態に係る音声認識装置および第1の実施形態の変形例に係る音声認識装置は、入力音声データに対して音声認識処理を実行し音声認識結果を出力していた。他方、第3の実施形態に係る音声認識装置は、更に、入力音声データと、入力音声データに対応する音声認識結果とを音響モデルに適応させ適応済音響モデルを生成する。
図13は、第3の実施形態に係る音声認識装置300の構成を例示するブロック図である。音声認識装置300は、データ拡張部110と、統合処理部120と、探索部130と、音響モデル記憶部140と、発音辞書記憶部150と、言語モデル記憶部160と、適応部310と、適応済音響モデル記憶部320とを備える。尚、音響モデル記憶部140と、発音辞書記憶部150と、言語モデル記憶部160と、適応部310と、適応済音響モデル記憶部320とは、一つ以上の記憶部に統合されてもよいし、音声認識装置100の外部にそれぞれ、或いは統合されて設けられてもよい。
適応部310は、集音デバイス(図示せず)から入力音声データを受け取り、音響モデル記憶部140から音響モデルを受け取り、探索部130から音声認識結果を受け取る。適応部310は、入力音声データと、入力音声データに対応する音声認識結果とに基づいて、音響モデルを入力音声データの話者に適応させた適応済音響モデルを生成する。適応部310は、生成した適応済音響モデルを適応済音響モデル記憶部320へと出力する。
具体的には、適応部310は、音声認識結果を正解ラベルとして、入力音声データと正解ラベルとをセットにした適応データを用いて音響モデルを適応する。音響モデルの適応は、例えば、音響モデルのパラメータを、適応データを用いて最適化することによって行われる。より具体的には、適応部310は、音響モデルにDNNが用いられている場合、音響モデル記憶部140に記憶されている音響モデルのパラメータを初期値として最適化を行う。最適化の方法には、例えば、参考文献6(P. J. Werbos, “Backpropagation Through Time: What It Does and How to Do It,” Proceedings of the IEEE, vol. 78, no. 10, 1990.)などに記載の手法を用いることができる。
適応済音響モデル記憶部320は、適応部310から適応済音響モデルを受け取る。適応済音響モデル記憶部320は、適応済音響モデルを記憶する。適応済音響モデル記憶部320は、所定の条件を満たした後、統合処理部120に適応済音響モデルを出力する。所定の条件は、例えば、音声認識装置300によって音声認識が開始されてからの経過時間である。
適応部310と適応済音響モデル記憶部320の具体的な適用例について説明する。ユーザが音声認識装置300を起動すると、最初の一定時間(例えば、最低20分から30分まで位)では、音声認識装置300は、音響モデル記憶部140に記憶された音響モデル(以降、初期音響モデルと称する)を用いて音声認識処理を実行する。この処理と同時に、適応部310は、音声認識結果と入力音声データとに基づいてバックグラウンドで音響モデルを学習し、適応済音響モデルを適応済音響モデル記憶部320へと出力する。そして、一定時間経過後、音声認識装置300は、初期音響モデルから適応済音響モデルに切り替えて音声認識処理を実行する。
なお、音声認識装置300は、一定時間経過後に、音響モデルを切り替えるかどうかをユーザに選択させる機能を有し、ユーザに選択させてもよい。また、音声認識装置300は、初期音響モデルによる音声認識結果の信頼度と、適応済音響モデルによる音声認識結果の信頼度とを比較することによって、音響モデルを切り替えるかどうかを自動的に判定して決定する機能を有してもよい。信頼度の計算には、例えば、参考文献7(A. Lee, et. al. ,"Real-time word confidence scoring using local posterior probabilities on tree trellis search," ICASSP 2004)および参考文献8(A. Kastanos, et al. , “Confidence Estimation for Black Box Automatic Speech Recognition Systems Using Lattice Recurrent Neural Networks,” ICASSP 2020)などに記載の手法を用いることができる。
以上説明したように、第3の実施形態に係る音声認識装置は、入力音声データと音声認識結果とに基づいて、音響モデルを入力音声データの話者に適応させた適応済音響モデルを生成することができる。これにより、第3の実施形態に係る音声認識装置は、入力音声データに適応させた音響モデルを生成することができるため、音声認識性能を向上させることができる。
(第4の実施形態)
第2の実施形態に係る音声認識装置は、第1の実施形態に係る音声認識装置(或いは、第1の実施形態の変形例に係る音声認識装置)に対してパラメータ自動決定部が追加されたものである。他方、第3の実施形態に係る音声認識装置は、第1の実施形態に係る音声認識装置(或いは、第1の実施形態の変形例に係る音声認識装置)に対して適応部および適応済音響モデル記憶部が追加されたものである。第4の実施形態に係る音声認識装置は、それら全てを包括するものである。
図14は、第4の実施形態に係る音声認識装置400の構成を例示するブロック図である。音声認識装置400は、データ拡張部110と、統合処理部120と、探索部130と、音響モデル記憶部140と、発音辞書記憶部150と、言語モデル記憶部160と、パラメータ自動決定部410と、適応部420と、適応済音響モデル記憶部430とを備える。
パラメータ自動決定部410は、図9のパラメータ自動決定部210と略同様であり、適応部420は、図13の適応部310と略同様であり、適応済音響モデル記憶部430は、図13の適応済音響モデル記憶部320と略同様である。
以上説明したように、第4の実施形態に係る音声認識装置は、上記各実施形態に係る音声認識装置と同様の効果が見込める。
図15は、一実施形態に係るコンピュータのハードウェア構成を例示するブロック図である。コンピュータ500は、ハードウェアとして、CPU(Central Processing Unit)510、RAM(Random Access Memory)520、プログラムメモリ530、補助記憶装置540、入出力インタフェース550を備える。CPU510は、バス560を介して、RAM520、プログラムメモリ530、補助記憶装置540、および入出力インタフェース550と通信する。
CPU510は、汎用プロセッサの一例である。RAM520は、ワーキングメモリとしてCPU510に使用される。RAM520は、SDRAM(Synchronous Dynamic Random Access Memory)などの揮発性メモリを含む。プログラムメモリ530は、音声認識処理プログラムなどを含む種々のプログラムを記憶する。プログラムメモリ530として、例えば、ROM(Read-Only Memory)、補助記憶装置540の一部、またはその組み合わせが使用される。補助記憶装置540は、データを非一時的に記憶する。補助記憶装置540は、HDDまたはSSDなどの不揮発性メモリを含む。
入出力インタフェース550は、他のデバイスと接続するためのインタフェースである。入出力インタフェース550は、例えば、集音デバイスおよび出力装置との接続に使用される。
プログラムメモリ530に記憶されている各プログラムはコンピュータ実行可能命令を含む。プログラム(コンピュータ実行可能命令)は、CPU510により実行されると、CPU510に所定の処理を実行させる。例えば、音声認識処理プログラムなどは、CPU510により実行されると、CPU510に図1、2、6、9、10、13、および14の各部に関して説明された一連の処理を実行させる。
プログラムは、コンピュータで読み取り可能な記憶媒体に記憶された状態でコンピュータ500に提供されてよい。この場合、例えば、コンピュータ500は、記憶媒体からデータを読み出すドライブ(図示せず)をさらに備え、記憶媒体からプログラムを取得する。記憶媒体の例は、磁気ディスク、光ディスク(CD-ROM、CD-R、DVD-ROM、DVD-Rなど)、光磁気ディスク(MOなど)、半導体メモリを含む。また、プログラムを通信ネットワーク上のサーバに格納し、コンピュータ500が入出力インタフェース550を使用してサーバからプログラムをダウンロードするようにしてもよい。
実施形態において説明される処理は、CPU510などの汎用ハードウェアプロセッサがプログラムを実行することにより行われることに限らず、ASIC(Application Specific Integrated Circuit)などの専用ハードウェアプロセッサにより行われてもよい。処理回路(処理部)という語は、少なくとも一つの汎用ハードウェアプロセッサ、少なくとも一つの専用ハードウェアプロセッサ、または少なくとも一つの汎用ハードウェアプロセッサと少なくとも一つの専用ハードウェアプロセッサとの組み合わせを含む。図15に示す例では、CPU510、RAM520、およびプログラムメモリ530が処理回路に相当する。
よって、以上の各実施形態によれば、音声認識性能を向上することができる。
本発明のいくつかの実施形態を説明したが、これらの実施形態は、例として提示したものであり、発明の範囲を限定することは意図していない。これら新規な実施形態は、その他の様々な形態で実施されることが可能であり、発明の要旨を逸脱しない範囲で、種々の省略、置き換え、変更を行うことができる。これら実施形態やその変形は、発明の範囲や要旨に含まれるとともに、特許請求の範囲に記載された発明とその均等の範囲に含まれる。
10…音声認識装置、11…音響スコア計算部、12…ラティス生成部、13…探索部、14…音響モデル記憶部、15…発音辞書記憶部、16…言語モデル記憶部、20…集音デバイス、30…出力装置、100…音声認識装置、110…データ拡張部、120…統合処理部、121…音響スコア計算部、121-1…第1計算部、121-2…第2計算部、121-N…第N計算部、122…調整部、122-1…第1調整部、122-2…第2調整部、122-N…第N調整部、123…音響スコア統合部、124…ラティス生成部、120A…統合処理部、121A…音響スコア計算部、121A-1…第1計算部、121A-2…第2計算部、121A-N…第N計算部、122A…ラティス生成部、122A-1…第1生成部、122A-2…第2生成部、122A-N…第N生成部、123A…ラティス統合部、130…探索部、140…音響モデル記憶部、150…発音辞書記憶部、160…言語モデル記憶部、200…音声認識装置、210…パラメータ自動決定部、211…振幅抽出部、212…汎用振幅データ記憶部、213…音量変換パラメータ推定部、214…ピッチ抽出部、215…汎用ピッチデータ記憶部、216…声質変換パラメータ推定部、217…話速抽出部、218…汎用話速データ記憶部、219…話速変換パラメータ推定部、300…音声認識装置、310…適応部、320…適応済音響モデル記憶部、400…音声認識装置、410…パラメータ自動決定部、420…適応部、430…適応済音響モデル記憶部、500…コンピュータ、530…プログラムメモリ、540…補助記憶装置、550…入出力インタフェース、560…バス。

Claims (14)

  1. 入力音声データに基づいて複数の拡張音声データを生成するデータ拡張部と、
    前記複数の拡張音声データのそれぞれと音響モデルとに基づいて複数の音響スコアを生成する音響スコア計算部と、
    前記複数の音響スコアをそれぞれリサンプリングすることによって複数の調整済音響スコアを生成する調整部と、
    前記複数の調整済音響スコアを統合することによって統合済音響スコアを生成する音響スコア統合部と、
    前記統合済音響スコアと発音辞書と言語モデルとに基づいて統合済ラティスを生成するラティス生成部と、
    前記統合済ラティスから尤度の最も高い音声認識結果を探索する探索部と
    を具備する、音声認識装置。
  2. 前記調整部は、前記複数の音響スコアにそれぞれ対応付けられた時間フレーム数と、前記入力音声データの時間フレーム数とが一致するように、前記複数の音響スコアをそれぞれリサンプリングすることによって前記複数の調整済音響スコアを生成する、
    請求項1に記載の音声認識装置。
  3. 前記音響スコア統合部は、前記複数の調整済音響スコアの平均値、中央値、および最大値のうちの少なくとも一つを算出することによって前記統合済音響スコアを生成する、
    請求項1または請求項2に記載の音声認識装置。
  4. 前記統合済ラティスは、音声認識による候補単語をノードとし、前記候補単語の尤度をエッジとする単語ラティスである、
    請求項1から請求項3までのいずれか一項に記載の音声認識装置。
  5. 前記データ拡張部は、前記入力音声データに対して、話速変換、音量変換、および声質変換のうちの少なくとも一つの変換処理を実行することによって前記複数の拡張音声データのうちの少なくとも一つを生成する、
    請求項1から請求項までのいずれか一項に記載の音声認識装置。
  6. 前記入力音声データに基づいて前記変換処理に関する変換パラメータを自動決定するパラメータ自動決定部
    を更に具備する、請求項に記載の音声認識装置。
  7. 前記パラメータ自動決定部は、前記入力音声データに対応する音声認識結果に基づいて前記話速変換に関する話速変換パラメータを推定し、
    前記データ拡張部は、前記話速変換パラメータを用いて拡張音声データを生成する、
    請求項に記載の音声認識装置。
  8. 前記パラメータ自動決定部は、前記入力音声データに基づいて前記音量変換に関する音量変換パラメータを推定し、
    前記データ拡張部は、前記音量変換パラメータを用いて拡張音声データを生成する、
    請求項または請求項に記載の音声認識装置。
  9. 前記パラメータ自動決定部は、前記入力音声データに基づいて前記声質変換に関する声質変換パラメータを推定し、
    前記データ拡張部は、前記声質変換パラメータを用いて拡張音声データを生成する、
    請求項から請求項までのいずれか一項に記載の音声認識装置。
  10. 前記複数の拡張音声データは、前記入力音声データを含む、
    請求項1から請求項までのいずれか一項に記載の音声認識装置。
  11. 前記音響モデルは、音素、音節、文字、単語片、および単語のうちの少なくとも一つの単位ごとに、音声データを入力することによって音響スコアに対応する事後確率を出力するように学習された単一のモデルである、
    請求項1から請求項10までのいずれか一項に記載の音声認識装置。
  12. 前記入力音声データと、前記入力音声データに対応する前記音声認識結果とに基づいて、前記音響モデルを前記入力音声データの話者に適応させた適応済音響モデルを生成する適応部
    を更に具備する、請求項1から請求項11までのいずれか一項に記載の音声認識装置。
  13. 入力音声データに基づいて複数の拡張音声データを生成することと、
    前記複数の拡張音声データのそれぞれと音響モデルとに基づいて複数の音響スコアを生成することと、
    前記複数の音響スコアをそれぞれリサンプリングすることによって複数の調整済音響スコアを生成することと、
    前記複数の調整済音響スコアを統合することによって統合済音響スコアを生成することと、
    前記統合済音響スコアと発音辞書と言語モデルとに基づいて統合済ラティスを生成することと、
    前記統合済ラティスから尤度の最も高い音声認識結果を探索することと
    を具備する、音声認識方法。
  14. コンピュータを、
    入力音声データに基づいて複数の拡張音声データを生成する手段と、
    前記複数の拡張音声データのそれぞれと音響モデルとに基づいて複数の音響スコアを生成する手段と、
    前記複数の音響スコアをそれぞれリサンプリングすることによって複数の調整済音響スコアを生成する手段と、
    前記複数の調整済音響スコアを統合することによって統合済音響スコアを生成する手段と、
    前記統合済音響スコアと発音辞書と言語モデルとに基づいて統合済ラティスを生成する手段と、
    前記統合済ラティスから尤度の最も高い音声認識結果を探索する手段
    として機能させるためのプログラム。
JP2021091236A 2021-05-31 2021-05-31 音声認識装置、方法およびプログラム Active JP7508409B2 (ja)

Priority Applications (3)

Application Number Priority Date Filing Date Title
JP2021091236A JP7508409B2 (ja) 2021-05-31 2021-05-31 音声認識装置、方法およびプログラム
CN202210188336.XA CN115482822A (zh) 2021-05-31 2022-02-28 语音识别装置、方法以及程序
US17/652,823 US20220383860A1 (en) 2021-05-31 2022-02-28 Speech recognition apparatus and method

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
JP2021091236A JP7508409B2 (ja) 2021-05-31 2021-05-31 音声認識装置、方法およびプログラム

Publications (2)

Publication Number Publication Date
JP2022183758A JP2022183758A (ja) 2022-12-13
JP7508409B2 true JP7508409B2 (ja) 2024-07-01

Family

ID=84194236

Family Applications (1)

Application Number Title Priority Date Filing Date
JP2021091236A Active JP7508409B2 (ja) 2021-05-31 2021-05-31 音声認識装置、方法およびプログラム

Country Status (3)

Country Link
US (1) US20220383860A1 (ja)
JP (1) JP7508409B2 (ja)
CN (1) CN115482822A (ja)

Citations (5)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2004139049A (ja) 2002-09-24 2004-05-13 Matsushita Electric Ind Co Ltd 話者正規化方法及びそれを用いた音声認識装置
JP2005221678A (ja) 2004-02-04 2005-08-18 Advanced Telecommunication Research Institute International 音声認識システム
JP2007309979A (ja) 2006-05-16 2007-11-29 Advanced Telecommunication Research Institute International 音声処理装置、およびプログラム
WO2015075789A1 (ja) 2013-11-20 2015-05-28 三菱電機株式会社 音声認識装置および音声認識方法
WO2017037830A1 (ja) 2015-08-31 2017-03-09 三菱電機株式会社 音声認識装置および音声認識処理方法

Family Cites Families (22)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CA2126380C (en) * 1993-07-22 1998-07-07 Wu Chou Minimum error rate training of combined string models
EP1944753A3 (en) * 1997-04-30 2012-08-15 Nippon Hoso Kyokai Method and device for detecting voice sections, and speech velocity conversion method and device utilizing said method and device
US7058575B2 (en) * 2001-06-27 2006-06-06 Intel Corporation Integrating keyword spotting with graph decoder to improve the robustness of speech recognition
JP4675692B2 (ja) * 2005-06-22 2011-04-27 富士通株式会社 話速変換装置
JP4542974B2 (ja) * 2005-09-27 2010-09-15 株式会社東芝 音声認識装置、音声認識方法および音声認識プログラム
KR100755677B1 (ko) * 2005-11-02 2007-09-05 삼성전자주식회사 주제 영역 검출을 이용한 대화체 음성 인식 장치 및 방법
US8275615B2 (en) * 2007-07-13 2012-09-25 International Business Machines Corporation Model weighting, selection and hypotheses combination for automatic speech recognition and machine translation
JP5369079B2 (ja) * 2010-12-03 2013-12-18 日本電信電話株式会社 音響モデル作成方法とその装置とプログラム
JP5593244B2 (ja) * 2011-01-28 2014-09-17 日本放送協会 話速変換倍率決定装置、話速変換装置、プログラム、及び記録媒体
US9159317B2 (en) * 2013-06-14 2015-10-13 Mitsubishi Electric Research Laboratories, Inc. System and method for recognizing speech
KR102413692B1 (ko) * 2015-07-24 2022-06-27 삼성전자주식회사 음성 인식을 위한 음향 점수 계산 장치 및 방법, 음성 인식 장치 및 방법, 전자 장치
KR102423302B1 (ko) * 2015-10-06 2022-07-19 삼성전자주식회사 음성 인식에서의 음향 점수 계산 장치 및 방법과, 음향 모델 학습 장치 및 방법
US9966066B1 (en) * 2016-02-03 2018-05-08 Nvoq Incorporated System and methods for combining finite state transducer based speech recognizers
US10115393B1 (en) * 2016-10-31 2018-10-30 Microsoft Technology Licensing, Llc Reduced size computerized speech model speaker adaptation
US20190385628A1 (en) * 2017-02-28 2019-12-19 The University Of Electro-Communications Voice conversion / voice identity conversion device, voice conversion / voice identity conversion method and program
US20180359580A1 (en) * 2017-06-08 2018-12-13 Acoustic Protocol Inc. Conversion and distribution of public address system messages
US10679621B1 (en) * 2018-03-21 2020-06-09 Amazon Technologies, Inc. Speech processing optimizations based on microphone array
JP6903611B2 (ja) * 2018-08-27 2021-07-14 株式会社東芝 信号生成装置、信号生成システム、信号生成方法およびプログラム
US11164592B1 (en) * 2019-05-09 2021-11-02 Amazon Technologies, Inc. Responsive automatic gain control
US20190318742A1 (en) * 2019-06-26 2019-10-17 Intel Corporation Collaborative automatic speech recognition
KR102508413B1 (ko) * 2019-11-01 2023-03-10 가우디오랩 주식회사 주파수 스펙트럼 보정을 위한 오디오 신호 처리 방법 및 장치
JP7509233B2 (ja) * 2020-11-25 2024-07-02 日本電信電話株式会社 生成方法、生成装置および生成プログラム

Patent Citations (5)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2004139049A (ja) 2002-09-24 2004-05-13 Matsushita Electric Ind Co Ltd 話者正規化方法及びそれを用いた音声認識装置
JP2005221678A (ja) 2004-02-04 2005-08-18 Advanced Telecommunication Research Institute International 音声認識システム
JP2007309979A (ja) 2006-05-16 2007-11-29 Advanced Telecommunication Research Institute International 音声処理装置、およびプログラム
WO2015075789A1 (ja) 2013-11-20 2015-05-28 三菱電機株式会社 音声認識装置および音声認識方法
WO2017037830A1 (ja) 2015-08-31 2017-03-09 三菱電機株式会社 音声認識装置および音声認識処理方法

Also Published As

Publication number Publication date
JP2022183758A (ja) 2022-12-13
CN115482822A (zh) 2022-12-16
US20220383860A1 (en) 2022-12-01

Similar Documents

Publication Publication Date Title
JP4195428B2 (ja) 多数の音声特徴を利用する音声認識
JP5665780B2 (ja) 音声合成装置、方法およびプログラム
JP6293912B2 (ja) 音声合成装置、音声合成方法およびプログラム
US7996222B2 (en) Prosody conversion
JP6496030B2 (ja) 音声処理装置、音声処理方法及び音声処理プログラム
KR20230056741A (ko) 목소리 변환 및 스피치 인식 모델을 사용한 합성 데이터 증강
JP5961950B2 (ja) 音声処理装置
JP5411845B2 (ja) 音声合成方法、音声合成装置及び音声合成プログラム
KR20210059581A (ko) 말하기의 자동 유창성 평가 방법 및 그 장치
JP2001117582A (ja) 音声処理装置およびカラオケ装置
JP2018084604A (ja) クロスリンガル音声合成用モデル学習装置、クロスリンガル音声合成装置、クロスリンガル音声合成用モデル学習方法、プログラム
JP4225128B2 (ja) 規則音声合成装置及び規則音声合成方法
JP7508409B2 (ja) 音声認識装置、方法およびプログラム
JP2017167526A (ja) 統計的パラメトリック音声合成のためのマルチストリームスペクトル表現
JP5328703B2 (ja) 韻律パターン生成装置
JP5874639B2 (ja) 音声合成装置、音声合成方法及び音声合成プログラム
Galajit et al. Thaispoof: A database for spoof detection in thai language
JP2001312293A (ja) 音声認識方法およびその装置、並びにコンピュータ読み取り可能な記憶媒体
JP5722295B2 (ja) 音響モデル生成方法と音声合成方法とそれらの装置とプログラム
JP6234134B2 (ja) 音声合成装置
JP2001255887A (ja) 音声認識装置、音声認識方法及び音声認識方法を記録した媒体
JP5752488B2 (ja) 音声認識装置、音声認識方法、及び音声認識プログラム
JP4812010B2 (ja) 音声処理装置、およびプログラム
CN116403562B (zh) 一种基于语义信息自动预测停顿的语音合成方法、系统
JP2012073280A (ja) 音響モデル生成装置、音声翻訳装置、音響モデル生成方法

Legal Events

Date Code Title Description
RD01 Notification of change of attorney

Free format text: JAPANESE INTERMEDIATE CODE: A7421

Effective date: 20230105

A621 Written request for application examination

Free format text: JAPANESE INTERMEDIATE CODE: A621

Effective date: 20230315

A977 Report on retrieval

Free format text: JAPANESE INTERMEDIATE CODE: A971007

Effective date: 20231227

A131 Notification of reasons for refusal

Free format text: JAPANESE INTERMEDIATE CODE: A131

Effective date: 20240116

A521 Request for written amendment filed

Free format text: JAPANESE INTERMEDIATE CODE: A523

Effective date: 20240313

TRDD Decision of grant or rejection written
A01 Written decision to grant a patent or to grant a registration (utility model)

Free format text: JAPANESE INTERMEDIATE CODE: A01

Effective date: 20240521

A61 First payment of annual fees (during grant procedure)

Free format text: JAPANESE INTERMEDIATE CODE: A61

Effective date: 20240619

R150 Certificate of patent or registration of utility model

Ref document number: 7508409

Country of ref document: JP

Free format text: JAPANESE INTERMEDIATE CODE: R150