JP4109063B2 - 音声認識装置及び音声認識方法 - Google Patents
音声認識装置及び音声認識方法 Download PDFInfo
- Publication number
- JP4109063B2 JP4109063B2 JP2002271670A JP2002271670A JP4109063B2 JP 4109063 B2 JP4109063 B2 JP 4109063B2 JP 2002271670 A JP2002271670 A JP 2002271670A JP 2002271670 A JP2002271670 A JP 2002271670A JP 4109063 B2 JP4109063 B2 JP 4109063B2
- Authority
- JP
- Japan
- Prior art keywords
- model
- speech
- noise
- group
- representative
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Expired - Fee Related
Links
- 238000000034 method Methods 0.000 title claims description 55
- 230000003044 adaptive effect Effects 0.000 claims abstract description 149
- 239000013598 vector Substances 0.000 claims abstract description 105
- 230000006978 adaptation Effects 0.000 claims description 205
- 230000002194 synthesizing effect Effects 0.000 claims description 27
- 230000008569 process Effects 0.000 claims description 15
- 239000000203 mixture Substances 0.000 abstract description 7
- 239000002131 composite material Substances 0.000 abstract description 5
- 239000011159 matrix material Substances 0.000 description 36
- 238000009826 distribution Methods 0.000 description 24
- 238000010586 diagram Methods 0.000 description 11
- 230000015572 biosynthetic process Effects 0.000 description 9
- 238000003786 synthesis reaction Methods 0.000 description 9
- 230000000694 effects Effects 0.000 description 7
- 238000001308 synthesis method Methods 0.000 description 6
- 238000004364 calculation method Methods 0.000 description 5
- 238000007476 Maximum Likelihood Methods 0.000 description 3
- 230000006872 improvement Effects 0.000 description 3
- 238000007781 pre-processing Methods 0.000 description 2
- 230000008859 change Effects 0.000 description 1
- 230000007613 environmental effect Effects 0.000 description 1
- 230000009467 reduction Effects 0.000 description 1
- 230000004044 response Effects 0.000 description 1
- 230000005236 sound signal Effects 0.000 description 1
- 230000002195 synergetic effect Effects 0.000 description 1
- 210000003437 trachea Anatomy 0.000 description 1
- 230000009466 transformation Effects 0.000 description 1
- 238000012795 verification Methods 0.000 description 1
Images
Classifications
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L15/00—Speech recognition
- G10L15/06—Creation of reference templates; Training of speech recognition systems, e.g. adaptation to the characteristics of the speaker's voice
- G10L15/065—Adaptation
- G10L15/07—Adaptation to the speaker
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L15/00—Speech recognition
- G10L15/20—Speech recognition techniques specially adapted for robustness in adverse environments, e.g. in noise, of stress induced speech
Landscapes
- Engineering & Computer Science (AREA)
- Computational Linguistics (AREA)
- Health & Medical Sciences (AREA)
- Audiology, Speech & Language Pathology (AREA)
- Human Computer Interaction (AREA)
- Physics & Mathematics (AREA)
- Acoustics & Sound (AREA)
- Multimedia (AREA)
- Artificial Intelligence (AREA)
- Circuit For Audible Band Transducer (AREA)
- Machine Translation (AREA)
- Navigation (AREA)
Description
【発明の属する技術分野】
本発明は、例えば雑音適応及び話者適応等によって音声認識を行う音声認識装置及び音声認識方法に関するものである。
【0002】
【従来の技術】
音声認識の難しさの主たる原因として、一般に、音声認識すべき発話音声に背景雑音が加わっていること、及び発話者の発声気管や発話習慣などに起因する個人差があることなど上げられている。
【0003】
こうした変動要因を含んだ発話音声に基づいてロバスト(頑強)な音声認識を実現するため、HMM合成法あるいはPMC法と呼ばれる音声認識方法が研究されている(例えば、非特許文献1参照)。
【0004】
このHMM(Hidden Markov Model)合成法あるいはPMC(Parallel Model Combination)法では、実際に音声認識を行う前の前処理段階において、標準の初期音声モデル(初期音声HMM)と、背景雑音から生成した雑音モデル(発話環境雑音HMM)とを合成することによって、雑音適応を施した合成音声モデルとしての雑音適応音声モデル(雑音適応音声HMM)を生成する。
【0005】
そして、実際の音声認識に際して、発話者が発話したときの背景雑音を含んだ発話音声をケプストラム変換することによって得られる特徴ベクトル系列と、前処理段階で生成しておいた雑音適応音声モデルとを照合し、最大尤度の得られる雑音適応音声モデル等を音声認識結果として出力することとしている。
【0006】
【非特許文献1】
本間茂,高橋純一,嵯峨山茂樹、「バッチディクテーションのための教師なし話者適応」、日本音響学会講演論文集、平成8年3月、p.57−58
【0007】
【発明が解決しようとする課題】
ところが、従来の音声認識方法では、照合対象とすべき雑音適応音声モデル(雑音適応音声HMM)を得るために、その全ての初期音声モデルに対して雑音適応を行う必要があり、処理量が非常に多くなるという問題があった。
【0008】
また、上述したように非常に多くの処理量が必要になることから例えば初期音声モデルの種類を多くすることが困難となり、そのため、処理速度を優先する必要上、認識性能の向上を犠牲にしなければならない等の問題があった。
【0009】
本発明は上記従来の問題点に鑑みてなされたものであり、例えば初期音声モデルに対して雑音適応及び話者適応等を行う際の処理量を低減し得る音声認識装置と音声認識方法を提供することを目的とする。
【0010】
【課題を解決するための手段】
請求項1に記載の発明は、雑音適応と話者適応とを施した合成音声モデルと、発話時の発話音声より求まる特徴ベクトル系列とを照合することによって音声認識を行う音声認識装置において、グループ化又はクラスタリングにより、多数の音声モデルを類似性に基づいて複数のグループに分類し、当該グループ化又はクラスタリングにより同一グループに属することとなる各グループ毎の音声モデルの中から代表として求められた各グループの代表音声モデルと、前記各グループに属する音声モデルと前記代表音声モデルとの差分を前記各同一グループ毎に求めることによって得られる各グループに属する差分モデルと、前記代表音声モデルと差分モデルとを前記同一グループ毎に対応付けるグループ情報とを予め記憶する記憶手段と、前記記憶手段に記憶されている前記同一グループ毎の代表音声モデルに対し雑音適応を施すことにより、雑音適応代表音声モデルを生成する雑音適応代表音声モデル生成手段と、前記各グループに属している前記差分モデルと前記雑音適応代表音声モデルとを、前記グループ情報に基づいて前記同一グループ毎に合成することにより、前記同一グループ毎の合成音声モデルを生成する合成音声モデル生成手段と、前記雑音適応を施した前記同一グループ毎の合成音声モデルに対し、発話音声より求まる特徴ベクトル系列によって話者適応を施すことにより、雑音話者適応音声モデルを生成する更新モデル生成手段と、前記雑音話者適応音声モデルと、前記グループ情報に基づいて選択した前記雑音話者適応音声モデルの属するグループの前記雑音適応代表音声モデルとの差分から前記同一グループ毎の更新差分モデルを生成すると共に、当該生成した更新差分モデルで前記記憶手段の前記同一グループ毎の差分モデルを更新するモデル更新手段とを具備し、音声認識に際して、前記グループ情報に基づいて選択した前記更新差分モデルの属するグループの前記代表音声モデルに雑音適応を施すことにより雑音適応代表音声モデルを生成すると共に、当該雑音適応代表音声モデルと前記更新された更新差分モデルとを合成することで雑音適応及び話者適応を施した合成音声モデルを生成して、当該合成音声モデルと認識すべき話者音声より求まる特徴ベクトル系列とを照合することによって前記音声認識を行うことを特徴とする。
【0011】
請求項2に記載の発明は、雑音適応と話者適応とを施した合成音声モデルと、発話時の発話音声より求まる特徴ベクトル系列とを照合することによって音声認識を行う音声認識装置において、グループ化又はクラスタリングにより、多数の音声モデルを類似性に基づいて複数のグループに分類し、当該グループ化又はクラスタリングにより同一グループに属することとなる各グループ毎の音声モデルの中から代表として求められた各グループの代表音声モデルと、前記各グループに属する音声モデルと前記代表音声モデルとの差分を前記各同一グループ毎に求めることによって得られる各グループに属する差分モデルと、前記代表音声モデルと差分モデルとを前記同一グループ毎に対応付けるグループ情報とを予め記憶する記憶手段と、前記記憶手段に記憶されている前記同一グループ毎の代表音声モデルに対し雑音適応を施すことにより、雑音適応代表音声モデルを生成する雑音適応代表音声モデル生成手段と、前記各グループに属している前記差分モデルと前記雑音適応代表音声モデルとを、前記グループ情報に基づいて前記同一グループ毎に合成することにより、前記同一グループ毎の合成音声モデルを生成する合成音声モデル生成手段と、前記合成音声モデル生成手段で生成される合成音声モデルと、認識すべき話者音声より求まる特徴ベクトル系列とを照合することにより音声認識を行う認識処理手段と、前記同一グループ毎の合成音声モデルに対して前記話者音声より求まる特徴ベクトル系列によって話者適応を施すことにより、雑音適応と話者適応を施した雑音話者適応音声モデルを生成する更新モデル生成手段と、前記雑音話者適応音声モデルと、前記グループ情報に基づいて選択した前記雑音話者適応音声モデルの属するグループの前記雑音適応代表音声モデルとの差分から前記同一グループ毎の更新差分モデルを生成すると共に、当該生成した更新差分モデルで前記記憶手段の前記同一グループ毎の差分モデルを更新するモデル更新手段とを具備し、前記認識処理手段は、音声認識が繰り返される度に前記更新モデル生成手段とモデル更新手段とによって更新される前記更新差分モデルと前記グループ情報に基づいて選択された前記更新差分モデルの属するグループの前記代表音声モデルに雑音適応を施すことで生成された雑音適応代表音声モデルとを合成することで得られる雑音適応及び話者適応が施された合成音声モデルと、認識すべき話者音声より求まる特徴ベクトル系列とを照合することにより前記音声認識を行うことを特徴とする。
【0012】
請求項4に記載の発明は、雑音適応と話者適応とを施した合成音声モデルと、発話時の発話音声より求まる特徴ベクトル系列とを照合することによって音声認識を行う音声認識方法において、グループ化又はクラスタリングにより、多数の音声モデルを類似性に基づいて複数のグループに分類し、当該グループ化又はクラスタリングにより同一グループに属することとなる各グループ毎の音声モデルの中から代表として求められた各グループの代表音声モデルと、前記各グループに属する音声モデルと前記代表音声モデルとの差分を前記各同一グループ毎に求めることによって得られる各グループに属する差分モデルと、前記代表音声モデルと差分モデルとを前記同一グループ毎に対応付けるグループ情報とを予め記憶手段に記憶させ、前記記憶手段に記憶されている前記同一グループ毎の代表音声モデルに対し雑音適応を施すことにより、雑音適応代表音声モデルを生成する雑音適応代表音声モデル生成工程と、前記各グループに属している前記差分モデルと前記雑音適応代表音声モデルとを、前記グループ情報に基づいて前記同一グループ毎に合成することにより、前記同一グループ毎の合成音声モデルを生成する合成音声モデル生成工程と、前記雑音適応を施した前記同一グループ毎の合成音声モデルに対し、発話音声より求まる特徴ベクトル系列によって話者適応を施すことにより、雑音話者適応音声モデルを生成する更新モデル生成工程と、前記雑音話者適応音声モデルと、前記グループ情報に基づいて選択した前記雑音話者適応音声モデルの属するグループの前記雑音適応代表音声モデルとの差分から前記同一グループ毎の更新差分モデルを生成すると共に、当該生成した更新差分モデルで前記記憶手段の前記同一グループ毎の差分モデルを更新するモデル更新工程とを具備し、音声認識に際して、前記グループ情報に基づいて選択した前記更新差分モデルの属するグループの前記代表音声モデルに雑音適応を施すことにより雑音適応代表音声モデルを生成すると共に、当該雑音適応代表音声モデルと前記更新された更新差分モデルとを合成することで雑音適応及び話者適応を施した合成音声モデルを生成して、当該合成音声モデルと認識すべき話者音声より求まる特徴ベクトル系列とを照合することによって前記音声認識を行うことを特徴とする。
【0013】
請求項5に記載の発明は、雑音適応と話者適応とを施した合成音声モデルと、発話時の発話音声より求まる特徴ベクトル系列とを照合することによって音声認識を行う音声認識方法において、グループ化又はクラスタリングにより、多数の音声モデルを類似性に基づいて複数のグループに分類し、当該グループ化又はクラスタリングにより同一グループに属することとなる各グループ毎の音声モデルの中から代表として求められた各グループの代表音声モデルと、前記各グループに属する音声モデルと前記代表音声モデルとの差分を前記各同一グループ毎に求めることによって得られる各グループに属する差分モデルと、前記代表音声モデルと差分モデルとを前記同一グループ毎に対応付けるグループ情報とを予め記憶手段に記憶させ、前記記憶手段に記憶されている前記同一グループ毎の代表音声モデルに対し雑音適応を施すことにより、雑音適応代表音声モデルを生成する雑音適応代表音声モデル生成工程と、前記各グループに属している前記差分モデルと前記雑音適応代表音声モデルとを、前記グループ情報に基づいて前記同一グループ毎に合成することにより、前記同一グループ毎の合成音声モデルを生成する合成音声モデル生成工程と、前記合成音声モデル生成工程で生成される合成音声モデルと、認識すべき話者音声より求まる特徴ベクトル系列とを照合することにより音声認識を行う認識処理工程と、前記同一グループ毎の合成音声モデルに対して前記話者音声より求まる特徴ベクトル系列によって話者適応を施すことにより、雑音適応と話者適応を施した雑音話者適応音声モデルを生成する更新モデル生成工程と、前記雑音話者適応音声モデルと、前記グループ情報に基づいて選択した前記雑音話者適応音声モデルの属するグループの前記雑音適応代表音声モデルとの差分から前記同一グループ毎の更新差分モデルを生成すると共に、当該生成した更新差分モデルで前記記憶手段の前記同一グループ毎の差分モデルを更新するモデル更新工程とを具備し、前記認識処理工程は、音声認識が繰り返される度に前記更新モデル生成工程とモデル更新工程とによって更新される前記更新差分モデルと前記グループ情報に基づいて選択された前記更新差分モデルの属するグループの前記代表音声モデルに雑音適応を施すことで生成された雑音適応代表音声モデルとを合成することで得られる雑音適応及び話者適応が施された合成音声モデルと、認識すべき話者音声より求まる特徴ベクトル系列とを照合することにより前記音声認識を行うことを特徴とする。
【0014】
【発明の実施の形態】
以下、本発明の好適な実施の形態を図面を参照して説明する。
【0015】
(第1の実施の形態)
本発明の第1の実施の形態を図1乃至図7を参照して説明する。なお、図1は、本実施形態の音声認識装置の構成を示すブロック図である。
【0016】
図1において、本音声認識装置は、HMMを用いて音声認識を行う構成となっており、音声認識に利用する音声モデルのデータが予め記憶されている記憶部1と、話者環境雑音モデル生成部2、雑音適応代表音声モデル生成部3、合成音声モデル生成部4、更新モデル生成部5、モデル更新部6、認識処理部7を備えて構成されている。
【0017】
更に、マイクロフォン8で収音された収音信号v(t)を所定のフレーム期間毎にケプストラム変換し、ケプストラム領域の特徴ベクトル系列V(n)を生成して出力する音声分析部9と、切替スイッチ10が備えられている。
【0018】
記憶部1には、予め、標準的な話者音声を学習することによって生成された音素等のサブワード単位での多数の音声モデル等が記憶されている。
【0019】
ただし、詳細については以下の説明で明らかとなるが、一般に言われている多数の初期音声モデル(標準的な話者音声を学習しただけで得られた音声モデル)がそのままの形態で記憶されているのではなく、多数の初期音声モデルの各分布(平均ベクトルと共分散行列)に対してグループ化或いはクラスタリングを施すことによって求めた、代表音声モデルの分布(C)と差分モデルの分布(D)が、代表音声モデル記憶部1aと差分モデル記憶部1bに夫々グループ分けして記憶されている。
【0020】
すなわち、上述のクラスタリング等によって、多数の初期音声モデルがX個(x=X)のグループG1〜GXに分けられたとすると、第1番目(x=1)のグループG1に属することとなった例えばq1個(qx=q1)の初期音声モデルS1,1〜S1,q1から、1つの代表音声モデルC1とq1個の差分モデルd1,1〜d1,q1を求める。
【0021】
また、第2番目(x=2)のグループに属することとなった例えばq2個(qx=q2)の初期音声モデルS2,1〜S2,q2から、1つの代表音声モデルC2とq2個の差分モデルd2,1〜d2,q2を求め、以下同様に、第X番目(x=X)のグループに属することとなった例えばqX個(qx=qX)の初期音声モデルSX,1〜SX,qXから、1つの代表音声モデルCXと、qX個の差分モデルdX,1〜dX,qXを求める。
【0022】
そして、図1に示すように、グループG1〜GXに属する夫々1個ずつの代表音声モデルC1〜CXがグループ分けして代表音声モデル記憶部1aに記憶され、更に、代表音声モデルC1に対応するq1個の差分モデルd1,1〜d1,q1と、代表音声モデルC2に対応するq2個の差分モデルd2,1〜d2,q2と、最後の代表音声モデルCXに対応するqX個の差分モデルdX,1〜dX,qXまでの夫々の差分モデルが、各グループに対応付けられて差分モデル記憶部1bに記憶されている。
【0023】
なお、紙面の都合上、図1には、グループG1の代表音声モデルC1に対応するq1個の差分モデルd1,1〜d1,q1を符号D1で示し、グループG2の代表音声モデルC2に対応するq2個の差分モデルd2,1〜d2,q2を符号D2で示し、以下同様に、グループGxの代表音声モデルCxに対応するqx個の差分モデルdx,1〜dx,qxを符号Dxで示している。
【0024】
更に、代表音声モデル記憶部1aに記憶された代表音声モデルC1,C2…Cx…と、差分モデル記憶部1bに記憶された差分モデルD1,D2…Dx…とを対応付けて管理するためのグループ情報が、グループ情報記憶部1cに記憶されている。
【0025】
図2は、既述したX個(x=X)のグループG1〜GXに対応する代表音声モデルC1〜CXと、それら代表音声モデルC1〜CXに対応する差分モデルD1〜DXの生成原理を概念的に示した図であり、同図を参照してその生成原理を説明することとする。
【0026】
まず、既述した多数の初期音声モデル(初期音声HMM)の分布Sをグループ化或いはクラスタリングすることで、類似した初期音声モデル毎にグループ分けし、更に上述のグループ情報を作成する。
【0027】
ここで、グループ化の方法として、LBG法やスプリット法などのクラスタリング手法を用い、初期音声モデルの各分布の平均ベクトルの類似性に基づいてクラスタリングを行う。
【0028】
また、例えば母音モデルと子音モデルの2つのグループに分けるというように、各モデルに対応する音韻の類似性などの事前情報に基づいてグループ分けを行うようにしてもよい。
【0029】
また、これら前者の手法と後者の手法を併用して、初期音声モデルをグループ分けしてもよい。
こうしてクラスタリングすると、図2に模式的に示すようなグループ分けが可能となる。
【0030】
すなわち、図2において、例えば第x番目のグループGxに属することとなった音声モデルを例示列挙すれば、グループGxに属する第1番目の音声モデルをSx,1で表すと、その平均ベクトルμSx,1と共分散行列σdx,1(=σSx,1)から成る分布が音声モデルSx,1であり、第2番目の音声モデルをSx,2で表すと、その平均ベクトルμSx,2と共分散行列σdx,2(=σSx,2)から成る分布が音声モデルSx,2であり、以下同様に、第x番目の音声モデルをSx,qxで表すと、その平均ベクトルμSx,qxと共分散行列σdx,qx(=σSx,qx)から成る分布が音声モデルSx,qxとなる。
【0031】
また、他のグループG1,G2等に属することとなった音声モデルについても同様に、平均ベクトルと共分散行列から成る分布が音声モデルである。
【0032】
次に、各グループG1〜GXについての各代表音声モデルC1〜CXの求め方を説明する。なお、説明に便宜上、図2中に示す第x番目のグル−プGx の代表音声モデルCxを求める場合を代表して説明することとする。
【0033】
代表音声モデルCxは、図2中に示す基点Qから伸びる平均ベクトルμCxと、その平均ベクトルμCxに対する共分散行列σCxの分布(図中楕円で示す)として求める。
【0034】
したがって、代表音声モデルCxを、Cx(μCx,σCx)で表すこととすると、まず、平均ベクトルμCxは、
【数1】
によって求める。
【0035】
更に、共分散行列σCxは、
【数2】
より求める。
【0036】
なお、上記式(1)(2)において、変数xは、第x番目のグループGxであることを示し、変数yは、グループGxに属する各音声モデルSx,y(1≦y≦qx)を示し、変数qxは、グループGxに属することとなった音声モデルSx,yの総数を示している。
【0037】
そして、他のグループG1,G2等に属する音声モデルについても上記式(1)(2)に適用し、夫々のグループの平均ベクトルと共分散行列を演算することにより、他のグループの代表音声モデルを求める。
【0038】
次に、各グループG1〜GXに対応する差分モデルD1〜DXを次式(3)(4)に基づいて演算する。
【0039】
説明の便宜上、図2中に示す第x番目のグル−プGx の差分モデルDx、すなわち、dx,1,dx,2 〜dx,qx を求める場合を代表して述べると、
【数3】
によって、平均ベクトルμdx,yを求める。更に、
【数4】
によって共分散行列σdx,yを求める。
【0040】
なお、上記式(3)(4)中の変数xは、第x番目のグループGxであることを示し、変数yは、グループGxに属する各音声モデルSx,y(1≦y≦qx)を示し、変数qxは、グループGxに属することとなった音声モデルSx,yの総数を示している。
【0041】
そして、上記式(3)(4)より得られた平均ベクトルμdx,yと共分散行列σdx,yを差分ベクトルdx,yとする。
【0042】
より具体的に述べれば、差分モデルdx,1は、平均ベクトルμdx,1と共分散行列σdx,1との分布、差分モデルdx,2は、平均ベクトルμdx,2と共分散行列σdx,2との分布、以下同様に、差分モデルdx,y(y=qx)は、平均ベクトルμdx,yと共分散行列σdx,yとの分布となり、それによって総計qx個の差分モデルdx,1〜dx,yを求めることになる。
【0043】
こうして求めた代表音声モデルC1〜CXと、差分モデルD1(d1,1〜d1,q1)〜DX(dX,1〜dX,qX)が、各グループG1〜GXに対応付けられて、代表音声モデル記憶部1aと差分モデル記憶部1bに予め記憶されている。
【0044】
したがって、より一般的に表現すれば、図3に模式的に示すように、第x番目のグループGxに属する第y番目の差分モデルdx,yと、その差分モデルdx,yの属するグループGxの代表音声分布Cxとを合成することにより、差分モデルdx,yに対応する初期音声モデルSx,yが求まるという関係に基づいて、各グループGx(1≦x≦X)の代表音声モデルCx(1≦x≦X)と差分モデルDx(1≦x≦X)が記憶部1a,1bに記憶され、更にグループ情報によってグループ毎に対応付けて管理されている。
【0045】
なお、本実施形態では、平均ベクトルに対しては加算、共分散行列に対しては単なる置き換えとすることで、上述した合成を実現することとしている。すなわち、
【数5】
で表される関係式に従った合成処理によって、上述の合成を行うこととしている。
【0046】
なお、理解し易くするために、説明の便宜上、初期音声モデルの各分布Sx,yはグループxのy番目の分布という番号付けを行って識別したが、実際には各HMMに対応付けられている。よって、差分モデルの各分布も同じように各HMMに対応付けられて記憶される。
【0047】
そして、各音声HMMに対応付けられて記憶されている初期音声モデルの各分布とその分布の属するグループとの対応関係を表すグループ情報Bもグループ情報記憶部1cに記憶されている。
【0048】
例えば、HMM番号iの状態jの混合kの初期音声モデルの分布をSm ijkとし、それに対応する各差分モデルをdm ijkとし、更に初期音声モデルの分布Sm ijkと各差分モデルdm ijkの属するクラスタをβとすると、グループ情報Bm ijkは分布Sm ijkがどのグループに属しているかを示す情報であり、
【数6】
となっている。
【0049】
これにより、初期音声モデル及び差分モデルとその属するグループとの対応関係が、クラスタ情報Bmによって得られるようになっている。
【0050】
また、後述する雑音適応代表音声モデル生成部3での雑音適応手法としてヤコビ適応手法を用いており、予め作成した初期雑音モデル(便宜上Nsとする)と上述した各グループの代表音声モデルCとをHMM合成法により合成した初期合成音声モデルで代表音声モデルCを更新記憶する。
【0051】
さらに初期雑音モデルNsと、更新記憶された各グループの代表音声モデルCと初期雑音モデルNsとから求めた各グループのヤコビ行列Jとを記憶し、後述する雑音適応代表音声モデル生成部3に供給する。
【0052】
次に、発話環境雑音モデル生成部2は、発話環境で生じる非発話期間での背景雑音に基づいて発話環境雑音モデル(発話環境雑音HMM)Nを生成する。
【0053】
すなわち、発話者が未だ発話を行っていない非発話期間に、発話環境で生じる背景雑音をマイクロフォン8が収音する。そして、音声分析部9がその収音信号v(t)から所定フレーム期間毎の背景雑音の特徴ベクトル系列V(n)を生成し、更に切替スイッチ10が発話環境雑音モデル生成部2側に切替わることによって、その特徴ベクトル系列V(n)が背景雑音の特徴ベクトル系列N(n)’として発話環境雑音モデル生成部2に入力される。そして、発話環境雑音モデル生成部2が、特徴ベクトル系列N(n)’を学習することによって、既述した発話環境雑音モデルNを生成する。
【0054】
雑音適応代表音声モデル生成部3は、代表音声モデル記憶部1aに記憶されている代表音声モデルC1〜CXに対して発話環境雑音モデルNで雑音適応を施し、それによって各グループG1〜GXに対応する雑音適応代表音声モデル(雑音適応代表音声HMM)C1 N 〜CX Nを生成して合成音声モデル生成部4へ供給する。
【0055】
ここで、雑音適応の手法としては、一具体例として、HMM合成法やヤコビ適応手法等を適用して、上記代表音声モデルの分布に発話環境雑音を重畳する、いわゆる雑音適応手法を用いる。
【0056】
HMM合成法の場合は、発話環境雑音モデルNと各グループの代表音声モデルCxとを用いて各グループの雑音適応代表音声モデルCx Nを算出する。
【0057】
ヤコビ適応手法の場合は前述のように、初期合成モデルで更新記憶されている各グループの代表音声モデルCxと初期雑音Nsと発話環境雑音モデルNと各グループのヤコビ行列Jとを用いて雑音適応代表音声モデルCx Nを求める。
【0058】
より一般的に、グループGxの代表音声モデルCxに対し雑音適応を行う場合を述べると、背景雑音を定常と仮定し雑音モデルNを1状態・1混合のモデルとした場合、上述のようにHMM合成法やヤコビ適応手法を用いた雑音適応処理により、代表音声モデルCxは雑音適応代表音声モデルCx Nに雑音適応され、その平均ベクトルはμCx Nに、共分散行列はσCx Nにそれぞれ変換される。
【0059】
雑音モデルNを2状態以上あるいは2混合以上とすると、代表音声モデルCxは2つ以上の雑音適応分布に対応することになるが、その場合、代表音声モデルCxは、Cx,1 N,Cx,2 N,……に対応することになる。
【0060】
次に、合成音声モデル生成部4は、差分モデル記憶部1bに記憶されている各差分モデル(図中、Dで示す)と既述した各雑音適応代表音声モデル(図中、CNで示す)とを各グループG1〜GXに対応させて合成することにより、複数個の合成音声モデル(合成音声HMM)Mを生成する。
【0061】
すなわち、一般的表現で述べると、雑音適応代表音声モデル生成部3において各グループGx(1≦x≦X)に対応する雑音適応代表音声モデルCx N(1≦x≦X)が生成されると、合成音声モデル生成部4は、グループGxの雑音適応代表音声モデルCx N(1≦x≦X)に、既述した差分モデルdx,1〜dx,y(y=qx)を合成することにより、初期音声モデルSx,1〜Sx,yに対して雑音適応を施したのと等価な複数個qxの合成音声モデルMx,1〜Mx,yを生成する。
【0062】
図4は、こうして生成される複数の合成音声モデルMの構成を模式的に示した図であり、代表例として、グループGxに属する代表音声モデルCxと差分モデルd1,1〜d1,y(y=qx)から生成される合成音声モデルM1,1〜M1,yの構成を示している。
【0063】
なお、図4は、理解し易くするため、上述の共分散行列を考慮せずに合成を行ったものとして簡略化して示されている。
【0064】
まず、合成音声モデルMx,yの平均ベクトルをμMx,y、共分散行列をσMx,yとする。ここで、雑音適応代表音声モデルと初期音声モデルとの合成方法として、雑音適応による代表音声モデルの分散の変動を考慮しない場合、合成音声モデルMx,yの平均ベクトルμMx,yと共分散行列σMx,yを、
【数7】
によって求める。また、雑音適応による代表音声モデルの共分散行列の変動も考虞する場合には、合成音声モデルMx,yの平均ベクトルμMx,yと共分散行列σMx,yを、
【数8】
によって求める。
【0065】
ただし、音声認識性能への影響の最も大きい要因は、分布の平均ベクトルμMx,yであることから、共分散行列の分散の適応を行わない上記式(8)(9)に基づいて、合成音声モデルMx,yの平均ベクトルμMx,yと共分散行列σMx,yを求める。本実施形態では、上記式(8)(9)に基づいて合成音声モデルMx,yの平均ベクトルμMx,yと共分散行列σMx,yを求めており、それにより演算の処理量を低減しつつ、雑音適応性能を得ることを可能にしている。
【0066】
なお、詳細については後述するが、差分モデル記憶部1bに記憶されている差分モデルD1(d1,1〜d1,q1),D2(d2,1〜d2,q2)…Dx(dx,1〜dx,qx)…は、更新モデル生成部5とモデル更新部6で生成される更新差分モデルによって更新されるようになっている。
【0067】
このため説明の便宜上、図1中には、更新前の差分モデルをD、更新後の差分モデルをD”で示すと共に、更新前の差分モデルDと雑音適応代表音声モデルCNとで合成される合成音声モデルをMとし、更新差分モデルD”と雑音適応代表音声モデルCNとで合成される合成音声モデルをM”として示している。
【0068】
次に、更新モデル生成部5は、MLLRやMAP法などの話者適応法によって、合成音声モデルMを特徴ベクトル系列V(n)で話者適応し、それによって雑音話者適応音声モデル(雑音話者適応音声HMM)Rを生成する。
【0069】
すなわち本実施形態では、話者適応に際して、話者適応を行うのに好適なテキスト文章等を話者に読み上げてもらう。
【0070】
更新モデル生成部5は、その発話期間にマイクロフォン8で収音され音声分析部9から出力される発話音声の特徴を有する所定フレーム期間毎の特徴ベクトル系列V(n)を切替スイッチ10を介して入力(図1中、点線で示す経路を通じて入力)すると共に、合成音声モデル生成部4で生成された合成音声モデルMを、図1中の点線で示す経路を通じて入力する。そして、入力した特徴ベクトル系列V(n)によって合成音声モデルMに話者適応を施すことで、雑音話者適応音声モデルRを生成する。
【0071】
図5は、この雑音話者適応音声モデルRの生成原理を示した模式図であり、代表例として、グループGxに属する代表音声モデルCxと差分モデルDx(dx,1〜dx,y)との合成を上記式(8)(9)に基づいて行い、それによって得られる合成音声モデルMx,1〜Mx,y から雑音話者適応音声モデルRx,1〜Rx,yを生成する場合について示している。なお、説明の便宜上、共分散行列については示されていない。
【0072】
つまり、上記式(8)(9)の演算を行うことにより、平均ベクトルμRx,1と共分散行列σRx,1(図示省略)の分布から成る雑音話者適応音声モデルRx,1と、平均ベクトルμRx,2と共分散行列σRx,2(図示省略)の分布から成る雑音話者適応音声モデルRx,2と、以下同様に、平均ベクトルμRx,yと共分散行列σRx,y(図示省略)の分布から成る雑音話者適応音声モデルRx,yを生成する。
【0073】
そして、残余のグループG1,G2…等に属する雑音話者適応音声モデルについても上記式(8)(9)に基づいて生成し、得られた全ての雑音話者適応音声モデルRをモデル更新部6に供給する。
【0074】
モデル更新部6は、更新モデル生成部5で生成された雑音話者適応音声モデルRと、雑音適応代表音声モデル生成部3で生成された雑音適応代表音声モデルCNと、差分モデル記憶部1b中の更新前の差分モデルDとを用いて、話者適応を施した更新差分モデルD”を生成し、その更新差分モデルD”で更新前の差分モデルDを更新する。
【0075】
グループGxに属する雑音話者適応音声モデルRxと雑音適応代表音声モデルCx Nと更新前の差分モデルDxに対応して求められる更新差分モデルDx”の生成原理を代表して説明すると、更新差分モデルDx”、すなわちdx,1”〜dx,y”の各平均ベクトルをμdx,1”〜μdx,y”、共分散行列をdx,1”〜dx,y”は、
【数9】
によって求める。
【0076】
なお、上記式(12)(13)は共分散行列の雑音適応を行う場合の手法を示したものであり、共分散行列の雑音適応を行わない場合には、
【数10】
によって求める。
【0077】
また、共分散行列の話者適応も行わない場合には、
【数11】
より求める。
【0078】
話者適応では、平均べクトルの適応効果は大きいが共分散行列の適応効果は小さい。そのため、上記式(16)(17)に示した手法により、更新差分モデルdx,1”〜dx,y”の各平均ベクトルμdx,1”〜μdx,y”と共分散行列σdx,1”〜σdx,y”を求めることで、演算量を低減しつつ、話者適応効果を得ることができる。このため、本実施形態では、上記式(16)(17)に基づいて更新差分モデルdx,1”〜dx,y”を求めることとしている。
【0079】
尚、上記式(16)(17)中の係数αx,yは、雑音話者適応音声モデルRx,yと合成音声モデルMx,yから求まる更新差分ベクトルdx,yを適宜調整するための重み係数であり、0.0≦αx,y≦1.0の範囲に決められている。
【0080】
また、この重み係数αx,yは、予め上記範囲内の所定値に固定してもよいが、MAP推定法の重み係数のように適応が行われるたびに変更することも可能である。
【0081】
そして、図5を引用してグループGxに属する更新差分モデルdx,1”〜dx,y”を述べると、更新差分モデルdx,1”は、上記式(16)中の右辺第1項から得られるベクトルαx,1・(μRx,1 −μCx N )と第2項から得られるベクトル(1−αx,1)・μdx,1とのベクトル和によって得られる平均ベクトルμdx,1”と、上記式(17)から得られる共分散行列σx,1から成る分布として求まる。また、残余の更新差分モデルについても同様にして求まる。
【0082】
そして、モデル更新部6は、全てのグループG1〜GXについての更新差分モデルD1”〜DX”を求めると、記憶部1bに記憶されている更新前の差分モデルD1〜DXを更新差分モデルD1”〜DX”で更新し記憶させる。
【0083】
次に、認識処理部7は、既述した差分モデル記憶部1bが更新差分モデルD”によって更新された後、実際の音声認識が開始されるのに伴って、話者が発話した発話音声を音声認識する。
【0084】
すなわち、音声認識の処理を開始すると、非発話期間内に合成音声モデル生成部4が、雑音適応代表音声モデル生成部3で生成される雑音適応代表音声モデルCNと更新差分モデルD”とを合成することによって、雑音適応及び話者適応を施した全グループG1〜GXの合成音声モデルM”を生成する。
【0085】
次に、話者が発話するとその発話期間に、背景雑音を含んだ話者音声の特徴ベクトル系列V(n)を音声分析部9が生成し切替スイッチ10を介して認識処理部7に供給する。
【0086】
こうして特徴ベクトル系列V(n)が供給されると、音声認識部7は、特徴ベクトル系列V(n)と、合成音声モデルM”より生成された単語や文のモデル系列とを照合し、最も高い尤度が得られる合成音声モデルM”のモデル系列を認識結果として出力する。
【0087】
次に、図6及び図7のフローチャートを参照して本音声認識装置の動作を説明する。
【0088】
なお、図6は、音声認識を行う前に、更新差分モデルD”を生成して差分モデルDを更新する動作、図7は、更新差分モデルD”を用いて音声認識を行う際の動作を示している。
【0089】
図6において、更新処理を開始すると、まずステップS100において、雑音適応代表音声モデル生成部3が代表音声モデルCに雑音適応を施すことにより、雑音適応代表音声モデルCNを生成する。
【0090】
すなわち、非発話期間に収音される背景雑音の特徴ベクトル系列N(n)’が音声分析部9から発話環境雑音モデル生成部2に供給され、発話環境雑音モデル生成部2がその特徴ベクトル系列N(n)’を学習することによって発話環境雑音モデルNを生成する。
【0091】
そして、雑音適応代表音声モデル生成部3が、この発話環境雑音モデルNによって代表音声モデルCを雑音適応することにより、雑音適応代表音声モデルCNを生成する。
【0092】
次に、ステップS102において、合成音声モデル生成部4が、上記の雑音適応代表音声モデルCNと更新前の差分モデルdとを合成することにより、合成音声モデルMを生成する。
【0093】
したがって、ステップS102では、図4に示したように雑音適応の施された合成音声モデルMが生成され、未だ話者適応は施されない。
【0094】
次に、ステップS104において、更新モデル生成部5が、発話者の発した発話音声に基づいて合成音声モデルMを話者適応する。
【0095】
つまり、話者がテキスト文章等を読み上げ、その発話期間に音声分析部9から切替スイッチ10を介して発話音声の特徴ベクトル系列V(n)が更新モデル生成部5に供給されると、更新モデル生成部5がその特徴ベクトル系列V(n)によって合成音声モデルMを話者適応して、雑音話者適応音声モデルRを生成する。
【0096】
したがって、ステップS104では、図5に示したように雑音適応と話者適応とが施された雑音話者適応音声モデルRが生成される。
【0097】
次に、ステップS106において、モデル更新部6が雑音話者適応音声モデルRと雑音適応代表音声モデルCNと更新前の差分モデルDから、雑音適応と話者適応とが施された更新差分モデルD”を生成する。
【0098】
次に、ステップS108において、モデル更新部6が差分モデル記憶部1bの差分モデル(更新前の差分モデル)Dを更新差分モデルD”で更新した後、更新処理を完了する。
【0099】
このように、いわゆる初期音声モデルに対して雑音適応と話者適応を行うのではなく、代表音声モデルCについてだけ雑音適応を行い、それによって得られる雑音適応代表音声モデルCNと差分モデルDとを合成することで合成音声モデルMを生成して話者適応を施すので、雑音適応と話者適応に要する処理量を大幅に削減することができる。
【0100】
更に、この更新処理の際、雑音適応と話者適応を施した更新差分モデルD”を生成して差分モデル記憶部1bの内容を更新しておくので、次に述べる音声認識の際の処理量も大幅に低減することができ、迅速な音声認識を可能にする。
【0101】
次に、図7を参照して音声認識の際の動作を説明する。
【0102】
同図において話者からの指示を受けると音声認識の処理を開始し、ステップS200において、雑音適応代表音声モデル生成部3が記憶部1a中の代表音声モデルCを雑音適応することにより、雑音適応代表音声モデルCNを生成する。
【0103】
つまり、未だ話者が発話していない非発話期間内に、音声分析部9から出力される背景雑音の特徴ベクトル系列N(n)’を発話環境雑音モデル生成部2が学習して発話環境雑音モデルNを生成すると、雑音適応代表音声モデル生成部3がその発話環境雑音モデルNによって代表音声モデルCを雑音適応し、雑音適応代表音声モデルCNを生成する。
【0104】
次に、ステップS202において、合成音声モデル生成部4が雑音適応代表者モデルCNと更新差分モデルD”とを合成し、雑音適応と話者適応とが施された合成音声モデルM”を生成する。
【0105】
次に、ステップS204において、認識処理部7が話者音声の特徴ベクトル系列V(n)と合成音声モデルM”から生成した単語や文のモデルとを照合して音声認識する。
【0106】
つまり、話者が発話を開始すると、切替スイッチ10が認識処理部7側に切り替わり、その発話期間において音声分析部9から出力される背景雑音の重畳した発話音声の特徴ベクトル系列V(n)が認識処理部7に供給される。
【0107】
そして、認識処理部7がこの特徴ベクトル系列V(n)と合成音声モデルM”から生成した単語や文のモデルとを照合し、ステップS206において最大尤度の得られる合成音声モデルM”のモデル系列(上記単語や文に対応するモデル系列)を音声認識結果として出力する。
【0108】
このように、音声認識の際にも、いわゆる初期音声モデルに対して雑音適応と話者適応を行うのではなく、雑音適応代表音声モデルCNと更新差分モデルD”とを合成することで雑音適応と話者適応の施された合成音声モデルM”を生成するので、雑音適応と話者適応に要する処理量を大幅に削減することができる。
【0109】
更に、従来の音声認識では、話者適応を行うこととするとその話者の発話環境の影響によって環境適応も行われてしまうことから、その話者適応と共に環境適応がなされた音響モデルを照合対象として、発話音声の特徴ベクトル系列V(n)との照合を行うことになり、音声認識率の向上を阻害する要因となっていた。
【0110】
しかし、本実施形態によれば、話者適応後の音響モデルを差分モデル化すなわち更新差分モデルD”として生成し、その更新差分モデルD”から照合対象としての合成音声モデルM”を生成するので、環境適応の影響を低減することができる。これにより、雑音適応と話者適応の相乗効果が得られ、より高い音声認識率を実現することができる。
【0111】
(第2の実施の形態)
次に、本発明の第2の実施形態を図8及び図9を参照して説明する。
尚、図8は本実施形態の音声認識装置の構成を示す図であり、図1と同一又は相当する部分を同一符号で示している。
【0112】
図8において、本音声認識装置と第1の実施形態の音声認識装置との差異を述べると、第1の実施形態の音声認識装置では、図6及び図7のフローチャートを参照して説明したように、雑音適応と話者適応とを施した更新差分モデルD”を生成した後、音声認識を行うのに対し、本実施形態の音声認識装置は、音声認識中に更新モデル生成部5とモデル更新部6が更新処理を行うことで、音声認識中に差分モデルD”の生成を同時に行うようになっている。
【0113】
次に、図9のフローチャートに基づいて本音声認識装置の動作を説明する。
【0114】
図9において音声認識処理を開始すると、まずステップS300において、雑音適応代表音声モデル生成部3が代表音声モデルCに雑音適応を施すことにより、雑音適応代表音声モデルCNを生成する。
【0115】
すなわち、話者が未だ発話を開始する前の非発話期間に収音される背景雑音の特徴ベクトル系列N(n)’が音声分析部9から発話環境雑音モデル生成部2に供給され、発話環境雑音モデル生成部2がその特徴ベクトル系列N(n)’を学習することによって発話環境雑音モデルNを生成する。
【0116】
そして、雑音適応代表音声モデル生成部3が、この発話環境雑音モデルNによって代表音声モデルCを雑音適応することにより、雑音適応代表音声モデルCNを生成する。
【0117】
次に、ステップS302において、合成音声モデル生成部4が、上記の雑音適応代表音声モデルCNと更新前の差分モデルDとを合成することにより、合成音声モデルMを生成する。
【0118】
次に、ステップS304において、認識処理部7が話者音声の特徴ベクトル系列V(n)と、合成音声モデルMより生成された単語や文のモデル系列とを照合して音声認識する。
【0119】
つまり、話者が発話を開始すると、切替スイッチ10が認識処理部7側に切り替わり、その発話期間において音声分析部9から出力される発話音声の特徴ベクトル系列V(n)が認識処理部7に供給される。そして、認識処理部7がこの特徴ベクトル系列V(n)と合成音声モデルMより生成したモデル系列とを照合し、ステップS306において最大尤度の得られる合成音声モデルMのモデル系列を音声認識結果RCGとして出力する。
【0120】
更にステップS306では、上位候補の尤度情報も同時に出力し、更にその上位候補の尤度値から認識結果の確からしさ(「信頼度」という)を所定の基準に照らして決定する。
【0121】
次に、ステップS308では、上述した信頼度に基づいて、認識結果を正しいと判断し得るか否か判断し、正しい(正解)と判断すると、ステップS310に移行し、正解でない(正解とし得ない)と判断すると、認識終了とする。なお、既述した認識結果の信頼度の計算方法としては、様々な方法があるがここでは省略することとする。
【0122】
次に、ステップS310,S312において、更新モデル生成部5が、既述の合成音声モデルMと発話音声の特徴ベクトル系列V(n)及び音声認識結果RCGを用いて、話者適応を行い、更にモデル更新部6が、更新差分モデルD”を生成して更新前の差分モデルDを更新する。
【0123】
すなわち、まずステップS310において、更新モデル生成部5が、認識されたモデル系列を音声認識結果RCGによって判別し、特徴ベクトル系列V(n)によって合成音声モデルMを話者適応する。
【0124】
これにより、例えば発話者が「東京」と発話し、その単語「東京」の音声認識結果RCGが認識処理部7から出力されると、単語「東京」の合成音声モデルMに対して発話音声「東京」の特徴ベクトル系列V(n)によって話者適応が行われ、雑音適応と話者適応が施された雑音話者適応音声モデルRが生成される。
【0125】
更に、モデル更新部6が雑音話者適応音声モデルRと雑音適応代表音声モデルCNと更新前の差分モデルDから、音声認識結果RCGに対応する更新差分モデルD”を生成する。
【0126】
そしてステップS312において、モデル更新部6が音声認識結果RCGに対応する差分モデル(更新前の差分モデル)Dを更新差分モデルD”で更新する。
【0127】
これにより、前述した音声認識結果RCGが単語「東京」の場合には、その「東京」という単語の更新前の差分モデルDが更新差分モデルD”で更新される。
【0128】
このように、本実施形態の音声認識装置によれば、代表音声モデル記憶部1aと差分モデル記憶部1bに予め設定されている代表音声モデルCと差分モデルDを用いて音声認識を行い、それと同時に雑音適応と話者適応を施した更新差分モデルD”を生成することができる。
【0129】
更に注目すべきは、最初の音声認識を終了した後、例えば別の日時などに音声認識を行うと、音声認識を繰り返す回数が増えるたびに、更新前の差分モデルDが次第に話者適応された更新差分モデルD”に更新されていく。このため、図9中のステップS302で生成される合成音声モデルMは、雑音適応と話者適応の施された合成音声モデルとなっていく。
【0130】
したがって、音声認識処理部7は、合成音声モデルM”と発話音声の特徴ベクトル系列V(n)とを照合して音声認識を行うようになるため、本音声認識装置の使用回数が増えるのに伴って認識率が向上するという優れた効果が得られる。
【0131】
なお、第1、第2の実施形態において、予め設定されている差分モデルDを更新差分モデルD”に更新する度に、グループ情報の更新を行っても良い。
【0132】
すなわち、第1の実施形態においてモデル更新部6が図6に示したステップS108の処理を完了した後、差分モデル記憶部1bに記憶されることとなった更新差分モデルD”と代表音声モデルCとを合成した合成モデルS”と、代表音声モデルCとの類似性に基づき、最も類似した代表音声モデルの属するグループのメンバーとなるようグループ情報と更新差分モデルの変更を行う。
【0133】
前述のように、実際には更新差分モデルdx,y”は、HMM番号i、状態番号j、混合番号kに対してdm ijk”の形で記憶される。
【0134】
また、前述の如くdm ijk”の属するクラスタは、クラスタ情報Bm ijkとして記憶される。例えば、dm ijk”の属するクラスタがβだったとする。すなわち、Bm ijk=βとすると、dm ijk”の属するクラスタの代表モデルはCβである。よって、HMM番号i、状態番号j、混合番号kの合成モデルSm ijk”は、dm ijk”とCβを合成することにより求まる。
【0135】
ここで、Sm ijk”と全ての代表音声モデルとの類似性に基づいて比較した結果、もっとも類似した音声モデルがCβでなく、Cγだったとする。その場合、更新差分モデルは、
dm ijk”=Sm ijk”−Cγ
と置き換える。またクラスタ情報も、
Bm ijk=γ
と置き換える。
【0136】
そして、更新された差分情報・グループ情報は記憶部1cに更新記憶させる。
【0137】
なお、合成モデルS”に対しグループ化またはクラスタリングを施し、グループ情報B、代表音声モデルC、更新差分モデルD”を更新するようにすることもできるが、クラスタリングは多くの演算量を必要とする処理であり効果的ではない。
【0138】
また、雑音適応手法としてヤコビ適応を使用する場合は代表音声モデルCの更新を行うと初期合成モデル作成などさらに多くの演算が必要になる。
【0139】
少ない演算量で効果を得るには、上記のように差分モデルとグループ情報のみを書き換える方法が効果的である。
【0140】
また、第2の実施形態では、図9に示したステップS310の処理を完了した後、差分モデル記憶部1bに記憶されることとなった更新差分モデルD”と代表音声モデルCとを合成した合成モデルS”と、代表音声モデルCとの類似性に基づき、最も類似した代表音声モデルの属するグループのメンバーとなるようグループ情報と更新差分モデルの変更を行う。
【0141】
前述のように、実際には更新差分モデルdx,y”は、HMM番号i、状態番号j、混合番号kに対してdm ijk”の形で記憶される。
【0142】
また、前述の如くdm ijk”の属するクラスタは、クラスタ情報Bm ijkとして記憶される。例えば、dm ijk”の属するクラスタがβだったとする。すなわち、Bm ijk=βとすると、dm ijk”の属するクラスタの代表モデルはCβである。よって、HMM番号i、状態番号j、混合番号kの合成モデルSm ijk”は、dm ijk”とCβを合成することにより求まる。
【0143】
ここで、Sm ijk”と全ての代表音声モデルとの類似性に基づいて比較した結果、もっとも類似した音声モデルがCβでなく、Cγだったとする。その場合、更新差分モデルは、
dm ijk”=Sm ijk”−Cγ
と置き換える。またクラスタ情報も、
Bm ijk=γ
と置き換える。
【0144】
そして、更新された差分情報・グループ情報は記憶部1cに更新記憶させる。
【0145】
なお、合成モデルS”に対しグループ化またはクラスタリングを施し、グループ情報B、代表音声モデルC、更新差分モデルD”を更新するようにすることもできるが、クラスタリングは多くの演算量を必要とする処理であり効果的ではない。
【0146】
また、雑音適応手法としてヤコビ適応を使用する場合は代表音声モデルCの更新を行うと初期合成モデル作成などさらに多くの演算が必要になる。
【0147】
少ない演算量で効果を得るには、上記のように差分モデルとグループ情報のみを書き換える方法が効果的である。
【0148】
以上に述べたように第1,第2の実施形態によれば、認識処理の処理量を低減しつつ、音声認識率の更なる向上を実現することができる。
【0149】
つまり、第1の実施形態に係る音声認識装置とその音声認識方法によれば、音声認識を行う前に、更新差分モデルを生成して記憶部1に記憶しておき、その更新差分モデルを利用して音声認識の処理を行う。すなわち、多数の音声モデルを類似性に基づきグループ化又はクラスタリングし、それによって得られるグループ情報とグループの代表音声モデルと差分モデルとを同一グループ毎に対応付けて記憶部1に記憶させておく。
【0150】
そして、音声認識を行う前に、雑音適応と話者適応を施した更新差分モデルを生成し、その更新差分モデルで記憶部1の差分モデルを更新する。
【0151】
ここで、上述の更新差分モデルで記憶部1の差分モデルを更新する際には、まず、記憶部1に記憶されている同一グループ毎の代表音声モデルに対し雑音適応を施すことにより、同一グループ毎の雑音適応代表音声モデルを生成する。
【0152】
更に、雑音適応代表音声モデルと記憶部1の差分モデルとを、同一グループ毎に合成することによって、雑音適応を施した合成音声モデルを生成する。
【0153】
更に、その雑音適応を施した合成音声モデルに対し、発話音声により求まる特徴ベクトル系列によって話者適応を施すことにより、雑音話者適応音声モデルを生成する。
【0154】
そして、雑音話者適応音声モデルと雑音適応代表音声モデルとの差分から更新差分モデルを生成し、その更新差分モデルで記憶部1の差分モデルを更新する。
【0155】
次に、音声認識の際には、記憶部1に記憶されている代表音声モデルを雑音適応し、それによって得られる雑音適応代表音声モデルと更新された更新差分モデルとを合成することで得られる雑音適応及び話者適応を施した合成音声モデルと、認識すべき話者の発話音声より求まる特徴ベクトル系列とを照合することにより、音声認識を行う。
【0156】
このように、代表音声モデルと差分モデルを使用して、差分モデルに対して雑音適応と話者適応を施すことによって更新差分モデルを生成しておき、音声認識の際、代表音声モデルを雑音適応した雑音適応代表音声モデルと更新差分モデルとを合成することにより、話者の発話音声より求まる特徴ベクトル系列との照合を行うための合成音声モデルを少ない処理量で生成することを可能にする。
【0157】
つまり、雑音適用と話者適応の処理を、音声認識を行うために必要となる多数の音声モデルの全てについて行うのではなく、多数の音声モデルを代表音声モデルと差分モデルとにいわゆる分解しておいて、これら代表音声モデルと差分モデルに対し、雑音適用と話者適応を施して合成等することで、話者の発話音声より求まる特徴ベクトル系列との照合を行うための合成音声モデルを生成する。これにより、処理量の大幅な低減を実現する。
【0158】
また、この第1の実施形態では、上述の雑音話者適応モデルを求めた後、更に雑音話者適応モデルの属するグループを各雑音適応代表音声モデルとの類似性に基づき変更し、その変更が反映されるようグループ情報を更新記憶し、さらに雑音話者適応モデルと変更されたグループの雑音適応代表音声モデルとの差分を更新差分モデルとする。そして、更新された差分モデルと更新されたグループ情報に基づく代表音声モデルに雑音適応を施じた雑音適応代表音声モデルとを合成することによって得られる合成音声モデルを用いて音声認識を行う。このグループ情報及び差分モデルを更新することによって、音声認識率の向上等を実現することが可能となっている。
【0159】
第2の実施形態に係る音声認識装置とその音声認識方法によれば、多数の音声モデルを類似性に基づきグループ化又はクラスタリングし、それによって得られるグループ情報と各グループの代表音声モデルと差分モデルとを同一グループ毎に対応付けて記憶部1に記憶させておく。音声認識を行う度に、その音声認識の処理中に、雑音適応と話者適応を施した更新差分モデルを生成し、その更新差分モデルで記憶部1の差分モデルを同一グループ毎に更新する。
【0160】
そして、音声認識が繰り返される度に、更新差分モデルによる更新が行われ、次第に話者適応の効果の高くなっていく更新差分モデルと、代表音声モデルに雑音適応を施した雑音適応代表音声モデルとを合成し、その合成により得られる合成音声モデルと、話者の発話音声より求まる特徴ベクトル系列とを照合することで、音声認識を行う。
【0161】
ここで、更新差分モデルで記憶部1の差分モデルを更新する際には、記憶部1に記憶されている代表音声モデルに対し雑音適応を施すことにより、雑音適応代表音声モデルを生成する。
【0162】
更に、雑音適応代表音声モデルと記憶部1の差分モデルとを合成することによって合成音声モデルを生成する。
【0163】
更に、合成音声モデルに対して話者の発話音声より求まる特徴ベクトル系列によって話者適応を施すことにより、雑音適応と話者適応を施した雑音話者適応音声モデルを生成する。
【0164】
そして、雑音話者適応音声モデルと雑音適応代表音声モデルとの差分から更新差分モデルを生成し、その更新差分モデルで記憶部1の差分モデルを更新する。
【0165】
更にまた、音声認識が繰り返される度に、最新の更新差分モデルで記憶部1中の旧い更新差分モデルを更新していく。
【0166】
そして、更新差分モデルと、記憶部1に記憶されている代表音声モデルに雑音適応を施した雑音適応代表音声モデルとを合成し、その合成で得られる雑音適応と話者適応が施された合成音声モデル、及び、認識すべき話者の発話音声より求まる特徴ベクトル系列とを照合することにより音声認識を行う。
【0167】
このように、代表音声モデルと差分モデルを使用して、差分モデルに対して雑音適応と話者適応を施すことによって更新差分モデルを生成し、音声認識を行う度に、代表音声モデルに雑音適応を施した雑音適応代表音声モデルと更新差分モデルとを合成することにより、話者の発話音声より求まる特徴ベクトル系列との照合を行うための合成音声モデルを少ない処理量で生成することを可能にする。
【0168】
また、第2の実施形態においても、上述の雑音話者適応モデルを求めた後、更に雑音話者適応モデルの属するグループを各雑音適応代表音声モデルとの類似性に基づき変更し、その変更が反映されるようグループ情報を更新記憶し、さらに雑音話者適応モデルと変更されたグループの雑音適応代表音声モデルとの差分を更新差分モデルとする。そして、更新された差分モデルと更新されたグループ情報に基づく代表音声モデルに雑音適応を施じた雑音適応代表音声モデルとを合成することによって得られる合成音声モデルを用いて音声認識を行う。このグループ情報及び差分モデルを更新することによって、音声認識率の向上等を可能にしている。
【0169】
このように、第1,第2の実施形態によれば、雑音適応代表音声モデルと差分モデルと適応発話音声を使用して、差分モデルに対して話者適応を施すことによって更新差分モデルを生成し、音声認識に際して、雑音適応代表音声モデルと更新差分モデルとの合成によって話者音声の特徴ベクトルと照合するための雑音適応及び話者適応を施した合成音声モデルを生成するようにしたので、その合成音声モデルを生成するための処理量を大幅に低減することができると共に、音声認識処理の高速化及び認識精度の向上を図ることができる。
【図面の簡単な説明】
【図1】 第1の実施形態の音声認識装置の構成を示す図である。
【図2】 代表音声モデルと差分モデルの生成原理を示す図である。
【図3】 代表音声モデルと差分モデルと初期音声モデルの関係を示す図である。
【図4】 雑音適応された合成音声モデルの生成原理を示す図である。
【図5】 雑音適応と話者適応された雑音話者適応音声モデルの生成原理及び更新差分モデルの生成原理を示す図である。
【図6】 差分モデルを更新差分モデルで更新するまでの動作を示すフローチャートである。
【図7】 音声認識の際の動作を示すフローチャートである。
【図8】 第2の実施形態の音声認識装置の構成を示す図である。
【図9】 第2の実施形態の音声認識装置の動作を示すフローチャートである。
【符号の説明】
1…記憶部
1a…代表音声モデル記憶部
1b…差分モデル記憶部
1c…グループ情報記憶部
2…発話環境雑音モデル生成部
3…雑音適応代表音声モデル生成部
4…合成音声モデル生成部
5…更新モデル生成部
6…モデル更新部
7…認識処理部
8…マイクロフォン
9…音声分析部
10…切替スイッチ
Claims (6)
- 雑音適応と話者適応とを施した合成音声モデルと、発話時の発話音声より求まる特徴ベクトル系列とを照合することによって音声認識を行う音声認識装置において、
グループ化又はクラスタリングにより、多数の音声モデルを類似性に基づいて複数のグループに分類し、当該グループ化又はクラスタリングにより同一グループに属することとなる各グループ毎の音声モデルの中から代表として求められた各グループの代表音声モデルと、前記各グループに属する音声モデルと前記代表音声モデルとの差分を前記各同一グループ毎に求めることによって得られる各グループに属する差分モデルと、前記代表音声モデルと差分モデルとを前記同一グループ毎に対応付けるグループ情報とを予め記憶する記憶手段と、
前記記憶手段に記憶されている前記同一グループ毎の代表音声モデルに対し雑音適応を施すことにより、雑音適応代表音声モデルを生成する雑音適応代表音声モデル生成手段と、
前記各グループに属している前記差分モデルと前記雑音適応代表音声モデルとを、前記グループ情報に基づいて前記同一グループ毎に合成することにより、前記同一グループ毎の合成音声モデルを生成する合成音声モデル生成手段と、
前記雑音適応を施した前記同一グループ毎の合成音声モデルに対し、発話音声より求まる特徴ベクトル系列によって話者適応を施すことにより、雑音話者適応音声モデルを生成する更新モデル生成手段と、
前記雑音話者適応音声モデルと、前記グループ情報に基づいて選択した前記雑音話者適応音声モデルの属するグループの前記雑音適応代表音声モデルとの差分から前記同一グループ毎の更新差分モデルを生成すると共に、当該生成した更新差分モデルで前記記憶手段の前記同一グループ毎の差分モデルを更新するモデル更新手段とを具備し、
音声認識に際して、前記グループ情報に基づいて選択した前記更新差分モデルの属するグループの前記代表音声モデルに雑音適応を施すことにより雑音適応代表音声モデルを生成すると共に、当該雑音適応代表音声モデルと前記更新された更新差分モデルとを合成することで雑音適応及び話者適応を施した合成音声モデルを生成して、当該合成音声モデルと認識すべき話者音声より求まる特徴ベクトル系列とを照合することによって前記音声認識を行うことを特徴とする音声認識装置。 - 雑音適応と話者適応とを施した合成音声モデルと、発話時の発話音声より求まる特徴ベクトル系列とを照合することによって音声認識を行う音声認識装置において、
グループ化又はクラスタリングにより、多数の音声モデルを類似性に基づいて複数のグループに分類し、当該グループ化又はクラスタリングにより同一グループに属することとなる各グループ毎の音声モデルの中から代表として求められた各グループの代表音声モデルと、前記各グループに属する音声モデルと前記代表音声モデルとの差分を前記各同一グループ毎に求めることによって得られる各グループに属する差分モデルと、前記代表音声モデルと差分モデルとを前記同一グループ毎に対応付けるグループ情報とを予め記憶する記憶手段と、
前記記憶手段に記憶されている前記同一グループ毎の代表音声モデルに対し雑音適応を施すことにより、雑音適応代表音声モデルを生成する雑音適応代表音声モデル生成手段と、
前記各グループに属している前記差分モデルと前記雑音適応代表音声モデルとを、前記グループ情報に基づいて前記同一グループ毎に合成することにより、前記同一グループ毎の合成音声モデルを生成する合成音声モデル生成手段と、
前記合成音声モデル生成手段で生成される合成音声モデルと、認識すべき話者音声より求まる特徴ベクトル系列とを照合することにより音声認識を行う認識処理手段と、
前記同一グループ毎の合成音声モデルに対して前記話者音声より求まる特徴ベクトル系列によって話者適応を施すことにより、雑音適応と話者適応を施した雑音話者適応音声モデルを生成する更新モデル生成手段と、
前記雑音話者適応音声モデルと、前記グループ情報に基づいて選択した前記雑音話者適応音声モデルの属するグループの前記雑音適応代表音声モデルとの差分から前記同一グループ毎の更新差分モデルを生成すると共に、当該生成した更新差分モデルで前記記憶手段の前記同一グループ毎の差分モデルを更新するモデル更新手段とを具備し、
前記認識処理手段は、音声認識が繰り返される度に前記更新モデル生成手段とモデル更新手段とによって更新される前記更新差分モデルと前記グループ情報に基づいて選択された前記更新差分モデルの属するグループの前記代表音声モデルに雑音適応を施すことで生成された雑音適応代表音声モデルとを合成することで得られる雑音適応及び話者適応が施された合成音声モデルと、認識すべき話者音声より求まる特徴ベクトル系列とを照合することにより前記音声認識を行うことを特徴とする音声認識装置。 - 前記モデル更新手段は、前記更新差分モデルを生成する度に、前記雑音話者適応音声モデルと前記雑音適応代表音声モデルとの類似性に基づき前記グループ情報の前記雑音話者適応音声モデルの属するグループを更に変更すると共に、前記雑音話者適応音声モデルと前記更新記憶されたグループ情報に基づいて選択された前記雑音話者適応音声モデルの属するグループの前記雑音適応代表音声モデルとの差分により、前記記憶手段の差分モデルを前記変更後のグループに即して更新することを特徴とする請求項1又は2に記載の音声認識装置。
- 雑音適応と話者適応とを施した合成音声モデルと、発話時の発話音声より求まる特徴ベクトル系列とを照合することによって音声認識を行う音声認識方法において、
グループ化又はクラスタリングにより、多数の音声モデルを類似性に基づいて複数のグループに分類し、当該グループ化又はクラスタリングにより同一グループに属することとなる各グループ毎の音声モデルの中から代表として求められた各グループの代表音声モデルと、前記各グループに属する音声モデルと前記代表音声モデルとの差分を前記各同一グループ毎に求めることによって得られる各グループに属する差分モデルと、前記代表音声モデルと差分モデルとを前記同一グループ毎に対応付けるグループ情報とを予め記憶手段に記憶させ、
前記記憶手段に記憶されている前記同一グループ毎の代表音声モデルに対し雑音適応を施すことにより、雑音適応代表音声モデルを生成する雑音適応代表音声モデル生成工程と、
前記各グループに属している前記差分モデルと前記雑音適応代表音声モデルとを、前記グループ情報に基づいて前記同一グループ毎に合成することにより、前記同一グループ毎の合成音声モデルを生成する合成音声モデル生成工程と、
前記雑音適応を施した前記同一グループ毎の合成音声モデルに対し、発話音声より求まる特徴ベクトル系列によって話者適応を施すことにより、雑音話者適応音声モデルを生成する更新モデル生成工程と、
前記雑音話者適応音声モデルと、前記グループ情報に基づいて選択した前記雑音話者適応音声モデルの属するグループの前記雑音適応代表音声モデルとの差分から前記同一グループ毎の更新差分モデルを生成すると共に、当該生成した更新差分モデルで前記記憶手段の前記同一グループ毎の差分モデルを更新するモデル更新工程とを具備し、
音声認識に際して、前記グループ情報に基づいて選択した前記更新差分モデルの属するグループの前記代表音声モデルに雑音適応を施すことにより雑音適応代表音声モデルを生成すると共に、当該雑音適応代表音声モデルと前記更新された更新差分モデルとを合成することで雑音適応及び話者適応を施した合成音声モデルを生成して、当該合成音声モデルと認識すべき話者音声より求まる特徴ベクトル系列とを照合することによって前記音声認識を行うことを特徴とする音声認識方法。 - 雑音適応と話者適応とを施した合成音声モデルと、発話時の発話音声より求まる特徴ベクトル系列とを照合することによって音声認識を行う音声認識方法において、
グループ化又はクラスタリングにより、多数の音声モデルを類似性に基づいて複数のグループに分類し、当該グループ化又はクラスタリングにより同一グループに属することとなる各グループ毎の音声モデルの中から代表として求められた各グループの代表音声モデルと、前記各グループに属する音声モデルと前記代表音声モデルとの差分を前記各同一グループ毎に求めることによって得られる各グループに属する差分モデルと、前記代表音声モデルと差分モデルとを前記同一グループ毎に対応付けるグループ情報とを予め記憶手段に記憶させ、
前記記憶手段に記憶されている前記同一グループ毎の代表音声モデルに対し雑音適応を施すことにより、雑音適応代表音声モデルを生成する雑音適応代表音声モデル生成工程と、
前記各グループに属している前記差分モデルと前記雑音適応代表音声モデルとを、前記グループ情報に基づいて前記同一グループ毎に合成することにより、前記同一グループ毎の合成音声モデルを生成する合成音声モデル生成工程と、
前記合成音声モデル生成工程で生成される合成音声モデルと、認識すべき話者音声より求まる特徴ベクトル系列とを照合することにより音声認識を行う認識処理工程と、
前記同一グループ毎の合成音声モデルに対して前記話者音声より求まる特徴ベクトル系列によって話者適応を施すことにより、雑音適応と話者適応を施した雑音話者適応音声モデルを生成する更新モデル生成工程と、
前記雑音話者適応音声モデルと、前記グループ情報に基づいて選択した前記雑音話者適応音声モデルの属するグループの前記雑音適応代表音声モデルとの差分から前記同一グループ毎の更新差分モデルを生成すると共に、当該生成した更新差分モデルで前記記憶手段の前記同一グループ毎の差分モデルを更新するモデル更新工程とを具備し、
前記認識処理工程は、音声認識が繰り返される度に前記更新モデル生成工程とモデル更新工程とによって更新される前記更新差分モデルと前記グループ情報に基づいて選択された前記更新差分モデルの属するグループの前記代表音声モデルに雑音適応を施すことで生成された雑音適応代表音声モデルとを合成することで得られる雑音適応及び話者適応が施された合成音声モデルと、認識すべき話者音声より求まる特徴ベクトル系列とを照合することにより前記音声認識を行うことを特徴とする音声認識方法。 - 前記モデル更新工程は、前記更新差分モデルを生成する度に、前記雑音話者適応音声モデルと前記雑音適応代表音声モデルとの類似性に基づき前記グループ情報の前記雑音話者適応音声モデルの属するグループを更に変更すると共に、前記雑音話者適応音声モデルと前記更新記憶されたグループ情報に基づいて選択された前記雑音話者適応音声モデルの属するグループの前記雑音適応代表音声モデルとの差分により、前記記憶手段の差分モデルを前記変更後のグループに即して更新することを特徴とする請求項4又は5に記載の音声認識方法。
Priority Applications (5)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
JP2002271670A JP4109063B2 (ja) | 2002-09-18 | 2002-09-18 | 音声認識装置及び音声認識方法 |
EP03021032A EP1400952B1 (en) | 2002-09-18 | 2003-09-17 | Speech recognition adapted to environment and speaker |
DE60302407T DE60302407T2 (de) | 2002-09-18 | 2003-09-17 | Umgebungs- und sprecheradaptierte Spracherkennung |
CNB031573649A CN1238833C (zh) | 2002-09-18 | 2003-09-18 | 语音识别装置以及语音识别方法 |
US10/667,150 US7257532B2 (en) | 2002-09-18 | 2003-09-22 | Apparatus and method for speech recognition |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
JP2002271670A JP4109063B2 (ja) | 2002-09-18 | 2002-09-18 | 音声認識装置及び音声認識方法 |
Publications (2)
Publication Number | Publication Date |
---|---|
JP2004109464A JP2004109464A (ja) | 2004-04-08 |
JP4109063B2 true JP4109063B2 (ja) | 2008-06-25 |
Family
ID=31944556
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
JP2002271670A Expired - Fee Related JP4109063B2 (ja) | 2002-09-18 | 2002-09-18 | 音声認識装置及び音声認識方法 |
Country Status (5)
Country | Link |
---|---|
US (1) | US7257532B2 (ja) |
EP (1) | EP1400952B1 (ja) |
JP (1) | JP4109063B2 (ja) |
CN (1) | CN1238833C (ja) |
DE (1) | DE60302407T2 (ja) |
Families Citing this family (44)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
JP4033299B2 (ja) * | 2003-03-12 | 2008-01-16 | 株式会社エヌ・ティ・ティ・ドコモ | 音声モデルの雑音適応化システム、雑音適応化方法、及び、音声認識雑音適応化プログラム |
WO2005098820A1 (ja) * | 2004-03-31 | 2005-10-20 | Pioneer Corporation | 音声認識装置及び音声認識方法 |
JP4510517B2 (ja) * | 2004-05-26 | 2010-07-28 | 日本電信電話株式会社 | 音響モデル雑音適応化方法およびこの方法を実施する装置 |
US7693713B2 (en) * | 2005-06-17 | 2010-04-06 | Microsoft Corporation | Speech models generated using competitive training, asymmetric training, and data boosting |
CN101385073A (zh) * | 2006-02-14 | 2009-03-11 | 知识风险基金21有限责任公司 | 具有不依赖于说话者的语音识别的通信设备 |
US8762148B2 (en) * | 2006-02-27 | 2014-06-24 | Nec Corporation | Reference pattern adaptation apparatus, reference pattern adaptation method and reference pattern adaptation program |
US8315871B2 (en) * | 2009-06-04 | 2012-11-20 | Microsoft Corporation | Hidden Markov model based text to speech systems employing rope-jumping algorithm |
EP4318463A3 (en) | 2009-12-23 | 2024-02-28 | Google LLC | Multi-modal input on an electronic device |
US11416214B2 (en) | 2009-12-23 | 2022-08-16 | Google Llc | Multi-modal input on an electronic device |
US8660842B2 (en) * | 2010-03-09 | 2014-02-25 | Honda Motor Co., Ltd. | Enhancing speech recognition using visual information |
US8265928B2 (en) * | 2010-04-14 | 2012-09-11 | Google Inc. | Geotagged environmental audio for enhanced speech recognition accuracy |
US8468012B2 (en) | 2010-05-26 | 2013-06-18 | Google Inc. | Acoustic model adaptation using geographic information |
JP5494468B2 (ja) | 2010-12-27 | 2014-05-14 | 富士通株式会社 | 状態検出装置、状態検出方法および状態検出のためのプログラム |
US8352245B1 (en) | 2010-12-30 | 2013-01-08 | Google Inc. | Adjusting language models |
US8296142B2 (en) | 2011-01-21 | 2012-10-23 | Google Inc. | Speech recognition using dock context |
US8972256B2 (en) | 2011-10-17 | 2015-03-03 | Nuance Communications, Inc. | System and method for dynamic noise adaptation for robust automatic speech recognition |
US8543398B1 (en) | 2012-02-29 | 2013-09-24 | Google Inc. | Training an automatic speech recognition system using compressed word frequencies |
US20130243077A1 (en) * | 2012-03-13 | 2013-09-19 | Canon Kabushiki Kaisha | Method and apparatus for processing moving image information, and method and apparatus for identifying moving image pattern |
US8374865B1 (en) | 2012-04-26 | 2013-02-12 | Google Inc. | Sampling training data for an automatic speech recognition system based on a benchmark classification distribution |
US9406299B2 (en) | 2012-05-08 | 2016-08-02 | Nuance Communications, Inc. | Differential acoustic model representation and linear transform-based adaptation for efficient user profile update techniques in automatic speech recognition |
US8571859B1 (en) | 2012-05-31 | 2013-10-29 | Google Inc. | Multi-stage speaker adaptation |
US8805684B1 (en) * | 2012-05-31 | 2014-08-12 | Google Inc. | Distributed speaker adaptation |
US8554559B1 (en) | 2012-07-13 | 2013-10-08 | Google Inc. | Localized speech recognition with offload |
US9401140B1 (en) * | 2012-08-22 | 2016-07-26 | Amazon Technologies, Inc. | Unsupervised acoustic model training |
US8484017B1 (en) | 2012-09-10 | 2013-07-09 | Google Inc. | Identifying media content |
US20140074466A1 (en) | 2012-09-10 | 2014-03-13 | Google Inc. | Answering questions using environmental context |
US9123333B2 (en) | 2012-09-12 | 2015-09-01 | Google Inc. | Minimum bayesian risk methods for automatic speech recognition |
CN103065631B (zh) * | 2013-01-24 | 2015-07-29 | 华为终端有限公司 | 一种语音识别的方法、装置 |
CN103971680B (zh) * | 2013-01-24 | 2018-06-05 | 华为终端(东莞)有限公司 | 一种语音识别的方法、装置 |
US9734819B2 (en) | 2013-02-21 | 2017-08-15 | Google Technology Holdings LLC | Recognizing accented speech |
US20140278393A1 (en) | 2013-03-12 | 2014-09-18 | Motorola Mobility Llc | Apparatus and Method for Power Efficient Signal Conditioning for a Voice Recognition System |
US9237225B2 (en) | 2013-03-12 | 2016-01-12 | Google Technology Holdings LLC | Apparatus with dynamic audio signal pre-conditioning and methods therefor |
US20140270249A1 (en) | 2013-03-12 | 2014-09-18 | Motorola Mobility Llc | Method and Apparatus for Estimating Variability of Background Noise for Noise Suppression |
US9842592B2 (en) | 2014-02-12 | 2017-12-12 | Google Inc. | Language models using non-linguistic context |
US9412365B2 (en) | 2014-03-24 | 2016-08-09 | Google Inc. | Enhanced maximum entropy models |
US10134394B2 (en) | 2015-03-20 | 2018-11-20 | Google Llc | Speech recognition using log-linear model |
US9978367B2 (en) | 2016-03-16 | 2018-05-22 | Google Llc | Determining dialog states for language models |
CN107564513B (zh) * | 2016-06-30 | 2020-09-08 | 阿里巴巴集团控股有限公司 | 语音识别方法及装置 |
US10832664B2 (en) | 2016-08-19 | 2020-11-10 | Google Llc | Automated speech recognition using language models that selectively use domain-specific model components |
JP6703460B2 (ja) * | 2016-08-25 | 2020-06-03 | 本田技研工業株式会社 | 音声処理装置、音声処理方法及び音声処理プログラム |
US10311860B2 (en) | 2017-02-14 | 2019-06-04 | Google Llc | Language model biasing system |
CN108573696B (zh) * | 2017-03-10 | 2021-03-30 | 北京搜狗科技发展有限公司 | 一种语音识别方法、装置及设备 |
KR20210053072A (ko) * | 2019-11-01 | 2021-05-11 | 삼성전자주식회사 | 사용자 발화를 처리하는 전자 장치와 그 동작 방법 |
JP7509008B2 (ja) * | 2020-11-17 | 2024-07-02 | トヨタ自動車株式会社 | 情報処理システム、情報処理方法及びプログラム |
Family Cites Families (7)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
JP3001037B2 (ja) * | 1995-12-13 | 2000-01-17 | 日本電気株式会社 | 音声認識装置 |
US6026359A (en) * | 1996-09-20 | 2000-02-15 | Nippon Telegraph And Telephone Corporation | Scheme for model adaptation in pattern recognition based on Taylor expansion |
JPH10161692A (ja) | 1996-12-03 | 1998-06-19 | Canon Inc | 音声認識装置及び音声認識方法 |
DE19806941A1 (de) * | 1998-02-19 | 1999-08-26 | Univ Ilmenau Tech | Verfahren zur Sprecheradaption von Merkmalsreferenzen |
US6389393B1 (en) * | 1998-04-28 | 2002-05-14 | Texas Instruments Incorporated | Method of adapting speech recognition models for speaker, microphone, and noisy environment |
US6260014B1 (en) * | 1998-09-14 | 2001-07-10 | International Business Machines Corporation | Specific task composite acoustic models |
US7006972B2 (en) * | 2002-03-20 | 2006-02-28 | Microsoft Corporation | Generating a task-adapted acoustic model from one or more different corpora |
-
2002
- 2002-09-18 JP JP2002271670A patent/JP4109063B2/ja not_active Expired - Fee Related
-
2003
- 2003-09-17 DE DE60302407T patent/DE60302407T2/de not_active Withdrawn - After Issue
- 2003-09-17 EP EP03021032A patent/EP1400952B1/en not_active Expired - Lifetime
- 2003-09-18 CN CNB031573649A patent/CN1238833C/zh not_active Expired - Fee Related
- 2003-09-22 US US10/667,150 patent/US7257532B2/en not_active Expired - Fee Related
Also Published As
Publication number | Publication date |
---|---|
EP1400952A1 (en) | 2004-03-24 |
US7257532B2 (en) | 2007-08-14 |
JP2004109464A (ja) | 2004-04-08 |
CN1492394A (zh) | 2004-04-28 |
CN1238833C (zh) | 2006-01-25 |
DE60302407T2 (de) | 2006-07-27 |
DE60302407D1 (de) | 2005-12-29 |
US20040093210A1 (en) | 2004-05-13 |
EP1400952B1 (en) | 2005-11-23 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
JP4109063B2 (ja) | 音声認識装置及び音声認識方法 | |
JP4141495B2 (ja) | 最適化された部分的確率混合共通化を用いる音声認識のための方法および装置 | |
CN101828218B (zh) | 通过多形式段的生成和连接进行的合成 | |
JP2733955B2 (ja) | 適応型音声認識装置 | |
JP4590692B2 (ja) | 音響モデル作成装置及びその方法 | |
KR100612840B1 (ko) | 모델 변이 기반의 화자 클러스터링 방법, 화자 적응 방법및 이들을 이용한 음성 인식 장치 | |
EP0847041B1 (en) | Method and apparatus for speech recognition performing noise adaptation | |
JP2001503154A (ja) | 音声認識システムにおける隠れマルコフ音声モデルの適合方法 | |
US5742928A (en) | Apparatus and method for speech recognition in the presence of unnatural speech effects | |
JPH10512686A (ja) | 個別話者に適応した音声認識のための方法及び装置 | |
JP3092491B2 (ja) | 記述長最小基準を用いたパターン適応化方式 | |
US5864809A (en) | Modification of sub-phoneme speech spectral models for lombard speech recognition | |
JP2751856B2 (ja) | 木構造を用いたパターン適応化方式 | |
JP2898568B2 (ja) | 声質変換音声合成装置 | |
JPH1185186A (ja) | 不特定話者音響モデル生成装置及び音声認識装置 | |
JPH10254473A (ja) | 音声変換方法及び音声変換装置 | |
JP3003353B2 (ja) | タスク適応標準パターン学習装置 | |
JP3029803B2 (ja) | 音声認識のための単語モデル生成装置及び音声認識装置 | |
JP3532248B2 (ja) | 学習音声パタンモデル使用音声認識装置 | |
JPH08248975A (ja) | 標準パターン学習装置およびこの装置を使用した音声認識装置 | |
JP3003355B2 (ja) | 標準パターン作成装置 | |
Kim et al. | Deleted strategy for MMI-based HMM training | |
JP3036706B2 (ja) | 音声認識方法 | |
JP2002082688A (ja) | 話者適応化装置、話者適応化方法、話者適応化プログラムを記録したコンピュータ読取可能な記録媒体、音声認識装置、音声認識方法および音声認識プログラムを記録したコンピュータ読取可能な記録媒体 | |
JPH10254350A (ja) | 音声認識装置 |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
A621 | Written request for application examination |
Free format text: JAPANESE INTERMEDIATE CODE: A621 Effective date: 20050812 |
|
A977 | Report on retrieval |
Free format text: JAPANESE INTERMEDIATE CODE: A971007 Effective date: 20080313 |
|
TRDD | Decision of grant or rejection written | ||
A01 | Written decision to grant a patent or to grant a registration (utility model) |
Free format text: JAPANESE INTERMEDIATE CODE: A01 Effective date: 20080321 |
|
A61 | First payment of annual fees (during grant procedure) |
Free format text: JAPANESE INTERMEDIATE CODE: A61 Effective date: 20080403 |
|
FPAY | Renewal fee payment (event date is renewal date of database) |
Free format text: PAYMENT UNTIL: 20110411 Year of fee payment: 3 |
|
R150 | Certificate of patent or registration of utility model |
Ref document number: 4109063 Country of ref document: JP Free format text: JAPANESE INTERMEDIATE CODE: R150 Free format text: JAPANESE INTERMEDIATE CODE: R150 |
|
FPAY | Renewal fee payment (event date is renewal date of database) |
Free format text: PAYMENT UNTIL: 20120411 Year of fee payment: 4 |
|
FPAY | Renewal fee payment (event date is renewal date of database) |
Free format text: PAYMENT UNTIL: 20130411 Year of fee payment: 5 |
|
FPAY | Renewal fee payment (event date is renewal date of database) |
Free format text: PAYMENT UNTIL: 20140411 Year of fee payment: 6 |
|
LAPS | Cancellation because of no payment of annual fees |