JP2002268675A - 音声認識装置 - Google Patents
音声認識装置Info
- Publication number
- JP2002268675A JP2002268675A JP2001070108A JP2001070108A JP2002268675A JP 2002268675 A JP2002268675 A JP 2002268675A JP 2001070108 A JP2001070108 A JP 2001070108A JP 2001070108 A JP2001070108 A JP 2001070108A JP 2002268675 A JP2002268675 A JP 2002268675A
- Authority
- JP
- Japan
- Prior art keywords
- distribution
- standard pattern
- speech recognition
- selecting
- distributions
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Granted
Links
- 238000009826 distribution Methods 0.000 claims abstract description 161
- 239000000203 mixture Substances 0.000 claims description 23
- 238000000034 method Methods 0.000 claims description 18
- 230000006978 adaptation Effects 0.000 claims description 4
- 238000012937 correction Methods 0.000 claims description 3
- 230000007704 transition Effects 0.000 description 10
- 239000013598 vector Substances 0.000 description 8
- 238000004422 calculation algorithm Methods 0.000 description 6
- 238000012545 processing Methods 0.000 description 4
- 238000004364 calculation method Methods 0.000 description 3
- 238000010586 diagram Methods 0.000 description 3
- 102400001014 Adrenomedullin-2 Human genes 0.000 description 2
- 101800001511 Adrenomedullin-2 Proteins 0.000 description 2
- 238000003909 pattern recognition Methods 0.000 description 2
- 238000007476 Maximum Likelihood Methods 0.000 description 1
- 238000004458 analytical method Methods 0.000 description 1
- 230000015556 catabolic process Effects 0.000 description 1
- 238000006243 chemical reaction Methods 0.000 description 1
- 230000007423 decrease Effects 0.000 description 1
- 238000006731 degradation reaction Methods 0.000 description 1
- 238000013461 design Methods 0.000 description 1
- 238000005516 engineering process Methods 0.000 description 1
- 238000002474 experimental method Methods 0.000 description 1
- 239000011159 matrix material Substances 0.000 description 1
- 238000005457 optimization Methods 0.000 description 1
- 238000001228 spectrum Methods 0.000 description 1
- 230000002123 temporal effect Effects 0.000 description 1
- 238000012549 training Methods 0.000 description 1
Classifications
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L15/00—Speech recognition
- G10L15/06—Creation of reference templates; Training of speech recognition systems, e.g. adaptation to the characteristics of the speaker's voice
- G10L15/065—Adaptation
- G10L15/07—Adaptation to the speaker
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L15/00—Speech recognition
- G10L15/08—Speech classification or search
- G10L15/14—Speech classification or search using statistical models, e.g. Hidden Markov Models [HMMs]
- G10L15/142—Hidden Markov Models [HMMs]
- G10L15/144—Training of HMMs
Landscapes
- Engineering & Computer Science (AREA)
- Physics & Mathematics (AREA)
- Health & Medical Sciences (AREA)
- Computational Linguistics (AREA)
- Audiology, Speech & Language Pathology (AREA)
- Human Computer Interaction (AREA)
- Acoustics & Sound (AREA)
- Multimedia (AREA)
- Artificial Intelligence (AREA)
- Probability & Statistics with Applications (AREA)
- Image Analysis (AREA)
- Machine Translation (AREA)
- Complex Calculations (AREA)
Abstract
分布数の調節を高速、かつ効果的に行う音声認識装置を
提供する。 【解決手段】 本発明の音声認識装置は、混合分布を用
いた確率モデルを用いる音声認識装置であって、標準パ
ターンを保持する標準パターン記憶手段103と、音声
を入力とし標準パターンを用いて認識結果を出力する認
識手段104と、学習用音声を入力とし標準パターンを
作成する標準パターン作成手段102と、標準パターン
の混合分布の要素分布数を調節する標準パターン調節手
段203とで構成されている。これにより、混合ガウス
分布を出力確率分布としてもつ 隠れマルコフモデルを
用いた音声認識において、状態ごとに要素分布の木構造
を作成し、各状態の要素分布数を情報量基準を用いて調
節する。
Description
パターン認識における標準パターン作成方法に関し、特
に混合ガウス分布(またはガウス混合分布)を出力確率
分布として用いた隠れマルコフモデルを用いた音声認識
装置に関する。
関する研究が行われ、 数々の方法が提案されている。
この中で代表的な手法としては 隠れマルコフモデル(HM
M)を用いた方法がある。 そして、HMMを用いた音声認識
システムとして、誰の声でも認識できることを目的 と
した不特定話者の認識システムが盛んに研究・開発され
ている。
について図2に基づき説明する。音声認識装置に入力さ
れた話者の発声は、 入力パターン作成手段101に入力さ
れ、AD変換、音声分析などの過程を経て、ある時間長を
もつフレームと呼ばれる単位ごとの 特徴ベクトルの時
系列に変換される。この特徴ベクトルの 時系列を、こ
こでは入力パターンと呼ぶ。また、フレームの長さは通
常 10msから100ms 程度である。そして、特徴ベクトル
は、その時刻における音声スペクトルの特徴量を抽出し
たもので、通常10次元から100次元である。
れている。 HMMは音声の情報源のモデルの1つであり、
話者の音声を用いてそのパラメータを学習することがで
きる。 HMMについては認識手段の説明で詳しく述べ
る。ここで、HMMは通常各認識単位ごとに用意される。
また、ここでは、認識単位として音素を例にとる。例え
ば、不特定話者認識システムでは、標準パターン記憶手
段のHMMとして、予め多くの話者の発声を用いて学習し
た不特定話者HMMが用いられる。
て 入力パターンの認識を行なう。ここで、HMMは、音声
の情報源のモデルであり、音声パターンの様々な揺らぎ
に対処するため、統計・確率的なモデルとなっている。
また、HMMの詳細な説明は、ラビナー、ジュアング著、
古井訳 「音声認識の基礎(下)」、NTTアドバンステクノ
ロジ(1995)(以下、文献1)の、102〜187頁にかかれてい
る。
の状態とその間の状態遷移から構成される。通常は始状
態と終状態が定義されており、単位時間ごとに、各状態
からシンボルが出力され、状態遷移が行なわれる。各音
素の音声は、始状態から終状態までの状態遷移の間にHM
Mから出力されるシンボルの時系列として表される。
状態間の各遷移には遷移確率が定義されている。遷移確
率パラメータは音声パターンの時間的な揺らぎを表現す
るためのパラメータである。出力確率パラメータは、音
声パターンの声色の揺らぎを表現するものである。始状
態の確率をある値に定め、状態遷移ごとに出現確率、遷
移確率を掛けていくことにより、発声がそのモデルから
発生する確率を求めることができる。
HMMから発生したと仮定すると、その発生確率が計算で
きることになる。これにより、HMMによる音声認識で
は、各認識候補に対してHMMを用意し、発声が入力され
ると、各々のHMMにおいて、発生確率を求め、最大とな
るHMMを 発生源と決定し、そのHMMに対応する認識候補
をもって認識結果とする。
現と連続確率分布表現があるが、ここでは連続確率表現
を例にとる。連続確率分布表現では、しばしば、混合ガ
ウス分布、すなわち、複数のガウス分布を重みつきで加
算した分布が使われる。以下の例においては、出力確率
は混合ガウス連続確率分布とする。そして、出力確率パ
ラメータ、遷移確率パラメータ、複数のガウス分布の
重み係数などのパラメータは、モデルに対応する学習音
声を与えて、バウムーウェルチアルゴリズムと呼ばれる
アルゴリズムにより、予め学習されている。
合を想定する。すなわち、1000単語の認識候補から1単
語の正解を求める場合を想定する。まず、単語を認識す
る場合には、各音素のHMMを 連結して、認識候補単語の
HMMを作成する。1000単語認識の場合には1000単語分の
単語HMMを作成する。 特徴ベクトルの時系列として表現
された入力パターンOを下記の(1)式により示す。
る。ここでのNは認識候補単語数を示す。そして、各々
の認識候補単語Wnの 単語HMMと、入力パターンOとの
間のマッチングは、以下のように行なわれる。これから
の説明においては、必要のない限り添字nを省略する。
まず、単語HMMにおいて、状態jから状態iへの遷移確率
をaji、出力確率分布の混合重みをcim、各要素ガウス
分布の平均ベクトルをμim、共分散行列をΣimとする。
ここで、tは入力時刻、i,jはHMMの状態、mは混合要素番
号を表す。前向き確率at(i)に関する次の漸化式計算を
行う。
列 o1,o2,…,otを出力し、時刻tにおいて状態iに存
在する確率である。
示す(4),(5)式により定義される。
ルの次元数である。
る尤度は、以下に示す(6)式により求められる。
入力パターンXに対する認識結果単語Wn(ここで、下
記(7)式では、nの上部に∧;ハットが付いている)
は、以下に示す(7)式により求められる。
られる。 認識結果出力部は、認識結果を画面上に出
力、あるいは、認識結果に対応した制御命令を別の装置
に送るなどの処理を行なう。
説明する。標準パターン作成手段102は、不特定話者認
識の場合、事前の多数の話者の発声を蓄積し、その発声
を用いてパラメータの推定を行う。まず、以下の(8),
(9)式により、後向き確率を導入する。
の、 時刻t+1から終端までの部分的な観測系列の確率で
ある。
て、観測系列Oが与えられたときに、時刻tに状態iに存
在する確率は、以下に示す(10)式により与えられる。
る 確率は、以下の(11)式により与えられる。
番目の 混合要素に存在する確率(占有度数)は、以下の
(12)式により与えられる。
の推定値は以下の(13)〜(17)式により与えられる。
らの推定値をもとにパラメータを更新し、さらに、その
更新されたパラメータを用いて、推定値を新たに推定す
るという繰り返しを行なう。そして、繰り返し毎に、観
測系列の認識を行う確率が大きくなることが証明されて
いる。以上、HMMを用いる場合を例にとり、従来の音声
認識装置について説明した。
に、出力確率分布表現には、離散分布と連続分布とがあ
る。そして、離散分布と連続分布との中では、連続分
布、特にその中でも、混合ガウス分布が、よく用いられ
る。この混合ガウス分布が用いられる理由は、出力確率
分布表現の性能が優れているためである。
とする)を用いる場合、その要素分布数をどの大きさに
すべきかという明確な指針はない。通常は、混合分布の
HMMでは、状態毎の要素分布数がすべての状態にわたり
一定とし、いくつかの要素分布数を試して、その中でも
っとも性能が高い要素分布数を選ぶという手続きが行わ
れる。
数は異なることが予想される。例えば、不必要な要素分
布を多く持つとした場合、要素分布の確率を計算するた
めの計算量の増大を招くこととなる。また、出現回数の
少ない状態においては、パラメータ推定の過程で過学習
が行われていまい、未知データに対する性能が劣化する
可能性がある。したがって、混合分布HMMの各状態にお
ける要素分布数は、状態毎に最適化されることが望まし
い。
最も単純な方法は、 状態毎に要素分布数を変えて認識
実験を行い、各状態毎に認識性能が高くなる要素分布数
を選択する方法である。しかしながら、HMMの状態数
が、通常、全体で1000から10000とたいへん多くなり、
各状態毎に要素分布数を最適化することは、計算量の点
でほとんど不可能である。
ので、混合分布を用いた確率モデルにおいて、要素分布
数の調節を高速、かつ効果的に行う音声認識装置を提供
することにある。
は、混合分布を用いた確率モデルを用いる音声認識装置
であって、標準パターンを保持する標準パターン記憶手
段と、音声を入力とし標準パターンを用いて認識結果を
出力する認識手段と、学習用音声を入力とし標準パター
ンを作成する標準パターン作成手段と、標準パターンの
混合分布の要素分布数を調節する標準パターン調節手段
とを具備することを特徴とする。
た確率モデルを用いる音声認識装置であって、標準パタ
ーンを保持する標準パターン記憶手段と、音声を入力と
し標準パターンを用いて認識結果を出力する認識手段
と、適応化用音声を入力とし標準パターンを修正する標
準パターン修正手段と、標準パターンの混合分布の要素
分布数を調節する標準パターン調節手段とを具備するこ
とを特徴とする。
造を作成する木構造作成手段と、学習データを入力とし
て分布を選択する要素分布選択手段とから構成される標
準パターン調節手段を具備することを特徴とする。本発
明の音声認識装置は、前記標準パターン調節手段が、要
素分布の選択にミニマックス法を用いるミニマックス分
布選択手段を具備することを特徴とする。
択手段が、要素分布の選択において各要素分布に対応す
る学習データ量を選択基準として用いることを特徴とす
る。本発明の音声認識装置は、前記要素分布選択手段
が、要素分布の選択において、記述長最小基準を選択基
準として用いることを特徴とする。本発明の音声認識装
置は、前記要素分布選択手段が、要素分布の選択におい
て、赤池情報量基準を選択基準として用いることを特徴
とする。
手段が、要素分布の選択において、ダイバージェンスを
分布間距離として用いることを特徴とする。本発明の音
声認識装置は、前記木構造作成手段が、学習データに対
する尤度を分布間距離として用いることを特徴とする。
本発明の音声認識装置は、混合分布を用いた確率モデル
として、隠れマルコフモデルを用いることを特徴とす
る。
施形態について説明する。図1は本発明の一実施形態に
よるの構成を示すブロック図である。図2の従来例と異
なる点は、標準パターン作成手段102と標準パターン
記憶手段103との間に標準パターン作成手段203を
挿入していることである。図1の音声認識装置のブロッ
クにおいて、図2の音声認識装置のブロックと同様な構
成(入力パターン作成手段102、標準パターン作成手
段101、標準パターン記憶手段103、認識手段10
4)に対しては、同一の符号を付し、詳細な説明を省略
する。
02は、入力される入力音声(話者の発生した音声信
号)から入力パターンを作成する。また、標準パターン
作成手段102は、従来例の説明で述べたように標準パ
ターンを作成する。標準パターン調節手段203は、作成
された標準パターンの 要素分布数を変更する。標準パ
ターン記憶手段103は作成された標準パターンを記憶
し、認識手段205は、入力された音声を標準パターンを
用いて認識し、認識結果を出力する。
えられた標準パターン調節手段203の動作について、
詳細に説明する。隠れマルコフモデル(HMM)の状態に
おける要素分布数の最適化の問題は、与えられたデータ
に対し最適な確率モデルを選択する問題とみなすことが
可能である。この確率モデルの選択においては、過去さ
まざまな情報量基準が提案されてきた。
長最小)を用いて分布数を最適化する方法を考える。ま
ず、ここで上記MDLの基準について説明する。記述長最
小(Minimum Description Length; MDL)基準は、最近の
情報理論および計算論的学習理論の研究から、データに
対し最適な確率モデルを選択する問題において、有効で
あることが実証されている。
「岩波講座応用数学11、情報と符合化の数理」、 岩波
書店(1994)(以下、文献2)の、249頁〜275頁に説明され
ている。AIC(Akaike Information Criterion;赤池情報
量基準)などと同様、なるべく簡単で、しかも、与えら
れたデータをよく 表現できるモデルが良いモデルであ
る、という理念を具現化した基準の一つである。
なかで、データs=s1,…,sNに対し、最も小さい記
述長を与えるモデルを 最適なモデルとする基準であ
る。 ここで、確率モデルiに対する記述長IMDL(i)は以
下の(18)式で与えられる。
、 θ(i)はデータXNを用いて推定された モデルiの自
由パラメータθ(i)=(θ1 (i),…,θαi (i))の最尤推
定量である。
する対数尤度(以下、尤度と記す)に負符号を付けた量で
あり、第2項はモデルの複雑さを表す量であり、第3項は
モデルiを選択するために要する記述長である。このよ
うに、モデルがより複雑なほど、データに対する尤度が
大きくなり、したがって 第1項の値は減少する。一方、
モデルが複雑になれば、自由パラメータ数が増加するた
め、第2項の値は増加する。このように、第1項と第2項
の間にはトレードオフの関係があり、記述長IMDL(i)
は、適当な複雑さを有するモデルで最小値をとることが
期待される。
素分布数最適化アルゴリズムは、以下の通りである。ま
ず、通常の手順で学習データを用いた混合ガウス分布HM
Mの学習を行う。この際、要素分布数は全状態にわたり
一定とし、上限と考えられる数まで、要素分布数を増や
したHMMを学習する。また、学習の過程で要素分布ごと
の占有度数γ' t(i,k)を保存しておく。ここでiは状態の
添字、kは状態における要素分布の添字である。
状態において要素分布数の最適化を行う。なお、この先
は一つの状態iについてのみ説明することにし、状態の
添字iを省略する。標準パターン調整手段203は、他
の状態に対しても同じ処理を行う。まず、標準パターン
調整手段203は、内部の木構造作成手段により、状態
ごとに要素分布の木構造を作成する。ここで、ルートは
一つの分布であり、リーフは各要素分布である。
は様々な方法が考えられるが、ここでは2分木をk-means
アルゴリズムを用いて作成する。また、各要素分布間の
距離(分布間距離)としては、カルバックダイバージェ
ンスを用いる。このカルバックダイバージェンスは、ガ
ウス分布の平均・共分散の値から容易に計算できる。こ
の要素分布の木構造作成方法については、特許第002
531073号,上記文献2に詳細に記載されている。
記木構造の各ノードの分布(ノード分布)の分散を求め
る。ここで、各ノード分布の分散は、その支配するすべ
てのリーフの要素分布の占有度数とガウス分布パラメー
タから求められる。今、この木構造を上下に分断するノ
ード分布の集合を「カット」と呼ぶ。このカットの数は
多数あるが、一つ一つのカットが、その状態における一
つの確率モデルとなる。ここで、MDL基準を用いて最適
なカットを求めることを考える。
のように計算される。ここで、カットUを構成するノー
ド分布を S1,…SMとする。 ここで、MはカットUにお
けるノード分布の個数である。これにより、データの分
布Smに対する尤度L(Sm)は以下に示す(19),(20)
式のように近似できる。
Kは共有標準パターンとして用いられる平均ベクトルお
よび分散の次元数である。また、(19)式において、μ
Sm,ΣSmは、それぞれ分布Smにおける平均ベクトルおよ
び分散である。
Uに対する記述長I(U)は、以下の(21)式のように記述す
ることができる。
数に相当する量であり、分割の方法によらず一定値であ
る。
すべての可能なカットに関して、記述長 l(U)を計算
し、最も小さいI(U)をもつカットUを選択する。このと
き、可能な分割の種類、すなわち、カットUの数は通常
大変多くなる。そこで、次のようなアルゴリズムを用い
ることにより、カットUの選択時の計算量を節約する。
以下、ある状態pの要素分布数最適化について述べる。
する。ここで、このノードをルートノードと呼ぶ。ルー
トノードの分布パラメータは、この状態に対応するすべ
ての要素分布に対応するすべてのデータサンプルから推
定される。例えば、木構造が2分木であり、ルートノー
ドの分布をS0、 その2つの子ノードの分布をS1、S2とし
たとき、親ノードから子ノードへ展開したときの記述長
の変化分は以下の(23)式で記述される。
Δ<0である場合、親ノードの展開を行い、一方、Δ>
0である場合、親ノードの展開を行わない。また、展開
するときには、さらに子ノードS1、S2それぞれについ
て、上述した処理と同様に、その子ノードへ展開したと
きの記述長の変化を計算し、展開するか否かを判断する
という処理を繰り返す。そして、すべてのノードの展開
が終ったとき、その展開の末端のノードの集合がカット
となり、そのノード分布が要素分布として選択されたこ
とになる。そして、改めて選択された分布のみを要素分
布としてもつ、混合ガウス分布HMMを作成し、その要素
分布を改めて学習におけるデータにより学習する手続き
を行う。
装置の説明である。ここでは、隠れマルコフモデル(HM
M)を例にして説明したが、モデルが混合ガウス分布で
ある場合にも容易に適用可能である。これは、請求項1
0の発明に対応している。また、上述した一実施形態の
説明では、音響モデル学習について説明したが、使用者
の少量の発声を用いて標準パターンの修正を行うよう
な、話者適応を行う際にも、話者適応用データを用いて
要素分布数の調節を行うことが可能である。この場合、
発明の音声認識装置の構成としては、標準パターン作成
手段のかわりに、標準パターン修正手段を用い、この標
準パターン修正手段への入力音声は、認識用の入力パタ
ーン作成手段に用いる話者と同一の話者の音声を用い
る。
においては、木構造による要素分布数の調節手段につい
て説明したが、ミニマックス法を用いたミニマックス分
布選択手段による調節も、以下のように行うことができ
る。以下、一つの状態について説明する。まず、学習デ
ータ中にある回数(X回)以上、出現した分布の集合をAと
し、そうでない分布をBとする。Aに属する分布とBに属
する分布とのの距離をすべて計算し、Bの分布のうち、
最も近いAの分布からの距離が最も大きい分布を取り除
く。
も近いAの分布からの距離が最も大きい分布を取り除
く。この手続きを分布数が予め定めた最小分布数になる
まで繰り返す。そして、最小分布数より小さくならない
(すなわち、Bの分布数が小さい)ときには、その時点
で上述の処理を停止する。以上は、請求項4の発明に対
応する。
択にMDL基準を用いたが、データ量閾値を用いることも
可能である。すなわち、データ量が有る閾値以上ある分
布のうちもっともリーフに近い分布の集合をカットとす
る。 以上は、請求項5の発明に対応する。
準としてMDL基準を用いる場合についてのみ説明した
が、赤池情報量基準(AIC)を用いた場合、あるいは他の
類似の情報量基準を用いた場合においても容易に適用可
能である。 以上は、請求項7の発明に対応する。
ジェンスを分布間の距離として用いたが、分布を共有し
たときの尤度の増分を距離値として用いることもでき
る。以上は、請求項9の発明に対応する。
て詳述してきたが、具体的な構成はこの実施形態に限ら
れるものではなく、本発明の要旨を逸脱しない範囲の設
計変更等があっても本発明に含まれる。
加えたパラメータ調節手段を用いて、混合ガウス分布を
用いたパターン認識において、音声の標準パターンの要
素分布数を、HMMの状態毎に要素分布数を最適化、すな
わち、HMMの状態毎に認識性能が高くなる要素分布数に
調節することにより、不必要な要素分布を省くことがで
き、過学習による未知の音声データに対する劣化を防止
することとなり、高性能な音声認識を行うことが可能に
なる。
成を示すブロック図である。
ック図である。
Claims (10)
- 【請求項1】 混合分布を用いた確率モデルを用いる音
声認識装置であって、 標準パターンを保持する標準パターン記憶手段と、 音声を入力とし標準パターンを用いて認識結果を出力す
る認識手段と、 学習用音声を入力とし標準パターンを作成する標準パタ
ーン作成手段と、 標準パターンの混合分布の要素分布数を調節する標準パ
ターン調節手段とを具備することを特徴とする音声認識
装置。 - 【請求項2】 混合分布を用いた確率モデルを用いる音
声認識装置であって、 標準パターンを保持する標準パターン記憶手段と、 音声を入力とし標準パターンを用いて認識結果を出力す
る認識手段と、 適応化用音声を入力とし標準パターンを修正する標準パ
ターン修正手段と、 標準パターンの混合分布の要素分布数を調節する標準パ
ターン調節手段とを具備することを特徴とする音声認識
装置。 - 【請求項3】 要素分布の木構造を作成する木構造作成
手段と、学習データを入力として分布を選択する要素分
布選択手段とから構成される標準パターン調節手段を具
備することを特徴とする請求項1または請求項2に記載
の音声認識装置。 - 【請求項4】 前記標準パターン調節手段が、要素分布
の選択にミニマックス法を用いるミニマックス分布選択
手段を具備することを特徴とする請求項1または請求項
2に記載の音声認識装置。 - 【請求項5】 前記要素分布選択手段が、要素分布の選
択において各要素分布に対応する学習データ量を選択基
準として用いることを特徴とする請求項3に記載の音声
認識装置。 - 【請求項6】 前記要素分布選択手段が、要素分布の選
択において、記述長最小基準を選択基準として用いるこ
とを特徴とする請求項3に記載の音声認識装置。 - 【請求項7】 前記要素分布選択手段が、要素分布の選
択において、赤池情報量基準を選択基準として用いるこ
とを特徴とする請求項3に記載の音声認識装置。 - 【請求項8】 前記木構造作成手段が、要素分布の選択
において、ダイバージェンスを分布間距離として用いる
ことを特徴とする請求項3に記載の音声認識装置。 - 【請求項9】 前記木構造作成手段が、学習データに対
する尤度を分布間距離として用いることを特徴とする請
求項3に記載の音声認識装置。 - 【請求項10】 混合分布を用いた確率モデルとして、
隠れマルコフモデルを用いることを特徴とする請求項1
から請求項9のいずれかに記載の音声認識装置。
Priority Applications (4)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
JP2001070108A JP4336865B2 (ja) | 2001-03-13 | 2001-03-13 | 音声認識装置 |
EP02005277A EP1241661B1 (en) | 2001-03-13 | 2002-03-11 | Speech recognition apparatus |
DE60204374T DE60204374T2 (de) | 2001-03-13 | 2002-03-11 | Spracherkennungsvorrichtung |
US10/093,915 US7437288B2 (en) | 2001-03-13 | 2002-03-11 | Speech recognition apparatus |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
JP2001070108A JP4336865B2 (ja) | 2001-03-13 | 2001-03-13 | 音声認識装置 |
Publications (2)
Publication Number | Publication Date |
---|---|
JP2002268675A true JP2002268675A (ja) | 2002-09-20 |
JP4336865B2 JP4336865B2 (ja) | 2009-09-30 |
Family
ID=18928034
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
JP2001070108A Expired - Lifetime JP4336865B2 (ja) | 2001-03-13 | 2001-03-13 | 音声認識装置 |
Country Status (4)
Country | Link |
---|---|
US (1) | US7437288B2 (ja) |
EP (1) | EP1241661B1 (ja) |
JP (1) | JP4336865B2 (ja) |
DE (1) | DE60204374T2 (ja) |
Cited By (4)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
JP2005338358A (ja) * | 2004-05-26 | 2005-12-08 | Nippon Telegr & Teleph Corp <Ntt> | 音響モデル雑音適応化方法およびこの方法を実施する装置 |
KR100664960B1 (ko) | 2005-10-06 | 2007-01-04 | 삼성전자주식회사 | 음성 인식 장치 및 방법 |
JP2007233308A (ja) * | 2006-03-03 | 2007-09-13 | Mitsubishi Electric Corp | 音声認識装置 |
JP2015036769A (ja) * | 2013-08-14 | 2015-02-23 | 日本電信電話株式会社 | 雑音抑圧装置、雑音抑圧方法、およびプログラム |
Families Citing this family (26)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
US7966187B1 (en) * | 2001-02-15 | 2011-06-21 | West Corporation | Script compliance and quality assurance using speech recognition |
JP4069715B2 (ja) * | 2002-09-19 | 2008-04-02 | セイコーエプソン株式会社 | 音響モデル作成方法および音声認識装置 |
JP4194433B2 (ja) * | 2003-07-07 | 2008-12-10 | キヤノン株式会社 | 尤度算出装置および方法 |
JP2005156593A (ja) * | 2003-11-20 | 2005-06-16 | Seiko Epson Corp | 音響モデル作成方法、音響モデル作成装置、音響モデル作成プログラムおよび音声認識装置 |
JP4442211B2 (ja) * | 2003-12-12 | 2010-03-31 | セイコーエプソン株式会社 | 音響モデル作成方法 |
US20060058999A1 (en) * | 2004-09-10 | 2006-03-16 | Simon Barker | Voice model adaptation |
US20070088552A1 (en) * | 2005-10-17 | 2007-04-19 | Nokia Corporation | Method and a device for speech recognition |
CN100502463C (zh) * | 2005-12-14 | 2009-06-17 | 浙江工业大学 | 一种交通流信息视频检测中的特征采集方法 |
US7680664B2 (en) * | 2006-08-16 | 2010-03-16 | Microsoft Corporation | Parsimonious modeling by non-uniform kernel allocation |
US9141860B2 (en) | 2008-11-17 | 2015-09-22 | Liveclips Llc | Method and system for segmenting and transmitting on-demand live-action video in real-time |
US8725510B2 (en) * | 2009-07-09 | 2014-05-13 | Sony Corporation | HMM learning device and method, program, and recording medium |
US20130283143A1 (en) | 2012-04-24 | 2013-10-24 | Eric David Petajan | System for Annotating Media Content for Automatic Content Understanding |
US9367745B2 (en) | 2012-04-24 | 2016-06-14 | Liveclips Llc | System for annotating media content for automatic content understanding |
US10218630B2 (en) | 2014-10-30 | 2019-02-26 | Pearson Education, Inc. | System and method for increasing data transmission rates through a content distribution network |
US10318499B2 (en) | 2014-10-30 | 2019-06-11 | Pearson Education, Inc. | Content database generation |
US10116563B1 (en) | 2014-10-30 | 2018-10-30 | Pearson Education, Inc. | System and method for automatically updating data packet metadata |
US9667321B2 (en) * | 2014-10-31 | 2017-05-30 | Pearson Education, Inc. | Predictive recommendation engine |
US10333857B1 (en) | 2014-10-30 | 2019-06-25 | Pearson Education, Inc. | Systems and methods for data packet metadata stabilization |
US10110486B1 (en) | 2014-10-30 | 2018-10-23 | Pearson Education, Inc. | Automatic determination of initial content difficulty |
US10713225B2 (en) | 2014-10-30 | 2020-07-14 | Pearson Education, Inc. | Content database generation |
US10735402B1 (en) | 2014-10-30 | 2020-08-04 | Pearson Education, Inc. | Systems and method for automated data packet selection and delivery |
US10614368B2 (en) | 2015-08-28 | 2020-04-07 | Pearson Education, Inc. | System and method for content provisioning with dual recommendation engines |
US10789316B2 (en) | 2016-04-08 | 2020-09-29 | Pearson Education, Inc. | Personalized automatic content aggregation generation |
US10642848B2 (en) | 2016-04-08 | 2020-05-05 | Pearson Education, Inc. | Personalized automatic content aggregation generation |
US11188841B2 (en) | 2016-04-08 | 2021-11-30 | Pearson Education, Inc. | Personalized content distribution |
US10043133B2 (en) | 2016-04-08 | 2018-08-07 | Pearson Education, Inc. | Systems and methods of event-based content provisioning |
Family Cites Families (20)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
US4903305A (en) * | 1986-05-12 | 1990-02-20 | Dragon Systems, Inc. | Method for representing word models for use in speech recognition |
US5243686A (en) * | 1988-12-09 | 1993-09-07 | Oki Electric Industry Co., Ltd. | Multi-stage linear predictive analysis method for feature extraction from acoustic signals |
US5263120A (en) * | 1991-04-29 | 1993-11-16 | Bickel Michael A | Adaptive fast fuzzy clustering system |
US5325445A (en) | 1992-05-29 | 1994-06-28 | Eastman Kodak Company | Feature classification using supervised statistical pattern recognition |
JP2531073B2 (ja) | 1993-01-14 | 1996-09-04 | 日本電気株式会社 | 音声認識システム |
JP2751856B2 (ja) * | 1995-02-03 | 1998-05-18 | 日本電気株式会社 | 木構造を用いたパターン適応化方式 |
JP3092491B2 (ja) * | 1995-08-30 | 2000-09-25 | 日本電気株式会社 | 記述長最小基準を用いたパターン適応化方式 |
JP2852210B2 (ja) | 1995-09-19 | 1999-01-27 | 株式会社エイ・ティ・アール音声翻訳通信研究所 | 不特定話者モデル作成装置及び音声認識装置 |
US5787394A (en) * | 1995-12-13 | 1998-07-28 | International Business Machines Corporation | State-dependent speaker clustering for speaker adaptation |
JP2982689B2 (ja) * | 1996-04-19 | 1999-11-29 | 日本電気株式会社 | 情報量基準を用いた標準パターン作成方式 |
US5806030A (en) * | 1996-05-06 | 1998-09-08 | Matsushita Electric Ind Co Ltd | Low complexity, high accuracy clustering method for speech recognizer |
US6064958A (en) * | 1996-09-20 | 2000-05-16 | Nippon Telegraph And Telephone Corporation | Pattern recognition scheme using probabilistic models based on mixtures distribution of discrete distribution |
JPH10149192A (ja) | 1996-09-20 | 1998-06-02 | Nippon Telegr & Teleph Corp <Ntt> | パターン認識方法、装置およびその記憶媒体 |
US5708759A (en) * | 1996-11-19 | 1998-01-13 | Kemeny; Emanuel S. | Speech recognition using phoneme waveform parameters |
JP3088357B2 (ja) | 1997-09-08 | 2000-09-18 | 株式会社エイ・ティ・アール音声翻訳通信研究所 | 不特定話者音響モデル生成装置及び音声認識装置 |
JP3009640B2 (ja) | 1997-09-10 | 2000-02-14 | 株式会社エイ・ティ・アール音声翻訳通信研究所 | 音響モデル生成装置及び音声認識装置 |
US5937385A (en) * | 1997-10-20 | 1999-08-10 | International Business Machines Corporation | Method and apparatus for creating speech recognition grammars constrained by counter examples |
JPH11143486A (ja) | 1997-11-10 | 1999-05-28 | Fuji Xerox Co Ltd | 話者適応装置および方法 |
US6141641A (en) * | 1998-04-15 | 2000-10-31 | Microsoft Corporation | Dynamically configurable acoustic model for speech recognition system |
US6246982B1 (en) * | 1999-01-26 | 2001-06-12 | International Business Machines Corporation | Method for measuring distance between collections of distributions |
-
2001
- 2001-03-13 JP JP2001070108A patent/JP4336865B2/ja not_active Expired - Lifetime
-
2002
- 2002-03-11 US US10/093,915 patent/US7437288B2/en not_active Expired - Lifetime
- 2002-03-11 EP EP02005277A patent/EP1241661B1/en not_active Expired - Lifetime
- 2002-03-11 DE DE60204374T patent/DE60204374T2/de not_active Expired - Lifetime
Cited By (5)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
JP2005338358A (ja) * | 2004-05-26 | 2005-12-08 | Nippon Telegr & Teleph Corp <Ntt> | 音響モデル雑音適応化方法およびこの方法を実施する装置 |
JP4510517B2 (ja) * | 2004-05-26 | 2010-07-28 | 日本電信電話株式会社 | 音響モデル雑音適応化方法およびこの方法を実施する装置 |
KR100664960B1 (ko) | 2005-10-06 | 2007-01-04 | 삼성전자주식회사 | 음성 인식 장치 및 방법 |
JP2007233308A (ja) * | 2006-03-03 | 2007-09-13 | Mitsubishi Electric Corp | 音声認識装置 |
JP2015036769A (ja) * | 2013-08-14 | 2015-02-23 | 日本電信電話株式会社 | 雑音抑圧装置、雑音抑圧方法、およびプログラム |
Also Published As
Publication number | Publication date |
---|---|
DE60204374D1 (de) | 2005-07-07 |
DE60204374T2 (de) | 2006-03-16 |
US7437288B2 (en) | 2008-10-14 |
EP1241661A1 (en) | 2002-09-18 |
JP4336865B2 (ja) | 2009-09-30 |
US20020184020A1 (en) | 2002-12-05 |
EP1241661B1 (en) | 2005-06-01 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
JP4336865B2 (ja) | 音声認識装置 | |
JP5418223B2 (ja) | 音声分類装置、音声分類方法、および音声分類用プログラム | |
US5812975A (en) | State transition model design method and voice recognition method and apparatus using same | |
US7587321B2 (en) | Method, apparatus, and system for building context dependent models for a large vocabulary continuous speech recognition (LVCSR) system | |
JPH0962291A (ja) | 記述長最小基準を用いたパターン適応化方式 | |
JPWO2007105409A1 (ja) | 標準パタン適応装置、標準パタン適応方法および標準パタン適応プログラム | |
JP2751856B2 (ja) | 木構造を用いたパターン適応化方式 | |
JP2004109590A (ja) | 音響モデル作成方法および音声認識装置 | |
JP3176210B2 (ja) | 音声認識方法及び音声認識装置 | |
JP3589044B2 (ja) | 話者適応化装置 | |
JP2003005785A (ja) | 音源の分離方法および分離装置 | |
JP2004117503A (ja) | 音声認識用音響モデル作成方法、その装置、そのプログラムおよびその記録媒体、上記音響モデルを用いる音声認識装置 | |
JP4394972B2 (ja) | 音声認識用音響モデル生成方法及び装置、音声認識用音響モデル生成プログラムを記録した記録媒体 | |
JP4256314B2 (ja) | 音声認識用音響モデル作成方法、音声認識用音響モデル作成装置、音声認識用音響モデル作成プログラム及びこのプログラムを記録した記録媒体 | |
JP2982689B2 (ja) | 情報量基準を用いた標準パターン作成方式 | |
JPH06266384A (ja) | 音響モデル適応方式 | |
JPH08110792A (ja) | 話者適応化装置及び音声認識装置 | |
JPH0895592A (ja) | パターン認識方法 | |
JP5104732B2 (ja) | 拡張認識辞書学習装置、これを用いた音声認識システム、その方法及びそのプログラム | |
JP2005091504A (ja) | 音声認識装置 | |
JP2976795B2 (ja) | 話者適応化方式 | |
JPH0822296A (ja) | パターン認識方法 | |
JP2005321660A (ja) | 統計モデル作成方法、その装置、パターン認識方法、その装置、これらのプログラム、その記録媒体 | |
JPH10149189A (ja) | 音声認識のための単語モデル生成装置及び音声認識装置 | |
JP4037709B2 (ja) | 音声認識方法及び音声認識システム |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
A621 | Written request for application examination |
Free format text: JAPANESE INTERMEDIATE CODE: A621 Effective date: 20051213 |
|
A977 | Report on retrieval |
Free format text: JAPANESE INTERMEDIATE CODE: A971007 Effective date: 20080501 |
|
RD03 | Notification of appointment of power of attorney |
Free format text: JAPANESE INTERMEDIATE CODE: A7423 Effective date: 20080508 |
|
RD04 | Notification of resignation of power of attorney |
Free format text: JAPANESE INTERMEDIATE CODE: A7424 Effective date: 20080508 |
|
A131 | Notification of reasons for refusal |
Free format text: JAPANESE INTERMEDIATE CODE: A131 Effective date: 20080610 |
|
A521 | Request for written amendment filed |
Free format text: JAPANESE INTERMEDIATE CODE: A523 Effective date: 20080811 |
|
A131 | Notification of reasons for refusal |
Free format text: JAPANESE INTERMEDIATE CODE: A131 Effective date: 20080916 |
|
A521 | Request for written amendment filed |
Free format text: JAPANESE INTERMEDIATE CODE: A523 Effective date: 20081117 |
|
A02 | Decision of refusal |
Free format text: JAPANESE INTERMEDIATE CODE: A02 Effective date: 20090106 |
|
RD01 | Notification of change of attorney |
Free format text: JAPANESE INTERMEDIATE CODE: A7421 Effective date: 20090205 |
|
A521 | Request for written amendment filed |
Free format text: JAPANESE INTERMEDIATE CODE: A821 Effective date: 20090206 |
|
A521 | Request for written amendment filed |
Free format text: JAPANESE INTERMEDIATE CODE: A523 Effective date: 20090309 |
|
A911 | Transfer to examiner for re-examination before appeal (zenchi) |
Free format text: JAPANESE INTERMEDIATE CODE: A911 Effective date: 20090408 |
|
RD01 | Notification of change of attorney |
Free format text: JAPANESE INTERMEDIATE CODE: A7421 Effective date: 20090508 |
|
TRDD | Decision of grant or rejection written | ||
A01 | Written decision to grant a patent or to grant a registration (utility model) |
Free format text: JAPANESE INTERMEDIATE CODE: A01 Effective date: 20090602 |
|
A01 | Written decision to grant a patent or to grant a registration (utility model) |
Free format text: JAPANESE INTERMEDIATE CODE: A01 |
|
A61 | First payment of annual fees (during grant procedure) |
Free format text: JAPANESE INTERMEDIATE CODE: A61 Effective date: 20090615 |
|
R150 | Certificate of patent or registration of utility model |
Ref document number: 4336865 Country of ref document: JP Free format text: JAPANESE INTERMEDIATE CODE: R150 Free format text: JAPANESE INTERMEDIATE CODE: R150 |
|
FPAY | Renewal fee payment (event date is renewal date of database) |
Free format text: PAYMENT UNTIL: 20120710 Year of fee payment: 3 |
|
FPAY | Renewal fee payment (event date is renewal date of database) |
Free format text: PAYMENT UNTIL: 20120710 Year of fee payment: 3 |
|
FPAY | Renewal fee payment (event date is renewal date of database) |
Free format text: PAYMENT UNTIL: 20130710 Year of fee payment: 4 |
|
EXPY | Cancellation because of completion of term |