JPH07152394A - 結合されたストリングモデルの最小誤認率訓練 - Google Patents
結合されたストリングモデルの最小誤認率訓練Info
- Publication number
- JPH07152394A JPH07152394A JP6169865A JP16986594A JPH07152394A JP H07152394 A JPH07152394 A JP H07152394A JP 6169865 A JP6169865 A JP 6169865A JP 16986594 A JP16986594 A JP 16986594A JP H07152394 A JPH07152394 A JP H07152394A
- Authority
- JP
- Japan
- Prior art keywords
- string
- models
- model
- signal
- speech recognition
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Granted
Links
- 238000012549 training Methods 0.000 title claims abstract description 69
- 238000000034 method Methods 0.000 claims abstract description 37
- 230000006870 function Effects 0.000 claims description 29
- 238000012986 modification Methods 0.000 claims description 2
- 230000004048 modification Effects 0.000 claims description 2
- 239000013598 vector Substances 0.000 description 10
- 238000012545 processing Methods 0.000 description 7
- 230000007704 transition Effects 0.000 description 6
- 238000013459 approach Methods 0.000 description 5
- 238000004422 calculation algorithm Methods 0.000 description 4
- 238000006243 chemical reaction Methods 0.000 description 4
- 239000011159 matrix material Substances 0.000 description 4
- 230000002860 competitive effect Effects 0.000 description 3
- 239000000463 material Substances 0.000 description 3
- 239000000203 mixture Substances 0.000 description 3
- 238000012360 testing method Methods 0.000 description 3
- 206010048669 Terminal state Diseases 0.000 description 2
- 238000010586 diagram Methods 0.000 description 2
- 230000014509 gene expression Effects 0.000 description 2
- 230000035945 sensitivity Effects 0.000 description 2
- 238000002922 simulated annealing Methods 0.000 description 2
- 235000003930 Aegle marmelos Nutrition 0.000 description 1
- 244000058084 Aegle marmelos Species 0.000 description 1
- 238000004458 analytical method Methods 0.000 description 1
- 238000004364 calculation method Methods 0.000 description 1
- 230000001149 cognitive effect Effects 0.000 description 1
- 230000002844 continuous effect Effects 0.000 description 1
- 238000007796 conventional method Methods 0.000 description 1
- 230000001419 dependent effect Effects 0.000 description 1
- 239000006185 dispersion Substances 0.000 description 1
- 230000000694 effects Effects 0.000 description 1
- 239000000284 extract Substances 0.000 description 1
- 238000010348 incorporation Methods 0.000 description 1
- 230000010354 integration Effects 0.000 description 1
- 238000003909 pattern recognition Methods 0.000 description 1
- 238000011160 research Methods 0.000 description 1
- 238000013077 scoring method Methods 0.000 description 1
- 238000010845 search algorithm Methods 0.000 description 1
- 230000001360 synchronised effect Effects 0.000 description 1
Classifications
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L15/00—Speech recognition
- G10L15/06—Creation of reference templates; Training of speech recognition systems, e.g. adaptation to the characteristics of the speaker's voice
- G10L15/063—Training
Landscapes
- Engineering & Computer Science (AREA)
- Artificial Intelligence (AREA)
- Computational Linguistics (AREA)
- Health & Medical Sciences (AREA)
- Audiology, Speech & Language Pathology (AREA)
- Human Computer Interaction (AREA)
- Physics & Mathematics (AREA)
- Acoustics & Sound (AREA)
- Multimedia (AREA)
- Machine Translation (AREA)
Abstract
スクのための音声パラメータベースの訓練に関する。 【構成】 音声認識モデルデータベースを作成する方法
が開示される。このデータベースは一つの訓練ストリン
グ発声信号と複数のセットの現音声認識モデルに基づい
て形成される。これら複数のセットの現音声認識モデル
は複数の音響モデル、言語モデル、及び他の認識源(kn
owledge sources )を含む。本発明の一例としての実現
においては、ある一つのセットの複数の混同し易い(co
nfusable)ストリングモデルが生成されるが、各々の混
同し易いストリングモデルは二つ或はそれ以上のセット
の複数の音声認識モデル(例えば、音響及び言語モデ
ル)からの複数の音声認識モデルから構成される。訓練
ストリング発声信号とその発声に対するストリングモデ
ルに基づいて第一のスコアリング信号が生成されるが、
ここで、この発声に対するストリングモデルは二つ或は
それ以上のセットの複数の音声認識モデルからの複数の
音声認識モデルから構成される。
Description
タベース(pattern database)の訓練、より詳細には、
音声認識などのような音声処理タスクのための音声パタ
ーンデータベースの訓練に関する。
の底辺に横たわる単語シーケンス(underlying word se
quence)を識別(つまり、認識)することにある。認識
は、セットの音声認識パターン或はモデル(以降モデル
と呼ばれる)を使用して遂行される。これらの基本音声
認識モデルは単語及び単語のストリング、例えば、句
(phrase)或は文(sentence)に対する構築ブロックで
ある。近年、これらの基本音声認識ユニットを連続音声
認識のためにいかに選択及び表現(represent )するか
の問題に大きな研究努力が集中されている。
プローチは、音響認識モデル、例えば、テンプレート
(template;鋳型)或は隠れマルコフモデル(hidden M
arkovmodel (HMM)を使用する統計的パターン認識
アプローチである。語彙(vocabulary)の辞書編集的記
述(lexical description )に基づいて、音響音声認識
モデルが規定され、これらのパラメータが次に訓練(tr
aining)として知られているプロセスを通じて統計的に
決定される。これらの基本モデルは語彙表上の単語(wo
rds )或はサブワード(例えば、言語学に基づく音素の
音響的表明である単音など)を反映する。連続音声認識
に対するこのアプローチにおいて一般的に行なわれる一
つの想定は、流暢に話された単語のシーケンス、つま
り、単語ストリング(string)は、そのストリング内の
単語の辞書編集的記述に従って(単語あるいはサブワー
ドの)基本音声認識モデルの線型連結(linear concate
nation)によって十分に表現できるという想定である。
慣習的には、これは、音声認識モデルの連結が訓練トー
クン(例えば、単語)から直接に推定できることを意味
する。音響認識モデルの連結は、単語ストリングモデル
(string model)のタイプに属する単語ストリングのモ
デルを形成する。連続音声認識においては、複数のスト
リングモデルがある与えられた認識タスクに対して仮説
される。個々の比較の一致の程度(closeness )が認識
スコア(recognition score )によって示される。連続
発声と最も良く一致するストリングモデルがその発声を
“認識(recognizes)”するものとされる。
プローチは、単語ストリングモデルを非(non)音響認識
モデルにて補強(augment )する方法である。この非音
響認識モデルには、様々あるがしいて挙げれば、言語モ
デル、音韻に基づくモデル、意味論的モデル、統語論的
モデル(syntactic models)、及び他の認識源(例え
ば、ピッチ、エネルギ、会話速度、継続期間等)が含ま
れる。このようなアプローチの一つにおいては、ある単
語ストリングは音響モデル、言語モデル等のある一つの
結合(combination )としてモデル化される。個々のモ
デルからの認識スコアが一つの全体としてのストリング
モデル認識スコアに合体(incorporate )される。複数
のスコアのある一つのストリングモデル認識スコアへの
この合体(incorporation )は、例えば、個々の複数の
ストリングモデルからの個々の複数の認識スコアの重み
付けされた総和(weighted sum)によって達成される。
練は、個別ベース(individualizedbasis)で遂行され
る。例えば、音響モデル訓練においては、訓練音声が個
別の複数の単語或はサブワードの訓練トークン(traini
ng tokens )にセグメント化される。従って個々の複数
の音響モデルがより長い訓練発声から孤立化された複数
の訓練トークンにて訓練される。さらに、音響及び他の
複数のモデルが個別に訓練され、一方において、これら
複数のモデルを認識の目的のために結合するために使用
される複数のパラメータが発見論的に選択され、他のモ
デルの訓練から分離及び孤立化される。
練の全ては、このような複数のモデルが連続音声認識の
目的に対して一体となって(together)使用できるとい
う事実を信じて(beliesする)行なわれる。つまり、連
続音声認識は、複数のモデルの結合(つまり、ストリン
グモデル)がいかに良好に一つの全体としての未知のス
トリングと一致するかに立脚する。複数のモデルのある
一つの結合(combination )が各ストリングモデルがそ
の集団(aggregate )内の未知のストリングとどれぐら
い良く一致するかに基づいて他の結合に優先して選択さ
れる。この集団としての比較(aggregate comparison)
はその結合のグローバルスコア(global score)と呼ば
れる。従って、ある連続音声認識器が誤認を行なったよ
うな場合でも、これは、グローバル或はストリングレベ
ル(string level)において行なわれた比較において誤
認を起こしたものであり、複数のモデル或は他の情報源
が訓練された個別化されたレベルにおいて誤認を起こし
たものではないと信じられる。この訓練思想と認識思想
との間のレベルの“食い違い(discrepacy)”のため
に、連続音声認識の性能は要求されるものよりも低いの
が現状である。
ーバルストリングレベルにて低減、例えば、最小にする
ための(複数の音響モデル、言語モデル、及び他の認識
源を含む)複数の音声認識モデルを訓練するために適当
な技法を提供する。本発明はストリングレベルモデルの
マッチングに対して差別的分析(discriminative analy
sis )を適用する。
データベースからの単一の辞書編集的ストリング(lexi
cal string)に基づいてセットの複数の混同し易いスト
リングモデル(confusable string models)が生成され
る。各ストリングモデルは複数の音響及び言語モデルの
結合(combination )から構成される。訓練データベー
スからある訓練ストリングトークンを与えられると、音
響、言語及び結合モデルのパラメータがその辞書編集的
ストリングモデルがそのセットの複数の混同し易いスト
リングモデル間で最良の認識スコアを示す確率を改善さ
せるように推定され、こうして、ストリング誤認率が低
減される。
ある特別に設計された損失関数(loss function )の使
用によって得られる。この損失関数は競合する複数のス
トリングモデルを考慮に入れることによって複数の音声
認識ユニットモデル内のストリングレベルのアロホニッ
クバリエーション(allophonic variations )を収容す
る。競合するストリングモデルのスコアリング差(scor
ing differential)と期待されるストリング誤認との間
の間の関係を確立することによって、期待される誤差の
最小化が、辞書編集的ストリングモデルと他の複数の混
同し易いストリングモデルとの間に正しいスコアランク
順位(crrect score rank order )を持つ確率の最大化
と直接に関係付けられる。
(“プロセッサ(processors)”と呼ばれる機能ブロッ
クを含む)個々の機能ブロックから構成されるものとし
て説明される。これらブロックが表わす機能は共有或は
専用ハードウエアのいずれかの使用を通じて提供され、
これらハードウエアには、これに限定されるものではな
いが、ソフトウエアを実行する能力のあるハードウエア
が含まれる。例えば、図1、2、或は3内に表わされる
プロセッサの機能は、単一の共有プロセッサによって提
供される。(用語“プロセッサ”の使用は、ソフトウエ
アを実行する能力をハードウエアを排他的に指すものと
解釈されるべきではない。)
られる動作を遂行するソフトウエアを格納するためのデ
ジタル信号プロセッサ(digital signal processor、D
SP)ハードウエア、例えば、AT&T DSP16 或はDSP32C
読出し専用メモリ(read-only memory、ROM)、及び
DSPの結果を格納するためのランダムアクセスメモリ
(random access memory、RAM)から構成される。大
規模集積(Very largescale integration(VLSI)
ハードウエア実現、並びに、汎用DSP回路と組合わせ
られたカスタムVLSI回路を提供することもできる。
erance)が(通常、デジタルPCM信号の形式にて)識
別されるプロセスである。一般的には、音声認識は未知
の(unknown )の発声の特徴を既知の(known )の単語
或は単語ストリングの特徴と比較することによって遂行
される。
(speech recognizer )はそれを特性化するために発声
から特徴を抽出する。未知の発声の特徴はテストパター
ン(test pattern)と呼ばれる。認識器は次にデータベ
ース内の一つ或は複数の参照(reference patterns)の
複数の結合(combinations)を未知の発声のテストパタ
ーンと比較する。参照パターン(reference pattern )
の個々の結合(combination )がテストパターンとどれ
くらい良く一致するかの相対的尺度(relativemeasur
e)を提供するためにスコアリング(scoring )技法が
使用される。未知の発声は一つ或はそれ以上の参照パタ
ーンのその未知の発声と最も良く一致する結合と関連す
る複数の単語(words )であると認識される。
めの音声認識システム1を示す。このシステムは、訓練
音声データベース10、特徴抽出器20、モードスイッ
チ15、30、スコアリング比較器40、スコアプロセ
ッサ50、従来のHMMトレーナ60、認識モデルパラ
メータデータベース70、N−最良ストリングモデル発
生器、及び改善されたトレイナ(enhanced trainer)8
0を含む。
ning speech database)10は、デジタル形式の既知の
音声信号のサンプルを含む。個々の音声信号は一つ或は
それ以上の発声された単語のストリング(string)に対
応する。これらサンプルは、それぞれ、従来のトレイナ
60及び改善されたトレイナ80の目的のために使用さ
れる。データベース10からの既知の音声ストリングの
サンプルがモードスイッチ(mode switch )15を介し
てシステム1の他の要素に提供される。
動作モード:つまり、訓練(training、T)モード及び
認識(recognition 、R)モードを反映する。スイッチ
15がT位置(或は状態)にあるときは、データベース
10からの訓練音声は、訓練セクション90によって訓
練が遂行されるようなシステム1のバランス(balance
)に対して提供される。スイッチ15がR位置にある
ときは、デジタル形式での未知の音声発声(信号)が認
識セクション95にって認識されるようなシステム1の
バランスに対して提供される。
tor )20はモードスイッチ15に結合される。モード
スイッチ15の状態に依存して、抽出器20は、訓練或
は未知の音声信号ストリングを受信する。受信された音
声信号に基づいて、抽出器20は、受信された音声を特
性化する一つ或はそれ以上の特徴ベクルト(featurevec
tors )Xを生成する。特徴抽出器20は、例えば、フ
ィルタバンク特徴抽出器(filter bank feature extrac
tor )、線型予測符号化(linear predictivecoding、
LPC)特徴抽出器、或は離散フーリエ変換(discrete
Fourier transform、DFT)特徴抽出器などのような
任意の従来の特徴抽出器であり得る。
のモードスイッチ30に提供される。このモードスイッ
チ30はモードスイッチ15と協調動作する(tandem
にて動作する)、つまり、両方のスイッチは、これら両
方のスイッチ15、30に提供されるモード信号に基づ
いて、同時に、同一状態−−T或はRにセットされる。
モードスイッチ30は、抽出器20の出力をシステム1
の認識セクション或は訓練セクションのいずれかに向け
る。
リング比較器(scoring comparator)40及びスコアプ
ロセッサ(score processor )50を含む。スコアリン
グ比較器40は従来のものである。比較器40はストリ
ングモデル(string model)を未知の音声信号ストリン
グと関連付け、一致の程度(closeness )を示すスコア
を決定する。これらストリングモデルは、例えば、複数
の音響ストリングモデル(acoustic string models)及
び複数の言語ストリングモデル(language string mode
ls)の結合から構成される。複数の音響及び言語モデル
のための従来のスコアリング比較器を比較器40のため
に使用することができる。これに関しては、例えば、こ
こにあたかも完全に明らかにされているものとして参考
のために編入される、Lee 及びRabiner によってVo
l.37、No.4、IEEEE Trans.Acoust., Speech ,S
ig. Pro. 、1649−58(1989)に掲載の論文
『接続された単語認識のためのフレーム同期網探索アル
ゴリズム(A Frame Synchronous Network Search Algor
ithm for Connected Word Recognition )』を参照する
こと。また、本出願人と譲受人を同一とし、ここにあた
かも完全に明らかにされているものとして参考のために
導入される『隠れマルコフモデル音声認識構成(Hidden
Markov Model Speech Recognition Arrangement)』と
いう名称の合衆国特許第4,783,804号を参照す
ること。比較器40によって生成されるスコアはスコア
プロセッサ50に提供される。スコアプロセッサ50は
提供されたスコアのどちらが大きいか(greatest)を決
定し、そのスコアに対する(対して責務を持つ)単語の
ストリングを識別する。未知の音声信号ストリングがプ
ロセッサ50によってこうして識別されたストリングモ
デルと関連する既知の音声として認識される。プロセッ
サ50は出力のための識別された音声の表現(represen
tations )をモデルパラメータデータベース(model pa
rameter database)70(以下を参照)から得る。
のHMMトレイナ60、モデムパラメータデータベース
70、N−最良ストリングモデル発生器75、及び改善
されたトレイナ80から構成される。例えば、合衆国特
許第4,783,804号において説明されているよう
なHMMトレイナ60が音響HMMの従来の訓練を提供
する。
rameter database)70は、例えば、音響、言語等に基
づくm個のセットの複数の認識モデルの集まり(collec
tion)Λ={Λ1 、...、Λm }を格納する。本発明
のこの一例としての実現においては、Λ={ΛA 、Λ
L 、ΛC }であり、ここで、ΛA はセットの複数の音響
モデル、ΛL はセットの複数の言語モデル、そしてΛC
は結合モデル(combining model )を表わす。(ΛC は
グローバルストリングモデルを形成する目的でΛA 及び
ΛL を結合するときに使用されるセットのパラメータか
ら構成される。)
れ以上の従来のように訓練された音響HMM、ΛA 、並
びにそれにこのセットのHMMが根拠を持つ訓練音声ス
トリングの特徴ベクトルXから構成される。本発明のこ
の一例としての実施例の目的に対しては、従来のトレイ
ナ60によって提供される訓練の程度(degree)は特に
重要ではない。事実、従来のトレイナ60は(ささいな
ものであっても)HMMパラメータの初期セットΛI を
提供すること以上は要求されず、これは、読出し専用メ
モリから検索される。
パラメータとして発生器75及び改善されたトレイナ8
0によって使用されるためにモデルデータベース70内
に記録される。改善されたトレイナ80はデータベース
70からΛ及びXを受信し、データベース70にセット
の改善された(enhanced)或は更新された(updated)
HHMモデルΛU をリターンする。最終的に、改善され
たモデルΛU は、認識モードの際にスコアリング比較器
40に提供される。このスコアリング比較器40は改善
されたモデルΛU を使用し、低減されたストリング認識
エラー率を提供する。
デルΛ及び訓練音声ストリングXを受信し、辞書編集的
ストリングモデル(lexcical string model )と高度に
競合するセットの複数のストリングモデルを生成する。
これら競争力のある複数のストリングモデル(competit
ive string models )が改善されたトレイナ80の弁別
訓練(discriminative training )に対する基礎(basi
s )を提供する。
しやすい)ストリングモデルをN個の最良(混同しやす
い)単語ストリング(word strings)及び、これら個々
の単語ストリングに対する複数の対応するストリングモ
デルを決定することによって生成する。このN個の最良
単語ストリングの決定は、ここにあたかも完全に説明さ
れているかのように編入されるF.K.Soog及びE.F.Huang
によってProc.ICASSP(1991)に掲載の論文『連続
音声認識においてN個の最良文仮説を発見するための木
格子に基づく高速探索(A tree-trellis based fast se
arch for finding N-best sentence hypotheses in con
tinuous speech recognition)』において説明されるタ
イプの修正ビタビ復号器(modified Viterbi decorder
)の使用を通じて行なわれる。この復号器は、部分パ
スマップ(partial path map)、つまり、個々の時間瞬
間(time instant)において任意の文法ノード(つま
り、単語接合点)へと導く全ての部分パス(partial pa
ths )の全てのスコア(或はメトリックス)のリストを
準備する。文法ノード(grammar nodes )において、ユ
ニグラムタイプ(uingram-type)の言語モデルスコアが
このパススコアに加えられる。例えば、任意の単語に対
するユニグラム確率(unigram probability )の対数が
このパスがその与えられた単語の終端状態に到達したと
きにパススコアに加えられる。修正ビタビ前向き探索
(modified Viterbi forward search )の終端におい
て、復号器はA* トレースバック木探索手順(A* trac
eback tree-search procedure )を使用する。発生器7
5は木探索を遂行することによって“スタック(stack
)”(ランク順に並べられたデータリスト)の最上部
の所に最上(最良)部分パスを成長させる。スタック上
の全ての部分パスのランク順序(rank ordering )はあ
る部分パスが完結したとき達成することができる最良の
可能なスコアによって決定される。前向きビタビ探索に
おいて準備されたこの部分パスマップは後ろ向き木探索
(backward tree search)における任意の完結されてな
いパスに対するスコアを提供する。A* 手順の“最良最
早(best first)”性質のために、最上のN個のストリ
ングが順次に生成される。
y )、或は最適パス(optimal path)の確かな発見(su
re findings )は、スタックの深さが任意の探索エラー
を回避するために十分に深いという条件の下で、部分パ
スの完結されてない部分の上側境界(upper bound )が
スタック復号器内で使用された場合に保証される。この
木格子アルゴリズムにおいては、同一のHMM及び言語
モデルがその探索内で両方向に沿って使用されたとき、
パスの最も固い上側境界(tightest upper bound)或は
実スコア(actual score)が得られ、結果として、アル
ゴリズムの探索効率が最大にされるが、 このためにN
個の項目(entries )のスタックが必要とされる。
の最良ストリングリスト内の個々の与えられた単語スト
リングに対するモデルセットに対してビタビ整合(Vite
rbi)することによって、N個の最良ストリングモデル
をN個の最良単語ストリングに基づいて生成する。この
ステップは、同一単語ストリングに対応する多くのスト
リングモデルが存在するが;但し、ある与えられたモデ
ルセットに対する入力発声に最も良く一致するストリン
グモデルは唯一(unique)であることを利用して発生器
75によって遂行される。
ストリングをモデル化する能力も提供することに注意す
る。これは、N個の最良復号化を通じて生成される複数
の競合単語ストリングが訓練教材によって制約されるこ
とがないという事実に起因する。ある訓練発声はある単
一の単語ストリングに対応するが、その発声と関連する
N個の最良ストリングリストは動的であり、与えられた
音声認識ユニットモデルセットに基づくストリングレベ
ルモデル分解能を反映する。基本認識ユニットモデル
は、従って、N個の最良ストリングモデル発生器によっ
て生成された単語ストリングによって訓練される。これ
ら単語ストリングには、元の訓練教材(original train
ing material)内には存在しないが、そのストリングモ
デルを認識器が辞書編集的ストリングのストリングモデ
ルと混乱しやすいと発見した単語ストリングが含まれ
る。認識器が辞書編集的単語ストリングと混乱し易いと
発見した未知(unseen)の単語ストリングが差別的に
(discriminatively)にモデル化される。こうして、未
知(unseen)のストリングに対するモデリングカバレッ
ジ(modeling coverage )が改善される。未知(unsee
n)のストリングのモデル化は、このようなモデル化が
訓練教材の乏しいストリングカバレッジ(string cover
age )に起因して連続音声認識において遭遇する困難を
低減するのに有効である。
に要約することができる。S=W1、...、Wlsを任
意の単語ストリングであるものとする。音響モデル、言
語及びその他の認識ソースを含むモデルセットΛが与え
られた場合、最適状態シーケンスΘS は観察X及び単語
ストリングSの関数である。このN最良ストリング仮説
{S1 、...SN }は帰納的に数式数1のように定義
することができる。
リングレベル音響訓練トークンがストリングエラーを表
わすために特別に設計されたセットの差別的関数(disc
riminant function )内に組み込まれる。これは、以下
に説明されるように、改善されたトレイナ80の動作に
よって行なわれる。
ナ80の一例としての実現を表わす。改善されたトレイ
ナ80はデータベース70によって提供される訓練音声
に作用を及ぼす。改善されたトレイナ80の動作の結果
として、認識モデルの更新されたセットΛU をデータベ
ース70にリターンする。Λu は、その後、認識モード
の際にセットの認識器1の参照パターンとして使用さ
れ、或は同一或は追加の(same or additional)訓練音
声の処理の結果としてさらに更新されるべき新たな(ne
w )Λとして使用される。
更新プロセッサ88は、一例として、一度に一つの訓練
ストリングを処理するものとして説明される。下に説明
されるのとは少し異なり、この実現は複数の訓練音声サ
ンプルに基づいてΛを更新することも可能である(議論
のセクションを参照)。
ナ80は、ストリング誤認尺度プロセッサ(string mis
recognition measure processor )82、ストリングモ
デル損失関数プロセッサ(string model loss function
processor)84、及びストリングモデル更新プロセッ
サ88を含む。
0からモデルΛ、及び訓練音声ストリングサンプルXを
受信する。ストリングサンプルX、及びΛに基づいて、
プロセッサ82はストリング誤認尺度d(X、Λ)を数
式数2のように決定する。
lex を正しいストリングとして与えられたときの入力発
声Xの認識器スコアであり;g(X、Sk 、Λ
1 、...、Λm )は各競合ストリングに対する認識器
ソースであり;ηは一例として2にセットされた正の数
であり;そしてNは発生器75によって提供された競合
ストリングの総数である。一例として、gは認識器スコ
アの重み付けされた総和の形式をとる。
に示される後続のプロセッサによって使用されるための
スカラ値dを決定する。
82から受信されたスカラ値d(X、Λ)に基づいて平
滑ストリング損失関数(smooth string loss function
)lを評価する。
一例としてゼロにセットされるバイアス項である。
トリングモデル更新プロセッサ88に提供する。
リング損失関数lへの平滑にされた近似を提供すること
を助ける。ストリング損失関数の勾配(11)はストリ
ングモデル更新プロセッサ88によってモデルパラメー
タΛを更新するために使用される。従って、この損失関
数の期待されるストリング損失の最小化はストリングエ
ラー確率の最小化に直接にリンクされる。バイアスパラ
メータd0 は訓練プロセスにおいて競合ストリングモデ
ルの影響を改善(enhance )するために使用される。
てのブロック図を表わす。図面に示されるように、プロ
セッサ88は、Λ、X及びlに基づいて、音響HMMパ
ラメータμ、σ2 、c、及びa;言語モデルパラメータ
P(Wj )及びP(Wj |Wj-1 );並びに結合モデル
パラメータαi を更新する。プロセッサ88は更新され
たパラメータΛu をパラメータデータベース70にリタ
ーンする。Λ及びΛU の両者は、パラメータμ、σ2 、
c、a、P(Wj )、P(Wj |Wj-1 )、及びαi を
含むが、Λ及びΛU は、それぞれ、未更新の及び更新さ
れた量を表わす。
新の詳細な説明を行なう前に、この動作に対する幾らか
な背景について説明する。
損失は、以下の数式数6によって与えられる。
ンプルを通じて期待される損失(12)を最小にするこ
とにある。期待される損失数式数6は更新されたパラメ
ータによって以下のように最小にされる。
であり、Un は以下に定義される正の有限行列のシーケ
ンスである。
ルΛは、更新プロセッサ88によって数式数7)に従っ
て適応的に調節される。
かの制約を満たさなければならない。ストリングモデル
更新プロセッサ88は、これらの全ての制約を満足させ
るために音響モデルパラメータ更新プロセスの一部とし
て変換されたHMMパラメータ(transformed HMM para
meters)を採用する。以下の変換がプロセッサ88によ
って遂行される。
識ユニットモデル、j番目の状態、k番目の混合成分
(mixture component )及びd番目の次元の分散であ
り、ここで、個々の認識ユニットモデルは、例えば、あ
る単語或はサブワードを反映する。
状態内の混合重みの総数である。
と関連付けられる。
数である。
な分散の取り扱いに関する。過去において提案された幾
つかの修正訓練アルゴリズム(corrective training al
gorithms)においては、分散の調節は、誤って扱われた
場合に悪影響を与えることがあるために回避されてき
た。
う大きな量だけ異なる。
タ調節、特に、HMMの観察確率密度関数内の平均パラ
メータの調節に対する異なる感度の原因となる。
めに、この実現は正の有限行列Unを採用する。この正
の有限行列は、各状態に対する数式む数11で表される
対角行列:
分散である。
ては、各々は上の数式数7に記述されるような項▽lを
含む。
響モテルパラメータの更新は以下の通りである。
であり、θj は最適パスが最初に状態jに入る時間フレ
ームに対応し、θj+1 は最適パスが状態j+1に入る時
間フレームに対応し、l(X、Λ)は数式数5に従って
構成された損失関数であり、εn はステップサイズであ
り、そして
の更新は図3のブロック88−1によって提供される。
れる。
i,j,k,d(n)>10-6の制約を満足する。この分散の
更新は図3のブロック88−2によって提供される。
えられる。
Σk ci,j,k (n)=1及びci,j,k (n)>0の制約
を満たす。混合重みの更新は図3のブロック88−3に
よって提供される。
HMMにおいては、l−番目の単語モデルのパラメータ
化された遷移確率は以下によって調節される。
尤度スコアであり、iは終端状態ではなく、そして状態
i内の自己遷移(self-transition )の総数は
は以下によって与えられる。
新式(20−23)は、i番目の状態内でのi−番目の
音響HMM認識ユニットモデルの更新された観察確率密
度関数に
みであり、N(x、μi, j,k,Vi,j,k )はi−番目の認
識ユニットモデル、j−番目の状態、及び対角共分散行
列Vi,j,k を持つk−番目の混合に対するD−次元正規
ガウス分布である。
換領域内で起こる。例えば、以下の変換がプロセッサ8
8によって使用される。
変換
変換
デルパラメータの更新は以下のように遂行される。
ングであり、Si (i=1、...、N)はN最良復号
化(75)によって決定されたN個の競合単語ストリン
グである。
よって提供される。
よって提供される。
8−7によって提供される。
1)、a(n+1)、P(Wi )(n+1)、P(Wi
|Wj )(n+1)、及びαi (n+1)に対する値は
ブロック88−1乃至88−7によって出力される。図
3に示されるように、Λu はμ、σ2 、c、aP(W
i )、P(Wi |Wj )、及びαi から構成される。
(expressions )はモデルパラメータを改善(enchanc
e)するためのデータベース70からの単一音声訓練ス
トリングサンプルの使用に関する。ただし、改善された
トレイナ(enchanced trainer)80はモデルパラメー
タを改善させるために複数回反復することも可能であ
る。例えば、改善されたトレイナ80は、データベース
70内の全ての訓練ストリングサンプルについて動作す
ることもできる。但し、必要であれば、トレイナ80
は、データベース70全体を通じて数回のパスについて
或は数ラウンド(rounds)動作される。トレイナ80は
サンプルの処理を複数の方法の任意の一つを使用して停
止することができる。例えば、トレイナ80はサンプル
のデータベース70を通じて固定されたランウド数が完
了したとき停止する。但し、好ましくは、トレイナ80
は、現ラウンドの全ての音声訓練ストリングの処理によ
ってストリングエラー率が増分的にどれだけ改善された
か(incremental improvement )の記録を保持する。
るが、他のタイプの音響モデルを採用する認識器、例え
ば、スコアリングの方法として動的時間ラッピング(dy
namic time warping)を採用するテンプレートに基づく
(template-based)音響認識器にも適用する。本発明を
他のタイプの認識器に適応させるためには、数式数2内
に関数gによって表わされるスコアリングの方法がその
認識器のタイプを反映するように修正されなければなら
ない。この修正はまた lの項内の認識ユニットモデル
の更新プロセスにも影響を与える。
各サンプルストリングが順番に使用される。ストリング
モデル更新プロセッサ88は識別器によって提供された
情報を現サンプルストリングに取り入れ、上に提供され
た更新式に従ってモデルパラメータを更新する。プロセ
ッサ88の計算上の複雑さは、主に、幾つの競合する候
補ストリングモデルがモデルパラメータの推定のために
使用されるべきかを決定する誤認尺度(misrecognition
measure)の形式に依存する。上に説明のように、改善
されたトレイナ80の各反復は単一の音声訓練サンプル
に関して動作する。但し、トレイナが複数のサンプルに
基づいて更新されたセットのモデルパラメータΛU を提
供するようにすることも可能である。これを行なうため
には、ストリング誤認尺度プロセッサ82はdに対する
値のベクトルを得るために音声ストリングサンプルのベ
クトルに関して動作し、ここで、各値はある与えられた
ストリングサンプルに対応する。ストリングモデル損失
関数プロセッサ84はd値のベクトルを受信し、l値の
ベクトルを得るが、これらの各々は対応するdの値に基
づく。ストリングモデル更新プロセッサ88は、上に説
明のようにパラメータを更新するが、ここで、Λ(n)
からΛ(n+1)への各更新は(N個のストリングサン
プルの)単一の音声ストリングサンプルによって提供さ
れる。但し、全てのストリングサンプルは、一つのサン
プルを処理した結果としてのΛ(n+1)が後続のサン
プルを処理するためのΛ(n)として機能するように順
番に使用される。複数のストリングサンプルに基づくΛ
の更新においては、(式18、20、22、24、3
0、31及び32)の右側のΛの値は一定に留まること
に注意する。全てのストリングサンプルが処理された後
に初めてΛI がAu としてデータベースに更新される。
に適用される関数の一つのタイプにすぎないことに注意
する。他のタイプの関数、例えば、双曲線正接(hyperb
olictangent)に基づく関数も提供可能である。
12、「数14]、[数16]、数18、数23、数2
4、数25によって具体的に記述されるプロセスは、ス
トリング損失関数の局所極小の識別を提供する。但し、
損失関数のグローバル極小を見つけるための従来の技
法、例えば、シミュレーションによる焼きなまし(simu
lated annealing )を適用することもできる。
明は話者依存及び話者独立音声認識の両方に適用するこ
とが明らかである。
は、音響及び言語モデルを線型的に結合するストリング
モデルに関するが、当業者においては、本発明は、意味
論モデル、音声学的モデル、シンタックスモデルなどの
他の/追加の認識ソース及びモデルタイプ、並びに、非
線型結合モデルを含む他の結合モデルを導入するストリ
ングモデルにも適用できることが明白である。
示す図である。
ての実現を示す図である。
サの一つの実現を示す図である。
Claims (20)
- 【請求項1】 訓練ストリング発声信号及び複数のセッ
トの複数の現音声認識モデルに基づいて音声認識モデル
データベースを作成するための方法であって、この方法
が: a.セットの一つ或はそれ以上の混同し易いストリング
モデルを生成するステップを含み、混同し易いストリン
グモデルが二つ或はそれ以上のセットの複数の現音声認
識モデルからの複数の音声認識モデルから構成され;こ
の方法がさらに b.訓練ストリング発声信号及びその発声に対するスト
リングモデルに基づいて第一のスコアリング信号を生成
するステップを含み、前記のその発声に対するストリン
グモデルが二つ或はそれ以上のセットの複数の現音声認
識モデルからの複数の音声認識モデルから構成され;こ
の方法がさらに c.一つ或はそれ以上の第二のスコアリング信号を生成
するステップを含み、第二のスコアリング信号が訓練ス
トリング発声信号及びある一つの混同し易いストリング
モデルに基づき、この混同し易いストリングモデルが二
つ或はそれ以上のセットの複数の現音声認識モデルから
の複数の音声認識モデルから構成され;この方法がさら
に d.第一のスコアリング信号及び一つ或はそれ以上の第
二のスコアリング信号に基づいて誤認信号を生成するス
テップ;及び e.誤認信号に基づいて、正しいストリングモデルが他
の複数の混同し易いストリングモデルよりも高いランク
順位を持つ確率を増加するために複数の現音声認識モデ
ルを修正するステップを含むことを特徴とする方法。 - 【請求項2】 前記のセットの一つ或はそれ以上の混乱
し易いストリングモデルを生成するステップがN個の最
良単語ストリングモデルを生成することから成ることを
特徴とする請求項1の方法。 - 【請求項3】 前記の第一の認識器スコアリング信号が
訓練ストリング発声信号とその発声に対するストリング
モデルとの間の類似の尺度を反映することを特徴とする
請求項1の方法。 - 【請求項4】 前記の類似の尺度が対数尤度認識器スコ
アから成ることを特徴とする請求項3の方法。 - 【請求項5】 前記の第二の認識器スコアリング信号が
訓練ストリング発声信号とある一つの混同し易いストリ
ングモデルとの間の類似の尺度を反映することを特徴と
する請求項1の方法。 - 【請求項6】 前記の類似の尺度が対数尤度認識器スコ
アから成ることを特徴とする請求項5の方法。 - 【請求項7】 前記の誤認信号を生成するステップが第
一のスコアリング信号と一つ或はそれ以上の第二のスコ
アリング信号のある一つの結合との間の差異を形成する
ことから成ることを特徴とする請求項1の方法。 - 【請求項8】 前記の複数の現音声認識モデルを修正す
るステップが: 1.ある関数の勾配を反映する認識モデル修正信号を生
成するステップを含み、この関数がその発声に対するス
トリングモデルに基づく訓練ストリング発声の認識器ス
コア及び一つ或はそれ以上の混同し易いストリングモデ
ルに基づく前記訓練ストリング発声の一つ或はそれ以上
の認識器スコアを反映し;このステップがさらに 2.修正信号に基づいて複数の現音声認識モデルを修正
するステップを含むことを特徴とする請求項1の方法。 - 【請求項9】 前記の関数がその発声に対するストリン
グモデルに基づく訓練ストリング発声の認識スコアと一
つ或はそれ以上の混乱し易いモデルに基づく前記訓練ス
トリング発声の一つ或はそれ以上の認識器スコアの荷重
総和との差異を反映することを特徴とする請求項8の方
法。 - 【請求項10】 セットの複数の現音声認識モデルが音
響モデルを含むことを特徴とする請求項1の方法。 - 【請求項11】 前記の音響モデルが隠れマルコフモデ
ルを含むことを特徴とする請求項10の方法。 - 【請求項12】 セットの複数の現音声認識モデルが言
語モデルを含むことを特徴とする請求項1の方法。 - 【請求項13】 セットの複数の現音声認識モデルがピ
ッチモデルを含むことを特徴とする請求項1の方法。 - 【請求項14】 セットの複数の現音声認識モデルがエ
ネルギモデルを含むことを特徴とする請求項1の方法。 - 【請求項15】 セットの複数の現音声認識モデルが会
話速度モデルを含むことを特徴とする請求項1の方法。 - 【請求項16】 セットの複数の現音声認識モデルが継
続期間モデルを含むことを特徴とする請求項1の方法。 - 【請求項17】 訓練ストリング発声信号及び複数のセ
ットの複数の現音声認識モデルに基づいて音声認識モデ
ルデータベースを作成するための音声認識器トレイナで
あって、このトレイナが: a.セットの一つ或はそれ以上の混同し易いストリング
モデルを生成するための手段を含み、混同し易いストリ
ングモデルが二つ或はそれ以上のセットの複数の現音声
認識モデルからの複数の音声認識モデルから構成され;
このトレイナがさらに b.訓練ストリング発声信号及びその発声に対するスト
リングモデルに基づいて第一のスコアリング信号を生成
するための手段を含み、前記のその発声に対するストリ
ングモデルが二つ或はそれ以上のセットの複数の現音声
認識モデルからの複数の音声認識モデルから構成され;
このトレイナがさらに c.一つ或はそれ以上の第二のスコアリング信号を生成
するための手段を含み、第二のスコアリング信号が訓練
ストリング発声信号とある混同し易いストリングモデル
に基づき、この混同し易いストリングモデルが二つ或は
それ以上のセットの複数の現音声認識モデルからの複数
の音声認識モデルから構成され;このトレイナがさらに d.第一のスコアリング信号及び一つ或はそれ以上のス
コアリン信号に基づいて誤認信号を生成するための手
段;及び e.誤認信号に応答して、正しいストリングモデルが他
の複数の混同し易いストリングモデルよりも高いランク
順位を持つ確率が増加するように複数の現音声認識モデ
ルを修正するための手段を含むことを特徴とするトレイ
ナ。 - 【請求項18】 前記の誤認信号を生成するための手段
が第一のスコアリング信号と一つ或はそれ以上の第二の
スコアリング信号のある一つの結合との間の差を形成す
るための手段を含むことを特徴とする請求項17のトレ
イナ。 - 【請求項19】 前記の複数の現音声認識モデルを修正
するための手段が: 1.ある関数の勾配を反映する認識モデル修正信号を生
成するための手段を含み、この関数がその発声に対する
ストリングモデルに基づく訓練ストリング発声の認識器
スコア及び一つ或はそれ以上の混同し易いストリングモ
デルに基づく前記訓練ストリング発声の一つ或は複数の
認識器スコアを反映し;この手段がさらに 2.修正信号に基づいて複数の現音声認識モデルを修正
するための手段を含むことを特徴とする請求項17のト
レイナ。 - 【請求項20】 音声認識システムであって、このシス
テムが: a.未知の音声信号を受信し、この未知の音声信号を特
性化する特徴信号を生成するための特徴抽出器;及び b.複数のセットの複数の認識モデルを格納するための
メモリを含み、前記の一つ或はそれ以上の認識モデルが
正しいストリングモデルが他の複数の混同し易いストリ
ングモデルよりも高いランク順位を持つ確率が改善され
るようなプロセスに従って生成され;このシステムがさ
らに c.あるストリングモデルを未知の音声信号の特徴と比
較するための機能抽出器及びメモリに結合されたスコア
比較器を含み、前記のストリングモデルが複数の認識モ
デルセットの各々からの一つ或はそれ以上の認識モデル
から構成され;このシステムがさらに d.未知の音声信号の特徴と最も良く一致する複数のス
トリングモデルの一つに基づいて未知の音声信号を認識
するためのスコアリング比較器に結合されたスコアプロ
セッサを含むことを特徴とする音声認識システム。
Applications Claiming Priority (2)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
US9614293A | 1993-07-22 | 1993-07-22 | |
US096142 | 1998-08-11 |
Publications (2)
Publication Number | Publication Date |
---|---|
JPH07152394A true JPH07152394A (ja) | 1995-06-16 |
JP3672595B2 JP3672595B2 (ja) | 2005-07-20 |
Family
ID=22255736
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
JP16986594A Expired - Lifetime JP3672595B2 (ja) | 1993-07-22 | 1994-07-22 | 結合されたストリングモデルの最小誤認率訓練 |
Country Status (5)
Country | Link |
---|---|
US (1) | US5606644A (ja) |
EP (1) | EP0635820B1 (ja) |
JP (1) | JP3672595B2 (ja) |
CA (1) | CA2126380C (ja) |
DE (1) | DE69422097T2 (ja) |
Cited By (3)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
JP2000099087A (ja) * | 1998-09-15 | 2000-04-07 | Koninkl Philips Electronics Nv | 言語音声モデルを適応させる方法及び音声認識システム |
WO2008105263A1 (ja) * | 2007-02-28 | 2008-09-04 | Nec Corporation | 重み係数学習システム及び音声認識システム |
JP2012516432A (ja) * | 2009-01-30 | 2012-07-19 | シーメンス アクティエンゲゼルシャフト | 物体の振動特性の測定 |
Families Citing this family (65)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
US5737723A (en) * | 1994-08-29 | 1998-04-07 | Lucent Technologies Inc. | Confusable word detection in speech recognition |
US5832430A (en) * | 1994-12-29 | 1998-11-03 | Lucent Technologies, Inc. | Devices and methods for speech recognition of vocabulary words with simultaneous detection and verification |
US5845246A (en) * | 1995-02-28 | 1998-12-01 | Voice Control Systems, Inc. | Method for reducing database requirements for speech recognition systems |
JP3535292B2 (ja) * | 1995-12-27 | 2004-06-07 | Kddi株式会社 | 音声認識システム |
US5842165A (en) * | 1996-02-29 | 1998-11-24 | Nynex Science & Technology, Inc. | Methods and apparatus for generating and using garbage models for speaker dependent speech recognition purposes |
US5895448A (en) * | 1996-02-29 | 1999-04-20 | Nynex Science And Technology, Inc. | Methods and apparatus for generating and using speaker independent garbage models for speaker dependent speech recognition purpose |
US6076054A (en) * | 1996-02-29 | 2000-06-13 | Nynex Science & Technology, Inc. | Methods and apparatus for generating and using out of vocabulary word models for speaker dependent speech recognition |
US5870706A (en) * | 1996-04-10 | 1999-02-09 | Lucent Technologies, Inc. | Method and apparatus for an improved language recognition system |
US6167377A (en) * | 1997-03-28 | 2000-12-26 | Dragon Systems, Inc. | Speech recognition language models |
US6076057A (en) * | 1997-05-21 | 2000-06-13 | At&T Corp | Unsupervised HMM adaptation based on speech-silence discrimination |
US7630895B2 (en) * | 2000-01-21 | 2009-12-08 | At&T Intellectual Property I, L.P. | Speaker verification method |
US6012027A (en) * | 1997-05-27 | 2000-01-04 | Ameritech Corporation | Criteria for usable repetitions of an utterance during speech reference enrollment |
US5950158A (en) * | 1997-07-30 | 1999-09-07 | Nynex Science And Technology, Inc. | Methods and apparatus for decreasing the size of pattern recognition models by pruning low-scoring models from generated sets of models |
US5963902A (en) * | 1997-07-30 | 1999-10-05 | Nynex Science & Technology, Inc. | Methods and apparatus for decreasing the size of generated models trained for automatic pattern recognition |
US6076058A (en) * | 1998-03-02 | 2000-06-13 | Lucent Technologies Inc. | Linear trajectory models incorporating preprocessing parameters for speech recognition |
US6182039B1 (en) * | 1998-03-24 | 2001-01-30 | Matsushita Electric Industrial Co., Ltd. | Method and apparatus using probabilistic language model based on confusable sets for speech recognition |
US6076053A (en) * | 1998-05-21 | 2000-06-13 | Lucent Technologies Inc. | Methods and apparatus for discriminative training and adaptation of pronunciation networks |
US6233553B1 (en) * | 1998-09-04 | 2001-05-15 | Matsushita Electric Industrial Co., Ltd. | Method and system for automatically determining phonetic transcriptions associated with spelled words |
US6922669B2 (en) * | 1998-12-29 | 2005-07-26 | Koninklijke Philips Electronics N.V. | Knowledge-based strategies applied to N-best lists in automatic speech recognition systems |
US6574596B2 (en) * | 1999-02-08 | 2003-06-03 | Qualcomm Incorporated | Voice recognition rejection scheme |
GB9920257D0 (en) * | 1999-08-26 | 1999-10-27 | Canon Kk | Signal processing system |
US7149690B2 (en) | 1999-09-09 | 2006-12-12 | Lucent Technologies Inc. | Method and apparatus for interactive language instruction |
KR100307623B1 (ko) * | 1999-10-21 | 2001-11-02 | 윤종용 | 엠.에이.피 화자 적응 조건에서 파라미터의 분별적 추정 방법 및 장치 및 이를 각각 포함한 음성 인식 방법 및 장치 |
US6847734B2 (en) * | 2000-01-28 | 2005-01-25 | Kabushiki Kaisha Toshiba | Word recognition method and storage medium that stores word recognition program |
US6671669B1 (en) * | 2000-07-18 | 2003-12-30 | Qualcomm Incorporated | combined engine system and method for voice recognition |
EP1199704A3 (de) * | 2000-10-17 | 2003-10-15 | Philips Intellectual Property & Standards GmbH | Auswahl der alternativen Wortfolgen für diskriminative Anpassung |
US7400712B2 (en) * | 2001-01-18 | 2008-07-15 | Lucent Technologies Inc. | Network provided information using text-to-speech and speech recognition and text or speech activated network control sequences for complimentary feature access |
US6754627B2 (en) * | 2001-03-01 | 2004-06-22 | International Business Machines Corporation | Detecting speech recognition errors in an embedded speech recognition system |
US20030225719A1 (en) * | 2002-05-31 | 2003-12-04 | Lucent Technologies, Inc. | Methods and apparatus for fast and robust model training for object classification |
US7149687B1 (en) * | 2002-07-29 | 2006-12-12 | At&T Corp. | Method of active learning for automatic speech recognition |
US8959019B2 (en) | 2002-10-31 | 2015-02-17 | Promptu Systems Corporation | Efficient empirical determination, computation, and use of acoustic confusability measures |
US7117153B2 (en) * | 2003-02-13 | 2006-10-03 | Microsoft Corporation | Method and apparatus for predicting word error rates from text |
US20060235698A1 (en) * | 2005-04-13 | 2006-10-19 | Cane David A | Apparatus for controlling a home theater system by speech commands |
US7680659B2 (en) * | 2005-06-01 | 2010-03-16 | Microsoft Corporation | Discriminative training for language modeling |
CN101416237B (zh) * | 2006-05-01 | 2012-05-30 | 日本电信电话株式会社 | 基于源和室内声学的概率模型的语音去混响方法和设备 |
US8831943B2 (en) * | 2006-05-31 | 2014-09-09 | Nec Corporation | Language model learning system, language model learning method, and language model learning program |
US7844456B2 (en) * | 2007-03-09 | 2010-11-30 | Microsoft Corporation | Grammar confusability metric for speech recognition |
US7925505B2 (en) * | 2007-04-10 | 2011-04-12 | Microsoft Corporation | Adaptation of language models and context free grammar in speech recognition |
US8275615B2 (en) * | 2007-07-13 | 2012-09-25 | International Business Machines Corporation | Model weighting, selection and hypotheses combination for automatic speech recognition and machine translation |
WO2009016729A1 (ja) * | 2007-07-31 | 2009-02-05 | Fujitsu Limited | 音声認識用照合ルール学習システム、音声認識用照合ルール学習プログラムおよび音声認識用照合ルール学習方法 |
GB2453366B (en) * | 2007-10-04 | 2011-04-06 | Toshiba Res Europ Ltd | Automatic speech recognition method and apparatus |
TWI372384B (en) * | 2007-11-21 | 2012-09-11 | Ind Tech Res Inst | Modifying method for speech model and modifying module thereof |
US8843370B2 (en) * | 2007-11-26 | 2014-09-23 | Nuance Communications, Inc. | Joint discriminative training of multiple speech recognizers |
US8744834B2 (en) * | 2008-07-03 | 2014-06-03 | Google Inc. | Optimizing parameters for machine translation |
KR20110006004A (ko) * | 2009-07-13 | 2011-01-20 | 삼성전자주식회사 | 결합인식단위 최적화 장치 및 그 방법 |
US8438028B2 (en) * | 2010-05-18 | 2013-05-07 | General Motors Llc | Nametag confusability determination |
US8965763B1 (en) * | 2012-02-02 | 2015-02-24 | Google Inc. | Discriminative language modeling for automatic speech recognition with a weak acoustic model and distributed training |
US8543398B1 (en) | 2012-02-29 | 2013-09-24 | Google Inc. | Training an automatic speech recognition system using compressed word frequencies |
US8374865B1 (en) | 2012-04-26 | 2013-02-12 | Google Inc. | Sampling training data for an automatic speech recognition system based on a benchmark classification distribution |
US8571859B1 (en) | 2012-05-31 | 2013-10-29 | Google Inc. | Multi-stage speaker adaptation |
US8805684B1 (en) | 2012-05-31 | 2014-08-12 | Google Inc. | Distributed speaker adaptation |
US8554559B1 (en) | 2012-07-13 | 2013-10-08 | Google Inc. | Localized speech recognition with offload |
US9123333B2 (en) | 2012-09-12 | 2015-09-01 | Google Inc. | Minimum bayesian risk methods for automatic speech recognition |
US10297250B1 (en) * | 2013-03-11 | 2019-05-21 | Amazon Technologies, Inc. | Asynchronous transfer of audio data |
US9317736B1 (en) * | 2013-05-08 | 2016-04-19 | Amazon Technologies, Inc. | Individual record verification based on features |
US9159317B2 (en) * | 2013-06-14 | 2015-10-13 | Mitsubishi Electric Research Laboratories, Inc. | System and method for recognizing speech |
US9026431B1 (en) * | 2013-07-30 | 2015-05-05 | Google Inc. | Semantic parsing with multiple parsers |
US8868409B1 (en) * | 2014-01-16 | 2014-10-21 | Google Inc. | Evaluating transcriptions with a semantic parser |
KR102386854B1 (ko) * | 2015-08-20 | 2022-04-13 | 삼성전자주식회사 | 통합 모델 기반의 음성 인식 장치 및 방법 |
CN110675864A (zh) * | 2019-09-12 | 2020-01-10 | 上海依图信息技术有限公司 | 一种语音识别方法及装置 |
CN111883172B (zh) * | 2020-03-20 | 2023-11-28 | 珠海市杰理科技股份有限公司 | 用于音频丢包修复的神经网络训练方法、装置和系统 |
JP7508409B2 (ja) * | 2021-05-31 | 2024-07-01 | 株式会社東芝 | 音声認識装置、方法およびプログラム |
CN113707134B (zh) * | 2021-08-17 | 2024-05-17 | 北京搜狗科技发展有限公司 | 一种模型训练方法、装置和用于模型训练的装置 |
CN115512696B (zh) * | 2022-09-20 | 2024-09-13 | 中国第一汽车股份有限公司 | 模拟训练方法及车辆 |
CN117238276B (zh) * | 2023-11-10 | 2024-01-30 | 深圳市托普思维商业服务有限公司 | 一种基于智能化语音数据识别的分析纠正系统 |
Family Cites Families (8)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
US4783804A (en) * | 1985-03-21 | 1988-11-08 | American Telephone And Telegraph Company, At&T Bell Laboratories | Hidden Markov model speech recognition arrangement |
US4882759A (en) * | 1986-04-18 | 1989-11-21 | International Business Machines Corporation | Synthesizing word baseforms used in speech recognition |
US5129001A (en) * | 1990-04-25 | 1992-07-07 | International Business Machines Corporation | Method and apparatus for modeling words with multi-arc markov models |
US5202952A (en) * | 1990-06-22 | 1993-04-13 | Dragon Systems, Inc. | Large-vocabulary continuous speech prefiltering and processing system |
US5293451A (en) * | 1990-10-23 | 1994-03-08 | International Business Machines Corporation | Method and apparatus for generating models of spoken words based on a small number of utterances |
US5199077A (en) * | 1991-09-19 | 1993-03-30 | Xerox Corporation | Wordspotting for voice editing and indexing |
US5222146A (en) * | 1991-10-23 | 1993-06-22 | International Business Machines Corporation | Speech recognition apparatus having a speech coder outputting acoustic prototype ranks |
US5280563A (en) * | 1991-12-20 | 1994-01-18 | Kurzweil Applied Intelligence, Inc. | Method of optimizing a composite speech recognition expert |
-
1994
- 1994-06-21 CA CA002126380A patent/CA2126380C/en not_active Expired - Lifetime
- 1994-07-13 EP EP94305139A patent/EP0635820B1/en not_active Expired - Lifetime
- 1994-07-13 DE DE69422097T patent/DE69422097T2/de not_active Expired - Lifetime
- 1994-07-22 JP JP16986594A patent/JP3672595B2/ja not_active Expired - Lifetime
-
1996
- 1996-04-26 US US08/638,408 patent/US5606644A/en not_active Expired - Lifetime
Cited By (4)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
JP2000099087A (ja) * | 1998-09-15 | 2000-04-07 | Koninkl Philips Electronics Nv | 言語音声モデルを適応させる方法及び音声認識システム |
WO2008105263A1 (ja) * | 2007-02-28 | 2008-09-04 | Nec Corporation | 重み係数学習システム及び音声認識システム |
US8494847B2 (en) | 2007-02-28 | 2013-07-23 | Nec Corporation | Weighting factor learning system and audio recognition system |
JP2012516432A (ja) * | 2009-01-30 | 2012-07-19 | シーメンス アクティエンゲゼルシャフト | 物体の振動特性の測定 |
Also Published As
Publication number | Publication date |
---|---|
CA2126380C (en) | 1998-07-07 |
CA2126380A1 (en) | 1995-01-23 |
DE69422097T2 (de) | 2000-08-24 |
EP0635820A1 (en) | 1995-01-25 |
EP0635820B1 (en) | 1999-12-15 |
JP3672595B2 (ja) | 2005-07-20 |
US5606644A (en) | 1997-02-25 |
DE69422097D1 (de) | 2000-01-20 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
JP3672595B2 (ja) | 結合されたストリングモデルの最小誤認率訓練 | |
US6076057A (en) | Unsupervised HMM adaptation based on speech-silence discrimination | |
JP3434838B2 (ja) | ワードスポッティング法 | |
JP4301102B2 (ja) | 音声処理装置および音声処理方法、プログラム、並びに記録媒体 | |
JP4141495B2 (ja) | 最適化された部分的確率混合共通化を用いる音声認識のための方法および装置 | |
Szöke et al. | Comparison of keyword spotting approaches for informal continuous speech. | |
US6912499B1 (en) | Method and apparatus for training a multilingual speech model set | |
US5797123A (en) | Method of key-phase detection and verification for flexible speech understanding | |
US5857169A (en) | Method and system for pattern recognition based on tree organized probability densities | |
US7617103B2 (en) | Incrementally regulated discriminative margins in MCE training for speech recognition | |
Lee et al. | Improved acoustic modeling for large vocabulary continuous speech recognition | |
US20030055640A1 (en) | System and method for parameter estimation for pattern recognition | |
JPH0422276B2 (ja) | ||
KR20050082253A (ko) | 모델 변이 기반의 화자 클러스터링 방법, 화자 적응 방법및 이들을 이용한 음성 인식 장치 | |
Austin et al. | Speech recognition using segmental neural nets | |
Hanazawa et al. | ATR HMM-LR continuous speech recognition system | |
Razak et al. | Quranic verse recitation recognition module for support in j-QAF learning: A review | |
Hain et al. | The cu-htk march 2000 hub5e transcription system | |
Baig et al. | Discriminative training for phonetic recognition of the Holy Quran | |
Sukkar | Subword-based minimum verification error (SB-MVE) training for task independent utterance verification | |
JP2974621B2 (ja) | 音声認識用単語辞書作成装置及び連続音声認識装置 | |
Wu et al. | Application of simultaneous decoding algorithms to automatic transcription of known and unknown words | |
Schwartz et al. | Hidden markov models and speaker adaptation | |
JPH1097273A (ja) | 音声モデルの話者適応化方法及びその方法を用いた音声認識方法及びその方法を記録した記録媒体 | |
Kanazawa et al. | A hybrid wordspotting method for spontaneous speech understanding using word-based pattern matching and phoneme-based HMM |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
A131 | Notification of reasons for refusal |
Free format text: JAPANESE INTERMEDIATE CODE: A131 Effective date: 20040329 |
|
A521 | Request for written amendment filed |
Free format text: JAPANESE INTERMEDIATE CODE: A523 Effective date: 20040629 |
|
TRDD | Decision of grant or rejection written | ||
A01 | Written decision to grant a patent or to grant a registration (utility model) |
Free format text: JAPANESE INTERMEDIATE CODE: A01 Effective date: 20050328 |
|
A61 | First payment of annual fees (during grant procedure) |
Free format text: JAPANESE INTERMEDIATE CODE: A61 Effective date: 20050420 |
|
R150 | Certificate of patent or registration of utility model |
Free format text: JAPANESE INTERMEDIATE CODE: R150 |
|
FPAY | Renewal fee payment (event date is renewal date of database) |
Free format text: PAYMENT UNTIL: 20090428 Year of fee payment: 4 |
|
FPAY | Renewal fee payment (event date is renewal date of database) |
Free format text: PAYMENT UNTIL: 20100428 Year of fee payment: 5 |
|
FPAY | Renewal fee payment (event date is renewal date of database) |
Free format text: PAYMENT UNTIL: 20100428 Year of fee payment: 5 |
|
FPAY | Renewal fee payment (event date is renewal date of database) |
Free format text: PAYMENT UNTIL: 20110428 Year of fee payment: 6 |
|
FPAY | Renewal fee payment (event date is renewal date of database) |
Free format text: PAYMENT UNTIL: 20120428 Year of fee payment: 7 |
|
FPAY | Renewal fee payment (event date is renewal date of database) |
Free format text: PAYMENT UNTIL: 20130428 Year of fee payment: 8 |
|
FPAY | Renewal fee payment (event date is renewal date of database) |
Free format text: PAYMENT UNTIL: 20140428 Year of fee payment: 9 |
|
R250 | Receipt of annual fees |
Free format text: JAPANESE INTERMEDIATE CODE: R250 |
|
EXPY | Cancellation because of completion of term |