[go: up one dir, main page]

JPH07152394A - 結合されたストリングモデルの最小誤認率訓練 - Google Patents

結合されたストリングモデルの最小誤認率訓練

Info

Publication number
JPH07152394A
JPH07152394A JP6169865A JP16986594A JPH07152394A JP H07152394 A JPH07152394 A JP H07152394A JP 6169865 A JP6169865 A JP 6169865A JP 16986594 A JP16986594 A JP 16986594A JP H07152394 A JPH07152394 A JP H07152394A
Authority
JP
Japan
Prior art keywords
string
models
model
signal
speech recognition
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Granted
Application number
JP6169865A
Other languages
English (en)
Other versions
JP3672595B2 (ja
Inventor
Wu Chou
チョー ウー
Biing-Hwang Juang
ジョアン ビーイング−フワン
Chin-Hui Lee
リー チン−フィ
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
AT&T Corp
Original Assignee
American Telephone and Telegraph Co Inc
AT&T Corp
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by American Telephone and Telegraph Co Inc, AT&T Corp filed Critical American Telephone and Telegraph Co Inc
Publication of JPH07152394A publication Critical patent/JPH07152394A/ja
Application granted granted Critical
Publication of JP3672595B2 publication Critical patent/JP3672595B2/ja
Anticipated expiration legal-status Critical
Expired - Lifetime legal-status Critical Current

Links

Classifications

    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L15/00Speech recognition
    • G10L15/06Creation of reference templates; Training of speech recognition systems, e.g. adaptation to the characteristics of the speaker's voice
    • G10L15/063Training

Landscapes

  • Engineering & Computer Science (AREA)
  • Artificial Intelligence (AREA)
  • Computational Linguistics (AREA)
  • Health & Medical Sciences (AREA)
  • Audiology, Speech & Language Pathology (AREA)
  • Human Computer Interaction (AREA)
  • Physics & Mathematics (AREA)
  • Acoustics & Sound (AREA)
  • Multimedia (AREA)
  • Machine Translation (AREA)

Abstract

(57)【要約】 【目的】 本発明は、音声認識などのような音声処理タ
スクのための音声パラメータベースの訓練に関する。 【構成】 音声認識モデルデータベースを作成する方法
が開示される。このデータベースは一つの訓練ストリン
グ発声信号と複数のセットの現音声認識モデルに基づい
て形成される。これら複数のセットの現音声認識モデル
は複数の音響モデル、言語モデル、及び他の認識源(kn
owledge sources )を含む。本発明の一例としての実現
においては、ある一つのセットの複数の混同し易い(co
nfusable)ストリングモデルが生成されるが、各々の混
同し易いストリングモデルは二つ或はそれ以上のセット
の複数の音声認識モデル(例えば、音響及び言語モデ
ル)からの複数の音声認識モデルから構成される。訓練
ストリング発声信号とその発声に対するストリングモデ
ルに基づいて第一のスコアリング信号が生成されるが、
ここで、この発声に対するストリングモデルは二つ或は
それ以上のセットの複数の音声認識モデルからの複数の
音声認識モデルから構成される。

Description

【発明の詳細な説明】
【0001】
【産業上の利用分野】本発明は一般的にはパターンデー
タベース(pattern database)の訓練、より詳細には、
音声認識などのような音声処理タスクのための音声パタ
ーンデータベースの訓練に関する。
【0002】
【従来の技術】連続音声認識の目的は入力音声発声から
の底辺に横たわる単語シーケンス(underlying word se
quence)を識別(つまり、認識)することにある。認識
は、セットの音声認識パターン或はモデル(以降モデル
と呼ばれる)を使用して遂行される。これらの基本音声
認識モデルは単語及び単語のストリング、例えば、句
(phrase)或は文(sentence)に対する構築ブロックで
ある。近年、これらの基本音声認識ユニットを連続音声
認識のためにいかに選択及び表現(represent )するか
の問題に大きな研究努力が集中されている。
【0003】連続音声認識問題に対する一つの従来のア
プローチは、音響認識モデル、例えば、テンプレート
(template;鋳型)或は隠れマルコフモデル(hidden M
arkovmodel (HMM)を使用する統計的パターン認識
アプローチである。語彙(vocabulary)の辞書編集的記
述(lexical description )に基づいて、音響音声認識
モデルが規定され、これらのパラメータが次に訓練(tr
aining)として知られているプロセスを通じて統計的に
決定される。これらの基本モデルは語彙表上の単語(wo
rds )或はサブワード(例えば、言語学に基づく音素の
音響的表明である単音など)を反映する。連続音声認識
に対するこのアプローチにおいて一般的に行なわれる一
つの想定は、流暢に話された単語のシーケンス、つま
り、単語ストリング(string)は、そのストリング内の
単語の辞書編集的記述に従って(単語あるいはサブワー
ドの)基本音声認識モデルの線型連結(linear concate
nation)によって十分に表現できるという想定である。
慣習的には、これは、音声認識モデルの連結が訓練トー
クン(例えば、単語)から直接に推定できることを意味
する。音響認識モデルの連結は、単語ストリングモデル
(string model)のタイプに属する単語ストリングのモ
デルを形成する。連続音声認識においては、複数のスト
リングモデルがある与えられた認識タスクに対して仮説
される。個々の比較の一致の程度(closeness )が認識
スコア(recognition score )によって示される。連続
発声と最も良く一致するストリングモデルがその発声を
“認識(recognizes)”するものとされる。
【0004】連続音声認識に対するもう一つの従来のア
プローチは、単語ストリングモデルを非(non)音響認識
モデルにて補強(augment )する方法である。この非音
響認識モデルには、様々あるがしいて挙げれば、言語モ
デル、音韻に基づくモデル、意味論的モデル、統語論的
モデル(syntactic models)、及び他の認識源(例え
ば、ピッチ、エネルギ、会話速度、継続期間等)が含ま
れる。このようなアプローチの一つにおいては、ある単
語ストリングは音響モデル、言語モデル等のある一つの
結合(combination )としてモデル化される。個々のモ
デルからの認識スコアが一つの全体としてのストリング
モデル認識スコアに合体(incorporate )される。複数
のスコアのある一つのストリングモデル認識スコアへの
この合体(incorporation )は、例えば、個々の複数の
ストリングモデルからの個々の複数の認識スコアの重み
付けされた総和(weighted sum)によって達成される。
【0005】従来的には、個々の複数の認識モデルの訓
練は、個別ベース(individualizedbasis)で遂行され
る。例えば、音響モデル訓練においては、訓練音声が個
別の複数の単語或はサブワードの訓練トークン(traini
ng tokens )にセグメント化される。従って個々の複数
の音響モデルがより長い訓練発声から孤立化された複数
の訓練トークンにて訓練される。さらに、音響及び他の
複数のモデルが個別に訓練され、一方において、これら
複数のモデルを認識の目的のために結合するために使用
される複数のパラメータが発見論的に選択され、他のモ
デルの訓練から分離及び孤立化される。
【0006】
【発明が解決しようとする課題】これら個別化された訓
練の全ては、このような複数のモデルが連続音声認識の
目的に対して一体となって(together)使用できるとい
う事実を信じて(beliesする)行なわれる。つまり、連
続音声認識は、複数のモデルの結合(つまり、ストリン
グモデル)がいかに良好に一つの全体としての未知のス
トリングと一致するかに立脚する。複数のモデルのある
一つの結合(combination )が各ストリングモデルがそ
の集団(aggregate )内の未知のストリングとどれぐら
い良く一致するかに基づいて他の結合に優先して選択さ
れる。この集団としての比較(aggregate comparison)
はその結合のグローバルスコア(global score)と呼ば
れる。従って、ある連続音声認識器が誤認を行なったよ
うな場合でも、これは、グローバル或はストリングレベ
ル(string level)において行なわれた比較において誤
認を起こしたものであり、複数のモデル或は他の情報源
が訓練された個別化されたレベルにおいて誤認を起こし
たものではないと信じられる。この訓練思想と認識思想
との間のレベルの“食い違い(discrepacy)”のため
に、連続音声認識の性能は要求されるものよりも低いの
が現状である。
【0007】
【発明の要旨】本発明は、単語ストリング誤認率をグロ
ーバルストリングレベルにて低減、例えば、最小にする
ための(複数の音響モデル、言語モデル、及び他の認識
源を含む)複数の音声認識モデルを訓練するために適当
な技法を提供する。本発明はストリングレベルモデルの
マッチングに対して差別的分析(discriminative analy
sis )を適用する。
【0008】本発明の一例としての実現によると、訓練
データベースからの単一の辞書編集的ストリング(lexi
cal string)に基づいてセットの複数の混同し易いスト
リングモデル(confusable string models)が生成され
る。各ストリングモデルは複数の音響及び言語モデルの
結合(combination )から構成される。訓練データベー
スからある訓練ストリングトークンを与えられると、音
響、言語及び結合モデルのパラメータがその辞書編集的
ストリングモデルがそのセットの複数の混同し易いスト
リングモデル間で最良の認識スコアを示す確率を改善さ
せるように推定され、こうして、ストリング誤認率が低
減される。
【0009】最小の誤認率を提供するパラメータ推定は
ある特別に設計された損失関数(loss function )の使
用によって得られる。この損失関数は競合する複数のス
トリングモデルを考慮に入れることによって複数の音声
認識ユニットモデル内のストリングレベルのアロホニッ
クバリエーション(allophonic variations )を収容す
る。競合するストリングモデルのスコアリング差(scor
ing differential)と期待されるストリング誤認との間
の間の関係を確立することによって、期待される誤差の
最小化が、辞書編集的ストリングモデルと他の複数の混
同し易いストリングモデルとの間に正しいスコアランク
順位(crrect score rank order )を持つ確率の最大化
と直接に関係付けられる。
【0010】
【詳細な説明】A.一例としてのハードウエア実現 説明を簡潔にするために、本発明の一例としての実現は
(“プロセッサ(processors)”と呼ばれる機能ブロッ
クを含む)個々の機能ブロックから構成されるものとし
て説明される。これらブロックが表わす機能は共有或は
専用ハードウエアのいずれかの使用を通じて提供され、
これらハードウエアには、これに限定されるものではな
いが、ソフトウエアを実行する能力のあるハードウエア
が含まれる。例えば、図1、2、或は3内に表わされる
プロセッサの機能は、単一の共有プロセッサによって提
供される。(用語“プロセッサ”の使用は、ソフトウエ
アを実行する能力をハードウエアを排他的に指すものと
解釈されるべきではない。)
【0011】一例としての実現は、例えば、以下に述べ
られる動作を遂行するソフトウエアを格納するためのデ
ジタル信号プロセッサ(digital signal processor、D
SP)ハードウエア、例えば、AT&T DSP16 或はDSP32C
読出し専用メモリ(read-only memory、ROM)、及び
DSPの結果を格納するためのランダムアクセスメモリ
(random access memory、RAM)から構成される。大
規模集積(Very largescale integration(VLSI)
ハードウエア実現、並びに、汎用DSP回路と組合わせ
られたカスタムVLSI回路を提供することもできる。
【0012】B.一例としての実現 音声認識は、これによって未知の音声発声(speech utt
erance)が(通常、デジタルPCM信号の形式にて)識
別されるプロセスである。一般的には、音声認識は未知
の(unknown )の発声の特徴を既知の(known )の単語
或は単語ストリングの特徴と比較することによって遂行
される。
【0013】未知の発声を認識するために、音声認識器
(speech recognizer )はそれを特性化するために発声
から特徴を抽出する。未知の発声の特徴はテストパター
ン(test pattern)と呼ばれる。認識器は次にデータベ
ース内の一つ或は複数の参照(reference patterns)の
複数の結合(combinations)を未知の発声のテストパタ
ーンと比較する。参照パターン(reference pattern )
の個々の結合(combination )がテストパターンとどれ
くらい良く一致するかの相対的尺度(relativemeasur
e)を提供するためにスコアリング(scoring )技法が
使用される。未知の発声は一つ或はそれ以上の参照パタ
ーンのその未知の発声と最も良く一致する結合と関連す
る複数の単語(words )であると認識される。
【0014】図1は本発明に従う一例としての解説のた
めの音声認識システム1を示す。このシステムは、訓練
音声データベース10、特徴抽出器20、モードスイッ
チ15、30、スコアリング比較器40、スコアプロセ
ッサ50、従来のHMMトレーナ60、認識モデルパラ
メータデータベース70、N−最良ストリングモデル発
生器、及び改善されたトレイナ(enhanced trainer)8
0を含む。
【0015】システム1の訓練音声データベース(trai
ning speech database)10は、デジタル形式の既知の
音声信号のサンプルを含む。個々の音声信号は一つ或は
それ以上の発声された単語のストリング(string)に対
応する。これらサンプルは、それぞれ、従来のトレイナ
60及び改善されたトレイナ80の目的のために使用さ
れる。データベース10からの既知の音声ストリングの
サンプルがモードスイッチ(mode switch )15を介し
てシステム1の他の要素に提供される。
【0016】モードスイッチ15はシステム1の二つの
動作モード:つまり、訓練(training、T)モード及び
認識(recognition 、R)モードを反映する。スイッチ
15がT位置(或は状態)にあるときは、データベース
10からの訓練音声は、訓練セクション90によって訓
練が遂行されるようなシステム1のバランス(balance
)に対して提供される。スイッチ15がR位置にある
ときは、デジタル形式での未知の音声発声(信号)が認
識セクション95にって認識されるようなシステム1の
バランスに対して提供される。
【0017】システム1の特徴抽出器(feature extrac
tor )20はモードスイッチ15に結合される。モード
スイッチ15の状態に依存して、抽出器20は、訓練或
は未知の音声信号ストリングを受信する。受信された音
声信号に基づいて、抽出器20は、受信された音声を特
性化する一つ或はそれ以上の特徴ベクルト(featurevec
tors )Xを生成する。特徴抽出器20は、例えば、フ
ィルタバンク特徴抽出器(filter bank feature extrac
tor )、線型予測符号化(linear predictivecoding、
LPC)特徴抽出器、或は離散フーリエ変換(discrete
Fourier transform、DFT)特徴抽出器などのような
任意の従来の特徴抽出器であり得る。
【0018】抽出器20からの特徴ベクトル出力は第二
のモードスイッチ30に提供される。このモードスイッ
チ30はモードスイッチ15と協調動作する(tandem
にて動作する)、つまり、両方のスイッチは、これら両
方のスイッチ15、30に提供されるモード信号に基づ
いて、同時に、同一状態−−T或はRにセットされる。
モードスイッチ30は、抽出器20の出力をシステム1
の認識セクション或は訓練セクションのいずれかに向け
る。
【0019】システム1の認識セクション95はスコア
リング比較器(scoring comparator)40及びスコアプ
ロセッサ(score processor )50を含む。スコアリン
グ比較器40は従来のものである。比較器40はストリ
ングモデル(string model)を未知の音声信号ストリン
グと関連付け、一致の程度(closeness )を示すスコア
を決定する。これらストリングモデルは、例えば、複数
の音響ストリングモデル(acoustic string models)及
び複数の言語ストリングモデル(language string mode
ls)の結合から構成される。複数の音響及び言語モデル
のための従来のスコアリング比較器を比較器40のため
に使用することができる。これに関しては、例えば、こ
こにあたかも完全に明らかにされているものとして参考
のために編入される、Lee 及びRabiner によってVo
l.37、No.4、IEEEE Trans.Acoust., Speech ,S
ig. Pro. 、1649−58(1989)に掲載の論文
『接続された単語認識のためのフレーム同期網探索アル
ゴリズム(A Frame Synchronous Network Search Algor
ithm for Connected Word Recognition )』を参照する
こと。また、本出願人と譲受人を同一とし、ここにあた
かも完全に明らかにされているものとして参考のために
導入される『隠れマルコフモデル音声認識構成(Hidden
Markov Model Speech Recognition Arrangement)』と
いう名称の合衆国特許第4,783,804号を参照す
ること。比較器40によって生成されるスコアはスコア
プロセッサ50に提供される。スコアプロセッサ50は
提供されたスコアのどちらが大きいか(greatest)を決
定し、そのスコアに対する(対して責務を持つ)単語の
ストリングを識別する。未知の音声信号ストリングがプ
ロセッサ50によってこうして識別されたストリングモ
デルと関連する既知の音声として認識される。プロセッ
サ50は出力のための識別された音声の表現(represen
tations )をモデルパラメータデータベース(model pa
rameter database)70(以下を参照)から得る。
【0020】システム1の訓練セクション90は、従来
のHMMトレイナ60、モデムパラメータデータベース
70、N−最良ストリングモデル発生器75、及び改善
されたトレイナ80から構成される。例えば、合衆国特
許第4,783,804号において説明されているよう
なHMMトレイナ60が音響HMMの従来の訓練を提供
する。
【0021】モデルパラメータデータベース(model pa
rameter database)70は、例えば、音響、言語等に基
づくm個のセットの複数の認識モデルの集まり(collec
tion)Λ={Λ1 、...、Λm }を格納する。本発明
のこの一例としての実現においては、Λ={ΛA 、Λ
L 、ΛC }であり、ここで、ΛA はセットの複数の音響
モデル、ΛL はセットの複数の言語モデル、そしてΛC
は結合モデル(combining model )を表わす。(ΛC
グローバルストリングモデルを形成する目的でΛA 及び
ΛL を結合するときに使用されるセットのパラメータか
ら構成される。)
【0022】トレイナ60の出力はセットの一つ或はそ
れ以上の従来のように訓練された音響HMM、ΛA 、並
びにそれにこのセットのHMMが根拠を持つ訓練音声ス
トリングの特徴ベクトルXから構成される。本発明のこ
の一例としての実施例の目的に対しては、従来のトレイ
ナ60によって提供される訓練の程度(degree)は特に
重要ではない。事実、従来のトレイナ60は(ささいな
ものであっても)HMMパラメータの初期セットΛI
提供すること以上は要求されず、これは、読出し専用メ
モリから検索される。
【0023】トレイナ60の出力ΛA (0)は、初期化
パラメータとして発生器75及び改善されたトレイナ8
0によって使用されるためにモデルデータベース70内
に記録される。改善されたトレイナ80はデータベース
70からΛ及びXを受信し、データベース70にセット
の改善された(enhanced)或は更新された(updated)
HHMモデルΛU をリターンする。最終的に、改善され
たモデルΛU は、認識モードの際にスコアリング比較器
40に提供される。このスコアリング比較器40は改善
されたモデルΛU を使用し、低減されたストリング認識
エラー率を提供する。
【0024】N−最良ストリングモデル発生器75はモ
デルΛ及び訓練音声ストリングXを受信し、辞書編集的
ストリングモデル(lexcical string model )と高度に
競合するセットの複数のストリングモデルを生成する。
これら競争力のある複数のストリングモデル(competit
ive string models )が改善されたトレイナ80の弁別
訓練(discriminative training )に対する基礎(basi
s )を提供する。
【0025】発生器75は、N個の最良(或は最も混同
しやすい)ストリングモデルをN個の最良(混同しやす
い)単語ストリング(word strings)及び、これら個々
の単語ストリングに対する複数の対応するストリングモ
デルを決定することによって生成する。このN個の最良
単語ストリングの決定は、ここにあたかも完全に説明さ
れているかのように編入されるF.K.Soog及びE.F.Huang
によってProc.ICASSP(1991)に掲載の論文『連続
音声認識においてN個の最良文仮説を発見するための木
格子に基づく高速探索(A tree-trellis based fast se
arch for finding N-best sentence hypotheses in con
tinuous speech recognition)』において説明されるタ
イプの修正ビタビ復号器(modified Viterbi decorder
)の使用を通じて行なわれる。この復号器は、部分パ
スマップ(partial path map)、つまり、個々の時間瞬
間(time instant)において任意の文法ノード(つま
り、単語接合点)へと導く全ての部分パス(partial pa
ths )の全てのスコア(或はメトリックス)のリストを
準備する。文法ノード(grammar nodes )において、ユ
ニグラムタイプ(uingram-type)の言語モデルスコアが
このパススコアに加えられる。例えば、任意の単語に対
するユニグラム確率(unigram probability )の対数が
このパスがその与えられた単語の終端状態に到達したと
きにパススコアに加えられる。修正ビタビ前向き探索
(modified Viterbi forward search )の終端におい
て、復号器はA* トレースバック木探索手順(A* trac
eback tree-search procedure )を使用する。発生器7
5は木探索を遂行することによって“スタック(stack
)”(ランク順に並べられたデータリスト)の最上部
の所に最上(最良)部分パスを成長させる。スタック上
の全ての部分パスのランク順序(rank ordering )はあ
る部分パスが完結したとき達成することができる最良の
可能なスコアによって決定される。前向きビタビ探索に
おいて準備されたこの部分パスマップは後ろ向き木探索
(backward tree search)における任意の完結されてな
いパスに対するスコアを提供する。A* 手順の“最良最
早(best first)”性質のために、最上のN個のストリ
ングが順次に生成される。
【0026】A* アルゴリズムの認容性(admissibilit
y )、或は最適パス(optimal path)の確かな発見(su
re findings )は、スタックの深さが任意の探索エラー
を回避するために十分に深いという条件の下で、部分パ
スの完結されてない部分の上側境界(upper bound )が
スタック復号器内で使用された場合に保証される。この
木格子アルゴリズムにおいては、同一のHMM及び言語
モデルがその探索内で両方向に沿って使用されたとき、
パスの最も固い上側境界(tightest upper bound)或は
実スコア(actual score)が得られ、結果として、アル
ゴリズムの探索効率が最大にされるが、 このためにN
個の項目(entries )のスタックが必要とされる。
【0027】発生器75は入力音声ストリングXをN個
の最良ストリングリスト内の個々の与えられた単語スト
リングに対するモデルセットに対してビタビ整合(Vite
rbi)することによって、N個の最良ストリングモデル
をN個の最良単語ストリングに基づいて生成する。この
ステップは、同一単語ストリングに対応する多くのスト
リングモデルが存在するが;但し、ある与えられたモデ
ルセットに対する入力発声に最も良く一致するストリン
グモデルは唯一(unique)であることを利用して発生器
75によって遂行される。
【0028】発生器75は未知(unseen)の複数の競合
ストリングをモデル化する能力も提供することに注意す
る。これは、N個の最良復号化を通じて生成される複数
の競合単語ストリングが訓練教材によって制約されるこ
とがないという事実に起因する。ある訓練発声はある単
一の単語ストリングに対応するが、その発声と関連する
N個の最良ストリングリストは動的であり、与えられた
音声認識ユニットモデルセットに基づくストリングレベ
ルモデル分解能を反映する。基本認識ユニットモデル
は、従って、N個の最良ストリングモデル発生器によっ
て生成された単語ストリングによって訓練される。これ
ら単語ストリングには、元の訓練教材(original train
ing material)内には存在しないが、そのストリングモ
デルを認識器が辞書編集的ストリングのストリングモデ
ルと混乱しやすいと発見した単語ストリングが含まれ
る。認識器が辞書編集的単語ストリングと混乱し易いと
発見した未知(unseen)の単語ストリングが差別的に
(discriminatively)にモデル化される。こうして、未
知(unseen)のストリングに対するモデリングカバレッ
ジ(modeling coverage )が改善される。未知(unsee
n)のストリングのモデル化は、このようなモデル化が
訓練教材の乏しいストリングカバレッジ(string cover
age )に起因して連続音声認識において遭遇する困難を
低減するのに有効である。
【0029】上に説明の発生器75の動作は以下のよう
に要約することができる。S=W1、...、Wlsを任
意の単語ストリングであるものとする。音響モデル、言
語及びその他の認識ソースを含むモデルセットΛが与え
られた場合、最適状態シーケンスΘS は観察X及び単語
ストリングSの関数である。このN最良ストリング仮説
{S1 、...SN }は帰納的に数式数1のように定義
することができる。
【数1】
【外1】 最小ストリングエラー率訓練においては、これらのスト
リングレベル音響訓練トークンがストリングエラーを表
わすために特別に設計されたセットの差別的関数(disc
riminant function )内に組み込まれる。これは、以下
に説明されるように、改善されたトレイナ80の動作に
よって行なわれる。
【0030】図2は図1内に現われる改善されたトレイ
ナ80の一例としての実現を表わす。改善されたトレイ
ナ80はデータベース70によって提供される訓練音声
に作用を及ぼす。改善されたトレイナ80の動作の結果
として、認識モデルの更新されたセットΛU をデータベ
ース70にリターンする。Λu は、その後、認識モード
の際にセットの認識器1の参照パターンとして使用さ
れ、或は同一或は追加の(same or additional)訓練音
声の処理の結果としてさらに更新されるべき新たな(ne
w )Λとして使用される。
【0031】説明の明快さ及び計算の単純化のために、
更新プロセッサ88は、一例として、一度に一つの訓練
ストリングを処理するものとして説明される。下に説明
されるのとは少し異なり、この実現は複数の訓練音声サ
ンプルに基づいてΛを更新することも可能である(議論
のセクションを参照)。
【0032】図2に示されるように、改善されたトレイ
ナ80は、ストリング誤認尺度プロセッサ(string mis
recognition measure processor )82、ストリングモ
デル損失関数プロセッサ(string model loss function
processor)84、及びストリングモデル更新プロセッ
サ88を含む。
【0033】1.ストリング誤認尺度プロセッサ ストリング誤認尺度プロセッサ82は、データベース7
0からモデルΛ、及び訓練音声ストリングサンプルXを
受信する。ストリングサンプルX、及びΛに基づいて、
プロセッサ82はストリング誤認尺度d(X、Λ)を数
式数2のように決定する。
【数2】 ここで、g(X、Slex 、Λ1 、...、Λm )はS
lex を正しいストリングとして与えられたときの入力発
声Xの認識器スコアであり;g(X、Sk 、Λ
1 、...、Λm )は各競合ストリングに対する認識器
ソースであり;ηは一例として2にセットされた正の数
であり;そしてNは発生器75によって提供された競合
ストリングの総数である。一例として、gは認識器スコ
アの重み付けされた総和の形式をとる。
【数3】 或は、この実現の場合は、
【数4】
【外2】
【0034】ストリング誤認尺度プロセッサ82は図2
に示される後続のプロセッサによって使用されるための
スカラ値dを決定する。
【0035】2.ストリングモデル損失関数プロセッサ ストリングモデル損失関数プロセッサ84はプロセッサ
82から受信されたスカラ値d(X、Λ)に基づいて平
滑ストリング損失関数(smooth string loss function
)lを評価する。
【数5】 ここで、γは、一例として、1にセットされ、d0 は、
一例としてゼロにセットされるバイアス項である。
【0035】プロセッサ84はスカラlを出力としてス
トリングモデル更新プロセッサ88に提供する。
【0036】(上に説明の)パラメータγ及びηはスト
リング損失関数lへの平滑にされた近似を提供すること
を助ける。ストリング損失関数の勾配(11)はストリ
ングモデル更新プロセッサ88によってモデルパラメー
タΛを更新するために使用される。従って、この損失関
数の期待されるストリング損失の最小化はストリングエ
ラー確率の最小化に直接にリンクされる。バイアスパラ
メータd0 は訓練プロセスにおいて競合ストリングモデ
ルの影響を改善(enhance )するために使用される。
【0037】3.ストリングモデル更新プロセッサ 図3はストリングモデル更新プロセッサ88の一例とし
てのブロック図を表わす。図面に示されるように、プロ
セッサ88は、Λ、X及びlに基づいて、音響HMMパ
ラメータμ、σ2 、c、及びa;言語モデルパラメータ
P(Wj )及びP(Wj |Wj-1 );並びに結合モデル
パラメータαi を更新する。プロセッサ88は更新され
たパラメータΛu をパラメータデータベース70にリタ
ーンする。Λ及びΛU の両者は、パラメータμ、σ2
c、a、P(Wj )、P(Wj |Wj-1 )、及びαi
含むが、Λ及びΛU は、それぞれ、未更新の及び更新さ
れた量を表わす。
【0038】プロセッサ88によるモデルパラメータ更
新の詳細な説明を行なう前に、この動作に対する幾らか
な背景について説明する。
【0039】ストリングエラー率と関連する期待される
損失は、以下の数式数6によって与えられる。
【数6】 最小ストリングエラー率訓練においては、目標は訓練サ
ンプルを通じて期待される損失(12)を最小にするこ
とにある。期待される損失数式数6は更新されたパラメ
ータによって以下のように最小にされる。
【数7】 ここで、εn はステップサイズパラメータのシーケンス
であり、Un は以下に定義される正の有限行列のシーケ
ンスである。
【外3】
【0040】図2の一例としての実現においては、モデ
ルΛは、更新プロセッサ88によって数式数7)に従っ
て適応的に調節される。
【0041】a.音響モデルの更新 音響HMMの構造のために、それらのパラメータは幾つ
かの制約を満たさなければならない。ストリングモデル
更新プロセッサ88は、これらの全ての制約を満足させ
るために音響モデルパラメータ更新プロセスの一部とし
て変換されたHMMパラメータ(transformed HMM para
meters)を採用する。以下の変換がプロセッサ88によ
って遂行される。
【0042】(1)分散の対数
【数8】 ここで、σ2 i,j,k,dは、ある特徴ベクトルのi番目の認
識ユニットモデル、j番目の状態、k番目の混合成分
(mixture component )及びd番目の次元の分散であ
り、ここで、個々の認識ユニットモデルは、例えば、あ
る単語或はサブワードを反映する。
【0043】(2)混合重みの変換された対数
【外4】
【数9】 ここで、Lはi番目の認識ユニットモデル内のj番目の
状態内の混合重みの総数である。
【0044】(3)遷移確率の変換された対数 元の遷移確率ai,j は以下のように変換された遷移確率
と関連付けられる。
【数10】 ここで、Mはi番目の認識ユニットモデル内の状態の総
数である。
【0045】この一例としての実現の重要な特徴は小さ
な分散の取り扱いに関する。過去において提案された幾
つかの修正訓練アルゴリズム(corrective training al
gorithms)においては、分散の調節は、誤って扱われた
場合に悪影響を与えることがあるために回避されてき
た。
【0046】HMM内の分散は104 から106 倍とい
う大きな量だけ異なる。
【外5】 一例としての実現においては、これは、HMMパラメー
タ調節、特に、HMMの観察確率密度関数内の平均パラ
メータの調節に対する異なる感度の原因となる。
【0047】この感度における膨大な差異を補償するた
めに、この実現は正の有限行列Unを採用する。この正
の有限行列は、各状態に対する数式む数11で表される
対角行列:
【数11】 である。ここで、σ2 (n)は時刻nにおけるHMMの
分散である。
【0048】更新式(update expressions)自体に関し
ては、各々は上の数式数7に記述されるような項▽lを
含む。
【外6】
【0049】更新プロセッサ88によって提供される音
響モテルパラメータの更新は以下の通りである。
【0050】(4)平均の更新
【数12】 ここで、xnn(d)は特徴ベクトルxnnのd−次元成分
であり、θj は最適パスが最初に状態jに入る時間フレ
ームに対応し、θj+1 は最適パスが状態j+1に入る時
間フレームに対応し、l(X、Λ)は数式数5に従って
構成された損失関数であり、εn はステップサイズであ
り、そして
【数13】 である。ここで、Dは特徴ベクトルの次元である。平均
の更新は図3のブロック88−1によって提供される。
【0051】(5)分散の更新
【外7】
【数14】
【外8】 従って、時刻n+1における分散は以下によって与えら
れる。
【数15】 分散は10-6以下において切り取られ、これは、σ2
i,j,k,d(n)>10-6の制約を満足する。この分散の
更新は図3のブロック88−2によって提供される。
【0052】(6)混合重みの更新 パラメータ化された重みは以下に従って調節される。
【数16】 従って、時刻n+1における混合重みは以下によって与
えられる。
【数17】 こうして、調節された混合重みは、訓練プロセスの際に
Σki,j,k (n)=1及びci,j,k (n)>0の制約
を満たす。混合重みの更新は図3のブロック88−3に
よって提供される。
【0053】(7)状態遷移確率の更新:左から右への
HMMにおいては、l−番目の単語モデルのパラメータ
化された遷移確率は以下によって調節される。
【数18】 ここで、gl はl−番目の認識ユニットモデル内のXの
尤度スコアであり、iは終端状態ではなく、そして状態
i内の自己遷移(self-transition )の総数は
【外9】 によって表わされる。
【0054】従って、時刻(n+1)における遷移確率
は以下によって与えられる。
【数19】
【外10】
【0055】更新プロセッサ88によって計算される更
新式(20−23)は、i番目の状態内でのi−番目の
音響HMM認識ユニットモデルの更新された観察確率密
度関数に
【数20】 に従って関連付けられるが、ここで、ci,j,k は混合重
みであり、N(x、μi, j,k,i,j,k )はi−番目の認
識ユニットモデル、j−番目の状態、及び対角共分散行
列Vi,j,k を持つk−番目の混合に対するD−次元正規
ガウス分布である。
【0056】b.言語モデルの更新 言語モデルに対しては、音響モデルと同様に、更新は変
換領域内で起こる。例えば、以下の変換がプロセッサ8
8によって使用される。
【0057】(1)ユニグラム言語モデルからの確率の
変換
【数21】
【外11】
【0058】(2)バイグラム言語モデルからの確率の
変換
【数22】
【外12】
【0059】プロセッサ88によって遂行される言語モ
デルパラメータの更新は以下のように遂行される。
【外13】 ここで、Slex は辞書編集的(或は正しい)単語ストリ
ングであり、Si (i=1、...、N)はN最良復号
化(75)によって決定されたN個の競合単語ストリン
グである。
【0060】(3)ユニグラム言語モデル確率の更新
【数23】 このユニグラム確率の更新は図3のブロック88−5に
よって提供される。
【0061】(4)バイグラム言語モデル確率の更新:
【数24】 このバイグラム確率の更新は図3のブロック88−6に
よって提供される。
【0062】c.結合モデルパラメータの更新
【外14】
【数25】 この結合モデルパラメータの更新は、図3のブロック8
8−7によって提供される。
【0063】μ(n+1)、σ2 (n+1)、c(n+
1)、a(n+1)、P(Wi )(n+1)、P(Wi
|Wj )(n+1)、及びαi (n+1)に対する値は
ブロック88−1乃至88−7によって出力される。図
3に示されるように、Λu はμ、σ2 、c、aP(W
i )、P(Wi |Wj )、及びαi から構成される。
【0064】上に提供されるパラメータ更新に対する式
(expressions )はモデルパラメータを改善(enchanc
e)するためのデータベース70からの単一音声訓練ス
トリングサンプルの使用に関する。ただし、改善された
トレイナ(enchanced trainer)80はモデルパラメー
タを改善させるために複数回反復することも可能であ
る。例えば、改善されたトレイナ80は、データベース
70内の全ての訓練ストリングサンプルについて動作す
ることもできる。但し、必要であれば、トレイナ80
は、データベース70全体を通じて数回のパスについて
或は数ラウンド(rounds)動作される。トレイナ80は
サンプルの処理を複数の方法の任意の一つを使用して停
止することができる。例えば、トレイナ80はサンプル
のデータベース70を通じて固定されたランウド数が完
了したとき停止する。但し、好ましくは、トレイナ80
は、現ラウンドの全ての音声訓練ストリングの処理によ
ってストリングエラー率が増分的にどれだけ改善された
か(incremental improvement )の記録を保持する。
【0065】C.議論 本発明による実現の音響モデルは、特にHMMと関連す
るが、他のタイプの音響モデルを採用する認識器、例え
ば、スコアリングの方法として動的時間ラッピング(dy
namic time warping)を採用するテンプレートに基づく
(template-based)音響認識器にも適用する。本発明を
他のタイプの認識器に適応させるためには、数式数2内
に関数gによって表わされるスコアリングの方法がその
認識器のタイプを反映するように修正されなければなら
ない。この修正はまた lの項内の認識ユニットモデル
の更新プロセスにも影響を与える。
【0066】上に説明の実施例においては、訓練音声の
各サンプルストリングが順番に使用される。ストリング
モデル更新プロセッサ88は識別器によって提供された
情報を現サンプルストリングに取り入れ、上に提供され
た更新式に従ってモデルパラメータを更新する。プロセ
ッサ88の計算上の複雑さは、主に、幾つの競合する候
補ストリングモデルがモデルパラメータの推定のために
使用されるべきかを決定する誤認尺度(misrecognition
measure)の形式に依存する。上に説明のように、改善
されたトレイナ80の各反復は単一の音声訓練サンプル
に関して動作する。但し、トレイナが複数のサンプルに
基づいて更新されたセットのモデルパラメータΛU を提
供するようにすることも可能である。これを行なうため
には、ストリング誤認尺度プロセッサ82はdに対する
値のベクトルを得るために音声ストリングサンプルのベ
クトルに関して動作し、ここで、各値はある与えられた
ストリングサンプルに対応する。ストリングモデル損失
関数プロセッサ84はd値のベクトルを受信し、l値の
ベクトルを得るが、これらの各々は対応するdの値に基
づく。ストリングモデル更新プロセッサ88は、上に説
明のようにパラメータを更新するが、ここで、Λ(n)
からΛ(n+1)への各更新は(N個のストリングサン
プルの)単一の音声ストリングサンプルによって提供さ
れる。但し、全てのストリングサンプルは、一つのサン
プルを処理した結果としてのΛ(n+1)が後続のサン
プルを処理するためのΛ(n)として機能するように順
番に使用される。複数のストリングサンプルに基づくΛ
の更新においては、(式18、20、22、24、3
0、31及び32)の右側のΛの値は一定に留まること
に注意する。全てのストリングサンプルが処理された後
に初めてΛI がAu としてデータベースに更新される。
【0067】数式数5内に与えられた損失関数は本発明
に適用される関数の一つのタイプにすぎないことに注意
する。他のタイプの関数、例えば、双曲線正接(hyperb
olictangent)に基づく関数も提供可能である。
【外15】
【0068】数式数7によって一般的に、そして数式数
12、「数14]、[数16]、数18、数23、数2
4、数25によって具体的に記述されるプロセスは、ス
トリング損失関数の局所極小の識別を提供する。但し、
損失関数のグローバル極小を見つけるための従来の技
法、例えば、シミュレーションによる焼きなまし(simu
lated annealing )を適用することもできる。
【0069】上記の観点から、当業者においては、本発
明は話者依存及び話者独立音声認識の両方に適用するこ
とが明らかである。
【0070】加えて、本発明のこの一例としての実現
は、音響及び言語モデルを線型的に結合するストリング
モデルに関するが、当業者においては、本発明は、意味
論モデル、音声学的モデル、シンタックスモデルなどの
他の/追加の認識ソース及びモデルタイプ、並びに、非
線型結合モデルを含む他の結合モデルを導入するストリ
ングモデルにも適用できることが明白である。
【図面の簡単な説明】
【図1】本発明に従う一例としての音声認識システムを
示す図である。
【図2】図1に現われる改善されたトレイナの一例とし
ての実現を示す図である。
【図3】図2に現われるストリングモデル更新プロセッ
サの一つの実現を示す図である。
【符号の説明】
10 訓練音声 15、30 モードスイッチ 20 抽出器 40 比較器 50 スコアプロセッサ 60 従来のHMMトレイナ 70 認識モデルパラメータデータベース 75 発生器 80 改善されたトレイナ 90 訓練セクション 95 認識セクション
───────────────────────────────────────────────────── フロントページの続き (72)発明者 ビーイング−フワン ジョアン アメリカ合衆国 07059 ニュージャーシ ィ,ウォーレン,サウス レーン 8 (72)発明者 チン−フィ リー アメリカ合衆国 07974 ニュージャーシ ィ,ニュープロヴィデンス,ラニーメイド パークウェイ 118

Claims (20)

    【特許請求の範囲】
  1. 【請求項1】 訓練ストリング発声信号及び複数のセッ
    トの複数の現音声認識モデルに基づいて音声認識モデル
    データベースを作成するための方法であって、この方法
    が: a.セットの一つ或はそれ以上の混同し易いストリング
    モデルを生成するステップを含み、混同し易いストリン
    グモデルが二つ或はそれ以上のセットの複数の現音声認
    識モデルからの複数の音声認識モデルから構成され;こ
    の方法がさらに b.訓練ストリング発声信号及びその発声に対するスト
    リングモデルに基づいて第一のスコアリング信号を生成
    するステップを含み、前記のその発声に対するストリン
    グモデルが二つ或はそれ以上のセットの複数の現音声認
    識モデルからの複数の音声認識モデルから構成され;こ
    の方法がさらに c.一つ或はそれ以上の第二のスコアリング信号を生成
    するステップを含み、第二のスコアリング信号が訓練ス
    トリング発声信号及びある一つの混同し易いストリング
    モデルに基づき、この混同し易いストリングモデルが二
    つ或はそれ以上のセットの複数の現音声認識モデルから
    の複数の音声認識モデルから構成され;この方法がさら
    に d.第一のスコアリング信号及び一つ或はそれ以上の第
    二のスコアリング信号に基づいて誤認信号を生成するス
    テップ;及び e.誤認信号に基づいて、正しいストリングモデルが他
    の複数の混同し易いストリングモデルよりも高いランク
    順位を持つ確率を増加するために複数の現音声認識モデ
    ルを修正するステップを含むことを特徴とする方法。
  2. 【請求項2】 前記のセットの一つ或はそれ以上の混乱
    し易いストリングモデルを生成するステップがN個の最
    良単語ストリングモデルを生成することから成ることを
    特徴とする請求項1の方法。
  3. 【請求項3】 前記の第一の認識器スコアリング信号が
    訓練ストリング発声信号とその発声に対するストリング
    モデルとの間の類似の尺度を反映することを特徴とする
    請求項1の方法。
  4. 【請求項4】 前記の類似の尺度が対数尤度認識器スコ
    アから成ることを特徴とする請求項3の方法。
  5. 【請求項5】 前記の第二の認識器スコアリング信号が
    訓練ストリング発声信号とある一つの混同し易いストリ
    ングモデルとの間の類似の尺度を反映することを特徴と
    する請求項1の方法。
  6. 【請求項6】 前記の類似の尺度が対数尤度認識器スコ
    アから成ることを特徴とする請求項5の方法。
  7. 【請求項7】 前記の誤認信号を生成するステップが第
    一のスコアリング信号と一つ或はそれ以上の第二のスコ
    アリング信号のある一つの結合との間の差異を形成する
    ことから成ることを特徴とする請求項1の方法。
  8. 【請求項8】 前記の複数の現音声認識モデルを修正す
    るステップが: 1.ある関数の勾配を反映する認識モデル修正信号を生
    成するステップを含み、この関数がその発声に対するス
    トリングモデルに基づく訓練ストリング発声の認識器ス
    コア及び一つ或はそれ以上の混同し易いストリングモデ
    ルに基づく前記訓練ストリング発声の一つ或はそれ以上
    の認識器スコアを反映し;このステップがさらに 2.修正信号に基づいて複数の現音声認識モデルを修正
    するステップを含むことを特徴とする請求項1の方法。
  9. 【請求項9】 前記の関数がその発声に対するストリン
    グモデルに基づく訓練ストリング発声の認識スコアと一
    つ或はそれ以上の混乱し易いモデルに基づく前記訓練ス
    トリング発声の一つ或はそれ以上の認識器スコアの荷重
    総和との差異を反映することを特徴とする請求項8の方
    法。
  10. 【請求項10】 セットの複数の現音声認識モデルが音
    響モデルを含むことを特徴とする請求項1の方法。
  11. 【請求項11】 前記の音響モデルが隠れマルコフモデ
    ルを含むことを特徴とする請求項10の方法。
  12. 【請求項12】 セットの複数の現音声認識モデルが言
    語モデルを含むことを特徴とする請求項1の方法。
  13. 【請求項13】 セットの複数の現音声認識モデルがピ
    ッチモデルを含むことを特徴とする請求項1の方法。
  14. 【請求項14】 セットの複数の現音声認識モデルがエ
    ネルギモデルを含むことを特徴とする請求項1の方法。
  15. 【請求項15】 セットの複数の現音声認識モデルが会
    話速度モデルを含むことを特徴とする請求項1の方法。
  16. 【請求項16】 セットの複数の現音声認識モデルが継
    続期間モデルを含むことを特徴とする請求項1の方法。
  17. 【請求項17】 訓練ストリング発声信号及び複数のセ
    ットの複数の現音声認識モデルに基づいて音声認識モデ
    ルデータベースを作成するための音声認識器トレイナで
    あって、このトレイナが: a.セットの一つ或はそれ以上の混同し易いストリング
    モデルを生成するための手段を含み、混同し易いストリ
    ングモデルが二つ或はそれ以上のセットの複数の現音声
    認識モデルからの複数の音声認識モデルから構成され;
    このトレイナがさらに b.訓練ストリング発声信号及びその発声に対するスト
    リングモデルに基づいて第一のスコアリング信号を生成
    するための手段を含み、前記のその発声に対するストリ
    ングモデルが二つ或はそれ以上のセットの複数の現音声
    認識モデルからの複数の音声認識モデルから構成され;
    このトレイナがさらに c.一つ或はそれ以上の第二のスコアリング信号を生成
    するための手段を含み、第二のスコアリング信号が訓練
    ストリング発声信号とある混同し易いストリングモデル
    に基づき、この混同し易いストリングモデルが二つ或は
    それ以上のセットの複数の現音声認識モデルからの複数
    の音声認識モデルから構成され;このトレイナがさらに d.第一のスコアリング信号及び一つ或はそれ以上のス
    コアリン信号に基づいて誤認信号を生成するための手
    段;及び e.誤認信号に応答して、正しいストリングモデルが他
    の複数の混同し易いストリングモデルよりも高いランク
    順位を持つ確率が増加するように複数の現音声認識モデ
    ルを修正するための手段を含むことを特徴とするトレイ
    ナ。
  18. 【請求項18】 前記の誤認信号を生成するための手段
    が第一のスコアリング信号と一つ或はそれ以上の第二の
    スコアリング信号のある一つの結合との間の差を形成す
    るための手段を含むことを特徴とする請求項17のトレ
    イナ。
  19. 【請求項19】 前記の複数の現音声認識モデルを修正
    するための手段が: 1.ある関数の勾配を反映する認識モデル修正信号を生
    成するための手段を含み、この関数がその発声に対する
    ストリングモデルに基づく訓練ストリング発声の認識器
    スコア及び一つ或はそれ以上の混同し易いストリングモ
    デルに基づく前記訓練ストリング発声の一つ或は複数の
    認識器スコアを反映し;この手段がさらに 2.修正信号に基づいて複数の現音声認識モデルを修正
    するための手段を含むことを特徴とする請求項17のト
    レイナ。
  20. 【請求項20】 音声認識システムであって、このシス
    テムが: a.未知の音声信号を受信し、この未知の音声信号を特
    性化する特徴信号を生成するための特徴抽出器;及び b.複数のセットの複数の認識モデルを格納するための
    メモリを含み、前記の一つ或はそれ以上の認識モデルが
    正しいストリングモデルが他の複数の混同し易いストリ
    ングモデルよりも高いランク順位を持つ確率が改善され
    るようなプロセスに従って生成され;このシステムがさ
    らに c.あるストリングモデルを未知の音声信号の特徴と比
    較するための機能抽出器及びメモリに結合されたスコア
    比較器を含み、前記のストリングモデルが複数の認識モ
    デルセットの各々からの一つ或はそれ以上の認識モデル
    から構成され;このシステムがさらに d.未知の音声信号の特徴と最も良く一致する複数のス
    トリングモデルの一つに基づいて未知の音声信号を認識
    するためのスコアリング比較器に結合されたスコアプロ
    セッサを含むことを特徴とする音声認識システム。
JP16986594A 1993-07-22 1994-07-22 結合されたストリングモデルの最小誤認率訓練 Expired - Lifetime JP3672595B2 (ja)

Applications Claiming Priority (2)

Application Number Priority Date Filing Date Title
US9614293A 1993-07-22 1993-07-22
US096142 1998-08-11

Publications (2)

Publication Number Publication Date
JPH07152394A true JPH07152394A (ja) 1995-06-16
JP3672595B2 JP3672595B2 (ja) 2005-07-20

Family

ID=22255736

Family Applications (1)

Application Number Title Priority Date Filing Date
JP16986594A Expired - Lifetime JP3672595B2 (ja) 1993-07-22 1994-07-22 結合されたストリングモデルの最小誤認率訓練

Country Status (5)

Country Link
US (1) US5606644A (ja)
EP (1) EP0635820B1 (ja)
JP (1) JP3672595B2 (ja)
CA (1) CA2126380C (ja)
DE (1) DE69422097T2 (ja)

Cited By (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2000099087A (ja) * 1998-09-15 2000-04-07 Koninkl Philips Electronics Nv 言語音声モデルを適応させる方法及び音声認識システム
WO2008105263A1 (ja) * 2007-02-28 2008-09-04 Nec Corporation 重み係数学習システム及び音声認識システム
JP2012516432A (ja) * 2009-01-30 2012-07-19 シーメンス アクティエンゲゼルシャフト 物体の振動特性の測定

Families Citing this family (65)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US5737723A (en) * 1994-08-29 1998-04-07 Lucent Technologies Inc. Confusable word detection in speech recognition
US5832430A (en) * 1994-12-29 1998-11-03 Lucent Technologies, Inc. Devices and methods for speech recognition of vocabulary words with simultaneous detection and verification
US5845246A (en) * 1995-02-28 1998-12-01 Voice Control Systems, Inc. Method for reducing database requirements for speech recognition systems
JP3535292B2 (ja) * 1995-12-27 2004-06-07 Kddi株式会社 音声認識システム
US5842165A (en) * 1996-02-29 1998-11-24 Nynex Science & Technology, Inc. Methods and apparatus for generating and using garbage models for speaker dependent speech recognition purposes
US5895448A (en) * 1996-02-29 1999-04-20 Nynex Science And Technology, Inc. Methods and apparatus for generating and using speaker independent garbage models for speaker dependent speech recognition purpose
US6076054A (en) * 1996-02-29 2000-06-13 Nynex Science & Technology, Inc. Methods and apparatus for generating and using out of vocabulary word models for speaker dependent speech recognition
US5870706A (en) * 1996-04-10 1999-02-09 Lucent Technologies, Inc. Method and apparatus for an improved language recognition system
US6167377A (en) * 1997-03-28 2000-12-26 Dragon Systems, Inc. Speech recognition language models
US6076057A (en) * 1997-05-21 2000-06-13 At&T Corp Unsupervised HMM adaptation based on speech-silence discrimination
US7630895B2 (en) * 2000-01-21 2009-12-08 At&T Intellectual Property I, L.P. Speaker verification method
US6012027A (en) * 1997-05-27 2000-01-04 Ameritech Corporation Criteria for usable repetitions of an utterance during speech reference enrollment
US5950158A (en) * 1997-07-30 1999-09-07 Nynex Science And Technology, Inc. Methods and apparatus for decreasing the size of pattern recognition models by pruning low-scoring models from generated sets of models
US5963902A (en) * 1997-07-30 1999-10-05 Nynex Science & Technology, Inc. Methods and apparatus for decreasing the size of generated models trained for automatic pattern recognition
US6076058A (en) * 1998-03-02 2000-06-13 Lucent Technologies Inc. Linear trajectory models incorporating preprocessing parameters for speech recognition
US6182039B1 (en) * 1998-03-24 2001-01-30 Matsushita Electric Industrial Co., Ltd. Method and apparatus using probabilistic language model based on confusable sets for speech recognition
US6076053A (en) * 1998-05-21 2000-06-13 Lucent Technologies Inc. Methods and apparatus for discriminative training and adaptation of pronunciation networks
US6233553B1 (en) * 1998-09-04 2001-05-15 Matsushita Electric Industrial Co., Ltd. Method and system for automatically determining phonetic transcriptions associated with spelled words
US6922669B2 (en) * 1998-12-29 2005-07-26 Koninklijke Philips Electronics N.V. Knowledge-based strategies applied to N-best lists in automatic speech recognition systems
US6574596B2 (en) * 1999-02-08 2003-06-03 Qualcomm Incorporated Voice recognition rejection scheme
GB9920257D0 (en) * 1999-08-26 1999-10-27 Canon Kk Signal processing system
US7149690B2 (en) 1999-09-09 2006-12-12 Lucent Technologies Inc. Method and apparatus for interactive language instruction
KR100307623B1 (ko) * 1999-10-21 2001-11-02 윤종용 엠.에이.피 화자 적응 조건에서 파라미터의 분별적 추정 방법 및 장치 및 이를 각각 포함한 음성 인식 방법 및 장치
US6847734B2 (en) * 2000-01-28 2005-01-25 Kabushiki Kaisha Toshiba Word recognition method and storage medium that stores word recognition program
US6671669B1 (en) * 2000-07-18 2003-12-30 Qualcomm Incorporated combined engine system and method for voice recognition
EP1199704A3 (de) * 2000-10-17 2003-10-15 Philips Intellectual Property & Standards GmbH Auswahl der alternativen Wortfolgen für diskriminative Anpassung
US7400712B2 (en) * 2001-01-18 2008-07-15 Lucent Technologies Inc. Network provided information using text-to-speech and speech recognition and text or speech activated network control sequences for complimentary feature access
US6754627B2 (en) * 2001-03-01 2004-06-22 International Business Machines Corporation Detecting speech recognition errors in an embedded speech recognition system
US20030225719A1 (en) * 2002-05-31 2003-12-04 Lucent Technologies, Inc. Methods and apparatus for fast and robust model training for object classification
US7149687B1 (en) * 2002-07-29 2006-12-12 At&T Corp. Method of active learning for automatic speech recognition
US8959019B2 (en) 2002-10-31 2015-02-17 Promptu Systems Corporation Efficient empirical determination, computation, and use of acoustic confusability measures
US7117153B2 (en) * 2003-02-13 2006-10-03 Microsoft Corporation Method and apparatus for predicting word error rates from text
US20060235698A1 (en) * 2005-04-13 2006-10-19 Cane David A Apparatus for controlling a home theater system by speech commands
US7680659B2 (en) * 2005-06-01 2010-03-16 Microsoft Corporation Discriminative training for language modeling
CN101416237B (zh) * 2006-05-01 2012-05-30 日本电信电话株式会社 基于源和室内声学的概率模型的语音去混响方法和设备
US8831943B2 (en) * 2006-05-31 2014-09-09 Nec Corporation Language model learning system, language model learning method, and language model learning program
US7844456B2 (en) * 2007-03-09 2010-11-30 Microsoft Corporation Grammar confusability metric for speech recognition
US7925505B2 (en) * 2007-04-10 2011-04-12 Microsoft Corporation Adaptation of language models and context free grammar in speech recognition
US8275615B2 (en) * 2007-07-13 2012-09-25 International Business Machines Corporation Model weighting, selection and hypotheses combination for automatic speech recognition and machine translation
WO2009016729A1 (ja) * 2007-07-31 2009-02-05 Fujitsu Limited 音声認識用照合ルール学習システム、音声認識用照合ルール学習プログラムおよび音声認識用照合ルール学習方法
GB2453366B (en) * 2007-10-04 2011-04-06 Toshiba Res Europ Ltd Automatic speech recognition method and apparatus
TWI372384B (en) * 2007-11-21 2012-09-11 Ind Tech Res Inst Modifying method for speech model and modifying module thereof
US8843370B2 (en) * 2007-11-26 2014-09-23 Nuance Communications, Inc. Joint discriminative training of multiple speech recognizers
US8744834B2 (en) * 2008-07-03 2014-06-03 Google Inc. Optimizing parameters for machine translation
KR20110006004A (ko) * 2009-07-13 2011-01-20 삼성전자주식회사 결합인식단위 최적화 장치 및 그 방법
US8438028B2 (en) * 2010-05-18 2013-05-07 General Motors Llc Nametag confusability determination
US8965763B1 (en) * 2012-02-02 2015-02-24 Google Inc. Discriminative language modeling for automatic speech recognition with a weak acoustic model and distributed training
US8543398B1 (en) 2012-02-29 2013-09-24 Google Inc. Training an automatic speech recognition system using compressed word frequencies
US8374865B1 (en) 2012-04-26 2013-02-12 Google Inc. Sampling training data for an automatic speech recognition system based on a benchmark classification distribution
US8571859B1 (en) 2012-05-31 2013-10-29 Google Inc. Multi-stage speaker adaptation
US8805684B1 (en) 2012-05-31 2014-08-12 Google Inc. Distributed speaker adaptation
US8554559B1 (en) 2012-07-13 2013-10-08 Google Inc. Localized speech recognition with offload
US9123333B2 (en) 2012-09-12 2015-09-01 Google Inc. Minimum bayesian risk methods for automatic speech recognition
US10297250B1 (en) * 2013-03-11 2019-05-21 Amazon Technologies, Inc. Asynchronous transfer of audio data
US9317736B1 (en) * 2013-05-08 2016-04-19 Amazon Technologies, Inc. Individual record verification based on features
US9159317B2 (en) * 2013-06-14 2015-10-13 Mitsubishi Electric Research Laboratories, Inc. System and method for recognizing speech
US9026431B1 (en) * 2013-07-30 2015-05-05 Google Inc. Semantic parsing with multiple parsers
US8868409B1 (en) * 2014-01-16 2014-10-21 Google Inc. Evaluating transcriptions with a semantic parser
KR102386854B1 (ko) * 2015-08-20 2022-04-13 삼성전자주식회사 통합 모델 기반의 음성 인식 장치 및 방법
CN110675864A (zh) * 2019-09-12 2020-01-10 上海依图信息技术有限公司 一种语音识别方法及装置
CN111883172B (zh) * 2020-03-20 2023-11-28 珠海市杰理科技股份有限公司 用于音频丢包修复的神经网络训练方法、装置和系统
JP7508409B2 (ja) * 2021-05-31 2024-07-01 株式会社東芝 音声認識装置、方法およびプログラム
CN113707134B (zh) * 2021-08-17 2024-05-17 北京搜狗科技发展有限公司 一种模型训练方法、装置和用于模型训练的装置
CN115512696B (zh) * 2022-09-20 2024-09-13 中国第一汽车股份有限公司 模拟训练方法及车辆
CN117238276B (zh) * 2023-11-10 2024-01-30 深圳市托普思维商业服务有限公司 一种基于智能化语音数据识别的分析纠正系统

Family Cites Families (8)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US4783804A (en) * 1985-03-21 1988-11-08 American Telephone And Telegraph Company, At&T Bell Laboratories Hidden Markov model speech recognition arrangement
US4882759A (en) * 1986-04-18 1989-11-21 International Business Machines Corporation Synthesizing word baseforms used in speech recognition
US5129001A (en) * 1990-04-25 1992-07-07 International Business Machines Corporation Method and apparatus for modeling words with multi-arc markov models
US5202952A (en) * 1990-06-22 1993-04-13 Dragon Systems, Inc. Large-vocabulary continuous speech prefiltering and processing system
US5293451A (en) * 1990-10-23 1994-03-08 International Business Machines Corporation Method and apparatus for generating models of spoken words based on a small number of utterances
US5199077A (en) * 1991-09-19 1993-03-30 Xerox Corporation Wordspotting for voice editing and indexing
US5222146A (en) * 1991-10-23 1993-06-22 International Business Machines Corporation Speech recognition apparatus having a speech coder outputting acoustic prototype ranks
US5280563A (en) * 1991-12-20 1994-01-18 Kurzweil Applied Intelligence, Inc. Method of optimizing a composite speech recognition expert

Cited By (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2000099087A (ja) * 1998-09-15 2000-04-07 Koninkl Philips Electronics Nv 言語音声モデルを適応させる方法及び音声認識システム
WO2008105263A1 (ja) * 2007-02-28 2008-09-04 Nec Corporation 重み係数学習システム及び音声認識システム
US8494847B2 (en) 2007-02-28 2013-07-23 Nec Corporation Weighting factor learning system and audio recognition system
JP2012516432A (ja) * 2009-01-30 2012-07-19 シーメンス アクティエンゲゼルシャフト 物体の振動特性の測定

Also Published As

Publication number Publication date
CA2126380C (en) 1998-07-07
CA2126380A1 (en) 1995-01-23
DE69422097T2 (de) 2000-08-24
EP0635820A1 (en) 1995-01-25
EP0635820B1 (en) 1999-12-15
JP3672595B2 (ja) 2005-07-20
US5606644A (en) 1997-02-25
DE69422097D1 (de) 2000-01-20

Similar Documents

Publication Publication Date Title
JP3672595B2 (ja) 結合されたストリングモデルの最小誤認率訓練
US6076057A (en) Unsupervised HMM adaptation based on speech-silence discrimination
JP3434838B2 (ja) ワードスポッティング法
JP4301102B2 (ja) 音声処理装置および音声処理方法、プログラム、並びに記録媒体
JP4141495B2 (ja) 最適化された部分的確率混合共通化を用いる音声認識のための方法および装置
Szöke et al. Comparison of keyword spotting approaches for informal continuous speech.
US6912499B1 (en) Method and apparatus for training a multilingual speech model set
US5797123A (en) Method of key-phase detection and verification for flexible speech understanding
US5857169A (en) Method and system for pattern recognition based on tree organized probability densities
US7617103B2 (en) Incrementally regulated discriminative margins in MCE training for speech recognition
Lee et al. Improved acoustic modeling for large vocabulary continuous speech recognition
US20030055640A1 (en) System and method for parameter estimation for pattern recognition
JPH0422276B2 (ja)
KR20050082253A (ko) 모델 변이 기반의 화자 클러스터링 방법, 화자 적응 방법및 이들을 이용한 음성 인식 장치
Austin et al. Speech recognition using segmental neural nets
Hanazawa et al. ATR HMM-LR continuous speech recognition system
Razak et al. Quranic verse recitation recognition module for support in j-QAF learning: A review
Hain et al. The cu-htk march 2000 hub5e transcription system
Baig et al. Discriminative training for phonetic recognition of the Holy Quran
Sukkar Subword-based minimum verification error (SB-MVE) training for task independent utterance verification
JP2974621B2 (ja) 音声認識用単語辞書作成装置及び連続音声認識装置
Wu et al. Application of simultaneous decoding algorithms to automatic transcription of known and unknown words
Schwartz et al. Hidden markov models and speaker adaptation
JPH1097273A (ja) 音声モデルの話者適応化方法及びその方法を用いた音声認識方法及びその方法を記録した記録媒体
Kanazawa et al. A hybrid wordspotting method for spontaneous speech understanding using word-based pattern matching and phoneme-based HMM

Legal Events

Date Code Title Description
A131 Notification of reasons for refusal

Free format text: JAPANESE INTERMEDIATE CODE: A131

Effective date: 20040329

A521 Request for written amendment filed

Free format text: JAPANESE INTERMEDIATE CODE: A523

Effective date: 20040629

TRDD Decision of grant or rejection written
A01 Written decision to grant a patent or to grant a registration (utility model)

Free format text: JAPANESE INTERMEDIATE CODE: A01

Effective date: 20050328

A61 First payment of annual fees (during grant procedure)

Free format text: JAPANESE INTERMEDIATE CODE: A61

Effective date: 20050420

R150 Certificate of patent or registration of utility model

Free format text: JAPANESE INTERMEDIATE CODE: R150

FPAY Renewal fee payment (event date is renewal date of database)

Free format text: PAYMENT UNTIL: 20090428

Year of fee payment: 4

FPAY Renewal fee payment (event date is renewal date of database)

Free format text: PAYMENT UNTIL: 20100428

Year of fee payment: 5

FPAY Renewal fee payment (event date is renewal date of database)

Free format text: PAYMENT UNTIL: 20100428

Year of fee payment: 5

FPAY Renewal fee payment (event date is renewal date of database)

Free format text: PAYMENT UNTIL: 20110428

Year of fee payment: 6

FPAY Renewal fee payment (event date is renewal date of database)

Free format text: PAYMENT UNTIL: 20120428

Year of fee payment: 7

FPAY Renewal fee payment (event date is renewal date of database)

Free format text: PAYMENT UNTIL: 20130428

Year of fee payment: 8

FPAY Renewal fee payment (event date is renewal date of database)

Free format text: PAYMENT UNTIL: 20140428

Year of fee payment: 9

R250 Receipt of annual fees

Free format text: JAPANESE INTERMEDIATE CODE: R250

EXPY Cancellation because of completion of term