JPH07152394A

JPH07152394A - 結合されたストリングモデルの最小誤認率訓練

Info

Publication number: JPH07152394A
Application number: JP6169865A
Authority: JP
Inventors: Wu Chou; チョーウー; Biing-Hwang Juang; ジョアンビーイング−フワン; Chin-Hui Lee; リーチン−フィ
Original assignee: American Telephone and Telegraph Co Inc; AT&T Corp
Current assignee: AT&T Corp
Priority date: 1993-07-22
Filing date: 1994-07-22
Publication date: 1995-06-16
Anticipated expiration: 2020-07-20
Also published as: CA2126380C; CA2126380A1; DE69422097T2; EP0635820A1; EP0635820B1; JP3672595B2; US5606644A; DE69422097D1

Abstract

(57)【要約】【目的】本発明は、音声認識などのような音声処理タ
スクのための音声パラメータベースの訓練に関する。【構成】音声認識モデルデータベースを作成する方法
が開示される。このデータベースは一つの訓練ストリン
グ発声信号と複数のセットの現音声認識モデルに基づい
て形成される。これら複数のセットの現音声認識モデル
は複数の音響モデル、言語モデル、及び他の認識源（kn
owledge sources ）を含む。本発明の一例としての実現
においては、ある一つのセットの複数の混同し易い（co
nfusable）ストリングモデルが生成されるが、各々の混
同し易いストリングモデルは二つ或はそれ以上のセット
の複数の音声認識モデル（例えば、音響及び言語モデ
ル）からの複数の音声認識モデルから構成される。訓練
ストリング発声信号とその発声に対するストリングモデ
ルに基づいて第一のスコアリング信号が生成されるが、
ここで、この発声に対するストリングモデルは二つ或は
それ以上のセットの複数の音声認識モデルからの複数の
音声認識モデルから構成される。

Description

【発明の詳細な説明】

【０００１】

【産業上の利用分野】本発明は一般的にはパターンデー
タベース（pattern database）の訓練、より詳細には、
音声認識などのような音声処理タスクのための音声パタ
ーンデータベースの訓練に関する。

【０００２】

【従来の技術】連続音声認識の目的は入力音声発声から
の底辺に横たわる単語シーケンス（underlying word se
quence）を識別（つまり、認識）することにある。認識
は、セットの音声認識パターン或はモデル（以降モデル
と呼ばれる）を使用して遂行される。これらの基本音声
認識モデルは単語及び単語のストリング、例えば、句
（phrase）或は文（sentence）に対する構築ブロックで
ある。近年、これらの基本音声認識ユニットを連続音声
認識のためにいかに選択及び表現（represent ）するか
の問題に大きな研究努力が集中されている。

【０００３】連続音声認識問題に対する一つの従来のア
プローチは、音響認識モデル、例えば、テンプレート
（template；鋳型）或は隠れマルコフモデル（hidden M
arkovmodel （ＨＭＭ）を使用する統計的パターン認識
アプローチである。語彙（vocabulary）の辞書編集的記
述（lexical description ）に基づいて、音響音声認識
モデルが規定され、これらのパラメータが次に訓練（tr
aining）として知られているプロセスを通じて統計的に
決定される。これらの基本モデルは語彙表上の単語（wo
rds ）或はサブワード（例えば、言語学に基づく音素の
音響的表明である単音など）を反映する。連続音声認識
に対するこのアプローチにおいて一般的に行なわれる一
つの想定は、流暢に話された単語のシーケンス、つま
り、単語ストリング（string）は、そのストリング内の
単語の辞書編集的記述に従って（単語あるいはサブワー
ドの）基本音声認識モデルの線型連結（linear concate
nation）によって十分に表現できるという想定である。
慣習的には、これは、音声認識モデルの連結が訓練トー
クン（例えば、単語）から直接に推定できることを意味
する。音響認識モデルの連結は、単語ストリングモデル
（string model）のタイプに属する単語ストリングのモ
デルを形成する。連続音声認識においては、複数のスト
リングモデルがある与えられた認識タスクに対して仮説
される。個々の比較の一致の程度（closeness ）が認識
スコア（recognition score ）によって示される。連続
発声と最も良く一致するストリングモデルがその発声を
“認識（recognizes）”するものとされる。

【０００４】連続音声認識に対するもう一つの従来のア
プローチは、単語ストリングモデルを非（non)音響認識
モデルにて補強（augment ）する方法である。この非音
響認識モデルには、様々あるがしいて挙げれば、言語モ
デル、音韻に基づくモデル、意味論的モデル、統語論的
モデル（syntactic models）、及び他の認識源（例え
ば、ピッチ、エネルギ、会話速度、継続期間等）が含ま
れる。このようなアプローチの一つにおいては、ある単
語ストリングは音響モデル、言語モデル等のある一つの
結合（combination ）としてモデル化される。個々のモ
デルからの認識スコアが一つの全体としてのストリング
モデル認識スコアに合体（incorporate ）される。複数
のスコアのある一つのストリングモデル認識スコアへの
この合体（incorporation ）は、例えば、個々の複数の
ストリングモデルからの個々の複数の認識スコアの重み
付けされた総和（weighted sum）によって達成される。

【０００５】従来的には、個々の複数の認識モデルの訓
練は、個別ベース（individualizedbasis）で遂行され
る。例えば、音響モデル訓練においては、訓練音声が個
別の複数の単語或はサブワードの訓練トークン（traini
ng tokens ）にセグメント化される。従って個々の複数
の音響モデルがより長い訓練発声から孤立化された複数
の訓練トークンにて訓練される。さらに、音響及び他の
複数のモデルが個別に訓練され、一方において、これら
複数のモデルを認識の目的のために結合するために使用
される複数のパラメータが発見論的に選択され、他のモ
デルの訓練から分離及び孤立化される。

【０００６】

【発明が解決しようとする課題】これら個別化された訓
練の全ては、このような複数のモデルが連続音声認識の
目的に対して一体となって（together）使用できるとい
う事実を信じて（beliesする）行なわれる。つまり、連
続音声認識は、複数のモデルの結合（つまり、ストリン
グモデル）がいかに良好に一つの全体としての未知のス
トリングと一致するかに立脚する。複数のモデルのある
一つの結合（combination ）が各ストリングモデルがそ
の集団（aggregate ）内の未知のストリングとどれぐら
い良く一致するかに基づいて他の結合に優先して選択さ
れる。この集団としての比較（aggregate comparison）
はその結合のグローバルスコア（global score）と呼ば
れる。従って、ある連続音声認識器が誤認を行なったよ
うな場合でも、これは、グローバル或はストリングレベ
ル（string level）において行なわれた比較において誤
認を起こしたものであり、複数のモデル或は他の情報源
が訓練された個別化されたレベルにおいて誤認を起こし
たものではないと信じられる。この訓練思想と認識思想
との間のレベルの“食い違い（discrepacy）”のため
に、連続音声認識の性能は要求されるものよりも低いの
が現状である。

【０００７】

【発明の要旨】本発明は、単語ストリング誤認率をグロ
ーバルストリングレベルにて低減、例えば、最小にする
ための（複数の音響モデル、言語モデル、及び他の認識
源を含む）複数の音声認識モデルを訓練するために適当
な技法を提供する。本発明はストリングレベルモデルの
マッチングに対して差別的分析（discriminative analy
sis ）を適用する。

【０００８】本発明の一例としての実現によると、訓練
データベースからの単一の辞書編集的ストリング（lexi
cal string）に基づいてセットの複数の混同し易いスト
リングモデル（confusable string models）が生成され
る。各ストリングモデルは複数の音響及び言語モデルの
結合（combination ）から構成される。訓練データベー
スからある訓練ストリングトークンを与えられると、音
響、言語及び結合モデルのパラメータがその辞書編集的
ストリングモデルがそのセットの複数の混同し易いスト
リングモデル間で最良の認識スコアを示す確率を改善さ
せるように推定され、こうして、ストリング誤認率が低
減される。

【０００９】最小の誤認率を提供するパラメータ推定は
ある特別に設計された損失関数（loss function ）の使
用によって得られる。この損失関数は競合する複数のス
トリングモデルを考慮に入れることによって複数の音声
認識ユニットモデル内のストリングレベルのアロホニッ
クバリエーション（allophonic variations ）を収容す
る。競合するストリングモデルのスコアリング差（scor
ing differential）と期待されるストリング誤認との間
の間の関係を確立することによって、期待される誤差の
最小化が、辞書編集的ストリングモデルと他の複数の混
同し易いストリングモデルとの間に正しいスコアランク
順位（crrect score rank order ）を持つ確率の最大化
と直接に関係付けられる。

【００１０】

【詳細な説明】Ａ．一例としてのハードウエア実現説明を簡潔にするために、本発明の一例としての実現は
（“プロセッサ（processors）”と呼ばれる機能ブロッ
クを含む）個々の機能ブロックから構成されるものとし
て説明される。これらブロックが表わす機能は共有或は
専用ハードウエアのいずれかの使用を通じて提供され、
これらハードウエアには、これに限定されるものではな
いが、ソフトウエアを実行する能力のあるハードウエア
が含まれる。例えば、図１、２、或は３内に表わされる
プロセッサの機能は、単一の共有プロセッサによって提
供される。（用語“プロセッサ”の使用は、ソフトウエ
アを実行する能力をハードウエアを排他的に指すものと
解釈されるべきではない。）

【００１１】一例としての実現は、例えば、以下に述べ
られる動作を遂行するソフトウエアを格納するためのデ
ジタル信号プロセッサ（digital signal processor、Ｄ
ＳＰ）ハードウエア、例えば、AT&T DSP16 或はDSP32C
読出し専用メモリ（read-only memory、ＲＯＭ）、及び
ＤＳＰの結果を格納するためのランダムアクセスメモリ
（random access memory、ＲＡＭ）から構成される。大
規模集積（Very largescale integration（ＶＬＳＩ）
ハードウエア実現、並びに、汎用ＤＳＰ回路と組合わせ
られたカスタムＶＬＳＩ回路を提供することもできる。

【００１２】Ｂ．一例としての実現音声認識は、これによって未知の音声発声（speech utt
erance）が（通常、デジタルＰＣＭ信号の形式にて）識
別されるプロセスである。一般的には、音声認識は未知
の（unknown ）の発声の特徴を既知の（known ）の単語
或は単語ストリングの特徴と比較することによって遂行
される。

【００１３】未知の発声を認識するために、音声認識器
（speech recognizer ）はそれを特性化するために発声
から特徴を抽出する。未知の発声の特徴はテストパター
ン（test pattern）と呼ばれる。認識器は次にデータベ
ース内の一つ或は複数の参照（reference patterns）の
複数の結合（combinations）を未知の発声のテストパタ
ーンと比較する。参照パターン（reference pattern ）
の個々の結合（combination ）がテストパターンとどれ
くらい良く一致するかの相対的尺度（relativemeasur
e）を提供するためにスコアリング（scoring ）技法が
使用される。未知の発声は一つ或はそれ以上の参照パタ
ーンのその未知の発声と最も良く一致する結合と関連す
る複数の単語（words ）であると認識される。

【００１４】図１は本発明に従う一例としての解説のた
めの音声認識システム１を示す。このシステムは、訓練
音声データベース１０、特徴抽出器２０、モードスイッ
チ１５、３０、スコアリング比較器４０、スコアプロセ
ッサ５０、従来のＨＭＭトレーナ６０、認識モデルパラ
メータデータベース７０、Ｎ−最良ストリングモデル発
生器、及び改善されたトレイナ（enhanced trainer）８
０を含む。

【００１５】システム１の訓練音声データベース（trai
ning speech database）１０は、デジタル形式の既知の
音声信号のサンプルを含む。個々の音声信号は一つ或は
それ以上の発声された単語のストリング（string）に対
応する。これらサンプルは、それぞれ、従来のトレイナ
６０及び改善されたトレイナ８０の目的のために使用さ
れる。データベース１０からの既知の音声ストリングの
サンプルがモードスイッチ（mode switch ）１５を介し
てシステム１の他の要素に提供される。

【００１６】モードスイッチ１５はシステム１の二つの
動作モード：つまり、訓練（training、Ｔ）モード及び
認識（recognition 、Ｒ）モードを反映する。スイッチ
１５がＴ位置（或は状態）にあるときは、データベース
１０からの訓練音声は、訓練セクション９０によって訓
練が遂行されるようなシステム１のバランス（balance
）に対して提供される。スイッチ１５がＲ位置にある
ときは、デジタル形式での未知の音声発声（信号）が認
識セクション９５にって認識されるようなシステム１の
バランスに対して提供される。

【００１７】システム１の特徴抽出器（feature extrac
tor ）２０はモードスイッチ１５に結合される。モード
スイッチ１５の状態に依存して、抽出器２０は、訓練或
は未知の音声信号ストリングを受信する。受信された音
声信号に基づいて、抽出器２０は、受信された音声を特
性化する一つ或はそれ以上の特徴ベクルト（featurevec
tors ）Ｘを生成する。特徴抽出器２０は、例えば、フ
ィルタバンク特徴抽出器（filter bank feature extrac
tor ）、線型予測符号化（linear predictivecoding、
ＬＰＣ）特徴抽出器、或は離散フーリエ変換（discrete
Fourier transform、ＤＦＴ）特徴抽出器などのような
任意の従来の特徴抽出器であり得る。

【００１８】抽出器２０からの特徴ベクトル出力は第二
のモードスイッチ３０に提供される。このモードスイッ
チ３０はモードスイッチ１５と協調動作する（tandem
にて動作する）、つまり、両方のスイッチは、これら両
方のスイッチ１５、３０に提供されるモード信号に基づ
いて、同時に、同一状態−−Ｔ或はＲにセットされる。
モードスイッチ３０は、抽出器２０の出力をシステム１
の認識セクション或は訓練セクションのいずれかに向け
る。

【００１９】システム１の認識セクション９５はスコア
リング比較器（scoring comparator）４０及びスコアプ
ロセッサ（score processor ）５０を含む。スコアリン
グ比較器４０は従来のものである。比較器４０はストリ
ングモデル（string model）を未知の音声信号ストリン
グと関連付け、一致の程度（closeness ）を示すスコア
を決定する。これらストリングモデルは、例えば、複数
の音響ストリングモデル（acoustic string models）及
び複数の言語ストリングモデル（language string mode
ls）の結合から構成される。複数の音響及び言語モデル
のための従来のスコアリング比較器を比較器４０のため
に使用することができる。これに関しては、例えば、こ
こにあたかも完全に明らかにされているものとして参考
のために編入される、Lee 及びRabiner によってＶｏ
ｌ．３７、Ｎｏ．４、IEEEE Trans.Acoust., Speech ,S
ig. Pro. 、１６４９−５８（１９８９）に掲載の論文
『接続された単語認識のためのフレーム同期網探索アル
ゴリズム（A Frame Synchronous Network Search Algor
ithm for Connected Word Recognition ）』を参照する
こと。また、本出願人と譲受人を同一とし、ここにあた
かも完全に明らかにされているものとして参考のために
導入される『隠れマルコフモデル音声認識構成（Hidden
Markov Model Speech Recognition Arrangement）』と
いう名称の合衆国特許第４，７８３，８０４号を参照す
ること。比較器４０によって生成されるスコアはスコア
プロセッサ５０に提供される。スコアプロセッサ５０は
提供されたスコアのどちらが大きいか（greatest）を決
定し、そのスコアに対する（対して責務を持つ）単語の
ストリングを識別する。未知の音声信号ストリングがプ
ロセッサ５０によってこうして識別されたストリングモ
デルと関連する既知の音声として認識される。プロセッ
サ５０は出力のための識別された音声の表現（represen
tations ）をモデルパラメータデータベース（model pa
rameter database）７０（以下を参照）から得る。

【００２０】システム１の訓練セクション９０は、従来
のＨＭＭトレイナ６０、モデムパラメータデータベース
７０、Ｎ−最良ストリングモデル発生器７５、及び改善
されたトレイナ８０から構成される。例えば、合衆国特
許第４，７８３，８０４号において説明されているよう
なＨＭＭトレイナ６０が音響ＨＭＭの従来の訓練を提供
する。

【００２１】モデルパラメータデータベース（model pa
rameter database）７０は、例えば、音響、言語等に基
づくｍ個のセットの複数の認識モデルの集まり（collec
tion）Λ＝｛Λ₁ 、．．．、Λ_m ｝を格納する。本発明
のこの一例としての実現においては、Λ＝｛Λ_A 、Λ
_L 、Λ_C ｝であり、ここで、Λ_A はセットの複数の音響
モデル、Λ_L はセットの複数の言語モデル、そしてΛ_C
は結合モデル（combining model ）を表わす。（Λ_C は
グローバルストリングモデルを形成する目的でΛ_A 及び
Λ_L を結合するときに使用されるセットのパラメータか
ら構成される。）

【００２２】トレイナ６０の出力はセットの一つ或はそ
れ以上の従来のように訓練された音響ＨＭＭ、Λ_A 、並
びにそれにこのセットのＨＭＭが根拠を持つ訓練音声ス
トリングの特徴ベクトルＸから構成される。本発明のこ
の一例としての実施例の目的に対しては、従来のトレイ
ナ６０によって提供される訓練の程度（degree）は特に
重要ではない。事実、従来のトレイナ６０は（ささいな
ものであっても）ＨＭＭパラメータの初期セットΛ_I を
提供すること以上は要求されず、これは、読出し専用メ
モリから検索される。

【００２３】トレイナ６０の出力Λ_A （０）は、初期化
パラメータとして発生器７５及び改善されたトレイナ８
０によって使用されるためにモデルデータベース７０内
に記録される。改善されたトレイナ８０はデータベース
７０からΛ及びＸを受信し、データベース７０にセット
の改善された（enhanced）或は更新された（updated）
ＨＨＭモデルΛ_U をリターンする。最終的に、改善され
たモデルΛ_U は、認識モードの際にスコアリング比較器
４０に提供される。このスコアリング比較器４０は改善
されたモデルΛ_U を使用し、低減されたストリング認識
エラー率を提供する。

【００２４】Ｎ−最良ストリングモデル発生器７５はモ
デルΛ及び訓練音声ストリングＸを受信し、辞書編集的
ストリングモデル（lexcical string model ）と高度に
競合するセットの複数のストリングモデルを生成する。
これら競争力のある複数のストリングモデル（competit
ive string models ）が改善されたトレイナ８０の弁別
訓練（discriminative training ）に対する基礎（basi
s ）を提供する。

【００２５】発生器７５は、Ｎ個の最良（或は最も混同
しやすい）ストリングモデルをＮ個の最良（混同しやす
い）単語ストリング（word strings）及び、これら個々
の単語ストリングに対する複数の対応するストリングモ
デルを決定することによって生成する。このＮ個の最良
単語ストリングの決定は、ここにあたかも完全に説明さ
れているかのように編入されるF.K.Soog及びE.F.Huang
によってProc.ICASSP（１９９１）に掲載の論文『連続
音声認識においてＮ個の最良文仮説を発見するための木
格子に基づく高速探索（A tree-trellis based fast se
arch for finding N-best sentence hypotheses in con
tinuous speech recognition）』において説明されるタ
イプの修正ビタビ復号器（modified Viterbi decorder
）の使用を通じて行なわれる。この復号器は、部分パ
スマップ（partial path map）、つまり、個々の時間瞬
間（time instant）において任意の文法ノード（つま
り、単語接合点）へと導く全ての部分パス（partial pa
ths ）の全てのスコア（或はメトリックス）のリストを
準備する。文法ノード（grammar nodes ）において、ユ
ニグラムタイプ（uingram-type）の言語モデルスコアが
このパススコアに加えられる。例えば、任意の単語に対
するユニグラム確率（unigram probability ）の対数が
このパスがその与えられた単語の終端状態に到達したと
きにパススコアに加えられる。修正ビタビ前向き探索
（modified Viterbi forward search ）の終端におい
て、復号器はＡ^* トレースバック木探索手順（Ａ^* trac
eback tree-search procedure ）を使用する。発生器７
５は木探索を遂行することによって“スタック（stack
）”（ランク順に並べられたデータリスト）の最上部
の所に最上（最良）部分パスを成長させる。スタック上
の全ての部分パスのランク順序（rank ordering ）はあ
る部分パスが完結したとき達成することができる最良の
可能なスコアによって決定される。前向きビタビ探索に
おいて準備されたこの部分パスマップは後ろ向き木探索
（backward tree search）における任意の完結されてな
いパスに対するスコアを提供する。Ａ^* 手順の“最良最
早（best first）”性質のために、最上のＮ個のストリ
ングが順次に生成される。

【００２６】Ａ^* アルゴリズムの認容性（admissibilit
y ）、或は最適パス（optimal path）の確かな発見（su
re findings ）は、スタックの深さが任意の探索エラー
を回避するために十分に深いという条件の下で、部分パ
スの完結されてない部分の上側境界（upper bound ）が
スタック復号器内で使用された場合に保証される。この
木格子アルゴリズムにおいては、同一のＨＭＭ及び言語
モデルがその探索内で両方向に沿って使用されたとき、
パスの最も固い上側境界（tightest upper bound）或は
実スコア（actual score）が得られ、結果として、アル
ゴリズムの探索効率が最大にされるが、このためにＮ
個の項目（entries ）のスタックが必要とされる。

【００２７】発生器７５は入力音声ストリングＸをＮ個
の最良ストリングリスト内の個々の与えられた単語スト
リングに対するモデルセットに対してビタビ整合（Vite
rbi）することによって、Ｎ個の最良ストリングモデル
をＮ個の最良単語ストリングに基づいて生成する。この
ステップは、同一単語ストリングに対応する多くのスト
リングモデルが存在するが；但し、ある与えられたモデ
ルセットに対する入力発声に最も良く一致するストリン
グモデルは唯一（unique）であることを利用して発生器
７５によって遂行される。

【００２８】発生器７５は未知（unseen）の複数の競合
ストリングをモデル化する能力も提供することに注意す
る。これは、Ｎ個の最良復号化を通じて生成される複数
の競合単語ストリングが訓練教材によって制約されるこ
とがないという事実に起因する。ある訓練発声はある単
一の単語ストリングに対応するが、その発声と関連する
Ｎ個の最良ストリングリストは動的であり、与えられた
音声認識ユニットモデルセットに基づくストリングレベ
ルモデル分解能を反映する。基本認識ユニットモデル
は、従って、Ｎ個の最良ストリングモデル発生器によっ
て生成された単語ストリングによって訓練される。これ
ら単語ストリングには、元の訓練教材（original train
ing material）内には存在しないが、そのストリングモ
デルを認識器が辞書編集的ストリングのストリングモデ
ルと混乱しやすいと発見した単語ストリングが含まれ
る。認識器が辞書編集的単語ストリングと混乱し易いと
発見した未知（unseen）の単語ストリングが差別的に
（discriminatively）にモデル化される。こうして、未
知（unseen）のストリングに対するモデリングカバレッ
ジ（modeling coverage ）が改善される。未知（unsee
n）のストリングのモデル化は、このようなモデル化が
訓練教材の乏しいストリングカバレッジ（string cover
age ）に起因して連続音声認識において遭遇する困難を
低減するのに有効である。

【００２９】上に説明の発生器７５の動作は以下のよう
に要約することができる。Ｓ＝Ｗ₁、．．．、Ｗ_lsを任
意の単語ストリングであるものとする。音響モデル、言
語及びその他の認識ソースを含むモデルセットΛが与え
られた場合、最適状態シーケンスΘ_S は観察Ｘ及び単語
ストリングＳの関数である。このＮ最良ストリング仮説
｛Ｓ₁ 、．．．Ｓ_N ｝は帰納的に数式数１のように定義
することができる。

【数１】

【外１】最小ストリングエラー率訓練においては、これらのスト
リングレベル音響訓練トークンがストリングエラーを表
わすために特別に設計されたセットの差別的関数（disc
riminant function ）内に組み込まれる。これは、以下
に説明されるように、改善されたトレイナ８０の動作に
よって行なわれる。

【００３０】図２は図１内に現われる改善されたトレイ
ナ８０の一例としての実現を表わす。改善されたトレイ
ナ８０はデータベース７０によって提供される訓練音声
に作用を及ぼす。改善されたトレイナ８０の動作の結果
として、認識モデルの更新されたセットΛ_U をデータベ
ース７０にリターンする。Λ_u は、その後、認識モード
の際にセットの認識器１の参照パターンとして使用さ
れ、或は同一或は追加の（same or additional）訓練音
声の処理の結果としてさらに更新されるべき新たな（ne
w ）Λとして使用される。

【００３１】説明の明快さ及び計算の単純化のために、
更新プロセッサ８８は、一例として、一度に一つの訓練
ストリングを処理するものとして説明される。下に説明
されるのとは少し異なり、この実現は複数の訓練音声サ
ンプルに基づいてΛを更新することも可能である（議論
のセクションを参照）。

【００３２】図２に示されるように、改善されたトレイ
ナ８０は、ストリング誤認尺度プロセッサ（string mis
recognition measure processor ）８２、ストリングモ
デル損失関数プロセッサ（string model loss function
processor）８４、及びストリングモデル更新プロセッ
サ８８を含む。

【００３３】１．ストリング誤認尺度プロセッサストリング誤認尺度プロセッサ８２は、データベース７
０からモデルΛ、及び訓練音声ストリングサンプルＸを
受信する。ストリングサンプルＸ、及びΛに基づいて、
プロセッサ８２はストリング誤認尺度ｄ（Ｘ、Λ）を数
式数２のように決定する。

【数２】ここで、ｇ（Ｘ、Ｓ_lex 、Λ₁ 、．．．、Λ_m ）はＳ
_lex を正しいストリングとして与えられたときの入力発
声Ｘの認識器スコアであり；ｇ（Ｘ、Ｓ_k 、Λ
₁ 、．．．、Λ_m ）は各競合ストリングに対する認識器
ソースであり；ηは一例として２にセットされた正の数
であり；そしてＮは発生器７５によって提供された競合
ストリングの総数である。一例として、ｇは認識器スコ
アの重み付けされた総和の形式をとる。

【数３】或は、この実現の場合は、

【数４】

【外２】

【００３４】ストリング誤認尺度プロセッサ８２は図２
に示される後続のプロセッサによって使用されるための
スカラ値ｄを決定する。

【００３５】２．ストリングモデル損失関数プロセッサストリングモデル損失関数プロセッサ８４はプロセッサ
８２から受信されたスカラ値ｄ（Ｘ、Λ）に基づいて平
滑ストリング損失関数（smooth string loss function
）ｌを評価する。

【数５】ここで、γは、一例として、１にセットされ、ｄ₀ は、
一例としてゼロにセットされるバイアス項である。

【００３５】プロセッサ８４はスカラｌを出力としてス
トリングモデル更新プロセッサ８８に提供する。

【００３６】（上に説明の）パラメータγ及びηはスト
リング損失関数ｌへの平滑にされた近似を提供すること
を助ける。ストリング損失関数の勾配（１１）はストリ
ングモデル更新プロセッサ８８によってモデルパラメー
タΛを更新するために使用される。従って、この損失関
数の期待されるストリング損失の最小化はストリングエ
ラー確率の最小化に直接にリンクされる。バイアスパラ
メータｄ₀ は訓練プロセスにおいて競合ストリングモデ
ルの影響を改善（enhance ）するために使用される。

【００３７】３．ストリングモデル更新プロセッサ図３はストリングモデル更新プロセッサ８８の一例とし
てのブロック図を表わす。図面に示されるように、プロ
セッサ８８は、Λ、Ｘ及びｌに基づいて、音響ＨＭＭパ
ラメータμ、σ² 、ｃ、及びａ；言語モデルパラメータ
Ｐ（Ｗ_j ）及びＰ（Ｗ_j ｜Ｗ_j-1 ）；並びに結合モデル
パラメータα_i を更新する。プロセッサ８８は更新され
たパラメータΛ_u をパラメータデータベース７０にリタ
ーンする。Λ及びΛ_U の両者は、パラメータμ、σ² 、
ｃ、ａ、Ｐ（Ｗ_j ）、Ｐ（Ｗ_j ｜Ｗ_j-1 ）、及びα_i を
含むが、Λ及びΛ_U は、それぞれ、未更新の及び更新さ
れた量を表わす。

【００３８】プロセッサ８８によるモデルパラメータ更
新の詳細な説明を行なう前に、この動作に対する幾らか
な背景について説明する。

【００３９】ストリングエラー率と関連する期待される
損失は、以下の数式数６によって与えられる。

【数６】最小ストリングエラー率訓練においては、目標は訓練サ
ンプルを通じて期待される損失（１２）を最小にするこ
とにある。期待される損失数式数６は更新されたパラメ
ータによって以下のように最小にされる。

【数７】ここで、ε_n はステップサイズパラメータのシーケンス
であり、Ｕ_n は以下に定義される正の有限行列のシーケ
ンスである。

【外３】

【００４０】図２の一例としての実現においては、モデ
ルΛは、更新プロセッサ８８によって数式数７）に従っ
て適応的に調節される。

【００４１】ａ．音響モデルの更新音響ＨＭＭの構造のために、それらのパラメータは幾つ
かの制約を満たさなければならない。ストリングモデル
更新プロセッサ８８は、これらの全ての制約を満足させ
るために音響モデルパラメータ更新プロセスの一部とし
て変換されたＨＭＭパラメータ（transformed HMM para
meters）を採用する。以下の変換がプロセッサ８８によ
って遂行される。

【００４２】（１）分散の対数

【数８】ここで、σ² _i,j,k,dは、ある特徴ベクトルのｉ番目の認
識ユニットモデル、ｊ番目の状態、ｋ番目の混合成分
（mixture component ）及びｄ番目の次元の分散であ
り、ここで、個々の認識ユニットモデルは、例えば、あ
る単語或はサブワードを反映する。

【００４３】（２）混合重みの変換された対数

【外４】

【数９】ここで、Ｌはｉ番目の認識ユニットモデル内のｊ番目の
状態内の混合重みの総数である。

【００４４】（３）遷移確率の変換された対数元の遷移確率ａ_i,j は以下のように変換された遷移確率
と関連付けられる。

【数１０】ここで、Ｍはｉ番目の認識ユニットモデル内の状態の総
数である。

【００４５】この一例としての実現の重要な特徴は小さ
な分散の取り扱いに関する。過去において提案された幾
つかの修正訓練アルゴリズム（corrective training al
gorithms）においては、分散の調節は、誤って扱われた
場合に悪影響を与えることがあるために回避されてき
た。

【００４６】ＨＭＭ内の分散は１０⁴ から１０⁶ 倍とい
う大きな量だけ異なる。

【外５】一例としての実現においては、これは、ＨＭＭパラメー
タ調節、特に、ＨＭＭの観察確率密度関数内の平均パラ
メータの調節に対する異なる感度の原因となる。

【００４７】この感度における膨大な差異を補償するた
めに、この実現は正の有限行列Ｕ_nを採用する。この正
の有限行列は、各状態に対する数式む数１１で表される
対角行列：

【数１１】である。ここで、σ² （ｎ）は時刻ｎにおけるＨＭＭの
分散である。

【００４８】更新式（update expressions）自体に関し
ては、各々は上の数式数７に記述されるような項▽ｌを
含む。

【外６】

【００４９】更新プロセッサ８８によって提供される音
響モテルパラメータの更新は以下の通りである。

【００５０】（４）平均の更新

【数１２】ここで、ｘ_nn（ｄ）は特徴ベクトルｘ_nnのｄ−次元成分
であり、θ_j は最適パスが最初に状態ｊに入る時間フレ
ームに対応し、θ_j+1 は最適パスが状態ｊ＋１に入る時
間フレームに対応し、ｌ（Ｘ、Λ）は数式数５に従って
構成された損失関数であり、ε_n はステップサイズであ
り、そして

【数１３】である。ここで、Ｄは特徴ベクトルの次元である。平均
の更新は図３のブロック８８−１によって提供される。

【００５１】（５）分散の更新

【外７】

【数１４】

【外８】従って、時刻ｎ＋１における分散は以下によって与えら
れる。

【数１５】分散は１０^-6以下において切り取られ、これは、σ²
_i,j,k,d（ｎ）＞１０^-6の制約を満足する。この分散の
更新は図３のブロック８８−２によって提供される。

【００５２】（６）混合重みの更新パラメータ化された重みは以下に従って調節される。

【数１６】従って、時刻ｎ＋１における混合重みは以下によって与
えられる。

【数１７】こうして、調節された混合重みは、訓練プロセスの際に
Σ_k ｃ_i,j,k （ｎ）＝１及びｃ_i,j,k （ｎ）＞０の制約
を満たす。混合重みの更新は図３のブロック８８−３に
よって提供される。

【００５３】（７）状態遷移確率の更新：左から右への
ＨＭＭにおいては、ｌ−番目の単語モデルのパラメータ
化された遷移確率は以下によって調節される。

【数１８】ここで、ｇ_l はｌ−番目の認識ユニットモデル内のＸの
尤度スコアであり、ｉは終端状態ではなく、そして状態
ｉ内の自己遷移（self-transition ）の総数は

【外９】によって表わされる。

【００５４】従って、時刻（ｎ＋１）における遷移確率
は以下によって与えられる。

【数１９】

【外１０】

【００５５】更新プロセッサ８８によって計算される更
新式（２０−２３）は、ｉ番目の状態内でのｉ−番目の
音響ＨＭＭ認識ユニットモデルの更新された観察確率密
度関数に

【数２０】に従って関連付けられるが、ここで、ｃ_i,j,k は混合重
みであり、Ｎ（ｘ、μ_i, _j,k,Ｖ_i,j,k ）はｉ−番目の認
識ユニットモデル、ｊ−番目の状態、及び対角共分散行
列Ｖ_i,j,k を持つｋ−番目の混合に対するＤ−次元正規
ガウス分布である。

【００５６】ｂ．言語モデルの更新言語モデルに対しては、音響モデルと同様に、更新は変
換領域内で起こる。例えば、以下の変換がプロセッサ８
８によって使用される。

【００５７】（１）ユニグラム言語モデルからの確率の
変換

【数２１】

【外１１】

【００５８】（２）バイグラム言語モデルからの確率の
変換

【数２２】

【外１２】

【００５９】プロセッサ８８によって遂行される言語モ
デルパラメータの更新は以下のように遂行される。

【外１３】ここで、Ｓ_lex は辞書編集的（或は正しい）単語ストリ
ングであり、Ｓ_i （ｉ＝１、．．．、Ｎ）はＮ最良復号
化（７５）によって決定されたＮ個の競合単語ストリン
グである。

【００６０】（３）ユニグラム言語モデル確率の更新：

【数２３】このユニグラム確率の更新は図３のブロック８８−５に
よって提供される。

【００６１】（４）バイグラム言語モデル確率の更新：

【数２４】このバイグラム確率の更新は図３のブロック８８−６に
よって提供される。

【００６２】ｃ．結合モデルパラメータの更新

【外１４】

【数２５】この結合モデルパラメータの更新は、図３のブロック８
８−７によって提供される。

【００６３】μ（ｎ＋１）、σ² （ｎ＋１）、ｃ（ｎ＋
１）、ａ（ｎ＋１）、Ｐ（Ｗ_i ）（ｎ＋１）、Ｐ（Ｗ_i
｜Ｗ_j ）（ｎ＋１）、及びα_i （ｎ＋１）に対する値は
ブロック８８−１乃至８８−７によって出力される。図
３に示されるように、Λ_u はμ、σ² 、ｃ、ａＰ（Ｗ
_i ）、Ｐ（Ｗ_i ｜Ｗ_j ）、及びα_i から構成される。

【００６４】上に提供されるパラメータ更新に対する式
（expressions ）はモデルパラメータを改善（enchanc
e）するためのデータベース７０からの単一音声訓練ス
トリングサンプルの使用に関する。ただし、改善された
トレイナ（enchanced trainer）８０はモデルパラメー
タを改善させるために複数回反復することも可能であ
る。例えば、改善されたトレイナ８０は、データベース
７０内の全ての訓練ストリングサンプルについて動作す
ることもできる。但し、必要であれば、トレイナ８０
は、データベース７０全体を通じて数回のパスについて
或は数ラウンド（rounds）動作される。トレイナ８０は
サンプルの処理を複数の方法の任意の一つを使用して停
止することができる。例えば、トレイナ８０はサンプル
のデータベース７０を通じて固定されたランウド数が完
了したとき停止する。但し、好ましくは、トレイナ８０
は、現ラウンドの全ての音声訓練ストリングの処理によ
ってストリングエラー率が増分的にどれだけ改善された
か（incremental improvement ）の記録を保持する。

【００６５】Ｃ．議論本発明による実現の音響モデルは、特にＨＭＭと関連す
るが、他のタイプの音響モデルを採用する認識器、例え
ば、スコアリングの方法として動的時間ラッピング（dy
namic time warping）を採用するテンプレートに基づく
（template-based）音響認識器にも適用する。本発明を
他のタイプの認識器に適応させるためには、数式数２内
に関数ｇによって表わされるスコアリングの方法がその
認識器のタイプを反映するように修正されなければなら
ない。この修正はまたｌの項内の認識ユニットモデル
の更新プロセスにも影響を与える。

【００６６】上に説明の実施例においては、訓練音声の
各サンプルストリングが順番に使用される。ストリング
モデル更新プロセッサ８８は識別器によって提供された
情報を現サンプルストリングに取り入れ、上に提供され
た更新式に従ってモデルパラメータを更新する。プロセ
ッサ８８の計算上の複雑さは、主に、幾つの競合する候
補ストリングモデルがモデルパラメータの推定のために
使用されるべきかを決定する誤認尺度（misrecognition
measure）の形式に依存する。上に説明のように、改善
されたトレイナ８０の各反復は単一の音声訓練サンプル
に関して動作する。但し、トレイナが複数のサンプルに
基づいて更新されたセットのモデルパラメータΛ_U を提
供するようにすることも可能である。これを行なうため
には、ストリング誤認尺度プロセッサ８２はｄに対する
値のベクトルを得るために音声ストリングサンプルのベ
クトルに関して動作し、ここで、各値はある与えられた
ストリングサンプルに対応する。ストリングモデル損失
関数プロセッサ８４はｄ値のベクトルを受信し、ｌ値の
ベクトルを得るが、これらの各々は対応するｄの値に基
づく。ストリングモデル更新プロセッサ８８は、上に説
明のようにパラメータを更新するが、ここで、Λ（ｎ）
からΛ（ｎ＋１）への各更新は（Ｎ個のストリングサン
プルの）単一の音声ストリングサンプルによって提供さ
れる。但し、全てのストリングサンプルは、一つのサン
プルを処理した結果としてのΛ（ｎ＋１）が後続のサン
プルを処理するためのΛ（ｎ）として機能するように順
番に使用される。複数のストリングサンプルに基づくΛ
の更新においては、（式１８、２０、２２、２４、３
０、３１及び３２）の右側のΛの値は一定に留まること
に注意する。全てのストリングサンプルが処理された後
に初めてΛ_I がＡ_u としてデータベースに更新される。

【００６７】数式数５内に与えられた損失関数は本発明
に適用される関数の一つのタイプにすぎないことに注意
する。他のタイプの関数、例えば、双曲線正接（hyperb
olictangent）に基づく関数も提供可能である。

【外１５】

【００６８】数式数７によって一般的に、そして数式数
１２、「数１４］、［数１６］、数１８、数２３、数２
４、数２５によって具体的に記述されるプロセスは、ス
トリング損失関数の局所極小の識別を提供する。但し、
損失関数のグローバル極小を見つけるための従来の技
法、例えば、シミュレーションによる焼きなまし（simu
lated annealing ）を適用することもできる。

【００６９】上記の観点から、当業者においては、本発
明は話者依存及び話者独立音声認識の両方に適用するこ
とが明らかである。

【００７０】加えて、本発明のこの一例としての実現
は、音響及び言語モデルを線型的に結合するストリング
モデルに関するが、当業者においては、本発明は、意味
論モデル、音声学的モデル、シンタックスモデルなどの
他の／追加の認識ソース及びモデルタイプ、並びに、非
線型結合モデルを含む他の結合モデルを導入するストリ
ングモデルにも適用できることが明白である。

【図面の簡単な説明】

【図１】本発明に従う一例としての音声認識システムを
示す図である。

【図２】図１に現われる改善されたトレイナの一例とし
ての実現を示す図である。

【図３】図２に現われるストリングモデル更新プロセッ
サの一つの実現を示す図である。

【符号の説明】

１０訓練音声１５、３０モードスイッチ２０抽出器４０比較器５０スコアプロセッサ６０従来のＨＭＭトレイナ７０認識モデルパラメータデータベース７５発生器８０改善されたトレイナ９０訓練セクション９５認識セクション

───────────────────────────────────────────────────── フロントページの続き (72)発明者ビーイング−フワンジョアンアメリカ合衆国 07059 ニュージャーシィ，ウォーレン，サウスレーン８ (72)発明者チン−フィリーアメリカ合衆国 07974 ニュージャーシィ，ニュープロヴィデンス，ラニーメイドパークウェイ 118

Claims

【特許請求の範囲】

【請求項１】訓練ストリング発声信号及び複数のセッ
トの複数の現音声認識モデルに基づいて音声認識モデル
データベースを作成するための方法であって、この方法
が：ａ．セットの一つ或はそれ以上の混同し易いストリング
モデルを生成するステップを含み、混同し易いストリン
グモデルが二つ或はそれ以上のセットの複数の現音声認
識モデルからの複数の音声認識モデルから構成され；こ
の方法がさらにｂ．訓練ストリング発声信号及びその発声に対するスト
リングモデルに基づいて第一のスコアリング信号を生成
するステップを含み、前記のその発声に対するストリン
グモデルが二つ或はそれ以上のセットの複数の現音声認
識モデルからの複数の音声認識モデルから構成され；こ
の方法がさらにｃ．一つ或はそれ以上の第二のスコアリング信号を生成
するステップを含み、第二のスコアリング信号が訓練ス
トリング発声信号及びある一つの混同し易いストリング
モデルに基づき、この混同し易いストリングモデルが二
つ或はそれ以上のセットの複数の現音声認識モデルから
の複数の音声認識モデルから構成され；この方法がさら
にｄ．第一のスコアリング信号及び一つ或はそれ以上の第
二のスコアリング信号に基づいて誤認信号を生成するス
テップ；及びｅ．誤認信号に基づいて、正しいストリングモデルが他
の複数の混同し易いストリングモデルよりも高いランク
順位を持つ確率を増加するために複数の現音声認識モデ
ルを修正するステップを含むことを特徴とする方法。
【請求項２】前記のセットの一つ或はそれ以上の混乱
し易いストリングモデルを生成するステップがＮ個の最
良単語ストリングモデルを生成することから成ることを
特徴とする請求項１の方法。
【請求項３】前記の第一の認識器スコアリング信号が
訓練ストリング発声信号とその発声に対するストリング
モデルとの間の類似の尺度を反映することを特徴とする
請求項１の方法。
【請求項４】前記の類似の尺度が対数尤度認識器スコ
アから成ることを特徴とする請求項３の方法。
【請求項５】前記の第二の認識器スコアリング信号が
訓練ストリング発声信号とある一つの混同し易いストリ
ングモデルとの間の類似の尺度を反映することを特徴と
する請求項１の方法。
【請求項６】前記の類似の尺度が対数尤度認識器スコ
アから成ることを特徴とする請求項５の方法。
【請求項７】前記の誤認信号を生成するステップが第
一のスコアリング信号と一つ或はそれ以上の第二のスコ
アリング信号のある一つの結合との間の差異を形成する
ことから成ることを特徴とする請求項１の方法。
【請求項８】前記の複数の現音声認識モデルを修正す
るステップが：１．ある関数の勾配を反映する認識モデル修正信号を生
成するステップを含み、この関数がその発声に対するス
トリングモデルに基づく訓練ストリング発声の認識器ス
コア及び一つ或はそれ以上の混同し易いストリングモデ
ルに基づく前記訓練ストリング発声の一つ或はそれ以上
の認識器スコアを反映し；このステップがさらに２．修正信号に基づいて複数の現音声認識モデルを修正
するステップを含むことを特徴とする請求項１の方法。
【請求項９】前記の関数がその発声に対するストリン
グモデルに基づく訓練ストリング発声の認識スコアと一
つ或はそれ以上の混乱し易いモデルに基づく前記訓練ス
トリング発声の一つ或はそれ以上の認識器スコアの荷重
総和との差異を反映することを特徴とする請求項８の方
法。
【請求項１０】セットの複数の現音声認識モデルが音
響モデルを含むことを特徴とする請求項１の方法。
【請求項１１】前記の音響モデルが隠れマルコフモデ
ルを含むことを特徴とする請求項１０の方法。
【請求項１２】セットの複数の現音声認識モデルが言
語モデルを含むことを特徴とする請求項１の方法。
【請求項１３】セットの複数の現音声認識モデルがピ
ッチモデルを含むことを特徴とする請求項１の方法。
【請求項１４】セットの複数の現音声認識モデルがエ
ネルギモデルを含むことを特徴とする請求項１の方法。
【請求項１５】セットの複数の現音声認識モデルが会
話速度モデルを含むことを特徴とする請求項１の方法。
【請求項１６】セットの複数の現音声認識モデルが継
続期間モデルを含むことを特徴とする請求項１の方法。
【請求項１７】訓練ストリング発声信号及び複数のセ
ットの複数の現音声認識モデルに基づいて音声認識モデ
ルデータベースを作成するための音声認識器トレイナで
あって、このトレイナが：ａ．セットの一つ或はそれ以上の混同し易いストリング
モデルを生成するための手段を含み、混同し易いストリ
ングモデルが二つ或はそれ以上のセットの複数の現音声
認識モデルからの複数の音声認識モデルから構成され；
このトレイナがさらにｂ．訓練ストリング発声信号及びその発声に対するスト
リングモデルに基づいて第一のスコアリング信号を生成
するための手段を含み、前記のその発声に対するストリ
ングモデルが二つ或はそれ以上のセットの複数の現音声
認識モデルからの複数の音声認識モデルから構成され；
このトレイナがさらにｃ．一つ或はそれ以上の第二のスコアリング信号を生成
するための手段を含み、第二のスコアリング信号が訓練
ストリング発声信号とある混同し易いストリングモデル
に基づき、この混同し易いストリングモデルが二つ或は
それ以上のセットの複数の現音声認識モデルからの複数
の音声認識モデルから構成され；このトレイナがさらにｄ．第一のスコアリング信号及び一つ或はそれ以上のス
コアリン信号に基づいて誤認信号を生成するための手
段；及びｅ．誤認信号に応答して、正しいストリングモデルが他
の複数の混同し易いストリングモデルよりも高いランク
順位を持つ確率が増加するように複数の現音声認識モデ
ルを修正するための手段を含むことを特徴とするトレイ
ナ。
【請求項１８】前記の誤認信号を生成するための手段
が第一のスコアリング信号と一つ或はそれ以上の第二の
スコアリング信号のある一つの結合との間の差を形成す
るための手段を含むことを特徴とする請求項１７のトレ
イナ。
【請求項１９】前記の複数の現音声認識モデルを修正
するための手段が：１．ある関数の勾配を反映する認識モデル修正信号を生
成するための手段を含み、この関数がその発声に対する
ストリングモデルに基づく訓練ストリング発声の認識器
スコア及び一つ或はそれ以上の混同し易いストリングモ
デルに基づく前記訓練ストリング発声の一つ或は複数の
認識器スコアを反映し；この手段がさらに２．修正信号に基づいて複数の現音声認識モデルを修正
するための手段を含むことを特徴とする請求項１７のト
レイナ。
【請求項２０】音声認識システムであって、このシス
テムが：ａ．未知の音声信号を受信し、この未知の音声信号を特
性化する特徴信号を生成するための特徴抽出器；及びｂ．複数のセットの複数の認識モデルを格納するための
メモリを含み、前記の一つ或はそれ以上の認識モデルが
正しいストリングモデルが他の複数の混同し易いストリ
ングモデルよりも高いランク順位を持つ確率が改善され
るようなプロセスに従って生成され；このシステムがさ
らにｃ．あるストリングモデルを未知の音声信号の特徴と比
較するための機能抽出器及びメモリに結合されたスコア
比較器を含み、前記のストリングモデルが複数の認識モ
デルセットの各々からの一つ或はそれ以上の認識モデル
から構成され；このシステムがさらにｄ．未知の音声信号の特徴と最も良く一致する複数のス
トリングモデルの一つに基づいて未知の音声信号を認識
するためのスコアリング比較器に結合されたスコアプロ
セッサを含むことを特徴とする音声認識システム。