JP2000075895A

JP2000075895A - 連続音声認識用ｎ最良検索方法

Info

Publication number: JP2000075895A
Application number: JP11221939A
Authority: JP
Inventors: Yu-Hung Kao; − フンカオユ
Original assignee: Texas Instruments Inc
Current assignee: Texas Instruments Inc
Priority date: 1998-08-05
Filing date: 1999-08-05
Publication date: 2000-03-14
Also published as: EP0978823A3; DE69933623D1; EP0978823B1; EP0978823A2; DE69933623T2; US6374220B1

Abstract

(57)【要約】【課題】限られた記憶空間でＮ最良検索を行うＮ最良
検索方法を提供する。【解決手段】連続音声認識用Ｎ最良検索方法は、単語
レベル状態のビタビ刈り込みを行うステップ１０６と、
文章レベル状態に対してＮ最良準最適経路を維持するス
テップ１０７とを含む。これにより、メモリ空間を殆ど
広げなくて済み、検索の高速化および検索空間の縮小を
図り、しかもエラーを混入させることがなく、マルチ・
パス検索または語彙ツリーとは独立して使用することが
できる。

Description

【発明の詳細な説明】

【０００１】

【発明の属する技術分野】本発明は、音声認識に関し、
特に、限られた記憶空間でＮ最良検索（N-best searc
h）を行う方法に関する。

【０００２】

【従来の技術】音声認識では、入力音声を検索し、語彙
を表す音声モデルと入力音声とを比較して、単語や文章
を識別する必要がある。

【０００３】大量語彙の音声認識（large vocabulary s
peech recognition）の検索速度および検索空間は、過
去数年間において活発な研究分野であった。最先端のワ
ークステーション上であっても、大量語彙のタスク（語
数が２００００語）では、検索に実時間の数百倍もかか
る可能性がある。高速検索アルゴリズムの殆どは、検索
のマルチ・パスを用いている。即ち、単純なモデル（例
えば、単一音（monophone））を用いて素早く粗い検索
を行ってかなり絞ったＮ最良部分空間を出力し、次に、
詳細モデル（例えば、混成物を有するクラスタ化した三
重音）を用いてこの部分空間を検索し、最終結果を出力
する（Fil Allevaら， “An Improved Search Algorith
m Using Incremental Knowledge for Continuous Speec
h Recognition”，ICASSP 1993，Vol. 2，307-310と、L
ong Nguyen ら，“Search Algorithms for Software-On
ly Real-Time Recognition with Very Large Vocabular
y”，ICASSPと、Hy Murveitら，“Progressive-Search
Algorithms for Large Vocabulary Speech Recognitio
n”，ICASSPとを参照）。単一音を用いて検索空間を狭
める最初のパスでは、エラーが混入する。したがって、
狭めた検索空間は、最良の経路を含むように、十分大き
くなければならない。このプロセスは、豊富な経験およ
び微調整を必要とする。

【０００４】検索プロセスは、文法および語彙上の制約
に従って検索ツリーを展開しなければならない。検索ツ
リーのサイズおよび記憶必要量は、語彙のサイズに伴っ
て指数関数的に増加する。ビタビ桁検索（Viterbi beam
search）を用いて、ツリーの可能性の低いブランチを
取り除く。しかしながら、大量語彙のタスクでは、ツリ
ーはまだ非常に大きい。

【０００５】検索を高速化するために、マルチ・パス・
アルゴリズムを用いることが多い。単純なモデル（例え
ば、単一音）を用いて素早く粗い検索を行い、かなり狭
めたＮ最良部分空間を出力する。モデルは非常に少ない
ので、検索をかなり速く行うことができる。しかしなが
ら、これら単純モデルの精度は十分に高くなく、したが
って、より詳細なモデルを用いる次の検索段階のため
に、十分に大きなＮ最良部分空間を保存しておかなけれ
ばならない。

【０００６】他のプロセスに、語彙ツリー（lexical tr
ee）を用いて評価の共用（sharing）を最大化するもの
がある。Mosur Ravishankar，“Efficient Algorithms
forSpeech Recognition”，博士論文，CMU-CS-96-143,
1996を参照のこと。また、Julian Odell，“The Use of
Context in Large Vocabulary Speech Recognitio
n”，博士論文，Queens' College, Cambridge Universi
ty，１９９５も参照のこと。例えば、ある文法ノードに
おいて“ｂａｋｅ”および“ｂａｋｅｄ”が許されると
仮定すると、それらの評価の多くは共用することができ
る。何故なら、双方の単語は、／ｂ／／ｅｙ／／ｋ／と
いう音の連続（phone sequence）で始まっているからで
ある。最初の検索パスにおいて単一音を用いる場合、語
彙がいかに大量であっても、検索を開始可能な英語の音
は約５０のみに過ぎない。この原理は、最初の評価を共
用したのちに音が異なる場合にのみ広げていく(fan ou
t)ために木の構造に似ているところから、語彙ツリーと
呼ばれている。語彙ツリーの効果は、文法の単語レベル
を除去することによって得ることができ、次いで、音の
ネットワークを規範化する（canonicalize）（冗長性を
除去する）ことができる。例えば、以下のようにであ
る。

【０００７】

【表１】

【０００８】元の文法は、２つのレベル（即ち、単語に
関する文章文法および音に関する発音文法（語彙））を
有する。単語レベルを除去したのちに１つのレベルの音
ネットワークを規範化したあとで、同じ頭文字（initia
l）が自動的に共用される。認識装置は、認識結果とし
て、音の連続を出力する。これを解析して（テキストの
み）、単語を得ることができる。テキスト解析は、音声
認識解析と比較すると、事実上時間が全くかからない。

【０００９】

【発明が解決しようとする課題】検索を高速化し、結果
的に得られる検索空間を狭め、しかもエラーを混入させ
ることがなく、マルチ・パス検索または語彙ツリーとは
独立して使用可能な方法を提供することができれば望ま
しい。

【００１０】

【課題を解決するための手段】本発明の一実施形態によ
れば、単語レベルの状態のビタビ刈り込み（Viterbipru
ning）を行って最良経路を維持するだけでなく、文章レ
ベル状態用の準最適経路も保持することにより、メモリ
空間を殆ど広げなくて済むＮ最良検索プロセスおよび処
理を提供する。

【００１１】

【発明の実施の形態】図１を参照すると、音声認識シス
テム１０が示されている。認識システム１０は、発音辞
書，文法および音響モデルなどを含むライブラリ１０ａ
を備えている。認識システム１０は、解析された入力音
声をモデルと比較するとともにスコアを計算するコンピ
ュータ／比較器１０ｂと、処理プログラムを格納すると
ともに比較および計算結果からの結果を格納するメモリ
１０ｃとを更に備えている。解析された音声入力を音声
モデルと比較し、一致すると、認識出力が得られる。本
認識システムのフレームワークは、ＨＭＭ（隠れマルコ
フ・モデル）であり、文章文法が、複数の状態のうち状
態１２および遷移１１を有するマルコフ・モデルによっ
て表される（図２参照）。遷移には、単語が関連付けら
れる。状態Ａから状態Ｂへの遷移が発生すると、この遷
移に関連する単語の１つを評価しなければならない。次
に、状態Ｂからは、再び、選択すべき多くの出立遷移が
あり、各遷移には単語が関連付けられている。遷移が発
生するとは、単語を調べることを意味する。このよう
に、このマルコフ・モデルは、ある文章がどの単語から
開始する可能性があるのか、どの単語の次にどの単語が
続くのか、文章はどの単語で終わるのかを記述する。こ
れは、文法の計算的表現である。

【００１２】各単語もマルコフ・モデルによって状態お
よび遷移で表される。各状態には、音響（acoustics）
が関連付けられる。ある状態への遷移は、その状態に関
連付けられている音響を評価することを意味する。通
常、単語モデルには、左右ＨＭＭ（left-to-right HM
M）が用いられ、会話の平均速度を表す直進遷移（strai
ght-through transition）１１と、低速を表す自己ルー
プ遷移（self-loop transition）１３と、高速を表すス
キップ遷移１７とがある。音響も（文章ＨＭＭにおける
ように）遷移に関連付けることができる。しかしなが
ら、殆どの音声認識システムでは、音響は、その簡略化
のために、状態に関連付けられている。

【００１３】ＨＭＭのこれら２つのレベルは、音声認識
システムの検索空間を記述する（Y.H. Kao，W. Anderso
nおよびH.S. Lim，“A Multi-Lingual, Speaker-Indepe
ndent, Continuous-Speech Recognizer on TMS320C5x F
ixed Point DSP”，ICSPAT 1997，San Diego，USAと、
Y.H. Kao，“Fixed-Point Implementation of IG Speec
h Recognizer on C5x DSP”，TI Tech Report，1996と
を参照）。上位レベルの文章文法から下位レベルの音響
まで、認識アルゴリズム（パーザ）は、入力音響ベクト
ル（input acoustic vector）をこの検索空間全体に張
り巡らせて（run）、検索ネットワークを構築すること
によって最良の経路を探し出す。入力ベクトルの終端に
おいて見つけられた最良の経路が、認識結果となる。文
法は、文脈任意文法（context-free-grammar）（少量語
彙タスク用）またはＮグラム（N-Gram）（大量語彙タス
ク用）によって表すことができる。大量語彙システムで
は、通常、二レベル・システム（文章，単語）ではな
く、三レベル・システム（文章，単語，音）が用いられ
る。大量の単語について個々の単語モデルを構築するこ
とは不可能であるので、音素モデルを基本単位として用
いる（Y.H. KaoおよびK. Kondo，“phonetic Medeling
Using Acoustic Decision Tree”，TI Tech Report, 19
97と、Y.H. Kao，“Acoustic Decision Tree: A Tutori
al”，TI Tech Report, 1997と、Y.H. Kao，“Acoustic
Decision Tree: Performance Analysis”，TI Tech Re
port，1997とを参照）。

【００１４】検索は、文法において可能な全ての経路に
展開（expand）していく（図３参照）。音声フレーム
（speech frame）が入力されると、最初に、文章ＨＭＭ
において可能な全ての単語に展開する。各単語を展開す
るには、語彙ＨＭＭにおいてその個々の音の連続に展開
する必要がある。各音を展開するには、その音素ＨＭＭ
を展開する必要がある。これは、観測結果（observatio
ns）として音響を有する。構造的に、ＨＭＭには３つの
レベルがある。上位レベルの遷移は、１つよりも多い音
声フレームを要する場合があり、下位レベルの遷移のみ
が正確に１つの音声フレームを用いる。音声フレーム
は、例えば、長さが２０ミリ秒である。上位レベルの遷
移は、その対応する観察が完了した後に始めて行うこと
ができる（完了には数音声フレームを費やす場合もあ
る）。

【００１５】音声認識は、文法−単語検索空間定義に従
って検索ネットワークを展開する。コンピュータ・デー
タ構造を実際に定義してアルゴリズムを実施する方法
は、多数ある。ここでは、一例として、我々のアルゴリ
ズムを用い、ネットワークを最小化する方法を説明す
る。検索ネットワークの構築ブロックとして「スロッ
ト」と呼ばれる構造を定義する。Ｃ構造を用いると、こ
れは次のように定義される。

【００１６】

【表２】

【００１７】model＿indexは、このスロットが関係する
モデルが何であるかを表す整数である。例えば、検索空
間全体を１つの文章モデルで表現し、model＿index 0を
文章モデルに割り当てる。この文章モデルは、多くの単
語から成り、これらの単語をどのように組み合わせるこ
とができるかについて、単語モデル毎に、model＿index
1, 2, 3, ...等を割り当てる。Model＿indexは重複す
ることができず、各インデックスは異なるモデル（文章
または単語）を表す。

【００１８】state＿indexは、このスロットが置かれて
いる状態（モデルにおける状態。例えば、文章または単
語）は何であるかを表す整数である。文章モデルおよび
単語モデル双方がＨＭＭであるので、状態毎にこれらを
評価する。検索ネットワークを構築する場合、次に遷移
する状態（複数の状態）がどれになるかを知るために、
どの状態にあるのかについて知る必要がある。各モデル
内において、state_indexは、１，２，３，．．．等か
ら開始する。モデル１における状態１は、モデル２にお
ける状態１とは異なる。

【００１９】scoreは、この経路のこのスロットまでの
蓄積スコアである。backptrは、経路内の直前のスロッ
トを再度指し示すポインタである。例えば、状態１０が
状態９（直進遷移）または状態８（飛ばし遷移）または
状態１０（自己ループ遷移）から遷移することができる
場合、ある状態に至る最良の経路のみを保持するビタビ
復号の後、状態１０スロットのbackptrは、前述の３つ
のスロットのうちの１つを指し示す。

【００２０】timeは、このスロットを最初に作成したと
きの時間インデックスである。例えば、２０ｍｓのフレ
ーム長を用いる。入力音声を２０ｍｓフレームに区分
し、前処理して特徴ベクトルを抽出し、次いで、検索ア
ルゴリズムに供給する。最初のフレーム（０〜２０ｍ
ｓ）の検索の間、timeは１であり、２番目のフレーム
（２０〜４０ｍｓ）の検索の間、timeは２であり、以降
このように進んでいく。

【００２１】last＿timeは、この経路を更新した最後の
時刻である。このタイム・スタンプは、スロット管理
（ガベージ・コレクション）のために必要となる。検索
ネットワークの展開には、指数関数的拡大問題があり、
スコアの悪い経路を刈り込んで検索ネットワークのサイ
ズを縮小しなければならない。経路が良好なスコアを有
し、今後の展開のために保持すべき場合には、現在のタ
イム・スタンプを逆方向に経路全体を通じて伝搬させる
（経路とは、スロットを逆方向にリンクしたリストであ
る）。スロットのlast＿timeが現時点である場合には、
これを保持しておかなければならず、再使用することは
できない。それ以外の場合には、これは再使用可能であ
る。何故なら、その経路は検索桁（search beam）の範
囲内になく、したがって、last＿timeは更新されていな
いからである。

【００２２】next＿stateは、この評価対象モデル内の
アクティブ状態の次のスロットを指し示す。あるモデル
を評価する場合、多くの状態がアクティブである可能性
があり、それらを評価しなければならない。これらは、
next＿stageによって互いにリンクされている。

【００２３】next＿wordは、評価対象のこの文章状態に
対するアクティブな単語の次のスロットを指し示す。文
章モデルを評価する場合、アクティブ状態のそのスロッ
トはnext＿stateによってリンクされる。しかし、各状
態毎に、未だ評価している最中の単語がある（完了する
ためには、単語は１つより多いフレームを必要とす
る。）。next＿wordは、これら保留中の単語の評価スロ
ットを全てリンクする。Next＿wordは、文章レベルのス
ロットから開始する。

【００２４】検索は、音声認識アルゴリズムの最も複雑
な部分である。アルゴリズムを学習する最良の方法は、
Ｃコードを辿っていくことである。注釈を十分に付けた
本出願人のＣコードおよび付随する文書を参照されたい
（Y.H. Kao，“IG (Integrated Grammar) Algorith
m”，TI Tech Report，1996参照）。

【００２５】図４は、文章文法“Call George Washingt
on”に対する検索空間の一例を示す。文法のレイヤは、
文章，単語，音および音響分布（最下層）であり、小さ
な丸で表されている。展開は、単語“call”から音“|
Ｋ|”に進み、“|Ｋ|”の音響に対する最上位の３つの
丸４１〜４３となる。次いで、展開は、２番目の音“|a
o|”に進み、５つの丸４４に進み、次に、音“|ｌ|”に
戻る。次に、展開は、小さな丸４５によって表される
“|ｌ|”の音響に進む。最後の丸４５の後、展開は単語
“Ｇｅｏｒｇｅ”に進み、更に音“|ｊｈ|”に至る。更
に、展開は、３つの音響４７、次に音“|ａｏ|”、次に
５つの音響４９に続く。最後の音響４９の後に、検索は
音“|ｒ|”に進み、次いで４つの音響、次いで音“|ｊ
ｈ|”、次いで３つの音響５３に進む。最後の音響５３
に続いて、単語“Ｗａｓｈｉｎｇｔｏｎ”に移り、音
“|ｗ|”に至る。これに続いて、３つの音響５５に進
む。音響５５の後に、音“|ａｏ|”が続き、その後に５
つの音響５７が続き、更に音“|ｓｈ|”が続く。音“|
ｓｈ|”の後に、４つの音響５９が続き、その後に音“|
ａｘ|”およびその３つの音響６１が続く。同様に、展
開は、音“|ｎ|”，“|ｔ|”，“|ａｘ|”および“|ｎ
|”と続き、それらに関連する３つの音響が後に続く。

【００２６】説明を続けるために、上位レベルにおける
検索の概念について説明したのち、Ｎ最良検索プロセス
について説明する。検索ネットワークの構築ブロックと
してスロット・データ構造を定義したのちに、直接に検
索ネットワーク展開を行う。これは、以下のように要約
することができる。

【００２７】以下のようにして文章を始めることができ
る全ての文章状態についてスロットを構築する。 For （各入力音響ベクトル）{ For （各文章状態スロット）{ その出立遷移に関連する全ての単語を見つけ出し、単語開始スロットを構築し、評価中の単語スロットを維持する。 For （各単語状態スロット）{ 次の状態に遷移し、音響ベクトルを評価する If (単語の終端に達した）{ 次の状態遷移のために、情報を文章レベルに渡す } ｝｝｝最良のスコアを有する経路を逆に辿り、認識結果を報告する。

【００２８】各入力音響ベクトル（２０ｍｓ）に対し
て、例えば、図４に示すように検索空間を下方に移動し
て、音響評価ができるように最下層に達する。音響スコ
アおよび遷移スコアを蓄積し、スロットのスコア・フィ
ールドに格納する（図１の記憶装置１０ｃに入力す
る）。backptrフィールドは、（このスロットに来る）
直前のスロットを指し示す。したがって、各入力音響ベ
クトルに対して、音響評価を１回行わなければならない
ので、評価は少なくとも１つのスロットを検索経路に追
加する。音響評価スロットの追加が可能となる前に文章
レベルのスロットを追加しなければならない場合がある
ので、１つよりも多いスロットを経路に追加しなければ
ならない場合もある。

【００２９】これは、「トレース・モード」と呼ばれ、
各入力音響ベクトルを、モデル音響ベクトルにマップ
し、検索経路内に記録する。これは、スロットの非常に
長いリンク・リストが作成されるので、非常に非経済的
である。例えば、５秒の入力発声は、５×５０＝２５０
個の入力ベクトルを有する。検索桁幅以内で可能なあら
ゆる理論について、２５０スロットを越えるリンク・リ
ストを作成しなければならない。

【００３０】訓練の目的のために、これは必要である。
何故なら、そのモデル・ベクトルを更新するためには全
ての入力ベクトルをモデル・ベクトルにマップしなけれ
ばならないからである。しかし、認識の目的のために
は、どの単語を認識するのかを知りたいだけであるの
で、これは過剰である。各ベクトルをどのようにマップ
するかというような顕微鏡的追跡を知る必要はない。

【００３１】分離単語認識のために、動的時間ワーピン
グ（ＤＴＷ：Dynamic Time Warping）型のアルゴリズム
を用いる。Ｎ最良は、実際には、ありふれたものであ
る。各単語（または、いずれの単位にしても）は独立し
て評価されるので、刈り込まれていない全ての単語につ
いてスコアを得ることができる。Ｎ最良は、これらのス
コアをソートするのと同様に簡単である。

【００３２】比較的少数の出力組合せによる連続音声認
識についても、Ｎ最良はありふれたものである。例え
ば、会社名の認識では、各名称は数個の単語で構成され
ており、出力組合せの数（会社の数）には限度がある。
これらの会社名は、別個の検索経路で評価することがで
き、最後にスコアを比較してＮ最良結果を出力すること
ができる。これは、ＤＴＷにおいてＮ最良が行われる場
合と酷似している。

【００３３】Ｎ最良が問題となるのは、１０桁の認識の
ような、結合的に展開する連続音声認識の場合である。
１０桁の連続音声認識タスクでは、可能な出力ストリン
グは１０¹⁰＝１００億個にもなる。これら１００億個も
の検索経路を別個に評価することは、余りに多過ぎて不
可能である。この問題を経済的に解決するには、準最適
経路を保持するために、検索プロセスにおいて何らかの
処置を講ずる必要がある。

【００３４】本発明によれば、図５のフロー・チャート
に示すように、アクティブな経路を全て展開し（ステッ
プ１０１）、ステップ１０３において、スロットを計算
し、比較し、得点を付ける。次に、これが文章レベル状
態か否かについて判定を行い（ステップ１０５）、そう
でない場合には、ビタビ復号および刈り込みを行う（ス
テップ１０６）。文章レベル状態である場合には、最良
の準最適経路を保持し（ステップ１０７）、発声の後に
最良の経路を選択する（ステップ１０９）。

【００３５】音声認識における検索は指数関数的増大と
いう問題があるので、その巨大なサイズを制御するため
に、次の２つの方法を用いる。即ち、ビタビ復号と刈り
込みである。刈り込みは、検索桁の外側にあるスコアを
有する経路を破棄する。刈り込まれる経路は最終的に最
上位の競合となる可能性は低いので、これはＮ最良の目
的には適している。一方、ビタビ復号は、最終的に最良
の経路を見い出すことにのみ関心があるので、ある状態
に入る最良の経路のみを保持する。Ｎ最良出力では、ビ
タビ復号は適していない。何故なら、関心があるのは最
良の経路ではなく、二番目に最良の経路、三番目に最良
の経路などであるためである。

【００３６】ビタビ復号は、検索ネットワークサイズの
縮小における主要な観念である。例えば、ある状態に入
る２つの経路があると仮定する。これらの経路の今後の
展開はこの状態のみに依存するので、将来の展開につい
ては、スコアが最良の入来経路のみを維持すればよいと
いうのが、ビタビ復号の言おうとするところである。今
後の展開は、これら２つの入来経路については同一であ
るので、それに対して展開を継続しても、低いスコアの
経路は常に同じ損失マージン（losing margin）を維持
することになる。したがって、この場合の目的は最良の
スコアの経路を獲得することであるので、ある状態に対
して最良のスコアの入来経路のみを展開すればよい。

【００３７】ビタビ復号は、最良経路の検索における単
純でしかも非常に強力な観念である。１秒の発声（５０
フレーム×２０ｍｓ）を処理するために、１つの状態に
平均して３本の経路が入来すると仮定すると、ビタビ復
号は、経路の数を３⁵⁰から１に削減する。これは莫大な
削減であり、これなくしては行うことができない。

【００３８】しかしながら、Ｎ最良出力では、準最適経
路を維持する必要がある。しかし、全ての状態について
これを行うことは、最低１つの準最適経路を維持するだ
けでも、１秒の発声に対して２⁵⁰本の経路を意味する。
これは、確かに天文学的な命題（proposition）のよう
に聞こえる。

【００３９】幸い、殆どの状態については、多数の経路
を維持する必要はない。殆どの状態では、同様にビタビ
復号を行い、非常に少数の出力分化状態（output diffe
rentiation states）についてのみビタビ復号を適用せ
ず、図５において破線で示すように多数の経路を保持す
る。

【００４０】本認識システムでは、出力分化状態は、文
章レベル状態を意味する。文章レベル状態においての
み、異なる経路から異なる出力が得られる結果となる。
単語レベル状態では、異なる経路は音響の異なる時間整
合（time alignment）を意味し、モデル内において音響
がどのように整合されても未だ同じ単語である。ここで
関心があるのは、Ｎ最良時間整合ではなく、Ｎ最良出力
である。したがって、単語レベル状態については準最適
経路を維持しなくてもよい。何故なら、これら準最適経
路の全ては同じ単語を表すからである。

【００４１】一方、文章レベル状態では、各経路（遷
移）は、異なる単語を表す。これこそが、正に、準最適
経路を維持したい部分である。非ビタビ（準最適経路を
維持する）復号は、文章レベル状態でのみ行うことを確
定した（ステップ１０７）。単語レベル状態では、ビタ
ビ復号が未だ行われる（ステップ１０６）。幸いなこと
に、検索において遭遇する状態の殆どは単語レベル状態
である。例えば、単一単語認識タスクでは、入力発声が
０．５秒の無音＋０．５秒の単語＋０．３秒の無音から
成ると仮定する。合計で、１．３秒／２０ｍｓ＝６５フ
レームがある。いずれの経路についても６５より多い状
態評価の内（６５の状態が、音響に何らかの文章レベル
状態を加えたものにマップする。）、２つのみが非ビタ
ビである。何故なら、文章レベル状態は２つしかないか
らである。他の６５程の状態評価は、ビタビのままであ
る。非ビタビ状態の割合が小さいので、検索の複雑性の
増大は非常に少ない。

【００４２】文章レベル状態において準最適経路を保持
するために、ステップ１０３に示すように、１つのスロ
ット・ポインタをスロット・データ構造に追加する。

【００４３】

【表３】

【００４４】ある文章レベル状態で入来経路が併合する
場合、最良の経路だけを維持するのではなく、next＿nb
estによってリンクされる準最適経路も維持する。これ
ら準最適経路をnext＿nbestポインタによってリンクす
ることによってこれらを維持したのち、ネットワークの
順方向展開は同じまま留まる。スコアは、最良の経路に
のみ蓄積される。ある状態に対する最良の経路と全ての
準最適経路との間のスコアの差は、一定のまま留まり、
準最適経路を別個に展開する必要はない。発声の終了時
に、最良経路に加えて、準最適経路も逆方向に辿ること
ができる。これらがＮ最良出力となる。

【００４５】文章レベル状態に入来する全ての経路が、
維持に値する訳ではない。経路によっては、無音だけが
異なる経路や、出力が既存のものと同じ経路があり、こ
れらについては、１つの最良スコアの経路のみを維持す
る。準最適経路は前進的に展開する必要はないが、フレ
ーム毎に逆方向に辿り、再使用や破壊を防止する必要は
ある。

【００４６】２つのタスク、即ち、単一単語軍用アルフ
ァベット認識(single word military alphabet recogni
tion)（７０８７ファイル）および１０連続桁認識(10 c
ontinuous digits recognition)（１３９０ファイル）
に関して、ピーク・スロットの使用量を較正した。これら２つのタスクに、２つの条件を適用した。・最適に最小化した１つの最良検索ネットワーク。・本明細書に記載するＮ最良検索。

【００４７】ピーク・スロット使用量ヒストグラムを図
６に記す。このグラフでは、これらは○および＋でそれ
ぞれ表されている。Ｘ軸はピーク・スロット数であり、
Ｙ軸はよい結果が得られる解析を行うために最小のＸ軸
スロットを必要とする発声の数である。分布が左側に行
く程、検索の効率は高くなる。

【００４８】単一単語軍用アルファベット認識タスクで
は、ピーク・スロット使用量の最大，平均および標準偏
差は、次の通りである。

【表４】

【００４９】１０連続桁認識タスクでは、ピーク・スロ
ット使用量の最大，平均および標準偏差は、次の通りで
ある。

【表５】

【００５０】Ｎ最良検索ネットワークは、１０桁認識タ
スクに対する単一最良最小化ネットワークに比較する
と、ピーク・スロット使用量が１０パーセント未満増加
している。単一単語軍用アルファベット認識タスクで
は、ピーク・スロット使用量は全く増加していない。

【００５１】図７のヒストグラムのグラフから、Ｎ最良
軍用アルファベット・タスクには、５００スロット（即
ち、５００×６＝３ＫワードのＲＡＭ）が必要となる。
また、Ｎ最良１０桁ストリング・タスクには、１５００
スロット（即ち、１５００×６＝９ＫワードのＲＡＭ）
が必要となる。基本的に、ピーク・スロット使用量は同
じままであるが、スロット・サイズは５フィールドから
６フィールドに増加する。

【００５２】Ｎ最良ＤＳＰ上での実施はこれを書く時点
では完了していなかったので、時間はSUN Ultra Sparc
上で較正した。単一単語軍用アルファベット認識タスク
では、リアル・タイム・ファクタは次の通りである。

【表６】

【００５３】１０連続桁ストリング認識タスクでは、リ
アル・タイム・ファクタは次の通りである。

【表７】

【００５４】軍用アルファベット・タスクの増加は、
１．５倍である。１０桁タスクの増加は、２．１１倍で
ある。これは、準最適経路全てを逆方向に辿る必要があ
るためである。

【００５５】Ｎ最良出力を、スコアに従って順番に並べ
る。全てのスコアは負である（負の対数確率を蓄積した
ため）。スコアは正の側に近い程よい。最良の経路に対
する全ての準最適経路のスコアの差も印刷する。正しい
認識のために、全ての共通な混同対（confusion pai
r）、即ち、４−１，５−９，０−ｏｈ，８−３，１−
ｏｈ，ｏｈ−４を見ることができる。

【表８】

【００５６】不正確な認識では、正しい答えの確率がＮ
最良リストの中にある。

【表９】

【００５７】Ｎ最良出力の用途は数多くある。例えば、・ダイアログ・システム。双方向処理を行うために音声
認識システムの出力をダイアログ・システムに渡す。音
声認識システムにおいて起こり得るエラーのために、Ｎ
最良は、１群の可能性の高い認識結果を与え、次いで、
ダイアログ・システムが、長距離意味論（long distanc
e semantics）を分析することによって、混乱を解決す
ることができる。

【００５８】・拒絶。最良の経路と２番目に最良の経路
との間のスコアの差を、確信度の尺度として用いること
ができる。ウイニング・マージン（winning margin）が
大きい程、認識の信頼性が高いことを意味する。一方、
ウイニング・マージンが小さい場合、これらは、恐らく
混乱する可能性があるので、拒絶すべきことを意味す
る。

【００５９】・マルチパス高速検索。粗いモデル（より
小さく、したがって、評価が速い。例えば、単一音）を
用いて、Ｎ最適格子部分空間を迅速に発生する。次に、
より詳細なモデル（より大きく精度が高い。例えば、文
脈依存音）を用いて、この大幅に縮小した部分空間を検
索する。これは、分割および征服（divide-and-conque
r）戦略である。複雑な問題は、それを小さな問題に分
割することによって解くことができる。Ｎ最良は、かか
るマルチ・ステップ・プロセスに許容範囲（latitude）
を与える。

【００６０】Ｎ最良は、多くの目的を対象とする手段で
ある。これは、単に多数の答えを出力するだけではな
い。

【００６１】以上の説明に関して更に以下の項を開示す
る。（１）Ｎ最良音声認識検索を実行する方法であって、非
出力分化状態のビタビ刈り込みを行って最良の経路を維
持するステップと、異なる経路から異なる出力が得られ
る出力分化状態に対するＮ最良準最適経路を維持するス
テップと、を含む方法。（２）非出力分化状態が単語レベル状態である、第１項
記載の方法。（３）前記出力分化状態が文章レベル状態である、第１
項記載の方法。

【００６２】（４）連続音声認識用Ｎ最良検索方法は、
単語レベル状態のビタビ刈り込みを行うステップ（１０
６）と、文章レベル状態に対してＮ最良準最適経路を維
持するステップ（１０７）とを含む。

【図面の簡単な説明】

【図１】本発明の一実施形態によるシステムのブロック
図である。

【図２】状態および遷移を示す図である。

【図３】経路展開スロットおよび以前のスロットに戻る
ポインタを示す図である。

【図４】文章の展開を示す図である。

【図５】本発明のフロー・チャートである。

【図６】単一単語軍用アルファベット・タスクにおける
ピーク・スロット使用量のヒストグラムを示すグラフで
ある。

【図７】１０桁タスクにおけるピーク・スロット使用量
のヒストグラムを示すグラフである。

【符号の説明】

１０音声認識システム１０ａライブラリ１０ｂコンピュータ／比較器１０ｃメモリ１１遷移１２状態

Claims

【特許請求の範囲】

【請求項１】Ｎ最良音声認識検索を実行する方法であ
って、非出力分化状態のビタビ刈り込みを行って最良の経路を
維持するステップと、異なる経路から異なる出力が得られる出力分化状態に対
するＮ最良準最適経路を維持するステップと、を含む方法。