JP2000075895A - 連続音声認識用n最良検索方法 - Google Patents
連続音声認識用n最良検索方法Info
- Publication number
- JP2000075895A JP2000075895A JP11221939A JP22193999A JP2000075895A JP 2000075895 A JP2000075895 A JP 2000075895A JP 11221939 A JP11221939 A JP 11221939A JP 22193999 A JP22193999 A JP 22193999A JP 2000075895 A JP2000075895 A JP 2000075895A
- Authority
- JP
- Japan
- Prior art keywords
- state
- search
- word
- path
- route
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Pending
Links
Classifications
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L15/00—Speech recognition
- G10L15/08—Speech classification or search
- G10L15/083—Recognition networks
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L15/00—Speech recognition
- G10L15/08—Speech classification or search
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L15/00—Speech recognition
- G10L15/08—Speech classification or search
- G10L2015/085—Methods for reducing search complexity, pruning
Landscapes
- Engineering & Computer Science (AREA)
- Computational Linguistics (AREA)
- Health & Medical Sciences (AREA)
- Audiology, Speech & Language Pathology (AREA)
- Human Computer Interaction (AREA)
- Physics & Mathematics (AREA)
- Acoustics & Sound (AREA)
- Multimedia (AREA)
- Information Retrieval, Db Structures And Fs Structures Therefor (AREA)
- Machine Translation (AREA)
- Telephonic Communication Services (AREA)
- Document Processing Apparatus (AREA)
Abstract
(57)【要約】
【課題】 限られた記憶空間でN最良検索を行うN最良
検索方法を提供する。 【解決手段】 連続音声認識用N最良検索方法は、単語
レベル状態のビタビ刈り込みを行うステップ106と、
文章レベル状態に対してN最良準最適経路を維持するス
テップ107とを含む。これにより、メモリ空間を殆ど
広げなくて済み、検索の高速化および検索空間の縮小を
図り、しかもエラーを混入させることがなく、マルチ・
パス検索または語彙ツリーとは独立して使用することが
できる。
検索方法を提供する。 【解決手段】 連続音声認識用N最良検索方法は、単語
レベル状態のビタビ刈り込みを行うステップ106と、
文章レベル状態に対してN最良準最適経路を維持するス
テップ107とを含む。これにより、メモリ空間を殆ど
広げなくて済み、検索の高速化および検索空間の縮小を
図り、しかもエラーを混入させることがなく、マルチ・
パス検索または語彙ツリーとは独立して使用することが
できる。
Description
【0001】
【発明の属する技術分野】本発明は、音声認識に関し、
特に、限られた記憶空間でN最良検索(N-best searc
h)を行う方法に関する。
特に、限られた記憶空間でN最良検索(N-best searc
h)を行う方法に関する。
【0002】
【従来の技術】音声認識では、入力音声を検索し、語彙
を表す音声モデルと入力音声とを比較して、単語や文章
を識別する必要がある。
を表す音声モデルと入力音声とを比較して、単語や文章
を識別する必要がある。
【0003】大量語彙の音声認識(large vocabulary s
peech recognition)の検索速度および検索空間は、過
去数年間において活発な研究分野であった。最先端のワ
ークステーション上であっても、大量語彙のタスク(語
数が20000語)では、検索に実時間の数百倍もかか
る可能性がある。高速検索アルゴリズムの殆どは、検索
のマルチ・パスを用いている。即ち、単純なモデル(例
えば、単一音(monophone))を用いて素早く粗い検索
を行ってかなり絞ったN最良部分空間を出力し、次に、
詳細モデル(例えば、混成物を有するクラスタ化した三
重音)を用いてこの部分空間を検索し、最終結果を出力
する(Fil Allevaら, “An Improved Search Algorith
m Using Incremental Knowledge for Continuous Speec
h Recognition”,ICASSP 1993,Vol. 2,307-310と、L
ong Nguyen ら,“Search Algorithms for Software-On
ly Real-Time Recognition with Very Large Vocabular
y”,ICASSPと、Hy Murveitら,“Progressive-Search
Algorithms for Large Vocabulary Speech Recognitio
n”,ICASSPとを参照)。単一音を用いて検索空間を狭
める最初のパスでは、エラーが混入する。したがって、
狭めた検索空間は、最良の経路を含むように、十分大き
くなければならない。このプロセスは、豊富な経験およ
び微調整を必要とする。
peech recognition)の検索速度および検索空間は、過
去数年間において活発な研究分野であった。最先端のワ
ークステーション上であっても、大量語彙のタスク(語
数が20000語)では、検索に実時間の数百倍もかか
る可能性がある。高速検索アルゴリズムの殆どは、検索
のマルチ・パスを用いている。即ち、単純なモデル(例
えば、単一音(monophone))を用いて素早く粗い検索
を行ってかなり絞ったN最良部分空間を出力し、次に、
詳細モデル(例えば、混成物を有するクラスタ化した三
重音)を用いてこの部分空間を検索し、最終結果を出力
する(Fil Allevaら, “An Improved Search Algorith
m Using Incremental Knowledge for Continuous Speec
h Recognition”,ICASSP 1993,Vol. 2,307-310と、L
ong Nguyen ら,“Search Algorithms for Software-On
ly Real-Time Recognition with Very Large Vocabular
y”,ICASSPと、Hy Murveitら,“Progressive-Search
Algorithms for Large Vocabulary Speech Recognitio
n”,ICASSPとを参照)。単一音を用いて検索空間を狭
める最初のパスでは、エラーが混入する。したがって、
狭めた検索空間は、最良の経路を含むように、十分大き
くなければならない。このプロセスは、豊富な経験およ
び微調整を必要とする。
【0004】検索プロセスは、文法および語彙上の制約
に従って検索ツリーを展開しなければならない。検索ツ
リーのサイズおよび記憶必要量は、語彙のサイズに伴っ
て指数関数的に増加する。ビタビ桁検索(Viterbi beam
search)を用いて、ツリーの可能性の低いブランチを
取り除く。しかしながら、大量語彙のタスクでは、ツリ
ーはまだ非常に大きい。
に従って検索ツリーを展開しなければならない。検索ツ
リーのサイズおよび記憶必要量は、語彙のサイズに伴っ
て指数関数的に増加する。ビタビ桁検索(Viterbi beam
search)を用いて、ツリーの可能性の低いブランチを
取り除く。しかしながら、大量語彙のタスクでは、ツリ
ーはまだ非常に大きい。
【0005】検索を高速化するために、マルチ・パス・
アルゴリズムを用いることが多い。単純なモデル(例え
ば、単一音)を用いて素早く粗い検索を行い、かなり狭
めたN最良部分空間を出力する。モデルは非常に少ない
ので、検索をかなり速く行うことができる。しかしなが
ら、これら単純モデルの精度は十分に高くなく、したが
って、より詳細なモデルを用いる次の検索段階のため
に、十分に大きなN最良部分空間を保存しておかなけれ
ばならない。
アルゴリズムを用いることが多い。単純なモデル(例え
ば、単一音)を用いて素早く粗い検索を行い、かなり狭
めたN最良部分空間を出力する。モデルは非常に少ない
ので、検索をかなり速く行うことができる。しかしなが
ら、これら単純モデルの精度は十分に高くなく、したが
って、より詳細なモデルを用いる次の検索段階のため
に、十分に大きなN最良部分空間を保存しておかなけれ
ばならない。
【0006】他のプロセスに、語彙ツリー(lexical tr
ee)を用いて評価の共用(sharing)を最大化するもの
がある。Mosur Ravishankar,“Efficient Algorithms
forSpeech Recognition”,博士論文,CMU-CS-96-143,
1996を参照のこと。また、Julian Odell,“The Use of
Context in Large Vocabulary Speech Recognitio
n”,博士論文,Queens' College, Cambridge Universi
ty,1995も参照のこと。例えば、ある文法ノードに
おいて“bake”および“baked”が許されると
仮定すると、それらの評価の多くは共用することができ
る。何故なら、双方の単語は、/b//ey//k/と
いう音の連続(phone sequence)で始まっているからで
ある。最初の検索パスにおいて単一音を用いる場合、語
彙がいかに大量であっても、検索を開始可能な英語の音
は約50のみに過ぎない。この原理は、最初の評価を共
用したのちに音が異なる場合にのみ広げていく(fan ou
t)ために木の構造に似ているところから、語彙ツリーと
呼ばれている。語彙ツリーの効果は、文法の単語レベル
を除去することによって得ることができ、次いで、音の
ネットワークを規範化する(canonicalize)(冗長性を
除去する)ことができる。例えば、以下のようにであ
る。
ee)を用いて評価の共用(sharing)を最大化するもの
がある。Mosur Ravishankar,“Efficient Algorithms
forSpeech Recognition”,博士論文,CMU-CS-96-143,
1996を参照のこと。また、Julian Odell,“The Use of
Context in Large Vocabulary Speech Recognitio
n”,博士論文,Queens' College, Cambridge Universi
ty,1995も参照のこと。例えば、ある文法ノードに
おいて“bake”および“baked”が許されると
仮定すると、それらの評価の多くは共用することができ
る。何故なら、双方の単語は、/b//ey//k/と
いう音の連続(phone sequence)で始まっているからで
ある。最初の検索パスにおいて単一音を用いる場合、語
彙がいかに大量であっても、検索を開始可能な英語の音
は約50のみに過ぎない。この原理は、最初の評価を共
用したのちに音が異なる場合にのみ広げていく(fan ou
t)ために木の構造に似ているところから、語彙ツリーと
呼ばれている。語彙ツリーの効果は、文法の単語レベル
を除去することによって得ることができ、次いで、音の
ネットワークを規範化する(canonicalize)(冗長性を
除去する)ことができる。例えば、以下のようにであ
る。
【0007】
【表1】
【0008】元の文法は、2つのレベル(即ち、単語に
関する文章文法および音に関する発音文法(語彙))を
有する。単語レベルを除去したのちに1つのレベルの音
ネットワークを規範化したあとで、同じ頭文字(initia
l)が自動的に共用される。認識装置は、認識結果とし
て、音の連続を出力する。これを解析して(テキストの
み)、単語を得ることができる。テキスト解析は、音声
認識解析と比較すると、事実上時間が全くかからない。
関する文章文法および音に関する発音文法(語彙))を
有する。単語レベルを除去したのちに1つのレベルの音
ネットワークを規範化したあとで、同じ頭文字(initia
l)が自動的に共用される。認識装置は、認識結果とし
て、音の連続を出力する。これを解析して(テキストの
み)、単語を得ることができる。テキスト解析は、音声
認識解析と比較すると、事実上時間が全くかからない。
【0009】
【発明が解決しようとする課題】検索を高速化し、結果
的に得られる検索空間を狭め、しかもエラーを混入させ
ることがなく、マルチ・パス検索または語彙ツリーとは
独立して使用可能な方法を提供することができれば望ま
しい。
的に得られる検索空間を狭め、しかもエラーを混入させ
ることがなく、マルチ・パス検索または語彙ツリーとは
独立して使用可能な方法を提供することができれば望ま
しい。
【0010】
【課題を解決するための手段】本発明の一実施形態によ
れば、単語レベルの状態のビタビ刈り込み(Viterbipru
ning)を行って最良経路を維持するだけでなく、文章レ
ベル状態用の準最適経路も保持することにより、メモリ
空間を殆ど広げなくて済むN最良検索プロセスおよび処
理を提供する。
れば、単語レベルの状態のビタビ刈り込み(Viterbipru
ning)を行って最良経路を維持するだけでなく、文章レ
ベル状態用の準最適経路も保持することにより、メモリ
空間を殆ど広げなくて済むN最良検索プロセスおよび処
理を提供する。
【0011】
【発明の実施の形態】図1を参照すると、音声認識シス
テム10が示されている。認識システム10は、発音辞
書,文法および音響モデルなどを含むライブラリ10a
を備えている。認識システム10は、解析された入力音
声をモデルと比較するとともにスコアを計算するコンピ
ュータ/比較器10bと、処理プログラムを格納すると
ともに比較および計算結果からの結果を格納するメモリ
10cとを更に備えている。解析された音声入力を音声
モデルと比較し、一致すると、認識出力が得られる。本
認識システムのフレームワークは、HMM(隠れマルコ
フ・モデル)であり、文章文法が、複数の状態のうち状
態12および遷移11を有するマルコフ・モデルによっ
て表される(図2参照)。遷移には、単語が関連付けら
れる。状態Aから状態Bへの遷移が発生すると、この遷
移に関連する単語の1つを評価しなければならない。次
に、状態Bからは、再び、選択すべき多くの出立遷移が
あり、各遷移には単語が関連付けられている。遷移が発
生するとは、単語を調べることを意味する。このよう
に、このマルコフ・モデルは、ある文章がどの単語から
開始する可能性があるのか、どの単語の次にどの単語が
続くのか、文章はどの単語で終わるのかを記述する。こ
れは、文法の計算的表現である。
テム10が示されている。認識システム10は、発音辞
書,文法および音響モデルなどを含むライブラリ10a
を備えている。認識システム10は、解析された入力音
声をモデルと比較するとともにスコアを計算するコンピ
ュータ/比較器10bと、処理プログラムを格納すると
ともに比較および計算結果からの結果を格納するメモリ
10cとを更に備えている。解析された音声入力を音声
モデルと比較し、一致すると、認識出力が得られる。本
認識システムのフレームワークは、HMM(隠れマルコ
フ・モデル)であり、文章文法が、複数の状態のうち状
態12および遷移11を有するマルコフ・モデルによっ
て表される(図2参照)。遷移には、単語が関連付けら
れる。状態Aから状態Bへの遷移が発生すると、この遷
移に関連する単語の1つを評価しなければならない。次
に、状態Bからは、再び、選択すべき多くの出立遷移が
あり、各遷移には単語が関連付けられている。遷移が発
生するとは、単語を調べることを意味する。このよう
に、このマルコフ・モデルは、ある文章がどの単語から
開始する可能性があるのか、どの単語の次にどの単語が
続くのか、文章はどの単語で終わるのかを記述する。こ
れは、文法の計算的表現である。
【0012】各単語もマルコフ・モデルによって状態お
よび遷移で表される。各状態には、音響(acoustics)
が関連付けられる。ある状態への遷移は、その状態に関
連付けられている音響を評価することを意味する。通
常、単語モデルには、左右HMM(left-to-right HM
M)が用いられ、会話の平均速度を表す直進遷移(strai
ght-through transition)11と、低速を表す自己ルー
プ遷移(self-loop transition)13と、高速を表すス
キップ遷移17とがある。音響も(文章HMMにおける
ように)遷移に関連付けることができる。しかしなが
ら、殆どの音声認識システムでは、音響は、その簡略化
のために、状態に関連付けられている。
よび遷移で表される。各状態には、音響(acoustics)
が関連付けられる。ある状態への遷移は、その状態に関
連付けられている音響を評価することを意味する。通
常、単語モデルには、左右HMM(left-to-right HM
M)が用いられ、会話の平均速度を表す直進遷移(strai
ght-through transition)11と、低速を表す自己ルー
プ遷移(self-loop transition)13と、高速を表すス
キップ遷移17とがある。音響も(文章HMMにおける
ように)遷移に関連付けることができる。しかしなが
ら、殆どの音声認識システムでは、音響は、その簡略化
のために、状態に関連付けられている。
【0013】HMMのこれら2つのレベルは、音声認識
システムの検索空間を記述する(Y.H. Kao,W. Anderso
nおよびH.S. Lim,“A Multi-Lingual, Speaker-Indepe
ndent, Continuous-Speech Recognizer on TMS320C5x F
ixed Point DSP”,ICSPAT 1997,San Diego,USAと、
Y.H. Kao,“Fixed-Point Implementation of IG Speec
h Recognizer on C5x DSP”,TI Tech Report,1996と
を参照)。上位レベルの文章文法から下位レベルの音響
まで、認識アルゴリズム(パーザ)は、入力音響ベクト
ル(input acoustic vector)をこの検索空間全体に張
り巡らせて(run)、検索ネットワークを構築すること
によって最良の経路を探し出す。入力ベクトルの終端に
おいて見つけられた最良の経路が、認識結果となる。文
法は、文脈任意文法(context-free-grammar)(少量語
彙タスク用)またはNグラム(N-Gram)(大量語彙タス
ク用)によって表すことができる。大量語彙システムで
は、通常、二レベル・システム(文章,単語)ではな
く、三レベル・システム(文章,単語,音)が用いられ
る。大量の単語について個々の単語モデルを構築するこ
とは不可能であるので、音素モデルを基本単位として用
いる(Y.H. KaoおよびK. Kondo,“phonetic Medeling
Using Acoustic Decision Tree”,TI Tech Report, 19
97と、Y.H. Kao,“Acoustic Decision Tree: A Tutori
al”,TI Tech Report, 1997と、Y.H. Kao,“Acoustic
Decision Tree: Performance Analysis”,TI Tech Re
port,1997とを参照)。
システムの検索空間を記述する(Y.H. Kao,W. Anderso
nおよびH.S. Lim,“A Multi-Lingual, Speaker-Indepe
ndent, Continuous-Speech Recognizer on TMS320C5x F
ixed Point DSP”,ICSPAT 1997,San Diego,USAと、
Y.H. Kao,“Fixed-Point Implementation of IG Speec
h Recognizer on C5x DSP”,TI Tech Report,1996と
を参照)。上位レベルの文章文法から下位レベルの音響
まで、認識アルゴリズム(パーザ)は、入力音響ベクト
ル(input acoustic vector)をこの検索空間全体に張
り巡らせて(run)、検索ネットワークを構築すること
によって最良の経路を探し出す。入力ベクトルの終端に
おいて見つけられた最良の経路が、認識結果となる。文
法は、文脈任意文法(context-free-grammar)(少量語
彙タスク用)またはNグラム(N-Gram)(大量語彙タス
ク用)によって表すことができる。大量語彙システムで
は、通常、二レベル・システム(文章,単語)ではな
く、三レベル・システム(文章,単語,音)が用いられ
る。大量の単語について個々の単語モデルを構築するこ
とは不可能であるので、音素モデルを基本単位として用
いる(Y.H. KaoおよびK. Kondo,“phonetic Medeling
Using Acoustic Decision Tree”,TI Tech Report, 19
97と、Y.H. Kao,“Acoustic Decision Tree: A Tutori
al”,TI Tech Report, 1997と、Y.H. Kao,“Acoustic
Decision Tree: Performance Analysis”,TI Tech Re
port,1997とを参照)。
【0014】検索は、文法において可能な全ての経路に
展開(expand)していく(図3参照)。音声フレーム
(speech frame)が入力されると、最初に、文章HMM
において可能な全ての単語に展開する。各単語を展開す
るには、語彙HMMにおいてその個々の音の連続に展開
する必要がある。各音を展開するには、その音素HMM
を展開する必要がある。これは、観測結果(observatio
ns)として音響を有する。構造的に、HMMには3つの
レベルがある。上位レベルの遷移は、1つよりも多い音
声フレームを要する場合があり、下位レベルの遷移のみ
が正確に1つの音声フレームを用いる。音声フレーム
は、例えば、長さが20ミリ秒である。上位レベルの遷
移は、その対応する観察が完了した後に始めて行うこと
ができる(完了には数音声フレームを費やす場合もあ
る)。
展開(expand)していく(図3参照)。音声フレーム
(speech frame)が入力されると、最初に、文章HMM
において可能な全ての単語に展開する。各単語を展開す
るには、語彙HMMにおいてその個々の音の連続に展開
する必要がある。各音を展開するには、その音素HMM
を展開する必要がある。これは、観測結果(observatio
ns)として音響を有する。構造的に、HMMには3つの
レベルがある。上位レベルの遷移は、1つよりも多い音
声フレームを要する場合があり、下位レベルの遷移のみ
が正確に1つの音声フレームを用いる。音声フレーム
は、例えば、長さが20ミリ秒である。上位レベルの遷
移は、その対応する観察が完了した後に始めて行うこと
ができる(完了には数音声フレームを費やす場合もあ
る)。
【0015】音声認識は、文法−単語検索空間定義に従
って検索ネットワークを展開する。コンピュータ・デー
タ構造を実際に定義してアルゴリズムを実施する方法
は、多数ある。ここでは、一例として、我々のアルゴリ
ズムを用い、ネットワークを最小化する方法を説明す
る。検索ネットワークの構築ブロックとして「スロッ
ト」と呼ばれる構造を定義する。C構造を用いると、こ
れは次のように定義される。
って検索ネットワークを展開する。コンピュータ・デー
タ構造を実際に定義してアルゴリズムを実施する方法
は、多数ある。ここでは、一例として、我々のアルゴリ
ズムを用い、ネットワークを最小化する方法を説明す
る。検索ネットワークの構築ブロックとして「スロッ
ト」と呼ばれる構造を定義する。C構造を用いると、こ
れは次のように定義される。
【0016】
【表2】
【0017】model_indexは、このスロットが関係する
モデルが何であるかを表す整数である。例えば、検索空
間全体を1つの文章モデルで表現し、model_index 0を
文章モデルに割り当てる。この文章モデルは、多くの単
語から成り、これらの単語をどのように組み合わせるこ
とができるかについて、単語モデル毎に、model_index
1, 2, 3, ...等を割り当てる。Model_indexは重複す
ることができず、各インデックスは異なるモデル(文章
または単語)を表す。
モデルが何であるかを表す整数である。例えば、検索空
間全体を1つの文章モデルで表現し、model_index 0を
文章モデルに割り当てる。この文章モデルは、多くの単
語から成り、これらの単語をどのように組み合わせるこ
とができるかについて、単語モデル毎に、model_index
1, 2, 3, ...等を割り当てる。Model_indexは重複す
ることができず、各インデックスは異なるモデル(文章
または単語)を表す。
【0018】state_indexは、このスロットが置かれて
いる状態(モデルにおける状態。例えば、文章または単
語)は何であるかを表す整数である。文章モデルおよび
単語モデル双方がHMMであるので、状態毎にこれらを
評価する。検索ネットワークを構築する場合、次に遷移
する状態(複数の状態)がどれになるかを知るために、
どの状態にあるのかについて知る必要がある。各モデル
内において、state_indexは、1,2,3,...等か
ら開始する。モデル1における状態1は、モデル2にお
ける状態1とは異なる。
いる状態(モデルにおける状態。例えば、文章または単
語)は何であるかを表す整数である。文章モデルおよび
単語モデル双方がHMMであるので、状態毎にこれらを
評価する。検索ネットワークを構築する場合、次に遷移
する状態(複数の状態)がどれになるかを知るために、
どの状態にあるのかについて知る必要がある。各モデル
内において、state_indexは、1,2,3,...等か
ら開始する。モデル1における状態1は、モデル2にお
ける状態1とは異なる。
【0019】scoreは、この経路のこのスロットまでの
蓄積スコアである。backptrは、経路内の直前のスロッ
トを再度指し示すポインタである。例えば、状態10が
状態9(直進遷移)または状態8(飛ばし遷移)または
状態10(自己ループ遷移)から遷移することができる
場合、ある状態に至る最良の経路のみを保持するビタビ
復号の後、状態10スロットのbackptrは、前述の3つ
のスロットのうちの1つを指し示す。
蓄積スコアである。backptrは、経路内の直前のスロッ
トを再度指し示すポインタである。例えば、状態10が
状態9(直進遷移)または状態8(飛ばし遷移)または
状態10(自己ループ遷移)から遷移することができる
場合、ある状態に至る最良の経路のみを保持するビタビ
復号の後、状態10スロットのbackptrは、前述の3つ
のスロットのうちの1つを指し示す。
【0020】timeは、このスロットを最初に作成したと
きの時間インデックスである。例えば、20msのフレ
ーム長を用いる。入力音声を20msフレームに区分
し、前処理して特徴ベクトルを抽出し、次いで、検索ア
ルゴリズムに供給する。最初のフレーム(0〜20m
s)の検索の間、timeは1であり、2番目のフレーム
(20〜40ms)の検索の間、timeは2であり、以降
このように進んでいく。
きの時間インデックスである。例えば、20msのフレ
ーム長を用いる。入力音声を20msフレームに区分
し、前処理して特徴ベクトルを抽出し、次いで、検索ア
ルゴリズムに供給する。最初のフレーム(0〜20m
s)の検索の間、timeは1であり、2番目のフレーム
(20〜40ms)の検索の間、timeは2であり、以降
このように進んでいく。
【0021】last_timeは、この経路を更新した最後の
時刻である。このタイム・スタンプは、スロット管理
(ガベージ・コレクション)のために必要となる。検索
ネットワークの展開には、指数関数的拡大問題があり、
スコアの悪い経路を刈り込んで検索ネットワークのサイ
ズを縮小しなければならない。経路が良好なスコアを有
し、今後の展開のために保持すべき場合には、現在のタ
イム・スタンプを逆方向に経路全体を通じて伝搬させる
(経路とは、スロットを逆方向にリンクしたリストであ
る)。スロットのlast_timeが現時点である場合には、
これを保持しておかなければならず、再使用することは
できない。それ以外の場合には、これは再使用可能であ
る。何故なら、その経路は検索桁(search beam)の範
囲内になく、したがって、last_timeは更新されていな
いからである。
時刻である。このタイム・スタンプは、スロット管理
(ガベージ・コレクション)のために必要となる。検索
ネットワークの展開には、指数関数的拡大問題があり、
スコアの悪い経路を刈り込んで検索ネットワークのサイ
ズを縮小しなければならない。経路が良好なスコアを有
し、今後の展開のために保持すべき場合には、現在のタ
イム・スタンプを逆方向に経路全体を通じて伝搬させる
(経路とは、スロットを逆方向にリンクしたリストであ
る)。スロットのlast_timeが現時点である場合には、
これを保持しておかなければならず、再使用することは
できない。それ以外の場合には、これは再使用可能であ
る。何故なら、その経路は検索桁(search beam)の範
囲内になく、したがって、last_timeは更新されていな
いからである。
【0022】next_stateは、この評価対象モデル内の
アクティブ状態の次のスロットを指し示す。あるモデル
を評価する場合、多くの状態がアクティブである可能性
があり、それらを評価しなければならない。これらは、
next_stageによって互いにリンクされている。
アクティブ状態の次のスロットを指し示す。あるモデル
を評価する場合、多くの状態がアクティブである可能性
があり、それらを評価しなければならない。これらは、
next_stageによって互いにリンクされている。
【0023】next_wordは、評価対象のこの文章状態に
対するアクティブな単語の次のスロットを指し示す。文
章モデルを評価する場合、アクティブ状態のそのスロッ
トはnext_stateによってリンクされる。しかし、各状
態毎に、未だ評価している最中の単語がある(完了する
ためには、単語は1つより多いフレームを必要とす
る。)。next_wordは、これら保留中の単語の評価スロ
ットを全てリンクする。Next_wordは、文章レベルのス
ロットから開始する。
対するアクティブな単語の次のスロットを指し示す。文
章モデルを評価する場合、アクティブ状態のそのスロッ
トはnext_stateによってリンクされる。しかし、各状
態毎に、未だ評価している最中の単語がある(完了する
ためには、単語は1つより多いフレームを必要とす
る。)。next_wordは、これら保留中の単語の評価スロ
ットを全てリンクする。Next_wordは、文章レベルのス
ロットから開始する。
【0024】検索は、音声認識アルゴリズムの最も複雑
な部分である。アルゴリズムを学習する最良の方法は、
Cコードを辿っていくことである。注釈を十分に付けた
本出願人のCコードおよび付随する文書を参照されたい
(Y.H. Kao,“IG (Integrated Grammar) Algorith
m”,TI Tech Report,1996参照)。
な部分である。アルゴリズムを学習する最良の方法は、
Cコードを辿っていくことである。注釈を十分に付けた
本出願人のCコードおよび付随する文書を参照されたい
(Y.H. Kao,“IG (Integrated Grammar) Algorith
m”,TI Tech Report,1996参照)。
【0025】図4は、文章文法“Call George Washingt
on”に対する検索空間の一例を示す。文法のレイヤは、
文章,単語,音および音響分布(最下層)であり、小さ
な丸で表されている。展開は、単語“call”から音“|
K|”に進み、“|K|”の音響に対する最上位の3つの
丸41〜43となる。次いで、展開は、2番目の音“|a
o|”に進み、5つの丸44に進み、次に、音“|l|”に
戻る。次に、展開は、小さな丸45によって表される
“|l|”の音響に進む。最後の丸45の後、展開は単語
“George”に進み、更に音“|jh|”に至る。更
に、展開は、3つの音響47、次に音“|ao|”、次に
5つの音響49に続く。最後の音響49の後に、検索は
音“|r|”に進み、次いで4つの音響、次いで音“|j
h|”、次いで3つの音響53に進む。最後の音響53
に続いて、単語“Washington”に移り、音
“|w|”に至る。これに続いて、3つの音響55に進
む。音響55の後に、音“|ao|”が続き、その後に5
つの音響57が続き、更に音“|sh|”が続く。音“|
sh|”の後に、4つの音響59が続き、その後に音“|
ax|”およびその3つの音響61が続く。同様に、展
開は、音“|n|”,“|t|”,“|ax|”および“|n
|”と続き、それらに関連する3つの音響が後に続く。
on”に対する検索空間の一例を示す。文法のレイヤは、
文章,単語,音および音響分布(最下層)であり、小さ
な丸で表されている。展開は、単語“call”から音“|
K|”に進み、“|K|”の音響に対する最上位の3つの
丸41〜43となる。次いで、展開は、2番目の音“|a
o|”に進み、5つの丸44に進み、次に、音“|l|”に
戻る。次に、展開は、小さな丸45によって表される
“|l|”の音響に進む。最後の丸45の後、展開は単語
“George”に進み、更に音“|jh|”に至る。更
に、展開は、3つの音響47、次に音“|ao|”、次に
5つの音響49に続く。最後の音響49の後に、検索は
音“|r|”に進み、次いで4つの音響、次いで音“|j
h|”、次いで3つの音響53に進む。最後の音響53
に続いて、単語“Washington”に移り、音
“|w|”に至る。これに続いて、3つの音響55に進
む。音響55の後に、音“|ao|”が続き、その後に5
つの音響57が続き、更に音“|sh|”が続く。音“|
sh|”の後に、4つの音響59が続き、その後に音“|
ax|”およびその3つの音響61が続く。同様に、展
開は、音“|n|”,“|t|”,“|ax|”および“|n
|”と続き、それらに関連する3つの音響が後に続く。
【0026】説明を続けるために、上位レベルにおける
検索の概念について説明したのち、N最良検索プロセス
について説明する。検索ネットワークの構築ブロックと
してスロット・データ構造を定義したのちに、直接に検
索ネットワーク展開を行う。これは、以下のように要約
することができる。
検索の概念について説明したのち、N最良検索プロセス
について説明する。検索ネットワークの構築ブロックと
してスロット・データ構造を定義したのちに、直接に検
索ネットワーク展開を行う。これは、以下のように要約
することができる。
【0027】以下のようにして文章を始めることができ
る全ての文章状態についてスロットを構築する。 For (各入力音響ベクトル){ For (各文章状態スロット){ その出立遷移に関連する全ての単語を見つけ出し、 単語開始スロットを構築し、評価中の単語スロットを維持する。 For (各単語状態スロット){ 次の状態に遷移し、音響ベクトルを評価する If (単語の終端に達した){ 次の状態遷移のために、情報を文章レベルに渡す } } } } 最良のスコアを有する経路を逆に辿り、認識結果を報告する。
る全ての文章状態についてスロットを構築する。 For (各入力音響ベクトル){ For (各文章状態スロット){ その出立遷移に関連する全ての単語を見つけ出し、 単語開始スロットを構築し、評価中の単語スロットを維持する。 For (各単語状態スロット){ 次の状態に遷移し、音響ベクトルを評価する If (単語の終端に達した){ 次の状態遷移のために、情報を文章レベルに渡す } } } } 最良のスコアを有する経路を逆に辿り、認識結果を報告する。
【0028】各入力音響ベクトル(20ms)に対し
て、例えば、図4に示すように検索空間を下方に移動し
て、音響評価ができるように最下層に達する。音響スコ
アおよび遷移スコアを蓄積し、スロットのスコア・フィ
ールドに格納する(図1の記憶装置10cに入力す
る)。backptrフィールドは、(このスロットに来る)
直前のスロットを指し示す。したがって、各入力音響ベ
クトルに対して、音響評価を1回行わなければならない
ので、評価は少なくとも1つのスロットを検索経路に追
加する。音響評価スロットの追加が可能となる前に文章
レベルのスロットを追加しなければならない場合がある
ので、1つよりも多いスロットを経路に追加しなければ
ならない場合もある。
て、例えば、図4に示すように検索空間を下方に移動し
て、音響評価ができるように最下層に達する。音響スコ
アおよび遷移スコアを蓄積し、スロットのスコア・フィ
ールドに格納する(図1の記憶装置10cに入力す
る)。backptrフィールドは、(このスロットに来る)
直前のスロットを指し示す。したがって、各入力音響ベ
クトルに対して、音響評価を1回行わなければならない
ので、評価は少なくとも1つのスロットを検索経路に追
加する。音響評価スロットの追加が可能となる前に文章
レベルのスロットを追加しなければならない場合がある
ので、1つよりも多いスロットを経路に追加しなければ
ならない場合もある。
【0029】これは、「トレース・モード」と呼ばれ、
各入力音響ベクトルを、モデル音響ベクトルにマップ
し、検索経路内に記録する。これは、スロットの非常に
長いリンク・リストが作成されるので、非常に非経済的
である。例えば、5秒の入力発声は、5×50=250
個の入力ベクトルを有する。検索桁幅以内で可能なあら
ゆる理論について、250スロットを越えるリンク・リ
ストを作成しなければならない。
各入力音響ベクトルを、モデル音響ベクトルにマップ
し、検索経路内に記録する。これは、スロットの非常に
長いリンク・リストが作成されるので、非常に非経済的
である。例えば、5秒の入力発声は、5×50=250
個の入力ベクトルを有する。検索桁幅以内で可能なあら
ゆる理論について、250スロットを越えるリンク・リ
ストを作成しなければならない。
【0030】訓練の目的のために、これは必要である。
何故なら、そのモデル・ベクトルを更新するためには全
ての入力ベクトルをモデル・ベクトルにマップしなけれ
ばならないからである。しかし、認識の目的のために
は、どの単語を認識するのかを知りたいだけであるの
で、これは過剰である。各ベクトルをどのようにマップ
するかというような顕微鏡的追跡を知る必要はない。
何故なら、そのモデル・ベクトルを更新するためには全
ての入力ベクトルをモデル・ベクトルにマップしなけれ
ばならないからである。しかし、認識の目的のために
は、どの単語を認識するのかを知りたいだけであるの
で、これは過剰である。各ベクトルをどのようにマップ
するかというような顕微鏡的追跡を知る必要はない。
【0031】分離単語認識のために、動的時間ワーピン
グ(DTW:Dynamic Time Warping)型のアルゴリズム
を用いる。N最良は、実際には、ありふれたものであ
る。各単語(または、いずれの単位にしても)は独立し
て評価されるので、刈り込まれていない全ての単語につ
いてスコアを得ることができる。N最良は、これらのス
コアをソートするのと同様に簡単である。
グ(DTW:Dynamic Time Warping)型のアルゴリズム
を用いる。N最良は、実際には、ありふれたものであ
る。各単語(または、いずれの単位にしても)は独立し
て評価されるので、刈り込まれていない全ての単語につ
いてスコアを得ることができる。N最良は、これらのス
コアをソートするのと同様に簡単である。
【0032】比較的少数の出力組合せによる連続音声認
識についても、N最良はありふれたものである。例え
ば、会社名の認識では、各名称は数個の単語で構成され
ており、出力組合せの数(会社の数)には限度がある。
これらの会社名は、別個の検索経路で評価することがで
き、最後にスコアを比較してN最良結果を出力すること
ができる。これは、DTWにおいてN最良が行われる場
合と酷似している。
識についても、N最良はありふれたものである。例え
ば、会社名の認識では、各名称は数個の単語で構成され
ており、出力組合せの数(会社の数)には限度がある。
これらの会社名は、別個の検索経路で評価することがで
き、最後にスコアを比較してN最良結果を出力すること
ができる。これは、DTWにおいてN最良が行われる場
合と酷似している。
【0033】N最良が問題となるのは、10桁の認識の
ような、結合的に展開する連続音声認識の場合である。
10桁の連続音声認識タスクでは、可能な出力ストリン
グは1010=100億個にもなる。これら100億個も
の検索経路を別個に評価することは、余りに多過ぎて不
可能である。この問題を経済的に解決するには、準最適
経路を保持するために、検索プロセスにおいて何らかの
処置を講ずる必要がある。
ような、結合的に展開する連続音声認識の場合である。
10桁の連続音声認識タスクでは、可能な出力ストリン
グは1010=100億個にもなる。これら100億個も
の検索経路を別個に評価することは、余りに多過ぎて不
可能である。この問題を経済的に解決するには、準最適
経路を保持するために、検索プロセスにおいて何らかの
処置を講ずる必要がある。
【0034】本発明によれば、図5のフロー・チャート
に示すように、アクティブな経路を全て展開し(ステッ
プ101)、ステップ103において、スロットを計算
し、比較し、得点を付ける。次に、これが文章レベル状
態か否かについて判定を行い(ステップ105)、そう
でない場合には、ビタビ復号および刈り込みを行う(ス
テップ106)。文章レベル状態である場合には、最良
の準最適経路を保持し(ステップ107)、発声の後に
最良の経路を選択する(ステップ109)。
に示すように、アクティブな経路を全て展開し(ステッ
プ101)、ステップ103において、スロットを計算
し、比較し、得点を付ける。次に、これが文章レベル状
態か否かについて判定を行い(ステップ105)、そう
でない場合には、ビタビ復号および刈り込みを行う(ス
テップ106)。文章レベル状態である場合には、最良
の準最適経路を保持し(ステップ107)、発声の後に
最良の経路を選択する(ステップ109)。
【0035】音声認識における検索は指数関数的増大と
いう問題があるので、その巨大なサイズを制御するため
に、次の2つの方法を用いる。即ち、ビタビ復号と刈り
込みである。刈り込みは、検索桁の外側にあるスコアを
有する経路を破棄する。刈り込まれる経路は最終的に最
上位の競合となる可能性は低いので、これはN最良の目
的には適している。一方、ビタビ復号は、最終的に最良
の経路を見い出すことにのみ関心があるので、ある状態
に入る最良の経路のみを保持する。N最良出力では、ビ
タビ復号は適していない。何故なら、関心があるのは最
良の経路ではなく、二番目に最良の経路、三番目に最良
の経路などであるためである。
いう問題があるので、その巨大なサイズを制御するため
に、次の2つの方法を用いる。即ち、ビタビ復号と刈り
込みである。刈り込みは、検索桁の外側にあるスコアを
有する経路を破棄する。刈り込まれる経路は最終的に最
上位の競合となる可能性は低いので、これはN最良の目
的には適している。一方、ビタビ復号は、最終的に最良
の経路を見い出すことにのみ関心があるので、ある状態
に入る最良の経路のみを保持する。N最良出力では、ビ
タビ復号は適していない。何故なら、関心があるのは最
良の経路ではなく、二番目に最良の経路、三番目に最良
の経路などであるためである。
【0036】ビタビ復号は、検索ネットワークサイズの
縮小における主要な観念である。例えば、ある状態に入
る2つの経路があると仮定する。これらの経路の今後の
展開はこの状態のみに依存するので、将来の展開につい
ては、スコアが最良の入来経路のみを維持すればよいと
いうのが、ビタビ復号の言おうとするところである。今
後の展開は、これら2つの入来経路については同一であ
るので、それに対して展開を継続しても、低いスコアの
経路は常に同じ損失マージン(losing margin)を維持
することになる。したがって、この場合の目的は最良の
スコアの経路を獲得することであるので、ある状態に対
して最良のスコアの入来経路のみを展開すればよい。
縮小における主要な観念である。例えば、ある状態に入
る2つの経路があると仮定する。これらの経路の今後の
展開はこの状態のみに依存するので、将来の展開につい
ては、スコアが最良の入来経路のみを維持すればよいと
いうのが、ビタビ復号の言おうとするところである。今
後の展開は、これら2つの入来経路については同一であ
るので、それに対して展開を継続しても、低いスコアの
経路は常に同じ損失マージン(losing margin)を維持
することになる。したがって、この場合の目的は最良の
スコアの経路を獲得することであるので、ある状態に対
して最良のスコアの入来経路のみを展開すればよい。
【0037】ビタビ復号は、最良経路の検索における単
純でしかも非常に強力な観念である。1秒の発声(50
フレーム×20ms)を処理するために、1つの状態に
平均して3本の経路が入来すると仮定すると、ビタビ復
号は、経路の数を350から1に削減する。これは莫大な
削減であり、これなくしては行うことができない。
純でしかも非常に強力な観念である。1秒の発声(50
フレーム×20ms)を処理するために、1つの状態に
平均して3本の経路が入来すると仮定すると、ビタビ復
号は、経路の数を350から1に削減する。これは莫大な
削減であり、これなくしては行うことができない。
【0038】しかしながら、N最良出力では、準最適経
路を維持する必要がある。しかし、全ての状態について
これを行うことは、最低1つの準最適経路を維持するだ
けでも、1秒の発声に対して250本の経路を意味する。
これは、確かに天文学的な命題(proposition)のよう
に聞こえる。
路を維持する必要がある。しかし、全ての状態について
これを行うことは、最低1つの準最適経路を維持するだ
けでも、1秒の発声に対して250本の経路を意味する。
これは、確かに天文学的な命題(proposition)のよう
に聞こえる。
【0039】幸い、殆どの状態については、多数の経路
を維持する必要はない。殆どの状態では、同様にビタビ
復号を行い、非常に少数の出力分化状態(output diffe
rentiation states)についてのみビタビ復号を適用せ
ず、図5において破線で示すように多数の経路を保持す
る。
を維持する必要はない。殆どの状態では、同様にビタビ
復号を行い、非常に少数の出力分化状態(output diffe
rentiation states)についてのみビタビ復号を適用せ
ず、図5において破線で示すように多数の経路を保持す
る。
【0040】本認識システムでは、出力分化状態は、文
章レベル状態を意味する。文章レベル状態においての
み、異なる経路から異なる出力が得られる結果となる。
単語レベル状態では、異なる経路は音響の異なる時間整
合(time alignment)を意味し、モデル内において音響
がどのように整合されても未だ同じ単語である。ここで
関心があるのは、N最良時間整合ではなく、N最良出力
である。したがって、単語レベル状態については準最適
経路を維持しなくてもよい。何故なら、これら準最適経
路の全ては同じ単語を表すからである。
章レベル状態を意味する。文章レベル状態においての
み、異なる経路から異なる出力が得られる結果となる。
単語レベル状態では、異なる経路は音響の異なる時間整
合(time alignment)を意味し、モデル内において音響
がどのように整合されても未だ同じ単語である。ここで
関心があるのは、N最良時間整合ではなく、N最良出力
である。したがって、単語レベル状態については準最適
経路を維持しなくてもよい。何故なら、これら準最適経
路の全ては同じ単語を表すからである。
【0041】一方、文章レベル状態では、各経路(遷
移)は、異なる単語を表す。これこそが、正に、準最適
経路を維持したい部分である。非ビタビ(準最適経路を
維持する)復号は、文章レベル状態でのみ行うことを確
定した(ステップ107)。単語レベル状態では、ビタ
ビ復号が未だ行われる(ステップ106)。幸いなこと
に、検索において遭遇する状態の殆どは単語レベル状態
である。例えば、単一単語認識タスクでは、入力発声が
0.5秒の無音+0.5秒の単語+0.3秒の無音から
成ると仮定する。合計で、1.3秒/20ms=65フ
レームがある。いずれの経路についても65より多い状
態評価の内(65の状態が、音響に何らかの文章レベル
状態を加えたものにマップする。)、2つのみが非ビタ
ビである。何故なら、文章レベル状態は2つしかないか
らである。他の65程の状態評価は、ビタビのままであ
る。非ビタビ状態の割合が小さいので、検索の複雑性の
増大は非常に少ない。
移)は、異なる単語を表す。これこそが、正に、準最適
経路を維持したい部分である。非ビタビ(準最適経路を
維持する)復号は、文章レベル状態でのみ行うことを確
定した(ステップ107)。単語レベル状態では、ビタ
ビ復号が未だ行われる(ステップ106)。幸いなこと
に、検索において遭遇する状態の殆どは単語レベル状態
である。例えば、単一単語認識タスクでは、入力発声が
0.5秒の無音+0.5秒の単語+0.3秒の無音から
成ると仮定する。合計で、1.3秒/20ms=65フ
レームがある。いずれの経路についても65より多い状
態評価の内(65の状態が、音響に何らかの文章レベル
状態を加えたものにマップする。)、2つのみが非ビタ
ビである。何故なら、文章レベル状態は2つしかないか
らである。他の65程の状態評価は、ビタビのままであ
る。非ビタビ状態の割合が小さいので、検索の複雑性の
増大は非常に少ない。
【0042】文章レベル状態において準最適経路を保持
するために、ステップ103に示すように、1つのスロ
ット・ポインタをスロット・データ構造に追加する。
するために、ステップ103に示すように、1つのスロ
ット・ポインタをスロット・データ構造に追加する。
【0043】
【表3】
【0044】ある文章レベル状態で入来経路が併合する
場合、最良の経路だけを維持するのではなく、next_nb
estによってリンクされる準最適経路も維持する。これ
ら準最適経路をnext_nbestポインタによってリンクす
ることによってこれらを維持したのち、ネットワークの
順方向展開は同じまま留まる。スコアは、最良の経路に
のみ蓄積される。ある状態に対する最良の経路と全ての
準最適経路との間のスコアの差は、一定のまま留まり、
準最適経路を別個に展開する必要はない。発声の終了時
に、最良経路に加えて、準最適経路も逆方向に辿ること
ができる。これらがN最良出力となる。
場合、最良の経路だけを維持するのではなく、next_nb
estによってリンクされる準最適経路も維持する。これ
ら準最適経路をnext_nbestポインタによってリンクす
ることによってこれらを維持したのち、ネットワークの
順方向展開は同じまま留まる。スコアは、最良の経路に
のみ蓄積される。ある状態に対する最良の経路と全ての
準最適経路との間のスコアの差は、一定のまま留まり、
準最適経路を別個に展開する必要はない。発声の終了時
に、最良経路に加えて、準最適経路も逆方向に辿ること
ができる。これらがN最良出力となる。
【0045】文章レベル状態に入来する全ての経路が、
維持に値する訳ではない。経路によっては、無音だけが
異なる経路や、出力が既存のものと同じ経路があり、こ
れらについては、1つの最良スコアの経路のみを維持す
る。準最適経路は前進的に展開する必要はないが、フレ
ーム毎に逆方向に辿り、再使用や破壊を防止する必要は
ある。
維持に値する訳ではない。経路によっては、無音だけが
異なる経路や、出力が既存のものと同じ経路があり、こ
れらについては、1つの最良スコアの経路のみを維持す
る。準最適経路は前進的に展開する必要はないが、フレ
ーム毎に逆方向に辿り、再使用や破壊を防止する必要は
ある。
【0046】2つのタスク、即ち、単一単語軍用アルフ
ァベット認識(single word military alphabet recogni
tion)(7087ファイル)および10連続桁認識(10 c
ontinuous digits recognition)(1390ファイル)
に関して、ピーク・スロットの使用量を較正した。 これら2つのタスクに、2つの条件を適用した。 ・最適に最小化した1つの最良検索ネットワーク。 ・本明細書に記載するN最良検索。
ァベット認識(single word military alphabet recogni
tion)(7087ファイル)および10連続桁認識(10 c
ontinuous digits recognition)(1390ファイル)
に関して、ピーク・スロットの使用量を較正した。 これら2つのタスクに、2つの条件を適用した。 ・最適に最小化した1つの最良検索ネットワーク。 ・本明細書に記載するN最良検索。
【0047】ピーク・スロット使用量ヒストグラムを図
6に記す。このグラフでは、これらは○および+でそれ
ぞれ表されている。X軸はピーク・スロット数であり、
Y軸はよい結果が得られる解析を行うために最小のX軸
スロットを必要とする発声の数である。分布が左側に行
く程、検索の効率は高くなる。
6に記す。このグラフでは、これらは○および+でそれ
ぞれ表されている。X軸はピーク・スロット数であり、
Y軸はよい結果が得られる解析を行うために最小のX軸
スロットを必要とする発声の数である。分布が左側に行
く程、検索の効率は高くなる。
【0048】単一単語軍用アルファベット認識タスクで
は、ピーク・スロット使用量の最大,平均および標準偏
差は、次の通りである。
は、ピーク・スロット使用量の最大,平均および標準偏
差は、次の通りである。
【表4】
【0049】10連続桁認識タスクでは、ピーク・スロ
ット使用量の最大,平均および標準偏差は、次の通りで
ある。
ット使用量の最大,平均および標準偏差は、次の通りで
ある。
【表5】
【0050】N最良検索ネットワークは、10桁認識タ
スクに対する単一最良最小化ネットワークに比較する
と、ピーク・スロット使用量が10パーセント未満増加
している。単一単語軍用アルファベット認識タスクで
は、ピーク・スロット使用量は全く増加していない。
スクに対する単一最良最小化ネットワークに比較する
と、ピーク・スロット使用量が10パーセント未満増加
している。単一単語軍用アルファベット認識タスクで
は、ピーク・スロット使用量は全く増加していない。
【0051】図7のヒストグラムのグラフから、N最良
軍用アルファベット・タスクには、500スロット(即
ち、500×6=3KワードのRAM)が必要となる。
また、N最良10桁ストリング・タスクには、1500
スロット(即ち、1500×6=9KワードのRAM)
が必要となる。基本的に、ピーク・スロット使用量は同
じままであるが、スロット・サイズは5フィールドから
6フィールドに増加する。
軍用アルファベット・タスクには、500スロット(即
ち、500×6=3KワードのRAM)が必要となる。
また、N最良10桁ストリング・タスクには、1500
スロット(即ち、1500×6=9KワードのRAM)
が必要となる。基本的に、ピーク・スロット使用量は同
じままであるが、スロット・サイズは5フィールドから
6フィールドに増加する。
【0052】N最良DSP上での実施はこれを書く時点
では完了していなかったので、時間はSUN Ultra Sparc
上で較正した。単一単語軍用アルファベット認識タスク
では、リアル・タイム・ファクタは次の通りである。
では完了していなかったので、時間はSUN Ultra Sparc
上で較正した。単一単語軍用アルファベット認識タスク
では、リアル・タイム・ファクタは次の通りである。
【表6】
【0053】10連続桁ストリング認識タスクでは、リ
アル・タイム・ファクタは次の通りである。
アル・タイム・ファクタは次の通りである。
【表7】
【0054】軍用アルファベット・タスクの増加は、
1.5倍である。10桁タスクの増加は、2.11倍で
ある。これは、準最適経路全てを逆方向に辿る必要があ
るためである。
1.5倍である。10桁タスクの増加は、2.11倍で
ある。これは、準最適経路全てを逆方向に辿る必要があ
るためである。
【0055】N最良出力を、スコアに従って順番に並べ
る。全てのスコアは負である(負の対数確率を蓄積した
ため)。スコアは正の側に近い程よい。最良の経路に対
する全ての準最適経路のスコアの差も印刷する。正しい
認識のために、全ての共通な混同対(confusion pai
r)、即ち、4−1,5−9,0−oh,8−3,1−
oh,oh−4を見ることができる。
る。全てのスコアは負である(負の対数確率を蓄積した
ため)。スコアは正の側に近い程よい。最良の経路に対
する全ての準最適経路のスコアの差も印刷する。正しい
認識のために、全ての共通な混同対(confusion pai
r)、即ち、4−1,5−9,0−oh,8−3,1−
oh,oh−4を見ることができる。
【表8】
【0056】不正確な認識では、正しい答えの確率がN
最良リストの中にある。
最良リストの中にある。
【表9】
【0057】N最良出力の用途は数多くある。例えば、 ・ダイアログ・システム。双方向処理を行うために音声
認識システムの出力をダイアログ・システムに渡す。音
声認識システムにおいて起こり得るエラーのために、N
最良は、1群の可能性の高い認識結果を与え、次いで、
ダイアログ・システムが、長距離意味論(long distanc
e semantics)を分析することによって、混乱を解決す
ることができる。
認識システムの出力をダイアログ・システムに渡す。音
声認識システムにおいて起こり得るエラーのために、N
最良は、1群の可能性の高い認識結果を与え、次いで、
ダイアログ・システムが、長距離意味論(long distanc
e semantics)を分析することによって、混乱を解決す
ることができる。
【0058】・拒絶。最良の経路と2番目に最良の経路
との間のスコアの差を、確信度の尺度として用いること
ができる。ウイニング・マージン(winning margin)が
大きい程、認識の信頼性が高いことを意味する。一方、
ウイニング・マージンが小さい場合、これらは、恐らく
混乱する可能性があるので、拒絶すべきことを意味す
る。
との間のスコアの差を、確信度の尺度として用いること
ができる。ウイニング・マージン(winning margin)が
大きい程、認識の信頼性が高いことを意味する。一方、
ウイニング・マージンが小さい場合、これらは、恐らく
混乱する可能性があるので、拒絶すべきことを意味す
る。
【0059】・マルチパス高速検索。粗いモデル(より
小さく、したがって、評価が速い。例えば、単一音)を
用いて、N最適格子部分空間を迅速に発生する。次に、
より詳細なモデル(より大きく精度が高い。例えば、文
脈依存音)を用いて、この大幅に縮小した部分空間を検
索する。これは、分割および征服(divide-and-conque
r)戦略である。複雑な問題は、それを小さな問題に分
割することによって解くことができる。N最良は、かか
るマルチ・ステップ・プロセスに許容範囲(latitude)
を与える。
小さく、したがって、評価が速い。例えば、単一音)を
用いて、N最適格子部分空間を迅速に発生する。次に、
より詳細なモデル(より大きく精度が高い。例えば、文
脈依存音)を用いて、この大幅に縮小した部分空間を検
索する。これは、分割および征服(divide-and-conque
r)戦略である。複雑な問題は、それを小さな問題に分
割することによって解くことができる。N最良は、かか
るマルチ・ステップ・プロセスに許容範囲(latitude)
を与える。
【0060】N最良は、多くの目的を対象とする手段で
ある。これは、単に多数の答えを出力するだけではな
い。
ある。これは、単に多数の答えを出力するだけではな
い。
【0061】以上の説明に関して更に以下の項を開示す
る。 (1)N最良音声認識検索を実行する方法であって、非
出力分化状態のビタビ刈り込みを行って最良の経路を維
持するステップと、異なる経路から異なる出力が得られ
る出力分化状態に対するN最良準最適経路を維持するス
テップと、を含む方法。 (2)非出力分化状態が単語レベル状態である、第1項
記載の方法。 (3)前記出力分化状態が文章レベル状態である、第1
項記載の方法。
る。 (1)N最良音声認識検索を実行する方法であって、非
出力分化状態のビタビ刈り込みを行って最良の経路を維
持するステップと、異なる経路から異なる出力が得られ
る出力分化状態に対するN最良準最適経路を維持するス
テップと、を含む方法。 (2)非出力分化状態が単語レベル状態である、第1項
記載の方法。 (3)前記出力分化状態が文章レベル状態である、第1
項記載の方法。
【0062】(4)連続音声認識用N最良検索方法は、
単語レベル状態のビタビ刈り込みを行うステップ(10
6)と、文章レベル状態に対してN最良準最適経路を維
持するステップ(107)とを含む。
単語レベル状態のビタビ刈り込みを行うステップ(10
6)と、文章レベル状態に対してN最良準最適経路を維
持するステップ(107)とを含む。
【図1】本発明の一実施形態によるシステムのブロック
図である。
図である。
【図2】状態および遷移を示す図である。
【図3】経路展開スロットおよび以前のスロットに戻る
ポインタを示す図である。
ポインタを示す図である。
【図4】文章の展開を示す図である。
【図5】本発明のフロー・チャートである。
【図6】単一単語軍用アルファベット・タスクにおける
ピーク・スロット使用量のヒストグラムを示すグラフで
ある。
ピーク・スロット使用量のヒストグラムを示すグラフで
ある。
【図7】10桁タスクにおけるピーク・スロット使用量
のヒストグラムを示すグラフである。
のヒストグラムを示すグラフである。
10 音声認識システム 10a ライブラリ 10b コンピュータ/比較器 10c メモリ 11 遷移 12 状態
Claims (1)
- 【請求項1】 N最良音声認識検索を実行する方法であ
って、 非出力分化状態のビタビ刈り込みを行って最良の経路を
維持するステップと、 異なる経路から異なる出力が得られる出力分化状態に対
するN最良準最適経路を維持するステップと、 を含む方法。
Applications Claiming Priority (2)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
US9539498P | 1998-08-05 | 1998-08-05 | |
US095394 | 1998-08-05 |
Publications (1)
Publication Number | Publication Date |
---|---|
JP2000075895A true JP2000075895A (ja) | 2000-03-14 |
Family
ID=22251784
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
JP11221939A Pending JP2000075895A (ja) | 1998-08-05 | 1999-08-05 | 連続音声認識用n最良検索方法 |
Country Status (4)
Country | Link |
---|---|
US (1) | US6374220B1 (ja) |
EP (1) | EP0978823B1 (ja) |
JP (1) | JP2000075895A (ja) |
DE (1) | DE69933623T2 (ja) |
Cited By (4)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
WO2001048738A1 (en) * | 1999-12-23 | 2001-07-05 | Intel Corporation | A global approach for segmenting characters into words |
JP2002082691A (ja) * | 2000-08-08 | 2002-03-22 | Koninkl Philips Electronics Nv | 発声内に含まれる会社名の自動認識方法 |
JP2003029784A (ja) * | 2001-04-20 | 2003-01-31 | Koninkl Philips Electronics Nv | データベースのエントリを決定する方法 |
JP2021039384A (ja) * | 2020-12-08 | 2021-03-11 | 株式会社東芝 | 生成装置、認識システム、および、有限状態トランスデューサの生成方法 |
Families Citing this family (28)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
JP4802434B2 (ja) * | 2000-02-28 | 2011-10-26 | ソニー株式会社 | 音声認識装置及び音声認識方法、並びにプログラムを記録した記録媒体 |
JP2002215187A (ja) * | 2001-01-23 | 2002-07-31 | Matsushita Electric Ind Co Ltd | 音声認識方法及びその装置 |
WO2002091357A1 (en) * | 2001-05-08 | 2002-11-14 | Intel Corporation | Method, apparatus, and system for building context dependent models for a large vocabulary continuous speech recognition (lvcsr) system |
US7526424B2 (en) | 2002-03-20 | 2009-04-28 | Microsoft Corporation | Sentence realization model for a natural language generation system |
US7346493B2 (en) * | 2003-03-25 | 2008-03-18 | Microsoft Corporation | Linguistically informed statistical models of constituent structure for ordering in sentence realization for a natural language generation system |
US7433820B2 (en) * | 2004-05-12 | 2008-10-07 | International Business Machines Corporation | Asynchronous Hidden Markov Model method and system |
DE102004029873B3 (de) * | 2004-06-16 | 2005-12-29 | Deutsche Telekom Ag | Verfahren und Vorrichtung zur intelligenten Eingabekorrektur für automatische Sprachdialogsysteme |
GB0420464D0 (en) | 2004-09-14 | 2004-10-20 | Zentian Ltd | A speech recognition circuit and method |
US8200495B2 (en) * | 2005-02-04 | 2012-06-12 | Vocollect, Inc. | Methods and systems for considering information about an expected response when performing speech recognition |
US7529678B2 (en) * | 2005-03-30 | 2009-05-05 | International Business Machines Corporation | Using a spoken utterance for disambiguation of spelling inputs into a speech recognition system |
US7634407B2 (en) * | 2005-05-20 | 2009-12-15 | Microsoft Corporation | Method and apparatus for indexing speech |
WO2007047487A1 (en) * | 2005-10-14 | 2007-04-26 | Nuance Communications, Inc. | One-step repair of misrecognized recognition strings |
US7809568B2 (en) * | 2005-11-08 | 2010-10-05 | Microsoft Corporation | Indexing and searching speech with text meta-data |
US7831428B2 (en) * | 2005-11-09 | 2010-11-09 | Microsoft Corporation | Speech index pruning |
US7831425B2 (en) * | 2005-12-15 | 2010-11-09 | Microsoft Corporation | Time-anchored posterior indexing of speech |
US20080154600A1 (en) * | 2006-12-21 | 2008-06-26 | Nokia Corporation | System, Method, Apparatus and Computer Program Product for Providing Dynamic Vocabulary Prediction for Speech Recognition |
US8423364B2 (en) * | 2007-02-20 | 2013-04-16 | Microsoft Corporation | Generic framework for large-margin MCE training in speech recognition |
US8494852B2 (en) | 2010-01-05 | 2013-07-23 | Google Inc. | Word-level correction of speech input |
TWI420510B (zh) * | 2010-05-28 | 2013-12-21 | Ind Tech Res Inst | 可調整記憶體使用空間之語音辨識系統與方法 |
US8914290B2 (en) | 2011-05-20 | 2014-12-16 | Vocollect, Inc. | Systems and methods for dynamically improving user intelligibility of synthesized speech in a work environment |
US9978395B2 (en) | 2013-03-15 | 2018-05-22 | Vocollect, Inc. | Method and system for mitigating delay in receiving audio stream during production of sound from audio stream |
US9805718B2 (en) * | 2013-04-19 | 2017-10-31 | Sri Internaitonal | Clarifying natural language input using targeted questions |
US9026431B1 (en) * | 2013-07-30 | 2015-05-05 | Google Inc. | Semantic parsing with multiple parsers |
US9633650B2 (en) | 2013-08-28 | 2017-04-25 | Verint Systems Ltd. | System and method of automated model adaptation |
US8868409B1 (en) | 2014-01-16 | 2014-10-21 | Google Inc. | Evaluating transcriptions with a semantic parser |
US9552808B1 (en) | 2014-11-25 | 2017-01-24 | Google Inc. | Decoding parameters for Viterbi search |
EP3089159B1 (en) | 2015-04-28 | 2019-08-28 | Google LLC | Correcting voice recognition using selective re-speak |
US10714121B2 (en) | 2016-07-27 | 2020-07-14 | Vocollect, Inc. | Distinguishing user speech from background speech in speech-dense environments |
Family Cites Families (3)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
US5241619A (en) * | 1991-06-25 | 1993-08-31 | Bolt Beranek And Newman Inc. | Word dependent N-best search method |
US5805772A (en) * | 1994-12-30 | 1998-09-08 | Lucent Technologies Inc. | Systems, methods and articles of manufacture for performing high resolution N-best string hypothesization |
JP3962445B2 (ja) * | 1997-03-13 | 2007-08-22 | キヤノン株式会社 | 音声処理方法及び装置 |
-
1999
- 1999-07-15 US US09/353,969 patent/US6374220B1/en not_active Expired - Lifetime
- 1999-08-05 JP JP11221939A patent/JP2000075895A/ja active Pending
- 1999-08-05 EP EP99202570A patent/EP0978823B1/en not_active Expired - Lifetime
- 1999-08-05 DE DE69933623T patent/DE69933623T2/de not_active Expired - Lifetime
Cited By (4)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
WO2001048738A1 (en) * | 1999-12-23 | 2001-07-05 | Intel Corporation | A global approach for segmenting characters into words |
JP2002082691A (ja) * | 2000-08-08 | 2002-03-22 | Koninkl Philips Electronics Nv | 発声内に含まれる会社名の自動認識方法 |
JP2003029784A (ja) * | 2001-04-20 | 2003-01-31 | Koninkl Philips Electronics Nv | データベースのエントリを決定する方法 |
JP2021039384A (ja) * | 2020-12-08 | 2021-03-11 | 株式会社東芝 | 生成装置、認識システム、および、有限状態トランスデューサの生成方法 |
Also Published As
Publication number | Publication date |
---|---|
EP0978823A3 (en) | 2003-12-03 |
DE69933623D1 (de) | 2006-11-30 |
EP0978823B1 (en) | 2006-10-18 |
EP0978823A2 (en) | 2000-02-09 |
DE69933623T2 (de) | 2007-08-23 |
US6374220B1 (en) | 2002-04-16 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
JP2000075895A (ja) | 連続音声認識用n最良検索方法 | |
CN108305634B (zh) | 解码方法、解码器及存储介质 | |
Oerder et al. | Word graphs: An efficient interface between continuous-speech recognition and language understanding | |
US6574597B1 (en) | Fully expanded context-dependent networks for speech recognition | |
US5983180A (en) | Recognition of sequential data using finite state sequence models organized in a tree structure | |
US5502791A (en) | Speech recognition by concatenating fenonic allophone hidden Markov models in parallel among subwords | |
EP0570660A1 (en) | Speech recognition system for natural language translation | |
JPH08278794A (ja) | 音声認識装置および音声認識方法並びに音声翻訳装置 | |
CN100508024C (zh) | 基于hmm的文字-音素分析器及其训练方法 | |
Hakkinen et al. | N-gram and decision tree based language identification for written words | |
US6980954B1 (en) | Search method based on single triphone tree for large vocabulary continuous speech recognizer | |
Robinson | The 1994 ABBOT hybrid connectionist-HMM large-vocabulary recognition system | |
US6374222B1 (en) | Method of memory management in speech recognition | |
JP2886117B2 (ja) | 音声認識装置 | |
JP4595415B2 (ja) | 音声検索システムおよび方法ならびにプログラム | |
Ström | Continuous speech recognition in the WAXHOLM dialogue system | |
JP3364631B2 (ja) | 統計的言語モデル生成装置及び音声認識装置 | |
US6456970B1 (en) | Minimization of search network in speech recognition | |
JP2938865B1 (ja) | 音声認識装置 | |
US20050049873A1 (en) | Dynamic ranges for viterbi calculations | |
JP3439700B2 (ja) | 音響モデル学習装置、音響モデル変換装置及び音声認識装置 | |
JPH1097275A (ja) | 大語彙音声認識装置 | |
Gopalakrishnan et al. | Fast match techniques | |
JP3818154B2 (ja) | 音声認識方法 | |
JP2905686B2 (ja) | 音声認識装置 |