JP4340685B2 - 音声認識装置及び音声認識方法 - Google Patents
音声認識装置及び音声認識方法 Download PDFInfo
- Publication number
- JP4340685B2 JP4340685B2 JP2006511627A JP2006511627A JP4340685B2 JP 4340685 B2 JP4340685 B2 JP 4340685B2 JP 2006511627 A JP2006511627 A JP 2006511627A JP 2006511627 A JP2006511627 A JP 2006511627A JP 4340685 B2 JP4340685 B2 JP 4340685B2
- Authority
- JP
- Japan
- Prior art keywords
- input signal
- speech recognition
- speech
- local
- acoustic
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Expired - Fee Related
Links
- 238000000034 method Methods 0.000 title claims description 21
- 239000000470 constituent Substances 0.000 claims description 6
- 108010076504 Protein Sorting Signals Proteins 0.000 description 12
- 238000004364 calculation method Methods 0.000 description 11
- 239000013598 vector Substances 0.000 description 9
- 238000004458 analytical method Methods 0.000 description 7
- 238000012790 confirmation Methods 0.000 description 7
- 230000007704 transition Effects 0.000 description 6
- 238000010586 diagram Methods 0.000 description 3
- 101100096895 Mus musculus Sult2a2 gene Proteins 0.000 description 2
- 230000007274 generation of a signal involved in cell-cell signaling Effects 0.000 description 2
- 241000255777 Lepidoptera Species 0.000 description 1
- 238000013528 artificial neural network Methods 0.000 description 1
- LFYJSSARVMHQJB-QIXNEVBVSA-N bakuchiol Chemical compound CC(C)=CCC[C@@](C)(C=C)\C=C\C1=CC=C(O)C=C1 LFYJSSARVMHQJB-QIXNEVBVSA-N 0.000 description 1
- 210000002469 basement membrane Anatomy 0.000 description 1
- 230000005540 biological transmission Effects 0.000 description 1
- 210000003027 ear inner Anatomy 0.000 description 1
- 230000000694 effects Effects 0.000 description 1
- 238000005516 engineering process Methods 0.000 description 1
- 230000010365 information processing Effects 0.000 description 1
- 239000011159 matrix material Substances 0.000 description 1
- 238000012544 monitoring process Methods 0.000 description 1
- 230000004044 response Effects 0.000 description 1
- 238000001228 spectrum Methods 0.000 description 1
Images
Classifications
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L15/00—Speech recognition
- G10L15/08—Speech classification or search
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L15/00—Speech recognition
- G10L15/08—Speech classification or search
- G10L15/14—Speech classification or search using statistical models, e.g. Hidden Markov Models [HMMs]
- G10L15/142—Hidden Markov Models [HMMs]
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L15/00—Speech recognition
- G10L15/08—Speech classification or search
- G10L15/18—Speech classification or search using natural language modelling
- G10L15/183—Speech classification or search using natural language modelling using context dependencies, e.g. language models
- G10L15/187—Phonemic context, e.g. pronunciation rules, phonotactical constraints or phoneme n-grams
Landscapes
- Engineering & Computer Science (AREA)
- Computational Linguistics (AREA)
- Health & Medical Sciences (AREA)
- Audiology, Speech & Language Pathology (AREA)
- Human Computer Interaction (AREA)
- Physics & Mathematics (AREA)
- Acoustics & Sound (AREA)
- Multimedia (AREA)
- Telephonic Communication Services (AREA)
- Information Retrieval, Db Structures And Fs Structures Therefor (AREA)
- Image Analysis (AREA)
Description
本発明は、例えば、音声認識装置及び音声認識方法等に関する。
従来の音声認識システムとして、例えば、後述の非特許文献1に示される“隠れマルコフモデル(Hidden Markov Model)”(以下、単に“HMM”と称する)を用いた方法が一般に知られている。HMMによる音声認識手法は、単語を含む発話音声全体と、辞書メモリやサブワード音響モデルから生成した単語音響モデルとのマッチングを行い、各単語音響モデル毎にマッチングの尤度を計算して、最も高い尤度のモデルに対応する単語を音声認識の結果と判定するものである。
HMMによる一般的な音声認識処理の概略を図1に基づいて説明する。HMMは、時間と共に状態Siを遷移させながら、様々な時系列信号O(O=o(1),o(2),……,o(n))を確率的に生成する信号生成モデルとして捉えることができる。そして、かかる状態系列Sと、出力信号系列Oとの遷移関係を表したものが図1である。即ち、HMMによる信号生成モデルは、図1の縦軸に示される状態Siが遷移するたびに、同図横軸の信号o(n)を1つ出力するものと考えることができる。
因みに、同モデルの構成要素としては、{S0,S1,Sm}の状態集合、状態Siから状態Sjに遷移するときの状態遷移確率aij、状態Si毎に信号oを出力する出力確率bi(o)=P(oISi)がある。なお、確率P(oISi)は、基本事象の集合Siに対するoの条件付き確率を表すものとする。また、S0は信号を生成する前の初期状態を、Smは信号を出力し終わった後の終了状態を示すものである。
ここで、かかる信号生成モデルにおいて、ある信号系列O=o(1),o(2),……,o(n)が観測されたと仮定する。そして、状態S=0,s(1),……,s(N),Mは、信号系列Oを出力することが可能な或る状態系列であると仮定する。いま、HMMΛがSに沿って信号系列Oを出力する確率は、
として表すことができる。そして、かかる信号系列OがHMMΛから生成される確率P(OIΛ)は、
として求められる。
このように、P(OIΛ)は、信号系列Oを出力することが可能な全ての状態経路を介した生成確率の総和で表すことができる。しかしながら、確率計算時のメモリの使用量を削減すべく、ビタビアルゴリズムを用いて、信号系列Oを出力する確率が最大となる状態系列のみの生成確率によってP(OIΛ)を近似することが一般に行われる。すなわち、
として表現される状態系列が信号系列Oを出力する確率P(O,S^IΛ)を、HMMΛから信号系列Oが生成される確率P(OIΛ)とみなすのである。
一般に、音声認識の処理過程では、音声入力信号を20〜30ms程度の長さのフレームに分割して、各フレーム毎にその音声の音素的な特徴を示す特徴ベクトルo(n)を算出する。なお、かかるフレーム分割に際しては、隣接するフレームが互いにオーバーラップするようにフレームの設定を行う。そして、時間的に連続する特徴ベクトルを時系列信号Oとして捉えるものとする。また、単語認識においては、音素や音節単位等のいわゆるサブワード単位の音響モデルを用意する。
また、認識処理において用いられる辞書メモリには、認識の対象となる単語w1,w2,…,wLのサブワード音響モデルの並べ方が記憶されており、かかる辞書記憶に従って、上記のサブワード音響モデルを結合して単語モデルW1,W2,…,WLを生成する。そして、上記のように各単語毎に確率P(OIWi)を算出して、かかる確率が最大となる単語wiを認識結果として出力するのである。
すなわち、P(OIWi)は、単語Wiに対する類似度と捉えることができる。また、確率P(OIWi)の算出の際にビタビアルゴリズムを用いることにより、音声入力信号のフレームと同期して計算を進めて、最終的に信号系列oを生成することが可能な状態系列のうち確率最大となる状態系列の確率値を算出することができる。
しかしながら、以上に説明した従来技術においては、図1に示す如く、可能性のある全ての状態系列を対象にしてマッチングの探索が行われる。このため、音響モデルの不完全さや、或いは混入雑音の影響によって、不正解単語の正しくない状態系列による生成確率の方が正解単語の正しい状態系列による生成確率よりも高くなるおそれがある。その結果、誤認識や認識不能の事態を引き起こす場合があり、また、音声認識の処理過程における計算量や計算に使用されるメモリ量も膨大となって音声認識処理の効率の低下を招くおそれもあった。
HMMを用いた従来の音声認識システムは例えば鹿野清宏他4名(著)情報処理学会(編)、書名『音声認識システム』(2001年5月;オーム社刊)(非特許文献1)に開示されている。
HMMによる一般的な音声認識処理の概略を図1に基づいて説明する。HMMは、時間と共に状態Siを遷移させながら、様々な時系列信号O(O=o(1),o(2),……,o(n))を確率的に生成する信号生成モデルとして捉えることができる。そして、かかる状態系列Sと、出力信号系列Oとの遷移関係を表したものが図1である。即ち、HMMによる信号生成モデルは、図1の縦軸に示される状態Siが遷移するたびに、同図横軸の信号o(n)を1つ出力するものと考えることができる。
因みに、同モデルの構成要素としては、{S0,S1,Sm}の状態集合、状態Siから状態Sjに遷移するときの状態遷移確率aij、状態Si毎に信号oを出力する出力確率bi(o)=P(oISi)がある。なお、確率P(oISi)は、基本事象の集合Siに対するoの条件付き確率を表すものとする。また、S0は信号を生成する前の初期状態を、Smは信号を出力し終わった後の終了状態を示すものである。
ここで、かかる信号生成モデルにおいて、ある信号系列O=o(1),o(2),……,o(n)が観測されたと仮定する。そして、状態S=0,s(1),……,s(N),Mは、信号系列Oを出力することが可能な或る状態系列であると仮定する。いま、HMMΛがSに沿って信号系列Oを出力する確率は、
として表すことができる。そして、かかる信号系列OがHMMΛから生成される確率P(OIΛ)は、
として求められる。
このように、P(OIΛ)は、信号系列Oを出力することが可能な全ての状態経路を介した生成確率の総和で表すことができる。しかしながら、確率計算時のメモリの使用量を削減すべく、ビタビアルゴリズムを用いて、信号系列Oを出力する確率が最大となる状態系列のみの生成確率によってP(OIΛ)を近似することが一般に行われる。すなわち、
として表現される状態系列が信号系列Oを出力する確率P(O,S^IΛ)を、HMMΛから信号系列Oが生成される確率P(OIΛ)とみなすのである。
一般に、音声認識の処理過程では、音声入力信号を20〜30ms程度の長さのフレームに分割して、各フレーム毎にその音声の音素的な特徴を示す特徴ベクトルo(n)を算出する。なお、かかるフレーム分割に際しては、隣接するフレームが互いにオーバーラップするようにフレームの設定を行う。そして、時間的に連続する特徴ベクトルを時系列信号Oとして捉えるものとする。また、単語認識においては、音素や音節単位等のいわゆるサブワード単位の音響モデルを用意する。
また、認識処理において用いられる辞書メモリには、認識の対象となる単語w1,w2,…,wLのサブワード音響モデルの並べ方が記憶されており、かかる辞書記憶に従って、上記のサブワード音響モデルを結合して単語モデルW1,W2,…,WLを生成する。そして、上記のように各単語毎に確率P(OIWi)を算出して、かかる確率が最大となる単語wiを認識結果として出力するのである。
すなわち、P(OIWi)は、単語Wiに対する類似度と捉えることができる。また、確率P(OIWi)の算出の際にビタビアルゴリズムを用いることにより、音声入力信号のフレームと同期して計算を進めて、最終的に信号系列oを生成することが可能な状態系列のうち確率最大となる状態系列の確率値を算出することができる。
しかしながら、以上に説明した従来技術においては、図1に示す如く、可能性のある全ての状態系列を対象にしてマッチングの探索が行われる。このため、音響モデルの不完全さや、或いは混入雑音の影響によって、不正解単語の正しくない状態系列による生成確率の方が正解単語の正しい状態系列による生成確率よりも高くなるおそれがある。その結果、誤認識や認識不能の事態を引き起こす場合があり、また、音声認識の処理過程における計算量や計算に使用されるメモリ量も膨大となって音声認識処理の効率の低下を招くおそれもあった。
HMMを用いた従来の音声認識システムは例えば鹿野清宏他4名(著)情報処理学会(編)、書名『音声認識システム』(2001年5月;オーム社刊)(非特許文献1)に開示されている。
本発明が解決しようとする課題には、誤認識や認識不能の事態を減少させ、かつ認識効率を向上させた音声認識装置及び音声認識方法を提供することが一例として挙げられる。
請求項1に記載の発明は、辞書メモリとサブワード音響モデルとに基づいて単語モデルを生成し、かつ所定のアルゴリズムに沿って前記単語モデルと音声入力信号とを照合して前記音声入力信号に対する音声認識を行う音声認識装置であって、前記アルゴリズムによって示される処理経路に沿って前記単語モデルと前記音声入力信号とを照合する際に、針路指令に基づき前記処理経路を限定して前記音声入力信号に最も近似する単語モデルを選択する主マッチング手段と、発話音声の局所的な音響特徴を予め類型化してこれを局所テンプレートとして記憶する局所テンプレート記憶手段と、前記音声入力信号の構成部位毎に前記局所テンプレート記憶手段に記憶された局所テンプレートを照合して前記構成部位毎の音響特徴を確定し、該確定の結果に応じた前記針路指令を生成する局所マッチング手段とを含むことを特徴とする。
また、請求項8に記載の発明は、辞書メモリとサブワード音響モデルとに基づいて単語モデルを生成して、音声入力信号を所定のアルゴリズムに沿って前記単語モデルと照合して前記音声入力信号に対する音声認識を行う音声認識方法であって、前記アルゴリズムによって示される処理経路に沿って前記音声入力信号と前記単語モデルとを照合する際に、針路指令に基づき前記処理経路を限定して前記音声入力信号に最も近似する単語モデルを選択するステップと、発話音声の局所的な音響特徴を予め類型化してこれを局所テンプレートとして記憶するステップと、前記音声入力信号の構成部位毎に前記局所テンプレートを照合して前記構成部位毎の音響特徴を確定し、該確定の結果に応じた前記針路指令を生成するステップとを含むことを特徴とする。
請求項1に記載の発明は、辞書メモリとサブワード音響モデルとに基づいて単語モデルを生成し、かつ所定のアルゴリズムに沿って前記単語モデルと音声入力信号とを照合して前記音声入力信号に対する音声認識を行う音声認識装置であって、前記アルゴリズムによって示される処理経路に沿って前記単語モデルと前記音声入力信号とを照合する際に、針路指令に基づき前記処理経路を限定して前記音声入力信号に最も近似する単語モデルを選択する主マッチング手段と、発話音声の局所的な音響特徴を予め類型化してこれを局所テンプレートとして記憶する局所テンプレート記憶手段と、前記音声入力信号の構成部位毎に前記局所テンプレート記憶手段に記憶された局所テンプレートを照合して前記構成部位毎の音響特徴を確定し、該確定の結果に応じた前記針路指令を生成する局所マッチング手段とを含むことを特徴とする。
また、請求項8に記載の発明は、辞書メモリとサブワード音響モデルとに基づいて単語モデルを生成して、音声入力信号を所定のアルゴリズムに沿って前記単語モデルと照合して前記音声入力信号に対する音声認識を行う音声認識方法であって、前記アルゴリズムによって示される処理経路に沿って前記音声入力信号と前記単語モデルとを照合する際に、針路指令に基づき前記処理経路を限定して前記音声入力信号に最も近似する単語モデルを選択するステップと、発話音声の局所的な音響特徴を予め類型化してこれを局所テンプレートとして記憶するステップと、前記音声入力信号の構成部位毎に前記局所テンプレートを照合して前記構成部位毎の音響特徴を確定し、該確定の結果に応じた前記針路指令を生成するステップとを含むことを特徴とする。
図1は、従来の音声認識処理における状態系列と出力信号系列との遷移過程を示す状態遷移図である。
図2は、本発明による音声認識装置の構成を示すブロック図である。
図3は、本発明に基づく音声認識処理における状態系列と出力信号系列との遷移過程を示す状態遷移図である。
図2は、本発明による音声認識装置の構成を示すブロック図である。
図3は、本発明に基づく音声認識処理における状態系列と出力信号系列との遷移過程を示す状態遷移図である。
図2に本発明の実施例である音声認識装置を示す。同図に示される音声認識装置10は、例えば、同装置単体で用いられる構成であっても良いし、或いは、他の音響関連機器に内蔵される構成としても良い。
図2において、サブワード音響モデル記憶部11は、音素や音節等のサブワード単位毎の音響モデルを記憶した部分である。また、辞書記憶部12は、音声認識の対象となる各単語について上記サブワード音響モデルの並べ方を記憶した部分である。単語モデル生成部13は、辞書記憶部12の記憶内容に従って、サブワード音響モデル記憶部11に記憶されているサブワード音響モデルを結合して音声認識に使用する単語モデルを生成する部分である。また、局所テンプレート記憶部14は、上記の単語モデルとは別に、音声入力信号の各フレームについて局所的にその発話内容を捉える音響モデルである局所テンプレートを記憶した部分である。
主音響分析部15は、音声入力信号を所定時間長のフレーム区間に区切り、各フレーム毎にその音素的な特徴を示す特徴ベクトルを算出して、かかる特徴ベクトルの信号時系列を生成する部分である。また、局所音響分析部16は、音声入力信号の各フレーム毎に上記局所テンプレートとの照合を行うための音響特徴量を算出する部分である。
局所マッチング部17は、かかるフレーム毎に局所テンプレート記憶部14に記憶されている局所テンプレートと、局所音響分析部16からの出力である音響特徴量とを比較する部分である。即ち、局所マッチング部17は、この両者を比較して相関性を示す尤度を計算し、当該尤度が高い場合にそのフレームを局所テンプレートに対応する発話部分であると確定する。
主マッチング部18は、主音響分析部15からの出力である特徴ベクトルの信号系列と、単語モデル生成部13で生成された各単語モデルとを比較して、各単語モデルについての尤度計算を行って音声入力信号に対する単語モデルのマッチングを行う部分である。但し、前述の局所マッチング部17において発話内容が確定されたフレームに対しては、該確定された発話内容に対応するサブワード音響モデルの状態を通る状態経路が選択されるような制約付きのマッチング処理が為される。これによって、主マッチング部18から、音声入力信号に対する音声認識結果が最終的に出力される。
なお、図2における信号の流を示す矢印の向きは、各構成要素間の主要な信号の流を示すものであり、例えば、かかる主要信号に付随する応答信号や監視信号等の各種の信号に関しては、矢印の向きと逆に伝達される場合をも含むものとする。また、矢印の経路は各構成要素間における信号の流を概念的に表すものであり、実際の装置において各信号が図中の経路通りに忠実に伝達される必要はない。
次に、図2に示される音声認識装置10の動作について説明を行う。
先ず、局所マッチング部17の動作について説明する。局所マッチング部17は、局所テンプレートと局所音響分析部16からの出力である音響特徴量とを比較して、フレームの発話内容を確実に捉えた場合にのみ当該フレームの発話内容を確定する。
局所マッチング部17は、音声入力信号に含まれる各単語に対する発話全体の類似度を算出する主マッチング部18の動作を補助するものである。それ故、局所マッチング部17は、音声入力信号に含まれる発話全ての音素や音節を捉える必要はない。例えば、SN比が悪い場合でも比較的に捉え易い母音や有声子音などの発声エネルギーの大きい音素や音節をのみを利用する構成としても良い。また、発話中に出現する全ての母音や有声子音を捉える必要もない。つまり、局所マッチング部17は、そのフレームの発話内容を局所テンプレートによって確実にマッチングさせた場合にのみ、そのフレームの発話内容を確定して、かかる確定情報を主マッチング部18に伝達する。
主マッチング部18は、局所マッチング部17から上記の確定情報が送られてこない場合、前述した従来の単語認識と同様のビタビアルゴリズムによって、主音響分析部15から出力されるフレームに同期して入力音声信号と単語モデルとの尤度計算を行う。一方、局所マッチング部17から上記の確定情報が送られて来ると、局所マッチング部17で確定された発話内容に対応するモデルがそのフレームを通らない処理経路を認識候補の処理経路から除外する。
この様子を図3に示す。因みに、同図に示される状況は、図1と同様に音声入力信号として“千葉(chiba)”なる発話音声が入力された場合を示すものである。
本事例では、特徴量ベクトルである出力信号時系列においてo(6)乃至o(8)が出力される時点で、局所マッチング部17から局所テンプレートによりフレームの発話内容が“i”と確定された旨の確定情報が主マッチング部18に伝えられた場合を示している。かかる確定情報の通知により、主マッチング部18は、マッチング探索の処理経路から“i”以外の状態を通過する経路を含むα及びγの領域を除外する。これによって、主マッチング部18は、探索の処理経路をβの領域にのみ限定して処理を継続することができる。図1の場合と比較して明らかな如く、かかる処理を施すことによって、マッチング探索時における計算量や計算に使用するメモリの量を大幅に削減することができる。
なお、図3では、局所マッチング部17からの確定情報が一度しか送られなかった事例を示したが、局所マッチング部17での発話内容確定が更に達成されれば、かかる確定情報は他のフレームについても送られて来るものであり、これによって主マッチング部18で処理を行う経路は更に限定される。
一方、音声入力信号中の母音部分を捉える方法としては、様々な方法が考えられる。例えば、母音を捉えるための特徴量(多次元ベクトル)に基づいて各母音毎の標準パターン、例えば、平均ベクトルμiと共分散行列Σiを学習して準備し、その標準パターンとn番目の入力フレームの尤度を計算して判別する方法を用いても良い。因みに、かかる尤度としては、例えば、確率Ei(n)=P(o’(n)Iμi,Σi)等を用いても良い。ここで、o’(n)は、局所音響分析部16から出力されるフレームnの特徴量ベクトルにおけるi番目の標準パターンを示すものである。
なお、局所マッチング部17からの確定情報を正確にすべく、例えば、首位候補の尤度と次位候補の尤度との差が十分に大きい場合にのみ首位候補の尤度を確定するようにしても良い。すなわち、標準パターンがk個ある場合に、nフレーム目の各標準パターンとの尤度E1(n),E2(n),…,Ek(n)を計算する。そして、これらの中で最大のものをS1=maxi{Ei(n)}、次に大きいものをS2として、
S1>Sth1 かつ (S1−S2)>Sth2
なる関係を満たす場合にのみ、このフレームの発話内容を
I=argmaxi{Ei(n)}
と定めても良い。なお、Sth1、Sth2は、実際の使用において適切に定められる所定の閾値とする。
さらに、局所マッチングの結果を一意的に確定せず、複数の処理パスを許容する確定情報を主マッチング部18に伝達する構成としても良い。例えば、局所マッチングを行った結果、当該フレームの母音は“a”又は“e”であると言う内容の確定情報を伝達するようにしても良い。これに伴い、主マッチング部18では、“a”及び“e”の単語モデルがこのフレームに対応する処理パスのみを残すようにする。
また、上記の特徴量として、MFCC(メル周波数ケプストラム係数)やLPCケプストラム、或いは対数スペクトル等のパラメータを用いるようにしても良い。これらの特徴量はサブワード音響モデルと同様の構成としても良いが、母音の推定精度を向上させるべく、サブワード音響モデルの場合よりも次元数を拡大して用いるようにしても良い。なお、その場合でも局所テンプレートの数は数種類と比較的に少ないので、かかる変更に伴う計算量の増加は僅かである。
さらに、特徴量として音声入力信号のフォルマント情報を用いることも可能である。一般に、第1フォルマントと第2フォルマントの周波数帯域は、母音の特徴を良く表しているため、これらのフォルマント情報を上記の特徴量として利用することができる。また、主要フォルマントの周波数とその振幅から内耳基底膜上の受聴位置を求めて、これを特徴量として用いることも可能である。
また、母音は有声音であるため、これをより確実にとらえるには、各フレームで音声の基本周波数範囲にピッチが検出できるか否かを先ず判定して、検出された場合にのみ母音標準パターンとの照合を行うようにしても良い。この他に、例えば、母音をニューラルネットによりとらえる構成としても良い。
なお、以上の説明では局所テンプレートとして母音を用いる場合を例にとって説明を行ったが、本実施例はかかる事例に限定されるものではなく、発話内容を確実にとらえるための特徴的な情報を抽出できるものであれば局所テンプレートとして用いることができる。
また、本実施例は、単語認識だけでなく、連続単語認識や大語彙連続音声認識にも適用が可能である。
以上に説明した如く、本発明の音声認識装置、若しくは音声認識方法によれば、マッチング処理の過程において明らかに不正解となるパスの候補を削除できるので、音声認識の結果が誤認識や認識不可となる要因の一部を削除することができる。また、検索するパスの候補を削減できるので計算量や計算において使用するメモリ量の削減を図ることができ認識効率の向上が可能となる。さらに、本実施例による処理は、通常のビタビアルゴリズムと同様に、音声入力信号のフレームと同期して実行が可能であるため、計算効率も高めることができる。
図2において、サブワード音響モデル記憶部11は、音素や音節等のサブワード単位毎の音響モデルを記憶した部分である。また、辞書記憶部12は、音声認識の対象となる各単語について上記サブワード音響モデルの並べ方を記憶した部分である。単語モデル生成部13は、辞書記憶部12の記憶内容に従って、サブワード音響モデル記憶部11に記憶されているサブワード音響モデルを結合して音声認識に使用する単語モデルを生成する部分である。また、局所テンプレート記憶部14は、上記の単語モデルとは別に、音声入力信号の各フレームについて局所的にその発話内容を捉える音響モデルである局所テンプレートを記憶した部分である。
主音響分析部15は、音声入力信号を所定時間長のフレーム区間に区切り、各フレーム毎にその音素的な特徴を示す特徴ベクトルを算出して、かかる特徴ベクトルの信号時系列を生成する部分である。また、局所音響分析部16は、音声入力信号の各フレーム毎に上記局所テンプレートとの照合を行うための音響特徴量を算出する部分である。
局所マッチング部17は、かかるフレーム毎に局所テンプレート記憶部14に記憶されている局所テンプレートと、局所音響分析部16からの出力である音響特徴量とを比較する部分である。即ち、局所マッチング部17は、この両者を比較して相関性を示す尤度を計算し、当該尤度が高い場合にそのフレームを局所テンプレートに対応する発話部分であると確定する。
主マッチング部18は、主音響分析部15からの出力である特徴ベクトルの信号系列と、単語モデル生成部13で生成された各単語モデルとを比較して、各単語モデルについての尤度計算を行って音声入力信号に対する単語モデルのマッチングを行う部分である。但し、前述の局所マッチング部17において発話内容が確定されたフレームに対しては、該確定された発話内容に対応するサブワード音響モデルの状態を通る状態経路が選択されるような制約付きのマッチング処理が為される。これによって、主マッチング部18から、音声入力信号に対する音声認識結果が最終的に出力される。
なお、図2における信号の流を示す矢印の向きは、各構成要素間の主要な信号の流を示すものであり、例えば、かかる主要信号に付随する応答信号や監視信号等の各種の信号に関しては、矢印の向きと逆に伝達される場合をも含むものとする。また、矢印の経路は各構成要素間における信号の流を概念的に表すものであり、実際の装置において各信号が図中の経路通りに忠実に伝達される必要はない。
次に、図2に示される音声認識装置10の動作について説明を行う。
先ず、局所マッチング部17の動作について説明する。局所マッチング部17は、局所テンプレートと局所音響分析部16からの出力である音響特徴量とを比較して、フレームの発話内容を確実に捉えた場合にのみ当該フレームの発話内容を確定する。
局所マッチング部17は、音声入力信号に含まれる各単語に対する発話全体の類似度を算出する主マッチング部18の動作を補助するものである。それ故、局所マッチング部17は、音声入力信号に含まれる発話全ての音素や音節を捉える必要はない。例えば、SN比が悪い場合でも比較的に捉え易い母音や有声子音などの発声エネルギーの大きい音素や音節をのみを利用する構成としても良い。また、発話中に出現する全ての母音や有声子音を捉える必要もない。つまり、局所マッチング部17は、そのフレームの発話内容を局所テンプレートによって確実にマッチングさせた場合にのみ、そのフレームの発話内容を確定して、かかる確定情報を主マッチング部18に伝達する。
主マッチング部18は、局所マッチング部17から上記の確定情報が送られてこない場合、前述した従来の単語認識と同様のビタビアルゴリズムによって、主音響分析部15から出力されるフレームに同期して入力音声信号と単語モデルとの尤度計算を行う。一方、局所マッチング部17から上記の確定情報が送られて来ると、局所マッチング部17で確定された発話内容に対応するモデルがそのフレームを通らない処理経路を認識候補の処理経路から除外する。
この様子を図3に示す。因みに、同図に示される状況は、図1と同様に音声入力信号として“千葉(chiba)”なる発話音声が入力された場合を示すものである。
本事例では、特徴量ベクトルである出力信号時系列においてo(6)乃至o(8)が出力される時点で、局所マッチング部17から局所テンプレートによりフレームの発話内容が“i”と確定された旨の確定情報が主マッチング部18に伝えられた場合を示している。かかる確定情報の通知により、主マッチング部18は、マッチング探索の処理経路から“i”以外の状態を通過する経路を含むα及びγの領域を除外する。これによって、主マッチング部18は、探索の処理経路をβの領域にのみ限定して処理を継続することができる。図1の場合と比較して明らかな如く、かかる処理を施すことによって、マッチング探索時における計算量や計算に使用するメモリの量を大幅に削減することができる。
なお、図3では、局所マッチング部17からの確定情報が一度しか送られなかった事例を示したが、局所マッチング部17での発話内容確定が更に達成されれば、かかる確定情報は他のフレームについても送られて来るものであり、これによって主マッチング部18で処理を行う経路は更に限定される。
一方、音声入力信号中の母音部分を捉える方法としては、様々な方法が考えられる。例えば、母音を捉えるための特徴量(多次元ベクトル)に基づいて各母音毎の標準パターン、例えば、平均ベクトルμiと共分散行列Σiを学習して準備し、その標準パターンとn番目の入力フレームの尤度を計算して判別する方法を用いても良い。因みに、かかる尤度としては、例えば、確率Ei(n)=P(o’(n)Iμi,Σi)等を用いても良い。ここで、o’(n)は、局所音響分析部16から出力されるフレームnの特徴量ベクトルにおけるi番目の標準パターンを示すものである。
なお、局所マッチング部17からの確定情報を正確にすべく、例えば、首位候補の尤度と次位候補の尤度との差が十分に大きい場合にのみ首位候補の尤度を確定するようにしても良い。すなわち、標準パターンがk個ある場合に、nフレーム目の各標準パターンとの尤度E1(n),E2(n),…,Ek(n)を計算する。そして、これらの中で最大のものをS1=maxi{Ei(n)}、次に大きいものをS2として、
S1>Sth1 かつ (S1−S2)>Sth2
なる関係を満たす場合にのみ、このフレームの発話内容を
I=argmaxi{Ei(n)}
と定めても良い。なお、Sth1、Sth2は、実際の使用において適切に定められる所定の閾値とする。
さらに、局所マッチングの結果を一意的に確定せず、複数の処理パスを許容する確定情報を主マッチング部18に伝達する構成としても良い。例えば、局所マッチングを行った結果、当該フレームの母音は“a”又は“e”であると言う内容の確定情報を伝達するようにしても良い。これに伴い、主マッチング部18では、“a”及び“e”の単語モデルがこのフレームに対応する処理パスのみを残すようにする。
また、上記の特徴量として、MFCC(メル周波数ケプストラム係数)やLPCケプストラム、或いは対数スペクトル等のパラメータを用いるようにしても良い。これらの特徴量はサブワード音響モデルと同様の構成としても良いが、母音の推定精度を向上させるべく、サブワード音響モデルの場合よりも次元数を拡大して用いるようにしても良い。なお、その場合でも局所テンプレートの数は数種類と比較的に少ないので、かかる変更に伴う計算量の増加は僅かである。
さらに、特徴量として音声入力信号のフォルマント情報を用いることも可能である。一般に、第1フォルマントと第2フォルマントの周波数帯域は、母音の特徴を良く表しているため、これらのフォルマント情報を上記の特徴量として利用することができる。また、主要フォルマントの周波数とその振幅から内耳基底膜上の受聴位置を求めて、これを特徴量として用いることも可能である。
また、母音は有声音であるため、これをより確実にとらえるには、各フレームで音声の基本周波数範囲にピッチが検出できるか否かを先ず判定して、検出された場合にのみ母音標準パターンとの照合を行うようにしても良い。この他に、例えば、母音をニューラルネットによりとらえる構成としても良い。
なお、以上の説明では局所テンプレートとして母音を用いる場合を例にとって説明を行ったが、本実施例はかかる事例に限定されるものではなく、発話内容を確実にとらえるための特徴的な情報を抽出できるものであれば局所テンプレートとして用いることができる。
また、本実施例は、単語認識だけでなく、連続単語認識や大語彙連続音声認識にも適用が可能である。
以上に説明した如く、本発明の音声認識装置、若しくは音声認識方法によれば、マッチング処理の過程において明らかに不正解となるパスの候補を削除できるので、音声認識の結果が誤認識や認識不可となる要因の一部を削除することができる。また、検索するパスの候補を削減できるので計算量や計算において使用するメモリ量の削減を図ることができ認識効率の向上が可能となる。さらに、本実施例による処理は、通常のビタビアルゴリズムと同様に、音声入力信号のフレームと同期して実行が可能であるため、計算効率も高めることができる。
Claims (8)
- 辞書メモリとサブワード音響モデルとに基づいて単語モデルを生成し、かつ所定のアルゴリズムに沿って前記単語モデルと音声入力信号とを照合して前記音声入力信号に対する音声認識を行う音声認識装置であって、
前記アルゴリズムによって示される処理経路に沿って前記単語モデルと前記音声入力信号とを照合する際に、針路指令に基づき前記処理経路を限定して前記音声入力信号に最も近似する単語モデルを選択する主マッチング手段と、
発話音声の局所的な音響特徴を予め類型化してこれを局所テンプレートとして記憶する局所テンプレート記憶手段と、
前記音声入力信号の構成部位毎に前記局所テンプレート記憶手段に記憶された局所テンプレートを照合して前記構成部位毎の音響特徴を確定し、該確定の結果に応じた前記針路指令を生成する局所マッチング手段と、を含むことを特徴とする音声認識装置。 - 前記アルゴリズムは、隠れマルコフモデルであることを特徴とする請求項1に記載の音声認識装置。
- 前記処理経路は、ビタビアルゴリズムによって算出されることを特徴とする請求項1に記載の音声認識装置。
- 前記局所マッチング手段は、前記音響特徴量を確定する際に前記構成部位と前記局所テンプレートとの照合尤度に応じて前記針路指令を複数個生成することを特徴とする請求項1乃至請求項3の何れか1項に記載の音声認識装置。
- 前記局所マッチング手段は、前記照合尤度の首位と次位との差分が所定閾値を越えたときにのみ前記針路指令を生成することを特徴とする請求項1乃至請求項3の何れか1項に記載の音声認識装置。
- 前記局所テンプレートは、前記音声入力信号に含まれる母音部分の音響特徴量に基づいて生成されることを特徴とする請求項1乃至請求項3の何れか1項に記載の音声認識装置。
- 前記局所テンプレートは、前記音声入力信号に含まれる有声子音部分の音響特徴量に基づいて生成されることを特徴とする請求項1乃至請求項3の何れか1項に記載の音声認識装置。
- 辞書メモリとサブワード音響モデルとに基づいて単語モデルを生成して、音声入力信号を所定のアルゴリズムに沿って前記単語モデルと照合して前記音声入力信号に対する音声認識を行う音声認識方法であって、
前記アルゴリズムによって示される処理経路に沿って前記音声入力信号と前記単語モデルとを照合する際に、針路指令に基づき前記処理経路を限定して前記音声入力信号に最も近似する単語モデルを選択するステップと、
発話音声の局所的な音響特徴を予め類型化してこれを局所テンプレートとして記憶するステップと、
前記音声入力信号の構成部位毎に前記局所テンプレートを照合して前記構成部位毎の音響特徴を確定し、該確定の結果に応じた前記針路指令を生成するステップと、を含むことを特徴とする音声認識方法。
Applications Claiming Priority (3)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
JP2004097531 | 2004-03-30 | ||
JP2004097531 | 2004-03-30 | ||
PCT/JP2005/005644 WO2005096271A1 (ja) | 2004-03-30 | 2005-03-22 | 音声認識装置及び音声認識方法 |
Publications (2)
Publication Number | Publication Date |
---|---|
JPWO2005096271A1 JPWO2005096271A1 (ja) | 2008-02-21 |
JP4340685B2 true JP4340685B2 (ja) | 2009-10-07 |
Family
ID=35064016
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
JP2006511627A Expired - Fee Related JP4340685B2 (ja) | 2004-03-30 | 2005-03-22 | 音声認識装置及び音声認識方法 |
Country Status (4)
Country | Link |
---|---|
US (1) | US20070203700A1 (ja) |
JP (1) | JP4340685B2 (ja) |
CN (1) | CN1957397A (ja) |
WO (1) | WO2005096271A1 (ja) |
Cited By (1)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN102842307A (zh) * | 2012-08-17 | 2012-12-26 | 鸿富锦精密工业(深圳)有限公司 | 利用语音控制的电子装置及其语音控制方法 |
Families Citing this family (10)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
US7739221B2 (en) * | 2006-06-28 | 2010-06-15 | Microsoft Corporation | Visual and multi-dimensional search |
JP5467043B2 (ja) * | 2008-06-06 | 2014-04-09 | 株式会社レイトロン | 音声認識装置、音声認識方法および電子機器 |
CN102282610B (zh) * | 2009-01-20 | 2013-02-20 | 旭化成株式会社 | 声音对话装置、对话控制方法 |
US8346800B2 (en) * | 2009-04-02 | 2013-01-01 | Microsoft Corporation | Content-based information retrieval |
JP5530812B2 (ja) * | 2010-06-04 | 2014-06-25 | ニュアンス コミュニケーションズ,インコーポレイテッド | 音声特徴量を出力するための音声信号処理システム、音声信号処理方法、及び音声信号処理プログラム |
JP2013068532A (ja) * | 2011-09-22 | 2013-04-18 | Clarion Co Ltd | 情報端末、サーバー装置、検索システムおよびその検索方法 |
JP6011565B2 (ja) * | 2014-03-05 | 2016-10-19 | カシオ計算機株式会社 | 音声検索装置、音声検索方法及びプログラム |
JP6003972B2 (ja) * | 2014-12-22 | 2016-10-05 | カシオ計算機株式会社 | 音声検索装置、音声検索方法及びプログラム |
CN106023986B (zh) * | 2016-05-05 | 2019-08-30 | 河南理工大学 | 一种基于声效模式检测的语音识别方法 |
CN111341320B (zh) * | 2020-02-28 | 2023-04-14 | 中国工商银行股份有限公司 | 短语语音的声纹识别方法及装置 |
Family Cites Families (11)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
JPH01138596A (ja) * | 1987-11-25 | 1989-05-31 | Nec Corp | 音声認識装置 |
JP2712856B2 (ja) * | 1991-03-08 | 1998-02-16 | 三菱電機株式会社 | 音声認識装置 |
JP3104900B2 (ja) * | 1995-03-01 | 2000-10-30 | 日本電信電話株式会社 | 音声認識方法 |
US5983180A (en) * | 1997-10-23 | 1999-11-09 | Softsound Limited | Recognition of sequential data using finite state sequence models organized in a tree structure |
GB9808802D0 (en) * | 1998-04-24 | 1998-06-24 | Glaxo Group Ltd | Pharmaceutical formulations |
DE69919842T2 (de) * | 1998-12-21 | 2005-09-01 | Philips Intellectual Property & Standards Gmbh | Sprachmodell basierend auf der spracherkennungshistorie |
JP3559479B2 (ja) * | 1999-09-22 | 2004-09-02 | 日本電信電話株式会社 | 連続音声認識方法 |
JP2001265383A (ja) * | 2000-03-17 | 2001-09-28 | Seiko Epson Corp | 音声認識方法および音声認識処理プログラムを記録した記録媒体 |
DE10205087A1 (de) * | 2002-02-07 | 2003-08-21 | Pharmatech Gmbh | Cyclodextrine als Suspensionsstabilisatoren in druckverflüssigten Treibmitteln |
CA2479665C (en) * | 2002-03-20 | 2011-08-30 | Elan Pharma International Ltd. | Nanoparticulate compositions of angiogenesis inhibitors |
JP2004191705A (ja) * | 2002-12-12 | 2004-07-08 | Renesas Technology Corp | 音声認識装置 |
-
2005
- 2005-03-22 US US11/547,083 patent/US20070203700A1/en not_active Abandoned
- 2005-03-22 CN CNA2005800102998A patent/CN1957397A/zh active Pending
- 2005-03-22 JP JP2006511627A patent/JP4340685B2/ja not_active Expired - Fee Related
- 2005-03-22 WO PCT/JP2005/005644 patent/WO2005096271A1/ja active Application Filing
Cited By (1)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN102842307A (zh) * | 2012-08-17 | 2012-12-26 | 鸿富锦精密工业(深圳)有限公司 | 利用语音控制的电子装置及其语音控制方法 |
Also Published As
Publication number | Publication date |
---|---|
CN1957397A (zh) | 2007-05-02 |
US20070203700A1 (en) | 2007-08-30 |
JPWO2005096271A1 (ja) | 2008-02-21 |
WO2005096271A1 (ja) | 2005-10-13 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
EP2048655B1 (en) | Context sensitive multi-stage speech recognition | |
JP4301102B2 (ja) | 音声処理装置および音声処理方法、プログラム、並びに記録媒体 | |
KR100612840B1 (ko) | 모델 변이 기반의 화자 클러스터링 방법, 화자 적응 방법및 이들을 이용한 음성 인식 장치 | |
US7761296B1 (en) | System and method for rescoring N-best hypotheses of an automatic speech recognition system | |
Aggarwal et al. | Acoustic modeling problem for automatic speech recognition system: conventional methods (Part I) | |
JP4224250B2 (ja) | 音声認識装置、音声認識方法および音声認識プログラム | |
US11282495B2 (en) | Speech processing using embedding data | |
Siniscalchi et al. | A bottom-up modular search approach to large vocabulary continuous speech recognition | |
JP4340685B2 (ja) | 音声認識装置及び音声認識方法 | |
Metze | Articulatory features for conversational speech recognition | |
Manjunath et al. | Articulatory and excitation source features for speech recognition in read, extempore and conversation modes | |
JP3403838B2 (ja) | 句境界確率計算装置および句境界確率利用連続音声認識装置 | |
JP2745562B2 (ja) | ノイズ適応形音声認識装置 | |
Manjunath et al. | Automatic phonetic transcription for read, extempore and conversation speech for an Indian language: Bengali | |
JP5300000B2 (ja) | 調音特徴抽出装置、調音特徴抽出方法、及び調音特徴抽出プログラム | |
JP2001312293A (ja) | 音声認識方法およびその装置、並びにコンピュータ読み取り可能な記憶媒体 | |
Pinto et al. | Exploiting phoneme similarities in hybrid HMM-ANN keyword spotting | |
JP5158877B2 (ja) | 音声認識方法および装置 | |
Imseng | Multilingual speech recognition: a posterior based approach | |
JPH08241096A (ja) | 音声認識方法 | |
EP2948943B1 (en) | False alarm reduction in speech recognition systems using contextual information | |
Holmes | Modelling segmental variability for automatic speech recognition | |
KR20210052564A (ko) | 빅 데이터를 이용한 최적의 언어 모델 생성 방법 및 이를 위한 장치 | |
Manjunath et al. | Improvement of phone recognition accuracy using source and system features | |
Manjunath et al. | Two-stage phone recognition system using articulatory and spectral features |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
TRDD | Decision of grant or rejection written | ||
A01 | Written decision to grant a patent or to grant a registration (utility model) |
Free format text: JAPANESE INTERMEDIATE CODE: A01 Effective date: 20090630 |
|
A01 | Written decision to grant a patent or to grant a registration (utility model) |
Free format text: JAPANESE INTERMEDIATE CODE: A01 |
|
A61 | First payment of annual fees (during grant procedure) |
Free format text: JAPANESE INTERMEDIATE CODE: A61 Effective date: 20090706 |
|
R150 | Certificate of patent or registration of utility model |
Free format text: JAPANESE INTERMEDIATE CODE: R150 |
|
FPAY | Renewal fee payment (event date is renewal date of database) |
Free format text: PAYMENT UNTIL: 20120710 Year of fee payment: 3 |
|
LAPS | Cancellation because of no payment of annual fees |