JP4219603B2 - 音声認識装置 - Google Patents
音声認識装置 Download PDFInfo
- Publication number
- JP4219603B2 JP4219603B2 JP2002057793A JP2002057793A JP4219603B2 JP 4219603 B2 JP4219603 B2 JP 4219603B2 JP 2002057793 A JP2002057793 A JP 2002057793A JP 2002057793 A JP2002057793 A JP 2002057793A JP 4219603 B2 JP4219603 B2 JP 4219603B2
- Authority
- JP
- Japan
- Prior art keywords
- recognition
- voice
- recognition target
- waiting time
- speech
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Expired - Fee Related
Links
Images
Description
【発明の属する技術分野】
この発明は音声信号を入力し認識結果を出力する音声認識装置に関するものである。
【0002】
【従来の技術】
音声認識を行う場合に、入力した音声信号の音声区間を検出し、検出された音声区間に対して認識対象の語彙(以後、認識対象語彙と呼ぶ)との照合を行うものとして、特開昭59−2109797号公報に開示されたものが一般的であり、図5はこのような音声認識装置の構成を示すブロック図である。
【0003】
図5において、11は入力した音声信号の音声区間を検出する音声区間検出手段、12は音声区間検出手段11で検出された音声区間の音声信号に対して音響分析を行う音響分析手段、13は認識対象となる認識対象語彙と各認識対象語彙の接続関係を定義する構文情報とを記憶する認識対象語彙辞書記憶手段、14は認識の最小単位となる音響モデルと各音響モデルの待ち時間情報を記憶する音響モデル記憶手段、15は音響分析手段12による音響分析結果と、認識対象語彙辞書記憶手段13に記憶されている認識対象語彙と、音響モデル記憶手段14に記憶されている音響モデルとを用いて照合を行い、尤度を演算して認識結果を出力する照合手段である。
【0004】
次に動作について説明する。
音声区間検出手段11は入力した音声信号の音声区間を検出する。ここで、音声区間は、例えば、音声信号のパワーの所定の閾値により検出するものとする。図6は音声区間の始終端検出アルゴリズムを説明する図である。音声区間検出手段11は、図6に示すように、入力した音声信号のパワーが所定の閾値以上の区間を音声区間候補として検出し、その音声区間候補間のポーズ区間が所定の闘値、例えば350msec未満ならば、その二つの音声区間候補を一つの音声区間として検出し、音響分析手段12に検出した音声区間の音声信号を出力する。
【0005】
認識対象語彙辞書記憶手段13が記憶している認識対象語彙は、例えば“とうきょうと”、“かながわけん”、“かまくらし”、“けせんぬま”、“ゆくはし”、・・・という単語と、“かながわけん”から“かまくらし”への接続、“とうきょうと”から“まるのうち”への接続等の、各認識対象語彙の接続関係を定義する構文情報である。この認識対象語彙辞書記憶手段13に記憶する認識対象語彙は認識毎に入れ替えてもかまわない。
【0006】
図7はHMM(Hidden Markov Model)の例を示す図であり、ここでは、“かながわけん”“かまくらし”と接続された場合のHMMを示している。図において、各丸印がHMMの各状態を表し音響モデル記憶手段14に記憶され、矢印が遷移を表し認識対象語彙辞書記憶手段13に記憶されている。また、/L1/は語頭(発声前)の無音区間に対応する音響モデルを表わし、/L2/は語尾(発声後)の無音区間に対応する音響モデルを表わし、/L3/は単語間(発声中)の無音区間に対応する音響モデルを表わしている。
【0007】
音響分析手段12は、音声区間検出手段11で検出された音声区間の音声信号を一定長の長さ(フレーム長)で一定周期(フレーム周期)毎に切り出し、この切り出された音声データ(フレーム毎の音声データ)を分析して、音響分析結果である時系列データを照合手段15に出力する。
【0008】
照合手段15は、音響分析手段12による音響分析結果と、認識対象語彙辞書記憶手段13に記憶されている認識対象語彙と、音響モデル記憶手段14で記憶されている音響モデルとを用いて照合を行い、全認識対象語彙の最終状態での尤度を求め、最終状態で最大尤度を取る認識対象語彙を認識結果として出力する。
【0009】
ここで、照合手段15は、例えば以下のような演算をして尤度を求める。
認識対象語彙辞書記憶手段13に記憶している認識対象語彙lのn番目の状態に対応する音響モデルをdic(l,n)とし、時刻(フレーム)tのときに認識対象語彙lがn番目の状態にあったと仮定し、このときの分析結果の1フレーム分の尤度をlklhd(l,t,n)とする。
【0010】
図8は認識対象語彙lに対する認識パスの例を示す図であり、入力された時刻(フレーム)と、ある認識対象語彙lの状態での経路を示している。この経路は複数考えられるが、図8はそのうちの1つの経路を示しており、認識対象語彙lに対してフレームtでの状態がn番目のときの尤度をlklhd(l,t,n)としている。
【0011】
例えば、図8に示すような経路をとった場合の尤度は、以下の式により演算する。音声区間検出手段11で検出された音声区間の長さがTフレームであったとすると、認識対象語彙lのn番目の状態までのある経路に対する累積尤度Lklhd’(l,n)は次式で表される。
【数1】
ここで、k(t)はフレームtに対して割り当てられた状態が何番目であるかを示す。
【0012】
ここで、この入力音声に対する認識対象語彙lのn番目の状態に到達する経路の中で最大尤度となる累積尤度Lklhd(l,n)は、次式で表わされる。
【数2】
また、認識対象語彙lの尤度LK(l)は最終状態をN(l)とすると、
LK(l)=Lklhd(l,N(l)) (3)
となる。各認識対象語彙の尤度中で最大尤度LK(L)を取る認識対象語彙Lを認識結果として出力する。
【数3】
【0013】
このように、図5に示す従来の音声認識装置では、音声区間検出手段11が入力した音声信号の音声区間を検出し、音響分析手段12が、音声区間検出手段11で検出された音声区間の音声信号をフレーム毎に切り出し、この切り出されたフレーム毎の音声データを分析してその分析結果を照合手段15に出力し、照合手段15はフレーム毎に認識対象語彙辞書記憶手段13に記憶されている認識対象語彙と、音響モデル記憶手段14に記憶されている音響モデルとを用いて照合を行い、全認識対象語彙の最終状態での尤度を求め、最終状態で最大尤度を取る認識対象語彙を認識結果として出力している。
【0014】
【発明が解決しようとする課題】
従来の音声認識装置は、以上のように構成されているので、連続した単語を認識させる場合にポーズ等で音声が途切れると、その後に続く音声を認識できず認識精度が劣化するという課題があった。また、これに対処するため、次の音声区間の入力を一定時間待つ方法を用いると、発声から音声認識結果を出力するまでの応答時間が遅くなると共に、音声の後ろに続くポーズ区間の雑音を拾って認識してしまい認識精度が劣化するという課題があった。
【0015】
この発明は上記のような課題を解決するためになされたもので、連続した単語を認識させる場合にポーズ等で音声が途切れても、認識精度を向上させることができる音声認識装置を得ることを目的とする。
【0016】
【課題を解決するための手段】
この発明に係る音声認識装置は、照合手段からの各部分仮説の尤度と、各部分仮説の構文上の位置又は認識対象語彙上の位置とを入力し、最大尤度となる部分仮説の構文上の位置又は認識対象語彙上の位置に対応して次の音声区間までの待ち時間を設定し、最大尤度となる部分仮説が構文上又は認識対象語彙上、後続する語彙が存在しない位置にある最終結果の場合には、待ち時間を0として最終結果を認識結果として出力し、最大尤度となる部分仮説が予めポーズとして指定されている位置にある中間結果の場合には、0より長い次の音声区間までの第1の待ち時間を設定し、音声区間検出手段からの音声区間検出確定通知を受けて、設定した第1の待ち時間未満に次の音声区間が検出された場合には、照合手段に次の音声区間を継続して照合を行うよう指示し、設定した第1の待ち時間未満に次の音声区間が検出されない場合には、中間結果を認識結果として出力する次音声区間待ち判定手段を備えたものである。
【0017】
この発明に係る音声認識装置は、次音声区間待ち判定手段が、最大尤度となる部分仮説が、構文上又は認識対象語彙上、後続する語彙が存在しない位置にある最終結果以外で、かつ中間結果以外の中間状態の場合には、第1の待ち時間より短い次の音声区間までの第2の待ち時間を設定し、設定した第2の待ち時間未満に次の音声区間が検出された場合には、照合手段に次の音声区間を継続して照合を行うよう指示し、設定した第2の待ち時間未満に次の音声区間が検出されない場合には、中間状態を認識結果として出力するか、又は認識結果なしを出力するものである。
【0018】
この発明に係る音声認識装置は、照合手段からの各部分仮説の尤度と、音響モデル記憶手段に記憶されている各音響モデルの待ち時間情報と、認識対象語彙辞書記憶手段に記憶されている各認識対象語彙の接続関係を定義する構文情報とを入力し、最大尤度となる部分仮説の最後の音響モデルの待ち時間情報により、次の音声区間までの待ち時間を設定し、最大尤度となる部分仮説の最後の音響モデルが語尾の無音区間に対応する音響モデルである場合には、待ち時間を0とし、最大尤度となる部分仮説の最後の音響モデルが単語間の無音区間に対応する音響モデルである場合には、0より長い次の音声区間までの第1の待ち時間を設定し、音声区間検出手段からの音声区間検出確定通知を受けて、設定した待ち時間未満に次の音声区間が検出された場合には、照合手段に次の音声区間を継続して照合を行うよう指示し、設定した待ち時間未満に次の音声区間が検出されない場合には、最大尤度となる部分仮説を認識結果として出力する次音声区間待ち判定手段とを備えたものである。
【0019】
この発明に係る音声認識装置は、次音声区間待ち判定手段が、設定した待ち時間未満に次の音声区間が検出されない場合には、最大尤度となる部分仮説が各認識対象語彙の接続関係を定義する構文情報により認識結果として採用可能かを判断して採用可能な場合に、最大尤度となる部分仮説を認識結果として出力するものである。
【0020】
この発明に係る音声認識装置は、次音声区間待ち判定手段が、最大尤度となる部分仮説が認識結果として採用不可能な場合に、次に尤度が高い部分仮説の最後の音響モデルに対応して次の音声区間までの待ち時間を設定するものである。
【0021】
【発明の実施の形態】
以下、この発明の実施の一形態を説明する。
実施の形態1.
図1はこの発明の実施の形態1による音声認識装置の構成を示すブロック図であり、図において、1は入力した音声信号の音声区間を検出し、検出した音声区間の音声信号を出力すると共に、音声区間を確定したことを示す音声区間確定通知を出力する音声区間検出手段、2は音声区間検出手段1で検出された音声区間の音声信号に対して音響分析を行う音響分析手段、3は認識対象となる認識対象語彙と各認識対象語彙の接続関係を定義する構文情報とを記憶する認識対象語彙辞書記憶手段、4は認識の最小単位となる音響モデルと各音響モデルの待ち時間情報を記憶する音響モデル記憶手段である。
【0022】
また、図1において、5は音響分析手段2による音響分析結果と、認識対象語彙辞書記憶手段3に記憶されている認識対象語彙と、音響モデル記憶手段4に記憶されている音響モデルとを用いて照合を行い、各認識対象語彙の各状態を示す各部分仮説における尤度を演算し、認識対象語彙辞書記憶手段3に記憶されている各認識対象語彙の接続関係を定義する構文情報から、各部分仮説の構文上の位置又は認識対象語彙上の位置を求める照合手段である。
【0023】
さらに、図1において、6は照合手段5からの各部分仮説の尤度と、各部分仮説の構文上の位置又は認識対象語彙上の位置とを入力し、最大尤度となる部分仮説の構文上の位置又は認識対象語彙上の位置に対応して次の音声区間までの待ち時間を設定し、音声区間検出手段1からの音声区間検出確定通知を受けて、設定した待ち時間未満に次の音声区間が検出された場合には、照合手段5に次の音声区間を継続して照合を行うよう指示し、設定した待ち時間未満に次の音声区間が検出されない場合には、最大尤度となる部分仮説を認識結果として出力する次音声区間待ち判定手段である。
【0024】
このように、音響分析手段2、認識対象語彙辞書記憶手段3及び音響モデル記憶手段4は、従来の図5に示す音響分析手段12、認識対象語彙辞書記憶手段13及び音響モデル記憶手段14と同等のものである。
【0025】
次に動作について説明する。
音声区間検出手段1は、図6に示すように、入力した音声信号のパワーが所定の閾値以上の区間を音声区間候補として検出し、その音声区間候補間のポーズ区間が所定の闘値、例えば350msec未満ならば、その二つの音声区間候補を一つの音声区間として検出し、検出した音声区間の音声信号を音響分析手段2に出力する。また、音声区間検出手段1は、音声区間の開始を検出して、所定の闘値以上の音声信号のパワーが所定時間、例えば50msec続いた時点で音声区間であることを確定し、音声区間確定通知を次音声区間待ち判定手段6に出力する。
【0026】
音響分析手段2は、従来と同様に、音声区間検出手段1で検出された音声区間の音声信号に対して音響分析を行う。すなわち、音響分析手段2は、音声区間検出手段1が検出した音声区間の音声信号をフレーム長でフレーム周期毎に切り出し、この切り出されたフレーム毎の音声データを分析して、音響分析結果である時系列データを照合手段5に出力する。
【0027】
従来の照合手段15は最終状態が最大尤度を取る認識対象語彙を認識結果として出力するのに対し、この照合手段5は、認識対象語彙辞書記憶手段3に記憶されている全認識対象語彙のHMMの各状態に対応する音響モデル記憶手段4に記憶されている音響モデルと、音響分析手段2による音響分析結果を用いて、各認識対象語彙の各状態を示す各部分仮説における尤度を演算し、認識対象語彙辞書記憶手段3に記憶されている各認識対象語彙の接続関係を定義する構文情報から、各部分仮説の構文上の位置又は認識対象語彙上の位置を求めて、各部分仮説における尤度と、各部分仮説の構文上の位置又は認識対象語彙上の位置とを次音声区間待ち判定手段6に出力する。
【0028】
ここで、各部分仮説における尤度の演算では、例えば図7において、/ka/までの部分仮説における尤度、/ka/,/na/までの部分仮説における尤度、/ka/,/na/,/ga/までの部分仮説における尤度というように、順次演算し、/ka/,/na/,/ga/,/wa/,/ke/,/N/,/L3/,/ka/,/ma/,/ku/,/ra/,/si/,/L2/までの部分仮説における尤度を演算していく。
【0029】
次音声区間待ち判定手段6は、照合手段5から受け取った部分仮説のうち、最大尤度をとる部分仮説の構文上の位置又は認識対象語彙上の位置に対応して、次の音声区間までの待ち時間を設定し、音声区間検出手段1からの音声区間検出確定通知を受けて、設定した待ち時間未満に次の音声区間が検出された場合には、照合手段5に次の音声区間を継続して照合を行うよう指示し、設定した待ち時間未満に次の音声区間が検出されない場合には、最大尤度となる部分仮説を認識結果として出力する。
【0030】
図2は次音声区間待ち判定手段の判定処理を示すフローチャートであり、ここでは、最大尤度となる部分仮説が構文上又は認識対象語彙上、後続する語彙が存在しない位置にある場合を最終結果とし、認識対象語彙辞書記憶手段3で予めポーズとして指定されている位置にある部分仮説を中間結果とし、それ以外の位置にある部分仮説を中間状態としている。すなわち、図7の例では、最大尤度となる部分仮説が/L2/の位置にある場合には最終結果とし、/L3/の位置にある場合には中間結果とし、/L1/,/L2/,/L3/以外の位置にある場合には中間状態とする。
【0031】
次音声区間待ち判定手段6は、最大尤度となる部分仮説が構文上又は認識対象語彙上の位置に対応して、照合を行った音声区間の終端から次の音声区間の始端までの待ち時間を設定している。例えば、次音声区間待ち判定手段6は、最大尤度となる部分仮説が、最終結果である場合には、続の音声区間を継続して認識する必要がないために待ち時間を0に設定し、中間結果である場合には待ち時間ThTime1を例えば3秒に設定し、中間状態である場合には待ち時間ThTime2を例えば1秒に設定している。
【0032】
図2のステップST11において、次音声区間待ち判定手段6は照合手段5から、部分仮説における尤度、部分仮説の構文上の位置又は認識対象語彙上の位置を受け取る。ステップST12において、受け取った各部分仮説における尤度の中で最大尤度となる部分仮説を判定用部分仮説とする。ステップST13において、受け取った各部分仮説の構文上の位置又は認識対象語彙上の位置から、判定用部分仮説が最終結果であるかを判定し、判定用部分仮説が最終結果の場合には、待ち時間が0であるため、ステップST14において、判定用部分仮説を即座に認識結果として出力する。
【0033】
ステップST13で、判定用部分仮説が最終結果でなければ、ステップST15にいて、判定用部分仮説が中間結果であるかを判定し、中間結果であればステップST16に進み、中間結果でなければ、すなわち、中間状態であれば、ステップST19に進む。判定用部分仮説が中間結果の場合には、ステップST16において、音声区間検出手段1からの音声区間確定通知を受けて、照合を行った音声区間の終端から次の音声区間の始端までの待ち時間がThTime1未満、例えばThTime1=3秒未満であるかをチェックする。
【0034】
ステップST16で、次の音声区間が検出されないまま待ち時間ThTime1を経過した場合、ステップST17において、タイムアウト処理として中間結果を認識結果として出力する。一方、ステップST16で、ThTime1未満で次音声区間が検出されていれば、ステップST18において、照合手段5に以前の照合状態から継続して認識を行うように指示する。
【0035】
ここで、中間結果のときに、次の音声区間の待ち時間(ThTime1)を、例えば3秒と長めに設定しているのは、部分仮説が中間結果の場合、もともとポーズ(無音区間)が挿入されることが予想されているため、無音区間が長い可能性が高いためである。
【0036】
また、ステップST15で、判定用部分仮説が中間状態の場合には、ステップST19において、音声区間検出手段1からの音声区間確定通知を受けて、照合を行った音声区間の終端から次の音声区間の始端までの待ち時間がThTime2未満、例えばThTime2=1秒未満であるかをチェックして、ThTime1未満で次音声区間が検出されていれば、ステップST18において、照合手段5に以前の照合状態から継続して認識を行うように指示する。
【0037】
ステップST19で、次の音声区間が検出されないまま待ち時間が一定時間ThTime2を経過した場合、ステップST20においてタイムアウト処理を行う。このタイムアウト処理では、前の音声区間での部分仮説の中で認識結果として出力することができる最大尤度のものを認識結果として出力する。また、このタイムアウト処理では、認識結果なしということでリジェクトとしても良い。
【0038】
ここで、中間状態のときの次の音声区間の待ち時間ThTime2を、中間結果のときの待ち時間ThTime1より短めに設定しているのは、文章や単語の区切り等、予めポーズが想定されている場所に比べて、それ程長いポーズが入らないと想定されるためである。
【0039】
なお、この実施の形態1では、説明の便宜上、構文上の位置又は認識対象語彙上の位置を、最終結果、中間結果、中間状態の3種類としたが、例えば、図7に示す認識対象語彙“かながわけん”の“かながわ”と“けん”の間に別の待ち時間を設定する等、さらに細かい設定をしても良い。
【0040】
以上のように、この実施の形態1によれば、最大尤度となる部分仮説の構文上の位置又は認識対象語彙上の位置に対応して、次の音声区間までの待ちの時間を設定することにより、連続した単語を認識させる場合にポーズ等で音声が途切れても、認識精度を向上させることができるという効果が得られる。
【0041】
また、この実施の形態1によれば、構文の最後まで発声が終了している場合には、発声から音声認識結果を出力するまでの応答時間を早くすることができるという効果が得られる。
【0042】
実施の形態2.
図3はこの発明の実施の形態2による音声認識装置の構成を示すブロック図である。図において、5aは音響分析手段2による音響分析結果と、認識対象語彙辞書記憶手段3に記憶されている認識対象語彙と、音響モデル記憶手段4に記憶されている音響モデルとを用いて照合を行い、各認識対象語彙の各状態を示す各部分仮説における尤度を演算する照合手段である。
【0043】
また、図3において、6aは照合手段5aからの部分仮説の尤度と、音響モデル記憶手段4からの各音響モデルの待ち時間情報と、認識対象語彙辞書記憶手段3からの各認識対象語彙の接続関係を定義する構文情報とを入力し、最大尤度となる部分仮説の最後の音響モデルの待ち時間情報により、次の音声区間までの待ち時間を設定し、音声区間検出手段1からの音声区間検出確定通知を受けて、設定した待ち時間未満に次の音声区間が検出された場合には、照合手段5aに次の音声区間を継続して照合を行うよう指示し、設定した待ち時間未満に次の音声区間が検出されない場合には、認識対象語彙辞書記憶手段3からの構文情報により、最大尤度となる部分仮説が認識結果として採用可能かを判断して、認識結果を出力する次音声区間待ち判定手段である。
【0044】
さらに、図3において、音声区間検出手段1、音響分析手段2、認識対象語彙辞書記憶手段3、音響モデル記憶手段4は実施の形態1の図1に示す構成と同等である。
【0045】
次に動作について説明する。
上記実施の形態1では、最大尤度となる部分仮説の構文上の位置又は認識対象語彙上の位置に対応して、次の音声区間までの待ち時間を設定していたが、この実施の形態2では、最大尤度となる部分仮説の最後の音響モデルに対応して、次の音声区間までの待ち時間を設定するものである。
【0046】
例えば、図7において、語頭(発声前)の無音区間に対応する音響モデル/L1/に対しては音声区間の待ち時間を1秒とし、語尾(発声後)の無音区間に対応する音響モデル/L2/に対しては音声区間の待ち時間を0秒とし、単語間(発声中)の無音区間に対応する音響モデル/L3/に対しては音声区間の待ち時間を3秒とし、それ以外の/ka/,/na/等の音響モデルに対しては1秒等とする。また、拗音に対応する音響モデルに対しては例えば2秒とし、さらに、騒音下環境で音声区間検出で誤って無音区間と判断されやすい音響モデル、例えば無声化しやすい「し」、「ひ」、「ふ」、「ち」等に対しては、例えば1.5秒とする。これらの待ち時間は音響モデル記憶手段4に各音響モデルの待ち時間情報として記憶されている。
【0047】
図4は次音声区間待ち判定手段の判定処理を示すフローチャートである。ステップST21において、次音声区間待ち判定手段6aは照合手段5aから、各部分仮説における尤度を受け取る。ステップST22において、受け取った部分仮説の中で最大尤度を取る部分仮説を判定用部分仮説とする。
【0048】
ステップST23において、判定用部分仮説の最後の音響モデルpの待ち時間情報を音響モデル記憶手段4から抽出し、抽出した待ち時間情報により、次の音声区間の待ち時間ThTime(p)を設定する。例えば、図7において、最後の音響モデルが/L2/の場合にはThTime(p)=0秒と設定し、/L3/の場合にはThTime(p)=3秒と設定する。
【0049】
ステップST24において、音声区間検出手段1からの音声区間確定通知を受けて、照合を行った音声区間の終端からの次の音声区間の始端までの待ち時間が、ThTime(p)を超えていないかをチェックする。ステップST24で、待ち時間ThTime(p)未満で次の音声区間が検出されていれば、ステップST25において、照合手段5aに以前の照合状態から継続して認識を行うように指示する。
【0050】
一方、ステップST24で、次の音声区間が検出されないまま待ち時間ThTime(p)を経過した場合、次のステップST26からステップST29までのタイムアウト処理を行う。このタイムアウト処理として、例えば以下のような処理を行う。
【0051】
ステップST26において、判定用部分仮説が認識結果として採用できるものであるか判定する。判定用部分仮説が認識結果として採用できるかは、認識対象語彙辞書記憶手段3に各認識対象語彙の接続関係を定義する構文情報として記憶されている。この構文情報としては、例えば図7において、語尾(発声後)の無音区間に対応する音響モデル/L2/に到達している部分仮説だけを認識結果として採用するとか、語尾(発声後)の無音区間に対応する音響モデル/L2/、又は単語間(発声中)の無音区間に対応する音響モデル/L3/に到達している部分仮説を認識結果として採用するというものである。
【0052】
ステップST26の判定結果で、認識結果として採用可能であれば、ステップST27において、判定用部分仮説を認識結果として出力する。ステップST26の判定結果で、認識結果として採用不可能であれば、ステップST28において、判定用部分仮説の次に尤度が高い部分仮説が存在するかチェックする。
【0053】
ステップST28で、次に尤度が高い部分仮説が存在していれば、ステップST29において、次に尤度が高い部分仮説を新たな判定部分用部分仮説とし、ステップST23に戻り、上記の処理を繰り返す。一方、ステップST28で、次に尤度が高い部分仮説が存在しなければ、認識結果なしとしてリジェクトし終了する。
【0054】
ここで、次に尤度が高い部分仮説が存在しない場合があるのは、全ての部分仮説の演算量は膨大になるため、ビームサーチと呼ばれる方法等により、フレーム毎に、最大尤度から一定以上の尤度の差がある部分仮説の演算をしなかったり、最大尤度となる部分仮説から上位n個までの部分仮説の演算しかしないことにより演算量を削減しているからである。
【0055】
以上のように、この実施の形態2によれば、最大尤度となる部分仮説の最後の音響モデルに対応して、次の音声区間までの待ち時間を設定することにより、連続した単語を認識させる場合にポーズ等で音声が途切れても、認識精度を向上させることができると共に、ポーズや、拗音等で想定される無音区間が異なることに対応でき、無声化しやすい音声を音声区間検出で誤って無音区間とした場合にも対応でき、認識精度を向上させることができるという効果が得られる。
【0056】
また、この実施の形態2によれば、最大尤度となる部分仮説の最後の音響モデルに対応して次の音声区間までの待ち時間を設定することにより、最大尤度となる部分仮説の構文上の位置又は認識対象語彙上の位置に対応して、次の音声区間待ちの時間を設定するよりも、構文や認識対象語彙を変更する際に、細かく待ち時間を設定する必要がなくなるという効果が得られる。
【0057】
上記実施の形態1及び実施の形態2の音声認識装置の各手段については、ハードウェア、ソフトウェアのいずれでも構成できることはいうまでもない。また、ソフトウェアによって構成する場合には、そのソフトウェアを記録した媒体が必要となる。
【0058】
【発明の効果】
以上のように、この発明によれば、照合手段からの各部分仮説の尤度と、各部分仮説の構文上の位置又は認識対象語彙上の位置とを入力し、最大尤度となる部分仮説の構文上の位置又は認識対象語彙上の位置に対応して次の音声区間までの待ち時間を設定し、最大尤度となる部分仮説が構文上又は認識対象語彙上、後続する語彙が存在しない位置にある最終結果の場合には、待ち時間を0として最終結果を認識結果として出力し、最大尤度となる部分仮説が予めポーズとして指定されている位置にある中間結果の場合には、0より長い次の音声区間までの第1の待ち時間を設定し、音声区間検出手段からの音声区間検出確定通知を受けて、設定した第1の待ち時間未満に次の音声区間が検出された場合には、照合手段に次の音声区間を継続して照合を行うよう指示し、設定した第1の待ち時間未満に次の音声区間が検出されない場合には、中間結果を認識結果として出力する次音声区間待ち判定手段を備えるように構成したので、構文の最後まで発声が終了している場合には、発声から音声認識結果を出力するまでの応答時間を早くすることができ、また、連続した単語を認識させる場合にポーズ等で音声が途切れても、認識精度を向上させることができるという効果がある。
【0059】
この発明によれば、次音声区間待ち判定手段が、最大尤度となる部分仮説が、構文上又は認識対象語彙上、後続する語彙が存在しない位置にある最終結果以外で、かつ中間結果以外の中間状態の場合には、第1の待ち時間より短い次の音声区間までの第2の待ち時間を設定し、設定した第2の待ち時間未満に次の音声区間が検出された場合には、照合手段に次の音声区間を継続して照合を行うよう指示し、設定した第2の待ち時間未満に次の音声区間が検出されない場合には、中間状態を認識結果として出力するか、又は認識結果なしを出力するように構成したので、連続した単語を認識させる場合に中間状態等で音声が途切れても、認識精度を向上させることができるという効果がある。
【0060】
この発明によれば、照合手段からの各部分仮説の尤度と、音響モデル記憶手段に記憶されている各音響モデルの待ち時間情報と、認識対象語彙辞書記憶手段に記憶されている各認識対象語彙の接続関係を定義する構文情報とを入力し、最大尤度となる部分仮説の最後の音響モデルの待ち時間情報により、次の音声区間までの待ち時間を設定し、最大尤度となる部分仮説の最後の音響モデルが語尾の無音区間に対応する音響モデルである場合には、待ち時間を0とし、最大尤度となる部分仮説の最後の音響モデルが単語間の無音区間に対応する音響モデルである場合には、0より長い次の音声区間までの第1の待ち時間を設定し、音声区間検出手段からの音声区間検出確定通知を受けて、設定した待ち時間未満に次の音声区間が検出された場合には、照合手段に次の音声区間を継続して照合を行うよう指示し、設定した待ち時間未満に次の音声区間が検出されない場合には、最大尤度となる部分仮説を認識結果として出力する次音声区間待ち判定手段とを備えるように構成したので、構文の最後まで発声が終了している場合には、発声から音声認識結果を出力するまでの応答時間を早くすることができ、また、連続した単語を認識させる場合にポーズ等で音声が途切れても、認識精度を向上させることができると共に、ポーズや、拗音等で想定される無音区間が異なることに対応でき、無声化しやすい音声を音声区間検出で誤って無音 区間とした場合にも対応でき、認識精度を向上させることができるという効果がある。
【0061】
この発明によれば、次音声区間待ち判定手段が、設定した待ち時間未満に次の音声区間が検出されない場合には、最大尤度となる部分仮説が各認識対象語彙の接続関係を定義する構文情報により認識結果として採用可能かを判断して採用可能な場合に、最大尤度となる部分仮説を認識結果として出力するように構成したので、認識精度を向上させることができるという効果がある。
【0062】
この発明によれば、次音声区間待ち判定手段が、次音声区間待ち判定手段が、最大尤度となる部分仮説が認識結果として採用不可能な場合に、次に尤度が高い部分仮説の最後の音響モデルに対応して次の音声区間までの待ち時間を設定するように構成したので、無声化しやすい音声を音声区間検出で誤って無音区間とした場合にも対応でき、認識精度を向上させることができるという効果がある。
【図面の簡単な説明】
【図1】 この発明の実施の形態1による音声認識装置の構成を示すブロック図である。
【図2】 この発明の実施の形態1による音声認識装置の次音声区間待ち判定手段の判定処理を示すフローチャートである。
【図3】 この発明の実施の形態2による音声認識装置の構成を示すブロック図である。
【図4】 この発明の実施の形態2による音声認識装置の次音声区間待ち判定手段の判定処理を示すフローチャートである。
【図5】 従来の音声認識装置の構成を示すブロック図である。
【図6】 音声区間の始終端検出アルゴリズムを説明する図である。
【図7】 HMMの例を示す図である。
【図8】 認識対象語彙に対する認識パスの例を示す図である。
【符号の説明】
1 音声区間検出手段、2 音響分析手段、3 認識対象語彙辞書記憶手段、4 音響モデル記憶手段、5,5a 照合手段、6,6a 次音声区間待ち判定手段。
Claims (5)
- 入力した音声信号の音声区間を検出すると共に、音声区間を確定したことを示す音声区間確定通知を出力する音声区間検出手段と、
上記音声区間検出手段で検出された音声区間の音声信号に対して音響分析を行う音響分析手段と、
認識対象となる認識対象語彙と各認識対象語彙の接続関係を定義する構文情報とを記憶する認識対象語彙辞書記憶手段と、
認識の最小単位となる音響モデルを記憶する音響モデル記憶手段と、
上記音響分析手段による音響分析結果と、上記認識対象語彙辞書記憶手段に記憶されている認識対象語彙と、上記音響モデル記憶手段に記憶されている音響モデルとを用いて照合を行い、各認識対象語彙の各状態を示す各部分仮説における尤度を演算し、上記認識対象語彙辞書記憶手段に記憶されている各認識対象語彙の接続関係を定義する構文情報から、上記部分仮説の構文上の位置又は認識対象語彙上の位置を求める照合手段と、
上記照合手段からの上記各部分仮説の尤度と、上記各部分仮説の構文上の位置又は認識対象語彙上の位置とを入力し、最大尤度となる部分仮説の構文上の位置又は認識対象語彙上の位置に対応して次の音声区間までの待ち時間を設定し、最大尤度となる部分仮説が構文上又は認識対象語彙上、後続する語彙が存在しない位置にある最終結果の場合には、待ち時間を0として上記最終結果を認識結果として出力し、最大尤度となる部分仮説が予めポーズとして指定されている位置にある中間結果の場合には、0より長い次の音声区間までの第1の待ち時間を設定し、上記音声区間検出手段からの音声区間検出確定通知を受けて、設定した上記第1の待ち時間未満に次の音声区間が検出された場合には、上記照合手段に次の音声区間を継続して照合を行うよう指示し、設定した上記第1の待ち時間未満に次の音声区間が検出されない場合には、上記中間結果を認識結果として出力する次音声区間待ち判定手段とを備えた音声認識装置。 - 次音声区間待ち判定手段は、最大尤度となる部分仮説が、構文上又は認識対象語彙上、後続する語彙が存在しない位置にある最終結果以外で、かつ中間結果以外の中間状態の場合には、第1の待ち時間より短い次の音声区間までの第2の待ち時間を設定し、設定した上記第2の待ち時間未満に次の音声区間が検出された場合には、照合手段に次の音声区間を継続して照合を行うよう指示し、設定した上記第2の待ち時間未満に次の音声区間が検出されない場合には、上記中間状態を認識結果として出力するか、又は認識結果なしを出力することを特徴とする請求項1記載の音声認識装置。
- 入力した音声信号の音声区間を検出すると共に、音声区間を確定したことを示す音声区間確定通知を出力する音声区間検出手段と、
上記音声区間検出手段で検出された音声区間の音声信号に対して音響分析を行う音響分析手段と、
認識対象となる認識対象語彙と各認識対象語彙の接続関係を定義する構文情報とを記憶する認識対象語彙辞書記憶手段と、
認識の最小単位となる音響モデルと各音響モデルの待ち時間情報を記憶する音響モデル記憶手段と、
上記音響分析手段による音響分析結果と、上記認識対象語彙辞書記憶手段に記憶されている認識対象語彙と、上記音響モデル記憶手段に記憶されている音響モデルとを用いて照合を行い、各認識対象語彙の各状態を示す各部分仮説における尤度を演算する照合手段と、
上記照合手段からの上記各部分仮説の尤度と、上記音響モデル記憶手段に記憶されている各音響モデルの待ち時間情報と、上記認識対象語彙辞書記憶手段に記憶されている各認識対象語彙の接続関係を定義する構文情報とを入力し、最大尤度となる部分仮説の最後の音響モデルの待ち時間情報により、次の音声区間までの待ち時間を設定し、最大尤度となる部分仮説の最後の音響モデルが語尾の無音区間に対応する音響モデルである場合には、 待ち時間を0とし、最大尤度となる部分仮説の最後の音響モデルが単語間の無音区間に対応する音響モデルである場合には、0より長い次の音声区間までの第1の待ち時間を設定し、上記音声区間検出手段からの音声区間検出確定通知を受けて、設定した待ち時間未満に次の音声区間が検出された場合には、上記照合手段に次の音声区間を継続して照合を行うよう指示し、設定した待ち時間未満に次の音声区間が検出されない場合には、上記最大尤度となる部分仮説を認識結果として出力する次音声区間待ち判定手段とを備えた音声認識装置。 - 次音声区間待ち判定手段は、設定した待ち時間未満に次の音声区間が検出されない場合には、最大尤度となる部分仮説が各認識対象語彙の接続関係を定義する構文情報により認識結果として採用可能かを判断して採用可能な場合に、上記最大尤度となる部分仮説を認識結果として出力することを特徴とする請求項3記載の音声認識装置。
- 次音声区間待ち判定手段は、最大尤度となる部分仮説が認識結果として採用不可能な場合に、次に尤度が高い部分仮説の最後の音響モデルに対応して次の音声区間までの待ち時間を設定することを特徴とする請求項4記載の音声認識装置。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
JP2002057793A JP4219603B2 (ja) | 2002-03-04 | 2002-03-04 | 音声認識装置 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
JP2002057793A JP4219603B2 (ja) | 2002-03-04 | 2002-03-04 | 音声認識装置 |
Publications (2)
Publication Number | Publication Date |
---|---|
JP2003255972A JP2003255972A (ja) | 2003-09-10 |
JP4219603B2 true JP4219603B2 (ja) | 2009-02-04 |
Family
ID=28667972
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
JP2002057793A Expired - Fee Related JP4219603B2 (ja) | 2002-03-04 | 2002-03-04 | 音声認識装置 |
Country Status (1)
Country | Link |
---|---|
JP (1) | JP4219603B2 (ja) |
Families Citing this family (5)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
JP4297349B2 (ja) * | 2004-03-30 | 2009-07-15 | Kddi株式会社 | 音声認識システム |
JP4791857B2 (ja) * | 2006-03-02 | 2011-10-12 | 日本放送協会 | 発話区間検出装置及び発話区間検出プログラム |
KR101422020B1 (ko) | 2007-11-27 | 2014-07-23 | 엘지전자 주식회사 | 음성 인식 방법 및 장치 |
US10121471B2 (en) * | 2015-06-29 | 2018-11-06 | Amazon Technologies, Inc. | Language model speech endpointing |
CN112466296A (zh) * | 2020-11-10 | 2021-03-09 | 北京百度网讯科技有限公司 | 语音交互的处理方法、装置、电子设备及存储介质 |
-
2002
- 2002-03-04 JP JP2002057793A patent/JP4219603B2/ja not_active Expired - Fee Related
Also Published As
Publication number | Publication date |
---|---|
JP2003255972A (ja) | 2003-09-10 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
US9002705B2 (en) | Interactive device that recognizes input voice of a user and contents of an utterance of the user, and performs a response corresponding to the recognized contents | |
JP4414088B2 (ja) | 音声認識において無音を使用するシステム | |
US7801726B2 (en) | Apparatus, method and computer program product for speech processing | |
KR101417975B1 (ko) | 오디오 레코드의 엔드포인트를 자동 감지하는 방법 및 시스템 | |
JP3004883B2 (ja) | 終話検出方法及び装置並びに連続音声認識方法及び装置 | |
US6317711B1 (en) | Speech segment detection and word recognition | |
JP2007057844A (ja) | 音声認識システムおよび音声処理システム | |
JP6464005B2 (ja) | 雑音抑圧音声認識装置およびそのプログラム | |
JPH05204394A (ja) | ワードスポッティング法 | |
WO2010128560A1 (ja) | 音声認識装置、音声認識方法、及び音声認識プログラム | |
JP4219603B2 (ja) | 音声認識装置 | |
JP4791857B2 (ja) | 発話区間検出装置及び発話区間検出プログラム | |
JPH10254475A (ja) | 音声認識方法 | |
JP4583772B2 (ja) | 音声認識システム、音声認識方法および音声認識用プログラム | |
KR20050049207A (ko) | 대화형 연속 음성인식 시스템 및 이를 이용한 음성끝점검출방법 | |
JP2001343983A (ja) | 音声始端検出方法、音声認識装置における音声区間検出方法および音声認識装置 | |
JP3615088B2 (ja) | 音声認識方法及び装置 | |
JP6026224B2 (ja) | パターン認識方法および装置ならびにパターン認識プログラムおよびその記録媒体 | |
JPH08241096A (ja) | 音声認識方法 | |
JP2001175276A (ja) | 音声認識装置及び記録媒体 | |
JPH1185184A (ja) | 音声認識装置 | |
JP3893911B2 (ja) | 音声認識システム | |
JP3583930B2 (ja) | 音声認識装置及びその方法 | |
JPH10240290A (ja) | 音声認識処理方法、音声認識システム及び記録媒体 | |
JP4297349B2 (ja) | 音声認識システム |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
A621 | Written request for application examination |
Free format text: JAPANESE INTERMEDIATE CODE: A621 Effective date: 20050301 |
|
A977 | Report on retrieval |
Free format text: JAPANESE INTERMEDIATE CODE: A971007 Effective date: 20070802 |
|
A131 | Notification of reasons for refusal |
Free format text: JAPANESE INTERMEDIATE CODE: A131 Effective date: 20070814 |
|
A521 | Request for written amendment filed |
Free format text: JAPANESE INTERMEDIATE CODE: A523 Effective date: 20071012 |
|
A521 | Request for written amendment filed |
Free format text: JAPANESE INTERMEDIATE CODE: A821 Effective date: 20071022 |
|
RD02 | Notification of acceptance of power of attorney |
Free format text: JAPANESE INTERMEDIATE CODE: A7422 Effective date: 20071022 |
|
RD04 | Notification of resignation of power of attorney |
Free format text: JAPANESE INTERMEDIATE CODE: A7424 Effective date: 20071022 |
|
RD04 | Notification of resignation of power of attorney |
Free format text: JAPANESE INTERMEDIATE CODE: A7424 Effective date: 20080812 |
|
TRDD | Decision of grant or rejection written | ||
A01 | Written decision to grant a patent or to grant a registration (utility model) |
Free format text: JAPANESE INTERMEDIATE CODE: A01 Effective date: 20081014 |
|
A01 | Written decision to grant a patent or to grant a registration (utility model) |
Free format text: JAPANESE INTERMEDIATE CODE: A01 |
|
A61 | First payment of annual fees (during grant procedure) |
Free format text: JAPANESE INTERMEDIATE CODE: A61 Effective date: 20081112 |
|
FPAY | Renewal fee payment (event date is renewal date of database) |
Free format text: PAYMENT UNTIL: 20111121 Year of fee payment: 3 |
|
R150 | Certificate of patent or registration of utility model |
Free format text: JAPANESE INTERMEDIATE CODE: R150 |
|
FPAY | Renewal fee payment (event date is renewal date of database) |
Free format text: PAYMENT UNTIL: 20121121 Year of fee payment: 4 |
|
FPAY | Renewal fee payment (event date is renewal date of database) |
Free format text: PAYMENT UNTIL: 20121121 Year of fee payment: 4 |
|
FPAY | Renewal fee payment (event date is renewal date of database) |
Free format text: PAYMENT UNTIL: 20131121 Year of fee payment: 5 |
|
R250 | Receipt of annual fees |
Free format text: JAPANESE INTERMEDIATE CODE: R250 |
|
R250 | Receipt of annual fees |
Free format text: JAPANESE INTERMEDIATE CODE: R250 |
|
R250 | Receipt of annual fees |
Free format text: JAPANESE INTERMEDIATE CODE: R250 |
|
LAPS | Cancellation because of no payment of annual fees |