JP2905686B2 - 音声認識装置 - Google Patents
音声認識装置Info
- Publication number
- JP2905686B2 JP2905686B2 JP6050294A JP5029494A JP2905686B2 JP 2905686 B2 JP2905686 B2 JP 2905686B2 JP 6050294 A JP6050294 A JP 6050294A JP 5029494 A JP5029494 A JP 5029494A JP 2905686 B2 JP2905686 B2 JP 2905686B2
- Authority
- JP
- Japan
- Prior art keywords
- speech recognition
- pause
- speech
- voice
- uttered
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Expired - Lifetime
Links
- 238000000034 method Methods 0.000 claims description 43
- 238000001514 detection method Methods 0.000 claims description 26
- 230000006870 function Effects 0.000 claims description 13
- 238000012545 processing Methods 0.000 description 39
- 238000010586 diagram Methods 0.000 description 9
- 230000006835 compression Effects 0.000 description 7
- 238000007906 compression Methods 0.000 description 7
- 230000004044 response Effects 0.000 description 5
- 230000007704 transition Effects 0.000 description 4
- 230000001419 dependent effect Effects 0.000 description 2
- 238000000605 extraction Methods 0.000 description 2
- 239000002245 particle Substances 0.000 description 2
- 238000013138 pruning Methods 0.000 description 2
- 230000005236 sound signal Effects 0.000 description 2
- 244000141353 Prunus domestica Species 0.000 description 1
- 238000013528 artificial neural network Methods 0.000 description 1
- 238000004422 calculation algorithm Methods 0.000 description 1
- 238000004364 calculation method Methods 0.000 description 1
- 238000006243 chemical reaction Methods 0.000 description 1
- 238000004891 communication Methods 0.000 description 1
- 238000007796 conventional method Methods 0.000 description 1
- 238000009795 derivation Methods 0.000 description 1
- 230000000694 effects Effects 0.000 description 1
- 239000011159 matrix material Substances 0.000 description 1
- 239000000203 mixture Substances 0.000 description 1
- 238000011160 research Methods 0.000 description 1
- 230000001360 synchronised effect Effects 0.000 description 1
- 230000002123 temporal effect Effects 0.000 description 1
- 238000012795 verification Methods 0.000 description 1
Description
【0001】
【産業上の利用分野】本発明は音声認識装置に関し、特
に、発声音声中におけるポーズ(無音区間)又は冗長語
などの無音区間等を検出して連続的に音声認識を実行す
る音声認識装置に関する。なお、本明細書では、ポーズ
と冗長語並びに韻律的な情報等を手がかりとする区切り
とを含むものを無音区間等という。
に、発声音声中におけるポーズ(無音区間)又は冗長語
などの無音区間等を検出して連続的に音声認識を実行す
る音声認識装置に関する。なお、本明細書では、ポーズ
と冗長語並びに韻律的な情報等を手がかりとする区切り
とを含むものを無音区間等という。
【0002】
【従来の技術】近年、連続音声認識の研究が盛んに行わ
れ、いくつかの研究機関で文音声認識システムが構築さ
れている。これらのシステムの多くは丁寧に発声された
音声を入力対象にしている。しかしながら、人間同士の
コミュニケーションでは、「あのー」、「えーと」など
に代表される冗長語や、一時的に発声音声が無い無音区
間等の状態のポーズである言い淀みや言い誤り及び言い
直しなどが頻繁に出現する。
れ、いくつかの研究機関で文音声認識システムが構築さ
れている。これらのシステムの多くは丁寧に発声された
音声を入力対象にしている。しかしながら、人間同士の
コミュニケーションでは、「あのー」、「えーと」など
に代表される冗長語や、一時的に発声音声が無い無音区
間等の状態のポーズである言い淀みや言い誤り及び言い
直しなどが頻繁に出現する。
【0003】図2は、従来例の連続音声認識装置の音声
認識動作をスタック形式で示す図であり、ここでは、
「会議に申し込みます」と話した時に、「会議に申し込
みます」、「会議に申し上げます」、「会員に申し込み
ます」、「会員に申し上げます」の4つの候補が出力さ
れる連続音声認識の処理過程を描いている。
認識動作をスタック形式で示す図であり、ここでは、
「会議に申し込みます」と話した時に、「会議に申し込
みます」、「会議に申し上げます」、「会員に申し込み
ます」、「会員に申し上げます」の4つの候補が出力さ
れる連続音声認識の処理過程を描いている。
【0004】まず、「か」という音が認識され、文字と
して積まれる。次に、「い」という音が音声認識され、
文字として積まれる。その次には、「ぎ」という音と、
「い」「ん」という音が認識されるので、文字を積む装
置を2つに分離して、双方の文字を積んでいく。「かい
ぎ」と「かいいん」は音声認識用辞書に載っているの
で、ともに、名詞を表す「n」という文字に変換され
る。次に「に」が認識され、辞書引きの結果、それが助
詞を表す「p」という文字に変換される。そして、名詞
に助詞がつながって名詞句を表す「NP」という文字に
変換される。ここで、「会議に」と「会員に」は、とも
に名詞句「NP」となるので、その後に同一の候補「申
し込みます」と「申し上げます」がつながり得る。
して積まれる。次に、「い」という音が音声認識され、
文字として積まれる。その次には、「ぎ」という音と、
「い」「ん」という音が認識されるので、文字を積む装
置を2つに分離して、双方の文字を積んでいく。「かい
ぎ」と「かいいん」は音声認識用辞書に載っているの
で、ともに、名詞を表す「n」という文字に変換され
る。次に「に」が認識され、辞書引きの結果、それが助
詞を表す「p」という文字に変換される。そして、名詞
に助詞がつながって名詞句を表す「NP」という文字に
変換される。ここで、「会議に」と「会員に」は、とも
に名詞句「NP」となるので、その後に同一の候補「申
し込みます」と「申し上げます」がつながり得る。
【0005】
【発明が解決しようとする課題】しかしながら、従来例
の連続音声認識装置においては、音声中に無音区間等の
区切りを含む長い発話を扱うと、音声認識が進行するに
つれて、統語的に同一の働きをする複数の候補に対し
て、その先につながり得る、まったく同一の候補を、そ
れぞれ個別に処理しなければならなかった。すなわち、
従来例の連続音声認識装置では、それら同一の候補を個
別に処理しなければならず、処理量が不要に増大すると
いう問題点があった。
の連続音声認識装置においては、音声中に無音区間等の
区切りを含む長い発話を扱うと、音声認識が進行するに
つれて、統語的に同一の働きをする複数の候補に対し
て、その先につながり得る、まったく同一の候補を、そ
れぞれ個別に処理しなければならなかった。すなわち、
従来例の連続音声認識装置では、それら同一の候補を個
別に処理しなければならず、処理量が不要に増大すると
いう問題点があった。
【0006】本発明の目的は以上の問題点を解決し、従
来例に比較して大幅に処理量を削減することができ、音
声認識の処理速度を高めることができる音声認識装置を
提供することにある。
来例に比較して大幅に処理量を削減することができ、音
声認識の処理速度を高めることができる音声認識装置を
提供することにある。
【0007】
【課題を解決するための手段】本発明に係る請求項1記
載の音声認識装置は、入力された文字列からなる発声音
声文を音声認識する音声認識手段を備えた音声認識装置
において、入力された発声音声文に基づいてポーズと冗
長語と句又は節の境界とのうちの少なくとも1つを検出
して検出信号を出力する検出手段を備え、上記音声認識
手段は、隠れマルコフモデルを用いたLR法を用いて音
声認識処理を実行し、かつ、上記検出信号が入力された
ときに、上記隠れマルコフモデルを用いたLR法に用い
るセルに、音声認識結果候補を示す状態スタックの最上
位の内容が同一のセルを連結してマージすることによ
り、統語的に同一の働きをする複数の音声認識候補を1
つの音声認識候補に圧縮して音声認識処理を実行するこ
とを特徴とする。
載の音声認識装置は、入力された文字列からなる発声音
声文を音声認識する音声認識手段を備えた音声認識装置
において、入力された発声音声文に基づいてポーズと冗
長語と句又は節の境界とのうちの少なくとも1つを検出
して検出信号を出力する検出手段を備え、上記音声認識
手段は、隠れマルコフモデルを用いたLR法を用いて音
声認識処理を実行し、かつ、上記検出信号が入力された
ときに、上記隠れマルコフモデルを用いたLR法に用い
るセルに、音声認識結果候補を示す状態スタックの最上
位の内容が同一のセルを連結してマージすることによ
り、統語的に同一の働きをする複数の音声認識候補を1
つの音声認識候補に圧縮して音声認識処理を実行するこ
とを特徴とする。
【0008】
【0009】さらに、請求項2記載の音声認識装置は、
請求項1記載の音声認識装置において、上記検出手段
は、上記発声音声文のパワーが、所定の時間の範囲だ
け、所定のしきい値以下である第1の条件と、上記発声
音声文のゼロクロスの数が、所定の時間の間において、
所定のしきい値以上である第2の条件とのうち少なくと
も1つの条件が満足することを検出することにより上記
ポーズを検出することを特徴とする。また、請求項3記
載の音声認識装置は、請求項1記載の音声認識装置にお
いて、上記検出手段は、予め格納された複数の冗長語の
言語モデルに一致するか否かを判断することにより上記
冗長語を検出することを特徴とする。さらに、請求項4
記載の音声認識装置は、請求項1記載の音声認識装置に
おいて、上記検出手段は、上記発声音声文の基本周波数
が所定の傾斜の度合い以上で急激に上昇し又は下降して
変化したことを検出することにより上記句又は節の境界
を検出することを特徴とする。
請求項1記載の音声認識装置において、上記検出手段
は、上記発声音声文のパワーが、所定の時間の範囲だ
け、所定のしきい値以下である第1の条件と、上記発声
音声文のゼロクロスの数が、所定の時間の間において、
所定のしきい値以上である第2の条件とのうち少なくと
も1つの条件が満足することを検出することにより上記
ポーズを検出することを特徴とする。また、請求項3記
載の音声認識装置は、請求項1記載の音声認識装置にお
いて、上記検出手段は、予め格納された複数の冗長語の
言語モデルに一致するか否かを判断することにより上記
冗長語を検出することを特徴とする。さらに、請求項4
記載の音声認識装置は、請求項1記載の音声認識装置に
おいて、上記検出手段は、上記発声音声文の基本周波数
が所定の傾斜の度合い以上で急激に上昇し又は下降して
変化したことを検出することにより上記句又は節の境界
を検出することを特徴とする。
【0010】
【作用】請求項1記載の音声認識装置においては、上記
検出手段は、入力された発声音声文に基づいてポーズと
冗長語と句又は節の境界とのうちの少なくとも1つを検
出して検出信号を出力する。そして、上記音声認識手段
は、隠れマルコフモデルを用いたLR法を用いて音声認
識処理を実行し、かつ、上記検出信号が入力されたとき
に、上記隠れマルコフモデルを用いたLR法に用いるセ
ルに、音声認識結果候補を示す状態スタックの最上位の
内容が同一のセルを連結してマージすることにより、統
語的に同一の働きをする複数の音声認識候補を1つの音
声認識候補に圧縮して音声認識処理を実行する。
検出手段は、入力された発声音声文に基づいてポーズと
冗長語と句又は節の境界とのうちの少なくとも1つを検
出して検出信号を出力する。そして、上記音声認識手段
は、隠れマルコフモデルを用いたLR法を用いて音声認
識処理を実行し、かつ、上記検出信号が入力されたとき
に、上記隠れマルコフモデルを用いたLR法に用いるセ
ルに、音声認識結果候補を示す状態スタックの最上位の
内容が同一のセルを連結してマージすることにより、統
語的に同一の働きをする複数の音声認識候補を1つの音
声認識候補に圧縮して音声認識処理を実行する。
【0011】さらに、請求項2記載の音声認識装置にお
いては、上記検出手段は、好ましくは、上記発声音声文
のパワーが、所定の時間の範囲だけ、所定のしきい値以
下である第1の条件と、上記発声音声文のゼロクロスの
数が、所定の時間の間において、所定のしきい値以上で
ある第2の条件とのうち少なくとも1つの条件が満足す
ることを検出することにより上記ポーズを検出する。ま
た、請求項3記載の音声認識装置においては、上記検出
手段は、好ましくは、予め格納された複数の冗長語の言
語モデルに一致するか否かを判断することにより上記冗
長語を検出する。さらに、請求項4記載の音声認識装置
においては、上記検出手段は、好ましくは、上記発声音
声文の基本周波数が所定の傾斜の度合い以上で急激に上
昇し又は下降して変化したことを検出することにより上
記句又は節の境界を検出する。
いては、上記検出手段は、好ましくは、上記発声音声文
のパワーが、所定の時間の範囲だけ、所定のしきい値以
下である第1の条件と、上記発声音声文のゼロクロスの
数が、所定の時間の間において、所定のしきい値以上で
ある第2の条件とのうち少なくとも1つの条件が満足す
ることを検出することにより上記ポーズを検出する。ま
た、請求項3記載の音声認識装置においては、上記検出
手段は、好ましくは、予め格納された複数の冗長語の言
語モデルに一致するか否かを判断することにより上記冗
長語を検出する。さらに、請求項4記載の音声認識装置
においては、上記検出手段は、好ましくは、上記発声音
声文の基本周波数が所定の傾斜の度合い以上で急激に上
昇し又は下降して変化したことを検出することにより上
記句又は節の境界を検出する。
【0012】
【実施例】以下、図面を参照して本発明に係る実施例に
ついて説明する。図1は、本発明に係る一実施例である
連続音声認識装置のブロック図である。本実施例の連続
音声認識装置は、SSS(Successive State Splittin
g:逐次状態分割法)−LR(left-to-right rightmos
t derivation型、すなわち最右導出型)不特定話者連
続音声認識装置であって、隠れマルコフ網(以下、HM
網という。)メモリ11に格納された隠れマルコフモデ
ル(以下、HMMという。)を用いて音素照合を音素照
合部4で実行しその結果である音声認識スコアを音素コ
ンテキスト依存型LRパーザ(以下、LRパーザとい
う。)5に送り、これに応答してLRパーザ5が連続音
声認識を実行して音素予測データを音素照合部4に送っ
て音声認識処理を行う。本実施例は特に、バッファメモ
リ3から出力される特徴パラメータの時系列に基づいて
ポーズや冗長語並びに韻律的な情報等を手がかりとする
区切りを含む無音区間等を検出してその検出信号をLR
パーザ5に出力する無音区間等検出部30を備え、これ
に応答してLRパーザ5は、検出信号が入力される毎
に、統語的に同一の働きをする複数の音声認識結果候補
を1つの音声認識結果候補に圧縮しながら音声認識処理
を実行することを特徴とする。ここで、上記SSSにお
いては、音素の特徴空間上に割り当てられた確率的定常
信号源(状態)の間の確率的な遷移により音声パラメー
タの時間的な推移を表現した確率モデルに対して、尤度
最大化の基準に基づいて個々の状態をコンテキスト方向
又は時間方向へ分割するという操作を繰り返すことによ
って、モデルの精密化を逐次的に実行する。
ついて説明する。図1は、本発明に係る一実施例である
連続音声認識装置のブロック図である。本実施例の連続
音声認識装置は、SSS(Successive State Splittin
g:逐次状態分割法)−LR(left-to-right rightmos
t derivation型、すなわち最右導出型)不特定話者連
続音声認識装置であって、隠れマルコフ網(以下、HM
網という。)メモリ11に格納された隠れマルコフモデ
ル(以下、HMMという。)を用いて音素照合を音素照
合部4で実行しその結果である音声認識スコアを音素コ
ンテキスト依存型LRパーザ(以下、LRパーザとい
う。)5に送り、これに応答してLRパーザ5が連続音
声認識を実行して音素予測データを音素照合部4に送っ
て音声認識処理を行う。本実施例は特に、バッファメモ
リ3から出力される特徴パラメータの時系列に基づいて
ポーズや冗長語並びに韻律的な情報等を手がかりとする
区切りを含む無音区間等を検出してその検出信号をLR
パーザ5に出力する無音区間等検出部30を備え、これ
に応答してLRパーザ5は、検出信号が入力される毎
に、統語的に同一の働きをする複数の音声認識結果候補
を1つの音声認識結果候補に圧縮しながら音声認識処理
を実行することを特徴とする。ここで、上記SSSにお
いては、音素の特徴空間上に割り当てられた確率的定常
信号源(状態)の間の確率的な遷移により音声パラメー
タの時間的な推移を表現した確率モデルに対して、尤度
最大化の基準に基づいて個々の状態をコンテキスト方向
又は時間方向へ分割するという操作を繰り返すことによ
って、モデルの精密化を逐次的に実行する。
【0013】図1において、話者の発声音声はマイクロ
ホン1に入力されて音声信号に変換された後、特徴抽出
部2に入力される。特徴抽出部2は、入力された音声信
号をA/D変換した後、例えばLPC分析を実行し、対
数パワー、16次ケプストラム係数、Δ対数パワー及び
16次Δケプストラム係数を含む34次元の特徴パラメ
ータを抽出する。抽出された特徴パラメータの時系列は
バッファメモリ3を介して音素照合部4に入力される。
ホン1に入力されて音声信号に変換された後、特徴抽出
部2に入力される。特徴抽出部2は、入力された音声信
号をA/D変換した後、例えばLPC分析を実行し、対
数パワー、16次ケプストラム係数、Δ対数パワー及び
16次Δケプストラム係数を含む34次元の特徴パラメ
ータを抽出する。抽出された特徴パラメータの時系列は
バッファメモリ3を介して音素照合部4に入力される。
【0014】音素照合部4に接続されるHM網メモリ1
1内のHM網は、各状態をノードとする複数のネットワ
ークとして表され、各状態はそれぞれ以下の情報を有す
る。 (a)状態番号 (b)受理可能なコンテキストクラス (c)先行状態、及び後続状態のリスト (d)出力確率密度分布のパラメータ (e)自己遷移確率及び後続状態への遷移確率
1内のHM網は、各状態をノードとする複数のネットワ
ークとして表され、各状態はそれぞれ以下の情報を有す
る。 (a)状態番号 (b)受理可能なコンテキストクラス (c)先行状態、及び後続状態のリスト (d)出力確率密度分布のパラメータ (e)自己遷移確率及び後続状態への遷移確率
【0015】なお、本実施例において、HM網は、各分
布がどの話者に由来するかを特定する必要があるため、
所定の話者混合HM網を変換して作成する。ここで、出
力確率密度関数は34次元の対角共分散行列をもつ混合
ガウス分布であり、各分布はある特定の話者のサンプル
を用いて学習されている。
布がどの話者に由来するかを特定する必要があるため、
所定の話者混合HM網を変換して作成する。ここで、出
力確率密度関数は34次元の対角共分散行列をもつ混合
ガウス分布であり、各分布はある特定の話者のサンプル
を用いて学習されている。
【0016】音素照合部4は、音素コンテキスト依存型
LRパーザ(以下、LRパーザという。)5からの音素
照合要求に応じて音素照合処理を実行する。このとき
に、LRパーザ5からは、音素照合区間及び照合対象音
素とその前後の音素から成る音素コンテキスト情報が渡
される。音素照合部4は、受け取った音素コンテキスト
情報に基づいてそのようなコンテキストを受理すること
ができるHM網上の状態を、先行状態リストと後続状態
リストの制約内で連結することによって、1つのモデル
が選択される。そして、このモデルを用いて音素照合区
間内のデータに対する尤度が計算され、この尤度の値が
音素照合スコアとしてLRパーザ5に返される。このと
きに用いられるモデルは、HMMと等価であるために、
尤度の計算には通常のHMMで用いられている前向きパ
スアルゴリズムをそのまま使用する。
LRパーザ(以下、LRパーザという。)5からの音素
照合要求に応じて音素照合処理を実行する。このとき
に、LRパーザ5からは、音素照合区間及び照合対象音
素とその前後の音素から成る音素コンテキスト情報が渡
される。音素照合部4は、受け取った音素コンテキスト
情報に基づいてそのようなコンテキストを受理すること
ができるHM網上の状態を、先行状態リストと後続状態
リストの制約内で連結することによって、1つのモデル
が選択される。そして、このモデルを用いて音素照合区
間内のデータに対する尤度が計算され、この尤度の値が
音素照合スコアとしてLRパーザ5に返される。このと
きに用いられるモデルは、HMMと等価であるために、
尤度の計算には通常のHMMで用いられている前向きパ
スアルゴリズムをそのまま使用する。
【0017】一方、無音区間等検出部30は、バッファ
メモリ3から出力される特徴パラメータの時系列に基づ
いてポーズや冗長語並びに韻律的な情報等を手がかりと
する区切りを含む無音区間等を検出して、その検出信号
をLRパーザ5に出力する。ここで、当該検出部30
は、冗長語については予め内部メモリに格納された冗長
語(例えば以下の表1乃至表3に示す冗長語)の音素モ
デルと比較照合することにより冗長語として認識する一
方、無音区間であるポーズについては以下の2つの条件
のうちの1つが満足するときにポーズとして検出する。 (第1の検出条件)パワーが所定のしきい値レベル以下
である時間t0が例えば以下の範囲の値のとき。好まし
くは、50ミリ秒≦t0≦3秒。より好ましくは、50
ミリ秒≦t0≦500ミリ秒。 (第2の検出条件)入力された音声信号がゼロ電位と交
差するゼロクロスの数が所定のしきい値以上である時間
t1が例えば以下の範囲の値のとき。好ましくは、50
ミリ秒≦t1≦3秒。より好ましくは、50ミリ秒≦t
1≦500ミリ秒。 さらに、韻律的な情報等を手がかりとする区切りとは、
具体的には、イントネーションが急激に上昇又は下降す
るときは、句又は節の境界であると推測される。これに
ついては、入力される特徴パラメータのうち基本周波数
が所定の傾斜の度合い以上で急激に上昇し又は下降して
変化したことを検出することにより当該区切り又は境界
を判別する。
メモリ3から出力される特徴パラメータの時系列に基づ
いてポーズや冗長語並びに韻律的な情報等を手がかりと
する区切りを含む無音区間等を検出して、その検出信号
をLRパーザ5に出力する。ここで、当該検出部30
は、冗長語については予め内部メモリに格納された冗長
語(例えば以下の表1乃至表3に示す冗長語)の音素モ
デルと比較照合することにより冗長語として認識する一
方、無音区間であるポーズについては以下の2つの条件
のうちの1つが満足するときにポーズとして検出する。 (第1の検出条件)パワーが所定のしきい値レベル以下
である時間t0が例えば以下の範囲の値のとき。好まし
くは、50ミリ秒≦t0≦3秒。より好ましくは、50
ミリ秒≦t0≦500ミリ秒。 (第2の検出条件)入力された音声信号がゼロ電位と交
差するゼロクロスの数が所定のしきい値以上である時間
t1が例えば以下の範囲の値のとき。好ましくは、50
ミリ秒≦t1≦3秒。より好ましくは、50ミリ秒≦t
1≦500ミリ秒。 さらに、韻律的な情報等を手がかりとする区切りとは、
具体的には、イントネーションが急激に上昇又は下降す
るときは、句又は節の境界であると推測される。これに
ついては、入力される特徴パラメータのうち基本周波数
が所定の傾斜の度合い以上で急激に上昇し又は下降して
変化したことを検出することにより当該区切り又は境界
を判別する。
【0018】そして、LRパーザ5は、上記検出部30
から検出信号が入力される毎に、統語的に同一の働きを
する複数の音声認識結果候補を1つの音声認識結果候補
に圧縮しながら音声認識処理を実行する。なお、冗長語
としては、例えば以下の表1乃至表3のような冗長語が
ある。
から検出信号が入力される毎に、統語的に同一の働きを
する複数の音声認識結果候補を1つの音声認識結果候補
に圧縮しながら音声認識処理を実行する。なお、冗長語
としては、例えば以下の表1乃至表3のような冗長語が
ある。
【0019】
【表1】 ──────────────── 冗長語 ──────────────── 「あ」 「あー」 「あーっと」 「あーん」 「ああ」 「あっ」 「あの」 「あのー」 「あのう」 「あのうー」 「い」 「いー」 「いやー」 「う」 「うー」 「うーん」 「うーんと」 「うん」 「え」 「えー」 「えーっと」 「えーっとー」 ────────────────
【0020】
【表2】 ──────────────── 冗長語 ──────────────── 「えーっとですね」 「えーと」 「えーとー」 「えーとですね」 「えーまあ」 「えーん」 「ええ」 「えっ」 「えっーと」 「えっと」 「えっとー」 「えと」 「えとー」 「お」 「おー」 「おっ」 「こう」 「この」 「このー」 「じゃ」 「す」 「すー」 ────────────────
【0021】
【表3】 ──────────────── 冗長語 ──────────────── 「すっ」 「そ」 「その」 「そのー」 「ちょっと」 「つ」 「で」 「でー」 「と」 「とー」 「は」 「はあー」 「ふーん」 「ま」 「まー」 「まぁ」 「まあ」 「まっ」 「も」 「ん」 「んー」 「んと」 ────────────────
【0022】文脈自由文法データベースメモリ20内の
所定の文脈自由文法(CFG)を公知の通り自動的に変
換してLRテーブルを作成してLRテーブルメモリ13
に格納される。LRパーザ5は、例えば音素継続時間長
モデルを含む話者モデルメモリ12と上記LRテーブル
とを参照して、入力された音素予測データについて左か
ら右方向に、後戻りなしに処理する。構文的にあいまい
さがある場合は、スタックを分割してすべての候補の解
析が平行して処理される。LRパーザ5は、LRテーブ
ルメモリ13内のLRテーブルから次にくる音素を予測
して音素予測データを音素照合部4に出力する。これに
応答して、音素照合部4は、その音素に対応するHM網
メモリ11内の情報を参照して照合し、その尤度を音声
認識スコアとしてLRパーザ5に戻し、順次音素を連接
していくことにより、連続音声の認識を行っている。こ
こで、LRパーザ5は、無音区間等検出部30は、バッ
ファメモリ3から出力される特徴パラメータの時系列に
基づいてポーズや冗長語などを含む無音区間等を検出し
てその検出信号をLRパーザ5に出力する。これに応答
してLRパーザ5は、検出信号が入力される毎に、統語
的に同一の働きをする複数の音声認識結果候補を1つの
音声認識結果候補に圧縮しながら音声認識処理を実行す
る。すなわち、例えば図3に示すように、検出信号の入
力以前に処理済みの音声認識の複数の部分木を連結して
マージした後、検出信号の入力後においては、当該連結
した1つのノードから出発して音声認識処理を行う。そ
して、入力された話者音声の最後まで処理した後、全体
の尤度が最大のもの又は所定の上位複数個のものを認識
結果データ又は結果候補データとして出力する。
所定の文脈自由文法(CFG)を公知の通り自動的に変
換してLRテーブルを作成してLRテーブルメモリ13
に格納される。LRパーザ5は、例えば音素継続時間長
モデルを含む話者モデルメモリ12と上記LRテーブル
とを参照して、入力された音素予測データについて左か
ら右方向に、後戻りなしに処理する。構文的にあいまい
さがある場合は、スタックを分割してすべての候補の解
析が平行して処理される。LRパーザ5は、LRテーブ
ルメモリ13内のLRテーブルから次にくる音素を予測
して音素予測データを音素照合部4に出力する。これに
応答して、音素照合部4は、その音素に対応するHM網
メモリ11内の情報を参照して照合し、その尤度を音声
認識スコアとしてLRパーザ5に戻し、順次音素を連接
していくことにより、連続音声の認識を行っている。こ
こで、LRパーザ5は、無音区間等検出部30は、バッ
ファメモリ3から出力される特徴パラメータの時系列に
基づいてポーズや冗長語などを含む無音区間等を検出し
てその検出信号をLRパーザ5に出力する。これに応答
してLRパーザ5は、検出信号が入力される毎に、統語
的に同一の働きをする複数の音声認識結果候補を1つの
音声認識結果候補に圧縮しながら音声認識処理を実行す
る。すなわち、例えば図3に示すように、検出信号の入
力以前に処理済みの音声認識の複数の部分木を連結して
マージした後、検出信号の入力後においては、当該連結
した1つのノードから出発して音声認識処理を行う。そ
して、入力された話者音声の最後まで処理した後、全体
の尤度が最大のもの又は所定の上位複数個のものを認識
結果データ又は結果候補データとして出力する。
【0023】図3は、図1の本実施例の連続音声認識装
置の音声認識動作をスタック形式で示す図であり、入力
された発声音声中の区切りとして、ポーズである無音区
間が存在した場合の例を示している。「会議に」、「会
員に」が認識される時点までの処理は従来の方法と共通
である。もし「会議に」の処理の直後で無音区間が無音
区間等検出部30によって検出されれば、検出信号が当
該検出部30からLRパーザ5に入力され、当該タイミ
ング以降の処理において、統語的に同一の働きをする複
数の候補を一つに圧縮する。この例の場合は、「会議
に」、「会員に」ともに名詞句「NP」に変換されてい
るので、その2つの音声認識結果候補の部分木が1つの
音声認識結果候補の部分木に圧縮される。従って、従来
例の装置では重複していた処理を、本発明に係る実施例
の方法で回避することができる。
置の音声認識動作をスタック形式で示す図であり、入力
された発声音声中の区切りとして、ポーズである無音区
間が存在した場合の例を示している。「会議に」、「会
員に」が認識される時点までの処理は従来の方法と共通
である。もし「会議に」の処理の直後で無音区間が無音
区間等検出部30によって検出されれば、検出信号が当
該検出部30からLRパーザ5に入力され、当該タイミ
ング以降の処理において、統語的に同一の働きをする複
数の候補を一つに圧縮する。この例の場合は、「会議
に」、「会員に」ともに名詞句「NP」に変換されてい
るので、その2つの音声認識結果候補の部分木が1つの
音声認識結果候補の部分木に圧縮される。従って、従来
例の装置では重複していた処理を、本発明に係る実施例
の方法で回避することができる。
【0024】なお、統語的に同一の働きをする複数の音
声認識結果候補の圧縮操作を起動する時点を、本実施例
においては、無音区間等の区切りが、入力された発声音
声中に検出されるときに限定されている。この理由は次
の通りである。この装置は、音声認識装置であるため、
圧縮操作を時間に同期して起動しなければならない。一
方、現実には、同じ音声区間に対応する文字の個数が異
なる場合が頻繁に生ずる。この例においても、「かいぎ
に」は4文字であるが、「かいいんに」は5文字であ
る。文字の個数を揃えても圧縮操作の起動時点にはまっ
たく対応しない。そこで、無音区間等の区切りが音声中
に検出できた場合にのみ、圧縮操作を起動するのであ
る。
声認識結果候補の圧縮操作を起動する時点を、本実施例
においては、無音区間等の区切りが、入力された発声音
声中に検出されるときに限定されている。この理由は次
の通りである。この装置は、音声認識装置であるため、
圧縮操作を時間に同期して起動しなければならない。一
方、現実には、同じ音声区間に対応する文字の個数が異
なる場合が頻繁に生ずる。この例においても、「かいぎ
に」は4文字であるが、「かいいんに」は5文字であ
る。文字の個数を揃えても圧縮操作の起動時点にはまっ
たく対応しない。そこで、無音区間等の区切りが音声中
に検出できた場合にのみ、圧縮操作を起動するのであ
る。
【0025】さらに、無音区間等検出部30からの検出
信号を処理するLRパーザ5の処理について詳細に説明
する。図5は図1の連続音声認識装置において用いるセ
ルのデータ構造を示す図である。図5に示すように、従
来のHMM−LR法の音声認識の解析に必要な情報を保
持するデータ構造、すなわち最上層の代表セル連結ポイ
ンタと、その下の層に位置し音韻列とその状態スタック
とからなるLR作業域と、さらにその下の層に位置し2
つの音声認識スコアと確率テーブルとからなるHMM作
業域とを含むデータ構造におけるセルに、音声認識結果
候補を示す状態スタックの1番上の内容、すなわち最後
の内容であるスタックトップが同一である複数のセルを
マージするための、マージポインタを付加する。この複
数のセルは、図3の例では、無音区間の検出の前の2つ
のセルである。さらに、ポーズ区間処理のためのセルリ
スト(以下、ポーズセルリストという。)を新たに用意す
る。
信号を処理するLRパーザ5の処理について詳細に説明
する。図5は図1の連続音声認識装置において用いるセ
ルのデータ構造を示す図である。図5に示すように、従
来のHMM−LR法の音声認識の解析に必要な情報を保
持するデータ構造、すなわち最上層の代表セル連結ポイ
ンタと、その下の層に位置し音韻列とその状態スタック
とからなるLR作業域と、さらにその下の層に位置し2
つの音声認識スコアと確率テーブルとからなるHMM作
業域とを含むデータ構造におけるセルに、音声認識結果
候補を示す状態スタックの1番上の内容、すなわち最後
の内容であるスタックトップが同一である複数のセルを
マージするための、マージポインタを付加する。この複
数のセルは、図3の例では、無音区間の検出の前の2つ
のセルである。さらに、ポーズ区間処理のためのセルリ
スト(以下、ポーズセルリストという。)を新たに用意す
る。
【0026】図6は図1の連続音声認識装置において実
行される音声認識処理を示すフローチャートである。当
該処理における、セルのマージ処理と、ポーズの同期処
理の要点を以下に説明する。なお、以下の説明におい
て、ポーズは冗長語を含む。 (1)ある音声認識結果候補を示す部分木の枝でポーズ
が検出され、すなわちシンボルスタックのトップがポー
ズとなることが検出され、音声の入力フレームがポーズ
単位の音声区間の末端にまで到達していれば、そのセル
をポーズセルリストに登録する。 (2)ビーム探索による枝刈りか、もしくは、統語的に
棄却されることで、枝が伸ばせなくなったら、ポーズセ
ルリストに登録されている枝に対して圧縮操作(レデュ
ース操作を行なう。そして、「ある統語カテゴリ集合」
に属する要素に還元されない枝をすべて枝刈りする。 (3)さらに、残った枝で状態スタックの1番上の内容
が同一のセルをマージする。複数の部分木の音声認識ス
コアは1番よいもので代表させる。なお、「ある統語カ
テゴリ集合」には任意の統語カテゴリを定義することが
可能である。もし、単語境界にポーズが入るような発話
を受理したければ、その統語カテゴリ集合をすべての単
語区切りに変更すればよい。
行される音声認識処理を示すフローチャートである。当
該処理における、セルのマージ処理と、ポーズの同期処
理の要点を以下に説明する。なお、以下の説明におい
て、ポーズは冗長語を含む。 (1)ある音声認識結果候補を示す部分木の枝でポーズ
が検出され、すなわちシンボルスタックのトップがポー
ズとなることが検出され、音声の入力フレームがポーズ
単位の音声区間の末端にまで到達していれば、そのセル
をポーズセルリストに登録する。 (2)ビーム探索による枝刈りか、もしくは、統語的に
棄却されることで、枝が伸ばせなくなったら、ポーズセ
ルリストに登録されている枝に対して圧縮操作(レデュ
ース操作を行なう。そして、「ある統語カテゴリ集合」
に属する要素に還元されない枝をすべて枝刈りする。 (3)さらに、残った枝で状態スタックの1番上の内容
が同一のセルをマージする。複数の部分木の音声認識ス
コアは1番よいもので代表させる。なお、「ある統語カ
テゴリ集合」には任意の統語カテゴリを定義することが
可能である。もし、単語境界にポーズが入るような発話
を受理したければ、その統語カテゴリ集合をすべての単
語区切りに変更すればよい。
【0027】次いで、セルのスプリット処理の要点を記
す。 (4)マージされた位置よりさかのぼって処理をしなけ
ればならない時、ポインタを張り換えてセルを複数の部
分木にスプリット又は分割する。ここで、スプリット処
理後の音声認識スコアは元の値に戻す。
す。 (4)マージされた位置よりさかのぼって処理をしなけ
ればならない時、ポインタを張り換えてセルを複数の部
分木にスプリット又は分割する。ここで、スプリット処
理後の音声認識スコアは元の値に戻す。
【0028】以下、図6を参照して音声認識処理につい
て説明する。まず、ステップS1においては、HMM作
業域の初期化、並びにLRパーザ5の初期化を実行す
る。具体的には、状態スタック0のセルを1個作成す
る。そして、ステップS2において、複数のポーズ単位
からなるポーズ区間のうち最後のポーズ単位(ポーズユ
ニット)の末端まで到達したか否かが判断され、到達し
ているときは当該音声認識処理を終了する。一方、ステ
ップS2において最後のポーズ単位の末端まで到達して
いないときは(ステップS2においてNO)ステップS
3において、分析されたポーズ単位の音声区間のデータ
を読み込む。さらに、ステップS4において当該ポーズ
区間の最初のポーズ単位であるか否かが判断される。最
初のポーズ単位であるときは(ステップS4においてY
ES)ステップS7に進む。一方、最初のポーズ単位で
ないときは(ステップS4においてNO)ステップS5
において前尤度、前置の最良の音声認識スコアの点(pr
e-bestpoint)を確保し、ここで、セルは最大ビーム幅
の個数だけ存在する。そして、ポーズセルリストのHM
M作業域の初期化を実行する。次いで、ステップS6に
おいて、状態スタックの最上位に位置するスタックトッ
プと品詞などの内容が同一の複数のセルをマージする。
このときのマージセルリストの代表セルは最良の音声認
識スコアのものを選ぶ。さらに、ステップS7において
は、音声区間であるポーズ単位の処理のためにHMM−
LR法を用いたポーズ単位音声認識モジュール処理(図
7及び図8参照。)を実行する。
て説明する。まず、ステップS1においては、HMM作
業域の初期化、並びにLRパーザ5の初期化を実行す
る。具体的には、状態スタック0のセルを1個作成す
る。そして、ステップS2において、複数のポーズ単位
からなるポーズ区間のうち最後のポーズ単位(ポーズユ
ニット)の末端まで到達したか否かが判断され、到達し
ているときは当該音声認識処理を終了する。一方、ステ
ップS2において最後のポーズ単位の末端まで到達して
いないときは(ステップS2においてNO)ステップS
3において、分析されたポーズ単位の音声区間のデータ
を読み込む。さらに、ステップS4において当該ポーズ
区間の最初のポーズ単位であるか否かが判断される。最
初のポーズ単位であるときは(ステップS4においてY
ES)ステップS7に進む。一方、最初のポーズ単位で
ないときは(ステップS4においてNO)ステップS5
において前尤度、前置の最良の音声認識スコアの点(pr
e-bestpoint)を確保し、ここで、セルは最大ビーム幅
の個数だけ存在する。そして、ポーズセルリストのHM
M作業域の初期化を実行する。次いで、ステップS6に
おいて、状態スタックの最上位に位置するスタックトッ
プと品詞などの内容が同一の複数のセルをマージする。
このときのマージセルリストの代表セルは最良の音声認
識スコアのものを選ぶ。さらに、ステップS7において
は、音声区間であるポーズ単位の処理のためにHMM−
LR法を用いたポーズ単位音声認識モジュール処理(図
7及び図8参照。)を実行する。
【0029】図7及び図8は、図6のポーズ単位音声認
識モジュール処理を示すフローチャートである。当該音
声認識モジュール処理では、解析された音素列長が終了
条件(末端)に至るまでステップS12乃至S21迄の
処理を繰り返す。図7に示すように、ステップS11に
おいて、音韻列長が末端に到達しているか否かが判断さ
れ、到達しているときは(YES)そのままメインルー
チンに戻る。一方、到達していないときは(ステップS
11においてNO)ステップS12に進む。
識モジュール処理を示すフローチャートである。当該音
声認識モジュール処理では、解析された音素列長が終了
条件(末端)に至るまでステップS12乃至S21迄の
処理を繰り返す。図7に示すように、ステップS11に
おいて、音韻列長が末端に到達しているか否かが判断さ
れ、到達しているときは(YES)そのままメインルー
チンに戻る。一方、到達していないときは(ステップS
11においてNO)ステップS12に進む。
【0030】ステップS12からステップS14までの
処理において以下の処理が実行される。すなわち、すべ
ての代表セルに対して圧縮操作がある複数のセル、すな
わち上述のようにスタックトップが同一である複数のセ
ルは、それらで1つの新しいセルを作成した後、圧縮操
作を行ない、次のセルリストに接続する。
処理において以下の処理が実行される。すなわち、すべ
ての代表セルに対して圧縮操作がある複数のセル、すな
わち上述のようにスタックトップが同一である複数のセ
ルは、それらで1つの新しいセルを作成した後、圧縮操
作を行ない、次のセルリストに接続する。
【0031】次いで、ステップS15からステップS1
7までの処理において以下の処理が実行される。すなわ
ち、すべてのマージセルに対して、状態スタックのスタ
ックトップが同一でなくなったセルは複数のセルに分割
するスプリット処理を実行する。このとき、各セルのH
MM確率テーブルは元の値に戻す。
7までの処理において以下の処理が実行される。すなわ
ち、すべてのマージセルに対して、状態スタックのスタ
ックトップが同一でなくなったセルは複数のセルに分割
するスプリット処理を実行する。このとき、各セルのH
MM確率テーブルは元の値に戻す。
【0032】さらに、図8のステップS18において
は、もし最後のポーズ単位でないならば、すべての代表
セルに対して、シンボルスタックのトップが無音又はポ
ーズで最良の音声認識スコアの点がその音声区間長を越
えていれば、ポーズセルリストにコピーして、次の音声
区間の初期セル候補とする。次いで、ステップS19か
らステップS22までにおいて、すべての代表セルに対
して以下の処理を行なう。 (a)次の操作がシフト操作のとき、代表セルに対して
予測された音素と照合する音韻照合処理を実行する。 (b)次の操作が受理(アクセプト)操作のとき、入力
音声チェックがOKであれば、受理セルリストにそのマ
ージセルを登録する。 (c)それ以外は、そのセルの上記処理を実行しない。 そして、ステップS23において、代表セルを公知の方
法でビーム幅の個数に枝刈りする。枝刈りの際のスコア
は代表セルのものを利用する。さらに、ステップS11
に戻る。そして、ステップS11において当該音声区間
における最後のポーズ単位であれば(YES)処理を終
了する。
は、もし最後のポーズ単位でないならば、すべての代表
セルに対して、シンボルスタックのトップが無音又はポ
ーズで最良の音声認識スコアの点がその音声区間長を越
えていれば、ポーズセルリストにコピーして、次の音声
区間の初期セル候補とする。次いで、ステップS19か
らステップS22までにおいて、すべての代表セルに対
して以下の処理を行なう。 (a)次の操作がシフト操作のとき、代表セルに対して
予測された音素と照合する音韻照合処理を実行する。 (b)次の操作が受理(アクセプト)操作のとき、入力
音声チェックがOKであれば、受理セルリストにそのマ
ージセルを登録する。 (c)それ以外は、そのセルの上記処理を実行しない。 そして、ステップS23において、代表セルを公知の方
法でビーム幅の個数に枝刈りする。枝刈りの際のスコア
は代表セルのものを利用する。さらに、ステップS11
に戻る。そして、ステップS11において当該音声区間
における最後のポーズ単位であれば(YES)処理を終
了する。
【0033】図4の(a)は従来例の連続音声認識装置
における音声区間と音素区間を示す図であり、その
(b)は図1の本実施例の連続音声認識装置における音
声区間と音素区間を示す図である。図4の(a)に示す
ように、従来のHMM−LR法は音素に同期した横型探
索を基本としているため、時間が進行するにつれて、照
合音素の存在可能範囲が徐々に広くなってしまう。本実
施例の装置によれば、図4の(b)に示すように、検出
されたポーズ情報を利用して、マージによる圧縮処理を
実行したので、照合音素の存在可能範囲を狭めることが
可能である。これによって、処理すべき計算機の処理量
を大幅に減少させることができ、それ故、連続音声認識
の処理時間を短縮し、高速で音声認識させることができ
るという効果もある。
における音声区間と音素区間を示す図であり、その
(b)は図1の本実施例の連続音声認識装置における音
声区間と音素区間を示す図である。図4の(a)に示す
ように、従来のHMM−LR法は音素に同期した横型探
索を基本としているため、時間が進行するにつれて、照
合音素の存在可能範囲が徐々に広くなってしまう。本実
施例の装置によれば、図4の(b)に示すように、検出
されたポーズ情報を利用して、マージによる圧縮処理を
実行したので、照合音素の存在可能範囲を狭めることが
可能である。これによって、処理すべき計算機の処理量
を大幅に減少させることができ、それ故、連続音声認識
の処理時間を短縮し、高速で音声認識させることができ
るという効果もある。
【0034】以上説明したように、この発明に係る実施
例によれば、音声認識過程で生ずる複数の候補に対し
て、ポーズや冗長語を含む無音区間等の区切りが音声中
に検出されるたびに、統語的に同一の働きをする複数の
候補を圧縮できるので、重複した処理を避けることので
きる連続音声認識が実現できる。従って、従来例に比較
して大幅に処理量を削減することができ、音声認識の処
理速度を高めることができる。
例によれば、音声認識過程で生ずる複数の候補に対し
て、ポーズや冗長語を含む無音区間等の区切りが音声中
に検出されるたびに、統語的に同一の働きをする複数の
候補を圧縮できるので、重複した処理を避けることので
きる連続音声認識が実現できる。従って、従来例に比較
して大幅に処理量を削減することができ、音声認識の処
理速度を高めることができる。
【0035】以上の実施例においては、HMM−LR法
を用いた音声認識装置について述べているが、本発明は
これに限らず、ニューラルネットワークを用いた音声認
識装置など他の種類の音声認識装置に適用することがで
きる。以上の実施例において、無音区間等検出部30は
冗長語及びポーズ並びに句又は節の境界を検出している
が、本発明はこれに限らず、冗長語とポーズと句又は節
の境界のうち少なくとも一方を検出するように構成して
もよい。
を用いた音声認識装置について述べているが、本発明は
これに限らず、ニューラルネットワークを用いた音声認
識装置など他の種類の音声認識装置に適用することがで
きる。以上の実施例において、無音区間等検出部30は
冗長語及びポーズ並びに句又は節の境界を検出している
が、本発明はこれに限らず、冗長語とポーズと句又は節
の境界のうち少なくとも一方を検出するように構成して
もよい。
【0036】
【発明の効果】以上詳述したように本発明によれば、入
力された文字列からなる発声音声文を音声認識する音声
認識手段を備えた音声認識装置において、入力された発
声音声文に基づいてポーズと冗長語と句又は節の境界と
のうちの少なくとも1つを検出して検出信号を出力する
検出手段を備え、上記音声認識手段は、隠れマルコフモ
デルを用いたLR法を用いて音声認識処理を実行し、か
つ、上記検出信号が入力されたときに、上記隠れマルコ
フモデルを用いたLR法に用いるセルに、音声認識結果
候補を示す状態スタックの最上位の内容が同一のセルを
連結してマージすることにより、統語的に同一の働きを
する複数の音声認識候補を1つの音声認識候補に圧縮し
て音声認識処理を実行する。それ故、音声認識過程で生
ずる複数の候補に対して、ポーズや冗長語を含む無音区
間等の区切りが音声中に検出されるたびに、統語的に同
一の働きをする複数の候補を圧縮できるので、重複した
処理を避けることのできる連続音声認識が実現できる。
従って、従来例に比較して大幅に処理量を削減すること
ができ、音声認識の処理速度を高めることができる。
力された文字列からなる発声音声文を音声認識する音声
認識手段を備えた音声認識装置において、入力された発
声音声文に基づいてポーズと冗長語と句又は節の境界と
のうちの少なくとも1つを検出して検出信号を出力する
検出手段を備え、上記音声認識手段は、隠れマルコフモ
デルを用いたLR法を用いて音声認識処理を実行し、か
つ、上記検出信号が入力されたときに、上記隠れマルコ
フモデルを用いたLR法に用いるセルに、音声認識結果
候補を示す状態スタックの最上位の内容が同一のセルを
連結してマージすることにより、統語的に同一の働きを
する複数の音声認識候補を1つの音声認識候補に圧縮し
て音声認識処理を実行する。それ故、音声認識過程で生
ずる複数の候補に対して、ポーズや冗長語を含む無音区
間等の区切りが音声中に検出されるたびに、統語的に同
一の働きをする複数の候補を圧縮できるので、重複した
処理を避けることのできる連続音声認識が実現できる。
従って、従来例に比較して大幅に処理量を削減すること
ができ、音声認識の処理速度を高めることができる。
【図1】 本発明に係る一実施例である連続音声認識装
置のブロック図である。
置のブロック図である。
【図2】 従来例の連続音声認識装置の音声認識動作を
スタック形式で示す図である。
スタック形式で示す図である。
【図3】 図1の本実施例の連続音声認識装置の音声認
識動作をスタック形式で示す図である。
識動作をスタック形式で示す図である。
【図4】 (a)は従来例の連続音声認識装置における
音声区間と音素区間を示す図であり、(b)は図1の本
実施例の連続音声認識装置における音声区間と音素区間
を示す図である。
音声区間と音素区間を示す図であり、(b)は図1の本
実施例の連続音声認識装置における音声区間と音素区間
を示す図である。
【図5】 図1の連続音声認識装置において用いるセル
のデータ構造を示す図である。
のデータ構造を示す図である。
【図6】 図1の連続音声認識装置において実行される
音声認識処理を示すフローチャートである。
音声認識処理を示すフローチャートである。
【図7】 図6のポーズ単位音声認識モジュール処理の
第1の部分を示すフローチャートである。
第1の部分を示すフローチャートである。
【図8】 図6のポーズ単位音声認識モジュール処理の
第2の部分を示すフローチャートである。
第2の部分を示すフローチャートである。
1…マイクロホン、 2…特徴抽出部、 3…バッファメモリ、 4…音素照合部、 5…LRパーザ、 11…隠れマルコフ網メモリ、 12…話者モデルメモリ、 13…LRテーブルメモリ、 20…文脈自由文法データベースメモリ、 30…無音区間等検出部。
───────────────────────────────────────────────────── フロントページの続き (56)参考文献 特開 平5−19785(JP,A) 特開 平4−84197(JP,A) 特開 平4−86946(JP,A) 特開 平1−321498(JP,A) (58)調査した分野(Int.Cl.6,DB名) G10L 3/00 - 9/18 JICSTファイル(JOIS)
Claims (4)
- 【請求項1】 入力された文字列からなる発声音声文を
音声認識する音声認識手段を備えた音声認識装置におい
て、 入力された発声音声文に基づいてポーズと冗長語と句又
は節の境界とのうちの少なくとも1つを検出して検出信
号を出力する検出手段を備え、 上記音声認識手段は、隠れマルコフモデルを用いたLR
法を用いて音声認識処理を実行し、かつ、上記検出信号
が入力されたときに、上記隠れマルコフモデルを用いた
LR法に用いるセルに、音声認識結果候補を示す状態ス
タックの最上位の内容が同一のセルを連結してマージす
ることにより、統語的に同一の働きをする複数の音声認
識候補を1つの音声認識候補に圧縮して音声認識処理を
実行することを特徴とする音声認識装置。 - 【請求項2】 上記検出手段は、上記発声音声文のパワ
ーが、所定の時間の範囲だけ、所定のしきい値以下であ
る第1の条件と、上記発声音声文のゼロクロスの数が、
所定の時間の間において、所定のしきい値以上である第
2の条件とのうち少なくとも1つの条件が満足すること
を検出することにより上記ポーズを検出することを特徴
とする請求項1記載の音声認識装置。 - 【請求項3】 上記検出手段は、予め格納された複数の
冗長語の言語モデルに一致するか否かを判断することに
より上記冗長語を検出することを特徴とする請求項1記
載の音声認識装置。 - 【請求項4】 上記検出手段は、上記発声音声文の基本
周波数が所定の傾斜の度合い以上で急激に上昇し又は下
降して変化したことを検出することにより上記句又は節
の境界を検出することを特徴とする請求項1記載の音声
認識装置。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
JP6050294A JP2905686B2 (ja) | 1994-03-22 | 1994-03-22 | 音声認識装置 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
JP6050294A JP2905686B2 (ja) | 1994-03-22 | 1994-03-22 | 音声認識装置 |
Publications (2)
Publication Number | Publication Date |
---|---|
JPH07261782A JPH07261782A (ja) | 1995-10-13 |
JP2905686B2 true JP2905686B2 (ja) | 1999-06-14 |
Family
ID=12854890
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
JP6050294A Expired - Lifetime JP2905686B2 (ja) | 1994-03-22 | 1994-03-22 | 音声認識装置 |
Country Status (1)
Country | Link |
---|---|
JP (1) | JP2905686B2 (ja) |
Families Citing this family (3)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
JP3513030B2 (ja) * | 1998-09-22 | 2004-03-31 | シャープ株式会社 | データ再生装置 |
JP2006171096A (ja) * | 2004-12-13 | 2006-06-29 | Ntt Docomo Inc | 連続入力音声認識装置および連続入力音声認識方法 |
WO2011007627A1 (ja) * | 2009-07-17 | 2011-01-20 | 日本電気株式会社 | 音声処理装置および方法ならびに記憶媒体 |
Family Cites Families (2)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
JPH01321498A (ja) * | 1988-06-23 | 1989-12-27 | Matsushita Electric Ind Co Ltd | 音声認識装置 |
JPH0486946A (ja) * | 1990-07-31 | 1992-03-19 | Toshiba Corp | 拡張lrパーザによる文認識方式 |
-
1994
- 1994-03-22 JP JP6050294A patent/JP2905686B2/ja not_active Expired - Lifetime
Also Published As
Publication number | Publication date |
---|---|
JPH07261782A (ja) | 1995-10-13 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
JP4351385B2 (ja) | 連続および分離音声を認識するための音声認識システム | |
EP1564722B1 (en) | Automatic identification of telephone callers based on voice characteristics | |
JP3126985B2 (ja) | 音声認識システムの言語モデルのサイズを適応させるための方法および装置 | |
WO1992000585A1 (en) | Continuous speech processing system | |
JP3459712B2 (ja) | 音声認識方法及び装置及びコンピュータ制御装置 | |
JP3535292B2 (ja) | 音声認識システム | |
Kadambe et al. | Language identification with phonological and lexical models | |
US20040006469A1 (en) | Apparatus and method for updating lexicon | |
Zhang et al. | Improved context-dependent acoustic modeling for continuous Chinese speech recognition. | |
JP2886117B2 (ja) | 音声認識装置 | |
JP2905686B2 (ja) | 音声認識装置 | |
JP2871557B2 (ja) | 音声認識装置 | |
JP3027543B2 (ja) | 連続音声認識装置 | |
JP2886121B2 (ja) | 統計的言語モデル生成装置及び音声認識装置 | |
JP2871420B2 (ja) | 音声対話システム | |
JP2880436B2 (ja) | 音声認識装置 | |
JPH07261785A (ja) | 音声認識方法及び音声認識装置 | |
JP2905674B2 (ja) | 不特定話者連続音声認識方法 | |
JP2852210B2 (ja) | 不特定話者モデル作成装置及び音声認識装置 | |
JP2938865B1 (ja) | 音声認識装置 | |
JP2813209B2 (ja) | 大語彙音声認識装置 | |
JPH08248979A (ja) | 音声認識装置 | |
US20020016709A1 (en) | Method for generating a statistic for phone lengths and method for determining the length of individual phones for speech synthesis | |
JP3766111B2 (ja) | 音声認識装置 | |
JP2731133B2 (ja) | 連続音声認識装置 |