JPS63121100A - 音声認識装置における特徴パタ−ン抽出方法 - Google Patents
音声認識装置における特徴パタ−ン抽出方法Info
- Publication number
- JPS63121100A JPS63121100A JP26723386A JP26723386A JPS63121100A JP S63121100 A JPS63121100 A JP S63121100A JP 26723386 A JP26723386 A JP 26723386A JP 26723386 A JP26723386 A JP 26723386A JP S63121100 A JPS63121100 A JP S63121100A
- Authority
- JP
- Japan
- Prior art keywords
- feature
- pattern
- value
- data
- normalizer
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Pending
Links
Abstract
(57)【要約】本公報は電子出願前の出願データであるた
め要約のデータは記録されません。
め要約のデータは記録されません。
Description
【発明の詳細な説明】
〔産業上の利用分野〕
この発明は、例えば不特定話者の音声を単語単位で認識
するのに適用される音声認識装置における特徴パターン
抽出方法に関する。
するのに適用される音声認識装置における特徴パターン
抽出方法に関する。
この発明は、音声認識装置の特徴抽出部における特徴パ
ターン抽出方法において、音声の二値スペクトルパター
ンのチャンネル方向に連なる「1」の領域と連なる「0
」の領域とを判定して、各領域内に存在するチャンネル
の個数を特徴値として抽出して容易に周波数軸方向の平
行移動的変動を正規化することにより、話者の話し方及
び話者の違い等により影響されることがないようにして
認識率の向上を図るものである。
ターン抽出方法において、音声の二値スペクトルパター
ンのチャンネル方向に連なる「1」の領域と連なる「0
」の領域とを判定して、各領域内に存在するチャンネル
の個数を特徴値として抽出して容易に周波数軸方向の平
行移動的変動を正規化することにより、話者の話し方及
び話者の違い等により影響されることがないようにして
認識率の向上を図るものである。
本願出願人により、先に提案されている特願昭59−1
06177号明細書に示される音声認識装置は、音声入
力部としてのマイクロホン、前処理回路。
06177号明細書に示される音声認識装置は、音声入
力部としてのマイクロホン、前処理回路。
音響分析器、特徴データ抽出器、登録パターンメモリ及
びパターンマツチング判定器等により構成されている。
びパターンマツチング判定器等により構成されている。
この音声認識装置は、マイクロホンから入力される音声
信号を前処理回路において、音声認識に必要とされる帯
域に制限し、A/D変換器によりディジタル音声信号と
し、このディジタル音声信号を音響分析器に供給する。
信号を前処理回路において、音声認識に必要とされる帯
域に制限し、A/D変換器によりディジタル音声信号と
し、このディジタル音声信号を音響分析器に供給する。
そして、音響分析器において、音声信号を周波数スペク
トルに変換し、例えば対数軸上で一定間隔となるように
N個の周波数を代表値として周波数スペクトルを正規化
して、フレーム周期毎にNチャンネルのスペクトルデー
タにより構成されるフレームデータを特徴データ抽出器
に供給する。
トルに変換し、例えば対数軸上で一定間隔となるように
N個の周波数を代表値として周波数スペクトルを正規化
して、フレーム周期毎にNチャンネルのスペクトルデー
タにより構成されるフレームデータを特徴データ抽出器
に供給する。
特徴データ抽出器は、隣り合うフレームデータの距離を
計算し、夫々のフレーム間距離の総和により、音声信号
の始端フレームから終端フレームまでのN次元ベクトル
の軌跡長を求め、最も語数が多く長い音声の場合に特徴
を抽出するのに必要な所定の分割数でもって軌跡長を埠
分割し、その分割点に対応したフレームデータのみを特
徴データとして抽出して、話者の音声の発生速度変動に
影響されることがないように時間軸を正規化し出力する
。
計算し、夫々のフレーム間距離の総和により、音声信号
の始端フレームから終端フレームまでのN次元ベクトル
の軌跡長を求め、最も語数が多く長い音声の場合に特徴
を抽出するのに必要な所定の分割数でもって軌跡長を埠
分割し、その分割点に対応したフレームデータのみを特
徴データとして抽出して、話者の音声の発生速度変動に
影響されることがないように時間軸を正規化し出力する
。
この特徴データを登録時においては、登録パターンメモ
リに供給して登録特徴データブロック(標準パターン)
として記憶し、認識時においては、入力音声信号を前述
した処理により、入力特徴データブロック(入カバター
ン)とし、パターンマツチング判定器に供給する。そし
てパターンマツチング判定器において、入力特徴データ
ブロックと登録特徴データブロックとの間でパターンマ
ツチングを行う。
リに供給して登録特徴データブロック(標準パターン)
として記憶し、認識時においては、入力音声信号を前述
した処理により、入力特徴データブロック(入カバター
ン)とし、パターンマツチング判定器に供給する。そし
てパターンマツチング判定器において、入力特徴データ
ブロックと登録特徴データブロックとの間でパターンマ
ツチングを行う。
パターンマツチング判定器は、登録特徴データブロック
を構成するフレームデータと入力特徴データブロックを
構成するフレームデータとの間でフレーム間距離を計算
し、フレーム間距離の総和をマツチング距離とし、他の
登録特徴データブロックに関しても同様にマツチング距
離を算出して、マツチング距離が最小で十分に距離が近
いものと判断される登録特徴データブロックに対応する
単語を認識結果として出力する。
を構成するフレームデータと入力特徴データブロックを
構成するフレームデータとの間でフレーム間距離を計算
し、フレーム間距離の総和をマツチング距離とし、他の
登録特徴データブロックに関しても同様にマツチング距
離を算出して、マツチング距離が最小で十分に距離が近
いものと判断される登録特徴データブロックに対応する
単語を認識結果として出力する。
しかし、従来の音声認識装置においては、音響分析器か
ら出力されるフレームデータが特徴データ抽出器を介し
てそのまま登録特徴データブロックとして登録パターン
メモリに記憶されるため、登録パターンメモリのメモリ
量が膨大なものとなる問題点があった。これと共に、パ
ターンマツチング時においても、データ量に応じてその
計算処理時間が長(なる問題点があった。 ゛こ
のため、フレームデータを構成するスペクトルデータの
夫々を二値化し、登録パターンメモリの容量を低減させ
てマツチング処理時間を短縮化する音声認識装置(特願
昭60−166191号明細書)が本願出願人により提
案されている。
ら出力されるフレームデータが特徴データ抽出器を介し
てそのまま登録特徴データブロックとして登録パターン
メモリに記憶されるため、登録パターンメモリのメモリ
量が膨大なものとなる問題点があった。これと共に、パ
ターンマツチング時においても、データ量に応じてその
計算処理時間が長(なる問題点があった。 ゛こ
のため、フレームデータを構成するスペクトルデータの
夫々を二値化し、登録パターンメモリの容量を低減させ
てマツチング処理時間を短縮化する音声認識装置(特願
昭60−166191号明細書)が本願出願人により提
案されている。
この音声認識装置は、種々の原因により変動するスペク
トルの傾向を補正するための傾向値を算出し、この傾向
値に基づいてスペクトルの傾向を平坦化して話者の個人
差や周囲ノイズ等に影響されることがないようにフレー
ムデータを正規化した後にフレームデータを構成するス
ペクトルデータの夫々を二値化処理し、得られた二値パ
ターンに基づいてパターンマツチングを行うものである
。
トルの傾向を補正するための傾向値を算出し、この傾向
値に基づいてスペクトルの傾向を平坦化して話者の個人
差や周囲ノイズ等に影響されることがないようにフレー
ムデータを正規化した後にフレームデータを構成するス
ペクトルデータの夫々を二値化処理し、得られた二値パ
ターンに基づいてパターンマツチングを行うものである
。
しかし、音声信号の時系列の周波数スペクトルは、一般
に話者の話し方及び話者の違い等により時間軸方向に変
動するだけでなく、周波数軸方向にも大きく変動するこ
とが知られている。このため、従来の時間軸正規化処理
のみの特徴パターン抽出方法が用いられた音声認識装置
では、話者の話し方にむらがないように規定するか、ま
たは、標準パターンを複数個用意するマルチテンプレー
ト方式にすることにより周波数軸方向の変動に対処して
いた。しかし、この音声入力時の話し方規定は実用的で
なく、また、マルチテンプレート方式を用いた場合には
、登録パターンメモリのメモリ量が膨大なものとなり、
それに伴って、処理時間も長くなる欠点がある。− ところで、男性1女性、子供、成人等の話者の違いによ
る周波数軸方向の変動は、一般に対数目盛上の平行移動
的変動が多いもので、このような変動を正規化すること
ができれば不特定話者を対象とした音声の認識率を向上
させることが可能となる。このため、周波数軸方向の平
行移動的な変動を容易に正規化することができる特徴パ
ターン抽出方法が要望されている。
に話者の話し方及び話者の違い等により時間軸方向に変
動するだけでなく、周波数軸方向にも大きく変動するこ
とが知られている。このため、従来の時間軸正規化処理
のみの特徴パターン抽出方法が用いられた音声認識装置
では、話者の話し方にむらがないように規定するか、ま
たは、標準パターンを複数個用意するマルチテンプレー
ト方式にすることにより周波数軸方向の変動に対処して
いた。しかし、この音声入力時の話し方規定は実用的で
なく、また、マルチテンプレート方式を用いた場合には
、登録パターンメモリのメモリ量が膨大なものとなり、
それに伴って、処理時間も長くなる欠点がある。− ところで、男性1女性、子供、成人等の話者の違いによ
る周波数軸方向の変動は、一般に対数目盛上の平行移動
的変動が多いもので、このような変動を正規化すること
ができれば不特定話者を対象とした音声の認識率を向上
させることが可能となる。このため、周波数軸方向の平
行移動的な変動を容易に正規化することができる特徴パ
ターン抽出方法が要望されている。
従って、この発明の目的は、周波数軸方向の平行移動的
変動を容易に正規化することができ、不特定話者に対す
る認識率を向上させることができる音声認識装置におけ
る特徴パターン抽出方法を提供することにある。
変動を容易に正規化することができ、不特定話者に対す
る認識率を向上させることができる音声認識装置におけ
る特徴パターン抽出方法を提供することにある。
この発明は、入力音声信号のスペクトルパターンを所定
のしきい値で比較して二値スペクトルパターンを得るス
テップ(二値化器12)と、二値スペクトルパターンに
おいて各フレームのチャンネル方向に関して「1」また
は「0」の連続する数を算出してパターンマトリクスを
得るステップ(領域距離特徴抽出器13)と、二値スペ
クトルパターンの端部に相当するパターンマトリクスの
所定の列に含まれる値を正規化するステップ(周波数軸
正規化器15)とから成ることを特徴とする音声認識装
置における特徴パターン抽出方法である。
のしきい値で比較して二値スペクトルパターンを得るス
テップ(二値化器12)と、二値スペクトルパターンに
おいて各フレームのチャンネル方向に関して「1」また
は「0」の連続する数を算出してパターンマトリクスを
得るステップ(領域距離特徴抽出器13)と、二値スペ
クトルパターンの端部に相当するパターンマトリクスの
所定の列に含まれる値を正規化するステップ(周波数軸
正規化器15)とから成ることを特徴とする音声認識装
置における特徴パターン抽出方法である。
二値化器12から出力されるM行N列のマトリクスXM
Nで表現される二値スペクトルパターンが領域距離特徴
抽出器13に供給され、チャンネル方向に連なる「1」
及び「0」の領域とが判別されて各領域(1≦i51.
iは整数)に存在するチャンネルの個数が特徴値として
抽出される。この抽出処理によりM行I列のマトリクス
XNIで表現される初期特徴パターンが形成され、この
初期特徴パターンが時間軸正規化器14に供給される。
Nで表現される二値スペクトルパターンが領域距離特徴
抽出器13に供給され、チャンネル方向に連なる「1」
及び「0」の領域とが判別されて各領域(1≦i51.
iは整数)に存在するチャンネルの個数が特徴値として
抽出される。この抽出処理によりM行I列のマトリクス
XNIで表現される初期特徴パターンが形成され、この
初期特徴パターンが時間軸正規化器14に供給される。
時間軸正規化器14において時系列軌跡に沿って正規化
処理がなされ、初期特徴パターンがJ行■列のマトリク
スXJIにより表現される時間軸方向の変動に影響され
ない特徴パターンとされ、この特徴パターンが周波数軸
正規化器15に供給される0周波数軸正規化器15にお
いて特徴パターンの(i−1)の列の特徴値のうちで最
小のものが判断され、(i−1)の列の各特徴値から最
小と判断される特徴値が減算され、得られた夫々の値が
(i−1)の列に関する新たな特徴値とされて周波数軸
方向の変動に影響されない特徴パターンが形成され、こ
の特徴パターンに基づいてパターンマツチングがなされ
る。
処理がなされ、初期特徴パターンがJ行■列のマトリク
スXJIにより表現される時間軸方向の変動に影響され
ない特徴パターンとされ、この特徴パターンが周波数軸
正規化器15に供給される0周波数軸正規化器15にお
いて特徴パターンの(i−1)の列の特徴値のうちで最
小のものが判断され、(i−1)の列の各特徴値から最
小と判断される特徴値が減算され、得られた夫々の値が
(i−1)の列に関する新たな特徴値とされて周波数軸
方向の変動に影響されない特徴パターンが形成され、こ
の特徴パターンに基づいてパターンマツチングがなされ
る。
a、音声認識装置の全体構成とその動作説明以下、この
発明の一実施例を図面を参照して説明する。第1図は、
この発明を実用するのに用いられる音声認識装置の一例
としての概要を示すもので、この発明は、第1図におい
て6で示される特徴抽出部の処理に関するものである。
発明の一実施例を図面を参照して説明する。第1図は、
この発明を実用するのに用いられる音声認識装置の一例
としての概要を示すもので、この発明は、第1図におい
て6で示される特徴抽出部の処理に関するものである。
第1図において、lで示されるのが音声入力部としての
マイクロホンを示している。マイクロホン1からのアナ
ログ音声信号がフィルタ2に供給される。フィルタ2は
、例えばカットオフ周波数7.5klLzのローパスフ
ィルタであり、音声信号がフィルタ2において、音声認
識に必要とされる7、5kHz以下の帯域に制限され、
この音声信号がアンプ3を介してA/D変換器4に供給
される。
マイクロホンを示している。マイクロホン1からのアナ
ログ音声信号がフィルタ2に供給される。フィルタ2は
、例えばカットオフ周波数7.5klLzのローパスフ
ィルタであり、音声信号がフィルタ2において、音声認
識に必要とされる7、5kHz以下の帯域に制限され、
この音声信号がアンプ3を介してA/D変換器4に供給
される。
A/D変換器4は、例えばサンプリング周波数16.5
kHzの8ビツトA/D変換器であり、音声信号がA/
D変換器4において、アナログ−ディジタル変換されて
8ビツトのディジタル信号とされ、音響分析器5に供給
される。
kHzの8ビツトA/D変換器であり、音声信号がA/
D変換器4において、アナログ−ディジタル変換されて
8ビツトのディジタル信号とされ、音響分析器5に供給
される。
音響分析器5は、音声信号を周波数スペクトルに変換し
て、例えばNチャンネルのスペクトルデータ列を発生す
るものである。音響分析器5において、音声信号が演算
処理により周波数スペクトルに変換され、例えば対数軸
上で一定間隔となるN個の周波数を代表値とするスペク
トルデータ列が得られる。従って、音声信号がNチャン
ネルの離散的な周波数スペクトルの大きさによって表現
−される、そして、単位時間(フレーム周期)毎にNチ
ャンネルのスペクトルデータ列が1つのフレームデータ
として出力される。即ち、フレーム周期毎に音声信号が
N次元ベクトルにより表現されるパラメータとして切り
出され、特徴抽出部6に供給される。
て、例えばNチャンネルのスペクトルデータ列を発生す
るものである。音響分析器5において、音声信号が演算
処理により周波数スペクトルに変換され、例えば対数軸
上で一定間隔となるN個の周波数を代表値とするスペク
トルデータ列が得られる。従って、音声信号がNチャン
ネルの離散的な周波数スペクトルの大きさによって表現
−される、そして、単位時間(フレーム周期)毎にNチ
ャンネルのスペクトルデータ列が1つのフレームデータ
として出力される。即ち、フレーム周期毎に音声信号が
N次元ベクトルにより表現されるパラメータとして切り
出され、特徴抽出部6に供給される。
例えば、音声区間の終端に対応するフレームをMとした
場合、第2図に示すように、各々がチャンネル1〜チヤ
ンネルNのスペクトルデータにより構成されるフレーム
データが時系列でフレーム1からフレームMまで特徴抽
出部6に供給される。
場合、第2図に示すように、各々がチャンネル1〜チヤ
ンネルNのスペクトルデータにより構成されるフレーム
データが時系列でフレーム1からフレームMまで特徴抽
出部6に供給される。
特徴抽出部6は、後に詳述するように、スペクトル傾向
正規化、二値化、領域距離特徴抽出1時間軸正規化及び
周波数軸正規化等の各種の処理を行って、特徴パターン
を形成するもので特徴抽出部6において形成された特徴
パターンがモード切替回路7に供給される。
正規化、二値化、領域距離特徴抽出1時間軸正規化及び
周波数軸正規化等の各種の処理を行って、特徴パターン
を形成するもので特徴抽出部6において形成された特徴
パターンがモード切替回路7に供給される。
この特徴パターンが登録時においては、モード切替回路
7を介して登録パターンメモリ8に供給され、標準パタ
ーンとして記憶される。また、認識時においては、入力
音声信号が前述した処理により特徴パターンとされ、こ
の特徴パターンが入カバターンとしてパターンマツチン
グ判定器9に供給される。そして、比較の対象とされる
登録パターンメモリ8の標準パターンがパターンマツチ
ング判定器9に供給され、入カバターンと比較の対象と
される全ての標準パターンとの間において、パターンマ
ツチングが行われる。
7を介して登録パターンメモリ8に供給され、標準パタ
ーンとして記憶される。また、認識時においては、入力
音声信号が前述した処理により特徴パターンとされ、こ
の特徴パターンが入カバターンとしてパターンマツチン
グ判定器9に供給される。そして、比較の対象とされる
登録パターンメモリ8の標準パターンがパターンマツチ
ング判定器9に供給され、入カバターンと比較の対象と
される全ての標準パターンとの間において、パターンマ
ツチングが行われる。
パターンマツチング判定器9において、入カバターンを
構成するフレームと比較の対象とされる標準パターンを
構成するフレームどの間において、フレーム間距離が求
められ、その総和がマツチング距離とされる。そして比
較の対象とされる全ての登録パターンに関して求められ
たマツチング距離のうちで最小でかつ十分に距離が近い
ものと判断される登録パターンに対応する単語が認識結
果として出力される。
構成するフレームと比較の対象とされる標準パターンを
構成するフレームどの間において、フレーム間距離が求
められ、その総和がマツチング距離とされる。そして比
較の対象とされる全ての登録パターンに関して求められ
たマツチング距離のうちで最小でかつ十分に距離が近い
ものと判断される登録パターンに対応する単語が認識結
果として出力される。
b、特徴抽出部における特徴パターン抽出方法の説明
第3図Aは、前述した音声認識装置における特徴抽出部
6の一例としての構成を示すもので、第3図Aに示すよ
うに、特徴抽出部6がスペクトル傾向正規化器11.二
値化器12.領域距離特徴抽出器139時間軸正規化器
14及び周波数軸正規化器15により構成される。
6の一例としての構成を示すもので、第3図Aに示すよ
うに、特徴抽出部6がスペクトル傾向正規化器11.二
値化器12.領域距離特徴抽出器139時間軸正規化器
14及び周波数軸正規化器15により構成される。
スペクトル傾向正規化器11に音響分析器5からの時系
列のフレームデータが供給され、スペクトル傾向正規化
器11において、順次供給されるフレームデータ毎にス
ペクトルデータの傾向正規化処理がなされる0例えば、
各フレームデータを構成するスペクトルデータに関して
傾向変動を補正する傾向値がチャンネル1から所定のチ
ャンネルn(1≦n≦N、nは整数)までのスペクトル
データの平均値と、所定のチャンネルnから最大チャン
ネルNまでのスペクトルデータの平均値との平均値に適
当な係数が乗ぜられることにより求められる。この各チ
ャンネルのスペクトルデータに関して求められた傾向値
と対応するスペクトルデータとの間において減算がなさ
れ、スペクトル傾向が平坦化され、話者の個人差及び周
囲ノイズ等に影響されることがないようにスペクトルデ
ータ向が正規化される。全てのフレームに関して同様に
傾向正規化処理がなされ、傾向正規化されたフレームデ
ータが二値化器12に供給される。
列のフレームデータが供給され、スペクトル傾向正規化
器11において、順次供給されるフレームデータ毎にス
ペクトルデータの傾向正規化処理がなされる0例えば、
各フレームデータを構成するスペクトルデータに関して
傾向変動を補正する傾向値がチャンネル1から所定のチ
ャンネルn(1≦n≦N、nは整数)までのスペクトル
データの平均値と、所定のチャンネルnから最大チャン
ネルNまでのスペクトルデータの平均値との平均値に適
当な係数が乗ぜられることにより求められる。この各チ
ャンネルのスペクトルデータに関して求められた傾向値
と対応するスペクトルデータとの間において減算がなさ
れ、スペクトル傾向が平坦化され、話者の個人差及び周
囲ノイズ等に影響されることがないようにスペクトルデ
ータ向が正規化される。全てのフレームに関して同様に
傾向正規化処理がなされ、傾向正規化されたフレームデ
ータが二値化器12に供給される。
二値化器12において、1個のフレームデータにより表
現されるスペクトルエンベロープのホルマント部が1と
なるように適当な値に設定されたしきい値で以てフレー
ムデータを構成する8ビツトのスペクトルデータの夫々
が二値化される0例えば、スペクトルデータと適当な値
に設定されたしきい値とが比較され、しきい値より大と
なる値のスペクトルデータが「1」とされ、しきい値よ
り小となる値のスペクトルデータが「0」とされる。二
値化器12において形成されたこの二値スペクトルパタ
ーンが領域距離特徴抽出器13に供給される。
現されるスペクトルエンベロープのホルマント部が1と
なるように適当な値に設定されたしきい値で以てフレー
ムデータを構成する8ビツトのスペクトルデータの夫々
が二値化される0例えば、スペクトルデータと適当な値
に設定されたしきい値とが比較され、しきい値より大と
なる値のスペクトルデータが「1」とされ、しきい値よ
り小となる値のスペクトルデータが「0」とされる。二
値化器12において形成されたこの二値スペクトルパタ
ーンが領域距離特徴抽出器13に供給される。
領域距離特徴抽出器13は、各フレームの周波数軸方向
、即ち、チャンネル方向に連なる「1」の領域及び連な
る「0」の領域とを判別し、各領域に存在するチャンネ
ルの個数を特徴値として抽出するもので、この抽出処理
により初期特徴パターンを形成する。
、即ち、チャンネル方向に連なる「1」の領域及び連な
る「0」の領域とを判別し、各領域に存在するチャンネ
ルの個数を特徴値として抽出するもので、この抽出処理
により初期特徴パターンを形成する。
つまり、周波数軸となるチャンネル番号をn(1≦n≦
N、 nは整数)とし、時間軸としてのフレーム番号
をm(1≦m≦M、mは整数)として二値スペクトルパ
ターンがM行N列マトリクスXl″Nで表現されるもの
とすると、各フレーム(各m行)につきチャンネル方向
(例えばチャンネル番号が大きくなるn列方向)に向か
って連続する「1」の領域と連続する「0」の領域とを
判定し、始端となる領域を1として1から終端となる領
域Iまで領域番号i (1≦i≦I、iは整数5を付
加する。そして各領域に存在するチャンネルの個数を特
徴値として抽出し、この特徴値を領域番号順に並べるこ
とで、M行I列のマトリクスX−により表現される初期
特徴パターンを形成する。
N、 nは整数)とし、時間軸としてのフレーム番号
をm(1≦m≦M、mは整数)として二値スペクトルパ
ターンがM行N列マトリクスXl″Nで表現されるもの
とすると、各フレーム(各m行)につきチャンネル方向
(例えばチャンネル番号が大きくなるn列方向)に向か
って連続する「1」の領域と連続する「0」の領域とを
判定し、始端となる領域を1として1から終端となる領
域Iまで領域番号i (1≦i≦I、iは整数5を付
加する。そして各領域に存在するチャンネルの個数を特
徴値として抽出し、この特徴値を領域番号順に並べるこ
とで、M行I列のマトリクスX−により表現される初期
特徴パターンを形成する。
例えば、第4図Aに示すようにチャンネル1〜チヤンネ
ル15までの15個のチャンネルにより各フレームが構
成され、8個のフレームにより構成される二値スペクト
ルパターンが存在する場合には、各フレームに関して連
なる「1」領域(図中における斜線領域)と連なる「0
」領域が判定され、例外的なフレームを除いて6領域に
分割される。そして各領域に存在するチャンネルの個数
が特徴値として図中矢印で示すように対応した形で抽出
される。従って、8行15列マトリクスで表現される第
4図Aに示す二値スペクトルパターンが第4−8に示す
ように8行6列マトリクスで表現される初期特徴パター
ンとされる。このように領域距離特徴抽出器13におい
て形成された初期特徴パターンが時間軸正規化器14に
供給される。
ル15までの15個のチャンネルにより各フレームが構
成され、8個のフレームにより構成される二値スペクト
ルパターンが存在する場合には、各フレームに関して連
なる「1」領域(図中における斜線領域)と連なる「0
」領域が判定され、例外的なフレームを除いて6領域に
分割される。そして各領域に存在するチャンネルの個数
が特徴値として図中矢印で示すように対応した形で抽出
される。従って、8行15列マトリクスで表現される第
4図Aに示す二値スペクトルパターンが第4−8に示す
ように8行6列マトリクスで表現される初期特徴パター
ンとされる。このように領域距離特徴抽出器13におい
て形成された初期特徴パターンが時間軸正規化器14に
供給される。
時間軸正規化器14は、例えば特徴ベクトル(連なる「
1」領域及び連なるrOJ領域の領域数Iに対応するI
次元ベクトル)空間上における時系列軌跡に沿って正規
化処理を行って初期特徴パターンを時間軸方向に圧縮(
若しくは伸長)する。
1」領域及び連なるrOJ領域の領域数Iに対応するI
次元ベクトル)空間上における時系列軌跡に沿って正規
化処理を行って初期特徴パターンを時間軸方向に圧縮(
若しくは伸長)する。
例えば、時間軸正規化器14において、初期特徴パター
ンを構成する隣り合うフレームの対応する各領域の特徴
値の差の絶対値が求められ、その総和が隣り合うフレー
ムに関するフレーム間距離とされる。更にフレーム間距
離の総和が求められ、始端フレーム1から終端フレーム
Mまでの■次元ベクトルの軌跡長が求められる。そして
特徴を抽出するのに必要な所定の分割数(例えばJ)で
もって軌跡長が等分割される。3個の分割点の夫々に対
応して近接存在するフレームのみが抽出され、話者の音
声の発生速度変動に影響されることがないように時間軸
が正規化されて出力される。従って、M行I列のマトリ
クスXMIにより表現される初期特徴パターンがJ行■
列のマトリクスXJIのマトリクスにより表現される特
徴パターンに圧縮(若しくは伸長)される。時間軸正規
化器14において形成された特徴パターンが周波数軸正
規化器15に供給される。
ンを構成する隣り合うフレームの対応する各領域の特徴
値の差の絶対値が求められ、その総和が隣り合うフレー
ムに関するフレーム間距離とされる。更にフレーム間距
離の総和が求められ、始端フレーム1から終端フレーム
Mまでの■次元ベクトルの軌跡長が求められる。そして
特徴を抽出するのに必要な所定の分割数(例えばJ)で
もって軌跡長が等分割される。3個の分割点の夫々に対
応して近接存在するフレームのみが抽出され、話者の音
声の発生速度変動に影響されることがないように時間軸
が正規化されて出力される。従って、M行I列のマトリ
クスXMIにより表現される初期特徴パターンがJ行■
列のマトリクスXJIのマトリクスにより表現される特
徴パターンに圧縮(若しくは伸長)される。時間軸正規
化器14において形成された特徴パターンが周波数軸正
規化器15に供給される。
周波数軸正規化器15は、周波数軸方向の平行移動的変
動の正規化処理を行って、最終的な特徴パターンを形成
する。
動の正規化処理を行って、最終的な特徴パターンを形成
する。
時間軸正規化器14からの特徴パターンの(i=1)の
列以外の特徴値は、領域距離特徴抽出器13における処
理によって既に周波数軸方向の平行移動的変動に対して
不変な値とされているため、周波数軸正規化器15にお
いて特徴パターンの(i−1)の列の特徴値に関しての
み計算処理がなされる。例えば、特徴パターンの(i=
1)の列の特徴値のうちで最小値となるものが判断され
、(i = 1)の列の各特徴値から最小と判断される
特徴値が減算される。この減算処理により得られた夫々
の値が(i=1)の例に関する新たな特徴値とされる。
列以外の特徴値は、領域距離特徴抽出器13における処
理によって既に周波数軸方向の平行移動的変動に対して
不変な値とされているため、周波数軸正規化器15にお
いて特徴パターンの(i−1)の列の特徴値に関しての
み計算処理がなされる。例えば、特徴パターンの(i=
1)の列の特徴値のうちで最小値となるものが判断され
、(i = 1)の列の各特徴値から最小と判断される
特徴値が減算される。この減算処理により得られた夫々
の値が(i=1)の例に関する新たな特徴値とされる。
例えば、第4図Bに示す特徴パターンが周波数軸正規化
器15に供給された場合(実際には、時間軸正規化器1
4を介されるため圧縮若しくは伸長された形となる)に
は、第4図Bにおいて左端となる(i=1)の列に関し
てのみ処理がなされて特徴値の最小となるものが「3」
と判断され、各特徴値から「3」が減算される。この減
算処理により得られた夫々の値が図中矢印で示すように
(i=1)の列に関する新たな特徴値とされて第4図B
に示す特徴パターンが第4図C示す特徴パターンとされ
る。
器15に供給された場合(実際には、時間軸正規化器1
4を介されるため圧縮若しくは伸長された形となる)に
は、第4図Bにおいて左端となる(i=1)の列に関し
てのみ処理がなされて特徴値の最小となるものが「3」
と判断され、各特徴値から「3」が減算される。この減
算処理により得られた夫々の値が図中矢印で示すように
(i=1)の列に関する新たな特徴値とされて第4図B
に示す特徴パターンが第4図C示す特徴パターンとされ
る。
このように周波数軸正規化器15において形成された特
徴パターンが前述したように登録時においては登録パタ
ーンメモリ8に供給され、認識時においてはパターンマ
ツチング判定器9に供給される。
徴パターンが前述したように登録時においては登録パタ
ーンメモリ8に供給され、認識時においてはパターンマ
ツチング判定器9に供給される。
尚、この発明の一実施例においては、fII域距離特徴
抽出処理を行う際にチャンネル1からチャンネル番号が
大きくなる方向に順次連続する「1」または「0」の領
域を判定する場合について説明したが、チャンネルNか
らチャンネル番号が小さくなる方向に順次連続する「1
」または「0」の領域を判定してその各領域に対応して
初期特徴パターンを形成するようにしても良い。
抽出処理を行う際にチャンネル1からチャンネル番号が
大きくなる方向に順次連続する「1」または「0」の領
域を判定する場合について説明したが、チャンネルNか
らチャンネル番号が小さくなる方向に順次連続する「1
」または「0」の領域を判定してその各領域に対応して
初期特徴パターンを形成するようにしても良い。
また、この発明の一実施例の特徴抽出部6においては、
スペクトル傾向正規化、二値化、領域距離特徴抽出1時
間軸正規化及び周波数軸正規化の順で処理がなされる場
合について説明したが、特徴抽出部6の構成を第3図B
に示すように二値化器12の前段に時間軸正規化器14
を設ける構成として、例えば特徴ベクトル(音響分析器
5のチャンネル数に対応するN次元ベクトル)空間上に
おける時系列軌跡に沿って時間軸正規化処理を行ってか
ら二値化し、領域距離特徴抽出処理を行って初期特徴パ
ターンを形成した後に周波数軸正規化処理を行うように
しても良い。更に、特徴抽出部6を第3図Cに示す構成
として、二値化処理の後に時間軸正規化処理を行い、そ
の後に領域距離特徴抽出処理を行って初期特徴パターン
を形成して周波数軸正規化処理を行うようにしても良い
。
スペクトル傾向正規化、二値化、領域距離特徴抽出1時
間軸正規化及び周波数軸正規化の順で処理がなされる場
合について説明したが、特徴抽出部6の構成を第3図B
に示すように二値化器12の前段に時間軸正規化器14
を設ける構成として、例えば特徴ベクトル(音響分析器
5のチャンネル数に対応するN次元ベクトル)空間上に
おける時系列軌跡に沿って時間軸正規化処理を行ってか
ら二値化し、領域距離特徴抽出処理を行って初期特徴パ
ターンを形成した後に周波数軸正規化処理を行うように
しても良い。更に、特徴抽出部6を第3図Cに示す構成
として、二値化処理の後に時間軸正規化処理を行い、そ
の後に領域距離特徴抽出処理を行って初期特徴パターン
を形成して周波数軸正規化処理を行うようにしても良い
。
この発明では、二値化器から供給されるM行N列のマト
リクスXMNで表現される二値スペクトルパターンが領
域距離特徴抽出器に供給され、チャンネル方向に連なる
「1」及び「0」の領域とが判別されて各領域(1≦i
≦I、iは整数)に存在するチャンネルの個数が特m値
として抽出される。この抽出処理によりM行1列のマト
リクスX旧で表現される初期特徴パターンが形成され、
この初期特徴パターンが時間軸正規化器に供給される。
リクスXMNで表現される二値スペクトルパターンが領
域距離特徴抽出器に供給され、チャンネル方向に連なる
「1」及び「0」の領域とが判別されて各領域(1≦i
≦I、iは整数)に存在するチャンネルの個数が特m値
として抽出される。この抽出処理によりM行1列のマト
リクスX旧で表現される初期特徴パターンが形成され、
この初期特徴パターンが時間軸正規化器に供給される。
時間軸正規化器において時系列軌跡に沿って正規化処理
がなされ初期特徴パターンがJ行I列のマトリクスXJ
Iにより表現される時間軸方向の変動に影響されない特
徴パターンとされ、この特徴パターンが周波数軸正規化
器に供給される。周波数軸正規化器において特徴パター
ンの(i=1)の列の特徴値のうちで最小のものが判断
され、(i = 1)の列の各特徴値から最小と判断さ
れる特徴値が減算、され、得られた夫々の値が(1=1
)の列に関する新たな特徴値として周波数軸方向の変動
に影響されない特徴パターンが形成され、この特徴パタ
ーンに基づいてパターンマツチングがなされる。
がなされ初期特徴パターンがJ行I列のマトリクスXJ
Iにより表現される時間軸方向の変動に影響されない特
徴パターンとされ、この特徴パターンが周波数軸正規化
器に供給される。周波数軸正規化器において特徴パター
ンの(i=1)の列の特徴値のうちで最小のものが判断
され、(i = 1)の列の各特徴値から最小と判断さ
れる特徴値が減算、され、得られた夫々の値が(1=1
)の列に関する新たな特徴値として周波数軸方向の変動
に影響されない特徴パターンが形成され、この特徴パタ
ーンに基づいてパターンマツチングがなされる。
従って、この発明に依れば、周波数軸方向の平行移動的
変動を容易に正規化することができると共に、時間軸方
向の変動に関しても容易に正規化することができ、不特
定話者に対する認識率を向上させることが可能となる。
変動を容易に正規化することができると共に、時間軸方
向の変動に関しても容易に正規化することができ、不特
定話者に対する認識率を向上させることが可能となる。
また、この発明に依れば、従来の音声認識装置の場合の
ように音声入力時の話し方規定をする必要がなく、また
、マルチテンプレート方式にする必要がなくなるため、
登録パターンメモリの容量を低減すると共に、認識処理
の高速化を図ることができ、小型で低価格、然も実用的
な音声認識装置を提供することが可能となる。
ように音声入力時の話し方規定をする必要がなく、また
、マルチテンプレート方式にする必要がなくなるため、
登録パターンメモリの容量を低減すると共に、認識処理
の高速化を図ることができ、小型で低価格、然も実用的
な音声認識装置を提供することが可能となる。
第1図はこの発明の一実施例のブロック図、第2図はこ
の発明の一実施例における音響分析器から出力される時
系列フレームデータの構成を示す路線図、第3図Aはこ
の発明の一実施例における特徴抽出部の構成を示すブロ
ック図、第3図B及び第3UjJCはこの発明の一実施
例における特徴抽出部の構成の他の例及び更に他の例の
ブロック図、第4図はこの発明の一実施例における特徴
抽出部の動作説明に用いる路線図である。 図面における主要な符号の説明 にマイクロホン、 5:音響分析器、 6:特徴抽出部、 8:登録パターンメモリ、9:パタ
ーンマツチング判定器、 11ニスベクトル傾向正規
化器、 12:二値化器、131領域距離特徴抽出器、
14:時間軸正規化器、 15:周波数軸正規化器
。 代理人 弁理士 杉 浦 正 知 的&9・1フレームヂーヲ 第2図 第3図A %虫Jh * 却σ)#Irバ(の、イヒ 0イラ°1
第3図B つジ)イ政オ由出、麿やOaメqの そ1;イでのイウ
゛1第3図C
の発明の一実施例における音響分析器から出力される時
系列フレームデータの構成を示す路線図、第3図Aはこ
の発明の一実施例における特徴抽出部の構成を示すブロ
ック図、第3図B及び第3UjJCはこの発明の一実施
例における特徴抽出部の構成の他の例及び更に他の例の
ブロック図、第4図はこの発明の一実施例における特徴
抽出部の動作説明に用いる路線図である。 図面における主要な符号の説明 にマイクロホン、 5:音響分析器、 6:特徴抽出部、 8:登録パターンメモリ、9:パタ
ーンマツチング判定器、 11ニスベクトル傾向正規
化器、 12:二値化器、131領域距離特徴抽出器、
14:時間軸正規化器、 15:周波数軸正規化器
。 代理人 弁理士 杉 浦 正 知 的&9・1フレームヂーヲ 第2図 第3図A %虫Jh * 却σ)#Irバ(の、イヒ 0イラ°1
第3図B つジ)イ政オ由出、麿やOaメqの そ1;イでのイウ
゛1第3図C
Claims (1)
- 【特許請求の範囲】 入力音声信号のスペクトルパターンを所定のしきい値で
比較して二値スペクトルパターンを得るステップと、 上記二値スペクトルパターンにおいて各フレームのチャ
ンネル方向に関して「1」または「0」の連続する数を
算出してパターンマトリクスを得るステップと、 上記二値スペクトルパターンの端部に相当する上記パタ
ーンマトリクスの所定の列に含まれる値を正規化するス
テップと からなることを特徴とする音声認識装置における特徴パ
ターン抽出方法。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
JP26723386A JPS63121100A (ja) | 1986-11-10 | 1986-11-10 | 音声認識装置における特徴パタ−ン抽出方法 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
JP26723386A JPS63121100A (ja) | 1986-11-10 | 1986-11-10 | 音声認識装置における特徴パタ−ン抽出方法 |
Publications (1)
Publication Number | Publication Date |
---|---|
JPS63121100A true JPS63121100A (ja) | 1988-05-25 |
Family
ID=17441986
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
JP26723386A Pending JPS63121100A (ja) | 1986-11-10 | 1986-11-10 | 音声認識装置における特徴パタ−ン抽出方法 |
Country Status (1)
Country | Link |
---|---|
JP (1) | JPS63121100A (ja) |
-
1986
- 1986-11-10 JP JP26723386A patent/JPS63121100A/ja active Pending
Similar Documents
Publication | Publication Date | Title |
---|---|---|
JPS634200B2 (ja) | ||
CA1164569A (en) | System for extraction of pole/zero parameter values | |
JPH0465392B2 (ja) | ||
JPS63121100A (ja) | 音声認識装置における特徴パタ−ン抽出方法 | |
CN112634937A (zh) | 一种无需数字特征提取计算的声音分类方法 | |
JPS625298A (ja) | 音声認識装置 | |
JPS6225798A (ja) | 音声認識装置 | |
JP2668877B2 (ja) | 音源正規化方法 | |
JPS63104099A (ja) | 音声認識装置 | |
JPS6225799A (ja) | 音声認識装置 | |
JPS625299A (ja) | 音声認識装置 | |
JP3023135B2 (ja) | 音声認識装置 | |
JPS62105199A (ja) | 音声認識装置 | |
JPS6334477B2 (ja) | ||
JPS6210697A (ja) | 音声認識装置 | |
JPS61290496A (ja) | 音声認識装置 | |
JPS62113197A (ja) | 音声認識装置 | |
JPS61292695A (ja) | 音声認識装置 | |
JP2606211B2 (ja) | 音源正規化方法 | |
JPS60166993A (ja) | 単語音声認識装置 | |
KR960007130B1 (ko) | 음성 인식시스템에서의 숫자음 인식방법 | |
JPS59124400A (ja) | 音声パタ−ン・マツチング方式 | |
JP3002211B2 (ja) | 不特定話者音声認識装置 | |
JP2613108B2 (ja) | 音声認識方法 | |
JP3015477B2 (ja) | 音声認識方法 |