JPS63104099A - 音声認識装置 - Google Patents
音声認識装置Info
- Publication number
- JPS63104099A JPS63104099A JP25046586A JP25046586A JPS63104099A JP S63104099 A JPS63104099 A JP S63104099A JP 25046586 A JP25046586 A JP 25046586A JP 25046586 A JP25046586 A JP 25046586A JP S63104099 A JPS63104099 A JP S63104099A
- Authority
- JP
- Japan
- Prior art keywords
- distance
- frame
- channel
- data
- pattern
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Pending
Links
Abstract
(57)【要約】本公報は電子出願前の出願データであるた
め要約のデータは記録されません。
め要約のデータは記録されません。
Description
【発明の詳細な説明】
〔産業上の利用分野〕
この発明は、例えば話者の音声を単語単位で認識するの
に適用される音声認識装置に関する。
に適用される音声認識装置に関する。
この発明は、スペクトルデータの夫々を所定のしきい値
で二値化してパターンマツチングを行う音声認識装置の
パターンマツチング判定器において、1個のフレームの
二値パターンのうちで音声の小変動に大きく影響される
しきい値近傍の値となるスペクトルデータを有していた
曖昧的チャンネルを判定し、この判定出力に基づいて曖
昧的チャンネルに関するチャンネル間距離を減少させる
方向に補正する形でフレーム間距離を算出するようにし
てマツチング精度を向上させ、音声の小変動による認識
率の低下を防止す′るようにしたものである。
で二値化してパターンマツチングを行う音声認識装置の
パターンマツチング判定器において、1個のフレームの
二値パターンのうちで音声の小変動に大きく影響される
しきい値近傍の値となるスペクトルデータを有していた
曖昧的チャンネルを判定し、この判定出力に基づいて曖
昧的チャンネルに関するチャンネル間距離を減少させる
方向に補正する形でフレーム間距離を算出するようにし
てマツチング精度を向上させ、音声の小変動による認識
率の低下を防止す′るようにしたものである。
本願出願人により、先に提案されている特願昭59−1
06177号明細書に示される音声認識装置は、音声入
力部としてのマイクロホン、前処理回路。
06177号明細書に示される音声認識装置は、音声入
力部としてのマイクロホン、前処理回路。
音響分析器、特徴データ抽出器、登録パターンメモリ及
びパターンマツチング判定器等により構成されている。
びパターンマツチング判定器等により構成されている。
この音声認識装置は、マイクロホンから入力される音声
信号を前処理回路において、音声認識に必要とされる帯
域に制限し、A/D変換器によりディジタル音声信号と
し、このディジタル音声信号を音響分析器に供給する。
信号を前処理回路において、音声認識に必要とされる帯
域に制限し、A/D変換器によりディジタル音声信号と
し、このディジタル音声信号を音響分析器に供給する。
そして、音響分析器において、音声信号を周波数スペク
トルに変換し、例えば対数軸上で一定間隔となるように
N個の周波数を代表値として周波数スペクトルを正規化
して、フレーム周期毎にNチャンネルのスペクトルデー
タにより構成されるフレームデータを特徴データ抽出器
に供給する。
トルに変換し、例えば対数軸上で一定間隔となるように
N個の周波数を代表値として周波数スペクトルを正規化
して、フレーム周期毎にNチャンネルのスペクトルデー
タにより構成されるフレームデータを特徴データ抽出器
に供給する。
特徴データ抽出器は、隣り合うフレームデータの距離を
計算し、夫々のフレーム間距離の総和により、音声信号
の始端フレームから終端フレームまでのN次元ベクトル
の軌跡長を求め、最も語数が多く長い音声の場合に特徴
を抽出するのに必要な所定の分割数でもって軌跡長を等
分割し、その分割点に対応したフレームデータのみを特
徴データとして抽出して、話者の音声の発生速度変動に
影響されることがないように時間軸を正規化し出力する
。
計算し、夫々のフレーム間距離の総和により、音声信号
の始端フレームから終端フレームまでのN次元ベクトル
の軌跡長を求め、最も語数が多く長い音声の場合に特徴
を抽出するのに必要な所定の分割数でもって軌跡長を等
分割し、その分割点に対応したフレームデータのみを特
徴データとして抽出して、話者の音声の発生速度変動に
影響されることがないように時間軸を正規化し出力する
。
この特徴データを登録時においては、登録パターンメモ
リに供給して登録特徴データブロック(標準パターン)
として記憶し、認識時においては、入力音声信号を前述
した処理により、大刀特徴データブロック(入力パター
ン)とし、パターンマツチング判定器に供給する。そし
てパターンマツチング判定器において、入力特徴データ
ブロックと登録特徴データブロックとの間でパターンマ
ツチングを行う。
リに供給して登録特徴データブロック(標準パターン)
として記憶し、認識時においては、入力音声信号を前述
した処理により、大刀特徴データブロック(入力パター
ン)とし、パターンマツチング判定器に供給する。そし
てパターンマツチング判定器において、入力特徴データ
ブロックと登録特徴データブロックとの間でパターンマ
ツチングを行う。
パターンマツチング判定器は、登録特徴データブロック
を構成するフレームデータと入カ特徴データブロフクを
構成するフレームデータとの間でフレーム間距離を計算
し、フレーム間距離の総和をマツチング距離とし、他の
登録特徴データブロックに関しても同様にマツチング距
離を算出して、マツチング距離が最小で十分に距離が近
いものと判断される登録特徴データブロックに対応する
単語を認識結果として出力する。
を構成するフレームデータと入カ特徴データブロフクを
構成するフレームデータとの間でフレーム間距離を計算
し、フレーム間距離の総和をマツチング距離とし、他の
登録特徴データブロックに関しても同様にマツチング距
離を算出して、マツチング距離が最小で十分に距離が近
いものと判断される登録特徴データブロックに対応する
単語を認識結果として出力する。
しかし、従来の音声認識装置においては、音響分析器か
ら出力されるフレームデータが特徴データ抽出器を介し
てそのまま登録特徴データブロックとして登録パターン
メモリに記憶されるため、登録パターンメモリのメモリ
量が膨大なものとなる問題点があった。これと共に、パ
ターンマツチング時においても、データ量に応じてその
計算処理時間が長くなる問題点があった。
ら出力されるフレームデータが特徴データ抽出器を介し
てそのまま登録特徴データブロックとして登録パターン
メモリに記憶されるため、登録パターンメモリのメモリ
量が膨大なものとなる問題点があった。これと共に、パ
ターンマツチング時においても、データ量に応じてその
計算処理時間が長くなる問題点があった。
このため、フレームデータを構成するスペクトルデータ
の夫々を二値化し、登録パターンメモリの容量を低減さ
せてマツチング処理時間を短縮化する音声認識装置(特
願昭60−166191号明細書)が本願出願人により
提案されている。
の夫々を二値化し、登録パターンメモリの容量を低減さ
せてマツチング処理時間を短縮化する音声認識装置(特
願昭60−166191号明細書)が本願出願人により
提案されている。
この音声認識装置は、種々の原因により変動するスペク
トルの傾向を補正するための傾向値を算出し、この傾向
値に基づいてスペクトルの傾向を平坦化して話者の個人
差や周囲ノイズ等に影響されることがないようにフレー
ムデータを正規化した後にフレームデータを構成するス
ペクトルデータの夫々を二値化処理し、得られた二値パ
ターンに基づいてパターンマツチングを行うものである
。
トルの傾向を補正するための傾向値を算出し、この傾向
値に基づいてスペクトルの傾向を平坦化して話者の個人
差や周囲ノイズ等に影響されることがないようにフレー
ムデータを正規化した後にフレームデータを構成するス
ペクトルデータの夫々を二値化処理し、得られた二値パ
ターンに基づいてパターンマツチングを行うものである
。
しかし、前述した音声認識装置の二値化処理においては
、適当に設定されたしきい値で以て各スペクトルデータ
が二値化され、例えばしきい値より大となるスペクトル
データがrlJとされ、しきい値より小となるスペクト
ルデータが「0」とされる。
、適当に設定されたしきい値で以て各スペクトルデータ
が二値化され、例えばしきい値より大となるスペクトル
データがrlJとされ、しきい値より小となるスペクト
ルデータが「0」とされる。
例えば、第5図に示すチャンネル1〜チヤンネル12ま
での12個のスペクトルデータにより構成されるフレー
ムデータが図中のしきい値で以て二値化された場合には
、r 0.1.1.1,1.o、0,1.0,1゜1.
0」の二値パターンとされる。しかし、しきい値近傍の
値となるスペクトルデータは、やや乱調な話し方や多少
のノイズの混入によって変動し、二値化処理の結果とし
て常に1 (又は0)となるとは限らず、入力時の状況
により変化する曖昧なデータとなる。
での12個のスペクトルデータにより構成されるフレー
ムデータが図中のしきい値で以て二値化された場合には
、r 0.1.1.1,1.o、0,1.0,1゜1.
0」の二値パターンとされる。しかし、しきい値近傍の
値となるスペクトルデータは、やや乱調な話し方や多少
のノイズの混入によって変動し、二値化処理の結果とし
て常に1 (又は0)となるとは限らず、入力時の状況
により変化する曖昧なデータとなる。
つまり、音声特徴をより正確かつ適確に示すためには二
値パターン中の「1」となるチャンネルがホルマント部
と合致することが好ましいもので、第5図におけるチャ
ンネル2,5のようにホルマントの両側となるチャンネ
ルが「1」で示されることは、マツチング時における精
度に悪影響を及ぼし好ましくない。また、第5図におけ
るチャンネル10.11のように、実際にはチャンネル
10及び11との中間にホルマントが存在するのにもか
かわらず、近傍にずれた形でチャンネルlO及び11の
両者がrlJで示されることは、適611でない。
値パターン中の「1」となるチャンネルがホルマント部
と合致することが好ましいもので、第5図におけるチャ
ンネル2,5のようにホルマントの両側となるチャンネ
ルが「1」で示されることは、マツチング時における精
度に悪影響を及ぼし好ましくない。また、第5図におけ
るチャンネル10.11のように、実際にはチャンネル
10及び11との中間にホルマントが存在するのにもか
かわらず、近傍にずれた形でチャンネルlO及び11の
両者がrlJで示されることは、適611でない。
このように、しきい値近傍の値とされるスペクトルデー
タのチャンネルの二値データは曖昧であり、このような
曖昧性を考慮せずに二値パターンに基づいてパターンマ
ツチングする従来の音声認識装置は、正確でかつ適確な
マツチングを行うことができず、音声の小変動に認識率
が大きく影響され易い問題点があった。
タのチャンネルの二値データは曖昧であり、このような
曖昧性を考慮せずに二値パターンに基づいてパターンマ
ツチングする従来の音声認識装置は、正確でかつ適確な
マツチングを行うことができず、音声の小変動に認識率
が大きく影響され易い問題点があった。
従って、この発明の目的は、二値化処理におけるしきい
値近傍の曖昧的チャンネルを考慮した形で計算処理を行
うことができ、マツチング精度が向上されると共に、認
識率が向上された音声認識装置を提供することにある。
値近傍の曖昧的チャンネルを考慮した形で計算処理を行
うことができ、マツチング精度が向上されると共に、認
識率が向上された音声認識装置を提供することにある。
この発明は、入力音声信号から得られたスペクトルパタ
ーンをしきい値と比較することにより形成される二値の
入力パターンと二値の標準パターンとのパターンマツチ
ングを行う音声認2’7ffにおいて、入力パターン及
び標準パターンの少なくとも一方の各フレームのデータ
に関してあるチャンネルの前及び後のチャンネルの夫々
のデータの排他的論理和の値に基づき曖昧的チャンネル
を判別し、入力パターン及び標準パターンの対応するチ
ャンネル間距離を求めると共に、判別結果に基づいて曖
昧的チャンネル間の距離を減少させる補正を加えるよう
にしたことを特徴とする音声認識装置である。
ーンをしきい値と比較することにより形成される二値の
入力パターンと二値の標準パターンとのパターンマツチ
ングを行う音声認2’7ffにおいて、入力パターン及
び標準パターンの少なくとも一方の各フレームのデータ
に関してあるチャンネルの前及び後のチャンネルの夫々
のデータの排他的論理和の値に基づき曖昧的チャンネル
を判別し、入力パターン及び標準パターンの対応するチ
ャンネル間距離を求めると共に、判別結果に基づいて曖
昧的チャンネル間の距離を減少させる補正を加えるよう
にしたことを特徴とする音声認識装置である。
パターンマツチング判定器11において、登録特徴デー
タブロックと入力特徴データブロックとの間で対応する
フレームm(1≦m≦MSmは整数)のチャンネルn(
1≦n≦N、nは整数)に関して、そのチャンネルnが
音声の小変動に大きく影響される二値化処理におけるし
きい値近傍のスペクトルデータを有していた曖昧的チャ
ンネルかどうかがチャンネルnの前後に位置するチャン
ネル(n−1)及びチャンネル(n+1)の二値データ
の排他的論理和に基づいて判定される。この判定出力に
基づいて例えば1以下の補正係数Wが曖昧的チャンネル
に関するチャンネル間距離に乗ぜられ、チャンネル間距
離を減少させる方向に補正する形で計算処理がなされて
フレーム間距離が算出され、フレーム間距離に基づいて
算出されたマツチング距離に基づいてマツチング判定が
なされる。
タブロックと入力特徴データブロックとの間で対応する
フレームm(1≦m≦MSmは整数)のチャンネルn(
1≦n≦N、nは整数)に関して、そのチャンネルnが
音声の小変動に大きく影響される二値化処理におけるし
きい値近傍のスペクトルデータを有していた曖昧的チャ
ンネルかどうかがチャンネルnの前後に位置するチャン
ネル(n−1)及びチャンネル(n+1)の二値データ
の排他的論理和に基づいて判定される。この判定出力に
基づいて例えば1以下の補正係数Wが曖昧的チャンネル
に関するチャンネル間距離に乗ぜられ、チャンネル間距
離を減少させる方向に補正する形で計算処理がなされて
フレーム間距離が算出され、フレーム間距離に基づいて
算出されたマツチング距離に基づいてマツチング判定が
なされる。
a、一実施例の全体の構成
以下、この発明の一実施例を図面を参照して説明する。
第1図は、この発明の一実施例を示すもので、第1図に
おいてlで示されるのが音声人力部としてのマイクロホ
ンを示している。
おいてlで示されるのが音声人力部としてのマイクロホ
ンを示している。
マイクロホン1からのアナログ音声信号がフィルタ2に
供給される。フィルタ2は、例えば力・ノドオフ周波数
7.5kHzのローパスフィルタであり、音声信号がフ
ィルタ2において、音声認識に必要とされる7、5kH
z以下の帯域に制限され、この音声信号がアンプ3を介
してA/D変換器4に供給される。
供給される。フィルタ2は、例えば力・ノドオフ周波数
7.5kHzのローパスフィルタであり、音声信号がフ
ィルタ2において、音声認識に必要とされる7、5kH
z以下の帯域に制限され、この音声信号がアンプ3を介
してA/D変換器4に供給される。
A/D変換器4は、例えばサンプリング周波数12.5
kHzの8ピッl−A/D変換器であり、音声信号がA
/D変換器4において、アナログ−ディジタル変換され
て8ビツトのディジタル信号とされ、音響分析器5に供
給される。
kHzの8ピッl−A/D変換器であり、音声信号がA
/D変換器4において、アナログ−ディジタル変換され
て8ビツトのディジタル信号とされ、音響分析器5に供
給される。
音響分析器5は、音声信号を周波数スペクトルに変換し
て、例えばNチャンネルのスペクトルデータ列を発生す
るものである。音響分析器5において、音声信号が演算
処理により周波数スペクトルに変換され、例えば対数軸
上で一定間隔となるN個の周波数を代表値とするスペク
トルデータ列が得られる。従って、音声信号がNチャン
ネルの離散的な周波数スペクトルの大きさによって表現
される。そして、単位時間(フレーム周期)毎にNチャ
ンネルのスペクトルデータ列が1つのフレームデータと
して出力される。即ち、フレーム周期毎に音声信号がN
次元ベクトルにより表現されるパラメータとして切り出
され、スペクトル傾向正規化器6に供給される。
て、例えばNチャンネルのスペクトルデータ列を発生す
るものである。音響分析器5において、音声信号が演算
処理により周波数スペクトルに変換され、例えば対数軸
上で一定間隔となるN個の周波数を代表値とするスペク
トルデータ列が得られる。従って、音声信号がNチャン
ネルの離散的な周波数スペクトルの大きさによって表現
される。そして、単位時間(フレーム周期)毎にNチャ
ンネルのスペクトルデータ列が1つのフレームデータと
して出力される。即ち、フレーム周期毎に音声信号がN
次元ベクトルにより表現されるパラメータとして切り出
され、スペクトル傾向正規化器6に供給される。
スペクトル傾向正規化器6において、順次供給されるフ
レームデータ毎にスペクトルデータの傾向正規化処理が
なされる。例えば、各フレームデータを構成するスペク
トルデータに関して傾向変動を補正する傾向値がチャン
ネル1から所定のチャンネルn(1≦n S N %
nは整数)までのスペクトルデータの平均値と、所定の
チャンネルnから最大チャンネルNまでのスペクトルデ
ータの平均値との平均値に適当な係数が乗ぜられること
により求められる。この各チャンネルのスペクトルデー
タに関して求められた傾向値と対応するスペクトルデー
タとの間において減算がなされ、スペクトル傾向が平坦
化され、話者の個人差及び周囲ノイズ等に影響されるこ
とがないようにスペクトル傾向が正規化される。全ての
フレームに関して同様に傾向正規化処理がなされ、傾向
正規化されたフレームデータが特徴データ抽出器7に供
給される。
レームデータ毎にスペクトルデータの傾向正規化処理が
なされる。例えば、各フレームデータを構成するスペク
トルデータに関して傾向変動を補正する傾向値がチャン
ネル1から所定のチャンネルn(1≦n S N %
nは整数)までのスペクトルデータの平均値と、所定の
チャンネルnから最大チャンネルNまでのスペクトルデ
ータの平均値との平均値に適当な係数が乗ぜられること
により求められる。この各チャンネルのスペクトルデー
タに関して求められた傾向値と対応するスペクトルデー
タとの間において減算がなされ、スペクトル傾向が平坦
化され、話者の個人差及び周囲ノイズ等に影響されるこ
とがないようにスペクトル傾向が正規化される。全ての
フレームに関して同様に傾向正規化処理がなされ、傾向
正規化されたフレームデータが特徴データ抽出器7に供
給される。
特徴データ抽出器7は、時間軸を正規化することにより
時系列フレームデータを圧縮するものである。例えば、
特徴データ抽出器7において、隣り合うフレームデータ
の各チャンネルに関してスペクトルデータの差の絶対値
が夫々求められ、その総和が隣り合うフレームデータの
フレーム間距離とされる。更に、フレーム間距離の総和
が求められ、音声信号の始端フレームから終端フレーム
までのN次元ベクトルの軌跡長が求められる。そして最
も語数が多く長い音声の場合に特徴を抽出するのに必要
な所定の分割数でもって軌跡長が等分割される。分割点
の夫々に対応したフレームデータのみが抽出され、話者
の音声の発生速度変動に影響されることがないように時
間軸が正規化されて出力される。抽出されたフレームデ
ータが二値化回路8に供給される。
時系列フレームデータを圧縮するものである。例えば、
特徴データ抽出器7において、隣り合うフレームデータ
の各チャンネルに関してスペクトルデータの差の絶対値
が夫々求められ、その総和が隣り合うフレームデータの
フレーム間距離とされる。更に、フレーム間距離の総和
が求められ、音声信号の始端フレームから終端フレーム
までのN次元ベクトルの軌跡長が求められる。そして最
も語数が多く長い音声の場合に特徴を抽出するのに必要
な所定の分割数でもって軌跡長が等分割される。分割点
の夫々に対応したフレームデータのみが抽出され、話者
の音声の発生速度変動に影響されることがないように時
間軸が正規化されて出力される。抽出されたフレームデ
ータが二値化回路8に供給される。
二値化回路8において、適当な値に設定されたしきい値
で以て、フレームデータを構成する8ビツトのスペクト
ルデータの夫々が二値化される。
で以て、フレームデータを構成する8ビツトのスペクト
ルデータの夫々が二値化される。
例えば、スペクトルデータと適当な値に設定されたしき
い値とが比較され、しきい値より大となる値のスペクト
ルデータがrlJとされ、しきい値より小となる値のス
ペクトルデータが「0」とされ、得られたlフレームに
関する二値パターンがモード切替回路9に供給される。
い値とが比較され、しきい値より大となる値のスペクト
ルデータがrlJとされ、しきい値より小となる値のス
ペクトルデータが「0」とされ、得られたlフレームに
関する二値パターンがモード切替回路9に供給される。
この二値パターンが登録時においては、モード切替回路
9を介して登録パターンメモリ10に供給され、例えば
特徴データ抽出器7においてM個のフレームが抽出され
た場合には第2図に示すようなデータブロックが登録特
徴データブロックとして記憶される。認識時においては
、入力音声信号が前述した処理を経て二値パターンとさ
れ、この二値パターンがパターンマツチング判定器11
に供給され、入力特徴データブロックとされる。
9を介して登録パターンメモリ10に供給され、例えば
特徴データ抽出器7においてM個のフレームが抽出され
た場合には第2図に示すようなデータブロックが登録特
徴データブロックとして記憶される。認識時においては
、入力音声信号が前述した処理を経て二値パターンとさ
れ、この二値パターンがパターンマツチング判定器11
に供給され、入力特徴データブロックとされる。
入力特徴データブロックと比較の対象とされる全ての登
録特徴データブロックとの間において、パターンマツチ
ングが行われる。
録特徴データブロックとの間において、パターンマツチ
ングが行われる。
b、この発明の一実施例におけるパターンマ・ソチング
判定器の説明 第3図は、パターンマツチング判定器11の一例を示し
、第3図に示すように、フレーム距離計算回路12.曖
昧判定回路13.マ・ソチング距離計算回路14及び最
小距離判定回路15によりパターンマツチング判定器1
1が構成される。
判定器の説明 第3図は、パターンマツチング判定器11の一例を示し
、第3図に示すように、フレーム距離計算回路12.曖
昧判定回路13.マ・ソチング距離計算回路14及び最
小距離判定回路15によりパターンマツチング判定器1
1が構成される。
二値化回路8から入力特徴データブロックがフレーム距
離計算回路12及び曖昧判定回路13に供給されると共
に、登録パターンメモリ10から比較の対象とされる登
録特徴データプロ・ツクがフレーム距離計算回路12及
び曖昧判定回路13に供給される。
離計算回路12及び曖昧判定回路13に供給されると共
に、登録パターンメモリ10から比較の対象とされる登
録特徴データプロ・ツクがフレーム距離計算回路12及
び曖昧判定回路13に供給される。
フレーム距離計算回路12において、人力特徴データブ
ロックと登録特徴データブロックとの対応するフレーム
のフレーム間距離が求められる。
ロックと登録特徴データブロックとの対応するフレーム
のフレーム間距離が求められる。
例えば、m(1≦m5M、mは整数)番目のフレーム間
距離D1は、n(1≦n≦N、nは整数)をチャンネル
番号とし、入力特徴データブロックの入カニ値パターン
をS□とし、登録特徴データブロックの登録二値パター
ンをRゆ、とすると、次式により算出される。
距離D1は、n(1≦n≦N、nは整数)をチャンネル
番号とし、入力特徴データブロックの入カニ値パターン
をS□とし、登録特徴データブロックの登録二値パター
ンをRゆ、とすると、次式により算出される。
尚、上記(11式において(P−1)の時はフレーム間
距離り。は、絶対値距離で算出され、(P−2)の時は
フレーム間距離り、はユークリッド距離で算出される。
距離り。は、絶対値距離で算出され、(P−2)の時は
フレーム間距離り、はユークリッド距離で算出される。
また、上記(1)式におけるWは、補正係数であり、チ
ャンネルnが曖昧判定回路13の出力により曖昧的チャ
ンネルと判定された時にのみ1以下の値とされ、曖昧的
チャンネルと判定されない時には1とされる。
ャンネルnが曖昧判定回路13の出力により曖昧的チャ
ンネルと判定された時にのみ1以下の値とされ、曖昧的
チャンネルと判定されない時には1とされる。
曖昧判定回路13において、人力特徴データブロック及
び登録特徴データブロックのフレームmにおけるチャン
ネルnの前後に位置するチャンネルの二値データの排他
的論理和か次式に示すように求められる。
び登録特徴データブロックのフレームmにおけるチャン
ネルnの前後に位置するチャンネルの二値データの排他
的論理和か次式に示すように求められる。
RII(ll−11■Re(+s++1
・・・(2)Sm(r+−+)■RM(n*++
” ’ (31この上記(2)式及び(3
)式により求められる二つの排他的論理和の少なくとも
一方がI’lJとされる時、そのチャンネルが曖昧的チ
ャンネルと判定され、判定データがフレーム距離計算回
路12に供給される。従って、フレーム距離計算回路1
2では、曖昧判定回路13からの判定データに基づいて
曖昧的チャンネル以外では(W=1)とされて計算処理
され、あるチャンネルが曖昧的チャンネルと判定された
時のみWが1以下の値とされて対応するチャンネル間に
おける距離IR□−8□IPにWが乗ぜられる。二値化
処理に際してしきい値近傍の値とされていたチャンネル
に関するチャンネル間距離を減少させる方向に補正が加
えられた形でチャンネル間距離が累算されてフレーム間
距離が算出される。フレーム距離計算回路12において
順次計算処理されて得られる所定のフレームのフレーム
間距離データがマツチング距離計算回路14に供給され
る。
・・・(2)Sm(r+−+)■RM(n*++
” ’ (31この上記(2)式及び(3
)式により求められる二つの排他的論理和の少なくとも
一方がI’lJとされる時、そのチャンネルが曖昧的チ
ャンネルと判定され、判定データがフレーム距離計算回
路12に供給される。従って、フレーム距離計算回路1
2では、曖昧判定回路13からの判定データに基づいて
曖昧的チャンネル以外では(W=1)とされて計算処理
され、あるチャンネルが曖昧的チャンネルと判定された
時のみWが1以下の値とされて対応するチャンネル間に
おける距離IR□−8□IPにWが乗ぜられる。二値化
処理に際してしきい値近傍の値とされていたチャンネル
に関するチャンネル間距離を減少させる方向に補正が加
えられた形でチャンネル間距離が累算されてフレーム間
距離が算出される。フレーム距離計算回路12において
順次計算処理されて得られる所定のフレームのフレーム
間距離データがマツチング距離計算回路14に供給され
る。
マツチング距離計算回路14において、マツチング距離
りが次式により算出される。
りが次式により算出される。
D−ΣD11
つまり、順次フレーム間距離が累算され、最大フレーム
Mまでのフレーム間距離が累算されると、この累算値が
マツチング距離とされ、マツチング距離データが最小゛
距離判定回路15に供給される。
Mまでのフレーム間距離が累算されると、この累算値が
マツチング距離とされ、マツチング距離データが最小゛
距離判定回路15に供給される。
同様に比較の対象とされる全ての登録特徴データブロッ
クと入力特徴データブロックとの間においてマツチング
距離が算出されてマツチング距離データが最小距離判定
回路15に供給される。
クと入力特徴データブロックとの間においてマツチング
距離が算出されてマツチング距離データが最小距離判定
回路15に供給される。
最小距離判定回路15は、マツチング距離が最小で十分
に距離が近いものと判断される登録特徴データブロック
に対応する単語を認識結果として出力する。
に距離が近いものと判断される登録特徴データブロック
に対応する単語を認識結果として出力する。
尚、この発明の一実施例においては、曖昧判定回路13
において対応するフレームの全てのチャンネルに関して
曖昧判定を行う場合について説明したが、入カニ値パタ
ーンS□または登録二値パターンR□が「1」 (若し
くは0)の値でのみ判定処理を行うようにしても良い。
において対応するフレームの全てのチャンネルに関して
曖昧判定を行う場合について説明したが、入カニ値パタ
ーンS□または登録二値パターンR□が「1」 (若し
くは0)の値でのみ判定処理を行うようにしても良い。
また、この発明の一実施例においては、フレーム距離計
算回路12の計算処理においてチャンネル問罪RIR□
−3,,l’に補正係数Wを乗する場合について説明し
たが、例えば(P −1)の整数計算の時にはチャンネ
ル問罪AVIRM、、−8□1がrlJとなる時rKJ
(1以上の適当な定数、例えばに=2)とし、rO
Jとなる時rOJと対応させ、曖昧的チャンネルに関し
てW(Kより小なる適当な定数、例えばW=1)を対応
させるようにしても良く、曖昧的チャンネルに関する距
離が減少する方向に補正されるようにすれば良い。
算回路12の計算処理においてチャンネル問罪RIR□
−3,,l’に補正係数Wを乗する場合について説明し
たが、例えば(P −1)の整数計算の時にはチャンネ
ル問罪AVIRM、、−8□1がrlJとなる時rKJ
(1以上の適当な定数、例えばに=2)とし、rO
Jとなる時rOJと対応させ、曖昧的チャンネルに関し
てW(Kより小なる適当な定数、例えばW=1)を対応
させるようにしても良く、曖昧的チャンネルに関する距
離が減少する方向に補正されるようにすれば良い。
更に、この発明の一実施例においては、一対一に対応す
る直接的なマツチングによってマツチング距離を算出す
る場合について説明したが、例えばDPマツチング等の
種々のマツチングサーチ手法における距離計算にこの発
明を適用しても良い。
る直接的なマツチングによってマツチング距離を算出す
る場合について説明したが、例えばDPマツチング等の
種々のマツチングサーチ手法における距離計算にこの発
明を適用しても良い。
尚、この発明は、ハードワイヤードの構成に限らず、マ
イクロコンピュータ又はマイクロプログラム方式を用い
てソフトウェアにより処理を行うようにしても良い。
イクロコンピュータ又はマイクロプログラム方式を用い
てソフトウェアにより処理を行うようにしても良い。
この発明では、パターンマツチング判定器において、登
録特徴データブロックと入力特徴データブロックとの間
で対応するフレームm(1≦m≦M、、mは整数)のチ
ャンネルn(1≦n≦N、 nは整数)に関して、その
チャンネルnが音声の小変動に大きく影響される二値化
処理におけるしきい値近傍のスペクトルデータを有して
いた曖昧的チャンネルかどうかがチャンネルnの前後に
位置するチャンネル(n−1)及びチャンネル(n+1
)の二値データの排他的論理和に基づいて判定される。
録特徴データブロックと入力特徴データブロックとの間
で対応するフレームm(1≦m≦M、、mは整数)のチ
ャンネルn(1≦n≦N、 nは整数)に関して、その
チャンネルnが音声の小変動に大きく影響される二値化
処理におけるしきい値近傍のスペクトルデータを有して
いた曖昧的チャンネルかどうかがチャンネルnの前後に
位置するチャンネル(n−1)及びチャンネル(n+1
)の二値データの排他的論理和に基づいて判定される。
この判定出力に基づいて例えば1以下の補正係数Wが曖
昧的チャンネルに関するチャンネル間距離に乗ぜられ、
チャンネル間距離を減少させる方向に補正する形で計算
処理がなされてフレーム間距離が算出され、フレーム間
距離に基づいて算出されたマツチング距離に基づいてマ
ツチング判定がなされる。
昧的チャンネルに関するチャンネル間距離に乗ぜられ、
チャンネル間距離を減少させる方向に補正する形で計算
処理がなされてフレーム間距離が算出され、フレーム間
距離に基づいて算出されたマツチング距離に基づいてマ
ツチング判定がなされる。
例えば、第4図A及び第4図Bに示すチャンネル1〜チ
ヤンネル12までの12個の二値データより構成される
明らかに類似した2個のフレームがあるとする。前述し
た(11式におけるPを(P=1)とし、補正係数Wを
(W=0.5)とし、入カニ値パターンS anまたは
登録二値パターンRanが「1」の時のみ曖昧判定処理
を行うものとしてフレーム間距離D7が算出される場合
には、第4図Aに示すフレームに関しては図中破線で囲
んで示すようにチャンネル2. 5.10.11の夫々
が曖昧的チャンネルと判定されると共に、第4図Bに示
すフレームに関しては図中破線で囲んで示すようにチャ
ンネル3.5の夫々が曖昧的チャンネルと判定される。
ヤンネル12までの12個の二値データより構成される
明らかに類似した2個のフレームがあるとする。前述し
た(11式におけるPを(P=1)とし、補正係数Wを
(W=0.5)とし、入カニ値パターンS anまたは
登録二値パターンRanが「1」の時のみ曖昧判定処理
を行うものとしてフレーム間距離D7が算出される場合
には、第4図Aに示すフレームに関しては図中破線で囲
んで示すようにチャンネル2. 5.10.11の夫々
が曖昧的チャンネルと判定されると共に、第4図Bに示
すフレームに関しては図中破線で囲んで示すようにチャ
ンネル3.5の夫々が曖昧的チャンネルと判定される。
そして、曖昧的チャンネルのチャンネル間距離に補正係
数(W=0.5)が乗ぜられた形でチャンネル間距離が
累算されてフレーム間距離DI、1が り、%=O+LX0.5 +0XO15+0+OX0.
5 +0+0+0+0+1x0.5 +OxO,5+0
と算出され、D1=1となる。これに対して従来の音声
認識装置のパターンマツチング判定器のフレーム間距離
計算処理を用いた場合(補正係数Wを常に1として計算
する)には、フレーム間距離D′oが D”、−0+1+0+0+0+0+0+0+0+1十〇
十〇 と算出され、D”、=2となる。従って、この発明の一
実施例における計算処理により得られるフレーム間距離
D1の値は従来の計算処理により得られるフレーム間距
離D′1の値に比べて〃の距離として算出され、第4図
A及び第4図Bに示される2個のフレームがより類似し
ていることを示す。
数(W=0.5)が乗ぜられた形でチャンネル間距離が
累算されてフレーム間距離DI、1が り、%=O+LX0.5 +0XO15+0+OX0.
5 +0+0+0+0+1x0.5 +OxO,5+0
と算出され、D1=1となる。これに対して従来の音声
認識装置のパターンマツチング判定器のフレーム間距離
計算処理を用いた場合(補正係数Wを常に1として計算
する)には、フレーム間距離D′oが D”、−0+1+0+0+0+0+0+0+0+1十〇
十〇 と算出され、D”、=2となる。従って、この発明の一
実施例における計算処理により得られるフレーム間距離
D1の値は従来の計算処理により得られるフレーム間距
離D′1の値に比べて〃の距離として算出され、第4図
A及び第4図Bに示される2個のフレームがより類似し
ていることを示す。
上述の例から理解されるように、この発明に依れば、フ
レーム間距離を算出する際に曖昧的チャンネルに関する
チャンネル間距離が減少する方向に補正がなされてフレ
ーム間距離が算出されるため、音声の小変動に大きく左
右されるしきい値近傍のスペクトルデータを有していた
チャンネルの二値データの影響が低減される。従って、
二値化の利点であるメモリの容量の低減化及びマツチン
グ処理の高速性を損なうことなく、音声の小変動による
認識率の低下を防止することができ、高精度でかつ適確
なパターンマツチングが可能となる。
レーム間距離を算出する際に曖昧的チャンネルに関する
チャンネル間距離が減少する方向に補正がなされてフレ
ーム間距離が算出されるため、音声の小変動に大きく左
右されるしきい値近傍のスペクトルデータを有していた
チャンネルの二値データの影響が低減される。従って、
二値化の利点であるメモリの容量の低減化及びマツチン
グ処理の高速性を損なうことなく、音声の小変動による
認識率の低下を防止することができ、高精度でかつ適確
なパターンマツチングが可能となる。
第1図はこの発明の一実施例の全体構成を示すブロック
図、第2図はこの発明の一実施例における特徴データブ
ロックのデータ構成の説明に用いる路線図、第3図はこ
の発明の一実施例におけるパターンマツチング判定器の
ブロック図、第4図はこの発明の一実施例におけるフレ
ーム間距離計算の説明に用いる二値パターンの路線図、
第5図は従来の音声認識装置の動作説明に用いる一例と
してのフレームデータである。 図面における主要な符号の説明 1:マイクロホン、 5:音響分析器、6:スペクトル
傾向正規化器、 7;特徴データ抽出器、 8:二値化
回路、 10:登録パターンメモリ、 11:パタ
ーンマツチング判定器、12:フレーム距離計算回路、
13:曖昧判定回路、 14:マツチング距離計算
回路、15:最小距離判定回路。 代理人 弁理士 杉 浦 正 知 牛I盲糺データフaツク 第2図
図、第2図はこの発明の一実施例における特徴データブ
ロックのデータ構成の説明に用いる路線図、第3図はこ
の発明の一実施例におけるパターンマツチング判定器の
ブロック図、第4図はこの発明の一実施例におけるフレ
ーム間距離計算の説明に用いる二値パターンの路線図、
第5図は従来の音声認識装置の動作説明に用いる一例と
してのフレームデータである。 図面における主要な符号の説明 1:マイクロホン、 5:音響分析器、6:スペクトル
傾向正規化器、 7;特徴データ抽出器、 8:二値化
回路、 10:登録パターンメモリ、 11:パタ
ーンマツチング判定器、12:フレーム距離計算回路、
13:曖昧判定回路、 14:マツチング距離計算
回路、15:最小距離判定回路。 代理人 弁理士 杉 浦 正 知 牛I盲糺データフaツク 第2図
Claims (1)
- 【特許請求の範囲】 入力音声信号から得られたスペクトルパターンをしきい
値と比較することにより形成される二値の入力パターン
と二値の標準パターンとのパターンマッチングを行う音
声認識装置において、上記入力パターン及び上記標準パ
ターンの少なくとも一方の各フレームのデータに関して
あるチャンネルの前及び後のチャンネルの夫々のデータ
の排他的論理和の値に基づき曖昧的チャンネルを判別し
、 上記入力パターン及び標準パターンの対応するチャンネ
ル間距離を求めると共に、上記判別結果に基づいて上記
曖昧的チャンネル間の距離を減少させる補正を加えるよ
うにしたことを特徴とする音声認識装置。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
JP25046586A JPS63104099A (ja) | 1986-10-21 | 1986-10-21 | 音声認識装置 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
JP25046586A JPS63104099A (ja) | 1986-10-21 | 1986-10-21 | 音声認識装置 |
Publications (1)
Publication Number | Publication Date |
---|---|
JPS63104099A true JPS63104099A (ja) | 1988-05-09 |
Family
ID=17208275
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
JP25046586A Pending JPS63104099A (ja) | 1986-10-21 | 1986-10-21 | 音声認識装置 |
Country Status (1)
Country | Link |
---|---|
JP (1) | JPS63104099A (ja) |
Cited By (1)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
US7477739B2 (en) | 2002-02-05 | 2009-01-13 | Gracenote, Inc. | Efficient storage of fingerprints |
-
1986
- 1986-10-21 JP JP25046586A patent/JPS63104099A/ja active Pending
Cited By (1)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
US7477739B2 (en) | 2002-02-05 | 2009-01-13 | Gracenote, Inc. | Efficient storage of fingerprints |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
US4415767A (en) | Method and apparatus for speech recognition and reproduction | |
CA1227286A (en) | Speech recognition method and apparatus thereof | |
JPS63104099A (ja) | 音声認識装置 | |
JPS625298A (ja) | 音声認識装置 | |
JPS6225799A (ja) | 音声認識装置 | |
JPH056193A (ja) | 音声区間検出方式及び音声認識装置 | |
JP2606211B2 (ja) | 音源正規化方法 | |
JP2668877B2 (ja) | 音源正規化方法 | |
JPS625299A (ja) | 音声認識装置 | |
JPS63121100A (ja) | 音声認識装置における特徴パタ−ン抽出方法 | |
JPS62113197A (ja) | 音声認識装置 | |
JP2989231B2 (ja) | 音声認識装置 | |
JPS6286400A (ja) | 音声認識装置 | |
JPS59124397A (ja) | 無音区間検出回路 | |
JP3298658B2 (ja) | 音声認識方式 | |
JPS6295598A (ja) | 音声認識装置 | |
JPS58176698A (ja) | パターンマッチング装置 | |
JPS6210697A (ja) | 音声認識装置 | |
JPS6334477B2 (ja) | ||
JPS59204895A (ja) | 音声認識装置 | |
JPS61290496A (ja) | 音声認識装置 | |
JPS62283400A (ja) | 音声認識方法 | |
JP3002211B2 (ja) | 不特定話者音声認識装置 | |
JPS62105199A (ja) | 音声認識装置 | |
JPS63213000A (ja) | 音声認識装置 |