[go: up one dir, main page]

JPH07239696A - 音声認識装置 - Google Patents

音声認識装置

Info

Publication number
JPH07239696A
JPH07239696A JP6029283A JP2928394A JPH07239696A JP H07239696 A JPH07239696 A JP H07239696A JP 6029283 A JP6029283 A JP 6029283A JP 2928394 A JP2928394 A JP 2928394A JP H07239696 A JPH07239696 A JP H07239696A
Authority
JP
Japan
Prior art keywords
voice
unit
input
section
voiced
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Pending
Application number
JP6029283A
Other languages
English (en)
Inventor
Hiroaki Kokubo
浩明 小窪
Nobuo Hataoka
信夫 畑岡
Akio Amano
明雄 天野
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Hitachi Ltd
Original Assignee
Hitachi Ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Hitachi Ltd filed Critical Hitachi Ltd
Priority to JP6029283A priority Critical patent/JPH07239696A/ja
Publication of JPH07239696A publication Critical patent/JPH07239696A/ja
Pending legal-status Critical Current

Links

Abstract

(57)【要約】 【構成】 音声入力部と、有声/無声判定部と、音声信
号に対して逆フィルタリングをおこなう適応一次逆フィ
ルタ部と、音声信号の特徴ベクトルを計算する分析部
と、予め登録しておいた標準パタンと分析部で求めた特
徴ベクトルとの類似度を求めることで入力音声の認識を
おこなう照合部とを有する音声認識装置。 【効果】 騒音環境下で発声した発声変形を伴う音声の
認識性能を向上させることが可能となる。

Description

【発明の詳細な説明】
【0001】
【産業上の利用分野】本発明は音声認識装置に係り、特
に騒音下でも安定に動作する耐騒音型音声認識装置に関
する。
【0002】
【従来の技術】音声認識装置を実用化するためには、騒
音下で発声した音声でも正しく認識するような耐騒音化
技術が必要不可欠である。
【0003】騒音下音声認識における認識性能の劣化要
因として、音声に重畳した雑音に対する影響が挙げられ
る。この重畳雑音に対する影響を低減させる方法につい
て、音声認識の分野では、スペクトルサブトラクション
法が非常に有効な手法として知られている。この手法は
入力音声の短時間スペクトルから推定騒音スペクトルを
差し引くことで騒音成分の除去をおこなう。
【0004】しかし、重畳雑音の影響以外にも、騒音環
境下で発声することによるストレスによって発声様式に
変動が生じ(発声変形)、認識に悪影響を与えることが
知られている。発声変形に対する対策としては、発声変
形音声を異話者の音声とみなして話者適応を行う方法、
発声変形音声の特徴量を正規化をする方法なとが提案さ
れている。
【0005】発声変形の現象の一つに音声の高域成分が
強調されスペクトルの傾きが変化することがあげられ
る。このスペクトルの傾きを正規化する方法として、適
応一次逆フィルタリングの適用が考えられる。この方法
は、スペクトルの傾きに相当する一次の線形予測係数を
用いて適応的に逆フィルタリングすることで周波数特性
を平坦化する。
【0006】
【発明が解決しようとする課題】適応一次逆フィルタは
雑音が混入していない発声変形音声に対しては、スペク
トルの傾き変化を補正することで、認識性能の改善に有
効である。しかし、実際の環境で発声した音声には雑音
が重畳しているために、ポーズなどの無音声区間や子音
など音声のレベルが小さい区間では、雑音成分に対して
逆フィルタをかけることになり、認識に悪影響を与え
る。たとえば、自動車の走行ノイズなど多くの雑音は低
周波数帯域にパワが集中している。このような雑音に対
して周波数特性を平坦化する逆フィルタをかけると、高
域の雑音成分が強調されてしまう。従って、騒音下で発
声された音声に適用する適応一次逆フィルタリングは、
雑音成分に影響を与えずにおこなう必要がある。
【0007】
【課題を解決するための手段】上記目的を達成するため
に、本発明の音声認識装置は、認識対象となる音声を入
力する音声入力部と、該音声入力部に入力した音声信号
より求めた一次パーコール係数を用いて音声信号に対し
て逆フィルタリングをおこなう適応一次逆フィルタ部
と、逆フィルタリングされた該音声信号の特徴ベクトル
を計算する分析部と、予め登録しておいた標準パタンと
前記分析部で求めた特徴ベクトルとの類似度を求めるこ
とで前記入力音声の認識を行う照合部と、入力信号の特
性を判定する判定部とを設け、入力信号が前記判定部の
条件と一致した場合にのみ前記適応一次逆フィルタ部で
逆フィルタリングをおこなう手段を持つ。
【0008】
【作用】本発明には数々の変形が考えられるが、その中
で代表的な手段についてその作用を説明する。
【0009】周波数特性を平坦化する逆フィルタリング
をおこなう適応一次逆フィルタ部をもつ音声認識装置に
おいて、入力音声の有声または無声を判定する有声/無
声判定部を設け、適応一次逆フィルタ部では有声音と判
定された音声区間のみ逆フィルタリングをおこなうよう
にする。この処理により、比較的音声のパワが大きく、
発声変形の影響が生じやすい有声音の区間は、発声変形
によるスペクトルの傾き変化を逆フィルタリングで補正
することができる。一方、比較的音声パワが小さく、騒
音の影響を受けやすい無声音の区間は逆フィルタリング
を省くことで、フィルタリングによって雑音成分を強調
する等の悪影響を避けることができる。
【0010】したがって、本発明によれば、騒音環境下
で発声した発声変形を伴う音声の認識性能を向上させる
ことが可能となる。
【0011】
【実施例】以下、本発明の実施例を示す。
【0012】図1は本発明の一実施例を説明するための
音声認識システムのブロック図である。図1において、
101は音声入力部、102は有声/無声判定部、10
3は適応一次逆フィルタ部、104は分析部、105は
照合部、106は標準パタン格納部、107はスイッチ
部である。図1では本実施例の概要のみを説明し、各部
分の詳細な説明は図2以降で述べる。音声入力部101
に入力した音声はA/D変換によってディジタル信号に
変換された後、一定間隔(通常は数十ms)毎に分割される
(分析フレーム)。分析フレーム毎に分割された音声デー
タは有声/無声判定部102に入力し、有声音であるか
否かが判定される。ここで、入力した音声フレームデー
タが有声音であると判定されたときには、適応一次逆フ
ィルタ部103では適応一次逆フィルタリングをおこな
い音声データの周波数特性を平坦にする。適応一次逆フ
ィルタについてはあとで詳細な説明をおこなう。また、
入力した音声フレームデータが有声音ではないと判定さ
れた場合、適応一次逆フィルタ部103の処理は省く。
つぎに分析部104ではフレーム毎に分割した入力音声
から特徴パラメータを計算する。標準パタン格納部10
6にはあらかじめ計算しておいた認識対象語彙の標準パ
タン(特徴ベクトル系列)が格納してある。もちろん、こ
こに格納されている標準パタンは本システムの分析系と
同一の分析系で特徴ベクトルを計算している。照合部1
05は、標準パタン格納部106に格納されている標準
パタンと、音声分析部104で分析された入力音声の特
徴ベクトルとの間で距離計算をおこなう。このとき照合
部105で照合した標準パタンのうち距離が一番小さい
単語が入力した音声の認識単語であると判定され、認識
結果として出力される。
【0013】次に、図1で簡単に述べた各処理部につい
て詳細に説明する。
【0014】はじめに、有声/無声判定部102につい
て述べる。図2は有声/無声判定部102の一実施例を
説明する図である。図2において、201は自己相関関
数計算部、202はピーク検出部、203は判定部であ
る。有声音の判定は入力した音声データの周期性によっ
ておこなう。一定間隔毎に分割された音声データは自己
相関関数計算部201に入力する。自己相関関数計算部
201では数1に示す処理によって 入力音声x(i)の自
己相関関数を計算する。
【0015】
【数1】
【0016】図3に実際の音声データから計算した自己
相関関数の一例を示す。もし、入力音声が有声音であれ
ば、自己相関関数において繰り返し周期(ピッチ)に相
当する部分に大きなピークが存在するはずである。そこ
で、ピーク検出部202において、0次のピークを除く
自己相関関数のピークの中から最大値を検出する(図3
の例では68サンプルめの値)。判定部203ではピーク
検出部202で求めたピークの最大値と予め用意してお
いたしきい値とを比較して、ピークの最大値がしきい値
を上回った場合に入力した音声が有声音であると判定す
る。
【0017】図4は有声/無声判定部102の第二の実
施例を説明するための図である。図2で説明した実施例
では、有声/無声の判定に入力音声の自己相関関数のピ
ーク値を使ったのに対して、図4の実施例では入力音声
の変形相関関数(線形予測分析の予測残差の自己相関係
数)のピーク値を使う。図4において、401は線形予
測分析部、402は線形予測逆フィルタ部、403は自
己相関関数計算部、404はピーク検出部、405は判
定部である。一定間隔毎に分割された音声データは線形
予測分析部401に入力する。線形予測分析部401で
は入力した音声データに対して線形予測分析をおこな
い、線形予測係数を出力する。線形予測分析に関しては
音声信号処理の分野では非常に一般的な分析手法であ
り、古井の「ディジタル音声処理」など詳しく解説され
ている良書は多い。線形予測係数の計算法にはいくつも
のアルゴリズムが提案されているが、一例としてLevins
on-Durbinのアルゴリズムの処理フローを図5に示し
た。線形予測逆フィルタ部402では、入力音声に対し
て、線形予測分析部401で求めた線形予測係数 a(i)
を用いて逆フィルタをかける。逆フィルタは数2に示す
処理によっておこなわる。
【0018】
【数2】
【0019】フィルタリングの出力ε(n)は線形予測分
析の予測誤差に相当し残差と呼ばれる。線形予測逆フィ
ルタ部402で計算した残差は自己相関関数計算部40
3に入力する。自己相関関数計算部403では予測残差
の自己相関関数を計算する。ここで計算した相関関数は
入力音声の変形相関関数と呼ばれる。変形相関関数が計
算されると、ピーク検出部404において、0次のピー
クを除く変形相関関数のピークの中から最大値を検出す
る。判定部405ではピーク検出部404で求めたピー
クの最大値と予め用意しておいたしきい値とを比較し
て、ピークの最大値がしきい値を上回った場合に入力し
た音声が有声音であると判定する。
【0020】図6は有声/無声判定部102の第三の実
施例を説明するための図である。本実施例も第一、第二
の実施例と同様、データの周期性に基づき有声/無声を
判定する手法である。ここでは周期性の判定にケプスト
ラムの高ケフレンシー成分のピーク値を使う。図6にお
いて、601はケプストラム計算部、602はピーク検
出部、603は判定部である。一定間隔毎に分割された
音声データはケプストラム計算部601に入力する。ケ
プストラム計算部601は入力した音声データに対して
FFTをおこなって周波数領域に変換し対数をとった後、I
FFTによって再び時間領域に変換することでケプストラ
ムを計算する。図7に実際の音声データから計算したケ
プストラムの一例を示す。ケプストラムの横軸はケフレ
ンシーと呼ばれ、低ケフレンシー部にはスペクトル包絡
の成分が集中し、高ケフレンシー部のピークにより基本
周波数が求まる。ピーク検出部602では求めたケプス
トラムからこの高ケフレンシー部のピーク値を検出す
る。判定部603ではピーク検出部604で求めたピー
クの値と予め用意しておいたしきい値とを比較して、ピ
ークの値がしきい値を上回った場合に入力した音声が有
声音であると判定する。
【0021】これ以外にも、有声または無声を判定する
方法は数多く存在し、それらの方法も本実施例に適用で
きることはいうまでもない。
【0022】つぎに、適応一次逆フィルタ部103につ
いて説明する。図8は適応一次逆フィルタ部103の一
実施例を説明するための図である。図8において、80
1は一次パーコール係数計算部、802は逆フィルタ部
である。一次パーコール係数計算部801は、入力した
音声データの一次パーコール係数k1を数3より計算す
る。
【0023】
【数3】
【0024】ここで、r0、r1はそれぞれ自己相関関数の
0次の項と1次の項である。逆フィルタ部802は、一
次パーコール係数計算部801で計算した一次パーコー
ル係数を用いて入力音声データのフィルタリングをおこ
なう。一次パーコール係数を用いた逆フィルタリングに
はスペクトルを平坦化する働きがあり、音声認識の分野
では、電話回線の高域損失や個人差によるスペクトル傾
斜の補償に効果があることが過去に報告されている。適
応一次逆フィルタは入力信号をx(n)、一次パーコール係
数をk1とすると、以下の式で定式化される。
【0025】
【数4】
【0026】ところで、数4と数1とから、数5が求ま
る。
【0027】
【数5】
【0028】数5を用いると、自己相関関数を直接フィ
ルタリングすることが可能となり、波形信号を直接フィ
ルタリングする場合に比べて必要とする処理量を少なく
する事ができる。
【0029】図9を用いて適応一次逆フィルタの効果に
ついて説明する。図9において、901は通常に発声し
た音声のスペクトル、902は発声変形を起こした音声
のスペクトルである。また、903は通常に発声した音
声を適応一次逆フィルタリング処理した後のスペクト
ル、904は発声変形を起こした音声を適応一次逆フィ
ルタリング処理した後のスペクトルである。901と9
02とを比較すると、902は901に比べてスペクト
ルの高域成分のパワが上昇しており、2つのスペクトル
間に大きな差異が見られる。一方、適応一次逆フィルタ
処理を施した音声のスペクトル903と904では、両
者の差異が小さくなっていることがわかる。つまり、適
応一次逆フィルタを用いることで発声変形の影響を補正
することが可能となる。
【0030】次に分析部104について説明する。分析
部104は入力音声から照合部105で距離計算をおこ
なう際に使用する音声の特徴パラメータを計算する。音
声認識で用いられる特徴パラメータには、LPCケプスト
ラム、メルケプストラム、帯域フィルタの出力、FFTス
ペクトルなど数多く存在する。本実施例ではもっとも一
般的に用いられているLPCケプストラムを用いる場合に
ついて説明する。図10は分析部104の一実施例を説
明するためのプロック図である。図10において、10
01は線形予測分析部、1002はケプストラム計算部
である。線形予測分析部1001に入力した音声データ
は図5に示した分析処理フローに従い、線形予測係数
(LPC係数)が求められる。ケプストラム計算部10
02はLPC係数(a1,...,an)から数6に示す再帰式
によって、LPCケプストラム(c1,...,cn)を計算す
る。
【0031】
【数6】
【0032】最後に、照合部105について説明する。
図11は照合部105を説明するための図である。図1
1で、1101はDPマッチング部、1102は最小距
離判定部である。DPマッチング部1101は、分析部
104で求めた入力音声フレーム毎の特徴パラメータ
(本実施例ではn次LPCケプストラム)系列と標準パ
タン格納部106に格納されている標準パタン(登録音
声の特徴ベクトル系列)との距離計算をおこなう。もち
ろん、標準パタンの作成において、入力音声と同様に有
声区間のみ一次適応逆フィルタ処理したのち、分析パラ
メータを求めた。DPマッチングはDTW(Dynamic Ti
me Warping)とも呼ばれ、音声パタンの発声時間長の変
動に対する正規化を動的計画法(Dynamic Programmin
g)を用いておこなう手法で、孤立単語の認識に古くか
ら用いられている。DPマッチングの詳細については古
井;「ディジタル音声処理」(東海大学出版)の説明が詳
しい。DPマッチング部1101においてすべての標準
パタンとの距離計算が終了すると、最小距離判定部11
02は距離計算の値がもっとも小さかった標準パタンを
見つけだす。音声認識システムでは最小距離判定部11
02で得られた距離最小の標準パタンの登録単語を認識
結果とする。
【0033】以上説明したように、本実施例によれば、
比較的音声のパワが大きく、発声変形の影響が生じやす
い有声音の区間は、発声変形によるスペクトルの傾き変
化を逆フィルタリングで補正することができる。一方、
比較的音声パワが小さく、騒音の影響を受けやすい無声
音の区間は逆フィルタリングを省くことで、フィルタリ
ングによって雑音成分を強調する等の悪影響を避けるこ
とができる。
【0034】したがって、本発明によれば、騒音環境下
で発声した発声変形を伴う音声の認識性能を向上させる
ことが可能となる。
【0035】ここで、本発明の第二の実施例として、有
声/無声を判定して逆フィルタ処理の有無を切り替える
かわりに、入力した音声フレームが母音であるかどうか
を判定してフィルタ処理の有無を切り替えることを考え
る。図12は本発明の第二の実施例を説明するためのシ
ステムブロック図である。図12において、1201は
音声入力部、1202は母音判定部、1203は適応一
次逆フィルタ部、1204は分析部、1205は照合
部、1206は標準パタン格納部、1207はスイッチ
部である。第1の実施例と同じく、音声入力部1201
に入力した音声はA/D変換によってディジタル信号に
変換された後、一定間隔毎に分割される。分析フレーム
毎に分割された音声データは母音判定部1202に入力
し、母音であるか否かが判定される。ここで、入力した
音声フレームデータが母音であると判定されたときに
は、適応一次逆フィルタ部1203では適応一次逆フィ
ルタリングをおこない音声データの周波数特性を平坦に
する。また、入力した音声フレームデータが母音ではな
いと判定された場合、適応一次逆フィルタ部1203の
処理は省く。つぎに分析部1204では入力音声から特
徴パラメータを計算する。標準パタン格納部1206に
はあらかじめ計算しておいた認識対象語彙の標準パタン
が格納してある。照合部1205は、標準パタン格納部
1206に格納されている標準パタンと、音声分析部1
204で分析された入力音声の特徴ベクトルとの間で距
離計算をおこなう。このとき照合部1205で照合した
標準パタンのうち距離が一番小さい単語が入力した音声
の認識単語であると判定され、認識結果して出力され
る。
【0036】次に、各処理部について詳細に述べる。と
ころで、音声入力部1201、適応一次逆フィルタ部1
203、分析部1204、照合部1205、標準パタン
格納部1206については、第一の実施例における説明
と重複する。そこでそれらの説明は省き、母音判定部1
202のみを説明する。
【0037】母音区間は、ピッチを有し、比較的大きな
パワをもつフレームが一定時間(60ms程度)継続するとい
った特徴がある。本実施例では、パワの大きさに基づい
た母音判定法を例にとって説明する。図13は母音判定
部1202の一実施例を示す図である。図13におい
て、1301はパワ計算部、1302は判定部である。
パワ計算部1301は入力した音声の分析フレームの短
時間パワを計算する。本実施例では、短時間パワとして
自己相関関数の0次の項を用いる。ここで、自己相関関
数を計算しておけば、適応一次逆フィルタ部1203お
よび分析部1204で再び自己相関関数を計算する必要
はなくなる。判定部1302ではあらかじめ音声パワに
対するしきい値を用意しておき、入力した音声のパワが
一定フレーム連続してこのしきい値を上回った時に、そ
の区間が母音区間であると判定する。
【0038】もちろんこれ以外にも、母音区間を判定す
る方法は数多く存在し、それらの方法も本実施例に適用
できることはいうまでもない。
【0039】以上説明したように、第二の実施例によれ
ば、比較的音声のパワが大きく、発声変形の影響が生じ
やすい母音区間について、発声変形によるスペクトルの
傾き変化を逆フィルタリングで補正することができる。
一方、比較的音声パワが小さく、騒音の影響を受けやす
い母音以外の区間(子音区間、無音区間)は逆フィルタ
処理を省くことで、フィルタリングによって雑音成分を
強調する等の悪影響を避けることができる。
【0040】したがって、本発明によれば、騒音環境下
で発声した発声変形を伴う音声の認識性能を向上させる
ことが可能となる。
【0041】ここまでの説明は入力音声として発声変形
をおこした音声が入力すると想定して説明した。発声変
形は、高騒音環境で発声した場合にのみ問題となる現象
であり、静かな環境では発声変形はおこらない。そこ
で、第三の実施例として、測定した周囲の騒音レベルの
大きさによって適応逆フィルタ処理の有無を切り替える
方法について説明する。図14は本発明の第三の実施例
を説明するためのシステムブロック図である。図14に
おいて、1401は音声入力部、1402は雑音レベル
測定部、1403は騒音判定部、1404はスイッチ
部、1405は適応一次逆フィルタ部、1406は分析
部、1407は標準パタン格納部、1408は標準パタ
ン選択部、1409は照合部である。音声入力部140
1から入力した音声信号はA/D変換によってディジタ
ル信号に変換された後、一定間隔(通常は数十ms)毎に
分割される(分析フレーム)。分析フレーム毎に分割さ
れた入力データは雑音レベル測定部1402において雑
音レベルが測定される。雑音レベル測定部1402につ
いてはあとで説明する。騒音判定部1403は雑音レベ
ル測定部1402で求められた雑音レベルから入力信号
の騒音の大小を判定する。つまり、雑音レベル測定部1
402で求められた雑音レベルがしきい値よりも大きい
場合に騒音が大であると判定する。スイッチ部1404
は騒音の大小によって処理を切り替える。もし騒音が大
であるときには適応一次逆フィルタ部1405に処理を
移す。逆に騒音が小である場合は分析部1406に処理
を移す。適応一次逆フィルタ部1405では適応一次逆
フィルタリングをおこない音声データの周波数特性を平
坦にする。また、分析部1406ではフレーム毎に分割
した入力音声から特徴パラメータを計算する。適応一次
逆フィルタ部、分析部の詳細についてはすでに説明し
た。標準パタン格納部1407には認識対象単語の標準
パタンが格納してある。本実施例の場合には適応一次逆
フィルタ処理を経由して分析した標準パタンと適応一次
逆フィルタ処理をおこなわずに分析した標準パタンの二
種類が格納されている。標準パタン選択部1408は騒
音判定部1403で判定された騒音の大小によって標準
パタンを選択する。つまり、騒音が大であるときは適応
一次逆フィルタ処理を経由して分析した標準パタンを用
い、騒音が小であるときには適応一次逆フィルタ処理を
おこなわずに分析した標準パタンを用いる。照合部14
09は、標準パタン選択部1408で選択された標準パ
タンと、分析部1406で分析された入力音声の特徴ベ
クトルとの間で距離計算をおこなう。このとき照合部1
409で照合した標準パタンのうち距離が一番小さい単
語が入力音声の認識単語であると判定される。
【0042】ここで、雑音レベル測定部1402につい
てくわしく説明する。図15は雑音レベル測定部140
2を説明するための図である。図15において、150
1は音声区間検出部、1502は雑音パワ計算部であ
る。音声区間検出部1501は入力信号から音声区間を
検出する。音声区間検出については古井の「ディジタル
音声処理」など詳しく解説されている。一般的な例とし
ては、一定しきい値以上の短時間パワが一定時間以上継
続した区間を基準に音声区間を決定する。雑音パワ計算
部1502はフレーム毎に計算される短時間パワの平均
をとる。この平均処理は音声区間検出部1501で音声
区間が検出されるまで継続する。この処理によって、音
声区間が検出されたときには騒音レベルの測定が完了し
ている。
【0043】以上説明したように、第三の実施例によれ
ば、発声変形がおこりやすい高騒音環境で発声した場合
にのみ、発声変形によるスペクトルの傾き変化を逆フィ
ルタリングで補正することができる。一方、発声変形の
おこらない静かな環境では逆フィルタリング処理を省く
ことで、逆フィルタリング処理の悪影響を避けることが
できる。
【0044】したがって、本発明によれば、静かな環境
での使用時における性能劣化を生じることなく、騒音環
境下で発声した発声変形を伴う音声の認識性能を向上さ
せることが可能となる。
【0045】また、この第三の実施例の実施例と第一、
第二の実施例との併用も可能である。たとえば、図16
で示す第四の実施例では、第三の実施例に有声/無声判
定部1610を追加した。この実施例によれば、比較的
音声のパワが大きく、発声変形の影響が生じやすい有声
音の区間は、発声変形によるスペクトルの傾き変化を逆
フィルタリングで補正することができる。一方、比較的
音声パワが小さく、騒音の影響を受けやすい無声音の区
間は逆フィルタリングを省くことで、フィルタリングに
よって雑音成分を強調する等の悪影響を避けることがで
きる。また、発声変形のおこらない静かな環境では全区
間において、逆フィルタリング処理を省くことで、逆フ
ィルタリング処理の悪影響を避けることができる。
【0046】したがって、本発明によれば、静かな環境
での使用時における性能劣化を生じることなく、騒音環
境下で発声した発声変形を伴う音声の認識性能を向上さ
せることが可能となる。
【0047】もちろん、第三の実施例と母音判定部との
併用も同様に有効であることは言うまでもない。
【0048】
【発明の効果】以上述べてきたように、本発明によれ
ば、比較的音声のパワが大きく、発声変形の影響が生じ
やすい有声音の区間は、発声変形によるスペクトルの傾
き変化を逆フィルタリングで補正することができる。一
方、比較的音声パワが小さく、騒音の影響を受けやすい
無声音の区間は逆フィルタリングを省くことで、フィル
タリングによって雑音成分を強調する等の悪影響を避け
ることができる。
【0049】したがって、本発明によって騒音環境下で
発声した発声変形を伴う音声の認識性能を向上させるこ
とが可能となる。
【図面の簡単な説明】
【図1】本発明の第一の実施例を説明するためのブロッ
ク図である。
【図2】有声/無声判定部の一実施例を説明するための
ブロック図である。
【図3】音声データの自己相関関数の一例を示す図であ
る。
【図4】有声/無声判定部の第二の実施例を説明するた
めのブロック図である。
【図5】線形予測分析部の一実施例を説明するための処
理フローである。
【図6】有声/無声判定部の第三の実施例を説明するた
めのブロック図である。
【図7】音声データから計算したケプストラムの一例を
示す図である。
【図8】適応一次逆フィルタ部の一実施例を説明するた
めの図である。
【図9】適応一次逆フィルタの効果を説明するための図
である。
【図10】分析部の一実施例を説明するための図であ
る。
【図11】照合部の一実施例を説明するための図であ
る。
【図12】本発明の第二の実施例を説明するための図で
ある。
【図13】母音判定部の一実施例を説明するための図で
ある。
【図14】本発明の第三の実施例を説明するための図で
ある。
【図15】雑音レベル測定部を説明するための図であ
る。
【図16】本発明の第四の実施例を説明するための図で
ある。
【符号の説明】
101…音声入力部、102…有声/無声判定部、10
3…適応一次逆フィルタ部、104…分析部、105…
照合部、106…標準パタン格納部、107…スイッチ
部。

Claims (9)

    【特許請求の範囲】
  1. 【請求項1】認識対象となる音声を入力する音声入力部
    と、該音声入力部に入力した音声信号より求めた一次パ
    ーコール係数を用いて前記音声信号に対して逆フィルタ
    リングをおこなう適応一次逆フィルタ部と、逆フィルタ
    リングされた音声信号の特徴ベクトルを計算する分析部
    と、予め登録しておいた標準パタンと前記分析部で求め
    た特徴ベクトルとの類似度を求めることで前記入力音声
    の認識を行う照合部とを有する音声認識装置において、
    入力信号の特性を判定する判定部を設け、入力信号が前
    記判定部の条件と一致した場合にのみ前記適応一次逆フ
    ィルタ部で逆フィルタリングをおこなうことを特長とす
    る音声認識装置。
  2. 【請求項2】入力した音声信号に混入する雑音の大きさ
    を測定する雑音レベル測定部を設け、前記判定部におい
    て該雑音レベルがしきい値を越えたと判定された場合の
    み、前記適応一次逆フィルタ部で逆フィルタリングをお
    こなうことを特長とする請求項1記載の音声認識装置。
  3. 【請求項3】前記判定部として、入力音声の有声または
    無声を判定する有声/無声判定部を設け、前記適応一次
    逆フィルタ部では有声音と判定された音声区間のみ逆フ
    ィルタリングをおこなうことを特長とする請求項1記載
    の音声認識装置。
  4. 【請求項4】前記有声/無声判定部は、前記入力信号よ
    り計算された自己相関関数のピークを用いて音声の有声
    または無声を判定することを特長とする請求項3記載の
    音声認識装置。
  5. 【請求項5】前記有声/無声判定部は、前記入力信号よ
    り計算された変形相関関数(線形予測分析の予測残差の
    自己相関係数)のピークを用いて音声の有声または無声
    を判定することを特長とする請求項3記載の音声認識装
    置。
  6. 【請求項6】前記有声/無声判定部は、前記入力信号よ
    り計算されたケプストラムの高ケフレンシー部を用いて
    音声の有声/無声を判定することを特長とする請求項3
    記載の音声認識装置。
  7. 【請求項7】前記判定部として、前記入力音声を母音区
    間とそれ以外の区間とに判別する母音判定部を設け、前
    記適応一次逆フィルタ部では母音と判定された音声区間
    のみ逆フィルタリングをおこなうことを特長とする請求
    項1記載の音声認識装置。
  8. 【請求項8】前記母音判別部における母音区間の判別
    は、前記入力信号より計算された短時間パワの値を用い
    ることを特長とする請求項7記載の音声認識装置。
  9. 【請求項9】入力した音声信号の自己相関関数を計算す
    る自己相関計算部を設け、前記適応一次逆フィルタ部
    は、該自己相関計算部で計算した自己相関関数に対して
    逆フィルタリングをおこなうことを特長とする請求項1
    から8記載の音声認識装置。
JP6029283A 1994-02-28 1994-02-28 音声認識装置 Pending JPH07239696A (ja)

Priority Applications (1)

Application Number Priority Date Filing Date Title
JP6029283A JPH07239696A (ja) 1994-02-28 1994-02-28 音声認識装置

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
JP6029283A JPH07239696A (ja) 1994-02-28 1994-02-28 音声認識装置

Publications (1)

Publication Number Publication Date
JPH07239696A true JPH07239696A (ja) 1995-09-12

Family

ID=12271935

Family Applications (1)

Application Number Title Priority Date Filing Date
JP6029283A Pending JPH07239696A (ja) 1994-02-28 1994-02-28 音声認識装置

Country Status (1)

Country Link
JP (1) JPH07239696A (ja)

Cited By (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US7590524B2 (en) 2004-09-07 2009-09-15 Lg Electronics Inc. Method of filtering speech signals to enhance quality of speech and apparatus thereof

Cited By (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US7590524B2 (en) 2004-09-07 2009-09-15 Lg Electronics Inc. Method of filtering speech signals to enhance quality of speech and apparatus thereof

Similar Documents

Publication Publication Date Title
Graf et al. Features for voice activity detection: a comparative analysis
KR100312919B1 (ko) 화자인식을위한방법및장치
US5732394A (en) Method and apparatus for word speech recognition by pattern matching
KR100574594B1 (ko) 잡음 보상되는 음성 인식 시스템 및 방법
JP4802135B2 (ja) 話者認証登録及び確認方法並びに装置
JP3451146B2 (ja) スペクトルサブトラクションを用いた雑音除去システムおよび方法
EA019949B1 (ru) Способ идентификации говорящего по фонограммам произвольной устной речи на основе формантного выравнивания
US8271283B2 (en) Method and apparatus for recognizing speech by measuring confidence levels of respective frames
US4937871A (en) Speech recognition device
JP4911034B2 (ja) 音声判別システム、音声判別方法及び音声判別用プログラム
US20070276659A1 (en) Apparatus and method for identifying prosody and apparatus and method for recognizing speech
JP2002366192A (ja) 音声認識方法及び音声認識装置
JP4461557B2 (ja) 音声認識方法および音声認識装置
US20030046069A1 (en) Noise reduction system and method
JPH08211897A (ja) 音声認識装置
JPS60114900A (ja) 有音・無音判定法
Sorin et al. The ETSI extended distributed speech recognition (DSR) standards: client side processing and tonal language recognition evaluation
JPH07239696A (ja) 音声認識装置
WO2004111999A1 (en) An amplitude warping approach to intra-speaker normalization for speech recognition
Wang et al. Improved Mandarin speech recognition by lattice rescoring with enhanced tone models
KR19980037190A (ko) 유성음 구간에서 프레임별 피치 검출 방법
JP4576612B2 (ja) 音声認識方法および音声認識装置
JPH1097288A (ja) 背景雑音除去装置及び音声認識装置
WO2025211030A1 (ja) 収音装置、収音方法、およびプログラム
Zhu et al. Lbp based recursive averaging for babble noise reduction applied to automatic speech recognition