JPH071437B2 - 音声認識装置 - Google Patents
音声認識装置Info
- Publication number
- JPH071437B2 JPH071437B2 JP63095697A JP9569788A JPH071437B2 JP H071437 B2 JPH071437 B2 JP H071437B2 JP 63095697 A JP63095697 A JP 63095697A JP 9569788 A JP9569788 A JP 9569788A JP H071437 B2 JPH071437 B2 JP H071437B2
- Authority
- JP
- Japan
- Prior art keywords
- standard pattern
- matching
- pattern
- voice
- point
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Expired - Lifetime
Links
Description
【発明の詳細な説明】 〔産業上の利用分野〕 本発明は発声された音声を標準パターンとDP(Dynamic
Programming)マツチングを行い、最小の相違度を与え
る標準パタンを求めることにより認識を行う音声認識装
置に係り、特に環境騒音の影響を受けにくい音声認識装
置に関するものである。
Programming)マツチングを行い、最小の相違度を与え
る標準パタンを求めることにより認識を行う音声認識装
置に係り、特に環境騒音の影響を受けにくい音声認識装
置に関するものである。
従来の音声認識装置では、発声された音声をマイクロホ
ンから入力し、電気信号に変換された音声信号波の振幅
(パワーを含む),スペクトルなどを検定して音声の検
出を行い、その区間の音声を認識している。
ンから入力し、電気信号に変換された音声信号波の振幅
(パワーを含む),スペクトルなどを検定して音声の検
出を行い、その区間の音声を認識している。
そして、通常は、振幅レベルがある閾値を越えた点と下
回つた点を始端・終端としたり,あるいは上記点の近傍
でスペクトルが急激に変化した点を始端・終端として、
その音声区間に対して認識処理を行う。数字の“1"(/i
cni/)、札幌(/sapporo/)などの語中や、連続的に発
声された語と語の間には、休止区間(無音)が観測され
る。なお、語中の休止区間については音声区間に含める
方法と含めない方法がある。
回つた点を始端・終端としたり,あるいは上記点の近傍
でスペクトルが急激に変化した点を始端・終端として、
その音声区間に対して認識処理を行う。数字の“1"(/i
cni/)、札幌(/sapporo/)などの語中や、連続的に発
声された語と語の間には、休止区間(無音)が観測され
る。なお、語中の休止区間については音声区間に含める
方法と含めない方法がある。
一方、音声データを入力する場所は静かな事務室だけで
なく工場内や屋外などのように、各種機械から騒音が発
生される所も多い。そして、音声認識装置では一般に雑
音消去用接話型マイクロホンを使用し雑音耐力を上げて
いるが、それでも十分とは言えない。雑音のレベルが音
声検出の閾値を越えたり、真の発声の始端・終端の前後
で雑音そのもののスペクトルが変化すると、音声検出を
誤るという事態が生じる。また、語中や語間の休止区間
に雑音が重畳し音声検出区間を誤ると、見かけ上パタン
長が長くなつて標準パタンとの整合が困難になり、発声
全体の認識結果を誤つてしまうことになる。そして、騒
音がそれほど高くない場合には、閾値を上げてかつ語中
の休止区間を音声区間から除くことにより、ある程度は
雑音の影響を受けにくくできる。しかし、雑音の振幅や
スペクトルが短時間に大幅に変化する場合、つまり、非
定常雑音である場合には、閾値を雑音のピーク値より高
く設定することになり、今度は発声の始端・終端および
休止点近傍にある振幅の小さい部分や子音部分の検出が
困難となるので、認識性能が著しく低下し、この方法は
実用的でない。
なく工場内や屋外などのように、各種機械から騒音が発
生される所も多い。そして、音声認識装置では一般に雑
音消去用接話型マイクロホンを使用し雑音耐力を上げて
いるが、それでも十分とは言えない。雑音のレベルが音
声検出の閾値を越えたり、真の発声の始端・終端の前後
で雑音そのもののスペクトルが変化すると、音声検出を
誤るという事態が生じる。また、語中や語間の休止区間
に雑音が重畳し音声検出区間を誤ると、見かけ上パタン
長が長くなつて標準パタンとの整合が困難になり、発声
全体の認識結果を誤つてしまうことになる。そして、騒
音がそれほど高くない場合には、閾値を上げてかつ語中
の休止区間を音声区間から除くことにより、ある程度は
雑音の影響を受けにくくできる。しかし、雑音の振幅や
スペクトルが短時間に大幅に変化する場合、つまり、非
定常雑音である場合には、閾値を雑音のピーク値より高
く設定することになり、今度は発声の始端・終端および
休止点近傍にある振幅の小さい部分や子音部分の検出が
困難となるので、認識性能が著しく低下し、この方法は
実用的でない。
この音声検出誤りの影響を少なくするため発声の始端・
終端を一定に定めず、始端および終端に幅を持たせた、
いわゆる、始端・終端フリーの認識方法がある。そし
て、この始端・終端フリーの認識は始端候補点と終端候
補点が取り得る全ての組合せの区間の音声パタンについ
て比較照合を行い、認識結果として最も可能性の高いも
のを最終結果とすることにより実現される。その一例が
例えば、特願昭61−31179号明細書に詳細に記載されて
いる。そして、端点フリーの認識により音声区間の始端
・終端の検出誤りを少なくすることは可能であるが、発
声の休止区間に雑音が混入しその雑音が音声区間内に含
まれてしまう問題については何ら効果がないために正し
い認識結果が得られないことがよくおきる。
終端を一定に定めず、始端および終端に幅を持たせた、
いわゆる、始端・終端フリーの認識方法がある。そし
て、この始端・終端フリーの認識は始端候補点と終端候
補点が取り得る全ての組合せの区間の音声パタンについ
て比較照合を行い、認識結果として最も可能性の高いも
のを最終結果とすることにより実現される。その一例が
例えば、特願昭61−31179号明細書に詳細に記載されて
いる。そして、端点フリーの認識により音声区間の始端
・終端の検出誤りを少なくすることは可能であるが、発
声の休止区間に雑音が混入しその雑音が音声区間内に含
まれてしまう問題については何ら効果がないために正し
い認識結果が得られないことがよくおきる。
上述した従来の音声認識方法では、音声の振幅レベルや
スペクトル変化などで音声検出を行い、始端・終端フリ
ーで音声認識を行う場合、発声中の休止区間に音声が混
入したときの付加によるエラーは依然として解決されて
いないという課題があつた。
スペクトル変化などで音声検出を行い、始端・終端フリ
ーで音声認識を行う場合、発声中の休止区間に音声が混
入したときの付加によるエラーは依然として解決されて
いないという課題があつた。
本発明による音声認識装置は、発声された音声を標準パ
タンとDPマツチングを行い、最小の相違度を与える標準
パタンを求めることにより認識を行う音声認識装置にお
いて、標準パタン時間長に比例した相違度を計算するDP
マツチング部を持ち、DPマツチングパスが標準パタン側
の休止位置を通過するときにそれに対応する入力パタン
側の位置の近傍で相異度の最小値を与える仮休止点を求
め、この相異度を境界条件として標準パタンの上記休止
位置以降の部分と入力パタンの上記仮休止点から先行し
た点の近傍部分との間で端点フリーにてDPマツチングを
続行する手段を備えてなるものである。
タンとDPマツチングを行い、最小の相違度を与える標準
パタンを求めることにより認識を行う音声認識装置にお
いて、標準パタン時間長に比例した相違度を計算するDP
マツチング部を持ち、DPマツチングパスが標準パタン側
の休止位置を通過するときにそれに対応する入力パタン
側の位置の近傍で相異度の最小値を与える仮休止点を求
め、この相異度を境界条件として標準パタンの上記休止
位置以降の部分と入力パタンの上記仮休止点から先行し
た点の近傍部分との間で端点フリーにてDPマツチングを
続行する手段を備えてなるものである。
本発明においては、標準パタン側の休止位置に対応する
入力パタンの位置の前後でも端点フリーでマツチングが
行なわれるため、入力パタンの休止区間の正確な検出が
必要でない。
入力パタンの位置の前後でも端点フリーでマツチングが
行なわれるため、入力パタンの休止区間の正確な検出が
必要でない。
以下、図面に基づき本発明の実施例を詳細に説明する。
第1図は本発明の一実施例を示すブロツク図である。
図において、1は音声信号波sを入力する入力部、2は
この入力部1の出力を入力とする標準パタンメモリ、3
は入力部1の出力を入力とする入力パタンメモリ、4は
この入力パタンメモリ3からの入力パタン1と標準パタ
ンメモリ2よりの標準パタンjを入力とし標準パタン時
間長に比例した相異度を計算するDPマツチング部で、こ
れらはDPマツチングパスが標準パタン側の休止位置を通
過するときにそれに対応する入力パタン側の位置の近傍
で相異度の最小値を与える仮休止点を求め、この相異度
を境界条件として標準パタンの上記休止位置以降の部分
と入力パタンの上記仮休止点から先行した点の近傍部分
との間で端点フリーにてDPマツチングを続行する手段を
構成している。
この入力部1の出力を入力とする標準パタンメモリ、3
は入力部1の出力を入力とする入力パタンメモリ、4は
この入力パタンメモリ3からの入力パタン1と標準パタ
ンメモリ2よりの標準パタンjを入力とし標準パタン時
間長に比例した相異度を計算するDPマツチング部で、こ
れらはDPマツチングパスが標準パタン側の休止位置を通
過するときにそれに対応する入力パタン側の位置の近傍
で相異度の最小値を与える仮休止点を求め、この相異度
を境界条件として標準パタンの上記休止位置以降の部分
と入力パタンの上記仮休止点から先行した点の近傍部分
との間で端点フリーにてDPマツチングを続行する手段を
構成している。
つぎにこの第1図に示す実施例の動作を説明する。
まず、入力部1は入力される音声信号波sの振幅レベル
が予め定められた閾値より高い区間を音声区間として検
出し、特徴パラメータの時系列パタンに変換する。ま
た、語中に休止区間があればその位置も検出する。そし
て、登録時においては、時系列パタンと休止位置が標準
パタンメモリ2に記憶される。認識時においては、時系
列パタンは入力パタンメモリ3に一時的に記憶される。
が予め定められた閾値より高い区間を音声区間として検
出し、特徴パラメータの時系列パタンに変換する。ま
た、語中に休止区間があればその位置も検出する。そし
て、登録時においては、時系列パタンと休止位置が標準
パタンメモリ2に記憶される。認識時においては、時系
列パタンは入力パタンメモリ3に一時的に記憶される。
つぎに、DPマツチング部4は入力パタンメモリ3から出
力される入力パタンiと標準パタンメモリ2から出力さ
れる標準パタンjをベースにして標準パタン時間長に比
例した相異度を計算する。そして、標準パタンメモリ2
からは標準パタンの休止位置情報qもDPマツチング部4
へ指示される。
力される入力パタンiと標準パタンメモリ2から出力さ
れる標準パタンjをベースにして標準パタン時間長に比
例した相異度を計算する。そして、標準パタンメモリ2
からは標準パタンの休止位置情報qもDPマツチング部4
へ指示される。
第2図は第1図の動作説明に供するDPマツチングの過程
を説明するための図で、横軸に入力パタンiを、縦軸に
標準パタンjをとつて表わした説明図である。
を説明するための図で、横軸に入力パタンiを、縦軸に
標準パタンjをとつて表わした説明図である。
DPマツチングパスDが標準パタン側の休止位置Qを通過
するとき、それに対応する入力パタン側の近傍K1で最小
の相異度を与える点P1(仮休止点)を求める。この点P1
の相異度を境界条件として標準パタン側の休止位置Q以
降の部分パタンと入力パタンの仮休止点から先行した点
の近傍K2との間で端点フリーでDPマツチングを続行す
る。この第2図において、端点フリーのマツチング結果
として点P2からDPマツチングが続行したことを示す。点
P1から点P2の間が入力パタン側の休止区間と扱われたこ
とになる。
するとき、それに対応する入力パタン側の近傍K1で最小
の相異度を与える点P1(仮休止点)を求める。この点P1
の相異度を境界条件として標準パタン側の休止位置Q以
降の部分パタンと入力パタンの仮休止点から先行した点
の近傍K2との間で端点フリーでDPマツチングを続行す
る。この第2図において、端点フリーのマツチング結果
として点P2からDPマツチングが続行したことを示す。点
P1から点P2の間が入力パタン側の休止区間と扱われたこ
とになる。
そして、雑音が休止区間に混入し音声検出を誤つた場合
でも、入力パタンの雑音成分はスキツプしてDPマツチン
グが行なわれる。ここで、標準パタン毎に休止位置とそ
の個数は異なるが、上記の計算を繰り返すことにより、
標準パタンと入力パタンの始端から終端までの相異度を
求め、最終的に標準パタン長Jで正規化した相異度が最
も小さい標準パタンを標準結果Rとして出力する。
でも、入力パタンの雑音成分はスキツプしてDPマツチン
グが行なわれる。ここで、標準パタン毎に休止位置とそ
の個数は異なるが、上記の計算を繰り返すことにより、
標準パタンと入力パタンの始端から終端までの相異度を
求め、最終的に標準パタン長Jで正規化した相異度が最
も小さい標準パタンを標準結果Rとして出力する。
以上説明したように本発明は、標準パタン側の休止位置
に対応する入力パタンの位置の前後でも端点フリーでマ
ツチングが行なわれるため、入力パタンの休止区間の正
確な検出が必要でなく、発声の休止区間に雑音が重畳し
入力パタンが長くなり誤認識をおこすという課題を解決
することができるので、非定常騒音があつた場合でも通
常時の認識性能を維持することができるという効果があ
る。また、本発明は語中の休止区間に限らず、語間の休
止区間についても適用可能であるので、連続単語認識に
おいても効果を発揮する。
に対応する入力パタンの位置の前後でも端点フリーでマ
ツチングが行なわれるため、入力パタンの休止区間の正
確な検出が必要でなく、発声の休止区間に雑音が重畳し
入力パタンが長くなり誤認識をおこすという課題を解決
することができるので、非定常騒音があつた場合でも通
常時の認識性能を維持することができるという効果があ
る。また、本発明は語中の休止区間に限らず、語間の休
止区間についても適用可能であるので、連続単語認識に
おいても効果を発揮する。
第1図は本発明の一実施例を示すブロツク図、第2図は
第1図の動作説明に供するDPマツチングの過程を説明す
るための説明図である。 1……入力部、2……標準パタンメモリ、3……入力パ
タンメモリ、4……DPマツチング部。
第1図の動作説明に供するDPマツチングの過程を説明す
るための説明図である。 1……入力部、2……標準パタンメモリ、3……入力パ
タンメモリ、4……DPマツチング部。
Claims (1)
- 【請求項1】発声された音声を標準パターンとDPマツチ
ングを行い、最小の相異度を与える標準パタンを求める
ことにより認識を行う音声認識装置において、標準パタ
ン時間長に比例した相異度を計算するDPマツチング部を
持ち、DPマツチングパスが標準パタン側の休止位置を通
過するときにそれに対応する入力パタン側の位置の近傍
で相異度の最小値を与える仮休止点を求め、この相異度
を境界条件として標準パタンの前記休止位置以降の部分
と入力パタンの前記仮休止点から先行した点の近傍部分
との間で端点フリーにてDPマツチングを続行する手段を
備えてなることを特徴とする音声認識装置。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
JP63095697A JPH071437B2 (ja) | 1988-04-20 | 1988-04-20 | 音声認識装置 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
JP63095697A JPH071437B2 (ja) | 1988-04-20 | 1988-04-20 | 音声認識装置 |
Publications (2)
Publication Number | Publication Date |
---|---|
JPH01267699A JPH01267699A (ja) | 1989-10-25 |
JPH071437B2 true JPH071437B2 (ja) | 1995-01-11 |
Family
ID=14144692
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
JP63095697A Expired - Lifetime JPH071437B2 (ja) | 1988-04-20 | 1988-04-20 | 音声認識装置 |
Country Status (1)
Country | Link |
---|---|
JP (1) | JPH071437B2 (ja) |
-
1988
- 1988-04-20 JP JP63095697A patent/JPH071437B2/ja not_active Expired - Lifetime
Also Published As
Publication number | Publication date |
---|---|
JPH01267699A (ja) | 1989-10-25 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
US4829578A (en) | Speech detection and recognition apparatus for use with background noise of varying levels | |
EP0077194B1 (en) | Speech recognition system | |
JP2768274B2 (ja) | 音声認識装置 | |
JP3069531B2 (ja) | 音声認識方法 | |
JP2996019B2 (ja) | 音声認識装置 | |
JPH071437B2 (ja) | 音声認識装置 | |
JPH0449952B2 (ja) | ||
JP2666296B2 (ja) | 音声認識装置 | |
JPH0430040B2 (ja) | ||
JPS5999497A (ja) | 音声認識装置 | |
JPH0546196A (ja) | 音声認識装置 | |
JP3107905B2 (ja) | 音声認識装置 | |
JP2882792B2 (ja) | 標準パターン作成方式 | |
JP2844592B2 (ja) | 離散単語音声認識装置 | |
JP2901976B2 (ja) | パターン照合予備選択方式 | |
JPH1097269A (ja) | 音声検出装置及び方法 | |
JPH0754434B2 (ja) | 音声認識装置 | |
JPH0651792A (ja) | 音声認識装置 | |
JP2000155600A (ja) | 音声認識システムおよび入力音声レベル警告方法 | |
JP2752981B2 (ja) | 音声認識装置 | |
JPH0651793A (ja) | 音声認識装置 | |
JPS59170894A (ja) | 音声区間の切り出し方式 | |
JPH0343639B2 (ja) | ||
JPS61260299A (ja) | 音声認識装置 | |
JP3065691B2 (ja) | 音声認識装置 |