[go: up one dir, main page]

JP2666296B2 - 音声認識装置 - Google Patents

音声認識装置

Info

Publication number
JP2666296B2
JP2666296B2 JP62227617A JP22761787A JP2666296B2 JP 2666296 B2 JP2666296 B2 JP 2666296B2 JP 62227617 A JP62227617 A JP 62227617A JP 22761787 A JP22761787 A JP 22761787A JP 2666296 B2 JP2666296 B2 JP 2666296B2
Authority
JP
Japan
Prior art keywords
section
point
feature point
pattern
stable feature
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Expired - Fee Related
Application number
JP62227617A
Other languages
English (en)
Other versions
JPS6470800A (en
Inventor
洋一 元田
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
NEC Corp
Original Assignee
NEC Corp
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by NEC Corp filed Critical NEC Corp
Priority to JP62227617A priority Critical patent/JP2666296B2/ja
Publication of JPS6470800A publication Critical patent/JPS6470800A/ja
Application granted granted Critical
Publication of JP2666296B2 publication Critical patent/JP2666296B2/ja
Anticipated expiration legal-status Critical
Expired - Fee Related legal-status Critical Current

Links

Description

【発明の詳細な説明】 〔産業上の利用分野〕 本発明は音声認識装置に関し、特に環境騒音の影響を
受けにくい音声認識装置の改良に関する。 〔従来の技術〕 従来の音声認識装置では発声された音声をマイクロホ
ンから入力し、電気信号に変換された音声信号波の振幅
(パワーを含む)、スペクトルなどを検定して音声の検
出を行い、その区間の音声を認識している。通常は、振
幅レベルがある閾値を越えた点と下回った点を始端・終
端としたり、あるいは前記点の近傍でスペクトルが急激
に変化した点を始端・終端として、その音声区間に対し
て認識処理を行う。 音声データを入力する場所は静かな事務室だけではな
く、工場内や屋外などのように、各種の機械から騒音が
発声される所も多い。音声認識装置では一般に雑音消去
用接話型マイクロホンを使用し雑音耐力を上げている
が、それでも十分とは言えない。雑音の振幅レベルが音
声検出のための閾値を越えたり、真の発声の始端・終端
の近傍で背景雑音のスペクトルが変化すると、音声検出
を誤るという事態が生じる。 この閾値を雑音の振幅のピーク値より高く設定する
と、今度は発声の始端・終端にある振幅の低い部分や子
音部分の検出が困難となり認識性能が著しく低下するの
で、この方法は実用的でない。この音声検出誤りの影響
を少なくするため、発声の始端・終端を一意に定めず、
始端および終端に幅を持たせたいわゆる始端・終端フリ
ーの認識方法がある。始端・終端フリーの認識は始端候
補点と終端候補点が取り得る全ての組合せの区間の音声
について比較照合を行い、認識結果として最も可能性の
高いものを最終結果とすることにより実現される。一例
が特願昭61−031179に記載されている。 従来の端点フリーの認識では、あらかじめ定められた
閾値を越えた点の前後(前のみ又は後のみを含む)の区
間を始端候補区間とし、ある閾値を下回った点の前後
(前のみ又は後のみを含む)の区間を終端候補区間とし
ていた。端点フリーな区間の範囲を自由にすると、例え
ば区間幅を広くしすぎると真の発声に対し語頭・語尾が
脱落された区間、あるいは語頭・語尾の外側にある雑音
を含む区間が最終的な音声区間と判定され誤認識を招く
ことがよく起きる。逆にフリー区間幅を狭くすると効果
が出ないことになる。 〔発明が解決しようとする問題点〕 音声の振幅レベルやスペクトル変化などで音声検出を
行い、始端・終端フリーで音声認識を行う場合、従来方
法では音声の語頭・語尾での付加・脱落によるエラーが
多く起きやすいという欠点があった。 本発明の目的は前記の欠点を解消するため端点フリー
区間に適切な制約を設けることにより、発声区間の検出
誤りを少なくし認識率の高い音声認識装置を提供するこ
とにある。 〔問題点を解決するための手段〕 本発明による音声認識装置は入力信号波を検定して音
声区間を検出する音声検出部と、安定な音声情報点を検
出する安定特徴点検出部と、認識処理の対象となる区間
の始端と終端に幅を持つ始端・終端フリー方式の認識部
と、標準パタンの始端と標準パタンの最初の安定特徴点
の間に相当する長さだけ入力パタンの最初の安定特徴点
から逆上った点の前後の区間を入力パタンの真の始端が
存在する始端候補区間とし、標準パタンの最後の安定特
徴点と標準パタンの終端の間に相当する長さだけ入力パ
タンの最後の安定特徴点から先に進んだ点の前後の区間
を入力パタンの真の終端が存在する終端候補区間とし
て、認識を行う手段により構成される。ここに安定特徴
点とは周囲雑音があっても影響されない発声の安定した
情報を有する点である。たとえば、有声音が開始・終了
する点や、振動レベルが一定閾値を越える範囲内での振
幅レベルの極大値を持つ点などを安定特徴点として利用
できる。 認識時に発声された音声(入力パタン)において安定
特徴点検出部が検出した最初の安定特徴点の前に真の始
端が存在し、最後の安定特徴点の後に真の終端が存在し
ている。(登録された)標準パタンの始端と最初の安定
特徴点の間の長さだけ、入力パタンの最初の安定特徴か
ら逆上った点の前後を始端候補区間とし、標準パタンの
最後の安定特徴点と始端の間の長さだけ、入力パタンの
最後の安定特徴点から先に進んだ点の前後を終端候補区
間として、適切な始端・終端フリー区間を与えて認識処
理を行うことにより認識精度を向上することができる。 本発明では複数個ある標準パタン側の始端と最初の安
定特徴点の間、最後の安定特徴点と終端の間の長さに応
じて入力パタン側の始端・終端候補区間を変化させてい
ることに最大の特徴がある。フリー区間幅は固定値とせ
ずに、標準パタンの始端と最初の安定特徴点の間、最後
の安定特徴点と終端の間の長さに応じた可変値とするこ
ともできる。フリー区間が音声検出部の検出した音声区
間からはみ出す場合、その標準パタンを認識結果の候補
から削除する方法も効果的である。周囲騒音がない場合
に発声することを考慮し、音声検出部が最初に検出した
音声区間の始端・終端点も端点フリー認識の端点候補点
として加えた方が良好な結果が得られる。この場合、始
端候補区間及び終端候補区間が2箇所に分離することも
あることは言うもでもない。有声音を検出する方法の具
体例としてはピッチ検出による方法、高域と低域周波数
のエネルギー差による方法、零交差回数による方法など
が一般に知られている。 〔実施例〕 第1図は本発明による音声認識装置の一実施例を示す
ブロック図である。音声区間検出部1は入力される信号
波Sの振幅レベルがあらかじめ定められた閾値よりも高
い区間を音声区間として検出する。この音声区間内では
検出信号Kが1にセットされ、音声区間が終ると検出信
号Kは0にリセットされる。安定特徴点検出部2は入力
信号波Sの音声区間すなわち検出信号Kが1である区間
内の安定特徴点を検出する。 認識部3は第2図に示すように、入力パタン(a)の
最初の安定特徴点A2から、標準パタン(b)の始端B1と
最初の安定特徴点B2の間の長さL1に相当する分だけ逆上
った点の前後の区間AXを始端候補区間として、入力パタ
ン(a)の最後に安定特徴点A3から、標準パタン(b)
の最後の安定特徴点B3と終端B4の間の長さL2に相当する
分だけ先に進んだ点の前後の区間AYを終端候補区間とし
て、入力信号波Sの音声を始端・終端フリーで認識し、
その結果Rを出力する。入力パタン(a)の安定特徴点
A2と標準パタン(b)の安定特徴点B2が時間軸上で一致
するようずらし、安定特徴点A3とB4が一致するように標
準パタン(b)を伸縮させて両パタンの比較を行う。 認識部3における認識原理としては種々のものが提案
されているが、それらのいずれであっても本発明の原理
は適用可能である。一例としては公知のパタンマッチン
グ法が考えられる。すなわち、あらかじめ認識されるべ
き単語セットを定め、個々の単語を適当なパラメータに
よって記述したものを標準パタンとして記憶しておく。
本発明では標準パタンは非定常雑音がない環境で発音さ
れた音声を分析して作成される。認識時には非定常雑音
が含まれている可能性のある音声の音声区間をパラメー
タ記述し、入力パタンとする。前記標準パタンと入力パ
タンの始端候補点と終端候補点が取り得る区間について
始端・終端フリーでパタンマッチングを行って最大一致
が得られる標準パタン(例)を定めることによって入力
パタンはこの標準パタン(例)と同一であると決定す
る。 〔発明の効果〕 以上説明したように本発明は非定常雑音があった場合
でも真に発声された音声区間を適切な幅をもって推定し
ており、非定常雑音がない場合の認識性能を維持できる
という効果がある。呼吸音についても、非定常騒音と同
じように認識精度を悪化させる要因であるが、同様に効
果がある。
【図面の簡単な説明】 第1図は本発明による音声認識装置の一構成図、第2図
は本発明の装置における端点フリー区間決定の動作を説
明するための波形図である。 1……音声区間検出部、2……安定特徴点検出部、3…
…認識部。

Claims (1)

  1. (57)【特許請求の範囲】 1.入力信号波を検定して音声区間を検出する音声区間
    検出部と、安定な音声情報点を検出する安定特徴点検出
    部と、標準パタンの始端と標準パタンの最初の安定特徴
    点の間に相当する長さだけ認識対象となる入力パタンの
    最初の安定特徴点から逆上った点の前後の区間を入力パ
    タンの真の始端が存在する始端候補区間及び標準パタン
    の最後の安定特徴点と標準パタンの終端の間に相当する
    長さだけ入力パタンの最後の安定特徴点から先に進んだ
    点の前後の区間を入力パタンの真の終端が存在する終端
    候補区間として音声認識する機能とを有することを特徴
    とする音声認識装置。
JP62227617A 1987-09-10 1987-09-10 音声認識装置 Expired - Fee Related JP2666296B2 (ja)

Priority Applications (1)

Application Number Priority Date Filing Date Title
JP62227617A JP2666296B2 (ja) 1987-09-10 1987-09-10 音声認識装置

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
JP62227617A JP2666296B2 (ja) 1987-09-10 1987-09-10 音声認識装置

Publications (2)

Publication Number Publication Date
JPS6470800A JPS6470800A (en) 1989-03-16
JP2666296B2 true JP2666296B2 (ja) 1997-10-22

Family

ID=16863737

Family Applications (1)

Application Number Title Priority Date Filing Date
JP62227617A Expired - Fee Related JP2666296B2 (ja) 1987-09-10 1987-09-10 音声認識装置

Country Status (1)

Country Link
JP (1) JP2666296B2 (ja)

Families Citing this family (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP3844874B2 (ja) * 1998-02-27 2006-11-15 株式会社東芝 マルチモーダルインタフェース装置およびマルチモーダルインタフェース方法
KR100421652B1 (ko) * 2001-04-23 2004-03-10 김대봉 고가 사다리차의 자동이송제어 시스템

Also Published As

Publication number Publication date
JPS6470800A (en) 1989-03-16

Similar Documents

Publication Publication Date Title
EP0077194B1 (en) Speech recognition system
JPH0222398B2 (ja)
JPWO2003107326A1 (ja) 音声認識方法及びその装置
JP2666296B2 (ja) 音声認識装置
JP2996019B2 (ja) 音声認識装置
JPH0449952B2 (ja)
JPH07191696A (ja) 音声認識装置
JP2006010739A (ja) 音声認識装置
JPS6060076B2 (ja) 音声認識装置
JPS63278100A (ja) 音声認識装置
JP2882791B2 (ja) パターン比較方式
JP2901976B2 (ja) パターン照合予備選択方式
JP2882792B2 (ja) 標準パターン作成方式
JP3032215B2 (ja) 有音検出装置及びその方法
JPS63213899A (ja) 話者照合方式
JP3020999B2 (ja) パターン登録方法
JPS59170894A (ja) 音声区間の切り出し方式
JP3049711B2 (ja) 音声処理装置
KR910007530B1 (ko) 음성인식장치 및 그 방법
JP2891259B2 (ja) 音声区間検出装置
JPH0343639B2 (ja)
JPS6227798A (ja) 音声認識装置
JP2844592B2 (ja) 離散単語音声認識装置
JPH071437B2 (ja) 音声認識装置
JPH05108088A (ja) 音声区間検出装置

Legal Events

Date Code Title Description
LAPS Cancellation because of no payment of annual fees