JP3006677B2 - 音声認識装置 - Google Patents
音声認識装置Info
- Publication number
- JP3006677B2 JP3006677B2 JP8284827A JP28482796A JP3006677B2 JP 3006677 B2 JP3006677 B2 JP 3006677B2 JP 8284827 A JP8284827 A JP 8284827A JP 28482796 A JP28482796 A JP 28482796A JP 3006677 B2 JP3006677 B2 JP 3006677B2
- Authority
- JP
- Japan
- Prior art keywords
- pitch
- intensity
- speech recognition
- feature vector
- extraction unit
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Expired - Fee Related
Links
Classifications
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L15/00—Speech recognition
- G10L15/08—Speech classification or search
- G10L15/18—Speech classification or search using natural language modelling
- G10L15/1807—Speech classification or search using natural language modelling using prosody or stress
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L25/00—Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00
- G10L25/78—Detection of presence or absence of voice signals
Landscapes
- Engineering & Computer Science (AREA)
- Artificial Intelligence (AREA)
- Computational Linguistics (AREA)
- Health & Medical Sciences (AREA)
- Audiology, Speech & Language Pathology (AREA)
- Human Computer Interaction (AREA)
- Physics & Mathematics (AREA)
- Acoustics & Sound (AREA)
- Multimedia (AREA)
- Measurement Of Mechanical Vibrations Or Ultrasonic Waves (AREA)
- Telephonic Communication Services (AREA)
Description
し、特に基本周波数成分の強度情報を利用する音声認識
技術に関する。
声を一定の時間間隔で移動する分析窓(フレーム)内の
波形を短時間分析して特徴ベクトルに変換し、入力音声
全体を特徴ベクトルの時系列信号として捉え、マッチン
グを行なう方式が主流である。この特徴ベクトルとして
用いられているものはこれまで種々のものが提案されて
いる。ここではその全てを説明することは出来ないが、
例えば代表的なものとして、ケプストラム分析、スペク
トル分析、パワーなどが挙げられる。
基本周波数(以下、ピッチと称す)情報を特徴ベクトル
の一部に用いる方式がある。この方式は、例えば図4の
ような構成となっている。すなわち、入力音声は特徴抽
出部41にて、通常の音声認識に使用されていた特徴ベ
クトル(例えば、ケプストラムなど)に変換される。入
力音声はまた、ピッチ抽出部42にてピッチ周波数また
はその時間的な変化量に変換され、特徴抽出部41の出
力した特徴ベクトルと併せて認識のための特徴ベクトル
として出力される。認識部43は、特徴抽出部41及び
ピッチ抽出部42の出力した特徴ベクトルを用い、予め
同一の特徴ベクトル構成で分析された標準パタンとのマ
ッチングを行ない、最も確からしいものを認識結果とし
て出力する。
徴ベクトルの一部として含むことにより、マッチング時
に起こる母音/子音(有声/無声)のセグメンテーショ
ン誤りを回避し、より高性能な認識装置を提供すること
を目的としている。すなわち、音声の母音は声門の開閉
によって起こるパルス性音源によって声道が駆動され、
発せられるため明確な周期構造を持ち、これがピッチと
して観測される。
の非周期的な音源によるため明確な周期構造を持たず、
明確なピッチが観測されない。このような理由から、ピ
ッチ情報を用いることにより母音部と子音部のマッチン
グ誤りを低減することが可能となっている。
して、中国語などの声調言語(tonal langu
age)におけるピッチパターン識別を行なうことが挙
げられるが、本発明の課題とは異なるため詳述しない。
ピッチ情報を用いた音声認識装置においては、ピッチに
関する周波数情報を直接利用するか、もしくは周波数情
報の変化量として利用していた。ピッチの周波数情報を
直接用いた場合は、男性/女性によって大きく異なるこ
とは勿論、個人差が大きい。また、同一個人においても
体調、心理的な影響に左右され易いため不安定であり、
音声認識装置にとつてはいたずらに擾乱を増すだけであ
り、有効なパラメータとはなり得ていない。特に、個人
差が大きいことから、不特定話者音声認識のパラメータ
には不向きな特徴ベクトルとなっている。
た場合においても依然個人差、地域差が大きい。例え
ば、同一発声内容であっても方言の違いなどにより、ピ
ッチがあまり変化しないものや、大きく変化する場合な
ど様々である。この傾向はピッチの周波数情報の変化量
においてもそのまま現れ、個人差、地域差を多く含んだ
パラメータとなり、不特定話者音声認識にとっては有益
なパラメータとはなっていなかった。
り、その課題は、個人差、地域差などの影響を受け易い
ピッチ周波数情報は用いず、より個人差、地域差を含ま
ないピッチの強度情報、ピッチの強度情報の変化量を用
いることにより、不特定話者音声認識装置に好適な特徴
ベクトルを構成し、同時に有声/無声のセグメンテーシ
ョン誤りを低減させた高性能な音声認識装置を提供する
ことにある。
認識装置は、入力音声の基本周波数成分の強度を抽出す
るピッチ強度抽出部(図1の12)と、特徴ベクトルの
一部または全部がピッチ強度抽出部が抽出したピッチ強
度であって、当該特徴ベクトルを用いて音声認識を行な
う認識部(図1の13)とを有することを特徴とする。
音声の基本周波数成分の強度の時間変化量を抽出するピ
ッチ強度変化量抽出部(図2の22)と、特徴ベクトル
の一部または全部がピッチ強度変化量抽出部の抽出した
ピッチ強度変化量であって、当該特徴ベクトルを用いて
音声認識を行なう認識部(図2の23)とを有すること
を特徴とする。
音声の基本周波数成分の強度を抽出するピッチ強度抽出
部(図3の32)と、入力音声の基本周波数成分の強度
の時間変化量を抽出するピッチ強度変化量抽出部(図3
の33)と、特徴ベクトルの一部または全部が前記ピッ
チ強度抽出部の抽出したピッチ強度及び前記ピッチ強度
変化量抽出部の抽出したピッチ強度変化量であって、当
該特徴ベクトルを用いて音声認識を行なう認識部(図3
の34)とを有することを特徴とする。
第1〜第3のいずれかの音声認識装置において、そのピ
ッチ強度が、ケプストラムの全ケフレンシまたは予め制
限されたケフレンシ範囲の中の最大値であることを特徴
とする。
第1〜第3のいずれかの音声認識装置において、そのピ
ッチ強度が、自己相関係数の全時間または予め制限され
た時間範囲の中の最大値またはその対数であることを特
徴とする。
明の第4の音声認識装置において、その最大値が、フレ
ーム方向とケフレンシ方向の2次元パタンに対してピー
ク強調を行なう2次元フィルタを施した後に求められる
ことを特徴とする。
明の第5の音声認識装置において、その最大値が、フレ
ーム方向と自己相関係数の時間方向の2次元パタンに対
してピーク強調を行なう2次元フィルタを施した後に求
められることを特徴とする。
チ情報を併用することにより、認識時のセグメンテーシ
ョン誤りを低減し、高性能な音声認識装置を提供するも
のである。すなわち、音声の母音は声門の開閉によって
起こるパルス性音源によって声道が駆動され、発せられ
るため明確な周期構造を持ち、これがピッチとして観測
される。一方、子音(特に、無声子音)は声門以外の非
周期的な音源によるため明確な周期構造を持たず、明確
なピッチが観測されない。このような理由から、ピッチ
情報を用いることにより母音部と子音部のマッチング誤
りを低減することが可能となる。
るピッチ強度について、例えば/はい/という発声の時
間的な変化の一例を示す図である。/はい/という発声
は、無声子音/h/と母音/a/及び/i/から構成さ
れており、/h/の部位及び音声がない時間位置におい
ては明確なピッチが観測出来ないため低い値となる。一
方、母音/a/及び/i/は明確なピッチが観測され、
高いピッチ強度となって現れる。このようなことから、
ピッチ強度情報は、母音などの有声部位を示す良好なパ
ラメータとなっており、音声認識の特徴ベクトルとして
優れているものである。
られるピッチ周波数情報を、同じ/はい/の音声につい
ての時間的な変化の一例を示す。すなわち、図6では、
音声以外の部分や、無声子音/h/など明確にピッチが
観測されない部分が多く存在し、その部分については、
抽出したピッチ周波数はランダムな形状を示すことが多
く、安定していない。つまり、図6においては信頼でき
る部分は/a/及び/i/の部分だけであり、それ以外
は不要な部分である。例えば、この問題に対して、ピッ
チの強度を用いた閾値判定ロジックなどを用いて信頼で
きる区間のみを抽出することも考えられるが、そもそも
そのような判定には誤りを含んでおり、その誤りゆえに
ピッチ周波数情報全体の信頼性が低下することになる。
また、ピッチ周波数が正確に切り出された/a/及び/
i/の部分についても、その周波数情報自体は個人差が
大きく、そのような値を音声認識のための特徴ベクトル
として用いることは、いたずらに擾乱を増やすだけで性
能向上には寄与しない。
的にピッチ性(どれだけピッチが存在するか)の大小を
連続値として表現しており、雑音や無声音は小さな値を
とり、有声音は大きな値をとるため、雑音や無声音で不
安定な振舞いをすることがなく安定している。
れほど影響を受けないため不特定話者を対象とした音声
認識においても高い性能を有する。さらに、従来のピッ
チ周波数を用いた場合における閾値判定などを一切必要
としないので、信頼性が低下することがないという利点
を有している。
本発明の実施の形態について説明する。図1は本発明に
よる第1の音声認識装置の実施の形態のブロック図であ
る。この音声認識装置は、特徴ベクトルを抽出する特徴
抽出部11と、入力音声の基本周波数成分の強度を抽出
するピッチ強度抽出部12と、特徴ベクトルの一部また
は全部がピッチ強度抽出部12の抽出したピッチ強度で
あって、この特徴ベクトルを用いて音声認識を行なう認
識部13とで構成される。特徴抽出部11は、ピッチ強
度抽出部12の出力するピッチ強度と他の音声認識のた
めの特徴ベクトルとを併用して特徴ベクトルとする場合
には、他の音声認識のための特徴ベクトルを出力する。
ッチ強度に変換される。ピッチ強度は、従来、種々のピ
ッチ抽出手法が提案されており、それらのうちのいずれ
かを用いて計算される。このピッチ抽出手法としては例
えば、L.R.Rabinar,R.W.Schafe
r(鈴木久喜訳):”音声のディジタル信号処理”、コ
ロナ社、下巻、pp.73−75(昭和58年初版).
(以下、引用文献1とする)に述べられている高調波積
スペクトルのピッチ成分の強度やその対数強度、あるい
は引用文献1のpp.135−140に述べられている
ケプストラムのピーク位置の強度を用いたり、また自己
相関係数のピッチ位置の強度やその対数を用いることが
出来る。
抽出されたピッチ強度と特徴抽出部11にて抽出された
音声認識のための他の特徴ベクトルとを用いて、音声認
識を行なう。音声認識のための特徴ベクトルとして用い
られているものは、これまで種々のものが公知となって
おり、ここではその全てを説明することは出来ないが、
例えば代表的なものとしてケプストラム、スペクトル、
パワー、及びこれらの時間変化量などが挙げられる。こ
の他、音声認識に用いることの出来る特徴ベクトルであ
ればどのようなものでも利用可能である。
も、これまで種々のものが公知となっており、その全て
を示すことは行なわないが、その代表的なものとしてD
Pマッチング、HMM、ニューラルネットなどがあげら
れる。この他、音声認識のための認識処理を行なう方法
であればどのような方法も利用可能である。
実施の形態のブロック図である。この音声認識装置は、
特徴抽出部21と、入力音声の基本周波数成分の強度の
変化量を抽出するピッチ強度変化量抽出部22と、特徴
ベクトルの一部または全部がピッチ強度変化量抽出部2
2の抽出したピッチ強度の変化量であって、この特徴ベ
クトルを用いて音声認識を行なう認識部23とで構成さ
れる。特徴抽出部21は、ピッチ強度変化量抽出部22
の出力するピッチ強度と他の音声認識のための特徴ベク
トルとを併用して特徴ベクトルとする場合には、他の音
声認識のための特徴ベクトルを出力する。
にてピッチ強度変化量に変換される。ピッチ強度に限ら
ずこれまで変化量を求めるアルゴリズムとしては、従
来、種々の方式が公知となっている。例えば、ピッチ強
度がP(t)であるとき、線形回帰係数を用いた変化量
ΔP(t)は例えば、下記の式(1)で計算される。
な変化を示す量(動的特徴量)であればどのようなもの
でも利用可能である。また、動的特徴を求める計算式を
任意のn回繰り返し適応することにより、n次の変化量
を求めて用いることも可能である。ピッチ変化量を用い
ることで、ピッチ強度が安定な部分は変化量が小さく、
逆にピッチ強度が変化する部位で変化量が大きくなる。
このため、有声音と無声音との境界や、無音から有声音
への境界部分で値が大きくなり、この部位のセグメンテ
ーション誤りが低減し、音声認識にとって有効なパラメ
ータとなっている。
実施の形態のブロック図である。この音声認識装置は、
特徴抽出部31と、入力音声の基本周波数成分の強度を
抽出するピッチ強度抽出部32と、入力音声の基本周波
数成分の強度の変化量を抽出するピッチ強度変化量抽出
部33と、特徴ベクトルの一部または全部がピッチ強度
抽出部32の抽出したピッチ強度及びピッチ強度変化量
抽出部33の抽出したピッチ強度の変化量であって、こ
の特徴ベクトルを用いて音声認識を行なう認識部34と
で構成される。特徴抽出部31は、ピッチ強度抽出部3
2及びピッチ強度変化量抽出部33の出力する特徴ベク
トルと他の音声認識のための特徴ベクトルとを併用して
特徴ベクトルとする場合には、他の音声認識のための特
徴ベクトルを出力する。
ッチ強度に変換される。また、同時にピッチ強度変化量
抽出部33にてピッチ強度変化量に変換される。認識部
34は、ピッチ強度抽出部32及びピッチ強度変化量抽
出部33の出力する特徴ベクトルを用いて音声認識を行
なう。なお、ピッチ強度変化量抽出部33において用い
るピッチ強度がピッチ強度抽出部32で抽出されたピッ
チ強度と同一の計算方法で求められる場合は、ピッチ強
度抽出部32の出力を用いてピッチ強度変化量抽出部3
3を構成することも可能である。
第1〜第3の音声認識装置に適用され、ピッチ強度とし
てケプストラムを用いた場合について、ケプストラムの
最大値をもつケフレンシ成分の最大値そのものをそのま
まピッチ強度とする点に特徴を有している。なお、最大
値探索を行なうケフレンシ範囲を事前に制限しおくこと
も可能である。
第1〜第3の音声認識装置に適用され、自己相関係数を
用いた場合の自己相関係数の最大値またはその対数をそ
のままピッチ強度とする点に特徴を有している。なお、
最大値探索を行なう自己相関係数の範囲を事前に制限し
おくことも可能である。
第4の音声認識装置において、ピッチ強度としてケプス
トラムを用いた場合について、最大値が、フレーム方向
とケフレンシ方向の2次元パタンに対してピーク強調を
行なう2次元フィルタを施した後に求められる点に特徴
を有する。この機能を実現する2次元フィルタとして
は、例えばガウシアンフィルタが可能である。その一例
として、下記の式(2)のような3×3の次元数を持つ
フィルタDを用いた場合について考える。
j:ケフレンシ方向)とし、上記Dを作用させてピーク
強調したケプストラムX(i,j)は、下記の式(3)
で計算される。
j)に対して求められる。このような処理を行なうこと
で、大きな値が点(i,j)に隣接して存在する場合に
はその値が重み付きで加味されるため、ピークが強調さ
れることになる。なおここでは、2次元フィルタとして
3×3の大きさのものを用いて説明したが、この他、種
々の大きさのものが利用可能である。また、強調処理だ
けでなくスムージング効果を持つものも利用可能であ
る。
第6の音声認識装置と同様の効果を自己相関係数を用い
た場合について実現するようにした点に特徴を有する。
のピッチ強度を用いた音声認識装置によれば、個人差及
び地域差の大きな周波数情報は用いず、比較的個人差の
少ないピッチ強度情報を用いることで、不特定話者音声
認識装置に好適な特徴ベクトルを構成し、同時に有声/
無声のセグメンテーション誤りを低減させた高性能な音
声認識装置を提供可能となった。
化量を用いることで、有声音と無声音との境界や、無音
から有声音への境界部分で値が大きくなり、この部位の
セグメンテーション誤りが低減化され、ひいてはより高
性能な音声認識装置の提供が可能となった。
を示すブロック図である。
を示すブロック図である。
を示すブロック図である。
ある。
チ強度を示す図である。
数を示す図である。
Claims (7)
- 【請求項1】 入力音声の基本周波数成分の強度を抽出
するピッチ強度抽出部と、特徴ベクトルの一部または全
部が前記ピッチ強度抽出部の抽出したピッチ強度であっ
て、当該特徴ベクトルを用いて音声認識を行なう認識部
とを有することを特徴とする音声認識装置。 - 【請求項2】 入力音声の基本周波数成分の強度の時間
変化量を抽出するピッチ強度変化量抽出部と、特徴ベク
トルの一部または全部が前記ピッチ強度変化量抽出部の
抽出したピッチ強度変化量であって、当該特徴ベクトル
を用いて音声認識を行なう認識部とを有することを特徴
とする音声認識装置。 - 【請求項3】 入力音声の基本周波数成分の強度を抽出
するピッチ強度抽出部と、入力音声の基本周波数成分の
強度の時間変化量を抽出するピッチ強度変化量抽出部
と、特徴ベクトルの一部または全部が前記ピッチ強度抽
出部の抽出したピッチ強度及び前記ピッチ強度変化量抽
出部の抽出したピッチ強度変化量であって、当該特徴ベ
クトルを用いて音声認識を行なう認識部とを有すること
を特徴とする音声認識装置。 - 【請求項4】 前記ピッチ強度は、ケプストラムの全ケ
フレンシまたは予め制限されたケフレンシ範囲の中の最
大値であることを特徴とする請求項1〜3のいずれかに
記載の音声認識装置。 - 【請求項5】 前記ピッチ強度は、自己相関係数の全時
間または予め制限された時間範囲の中の最大値またはそ
の対数であることを特徴とする請求項1〜3のいずれか
に記載の音声認識装置。 - 【請求項6】 前記最大値は、フレーム方向とケフレン
シ方向の2次元パタンに対してピーク強調を行なう2次
元フィルタを施した後に求めることを特徴とする請求項
4記載の音声認識装置。 - 【請求項7】 前記最大値は、フレーム方向と自己相関
係数の時間方向の2次元パタンに対してピーク強調を行
なう2次元フィルタを施した後に求めることを特徴とす
る請求項5記載の音声認識装置。
Priority Applications (4)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
JP8284827A JP3006677B2 (ja) | 1996-10-28 | 1996-10-28 | 音声認識装置 |
US08/959,464 US5907826A (en) | 1996-10-28 | 1997-10-28 | Speaker-independent speech recognition using vowel/consonant segmentation based on pitch intensity values |
DE69720134T DE69720134T2 (de) | 1996-10-28 | 1997-10-28 | Spracherkenner unter Verwendung von Grundfrequenzintensitätsdaten |
EP97118746A EP0838805B1 (en) | 1996-10-28 | 1997-10-28 | Speech recognition apparatus using pitch intensity information |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
JP8284827A JP3006677B2 (ja) | 1996-10-28 | 1996-10-28 | 音声認識装置 |
Publications (2)
Publication Number | Publication Date |
---|---|
JPH10133693A JPH10133693A (ja) | 1998-05-22 |
JP3006677B2 true JP3006677B2 (ja) | 2000-02-07 |
Family
ID=17683529
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
JP8284827A Expired - Fee Related JP3006677B2 (ja) | 1996-10-28 | 1996-10-28 | 音声認識装置 |
Country Status (4)
Country | Link |
---|---|
US (1) | US5907826A (ja) |
EP (1) | EP0838805B1 (ja) |
JP (1) | JP3006677B2 (ja) |
DE (1) | DE69720134T2 (ja) |
Families Citing this family (21)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
US6202046B1 (en) * | 1997-01-23 | 2001-03-13 | Kabushiki Kaisha Toshiba | Background noise/speech classification method |
US6795807B1 (en) | 1999-08-17 | 2004-09-21 | David R. Baraff | Method and means for creating prosody in speech regeneration for laryngectomees |
EP1145225A1 (en) * | 1999-11-11 | 2001-10-17 | Koninklijke Philips Electronics N.V. | Tone features for speech recognition |
US7043430B1 (en) * | 1999-11-23 | 2006-05-09 | Infotalk Corporation Limitied | System and method for speech recognition using tonal modeling |
JP4054507B2 (ja) * | 2000-03-31 | 2008-02-27 | キヤノン株式会社 | 音声情報処理方法および装置および記憶媒体 |
TW521266B (en) * | 2000-07-13 | 2003-02-21 | Verbaltek Inc | Perceptual phonetic feature speech recognition system and method |
US7233899B2 (en) * | 2001-03-12 | 2007-06-19 | Fain Vitaliy S | Speech recognition system using normalized voiced segment spectrogram analysis |
KR20030060593A (ko) * | 2002-01-10 | 2003-07-16 | 주식회사 현대오토넷 | 피치값을 이용한 음성 인식 방법 |
KR100533601B1 (ko) * | 2002-12-05 | 2005-12-06 | 베스티안파트너스(주) | 휴대전화의 화자독립형 음성인식을 위한 성별 구분방법 |
JP4447857B2 (ja) * | 2003-06-20 | 2010-04-07 | 株式会社エヌ・ティ・ティ・ドコモ | 音声検出装置 |
KR100571831B1 (ko) * | 2004-02-10 | 2006-04-17 | 삼성전자주식회사 | 음성 식별 장치 및 방법 |
JP4264841B2 (ja) * | 2006-12-01 | 2009-05-20 | ソニー株式会社 | 音声認識装置および音声認識方法、並びに、プログラム |
JP4882899B2 (ja) | 2007-07-25 | 2012-02-22 | ソニー株式会社 | 音声解析装置、および音声解析方法、並びにコンピュータ・プログラム |
CN101785051B (zh) * | 2007-08-22 | 2012-09-05 | 日本电气株式会社 | 语音识别装置和语音识别方法 |
JP5495858B2 (ja) * | 2010-03-02 | 2014-05-21 | 三菱電機株式会社 | 音楽音響信号のピッチ推定装置及び方法 |
US8725498B1 (en) * | 2012-06-20 | 2014-05-13 | Google Inc. | Mobile speech recognition with explicit tone features |
JP6546070B2 (ja) * | 2015-11-10 | 2019-07-17 | 日本電信電話株式会社 | 音響モデル学習装置、音声認識装置、音響モデル学習方法、音声認識方法、およびプログラム |
JP6943158B2 (ja) * | 2017-11-28 | 2021-09-29 | トヨタ自動車株式会社 | 応答文生成装置、方法及びプログラム並びに音声対話システム |
CN110648686B (zh) * | 2018-06-27 | 2023-06-23 | 达发科技股份有限公司 | 调整语音频率的方法及其声音播放装置 |
CN109036408A (zh) * | 2018-08-23 | 2018-12-18 | 重庆加河科技有限公司 | 一种用于vr展示教学的语音识别控制设备及控制方法 |
CN109448749B (zh) * | 2018-12-19 | 2022-02-15 | 中国科学院自动化研究所 | 基于有监督学习听觉注意的语音提取方法、系统、装置 |
Family Cites Families (7)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
US4667340A (en) * | 1983-04-13 | 1987-05-19 | Texas Instruments Incorporated | Voice messaging system with pitch-congruent baseband coding |
DE69132659T2 (de) * | 1990-05-28 | 2002-05-02 | Matsushita Electric Industrial Co., Ltd. | Vorrichtung zur Sprachsignalverarbeitung für die Bestimmung eines Sprachsignals in einem verrauschten Sprachsignal |
US5657418A (en) * | 1991-09-05 | 1997-08-12 | Motorola, Inc. | Provision of speech coder gain information using multiple coding modes |
FI92535C (fi) * | 1992-02-14 | 1994-11-25 | Nokia Mobile Phones Ltd | Kohinan vaimennusjärjestelmä puhesignaaleille |
JP3450411B2 (ja) * | 1994-03-22 | 2003-09-22 | キヤノン株式会社 | 音声情報処理方法及び装置 |
JPH0876789A (ja) * | 1994-09-02 | 1996-03-22 | Toshiba Corp | 不特定話者単語音声認識システムおよび不特定話者単語音声認識方法 |
JP3591068B2 (ja) * | 1995-06-30 | 2004-11-17 | ソニー株式会社 | 音声信号の雑音低減方法 |
-
1996
- 1996-10-28 JP JP8284827A patent/JP3006677B2/ja not_active Expired - Fee Related
-
1997
- 1997-10-28 US US08/959,464 patent/US5907826A/en not_active Expired - Fee Related
- 1997-10-28 DE DE69720134T patent/DE69720134T2/de not_active Expired - Lifetime
- 1997-10-28 EP EP97118746A patent/EP0838805B1/en not_active Expired - Lifetime
Non-Patent Citations (1)
Title |
---|
Proceedings of IEEE 15th the Annual Northeast Bionegineering Conference,1989,"Evaluation of Acoustic Correlates of Speech under Stress for Robust Speech Recognition",p.31−32,1989 |
Also Published As
Publication number | Publication date |
---|---|
DE69720134D1 (de) | 2003-04-30 |
EP0838805B1 (en) | 2003-03-26 |
JPH10133693A (ja) | 1998-05-22 |
DE69720134T2 (de) | 2003-12-04 |
EP0838805A2 (en) | 1998-04-29 |
EP0838805A3 (en) | 1998-12-23 |
US5907826A (en) | 1999-05-25 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
JP3006677B2 (ja) | 音声認識装置 | |
JP5723923B2 (ja) | 音声特徴量抽出装置、及び音声特徴量抽出プログラム | |
JP5282523B2 (ja) | 基本周波数抽出方法、基本周波数抽出装置、およびプログラム | |
Hasija et al. | Recognition of children Punjabi speech using tonal non-tonal classifier | |
Korkmaz et al. | Classification of Turkish vowels based on formant frequencies | |
KR100897555B1 (ko) | 음성 특징벡터 추출장치 및 방법과 이를 채용하는음성인식시스템 및 방법 | |
JP7159655B2 (ja) | 感情推定システムおよびプログラム | |
JP2006171750A (ja) | 音声認識のための特徴ベクトル抽出方法 | |
Shukla et al. | Spectral slope based analysis and classification of stressed speech | |
JP2010217502A (ja) | 発話意図情報検出装置及びコンピュータプログラム | |
Hidayat et al. | Speech recognition of KV-patterned Indonesian syllable using MFCC, wavelet and HMM | |
Revathy et al. | Performance comparison of speaker and emotion recognition | |
Narendra et al. | Automatic detection of creaky voice using epoch parameters. | |
Sarma et al. | Consonant-vowel unit recognition using dominant aperiodic and transition region detection | |
Zbancioc et al. | Emotion recognition for romanian language using mfsc images with deep-learning neural networks | |
Joseph et al. | Indian accent detection using dynamic time warping | |
Sudhakar et al. | Automatic speech segmentation to improve speech synthesis performance | |
Thirumuru et al. | Application of non-negative frequency-weighted energy operator for vowel region detection | |
JPS5972500A (ja) | 音声認識方式 | |
Shome et al. | Non-negative frequency-weighted energy-based speech quality estimation for different modes and quality of speech | |
Singh et al. | A comparative study on feature extraction techniques for language identification | |
JP2879989B2 (ja) | 音声認識方法 | |
Mengistu et al. | Text independent Amharic language dialect recognition: A hybrid approach of VQ and GMM | |
TWI395200B (zh) | 一種不用樣本能辨認所有語言的辨認方法 | |
JP2006215228A (ja) | 音声信号分析方法およびこの分析方法を実施する装置、この音声信号分析装置を用いた音声認識装置、この分析方法を実行するプログラムおよびその記憶媒体 |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
A01 | Written decision to grant a patent or to grant a registration (utility model) |
Free format text: JAPANESE INTERMEDIATE CODE: A01 Effective date: 19991027 |
|
FPAY | Renewal fee payment (event date is renewal date of database) |
Free format text: PAYMENT UNTIL: 20071126 Year of fee payment: 8 |
|
FPAY | Renewal fee payment (event date is renewal date of database) |
Free format text: PAYMENT UNTIL: 20081126 Year of fee payment: 9 |
|
FPAY | Renewal fee payment (event date is renewal date of database) |
Free format text: PAYMENT UNTIL: 20081126 Year of fee payment: 9 |
|
FPAY | Renewal fee payment (event date is renewal date of database) |
Free format text: PAYMENT UNTIL: 20091126 Year of fee payment: 10 |
|
FPAY | Renewal fee payment (event date is renewal date of database) |
Free format text: PAYMENT UNTIL: 20091126 Year of fee payment: 10 |
|
FPAY | Renewal fee payment (event date is renewal date of database) |
Free format text: PAYMENT UNTIL: 20101126 Year of fee payment: 11 |
|
LAPS | Cancellation because of no payment of annual fees |