JP3321156B2 - 音声の動作特性検出 - Google Patents
音声の動作特性検出Info
- Publication number
- JP3321156B2 JP3321156B2 JP50377289A JP50377289A JP3321156B2 JP 3321156 B2 JP3321156 B2 JP 3321156B2 JP 50377289 A JP50377289 A JP 50377289A JP 50377289 A JP50377289 A JP 50377289A JP 3321156 B2 JP3321156 B2 JP 3321156B2
- Authority
- JP
- Japan
- Prior art keywords
- value
- signal
- input signal
- filter
- speech
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Expired - Lifetime
Links
- 238000001514 detection method Methods 0.000 title abstract description 8
- 230000003595 spectral effect Effects 0.000 claims abstract description 19
- 238000001228 spectrum Methods 0.000 claims description 28
- 230000004044 response Effects 0.000 claims description 17
- 238000001914 filtration Methods 0.000 claims description 5
- 238000000034 method Methods 0.000 claims description 3
- 230000000694 effects Effects 0.000 abstract description 5
- 239000013598 vector Substances 0.000 description 12
- 238000005259 measurement Methods 0.000 description 4
- 206010019133 Hangover Diseases 0.000 description 3
- 230000003044 adaptive effect Effects 0.000 description 3
- 230000003542 behavioural effect Effects 0.000 description 3
- 238000012545 processing Methods 0.000 description 3
- 230000008859 change Effects 0.000 description 2
- 238000012935 Averaging Methods 0.000 description 1
- 101000822695 Clostridium perfringens (strain 13 / Type A) Small, acid-soluble spore protein C1 Proteins 0.000 description 1
- 101000655262 Clostridium perfringens (strain 13 / Type A) Small, acid-soluble spore protein C2 Proteins 0.000 description 1
- 101000655256 Paraclostridium bifermentans Small, acid-soluble spore protein alpha Proteins 0.000 description 1
- 101000655264 Paraclostridium bifermentans Small, acid-soluble spore protein beta Proteins 0.000 description 1
- 230000009471 action Effects 0.000 description 1
- 230000004913 activation Effects 0.000 description 1
- 230000006978 adaptation Effects 0.000 description 1
- 101150042711 adc2 gene Proteins 0.000 description 1
- 238000013459 approach Methods 0.000 description 1
- 230000009286 beneficial effect Effects 0.000 description 1
- 150000001875 compounds Chemical class 0.000 description 1
- 238000012790 confirmation Methods 0.000 description 1
- 238000010586 diagram Methods 0.000 description 1
- 238000011156 evaluation Methods 0.000 description 1
- 230000006870 function Effects 0.000 description 1
- 230000007274 generation of a signal involved in cell-cell signaling Effects 0.000 description 1
- 238000000691 measurement method Methods 0.000 description 1
- 238000010606 normalization Methods 0.000 description 1
- 238000013139 quantization Methods 0.000 description 1
- 238000005070 sampling Methods 0.000 description 1
- 230000005236 sound signal Effects 0.000 description 1
- 230000003068 static effect Effects 0.000 description 1
- 238000012360 testing method Methods 0.000 description 1
Classifications
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L25/00—Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L25/00—Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00
- G10L25/78—Detection of presence or absence of voice signals
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L25/00—Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00
- G10L25/78—Detection of presence or absence of voice signals
- G10L25/84—Detection of presence or absence of voice signals for discriminating voice from noise
Landscapes
- Engineering & Computer Science (AREA)
- Computational Linguistics (AREA)
- Signal Processing (AREA)
- Health & Medical Sciences (AREA)
- Audiology, Speech & Language Pathology (AREA)
- Human Computer Interaction (AREA)
- Physics & Mathematics (AREA)
- Acoustics & Sound (AREA)
- Multimedia (AREA)
- Telephonic Communication Services (AREA)
- Compression, Expansion, Code Conversion, And Decoders (AREA)
- Measurement Of Mechanical Vibrations Or Ultrasonic Waves (AREA)
- Telephone Function (AREA)
- Noise Elimination (AREA)
- Mobile Radio Communication Systems (AREA)
- Geophysics And Detection Of Objects (AREA)
- Measuring Pulse, Heart Rate, Blood Pressure Or Blood Flow (AREA)
- Measurement Of The Respiration, Hearing Ability, Form, And Blood Characteristics Of Living Organisms (AREA)
- Transmission Systems Not Characterized By The Medium Used For Transmission (AREA)
- Signal Processing Not Specific To The Method Of Recording And Reproducing (AREA)
- Indexing, Searching, Synchronizing, And The Amount Of Synchronization Travel Of Record Carriers (AREA)
Description
r)は、会話の期間、又はノイズのみを含む期間を検出
する目的を有する信号が供給される装置である。この発
明はこれらの応用に限るものではなく、そのような検出
器に関するこの発明の特定な実施例には、移動ラジオ電
話システムがあり、このシステムにおいて会話は会話コ
ーダ(coder)によって利用され、電波スペクトルの有
効な利用法を改善し、又、それらのシステムではノイズ
レベル(車に搭載されたユニットからの)は一般に大き
い。
間の間で異なる分量を探すことである。会話コーダを含
む装置において、一つコーダから、又は他のステージか
ら、多くのパラメータを容易に用いることができ、従っ
てそのようなパラメータを利用することによって、必要
な処理を経済的に簡素にすることが望まれる。多くの状
況において、主要なノイズはある周波数スペクトルの限
られた領域内に発生する。例えば移動する車のノイズ
(例えばエンジンノイズ)は、低い周波数帯域スペクト
ルである。ノイズスペクトルのそのような位置に関する
認識が利用できる場合は、比較的少ないノイズを含むス
ペクトル部分から得られた測定量について、会話が存在
するかどうかの判断の基準を置くのが望ましい。勿論、
会話の動作特性を検出して分析する前に、信号を濾波す
ることが実際に可能であるが、音声の動作特性検出器が
会話コーダの出力に依存している場合、この前段濾波は
コード化される音声信号を妨害する。
信号のノイズ信号成分を適合して周期的に概算する手段
と、入力信号とノイズ信号成分の間のスペクトル的類似
性の測定値Mを周期的に形成する手段と、測定値Mから
得られたパラメータをスレショルド値(threshold val
ue)Tと比較する手段と、前記値が超過されたかどうか
に依存して、会話が存在するかどうかを示す出力を発生
する手段を具備する音声の動作特性検出器が提供され
る。
望ましい。
より説明される。
特徴付ける一般原則が次に示される。
ルス応答(1,h0,h2,h3)の概念上の4次有限パルス応答
(FIR)デジタルフィルタを通過するとき、濾波された
信号となり(以前のフレームからのサンプルを無視す
る)、 0次の自己相関係数は、各項の2乗の合計値であり、そ
れは正規化され、即ち項の全数によって分割され(一定
フレーム長に関し、その分割を省略するのが容易であ
る)、従って濾波された信号の合計値は、 従ってこれは、論理的に濾波された信号s′の電力
量、即ち概念的フィルタの通過帯域内の信号sの部分の
電力量である。
定する括弧でくくった定数によって重み付けされた自己
相関係数Riの結合によって得られる。実際、括弧でくく
った項は論理フィルタのパルス応答の自己相関係数であ
り、従って上記表現は次のように簡単に現すことができ
る。
答の(正規化されていない)自己相関係数。
要求されるフィルタが有するパルス応答を用い、(濾波
されていない)信号の自己相関係数の合計を生成するこ
とによってシミュレート(simulate)することができ
る。
ゴリズムは、この数の100回の乗算動作を一般に必要と
するデジタルフィルタのシミュレーションを行うことが
できる。
トルに対して整合している(matched)状態で(論理フ
ィルタの逆相応答)、スペクトル比較の形式として見る
ことができる。この応用における論理フィルタはノイズ
スペクトルの逆を概算するように選択されるので、この
動作は、スペクトル間の非類似性をを示す値のような、
会話及びノイズのスペクトルと、生成される0次自己相
関係数(即ち逆濾波された信号のエネルギ)とのスペク
トル的比較として見ることができる。板倉・斎藤による
歪み値が、予測フィルタ(predistor filter)と入力
スペクトルの整合を評価するLPC内に用いられ、一つの
形式は次のように示される。
係数である。これは前記得られた関係に非常に類似して
いることが判り、LPC係数が入力信号の逆スペクト応答
を有するFIRのタップ(taps)であり、それによってLPC
係数セットは逆LPCフィルタのパルス応答であることを
考えれば、実際、板倉・斎藤による歪み値は単に式1の
一形式であり、そこでフィルタ応答Hは入力信号の全ポ
ールモデル(all−pole model)であることは明らかで
ある。
自己相関係数を用いて、転換し、スペクトル的類似性の
異なる値を得ることができる。
話の符号化”(“Speech Coding based upon Vecto
r Quantisation"by A Buzo,A H Gray,R M Gr
ay and J D Markel,IEE Trans on ASSP,Vol
ASSP−28,No5,October 1980)に更に詳細に説明されて
いる。
ここでNはフィルタ次数)は無視されるので、前述の結
果は単に概算である。しかし、それは会話がある可動か
を非常に良く示し、従って会話報告の値Mとして用いら
れる。ノイズスペクトルが既知であり、それが静的ノイ
ズの場合、固定のh0、h1などの係数を逆ノイズフィルタ
に適用することは十分可能である。
置は更に有益である。
ホン(図示されず)からの信号sは入力1に受信され、
アナログ・デジタルコンバータ2によって、適切なサン
プリングレート(sampling rate)でデジタルサンプル
に変換される。LPC分析ユニット3(一般的なLPCコーダ
[coder])は、n個(例えば160個)のサンプルの連続
するフレームについて、入力の会話を示すために送信さ
れるN個(例えば8又は12個)のLPCフィルタ係数Liの
一組を得る。会話信号sは又、相関ユニット(correlat
or unit)4(通常これはLPCコーダ3の一部分であ
る。なぜならば、ここで分離相関器[separate crrela
tor]を供給することが評価できるが、会話の自己相関
ベクトルRiは通常LPC分析の1ステップとして生成され
るからである)に入力される。相関器4は自己相関ベク
トルRiを発生し、ベクトルRiは0次相関係数R0、及び少
なくとも更に2つの自己相関係数R1、R2、R3を含む。こ
れらはマルチプライアユニット(multiplier unit)5
に供給される。
クロホンに接続され、背景ノイズのみが受信される。こ
のマイクロホンからの入力は、ADコンバータ12によって
デジタル入力サンプル列に変換され、LPCアナライザ13
によってLPC分析される。アナライザ13から発生した
“ノイズ"LPC係数は相関ユニット14を通過し、それによ
って発生した自己相関ベクトルは、マルチプライア5の
会話マイクロホンからの入力信号の自己相関係数Riによ
って項ごとに乗算され、それによって生成された重み係
数は等式1に従って加算器6によって加算され、それに
よってノイズのみのマイクロホンからのノイズスペクト
ルの逆相形状を有するフィルタを提供し(実際は信号・
パルス・ノイズ・マイクロホンにおけるノイズスペクト
ルと同一形状である)、従って殆どのノイズを濾波す
る。その結果的測定値Mはスレショルダ(thresholde
r)7によってスレショルド値(threshold)と比較さ
れ、会話が存在するかどうかを示すロジック出力8を発
生する。ここでMが大きい場合、会話が存在すると考え
られる。
ライザを使用するが、費用と複雑性が増大するが、必要
であればこれらを増やすことができる。
自己相関、及びメインマイクロホン1からのLPC係数を
使用して形成される対応する値を使用する。その場合、
LPCアナライザではなく、更に他の自己相関器が必要と
なる。
する異なる状況、又は与えられた一つの状況において、
変化するノイズスペクトルの存在する所で動作すること
が可能である。
はその一組の自己相関ベクトル)を格納するバッファ15
が提供され、これらの値は、“ノンスピーチ(non−spe
ech)(即ちノイズのみ)”として定義される期間に、
マイクロホン入力1から得られる。これらの値は等式1
による値を得るために使用され、勿論この測定は、板倉
・斎藤による歪み測定法に対応するが、LPC係数の現在
のフレームではなく、逆相ノイズスペクトルの概算値に
一致する、LPC係数の格納された単一フレームが使用さ
れるところが異なる。
も又、相関器14に導かれ、それによってLPC係数ベクト
ルの自己相関ベクトルを発生する。バッファメモリ15は
スレショルダ7のスピーチ/ノンスピーチ出力によって
制御され、“スピーチ”フレームの間、バッファは“ノ
イズ”自己相関係数を保持するが、“ノイズ”フレーム
の間は、LPC係数の新たな一組が、例えば複合スイッチ1
6によってバッファを更新するのに使用することがで
き、このスイッチ16を介して、各自己相関係数を伝送す
る相関器14の出力がバッファ15に接続される。相関器14
がバッファ15の後に配置されてもよい。更に、係数更新
のためのスピーチ/ノンスピーチの決定は出力8からで
ある必要はなく、(好適に)他の方法で得ることができ
る。
格納されたLPC係数は時折更新され、それによって装置
はノイズスペクトル内の変化に追随することができる。
ノイズスペクトルが時間的に比較的安定している場合
(多くの場合そうであるが)、そのようなバッファの更
新は、極く希に、又は検出器の初期の動作のみに必要と
されると考えられが、移動する(車の)ラジオのような
状況のときには、しばしば更新するのが望ましい。
ィルタに一致する係数項を有する等式1をシステムは適
用し、次に“ノイズ期間"LPC係数を使用して切り替わる
ことによってシステムは適合を開始する。幾つかの理由
によって会話検出が失敗した場合、システムは簡単なハ
イパスフィルタを再び用いることができる。
き、スレショルドと比較される表現は、 この値はフレームの総合信号電力とは独立しており、従
って総合信号レベル変化に関しては補償されるが、“ノ
イズ”と“会話”レベルの間の著しい対比を与えず、従
ってノイズの大きな環境では好適に使用されることはな
い。
するとき、(前述の様々な実施例におけるノイズマイク
ロホン又はノイズのみの期間から得られる)ノイズ信号
の逆フィルタ係数を得るためにLPC分析を用いる代わり
に、一般的な適合性フィルタ(adaptive filter)を用
いて逆相ノイズスペクトルの原型を生成することがで
き、そのようなフィルタに共通する比較的低速な適合率
を得ることができる。第1図に一致する実施例におい
て、LPC分析ユニット13は容易に適合性フィルタ(例え
ばトランスバーサル(transversal)FIR又はラティスフ
ィルタ(lattice filter))と交換することができ、
そのフィルタは、逆フィルタの原型を生成することによ
って、ノイズ入力をホワイトノイズに転換するためにシ
ステムに接続され、その係数は前述のように自己相関器
14に供給される。
3は、そのような適合性フィルタと置換され、バッファ
手段15は省略される。しかし、スイッチ16は、適合性フ
ィルタが会話期間の間、その係数を適合するのを防止す
るために動作する。
特性検出器がこれより説明される。
タの単にパルス応答であり、FIRフィルタは入力信号の
逆位相スペクトル形状であることは明らかである。隣接
するフレームの間に板倉・斎藤による歪み値が形成され
るとき、以前のフレームのLPCフィルタによって濾波さ
れているので、実際にその値は信号の電力に等しい。従
って隣接するフレームのスペクトルに違いが殆どない場
合、フレームの対応する僅かなスペクトル電力は濾波を
免れ、その値は小さいであろう。同時に、フレーム間の
大きなスペクトルの相違は大きな板倉・斎藤歪み値を発
生し、それによってその値は隣接するフレームのスペク
トルの類似性を反映する。スピーチコーダに関して、デ
ータレートを最小とすることによって、フレーム長をで
きるだけ長くするのが望ましい。即ち、フレーム長が十
分長ければ、会話信号はフレームからフレームへの重要
なスペクトル変化を示す(もしそうでなければコード化
は冗長である)。一方、ノイズはフレームからフレーム
へ徐々に変化するスペクトル形状を有し、会話が信号に
存在しない期間において、以前のフレームから逆相LPC
フィルタを適用し、殆どのノイズ電力を“フィルタアウ
ト(filter out)”するので、板倉・斎藤による歪み
値はそれに対応して少ない。
レーム間の板倉・斎藤歪み値は、一般にノイズの期間よ
り会話の期間の方が大きく、変化の程度(標準偏倚によ
って示されるように)も大きく、断続的な変化は少な
い。
頼できる値であり、各標準偏差をとる効果は本質的に値
を円滑にすることである。
話が存在するかどうかを判断するのに用いる測定された
パラメータは、板倉・斎藤歪み値の標準偏差であること
が望ましいが、変化を測定する他の方法、及び(例えば
FFT分析に基づく)スペクトル歪みを測定する他の方法
を適用することができる。
threshold)を用いることにも利点がある。そのよう
なスレショルドは、会話期間の間は調整されるべきでは
なく、調整されると会話信号はスレショルドアウト(th
reshold out)される。従ってスピーチ/ノンスピーチ
制御信号を用いてスレショルド・アダプタを制御する必
要があり、この制御信号はスレショルド・アダプタの出
力から独立しているのが望ましい。スレショルドTは、
ノイズのみが存在するとき、値Mのレベル以上のレベル
に保たれるように調整される。その値はノイズが存在す
るとき一般にランダムに変化するので、多くのブロック
についての平均レベルを決定し、スレショルドをこの平
均レベルに比例するレベルに設定することによって、ス
レショルドが変化する。しかし、これはノイズの多い状
況では一般に十分ではなく、幾つかのブロックについて
のパラメータの変化程度に関する査定が考慮される。
の平均値であり、dはそれらフレームについての測定値
の標準偏差であり、Kは定数である(代表的には2であ
る)。
び適合動作を開始すべきではなく、(適合及び非適合状
態の間に繰り返される急速なスイッチングを避けるため
に)降下が安定したことを確認するまで待つべきであ
る。
であり、入力1はアナログ・デジタルコンバータ(AD
C)2によってサンプルされ、デジタル化された信号を
受信し、逆相フィルタアナライザ3の入力に信号を供給
し、逆相フィルタアナライザ3は実際に音声の動作特性
検出器が動作するスピーチコーダの一部であり、又、入
力信号スペクトルの逆相に一致するフィルタの係数L
i(代表的に8)を発生する。デジタル信号は又、(ア
ナライザ3の一部である)自己相関器4に供給され、自
己相関器4は入力信号(又は少なくともそれらがLPC係
数と同じくらい多くの低次項)の自己相関ベクトルRiを
発生する。装置のこれらの部分の動作は第1図及び第2
図に示される。自己相関係数Riは好適に、連続する幾つ
かのスピーチフレーム(代表的に5〜20ms)について平
均値がとられ、それらの信頼度が改善される。この平均
化は、バッファ4a内の自己相関器4によって出力される
自己相関係数の各組を格納し、平均器(averager)4bを
用いて、現在の自己相関係数Ri、及びバッファ4aに格納
されバッファ4aから供給される以前のフレームからの係
数の重み付けされた加算値を生成することによって達成
される。それによって得られた平均化された自己相関係
数Raiは重み付け及び加算手段5、6に供給され、この
手段は又、バッファ15を介して自己相関器14から格納さ
れたノイズ期間の逆相フィルタ係数Liの自己相関ベクト
ルAiを受信し、Rai及びAiから次式により定義される値
Mを形成する。
較され、会話が存在するかしないかを示す論理結果が出
力8に発生する。
な概算に一致するために、これらの係数をノイズの期間
に更新するのが望ましい(勿論、会話の期間には更新し
ない)。しかし、その更新に基づくスピーチ/ノンスピ
ーチの決定はその更新の結果に影響されず、又は誤って
確認された信号の単一フレームによって、音声の動作特
性検出器は結果的に“ロックはずれ(out of loc
k)”となり、次のフレームを誤って認識する。従って
制御信号発生回路20、即ち分離音声の動作特性検出器が
提供され、この検出器は会話が存在するかどうかを示す
独立制御信号を形成し、逆相フィルタアナライザ3(又
はバッファ8)を制御し、それによって値Mを形成する
のに用いられる逆相フィルタ自己相関係数Aiは“ノイ
ズ”期間にのみ更新される。制御信号発生回路20はLPC
アナライザ21を含み(これは再び会話コーダの一部であ
り、特にアナライザ3によって実行される)、このアナ
ライザは、入力信号及び自己相関器21a(自己相関器3a
によって実行することができる)に一致する一組のLPC
係数Miを発生し、自己相関器21aはMiの自己相関係数Bi
を得る。アナライザ21がアナライザ3によって実行され
た場合は、Mi=Li、及びBi=Aiである。これら自己相関
係数は、重み付け及び加算手段22、23(5、6に同等)
に供給され、この手段も自己相関器4からの入力信号の
自己相関ベクトルRiを受信する。従って、入力スピーチ
フレームと以前のスピーチフレームの間のスペクトル的
類似性が計算される。これは前述したように、現在のフ
レームのRiと以前のフレームのBiの間の板倉・斎藤歪み
値、又は現在のフレームのRiとBiに関する板倉・斎藤歪
み値を計算することによって得られ、又は対応する値を
バッファ24に格納された以前のフレームに関して減算す
ることによって得られ、スペクトル的に異なる信号を発
生する(それぞれの場合、その値はRoで分割することに
よってエネルギ・正規化されるのが望ましい)。勿論こ
こでバッファ24は更新される。このスペクトル的に異な
る信号は、スレショルダ26によってスレショルドと比較
されたとき、前述のように、会話が存在するかどうかを
示す。音声とはならない会話からのノイズを区別するた
めにこの方法は優れているが(従来のシステムにおいて
可能なタスク(task))、音声となった会話からノイズ
を区別する能力は一般に少ないことが発見された。従っ
て、回路20には、ピッチアナライザ(pitch analyse
r)27(実際にスピーチコーダの一部として動作するこ
とができ、特にマルチパルスLPCコーダ内に生成される
算定器(predictor)の長い遅延値測定することができ
る)を具備する音声の会話検出回路が提供されるのが望
ましい。ピッチアナライザ27は、音声となった会話が検
出されたとき“真理(true)”であるロジック信号を発
生し、この信号は、スレショルダ26(音声とはならない
会話が存在するとき、一般に“真理”である)から得ら
れるスレショルド値と結合され、NORゲート28の入力に
供給され、会話が存在するとき“誤り(false)”であ
り、ノイズが存在するとき“真理”である信号を発生す
る。この信号はバッファ8(又は逆相フィルタアナライ
ザ3)に供給され、それによって逆相フィルタ係数Li
は、ノイズ期間のみに更新される。
回路20のノンスピーチ信号制御出力を受信する。スレシ
ョルドアダプタ29の出力はスレショルダ7に供給され
る。スレショルドアダプタ29の出力はスレショルダ7に
供給される。スレショルドアダプタは、スレショルドが
ノイズ電力レベルに近付くまで(これは、例えば回路2
2、23の加算及び重み付けすることによって容易に得ら
れる)、瞬時スレショルドレベルに比例するステップ
に、スレショルドをインクリメント(increment)又は
デクリメント(decrement)するように動作する。入力
信号が非常に小さいとき、スレショルドは自動的にロー
レベルに設定されるのが望ましい。なぜならば、小さい
信号レベルのとき、ADC2によって生成される信号量は信
頼できる結果を生成できないからである。
され、これはスレショルダ7の後の会話を示す期間を測
定し、所定時定数を越える期間の間、会話の存在が示さ
れたとき、その出力は短い“ハングオーバ”の間、ハイ
に維持される。このようにして、ローレベルな会話バー
ストの中間の欠損(clipping)が避けられ、適切な時定
数の選択によって、会話のときに誤って示された短いス
パイクノイズによりハングオーバ発生器30の起動を防ぐ
ことができる。勿論、前述した全ての機能は、適切にプ
ログラムされた単一のデジタル処理手段、例えば、LPC
コーデックの一部として構成され(これは所望される構
成である)、又は関連するメモリ装置を有する適切にプ
ログラムされたマイクロコンピュータやマイクロコント
ローラチップとして構成されるデジタル信号処理チップ
(DSP)などのような手段によって実行することができ
る。
部として容易に構成されることができる。一方、信号の
自己相関係数、又はそれに関連する値(部分相関又は
“パルコール(parcor)”係数)が離れたステーション
に送信される場合、音声検出はコーデックから離れて行
われる。
Claims (14)
- 【請求項1】(i)第1の入力信号を受信する手段と、 (ii)前記第1の信号の概算されたノイズ信号成分を表
現する第2の信号を周期的に適応して生成する手段と、 (iii)前記第1および第2の信号から入力信号の一部
と前記概算されたノイズ信号成分との間のスペクトル的
類似性の値を周期的に形成する手段と、 (iv)会話が存在するか存在しないかを示す出力を作成
するために、前記値をスレショルド値と比較する手段と
を具備する音声の動作特性を検出する装置であって、 (v)前記装置は、入力信号と概算されたノイズ信号成
分のうちの一方について周波数スペクトルの逆であるス
ペクトル応答を有するフィルタ係数を作成するために動
作する分析手段を具備し、 (vi)前記値を形成する手段は、入力信号と概算された
ノイズ信号成分のうちの他方について前記係数を有する
フィルタによりフィルタされた後に0次自己相関に比例
する値を作成するために動作する ことを特徴とする装置。 - 【請求項2】前記生成する手段は前記係数のパルス応答
の自己相関係数Aiを計算するために動作し、そして前記
値形成手段は前記入力信号と前記概算されたノイズ信号
成分のうちの前記他方の自己相関係数Riを計算する手段
と、RiおよびAiを受信するために接続されそれらから値
Mを計算する手段を含むことを特徴とする請求項1記載
の装置。 - 【請求項3】前記入力信号と前記概算されたノイズ信号
成分のうちの前記他方の前記自己相関係数を計算する前
記手段は、前記信号の幾つかの連続する部分の自己相関
係数に基づいて計算するように構成されることを特徴と
する請求項2記載の装置。 - 【請求項4】前記装置において、 M=R0A0+2ΣRiAi・ であり、ここでAiは前記フィルタのパルス応答のi番目
の自己相関係数を示すことを特徴とする請求項2または
請求項3記載の装置。 - 【請求項5】前記装置において、 であり、ここでAiは前記フィルタのパルス応答のi番目
の自己相関係数を示すことを特徴とする請求項2または
請求項3記載の装置。 - 【請求項6】前記入力信号と概算されたノイズ信号成分
のうちの一方が概算されたノイズ信号成分であることを
特徴とする請求項1乃至請求項6のいずれか1項記載の
装置。 - 【請求項7】更に前記フィルタ応答の自己相関係数Aiが
得られるデータを格納するために接続されるバッファを
具備し、前記フィルタ応答はLPC分析手段によって前記
信号から周期的に計算され、この装置は値Mが前記格納
されたデータを用いて計算されるように接続されそして
制御され、そして前記格納されたデータは会話が存在し
ないことが示される期間においてのみ更新されることを
特徴とする請求項1乃至請求項6のいずれか1項記載の
装置。 - 【請求項8】前記格納されたデータの更新を制御するた
めに会話の存在しないことを示す手段を具備し、前記会
話の存在しないことを示す手段は第2の音声の動作特性
検出手段であることを特徴とする請求項7記載の装置。 - 【請求項9】会話の存在しないことが示される期間にお
いて前記スレショルドを調節する手段を更に具備するこ
とを特徴とする請求項1乃至請求項8のいずれか1項記
載の装置。 - 【請求項10】会話が存在する場合前記スレショルド値
の調節を禁止するように構成される第2の音声の動作特
性検出手段を更に具備することを特徴とする請求項9記
載の検出装置。 - 【請求項11】前記第2の音声動作特性検出手段は入力
信号の一部と入力信号のより早期の部分との間のスペク
トル的類似性の値を生成する手段を含むことを特徴とす
る請求項8又は10記載の装置。 - 【請求項12】請求項1乃至請求項11のいずれか1項記
載の装置を有することを特徴とする会話信号を符号化す
る装置。 - 【請求項13】請求項1乃至請求項11のいずれか1項記
載の装置を有することを特徴とする自動車電話装置。 - 【請求項14】第1の入力された信号に関し、音声の動
作特性を検出する方法であって、 (a)第1の信号の概算されたノイズ信号成分を表現す
る第2の信号を周期的に適応して生成し、 (b)前記第1および第2の信号から入力信号の一部と
前記概算されたノイズ信号成分との間のスペクトル的類
似性の値を周期的に形成し、そして (c)会話が存在するか存在しないかを示す出力を作成
するために前記値をスレショルド値と比較するステップ
を含み、 (d)さらに、入力信号と概算されたノイズ信号成分の
うちの一方について周波数スペクトルの逆であるスペク
トル応答を有するフィルタ係数を作成するステップを含
み、 (e)前記値は前記係数を有するフィルタによりフィル
タされた後の入力信号と概算されたノイズ信号成分のう
ちの他方の0次自己相関に比例する ことを特徴とする方法。
Applications Claiming Priority (6)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
GB888805795A GB8805795D0 (en) | 1988-03-11 | 1988-03-11 | Voice activity detector |
GB888813346A GB8813346D0 (en) | 1988-06-06 | 1988-06-06 | Voice activity detection |
GB8805795 | 1988-08-24 | ||
GB8820105.8 | 1988-08-24 | ||
GB888820105A GB8820105D0 (en) | 1988-08-24 | 1988-08-24 | Voice activity detection |
GB8813346.7 | 1988-08-24 |
Related Child Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
JP32819899A Division JP3423906B2 (ja) | 1988-03-11 | 1999-11-18 | 音声の動作特性検出装置および検出方法 |
Publications (2)
Publication Number | Publication Date |
---|---|
JPH03504283A JPH03504283A (ja) | 1991-09-19 |
JP3321156B2 true JP3321156B2 (ja) | 2002-09-03 |
Family
ID=27263821
Family Applications (2)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
JP50377289A Expired - Lifetime JP3321156B2 (ja) | 1988-03-11 | 1989-03-10 | 音声の動作特性検出 |
JP32819899A Expired - Lifetime JP3423906B2 (ja) | 1988-03-11 | 1999-11-18 | 音声の動作特性検出装置および検出方法 |
Family Applications After (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
JP32819899A Expired - Lifetime JP3423906B2 (ja) | 1988-03-11 | 1999-11-18 | 音声の動作特性検出装置および検出方法 |
Country Status (16)
Country | Link |
---|---|
EP (2) | EP0548054B1 (ja) |
JP (2) | JP3321156B2 (ja) |
KR (1) | KR0161258B1 (ja) |
AU (1) | AU608432B2 (ja) |
BR (1) | BR8907308A (ja) |
CA (1) | CA1335003C (ja) |
DE (2) | DE68929442T2 (ja) |
DK (1) | DK175478B1 (ja) |
ES (2) | ES2047664T3 (ja) |
FI (2) | FI110726B (ja) |
HK (1) | HK135896A (ja) |
IE (1) | IE61863B1 (ja) |
NO (2) | NO304858B1 (ja) |
NZ (1) | NZ228290A (ja) |
PT (1) | PT89978B (ja) |
WO (1) | WO1989008910A1 (ja) |
Families Citing this family (34)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
EP0435458B1 (en) * | 1989-11-28 | 1995-02-01 | Nec Corporation | Speech/voiceband data discriminator |
CA2040025A1 (en) * | 1990-04-09 | 1991-10-10 | Hideki Satoh | Speech detection apparatus with influence of input level and noise reduced |
US5241692A (en) * | 1991-02-19 | 1993-08-31 | Motorola, Inc. | Interference reduction system for a speech recognition device |
FR2697101B1 (fr) * | 1992-10-21 | 1994-11-25 | Sextant Avionique | Procédé de détection de la parole. |
SE470577B (sv) * | 1993-01-29 | 1994-09-19 | Ericsson Telefon Ab L M | Förfarande och anordning för kodning och/eller avkodning av bakgrundsljud |
JPH06332492A (ja) * | 1993-05-19 | 1994-12-02 | Matsushita Electric Ind Co Ltd | 音声検出方法および検出装置 |
SE501305C2 (sv) * | 1993-05-26 | 1995-01-09 | Ericsson Telefon Ab L M | Förfarande och anordning för diskriminering mellan stationära och icke stationära signaler |
EP0633658A3 (en) * | 1993-07-06 | 1996-01-17 | Hughes Aircraft Co | Automatic gain control circuit coupled to the transmission and activated by speech. |
IN184794B (ja) * | 1993-09-14 | 2000-09-30 | British Telecomm | |
SE501981C2 (sv) * | 1993-11-02 | 1995-07-03 | Ericsson Telefon Ab L M | Förfarande och anordning för diskriminering mellan stationära och icke stationära signaler |
US5742734A (en) * | 1994-08-10 | 1998-04-21 | Qualcomm Incorporated | Encoding rate selection in a variable rate vocoder |
FR2727236B1 (fr) * | 1994-11-22 | 1996-12-27 | Alcatel Mobile Comm France | Detection d'activite vocale |
WO1996034382A1 (en) * | 1995-04-28 | 1996-10-31 | Northern Telecom Limited | Methods and apparatus for distinguishing speech intervals from noise intervals in audio signals |
GB2306010A (en) * | 1995-10-04 | 1997-04-23 | Univ Wales Medicine | A method of classifying signals |
FR2739995B1 (fr) * | 1995-10-13 | 1997-12-12 | Massaloux Dominique | Procede et dispositif de creation d'un bruit de confort dans un systeme de transmission numerique de parole |
US5794199A (en) * | 1996-01-29 | 1998-08-11 | Texas Instruments Incorporated | Method and system for improved discontinuous speech transmission |
KR20000022285A (ko) | 1996-07-03 | 2000-04-25 | 내쉬 로저 윌리엄 | 음성 액티비티 검출기 및 검출 방법 |
US6618701B2 (en) | 1999-04-19 | 2003-09-09 | Motorola, Inc. | Method and system for noise suppression using external voice activity detection |
DE10052626A1 (de) * | 2000-10-24 | 2002-05-02 | Alcatel Sa | Adaptiver Geräuschpegelschätzer |
CN1617606A (zh) * | 2003-11-12 | 2005-05-18 | 皇家飞利浦电子股份有限公司 | 一种在语音信道传输非语音数据的方法及装置 |
US7139701B2 (en) * | 2004-06-30 | 2006-11-21 | Motorola, Inc. | Method for detecting and attenuating inhalation noise in a communication system |
US7155388B2 (en) * | 2004-06-30 | 2006-12-26 | Motorola, Inc. | Method and apparatus for characterizing inhalation noise and calculating parameters based on the characterization |
FI20045315A (fi) * | 2004-08-30 | 2006-03-01 | Nokia Corp | Ääniaktiivisuuden havaitseminen äänisignaalissa |
US8708702B2 (en) * | 2004-09-16 | 2014-04-29 | Lena Foundation | Systems and methods for learning using contextual feedback |
US8775168B2 (en) * | 2006-08-10 | 2014-07-08 | Stmicroelectronics Asia Pacific Pte, Ltd. | Yule walker based low-complexity voice activity detector in noise suppression systems |
US8954324B2 (en) * | 2007-09-28 | 2015-02-10 | Qualcomm Incorporated | Multiple microphone voice activity detector |
US8175871B2 (en) | 2007-09-28 | 2012-05-08 | Qualcomm Incorporated | Apparatus and method of noise and echo reduction in multiple microphone audio systems |
US8223988B2 (en) | 2008-01-29 | 2012-07-17 | Qualcomm Incorporated | Enhanced blind source separation algorithm for highly correlated mixtures |
WO2009130388A1 (en) | 2008-04-25 | 2009-10-29 | Nokia Corporation | Calibrating multiple microphones |
US8275136B2 (en) | 2008-04-25 | 2012-09-25 | Nokia Corporation | Electronic device speech enhancement |
US8244528B2 (en) | 2008-04-25 | 2012-08-14 | Nokia Corporation | Method and apparatus for voice activity determination |
ES2371619B1 (es) * | 2009-10-08 | 2012-08-08 | Telefónica, S.A. | Procedimiento de detección de segmentos de voz. |
EP2491549A4 (en) | 2009-10-19 | 2013-10-30 | Ericsson Telefon Ab L M | DETECTOR AND METHOD FOR DETECTING VOICE ACTIVITY |
CN108985277B (zh) * | 2018-08-24 | 2020-11-10 | 广东石油化工学院 | 一种功率信号中背景噪声滤除方法及系统 |
Family Cites Families (7)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
US3509281A (en) * | 1966-09-29 | 1970-04-28 | Ibm | Voicing detection system |
US4052568A (en) * | 1976-04-23 | 1977-10-04 | Communications Satellite Corporation | Digital voice switch |
US4358738A (en) * | 1976-06-07 | 1982-11-09 | Kahn Leonard R | Signal presence determination method for use in a contaminated medium |
JPS5636246A (en) * | 1979-08-31 | 1981-04-09 | Nec Corp | Stereo signal demodulating circuit |
JPS59115625A (ja) * | 1982-12-22 | 1984-07-04 | Nec Corp | 音声検出器 |
DE3370423D1 (en) * | 1983-06-07 | 1987-04-23 | Ibm | Process for activity detection in a voice transmission system |
JPS6196817A (ja) * | 1984-10-17 | 1986-05-15 | Sharp Corp | フイルタ− |
-
1989
- 1989-03-10 PT PT89978A patent/PT89978B/pt not_active IP Right Cessation
- 1989-03-10 KR KR1019890702099A patent/KR0161258B1/ko not_active IP Right Cessation
- 1989-03-10 AU AU33554/89A patent/AU608432B2/en not_active Expired
- 1989-03-10 DE DE68929442T patent/DE68929442T2/de not_active Expired - Lifetime
- 1989-03-10 WO PCT/GB1989/000247 patent/WO1989008910A1/en active IP Right Grant
- 1989-03-10 BR BR898907308A patent/BR8907308A/pt not_active IP Right Cessation
- 1989-03-10 EP EP93200015A patent/EP0548054B1/en not_active Expired - Lifetime
- 1989-03-10 ES ES89302422T patent/ES2047664T3/es not_active Expired - Lifetime
- 1989-03-10 CA CA000593386A patent/CA1335003C/en not_active Expired - Lifetime
- 1989-03-10 IE IE77489A patent/IE61863B1/en not_active IP Right Cessation
- 1989-03-10 ES ES93200015T patent/ES2188588T3/es not_active Expired - Lifetime
- 1989-03-10 DE DE68910859T patent/DE68910859T2/de not_active Expired - Lifetime
- 1989-03-10 JP JP50377289A patent/JP3321156B2/ja not_active Expired - Lifetime
- 1989-03-10 EP EP89302422A patent/EP0335521B1/en not_active Expired - Lifetime
- 1989-03-10 NZ NZ228290A patent/NZ228290A/en unknown
-
1990
- 1990-09-07 FI FI904410A patent/FI110726B/fi not_active IP Right Cessation
- 1990-09-07 DK DK199002156A patent/DK175478B1/da not_active IP Right Cessation
- 1990-09-10 NO NO903936A patent/NO304858B1/no not_active IP Right Cessation
-
1996
- 1996-07-25 HK HK135896A patent/HK135896A/xx not_active IP Right Cessation
-
1998
- 1998-06-04 NO NO982568A patent/NO316610B1/no not_active IP Right Cessation
-
1999
- 1999-11-18 JP JP32819899A patent/JP3423906B2/ja not_active Expired - Lifetime
-
2001
- 2001-05-04 FI FI20010933A patent/FI115328B/fi not_active IP Right Cessation
Also Published As
Similar Documents
Publication | Publication Date | Title |
---|---|---|
JP3321156B2 (ja) | 音声の動作特性検出 | |
US5276765A (en) | Voice activity detection | |
US4630304A (en) | Automatic background noise estimator for a noise suppression system | |
CA1123955A (en) | Speech analysis and synthesis apparatus | |
US5091948A (en) | Speaker recognition with glottal pulse-shapes | |
US5706395A (en) | Adaptive weiner filtering using a dynamic suppression factor | |
US6263307B1 (en) | Adaptive weiner filtering using line spectral frequencies | |
US5970441A (en) | Detection of periodicity information from an audio signal | |
US6023674A (en) | Non-parametric voice activity detection | |
AU656787B2 (en) | Auditory model for parametrization of speech | |
KR100742443B1 (ko) | 손실 프레임을 처리하기 위한 음성 통신 시스템 및 방법 | |
Cohen et al. | Spectral enhancement methods | |
JPH08505715A (ja) | 定常的信号と非定常的信号との識別 | |
JP2002516420A (ja) | 音声コーダ | |
US5632004A (en) | Method and apparatus for encoding/decoding of background sounds | |
JPH08221097A (ja) | 音声成分の検出法 | |
Vahatalo et al. | Voice activity detection for GSM adaptive multi-rate codec | |
Kawamura et al. | A new noise reduction method using estimated noise spectrum | |
JPH0449952B2 (ja) | ||
US6633847B1 (en) | Voice activated circuit and radio using same | |
Chu | Voice-activated AGC for teleconferencing | |
Park | Signal Enhancement of a Variable Rate Vocoder with a Hybrid domain SNR Estimator | |
Yuan | The weighted sum of the line spectrum pair for noisy speech | |
Cohen et al. | Spectral Enha | |
JPH10304023A (ja) | 電話機 |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
S111 | Request for change of ownership or part of ownership |
Free format text: JAPANESE INTERMEDIATE CODE: R313113 |
|
R350 | Written notification of registration of transfer |
Free format text: JAPANESE INTERMEDIATE CODE: R350 |
|
R250 | Receipt of annual fees |
Free format text: JAPANESE INTERMEDIATE CODE: R250 |
|
R250 | Receipt of annual fees |
Free format text: JAPANESE INTERMEDIATE CODE: R250 |
|
R250 | Receipt of annual fees |
Free format text: JAPANESE INTERMEDIATE CODE: R250 |
|
FPAY | Renewal fee payment (event date is renewal date of database) |
Free format text: PAYMENT UNTIL: 20080621 Year of fee payment: 6 |
|
FPAY | Renewal fee payment (event date is renewal date of database) |
Free format text: PAYMENT UNTIL: 20090621 Year of fee payment: 7 |
|
EXPY | Cancellation because of completion of term | ||
FPAY | Renewal fee payment (event date is renewal date of database) |
Free format text: PAYMENT UNTIL: 20090621 Year of fee payment: 7 |