[go: up one dir, main page]

JP3321156B2 - 音声の動作特性検出 - Google Patents

音声の動作特性検出

Info

Publication number
JP3321156B2
JP3321156B2 JP50377289A JP50377289A JP3321156B2 JP 3321156 B2 JP3321156 B2 JP 3321156B2 JP 50377289 A JP50377289 A JP 50377289A JP 50377289 A JP50377289 A JP 50377289A JP 3321156 B2 JP3321156 B2 JP 3321156B2
Authority
JP
Japan
Prior art keywords
value
signal
input signal
filter
speech
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Expired - Lifetime
Application number
JP50377289A
Other languages
English (en)
Other versions
JPH03504283A (ja
Inventor
フリーマン,ダニエル・ケネス
ボイド,イヴン
Original Assignee
ブリテツシユ・テレコミユニケイシヨンズ・パブリツク・リミテツド・カンパニー
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Priority claimed from GB888805795A external-priority patent/GB8805795D0/en
Priority claimed from GB888813346A external-priority patent/GB8813346D0/en
Priority claimed from GB888820105A external-priority patent/GB8820105D0/en
Application filed by ブリテツシユ・テレコミユニケイシヨンズ・パブリツク・リミテツド・カンパニー filed Critical ブリテツシユ・テレコミユニケイシヨンズ・パブリツク・リミテツド・カンパニー
Publication of JPH03504283A publication Critical patent/JPH03504283A/ja
Application granted granted Critical
Publication of JP3321156B2 publication Critical patent/JP3321156B2/ja
Anticipated expiration legal-status Critical
Expired - Lifetime legal-status Critical Current

Links

Classifications

    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L25/00Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L25/00Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00
    • G10L25/78Detection of presence or absence of voice signals
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L25/00Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00
    • G10L25/78Detection of presence or absence of voice signals
    • G10L25/84Detection of presence or absence of voice signals for discriminating voice from noise

Landscapes

  • Engineering & Computer Science (AREA)
  • Computational Linguistics (AREA)
  • Signal Processing (AREA)
  • Health & Medical Sciences (AREA)
  • Audiology, Speech & Language Pathology (AREA)
  • Human Computer Interaction (AREA)
  • Physics & Mathematics (AREA)
  • Acoustics & Sound (AREA)
  • Multimedia (AREA)
  • Telephonic Communication Services (AREA)
  • Compression, Expansion, Code Conversion, And Decoders (AREA)
  • Measurement Of Mechanical Vibrations Or Ultrasonic Waves (AREA)
  • Telephone Function (AREA)
  • Noise Elimination (AREA)
  • Mobile Radio Communication Systems (AREA)
  • Geophysics And Detection Of Objects (AREA)
  • Measuring Pulse, Heart Rate, Blood Pressure Or Blood Flow (AREA)
  • Measurement Of The Respiration, Hearing Ability, Form, And Blood Characteristics Of Living Organisms (AREA)
  • Transmission Systems Not Characterized By The Medium Used For Transmission (AREA)
  • Signal Processing Not Specific To The Method Of Recording And Reproducing (AREA)
  • Indexing, Searching, Synchronizing, And The Amount Of Synchronization Travel Of Record Carriers (AREA)

Description

【発明の詳細な説明】 音声の動作特性検出器(voice activity detecto
r)は、会話の期間、又はノイズのみを含む期間を検出
する目的を有する信号が供給される装置である。この発
明はこれらの応用に限るものではなく、そのような検出
器に関するこの発明の特定な実施例には、移動ラジオ電
話システムがあり、このシステムにおいて会話は会話コ
ーダ(coder)によって利用され、電波スペクトルの有
効な利用法を改善し、又、それらのシステムではノイズ
レベル(車に搭載されたユニットからの)は一般に大き
い。
音声の動作特性検出の本質は、会話と会話ではない期
間の間で異なる分量を探すことである。会話コーダを含
む装置において、一つコーダから、又は他のステージか
ら、多くのパラメータを容易に用いることができ、従っ
てそのようなパラメータを利用することによって、必要
な処理を経済的に簡素にすることが望まれる。多くの状
況において、主要なノイズはある周波数スペクトルの限
られた領域内に発生する。例えば移動する車のノイズ
(例えばエンジンノイズ)は、低い周波数帯域スペクト
ルである。ノイズスペクトルのそのような位置に関する
認識が利用できる場合は、比較的少ないノイズを含むス
ペクトル部分から得られた測定量について、会話が存在
するかどうかの判断の基準を置くのが望ましい。勿論、
会話の動作特性を検出して分析する前に、信号を濾波す
ることが実際に可能であるが、音声の動作特性検出器が
会話コーダの出力に依存している場合、この前段濾波は
コード化される音声信号を妨害する。
この発明によれば、入力信号を受信する手段と、入力
信号のノイズ信号成分を適合して周期的に概算する手段
と、入力信号とノイズ信号成分の間のスペクトル的類似
性の測定値Mを周期的に形成する手段と、測定値Mから
得られたパラメータをスレショルド値(threshold val
ue)Tと比較する手段と、前記値が超過されたかどうか
に依存して、会話が存在するかどうかを示す出力を発生
する手段を具備する音声の動作特性検出器が提供され
る。
その測定値は、板倉・斎藤による歪み値であることが
望ましい。
この発明の他の局面は特許請求の範囲に含まれる。
この発明の幾つかの実施例が添付図面を参照してこれ
より説明される。
第1図はこの発明の第1実施例を示すブロック図; 第2図はこの発明の第2実施例を示し; 第3図はこの発明の好適な第3実施例を示す。
この発明による音声の動作特性検出器の第1実施例を
特徴付ける一般原則が次に示される。
n個の信号サンプル(s0,s1,s2,s3,s4…sn-1)は、パ
ルス応答(1,h0,h2,h3)の概念上の4次有限パルス応答
(FIR)デジタルフィルタを通過するとき、濾波された
信号となり(以前のフレームからのサンプルを無視す
る)、 0次の自己相関係数は、各項の2乗の合計値であり、そ
れは正規化され、即ち項の全数によって分割され(一定
フレーム長に関し、その分割を省略するのが容易であ
る)、従って濾波された信号の合計値は、 従ってこれは、論理的に濾波された信号s′の電力
量、即ち概念的フィルタの通過帯域内の信号sの部分の
電力量である。
最初の4項を無視して拡張すると、 従って、R′は、値R′が応答する周波数帯域を決
定する括弧でくくった定数によって重み付けされた自己
相関係数Riの結合によって得られる。実際、括弧でくく
った項は論理フィルタのパルス応答の自己相関係数であ
り、従って上記表現は次のように簡単に現すことができ
る。
ここで、Nはフィルタの次数、Hiはフィルタのパルス応
答の(正規化されていない)自己相関係数。
即ち、信号濾波の信号自己相関係数に関する効果は、
要求されるフィルタが有するパルス応答を用い、(濾波
されていない)信号の自己相関係数の合計を生成するこ
とによってシミュレート(simulate)することができ
る。
従って、乗算動作の小さい数を含む比較的簡単なアル
ゴリズムは、この数の100回の乗算動作を一般に必要と
するデジタルフィルタのシミュレーションを行うことが
できる。
一方、この濾波動作は、信号スペクトルが参照スペク
トルに対して整合している(matched)状態で(論理フ
ィルタの逆相応答)、スペクトル比較の形式として見る
ことができる。この応用における論理フィルタはノイズ
スペクトルの逆を概算するように選択されるので、この
動作は、スペクトル間の非類似性をを示す値のような、
会話及びノイズのスペクトルと、生成される0次自己相
関係数(即ち逆濾波された信号のエネルギ)とのスペク
トル的比較として見ることができる。板倉・斎藤による
歪み値が、予測フィルタ(predistor filter)と入力
スペクトルの整合を評価するLPC内に用いられ、一つの
形式は次のように示される。
ここで、A0などはLPCパラメータ・セットの自己相関
係数である。これは前記得られた関係に非常に類似して
いることが判り、LPC係数が入力信号の逆スペクト応答
を有するFIRのタップ(taps)であり、それによってLPC
係数セットは逆LPCフィルタのパルス応答であることを
考えれば、実際、板倉・斎藤による歪み値は単に式1の
一形式であり、そこでフィルタ応答Hは入力信号の全ポ
ールモデル(all−pole model)であることは明らかで
ある。
事実、試験スペクトルのLPC係数と参照スペクトルの
自己相関係数を用いて、転換し、スペクトル的類似性の
異なる値を得ることができる。
I−Sによる歪み値は、“ベクトル量子化に基づく会
話の符号化”(“Speech Coding based upon Vecto
r Quantisation"by A Buzo,A H Gray,R M Gr
ay and J D Markel,IEE Trans on ASSP,Vol
ASSP−28,No5,October 1980)に更に詳細に説明されて
いる。
信号のフレームは単に有限値長を有し、項の数(N、
ここでNはフィルタ次数)は無視されるので、前述の結
果は単に概算である。しかし、それは会話がある可動か
を非常に良く示し、従って会話報告の値Mとして用いら
れる。ノイズスペクトルが既知であり、それが静的ノイ
ズの場合、固定のh0、h1などの係数を逆ノイズフィルタ
に適用することは十分可能である。
しかし、異なるノイズ状況に適合することができる装
置は更に有益である。
第1図にはこの発明の第1実施例が示され、マイクロ
ホン(図示されず)からの信号sは入力1に受信され、
アナログ・デジタルコンバータ2によって、適切なサン
プリングレート(sampling rate)でデジタルサンプル
に変換される。LPC分析ユニット3(一般的なLPCコーダ
[coder])は、n個(例えば160個)のサンプルの連続
するフレームについて、入力の会話を示すために送信さ
れるN個(例えば8又は12個)のLPCフィルタ係数Li
一組を得る。会話信号sは又、相関ユニット(correlat
or unit)4(通常これはLPCコーダ3の一部分であ
る。なぜならば、ここで分離相関器[separate crrela
tor]を供給することが評価できるが、会話の自己相関
ベクトルRiは通常LPC分析の1ステップとして生成され
るからである)に入力される。相関器4は自己相関ベク
トルRiを発生し、ベクトルRiは0次相関係数R0、及び少
なくとも更に2つの自己相関係数R1、R2、R3を含む。こ
れらはマルチプライアユニット(multiplier unit)5
に供給される。
第2入力11はスピーカから離れて配置される第2マイ
クロホンに接続され、背景ノイズのみが受信される。こ
のマイクロホンからの入力は、ADコンバータ12によって
デジタル入力サンプル列に変換され、LPCアナライザ13
によってLPC分析される。アナライザ13から発生した
“ノイズ"LPC係数は相関ユニット14を通過し、それによ
って発生した自己相関ベクトルは、マルチプライア5の
会話マイクロホンからの入力信号の自己相関係数Riによ
って項ごとに乗算され、それによって生成された重み係
数は等式1に従って加算器6によって加算され、それに
よってノイズのみのマイクロホンからのノイズスペクト
ルの逆相形状を有するフィルタを提供し(実際は信号・
パルス・ノイズ・マイクロホンにおけるノイズスペクト
ルと同一形状である)、従って殆どのノイズを濾波す
る。その結果的測定値Mはスレショルダ(thresholde
r)7によってスレショルド値(threshold)と比較さ
れ、会話が存在するかどうかを示すロジック出力8を発
生する。ここでMが大きい場合、会話が存在すると考え
られる。
この実施例では2つのマイクロホンと2つのLPCアナ
ライザを使用するが、費用と複雑性が増大するが、必要
であればこれらを増やすことができる。
一方、他の実施例では、ノイズマイクロホン11からの
自己相関、及びメインマイクロホン1からのLPC係数を
使用して形成される対応する値を使用する。その場合、
LPCアナライザではなく、更に他の自己相関器が必要と
なる。
従ってこれらの実施例は、異なる周波数のノイズを有
する異なる状況、又は与えられた一つの状況において、
変化するノイズスペクトルの存在する所で動作すること
が可能である。
第2図の好適実施例においては、LPC係数の一組(又
はその一組の自己相関ベクトル)を格納するバッファ15
が提供され、これらの値は、“ノンスピーチ(non−spe
ech)(即ちノイズのみ)”として定義される期間に、
マイクロホン入力1から得られる。これらの値は等式1
による値を得るために使用され、勿論この測定は、板倉
・斎藤による歪み測定法に対応するが、LPC係数の現在
のフレームではなく、逆相ノイズスペクトルの概算値に
一致する、LPC係数の格納された単一フレームが使用さ
れるところが異なる。
アナライザ3によって出力されるLPC係数ベクトルLi
も又、相関器14に導かれ、それによってLPC係数ベクト
ルの自己相関ベクトルを発生する。バッファメモリ15は
スレショルダ7のスピーチ/ノンスピーチ出力によって
制御され、“スピーチ”フレームの間、バッファは“ノ
イズ”自己相関係数を保持するが、“ノイズ”フレーム
の間は、LPC係数の新たな一組が、例えば複合スイッチ1
6によってバッファを更新するのに使用することがで
き、このスイッチ16を介して、各自己相関係数を伝送す
る相関器14の出力がバッファ15に接続される。相関器14
がバッファ15の後に配置されてもよい。更に、係数更新
のためのスピーチ/ノンスピーチの決定は出力8からで
ある必要はなく、(好適に)他の方法で得ることができ
る。
会話の無い期間がしばしば発生するので、バッファに
格納されたLPC係数は時折更新され、それによって装置
はノイズスペクトル内の変化に追随することができる。
ノイズスペクトルが時間的に比較的安定している場合
(多くの場合そうであるが)、そのようなバッファの更
新は、極く希に、又は検出器の初期の動作のみに必要と
されると考えられが、移動する(車の)ラジオのような
状況のときには、しばしば更新するのが望ましい。
この実施例の変更例として、簡単な固定ハイパス・フ
ィルタに一致する係数項を有する等式1をシステムは適
用し、次に“ノイズ期間"LPC係数を使用して切り替わる
ことによってシステムは適合を開始する。幾つかの理由
によって会話検出が失敗した場合、システムは簡単なハ
イパスフィルタを再び用いることができる。
上記値をR0で割ることによって正規化することがで
き、スレショルドと比較される表現は、 この値はフレームの総合信号電力とは独立しており、従
って総合信号レベル変化に関しては補償されるが、“ノ
イズ”と“会話”レベルの間の著しい対比を与えず、従
ってノイズの大きな環境では好適に使用されることはな
い。
(後述されるように)ノイズスペクトルが徐々に変化
するとき、(前述の様々な実施例におけるノイズマイク
ロホン又はノイズのみの期間から得られる)ノイズ信号
の逆フィルタ係数を得るためにLPC分析を用いる代わり
に、一般的な適合性フィルタ(adaptive filter)を用
いて逆相ノイズスペクトルの原型を生成することがで
き、そのようなフィルタに共通する比較的低速な適合率
を得ることができる。第1図に一致する実施例におい
て、LPC分析ユニット13は容易に適合性フィルタ(例え
ばトランスバーサル(transversal)FIR又はラティスフ
ィルタ(lattice filter))と交換することができ、
そのフィルタは、逆フィルタの原型を生成することによ
って、ノイズ入力をホワイトノイズに転換するためにシ
ステムに接続され、その係数は前述のように自己相関器
14に供給される。
第2図に示される第2実施例において、LPC分析手段
3は、そのような適合性フィルタと置換され、バッファ
手段15は省略される。しかし、スイッチ16は、適合性フ
ィルタが会話期間の間、その係数を適合するのを防止す
るために動作する。
この発明の他の実施例に使用される第2の音声の動作
特性検出器がこれより説明される。
以下の説明において、LPC係数ベクトルは、FIRフィル
タの単にパルス応答であり、FIRフィルタは入力信号の
逆位相スペクトル形状であることは明らかである。隣接
するフレームの間に板倉・斎藤による歪み値が形成され
るとき、以前のフレームのLPCフィルタによって濾波さ
れているので、実際にその値は信号の電力に等しい。従
って隣接するフレームのスペクトルに違いが殆どない場
合、フレームの対応する僅かなスペクトル電力は濾波を
免れ、その値は小さいであろう。同時に、フレーム間の
大きなスペクトルの相違は大きな板倉・斎藤歪み値を発
生し、それによってその値は隣接するフレームのスペク
トルの類似性を反映する。スピーチコーダに関して、デ
ータレートを最小とすることによって、フレーム長をで
きるだけ長くするのが望ましい。即ち、フレーム長が十
分長ければ、会話信号はフレームからフレームへの重要
なスペクトル変化を示す(もしそうでなければコード化
は冗長である)。一方、ノイズはフレームからフレーム
へ徐々に変化するスペクトル形状を有し、会話が信号に
存在しない期間において、以前のフレームから逆相LPC
フィルタを適用し、殆どのノイズ電力を“フィルタアウ
ト(filter out)”するので、板倉・斎藤による歪み
値はそれに対応して少ない。
断続的な会話を含み、ノイズの多い信号の隣接するフ
レーム間の板倉・斎藤歪み値は、一般にノイズの期間よ
り会話の期間の方が大きく、変化の程度(標準偏倚によ
って示されるように)も大きく、断続的な変化は少な
い。
ここで、Mの標準偏差(standard deviation)も信
頼できる値であり、各標準偏差をとる効果は本質的に値
を円滑にすることである。
音声の動作特性検出器のこの第2の形態において、会
話が存在するかどうかを判断するのに用いる測定された
パラメータは、板倉・斎藤歪み値の標準偏差であること
が望ましいが、変化を測定する他の方法、及び(例えば
FFT分析に基づく)スペクトル歪みを測定する他の方法
を適用することができる。
音声の動作特性検出に適合性スレショルド(adaptive
threshold)を用いることにも利点がある。そのよう
なスレショルドは、会話期間の間は調整されるべきでは
なく、調整されると会話信号はスレショルドアウト(th
reshold out)される。従ってスピーチ/ノンスピーチ
制御信号を用いてスレショルド・アダプタを制御する必
要があり、この制御信号はスレショルド・アダプタの出
力から独立しているのが望ましい。スレショルドTは、
ノイズのみが存在するとき、値Mのレベル以上のレベル
に保たれるように調整される。その値はノイズが存在す
るとき一般にランダムに変化するので、多くのブロック
についての平均レベルを決定し、スレショルドをこの平
均レベルに比例するレベルに設定することによって、ス
レショルドが変化する。しかし、これはノイズの多い状
況では一般に十分ではなく、幾つかのブロックについて
のパラメータの変化程度に関する査定が考慮される。
従ってスレショルド値Tは次式に従って計算される。
T=M′+K.d ここでMは、連続する多くのフレームについての測定値
の平均値であり、dはそれらフレームについての測定値
の標準偏差であり、Kは定数である(代表的には2であ
る)。
実際的に、会話の存在しないことが示された直後に再
び適合動作を開始すべきではなく、(適合及び非適合状
態の間に繰り返される急速なスイッチングを避けるため
に)降下が安定したことを確認するまで待つべきであ
る。
第3図は前述の事柄を具備するこの発明の好適実施例
であり、入力1はアナログ・デジタルコンバータ(AD
C)2によってサンプルされ、デジタル化された信号を
受信し、逆相フィルタアナライザ3の入力に信号を供給
し、逆相フィルタアナライザ3は実際に音声の動作特性
検出器が動作するスピーチコーダの一部であり、又、入
力信号スペクトルの逆相に一致するフィルタの係数L
i(代表的に8)を発生する。デジタル信号は又、(ア
ナライザ3の一部である)自己相関器4に供給され、自
己相関器4は入力信号(又は少なくともそれらがLPC係
数と同じくらい多くの低次項)の自己相関ベクトルRi
発生する。装置のこれらの部分の動作は第1図及び第2
図に示される。自己相関係数Riは好適に、連続する幾つ
かのスピーチフレーム(代表的に5〜20ms)について平
均値がとられ、それらの信頼度が改善される。この平均
化は、バッファ4a内の自己相関器4によって出力される
自己相関係数の各組を格納し、平均器(averager)4bを
用いて、現在の自己相関係数Ri、及びバッファ4aに格納
されバッファ4aから供給される以前のフレームからの係
数の重み付けされた加算値を生成することによって達成
される。それによって得られた平均化された自己相関係
数Raiは重み付け及び加算手段5、6に供給され、この
手段は又、バッファ15を介して自己相関器14から格納さ
れたノイズ期間の逆相フィルタ係数Liの自己相関ベクト
ルAiを受信し、Rai及びAiから次式により定義される値
Mを形成する。
この値はスレショルダ7によって、スレショド値と比
較され、会話が存在するかしないかを示す論理結果が出
力8に発生する。
逆相フィルタ係数Liがノイズスペクトルの逆相の適切
な概算に一致するために、これらの係数をノイズの期間
に更新するのが望ましい(勿論、会話の期間には更新し
ない)。しかし、その更新に基づくスピーチ/ノンスピ
ーチの決定はその更新の結果に影響されず、又は誤って
確認された信号の単一フレームによって、音声の動作特
性検出器は結果的に“ロックはずれ(out of loc
k)”となり、次のフレームを誤って認識する。従って
制御信号発生回路20、即ち分離音声の動作特性検出器が
提供され、この検出器は会話が存在するかどうかを示す
独立制御信号を形成し、逆相フィルタアナライザ3(又
はバッファ8)を制御し、それによって値Mを形成する
のに用いられる逆相フィルタ自己相関係数Aiは“ノイ
ズ”期間にのみ更新される。制御信号発生回路20はLPC
アナライザ21を含み(これは再び会話コーダの一部であ
り、特にアナライザ3によって実行される)、このアナ
ライザは、入力信号及び自己相関器21a(自己相関器3a
によって実行することができる)に一致する一組のLPC
係数Miを発生し、自己相関器21aはMiの自己相関係数Bi
を得る。アナライザ21がアナライザ3によって実行され
た場合は、Mi=Li、及びBi=Aiである。これら自己相関
係数は、重み付け及び加算手段22、23(5、6に同等)
に供給され、この手段も自己相関器4からの入力信号の
自己相関ベクトルRiを受信する。従って、入力スピーチ
フレームと以前のスピーチフレームの間のスペクトル的
類似性が計算される。これは前述したように、現在のフ
レームのRiと以前のフレームのBiの間の板倉・斎藤歪み
値、又は現在のフレームのRiとBiに関する板倉・斎藤歪
み値を計算することによって得られ、又は対応する値を
バッファ24に格納された以前のフレームに関して減算す
ることによって得られ、スペクトル的に異なる信号を発
生する(それぞれの場合、その値はRoで分割することに
よってエネルギ・正規化されるのが望ましい)。勿論こ
こでバッファ24は更新される。このスペクトル的に異な
る信号は、スレショルダ26によってスレショルドと比較
されたとき、前述のように、会話が存在するかどうかを
示す。音声とはならない会話からのノイズを区別するた
めにこの方法は優れているが(従来のシステムにおいて
可能なタスク(task))、音声となった会話からノイズ
を区別する能力は一般に少ないことが発見された。従っ
て、回路20には、ピッチアナライザ(pitch analyse
r)27(実際にスピーチコーダの一部として動作するこ
とができ、特にマルチパルスLPCコーダ内に生成される
算定器(predictor)の長い遅延値測定することができ
る)を具備する音声の会話検出回路が提供されるのが望
ましい。ピッチアナライザ27は、音声となった会話が検
出されたとき“真理(true)”であるロジック信号を発
生し、この信号は、スレショルダ26(音声とはならない
会話が存在するとき、一般に“真理”である)から得ら
れるスレショルド値と結合され、NORゲート28の入力に
供給され、会話が存在するとき“誤り(false)”であ
り、ノイズが存在するとき“真理”である信号を発生す
る。この信号はバッファ8(又は逆相フィルタアナライ
ザ3)に供給され、それによって逆相フィルタ係数Li
は、ノイズ期間のみに更新される。
スレショルドアダプタ29も又接続され、制御信号発生
回路20のノンスピーチ信号制御出力を受信する。スレシ
ョルドアダプタ29の出力はスレショルダ7に供給され
る。スレショルドアダプタ29の出力はスレショルダ7に
供給される。スレショルドアダプタは、スレショルドが
ノイズ電力レベルに近付くまで(これは、例えば回路2
2、23の加算及び重み付けすることによって容易に得ら
れる)、瞬時スレショルドレベルに比例するステップ
に、スレショルドをインクリメント(increment)又は
デクリメント(decrement)するように動作する。入力
信号が非常に小さいとき、スレショルドは自動的にロー
レベルに設定されるのが望ましい。なぜならば、小さい
信号レベルのとき、ADC2によって生成される信号量は信
頼できる結果を生成できないからである。
更に“ハングオーバ(hangover)”発生手段30が提供
され、これはスレショルダ7の後の会話を示す期間を測
定し、所定時定数を越える期間の間、会話の存在が示さ
れたとき、その出力は短い“ハングオーバ”の間、ハイ
に維持される。このようにして、ローレベルな会話バー
ストの中間の欠損(clipping)が避けられ、適切な時定
数の選択によって、会話のときに誤って示された短いス
パイクノイズによりハングオーバ発生器30の起動を防ぐ
ことができる。勿論、前述した全ての機能は、適切にプ
ログラムされた単一のデジタル処理手段、例えば、LPC
コーデックの一部として構成され(これは所望される構
成である)、又は関連するメモリ装置を有する適切にプ
ログラムされたマイクロコンピュータやマイクロコント
ローラチップとして構成されるデジタル信号処理チップ
(DSP)などのような手段によって実行することができ
る。
前述したように、音声検出装置はLPCコーデックの一
部として容易に構成されることができる。一方、信号の
自己相関係数、又はそれに関連する値(部分相関又は
“パルコール(parcor)”係数)が離れたステーション
に送信される場合、音声検出はコーデックから離れて行
われる。
───────────────────────────────────────────────────── フロントページの続き (31)優先権主張番号 8820105.8 (32)優先日 昭和63年8月24日(1988.8.24) (33)優先権主張国 イギリス(GB) (72)発明者 ボイド,イヴン イギリス国 アイ・ピー9,2エツク ス・イー,サフオーク,アイプスウイツ チ,カペル・エス・テイ・マリー,ホー ムフイールド 5 (56)参考文献 特開 昭62−211698(JP,A) 特開 昭62−150299(JP,A) 特開 昭59−115625(JP,A) (58)調査した分野(Int.Cl.7,DB名) G10L 11/02,15/04

Claims (14)

    (57)【特許請求の範囲】
  1. 【請求項1】(i)第1の入力信号を受信する手段と、 (ii)前記第1の信号の概算されたノイズ信号成分を表
    現する第2の信号を周期的に適応して生成する手段と、 (iii)前記第1および第2の信号から入力信号の一部
    と前記概算されたノイズ信号成分との間のスペクトル的
    類似性の値を周期的に形成する手段と、 (iv)会話が存在するか存在しないかを示す出力を作成
    するために、前記値をスレショルド値と比較する手段と
    を具備する音声の動作特性を検出する装置であって、 (v)前記装置は、入力信号と概算されたノイズ信号成
    分のうちの一方について周波数スペクトルの逆であるス
    ペクトル応答を有するフィルタ係数を作成するために動
    作する分析手段を具備し、 (vi)前記値を形成する手段は、入力信号と概算された
    ノイズ信号成分のうちの他方について前記係数を有する
    フィルタによりフィルタされた後に0次自己相関に比例
    する値を作成するために動作する ことを特徴とする装置。
  2. 【請求項2】前記生成する手段は前記係数のパルス応答
    の自己相関係数Aiを計算するために動作し、そして前記
    値形成手段は前記入力信号と前記概算されたノイズ信号
    成分のうちの前記他方の自己相関係数Riを計算する手段
    と、RiおよびAiを受信するために接続されそれらから値
    Mを計算する手段を含むことを特徴とする請求項1記載
    の装置。
  3. 【請求項3】前記入力信号と前記概算されたノイズ信号
    成分のうちの前記他方の前記自己相関係数を計算する前
    記手段は、前記信号の幾つかの連続する部分の自己相関
    係数に基づいて計算するように構成されることを特徴と
    する請求項2記載の装置。
  4. 【請求項4】前記装置において、 M=R0A0+2ΣRiAi・ であり、ここでAiは前記フィルタのパルス応答のi番目
    の自己相関係数を示すことを特徴とする請求項2または
    請求項3記載の装置。
  5. 【請求項5】前記装置において、 であり、ここでAiは前記フィルタのパルス応答のi番目
    の自己相関係数を示すことを特徴とする請求項2または
    請求項3記載の装置。
  6. 【請求項6】前記入力信号と概算されたノイズ信号成分
    のうちの一方が概算されたノイズ信号成分であることを
    特徴とする請求項1乃至請求項6のいずれか1項記載の
    装置。
  7. 【請求項7】更に前記フィルタ応答の自己相関係数Ai
    得られるデータを格納するために接続されるバッファを
    具備し、前記フィルタ応答はLPC分析手段によって前記
    信号から周期的に計算され、この装置は値Mが前記格納
    されたデータを用いて計算されるように接続されそして
    制御され、そして前記格納されたデータは会話が存在し
    ないことが示される期間においてのみ更新されることを
    特徴とする請求項1乃至請求項6のいずれか1項記載の
    装置。
  8. 【請求項8】前記格納されたデータの更新を制御するた
    めに会話の存在しないことを示す手段を具備し、前記会
    話の存在しないことを示す手段は第2の音声の動作特性
    検出手段であることを特徴とする請求項7記載の装置。
  9. 【請求項9】会話の存在しないことが示される期間にお
    いて前記スレショルドを調節する手段を更に具備するこ
    とを特徴とする請求項1乃至請求項8のいずれか1項記
    載の装置。
  10. 【請求項10】会話が存在する場合前記スレショルド値
    の調節を禁止するように構成される第2の音声の動作特
    性検出手段を更に具備することを特徴とする請求項9記
    載の検出装置。
  11. 【請求項11】前記第2の音声動作特性検出手段は入力
    信号の一部と入力信号のより早期の部分との間のスペク
    トル的類似性の値を生成する手段を含むことを特徴とす
    る請求項8又は10記載の装置。
  12. 【請求項12】請求項1乃至請求項11のいずれか1項記
    載の装置を有することを特徴とする会話信号を符号化す
    る装置。
  13. 【請求項13】請求項1乃至請求項11のいずれか1項記
    載の装置を有することを特徴とする自動車電話装置。
  14. 【請求項14】第1の入力された信号に関し、音声の動
    作特性を検出する方法であって、 (a)第1の信号の概算されたノイズ信号成分を表現す
    る第2の信号を周期的に適応して生成し、 (b)前記第1および第2の信号から入力信号の一部と
    前記概算されたノイズ信号成分との間のスペクトル的類
    似性の値を周期的に形成し、そして (c)会話が存在するか存在しないかを示す出力を作成
    するために前記値をスレショルド値と比較するステップ
    を含み、 (d)さらに、入力信号と概算されたノイズ信号成分の
    うちの一方について周波数スペクトルの逆であるスペク
    トル応答を有するフィルタ係数を作成するステップを含
    み、 (e)前記値は前記係数を有するフィルタによりフィル
    タされた後の入力信号と概算されたノイズ信号成分のう
    ちの他方の0次自己相関に比例する ことを特徴とする方法。
JP50377289A 1988-03-11 1989-03-10 音声の動作特性検出 Expired - Lifetime JP3321156B2 (ja)

Applications Claiming Priority (6)

Application Number Priority Date Filing Date Title
GB888805795A GB8805795D0 (en) 1988-03-11 1988-03-11 Voice activity detector
GB888813346A GB8813346D0 (en) 1988-06-06 1988-06-06 Voice activity detection
GB8805795 1988-08-24
GB8820105.8 1988-08-24
GB888820105A GB8820105D0 (en) 1988-08-24 1988-08-24 Voice activity detection
GB8813346.7 1988-08-24

Related Child Applications (1)

Application Number Title Priority Date Filing Date
JP32819899A Division JP3423906B2 (ja) 1988-03-11 1999-11-18 音声の動作特性検出装置および検出方法

Publications (2)

Publication Number Publication Date
JPH03504283A JPH03504283A (ja) 1991-09-19
JP3321156B2 true JP3321156B2 (ja) 2002-09-03

Family

ID=27263821

Family Applications (2)

Application Number Title Priority Date Filing Date
JP50377289A Expired - Lifetime JP3321156B2 (ja) 1988-03-11 1989-03-10 音声の動作特性検出
JP32819899A Expired - Lifetime JP3423906B2 (ja) 1988-03-11 1999-11-18 音声の動作特性検出装置および検出方法

Family Applications After (1)

Application Number Title Priority Date Filing Date
JP32819899A Expired - Lifetime JP3423906B2 (ja) 1988-03-11 1999-11-18 音声の動作特性検出装置および検出方法

Country Status (16)

Country Link
EP (2) EP0548054B1 (ja)
JP (2) JP3321156B2 (ja)
KR (1) KR0161258B1 (ja)
AU (1) AU608432B2 (ja)
BR (1) BR8907308A (ja)
CA (1) CA1335003C (ja)
DE (2) DE68929442T2 (ja)
DK (1) DK175478B1 (ja)
ES (2) ES2047664T3 (ja)
FI (2) FI110726B (ja)
HK (1) HK135896A (ja)
IE (1) IE61863B1 (ja)
NO (2) NO304858B1 (ja)
NZ (1) NZ228290A (ja)
PT (1) PT89978B (ja)
WO (1) WO1989008910A1 (ja)

Families Citing this family (34)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
EP0435458B1 (en) * 1989-11-28 1995-02-01 Nec Corporation Speech/voiceband data discriminator
CA2040025A1 (en) * 1990-04-09 1991-10-10 Hideki Satoh Speech detection apparatus with influence of input level and noise reduced
US5241692A (en) * 1991-02-19 1993-08-31 Motorola, Inc. Interference reduction system for a speech recognition device
FR2697101B1 (fr) * 1992-10-21 1994-11-25 Sextant Avionique Procédé de détection de la parole.
SE470577B (sv) * 1993-01-29 1994-09-19 Ericsson Telefon Ab L M Förfarande och anordning för kodning och/eller avkodning av bakgrundsljud
JPH06332492A (ja) * 1993-05-19 1994-12-02 Matsushita Electric Ind Co Ltd 音声検出方法および検出装置
SE501305C2 (sv) * 1993-05-26 1995-01-09 Ericsson Telefon Ab L M Förfarande och anordning för diskriminering mellan stationära och icke stationära signaler
EP0633658A3 (en) * 1993-07-06 1996-01-17 Hughes Aircraft Co Automatic gain control circuit coupled to the transmission and activated by speech.
IN184794B (ja) * 1993-09-14 2000-09-30 British Telecomm
SE501981C2 (sv) * 1993-11-02 1995-07-03 Ericsson Telefon Ab L M Förfarande och anordning för diskriminering mellan stationära och icke stationära signaler
US5742734A (en) * 1994-08-10 1998-04-21 Qualcomm Incorporated Encoding rate selection in a variable rate vocoder
FR2727236B1 (fr) * 1994-11-22 1996-12-27 Alcatel Mobile Comm France Detection d'activite vocale
WO1996034382A1 (en) * 1995-04-28 1996-10-31 Northern Telecom Limited Methods and apparatus for distinguishing speech intervals from noise intervals in audio signals
GB2306010A (en) * 1995-10-04 1997-04-23 Univ Wales Medicine A method of classifying signals
FR2739995B1 (fr) * 1995-10-13 1997-12-12 Massaloux Dominique Procede et dispositif de creation d'un bruit de confort dans un systeme de transmission numerique de parole
US5794199A (en) * 1996-01-29 1998-08-11 Texas Instruments Incorporated Method and system for improved discontinuous speech transmission
KR20000022285A (ko) 1996-07-03 2000-04-25 내쉬 로저 윌리엄 음성 액티비티 검출기 및 검출 방법
US6618701B2 (en) 1999-04-19 2003-09-09 Motorola, Inc. Method and system for noise suppression using external voice activity detection
DE10052626A1 (de) * 2000-10-24 2002-05-02 Alcatel Sa Adaptiver Geräuschpegelschätzer
CN1617606A (zh) * 2003-11-12 2005-05-18 皇家飞利浦电子股份有限公司 一种在语音信道传输非语音数据的方法及装置
US7139701B2 (en) * 2004-06-30 2006-11-21 Motorola, Inc. Method for detecting and attenuating inhalation noise in a communication system
US7155388B2 (en) * 2004-06-30 2006-12-26 Motorola, Inc. Method and apparatus for characterizing inhalation noise and calculating parameters based on the characterization
FI20045315A (fi) * 2004-08-30 2006-03-01 Nokia Corp Ääniaktiivisuuden havaitseminen äänisignaalissa
US8708702B2 (en) * 2004-09-16 2014-04-29 Lena Foundation Systems and methods for learning using contextual feedback
US8775168B2 (en) * 2006-08-10 2014-07-08 Stmicroelectronics Asia Pacific Pte, Ltd. Yule walker based low-complexity voice activity detector in noise suppression systems
US8954324B2 (en) * 2007-09-28 2015-02-10 Qualcomm Incorporated Multiple microphone voice activity detector
US8175871B2 (en) 2007-09-28 2012-05-08 Qualcomm Incorporated Apparatus and method of noise and echo reduction in multiple microphone audio systems
US8223988B2 (en) 2008-01-29 2012-07-17 Qualcomm Incorporated Enhanced blind source separation algorithm for highly correlated mixtures
WO2009130388A1 (en) 2008-04-25 2009-10-29 Nokia Corporation Calibrating multiple microphones
US8275136B2 (en) 2008-04-25 2012-09-25 Nokia Corporation Electronic device speech enhancement
US8244528B2 (en) 2008-04-25 2012-08-14 Nokia Corporation Method and apparatus for voice activity determination
ES2371619B1 (es) * 2009-10-08 2012-08-08 Telefónica, S.A. Procedimiento de detección de segmentos de voz.
EP2491549A4 (en) 2009-10-19 2013-10-30 Ericsson Telefon Ab L M DETECTOR AND METHOD FOR DETECTING VOICE ACTIVITY
CN108985277B (zh) * 2018-08-24 2020-11-10 广东石油化工学院 一种功率信号中背景噪声滤除方法及系统

Family Cites Families (7)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US3509281A (en) * 1966-09-29 1970-04-28 Ibm Voicing detection system
US4052568A (en) * 1976-04-23 1977-10-04 Communications Satellite Corporation Digital voice switch
US4358738A (en) * 1976-06-07 1982-11-09 Kahn Leonard R Signal presence determination method for use in a contaminated medium
JPS5636246A (en) * 1979-08-31 1981-04-09 Nec Corp Stereo signal demodulating circuit
JPS59115625A (ja) * 1982-12-22 1984-07-04 Nec Corp 音声検出器
DE3370423D1 (en) * 1983-06-07 1987-04-23 Ibm Process for activity detection in a voice transmission system
JPS6196817A (ja) * 1984-10-17 1986-05-15 Sharp Corp フイルタ−

Also Published As

Publication number Publication date
CA1335003C (en) 1995-03-28
AU608432B2 (en) 1991-03-28
DE68910859D1 (de) 1994-01-05
EP0335521B1 (en) 1993-11-24
IE890774L (en) 1989-09-11
EP0335521A1 (en) 1989-10-04
NO903936L (no) 1990-11-09
FI904410A0 (fi) 1990-09-07
PT89978B (pt) 1995-03-01
HK135896A (en) 1996-08-02
FI115328B (fi) 2005-04-15
JP2000148172A (ja) 2000-05-26
EP0548054B1 (en) 2002-12-11
DE68929442T2 (de) 2003-10-02
DK215690A (da) 1990-09-07
NO903936D0 (no) 1990-09-10
IE61863B1 (en) 1994-11-30
NO316610B1 (no) 2004-03-08
JPH03504283A (ja) 1991-09-19
KR900700993A (ko) 1990-08-17
EP0548054A3 (ja) 1994-01-12
NO982568D0 (no) 1998-06-04
KR0161258B1 (ko) 1999-03-20
BR8907308A (pt) 1991-03-19
AU3355489A (en) 1989-10-05
NO304858B1 (no) 1999-02-22
DE68910859T2 (de) 1994-12-08
NO982568L (no) 1990-11-09
JP3423906B2 (ja) 2003-07-07
ES2188588T3 (es) 2003-07-01
FI20010933A (fi) 2001-05-04
WO1989008910A1 (en) 1989-09-21
EP0548054A2 (en) 1993-06-23
ES2047664T3 (es) 1994-03-01
PT89978A (pt) 1989-11-10
DK175478B1 (da) 2004-11-08
NZ228290A (en) 1992-01-29
FI110726B (fi) 2003-03-14
DK215690D0 (da) 1990-09-07
DE68929442D1 (de) 2003-01-23

Similar Documents

Publication Publication Date Title
JP3321156B2 (ja) 音声の動作特性検出
US5276765A (en) Voice activity detection
US4630304A (en) Automatic background noise estimator for a noise suppression system
CA1123955A (en) Speech analysis and synthesis apparatus
US5091948A (en) Speaker recognition with glottal pulse-shapes
US5706395A (en) Adaptive weiner filtering using a dynamic suppression factor
US6263307B1 (en) Adaptive weiner filtering using line spectral frequencies
US5970441A (en) Detection of periodicity information from an audio signal
US6023674A (en) Non-parametric voice activity detection
AU656787B2 (en) Auditory model for parametrization of speech
KR100742443B1 (ko) 손실 프레임을 처리하기 위한 음성 통신 시스템 및 방법
Cohen et al. Spectral enhancement methods
JPH08505715A (ja) 定常的信号と非定常的信号との識別
JP2002516420A (ja) 音声コーダ
US5632004A (en) Method and apparatus for encoding/decoding of background sounds
JPH08221097A (ja) 音声成分の検出法
Vahatalo et al. Voice activity detection for GSM adaptive multi-rate codec
Kawamura et al. A new noise reduction method using estimated noise spectrum
JPH0449952B2 (ja)
US6633847B1 (en) Voice activated circuit and radio using same
Chu Voice-activated AGC for teleconferencing
Park Signal Enhancement of a Variable Rate Vocoder with a Hybrid domain SNR Estimator
Yuan The weighted sum of the line spectrum pair for noisy speech
Cohen et al. Spectral Enha
JPH10304023A (ja) 電話機

Legal Events

Date Code Title Description
S111 Request for change of ownership or part of ownership

Free format text: JAPANESE INTERMEDIATE CODE: R313113

R350 Written notification of registration of transfer

Free format text: JAPANESE INTERMEDIATE CODE: R350

R250 Receipt of annual fees

Free format text: JAPANESE INTERMEDIATE CODE: R250

R250 Receipt of annual fees

Free format text: JAPANESE INTERMEDIATE CODE: R250

R250 Receipt of annual fees

Free format text: JAPANESE INTERMEDIATE CODE: R250

FPAY Renewal fee payment (event date is renewal date of database)

Free format text: PAYMENT UNTIL: 20080621

Year of fee payment: 6

FPAY Renewal fee payment (event date is renewal date of database)

Free format text: PAYMENT UNTIL: 20090621

Year of fee payment: 7

EXPY Cancellation because of completion of term
FPAY Renewal fee payment (event date is renewal date of database)

Free format text: PAYMENT UNTIL: 20090621

Year of fee payment: 7