[go: up one dir, main page]

JP6431884B2 - シングルチャンネル音声残響除去方法及びその装置 - Google Patents

シングルチャンネル音声残響除去方法及びその装置 Download PDF

Info

Publication number
JP6431884B2
JP6431884B2 JP2016211765A JP2016211765A JP6431884B2 JP 6431884 B2 JP6431884 B2 JP 6431884B2 JP 2016211765 A JP2016211765 A JP 2016211765A JP 2016211765 A JP2016211765 A JP 2016211765A JP 6431884 B2 JP6431884 B2 JP 6431884B2
Authority
JP
Japan
Prior art keywords
current frame
power spectrum
sound
spectrum
reflection sound
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Active
Application number
JP2016211765A
Other languages
English (en)
Other versions
JP2017021385A5 (ja
JP2017021385A (ja
Inventor
ルー,シャシャ
ウー,シャオチエ
リー,ボー
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Goertek Inc
Original Assignee
Goertek Inc
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Goertek Inc filed Critical Goertek Inc
Publication of JP2017021385A publication Critical patent/JP2017021385A/ja
Publication of JP2017021385A5 publication Critical patent/JP2017021385A5/ja
Application granted granted Critical
Publication of JP6431884B2 publication Critical patent/JP6431884B2/ja
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Classifications

    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L21/00Speech or voice signal processing techniques to produce another audible or non-audible signal, e.g. visual or tactile, in order to modify its quality or its intelligibility
    • G10L21/02Speech enhancement, e.g. noise reduction or echo cancellation
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L21/00Speech or voice signal processing techniques to produce another audible or non-audible signal, e.g. visual or tactile, in order to modify its quality or its intelligibility
    • G10L21/02Speech enhancement, e.g. noise reduction or echo cancellation
    • G10L21/0208Noise filtering
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L21/00Speech or voice signal processing techniques to produce another audible or non-audible signal, e.g. visual or tactile, in order to modify its quality or its intelligibility
    • G10L21/02Speech enhancement, e.g. noise reduction or echo cancellation
    • G10L21/0208Noise filtering
    • G10L2021/02082Noise filtering the noise being echo, reverberation of the speech

Landscapes

  • Engineering & Computer Science (AREA)
  • Human Computer Interaction (AREA)
  • Acoustics & Sound (AREA)
  • Signal Processing (AREA)
  • Health & Medical Sciences (AREA)
  • Audiology, Speech & Language Pathology (AREA)
  • Computational Linguistics (AREA)
  • Physics & Mathematics (AREA)
  • Quality & Reliability (AREA)
  • Multimedia (AREA)
  • Circuit For Audible Band Transducer (AREA)
  • Cable Transmission Systems, Equalization Of Radio And Reduction Of Echo (AREA)
  • Reverberation, Karaoke And Other Acoustics (AREA)
  • Telephone Function (AREA)
  • Measurement Of Mechanical Vibrations Or Ultrasonic Waves (AREA)

Description

本発明は、音声強調分野に関し、特に、シングルチャンネル音声残響除去方法及びその装置に関する。
電話会議、スマートテレビネットワーク電話などの音声通信において、発話者がマイクロフォンから遠く離れ、且つ通話環境が相対的に密閉される空間であるため、マイクロフォンが受信した信号は環境残響に影響されやすい。例えば、部屋の中で、音声が壁面、床板、家具などにより複数回の反射を経て、マイクロフォンが受信した信号は直接音と反射音の混合信号となる。この反射音でさえ残響信号である。残響がひどいとき、音声は不明瞭となり、通話品質に影響を与えてしまう。また、残響による干渉は、さらに音声学受信システムの性能を劣化させたり、音声識別システムの性能を低下させたりしてしまう。
早期の残響除去方法は、主にデコンヴォルーションを活用して実行していた。このような方法では、事前に残響環境のインパルス応答又は伝達関数を正確に把握する必要がある。残響環境のインパルス応答はある特別な方法又は装置を介して事前に検出することができ、また、その他の方法を介して単独で推定できる。そして、この知っていた残響環境のインパルス応答を活用して、逆フィルタを推定し、残響信号のデコンヴォルーションを実現することによって、残響除去を実現する。このような方法の問題点は、残響環境のインパルス応答を事前に獲得するのがより困難であり、且つ逆フィルタの推定プロセス自体も新しい不安定な要素を引き入れる可能性があるというのである。
もう1種の残響除去の方法としては、残響環境のインパルス応答を推定する必要がないため、逆フィルタ計算及び逆平滑演算が必要ではなくなり、ブラインド残響除去方法とも称されている。この種の方法は、音声モデルの仮説に基づいて、例えば、残響は、受信された濁音励磁パルスに変化を起こして、その周期性がある程度不明瞭になるようして、引いて音声の明瞭度を影響するのは一般的です。この種の方法は、通常、LPC(Linear Prediction Coding, 線形予測符号)モデルに基づき、音声を生じるモデルが全極型モデルであると仮説して、残響又は他の加法性ノイズはシステム全体に新しい零点を引き入れることで、濁音励磁パルスを干渉するが、全極型フィルタに影響を与えない。残響除去の方法としては、信号のLPC残差を推定して、そして、ピッチ同期クラスタリング基準(pitch-synchronous clustering criterion)又は尖度(Kurtosis)最大化基準などに基づいて、クリアなパルス励磁配列を推定することにより、残響除去を実現する。この種の方法の問題は、計算の複雑度が非常に高く、且つ残響に対して全零点フィルタの仮説のみに影響を及ぼし、実験分析と一致しないことがあるというのである。
スペクトル減算法を用いて残響を除去するのは好ましい方法であり、音声信号が直接音、早期反射音及び後期反射音を含み、スペクトル減算法を用いて、後期反射音のパワースペクトルを音声全体のパワースペクトルから除去することで音声品質を向上することができる。しかし、その中で最も主な問題は後期反射音のスペクトルの推定にあたり、即ち、如何により正確な後期反射音のパワースペクトルを獲得して、後期反射音の成分を効果的に除去するとともに音声を損傷しないことができるのかである。シングルチャンネル音声残響除去において、モノパスマイクロフォン信号しか使用できないため、残響環境の伝達関数又は残響時間(RT60)を推定することが非常に困難である。
本発明は、シングルチャンネル音声残響除去においての残響環境の伝達関数又は残響時間を推定しにくいという問題を解決するために、シングルチャンネル音声残響除去方法及びその装置を提供する。
本発明は、シングルチャンネル音声残響除去方法を開示しており、
入力されたシングルチャンネル音声信号に対してフレーム分割を行い、時間の順に応じてフレーム信号に対して、
現在フレームに対して短時間フーリエ変換を行い、現在フレームのパワースペクトル及び位相スペクトルを獲得する処理と、
現在フレームの前の、現在フレームに至るまでの距離が設定の持続時間範囲内である数フレームを選んで、これらのフレームのパワースペクトルを線形重畳加算して現在フレームの後期反射音のパワースペクトルを推定する処理であって、前記の現在フレームの後期反射音のパワースペクトルを推定するために残響時間を推定することが必要とされない処理と、
スペクトル減算法によって、現在フレームのパワースペクトルから、推定された現在フレームの後期反射音のパワースペクトルを除去して、現在フレームの直接音及び早期反射音のパワースペクトルを獲得する処理と、
現在フレームの直接音及び早期反射音のパワースペクトルを現在フレームの位相スペクトルとともに、短時間逆フーリエ変換を行い、現在フレーム残響除去後の信号を獲得する処理と、を行うことを含む。
前記後期反射音の減衰特性に基づいて前記持続時間範囲の上限値を設定することが好ましく、
及び/又は、音声関連特性及び直接音と早期反射音の残響環境下でのインパルス応答分布領域に基づいて、前記持続時間範囲の下限値を設定することが好ましい。
前記持続時間範囲の上限値が0.3s〜0.5sの範囲内の値を選択することが好ましい。
前記持続時間範囲の下限値が50ms〜80msの範囲内の値を選択することが好ましい。
前記の、これらのフレームのパワースペクトルを線形重畳加算して現在フレームの後期反射音のパワースペクトルを推定する処理は、具体的に、
自己回帰ARモデルを用いて、これらのフレームのパワースペクトルにおける全ての成分を線形重畳加算して現在フレームの後期反射音のパワースペクトルを推定する処理、
或は、移動平均MAモデルを用いて、これらのフレームのパワースペクトルにおける直接音及び早期反射音の成分を線形重畳加算して現在フレームの後期反射音のパワースペクトルを推定する処理、
或は、自己回帰ARモデルを用いて、これらのフレームのパワースペクトルにおける全ての成分を線形重畳加算するとともに、移動平均MAモデルを用いて、これらのフレームのパワースペクトルにおける直接音及び早期反射音の成分を線形重畳加算して現在フレームの後期反射音のパワースペクトルを推定する処理、を含むことが好ましい。
本発明は、また、シングルチャンネル音声残響除去装置を開示しており、
入力されたシングルチャンネル音声信号に対してフレーム分割を行い、時間の順に応じてフレーム信号をフーリエ変換ユニットへ出力するためのフレーム分割ユニットと、
受信された現在フレームに対して短時間フーリエ変換処理を行い、現在フレームのパワースペクトル及び位相スペクトルを獲得して、現在フレームのパワースペクトルをスペクトル減算ユニットとスペクトル推定ユニットへ出力し、位相スペクトルを逆フーリエ変換ユニットへ出力するためのフーリエ変換ユニットと、
現在フレームの前の、現在フレームに至るまでの距離が設定の持続時間範囲内である数フレームのパワースペクトルを線形重畳加算して、現在フレームの後期反射音のパワースペクトルを推定し、そして推定された現在フレームの後期反射音のパワースペクトルをスペクトル減算ユニットへ出力するためのスペクトル推定ユニットであって、前記の現在フレームの後期反射音のパワースペクトルを推定するために残響時間を推定することが必要とされないスペクトル推定ユニットと、
スペクトル減算法によって、フーリエ変換ユニットより獲得した現在フレームのパワースペクトルから、スペクトル推定ユニットより獲得した現在フレームの後期反射音のパワースペクトルを除去して、現在フレームの直接音及び早期反射音のパワースペクトルを獲得し、現在フレームの直接音及び早期反射音のパワースペクトルを逆フーリエ変換ユニットへ出力するためのスペクトル減算ユニットと、
スペクトル減算ユニットより獲得した現在フレームの直接音及び早期反射音のパワースペクトルを、フーリエ変換ユニットより獲得した現在フレームの位相スペクトルとともに、短時間逆フーリエ変換を行い、現在フレーム残響除去後の信号を出力するための逆フーリエ変換ユニットと、を含む。
前記スペクトル推定ユニットは、具体的に、後期反射音の減衰特性に基づいて前記持続時間範囲の上限値を設定し、及び/又は、音声関連特性及び直接音と早期反射音の残響環境下でのインパルス応答分布領域に基づいて、前記持続時間範囲の下限値を設定するために用いられることが好ましい。
前記スペクトル推定ユニットは、具体的に、持続時間範囲の上限値が0.3s〜0.5sの範囲内の値を選択するために用いられることが好ましい。
前記スペクトル推定ユニットは、具体的に、持続時間範囲の下限値が50ms〜80msの範囲内の値を選択するために用いられることが好ましい。
前記スペクトル推定ユニットは、具体的に、
現在フレームの前の、現在フレームに至るまでの距離が設定持続時間範囲内である数フレームに対して、自己回帰ARモデルを用いて、これらのフレームのパワースペクトルにおける全ての成分を線形重畳加算して現在フレームの後期反射音のパワースペクトルを推定するか、
或は、現在フレームの前の、現在フレームに至るまでの距離が設定持続時間範囲内である数フレームに対して、移動平均MAモデルを用いて、これらのフレームのパワースペクトルにおける直接音及び早期反射音の成分を線形重畳加算して現在フレームの後期反射音のパワースペクトルを推定するか、
或は、現在フレームの前の、現在フレームに至るまでの距離が設定持続時間範囲内である数フレームに対して、自己回帰ARモデルを用いて、これらのフレームのパワースペクトルにおける全ての成分を線形重畳加算するとともに、移動平均MAモデルを用いて、これらのフレームのパワースペクトルにおける直接音及び早期反射音の成分を線形重畳加算して現在フレームの後期反射音のパワースペクトルを推定する、
ために用いられることが好ましい。
本発明の実施例の有益な効果は、現在フレームの前の、現在フレームに至るまでの距離が設定された持続時間範囲内である数フレームを選べることによって、これらのフレームのパワースペクトルを線形重畳加算して現在フレームの後期反射音のパワースペクトルを推定することで、残響環境の伝達関数又は残響時間を推定する必要がなく、現在フレームの後期反射音のパワースペクトルを推定することができ、そしてスペクトル減算法を用いて残響除去ができるため、残響除去の操作を簡略化して、より簡単に実現できることと、
音声関連特性及び直接音と早期反射音の残響環境下でのインパルス応答分布領域に基づいて、持続時間範囲の下限値を設定することによって、残響除去で同時に有用な直接音及び早期反射音を保留して、音声の品質を向上できることと、
後期反射音の減衰特性に基づいて持続時間範囲の上限値を設定することによって、推定された後期反射音のパワースペクトルの正確性を確保できると同時に重畳加算量を減少できることと、
本発明の実施例が上限値を0.3s〜0.5sの範囲内の値と選択しており、該上限値が実験により得たしきい値であり、残響環境が変化するとき、該上限値を調整しなくても、より良い残響除去の効果を得られることと、
本発明の実施例が下限値を50ms〜80msの範囲内の値と選択しており、残響環境が変化するとき、該下限値を変えなくても、効果的に直接音及び早期反射音を避けて重畳加算を行うことができ、重畳加算の結果に直接音及び早期反射音がほぼ含まれず、残響除去で同時に有用な直接音及び早期反射音を保留し、より良い音声品質を得られることとにある。
前記残響環境の変化は、残響がない消音室から残響が極めてひどい大ホールにまでの変化を含む。
本発明のシングルチャンネル音声残響除去方法の流れの模式図である。 実際の部屋においてのインパルス応答の模式図である。 本発明の実施効果の模式図であり、残響信号の時間ドメインの模式図である。 本発明の実施効果の模式図であり、残響除去後信号の時間ドメインの模式図である。 本発明の実施効果の模式図であり、残響信号及び残響除去後信号のエネルギ包絡曲線である。 本発明のシングルチャンネル音声残響除去装置の構造図である。 本発明のシングルチャンネル音声残響除去装置の具体的な実施形態の構造図である。
本発明の目的、技術的なソリューション及び利点をより明らかにするために、以下に、図面を参照しながら、本発明の実施形態をさらに詳しく説明する。
図1は、本発明のシングルチャンネル音声残響除去方法の流れの模式図である。
ステップS100は、入力されたシングルチャンネル音声信号に対してフレーム分割を行い、時間の順に応じてフレーム信号に対して下記の処理を行う。
ステップS200は、現在フレームに対して短時間フーリエ変換を行い、現在フレームのパワースペクトル及び位相スペクトルを獲得する。
ステップS300は、現在フレームの前の、現在フレームに至るまでの距離が設定された持続時間範囲内である数フレームを選んで、これらのフレームのパワースペクトルを線形重畳加算して現在フレームの後期反射音のパワースペクトルを推定する。
前記数フレームは予定数量のフレームであり、持続時間範囲内の全てのフレーム又は該持続時間範囲内の一部のフレームであってもよい。
ステップS400は、スペクトル減算法によって、現在フレームのパワースペクトルから、推定された現在フレームの後期反射音のパワースペクトルを除去して、現在フレームの直接音及び早期反射音のパワースペクトルを獲得する。
ステップS500は、現在フレームの直接音及び早期反射音のパワースペクトルを現在フレームの位相スペクトルとともに、短時間逆フーリエ変換を行い、現在フレーム残響除去後の信号を獲得する。
残響環境において、マイクロフォンが採取した信号x(t)、即ちシングルチャンネル音声信号は、直接音と反射音との混合であり、下記の残響モデルで表してもよい。


そのうち、s(t)は音源から発信した信号であり、hは音源位置からマイクロフォン位置まで両点間の部屋のインパルス応答であり、*は畳み込み演算を表し、n(t)は残響環境における他の加法性雑音を表す。
図2に示す実際の部屋のインパルス応答は、直接ピークhdと、早期反射heと、後期反射hlと3つの部分に分けられる。hdとs(t)との畳み込みは音源より発信した信号は一定の遅延を経てからマイクロフォン端においての再現であり、x(t)における直接音と対応していると簡単に考えてもよい。早期反射部分のインパルス応答がhdと後の一定持続時間の部分と対応しており、該一定持続時間の終止時間点は50ms〜80msの範囲内のある時間点である。一般的に、この部分とs(t)との畳み込みにより生じた早期反射音は直接音の音質を強調及び改善する働きがあると見なされる。後期反射音部分のインパルス応答は、hd及びheを除去した後に部屋のインパルス応答が残った長いテーリング部分であり、この部分とs(t)との畳み込みにより生じた反射音は聴覚に影響をもたらす残響成分となる。残響除去算法は主にこの部分の影響を除去するのである。
従って、残響モデルは次のように表してもよい。


ここで、hl部分が指数減衰モデルの要件を満たしており、以下の数式で近似算出する。


そのうち、Trは残響環境の残響時間(RT60)で、b(t)は零均値ガウス分布ランダム可変量である。
以下、後期反射音のパワースペクトルを如何に推定するかを詳しく説明する。
パワースペクトル分析の角度から考えると、信号のパワースペクトルX(t,f)は下記のように表す。


そのうち、R(t,f)は後期反射音のパワースペクトルであるが、Y(t,f)は直接音及び早期反射音のパワースペクトルであるため、保留される。後期反射音のパワースペクトルR(t,f)を推定した後、スペクトル減算法を用いてX(t,f)からY(t,f)を推定して、残響除去を実現する。
残響発生モデルに基づいて分析すると、後期反射音のパワースペクトルはその前の信号パワースペクトルにおけるある成分と線形関係となるが、直接音及び早期反射音のパワースペクトルは人間の音声特性により、丁度、過去の信号パワースペクトルにおけるある成分と線形関係を構成していない。従って、現在フレームの前の、特定した持続時間でのフレームのパワースペクトルに対して線形重畳加算を行うことで、現在フレームの後期反射音のパワースペクトルを推定することができる。そして、スペクトル減算法を介してパワースペクトルから後期反射音のパワースペクトルを除去して、シングルチャンネル音声残響除去を実現できる。
後期反射音の減衰特性に基づいて前記持続時間範囲の上限値を設置することが好ましい。
スペクトル推定に所用のフレームが多ければ多いほど、推定はより正確になるが、フレームが多すぎると、演算の量が増えてしまう。図2及びhl部分の指数減衰モデルから分かるように、現在フレームより遠ければ遠いほど離れると、反射音のエネルギが小さくなり、ある時刻になった後の反射音のエネルギは見落とされてもよい。従って、後期反射音の減衰特性に基づいて該反射音のパワースペクトルが見落とされる時刻を獲得して、該時刻から現在フレーム時刻までの持続時間を上限値として設定する。これにより、推定された後期反射音のパワースペクトルの正確性を確保できるとともに、重畳加算の量を減らすこともできる。
音声関連特性及び直接音と早期反射音の残響環境下でのインパルス応答分布領域に基づいて、前記持続時間範囲の下限値を設定することが好ましい。
図2から分かるように、直接音及び早期反射音のエネルギは、現在フレームに近づく時間内に集中している。直接音と早期反射音の残響環境下でのインパルス応答分布領域に基づいて、下限値を設定することで、線形重畳加算のとき、直接音及び早期反射音のエネルギが集中している時間帯を避けて、残響除去の同時に有用な直接音及び早期反射音をより効果的に保留でき、音声品質を向上することができる。
前記持続時間範囲の下限値は50ms〜80msの範囲内の値を選択することが好ましい。
実験によれば、各環境において、下限値を50ms〜80msの範囲内の数値とすることが確保できれば、直接音及び早期反射音部分を効果的に迂回して、有効な後期反射音のパワースペクトルをより良く推定することができる。環境の変化が発生した後、下限値を調整しなくても、より良い音声品質を獲得することができる。
前記持続時間範囲の上限値は0.3s〜0.5sの範囲内の数値を選択することが好ましい。
理論上、上限値の設定は、方法の適用の具体的な環境と関係している。本発明に係る後期反射音のパワースペクトル推定において、上限値は理論上部屋のインパルス応答の長さと対応するが、残響発生モデル及び真実な環境のインパルス応答hl部分が指数モデルに基づき減衰するため、現在時刻から遠ければ遠いほど、反射音のエネルギがより小さくなり、0.5sを超えれば、反射音のエネルギがほぼ見落とされて計上しなくてもよい。従って、実際に粗略な上限値さえ用いれば、ほとんどの残響環境に適用することができる。検証したところ、上限値は0.3s〜0.5sの範囲内の数値とされるとき、消音室(残響時間が非常に短い)、普通のオフィス部屋環境(残響時間が0.3s〜0.5s)乃至大ホール(残響時間>1s)のような多種の残響環境にいずれも優れた適応性を有している。消音室環境の下で、後期反射音がほぼない。
本発明の方法は線形成分しか推定せず、且つ直接音及び早期反射音のエネルギが集中している時間帯を避けているため、上限値の設定値が消音室の残響時間よりも長かったとしても、有効な音声成分は除去されることがない。一方、大ホール環境において、上限値の設定値が真実な残響時間よりも小さくなるが、インパルス応答は指数に基づき非常に速く減衰しており、前の0.3s以内の後期反射音成分が後期反射音成分全体のほとんどのエネルギを占めているため、残響をより効果的に除去することができる。
具体的な実施形態において、前記これらのフレームのパワースペクトルを線形重畳加算して現在フレームの後期反射音のパワースペクトルを推定する処理は、具体的に、自己回帰ARモデルを用いて、これらのフレームのパワースペクトルにおける全ての成分を線形重畳加算して現在フレームの後期反射音のパワースペクトルを推定する処理を含む。
例えば、下記の数式でARモデルを用いて現在フレームの後期反射音のパワースペクトルを推定する。


そのうち、R(t,f)は推定された後期反射音のパワースペクトルであり、J0は設定された持続時間範囲内の下限値から得た初期次数であり、JARは設定された持続時間範囲内の上限値から得たARモデルの次数であり、αj,fはARモデル推定パラメータであり、


は現在フレームよりjフレーム分前のフレームのパワースペクトルであり、Δtはフレームの間隔である。
具体的な実施形態において、前記これらのフレームのパワースペクトルを線形重畳加算して現在フレームの後期反射音のパワースペクトルを推定する処理は、具体的に、移動平均MAモデルを用いて、これらのフレームのパワースペクトルにおける直接音及び早期反射音の成分を線形重畳加算して現在フレームの後期反射音のパワースペクトルを推定する処理を含む。
例えば、下記の数式で移動平均MAモデルを用いて現在フレームの後期反射音のパワースペクトルを推定する。


そのうち、R(t,f)は推定された後期反射音のパワースペクトルであり、J0は設定された持続時間範囲内の下限値から得た初期次数であり、JMAは設定された持続時間範囲内の上限値から得たMAモデルの次数であり、βj,fはMAモデル推定パラメータであり、


は現在フレームよりjフレーム分前のフレームの直接音及び早期反射音のパワースペクトルであり、Δtはフレームの間隔である。
具体的な実施形態において、前記これらのフレームのパワースペクトルを線形重畳加算して現在フレームの後期反射音のパワースペクトルを推定する処理は、具体的に、自己回帰ARモデルを用いて、これらのフレームのパワースペクトルにおける全ての成分を線形重畳加算するとともに、移動平均MAモデルを用いて、これらのフレームのパワースペクトルにおける直接音及び早期反射音の成分を線形重畳加算して現在フレームの後期反射音のパワースペクトルを推定する処理を含む。
例えば、下記の数式でARMAモデルを用いて現在フレームの後期反射音のパワースペクトルを推定する。


そのうち、R(t,f)は推定された後期反射音のパワースペクトルであり、J0は設定された持続時間範囲内の下限値から得た初期次数であり、JARは設定された持続時間範囲内の上限値から得たARモデルの次数であり、αj,fはARモデル推定パラメータであり、JMAは設定された持続時間範囲内の上限値から得たMAモデルの次数であり、βj,fはMAモデル推定パラメータであり、


は現在フレームよりjフレーム分前のフレームの直接音及び早期反射音のパワースペクトルであり、


は現在フレームよりjフレーム分前のフレームのパワースペクトルであり、Δtはフレームの間隔である。
ARモデル、MAモデル、ARMAモデルの解を具体的に求めるにあたって、先行技術に周知算法が存在しており、例えば、Yule-Walker方程式で解を求め、或は、Burgアルゴリズムを用いる。
スペクトル減算法を用いた残響除去において、後期反射音のパワースペクトルを推定することが最も重要である。先行技術に取り上げられた後期反射音のパワースペクトル推定は、そもそも上述したAR又はMA又はARMAモデルの1種の特例であると考えられ、また、その他の後期反射音のパワースペクトル推定方法は音声間歇段階において残響環境の残響時間(RT60)を推定し、後期反射音のパワースペクトル推定における重要なパラメータとするのは多い。本発明において、残響時間又は各種の環境に対するインパルス応答を推定する必要がないので、多種の異なる残響環境、及び、発話者が残響環境において移動することなどによる残響インパルス応答又は残響時間が変わった状況に適応することができる。
具体的な実施形態において、スペクトル減算法を用いて前記フレームのパワースペクトルから残響成分を除去する処理は、具体的に、後期反射音のパワースペクトルに基づいて、スペクトル減算法によって利得函数を求めてきて、利得函数を現在フレームのパワースペクトルと乗算して現在フレームの直接音及び早期反射音のパワースペクトルを得る。
後期反射音のパワースペクトルR(t,f)を推定終了後、残響除去された音声信号Y(t,f)はスペクトル減算法によって得られる。


そのうち、


はスペクトル減算法により得たGain(利得)函数である。
本発明の実施効果は図3に示す。残響信号(シングルチャンネル音声信号)が会議室から採取され、音源とマイクロフォンとの距離が2mとされ、残響時間が約0.45sとなる。本発明に取り上げられたARモデルに基づき、後期反射音のパワースペクトルを推定し、下限値を80msと設定し、上限値を0.5sと設定する。図示から分かるように、本発明の方法を用いて残響除去した後、残響テーリングが明らかに減衰し、音声の品質が顕著に向上した。
図4に示すように、本発明によるシングルチャンネル音声残響除去装置は、以下のユニットを含む。
フレーム分割ユニット100は、入力されたシングルチャンネル音声信号に対してフレーム分割を行い、時間の順に応じてフレーム信号をフーリエ変換ユニット200に出力するために用いられる。
フーリエ変換ユニット200は、現在フレームに対して短時間フーリエ変換を行い、現在フレームのパワースペクトル及び位相スペクトルを獲得して、スペクトル減算ユニット400及びスペクトル推定ユニット300に現在フレームのパワースペクトルを出力し、逆フーリエ変換ユニット500に位相スペクトルを出力するために用いられる。
スペクトル推定ユニット300は、現在フレームの前の、現在フレームに至るまでの距離が設定された持続時間範囲内である数フレームを選んで、これらのフレームのパワースペクトルを線形重畳加算して現在フレームの後期反射音のパワースペクトルを推定してから、スペクトル減算ユニット400に出力するために用いられる。
スペクトル減算ユニット400は、スペクトル減算法によって、フーリエ変換ユニット200より得た現在フレームのパワースペクトルから、スペクトル推定ユニット300より得た現在フレームの後期反射音のパワースペクトルを除去して、現在フレームの直接音及び早期反射音のパワースペクトルを獲得してから、逆フーリエ変換ユニット500に出力するために用いられる。
逆フーリエ変換ユニット500は、スペクトル減算ユニット400より得た現在フレームの直接音及び早期反射音のパワースペクトルを、フーリエ変換ユニット200より得た現在フレームの位相スペクトルとともに、短時間逆フーリエ変換を行い、現在フレーム残響除去後の信号を出力するために用いられる。
前記スペクトル推定ユニット300は、具体的に、後期反射音の減衰特性に基づいて前記持続時間範囲の上限値を設置するために用いられることが好ましい。
スペクトル推定ユニット300は、具体的に、音声関連特性及び直接音と早期反射音の残響環境下でのインパルス応答分布領域に基づいて、前記持続時間範囲の下限値を設定するために用いられることが好ましい。
スペクトル推定ユニット300は、具体的に、持続時間範囲の上限値は0.3s〜0.5sの範囲内の数値を選択するために用いられることが好ましい。
スペクトル推定ユニット300は、具体的に、持続時間範囲の下限値は50ms〜80msの範囲内の値を選択するために用いられることが好ましい。
具体的な実施形態の装置は、図5に示すように、前記スペクトル推定ユニット300が、具体的に、現在フレームの前の、現在フレームに至るまでの距離が設定された持続時間範囲内である数フレームに対して、自己回帰ARモデルを用いて、これらのフレームのパワースペクトルにおける全ての成分を線形重畳加算して現在フレームの後期反射音のパワースペクトルを推定するために用いられる。
例えば、下記の数式でARモデルを用いて現在フレームの後期反射音のパワースペクトルを推定する。


そのうち、R(t,f)は推定された後期反射音のパワースペクトルであり、J0は設定された持続時間範囲内の下限値から得た初期次数であり、JARは設定された持続時間範囲内の上限値から得たARモデルの次数であり、αj,fはARモデル推定パラメータであり、


は現在フレームよりjフレーム分前のフレームのパワースペクトルであり、Δtはフレームの間隔である。
もう1つの具体的な実施形態において、前記スペクトル推定ユニット300は、具体的に、現在フレームの前の、現在フレームに至るまでの距離が設定された持続時間範囲内である数フレームに対して、移動平均MAモデルを用いて、これらのフレームのパワースペクトルにおける直接音及び早期反射音の成分を線形重畳加算して現在フレームの後期反射音のパワースペクトルを推定するために用いられる。
例えば、下記の数式で移動平均MAモデルを用いて現在フレームの後期反射音のパワースペクトルを推定する。


そのうち、R(t,f)は推定された後期反射音のパワースペクトルであり、J0は設定された下限値から得た初期次数であり、JMAは設定された上限値から得たMAモデルの次数であり、βj,fはMAモデル推定パラメータであり、


は現在フレームよりjフレーム分前のフレームの直接音及び早期反射音のパワースペクトルであり、Δtはフレームの間隔である。
もう1つの具体的な実施形態において、前記スペクトル推定ユニット300は、具体的に、現在フレームの前の、現在フレームに至るまでの距離が設定された持続時間範囲内である数フレームに対して、自己回帰ARモデルを用いて、これらのフレームのパワースペクトルにおける全ての成分を線形重畳加算するとともに、移動平均MAモデルを用いて、これらのフレームのパワースペクトルにおける直接音及び早期反射音の成分を線形重畳加算して現在フレームの後期反射音のパワースペクトルを推定するために用いられる。
例えば、下記の数式でARMAモデルを用いて現在フレームの後期反射音のパワースペクトルを推定する。


そのうち、R(t,f)は推定された後期反射音のパワースペクトルであり、J0は設定された下限値から得た初期次数であり、JARは設定された上限値から得たARモデルの次数であり、αj,fはARモデル推定パラメータであり、JMAは設定された上限値から得たMAモデルの次数であり、βj,fはMAモデル推定パラメータであり、


は現在フレームよりjフレーム分前のフレームの直接音及び早期反射音のパワースペクトルであり、


は現在フレームよりjフレーム分前のフレームのパワースペクトルであり、Δtはフレームの間隔である。
ARモデル、MAモデル、ARMAモデルの解を具体的に求めるにあたって、先行技術に周知算法が存在しており、例えば、Yule-Walker方程式で解を求め、或は、Burgアルゴリズムを用いる。
前記スペクトル減算ユニット400は、具体的に、後期反射音のパワースペクトルに基づいて、スペクトル減算法によって利得函数を求めてきて、利得函数を現在フレームのパワースペクトルと乗算して現在フレームの直接音及び早期反射音のパワースペクトルを得るために用いられる。
後期反射音のパワースペクトルR(t,f)を推定終了後、残響除去された音声信号Y(t,f)はスペクトル減算法によって得られる。


そのうち、


はスペクトル減算法により得たGain(利得)函数である。
上述したのは、あくまでも本発明の好ましい実施例であり、本発明の保護範囲を限定するためのものではない。本発明の精神及び原則内になされたあらゆる変更、均等置換、改良等は、いずれも本発明の保護範囲内に含まれるものとする。

Claims (10)

  1. 入力されたシングルチャンネル音声信号に対してフレーム分割を行い、時間の順に応じてフレーム信号に対して、
    現在フレームに対して短時間フーリエ変換を行い、現在フレームのパワースペクトル及び位相スペクトルを獲得する処理と、
    現在フレームの前の、現在フレームに至るまでの距離が設定の持続時間範囲内である数フレームを選んで、これらのフレームのパワースペクトルを線形重畳加算して現在フレームの後期反射音のパワースペクトルを推定する処理であって、前記の現在フレームの後期反射音のパワースペクトルを推定するために残響時間を推定することが必要とされない処理と、
    スペクトル減算法によって、現在フレームのパワースペクトルから、推定された現在フレームの後期反射音のパワースペクトルを除去して、現在フレームの直接音及び早期反射音のパワースペクトルを獲得する処理と、
    現在フレームの直接音及び早期反射音のパワースペクトルを現在フレームの位相スペクトルとともに、短時間逆フーリエ変換を行い、現在フレーム残響除去後の信号を獲得する処理と、
    を行うことを含むことを特徴とするシングルチャンネル音声残響除去方法。
  2. 前記後期反射音の減衰特性に基づいて前記持続時間範囲の上限値が設定され、
    及び/又は、音声関連特性及び直接音と早期反射音の残響環境下でのインパルス応答分布領域に基づいて、前記持続時間範囲の下限値が設定されることを特徴とする請求項1に記載のシングルチャンネル音声残響除去方法。
  3. 前記持続時間範囲の上限値が0.3s〜0.5sの範囲内の値を選択することを特徴とする請求項1に記載のシングルチャンネル音声残響除去方法。
  4. 前記持続時間範囲の下限値が50ms〜80msの範囲内の値を選択することを特徴とする請求項1に記載のシングルチャンネル音声残響除去方法。
  5. 前記の、これらのフレームのパワースペクトルを線形重畳加算して現在フレームの後期反射音のパワースペクトルを推定する処理は、具体的に、
    自己回帰ARモデルを用いて、これらのフレームのパワースペクトルにおける全ての成分を線形重畳加算して現在フレームの後期反射音のパワースペクトルを推定する処理、
    或は、移動平均MAモデルを用いて、これらのフレームのパワースペクトルにおける直接音及び早期反射音の成分を線形重畳加算して現在フレームの後期反射音のパワースペクトルを推定する処理、
    或は、自己回帰ARモデルを用いて、これらのフレームのパワースペクトルにおける全ての成分を線形重畳加算するとともに、移動平均MAモデルを用いて、これらのフレームのパワースペクトルにおける直接音及び早期反射音の成分を線形重畳加算して現在フレームの後期反射音のパワースペクトルを推定する処理、
    を含むことを特徴とする請求項1に記載のシングルチャンネル音声残響除去方法。
  6. 入力されたシングルチャンネル音声信号に対してフレーム分割を行い、時間の順に応じてフレーム信号をフーリエ変換ユニットへ出力するためのフレーム分割ユニットと、
    受信された現在フレームに対して短時間フーリエ変換処理を行い、現在フレームのパワースペクトル及び位相スペクトルを獲得して、現在フレームのパワースペクトルをスペクトル減算ユニットとスペクトル推定ユニットへ出力し、位相スペクトルを逆フーリエ変換ユニットへ出力するためのフーリエ変換ユニットと、
    現在フレームの前の、現在フレームに至るまでの距離が設定の持続時間範囲内である数フレームのパワースペクトルを線形重畳加算して、現在フレームの後期反射音のパワースペクトルを推定し、推定された現在フレームの後期反射音のパワースペクトルをスペクトル減算ユニットへ出力するためのスペクトル推定ユニットであって、前記の現在フレームの後期反射音のパワースペクトルを推定するために残響時間を推定することが必要とされないスペクトル推定ユニットと、
    スペクトル減算法によって、フーリエ変換ユニットより獲得した現在フレームのパワースペクトルから、スペクトル推定ユニットより獲得した現在フレームの後期反射音のパワースペクトルを除去して、現在フレームの直接音及び早期反射音のパワースペクトルを獲得し、現在フレームの直接音及び早期反射音のパワースペクトルを逆フーリエ変換ユニットへ出力するためのスペクトル減算ユニットと、
    スペクトル減算ユニットより獲得した現在フレームの直接音及び早期反射音のパワースペクトルを、フーリエ変換ユニットより獲得した現在フレームの位相スペクトルとともに、短時間逆フーリエ変換を行い、現在フレーム残響除去後の信号を出力するための逆フーリエ変換ユニットと、
    を含むことを特徴とするシングルチャンネル音声残響除去装置。
  7. 前記スペクトル推定ユニットは、具体的に、後期反射音の減衰特性に基づいて前記持続時間範囲の上限値を設定し、及び/又は、音声関連特性及び直接音と早期反射音の残響環境下でのインパルス応答分布領域に基づいて、前記持続時間範囲の下限値を設定するために用いられることを特徴とする請求項6に記載のシングルチャンネル音声残響除去装置。
  8. 前記スペクトル推定ユニットは、具体的に、持続時間範囲の上限値が0.3s〜0.5sの範囲内の値を選択するために用いられることを特徴とする請求項6に記載のシングルチャンネル音声残響除去装置。
  9. 前記スペクトル推定ユニットは、具体的に、持続時間範囲の下限値が50ms〜80msの範囲内の値を選択するために用いられることを特徴とする請求項6に記載のシングルチャンネル音声残響除去装置。
  10. 前記スペクトル推定ユニットは、具体的に、
    現在フレームの前の、現在フレームに至るまでの距離が前記設定持続時間範囲内である数フレームに対して、自己回帰ARモデルを用いて、これらのフレームのパワースペクトルにおける全ての成分を線形重畳加算して現在フレームの後期反射音のパワースペクトルを推定するか、
    或は、現在フレームの前の、現在フレームに至るまでの距離が前記設定持続時間範囲内である数フレームに対して、移動平均MAモデルを用いて、これらのフレームのパワースペクトルにおける直接音及び早期反射音の成分を線形重畳加算して現在フレームの後期反射音のパワースペクトルを推定するか、
    或は、現在フレームの前の、現在フレームに至るまでの距離が前記設定持続時間範囲内である数フレームに対して、自己回帰ARモデルを用いて、これらのフレームのパワースペクトルにおける全ての成分を線形重畳加算するとともに、移動平均MAモデルを用いて、これらのフレームのパワースペクトルにおける直接音及び早期反射音の成分を線形重畳加算して現在フレームの後期反射音のパワースペクトルを推定する、
    ために用いられることを特徴とする請求項6に記載のシングルチャンネル音声残響除去装置。
JP2016211765A 2012-06-18 2016-10-28 シングルチャンネル音声残響除去方法及びその装置 Active JP6431884B2 (ja)

Applications Claiming Priority (2)

Application Number Priority Date Filing Date Title
CN201210201879.7 2012-06-18
CN201210201879.7A CN102750956B (zh) 2012-06-18 2012-06-18 一种单通道语音去混响的方法和装置

Related Parent Applications (1)

Application Number Title Priority Date Filing Date
JP2015516415A Division JP2015519614A (ja) 2012-06-18 2013-04-01 シングルチャンネル音声残響除去方法及びその装置

Publications (3)

Publication Number Publication Date
JP2017021385A JP2017021385A (ja) 2017-01-26
JP2017021385A5 JP2017021385A5 (ja) 2017-03-02
JP6431884B2 true JP6431884B2 (ja) 2018-11-28

Family

ID=47031075

Family Applications (2)

Application Number Title Priority Date Filing Date
JP2015516415A Pending JP2015519614A (ja) 2012-06-18 2013-04-01 シングルチャンネル音声残響除去方法及びその装置
JP2016211765A Active JP6431884B2 (ja) 2012-06-18 2016-10-28 シングルチャンネル音声残響除去方法及びその装置

Family Applications Before (1)

Application Number Title Priority Date Filing Date
JP2015516415A Pending JP2015519614A (ja) 2012-06-18 2013-04-01 シングルチャンネル音声残響除去方法及びその装置

Country Status (7)

Country Link
US (1) US9269369B2 (ja)
EP (1) EP2863391B1 (ja)
JP (2) JP2015519614A (ja)
KR (1) KR101614647B1 (ja)
CN (1) CN102750956B (ja)
DK (1) DK2863391T3 (ja)
WO (1) WO2013189199A1 (ja)

Families Citing this family (26)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN102750956B (zh) 2012-06-18 2014-07-16 歌尔声学股份有限公司 一种单通道语音去混响的方法和装置
CN104867497A (zh) * 2014-02-26 2015-08-26 北京信威通信技术股份有限公司 一种语音降噪方法
JP6371167B2 (ja) * 2014-09-03 2018-08-08 リオン株式会社 残響抑制装置
CN106504763A (zh) * 2015-12-22 2017-03-15 电子科技大学 基于盲源分离与谱减法的麦克风阵列多目标语音增强方法
CN107358962B (zh) * 2017-06-08 2018-09-04 腾讯科技(深圳)有限公司 音频处理方法及音频处理装置
EP3460795A1 (en) * 2017-09-21 2019-03-27 Fraunhofer-Gesellschaft zur Förderung der angewandten Forschung e.V. Signal processor and method for providing a processed audio signal reducing noise and reverberation
CN109754821B (zh) * 2017-11-07 2023-05-02 北京京东尚科信息技术有限公司 信息处理方法及其系统、计算机系统和计算机可读介质
CN110111802B (zh) * 2018-02-01 2021-04-27 南京大学 基于卡尔曼滤波的自适应去混响方法
US10726857B2 (en) * 2018-02-23 2020-07-28 Cirrus Logic, Inc. Signal processing for speech dereverberation
CN108986799A (zh) * 2018-09-05 2018-12-11 河海大学 一种基于倒谱滤波的混响参数估计方法
CN109584896A (zh) * 2018-11-01 2019-04-05 苏州奇梦者网络科技有限公司 一种语音芯片及电子设备
CN112997249B (zh) * 2018-11-30 2022-06-14 深圳市欢太科技有限公司 语音处理方法、装置、存储介质及电子设备
CN110364161A (zh) * 2019-08-22 2019-10-22 北京小米智能科技有限公司 响应语音信号的方法、电子设备、介质及系统
CN111123202B (zh) * 2020-01-06 2022-01-11 北京大学 一种室内早期反射声定位方法及系统
EP3863303B1 (en) * 2020-02-06 2022-11-23 Universität Zürich Estimating a direct-to-reverberant ratio of a sound signal
CN111489760B (zh) * 2020-04-01 2023-05-16 腾讯科技(深圳)有限公司 语音信号去混响处理方法、装置、计算机设备和存储介质
KR102191736B1 (ko) 2020-07-28 2020-12-16 주식회사 수퍼톤 인공신경망을 이용한 음성향상방법 및 장치
CN112599126B (zh) * 2020-12-03 2022-05-27 海信视像科技股份有限公司 一种智能设备的唤醒方法、智能设备及计算设备
CN112863536A (zh) * 2020-12-24 2021-05-28 深圳供电局有限公司 环境噪声提取方法、装置、计算机设备和存储介质
CN113160842B (zh) * 2021-03-06 2024-04-09 西安电子科技大学 一种基于mclp的语音去混响方法及系统
CN113362841B (zh) * 2021-06-10 2023-05-02 北京小米移动软件有限公司 音频信号处理方法、装置和存储介质
CN113223543B (zh) * 2021-06-10 2023-04-28 北京小米移动软件有限公司 语音增强方法、装置和存储介质
CN114333876B (zh) * 2021-11-25 2024-02-09 腾讯科技(深圳)有限公司 信号处理的方法和装置
CN114255777B (zh) * 2021-12-20 2024-11-19 宁波蛙声科技有限公司 实时语音去混响的混合方法及系统
CN114898771B (zh) * 2022-03-25 2025-01-17 沈阳化工大学 一种适用于美声教学的发声训练方法
CN114898763A (zh) * 2022-05-27 2022-08-12 随锐科技集团股份有限公司 用于预测混响时间的方法及其相关产品

Family Cites Families (34)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US5029509A (en) * 1989-05-10 1991-07-09 Board Of Trustees Of The Leland Stanford Junior University Musical synthesizer combining deterministic and stochastic waveforms
JPH0739968B2 (ja) * 1991-03-25 1995-05-01 日本電信電話株式会社 音響伝達特性模擬方法
JPH1091194A (ja) * 1996-09-18 1998-04-10 Sony Corp 音声復号化方法及び装置
US6011846A (en) * 1996-12-19 2000-01-04 Nortel Networks Corporation Methods and apparatus for echo suppression
US6261101B1 (en) * 1997-12-17 2001-07-17 Scientific Learning Corp. Method and apparatus for cognitive training of humans using adaptive timing of exercises
US6496795B1 (en) * 1999-05-05 2002-12-17 Microsoft Corporation Modulated complex lapped transform for integrated signal enhancement and coding
US6618712B1 (en) * 1999-05-28 2003-09-09 Sandia Corporation Particle analysis using laser ablation mass spectroscopy
JP2001175298A (ja) * 1999-12-13 2001-06-29 Fujitsu Ltd 騒音抑圧装置
JP2003533753A (ja) * 2000-05-17 2003-11-11 コーニンクレッカ フィリップス エレクトロニクス エヌ ヴィ スペクトルのモデル化
WO2002011326A2 (en) * 2000-07-27 2002-02-07 Activated Content Corporation, Inc. Stegotext encoder and decoder
US6862558B2 (en) * 2001-02-14 2005-03-01 The United States Of America As Represented By The Administrator Of The National Aeronautics And Space Administration Empirical mode decomposition for analyzing acoustical signals
EP1757165B1 (en) * 2004-06-08 2011-12-28 Koninklijke Philips Electronics N.V. Coding reverberant sound signals
KR101149591B1 (ko) * 2004-07-22 2012-05-29 코닌클리케 필립스 일렉트로닉스 엔.브이. 오디오 신호 반향 억제
CN101040512B (zh) * 2004-10-13 2010-05-26 皇家飞利浦电子股份有限公司 回波抵消设备与方法
JP4486527B2 (ja) * 2005-03-07 2010-06-23 日本電信電話株式会社 音響信号分析装置およびその方法、プログラム、記録媒体
JP2007065204A (ja) * 2005-08-30 2007-03-15 Nippon Telegr & Teleph Corp <Ntt> 残響除去装置、残響除去方法、残響除去プログラム及びその記録媒体
JP4774100B2 (ja) * 2006-03-03 2011-09-14 日本電信電話株式会社 残響除去装置、残響除去方法、残響除去プログラム及び記録媒体
EP1885154B1 (en) * 2006-08-01 2013-07-03 Nuance Communications, Inc. Dereverberation of microphone signals
JP4107613B2 (ja) * 2006-09-04 2008-06-25 インターナショナル・ビジネス・マシーンズ・コーポレーション 残響除去における低コストのフィルタ係数決定法
US8036767B2 (en) * 2006-09-20 2011-10-11 Harman International Industries, Incorporated System for extracting and changing the reverberant content of an audio input signal
US7856353B2 (en) * 2007-08-07 2010-12-21 Nuance Communications, Inc. Method for processing speech signal data with reverberation filtering
JP5178370B2 (ja) * 2007-08-09 2013-04-10 本田技研工業株式会社 音源分離システム
US20090154726A1 (en) * 2007-08-22 2009-06-18 Step Labs Inc. System and Method for Noise Activity Detection
EP2058804B1 (en) * 2007-10-31 2016-12-14 Nuance Communications, Inc. Method for dereverberation of an acoustic signal and system thereof
JP4532576B2 (ja) * 2008-05-08 2010-08-25 トヨタ自動車株式会社 処理装置、音声認識装置、音声認識システム、音声認識方法、及び音声認識プログラム
JP2009276365A (ja) * 2008-05-12 2009-11-26 Toyota Motor Corp 処理装置、音声認識装置、音声認識システム、音声認識方法
CN101315772A (zh) * 2008-07-17 2008-12-03 上海交通大学 基于维纳滤波的语音混响消减方法
JP4977100B2 (ja) * 2008-08-11 2012-07-18 日本電信電話株式会社 残響除去装置、残響除去方法、そのプログラムおよび記録媒体
JP4960933B2 (ja) * 2008-08-22 2012-06-27 日本電信電話株式会社 音響信号強調装置とその方法と、プログラムと記録媒体
JP5645419B2 (ja) * 2009-08-20 2014-12-24 三菱電機株式会社 残響除去装置
US20120328112A1 (en) * 2010-03-10 2012-12-27 Siemens Medical Instruments Pte. Ltd. Reverberation reduction for signals in a binaural hearing apparatus
CN102576543B (zh) * 2010-07-26 2014-09-10 松下电器产业株式会社 多输入噪声抑制装置、多输入噪声抑制方法以及集成电路
JP5751110B2 (ja) * 2011-09-22 2015-07-22 富士通株式会社 残響抑制装置および残響抑制方法並びに残響抑制プログラム
CN102750956B (zh) * 2012-06-18 2014-07-16 歌尔声学股份有限公司 一种单通道语音去混响的方法和装置

Also Published As

Publication number Publication date
CN102750956B (zh) 2014-07-16
JP2015519614A (ja) 2015-07-09
EP2863391B1 (en) 2020-05-20
EP2863391A1 (en) 2015-04-22
US20150149160A1 (en) 2015-05-28
EP2863391A4 (en) 2015-09-09
JP2017021385A (ja) 2017-01-26
US9269369B2 (en) 2016-02-23
CN102750956A (zh) 2012-10-24
WO2013189199A1 (zh) 2013-12-27
KR20150005719A (ko) 2015-01-14
DK2863391T3 (da) 2020-08-03
KR101614647B1 (ko) 2016-04-21

Similar Documents

Publication Publication Date Title
JP6431884B2 (ja) シングルチャンネル音声残響除去方法及びその装置
US10891931B2 (en) Single-channel, binaural and multi-channel dereverberation
JP6534180B2 (ja) 適応ビーム形成のための事前白色化を用いる適応ブロック行列
JP2017021385A5 (ja)
RU2013123696A (ru) Эхоподавление, содержащее моделирование компонентов поздней реверберации
Mosayyebpour et al. Single-microphone early and late reverberation suppression in noisy speech
JP2013130857A (ja) 音響処理装置
JP2020537172A (ja) ノイズと残響を減少させた音声信号を提供する信号処理装置及び方法
JP5645419B2 (ja) 残響除去装置
CN106340302A (zh) 一种语音数据的去混响方法及装置
JP6665353B2 (ja) ビームフォーミングを使用するオーディオキャプチャ
CN202887704U (zh) 一种单通道语音去混响装置
Astudillo et al. Integration of beamforming and automatic speech recognition through propagation of the wiener posterior
JP2010011272A (ja) 音響エコーキャンセラ
JP6102053B2 (ja) 音響処理装置および音響処理方法

Legal Events

Date Code Title Description
A621 Written request for application examination

Free format text: JAPANESE INTERMEDIATE CODE: A621

Effective date: 20161125

A521 Request for written amendment filed

Free format text: JAPANESE INTERMEDIATE CODE: A523

Effective date: 20161219

A131 Notification of reasons for refusal

Free format text: JAPANESE INTERMEDIATE CODE: A131

Effective date: 20180130

A521 Request for written amendment filed

Free format text: JAPANESE INTERMEDIATE CODE: A523

Effective date: 20180501

TRDD Decision of grant or rejection written
A01 Written decision to grant a patent or to grant a registration (utility model)

Free format text: JAPANESE INTERMEDIATE CODE: A01

Effective date: 20181030

A61 First payment of annual fees (during grant procedure)

Free format text: JAPANESE INTERMEDIATE CODE: A61

Effective date: 20181105

R150 Certificate of patent or registration of utility model

Ref document number: 6431884

Country of ref document: JP

Free format text: JAPANESE INTERMEDIATE CODE: R150

R250 Receipt of annual fees

Free format text: JAPANESE INTERMEDIATE CODE: R250

R250 Receipt of annual fees

Free format text: JAPANESE INTERMEDIATE CODE: R250

R250 Receipt of annual fees

Free format text: JAPANESE INTERMEDIATE CODE: R250

R250 Receipt of annual fees

Free format text: JAPANESE INTERMEDIATE CODE: R250