JP6434657B2 - 空間相関行列推定装置、空間相関行列推定方法および空間相関行列推定プログラム - Google Patents
空間相関行列推定装置、空間相関行列推定方法および空間相関行列推定プログラム Download PDFInfo
- Publication number
- JP6434657B2 JP6434657B2 JP2017554190A JP2017554190A JP6434657B2 JP 6434657 B2 JP6434657 B2 JP 6434657B2 JP 2017554190 A JP2017554190 A JP 2017554190A JP 2017554190 A JP2017554190 A JP 2017554190A JP 6434657 B2 JP6434657 B2 JP 6434657B2
- Authority
- JP
- Japan
- Prior art keywords
- spatial correlation
- correlation matrix
- mask
- matrix
- coefficient
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Active
Links
- 239000011159 matrix material Substances 0.000 title claims description 296
- 238000000034 method Methods 0.000 title claims description 47
- 238000009826 distribution Methods 0.000 claims description 83
- 239000013598 vector Substances 0.000 claims description 65
- 238000004364 calculation method Methods 0.000 claims description 13
- 230000008569 process Effects 0.000 claims description 13
- 230000008859 change Effects 0.000 claims description 5
- 230000017105 transposition Effects 0.000 claims description 3
- 230000014509 gene expression Effects 0.000 description 50
- 238000012545 processing Methods 0.000 description 14
- 238000010586 diagram Methods 0.000 description 12
- 230000006870 function Effects 0.000 description 11
- 239000000203 mixture Substances 0.000 description 6
- 238000012790 confirmation Methods 0.000 description 5
- 230000000694 effects Effects 0.000 description 5
- 238000002474 experimental method Methods 0.000 description 5
- 230000010365 information processing Effects 0.000 description 4
- 238000000926 separation method Methods 0.000 description 4
- 238000007796 conventional method Methods 0.000 description 2
- 239000000284 extract Substances 0.000 description 2
- 230000010354 integration Effects 0.000 description 2
- 230000004044 response Effects 0.000 description 2
- 238000007476 Maximum Likelihood Methods 0.000 description 1
- 230000004069 differentiation Effects 0.000 description 1
- 230000000873 masking effect Effects 0.000 description 1
- 238000010295 mobile communication Methods 0.000 description 1
- 230000003287 optical effect Effects 0.000 description 1
- 238000012946 outsourcing Methods 0.000 description 1
- 230000009467 reduction Effects 0.000 description 1
- 239000010454 slate Substances 0.000 description 1
- 239000007787 solid Substances 0.000 description 1
- 230000003595 spectral effect Effects 0.000 description 1
- 230000001360 synchronised effect Effects 0.000 description 1
- 238000012546 transfer Methods 0.000 description 1
Images
Classifications
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L21/00—Speech or voice signal processing techniques to produce another audible or non-audible signal, e.g. visual or tactile, in order to modify its quality or its intelligibility
- G10L21/02—Speech enhancement, e.g. noise reduction or echo cancellation
- G10L21/0208—Noise filtering
- G10L21/0216—Noise filtering characterised by the method used for estimating noise
- G10L21/0232—Processing in the frequency domain
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L21/00—Speech or voice signal processing techniques to produce another audible or non-audible signal, e.g. visual or tactile, in order to modify its quality or its intelligibility
- G10L21/02—Speech enhancement, e.g. noise reduction or echo cancellation
- G10L21/0208—Noise filtering
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L21/00—Speech or voice signal processing techniques to produce another audible or non-audible signal, e.g. visual or tactile, in order to modify its quality or its intelligibility
- G10L21/02—Speech enhancement, e.g. noise reduction or echo cancellation
- G10L21/0272—Voice signal separating
- G10L21/0308—Voice signal separating characterised by the type of parameter measurement, e.g. correlation techniques, zero crossing techniques or predictive techniques
Landscapes
- Engineering & Computer Science (AREA)
- Computational Linguistics (AREA)
- Quality & Reliability (AREA)
- Signal Processing (AREA)
- Health & Medical Sciences (AREA)
- Audiology, Speech & Language Pathology (AREA)
- Human Computer Interaction (AREA)
- Physics & Mathematics (AREA)
- Acoustics & Sound (AREA)
- Multimedia (AREA)
- Measurement Of Velocity Or Position Using Acoustic Or Ultrasonic Waves (AREA)
- Circuit For Audible Band Transducer (AREA)
Description
まず、第1の実施形態に係る空間相関行列推定装置の構成、処理の流れおよび効果を説明する。なお、第1の実施形態においては、N個の目的音源(ただし、Nは1以上の整数)に対応するN個の第1の音響信号と、背景雑音に対応する第2の音響信号とが混在する状況において、それぞれ異なる位置で収録されたM個(ただし、Mは2以上の整数)の観測信号が空間相関行列推定装置に入力されるものとする。
図1を用いて、第1の実施形態の構成について説明する。図1は、第1の実施形態に係る空間相関行列推定装置の構成の一例を示す図である。図1に示すように、空間相関行列推定装置1は、時間周波数分析部10、マスク推定部20、観測特徴量行列計算部30、雑音下目的音空間相関行列推定部40、雑音空間相関行列推定部50および目的音空間相関行列雑音除去部60を有する。
第1の実施形態について、具体例を用いて説明する。まず、N=1の場合、空間相関行列推定装置1は、例えば背景雑音下でM=2以上のマイクで収録された、1人の人が話している声について、雑音の影響を除いた空間相関行列を推定する。また、N>1の場合、空間相関行列推定装置1は、例えばM>1個のマイクロホンで収録された、N人による会話について、雑音の影響を除いた空間相関行列を話者ごとに推定する。
次に、マスク推定部20の具体例について図2を用いて説明する。図2は、第1の実施形態に係る空間相関行列推定装置のマスク推定部の構成の一例を示す図である。マスク推定部20は、観測特徴量ベクトルの確率分布を、混合複素ガウス分布を用いてモデル化することで、マスクを推定する。
実施例3では、実施例2のマスク推定方法で発生するパーミュテーション問題の解決方法について説明する。実施例2において、マスク推定部20は、周波数fごとに、マスクφn(t,f)とφv(t,f)を求めていた。しかし、各周波数で推定されたマスクにおいて、雑音に対応するマスクが目的音源のマスクと入れ替わっていたり、異なる周波数間で、同じ目的音源に対応するマスクが、異なる目的音源番号に対応付けられたりすることが起きる。
(1)各周波数において、どのマスクが背景雑音に対応するかを定める。
(2)異なる周波数間で、同じ目的音源に対応するマスクが、同じ音源番号に関連付けられるようにする。
各nに対し、Bn(f)のM個の固有値を求め、それらを値の大きいものから順に並べてできるベクトルγn(f)を式(51)のように構成する。
γn(f)の分布の平坦さの度合いを評価する関数E(・)を用意し、その値が最も大きいnに対応する番号nvを、式(52)により求める。
nvに対応するマスクを、背景雑音に対応するマスクとして定める。E(・)の定め方としては、例えば、式(53)に示すような、ベクトルの要素を足して1になるように正規化したγn(f)のエントロピーを求める関数として、式(54)のように定めることが可能である。
会話への参加人数Nが既知であるとし、マスク推定部20は、実施例2の方法で推定されたマスクのうち、背景雑音のマスクを除いたN個のマスクをφn(t,f)(n=1,…,N)とする。
マスク推定部20は、式(41)および式(42)によるマスクの推定において、Bn(f)を、話者の位置ごとにあらかじめ学習した空間相関行列Bn trained(f)に固定する。Bn trained(f)は、例えば、学習データとして話者の位置ごとの観測信号をあらかじめ用意し、その学習データにて実施例2の方法でマスクを推定し、式(47)の結果として得られたBn(f)である。
手段(2−3)において、マスク推定部20は、手段(2−2)において、Bn(f)の初期値をBn trained(f)とし、実施例2の方法でマスクを推定する。手段(2−2)は、椅子の位置がほぼ固定されているが、椅子にキャスターがついていること等により話者の位置が会話中に少しずつ変動するような場合に有効である。
手段(2−4)において、マスク推定部20は、Bn trained(f)をBn(f)の事前情報として用いながらマスクの推定を行う。具体的に、マスク推定部20は、式(47)の推定を、η(0〜1までの間の実数)を重みとして、式(56)により行う。
実施例4として、空間相関行列推定装置1によって得られた目的音源の空間相関行列を用いて、方向推定を行なう場合について説明する。まず、実施例1と同様の手順で、音源nに関するステアリングベクトルが式(57)のように得られているとする。
図3を用いて、第1の実施形態の空間相関行列推定装置1の処理について説明する。図3は、第1の実施形態に係る空間相関行列推定装置の処理の一例を示す図である。まず、図3に示すように、時間周波数分析部10は、観測信号を取得し(ステップS10)、短時間フーリエ変換等の短時間信号分析を用いて時間周波数点ごとの信号特徴量を計算し(ステップS11)、観測特徴量ベクトルを構成する(ステップS12)。
本発明の効果を確認するために、従来の方法および第1の実施形態を用いた確認実験について説明する。
確認実験1では、バスの中、カフェ等の背景雑音の存在する環境下において、1人の話者(N=1)がタブレットに向かって文章を読み上げている状況で、タブレットに装着されたM=6個のマイクで信号を収録した。このとき、収録した信号に対して、各方法を用いて音声認識を行った場合の音声認識精度は下記の通りであった。下記の結果より、第1の実施形態を適用することで、音声認識精度が向上することが確認できた。
(1)そのまま音声認識をした場合:87.11(%)
(2)Watson分布でマスク推定をした後、MVDRを適応した場合(従来の方法):89.40(%)
(3)第1の実施形態を適用し、オフラインでマスク推定した後、MVDRを適応した場合(実施例1、オフライン):91.54(%)
(4)第1の実施形態を適用し、事前学習したパラメータを初期値として、オンラインでマスク推定した後、MVDRを適応した場合(実施例1、オンライン):91.80(%)
確認実験2では、通常の会議室において、4人の話者(N=4)が直径1.2mの円卓を囲んで自由に会話している状況で、円卓中央のM=8個のマイクで信号を収録した。このとき、収録した信号に対して、各方法を用いて音声認識を行った場合の音声認識精度は下記の通りであった。下記の結果より、第1の実施形態を適用することで、音声認識精度が向上することが確認できた。
(1)そのまま音声認識をした場合:20.9(%)
(2)第1の実施形態を適用し、オフラインでマスク推定した後、MVDRを適応した場合(実施例1、オフライン):54.0(%)
(3)第1の実施形態を適用し、オンラインでマスク推定した後、MVDRを適応した場合(実施例1、オンライン):52.0(%)
また、図示した各装置の各構成要素は機能概念的なものであり、必ずしも物理的に図示の如く構成されていることを要しない。すなわち、各装置の分散・統合の具体的形態は図示のものに限られず、その全部または一部を、各種の負荷や使用状況等に応じて、任意の単位で機能的または物理的に分散・統合して構成することができる。さらに、各装置にて行なわれる各処理機能は、その全部または任意の一部が、CPU(Central Processing Unit)および当該CPUにて解析実行されるプログラムにて実現され、あるいは、ワイヤードロジックによるハードウェアとして実現され得る。
一実施形態として、空間相関行列推定装置は、パッケージソフトウェアやオンラインソフトウェアとして上記の空間相関行列推定を実行する空間相関行列推定プログラムを所望のコンピュータにインストールさせることによって実装できる。例えば、上記の空間相関行列推定プログラムを情報処理装置に実行させることにより、情報処理装置を空間相関行列推定装置として機能させることができる。ここで言う情報処理装置には、デスクトップ型またはノート型のパーソナルコンピュータが含まれる。また、その他にも、情報処理装置にはスマートフォン、携帯電話機やPHS(Personal Handyphone System)等の移動体通信端末、さらには、PDA(Personal Digital Assistant)等のスレート端末等がその範疇に含まれる。
10 時間周波数分析部
20 マスク推定部
30 観測特徴量行列計算部
40 雑音下目的音空間相関行列推定部
50 雑音空間相関行列推定部
60 目的音空間相関行列雑音除去部
201 事後確率推定部
202 パラメータ更新部
203 パラメータ初期化部
204 パラメータ保持部
Claims (12)
- N個の目的音源(ただし、Nは1以上の整数)に対応するN個の第1の音響信号と、背景雑音に対応する第2の音響信号とが混在する状況において、それぞれ異なる位置で収録されたM個(ただし、Mは2以上の整数)の観測信号に基づいて計算される観測特徴量ベクトルに基づいて、時間周波数点ごとの、前記第1の音響信号が前記観測信号の特徴量に含まれる割合である第1のマスクと、時間周波数点ごとの、前記第2の音響信号が前記観測信号の特徴量に含まれる割合である第2のマスクと、を推定し、前記第1のマスクおよび前記第2のマスクに基づいて前記目的音源の空間相関行列を推定する空間相関行列推定装置であって、
前記観測信号および前記第1のマスクに基づいて計算された第1の特徴量行列を第1の係数で重み付けした第1の空間相関行列と、前記観測信号および前記第2のマスクに基づいて計算された第2の特徴量行列を第2の係数で重み付けした第2の空間相関行列と、に基づいて前記目的音源の空間相関行列を推定する雑音除去部を有することを特徴とする空間相関行列推定装置。 - 前記雑音除去部は、背景雑音の空間相関行列が時間的に変化しないとの条件下において、前記目的音源の空間相関行列の推定値に含まれる背景雑音由来の成分が0となるように、前記第1の係数及び前記第2の係数を計算することを特徴とする請求項1に記載の空間相関行列推定装置。
- 前記雑音除去部は、前記第1の係数と前記第2の係数との比率が、前記第1のマスクの時間平均値の逆数と前記第2のマスクの時間平均値の逆数との比率に等しくなるように、前記第1の係数及び前記第2の係数を計算することを特徴とする請求項1または2に記載の空間相関行列推定装置。
- 前記第1の空間相関行列は、N=1である場合、前記観測特徴量ベクトルに基づいて計算された観測特徴量行列の周波数ごとの時間平均であることを特徴とする請求項1から3のいずれか1項に記載の空間相関行列推定装置。
- 前記観測信号に短時間信号分析を適用し、時間周波数点ごとの信号特徴量を抽出し、前記信号特徴量を成分とするM次元縦ベクトルである観測特徴量ベクトルを時間周波数点ごとに計算する時間周波数分析部と、
前記観測特徴量ベクトルに基づいて、時間周波数点ごとに、前記観測特徴量ベクトルと該観測特徴量ベクトルのエルミート転置とを乗じて観測特徴量行列を計算する観測特徴量行列計算部と、
前記目的音源のそれぞれについて、時間周波数点ごとに前記観測特徴量行列と前記第1のマスクを乗じて得られる行列の周波数ごとの時間平均を第1の特徴量行列として計算し、前記第1の特徴量行列に前記第1の係数を乗じることで前記第1の空間相関行列を推定する雑音下目的音空間相関行列推定部と、
前記背景雑音について、時間周波数点ごとに前記観測特徴量行列と前記第2のマスクを乗じて得られる行列の周波数ごとの時間平均を第2の特徴量行列として計算し、前記第2の特徴量行列に前記第2の係数を乗じることで前記第2の空間相関行列を推定する雑音空間相関行列推定部と、
をさらに有し、
前記雑音除去部は、前記第1の空間相関行列から前記第2の空間相関行列を減じることで前記目的音源の空間相関行列を推定し、
前記第1の係数と前記第2の係数との比率は、前記第1のマスクの時間平均値の逆数と前記第2のマスクの時間平均値の逆数との比率に等しいことを特徴とする請求項1に記載の空間相関行列推定装置。 - 前記観測特徴量ベクトルの確率分布を、共分散行列が時刻ごとに異なる値を取るスカラーパラメータと時不変のパラメータとを要素にもつ正定値エルミート行列の積で表される、平均0のM次元複素ガウス分布であるN+1個の要素分布からなる混合分布で周波数ごとにモデル化し、前記混合分布が前記観測特徴量ベクトルの分布に近くなるように前記混合分布のパラメータを推定することで得られる前記要素分布のそれぞれの事後確率を、前記第1のマスクおよび前記第2のマスクとするマスク推定部をさらに有することを特徴とする請求項1から5のいずれか1項に記載の空間相関行列推定装置。
- 前記マスク推定部は、前記要素分布のうち、前記時不変のパラメータを要素に持つ正定値エルミート行列の固有値の分布の形状が最も平坦である要素分布の事後確率を前記第2のマスクとすることを特徴とする請求項6に記載の空間相関行列推定装置。
- N個の目的音源(ただし、Nは1以上の整数)に対応するN個の第1の音響信号と、背景雑音に対応する第2の音響信号とが混在する状況において、それぞれ異なる位置で収録されたM個(ただし、Mは2以上の整数)の観測信号に基づいて計算される観測特徴量ベクトルに基づいて、時間周波数点ごとの、前記第1の音響信号が前記観測信号の特徴量に含まれる割合である第1のマスクと、時間周波数点ごとの、前記第2の音響信号が前記観測信号の特徴量に含まれる割合である第2のマスクと、を推定し、前記第1のマスクおよび前記第2のマスクに基づいて前記目的音源の空間相関行列を推定する空間相関行列推定方法であって、
前記観測信号および前記第1のマスクに基づいて計算された第1の特徴量行列を第1の係数で重み付けした第1の空間相関行列と、前記観測信号および前記第2のマスクに基づいて計算された第2の特徴量行列を第2の係数で重み付けした第2の空間相関行列と、に基づいて前記目的音源の空間相関行列を推定する雑音除去工程を含んだことを特徴とする空間相関行列推定方法。 - 前記雑音除去工程は、背景雑音の空間相関行列が時間的に変化しないとの条件下において、前記目的音源の空間相関行列の推定値に含まれる背景雑音由来の成分が0となるように、前記第1の係数及び前記第2の係数を計算することを特徴とする請求項8に記載の空間相関行列推定方法。
- 前記雑音除去工程は、前記第1の係数と前記第2の係数との比率が、前記第1のマスクの時間平均値の逆数と前記第2のマスクの時間平均値の逆数との比率に等しくなるように、前記第1の係数及び前記第2の係数を計算することを特徴とする請求項8または9に記載の空間相関行列推定方法。
- 前記観測信号に短時間信号分析を適用し、時間周波数点ごとの信号特徴量を抽出し、前記信号特徴量を成分とするM次元縦ベクトルである観測特徴量ベクトルを時間周波数点ごとに計算する時間周波数分析工程と、
前記観測特徴量ベクトルに基づいて、時間周波数点ごとに、前記観測特徴量ベクトルと該観測特徴量ベクトルのエルミート転置とを乗じて観測特徴量行列を計算する観測特徴量行列計算工程と、
前記目的音源のそれぞれについて、時間周波数点ごとに前記観測特徴量行列と前記第1のマスクを乗じて得られる行列の周波数ごとの時間平均を第1の特徴量行列として計算し、前記第1の特徴量行列に前記第1の係数を乗じることで前記第1の空間相関行列を推定する雑音下目的音空間相関行列推定工程と、
前記背景雑音について、時間周波数点ごとに前記観測特徴量行列と前記第2のマスクを乗じて得られる行列の周波数ごとの時間平均を第2の特徴量行列として計算し、前記第2の特徴量行列に前記第2の係数を乗じることで前記第2の空間相関行列を推定する雑音空間相関行列推定工程と、
をさらに含み、
前記雑音除去工程は、前記第1の空間相関行列から前記第2の空間相関行列を減じることで前記目的音源の空間相関行列を推定し、
前記第1の係数と前記第2の係数との比率は、前記第1のマスクの時間平均値の逆数と前記第2のマスクの時間平均値の逆数との比率に等しいことを特徴とする請求項8に記載の空間相関行列推定方法。 - コンピュータに、請求項8から11のいずれか1項に記載の空間相関行列推定方法を実行させるための空間相関行列推定プログラム。
Applications Claiming Priority (3)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
JP2015236158 | 2015-12-02 | ||
JP2015236158 | 2015-12-02 | ||
PCT/JP2016/085821 WO2017094862A1 (ja) | 2015-12-02 | 2016-12-01 | 空間相関行列推定装置、空間相関行列推定方法および空間相関行列推定プログラム |
Publications (2)
Publication Number | Publication Date |
---|---|
JPWO2017094862A1 JPWO2017094862A1 (ja) | 2018-04-05 |
JP6434657B2 true JP6434657B2 (ja) | 2018-12-05 |
Family
ID=58797513
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
JP2017554190A Active JP6434657B2 (ja) | 2015-12-02 | 2016-12-01 | 空間相関行列推定装置、空間相関行列推定方法および空間相関行列推定プログラム |
Country Status (4)
Country | Link |
---|---|
US (1) | US10643633B2 (ja) |
JP (1) | JP6434657B2 (ja) |
CN (1) | CN108292508B (ja) |
WO (1) | WO2017094862A1 (ja) |
Families Citing this family (16)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
US11346917B2 (en) | 2016-08-23 | 2022-05-31 | Sony Corporation | Information processing apparatus and information processing method |
JP6711789B2 (ja) * | 2017-08-30 | 2020-06-17 | 日本電信電話株式会社 | 目的音声抽出方法、目的音声抽出装置及び目的音声抽出プログラム |
US20210098014A1 (en) * | 2017-09-07 | 2021-04-01 | Mitsubishi Electric Corporation | Noise elimination device and noise elimination method |
KR102088222B1 (ko) * | 2018-01-25 | 2020-03-16 | 서강대학교 산학협력단 | 분산도 마스크를 이용한 음원 국지화 방법 및 음원 국지화 장치 |
JP6915579B2 (ja) * | 2018-04-06 | 2021-08-04 | 日本電信電話株式会社 | 信号分析装置、信号分析方法および信号分析プログラム |
JP6992709B2 (ja) * | 2018-08-31 | 2022-01-13 | 日本電信電話株式会社 | マスク推定装置、マスク推定方法及びマスク推定プログラム |
US10929503B2 (en) * | 2018-12-21 | 2021-02-23 | Intel Corporation | Apparatus and method for a masked multiply instruction to support neural network pruning operations |
CN109859769B (zh) * | 2019-01-30 | 2021-09-17 | 西安讯飞超脑信息科技有限公司 | 一种掩码估计方法及装置 |
CN110097872B (zh) * | 2019-04-30 | 2021-07-30 | 维沃移动通信有限公司 | 一种音频处理方法及电子设备 |
CN110148422B (zh) * | 2019-06-11 | 2021-04-16 | 南京地平线集成电路有限公司 | 基于传声器阵列确定声源信息的方法、装置及电子设备 |
JP7191793B2 (ja) * | 2019-08-30 | 2022-12-19 | 株式会社東芝 | 信号処理装置、信号処理方法、及びプログラム |
CN111009256B (zh) * | 2019-12-17 | 2022-12-27 | 北京小米智能科技有限公司 | 一种音频信号处理方法、装置、终端及存储介质 |
CN111009257B (zh) * | 2019-12-17 | 2022-12-27 | 北京小米智能科技有限公司 | 一种音频信号处理方法、装置、终端及存储介质 |
CN116324935A (zh) * | 2020-10-16 | 2023-06-23 | 日本电信电话株式会社 | 参数估计装置、参数估计系统、参数估计方法及程序 |
US20230419978A1 (en) * | 2020-11-09 | 2023-12-28 | Sony Group Corporation | Signal processing device, signal processing method, and program |
CN113779805B (zh) * | 2021-09-16 | 2023-11-14 | 北京中安智能信息科技有限公司 | 海洋噪声相关性仿真方法和装置、设备及存储介质 |
Family Cites Families (19)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
WO2004084181A2 (en) * | 2003-03-15 | 2004-09-30 | Mindspeed Technologies, Inc. | Simple noise suppression model |
US7415392B2 (en) * | 2004-03-12 | 2008-08-19 | Mitsubishi Electric Research Laboratories, Inc. | System for separating multiple sound sources from monophonic input with non-negative matrix factor deconvolution |
CN1832633A (zh) * | 2005-03-07 | 2006-09-13 | 华为技术有限公司 | 一种声源定位方法 |
JP2006337851A (ja) * | 2005-06-03 | 2006-12-14 | Sony Corp | 音声信号分離装置及び方法 |
US8015003B2 (en) * | 2007-11-19 | 2011-09-06 | Mitsubishi Electric Research Laboratories, Inc. | Denoising acoustic signals using constrained non-negative matrix factorization |
CN101965613B (zh) * | 2008-03-06 | 2013-01-02 | 日本电信电话株式会社 | 信号增强装置及方法 |
CN102473412B (zh) * | 2009-07-21 | 2014-06-11 | 日本电信电话株式会社 | 语音信号区间估计装置与方法 |
CN103038823B (zh) * | 2010-01-29 | 2017-09-12 | 马里兰大学派克分院 | 用于语音提取的系统和方法 |
BR112012031656A2 (pt) * | 2010-08-25 | 2016-11-08 | Asahi Chemical Ind | dispositivo, e método de separação de fontes sonoras, e, programa |
US8874441B2 (en) * | 2011-01-19 | 2014-10-28 | Broadcom Corporation | Noise suppression using multiple sensors of a communication device |
CN102231280B (zh) * | 2011-05-06 | 2013-04-03 | 山东大学 | 卷积语音信号的频域盲分离排序算法 |
CN102890936A (zh) * | 2011-07-19 | 2013-01-23 | 联想(北京)有限公司 | 一种音频处理方法、终端设备及系统 |
EP3190587B1 (en) * | 2012-08-24 | 2018-10-17 | Oticon A/s | Noise estimation for use with noise reduction and echo cancellation in personal communication |
JP5997007B2 (ja) | 2012-10-31 | 2016-09-21 | 日本電信電話株式会社 | 音源位置推定装置 |
CN104685562B (zh) * | 2012-11-21 | 2017-10-17 | 华为技术有限公司 | 用于从嘈杂输入信号中重构目标信号的方法和设备 |
JP2014215544A (ja) | 2013-04-26 | 2014-11-17 | ヤマハ株式会社 | 音響処理装置 |
CN105849804A (zh) * | 2013-12-23 | 2016-08-10 | 美国亚德诺半导体公司 | 过滤噪声的计算高效方法 |
US9747921B2 (en) * | 2014-02-28 | 2017-08-29 | Nippon Telegraph And Telephone Corporation | Signal processing apparatus, method, and program |
CN105741849B (zh) * | 2016-03-06 | 2019-03-22 | 北京工业大学 | 数字助听器中融合相位估计与人耳听觉特性的语音增强方法 |
-
2016
- 2016-12-01 JP JP2017554190A patent/JP6434657B2/ja active Active
- 2016-12-01 US US15/779,926 patent/US10643633B2/en active Active
- 2016-12-01 CN CN201680069908.5A patent/CN108292508B/zh active Active
- 2016-12-01 WO PCT/JP2016/085821 patent/WO2017094862A1/ja active Application Filing
Also Published As
Publication number | Publication date |
---|---|
WO2017094862A1 (ja) | 2017-06-08 |
US20180366135A1 (en) | 2018-12-20 |
JPWO2017094862A1 (ja) | 2018-04-05 |
CN108292508B (zh) | 2021-11-23 |
CN108292508A (zh) | 2018-07-17 |
US10643633B2 (en) | 2020-05-05 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
JP6434657B2 (ja) | 空間相関行列推定装置、空間相関行列推定方法および空間相関行列推定プログラム | |
US11763834B2 (en) | Mask calculation device, cluster weight learning device, mask calculation neural network learning device, mask calculation method, cluster weight learning method, and mask calculation neural network learning method | |
CN107919133B (zh) | 针对目标对象的语音增强系统及语音增强方法 | |
JP6652519B2 (ja) | ステアリングベクトル推定装置、ステアリングベクトル推定方法およびステアリングベクトル推定プログラム | |
JP6535112B2 (ja) | マスク推定装置、マスク推定方法及びマスク推定プログラム | |
US11456003B2 (en) | Estimation device, learning device, estimation method, learning method, and recording medium | |
JP6538624B2 (ja) | 信号処理装置、信号処理方法および信号処理プログラム | |
JP6517760B2 (ja) | マスク推定用パラメータ推定装置、マスク推定用パラメータ推定方法およびマスク推定用パラメータ推定プログラム | |
JP6910609B2 (ja) | 信号解析装置、方法、及びプログラム | |
JP6711765B2 (ja) | 形成装置、形成方法および形成プログラム | |
JP6636973B2 (ja) | マスク推定装置、マスク推定方法およびマスク推定プログラム | |
JP5726790B2 (ja) | 音源分離装置、音源分離方法、およびプログラム | |
JP6973254B2 (ja) | 信号分析装置、信号分析方法および信号分析プログラム | |
JP6581054B2 (ja) | 音源分離装置、音源分離方法及び音源分離プログラム | |
JP6930408B2 (ja) | 推定装置、推定方法および推定プログラム | |
JP6734237B2 (ja) | 目的音源推定装置、目的音源推定方法及び目的音源推定プログラム | |
JP2018028620A (ja) | 音源分離方法、装置およびプログラム | |
JP6915579B2 (ja) | 信号分析装置、信号分析方法および信号分析プログラム | |
Rafique et al. | Speech source separation using the IVA algorithm with multivariate mixed super Gaussian student's T source prior in real room environment | |
Chung et al. | A supervised multi-channel speech enhancement algorithm based on bayesian nmf model | |
JP2023039288A (ja) | 音源分離モデル学習装置、音源分離装置、音源分離モデル学習方法、音源分離方法及びプログラム | |
Jafari | Advancing time-frequency clustering techniques for multichannel blind source separation and source number estimation |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
A621 | Written request for application examination |
Free format text: JAPANESE INTERMEDIATE CODE: A621 Effective date: 20171221 |
|
A521 | Request for written amendment filed |
Free format text: JAPANESE INTERMEDIATE CODE: A523 Effective date: 20180524 |
|
TRDD | Decision of grant or rejection written | ||
A01 | Written decision to grant a patent or to grant a registration (utility model) |
Free format text: JAPANESE INTERMEDIATE CODE: A01 Effective date: 20181106 |
|
A61 | First payment of annual fees (during grant procedure) |
Free format text: JAPANESE INTERMEDIATE CODE: A61 Effective date: 20181108 |
|
R150 | Certificate of patent or registration of utility model |
Ref document number: 6434657 Country of ref document: JP Free format text: JAPANESE INTERMEDIATE CODE: R150 |