JP2023025457A - 信号解析装置、信号解析方法、及び信号解析プログラム - Google Patents
信号解析装置、信号解析方法、及び信号解析プログラム Download PDFInfo
- Publication number
- JP2023025457A JP2023025457A JP2021130718A JP2021130718A JP2023025457A JP 2023025457 A JP2023025457 A JP 2023025457A JP 2021130718 A JP2021130718 A JP 2021130718A JP 2021130718 A JP2021130718 A JP 2021130718A JP 2023025457 A JP2023025457 A JP 2023025457A
- Authority
- JP
- Japan
- Prior art keywords
- sound
- spectrogram
- encoder
- decoder
- input
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Granted
Links
Images
Landscapes
- Measurement Of Mechanical Vibrations Or Ultrasonic Waves (AREA)
Abstract
【解決手段】学習部32が、各構成音についてのスペクトログラム及び属性クラスに基づいて、音のスペクトログラムを入力として潜在ベクトル系列を推定するエンコーダと、前記音のスペクトログラムを入力として前記音の属性を示す属性クラスを識別する識別器と、前記潜在ベクトル系列及び前記属性クラスを入力として前記音のスペクトログラムの分散を生成するデコーダと、を学習する。パラメータ推定部36が、各構成音が混合された観測信号を入力として、目的関数を最適化するように、分離行列と、スケールパラメータとを推定する。
【選択図】図5
Description
まず、本実施形態における概要を説明する。
<優決定条件下の多チャンネル音源分離問題の定式化>
I個のマイクロホンでJ個の音源から到来する信号を観測する場合を考える。マイクiの観測信号、音源jの信号の複素スペクトログラムをそれぞれxi(f,n)、sj(f,n)とする。また、これらを要素としたベクトルを
(1)
(2)
とする。ただし、ここではI=Jの優決定条件を考える。ここで( )Tは転置を表し、fとnはそれぞれ周波数と時間のインデックスである。
(3)
(4)
を仮定することができる。ここで、WH(f)は分離行列を表し、( )Hはエルミート転置である。
の複素正規分布
(5)
に従う確率変数とすると、各音源信号sj(f,n)とsj’(f,n)、j≠j’が統計的に独立のときには、音源信号s(f,n)は
(6)
に従う。
(8)
となる。ここで、=cはパラメータに依存する項のみに関する等号を表す。音源パワースペクトログラムvj(f,n)に制約がない場合、式(8)は周波数fごとの項に分解されるため、式(8)に基づいて求めるWで得られた分離信号のインデックスにはパーミュテーションの任意性が生じる。vj(f,n)が周波数方向に構造的制約を持つ場合、その制約を活かすことでパーミュテーション整合と音源分離を同時解決するアプローチを導くことができる。ILRMAやMVAE法がその例である。
MVAE法では、音源クラスラベルを補助入力としたCVAEのデコーダ分布を各音源の複素スペクトログラムの生成モデルとして用いる。ある音源信号の複素スペクトログラムをS={s(f,n)}f,nとし、対応する音源クラスラベルをone-hotベクトルcとする。図1にCVAEの概念図を示す。CVAEはエンコーダ分布q* φ(z|S,c)とデコーダ分布p* θ(S|z,c)が無矛盾になるように、すなわち、q* φ(z|S,c)とp* θ(S|z,c)から導かれる事後分布p* θ(z|S,c)∝p* θ(S|z,c)p(z)ができるだけ一致するようにエンコーダとデコーダのNNパラメータφ、θを学習する。ここで、CVAEのデコーダ分布を式(5)の局所ガウス音源モデルと同形の確率モデル
(9)
(10)
と置く。ただし、分散σ* θ 2(f,n;z,c)はデコーダネットワークの出力であり、gはパワースペクトログラムのスケールを表す変数である。
(12)
が最大となるように学習される。
は学習サンプルによる標本平均を表し、KL[・||・]はKullback-Leibler(KL)ダイバージェンスである。以上により学習したデコーダ分布p* θ(S|z,c,g)をCVAE音源モデルと呼ぶ。CVAE音源モデルは、学習サンプルに含まれる様々なクラスの音源の複素スペクトログラムを表現可能な生成モデルとなっており、cを音源クラスのカテゴリカルな特徴を調整する役割と見なすことができ、zを、クラス内の変動を調整する役割を担った変数と見なすことができる。
(13)
(14)
を用いることができる。
であり、ejはI×Iの単位行列の第j列ベクトルである。また式(8)を上昇させるΨの更新は誤差逆伝播法、Gの更新は
(15)
により行うことができる。ただし、式(15)はWとΨが固定された下で式(8)を最大にする更新式である。以上よりMVAEの推論プロセスは以下のようにまとめられる。
2.Wを単位行列に初期化し、Ψを初期化する。
3.各jについて下記ステップa~ステップcを繰り返す。
(ステップa)式(13)、(14)により{wj(f)}j,fを更新する。
(ステップb)誤差逆伝播法によりΨj={zj,cj}を更新する。
(ステップc)式(15)によりgjを更新する。
MVAE法では、各反復計算で対数尤度が上昇するようにパラメータの更新が行われるため、対数尤度の停留点への収束が保証される利点がある一方で、pθ(zj,cj|Sj)を最大にするパラメータzj、cjを誤差逆伝播法により更新するのに多大な計算コストを要する点に課題があった。非特許文献3のFastMVAE法では、事後分布pθ(z,c|S)をpθ(z|S,c)pθ(c|S)のように二つの条件付き分布の積に分解し、各分布を近似するよう分布q* φ(z|S,c)、r* ψ(c|S)をNNにより表現し、事前学習する。これにより、MVAE法における誤差逆伝播法によるパラメータ探索をそれぞれのNNのフォワード計算で代替でき、高速な推論が可能になる。しかし、FastMVAE法におけるエンコーダq* φ(z|S,c)と識別器r* ψ(c|S)の出力値は当該パラメータに関する対数尤度の最急上昇方向への更新値を近似したものでしかないため、音源分離精度に関しては、FastMVAE法はMVAE法に及ばないことが実験的に確認されている。
本実施形態で用いるFastMVAE2法では、まず潜在変数zと音源の属性クラスcが条件付き独立であることを仮定する。これは、所与のスペクトログラムSが与えられた下で、話者情報cと発話内容に関する情報zが独立であると仮定することに相当する。つまり、事後確率pθ(z,c|S)をpθ(z|S)pθ(c|S)と表せると仮定する点が従来と異なる。この二つの条件付き分布の近似分布が得られれば、FastMVAE法と同様、NNのフォワード計算でパラメータ探索を高速に行うことができる。
ACVAEは、元々音声変換に応用する目的で提案されたCVAEの拡張版で、入力されるクラスラベルcのデコーダ出力への影響力を強調するためにデコーダ出力とクラスラベルcとの相互情報量I(c,S|z)を正則化項としてエンコーダとデコーダを学習する方式である。I(c,S|z)を含めた規準を直接最適化することは容易ではないが、CVAEの学習と同様に変分下界を導入し、その変分下界とJ(φ,θ)を合わせた規準を上昇させることで、元となる規準を間接的に大きくすることができる。I(c,S|z)はlog p(c|S)の期待値と定数の和で与えられるが、p(c|S)を適当な補助分布r(c|S)に置き換えたものがI(c,S|z)の下界となる。この補助分布r(c|S)をパラメータψのNNでモデル化することで、上記下界を規準としてψをφやθとともに学習することができる。パラメータψのNNで表される補助分布をrψ(c|S)と表し、識別器と呼ぶ。
(16)
および、相互情報量
(17)
の和を含む。また、ラベル付き学習サンプル{Sm,cm}M mも学習に用いることができるため、学習データSmと対応するクラスラベルcmの負の交差エントロピー
(18)
も、学習するための規準に含めることができる。ここまではモデル構造を除けば従来のACVAEと同様である。
(19)
(20)
(26)
となる。ここで、λは非負値であり、各規準の重み係数である。図2に知識蒸留を用いたChimeraACVAEの学習の概念図を示す。
ChimeraACVAEで学習したエンコーダと識別器を用いることで、従来のMVAE法におけるpθ(zj,cj|Sj)の最大化ステップをq+ φ(zj|Sj)とr+ ψ(cj|Sj)のフォワード計算に置き換えることができる。よって、以下のアルゴリズムが得られる。これをFastMVAE2法と呼ぶ。
2.Wを単位行列に初期化する。
3.各jについて下記ステップa~cを繰り返す。
(ステップa)式(13)、(14)により{wj(f)}j,fを更新する。
(ステップb)Wを用いて分離したスペクトログラムを入力とし、エンコーダから出力されるガウス分布の平均と識別器の出力値(連続値ベクトル)にzjとcjをそれぞれ更新する。
(ステップc)式(15)によりgjを更新する。
図4は、本実施形態の信号解析装置100のハードウェア構成を示すブロック図である。
次に、本実施形態に係る信号解析装置100の作用について説明する。
本実施形態の手法による音源分離性能を検証するため、Voice Conversion Challenge(VCC)2018音声データベースを用いた話者依存の分離実験とWSJ0音声データベースを用いた任意話者の分離実験を行った。比較対象は、非特許文献1に記載のILRMA、非特許文献2に記載のMVAE法、非特許文献3に記載のFastMVAE法とし、評価規準としてsource-todistortionsratio(SDR)、source-to-interferences ratio(SIR)とsources-to-artifacts ratio(SAR)を用いた。すべての手法においては分離行列W(f)を単位行列に初期化し、60回更新を行った。
なお、本発明は、上述した実施形態に限定されるものではなく、この発明の要旨を逸脱しない範囲内で様々な変形や応用が可能である。
メモリと、
前記メモリに接続された少なくとも1つのプロセッサと、
を含み、
前記プロセッサは、
各構成音についてのスペクトログラム及び前記構成音の属性を示す属性クラスに基づいて、音のスペクトログラムを入力として潜在ベクトル系列を推定するエンコーダと、前記音のスペクトログラムを入力として前記音の属性を示す属性クラスを識別する識別器と、前記潜在ベクトル系列及び前記属性クラスを入力として前記音のスペクトログラムの分散を生成するデコーダと、を学習し、
各構成音が混合された観測信号を入力として、前記学習されたエンコーダによって前記分離行列により分離された各構成音について推定される前記潜在ベクトル系列、前記学習された識別器によって前記分離行列により分離された各構成音について識別される前記属性クラス、各構成音についての、前記学習されたデコーダによって生成される、前記構成音のスペクトログラムの分散と、スケールパラメータとから算出される、前記構成音のスペクトログラム、各構成音のスペクトログラムのスケールパラメータ、時間周波数領域で各構成音が混合された混合音を各構成音に分離するための分離行列、及び前記観測信号を各構成音に分離した信号を用いて表される目的関数を最適化するように、前記分離行列と、前記スケールパラメータとを推定する
ように構成される信号解析装置。
信号解析処理を実行するようにコンピュータによって実行可能なプログラムを記憶した非一時的記憶媒体であって、
前記信号解析処理は、
各構成音についてのスペクトログラム及び前記構成音の属性を示す属性クラスに基づいて、音のスペクトログラムを入力として潜在ベクトル系列を推定するエンコーダと、前記音のスペクトログラムを入力として前記音の属性を示す属性クラスを識別する識別器と、前記潜在ベクトル系列及び前記属性クラスを入力として前記音のスペクトログラムの分散を生成するデコーダと、を学習し、
各構成音が混合された観測信号を入力として、前記学習されたエンコーダによって前記分離行列により分離された各構成音について推定される前記潜在ベクトル系列、前記学習された識別器によって前記分離行列により分離された各構成音について識別される前記属性クラス、各構成音についての、前記学習されたデコーダによって生成される、前記構成音のスペクトログラムの分散と、スケールパラメータとから算出される、前記構成音のスペクトログラム、各構成音のスペクトログラムのスケールパラメータ、時間周波数領域で各構成音が混合された混合音を各構成音に分離するための分離行列、及び前記観測信号を各構成音に分離した信号を用いて表される目的関数を最適化するように、前記分離行列と、前記スケールパラメータとを推定する
非一時的記憶媒体。
14 ストレージ
15 入力部
16 表示部
24 時間周波数展開部
30 教師学習部
32 学習部
34 音源信号モデル記憶部
36 パラメータ推定部
38 出力部
40 初期値設定部
42 分離行列更新部
44 潜在変数クラス更新部
46 スケールパラメータ更新部
48 収束判定部
100 信号解析装置
Claims (6)
- 各構成音についてのスペクトログラム及び前記構成音の属性を示す属性クラスに基づいて、音のスペクトログラムを入力として潜在ベクトル系列を推定するエンコーダと、前記音のスペクトログラムを入力として前記音の属性を示す属性クラスを識別する識別器と、前記潜在ベクトル系列及び前記属性クラスを入力として前記音のスペクトログラムの分散を生成するデコーダと、を学習する学習部と、
各構成音が混合された観測信号を入力として、前記学習されたエンコーダによって前記分離行列により分離された各構成音について推定される前記潜在ベクトル系列、前記学習された識別器によって前記分離行列により分離された各構成音について識別される前記属性クラス、各構成音についての、前記学習されたデコーダによって生成される、前記構成音のスペクトログラムの分散と、スケールパラメータとから算出される、前記構成音のスペクトログラム、各構成音のスペクトログラムのスケールパラメータ、時間周波数領域で各構成音が混合された混合音を各構成音に分離するための分離行列、及び前記観測信号を各構成音に分離した信号を用いて表される目的関数を最適化するように、前記分離行列と、前記スケールパラメータとを推定するパラメータ推定部と、
を含む信号解析装置。 - 各構成音についてのスペクトログラム及び前記属性クラスに基づいて、音のスペクトログラム及び前記属性クラスを入力として潜在ベクトル系列を推定する教師用エンコーダ、並びに前記潜在ベクトル系列及び前記属性クラスを入力として前記音のスペクトログラムの分散を生成する教師用デコーダを学習する教師学習部を更に含み、
前記学習部は、前記エンコーダの出力と、前記学習された前記教師用エンコーダの出力とが対応し、かつ、前記デコーダの出力と、前記学習された前記教師用デコーダの出力とが対応するように、前記エンコーダ及び前記デコーダを学習する請求項1記載の信号解析装置。 - 前記エンコーダ及び前記識別器は、一体のニューラルネットワークであって、前記エンコーダ及び前記識別器で、一部の層を共有する請求項1又は2記載の信号解析装置。
- 前記学習部は、
前記エンコーダの出力、及び前記デコーダの出力を評価するための学習規準と、
前記デコーダの出力及び前記属性クラスの相互情報量と、
前記エンコーダの出力及び前記識別器の出力を入力とした前記デコーダの出力を用いて生成した前記スペクトログラムを評価するための再構築規準と、
前記エンコーダの出力及び前記識別器の出力を入力とした前記デコーダの出力を用いて生成した前記スペクトログラムを入力とした前記識別器の出力を評価するためのクラス識別規準と、
を含む規準を最適化するように、前記エンコーダ、前記識別器、前記デコーダを学習する請求項1~請求項3の何れか1項記載の信号解析装置。 - 学習部が、各構成音についてのスペクトログラム及び前記構成音の属性を示す属性クラスに基づいて、音のスペクトログラムを入力として潜在ベクトル系列を推定するエンコーダと、前記音のスペクトログラムを入力として前記音の属性を示す属性クラスを識別する識別器と、前記潜在ベクトル系列及び前記属性クラスを入力として前記音のスペクトログラムの分散を生成するデコーダと、を学習し、
パラメータ推定部が、各構成音が混合された観測信号を入力として、前記学習されたエンコーダによって前記分離行列により分離された各構成音について推定される前記潜在ベクトル系列、前記学習された識別器によって前記分離行列により分離された各構成音について識別される前記属性クラス、各構成音についての、前記学習されたデコーダによって生成される、前記構成音のスペクトログラムの分散と、スケールパラメータとから算出される、前記構成音のスペクトログラム、各構成音のスペクトログラムのスケールパラメータ、時間周波数領域で各構成音が混合された混合音を各構成音に分離するための分離行列、及び前記観測信号を各構成音に分離した信号を用いて表される目的関数を最適化するように、前記分離行列と、前記スケールパラメータとを推定する
信号解析方法。 - コンピュータを、請求項1~請求項4のいずれか1項に記載の信号解析装置の各部として機能させるための信号解析プログラム。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
JP2021130718A JP7658212B2 (ja) | 2021-08-10 | 2021-08-10 | 信号解析装置、信号解析方法、及び信号解析プログラム |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
JP2021130718A JP7658212B2 (ja) | 2021-08-10 | 2021-08-10 | 信号解析装置、信号解析方法、及び信号解析プログラム |
Publications (2)
Publication Number | Publication Date |
---|---|
JP2023025457A true JP2023025457A (ja) | 2023-02-22 |
JP7658212B2 JP7658212B2 (ja) | 2025-04-08 |
Family
ID=85251614
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
JP2021130718A Active JP7658212B2 (ja) | 2021-08-10 | 2021-08-10 | 信号解析装置、信号解析方法、及び信号解析プログラム |
Country Status (1)
Country | Link |
---|---|
JP (1) | JP7658212B2 (ja) |
Citations (3)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
JP2019144467A (ja) * | 2018-02-22 | 2019-08-29 | 日本電信電話株式会社 | マスク推定装置、モデル学習装置、音源分離装置、マスク推定方法、モデル学習方法、音源分離方法及びプログラム |
JP2020034870A (ja) * | 2018-08-31 | 2020-03-05 | 日本電信電話株式会社 | 信号解析装置、方法、及びプログラム |
JP2020086434A (ja) * | 2018-11-29 | 2020-06-04 | コリア アドバンスド インスティチュート オブ サイエンス アンド テクノロジィ | 音声検出のための雑音除去変分オートエンコーダ基盤の統合トレーニング方法および装置 |
-
2021
- 2021-08-10 JP JP2021130718A patent/JP7658212B2/ja active Active
Patent Citations (3)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
JP2019144467A (ja) * | 2018-02-22 | 2019-08-29 | 日本電信電話株式会社 | マスク推定装置、モデル学習装置、音源分離装置、マスク推定方法、モデル学習方法、音源分離方法及びプログラム |
JP2020034870A (ja) * | 2018-08-31 | 2020-03-05 | 日本電信電話株式会社 | 信号解析装置、方法、及びプログラム |
JP2020086434A (ja) * | 2018-11-29 | 2020-06-04 | コリア アドバンスド インスティチュート オブ サイエンス アンド テクノロジィ | 音声検出のための雑音除去変分オートエンコーダ基盤の統合トレーニング方法および装置 |
Non-Patent Citations (2)
Title |
---|
LI LI ET AL.: ""FastMVAE: A Fast Optimization Algorithm for the Multichannel Variational Autoencoder Method"", IEEE ACCESS, vol. 8, JPN6024015472, 18 December 2020 (2020-12-18), pages 228740 - 228753, XP011828125, ISSN: 0005309350, DOI: 10.1109/ACCESS.2020.3045704 * |
李莉、他3名: "多チャンネル変分自己符号化器法による任意話者の音源分離", 電子情報通信学会技術研究報告, vol. 第119巻、第334号, JPN6024015473, December 2019 (2019-12-01), JP, pages 79 - 84, ISSN: 0005309351 * |
Also Published As
Publication number | Publication date |
---|---|
JP7658212B2 (ja) | 2025-04-08 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
Pariente et al. | Asteroid: the PyTorch-based audio source separation toolkit for researchers | |
Liu et al. | Experiments on deep learning for speech denoising. | |
Huang et al. | Deep learning for monaural speech separation | |
Kameoka et al. | Semi-blind source separation with multichannel variational autoencoder | |
CN110914899A (zh) | 掩模计算装置、簇权重学习装置、掩模计算神经网络学习装置、掩模计算方法、簇权重学习方法和掩模计算神经网络学习方法 | |
Mohammadiha et al. | Speech dereverberation using non-negative convolutive transfer function and spectro-temporal modeling | |
JP6910609B2 (ja) | 信号解析装置、方法、及びプログラム | |
Scheibler et al. | Surrogate source model learning for determined source separation | |
JP6538624B2 (ja) | 信号処理装置、信号処理方法および信号処理プログラム | |
KR20190136578A (ko) | 음성 인식 방법 및 장치 | |
Adiloğlu et al. | Variational Bayesian inference for source separation and robust feature extraction | |
Seki et al. | Underdetermined source separation based on generalized multichannel variational autoencoder | |
JPWO2017146073A1 (ja) | 声質変換装置、声質変換方法およびプログラム | |
JP7112348B2 (ja) | 信号処理装置、信号処理方法及び信号処理プログラム | |
JP2018028618A (ja) | マスク推定用パラメータ推定装置、マスク推定用パラメータ推定方法およびマスク推定用パラメータ推定プログラム | |
Li et al. | FastMVAE2: On improving and accelerating the fast variational autoencoder-based source separation algorithm for determined mixtures | |
Bando et al. | Neural fast full-rank spatial covariance analysis for blind source separation | |
Leglaive et al. | Student's t Source and Mixing Models for Multichannel Audio Source Separation | |
JP6636973B2 (ja) | マスク推定装置、マスク推定方法およびマスク推定プログラム | |
Silva et al. | Intelligent genetic fuzzy inference system for speech recognition: An approach from low order feature based on discrete cosine transform | |
JP7293162B2 (ja) | 信号処理装置、信号処理方法、信号処理プログラム、学習装置、学習方法及び学習プログラム | |
JP7658212B2 (ja) | 信号解析装置、信号解析方法、及び信号解析プログラム | |
WO2019194300A1 (ja) | 信号分析装置、信号分析方法および信号分析プログラム | |
Hasumi et al. | Empirical Bayesian independent deeply learned matrix analysis for multichannel audio source separation | |
Wang et al. | Speech Enhancement Control Design Algorithm for Dual‐Microphone Systems Using β‐NMF in a Complex Environment |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
A621 | Written request for application examination |
Free format text: JAPANESE INTERMEDIATE CODE: A621 Effective date: 20230731 |
|
A977 | Report on retrieval |
Free format text: JAPANESE INTERMEDIATE CODE: A971007 Effective date: 20240415 |
|
A131 | Notification of reasons for refusal |
Free format text: JAPANESE INTERMEDIATE CODE: A131 Effective date: 20240423 |
|
A521 | Request for written amendment filed |
Free format text: JAPANESE INTERMEDIATE CODE: A523 Effective date: 20240624 |
|
A131 | Notification of reasons for refusal |
Free format text: JAPANESE INTERMEDIATE CODE: A131 Effective date: 20240910 |
|
A521 | Request for written amendment filed |
Free format text: JAPANESE INTERMEDIATE CODE: A523 Effective date: 20241101 |
|
TRDD | Decision of grant or rejection written | ||
A01 | Written decision to grant a patent or to grant a registration (utility model) |
Free format text: JAPANESE INTERMEDIATE CODE: A01 Effective date: 20250225 |
|
A61 | First payment of annual fees (during grant procedure) |
Free format text: JAPANESE INTERMEDIATE CODE: A61 Effective date: 20250310 |
|
R150 | Certificate of patent or registration of utility model |
Ref document number: 7658212 Country of ref document: JP Free format text: JAPANESE INTERMEDIATE CODE: R150 |