JP6581054B2 - 音源分離装置、音源分離方法及び音源分離プログラム - Google Patents
音源分離装置、音源分離方法及び音源分離プログラム Download PDFInfo
- Publication number
- JP6581054B2 JP6581054B2 JP2016173580A JP2016173580A JP6581054B2 JP 6581054 B2 JP6581054 B2 JP 6581054B2 JP 2016173580 A JP2016173580 A JP 2016173580A JP 2016173580 A JP2016173580 A JP 2016173580A JP 6581054 B2 JP6581054 B2 JP 6581054B2
- Authority
- JP
- Japan
- Prior art keywords
- sound source
- distribution
- source separation
- observation
- parameter
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Active
Links
Images
Landscapes
- Circuit For Audible Band Transducer (AREA)
Description
掛け合わせることによって、n番目の目的音声に対応する分離音を計算する。
実施の形態に係る音源分離装置について、音源分離装置の概略構成、音源分離装置における処理の流れを説明する。まず、図1を参照して、本実施の形態に係る音源分離装置の構成について説明する。
そこで、時間周波数分析部11の処理の内容について説明する。例えば、N個の音源から出た音響信号をM個のマイクロホンで収録しているとする。この時、マイクロホンmで収録された観測信号をx(m)(τ)とすると、x(m)(τ)は、以下の(13)式に示すように、各音源信号nに由来する音響信号s(m) n(τ)の和で構成される。
そこで、パラメータ推定部12の処理について説明する。まず、パラメータ推定部12は、観測ベクトルの確率分布を、以下の(16)式に示すように、N個の要素分布からなる混合分布でモデル化する。
次に、音源分離部13の処理について説明する。音源分離部13は、以下に示すいずれかの手法に基づいて、パラメータ推定部12が推定したパラメータを用いて音源を分離する。
次に、音源分離装置1が実行する音源分離処理の処理手順について説明する。図2は、図1に示す音源分離装置1が実行する音源分離処理の処理手順を示すフローチャートである。
本実施の形態に対し、確認実験を行った。残響時間0.44秒の可変残響室において測定した室内インパルス応答に、2つの音声をそれぞれ畳み込み足し合わせることで、擬似的に、M=2個のマイクで収録された、混合音を得た。この混合音に対して、以下の(表1)の条件下で、本実施の形態に係る音源分離方法を適用し、分離音を得た。
このように、本実施の形態によれば、マスクや基底スペクトル、アクティベーションなどの、音源分離のためのパラメータを正確に推定することによって、音源分離を正確に行うことができる。また、本実施の形態によれば、音源信号の周波数方向の構造を考慮することによって、より正確にマスクを推定することができる。さらに、本実施の形態によれば、空間的情報に基づいて推定されたマスクを考慮することによって、より正確に基底ベクトルやアクティベーションを推定して、音源分離を正確に行うことができる。
[システム構成等]
図示した各装置の各構成要素は機能概念的なものであり、必ずしも物理的に図示の如く構成されていることを要しない。すなわち、各装置の分散・統合の具体的形態は図示のものに限られず、その全部又は一部を、各種の負荷や使用状況等に応じて、任意の単位で機能的又は物理的に分散・統合して構成することができる。さらに、各装置にて行なわれる各処理機能は、その全部又は任意の一部が、CPU(Central Processing Unit)及び当該CPUにて解析実行されるプログラムにて実現され、あるいは、ワイヤードロジックによるハードウェアとして実現され得る。
図3は、プログラムが実行されることにより、音源分離装置1が実現されるコンピュータの一例を示す図である。コンピュータ1000は、例えば、メモリ1010、CPU1020を有する。また、コンピュータ1000は、ハードディスクドライブインタフェース1030、ディスクドライブインタフェース1040、シリアルポートインタフェース1050、ビデオアダプタ1060、ネットワークインタフェース1070を有する。これらの各部は、バス1080によって接続される。
11,11P,11P’ 時間周波数分析部
12,12P,12P’ パラメータ推定部
13,13P,13P’ 音源分離部
14,14P,14P’ 初期値生成部
121,121P 分布パラメータ推定部
122,122P マスク推定部
121P’ パラメータ推定処理部
Claims (7)
- N(N>1)個の目的音源に対応する音響信号が混在する状況において、異なる位置で収録されたM(M>1)個の観測信号を受け取り、各観測信号に短時間信号分析を適用して時間周波数点ごとの観測音響信号を抽出した後に時間周波数点ごとに全ての観測音響信号をまとめたM次元縦ベクトルである観測ベクトルを構成する時間周波数分析部と、
N個の音源に対応するN個の要素分布の各々は、分布パラメータのうち各音源のパワーに相当するパラメータが周波数方向に構造を持った基底ベクトルとその時変であるアクティベーションとの積和によってモデル化されるものとし、各周波数における観測ベクトルの確率分布は、前記N個の要素分布の混合分布でモデル化されるものとし、前記時間周波数分析部から観測ベクトルを受け取り、モデル化した前記混合分布が、前記時間周波数分析部から受け取った観測ベクトルの分布に近くなるように前記混合分布のパラメータを推定するパラメータ推定部と、
前記推定したパラメータを用いて、分離音を計算する音源分離部と、
を有することを特徴とする音源分離装置。 - 前記混合分布の各要素分布は、平均を0とし,分散共分散行列を基底ベクトルとアクティベーションとの積和に空間相関行列を掛けたものとするガウス分布であることを特徴とする請求項1に記載の音源分離装置。
- 前記パラメータ推定部は、対数関数とその接線の間に成り立つ不等式と、逆数関数に対するジェンセン(Jensen)の不等式とに基づいて設計された下限関数を用いてパラメータを最適化することを特徴とする請求項1または2に記載の音源分離装置。
- 目的音源を分離する音源分離装置が行う音源分離方法であって、
N(N>1)個の目的音源に対応する音響信号が混在する状況において、異なる位置で収録されたM(M>1)個の観測信号を受け取り、各観測信号に短時間信号分析を適用して時間周波数点ごとの観測音響信号を抽出した後に時間周波数点ごとに全ての観測音響信号をまとめたM次元縦ベクトルである観測ベクトルを構成する時間周波数分析工程と、
N個の音源に対応するN個の要素分布の各々は、分布パラメータのうち各音源のパワーに相当するパラメータが周波数方向に構造を持った基底ベクトルとその時変であるアクティベーションとの積和によってモデル化されるものとし、各周波数における観測ベクトルの確率分布は、前記N個の要素分布の混合分布でモデル化されるものとし、前記時間周波数分析工程における観測ベクトルを受け取り、モデル化した前記混合分布が、前記観測ベクトルの分布に近くなるように前記混合分布のパラメータを推定するパラメータ推定工程と、
前記推定されたパラメータを用いて、分離音を計算する音源分離工程と、
を含んだことを特徴とする音源分離方法。 - 前記混合分布の各要素分布は、平均を0とし,分散共分散行列を基底ベクトルとアクティベーションとの積和に空間相関行列を掛けたものとするガウス分布であることを特徴とする請求項4に記載の音源分離方法。
- 前記パラメータ推定工程は、対数関数とその接線の間に成り立つ不等式と、逆数関数に対するジェンセンの不等式とに基づいて設計された下限関数を用いてパラメータを最適化することを特徴とする請求項4または5に記載の音源分離方法。
- コンピュータを請求項1〜3のいずれか一つに記載の音源分離装置として機能させるための音源分離プログラム。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
JP2016173580A JP6581054B2 (ja) | 2016-09-06 | 2016-09-06 | 音源分離装置、音源分離方法及び音源分離プログラム |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
JP2016173580A JP6581054B2 (ja) | 2016-09-06 | 2016-09-06 | 音源分離装置、音源分離方法及び音源分離プログラム |
Publications (2)
Publication Number | Publication Date |
---|---|
JP2018040880A JP2018040880A (ja) | 2018-03-15 |
JP6581054B2 true JP6581054B2 (ja) | 2019-09-25 |
Family
ID=61625709
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
JP2016173580A Active JP6581054B2 (ja) | 2016-09-06 | 2016-09-06 | 音源分離装置、音源分離方法及び音源分離プログラム |
Country Status (1)
Country | Link |
---|---|
JP (1) | JP6581054B2 (ja) |
Families Citing this family (2)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
US11783848B2 (en) | 2019-02-26 | 2023-10-10 | Harman International Industries, Incorporated | Method and system for voice separation based on degenerate unmixing estimation technique |
CN113178204B (zh) * | 2021-04-28 | 2023-05-30 | 云知声智能科技股份有限公司 | 一种单通道降噪的低功耗方法、装置及存储介质 |
-
2016
- 2016-09-06 JP JP2016173580A patent/JP6581054B2/ja active Active
Also Published As
Publication number | Publication date |
---|---|
JP2018040880A (ja) | 2018-03-15 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
JP6434657B2 (ja) | 空間相関行列推定装置、空間相関行列推定方法および空間相関行列推定プログラム | |
Sprechmann et al. | Supervised non-euclidean sparse NMF via bilevel optimization with applications to speech enhancement | |
JP6748304B2 (ja) | ニューラルネットワークを用いた信号処理装置、ニューラルネットワークを用いた信号処理方法及び信号処理プログラム | |
WO2019198306A1 (ja) | 推定装置、学習装置、推定方法、学習方法及びプログラム | |
JP6783475B2 (ja) | 声質変換装置、声質変換方法およびプログラム | |
JP6348427B2 (ja) | 雑音除去装置及び雑音除去プログラム | |
JP6517760B2 (ja) | マスク推定用パラメータ推定装置、マスク推定用パラメータ推定方法およびマスク推定用パラメータ推定プログラム | |
JP2008158035A (ja) | 多音源有音区間判定装置、方法、プログラム及びその記録媒体 | |
JP6538624B2 (ja) | 信号処理装置、信号処理方法および信号処理プログラム | |
JP6499095B2 (ja) | 信号処理方法、信号処理装置及び信号処理プログラム | |
JP5994639B2 (ja) | 有音区間検出装置、有音区間検出方法、及び有音区間検出プログラム | |
JP6581054B2 (ja) | 音源分離装置、音源分離方法及び音源分離プログラム | |
JP5974901B2 (ja) | 有音区間分類装置、有音区間分類方法、及び有音区間分類プログラム | |
JP6505346B1 (ja) | Dnn音声合成の教師無し話者適応を実現するコンピュータシステム、そのコンピュータシステムにおいて実行される方法およびプログラム | |
JP5726790B2 (ja) | 音源分離装置、音源分離方法、およびプログラム | |
Giacobello et al. | Speech dereverberation based on convex optimization algorithms for group sparse linear prediction | |
JP5807914B2 (ja) | 音響信号解析装置、方法、及びプログラム | |
JP6290803B2 (ja) | モデル推定装置、目的音強調装置、モデル推定方法及びモデル推定プログラム | |
JP6734237B2 (ja) | 目的音源推定装置、目的音源推定方法及び目的音源推定プログラム | |
JP6564744B2 (ja) | 信号解析装置、方法、及びプログラム | |
JP2013037177A (ja) | 音声強調装置とその方法とプログラム | |
JP2019193073A (ja) | 音源分離装置、その方法、およびプログラム | |
JP6553561B2 (ja) | 信号解析装置、方法、及びプログラム | |
JP2023039288A (ja) | 音源分離モデル学習装置、音源分離装置、音源分離モデル学習方法、音源分離方法及びプログラム | |
Nasersharif et al. | Speech/music separation using non-negative matrix factorization with combination of cost functions |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
A621 | Written request for application examination |
Free format text: JAPANESE INTERMEDIATE CODE: A621 Effective date: 20180824 |
|
A977 | Report on retrieval |
Free format text: JAPANESE INTERMEDIATE CODE: A971007 Effective date: 20190527 |
|
A131 | Notification of reasons for refusal |
Free format text: JAPANESE INTERMEDIATE CODE: A131 Effective date: 20190611 |
|
A521 | Written amendment |
Free format text: JAPANESE INTERMEDIATE CODE: A523 Effective date: 20190806 |
|
TRDD | Decision of grant or rejection written | ||
A01 | Written decision to grant a patent or to grant a registration (utility model) |
Free format text: JAPANESE INTERMEDIATE CODE: A01 Effective date: 20190827 |
|
A61 | First payment of annual fees (during grant procedure) |
Free format text: JAPANESE INTERMEDIATE CODE: A61 Effective date: 20190829 |
|
R150 | Certificate of patent or registration of utility model |
Ref document number: 6581054 Country of ref document: JP Free format text: JAPANESE INTERMEDIATE CODE: R150 |