CN101965613B - 信号增强装置及方法 - Google Patents
信号增强装置及方法 Download PDFInfo
- Publication number
- CN101965613B CN101965613B CN2009801069459A CN200980106945A CN101965613B CN 101965613 B CN101965613 B CN 101965613B CN 2009801069459 A CN2009801069459 A CN 2009801069459A CN 200980106945 A CN200980106945 A CN 200980106945A CN 101965613 B CN101965613 B CN 101965613B
- Authority
- CN
- China
- Prior art keywords
- signal
- estimated value
- parameters
- value
- reverberation
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Active
Links
Images
Classifications
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L21/00—Speech or voice signal processing techniques to produce another audible or non-audible signal, e.g. visual or tactile, in order to modify its quality or its intelligibility
- G10L21/02—Speech enhancement, e.g. noise reduction or echo cancellation
- G10L21/0208—Noise filtering
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L21/00—Speech or voice signal processing techniques to produce another audible or non-audible signal, e.g. visual or tactile, in order to modify its quality or its intelligibility
- G10L21/02—Speech enhancement, e.g. noise reduction or echo cancellation
- G10L21/0208—Noise filtering
- G10L21/0216—Noise filtering characterised by the method used for estimating noise
- G10L21/0232—Processing in the frequency domain
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L21/00—Speech or voice signal processing techniques to produce another audible or non-audible signal, e.g. visual or tactile, in order to modify its quality or its intelligibility
- G10L21/02—Speech enhancement, e.g. noise reduction or echo cancellation
- G10L21/0208—Noise filtering
- G10L2021/02082—Noise filtering the noise being echo, reverberation of the speech
Landscapes
- Engineering & Computer Science (AREA)
- Computational Linguistics (AREA)
- Quality & Reliability (AREA)
- Signal Processing (AREA)
- Health & Medical Sciences (AREA)
- Audiology, Speech & Language Pathology (AREA)
- Human Computer Interaction (AREA)
- Physics & Mathematics (AREA)
- Acoustics & Sound (AREA)
- Multimedia (AREA)
- Circuit For Audible Band Transducer (AREA)
Abstract
设定参数估计值的初始值,该参数估计值包括:混响参数估计值,包括用于计算在观测信号中包含的混响的估计值的线性卷积运算的回归系数;信号源参数的估计值,包括用于确定信号源的功率谱的线性预测系数和预测剩余功率的估计值;以及噪声参数估计值,包括噪声的功率谱的估计值。之后,直到满足规定的结束条件为止,交替地重复根据最似然估计来更新混响参数估计值和噪声参数估计值的至少一部分的处理和更新信号源参数估计值的处理。
Description
技术领域
本发明涉及抑制观测信号中的加法性失真和乘法性失真,从而增强源信号的技术。
背景技术
已有对于在源信号中重叠了加法性失真和乘法性失真的观测信号,进行抑制加法性失真和乘法性失真的处理,增强(emphasis)源信号的信号增强技术。首先,说明信号为语音信号的情况下的一般的语音信号增强技术。此时,加法性失真对应于在室内存在的噪声,乘法性失真对应于混响(reverberation)。
图1是表示信号增强装置的一般结构的方框图。
首先,从话筒等的传感器或语音文件等取得并进行了抽样和量化的时域的观测语音的波形信号输入到频带分割单元。这些时域的观测信号在频带分割单元中,分割为每个频带的窄带信号。即,时域的观测信号变换为时频域的观测信号。以下,将按每个频带分割的观测信号的集合称为观测信号的复数谱图(spectrogram)。另外,频带分割单元通过短时间傅里叶变换或多相滤波器组(filter bank)等的以往技术执行该处理。其中,也有不进行该频带分割,而直接使用时域的观测信号进行源信号的增强处理的方法。此外,在说明书中没有明确记载表现信号的区域的情况下,解释为是时频域。
接着,在参数估计单元中,从观测信号的复数谱图中估计出将观测信号特征化的某种参数。参数的例子有记述源信号或噪声的功率谱(spectre)的全极模型的参数,记述室内传递系统的自回归模型的回归系数等。
并且,在源信号估计单元中,使用观测信号的复数谱图和上述参数的估计值,计算源信号的复数谱图的估计值。最后,在频带合成单元中,从源信号的复数谱图的估计值,合成时域的源信号的估计值。另外,频带合成单元的处理对应于频带分割单元的处理。即,若频带分割单元执行短时间傅里叶变换,则频带合成单元进行重叠(overlap)加法合成,若频带分割单元执行 多相滤波器组分析,则频带合成单元进行多相滤波器组合成。在省略了频带分割单元的情况下,频带合成单元也被省略。
以往的语音信号增强技术大致分为将除了源信号之外只存在噪声的环境作为对象的技术(例如,参照非专利文献1)以及将除了源信号之外只存在混响的环境作为对象的技术(例如,参照非专利文献2)。前者从除了源信号之外包括噪声的观测信号中抑制噪声。后者从除了源信号之外包括混响的观测信号中抑制混响。以下,说明在非专利文献1、2中分别提出的语音信号增强技术。另外,在以下的说明中,在文本中使用的符号“^”、“~”等应记载在字符的正上方,但由于文本记载的限制而记载在该字符的紧后面。
<非专利文献1的噪声抑制技术>
在非专利文献1中,提出了从在源信号加上噪声的观测信号中抑制噪声的噪声抑制技术。以下,说明在非专利文献1中公开的各个处理单元的处理。
非专利文献1的频带分割单元通过短时间傅里叶变换,将观测到的观测信号分割为每个频带的窄带信号。此外,非专利文献1的参数估计单元估计源信号的全极模型的信号源参数sΘ和噪声模型的噪声参数dΘ,作为将观测信号即在源信号上重叠了噪声的信号特征化的参数。
在非专利文献1的例子中,首先,使用不存在源信号的时间区间的观测信号,算出噪声参数的真值dΘ~(步骤S101)。接着,设定信号源参数估计值的初始值sΘ^(0)(步骤S102)。此外,表示重复次数的索引i设定为0(步骤S103)。
之后,使用信号源参数的估计值sΘ^(i)和噪声参数的真值dΘ~,算出在提供了信号源参数的估计值sΘ^(i)和噪声参数的真值dΘ~的组合和观测信号的复数谱图Y的情况下的源信号的复数谱图S的附条件后验分布p(S|Y,sΘ^(i),dΘ~)(步骤S104)。接着,使用附条件后验分布p(S|Y,sΘ^(i),dΘ~),将信号源参数的估计值sΘ^(i)更新为sΘ^(i+1)(步骤S105)。然后,直到满足结束条件为止(步骤S106),一边将i每次增加1(步骤S107),一边重复步骤S104和S105的处理,并将在满足了规定的结束条件的时刻的信号源参数的估计值sΘ~(i+1),作为信号源参数的最终估计值sΘ^而输出(步骤S108)。
之后,源信号估计单元使用在参数估计单元中算出的参数dΘ~和sΘ^,并使用维纳(Wiener)滤波器,求出源信号的复数谱图的估计值,频带合成单元通过重叠加法合成,将该复数谱图的估计值变换为时域的源信号的估计值。
<非专利文献2的混响抑制技术>
在非专利文献2中,提出了从在源信号重叠了混响的观测信号中抑制混响的混响抑制技术。以下,说明在非专利文献2中公开的各个处理单元的处理。
在非专利文献2的混响抑制技术中,不进行频带分割处理。因此,非专利文献2的参数估计单元和源信号估计单元直接对时域的观测信号进行处理。该参数估计单元估计信号源参数sΘ和混响参数gΘ,作为将观测信号即在源信号上重叠了混响的信号特征化的参数。另外,非专利文献2的混响参数应用于在源信号中仅重叠了混响的时域的观测信号中,是用于计算在观测信号中重叠的混响的线性滤波器的回归系数。
非[0018] 之后,使用混响参数的估计值gΘ^(i),将信号源参数的估计值更新为sΘ^(i+1)(步骤S113)。接着,使用被更新的信号源参数的估计值sΘ^(i+1),将混响参数的估计值更新为gΘ^(i+1)(步骤S114)。然后,直到满足结束条件为止(步骤S115),一边将i每次增加1(步骤S116),一边重复步骤S113和S114的处理,并将在满足了规定的结束条件的时刻的信号源参数的估计值sΘ-(i+1),作为信号源参数的最终的估计值sΘ^,并将混响参数的估计值gΘ^(i+1)作为混响参数的最终的估计值gΘ^而输出(步骤S117)。
之后,源信号估计单元通过将使用在参数估计单元中算出的混响参数的最终的估计值gΘ^而生成的线性滤波器卷积到观测信号中,估计在观测信号中包含的混响,并从观测信号中减去该混响,从而计算并输出抑制了混响的信号。
非专利文献1:Lim,J.S.and Oppenheim,A.V.,“All-pole modeling ofdegraded speech,”IEEE Trans.Acoust.Speech,Signal Process.,Vol.26,No.3,pp.197-210(1978).
非专利文献2:Yoshioka,T.,Hikichi,T.and Miyoshi,M.,“Dereverberationby Using Time-Variant Nature of Speech Production System,EURASIP J.Advances in Signal Process.,Vol.2007,(2007),Article ID 65698,15 pages,doi:10.1155/2007/65698.
发明内容
发明要解决的课题
但是,至今不存在将噪声和混响都存在的环境作为对象的信号增强技术。
在噪声和混响都存在的环境中,通过M(M≥1)个传感器1000-1~M观测到的观测信号,可以说是通过图2所示的系统而生成的。即,首先,对说话人等的信号源1010发出的、不包括噪声和混响的信号(称为“源信号”),通过混响重叠系统(室内传递系统)卷积各个室内脉冲(impulse)响应而附加混响。进而,通过噪声重叠系统对附加了混响的信号(称为“混响重叠信号”)加上噪声。这样,生成包括噪声和混响的信号(称为“噪声混响重叠信号”),并通过各个传感器观测到。
如上所述那样,以往的混响抑制技术是在提供了混响重叠信号时估计出混响参数和信号源参数之后,基于估计出的混响参数而恢复源信号。因此,为了在图2的系统中进行混响抑制处理,必须通过噪声抑制处理而从噪声混响重叠信号中预先抑制噪声而求出混响重叠信号。另一方面,在图2的系统中,为了从噪声混响重叠信号中有效地抑制噪声,期望已知混响重叠信号的特性。但是,由于混响重叠信号的特性是根据源信号的特性(即,源信号的信号源参数)和室内传递系统(即,混响参数)而规定,所以它们是通过混响抑制处理而求出的。因此,在图2的系统中,为了有效地增强源信号,需要使噪声抑制处理和混响抑制处理协调着动作。
此外,以往的噪声抑制技术是从在源信号中仅加上噪声的观测信号中抑制噪声的技术。因此,即使将以往的噪声抑制技术直接应用于从包括噪声和混响的噪声混响重叠信号中抑制噪声的上述的噪声抑制处理,也不能期待精度高的噪声抑制。此外,虽说不是单纯地结合噪声抑制处理和混响抑制处理而是需要使其协调动作,但不明确如何进行这些处理。
不仅在将语音信号作为对象的情况,在将其他的声音信号、超声波信号以及其他信号作为对象的情况下,这样的问题也是共同的。即,在对从信号源发出的不包括加法性失真和乘法性失真的信号,通过线性卷积系统附加乘法性失真,并对通过这样生成的信号进一步加上加法性失真而生成的信号中,抑制加法性失真和乘法性失真,增强原来的信号的情况下,一般存在的共同的问题。在本说明书中,为了明确与将语音信号作为对象的情况下的关系, 将从信号源发出的不包括加法性失真和乘法性失真的信号称为“源信号”,将在源信号中附加了乘法性失真而生成的信号称为“混响重叠信号”,将在混响重叠信号中附加了加法性失真而生成的信号称为“噪声混响重叠信号”,将附加乘法性失真的线性卷积系统称为“室内传递系统”,将加法性失真称为“噪声”,将乘法性失真称为“混响”。
用于解决课题的手段
在本发明的参数估计单元中,首先,将从观测到的时域信号变换的时频域的观测信号存储在记录单元中,在初始化单元中设定参数估计值的初始值,该参数估计值包括:混响参数估计值,包括用于计算在观测信号中包含的混响的估计值的线性卷积运算的回归系数;信号源参数估计值,包括用于确定源信号的功率谱的线性预测系数和预测剩余功率的估计值;以及噪声参数估计值,包括噪声的功率谱的估计值。
接着,将观测信号和参数估计值输入到第1更新单元,在该第1更新单元中执行混响参数估计值和噪声参数估计值的至少一部分的更新处理或者信号源参数估计值的更新处理中的任一个处理。执行更新处理,使得有关参数估计值的对数似然度函数的值增加。
此外,将在第1更新单元中获得的参数估计值的更新值的至少一部分输入到第2更新单元,在该第2更新单元中执行混响参数估计值和噪声参数估计值的至少一部分的更新处理或者信号源参数估计值的更新处理中、在第1更新单元中没有执行的处理。执行更新处理,使得有关参数估计值的更新值的对数似然度函数的值增加。
然后,在结束条件判定单元中,判定是否满足结束条件,在没有满足结束条件的情况下,再次执行第1更新单元和第2更新单元的处理。
发明效果
如上所述那样,在本发明的参数估计单元中,相互依赖且重复执行在第1更新单元中的参数的估计值的更新处理和在第2更新单元中的参数的估计值的更新处理。这样,能够从在噪声和混响都存在的环境中的观测信号中,高精度地抑制噪声和混响,增强源信号。
附图说明
图1是表示语音信号增强装置的一般结构的方框图。
图2是用于说明在源信号中附加了噪声和混响的系统的图。
图3是表示第1实施方式的信号增强装置的结构的方框图。
图4是表示源信号估计单元的详细结构的方框图。
图5是用于说明第1实施方式的信号增强方法的流程图。
图6是表示第2实施方式的信号增强装置的结构的方框图。
图7是表示源信号估计单元的详细结构的方框图。
图8是用于说明第1实施方式的信号增强方法的流程图。
图9是表示第3实施方式的信号增强装置的功能结构例子的方框图。
图10是用于说明第3实施方式的处理的流程图。
图11是表示第4实施方式的参数估计单元的功能结构例子的方框图。
图12是用于说明第4实施方式的参数估计处理的流程图。
具体实施方式
以下,参照附图说明本发明的实施方式。
首先,叙述本实施方式的参数估计单元。本实施方式的参数包括混响参数、信号源参数、以及噪声参数。混响参数至少包括在将室内传递系统建模为多通道自回归系统时的回归矩阵。另外,若将由该回归矩阵构成的多输入多输出脉冲响应卷积到混响重叠信号中,则算出在混响重叠信号中包含的混响。信号源参数至少包括将源信号的短时间功率谱密度特征化的线性预测系数和预测剩余功率。噪声参数至少包括噪声的短时间功率交叉谱(crossspectre)矩阵。本实施方式的参数估计单元使用ECM算法等的EM算法的变形方法,对混响参数和信号源参数以及噪声参数进行最似然估计(mostlikelihood estimation)。
具体地说,本实施方式的参数估计单元例如如下表现。本实施方式的参数分为两个组。第1参数组至少包括混响参数。第2参数组至少包括信号源参数。噪声参数可以包含在第1参数组、第2参数组中的任一组中,但在本实施方式中,设为包含在第1参数组中。
首先,将观测信号存储在存储单元中。
初始化单元对第1参数组的参数的估计值和第2参数组的参数的估计值进行初始化。
接着,观测信号、第1参数组的参数的估计值以及第2参数组的参数的 估计值输入到第1更新单元中。第1更新单元固定第1参数组和第2参数组中的任一个参数组的参数的估计值,对剩余的一个参数组的参数中至少一部分参数的估计值进行更新。第1更新单元更新参数的估计值,使得与参数的估计值相关的对数似然度函数的值增加。
接着,观测信号、第1参数组的参数的估计值以及第2参数组的参数的估计值中的至少一部分输入到第2更新单元中。第2更新单元固定在第1更新单元中更新的参数组的参数的估计值,对在第1更新单元中固定的参数组的参数中至少一部分参数的估计值进行更新。第2更新单元更新参数的估计值,使得与参数的估计值相关的对数似然度函数的值增加。
结束条件判定单元,判定是否满足结束条件。在没有满足结束条件的情况下,返回到第1更新单元的处理。在满足结束条件的情况下,输出在该时刻下的参数的估计值。
【第1实施方式】
<本实施方式的参数估计处理的概要>
首先,说明本实施方式的参数估计处理的概要。
【观测信号存储处理】
首先,通过观测信号存储处理,观测信号存储在存储单元中。
【初始化处理】
接着,通过初始化处理,第1参数组的参数的估计值和第2参数组的参数的估计值被初始化。
【第1更新处理】
在本实施方式的第1更新处理中,在第1参数组即混响参数的估计值被固定的状态下,第2参数组即信号源参数的估计值被更新。具体地说,本实施方式的第1更新处理包括噪声抑制处理和信号源参数的更新处理。
《噪声抑制处理》
在噪声抑制处理中,使用观测信号和参数的估计值,算出将混响重叠信号的附条件后验分布p(混响重叠信号|观测信号,参数的估计值)特征化的复数正态分布的平均和协方差矩阵。
在从观测信号中求出不包括噪声的混响重叠信号的附条件后验分布的方面,该处理可解释为抑制在观测信号中包含的噪声。要注意该噪声抑制处理使用混响参数的估计值和信号源参数的估计值而执行。这意味着要考虑混响 的特性而抑制噪声。这样,在混响环境中,能够高精度地实施噪声抑制。
《信号源参数估计值的更新处理》
在信号源参数估计值的更新处理中,使用混响参数的估计值、混响重叠信号的附条件后验分布的平均和协方差矩阵,更新信号源参数的估计值。信号源参数的估计值被更新,使得有关参数的估计值的辅助函数的值成为最大。
辅助函数是,将与在提供了观测信号和混响重叠信号时的参数的估计值有关的对数似然度函数用混响重叠信号的附条件后验分布p(混响重叠信号|观测信号,参数估计值)加权的函数,对混响重叠信号进行积分而获得的函数。通过该加权积分,能够一边考虑在噪声抑制处理中算出的混响重叠信号的不确定性一边更新信号源参数的估计值。
【第2更新处理】
在本实施方式的第2更新处理中,在第2参数组即信号源参数的估计值被固定的状态下,第1参数组即混响参数的估计值被更新。混响参数的估计值被更新,使得有关参数的估计值的辅助函数的值成为最大。
【结束条件判定处理】
在结束条件判定处理中,判定是否满足规定的结束条件。在不满足结束条件的情况下,返回到第1更新处理。在满足规定条件的情况下,输出在该时刻的参数的估计值。
在以上叙述的处理中,混响重叠信号的附条件后验分布的协方差矩阵对噪声的方差单调增加。即,噪声的电平越大,混响重叠信号的附条件后验分布的协方差矩阵也越大。这表示本实施方式通过妥当的方法来评价在噪声抑制处理中求出的混响重叠信号的不确定性。
<本实施方式的原理>
接着,说明本实施方式的原理。
本实施方式基于统计学估计的方法论。首先,需要规定信号源参数sΘ、混响参数gΘ、以及噪声参数dΘ。此外,全部参数的集合表现为Θ={sΘ,gΘ, dΘ}。接着,规定的参数Θ必须与作为观测信号的噪声混响重叠信号的集合Y相关联。另外,噪声混响重叠信号的集合Y是属于规定的观测区间的噪声混响重叠信号的集合。如后所述那样,本实施方式的噪声混响重叠信号的集合Y是噪声混响重叠信号的复数谱图。
在本实施方式中,在提供了参数Θ的情况下的噪声混响重叠信号的集合 Y的概率密度函数p(Y|Θ)成为公式化,进行该相关联。通过该公式化,噪声混响重叠信号的集合Y可以理解为得到概率分布的信号,该概率分布由未知的参数的真值Θ~={sΘ~,gΘ~,dΘ~}作为前提的概率密度函数p(Y|Θ~)表示。
此外,在本实施方式中,从作为观测信号的噪声混响重叠信号的集合Y,最似然估计出参数的真值Θ~。即,求出在将观测到噪声混响重叠信号的集合Y时的似然度函数p(Y|Θ~)最大化的参数的值Θ^={sΘ^,gΘ^,dΘ~},该值成为参数的真值Θ~的最终的估计值。另外,从不存在源信号的区间独立地估计噪声参数dΘ,且假设该估计值为噪声参数的真值dΘ~。因此,通过最似然估计法估计出的值是信号源参数的真值sΘ~和混响参数的真值gΘ~。
但是,实际上,不能同时直接求出将概率密度函数p(Y|Θ~)最大化的sΘ~和gΘ~。因此,在本实施方式中,应用ECM(Expectation-ConditionalMaximization,期望条件最大化)算法。即,使用作为观测信号的噪声混响重叠信号的集合Y,交替重复执行将噪声混响重叠信号的集合Y和参数的估计值Θ^的组合作为前提条件的混响重叠信号的集合X的附条件后验分布p(X|Y,Θ^)的计算处理(E步骤)、信号源参数的估计值sΘ^的更新处理(CM步骤1)、混响参数的估计值gΘ^的更新处理(CM步骤2),从而更新各个估计值,并在满足规定的结束条件的时刻的各个估计值成为真值的估计值(最终估计值)。另外,混响重叠信号的集合X是属于规定的观测区间的混响重叠信号的集合。如后所述那样,本实施方式的混响重叠信号的集合X是混响重叠信号的复数谱图。
【观测信号(噪声混响重叠信号)的统计模型】
最初应进行的是定义在提供了参数Θ的情况下的噪声混响重叠信号的集合Y的概率密度函数p(Y|Θ)。为此,假设观测信号(噪声混响重叠信号)的集合Y的统计模型。在本实施方式中,假设在以下叙述的源信号的全极模型、室内传递系统的自回归模型以及噪声的模型。
另外,以下,设为全部信号变换为在频域中定义的复数谱图。此外,将复数谱图的帧数设为T(常数),频带数设为N(常数)。另外,在各个说明中使用假设了短时间傅里叶变换的用语,但在信号向频域的变换中,可使用多相滤波器组等,带宽一定的任意的时间频率分析方法。
《源信号的模型》
首先,叙述源信号的全极模型。将在第t(0≤t≤T-1)个帧、第w(0≤w≤N-1)个频带中的源信号的离散傅里叶系数(复数)设为St,w。另外,t(0≤t≤T-1)是对应于各个帧的索引,w(0≤w≤N-1)是对应于各个频带的索引。
假设St,w满足以下条件。
1.将ω∈{-π,π}作为角频率,在第t个帧中的源信号的功率谱密度sλt(ω)由如下的P次(P≥1)的全极型频谱密度表示。
【数学式1】
At(z)=1-at,1z-1-…-at,Pz-P (2)
另外,{at,1,...,at,P}和sσt 2分别是对源信号进行线性预测分析的情况下的线性预测系数和预测剩余功率。此外,z是在z变换中的复数变量,e是自然数。此外,j是虚数单位。因此,信号源参数sΘ定义为sΘ={at,1,...,at,P,sσt 2}0≤t≤T-1。其中,{mα}0≤α≤M-1表示由m0、m1、......mM-1的M个元素构成的集合。
2.如下所示,St,w服从平均0、方差sλt(2πw/N)的复数正态分布。
【数学式2】
p(St,w|sΘ)=NC{St,w;0,sλt(2πw/N)} (3)
其中,NC{x;μ,∑}是服从在下式中定义的平均μ、协方差矩阵∑的复数正态分布的ζ维概率变量x的概率密度函数。另外,αH意味着α的复数共轭转置(埃尔米特共轭)。
【数学式3】
其中,|∑|表示∑的行列式。这里,若作为ζ=1而将式(4)代入式(3),则通过下式表示St,w的概率密度函数。
【数学式4】
3.若(t,w)≠(t′,w′),则St,w和St′,w′在统计上是独立的。
《室内传递系统的模型》
接着,叙述室内传递系统的模型。将在第t(0≤t≤T-1)个帧、第w(0≤w≤N) 个频带中的混响重叠信号的离散傅里叶系数设为Xt,w。假设室内传递系统在各个频带中可作为自回归系统表现。即,若将在第w个频带中的自回归系统的回归系数设为g1,w,...,gKw,w,则通过下式生成混响重叠信号的离散傅里叶系数Xt,w。其中,gk,w *是gk,w的复数共轭值。
【数学式5】
gΘ={{gk.w}1≤k≤Kw}0≤w≤N-1定义为混响参数gΘ。如下式所示,该混响参数gΘ应用于在源信号中仅附加了混响的混响重叠信号中,从而用于计算在混响重叠信号中包含的混响的用途。
【数学式6】
《噪声的模型》
接着,叙述噪声的模型。在本实施方式中,在第t(0≤t≤T-1)个帧、第w(0≤w≤N)个频带中的噪声和噪声混响重叠信号的离散傅里叶系数分别成为Dt,w,Yt,w。Yt,w是混响重叠信号Xt,w加上噪声Dt,w的信号。
Yt,w=Xt,w+Dt,w (7)
此外,假设Dt,w满足以下叙述的条件。
1.噪声是常数,将其功率谱密度作为dλ(ω)(由于是常数,所以不依赖于帧号t),Dt,w服从平均0、方差dλ(2πw/N)的复数正态分布。
【数学式7】
其中,噪声参数dΘ是将定义为dΘ={dλ(2πw/N)}0≤w≤N-1的噪声特征化的参数。
2.若(t,w)≠(t′,w′),则Dt,w和Dt′,w′在统计上是独立的。
3.对于任意的(t,w,t′,w′),St,w和Dt′,w′在统计上是独立的。
《噪声混响重叠信号的概率密度函数》
基于以上的假设,噪声混响重叠信号的概率密度函数成为公式化。
在本实施方式中,源信号、混响重叠信号以及噪声混响重叠信号的各个复数谱图(相当于源信号、混响重叠信号以及噪声混响重叠信号的各个集合)分别表现为S、X以及Y。即,表现为
S={St,w}0≤t≤T-1,0≤w≤N-1 (9)
X={Xt,w}0≤t≤T-1,0≤w≤N-1 (10)
Y={Yt,w}0≤t≤T-1,0≤w≤N-1 (11)。
另外,{mα,β}0≤α≤T-1,0≤β≤N-1表示由m0,0,...,mT-1,N-1的T·N个元素构成的集合。
具体地说,如下书写噪声混响重叠信号的复数谱图Y的概率密度函数(相当于与在提供了观测信号的集合Y时的参数Θ有关的似然度函数)。
【数学式8】
p(Y|Θ)=∫p(Y,X|Θ)dX (12)
其中,基于以上的假设,如下式书写p(Y,X|Θ)。
【数学式9】
通过以上,使用参数Θ={sΘ,gΘ,dΘ},噪声混响重叠信号的复数谱图的概率密度函数p(Y|Θ)被公式化。
【信号源参数和混响参数的最似然估计】
如上所述,在本实施方式中,从观测到的噪声混响重叠信号的复数谱图Y,通过最似然估计法估计出未知的参数的真值Θ~。即,在将提供了噪声混响重叠信号的集合Y时的参数Θ作为变量的似然度函数p(Y|Θ)最大化的Θ成为真值Θ~的估计值。其中,在本实施方式中,噪声参数的真值dΘ~从不存在源信号的区间预先独立地估计出且成为已知,所以Θ^={sΘ^,gΘ^,dΘ~},求出sΘ^和gΘ^。
此外,由于不能同时直接求出将似然度函数p(Y|Θ)最大化的sΘ^和gΘ^, 所以使用ECM算法计算它们。以下表示ECM算法的处理的流程。在以下的处理中,交替重复执行E-步骤、CM-步骤1、CM-步骤2的3个处理。因此,使用上标的标记(i)表示在第i次重复中的参数的估计值。若明确地叙述,则分别如下定义Θ~,Θ^,Θ^(i)。
【数学式10】
《ECM算法》
1.决定参数的估计值的初始值Θ^(0)。此外,表示重复次数的索引i成为0。
2.E-步骤(噪声抑制处理)
计算混响重叠信号的附条件后验分布p(X|Y,Θ^(i))。
3.CM-步骤1(信号源参数估计值的更新处理)
由下式定义辅助函数Q(Θ|Θ^(i))。
【数学式11】
此时,通过以下的手续,信号源参数的估计值从SΘ^(i)更新为SΘ^(i+1)。
【数学式12】
即,在混响参数的估计值gΘ^(i)固定的条件下将辅助函数Q(Θ|Θ^(i))最大化的SΘ^(i+1)成为被更新的信号源参数的估计值。
4.CM-步骤2(混响参数估计值的更新处理)
通过以下的手续,混响参数的估计值被更新。
【数学式13】
即,在信号源参数的估计值sΘ^(i+1)固定的条件下将辅助函数Q(Θ|Θ^(i))最大化的gΘ^(i+1)成为混响参数的被更新的估计值。
5.结束条件判定
若满足规定的结束条件,则作为sΘ^=sΘ^(i+1),gΘ^=gΘ^(i+1)并结束。若不是,则将i逐渐增加1并返回到“2.E-步骤”。
《各个步骤的计算方法》
以下,说明E-步骤、CM-步骤1以及CM-步骤2的各个计算方法。
1.E-步骤的计算方法
分别总结原信号、混响重叠信号、噪声混响重叠信号的第w个频带的离散傅里叶系数序列并如下表示。
【数学式14】
源信号的复数谱图S、混响重叠信号的复数谱图X以及噪声混响重叠信号的复数谱图Y分别等价于Sw,Xw,Yw在全频带(0≤w≤N-1)中的集合。
如下式所示,式(24)的混响重叠信号的附条件后验分布p(X|Y,Θ^(i))能够在每个频带w使用独立的多个复数正态分布来表现。
【数学式15】
另外,由下式提供平均μw(Θ^(i),Y)和协方差矩阵∑w(Θ^(i))。
【数学式16】
分别如下定义在式(29)、(30)中出现的各个变量。另外,式(31)的空栏部分的各个元素为0。
【数学式17】
另外,如上所述,由于假设噪声是常数,所以
dλT-1~(2πw/N)=dλT-2~(2πw/N)=…=dλ0~(2πw/N)=dλ~(2πw/N)。此外,diag{α1,...,αβ}是将任意的标量(scaler)值α1,...,αβ作为对角元素的对角矩阵。
如式(28)所示,该混响重叠信号的附条件后验分布p(X|Y,Θ^(i))是基于信号源参数、混响参数以及噪声参数而算出。进而,如式(30)、(34)所示,该混响重叠信号的集合X的附条件后验分布p(X|Y,Θ^(i))的协方差矩阵的尺度(scale)成为对于噪声的功率谱(表示噪声的概率分布的复数正态分布的方差)单调增加的值。此时,在噪声的电平大的情况下,混响重叠信号的集合X的附条件后验分布的协方差矩阵的尺度也变大,相反,在噪声的电平小的情况下,混响重叠信号的集合X的附条件后验分布的协方差矩阵的尺 度也变小。该动作极其自然。通过该特征,能够提高在存在噪声和混响的环境下的参数估计精度。
此外,为了之后的处理,将μm,w (i)设为平均μw(Θ^(i),Y)的第T-m个元素,将μm:n,w (i)(m n)设为由平均μw(Θ^(i),Y)的第T-m个至第T-n个元素构成的部分矢量,将∑(c:m,d:n),w(c m,d n)设为由协方差矩阵∑w(Θ^(i))的第(T-c,T-d)个元素至第(T-m,T-n)个元素(从第T-d行至第T-n行且第T-c列至第T-m列的各个元素)构成的部分矩阵。
2.CM-步骤1的计算方法
在第t个帧中的源信号的线性预测系数和其估计值分别由如下的矢量表现。
【数学式18】
信号源参数sΘ和其估计值sΘ^分别等价于{at,sσt 2}和{at^,sσ^t 2}在全帧(0≤t≤T-1)中的集合。
通过在全帧(0≤t≤T-1)中执行下式所示的at和sσt 2的估计值的更新,从而实现式(25)的信号源参数的更新。
【数学式19】
其中,分别如下定义sRt (i)、srt (i)以及Vt,w (i)。
【数学式20】
3.CM-步骤2的计算方法
在第w个频带中的混响参数和其估计值分别由如下的矢量表现。
【数学式21】
混响参数gΘ和其估计值gΘ^分别等价于gw和gw^在全频带(0≤w≤N-1)中的集合。
通过在全频带(0≤w≤N-1)中执行下式所示的gw的估计值的更新,从而实现式(26)的混响参数的更新。
【数学式22】
其中,分别如下定义xRw (i)和xrw (i)。
【数学式23】
如上说明,在本实施方式的参数估计单元中,协调地重复执行噪声抑制处理(E-步骤)、信号源参数估计值的更新处理(CM-步骤1)和混响参数估计值的更新处理(CM-步骤2),信号源参数和混响参数的估计值被更新。E-步骤和CM-步骤1相当于在之前叙述的第1更新处理,CM-步骤2相当于在之前叙述的第2更新处理。这样,从噪声和混响都存在的环境下的观测信号中,高精度地抑制噪声和混响,增强源信号。
<本实施方式的结构>
接着,说明本实施方式的信号增强装置的结构。
图3是表示第1实施方式的信号增强装置1的结构的方框图。此外,图4是表示源信号估计单元27的详细结构的方框图。
如图3所示,本实施方式的信号增强装置1包括:观测信号存储单元11、参数存储单元12、暂时存储单元13、频带分割单元21、噪声参数估计单元22、初始参数设定单元23、噪声抑制处理单元24、信号源参数估计值更新单元25、混响参数估计值更新单元26、源信号估计单元27、频带合成单元28以及控制单元29。此外,源信号估计单元27包括混响重叠信号估计单元27a以及线性滤波器应用单元27b。另外,噪声参数估计单元22和初始参数设定单元23对应于上述的初始化单元。此外,噪声抑制处理单元24和信号源参数估计值更新单元25对应于上述的第1更新单元。此外,混响参数估计值更新单元26对应于上述的第2更新单元。
另外,本实施方式的信号增强装置1是通过在由CPU(中央处理单元)、RAM(随机存取存储器)等构成的公知的计算机中读入规定的程序而构成。具体地说,观测信号存储单元11、参数存储单元12以及暂时存储单元13是例如通过RAM、寄存器、闪速存储器、或者辅助存储装置、或者由它们的至少一部分的组合而构成的存储单元。此外,频带分割单元21、噪声参数估计单元22、初始参数设定单元23、噪声抑制处理单元24、信号源参数估计值 更新单元25、混响参数估计值更新单元26、源信号估计单元27、频带合成单元28以及控制单元29是通过在CPU中读入规定的程序而构成的本装置专用的处理单元。此外,控制单元29控制信号增强装置1的各个处理。
<本实施方式的处理>
图5是用于说明第1实施方式的信号增强方法的流程图。以下,沿着该流程图说明本实施方式的信号增强方法。
首先,在信号增强装置1的频带分割单元21中,输入在噪声和混响都存在的环境下观测到的、以规定的抽样频率采样且量化的时域的观测信号Yκ。另外,κ表示离散时刻的索引。频带分割单元21通过短时间傅里叶变换等将各个离散信号Yκ分割为每个频带的窄带信号,生成频域的观测信号Yt,w,并存储在观测信号存储单元11中(步骤S1)。另外,如在式(11)中所示,将Y={Yt,w}0≤t≤T-1,0≤w≤N-1称为观测信号的复数谱图。
接着,噪声参数估计单元22使用在观测信号存储单元11中存储的观测信号Yt,w中、不存在源信号的区间的观测信号,估计噪声参数的真值dΘ~。另外,如上所述,本实施方式的噪声参数dΘ是噪声的功率谱(表示噪声的概率分布的复数正态分布的方差)。此外,在本实施方式的假设中,噪声是常数,其振幅的平均为0。因此,噪声参数的真值dΘ~可通过不存在源信号的区间的观测信号Yt,w的振幅的平方平均而估计。此外,在确定不存在源信号的区间时,例如使用公知的语音区间检测技术。或者,也可以预先测量不存在源信号的观测信号Yt,w以用于噪声参数估计,并使用它。估计出的噪声参数的最终的估计值dΘ~存储在参数存储单元12中(步骤S2)。
接着,初始参数设定单元23设定信号源参数和混响参数的估计值的初始值sΘ^(0),gΘ^(0)。例如,初始参数设定单元23从观测信号存储单元11读入观测信号Yt,w,并对其进行线性预测而获得的线性预测系数和预测剩余功率作为信号源参数的估计值的初始值sΘ^(0),将gΘ^(0)={{gk.w^(0)=0}1≤k≤Kw}0≤w≤N-1作为混响参数的估计值的初始值gΘ^(0)。设定的各个参数的估计值的初始值sΘ^(0),gΘ^(0)存储在参数存储单元12中(步骤S3)。
接着,控制单元29将表示重复次数的索引i设定为0,并存储在暂时存储单元13中(步骤S4)。
接着,在噪声抑制处理单元24中,输入从观测信号存储单元11读入的观测信号Yt,w、信号源参数的估计值sΘ^(i)、从参数存储单元12读入的噪声 参数的最终的估计值dΘ~、混响参数的估计值gΘ^(i)。噪声抑制处理单元24使用它们来算出用于确定在提供了观测信号Yt,w的集合Y和参数的估计值Θ^的组合的情况下的混响重叠信号Xt,w的集合X的附条件后验分布p(X|Y,Θ^)的复数正态分布的平均μw(Θ^(i),Y)和协方差矩阵∑w(Θ^(i))(步骤S5)。具体地说,使用上述的式(29)~(34),算出复数正态分布的平均μw(Θ^(i),Y)和协方差矩阵∑w(Θ^(i))。算出的复数正态分布的平均μw(Θ^(i),Y)和协方差矩阵∑w(Θ^(i))分别存储在参数存储单元12中。
接着,在信号源参数估计值更新单元25中,输入从参数存储单元12读入的混响参数估计值gΘ^(i)、复数正态分布的平均μw(Θ^(i),Y)、协方差矩阵∑w(Θ^(i))。信号源参数估计值更新单元25使用它们,在将混响参数gΘ固定为gΘ^(i)的状态下,更新信号源参数的估计值sΘ^(i),使得式(24)所示的辅助函数Q(Θ|Θ^(i))的函数值成为最大,并求出更新的信号源参数的估计值sΘ^(i+1)(步骤S6)。具体地说,使用式(36)~(42)算出被更新的信号源参数的估计值sΘ^(i+1)。更新的信号源参数的估计值sΘ^(i+1)存储在参数存储单元12中。
接着,在混响参数估计值更新单元26中,输入从参数存储单元12读入的信号源参数的估计值gΘ^(i+1)、复数正态分布的平均μw(Θ^(i),Y)、协方差矩阵∑w(Θ^(i))。混响参数估计值更新单元26使用它们,在将信号源参数sΘ固定为sΘ^(i+1)的状态下求出混响参数的更新了的估计值sΘ^(i+1),使得式(24)所示的辅助函数Q(Θ|Θ^(i))的函数值成为最大(步骤S7)。具体地说,使用式(44)~(46)算出被更新的混响参数的估计值gΘ^(i+1)。更新的信号源参数的估计值gΘ^(i+1)存储在参数存储单元12中。
接着,控制单元29(对应于“结束条件判定单元”)判断是否满足规定的结束条件(步骤S8)。这里,规定的结束条件,例如可例示各个参数的估计值的更新量(更新前的参数的估计值和更新后的参数的估计值的距离(余弦距离或欧几里得距离等))分别成为规定值以下的情况,或表示重复次数的索引i的值成为规定值以上的情况等。
这里,在不满足规定的结束条件的情况下,控制单元29将表示重复次数的索引i的值加1,并将新的索引i的值存储在暂时存储单元13中(步骤S9)。然后,返回到步骤S105。
另一方面,在满足规定的结束条件的情况下,控制单元29将在该时刻的 信号源参数和混响参数的估计值sΘ^(i+1),gΘ^(i+1)设为信号源参数最终估计值sΘ^和噪声参数最终估计值gΘ^,并将其存储在参数存储单元12中(步骤S10)。
接着,在源信号估计单元27中,输入观测信号Yt,w和各个参数的最终的估计值sΘ^,gΘ^,dΘ~。源信号估计单元27使用它们,生成源信号的估计值St,w^(步骤S11)。然后,S^={St,w^}0≤t≤T-1,0≤w≤N-1成为源信号被增强的信号的复数谱图。
具体地说,首先,在源信号估计单元27的混响重叠信号估计单元27a(图4)中,输入观测信号Yt,w和各个参数的最终的估计值sΘ^,gΘ^,dΘ~。混响重叠信号估计单元27a使用它们来算出在提供了观测信号Yt,w和该参数的估计值Θ^的组合的情况下的混响重叠信号Xt,w的附条件后验分布p(X|Y,Θ^)的平均μw(Θ^,Y)(0 w N-1)作为混响重叠信号的估计值(相当于“混响重叠信号最终估计值”)。具体地说,通过在上述的式(29)~(34)中将Θ^(i)置换为Θ^来算出平均μw(Θ^,Y)。算出的混响重叠信号的估计值μw(Θ^,Y)送到线性滤波器应用单元27b中。在线性滤波器应用单元27b中,输入算出的混响重叠信号的估计值μw(Θ^,Y)和混响重叠信号的最终的估计值gΘ^。线性滤波器应用单元27b将使用输入的混响重叠信号的估计值gΘ^而构成的线性滤波器应用于混响重叠信号的估计值μw(Θ^,Y),生成源信号的估计值St,w^(相当于“源信号最终估计值”)。具体地说,线性滤波器应用单元27b根据以下来算出源信号的估计值St,w^。其中,μt,w是μw(Θ^,Y)的第T-t个元素。
【数学式24】
算出的源信号的估计值St,w^存储在参数存储单元12中。
之后,在频带合成单元28中输入源信号的估计值St,w^,频带合成单元28通过短时间傅里叶反变换等,将该信号变换为时域的源信号的估计值Sκ^并输出(步骤S12)。
<实验结果>
接着,进行了用于确认进行本实施方式的处理而获得的效果的实验。首先,从ASJ-JNAS数据库中提取10名(男性5名、女性5名)的发言。发言 的持续时间都是3秒。设为抽样频率是8kHz,量化比特数是16比特。通过在这些源信号中,卷积在混响时间大致为0.5秒的房间内收录的脉冲响应而合成了混响重叠信号。其中加上在计算机上合成的恒白噪声以使SNR(信噪比)成为10dB,从而设为噪声混响重叠信号。
如下设定了在本实施方式的信号增强装置中使用的参数。设为短时间傅里叶变换帧长度是256样本,偏移宽度是128样本,窗函数是汗宁窗(hanningwindow),表示室内传递系统的自回归的次数对全部频带是Kw=30,源信号的线性预测次数是P=12。此外,设为ECM算法的结束条件是重复次数成为i=5。
使用在下式中定义的SASNR(Segmental Amplitude Signal to Noise Ratio,部分振幅信噪比)评价增强后的源信号的质量。
【数学式25】
在表1中以说话人的性别总结了SASNR的改善性。
【表1】
如表1所示,通过本实施方式,能够将SASNR平均改善7.72dB。仅通过噪声抑制处理,SASNR的平均改善值降低至4.26dB。另一方面,仅通过混响抑制处理,SASNR的平均改善值降低至1.49dB。根据本实验结果,确认了使用本实施方式的方法,使噪声抑制处理和混响抑制处理协调地动作,从而能够实现有效的源信号增强。
【第2实施方式】
接着,说明本发明的第2实施方式。相对于在第1实施方式中,测定信 号的传感器被限定为1个,在本实施方式中,在观测信号的传感器的个数上不设置限制。即,传感器的个数M取满足M≥1的任意的整数。因此,在混响参数中包含的回归矩阵是M行M列的方阵。除此之外,在本实施方式的参数估计处理的概要与在第1实施方式的参数估计处理的概要相同。此外,既可以是M=1,也可以是M≥2,在M=1的本实施方式等价于第1实施方式。
<本方式的参数估计处理的概要>
在本实施方式中,第1更新单元更新第2参数组的参数的估计值,第2更新单元更新第1参数组的参数的估计值。
【观测信号存储处理】
首先,通过观测信号存储处理,观测信号存储在存储单元中。
【初始化处理】
接着,通过初始化处理,第1参数组的参数的估计值和第2参数组的参数的估计值被初始化。
【第1更新处理】
在本实施方式的第1更新处理中,在第1参数组即混响参数的估计值被规定的状态下,第2参数组即信号源参数的估计值被更新。具体地说,本实施方式的第1更新处理包括噪声抑制处理和信号源参数的更新处理。
《噪声抑制处理》
在噪声抑制处理中,使用观测信号和参数的估计值,算出将混响重叠信号的附条件后验分布p(混响重叠信号|观测信号,参数的估计值)特征化的复数正态分布的平均和协方差矩阵。
在从观测信号中求出不包括噪声的混响重叠信号的附条件后验分布的方面,该处理可解释为抑制在观测信号中包含的噪声。要注意该噪声抑制处理使用混响参数的估计值和信号源参数的估计值而执行。这意味着要考虑混响的特性而抑制噪声。这样,在混响环境中,能够高精度地实施噪声抑制。
《信号源参数估计值的更新处理》
在信号源参数估计值的更新处理中,使用混响参数的估计值、混响重叠信号的附条件后验分布的平均和协方差矩阵,更新信号源参数的估计值。信号源参数的估计值被更新,使得有关参数的估计值的辅助函数的值成为最大。
辅助函数是,将与在提供了观测信号和混响重叠信号时的参数的估计值有关的对数似然度函数用混响重叠信号的附条件后验分布p(混响重叠信号| 观测信号,参数估计值)加权的函数,对混响重叠信号进行积分而获得的函数。通过该加权积分,能够一边考虑在噪声抑制处理中算出的混响重叠信号的不确定性一边更新信号源参数的估计值。
【第2更新处理】
在本实施方式的第2更新处理中,在第2参数组即信号源参数的估计值被固定的状态下,第1参数组即混响参数的估计值被更新。混响参数的估计值被更新,使得有关参数的估计值的辅助函数的值成为最大。
【结束条件判定处理】
在结束条件判定处理中,判定是否满足规定的结束条件。在不满足结束条件的情况下,返回到第1更新处理。在满足规定条件的情况下,输出在该时刻的参数的估计值。
在以上叙述的处理中,混响重叠信号的附条件后验分布的协方差矩阵的尺度对噪声的协方差矩阵的尺度单调增加。即,噪声的电平越大,混响重叠信号的附条件后验分布的协方差矩阵的尺度也越大。这表示本实施方式通过妥当的方法来评价在噪声抑制处理中求出的混响重叠信号的不确定性。
<本实施方式的原理>
接着,说明本实施方式的原理。以下,以与第1实施方式的不同点为中心进行说明,关于与第1实施方式共同的事项省略说明。另外,在本实施方式中,信号也不限定于语音信号等的声音信号。
<本实施方式的原理>
接着,说明本实施方式的原理。在本实施方式中,也应用ECM算法。即,使用作为观测信号的噪声混响重叠信号的集合y,交替重复执行将噪声混响重叠信号的集合y和参数的估计值Θ^的组合作为前提条件的混响重叠信号的集合x的附条件后验分布p(x|y,Θ^)的计算处理(E步骤)、源信号参数的估计值sΘ^的计算处理(CM步骤1)、混响参数gΘ的计算处理(CM步骤2),从而更新各个估计值,并在满足规定的结束条件的时刻的各个估计值设为真值的估计值(最终估计值)。另外,E步骤和CM步骤1对应于之前叙述的第1更新处理,CM步骤2对应于之前叙述的第2更新处理。
另外,本实施方式的混响重叠信号的集合x是将分别对应于各个传感器的混响重叠信号的复数谱图作为元素的集合。此外,本实施方式的噪声混响重叠信号的集合y是将分别对应于各个传感器的噪声混响重叠信号的复数谱 图作为元素的集合。
【观测信号(噪声混响重叠信号)的统计模型】
在本实施方式中,也首先定义在提供了参数Θ的情况下的噪声混响重叠信号的集合y的概率密度函数p(y|Θ)。为此,假设观测信号(噪声混响重叠信号)的集合y的统计模型。在本实施方式中,假设在以下叙述的源信号的全极模型、室内传递系统的自回归模型以及噪声的模型。
《源信号的模型》
首先,叙述本实施方式的源信号的全极模型。将在第t(0≤t≤T-1)个帧、第w(0≤w≤N-1)个频带中的源信号的离散傅里叶系数(复数)设为St,w。此外,假设在噪声和混响不存在的情况下,将有可能在第m(1≤m≤M)个传感器中观测到的源信号的离散傅里叶系数设为St,w (m)。此外,定义将各个St,w (m)作为元素的如下的M维源信号矢量。另外,ατ表示α的非共轭转置。
st,w=[St,w (1),...,St,w (M)]τ (49)
假设矢量St,w满足以下条件。
1.将ω∈{-π,π}作为角频率,在第t个帧中的源信号的功率谱密度sλt(ω)由式(1)、(2)所示的全极型频谱密度表示。因此,信号源参数sΘ定义为sΘ={at,1,...,at,P,sσt 2}0≤t≤T-1。其中,{mα}0≤α≤M-1表示由m0,m1,...,mM-1的M个元素构成的集合。
2.如下所示,St,w服从平均0、协方差矩阵sλt(2πw/N)IM的M维复数正态分布。
【数学式26】
p(st,w|sΘ)=NC{st,w;0M,sλt(2πw/N)IM} (50)
其中,NC{x;μ,∑}是服从在式(4)中定义的复数正态分布的概率密度函数。此外,OM和IM分别表示M维零矢量和M维单位矩阵。
这里,若作为ζ=M而将式(4)代入到式(50),则如下式表示st,w的概率密度函数。
【数学式27】
其中,由下式定义对于复数矢量α的||α||2。
||α||2=αH·α (52)
3.若(t,w)≠(t′,w′),则St,w和St′,w′在统计上是独立的。
《室内传递系统的模型》
接着,叙述本实施方式的室内传递系统的模型。将在第m(1≤m≤M)个传感器、第t(0≤t≤T-1)个帧、第w(0≤w≤N)个频带中的混响重叠信号的离散傅里叶系数设为Xt,w (m)。此外,定义将各个Xt,w (m)作为元素的如下的M维混响重叠信号矢量。
xt,w=[Xt,w (1),...,Xt,w (M)]τ (53)
在本实施方式中,假设室内传递系统在各个频带中可作为M通道自回归系统表现。即,若将在第w个频带中的回归系统的回归矩阵设为
【数学式28】
则通过下式生成混响重叠信号的混响重叠信号矢量Xt,w。
【数学式29】
另外,回归矩阵Gk,w是作为元素而具有回归系统的回归系数gk,w (1,1),...,gk,w (M,M)的如下的M行M列的矩阵。另外,Kw表示M通道自回归系统的次数。
【数学式30】
若使用式(55),则式(54)如下表现。
【数学式31】
在本实施方式中,gΘ={{Gk.w}1 k Kw}0≤w≤N-1定义为混响参数gΘ。如下式所示,该混响参数gΘ应用于在源信号中仅附加了混响的混响重叠信号中, 从而用于提取在各个传感器位置中的源信号的用途。
【数学式32】
《噪声的模型》
接着,叙述噪声的模型。在本实施方式中,在第m(1≤m≤M)个传感器、第t(0≤t≤T-1)个帧、第w(0≤w≤N)个频带中的噪声和噪声混响重叠信号的离散傅里叶系数分别成为Dt,w (m),Yt,w (m)。此外,定义将各个Dt,w (m)作为元素的如下的M维的噪声矢量。
dt,w=[Dt,w (1),...,Dt,w (M)]τ (58)
同样地,定义将各个Yt,w (m)作为元素的如下的M维的噪声混响重叠信号(观测信号)矢量。
yt,w=[Yt,w (1),...,Yt,w (M)]τ (59)
噪声混响重叠信号矢量yt,w是混响重叠信号矢量xt,w加上噪声矢量dt,w的矢量。
yt,w=xt,w+dt,w (60)
此外,假设dt,w满足以下叙述的条件。
1.噪声是常数,将其功率谱密度作为dΛ(ω)(由于是常数,所以不依赖于帧号t),dt,w服从平均0、协方差矩阵dΛ(2πw/N)的复数正态分布。另外,协方差矩阵dΛ(2πw/N)的第w个对角元素是在第w个传感器中的噪声的功率谱dλ(m)(2πw/N)。
【数学式33】
此外,本实施方式的噪声参数dΘ是将定义为dΘ={dΛ(2πw/N)}0≤w≤N-1的噪声特征化的参数。
2.若(t,w)≠(t′,w′),则dt,w和dt′,w′在统计上是独立的。
3.对于任意的(t,w,t′,w′),st,w和dt′,w′在统计上是独立的。
《噪声混响重叠信号的概率密度函数》
基于以上的假设,噪声混响重叠信号的概率密度函数被公式化。
在本实施方式中,由在各个传感器中的源信号的复数谱图构成的集合(相当于源信号矢量的集合)表现为s。此外,由在各个传感器中的混响重叠信号的复数谱图构成的集合(相当于混响重叠信号矢量的集合)表现为x。此外,由噪声混响重叠信号的复数频谱构成的集合(相当于噪声混响重叠信号矢量的集合)表现为y。即,表现为
s={st,w}0≤t≤T-1,0≤w≤N-1 (62)
x={xt,w}0≤t≤T-1,0≤w≤N-1 (63)
y={yt,w}0≤t≤T-1,0≤w≤N-1 (64)。
具体地说,如下书写噪声混响重叠信号矢量的集合y的概率密度函数(相当于与在提供了观测信号矢量的集合y时的参数Θ有关的似然度函数)。
【数学式34】
p(y|Θ)=∫p(y,x|Θ)dx (65)
其中,基于以上的假设,如下式书写p(y,x|Θ)。
【数学式35】
通过以上,使用参数Θ={sΘ,gΘ,dΘ},噪声混响重叠信号的集合的概率密度函数p(y|Θ)被公式化。
【信号源参数和混响参数的最似然估计】
如上所述,在本实施方式中,从观测到的噪声混响重叠信号的集合y,通过最似然估计法估计出未知的参数的真值Θ~。即,在将提供了噪声混响重叠信号的集合y的情况下的参数Θ作为变量的似然度函数p(y|Θ)最大化的Θ成为真值Θ~的估计值。其中,在本实施方式中,噪声参数的真值dΘ~从不存在源信号的区间预先独立地估计出且成为已知,所以Θ^={sΘ^,gΘ^,dΘ~},求出sΘ^和gΘ^。
此外,由于不能同时直接求出将似然度函数p(y|Θ)最大化的sΘ^和gΘ^, 所以使用ECM算法计算它们。以下表示ECM算法的处理的流程。在以下的处理中,交替重复执行E-步骤、CM-步骤1、CM-步骤2的3个处理。因此,使用上标的标记(i)表示在第i次重复中的参数的估计值。若明确地叙述,则分别如下定义Θ~,Θ^,Θ^(i)。
【数学式36】
《ECM算法》
1.决定参数的估计值的初始值Θ^(0)。此外,表示重复次数的索引i成为0。
2.E-步骤(噪声抑制处理)
计算混响重叠信号的附条件后验分布p(x|y,Θ^(i))。
3.CM-步骤1(信号源参数估计值的更新处理)
由下式定义辅助函数Q(Θ|Θ^(i))。
【数学式37】
此时,通过以下的手续,信号源参数的估计值从s Θ^(i)更新为sΘ^(i+1)。
【数学式38】
即,在混响参数的估计值gΘ^(i)固定的条件下将辅助函数Q(Θ|Θ^(i))最大 化的SΘ^(i+1)成为被更新的信号源参数的估计值。
4.CM-步骤2(混响参数估计值的更新处理)
通过以下的手续,混响参数的估计值被更新。
【数学式39】
即,在信号源参数的估计值sΘ^(i+1)固定的条件下将辅助函数Q(Θ|Θ^(i))最大化的gΘ^(i+1)成为混响参数的被更新的估计值。
5.结束条件判定
若满足规定的结束条件,则作为sΘ^=sΘ^(i+1),gΘ^=gΘ^(i+1)并结束。若不是,则将i逐渐增加1并返回到“2.E-步骤”。
《各个步骤的计算方法》
以下,说明E-步骤、CM-步骤1以及CM-步骤2的各个计算方法。
1.E-步骤的计算方法
分别总结在全部传感器中的原信号、混响重叠信号、噪声混响重叠信号的第w个频带的离散傅里叶系数序列并如下表示。
【数学式40】
源信号矢量的集合s、混响重叠信号矢量的集合x以及噪声混响重叠信号矢量的集合y分别等价于sw,xw,yw在全频带(0≤w≤N-1)中的集合。
如下式所示,式(77)的混响重叠信号的附条件后验分布p(x|y,Θ^(i))能够在每个频带w使用独立的多个复数正态分布来表现。
【数学式41】
另外,由下式提供平均μw(Θ^(i),y)和协方差矩阵∑w(Θ^(i))。此外,平均μw(Θ^(i),y)是M维矢量。
【数学式42】
分别如下定义在式(82)、(83)中出现的各个变量。另外,式(84)的空栏部分的各个元素为0。
【数学式43】
此外,bdiag{Ω1,...,Ωα}表示对于任意的方阵Ω1,...,Ωα的如下的块对角矩阵。
【数学式44】
此外,如前所述,由于假设噪声为常数,所以
dΛT-1~(2πw/N)=dΛT-2~(2πw/N)=…=dΛ0~(2πw/N)=dΛ~(2πw/N)(89)。
此外,为了之后的处理,将μvm,w (i)设为由平均μw(Θ^(i),y)的第M(T-m-1)至第M(T-m)个元素构成的部分矢量,将μvm:n,w (i)(m n)设为由平均μ w(Θ^(i),y)的第M(T-m-1)+1至第M(T-m)个元素构成的部分矢量。此外,将∑V(m1:n1,m2:n2),w (i)设为由协方差矩阵∑w(Θ^(i))的第(M(T-m1-1)+1,M(T-m2-1)+1)个元素至第(M(T-n1),M(T-n2))个元素构成的部分矩阵。
2.CM-步骤1的计算方法
在第t个帧中的源信号的线性预测系数和其估计值由式(35)的矢量表现。
信号源参数sΘ和其估计值sΘ^分别等价于{at,sσt 2}和{at^,sσ^t 2}在全帧(0≤t≤T-1)中的集合。
通过在全帧(0≤t≤T-1)中执行式(36)、(37)的at和sσt 2的估计值的更新,从而实现式(78)的信号源参数的更新。其中,在本实施方式中,使用代替式(41)、(42)而通过
【数学式45】
算出的Vt,w (i),并通过式(36)至(40)的计算,at和sσt 2的估计值被更新。另外,对于方阵A的式(90)的davg(A)表示方阵A的对角元素的平均值。
3.CM-步骤2的计算方法
在第w个频带中的混响参数和其估计值分别由如下的矢量表现。
【数学式46】
混响参数g Θ和其估计值gΘ^分别等价于Gw和Gw^在全频带(0≤w≤N-1)中的集合。
通过在全频带(0≤w≤N-1)中执行下式所示的Gw的估计值的更新,从而实现式(78)的混响参数的更新。
【数学式47】
其中,分别如下定义xRVw (i)和xrvw (i)。
【数学式48】
如上说明,在本实施方式中,协调地重复执行噪声抑制处理(E-步骤)、信号源参数估计值的更新处理(CM-步骤1)和混响参数估计值的更新处理(CM-步骤2),信号源参数和混响参数的估计值被更新。这样,从噪声和混响都存在的环境下的观测信号中,高精度地抑制噪声和混响,增强源信号。
<本实施方式的结构>
接着,说明本实施方式的信号增强装置的结构。
图6是表示第2实施方式的信号增强装置100的结构的方框图。此外,图7是表示源信号估计单元127的详细结构的方框图。
如图6所示,本实施方式的信号增强装置100包括:观测信号存储单元111、参数存储单元112、暂时存储单元13、频带分割单元121、噪声参数估计单元122、初始参数设定单元123、噪声抑制处理单元124、信号源参数估计值更新单元125、混响参数估计值更新单元126、源信号估计单元127、频带合成单元28以及控制单元29。此外,源信号估计单元127包括混响重叠 信号估计单元127a以及线性滤波器应用单元127b。另外,噪声参数估计单元122和初始参数设定单元123对应于上述的初始化单元。此外,噪声抑制处理单元124和信号源参数估计值更新单元125对应于上述的第1更新单元。此外,混响参数估计值更新单元126对应于上述的第2更新单元。
另外,本实施方式的信号增强装置100是通过在由CPU(中央处理单元)、RAM(随机存取存储器)等构成的公知的计算机中读入规定的程序而构成。具体地说,观测信号存储单元111、参数存储单元112以及暂时存储单元13是例如通过RAM、寄存器、闪速存储器、或者辅助存储装置、或者由它们的至少一部分的组合而构成的存储单元。此外,频带分割单元121、噪声参数估计单元122、初始参数设定单元123、噪声抑制处理单元124、信号源参数估计值更新单元125、混响参数估计值更新单元126、源信号估计单元127、频带合成单元28以及控制单元29是通过在CPU中读入规定的程序而构成的本装置专用的处理单元。此外,控制单元29控制信号增强装置100的各个处理。
<本实施方式的处理>
图8是用于说明第2实施方式的信号增强方法的流程图。以下,沿着该流程图说明本实施方式的信号增强方法。
首先,在信号增强装置100的频带分割单元121中,输入将通过M个传感器分别观测到且量化的时域的观测信号Yκ (m)(1≤m≤M)作为元素的观测信号矢量[Yκ (1),...,Yκ (M)]τ。频带分割单元121通过短时间傅里叶变换等将观测信号矢量[Yκ (1),...,Yκ (M)]τ变换为时频域的观测信号矢量yt,w=[Yt,w (1),...,Yt,w (M)]τ,并存储在观测信号存储单元111中(步骤S101)。
接着,噪声参数估计单元122使用在观测信号存储单元111中存储的观测信号矢量yt,w中、不存在源信号的区间的观测信号,计算噪声参数的真值dΘ~的估计值。另外,如上所述,本实施方式的噪声参数dΘ是噪声的功率交叉谱(表示噪声的概率分布的M维复数正态分布的协方差矩阵)。此外,在本实施方式中,假设噪声是常数,其振幅的平均为0M。因此,噪声参数的真值dΘ~可使用不存在源信号的区间的观测信号矢量Yt,w,如下式估计。
【数学式49】
其中,η是不存在源信号的区间的帧号的集合,|η|是不存在源信号的区间的帧数。此外,在确定不存在源信号的区间时,例如使用公知的语音区间检测技术。或者,也可以预先测量不存在源信号的观测信号Yt,w以用于噪声参数估计,并使用它。估计出的噪声参数的真值dΘ~存储在参数存储单元112中(步骤S102)。
接着,初始参数设定单元123设定信号源参数和混响参数的估计值的初始值sΘ^(0),gΘ^(0)。例如,初始参数设定单元123从观测信号存储单元111读入观测信号矢量yt,w,并对其第1元素(即,通过第1个传感器观测到的信号)进行线性预测分析而获得的线性预测系数和预测剩余功率作为信号源参数的估计值的初始值sΘ^(0),将gΘ^(0)={{Gk.w^(0)=O M}1≤k≤Kw}0≤w≤N-1作为混响参数的估计值的初始值gΘ^(0)。其中,OM是M维零矩阵。设定的各个参数的估计值的初始值sΘ^(0),gΘ^(0)存储在参数存储单元112中(步骤S103)。
接着,控制单元29将表示重复次数的索引i设定为0,并存储在暂时存储单元13中(步骤S104)。
接着,在噪声抑制处理单元124中,输入从观测信号存储单元111读入的观测信号矢量yt,w、信号源参数的估计值sΘ^(i)、从参数存储单元112读入的噪声参数的真值dΘ~、混响参数的估计值gΘ^(i)。噪声抑制处理单元124使用它们来算出用于确定在提供了观测信号矢量yt,w的集合y和参数的估计值Θ^的组合的情况下的混响重叠信号矢量Xt,w的集合x的附条件后验分布p(x|y,Θ^)的复数正态分布的平均μw(Θ^(i),y)和协方差矩阵∑w(Θ^(i))(步骤S105)。具体地说,使用上述的式(82)~(87),算出复数正态分布的平均μ w(Θ^(i),y)和协方差矩阵∑w(Θ^(i))。算出的复数正态分布的平均μw(Θ^(i),y)和协方差矩阵∑w(Θ^(i))分别存储在参数存储单元112中。
接着,在信号源参数估计值更新单元125中,输入从参数存储单元112读入的混响参数估计值gΘ^(i)、复数正态分布的平均μw(Θ^(i),y)、协方差矩阵∑w(Θ^(i))。信号源参数估计值更新单元125使用它们,在将混响参数gΘ固定为gΘ^(i)的状态下,更新信号源参数的估计值sΘ^(i),使得式(77)所示的辅助函数Q(Θ|Θ^(i))的函数值成为最大,并求出更新的信号源参数的估计值sΘ^(i+1)(步骤S106)。具体地说,使用式(36)~(40)、(90)、(91)算出被更新的信号源参数的估计值sΘ^(i+1)。更新的信号源参数的估计值sΘ^(i+1)存储在参数存储单元112中。
接着,在混响参数估计值更新单元126中,输入从参数存储单元112读入的信号源参数的估计值gΘ^(i+1)、复数正态分布的平均μw(Θ^(i),y)、协方差矩阵∑w(Θ^(i))。混响参数估计值更新单元126使用它们,在将信号源参数sΘ固定为sΘ^(i+1)的状态下,求出混响参数的更新了的估计值gΘ^(i+1),以使式(77)所示的辅助函数Q(Θ|Θ^(i))的函数值成为最大(步骤S107)。具体地说,使用式(93)~(95)算出混响参数的估计值gΘ^(i+1)。更新的混响参数的估计值gΘ^(i+1)存储在参数存储单元112中。
接着,控制单元29(对应于“结束判定单元”)判断是否满足规定的结束条件(步骤S108)。这里,规定的结束条件,例如可例示各个参数的估计值的更新量(更新前的参数的估计值和更新后的参数的估计值的距离(余弦距离或欧几里得距离等))分别成为规定值以下的情况,或表示重复次数的索引i的值成为规定值以上的情况等。
这里,在不满足规定的结束条件的情况下,控制单元29将表示重复次数的索引i的值加1,并将新的索引i的值存储在暂时存储单元13中(步骤S109)。然后,返回到步骤S105。
另一方面,在满足规定的结束条件的情况下,控制单元29将在该时刻的信号源参数和混响参数的估计值sΘ^(i+1)、gΘ^(i+1)作为信号源参数最终估计值 sΘ^和噪声参数最终估计值gΘ^,并将它们存储在参数存储单元112中(步骤S110)。
接着,在源信号估计单元127中,输入观测信号Yt,w和各个参数的最终的估计值sΘ^、gΘ^、dΘ~。源信号估计单元127使用它们,生成源信号的估计值St,w^(步骤S111)。然后,S^={St,w^}0≤t≤T-1,0≤w≤N-1成为源信号被增强的信号的复数谱图。
具体地说,首先,在源信号估计单元127的混响重叠信号估计单元127a(图7)中,输入观测信号矢量yt,w和各个参数的最终的估计值sΘ^,gΘ^,dΘ~。混响重叠信号估计单元127a使用它们来算出在提供了观测信号矢量yt,w和该参数的估计值Θ^的组合的情况下的混响重叠信号矢量xt,w的附条件后验分布p(x|y,Θ^)的平均μw(Θ^,y)(0≤w≤N-1)作为混响重叠信号矢量xt,w的估计值(相当于“混响重叠信号最终估计值”)。具体地说,通过在上述的式(82)~(87)中将Θ^(i)置换为Θ^来算出平均μw(Θ^,y)。算出的混响重叠信号矢量xt,w的估计值μw(Θ^,y)送到线性滤波器应用单元127b中。
在线性滤波器应用单元127b中,输入算出的混响重叠信号矢量xt,w的估计值μw(Θ^(i),y)和混响参数的最终的估计值gΘ^。线性滤波器应用单元127b将使用输入的混响参数的估计值gΘ^而构成的线性滤波器应用于混响重叠信号矢量xt,w的估计值μw(Θ^,y),生成源信号矢量的估计值St,w^。然后,线性滤波器应用单元127b例如对源信号矢量的估计值st,w^的元素进行平均,并将该平均值作为源信号的估计值st,w^(相当于“源信号最终估计值”)而输出。具体地说,线性滤波器应用单元127b例如根据以下来算出源信号的估计值St,w^。其中,μvt,w是由混响重叠信号矢量xt,w的估计值μw(Θ^,y)的第M(T-t-1)+1至第M(T-t)个元素构成的部分矢量。
【数学式50】
其中,对于任意的矢量α的avg(α)表示矢量α的全部元素的平均值。另外,在本实施方式中,将
【数学式51】
的元素的平均值作为源信号的估计值St,w^,但也可以将这些元素中的任一个作为源信号的估计值St,w^。
算出的源信号的估计值St,w^存储在参数存储单元112中。
之后,在频带合成单元28中输入源信号的估计值St,w^,频带合成单元28通过短时间傅里叶反变换等,将该信号变换为源信号的估计值Sκ^并输出(步骤S112)。
<实验结果>
接着,进行了用于确认进行本实施方式的处理而获得的效果的实验。首先,准备了由男女两个说话人发言的语音。对于各个语音的声音信号卷积在混响时间大致为0.5秒的房间内通过两个话筒收录的脉冲响应而合成了混响语音信号。其中加上SN比成为15dB的白噪声,从而模拟了噪声混响重叠信号。
如下设定了用于实施本实施方式所需的参数。设为短时间傅里叶变换帧 长度是256样本,偏移宽度是128样本,窗函数是汗宁窗,室内传递系统的次数是25,语音的线性预测次数是12。此外,设为ECM算法的结束条件是重复次数成为3次的时刻。作为评价增强后的语音信号的质量的尺度而使用了倒谱失真。
在进行本实施方式的处理之前的信号(噪声混响语音信号)的倒谱失真的平均值是6.99dB。相对于此,在进行了本实施方式的处理之后的信号的倒谱失真的平均值是5.15dB,改善了1.84dB。作为参考,在仅使用了一个话筒的情况下,倒谱失真的平均值是5.61dB。通过以上的结果,确认了本实施方式的效果。
【第3实施方式】
接着,说明本发明的第3实施方式。
<本方式的参数估计处理的概要>
首先,说明本实施方式的参数估计单元中的处理的概要。在本实施方式中,第2参数组除了信号源参数之外,至少包括导向矢量(steering vector)。此外,在本实施方式中,第1更新单元更新第2参数组的估计值,第2更新单元更新第1参数组的参数的估计值。
【观测信号存储处理】
首先,通过观测信号存储处理,观测信号存储在存储单元中。
【初始化处理】
接着,通过初始化处理,第1参数组的参数的估计值和第2参数组的参数的估计值被初始化。
【第1更新处理】
在本实施方式的第1更新处理中,在第1参数组即混响参数的估计值被规定的状态下,第2参数组即信号源参数的估计值被更新。具体地说,本实施方式的第1更新处理包括源信号估计值更新处理、导向矢量估计值更新处理以及信号源参数估计值更新处理。
《源信号估计值更新处理》
在源信号估计值更新处理中,首先,使用观测信号和混响参数的估计值,计算噪声重叠信号的估计值。该处理被解释为在将噪声混响重叠信号作为输入而输出噪声重叠信号的方面相当于混响抑制处理。
接着,使用算出的噪声重叠信号的估计值和参数的估计值,算出将源信 号的附条件后验分布p(源信号|噪声重叠信号的估计值,参数的估计值)特征化的复数正态分布的平均和方差。该平均和方差分别相当于源信号的估计值和误差方差。
《导向矢量估计值更新处理》
在导向矢量估计值更新处理中,使用噪声重叠信号估计值和源信号估计值,导向矢量的估计值被更新。导向矢量的估计值被更新,以使关于参数的对数似然度函数增加。
《信号源参数估计值的更新处理》
在信号源参数估计值的更新处理中,从源信号的估计值和误差方差,计算源信号的功率谱的估计值。基于该功率谱的估计值,信号源参数的估计值被更新。该更新处理使关于参数的对数似然度函数增加。
【第2更新处理】
在本实施方式的第2更新处理中,在第2参数组即信号源参数、噪声参数、导向矢量的各个估计值被固定的状态下,第1参数组即混响参数的估计值被更新。具体地说,本实施方式的第2更新处理包括源信号短时间功率谱估计值更新处理、混响参数估计值更新处理、噪声参数估计值更新处理。
《源信号短时间功率谱估计值更新处理》
在源信号短时间功率谱估计值更新处理中,使用信号源参数估计值,更新源信号的功率谱的估计值。
《噪声参数估计值更新处理》
接着,在噪声参数估计值更新处理中,使用噪声重叠信号的估计值、源信号的估计值、导向矢量的估计值,更新噪声参数的估计值。该更新处理使关于参数的对数似然度函数增加。
《混响参数估计值更新处理》
在混响参数估计值更新处理中,使用观测信号、被更新的源信号的功率谱的估计值、噪声参数的估计值,更新混响参数的估计值。混响参数的估计值被更新,以便在信号源参数的估计值和噪声参数的估计值以及导向矢量的估计值被固定的条件下,关于参数的对数似然度函数成为最大。
【结束条件判定处理】
在结束条件判定处理中,判定是否满足规定的结束条件。在不满足结束条件的情况下,返回到第1更新处理。在满足规定条件的情况下,输出在该 时刻的参数的估计值。
【原理】
接着,说明本实施方式的原理。
本实施方式的信号增强装置的源信号估计单元在通过线性滤波器处理而抑制在观测信号中包含的混响而估计噪声重叠信号之后,通过维纳滤波器等的非线性滤波器处理而从噪声重叠信号中抑制噪声。为了实现这个步骤,本实施方式的参数估计单元生成的参数与第1、2实施方式的参数不同。
如图2中示意性地所示,生成时域的观测信号的系统由卷积多个室内脉冲响应的混响重叠系统(室内传递系统)和对各个混响重叠系统的输出加上恒噪声的噪声重叠系统构成。通过这些系统,对源信号附加混响和噪声,成为时域的观测信号。若将在时频域的观测信号矢量和源信号分别设为yt,w、St,w,则由式(98)表示两者的关系。
【数学式52】
这里,dt,w=[Dt,w (1),…,Dt,w (M)]τ表示噪声矢量,bw表示M维的导向矢量,Gk,w表示关于室内传递系统的k次回归矩阵,H表示共轭转置,τ表示非共轭转置。式(98)意味着室内传递系统在第w个频带中,由作为k次回归矩阵而具有Gk,w的Kw次的M通道自回归系统表示。式(98)能够等价变换为式(99)~式(101)。
【数学式53】
φt,w=bwSt,w+vt,w (100)
如式(101)所示,vt,w是在作为第0个抽头(tap)权阵为单位矩阵且第k个(k≥1)抽头权阵为-Gk,w的M输入M输出线性滤波器中输入噪声矢量dt,w而获得的输出信号。即,vt,w是被滤波器处理的噪声,不包括来自源信号的分量。在本实施方式中,将其简称为噪声。此外,如式(100)所示,φt,w是源信号St,w与M维导向矢量bw的积和噪声矢量vt,w的和。以后, 将φt,w称为噪声重叠信号矢量。此外,如式(99)所示,观测信号矢量yt,w是重叠了在k次的回归矩阵为Gk,w的自回归系统中输入噪声重叠信号φt,w而获得的混响重叠的信号。
在本实施方式中,混响参数gΘ由gΘ={{Gk,w}1≤k≤Kw}0≤w≤N-1定义。此外,导向矢量的集合bΘ={bw}0≤w≤N-1也是在本实施方式中的参数的一部分。此外,关于源信号和噪声,也与第1、2实施方式相同地假设以下的条件。
《源信号的模型》
由P次的全极型的函数提供源信号的短时间功率谱密度。即,由式(102)提供在第t帧中的源信号的功率谱密度。
【数学式54】
At(z)=1-at,1z-1-…-at,Pz-P (103)
ω∈{π,π}是角频率,at,k是线性预测系数,sσt 2是预测剩余功率。使用该信号源参数,由式(104)表示在第t个帧的频带w中的源信号短时间功率谱sλt,w。
【数学式55】
sλt,w=sλt(2πw/N) (104)
若(t,w)≠(t′,w′),则St 1,w 2和St 2,w 2在统计上是独立的。源信号St,w服从平均为0、方差与源信号短时间功率谱sλt,w相等的复数正态分布。即,由式(105)提供源信号St,w的概率密度函数。
【数学式56】
p(St,w;sΘ)=N{St,w;0,sλt,w } (105)
其中,sΘ是由sΘ={at,1,...,at,P,sσt 2}0≤t≤T-1定义的信号源参数。此外,N{x;μ,∑}是由式(4)定义的复数正态分布的概率密度函数。
《噪声的模型》
若假设噪声是常数,则噪声的短时间功率谱密度和短时间交叉谱密度不随时间而变化。即,它们不依赖于帧号t。因此,如式(106)的矩阵表现它们。
【数学式57】
这里,vλ(m,m)(ω)是关于第m个话筒的噪声的短时间功率谱密度,vλ(m1,m2)(ω)是关于第m1个话筒的噪声和关于第m2个话筒的噪声间的交叉谱密度。由式(107)提供在第w个频带中的噪声短时间功率交叉谱矩阵vΛw。
【数学式58】
vΛw=vΛ(2πw/N) (107)
若(t1,w1)≠(t2,w2),则vt1,w1和vt1,w2在统计上是独立的。此外,对于任意的(t1,w1,t2,w2),源信号St 1,w 1和噪声矢量vt2,w2在统计上是独立的。
噪声矢量vt,w服从平均O M=[0,...,0]τ、协方差矩阵与噪声短时间功率交叉谱矩阵vΛw相等的M维复数正态分布。即,由式(108)提供噪声矢量vt,w的概率密度函数。
【数学式59】
p(vt,w;vΘ)=N{vt,w;OM,vΛw } (108)
其中,vΘ是由vΘ={vΛw}0 w≤N-1定义的噪声参数。
因此,本实施方式的参数Θ由式(109)~式(113)定义。
【数学式60】
Θ={gΘ,bΘ,sΘ,vΘ} (109)
bΘ={bw}0≤w≤N-1 (111)
vΘ={vΛw}0≤w≤N-1 (113)
在输入了包括噪声和混响的观测信号时,本实施方式的参数估计单元对上述参数Θ进行最似然估计。进而,根据式(102)、式(103)及式(104),从信号源参数的估计值计算源信号功率谱的估计值。这些估计值提供给源信号估计部。
此外,将回归矩阵的估计值设为Gk,w^,将导向矢量的估计值设为bw ^,将线性预测系数的估计值设为at,k^,将预测剩余功率的估计值设为sσt^2,源信号短时间功率谱的估计值设为sλt,w^,将噪声短时间功率交叉谱矩阵的估计值设为vΛw^。
首先,本实施方式的源信号估计单元根据式(114),从观测信号矢量yt,w抑制混响而求出噪声重叠信号矢量的估计值(混响抑制信号)φt,w^。
【数学式61】
接着,源信号估计单元对混响抑制信号φt,w^使用多通道维纳滤波器,并如式(115)所示计算源信号St,w的最小平均平方误差(MMSE)估计值。
【数学式62】
这里,F(·)是多通道维纳滤波器的增益矢量。
《参数的对数似然度函数》
基于上述的源信号和噪声、观测信号矢量的生成模型式(99)和式(100),由式(118)表示参数Θ的对数似然度函数
L(Θ;y)=log p(y|Θ) (117)。
【数学式63】
其中,φΛt,w表示噪声重叠信号φt,w的协方差矩阵,并由式(119)提供。
【数学式64】
说明式(118)的导出过程。噪声重叠信号φt,w的协方差矩阵成为式(119) 的情况,例如记载在参考文献“伊藤信貴他“ 晶型マイクロホンアレイを用いたポストフイルタ設計に基づく拡散性 音抑压”信学技報E A2008-13,p p.43-46,2008”中。
通过该记载和式(99),可知由式(120)提供在提供了过去的观测信号矢量的情况下的观测信号矢量yt,w的附条件概率密度函数。
【数学式65】
因此,由式(121)表示关于全部观测信号矢量的集合y的概率密度函数。其中,y={yt,w}0≤t≤T-1,0≤w≤N-1。
【数学式66】
通过将式(121)的两边取对数,导出对数似然度函数,即式(118)。
<本实施方式的结构和处理>
图9是表示第3实施方式的信号增强装置200的功能结构例子的方框图。图10是用于说明第3实施方式的处理的流程图。
本实施方式的信号增强装置200包括:频带分割单元220、参数估计单元310、源信号估计单元230、控制单元250以及频带合成单元240。源信号 估计单元230包括:线性滤波器处理单元231和非线性滤波器处理单元232。频带分割单元220和频带合成单元240与第1、第2实施方式相同。信号增强装置200是通过在例如由ROM、RAM、CPU等构成的计算机中读入规定的程序且CPU执行该程序而实现的专用装置。
频带分割单元220将时域的观测信号分割为规定数的每个频带的观测信号矢量yt,w(0≤t≤T-1,0≤w≤N-1)(步骤S201)。参数估计单元310使用输入的观测信号矢量yt,w,分别估计包括用于估计混响的回归矩阵Gk,w的混响参数gΘ、包括用于估计源信号的噪声短时间功率交叉谱矩阵vΛw的噪声参数vΘ、用于规定源信号短时间功率谱sλt,w的信号源参数sΘ、导向矢量bw的集合bΘ的各个真值(步骤S202)。
<步骤S202的细节>
图11是第3实施方式的参数估计单元310的功能结构例子的方框图。此外,图12是用于说明第3实施方式的参数估计处理的流程图。本实施方式的参数估计单元310为了对未知的参数Θ进行最似然估计而重复更新混响参数 gΘ、导向矢量bΘ、信号源参数sΘ、噪声参数vΘ的各个估计值。
参数估计单元310包括:观测信号记录单元311、参数估计值初始化单元312(相当于“初始化单元”)、源信号估计值更新单元313、信号源参数估计值更新单元314、源信号功率谱估计值更新单元315、混响参数估计值更新单元316、导向矢量估计值更新单元318、噪声参数估计值更新单元319以及收敛判定单元317。
源信号估计值更新单元313、导向矢量估计值更新单元318、信号源参数估计值更新单元314包含在上述的第1更新单元中。此外,源信号功率谱估计值更新单元315、噪声参数估计值更新单元319、混响参数估计值更新单元316包含在上述的第2更新单元中。
观测信号记录单元311记录通过频带分割单元220分割为规定数的频带的观测信号。观测信号记录单元311记录观测区间中的全部噪声混响重叠信号。然后,观测信号记录单元311将记录的观测信号输出到源信号估计值更新单元313、混响参数估计值更新单元316、参数估计值初始化单元312。
参数估计值初始化单元312使用输入的观测信号矢量yt,w,设定混响参数gΘ、导向矢量bΘ、信号源参数sΘ、噪声参数vΘ的各个初始值。此外,控制单元250将表示重复次数的索引i设为0
源信号估计值更新单元313使用输入的观测信号矢量yt,w、各个参数的估计值的初始值gΘ(0)^,bΘ(0)^,sΘ(0)^,vΘ(0)^或者更新的各个参数的估计值gΘ(i)^,bΘ(i)^,sΘ(i)^,vΘ(i)^,将源信号的估计值St,w (i)^和其误差方差、噪声重叠信号的估计值φt,w (i)^分别更新为St,w (i+1)^和其误差方差、φt,w (i+1)^(步骤S301)。使用式(115)算出St,w (i+1)^,使用式(114)算出φt,w (i+1)^。使用式(122)算出误差方差。
【数学式67】
在导向矢量估计值更新单元318中,输入被更新的源信号的估计值St,w (i+1)^和噪声重叠信号的估计值φt,w (i+1)^。导向矢量估计值更新单元318使用它们,并按照式(123),计算被更新的导向矢量的估计值。式(123)基于噪声矢量的平均为OM的假设。
【数学式68】
这里,*表示复数共轭。通过在全部的频带w(0≤w≤N-1)中计算式(123),得到被更新的导向矢量的估计值bΘ(i+1)^(步骤S303)。
如式(124)所示,信号源参数估计值更新单元314将源信号的估计值S t,w (i+1)^的功率和其误差方差εt,w (i+1)相加而求出功率谱。
【数学式69】
然后,信号源参数估计值更新单元314使用求出的功率谱γt,w (i+1),通过Levinson-Durbin算法,更新信号源参数的估计值。由于Levinson-Durbin算法是公知的方法,所以省略详细的说明,但通过将式(40)的Vt,w (i)置换为γt,w (i+1),并进行从式(36)至(40)的运算,从而算出被更新的信号源参数(at,1 (i+1)^,...,at,P (i+1)^,sσt 2(i+1)^)。然后,在全部的帧号t(0≤t≤T-1)中算出它们,从而得到被更新的信号源参数sΘ(i+1)^(步骤S304)。
在源信号功率谱估计值更新单元315中,输入被更新的信号源参数的估计值。源信号功率谱估计值更新单元315使用更新的信号源参数,更新源信号的短时间功率谱的估计值(步骤S305)。使用式(102)、式(103)以及式(104)算出源信号的短时间功率谱的更新的估计值sλt,w (i+1)^。
在噪声参数估计值更新单元319中,输入被更新的源信号的估计值St,w (i+1)^、噪声重叠信号的估计值φt,w (i+1)^、导向矢量的更新值bΘ(i+1)^。噪声参数估计值更新单元319使用它们,根据式(125),在全部频带w(0≤w≤N-1)中计算噪声短时间功率交叉谱矩阵的估计值vΛw (i+1)^。
【数学式70】
这里,T′是非常小的值,在t=0至t=T′-1的区间是观测信号的冒头部分。在本实施方式中,假设冒头部分的T′帧(例如,0.3秒期间)仅包括噪声,从对于该区间的计算结果,更新噪声短时间功率交叉谱矩阵的估计值vΛw (i+1)^(步骤S306)。
混响参数估计值更新单元316使用输入的观测信号矢量yt,w、更新的导向矢量的估计值bΘ(i+1)^、源信号短时间功率谱的估计值sλt,w (i+1)^、噪声短时间功率交叉谱矩阵的估计值vΛw (i+1)^,求出混响参数的被更新的估计值gΘ(i+1)^(步骤S307)。首先,如式(126)和式(127)所示,混响参数估计值更新单元316将在第w个频带中的回归矩阵的各个分量总结为单一的矢量。
【数学式71】
式(126)和式(127)的右下的标记表示各个式所示的矩阵(或者矢量)的大小。这里,设为gk,w (m)表示回归矩阵Gk,w的第m个列。以后,将gw称为回归矩阵的分量矢量。分量矩阵gw在全部频带中的集合{gw}0≤w≤N-1与混响参数gΘ一致。
接着,如式(128)定义在1帧前的观测信号矩阵MYt-1,w。
【数学式72】
使用它们,根据式(130)而算出回归矩阵的分量矢量的更新后的估计值g w (i+1)^。
【数学式73】
这里,φΛt,w (i+1)^是在式(119)中作为bw=bw (i+1)^,sλt,w=sλt,w (i+1)^,vΛw=vΛw (i+1)^而获得的值。通过在全部频带w(0≤w≤N-1)中算出它们,获得混响参数的估计值的更新值gΘ(i+1)^。
接着,收敛判定单元317判定如以上更新的混响参数的估计值gΘ(i+1)^、导向矢量的估计值bΘ(i+1)^、信号源参数的估计值sΘ(i+1)^、噪声参数vΘ(i+1)^是否收敛(是否满足结束条件)(步骤S308)。例如,收敛判定单元317可以是若重复次数i达到规定数则判定为收敛,也可以是若在每次重复上述的处理时获得的对数似然度函数(式(118))的值的增量小于规定的阈值,则判定为收敛。直到这些值收敛为止重复步骤S302~步骤S307的动作,在满足了规定的结束条件的情况下,在该时刻的混响参数的估计值gΘ(i+1)^、导向矢量的估计值bΘ(i+1)^、信号源参数的估计值sΘ(i+1)^、噪声参数vΘ(i+1)^输出到源信号估计单元230。此时,也可以在参数估计值记录单元320中记录该参数的估计值(结束步骤S202的细节的说明)。
线性滤波器处理单元231将回归矩阵的估计值Gk,w^对观测信号矢量y t,w进行卷积运算而求出混响。然后,线性滤波器处理单元231从观测信号矢量减去求出的混响而生成混响抑制信号矢量φt,w^(步骤S203)。非线性滤波器处理单元232使用输入的噪声短时间功率谱矩阵的估计值vΛw^、源信号短时间功率谱的估计值sλt,w^、导向矢量的估计值bw^、混响抑制信号 φt,w^,生成从混响抑制信号φt,w^抑制了噪声的源信号的估计值st,w^(步骤S204)。频带合成单元240合成源信号的估计值st,w^而变换为时域的源信号的估计值(步骤S205)。控制单元250控制上述各个处理单元,使得生成从输入的时域的观测信号抑制了混响和噪声的时域的源信号的估计值。
如上所述,在信号增强装置200中,线性滤波器处理单元231抑制在观测信号矢量yt,w中包含的混响而生成混响抑制信号矢量φt,w^,之后,非线性滤波器处理单元232从混响抑制信号抑制噪声。该时域的源信号的估计值是在对观测信号矢量进行了线性滤波器处理之后进行非线性滤波器处理而获得的值。因此,该时域的源信号的估计值是噪声和混响被充分抑制的高质量的信号。
另外,在上述中,作为一个固定值而说明了回归次数(线性滤波器的滤波器长度)Kw。但是,回归次数也可以根据频带的中心频率而变化。已知混响时间根据频带而不同。例如,由于在室内声音的领域中,500Hz以下的频带的混响时间长,所以也可以在该频带中加大回归次数Kw,在除此之外的频带中减小回归次数Kw。此外,也可以在参数估计单元310内包括回归次数可变单元301,回归次数可变单元301根据频带而改变回归次数,即线性滤波器处理单元231的滤波器长度。由此,能够高效率地抑制混响。即,能够削减线性滤波器处理单元231的计算量。在上述的第1、2实施方式中也可以进行这样的变形。
【实验结果】
以确认本实施方式的信号增强方法的效果的目的,进行了实验。说明实验条件。在源信号中使用从ASJ-JNAS数据库中提取的10名(男性5名、女性5名)的发言。将这些语音在混响时间大致为0.6秒的房间中从扬声器再现,并通过距离扬声器1.8m设置的2个话筒进行录音。此外,在同一个房间,通过同一个话筒对从设置在4处的扬声器同时再现的粉红噪声进行录音。之后,将录音的混响语音和噪声相加从而使得SN比成为10dB的信号用作时域的观测信号。另外,设为录音时的抽样频率是8kHz。
在本实施方式的频带分割单元的处理中,使用了多相滤波器组分析。设为频带分割数是256,间除率是128。
设为源信号的线性预测次数是P=12。如下设置回归次数Kw:若观测信 号的频率小于100Hz则Kw=5,若是100Hz~200Hz则Kw=10,若是200Hz~1000Hz则Kw=30,若是1000Hz~1500Hz则Kw=20,若是1500Hz~2000Hz则Kw=15,若是2000Hz~3000Hz则Kw=10,若是3000Hz以上则Kw=5。此外,收敛判定单元在重复次数为3次则判定为收敛。
在以上的条件下,比较了观测信号其本身、实施方式1的源信号的估计值、本实施方式的源信号的估计值与各自的源信号的MFCC距离的平均值。其结果依次为7.39、5.81、5.11。这样,获得通过本发明的信号增强方法的MFCC距离最近的结果。
另外,本发明并不限定于上述的各个实施方式。例如,上述的各种处理不仅可以按照记载以时间顺序执行,也可以根据执行处理的装置的处理能力或者根据需要而并行或者单独地执行。除此之外,也可以在不脱离本发明的意旨的范围内进行适当的变更。
此外,在通过计算机实现上述的结构的情况下,通过程序记述各个装置应具有的功能的处理内容。并且,计算机执行该程序,从而在计算机上实现上述处理功能。
记述了该处理内容的程序可以预先记录在计算机可读取的记录介质中。作为计算机可读取的记录介质,例如可以是磁记录装置、光盘、光磁记录介质、半导体存储器等任何介质。
此外,例如通过将记录了该程序的DVD、CD-ROM等的可移动记录介质进行贩卖、转让、出借等而进行该程序的流通。此外,也可以将该程序存储在服务器计算机的存储装置中,经由网络从服务器计算机对其他的计算机转发该程序,从而流通该程序。
执行这样的程序的计算机,例如首先将在可移动记录介质中记录的程序或者从服务器计算机转发的程序暂时存储在自己的存储装置中。然后,在执行处理时,该计算机读取在自己的存储介质中存储的程序,并按照读取的程序而执行处理。此外,作为该程序的其他的执行方式,也可以是计算机从可移动记录介质直接读取程序,并按照该程序执行处理,此外,也可以是在每次从服务器计算机对该计算机转发程序时,依次执行按照获取的程序的处理。
此外,在该方式中,通过在计算机上执行规定的程序而构成本装置,但也可以通过硬件实现这些处理内容的至少一部分。
产业上的可利用性
作为本发明的利用领域,例如可例示在语音识别系统和电视会议系统等中的源语音信号的增强处理。
Claims (15)
1.一种声音信号增强装置,包括:
存储单元,存储从观测到的时域信号变换的时频域的观测信号;
初始化单元,设定参数估计值的初始值,该参数估计值包括:混响参数估计值,包括用于计算在所述观测信号中包含的混响的估计值的线性卷积运算的回归系数;信号源参数估计值,包括用于确定源信号的功率谱的线性预测系数和预测剩余功率的估计值;以及噪声参数估计值,包括噪声的功率谱的估计值;
第1更新单元,输入所述观测信号和所述参数估计值,且执行所述混响参数估计值和噪声参数估计值的至少一部分的更新处理或者所述信号源参数估计值的更新处理中的任一个处理,该更新处理是被执行以使得有关所述参数估计值的对数似然度函数的值增加的处理;
第2更新单元,输入在所述第1更新单元中获得的参数估计值的更新值的至少一部分,且执行所述混响参数估计值和噪声参数估计值的至少一部分的更新处理或者所述信号源参数估计值的更新处理中、在所述第1更新单元中没有执行的处理,该更新处理是被执行以使得有关所述参数估计值的更新值的对数似然度函数的值增加的处理;以及
结束条件判定单元,判定是否满足结束条件,
在没有满足所述结束条件的情况下,再次执行所述第1更新单元和所述第2更新单元的处理。
2.如权利要求1所述的声音信号增强装置,其中,
所述时域信号是通过M个传感器观测出的信号,
所述混响参数估计值包括作为元素而具有所述回归系数的M行M列的回归矩阵估计值,
所述噪声参数估计值包括将所述噪声的功率谱作为对角元素的M行M列的噪声功率交叉谱矩阵估计值,
所述参数估计值包括所述混响参数估计值、所述信号源参数估计值、所述噪声参数估计值以及M维导向矢量估计值,
所述第1更新单元包括源信号估计值更新单元、导向矢量估计值更新单元以及信号源参数估计值更新单元,
所述源信号估计值更新单元中输入所述观测信号和所述参数估计值,且计算噪声重叠信号估计值、源信号估计值、所述源信号估计值的误差方差,
所述导向矢量估计值更新单元中输入所述噪声重叠信号估计值和所述源信号估计值,且计算导向矢量估计值的更新值,
所述信号源参数估计值更新单元将所述源信号估计值的功率与所述误差方差相加而计算功率谱,并使用所述功率谱来计算信号源参数估计值的更新值,
所述第2更新单元包括源信号功率谱估计值更新单元、噪声参数估计值更新单元以及混响参数估计值更新单元,
所述源信号功率谱估计值更新单元中输入所述信号源参数估计值的更新值,且计算对应于所述信号源参数估计值的更新值的源信号功率谱估计值的更新值,
所述噪声参数估计值更新单元中输入所述源信号估计值、所述噪声重叠信号估计值以及所述导向矢量估计值的更新值,且生成所述噪声参数估计值的更新值,
所述混响参数估计值更新单元中输入所述观测信号、所述导向矢量估计值的更新值、所述源信号功率谱估计值的更新值以及所述噪声参数估计值的更新值,且计算所述回归矩阵估计值的更新值。
3.如权利要求2所述的声音信号增强装置,其中,
所述噪声功率交叉谱矩阵估计值的m行m列的元素是对应于第m个传感器的所述噪声的功率谱,所述噪声功率交叉谱矩阵估计值的m1行m2列的元素是对应于第m1个传感器的所述观测信号的噪声与对应于第m2个传感器的所述观测信号的噪声间的交叉谱,其中m∈1、......、M,m1、m2∈1、......、M,
所述噪声重叠信号估计值是从作为M维矢量的非共轭转置的观测信号向量中减去所述回归矩阵估计值与所述观测信号向量的卷积运算结果后的M维矢量,所述M维矢量是各个元素对应于各个传感器的所述观测信号,
所述源信号估计值是,与所述源信号功率谱估计值、所述噪声功率交叉谱矩阵估计值以及所述导向矢量估计值对应的维纳滤波器的增益矢量和所述噪声重叠信号估计值之积,
所述源信号估计值的误差方差是,所述导向矢量估计值的非共轭转置、所述噪声功率交叉谱矩阵估计值的逆矩阵以及所述导向矢量估计值之积、与对应于所述信号源参数估计值的源信号功率谱估计值的倒数的加法值的倒数,
所述导向矢量估计值的更新值是,将所述源信号估计值的复数共轭值和所述噪声重叠信号估计值的积在复数谱图的各帧中的总和除以所述源信号估计值的功率在复数谱图的各帧中的和的矢量,其中所述复数谱图是按每个频带分割的所述观测信号的集合,
所述噪声功率交叉谱矩阵估计值的更新值是,噪声矢量和该噪声矢量的共轭转置之积在仅包括噪声的开头部分的各帧中的总和,所述噪声矢量是从所述噪声重叠信号估计值中减去所述源信号估计值和所述导向矢量估计值的更新值之积的值,
由所述回归矩阵估计值的更新值的元素构成的分量矢量是,将所述观测信号作为元素的观测信号矩阵的共轭转置和噪声重叠信号的协方差矩阵的估计值的逆矩阵以及所述观测信号矩阵之积在所述复数谱图的各帧中的总和的逆矩阵、与所述观测信号矩阵的共轭转置和噪声重叠信号的协方差矩阵的估计值的逆矩阵以及所述观测信号矩阵之积在所述复数谱图的各帧中的总和的积的共轭转置,
所述噪声重叠信号的协方差矩阵的估计值是,所述源信号功率谱估计值的更新值和所述导向矢量估计值的更新值以及所述导向矢量估计值的更新值的共轭转置的积、与所述噪声功率交叉谱矩阵估计值的更新值之和。
4.如权利要求2所述的声音信号增强装置,其中,
所述混响参数估计值或在其更新值中包含的回归矩阵估计值的回归次数根据频带而不同。
5.如权利要求2所述的声音信号增强装置,包括:
线性滤波器处理单元,输入所述观测信号和混响参数最终估计值,且生成作为从所述观测信号矢量中减去所述混响参数最终估计值和所述观测信号的卷积运算结果的M维矢量的噪声重叠信号最终估计值;以及
非线性滤波器处理单元,输入由信号源参数最终估计值所确定的源信号功率谱最终估计值、在噪声参数最终估计值中包含的噪声功率交叉谱矩阵最终估计值、导向矢量最终估计值以及所述噪声重叠信号最终估计值,且将与所述源信号功率谱最终估计值、所述噪声功率交叉谱矩阵最终估计值以及所述导向矢量最终估计值对应的维纳滤波器的增益矢量和所述噪声重叠信号最终估计值之积作为源信号最终估计值,
所述混响参数最终估计值、所述信号源参数最终估计值、所述噪声参数最终估计值以及所述导向矢量最终估计值包括在满足了所述结束条件的时刻下的所述回归矩阵估计值的更新值、所述信号源参数估计值的更新值、所述噪声参数最终估计值的更新值、以及所述导向矢量估计值的更新值。
6.如权利要求1所述的声音信号增强装置,其中,
所述时域信号是通过1个传感器观测出的信号,
所述混响参数估计值包括所述回归系数的估计值,
所述噪声参数估计值包括所述噪声的功率谱的估计值,
所述参数估计值包括所述信号源参数估计值、所述混响参数估计值以及所述噪声参数估计值,
所述第1更新单元包括噪声抑制处理单元和信号源参数估计值更新单元,
所述噪声抑制处理单元中输入所述观测信号和所述参数估计值,且计算用于确定在提供了属于规定的观测区间的所述观测信号的集合和所述参数估计值的组合时的、属于所述观测区间的混响重叠信号的集合的附条件后验分布p(混响重叠信号的集合|观测信号的集合,参数估计值)的复数正态分布的平均和协方差矩阵,
所述混响重叠信号是从所述观测信号中除去噪声的信号,
所述信号源参数估计值更新单元中输入所述混响参数估计值和所述复数正态分布的平均和协方差矩阵,且计算信号源参数估计值的更新值,
所述信号源参数估计值的更新值是在混响参数固定为所述混响参数估计值的条件下,将第1辅助函数值最大化的值,
所述第1辅助函数值是,在提供了所述观测信号的集合和所述混响重叠信号的集合时,与包括所述混响参数的估计值、所述信号源参数估计值的更新值以及所述噪声参数估计值的第2参数估计值有关的似然度函数值p(观测信号的集合,混响重叠信号的集合|第2参数估计值)的对数函数和所述附条件后验分布p(混响重叠信号的集合|观测信号的集合,参数估计值)之积对该混响重叠信号的集合进行积分而获得的函数的函数值,
所述第2更新单元包括混响参数估计值更新单元,在该混响参数估计值更新单元中输入所述信号源参数估计值的更新值和所述复数正态分布的平均以及协方差矩阵,且计算混响参数估计值的更新值,
所述混响参数估计值的更新值是在信号源参数固定为所述信号源参数估计值的更新值的条件下,将第2辅助函数值最大化的值,
所述第2辅助函数值是,在提供了所述观测信号的集合和所述混响重叠信号的集合时,与包括所述混响参数的估计值的更新值、所述信号源参数估计值的更新值以及所述噪声参数估计值的第3参数估计值有关的似然度函数值p(观测信号的集合,混响重叠信号的集合|第3参数估计值)的对数函数和所述附条件后验分布p(混响重叠信号的集合|观测信号的集合,参数估计值)之积对该混响重叠信号的集合进行积分而获得的函数的函数值。
7.如权利要求1所述的声音信号增强装置,其中,
所述时域信号是通过M个传感器观测出的信号,M为2以上,
所述混响参数估计值包括作为元素而具有所述回归系数的M行M列的回归矩阵估计值,
所述噪声参数估计值包括将所述噪声的功率谱的估计值作为对角元素的M行M列的噪声功率交叉谱矩阵估计值,
所述参数估计值包括所述信号源参数估计值、所述混响参数估计值以及所述噪声参数估计值,
所述第1更新单元包括噪声抑制处理单元和信号源参数估计值更新单元,
所述噪声抑制处理单元中输入所述观测信号和所述参数估计值,且计算用于确定在提供了属于规定的观测区间的所述观测信号的集合和所述参数估计值的组合时的、属于所述观测区间的混响重叠信号的集合的附条件后验分布p(混响重叠信号的集合|观测信号的集合,参数估计值)的复数正态分布的平均和协方差矩阵,
所述混响重叠信号是从所述观测信号中除去噪声的信号,
所述信号源参数估计值更新单元中输入所述混响参数估计值和所述复数正态分布的平均和协方差矩阵,且计算信号源参数估计值的更新值,
所述信号源参数估计值的更新值是在混响参数固定为所述混响参数估计值的条件下,将第1辅助函数值最大化的值,
所述第1辅助函数值是,在提供了所述观测信号的集合和所述混响重叠信号的集合时,与包括所述混响参数的估计值、所述信号源参数估计值的更新值以及所述噪声参数估计值的第2参数估计值有关的似然度函数值p(观测信号的集合,混响重叠信号的集合|第2参数估计值)的对数函数和所述附条件后验分布p(混响重叠信号的集合|观测信号的集合,参数估计值)之积对该混响重叠信号的集合进行积分而获得的函数的函数值,
所述第2更新单元包括混响参数估计值更新单元,在该混响参数估计值更新单元中输入所述信号源参数估计值的更新值和所述复数正态分布的平均以及协方差矩阵,且计算混响参数估计值的更新值,
所述混响参数估计值的更新值是在信号源参数固定为所述信号源参数估计值的更新值的条件下,将第2辅助函数值最大化的值,
所述第2辅助函数值是,在提供了所述观测信号的集合和所述混响重叠信号的集合时,与包括所述混响参数的估计值的更新值、所述信号源参数估计值的更新值以及所述噪声参数估计值的第3参数估计值有关的似然度函数值p(观测信号的集合,混响重叠信号的集合|第3参数估计值)的对数函数和所述附条件后验分布p(混响重叠信号的集合|观测信号的集合,参数估计值)之积对该混响重叠信号的集合进行积分而获得的函数的函数值。
8.如权利要求6或7所述的声音信号增强装置,其中,
所述噪声参数估计值包括表示所述噪声的概率分布的复数正态分布的方差即所述噪声的功率谱的估计值,所述混响重叠信号的集合的附条件后验分布p(混响重叠信号的集合|观测信号,参数估计值)的协方差矩阵的尺度是相对于表示所述噪声的概率分布的复数正态分布的方差而单调增加的值。
9.如权利要求6或7所述的声音信号增强装置,包括:
源信号估计单元,输入所述观测信号和在满足所述结束条件时的所述参数估计值的更新值,且生成所述源信号的估计值,
所述源信号估计单元包括:
混响重叠信号估计单元,输入所述观测信号和在满足所述结束条件时的所述参数估计值的更新值,且将所述混响重叠信号的集合的附条件后验分布p(混响重叠信号的集合|观测信号的集合,参数估计值)的平均作为混响重叠信号最终估计值而计算;以及
线性滤波器应用单元,输入所述混响重叠信号最终估计值和在满足所述结束条件时的所述参数估计值的更新值所包含的所述混响参数估计值的更新值,从所述混响重叠信号最终估计值中减去所述混响重叠信号最终估计值和在该混响参数估计值的更新值中包含的回归系数或回归矩阵的卷积运算结果,并生成源信号最终估计值。
10.如权利要求6或7所述的声音信号增强装置,其中,
所述噪声分量的功率谱的估计值是从估计为不存在所述源信号的区间的所述观测信号中估计出的值。
11.如权利要求6或7所述的声音信号增强装置,其中,
所述混响参数估计值和在所述混响参数估计值的更新值的所述回归系数的回归次数根据频带而不同。
12.一种声音信号增强方法,包括:
(A)将从观测到的时域信号变换的时频域的观测信号存储在记录单元的步骤;
(B)在初始化单元中设定参数估计值的初始值的步骤,该参数估计值包括:混响参数估计值,包括用于计算在所述观测信号中包含的混响的估计值的线性卷积运算的回归系数;信号源参数估计值,包括用于确定源信号的功率谱的线性预测系数和预测剩余功率的估计值;以及噪声参数估计值,包括噪声的功率谱的估计值;
(C)将所述观测信号和所述参数估计值输入到第1更新单元,在该第1更新单元中执行所述混响参数估计值和噪声参数估计值的至少一部分的更新处理或者所述信号源参数估计值的更新处理中的任一个处理,使得有关所述参数估计值的对数似然度函数的值增加的步骤;
(D)将在所述步骤(C)中获得的参数估计值的更新值的至少一部分输入到第2更新单元,在该第2更新单元中执行混响参数估计值和噪声参数估计值的至少一部分的更新处理或者所述信号源参数估计值的更新处理中、在所述步骤(C)中没有执行的处理,使得有关所述参数估计值的更新值的对数似然度函数的值增加的步骤;以及
(E)在结束条件判定单元中,判定是否满足结束条件的步骤,
在没有满足所述结束条件的情况下,再次执行所述第1更新单元和所述第2更新单元的处理。
13.如权利要求12所述的声音信号增强方法,其中,
所述时域信号是通过M个传感器观测出的信号,
所述混响参数估计值包括作为元素而具有所述回归系数的M行M列的回归矩阵估计值,
所述噪声参数估计值包括将所述噪声的功率谱作为对角元素的M行M列的噪声功率交叉谱矩阵估计值,
所述参数估计值包括所述混响参数估计值、所述信号源参数估计值、所述噪声参数估计值以及M维导向矢量估计值,
所述第1更新单元包括源信号估计值更新单元、导向矢量估计值更新单元以及信号源参数估计值更新单元,
所述步骤(C)包括:
(C-1)在所述源信号估计值更新单元中,输入所述观测信号和所述参数估计值,且计算噪声重叠信号估计值、源信号估计值、所述源信号估计值的误差方差的步骤;以及
(C-2)在所述导向矢量估计值更新单元中,输入所述噪声重叠信号估计值和所述源信号估计值,且计算导向矢量估计值的更新值的步骤;以及
(C-3)在所述信号源参数估计值更新单元中,将所述源信号估计值的功率与所述误差方差相加而计算功率谱,并使用所述功率谱来计算信号源参数估计值的更新值的步骤,
所述第2更新单元包括源信号功率谱估计值更新单元、噪声参数估计值更新单元以及混响参数估计值更新单元,
所述步骤(D)包括:
(D-1)将所述信号源参数估计值的更新值输入到所述源信号功率谱估计值更新单元中,在所述源信号功率谱估计值更新单元中计算对应于所述信号源参数估计值的更新值的源信号功率谱估计值的更新值的步骤;
(D-2)将所述源信号估计值、所述噪声重叠信号估计值以及所述导向矢量估计值的更新值输入到所述噪声参数估计值更新单元中,在所述噪声参数估计值更新单元中生成所述噪声参数估计值的更新值;以及
(D-3)将所述观测信号、所述导向矢量估计值的更新值、所述源信号功率谱估计值的更新值以及所述噪声参数估计值的更新值输入到所述混响参数估计值更新单元中,在所述混响参数估计值更新单元中计算所述回归矩阵估计值的更新值。
14.如权利要求12所述的声音信号增强方法,其中,
所述时域信号是通过1个传感器观测出的信号,
所述混响参数估计值包括所述回归系数的估计值,
所述噪声参数估计值包括所述噪声的功率谱的估计值,
所述参数估计值包括所述信号源参数估计值、所述混响参数估计值以及所述噪声参数估计值,
所述第1更新单元包括噪声抑制处理单元和信号源参数估计值更新单元,
所述步骤(C)包括:
(C-1)所述观测信号和所述参数估计值输入到所述噪声抑制处理单元中,在所述噪声抑制处理单元中计算用于确定在提供了属于规定的观测区间的所述观测信号的集合和所述参数估计值的组合时的、属于所述观测区间的混响重叠信号的集合的附条件后验分布p(混响重叠信号的集合|观测信号的集合,参数估计值)的复数正态分布的平均和协方差矩阵的步骤;以及
(C-2)将所述混响参数估计值和所述复数正态分布的平均和协方差矩阵输入到所述信号源参数估计值更新单元中,在所述信号源参数估计值更新单元中计算信号源参数估计值的更新值的步骤,
所述混响重叠信号是从所述观测信号中除去噪声的信号,
所述信号源参数估计值的更新值是在混响参数固定为所述混响参数估计值的条件下,将第1辅助函数值最大化的值,
所述第1辅助函数值是,在提供了所述观测信号的集合和所述混响重叠信号的集合时,与包括所述混响参数的估计值、所述信号源参数估计值的更新值以及所述噪声参数估计值的第2参数估计值有关的似然度函数值p(观测信号的集合,混响重叠信号的集合|第2参数估计值)的对数函数和所述附条件后验分布p(混响重叠信号的集合|观测信号的集合,参数估计值)之积对该混响重叠信号的集合进行积分而获得的函数的函数值,
所述第2更新单元包括混响参数估计值更新单元,
所述步骤(D)包括:
将所述信号源参数估计值的更新值和所述复数正态分布的平均以及协方差矩阵输入到所述混响参数估计值更新单元中,在所述混响参数估计值更新单元中计算所述混响参数估计值的更新值的步骤,
所述混响参数估计值的更新值是在信号源参数固定为所述信号源参数估计值的更新值的条件下,将第2辅助函数值最大化的值,
所述第2辅助函数值是,在提供了所述观测信号的集合和所述混响重叠信号的集合时,与包括所述混响参数的估计值的更新值、所述信号源参数估计值的更新值以及所述噪声参数估计值的第3参数估计值有关的似然度函数值p(观测信号的集合,混响重叠信号的集合|第3参数估计值)的对数函数和所述附条件后验分布p(混响重叠信号的集合|观测信号的集合,参数估计值)之积对该混响重叠信号的集合进行积分而获得的函数的函数值。
15.如权利要求12所述的声音信号增强方法,其中,
所述时域信号是通过M个传感器观测出的信号,M为2以上,
所述混响参数估计值包括作为元素而具有所述回归系数的M行M列的回归矩阵估计值,
所述噪声参数估计值包括将所述噪声的功率谱的估计值作为对角元素的M行M列的噪声功率交叉谱矩阵估计值,
所述参数估计值包括所述信号源参数估计值、所述混响参数估计值以及所述噪声参数估计值,
所述第1更新单元包括噪声抑制处理单元和信号源参数估计值更新单元,
所述步骤(C)包括:
(C-1)将所述观测信号和所述参数估计值输入到所述噪声抑制处理单元中,在所述噪声抑制处理单元中计算用于确定在提供了属于规定的观测区间的所述观测信号的集合和所述参数估计值的组合时的、属于所述观测区间的混响重叠信号的集合的附条件后验分布p(混响重叠信号的集合|观测信号的集合,参数估计值)的复数正态分布的平均和协方差矩阵的步骤;以及
(C-2)将所述混响参数估计值和所述复数正态分布的平均和协方差矩阵输入到所述信号源参数估计值更新单元中,在所述信号源参数估计值更新单元中计算信号源参数估计值的更新值的步骤,
所述混响重叠信号是从所述观测信号中除去噪声的信号,
所述信号源参数估计值的更新值是在混响参数固定为所述混响参数估计值的条件下,将第1辅助函数值最大化的值,
所述第1辅助函数值是,在提供了所述观测信号的集合和所述混响重叠信号的集合时,与包括所述混响参数的估计值、所述信号源参数估计值的更新值以及所述噪声参数估计值的第2参数估计值有关的似然度函数值p(观测信号的集合,混响重叠信号的集合|第2参数估计值)的对数函数和所述附条件后验分布p(混响重叠信号的集合|观测信号的集合,参数估计值)之积对该混响重叠信号的集合进行积分而获得的函数的函数值,
所述第2更新单元包括混响参数估计值更新单元,
所述步骤(D)包括:
将所述信号源参数估计值的更新值和所述复数正态分布的平均以及协方差矩阵输入到该混响参数估计值更新单元中,在该混响参数估计值更新单元中计算混响参数估计值的更新值的步骤,
所述混响参数估计值的更新值是在信号源参数固定为所述信号源参数估计值的更新值的条件下,将第2辅助函数值最大化的值,
所述第2辅助函数值是,在提供了所述观测信号的集合和所述混响重叠信号的集合时,与包括所述混响参数的估计值的更新值、所述信号源参数估计值的更新值以及所述噪声参数估计值的第3参数估计值有关的似然度函数值p(观测信号的集合,混响重叠信号的集合|第3参数估计值)的对数函数和所述附条件后验分布p(混响重叠信号的集合|观测信号的集合,参数估计值)之积对该混响重叠信号的集合进行积分而获得的函数的函数值。
Applications Claiming Priority (5)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
JP056757/08 | 2008-03-06 | ||
JP2008056757 | 2008-03-06 | ||
JP2008214066 | 2008-08-22 | ||
JP214066/08 | 2008-08-22 | ||
PCT/JP2009/054215 WO2009110574A1 (ja) | 2008-03-06 | 2009-03-05 | 信号強調装置、その方法、プログラム及び記録媒体 |
Publications (2)
Publication Number | Publication Date |
---|---|
CN101965613A CN101965613A (zh) | 2011-02-02 |
CN101965613B true CN101965613B (zh) | 2013-01-02 |
Family
ID=41056126
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN2009801069459A Active CN101965613B (zh) | 2008-03-06 | 2009-03-05 | 信号增强装置及方法 |
Country Status (4)
Country | Link |
---|---|
US (1) | US8848933B2 (zh) |
JP (1) | JP5124014B2 (zh) |
CN (1) | CN101965613B (zh) |
WO (1) | WO2009110574A1 (zh) |
Families Citing this family (29)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN101416237B (zh) * | 2006-05-01 | 2012-05-30 | 日本电信电话株式会社 | 基于源和室内声学的概率模型的语音去混响方法和设备 |
JP5550456B2 (ja) * | 2009-06-04 | 2014-07-16 | 本田技研工業株式会社 | 残響抑圧装置、及び残響抑圧方法 |
JP5129794B2 (ja) * | 2009-08-11 | 2013-01-30 | 日本電信電話株式会社 | 目的信号強調装置とその方法と、プログラム |
JP5172797B2 (ja) * | 2009-08-19 | 2013-03-27 | 日本電信電話株式会社 | 残響抑圧装置とその方法と、プログラムと記録媒体 |
JP5561195B2 (ja) * | 2011-02-07 | 2014-07-30 | 株式会社Jvcケンウッド | ノイズ除去装置およびノイズ除去方法 |
JP5699844B2 (ja) * | 2011-07-28 | 2015-04-15 | 富士通株式会社 | 残響抑制装置および残響抑制方法並びに残響抑制プログラム |
US8943014B2 (en) | 2011-10-13 | 2015-01-27 | National Instruments Corporation | Determination of statistical error bounds and uncertainty measures for estimates of noise power spectral density |
US8706657B2 (en) * | 2011-10-13 | 2014-04-22 | National Instruments Corporation | Vector smoothing of complex-valued cross spectra to estimate power spectral density of a noise signal |
US8712951B2 (en) | 2011-10-13 | 2014-04-29 | National Instruments Corporation | Determination of statistical upper bound for estimate of noise power spectral density |
WO2013132926A1 (ja) * | 2012-03-06 | 2013-09-12 | 日本電信電話株式会社 | 雑音推定装置、雑音推定方法、雑音推定プログラム及び記録媒体 |
JP5689844B2 (ja) * | 2012-03-16 | 2015-03-25 | 日本電信電話株式会社 | スペクトル推定装置、その方法及びプログラム |
CN102592606B (zh) * | 2012-03-23 | 2013-07-31 | 福建师范大学福清分校 | 一种补偿小空间听音声环境的均衡信号处理方法 |
US9237391B2 (en) * | 2012-12-04 | 2016-01-12 | Northwestern Polytechnical University | Low noise differential microphone arrays |
CN103886867B (zh) * | 2012-12-21 | 2017-06-27 | 华为技术有限公司 | 一种噪声抑制装置及其方法 |
US9520140B2 (en) * | 2013-04-10 | 2016-12-13 | Dolby Laboratories Licensing Corporation | Speech dereverberation methods, devices and systems |
CN105849804A (zh) * | 2013-12-23 | 2016-08-10 | 美国亚德诺半导体公司 | 过滤噪声的计算高效方法 |
DK2916321T3 (en) * | 2014-03-07 | 2018-01-15 | Oticon As | Processing a noisy audio signal to estimate target and noise spectral variations |
CN104459509B (zh) * | 2014-12-04 | 2017-12-29 | 北京中科新微特科技开发股份有限公司 | 测量待测器件的热阻的方法 |
CN105791722B (zh) * | 2014-12-22 | 2018-12-07 | 深圳Tcl数字技术有限公司 | 电视机声音调整方法及电视机 |
WO2017094862A1 (ja) * | 2015-12-02 | 2017-06-08 | 日本電信電話株式会社 | 空間相関行列推定装置、空間相関行列推定方法および空間相関行列推定プログラム |
JP6677662B2 (ja) | 2017-02-14 | 2020-04-08 | 株式会社東芝 | 音響処理装置、音響処理方法およびプログラム |
WO2019026973A1 (ja) * | 2017-08-04 | 2019-02-07 | 日本電信電話株式会社 | ニューラルネットワークを用いた信号処理装置、ニューラルネットワークを用いた信号処理方法及び信号処理プログラム |
EP3460795A1 (en) * | 2017-09-21 | 2019-03-27 | Fraunhofer-Gesellschaft zur Förderung der angewandten Forschung e.V. | Signal processor and method for providing a processed audio signal reducing noise and reverberation |
US10481831B2 (en) * | 2017-10-02 | 2019-11-19 | Nuance Communications, Inc. | System and method for combined non-linear and late echo suppression |
US10572770B2 (en) * | 2018-06-15 | 2020-02-25 | Intel Corporation | Tangent convolution for 3D data |
CN111489760B (zh) * | 2020-04-01 | 2023-05-16 | 腾讯科技(深圳)有限公司 | 语音信号去混响处理方法、装置、计算机设备和存储介质 |
CN113689869B (zh) * | 2021-07-26 | 2024-08-16 | 浙江大华技术股份有限公司 | 语音增强方法、电子设备以及计算机可读存储介质 |
CN113469388B (zh) * | 2021-09-06 | 2021-11-23 | 江苏中车数字科技有限公司 | 轨道交通车辆维保系统及方法 |
CN113840034B (zh) * | 2021-11-29 | 2022-05-20 | 荣耀终端有限公司 | 声音信号处理方法和终端设备 |
Citations (2)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN1343388A (zh) * | 1999-03-08 | 2002-04-03 | 艾利森电话股份有限公司 | 分离混合信号的方法和装置 |
CN101030383A (zh) * | 2006-03-02 | 2007-09-05 | 株式会社日立制作所 | 声源分离装置、方法和程序 |
Family Cites Families (6)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
JPH10257583A (ja) * | 1997-03-06 | 1998-09-25 | Asahi Chem Ind Co Ltd | 音声処理装置およびその音声処理方法 |
JP2005249816A (ja) | 2004-03-01 | 2005-09-15 | Internatl Business Mach Corp <Ibm> | 信号強調装置、方法及びプログラム、並びに音声認識装置、方法及びプログラム |
JP4586577B2 (ja) * | 2005-03-02 | 2010-11-24 | 株式会社国際電気通信基礎技術研究所 | 外乱成分抑圧装置、コンピュータプログラム、及び音声認識システム |
JP4690912B2 (ja) * | 2005-07-06 | 2011-06-01 | 日本電信電話株式会社 | 目的信号区間推定装置、目的信号区間推定方法、プログラム及び記録媒体 |
CN101385386B (zh) * | 2006-03-03 | 2012-05-09 | 日本电信电话株式会社 | 混响除去装置和混响除去方法 |
CN101416237B (zh) * | 2006-05-01 | 2012-05-30 | 日本电信电话株式会社 | 基于源和室内声学的概率模型的语音去混响方法和设备 |
-
2009
- 2009-03-05 CN CN2009801069459A patent/CN101965613B/zh active Active
- 2009-03-05 US US12/920,222 patent/US8848933B2/en active Active
- 2009-03-05 WO PCT/JP2009/054215 patent/WO2009110574A1/ja active Application Filing
- 2009-03-05 JP JP2010501966A patent/JP5124014B2/ja active Active
Patent Citations (2)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN1343388A (zh) * | 1999-03-08 | 2002-04-03 | 艾利森电话股份有限公司 | 分离混合信号的方法和装置 |
CN101030383A (zh) * | 2006-03-02 | 2007-09-05 | 株式会社日立制作所 | 声源分离装置、方法和程序 |
Non-Patent Citations (3)
Title |
---|
JP特开2005-249816A 2005.09.15 |
JP特开2006-243290A 2006.09.14 |
JP特开2007-41508A 2007.02.15 |
Also Published As
Publication number | Publication date |
---|---|
JP5124014B2 (ja) | 2013-01-23 |
CN101965613A (zh) | 2011-02-02 |
US20110044462A1 (en) | 2011-02-24 |
US8848933B2 (en) | 2014-09-30 |
WO2009110574A1 (ja) | 2009-09-11 |
JPWO2009110574A1 (ja) | 2011-07-14 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
CN101965613B (zh) | 信号增强装置及方法 | |
CN102084667B (zh) | 回响去除装置、回响去除方法、回响去除程序、以及记录介质 | |
US7720679B2 (en) | Speech recognition apparatus, speech recognition apparatus and program thereof | |
CN107452389A (zh) | 一种通用的单声道实时降噪方法 | |
JP6976804B2 (ja) | 音源分離方法および音源分離装置 | |
CN113284507B (zh) | 语音增强模型的训练方法和装置及语音增强方法和装置 | |
Ganapathy | Multivariate autoregressive spectrogram modeling for noisy speech recognition | |
Lv et al. | A permutation algorithm based on dynamic time warping in speech frequency-domain blind source separation | |
US20070154033A1 (en) | Audio source separation based on flexible pre-trained probabilistic source models | |
WO2019014890A1 (zh) | 一种通用的单声道实时降噪方法 | |
JP6059072B2 (ja) | モデル推定装置、音源分離装置、モデル推定方法、音源分離方法及びプログラム | |
JP4960933B2 (ja) | 音響信号強調装置とその方法と、プログラムと記録媒体 | |
CN101322183B (zh) | 信号失真消除装置、方法 | |
EP4241270B1 (en) | Machine learning assisted spatial noise estimation and suppression | |
JP5881454B2 (ja) | 音源ごとに信号のスペクトル形状特徴量を推定する装置、方法、目的信号のスペクトル特徴量を推定する装置、方法、プログラム | |
JP5726790B2 (ja) | 音源分離装置、音源分離方法、およびプログラム | |
CN112201276A (zh) | 基于TC-ResNet网络的麦克风阵列语音分离方法 | |
JP2006330687A (ja) | 信号分離装置、信号分離方法、そのプログラムおよび記録媒体 | |
EP3557576B1 (en) | Target sound emphasis device, noise estimation parameter learning device, method for emphasizing target sound, method for learning noise estimation parameter, and program | |
JP6114053B2 (ja) | 音源分離装置、音源分離方法、およびプログラム | |
JP7159928B2 (ja) | 雑音空間共分散行列推定装置、雑音空間共分散行列推定方法、およびプログラム | |
CN116822573B (zh) | 基于双向gru结构的神经网络滤波器的波束形成方法及系统 | |
JP2018191255A (ja) | 収音装置、その方法、及びプログラム | |
CN113689869B (zh) | 语音增强方法、电子设备以及计算机可读存储介质 | |
JP2019159290A (ja) | 適応ブラインド信号分離方法およびその装置 |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
C06 | Publication | ||
PB01 | Publication | ||
C10 | Entry into substantive examination | ||
SE01 | Entry into force of request for substantive examination | ||
C14 | Grant of patent or utility model | ||
GR01 | Patent grant |