CN101416237B

CN101416237B - 基于源和室内声学的概率模型的语音去混响方法和设备

Info

Publication number: CN101416237B
Application number: CN2006800541241A
Authority: CN
Inventors: 中谷智广; 庄炳湟
Original assignee: Nippon Telegraph and Telephone Corp; Georgia Tech Research Corp
Current assignee: Nippon Telegraph and Telephone Corp; Georgia Tech Research Corp
Priority date: 2006-05-01
Filing date: 2006-05-01
Publication date: 2012-05-30
Anticipated expiration: 2026-05-01
Also published as: EP2013869B1; US8290170B2; WO2007130026A1; JP4880036B2; JP2009535674A; EP2013869A1; CN101416237A; EP2013869A4; US20090110207A1

Abstract

通过接受用于初始化(1000)的观测信号以及执行包括傅立叶变换(4000)的似然最大化(2000)来实现语音去混响。

Description

基于源和室内声学的概率模型的语音去混响方法和设备

技术领域

本发明通常涉及用于语音去混响的方法和设备。更具体而言，本发明涉及基于源和室内声学的概率模型的语音去混响方法和设备。

背景技术

以下在本申请中将被引用或标识的所有专利、专利申请、专利公开、科学文献等等将在此以其整体被包含作为参考以便更全面地描述本发明所属技术领域的状态。

在普通室内通过远距离麦克风捕获的语音信号不可避免地包含混响，这对于语音信号的感知质量和清晰度具有有害的影响并且使自动语音识别(ASR)系统的性能降低。当混响时间长于0.5秒时，甚至当使用已经在匹配的混响条件下被训练的声学模型时，不能够提高识别性能。这在B.Kingsbury和N.Morgan的“Recognizingreverberant speech with rasta-plp”(Proc.1997 IEEEInternational Conference Acoustic Speech and Signal Processing(ICASSP-97)，Vol.2，第1259-1262页，1997年)中被公开。语音信号的去混响无论对于高质量记录和重放或对于自动语音识别(ASR)都是必需的。

尽管语音信号的盲去混响仍是有挑战性的问题，但是近来已经提出若干技术。已经提出将观测信号去相关同时在信号的短时间段内保持相关性的技术。这由B.W.Gillespie和L.E.Atlas的“Strategiesfor improving audible quality and speech recognition accuracyof reverberant speech”(Proc.2003 IEEE InternationalConference Acoustics，Speech and Signal Processing(ICASSP-2003)，Vol.1，第676-679页，2003年)公开。这还由H.Buchner、R.Aichner、和W.Kellemann的“Trinicon：aversatileframework for multichannel blind signal processing”(Proc.ofthe 2004 IEEE International Conference Acoustics，Speech andSignal Processing(ICASSP-2004)，Vol.III，第889-892页，2004年5月)公开。

已经提出用于估计和均衡室内的声响应中的极点的方法。这由T.Hikichi和M.Miyoshi的“Blind algorithm for calculating commonpoles based on linear prediction”(Proc.of the 2004 IEEEInternational Conference on Acoustics，Speech，and SignalProcessing(ICASSP 2004)，Vol.IV，第89-92页，2004年5月)公开。这还由J.R.Hopgood和P.J.W.Rayner的“Blind single channeldeconvolution using nonstationary signal processing”(IEEETransactions Speech and Audio processing，vol.11，no.5，第467-488页，2003年9月)公开。

而且，已经提出基于语音信号的本质特征的两种方法，即在下文中被称为HERB的基于调和性的去混响、和在下文中被称为SBD的基于稀疏性的去混响。HERB由T.Nakatani和M.Miyoshi的“Blinddereverberation of single channel speech signal based onharmonic structure”(Proc.ICASSP-2003，vol.1，第92-95页，2003年4月)公开。首次出版第2004-274234号的日本未审查专利申请公开了用于HERB的传统技术的一个实例。SBD由K.Kinoshita、T.Nakatani和M.Miyoshi的“Efficient blind dereverberationframework for automatic speech recognition”(Proc.Interspeech-2005，2005年9月)公开。

这些方法广泛使用源信号的初始估计中的各语音特征。然后，初始源信号估计和观测到的混响信号被一起用于估计用于去混响的逆滤波器，这允许进一步改进源信号估计。为了获得初始源信号估计，HERB利用自适应谐波滤波器，以及SBD利用基于最小统计的频谱相减。在实验上已经显示：如果信号足够长，这些方法大大地提高观测到的混响信号的ASR性能。

鉴于上述内容，本领域普通技术人员从本公开内容将会明白存在对用于语音去混响的改进设备和/或方法的需要。本发明解决本领域中的这种需要以及其他需要，这对于本领域普通技术人员来说根据本公开内容将会变得显而易见。

发明内容

相应地，本发明的主要目的是提供语音去混响设备。

本发明的另一个目的是提供语音去混响方法。

本发明的再一个目的是提供将通过计算机执行的用于执行语音去混响方法的程序。

本发明的又一个目的是提供存储将通过计算机执行的用于执行语音去混响方法的程序的存储介质。

根据本发明的第一方面，语音去混响设备包括确定最大化似然函数的源信号估计的似然最大化单元。参考观测信号、初始源信号估计、表示源信号不确定性的第一方差、和表示声学环境不确定性的第二方差进行所述确定。

所述似然函数可以优选地基于根据未知参数、丢失数据的第一随机变量、和观测数据的第二随机变量所评估的概率密度函数被定义。参考源信号估计来定义未知参数。丢失数据的第一随机变量表示室内传递函数的逆滤波器。参考观测信号和初始源信号估计来定义观测数据的第二随机变量。

上述似然最大化单元可以优选地使用迭代优化算法来确定源信号估计。迭代优化算法可以优选地是期望最大化算法。

似然最大化单元可以进一步包括但不限于逆滤波器估计单元、滤波单元、源信号估计和收敛检验单元、以及更新单元。所述逆滤波器估计单元参考观测信号、第二方差、以及初始源信号估计和更新的源信号估计之一计算逆滤波器估计。滤波单元将逆滤波器估计应用于观测信号，并且产生滤波信号。源信号估计和收敛检验单元参考初始源信号估计、第一方差、第二方差、和滤波信号计算源信号估计。源信号估计和收敛检验单元进一步确定是否源信号估计的收敛被获得。如果源信号估计的收敛被获得，所述源信号估计和收敛检验单元进一步输出源信号估计作为去混响的信号。所述更新单元将源信号估计更新为更新的源信号估计。如果源信号估计的收敛未被获得，则所述更新单元进一步提供更新的源信号估计给逆滤波器估计单元。该更新单元进一步在初始更新步骤中提供初始源信号估计给逆滤波器估计单元。

似然最大化单元可以进一步包括但不限于第一长时傅立叶变换单元、LTFS到STFS变换单元、STFS到LTFS变换单元、第二长时傅立叶变换单元、和短时傅立叶变换单元。第一长时傅立叶变换单元执行波形观测信号到变换后的观测信号的第一长时傅立叶变换。第一长时傅立叶变换单元进一步将变换后的观测信号作为观测信号提供给逆滤波器估计单元和滤波单元。LTFS到STFS变换单元执行滤波信号到变换后的滤波信号的LTFS到STFS变换。LTFS到STFS变换单元进一步将变换后的滤波信号作为滤波信号提供给源信号估计和收敛检验单元。STFS到LTFS变换单元执行源信号估计到变换后的源信号估计的STFS到LTFS变换。如果源信号估计的收敛未被获得，则STFS到LTFS变换单元进一步将变换后的源信号估计作为源信号估计提供给更新单元。第二长时傅立叶变换单元执行波形初始源信号估计到第一变换初始源信号估计的第二长时傅立叶变换。第二长时傅立叶变换进一步将第一变换初始源信号估计作为初始源信号估计提供给更新单元。短时傅立叶变换单元执行波形初始源信号估计到第二变换初始源信号估计的短时傅立叶变换。短时傅立叶变换单元进一步将第二变换初始源信号估计作为初始源信号估计提供给源信号估计和收敛检验单元。

所述语音去混响设备可以进一步包括但不限于执行源信号估计到波形源信号估计的逆短时傅立叶变换的逆短时傅立叶变换单元。

所述语音去混响设备可以进一步包括但不限于基于观测信号产生初始源信号估计、第一方差、和第二方差的初始化单元。在这种情况下，初始化单元可以进一步包括但不限于基频估计单元和源信号不确定性确定单元。基频估计单元估计来自变换后的信号的每个短时间帧的基频和发声量度(voicing measure)，其中通过观测信号的短时傅立叶变换来给定所述变换后的信号。源信号不确定性确定单元基于基频和发声量度确定第一方差。

所述语音去混响设备可以进一步包括但不限于初始化单元、和收敛检验单元。初始化单元基于观测信号产生初始源信号估计、第一方差、和第二方差。收敛检验单元从似然最大化单元接收源信号估计。收敛检验单元确定是否源信号估计的收敛被获得。如果获得源信号估计的收敛，则所述收敛检验单元进一步输出源信号估计作为去混响的信号。如果未获得源信号估计的收敛，则收敛检验单元进一步提供源信号估计给初始化单元以使初始化单元能够基于该源信号估计产生初始源信号估计、第一方差、和第二方差。

在最后描述的情况下，初始化单元可以进一步包括但不限于第二短时傅立叶变换单元、第一选择单元、基频估计单元、和自适应谐波滤波单元。第二短时傅立叶变换单元执行观测信号到第一变换观测信号的第二短时傅立叶变换。第一选择单元执行第一选择操作以产生第一选择输出以及第二选择操作以产生第二选择输出。第一和第二选择操作是相互独立的。当第一选择单元接收第一变换观测信号的输入而不接收源信号估计的任何输入时，第一选择操作用于选择第一变换观测信号作为第一选择输出。当第一选择单元接收第一变换观测信号和源信号估计的输入时，第一选择操作还用于选择第一变换观测信号和源信号估计之一作为第一选择输出。当第一选择单元接收第一变换观测信号的输入而不接收源信号估计的任何输入时，第二选择操作用于选择第一变换观测信号作为第二选择输出。当第一选择单元接收第一变换观测信号和源信号估计的输入时，第二选择操作还用于选择第一变换观测信号和源信号估计之一作为第二选择输出。基频估计单元接收第二选择输出。基频估计单元还估计来自第二选择输出的每个短时间帧的基频和发声量度。自适应谐波滤波单元接收第一选择输出、基频和发声量度。自适应谐波滤波单元基于基频和发声量度增强第一选择输出的谐波结构以产生初始源信号估计。

初始化单元可以进一步包括但不限于第三短时傅立叶变换单元、第二选择单元、基频估计单元、和源信号不确定性确定单元。第三短时傅立叶变换单元执行观测信号到第二变换观测信号的第三短时傅立叶变换。第二选择单元执行第三选择操作以产生第三选择输出。当第二选择单元接收第二变换观测信号的输入而不接收源信号估计的任何输入时，第三选择操作用于选择第二变换观测信号作为第三选择输出。当第二选择单元接收第二变换观测信号和源信号估计的输入时，第三选择操作还用于选择第二变换观测信号和源信号估计之一作为第三选择输出。基频估计单元接收第三选择输出。基频估计单元估计来自第三选择输出的每个短时间帧的基频和发声量度。源信号不确定性确定单元基于基频和发声量度确定第一方差。

所述语音去混响设备可以进一步包括但不限于逆短时傅立叶变换单元，如果获得源信号估计的收敛，则该逆短时傅立叶变换单元执行源信号估计到波形源信号估计的逆短时傅立叶变换。

根据本发明的第二方面，语音去混响设备包括确定最大化似然函数的逆滤波器估计的似然最大化单元。参考观测信号、初始源信号估计、表示源信号不确定性的第一方差、和表示声学环境不确定性的第二方差进行所述确定。

似然函数可以优选地基于根据第一未知参数、第二未知参数、以及观测数据的第一随机变量所评估的概率密度函数被定义。参考源信号估计来定义第一未知参数。参考室内传递函数的逆滤波器来定义第二未知参数。参考观测信号和初始源信号估计来定义观测数据的第一随机变量。逆滤波器估计是室内传递函数的逆滤波器的估计。

似然最大化单元可以优选地使用迭代优化算法来确定逆滤波器估计。

所述语音去混响设备可以进一步包括但不限于将逆滤波器估计应用于观测信号并产生源信号估计的逆滤波器应用单元。

该逆滤波器应用单元可以进一步包括但不限于第一逆长时傅立叶变换单元、和卷积单元。第一逆长时傅立叶变换单元执行逆滤波器估计到变换后的逆滤波器估计的第一逆长时傅立叶变换。卷积单元接收变换后的逆滤波器估计和观测信号。卷积单元将观测信号与变换后的逆滤波器估计进行卷积以产生源信号估计。

该逆滤波器应用单元可以进一步包括但不限于第一长时傅立叶变换单元、第一滤波单元、和第二逆长时傅立叶变换单元。第一长时傅立叶变换单元执行观测信号到变换后的观测信号的第一长时傅立叶变换。第一滤波单元将逆滤波器估计应用于变换后的观测信号。第一滤波单元产生滤波源信号估计。第二逆长时傅立叶变换单元执行滤波源信号估计到源信号估计的第二逆长时傅立叶变换。

似然最大化单元可以进一步包括但不限于逆滤波器估计单元、收敛检验单元、滤波单元、源信号估计单元、和更新单元。逆滤波器估计单元参考观测信号、第二方差、以及初始源信号估计和更新的源信号估计之一计算逆滤波器估计。收敛检验单元确定是否逆滤波器估计的收敛被获得。如果获得源信号估计的收敛，收敛检验单元进一步输出逆滤波器估计作为将对所述观测信号进行去混响的滤波器。如果未获得源信号估计的收敛，滤波单元从收敛检验单元接收逆滤波器估计。滤波单元进一步将逆滤波器估计应用于观测信号。滤波单元进一步产生滤波信号。源信号估计单元参考初始源信号估计、第一方差、第二方差、和滤波信号计算源信号估计。更新单元将源信号估计更新为更新的源信号估计。更新单元进一步在初始更新步骤中提供初始源信号估计给逆滤波估计单元。更新单元进一步在除初始更新步骤之外的更新步骤中提供更新的源信号估计给逆滤波器估计单元。

似然最大化单元可以进一步包括但不限于第二长时傅立叶变换单元、LTFS到STFS变换单元、STFS到LTFS变换单元、第三长时傅立叶变换单元、和短时傅立叶变换单元。第二长时傅立叶变换单元执行波形观测信号到变换后的观测信号的第二长时傅立叶变换。第二长时傅立叶变换单元进一步将变换后的观测信号作为观测信号提供给逆滤波器估计单元和滤波单元。LTFS到STFS变换单元执行滤波信号到变换后的滤波信号的LTFS到STFS变换。LTFS到STFS变换单元进一步将变换后的滤波信号作为滤波信号提供给源信号估计单元。STFS到LTFS变换单元执行源信号估计到变换后的源信号估计的STFS到LTFS变换。STFS到LTFS变换单元进一步将变换后的源信号估计作为源信号估计提供给更新单元。第三长时傅立叶变换单元执行波形初始源信号估计到第一变换初始源信号估计的第三长时傅立叶变换。第三长时傅立叶变换单元进一步将第一变换初始源信号估计作为初始源信号估计提供给更新单元。短时傅立叶变换单元执行波形初始源信号估计到第二变换初始源信号估计的短时傅立叶变换。短时傅立叶变换单元进一步将第二变换初始源信号估计作为初始源信号估计提供给源信号估计单元。

所述语音去混响设备可以进一步包括但不限于基于观测信号产生初始源信号估计、第一方差、和第二方差的初始化单元。

所述初始化单元可以进一步包括但不限于基频估计单元、和源信号不确定性确定单元。基频估计单元估计来自变换后的信号的每个短时间帧的基频和发声量度，其中通过观测信号的短时傅立叶变换来给定所述变换后的信号。源信号不确定性确定单元基于基频和发声量度确定第一方差。

根据本发明的第三方面，语音去混响方法包括确定最大化似然函数的源信号估计。参考观测信号、初始源信号估计、表示源信号不确定性的第一方差、和表示声学环境不确定性的第二方差进行所述确定。

可以优选地使用迭代优化算法来确定源信号估计。该迭代优化算法可以优选地是期望最大化算法。

用于确定源信号估计的过程可以进一步包括但不限于以下过程。参考观测信号、第二方差、以及初始源信号估计和更新的源信号估计之一计算逆滤波器估计。将该逆滤波器估计应用于观测信号，以产生滤波信号。参考初始源信号估计、第一方差、第二方差、和滤波信号来计算所述源信号估计。确定是否源信号估计的收敛被获得。如果获得源信号估计的收敛，则输出源信号估计作为去混响的信号。如果未获得源信号估计的收敛，则将源信号估计更新为更新的源信号估计。

用于确定源信号估计的过程可以进一步包括但不限于以下过程。执行第一长时傅立叶变换以将波形观测信号变换为变换后的观测信号。执行LTFS到STFS变换以将滤波信号变换为变换后的滤波信号。如果未获得源信号估计的收敛，则执行STFS到LTFS变换以将源信号估计变换为变换后的源信号估计。执行第二长时傅立叶变换以将波形初始源信号估计变换为第一变换初始源信号估计。执行短时傅立叶变换以将波形初始源信号估计变换为第二变换初始源信号估计。

所述语音去混响方法可以进一步包括但不限于执行源信号估计到波形源信号估计的逆短时傅立叶变换。

所述语音去混响方法可以进一步包括但不限于基于观测信号产生初始源信号估计、第一方差、和第二方差。

在最后描述的情况下，产生初始源信号估计、第一方差、和第二方差可以进一步包括但不限于以下过程。估计来自变换后的信号的每个短时间帧的基频和发声量度，其中通过观测信号的短时傅立叶变换来给定所述变换后的信号。基于所述基频和发声量度确定第一方差。

所述语音去混响方法可以进一步包括但不限于以下过程。基于观测信号产生初始源信号估计、第一方差、和第二方差。确定是否源信号估计的收敛被获得。如果获得源信号估计的收敛，则输出源信号估计作为去混响的信号。如果未获得源信号估计的收敛，则该过程将返回产生初始源信号估计、第一方差、和第二方差。

在最后描述的情况下，产生初始源信号估计、第一方差、和第二方差可以进一步包括但不限于以下过程。执行第二短时傅立叶变换以将观测信号变换为第一变换观测信号。执行第一选择操作以产生第一选择输出。当接收第一变换观测信号的输入而不接收源信号估计的任何输入时，第一选择操作用于选择第一变换观测信号作为第一选择输出。当接收第一变换观测信号和源信号估计的输入时，第一选择操作用于选择第一变换观测信号和源信号估计之一作为第一选择输出。执行第二选择操作以产生第二选择输出。当接收第一变换观测信号的输入而不接收源信号估计的任何输入时，第二选择操作用于选择第一变换观测信号作为第二选择输出。当接收第一变换观测信号和源信号估计的输入时，第二选择操作用于选择第一变换观测信号和源信号估计之一作为第二选择输出。估计来自第二选择输出的每个短时间帧的基频和发声量度。基于基频和发声量度增强第一选择输出的谐波结构以产生初始源信号估计。

产生初始源信号估计、第一方差、和第二方差可以进一步包括但不限于以下过程。执行第三短时傅立叶变换以将观测信号变换为第二变换观测信号。执行第三选择操作以产生第三选择输出。当接收第二变换观测信号的输入而不接收源信号估计的任何输入时，第三选择操作用于选择第二变换观测信号作为第三选择输出。当接收第二变换观测信号和源信号估计的输入时，第三选择操作用于选择第二变换观测信号和源信号估计之一作为第三选择输出。估计来自第三选择输出的每个短时间帧的基频和发声量度。基于所述基频和发声量度确定第一方差。

所述语音去混响方法可以进一步包括但不限于：如果获得源信号估计的收敛，则执行源信号估计到波形源信号估计的逆短时傅立叶变换。

根据本发明的第四方面，语音去混响方法包括确定最大化似然函数的逆滤波器估计。参考观测信号、初始源信号估计、表示源信号不确定性的第一方差、和表示声学环境不确定性的第二方差进行所述确定。

所述似然函数可以优选地基于根据第一未知参数、第二未知参数、观测数据的第一随机变量所评估的概率密度函数被定义。参考源信号估计来定义第一未知参数。参考室内传递函数的逆滤波器来定义第二未知参数。参考观测信号和初始源信号估计来定义观测数据的第一随机变量。逆滤波器估计是室内传递函数的逆滤波器的估计。

可以优选地使用迭代优化算法来确定逆滤波器估计。

所述语音去混响方法可以进一步包括但不限于将逆滤波器估计应用于观测信号以产生源信号估计。

在一种情况下，最后描述的用于将逆滤波器估计应用于观测信号的过程可以进一步包括但不限于以下过程。执行第一逆长时傅立叶变换以将逆滤波器估计变换为变换后的逆滤波器估计。将观测信号与变换后的逆滤波器估计进行卷积以产生源信号估计。

在另一种情况下，最后描述的用于将逆滤波器估计应用于观测信号的过程可以进一步包括但不限于以下过程。执行第一长时傅立叶变换以将观测信号变换为变换后的观测信号。将逆滤波器估计应用于变换后的观测信号以产生滤波源信号估计。执行第二逆长时傅立叶变换以将滤波源信号估计变换为源信号估计。

在再一种情况下，确定逆滤波器估计可以进一步包括但不限于以下过程。参考观测信号、第二方差、以及初始源信号估计和更新的源信号估计之一计算逆滤波器估计。确定是否逆滤波器估计的收敛被获得。如果获得源信号估计的收敛，则输出逆滤波器估计作为将对所述观测信号进行去混响的滤波器。如果未获得源信号估计的收敛，则将逆滤波器估计应用于观测信号以产生滤波信号。参考初始源信号估计、第一方差、第二方差、和滤波信号计算源信号估计。将源信号估计更新为更新的源信号估计。

在最后描述的情况下，用于确定逆滤波器估计的过程可以进一步包括但不限于以下过程。执行第二长时傅立叶变换以将波形观测信号变换为变换后的观测信号。执行LTFS到STFS变换以将滤波信号变换为变换后的滤波信号。执行STFS到LTFS变换以将源信号估计变换为变换后的源信号估计。执行第三长时傅立叶变换以将波形初始源信号估计变换为第一变换初始源信号估计。执行短时傅立叶变换以将波形初始源信号估计变换为第二变换初始源信号估计。

在一种情况下，最后描述的用于产生初始源信号估计、第一方差、和第二方差的过程可以进一步包括但不限于以下过程。估计来自变换后的信号的每个短时间帧的基频和发声量度，其中通过观测信号的短时傅立叶变换来给定所述变换后的信号。基于所述基频和发声量度确定第一方差。

根据本发明的第五方面，要通过计算机执行的用于执行语音去混响方法的程序，所述方法包括确定最大化似然函数的源信号估计。参考观测信号、初始源信号估计、表示源信号不确定性的第一方差、和表示声学环境不确定性的第二方差进行所述确定。

根据本发明的第六方面，要通过计算机执行的用于执行语音去混响方法的程序，所述方法包括确定最大化似然函数的逆滤波器估计。参考观测信号、初始源信号估计、表示源信号不确定性的第一方差、和表示声学环境不确定性的第二方差进行所述确定。

根据本发明的第七方面，存储介质存储要通过计算机执行的用于执行语音去混响方法的程序，所述方法包括确定最大化似然函数的源信号估计。参考观测信号、初始源信号估计、表示源信号不确定性的第一方差、和表示声学环境不确定性的第二方差进行所述确定。

根据本发明的第八方面，存储介质存储要通过计算机执行的用于执行语音去混响方法的程序，所述方法包括确定最大化似然函数的逆滤波器估计。参考观测信号、初始源信号估计、表示源信号不确定性的第一方差、和表示声学环境不确定性的第二方差进行所述确定。

根据以下结合附图进行的详细描述，本发明的这些和其他目的、特征、方面和优点对于本领域普通技术人员来说将会变得显而易见，所述附图图示本发明的实施例。

附图说明

现在参考形成本原始公开内容的一部分的附图：

图1是图示在本发明的第一实施例中基于源和室内声学的概率模型的语音去混响设备的方框图；

图2是图示包括在图1中所示的语音去混响设备中的似然最大化单元的配置的方框图；

图3A是图示包括在图2中所示的似然最大化单元中的STFS到LTFS变换单元的配置的方框图；

图3B是图示包括在图2中所示的似然最大化单元中的LTFS到STFS变换单元的配置的方框图；

图4A是图示包括在图2中所示的似然最大化单元中的长时傅立叶变换单元的配置的方框图；

图4B是图示包括在图3B中所示的LTFS到STFS变换单元中的逆长时傅立叶变换单元的配置的方框图；

图5A是图示包括在图3B中所示的LTFS到STFS变换单元中的短时傅立叶变换单元的配置的方框图；

图5B是图示包括在图3A中所示的STFS到LTFS变换单元中的逆短时傅立叶变换单元的配置的方框图；

图6是图示包括在图1中所示的初始化单元中的初始源信号估计单元的配置的方框图；

图7是图示包括在图1中所示的初始化单元中的源信号不确定性确定单元的配置的方框图；

图8是图示包括在图1中所示的初始化单元中的声学环境不确定性确定单元的配置的方框图；

图9是图示根据本发明第二实施例的另一种语音去混响设备的配置的方框图；

图10是图示包括在图9中所示的初始化单元中的修改的初始源信号估计单元的配置的方框图；

图11是图示包括在图9中所示的初始化单元中的修改的源信号不确定性确定单元的配置的方框图；

图12是图示根据本发明第三实施例的又一种语音去混响设备的配置的方框图；

图13是图示包括在图12中所示的语音去混响设备中的似然最大化单元的配置的方框图；

图14是图示包括在图12中所示的语音去混响设备中的逆滤波器应用单元的配置的方框图；

图15是图示包括在图12中所示的语音去混响设备中的另一个逆滤波器应用单元的配置的方框图；

图16A图示当女人说话时在RT60＝1.0秒的能量衰减曲线；

图16B图示当女人说话时在RT60＝0.5秒的能量衰减曲线；

图16C图示当女人说话时在RT60＝0.2秒的能量衰减曲线；

图16D图示当女人说话时在RT60＝0.1秒的能量衰减曲线；

图16E图示当男人说话时在RT60＝1.0秒的能量衰减曲线；

图16F图示当男人说话时在RT60＝0.5秒的能量衰减曲线；

图16G图示当男人说话时在RT60＝0.2秒的能量衰减曲线；以及

图16H图示当男人说话时在RT60＝0.1秒的能量衰减曲线。

具体实施方式

根据本发明的一个方面，提供单声道语音去混响方法，其中源信号和室内声学的特征通过概率密度函数(pdf)表示以及通过最大化基于概率密度函数(pdf)定义的似然函数来估计源信号。基于两种基本语音信号特征、即调和性和稀疏性，两种类型的概率密度函数(pdf)被引入用于源信号，同时基于逆滤波操作来定义室内声学的概率密度函数(pdf)。期望最大化(EM)算法被用于有效地解决最大似然问题。所产生的算法通过经由期望最大化(EM)迭代将其源信号特征与室内声学特征结合来精心制作仅仅基于其源信号特征所给定的初始源信号估计。用去混响脉冲响应的能量衰减曲线来显示本方法的有效性。

尽管上述的HERB和SBD在获得去混响滤波器中有效地利用语音信号特征，但是它们并不提供能够优化其性能的分析构架。根据本发明的一个方面，上述的HERB和SBD被重新用公式表示为最大似然(ML)估计问题，其中源信号被确定为在给定观测信号的情况下最大化似然函数的信号。为此目的，两个概率密度函数(pdf)被引入用于初始源信号估计和去混响滤波器，以便基于期望最大化(EM)算法最大化似然函数。实验结果显示：在给定相同数量的观测信号的情况下在去混响脉冲响应的能量衰减曲线方面能够进一步提高HERB和SBD的性能。以下描述将针对在本发明的一个方面中使用的傅立叶频谱。

短时傅立叶频谱和长时傅立叶频谱

本发明的一个方面将合并有关考虑源特性的语音信号特征和有关考虑混响效果的室内声学特征的信息。大约几十毫秒的短时间帧的相继应用对于分析这样的随时间变化的语音特征可能是有用的，而通常可能需要大约几千毫秒的相对长的时间帧来计算室内声学特征。本发明的一个方面将引入基于这两种分析帧的两种类型的傅立叶频谱、即在下文中被称为“STFS”的短时傅立叶频谱和在下文中被称为“LTFS”的长时傅立叶频谱。STFS和LTFS中的各频率分量通过具有尾标“(r)”的符号被表示为

以及通过另一个不具有尾标的符号被表示为s_l，k′，其中s_l，k′的l是用于LTFS的长时间帧的索引，k′是用于LTFS的频率索引，

的l是包括用于STFS的短时间帧的长时间帧的索引，

的m是包括在长时间帧中的短时间帧的索引，以及

的k是用于STFS的频率索引。短时间帧能够被视为长时间帧的组成部分。所以，STFS中的频率分量具有两个下标l和m。两个频谱被如下定义：

s_{l, m, k}^{(r)} = 1 / K^{(τ)} Σ_{n = 0}^{K^{(r)} - 1} g^{(r)} [n] s [t_{l, m} + n] e^{- j 2 πkn / K^{(r)}},

s_{l, m} = 1 / K Σ_{n = 0}^{K - 1} g [n] s [t_{l} + n] e^{- j 2 πkn / K}, - - - (1)

其中s[n]是数字化波形信号，g^(r)[n]和g[n]、K^(r)和K、以及t_l，m和t_l分别是窗函数、离散傅立叶变换(DFT)点的数量、和用于STFS和LTFS的时间索引。设置t_l，m和t_l之间的关系为对于m＝0到M-1，t_l，m＝t_l+mτ，其中τ是相继的短时间帧之间的帧移。此外，引入以下归一化条件：

K＝κK^(τ)，

g [n] = κ Σ_{m = 0}^{M - 1} g^{(r)} [n - mτ] . - - - (2)

其中κ是整数常量。利用该条件，在STFS，和LTFS，s_l，k′之间保持以下方程，其中k’＝κk：

s_{l, k^{'}} = Σ_{m = 0}^{M - 1} s_{l, m, k}^{(r)} η^{- m}, - - - (3)

其中

。定义逆操作，通过LS_m，k{·}来表示，该逆操作将由{s_l，k′}_l所表示的在长时间帧l的一组LTFS仓s_l，k′(k′＝1-K)变换为在短时间帧m和频率索引k的STFS仓(bin)：

s_{l, m, k}^{(r)} = {LS}_{m, k} {{s_{l, k^{'}}}_{l}} . - - - (4)

通过级联逆长时傅立叶变换和短时傅立叶变换能够实现这种变换。显然，LS_m，k{·}是线性操作符。

信号的三种类型的表示、即波形数字化信号、短时傅立叶频谱(STFS)和长时傅立叶频谱(LTFS)包含相同的信息，并且能够使用已知的变换在无任何主要信息丢失的情况下从一种类型被变换到另一种类型。

源和室内声学的概率模型

定义以下术语：

观测到的混响信号的STFS

未知源信号的STFS

初始源信号估计的STFS

w_k′：未知逆滤波器的LTFS(k′＝κk)

(5)

假设

和w_k分别是随机过程

和W_k′的实现，以及

是根据观测信号基于语音信号的特征、诸如调和性和稀疏性而给定的。

在以下描述的本发明的一个实施例中，

或s_l，k′被作为未知参数

处理，w_k′被作为丢失数据的第一随机变量处理，以及

或X_l，k′被作为第二随机变量的一部分处理，和

或

被作为第二随机变量的另一部分处理。

假设：针对一定的持续时间给定和以及给定

其中{.}_k表示在频率索引k的STFS仓的时间系列。

在此情况下，假设语音通过估计最大化在每个频率索引k定义的似然函数的源信号能够去混响：

θ_{k} = \arg \max_{Θ_{k}} \log p {z_{k}^{(r)} | Θ_{k}}

= \arg \max_{Θ_{k}} \log &Integral; p {w_{k^{'}}, z_{k}^{(r)} | Θ_{k}} d w_{k^{'}}, - - - (6)

其中

以及k′＝κk是LTFS仓的频率索引。θ_k的上述方程中的积分是对w_k’的实部和虚部的简单二重积分。未被观测的逆滤波器被作为上述似然函数中的丢失数据处理并通过积分被排斥(marginalize)。为了分析该函数，进一步假设：在给定

的情况下，

以及

和w_k’联合事件在统计上是独立的。在此情况下，上述方程(6)中的p{w_k；z_k|Θ_k}能够被如下分成两个函数：

p {w_{k^{'}}, z_{k} | Θ_{k}} = p {w_{k^{'}}, {x_{l, m, k}^{(r)}}_{k} | Θ_{k}} p {{{\hat{s}}_{l, m, k}^{(r)}}_{k} | Θ_{k}} . - - - (7)

前者是与室内声学有关的概率密度函数(pdf)，即在给定源信号的情况下观测信号和逆滤波器的联合概率密度函数(pdf)。后者是与由初始估计提供的信息有关的另一个概率密度函数(pdf)，即在给定源信号的情况下初始源信号估计的概率密度函数(pdf)。第二分量能够被解释为在给定真实源信号的情况下语音特征的概率存在。它们将分别在下文中被称为“声学概率密度函数(声学pdf)”以及“源概率密度函数(源pdf)”。理想地，逆传递函数w_k′将x_l，k′变换成s_l，k′，即w_kx_l，k′＝s_l，k′。但是，在实际的声学环境中，该方程由于诸如不足够的逆滤波器长度和室内传递函数的波动这样的原因而可能包含一定误差

所以，声学pdf能够被认为是这种误差的概率密度函数(pdf)，如

类似地，源概率密度函数(源pdf)能够被认为是误差

或者源信号和基于特征的信号之差的另一个概率密度函数(pdf)，如

为了简化起见，假设这些误差是在给定

的情况下顺序地独立的随机过程。假设上述两个误差过程的实部和虚部以相同的方差相互独立并且能够单独地通过具有零平均值的高斯随机过程被建模。利用这些假设，误差概率密度函数(误差pdf)被表示为：

其中

和分别是两个概率密度函数(pdf)的方差，在下文中被称为声学环境不确定性和源信号不确定性。假设这两个值是基于语音信号和室内声学的特征被给定的。

EM算法的说明

期望最大化(EM)算法是找到最大化包括丢失数据的给定似然函数的一组参数的优化方法。这通过A.P.Dempster、N.M.Laird、和D.B.Rubin在“maximum likelihood from incorporate data via theEM algorithm”(Journal of the Royal Statistical Society，SeriesB，39(1)：1-38，1977年)中被公开。通常，似然函数被表示为：

其中p{·|Θ}表示在参数集Θ被给定并且X和Y是随机变量的条件下随机变量的概率密度函数(pdf)。X＝x意味着x作为关于X的观测数据被给定。在上述似然函数中，假设Y未被观测到，被称为丢失数据，因此利用Y排斥概率密度函数(pdf)。通过找到最大化似然函数的参数集Θ＝θ的实现能够求解最大似然问题。

根据期望最大化(EM)算法，利用辅助函数Q{Θ|θ}的期望步骤(E-step)和最大化步骤(M-step)被分别定义为：

·E-step：

Q {Θ | θ} = E_{| θ} {\log p {X = x, Y | Θ} | Θ = θ},

= &Integral; p {X = x, Y = y | Θ = θ} \log p {X = x, Y = y | Θ} dy,

·M-step：

\tilde{θ} = \arg \max_{Θ} Q {Θ | θ}, - - - (10)

其中在上述方程(10)的标记为“E-step”的上面方程中的E_|θ{·|θ}是在Θ＝θ为固定的条件下的期望函数，其被更具体地定义为所述方程在E-step中的第二行。似然函数

被显示为通过经由期望步骤(E-step)和最大化步骤(M-step)的一次迭代利用

更新Θ＝θ进行增加，其中在期望步骤(E-step)中计算Q{Θ|θ}，而在最大化步骤(M-step)中获得最大化Q{Θ|θ}的

最大似然问题的解通过重复所述迭代获得。

基于EM算法的解

求解θ_k的上述方程(6)的一种有效方式是使用上述期望最大化(EM)算法。利用这种方法，为了语音去混响，利用辅助函数Q(Θ_k|θ_k)的期望步骤(E-step)和最大化步骤(M-step)被分别定义为：

Q {Θ_{k} | θ_{k}} = E_{| θ} {\log p {W_{k^{'}} Z_{k}^{(r)} = z_{k}^{(r)} | Θ_{k}} | Θ_{k} = θ_{k}},

= &Integral; p {W_{k^{'}} = w_{k^{'}} Z_{k}^{(r)} = z_{k}^{r} | Θ_{k} = θ_{k}} \log p {W_{k^{'}} = w_{k^{'}}, Z_{k}^{(r)} = z_{k}^{(r)} | Θ_{k}}, - - - (11)

{\tilde{θ}}_{k} = \underset{Θ_{k}}{\arg \max} Q (Θ_{k} | θ_{k}),

其中假设

是以下随机过程的实现：

Z_{k}^{(r)} = {{X_{l, m, k}^{(r)}}_{k}, {{\hat{S}}_{l, m, k}^{(r)}}_{k}} .

根据EM算法，对数似然log

通过利用经由EM迭代获得的

更新θ_k而增加，并且通过重复所述迭代收敛到平稳点解。

解：

其中

其中

意味着复数共轭。应该注意：Θ_k最大化Q_Θ{Θ_k|θ_k}并且也最大化Q(Θ_k|θ_k)，Θ_k产生Q_Θ{Θ_k|θ_k}＞Q_Θ{θ_k|θ_k}并且也产生Q(Θ_k|θ_k)＞Q(θ_k|θ_k)。最大化Q_Θ{Θ_k|θ_k}的Θ_k能够通过以

对它求微分、将它设置成零、以及求解所产生的联立方程而获得。但是，获得该解的计算成本相当高，这是因为需要针对每个l和k求解具有M个未知变量的该方程。

替代地，为了以更有效的方式最大化上述方程(12)的Q_Θ{Θ_k|θ_k}引入以下假设。通过基于上述方程(3)对构成LTFS仓的STFS仓的幂求和，能够近似LTFS仓的幂，即：

利用这种假设，通过上述方程(12)给定的Q_Θ{Θ_k|θ_k}能够被重写为：

Q_{Θ} {Θ_{k} | θ_{k}} = \underset{l}{Σ} \underset{m}{Σ} \frac{- {| {LS}_{m, k} {{{\tilde{w}}_{k^{'}} x_{l, k^{'}}}_{l} - S_{l, m, k}^{(r)}} |}^{2}}{2 σ_{l, k^{'}}^{(a)}}

+ \underset{l}{Σ} \underset{m}{Σ} \frac{- {| {\hat{s}}_{l, m, k}^{(r)} - S_{l, m, k}^{(r)} |}^{2}}{2 σ_{l, m, k}^{(sτ)}} . - - - (14)

通过对上述方程求微分并将它设置成零，能够如下针对通过上述方程(11)的M-step所给定的

获得封闭形式解：

{\tilde{s}}_{l, m, k}^{(r)} = \frac{σ_{l, m, k}^{(sr)} {LS}_{m, k} {{{\tilde{w}}_{k^{'}} x_{l, k^{'}}}_{l}} + σ_{l, k^{'}}^{(a)} {\hat{s}}_{l, m, k}^{(τ)}}{σ_{l, k^{'}}^{(a)} + σ_{l, m, k}^{(sr)}} . - - - (15)

讨论：

利用这种方法，通过依次重复地计算由上述方程(12)给定的

以及由上述方程(15)给定的来实现去混响。

上述方程(12)中的对应于在给定初始源信号估计为s_l，k’和观测信号为x_l，k′的情况下通过传统HERB和SBD方法获得的去混响滤波器。

上述方程(15)通过初始源信号估计

和通过将x_l，k′乘以

获得的源估计的加权平均来更新所述源估计。根据源信号不确定性和声学环境不确定性来确定权重。换而言之，一次EM迭代通过集成基于源和室内声学特性获得的两种类型的源估计来精心制作源估计。

从不同的观点来看，能够将通过上述方程(12)计算的逆滤波器估计

视为最大化如下在θ_k是固定的条件下所定义的似然函数的逆滤波器估计，

L {w_{k^{'}}, θ_{k}} = p {w_{k^{'}}, z_{k}^{(r)} | θ_{k}}

= p {w_{k^{'}}, {x_{l, m, k}^{(r)}}_{k} | θ_{k}} p {{{\hat{s}}_{l, m, k}^{(r)}}_{k} | θ_{k}}, - - - (16)

其中采用与上述方程(8)相同的定义用于上述似然函数中的概率密度函数(pdf)。另外，通过上述方程(15)计算的源信号估计

也在逆滤波器估计

是固定的条件下最大化上述似然函数。所以，通过分别重复地计算上述方程(12)和(15)，能够获得最大化上述似然函数的逆滤波器估计

和源信号估计换而言之，通过这种迭代优化算法，能够计算最大化上述似然函数的逆滤波器估计

现在将参考附图描述本发明的所选择的实施例。对于本领域普通技术人员来说根据本公开内容将显而易见的是，本发明的实施例的以下描述仅仅被提供用于说明而不是用于限制如通过所附的权利要求及其等同物定义的本发明的目的。

第一实施例：

图1是图示根据本发明的第一实施例的、基于源和室内声学的概率模型的语音去混响设备的方框图。能够通过一组功能单元来实现语音去混响设备10000，该组功能单元协作用于接收观测信号x[n]的输入并产生波形信号

的输出。功能单元中的每一个都可以包括被构造和/或被编程用于执行预定功能的硬件和/或软件。术语“被适配”和“被配置”被用于描述被构造和/或被编程用于执行一个或多个期望功能的硬件和/或软件。语音去混响设备10000能够例如通过计算机或处理器来实现。语音去混响设备10000执行语音去混响操作。语音去混响方法能够通过要由计算机执行的程序来实现。

语音去混响设备10000可以典型地包括初始化单元1000、似然最大化单元2000和逆短时傅立叶变换单元4000。初始化单元1000可以被适配用于接收能够是数字化波形信号的观测信号x[n]，其中n是样本索引。数字化波形信号x[n]可以包含具有未知混响程度的语音信号。通过诸如一个或多个麦克风的设备能够捕获该语音信号。初始化单元1000可以被适配用于从观测信号提取与源信号和声学环境有关的初始源信号估计和不确定性。初始化单元1000还可以被适配用于用公式表达初始源信号估计、源信号不确定性和声学环境不确定性的表示。针对所有索引l、m、k和k′，这些表示被列举为是数字化波形初始源信号估计的是表示源信号不确定性的方差或离差的

以及是表示声学环境不确定性的方差或离差的

即，初始化单元1000可以被适配用于接收数字化波形信号x[n]的输入作为观测信号并产生数字化波形初始源信号估计

表示源信号不确定性的方差或离差

以及表示声学环境不确定性的方差或离差

似然最大化单元2000可以与初始化单元1000协作。即，似然最大化单元2000可以被适配用于从初始化单元1000接收数字化波形初始源信号估计

的输入、源信号不确定性和声学环境不确定性

似然最大化单元2000还可以被适配用于接收数字化波形观测信号x[n]的另一个输入作为观测信号。

是数字化波形初始源信号估计。

是表示源信号不确定性的第一方差。

是表示声学环境不确定性的第二方差。似然最大化单元2000还可以被适配用于确定最大化似然函数的源信号估计θ_k，其中参考数字化波形观测信号x[n]、数字化波形初始源信号估计表示源信号不确定性的第一方差

以及表示声学环境不确定性的第二方差

来进行所述确定。通常，可以基于概率密度函数来定义似然函数，该概率密度函数根据参考源信号估计所定义的未知参数、表示室内传递函数的逆滤波器的丢失数据的第一随机变量、和参考观测信号和初始源信号估计所定义的观测数据的第二随机变量进行评估。使用迭代优化算法来执行源信号估计θ_k的确定。

迭代优化算法的典型实例可以包括但不限于上述期望最大化算法。在一个实例中，似然最大化单元2000可以被适配用于针对所有k搜索源信号

并估计最大化如下定义的似然函数的源信号：

其中

是此刻的短时观测

和初始源信号估计

的联合事件。已经参考上述方程(6)描述了该函数的细节。因此，似然最大化单元2000可以被适配用于确定并输出最大化所述似然函数的源信号估计

逆短时傅立叶变换单元4000可以与似然最大化单元2000协作。即，逆短时傅立叶变换单元4000可以被适配用于从似然最大化单元2000接收最大化似然函数的源信号估计

的输入。逆短时傅立叶变换单元4000还可以被适配用于将源信号估计

变换成数字化波形信号

并输出该数字化波形信号

似然最大化单元2000能够通过相互协作以确定并输出最大化似然函数的源信号估计

的一组子功能单元来实现。图2是图示图1中所示的似然最大化单元2000的配置的方框图。在一种情况下，似然最大化单元2000还可以包括长时傅立叶变换单元2100、更新单元2200、STFS到LTFS变换单元2300、逆滤波器估计单元2400、滤波单元2500、LTFS到STFS变换单元2600、源信号估计和收敛检验单元2700、短时傅立叶变换单元2800、以及长时傅立叶变换单元2900。这些单元协作以继续执行迭代操作，直到已经确定最大化似然函数的源信号估计为止。

长时傅立叶变换单元2100被适配用于从初始化单元1000接收数字化波形观测信号x[n]作为观测信号。长时傅立叶变换单元2100还被适配用于执行数字化波形观测信号x[n]到作为长期傅立叶频谱(LTFS)的变换后的观测信号x_l，k’的长时傅立叶变换。

短时傅立叶变换单元2800被适配用于从初始化单元1000接收数字化初始源信号估计

短时傅立叶变换单元2800被适配用于执行数字化波形初始源信号估计

到初始源信号估计

的短时傅立叶变换。

长时傅立叶变换单元2900被适配用于从初始化单元1000接收数字化波形初始源信号估计长时傅立叶变换单元2900被适配用于执行数字化波形初始源信号估计

到初始源信号估计

的长时傅立叶变换。

更新单元2200与长时傅立叶变换单元2900和STFS到LTFS变换单元2300协作。更新单元2200被适配用于在迭代的初始步骤中从长时傅立叶变换单元2900接收初始源信号估计并且还被适配用于用从长时傅里叶变换单元2900接收的源信号估计

代替更新的源信号估计θ_k’。更新单元2200此外被适配用于发送更新的源信号估计θ_k’给逆滤波器估计单元2400。更新单元2200还被适配用于在迭代的随后步骤中从STFS到LTFS变换单元2300接收源信号估计并且用于用从STFS到LTFS变换单元2300接收的源信号估计

代替更新的源信号估计θ_k’。更新单元2200还被适配用于发送更新的源信号估计θ_k′给逆滤波器估计单元2400。

逆滤波器估计单元2400与长时傅立叶变换单元2100、更新单元2200和初始化单元1000协作。逆滤波器估计单元2400被适配用于从长时傅立叶变换单元2100接收观测信号x_l，k′。逆滤波器估计单元2400还被适配用于从更新单元2200接收更新的源信号估计θ_k′。逆滤波器估计单元2400还被适配用于从初始化单元1000接收表示声学环境不确定性的第二方差

逆滤波器估计单元2400进一步被适配用于根据上述方程(12)基于观测信号x_l，k′、更新的源信号估计θ_k′和表示声学环境不确定性的第二方差

来计算逆滤波器估计

逆滤波器估计单元2400进一步被适配用于输出逆滤波器估计

滤波单元2500与长时傅立叶变换单元2100和逆滤波器估计单元2400协作。滤波单元2500被适配用于从长时傅立叶变换单元2100接收观测信号x_l，k′。滤波单元2500还被适配用于从逆滤波器估计单元2400接收逆滤波器估计

滤波单元2500还被适配用于将观测信号x_l，k′应用于逆滤波器估计

以产生滤波源信号估计将观测信号x_l，k′应用于逆滤波器估计

的滤波过程的典型实例可以包括但不限于计算观测信号x_l，k′和逆滤波器估计

的乘积

在这种情况下，通过观测信号x_l，k′和逆滤波器估计

的乘积

来给定滤波源信号估计

LTFS到STFS变换单元2600与滤波单元2500协作。LTFS到STFS变换单元2600被适配用于从滤波单元2500接收滤波源信号估计

LTFS到STFS变换单元2600进一步被适配用于执行滤波源信号估计

到变换后的滤波源信号估计的LTFS到STFS变换。当滤波过程是计算观测信号x_l，k′和逆滤波器估计

的乘积

时，LTFS到STFS变换单元2600进一步被适配用于执行乘积到变换后的信号

的LTFS到STFS变换。在这种情况下，乘积

表示滤波源信号估计

以及变换后的信号表示变换后的滤波源信号估计

源信号估计和收敛检验单元2700与LTFS到STFS变换单元2600、短时傅立叶变换单元2800、以及初始化单元1000协作。源信号估计和收敛检验单元2700被适配用于从LTFS到STFS变换单元2600接收变换后的滤波源信号估计

源信号估计和收敛检验单元2700还被适配用于从初始化单元1000接收表示源信号不确定性的第一方差

和表示声学环境不确定性的第二方差源信号估计和收敛检验单元2700还被适配用于从短时傅立叶变换单元2800接收初始源信号估计源信号估计和收敛检验单元2700进一步被适配用于基于变换后的滤波源信号估计

表示源信号不确定性的第一方差

表示声学环境不确定性的第二方差

和初始源信号估计

估计源信号

其中根据上述方程(15)进行所述估计。

源信号估计和收敛检验单元2700此外被适配用于例如通过比较当前已经被估计的源信号估计

的当前值和之前已经被估计的源信号估计

的前一值以及检验是否当前值偏离前一值小于一定的预定量来确定迭代过程的收敛状态。如果源信号估计和收敛检验单元2700确认源信号估计的当前值偏离其前一值小于一定的预定量，那么源信号估计和收敛检验单元2700识别出已经获得源信号估计

的收敛。如果源信号估计和收敛检验单元2700确认源信号估计的当前值偏离其前一值不小于一定的预定量，那么源信号估计和收敛检验单元2700识别出还未获得源信号估计

的收敛。

作为修改有可能的是当迭代次数达到一定的预定值时终止迭代过程。即，源信号估计和收敛检验单元2700已经确认迭代次数达到一定的预定值，于是源信号估计和收敛检验单元2700识别出已经获得源信号估计

的收敛。如果源信号估计和收敛检验单元2700已经确认已经获得源信号估计的收敛，那么源信号估计和收敛检验单元2700向逆短时傅立叶变换单元4000提供源信号估计

作为第一输出。如果源信号估计和收敛检验单元2700已经确认还未获得源信号估计

的收敛，那么源信号估计和收敛检验单元2700向STFS到LTFS变换单元2300提供源信号估计

作为第二输出。

STFS到LTFS变换单元2300与源信号估计和收敛检验单元2700协作。STFS到LTFS变换单元2300被适配用于从源信号估计和收敛检验单元2700接收源信号估计

STFS到LTFS变换单元2300被适配用于执行源信号估计

到变换后的源信号估计

的STFS到LTFS变换。

在迭代操作的随后步骤中，更新单元2200从STFS到LTFS变换单元2300接收所述源信号估计

并用源信号估计θ_k代替

以及发送更新的源信号估计θ_k’给逆滤波器估计单元2400。

上述迭代过程将被继续，直到源信号估计和收敛检验单元2700已经确认源信号估计

的收敛已经被获得。在迭代的初始步骤中，

更新的源信号估计θ_k′是从长时傅立叶变换单元2900提供的在迭代的第二或随后步骤中，更新的源信号估计θ_k′是

如果源信号估计和收敛检验单元2700已经确认已经获得源信号估计

的收敛，那么源信号估计和收敛检验单元2700向逆短时傅立叶变换单元4000提供源信号估计

作为第一输出。逆短时傅立叶变换单元4000可以被适配用于将源信号估计

变换成数字化波形信号

并输出该数字化波形信号

将参考图2描述似然最大化单元2000的操作。

在迭代的初始步骤中，将数字化波形观测信号x[n]从初始化单元1000提供给长时傅立叶变换单元2100。由长时傅立叶变换单元2100执行长时傅立叶变换以便数字化波形观测信号x[n]被变换成作为长期傅立叶频谱(LTFS)的变换后的观测信号x_l，k′。数字化波形初始源信号估计

从初始化单元1000被提供给短时傅立叶变换单元2800和长时傅立叶变换单元2900。由短时傅立叶变换单元2800执行短时傅立叶变换以便将数字化波形初始源信号估计

变换成初始源信号估计

由长时傅立叶变换单元2900执行长时傅立叶变换以便将数字化波形初始源信号估计

变换成初始源信号估计

从长时傅立叶变换单元2900提供初始源信号估计给更新单元2200。通过更新单元2200用源信号估计θ_k′代替初始源信号估计然后从更新单元2200提供初始源信号估计

给逆滤波器估计单元2400。观测信号x_l，k′从长时傅立叶变换单元2100被提供给逆滤波器估计单元2400。表示声学环境不确定性的第二方差

从初始化单元1000被提供给逆滤波器估计单元2400。逆滤波器估计单元2400基于观测信号x_l，k′初始源信号估计θ_k′、以及表示声学环境不确定性的第二方差

计算逆滤波器估计

其中根据上述方程(12)进行所述计算。

逆滤波器估计

从逆滤波器估计单元2400被提供给滤波单元2500。观测信号x_l，k′进一步从长时傅立叶变换单元2100被提供给滤波单元2500。滤波单元2500将逆滤波器估计

应用于观测信号x_l，k′以产生滤波源信号估计

将观测信号x_l，k′应用于逆滤波器估计的滤波过程的典型实例可以用于计算观测信号x_l，k′和逆滤波器估计的乘积

在这种情况下，通过观测信号x_l，k′和逆滤波器估计的乘积来给定滤波源信号估计

从滤波单元2500提供滤波源信号估计

给LTFS到STFS变换单元2600。由LTFS到STFS变换单元2600执行LTFS到STFS变换以便滤波源信号估计

被变换成变换后的滤波源信号估计

当滤波过程用于计算观测信号x_l，k′和逆滤波器估计

的乘积

时，乘积

被变换成变换后的信号

从LTFS到STFS变换单元2600提供变换后的滤波源信号估计

给源信号估计和收敛检验单元2700。从初始化单元1000提供表示源信号不确定性的第一方差

和表示声学环境不确定性的第二方差

给源信号估计和收敛检验单元2700。从短时傅立叶变换单元2800提供初始源信号估计

给源信号估计和收敛检验单元2700。源信号估计和收敛检验单元2700基于变换后的滤波源信号估计表示源信号不确定性的第一方差

表示声学环境不确定性的第二方差

和初始源信号估计

计算源信号估计其中根据上述方程(15)进行所述估计。

在迭代的初始步骤中，从源信号估计和收敛检验单元2700提供源信号估计

给STFS到LTFS变换单元2300以便将源信号估计

变换成变换后的源信号估计

从STFS到LTFS变换单元2300提供变换后的源信号估计给更新单元2200。更新单元2200用源信号估计θ_k′代替变换后的源信号估计从更新单元2200提供更新的源信号估计θ_k′给逆滤波器估计单元2400。

在迭代的第二或随后步骤中，从更新单元2200提供源信号估计

给逆滤波器估计单元2400。观测信号x_l，k′也从长时傅立叶变换单元2100被提供给逆滤波器估计单元2400。从初始化单元1000提供表示声学环境不确定性的第二方差给逆滤波器估计单元2400。逆滤波器估计单元2400基于观测信号x_l，k′、更新的源信号估计

和表示声学环境不确定性的第二方差

计算更新的逆滤波器估计

其中根据上述方程(12)进行所述计算。

从逆滤波器估计单元2400提供更新的逆滤波器估计

给滤波单元2500。观测信号x_l，k′进一步被从长时傅立叶变换单元2100提供给滤波单元2500。滤波单元2500将观测信号x_l，k′应用于更新的逆滤波器估计

以产生滤波源信号估计

从滤波单元2500提供更新的滤波源信号估计

给LTFS到STFS变换单元2600。LTFS到STFS变换单元2600执行LTFS到STFS变换以便将更新的滤波源信号估计

变换成变换后的滤波源信号估计

从LTFS到STFS变换单元2600提供更新的滤波源信号估计

给源信号估计和收敛检验单元2700。还从初始化单元1000提供表示源信号不确定性的第一方差

和表示声学环境不确定性的第二方差

给源信号估计和收敛检验单元2700。从短时傅立叶变换单元2800提供更新的初始源信号估计

给源信号估计和收敛检验单元2700。源信号估计和收敛检验单元2700基于变换后的滤波源信号估计

表示源信号不确定性的第一方差

和表示声学环境不确定性的第二方差

和初始源信号估计

计算源信号估计

其中根据上述方程(15)进行所述估计。比较当前已经被估计的源信号估计

的当前值与之前已经被估计的源信号估计

的前一值。源信号估计和收敛检验单元2700验证是否当前值偏离前一值小于一定的预定量。

如果源信号估计和收敛检验单元2700确认源信号估计

的当前值偏离其前一值小于一定的预定量，那么源信号估计和收敛检验单元2700识别出已经获得源信号估计

的收敛。源信号估计

作为第一输出从源信号估计和收敛检验单元2700被提供给逆短时傅立叶变换单元4000。逆短时傅立叶变换单元4000将源信号估计

变换成数字化波形源信号估计

如果源信号估计和收敛检验单元2700确认源信号估计

的当前值不偏离其前一值小于一定的预定量，那么源信号估计和收敛检验单元2700识别出还未获得源信号估计

的收敛。从源信号估计和收敛检验单元2700提供源信号估计

给STFS到LTFS变换单元2300以便将源信号估计

变换成变换后的源信号估计

从STFS到LTFS变换单元2300提供变换后的源信号估计给更新单元2200。更新单元2200用源信号估计θ_k′代替变换后的源信号估计

从更新单元2200提供更新的源信号估计θ_k′给逆滤波器估计单元2400。

作为修改有可能的是当迭代次数达到一定的预定值时终止迭代过程。即，已经通过源信号估计和收敛检验单元2700确认迭代次数达到一定的预定值，那么源信号估计和收敛检验单元2700识别出已经获得源信号估计

的收敛。如果已经通过源信号估计和收敛检验单元2700确认已经获得源信号估计

的收敛，那么源信号估计

作为第一输出从源信号估计和收敛检验单元2700被提供给逆短时傅立叶变换单元4000。如果已经通过源信号估计和收敛检验单元2700确认还未获得源信号估计

的收敛，那么源信号估计作为第二输出从源信号估计和收敛检验单元2700被提供给STFS到LTFS变换单元2300以便然后将源信号估计

变换成变换后的源信号估计

进一步用源信号估计θ_k’代替变换后的源信号估计

上述迭代过程将被继续，直到通过源信号估计和收敛检验单元2700已经确认已经获得源信号估计

的收敛。在迭代的初始步骤中，更新的源信号估计θ_k’是从长时傅立叶变换单元2900提供的。在迭代的第二或随后步骤中，更新的源信号估计θ_k′是

如果已经通过源信号估计和收敛检验单元2700确认已经获得源信号估计

的收敛，那么源信号估计

变换成数字化波形源信号估计并输出该数字化波形源信号估计

图3A是图示在图2中所示的STFS到LTFS变换单元2300的配置的方框图。STFS到LTFS变换单元2300可以包括逆短时傅立叶变换单元2310和长时傅立叶变换单元2320。逆短时傅立叶变换单元2310与源信号估计和收敛检验单元2700协作。逆短时傅立叶变换单元2310被适配用于从源信号估计和收敛检验单元2700接收源信号估计

逆短时傅立叶变换单元2310进一步被适配用于将源信号估计

变换成作为输出的数字化波形源信号估计

长时傅立叶变换单元2320与逆短时傅立叶变换单元2310协作。长时傅立叶变换单元2320被适配用于从逆短时傅立叶变换单元2310接收数字化波形源信号估计

长时傅立叶变换单元2320进一步被适配用于将数字化波形源信号估计

变换成作为输出的变换后的源信号估计

图3B是图示在图2中所示的LTFS到STFS变换单元2600的配置的方框图。LTFS到STFS变换单元2600可以包括逆长时傅立叶变换单元2610和短时傅立叶变换单元2620。逆长时傅立叶变换单元2610与滤波单元2500协作。逆长时傅立叶变换单元2610被适配用于从滤波单元2500接收滤波源信号估计

逆长时傅立叶变换单元2610进一步被适配用于将滤波源信号估计变换成作为输出的数字化波形滤波源信号估计

短时傅立叶变换单元2620与逆长时傅里叶变换单元2610协作。短时傅立叶变换单元2620被适配用于从逆长时傅立叶变换单元2610接收数字化波形滤波源信号估计

短时傅里叶变换单元2620进一步被适配用于将数字化波形滤波源信号估计

变换成作为输出的变换后的滤波源信号估计

图4A是图示图2中所示的长时傅立叶变换单元2100的配置的方框图。长时傅立叶变换单元2100可以包括开窗单元2110和离散傅立叶变换单元2120。开窗单元2100被适配用于接收数字化波形观测信号x[n]。开窗单元2100进一步被适配用于如以下所给定的那样将分析窗函数g[n]重复地应用于数字化波形观测信号x[n]：

x_l[n]＝g[n]x[n_l+n]。

其中n_l是长时间帧l所开始的样本索引。开窗单元2110被适配用于针对所有l产生分段波形观测信号x_l[n]。

离散傅立叶变换单元2120与开窗单元2110协作。离散傅立叶变换单元2120被适配用于从开窗单元2110接收分段波形观测信号x_l[n]。离散傅立叶变换单元2120进一步被适配用于执行分段波形信号x_l[n]中的每一个到变换后的观测信号x_l，k’的如下给定的K点离散傅立叶变换：

图4B是图示图3B中所示的逆长时傅立叶变换单元2610的配置的方框图。逆长时傅立叶变换单元2610可以包括逆离散傅立叶变换单元2612以及重叠相加合成单元2614。逆离散傅立叶变换单元2612与滤波单元2500协作。逆离散傅立叶变换单元2612被适配用于接收滤波源信号估计

逆离散傅立叶变换单元2612进一步被适配用于应用滤波源信号估计的每个帧到作为如下所给定的输出的分段波形滤波源信号估计

的相应逆离散傅立叶变换：

{\overset{&OverBar;}{s}}_{l} [n] = Σ_{k^{'} = 0}^{K - 1} {\overset{&OverBar;}{s}}_{l, k^{'}} e^{j 2 π k^{'} / K}

重叠相加合成单元2614与逆离散傅立叶变换单元2612协作。重叠相加合成单元2614被适配用于从逆离散傅立叶变换单元2612接收分段波形滤波源信号估计

重叠相加合成单元2614进一步被适配用于根据重叠相加合成技术利用重叠相加合成窗g_s[n]针对所有l连接或合成分段波形滤波源信号估计

以便获得如下给定的数字化波形滤波源信号估计

\overset{&OverBar;}{s} [n] = \underset{l}{Σ} g_{s} [n - n_{l}] {\overset{&OverBar;}{s}}_{l} [n - n_{l}]

图5A是图示在图3B中所示的短时傅立叶变换单元2620的配置的方框图。短时傅立叶变换单元2620可以包括开窗单元2622和离散傅立叶变换单元2624。开窗单元2622与逆长时傅立叶变换单元2610协作。开窗单元2622被适配用于从逆长时傅立叶变换单元2610接收数字化波形滤波源信号估计

开窗单元2622进一步被适配用于将分析窗函数g^(τ)[n]以窗偏移τ重复地应用于数字化波形滤波源信号估计以便产生如下给定的分段滤波源信号估计

{\overset{&OverBar;}{s}}_{l, m} [n] = g^{(r)} [n] \overset{&OverBar;}{s} [n_{l, m} + n]

其中n_l，m是时间帧所开始的样本索引。针对所有，开窗单元2622产生分段波形滤波源信号估计

离散傅立叶变换单元2624与开窗单元2622协作。离散傅立叶变换单元2624被适配用于从开窗单元2622接收分段波形滤波源信号估计

离散傅立叶变换单元2624进一步被适配用于执行分段波形滤波源信号估计

中的每一个到如下给定的变换后的滤波源信号估计

的K^(r)点离散傅立叶变换。

图5B是图示在图3A中所示的逆短时傅立叶变换单元2310的配置的方框图。逆短时傅立叶变换单元2310可以包括逆离散傅立叶变换单元2312和重叠相加合成单元2314。逆离散傅里叶变换单元2312与源信号估计和收敛检验单元2700协作。逆离散傅立叶变换单元2312被适配用于从源信号估计和收敛检验单元2700接收源信号估计

逆离散傅立叶变换单元2312进一步被适配用于将相应的逆离散傅立叶变换应用于源信号估计的每个帧并产生如下给定的分段波形源信号估计

重叠相加合成单元2314与逆离散傅立叶变换单元2312协作。重叠相加合成单元2314被适配用于从逆离散傅立叶变换单元2312接收分段波形源信号估计重叠相加合成单元2314进一步被适配用于针对所有l和m基于重叠相加合成技术利用合成窗g_s ^(r)[n]连接或合成分段波形源信号估计

以便获得如下给定的数字化波形源信号估计

\tilde{s} [n] = \underset{l, m}{Σ} {g_{s}}^{(r)} [n - n_{l, m}] {\tilde{s}}_{l, m} [n - n_{l, m}]

初始化单元1000被适配用于执行三个操作，即初始源信号估计、源信号不确定性确定和声学环境不确定性确定。如上所述，初始化单元1000被适配用于接收数字化波形观测信号x[n]并产生表示源信号不确定性的第一方差表示声学环境不确定性的第二方差

以及数字化波形初始源信号估计

详细地，初始化单元1000被适配用于执行初始源信号估计，该估计根据数字化波形观测信号x[n]产生数字化波形初始源信号估计初始化单元1000进一步被适配用于执行源信号不确定性确定，该确定根据数字化波形观测信号x[n]产生表示源信号不确定性的第一方差

初始化单元1000此外被适配用于执行声学环境不确定性确定，该确定根据数字化波形观测信号x[n]产生表示声学环境不确定性的第二方差

初始化单元1000可以包括三个功能子单元，即执行初始源信号估计的初始源信号估计单元1100、执行源信号不确定性确定的源信号不确定性确定单元1200、以及执行声学环境不确定性确定的声学环境不确定性确定单元1300。图6是图示包括在图1中所示的初始化单元1000中的初始源信号估计单元1100的配置的方框图。图7是图示包括在图1中所示的初始化单元1000中的源信号不确定性确定单元1200的配置的方框图。图8是图示包括在图1中所示的初始化单元1000中的声学环境不确定性确定单元1300的配置的方框图。

参考图6，初始源信号估计单元1100可以进一步包括短时傅立叶变换单元1110、基频估计单元120和自适应谐波滤波单元1130。短时傅立叶变换单元1110被适配用于接收数字化波形观测信号x[n]。短时傅立叶变换单元1110被适配用于执行数字化波形观测信号x[n]到作为输出的变换后的观测信号

的短时傅立叶变换。

基频估计单元1120与短时傅立叶变换单元1110协作。基频估计单元1120被适配用于从短时傅立叶变换单元1110接收变换后的观测信号

基频估计单元1120进一步被适配用于估计来自变换后的观测信号

的每个短时间帧的基频f_l，m和发声量度v_l，m。

自适应谐波滤波单元1130与短时傅立叶变换单元1110和基频估计单元1120协作。自适应谐波滤波单元1130被适配用于从短时傅立叶变换单元1110接收变换后的观测信号

自适应谐波滤波单元1130还被适配用于从基频估计单元1120接收基频f_l，m和发声量度v_l，m。自适应谐波滤波单元1130还被适配用于基于基频f_l，m和发声量度v_l，m增强

的谐波结构以便谐波结构的增强产生所得到的数字化波形初始源信号估计

作为输出。本实例的过程流程在由Tomohiro Nakatani、Masato Miyoshi和Keisuke Kinoshita在SpeechEnhancement((Benesty，J.Makino，S.，和Chen，J.Eds)，Chapter11，第247-270页，2005年春)中发表的“Single Microphone BlindDereverberation”中被详细公开。

参考图7，源信号不确定性确定单元1200可以进一步包括短时傅立叶变换单元1110、基频估计单元1120和源信号不确定性确定子单元1140。短时傅立叶变换单元1110被适配用于接收数字化波形观测信号x[n]。短时傅立叶变换单元1110被适配用于执行数字化波形观测信号x[n]到作为输出的变换后的观测信号

的短时傅立叶变换。

的每个短时间帧的基频f_l，m和发声量度v_l，m。

源信号不确定性确定子单元1140与基频估计单元1120协作。源信号不确定性确定子单元1140被适配用于从基频估计单元1120接收基频f_l，m和发声量度v_l，m。源信号不确定性确定子单元1140进一步被适配用于根据基频f_l，m和发声量度v_l，m确定表示源信号不确定性的第一方差

如下给定表示源信号不确定性的第一方差

其中G{u}是被定义为例如具有某些正的常量“a”和“b”的G{u}＝e^-a(u-h)的归一化函数，并且谐波频率意味着用于基频及其倍数之一的频率索引。

参考图8，声学环境不确定性确定单元1300可以包括声学环境不确定性确定子单元1150。声学环境不确定性确定子单元1150被适配用于接收数字化波形观测信号x[n]。声学环境不确定性确定子单元1150进一步被适配用于产生表示声学环境不确定性的第二方差

在一种典型情况下，对于所有l和k′来说，第二方差

能够是常量，即如在图8中所示，σ_l，k′＝1。

所述混响信号能够通过修改的包括执行反馈过程的反馈回路的语音去混响设备20000更有效地去混响。根据反馈过程的流程，通过利用反馈回路迭代相同的处理流程，能够提高源信号估计

的质量。尽管只有数字化波形观测信号x[n]在初始步骤中被用作流程的输入，但是已经被包含在前一步骤中的源信号估计

也在随后的步骤中被用作输入。更优选的是使用源信号估计

而不是使用观测信号x[n]来对源概率密度函数(源pdf)的参数

和

进行估计。

第二实施例：

图9是图示根据本发明的第二实施例进一步包括反馈回路的另一语音去混响设备的配置的方框图。修改的语音去混响设备20000可以包括初始化单元1000、似然最大化单元2000、收敛检验单元3000、和逆短时傅立叶变换单元4000。初始化单元1000、似然最大化单元2000和逆短时傅立叶变换单元4000的配置和操作如上所述。在本实施例中，在似然最大化单元2000和逆短时傅立叶变换单元4000之间附加地引入收敛检验单元3000以便收敛检验单元3000检验已经从似然最大化单元2000输出的源信号估计

的收敛。如果收敛检验单元3000识别出已经获得源信号估计

的收敛，那么收敛检验单元3000发送源信号估计

给逆短时傅立叶变换单元4000。如果收敛检验单元3000识别出还未获得源信号估计

的收敛，那么收敛检验单元3000发送源信号估计

给初始化单元1000。以下描述将聚焦于第二实施例与第一实施例的差异。

收敛检验单元3000与初始化单元1000和似然最大化单元2000协作。收敛检验单元3000被适配用于从似然最大化单元2000接收源信号估计收敛检验单元3000进一步被适配用于例如通过验证是否源信号估计

的当前更新的值偏离源信号估计

的前一值小于一定的预定量来确定迭代过程的收敛状态。如果收敛检验单元3000确认源信号估计

的当前更新的值偏离源信号估计

的前一值小于一定的预定量，那么收敛检验单元3000识别出已经获得源信号估计

的收敛。如果收敛检验单元3000确认源信号估计

的当前更新的值不偏离源信号估计

的前一值小于一定的预定量，那么收敛检验单元3000识别出还未获得源信号估计

的收敛。

作为修改有可能的是当反馈或迭代次数达到一定的预定值时终止所述反馈过程。当收敛检验单元3000已经确认源信号估计

的收敛已经被获得时，那么收敛检验单元3000发送源信号估计

给逆短时傅立叶变换单元4000。如果收敛检验单元3000已经确认还未获得源信号估计的收敛，那么收敛检验单元3000将源信号估计

作为输出提供给初始化单元1000以执行上述迭代的进一步的步骤。

收敛检验单元3000提供反馈回路给初始化单元1000。即，初始化单元1000与收敛检验单元1000协作。因此，初始化单元1000需要适配于反馈回路。根据第一实施例，初始化单元1000包括初始源信号估计单元1100、源信号不确定性确定单元1200、和声学环境不确定性确定单元1300。根据第二实施例，修改的初始化单元1000包括修改的初始源信号估计单元1400、修改的源信号不确定性确定单元1500、和声学环境不确定性确定单元1300。以下描述将聚焦于修改的初始源信号估计单元1400、和修改的源信号不确定性确定单元1500。

图10是图示包括在图9中所示的初始化单元1000中的修改的初始源信号估计单元1400的配置的方框图。修改的初始源信号估计单元1400可以进一步包括短时傅立叶变换单元1110、基频估计单元1120、自适应谐波滤波单元1130、和信号切换单元1160。信号切换单元1160的增加能够提高数字化波形初始源信号估计的精度。

短时傅立叶变换单元1110被适配用于接收数字化波形观测信号x[n]。短时傅立叶变换单元1110被适配用于执行数字化波形观测信号x[n]到作为输出的变换后的观测信号

的短时傅立叶变换。信号切换单元1160与短时傅立叶变换单元1110和收敛检验单元3000协作。信号切换单元1160被适配用于从短时傅立叶变换单元1110接收变换后的观测信号

信号切换单元1160被适配用于从收敛检验单元3000接收源信号估计

信号切换单元1160被适配用于执行第一选择操作以产生第一输出。信号切换单元1160还被适配用于执行第二选择操作以产生第二输出。第一和第二选择操作是相互独立的。第一选择操作是用于选择变换后的观测信号

和源信号估计

之一。在一种情况下，第一选择操作可以用于在除了一个或多个限制步骤之外的迭代的所有步骤中选择变换后的观测信号

例如，第一选择操作可以是用于在除了迭代的最后一个或两个步骤之外的迭代的所有步骤中选择变换后的观测信号

以及仅仅在最后一个或两个步骤中选择源信号估计在一种情况下，第二选择操作可以是用于在除初始步骤之外的迭代的所有步骤中选择源信号估计

在迭代的初始步骤中，信号切换单元1160仅接收变换后的观测信号

并选择变换后的观测信号

更优选的是就基频f_l，m和发声量度v_l，m两者的估计而言使用源信号估计

而不使用变换后的观测信号

信号切换单元1160执行第一选择操作并产生第一输出。信号切换单元1160执行第二选择操作并产生第二输出。

基频估计单元1120与信号切换单元1160协作。基频估计单元1120被适配用于从信号切换单元1160接收第二输出。即，基频估计单元1120被适配用于在迭代的初始或第一步骤中从信号切换单元1160接收变换后的观测信号

以及在迭代的第二或随后步骤中从信号切换单元1160接收源信号估计

基频估计单元1120进一步被适配用于基于变换后的观测信号

或源信号估计

估计每个短时间帧的基频f_l，m及其发声量度v_l，m。

自适应谐波滤波单元1130与信号切换单元1160和基频估计单元1120协作。自适应谐波滤波单元1130被适配用于从信号切换单元1160接收第一输出以及还从基频估计单元1120接收基频f_l，m和发声量度v_l，m。即，自适应谐波滤波单元1130被适配用于在除迭代的最后一个或两个步骤之外的迭代的所有步骤中从信号切换单元1160接收变换后的观测信号自适应谐波滤波单元1130还被适配用于在迭代的最后一个或两个步骤中从信号切换单元1160接收源信号估计

自适应谐波滤波单元1130还被适配用于在迭代的所有步骤中从基频估计单元1120接收基频f_l，m和发声量度v_l，m。自适应谐波滤波单元1130还被适配用于基于基频f_l，m和发声量度v_l，m增强观测信号

或源信号估计的谐波结构。增强操作产生估计精度被提高的数字化波形初始源信号估计

如上所述，更优选的是就基频f_l，m和发声量度v_l，m两者的估计而言基频估计单元1120使用源信号估计

而不是使用观测信号

因此在迭代的第二或随后步骤中提供源信号估计而不是观测信号

给基频估计单元1120能够改善数字化波形初始源信号估计的估计。

在某些情况下，可能更适合于将自适应谐波滤波器应用于源信号估计

而不是观测信号

以便获得数字化波形初始源信号估计

的较佳估计。去混响步骤的一次迭代可能将一定的特殊失真添加到源信号估计

中以及当将自适应谐波滤波器应用于源信号估计

时，该失真被直接继承到数字化波形初始源信号估计

另外，这种失真可能通过迭代的去混响步骤被累积到源信号估计

中。为了避免失真的这种累积，有效的是信号切换单元1160被适配用于除了在迭代结束之前的最后一个步骤或最后几个步骤中之外将观测信号

提供给自适应谐波滤波单元1130，在所述迭代中使源信号估计的估计精确。

图11是图示包括在图9中所示的初始化单元1000中的修改的源信号不确定性确定单元1500的配置的方框图。修改的源信号不确定性确定单元1500可以进一步包括短时傅立叶变换单元1112、基频估计单元1122、源信号不确定性确定子单元1140和信号切换单元1162。信号切换单元1162的增加能够改善源信号不确定性

的估计。根据第二实施例，似然最大化单元2000的配置与在第一实施例中描述的配置相同。

短时傅立叶变换单元1112被适配用于接收数字化波形观测信号x[n]。短时傅立叶变换单元1112被适配用于执行数字化波形观测信号x[n]到作为输出的变换后的观测信号

的短时傅立叶变换。信号切换单元1162与短时傅立叶变换单元1110和收敛检验单元3000协作。信号切换单元1162被适配用于从短时傅立叶变换单元1110接收变换后的观测信号

信号切换单元1162被适配用于从收敛检验单元3000接收源信号估计

信号切换单元1162被适配用于执行第一选择操作以产生第一输出。第一选择操作是用于选择变换后的观测信号

和源信号估计

之一。在一种情况下，第一选择操作可以是用于在除了迭代的初始步骤之外的迭代的所有步骤中选择源信号估计

在迭代的初始步骤中，信号切换单元1162仅接收变换后的观测信号

并选择变换后的观测信号更优选的是就基频f_l，m和发声量度v_l，m两者的估计而言使用源信号估计

而不使用变换后的观测信号

基频估计单元1122与信号切换单元1162协作。基频估计单元1122被适配用于从信号切换单元1162接收第一输出。即，基频估计单元1122被适配用于在迭代的初始步骤中接收变换后的观测信号以及在除迭代的初始步骤之外的迭代的所有步骤中接收源信号估计

基频估计单元1122进一步被适配用于估计每个短时间帧的基频f_l，m及其发声量度v_l，m。参考变换后的观测信号

或源信号估计

进行所述估计。

源信号不确定性确定单元1140与基频估计单元1122协作。源信号不确定性确定单元1140被适配用于从基频估计单元1122接收基频f_l，m和发声量度v_l，m。源信号不确定性确定单元1140进一步被适配用于确定源信号不确定性

如上所述，更优选的是就基频f_l，m和发声量度v_l，m两者的估计而言使用源信号估计

而不使用观测信号

第三实施例：

图12是图示根据本发明的第三实施例基于源和室内声学的概率模型的语音去混响设备的配置的方框图。语音去混响设备30000能够通过一组功能单元来实现，这些功能单元协作用于接收观测信号x[n]的输入并产生数字化波形源信号估计

或滤波源信号估计

的输出。语音去混响设备30000能够例如通过计算机或处理器来实现。语音去混响设备30000执行语音去混响操作。语音去混响方法能够通过要由计算机执行的程序来实现。

语音去混响设备30000典型地可以包括上述初始化单元1000、上述似然最大化单元2000-1和逆滤波器应用单元5000。初始化单元1000可以被适配用于接收数字化波形观测信号x[n]。数字化波形观测信号x[n]可以包含具有未知混响程度的语音信号。通过诸如一个或多个麦克风的设备能够捕获该语音信号。初始化单元1000可以被适配用于从观测信号提取与源信号和声学环境有关的初始源信号估计和不确定性。初始化单元1000还可以被适配用于用公式表达初始源信号估计、源信号不确定性和声学环境不确定性的表示。针对所有索引l、m、k和k′，这些表示被列举为是数字化波形初始源信号估计的

是表示源信号不确定性的方差或离差的以及是表示声学环境不确定性的方差或离差的

表示源信号不确定性的方差或离差

以及表示声学环境不确定性的方差或离差

似然最大化单元2000-1可以与初始化单元1000协作。即，似然最大化单元2000-1可以被适配用于从初始化单元1000接收数字化波形初始源信号估计

源信号不确定性

和声学环境不确定性

的输入。似然最大化单元2000-1还可以被适配用于接收数字化波形观测信号x[n]的另一个输入作为观测信号。

是数字化波形初始源信号估计。

是表示源信号不确定性的第一方差。

是表示声学环境不确定性的第二方差。似然最大化单元2000-1还可以被适配用于确定最大化似然函数的逆滤波器估计

其中参考数字化波形观测信号x[n]、数字化波形初始源信号估计

表示源信号不确定性的第一方差

以及表示声学环境不确定性的第二方差进行所述确定。通常，可以基于概率密度函数定义似然函数，该概率密度函数根据第一未知参数、第二未知参数、和观测数据的第一随机变量进行评估。参考源信号估计定义所述第一未知参数。参考室内传递函数的逆滤波器定义第二未知参数。参考观测信号和初始源信号估计定义观测数据的第一随机变量。逆滤波器估计是室内传递函数的逆滤波器的估计。使用迭代优化算法来执行逆滤波器估计

的确定。

迭代优化算法可以在不使用上述期望最大化算法的情况下进行组织。例如，能够获得逆滤波器估计

和源信号估计

作为最大化如下定义的似然函数的逆滤波器估计和源信号估计：

L {w_{k^{'}} {, θ}_{k}} = p {w_{k^{'}}, z_{k}^{(r)} | θ_{k}}

= p {w_{k^{'}}, {x_{l, m, k}^{(r)}}_{k} | θ_{k}} p {{{\hat{s}}_{l, m, k}^{(r)}}_{k} | θ_{k}}, - - - (16)

能够通过紧接着的迭代算法最大化该似然函数。

第一步骤是设置初始值为

第二步骤是计算在θ_k固定的条件下最大化似然函数的逆滤波器估计

w_{k^{'}} = {\tilde{w}}_{k^{'}} .

第三步骤是计算在w_k’固定的条件下最大化似然函数的源信号估计

θ_{k} = {\tilde{θ}}_{k} .

第四步骤是重复上述第二和第三步骤，直到迭代的收敛被确认为止。

当与上述方程(8)相同的定义被用于上述似然函数中的概率密度函数(pdf)时，容易地显示出能够分别通过上述方程(12)和(15)获得上述第二步骤中的逆滤波器估计

和上述第三步骤中的源信号估计

通过检验是否逆滤波器估计的当前获得的值和逆滤波器估计

的之前获得的值之差小于预定的阈值，可以完成第四步骤中的上述收敛确认。最后，该观测信号可以通过将在上述第二步骤中获得的逆滤波器估计

应用于观测信号来去混响。

逆滤波器应用单元5000可以与似然最大化单元2000-1协作。即，逆滤波器应用单元5000可以被适配用于从似然最大化单元2000-1接收最大化似然函数(16)的逆滤波器估计

的输入。逆滤波器应用单元5000还可以被适配用于接收数字化波形观测信号x[n]。逆滤波器应用单元5000还可以被适配用于将逆滤波器估计

应用于数字化波形观测信号x[n]以便产生恢复后的数字化波形源信号估计或滤波数字化波形源信号估计

在某一情况下，逆滤波器应用单元5000可以被适配用于将长时傅立叶变换应用于数字化波形观测信号x[n]以产生变换后的观测信号x_l，k′。逆滤波器应用单元5000可以进一步被适配用于将每个帧中的变换后的观测信号x_l，k′乘以逆滤波器估计

以产生滤波源信号估计

逆滤波器应用单元5000可以进一步被适配用于将逆长时傅立叶变换应用于滤波源信号估计

以产生滤波数字化波形源信号估计

在另一情况下，逆滤波器应用单元5000可以被适配用于将逆长时傅立叶变换应用于逆滤波器估计

以产生数字化波形逆滤波器估计

逆滤波器应用单元5000可以被适配用于将数字化波形观测信号x[n]与数字化波形逆滤波器估计

进行卷积以产生恢复后的数字化波形源信号估计

似然最大化单元2000-1能够通过相互协作以确定并输出最大化所述似然函数的逆滤波器估计的一组子功能单元来实现。图13是图示在图12中所示的似然最大化单元2000-1的配置的方框图。在一种情况下，似然最大化单元2000-1可以进一步包括上述长时傅立叶变换单元2100、上述更新单元2200、上述STFS到LTFS变换单元2300、上述逆滤波器估计单元2400、上述滤波单元2500、LTFS到STFS变换单元2600、源信号估计单元2710、收敛检验单元2720、上述短时傅立叶变换单元2800、以及上述长时傅立叶变换单元2900。这些单元协作以继续执行迭代操作，直到最大化似然函数的逆滤波器估计已经被确定为止。

长时傅立叶变换单元2100被适配用于从初始化单元1000接收数字化波形观测信号x[n]作为观测信号。长时傅立叶变换单元2100还被适配用于执行数字化波形观测信号x[n]到作为长期傅立叶频谱(LTFS)的变换后的观测信号x_l，k′的长时傅立叶变换。

短时傅立叶变换单元2800被适配用于从初始化单元1000接收数字化波形初始源信号估计

到初始源信号估计

的短时傅立叶变换。

长时傅立叶变换单元2900被适配用于从初始化单元1000接收数字化波形初始源信号估计

长时傅立叶变换单元2900被适配用于执行数字化波形初始源信号估计

到初始源信号估计

的长时傅立叶变换。

更新单元2200与长时傅立叶变换单元2900和STFS到LTFS变换单元2300协作。更新单元2200被适配用于在迭代的初始步骤中从长时傅立叶变换单元2900接收初始源信号估计

以及进一步被适配用于用源信号估计θ_k′代替

更新单元2200此外被适配用于发送更新的源信号估计θ_k′给逆滤波器估计单元2400。更新单元2200还被适配用于在迭代的随后步骤中从STFS到LTFS变换单元2300接收源信号估计

以及用源信号估计θ_k′代替

更新单元2200还被适配用于发送更新的源信号估计θ_k′给逆滤波器估计单元2400。

逆滤波器估计单元2400还被适配用于根据上述方程(12)基于观测信号x_l，k′、更新的源信号估计θ_k′、和表示声学环境不确定性的第二方差

计算逆滤波器估计

逆滤波器估计单元2400进一步被适配用于输出逆滤波器估计

收敛检验单元2720与逆滤波器估计单元2400协作。收敛检验单元2720被适配用于从逆滤波器估计单元2400接收逆滤波器估计

收敛检验单元2720被适配用于例如通过比较当前已经被估计的逆滤波器估计的当前值与之前已经被估计的逆滤波器估计

的前一值以及检验是否所述当前值偏离前一值小于一定的预定量来确定迭代过程的收敛状态。如果收敛检验单元2720确认逆滤波器估计

的当前值偏离其前一值小于一定的预定量，那么收敛检验单元2720识别出已经获得逆滤波器估计的收敛。如果收敛检验单元2720确认逆滤波器估计

的当前值偏离其前一值不小于一定的预定量，那么收敛检验单元2720识别出还未获得逆滤波器估计

的收敛。

作为修改有可能的是当迭代次数达到一定的预定值时终止所述迭代过程。即，收敛检验单元2720已经确认迭代次数达到一定的预定值，那么收敛检验单元2720识别出已经获得逆滤波器估计

的收敛。如果收敛检验单元2720已经确认已经获得逆滤波器估计

的收敛，那么收敛检验单元2720将逆滤波器估计作为第一输出提供给逆滤波器应用单元5000。如果收敛检验单元2720已经确定还未获得逆滤波器估计

的收敛，那么收敛检验单元2720将逆滤波器估计

作为第二输出提供给滤波单元2500。

滤波单元2500与长时傅立叶变换单元2100和收敛检验单元2720协作。滤波单元2500被适配用于从长时傅立叶变换单元2100接收观测信号x_l，k′。滤波单元2500还被适配用于从收敛检验单元2720接收逆滤波器估计

滤波单元2500还被适配用于将观测信号x_l，k′应用于逆滤波器估计以产生滤波源信号估计

用于将观测信号x_l，k′应用于逆滤波器估计的滤波过程的典型实例可以包括但不限于计算观测信号x_l，k’和逆滤波器估计

的乘积

在这种情况下，通过观测信号x_l，k’和逆滤波器估计的乘积

来给定滤波源信号估计

LTFS到STFS变换单元2600进一步被适配用于执行滤波源信号估计

到变换后的滤波源信号估计

的LTFS到STFS变换。当滤波过程是计算观测信号x_l，k′和逆滤波器估计

的乘积

时，LTFS到STFS变换单元2600进一步被适配用于执行乘积

到变换后的信号

的LTFS到STFS变换。在这种情况下，乘积

表示滤波源信号估计

以及变换后的信号表示变换后的滤波源信号估计

源信号估计单元2710与LTFS到STFS变换单元2600、短时傅立叶变换单元2800、以及初始化单元1000协作。源信号估计单元2710被适配用于从LTFS到STFS变换单元2600接收变换后的滤波源信号估计

源信号估计单元2710还被适配用于从初始化单元1000接收表示源信号不确定性的第一方差

以及表示声学环境不确定性的第二方差

源信号估计单元2710还被适配用于从短时傅立叶变换单元2800接收初始源信号估计

源信号估计单元2710还被适配用于基于变换后的滤波源信号估计

表示源信号不确定性的第一方差

表示声学环境不确定性的第二方差

以及初始源信号估计

估计源信号

其中根据上述方程(15)进行所述估计。

STFS到LTFS变换单元2300与源信号估计单元2710协作。STFS到LTFS变换单元2300被适配用于从源信号估计单元2710接收源信号估计

STFS到LTFS变换单元2300被适配用于执行源信号估计

到变换后的源信号估计

的STFS到LTFS变换。

在迭代操作的随后步骤中，更新单元2200从STFS到LTFS变换单元2300接收源信号估计

并且用源信号估计θ_k’代替

以及发送更新的源信号估计θ_k′给逆滤波器估计单元2400。在迭代的初始步骤中，更新的源信号估计θ_k′是从长时傅立叶变换单元2900提供的

在迭代的第二或随后步骤中，更新的源信号估计θ_k′是

将参考图13描述似然最大化单元2000-1的操作。

在迭代的初始步骤中，提供数字化波形观测信号x[n]给长时傅立叶变换单元2100。长时傅立叶变换单元2100执行长时傅立叶变换以便将数字化波形观测信号x[n]变换成变换后的观测信号x_l，k′作为长期傅立叶频谱(LTFS)。将数字化波形初始源信号估计

从初始化单元1000提供给短时傅立叶变换单元2800和长时傅立叶变换单元2900。短时傅立叶变换单元2800执行短时傅立叶变换以便将数字化波形初始源信号估计

变换成初始源信号估计

长时傅立叶变换单元2900执行长时傅立叶变换以便将数字化波形初始源信号估计

变换成初始源信号估计

从长时傅立叶变换单元2900提供初始源信号估计

给更新单元2200。更新单元2200用源信号估计θ_k′代替初始源信号估计

然后将初始源信号估计从更新单元2200提供给逆滤波器估计单元2400。从长时傅立叶变换单元2100提供观测信号x_l，k′给逆滤波器估计单元2400。从初始化单元1000提供表示声学环境不确定性的第二方差

给逆滤波器估计单元2400。逆滤波器估计单元2400基于观测信号x_l，k′、初始源信号估计θ_k′、和表示声学环境不确定性的第二方差

计算逆滤波器估计其中根据上述方程(12)进行所述计算。

从逆滤波器估计单元2400提供逆滤波器估计

给收敛检验单元2720。收敛检验单元2720进行迭代过程的收敛状态的确定。例如，通过比较当前已经被估计的逆滤波器估计

的当前值与之前已经被估计的逆滤波器估计

的前一值来进行所述确定。收敛检验单元2720检验是否当前值偏离前一值小于一定的预定量。如果收敛检验单元2720确认逆滤波器估计

的当前值偏离其前一值小于一定的预定量，那么收敛检验单元2720识别出已经获得逆滤波器估计

的收敛。如果收敛检验单元2720确认逆滤波器估计

的收敛。

如果已经获得逆滤波器估计

的收敛，那么从收敛检验单元2720提供逆滤波器估计

给逆滤波器应用单元5000。如果还未获得逆滤波器估计

的收敛，那么从收敛检验单元2720提供逆滤波器估计

给滤波单元2500。观测信号x_l，k’进一步从长时傅立叶变换单元2100被提供给滤波单元2500。滤波单元2500将逆滤波器估计

应用于观测信号x_l，k’以产生滤波源信号估计

用于将观测信号x_l，k′应用于逆滤波器估计

的滤波过程的典型实例可以是计算观测信号x_l，k’和逆滤波器估计的乘积

在这种情况下，通过观测信号x_l，k′和逆滤波器估计

的乘积

来给定滤波源信号估计

从滤波单元2500提供滤波源信号估计

给LTFS到STFS变换单元2600。LTFS到STFS变换单元2600执行LTFS到STFS变换以便将滤波源信号估计

变换成变换后的滤波源信号估计

当所述滤波过程是计算观测信号x_l，k′和逆滤波器估计

的乘积

时，该乘积被变换成变换后的信号

从LTFS到STFS变换单元2600提供变换后的滤波源信号估计

给源信号估计单元2710。从初始化单元1000提供表示源信号不确定性的第一方差

和表示声学环境不确定性的第二方差

给源信号估计单元2710。从短时傅立叶变换单元2800提供初始源信号估计

给源信号估计单元2710。源信号估计单元2710基于变换后的滤波源信号估计

表示源信号不确定性的第一方差和表示声学环境不确定性的第二方差

以及初始源信号估计

计算源信号估计

其中根据上述方程(15)进行所述估计。

从源信号估计单元2710提供源信号估计

给STFS到LTFS变换单元2300以便将源信号估计

变换成变换后的源信号估计

从STFS到LTFS变换单元2300提供所述变换后的源信号估计

给更新单元2200。更新单元2200用源信号估计θ_k′代替变换后的源信号估计

在迭代的第二或随后步骤中，从更新单元2200提供源信号估计

给逆滤波器估计单元2400。还将观测信号x_l，k’从长时傅立叶变换单元2100提供给逆滤波器估计单元2400。从初始化单元1000提供表示声学环境不确定性的第二方差

给逆滤波器估计单元2400。逆滤波器估计单元2400基于观测信号x_l，k′、更新的源信号估计

和表示声学环境不确定性的第二方差

计算更新的逆滤波器估计

其中根据上述方程(12)进行所述计算。

从逆滤波器估计单元2400提供更新的逆滤波器估计

给收敛检验单元2720。收敛检验单元2720进行对迭代过程的收敛状态的确定。

上述迭代过程将被继续，直到收敛检验单元2720已经确认逆滤波器估计

的收敛已经被获得为止。

图14是图示在图12中所示的逆滤波器应用单元5000的配置的方框图。逆滤波器应用单元5000的典型实例可以包括但不限于逆长时傅立叶变换单元5100和卷积单元5200。逆长时傅立叶变换单元5100与似然最大化单元2000-1协作。逆长时傅立叶变换单元5100被适配用于从似然最大化单元2000-1接收逆滤波器估计长时傅立叶变换单元5100进一步被适配用于执行逆滤波器估计到数字化波形逆滤波器估计的逆长时傅立叶变换。

卷积单元5200与逆长时傅立叶变换单元5100协作。卷积单元5200被适配用于从逆长时傅立叶变换单元5100接收数字化波形逆滤波器估计

卷积单元5200还被适配用于接收数字化波形观测信号x[n]。卷积单元5200还被适配用于执行卷积过程以将数字化波形观测信号x[n]与数字化波形逆滤波器估计

进行卷积以产生恢复后的数字化波形源信号估计作为去混响的信号。

图15是图示在图12中所示的逆滤波器应用单元5000的配置的方框图。逆滤波器应用单元5000的典型实例可以包括但不限于长时傅立叶变换单元5300、滤波单元5400、以及逆长时傅立叶变换单元5500。长时傅立叶变换单元5300被适配用于接收数字化波形观测信号x[n]。长时傅立叶变换单元5300被适配用于执行数字化波形观测信号x[n]到变换后的观测信号x_l，k’长时傅立叶变换。

滤波单元5400与长时傅立叶变换单元5300和似然最大化单元2000-1协作。滤波单元5400被适配用于从长时傅立叶变换单元5300接收变换后的观测信号x_l，k′。滤波单元5400还被适配用于从似然最大化单元2000-1接收逆滤波器估计

滤波单元5400进一步被适配用于将逆滤波器估计

应用于变换后的观测信号x_l，k′以产生滤波源信号估计

将逆滤波器估计应用于变换后的观测信号x_l，k可以通过将每个帧中的变换后的观测信号x_l，k′乘以逆滤波器估计

来进行。

逆长时傅立叶变换单元5500与滤波单元5400协作。逆长时傅立叶变换单元5500被适配用于从滤波单元5400接收滤波源信号估计

逆长时傅立叶变换单元5500被适配用于执行滤波源信号估计

到作为去混响的信号的滤波数字化波形源信号估计

的逆长时傅立叶变换。

试验：

借助于确认本方法的性能执行了简单的试验。如由TomohiroNakatani和Masato Miyoshi的“Blind dereverberation of singlechannel speech signal based on harmonic struture”(Proc.ICASSP-2003，vol.1，第92-95页，2003年4月)详细公开的，以0.1秒、0.2秒、0.5秒、和1.0秒的RT60时间采用了单词话语(wordutterances)的相同的源信号以及相同的脉冲响应。通过将源信号与脉冲响应进行卷积来合成观测信号。准备了与用于HERB和SBD相同的两种类型的初始源信号估计，即

和

其中H{·}和N{·}分别是用于HERB的谐波滤波器和用于SBD的噪声减小滤波器。相对于发声量度v_l，m确定源信号不确定性，其中该发声量度和HERB一起被用于判定观测信号的每个短时间帧的语音状态。根据该量度，当对于固定的阈值δ，v_l，m＞δ时，帧被确定为有声(voiced)。特别是，

在试验中被确定为：

其中G{u}是被定义成G{u}＝e^-160(u-0.95)的非线性归一化函数。另一方面，

被设置成常量值1。结果，当G{u}中的u从0移动到1时，上述方程(15)中的

的权重变成从0到1变化的S形函数。对于每个试验，EM步骤被迭代了四次。另外，还引入了具有反馈回路的重复估计方案。采用对应于42ms的K^(r)＝504、对应于10.9s的K＝130800、对应于1ms的τ＝12、以及12kHz采样频率作为分析条件。

能量衰减曲线：

图12A到12H显示使用女人和男人所说的100单词观测信号在利用和不利用EM算法的情况下室内脉冲响应和通过HERB和SBD去混响的脉冲响应的能量衰减曲线。图12A图示当女人说话时在RT60＝1.0秒的能量衰减曲线。图12B图示当女人说话时在RT60＝0.5秒的能量衰减曲线。图12C图示当女人说话时在RT60＝0.2秒的能量衰减曲线。图12D图示当女人说话时在RT60＝0.1秒的能量衰减曲线。图12E图示当男人说话时在RT60＝1.0秒的能量衰减曲线。图12F图示当男人说话时在RT60＝0.5秒的能量衰减曲线。图12G图示当男人说话时在RT60＝0.2秒的能量衰减曲线。图12H图示当男人说话时在RT60＝0.1秒的能量衰减曲线。图12A到12H清楚地表明EM算法能够利用HERB和SBD有效地减小混响能量。

相应地，如上所述，本发明的一个方面针对新的去混响方法，其中源信号和室内声学的特征借助高斯概率密度函数(pdf)来表示，以及源信号被估计为最大化基于这些概率密度函数(pdf)所定义的似然函数的信号。迭代优化算法被用于有效地解决这种优化问题。试验结果显示出就去混响脉冲响应的能量衰减曲线而言，本方法能够大大地提高基于语音信号特征的两种去混响方法、即HERB和SBD的性能。由于HERB和SBD在提高在混响环境中捕获的语音信号的ASR性能方面是有效的，所以本方法能够利用较少的观测信号提高性能。

尽管以上已经描述和图示了本发明的优选实施例，但是应该理解这些优选实施例是本发明的示例并且不应被认为是限制性的。在不背离本发明的精神或范围的情况下能够进行添加、省略、替换、和其他修改。因此，本发明不应该被认为是受上述描述限制，而是仅仅受所附的权利要求书的范围限制。

Claims

1.一种语音去混响设备，包括：

确定最大化似然函数的源信号估计的似然最大化单元，其中参考观测信号、初始源信号估计、表示源信号不确定性的第一方差、和表示声学环境不确定性的第二方差进行所述确定，其中，所述表示源信号不确定性的第一方差是在给定源信号的情况下初始源信号估计的概率密度函数的方差以及所述表示声学环境不确定性的第二方差是在给定源信号的情况下观测信号和室内传递函数的逆滤波器的联合概率密度函数的方差，以及

其中，所述似然函数基于根据未知参数、丢失数据的第一随机变量、和观测数据的第二随机变量所评估的概率密度函数被定义，其中参考源信号估计来定义所述未知参数，丢失数据的第一随机变量表示室内传递函数的逆滤波器，以及参考观测信号和初始源信号估计来定义观测数据的第二随机变量。

2.根据权利要求1所述的语音去混响设备，其中所述似然最大化单元使用迭代优化算法来确定源信号估计。

3.根据权利要求2所述的语音去混响设备，其中所述迭代优化算法是期望最大化算法。

4.根据权利要求1所述的语音去混响设备，其中所述似然最大化单元进一步包括：

逆滤波器估计单元，其参考初始源信号估计和更新的源信号估计之一、观测信号以及第二方差来计算逆滤波器估计；

滤波单元，其将逆滤波器估计应用于观测信号并产生滤波信号；

源信号估计和收敛检验单元，其参考初始源信号估计、第一方差、第二方差、和滤波信号来计算源信号估计，所述源信号估计和收敛检验单元进一步确定是否源信号估计的收敛被获得，如果源信号估计的收敛被获得，所述源信号估计和收敛检验单元进一步输出源信号估计作为去混响的信号；以及

更新单元，其将所述源信号估计更新为更新的源信号估计，如果源信号估计的收敛未被获得，所述更新单元则进一步提供更新的源信号估计给逆滤波器估计单元，以及所述更新单元在初始更新步骤中进一步提供所述初始源信号估计给逆滤波器估计单元。

5.根据权利要求4所述的语音去混响设备，其中所述似然最大化单元进一步包括：

第一长时傅立叶变换单元，其执行波形观测信号到变换后的观测信号的第一长时傅立叶变换，该第一长时傅立叶变换单元进一步将变换后的观测信号作为观测信号提供给逆滤波器估计单元和滤波单元；

LTFS到STFS变换单元，其执行滤波信号到变换后的滤波信号的LTFS到STFS变换，该LTFS到STFS变换单元进一步将变换后的滤波信号作为滤波信号提供给源信号估计和收敛检验单元；

STFS到LTFS变换单元，其执行源信号估计到变换后的源信号估计的STFS到LTFS变换，如果源信号估计的收敛未被获得，该STFS到LTFS变换单元进一步将变换后的源信号估计作为源信号估计提供给更新单元；

第二长时傅立叶变换单元，其执行波形初始源信号估计到第一变换初始源信号估计的第二长时傅立叶变换，该第二长时傅立叶变换单元进一步将第一变换初始源信号估计作为初始源信号估计提供给更新单元；以及

短时傅立叶变换单元，其执行波形初始源信号估计到第二变换初始源信号估计的短时傅立叶变换，该短时傅立叶变换单元进一步将第二变换初始源信号估计作为初始源信号估计提供给源信号估计和收敛检验单元。

6.根据权利要求1所述的语音去混响设备，进一步包括：

执行源信号估计到波形源信号估计的逆短时傅立叶变换的逆短时傅立叶变换单元。

7.根据权利要求1所述的语音去混响设备，进一步包括：

基于观测信号产生初始源信号估计、第一方差、和第二方差的初始化单元。

8.根据权利要求7所述的语音去混响设备，其中所述初始化单元进一步包括：

基频估计单元，其估计来自变换后的信号的每个短时间帧的基频和发声量度，其中通过观测信号的短时傅立叶变换来给定所述变换后的信号；以及

源信号不确定性确定单元，其基于所述基频和发声量度确定第一方差。

9.根据权利要求1所述的语音去混响设备，进一步包括：

初始化单元，其基于观测信号产生初始源信号估计、第一方差、和第二方差；和

收敛检验单元，其从似然最大化单元接收源信号估计，该收敛检验单元确定是否源信号估计的收敛被获得，如果获得源信号估计的收敛，则所述收敛检验单元进一步输出源信号估计作为去混响的信号，并且如果未获得源信号估计的收敛，则所述收敛检验单元进一步提供源信号估计给初始化单元以使初始化单元能够基于该源信号估计产生初始源信号估计、第一方差、和第二方差。

10.根据权利要求9所述的语音去混响设备，其中所述初始化单元进一步包括：

第二短时傅立叶变换单元，其执行观测信号到第一变换观测信号的第二短时傅立叶变换；

第一选择单元，其执行第一选择操作以产生第一选择输出以及第二选择操作以产生第二选择输出，第一和第二选择操作是相互独立的，当所述第一选择单元接收第一变换观测信号的输入而不接收源信号估计的任何输入时，第一选择操作用于选择第一变换观测信号作为第一选择输出，而当所述第一选择单元接收第一变换观测信号和源信号估计的输入时，第一选择操作用于选择第一变换观测信号和源信号估计之一作为第一选择输出，当所述第一选择单元接收第一变换观测信号的输入而不接收源信号估计的任何输入时，第二选择操作用于选择第一变换观测信号作为第二选择输出，而当所述第一选择单元接收第一变换观测信号和源信号估计的输入时，第二选择操作用于选择第一变换观测信号和源信号估计之一作为第二选择输出；

基频估计单元，其接收第二选择输出并估计来自第二选择输出的每个短时间帧的基频和发声量度；以及

自适应谐波滤波单元，其接收第一选择输出、基频和发声量度，该自适应谐波滤波单元基于基频和发声量度增强第一选择输出的谐波结构以产生初始源信号估计。

11.根据权利要求9所述的语音去混响设备，其中所述初始化单元进一步包括：

第三短时傅立叶变换单元，其执行观测信号到第二变换观测信号的第三短时傅立叶变换；

第二选择单元，其执行第三选择操作以产生第三选择输出，当所述第二选择单元接收第二变换观测信号的输入而不接收源信号估计的任何输入时，第三选择操作用于选择第二变换观测信号作为第三选择输出，而当所述第二选择单元接收第二变换观测信号和源信号估计的输入时，第三选择操作用于选择第二变换观测信号和源信号估计之一作为第三选择输出；

基频估计单元，其接收第三选择输出并估计来自第三选择输出的每个短时间帧的基频和发声量度；以及

源信号不确定性确定单元，其基于基频和发声量度确定第一方差。

12.根据权利要求9所述的语音去混响设备，进一步包括：

逆短时傅立叶变换单元，如果获得源信号估计的收敛，则所述逆短时傅立叶变换单元执行源信号估计到波形源信号估计的逆短时傅立叶变换。

13.一种语音去混响设备，包括：

确定最大化似然函数的逆滤波器估计的似然最大化单元，其中参考观测信号、初始源信号估计、表示源信号不确定性的第一方差、和表示声学环境不确定性的第二方差进行所述确定，其中，所述表示源信号不确定性的第一方差是在给定源信号的情况下初始源信号估计的概率密度函数的方差以及所述表示声学环境不确定性的第二方差是在给定源信号的情况下观测信号和室内传递函数的逆滤波器的联合概率密度函数的方差，以及

其中，所述似然函数基于根据第一未知参数、第二未知参数、以及观测数据的第一随机变量所评估的概率密度函数被定义，其中参考源信号估计来定义第一未知参数，参考室内传递函数的逆滤波器来定义第二未知参数，参考观测信号和初始源信号估计来定义观测数据的第一随机变量，逆滤波器估计是室内传递函数的逆滤波器的估计。

14.根据权利要求13所述的语音去混响设备，其中所述似然最大化单元使用迭代优化算法来确定逆滤波器估计。

15.根据权利要求13所述的语音去混响设备，进一步包括：

将逆滤波器估计应用于观测信号并产生源信号估计的逆滤波器应用单元。

16.根据权利要求15所述的语音去混响设备，其中所述逆滤波器应用单元进一步包括：

第一逆长时傅立叶变换单元，其执行逆滤波器估计到变换后的逆滤波器估计的第一逆长时傅立叶变换；以及

卷积单元，其接收变换后的逆滤波器估计和观测信号，以及将观测信号与变换后的逆滤波器估计进行卷积以产生源信号估计。

17.根据权利要求15所述的语音去混响设备，其中所述逆滤波器应用单元进一步包括：

第一长时傅立叶变换单元，其执行观测信号到变换后的观测信号的第一长时傅立叶变换；

第一滤波单元，其将逆滤波器估计应用于变换后的观测信号，以及产生滤波源信号估计；和

第二逆长时傅立叶变换单元，其执行滤波源信号估计到源信号估计的第二逆长时傅立叶变换。

18.根据权利要求13所述的语音去混响设备，其中所述似然最大化单元进一步包括：

逆滤波器估计单元，其参考初始源信号估计和更新的源信号估计之一、观测信号以及第二方差计算逆滤波器估计；

收敛检验单元，其确定是否逆滤波器估计的收敛被获得，如果获得逆滤波器估计的收敛，该收敛检验单元进一步输出逆滤波器估计作为将要对所述观测信号进行去混响的滤波器，

滤波单元，如果未获得逆滤波器估计的收敛，该滤波单元从所述收敛检验单元接收逆滤波器估计，该滤波单元进一步将逆滤波器估计应用于观测信号并产生滤波信号；

源信号估计单元，其参考初始源信号估计、第一方差、第二方差、和滤波信号计算源信号估计；

更新单元，其将源信号估计更新为更新的源信号估计，该更新单元进一步在初始更新步骤中提供初始源信号估计给逆滤波器估计单元，该更新单元进一步在除初始更新步骤之外的更新步骤中提供更新的源信号估计给逆滤波器估计单元。

19.根据权利要求18所述的语音去混响设备，其中所述似然最大化单元进一步包括：

第二长时傅立叶变换单元，其执行波形观测信号到变换后的观测信号的第二长时傅立叶变换，该第二长时傅立叶变换单元进一步将变换后的观测信号作为观测信号提供给逆滤波器估计单元和滤波单元；

LTFS到STFS变换单元，其执行滤波信号到变换后的滤波信号的LTFS到STFS变换，该LTFS到STFS变换单元进一步将变换后的滤波信号作为滤波信号提供给源信号估计单元；

STFS到LTFS变换单元，其执行源信号估计到变换后的源信号估计的STFS到LTFS变换，该STFS到LTFS变换单元进一步将变换后的源信号估计作为源信号估计提供给更新单元；

第三长时傅立叶变换单元，其执行波形初始源信号估计到第一变换初始源信号估计的第三长时傅立叶变换，该第三长时傅立叶变换单元进一步将第一变换初始源信号估计作为初始源信号估计提供给更新单元；以及

短时傅立叶变换单元，其执行波形初始源信号估计到第二变换初始源信号估计的短时傅立叶变换，该短时傅立叶变换单元进一步将第二变换初始源信号估计作为初始源信号估计提供给源信号估计单元。

20.根据权利要求13所述的语音去混响设备，进一步包括：

21.根据权利要求20所述的语音去混响设备，其中所述初始化单元进一步包括：

22.一种语音去混响方法，包括：

确定最大化似然函数的源信号估计，其中参考观测信号、初始源信号估计、表示源信号不确定性的第一方差、和表示声学环境不确定性的第二方差进行所述确定，其中，所述表示源信号不确定性的第一方差是在给定源信号的情况下初始源信号估计的概率密度函数的方差以及所述表示声学环境不确定性的第二方差是在给定源信号的情况下观测信号和室内传递函数的逆滤波器的联合概率密度函数的方差，以及

其中，所述似然函数基于根据未知参数、丢失数据的第一随机变量、和观测数据的第二随机变量所评估的概率密度函数被定义，其中参考源信号估计来定义未知参数，丢失数据的第一随机变量表示室内传递函数的逆滤波器，参考观测信号和初始源信号估计来定义观测数据的第二随机变量。

23.根据权利要求22所述的语音去混响方法，其中使用迭代优化算法来确定源信号估计。

24.根据权利要求23所述的语音去混响方法，其中所述迭代优化算法是期望最大化算法。

25.根据权利要求22所述的语音去混响方法，其中确定源信号估计进一步包括：

参考初始源信号估计和更新的源信号估计之一、观测信号以及第二方差计算逆滤波器估计；

将逆滤波器估计应用于观测信号，以产生滤波信号；

参考初始源信号估计、第一方差、第二方差、和滤波信号计算源信号估计；

确定是否源信号估计的收敛被获得；

如果获得源信号估计的收敛，则输出源信号估计作为去混响的信号；以及

如果未获得源信号估计的收敛，则将源信号估计更新为更新的源信号估计。

26.根据权利要求25所述的语音去混响方法，其中确定源信号估计进一步包括：

执行波形观测信号到变换后的观测信号的第一长时傅立叶变换，并进一步将变换后的观测信号作为观测信号提供以计算逆滤波器估计和产生滤波信号；

执行滤波信号到变换后的滤波信号的LTFS到STFS变换，并且进一步将变换后的滤波信号作为滤波信号提供以计算源信号估计和确定是否源信号估计的收敛被获得；

如果未获得源信号估计的收敛，执行源信号估计到变换后的源信号估计的STFS到LTFS变换并进一步将变换后的源信号估计作为源信号估计提供以将源信号估计更新为更新的源信号估计；

执行波形初始源信号估计到第一变换初始源信号估计的第二长时傅立叶变换，并进一步将第一变换初始源信号估计作为初始源信号估计提供以在初始更新步骤中被提供用于计算逆滤波器估计；以及

执行波形初始源信号估计到第二变换初始源信号估计的短时傅立叶变换，并进一步将第二变换初始源信号估计作为初始源信号估计提供以计算源信号估计和确定是否源信号估计的收敛被获得。

27.根据权利要求22所述的语音去混响方法，进一步包括：

执行源信号估计到波形源信号估计的逆短时傅立叶变换。

28.根据权利要求22所述的语音去混响方法，进一步包括：

基于观测信号产生初始源信号估计、第一方差、和第二方差。

29.根据权利要求28所述的语音去混响方法，其中产生初始源信号估计、第一方差、和第二方差进一步包括：

估计来自变换后的信号的每个短时间帧的基频和发声量度，其中通过观测信号的短时傅立叶变换来给定所述变换后的信号；以及

基于所述基频和发声量度确定第一方差。

30.根据权利要求22所述的语音去混响方法，进一步包括：

基于观测信号产生初始源信号估计、第一方差、和第二方差；

确定是否源信号估计的收敛被获得；

如果未获得源信号估计的收敛，则返回到产生初始源信号估计、第一方差、和第二方差。

31.根据权利要求30所述的语音去混响方法，其中产生初始源信号估计、第一方差、和第二方差进一步包括：

执行观测信号到第一变换观测信号的第二短时傅立叶变换；

执行第一选择操作以产生第一选择输出，当接收第一变换观测信号的输入而不接收源信号估计的任何输入时，第一选择操作用于选择第一变换观测信号作为第一选择输出，当接收第一变换观测信号和源信号估计的输入时，第一选择操作用于选择第一变换观测信号和源信号估计之一作为第一选择输出；

执行第二选择操作以产生第二选择输出，当接收第一变换观测信号的输入而不接收源信号估计的任何输入时，第二选择操作用于选择第一变换观测信号作为第二选择输出，当接收第一变换观测信号和源信号估计的输入时，第二选择操作用于选择第一变换观测信号和源信号估计之一作为第二选择输出；

估计来自第二选择输出的每个短时间帧的基频和发声量度；以及

基于基频和发声量度增强第一选择输出的谐波结构以产生初始源信号估计。

32.根据权利要求30所述的语音去混响方法，其中产生初始源信号估计、第一方差、和第二方差进一步包括：

执行观测信号到第二变换观测信号的第三短时傅立叶变换；

执行第三选择操作以产生第三选择输出，当接收第二变换观测信号的输入而不接收源信号估计的任何输入时，第三选择操作用于选择第二变换观测信号作为第三选择输出，当接收第二变换观测信号和源信号估计的输入时，第三选择操作用于选择第二变换观测信号和源信号估计之一作为第三选择输出；

估计来自第三选择输出的每个短时间帧的基频和发声量度；以及

基于所述基频和发声量度确定第一方差。

33.根据权利要求30所述的语音去混响方法，进一步包括：

如果获得源信号估计的收敛，则执行源信号估计到波形源信号估计的逆短时傅立叶变换。

34.一种语音去混响方法，包括：

确定最大化似然函数的逆滤波器估计，其中参考观测信号、初始源信号估计、表示源信号不确定性的第一方差、和表示声学环境不确定性的第二方差进行所述确定，其中，所述表示源信号不确定性的第一方差是在给定源信号的情况下初始源信号估计的概率密度函数的方差以及所述表示声学环境不确定性的第二方差是在给定源信号的情况下观测信号和室内传递函数的逆滤波器的联合概率密度函数的方差，以及

其中，所述似然函数基于根据第一未知参数、第二未知参数、和观测数据的第一随机变量所评估的概率密度函数被定义，其中参考源信号估计来定义第一未知参数，参考室内传递函数的逆滤波器来定义第二未知参数，以及参考观测信号和初始源信号估计来定义观测数据的第一随机变量，所述逆滤波器估计是室内传递函数的逆滤波器的估计。

35.根据权利要求34所述的语音去混响方法，其中使用迭代优化算法来确定逆滤波器估计。

36.根据权利要求34所述的语音去混响方法，进一步包括：

将逆滤波器估计应用于观测信号以产生源信号估计。

37.根据权利要求36所述的语音去混响方法，其中将逆滤波器估计应用于观测信号进一步包括：

执行逆滤波器估计到变换后的逆滤波器估计的第一逆长时傅立叶变换；以及

将观测信号与变换后的逆滤波器估计进行卷积以产生源信号估计。

38.根据权利要求36所述的语音去混响方法，其中将逆滤波器估计应用于观测信号进一步包括：

执行观测信号到变换后的观测信号的第一长时傅立叶变换；

将逆滤波器估计应用于变换后的观测信号以产生滤波源信号估计；以及

执行滤波源信号估计到源信号估计的第二逆长时傅立叶变换。

39.根据权利要求34所述的语音去混响方法，其中确定逆滤波器估计进一步包括：

确定是否逆滤波器估计的收敛被获得；

如果获得逆滤波器估计的收敛，则输出逆滤波器估计作为将要对所述观测信号进行去混响的滤波器；

如果未获得逆滤波器估计的收敛，则将逆滤波器估计应用于观测信号以产生滤波信号；

参考初始源信号估计、第一方差、第二方差、和滤波信号计算源信号估计；以及

将源信号估计更新为更新的源信号估计。

40.根据权利要求39所述的语音去混响方法，其中确定逆滤波器估计进一步包括：

执行波形观测信号到变换后的观测信号的第二长时傅立叶变换并进一步将变换后的观测信号作为观测信号提供以计算逆滤波器估计和产生滤波信号；

执行滤波信号到变换后的滤波信号的LTFS到STFS变换，并进一步将变换后的滤波信号作为滤波信号提供以计算源信号估计；

执行源信号估计到变换后的源信号估计的STFS到LTFS变换，并进一步将变换后的源信号估计作为源信号估计提供以将源信号估计更新为更新的源信号估计；

执行波形初始源信号估计到第一变换初始源信号估计的第三长时傅立叶变换，并进一步将第一变换初始源信号估计作为初始源信号估计提供以在初始更新步骤中被提供用于计算逆滤波器估计；以及

执行波形初始源信号估计到第二变换初始源信号估计的短时傅立叶变换，并进一步将第二变换初始源信号估计作为初始源信号估计提供以计算源信号估计。

41.根据权利要求34所述的语音去混响方法，进一步包括：

42.根据权利要求41所述的语音去混响方法，其中产生初始源信号估计、第一方差、和第二方差进一步包括：

基于所述基频和发声量度确定第一方差。