CN101416237B - 基于源和室内声学的概率模型的语音去混响方法和设备 - Google Patents
基于源和室内声学的概率模型的语音去混响方法和设备 Download PDFInfo
- Publication number
- CN101416237B CN101416237B CN2006800541241A CN200680054124A CN101416237B CN 101416237 B CN101416237 B CN 101416237B CN 2006800541241 A CN2006800541241 A CN 2006800541241A CN 200680054124 A CN200680054124 A CN 200680054124A CN 101416237 B CN101416237 B CN 101416237B
- Authority
- CN
- China
- Prior art keywords
- source signal
- signal
- unit
- estimation
- estimated
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Active
Links
Images
Classifications
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L21/00—Speech or voice signal processing techniques to produce another audible or non-audible signal, e.g. visual or tactile, in order to modify its quality or its intelligibility
- G10L21/02—Speech enhancement, e.g. noise reduction or echo cancellation
- G10L21/0208—Noise filtering
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L21/00—Speech or voice signal processing techniques to produce another audible or non-audible signal, e.g. visual or tactile, in order to modify its quality or its intelligibility
- G10L21/02—Speech enhancement, e.g. noise reduction or echo cancellation
- G10L21/0208—Noise filtering
- G10L2021/02082—Noise filtering the noise being echo, reverberation of the speech
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L21/00—Speech or voice signal processing techniques to produce another audible or non-audible signal, e.g. visual or tactile, in order to modify its quality or its intelligibility
- G10L21/02—Speech enhancement, e.g. noise reduction or echo cancellation
- G10L21/0208—Noise filtering
- G10L21/0216—Noise filtering characterised by the method used for estimating noise
- G10L21/0232—Processing in the frequency domain
Landscapes
- Engineering & Computer Science (AREA)
- Computational Linguistics (AREA)
- Quality & Reliability (AREA)
- Signal Processing (AREA)
- Health & Medical Sciences (AREA)
- Audiology, Speech & Language Pathology (AREA)
- Human Computer Interaction (AREA)
- Physics & Mathematics (AREA)
- Acoustics & Sound (AREA)
- Multimedia (AREA)
- Cable Transmission Systems, Equalization Of Radio And Reduction Of Echo (AREA)
- Circuit For Audible Band Transducer (AREA)
Abstract
通过接受用于初始化(1000)的观测信号以及执行包括傅立叶变换(4000)的似然最大化(2000)来实现语音去混响。
Description
技术领域
本发明通常涉及用于语音去混响的方法和设备。更具体而言,本发明涉及基于源和室内声学的概率模型的语音去混响方法和设备。
背景技术
以下在本申请中将被引用或标识的所有专利、专利申请、专利公开、科学文献等等将在此以其整体被包含作为参考以便更全面地描述本发明所属技术领域的状态。
在普通室内通过远距离麦克风捕获的语音信号不可避免地包含混响,这对于语音信号的感知质量和清晰度具有有害的影响并且使自动语音识别(ASR)系统的性能降低。当混响时间长于0.5秒时,甚至当使用已经在匹配的混响条件下被训练的声学模型时,不能够提高识别性能。这在B.Kingsbury和N.Morgan的“Recognizingreverberant speech with rasta-plp”(Proc.1997 IEEEInternational Conference Acoustic Speech and Signal Processing(ICASSP-97),Vol.2,第1259-1262页,1997年)中被公开。语音信号的去混响无论对于高质量记录和重放或对于自动语音识别(ASR)都是必需的。
尽管语音信号的盲去混响仍是有挑战性的问题,但是近来已经提出若干技术。已经提出将观测信号去相关同时在信号的短时间段内保持相关性的技术。这由B.W.Gillespie和L.E.Atlas的“Strategiesfor improving audible quality and speech recognition accuracyof reverberant speech”(Proc.2003 IEEE InternationalConference Acoustics,Speech and Signal Processing(ICASSP-2003),Vol.1,第676-679页,2003年)公开。这还由H.Buchner、R.Aichner、和W.Kellemann的“Trinicon:aversatileframework for multichannel blind signal processing”(Proc.ofthe 2004 IEEE International Conference Acoustics,Speech andSignal Processing(ICASSP-2004),Vol.III,第889-892页,2004年5月)公开。
已经提出用于估计和均衡室内的声响应中的极点的方法。这由T.Hikichi和M.Miyoshi的“Blind algorithm for calculating commonpoles based on linear prediction”(Proc.of the 2004 IEEEInternational Conference on Acoustics,Speech,and SignalProcessing(ICASSP 2004),Vol.IV,第89-92页,2004年5月)公开。这还由J.R.Hopgood和P.J.W.Rayner的“Blind single channeldeconvolution using nonstationary signal processing”(IEEETransactions Speech and Audio processing,vol.11,no.5,第467-488页,2003年9月)公开。
而且,已经提出基于语音信号的本质特征的两种方法,即在下文中被称为HERB的基于调和性的去混响、和在下文中被称为SBD的基于稀疏性的去混响。HERB由T.Nakatani和M.Miyoshi的“Blinddereverberation of single channel speech signal based onharmonic structure”(Proc.ICASSP-2003,vol.1,第92-95页,2003年4月)公开。首次出版第2004-274234号的日本未审查专利申请公开了用于HERB的传统技术的一个实例。SBD由K.Kinoshita、T.Nakatani和M.Miyoshi的“Efficient blind dereverberationframework for automatic speech recognition”(Proc.Interspeech-2005,2005年9月)公开。
这些方法广泛使用源信号的初始估计中的各语音特征。然后,初始源信号估计和观测到的混响信号被一起用于估计用于去混响的逆滤波器,这允许进一步改进源信号估计。为了获得初始源信号估计,HERB利用自适应谐波滤波器,以及SBD利用基于最小统计的频谱相减。在实验上已经显示:如果信号足够长,这些方法大大地提高观测到的混响信号的ASR性能。
鉴于上述内容,本领域普通技术人员从本公开内容将会明白存在对用于语音去混响的改进设备和/或方法的需要。本发明解决本领域中的这种需要以及其他需要,这对于本领域普通技术人员来说根据本公开内容将会变得显而易见。
发明内容
相应地,本发明的主要目的是提供语音去混响设备。
本发明的另一个目的是提供语音去混响方法。
本发明的再一个目的是提供将通过计算机执行的用于执行语音去混响方法的程序。
本发明的又一个目的是提供存储将通过计算机执行的用于执行语音去混响方法的程序的存储介质。
根据本发明的第一方面,语音去混响设备包括确定最大化似然函数的源信号估计的似然最大化单元。参考观测信号、初始源信号估计、表示源信号不确定性的第一方差、和表示声学环境不确定性的第二方差进行所述确定。
所述似然函数可以优选地基于根据未知参数、丢失数据的第一随机变量、和观测数据的第二随机变量所评估的概率密度函数被定义。参考源信号估计来定义未知参数。丢失数据的第一随机变量表示室内传递函数的逆滤波器。参考观测信号和初始源信号估计来定义观测数据的第二随机变量。
上述似然最大化单元可以优选地使用迭代优化算法来确定源信号估计。迭代优化算法可以优选地是期望最大化算法。
似然最大化单元可以进一步包括但不限于逆滤波器估计单元、滤波单元、源信号估计和收敛检验单元、以及更新单元。所述逆滤波器估计单元参考观测信号、第二方差、以及初始源信号估计和更新的源信号估计之一计算逆滤波器估计。滤波单元将逆滤波器估计应用于观测信号,并且产生滤波信号。源信号估计和收敛检验单元参考初始源信号估计、第一方差、第二方差、和滤波信号计算源信号估计。源信号估计和收敛检验单元进一步确定是否源信号估计的收敛被获得。如果源信号估计的收敛被获得,所述源信号估计和收敛检验单元进一步输出源信号估计作为去混响的信号。所述更新单元将源信号估计更新为更新的源信号估计。如果源信号估计的收敛未被获得,则所述更新单元进一步提供更新的源信号估计给逆滤波器估计单元。该更新单元进一步在初始更新步骤中提供初始源信号估计给逆滤波器估计单元。
似然最大化单元可以进一步包括但不限于第一长时傅立叶变换单元、LTFS到STFS变换单元、STFS到LTFS变换单元、第二长时傅立叶变换单元、和短时傅立叶变换单元。第一长时傅立叶变换单元执行波形观测信号到变换后的观测信号的第一长时傅立叶变换。第一长时傅立叶变换单元进一步将变换后的观测信号作为观测信号提供给逆滤波器估计单元和滤波单元。LTFS到STFS变换单元执行滤波信号到变换后的滤波信号的LTFS到STFS变换。LTFS到STFS变换单元进一步将变换后的滤波信号作为滤波信号提供给源信号估计和收敛检验单元。STFS到LTFS变换单元执行源信号估计到变换后的源信号估计的STFS到LTFS变换。如果源信号估计的收敛未被获得,则STFS到LTFS变换单元进一步将变换后的源信号估计作为源信号估计提供给更新单元。第二长时傅立叶变换单元执行波形初始源信号估计到第一变换初始源信号估计的第二长时傅立叶变换。第二长时傅立叶变换进一步将第一变换初始源信号估计作为初始源信号估计提供给更新单元。短时傅立叶变换单元执行波形初始源信号估计到第二变换初始源信号估计的短时傅立叶变换。短时傅立叶变换单元进一步将第二变换初始源信号估计作为初始源信号估计提供给源信号估计和收敛检验单元。
所述语音去混响设备可以进一步包括但不限于执行源信号估计到波形源信号估计的逆短时傅立叶变换的逆短时傅立叶变换单元。
所述语音去混响设备可以进一步包括但不限于基于观测信号产生初始源信号估计、第一方差、和第二方差的初始化单元。在这种情况下,初始化单元可以进一步包括但不限于基频估计单元和源信号不确定性确定单元。基频估计单元估计来自变换后的信号的每个短时间帧的基频和发声量度(voicing measure),其中通过观测信号的短时傅立叶变换来给定所述变换后的信号。源信号不确定性确定单元基于基频和发声量度确定第一方差。
所述语音去混响设备可以进一步包括但不限于初始化单元、和收敛检验单元。初始化单元基于观测信号产生初始源信号估计、第一方差、和第二方差。收敛检验单元从似然最大化单元接收源信号估计。收敛检验单元确定是否源信号估计的收敛被获得。如果获得源信号估计的收敛,则所述收敛检验单元进一步输出源信号估计作为去混响的信号。如果未获得源信号估计的收敛,则收敛检验单元进一步提供源信号估计给初始化单元以使初始化单元能够基于该源信号估计产生初始源信号估计、第一方差、和第二方差。
在最后描述的情况下,初始化单元可以进一步包括但不限于第二短时傅立叶变换单元、第一选择单元、基频估计单元、和自适应谐波滤波单元。第二短时傅立叶变换单元执行观测信号到第一变换观测信号的第二短时傅立叶变换。第一选择单元执行第一选择操作以产生第一选择输出以及第二选择操作以产生第二选择输出。第一和第二选择操作是相互独立的。当第一选择单元接收第一变换观测信号的输入而不接收源信号估计的任何输入时,第一选择操作用于选择第一变换观测信号作为第一选择输出。当第一选择单元接收第一变换观测信号和源信号估计的输入时,第一选择操作还用于选择第一变换观测信号和源信号估计之一作为第一选择输出。当第一选择单元接收第一变换观测信号的输入而不接收源信号估计的任何输入时,第二选择操作用于选择第一变换观测信号作为第二选择输出。当第一选择单元接收第一变换观测信号和源信号估计的输入时,第二选择操作还用于选择第一变换观测信号和源信号估计之一作为第二选择输出。基频估计单元接收第二选择输出。基频估计单元还估计来自第二选择输出的每个短时间帧的基频和发声量度。自适应谐波滤波单元接收第一选择输出、基频和发声量度。自适应谐波滤波单元基于基频和发声量度增强第一选择输出的谐波结构以产生初始源信号估计。
初始化单元可以进一步包括但不限于第三短时傅立叶变换单元、第二选择单元、基频估计单元、和源信号不确定性确定单元。第三短时傅立叶变换单元执行观测信号到第二变换观测信号的第三短时傅立叶变换。第二选择单元执行第三选择操作以产生第三选择输出。当第二选择单元接收第二变换观测信号的输入而不接收源信号估计的任何输入时,第三选择操作用于选择第二变换观测信号作为第三选择输出。当第二选择单元接收第二变换观测信号和源信号估计的输入时,第三选择操作还用于选择第二变换观测信号和源信号估计之一作为第三选择输出。基频估计单元接收第三选择输出。基频估计单元估计来自第三选择输出的每个短时间帧的基频和发声量度。源信号不确定性确定单元基于基频和发声量度确定第一方差。
所述语音去混响设备可以进一步包括但不限于逆短时傅立叶变换单元,如果获得源信号估计的收敛,则该逆短时傅立叶变换单元执行源信号估计到波形源信号估计的逆短时傅立叶变换。
根据本发明的第二方面,语音去混响设备包括确定最大化似然函数的逆滤波器估计的似然最大化单元。参考观测信号、初始源信号估计、表示源信号不确定性的第一方差、和表示声学环境不确定性的第二方差进行所述确定。
似然函数可以优选地基于根据第一未知参数、第二未知参数、以及观测数据的第一随机变量所评估的概率密度函数被定义。参考源信号估计来定义第一未知参数。参考室内传递函数的逆滤波器来定义第二未知参数。参考观测信号和初始源信号估计来定义观测数据的第一随机变量。逆滤波器估计是室内传递函数的逆滤波器的估计。
似然最大化单元可以优选地使用迭代优化算法来确定逆滤波器估计。
所述语音去混响设备可以进一步包括但不限于将逆滤波器估计应用于观测信号并产生源信号估计的逆滤波器应用单元。
该逆滤波器应用单元可以进一步包括但不限于第一逆长时傅立叶变换单元、和卷积单元。第一逆长时傅立叶变换单元执行逆滤波器估计到变换后的逆滤波器估计的第一逆长时傅立叶变换。卷积单元接收变换后的逆滤波器估计和观测信号。卷积单元将观测信号与变换后的逆滤波器估计进行卷积以产生源信号估计。
该逆滤波器应用单元可以进一步包括但不限于第一长时傅立叶变换单元、第一滤波单元、和第二逆长时傅立叶变换单元。第一长时傅立叶变换单元执行观测信号到变换后的观测信号的第一长时傅立叶变换。第一滤波单元将逆滤波器估计应用于变换后的观测信号。第一滤波单元产生滤波源信号估计。第二逆长时傅立叶变换单元执行滤波源信号估计到源信号估计的第二逆长时傅立叶变换。
似然最大化单元可以进一步包括但不限于逆滤波器估计单元、收敛检验单元、滤波单元、源信号估计单元、和更新单元。逆滤波器估计单元参考观测信号、第二方差、以及初始源信号估计和更新的源信号估计之一计算逆滤波器估计。收敛检验单元确定是否逆滤波器估计的收敛被获得。如果获得源信号估计的收敛,收敛检验单元进一步输出逆滤波器估计作为将对所述观测信号进行去混响的滤波器。如果未获得源信号估计的收敛,滤波单元从收敛检验单元接收逆滤波器估计。滤波单元进一步将逆滤波器估计应用于观测信号。滤波单元进一步产生滤波信号。源信号估计单元参考初始源信号估计、第一方差、第二方差、和滤波信号计算源信号估计。更新单元将源信号估计更新为更新的源信号估计。更新单元进一步在初始更新步骤中提供初始源信号估计给逆滤波估计单元。更新单元进一步在除初始更新步骤之外的更新步骤中提供更新的源信号估计给逆滤波器估计单元。
似然最大化单元可以进一步包括但不限于第二长时傅立叶变换单元、LTFS到STFS变换单元、STFS到LTFS变换单元、第三长时傅立叶变换单元、和短时傅立叶变换单元。第二长时傅立叶变换单元执行波形观测信号到变换后的观测信号的第二长时傅立叶变换。第二长时傅立叶变换单元进一步将变换后的观测信号作为观测信号提供给逆滤波器估计单元和滤波单元。LTFS到STFS变换单元执行滤波信号到变换后的滤波信号的LTFS到STFS变换。LTFS到STFS变换单元进一步将变换后的滤波信号作为滤波信号提供给源信号估计单元。STFS到LTFS变换单元执行源信号估计到变换后的源信号估计的STFS到LTFS变换。STFS到LTFS变换单元进一步将变换后的源信号估计作为源信号估计提供给更新单元。第三长时傅立叶变换单元执行波形初始源信号估计到第一变换初始源信号估计的第三长时傅立叶变换。第三长时傅立叶变换单元进一步将第一变换初始源信号估计作为初始源信号估计提供给更新单元。短时傅立叶变换单元执行波形初始源信号估计到第二变换初始源信号估计的短时傅立叶变换。短时傅立叶变换单元进一步将第二变换初始源信号估计作为初始源信号估计提供给源信号估计单元。
所述语音去混响设备可以进一步包括但不限于基于观测信号产生初始源信号估计、第一方差、和第二方差的初始化单元。
所述初始化单元可以进一步包括但不限于基频估计单元、和源信号不确定性确定单元。基频估计单元估计来自变换后的信号的每个短时间帧的基频和发声量度,其中通过观测信号的短时傅立叶变换来给定所述变换后的信号。源信号不确定性确定单元基于基频和发声量度确定第一方差。
根据本发明的第三方面,语音去混响方法包括确定最大化似然函数的源信号估计。参考观测信号、初始源信号估计、表示源信号不确定性的第一方差、和表示声学环境不确定性的第二方差进行所述确定。
所述似然函数可以优选地基于根据未知参数、丢失数据的第一随机变量、和观测数据的第二随机变量所评估的概率密度函数被定义。参考源信号估计来定义未知参数。丢失数据的第一随机变量表示室内传递函数的逆滤波器。参考观测信号和初始源信号估计来定义观测数据的第二随机变量。
可以优选地使用迭代优化算法来确定源信号估计。该迭代优化算法可以优选地是期望最大化算法。
用于确定源信号估计的过程可以进一步包括但不限于以下过程。参考观测信号、第二方差、以及初始源信号估计和更新的源信号估计之一计算逆滤波器估计。将该逆滤波器估计应用于观测信号,以产生滤波信号。参考初始源信号估计、第一方差、第二方差、和滤波信号来计算所述源信号估计。确定是否源信号估计的收敛被获得。如果获得源信号估计的收敛,则输出源信号估计作为去混响的信号。如果未获得源信号估计的收敛,则将源信号估计更新为更新的源信号估计。
用于确定源信号估计的过程可以进一步包括但不限于以下过程。执行第一长时傅立叶变换以将波形观测信号变换为变换后的观测信号。执行LTFS到STFS变换以将滤波信号变换为变换后的滤波信号。如果未获得源信号估计的收敛,则执行STFS到LTFS变换以将源信号估计变换为变换后的源信号估计。执行第二长时傅立叶变换以将波形初始源信号估计变换为第一变换初始源信号估计。执行短时傅立叶变换以将波形初始源信号估计变换为第二变换初始源信号估计。
所述语音去混响方法可以进一步包括但不限于执行源信号估计到波形源信号估计的逆短时傅立叶变换。
所述语音去混响方法可以进一步包括但不限于基于观测信号产生初始源信号估计、第一方差、和第二方差。
在最后描述的情况下,产生初始源信号估计、第一方差、和第二方差可以进一步包括但不限于以下过程。估计来自变换后的信号的每个短时间帧的基频和发声量度,其中通过观测信号的短时傅立叶变换来给定所述变换后的信号。基于所述基频和发声量度确定第一方差。
所述语音去混响方法可以进一步包括但不限于以下过程。基于观测信号产生初始源信号估计、第一方差、和第二方差。确定是否源信号估计的收敛被获得。如果获得源信号估计的收敛,则输出源信号估计作为去混响的信号。如果未获得源信号估计的收敛,则该过程将返回产生初始源信号估计、第一方差、和第二方差。
在最后描述的情况下,产生初始源信号估计、第一方差、和第二方差可以进一步包括但不限于以下过程。执行第二短时傅立叶变换以将观测信号变换为第一变换观测信号。执行第一选择操作以产生第一选择输出。当接收第一变换观测信号的输入而不接收源信号估计的任何输入时,第一选择操作用于选择第一变换观测信号作为第一选择输出。当接收第一变换观测信号和源信号估计的输入时,第一选择操作用于选择第一变换观测信号和源信号估计之一作为第一选择输出。执行第二选择操作以产生第二选择输出。当接收第一变换观测信号的输入而不接收源信号估计的任何输入时,第二选择操作用于选择第一变换观测信号作为第二选择输出。当接收第一变换观测信号和源信号估计的输入时,第二选择操作用于选择第一变换观测信号和源信号估计之一作为第二选择输出。估计来自第二选择输出的每个短时间帧的基频和发声量度。基于基频和发声量度增强第一选择输出的谐波结构以产生初始源信号估计。
产生初始源信号估计、第一方差、和第二方差可以进一步包括但不限于以下过程。执行第三短时傅立叶变换以将观测信号变换为第二变换观测信号。执行第三选择操作以产生第三选择输出。当接收第二变换观测信号的输入而不接收源信号估计的任何输入时,第三选择操作用于选择第二变换观测信号作为第三选择输出。当接收第二变换观测信号和源信号估计的输入时,第三选择操作用于选择第二变换观测信号和源信号估计之一作为第三选择输出。估计来自第三选择输出的每个短时间帧的基频和发声量度。基于所述基频和发声量度确定第一方差。
所述语音去混响方法可以进一步包括但不限于:如果获得源信号估计的收敛,则执行源信号估计到波形源信号估计的逆短时傅立叶变换。
根据本发明的第四方面,语音去混响方法包括确定最大化似然函数的逆滤波器估计。参考观测信号、初始源信号估计、表示源信号不确定性的第一方差、和表示声学环境不确定性的第二方差进行所述确定。
所述似然函数可以优选地基于根据第一未知参数、第二未知参数、观测数据的第一随机变量所评估的概率密度函数被定义。参考源信号估计来定义第一未知参数。参考室内传递函数的逆滤波器来定义第二未知参数。参考观测信号和初始源信号估计来定义观测数据的第一随机变量。逆滤波器估计是室内传递函数的逆滤波器的估计。
可以优选地使用迭代优化算法来确定逆滤波器估计。
所述语音去混响方法可以进一步包括但不限于将逆滤波器估计应用于观测信号以产生源信号估计。
在一种情况下,最后描述的用于将逆滤波器估计应用于观测信号的过程可以进一步包括但不限于以下过程。执行第一逆长时傅立叶变换以将逆滤波器估计变换为变换后的逆滤波器估计。将观测信号与变换后的逆滤波器估计进行卷积以产生源信号估计。
在另一种情况下,最后描述的用于将逆滤波器估计应用于观测信号的过程可以进一步包括但不限于以下过程。执行第一长时傅立叶变换以将观测信号变换为变换后的观测信号。将逆滤波器估计应用于变换后的观测信号以产生滤波源信号估计。执行第二逆长时傅立叶变换以将滤波源信号估计变换为源信号估计。
在再一种情况下,确定逆滤波器估计可以进一步包括但不限于以下过程。参考观测信号、第二方差、以及初始源信号估计和更新的源信号估计之一计算逆滤波器估计。确定是否逆滤波器估计的收敛被获得。如果获得源信号估计的收敛,则输出逆滤波器估计作为将对所述观测信号进行去混响的滤波器。如果未获得源信号估计的收敛,则将逆滤波器估计应用于观测信号以产生滤波信号。参考初始源信号估计、第一方差、第二方差、和滤波信号计算源信号估计。将源信号估计更新为更新的源信号估计。
在最后描述的情况下,用于确定逆滤波器估计的过程可以进一步包括但不限于以下过程。执行第二长时傅立叶变换以将波形观测信号变换为变换后的观测信号。执行LTFS到STFS变换以将滤波信号变换为变换后的滤波信号。执行STFS到LTFS变换以将源信号估计变换为变换后的源信号估计。执行第三长时傅立叶变换以将波形初始源信号估计变换为第一变换初始源信号估计。执行短时傅立叶变换以将波形初始源信号估计变换为第二变换初始源信号估计。
所述语音去混响方法可以进一步包括但不限于基于观测信号产生初始源信号估计、第一方差、和第二方差。
在一种情况下,最后描述的用于产生初始源信号估计、第一方差、和第二方差的过程可以进一步包括但不限于以下过程。估计来自变换后的信号的每个短时间帧的基频和发声量度,其中通过观测信号的短时傅立叶变换来给定所述变换后的信号。基于所述基频和发声量度确定第一方差。
根据本发明的第五方面,要通过计算机执行的用于执行语音去混响方法的程序,所述方法包括确定最大化似然函数的源信号估计。参考观测信号、初始源信号估计、表示源信号不确定性的第一方差、和表示声学环境不确定性的第二方差进行所述确定。
根据本发明的第六方面,要通过计算机执行的用于执行语音去混响方法的程序,所述方法包括确定最大化似然函数的逆滤波器估计。参考观测信号、初始源信号估计、表示源信号不确定性的第一方差、和表示声学环境不确定性的第二方差进行所述确定。
根据本发明的第七方面,存储介质存储要通过计算机执行的用于执行语音去混响方法的程序,所述方法包括确定最大化似然函数的源信号估计。参考观测信号、初始源信号估计、表示源信号不确定性的第一方差、和表示声学环境不确定性的第二方差进行所述确定。
根据本发明的第八方面,存储介质存储要通过计算机执行的用于执行语音去混响方法的程序,所述方法包括确定最大化似然函数的逆滤波器估计。参考观测信号、初始源信号估计、表示源信号不确定性的第一方差、和表示声学环境不确定性的第二方差进行所述确定。
根据以下结合附图进行的详细描述,本发明的这些和其他目的、特征、方面和优点对于本领域普通技术人员来说将会变得显而易见,所述附图图示本发明的实施例。
附图说明
现在参考形成本原始公开内容的一部分的附图:
图1是图示在本发明的第一实施例中基于源和室内声学的概率模型的语音去混响设备的方框图;
图2是图示包括在图1中所示的语音去混响设备中的似然最大化单元的配置的方框图;
图3A是图示包括在图2中所示的似然最大化单元中的STFS到LTFS变换单元的配置的方框图;
图3B是图示包括在图2中所示的似然最大化单元中的LTFS到STFS变换单元的配置的方框图;
图4A是图示包括在图2中所示的似然最大化单元中的长时傅立叶变换单元的配置的方框图;
图4B是图示包括在图3B中所示的LTFS到STFS变换单元中的逆长时傅立叶变换单元的配置的方框图;
图5A是图示包括在图3B中所示的LTFS到STFS变换单元中的短时傅立叶变换单元的配置的方框图;
图5B是图示包括在图3A中所示的STFS到LTFS变换单元中的逆短时傅立叶变换单元的配置的方框图;
图6是图示包括在图1中所示的初始化单元中的初始源信号估计单元的配置的方框图;
图7是图示包括在图1中所示的初始化单元中的源信号不确定性确定单元的配置的方框图;
图8是图示包括在图1中所示的初始化单元中的声学环境不确定性确定单元的配置的方框图;
图9是图示根据本发明第二实施例的另一种语音去混响设备的配置的方框图;
图10是图示包括在图9中所示的初始化单元中的修改的初始源信号估计单元的配置的方框图;
图11是图示包括在图9中所示的初始化单元中的修改的源信号不确定性确定单元的配置的方框图;
图12是图示根据本发明第三实施例的又一种语音去混响设备的配置的方框图;
图13是图示包括在图12中所示的语音去混响设备中的似然最大化单元的配置的方框图;
图14是图示包括在图12中所示的语音去混响设备中的逆滤波器应用单元的配置的方框图;
图15是图示包括在图12中所示的语音去混响设备中的另一个逆滤波器应用单元的配置的方框图;
图16A图示当女人说话时在RT60=1.0秒的能量衰减曲线;
图16B图示当女人说话时在RT60=0.5秒的能量衰减曲线;
图16C图示当女人说话时在RT60=0.2秒的能量衰减曲线;
图16D图示当女人说话时在RT60=0.1秒的能量衰减曲线;
图16E图示当男人说话时在RT60=1.0秒的能量衰减曲线;
图16F图示当男人说话时在RT60=0.5秒的能量衰减曲线;
图16G图示当男人说话时在RT60=0.2秒的能量衰减曲线;以及
图16H图示当男人说话时在RT60=0.1秒的能量衰减曲线。
具体实施方式
根据本发明的一个方面,提供单声道语音去混响方法,其中源信号和室内声学的特征通过概率密度函数(pdf)表示以及通过最大化基于概率密度函数(pdf)定义的似然函数来估计源信号。基于两种基本语音信号特征、即调和性和稀疏性,两种类型的概率密度函数(pdf)被引入用于源信号,同时基于逆滤波操作来定义室内声学的概率密度函数(pdf)。期望最大化(EM)算法被用于有效地解决最大似然问题。所产生的算法通过经由期望最大化(EM)迭代将其源信号特征与室内声学特征结合来精心制作仅仅基于其源信号特征所给定的初始源信号估计。用去混响脉冲响应的能量衰减曲线来显示本方法的有效性。
尽管上述的HERB和SBD在获得去混响滤波器中有效地利用语音信号特征,但是它们并不提供能够优化其性能的分析构架。根据本发明的一个方面,上述的HERB和SBD被重新用公式表示为最大似然(ML)估计问题,其中源信号被确定为在给定观测信号的情况下最大化似然函数的信号。为此目的,两个概率密度函数(pdf)被引入用于初始源信号估计和去混响滤波器,以便基于期望最大化(EM)算法最大化似然函数。实验结果显示:在给定相同数量的观测信号的情况下在去混响脉冲响应的能量衰减曲线方面能够进一步提高HERB和SBD的性能。以下描述将针对在本发明的一个方面中使用的傅立叶频谱。
短时傅立叶频谱和长时傅立叶频谱
本发明的一个方面将合并有关考虑源特性的语音信号特征和有关考虑混响效果的室内声学特征的信息。大约几十毫秒的短时间帧的相继应用对于分析这样的随时间变化的语音特征可能是有用的,而通常可能需要大约几千毫秒的相对长的时间帧来计算室内声学特征。本发明的一个方面将引入基于这两种分析帧的两种类型的傅立叶频谱、即在下文中被称为“STFS”的短时傅立叶频谱和在下文中被称为“LTFS”的长时傅立叶频谱。STFS和LTFS中的各频率分量通过具有尾标“(r)”的符号被表示为以及通过另一个不具有尾标的符号被表示为sl,k′,其中sl,k′的l是用于LTFS的长时间帧的索引,k′是用于LTFS的频率索引,的l是包括用于STFS的短时间帧的长时间帧的索引,的m是包括在长时间帧中的短时间帧的索引,以及的k是用于STFS的频率索引。短时间帧能够被视为长时间帧的组成部分。所以,STFS中的频率分量具有两个下标l和m。两个频谱被如下定义:
其中s[n]是数字化波形信号,g(r)[n]和g[n]、K(r)和K、以及tl,m和tl分别是窗函数、离散傅立叶变换(DFT)点的数量、和用于STFS和LTFS的时间索引。设置tl,m和tl之间的关系为对于m=0到M-1,tl,m=tl+mτ,其中τ是相继的短时间帧之间的帧移。此外,引入以下归一化条件:
K=κK(τ),
其中κ是整数常量。利用该条件,在STFS,和LTFS,sl,k′之间保持以下方程,其中k’=κk:
通过级联逆长时傅立叶变换和短时傅立叶变换能够实现这种变换。显然,LSm,k{·}是线性操作符。
信号的三种类型的表示、即波形数字化信号、短时傅立叶频谱(STFS)和长时傅立叶频谱(LTFS)包含相同的信息,并且能够使用已知的变换在无任何主要信息丢失的情况下从一种类型被变换到另一种类型。
源和室内声学的概率模型
定义以下术语:
初始源信号估计的STFS
wk′:未知逆滤波器的LTFS(k′=κk)
(5)
在此情况下,假设语音通过估计最大化在每个频率索引k定义的似然函数的源信号能够去混响:
其中 以及k′=κk是LTFS仓的频率索引。θk的上述方程中的积分是对wk’的实部和虚部的简单二重积分。未被观测的逆滤波器被作为上述似然函数中的丢失数据处理并通过积分被排斥(marginalize)。为了分析该函数,进一步假设:在给定的情况下,以及和wk’联合事件在统计上是独立的。在此情况下,上述方程(6)中的p{wk;zk|Θk}能够被如下分成两个函数:
前者是与室内声学有关的概率密度函数(pdf),即在给定源信号的情况下观测信号和逆滤波器的联合概率密度函数(pdf)。后者是与由初始估计提供的信息有关的另一个概率密度函数(pdf),即在给定源信号的情况下初始源信号估计的概率密度函数(pdf)。第二分量能够被解释为在给定真实源信号的情况下语音特征的概率存在。它们将分别在下文中被称为“声学概率密度函数(声学pdf)”以及“源概率密度函数(源pdf)”。理想地,逆传递函数wk′将xl,k′变换成sl,k′,即wkxl,k′=sl,k′。但是,在实际的声学环境中,该方程由于诸如不足够的逆滤波器长度和室内传递函数的波动这样的原因而可能包含一定误差所以,声学pdf能够被认为是这种误差的概率密度函数(pdf),如类似地,源概率密度函数(源pdf)能够被认为是误差或者源信号和基于特征的信号之差的另一个概率密度函数(pdf),如为了简化起见,假设这些误差是在给定的情况下顺序地独立的随机过程。假设上述两个误差过程的实部和虚部以相同的方差相互独立并且能够单独地通过具有零平均值的高斯随机过程被建模。利用这些假设,误差概率密度函数(误差pdf)被表示为:
EM算法的说明
期望最大化(EM)算法是找到最大化包括丢失数据的给定似然函数的一组参数的优化方法。这通过A.P.Dempster、N.M.Laird、和D.B.Rubin在“maximum likelihood from incorporate data via theEM algorithm”(Journal of the Royal Statistical Society,SeriesB,39(1):1-38,1977年)中被公开。通常,似然函数被表示为:
其中p{·|Θ}表示在参数集Θ被给定并且X和Y是随机变量的条件下随机变量的概率密度函数(pdf)。X=x意味着x作为关于X的观测数据被给定。在上述似然函数中,假设Y未被观测到,被称为丢失数据,因此利用Y排斥概率密度函数(pdf)。通过找到最大化似然函数的参数集Θ=θ的实现能够求解最大似然问题。
根据期望最大化(EM)算法,利用辅助函数Q{Θ|θ}的期望步骤(E-step)和最大化步骤(M-step)被分别定义为:
·E-step:
·M-step:
其中在上述方程(10)的标记为“E-step”的上面方程中的E|θ{·|θ}是在Θ=θ为固定的条件下的期望函数,其被更具体地定义为所述方程在E-step中的第二行。似然函数被显示为通过经由期望步骤(E-step)和最大化步骤(M-step)的一次迭代利用更新Θ=θ进行增加,其中在期望步骤(E-step)中计算Q{Θ|θ},而在最大化步骤(M-step)中获得最大化Q{Θ|θ}的最大似然问题的解通过重复所述迭代获得。
基于EM算法的解
求解θk的上述方程(6)的一种有效方式是使用上述期望最大化(EM)算法。利用这种方法,为了语音去混响,利用辅助函数Q(Θk|θk)的期望步骤(E-step)和最大化步骤(M-step)被分别定义为:
解:
取代直接计算E-step和M-step,由于Q(Θk|θk)-Q(θk|θk)在相同的Θk具有其最大值如Q(Θk|θk),因此它被分析。在Q(Θk|θk)-Q(θk|θk)的某种排列之后并且仅仅提取包含Θk的项,从而获得以下函数。
其中
其中意味着复数共轭。应该注意:Θk最大化QΘ{Θk|θk}并且也最大化Q(Θk|θk),Θk产生QΘ{Θk|θk}>QΘ{θk|θk}并且也产生Q(Θk|θk)>Q(θk|θk)。最大化QΘ{Θk|θk}的Θk能够通过以对它求微分、将它设置成零、以及求解所产生的联立方程而获得。但是,获得该解的计算成本相当高,这是因为需要针对每个l和k求解具有M个未知变量的该方程。
替代地,为了以更有效的方式最大化上述方程(12)的QΘ{Θk|θk}引入以下假设。通过基于上述方程(3)对构成LTFS仓的STFS仓的幂求和,能够近似LTFS仓的幂,即:
利用这种假设,通过上述方程(12)给定的QΘ{Θk|θk}能够被重写为:
讨论:
上述方程(12)中的对应于在给定初始源信号估计为sl,k’和观测信号为xl,k′的情况下通过传统HERB和SBD方法获得的去混响滤波器。
上述方程(15)通过初始源信号估计和通过将xl,k′乘以获得的源估计的加权平均来更新所述源估计。根据源信号不确定性和声学环境不确定性来确定权重。换而言之,一次EM迭代通过集成基于源和室内声学特性获得的两种类型的源估计来精心制作源估计。
其中采用与上述方程(8)相同的定义用于上述似然函数中的概率密度函数(pdf)。另外,通过上述方程(15)计算的源信号估计也在逆滤波器估计是固定的条件下最大化上述似然函数。所以,通过分别重复地计算上述方程(12)和(15),能够获得最大化上述似然函数的逆滤波器估计和源信号估计换而言之,通过这种迭代优化算法,能够计算最大化上述似然函数的逆滤波器估计
现在将参考附图描述本发明的所选择的实施例。对于本领域普通技术人员来说根据本公开内容将显而易见的是,本发明的实施例的以下描述仅仅被提供用于说明而不是用于限制如通过所附的权利要求及其等同物定义的本发明的目的。
第一实施例:
图1是图示根据本发明的第一实施例的、基于源和室内声学的概率模型的语音去混响设备的方框图。能够通过一组功能单元来实现语音去混响设备10000,该组功能单元协作用于接收观测信号x[n]的输入并产生波形信号的输出。功能单元中的每一个都可以包括被构造和/或被编程用于执行预定功能的硬件和/或软件。术语“被适配”和“被配置”被用于描述被构造和/或被编程用于执行一个或多个期望功能的硬件和/或软件。语音去混响设备10000能够例如通过计算机或处理器来实现。语音去混响设备10000执行语音去混响操作。语音去混响方法能够通过要由计算机执行的程序来实现。
语音去混响设备10000可以典型地包括初始化单元1000、似然最大化单元2000和逆短时傅立叶变换单元4000。初始化单元1000可以被适配用于接收能够是数字化波形信号的观测信号x[n],其中n是样本索引。数字化波形信号x[n]可以包含具有未知混响程度的语音信号。通过诸如一个或多个麦克风的设备能够捕获该语音信号。初始化单元1000可以被适配用于从观测信号提取与源信号和声学环境有关的初始源信号估计和不确定性。初始化单元1000还可以被适配用于用公式表达初始源信号估计、源信号不确定性和声学环境不确定性的表示。针对所有索引l、m、k和k′,这些表示被列举为是数字化波形初始源信号估计的是表示源信号不确定性的方差或离差的以及是表示声学环境不确定性的方差或离差的即,初始化单元1000可以被适配用于接收数字化波形信号x[n]的输入作为观测信号并产生数字化波形初始源信号估计表示源信号不确定性的方差或离差以及表示声学环境不确定性的方差或离差
似然最大化单元2000可以与初始化单元1000协作。即,似然最大化单元2000可以被适配用于从初始化单元1000接收数字化波形初始源信号估计的输入、源信号不确定性和声学环境不确定性似然最大化单元2000还可以被适配用于接收数字化波形观测信号x[n]的另一个输入作为观测信号。是数字化波形初始源信号估计。是表示源信号不确定性的第一方差。是表示声学环境不确定性的第二方差。似然最大化单元2000还可以被适配用于确定最大化似然函数的源信号估计θk,其中参考数字化波形观测信号x[n]、数字化波形初始源信号估计表示源信号不确定性的第一方差以及表示声学环境不确定性的第二方差来进行所述确定。通常,可以基于概率密度函数来定义似然函数,该概率密度函数根据参考源信号估计所定义的未知参数、表示室内传递函数的逆滤波器的丢失数据的第一随机变量、和参考观测信号和初始源信号估计所定义的观测数据的第二随机变量进行评估。使用迭代优化算法来执行源信号估计θk的确定。
逆短时傅立叶变换单元4000可以与似然最大化单元2000协作。即,逆短时傅立叶变换单元4000可以被适配用于从似然最大化单元2000接收最大化似然函数的源信号估计的输入。逆短时傅立叶变换单元4000还可以被适配用于将源信号估计变换成数字化波形信号并输出该数字化波形信号
似然最大化单元2000能够通过相互协作以确定并输出最大化似然函数的源信号估计的一组子功能单元来实现。图2是图示图1中所示的似然最大化单元2000的配置的方框图。在一种情况下,似然最大化单元2000还可以包括长时傅立叶变换单元2100、更新单元2200、STFS到LTFS变换单元2300、逆滤波器估计单元2400、滤波单元2500、LTFS到STFS变换单元2600、源信号估计和收敛检验单元2700、短时傅立叶变换单元2800、以及长时傅立叶变换单元2900。这些单元协作以继续执行迭代操作,直到已经确定最大化似然函数的源信号估计为止。
长时傅立叶变换单元2100被适配用于从初始化单元1000接收数字化波形观测信号x[n]作为观测信号。长时傅立叶变换单元2100还被适配用于执行数字化波形观测信号x[n]到作为长期傅立叶频谱(LTFS)的变换后的观测信号xl,k’的长时傅立叶变换。
更新单元2200与长时傅立叶变换单元2900和STFS到LTFS变换单元2300协作。更新单元2200被适配用于在迭代的初始步骤中从长时傅立叶变换单元2900接收初始源信号估计并且还被适配用于用从长时傅里叶变换单元2900接收的源信号估计代替更新的源信号估计θk’。更新单元2200此外被适配用于发送更新的源信号估计θk’给逆滤波器估计单元2400。更新单元2200还被适配用于在迭代的随后步骤中从STFS到LTFS变换单元2300接收源信号估计并且用于用从STFS到LTFS变换单元2300接收的源信号估计代替更新的源信号估计θk’。更新单元2200还被适配用于发送更新的源信号估计θk′给逆滤波器估计单元2400。
逆滤波器估计单元2400与长时傅立叶变换单元2100、更新单元2200和初始化单元1000协作。逆滤波器估计单元2400被适配用于从长时傅立叶变换单元2100接收观测信号xl,k′。逆滤波器估计单元2400还被适配用于从更新单元2200接收更新的源信号估计θk′。逆滤波器估计单元2400还被适配用于从初始化单元1000接收表示声学环境不确定性的第二方差逆滤波器估计单元2400进一步被适配用于根据上述方程(12)基于观测信号xl,k′、更新的源信号估计θk′和表示声学环境不确定性的第二方差来计算逆滤波器估计逆滤波器估计单元2400进一步被适配用于输出逆滤波器估计
滤波单元2500与长时傅立叶变换单元2100和逆滤波器估计单元2400协作。滤波单元2500被适配用于从长时傅立叶变换单元2100接收观测信号xl,k′。滤波单元2500还被适配用于从逆滤波器估计单元2400接收逆滤波器估计滤波单元2500还被适配用于将观测信号xl,k′应用于逆滤波器估计以产生滤波源信号估计将观测信号xl,k′应用于逆滤波器估计的滤波过程的典型实例可以包括但不限于计算观测信号xl,k′和逆滤波器估计的乘积在这种情况下,通过观测信号xl,k′和逆滤波器估计的乘积来给定滤波源信号估计
LTFS到STFS变换单元2600与滤波单元2500协作。LTFS到STFS变换单元2600被适配用于从滤波单元2500接收滤波源信号估计LTFS到STFS变换单元2600进一步被适配用于执行滤波源信号估计到变换后的滤波源信号估计的LTFS到STFS变换。当滤波过程是计算观测信号xl,k′和逆滤波器估计的乘积时,LTFS到STFS变换单元2600进一步被适配用于执行乘积到变换后的信号的LTFS到STFS变换。在这种情况下,乘积表示滤波源信号估计以及变换后的信号表示变换后的滤波源信号估计
源信号估计和收敛检验单元2700与LTFS到STFS变换单元2600、短时傅立叶变换单元2800、以及初始化单元1000协作。源信号估计和收敛检验单元2700被适配用于从LTFS到STFS变换单元2600接收变换后的滤波源信号估计源信号估计和收敛检验单元2700还被适配用于从初始化单元1000接收表示源信号不确定性的第一方差和表示声学环境不确定性的第二方差源信号估计和收敛检验单元2700还被适配用于从短时傅立叶变换单元2800接收初始源信号估计源信号估计和收敛检验单元2700进一步被适配用于基于变换后的滤波源信号估计表示源信号不确定性的第一方差表示声学环境不确定性的第二方差和初始源信号估计估计源信号其中根据上述方程(15)进行所述估计。
源信号估计和收敛检验单元2700此外被适配用于例如通过比较当前已经被估计的源信号估计的当前值和之前已经被估计的源信号估计的前一值以及检验是否当前值偏离前一值小于一定的预定量来确定迭代过程的收敛状态。如果源信号估计和收敛检验单元2700确认源信号估计的当前值偏离其前一值小于一定的预定量,那么源信号估计和收敛检验单元2700识别出已经获得源信号估计的收敛。如果源信号估计和收敛检验单元2700确认源信号估计的当前值偏离其前一值不小于一定的预定量,那么源信号估计和收敛检验单元2700识别出还未获得源信号估计的收敛。
作为修改有可能的是当迭代次数达到一定的预定值时终止迭代过程。即,源信号估计和收敛检验单元2700已经确认迭代次数达到一定的预定值,于是源信号估计和收敛检验单元2700识别出已经获得源信号估计的收敛。如果源信号估计和收敛检验单元2700已经确认已经获得源信号估计的收敛,那么源信号估计和收敛检验单元2700向逆短时傅立叶变换单元4000提供源信号估计作为第一输出。如果源信号估计和收敛检验单元2700已经确认还未获得源信号估计的收敛,那么源信号估计和收敛检验单元2700向STFS到LTFS变换单元2300提供源信号估计作为第二输出。
STFS到LTFS变换单元2300与源信号估计和收敛检验单元2700协作。STFS到LTFS变换单元2300被适配用于从源信号估计和收敛检验单元2700接收源信号估计STFS到LTFS变换单元2300被适配用于执行源信号估计到变换后的源信号估计的STFS到LTFS变换。
如果源信号估计和收敛检验单元2700已经确认已经获得源信号估计的收敛,那么源信号估计和收敛检验单元2700向逆短时傅立叶变换单元4000提供源信号估计作为第一输出。逆短时傅立叶变换单元4000可以被适配用于将源信号估计变换成数字化波形信号并输出该数字化波形信号
将参考图2描述似然最大化单元2000的操作。
在迭代的初始步骤中,将数字化波形观测信号x[n]从初始化单元1000提供给长时傅立叶变换单元2100。由长时傅立叶变换单元2100执行长时傅立叶变换以便数字化波形观测信号x[n]被变换成作为长期傅立叶频谱(LTFS)的变换后的观测信号xl,k′。数字化波形初始源信号估计从初始化单元1000被提供给短时傅立叶变换单元2800和长时傅立叶变换单元2900。由短时傅立叶变换单元2800执行短时傅立叶变换以便将数字化波形初始源信号估计变换成初始源信号估计由长时傅立叶变换单元2900执行长时傅立叶变换以便将数字化波形初始源信号估计变换成初始源信号估计
从长时傅立叶变换单元2900提供初始源信号估计给更新单元2200。通过更新单元2200用源信号估计θk′代替初始源信号估计然后从更新单元2200提供初始源信号估计给逆滤波器估计单元2400。观测信号xl,k′从长时傅立叶变换单元2100被提供给逆滤波器估计单元2400。表示声学环境不确定性的第二方差从初始化单元1000被提供给逆滤波器估计单元2400。逆滤波器估计单元2400基于观测信号xl,k′初始源信号估计θk′、以及表示声学环境不确定性的第二方差计算逆滤波器估计其中根据上述方程(12)进行所述计算。
逆滤波器估计从逆滤波器估计单元2400被提供给滤波单元2500。观测信号xl,k′进一步从长时傅立叶变换单元2100被提供给滤波单元2500。滤波单元2500将逆滤波器估计应用于观测信号xl,k′以产生滤波源信号估计将观测信号xl,k′应用于逆滤波器估计的滤波过程的典型实例可以用于计算观测信号xl,k′和逆滤波器估计的乘积在这种情况下,通过观测信号xl,k′和逆滤波器估计的乘积来给定滤波源信号估计
从滤波单元2500提供滤波源信号估计给LTFS到STFS变换单元2600。由LTFS到STFS变换单元2600执行LTFS到STFS变换以便滤波源信号估计被变换成变换后的滤波源信号估计当滤波过程用于计算观测信号xl,k′和逆滤波器估计的乘积时,乘积被变换成变换后的信号
从LTFS到STFS变换单元2600提供变换后的滤波源信号估计给源信号估计和收敛检验单元2700。从初始化单元1000提供表示源信号不确定性的第一方差和表示声学环境不确定性的第二方差给源信号估计和收敛检验单元2700。从短时傅立叶变换单元2800提供初始源信号估计给源信号估计和收敛检验单元2700。源信号估计和收敛检验单元2700基于变换后的滤波源信号估计表示源信号不确定性的第一方差表示声学环境不确定性的第二方差和初始源信号估计计算源信号估计其中根据上述方程(15)进行所述估计。
在迭代的初始步骤中,从源信号估计和收敛检验单元2700提供源信号估计给STFS到LTFS变换单元2300以便将源信号估计变换成变换后的源信号估计从STFS到LTFS变换单元2300提供变换后的源信号估计给更新单元2200。更新单元2200用源信号估计θk′代替变换后的源信号估计从更新单元2200提供更新的源信号估计θk′给逆滤波器估计单元2400。
在迭代的第二或随后步骤中,从更新单元2200提供源信号估计给逆滤波器估计单元2400。观测信号xl,k′也从长时傅立叶变换单元2100被提供给逆滤波器估计单元2400。从初始化单元1000提供表示声学环境不确定性的第二方差给逆滤波器估计单元2400。逆滤波器估计单元2400基于观测信号xl,k′、更新的源信号估计和表示声学环境不确定性的第二方差计算更新的逆滤波器估计其中根据上述方程(12)进行所述计算。
从逆滤波器估计单元2400提供更新的逆滤波器估计给滤波单元2500。观测信号xl,k′进一步被从长时傅立叶变换单元2100提供给滤波单元2500。滤波单元2500将观测信号xl,k′应用于更新的逆滤波器估计以产生滤波源信号估计
从LTFS到STFS变换单元2600提供更新的滤波源信号估计给源信号估计和收敛检验单元2700。还从初始化单元1000提供表示源信号不确定性的第一方差和表示声学环境不确定性的第二方差给源信号估计和收敛检验单元2700。从短时傅立叶变换单元2800提供更新的初始源信号估计给源信号估计和收敛检验单元2700。源信号估计和收敛检验单元2700基于变换后的滤波源信号估计表示源信号不确定性的第一方差和表示声学环境不确定性的第二方差和初始源信号估计计算源信号估计其中根据上述方程(15)进行所述估计。比较当前已经被估计的源信号估计的当前值与之前已经被估计的源信号估计的前一值。源信号估计和收敛检验单元2700验证是否当前值偏离前一值小于一定的预定量。
如果源信号估计和收敛检验单元2700确认源信号估计的当前值偏离其前一值小于一定的预定量,那么源信号估计和收敛检验单元2700识别出已经获得源信号估计的收敛。源信号估计作为第一输出从源信号估计和收敛检验单元2700被提供给逆短时傅立叶变换单元4000。逆短时傅立叶变换单元4000将源信号估计变换成数字化波形源信号估计
如果源信号估计和收敛检验单元2700确认源信号估计的当前值不偏离其前一值小于一定的预定量,那么源信号估计和收敛检验单元2700识别出还未获得源信号估计的收敛。从源信号估计和收敛检验单元2700提供源信号估计给STFS到LTFS变换单元2300以便将源信号估计变换成变换后的源信号估计从STFS到LTFS变换单元2300提供变换后的源信号估计给更新单元2200。更新单元2200用源信号估计θk′代替变换后的源信号估计从更新单元2200提供更新的源信号估计θk′给逆滤波器估计单元2400。
作为修改有可能的是当迭代次数达到一定的预定值时终止迭代过程。即,已经通过源信号估计和收敛检验单元2700确认迭代次数达到一定的预定值,那么源信号估计和收敛检验单元2700识别出已经获得源信号估计的收敛。如果已经通过源信号估计和收敛检验单元2700确认已经获得源信号估计的收敛,那么源信号估计作为第一输出从源信号估计和收敛检验单元2700被提供给逆短时傅立叶变换单元4000。如果已经通过源信号估计和收敛检验单元2700确认还未获得源信号估计的收敛,那么源信号估计作为第二输出从源信号估计和收敛检验单元2700被提供给STFS到LTFS变换单元2300以便然后将源信号估计变换成变换后的源信号估计进一步用源信号估计θk’代替变换后的源信号估计
上述迭代过程将被继续,直到通过源信号估计和收敛检验单元2700已经确认已经获得源信号估计的收敛。在迭代的初始步骤中,更新的源信号估计θk’是从长时傅立叶变换单元2900提供的。在迭代的第二或随后步骤中,更新的源信号估计θk′是
如果已经通过源信号估计和收敛检验单元2700确认已经获得源信号估计的收敛,那么源信号估计作为第一输出从源信号估计和收敛检验单元2700被提供给逆短时傅立叶变换单元4000。逆短时傅立叶变换单元4000将源信号估计变换成数字化波形源信号估计并输出该数字化波形源信号估计
图3A是图示在图2中所示的STFS到LTFS变换单元2300的配置的方框图。STFS到LTFS变换单元2300可以包括逆短时傅立叶变换单元2310和长时傅立叶变换单元2320。逆短时傅立叶变换单元2310与源信号估计和收敛检验单元2700协作。逆短时傅立叶变换单元2310被适配用于从源信号估计和收敛检验单元2700接收源信号估计逆短时傅立叶变换单元2310进一步被适配用于将源信号估计变换成作为输出的数字化波形源信号估计
长时傅立叶变换单元2320与逆短时傅立叶变换单元2310协作。长时傅立叶变换单元2320被适配用于从逆短时傅立叶变换单元2310接收数字化波形源信号估计长时傅立叶变换单元2320进一步被适配用于将数字化波形源信号估计变换成作为输出的变换后的源信号估计
图3B是图示在图2中所示的LTFS到STFS变换单元2600的配置的方框图。LTFS到STFS变换单元2600可以包括逆长时傅立叶变换单元2610和短时傅立叶变换单元2620。逆长时傅立叶变换单元2610与滤波单元2500协作。逆长时傅立叶变换单元2610被适配用于从滤波单元2500接收滤波源信号估计逆长时傅立叶变换单元2610进一步被适配用于将滤波源信号估计变换成作为输出的数字化波形滤波源信号估计
短时傅立叶变换单元2620与逆长时傅里叶变换单元2610协作。短时傅立叶变换单元2620被适配用于从逆长时傅立叶变换单元2610接收数字化波形滤波源信号估计短时傅里叶变换单元2620进一步被适配用于将数字化波形滤波源信号估计变换成作为输出的变换后的滤波源信号估计
图4A是图示图2中所示的长时傅立叶变换单元2100的配置的方框图。长时傅立叶变换单元2100可以包括开窗单元2110和离散傅立叶变换单元2120。开窗单元2100被适配用于接收数字化波形观测信号x[n]。开窗单元2100进一步被适配用于如以下所给定的那样将分析窗函数g[n]重复地应用于数字化波形观测信号x[n]:
xl[n]=g[n]x[nl+n]。
其中nl是长时间帧l所开始的样本索引。开窗单元2110被适配用于针对所有l产生分段波形观测信号xl[n]。
离散傅立叶变换单元2120与开窗单元2110协作。离散傅立叶变换单元2120被适配用于从开窗单元2110接收分段波形观测信号xl[n]。离散傅立叶变换单元2120进一步被适配用于执行分段波形信号xl[n]中的每一个到变换后的观测信号xl,k’的如下给定的K点离散傅立叶变换:
图4B是图示图3B中所示的逆长时傅立叶变换单元2610的配置的方框图。逆长时傅立叶变换单元2610可以包括逆离散傅立叶变换单元2612以及重叠相加合成单元2614。逆离散傅立叶变换单元2612与滤波单元2500协作。逆离散傅立叶变换单元2612被适配用于接收滤波源信号估计逆离散傅立叶变换单元2612进一步被适配用于应用滤波源信号估计的每个帧到作为如下所给定的输出的分段波形滤波源信号估计的相应逆离散傅立叶变换:
重叠相加合成单元2614与逆离散傅立叶变换单元2612协作。重叠相加合成单元2614被适配用于从逆离散傅立叶变换单元2612接收分段波形滤波源信号估计重叠相加合成单元2614进一步被适配用于根据重叠相加合成技术利用重叠相加合成窗gs[n]针对所有l连接或合成分段波形滤波源信号估计以便获得如下给定的数字化波形滤波源信号估计
图5A是图示在图3B中所示的短时傅立叶变换单元2620的配置的方框图。短时傅立叶变换单元2620可以包括开窗单元2622和离散傅立叶变换单元2624。开窗单元2622与逆长时傅立叶变换单元2610协作。开窗单元2622被适配用于从逆长时傅立叶变换单元2610接收数字化波形滤波源信号估计开窗单元2622进一步被适配用于将分析窗函数g(τ)[n]以窗偏移τ重复地应用于数字化波形滤波源信号估计以便产生如下给定的分段滤波源信号估计
离散傅立叶变换单元2624与开窗单元2622协作。离散傅立叶变换单元2624被适配用于从开窗单元2622接收分段波形滤波源信号估计离散傅立叶变换单元2624进一步被适配用于执行分段波形滤波源信号估计中的每一个到如下给定的变换后的滤波源信号估计的K(r)点离散傅立叶变换。
图5B是图示在图3A中所示的逆短时傅立叶变换单元2310的配置的方框图。逆短时傅立叶变换单元2310可以包括逆离散傅立叶变换单元2312和重叠相加合成单元2314。逆离散傅里叶变换单元2312与源信号估计和收敛检验单元2700协作。逆离散傅立叶变换单元2312被适配用于从源信号估计和收敛检验单元2700接收源信号估计逆离散傅立叶变换单元2312进一步被适配用于将相应的逆离散傅立叶变换应用于源信号估计的每个帧并产生如下给定的分段波形源信号估计
重叠相加合成单元2314与逆离散傅立叶变换单元2312协作。重叠相加合成单元2314被适配用于从逆离散傅立叶变换单元2312接收分段波形源信号估计重叠相加合成单元2314进一步被适配用于针对所有l和m基于重叠相加合成技术利用合成窗gs (r)[n]连接或合成分段波形源信号估计以便获得如下给定的数字化波形源信号估计
初始化单元1000被适配用于执行三个操作,即初始源信号估计、源信号不确定性确定和声学环境不确定性确定。如上所述,初始化单元1000被适配用于接收数字化波形观测信号x[n]并产生表示源信号不确定性的第一方差表示声学环境不确定性的第二方差以及数字化波形初始源信号估计详细地,初始化单元1000被适配用于执行初始源信号估计,该估计根据数字化波形观测信号x[n]产生数字化波形初始源信号估计初始化单元1000进一步被适配用于执行源信号不确定性确定,该确定根据数字化波形观测信号x[n]产生表示源信号不确定性的第一方差初始化单元1000此外被适配用于执行声学环境不确定性确定,该确定根据数字化波形观测信号x[n]产生表示声学环境不确定性的第二方差
初始化单元1000可以包括三个功能子单元,即执行初始源信号估计的初始源信号估计单元1100、执行源信号不确定性确定的源信号不确定性确定单元1200、以及执行声学环境不确定性确定的声学环境不确定性确定单元1300。图6是图示包括在图1中所示的初始化单元1000中的初始源信号估计单元1100的配置的方框图。图7是图示包括在图1中所示的初始化单元1000中的源信号不确定性确定单元1200的配置的方框图。图8是图示包括在图1中所示的初始化单元1000中的声学环境不确定性确定单元1300的配置的方框图。
参考图6,初始源信号估计单元1100可以进一步包括短时傅立叶变换单元1110、基频估计单元120和自适应谐波滤波单元1130。短时傅立叶变换单元1110被适配用于接收数字化波形观测信号x[n]。短时傅立叶变换单元1110被适配用于执行数字化波形观测信号x[n]到作为输出的变换后的观测信号的短时傅立叶变换。
基频估计单元1120与短时傅立叶变换单元1110协作。基频估计单元1120被适配用于从短时傅立叶变换单元1110接收变换后的观测信号基频估计单元1120进一步被适配用于估计来自变换后的观测信号的每个短时间帧的基频fl,m和发声量度vl,m。
自适应谐波滤波单元1130与短时傅立叶变换单元1110和基频估计单元1120协作。自适应谐波滤波单元1130被适配用于从短时傅立叶变换单元1110接收变换后的观测信号自适应谐波滤波单元1130还被适配用于从基频估计单元1120接收基频fl,m和发声量度vl,m。自适应谐波滤波单元1130还被适配用于基于基频fl,m和发声量度vl,m增强的谐波结构以便谐波结构的增强产生所得到的数字化波形初始源信号估计作为输出。本实例的过程流程在由Tomohiro Nakatani、Masato Miyoshi和Keisuke Kinoshita在SpeechEnhancement((Benesty,J.Makino,S.,和Chen,J.Eds),Chapter11,第247-270页,2005年春)中发表的“Single Microphone BlindDereverberation”中被详细公开。
参考图7,源信号不确定性确定单元1200可以进一步包括短时傅立叶变换单元1110、基频估计单元1120和源信号不确定性确定子单元1140。短时傅立叶变换单元1110被适配用于接收数字化波形观测信号x[n]。短时傅立叶变换单元1110被适配用于执行数字化波形观测信号x[n]到作为输出的变换后的观测信号的短时傅立叶变换。
基频估计单元1120与短时傅立叶变换单元1110协作。基频估计单元1120被适配用于从短时傅立叶变换单元1110接收变换后的观测信号基频估计单元1120进一步被适配用于估计来自变换后的观测信号的每个短时间帧的基频fl,m和发声量度vl,m。
源信号不确定性确定子单元1140与基频估计单元1120协作。源信号不确定性确定子单元1140被适配用于从基频估计单元1120接收基频fl,m和发声量度vl,m。源信号不确定性确定子单元1140进一步被适配用于根据基频fl,m和发声量度vl,m确定表示源信号不确定性的第一方差如下给定表示源信号不确定性的第一方差
其中G{u}是被定义为例如具有某些正的常量“a”和“b”的G{u}=e-a(u-h)的归一化函数,并且谐波频率意味着用于基频及其倍数之一的频率索引。
参考图8,声学环境不确定性确定单元1300可以包括声学环境不确定性确定子单元1150。声学环境不确定性确定子单元1150被适配用于接收数字化波形观测信号x[n]。声学环境不确定性确定子单元1150进一步被适配用于产生表示声学环境不确定性的第二方差在一种典型情况下,对于所有l和k′来说,第二方差能够是常量,即如在图8中所示,σl,k′=1。
所述混响信号能够通过修改的包括执行反馈过程的反馈回路的语音去混响设备20000更有效地去混响。根据反馈过程的流程,通过利用反馈回路迭代相同的处理流程,能够提高源信号估计的质量。尽管只有数字化波形观测信号x[n]在初始步骤中被用作流程的输入,但是已经被包含在前一步骤中的源信号估计也在随后的步骤中被用作输入。更优选的是使用源信号估计而不是使用观测信号x[n]来对源概率密度函数(源pdf)的参数和进行估计。
第二实施例:
图9是图示根据本发明的第二实施例进一步包括反馈回路的另一语音去混响设备的配置的方框图。修改的语音去混响设备20000可以包括初始化单元1000、似然最大化单元2000、收敛检验单元3000、和逆短时傅立叶变换单元4000。初始化单元1000、似然最大化单元2000和逆短时傅立叶变换单元4000的配置和操作如上所述。在本实施例中,在似然最大化单元2000和逆短时傅立叶变换单元4000之间附加地引入收敛检验单元3000以便收敛检验单元3000检验已经从似然最大化单元2000输出的源信号估计的收敛。如果收敛检验单元3000识别出已经获得源信号估计的收敛,那么收敛检验单元3000发送源信号估计给逆短时傅立叶变换单元4000。如果收敛检验单元3000识别出还未获得源信号估计的收敛,那么收敛检验单元3000发送源信号估计给初始化单元1000。以下描述将聚焦于第二实施例与第一实施例的差异。
收敛检验单元3000与初始化单元1000和似然最大化单元2000协作。收敛检验单元3000被适配用于从似然最大化单元2000接收源信号估计收敛检验单元3000进一步被适配用于例如通过验证是否源信号估计的当前更新的值偏离源信号估计的前一值小于一定的预定量来确定迭代过程的收敛状态。如果收敛检验单元3000确认源信号估计的当前更新的值偏离源信号估计的前一值小于一定的预定量,那么收敛检验单元3000识别出已经获得源信号估计的收敛。如果收敛检验单元3000确认源信号估计的当前更新的值不偏离源信号估计的前一值小于一定的预定量,那么收敛检验单元3000识别出还未获得源信号估计的收敛。
作为修改有可能的是当反馈或迭代次数达到一定的预定值时终止所述反馈过程。当收敛检验单元3000已经确认源信号估计的收敛已经被获得时,那么收敛检验单元3000发送源信号估计给逆短时傅立叶变换单元4000。如果收敛检验单元3000已经确认还未获得源信号估计的收敛,那么收敛检验单元3000将源信号估计作为输出提供给初始化单元1000以执行上述迭代的进一步的步骤。
收敛检验单元3000提供反馈回路给初始化单元1000。即,初始化单元1000与收敛检验单元1000协作。因此,初始化单元1000需要适配于反馈回路。根据第一实施例,初始化单元1000包括初始源信号估计单元1100、源信号不确定性确定单元1200、和声学环境不确定性确定单元1300。根据第二实施例,修改的初始化单元1000包括修改的初始源信号估计单元1400、修改的源信号不确定性确定单元1500、和声学环境不确定性确定单元1300。以下描述将聚焦于修改的初始源信号估计单元1400、和修改的源信号不确定性确定单元1500。
图10是图示包括在图9中所示的初始化单元1000中的修改的初始源信号估计单元1400的配置的方框图。修改的初始源信号估计单元1400可以进一步包括短时傅立叶变换单元1110、基频估计单元1120、自适应谐波滤波单元1130、和信号切换单元1160。信号切换单元1160的增加能够提高数字化波形初始源信号估计的精度。
短时傅立叶变换单元1110被适配用于接收数字化波形观测信号x[n]。短时傅立叶变换单元1110被适配用于执行数字化波形观测信号x[n]到作为输出的变换后的观测信号的短时傅立叶变换。信号切换单元1160与短时傅立叶变换单元1110和收敛检验单元3000协作。信号切换单元1160被适配用于从短时傅立叶变换单元1110接收变换后的观测信号信号切换单元1160被适配用于从收敛检验单元3000接收源信号估计信号切换单元1160被适配用于执行第一选择操作以产生第一输出。信号切换单元1160还被适配用于执行第二选择操作以产生第二输出。第一和第二选择操作是相互独立的。第一选择操作是用于选择变换后的观测信号和源信号估计之一。在一种情况下,第一选择操作可以用于在除了一个或多个限制步骤之外的迭代的所有步骤中选择变换后的观测信号例如,第一选择操作可以是用于在除了迭代的最后一个或两个步骤之外的迭代的所有步骤中选择变换后的观测信号以及仅仅在最后一个或两个步骤中选择源信号估计在一种情况下,第二选择操作可以是用于在除初始步骤之外的迭代的所有步骤中选择源信号估计在迭代的初始步骤中,信号切换单元1160仅接收变换后的观测信号并选择变换后的观测信号更优选的是就基频fl,m和发声量度vl,m两者的估计而言使用源信号估计而不使用变换后的观测信号
信号切换单元1160执行第一选择操作并产生第一输出。信号切换单元1160执行第二选择操作并产生第二输出。
基频估计单元1120与信号切换单元1160协作。基频估计单元1120被适配用于从信号切换单元1160接收第二输出。即,基频估计单元1120被适配用于在迭代的初始或第一步骤中从信号切换单元1160接收变换后的观测信号以及在迭代的第二或随后步骤中从信号切换单元1160接收源信号估计基频估计单元1120进一步被适配用于基于变换后的观测信号或源信号估计估计每个短时间帧的基频fl,m及其发声量度vl,m。
自适应谐波滤波单元1130与信号切换单元1160和基频估计单元1120协作。自适应谐波滤波单元1130被适配用于从信号切换单元1160接收第一输出以及还从基频估计单元1120接收基频fl,m和发声量度vl,m。即,自适应谐波滤波单元1130被适配用于在除迭代的最后一个或两个步骤之外的迭代的所有步骤中从信号切换单元1160接收变换后的观测信号自适应谐波滤波单元1130还被适配用于在迭代的最后一个或两个步骤中从信号切换单元1160接收源信号估计自适应谐波滤波单元1130还被适配用于在迭代的所有步骤中从基频估计单元1120接收基频fl,m和发声量度vl,m。自适应谐波滤波单元1130还被适配用于基于基频fl,m和发声量度vl,m增强观测信号或源信号估计的谐波结构。增强操作产生估计精度被提高的数字化波形初始源信号估计
如上所述,更优选的是就基频fl,m和发声量度vl,m两者的估计而言基频估计单元1120使用源信号估计而不是使用观测信号因此在迭代的第二或随后步骤中提供源信号估计而不是观测信号给基频估计单元1120能够改善数字化波形初始源信号估计的估计。
在某些情况下,可能更适合于将自适应谐波滤波器应用于源信号估计而不是观测信号以便获得数字化波形初始源信号估计的较佳估计。去混响步骤的一次迭代可能将一定的特殊失真添加到源信号估计中以及当将自适应谐波滤波器应用于源信号估计时,该失真被直接继承到数字化波形初始源信号估计另外,这种失真可能通过迭代的去混响步骤被累积到源信号估计中。为了避免失真的这种累积,有效的是信号切换单元1160被适配用于除了在迭代结束之前的最后一个步骤或最后几个步骤中之外将观测信号提供给自适应谐波滤波单元1130,在所述迭代中使源信号估计的估计精确。
图11是图示包括在图9中所示的初始化单元1000中的修改的源信号不确定性确定单元1500的配置的方框图。修改的源信号不确定性确定单元1500可以进一步包括短时傅立叶变换单元1112、基频估计单元1122、源信号不确定性确定子单元1140和信号切换单元1162。信号切换单元1162的增加能够改善源信号不确定性的估计。根据第二实施例,似然最大化单元2000的配置与在第一实施例中描述的配置相同。
短时傅立叶变换单元1112被适配用于接收数字化波形观测信号x[n]。短时傅立叶变换单元1112被适配用于执行数字化波形观测信号x[n]到作为输出的变换后的观测信号的短时傅立叶变换。信号切换单元1162与短时傅立叶变换单元1110和收敛检验单元3000协作。信号切换单元1162被适配用于从短时傅立叶变换单元1110接收变换后的观测信号信号切换单元1162被适配用于从收敛检验单元3000接收源信号估计信号切换单元1162被适配用于执行第一选择操作以产生第一输出。第一选择操作是用于选择变换后的观测信号和源信号估计之一。在一种情况下,第一选择操作可以是用于在除了迭代的初始步骤之外的迭代的所有步骤中选择源信号估计在迭代的初始步骤中,信号切换单元1162仅接收变换后的观测信号并选择变换后的观测信号更优选的是就基频fl,m和发声量度vl,m两者的估计而言使用源信号估计而不使用变换后的观测信号
基频估计单元1122与信号切换单元1162协作。基频估计单元1122被适配用于从信号切换单元1162接收第一输出。即,基频估计单元1122被适配用于在迭代的初始步骤中接收变换后的观测信号以及在除迭代的初始步骤之外的迭代的所有步骤中接收源信号估计基频估计单元1122进一步被适配用于估计每个短时间帧的基频fl,m及其发声量度vl,m。参考变换后的观测信号或源信号估计进行所述估计。
源信号不确定性确定单元1140与基频估计单元1122协作。源信号不确定性确定单元1140被适配用于从基频估计单元1122接收基频fl,m和发声量度vl,m。源信号不确定性确定单元1140进一步被适配用于确定源信号不确定性如上所述,更优选的是就基频fl,m和发声量度vl,m两者的估计而言使用源信号估计而不使用观测信号
第三实施例:
图12是图示根据本发明的第三实施例基于源和室内声学的概率模型的语音去混响设备的配置的方框图。语音去混响设备30000能够通过一组功能单元来实现,这些功能单元协作用于接收观测信号x[n]的输入并产生数字化波形源信号估计或滤波源信号估计的输出。语音去混响设备30000能够例如通过计算机或处理器来实现。语音去混响设备30000执行语音去混响操作。语音去混响方法能够通过要由计算机执行的程序来实现。
语音去混响设备30000典型地可以包括上述初始化单元1000、上述似然最大化单元2000-1和逆滤波器应用单元5000。初始化单元1000可以被适配用于接收数字化波形观测信号x[n]。数字化波形观测信号x[n]可以包含具有未知混响程度的语音信号。通过诸如一个或多个麦克风的设备能够捕获该语音信号。初始化单元1000可以被适配用于从观测信号提取与源信号和声学环境有关的初始源信号估计和不确定性。初始化单元1000还可以被适配用于用公式表达初始源信号估计、源信号不确定性和声学环境不确定性的表示。针对所有索引l、m、k和k′,这些表示被列举为是数字化波形初始源信号估计的是表示源信号不确定性的方差或离差的以及是表示声学环境不确定性的方差或离差的即,初始化单元1000可以被适配用于接收数字化波形信号x[n]的输入作为观测信号并产生数字化波形初始源信号估计表示源信号不确定性的方差或离差以及表示声学环境不确定性的方差或离差
似然最大化单元2000-1可以与初始化单元1000协作。即,似然最大化单元2000-1可以被适配用于从初始化单元1000接收数字化波形初始源信号估计源信号不确定性和声学环境不确定性的输入。似然最大化单元2000-1还可以被适配用于接收数字化波形观测信号x[n]的另一个输入作为观测信号。是数字化波形初始源信号估计。是表示源信号不确定性的第一方差。是表示声学环境不确定性的第二方差。似然最大化单元2000-1还可以被适配用于确定最大化似然函数的逆滤波器估计其中参考数字化波形观测信号x[n]、数字化波形初始源信号估计表示源信号不确定性的第一方差以及表示声学环境不确定性的第二方差进行所述确定。通常,可以基于概率密度函数定义似然函数,该概率密度函数根据第一未知参数、第二未知参数、和观测数据的第一随机变量进行评估。参考源信号估计定义所述第一未知参数。参考室内传递函数的逆滤波器定义第二未知参数。参考观测信号和初始源信号估计定义观测数据的第一随机变量。逆滤波器估计是室内传递函数的逆滤波器的估计。使用迭代优化算法来执行逆滤波器估计的确定。
能够通过紧接着的迭代算法最大化该似然函数。
第二步骤是计算在θk固定的条件下最大化似然函数的逆滤波器估计
第三步骤是计算在wk’固定的条件下最大化似然函数的源信号估计
第四步骤是重复上述第二和第三步骤,直到迭代的收敛被确认为止。
当与上述方程(8)相同的定义被用于上述似然函数中的概率密度函数(pdf)时,容易地显示出能够分别通过上述方程(12)和(15)获得上述第二步骤中的逆滤波器估计和上述第三步骤中的源信号估计通过检验是否逆滤波器估计的当前获得的值和逆滤波器估计的之前获得的值之差小于预定的阈值,可以完成第四步骤中的上述收敛确认。最后,该观测信号可以通过将在上述第二步骤中获得的逆滤波器估计应用于观测信号来去混响。
逆滤波器应用单元5000可以与似然最大化单元2000-1协作。即,逆滤波器应用单元5000可以被适配用于从似然最大化单元2000-1接收最大化似然函数(16)的逆滤波器估计的输入。逆滤波器应用单元5000还可以被适配用于接收数字化波形观测信号x[n]。逆滤波器应用单元5000还可以被适配用于将逆滤波器估计应用于数字化波形观测信号x[n]以便产生恢复后的数字化波形源信号估计或滤波数字化波形源信号估计
在某一情况下,逆滤波器应用单元5000可以被适配用于将长时傅立叶变换应用于数字化波形观测信号x[n]以产生变换后的观测信号xl,k′。逆滤波器应用单元5000可以进一步被适配用于将每个帧中的变换后的观测信号xl,k′乘以逆滤波器估计以产生滤波源信号估计逆滤波器应用单元5000可以进一步被适配用于将逆长时傅立叶变换应用于滤波源信号估计以产生滤波数字化波形源信号估计
在另一情况下,逆滤波器应用单元5000可以被适配用于将逆长时傅立叶变换应用于逆滤波器估计以产生数字化波形逆滤波器估计逆滤波器应用单元5000可以被适配用于将数字化波形观测信号x[n]与数字化波形逆滤波器估计进行卷积以产生恢复后的数字化波形源信号估计
似然最大化单元2000-1能够通过相互协作以确定并输出最大化所述似然函数的逆滤波器估计的一组子功能单元来实现。图13是图示在图12中所示的似然最大化单元2000-1的配置的方框图。在一种情况下,似然最大化单元2000-1可以进一步包括上述长时傅立叶变换单元2100、上述更新单元2200、上述STFS到LTFS变换单元2300、上述逆滤波器估计单元2400、上述滤波单元2500、LTFS到STFS变换单元2600、源信号估计单元2710、收敛检验单元2720、上述短时傅立叶变换单元2800、以及上述长时傅立叶变换单元2900。这些单元协作以继续执行迭代操作,直到最大化似然函数的逆滤波器估计已经被确定为止。
长时傅立叶变换单元2100被适配用于从初始化单元1000接收数字化波形观测信号x[n]作为观测信号。长时傅立叶变换单元2100还被适配用于执行数字化波形观测信号x[n]到作为长期傅立叶频谱(LTFS)的变换后的观测信号xl,k′的长时傅立叶变换。
更新单元2200与长时傅立叶变换单元2900和STFS到LTFS变换单元2300协作。更新单元2200被适配用于在迭代的初始步骤中从长时傅立叶变换单元2900接收初始源信号估计以及进一步被适配用于用源信号估计θk′代替更新单元2200此外被适配用于发送更新的源信号估计θk′给逆滤波器估计单元2400。更新单元2200还被适配用于在迭代的随后步骤中从STFS到LTFS变换单元2300接收源信号估计以及用源信号估计θk′代替更新单元2200还被适配用于发送更新的源信号估计θk′给逆滤波器估计单元2400。
逆滤波器估计单元2400与长时傅立叶变换单元2100、更新单元2200和初始化单元1000协作。逆滤波器估计单元2400被适配用于从长时傅立叶变换单元2100接收观测信号xl,k′。逆滤波器估计单元2400还被适配用于从更新单元2200接收更新的源信号估计θk′。逆滤波器估计单元2400还被适配用于从初始化单元1000接收表示声学环境不确定性的第二方差逆滤波器估计单元2400还被适配用于根据上述方程(12)基于观测信号xl,k′、更新的源信号估计θk′、和表示声学环境不确定性的第二方差计算逆滤波器估计逆滤波器估计单元2400进一步被适配用于输出逆滤波器估计
收敛检验单元2720与逆滤波器估计单元2400协作。收敛检验单元2720被适配用于从逆滤波器估计单元2400接收逆滤波器估计收敛检验单元2720被适配用于例如通过比较当前已经被估计的逆滤波器估计的当前值与之前已经被估计的逆滤波器估计的前一值以及检验是否所述当前值偏离前一值小于一定的预定量来确定迭代过程的收敛状态。如果收敛检验单元2720确认逆滤波器估计的当前值偏离其前一值小于一定的预定量,那么收敛检验单元2720识别出已经获得逆滤波器估计的收敛。如果收敛检验单元2720确认逆滤波器估计的当前值偏离其前一值不小于一定的预定量,那么收敛检验单元2720识别出还未获得逆滤波器估计的收敛。
作为修改有可能的是当迭代次数达到一定的预定值时终止所述迭代过程。即,收敛检验单元2720已经确认迭代次数达到一定的预定值,那么收敛检验单元2720识别出已经获得逆滤波器估计的收敛。如果收敛检验单元2720已经确认已经获得逆滤波器估计的收敛,那么收敛检验单元2720将逆滤波器估计作为第一输出提供给逆滤波器应用单元5000。如果收敛检验单元2720已经确定还未获得逆滤波器估计的收敛,那么收敛检验单元2720将逆滤波器估计作为第二输出提供给滤波单元2500。
滤波单元2500与长时傅立叶变换单元2100和收敛检验单元2720协作。滤波单元2500被适配用于从长时傅立叶变换单元2100接收观测信号xl,k′。滤波单元2500还被适配用于从收敛检验单元2720接收逆滤波器估计滤波单元2500还被适配用于将观测信号xl,k′应用于逆滤波器估计以产生滤波源信号估计
LTFS到STFS变换单元2600与滤波单元2500协作。LTFS到STFS变换单元2600被适配用于从滤波单元2500接收滤波源信号估计LTFS到STFS变换单元2600进一步被适配用于执行滤波源信号估计到变换后的滤波源信号估计的LTFS到STFS变换。当滤波过程是计算观测信号xl,k′和逆滤波器估计的乘积时,LTFS到STFS变换单元2600进一步被适配用于执行乘积到变换后的信号的LTFS到STFS变换。在这种情况下,乘积表示滤波源信号估计以及变换后的信号表示变换后的滤波源信号估计
源信号估计单元2710与LTFS到STFS变换单元2600、短时傅立叶变换单元2800、以及初始化单元1000协作。源信号估计单元2710被适配用于从LTFS到STFS变换单元2600接收变换后的滤波源信号估计源信号估计单元2710还被适配用于从初始化单元1000接收表示源信号不确定性的第一方差以及表示声学环境不确定性的第二方差源信号估计单元2710还被适配用于从短时傅立叶变换单元2800接收初始源信号估计源信号估计单元2710还被适配用于基于变换后的滤波源信号估计表示源信号不确定性的第一方差表示声学环境不确定性的第二方差以及初始源信号估计估计源信号其中根据上述方程(15)进行所述估计。
STFS到LTFS变换单元2300与源信号估计单元2710协作。STFS到LTFS变换单元2300被适配用于从源信号估计单元2710接收源信号估计STFS到LTFS变换单元2300被适配用于执行源信号估计到变换后的源信号估计的STFS到LTFS变换。
在迭代操作的随后步骤中,更新单元2200从STFS到LTFS变换单元2300接收源信号估计并且用源信号估计θk’代替以及发送更新的源信号估计θk′给逆滤波器估计单元2400。在迭代的初始步骤中,更新的源信号估计θk′是从长时傅立叶变换单元2900提供的在迭代的第二或随后步骤中,更新的源信号估计θk′是
将参考图13描述似然最大化单元2000-1的操作。
在迭代的初始步骤中,提供数字化波形观测信号x[n]给长时傅立叶变换单元2100。长时傅立叶变换单元2100执行长时傅立叶变换以便将数字化波形观测信号x[n]变换成变换后的观测信号xl,k′作为长期傅立叶频谱(LTFS)。将数字化波形初始源信号估计从初始化单元1000提供给短时傅立叶变换单元2800和长时傅立叶变换单元2900。短时傅立叶变换单元2800执行短时傅立叶变换以便将数字化波形初始源信号估计变换成初始源信号估计长时傅立叶变换单元2900执行长时傅立叶变换以便将数字化波形初始源信号估计变换成初始源信号估计
从长时傅立叶变换单元2900提供初始源信号估计给更新单元2200。更新单元2200用源信号估计θk′代替初始源信号估计然后将初始源信号估计从更新单元2200提供给逆滤波器估计单元2400。从长时傅立叶变换单元2100提供观测信号xl,k′给逆滤波器估计单元2400。从初始化单元1000提供表示声学环境不确定性的第二方差给逆滤波器估计单元2400。逆滤波器估计单元2400基于观测信号xl,k′、初始源信号估计θk′、和表示声学环境不确定性的第二方差计算逆滤波器估计其中根据上述方程(12)进行所述计算。
从逆滤波器估计单元2400提供逆滤波器估计给收敛检验单元2720。收敛检验单元2720进行迭代过程的收敛状态的确定。例如,通过比较当前已经被估计的逆滤波器估计的当前值与之前已经被估计的逆滤波器估计的前一值来进行所述确定。收敛检验单元2720检验是否当前值偏离前一值小于一定的预定量。如果收敛检验单元2720确认逆滤波器估计的当前值偏离其前一值小于一定的预定量,那么收敛检验单元2720识别出已经获得逆滤波器估计的收敛。如果收敛检验单元2720确认逆滤波器估计的当前值偏离其前一值不小于一定的预定量,那么收敛检验单元2720识别出还未获得逆滤波器估计的收敛。
如果已经获得逆滤波器估计的收敛,那么从收敛检验单元2720提供逆滤波器估计给逆滤波器应用单元5000。如果还未获得逆滤波器估计的收敛,那么从收敛检验单元2720提供逆滤波器估计给滤波单元2500。观测信号xl,k’进一步从长时傅立叶变换单元2100被提供给滤波单元2500。滤波单元2500将逆滤波器估计应用于观测信号xl,k’以产生滤波源信号估计用于将观测信号xl,k′应用于逆滤波器估计的滤波过程的典型实例可以是计算观测信号xl,k’和逆滤波器估计的乘积在这种情况下,通过观测信号xl,k′和逆滤波器估计的乘积来给定滤波源信号估计
从滤波单元2500提供滤波源信号估计给LTFS到STFS变换单元2600。LTFS到STFS变换单元2600执行LTFS到STFS变换以便将滤波源信号估计变换成变换后的滤波源信号估计当所述滤波过程是计算观测信号xl,k′和逆滤波器估计的乘积时,该乘积被变换成变换后的信号
从LTFS到STFS变换单元2600提供变换后的滤波源信号估计给源信号估计单元2710。从初始化单元1000提供表示源信号不确定性的第一方差和表示声学环境不确定性的第二方差给源信号估计单元2710。从短时傅立叶变换单元2800提供初始源信号估计给源信号估计单元2710。源信号估计单元2710基于变换后的滤波源信号估计表示源信号不确定性的第一方差和表示声学环境不确定性的第二方差以及初始源信号估计计算源信号估计其中根据上述方程(15)进行所述估计。
从源信号估计单元2710提供源信号估计给STFS到LTFS变换单元2300以便将源信号估计变换成变换后的源信号估计从STFS到LTFS变换单元2300提供所述变换后的源信号估计给更新单元2200。更新单元2200用源信号估计θk′代替变换后的源信号估计从更新单元2200提供更新的源信号估计θk′给逆滤波器估计单元2400。
在迭代的第二或随后步骤中,从更新单元2200提供源信号估计给逆滤波器估计单元2400。还将观测信号xl,k’从长时傅立叶变换单元2100提供给逆滤波器估计单元2400。从初始化单元1000提供表示声学环境不确定性的第二方差给逆滤波器估计单元2400。逆滤波器估计单元2400基于观测信号xl,k′、更新的源信号估计和表示声学环境不确定性的第二方差计算更新的逆滤波器估计其中根据上述方程(12)进行所述计算。
图14是图示在图12中所示的逆滤波器应用单元5000的配置的方框图。逆滤波器应用单元5000的典型实例可以包括但不限于逆长时傅立叶变换单元5100和卷积单元5200。逆长时傅立叶变换单元5100与似然最大化单元2000-1协作。逆长时傅立叶变换单元5100被适配用于从似然最大化单元2000-1接收逆滤波器估计长时傅立叶变换单元5100进一步被适配用于执行逆滤波器估计到数字化波形逆滤波器估计的逆长时傅立叶变换。
卷积单元5200与逆长时傅立叶变换单元5100协作。卷积单元5200被适配用于从逆长时傅立叶变换单元5100接收数字化波形逆滤波器估计卷积单元5200还被适配用于接收数字化波形观测信号x[n]。卷积单元5200还被适配用于执行卷积过程以将数字化波形观测信号x[n]与数字化波形逆滤波器估计进行卷积以产生恢复后的数字化波形源信号估计作为去混响的信号。
图15是图示在图12中所示的逆滤波器应用单元5000的配置的方框图。逆滤波器应用单元5000的典型实例可以包括但不限于长时傅立叶变换单元5300、滤波单元5400、以及逆长时傅立叶变换单元5500。长时傅立叶变换单元5300被适配用于接收数字化波形观测信号x[n]。长时傅立叶变换单元5300被适配用于执行数字化波形观测信号x[n]到变换后的观测信号xl,k’长时傅立叶变换。
滤波单元5400与长时傅立叶变换单元5300和似然最大化单元2000-1协作。滤波单元5400被适配用于从长时傅立叶变换单元5300接收变换后的观测信号xl,k′。滤波单元5400还被适配用于从似然最大化单元2000-1接收逆滤波器估计滤波单元5400进一步被适配用于将逆滤波器估计应用于变换后的观测信号xl,k′以产生滤波源信号估计将逆滤波器估计应用于变换后的观测信号xl,k可以通过将每个帧中的变换后的观测信号xl,k′乘以逆滤波器估计来进行。
逆长时傅立叶变换单元5500与滤波单元5400协作。逆长时傅立叶变换单元5500被适配用于从滤波单元5400接收滤波源信号估计逆长时傅立叶变换单元5500被适配用于执行滤波源信号估计到作为去混响的信号的滤波数字化波形源信号估计的逆长时傅立叶变换。
试验:
借助于确认本方法的性能执行了简单的试验。如由TomohiroNakatani和Masato Miyoshi的“Blind dereverberation of singlechannel speech signal based on harmonic struture”(Proc.ICASSP-2003,vol.1,第92-95页,2003年4月)详细公开的,以0.1秒、0.2秒、0.5秒、和1.0秒的RT60时间采用了单词话语(wordutterances)的相同的源信号以及相同的脉冲响应。通过将源信号与脉冲响应进行卷积来合成观测信号。准备了与用于HERB和SBD相同的两种类型的初始源信号估计,即和其中H{·}和N{·}分别是用于HERB的谐波滤波器和用于SBD的噪声减小滤波器。相对于发声量度vl,m确定源信号不确定性,其中该发声量度和HERB一起被用于判定观测信号的每个短时间帧的语音状态。根据该量度,当对于固定的阈值δ,vl,m>δ时,帧被确定为有声(voiced)。特别是,在试验中被确定为:
其中G{u}是被定义成G{u}=e-160(u-0.95)的非线性归一化函数。另一方面,被设置成常量值1。结果,当G{u}中的u从0移动到1时,上述方程(15)中的的权重变成从0到1变化的S形函数。对于每个试验,EM步骤被迭代了四次。另外,还引入了具有反馈回路的重复估计方案。采用对应于42ms的K(r)=504、对应于10.9s的K=130800、对应于1ms的τ=12、以及12kHz采样频率作为分析条件。
能量衰减曲线:
图12A到12H显示使用女人和男人所说的100单词观测信号在利用和不利用EM算法的情况下室内脉冲响应和通过HERB和SBD去混响的脉冲响应的能量衰减曲线。图12A图示当女人说话时在RT60=1.0秒的能量衰减曲线。图12B图示当女人说话时在RT60=0.5秒的能量衰减曲线。图12C图示当女人说话时在RT60=0.2秒的能量衰减曲线。图12D图示当女人说话时在RT60=0.1秒的能量衰减曲线。图12E图示当男人说话时在RT60=1.0秒的能量衰减曲线。图12F图示当男人说话时在RT60=0.5秒的能量衰减曲线。图12G图示当男人说话时在RT60=0.2秒的能量衰减曲线。图12H图示当男人说话时在RT60=0.1秒的能量衰减曲线。图12A到12H清楚地表明EM算法能够利用HERB和SBD有效地减小混响能量。
相应地,如上所述,本发明的一个方面针对新的去混响方法,其中源信号和室内声学的特征借助高斯概率密度函数(pdf)来表示,以及源信号被估计为最大化基于这些概率密度函数(pdf)所定义的似然函数的信号。迭代优化算法被用于有效地解决这种优化问题。试验结果显示出就去混响脉冲响应的能量衰减曲线而言,本方法能够大大地提高基于语音信号特征的两种去混响方法、即HERB和SBD的性能。由于HERB和SBD在提高在混响环境中捕获的语音信号的ASR性能方面是有效的,所以本方法能够利用较少的观测信号提高性能。
尽管以上已经描述和图示了本发明的优选实施例,但是应该理解这些优选实施例是本发明的示例并且不应被认为是限制性的。在不背离本发明的精神或范围的情况下能够进行添加、省略、替换、和其他修改。因此,本发明不应该被认为是受上述描述限制,而是仅仅受所附的权利要求书的范围限制。
Claims (42)
1.一种语音去混响设备,包括:
确定最大化似然函数的源信号估计的似然最大化单元,其中参考观测信号、初始源信号估计、表示源信号不确定性的第一方差、和表示声学环境不确定性的第二方差进行所述确定,其中,所述表示源信号不确定性的第一方差是在给定源信号的情况下初始源信号估计的概率密度函数的方差以及所述表示声学环境不确定性的第二方差是在给定源信号的情况下观测信号和室内传递函数的逆滤波器的联合概率密度函数的方差,以及
其中,所述似然函数基于根据未知参数、丢失数据的第一随机变量、和观测数据的第二随机变量所评估的概率密度函数被定义,其中参考源信号估计来定义所述未知参数,丢失数据的第一随机变量表示室内传递函数的逆滤波器,以及参考观测信号和初始源信号估计来定义观测数据的第二随机变量。
2.根据权利要求1所述的语音去混响设备,其中所述似然最大化单元使用迭代优化算法来确定源信号估计。
3.根据权利要求2所述的语音去混响设备,其中所述迭代优化算法是期望最大化算法。
4.根据权利要求1所述的语音去混响设备,其中所述似然最大化单元进一步包括:
逆滤波器估计单元,其参考初始源信号估计和更新的源信号估计之一、观测信号以及第二方差来计算逆滤波器估计;
滤波单元,其将逆滤波器估计应用于观测信号并产生滤波信号;
源信号估计和收敛检验单元,其参考初始源信号估计、第一方差、第二方差、和滤波信号来计算源信号估计,所述源信号估计和收敛检验单元进一步确定是否源信号估计的收敛被获得,如果源信号估计的收敛被获得,所述源信号估计和收敛检验单元进一步输出源信号估计作为去混响的信号;以及
更新单元,其将所述源信号估计更新为更新的源信号估计,如果源信号估计的收敛未被获得,所述更新单元则进一步提供更新的源信号估计给逆滤波器估计单元,以及所述更新单元在初始更新步骤中进一步提供所述初始源信号估计给逆滤波器估计单元。
5.根据权利要求4所述的语音去混响设备,其中所述似然最大化单元进一步包括:
第一长时傅立叶变换单元,其执行波形观测信号到变换后的观测信号的第一长时傅立叶变换,该第一长时傅立叶变换单元进一步将变换后的观测信号作为观测信号提供给逆滤波器估计单元和滤波单元;
LTFS到STFS变换单元,其执行滤波信号到变换后的滤波信号的LTFS到STFS变换,该LTFS到STFS变换单元进一步将变换后的滤波信号作为滤波信号提供给源信号估计和收敛检验单元;
STFS到LTFS变换单元,其执行源信号估计到变换后的源信号估计的STFS到LTFS变换,如果源信号估计的收敛未被获得,该STFS到LTFS变换单元进一步将变换后的源信号估计作为源信号估计提供给更新单元;
第二长时傅立叶变换单元,其执行波形初始源信号估计到第一变换初始源信号估计的第二长时傅立叶变换,该第二长时傅立叶变换单元进一步将第一变换初始源信号估计作为初始源信号估计提供给更新单元;以及
短时傅立叶变换单元,其执行波形初始源信号估计到第二变换初始源信号估计的短时傅立叶变换,该短时傅立叶变换单元进一步将第二变换初始源信号估计作为初始源信号估计提供给源信号估计和收敛检验单元。
6.根据权利要求1所述的语音去混响设备,进一步包括:
执行源信号估计到波形源信号估计的逆短时傅立叶变换的逆短时傅立叶变换单元。
7.根据权利要求1所述的语音去混响设备,进一步包括:
基于观测信号产生初始源信号估计、第一方差、和第二方差的初始化单元。
8.根据权利要求7所述的语音去混响设备,其中所述初始化单元进一步包括:
基频估计单元,其估计来自变换后的信号的每个短时间帧的基频和发声量度,其中通过观测信号的短时傅立叶变换来给定所述变换后的信号;以及
源信号不确定性确定单元,其基于所述基频和发声量度确定第一方差。
9.根据权利要求1所述的语音去混响设备,进一步包括:
初始化单元,其基于观测信号产生初始源信号估计、第一方差、和第二方差;和
收敛检验单元,其从似然最大化单元接收源信号估计,该收敛检验单元确定是否源信号估计的收敛被获得,如果获得源信号估计的收敛,则所述收敛检验单元进一步输出源信号估计作为去混响的信号,并且如果未获得源信号估计的收敛,则所述收敛检验单元进一步提供源信号估计给初始化单元以使初始化单元能够基于该源信号估计产生初始源信号估计、第一方差、和第二方差。
10.根据权利要求9所述的语音去混响设备,其中所述初始化单元进一步包括:
第二短时傅立叶变换单元,其执行观测信号到第一变换观测信号的第二短时傅立叶变换;
第一选择单元,其执行第一选择操作以产生第一选择输出以及第二选择操作以产生第二选择输出,第一和第二选择操作是相互独立的,当所述第一选择单元接收第一变换观测信号的输入而不接收源信号估计的任何输入时,第一选择操作用于选择第一变换观测信号作为第一选择输出,而当所述第一选择单元接收第一变换观测信号和源信号估计的输入时,第一选择操作用于选择第一变换观测信号和源信号估计之一作为第一选择输出,当所述第一选择单元接收第一变换观测信号的输入而不接收源信号估计的任何输入时,第二选择操作用于选择第一变换观测信号作为第二选择输出,而当所述第一选择单元接收第一变换观测信号和源信号估计的输入时,第二选择操作用于选择第一变换观测信号和源信号估计之一作为第二选择输出;
基频估计单元,其接收第二选择输出并估计来自第二选择输出的每个短时间帧的基频和发声量度;以及
自适应谐波滤波单元,其接收第一选择输出、基频和发声量度,该自适应谐波滤波单元基于基频和发声量度增强第一选择输出的谐波结构以产生初始源信号估计。
11.根据权利要求9所述的语音去混响设备,其中所述初始化单元进一步包括:
第三短时傅立叶变换单元,其执行观测信号到第二变换观测信号的第三短时傅立叶变换;
第二选择单元,其执行第三选择操作以产生第三选择输出,当所述第二选择单元接收第二变换观测信号的输入而不接收源信号估计的任何输入时,第三选择操作用于选择第二变换观测信号作为第三选择输出,而当所述第二选择单元接收第二变换观测信号和源信号估计的输入时,第三选择操作用于选择第二变换观测信号和源信号估计之一作为第三选择输出;
基频估计单元,其接收第三选择输出并估计来自第三选择输出的每个短时间帧的基频和发声量度;以及
源信号不确定性确定单元,其基于基频和发声量度确定第一方差。
12.根据权利要求9所述的语音去混响设备,进一步包括:
逆短时傅立叶变换单元,如果获得源信号估计的收敛,则所述逆短时傅立叶变换单元执行源信号估计到波形源信号估计的逆短时傅立叶变换。
13.一种语音去混响设备,包括:
确定最大化似然函数的逆滤波器估计的似然最大化单元,其中参考观测信号、初始源信号估计、表示源信号不确定性的第一方差、和表示声学环境不确定性的第二方差进行所述确定,其中,所述表示源信号不确定性的第一方差是在给定源信号的情况下初始源信号估计的概率密度函数的方差以及所述表示声学环境不确定性的第二方差是在给定源信号的情况下观测信号和室内传递函数的逆滤波器的联合概率密度函数的方差,以及
其中,所述似然函数基于根据第一未知参数、第二未知参数、以及观测数据的第一随机变量所评估的概率密度函数被定义,其中参考源信号估计来定义第一未知参数,参考室内传递函数的逆滤波器来定义第二未知参数,参考观测信号和初始源信号估计来定义观测数据的第一随机变量,逆滤波器估计是室内传递函数的逆滤波器的估计。
14.根据权利要求13所述的语音去混响设备,其中所述似然最大化单元使用迭代优化算法来确定逆滤波器估计。
15.根据权利要求13所述的语音去混响设备,进一步包括:
将逆滤波器估计应用于观测信号并产生源信号估计的逆滤波器应用单元。
16.根据权利要求15所述的语音去混响设备,其中所述逆滤波器应用单元进一步包括:
第一逆长时傅立叶变换单元,其执行逆滤波器估计到变换后的逆滤波器估计的第一逆长时傅立叶变换;以及
卷积单元,其接收变换后的逆滤波器估计和观测信号,以及将观测信号与变换后的逆滤波器估计进行卷积以产生源信号估计。
17.根据权利要求15所述的语音去混响设备,其中所述逆滤波器应用单元进一步包括:
第一长时傅立叶变换单元,其执行观测信号到变换后的观测信号的第一长时傅立叶变换;
第一滤波单元,其将逆滤波器估计应用于变换后的观测信号,以及产生滤波源信号估计;和
第二逆长时傅立叶变换单元,其执行滤波源信号估计到源信号估计的第二逆长时傅立叶变换。
18.根据权利要求13所述的语音去混响设备,其中所述似然最大化单元进一步包括:
逆滤波器估计单元,其参考初始源信号估计和更新的源信号估计之一、观测信号以及第二方差计算逆滤波器估计;
收敛检验单元,其确定是否逆滤波器估计的收敛被获得,如果获得逆滤波器估计的收敛,该收敛检验单元进一步输出逆滤波器估计作为将要对所述观测信号进行去混响的滤波器,
滤波单元,如果未获得逆滤波器估计的收敛,该滤波单元从所述收敛检验单元接收逆滤波器估计,该滤波单元进一步将逆滤波器估计应用于观测信号并产生滤波信号;
源信号估计单元,其参考初始源信号估计、第一方差、第二方差、和滤波信号计算源信号估计;
更新单元,其将源信号估计更新为更新的源信号估计,该更新单元进一步在初始更新步骤中提供初始源信号估计给逆滤波器估计单元,该更新单元进一步在除初始更新步骤之外的更新步骤中提供更新的源信号估计给逆滤波器估计单元。
19.根据权利要求18所述的语音去混响设备,其中所述似然最大化单元进一步包括:
第二长时傅立叶变换单元,其执行波形观测信号到变换后的观测信号的第二长时傅立叶变换,该第二长时傅立叶变换单元进一步将变换后的观测信号作为观测信号提供给逆滤波器估计单元和滤波单元;
LTFS到STFS变换单元,其执行滤波信号到变换后的滤波信号的LTFS到STFS变换,该LTFS到STFS变换单元进一步将变换后的滤波信号作为滤波信号提供给源信号估计单元;
STFS到LTFS变换单元,其执行源信号估计到变换后的源信号估计的STFS到LTFS变换,该STFS到LTFS变换单元进一步将变换后的源信号估计作为源信号估计提供给更新单元;
第三长时傅立叶变换单元,其执行波形初始源信号估计到第一变换初始源信号估计的第三长时傅立叶变换,该第三长时傅立叶变换单元进一步将第一变换初始源信号估计作为初始源信号估计提供给更新单元;以及
短时傅立叶变换单元,其执行波形初始源信号估计到第二变换初始源信号估计的短时傅立叶变换,该短时傅立叶变换单元进一步将第二变换初始源信号估计作为初始源信号估计提供给源信号估计单元。
20.根据权利要求13所述的语音去混响设备,进一步包括:
基于观测信号产生初始源信号估计、第一方差、和第二方差的初始化单元。
21.根据权利要求20所述的语音去混响设备,其中所述初始化单元进一步包括:
基频估计单元,其估计来自变换后的信号的每个短时间帧的基频和发声量度,其中通过观测信号的短时傅立叶变换来给定所述变换后的信号;以及
源信号不确定性确定单元,其基于基频和发声量度确定第一方差。
22.一种语音去混响方法,包括:
确定最大化似然函数的源信号估计,其中参考观测信号、初始源信号估计、表示源信号不确定性的第一方差、和表示声学环境不确定性的第二方差进行所述确定,其中,所述表示源信号不确定性的第一方差是在给定源信号的情况下初始源信号估计的概率密度函数的方差以及所述表示声学环境不确定性的第二方差是在给定源信号的情况下观测信号和室内传递函数的逆滤波器的联合概率密度函数的方差,以及
其中,所述似然函数基于根据未知参数、丢失数据的第一随机变量、和观测数据的第二随机变量所评估的概率密度函数被定义,其中参考源信号估计来定义未知参数,丢失数据的第一随机变量表示室内传递函数的逆滤波器,参考观测信号和初始源信号估计来定义观测数据的第二随机变量。
23.根据权利要求22所述的语音去混响方法,其中使用迭代优化算法来确定源信号估计。
24.根据权利要求23所述的语音去混响方法,其中所述迭代优化算法是期望最大化算法。
25.根据权利要求22所述的语音去混响方法,其中确定源信号估计进一步包括:
参考初始源信号估计和更新的源信号估计之一、观测信号以及第二方差计算逆滤波器估计;
将逆滤波器估计应用于观测信号,以产生滤波信号;
参考初始源信号估计、第一方差、第二方差、和滤波信号计算源信号估计;
确定是否源信号估计的收敛被获得;
如果获得源信号估计的收敛,则输出源信号估计作为去混响的信号;以及
如果未获得源信号估计的收敛,则将源信号估计更新为更新的源信号估计。
26.根据权利要求25所述的语音去混响方法,其中确定源信号估计进一步包括:
执行波形观测信号到变换后的观测信号的第一长时傅立叶变换,并进一步将变换后的观测信号作为观测信号提供以计算逆滤波器估计和产生滤波信号;
执行滤波信号到变换后的滤波信号的LTFS到STFS变换,并且进一步将变换后的滤波信号作为滤波信号提供以计算源信号估计和确定是否源信号估计的收敛被获得;
如果未获得源信号估计的收敛,执行源信号估计到变换后的源信号估计的STFS到LTFS变换并进一步将变换后的源信号估计作为源信号估计提供以将源信号估计更新为更新的源信号估计;
执行波形初始源信号估计到第一变换初始源信号估计的第二长时傅立叶变换,并进一步将第一变换初始源信号估计作为初始源信号估计提供以在初始更新步骤中被提供用于计算逆滤波器估计;以及
执行波形初始源信号估计到第二变换初始源信号估计的短时傅立叶变换,并进一步将第二变换初始源信号估计作为初始源信号估计提供以计算源信号估计和确定是否源信号估计的收敛被获得。
27.根据权利要求22所述的语音去混响方法,进一步包括:
执行源信号估计到波形源信号估计的逆短时傅立叶变换。
28.根据权利要求22所述的语音去混响方法,进一步包括:
基于观测信号产生初始源信号估计、第一方差、和第二方差。
29.根据权利要求28所述的语音去混响方法,其中产生初始源信号估计、第一方差、和第二方差进一步包括:
估计来自变换后的信号的每个短时间帧的基频和发声量度,其中通过观测信号的短时傅立叶变换来给定所述变换后的信号;以及
基于所述基频和发声量度确定第一方差。
30.根据权利要求22所述的语音去混响方法,进一步包括:
基于观测信号产生初始源信号估计、第一方差、和第二方差;
确定是否源信号估计的收敛被获得;
如果获得源信号估计的收敛,则输出源信号估计作为去混响的信号;以及
如果未获得源信号估计的收敛,则返回到产生初始源信号估计、第一方差、和第二方差。
31.根据权利要求30所述的语音去混响方法,其中产生初始源信号估计、第一方差、和第二方差进一步包括:
执行观测信号到第一变换观测信号的第二短时傅立叶变换;
执行第一选择操作以产生第一选择输出,当接收第一变换观测信号的输入而不接收源信号估计的任何输入时,第一选择操作用于选择第一变换观测信号作为第一选择输出,当接收第一变换观测信号和源信号估计的输入时,第一选择操作用于选择第一变换观测信号和源信号估计之一作为第一选择输出;
执行第二选择操作以产生第二选择输出,当接收第一变换观测信号的输入而不接收源信号估计的任何输入时,第二选择操作用于选择第一变换观测信号作为第二选择输出,当接收第一变换观测信号和源信号估计的输入时,第二选择操作用于选择第一变换观测信号和源信号估计之一作为第二选择输出;
估计来自第二选择输出的每个短时间帧的基频和发声量度;以及
基于基频和发声量度增强第一选择输出的谐波结构以产生初始源信号估计。
32.根据权利要求30所述的语音去混响方法,其中产生初始源信号估计、第一方差、和第二方差进一步包括:
执行观测信号到第二变换观测信号的第三短时傅立叶变换;
执行第三选择操作以产生第三选择输出,当接收第二变换观测信号的输入而不接收源信号估计的任何输入时,第三选择操作用于选择第二变换观测信号作为第三选择输出,当接收第二变换观测信号和源信号估计的输入时,第三选择操作用于选择第二变换观测信号和源信号估计之一作为第三选择输出;
估计来自第三选择输出的每个短时间帧的基频和发声量度;以及
基于所述基频和发声量度确定第一方差。
33.根据权利要求30所述的语音去混响方法,进一步包括:
如果获得源信号估计的收敛,则执行源信号估计到波形源信号估计的逆短时傅立叶变换。
34.一种语音去混响方法,包括:
确定最大化似然函数的逆滤波器估计,其中参考观测信号、初始源信号估计、表示源信号不确定性的第一方差、和表示声学环境不确定性的第二方差进行所述确定,其中,所述表示源信号不确定性的第一方差是在给定源信号的情况下初始源信号估计的概率密度函数的方差以及所述表示声学环境不确定性的第二方差是在给定源信号的情况下观测信号和室内传递函数的逆滤波器的联合概率密度函数的方差,以及
其中,所述似然函数基于根据第一未知参数、第二未知参数、和观测数据的第一随机变量所评估的概率密度函数被定义,其中参考源信号估计来定义第一未知参数,参考室内传递函数的逆滤波器来定义第二未知参数,以及参考观测信号和初始源信号估计来定义观测数据的第一随机变量,所述逆滤波器估计是室内传递函数的逆滤波器的估计。
35.根据权利要求34所述的语音去混响方法,其中使用迭代优化算法来确定逆滤波器估计。
36.根据权利要求34所述的语音去混响方法,进一步包括:
将逆滤波器估计应用于观测信号以产生源信号估计。
37.根据权利要求36所述的语音去混响方法,其中将逆滤波器估计应用于观测信号进一步包括:
执行逆滤波器估计到变换后的逆滤波器估计的第一逆长时傅立叶变换;以及
将观测信号与变换后的逆滤波器估计进行卷积以产生源信号估计。
38.根据权利要求36所述的语音去混响方法,其中将逆滤波器估计应用于观测信号进一步包括:
执行观测信号到变换后的观测信号的第一长时傅立叶变换;
将逆滤波器估计应用于变换后的观测信号以产生滤波源信号估计;以及
执行滤波源信号估计到源信号估计的第二逆长时傅立叶变换。
39.根据权利要求34所述的语音去混响方法,其中确定逆滤波器估计进一步包括:
参考初始源信号估计和更新的源信号估计之一、观测信号以及第二方差计算逆滤波器估计;
确定是否逆滤波器估计的收敛被获得;
如果获得逆滤波器估计的收敛,则输出逆滤波器估计作为将要对所述观测信号进行去混响的滤波器;
如果未获得逆滤波器估计的收敛,则将逆滤波器估计应用于观测信号以产生滤波信号;
参考初始源信号估计、第一方差、第二方差、和滤波信号计算源信号估计;以及
将源信号估计更新为更新的源信号估计。
40.根据权利要求39所述的语音去混响方法,其中确定逆滤波器估计进一步包括:
执行波形观测信号到变换后的观测信号的第二长时傅立叶变换并进一步将变换后的观测信号作为观测信号提供以计算逆滤波器估计和产生滤波信号;
执行滤波信号到变换后的滤波信号的LTFS到STFS变换,并进一步将变换后的滤波信号作为滤波信号提供以计算源信号估计;
执行源信号估计到变换后的源信号估计的STFS到LTFS变换,并进一步将变换后的源信号估计作为源信号估计提供以将源信号估计更新为更新的源信号估计;
执行波形初始源信号估计到第一变换初始源信号估计的第三长时傅立叶变换,并进一步将第一变换初始源信号估计作为初始源信号估计提供以在初始更新步骤中被提供用于计算逆滤波器估计;以及
执行波形初始源信号估计到第二变换初始源信号估计的短时傅立叶变换,并进一步将第二变换初始源信号估计作为初始源信号估计提供以计算源信号估计。
41.根据权利要求34所述的语音去混响方法,进一步包括:
基于观测信号产生初始源信号估计、第一方差、和第二方差。
42.根据权利要求41所述的语音去混响方法,其中产生初始源信号估计、第一方差、和第二方差进一步包括:
估计来自变换后的信号的每个短时间帧的基频和发声量度,其中通过观测信号的短时傅立叶变换来给定所述变换后的信号;以及
基于所述基频和发声量度确定第一方差。
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
PCT/US2006/016741 WO2007130026A1 (en) | 2006-05-01 | 2006-05-01 | Method and apparatus for speech dereverberation based on probabilistic models of source and room acoustics |
Publications (2)
Publication Number | Publication Date |
---|---|
CN101416237A CN101416237A (zh) | 2009-04-22 |
CN101416237B true CN101416237B (zh) | 2012-05-30 |
Family
ID=38668031
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN2006800541241A Active CN101416237B (zh) | 2006-05-01 | 2006-05-01 | 基于源和室内声学的概率模型的语音去混响方法和设备 |
Country Status (5)
Country | Link |
---|---|
US (1) | US8290170B2 (zh) |
EP (1) | EP2013869B1 (zh) |
JP (1) | JP4880036B2 (zh) |
CN (1) | CN101416237B (zh) |
WO (1) | WO2007130026A1 (zh) |
Families Citing this family (24)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
US8467538B2 (en) * | 2008-03-03 | 2013-06-18 | Nippon Telegraph And Telephone Corporation | Dereverberation apparatus, dereverberation method, dereverberation program, and recording medium |
CN101385386B (zh) * | 2006-03-03 | 2012-05-09 | 日本电信电话株式会社 | 混响除去装置和混响除去方法 |
CN101416237B (zh) * | 2006-05-01 | 2012-05-30 | 日本电信电话株式会社 | 基于源和室内声学的概率模型的语音去混响方法和设备 |
CN101965613B (zh) * | 2008-03-06 | 2013-01-02 | 日本电信电话株式会社 | 信号增强装置及方法 |
JP4958241B2 (ja) * | 2008-08-05 | 2012-06-20 | 日本電信電話株式会社 | 信号処理装置、信号処理方法、信号処理プログラムおよび記録媒体 |
JP4977100B2 (ja) * | 2008-08-11 | 2012-07-18 | 日本電信電話株式会社 | 残響除去装置、残響除去方法、そのプログラムおよび記録媒体 |
US20110317522A1 (en) * | 2010-06-28 | 2011-12-29 | Microsoft Corporation | Sound source localization based on reflections and room estimation |
US8731911B2 (en) | 2011-12-09 | 2014-05-20 | Microsoft Corporation | Harmonicity-based single-channel speech quality estimation |
US9099096B2 (en) * | 2012-05-04 | 2015-08-04 | Sony Computer Entertainment Inc. | Source separation by independent component analysis with moving constraint |
EP2717263B1 (en) * | 2012-10-05 | 2016-11-02 | Nokia Technologies Oy | Method, apparatus, and computer program product for categorical spatial analysis-synthesis on the spectrum of a multichannel audio signal |
US9264809B2 (en) * | 2014-05-22 | 2016-02-16 | The United States Of America As Represented By The Secretary Of The Navy | Multitask learning method for broadband source-location mapping of acoustic sources |
US9384447B2 (en) * | 2014-05-22 | 2016-07-05 | The United States Of America As Represented By The Secretary Of The Navy | Passive tracking of underwater acoustic sources with sparse innovations |
US10262677B2 (en) * | 2015-09-02 | 2019-04-16 | The University Of Rochester | Systems and methods for removing reverberation from audio signals |
CN105448302B (zh) * | 2015-11-10 | 2019-06-25 | 厦门快商通科技股份有限公司 | 一种环境自适应的语音混响消除方法和系统 |
CN105529034A (zh) * | 2015-12-23 | 2016-04-27 | 北京奇虎科技有限公司 | 一种基于混响的语音识别方法和装置 |
CN106971707A (zh) * | 2016-01-14 | 2017-07-21 | 芋头科技(杭州)有限公司 | 基于输出抵消噪声的语音降噪的方法及系统以及智能终端 |
CN106971739A (zh) * | 2016-01-14 | 2017-07-21 | 芋头科技(杭州)有限公司 | 一种语音降噪的方法及系统以及智能终端 |
CN105931648B (zh) * | 2016-06-24 | 2019-05-03 | 百度在线网络技术(北京)有限公司 | 音频信号解混响方法和装置 |
JP6677662B2 (ja) | 2017-02-14 | 2020-04-08 | 株式会社東芝 | 音響処理装置、音響処理方法およびプログラム |
EP3460795A1 (en) | 2017-09-21 | 2019-03-27 | Fraunhofer-Gesellschaft zur Förderung der angewandten Forschung e.V. | Signal processor and method for providing a processed audio signal reducing noise and reverberation |
KR102048370B1 (ko) * | 2017-12-19 | 2019-11-25 | 서강대학교 산학협력단 | 우도 최대화를 이용한 빔포밍 방법 |
CN108986799A (zh) * | 2018-09-05 | 2018-12-11 | 河海大学 | 一种基于倒谱滤波的混响参数估计方法 |
WO2020121545A1 (ja) * | 2018-12-14 | 2020-06-18 | 日本電信電話株式会社 | 信号処理装置、信号処理方法、およびプログラム |
CN115604627A (zh) * | 2022-10-25 | 2023-01-13 | 维沃移动通信有限公司(Cn) | 音频信号处理方法、装置、电子设备及可读存储介质 |
Citations (3)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
US5774562A (en) * | 1996-03-25 | 1998-06-30 | Nippon Telegraph And Telephone Corp. | Method and apparatus for dereverberation |
CN1542737A (zh) * | 2003-03-12 | 2004-11-03 | ��ʽ����Ntt����Ħ | 语音识别噪声自适应系统、方法及程序 |
US6944590B2 (en) * | 2002-04-05 | 2005-09-13 | Microsoft Corporation | Method of iterative noise estimation in a recursive framework |
Family Cites Families (45)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
US4612414A (en) * | 1983-08-31 | 1986-09-16 | At&T Information Systems Inc. | Secure voice transmission |
US4783804A (en) * | 1985-03-21 | 1988-11-08 | American Telephone And Telegraph Company, At&T Bell Laboratories | Hidden Markov model speech recognition arrangement |
US5191606A (en) * | 1990-05-08 | 1993-03-02 | Industrial Technology Research Institute | Electrical telephone speech network |
EP0559349B1 (en) * | 1992-03-02 | 1999-01-07 | AT&T Corp. | Training method and apparatus for speech recognition |
CA2105034C (en) * | 1992-10-09 | 1997-12-30 | Biing-Hwang Juang | Speaker verification with cohort normalized scoring |
CA2126380C (en) * | 1993-07-22 | 1998-07-07 | Wu Chou | Minimum error rate training of combined string models |
US5590242A (en) * | 1994-03-24 | 1996-12-31 | Lucent Technologies Inc. | Signal bias removal for robust telephone speech recognition |
JP3368989B2 (ja) * | 1994-06-15 | 2003-01-20 | 日本電信電話株式会社 | 音声認識方法 |
US5710864A (en) * | 1994-12-29 | 1998-01-20 | Lucent Technologies Inc. | Systems, methods and articles of manufacture for improving recognition confidence in hypothesized keywords |
US5812972A (en) * | 1994-12-30 | 1998-09-22 | Lucent Technologies Inc. | Adaptive decision directed speech recognition bias equalization method and apparatus |
US5805772A (en) * | 1994-12-30 | 1998-09-08 | Lucent Technologies Inc. | Systems, methods and articles of manufacture for performing high resolution N-best string hypothesization |
US5737489A (en) * | 1995-09-15 | 1998-04-07 | Lucent Technologies Inc. | Discriminative utterance verification for connected digits recognition |
US6002776A (en) | 1995-09-18 | 1999-12-14 | Interval Research Corporation | Directional acoustic signal processor and method therefor |
US5694474A (en) * | 1995-09-18 | 1997-12-02 | Interval Research Corporation | Adaptive filter for signal processing and method therefor |
JP3649847B2 (ja) | 1996-03-25 | 2005-05-18 | 日本電信電話株式会社 | 残響除去方法及び装置 |
US5797123A (en) * | 1996-10-01 | 1998-08-18 | Lucent Technologies Inc. | Method of key-phase detection and verification for flexible speech understanding |
US5781887A (en) * | 1996-10-09 | 1998-07-14 | Lucent Technologies Inc. | Speech recognition method with error reset commands |
GB2326572A (en) * | 1997-06-19 | 1998-12-23 | Softsound Limited | Low bit rate audio coder and decoder |
CA2239339C (en) * | 1997-07-18 | 2002-04-16 | Lucent Technologies Inc. | Method and apparatus for providing speaker authentication by verbal information verification using forced decoding |
CA2239340A1 (en) * | 1997-07-18 | 1999-01-18 | Lucent Technologies Inc. | Method and apparatus for providing speaker authentication by verbal information verification |
US6076053A (en) * | 1998-05-21 | 2000-06-13 | Lucent Technologies Inc. | Methods and apparatus for discriminative training and adaptation of pronunciation networks |
US6715125B1 (en) * | 1999-10-18 | 2004-03-30 | Agere Systems Inc. | Source coding and transmission with time diversity |
US6304515B1 (en) * | 1999-12-02 | 2001-10-16 | John Louis Spiesberger | Matched-lag filter for detection and communication |
US7089183B2 (en) * | 2000-08-02 | 2006-08-08 | Texas Instruments Incorporated | Accumulating transformations for hierarchical linear regression HMM adaptation |
US20030171932A1 (en) * | 2002-03-07 | 2003-09-11 | Biing-Hwang Juang | Speech recognition |
GB2387008A (en) * | 2002-03-28 | 2003-10-01 | Qinetiq Ltd | Signal Processing System |
US7139703B2 (en) * | 2002-04-05 | 2006-11-21 | Microsoft Corporation | Method of iterative noise estimation in a recursive framework |
US7219032B2 (en) * | 2002-04-20 | 2007-05-15 | John Louis Spiesberger | Estimation algorithms and location techniques |
US20030225719A1 (en) * | 2002-05-31 | 2003-12-04 | Lucent Technologies, Inc. | Methods and apparatus for fast and robust model training for object classification |
US7103541B2 (en) | 2002-06-27 | 2006-09-05 | Microsoft Corporation | Microphone array signal enhancement using mixture models |
US7047047B2 (en) * | 2002-09-06 | 2006-05-16 | Microsoft Corporation | Non-linear observation model for removing noise from corrupted signals |
JP4098647B2 (ja) | 2003-03-06 | 2008-06-11 | 日本電信電話株式会社 | 音響信号の残響除去方法、装置、及び音響信号の残響除去プログラム、そのプログラムを記録した記録媒体 |
US20040213415A1 (en) * | 2003-04-28 | 2004-10-28 | Ratnam Rama | Determining reverberation time |
JP3836815B2 (ja) | 2003-05-21 | 2006-10-25 | インターナショナル・ビジネス・マシーンズ・コーポレーション | 音声認識装置、音声認識方法、該音声認識方法をコンピュータに対して実行させるためのコンピュータ実行可能なプログラムおよび記憶媒体 |
US8064969B2 (en) * | 2003-08-15 | 2011-11-22 | Avaya Inc. | Method and apparatus for combined wired/wireless pop-out speakerphone microphone |
US20050071168A1 (en) * | 2003-09-29 | 2005-03-31 | Biing-Hwang Juang | Method and apparatus for authenticating a user using verbal information verification |
US8467538B2 (en) * | 2008-03-03 | 2013-06-18 | Nippon Telegraph And Telephone Corporation | Dereverberation apparatus, dereverberation method, dereverberation program, and recording medium |
EP1760696B1 (en) * | 2005-09-03 | 2016-02-03 | GN ReSound A/S | Method and apparatus for improved estimation of non-stationary noise for speech enhancement |
US8380506B2 (en) * | 2006-01-27 | 2013-02-19 | Georgia Tech Research Corporation | Automatic pattern recognition using category dependent feature selection |
CN101385386B (zh) * | 2006-03-03 | 2012-05-09 | 日本电信电话株式会社 | 混响除去装置和混响除去方法 |
CN101416237B (zh) * | 2006-05-01 | 2012-05-30 | 日本电信电话株式会社 | 基于源和室内声学的概率模型的语音去混响方法和设备 |
CN101965613B (zh) * | 2008-03-06 | 2013-01-02 | 日本电信电话株式会社 | 信号增强装置及方法 |
GB2464093B (en) * | 2008-09-29 | 2011-03-09 | Toshiba Res Europ Ltd | A speech recognition method |
GB2471875B (en) * | 2009-07-15 | 2011-08-10 | Toshiba Res Europ Ltd | A speech recognition system and method |
US8515758B2 (en) * | 2010-04-14 | 2013-08-20 | Microsoft Corporation | Speech recognition including removal of irrelevant information |
-
2006
- 2006-05-01 CN CN2006800541241A patent/CN101416237B/zh active Active
- 2006-05-01 US US12/282,762 patent/US8290170B2/en active Active
- 2006-05-01 WO PCT/US2006/016741 patent/WO2007130026A1/en active Application Filing
- 2006-05-01 EP EP06752056.9A patent/EP2013869B1/en active Active
- 2006-05-01 JP JP2009509506A patent/JP4880036B2/ja active Active
Patent Citations (3)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
US5774562A (en) * | 1996-03-25 | 1998-06-30 | Nippon Telegraph And Telephone Corp. | Method and apparatus for dereverberation |
US6944590B2 (en) * | 2002-04-05 | 2005-09-13 | Microsoft Corporation | Method of iterative noise estimation in a recursive framework |
CN1542737A (zh) * | 2003-03-12 | 2004-11-03 | ��ʽ����Ntt����Ħ | 语音识别噪声自适应系统、方法及程序 |
Non-Patent Citations (2)
Title |
---|
Tetsuya Takiguchi, et al..ACOUSTIC MODEL ADAPTATION USING FIRST ORDER PREDICTION FOR REVERBERANT SPEECH.《IEEE International Conference on Acoustics, Speech, and Signal Processing, 2004.(ICASSP "04).》.2004,869-872. * |
Tomohiro Nakatani, et al..HARMONICITY BASED DEREVERBERATION WITH MAXIMUM A POSTERIORI ESTIMATION.《2005 IEEE Workshop on Applications of Signal Processing to Audio and Acoustics》.2005,94-97. * |
Also Published As
Publication number | Publication date |
---|---|
EP2013869B1 (en) | 2017-12-13 |
US8290170B2 (en) | 2012-10-16 |
WO2007130026A1 (en) | 2007-11-15 |
JP4880036B2 (ja) | 2012-02-22 |
JP2009535674A (ja) | 2009-10-01 |
EP2013869A1 (en) | 2009-01-14 |
CN101416237A (zh) | 2009-04-22 |
EP2013869A4 (en) | 2012-06-20 |
US20090110207A1 (en) | 2009-04-30 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
CN101416237B (zh) | 基于源和室内声学的概率模型的语音去混响方法和设备 | |
Tu et al. | Speech enhancement based on teacher–student deep learning using improved speech presence probability for noise-robust speech recognition | |
Li et al. | An overview of noise-robust automatic speech recognition | |
Xu et al. | An experimental study on speech enhancement based on deep neural networks | |
CN112735456B (zh) | 一种基于dnn-clstm网络的语音增强方法 | |
DE69831288T2 (de) | An Umgebungsgeräusche angepasste Sprachverarbeitung | |
Hilger et al. | Quantile based histogram equalization for noise robust large vocabulary speech recognition | |
JP3154487B2 (ja) | 音声認識の際の雑音のロバストネスを改善するためにスペクトル的推定を行う方法 | |
Sehr et al. | Reverberation model-based decoding in the logmelspec domain for robust distant-talking speech recognition | |
JP2002140096A (ja) | 信号処理システム | |
Deng | Front-end, back-end, and hybrid techniques for noise-robust speech recognition | |
JP2002140087A (ja) | 音声処理システム | |
CN110998723A (zh) | 使用神经网络的信号处理装置、使用神经网络的信号处理方法以及信号处理程序 | |
Tu et al. | DNN training based on classic gain function for single-channel speech enhancement and recognition | |
JP4586577B2 (ja) | 外乱成分抑圧装置、コンピュータプログラム、及び音声認識システム | |
JP5881454B2 (ja) | 音源ごとに信号のスペクトル形状特徴量を推定する装置、方法、目的信号のスペクトル特徴量を推定する装置、方法、プログラム | |
JP3987927B2 (ja) | 波形認識方法及び装置、並びにプログラム | |
Astudillo et al. | Uncertainty propagation | |
Han et al. | Reverberation and noise robust feature compensation based on IMM | |
JP2006349723A (ja) | 音響モデル作成装置、音声認識装置、音響モデル作成方法、音声認識方法、音響モデル作成プログラム、音声認識プログラムおよび記録媒体 | |
Agrawal et al. | Deep variational filter learning models for speech recognition | |
JP5498452B2 (ja) | 背景音抑圧装置、背景音抑圧方法、およびプログラム | |
JP2734828B2 (ja) | 確率演算装置及び確率演算方法 | |
US12094484B2 (en) | General speech enhancement method and apparatus using multi-source auxiliary information | |
Sehr et al. | Model-based dereverberation in the Logmelspec domain for robust distant-talking speech recognition |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
C06 | Publication | ||
PB01 | Publication | ||
C10 | Entry into substantive examination | ||
SE01 | Entry into force of request for substantive examination | ||
C14 | Grant of patent or utility model | ||
GR01 | Patent grant |