[go: up one dir, main page]

CN101416237B - 基于源和室内声学的概率模型的语音去混响方法和设备 - Google Patents

基于源和室内声学的概率模型的语音去混响方法和设备 Download PDF

Info

Publication number
CN101416237B
CN101416237B CN2006800541241A CN200680054124A CN101416237B CN 101416237 B CN101416237 B CN 101416237B CN 2006800541241 A CN2006800541241 A CN 2006800541241A CN 200680054124 A CN200680054124 A CN 200680054124A CN 101416237 B CN101416237 B CN 101416237B
Authority
CN
China
Prior art keywords
source signal
signal
unit
estimation
estimated
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Active
Application number
CN2006800541241A
Other languages
English (en)
Other versions
CN101416237A (zh
Inventor
中谷智广
庄炳湟
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Nippon Telegraph and Telephone Corp
Georgia Tech Research Corp
Original Assignee
Nippon Telegraph and Telephone Corp
Georgia Tech Research Corp
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Nippon Telegraph and Telephone Corp, Georgia Tech Research Corp filed Critical Nippon Telegraph and Telephone Corp
Publication of CN101416237A publication Critical patent/CN101416237A/zh
Application granted granted Critical
Publication of CN101416237B publication Critical patent/CN101416237B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Classifications

    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L21/00Speech or voice signal processing techniques to produce another audible or non-audible signal, e.g. visual or tactile, in order to modify its quality or its intelligibility
    • G10L21/02Speech enhancement, e.g. noise reduction or echo cancellation
    • G10L21/0208Noise filtering
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L21/00Speech or voice signal processing techniques to produce another audible or non-audible signal, e.g. visual or tactile, in order to modify its quality or its intelligibility
    • G10L21/02Speech enhancement, e.g. noise reduction or echo cancellation
    • G10L21/0208Noise filtering
    • G10L2021/02082Noise filtering the noise being echo, reverberation of the speech
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L21/00Speech or voice signal processing techniques to produce another audible or non-audible signal, e.g. visual or tactile, in order to modify its quality or its intelligibility
    • G10L21/02Speech enhancement, e.g. noise reduction or echo cancellation
    • G10L21/0208Noise filtering
    • G10L21/0216Noise filtering characterised by the method used for estimating noise
    • G10L21/0232Processing in the frequency domain

Landscapes

  • Engineering & Computer Science (AREA)
  • Computational Linguistics (AREA)
  • Quality & Reliability (AREA)
  • Signal Processing (AREA)
  • Health & Medical Sciences (AREA)
  • Audiology, Speech & Language Pathology (AREA)
  • Human Computer Interaction (AREA)
  • Physics & Mathematics (AREA)
  • Acoustics & Sound (AREA)
  • Multimedia (AREA)
  • Cable Transmission Systems, Equalization Of Radio And Reduction Of Echo (AREA)
  • Circuit For Audible Band Transducer (AREA)

Abstract

通过接受用于初始化(1000)的观测信号以及执行包括傅立叶变换(4000)的似然最大化(2000)来实现语音去混响。

Description

基于源和室内声学的概率模型的语音去混响方法和设备
技术领域
本发明通常涉及用于语音去混响的方法和设备。更具体而言,本发明涉及基于源和室内声学的概率模型的语音去混响方法和设备。
背景技术
以下在本申请中将被引用或标识的所有专利、专利申请、专利公开、科学文献等等将在此以其整体被包含作为参考以便更全面地描述本发明所属技术领域的状态。
在普通室内通过远距离麦克风捕获的语音信号不可避免地包含混响,这对于语音信号的感知质量和清晰度具有有害的影响并且使自动语音识别(ASR)系统的性能降低。当混响时间长于0.5秒时,甚至当使用已经在匹配的混响条件下被训练的声学模型时,不能够提高识别性能。这在B.Kingsbury和N.Morgan的“Recognizingreverberant speech with rasta-plp”(Proc.1997 IEEEInternational Conference Acoustic Speech and Signal Processing(ICASSP-97),Vol.2,第1259-1262页,1997年)中被公开。语音信号的去混响无论对于高质量记录和重放或对于自动语音识别(ASR)都是必需的。
尽管语音信号的盲去混响仍是有挑战性的问题,但是近来已经提出若干技术。已经提出将观测信号去相关同时在信号的短时间段内保持相关性的技术。这由B.W.Gillespie和L.E.Atlas的“Strategiesfor improving audible quality and speech recognition accuracyof reverberant speech”(Proc.2003 IEEE InternationalConference Acoustics,Speech and Signal Processing(ICASSP-2003),Vol.1,第676-679页,2003年)公开。这还由H.Buchner、R.Aichner、和W.Kellemann的“Trinicon:aversatileframework for multichannel blind signal processing”(Proc.ofthe 2004 IEEE International Conference Acoustics,Speech andSignal Processing(ICASSP-2004),Vol.III,第889-892页,2004年5月)公开。
已经提出用于估计和均衡室内的声响应中的极点的方法。这由T.Hikichi和M.Miyoshi的“Blind algorithm for calculating commonpoles based on linear prediction”(Proc.of the 2004 IEEEInternational Conference on Acoustics,Speech,and SignalProcessing(ICASSP 2004),Vol.IV,第89-92页,2004年5月)公开。这还由J.R.Hopgood和P.J.W.Rayner的“Blind single channeldeconvolution using nonstationary signal processing”(IEEETransactions Speech and Audio processing,vol.11,no.5,第467-488页,2003年9月)公开。
而且,已经提出基于语音信号的本质特征的两种方法,即在下文中被称为HERB的基于调和性的去混响、和在下文中被称为SBD的基于稀疏性的去混响。HERB由T.Nakatani和M.Miyoshi的“Blinddereverberation of single channel speech signal based onharmonic structure”(Proc.ICASSP-2003,vol.1,第92-95页,2003年4月)公开。首次出版第2004-274234号的日本未审查专利申请公开了用于HERB的传统技术的一个实例。SBD由K.Kinoshita、T.Nakatani和M.Miyoshi的“Efficient blind dereverberationframework for automatic speech recognition”(Proc.Interspeech-2005,2005年9月)公开。
这些方法广泛使用源信号的初始估计中的各语音特征。然后,初始源信号估计和观测到的混响信号被一起用于估计用于去混响的逆滤波器,这允许进一步改进源信号估计。为了获得初始源信号估计,HERB利用自适应谐波滤波器,以及SBD利用基于最小统计的频谱相减。在实验上已经显示:如果信号足够长,这些方法大大地提高观测到的混响信号的ASR性能。
鉴于上述内容,本领域普通技术人员从本公开内容将会明白存在对用于语音去混响的改进设备和/或方法的需要。本发明解决本领域中的这种需要以及其他需要,这对于本领域普通技术人员来说根据本公开内容将会变得显而易见。
发明内容
相应地,本发明的主要目的是提供语音去混响设备。
本发明的另一个目的是提供语音去混响方法。
本发明的再一个目的是提供将通过计算机执行的用于执行语音去混响方法的程序。
本发明的又一个目的是提供存储将通过计算机执行的用于执行语音去混响方法的程序的存储介质。
根据本发明的第一方面,语音去混响设备包括确定最大化似然函数的源信号估计的似然最大化单元。参考观测信号、初始源信号估计、表示源信号不确定性的第一方差、和表示声学环境不确定性的第二方差进行所述确定。
所述似然函数可以优选地基于根据未知参数、丢失数据的第一随机变量、和观测数据的第二随机变量所评估的概率密度函数被定义。参考源信号估计来定义未知参数。丢失数据的第一随机变量表示室内传递函数的逆滤波器。参考观测信号和初始源信号估计来定义观测数据的第二随机变量。
上述似然最大化单元可以优选地使用迭代优化算法来确定源信号估计。迭代优化算法可以优选地是期望最大化算法。
似然最大化单元可以进一步包括但不限于逆滤波器估计单元、滤波单元、源信号估计和收敛检验单元、以及更新单元。所述逆滤波器估计单元参考观测信号、第二方差、以及初始源信号估计和更新的源信号估计之一计算逆滤波器估计。滤波单元将逆滤波器估计应用于观测信号,并且产生滤波信号。源信号估计和收敛检验单元参考初始源信号估计、第一方差、第二方差、和滤波信号计算源信号估计。源信号估计和收敛检验单元进一步确定是否源信号估计的收敛被获得。如果源信号估计的收敛被获得,所述源信号估计和收敛检验单元进一步输出源信号估计作为去混响的信号。所述更新单元将源信号估计更新为更新的源信号估计。如果源信号估计的收敛未被获得,则所述更新单元进一步提供更新的源信号估计给逆滤波器估计单元。该更新单元进一步在初始更新步骤中提供初始源信号估计给逆滤波器估计单元。
似然最大化单元可以进一步包括但不限于第一长时傅立叶变换单元、LTFS到STFS变换单元、STFS到LTFS变换单元、第二长时傅立叶变换单元、和短时傅立叶变换单元。第一长时傅立叶变换单元执行波形观测信号到变换后的观测信号的第一长时傅立叶变换。第一长时傅立叶变换单元进一步将变换后的观测信号作为观测信号提供给逆滤波器估计单元和滤波单元。LTFS到STFS变换单元执行滤波信号到变换后的滤波信号的LTFS到STFS变换。LTFS到STFS变换单元进一步将变换后的滤波信号作为滤波信号提供给源信号估计和收敛检验单元。STFS到LTFS变换单元执行源信号估计到变换后的源信号估计的STFS到LTFS变换。如果源信号估计的收敛未被获得,则STFS到LTFS变换单元进一步将变换后的源信号估计作为源信号估计提供给更新单元。第二长时傅立叶变换单元执行波形初始源信号估计到第一变换初始源信号估计的第二长时傅立叶变换。第二长时傅立叶变换进一步将第一变换初始源信号估计作为初始源信号估计提供给更新单元。短时傅立叶变换单元执行波形初始源信号估计到第二变换初始源信号估计的短时傅立叶变换。短时傅立叶变换单元进一步将第二变换初始源信号估计作为初始源信号估计提供给源信号估计和收敛检验单元。
所述语音去混响设备可以进一步包括但不限于执行源信号估计到波形源信号估计的逆短时傅立叶变换的逆短时傅立叶变换单元。
所述语音去混响设备可以进一步包括但不限于基于观测信号产生初始源信号估计、第一方差、和第二方差的初始化单元。在这种情况下,初始化单元可以进一步包括但不限于基频估计单元和源信号不确定性确定单元。基频估计单元估计来自变换后的信号的每个短时间帧的基频和发声量度(voicing measure),其中通过观测信号的短时傅立叶变换来给定所述变换后的信号。源信号不确定性确定单元基于基频和发声量度确定第一方差。
所述语音去混响设备可以进一步包括但不限于初始化单元、和收敛检验单元。初始化单元基于观测信号产生初始源信号估计、第一方差、和第二方差。收敛检验单元从似然最大化单元接收源信号估计。收敛检验单元确定是否源信号估计的收敛被获得。如果获得源信号估计的收敛,则所述收敛检验单元进一步输出源信号估计作为去混响的信号。如果未获得源信号估计的收敛,则收敛检验单元进一步提供源信号估计给初始化单元以使初始化单元能够基于该源信号估计产生初始源信号估计、第一方差、和第二方差。
在最后描述的情况下,初始化单元可以进一步包括但不限于第二短时傅立叶变换单元、第一选择单元、基频估计单元、和自适应谐波滤波单元。第二短时傅立叶变换单元执行观测信号到第一变换观测信号的第二短时傅立叶变换。第一选择单元执行第一选择操作以产生第一选择输出以及第二选择操作以产生第二选择输出。第一和第二选择操作是相互独立的。当第一选择单元接收第一变换观测信号的输入而不接收源信号估计的任何输入时,第一选择操作用于选择第一变换观测信号作为第一选择输出。当第一选择单元接收第一变换观测信号和源信号估计的输入时,第一选择操作还用于选择第一变换观测信号和源信号估计之一作为第一选择输出。当第一选择单元接收第一变换观测信号的输入而不接收源信号估计的任何输入时,第二选择操作用于选择第一变换观测信号作为第二选择输出。当第一选择单元接收第一变换观测信号和源信号估计的输入时,第二选择操作还用于选择第一变换观测信号和源信号估计之一作为第二选择输出。基频估计单元接收第二选择输出。基频估计单元还估计来自第二选择输出的每个短时间帧的基频和发声量度。自适应谐波滤波单元接收第一选择输出、基频和发声量度。自适应谐波滤波单元基于基频和发声量度增强第一选择输出的谐波结构以产生初始源信号估计。
初始化单元可以进一步包括但不限于第三短时傅立叶变换单元、第二选择单元、基频估计单元、和源信号不确定性确定单元。第三短时傅立叶变换单元执行观测信号到第二变换观测信号的第三短时傅立叶变换。第二选择单元执行第三选择操作以产生第三选择输出。当第二选择单元接收第二变换观测信号的输入而不接收源信号估计的任何输入时,第三选择操作用于选择第二变换观测信号作为第三选择输出。当第二选择单元接收第二变换观测信号和源信号估计的输入时,第三选择操作还用于选择第二变换观测信号和源信号估计之一作为第三选择输出。基频估计单元接收第三选择输出。基频估计单元估计来自第三选择输出的每个短时间帧的基频和发声量度。源信号不确定性确定单元基于基频和发声量度确定第一方差。
所述语音去混响设备可以进一步包括但不限于逆短时傅立叶变换单元,如果获得源信号估计的收敛,则该逆短时傅立叶变换单元执行源信号估计到波形源信号估计的逆短时傅立叶变换。
根据本发明的第二方面,语音去混响设备包括确定最大化似然函数的逆滤波器估计的似然最大化单元。参考观测信号、初始源信号估计、表示源信号不确定性的第一方差、和表示声学环境不确定性的第二方差进行所述确定。
似然函数可以优选地基于根据第一未知参数、第二未知参数、以及观测数据的第一随机变量所评估的概率密度函数被定义。参考源信号估计来定义第一未知参数。参考室内传递函数的逆滤波器来定义第二未知参数。参考观测信号和初始源信号估计来定义观测数据的第一随机变量。逆滤波器估计是室内传递函数的逆滤波器的估计。
似然最大化单元可以优选地使用迭代优化算法来确定逆滤波器估计。
所述语音去混响设备可以进一步包括但不限于将逆滤波器估计应用于观测信号并产生源信号估计的逆滤波器应用单元。
该逆滤波器应用单元可以进一步包括但不限于第一逆长时傅立叶变换单元、和卷积单元。第一逆长时傅立叶变换单元执行逆滤波器估计到变换后的逆滤波器估计的第一逆长时傅立叶变换。卷积单元接收变换后的逆滤波器估计和观测信号。卷积单元将观测信号与变换后的逆滤波器估计进行卷积以产生源信号估计。
该逆滤波器应用单元可以进一步包括但不限于第一长时傅立叶变换单元、第一滤波单元、和第二逆长时傅立叶变换单元。第一长时傅立叶变换单元执行观测信号到变换后的观测信号的第一长时傅立叶变换。第一滤波单元将逆滤波器估计应用于变换后的观测信号。第一滤波单元产生滤波源信号估计。第二逆长时傅立叶变换单元执行滤波源信号估计到源信号估计的第二逆长时傅立叶变换。
似然最大化单元可以进一步包括但不限于逆滤波器估计单元、收敛检验单元、滤波单元、源信号估计单元、和更新单元。逆滤波器估计单元参考观测信号、第二方差、以及初始源信号估计和更新的源信号估计之一计算逆滤波器估计。收敛检验单元确定是否逆滤波器估计的收敛被获得。如果获得源信号估计的收敛,收敛检验单元进一步输出逆滤波器估计作为将对所述观测信号进行去混响的滤波器。如果未获得源信号估计的收敛,滤波单元从收敛检验单元接收逆滤波器估计。滤波单元进一步将逆滤波器估计应用于观测信号。滤波单元进一步产生滤波信号。源信号估计单元参考初始源信号估计、第一方差、第二方差、和滤波信号计算源信号估计。更新单元将源信号估计更新为更新的源信号估计。更新单元进一步在初始更新步骤中提供初始源信号估计给逆滤波估计单元。更新单元进一步在除初始更新步骤之外的更新步骤中提供更新的源信号估计给逆滤波器估计单元。
似然最大化单元可以进一步包括但不限于第二长时傅立叶变换单元、LTFS到STFS变换单元、STFS到LTFS变换单元、第三长时傅立叶变换单元、和短时傅立叶变换单元。第二长时傅立叶变换单元执行波形观测信号到变换后的观测信号的第二长时傅立叶变换。第二长时傅立叶变换单元进一步将变换后的观测信号作为观测信号提供给逆滤波器估计单元和滤波单元。LTFS到STFS变换单元执行滤波信号到变换后的滤波信号的LTFS到STFS变换。LTFS到STFS变换单元进一步将变换后的滤波信号作为滤波信号提供给源信号估计单元。STFS到LTFS变换单元执行源信号估计到变换后的源信号估计的STFS到LTFS变换。STFS到LTFS变换单元进一步将变换后的源信号估计作为源信号估计提供给更新单元。第三长时傅立叶变换单元执行波形初始源信号估计到第一变换初始源信号估计的第三长时傅立叶变换。第三长时傅立叶变换单元进一步将第一变换初始源信号估计作为初始源信号估计提供给更新单元。短时傅立叶变换单元执行波形初始源信号估计到第二变换初始源信号估计的短时傅立叶变换。短时傅立叶变换单元进一步将第二变换初始源信号估计作为初始源信号估计提供给源信号估计单元。
所述语音去混响设备可以进一步包括但不限于基于观测信号产生初始源信号估计、第一方差、和第二方差的初始化单元。
所述初始化单元可以进一步包括但不限于基频估计单元、和源信号不确定性确定单元。基频估计单元估计来自变换后的信号的每个短时间帧的基频和发声量度,其中通过观测信号的短时傅立叶变换来给定所述变换后的信号。源信号不确定性确定单元基于基频和发声量度确定第一方差。
根据本发明的第三方面,语音去混响方法包括确定最大化似然函数的源信号估计。参考观测信号、初始源信号估计、表示源信号不确定性的第一方差、和表示声学环境不确定性的第二方差进行所述确定。
所述似然函数可以优选地基于根据未知参数、丢失数据的第一随机变量、和观测数据的第二随机变量所评估的概率密度函数被定义。参考源信号估计来定义未知参数。丢失数据的第一随机变量表示室内传递函数的逆滤波器。参考观测信号和初始源信号估计来定义观测数据的第二随机变量。
可以优选地使用迭代优化算法来确定源信号估计。该迭代优化算法可以优选地是期望最大化算法。
用于确定源信号估计的过程可以进一步包括但不限于以下过程。参考观测信号、第二方差、以及初始源信号估计和更新的源信号估计之一计算逆滤波器估计。将该逆滤波器估计应用于观测信号,以产生滤波信号。参考初始源信号估计、第一方差、第二方差、和滤波信号来计算所述源信号估计。确定是否源信号估计的收敛被获得。如果获得源信号估计的收敛,则输出源信号估计作为去混响的信号。如果未获得源信号估计的收敛,则将源信号估计更新为更新的源信号估计。
用于确定源信号估计的过程可以进一步包括但不限于以下过程。执行第一长时傅立叶变换以将波形观测信号变换为变换后的观测信号。执行LTFS到STFS变换以将滤波信号变换为变换后的滤波信号。如果未获得源信号估计的收敛,则执行STFS到LTFS变换以将源信号估计变换为变换后的源信号估计。执行第二长时傅立叶变换以将波形初始源信号估计变换为第一变换初始源信号估计。执行短时傅立叶变换以将波形初始源信号估计变换为第二变换初始源信号估计。
所述语音去混响方法可以进一步包括但不限于执行源信号估计到波形源信号估计的逆短时傅立叶变换。
所述语音去混响方法可以进一步包括但不限于基于观测信号产生初始源信号估计、第一方差、和第二方差。
在最后描述的情况下,产生初始源信号估计、第一方差、和第二方差可以进一步包括但不限于以下过程。估计来自变换后的信号的每个短时间帧的基频和发声量度,其中通过观测信号的短时傅立叶变换来给定所述变换后的信号。基于所述基频和发声量度确定第一方差。
所述语音去混响方法可以进一步包括但不限于以下过程。基于观测信号产生初始源信号估计、第一方差、和第二方差。确定是否源信号估计的收敛被获得。如果获得源信号估计的收敛,则输出源信号估计作为去混响的信号。如果未获得源信号估计的收敛,则该过程将返回产生初始源信号估计、第一方差、和第二方差。
在最后描述的情况下,产生初始源信号估计、第一方差、和第二方差可以进一步包括但不限于以下过程。执行第二短时傅立叶变换以将观测信号变换为第一变换观测信号。执行第一选择操作以产生第一选择输出。当接收第一变换观测信号的输入而不接收源信号估计的任何输入时,第一选择操作用于选择第一变换观测信号作为第一选择输出。当接收第一变换观测信号和源信号估计的输入时,第一选择操作用于选择第一变换观测信号和源信号估计之一作为第一选择输出。执行第二选择操作以产生第二选择输出。当接收第一变换观测信号的输入而不接收源信号估计的任何输入时,第二选择操作用于选择第一变换观测信号作为第二选择输出。当接收第一变换观测信号和源信号估计的输入时,第二选择操作用于选择第一变换观测信号和源信号估计之一作为第二选择输出。估计来自第二选择输出的每个短时间帧的基频和发声量度。基于基频和发声量度增强第一选择输出的谐波结构以产生初始源信号估计。
产生初始源信号估计、第一方差、和第二方差可以进一步包括但不限于以下过程。执行第三短时傅立叶变换以将观测信号变换为第二变换观测信号。执行第三选择操作以产生第三选择输出。当接收第二变换观测信号的输入而不接收源信号估计的任何输入时,第三选择操作用于选择第二变换观测信号作为第三选择输出。当接收第二变换观测信号和源信号估计的输入时,第三选择操作用于选择第二变换观测信号和源信号估计之一作为第三选择输出。估计来自第三选择输出的每个短时间帧的基频和发声量度。基于所述基频和发声量度确定第一方差。
所述语音去混响方法可以进一步包括但不限于:如果获得源信号估计的收敛,则执行源信号估计到波形源信号估计的逆短时傅立叶变换。
根据本发明的第四方面,语音去混响方法包括确定最大化似然函数的逆滤波器估计。参考观测信号、初始源信号估计、表示源信号不确定性的第一方差、和表示声学环境不确定性的第二方差进行所述确定。
所述似然函数可以优选地基于根据第一未知参数、第二未知参数、观测数据的第一随机变量所评估的概率密度函数被定义。参考源信号估计来定义第一未知参数。参考室内传递函数的逆滤波器来定义第二未知参数。参考观测信号和初始源信号估计来定义观测数据的第一随机变量。逆滤波器估计是室内传递函数的逆滤波器的估计。
可以优选地使用迭代优化算法来确定逆滤波器估计。
所述语音去混响方法可以进一步包括但不限于将逆滤波器估计应用于观测信号以产生源信号估计。
在一种情况下,最后描述的用于将逆滤波器估计应用于观测信号的过程可以进一步包括但不限于以下过程。执行第一逆长时傅立叶变换以将逆滤波器估计变换为变换后的逆滤波器估计。将观测信号与变换后的逆滤波器估计进行卷积以产生源信号估计。
在另一种情况下,最后描述的用于将逆滤波器估计应用于观测信号的过程可以进一步包括但不限于以下过程。执行第一长时傅立叶变换以将观测信号变换为变换后的观测信号。将逆滤波器估计应用于变换后的观测信号以产生滤波源信号估计。执行第二逆长时傅立叶变换以将滤波源信号估计变换为源信号估计。
在再一种情况下,确定逆滤波器估计可以进一步包括但不限于以下过程。参考观测信号、第二方差、以及初始源信号估计和更新的源信号估计之一计算逆滤波器估计。确定是否逆滤波器估计的收敛被获得。如果获得源信号估计的收敛,则输出逆滤波器估计作为将对所述观测信号进行去混响的滤波器。如果未获得源信号估计的收敛,则将逆滤波器估计应用于观测信号以产生滤波信号。参考初始源信号估计、第一方差、第二方差、和滤波信号计算源信号估计。将源信号估计更新为更新的源信号估计。
在最后描述的情况下,用于确定逆滤波器估计的过程可以进一步包括但不限于以下过程。执行第二长时傅立叶变换以将波形观测信号变换为变换后的观测信号。执行LTFS到STFS变换以将滤波信号变换为变换后的滤波信号。执行STFS到LTFS变换以将源信号估计变换为变换后的源信号估计。执行第三长时傅立叶变换以将波形初始源信号估计变换为第一变换初始源信号估计。执行短时傅立叶变换以将波形初始源信号估计变换为第二变换初始源信号估计。
所述语音去混响方法可以进一步包括但不限于基于观测信号产生初始源信号估计、第一方差、和第二方差。
在一种情况下,最后描述的用于产生初始源信号估计、第一方差、和第二方差的过程可以进一步包括但不限于以下过程。估计来自变换后的信号的每个短时间帧的基频和发声量度,其中通过观测信号的短时傅立叶变换来给定所述变换后的信号。基于所述基频和发声量度确定第一方差。
根据本发明的第五方面,要通过计算机执行的用于执行语音去混响方法的程序,所述方法包括确定最大化似然函数的源信号估计。参考观测信号、初始源信号估计、表示源信号不确定性的第一方差、和表示声学环境不确定性的第二方差进行所述确定。
根据本发明的第六方面,要通过计算机执行的用于执行语音去混响方法的程序,所述方法包括确定最大化似然函数的逆滤波器估计。参考观测信号、初始源信号估计、表示源信号不确定性的第一方差、和表示声学环境不确定性的第二方差进行所述确定。
根据本发明的第七方面,存储介质存储要通过计算机执行的用于执行语音去混响方法的程序,所述方法包括确定最大化似然函数的源信号估计。参考观测信号、初始源信号估计、表示源信号不确定性的第一方差、和表示声学环境不确定性的第二方差进行所述确定。
根据本发明的第八方面,存储介质存储要通过计算机执行的用于执行语音去混响方法的程序,所述方法包括确定最大化似然函数的逆滤波器估计。参考观测信号、初始源信号估计、表示源信号不确定性的第一方差、和表示声学环境不确定性的第二方差进行所述确定。
根据以下结合附图进行的详细描述,本发明的这些和其他目的、特征、方面和优点对于本领域普通技术人员来说将会变得显而易见,所述附图图示本发明的实施例。
附图说明
现在参考形成本原始公开内容的一部分的附图:
图1是图示在本发明的第一实施例中基于源和室内声学的概率模型的语音去混响设备的方框图;
图2是图示包括在图1中所示的语音去混响设备中的似然最大化单元的配置的方框图;
图3A是图示包括在图2中所示的似然最大化单元中的STFS到LTFS变换单元的配置的方框图;
图3B是图示包括在图2中所示的似然最大化单元中的LTFS到STFS变换单元的配置的方框图;
图4A是图示包括在图2中所示的似然最大化单元中的长时傅立叶变换单元的配置的方框图;
图4B是图示包括在图3B中所示的LTFS到STFS变换单元中的逆长时傅立叶变换单元的配置的方框图;
图5A是图示包括在图3B中所示的LTFS到STFS变换单元中的短时傅立叶变换单元的配置的方框图;
图5B是图示包括在图3A中所示的STFS到LTFS变换单元中的逆短时傅立叶变换单元的配置的方框图;
图6是图示包括在图1中所示的初始化单元中的初始源信号估计单元的配置的方框图;
图7是图示包括在图1中所示的初始化单元中的源信号不确定性确定单元的配置的方框图;
图8是图示包括在图1中所示的初始化单元中的声学环境不确定性确定单元的配置的方框图;
图9是图示根据本发明第二实施例的另一种语音去混响设备的配置的方框图;
图10是图示包括在图9中所示的初始化单元中的修改的初始源信号估计单元的配置的方框图;
图11是图示包括在图9中所示的初始化单元中的修改的源信号不确定性确定单元的配置的方框图;
图12是图示根据本发明第三实施例的又一种语音去混响设备的配置的方框图;
图13是图示包括在图12中所示的语音去混响设备中的似然最大化单元的配置的方框图;
图14是图示包括在图12中所示的语音去混响设备中的逆滤波器应用单元的配置的方框图;
图15是图示包括在图12中所示的语音去混响设备中的另一个逆滤波器应用单元的配置的方框图;
图16A图示当女人说话时在RT60=1.0秒的能量衰减曲线;
图16B图示当女人说话时在RT60=0.5秒的能量衰减曲线;
图16C图示当女人说话时在RT60=0.2秒的能量衰减曲线;
图16D图示当女人说话时在RT60=0.1秒的能量衰减曲线;
图16E图示当男人说话时在RT60=1.0秒的能量衰减曲线;
图16F图示当男人说话时在RT60=0.5秒的能量衰减曲线;
图16G图示当男人说话时在RT60=0.2秒的能量衰减曲线;以及
图16H图示当男人说话时在RT60=0.1秒的能量衰减曲线。
具体实施方式
根据本发明的一个方面,提供单声道语音去混响方法,其中源信号和室内声学的特征通过概率密度函数(pdf)表示以及通过最大化基于概率密度函数(pdf)定义的似然函数来估计源信号。基于两种基本语音信号特征、即调和性和稀疏性,两种类型的概率密度函数(pdf)被引入用于源信号,同时基于逆滤波操作来定义室内声学的概率密度函数(pdf)。期望最大化(EM)算法被用于有效地解决最大似然问题。所产生的算法通过经由期望最大化(EM)迭代将其源信号特征与室内声学特征结合来精心制作仅仅基于其源信号特征所给定的初始源信号估计。用去混响脉冲响应的能量衰减曲线来显示本方法的有效性。
尽管上述的HERB和SBD在获得去混响滤波器中有效地利用语音信号特征,但是它们并不提供能够优化其性能的分析构架。根据本发明的一个方面,上述的HERB和SBD被重新用公式表示为最大似然(ML)估计问题,其中源信号被确定为在给定观测信号的情况下最大化似然函数的信号。为此目的,两个概率密度函数(pdf)被引入用于初始源信号估计和去混响滤波器,以便基于期望最大化(EM)算法最大化似然函数。实验结果显示:在给定相同数量的观测信号的情况下在去混响脉冲响应的能量衰减曲线方面能够进一步提高HERB和SBD的性能。以下描述将针对在本发明的一个方面中使用的傅立叶频谱。
短时傅立叶频谱和长时傅立叶频谱
本发明的一个方面将合并有关考虑源特性的语音信号特征和有关考虑混响效果的室内声学特征的信息。大约几十毫秒的短时间帧的相继应用对于分析这样的随时间变化的语音特征可能是有用的,而通常可能需要大约几千毫秒的相对长的时间帧来计算室内声学特征。本发明的一个方面将引入基于这两种分析帧的两种类型的傅立叶频谱、即在下文中被称为“STFS”的短时傅立叶频谱和在下文中被称为“LTFS”的长时傅立叶频谱。STFS和LTFS中的各频率分量通过具有尾标“(r)”的符号被表示为
Figure GSB00000559663800141
以及通过另一个不具有尾标的符号被表示为sl,k′,其中sl,k′的l是用于LTFS的长时间帧的索引,k′是用于LTFS的频率索引,
Figure GSB00000559663800142
的l是包括用于STFS的短时间帧的长时间帧的索引,
Figure GSB00000559663800143
的m是包括在长时间帧中的短时间帧的索引,以及
Figure GSB00000559663800144
的k是用于STFS的频率索引。短时间帧能够被视为长时间帧的组成部分。所以,STFS中的频率分量具有两个下标l和m。两个频谱被如下定义:
s l , m , k ( r ) = 1 / K ( τ ) Σ n = 0 K ( r ) - 1 g ( r ) [ n ] s [ t l , m + n ] e - j 2 πkn / K ( r ) ,
s l , m = 1 / K Σ n = 0 K - 1 g [ n ] s [ t l + n ] e - j 2 πkn / K , - - - ( 1 )
其中s[n]是数字化波形信号,g(r)[n]和g[n]、K(r)和K、以及tl,m和tl分别是窗函数、离散傅立叶变换(DFT)点的数量、和用于STFS和LTFS的时间索引。设置tl,m和tl之间的关系为对于m=0到M-1,tl,m=tl+mτ,其中τ是相继的短时间帧之间的帧移。此外,引入以下归一化条件:
K=κK(τ)
g [ n ] = κ Σ m = 0 M - 1 g ( r ) [ n - mτ ] . - - - ( 2 )
其中κ是整数常量。利用该条件,在STFS,和LTFS,sl,k′之间保持以下方程,其中k’=κk:
s l , k ′ = Σ m = 0 M - 1 s l , m , k ( r ) η - m , - - - ( 3 )
其中
Figure GSB00000559663800152
。定义逆操作,通过LSm,k{·}来表示,该逆操作将由{sl,k′}l所表示的在长时间帧l的一组LTFS仓sl,k′(k′=1-K)变换为在短时间帧m和频率索引k的STFS仓(bin):
s l , m , k ( r ) = LS m , k { { s l , k ′ } l } . - - - ( 4 )
通过级联逆长时傅立叶变换和短时傅立叶变换能够实现这种变换。显然,LSm,k{·}是线性操作符。
信号的三种类型的表示、即波形数字化信号、短时傅立叶频谱(STFS)和长时傅立叶频谱(LTFS)包含相同的信息,并且能够使用已知的变换在无任何主要信息丢失的情况下从一种类型被变换到另一种类型。
源和室内声学的概率模型
定义以下术语:
Figure GSB00000559663800154
观测到的混响信号的STFS
Figure GSB00000559663800155
未知源信号的STFS
初始源信号估计的STFS
wk′:未知逆滤波器的LTFS(k′=κk)
                                (5)
假设
Figure GSB00000559663800157
和wk分别是随机过程
Figure GSB00000559663800158
和Wk′的实现,以及
Figure GSB00000559663800159
是根据观测信号基于语音信号的特征、诸如调和性和稀疏性而给定的。
在以下描述的本发明的一个实施例中,
Figure GSB000005596638001510
或sl,k′被作为未知参数
处理,wk′被作为丢失数据的第一随机变量处理,以及
Figure GSB00000559663800161
或Xl,k′被作为第二随机变量的一部分处理,和
Figure GSB00000559663800162
Figure GSB00000559663800163
被作为第二随机变量的另一部分处理。
假设:针对一定的持续时间给定以及给定
Figure GSB00000559663800166
其中{.}k表示在频率索引k的STFS仓的时间系列。
在此情况下,假设语音通过估计最大化在每个频率索引k定义的似然函数的源信号能够去混响:
θ k = arg max Θ k log p { z k ( r ) | Θ k }
= arg max Θ k log ∫ p { w k ′ , z k ( r ) | Θ k } d w k ′ , - - - ( 6 )
其中
Figure GSB00000559663800169
Figure GSB000005596638001610
以及k′=κk是LTFS仓的频率索引。θk的上述方程中的积分是对wk’的实部和虚部的简单二重积分。未被观测的逆滤波器被作为上述似然函数中的丢失数据处理并通过积分被排斥(marginalize)。为了分析该函数,进一步假设:在给定
Figure GSB000005596638001611
的情况下,
Figure GSB000005596638001612
以及
Figure GSB000005596638001613
和wk’联合事件在统计上是独立的。在此情况下,上述方程(6)中的p{wk;zkk}能够被如下分成两个函数:
p { w k ′ , z k | Θ k } = p { w k ′ , { x l , m , k ( r ) } k | Θ k } p { { s ^ l , m , k ( r ) } k | Θ k } . - - - ( 7 )
前者是与室内声学有关的概率密度函数(pdf),即在给定源信号的情况下观测信号和逆滤波器的联合概率密度函数(pdf)。后者是与由初始估计提供的信息有关的另一个概率密度函数(pdf),即在给定源信号的情况下初始源信号估计的概率密度函数(pdf)。第二分量能够被解释为在给定真实源信号的情况下语音特征的概率存在。它们将分别在下文中被称为“声学概率密度函数(声学pdf)”以及“源概率密度函数(源pdf)”。理想地,逆传递函数wk′将xl,k′变换成sl,k′,即wkxl,k′=sl,k′。但是,在实际的声学环境中,该方程由于诸如不足够的逆滤波器长度和室内传递函数的波动这样的原因而可能包含一定误差
Figure GSB00000559663800171
所以,声学pdf能够被认为是这种误差的概率密度函数(pdf),如
Figure GSB00000559663800172
类似地,源概率密度函数(源pdf)能够被认为是误差
Figure GSB00000559663800173
或者源信号和基于特征的信号之差的另一个概率密度函数(pdf),如
Figure GSB00000559663800174
为了简化起见,假设这些误差是在给定
Figure GSB00000559663800175
的情况下顺序地独立的随机过程。假设上述两个误差过程的实部和虚部以相同的方差相互独立并且能够单独地通过具有零平均值的高斯随机过程被建模。利用这些假设,误差概率密度函数(误差pdf)被表示为:
Figure GSB00000559663800176
Figure GSB00000559663800177
其中
Figure GSB00000559663800178
分别是两个概率密度函数(pdf)的方差,在下文中被称为声学环境不确定性和源信号不确定性。假设这两个值是基于语音信号和室内声学的特征被给定的。
EM算法的说明
期望最大化(EM)算法是找到最大化包括丢失数据的给定似然函数的一组参数的优化方法。这通过A.P.Dempster、N.M.Laird、和D.B.Rubin在“maximum likelihood from incorporate data via theEM algorithm”(Journal of the Royal Statistical Society,SeriesB,39(1):1-38,1977年)中被公开。通常,似然函数被表示为:
Figure GSB000005596638001710
Figure GSB000005596638001711
其中p{·|Θ}表示在参数集Θ被给定并且X和Y是随机变量的条件下随机变量的概率密度函数(pdf)。X=x意味着x作为关于X的观测数据被给定。在上述似然函数中,假设Y未被观测到,被称为丢失数据,因此利用Y排斥概率密度函数(pdf)。通过找到最大化似然函数的参数集Θ=θ的实现能够求解最大似然问题。
根据期望最大化(EM)算法,利用辅助函数Q{Θ|θ}的期望步骤(E-step)和最大化步骤(M-step)被分别定义为:
·E-step:
Q { Θ | θ } = E | θ { log p { X = x , Y | Θ } | Θ = θ } ,
= ∫ p { X = x , Y = y | Θ = θ } log p { X = x , Y = y | Θ } dy ,
·M-step: θ ~ = arg max Θ Q { Θ | θ } , - - - ( 10 )
其中在上述方程(10)的标记为“E-step”的上面方程中的E{·|θ}是在Θ=θ为固定的条件下的期望函数,其被更具体地定义为所述方程在E-step中的第二行。似然函数
Figure GSB00000559663800184
被显示为通过经由期望步骤(E-step)和最大化步骤(M-step)的一次迭代利用
Figure GSB00000559663800185
更新Θ=θ进行增加,其中在期望步骤(E-step)中计算Q{Θ|θ},而在最大化步骤(M-step)中获得最大化Q{Θ|θ}的
Figure GSB00000559663800186
最大似然问题的解通过重复所述迭代获得。
基于EM算法的解
求解θk的上述方程(6)的一种有效方式是使用上述期望最大化(EM)算法。利用这种方法,为了语音去混响,利用辅助函数Q(Θkk)的期望步骤(E-step)和最大化步骤(M-step)被分别定义为:
Q { Θ k | θ k } = E | θ { log p { W k ′ Z k ( r ) = z k ( r ) | Θ k } | Θ k = θ k } ,
= ∫ p { W k ′ = w k ′ Z k ( r ) = z k r | Θ k = θ k } log p { W k ′ = w k ′ , Z k ( r ) = z k ( r ) | Θ k } , - - - ( 11 )
θ ~ k = arg max Θ k Q ( Θ k | θ k ) ,
其中假设
Figure GSB000005596638001810
是以下随机过程的实现:
Z k ( r ) = { { X l , m , k ( r ) } k , { S ^ l , m , k ( r ) } k } .
根据EM算法,对数似然log
Figure GSB00000559663800192
通过利用经由EM迭代获得的
Figure GSB00000559663800193
更新θk而增加,并且通过重复所述迭代收敛到平稳点解。
解:
取代直接计算E-step和M-step,由于Q(Θkk)-Q(θkk)在相同的Θk具有其最大值如Q(Θkk),因此它被分析。在Q(Θkk)-Q(θkk)的某种排列之后并且仅仅提取包含Θk的项,从而获得以下函数。
Figure GSB00000559663800194
Figure GSB00000559663800195
其中
Figure GSB00000559663800196
其中
Figure GSB00000559663800197
意味着复数共轭。应该注意:Θk最大化QΘkk}并且也最大化Q(Θkk),Θk产生QΘkk}>QΘkk}并且也产生Q(Θkk)>Q(θkk)。最大化QΘkk}的Θk能够通过以
Figure GSB000005596638001911
对它求微分、将它设置成零、以及求解所产生的联立方程而获得。但是,获得该解的计算成本相当高,这是因为需要针对每个l和k求解具有M个未知变量的该方程。
替代地,为了以更有效的方式最大化上述方程(12)的QΘkk}引入以下假设。通过基于上述方程(3)对构成LTFS仓的STFS仓的幂求和,能够近似LTFS仓的幂,即:
Figure GSB000005596638001913
利用这种假设,通过上述方程(12)给定的QΘkk}能够被重写为:
Q Θ { Θ k | θ k } = Σ l Σ m - | LS m , k { { w ~ k ′ x l , k ′ } l - S l , m , k ( r ) } | 2 2 σ l , k ′ ( a )
+ Σ l Σ m - | s ^ l , m , k ( r ) - S l , m , k ( r ) | 2 2 σ l , m , k ( sτ ) . - - - ( 14 )
通过对上述方程求微分并将它设置成零,能够如下针对通过上述方程(11)的M-step所给定的
Figure GSB00000559663800203
获得封闭形式解:
s ~ l , m , k ( r ) = σ l , m , k ( sr ) LS m , k { { w ~ k ′ x l , k ′ } l } + σ l , k ′ ( a ) s ^ l , m , k ( τ ) σ l , k ′ ( a ) + σ l , m , k ( sr ) . - - - ( 15 )
讨论:
利用这种方法,通过依次重复地计算由上述方程(12)给定的
Figure GSB00000559663800205
以及由上述方程(15)给定的来实现去混响。
上述方程(12)中的对应于在给定初始源信号估计为sl,k’和观测信号为xl,k′的情况下通过传统HERB和SBD方法获得的去混响滤波器。
上述方程(15)通过初始源信号估计
Figure GSB00000559663800208
和通过将xl,k′乘以
Figure GSB00000559663800209
获得的源估计的加权平均来更新所述源估计。根据源信号不确定性和声学环境不确定性来确定权重。换而言之,一次EM迭代通过集成基于源和室内声学特性获得的两种类型的源估计来精心制作源估计。
从不同的观点来看,能够将通过上述方程(12)计算的逆滤波器估计
Figure GSB000005596638002010
视为最大化如下在θk是固定的条件下所定义的似然函数的逆滤波器估计,
L { w k ′ , θ k } = p { w k ′ , z k ( r ) | θ k }
= p { w k ′ , { x l , m , k ( r ) } k | θ k } p { { s ^ l , m , k ( r ) } k | θ k } , - - - ( 16 )
其中采用与上述方程(8)相同的定义用于上述似然函数中的概率密度函数(pdf)。另外,通过上述方程(15)计算的源信号估计
Figure GSB000005596638002013
也在逆滤波器估计
Figure GSB000005596638002014
是固定的条件下最大化上述似然函数。所以,通过分别重复地计算上述方程(12)和(15),能够获得最大化上述似然函数的逆滤波器估计
Figure GSB00000559663800211
和源信号估计换而言之,通过这种迭代优化算法,能够计算最大化上述似然函数的逆滤波器估计
Figure GSB00000559663800213
现在将参考附图描述本发明的所选择的实施例。对于本领域普通技术人员来说根据本公开内容将显而易见的是,本发明的实施例的以下描述仅仅被提供用于说明而不是用于限制如通过所附的权利要求及其等同物定义的本发明的目的。
第一实施例:
图1是图示根据本发明的第一实施例的、基于源和室内声学的概率模型的语音去混响设备的方框图。能够通过一组功能单元来实现语音去混响设备10000,该组功能单元协作用于接收观测信号x[n]的输入并产生波形信号
Figure GSB00000559663800214
的输出。功能单元中的每一个都可以包括被构造和/或被编程用于执行预定功能的硬件和/或软件。术语“被适配”和“被配置”被用于描述被构造和/或被编程用于执行一个或多个期望功能的硬件和/或软件。语音去混响设备10000能够例如通过计算机或处理器来实现。语音去混响设备10000执行语音去混响操作。语音去混响方法能够通过要由计算机执行的程序来实现。
语音去混响设备10000可以典型地包括初始化单元1000、似然最大化单元2000和逆短时傅立叶变换单元4000。初始化单元1000可以被适配用于接收能够是数字化波形信号的观测信号x[n],其中n是样本索引。数字化波形信号x[n]可以包含具有未知混响程度的语音信号。通过诸如一个或多个麦克风的设备能够捕获该语音信号。初始化单元1000可以被适配用于从观测信号提取与源信号和声学环境有关的初始源信号估计和不确定性。初始化单元1000还可以被适配用于用公式表达初始源信号估计、源信号不确定性和声学环境不确定性的表示。针对所有索引l、m、k和k′,这些表示被列举为是数字化波形初始源信号估计的是表示源信号不确定性的方差或离差的
Figure GSB00000559663800216
以及是表示声学环境不确定性的方差或离差的
Figure GSB00000559663800217
即,初始化单元1000可以被适配用于接收数字化波形信号x[n]的输入作为观测信号并产生数字化波形初始源信号估计
Figure GSB00000559663800218
表示源信号不确定性的方差或离差
Figure GSB00000559663800219
以及表示声学环境不确定性的方差或离差
似然最大化单元2000可以与初始化单元1000协作。即,似然最大化单元2000可以被适配用于从初始化单元1000接收数字化波形初始源信号估计
Figure GSB00000559663800221
的输入、源信号不确定性和声学环境不确定性
Figure GSB00000559663800223
似然最大化单元2000还可以被适配用于接收数字化波形观测信号x[n]的另一个输入作为观测信号。
Figure GSB00000559663800224
是数字化波形初始源信号估计。
Figure GSB00000559663800225
是表示源信号不确定性的第一方差。
Figure GSB00000559663800226
是表示声学环境不确定性的第二方差。似然最大化单元2000还可以被适配用于确定最大化似然函数的源信号估计θk,其中参考数字化波形观测信号x[n]、数字化波形初始源信号估计表示源信号不确定性的第一方差
Figure GSB00000559663800228
以及表示声学环境不确定性的第二方差
Figure GSB00000559663800229
来进行所述确定。通常,可以基于概率密度函数来定义似然函数,该概率密度函数根据参考源信号估计所定义的未知参数、表示室内传递函数的逆滤波器的丢失数据的第一随机变量、和参考观测信号和初始源信号估计所定义的观测数据的第二随机变量进行评估。使用迭代优化算法来执行源信号估计θk的确定。
迭代优化算法的典型实例可以包括但不限于上述期望最大化算法。在一个实例中,似然最大化单元2000可以被适配用于针对所有k搜索源信号
Figure GSB000005596638002210
并估计最大化如下定义的似然函数的源信号:
Figure GSB000005596638002211
其中
Figure GSB000005596638002212
是此刻的短时观测
Figure GSB000005596638002213
和初始源信号估计
Figure GSB000005596638002214
的联合事件。已经参考上述方程(6)描述了该函数的细节。因此,似然最大化单元2000可以被适配用于确定并输出最大化所述似然函数的源信号估计
Figure GSB000005596638002215
逆短时傅立叶变换单元4000可以与似然最大化单元2000协作。即,逆短时傅立叶变换单元4000可以被适配用于从似然最大化单元2000接收最大化似然函数的源信号估计
Figure GSB000005596638002216
的输入。逆短时傅立叶变换单元4000还可以被适配用于将源信号估计
Figure GSB000005596638002217
变换成数字化波形信号
Figure GSB000005596638002218
并输出该数字化波形信号
Figure GSB000005596638002219
似然最大化单元2000能够通过相互协作以确定并输出最大化似然函数的源信号估计
Figure GSB000005596638002220
的一组子功能单元来实现。图2是图示图1中所示的似然最大化单元2000的配置的方框图。在一种情况下,似然最大化单元2000还可以包括长时傅立叶变换单元2100、更新单元2200、STFS到LTFS变换单元2300、逆滤波器估计单元2400、滤波单元2500、LTFS到STFS变换单元2600、源信号估计和收敛检验单元2700、短时傅立叶变换单元2800、以及长时傅立叶变换单元2900。这些单元协作以继续执行迭代操作,直到已经确定最大化似然函数的源信号估计为止。
长时傅立叶变换单元2100被适配用于从初始化单元1000接收数字化波形观测信号x[n]作为观测信号。长时傅立叶变换单元2100还被适配用于执行数字化波形观测信号x[n]到作为长期傅立叶频谱(LTFS)的变换后的观测信号xl,k’的长时傅立叶变换。
短时傅立叶变换单元2800被适配用于从初始化单元1000接收数字化初始源信号估计
Figure GSB00000559663800231
短时傅立叶变换单元2800被适配用于执行数字化波形初始源信号估计
Figure GSB00000559663800232
到初始源信号估计
Figure GSB00000559663800233
的短时傅立叶变换。
长时傅立叶变换单元2900被适配用于从初始化单元1000接收数字化波形初始源信号估计长时傅立叶变换单元2900被适配用于执行数字化波形初始源信号估计
Figure GSB00000559663800235
到初始源信号估计
Figure GSB00000559663800236
的长时傅立叶变换。
更新单元2200与长时傅立叶变换单元2900和STFS到LTFS变换单元2300协作。更新单元2200被适配用于在迭代的初始步骤中从长时傅立叶变换单元2900接收初始源信号估计并且还被适配用于用从长时傅里叶变换单元2900接收的源信号估计
Figure GSB00000559663800238
代替更新的源信号估计θk’。更新单元2200此外被适配用于发送更新的源信号估计θk’给逆滤波器估计单元2400。更新单元2200还被适配用于在迭代的随后步骤中从STFS到LTFS变换单元2300接收源信号估计并且用于用从STFS到LTFS变换单元2300接收的源信号估计
Figure GSB000005596638002310
代替更新的源信号估计θk’。更新单元2200还被适配用于发送更新的源信号估计θk′给逆滤波器估计单元2400。
逆滤波器估计单元2400与长时傅立叶变换单元2100、更新单元2200和初始化单元1000协作。逆滤波器估计单元2400被适配用于从长时傅立叶变换单元2100接收观测信号xl,k′。逆滤波器估计单元2400还被适配用于从更新单元2200接收更新的源信号估计θk′。逆滤波器估计单元2400还被适配用于从初始化单元1000接收表示声学环境不确定性的第二方差
Figure GSB00000559663800241
逆滤波器估计单元2400进一步被适配用于根据上述方程(12)基于观测信号xl,k′、更新的源信号估计θk′和表示声学环境不确定性的第二方差
Figure GSB00000559663800242
来计算逆滤波器估计
Figure GSB00000559663800243
逆滤波器估计单元2400进一步被适配用于输出逆滤波器估计
Figure GSB00000559663800244
滤波单元2500与长时傅立叶变换单元2100和逆滤波器估计单元2400协作。滤波单元2500被适配用于从长时傅立叶变换单元2100接收观测信号xl,k′。滤波单元2500还被适配用于从逆滤波器估计单元2400接收逆滤波器估计
Figure GSB00000559663800245
滤波单元2500还被适配用于将观测信号xl,k′应用于逆滤波器估计
Figure GSB00000559663800246
以产生滤波源信号估计将观测信号xl,k′应用于逆滤波器估计
Figure GSB00000559663800248
的滤波过程的典型实例可以包括但不限于计算观测信号xl,k′和逆滤波器估计
Figure GSB00000559663800249
的乘积
Figure GSB000005596638002410
在这种情况下,通过观测信号xl,k′和逆滤波器估计
Figure GSB000005596638002411
的乘积
Figure GSB000005596638002412
来给定滤波源信号估计
Figure GSB000005596638002413
LTFS到STFS变换单元2600与滤波单元2500协作。LTFS到STFS变换单元2600被适配用于从滤波单元2500接收滤波源信号估计
Figure GSB000005596638002414
LTFS到STFS变换单元2600进一步被适配用于执行滤波源信号估计
Figure GSB000005596638002415
到变换后的滤波源信号估计的LTFS到STFS变换。当滤波过程是计算观测信号xl,k′和逆滤波器估计
Figure GSB000005596638002417
的乘积
Figure GSB000005596638002418
时,LTFS到STFS变换单元2600进一步被适配用于执行乘积到变换后的信号
Figure GSB000005596638002420
的LTFS到STFS变换。在这种情况下,乘积
Figure GSB000005596638002421
表示滤波源信号估计
Figure GSB000005596638002422
以及变换后的信号表示变换后的滤波源信号估计
源信号估计和收敛检验单元2700与LTFS到STFS变换单元2600、短时傅立叶变换单元2800、以及初始化单元1000协作。源信号估计和收敛检验单元2700被适配用于从LTFS到STFS变换单元2600接收变换后的滤波源信号估计
Figure GSB000005596638002425
源信号估计和收敛检验单元2700还被适配用于从初始化单元1000接收表示源信号不确定性的第一方差
Figure GSB000005596638002426
和表示声学环境不确定性的第二方差源信号估计和收敛检验单元2700还被适配用于从短时傅立叶变换单元2800接收初始源信号估计源信号估计和收敛检验单元2700进一步被适配用于基于变换后的滤波源信号估计
Figure GSB00000559663800251
表示源信号不确定性的第一方差
Figure GSB00000559663800252
表示声学环境不确定性的第二方差
Figure GSB00000559663800253
和初始源信号估计
Figure GSB00000559663800254
估计源信号
Figure GSB00000559663800255
其中根据上述方程(15)进行所述估计。
源信号估计和收敛检验单元2700此外被适配用于例如通过比较当前已经被估计的源信号估计
Figure GSB00000559663800256
的当前值和之前已经被估计的源信号估计
Figure GSB00000559663800257
的前一值以及检验是否当前值偏离前一值小于一定的预定量来确定迭代过程的收敛状态。如果源信号估计和收敛检验单元2700确认源信号估计的当前值偏离其前一值小于一定的预定量,那么源信号估计和收敛检验单元2700识别出已经获得源信号估计
Figure GSB00000559663800259
的收敛。如果源信号估计和收敛检验单元2700确认源信号估计的当前值偏离其前一值不小于一定的预定量,那么源信号估计和收敛检验单元2700识别出还未获得源信号估计
Figure GSB000005596638002511
的收敛。
作为修改有可能的是当迭代次数达到一定的预定值时终止迭代过程。即,源信号估计和收敛检验单元2700已经确认迭代次数达到一定的预定值,于是源信号估计和收敛检验单元2700识别出已经获得源信号估计
Figure GSB000005596638002512
的收敛。如果源信号估计和收敛检验单元2700已经确认已经获得源信号估计的收敛,那么源信号估计和收敛检验单元2700向逆短时傅立叶变换单元4000提供源信号估计
Figure GSB000005596638002514
作为第一输出。如果源信号估计和收敛检验单元2700已经确认还未获得源信号估计
Figure GSB000005596638002515
的收敛,那么源信号估计和收敛检验单元2700向STFS到LTFS变换单元2300提供源信号估计
Figure GSB000005596638002516
作为第二输出。
STFS到LTFS变换单元2300与源信号估计和收敛检验单元2700协作。STFS到LTFS变换单元2300被适配用于从源信号估计和收敛检验单元2700接收源信号估计
Figure GSB000005596638002517
STFS到LTFS变换单元2300被适配用于执行源信号估计
Figure GSB000005596638002518
到变换后的源信号估计
Figure GSB000005596638002519
的STFS到LTFS变换。
在迭代操作的随后步骤中,更新单元2200从STFS到LTFS变换单元2300接收所述源信号估计
Figure GSB000005596638002520
并用源信号估计θk代替
Figure GSB000005596638002521
以及发送更新的源信号估计θk’给逆滤波器估计单元2400。
上述迭代过程将被继续,直到源信号估计和收敛检验单元2700已经确认源信号估计
Figure GSB000005596638002522
的收敛已经被获得。在迭代的初始步骤中,
更新的源信号估计θk′是从长时傅立叶变换单元2900提供的在迭代的第二或随后步骤中,更新的源信号估计θk′
Figure GSB00000559663800261
如果源信号估计和收敛检验单元2700已经确认已经获得源信号估计
Figure GSB00000559663800262
的收敛,那么源信号估计和收敛检验单元2700向逆短时傅立叶变换单元4000提供源信号估计
Figure GSB00000559663800263
作为第一输出。逆短时傅立叶变换单元4000可以被适配用于将源信号估计
Figure GSB00000559663800264
变换成数字化波形信号
Figure GSB00000559663800265
并输出该数字化波形信号
将参考图2描述似然最大化单元2000的操作。
在迭代的初始步骤中,将数字化波形观测信号x[n]从初始化单元1000提供给长时傅立叶变换单元2100。由长时傅立叶变换单元2100执行长时傅立叶变换以便数字化波形观测信号x[n]被变换成作为长期傅立叶频谱(LTFS)的变换后的观测信号xl,k′。数字化波形初始源信号估计
Figure GSB00000559663800267
从初始化单元1000被提供给短时傅立叶变换单元2800和长时傅立叶变换单元2900。由短时傅立叶变换单元2800执行短时傅立叶变换以便将数字化波形初始源信号估计
Figure GSB00000559663800268
变换成初始源信号估计
Figure GSB00000559663800269
由长时傅立叶变换单元2900执行长时傅立叶变换以便将数字化波形初始源信号估计
Figure GSB000005596638002610
变换成初始源信号估计
Figure GSB000005596638002611
从长时傅立叶变换单元2900提供初始源信号估计给更新单元2200。通过更新单元2200用源信号估计θk′代替初始源信号估计然后从更新单元2200提供初始源信号估计
Figure GSB000005596638002614
给逆滤波器估计单元2400。观测信号xl,k′从长时傅立叶变换单元2100被提供给逆滤波器估计单元2400。表示声学环境不确定性的第二方差
Figure GSB000005596638002615
从初始化单元1000被提供给逆滤波器估计单元2400。逆滤波器估计单元2400基于观测信号xl,k′初始源信号估计θk′、以及表示声学环境不确定性的第二方差
Figure GSB000005596638002616
计算逆滤波器估计
Figure GSB000005596638002617
其中根据上述方程(12)进行所述计算。
逆滤波器估计
Figure GSB000005596638002618
从逆滤波器估计单元2400被提供给滤波单元2500。观测信号xl,k′进一步从长时傅立叶变换单元2100被提供给滤波单元2500。滤波单元2500将逆滤波器估计
Figure GSB000005596638002619
应用于观测信号xl,k′以产生滤波源信号估计
Figure GSB000005596638002620
将观测信号xl,k′应用于逆滤波器估计的滤波过程的典型实例可以用于计算观测信号xl,k′和逆滤波器估计的乘积
Figure GSB000005596638002623
在这种情况下,通过观测信号xl,k′和逆滤波器估计的乘积来给定滤波源信号估计
Figure GSB000005596638002626
从滤波单元2500提供滤波源信号估计
Figure GSB00000559663800271
给LTFS到STFS变换单元2600。由LTFS到STFS变换单元2600执行LTFS到STFS变换以便滤波源信号估计
Figure GSB00000559663800272
被变换成变换后的滤波源信号估计
Figure GSB00000559663800273
当滤波过程用于计算观测信号xl,k′和逆滤波器估计
Figure GSB00000559663800274
的乘积
Figure GSB00000559663800275
时,乘积
Figure GSB00000559663800276
被变换成变换后的信号
从LTFS到STFS变换单元2600提供变换后的滤波源信号估计
Figure GSB00000559663800278
给源信号估计和收敛检验单元2700。从初始化单元1000提供表示源信号不确定性的第一方差
Figure GSB00000559663800279
和表示声学环境不确定性的第二方差
Figure GSB000005596638002710
给源信号估计和收敛检验单元2700。从短时傅立叶变换单元2800提供初始源信号估计
Figure GSB000005596638002711
给源信号估计和收敛检验单元2700。源信号估计和收敛检验单元2700基于变换后的滤波源信号估计表示源信号不确定性的第一方差
Figure GSB000005596638002713
表示声学环境不确定性的第二方差
Figure GSB000005596638002714
和初始源信号估计
Figure GSB000005596638002715
计算源信号估计其中根据上述方程(15)进行所述估计。
在迭代的初始步骤中,从源信号估计和收敛检验单元2700提供源信号估计
Figure GSB000005596638002717
给STFS到LTFS变换单元2300以便将源信号估计
Figure GSB000005596638002718
变换成变换后的源信号估计
Figure GSB000005596638002719
从STFS到LTFS变换单元2300提供变换后的源信号估计给更新单元2200。更新单元2200用源信号估计θk′代替变换后的源信号估计从更新单元2200提供更新的源信号估计θk′给逆滤波器估计单元2400。
在迭代的第二或随后步骤中,从更新单元2200提供源信号估计
Figure GSB000005596638002722
给逆滤波器估计单元2400。观测信号xl,k′也从长时傅立叶变换单元2100被提供给逆滤波器估计单元2400。从初始化单元1000提供表示声学环境不确定性的第二方差给逆滤波器估计单元2400。逆滤波器估计单元2400基于观测信号xl,k′、更新的源信号估计
Figure GSB000005596638002724
和表示声学环境不确定性的第二方差
Figure GSB000005596638002725
计算更新的逆滤波器估计
Figure GSB000005596638002726
其中根据上述方程(12)进行所述计算。
从逆滤波器估计单元2400提供更新的逆滤波器估计
Figure GSB000005596638002727
给滤波单元2500。观测信号xl,k′进一步被从长时傅立叶变换单元2100提供给滤波单元2500。滤波单元2500将观测信号xl,k′应用于更新的逆滤波器估计
Figure GSB000005596638002728
以产生滤波源信号估计
Figure GSB000005596638002729
从滤波单元2500提供更新的滤波源信号估计
Figure GSB000005596638002730
给LTFS到STFS变换单元2600。LTFS到STFS变换单元2600执行LTFS到STFS变换以便将更新的滤波源信号估计
Figure GSB00000559663800281
变换成变换后的滤波源信号估计
Figure GSB00000559663800282
从LTFS到STFS变换单元2600提供更新的滤波源信号估计
Figure GSB00000559663800283
给源信号估计和收敛检验单元2700。还从初始化单元1000提供表示源信号不确定性的第一方差
Figure GSB00000559663800284
和表示声学环境不确定性的第二方差
Figure GSB00000559663800285
给源信号估计和收敛检验单元2700。从短时傅立叶变换单元2800提供更新的初始源信号估计
Figure GSB00000559663800286
给源信号估计和收敛检验单元2700。源信号估计和收敛检验单元2700基于变换后的滤波源信号估计
Figure GSB00000559663800287
表示源信号不确定性的第一方差
Figure GSB00000559663800288
和表示声学环境不确定性的第二方差
Figure GSB00000559663800289
和初始源信号估计
Figure GSB000005596638002810
计算源信号估计
Figure GSB000005596638002811
其中根据上述方程(15)进行所述估计。比较当前已经被估计的源信号估计
Figure GSB000005596638002812
的当前值与之前已经被估计的源信号估计
Figure GSB000005596638002813
的前一值。源信号估计和收敛检验单元2700验证是否当前值偏离前一值小于一定的预定量。
如果源信号估计和收敛检验单元2700确认源信号估计
Figure GSB000005596638002814
的当前值偏离其前一值小于一定的预定量,那么源信号估计和收敛检验单元2700识别出已经获得源信号估计
Figure GSB000005596638002815
的收敛。源信号估计
Figure GSB000005596638002816
作为第一输出从源信号估计和收敛检验单元2700被提供给逆短时傅立叶变换单元4000。逆短时傅立叶变换单元4000将源信号估计
Figure GSB000005596638002817
变换成数字化波形源信号估计
Figure GSB000005596638002818
如果源信号估计和收敛检验单元2700确认源信号估计
Figure GSB000005596638002819
的当前值不偏离其前一值小于一定的预定量,那么源信号估计和收敛检验单元2700识别出还未获得源信号估计
Figure GSB000005596638002820
的收敛。从源信号估计和收敛检验单元2700提供源信号估计
Figure GSB000005596638002821
给STFS到LTFS变换单元2300以便将源信号估计
Figure GSB000005596638002822
变换成变换后的源信号估计
Figure GSB000005596638002823
从STFS到LTFS变换单元2300提供变换后的源信号估计给更新单元2200。更新单元2200用源信号估计θk′代替变换后的源信号估计
Figure GSB000005596638002825
从更新单元2200提供更新的源信号估计θk′给逆滤波器估计单元2400。
作为修改有可能的是当迭代次数达到一定的预定值时终止迭代过程。即,已经通过源信号估计和收敛检验单元2700确认迭代次数达到一定的预定值,那么源信号估计和收敛检验单元2700识别出已经获得源信号估计
Figure GSB000005596638002826
的收敛。如果已经通过源信号估计和收敛检验单元2700确认已经获得源信号估计
Figure GSB00000559663800291
的收敛,那么源信号估计
Figure GSB00000559663800292
作为第一输出从源信号估计和收敛检验单元2700被提供给逆短时傅立叶变换单元4000。如果已经通过源信号估计和收敛检验单元2700确认还未获得源信号估计
Figure GSB00000559663800293
的收敛,那么源信号估计作为第二输出从源信号估计和收敛检验单元2700被提供给STFS到LTFS变换单元2300以便然后将源信号估计
Figure GSB00000559663800295
变换成变换后的源信号估计
Figure GSB00000559663800296
进一步用源信号估计θk’代替变换后的源信号估计
Figure GSB00000559663800297
上述迭代过程将被继续,直到通过源信号估计和收敛检验单元2700已经确认已经获得源信号估计
Figure GSB00000559663800298
的收敛。在迭代的初始步骤中,更新的源信号估计θk’是从长时傅立叶变换单元2900提供的。在迭代的第二或随后步骤中,更新的源信号估计θk′
Figure GSB00000559663800299
如果已经通过源信号估计和收敛检验单元2700确认已经获得源信号估计
Figure GSB000005596638002910
的收敛,那么源信号估计
Figure GSB000005596638002911
作为第一输出从源信号估计和收敛检验单元2700被提供给逆短时傅立叶变换单元4000。逆短时傅立叶变换单元4000将源信号估计
Figure GSB000005596638002912
变换成数字化波形源信号估计并输出该数字化波形源信号估计
图3A是图示在图2中所示的STFS到LTFS变换单元2300的配置的方框图。STFS到LTFS变换单元2300可以包括逆短时傅立叶变换单元2310和长时傅立叶变换单元2320。逆短时傅立叶变换单元2310与源信号估计和收敛检验单元2700协作。逆短时傅立叶变换单元2310被适配用于从源信号估计和收敛检验单元2700接收源信号估计
Figure GSB000005596638002915
逆短时傅立叶变换单元2310进一步被适配用于将源信号估计
Figure GSB000005596638002916
变换成作为输出的数字化波形源信号估计
Figure GSB000005596638002917
长时傅立叶变换单元2320与逆短时傅立叶变换单元2310协作。长时傅立叶变换单元2320被适配用于从逆短时傅立叶变换单元2310接收数字化波形源信号估计
Figure GSB000005596638002918
长时傅立叶变换单元2320进一步被适配用于将数字化波形源信号估计
Figure GSB000005596638002919
变换成作为输出的变换后的源信号估计
Figure GSB000005596638002920
图3B是图示在图2中所示的LTFS到STFS变换单元2600的配置的方框图。LTFS到STFS变换单元2600可以包括逆长时傅立叶变换单元2610和短时傅立叶变换单元2620。逆长时傅立叶变换单元2610与滤波单元2500协作。逆长时傅立叶变换单元2610被适配用于从滤波单元2500接收滤波源信号估计
Figure GSB00000559663800301
逆长时傅立叶变换单元2610进一步被适配用于将滤波源信号估计变换成作为输出的数字化波形滤波源信号估计
Figure GSB00000559663800303
短时傅立叶变换单元2620与逆长时傅里叶变换单元2610协作。短时傅立叶变换单元2620被适配用于从逆长时傅立叶变换单元2610接收数字化波形滤波源信号估计
Figure GSB00000559663800304
短时傅里叶变换单元2620进一步被适配用于将数字化波形滤波源信号估计
Figure GSB00000559663800305
变换成作为输出的变换后的滤波源信号估计
Figure GSB00000559663800306
图4A是图示图2中所示的长时傅立叶变换单元2100的配置的方框图。长时傅立叶变换单元2100可以包括开窗单元2110和离散傅立叶变换单元2120。开窗单元2100被适配用于接收数字化波形观测信号x[n]。开窗单元2100进一步被适配用于如以下所给定的那样将分析窗函数g[n]重复地应用于数字化波形观测信号x[n]:
xl[n]=g[n]x[nl+n]。
其中nl是长时间帧l所开始的样本索引。开窗单元2110被适配用于针对所有l产生分段波形观测信号xl[n]。
离散傅立叶变换单元2120与开窗单元2110协作。离散傅立叶变换单元2120被适配用于从开窗单元2110接收分段波形观测信号xl[n]。离散傅立叶变换单元2120进一步被适配用于执行分段波形信号xl[n]中的每一个到变换后的观测信号xl,k’的如下给定的K点离散傅立叶变换:
Figure GSB00000559663800307
图4B是图示图3B中所示的逆长时傅立叶变换单元2610的配置的方框图。逆长时傅立叶变换单元2610可以包括逆离散傅立叶变换单元2612以及重叠相加合成单元2614。逆离散傅立叶变换单元2612与滤波单元2500协作。逆离散傅立叶变换单元2612被适配用于接收滤波源信号估计
Figure GSB00000559663800308
逆离散傅立叶变换单元2612进一步被适配用于应用滤波源信号估计的每个帧到作为如下所给定的输出的分段波形滤波源信号估计
Figure GSB00000559663800311
的相应逆离散傅立叶变换:
s ‾ l [ n ] = Σ k ′ = 0 K - 1 s ‾ l , k ′ e j 2 π k ′ / K
重叠相加合成单元2614与逆离散傅立叶变换单元2612协作。重叠相加合成单元2614被适配用于从逆离散傅立叶变换单元2612接收分段波形滤波源信号估计
Figure GSB00000559663800313
重叠相加合成单元2614进一步被适配用于根据重叠相加合成技术利用重叠相加合成窗gs[n]针对所有l连接或合成分段波形滤波源信号估计
Figure GSB00000559663800314
以便获得如下给定的数字化波形滤波源信号估计
Figure GSB00000559663800315
s ‾ [ n ] = Σ l g s [ n - n l ] s ‾ l [ n - n l ]
图5A是图示在图3B中所示的短时傅立叶变换单元2620的配置的方框图。短时傅立叶变换单元2620可以包括开窗单元2622和离散傅立叶变换单元2624。开窗单元2622与逆长时傅立叶变换单元2610协作。开窗单元2622被适配用于从逆长时傅立叶变换单元2610接收数字化波形滤波源信号估计
Figure GSB00000559663800317
开窗单元2622进一步被适配用于将分析窗函数g(τ)[n]以窗偏移τ重复地应用于数字化波形滤波源信号估计以便产生如下给定的分段滤波源信号估计
Figure GSB00000559663800319
s ‾ l , m [ n ] = g ( r ) [ n ] s ‾ [ n l , m + n ]
其中nl,m是时间帧所开始的样本索引。针对所有,开窗单元2622产生分段波形滤波源信号估计
Figure GSB000005596638003111
离散傅立叶变换单元2624与开窗单元2622协作。离散傅立叶变换单元2624被适配用于从开窗单元2622接收分段波形滤波源信号估计
Figure GSB000005596638003112
离散傅立叶变换单元2624进一步被适配用于执行分段波形滤波源信号估计
Figure GSB000005596638003113
中的每一个到如下给定的变换后的滤波源信号估计
Figure GSB000005596638003114
的K(r)点离散傅立叶变换。
Figure GSB000005596638003115
图5B是图示在图3A中所示的逆短时傅立叶变换单元2310的配置的方框图。逆短时傅立叶变换单元2310可以包括逆离散傅立叶变换单元2312和重叠相加合成单元2314。逆离散傅里叶变换单元2312与源信号估计和收敛检验单元2700协作。逆离散傅立叶变换单元2312被适配用于从源信号估计和收敛检验单元2700接收源信号估计
Figure GSB00000559663800321
逆离散傅立叶变换单元2312进一步被适配用于将相应的逆离散傅立叶变换应用于源信号估计的每个帧并产生如下给定的分段波形源信号估计
Figure GSB00000559663800323
Figure GSB00000559663800324
重叠相加合成单元2314与逆离散傅立叶变换单元2312协作。重叠相加合成单元2314被适配用于从逆离散傅立叶变换单元2312接收分段波形源信号估计重叠相加合成单元2314进一步被适配用于针对所有l和m基于重叠相加合成技术利用合成窗gs (r)[n]连接或合成分段波形源信号估计
Figure GSB00000559663800326
以便获得如下给定的数字化波形源信号估计
s ~ [ n ] = Σ l , m g s ( r ) [ n - n l , m ] s ~ l , m [ n - n l , m ]
初始化单元1000被适配用于执行三个操作,即初始源信号估计、源信号不确定性确定和声学环境不确定性确定。如上所述,初始化单元1000被适配用于接收数字化波形观测信号x[n]并产生表示源信号不确定性的第一方差表示声学环境不确定性的第二方差
Figure GSB000005596638003210
以及数字化波形初始源信号估计
Figure GSB000005596638003211
详细地,初始化单元1000被适配用于执行初始源信号估计,该估计根据数字化波形观测信号x[n]产生数字化波形初始源信号估计初始化单元1000进一步被适配用于执行源信号不确定性确定,该确定根据数字化波形观测信号x[n]产生表示源信号不确定性的第一方差
Figure GSB000005596638003213
初始化单元1000此外被适配用于执行声学环境不确定性确定,该确定根据数字化波形观测信号x[n]产生表示声学环境不确定性的第二方差
Figure GSB000005596638003214
初始化单元1000可以包括三个功能子单元,即执行初始源信号估计的初始源信号估计单元1100、执行源信号不确定性确定的源信号不确定性确定单元1200、以及执行声学环境不确定性确定的声学环境不确定性确定单元1300。图6是图示包括在图1中所示的初始化单元1000中的初始源信号估计单元1100的配置的方框图。图7是图示包括在图1中所示的初始化单元1000中的源信号不确定性确定单元1200的配置的方框图。图8是图示包括在图1中所示的初始化单元1000中的声学环境不确定性确定单元1300的配置的方框图。
参考图6,初始源信号估计单元1100可以进一步包括短时傅立叶变换单元1110、基频估计单元120和自适应谐波滤波单元1130。短时傅立叶变换单元1110被适配用于接收数字化波形观测信号x[n]。短时傅立叶变换单元1110被适配用于执行数字化波形观测信号x[n]到作为输出的变换后的观测信号
Figure GSB00000559663800331
的短时傅立叶变换。
基频估计单元1120与短时傅立叶变换单元1110协作。基频估计单元1120被适配用于从短时傅立叶变换单元1110接收变换后的观测信号
Figure GSB00000559663800332
基频估计单元1120进一步被适配用于估计来自变换后的观测信号
Figure GSB00000559663800333
的每个短时间帧的基频fl,m和发声量度vl,m
自适应谐波滤波单元1130与短时傅立叶变换单元1110和基频估计单元1120协作。自适应谐波滤波单元1130被适配用于从短时傅立叶变换单元1110接收变换后的观测信号
Figure GSB00000559663800334
自适应谐波滤波单元1130还被适配用于从基频估计单元1120接收基频fl,m和发声量度vl,m。自适应谐波滤波单元1130还被适配用于基于基频fl,m和发声量度vl,m增强
Figure GSB00000559663800335
的谐波结构以便谐波结构的增强产生所得到的数字化波形初始源信号估计
Figure GSB00000559663800336
作为输出。本实例的过程流程在由Tomohiro Nakatani、Masato Miyoshi和Keisuke Kinoshita在SpeechEnhancement((Benesty,J.Makino,S.,和Chen,J.Eds),Chapter11,第247-270页,2005年春)中发表的“Single Microphone BlindDereverberation”中被详细公开。
参考图7,源信号不确定性确定单元1200可以进一步包括短时傅立叶变换单元1110、基频估计单元1120和源信号不确定性确定子单元1140。短时傅立叶变换单元1110被适配用于接收数字化波形观测信号x[n]。短时傅立叶变换单元1110被适配用于执行数字化波形观测信号x[n]到作为输出的变换后的观测信号
Figure GSB00000559663800337
的短时傅立叶变换。
基频估计单元1120与短时傅立叶变换单元1110协作。基频估计单元1120被适配用于从短时傅立叶变换单元1110接收变换后的观测信号
Figure GSB00000559663800341
基频估计单元1120进一步被适配用于估计来自变换后的观测信号
Figure GSB00000559663800342
的每个短时间帧的基频fl,m和发声量度vl,m
源信号不确定性确定子单元1140与基频估计单元1120协作。源信号不确定性确定子单元1140被适配用于从基频估计单元1120接收基频fl,m和发声量度vl,m。源信号不确定性确定子单元1140进一步被适配用于根据基频fl,m和发声量度vl,m确定表示源信号不确定性的第一方差
Figure GSB00000559663800343
如下给定表示源信号不确定性的第一方差
Figure GSB00000559663800344
Figure GSB00000559663800345
其中G{u}是被定义为例如具有某些正的常量“a”和“b”的G{u}=e-a(u-h)的归一化函数,并且谐波频率意味着用于基频及其倍数之一的频率索引。
参考图8,声学环境不确定性确定单元1300可以包括声学环境不确定性确定子单元1150。声学环境不确定性确定子单元1150被适配用于接收数字化波形观测信号x[n]。声学环境不确定性确定子单元1150进一步被适配用于产生表示声学环境不确定性的第二方差
Figure GSB00000559663800346
在一种典型情况下,对于所有l和k′来说,第二方差
Figure GSB00000559663800347
能够是常量,即如在图8中所示,σl,k′=1。
所述混响信号能够通过修改的包括执行反馈过程的反馈回路的语音去混响设备20000更有效地去混响。根据反馈过程的流程,通过利用反馈回路迭代相同的处理流程,能够提高源信号估计
Figure GSB00000559663800348
的质量。尽管只有数字化波形观测信号x[n]在初始步骤中被用作流程的输入,但是已经被包含在前一步骤中的源信号估计
Figure GSB00000559663800349
也在随后的步骤中被用作输入。更优选的是使用源信号估计
Figure GSB000005596638003410
而不是使用观测信号x[n]来对源概率密度函数(源pdf)的参数
Figure GSB000005596638003411
Figure GSB000005596638003412
进行估计。
第二实施例:
图9是图示根据本发明的第二实施例进一步包括反馈回路的另一语音去混响设备的配置的方框图。修改的语音去混响设备20000可以包括初始化单元1000、似然最大化单元2000、收敛检验单元3000、和逆短时傅立叶变换单元4000。初始化单元1000、似然最大化单元2000和逆短时傅立叶变换单元4000的配置和操作如上所述。在本实施例中,在似然最大化单元2000和逆短时傅立叶变换单元4000之间附加地引入收敛检验单元3000以便收敛检验单元3000检验已经从似然最大化单元2000输出的源信号估计
Figure GSB00000559663800351
的收敛。如果收敛检验单元3000识别出已经获得源信号估计
Figure GSB00000559663800352
的收敛,那么收敛检验单元3000发送源信号估计
Figure GSB00000559663800353
给逆短时傅立叶变换单元4000。如果收敛检验单元3000识别出还未获得源信号估计
Figure GSB00000559663800354
的收敛,那么收敛检验单元3000发送源信号估计
Figure GSB00000559663800355
给初始化单元1000。以下描述将聚焦于第二实施例与第一实施例的差异。
收敛检验单元3000与初始化单元1000和似然最大化单元2000协作。收敛检验单元3000被适配用于从似然最大化单元2000接收源信号估计收敛检验单元3000进一步被适配用于例如通过验证是否源信号估计
Figure GSB00000559663800357
的当前更新的值偏离源信号估计
Figure GSB00000559663800358
的前一值小于一定的预定量来确定迭代过程的收敛状态。如果收敛检验单元3000确认源信号估计
Figure GSB00000559663800359
的当前更新的值偏离源信号估计
Figure GSB000005596638003510
的前一值小于一定的预定量,那么收敛检验单元3000识别出已经获得源信号估计
Figure GSB000005596638003511
的收敛。如果收敛检验单元3000确认源信号估计
Figure GSB000005596638003512
的当前更新的值不偏离源信号估计
Figure GSB000005596638003513
的前一值小于一定的预定量,那么收敛检验单元3000识别出还未获得源信号估计
Figure GSB000005596638003514
的收敛。
作为修改有可能的是当反馈或迭代次数达到一定的预定值时终止所述反馈过程。当收敛检验单元3000已经确认源信号估计
Figure GSB000005596638003515
的收敛已经被获得时,那么收敛检验单元3000发送源信号估计
Figure GSB000005596638003516
给逆短时傅立叶变换单元4000。如果收敛检验单元3000已经确认还未获得源信号估计的收敛,那么收敛检验单元3000将源信号估计
Figure GSB000005596638003518
作为输出提供给初始化单元1000以执行上述迭代的进一步的步骤。
收敛检验单元3000提供反馈回路给初始化单元1000。即,初始化单元1000与收敛检验单元1000协作。因此,初始化单元1000需要适配于反馈回路。根据第一实施例,初始化单元1000包括初始源信号估计单元1100、源信号不确定性确定单元1200、和声学环境不确定性确定单元1300。根据第二实施例,修改的初始化单元1000包括修改的初始源信号估计单元1400、修改的源信号不确定性确定单元1500、和声学环境不确定性确定单元1300。以下描述将聚焦于修改的初始源信号估计单元1400、和修改的源信号不确定性确定单元1500。
图10是图示包括在图9中所示的初始化单元1000中的修改的初始源信号估计单元1400的配置的方框图。修改的初始源信号估计单元1400可以进一步包括短时傅立叶变换单元1110、基频估计单元1120、自适应谐波滤波单元1130、和信号切换单元1160。信号切换单元1160的增加能够提高数字化波形初始源信号估计的精度。
短时傅立叶变换单元1110被适配用于接收数字化波形观测信号x[n]。短时傅立叶变换单元1110被适配用于执行数字化波形观测信号x[n]到作为输出的变换后的观测信号
Figure GSB00000559663800362
的短时傅立叶变换。信号切换单元1160与短时傅立叶变换单元1110和收敛检验单元3000协作。信号切换单元1160被适配用于从短时傅立叶变换单元1110接收变换后的观测信号
Figure GSB00000559663800363
信号切换单元1160被适配用于从收敛检验单元3000接收源信号估计
Figure GSB00000559663800364
信号切换单元1160被适配用于执行第一选择操作以产生第一输出。信号切换单元1160还被适配用于执行第二选择操作以产生第二输出。第一和第二选择操作是相互独立的。第一选择操作是用于选择变换后的观测信号
Figure GSB00000559663800365
和源信号估计
Figure GSB00000559663800366
之一。在一种情况下,第一选择操作可以用于在除了一个或多个限制步骤之外的迭代的所有步骤中选择变换后的观测信号
Figure GSB00000559663800367
例如,第一选择操作可以是用于在除了迭代的最后一个或两个步骤之外的迭代的所有步骤中选择变换后的观测信号
Figure GSB00000559663800368
以及仅仅在最后一个或两个步骤中选择源信号估计在一种情况下,第二选择操作可以是用于在除初始步骤之外的迭代的所有步骤中选择源信号估计
Figure GSB000005596638003610
在迭代的初始步骤中,信号切换单元1160仅接收变换后的观测信号
Figure GSB000005596638003611
并选择变换后的观测信号
Figure GSB000005596638003612
更优选的是就基频fl,m和发声量度vl,m两者的估计而言使用源信号估计
Figure GSB000005596638003613
而不使用变换后的观测信号
Figure GSB000005596638003614
信号切换单元1160执行第一选择操作并产生第一输出。信号切换单元1160执行第二选择操作并产生第二输出。
基频估计单元1120与信号切换单元1160协作。基频估计单元1120被适配用于从信号切换单元1160接收第二输出。即,基频估计单元1120被适配用于在迭代的初始或第一步骤中从信号切换单元1160接收变换后的观测信号
Figure GSB00000559663800371
以及在迭代的第二或随后步骤中从信号切换单元1160接收源信号估计
Figure GSB00000559663800372
基频估计单元1120进一步被适配用于基于变换后的观测信号
Figure GSB00000559663800373
或源信号估计
Figure GSB00000559663800374
估计每个短时间帧的基频fl,m及其发声量度vl,m
自适应谐波滤波单元1130与信号切换单元1160和基频估计单元1120协作。自适应谐波滤波单元1130被适配用于从信号切换单元1160接收第一输出以及还从基频估计单元1120接收基频fl,m和发声量度vl,m。即,自适应谐波滤波单元1130被适配用于在除迭代的最后一个或两个步骤之外的迭代的所有步骤中从信号切换单元1160接收变换后的观测信号自适应谐波滤波单元1130还被适配用于在迭代的最后一个或两个步骤中从信号切换单元1160接收源信号估计
Figure GSB00000559663800376
自适应谐波滤波单元1130还被适配用于在迭代的所有步骤中从基频估计单元1120接收基频fl,m和发声量度vl,m。自适应谐波滤波单元1130还被适配用于基于基频fl,m和发声量度vl,m增强观测信号
Figure GSB00000559663800377
或源信号估计的谐波结构。增强操作产生估计精度被提高的数字化波形初始源信号估计
Figure GSB00000559663800379
如上所述,更优选的是就基频fl,m和发声量度vl,m两者的估计而言基频估计单元1120使用源信号估计
Figure GSB000005596638003710
而不是使用观测信号
Figure GSB000005596638003711
因此在迭代的第二或随后步骤中提供源信号估计而不是观测信号
Figure GSB000005596638003713
给基频估计单元1120能够改善数字化波形初始源信号估计的估计。
在某些情况下,可能更适合于将自适应谐波滤波器应用于源信号估计
Figure GSB000005596638003715
而不是观测信号
Figure GSB000005596638003716
以便获得数字化波形初始源信号估计
Figure GSB000005596638003717
的较佳估计。去混响步骤的一次迭代可能将一定的特殊失真添加到源信号估计
Figure GSB000005596638003718
中以及当将自适应谐波滤波器应用于源信号估计
Figure GSB000005596638003719
时,该失真被直接继承到数字化波形初始源信号估计
Figure GSB000005596638003720
另外,这种失真可能通过迭代的去混响步骤被累积到源信号估计
Figure GSB000005596638003721
中。为了避免失真的这种累积,有效的是信号切换单元1160被适配用于除了在迭代结束之前的最后一个步骤或最后几个步骤中之外将观测信号
Figure GSB000005596638003722
提供给自适应谐波滤波单元1130,在所述迭代中使源信号估计的估计精确。
图11是图示包括在图9中所示的初始化单元1000中的修改的源信号不确定性确定单元1500的配置的方框图。修改的源信号不确定性确定单元1500可以进一步包括短时傅立叶变换单元1112、基频估计单元1122、源信号不确定性确定子单元1140和信号切换单元1162。信号切换单元1162的增加能够改善源信号不确定性
Figure GSB00000559663800381
的估计。根据第二实施例,似然最大化单元2000的配置与在第一实施例中描述的配置相同。
短时傅立叶变换单元1112被适配用于接收数字化波形观测信号x[n]。短时傅立叶变换单元1112被适配用于执行数字化波形观测信号x[n]到作为输出的变换后的观测信号
Figure GSB00000559663800382
的短时傅立叶变换。信号切换单元1162与短时傅立叶变换单元1110和收敛检验单元3000协作。信号切换单元1162被适配用于从短时傅立叶变换单元1110接收变换后的观测信号
Figure GSB00000559663800383
信号切换单元1162被适配用于从收敛检验单元3000接收源信号估计
Figure GSB00000559663800384
信号切换单元1162被适配用于执行第一选择操作以产生第一输出。第一选择操作是用于选择变换后的观测信号
Figure GSB00000559663800385
和源信号估计
Figure GSB00000559663800386
之一。在一种情况下,第一选择操作可以是用于在除了迭代的初始步骤之外的迭代的所有步骤中选择源信号估计
Figure GSB00000559663800387
在迭代的初始步骤中,信号切换单元1162仅接收变换后的观测信号
Figure GSB00000559663800388
并选择变换后的观测信号更优选的是就基频fl,m和发声量度vl,m两者的估计而言使用源信号估计
Figure GSB000005596638003810
而不使用变换后的观测信号
Figure GSB000005596638003811
基频估计单元1122与信号切换单元1162协作。基频估计单元1122被适配用于从信号切换单元1162接收第一输出。即,基频估计单元1122被适配用于在迭代的初始步骤中接收变换后的观测信号以及在除迭代的初始步骤之外的迭代的所有步骤中接收源信号估计
Figure GSB000005596638003813
基频估计单元1122进一步被适配用于估计每个短时间帧的基频fl,m及其发声量度vl,m。参考变换后的观测信号
Figure GSB000005596638003814
或源信号估计
Figure GSB000005596638003815
进行所述估计。
源信号不确定性确定单元1140与基频估计单元1122协作。源信号不确定性确定单元1140被适配用于从基频估计单元1122接收基频fl,m和发声量度vl,m。源信号不确定性确定单元1140进一步被适配用于确定源信号不确定性
Figure GSB00000559663800391
如上所述,更优选的是就基频fl,m和发声量度vl,m两者的估计而言使用源信号估计
Figure GSB00000559663800392
而不使用观测信号
Figure GSB00000559663800393
第三实施例:
图12是图示根据本发明的第三实施例基于源和室内声学的概率模型的语音去混响设备的配置的方框图。语音去混响设备30000能够通过一组功能单元来实现,这些功能单元协作用于接收观测信号x[n]的输入并产生数字化波形源信号估计
Figure GSB00000559663800394
或滤波源信号估计
Figure GSB00000559663800395
的输出。语音去混响设备30000能够例如通过计算机或处理器来实现。语音去混响设备30000执行语音去混响操作。语音去混响方法能够通过要由计算机执行的程序来实现。
语音去混响设备30000典型地可以包括上述初始化单元1000、上述似然最大化单元2000-1和逆滤波器应用单元5000。初始化单元1000可以被适配用于接收数字化波形观测信号x[n]。数字化波形观测信号x[n]可以包含具有未知混响程度的语音信号。通过诸如一个或多个麦克风的设备能够捕获该语音信号。初始化单元1000可以被适配用于从观测信号提取与源信号和声学环境有关的初始源信号估计和不确定性。初始化单元1000还可以被适配用于用公式表达初始源信号估计、源信号不确定性和声学环境不确定性的表示。针对所有索引l、m、k和k′,这些表示被列举为是数字化波形初始源信号估计的
Figure GSB00000559663800396
是表示源信号不确定性的方差或离差的以及是表示声学环境不确定性的方差或离差的
Figure GSB00000559663800398
即,初始化单元1000可以被适配用于接收数字化波形信号x[n]的输入作为观测信号并产生数字化波形初始源信号估计
Figure GSB00000559663800399
表示源信号不确定性的方差或离差
Figure GSB000005596638003910
以及表示声学环境不确定性的方差或离差
Figure GSB000005596638003911
似然最大化单元2000-1可以与初始化单元1000协作。即,似然最大化单元2000-1可以被适配用于从初始化单元1000接收数字化波形初始源信号估计
Figure GSB000005596638003912
源信号不确定性
Figure GSB000005596638003913
和声学环境不确定性
Figure GSB000005596638003914
的输入。似然最大化单元2000-1还可以被适配用于接收数字化波形观测信号x[n]的另一个输入作为观测信号。
Figure GSB000005596638003915
是数字化波形初始源信号估计。
Figure GSB000005596638003916
是表示源信号不确定性的第一方差。
Figure GSB000005596638003917
是表示声学环境不确定性的第二方差。似然最大化单元2000-1还可以被适配用于确定最大化似然函数的逆滤波器估计
Figure GSB00000559663800401
其中参考数字化波形观测信号x[n]、数字化波形初始源信号估计
Figure GSB00000559663800402
表示源信号不确定性的第一方差
Figure GSB00000559663800403
以及表示声学环境不确定性的第二方差进行所述确定。通常,可以基于概率密度函数定义似然函数,该概率密度函数根据第一未知参数、第二未知参数、和观测数据的第一随机变量进行评估。参考源信号估计定义所述第一未知参数。参考室内传递函数的逆滤波器定义第二未知参数。参考观测信号和初始源信号估计定义观测数据的第一随机变量。逆滤波器估计是室内传递函数的逆滤波器的估计。使用迭代优化算法来执行逆滤波器估计
Figure GSB00000559663800405
的确定。
迭代优化算法可以在不使用上述期望最大化算法的情况下进行组织。例如,能够获得逆滤波器估计
Figure GSB00000559663800406
和源信号估计
Figure GSB00000559663800407
作为最大化如下定义的似然函数的逆滤波器估计和源信号估计:
L { w k ′ , θ k } = p { w k ′ , z k ( r ) | θ k }
= p { w k ′ , { x l , m , k ( r ) } k | θ k } p { { s ^ l , m , k ( r ) } k | θ k } , - - - ( 16 )
能够通过紧接着的迭代算法最大化该似然函数。
第一步骤是设置初始值为
Figure GSB000005596638004010
第二步骤是计算在θk固定的条件下最大化似然函数的逆滤波器估计 w k ′ = w ~ k ′ .
第三步骤是计算在wk’固定的条件下最大化似然函数的源信号估计 θ k = θ ~ k .
第四步骤是重复上述第二和第三步骤,直到迭代的收敛被确认为止。
当与上述方程(8)相同的定义被用于上述似然函数中的概率密度函数(pdf)时,容易地显示出能够分别通过上述方程(12)和(15)获得上述第二步骤中的逆滤波器估计
Figure GSB000005596638004013
和上述第三步骤中的源信号估计
Figure GSB000005596638004014
通过检验是否逆滤波器估计的当前获得的值和逆滤波器估计
Figure GSB000005596638004016
的之前获得的值之差小于预定的阈值,可以完成第四步骤中的上述收敛确认。最后,该观测信号可以通过将在上述第二步骤中获得的逆滤波器估计
Figure GSB000005596638004017
应用于观测信号来去混响。
逆滤波器应用单元5000可以与似然最大化单元2000-1协作。即,逆滤波器应用单元5000可以被适配用于从似然最大化单元2000-1接收最大化似然函数(16)的逆滤波器估计
Figure GSB00000559663800411
的输入。逆滤波器应用单元5000还可以被适配用于接收数字化波形观测信号x[n]。逆滤波器应用单元5000还可以被适配用于将逆滤波器估计
Figure GSB00000559663800412
应用于数字化波形观测信号x[n]以便产生恢复后的数字化波形源信号估计或滤波数字化波形源信号估计
在某一情况下,逆滤波器应用单元5000可以被适配用于将长时傅立叶变换应用于数字化波形观测信号x[n]以产生变换后的观测信号xl,k′。逆滤波器应用单元5000可以进一步被适配用于将每个帧中的变换后的观测信号xl,k′乘以逆滤波器估计
Figure GSB00000559663800415
以产生滤波源信号估计
Figure GSB00000559663800416
逆滤波器应用单元5000可以进一步被适配用于将逆长时傅立叶变换应用于滤波源信号估计
Figure GSB00000559663800417
以产生滤波数字化波形源信号估计
Figure GSB00000559663800418
在另一情况下,逆滤波器应用单元5000可以被适配用于将逆长时傅立叶变换应用于逆滤波器估计
Figure GSB00000559663800419
以产生数字化波形逆滤波器估计
Figure GSB000005596638004110
逆滤波器应用单元5000可以被适配用于将数字化波形观测信号x[n]与数字化波形逆滤波器估计
Figure GSB000005596638004111
进行卷积以产生恢复后的数字化波形源信号估计
Figure GSB000005596638004112
似然最大化单元2000-1能够通过相互协作以确定并输出最大化所述似然函数的逆滤波器估计的一组子功能单元来实现。图13是图示在图12中所示的似然最大化单元2000-1的配置的方框图。在一种情况下,似然最大化单元2000-1可以进一步包括上述长时傅立叶变换单元2100、上述更新单元2200、上述STFS到LTFS变换单元2300、上述逆滤波器估计单元2400、上述滤波单元2500、LTFS到STFS变换单元2600、源信号估计单元2710、收敛检验单元2720、上述短时傅立叶变换单元2800、以及上述长时傅立叶变换单元2900。这些单元协作以继续执行迭代操作,直到最大化似然函数的逆滤波器估计已经被确定为止。
长时傅立叶变换单元2100被适配用于从初始化单元1000接收数字化波形观测信号x[n]作为观测信号。长时傅立叶变换单元2100还被适配用于执行数字化波形观测信号x[n]到作为长期傅立叶频谱(LTFS)的变换后的观测信号xl,k′的长时傅立叶变换。
短时傅立叶变换单元2800被适配用于从初始化单元1000接收数字化波形初始源信号估计
Figure GSB00000559663800421
短时傅立叶变换单元2800被适配用于执行数字化波形初始源信号估计
Figure GSB00000559663800422
到初始源信号估计
Figure GSB00000559663800423
的短时傅立叶变换。
长时傅立叶变换单元2900被适配用于从初始化单元1000接收数字化波形初始源信号估计
Figure GSB00000559663800424
长时傅立叶变换单元2900被适配用于执行数字化波形初始源信号估计
Figure GSB00000559663800425
到初始源信号估计
Figure GSB00000559663800426
的长时傅立叶变换。
更新单元2200与长时傅立叶变换单元2900和STFS到LTFS变换单元2300协作。更新单元2200被适配用于在迭代的初始步骤中从长时傅立叶变换单元2900接收初始源信号估计
Figure GSB00000559663800427
以及进一步被适配用于用源信号估计θk′代替
Figure GSB00000559663800428
更新单元2200此外被适配用于发送更新的源信号估计θk′给逆滤波器估计单元2400。更新单元2200还被适配用于在迭代的随后步骤中从STFS到LTFS变换单元2300接收源信号估计
Figure GSB00000559663800429
以及用源信号估计θk′代替
Figure GSB000005596638004210
更新单元2200还被适配用于发送更新的源信号估计θk′给逆滤波器估计单元2400。
逆滤波器估计单元2400与长时傅立叶变换单元2100、更新单元2200和初始化单元1000协作。逆滤波器估计单元2400被适配用于从长时傅立叶变换单元2100接收观测信号xl,k′。逆滤波器估计单元2400还被适配用于从更新单元2200接收更新的源信号估计θk′。逆滤波器估计单元2400还被适配用于从初始化单元1000接收表示声学环境不确定性的第二方差
Figure GSB000005596638004211
逆滤波器估计单元2400还被适配用于根据上述方程(12)基于观测信号xl,k′、更新的源信号估计θk′、和表示声学环境不确定性的第二方差
Figure GSB000005596638004212
计算逆滤波器估计
Figure GSB000005596638004213
逆滤波器估计单元2400进一步被适配用于输出逆滤波器估计
收敛检验单元2720与逆滤波器估计单元2400协作。收敛检验单元2720被适配用于从逆滤波器估计单元2400接收逆滤波器估计
Figure GSB000005596638004215
收敛检验单元2720被适配用于例如通过比较当前已经被估计的逆滤波器估计的当前值与之前已经被估计的逆滤波器估计
Figure GSB000005596638004217
的前一值以及检验是否所述当前值偏离前一值小于一定的预定量来确定迭代过程的收敛状态。如果收敛检验单元2720确认逆滤波器估计
Figure GSB000005596638004218
的当前值偏离其前一值小于一定的预定量,那么收敛检验单元2720识别出已经获得逆滤波器估计的收敛。如果收敛检验单元2720确认逆滤波器估计
Figure GSB00000559663800431
的当前值偏离其前一值不小于一定的预定量,那么收敛检验单元2720识别出还未获得逆滤波器估计
Figure GSB00000559663800432
的收敛。
作为修改有可能的是当迭代次数达到一定的预定值时终止所述迭代过程。即,收敛检验单元2720已经确认迭代次数达到一定的预定值,那么收敛检验单元2720识别出已经获得逆滤波器估计
Figure GSB00000559663800433
的收敛。如果收敛检验单元2720已经确认已经获得逆滤波器估计
Figure GSB00000559663800434
的收敛,那么收敛检验单元2720将逆滤波器估计作为第一输出提供给逆滤波器应用单元5000。如果收敛检验单元2720已经确定还未获得逆滤波器估计
Figure GSB00000559663800436
的收敛,那么收敛检验单元2720将逆滤波器估计
Figure GSB00000559663800437
作为第二输出提供给滤波单元2500。
滤波单元2500与长时傅立叶变换单元2100和收敛检验单元2720协作。滤波单元2500被适配用于从长时傅立叶变换单元2100接收观测信号xl,k′。滤波单元2500还被适配用于从收敛检验单元2720接收逆滤波器估计
Figure GSB00000559663800438
滤波单元2500还被适配用于将观测信号xl,k′应用于逆滤波器估计以产生滤波源信号估计
Figure GSB000005596638004310
用于将观测信号xl,k′应用于逆滤波器估计的滤波过程的典型实例可以包括但不限于计算观测信号xl,k’和逆滤波器估计
Figure GSB000005596638004312
的乘积
Figure GSB000005596638004313
在这种情况下,通过观测信号xl,k’和逆滤波器估计的乘积
Figure GSB000005596638004315
来给定滤波源信号估计
Figure GSB000005596638004316
LTFS到STFS变换单元2600与滤波单元2500协作。LTFS到STFS变换单元2600被适配用于从滤波单元2500接收滤波源信号估计
Figure GSB000005596638004317
LTFS到STFS变换单元2600进一步被适配用于执行滤波源信号估计
Figure GSB000005596638004318
到变换后的滤波源信号估计
Figure GSB000005596638004319
的LTFS到STFS变换。当滤波过程是计算观测信号xl,k′和逆滤波器估计
Figure GSB000005596638004320
的乘积
Figure GSB000005596638004321
时,LTFS到STFS变换单元2600进一步被适配用于执行乘积
Figure GSB000005596638004322
到变换后的信号
Figure GSB000005596638004323
的LTFS到STFS变换。在这种情况下,乘积
Figure GSB000005596638004324
表示滤波源信号估计
Figure GSB000005596638004325
以及变换后的信号表示变换后的滤波源信号估计
Figure GSB000005596638004327
源信号估计单元2710与LTFS到STFS变换单元2600、短时傅立叶变换单元2800、以及初始化单元1000协作。源信号估计单元2710被适配用于从LTFS到STFS变换单元2600接收变换后的滤波源信号估计
Figure GSB000005596638004328
源信号估计单元2710还被适配用于从初始化单元1000接收表示源信号不确定性的第一方差
Figure GSB00000559663800441
以及表示声学环境不确定性的第二方差
Figure GSB00000559663800442
源信号估计单元2710还被适配用于从短时傅立叶变换单元2800接收初始源信号估计
Figure GSB00000559663800443
源信号估计单元2710还被适配用于基于变换后的滤波源信号估计
Figure GSB00000559663800444
表示源信号不确定性的第一方差
Figure GSB00000559663800445
表示声学环境不确定性的第二方差
Figure GSB00000559663800446
以及初始源信号估计
Figure GSB00000559663800447
估计源信号
Figure GSB00000559663800448
其中根据上述方程(15)进行所述估计。
STFS到LTFS变换单元2300与源信号估计单元2710协作。STFS到LTFS变换单元2300被适配用于从源信号估计单元2710接收源信号估计
Figure GSB00000559663800449
STFS到LTFS变换单元2300被适配用于执行源信号估计
Figure GSB000005596638004410
到变换后的源信号估计
Figure GSB000005596638004411
的STFS到LTFS变换。
在迭代操作的随后步骤中,更新单元2200从STFS到LTFS变换单元2300接收源信号估计
Figure GSB000005596638004412
并且用源信号估计θk’代替
Figure GSB000005596638004413
以及发送更新的源信号估计θk′给逆滤波器估计单元2400。在迭代的初始步骤中,更新的源信号估计θk′是从长时傅立叶变换单元2900提供的
Figure GSB000005596638004414
在迭代的第二或随后步骤中,更新的源信号估计θk′
Figure GSB000005596638004415
将参考图13描述似然最大化单元2000-1的操作。
在迭代的初始步骤中,提供数字化波形观测信号x[n]给长时傅立叶变换单元2100。长时傅立叶变换单元2100执行长时傅立叶变换以便将数字化波形观测信号x[n]变换成变换后的观测信号xl,k′作为长期傅立叶频谱(LTFS)。将数字化波形初始源信号估计
Figure GSB000005596638004416
从初始化单元1000提供给短时傅立叶变换单元2800和长时傅立叶变换单元2900。短时傅立叶变换单元2800执行短时傅立叶变换以便将数字化波形初始源信号估计
Figure GSB000005596638004417
变换成初始源信号估计
Figure GSB000005596638004418
长时傅立叶变换单元2900执行长时傅立叶变换以便将数字化波形初始源信号估计
Figure GSB000005596638004419
变换成初始源信号估计
Figure GSB000005596638004420
从长时傅立叶变换单元2900提供初始源信号估计
Figure GSB000005596638004421
给更新单元2200。更新单元2200用源信号估计θk′代替初始源信号估计
Figure GSB000005596638004422
然后将初始源信号估计从更新单元2200提供给逆滤波器估计单元2400。从长时傅立叶变换单元2100提供观测信号xl,k′给逆滤波器估计单元2400。从初始化单元1000提供表示声学环境不确定性的第二方差
Figure GSB000005596638004424
给逆滤波器估计单元2400。逆滤波器估计单元2400基于观测信号xl,k′、初始源信号估计θk′、和表示声学环境不确定性的第二方差
Figure GSB000005596638004425
计算逆滤波器估计其中根据上述方程(12)进行所述计算。
从逆滤波器估计单元2400提供逆滤波器估计
Figure GSB00000559663800452
给收敛检验单元2720。收敛检验单元2720进行迭代过程的收敛状态的确定。例如,通过比较当前已经被估计的逆滤波器估计
Figure GSB00000559663800453
的当前值与之前已经被估计的逆滤波器估计
Figure GSB00000559663800454
的前一值来进行所述确定。收敛检验单元2720检验是否当前值偏离前一值小于一定的预定量。如果收敛检验单元2720确认逆滤波器估计
Figure GSB00000559663800455
的当前值偏离其前一值小于一定的预定量,那么收敛检验单元2720识别出已经获得逆滤波器估计
Figure GSB00000559663800456
的收敛。如果收敛检验单元2720确认逆滤波器估计
Figure GSB00000559663800457
的当前值偏离其前一值不小于一定的预定量,那么收敛检验单元2720识别出还未获得逆滤波器估计
Figure GSB00000559663800458
的收敛。
如果已经获得逆滤波器估计
Figure GSB00000559663800459
的收敛,那么从收敛检验单元2720提供逆滤波器估计
Figure GSB000005596638004510
给逆滤波器应用单元5000。如果还未获得逆滤波器估计
Figure GSB000005596638004511
的收敛,那么从收敛检验单元2720提供逆滤波器估计
Figure GSB000005596638004512
给滤波单元2500。观测信号xl,k’进一步从长时傅立叶变换单元2100被提供给滤波单元2500。滤波单元2500将逆滤波器估计
Figure GSB000005596638004513
应用于观测信号xl,k’以产生滤波源信号估计
Figure GSB000005596638004514
用于将观测信号xl,k′应用于逆滤波器估计
Figure GSB000005596638004515
的滤波过程的典型实例可以是计算观测信号xl,k’和逆滤波器估计的乘积
Figure GSB000005596638004517
在这种情况下,通过观测信号xl,k′和逆滤波器估计
Figure GSB000005596638004518
的乘积
Figure GSB000005596638004519
来给定滤波源信号估计
Figure GSB000005596638004520
从滤波单元2500提供滤波源信号估计
Figure GSB000005596638004521
给LTFS到STFS变换单元2600。LTFS到STFS变换单元2600执行LTFS到STFS变换以便将滤波源信号估计
Figure GSB000005596638004522
变换成变换后的滤波源信号估计
Figure GSB000005596638004523
当所述滤波过程是计算观测信号xl,k′和逆滤波器估计
Figure GSB000005596638004524
的乘积
Figure GSB000005596638004525
时,该乘积被变换成变换后的信号
Figure GSB000005596638004527
从LTFS到STFS变换单元2600提供变换后的滤波源信号估计
Figure GSB000005596638004528
给源信号估计单元2710。从初始化单元1000提供表示源信号不确定性的第一方差
Figure GSB000005596638004529
和表示声学环境不确定性的第二方差
Figure GSB000005596638004530
给源信号估计单元2710。从短时傅立叶变换单元2800提供初始源信号估计
Figure GSB000005596638004531
给源信号估计单元2710。源信号估计单元2710基于变换后的滤波源信号估计
Figure GSB000005596638004532
表示源信号不确定性的第一方差和表示声学环境不确定性的第二方差
Figure GSB000005596638004534
以及初始源信号估计
Figure GSB000005596638004535
计算源信号估计
Figure GSB000005596638004536
其中根据上述方程(15)进行所述估计。
从源信号估计单元2710提供源信号估计
Figure GSB00000559663800461
给STFS到LTFS变换单元2300以便将源信号估计
Figure GSB00000559663800462
变换成变换后的源信号估计
Figure GSB00000559663800463
从STFS到LTFS变换单元2300提供所述变换后的源信号估计
Figure GSB00000559663800464
给更新单元2200。更新单元2200用源信号估计θk′代替变换后的源信号估计
Figure GSB00000559663800465
从更新单元2200提供更新的源信号估计θk′给逆滤波器估计单元2400。
在迭代的第二或随后步骤中,从更新单元2200提供源信号估计
Figure GSB00000559663800466
给逆滤波器估计单元2400。还将观测信号xl,k’从长时傅立叶变换单元2100提供给逆滤波器估计单元2400。从初始化单元1000提供表示声学环境不确定性的第二方差
Figure GSB00000559663800467
给逆滤波器估计单元2400。逆滤波器估计单元2400基于观测信号xl,k′、更新的源信号估计
Figure GSB00000559663800468
和表示声学环境不确定性的第二方差
Figure GSB00000559663800469
计算更新的逆滤波器估计
Figure GSB000005596638004610
其中根据上述方程(12)进行所述计算。
从逆滤波器估计单元2400提供更新的逆滤波器估计
Figure GSB000005596638004611
给收敛检验单元2720。收敛检验单元2720进行对迭代过程的收敛状态的确定。
上述迭代过程将被继续,直到收敛检验单元2720已经确认逆滤波器估计
Figure GSB000005596638004612
的收敛已经被获得为止。
图14是图示在图12中所示的逆滤波器应用单元5000的配置的方框图。逆滤波器应用单元5000的典型实例可以包括但不限于逆长时傅立叶变换单元5100和卷积单元5200。逆长时傅立叶变换单元5100与似然最大化单元2000-1协作。逆长时傅立叶变换单元5100被适配用于从似然最大化单元2000-1接收逆滤波器估计长时傅立叶变换单元5100进一步被适配用于执行逆滤波器估计到数字化波形逆滤波器估计的逆长时傅立叶变换。
卷积单元5200与逆长时傅立叶变换单元5100协作。卷积单元5200被适配用于从逆长时傅立叶变换单元5100接收数字化波形逆滤波器估计
Figure GSB000005596638004616
卷积单元5200还被适配用于接收数字化波形观测信号x[n]。卷积单元5200还被适配用于执行卷积过程以将数字化波形观测信号x[n]与数字化波形逆滤波器估计
Figure GSB000005596638004617
进行卷积以产生恢复后的数字化波形源信号估计作为去混响的信号。
图15是图示在图12中所示的逆滤波器应用单元5000的配置的方框图。逆滤波器应用单元5000的典型实例可以包括但不限于长时傅立叶变换单元5300、滤波单元5400、以及逆长时傅立叶变换单元5500。长时傅立叶变换单元5300被适配用于接收数字化波形观测信号x[n]。长时傅立叶变换单元5300被适配用于执行数字化波形观测信号x[n]到变换后的观测信号xl,k’长时傅立叶变换。
滤波单元5400与长时傅立叶变换单元5300和似然最大化单元2000-1协作。滤波单元5400被适配用于从长时傅立叶变换单元5300接收变换后的观测信号xl,k′。滤波单元5400还被适配用于从似然最大化单元2000-1接收逆滤波器估计
Figure GSB00000559663800471
滤波单元5400进一步被适配用于将逆滤波器估计
Figure GSB00000559663800472
应用于变换后的观测信号xl,k′以产生滤波源信号估计
Figure GSB00000559663800473
将逆滤波器估计应用于变换后的观测信号xl,k可以通过将每个帧中的变换后的观测信号xl,k′乘以逆滤波器估计
Figure GSB00000559663800475
来进行。
逆长时傅立叶变换单元5500与滤波单元5400协作。逆长时傅立叶变换单元5500被适配用于从滤波单元5400接收滤波源信号估计
Figure GSB00000559663800476
逆长时傅立叶变换单元5500被适配用于执行滤波源信号估计
Figure GSB00000559663800477
到作为去混响的信号的滤波数字化波形源信号估计
Figure GSB00000559663800478
的逆长时傅立叶变换。
试验:
借助于确认本方法的性能执行了简单的试验。如由TomohiroNakatani和Masato Miyoshi的“Blind dereverberation of singlechannel speech signal based on harmonic struture”(Proc.ICASSP-2003,vol.1,第92-95页,2003年4月)详细公开的,以0.1秒、0.2秒、0.5秒、和1.0秒的RT60时间采用了单词话语(wordutterances)的相同的源信号以及相同的脉冲响应。通过将源信号与脉冲响应进行卷积来合成观测信号。准备了与用于HERB和SBD相同的两种类型的初始源信号估计,即
Figure GSB00000559663800479
Figure GSB000005596638004710
其中H{·}和N{·}分别是用于HERB的谐波滤波器和用于SBD的噪声减小滤波器。相对于发声量度vl,m确定源信号不确定性,其中该发声量度和HERB一起被用于判定观测信号的每个短时间帧的语音状态。根据该量度,当对于固定的阈值δ,vl,m>δ时,帧被确定为有声(voiced)。特别是,
Figure GSB000005596638004711
在试验中被确定为:
Figure GSB00000559663800481
其中G{u}是被定义成G{u}=e-160(u-0.95)的非线性归一化函数。另一方面,
Figure GSB00000559663800482
被设置成常量值1。结果,当G{u}中的u从0移动到1时,上述方程(15)中的
Figure GSB00000559663800483
的权重变成从0到1变化的S形函数。对于每个试验,EM步骤被迭代了四次。另外,还引入了具有反馈回路的重复估计方案。采用对应于42ms的K(r)=504、对应于10.9s的K=130800、对应于1ms的τ=12、以及12kHz采样频率作为分析条件。
能量衰减曲线:
图12A到12H显示使用女人和男人所说的100单词观测信号在利用和不利用EM算法的情况下室内脉冲响应和通过HERB和SBD去混响的脉冲响应的能量衰减曲线。图12A图示当女人说话时在RT60=1.0秒的能量衰减曲线。图12B图示当女人说话时在RT60=0.5秒的能量衰减曲线。图12C图示当女人说话时在RT60=0.2秒的能量衰减曲线。图12D图示当女人说话时在RT60=0.1秒的能量衰减曲线。图12E图示当男人说话时在RT60=1.0秒的能量衰减曲线。图12F图示当男人说话时在RT60=0.5秒的能量衰减曲线。图12G图示当男人说话时在RT60=0.2秒的能量衰减曲线。图12H图示当男人说话时在RT60=0.1秒的能量衰减曲线。图12A到12H清楚地表明EM算法能够利用HERB和SBD有效地减小混响能量。
相应地,如上所述,本发明的一个方面针对新的去混响方法,其中源信号和室内声学的特征借助高斯概率密度函数(pdf)来表示,以及源信号被估计为最大化基于这些概率密度函数(pdf)所定义的似然函数的信号。迭代优化算法被用于有效地解决这种优化问题。试验结果显示出就去混响脉冲响应的能量衰减曲线而言,本方法能够大大地提高基于语音信号特征的两种去混响方法、即HERB和SBD的性能。由于HERB和SBD在提高在混响环境中捕获的语音信号的ASR性能方面是有效的,所以本方法能够利用较少的观测信号提高性能。
尽管以上已经描述和图示了本发明的优选实施例,但是应该理解这些优选实施例是本发明的示例并且不应被认为是限制性的。在不背离本发明的精神或范围的情况下能够进行添加、省略、替换、和其他修改。因此,本发明不应该被认为是受上述描述限制,而是仅仅受所附的权利要求书的范围限制。

Claims (42)

1.一种语音去混响设备,包括:
确定最大化似然函数的源信号估计的似然最大化单元,其中参考观测信号、初始源信号估计、表示源信号不确定性的第一方差、和表示声学环境不确定性的第二方差进行所述确定,其中,所述表示源信号不确定性的第一方差是在给定源信号的情况下初始源信号估计的概率密度函数的方差以及所述表示声学环境不确定性的第二方差是在给定源信号的情况下观测信号和室内传递函数的逆滤波器的联合概率密度函数的方差,以及
其中,所述似然函数基于根据未知参数、丢失数据的第一随机变量、和观测数据的第二随机变量所评估的概率密度函数被定义,其中参考源信号估计来定义所述未知参数,丢失数据的第一随机变量表示室内传递函数的逆滤波器,以及参考观测信号和初始源信号估计来定义观测数据的第二随机变量。
2.根据权利要求1所述的语音去混响设备,其中所述似然最大化单元使用迭代优化算法来确定源信号估计。
3.根据权利要求2所述的语音去混响设备,其中所述迭代优化算法是期望最大化算法。
4.根据权利要求1所述的语音去混响设备,其中所述似然最大化单元进一步包括:
逆滤波器估计单元,其参考初始源信号估计和更新的源信号估计之一、观测信号以及第二方差来计算逆滤波器估计;
滤波单元,其将逆滤波器估计应用于观测信号并产生滤波信号;
源信号估计和收敛检验单元,其参考初始源信号估计、第一方差、第二方差、和滤波信号来计算源信号估计,所述源信号估计和收敛检验单元进一步确定是否源信号估计的收敛被获得,如果源信号估计的收敛被获得,所述源信号估计和收敛检验单元进一步输出源信号估计作为去混响的信号;以及
更新单元,其将所述源信号估计更新为更新的源信号估计,如果源信号估计的收敛未被获得,所述更新单元则进一步提供更新的源信号估计给逆滤波器估计单元,以及所述更新单元在初始更新步骤中进一步提供所述初始源信号估计给逆滤波器估计单元。
5.根据权利要求4所述的语音去混响设备,其中所述似然最大化单元进一步包括:
第一长时傅立叶变换单元,其执行波形观测信号到变换后的观测信号的第一长时傅立叶变换,该第一长时傅立叶变换单元进一步将变换后的观测信号作为观测信号提供给逆滤波器估计单元和滤波单元;
LTFS到STFS变换单元,其执行滤波信号到变换后的滤波信号的LTFS到STFS变换,该LTFS到STFS变换单元进一步将变换后的滤波信号作为滤波信号提供给源信号估计和收敛检验单元;
STFS到LTFS变换单元,其执行源信号估计到变换后的源信号估计的STFS到LTFS变换,如果源信号估计的收敛未被获得,该STFS到LTFS变换单元进一步将变换后的源信号估计作为源信号估计提供给更新单元;
第二长时傅立叶变换单元,其执行波形初始源信号估计到第一变换初始源信号估计的第二长时傅立叶变换,该第二长时傅立叶变换单元进一步将第一变换初始源信号估计作为初始源信号估计提供给更新单元;以及
短时傅立叶变换单元,其执行波形初始源信号估计到第二变换初始源信号估计的短时傅立叶变换,该短时傅立叶变换单元进一步将第二变换初始源信号估计作为初始源信号估计提供给源信号估计和收敛检验单元。
6.根据权利要求1所述的语音去混响设备,进一步包括:
执行源信号估计到波形源信号估计的逆短时傅立叶变换的逆短时傅立叶变换单元。
7.根据权利要求1所述的语音去混响设备,进一步包括:
基于观测信号产生初始源信号估计、第一方差、和第二方差的初始化单元。
8.根据权利要求7所述的语音去混响设备,其中所述初始化单元进一步包括:
基频估计单元,其估计来自变换后的信号的每个短时间帧的基频和发声量度,其中通过观测信号的短时傅立叶变换来给定所述变换后的信号;以及
源信号不确定性确定单元,其基于所述基频和发声量度确定第一方差。
9.根据权利要求1所述的语音去混响设备,进一步包括:
初始化单元,其基于观测信号产生初始源信号估计、第一方差、和第二方差;和
收敛检验单元,其从似然最大化单元接收源信号估计,该收敛检验单元确定是否源信号估计的收敛被获得,如果获得源信号估计的收敛,则所述收敛检验单元进一步输出源信号估计作为去混响的信号,并且如果未获得源信号估计的收敛,则所述收敛检验单元进一步提供源信号估计给初始化单元以使初始化单元能够基于该源信号估计产生初始源信号估计、第一方差、和第二方差。
10.根据权利要求9所述的语音去混响设备,其中所述初始化单元进一步包括:
第二短时傅立叶变换单元,其执行观测信号到第一变换观测信号的第二短时傅立叶变换;
第一选择单元,其执行第一选择操作以产生第一选择输出以及第二选择操作以产生第二选择输出,第一和第二选择操作是相互独立的,当所述第一选择单元接收第一变换观测信号的输入而不接收源信号估计的任何输入时,第一选择操作用于选择第一变换观测信号作为第一选择输出,而当所述第一选择单元接收第一变换观测信号和源信号估计的输入时,第一选择操作用于选择第一变换观测信号和源信号估计之一作为第一选择输出,当所述第一选择单元接收第一变换观测信号的输入而不接收源信号估计的任何输入时,第二选择操作用于选择第一变换观测信号作为第二选择输出,而当所述第一选择单元接收第一变换观测信号和源信号估计的输入时,第二选择操作用于选择第一变换观测信号和源信号估计之一作为第二选择输出;
基频估计单元,其接收第二选择输出并估计来自第二选择输出的每个短时间帧的基频和发声量度;以及
自适应谐波滤波单元,其接收第一选择输出、基频和发声量度,该自适应谐波滤波单元基于基频和发声量度增强第一选择输出的谐波结构以产生初始源信号估计。
11.根据权利要求9所述的语音去混响设备,其中所述初始化单元进一步包括:
第三短时傅立叶变换单元,其执行观测信号到第二变换观测信号的第三短时傅立叶变换;
第二选择单元,其执行第三选择操作以产生第三选择输出,当所述第二选择单元接收第二变换观测信号的输入而不接收源信号估计的任何输入时,第三选择操作用于选择第二变换观测信号作为第三选择输出,而当所述第二选择单元接收第二变换观测信号和源信号估计的输入时,第三选择操作用于选择第二变换观测信号和源信号估计之一作为第三选择输出;
基频估计单元,其接收第三选择输出并估计来自第三选择输出的每个短时间帧的基频和发声量度;以及
源信号不确定性确定单元,其基于基频和发声量度确定第一方差。
12.根据权利要求9所述的语音去混响设备,进一步包括:
逆短时傅立叶变换单元,如果获得源信号估计的收敛,则所述逆短时傅立叶变换单元执行源信号估计到波形源信号估计的逆短时傅立叶变换。
13.一种语音去混响设备,包括:
确定最大化似然函数的逆滤波器估计的似然最大化单元,其中参考观测信号、初始源信号估计、表示源信号不确定性的第一方差、和表示声学环境不确定性的第二方差进行所述确定,其中,所述表示源信号不确定性的第一方差是在给定源信号的情况下初始源信号估计的概率密度函数的方差以及所述表示声学环境不确定性的第二方差是在给定源信号的情况下观测信号和室内传递函数的逆滤波器的联合概率密度函数的方差,以及
其中,所述似然函数基于根据第一未知参数、第二未知参数、以及观测数据的第一随机变量所评估的概率密度函数被定义,其中参考源信号估计来定义第一未知参数,参考室内传递函数的逆滤波器来定义第二未知参数,参考观测信号和初始源信号估计来定义观测数据的第一随机变量,逆滤波器估计是室内传递函数的逆滤波器的估计。
14.根据权利要求13所述的语音去混响设备,其中所述似然最大化单元使用迭代优化算法来确定逆滤波器估计。
15.根据权利要求13所述的语音去混响设备,进一步包括:
将逆滤波器估计应用于观测信号并产生源信号估计的逆滤波器应用单元。
16.根据权利要求15所述的语音去混响设备,其中所述逆滤波器应用单元进一步包括:
第一逆长时傅立叶变换单元,其执行逆滤波器估计到变换后的逆滤波器估计的第一逆长时傅立叶变换;以及
卷积单元,其接收变换后的逆滤波器估计和观测信号,以及将观测信号与变换后的逆滤波器估计进行卷积以产生源信号估计。
17.根据权利要求15所述的语音去混响设备,其中所述逆滤波器应用单元进一步包括:
第一长时傅立叶变换单元,其执行观测信号到变换后的观测信号的第一长时傅立叶变换;
第一滤波单元,其将逆滤波器估计应用于变换后的观测信号,以及产生滤波源信号估计;和
第二逆长时傅立叶变换单元,其执行滤波源信号估计到源信号估计的第二逆长时傅立叶变换。
18.根据权利要求13所述的语音去混响设备,其中所述似然最大化单元进一步包括:
逆滤波器估计单元,其参考初始源信号估计和更新的源信号估计之一、观测信号以及第二方差计算逆滤波器估计;
收敛检验单元,其确定是否逆滤波器估计的收敛被获得,如果获得逆滤波器估计的收敛,该收敛检验单元进一步输出逆滤波器估计作为将要对所述观测信号进行去混响的滤波器,
滤波单元,如果未获得逆滤波器估计的收敛,该滤波单元从所述收敛检验单元接收逆滤波器估计,该滤波单元进一步将逆滤波器估计应用于观测信号并产生滤波信号;
源信号估计单元,其参考初始源信号估计、第一方差、第二方差、和滤波信号计算源信号估计;
更新单元,其将源信号估计更新为更新的源信号估计,该更新单元进一步在初始更新步骤中提供初始源信号估计给逆滤波器估计单元,该更新单元进一步在除初始更新步骤之外的更新步骤中提供更新的源信号估计给逆滤波器估计单元。
19.根据权利要求18所述的语音去混响设备,其中所述似然最大化单元进一步包括:
第二长时傅立叶变换单元,其执行波形观测信号到变换后的观测信号的第二长时傅立叶变换,该第二长时傅立叶变换单元进一步将变换后的观测信号作为观测信号提供给逆滤波器估计单元和滤波单元;
LTFS到STFS变换单元,其执行滤波信号到变换后的滤波信号的LTFS到STFS变换,该LTFS到STFS变换单元进一步将变换后的滤波信号作为滤波信号提供给源信号估计单元;
STFS到LTFS变换单元,其执行源信号估计到变换后的源信号估计的STFS到LTFS变换,该STFS到LTFS变换单元进一步将变换后的源信号估计作为源信号估计提供给更新单元;
第三长时傅立叶变换单元,其执行波形初始源信号估计到第一变换初始源信号估计的第三长时傅立叶变换,该第三长时傅立叶变换单元进一步将第一变换初始源信号估计作为初始源信号估计提供给更新单元;以及
短时傅立叶变换单元,其执行波形初始源信号估计到第二变换初始源信号估计的短时傅立叶变换,该短时傅立叶变换单元进一步将第二变换初始源信号估计作为初始源信号估计提供给源信号估计单元。
20.根据权利要求13所述的语音去混响设备,进一步包括:
基于观测信号产生初始源信号估计、第一方差、和第二方差的初始化单元。
21.根据权利要求20所述的语音去混响设备,其中所述初始化单元进一步包括:
基频估计单元,其估计来自变换后的信号的每个短时间帧的基频和发声量度,其中通过观测信号的短时傅立叶变换来给定所述变换后的信号;以及
源信号不确定性确定单元,其基于基频和发声量度确定第一方差。
22.一种语音去混响方法,包括:
确定最大化似然函数的源信号估计,其中参考观测信号、初始源信号估计、表示源信号不确定性的第一方差、和表示声学环境不确定性的第二方差进行所述确定,其中,所述表示源信号不确定性的第一方差是在给定源信号的情况下初始源信号估计的概率密度函数的方差以及所述表示声学环境不确定性的第二方差是在给定源信号的情况下观测信号和室内传递函数的逆滤波器的联合概率密度函数的方差,以及
其中,所述似然函数基于根据未知参数、丢失数据的第一随机变量、和观测数据的第二随机变量所评估的概率密度函数被定义,其中参考源信号估计来定义未知参数,丢失数据的第一随机变量表示室内传递函数的逆滤波器,参考观测信号和初始源信号估计来定义观测数据的第二随机变量。
23.根据权利要求22所述的语音去混响方法,其中使用迭代优化算法来确定源信号估计。
24.根据权利要求23所述的语音去混响方法,其中所述迭代优化算法是期望最大化算法。
25.根据权利要求22所述的语音去混响方法,其中确定源信号估计进一步包括:
参考初始源信号估计和更新的源信号估计之一、观测信号以及第二方差计算逆滤波器估计;
将逆滤波器估计应用于观测信号,以产生滤波信号;
参考初始源信号估计、第一方差、第二方差、和滤波信号计算源信号估计;
确定是否源信号估计的收敛被获得;
如果获得源信号估计的收敛,则输出源信号估计作为去混响的信号;以及
如果未获得源信号估计的收敛,则将源信号估计更新为更新的源信号估计。
26.根据权利要求25所述的语音去混响方法,其中确定源信号估计进一步包括:
执行波形观测信号到变换后的观测信号的第一长时傅立叶变换,并进一步将变换后的观测信号作为观测信号提供以计算逆滤波器估计和产生滤波信号;
执行滤波信号到变换后的滤波信号的LTFS到STFS变换,并且进一步将变换后的滤波信号作为滤波信号提供以计算源信号估计和确定是否源信号估计的收敛被获得;
如果未获得源信号估计的收敛,执行源信号估计到变换后的源信号估计的STFS到LTFS变换并进一步将变换后的源信号估计作为源信号估计提供以将源信号估计更新为更新的源信号估计;
执行波形初始源信号估计到第一变换初始源信号估计的第二长时傅立叶变换,并进一步将第一变换初始源信号估计作为初始源信号估计提供以在初始更新步骤中被提供用于计算逆滤波器估计;以及
执行波形初始源信号估计到第二变换初始源信号估计的短时傅立叶变换,并进一步将第二变换初始源信号估计作为初始源信号估计提供以计算源信号估计和确定是否源信号估计的收敛被获得。
27.根据权利要求22所述的语音去混响方法,进一步包括:
执行源信号估计到波形源信号估计的逆短时傅立叶变换。
28.根据权利要求22所述的语音去混响方法,进一步包括:
基于观测信号产生初始源信号估计、第一方差、和第二方差。
29.根据权利要求28所述的语音去混响方法,其中产生初始源信号估计、第一方差、和第二方差进一步包括:
估计来自变换后的信号的每个短时间帧的基频和发声量度,其中通过观测信号的短时傅立叶变换来给定所述变换后的信号;以及
基于所述基频和发声量度确定第一方差。
30.根据权利要求22所述的语音去混响方法,进一步包括:
基于观测信号产生初始源信号估计、第一方差、和第二方差;
确定是否源信号估计的收敛被获得;
如果获得源信号估计的收敛,则输出源信号估计作为去混响的信号;以及
如果未获得源信号估计的收敛,则返回到产生初始源信号估计、第一方差、和第二方差。
31.根据权利要求30所述的语音去混响方法,其中产生初始源信号估计、第一方差、和第二方差进一步包括:
执行观测信号到第一变换观测信号的第二短时傅立叶变换;
执行第一选择操作以产生第一选择输出,当接收第一变换观测信号的输入而不接收源信号估计的任何输入时,第一选择操作用于选择第一变换观测信号作为第一选择输出,当接收第一变换观测信号和源信号估计的输入时,第一选择操作用于选择第一变换观测信号和源信号估计之一作为第一选择输出;
执行第二选择操作以产生第二选择输出,当接收第一变换观测信号的输入而不接收源信号估计的任何输入时,第二选择操作用于选择第一变换观测信号作为第二选择输出,当接收第一变换观测信号和源信号估计的输入时,第二选择操作用于选择第一变换观测信号和源信号估计之一作为第二选择输出;
估计来自第二选择输出的每个短时间帧的基频和发声量度;以及
基于基频和发声量度增强第一选择输出的谐波结构以产生初始源信号估计。
32.根据权利要求30所述的语音去混响方法,其中产生初始源信号估计、第一方差、和第二方差进一步包括:
执行观测信号到第二变换观测信号的第三短时傅立叶变换;
执行第三选择操作以产生第三选择输出,当接收第二变换观测信号的输入而不接收源信号估计的任何输入时,第三选择操作用于选择第二变换观测信号作为第三选择输出,当接收第二变换观测信号和源信号估计的输入时,第三选择操作用于选择第二变换观测信号和源信号估计之一作为第三选择输出;
估计来自第三选择输出的每个短时间帧的基频和发声量度;以及
基于所述基频和发声量度确定第一方差。
33.根据权利要求30所述的语音去混响方法,进一步包括:
如果获得源信号估计的收敛,则执行源信号估计到波形源信号估计的逆短时傅立叶变换。
34.一种语音去混响方法,包括:
确定最大化似然函数的逆滤波器估计,其中参考观测信号、初始源信号估计、表示源信号不确定性的第一方差、和表示声学环境不确定性的第二方差进行所述确定,其中,所述表示源信号不确定性的第一方差是在给定源信号的情况下初始源信号估计的概率密度函数的方差以及所述表示声学环境不确定性的第二方差是在给定源信号的情况下观测信号和室内传递函数的逆滤波器的联合概率密度函数的方差,以及
其中,所述似然函数基于根据第一未知参数、第二未知参数、和观测数据的第一随机变量所评估的概率密度函数被定义,其中参考源信号估计来定义第一未知参数,参考室内传递函数的逆滤波器来定义第二未知参数,以及参考观测信号和初始源信号估计来定义观测数据的第一随机变量,所述逆滤波器估计是室内传递函数的逆滤波器的估计。
35.根据权利要求34所述的语音去混响方法,其中使用迭代优化算法来确定逆滤波器估计。
36.根据权利要求34所述的语音去混响方法,进一步包括:
将逆滤波器估计应用于观测信号以产生源信号估计。
37.根据权利要求36所述的语音去混响方法,其中将逆滤波器估计应用于观测信号进一步包括:
执行逆滤波器估计到变换后的逆滤波器估计的第一逆长时傅立叶变换;以及
将观测信号与变换后的逆滤波器估计进行卷积以产生源信号估计。
38.根据权利要求36所述的语音去混响方法,其中将逆滤波器估计应用于观测信号进一步包括:
执行观测信号到变换后的观测信号的第一长时傅立叶变换;
将逆滤波器估计应用于变换后的观测信号以产生滤波源信号估计;以及
执行滤波源信号估计到源信号估计的第二逆长时傅立叶变换。
39.根据权利要求34所述的语音去混响方法,其中确定逆滤波器估计进一步包括:
参考初始源信号估计和更新的源信号估计之一、观测信号以及第二方差计算逆滤波器估计;
确定是否逆滤波器估计的收敛被获得;
如果获得逆滤波器估计的收敛,则输出逆滤波器估计作为将要对所述观测信号进行去混响的滤波器;
如果未获得逆滤波器估计的收敛,则将逆滤波器估计应用于观测信号以产生滤波信号;
参考初始源信号估计、第一方差、第二方差、和滤波信号计算源信号估计;以及
将源信号估计更新为更新的源信号估计。
40.根据权利要求39所述的语音去混响方法,其中确定逆滤波器估计进一步包括:
执行波形观测信号到变换后的观测信号的第二长时傅立叶变换并进一步将变换后的观测信号作为观测信号提供以计算逆滤波器估计和产生滤波信号;
执行滤波信号到变换后的滤波信号的LTFS到STFS变换,并进一步将变换后的滤波信号作为滤波信号提供以计算源信号估计;
执行源信号估计到变换后的源信号估计的STFS到LTFS变换,并进一步将变换后的源信号估计作为源信号估计提供以将源信号估计更新为更新的源信号估计;
执行波形初始源信号估计到第一变换初始源信号估计的第三长时傅立叶变换,并进一步将第一变换初始源信号估计作为初始源信号估计提供以在初始更新步骤中被提供用于计算逆滤波器估计;以及
执行波形初始源信号估计到第二变换初始源信号估计的短时傅立叶变换,并进一步将第二变换初始源信号估计作为初始源信号估计提供以计算源信号估计。
41.根据权利要求34所述的语音去混响方法,进一步包括:
基于观测信号产生初始源信号估计、第一方差、和第二方差。
42.根据权利要求41所述的语音去混响方法,其中产生初始源信号估计、第一方差、和第二方差进一步包括:
估计来自变换后的信号的每个短时间帧的基频和发声量度,其中通过观测信号的短时傅立叶变换来给定所述变换后的信号;以及
基于所述基频和发声量度确定第一方差。
CN2006800541241A 2006-05-01 2006-05-01 基于源和室内声学的概率模型的语音去混响方法和设备 Active CN101416237B (zh)

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
PCT/US2006/016741 WO2007130026A1 (en) 2006-05-01 2006-05-01 Method and apparatus for speech dereverberation based on probabilistic models of source and room acoustics

Publications (2)

Publication Number Publication Date
CN101416237A CN101416237A (zh) 2009-04-22
CN101416237B true CN101416237B (zh) 2012-05-30

Family

ID=38668031

Family Applications (1)

Application Number Title Priority Date Filing Date
CN2006800541241A Active CN101416237B (zh) 2006-05-01 2006-05-01 基于源和室内声学的概率模型的语音去混响方法和设备

Country Status (5)

Country Link
US (1) US8290170B2 (zh)
EP (1) EP2013869B1 (zh)
JP (1) JP4880036B2 (zh)
CN (1) CN101416237B (zh)
WO (1) WO2007130026A1 (zh)

Families Citing this family (24)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US8467538B2 (en) * 2008-03-03 2013-06-18 Nippon Telegraph And Telephone Corporation Dereverberation apparatus, dereverberation method, dereverberation program, and recording medium
CN101385386B (zh) * 2006-03-03 2012-05-09 日本电信电话株式会社 混响除去装置和混响除去方法
CN101416237B (zh) * 2006-05-01 2012-05-30 日本电信电话株式会社 基于源和室内声学的概率模型的语音去混响方法和设备
CN101965613B (zh) * 2008-03-06 2013-01-02 日本电信电话株式会社 信号增强装置及方法
JP4958241B2 (ja) * 2008-08-05 2012-06-20 日本電信電話株式会社 信号処理装置、信号処理方法、信号処理プログラムおよび記録媒体
JP4977100B2 (ja) * 2008-08-11 2012-07-18 日本電信電話株式会社 残響除去装置、残響除去方法、そのプログラムおよび記録媒体
US20110317522A1 (en) * 2010-06-28 2011-12-29 Microsoft Corporation Sound source localization based on reflections and room estimation
US8731911B2 (en) 2011-12-09 2014-05-20 Microsoft Corporation Harmonicity-based single-channel speech quality estimation
US9099096B2 (en) * 2012-05-04 2015-08-04 Sony Computer Entertainment Inc. Source separation by independent component analysis with moving constraint
EP2717263B1 (en) * 2012-10-05 2016-11-02 Nokia Technologies Oy Method, apparatus, and computer program product for categorical spatial analysis-synthesis on the spectrum of a multichannel audio signal
US9264809B2 (en) * 2014-05-22 2016-02-16 The United States Of America As Represented By The Secretary Of The Navy Multitask learning method for broadband source-location mapping of acoustic sources
US9384447B2 (en) * 2014-05-22 2016-07-05 The United States Of America As Represented By The Secretary Of The Navy Passive tracking of underwater acoustic sources with sparse innovations
US10262677B2 (en) * 2015-09-02 2019-04-16 The University Of Rochester Systems and methods for removing reverberation from audio signals
CN105448302B (zh) * 2015-11-10 2019-06-25 厦门快商通科技股份有限公司 一种环境自适应的语音混响消除方法和系统
CN105529034A (zh) * 2015-12-23 2016-04-27 北京奇虎科技有限公司 一种基于混响的语音识别方法和装置
CN106971707A (zh) * 2016-01-14 2017-07-21 芋头科技(杭州)有限公司 基于输出抵消噪声的语音降噪的方法及系统以及智能终端
CN106971739A (zh) * 2016-01-14 2017-07-21 芋头科技(杭州)有限公司 一种语音降噪的方法及系统以及智能终端
CN105931648B (zh) * 2016-06-24 2019-05-03 百度在线网络技术(北京)有限公司 音频信号解混响方法和装置
JP6677662B2 (ja) 2017-02-14 2020-04-08 株式会社東芝 音響処理装置、音響処理方法およびプログラム
EP3460795A1 (en) 2017-09-21 2019-03-27 Fraunhofer-Gesellschaft zur Förderung der angewandten Forschung e.V. Signal processor and method for providing a processed audio signal reducing noise and reverberation
KR102048370B1 (ko) * 2017-12-19 2019-11-25 서강대학교 산학협력단 우도 최대화를 이용한 빔포밍 방법
CN108986799A (zh) * 2018-09-05 2018-12-11 河海大学 一种基于倒谱滤波的混响参数估计方法
WO2020121545A1 (ja) * 2018-12-14 2020-06-18 日本電信電話株式会社 信号処理装置、信号処理方法、およびプログラム
CN115604627A (zh) * 2022-10-25 2023-01-13 维沃移动通信有限公司(Cn) 音频信号处理方法、装置、电子设备及可读存储介质

Citations (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US5774562A (en) * 1996-03-25 1998-06-30 Nippon Telegraph And Telephone Corp. Method and apparatus for dereverberation
CN1542737A (zh) * 2003-03-12 2004-11-03 ��ʽ����Ntt����Ħ 语音识别噪声自适应系统、方法及程序
US6944590B2 (en) * 2002-04-05 2005-09-13 Microsoft Corporation Method of iterative noise estimation in a recursive framework

Family Cites Families (45)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US4612414A (en) * 1983-08-31 1986-09-16 At&T Information Systems Inc. Secure voice transmission
US4783804A (en) * 1985-03-21 1988-11-08 American Telephone And Telegraph Company, At&T Bell Laboratories Hidden Markov model speech recognition arrangement
US5191606A (en) * 1990-05-08 1993-03-02 Industrial Technology Research Institute Electrical telephone speech network
EP0559349B1 (en) * 1992-03-02 1999-01-07 AT&T Corp. Training method and apparatus for speech recognition
CA2105034C (en) * 1992-10-09 1997-12-30 Biing-Hwang Juang Speaker verification with cohort normalized scoring
CA2126380C (en) * 1993-07-22 1998-07-07 Wu Chou Minimum error rate training of combined string models
US5590242A (en) * 1994-03-24 1996-12-31 Lucent Technologies Inc. Signal bias removal for robust telephone speech recognition
JP3368989B2 (ja) * 1994-06-15 2003-01-20 日本電信電話株式会社 音声認識方法
US5710864A (en) * 1994-12-29 1998-01-20 Lucent Technologies Inc. Systems, methods and articles of manufacture for improving recognition confidence in hypothesized keywords
US5812972A (en) * 1994-12-30 1998-09-22 Lucent Technologies Inc. Adaptive decision directed speech recognition bias equalization method and apparatus
US5805772A (en) * 1994-12-30 1998-09-08 Lucent Technologies Inc. Systems, methods and articles of manufacture for performing high resolution N-best string hypothesization
US5737489A (en) * 1995-09-15 1998-04-07 Lucent Technologies Inc. Discriminative utterance verification for connected digits recognition
US6002776A (en) 1995-09-18 1999-12-14 Interval Research Corporation Directional acoustic signal processor and method therefor
US5694474A (en) * 1995-09-18 1997-12-02 Interval Research Corporation Adaptive filter for signal processing and method therefor
JP3649847B2 (ja) 1996-03-25 2005-05-18 日本電信電話株式会社 残響除去方法及び装置
US5797123A (en) * 1996-10-01 1998-08-18 Lucent Technologies Inc. Method of key-phase detection and verification for flexible speech understanding
US5781887A (en) * 1996-10-09 1998-07-14 Lucent Technologies Inc. Speech recognition method with error reset commands
GB2326572A (en) * 1997-06-19 1998-12-23 Softsound Limited Low bit rate audio coder and decoder
CA2239339C (en) * 1997-07-18 2002-04-16 Lucent Technologies Inc. Method and apparatus for providing speaker authentication by verbal information verification using forced decoding
CA2239340A1 (en) * 1997-07-18 1999-01-18 Lucent Technologies Inc. Method and apparatus for providing speaker authentication by verbal information verification
US6076053A (en) * 1998-05-21 2000-06-13 Lucent Technologies Inc. Methods and apparatus for discriminative training and adaptation of pronunciation networks
US6715125B1 (en) * 1999-10-18 2004-03-30 Agere Systems Inc. Source coding and transmission with time diversity
US6304515B1 (en) * 1999-12-02 2001-10-16 John Louis Spiesberger Matched-lag filter for detection and communication
US7089183B2 (en) * 2000-08-02 2006-08-08 Texas Instruments Incorporated Accumulating transformations for hierarchical linear regression HMM adaptation
US20030171932A1 (en) * 2002-03-07 2003-09-11 Biing-Hwang Juang Speech recognition
GB2387008A (en) * 2002-03-28 2003-10-01 Qinetiq Ltd Signal Processing System
US7139703B2 (en) * 2002-04-05 2006-11-21 Microsoft Corporation Method of iterative noise estimation in a recursive framework
US7219032B2 (en) * 2002-04-20 2007-05-15 John Louis Spiesberger Estimation algorithms and location techniques
US20030225719A1 (en) * 2002-05-31 2003-12-04 Lucent Technologies, Inc. Methods and apparatus for fast and robust model training for object classification
US7103541B2 (en) 2002-06-27 2006-09-05 Microsoft Corporation Microphone array signal enhancement using mixture models
US7047047B2 (en) * 2002-09-06 2006-05-16 Microsoft Corporation Non-linear observation model for removing noise from corrupted signals
JP4098647B2 (ja) 2003-03-06 2008-06-11 日本電信電話株式会社 音響信号の残響除去方法、装置、及び音響信号の残響除去プログラム、そのプログラムを記録した記録媒体
US20040213415A1 (en) * 2003-04-28 2004-10-28 Ratnam Rama Determining reverberation time
JP3836815B2 (ja) 2003-05-21 2006-10-25 インターナショナル・ビジネス・マシーンズ・コーポレーション 音声認識装置、音声認識方法、該音声認識方法をコンピュータに対して実行させるためのコンピュータ実行可能なプログラムおよび記憶媒体
US8064969B2 (en) * 2003-08-15 2011-11-22 Avaya Inc. Method and apparatus for combined wired/wireless pop-out speakerphone microphone
US20050071168A1 (en) * 2003-09-29 2005-03-31 Biing-Hwang Juang Method and apparatus for authenticating a user using verbal information verification
US8467538B2 (en) * 2008-03-03 2013-06-18 Nippon Telegraph And Telephone Corporation Dereverberation apparatus, dereverberation method, dereverberation program, and recording medium
EP1760696B1 (en) * 2005-09-03 2016-02-03 GN ReSound A/S Method and apparatus for improved estimation of non-stationary noise for speech enhancement
US8380506B2 (en) * 2006-01-27 2013-02-19 Georgia Tech Research Corporation Automatic pattern recognition using category dependent feature selection
CN101385386B (zh) * 2006-03-03 2012-05-09 日本电信电话株式会社 混响除去装置和混响除去方法
CN101416237B (zh) * 2006-05-01 2012-05-30 日本电信电话株式会社 基于源和室内声学的概率模型的语音去混响方法和设备
CN101965613B (zh) * 2008-03-06 2013-01-02 日本电信电话株式会社 信号增强装置及方法
GB2464093B (en) * 2008-09-29 2011-03-09 Toshiba Res Europ Ltd A speech recognition method
GB2471875B (en) * 2009-07-15 2011-08-10 Toshiba Res Europ Ltd A speech recognition system and method
US8515758B2 (en) * 2010-04-14 2013-08-20 Microsoft Corporation Speech recognition including removal of irrelevant information

Patent Citations (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US5774562A (en) * 1996-03-25 1998-06-30 Nippon Telegraph And Telephone Corp. Method and apparatus for dereverberation
US6944590B2 (en) * 2002-04-05 2005-09-13 Microsoft Corporation Method of iterative noise estimation in a recursive framework
CN1542737A (zh) * 2003-03-12 2004-11-03 ��ʽ����Ntt����Ħ 语音识别噪声自适应系统、方法及程序

Non-Patent Citations (2)

* Cited by examiner, † Cited by third party
Title
Tetsuya Takiguchi, et al..ACOUSTIC MODEL ADAPTATION USING FIRST ORDER PREDICTION FOR REVERBERANT SPEECH.《IEEE International Conference on Acoustics, Speech, and Signal Processing, 2004.(ICASSP "04).》.2004,869-872. *
Tomohiro Nakatani, et al..HARMONICITY BASED DEREVERBERATION WITH MAXIMUM A POSTERIORI ESTIMATION.《2005 IEEE Workshop on Applications of Signal Processing to Audio and Acoustics》.2005,94-97. *

Also Published As

Publication number Publication date
EP2013869B1 (en) 2017-12-13
US8290170B2 (en) 2012-10-16
WO2007130026A1 (en) 2007-11-15
JP4880036B2 (ja) 2012-02-22
JP2009535674A (ja) 2009-10-01
EP2013869A1 (en) 2009-01-14
CN101416237A (zh) 2009-04-22
EP2013869A4 (en) 2012-06-20
US20090110207A1 (en) 2009-04-30

Similar Documents

Publication Publication Date Title
CN101416237B (zh) 基于源和室内声学的概率模型的语音去混响方法和设备
Tu et al. Speech enhancement based on teacher–student deep learning using improved speech presence probability for noise-robust speech recognition
Li et al. An overview of noise-robust automatic speech recognition
Xu et al. An experimental study on speech enhancement based on deep neural networks
CN112735456B (zh) 一种基于dnn-clstm网络的语音增强方法
DE69831288T2 (de) An Umgebungsgeräusche angepasste Sprachverarbeitung
Hilger et al. Quantile based histogram equalization for noise robust large vocabulary speech recognition
JP3154487B2 (ja) 音声認識の際の雑音のロバストネスを改善するためにスペクトル的推定を行う方法
Sehr et al. Reverberation model-based decoding in the logmelspec domain for robust distant-talking speech recognition
JP2002140096A (ja) 信号処理システム
Deng Front-end, back-end, and hybrid techniques for noise-robust speech recognition
JP2002140087A (ja) 音声処理システム
CN110998723A (zh) 使用神经网络的信号处理装置、使用神经网络的信号处理方法以及信号处理程序
Tu et al. DNN training based on classic gain function for single-channel speech enhancement and recognition
JP4586577B2 (ja) 外乱成分抑圧装置、コンピュータプログラム、及び音声認識システム
JP5881454B2 (ja) 音源ごとに信号のスペクトル形状特徴量を推定する装置、方法、目的信号のスペクトル特徴量を推定する装置、方法、プログラム
JP3987927B2 (ja) 波形認識方法及び装置、並びにプログラム
Astudillo et al. Uncertainty propagation
Han et al. Reverberation and noise robust feature compensation based on IMM
JP2006349723A (ja) 音響モデル作成装置、音声認識装置、音響モデル作成方法、音声認識方法、音響モデル作成プログラム、音声認識プログラムおよび記録媒体
Agrawal et al. Deep variational filter learning models for speech recognition
JP5498452B2 (ja) 背景音抑圧装置、背景音抑圧方法、およびプログラム
JP2734828B2 (ja) 確率演算装置及び確率演算方法
US12094484B2 (en) General speech enhancement method and apparatus using multi-source auxiliary information
Sehr et al. Model-based dereverberation in the Logmelspec domain for robust distant-talking speech recognition

Legal Events

Date Code Title Description
C06 Publication
PB01 Publication
C10 Entry into substantive examination
SE01 Entry into force of request for substantive examination
C14 Grant of patent or utility model
GR01 Patent grant