[go: up one dir, main page]

CN109523999A - 一种提升远场语音识别的前端处理方法和系统 - Google Patents

一种提升远场语音识别的前端处理方法和系统 Download PDF

Info

Publication number
CN109523999A
CN109523999A CN201811602419.9A CN201811602419A CN109523999A CN 109523999 A CN109523999 A CN 109523999A CN 201811602419 A CN201811602419 A CN 201811602419A CN 109523999 A CN109523999 A CN 109523999A
Authority
CN
China
Prior art keywords
signal
time
reverberation
energy
domain
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Granted
Application number
CN201811602419.9A
Other languages
English (en)
Other versions
CN109523999B (zh
Inventor
李军锋
高飞
颜永红
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Institute of Acoustics CAS
Original Assignee
Institute of Acoustics CAS
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Institute of Acoustics CAS filed Critical Institute of Acoustics CAS
Priority to CN201811602419.9A priority Critical patent/CN109523999B/zh
Publication of CN109523999A publication Critical patent/CN109523999A/zh
Application granted granted Critical
Publication of CN109523999B publication Critical patent/CN109523999B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Classifications

    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L15/00Speech recognition
    • G10L15/22Procedures used during a speech recognition process, e.g. man-machine dialogue
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L21/00Speech or voice signal processing techniques to produce another audible or non-audible signal, e.g. visual or tactile, in order to modify its quality or its intelligibility
    • G10L21/02Speech enhancement, e.g. noise reduction or echo cancellation
    • G10L21/0208Noise filtering
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L21/00Speech or voice signal processing techniques to produce another audible or non-audible signal, e.g. visual or tactile, in order to modify its quality or its intelligibility
    • G10L21/02Speech enhancement, e.g. noise reduction or echo cancellation
    • G10L21/0272Voice signal separating
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L21/00Speech or voice signal processing techniques to produce another audible or non-audible signal, e.g. visual or tactile, in order to modify its quality or its intelligibility
    • G10L21/02Speech enhancement, e.g. noise reduction or echo cancellation
    • G10L21/0208Noise filtering
    • G10L2021/02082Noise filtering the noise being echo, reverberation of the speech

Landscapes

  • Engineering & Computer Science (AREA)
  • Computational Linguistics (AREA)
  • Health & Medical Sciences (AREA)
  • Audiology, Speech & Language Pathology (AREA)
  • Human Computer Interaction (AREA)
  • Physics & Mathematics (AREA)
  • Acoustics & Sound (AREA)
  • Multimedia (AREA)
  • Quality & Reliability (AREA)
  • Signal Processing (AREA)
  • Reverberation, Karaoke And Other Acoustics (AREA)

Abstract

本申请提供了一种提升远场语音识别的前端处理方法和系统,其中所述方法包括:对房间冲激响应信号进行计算,得到早期混响信号与晚期混响信号的分割时间点,截取直达声信号和早期混响信号;将直达声信号和早期混响信号与语音库中干净语音信号在时域上进行卷积,得到时域目标信号;将时域目标信号和时域混合信号中除时域目标信号以外的其它信号分别进行计算,得到目标信号能量和其它信号能量,通过目标信号能量和其它信号能量得到理想比值掩蔽;将时域混合信号转换成频域混合信号后,将频域混合信号的幅值和理想比值掩蔽相乘,再使用频域混合信号的相位,得到重构信号。本发明通过理想幅值掩蔽从噪声混响条件下的混合语音中分离出目标信号。

Description

一种提升远场语音识别的前端处理方法和系统
技术领域
本发明涉及音频信号处理领域,尤其涉及一种提升远场语音识别的前端处理方法和系统。
背景技术
随着语音技术的不断发展,语音交互的应用已经非常广泛,大到国家军事小到家用家居个人应用。目前基于语音识别的应用越来越多,如智能家居、服务机器人等,但在真实的语音交互场景中,背景噪声和房间混响会干扰语音的传播,这些干扰不仅对语音质量和语音可懂度度有损害,对语音识别的危害也极大。因此,从这些干扰中分离出语音,对于语音识别而言尤为重要。
基于听觉掩蔽现象的研究,理想二值掩蔽(Ideal Binary Mask,IBM)被提出用于从带噪语音中分离出目标语音,IBM的主要思想是通过一定的局部阈值来保留目标信号比带噪信号能量强的时频单元,去除其他时频单元。很多研究表明IBM可以提升语音的可懂度和语音质量。理想比值掩蔽(Ideal Ratio Mask,IRM)作为IBM的软判决,它可以保留更多的语音的信息,在语音识别性能上会有更好的表现。在噪声环境中,IRM由干净语音的能量与带噪语音的能量比计算得出。当场景变换到混响噪声环境时,现在的做法仍然套用仅有噪声时方法,噪声是加性的,而混响是乘性的,它由直达声、早期反射、晚期混响组成,显然以上方法对于混响的处理是不合理的。
我们一般用房间冲激响应(Room Impulse Response,RIR)来描述房间的混响特性,研究表明房间冲击响应中的直达声和早期反射是对人耳听觉有利的部分,现在一些研究把直达声和前50ms的早期混响作为目标语音,实验结果表明这一掩蔽在噪声混响条件下可以有效的提升语音可懂度和语音质量。但是混响随房间环境的声学特性不同而不同,不同长度的早期反射对语音可懂度上有不同的影响,对于不同混响时间都截取前50ms的方法并不是很好的做法。
发明内容
为了解决上述问题,本发明提出了一种提升远场语音识别的前端处理方法和系统。
为了达到上述目的,本申请的实施例采用如下技术方案:
第一方面,本申请提供一种提升远场语音识别的前端处理方法,包括:对房间冲激响应信号进行计算,得到早期混响信号与晚期混响信号的分割时间点,截取直达声信号和所述早期混响信号;所述房间冲激响应信号依次由所述直达声信号、所述早期混响信号和所述晚期混响信号组成;将所述直达声信号和所述早期混响信号与语音库中干净语音信号在时域上进行卷积,得到时域目标信号;将所述时域目标信号和时域混合信号中除所述时域目标信号以外的其它信号分别进行计算,得到目标信号能量和其它信号能量,通过所述目标信号能量和所述其它信号能量得到理想比值掩蔽;其中所述时域混合信号由所述房间冲激响应信号与所述语音库中语音在时域上进行卷积后,再和噪声信号进行混合得到;将所述时域混合信号转换成频域混合信号后,将所述频域混合信号的幅值和所述理想比值掩蔽相乘,再使用所述频域混合信号的相位,得到重构信号。
在另一个可能的实现中,所述对房间冲激响应信号进行计算,得到早期混响信号与晚期混响信号的分割时间点,包括:通过计算所述房间冲激响应信号的回波密度函数来确定所述房间冲激响应信号的早期混响信号与晚期混响信号的分割时间点,所述回波密度函数NED定义为:
其中,是预期的样本在高斯分布的均值标准差之外的样本的分数,1·{}是一个指标函数,当里面的参数为真返回1,否则返回0,ω(l)是权重函数,δ是当前窗中的所述房间冲激响应信号的标准差;当混响从早期混响变化到后期混响时,NED从0开始接近1,早期混响信号和晚期混响信号的分割时间就定义为晚期混响信号的标准差无限接近于1的时候。
在另一个可能的实现中,所述对房间冲激响应信号进行计算,得到早期混响信号与晚期混响信号的分割时间点,包括:基于所述晚期混响的漫散射场的假设,通过峰态来计算早期混响信号与晚期混响信号的分割时间点,所述峰态是统计过程的四阶矩,所述峰态γ4定义为:
其中,E为要处理冲击响应x的期望,μ是均值,δ为标准差;所述分割时间定义为滑动窗口中计算的所述峰态到达零时的时间瞬间。
在另一个可能的实现中,所述对房间冲激响应信号进行计算,得到早期混响信号与晚期混响信号的分割时间点,包括:通过房间特性计算早期混响信号与晚期混响信号的分割时间点,所述时间t定义为:
其中,V和S分别为房间的体积和房间的表面积。
在另一个可能的实现中,所述将所述时域目标信号和时域混合信号中除所述时域目标信号以外的其它信号分别进行计算,得到目标信号能量和其它信号能量,通过所述目标信号能量和所述其它信号能量得到理想比值掩蔽,具体包括:将所述时域目标信号和所述其它信号分别做傅里叶变换,计算得到所述目标信号能量和所述其它信号能量;将所述目标信号能量和所述其它信号能量代入理想比值掩蔽公式,得到所述理想比值掩蔽;所述理想比值掩蔽公式IRM(k,l)为:
其中,D(k,l)表示为目标信号能量,R(k,l)表示混合信号能量中除去目标信号能量的其它信号能量,k表示频带索引,l表示帧索引。
在另一个可能的实现中,所述时域混合信号由所述房间冲激响应信号与所述语音库中语音在时域上进行卷积后,再和噪声信号进行混合得到,所述时域混合信号生成方式为:
m(t)=s(t)·h(t)+n(t)
其中,s(t)表示干净语音信号,h(t)表示房间冲激响应信号,n(t)表示噪声信号,t表示时间索引。
在另一个可能的实现中,所述将所述时域混合信号转换成频域混合信号后,将所述频域混合信号的幅值和所述理想比值掩蔽相乘,再使用所述频域混合信号的相位,得到重构信号,具体包括:
将所述时域混合信号进行短时傅里叶变换后,得到所述频域混合信号;
将所述频域混合信号的幅值和所述理想比值掩蔽相乘,再使用所述频域混合信号的相位,得到重构信号,所述重构信号s′(t)计算公式为:
s′(t)=istft{M(k,l)×IRM(k,l)×exp[j∠Mf(k,l)]}
其中,istft表示为逆傅里叶运算,M(k,l)表示频域混合信号,∠Mf(k,l)表示频域混合信号的相位,k表示频带索引,l表示帧索引。
第二方面,本申请提供一种提升远场语音识别的前端处理系统,包括:截取单元,用于对房间冲激响应信号进行计算,得到早期混响信号与晚期混响信号的分割时间点,截取直达声信号和所述早期混响信号;所述房间冲激响应信号依次由所述直达声信号、所述早期混响信号和所述晚期混响信号组成;第一生成单元,用于将所述直达声信号和所述早期混响信号与语音库中干净语音信号在时域上进行卷积,得到时域目标信号;第二生成单元,用于将所述时域目标信号和时域混合信号中除所述时域目标信号以外的其它信号分别进行计算,得到目标信号能量和其它信号能量,通过所述目标信号能量和所述其它信号能量得到理想比值掩蔽;其中所述时域混合信号由所述房间冲激响应信号与所述语音库中语音在时域上进行卷积后,再和噪声信号进行混合得到;第三生成单元,用于将所述时域混合信号转换成频域混合信号后,将所述频域混合信号的幅值和所述理想比值掩蔽相乘,再使用所述频域混合信号的相位,得到重构信号。
在另一个可能的实现中,所述第二生成单元具体用于,将所述时域目标信号和所述其它信号分别做傅里叶变换,计算得到所述目标信号能量和所述其它信号能量;将所述目标信号能量和所述其它信号能量代入理想比值掩蔽公式,得到所述理想比值掩蔽;所述理想比值掩蔽公式IRM(k,l)为:
其中,D(k,l)表示为目标信号能量,R(k,l)表示混合信号能量中除去目标信号能量的其它信号能量,k表示频带索引,l表示帧索引。
在另一个可能的实现中,所述第三生成单元具体用于,
将所述时域混合信号进行短时傅里叶变换后,得到所述频域混合信号;
将所述频域混合信号的幅值和所述理想比值掩蔽相乘,再使用所述频域混合信号的相位,得到重构信号,所述重构信号s′(t)计算公式为:
s′(t)=istft{M(k,l)×IRM(k,l)×exp[j∠Mf(k,l)]}
其中,istft表示为逆傅里叶运算,M(k,l)表示频域混合信号,∠Mf(k,l)表示频域混合信号的相位,k表示频带索引,l表示帧索引。
本发明通过对不同声学特性的房间冲激响应信号进行计算,截取早期混响信号,然后将早期混响信号和理想比值掩蔽结合,应用于混合语音信号,得到重构信号,实现通过理想幅值掩蔽从噪声混响条件下的混合语音中分离出目标信号。
附图说明
下面对实施例或现有技术描述中所需使用的附图作简单地介绍。
图1为本申请实施例提供的一种提升远场语音识别的前端处理方法的流程图;
图2为本申请实施例提供的房间冲激响应信号组成示意图;
图3为本申请实施例提供的一种提升远场语音识别的前端处理系统的结构框图。
具体实施方式
下面详细描述本申请的实施例,所述实施例的示例在附图中示出,其中自始至终相同或类似的标号表示相同或类似的单元或具有相同或类似功能的单元。下面通过参考附图描述的实施例是示例性的,仅用于解释本申请,而不能理解为对本申请的限制。
图1为本申请实施例提供的一种提升远场语音识别的前端处理方法的流程图。如图1所示的提升远场语音识别的前端处理方法,具体实现步骤如下:
步骤S102,对房间冲激响应信号进行计算,得到早期混响信号与晚期混响信号的分割时间点,截取直达声信号和早期混响信号。
优选地,如图2所示,本申请中房间冲激响应信号实际上由直达声、早期混响和晚期混响组成,然而直达声和早期混响是对人耳听觉有利的部分,本申请主要通过获取早期混响和晚期混响的分割时间点,然后截取到直达声和早期混响进行处理。
具体地,对房间冲激响应信号升采样到一定频率后,计算出房间冲激响应信号的早期混响信号与晚期混响信号的分割时间点,然后截取到直达声信号和早期混响信号。
其中,对房间冲激响应信号进行升采样到一定频率,是为了方便截取早期混响的时间。
优选地,本申请对房间冲激响应信号升采样到48kHz最佳,当然其它频率下也是可以的。
在一个实施例中,通过计算房间冲激响应信号的回波密度函数来确定房间冲激响应信号的早期混响信号与晚期混响信号的分割时间点,回波密度函数NED定义为:
其中,是预期的样本在高斯分布的均值标准差之外的样本的分数,1·{}是一个指标函数,当里面的参数为真返回1,否则返回0,ω(l)是权重函数,δ是当前窗中的所述房间冲激响应信号的标准差。
当混响从早期混响变化到后期混响时,NED从0开始接近1,早期混响信号和晚期混响信号的分割时间就定义为晚期混响信号的标准差无限接近于1的时候。
在一个实施例中,基于晚期混响的漫散射场的假设,通过峰态来计算早期混响信号与晚期混响信号的分割时间点,峰态是统计过程的四阶矩,峰态γ4定义为:
其中,E为要处理冲击响应x的期望,μ是均值,δ为标准差;
所述分割时间定义为滑动窗口中计算的所述峰态到达零时的时间瞬间。
在一个实施例中,通过房间特性计算早期混响信号与晚期混响信号的分割时间点,所述时间t定义为:
其中,V和S分别为房间的体积和房间的表面积。
步骤S104,将直达声信号和早期混响信号与语音库中干净语音信号在时域上进行卷积,得到时域目标信号。
优选地,本申请使用的语音库Hub5是英文语音的电话录音,被招募的说话人通过机器人操作员连接,就机器人操作员在通话开始时宣布的一个日常话题进行随意交谈。该语音库的采样频率是8000赫兹。其中,干净语音信号是指没有任何操作的一个实录的语音。
具体地,将直达声信号和早期混响信号降采样为语音信号的采样频率后,和语音库中干净语音信号在时域上进行卷积,得到时域目标信号。
步骤S106,将时域目标信号和时域混合信号中除时域目标信号以外的其它信号分别进行计算,得到目标信号能量和其它信号能量,通过目标信号能量和其它信号能量得到理想比值掩蔽。
优选地,时域混合信号由房间冲激响应信号与语音库中全部语音在时域上进行卷积后,然后再和噪声信号进行混合得到的。时域混合信号生成方式为:
m(t)=s(t)·h(t)+n(t)
其中,s(t)表示干净语音信号,h(t)表示房间冲激响应信号,n(t)表示噪声信号,t表示时间索引。
其中,噪声信号是指在真实的语音交互场景中背景噪声,它和房间混响会干扰语音的传播,这些干扰不仅对语音质量和语音可懂度度有损害,而且也会影响语音识别。
具体地,将时域目标信号和时域混合信号中除时域目标信号以外的其它信号分别做傅里叶变换,计算得到目标信号能量D(k,l)和其它信号能量R(k,l);然后将目标信号能量D(k,l)和其它信号能量R(k,l)能量代入理想比值掩蔽公式,得到理想比值掩蔽。其中理想比值掩蔽公式IRM(k,l)为:
其中,D(k,l)表示为目标信号能量,R(k,l)表示混合信号能量中除去目标信号能量的其它信号能量,k表示频带索引,l表示帧索引。
步骤S108,将时域混合信号转换成频域混合信号后,将频域混合信号的幅值和理想比值掩蔽相乘,再使用频域混合信号的相位,得到重构信号。
具体地,将时域混合信号进行短时傅里叶变换后,得到频域混合信号;然后将频域混合信号的幅值和理想比值掩蔽相乘,再使用频域混合信号的相位,得到重构信号,重构信号s′(t)计算公式为:
s′(t)=istft{M(k,l)×IRM(k,l)×exp[j∠Mf(k,l)]}
其中,istft表示为逆傅里叶运算,M(k,l)表示频域混合信号,∠Mf(k,l)表示频域混合信号的相位,k表示频带索引,l表示帧索引。
本发明通过对不同声学特性的房间冲激响应信号进行计算,截取早期混响信号,然后将早期混响信号和理想比值掩蔽结合,应用于混合语音信号,得到重构信号,实现通过理想幅值掩蔽从噪声混响条件下的混合语音中分离出目标信号。
图3为本申请实施例提供的一种提升远场语音识别的前端处理系统的结构框图。如图3所示提升远场语音识别的前端处理系统,包括:截取单元301、第一生成单元302、第二生成单元303和第三生成单元304。
截取单元301用于对房间冲激响应信号进行计算,得到早期混响信号与晚期混响信号的分割时间点,截取直达声信号和早期混响信号。
其中,对房间冲激响应信号升采样到一定频率后,计算出房间冲激响应信号的早期混响信号与晚期混响信号的分割时间点,然后截取到直达声信号和早期混响信号。
在一个实施例中,通过计算房间冲激响应信号的回波密度函数来确定房间冲激响应信号的早期混响信号与晚期混响信号的分割时间点,回波密度函数NED定义为:
其中,是预期的样本在高斯分布的均值标准差之外的样本的分数,1·{}是一个指标函数,当里面的参数为真返回1,否则返回0,ω(l)是权重函数,δ是当前窗中的所述房间冲激响应信号的标准差。
当混响从早期混响变化到后期混响时,NED从0开始接近1,早期混响信号和晚期混响信号的分割时间就定义为晚期混响信号的标准差无限接近于1的时候。
在一个实施例中,基于晚期混响的漫散射场的假设,通过峰态来计算早期混响信号与晚期混响信号的分割时间点,峰态是统计过程的四阶矩,峰态γ4定义为:
其中,E为要处理冲击响应x的期望,μ是均值,δ为标准差;
所述分割时间定义为滑动窗口中计算的所述峰态到达零时的时间瞬间。
在一个实施例中,通过房间特性计算早期混响信号与晚期混响信号的分割时间点,所述时间t定义为:
其中,V和S分别为房间的体积和房间的表面积。
第一生成单元302用于将直达声信号和早期混响信号与语音库中干净语音信号在时域上进行卷积,得到时域目标信号。
其中,将直达声信号和早期混响信号降采样为语音信号的采样频率后,和语音库中干净语音信号在时域上进行卷积,得到时域目标信号。
第二生成单元303用于将时域目标信号和时域混合信号中除时域目标信号以外的其它信号分别进行计算,得到目标信号能量和其它信号能量,通过目标信号能量和其它信号能量得到理想比值掩蔽。
优选地,时域混合信号由房间冲激响应信号与语音库中全部语音在时域上进行卷积后,然后再和噪声信号进行混合得到的。时域混合信号生成方式为:
m(t)=s(t)·h(t)+n(t)
其中,s(t)表示干净语音信号,h(t)表示房间冲激响应信号,n(t)表示噪声信号,t表示时间索引。
其中,将时域目标信号和时域混合信号中除时域目标信号以外的其它信号分别做傅里叶变换,计算得到目标信号能量D(k,l)和其它信号能量R(k,l);然后将目标信号能量D(k,l)和其它信号能量R(k,l)能量代入理想比值掩蔽公式,得到理想比值掩蔽。其中理想比值掩蔽公式IRM(k,l)为:
其中,D(k,l)表示为目标信号能量,R(k,l)表示混合信号能量中除去目标信号能量的其它信号能量,k表示频带索引,l表示帧索引。
第三生成单元304用于将时域混合信号转换成频域混合信号后,将频域混合信号的幅值和理想比值掩蔽相乘,再使用频域混合信号的相位,得到重构信号。
其中,将时域混合信号进行短时傅里叶变换后,得到频域混合信号;然后将频域混合信号的幅值和理想比值掩蔽相乘,再使用频域混合信号的相位,得到重构信号,重构信号s′(t)计算公式为:
s′(t)=istft{M(k,l)×IRM(k,l)×exp[j∠Mf(k,l)]}
其中,istft表示为逆傅里叶运算,M(k,l)表示频域混合信号,∠Mf(k,l)表示频域混合信号的相位,k表示频带索引,l表示帧索引。
本发明通过对不同声学特性的房间冲激响应信号进行计算,截取早期混响信号,然后将早期混响信号和理想比值掩蔽结合,应用于混合语音信号,得到重构信号,实现通过理想幅值掩蔽从噪声混响条件下的混合语音中分离出目标信号。
最后说明的是:以上实施例仅用以说明本申请的技术方案,而对其限制;尽管参照前述实施例对本申请进行了详细的说明,本领域的普通技术人员应当理解:其依然可以对前述各实施例所记载的技术方案进行修改,或者对其中部分技术特征进行等同替换;而这些修改或替换,并不使相应技术方案的本质脱离本申请各实施例技术方案的范围。

Claims (10)

1.一种提升远场语音识别的前端处理方法,其特征在于,包括:
对房间冲激响应信号进行计算,得到早期混响信号与晚期混响信号的分割时间点,截取直达声信号和所述早期混响信号;所述房间冲激响应信号依次由所述直达声信号、所述早期混响信号和所述晚期混响信号组成;
将所述直达声信号和所述早期混响信号与语音库中干净语音信号在时域上进行卷积,得到时域目标信号;
将所述时域目标信号和时域混合信号中除所述时域目标信号以外的其它信号分别进行计算,得到目标信号能量和其它信号能量,通过所述目标信号能量和所述其它信号能量得到理想比值掩蔽;其中所述时域混合信号由所述房间冲激响应信号与所述语音库中语音在时域上进行卷积后,再和噪声信号进行混合得到;
将所述时域混合信号转换成频域混合信号后,将所述频域混合信号的幅值和所述理想比值掩蔽相乘,再使用所述频域混合信号的相位,得到重构信号。
2.根据权利要求1所述的方法,其特征在于,所述对房间冲激响应信号进行计算,得到早期混响信号与晚期混响信号的分割时间点,包括:
通过计算所述房间冲激响应信号的回波密度函数来确定所述房间冲激响应信号的早期混响信号与晚期混响信号的分割时间点,所述回波密度函数NED定义为:
其中,是预期的样本在高斯分布的均值标准差之外的样本的分数,1·{}是一个指标函数,当里面的参数为真返回1,否则返回0,ω(l)是权重函数,δ是当前窗中的所述房间冲激响应信号的标准差;
当混响从早期混响变化到后期混响时,NED从0开始接近1,早期混响信号和晚期混响信号的分割时间就定义为晚期混响信号的标准差无限接近于1的时候。
3.根据权利要求1所述的方法,其特征在于,所述对房间冲激响应信号进行计算,得到早期混响信号与晚期混响信号的分割时间点,包括:
基于所述晚期混响的漫散射场的假设,通过峰态来计算早期混响信号与晚期混响信号的分割时间点,所述峰态是统计过程的四阶矩,所述峰态γ4定义为:
其中,E为要处理冲击响应x的期望,μ是均值,δ为标准差;
所述分割时间定义为滑动窗口中计算的所述峰态到达零时的时间瞬间。
4.根据权利要求1所述的方法,其特征在于,所述对房间冲激响应信号进行计算,得到早期混响信号与晚期混响信号的分割时间点,包括:
通过房间特性计算早期混响信号与晚期混响信号的分割时间点,所述时间t定义为:
其中,V和S分别为房间的体积和房间的表面积。
5.根据权利要求1所述的方法,其特征在于,所述将所述时域目标信号和时域混合信号中除所述时域目标信号以外的其它信号分别进行计算,得到目标信号能量和其它信号能量,通过所述目标信号能量和所述其它信号能量得到理想比值掩蔽,具体包括:
将所述时域目标信号和所述其它信号分别做傅里叶变换,计算得到所述目标信号能量和所述其它信号能量;
将所述目标信号能量和所述其它信号能量代入理想比值掩蔽公式,得到所述理想比值掩蔽;所述理想比值掩蔽公式IRM(k,l)为:
其中,D(k,l)表示为目标信号能量,R(k,l)表示混合信号能量中除去目标信号能量的其它信号能量,k表示频带索引,l表示帧索引。
6.根据权利要求1所述的方法,其特征在于,所述时域混合信号由所述房间冲激响应信号与所述语音库中语音在时域上进行卷积后,再和噪声信号进行混合得到,所述时域混合信号生成方式为:
m(t)=s(t)·h(t)+n(t)
其中,s(t)表示干净语音信号,h(t)表示房间冲激响应信号,n(t)表示噪声信号,t表示时间索引。
7.根据权利要求1所述的方法,其特征在于,所述将所述时域混合信号转换成频域混合信号后,将所述频域混合信号的幅值和所述理想比值掩蔽相乘,再使用所述频域混合信号的相位,得到重构信号,具体包括:
将所述时域混合信号进行短时傅里叶变换后,得到所述频域混合信号;
将所述频域混合信号的幅值和所述理想比值掩蔽相乘,再使用所述频域混合信号的相位,得到重构信号,所述重构信号s′(t)计算公式为:
s′(t)=istft{M(k,l)×IRM(k,l)×exp[j∠Mf(k,l)]}
其中,istft表示为逆傅里叶运算,M(k,l)表示频域混合信号,∠Mf(k,l)表示频域混合信号的相位,k表示频带索引,l表示帧索引。
8.一种提升远场语音识别的前端处理系统,包括:
截取单元,用于对房间冲激响应信号进行计算,得到早期混响信号与晚期混响信号的分割时间点,截取直达声信号和所述早期混响信号;所述房间冲激响应信号依次由所述直达声信号、所述早期混响信号和所述晚期混响信号组成;
第一生成单元,用于将所述直达声信号和所述早期混响信号与语音库中干净语音信号在时域上进行卷积,得到时域目标信号;
第二生成单元,用于将所述时域目标信号和时域混合信号中除所述时域目标信号以外的其它信号分别进行计算,得到目标信号能量和其它信号能量,通过所述目标信号能量和所述其它信号能量得到理想比值掩蔽;其中所述时域混合信号由所述房间冲激响应信号与所述语音库中语音在时域上进行卷积后,再和噪声信号进行混合得到;
第三生成单元,用于将所述时域混合信号转换成频域混合信号后,将所述频域混合信号的幅值和所述理想比值掩蔽相乘,再使用所述频域混合信号的相位,得到重构信号。
9.根据权利要求8所述的系统,其特征在于,所述第二生成单元具体用于,
将所述时域目标信号和所述其它信号分别做傅里叶变换,计算得到所述目标信号能量和所述其它信号能量;
将所述目标信号能量和所述其它信号能量代入理想比值掩蔽公式,得到所述理想比值掩蔽;所述理想比值掩蔽公式IRM(k,l)为:
其中,D(k,l)表示为目标信号能量,R(k,l)表示混合信号能量中除去目标信号能量的其它信号能量,k表示频带索引,l表示帧索引。
10.根据权利要求8所述的系统,其特征在于,所述第三生成单元具体用于,
将所述时域混合信号进行短时傅里叶变换后,得到所述频域混合信号;
将所述频域混合信号的幅值和所述理想比值掩蔽相乘,再使用所述频域混合信号的相位,得到重构信号,所述重构信号s′(t)计算公式为:
s′(t)=istft{M(k,l)×IRM(k,l)×exp[j∠Mf(k,l)]}
其中,istft表示为逆傅里叶运算,M(k,l)表示频域混合信号,∠Mf(k,l)表示频域混合信号的相位,k表示频带索引,l表示帧索引。
CN201811602419.9A 2018-12-26 2018-12-26 一种提升远场语音识别的前端处理方法和系统 Active CN109523999B (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN201811602419.9A CN109523999B (zh) 2018-12-26 2018-12-26 一种提升远场语音识别的前端处理方法和系统

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN201811602419.9A CN109523999B (zh) 2018-12-26 2018-12-26 一种提升远场语音识别的前端处理方法和系统

Publications (2)

Publication Number Publication Date
CN109523999A true CN109523999A (zh) 2019-03-26
CN109523999B CN109523999B (zh) 2021-03-23

Family

ID=65797174

Family Applications (1)

Application Number Title Priority Date Filing Date
CN201811602419.9A Active CN109523999B (zh) 2018-12-26 2018-12-26 一种提升远场语音识别的前端处理方法和系统

Country Status (1)

Country Link
CN (1) CN109523999B (zh)

Cited By (9)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN110428852A (zh) * 2019-08-09 2019-11-08 南京人工智能高等研究院有限公司 语音分离方法、装置、介质和设备
CN111312273A (zh) * 2020-05-11 2020-06-19 腾讯科技(深圳)有限公司 混响消除方法、装置、计算机设备和存储介质
CN111768796A (zh) * 2020-07-14 2020-10-13 中国科学院声学研究所 一种声学回波消除与去混响方法及装置
CN112201262A (zh) * 2020-09-30 2021-01-08 珠海格力电器股份有限公司 一种声音处理方法及装置
CN112201229A (zh) * 2020-10-09 2021-01-08 百果园技术(新加坡)有限公司 一种语音处理方法、装置及系统
CN112652290A (zh) * 2020-12-14 2021-04-13 北京达佳互联信息技术有限公司 产生混响音频信号的方法及音频处理模型的训练方法
CN112735461A (zh) * 2020-12-29 2021-04-30 西安讯飞超脑信息科技有限公司 拾音方法以及相关装置、设备
CN113643714A (zh) * 2021-10-14 2021-11-12 阿里巴巴达摩院(杭州)科技有限公司 音频处理方法、装置、存储介质及计算机程序
WO2023093477A1 (zh) * 2021-11-25 2023-06-01 广州视源电子科技股份有限公司 语音增强模型的训练方法及装置、存储介质及设备

Citations (5)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US20090122999A1 (en) * 2007-11-13 2009-05-14 Samsung Electronics Co., Ltd Method of improving acoustic properties in music reproduction apparatus and recording medium and music reproduction apparatus suitable for the method
CN105427860A (zh) * 2015-11-11 2016-03-23 百度在线网络技术(北京)有限公司 远场语音识别方法和装置
CN105427859A (zh) * 2016-01-07 2016-03-23 深圳市音加密科技有限公司 一种用于对说话人识别的前端语音增强方法
CN107481731A (zh) * 2017-08-01 2017-12-15 百度在线网络技术(北京)有限公司 一种语音数据增强方法及系统
CN108389586A (zh) * 2017-05-17 2018-08-10 宁波桑德纳电子科技有限公司 一种远程集音装置、监控装置及远程集音方法

Patent Citations (5)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US20090122999A1 (en) * 2007-11-13 2009-05-14 Samsung Electronics Co., Ltd Method of improving acoustic properties in music reproduction apparatus and recording medium and music reproduction apparatus suitable for the method
CN105427860A (zh) * 2015-11-11 2016-03-23 百度在线网络技术(北京)有限公司 远场语音识别方法和装置
CN105427859A (zh) * 2016-01-07 2016-03-23 深圳市音加密科技有限公司 一种用于对说话人识别的前端语音增强方法
CN108389586A (zh) * 2017-05-17 2018-08-10 宁波桑德纳电子科技有限公司 一种远程集音装置、监控装置及远程集音方法
CN107481731A (zh) * 2017-08-01 2017-12-15 百度在线网络技术(北京)有限公司 一种语音数据增强方法及系统

Cited By (15)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN110428852A (zh) * 2019-08-09 2019-11-08 南京人工智能高等研究院有限公司 语音分离方法、装置、介质和设备
CN110428852B (zh) * 2019-08-09 2021-07-16 南京人工智能高等研究院有限公司 语音分离方法、装置、介质和设备
CN111312273A (zh) * 2020-05-11 2020-06-19 腾讯科技(深圳)有限公司 混响消除方法、装置、计算机设备和存储介质
CN111768796B (zh) * 2020-07-14 2024-05-03 中国科学院声学研究所 一种声学回波消除与去混响方法及装置
CN111768796A (zh) * 2020-07-14 2020-10-13 中国科学院声学研究所 一种声学回波消除与去混响方法及装置
CN112201262A (zh) * 2020-09-30 2021-01-08 珠海格力电器股份有限公司 一种声音处理方法及装置
CN112201262B (zh) * 2020-09-30 2024-05-31 珠海格力电器股份有限公司 一种声音处理方法及装置
CN112201229A (zh) * 2020-10-09 2021-01-08 百果园技术(新加坡)有限公司 一种语音处理方法、装置及系统
CN112201229B (zh) * 2020-10-09 2024-05-28 百果园技术(新加坡)有限公司 一种语音处理方法、装置及系统
CN112652290A (zh) * 2020-12-14 2021-04-13 北京达佳互联信息技术有限公司 产生混响音频信号的方法及音频处理模型的训练方法
CN112735461A (zh) * 2020-12-29 2021-04-30 西安讯飞超脑信息科技有限公司 拾音方法以及相关装置、设备
CN112735461B (zh) * 2020-12-29 2024-06-07 西安讯飞超脑信息科技有限公司 拾音方法以及相关装置、设备
CN113643714B (zh) * 2021-10-14 2022-02-18 阿里巴巴达摩院(杭州)科技有限公司 音频处理方法、装置、存储介质及计算机程序
CN113643714A (zh) * 2021-10-14 2021-11-12 阿里巴巴达摩院(杭州)科技有限公司 音频处理方法、装置、存储介质及计算机程序
WO2023093477A1 (zh) * 2021-11-25 2023-06-01 广州视源电子科技股份有限公司 语音增强模型的训练方法及装置、存储介质及设备

Also Published As

Publication number Publication date
CN109523999B (zh) 2021-03-23

Similar Documents

Publication Publication Date Title
CN109523999B (zh) 一种提升远场语音识别的前端处理方法和系统
US8724798B2 (en) System and method for acoustic echo cancellation using spectral decomposition
CN105869651B (zh) 基于噪声混合相干性的双通道波束形成语音增强方法
JP4210521B2 (ja) 雑音低減法および装置
CN105788607B (zh) 应用于双麦克风阵列的语音增强方法
EP3791565B1 (en) Method and apparatus utilizing residual echo estimate information to derive secondary echo reduction parameters
JP6703525B2 (ja) 音源を強調するための方法及び機器
CN106340292B (zh) 一种基于连续噪声估计的语音增强方法
TW202117706A (zh) 具多麥克風之語音增強裝置及方法
CN108447496B (zh) 一种基于麦克风阵列的语音增强方法及装置
TW201142829A (en) Adaptive noise reduction using level cues
CN110211602B (zh) 智能语音增强通信方法及装置
US20200286501A1 (en) Apparatus and a method for signal enhancement
CN106340302A (zh) 一种语音数据的去混响方法及装置
CN112820312B (zh) 一种语音分离方法、装置及电子设备
Shraddha et al. Noise cancellation and noise reduction techniques: A review
JP2025503325A (ja) レイテンシを減少させた状態での音声信号強調のための方法およびシステム
Meher et al. Dynamic spectral subtraction on AWGN speech
Zhang et al. A microphone array dereverberation algorithm based on TF-GSC and postfiltering
Nemade et al. Performance comparison of single channel Speech enhancement techniques for personal Communication
JP2024508225A (ja) オーディオ処理
Shankar et al. Noise dependent super gaussian-coherence based dual microphone speech enhancement for hearing aid application using smartphone
JP2017161635A (ja) ゲイン処理装置及びプログラム、並びに、音響信号処理装置及びプログラム
Aung et al. Two‐microphone subband noise reduction scheme with a new noise subtraction parameter for speech quality enhancement
Rao et al. Speech enhancement using perceptual Wiener filter combined with unvoiced speech—A new Scheme

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
GR01 Patent grant
GR01 Patent grant