CN102855881B - 一种回声抑制方法和装置 - Google Patents
一种回声抑制方法和装置 Download PDFInfo
- Publication number
- CN102855881B CN102855881B CN201110175365.4A CN201110175365A CN102855881B CN 102855881 B CN102855881 B CN 102855881B CN 201110175365 A CN201110175365 A CN 201110175365A CN 102855881 B CN102855881 B CN 102855881B
- Authority
- CN
- China
- Prior art keywords
- detection
- echo
- echoes
- signal
- time domain
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Active
Links
- 238000000034 method Methods 0.000 title claims abstract description 101
- 230000001629 suppression Effects 0.000 title claims abstract description 8
- 238000001514 detection method Methods 0.000 claims abstract description 722
- 230000005540 biological transmission Effects 0.000 claims abstract description 178
- 238000012545 processing Methods 0.000 claims abstract description 127
- 238000002592 echocardiography Methods 0.000 claims description 473
- 230000011664 signaling Effects 0.000 claims description 245
- 238000012360 testing method Methods 0.000 claims description 238
- 230000004913 activation Effects 0.000 claims description 182
- 238000009499 grossing Methods 0.000 claims description 102
- 238000006243 chemical reaction Methods 0.000 claims description 44
- 230000005764 inhibitory process Effects 0.000 claims description 44
- 206010019133 Hangover Diseases 0.000 claims description 40
- 230000005284 excitation Effects 0.000 claims description 34
- 238000001228 spectrum Methods 0.000 claims description 32
- 238000013139 quantization Methods 0.000 claims description 17
- 238000001994 activation Methods 0.000 description 128
- 238000004422 calculation algorithm Methods 0.000 description 56
- 238000010586 diagram Methods 0.000 description 26
- 238000005086 pumping Methods 0.000 description 26
- 230000008520 organization Effects 0.000 description 24
- 230000008569 process Effects 0.000 description 22
- 239000002131 composite material Substances 0.000 description 20
- 230000002123 temporal effect Effects 0.000 description 20
- 230000003044 adaptive effect Effects 0.000 description 18
- 230000009466 transformation Effects 0.000 description 12
- 230000001965 increasing effect Effects 0.000 description 8
- 238000005516 engineering process Methods 0.000 description 7
- 230000006870 function Effects 0.000 description 6
- 238000010295 mobile communication Methods 0.000 description 4
- 230000000694 effects Effects 0.000 description 3
- 239000000203 mixture Substances 0.000 description 3
- 238000004364 calculation method Methods 0.000 description 2
- 230000008859 change Effects 0.000 description 2
- 238000004590 computer program Methods 0.000 description 2
- 238000011161 development Methods 0.000 description 2
- 230000002708 enhancing effect Effects 0.000 description 2
- 230000007704 transition Effects 0.000 description 2
- 238000013459 approach Methods 0.000 description 1
- 239000003795 chemical substances by application Substances 0.000 description 1
- 238000004891 communication Methods 0.000 description 1
- 238000000151 deposition Methods 0.000 description 1
- 238000013461 design Methods 0.000 description 1
- 230000003993 interaction Effects 0.000 description 1
- 230000035800 maturation Effects 0.000 description 1
- 230000007246 mechanism Effects 0.000 description 1
- 238000003032 molecular docking Methods 0.000 description 1
- 238000012856 packing Methods 0.000 description 1
Landscapes
- Telephone Function (AREA)
- Cable Transmission Systems, Equalization Of Radio And Reduction Of Echo (AREA)
Abstract
本发明实施例提供一种回声抑制方法和装置,以统一的方法对复杂网络环境下的回声进行抑制。所述方法包括:确定当前网络传输模式,对远端信号和近端信号进行与所述当前网络传输模式相应的回声检测;根据所述回声检测的检测结果,启动与所述当前网络传输模式相应的回声抑制模式对所述近端信号中的回声进行抑制。本发明实施例提供的方法能够适应多样化的网络环境中,不必因为网络传输模式的变化而不断地增加新的处理过程,例如,增加编解码过程等等,从而节省了资源,可以提高网络传输性能。
Description
技术领域
本发明涉及移动通信领域,尤其涉及一种回声抑制方法和装置。
背景技术
为了充分利用珍贵的无线带宽资源,移动通信系统通过语音编解码技术进行语音压缩。例如,全球移动通讯系统(Global System of Mobile communication,GSM)网络中广泛应用自适应多速率(Adaptive Multi-Rate,AMR)压缩语音编码,码分多址(Code Division Multiple Access,CDMA)网络中广泛应用增强型变速率编码(Enhanced Variable Rate Coding,EVRC)等等。在传统网络中,核心网电路域基于时分复用(Time-Division Multiplexing,TDM)承载方式,采用64kbps的脉码调制(Pulse Code Modulation,PCM)录音进行语音编码;传输中需要将AMR、EVRC编码转换为G.711编码,语音转码器(TransCoder,TC)是完成这一编码转换的重要功能模块或器件。然而,TC进行的语音转码容易降低话音质量,尤其是对于移动用户之间的呼叫,网络需要进行两次语音转码,语音质量可能因此而更差。
随着网络技术的发展,现有移动通信系统出现了通过无码型变换操作(Transcoder Free Operation,TrFO)模式实现AMR话音的透传,以减少语音转码造成的话音质量损伤并节省传输带宽。而在实际应用中,为了实现与现有TDM承载方式的核心网的对接,又出现了通过串联自由操作(Tandem FreeOperation,TFO)模式减少语音转码的次数,以提高话音质量。因此,现有网络中就出现了TDM、TFO以及TrFO模式并存的复杂网络现状。
通信技术的发展促进了视频会议和电话会议这一新业务的兴起,视频会议或电话会议场合中提供了免提功能。在会议室,从远方传送来的信号(即远端信号)通过电话的扬声器播放出来,声波被墙壁、地板和天花板等反射,这些反射波和直达波都会被电话的传声器拾取,作为近端信的一部分号发送至远端,形成回声;另外,从手机听筒泄露的声音也会被电话的传声器拾取,作为近端信号的一部分发送给远端,也会形成回声。这些回声具有一定的延迟,当延迟超过50毫秒并且没有衰减或只有很小衰减时,远端的用户就会感觉到清晰的回声。由于这种回声是通过声学途径产生的,因此被称为声学回声(Acoustic Echo)。
传统网络中,声学回声抑制功能一般配置在TC中。这种抑制声学回声的机制在于,先将经过压缩编码的语音信号解码为PCM信号,通过时域(TimeDomain)的回声抑制算法来实现对回声的抑制,再将抑制后的信号重新编码后打包传输。
在使用TrFO协议的网络中,是采用编码域(Coded Domain)的回声抑制算法,通过直接改变压缩编码码流(即经过压缩编码的语音信号)中的数据实现对回声的抑制。与传统网络中时域的回声抑制算法相比,采用编码域的回声抑制算法无需解码到PCM信号再重新编码。
由于网络环境多样化,导致声学回声抑制在网络配置中存在一定的问题。例如,传统网络中已配置TC,并配置有适用于时域的回声抑制模块;待网络升级支持TrFO以后,又单独配置了适用于编码域的回声抑制模块;使用TFO协议传输时,则需要同时调用时域以及编码域的回声抑制模块,消耗资源,影响传输。另外,由于编码域回声抑制技术还不够成熟,编码域回声抑制技术无法达到与时域回声抑制技术相当的质量,会造成用户感受不一致的问题。
换言之,在多样化的网络环境中,一种声学回声抑制方法只适用于一种网络传输模式,如果应用至其他网络传输模式,需要增加新的处理过程,造成资源浪费。例如,传统网络中配置的时域的回声抑制模块只适用于TDM模式,如果直接使用到TrFO模式,就需要将修改后的近端PCM信号重新编码,增加了一次编码过程,造成资源浪费;又如,配置了适用于编码域的回声抑制模块只适用于TrFO模式,如果直接使用到TDM模式配备TC单元传输,就需要将修改后的近端码流再解码到PCM域,增加了一次解码过程,也会造成资源浪费。
发明内容
本发明实施例提供一种回声抑制方法和装置,以统一的方法对复杂网络环境下的回声进行抑制。
本发明实施例提供一种回声抑制方法,包括:确定当前网络传输模式,对远端信号和近端信号进行与所述当前网络传输模式相应的回声检测;
根据所述回声检测的检测结果,启动与所述当前网络传输模式相应的回声抑制模式对所述近端信号中的回声进行抑制。
本发明实施例提供一种对远端信号和近端信号进行与当前网络传输模式相应的回声检测方法,包括:获取所述远端信号和近端信号的时域信息,所述时域信息包括近端说话人时域长时平均能量;
获取所述远端信号和近端信号的频域信息,所述频域信息包括近端说话人频域长时平均能量;
根据所述获取的时域信息和频域信息,对所述远端信号和近端信号进行时频结合回声检测。
本发明实施例提供一种回声抑制装置,包括:回声检测模块,用于确定当前网络传输模式,对远端信号和近端信号进行与所述当前网络传输模式相应的回声检测;
回声抑制启动模块,用于根据所述回声检测的检测结果,启动与所述当前网络传输模式相应的回声抑制模块对所述近端信号中的回声进行抑制。
本发明实施例提供一种回声检测装置,包括:时域信息获取模块,用于获取所述远端信号和近端信号的时域信息,所述时域信息包括近端说话人时域长时平均能量;
频域信息获取模块,用于获取所述远端信号和近端信号的频域信息,所述频域信息包括近端说话人频域长时平均能量;
时频结合回声检测模块,用于根据所述获取的时域信息和频域信息,对所述远端信号和近端信号进行时频结合回声检测。
从上述本发明实施例可知,由于本发明提供的方法是根据当前网络传输模式进行与所述当前网络传输模式相应的回声检测,然后根据所述回声检测的检测结果,启动与所述当前网络传输模式相应的回声抑制模块对所述近端信号中的回声进行抑制。因此,本发明实施例提供的方法能够适应多样化的网络环境中,不必因为网络传输模式的变化而不断地增加新的处理过程(例如,增加编解码过程等等),从而节省了资源,可以提高网络传输性能。
附图说明
为了更清楚地说明本发明实施例的技术方案,下面将对现有技术或实施例描述中所需要使用的附图作简单地介绍,显而易见地,下面描述中的附图仅仅是本发明的一些实施例,对于本领域普通技术人员来讲,在不付出创造性劳动性的前提下,还可以如这些附图获得其他的附图。
图1-1是本发明实施例提供的一种回声抑制方法流程示意图;
图1-2是本发明实施例提供的一种对远端信号和近端信号进行与当前网络传输模式相应的回声检测方法流程示意图;
图2是本发明实施例提供的回声抑制装置逻辑结构示意图;
图3是本发明另一实施例提供的回声抑制装置逻辑结构示意图;
图4是本发明另一实施例提供的回声抑制装置逻辑结构示意图;
图5是本发明另一实施例提供的回声抑制装置逻辑结构示意图;
图6-1是本发明另一实施例提供的回声抑制装置逻辑结构示意图;
图6-2是本发明另一实施例提供的回声抑制装置逻辑结构示意图;
图7是本发明另一实施例提供的回声抑制装置逻辑结构示意图;
图8是本发明另一实施例提供的回声抑制装置逻辑结构示意图;
图9是本发明另一实施例提供的回声抑制装置逻辑结构示意图;
图10是本发明另一实施例提供的回声抑制装置逻辑结构示意图;
图11是本发明另一实施例提供的回声抑制装置逻辑结构示意图;
图12是本发明另一实施例提供的回声抑制装置逻辑结构示意图;
图13是本发明另一实施例提供的回声抑制装置逻辑结构示意图;
图14是本发明实施例提供的回声检测装置逻辑结构示意图;
图15是本发明另一实施例提供的回声检测装置逻辑结构示意图;
图16是本发明另一实施例提供的回声检测装置逻辑结构示意图;
图17-1是本发明另一实施例提供的回声检测装置逻辑结构示意图;
图17-2是本发明另一实施例提供的回声抑制装置逻辑结构示意图;
图18是本发明另一实施例提供的回声检测装置逻辑结构示意图;
图19是本发明另一实施例提供的回声检测装置逻辑结构示意图;
图20是本发明另一实施例提供的回声检测装置逻辑结构示意图;
图21是本发明另一实施例提供的回声检测装置逻辑结构示意图。
具体实施方式
下面将结合本发明实施例中的附图,对本发明实施例中的技术方案进行清楚、完整地描述,显然,所描述的实施例仅仅是本发明一部分实施例,而不是全部的实施例。基于本发明中的实施例,本领域普通技术人员在没有做出创造性劳动前提下所获得的所有其他实施例,都属于本发明保护的范围。
请参阅附图1-1,是本发明实施例提供的一种回声抑制方法流程示意图,主要包括步骤:
S101,确定当前网络传输模式,对远端信号和近端信号进行与所述当前网络传输模式相应的回声检测。
此处所述的网络传输模式包括时分复用模式、无码型变换操作模式和串联自由操作模式等。在本发明实施例中,将适用于不同网络传输模式的回声检测方法整合在一个回声检测功能模块(为行文方便,以下简称“统一回声检测模块”)中,统一回声检测模块和一些具有回声抑制功能的子模块一起,实现统一的回声抑制。为了实现本发明实施例提供的多模式回声抑制方法,可以事先对统一的回声抑制进行配置,即,输入与网络传输模式相应的工作模式参数,并根据工作模式参数设置子模块的调用路径。配置统一的回声抑制的工作模式,可以指示所述统一的回声抑制在实现过程中调用了哪些子模块而构成一套完整的流程。由于子模块的调用路径是根据工作模式参数设置,因此,在用户输入工作模式参数后,实施本发明实施例提供的方法的执行主体将根据这些工作模式参数,确定当前网络传输模式(时分复用模式、无码型变换操作模式或串联自由操作模式),从而对远端信号和近端信号进行与所述当前网络传输模式相应的回声检测。
S102,根据对远端信号和近端信号进行与当前网络传输模式相应的回声检测的检测结果,启动与所述当前网络传输模式相应的回声抑制模块对所述近端信号中的回声进行抑制。
在本发明实施例中,若对远端信号和近端信号进行与当前网络传输模式相应的回声检测的检测结果为近端信号包含回声,则启动与所述当前网络传输模式相应的回声抑制模块对所述近端信号中的回声进行抑制可以是调用与所述当前网络传输模式相应的回声抑制模块,产生舒适噪声,将这些舒适噪声与近端PCM信号混合作为进行了回声抑制的近端PCM信号,或者,获取产生所述舒适噪声所需的参数并进行量化编码,将产生舒适噪声所需参数的编码所得作为进行了回声抑制的近端码流,或者,将上述两种方法结合而得到抑制了回声的近端信号。
从上述本发明实施例可知,由于本发明提供的方法是根据当前网络传输模式进行与所述当前网络传输模式相应的回声检测,然后根据所述回声检测的检测结果,启动与所述当前网络传输模式相应的回声抑制模块对所述近端信号中的回声进行抑制。因此,本发明实施例提供的方法能够适应多样化的网络环境中,不必因为网络传输模式的变化而不断地增加新的处理过程(例如,增加编解码过程等等),从而节省了资源,可以提高网络传输性能。
在本发明实施例中,对远端信号和近端信号进行与当前网络传输模式相应的回声检测可以是时域和频域相结合的回声检测方法,即,获取远端信号和近端信号的时域信息,获取远端信号和近端信号的频域信息,然后,根据所述获取的时域信息和频域信息,对所述远端信号和近端信号进行时频结合回声检测。此处所述的时域信息至少包括近端说话人时域长时平均能量,例如,还可以包括远端信号和近端信号的时域能量等,频域信息至少包括近端说话人频域长时平均能量,例如,还可以包括频域子带能量等。在本发明实施例中,所谓近端说话人时域长时平均能量是指在一个预先设定的时间内近端说话人的时域能量的平均值,所谓近端说话人频域长时平均能量是指在一个预先设定的时间内近端说话人的频域能量的平均值,其中,预先设定的时间可以根据需要设定,也可以是一些经验值,本发明对此不做特别限制。
在本发明一个实施例中,频域信息的获取可以是对当前帧远端信号和近端信号进行快速傅里叶变换(FFT,Fast Fourier Transform),根据FFT变换结果分别计算远端信号和近端信号的幅度谱,并计算频域子带能量(包括远端频域子带能量和近端频域子带能量),以此更新子带能量缓存中缓存的远端频域子带能量和近端频域子带能量,而近端说话人频域长时平均能量即是由近端频域子带能量计算得到,其一种计算方法,例如,可以是:假设更新后的近端说话人频域长时平均能量为AVE_ENER(n),更新前的近端说话人频域长时平均能量为AVE_ENER(n-1),当前帧近端说话人的频域子带能量为ENER(n),长时平均能量更新因子为B,则AVE_ENER(n)=B×ENER(n)+(1-B)×AVE_ENER(n-1)。
在本发明另一个实施例中,时域信息的获取可以是先计算远端信号和近端信号的时域能量,使用计算所得远端信号和近端信号的时域能量分别更新远端信号和近端信号时域包络缓存中缓存的之前帧远端信号和近端信号的时域能量,再对时域能量包络缓存中的远端信号和近端信号的时域能量进行平滑处理,得到平滑后的当前帧远端信号的时域能量和当前帧近端信号的时域能量,最后,使用经过平滑所得当前帧远端信号的时域能量和近端信号的时域能量更新时域能量包络缓存。以下针对网络传输模式为时分复用模式、串联自由操作模式和无码型变换操作模式,分别进行详细说明。
在对远端信号和近端信号进行与当前网络传输模式相应的回声检测方法中,若当前网络传输模式为时分复用模式,则所述远端信号包括远端脉码调制(Pulse Code Modulation,PCM)信号,所述近端信号包括近端脉码调制(PulseCode Modulation,PCM)信号,此时,获取所述远端信号和近端信号的时域信息包括以下步骤S1至步骤S4:
S1,对当前帧远端PCM信号和近端PCM信号进行与时分复用模式相符的语音激活检测,以获取所述当前帧远端PCM信号和近端PCM信号的语音激活检测结果。具体地,以当前帧接收到的远端PCM信号和近端PCM信号,分别更新之前缓存的远端PCM信号和近端PCM信号,对当前帧远端PCM信号和近端PCM信号进行快速傅里叶变换(FFT,Fast Fourier Transform),根据FFT变换结果,使用时分复用模式下的语音激活检测算法,对当前帧远端PCM信号和近端PCM信号进行语音激活检测,得到当前帧远端PCM信号和近端PCM信号的语音激活检测结果。具体的语音激活检测算法可以是基于子带信噪比和的语音激活检测算法等,本发明实施例对语音激活检测算法不做限制;
S2,计算当前帧远端PCM信号和近端PCM信号的时域能量并对所述时域能量进行平滑处理,得到平滑处理后的当前帧远端PCM信号的时域能量和平滑处理后的当前帧近端PCM信号的时域能量;
具体地,可以先计算远端PCM信号和近端PCM信号的时域能量,使用计算所得远端PCM信号和近端PCM信号的时域能量分别更新远端PCM信号和近端PCM信号时域包络缓存中缓存的之前帧远端PCM信号和近端PCM信号的时域能量,再对时域能量包络缓存中的远端PCM信号和近端PCM信号的时域能量进行平滑处理,得到平滑后的当前帧远端PCM信号的时域能量和当前帧近端PCM信号的时域能量,最后,使用经过平滑处理所得平滑处理后的当前帧远端PCM信号的时域能量和平滑处理后的近端PCM信号的时域能量更新时域能量包络缓存;
如前所述,由于对远端信号和近端信号进行与当前网络传输模式相应的回声检测包括配置统一的回声抑制的工作模式这一过程,在配置过程中,可以对回声检测算法中的可配置参数进行设置,包括一些可变长度或增益因子以及阈值等参数,例如,平滑长度、长时平均能量更新因子的大小以及频域回声检测初始域值等等。因此,对于对时域包络缓存中的远端PCM信号和近端PCM信号的时域能量进行平滑处理,例如,可以使用平滑长度对时域包络缓存中的远端PCM信号和近端PCM信号的时域能量进行平滑处理。
S3,由经过平滑处理后得到的当前帧远端PCM信号的时域能量和近端PCM信号的时域能量,计算平滑处理后的时域能量的时域能量包络相关性;
在步骤S3中,也可以是计算平滑处理后的时域能量的时域能量包络距离。
S4,根据前述步骤S1中进行语音激活检测所得检测结果、步骤S2中所得平滑后的近端时域能量以及步骤S3中所得时域能量包络相关性或时域能量包络距离获取近端说话人时域长时平均能量。
例如,由时域能量包络相关性与预先设定的门限进行比较,当时域能量包络相关性的最大值不大于预先设定的门限,则根据长时平均能量更新因子、平滑后的近端时域能量以及更新前的近端说话人时域长时平均能量获取更新后的近端说话人时域长时平均能量。具体地,设长时平均能量更新因子为A,平滑后的近端时域能量为ENER(n),更新前的近端说话人时域长时平均能量为AVE_ENER(n-1),则更新后的近端说话人时域长时平均能量AVE_ENER(n)=(1-A)×ENER(n)+A×AVE_ENER(n-1)。
也可以是由时域能量包络距离与预先设定的门限进行比较,当时域能量包络距离的最小值大于预先设定的门限,则可用上述方法获取更新后的近端说话人时域长时平均能量。
为了能够精确或快速检测出近端PCM信号中是否包含回声,在本发明实施例中,可以对远端PCM信号和近端PCM信号进行多级检测,例如,进行两级回声检测;若第一级回声检测就检测出近端PCM信号中不包含回声,则可以判断近端PCM信号中不包含回声,以达到快速检测出近端PCM信号中不包含回声的目的,否则,进行第二级回声检测,若第二级回声检测检测出近端PCM信号中包含回声,则可以判断近端PCM信号中包含回声,以达到精确检测出近端PCM信号中包含回声的目的。
作为本发明一个实施例,在对远端信号和近端信号进行时频结合回声检测之前,可以根据获取的时域信息对所述远端信号和近端信号进行回声初步检测,以此作为对远端信号合近端信号进行的两级回声检测中的第一级回声检测,由回声初步检测的检测结果和时频结合回声检测的检测结果确定当前近端信号中是否包含回声。根据获取的时域信息对远端信号和近端信号进行回声初步检测包括:对当前帧近端PCM信号的时域能量进行静音检测,得到静音检测结果;统计当前帧远端PCM信号的长时语音激活检测结果,此处所述当前帧远端PCM信号的长时语音激活检测结果即当前帧和当前帧之前一段预设时间的远端PCM信号的语音激活检测的检测结果。在得到语音激活检测的检测结果后,便可以初步判断近端PCM信号中是否包含回声。具体地,若所述当前帧之前一段预设时间内没有检测到远端PCM信号中有语音段或者所述近端PCM信号为静音,则回声初步检测的结果为当前近端PCM信号中没有回声,否则回声初步检测的结果为当前近端PCM信号中可能包含回声。
若当前网络传输模式为串联自由操作模式,则在对远端信号和近端信号进行与当前网络传输模式相应的回声检测方法中,所述远端信号包括远端PCM信号,所述近端信号包括近端PCM信号及近端输入码流,其获取远端信号和近端信号的时域信息过程与前述当前网络传输模式为时分复用模式时的过程相类似,例如,对回声检测算法中的可配置参数(平滑长度、长时平均能量更新因子的大小以及频域回声检测初始域值等等)进行设置、使用与串联自由操作模式相符的语音激活检测算法对当前帧远端PCM信号和近端PCM信号进行与串联自由操作模式相符的语音激活检测以及使用平滑长度对时域包络缓存中的远端PCM信号和近端PCM信号的时域能量进行平滑处理等;其回声初步检测也与前述当前网络传输模式为时分复用模式时的过程相类似,此处不做赘述。
在本发明另一实施例中,若当前网络传输模式为无码型变换操作模式,则在对远端信号和近端信号进行与当前网络传输模式相应的回声检测方法中,所述远端信号和近端信号分别为远端输入码流和近端输入码流,所述获取所述远端信号和近端信号的时域信息包括步骤S’1至步骤S’5:
S’1,对远端输入码流和近端输入码流分别进行部分解码,得到当前帧远端部分解码信号和近端部分解码信号;
需要说明的是,在本实施例中,对远端输入码流和近端输入码流分别进行的部分解码,可以只解码到合成信号域而不进行信号增强后处理,也可以只解到激励信号域。所谓合成信号域是指激励信号经过线性预测系数对应产生的合成滤波器以后的合成信号,而激励信号域是指自适应码激励与自适应增益的乘积加上固定码激励乘以固定增益(又可称为自适应码激励与自适应增益的乘积加上代数码激励乘以代数码书增益)后得到的激励信号。
S’2,对当前帧远端部分解码信号和近端部分解码信号进行与无码型变换操作模式相符的语音激活检测,以获取当前帧远端部分解码信号和近端部分解码信号的语音激活检测结果。具体地,以当前帧远端部分解码信号和近端部分解码信号,分别更新之前缓存的远端PCM信号和近端PCM信号,对当前帧远端部分解码信号和近端部分解码信号进行FFT,根据FFT变换结果,使用无码型变换操作模式下的语音激活检测算法,对当前帧远端部分解码信号和近端部分解码信号进行语音激活检测,得到当前帧远端部分解码信号和近端部分解码信号的语音激活检测结果,其与时分复用模式下的语音激活检测算法不同之处在于无码型变换操作模式下的语音激活检测算法的噪声更新过程中增加了噪声本底的限定,避免小能量噪声信号的能量波动带来的误识别。具体的语音激活检测算法可以是基于子带信噪比和的语音激活检测算法等,本发明实施例对语音激活检测算法不做限制;
S’3,计算当前帧远端部分解码信号和近端部分解码信号的时域能量并对所述时域能量进行平滑处理,得到平滑后的当前帧远端部分解码信号的时域能量和当前帧近端部分解码信号的时域能量。具体地,可以先计算当前帧远端部分解码信号和近端部分解码信号的时域能量,使用计算所得当前帧远端部分解码信号和近端部分解码信号的时域能量分别更新时域能量包络缓存中缓存的之前帧当前帧远端部分解码信号和近端部分解码信号的时域能量,再对当前帧远端部分解码信号和近端部分解码信号的时域能量进行平滑处理,得到平滑后的当前帧远端部分解码信号和近端部分解码信号的时域能量,最后,使用经过平滑所得当前帧远端部分解码信号和近端部分解码信号的时域能量更新时域能量包络缓存;
S’4,由经过平滑处理后得到的当前帧远端部分解码信号和近端部分解码信号的时域能量,计算平滑处理后的时域能量的时域能量包络相关性或时域能量包络距离;
S’5,根据步骤S’2中进行语音激活检测所得检测结果、步骤S’3中所得平滑后的近端时域能量以及步骤S’4中所得时域能量包络相关性或时域能量包络距离获取近端说话人长时平均能量。具体方法同步骤S5,这里不再赘述。
为了能够精确或快速检测出近端输入码流中是否包含回声,在本实施例中,可以对远端输入码流和近端输入码流进行多级回声检测,例如,进行两级回声检测;若第一级回声检测就检测出近端输入码流中不包含回声,则可以判断近端输入码流中不包含回声,以达到快速检测出近端输入码流中不包含回声的目的,否则,进行第二级回声检测,若第二级回声检测检测出近端输入码流中包含回声,则可以判断近端输入码流中包含回声,以达到精确检测出近端输入码流中包含回声的目的。
作为本发明一个实施例,在对远端输入码流和近端输入码流进行时频结合回声检测之前,可以根据获取的时域信息和频域信息对所述远端输入码流和近端输入码流进行回声初步检测,以此作为对远端输入码流和近端输入码流进行的两级回声检测中的第一级回声检测,包括:对当前帧近端部分解码信号的时域能量进行静音检测,得到静音检测结果;统计当前帧远端输入码流的长时语音激活检测结果,此处所述当前帧远端输入码流的长时语音激活检测结果即当前帧和当前帧之前一段预设时间的远端输入码流的语音激活检测的检测结果。在得到语音激活检测的检测结果后,便可以初步判断近端输入码流中是否包含回声。具体地,若所述当前帧之前一段预设时间内没有检测到远端输入码流中存在语音段或者所述静音检测结果为近端部分解码信号是静音,则回声初步检测的结果为当前近端输入码流中没有回声,否则,回声初步检测的结果为当前近端输入码流中可能包含回声。
在本发明实施例中,作为对远端信号和近端信号进行的两级回声检测中的第二级回声检测,时频结合回声检测可以通过以下几种方式进行。
方式一包括步骤:
S11,根据近端说话人时域长时平均能量调整频域回声检测判决门限,得到调整后的频域回声检测判决门限;
具体地,使用前述实施例中得到的近端说话人时域长时平均能量乘以预先设定的频域回声检测判决门限,得到的判决门限就是调整后的频域回声检测判决门限。
S12,计算频域子带能量的最大相关值或最小距离;
具体地,根据前述实施例得到的近端频域子带能量以及子带能量缓存中缓存的一段时期内远端频域子带能量,计算频域子带能量的相关性,然后,在设定的时延检测范围内对不同时延对应的频域子带能量的相关性进行搜索,找到频域子带能量的相关性最大时对应的延时,同时得到频域子带能量的最大相关值;或者,根据前述实施例得到的近端频域子带能量以及子带能量缓存中缓存的一段时期内远端频域子带能量,计算频域子带能量的距离,然后,在设定的时延检测范围内对不同时延对应的频域子带能量的距离进行搜索,找到频域子带能量的距离最小时对应的延时,同时得到频域子带能量的最小距离。为了进一步提高检测精度可以进行帧间内插操作,以获得更高精度的延时的分辨率。
S13,将频域子带能量的最大相关值或频域子带能量的最小距离与调整后的频域回声检测判决门限比较;
若频域子带能量的最大相关值不大于所述调整后的频域回声检测判决门限,则所述时频结合回声检测的结果为当前近端信号中没有回声,否则,所述时频结合回声检测的结果为当前近端信号中包含回声;或者,若频域子带能量的最小距离大于所述调整后的频域回声检测判决门限,则所述时频结合回声检测的结果为当前近端信号中没有回声,否则,所述时频结合回声检测的结果为当前近端信号中包含回声;
最后,由所述回声初步检测的检测结果和所述时频结合回声检测的检测结果进行综合判断当前近端信号中是否包含回声,即,若回声初步检测的结果和时频结合回声检测的结果均为当前近端信号中包含回声,则所述对远端信号和近端信号进行与当前网络传输模式相应的回声检测的检测结果为当前近端信号中包含回声。
方式二包括步骤:
S21,根据近端说话人频域长时平均能量调整时域回声检测判决门限,得到调整后的时域回声检测判决门限;
具体地,可以根据前述实施例得到的近端说话人频域长时平均能量自适应地调整时域回声检测的判决门限,得到调整后的时域回声检测判决门限。
S22,由缓存的远端时域能量和近端时域能量计算时域相关性或时域距离;
具体地,根据前述实施例时域能量包络缓存中近端信号的时域能量与缓存的一段时期内远端信号的时域能量计算时域相关性或时域距离。
S23,将时域相关性的最大相关值或时域距离的最小距离值与调整后的时域回声检测判决门限比较;
若所述时域相关性的最大相关值不大于所述调整后的时域回声检测判决门限或者所述时域距离的最小值大于所述调整后的时域回声检测判决门限,则所述时频结合回声检测的结果为当前近端信号中没有回声,否则,所述时频结合回声检测的结果为当前近端信号中包含回声。
最后,由所述回声初步检测的检测结果和所述时频结合回声检测的检测结果进行综合判断当前近端信号中是否包含回声,即,若所述回声初步检测的结果和所述时频结合回声检测的结果均为包含回声,则所述对远端信号和近端信号进行与所述当前网络传输模式相应的回声检测的检测结果为当前近端信号中包含回声。
方式三包括步骤:
S31,根据近端说话人时域长时平均能量对频域相关性或频域距离进行加权计算,得到加权的频域相关性或加权的频域距离;
具体地,将前述实施例得到的近端说话人时域长时平均能量乘以计算出的原始频域相关性,得到加权的频域相关性;或者,将前述实施例得到的近端说话人时域长时平均能量乘以计算出的原始频域距离,得到加权的频域距离。
S32,将加权的频域相关性或加权的频域距离与预设的频域相关性检测阈值进行比较;
若所述加权的频域相关性的最大值不大于预设的频域相关性检测阈值,则所述时频结合回声检测的结果为当前近端信号中没有回声,否则,所述时频结合回声检测的结果为当前近端信号中包含回声;或者,将加权的频域距离与预设的频域距离检测阈值进行比较,若所述加权的频域距离的最小值大于预设的频域距离检测阈值,则所述时频结合回声检测的结果为当前近端信号中没有回声,否则,所述时频结合回声检测的结果为当前近端信号中包含回声。
最后,由所述回声初步检测的检测结果和所述时频结合回声检测的检测结果进行综合判断当前近端信号中是否包含回声,即,若所述回声初步检测的结果和所述时频结合回声检测的结果均为包含回声,则所述对远端信号和近端信号进行与所述当前网络传输模式相应的回声检测的检测结果为当前近端信号中包含回声。
方式四包括步骤:
S41,根据近端说话人频域长时平均能量对时域相关性或时域距离进行加权计算,得到加权的时域相关性或加权的时域距离;
具体地,将前述实施例得到的近端说话人频域长时平均能量乘以计算出的原始时域相关性,得到加权的时域相关性;或者,将前述实施例得到的近端说话人频域长时平均能量乘以计算出的原始时域距离,得到加权的时域距离。
S42,将加权的时域相关性或加权的时域距离与预设的时域相关性检测阈值进行比较;
若所述加权的时域相关性的最大值不大于预设的时域相关性检测阈值,则所述时频结合回声检测的结果为当前近端信号中没有回声,否则,所述时频结合回声检测的结果为当前近端信号中包含回声;或者,将加权的时域距离与预设的时域距离检测阈值进行比较,若所述加权的时域距离的最小值大于预设的时域距离检测阈值,则所述时频结合回声检测的结果为当前近端信号中没有回声,否则,所述时频结合回声检测的结果为当前近端信号中包含回声。
最后,由所述回声初步检测的检测结果和所述时频结合回声检测的检测结果进行综合判断当前近端信号中是否包含回声,即,若所述回声初步检测的结果和所述时频结合回声检测的结果均为包含回声,则所述对远端信号和近端信号进行与所述当前网络传输模式相应的回声检测的检测结果为当前近端信号中包含回声。
若对远端信号和近端信号进行与当前网络传输模式相应的回声检测的检测结果为当前近端信号中包含回声,控制与所述当前网络传输模式相应的回声抑制模块对所述近端信号中的回声进行抑制,以下根据网络传输模式(时分复用模式、无码型变换操作模式或串联自由操作模式)的不同,分别进行详细说明。
上述三种网络传输模式下的时频结合回声检测,即,结合时域包络相关性和频域相关性的回声检测算法可以进一步提升回声检测的准确性,实践证明,其回声检测准确率均可以达到80%左右。
请参阅附图1-2,本发明实施例提供的对远端信号和近端信号进行与当前网络传输模式相应的回声检测方法流程示意图,包括步骤:
S’101,获取所述远端信号和近端信号的时域信息,所述时域信息包括近端说话人时域长时平均能量。
此处所述的时域信息至少包括近端说话人时域长时平均能量,例如,还可以包括远端信号和近端信号的时域能量等,频域信息至少包括近端说话人频域长时平均能量,例如,还可以包括频域子带能量等。
在本发明一个实施例中,时域信息的获取可以是先计算远端信号和近端信号的时域能量,使用计算所得远端信号和近端信号的时域能量分别更新远端信号和近端信号时域包络缓存中缓存的之前帧远端信号和近端信号的时域能量,再对时域能量包络缓存中的远端信号和近端信号的时域能量进行平滑处理,得到平滑后的当前帧远端信号的时域能量和当前帧近端信号的时域能量,最后,使用经过平滑所得当前帧远端信号的时域能量和近端信号的时域能量更新时域能量包络缓存。以下针对网络传输模式为时分复用模式、串联自由操作模式和无码型变换操作模式,分别进行详细说明。
在对远端信号和近端信号进行与当前网络传输模式相应的回声检测方法中,若当前网络传输模式为时分复用模式,则所述远端信号包括远端脉码调制(Pulse Code Modulation,PCM)信号,所述近端信号包括近端脉码调制(PulseCode Modulation,PCM)信号,此时,获取所述远端信号和近端信号的时域信息包括以下步骤S1至步骤S4:
S1,对当前帧远端PCM信号和近端PCM信号进行与时分复用模式相符的语音激活检测,以获取所述当前帧远端PCM信号和近端PCM信号的语音激活检测结果。具体地,以当前帧接收到的远端PCM信号和近端PCM信号,分别更新之前缓存的远端PCM信号和近端PCM信号,对当前帧远端PCM信号和近端PCM信号进行快速傅里叶变换(FFT,Fast Fourier Transform),根据FFT变换结果,使用时分复用模式下的语音激活检测算法,对当前帧远端PCM信号和近端PCM信号进行语音激活检测,得到当前帧远端PCM信号和近端PCM信号的语音激活检测结果。具体的语音激活检测算法可以是基于子带信噪比和的语音激活检测算法等,本发明实施例对语音激活检测算法不做限制;
S2,计算当前帧远端PCM信号和近端PCM信号的时域能量并对所述时域能量进行平滑处理,得到平滑处理后的当前帧远端PCM信号的时域能量和平滑处理后的当前帧近端PCM信号的时域能量;
具体地,可以先计算远端PCM信号和近端PCM信号的时域能量,使用计算所得远端PCM信号和近端PCM信号的时域能量分别更新远端PCM信号和近端PCM信号时域包络缓存中缓存的之前帧远端PCM信号和近端PCM信号的时域能量,再对时域能量包络缓存中的远端PCM信号和近端PCM信号的时域能量进行平滑处理,得到平滑后的当前帧远端PCM信号的时域能量和当前帧近端PCM信号的时域能量,最后,使用经过平滑处理所得平滑处理后的当前帧远端PCM信号的时域能量和平滑处理后的近端PCM信号的时域能量更新时域能量包络缓存;
如前所述,由于对远端信号和近端信号进行与当前网络传输模式相应的回声检测包括配置统一的回声抑制的工作模式这一过程,在配置过程中,可以对回声检测算法中的可配置参数进行设置,包括一些可变长度或增益因子以及阈值等参数,例如,平滑长度、长时平均能量更新因子的大小以及频域回声检测初始域值等等。因此,对于对时域包络缓存中的远端PCM信号和近端PCM信号的时域能量进行平滑处理,例如,可以使用平滑长度对时域包络缓存中的远端PCM信号和近端PCM信号的时域能量进行平滑处理。
S3,由经过平滑处理后得到的当前帧远端PCM信号的时域能量和近端PCM信号的时域能量,计算平滑处理后的时域能量的时域能量包络相关性;
在步骤S3中,也可以是计算平滑处理后的时域能量的时域能量包络距离。
S4,根据前述步骤S1中进行语音激活检测所得检测结果、步骤S2中所得平滑后的近端时域能量以及步骤S3中所得时域能量包络相关性或时域能量包络距离获取近端说话人时域长时平均能量。
例如,由时域能量包络相关性与预先设定的门限进行比较,当时域能量包络相关性的最大值不大于预先设定的门限,则根据长时平均能量更新因子、平滑后的近端时域能量以及更新前的近端说话人时域长时平均能量获取更新后的近端说话人时域长时平均能量。具体地,设长时平均能量更新因子为A,平滑后的近端时域能量为ENER(n),更新前的近端说话人时域长时平均能量为AVE_ENER(n-1),则更新后的近端说话人时域长时平均能量AVE_ENER(n)=(1-A)×ENER(n)+A×AVE_ENER(n-1)。
也可以是由时域能量包络距离与预先设定的门限进行比较,当时域能量包络距离的最小值大于预先设定的门限,则可用上述方法获取更新后的近端说话人时域长时平均能量。
为了能够精确或快速检测出近端PCM信号中是否包含回声,在本发明实施例中,可以对远端PCM信号和近端PCM信号进行多级检测,例如,进行两级回声检测;若第一级回声检测就检测出近端PCM信号中不包含回声,则可以判断近端PCM信号中不包含回声,以达到快速检测出近端PCM信号中不包含回声的目的,否则,进行第二级回声检测,若第二级回声检测检测出近端PCM信号中包含回声,则可以判断近端PCM信号中包含回声,以达到精确检测出近端PCM信号中包含回声的目的。
作为本发明一个实施例,在对远端信号和近端信号进行时频结合回声检测之前,可以根据获取的时域信息对所述远端信号和近端信号进行回声初步检测,以此作为对远端信号合近端信号进行的两级回声检测中的第一级回声检测,由回声初步检测的检测结果和时频结合回声检测的检测结果确定当前近端信号中是否包含回声。根据获取的时域信息对远端信号和近端信号进行回声初步检测包括:对当前帧近端PCM信号的时域能量进行静音检测,得到静音检测结果;统计当前帧远端PCM信号的长时语音激活检测结果,此处所述当前帧远端PCM信号的长时语音激活检测结果即当前帧和当前帧之前一段预设时间的远端PCM信号的语音激活检测的检测结果。在得到语音激活检测的检测结果后,便可以初步判断近端PCM信号中是否包含回声。具体地,若所述当前帧之前一段预设时间内没有检测到远端PCM信号中有语音段或者所述近端PCM信号为静音,则回声初步检测的结果为当前近端PCM信号中没有回声,否则回声初步检测的结果为当前近端PCM信号中可能包含回声。
若当前网络传输模式为串联自由操作模式,则在对远端信号和近端信号进行与当前网络传输模式相应的回声检测方法中,所述远端信号包括远端PCM信号,所述近端信号包括近端PCM信号及近端输入码流,其获取远端信号和近端信号的时域信息过程与前述当前网络传输模式为时分复用模式时的过程相类似,例如,对回声检测算法中的可配置参数(平滑长度、长时平均能量更新因子的大小以及频域回声检测初始域值等等)进行设置、使用与串联自由操作模式相符的语音激活检测算法对当前帧远端PCM信号和近端PCM信号进行与串联自由操作模式相符的语音激活检测以及使用平滑长度对时域包络缓存中的远端PCM信号和近端PCM信号的时域能量进行平滑处理等;其回声初步检测也与前述当前网络传输模式为时分复用模式时的过程相类似,此处不做赘述。
在本发明另一实施例中,若当前网络传输模式为无码型变换操作模式,则在对远端信号和近端信号进行与当前网络传输模式相应的回声检测方法中,所述远端信号和近端信号分别为远端输入码流和近端输入码流,所述获取所述远端信号和近端信号的时域信息包括步骤S’1至步骤S’5:
S’1,对远端输入码流和近端输入码流分别进行部分解码,得到当前帧远端部分解码信号和近端部分解码信号;
需要说明的是,在本实施例中,对远端输入码流和近端输入码流分别进行的部分解码,可以只解码到合成信号域而不进行信号增强后处理,也可以只解到激励信号域。所谓合成信号域是指激励信号经过线性预测系数对应产生的合成滤波器以后的合成信号,而激励信号域是指自适应码激励与自适应增益的乘积加上固定码激励乘以固定增益(又可称为自适应码激励与自适应增益的乘积加上代数码激励乘以代数码书增益)后得到的激励信号。
S’2,对当前帧远端部分解码信号和近端部分解码信号进行与无码型变换操作模式相符的语音激活检测,以获取当前帧远端部分解码信号和近端部分解码信号的语音激活检测结果。具体地,以当前帧远端部分解码信号和近端部分解码信号,分别更新之前缓存的远端PCM信号和近端PCM信号,对当前帧远端部分解码信号和近端部分解码信号进行FFT,根据FFT变换结果,使用无码型变换操作模式下的语音激活检测算法,对当前帧远端部分解码信号和近端部分解码信号进行语音激活检测,得到当前帧远端部分解码信号和近端部分解码信号的语音激活检测结果,其与时分复用模式下的语音激活检测算法不同之处在于无码型变换操作模式下的语音激活检测算法的噪声更新过程中增加了噪声本底的限定,避免小能量噪声信号的能量波动带来的误识别。具体的语音激活检测算法可以是基于子带信噪比和的语音激活检测算法等,本发明实施例对语音激活检测算法不做限制;
S’3,计算当前帧远端部分解码信号和近端部分解码信号的时域能量并对所述时域能量进行平滑处理,得到平滑后的当前帧远端部分解码信号的时域能量和当前帧近端部分解码信号的时域能量。具体地,可以先计算当前帧远端部分解码信号和近端部分解码信号的时域能量,使用计算所得当前帧远端部分解码信号和近端部分解码信号的时域能量分别更新时域能量包络缓存中缓存的之前帧当前帧远端部分解码信号和近端部分解码信号的时域能量,再对当前帧远端部分解码信号和近端部分解码信号的时域能量进行平滑处理,得到平滑后的当前帧远端部分解码信号和近端部分解码信号的时域能量,最后,使用经过平滑所得当前帧远端部分解码信号和近端部分解码信号的时域能量更新时域能量包络缓存;
S’4,由经过平滑处理后得到的当前帧远端部分解码信号和近端部分解码信号的时域能量,计算平滑处理后的时域能量的时域能量包络相关性或时域能量包络距离;
S’5,根据步骤S’2中进行语音激活检测所得检测结果、步骤S’3中所得平滑后的近端时域能量以及步骤S’4中所得时域能量包络相关性或时域能量包络距离获取近端说话人长时平均能量。具体方法同步骤S5,这里不再赘述。
为了能够精确或快速检测出近端输入码流中是否包含回声,在本实施例中,可以对远端输入码流和近端输入码流进行多级回声检测,例如,进行两级回声检测;若第一级回声检测就检测出近端输入码流中不包含回声,则可以判断近端输入码流中不包含回声,以达到快速检测出近端输入码流中不包含回声的目的,否则,进行第二级回声检测,若第二级回声检测检测出近端输入码流中包含回声,则可以判断近端输入码流中包含回声,以达到精确检测出近端输入码流中包含回声的目的。
作为本发明一个实施例,在对远端输入码流和近端输入码流进行时频结合回声检测之前,可以根据获取的时域信息和频域信息对所述远端输入码流和近端输入码流进行回声初步检测,以此作为对远端输入码流和近端输入码流进行的两级回声检测中的第一级回声检测,包括:对当前帧近端部分解码信号的时域能量进行静音检测,得到静音检测结果;统计当前帧远端输入码流的长时语音激活检测结果,此处所述当前帧远端输入码流的长时语音激活检测结果即当前帧和当前帧之前一段预设时间的远端输入码流的语音激活检测的检测结果。在得到语音激活检测的检测结果后,便可以初步判断近端输入码流中是否包含回声。具体地,若所述当前帧之前一段预设时间内没有检测到远端输入码流中存在语音段或者所述静音检测结果为近端部分解码信号是静音,则回声初步检测的结果为当前近端输入码流中没有回声,否则,回声初步检测的结果为当前近端输入码流中可能包含回声。
S’102,获取所述远端信号和近端信号的频域信息,所述频域信息包括近端说话人频域长时平均能量。
在本发明一个实施例中,频域信息的获取可以是对当前帧远端信号和近端信号进行快速傅里叶变换(FFT,Fast Fourier Transform),根据FFT变换结果分别计算远端信号和近端信号的幅度谱,并计算频域子带能量(包括远端频域子带能量和近端频域子带能量),以此更新子带能量缓存中缓存的远端频域子带能量和近端频域子带能量,而近端说话人频域长时平均能量即是由近端频域子带能量计算得到,其一种计算方法,例如,可以是:假设更新后的近端说话人频域长时平均能量为AVE_ENER(n),更新前的近端说话人频域长时平均能量为AVE_ENER(n-1),当前帧近端说话人的频域子带能量为ENER(n),长时平均能量更新因子为B,则AVE_ENER(n)=B×ENER(n)+(1-B)×AVE_ENER(n-1)。
S’103,根据所述获取的时域信息和频域信息,对所述远端信号和近端信号进行时频结合回声检测。
在本发明实施例中,作为对远端信号和近端信号进行的两级回声检测中的第二级回声检测,时频结合回声检测可以通过以下几种方式进行。
方式一包括步骤:
S11,根据近端说话人时域长时平均能量调整频域回声检测判决门限,得到调整后的频域回声检测判决门限;
具体地,使用前述实施例中得到的近端说话人时域长时平均能量乘以预先设定的频域回声检测判决门限,得到的判决门限就是调整后的频域回声检测判决门限。
S12,计算频域子带能量的最大相关值或最小距离;
具体地,根据前述实施例得到的近端频域子带能量以及子带能量缓存中缓存的一段时期内远端频域子带能量,计算频域子带能量的相关性,然后,在设定的时延检测范围内对不同时延对应的频域子带能量的相关性进行搜索,找到频域子带能量的相关性最大时对应的延时,同时得到频域子带能量的最大相关值;或者,根据前述实施例得到的近端频域子带能量以及子带能量缓存中缓存的一段时期内远端频域子带能量,计算频域子带能量的距离,然后,在设定的时延检测范围内对不同时延对应的频域子带能量的距离进行搜索,找到频域子带能量的距离最小时对应的延时,同时得到频域子带能量的最小距离。为了进一步提高检测精度可以进行帧间内插操作,以获得更高精度的延时的分辨率。
S13,将频域子带能量的最大相关值或频域子带能量的最小距离与调整后的频域回声检测判决门限比较;
若频域子带能量的最大相关值不大于所述调整后的频域回声检测判决门限,则所述时频结合回声检测的结果为当前近端信号中没有回声,否则,所述时频结合回声检测的结果为当前近端信号中包含回声;或者,若频域子带能量的最小距离大于所述调整后的频域回声检测判决门限,则所述时频结合回声检测的结果为当前近端信号中没有回声,否则,所述时频结合回声检测的结果为当前近端信号中包含回声;
最后,由所述回声初步检测的检测结果和所述时频结合回声检测的检测结果进行综合判断当前近端信号中是否包含回声,即,若回声初步检测的结果和时频结合回声检测的结果均为当前近端信号中包含回声,则所述对远端信号和近端信号进行与当前网络传输模式相应的回声检测的检测结果为当前近端信号中包含回声。
方式二包括步骤:
S21,根据近端说话人频域长时平均能量调整时域回声检测判决门限,得到调整后的时域回声检测判决门限;
具体地,可以根据前述实施例得到的近端说话人频域长时平均能量自适应地调整时域回声检测的判决门限,得到调整后的时域回声检测判决门限。
S22,由缓存的远端时域能量和近端时域能量计算时域相关性或时域距离;
具体地,根据前述实施例时域能量包络缓存中近端信号的时域能量与缓存的一段时期内远端信号的时域能量计算时域相关性或时域距离。
S23,将时域相关性的最大相关值或时域距离的最小距离值与调整后的时域回声检测判决门限比较;
若所述时域相关性的最大相关值不大于所述调整后的时域回声检测判决门限或者所述时域距离的最小值大于所述调整后的时域回声检测判决门限,则所述时频结合回声检测的结果为当前近端信号中没有回声,否则,所述时频结合回声检测的结果为当前近端信号中包含回声。
最后,由所述回声初步检测的检测结果和所述时频结合回声检测的检测结果进行综合判断当前近端信号中是否包含回声,即,若所述回声初步检测的结果和所述时频结合回声检测的结果均为包含回声,则所述对远端信号和近端信号进行与所述当前网络传输模式相应的回声检测的检测结果为当前近端信号中包含回声。
方式三包括步骤:
S31,根据近端说话人时域长时平均能量对频域相关性或频域距离进行加权计算,得到加权的频域相关性或加权的频域距离;
具体地,将前述实施例得到的近端说话人时域长时平均能量乘以计算出的原始频域相关性,得到加权的频域相关性;或者,将前述实施例得到的近端说话人时域长时平均能量乘以计算出的原始频域距离,得到加权的频域距离。
S32,将加权的频域相关性或加权的频域距离与预设的频域相关性检测阈值进行比较;
若所述加权的频域相关性的最大值不大于预设的频域相关性检测阈值,则所述时频结合回声检测的结果为当前近端信号中没有回声,否则,所述时频结合回声检测的结果为当前近端信号中包含回声;或者,将加权的频域距离与预设的频域距离检测阈值进行比较,若所述加权的频域距离的最小值大于预设的频域距离检测阈值,则所述时频结合回声检测的结果为当前近端信号中没有回声,否则,所述时频结合回声检测的结果为当前近端信号中包含回声。
最后,由所述回声初步检测的检测结果和所述时频结合回声检测的检测结果进行综合判断当前近端信号中是否包含回声,即,若所述回声初步检测的结果和所述时频结合回声检测的结果均为包含回声,则所述对远端信号和近端信号进行与所述当前网络传输模式相应的回声检测的检测结果为当前近端信号中包含回声。
方式四包括步骤:
S41,根据近端说话人频域长时平均能量对时域相关性或时域距离进行加权计算,得到加权的时域相关性或加权的时域距离;
具体地,将前述实施例得到的近端说话人频域长时平均能量乘以计算出的原始时域相关性,得到加权的时域相关性;或者,将前述实施例得到的近端说话人频域长时平均能量乘以计算出的原始时域距离,得到加权的时域距离。
S42,将加权的时域相关性或加权的时域距离与预设的时域相关性检测阈值进行比较;
若所述加权的时域相关性的最大值不大于预设的时域相关性检测阈值,则所述时频结合回声检测的结果为当前近端信号中没有回声,否则,所述时频结合回声检测的结果为当前近端信号中包含回声;或者,将加权的时域距离与预设的时域距离检测阈值进行比较,若所述加权的时域距离的最小值大于预设的时域距离检测阈值,则所述时频结合回声检测的结果为当前近端信号中没有回声,否则,所述时频结合回声检测的结果为当前近端信号中包含回声。
最后,由所述回声初步检测的检测结果和所述时频结合回声检测的检测结果进行综合判断当前近端信号中是否包含回声,即,若所述回声初步检测的结果和所述时频结合回声检测的结果均为包含回声,则所述对远端信号和近端信号进行与所述当前网络传输模式相应的回声检测的检测结果为当前近端信号中包含回声。
若对远端信号和近端信号进行与当前网络传输模式相应的回声检测的检测结果为当前近端信号中包含回声,控制与所述当前网络传输模式相应的回声抑制模块对所述近端信号中的回声进行抑制,以下根据网络传输模式(时分复用模式、无码型变换操作模式或串联自由操作模式)的不同,分别进行详细说明。
上述三种网络传输模式下的时频结合回声检测,即,结合时域包络相关性和频域相关性的回声检测算法可以进一步提升回声检测的准确性,实践证明,其回声检测准确率均可以达到80%左右。
网络传输模式为时分复用模式,此时,对近端信号中的回声进行抑制包括如下步骤:
S11,对近端PCM信号进行噪声检测;
S12,若所述近端PCM信号的当前帧是噪声段,则获取噪声信号的最新线性预测系数和长时帧能量;
具体地,首先计算噪声信号的线性预测系数以及帧能量,然后,更新长时线性预测系数以及长时帧能量。例如,可以是将当前帧噪声信号的线性预测系数乘以增益因子α,将更新之前长时线性预测系数乘以增益因子1-α,将线性预测系数与增益因子α的乘积加上更新之前长时线性预测系数与增益因子1-α的乘积,作为最新长时线性预测系数;将近端PCM信号的当前帧的帧能量乘以增益因子β加上长时帧能量乘以增益因子1-β作为最新长时帧能量。
S13,由所述最新线性预测系数和长时帧能量生成舒适噪声;
具体地,生成舒适噪声的方法可以是通过人工产生一段高斯白噪声作为激励信号,然后使用所得最新长时帧能量对产生的高斯白噪声信号进行能量调整,最后,将调整后的高斯白噪声信号经过所得最新长时线性预测系数对应的合成滤波器处理,得到的合成信号即生成的舒适噪声。若近端PCM信号的当前帧不包含回声,则将近端PCM信号作为回声抑制后的近端PCM信号直接输出。
S’13,若所述近端PCM信号的当前帧属于拖尾段,则将所述近端PCM信号和步骤S13中生成舒适噪声混合,以混合后的信号作为进行了回声抑制的近端PCM信号,否则,将舒适噪声作为进行了回声抑制的近端PCM信号。
判断所述近端PCM信号的当前帧是否属于拖尾段,可以通过预先设定的回声检测拖尾段长度获知。若近端PCM信号的当前帧属于拖尾段,则按照一定比例混合原始的近端PCM信号和生成的舒适噪声,例如,原始的近端PCM信号和生成的舒适噪声各占50%,以此比例混合后的信号作为进行了回声抑制的近端PCM信号输出,若近端PCM信号的当前帧不是拖尾段,则直接将生成的舒适噪声作为回声抑制的近端PCM信号输出。
网络传输模式为串联自由操作模式,此时,对近端信号中的回声进行抑制包括如下步骤:
S21,控制线性域回声抑制模块,根据预先设定的拖尾段长度和所述回声检测的检测结果进行判断,如果当前帧处于拖尾段,则混合原始近端PCM信号以及生成的舒适噪声作为拖尾段的输出信号;
在本实施例中,舒适噪声的生成方式以及将其与原始近端PCM信号混合的混合方式,可以参考前述时分复用模式实施例中对近端信号中的回声进行抑制时舒适噪声的生成方式及其与原始的近端PCM信号混合的混合方式。
S22,控制参数域回声抑制模块,根据预先设定的拖尾段长度和所述回声检测的检测结果进行判断,如果当前帧处于拖尾段,则混合原始信号参数以及产生的舒适噪声信号参数,重新量化编码后作为回声抑制后的近端码流,或者,对估计出的舒适噪声帧所需参数进行重新量化和编码,再根据前一个非回声帧的参数以及用于产生舒适噪声帧的参数,调整舒适噪声帧编码后的索引值,得到回声抑制后的近端码流。
网络传输模式为无码型变换操作模式,此时,对近端信号中的回声进行抑制包括如下步骤:
S31,对所述近端部分解码信号进行噪声检测;
S32,若所述近端部分解码信号的当前帧是噪声段,则获取噪声信号的最新长时线谱对系数和长时激励能量;
具体地,首先,解码近端输入码流中的线谱对参数,计算近端码流部分解码模块得到的激励信号的帧能量,然后,将解码得到的当前帧的线谱对系数乘以增益因子α,将长时线谱对系数乘以增益因子1-α,将当前帧的线谱对系数与增益因子α的乘积加上长时线谱对系数与增益因子1-α的乘积,作为噪声信号的最新长时线谱对系数;将当前帧激励信号的帧能量乘以增益因子β,将当前帧激励信号的长时帧能量乘以增益因子1-β,将当前帧激励信号的帧能量与增益因子β的乘积加上长时帧能量与增益因子1-β的乘积,作为最新长时激励能量。
S33,若所述近端部分解码信号的当前帧不属于拖尾段,则由步骤S32中所得最新长时线谱对系数和长时激励能量估计编码舒适噪声帧所需的参数,重新量化后编码作为进行了回声抑制的近端输入码流;
S’33,若所述近端部分解码信号的当前帧属于拖尾段,则由当前帧之前的非回声帧的长时线谱对系数和长时激励能量估计值以及步骤S32中所得最新长时线谱对系数和长时激励能量估计值,调整估计出的编码舒适噪声帧所需的参数,将调整后的参数重新量化后编码作为进行了回声抑制的近端输入码流。
上述三种网络传输模式下对近端信号中的回声抑制保证直接输出信号与生成的舒适噪声信号之间的平稳过渡,可以获得更好的听觉效果。
请参阅附图2,是本发明实施例提供的回声抑制装置逻辑结构示意图。为了便于说明,仅仅示出了与本发明实施例相关的部分。附图2示例的回声抑制装置包含的功能模块/单元可以是软件模块/单元、硬件模块/单元或软硬件相结合模块/单元,包括回声检测模块201和回声抑制启动模块202,其中:
回声检测模块201,用于确定当前网络传输模式,对远端信号和近端信号进行与所述当前网络传输模式相应的回声检测,所述当前网络传输模式包括时分复用模式、无码型变换操作模式和串联自由操作模式;
在本实施例中,将适用于不同网络传输模式的回声检测方法整合在一个回声检测功能模块(为行文方便,以下简称“统一回声检测模块”)中,统一回声检测模块和一些具有回声抑制功能的子模块一起,实现统一的回声抑制。为了实现本发明实施例提供的多模式回声抑制方法,可以事先对统一的回声抑制进行配置,即,输入与网络传输模式相应的工作模式参数,并根据工作模式参数设置子模块的调用路径。配置统一的回声抑制的工作模式,可以指示所述统一的回声抑制在实现过程中调用了哪些子模块而构成一套完整的流程。由于子模块的调用路径是根据工作模式参数设置,因此,在用户输入工作模式参数后,回声检测模块201将根据这些工作模式参数,确定当前网络传输模式(时分复用模式、无码型变换操作模式或串联自由操作模式),从而对远端信号和近端信号进行与所述当前网络传输模式相应的回声检测。
回声抑制启动模块202,用于根据所述回声检测模块201回声检测的检测结果,控制与所述当前网络传输模式相应的回声抑制模块对所述近端信号中的回声进行抑制。
在本实施例中,若回声检测模块201对远端信号和近端信号进行与当前网络传输模式相应的回声检测的检测结果为近端信号包含回声,则回声抑制启动模块202可以是调用与当前网络传输模式相应的回声抑制模块,产生舒适噪声,将这些舒适噪声与近端PCM信号混合作为进行了回声抑制的近端PCM信号,或者,获取产生所述舒适噪声所需的参数而编码,将由舒适噪声所需的参数所得编码作为进行了回声抑制的近端码流,或者,将上述两种方法结合而得到抑制了回声的近端信号。
需要说明的是,以上回声抑制装置的实施方式中,各功能模块的划分仅是举例说明,实际应用中可以根据需要,例如相应硬件的配置要求或者软件的实现的便利考虑,而将上述功能分配由不同的功能模块完成,即将所述回声抑制装置的内部结构划分成不同的功能模块,以完成以上描述的全部或者部分功能。而且,实际应用中,本实施例中的相应的功能模块可以是由相应的硬件实现,也可以由相应的硬件执行相应的软件完成,例如,前述的回声检测模块,可以是具有执行前述确定当前网络传输模式,对远端信号和近端信号进行与所述当前网络传输模式相应的回声检测的硬件,例如回声检测器,也可以是能够执行相应计算机程序从而完成前述功能的一般处理器或者其他硬件设备;再如前述的控制模块,可以是具有执行前述根据所述回声检测模块(或回声检测器)回声检测的检测结果,启动与所述当前网络传输模式相应的回声抑制模块对所述近端信号中的回声进行抑制功能的硬件,如控制器,也可以是能够执行相应计算机程序从而完成前述功能的一般处理器或者其他硬件设备。
从上述本发明实施例可知,由于回声检测模块是根据当前网络传输模式进行与所述当前网络传输模式相应的回声检测,然后,回声抑制启动模块根据回声检测模块所得检测结果,启动与所述当前网络传输模式相应的回声抑制模块对所述近端信号中的回声进行抑制。因此,本发明实施例提供的装置能够适应多样化的网络环境中,不必因为网络传输模式的变化而不断地增加新的处理过程(例如,增加编解码过程等等),从而节省了资源,可以提高网络传输性能。
附图2示例的回声检测模块201可以进一步包括时域信息获取子模块301、频域信息获取子模块302和时频结合回声检测子模块303,如附图3所示本发明另一实施例提供的回声抑制装置,其中:
时域信息获取子模块301,用于获取所述远端信号和近端信号的时域信息,所述时域信息至少包括近端说话人时域长时平均能量,例如,还包括所述远端信号和近端信号的时域能量等。具体地,可以是先计算远端信号和近端信号的时域能量,使用计算所得远端信号和近端信号的时域能量分别更新远端信号和近端信号时域包络缓存中缓存的之前帧远端信号和近端信号的时域能量,再对时域能量包络缓存中的远端信号和近端信号的时域能量进行平滑处理,得到平滑后的当前帧远端信号的时域能量和当前帧近端信号的时域能量,最后,使用经过平滑所得当前帧远端信号的时域能量和近端信号的时域能量更新时域能量包络缓存;
频域信息获取子模块302,用于获取所述远端信号和近端信号的频域信息,所述频域信息至少包括近端说话人频域长时平均能量,例如,还包括频域子带能量等。具体地,可以是对当前帧远端信号和近端信号进行FFT,根据FFT变换结果分别计算远端信号和近端信号的幅度谱,并计算频域子带能量(包括远端频域子带能量和近端频域子带能量),以此更新子带能量缓存中缓存的远端频域子带能量和近端频域子带能量,而近端说话人频域长时平均能量即是由近端频域子带能量计算得到;
时频结合回声检测子模块303,用于根据所述时域信息获取子模块301获取的时域信息和所述频域信息获取子模块302获取的频域信息,对所述远端信号和近端信号进行时频结合回声检测。
在附图3示例的回声抑制装置中,若当前网络传输模式为时分复用模式,则所述远端信号包括远端PCM信号,所述近端信号分别包括近端PCM信号,若当前网络传输模式为串联自由操作模式,则所述远端信号包括远端PCM信号,所述近端信号包括近端PCM信号及近端输入码流。此时,时域信息获取子模块301可以进一步包括第一语音激活检测单元401、第一时域能量处理单元402、第一时域能量包络相关性计算单元403和第一近端说话人时域长时平均能量获取单元404,如附图4所示本发明另一实施例提供的回声抑制装置,其中:
第一语音激活检测单元401,用于对当前帧远端PCM信号和近端PCM信号进行与所述时分复用模式或所述串联自由操作模式相符的语音激活检测,以获取所述当前帧远端PCM信号和近端PCM信号的语音激活检测结果,具体地,以当前帧接收到的远端PCM信号和近端PCM信号,分别更新之前缓存的远端PCM信号和近端PCM信号,对当前帧远端PCM信号和近端PCM信号进行FFT,根据FFT变换结果,使用时分复用模式或串联自由操作模式下的语音激活检测算法,对当前帧远端PCM信号和近端PCM信号进行语音激活检测,得到当前帧远端PCM信号和近端PCM信号的语音激活检测结果,具体的语音激活检测算法可以是基于子带信噪比和的语音激活检测算法等,本发明实施例对语音激活检测算法不做限制;
第一时域能量处理单元402,用于计算当前帧远端PCM信号和近端PCM信号的时域能量并对所述时域能量进行平滑处理,得到平滑后的当前帧远端PCM信号的时域能量和当前帧近端PCM信号的时域能量,具体地,可以先计算远端PCM信号和近端PCM信号的时域能量,使用计算所得远端PCM信号和近端PCM信号的时域能量分别更新远端PCM信号和近端PCM信号时域包络缓存中缓存的之前帧远端PCM信号和近端PCM信号的时域能量,再对时域能量包络缓存中的远端PCM信号和近端PCM信号的时域能量进行平滑处理,得到平滑后的当前帧远端PCM信号的时域能量和当前帧近端PCM信号的时域能量,最后,使用经过平滑所得当前帧远端PCM信号的时域能量和近端PCM信号的时域能量更新时域能量包络缓存,如前所述,由于对远端信号和近端信号进行与当前网络传输模式相应的回声检测包括配置统一的回声抑制的工作模式这一过程,在配置过程中,可以对回声检测算法中的可配置参数进行设置,因此,第一时域能量处理单元402对时域包络缓存中的远端PCM信号和近端PCM信号的时域能量进行平滑处理,可以使用这些可配置参数,包括一些可变长度或增益因子以及阈值等参数,例如,平滑长度、长时平均能量更新因子的大小以及频域回声检测初始域值等等;
第一时域能量包络相关性计算单元403,用于由所述第一时域能量处理单元402平滑处理后的时域能量计算所述平滑处理后的时域能量的时域能量包络相关性或时域能量包络距离;
第一近端说话人时域长时平均能量获取单元404,用于根据所述第一时域能量包络相关性计算单元403计算所得时域能量包络相关性、第一语音激活检测单元401所得语音激活检测的检测结果和第一时域能量处理单元402所得平滑后的近端时域能量获取所述近端说话人时域长时平均能量,或者,根据所述第一时域能量包络相关性计算单元403计算所得时域能量包络距离、第一语音激活检测单元401所得语音激活检测的检测结果和第一时域能量处理单元402所得平滑后的近端时域能量获取所述近端说话人时域长时平均能量。
在附图3示例的回声抑制装置中,若当前网络传输模式为无码型变换操作模式,则所述远端信号和近端信号分别为远端输入码流和近端输入码流。此时,时域信息获取子模块301可以进一步包括部分解码单元501、第二语音激活检测单元502、第二时域能量处理单元503、第二时域能量包络相关性计算单元504和第二近端说话人时域长时平均能量获取单元505,如附图5所示本发明另一实施例提供的回声抑制装置,其中:
部分解码单元501,用于对远端输入码流和近端输入码流分别进行部分解码,得到当前帧远端部分解码信号和近端部分解码信号,需要说明的是,在本实施例中,部分解码单元501对远端输入码流和近端输入码流分别进行的部分解码,可以只解码到合成信号域而不进行信号增强后处理,也可以只解到激励信号域,所谓合成信号域是指激励信号经过线性预测系数对应产生的合成滤波器以后的合成信号,而激励信号域是指自适应码激励与自适应增益的乘积加上固定码激励乘以固定增益(又可称为自适应码激励与自适应增益的乘积加上代数码激励乘以代数码书增益)后得到的激励信号。
第二语音激活检测单元502,用于对当前帧远端部分解码信号和近端部分解码信号进行与所述无码型变换操作模式相符的语音激活检测,以获取所述当前帧远端部分解码信号和近端部分解码信号的语音激活检测结果,具体地,以当前帧远端部分解码信号和近端部分解码信号,分别更新之前缓存的远端PCM信号和近端PCM信号,对当前帧远端部分解码信号和近端部分解码信号进行FFT,根据FFT变换结果,使用无码型变换操作模式下的语音激活检测算法,对当前帧远端部分解码信号和近端部分解码信号进行语音激活检测,得到当前帧远端部分解码信号和近端部分解码信号的语音激活检测结果,其与时分复用模式下的语音激活检测算法不同之处在于无码型变换操作模式下的语音激活检测算法的噪声更新过程中增加了噪声本底的限定,避免小能量噪声信号的能量波动带来的误识别。具体的语音激活检测算法可以是基于子带信噪比和的语音激活检测算法等,本发明实施例对语音激活检测算法不做限制;
第二时域能量处理单元503,用于计算所述当前帧远端部分解码信号和近端部分解码信号的时域能量并对所述时域能量进行平滑处理,得到平滑后的当前帧远端部分解码信号的时域能量和当前帧近端部分解码信号的时域能量,具体地,可以先计算当前帧远端部分解码信号和近端部分解码信号的时域能量,使用计算所得当前帧远端部分解码信号和近端部分解码信号的时域能量分别更新时域能量包络缓存中缓存的之前帧当前帧远端部分解码信号和近端部分解码信号的时域能量,再对当前帧远端部分解码信号和近端部分解码信号的时域能量进行平滑处理,得到平滑后的当前帧远端部分解码信号和近端部分解码信号的时域能量,最后,使用经过平滑所得当前帧远端部分解码信号和近端部分解码信号的时域能量更新时域能量包络缓存;
第二时域能量包络相关性计算单元504,用于由所述平滑处理后的时域能量计算所述平滑处理后的时域能量的时域能量包络相关性或时域能量包络距离;
第二近端说话人时域长时平均能量获取单元505,用于根据所述时域能量包络相关性、语音激活检测的检测结果和平滑后的近端时域能量获取所述近端说话人时域长时平均能量,或者根据所述时域能量包络距离、语音激活检测的检测结果和平滑后的近端时域能量获取所述近端说话人时域长时平均能量。
为了能够精确或快速检测出近端输入码流中是否包含回声,在本实施例中,可以对远端输入码流和近端输入码流进行多级回声检测,例如,进行两级回声检测;若第一级回声检测就检测出近端输入码流中不包含回声,则可以判断近端输入码流中不包含回声,以达到快速检测出近端输入码流中不包含回声的目的,否则,进行第二级回声检测,若第二级回声检测检测出近端输入码流中包含回声,则可以判断近端输入码流中包含回声,以达到精确检测出近端输入码流中包含回声的目的,因此,附图3示例的回声抑制装置可以进一步包括回声初步检测模块601,如附图6-1所示本发明另一实施例提供的回声抑制装置。回声初步检测模块601,用于由所述时域信息获取子模块301获取的时域信息对所述远端信号与近端信号进行回声初步检测,其进一步包括第一静音检测单元6011和第一统计单元6012,其中:
第一静音检测单元6011,用于对当前帧近端PCM信号的时域能量进行静音检测,得到静音检测结果;
第一统计单元6012,用于统计当前帧远端信号的长时语音激活检测结果,所述当前帧远端信号的长时语音激活检测结果为所述当前帧和所述当前帧之前一段预设时间的远端信号的语音激活检测结果;
若所述当前帧之前一段预设时间内没有检测到远端输入信号中有语音段或者所述第一静音检测单元6011所得静音检测结果为近端信号是静音,则所述回声初步检测的结果为当前近端信号中没有回声,否则所述回声初步检测的结果为当前近端信号中可能包含回声。
回声初步检测模块601也可以进一步包括第二静音检测单元6021和第二统计单元6022,如附图6-2所示本发明另一实施例提供的回声抑制装置。其中:
第二静音检测单元6021,用于对所述当前帧近端部分解码信号的时域能量进行静音检测,得到静音检测结果;
第二统计单元6022,用于统计所述当前帧远端信号的长时语音激活检测结果,所述当前帧远端信号的长时语音激活检测结果为所述当前帧和所述当前帧之前一段预设时间的远端信号的语音激活检测结果;
若所述当前帧之前一段预设时间内没有检测到远端输入信号中有语音段或者所述第二静音检测单元6012所得静音检测结果为近端信号是静音,则所述回声初步检测的结果为当前近端信号中没有回声,否则所述回声初步检测的结果为当前近端信号中可能包含回声。
附图3示例的时频结合回声检测子模块303可以进一步包括第一调整单元701、最大相关值计算单元702和第一判断单元703,如附图7所示本发明另一实施例提供的回声抑制装置,其中:
第一调整单元701,用于根据近端说话人时域长时平均能量调整频域回声检测判决门限,得到调整后的回声检测判决门限,具体地,使用前述实施例中得到的近端说话人时域长时平均能量乘以预先设定的频域回声检测判决门限,得到的判决门限就是调整后的频域回声检测判决门限;
最大相关值计算单元702,用于计算频域子带能量的最大相关值或频域子带能量的最小距离,具体地,根据前述实施例得到的近端频域子带能量以及子带能量缓存中缓存的一段时期内远端频域子带能量,计算频域子带能量的相关性,然后,在设定的时延检测范围内对不同时延对应的频域子带能量的相关性进行搜索,找到频域子带能量的相关性最大时对应的延时,同时得到频域子带能量的最大相关值,为了进一步提高检测精度可以进行帧间内插操作,已获得更高精度的延时的分辨率;
第一判断单元703,用于若所述最大相关值计算单元702计算所得频域子带能量的最大相关值不大于所述第一调整单元701调整后的回声检测判决门限,或者,若所述最大相关值计算单元702计算所得频域子带能量的最小距离大于所述第一调整单元701调整后的回声检测判决门限,则判断时频结合回声检测的结果为当前近端信号中没有回声,否则,判断时频结合回声检测的结果为当前近端信号中包含回声;
若回声初步检测的结果和时频结合回声检测的结果均为包含回声,则对远端信号和近端信号进行与所述当前网络传输模式相应的回声检测的检测结果为当前近端信号中包含回声。
附图3示例的时频结合回声检测子模块303可以进一步包括第二调整单元801、时域相关性计算单元802和第二判断单元803,如附图8所示本发明另一实施例提供的回声抑制装置,其中:
第二调整单元801,用于根据近端说话人频域长时平均能量调整时域回声检测判决门限,得到调整后的回声检测判决门限,具体地,可以根据前述实施例得到的近端说话人频域长时平均能量自适应地调整时域回声检测的判决门限,得到调整后的时域回声检测判决门限;
时域相关性计算单元802,用于由缓存的远端时域能量和近端时域能量计算时域相关性,具体地,根据前述实施例时域能量包络缓存中近端信号的时域能量与缓存的一段时期内远端信号的时域能量计算时域相关性;或者,时域相关性计算单元802用于由缓存的远端时域能量和近端时域能量计算时域距离;
第二判断单元803,用于若所述时域相关性计算单元802计算所得时域相关性的最大相关值不大于所述第二调整单元801调整后的回声检测判决门限或所述时域距离的最小值大于所述第二调整单元801调整后的回声检测判决门限,则判断时频结合回声检测的结果为当前近端信号中没有回声,否则,判断时频结合回声检测的结果为当前近端信号中包含回声;
若回声初步检测的结果和时频结合回声检测的结果均为包含回声,则对远端信号和近端信号进行与当前网络传输模式相应的回声检测的检测结果为当前近端信号中包含回声。
附图3示例的时频结合回声检测子模块303可以进一步包括加权频域相关性计算单元901和第三判断单元902,如附图9所示本发明另一实施例提供的回声抑制装置,其中:
加权频域相关性计算单元901,用于根据近端说话人时域长时平均能量对频域相关性进行加权计算,得到加权的频域相关性,具体地,将前述实施例得到的近端说话人时域长时平均能量乘以计算出的原始频域相关性,得到加权的频域相关性;或者,加权频域相关性计算单元901用于根据近端说话人时域长时平均能量对频域距离进行加权计算,得到加权的频域距离;
第三判断单元902,用于若所述频域相关性计算单元901所得加权的频域相关性的最大值不大于预设的频域相关性检测阈值或所得加权的频域距离的最小值大于预设的频域距离检测阈值,则判断时频结合回声检测的结果为当前近端信号中没有回声,否则,判断时频结合回声检测的结果为当前近端信号中包含回声;
若回声初步检测的结果和时频结合回声检测的结果均为包含回声,则对远端信号和近端信号进行与当前网络传输模式相应的回声检测的检测结果为当前近端信号中包含回声。
附图3示例的时频结合回声检测子模块303可以进一步包括加权时域相关性计算单元1001和第四判断单元1002,如附图10所示本发明另一实施例提供的回声抑制装置,其中:
加权时域相关性计算单元1001,用于根据近端说话人频域长时平均能量对时域相关性进行加权计算,得到加权的时域相关性,具体地,将前述实施例得到的近端说话人频域长时平均能量乘以计算出的原始时域相关性,得到加权的时域相关性,或者,加权时域相关性计算单元1001用于根据近端说话人频域长时平均能量对时域距离进行加权计算,得到加权的时域距离;
第四判断单元1002,用于若所述加权时域相关性计算单元1001所得加权的时域相关性的最大值不大于预设的时域相关性检测阈值或所得加权的时域距离的最小值大于预设的时域距离检测阈值,则判断时频结合回声检测的结果为当前近端信号中没有回声,否则,判断时频结合回声检测的结果为当前近端信号中包含回声;
若回声初步检测的结果和时频结合回声检测的结果均为包含回声,则对远端信号和近端信号进行与所述当前网络传输模式相应的回声检测的检测结果为当前近端信号中包含回声。
上述三种网络传输模式下的时频结合回声检测,即,结合时域包络相关性和频域相关性的回声检测算法可以进一步提升回声检测的准确性,实践证明,其回声检测准确率均可以达到80%左右。
若当前网络传输模式为时分复用模式,则附图2示例的回声抑制启动模块202包括第一噪声检测单元1101、第一参数获取单元1102、舒适噪声生成单元1103和输出单元1104,如附图11所示本发明另一实施例提供的回声抑制装置,其中:
第一噪声检测单元1101,用于对近端PCM信号进行噪声检测;
第一参数获取单元1102,用于若当前帧是噪声段,则获取噪声信号的最新线性预测系数和长时帧能量,具体地,首先计算噪声信号的线性预测系数以及帧能量,然后,更新长时线性预测系数以及长时帧能量。例如,可以是将当前帧噪声信号的线性预测系数乘以增益因子α,将更新之前长时线性预测系数乘以增益因子1-α,将线性预测系数与增益因子α的乘积加上更新之前长时线性预测系数与增益因子1-α的乘积,作为最新长时线性预测系数;将近端PCM信号的当前帧的帧能量乘以增益因子β加上长时帧能量乘以增益因子1-β作为最新长时帧能量;
舒适噪声生成单元1103,用于若回声检测的检测结果为当前近端信号包含回声,则由所述第一参数获取单元1102获取的最新线性预测系数和长时帧能量生成舒适噪声,具体地,生成舒适噪声的方法可以是通过人工产生一段高斯白噪声作为激励信号,然后使用所得最新长时帧能量对产生的高斯白噪声信号进行能量调整,最后,将调整后的高斯白噪声信号经过所得最新长时线性预测系数对应的合成滤波器处理,得到的合成信号即生成的舒适噪声。若近端PCM信号的当前帧不包含回声,则将近端PCM信号作为回声抑制后的近端PCM信号直接输出;
输出单元1104,用于若当前帧属于拖尾段,则将所述近端PCM信号和所述舒适噪声生成单元1103生成的舒适噪声混合作为进行了回声抑制的近端PCM信号,否则,将所述舒适噪声生成单元1103生成的舒适噪声作为进行了回声抑制的近端PCM信号输出;
判断所述近端PCM信号的当前帧是否属于拖尾段,可以通过预先设定的回声检测拖尾段长度获知。若近端PCM信号的当前帧属于拖尾段,则按照一定比例混合原始的近端PCM信号和生成的舒适噪声,例如,原始的近端PCM信号和生成的舒适噪声各占50%,输出单元1104以此比例混合后的信号作为进行了回声抑制的近端PCM信号输出,若近端PCM信号的当前帧不是拖尾段,则直接将生成的舒适噪声作为回声抑制的近端PCM信号输出。
若当前网络传输模式为串联自由操作模式,则附图2示例的回声抑制启动模块202包括第一混合单元1201和第二混合单元1202,如附图12所示本发明另一实施例提供的回声抑制装置,其中:
第一混合单元1201,用于控制线性域回声抑制模块,根据预先设定的拖尾段长度和所述回声检测的检测结果进行判断,如果当前帧处于拖尾段,则混合原始信号以及产生的舒适噪声信号作为拖尾段的输出信号;
第二混合单元1202,用于控制参数域回声抑制模块,根据预先设定的拖尾段长度和所述回声检测的检测结果进行判断,如果当前帧处于拖尾段,则混合原始信号参数以及产生的舒适噪声信号参数,重新量化编码后作为回声抑制后的近端码流,或者,对估计出的舒适噪声帧所需参数进行重新量化和编码,再根据前一个非回声帧的参数以及用于产生舒适噪声帧的参数,调整舒适噪声帧编码后的索引值,得到回声抑制后的近端码流。
若当前网络传输模式为无码型变换操作模式,则附图2示例的回声抑制启动模块202包括第二噪声检测单元1301、第二参数获取单元1302、估计单元1303和调整单元1304,如附图13所示本发明另一实施例提供的多模式回声抑制装置,其中:
第二噪声检测单元1301,用于对近端部分解码信号进行噪声检测;
第二参数获取单元1302,用于若当前帧是噪声段,则获取噪声信号的最新长时线谱对系数和长时激励能量,具体地,首先,解码近端输入码流中的线谱对参数,计算近端码流部分解码模块得到的激励信号的帧能量,然后,将解码得到的当前帧的线谱对系数乘以增益因子α,将长时线谱对系数乘以增益因子1-α,将当前帧的线谱对系数与增益因子α的乘积加上长时线谱对系数与增益因子1-α的乘积,作为噪声信号的最新长时线谱对系数;将当前帧激励信号的帧能量乘以增益因子β,将当前帧激励信号的长时帧能量乘以增益因子1-β,将当前帧激励信号的帧能量与增益因子β的乘积加上长时帧能量与增益因子1-α的乘积,作为最新长时激励能量;
估计单元1303,用于若回声检测的检测结果为当前近端信号包含回声且当前帧不属于拖尾段,则由所述第二参数获取单元1302获取的最新长时线谱对系数和长时激励能量估计编码舒适噪声帧所需的参数,重新量化后编码作为进行了回声抑制的近端码流;
调整单元1304,用于若所述回声检测的检测结果为当前近端信号包含回声且当前帧属于拖尾段,则由当前帧之前的非回声帧的长时线谱对系数和长时激励能量估计值以及所述第二参数获取单元1302获取的最新长时线谱对系数和长时激励能量估计值,调整估计出的编码舒适噪声帧所需的参数,将调整后的参数重新量化后编码作为进行了回声抑制的近端码流。
上述三种网络传输模式下对近端信号中的回声抑制保证直接输出信号与生成的舒适噪声信号之间的平稳过渡,可以获得更好的听觉效果。
请参阅附图14,是本发明实施例提供的回声检测装置逻辑结构示意图。为了便于说明,仅仅示出了与本发明实施例相关的部分。附图14示例的回声检测装置包含的功能模块/单元可以是软件模块/单元、硬件模块/单元或软硬件相结合模块/单元,包括时域信息获取模块1401、频域信息获取模块1402和时频结合回声检测模块1402,其中:
时域信息获取模块1401,用于获取所述远端信号和近端信号的时域信息,所述时域信息至少包括近端说话人时域长时平均能量,例如,还包括所述远端信号和近端信号的时域能量等。具体地,可以是先计算远端信号和近端信号的时域能量,使用计算所得远端信号和近端信号的时域能量分别更新远端信号和近端信号时域包络缓存中缓存的之前帧远端信号和近端信号的时域能量,再对时域能量包络缓存中的远端信号和近端信号的时域能量进行平滑处理,得到平滑后的当前帧远端信号的时域能量和当前帧近端信号的时域能量,最后,使用经过平滑所得当前帧远端信号的时域能量和近端信号的时域能量更新时域能量包络缓存;
频域信息获取模块1402,用于获取所述远端信号和近端信号的频域信息,所述频域信息至少包括近端说话人频域长时平均能量,例如,还包括频域子带能量等。具体地,可以是对当前帧远端信号和近端信号进行FFT,根据FFT变换结果分别计算远端信号和近端信号的幅度谱,并计算频域子带能量(包括远端频域子带能量和近端频域子带能量),以此更新子带能量缓存中缓存的远端频域子带能量和近端频域子带能量,而近端说话人频域长时平均能量即是由近端频域子带能量计算得到;
时频结合回声检测模块1403,用于根据所述时域信息获取模块1401获取的时域信息和所述频域信息获取模块1402获取的频域信息,对所述远端信号和近端信号进行时频结合回声检测。
在附图14示例的回声检测装置中,若当前网络传输模式为时分复用模式,则所述远端信号包括远端PCM信号,所述近端信号分别包括近端PCM信号,若当前网络传输模式为串联自由操作模式,则所述远端信号包括远端PCM信号,所述近端信号包括近端PCM信号及近端输入码流。此时,时域信息获取模块1401可以进一步包括第一语音激活检测单元1501、第一时域能量处理单元1502、第一时域能量包络相关性计算单元1503和第一近端说话人时域长时平均能量获取单元1504,如附图15所示本发明另一实施例提供的回声检测装置,其中:
第一语音激活检测单元1501,用于对当前帧远端PCM信号和近端PCM信号进行与所述时分复用模式或所述串联自由操作模式相符的语音激活检测,以获取所述当前帧远端PCM信号和近端PCM信号的语音激活检测结果,具体地,以当前帧接收到的远端PCM信号和近端PCM信号,分别更新之前缓存的远端PCM信号和近端PCM信号,对当前帧远端PCM信号和近端PCM信号进行FFT,根据FFT变换结果,使用时分复用模式或串联自由操作模式下的语音激活检测算法,对当前帧远端PCM信号和近端PCM信号进行语音激活检测,得到当前帧远端PCM信号和近端PCM信号的语音激活检测结果,具体的语音激活检测算法可以是基于子带信噪比和的语音激活检测算法等,本发明实施例对语音激活检测算法不做限制;
第一时域能量处理单元1502,用于计算当前帧远端PCM信号和近端PCM信号的时域能量并对所述时域能量进行平滑处理,得到平滑后的当前帧远端PCM信号的时域能量和当前帧近端PCM信号的时域能量,具体地,可以先计算远端PCM信号和近端PCM信号的时域能量,使用计算所得远端PCM信号和近端PCM信号的时域能量分别更新远端PCM信号和近端PCM信号时域包络缓存中缓存的之前帧远端PCM信号和近端PCM信号的时域能量,再对时域能量包络缓存中的远端PCM信号和近端PCM信号的时域能量进行平滑处理,得到平滑后的当前帧远端PCM信号的时域能量和当前帧近端PCM信号的时域能量,最后,使用经过平滑所得当前帧远端PCM信号的时域能量和近端PCM信号的时域能量更新时域能量包络缓存,如前所述,由于对远端信号和近端信号进行与当前网络传输模式相应的回声检测包括配置统一的回声抑制的工作模式这一过程,在配置过程中,可以对回声检测算法中的可配置参数进行设置,因此,第一时域能量处理单元1502对时域包络缓存中的远端PCM信号和近端PCM信号的时域能量进行平滑处理,可以使用这些可配置参数,包括一些可变长度或增益因子以及阈值等参数,例如,平滑长度、长时平均能量更新因子的大小以及频域回声检测初始域值等等;
第一时域能量包络相关性计算单元1503,用于由所述第一时域能量处理单元1502平滑处理后的时域能量计算所述平滑处理后的时域能量的时域能量包络相关性或时域能量包络距离;
第一近端说话人时域长时平均能量获取单元1504,用于根据所述第一时域能量包络相关性计算单元1503计算所得时域能量包络相关性、第一语音激活检测单元1501所得语音激活检测的检测结果和第一时域能量处理单元1502所得平滑后的近端时域能量获取所述近端说话人时域长时平均能量,或者,根据所述第一时域能量包络相关性计算单元1503计算所得时域能量包络距离、第一语音激活检测单元1501所得语音激活检测的检测结果和第一时域能量处理单元1502所得平滑后的近端时域能量获取所述近端说话人时域长时平均能量。
在附图14示例的回声检测装置中,若当前网络传输模式为无码型变换操作模式,则所述远端信号和近端信号分别为远端输入码流和近端输入码流。此时,时域信息获取模块1401可以进一步包括部分解码单元1601、第二语音激活检测单元1602、第二时域能量处理单元1603、第二时域能量包络相关性计算单元1604和第二近端说话人时域长时平均能量获取单元1605,如附图16所示本发明另一实施例提供的回声检测装置,其中:
部分解码单元1601,用于对远端输入码流和近端输入码流分别进行部分解码,得到当前帧远端部分解码信号和近端部分解码信号,需要说明的是,在本实施例中,部分解码单元1601对远端输入码流和近端输入码流分别进行的部分解码,可以只解码到合成信号域而不进行信号增强后处理,也可以只解到激励信号域,所谓合成信号域是指激励信号经过线性预测系数对应产生的合成滤波器以后的合成信号,而激励信号域是指自适应码激励与自适应增益的乘积加上固定码激励乘以固定增益(又可称为自适应码激励与自适应增益的乘积加上代数码激励乘以代数码书增益)后得到的激励信号。
第二语音激活检测单元1602,用于对当前帧远端部分解码信号和近端部分解码信号进行与所述无码型变换操作模式相符的语音激活检测,以获取所述当前帧远端部分解码信号和近端部分解码信号的语音激活检测结果,具体地,以当前帧远端部分解码信号和近端部分解码信号,分别更新之前缓存的远端PCM信号和近端PCM信号,对当前帧远端部分解码信号和近端部分解码信号进行FFT,根据FFT变换结果,使用无码型变换操作模式下的语音激活检测算法,对当前帧远端部分解码信号和近端部分解码信号进行语音激活检测,得到当前帧远端部分解码信号和近端部分解码信号的语音激活检测结果,其与时分复用模式下的语音激活检测算法不同之处在于无码型变换操作模式下的语音激活检测算法的噪声更新过程中增加了噪声本底的限定,避免小能量噪声信号的能量波动带来的误识别。具体的语音激活检测算法可以是基于子带信噪比和的语音激活检测算法等,本发明实施例对语音激活检测算法不做限制;
第二时域能量处理单元1603,用于计算所述当前帧远端部分解码信号和近端部分解码信号的时域能量并对所述时域能量进行平滑处理,得到平滑后的当前帧远端部分解码信号的时域能量和当前帧近端部分解码信号的时域能量,具体地,可以先计算当前帧远端部分解码信号和近端部分解码信号的时域能量,使用计算所得当前帧远端部分解码信号和近端部分解码信号的时域能量分别更新时域能量包络缓存中缓存的之前帧当前帧远端部分解码信号和近端部分解码信号的时域能量,再对当前帧远端部分解码信号和近端部分解码信号的时域能量进行平滑处理,得到平滑后的当前帧远端部分解码信号和近端部分解码信号的时域能量,最后,使用经过平滑所得当前帧远端部分解码信号和近端部分解码信号的时域能量更新时域能量包络缓存;
第二时域能量包络相关性计算单元1604,用于由所述平滑处理后的时域能量计算所述平滑处理后的时域能量的时域能量包络相关性或时域能量包络距离;
第二近端说话人时域长时平均能量获取单元1605,用于根据所述时域能量包络相关性、语音激活检测的检测结果和平滑后的近端时域能量获取所述近端说话人时域长时平均能量,或者根据所述时域能量包络距离、语音激活检测的检测结果和平滑后的近端时域能量获取所述近端说话人时域长时平均能量。
为了能够精确或快速检测出近端输入码流中是否包含回声,在本实施例中,可以对远端输入码流和近端输入码流进行多级回声检测,例如,进行两级回声检测;若第一级回声检测就检测出近端输入码流中不包含回声,则可以判断近端输入码流中不包含回声,以达到快速检测出近端输入码流中不包含回声的目的,否则,进行第二级回声检测,若第二级回声检测检测出近端输入码流中包含回声,则可以判断近端输入码流中包含回声,以达到精确检测出近端输入码流中包含回声的目的,因此,附图14示例的回声检测置可以进一步包括回声初步检测模块1701,如附图17-1所示本发明另一实施例提供的回声检测装置。回声初步检测模块1701,用于由所述时域信息获取模块1401获取的时域信息对所述远端信号与近端信号进行回声初步检测,其进一步包括第一静音检测单元17011和第一统计单元17012,其中:
第一静音检测单元17011,用于对当前帧近端PCM信号的时域能量或当前帧近端部分解码信号的时域能量进行静音检测,得到静音检测结果;
第一统计单元17012,用于统计当前帧远端信号的长时语音激活检测结果,所述当前帧远端信号的长时语音激活检测结果为所述当前帧和所述当前帧之前一段预设时间的远端信号的语音激活检测结果;
若所述当前帧之前一段预设时间内没有检测到远端输入信号中有语音段或者所述第一静音检测单元17011所得静音检测结果为近端信号是静音,则所述回声初步检测的结果为当前近端信号中没有回声,否则所述回声初步检测的结果为当前近端信号中可能包含回声。
回声初步检测模块1701也可以进一步包括第二静音检测单元17021和第二统计单元17022,如附图17-2所示本发明另一实施例提供的回声抑制装置。其中:
第二静音检测单元17021,用于对所述当前帧近端部分解码信号的时域能量进行静音检测,得到静音检测结果;
第二统计单元17022,用于统计所述当前帧远端信号的长时语音激活检测结果,所述当前帧远端信号的长时语音激活检测结果为所述当前帧和所述当前帧之前一段预设时间的远端信号的语音激活检测结果;
若所述当前帧之前一段预设时间内没有检测到远端输入信号中有语音段或者所述第二静音检测单元17021所得静音检测结果为近端信号是静音,则所述回声初步检测的结果为当前近端信号中没有回声,否则所述回声初步检测的结果为当前近端信号中可能包含回声。
附图14示例的时频结合回声检测模块1403可以进一步包括第一调整单元1801、最大相关值计算单元1802和第一判断单元1803,如附图18所示本发明另一实施例提供的回声检测装置,其中:
第一调整单元1801,用于根据近端说话人时域长时平均能量调整频域回声检测判决门限,得到调整后的回声检测判决门限,具体地,使用前述实施例中得到的近端说话人时域长时平均能量乘以预先设定的频域回声检测判决门限,得到的判决门限就是调整后的频域回声检测判决门限;
最大相关值计算单元1802,用于计算频域子带能量的最大相关值或频域子带能量的最小距离,具体地,根据前述实施例得到的近端频域子带能量以及子带能量缓存中缓存的一段时期内远端频域子带能量,计算频域子带能量的相关性,然后,在设定的时延检测范围内对不同时延对应的频域子带能量的相关性进行搜索,找到频域子带能量的相关性最大时对应的延时,同时得到频域子带能量的最大相关值,为了进一步提高检测精度可以进行帧间内插操作,已获得更高精度的延时的分辨率;
第一判断单元1803,用于若所述最大相关值计算单元1802计算所得频域子带能量的最大相关值不大于所述第一调整单元1801调整后的回声检测判决门限,或者,若所述最大相关值计算单元1802计算所得频域子带能量的最小距离大于所述第一调整单元1801调整后的回声检测判决门限,则判断时频结合回声检测的结果为当前近端信号中没有回声,否则,判断时频结合回声检测的结果为当前近端信号中包含回声;
若回声初步检测的结果和时频结合回声检测的结果均为包含回声,则对远端信号和近端信号进行与所述当前网络传输模式相应的回声检测的检测结果为当前近端信号中包含回声。
附图14示例的时频结合回声检测模块1403可以进一步包括第二调整单元1901、时域相关性计算单元1902和第二判断单元1903,如附图19所示本发明另一实施例提供的回声检测装置,其中:
第二调整单元1901,用于根据近端说话人频域长时平均能量调整时域回声检测判决门限,得到调整后的回声检测判决门限,具体地,可以根据前述实施例得到的近端说话人频域长时平均能量自适应地调整时域回声检测的判决门限,得到调整后的时域回声检测判决门限;
时域相关性计算单元1902,用于由缓存的远端时域能量和近端时域能量计算时域相关性,具体地,根据前述实施例时域能量包络缓存中近端信号的时域能量与缓存的一段时期内远端信号的时域能量计算时域相关性;或者,时域相关性计算单元1902用于由缓存的远端时域能量和近端时域能量计算时域距离;
第二判断单元1903,用于若所述时域相关性计算单元1902计算所得时域相关性的最大相关值不大于所述第二调整单元1901调整后的回声检测判决门限或所述时域距离的最小值大于所述第二调整单元1901调整后的回声检测判决门限,则判断时频结合回声检测的结果为当前近端信号中没有回声,否则,判断时频结合回声检测的结果为当前近端信号中包含回声;
若回声初步检测的结果和时频结合回声检测的结果均为包含回声,则对远端信号和近端信号进行与当前网络传输模式相应的回声检测的检测结果为当前近端信号中包含回声。
附图14示例的时频结合回声检测模块1403可以进一步包括加权频域相关性计算单元2001和第三判断单元2002,如附图20所示本发明另一实施例提供的回声检测装置,其中:
加权频域相关性计算单元2001,用于根据近端说话人时域长时平均能量对频域相关性进行加权计算,得到加权的频域相关性,具体地,将前述实施例得到的近端说话人时域长时平均能量乘以计算出的原始频域相关性,得到加权的频域相关性;或者,加权频域相关性计算单元2001用于根据近端说话人时域长时平均能量对频域距离进行加权计算,得到加权的频域距离;
第三判断单元2002,用于若所述频域相关性计算单元2001所得加权的频域相关性的最大值不大于预设的频域相关性检测阈值或所得加权的频域距离的最小值大于预设的频域距离检测阈值,则判断时频结合回声检测的结果为当前近端信号中没有回声,否则,判断时频结合回声检测的结果为当前近端信号中包含回声;
若回声初步检测的结果和时频结合回声检测的结果均为包含回声,则对远端信号和近端信号进行与当前网络传输模式相应的回声检测的检测结果为当前近端信号中包含回声。
附图14示例的时频结合回声检测模块1403可以进一步包括加权时域相关性计算单元2101和第四判断单元2102,如附图21所示本发明另一实施例提供的回声检测装置,其中:
加权时域相关性计算单元2101,用于根据近端说话人频域长时平均能量对时域相关性进行加权计算,得到加权的时域相关性,具体地,将前述实施例得到的近端说话人频域长时平均能量乘以计算出的原始时域相关性,得到加权的时域相关性,或者,加权时域相关性计算单元2101用于根据近端说话人频域长时平均能量对时域距离进行加权计算,得到加权的时域距离;
第四判断单元2102,用于若所述加权时域相关性计算单元2101所得加权的时域相关性的最大值不大于预设的时域相关性检测阈值或所得加权的时域距离的最小值大于预设的时域距离检测阈值,则判断时频结合回声检测的结果为当前近端信号中没有回声,否则,判断时频结合回声检测的结果为当前近端信号中包含回声;
若回声初步检测的结果和时频结合回声检测的结果均为包含回声,则对远端信号和近端信号进行与所述当前网络传输模式相应的回声检测的检测结果为当前近端信号中包含回声。
上述三种网络传输模式下的时频结合回声检测,即,结合时域包络相关性和频域相关性的回声检测算法可以进一步提升回声检测的准确性,实践证明,其回声检测准确率均可以达到80%左右。
需要说明的是,上述装置各模块/单元之间的信息交互、执行过程等内容,由于与本发明方法实施例基于同一构思,其带来的技术效果与本发明方法实施例相同,具体内容可参见本发明方法实施例中的叙述,此处不再赘述。
本领域普通技术人员可以理解上述实施例的各种方法中的全部或部分步骤是可以通过程序来指令相关的硬件来完成,该程序可以存储于一计算机可读存储介质中,存储介质可以包括:只读存储器(ROM,Read Only Memory)、随机存取存储器(RAM,Random Access Memory)、磁盘或光盘等。
以上对本发明实施例提供的一种多模式回声抑制方法和装置进行了详细介绍,本文中应用了具体个例对本发明的原理及实施方式进行了阐述,以上实施例的说明只是用于帮助理解本发明的方法及其核心思想;同时,对于本领域的一般技术人员,依据本发明的思想,在具体实施方式及应用范围上均会有改变之处,综上所述,本说明书内容不应理解为对本发明的限制。
Claims (46)
1.一种回声抑制方法,其特征在于,所述方法包括:
确定当前网络传输模式,对远端信号和近端信号进行与所述当前网络传输模式相应的回声检测,所述当前网络传输模式包括时分复用模式、无码型变换操作模式或串联自由操作模式;
对远端信号和近端信号进行与所述当前网络传输模式相应的回声检测具体为:
获取所述远端信号和近端信号的时域信息,所述时域信息包括近端说话人时域长时平均能量;
获取所述远端信号和近端信号的频域信息,所述频域信息包括近端说话人频域长时平均能量;
根据所述获取的时域信息和频域信息,对所述远端信号和近端信号进行时频结合回声检测;
根据所述回声检测的检测结果,启动与所述当前网络传输模式相应的回声抑制模式对所述近端信号中的回声进行抑制;
若所述当前网络传输模式为时分复用模式或者串联自由操作模式,则所述远端信号包括远端脉码调制PCM信号,所述近端信号包括近端脉码调制PCM信号;
若所述当前网络传输模式为无码型变换操作模式,则所述远端信号和近端信号分别包括远端输入码流和近端输入码流。
2.如权利要求1所述的方法,其特征在于,所述对所述远端信号和近端信号进行时频结合回声检测之前还包括:
根据所述获取的时域信息对所述远端信号与近端信号进行回声初步检测,由所述回声初步检测的检测结果和所述时频结合回声检测的检测结果确定当前近端信号中是否包含回声。
3.如权利要求2所述的方法,其特征在于,若所述当前网络传输模式为时分复用模式或者串联自由操作模式,则所述远端信号包括远端脉码调制PCM信号,所述近端信号包括近端脉码调制PCM信号;
所述获取所述远端信号和近端信号的时域信息包括:
对当前帧远端PCM信号和近端PCM信号进行与所述时分复用模式或所述串联自由操作模式相符的语音激活检测,以获取所述当前帧远端PCM信号和近端PCM信号的语音激活检测结果;
计算当前帧远端PCM信号和近端PCM信号的时域能量并对所述时域能量进行平滑处理,得到平滑处理后的当前帧远端PCM信号的时域能量和平滑处理后的当前帧近端PCM信号的时域能量;
由所述平滑处理后的时域能量计算所述平滑处理后的时域能量的时域能量包络相关性或时域能量包络距离;
根据所述时域能量包络相关性或时域能量包络距离、语音激活检测的检测结果和平滑处理后的近端时域能量获取所述近端说话人时域长时平均能量。
4.如权利要求2所述的方法,其特征在于,若所述当前网络传输模式为无码型变换操作模式,则所述远端信号和近端信号分别包括远端输入码流和近端输入码流,所述获取所述远端信号和近端信号的时域信息包括:
对远端输入码流和近端输入码流分别进行部分解码,得到当前帧远端部分解码信号和近端部分解码信号;
对当前帧远端部分解码信号和近端部分解码信号进行与所述无码型变换操作模式相符的语音激活检测,以获取所述当前帧远端部分解码信号和近端部分解码信号的语音激活检测结果;
计算所述当前帧远端部分解码信号和近端部分解码信号的时域能量并对所述时域能量进行平滑处理,得到平滑处理后的当前帧远端部分解码信号的时域能量和平滑处理后的当前帧近端部分解码信号的时域能量;
由所述平滑处理后的时域能量计算所述平滑处理后的时域能量的时域能量包络相关性或时域能量包络距离;
根据所述时域能量包络相关性或时域能量包络距离、语音激活检测的检测结果和平滑处理后的近端时域能量获取所述近端说话人时域长时平均能量。
5.如权利要求3所述的方法,其特征在于,所述根据所述获取的时域信息对所述远端信号和近端信号进行回声初步检测包括:
对所述当前帧近端PCM信号的时域能量进行静音检测,得到静音检测结果;
统计所述当前帧远端信号的长时语音激活检测结果,所述当前帧远端信号的长时语音激活检测结果为所述当前帧和所述当前帧之前一段预设时间的远端信号的语音激活检测结果;
若所述当前帧之前一段预设时间内没有检测到远端信号中有语音段或者所述静音检测结果为近端信号是静音,则所述回声初步检测的结果为当前近端信号中没有回声,否则所述回声初步检测的结果为当前近端信号中包含回声。
6.如权利要求4所述的方法,其特征在于,所述由所述获取的时域信息对所述远端信号和近端信号进行回声初步检测包括:
对所述当前帧近端部分解码信号的时域能量进行静音检测,得到静音检测结果;
统计所述当前帧远端信号的长时语音激活检测结果,所述当前帧远端信号的长时语音激活检测结果为所述当前帧和所述当前帧之前一段预设时间的远端信号的语音激活检测结果;
若所述当前帧之前一段预设时间内没有检测到远端信号中有语音段或者所述静音检测结果为近端信号是静音,则所述回声初步检测的结果为当前近端信号中没有回声,否则所述回声初步检测的结果为当前近端信号中包含回声。
7.如权利要求5或6所述的方法,其特征在于,所述根据所述获取的时域信息和频域信息,对所述远端信号和近端信号进行时频结合回声检测包括:
根据所述近端说话人时域长时平均能量调整频域回声检测判决门限,得到调整后的回声检测判决门限;
计算所述频域子带能量的最大相关值或最小距离;
若所述频域子带能量的最大相关值不大于所述调整后的回声检测判决门限或所述频域子带能量的最小距离大于所述调整后的回声检测判决门限,则所述时频结合回声检测的结果为当前近端信号中没有回声,否则,所述时频结合回声检测的结果为当前近端信号中包含回声;
所述由所述回声初步检测的检测结果和所述时频结合回声检测的检测结果确定当前近端信号中是否包含回声包括:若所述回声初步检测的结果和所述时频结合回声检测的结果均为包含回声,则所述对远端信号和近端信号进行与所述当前网络传输模式相应的回声检测的检测结果为当前近端信号中包含回声。
8.如权利要求5或6所述的方法,其特征在于,所述根据所述获取的时域信息和频域信息,对所述远端信号和近端信号进行时频结合回声检测包括:
根据所述近端说话人频域长时平均能量调整时域回声检测判决门限,得到调整后的回声检测判决门限;
由缓存的远端时域能量和近端时域能量计算时域相关性或时域距离;
若所述时域相关性的最大相关值不大于所述调整后的回声检测判决门限或所述时域距离的最小值大于所述调整后的回声检测判决门限,则所述时频结合回声检测的结果为当前近端信号中没有回声,否则,所述时频结合回声检测的结果为当前近端信号中包含回声;
所述由所述回声初步检测的检测结果和所述时频结合回声检测的检测结果确定当前近端信号中是否包含回声包括:若所述回声初步检测的结果和所述时频结合回声检测的结果均为包含回声,则所述对远端信号和近端信号进行与所述当前网络传输模式相应的回声检测的检测结果为当前近端信号中包含回声。
9.如权利要求5或6所述的方法,其特征在于,所述根据所述获取的时域信息和频域信息,对所述远端信号和近端信号进行时频结合回声检测包括:
根据所述近端说话人时域长时平均能量对频域相关性或频域距离进行加权计算,得到加权的频域相关性或加权的频域距离;
若所述加权的频域相关性的最大值不大于预设的频域相关性检测阈值或所述加权的频域距离的最小值大于预设的频域距离检测阈值,则所述时频结合回声检测的结果为当前近端信号中没有回声,否则,所述时频结合回声检测的结果为当前近端信号中包含回声;
所述由所述回声初步检测的检测结果和所述时频结合回声检测的检测结果确定当前近端信号中是否包含回声包括:若所述回声初步检测的结果和所述时频结合回声检测的结果均为包含回声,则所述对远端信号和近端信号进行与所述当前网络传输模式相应的回声检测的检测结果为当前近端信号中包含回声。
10.如权利要求5或6所述的方法,其特征在于,所述根据所述获取的时域信息和频域信息,对所述远端信号和近端信号进行时频结合回声检测包括:
根据近端说话人频域长时平均能量对时域相关性或时域距离进行加权计算,得到加权的时域相关性或加权的时域距离;
若所述加权的时域相关性的最大值不大于预设的时域相关性检测阈值或所述加权的时域距离的最小值大于预设的时域距离检测阈值,则所述时频结合回声检测的结果为当前近端信号中没有回声,否则,所述时频结合回声检测的结果为当前近端信号中包含回声;
所述由所述回声初步检测的检测结果和所述时频结合回声检测的检测结果确定当前近端信号中是否包含回声包括:若所述回声初步检测的结果和所述时频结合回声检测的结果均为包含回声,则所述对远端信号和近端信号进行与所述当前网络传输模式相应的回声检测的检测结果为当前近端信号中包含回声。
11.如权利要求3所述的方法,其特征在于,若所述当前网络传输模式为时分复用模式,则所述根据所述回声检测的检测结果控制与所述当前网络传输模式相应的回声抑制模块对所述近端信号中的回声进行抑制包括:
对所述近端PCM信号进行噪声检测;
若当前帧是噪声段,则获取噪声信号的最新线性预测系数和长时帧能量;
若所述回声检测的检测结果为当前近端信号包含回声,则由所述最新线性预测系数和长时帧能量生成舒适噪声;
若当前帧属于拖尾段,则将所述舒适噪声和所述近端PCM信号混合作为进行了回声抑制的近端PCM信号输出,否则,将所述舒适噪声作为进行了回声抑制的近端PCM信号输出。
12.如权利要求3所述的方法,其特征在于,若所述当前网络传输模式为串联自由操作模式,则所述根据所述回声检测的检测结果控制与所述当前网络传输模式相应的回声抑制模块对所述近端信号中的回声进行抑制包括:控制线性域回声抑制模块,根据预先设定的拖尾段长度和所述回声检测的检测结果进行判断,如果当前帧处于拖尾段,则混合原始信号以及产生的舒适噪声信号作为拖尾段的输出信号;以及
控制参数域回声抑制模块,根据预先设定的拖尾段长度和所述回声检测的检测结果进行判断,如果当前帧处于拖尾段,则混合原始信号参数以及产生的舒适噪声信号参数,重新量化编码后作为回声抑制后的近端码流,或者,对估计出的舒适噪声帧所需参数进行重新量化和编码,再根据前一个非回声帧的参数以及用于产生舒适噪声帧的参数,调整舒适噪声帧编码后的索引值,得到回声抑制后的近端码流。
13.如权利要求4所述的方法,其特征在于,所述根据所述回声检测的检测结果控制与所述当前网络传输模式相应的回声抑制模块对所述近端信号中的回声进行抑制包括:
对所述近端部分解码信号进行噪声检测;
若当前帧是噪声段,则获取噪声信号的最新长时线谱对系数和长时激励能量;
若所述回声检测的检测结果为当前近端信号包含回声且当前帧不属于拖尾段,则由所述最新长时线谱对系数和长时激励能量估计编码舒适噪声帧所需的参数,重新量化后编码作为进行了回声抑制的近端码流;
若所述回声检测的检测结果为当前近端信号包含回声且当前帧属于拖尾段,则由当前帧之前的非回声帧的长时线谱对系数和长时激励能量估计值以及所述最新长时线谱对系数和长时激励能量估计值,调整估计出的编码舒适噪声帧所需的参数,将调整后的参数重新量化后编码作为进行了回声抑制的近端码流。
14.一种对远端信号和近端信号进行与当前网络传输模式相应的回声检测方法,其特征在于,所述方法包括:
确定当前网络传输模式;
若所述当前网络传输模式为时分复用模式或者串联自由操作模式,则所述远端信号包括远端PCM信号,所述近端信号包括近端PCM信号;
若所述当前网络传输模式为无码型变换操作模式,则所述远端信号和近端信号分别为远端输入码流和近端输入码流;
获取所述远端信号和近端信号的时域信息,所述时域信息包括近端说话人时域长时平均能量;
获取所述远端信号和近端信号的频域信息,所述频域信息包括近端说话人频域长时平均能量;
根据所述获取的时域信息和频域信息,对所述远端信号和近端信号进行时频结合回声检测。
15.如权利要求14所述的方法,其特征在于,所述对所述远端信号和近端信号进行时频结合回声检测之前还包括:
根据所述获取的时域信息对所述远端信号与近端信号进行回声初步检测,由所述回声初步检测的检测结果和所述时频结合回声检测的检测结果确定当前近端信号中是否包含回声。
16.如权利要求15所述的方法,其特征在于,若所述当前网络传输模式为时分复用模式或者串联自由操作模式,则所述远端信号包括远端PCM信号,所述近端信号包括近端PCM信号;
所述获取所述远端信号和近端信号的时域信息包括:
对当前帧远端PCM信号和近端PCM信号进行与所述时分复用模式或所述串联自由操作模式相符的语音激活检测,以获取所述当前帧远端PCM信号和近端PCM信号的语音激活检测结果;
计算当前帧远端PCM信号和近端PCM信号的时域能量并对所述时域能量进行平滑处理,得到平滑处理后的当前帧远端PCM信号的时域能量和平滑处理后的当前帧近端PCM信号的时域能量;
由所述平滑处理后的时域能量计算所述平滑处理后的时域能量的时域能量包络相关性或时域能量包络距离;
根据所述时域能量包络相关性或时域能量包络距离、语音激活检测的检测结果和平滑后的近端时域能量获取所述近端说话人时域长时平均能量。
17.如权利要求15所述的方法,其特征在于,若所述当前网络传输模式为无码型变换操作模式,则所述远端信号和近端信号分别为远端输入码流和近端输入码流,所述获取所述远端信号和近端信号的时域信息包括:
对远端输入码流和近端输入码流分别进行部分解码,得到当前帧远端部分解码信号和近端部分解码信号;
对当前帧远端部分解码信号和近端部分解码信号进行与所述无码型变换操作模式相符的语音激活检测,以获取所述当前帧远端部分解码信号和近端部分解码信号的语音激活检测结果;
计算所述当前帧远端部分解码信号和近端部分解码信号的时域能量并对所述时域能量进行平滑处理,得到平滑处理后的当前帧远端部分解码信号的时域能量和平滑处理后的当前帧近端部分解码信号的时域能量;
由所述平滑处理后的时域能量计算所述平滑处理后的时域能量的时域能量包络相关性或时域能量包络距离;
根据所述时域能量包络相关性或时域能量包络距离、语音激活检测的检测结果和平滑后的近端时域能量获取所述近端说话人时域长时平均能量。
18.如权利要求16所述的方法,其特征在于,所述根据所述获取的时域信息对所述远端信号和近端信号进行回声初步检测包括:
对所述当前帧近端PCM信号的时域能量进行静音检测,得到静音检测结果;
统计所述当前帧远端信号的长时语音激活检测结果,所述当前帧远端信号的长时语音激活检测结果为所述当前帧和所述当前帧之前一段预设时间的远端信号的语音激活检测结果;
若所述当前帧之前一段预设时间内没有检测到远端信号中有语音段或者所述静音检测结果为近端信号是静音,则所述回声初步检测的结果为当前近端信号中没有回声,否则所述回声初步检测的结果为当前近端信号中包含回声。
19.如权利要求17所述的方法,其特征在于,所述由所述获取的时域信息对所述远端信号和近端信号进行回声初步检测包括:
对所述当前帧近端部分解码信号的时域能量进行静音检测,得到静音检测结果;
统计所述当前帧远端信号的长时语音激活检测结果,所述当前帧远端信号的长时语音激活检测结果为所述当前帧和所述当前帧之前一段预设时间的远端信号的语音激活检测结果;
若所述当前帧之前一段预设时间内没有检测到远端信号中有语音段或者所述静音检测结果为近端信号是静音,则所述回声初步检测的结果为当前近端信号中没有回声,否则所述回声初步检测的结果为当前近端信号中包含回声。
20.如权利要求18或19所述的方法,其特征在于,所述根据所述获取的时域信息和频域信息,对所述远端信号和近端信号进行时频结合回声检测包括:
根据所述近端说话人时域长时平均能量调整频域回声检测判决门限,得到调整后的回声检测判决门限;
计算所述频域子带能量的最大相关值或最小距离;
若所述频域子带能量的最大相关值不大于所述调整后的回声检测判决门限或所述频域子带能量的最小距离大于所述调整后的回声检测判决门限,则所述时频结合回声检测的结果为当前近端信号中没有回声,否则,所述时频结合回声检测的结果为当前近端信号中包含回声;
所述由所述回声初步检测的检测结果和所述时频结合回声检测的检测结果确定当前近端信号中是否包含回声包括:若所述回声初步检测的结果和所述时频结合回声检测的结果均为包含回声,则所述对远端信号和近端信号进行与所述当前网络传输模式相应的回声检测的检测结果为当前近端信号中包含回声。
21.如权利要求18或19所述的方法,其特征在于,所述根据所述获取的时域信息和频域信息,对所述远端信号和近端信号进行时频结合回声检测包括:
根据所述近端说话人频域长时平均能量调整时域回声检测判决门限,得到调整后的回声检测判决门限;
由缓存的远端时域能量和近端时域能量计算时域相关性或时域距离;
若所述时域相关性的最大相关值不大于所述调整后的回声检测判决门限或所述时域距离的最小值大于所述调整后的回声检测判决门限,则所述时频结合回声检测的结果为当前近端信号中没有回声,否则,所述时频结合回声检测的结果为当前近端信号中包含回声;
所述由所述回声初步检测的检测结果和所述时频结合回声检测的检测结果确定当前近端信号中是否包含回声包括:若所述回声初步检测的结果和所述时频结合回声检测的结果均为包含回声,则所述对远端信号和近端信号进行与所述当前网络传输模式相应的回声检测的检测结果为当前近端信号中包含回声。
22.如权利要求18或19所述的方法,其特征在于,所述根据所述获取的时域信息和频域信息,对所述远端信号和近端信号进行时频结合回声检测包括:
根据所述近端说话人时域长时平均能量对频域相关性或频域距离进行加权计算,得到加权的频域相关性或加权的频域距离;
若所述加权的频域相关性的最大值不大于预设的频域相关性检测阈值或所述加权的频域距离的最小值大于预设的频域距离检测阈值,则所述时频结合回声检测的结果为当前近端信号中没有回声,否则,所述时频结合回声检测的结果为当前近端信号中包含回声;
所述由所述回声初步检测的检测结果和所述时频结合回声检测的检测结果确定当前近端信号中是否包含回声包括:若所述回声初步检测的结果和所述时频结合回声检测的结果均为包含回声,则所述对远端信号和近端信号进行与所述当前网络传输模式相应的回声检测的检测结果为当前近端信号中包含回声。
23.如权利要求18或19所述的方法,其特征在于,所述根据所述获取的时域信息和频域信息,对所述远端信号和近端信号进行时频结合回声检测包括:
根据近端说话人频域长时平均能量对时域相关性或时域距离进行加权计算,得到加权的时域相关性或加权的时域距离;
若所述加权的时域相关性的最大值不大于预设的时域相关性检测阈值或所述加权的时域距离的最小值大于预设的时域距离检测阈值,则所述时频结合回声检测的结果为当前近端信号中没有回声,否则,所述时频结合回声检测的结果为当前近端信号中包含回声;
所述由所述回声初步检测的检测结果和所述时频结合回声检测的检测结果确定当前近端信号中是否包含回声包括:若所述回声初步检测的结果和所述时频结合回声检测的结果均为包含回声,则所述对远端信号和近端信号进行与所述当前网络传输模式相应的回声检测的检测结果为当前近端信号中包含回声。
24.一种回声抑制装置,其特征在于,所述装置包括:
回声检测模块,用于确定当前网络传输模式,对远端信号和近端信号进行与所述当前网络传输模式相应的回声检测,所述当前网络传输模式包括时分复用模式、无码型变换操作模式或串联自由操作模式;
回声检测模块包括:
时域信息获取子模块,用于获取所述远端信号和近端信号的时域信息,所述时域信息包括或近端说话人时域长时平均能量;
频域信息获取子模块,用于获取所述远端信号和近端信号的频域信息,所述频域信息包括近端说话人频域长时平均能量;
时频结合回声检测子模块,用于根据所述获取的时域信息和频域信息,对所述远端信号和近端信号进行时频结合回声检测;
回声抑制启动模块,用于根据所述回声检测的检测结果,启动与所述当前网络传输模式相应的回声抑制模块对所述近端信号中的回声进行抑制;
若所述当前网络传输模式为时分复用模式或者串联自由操作模式,则所述远端信号包括远端脉码调制PCM信号;
若所述当前网络传输模式为无码型变换操作模式,则所述远端信号和近端信号分别为远端输入码流和近端输入码流。
25.如权利要求24所述的装置,其特征在于,所述装置还包括:
回声初步检测模块,用于根据所述获取的时域信息对所述远端信号与近端信号进行回声初步检测,由所述回声初步检测的检测结果和所述时频结合回声检测的检测结果确定当前近端信号中是否包含回声。
26.如权利要求25所述的装置,其特征在于,若所述当前网络传输模式为时分复用模式或者串联自由操作模式,则所述远端信号包括远端脉码调制PCM信号,所述近端信号包括近端脉码调制PCM信号;
所述时域信息获取子模块包括:
第一语音激活检测单元,用于对当前帧远端PCM信号和近端PCM信号进行与所述时分复用模式或所述串联自由操作模式相符的语音激活检测,以获取所述当前帧远端PCM信号和近端PCM信号的语音激活检测结果;
第一时域能量处理单元,用于计算当前帧远端PCM信号和近端PCM信号的时域能量并对所述时域能量进行平滑处理,得到平滑处理后的当前帧远端PCM信号的时域能量和平滑处理后的当前帧近端PCM信号的时域能量;
第一时域能量包络相关性计算单元,用于由所述平滑处理后的时域能量计算所述平滑处理后的时域能量的时域能量包络相关性或时域能量包络距离;
第一近端说话人时域长时平均能量获取单元,用于根据所述时域能量包络相关性或时域能量包络距离、语音激活检测的检测结果和平滑处理后的近端时域能量获取所述近端说话人时域长时平均能量。
27.如权利要求25所述的装置,其特征在于,若所述当前网络传输模式为无码型变换操作模式,则所述远端信号和近端信号分别为远端输入码流和近端输入码流,所述时域信息获取子模块包括:
部分解码单元,用于对远端输入码流和近端输入码流分别进行部分解码,得到当前帧远端部分解码信号和近端部分解码信号;
第二语音激活检测单元,用于对当前帧远端部分解码信号和近端部分解码信号进行与所述无码型变换操作模式相符的语音激活检测,以获取所述当前帧远端部分解码信号和近端部分解码信号的语音激活检测结果;
第二时域能量处理单元,用于计算所述当前帧远端部分解码信号和近端部分解码信号的时域能量并对所述时域能量进行平滑处理,得到平滑处理后的当前帧远端部分解码信号的时域能量和平滑处理后的当前帧近端部分解码信号的时域能量;
第二时域能量包络相关性计算单元,用于由所述平滑处理后的时域能量计算所述平滑处理后的时域能量的时域能量包络相关性或时域能量包络距离;
第二近端说话人时域长时平均能量获取单元,用于根据所述时域能量包络相关性或时域能量包络距离、语音激活检测的检测结果和平滑处理后的近端时域能量获取所述近端说话人时域长时平均能量,或者根据所述时域能量包络距离、语音激活检测的检测结果和平滑后的近端时域能量获取所述近端说话人时域长时平均能量。
28.如权利要求26所述的装置,其特征在于,所述回声初步检测模块包括:
第一静音检测单元,用于对所述当前帧近端PCM信号的时域能量进行静音检测,得到静音检测结果;
第一统计单元,用于统计所述当前帧远端信号的长时语音激活检测结果,所述当前帧远端信号的长时语音激活检测结果为所述当前帧和所述当前帧之前一段预设时间的远端信号的语音激活检测结果;
若所述当前帧之前一段预设时间内没有检测到远端输入信号中有语音段或者所述静音检测结果为近端信号是静音,则所述回声初步检测的结果为当前近端信号中没有回声,否则所述回声初步检测的结果为当前近端信号中包含回声。
29.如权利要求27所述的装置,其特征在于,所述回声初步检测模块包括:
第二静音检测单元,用于对所述当前帧近端部分解码信号的时域能量进行静音检测,得到静音检测结果;
第二统计单元,用于统计所述当前帧远端信号的长时语音激活检测结果,所述当前帧远端信号的长时语音激活检测结果为所述当前帧和所述当前帧之前一段预设时间的远端信号的语音激活检测结果;
若所述当前帧之前一段预设时间内没有检测到远端输入信号中有语音段或者所述静音检测结果为近端信号是静音,则所述回声初步检测的结果为当前近端信号中没有回声,否则所述回声初步检测的结果为当前近端信号中包含回声。
30.如权利要求28或29所述的装置,其特征在于,所述时频结合回声检测子模块包括:
第一调整单元,用于根据所述近端说话人时域长时平均能量调整频域回声检测判决门限,得到调整后的回声检测判决门限;
最大相关值计算单元,用于计算所述频域子带能量的最大相关值或频域子带能量的最小距离;
第一判断单元,用于若所述频域子带能量的最大相关值不大于所述调整后的回声检测判决门限或所述频域子带能量的最小距离大于所述调整后的回声检测判决门限,则判断所述时频结合回声检测的结果为当前近端信号中没有回声,否则,所述时频结合回声检测的结果为当前近端信号中包含回声;
若所述回声初步检测的结果和所述时频结合回声检测的结果均为包含回声,则所述对远端信号和近端信号进行与所述当前网络传输模式相应的回声检测的检测结果为当前近端信号中包含回声。
31.如权利要求28或29所述的装置,其特征在于,所述时频结合回声检测子模块包括:
第二调整单元,用于根据所述近端说话人频域长时平均能量调整时域回声检测判决门限,得到调整后的回声检测判决门限;
时域相关性计算单元,用于由缓存的远端时域能量和近端时域能量计算时域相关性或时域距离;
第二判断单元,用于若所述时域相关性的最大相关值不大于所述调整后的回声检测判决门限或所述时域距离的最小值大于所述调整后的回声检测判决门限,则判断所述时频结合回声检测的结果为当前近端信号中没有回声,否则,所述时频结合回声检测的结果为当前近端信号中包含回声;
若所述回声初步检测的结果和所述时频结合回声检测的结果均为包含回声,则所述对远端信号和近端信号进行与所述当前网络传输模式相应的回声检测的检测结果为当前近端信号中包含回声。
32.如权利要求28或29所述的装置,其特征在于,所述时频结合回声检测子模块包括:
加权频域相关性计算单元,用于根据所述近端说话人时域长时平均能量对频域相关性或频域距离进行加权计算,得到加权的频域相关性或加权的频域距离;
第三判断单元,用于若所述加权的频域相关性的最大值不大于预设的频域相关性检测阈值或所述加权的频域距离的最小值大于预设的频域距离检测阈值,则判断所述时频结合回声检测的结果为当前近端信号中没有回声,否则,所述时频结合回声检测的结果为当前近端信号中包含回声;
若所述回声初步检测的结果和所述时频结合回声检测的结果均为包含回声,则所述对远端信号和近端信号进行与所述当前网络传输模式相应的回声检测的检测结果为当前近端信号中包含回声。
33.如权利要求28或29所述的装置,其特征在于,所述时频结合回声检测子模块包括:
加权时域相关性计算单元,用于根据所述近端说话人频域长时平均能量对时域相关性或时域距离进行加权计算,得到加权的时域相关性或加权的时域距离;
第四判断单元,用于若所述加权的时域相关性的最大值不大于预设的时域相关性检测阈值或所述加权的时域距离的最小值大于预设的时域距离检测阈值,则所述时频结合回声检测的结果为当前近端信号中没有回声,否则,所述时频结合回声检测的结果为当前近端信号中包含回声;
若所述回声初步检测的结果和所述时频结合回声检测的结果均为包含回声,则所述对远端信号和近端信号进行与所述当前网络传输模式相应的回声检测的检测结果为当前近端信号中包含回声。
34.如权利要求26所述的装置,其特征在于,若所述当前网络传输模式为时分复用模式,则所述回声抑制启动模块包括:
第一噪声检测单元,用于对所述近端PCM信号进行噪声检测;
第一参数获取单元,用于若当前帧是噪声段,则获取噪声信号的最新线性预测系数和长时帧能量;
舒适噪声生成单元,用于若所述回声检测的检测结果为当前近端信号包含回声,则由所述最新线性预测系数和长时帧能量生成舒适噪声;
输出单元,用于若当前帧属于拖尾段,则将所述舒适噪声和所述近端PCM信号混合作为进行了回声抑制的近端PCM信号输出,否则,将所述舒适噪声作为进行了回声抑制的近端PCM信号输出。
35.如权利要求26所述的装置,其特征在于,若所述当前网络传输模式为串联自由操作模式,则所述回声抑制启动模块包括:
第一混合单元,用于控制线性域回声抑制模块,根据预先设定的拖尾段长度和所述回声检测的检测结果进行判断,如果当前帧处于拖尾段,则混合原始信号以及产生的舒适噪声信号作为拖尾段的输出信号;
第二混合单元,用于控制参数域回声抑制模块,根据预先设定的拖尾段长度和所述回声检测的检测结果进行判断,如果当前帧处于拖尾段,则混合原始信号参数以及产生的舒适噪声信号参数,重新量化编码后作为回声抑制后的近端码流,或者,对估计出的舒适噪声帧所需参数进行重新量化和编码,再根据前一个非回声帧的参数以及用于产生舒适噪声帧的参数,调整舒适噪声帧编码后的索引值,得到回声抑制后的近端码流。
36.如权利要求27所述的装置,其特征在于,所述回声抑制启动模块包括:
第二声检测单元,用于对所述近端部分解码信号进行噪声检测;
第二参数获取单元,用于若当前帧是噪声段,则获取噪声信号的最新长时线谱对系数和长时激励能量;
估计单元,用于若所述回声检测的检测结果为当前近端信号包含回声且当前帧不属于拖尾段,则由所述最新长时线谱对系数和长时激励能量估计编码舒适噪声帧所需的参数,重新量化后编码作为进行了回声抑制的近端码流;
调整单元,用于若所述回声检测的检测结果为当前近端信号包含回声且当前帧属于拖尾段,则由当前帧之前的非回声帧的长时线谱对系数和长时激励能量估计值以及所述最新长时线谱对系数和长时激励能量估计值,调整估计出的编码舒适噪声帧所需的参数,将调整后的参数重新量化后编码作为进行了回声抑制的近端码流。
37.一种回声检测装置,其特征在于,所述装置包括:
用于确定当前网络传输模式的模块,当前网络传输模式包括时分复用模式、无码型变换操作模式或串联自由操作模式;
若所述当前网络传输模式为时分复用模式或者串联自由操作模式,则远端信号包括远端脉码调制PCM信号,近端信号包括近端脉码调制PCM信号;
若所述当前网络传输模式为无码型变换操作模式,则所述远端信号和近端信号分别为远端输入码流和近端输入码流;
时域信息获取模块,用于获取所述远端信号和近端信号的时域信息,所述时域信息包括近端说话人时域长时平均能量;
频域信息获取模块,用于获取所述远端信号和近端信号的频域信息,所述频域信息包括近端说话人频域长时平均能量;
时频结合回声检测模块,用于根据所述获取的时域信息和频域信息,对所述远端信号和近端信号进行时频结合回声检测。
38.如权利要求37所述的装置,其特征在于,所述装置还包括:
回声初步检测模块,用于根据所述获取的时域信息对所述远端信号与近端信号进行回声初步检测,由所述回声初步检测的检测结果和所述时频结合回声检测的检测结果确定当前近端信号中是否包含回声。
39.如权利要求38所述的装置,其特征在于,若所述当前网络传输模式为时分复用模式或者串联自由操作模式,则所述远端信号包括远端脉码调制PCM信号,所述近端信号包括近端脉码调制PCM信号;
所述时域信息获取模块包括:
第一语音激活检测单元,用于对当前帧远端PCM信号和近端PCM信号进行与所述时分复用模式或所述串联自由操作模式相符的语音激活检测,以获取所述当前帧远端PCM信号和近端PCM信号的语音激活检测结果;
第一时域能量处理单元,用于计算当前帧远端PCM信号和近端PCM信号的时域能量并对所述时域能量进行平滑处理,得到平滑处理后的当前帧远端PCM信号的时域能量和平滑处理后的当前帧近端PCM信号的时域能量;
第一时域能量包络相关性计算单元,用于由所述平滑处理后的时域能量计算所述平滑处理后的时域能量的时域能量包络相关性或时域能量包络距离;
第一近端说话人时域长时平均能量获取单元,用于根据所述时域能量包络相关性或时域能量包络距离、语音激活检测的检测结果和平滑处理后的近端时域能量获取所述近端说话人时域长时平均能量。
40.如权利要求38所述的装置,其特征在于,若所述当前网络传输模式为无码型变换操作模式,则所述远端信号和近端信号分别为远端输入码流和近端输入码流,所述时域信息获取模块包括:
部分解码单元,用于对远端输入码流和近端输入码流分别进行部分解码,得到当前帧远端部分解码信号和近端部分解码信号;
第二语音激活检测单元,用于对当前帧远端部分解码信号和近端部分解码信号进行与所述无码型变换操作模式相符的语音激活检测,以获取所述当前帧远端部分解码信号和近端部分解码信号的语音激活检测结果;
第二时域能量处理单元,用于计算所述当前帧远端部分解码信号和近端部分解码信号的时域能量并对所述时域能量进行平滑处理,得到平滑处理后的当前帧远端部分解码信号的时域能量和平滑处理后的当前帧近端部分解码信号的时域能量;
第二时域能量包络相关性计算单元,用于由所述平滑处理后的时域能量计算所述平滑处理后的时域能量的时域能量包络相关性或时域能量包络距离;
第二近端说话人时域长时平均能量获取单元,用于根据所述时域能量包络相关性或时域能量包络距离、语音激活检测的检测结果和平滑处理后的近端时域能量获取所述近端说话人时域长时平均能量,或者根据所述时域能量包络距离、语音激活检测的检测结果和平滑后的近端时域能量获取所述近端说话人时域长时平均能量。
41.如权利要求39所述的装置,其特征在于,所述回声初步检测模块包括:
第一静音检测单元,用于对所述当前帧近端PCM信号的时域能量进行静音检测,得到静音检测结果;
第一统计单元,用于统计所述当前帧远端信号的长时语音激活检测结果,所述当前帧远端信号的长时语音激活检测结果为所述当前帧和所述当前帧之前一段预设时间的远端信号的语音激活检测结果;
若所述当前帧之前一段预设时间内没有检测到远端输入信号中有语音段或者所述静音检测结果为近端信号是静音,则所述回声初步检测的结果为当前近端信号中没有回声,否则所述回声初步检测的结果为当前近端信号中包含回声。
42.如权利要求40所述的装置,其特征在于,所述回声初步检测模块包括:
第二静音检测单元,用于对所述当前帧近端部分解码信号的时域能量进行静音检测,得到静音检测结果;
第二统计单元,用于统计所述当前帧远端信号的长时语音激活检测结果,所述当前帧远端信号的长时语音激活检测结果为所述当前帧和所述当前帧之前一段预设时间的远端信号的语音激活检测结果;
若所述当前帧之前一段预设时间内没有检测到远端输入信号中有语音段或者所述静音检测结果为近端信号是静音,则所述回声初步检测的结果为当前近端信号中没有回声,否则所述回声初步检测的结果为当前近端信号中包含回声。
43.如权利要求41或42所述的装置,其特征在于,所述时频结合回声检测模块包括:
第一调整单元,用于根据所述近端说话人时域长时平均能量调整频域回声检测判决门限,得到调整后的回声检测判决门限;
最大相关值计算单元,用于计算所述频域子带能量的最大相关值或频域子带能量的最小距离;
第一判断单元,用于若所述频域子带能量的最大相关值不大于所述调整后的回声检测判决门限或所述频域子带能量的最小距离大于所述调整后的回声检测判决门限,则判断所述时频结合回声检测的结果为当前近端信号中没有回声,否则,所述时频结合回声检测的结果为当前近端信号中包含回声;
若所述回声初步检测的结果和所述时频结合回声检测的结果均为包含回声,则对远端信号和近端信号进行与所述当前网络传输模式相应的回声检测的检测结果为当前近端信号中包含回声。
44.如权利要求41或42所述的装置,其特征在于,所述时频结合回声检测模块包括:
第二调整单元,用于根据所述近端说话人频域长时平均能量调整时域回声检测判决门限,得到调整后的回声检测判决门限;
时域相关性计算单元,用于由缓存的远端时域能量和近端时域能量计算时域相关性或时域距离;
第二判断单元,用于若所述时域相关性的最大相关值不大于所述调整后的回声检测判决门限或所述时域距离的最小值大于所述调整后的回声检测判决门限,则判断所述时频结合回声检测的结果为当前近端信号中没有回声,否则,所述时频结合回声检测的结果为当前近端信号中包含回声;
若所述回声初步检测的结果和所述时频结合回声检测的结果均为包含回声,则对远端信号和近端信号进行与所述当前网络传输模式相应的回声检测的检测结果为当前近端信号中包含回声。
45.如权利要求41或42所述的装置,其特征在于,所述时频结合回声检测模块包括:
加权频域相关性计算单元,用于根据所述近端说话人时域长时平均能量对频域相关性或频域距离进行加权计算,得到加权的频域相关性或加权的频域距离;
第三判断单元,用于若所述加权的频域相关性的最大值不大于预设的频域相关性检测阈值或所述加权的频域距离的最小值大于预设的频域距离检测阈值,则判断所述时频结合回声检测的结果为当前近端信号中没有回声,否则,所述时频结合回声检测的结果为当前近端信号中包含回声;
若所述回声初步检测的结果和所述时频结合回声检测的结果均为包含回声,则对远端信号和近端信号进行与所述当前网络传输模式相应的回声检测的检测结果为当前近端信号中包含回声。
46.如权利要求41或42所述的装置,其特征在于,所述时频结合回声检测模块包括:
加权时域相关性计算单元,用于根据所述近端说话人频域长时平均能量对时域相关性或时域距离进行加权计算,得到加权的时域相关性或加权的时域距离;
第四判断单元,用于若所述加权的时域相关性的最大值不大于预设的时域相关性检测阈值或所述加权的时域距离的最小值大于预设的时域距离检测阈值,则所述时频结合回声检测的结果为当前近端信号中没有回声,否则,所述时频结合回声检测的结果为当前近端信号中包含回声;
若所述回声初步检测的结果和所述时频结合回声检测的结果均为包含回声,则对远端信号和近端信号进行与所述当前网络传输模式相应的回声检测的检测结果为当前近端信号中包含回声。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN201110175365.4A CN102855881B (zh) | 2011-06-27 | 2011-06-27 | 一种回声抑制方法和装置 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN201110175365.4A CN102855881B (zh) | 2011-06-27 | 2011-06-27 | 一种回声抑制方法和装置 |
Publications (2)
Publication Number | Publication Date |
---|---|
CN102855881A CN102855881A (zh) | 2013-01-02 |
CN102855881B true CN102855881B (zh) | 2014-12-03 |
Family
ID=47402408
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN201110175365.4A Active CN102855881B (zh) | 2011-06-27 | 2011-06-27 | 一种回声抑制方法和装置 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN102855881B (zh) |
Families Citing this family (7)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN107180643A (zh) * | 2016-03-11 | 2017-09-19 | 深圳市有信网络技术有限公司 | 一种啸叫声检测和消除系统 |
CN108831491B (zh) * | 2017-05-04 | 2020-07-17 | 展讯通信(上海)有限公司 | 回声延迟估计方法及装置、存储介质、电子设备 |
CN109256145B (zh) * | 2017-07-14 | 2021-11-02 | 北京搜狗科技发展有限公司 | 基于终端的音频处理方法、装置、终端和可读存储介质 |
CN108696648B (zh) * | 2018-05-16 | 2021-08-24 | 上海小度技术有限公司 | 一种短时语音信号处理的方法、装置、设备及存储介质 |
CN108962257A (zh) * | 2018-07-16 | 2018-12-07 | 安徽国通亿创科技股份有限公司 | 一种在线互动直播回音消除系统 |
CN111370015B (zh) * | 2020-02-28 | 2021-03-19 | 北京字节跳动网络技术有限公司 | 回声消除方法、装置、电子设备及存储介质 |
CN112235679B (zh) * | 2020-10-29 | 2022-10-14 | 北京声加科技有限公司 | 适用于耳机的信号均衡方法、处理器及耳机 |
Citations (5)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
US6547336B2 (en) * | 2000-04-20 | 2003-04-15 | MAN TAKRAF Fördertechnik GmbH | Open cast mining device and apparatus for testing the cutting minability of critical material |
CN101179294A (zh) * | 2006-11-09 | 2008-05-14 | 爱普拉斯通信技术(北京)有限公司 | 自适应回声消除器及其回声消除方法 |
CN101179635A (zh) * | 2006-11-06 | 2008-05-14 | 爱普拉斯通信技术(北京)有限公司 | 对免提电话进行回声控制的装置、方法和系统 |
CN101272414A (zh) * | 2008-05-09 | 2008-09-24 | 北京泰得思达科技发展有限公司 | 一种对免提电话进行回声控制的方法 |
CN101617363A (zh) * | 2007-02-21 | 2009-12-30 | 艾利森电话股份有限公司 | 双端话音检测器 |
Family Cites Families (1)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
JP4457639B2 (ja) * | 2003-11-04 | 2010-04-28 | 沖電気工業株式会社 | エコーキャンセラ |
-
2011
- 2011-06-27 CN CN201110175365.4A patent/CN102855881B/zh active Active
Patent Citations (5)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
US6547336B2 (en) * | 2000-04-20 | 2003-04-15 | MAN TAKRAF Fördertechnik GmbH | Open cast mining device and apparatus for testing the cutting minability of critical material |
CN101179635A (zh) * | 2006-11-06 | 2008-05-14 | 爱普拉斯通信技术(北京)有限公司 | 对免提电话进行回声控制的装置、方法和系统 |
CN101179294A (zh) * | 2006-11-09 | 2008-05-14 | 爱普拉斯通信技术(北京)有限公司 | 自适应回声消除器及其回声消除方法 |
CN101617363A (zh) * | 2007-02-21 | 2009-12-30 | 艾利森电话股份有限公司 | 双端话音检测器 |
CN101272414A (zh) * | 2008-05-09 | 2008-09-24 | 北京泰得思达科技发展有限公司 | 一种对免提电话进行回声控制的方法 |
Also Published As
Publication number | Publication date |
---|---|
CN102855881A (zh) | 2013-01-02 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
CN102855881B (zh) | 一种回声抑制方法和装置 | |
CN1097360C (zh) | 数字移动通信系统中的回声消除 | |
KR101018952B1 (ko) | 음성 통신 시스템에서의 컴포트 노이즈 생성 방법 및 장치 | |
US6526139B1 (en) | Consolidated noise injection in a voice processing system | |
US7996215B1 (en) | Method and apparatus for voice activity detection, and encoder | |
US9100756B2 (en) | Microphone occlusion detector | |
CN112334980B (zh) | 自适应舒适噪声参数确定 | |
KR20100125272A (ko) | 다중분해능 분석을 사용하는 컨텍스트 프로세싱을 위한 시스템들, 방법들 및 장치 | |
AU2017405291B2 (en) | Method and apparatus for processing speech signal adaptive to noise environment | |
US20130006622A1 (en) | Adaptive conference comfort noise | |
WO2009097417A1 (en) | Improving sound quality by intelligently selecting between signals from a plurality of microphones | |
ZA200303829B (en) | Method and system for comfort noise generation in speech communication. | |
EP2245826A1 (en) | Method and apparatus for detecting and suppressing echo in packet networks | |
WO2000075919A1 (en) | Methods and apparatus for generating comfort noise using parametric noise model statistics | |
US8144862B2 (en) | Method and apparatus for the detection and suppression of echo in packet based communication networks using frame energy estimation | |
JP4551817B2 (ja) | ノイズレベル推定方法及びその装置 | |
CN103258542A (zh) | 半导体装置和语音通信装置 | |
US8767974B1 (en) | System and method for generating comfort noise | |
US12277944B2 (en) | Adaptive comfort noise parameter determination |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
C06 | Publication | ||
PB01 | Publication | ||
C10 | Entry into substantive examination | ||
SE01 | Entry into force of request for substantive examination | ||
C14 | Grant of patent or utility model | ||
GR01 | Patent grant | ||
TR01 | Transfer of patent right | ||
TR01 | Transfer of patent right |
Effective date of registration: 20211223 Address after: 450046 Floor 9, building 1, Zhengshang Boya Plaza, Longzihu wisdom Island, Zhengdong New Area, Zhengzhou City, Henan Province Patentee after: xFusion Digital Technologies Co., Ltd. Address before: 518129 Bantian HUAWEI headquarters office building, Longgang District, Guangdong, Shenzhen Patentee before: HUAWEI TECHNOLOGIES Co.,Ltd. |