[go: up one dir, main page]

CN119207453A - 一种非线性回声消除方法、装置和电子设备 - Google Patents

一种非线性回声消除方法、装置和电子设备 Download PDF

Info

Publication number
CN119207453A
CN119207453A CN202411700275.6A CN202411700275A CN119207453A CN 119207453 A CN119207453 A CN 119207453A CN 202411700275 A CN202411700275 A CN 202411700275A CN 119207453 A CN119207453 A CN 119207453A
Authority
CN
China
Prior art keywords
signal
domain
measurement
representing
far
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Granted
Application number
CN202411700275.6A
Other languages
English (en)
Other versions
CN119207453B (zh
Inventor
盛受琼
朱旭东
王军
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Zhejiang Xinmai Microelectronics Co ltd
Original Assignee
Zhejiang Xinmai Microelectronics Co ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Zhejiang Xinmai Microelectronics Co ltd filed Critical Zhejiang Xinmai Microelectronics Co ltd
Priority to CN202411700275.6A priority Critical patent/CN119207453B/zh
Publication of CN119207453A publication Critical patent/CN119207453A/zh
Application granted granted Critical
Publication of CN119207453B publication Critical patent/CN119207453B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Classifications

    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L21/00Speech or voice signal processing techniques to produce another audible or non-audible signal, e.g. visual or tactile, in order to modify its quality or its intelligibility
    • G10L21/02Speech enhancement, e.g. noise reduction or echo cancellation
    • G10L21/0208Noise filtering
    • G10L21/0216Noise filtering characterised by the method used for estimating noise
    • G10L21/0224Processing in the time domain
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10KSOUND-PRODUCING DEVICES; METHODS OR DEVICES FOR PROTECTING AGAINST, OR FOR DAMPING, NOISE OR OTHER ACOUSTIC WAVES IN GENERAL; ACOUSTICS NOT OTHERWISE PROVIDED FOR
    • G10K11/00Methods or devices for transmitting, conducting or directing sound in general; Methods or devices for protecting against, or for damping, noise or other acoustic waves in general
    • G10K11/16Methods or devices for protecting against, or for damping, noise or other acoustic waves in general
    • G10K11/175Methods or devices for protecting against, or for damping, noise or other acoustic waves in general using interference effects; Masking sound
    • G10K11/178Methods or devices for protecting against, or for damping, noise or other acoustic waves in general using interference effects; Masking sound by electro-acoustically regenerating the original acoustic waves in anti-phase
    • G10K11/1781Methods or devices for protecting against, or for damping, noise or other acoustic waves in general using interference effects; Masking sound by electro-acoustically regenerating the original acoustic waves in anti-phase characterised by the analysis of input or output signals, e.g. frequency range, modes, transfer functions
    • G10K11/17821Methods or devices for protecting against, or for damping, noise or other acoustic waves in general using interference effects; Masking sound by electro-acoustically regenerating the original acoustic waves in anti-phase characterised by the analysis of input or output signals, e.g. frequency range, modes, transfer functions characterised by the analysis of the input signals only
    • G10K11/17825Error signals
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10KSOUND-PRODUCING DEVICES; METHODS OR DEVICES FOR PROTECTING AGAINST, OR FOR DAMPING, NOISE OR OTHER ACOUSTIC WAVES IN GENERAL; ACOUSTICS NOT OTHERWISE PROVIDED FOR
    • G10K11/00Methods or devices for transmitting, conducting or directing sound in general; Methods or devices for protecting against, or for damping, noise or other acoustic waves in general
    • G10K11/16Methods or devices for protecting against, or for damping, noise or other acoustic waves in general
    • G10K11/175Methods or devices for protecting against, or for damping, noise or other acoustic waves in general using interference effects; Masking sound
    • G10K11/178Methods or devices for protecting against, or for damping, noise or other acoustic waves in general using interference effects; Masking sound by electro-acoustically regenerating the original acoustic waves in anti-phase
    • G10K11/1787General system configurations
    • G10K11/17875General system configurations using an error signal without a reference signal, e.g. pure feedback
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L21/00Speech or voice signal processing techniques to produce another audible or non-audible signal, e.g. visual or tactile, in order to modify its quality or its intelligibility
    • G10L21/02Speech enhancement, e.g. noise reduction or echo cancellation
    • G10L21/0208Noise filtering
    • G10L21/0216Noise filtering characterised by the method used for estimating noise
    • G10L21/0232Processing in the frequency domain
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L21/00Speech or voice signal processing techniques to produce another audible or non-audible signal, e.g. visual or tactile, in order to modify its quality or its intelligibility
    • G10L21/02Speech enhancement, e.g. noise reduction or echo cancellation
    • G10L21/0208Noise filtering
    • G10L21/0264Noise filtering characterised by the type of parameter measurement, e.g. correlation techniques, zero crossing techniques or predictive techniques
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L25/00Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00
    • G10L25/03Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00 characterised by the type of extracted parameters
    • G10L25/21Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00 characterised by the type of extracted parameters the extracted parameters being power information
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L21/00Speech or voice signal processing techniques to produce another audible or non-audible signal, e.g. visual or tactile, in order to modify its quality or its intelligibility
    • G10L21/02Speech enhancement, e.g. noise reduction or echo cancellation
    • G10L21/0208Noise filtering
    • G10L2021/02082Noise filtering the noise being echo, reverberation of the speech

Landscapes

  • Engineering & Computer Science (AREA)
  • Physics & Mathematics (AREA)
  • Acoustics & Sound (AREA)
  • Multimedia (AREA)
  • Computational Linguistics (AREA)
  • Signal Processing (AREA)
  • Health & Medical Sciences (AREA)
  • Audiology, Speech & Language Pathology (AREA)
  • Human Computer Interaction (AREA)
  • Quality & Reliability (AREA)
  • Cable Transmission Systems, Equalization Of Radio And Reduction Of Echo (AREA)

Abstract

本发明公开了一种非线性回声消除方法、装置和电子设备,涉及回声消除技术领域,方法包括:获取待回声消除信号,将待回声消除信号由时域信号转换为频域信号;将频域信号转换为测量域信号,根据测量域的近端信号的语音状态是否发生转变预先设置平滑参数,根据测量域的每个频点、测量域信号和平滑参数计算得到功率谱参数集,根据功率谱参数集计算得到互相干系数,根据感知测量域的每个频点的互相干系数判断当前帧是否有回声,根据判断结果进行非线性抑制得到基于测量域的非线性回声抑制信号;将测量域信号转为频域信号,并对频域信号进行后处理,将后处理的信号转换为时域信号。降低了高斯白噪声导致的相干性的误判率,降低了算法的计算量。

Description

一种非线性回声消除方法、装置和电子设备
技术领域
本发明涉及回声消除技术领域,尤其涉及一种非线性回声消除方法、装置和电子设备。
背景技术
近年来,互联网的发展推动了网络电话和视频会议等实时通信技术的广泛应用。与此同时,其语音质量也日益受到关注,其中一个最关键的因素就是声学回声问题。由于在实际的通话设备中,实际的音频信号通过扬声器播放并经过空气传播后,可能会因设备特性或环境变化而产生谐波失真、动态压缩等形式的非线性失真,导致回声路径中的非线性特征,该非线性特征严重影响了通话的质量。
目前较成熟且广泛使用的是Google开源的WebRTC中的回声消除算法为了减少这些非线性失真,使用自适应滤波器调整回声消除的效果,并引入了非线性处理模块处理非线性问题。其原理是将时域信号转为傅里叶变换域,计算每个频率带的相干性,判断近端信号中是否存在回声。
然而上述现有的回声消除算法存在一些弊端,例如在加入高斯白噪声后,噪声的随机性会引入额外的相位差和幅度波动,导致计算出的相干系数降低。尤其是在信噪比(SNR)较低的情况下,噪声的影响更为显著,可能导致信号的相干性显著下降。高斯白噪声对各个频率成分的影响是均匀的,因此在计算相干性时,噪声可能会掩盖语音信号中某些频率成分的相位一致性,导致相干性在这些频率范围内变得不可靠。
发明内容
发明目的:在于降低了远端信号、近端信号和误差信号中的高斯白噪声而影响相干性的误判率,提供一种非线性回声消除方法、装置和电子设备。
技术方案:
根据本公开的一方面,提供了一种非线性回声消除方法,包括:
获取待回声消除信号,将待回声消除信号由时域信号转换为频域信号;其中,待回声消除信号包括当前帧的远端信号、近端信号和误差信号;
将频域信号转换为测量域信号,根据测量域的近端信号的语音状态是否发生转变预先设置平滑参数,根据测量域的每个频点、测量域信号和平滑参数计算得到功率谱参数集,根据功率谱参数集计算得到互相干系数,其中,互相干系数包括:远端信号和近端信号的互相干系数,记为远端近端互相干系数,以及近端信号和误差信号的误差互相干系数,记为近端误差互相干系数;
根据测量域的每个频点的远端近端互相干系数和近端误差互相干系数判断当前帧是否有回声,根据判断结果进行非线性抑制得到基于测量域的非线性回声抑制信号;
将测量域的非线性回声抑制信号转为基于频域的非线性回声抑制信号,并对基于频域的非线性回声抑制信号进行后处理,以得到基于频域的输出信号,将基于频域的输出信号转换为时域信号。
根据本公开的另一方面,提供了一种非线性回声消除装置,应用于终端设备,包括:
获取模块,用于获取待回声消除信号,将待回声消除信号由时域信号转换为频域信号;其中,待回声消除信号包括当前帧的远端信号、近端信号和误差信号;
测量域模块,用于将频域信号转换为测量域信号,根据测量域的近端信号的语音状态是否发生转变预先设置平滑参数,根据测量域的每个频点、测量域信号和平滑参数计算得到功率谱参数集,根据功率谱参数集计算得到互相干系数,其中,互相干系数包括:远端信号和近端信号的互相干系数,记为远端近端互相干系数,以及近端信号和误差信号的误差互相干系数,记为近端误差互相干系数;
消除模块,用于根据测量域的每个频点的远端近端互相干系数和近端误差互相干系数判断当前帧是否有回声,根据判断结果进行非线性抑制得到基于测量域的非线性回声抑制信号;
转换模块,用于将测量域的非线性回声抑制信号转为基于频域的非线性回声抑制信号,并对基于频域的非线性回声抑制信号进行后处理,以得到基于频域的输出信号,将基于频域的输出信号转换为时域信号。
根据本公开的又一方面,提供了一种电子设备,包括:至少一个处理器;以及与至少一个处理器通信连接的存储器;其中,
存储器存储有可被至少一个处理器执行的指令,指令被至少一个处理器执行,以使至少一个处理器能够执行上述中任一项的非线性回声消除方法。
根据本公开的又一方面,提供了一种存储有计算机指令的非瞬时计算机可读存储介质,其中,计算机指令用于使计算机执行上述中任一项的非线性回声消除方法。
有益效果:使用压缩感知理论对远端信号,近端信号和误差信号进行预处理,即将频域上的远端信号,近端信号和误差信号转为压缩感知测量域上的远端信号,近端信号和误差信号,然后再进一步计算这些信号之间的一个或多个相干性,不仅降低了远端信号、近端信号和误差信号中的高斯白噪声而影响相干性的误判率;
经过压缩感知测量矩阵的压缩,使得测量域信号长度小于时域信号长度,降低了算法的计算量;
根据近端信号的语音状态是否转变,采用不同的平滑参数对远端信号与近端信号之间的平滑互功率谱,近端信号与误差信号之间的平滑互功率谱,远端信号的功率谱,近端信号的功率谱,误差信号的功率谱进行平滑,可以加快收敛和避免额频谱中的一些细节波动。
附图说明
图1是本发明的实施例1的一种非线性回声消除方法的流程图;
图2是本发明的实施例2的一种非线性回声消除装置的结构示意图。
具体实施方式
为使本发明技术方案更加清楚,以下结合附图及具体实施例对本发明做进一步详细说明。
实施例1:图1为本公开实施例1提供的一种非线性回声消除方法的流程图。
在上述实施例中,该非线性回声消除方法应用于具有通信功能和/或人机交互功能的终端设备,其中,终端设备可以是手机、平板电脑等。终端设备在通信过程中,麦克风的输入信号中包括近端信号,即用户输入的语音信号,同时还存在线性回声信号和非线性回声信号,该回声消除方法的目的就是解决现有技术使用相干性进行非线性抑制时由于存在的高斯白噪声而导致算法失效的问题,提出了基于压缩感知测量域(下称“测量域”)的相干性系数,用于判断当前帧的近端信号是否存在回声,并进行非线性抑制,从而解决了现有技术中因为存在的高斯白噪声而导致算法失效的问题,以得到相对纯净的近端信号。
如图1所示,包括:
步骤S101,获取待回声消除信号,将待回声消除信号由时域信号转换为频域信号;其中,待回声消除信号包括当前帧的远端信号、近端信号和误差信号;
优选的,可以采用傅里叶变换将待回声消除信号由时域信号转换为频域信号;
作为优选的实施方式,在回声消除算法中,对于当前帧的待回声消除信号,该待回声消除信号包括:远端信号,近端信号和线性回声消除后得到的误差信号,其中信号长度为,分别进行傅里叶变换,得到基于频域的远端信号,近端信号和线性回声消除后得到的误差信号,其中信号长度为
步骤S102,将频域信号转换为测量域信号,根据测量域的近端信号的语音状态是否发生转变预先设置平滑参数,根据测量域的每个频点、测量域信号和平滑参数计算得到功率谱参数集,根据功率谱参数集计算得到互相干系数,其中,互相干系数包括:远端信号和近端信号的互相干系数,记为远端近端互相干系数,以及近端信号和误差信号的误差互相干系数,记为近端误差互相干系数;
在上述实施例中,使用压缩感知理论,将回声消除算法中经过线性滤波后得到的误差信号、远端信号和近端信号从频域转为测量域,然后计算基于测量域的误差信号、远端信号和近端信号之间的互相干性,避免了高斯白噪声的影响;
具体地,使用压缩感知理论对远端信号、近端信号和误差信号进行预处理,即将频域上的远端信号,近端信号和误差信号转为压缩感知测量域上的远端信号、近端信号和误差信号,然后在进一步计算这些信号之间的一个或多个相干性,不仅降低了远端信号、近端信号和误差信号中的高斯白噪声而影响相干性的误判率。
需要说明的是,压缩感知理论的基本原理是对于可压缩的或在某个变换域上是稀疏的信号,可以进行低维投影,然后应用压缩感知重构算法恢复信号。其数学模型如下述公式所示:
;(1)
其中,表示长度为的一维原始信号;
表示长度为的一维压缩感知测量信号;
表示大小为的测量矩阵。
由于压缩感知理论是基于信号的稀疏性,若称信号是稀疏的,则经过投影,投影系数大部分为零,只有少数为非零,数学表示如下述公式所示:
;(2)
其中,表示正交基矩阵;
表示长度为的一维投影系数也称为稀疏信号。
结合公式(1)和公式(2)可得下述公式:
;(3)
为了恢复原始信号,需要求解公式(3)的逆得到稀疏信号。通过将公式(3)的逆问题转为最小化范数问题,得到下述公式:
;(4)
其中表示向量的非零元素的个数。然而求解公式(4)是个NP(Non-deterministic Polynomial,多项式复杂程度的非确定性)问题,需要将其转为范数的最小化问题近似求解,以得到公式(5):
;(5)
步骤S102,具体包括:
步骤S1021,通过压缩感知理论将频域信号映射到感知测量域上,以将频域信号转换为测量域信号,如下述公式所示:
;(6)
;(7)
;(8)
其中,用于表示基于测量域的远端信号,用于表示基于频域的远端信号;
用于表示基于测量域的近端信号,用于表示基于频域的近端信号;
用于表示基于测量域的线性回声消除后得到的误差信号,用于表示基于频域的线性回声消除后得到的误差信号;
表示大小为的测量矩阵,其中,用于表示时域信号的信号长度,用于表示测量域信号的信号长度,
在上述实施例中,经过压缩感知测量矩阵的压缩,使得测量域信号长度小于所需计算的频域信号程度(时域信号长度的二分之一倍加一),降低了算法的计算量。
步骤S1022,如下述公式,基于感知测量域的每个频点、测量域信号和预先设置的平滑参数计算得到:
基于测量域的远端信号和近端信号之间的互功率谱,记为远端近端互功率谱;
;(9)
其中,表示第帧,用于表示基于测量域上的频点,
用于表示计算共轭;
用于表示基于测量域的远端近端互功率谱;
用于表示平滑参数;
基于测量域的近端信号和误差信号之间的互功率谱,记为近端误差互功率谱;
;(10)
其中,用于表示基于测量域的近端误差互功率谱;
以及基于测量域的远端信号、近端信号和误差信号的功率谱;
;(11)
;(12)
;(13)
其中,用于表示基于测量域的远端信号的功率谱;
用于表示基于测量域的近端信号的功率谱;
用于表示基于测量域的误差信号的功率谱。
步骤S102还包括:
步骤S1023,采用语音端点检测算法根据近端信号的语音状态是否转变预先设置对应的平滑参数,其中,平滑参数包括第一平滑参数和第二平滑参数,第一平滑参数小于第二平滑参数;
具体包括,如下述公式所示:
当近端信号的语音状态发生转变时,设置第一平滑参数;
需要说明的时,近端信号的语音状态发生转变包括以下两种情况:
情况一、从噪声区转为语音区:近端信号的当前帧是语音帧(存在近端语音或者远端回声)且上一帧是静音帧(不包含语音信息);
情况二、从语音区转为噪声区:近端信号的当前帧是静音帧且上一帧是语音帧时;
当近端信号的语音状态未发生转变时,设置第二平滑参数;
需要说明的是:近端信号的语音状态未发生转变包括以下两种情况:
情况一:一直语音区:近端信号的当前帧是语音帧且上一帧还是语音帧;
情况二:一直噪声区:近端信号的当前帧是静音帧且上一帧也是静音帧;
如下述公式所示:
;(14)
其中,
用于表示平滑参数;
用于表示第一平滑参数;
用于表示第二平滑参数;
用于表示近端信号的语音端点检测结果。
在上述实施例中,当近端信号的语音状态发生转变时,使用较小的平滑参数对远端信号与近端信号之间的平滑互功率谱,近端信号与误差信号之间的平滑互功率谱,远端信号的功率谱,近端信号的功率谱,误差信号的功率谱进行平滑,加快收敛,而在语音区或噪声区时使用较大的平滑参数,避免额频谱中的一些细节波动,导致非线性抑制的输出信号存在音乐噪声。
步骤S102包括:
S1024,根据功率谱参数集计算得到互相干系数,具体包括:
根据远端近端互功率谱、远端信号的功率谱和近端信号的功率谱计算远端信号和近端信号的互相干系数,记为远端近端互相干系数,如下述公式所示:
;(15)
其中,用于表示远端近端互相干系数;
根据近端误差互功率谱、近端信号的功率谱和误差信号的功率谱计算近端信号和误差信号的互相干系数,记为近端误差互相干系数;
;(16)
其中,用于表示近端误差互相干系数。
步骤S103,根据感知测量域的每个频点的远端近端互相干系数和近端误差互相干系数判断当前帧是否有回声,根据判断结果进行非线性抑制得到基于测量域的非线性回声抑制信号;
步骤S103具体包括:
步骤S1031,统计基于测量域的当前帧的频点的远端近端互相干系数和近端误差互相干系数符合第一预设条件的数量,于符合第一预设条件的数量大于第一预设数量时,确定当前帧无回声,回声抑制系数为近端信号和误差信号的互相干系数,如下述公式所示:
;(17)
其中,用于表示回声抑制系数;
作为优选的实施方式,第一预设条件可以为是大于1的正实数;
具体地,统计基于测量域的频点中满足的个数num,若num大于第一预设数量,则判断当前帧为无回声,回声抑制系数)。
步骤S1032,统计基于测量域的当前帧的频点的远端近端互相干系数和近端误差互相干系数符合第二预设条件的数量,于符合第二预设条件的数量大于第二预设数量时,确定当前帧有回声,根据远端信号和近端信号的互相干系数,以及近端信号和误差信号的误差互相干系数设置回声抑制系数,如下述公式所示:
;(18)
作为优选的实施方式,第二预设条件可以为是大于1的正实数;
具体地,统计基于测量域的频点中满足的个数num,若num大于一定数量,则判断当前帧含有回声,回声抑制系数
步骤S1033,根据回声抑制系数进行当前帧进行非线性抑制以得到基于测量域的非线性回声抑制信号,如下述公式所示:
;(19)
其中,用于表示基于测量域的非线性回声抑制信号。
在上述实施例中,基于压缩感知测量域上的各个频点,计算测量域上的远端信号、近端信号和误差信号的相干性,即计算测量域上的远端信号和近端信号之间的互相干系数,近端信号和误差信号之间的互相干系数,基于这些相干性系数判断当前近端信号是否含有回声信号,从而计算每个频率带的对应的回声抑制系数,进一步抑制近端信号中残留的回声信号。
步骤S104,将测量域的非线性回声抑制信号转为基于频域的非线性回声抑制信号,并对基于频域的非线性回声抑制信号进行后处理,以得到基于频域的输出信号,将基于频域的输出信号转换为时域信号;
步骤S104具体包括:
步骤S1041,使用正交匹配追踪算法将基于测量域的非线性回声信号转为基于频域的非线性回声抑制信号;
步骤S1042,对基于频域的非线性回声抑制信号进行后处理,以得到基于频域的输出信号,如下述公式所示:
;(20)
其中,表示对基于频域的线性回声消除后得到的误差信号E进行共轭转置;
用于表示基于频域的输出信号;
用于表示基于频域的非线性回声抑制信号。
在上述实施例中,利用基于频域的误差信号和非线性抑制的输出结果的卷积进行后处理,避免非线性抑制算法过度抑制导致语音损失。
步骤S1043,将基于频域的输出信号转换为时域信号;
优选的,可以采用逆傅里叶变换将基于频域的输出信号转换为时域信号;
具体地,将非线性回声抑制的基于频域的输出信号进行逆傅里叶变换,并进行重叠相加转为时域信号
实施例2:下面结合图2,对本公开提供的非线性回声消除装置进行说明。
图2是根据本公开实施例2所提供的非线性回声消除装置的结构示意图,非线性回声消除装置,应用于终端设备,如图2所示,包括:
获取模块,用于获取待回声消除信号,将待回声消除信号由时域信号转换为频域信号;其中,待回声消除信号包括当前帧的远端信号、近端信号和误差信号;
测量域模块,用于将频域信号转换为测量域信号,根据测量域的近端信号的语音状态是否发生转变预先设置平滑参数,根据测量域的每个频点、测量域信号和平滑参数计算得到功率谱参数集,根据功率谱参数集计算得到互相干系数,其中,互相干系数包括:远端信号和近端信号的互相干系数,记为远端近端互相干系数,以及近端信号和误差信号的误差互相干系数,记为近端误差互相干系数;
消除模块,用于根据感知测量域的每个频点的远端近端互相干系数和近端误差互相干系数判断当前帧是否有回声,根据判断结果进行非线性抑制得到基于测量域的非线性回声抑制信号;
转换模块,用于将测量域的非线性回声抑制信号转为基于频域的非线性回声抑制信号,并对基于频域的非线性回声抑制信号进行后处理,以得到基于频域的输出信号,将基于频域的输出信号转换为时域信号。
在上述实施例中,使用压缩感知理论对远端信号,近端信号和误差信号进行预处理,即将频域上的远端信号,近端信号和误差信号转为压缩感知测量域上的远端信号,近端信号和误差信号,然后再进一步计算这些信号之间的一个或多个相干性,不仅降低了远端信号、近端信号和误差信号中的高斯白噪声而影响相干性的误判率;
经过压缩感知测量矩阵的压缩,使得测量域信号长度小于时域信号长度,降低了算法的计算量;
根据近端信号的语音状态是否转变,采用不同的平滑参数对远端信号与近端信号之间的平滑互功率谱,近端信号与误差信号之间的平滑互功率谱,远端信号的功率谱,近端信号的功率谱,误差信号的功率谱进行平滑,可以加快收敛和避免频谱中的一些细节波动。
本公开实施例提供的非线性回声消除装置,其具体实施方式与实施例一提供的非线性回声消除方法一致,在此不作赘述。
根据本公开的实施例,本公开还提供了一种电子设备、一种可读存储介质和一种计算机程序产品。
其中,一种电子设备,包括:至少一个处理器;以及与至少一个处理器通信连接的存储器;其中,存储器存储有可被至少一个处理器执行的指令,指令被至少一个处理器执行,以使至少一个处理器能够执行前述一方面中的非线性回声消除方法。
其中,一种存储有计算机指令的非瞬时计算机可读存储介质,其中,计算机指令用于使计算机执行前述一方面中的非线性回声消除方法。
其中,一种计算机程序产品,包括计算机程序,计算机程序在被处理器执行时实现前述一方面中的非线性回声消除方法。
在本说明书的描述中,参考术语“一个实施例”、“一些实施例”、“示例”、“具体示例”、或“一些示例”等的描述意指结合该实施例或示例描述的具体特征、结构、材料或者特点包含于本申请的至少一个实施例或示例中。在本说明书中,对上述术语的示意性表述不是必须针对的是相同的实施例或示例。而且,描述的具体特征、结构、材料或者特点可以在任一个或N个实施例或示例中以合适的方式结合。此外,在不相互矛盾的情况下,本领域的技术人员可以将本说明书中描述的不同实施例或示例以及不同实施例或示例的特征进行结合和组合。
此外,术语“第一”、“第二”仅用于描述目的,而不能理解为指示或暗示相对重要性或者隐含指明所指示的技术特征的数量。由此,限定有“第一”、“第二”的特征可以明示或者隐含地包括至少一个该特征。在本申请的描述中,“N个”的含义是至少两个,例如两个,三个等,除非另有明确具体的限定。
流程图中或在此以其他方式描述的任何过程或方法描述可以被理解为,表示包括一个或更N个用于实现定制逻辑功能或过程的步骤的可执行指令的代码的单元、片段或部分,并且本申请的优选实施方式的范围包括另外的实现,其中可以不按所示出或讨论的顺序,包括根据所涉及的功能按基本同时的方式或按相反的顺序,来执行功能,这应被本申请的实施例所属技术领域的技术人员所理解。
应当理解,本申请的各部分可以用硬件、软件、固件或它们的组合来实现。在上述实施方式中,N个步骤或方法可以用存储在存储器中且由合适的指令执行系统执行的软件或固件来实现。如,如果用硬件来实现和在另一实施方式中一样,可用本领域公知的下列技术中的任一项或他们的组合来实现:具有用于对数据信号实现逻辑功能的逻辑门电路的离散逻辑电路,具有合适的组合逻辑门电路的专用集成电路,可编程门阵列,现场可编程门阵列等。
本技术领域的普通技术人员可以理解实现上述实施例方法携带的全部或部分步骤是可以通过程序来指令相关的硬件完成,的程序可以存储于一种计算机可读存储介质中,该程序在执行时,包括方法实施例的步骤之一或其组合。
以上实施例仅表达了本发明的几种实施方式,其描述较为具体和详细,但并不能因此而理解为对本发明专利范围的限制。应当指出的是,对于本领域的普通技术人员来说,在不脱离本发明构思的前提下,还可以做出若干变形和改进,这些都属于本发明的保护范围。因此,本发明专利的保护范围应以所附权利要求为准。

Claims (10)

1.一种非线性回声消除方法,其特征在于,包括:
获取待回声消除信号,将所述待回声消除信号由时域信号转换为频域信号;其中,所述待回声消除信号包括当前帧的远端信号、近端信号和误差信号;
将频域信号转换为测量域信号,根据测量域的近端信号的语音状态是否发生转变预先设置平滑参数,根据测量域的每个频点、所述测量域信号和平滑参数计算得到功率谱参数集,根据所述功率谱参数集计算得到互相干系数,其中,所述互相干系数包括:远端信号和近端信号的互相干系数,记为远端近端互相干系数,以及近端信号和误差信号的误差互相干系数,记为近端误差互相干系数;
根据测量域的每个频点的远端近端互相干系数和近端误差互相干系数判断当前帧是否有回声,根据判断结果进行非线性抑制得到基于测量域的非线性回声抑制信号;
将测量域的非线性回声抑制信号转为基于频域的非线性回声抑制信号,并对基于频域的非线性回声抑制信号进行后处理,以得到基于频域的输出信号,将基于频域的输出信号转换为时域信号。
2.如权利要求1所述的非线性回声消除方法,其特征在于,所述将频域信号转换为测量域信号,根据测量域的每个频点、所述测量域信号和平滑参数计算得到功率谱参数集,具体包括:
通过压缩感知理论将所述频域信号映射到测量域上,以将所述频域信号转换为测量域信号,如下述公式所示:
其中,用于表示基于测量域的远端信号,用于表示基于频域的远端信号;
用于表示基于测量域的近端信号,用于表示基于频域的近端信号;
用于表示基于测量域的线性回声消除后得到的误差信号,用于表示基于频域的线性回声消除后得到的误差信号;
表示大小为的测量矩阵,其中,用于表示时域信号的信号长度,用于表示测量域信号的信号长度,
如下述公式所示,基于所述测量域的每个频点、所述测量域信号和预先设置的平滑参数计算得到:
基于测量域的远端信号和近端信号之间的互功率谱,记为远端近端互功率谱;
其中,表示第帧,用于表示基于测量域上的频点,
用于表示计算共轭;
用于表示基于测量域的远端近端互功率谱;
用于表示平滑参数;
基于测量域的近端信号和误差信号之间的互功率谱,记为近端误差互功率谱;
其中,用于表示基于测量域的近端误差互功率谱;
以及基于测量域的远端信号、近端信号和误差信号的功率谱;
其中,用于表示基于测量域的远端信号的功率谱;
用于表示基于测量域的近端信号的功率谱;
用于表示基于测量域的误差信号的功率谱。
3.如权利要求1所述的非线性回声消除方法,其特征在于,所述根据测量域的近端信号的语音状态是否发生转变预先设置平滑参数,包括:
采用语音端点检测算法根据近端信号的语音状态是否转变预先设置对应的平滑参数,其中,平滑参数包括第一平滑参数和第二平滑参数,第一平滑参数小于第二平滑参数;
具体包括,如下述公式所示:
当近端信号的语音状态发生转变时,设置第一平滑参数;
当近端信号的语音状态未发生转变时,设置第二平滑参数;
其中,用于表示平滑参数;
用于表示第一平滑参数;
用于表示第二平滑参数;
用于表示近端信号的语音端点检测结果。
4.如权利要求2所述的非线性回声消除方法,其特征在于,所述根据所述功率谱参数集计算得到互相干系数,具体包括:
根据所述远端近端互功率谱、远端信号的功率谱和近端信号的功率谱计算远端近端互相干系数,如下述公式所示:
其中,用于表示远端近端互相干系数;
根据所述近端误差互功率谱、近端信号的功率谱和误差信号的功率谱计算近端误差互相干系数;
其中,用于表示近端误差互相干系数。
5.如权利要求1所述的非线性回声消除方法,其特征在于,所述根据测量域的每个频点的远端近端互相干系数和近端误差互相干系数判断当前帧是否有回声,根据判断结果进行非线性抑制得到基于测量域的非线性回声抑制信号,具体包括:
统计基于测量域的当前帧的频点的远端近端互相干系数和近端误差互相干系数符合第一预设条件的数量,于符合第一预设条件的数量大于第一预设数量时,确定当前帧无回声,回声抑制系数为近端信号和误差信号的互相干系数,如下述公式所示:
其中,用于表示回声抑制系数;
统计基于测量域的当前帧的频点的远端近端互相干系数和近端误差互相干系数符合第二预设条件的数量,于符合第二预设条件的数量大于第二预设数量时,确定当前帧有回声,根据远端信号和近端信号的互相干系数,以及近端信号和误差信号的误差互相干系数设置回声抑制系数,如下述公式所示:
根据回声抑制系数进行当前帧进行非线性抑制以得到基于测量域的非线性回声抑制信号,如下述公式所示:
其中,用于表示基于测量域的非线性回声抑制信号。
6.如权利要求1所述的非线性回声消除方法,其特征在于,所述将测量域的非线性回声抑制信号转为基于频域的非线性回声抑制信号,并对基于频域的非线性回声抑制信号进行后处理,以得到基于频域的输出信号,具体包括:
使用正交匹配追踪算法将基于测量域的非线性回声信号转为基于频域的非线性回声抑制信号;
对基于频域的非线性回声抑制信号进行后处理,以得到基于频域的输出信号,如下述公式所示:
其中,表示对基于频域的线性回声消除后得到的误差信号E进行共轭转置;
用于表示基于频域的输出信号;
用于表示基于频域的非线性回声抑制信号。
7.如权利要求1所述的非线性回声消除方法,其特征在于,
采用傅里叶变换将所述待回声消除信号由时域信号转换为频域信号;和/或
采用逆傅里叶变换将基于频域的输出信号转换为时域信号。
8.一种非线性回声消除装置,其特征在于,应用于终端设备,包括:
获取模块,用于获取待回声消除信号,将所述待回声消除信号由时域信号转换为频域信号;其中,所述待回声消除信号包括当前帧的远端信号、近端信号和误差信号;
测量域模块,用于将频域信号转换为测量域信号,根据测量域的近端信号的语音状态是否发生转变预先设置平滑参数,根据测量域的每个频点、所述测量域信号和平滑参数计算得到功率谱参数集,根据所述功率谱参数集计算得到互相干系数,其中,所述互相干系数包括:远端信号和近端信号的互相干系数,记为远端近端互相干系数,以及近端信号和误差信号的误差互相干系数,记为近端误差互相干系数;
消除模块,用于根据测量域的每个频点的远端近端互相干系数和近端误差互相干系数判断当前帧是否有回声,根据判断结果进行非线性抑制得到基于测量域的非线性回声抑制信号;
转换模块,用于将测量域的非线性回声抑制信号转为基于频域的非线性回声抑制信号,并对基于频域的非线性回声抑制信号进行后处理,以得到基于频域的输出信号,将基于频域的输出信号转换为时域信号。
9.一种电子设备,包括:
至少一个处理器;以及与所述至少一个处理器通信连接的存储器;其中,所述存储器存储有可被所述至少一个处理器执行的指令,所述指令被所述至少一个处理器执行,以使所述至少一个处理器能够执行权利要求1-7中任一项所述的方法。
10.一种存储有计算机指令的非瞬时计算机可读存储介质,其中,所述计算机指令用于使所述计算机执行权利要求1-7中任一项所述的方法。
CN202411700275.6A 2024-11-26 2024-11-26 一种非线性回声消除方法、装置和电子设备 Active CN119207453B (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN202411700275.6A CN119207453B (zh) 2024-11-26 2024-11-26 一种非线性回声消除方法、装置和电子设备

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN202411700275.6A CN119207453B (zh) 2024-11-26 2024-11-26 一种非线性回声消除方法、装置和电子设备

Publications (2)

Publication Number Publication Date
CN119207453A true CN119207453A (zh) 2024-12-27
CN119207453B CN119207453B (zh) 2025-03-14

Family

ID=94044761

Family Applications (1)

Application Number Title Priority Date Filing Date
CN202411700275.6A Active CN119207453B (zh) 2024-11-26 2024-11-26 一种非线性回声消除方法、装置和电子设备

Country Status (1)

Country Link
CN (1) CN119207453B (zh)

Citations (8)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
WO2012158163A1 (en) * 2011-05-17 2012-11-22 Google Inc. Non-linear post-processing for acoustic echo cancellation
CN109087665A (zh) * 2018-07-06 2018-12-25 南京时保联信息科技有限公司 一种非线性回声抑制方法
WO2020083918A1 (en) * 2018-10-25 2020-04-30 Koninklijke Philips N.V. Method and system for adaptive beamforming of ultrasound signals
CN111968663A (zh) * 2020-08-12 2020-11-20 福建星网智慧科技有限公司 一种回声残留判断方法
US20220103938A1 (en) * 2020-09-28 2022-03-31 GM Global Technology Operations LLC Autoregressive based residual echo suppression
CN115169740A (zh) * 2022-08-08 2022-10-11 济南大学 基于压缩感知的池化回声状态网络的序列预测方法及系统
CN118398025A (zh) * 2024-06-27 2024-07-26 浙江芯劢微电子股份有限公司 一种回声消除中的延迟估计方法、设备、存储介质及计算机程序产品
CN118486317A (zh) * 2023-02-13 2024-08-13 珠海市杰理科技股份有限公司 一种非线性回声抑制方法、装置、电子设备及存储介质

Patent Citations (8)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
WO2012158163A1 (en) * 2011-05-17 2012-11-22 Google Inc. Non-linear post-processing for acoustic echo cancellation
CN109087665A (zh) * 2018-07-06 2018-12-25 南京时保联信息科技有限公司 一种非线性回声抑制方法
WO2020083918A1 (en) * 2018-10-25 2020-04-30 Koninklijke Philips N.V. Method and system for adaptive beamforming of ultrasound signals
CN111968663A (zh) * 2020-08-12 2020-11-20 福建星网智慧科技有限公司 一种回声残留判断方法
US20220103938A1 (en) * 2020-09-28 2022-03-31 GM Global Technology Operations LLC Autoregressive based residual echo suppression
CN115169740A (zh) * 2022-08-08 2022-10-11 济南大学 基于压缩感知的池化回声状态网络的序列预测方法及系统
CN118486317A (zh) * 2023-02-13 2024-08-13 珠海市杰理科技股份有限公司 一种非线性回声抑制方法、装置、电子设备及存储介质
CN118398025A (zh) * 2024-06-27 2024-07-26 浙江芯劢微电子股份有限公司 一种回声消除中的延迟估计方法、设备、存储介质及计算机程序产品

Non-Patent Citations (2)

* Cited by examiner, † Cited by third party
Title
PRATIK SHAH ET AL: "A FAST COMPRESSIVE SENSING METHOD WITH APPLICATION TO NETWORK ECHO CANCELLATION", EUSIPCO 2013, 8 May 2014 (2014-05-08) *
赵益波;严涛;李春彪;杨蕾;: "α-稳定分布噪声环境下的非线性回声消除研究", 电子学报, no. 01, 15 January 2020 (2020-01-15) *

Also Published As

Publication number Publication date
CN119207453B (zh) 2025-03-14

Similar Documents

Publication Publication Date Title
JP5460057B2 (ja) 低遅延処理方法及び方法
US7941315B2 (en) Noise reducer, noise reducing method, and recording medium
CN112489670B (zh) 时延估计方法、装置、终端设备和计算机可读存储介质
CN111768796A (zh) 一种声学回波消除与去混响方法及装置
US9418677B2 (en) Noise suppressing device, noise suppressing method, and a non-transitory computer-readable recording medium storing noise suppressing program
CN106941006B (zh) 用于音频信号的分离和低音增强的方法、装置和系统
CN113744748A (zh) 一种网络模型的训练方法、回声消除方法及设备
CN114360566B (zh) 一种语音信号的降噪处理方法、装置以及存储介质
CN109102821A (zh) 时延估计方法、系统、存储介质及电子设备
CN116013344A (zh) 一种多种噪声环境下的语音增强方法
CN113299308A (zh) 一种语音增强方法、装置、电子设备及存储介质
WO2013121749A1 (ja) エコー消去装置、エコー消去方法、及び、通話装置
WO2025044413A1 (zh) 音频降噪处理方法和装置、存储介质及电子设备
WO2019024621A1 (zh) 一种声学回声抵消器输出语音信号的后处理方法及装置
CN112997249B (zh) 语音处理方法、装置、存储介质及电子设备
CN118969004B (zh) 一种语音降噪方法、装置和电子设备
CN119207453B (zh) 一种非线性回声消除方法、装置和电子设备
WO2025077686A1 (zh) 一种语音增强网络的后滤波方法及系统
CN115881080B (zh) 一种语音通信系统中的声反馈处理方法及装置
WO2018083570A1 (en) Intelligent hearing aid
JP6707914B2 (ja) ゲイン処理装置及びプログラム、並びに、音響信号処理装置及びプログラム
WO2017171864A1 (en) Acoustic environment understanding in machine-human speech communication
WO2023045779A1 (zh) 一种音频降噪方法、装置、设备及存储介质
CN117912485A (zh) 语音频带扩展方法、降噪音频设备以及存储介质
CN115691532A (zh) 风噪声污染范围估算方法及抑制方法、装置、介质、终端

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
GR01 Patent grant
GR01 Patent grant