CN113450812A

CN113450812A - 一种啸叫检测方法、语音通话方法以及相关装置

Info

Publication number: CN113450812A
Application number: CN202010235244.3A
Authority: CN
Inventors: 朱睿; 王天宝; 李岳鹏
Original assignee: Tencent Technology Shenzhen Co Ltd
Current assignee: Tencent Technology Shenzhen Co Ltd
Priority date: 2020-03-27
Filing date: 2020-03-27
Publication date: 2021-09-28
Anticipated expiration: 2040-03-27
Also published as: CN113450812B

Abstract

本申请公开了一种啸叫检测方法、语音通话方法以及相关装置，可以应用于云通信场景中的语音智能处理过程。通过获取通信过程中的音频输入信号，并提取音频输入信号的周期性特征以及频谱特征，其中周期性特征包括自相关峰值强度和时间差位置；接下来融合周期性特征和频谱特征，以得到融合特征；进而基于至少一个检测条件对融合特征进行检测，以得到啸叫检测结果。从而实现了基于融合特征的啸叫检测过程，由于利用周期性特征可以追踪早期啸叫发生时刻，并结合啸叫形成后的频谱特征进行最终判决，降低了误检概率，提高了啸叫检测的准确性。

Description

一种啸叫检测方法、语音通话方法以及相关装置

技术领域

本申请涉及计算机技术领域，尤其涉及一种啸叫检测方法、语音通话方法以及相关装置。

背景技术

在音频通信中，如果两个通信设备距离比较近，或者远距离通信中处于异地的两个设备同时发生回声泄露，则容易出现啸叫现象。

一般，对于啸叫的检测过程可以从啸叫发生的现象出发，即分析啸叫声音的频谱特征，当信号能量聚集在某个窄带时，有可能存在啸叫，则针对这些窄带的频谱特征进行啸叫检测。

但是，基于频谱特征的过程具有局限性，例如在面对电话铃声，警报等其他自然存在的单频窄带信号时，容易误检，且该检测过程只能在严重的啸叫出现以后才能检测到，影响啸叫检测的准确性。

发明内容

有鉴于此，本申请提供一种啸叫检测的方法，可以有效避免由于外部因素造成的啸叫误检，提高啸叫检测过程的准确性。

本申请第一方面提供一种啸叫检测的方法，可以应用于终端设备中包含啸叫检测功能的系统或程序中，具体包括：获取音频输入信号；

提取所述音频输入信号的周期性特征，所述周期性特征包括自相关峰值强度和时间差位置；

提取所述音频输入信号的频谱特征，所述频谱特征基于至少一个维度的频谱参数融合所得，所述频谱参数与啸叫点的频谱分布相关；

融合所述周期性特征和所述频谱特征，以得到融合特征；

基于至少一个检测条件对所述融合特征进行检测，以得到啸叫检测结果，所述检测条件基于所述啸叫点的出现概率或强度设定。

可选的，在本申请一些可能的实现方式中，所述提取所述音频输入信号的周期性特征，包括：

根据所述音频输入信号在检测时长内的重复性确定自相关系数；

根据所述自相关系数确定所述自相关峰值强度和所述时间差位置。

可选的，在本申请一些可能的实现方式中，所述根据所述音频输入信号在检测时长内的重复性确定自相关系数，包括：

获取所述音频输入信号在采集时间段内的网络传输延时波动范围；

根据所述网络传输延时波动范围确定所述检测时长；

根据所述音频输入信号在所述检测时长内的重复性确定自相关系数。

基于预处理规则对所述音频输入信号进行处理，所述预处理规则包括至少一个维度的噪声特征确定；

根据处理后的所述音频输入信号在检测时长内的重复性确定自相关系数。

可选的，在本申请一些可能的实现方式中，所述提取所述音频输入信号的频谱特征，包括：

对所述音频输入信号进行时频分析，以得到时频信号；

根据所述时频信号的峰值特征进行筛选，以得到频谱峰值点；

统计所述频谱峰值点的出现概率，以得到峰值点频率；

根据所述峰值点频率提取所述频谱特征。

可选的，在本申请一些可能的实现方式中，所述根据所述峰值点频率提取所述频谱特征，包括：

根据所述峰值点频率获取所述时频信号中每个频点的频点能量占所述时频信号总能量的能量比值；

根据所述能量比值确定所述时频信号的能量平稳度，以得到所述频谱特征。

获取所述时频信号对应的谐波信号；

根据所述峰值点频率获取所述时频信号中每个频点的频点能量；

根据所述频点能量与所述谐波信号对应的能量的比值确定所述频谱特征。

确定所述峰值点频率对应的频点；

根据所述峰值点频率对应的频点中相邻频点的波动情况确定频率平稳度，以得到所述频谱特征。

可选的，在本申请一些可能的实现方式中，所述根据所述时频信号的峰值特征进行筛选，以得到频谱峰值点，包括：

所述根据所述时频信号的峰值特征确定候选峰值点；

选取满足预设条件的所述候选峰值点，以得到频谱峰值点。

可选的，在本申请一些可能的实现方式中，所述融合所述周期性特征和所述频谱特征，以得到融合特征，包括：

根据所述周期性特征确定加权参数，所述加权参数用于指示所述周期性特征中周期内的样本数；

根据所述加权参数为所述周期性特征和所述频谱特征分配加权因子；

融合分配加权因子后所述周期性特征和分配加权因子后所述频谱特征，以得到所述融合特征。

可选的，在本申请一些可能的实现方式中，所述根据所述加权参数为所述周期性特征和所述频谱特征分配加权因子，包括：

根据所述加权参数确定所述周期性特征和所述频谱特征的网络延迟特征；

根据所述网络延迟特征为所述周期性特征和所述频谱特征分配加权因子。

本申请第二方面提供一种啸叫检测的装置，包括：获取单元，用于获取音频输入信号；

提取单元，用于提取所述音频输入信号的周期性特征，所述周期性特征包括自相关峰值强度和时间差位置；

所述提取单元，还用于提取所述音频输入信号的频谱特征，所述频谱特征基于至少一个维度的频谱参数融合所得，所述频谱参数与啸叫点的频谱分布相关；

融合单元，用于融合所述周期性特征和所述频谱特征，以得到融合特征；

检测单元，用于基于至少一个检测条件对所述融合特征进行检测，以得到啸叫检测结果，所述检测条件基于所述啸叫点的出现概率或强度设定。

可选的，在本申请一些可能的实现方式中，所述提取单元，具体用于根据所述音频输入信号在检测时长内的重复性确定自相关系数；

所述提取单元，具体用于根据所述自相关系数确定所述自相关峰值强度和所述时间差位置。

可选的，在本申请一些可能的实现方式中，所述提取单元，具体用于获取所述音频输入信号在采集时间段内的网络传输延时波动范围；

所述提取单元，具体用于根据所述网络传输延时波动范围确定所述检测时长；

所述提取单元，具体用于根据所述音频输入信号在所述检测时长内的重复性确定自相关系数。

可选的，在本申请一些可能的实现方式中，所述提取单元，具体用于基于预处理规则对所述音频输入信号进行处理，所述预处理规则包括至少一个维度的噪声特征确定；

所述提取单元，具体用于根据处理后的所述音频输入信号在检测时长内的重复性确定自相关系数。

可选的，在本申请一些可能的实现方式中，所述提取单元，具体用于对所述音频输入信号进行时频分析，以得到时频信号；

所述提取单元，具体用于根据所述时频信号的峰值特征进行筛选，以得到频谱峰值点；

所述提取单元，具体用于统计所述频谱峰值点的出现概率，以得到峰值点频率；

所述提取单元，具体用于根据所述峰值点频率提取所述频谱特征。

可选的，在本申请一些可能的实现方式中，所述提取单元，具体用于根据所述峰值点频率获取所述时频信号中每个频点的频点能量占所述时频信号总能量的能量比值；

所述提取单元，具体用于根据所述能量比值确定所述时频信号的能量平稳度，以得到所述频谱特征。

可选的，在本申请一些可能的实现方式中，所述提取单元，具体用于获取所述时频信号对应的谐波信号；

所述提取单元，具体用于根据所述峰值点频率获取所述时频信号中每个频点的频点能量；

所述提取单元，具体用于根据所述频点能量与所述谐波信号对应的能量的比值确定所述频谱特征。

可选的，在本申请一些可能的实现方式中，所述提取单元，具体用于确定所述峰值点频率对应的频点；

所述提取单元，具体用于根据所述峰值点频率对应的频点中相邻频点的波动情况确定频率平稳度，以得到所述频谱特征。

可选的，在本申请一些可能的实现方式中，所述提取单元，具体用于所述根据所述时频信号的峰值特征确定候选峰值点；

所述提取单元，具体用于选取满足预设条件的所述候选峰值点，以得到频谱峰值点。

可选的，在本申请一些可能的实现方式中，所述融合单元，具体用于根据所述周期性特征确定加权参数，所述加权参数用于指示所述周期性特征中周期内的样本数；

所述融合单元，具体用于根据所述加权参数为所述周期性特征和所述频谱特征分配加权因子；

所述融合单元，具体用于融合分配加权因子后所述周期性特征和分配加权因子后所述频谱特征，以得到所述融合特征。

可选的，在本申请一些可能的实现方式中，所述融合单元，具体用于根据所述加权参数确定所述周期性特征和所述频谱特征的网络延迟特征；

所述融合单元，具体用于根据所述网络延迟特征为所述周期性特征和所述频谱特征分配加权因子。

本申请第三方面提供一种语音通话的方法，包括：

获取语音通话过程中的音频输入信号；

对所述音频输入信号进行啸叫检测，以得到啸叫检测结果，所述啸叫检测包括第一方面或第一方面任一项所述的啸叫检测的方法；

根据所述啸叫检测结果调整所述语音通话过程中对应的通话参数。

本申请第四方面提供一种语音通话的装置，包括：

获取单元，用于获取语音通话过程中的音频输入信号；

检测单元，用于对所述音频输入信号进行啸叫检测，以得到啸叫检测结果，所述啸叫检测包括第一方面或第一方面任一项所述的啸叫检测的方法；

调整单元，用于根据所述啸叫检测结果调整所述语音通话过程中对应的通话参数。

本申请第五方面提供一种计算机设备，包括：存储器、处理器以及总线系统；所述存储器用于存储程序代码；所述处理器用于根据所述程序代码中的指令执行上述第一方面或第一方面任一项所述的啸叫检测的方法，或第三方面所述的语音通话的方法。

本申请第六方面提供一种计算机可读存储介质，所述计算机可读存储介质中存储有指令，当其在计算机上运行时，使得计算机执行上述第一方面或第一方面任一项所述的啸叫检测的方法，或第三方面所述的语音通话的方法。

从以上技术方案可以看出，本申请实施例具有以下优点：

通过获取通信过程中的音频输入信号，并提取音频输入信号的周期性特征以及频谱特征，其中周期性特征包括自相关峰值强度和时间差位置；接下来融合周期性特征和频谱特征，以得到融合特征；进而基于至少一个检测条件对融合特征进行检测，以得到啸叫检测结果。从而实现了基于融合特征的啸叫检测过程，由于利用周期性特征可以追踪早期啸叫发生时刻，并结合啸叫形成后的频谱特征进行最终判决，降低了误检概率，提高了啸叫检测的准确性。

附图说明

为了更清楚地说明本申请实施例或现有技术中的技术方案，下面将对实施例或现有技术描述中所需要使用的附图作简单地介绍，显而易见地，下面描述中的附图仅仅是本申请的实施例，对于本领域普通技术人员来讲，在不付出创造性劳动的前提下，还可以根据提供的附图获得其他的附图。

图1为啸叫检测系统运行的网络架构图；

图2为本申请实施例提供的一种啸叫检测的流程架构图；

图3为本申请实施例提供的一种啸叫检测的方法的流程图；

图4为本申请实施例提供的一种啸叫检测的方法的流程框架图；

图5为本申请实施例提供的另一种啸叫检测的方法的流程框架图；

图6为本申请实施例提供的另一种啸叫检测的方法的流程框架图；

图7为本申请实施例提供的一种啸叫检测的场景示意图；

图8为本申请实施例提供的一种语音通话的方法的流程图；

图9为本申请实施例提供的另一种啸叫检测的场景示意图；

图10为本申请实施例提供的另一种啸叫检测的场景示意图；

图11为本申请实施例提供的一种啸叫检测装置的结构示意图；

图12为本申请实施例提供的一种语音通话装置的结构示意图；

图13为本申请实施例提供的一种终端设备的结构示意图。

具体实施方式

本申请实施例提供了一种啸叫检测的方法以及相关装置，可以应用于终端设备中包含啸叫检测功能的系统或程序中，通过获取通信过程中的音频输入信号，并提取音频输入信号的周期性特征以及频谱特征，其中周期性特征包括自相关峰值强度和时间差位置；接下来融合周期性特征和频谱特征，以得到融合特征；进而基于至少一个检测条件对融合特征进行检测，以得到啸叫检测结果。从而实现了基于融合特征的啸叫检测过程，由于利用周期性特征可以追踪早期啸叫发生时刻，并结合啸叫形成后的频谱特征进行最终判决，降低了误检概率，提高了啸叫检测的准确性。

本申请的说明书和权利要求书及上述附图中的术语“第一”、“第二”、“第三”、“第四”等(如果存在)是用于区别类似的对象，而不必用于描述特定的顺序或先后次序。应该理解这样使用的数据在适当情况下可以互换，以便这里描述的本申请的实施例例如能够以除了在这里图示或描述的那些以外的顺序实施。此外，术语“包括”和“对应于”以及他们的任何变形，意图在于覆盖不排他的包含，例如，包含了一系列步骤或单元的过程、方法、系统、产品或设备不必限于清楚地列出的那些步骤或单元，而是可包括没有清楚地列出的或对于这些过程、方法、产品或设备固有的其它步骤或单元。

首先，对本申请实施例中可能出现的一些名词进行解释。

啸叫：麦克风采集的声音信号经过扬声器放大，再被麦克风拾取，信号在反馈回路中不断的叠加放大，正反馈产生震荡循环，进而产生的现象。

啸叫点：在音频信号中循环增益大于等于1的频点。

短时傅里叶变换(short-time Fourier transform，STFT)：一种和傅里叶变换相关的一种数学变换，用以确定时变信号其局部区域正弦波的频率与相位。

离散余弦变换(discrete cosine transform，DCT)：主要用于将数据进行压缩，能够将空域的信号转换到频域上，具有良好的去相关性的性能。

改进离散余弦变换(modified discrete cosine transform，MDCT)：一种线性正交交叠变换。它使用了一种时域混叠抵消技术，包含50％的时域交叠窗，在不降低编码性能的情况下有效地克服加窗离散余弦变换块处理运算中的边缘效应，从而有效地去除由边缘效应产生的周期化噪声。

小波变换(wavelet transform，WT)：一种变换分析方法，通过变换能够充分突出问题某些方面的特征，能对时间频率的局部化分析，通过伸缩平移运算对信号逐步进行多尺度细化，最终达到高频处时间细分，低频处频率细分，能自动适应时频信号分析的要求，从而可聚焦到信号的任意细节。

谐波：指对周期性非正弦交流量进行傅里叶级数分解所得到的大于基波频率整数倍的各次分量，通常称为高次谐波。

应理解，本申请提供的啸叫检测方法可以应用于终端设备中包含啸叫检测功能的系统或程序中，例如云会议平台，具体的，啸叫检测系统可以运行于如图1所示的网络架构中，如图1所示，是啸叫检测系统运行的网络架构图，如图可知，啸叫检测系统可以提供与多个信息源的啸叫检测，终端通过网络建立与服务器的连接，进而进行语音通话的过程，并在语音通话的过程中进行啸叫检测，以优化语音通话的质量；可以理解的是，图1中示出了多种终端设备，在实际场景中可以有更多或更少种类的终端设备参与到啸叫检测的过程中，具体数量和种类因实际场景而定，此处不做限定，另外，图1中示出了一个服务器，但在实际场景中，也可以有多个服务器的参与，特别是在多内容应用交互的场景中，具体服务器数量因实际场景而定。

本实施例中，服务器可以是独立的物理服务器，也可以是多个物理服务器构成的服务器集群或者分布式系统，还可以是提供云服务、云数据库、云计算、云函数、云存储、网络服务、云通信、中间件服务、域名服务、安全服务、CDN、以及大数据和人工智能平台等基础云计算服务的云服务器。终端可以是智能手机、平板电脑、笔记本电脑、台式计算机、智能音箱、智能手表、PSTN话机等，但并不局限于此。终端以及服务器可以通过有线或无线通信方式进行直接或间接地连接，本申请在此不做限制。

应当注意的是，本实施例提供的啸叫检测方法也可以离线进行，即不需要服务器的参与，此时终端在本地与其他终端进行连接，进而进行终端之间的啸叫检测的过程。

可以理解的是，上述啸叫检测系统可以运行于个人移动终端，例如：作为云会议平台这样的应用，也可以运行于服务器，还可以作为运行于第三方设备以提供啸叫检测，以得到信息源的啸叫检测处理结果；具体的啸叫检测系统可以是以一种程序的形式在上述设备中运行，也可以作为上述设备中的系统部件进行运行，还可以作为云端服务程序的一种，具体运作模式因实际场景而定，此处不做限定。

随着人工智能技术研究和进步，人工智能技术在多个领域展开研究和应用，例如常见的智能家居、智能穿戴设备、虚拟助理、智能音箱、智能营销、无人驾驶、自动驾驶、无人机、机器人、智能医疗、智能客服等，相信随着技术的发展，人工智能技术将在更多的领域得到应用，并发挥越来越重要的价值。

例如在音频通信中，可以通过人工智能进行啸叫的检测及处理。啸叫是当两个通信设备距离比较近，或者远距离通信中处于异地的两个设备同时发生回声泄露，则容易出现啸叫现象，特别是在多人语音的云会议场景中。

云会议是基于云计算技术的一种高效、便捷、低成本的会议形式。使用者只需要通过互联网界面，进行简单易用的操作，便可快速高效地与全球各地团队及客户同步分享语音、数据文件及视频，而会议中数据的传输、处理等复杂技术由云会议服务商帮助使用者进行操作。

目前国内云会议主要集中在以软件即服务(Software as a Service，SaaS)模式为主体的服务内容，包括电话、网络、视频等服务形式，基于云计算的视频会议就叫云会议。

在云会议时代，数据的传输、处理、存储全部由视频会议厂家的计算机资源处理，用户完全无需再购置昂贵的硬件和安装繁琐的软件，只需打开浏览器，登录相应界面，就能进行高效的远程会议。

云会议系统支持多服务器动态集群部署，并提供多台高性能服务器，大大提升了会议稳定性、安全性、可用性。近年来，视频会议因能大幅提高沟通效率，持续降低沟通成本，带来内部管理水平升级，而获得众多用户欢迎，已广泛应用在政府、军队、交通、运输、金融、运营商、教育、企业等各个领域。毫无疑问，视频会议运用云计算以后，在方便性、快捷性、易用性上具有更强的吸引力，必将激发视频会议应用新高潮的到来。

但是，基于频谱特征的过程具有局限性，例如在面对电话铃声，警报等其他自然存在的单频窄带信号时，容易误检，且该检测过程只能在严重的啸叫出现以后才能检测到，影响啸叫检测的准确性及效率。

为了解决上述问题，本申请提出了一种啸叫检测的方法，该方法应用于图2所示的啸叫检测的流程框架中，如图2所示，为本申请实施例提供的一种啸叫检测的流程架构图，首先自动采集终端发出的音频输出信号，然后分别提取音频输出信号中的周期性特征与频谱特征，并进一步的将周期性特征与频谱特征进行融合得到融合特征；从而根据融合特征进行啸叫检测。

可以理解的是，本申请所提供的方法可以为一种程序的写入，以作为硬件系统中的一种处理逻辑，也可以作为一种啸叫检测装置，采用集成或外接的方式实现上述处理逻辑。作为一种实现方式，该啸叫检测装置通过获取通信过程中的音频输入信号，并提取音频输入信号的周期性特征以及频谱特征，其中周期性特征包括自相关峰值强度和时间差位置；接下来融合周期性特征和频谱特征，以得到融合特征；进而基于至少一个检测条件对融合特征进行检测，以得到啸叫检测结果。从而实现了基于融合特征的啸叫检测过程，由于利用周期性特征可以追踪早期啸叫发生时刻，并结合啸叫形成后的频谱特征进行最终判决，降低了误检概率，提高了啸叫检测的准确性。

本申请实施例提供的方案涉及人工智能的语音处理等技术，具体通过如下实施例进行说明:

结合上述流程架构，下面将对本申请中啸叫检测的方法进行介绍，请参阅图3，图3为本申请实施例提供的一种啸叫检测的方法的流程图，本申请实施例至少包括以下步骤：

301、获取音频输入信号。

本实施例中，音频输入信号为终端设备的在语音通话过程中的输出信号，即采集麦克风发出的音频信号；由于终端设备通过麦克风采集当前时刻用户讲话的声音时，也可能也会采集到终端设备扬声器播放的远端通话对象的声音，从而可能产生啸叫。

可以理解的是，音频输入信号的获取过程可以是在语音通话过程中实时获取的，也可以是在测试过程中对于测试语音的语音采样。

302、提取音频输入信号的周期性特征。

本实施例中，周期性特征包括自相关峰值强度和时间差位置；其中，自相关峰值强度即为了找出啸叫的重复模式，而时间差位置则为了进一步的确定重复模式的准确性。

可选的，在根据音频输入信号在检测时长内的重复性确定自相关系数之前，还可以进行噪声的消除，即预处理的过程，具体包括回声消除和降噪等语音预处理，从而排除环境噪声和回声对于周期性特征提取过程的干扰，提高特征提取的准确性。

具体的，对于提取音频输入信号的周期性特征的过程。首先根据音频输入信号在检测时长内的重复性确定自相关系数；然后根据自相关系数确定自相关峰值强度和时间差位置。在一种可能的方式中，可以通过如下公式计算自相关系数：

C(n,m)＝E[x(n)x(n-m)]

其中，x(n)代表某一段语音，可以是上述经过预处理的语音，也可以是未处理的；C(n,m)表示n时刻的输入信号与在n时刻之前的m时刻的相关性强弱，即衡量时长m是否是语音x的重复周期。

进一步的，根据自相关系数确定自相关峰值强度和时间差位置的过程即对于自相关系数C(n,m)的分析，以提取n时刻啸叫检测所需的相关性峰值T(n)和周期大小值m_h(n)。具体计算公式如下：

其中，M₁，M₂是周期性特征计算的区间；C(n,m)表示n时刻的输入信号与在n时刻之前的m时刻的相关性强弱。

可选的，M₁，M₂的具体数值大小可以由语音通信系统的网络传输延时以及采样率确定；这是由于考虑到网络质量和带宽负载抖动等因素，网络传输延时往往会在一个区间内波动。具体的，首先获取音频输入信号在采集时间段内的网络传输延时波动范围；然后根据网络传输延时波动范围确定检测时长；进而根据音频输入信号在检测时长内的重复性确定自相关系数。

可以理解的是，网络传输延时波动范围可以是实时测试得到的，也可以是根据历史记录中的波动范围处理所得。

在一种可能的场景中，假设网络传输延时波动范围是[T₁，T₂],则M₁，M₂取值为：

M₁＝T₁*f_s

M₂＝T₁*f_s

其中，T₁是单向网络传输延时下限，T₂是双向网络传输延时上限，f_s为采样率，M₁，M₂是周期性特征计算的区间。

通过结果网络场景的探测提取音频输入信号的周期性特征，可以避免由于网络波动造成的干扰，提高了周期性特征提取的准确性。

303、提取音频输入信号的频谱特征。

本实施例中，频谱特征基于啸叫点的频谱分布所得，即由于啸叫点一般出现在频谱图中具有局部显著性的频点指示区域。

具体的，为了便于频谱特征的提取，可以将音频输入信号进行时频分析，以得到时频信号，即将音频输入信号转换到正交变换区域。其中，音频输入信号转换的过程可以通过STFT、DCT、MDCT、小波变换等方式进行，具体方式因实际场景而定，此处不做限定。

由于啸叫对应的频谱特征一般波动较大，而反应波动的情况可以参考峰值频点能量占比、峰值频点谐波占比或峰值频率的平稳度等频谱参数，下面分别对这些参数的确定过程进行说明。

首先需要对时频分析后的信号进行峰值追踪，筛选出具有显著局部最大值特性的频点作为候选峰值点，并根据候选峰值点出现的统计概率确定频谱峰值。

可选的，为了减少数据处理量，可以选用候选峰值点中统计概率较高的频点；例如：选取3-5个频点送入后续模块，如果频谱峰值点大于5个，则取统计概率最高的前5个。

下面基于这些频谱峰值点对应的统计概率，即峰值点频率，进行不同维度的频谱特征的提取。

(1)对于峰值频点能量占比，首先根据峰值点频率获取时频信号中每个频点的频点能量占时频信号总能量的能量比值；然后根据能量比值确定时频信号的能量平稳度，以得到频谱特征。具体的，可以参考如下公式进行提取：

其中，D(f,n)为峰值频点能量占比，Q为统计帧数，P为每一帧的帧长，Y(f,n)为基于峰值点频率f计算时刻n对应该频点的能量占总能量的比值，并归一化至log域。

(2)对于峰值频点谐波占比，首先获取时频信号对应的谐波信号，例如：进行3次谐波变换；然后根据峰值点频率获取时频信号中每个频点的频点能量；并根据频点能量与谐波信号对应的能量的比值确定频谱特征。具体的，可以参考如下公式进行提取：

其中，X(f,n)为基于峰值点频率f计算时刻n对应该频点的能量，M是谐波次数常数，g为当前谐波次数，H(f,n)为峰值频点谐波占比。

(3)对于峰值频率的平稳度，首先确定峰值点频率对应的频点；然后根据峰值点频率对应的频点中相邻频点的波动情况确定频率平稳度，从而得到频谱特征。具体的，可以参考如下公式进行提取：

P(f(n),n)＝s*P(f(n-1),n-1)+(1-s)[f(n)-f(n-1)]

其中，s是平滑因子，f(n)为峰值点频率，P(f,n)为基于峰值点频率计算时刻n对应该频点的频率平稳度。

可以理解的是，对于上述不同维度的频谱参数，可以采用其中一个或多个得到频谱特征；具体形式因实际场景而定。具体的，当基于上述三个维度确定频谱特征时，可以采用如下公式进行：

其中，L为频谱峰值点的数目，f_i为每个峰值点的频率值，D(f,n)为峰值频点能量占比，H(f,n)为峰值频点谐波占比，P(f,n)为基于峰值点频率的平稳度；a1、a2、a3为权重参数，可以是相关人员根据经验设定的，也可以终端是根据历史记录自动生成的，例如a1＝-0.5，a2＝1，a3＝-0.1。其中，a1主要是用于排除音乐导致的误检，如用于K歌环境，a1可以适当增加；a2主要运用于通话啸叫检出，即在会议场景中a2适当增加；a3主要排除铃声误检，如果场景嘈杂，a3可以适当增加，具体取值因实际场景而定，此处不做限定。

304、融合周期性特征和频谱特征，以得到融合特征。

本实施例中，由于基于不同的网络延迟可能造成不同特征下的啸叫，例如网络延迟短更可能出现基于频谱特征的啸叫，延迟长更可能出现基于周期性特征啸叫。因此融合周期性特征和频谱特征可以基于加权因子进行，即根据获取周期性特征确定加权参数，根据m_h(n)/f_s得到周期性特征中周期内的样本数；然后根据加权参数为周期性特征和频谱特征分配加权因子，其中，加权因子是基于网络延迟特征设定的，通过网络延迟特征的相对比例即可进行分配；从而融合分配加权因子后周期性特征和分配加权因子后频谱特征，以得到频谱特征。具体可以参见如下公式进行：

其中，W(n)为融合特征；T(n)为周期性特征；F(n)为频谱特征；T₁是单向网络传输延时下限；T₂是双向网络传输延时上限；m_h(n)为周期大小值；f_s为采样率。

305、基于至少一个检测条件对融合特征进行检测，以得到啸叫检测结果。

本实施例中，检测条件基于啸叫点的出现概率或强度设定。即将融合特征W(n)与啸叫发生阈值W_Thres进行比较。公式如下：

其中，W(n)为融合特征，j为检测的时刻，W_Thres为啸叫发生阈值，Q为统计帧数。

进一步的，通过判断统计概率K(n)大于K_Thres时，则啸叫发生，否则判断啸叫未发生，并记录对应的时刻n。

结合上述实施例可知，通过获取通信过程中的音频输入信号，并提取音频输入信号的周期性特征以及频谱特征，其中周期性特征包括自相关峰值强度和时间差位置；接下来融合周期性特征和频谱特征，以得到融合特征；进而基于至少一个检测条件对融合特征进行检测，以得到啸叫检测结果。从而实现了基于融合特征的啸叫检测过程，由于利用周期性特征可以追踪早期啸叫发生时刻，并结合啸叫形成后的频谱特征进行最终判决，降低了误检概率，提高了啸叫检测的准确性。

上述实施例介绍了啸叫检测的过程，下面结合具体的流程分布对音频输入信号的处理进程进行说明，如图4所示，为本申请实施例提供的一种啸叫检测的方法的流程框架图；图中音频输入信号首先经过语音预处理模块401，然后将预处理后的语音输入周期性特征模块402，以提取周期性特征。另外，音频输入信号在另一线程中输入频谱特征模块403，以提取频谱特征，然后将周期性特征和频谱特征输入融合特征模块404，以得到融合特征，并基于该特征进行啸叫检测过程。

具体的，对于周期性特征模块402，如图5所示，为本申请实施例提供的另一种啸叫检测的方法的流程框架图；进程包括语音自相关计算模块501与相关性特征提取模块502两个部分，具体过程可以参考图3实施例中步骤302的相关描述，此处不做赘述。

具体的，对于频谱特征模块403，如图6所示，为本申请实施例提供的另一种啸叫检测的方法的流程框架图；首先将音频输入信号输入时频分析模块601，然后输入频谱峰值追踪模块602，进而根据得到的频谱峰值进行峰值频点能量占比模块603、峰值谐波能量比模块604或峰值频率平稳度模块605中至少一个模块的频谱参数的获取过程，并在啸叫频谱特征提取模块606中进行结合，以得到频谱特征。

可以理解的是上述模块连接关系为逻辑示意，具体的可以是虚拟进程的关联，也可以是实体装置的关联，此处不做限定。

上述实施例介绍了啸叫检测的过程，在另一种可能的场景中，如图7所示，是本申请实施例提供的一种音频信号处理的场景示意图，图中示出了终端外放场景下的一条回路。当两部终端距离比较近的时候，右边终端扬声器声音出来，被左边终端麦克风拾取。经过前处理和信号转换，通过网络发到右边终端。经过扬声器播放出来，再被左边终端麦克风拾取。如此不断循环，如果环路在某个频点增益大于等于1，且相位是正向的，那么这一点就会形成啸叫点。

下面，结合游戏应用作为具体场景在图7中的应用进行介绍，请参阅图8，图8为本申请实施例提供的另一种啸叫检测的方法的流程图，本申请实施例至少包括以下步骤：

801、获取语音通话过程中的音频输入信号。

802、对音频输入信号进行啸叫检测，以得到啸叫检测结果。

本实施例中，步骤801和802的相关特征与图3所示的步骤301-305相似，此处不做赘述。

803、根据啸叫检测结果调整语音通话过程中对应的通话参数。

本实施例中，通话参数的调整可以是检测到啸叫提示用户出现啸叫，也可以是检测到啸叫关闭麦克风，或者是检测到啸叫关闭扬声器，还有检测到啸叫降低麦克风或扬声器音量等产品等。

具体的，如图9所示，是本申请实施例提供的另一种啸叫检测的场景示意图，图中为游戏语音通话的场景，当检测到啸叫时，通话特征A1可以进行提醒指示，例如：闪烁或抖动等展现形式。

在另一种场景中，如图10所示，是本申请实施例提供的另一种啸叫检测的场景示意图，图中为云会议的场景，当检测到啸叫时，会弹出窗口提示用于检测到啸叫，并关联处理操作，例如：关闭麦克风。

结合上述实施例可见，通过自动进行啸叫检测的后台进程，并在语音通话过程中及时进行语音调整或提醒，避免了由于啸叫造成的通话质量下降，提高了用户进行语音通话的质量，提升用户体验。

为了更好的实施本申请实施例的上述方案，下面还提供用于实施上述方案的相关装置。请参阅图11，图11为本申请实施例提供的一种啸叫检测装置的结构示意图，啸叫检测装置1100包括：

获取单元1101，用于获取音频输入信号；

提取单元1102，用于提取所述音频输入信号的周期性特征，所述周期性特征包括自相关峰值强度和时间差位置；

所述提取单元1102，还用于提取所述音频输入信号的频谱特征，所述频谱特征基于至少一个维度的频谱参数融合所得，所述频谱参数与啸叫点的频谱分布相关；

融合单元1103，用于融合所述周期性特征和所述频谱特征，以得到融合特征；

检测单元1104，用于基于至少一个检测条件对所述融合特征进行检测，以得到啸叫检测结果，所述检测条件基于所述啸叫点的出现概率或强度设定。

可选的，在本申请一些可能的实现方式中，所述提取单元1102，具体用于根据所述音频输入信号在检测时长内的重复性确定自相关系数；

所述提取单元1102，具体用于根据所述自相关系数确定所述自相关峰值强度和所述时间差位置。

可选的，在本申请一些可能的实现方式中，所述提取单元1102，具体用于获取所述音频输入信号在采集时间段内的网络传输延时波动范围；

所述提取单元1102，具体用于根据所述网络传输延时波动范围确定所述检测时长；

所述提取单元1102，具体用于根据所述音频输入信号在所述检测时长内的重复性确定自相关系数。

可选的，在本申请一些可能的实现方式中，所述提取单元1102，具体用于基于预处理规则对所述音频输入信号进行处理，所述预处理规则包括至少一个维度的噪声特征确定；

所述提取单元1102，具体用于根据处理后的所述音频输入信号在检测时长内的重复性确定自相关系数。

可选的，在本申请一些可能的实现方式中，所述提取单元1102，具体用于对所述音频输入信号进行时频分析，以得到时频信号；

所述提取单元1102，具体用于根据所述时频信号的峰值特征进行筛选，以得到频谱峰值点；

所述提取单元1102，具体用于统计所述频谱峰值点的出现概率，以得到峰值点频率；

所述提取单元1102，具体用于根据所述峰值点频率提取所述频谱特征。

可选的，在本申请一些可能的实现方式中，所述提取单元1102，具体用于根据所述峰值点频率获取所述时频信号中每个频点的频点能量占所述时频信号总能量的能量比值；

所述提取单元1102，具体用于根据所述能量比值确定所述时频信号的能量平稳度，以得到所述频谱特征。

可选的，在本申请一些可能的实现方式中，所述提取单元1102，具体用于获取所述时频信号对应的谐波信号；

所述提取单元1102，具体用于根据所述峰值点频率获取所述时频信号中每个频点的频点能量；

所述提取单元1102，具体用于根据所述频点能量与所述谐波信号对应的能量的比值确定所述频谱特征。

可选的，在本申请一些可能的实现方式中，所述提取单元1102，具体用于确定所述峰值点频率对应的频点；

所述提取单元1102，具体用于根据所述峰值点频率对应的频点中相邻频点的波动情况确定频率平稳度，以得到所述频谱特征。

可选的，在本申请一些可能的实现方式中，所述提取单元1102，具体用于所述根据所述时频信号的峰值特征确定候选峰值点；

所述提取单元1102，具体用于选取满足预设条件的所述候选峰值点，以得到频谱峰值点。

可选的，在本申请一些可能的实现方式中，所述融合单元1103，具体用于具体用于根据所述周期性特征确定加权参数，所述加权参数用于指示所述周期性特征中周期内的样本数；

所述融合单元1103，具体用于根据所述加权参数为所述周期性特征和所述频谱特征分配加权因子；

所述融合单元1103，具体用于融合分配加权因子后所述周期性特征和分配加权因子后所述频谱特征，以得到所述融合特征。

可选的，在本申请一些可能的实现方式中，所述融合单元1103，具体用于根据所述加权参数确定所述周期性特征和所述频谱特征的网络延迟特征；

所述融合单元1103，具体用于根据所述网络延迟特征为所述周期性特征和所述频谱特征分配加权因子。

本申请实施例还提供了一种语音通话装置1200，如图12所示，是本申请实施例提供的一种语音通话的结构示意图，具体包括：

获取单元1201，用于获取语音通话过程中的音频输入信号；

检测单元1202，用于对所述音频输入信号进行啸叫检测，以得到啸叫检测结果，所述啸叫检测包括第一方面或第一方面任一项所述的啸叫检测的方法；

调整单元1203，用于根据所述啸叫检测结果调整所述语音通话过程中对应的通话参数。

本申请实施例还提供了一种终端设备，如图13所示，是本申请实施例提供的另一种终端设备的结构示意图，为了便于说明，仅示出了与本申请实施例相关的部分，具体技术细节未揭示的，请参照本申请实施例方法部分。该终端可以为包括手机、平板电脑、个人数字助理(personal digital assistant，PDA)、销售终端(point of sales，POS)、车载电脑等任意终端设备。

在本申请实施例中，该终端所包括的处理器1380还具有执行如上述页面处理方法的各个步骤的功能。

本申请实施例中还提供一种计算机可读存储介质，该计算机可读存储介质中存储有啸叫检测指令，当其在计算机上运行时，使得计算机执行如前述图3至图10所示实施例描述的方法中啸叫检测装置所执行的步骤。

本申请实施例中还提供一种包括啸叫检测指令的计算机程序产品，当其在计算机上运行时，使得计算机执行如前述图3至图10所示实施例描述的方法中啸叫检测装置所执行的步骤。

本申请实施例还提供了一种啸叫检测系统，所述啸叫检测系统可以包含图11所描述实施例中的啸叫检测装置，或图12所描述实施例中的语音通话装置，或者图13所描述的终端设备。

所属领域的技术人员可以清楚地了解到，为描述的方便和简洁，上述描述的系统，装置和单元的具体工作过程，可以参考前述方法实施例中的对应过程，在此不再赘述。

以上所述，以上实施例仅用以说明本申请的技术方案，而非对其限制；尽管参照前述实施例对本申请进行了详细的说明，本领域的普通技术人员应当理解：其依然可以对前述各实施例所记载的技术方案进行修改，或者对其中部分技术特征进行等同替换；而这些修改或者替换，并不使相应技术方案的本质脱离本申请各实施例技术方案的精神和范围。

Claims

1.一种啸叫检测的方法，其特征在于，包括：

获取音频输入信号；

融合所述周期性特征和所述频谱特征，以得到融合特征；

2.根据权利要求1所述的方法，其特征在于，所述提取所述音频输入信号的周期性特征，包括：

3.根据权利要求2所述的方法，其特征在于，所述根据所述音频输入信号在检测时长内的重复性确定自相关系数，包括：

根据所述网络传输延时波动范围确定所述检测时长；

4.根据权利要求2所述的方法，其特征在于，所述根据所述音频输入信号在检测时长内的重复性确定自相关系数，包括：

5.根据权利要求1所述的方法，其特征在于，所述提取所述音频输入信号的频谱特征，包括：

对所述音频输入信号进行时频分析，以得到时频信号；

统计所述频谱峰值点的出现概率，以得到峰值点频率；

根据所述峰值点频率提取所述频谱特征。

6.根据权利要求5所述的方法，其特征在于，所述根据所述峰值点频率提取所述频谱特征，包括：

7.根据权利要求5所述的方法，其特征在于，所述根据所述峰值点频率提取所述频谱特征，包括：

获取所述时频信号对应的谐波信号；

8.根据权利要求5所述的方法，其特征在于，所述根据所述峰值点频率提取所述频谱特征，包括：

确定所述峰值点频率对应的频点；

9.根据权利要求5所述的方法，其特征在于，所述根据所述时频信号的峰值特征进行筛选，以得到频谱峰值点，包括：

所述根据所述时频信号的峰值特征确定候选峰值点；

选取满足预设条件的所述候选峰值点，以得到频谱峰值点。

10.根据权利要求1所述的方法，其特征在于，所述融合所述周期性特征和所述频谱特征，以得到融合特征，包括：

11.根据权利要求10所述的方法，其特征在于，所述根据所述加权参数为所述周期性特征和所述频谱特征分配加权因子，包括：

12.一种语音通话的方法，其特征在于，包括：

获取语音通话过程中的音频输入信号；

对所述音频输入信号进行啸叫检测，以得到啸叫检测结果，所述啸叫检测包括权利要求1-11任一项所述的啸叫检测的方法；

13.一种啸叫检测的装置，其特征在于，包括：

获取单元，用于获取音频输入信号；

14.一种计算机设备，其特征在于，所述计算机设备包括处理器以及存储器：

所述存储器用于存储程序代码；所述处理器用于根据所述程序代码中的指令执行权利要求1至11任一项所述的啸叫检测的方法，或权利要求12所述的语音通话的方法。

15.一种计算机可读存储介质，所述计算机可读存储介质中存储有指令，当其在计算机上运行时，使得计算机执行上述权利要求1至11任一项所述的啸叫检测的方法，或权利要求12所述的语音通话的方法。