CN116887160B

CN116887160B - 基于神经网络的数字助听器啸叫抑制方法及系统

Info

Publication number: CN116887160B
Application number: CN202311152648.6A
Authority: CN
Inventors: 章调占; 张志平
Original assignee: Jiuyi Shenzhen Medical Technology Co ltd
Current assignee: Jiuyi Shenzhen Medical Technology Co ltd
Priority date: 2023-09-08
Filing date: 2023-09-08
Publication date: 2024-01-12
Anticipated expiration: 2043-09-08
Also published as: CN116887160A

Abstract

本说明书实施例公开了基于神经网络的数字助听器啸叫抑制方法及系统，涉及助听器技术领域。其中，该方法包括：获取数字助听器接收的语音信号；基于神经网络获取所述语音信号中每个时刻的状态；根据所述语音信号中每个时刻的状态以及每个时刻的幅频峰值的分布特征确定每个时刻对应的收敛平稳系数；基于所述收敛平稳系数确定非平稳时刻；基于所述非平稳时刻与啸叫时刻的时间间隔确定步长调节比例，并基于所述步长调节比例和所述收敛平稳系数获取每个时刻对应的收敛步长；基于NLMS算法和所述收敛步长对所述语音信号进行回声消除，以抑制所述数字助听器中的啸叫。

Description

基于神经网络的数字助听器啸叫抑制方法及系统

技术领域

本申请涉及助听器技术领域，特别涉及基于神经网络的数字助听器啸叫抑制方法及系统。

背景技术

数字助听器可以将来自麦克风的电信号转换成数字信号，经处理后再转换成模拟信号给听筒，其可以满足听障者对助听器品质日益增长的需求，提高听障者的生活质量。

啸叫是数字助听器在使用过程中影响使用体验的主要因素之一，其产生的原因是助听器放大后的声音通过空间或结构振动传递至麦克风，并再次成为输入信号被循环放大，造成声音信号的某些频率出现共振，直至反馈信号达到饱和输出状态，引起啸叫。啸叫分为内部啸叫和外部啸叫，内部啸叫是由于助听器内部元器件老化或受到振动，出现脱落或移位等情况，导致结构被破坏而产生的啸叫情况，外部啸叫是因为放大出来的声音从耳道溢出让麦克风再次收到。

现阶段的啸叫抑制方法主要包括移频器抑制、陷波器抑制、自适应反馈抑制三个抑制方向，在音质要求高的场景下，啸叫频点会出现扩散特征，移频器抑制效果较差；陷波器的抑制依赖于啸叫频率的精准检测，但在实时通话过程中很难得到精准的啸叫频率；自适应反馈抑制对语音损伤较大，而且如果抑制存在残留，在助听器的实际使用中仍会产生较弱的啸叫。

基于此，有必要研究一种用于数字助听器的啸叫抑制方法，以有效解决数字助听器的啸叫问题。

发明内容

本说明书实施例的一个方面提供基于神经网络的数字助听器啸叫抑制方法，该方法包括：

获取数字助听器接收的语音信号；

基于神经网络获取所述语音信号中每个时刻的状态；

根据所述语音信号中每个时刻的状态以及每个时刻的幅频峰值的分布特征确定每个时刻对应的收敛平稳系数，所述收敛平稳系数用于表征所述语音信号中每个时刻存在谐波峰的概率；

基于所述收敛平稳系数确定非平稳时刻；

基于所述非平稳时刻与啸叫时刻的时间间隔确定步长调节比例，并基于所述步长调节比例和所述收敛平稳系数获取每个时刻对应的收敛步长；

基于NLMS算法和所述收敛步长对所述语音信号进行回声消除，以抑制所述数字助听器中的啸叫。

在一些实施例中，所述基于神经网络获取所述语音信号中每个时刻的状态，包括：

对所述语音信号进行去噪，并对去噪后的所述语音信号进行时域变换，得到对应的时域图；

基于所述时域图获取所述语音信号中每个时刻的短时能量，以及所述语音信号在延时为k时的短时自相关系数；

将每个时刻的短时能量和短时自相关系数作为所述语音信号所对应的时域图中每个时刻的瞬时向量，并将所述瞬时向量输入训练好的状态检测模型，得到所述语音信号中每个时刻的状态，其中，所述状态包括收敛状态和非收敛状态。

在一些实施例中，所述根据所述语音信号中每个时刻的状态以及每个时刻的幅频峰值的分布特征确定每个时刻对应的收敛平稳系数，包括：

从所述语音信号的频域图中获取幅值的各个峰值，将每个不相等的峰值作为一个峰值级；

对于每一个所述峰值级；

获取所述峰值在所述语音信号的所述时域图中对应的所有时刻，将相邻两个时刻的时间差值作为间隔时间，并将所有间隔时间组成的序列记为间隔时间序列；

获取所述峰值在所述语音信号的所述频域图中对应的所有频率，将相邻两个频率的差值作为间隔频率，并将所有间隔频率组成的序列记为间隔频率序列；

基于所述间隔时间序列和所述间隔频率序列，确定每个时刻对应的峰间波动度；

基于所述状态确定每个时刻对应的收敛距离；

根据所述峰间波动度与所述收敛距离的比值，得到每个时刻对应的收敛平稳系数。

在一些实施例中，所述峰间波动度基于如下公式计算：

；

其中，为第i个时刻对应的峰间波动度，m为所述语音信号中的所述峰值级的统计数量，为第i个时刻对应峰值级所对应的间隔时间序列，为第b个峰值级所对应的间隔时间序列，为第i个时刻对应峰值级所对应的间隔频率序列，为第b个峰值级所对应的间隔频率序列，为间隔时间序列与之间的DTW距离，为间隔频率序列与之间的DTW距离。

在一些实施例中，所述收敛距离基于如下公式计算：

；

其中，为第i个时刻对应的收敛距离，为所述语音信号中的收敛时刻的数量，M为每个收敛时刻所对应的参照序列的长度，s为收敛时刻所对应的序号，为第i个时刻的功率值，为第s个收敛时刻的参照序列中第j个时刻的功率值，为第i个时刻与个收敛时刻的幅值差值所组成的数据集合的变异系数。

在一些实施例中，所述基于所述收敛平稳系数确定非平稳时刻，包括：

将所有处于非收敛状态的时刻所对应的收敛平稳系数根据时间顺序组成收敛序列，并利用BG序列分割算法获取所述收敛序列中的突变点；

将所述突变点对应的时刻和所有处于收敛状态的时刻共同作为所述语音信号中的非平稳时刻。

在一些实施例中，所述基于所述非平稳时刻与啸叫时刻的时间间隔确定步长调节比例，包括：

计算每个所述非平稳时刻的线性预测系数，所述线性预测系数用于表征每个所述非平稳时刻的偏差情况；

将每个所述非平稳时刻对应的线性预测系数按照时间顺序进行排列，得到对应的线性预测序列；

对于每一个非平稳时刻；

基于前后相邻时刻所对应的线性预测序列以及自身所对应的线性预测序列，确定收敛贡献比；

基于自身所对应的重建变化量与所有非平稳时刻所对应的重建变化量之和的比值，确定信息有效比；

根据所述收敛贡献比和所述信息有效比，得到每一个非平稳时刻所对应的步长调节比例。

在一些实施例中，所述收敛贡献比基于如下公式计算：

；

其中，为第y个非平稳时刻所对应的收敛贡献比；、、分别为第y-1个、第y个、第y+1个非平稳时刻所对应的线性预测序列；、、分别为序列与、与、与之间的皮尔逊相关系数；

所述信息有效比基于如下公式计算：

；

其中，为第y个非平稳时刻的信息有效比，M为非平稳时刻的数量，为第y个非平稳时刻所对应的重建变化量；

所述步长调节比例基于如下公式计算：

；

其中，为第y个非平稳时刻所对应的步长调节比例。

在一些实施例中，所述收敛步长基于如下公式计算：

；

其中，为第i个时刻的收敛比例，M为非平稳时刻的数量，分别为第i个时刻、第y个非平稳时刻对应的收敛平稳系数，为第y个非平稳时刻对应的步长调节比例，为收敛步长最大值，表示归一化函数，为收敛比例的最大值，为调节因子。

本说明书实施例的另一个方面还提供基于神经网络的数字助听器啸叫抑制系统，该系统包括：

获取模块，用于获取数字助听器接收的语音信号；

状态确定模块，用于基于神经网络获取所述语音信号中每个时刻的状态；

收敛平稳系数确定模块，用于根据所述语音信号中每个时刻的状态以及每个时刻的幅频峰值的分布特征确定每个时刻对应的收敛平稳系数，所述收敛平稳系数用于表征所述语音信号中每个时刻存在谐波峰的概率；

非平稳时刻确定模块，用于基于所述收敛平稳系数确定非平稳时刻；

收敛步长确定模块，用于基于所述非平稳时刻与啸叫时刻的时间间隔确定步长调节比例，并基于所述步长调节比例和所述收敛平稳系数获取每个时刻对应的收敛步长；

啸叫抑制模块，用于基于NLMS算法和所述收敛步长对所述语音信号进行回声消除，以抑制所述数字助听器中的啸叫。

本说明书实施例所提供的基于神经网络的数字助听器啸叫抑制方法及系统可能带来的有益效果至少包括：（1）通过神经网络检测语音信号中每个时刻的状态，并根据每个时刻的幅频峰值的分布特征构建收敛平稳系数，考虑了峰值点相邻时刻的幅频分布，可以避免传统啸叫检测方法中基于单一时刻进行评估而导致效果不理想的问题，提高了对数字助听器中啸叫信号的检测精度；（2）通过基于非平稳时刻与啸叫时刻的时间间隔构建步长调节比例，可以充分利用语音信号中每个时刻的幅频特征，同时，通过每个非平稳时刻与啸叫时刻的靠近程度评估自适应滤波器中系数能量分布状态，可以便于后续过程中自适应地获取NLMS算法中的收敛步长，解决收敛速度与精度之间难以调节的问题，提高抑制系统对啸叫的抑制效果。

附加的特征将在下面的描述中部分地阐述。对于本领域技术人员来说，通过查阅以下内容和附图将变得显而易见，或者可以通过实例的产生或操作来了解。本说明书的特征可以通过实践或使用以下详细实例中阐述的方法、工具和组合的各个方面来实现和获得。

附图说明

本说明书将以示例性实施例的方式进一步描述，这些示例性实施例将通过附图进行详细描述。这些实施例并非限制性的，在这些实施例中，相同的编号表示相同的结构，其中：

图1是根据本说明书的一些实施例所示的基于神经网络的数字助听器啸叫抑制系统的示例性应用场景示意图；

图2是根据本说明书的一些实施例所示的基于神经网络的数字助听器啸叫抑制系统的示例性模块图；

图3是根据本说明书的一些实施例所示的基于神经网络的数字助听器啸叫抑制方法的示例性流程图。

具体实施方式

为了更清楚地说明本说明书实施例的技术方案，下面将对实施例描述中所需要使用的附图作简单的介绍。显而易见地，下面描述中的附图仅仅是本说明书的一些示例或实施例，对于本领域的普通技术人员来讲，在不付出创造性劳动的前提下，还可以根据这些附图将本说明书应用于其它类似情景。除非从语言环境中显而易见或另做说明，图中相同标号代表相同结构或操作。

应当理解，本说明书中所使用的“系统”、“装置”、“单元”和/或“模块”是用于区分不同级别的不同组件、元件、部件、部分或装配的一种方法。然而，如果其他词语可实现相同的目的，则可通过其他表达来替换所述词语。

如本说明书和权利要求书中所示，除非上下文明确提示例外情形，“一”、“一个”、“一种”和/或“该”等词并非特指单数，也可包括复数。一般说来，术语“包括”与“包含”仅提示包括已明确标识的步骤和元素，而这些步骤和元素不构成一个排它性的罗列，方法或者设备也可能包含其它的步骤或元素。

本说明书中使用了流程图用来说明根据本说明书的实施例的系统所执行的操作。应当理解的是，前面或后面操作不一定按照顺序来精确地执行。相反，可以按照倒序或同时处理各个步骤。同时，也可以将其他操作添加到这些过程中，或从这些过程移除某一步或数步操作。

下面结合附图对本说明书实施例提供的基于神经网络的数字助听器啸叫抑制方法及系统进行详细说明。

图1是根据本说明书一些实施例所示的基于神经网络的数字助听器啸叫抑制系统的示例性应用场景示意图。

参照图1，在一些实施例中，基于神经网络的数字助听器啸叫抑制系统的应用场景100可以包括语音采集装置110、存储设备120、处理设备130、语音输出装置140以及网络150。应用场景100中的各个部件可以以多种方式相连接。例如，语音采集装置110可以与存储设备120和/或处理设备130通过网络150连接，也可以与存储设备120和/或处理设备130直接连接。又例如，存储设备120可以与处理设备130直接连接或通过网络150连接。又例如，语音输出装置140可以与存储设备120和/或处理设备130通过网络150连接，也可以与存储设备120和/或处理设备130直接连接。

语音采集装置110可以是数字助听器的一部分，例如，在一些实施例中，该语音采集装置110可以指数字助听器中的麦克风，其可以用于接收环境声音。在一些实施例中，语音采集装置110可以为单麦克风或阵列式麦克风。在一些实施例中，该语音采集装置110可以对环境语音进行实时采集，并将采集得到的语音信号发送至处理设备130进行处理。在一些实施例中，语音采集装置110可以具有独立的电源，其可以通过有线或无线的方式将采集的语音信号发送给应用场景100中的其他部件（例如，存储设备120、处理设备130、语音输出装置140）。在一些实施例中，应用场景100中可以包括多个（例如两个及以上）语音采集装置110，该多个语音采集装置110可以从不同的方向对环境中的声音进行采集，处理设备130可以基于不同语音采集装置110所采集的语音信号进行降噪处理，以去除该语音信号中的噪声。

在一些实施例中，语音采集装置110可以通过网络150将其采集的语音信号发送至存储设备120、处理设备130、语音输出装置140等。在一些实施例中，可以通过处理设备130对语音采集装置110所采集的语音信号进行处理。例如，处理设备130可以基于该语音信号确定每个时刻对应的收敛步长，并基于NLMS算法和该收敛步长对语音信号进行回声消除，从而抑制数字助听器中的啸叫。在一些实施例中，该语音信号和/或处理设备130对该语音信号进行处理得到的语音信号可以发送至存储设备120进行记录，或者发送至语音输出装置140以反馈给用户（例如数字助听器使用者）。

网络150可以促进信息和/或数据的交换。网络150可以包括能够促进应用场景100的信息和/或数据交换的任何合适的网络。在一些实施例中，应用场景100的至少一个组件（例如，语音采集装置110、存储设备120、处理设备130、语音输出装置140）可以通过网络150与应用场景100中至少一个其他组件交换信息和/或数据。例如，处理设备130可以通过网络150从语音采集装置110和/或存储设备120获得当前环境中采集得到的语音信号。又例如，处理设备130可以通过网络150将处理后的语音信号发送至语音输出装置140。

存储设备120可以储存数据、指令和/或任何其他信息。在一些实施例中，存储设备120可以存储从语音采集装置110和/或处理设备130获得的数据。例如，存储设备120可以存储语音采集装置110采集的语音信号；又例如，存储设备120可以存储处理设备130对该语音信号进行处理得到的语音信号。在一些实施例中，存储设备120可以存储处理设备130用来执行或使用来完成本说明书中描述的示例性方法的数据和/或指令。在一些实施例中，存储设备120可以包括大容量存储器、可移动存储器、易失性读写存储器、只读存储器（ROM）等或其任意组合。示例性的大容量存储器可以包括磁盘、光盘、固态磁盘等。在一些实施例中，存储设备120可以是数字助听器的一部分。在一些实施例中，存储设备120可以在云平台上实现。仅作为示例，所述云平台可以包括私有云、公共云、混合云、社区云、分布云、内部云、多层云等或其任意组合。

在一些实施例中，存储设备120可以连接到网络150以与应用场景100中的至少一个其他组件（例如，语音采集装置110、处理设备130、语音输出装置140）通信。应用场景100中的至少一个组件可以通过网络150访问存储设备120中存储的数据、指令或其他信息。在一些实施例中，存储设备120可以与应用场景100中的一个或以上组件（例如，语音采集装置110、处理设备130）直接连接或通信。在一些实施例中，存储设备120可以是语音采集装置110和/或处理设备130的一部分。

处理设备130可以处理从语音采集装置110、存储设备120和/或应用场景100的其他组件获得数据和/或信息。在一些实施例中，处理设备130可以从语音采集装置110和/或存储设备120中获得语音信号，通过对该语音信号进行处理以确定每个时刻对应的收敛步长，并基于NLMS算法和该收敛步长对语音信号进行回声消除，从而抑制数字助听器中的啸叫。在一些实施例中，处理设备130可以从存储设备120获取预先存储的计算机指令，并执行该计算机指令以实现本说明书所描述的基于神经网络的数字助听器啸叫抑制方法。

在一些实施例中，处理设备130可以是本地或远程的。例如，在一些实施例中，处理设备130可以是数字助听器的一部分；又例如，在一些实施例中，处理设备130可以为单一服务器或服务器组。服务器组可以是集中式的或分布式的，语音采集装置110采集的语音信号可以发送至该服务器进行处理。在一些实施例中，处理设备130可以通过网络150从语音采集装置110和/或存储设备120访问信息和/或数据。在一些实施例中，处理设备130可以直接连接到语音采集装置110和/或存储设备120以访问信息和/或数据。在一些实施例中，处理设备130可以在云平台上实现。例如，云平台可以包括私有云、公共云、混合云、社区云、分布式云、云间云、多云等或其任意组合。

语音输出装置140可以接收和/或输出语音信号，该语音信号可以包括语音采集装置110采集的语音信号和/或处理设备130处理得到的语音信号。例如，在一些实施例中，语音采集装置110所采集的语音信号可以直接发送至语音输出装置140进行输出。又例如，在一些实施例中，语音采集装置110所采集的语音信号可以先发送至处理设备130进行去噪和啸叫抑制等处理，然后再将处理后的语音信号发送至语音输出装置140进行输出。在一些实施例中，语音输出装置140可以是数字助听器的一部分，例如，该语音输出装置140可以指数字助听器的扬声器（也可以叫做听筒）。

应当注意的是，上述有关应用场景100的描述仅仅是为了示例和说明，而不限定本说明书的适用范围。对于本领域技术人员来说，在本说明书的指导下可以对应用场景100进行各种修正和改变。然而，这些修正和改变仍在本说明书的范围之内。例如，语音采集装置110、语音输出装置140等可以包括更多或更少的功能组件。

图2是根据本说明书一些实施例所示的基于神经网络的数字助听器啸叫抑制系统的模块示意图。在一些实施例中，图2所示的基于神经网络的数字助听器啸叫抑制系统200可以以软件和/或硬件的方式应用到图1所示的应用场景100，例如，可以以软件和/或硬件的形式配置到处理设备130，以用于对语音采集装置110所采集的语音信号进行处理，基于该语音信号确定每个时刻对应的收敛步长，并基于NLMS算法和该收敛步长对语音信号进行回声消除，从而抑制数字助听器中的啸叫。

参照图2，在一些实施例中，基于神经网络的数字助听器啸叫抑制系统200可以包括获取模块210、状态确定模块220、收敛平稳系数确定模块230、非平稳时刻确定模块240、收敛步长确定模块250以及啸叫抑制模块260。

获取模块210可以用于获取数字助听器接收的语音信号。

状态确定模块220可以用于基于神经网络获取所述语音信号中每个时刻的状态。

收敛平稳系数确定模块230可以用于根据所述语音信号中每个时刻的状态以及每个时刻的幅频峰值的分布特征确定每个时刻对应的收敛平稳系数，所述收敛平稳系数用于表征所述语音信号中每个时刻存在谐波峰的概率。

非平稳时刻确定模块240可以用于基于所述收敛平稳系数确定非平稳时刻。

收敛步长确定模块250可以用于基于所述非平稳时刻与啸叫时刻的时间间隔确定步长调节比例，并基于所述步长调节比例和所述收敛平稳系数获取每个时刻对应的收敛步长。

啸叫抑制模块260可以用于基于NLMS算法和所述收敛步长对所述语音信号进行回声消除，以抑制所述数字助听器中的啸叫。

关于上述各个模块的更多细节可以参照本说明书的其他位置（例如图3部分及其相关描述），此处不再赘述。

应当理解，图2所示的基于神经网络的数字助听器啸叫抑制系统200及其模块可以利用各种方式来实现。例如，在一些实施例中，系统及其模块可以通过硬件、软件或者软件和硬件的结合来实现。其中，硬件部分可以利用专用逻辑来实现；软件部分则可以存储在存储器中，由适当的指令执行系统，例如微处理器或者专用设计硬件来执行。本领域技术人员可以理解上述的方法和系统可以使用计算机可执行指令和/或包含在处理器控制代码中来实现，例如在诸如磁盘、CD或DVD-ROM的载体介质、诸如只读存储器（固件）的可编程的存储器或者诸如光学或电子信号载体的数据载体上提供了这样的代码。本说明书的系统及其模块不仅可以有诸如超大规模集成电路或门阵列、诸如逻辑芯片、晶体管等的半导体、或者诸如现场可编程门阵列、可编程逻辑设备等的可编程硬件设备的硬件电路实现，也可以用例如由各种类型的处理器所执行的软件实现，还可以由上述硬件电路和软件的结合（例如，固件）来实现。

需要注意的是，上述关于基于神经网络的数字助听器啸叫抑制系统200的描述仅出于说明性目的而提供，并不旨在限制本说明书的范围。可以理解，对于本领域的技术人员来说，可以根据本说明书的描述，在不背离这一原理的情况下，对各个模块进行任意组合，或者构成子系统与其他模块连接。例如，图2中所述的获取模块210、状态确定模块220、收敛平稳系数确定模块230、非平稳时刻确定模块240、收敛步长确定模块250以及啸叫抑制模块260可以是一个系统中的不同模块，也可以是一个模块实现上述的两个或两个以上模块的功能。再例如，基于神经网络的数字助听器啸叫抑制系统200还可以包括预处理模块，预处理模块可以用于对前述语音信号进行维纳滤波去噪等预处理。诸如此类的变形，均在本说明书的保护范围之内。在一些实施例中，前述各个模块可以是处理设备130的一部分。

图3是根据本说明书一些实施例所示的基于神经网络的数字助听器啸叫抑制方法的示例性流程图。在一些实施例中，方法300可以通过处理逻辑来执行，该处理逻辑可以包括硬件（例如，电路、专用逻辑、可编程逻辑、微代码等）、软件（运行在处理设备上以执行硬件模拟的指令）等或其任意组合。在一些实施例中，图3所示的基于神经网络的数字助听器啸叫抑制方法300的流程图中的一个或多个操作可以通过图1所示的处理设备130实现。例如，方法300可以以指令的形式存储在存储设备120中，并由处理设备130调用和/或执行。下面结合图3对方法300的具体执行过程进行详细说明。

参照图3，在一些实施例中，基于神经网络的数字助听器啸叫抑制方法300可以包括：

步骤310，获取数字助听器接收的语音信号。在一些实施例中，步骤310可以由获取模块210执行。

数字助听器接收的语音信号可以指数字助听器中的语音采集装置110针对所在的当前环境采集得到的语音信号。在一些实施例中，语音采集装置110采集得到的语音信号可以存储在存储设备120中，获取模块210可以从存储设备120获取数字助听器接收的语音信号。在一些实施例中，该获取模块210可以与语音采集装置110通信连接，获取模块210可以直接从语音采集装置110获取数字助听器接收的语音信号。

在一些实施例中，可以利用音频采集设备或者音频录制软件，以获得数字助听器使用过程中的语音信号。示例性地，在一些实施例中，可以将连接线或者适配器的两端分别连接到数字助听器和计算机，然后利用计算机中的音频录制软件获取数字助听器在使用过程中接收的语音信号。

在一些实施例中，为了消除语音信号在采集、传输过程中的噪声影响，可以利用维纳滤波算法对采集的语音信号进行去噪处理。维纳滤波去噪为公知技术，其具体过程本说明书中不再进行赘述。

在一些实施例中，经过研究发现，在语音信号的频域上，啸叫频点功率很高，在整个信号的频谱图中是一个峰值，大于其它语音信号或噪声信号的功率值，即正常语音信号的能量主要集中在较低频带，例如人的语音信号主要集中在300Hz到3kHz范围内，而啸叫信号的能量分布较为宽泛；而在语音信号的时域上，啸叫频点的功率具有一个迅速增大的过程，达到峰值后一直保持。除此之外，正常语音信号具有较为明确的谐波分量，而啸叫信号可能会出现非线性失真、噪声等，并且，包含啸叫的音频信号在啸叫频率不含谐波峰。

自适应滤波器NLMS（Normalized LMS）算法可以通过调整数字滤波器的参数获得与反馈信道相近的频率响应，然后将数字滤波的输出与采集的语音信号相减来消除回声，抑制啸叫。但是，NLMS算法在抑制啸叫的过程中，收敛速度与精度之间难以调节，因此，本说明书实施例中考虑利用语音信号的状态来自适应获取收敛步长的大小。

步骤320，基于神经网络获取所述语音信号中每个时刻的状态。在一些实施例中，步骤320可以由状态确定模块220执行。

在一些实施例中，为降低数字助听器使用过程的主观影响，可以连续采集n次时长为K的语音信号，将第t次去噪后的语音信号记为x(t)。对于去噪后的语音信号x(t)，可以进行时域变换，得到对应的时域图。进一步地，状态确定模块220可以基于该时域图获取语音信号x(t)中每个时刻的短时能量，以及该语音信号x(t)在延时为k时的短时自相关系数。其中，k的大小取经验值2s。如果某一时刻存在啸叫，则短时能量会有一个较大的变化，且语音信号x(t)的自相关系数也会发生一个较大的变化（短时能量与短时自相关系数为公知技术，具体过程不再赘述）。基于此，在本说明书的一些实施例中，可以将每个时刻的短时能量和短时自相关系数作为该语音信号x(t)所对应的时域图中每个时刻的瞬时向量，进一步地，可以将该瞬时向量作为输入数据输入训练好的状态检测模型，得到该语音信号x(t)中每个时刻的状态。其中，该状态包括收敛状态和非收敛状态。

在一些实施例中，前述状态检测模型可以通过如下方式训练得到：

将语音信号中每个时刻的短时能量与前一时刻的短时能量的差值作为当前时刻语音信号的能量变量；然后，利用大津阈值算法获取能量变量的分割阈值，并将能量变量大于或等于分割阈值的时刻视为收敛时刻，将能量变量小于分割阈值的时刻视为非收敛时刻；最后，将收敛时刻对应的瞬时向量标记为0，将非收敛时刻对应的瞬时向量标记为1，并将标记后的所有瞬时向量作为训练样本对初始状态检测模型进行训练，直至达到预设条件时结束训练，得到前述训练好的状态检测模型。

在一些实施例中，前述状态检测模型的结构可以为卷积神经网络，其可以以Adam为优化算法，以交叉熵函数为损失函数，其输出为每个时刻对应的语音信号状态。由于神经网络的训练为公知技术，因此，其具体训练过程本说明书中不再赘述。

步骤330，根据所述语音信号中每个时刻的状态以及每个时刻的幅频峰值的分布特征确定每个时刻对应的收敛平稳系数。在一些实施例中，步骤330可以由收敛平稳系数确定模块230执行。

幅频峰值是指一个信号在某个频率上的最大振幅值。在一些实施例中，可以从语音信号x(t)的频域图中获取幅值的各个峰值，然后将每个不相等的峰值作为一个峰值级，例如，可以将峰值级从低到高分别记为1到L。

由于正常语音信号的幅值分布具有一定的周期性，而啸叫频率的幅值具有逐渐增大的非周期性，且根据啸叫程度的不同，这种非周期变化并不是只出现一次。也就是说，每个峰值都会对应不止一个时刻或者一个频率。

基于此，对于每一级峰值，可以获取该峰值在语音信号x(t)的时域图中对应的所有时刻，将相邻两个时刻的时间差值作为间隔时间，并将所有间隔时间组成的序列记为间隔时间序列。其次，获取该峰值在语音信号x(t)的频域图中对应的所有频率，将相邻两个频率的差值作为间隔频率，并将所有间隔频率组成的序列记为间隔频率序列。

需要指出的是，在语音信号x(t)中，如果某个时刻的语音数据破坏了相邻时刻信号幅值的周期性，且这个时刻属于收敛状态，则这个时刻NLMS算法应该加快收敛速度，以防止啸叫。

基于上述分析，可以构建收敛平稳系数V，用于表征语音信号中每个时刻存在谐波峰的概率。在一些实施例中，可以基于如下公式计算第i个时刻对应的收敛平稳系数:

；

其中，为第i个时刻对应的峰间波动度，m为语音信号中的峰值级的统计数量，为第i个时刻对应峰值级所对应的间隔时间序列，为第b个峰值级所对应的间隔时间序列，为第i个时刻对应峰值级所对应的间隔频率序列，为第b个峰值级所对应的间隔频率序列，为间隔时间序列与之间的DTW（Dynamic Time Warping，动态时间规整）距离，为间隔频率序列与之间的DTW距离。其中，DTW距离为公知技术，具体过程不再赘述。需要说明的是，在上述公式中，峰间波动度的值越大，表示语音信号x(t)中第i个时刻与其余峰值处之间的周期波动越大。

为第i个时刻对应的收敛距离，为语音信号中的收敛时刻的数量，M为每个收敛时刻所对应的参照序列的长度，s为收敛时刻所对应的序号，为第i个时刻的功率值，为第s个收敛时刻的参照序列中第j个时刻的功率值，为第i个时刻与个收敛时刻的幅值差值所组成的数据集合的变异系数。需要说明的是，在本说明书实施例中，M的大小取经验值7，此时，该参照序列是指以每个收敛时刻为中心，左右各取3个相邻时刻与收敛时刻组成的包含7个时刻的序列。变异系数为公知技术，具体过程本说明书中不再赘述。可以理解，收敛距离的值越小，表示第i个时刻越靠近收敛状态，NLMS算法在第i个时刻越有可能处于收敛状态。

具体而言，在本说明书的一些实施例中，收敛平稳系数确定模块230可以基于前述间隔时间序列和间隔频率序列，确定每个时刻对应的峰间波动度；然后，基于前述过程中基于神经网络获取的每个时刻的状态确定每个时刻对应的收敛距离；最后，收敛平稳系数确定模块230可以根据该峰间波动度与收敛距离的比值（），得到每个时刻对应的收敛平稳系数。

在本说明书中，该收敛平稳系数可以用于反映语音信号中每个时刻存在谐波峰的概率。语音信号x(t)中第i个时刻与其余峰值处之间的周期波动越大，第i个时刻对应的峰值级与其余峰值级的间隔时间差异越大，的值越大，第i个时刻对应的峰值级与其余峰值级对应的频率差异越大，的值越大；第i个时刻越靠近收敛状态，第i个时刻与收敛时刻的幅值差异越不稳定，的值越大，第i个时刻的功率值与收敛时刻的功率值差异越小，的值越小，第i个时刻越有可能靠近语音信号x(t)的幅频分布中的最值，即，的值越大，语音信号在第i个时刻周期性越差，NLMS算法在第i个时刻的短时能量越不稳定，第i个时刻越有可能处于收敛状态，第i个时刻越有可能包含啸叫。

需要指出的是，在本说明书实施例中，通过上述方式对收敛平稳系数进行计算，考虑了峰值点相邻时刻的幅频分布，可以避免传统啸叫检测方法中基于单一时刻的评估误差，因此，可以在一定程度上提高对数字助听器中啸叫信号的检测精度。

步骤340，基于所述收敛平稳系数确定非平稳时刻。在一些实施例中，步骤340可以由非平稳时刻确定模块240执行。

在一些实施例中，可以将前述过程中确定的所有处于非收敛状态的时刻所对应的收敛平稳系数根据时间顺序组成收敛序列，并利用BG（Bernaola Galvan）序列分割算法获取该收敛序列中的突变点，然后将该突变点对应的时刻和所有处于收敛状态的时刻共同作为语音信号x(t)中可能存在啸叫的非平稳时刻。其中，BG序列分割算法为公知技术，对于其具体过程本说明书中不再赘述。

步骤350，基于所述非平稳时刻与啸叫时刻的时间间隔确定步长调节比例，并基于所述步长调节比例和所述收敛平稳系数获取每个时刻对应的收敛步长。在一些实施例中，步骤350可以由收敛步长确定模块250执行。

如果非平稳时刻y是由啸叫导致的，那么根据时域上啸叫频点的功率有一个迅速增大的过程，达到最大值后一直保持的特点，则第y+1个非平稳时刻将会是由啸叫消失，语音信号回复稳定状态而导致的非平稳。基于此，可以考虑利用线性预测系数来表征每个非平稳时刻的具体偏差情况。

具体而言，在一些实施例中，收敛步长确定模块250可以计算每个非平稳时刻的线性预测系数，然后将每个非平稳时刻对应的线性预测系数按照时间顺序进行排列，得到对应的线性预测序列。

在数字助听器初始阶段或外界声学环境发生突然变化时，自适应滤波器系数会随之发生较为剧烈的改变，短时平均值也会随之存在明显波动，但长时平均值的变化则较为缓慢，即自适应滤波器中系数能量的短时平均值与长时平均值相差较大，此时输入滤波器的语音信号x(t)中可能存在噪声或者啸叫，滤波器处于收敛状态。在该情况下，在NLMS算法中选择较大的步长可以加快收敛速度，防止啸叫；反之，如果语音信号中每个时刻都处于平稳状态，自适应滤波器的系数能量分布较为稳定，此时，在NLMS算法中选择较小的步长可以降低收敛速度，使得输出信号与期望信号的误差更小。换言之，即越靠近语音信号x(t)中的非平稳时刻，越应该对步长进行不同程度的放大。

基于上述分析，可以构建步长调节比例U，用于表征语音信号每个非平稳时刻语音信号状态的变化程度。具体地，在一些实施例中，第y个非平稳时刻的步长调节比例可以通过如下方式进行计算：

；

其中，为第y个非平稳时刻所对应的收敛贡献比；、、分别为第y-1个、第y个、第y+1个非平稳时刻所对应的线性预测序列；、、分别为序列与、与、与之间的皮尔逊相关系数。的值越大，表示第y个非平稳时刻对收敛状态的贡献越大。

为第y个非平稳时刻的信息有效比，M为语音信号x(t)非平稳时刻的数量，为第y个非平稳时刻所对应的重建变化量。在本说明书实施例中，该重建变化量的获取过程如下：将第y个非平稳时刻从语音信号x(t)中删除，利用剩余时刻的信号进行重建得到重建信号，然后将该重建信号的幅频特性曲线与语音信号x(t)的幅频特征曲线之间的弗朗明歇距离（Frechet Distance ）作为重建变化量。的值越大，表示第y个非平稳时刻包含的语音信号中的有效信息越小，越有可能处于收敛状态。

为第y个非平稳时刻所对应的步长调节比例。在一些实施例中，可以将前述公式计算得到的第y个非平稳时刻所对应的收敛贡献比与第y个非平稳时刻的信息有效比相乘，得到第y个非平稳时刻所对应的步长调节比例。

在本说明书实施例中，步长调节比例可以反映语音信号中每个非平稳时刻语音状态的变化程度。第y个非平稳时刻越靠近啸叫时刻，第y个非平稳时刻与相邻时刻的关联性越小，、的值越小，第y个非平稳时刻越靠近啸叫时刻，其相邻两个非平稳时刻是由啸叫导致的概率越大，的值越大；第y个非平稳时刻包含语音信号中的有效信息越小，信号重建前后的幅频特性曲线之间的最大差异越大，的值越大，的值越大；即的值越大，第y个非平稳时刻越有可能靠近啸叫时刻，自适应滤波器中系数能量分布越靠近收敛状态。

在本说明书实施例中，通过利用语音信号中每个时刻的幅频特征来计算步长调节比例，同时，通过每个非平稳时刻与啸叫时刻的靠近程度评估自适应滤波器中系数能量分布状态，可以便于后续过程中自适应地获取NLMS算法中的收敛步长，从而解决收敛速度与精度之间难以调节的问题。

进一步地，在计算出每个时刻对应的步长调节比例之后，收敛步长确定模块250可以根据每个时刻对应的收敛平稳系数和步长调节比例获取每个时刻下的收敛步长。具体地，在一些实施例中，第i个时刻对应的收敛步长可以通过如下方式进行计算：

；

其中，为第i个时刻的收敛比例，M为非平稳时刻的数量，分别为第i个时刻、第y个非平稳时刻对应的收敛平稳系数，为第y个非平稳时刻对应的步长调节比例，为收敛步长最大值，表示归一化函数，为收敛比例的最大值，为调节因子。其中，的大小可以取经验值2；的大小可以取经验值5，其作用在于避免参数过大导致归一化后的数据范围过大。

需要说明的是，在本说明书中，以上关于调节因子、经验值收敛步长最大值以及参照序列的长度M的数值仅为示例性说明。在一些实施例中，以上列举数值可以在允许的情况根据实际需要进行调整。

步骤360，基于NLMS算法和所述收敛步长对所述语音信号进行回声消除，以抑制所述数字助听器中的啸叫。在一些实施例中，步骤360可以由啸叫抑制模块260执行。

通过以上步骤，可以确定语音信号中每个时刻对应的自适应收敛步长。进一步地，啸叫抑制模块260可以基于NLMS算法和每个时刻对应的自适应收敛步长对数字助听器接收的语音信号进行回声消除，以抑制数字助听器中的啸叫。

具体地，在一些实施例中，可以根据上述步骤获取每个时刻的步长调节比例，然后将步长调节比例最大值对应的非平稳时刻作为啸叫起始时刻，利用改进后的NLMS算法对数字助听器中的语音信号进行啸叫抑制。

抑制系统的啸叫抑制过程如下：将数字助听器中的语音信号与自适应滤波器的反馈信号作为抑制系统的数字助听器输入信号，运行改进后的NLMS算法获取反馈估计信号。进一步地，将数字助听器输入信号与反馈估计信号的作差结果作为抑制系统的真实输入信号，真实输入信号经过抑制系统中的增益模块达到啸叫检测模块，同时通过上述步长调节比例检测是否存在啸叫初始时刻，如果存在啸叫初始时刻，则抑制系统停止运行NLSM算法，启动陷波器对真实输入信号进行啸叫抑制直到没有啸叫初始时刻的存在，随后关闭陷波器，再次运行改进后的NLMS算法消除回声，获取反馈估计信号。

通过上述过程，可以去除数字助听器接收的语音信号中的噪声和啸叫，得到处理后的语音信号。进一步地，该处理后的语音信号可以传输至语音输出装置140以反馈给用户。需要指出的是，在本说明书实施例中，通过对数字助听器接收的语音信号中的噪声和啸叫进行抑制，可以提高数字助听器的声音输出质量，从而提高用户的使用体验。

综上所述，本说明书实施例可能带来的有益效果包括但不限于：（1）在本说明书一些实施例所提供的基于神经网络的数字助听器啸叫抑制方法及系统中，通过神经网络检测语音信号中每个时刻的状态，并根据每个时刻的幅频峰值的分布特征构建收敛平稳系数，考虑了峰值点相邻时刻的幅频分布，可以避免传统啸叫检测方法中基于单一时刻进行评估而导致效果不理想的问题，提高了对数字助听器中啸叫信号的检测精度；（2）在本说明书一些实施例所提供的基于神经网络的数字助听器啸叫抑制方法及系统中，通过基于非平稳时刻与啸叫时刻的时间间隔构建步长调节比例，可以充分利用语音信号中每个时刻的幅频特征，同时，通过每个非平稳时刻与啸叫时刻的靠近程度评估自适应滤波器中系数能量分布状态，可以便于后续过程中自适应地获取NLMS算法中的收敛步长，解决收敛速度与精度之间难以调节的问题，提高抑制系统对啸叫的抑制效果。

需要说明的是，不同实施例可能产生的有益效果不同，在不同的实施例中，可能产生的有益效果可以是以上任意一种或几种的组合，也可以是其他任何可能获得的有益效果。

上文已对基本概念做了描述，显然，对于本领域技术人员来说，上述详细披露仅仅作为示例，而并不构成对本说明书的限定。虽然此处并没有明确说明，本领域技术人员可能会对本说明书进行各种修改、改进和修正。该类修改、改进和修正在本说明书中被建议，所以该类修改、改进、修正仍属于本说明书示范实施例的精神和范围。

同时，本说明书使用了特定词语来描述本说明书的实施例。如“一个实施例”、“一实施例”、和/或“一些实施例”意指与本说明书至少一个实施例相关的某一特征、结构或特点。因此，应强调并注意的是，本说明书中在不同位置两次或多次提及的“一实施例”或“一个实施例”或“一个替代性实施例”并不一定是指同一实施例。此外，本说明书的一个或多个实施例中的某些特征、结构或特点可以进行适当的组合。

此外，本领域技术人员可以理解，本说明书的各方面可以通过若干具有可专利性的种类或情况进行说明和描述，包括任何新的和有用的工序、机器、产品或物质的组合，或对他们的任何新的和有用的改进。相应地，本说明书的各个方面可以完全由硬件执行、可以完全由软件（包括固件、常驻软件、微码等）执行、也可以由硬件和软件组合执行。以上硬件或软件均可被称为“数据块”、“模块”、“引擎”、“单元”、“组件”或“系统”。此外，本说明书的各方面可能表现为位于一个或多个计算机可读介质中的计算机产品，该产品包括计算机可读程序编码。

计算机存储介质可能包含一个内含有计算机程序编码的传播数据信号，例如在基带上或作为载波的一部分。该传播信号可能有多种表现形式，包括电磁形式、光形式等，或合适的组合形式。计算机存储介质可以是除计算机可读存储介质之外的任何计算机可读介质，该介质可以通过连接至一个指令执行系统、装置或设备以实现通讯、传播或传输供使用的程序。位于计算机存储介质上的程序编码可以通过任何合适的介质进行传播，包括无线电、电缆、光纤电缆、RF、或类似介质，或任何上述介质的组合。

本说明书各部分操作所需的计算机程序编码可以用任意一种或多种程序语言编写，包括面向对象编程语言如Java、Scala、Smalltalk、Eiffel、JADE、Emerald、C++、C#、VB.NET、Python等，常规程序化编程语言如C语言、Visual Basic、Fortran2003、Perl、COBOL2002、PHP、ABAP，动态编程语言如Python、Ruby和Groovy，或其他编程语言等。该程序编码可以完全在用户计算机上运行、或作为独立的软件包在用户计算机上运行、或部分在用户计算机上运行部分在远程计算机运行、或完全在远程计算机或处理设备上运行。在后种情况下，远程计算机可以通过任何网络形式与用户计算机连接，比如局域网（LAN）或广域网（WAN），或连接至外部计算机（例如通过因特网），或在云计算环境中，或作为服务使用如软件即服务（SaaS）。

此外，除非权利要求中明确说明，本说明书所述处理元素和序列的顺序、数字字母的使用、或其他名称的使用，并非用于限定本说明书流程和方法的顺序。尽管上述披露中通过各种示例讨论了一些目前认为有用的发明实施例，但应当理解的是，该类细节仅起到说明的目的，附加的权利要求并不仅限于披露的实施例，相反，权利要求旨在覆盖所有符合本说明书实施例实质和范围的修正和等价组合。例如，虽然以上所描述的系统组件可以通过硬件设备实现，但是也可以只通过软件的解决方案得以实现，如在现有的处理设备或移动设备上安装所描述的系统。

同理，应当注意的是，为了简化本说明书披露的表述，从而帮助对一个或多个发明实施例的理解，前文对本说明书实施例的描述中，有时会将多种特征归并至一个实施例、附图或对其的描述中。但是，这种披露方法并不意味着本说明书对象所需要的特征比权利要求中提及的特征多。实际上，实施例的特征要少于上述披露的单个实施例的全部特征。

一些实施例中使用了描述成分、属性数量的数字，应当理解的是，此类用于实施例描述的数字，在一些示例中使用了修饰词“大约”、“近似”或“大体上”来修饰。除非另外说明，“大约”、“近似”或“大体上”表明所述数字允许有±20%的变化。相应地，在一些实施例中，说明书和权利要求中使用的数值参数均为近似值，该近似值根据个别实施例所需特点可以发生改变。在一些实施例中，数值参数应考虑规定的有效数位并采用一般位数保留的方法。尽管本说明书一些实施例中用于确认其范围广度的数值域和参数为近似值，在具体实施例中，此类数值的设定在可行范围内尽可能精确。

针对本说明书引用的每个专利、专利申请、专利申请公开物和其他材料，如文章、书籍、说明书、出版物、文档等，特此将其全部内容并入本说明书作为参考。与本说明书内容不一致或产生冲突的申请历史文件除外，对本说明书权利要求最广范围有限制的文件（当前或之后附加于本说明书中的）也除外。需要说明的是，如果本说明书附属材料中的描述、定义、和/或术语的使用与本说明书所述内容有不一致或冲突的地方，以本说明书的描述、定义和/或术语的使用为准。

最后，应当理解的是，本说明书中所述实施例仅用以说明本说明书实施例的原则。其他的变形也可能属于本说明书的范围。因此，作为示例而非限制，本说明书实施例的替代配置可视为与本说明书的教导一致。相应地，本说明书的实施例不仅限于本说明书明确介绍和描述的实施例。

Claims

1.基于神经网络的数字助听器啸叫抑制方法，其特征在于，包括：

获取数字助听器接收的语音信号；

基于神经网络获取所述语音信号中每个时刻的状态；

基于所述收敛平稳系数确定非平稳时刻；

基于NLMS算法和所述收敛步长对所述语音信号进行回声消除，以抑制所述数字助听器中的啸叫；

所述基于神经网络获取所述语音信号中每个时刻的状态，包括：

2.如权利要求1所述的基于神经网络的数字助听器啸叫抑制方法，其特征在于，所述根据所述语音信号中每个时刻的状态以及每个时刻的幅频峰值的分布特征确定每个时刻对应的收敛平稳系数，包括：

对于每一个所述峰值级；

基于所述状态确定每个时刻对应的收敛距离；

3.如权利要求2所述的基于神经网络的数字助听器啸叫抑制方法，其特征在于，所述峰间波动度基于如下公式计算：

4.如权利要求2所述的基于神经网络的数字助听器啸叫抑制方法，其特征在于，所述收敛距离基于如下公式计算：

5.如权利要求2所述的基于神经网络的数字助听器啸叫抑制方法，其特征在于，所述基于所述收敛平稳系数确定非平稳时刻，包括：

6.如权利要求5所述的基于神经网络的数字助听器啸叫抑制方法，其特征在于，所述基于所述非平稳时刻与啸叫时刻的时间间隔确定步长调节比例，包括：

删除语音信号中每个非平稳时刻的语音信号得到剩余时刻的语音信号，基于所述剩余时刻的语音信号进行重建得到重建信号；将所述重建信号的幅频特性曲线与语音信号的幅频特性曲线之间的弗朗明歇距离作为每个非平稳时刻的重建变化量；

对于每一个非平稳时刻；

基于前后相邻时刻所对应的线性预测序列以及自身所对应的线性预测序列，确定收敛贡献比；基于自身所对应的重建变化量与所有非平稳时刻所对应的重建变化量之和的比值，确定信息有效比；

7.如权利要求6所述的基于神经网络的数字助听器啸叫抑制方法，其特征在于，所述收敛贡献比基于如下公式计算：

所述信息有效比基于如下公式计算：

所述步长调节比例基于如下公式计算：

其中，为第y个非平稳时刻所对应的步长调节比例。

8.如权利要求6所述的基于神经网络的数字助听器啸叫抑制方法，其特征在于，所述收敛步长基于如下公式计算：

9.基于神经网络的数字助听器啸叫抑制系统，其特征在于，包括：

获取模块，用于获取数字助听器接收的语音信号；

啸叫抑制模块，用于基于NLMS算法和所述收敛步长对所述语音信号进行回声消除，以抑制所述数字助听器中的啸叫；