CN110383375B

CN110383375B - 用于检测噪声背景环境中的咳嗽的方法和设备

Info

Publication number: CN110383375B
Application number: CN201880015986.6A
Authority: CN
Inventors: V·T·K·佩尔托宁; A·J·基廷; N·K·帕特里奇
Original assignee: Pfizer Corp SRL
Current assignee: Pfizer Corp SRL
Priority date: 2017-02-01
Filing date: 2018-02-01
Publication date: 2024-02-13
Anticipated expiration: 2038-02-01
Also published as: WO2018141013A3; CN110383375A; JP2020508726A; WO2018141013A2; EP3566225A4; DK3566225T3; EP3566225A2; US20200015709A1; US11986283B2; JP7092777B2; AU2018214442B2; EP3566225B1; AU2018214442A1

Abstract

一种用于从受试者的声波中检测咳嗽声音的方法包括：将从声波中提取的特征应用于至少两个电子模式分类器，所述至少两个电子模式分类器包括训练为检测咳嗽的爆发相位的第一分类器和训练为检测一个或多个咳嗽的后爆发相位的第二分类器。在第一分类器将声波的特征分类为咳嗽声音的爆发相位之后，从声波中提取的特征以应用于第二分类器。

Description

用于检测噪声背景环境中的咳嗽的方法和设备

技术领域

本发明涉及用于处理来自诸如患者的对象的声音以检测咳嗽声音的方法和设备。

背景技术

对现有技术的方法、设备或文件的任何提及均不应被视为任何证据或承认它们形成，或构成公知常识的一部分。

如在现有技术中众所周知的，咳嗽是通过自气道突然排出空气来呈现的，其声音易于识别。根据文献Morice,A.,Fontana,G.,Belvisi,M.,Birring,S.,Chung,K.,et al.,“ERS guidelines on the assessment of cough”,European Respiratory Journal,vol.29,pp.1256-1276,2007，一次咳嗽的可听见咳嗽声音包括如下两个或三个相位：

1.爆发相位-第一次咳嗽声音；

2.中间相位-稳定的气流；

3.浊音相位-也就是第二次咳嗽声音。这个相位并不总是出现。

图1为记录咳嗽声音的时域振幅图，其识别出典型咳嗽声音的这三个相位。

根据文献Korpas J,Sadlonova J,Vrabec M:Analysis of the cough sound:anoverview.Pulm Pharmacol.1996,9(5-6):261-10.1006/pulp.1996.0034.]，这三个相位是由于呼吸道的三个不同的物理区域引起的：

1.气管分叉处-爆发相位反映出气管分叉处水平周围气道的病理情况；

2.气管-中间相位反映出气管中的突起；

3.喉区-浊音相位提供有关喉部区域的信息。

近年来，已知有使用自动处理人类对象的声音的方法来检测咳嗽声音。

例如，在Abeyratne等人的美国专利(公开号US 2015/0073306)中描述了一种设备，其特别配置成处理患者的声音并识别该声音对应于咳嗽的通道，其公开内容通过引用结合于此。

一般来说，咳嗽检测方法有如下两种应用：

1.咳嗽计数-检测患者的咳嗽，统计其在给定时间内被检测到的咳嗽次数；以及

2.咳嗽诊断-处理检测到的咳嗽声音以产生疾病诊断结果，从而为随后适当的治疗提供协助。

对于咳嗽计数，重要的只是确定何时发生咳嗽，没有必要准确地定义咳嗽的开始和结束。然而，对于咳嗽诊断，重要的是能够使整个咳嗽音频信号可用于自动咳嗽诊断方法，因此准确定义咳嗽的开始和结束则是非常重要的。

需要自动咳嗽检测方法(例如前面所提的美国专利公开中描述的方法)的原因是该方法可以容易地用于诊断服务需要以低成本递送的区域。然而，包括有高音量的街道噪音和其他不容易避免的背景声音的这些区域经常给准确的诊断带来困难。例如，在经济发展较落后的社区，位于繁忙道路上的拥挤诊所中的医疗专业人员可能无法选择在较安静的环境中对患者的声音进行采样。

尽管前面提到的美国专利公开中描述的方法工作良好，但是本发明人已经发现，在特别具有挑战性的情况下，所提供的咳嗽检测可能并不总是适合于随后的咳嗽诊断。例如，根据我的发现，当受试对象是儿童时，具有挑战性的情况可能包括了咳嗽声音是在嘈杂的背景中发出的或咳嗽声音是紧密连续地发出的。

本发明的目的是提供一种改进的方法和设备，用于检测噪声环境中的患者的声音中存在的咳嗽。

发明内容

根据本发明的第一方面，提供了一种用于检测来自声波的咳嗽声音的方法，包括以下步骤：

获取电子格式的声波；

将从声波中提取的特征应用于至少两个电子模式分类器，该至少两个电子模式分类器包括训练成用于检测咳嗽声音的爆发相位的第一分类器和训练成用于检测咳嗽声音的一个或多个后爆发相位的第二分类器。

在本发明的优选实施例中，该方法包括以下步骤，仅在第一分类器将声波的特征分类为咳嗽声音的爆发相位之后，再将从声波提取的特征应用于第二分类器。

在该方法的优选实施例中，根据关于爆发相位为阳性和关于爆发相位之后的咳嗽声音的部分为阴性的训练，配置第一分类器。

优选地，该方法包括在爆发相位的结束与爆发相位结束之后的咳嗽声音的开始之间提供间隙。

在该方法的优选实施例中，根据关于爆发相位为阴性和关于爆发相位之后的咳嗽声音的部分为阳性的训练，配置第二分类器。

优选地，根据前面提到的训练来配置第二分类器，其中在爆发相位的结束与爆发相位之后的咳嗽声音的开始之间提供间隙。

在本发明的优选实施例中，特征包括对应于声波的梅尔频率倒频谱系数的特征。

优选地，特征进一步包括对应于声波的对数能量的特征。

优选地，第一分类器和第二分类器包括时延神经网络。

根据本发明的另一方面，提供了一种用于检测声波中的咳嗽声音的设备，包括：数字化组件，用于数字化来自转换器的输出，该转换器用于转换声波；

与数字化组件通信的特征提取组件，用于从声波的连续段中提取多个特征；

响应于特征提取组件的第一分类器，其训练成识别咳嗽声音的爆发相位；

响应于特征提取组件的第二分类器，其训练成识别咳嗽声音的一个或多个后爆发相位；以及

后分类器咳嗽识别处理器，其布置成基于来自第一分类器和第二分类器的输出来识别咳嗽声音。

优选地，后分类器咳嗽识别处理器布置成在响应来自第二分类器的输出，该输出在来自第一分类器、指示检测到咳嗽声音的爆发相位的输出之后。

在本发明的优选实施例中，第一分类器和第二分类器包括第一和第二神经网络，其中第一神经网络根据阳性训练加权以检测爆发相位，并且其中第二神经网络根据阳性训练加权以检测一个或多个后爆发相位。

优选地，第一神经网络根据关于爆发相位的阳性训练和关于后爆发相位的阴性训练进一步加权。

优选地，第二神经网络根据关于爆发相位的阴性训练和关于后爆发相位的阳性训练进一步加权。

在本发明的优选实施例中，特征提取组件设置成从声波中提取多个梅尔频率倒频谱系数(MFCC)。

优选地，特征提取组件设置成提取包括零阶MFCC的多个MFCC。

优选地，特征提取组件设置成提取声波的对数能量特征。

在本发明的优选实施例中，该设备包括第一和第二比较器，用于将来自第一和第二分类器的输出与阈值进行比较，以便测量爆发相位和后爆发相位的各自检测概率水平。

在本发明的优选实施例中，咳嗽识别处理器响应于比较器以识别咳嗽声音。

优选地，咳嗽声音标识符包括RMS功率评估器，用于评估所述声波的片段的RMS功率，其中咳嗽识别处理器设置成对RMS功率估计器的输出进行考量以识别咳嗽声音。

优选地，该设备包括响应于咳嗽后识别处理器的咳嗽旗号标记组件，其中咳嗽旗号标记组件设置成记录被识别为包含咳嗽声音的声波部分。

第一和第二神经网络优选地包括时延神经网络，其用于处理从特征提取组件发出的一系列时间延迟特征向量。

该设备可以借助于根据前述方法中经过专门编程的便携式计算设备来实现。

根据本发明的另一方面，提供了一种用于检测来自声波的咳嗽声音的方法，包括以下步骤：

将从声波中提取的特征应用于电子模式分类器，该模式分类器配置为检测咳嗽的爆发相位、咳嗽声音的一个或多个后爆发相位、和是否存在非咳嗽事件；以及

将对应于检测爆发相位、一个或多个后爆发相位和非咳嗽事件的存在与否的来自电子模式分类器的信号纳入考量，确定待检测的咳嗽。

附图说明

本发明的优选特征、实施方案和变型可以从以下详细描述中看出，其为本领域技术人员提供了实施本发明的充分信息。具体实施方式不应被视为以任何方式限制本发明的前述发明内容的范围。具体实施方式将参考如下数张附图：

图1是典型咳嗽声音的波形；

图2是两个连续的咳嗽声波形的曲线图，其中根据叠加在其上的现有技术方法对咳嗽分类；

图3是现有技术的神经网络分类器的方框图，用于产生图2所示的分类；

图4是本文讨论的LW1算法的神经网络体系结构的方框图；

图5是两组两个靠近在一起的咳嗽声音的曲线图，其根据叠加在其上的LW1方法对咳嗽声音进行分类；

图5A是根据本发明优选实施例的、用于检测咳嗽声音的方法的流程图；

图6是根据本发明实施例的、用于实现图5A的方法的设备的方框图；

图6A是咳嗽声音的方框图，其中叠加有优选实施例的分类器的输出，用于解释在执行本发明优选实施例时使用的各种阈值；

图7是两组两个靠近在一起的咳嗽声音的曲线图，其根据叠加在其上的图5A所示流程图的方法对咳嗽声音进行分类；

图7A是根据本发明的一个方面的优选实施例、用于训练第一和第二分类器的方法的流程图；

图8是咳嗽声音波形的曲线图，该咳嗽声音波形指示出部分波形，从该部分波形中获取特征对第一分类器进行阳性和阴性训练，以检测咳嗽声音的初始爆发相位；

图9是根据本发明使用的优选分类器结构的方框图；

图10是咳嗽声音波形的曲线图，该咳嗽声音波形指示出部分波形，从该部分波形中获取特征对第二分类器进行阳性和阴性训练，以检测咳嗽声音的后爆发相位；

图11是一系列咳嗽声音的曲线图，其中第一和第二分类器的输出叠加在其上；

图12是咳嗽检测设备的方框图，该咳嗽检测设备包括以智能手机形式的经过专门编程的便携式计算装置；

图13是根据本发明第二实施例的第二“多类别”分类器的结构框图；

图14是咳嗽声音波形的曲线图，该咳嗽声音波形指示部分波形，从该部分波形中获取特征以训练图13的多类别分类器。

具体实施方式

发明人已经发现，目前可用的咳嗽检测方法可能无法区分接连发生的咳嗽(例如，一个接一个地“一连串”的咳嗽)，而这在儿童咳嗽的记录中是相当常见的。

图2是一系列四个咳嗽c1…c4的曲线图，其中叠加有现有技术的神经网实施的咳嗽检测设备的输出2。US2015/0073306中描述了在此使用的神经网络布置51，该神经网络布置51在图3中示出。参考图2的曲线图，可以看出，在该实施例中，现有技术方法未能正确地将紧邻的咳嗽组(即c1、c2和c3、c4)检测成四个离散的咳嗽。相反，c1和c2被认为是单次咳嗽，如线2所示，而c3和c4也被认为是单次咳嗽，如线4所示。第6、8、10和12线表示人类听众可能能够真实识别到的咳嗽。

在构思本发明之前，本发明人尝试了几种不同的方法来改进现有技术，其优选实施例将在后面描述。例如，在本文中第一次尝试称为“LW1”方法，其设计成用以减少手工制作(hand-crafted)的特征的数量、降低神经网络的复杂性并且仅在音频信号帧具有超过整个咳嗽事件的平均均方根(RMS)的RMS功率值处，训练神经网络。

发明人在该初始方法中使用的减少的特征集包括梅尔频率倒谱系数(MFCC)特征、过零率和香农熵。如图4所示，神经网络(NN)53的大小从分别具有187、50和10个节点的三个隐藏层减少到仅具有32个节点的一个隐藏层3a。然后，图4的NN3用训练声音样本的帧来训练，该训练声音样本的帧具有高于咳嗽的平均RMS的RMS功率值。在训练过程中将低能量帧忽略。此外，将说话声、鼓掌声、机器声音和其他非咳嗽典型背景声音用作阴性实例。

从表1中可以看出，相比较现有技术方法，LW1能够提供显著提高的准确度。特别是对于接连发生的咳嗽、在嘈杂环境的咳嗽以及使用不同麦克风记录的咳嗽。通常，它相比前面提到的美国专利公开中描述的解决方案更健壮。

	召回率(％)	精确率(％)	F1-分数
				现有技术方法	50	50	0.0.50
LW1	53	88	0.66

表1：现有技术算法和LW1在非常具有挑战性的咳嗽的性能表现，即高背景噪声水平、记录的咳嗽和/或接连发生的许多咳嗽。

图5示出了训练为实现LW1方法的、图4的NN53的输出55的曲线图，其中输出叠加在四个连续的咳嗽声音57a-57d上。可以观察到，如线14、16和18、20所示，LW1方法正确地检测到两组靠近在一起的两个咳嗽。然而，还将观察到，与手工标记的、如线22、24、26和28所示真实咳嗽相比，检测到的咳嗽被缩短。发明人认为LW1是一种高度准确的咳嗽检测方法，对于咳嗽计数应用非常有用，但它无法准确测量自动咳嗽诊断所需的咳嗽何时结束。

因此，发明人决定第二次尝试，这里称为“LW1.5”方法。

在LW1.5方法中，仅在第一次咳嗽声音处(即咳嗽的爆发相位)训练神经网络。训练使得从咳嗽开始时，四个处理帧(约100毫秒)作为阳性目标训练，并且手工标记的咳嗽的其余部分做为阴性目标训练。另一个变化是进一步减少手工制作的特征数量，使得仅包括MFCC和信号的对数能量。

与LW1一样，基于启发式方法的能量被用于LW1.5方法以延长咳嗽检测。在此尝试中，发明人基于评估的最小背景噪声水平扩展了咳嗽。该背景噪声水平通过将录制品中的1024个最低能量帧带到当前点并取平均RMS来评估。当处理帧的RMS降至低于已评估的背景水平的1.5倍时，咳嗽终止。

从表2中可以看出，LW1.5实现的召回率远远高于LW1的召回率。然而，发明人认为精确率下降了10％，这并不令人满意。

	召回率(％)	精确率(％)	F1-分数
				LW1	53	88	0.66
LW1.5	61	81	0.70

表2：LW1方法和LW1.5作用在非常具有挑战性(即高背景噪声)的咳嗽数据的性能

因此，应当理解在这个阶段发明人已经构思和测试了两种不同的方法。然而，在发明人的观点中，虽然两种方法都以不同的方式进行了改进，但是LW1和LW1.5方法都不适合于用作咳嗽检测标准，即检测到的咳嗽可能随后被处理用于疾病诊断的标准。

经过深思熟虑后，发明人想到了突破，与之前的尝试相反，发明人决定尝试使用多个神经网络进行咳嗽检测。

在本发明的优选实施例(有时在本文中称为“LW2”)中，发明人决定使用第二神经网络来尝试对咳嗽事件的第二和第三相位进行分类。重要的是要注意，这些第二和第三相位(特别是第三相位，浊音相位)并非咳嗽事件所独有。例如，浊音事件经常在讲话期间发生。如果第二神经网络由它本身使用，则由于语音和其他人类噪声会引起大量假阳性。因此，发明人不确定这种方法是否会成功。

作为概述，在本发明的优选实施例中，发明人处理来自两个经过训练的神经网络的输出以检测咳嗽声音。训练第一神经网络(如方法LW1.5)，对咳嗽声音的第一爆发相位进行分类，并训练第二个神经网络，对咳嗽声音的第二和第三相位进行分类。为了避免第二网络在讲话期间产生假阳性的问题，该方法优选地包括两个NN的时域组合，使得第二NN的激活跟随第一NN。

提取单次咳嗽的步骤

图5A是根据本发明优选实施例的用于咳嗽检测的方法的流程图。开始时，在方框51处，获取可能包含咳嗽声音的测试音频数据，例如通过用数字记录器的麦克风对患者记录来获取。在方框53处，通过高通和低通滤波以及模数转换来预处理测试音频数据。在方框55处，将数字化声音信号分段为帧并且应用时间延迟，使得信号可以应用于时间延迟神经网络分类器。在方框57处，分析数字化信号的每个帧以确定某些特征的存在，在本发明的优选实施例中，这些特征包括梅尔频率倒频谱系数(MFCC)和信号对数能量特征。

检测到的特征形成一系列特征向量。在方框61处，使用已经完成预训练的用以识别咳嗽的第一爆发相位的、以时延神经网络(TDNN)形式的分类器，对一系列帧进行检查以确定是否存在爆发相位。在方框59处，使用已经完成预训练的用以识别咳嗽的第二和第三相位的第二时延神经网络来检查帧以确定是否存在第二和第三相位。

在方框63处，对来自TDNN分类器的输出进行平滑并与预定阈值进行比较，以确定帧是否对应于咳嗽信号。在方框65处，如果帧被检测为指示存在咳嗽，则咳嗽被标记，例如通过写入音频信号的特定部分的记录来标记，该记录转换检测到咳嗽。

现在参考图6，其中示出了根据本发明的第一实施例的、用于识别咳嗽声音的咳嗽检测器600的框图，其实现了图5A的流程图的方法。

预处理

来自受试者的音频信号由麦克风601转换，并通过滤波器602进行抗混叠滤波。来自AAF滤波器602的经过滤波后的模拟信号被传递到模数转换器607。来自ADC 603的数字化信号由滤波器605和607进行高通和低通滤波，作为数字信号处理流水线中的第一步。在本发明的当前描述的实施例中，高通滤波器605的截止频率是50Hz，低通滤波器607的截止频率是16kHz。

特征提取

来自LPF 607的数字化和滤波后的音频信号被帧分段器609分段为1024个非重叠帧的样本。每帧表示23.2ms的音频持续时间。通过特征提取器组件611a、611n为每个帧提取十四个特征值。在本发明的当前描述的优选实施例中，所提取的特征包括十三个Mel频率倒谱系数(MFCC)(其包括第零系数)以及包括对应于每个帧的对数能量的特征。来自特征提取器611a，...，611n的输出被传递到顺序特征向量寄存器613。存储在寄存器613中的每个特征向量具有与十四个提取特征对应的值。

来自特征向量寄存器613的特征向量被应用于两个经过特殊训练的第一和第二时延神经网络615和617中的每一个。TDNN 615和617已经分别被下面解释的方式训练了。经过训练的TDNN1 615检测咳嗽声的爆发相位，而经过训练的TDNN2检测咳嗽的剩余部分，即后爆发相位。

来自第一和第二TDNN 615和617的输出耦合到相应的NN1和NN2平滑滤波器619和621。NN1平滑滤波器619输出是三抽头平均滤波器。NN2平滑滤波器621是五抽头平均滤波器。

来自NN1输出滤波器619的输出被施加到比较器623，该比较器623将来自NN1输出滤波器619的信号与阈值水平thd1进行比较。NN1比较器623的输出指示NN1输出滤波器的输出是高于thd1或者低于thd1。

类似地，NN2比较器625的输出指示NN2输出滤波器的输出是否高于thd2或者是否低于thd2。

后NN咳嗽ID处理器627包括逻辑组件，该逻辑组件被配置为判断来自NN1和NN2输出滤波器619和621的输出以及来自NN1和NN2比较器的输出指示正在被处理的声音信号中是否存在咳嗽声。后NN咳嗽ID处理器627可以实现为离散逻辑板，或者可选地，它可以包括编程控制器，例如现场可编程门阵列(FPGA)或适当编程的微处理器。

后NN咳嗽ID处理器627被配置为根据以下规则进行操作。

1.仅当NN1高于固定阈值(thd1)时才开始潜在的咳嗽识别。咳嗽的开始总是需要开启NN1。

2.如果出现以下情况，则继续：

I.NN1高于阈值(thd1)；

II.NN1低于阈值(thd1)并且NN2高于阈值(thd2)；

III.帧RMS功率估计器628的输出指示帧的RMS功率高于估计的背景噪声RMS水平的10倍。帧RMS功率估计器被配置为通过在记录期间将1024个最低RMS帧平均而评估背景噪声水平。因为有时在NN1和NN2之间存在间隙，所以基于延续的RMS被合并。基于桥接的RMS仅当尚未检测到NN2帧时才完成。

3.咳嗽终止，当：

I.来自NN1输出滤波器619的输出在向上的方向与来自NN2输出滤波器621的输出交叉；

II.NN1比较器623的输出表示NN1输出滤波器619的输出低于thd1；以及来自NN2比较器625的输出指示来自NN2输出滤波器621的输出低于thd2并且来自帧RMS功率估计器628的输出指示帧的RMS功率小于估计的背景噪声水平的十倍；

III.当前帧(t)的NN1输出滤波器619的输出大于thd1，前一帧t-1)的NN1输出滤波器619的输出小于thd1并且在当前(潜在的)咳嗽事件中，检测到一个或多个NN2帧已经导致NN2比较器的输出变高(即NN2输出滤波器621的输出超过thd2)。

4.丢弃发现的咳嗽，如果：

I.咳嗽的持续时间小于咳嗽的最小长度(150ms)；

II.咳嗽的持续时间超过咳嗽的最大长度(750ms)；

III.咳嗽的NN1输出滤波器619和NN2输出滤波器621的组合RMS功率输出低于在训练过程期间确定的预定阈值thd3；

IV.少于3帧的NN1比较器623的输出表示了高于咳嗽中的阈值水平thd1；

V.少于2帧的NN2比较器625的输出被指示为高于咳嗽中的阈值thd2。

5.检测到的咳嗽的开端被修剪为在短处理帧(128个样本)上突然开始的能量。如果检测到开端(onset)，则相应地调整咳嗽开始时间。如果未检测到能级跳跃，则启动时间留在处理帧边界处。

现在参考图6A，将解释上面4.III中提到的thd3值的推导。

从X1到X2计算的TDNN1输出的RMS＝rms_nn1

从X2到X3计算的TDNN2输出的RMS＝rms_nn2

X1＝TDNN1>thd1

X2＝TDNN2>thd2和TDNN2>TDNN1

X3＝TDNN2<＝thd2

咳嗽概率的总RMS是rms_nn1+rms_nn2。这描述了在thd1和thd2之上的两个网络之上的概率强度。将该总RMS与thd3进行比较，以确定潜在咳嗽关于两个神经网络的输出是否具有足够高的RMS。

在训练阶段确定thd3值，使得通过搜索阈值范围来优化假阳性和真阳性。

应该注意的是，有时X2被分成两部分。在这种情况下，nn1和nn2均低于中间相位的阈值1和2，因此：

rms_nn1＝从(TDNN1>thd1)到(TDNN1<＝thd1)的nn1的rms

rms_nn2＝从(TDNN2>thd2)到(TDNN2<＝thd2)的nn2的rms

也就是说，如果两个网络都低于阈值，则不计算概率RMS。

咳嗽检测设备600包括识别咳嗽旗号标记组件629，其接收来自后NN咳嗽ID处理器627的输出，该输出指示检测到的咳嗽声音的开始和结束。后NN咳嗽ID处理器627通过标记所识别的咳嗽，响应来自后NN咳嗽ID处理器的信号。标记所识别的咳嗽可能涉及写入包含咳嗽的ID号的数据记录，以及其在声波中的开始时间及其结束时间。识别咳嗽旗号标记件629可以包括显示咳嗽ID和相关的开始和结束时间的视觉显示。

优选实施例的性能

对咳嗽识别算法进行了一项前瞻性研究，其中儿童咳嗽记录由印度经验丰富的医疗保健专业人员制作。这些录音是在包含大量背景噪音(包括说话声、汽车喇叭声、音乐和机器产生的噪音)的环境中制作的。NN接受了其他参考数据的训练，并在52个记录中进行了测试。

	召回率(％)	精确率(％)	F1-分数
				现有技术方法	35	45	0.39
LW1	46	91	0.61
				LW1.5	61	81	0.70
LW2	80	90	0.85

表2：现有技术方法、LW1、LW1.5和LW2在非常具有挑战性的咳嗽录音的性能表现。这些算法经过这些数据训练。

图7示出了用LW2检测咳嗽。从图7中可以看出，检测到的咳嗽线与实际咳嗽紧密匹配。LW2能够比LW1更好地捕获咳嗽的持续时间。

训练NN1和NN2

如前所述，本发明的优选实施例要求训练两个时延神经网络。训练TDNN1 615以检测每次咳嗽的爆发相位的初始咳嗽声。训练第二网络TDNN2 617以检测咳嗽的其余部分，包括中间相位和发出的咳嗽声(如果存在的话)。

众所周知，第一咳嗽声具有非常独特的特征，并且在受试者之间比咳嗽声的其他部分更加一致。例如，以前的研究人员发表了以下评论：

“在我们的方法中，我们利用这样的事实，即咳嗽声的前150毫秒仅对应于咳嗽反射的爆发相位，并且通常在观察者看来是一致的。我们只对这种咳嗽反射的爆发相位进行建模，以便我们的模型能够在观察者之间进行推广。”Eric C.Larson,TienJui Lee,SeanLiu,Margaret Rosenfeld,and Shwetak N.Patel.2011.Accurate and privacypreserving cough sensing using a low-cost microphone.In Proceedings of the13th international conference on Ubiquitous computing(UbiComp'11).ACM,NewYork,NY,USA,375-384.

DOI＝http://dx.doi.org/10.1145/2030112.2030163；以及

“我们的方法依赖于爆发相位检测，因为它具有声学和光谱特征，并且具有准确检测咳嗽声音的潜力。”Lucio C,Teixeira C,Henriques J,de Carvalho P,PaivaRP.Voluntary cough detection by internal sound analysis.In:BiomedicalEngineering and Informatics(BMEI),2014 7th International Conference on；2014.p.405–409。

在本发明的优选实施例中，仅基于第一神经网络检测潜在咳嗽的开始，该第一神经网络被训练以找到咳嗽的爆发相位。第二神经网络用于检测咳嗽事件的其余部分。

图7A呈现了用于训练第一分类器(例如，爆发相位神经网络(TDNN1)615)和第二分类器(例如，后爆发相位神经网络(TDNN2)617)的方法的高级框图流程图700。

训练第一神经网络——对咳嗽的爆发相位进行分类

第一网络在从手工标记咳嗽的第一帧开始的四个处理帧上训练，其中RMS(均方根)高于整个咳嗽声的平均RMS。手工标记的咳嗽的其余部分被训练为阴性目标。目标和阴性目标之间的两个处理帧完全没有训练以减少混淆。阴性实例就是这样训练的。图8示出了针对第一神经网络615、作为阳性目标(线96)和阴性目标(线98)训练的咳嗽部分。此外，语音、哭泣声、鼓掌声和机器产生的噪音的示例被用作阴性训练示例。

TDNN1 615的输入包括从处理七个帧导出的特征向量，其中目标帧是中间帧。也就是说，输入矢量“看到”目标帧之前的三个相邻帧和目标帧之后的三个帧。因此，TDNN的输入矢量的大小是7×14＝98个值。图9是TDNN1 615的架构的框图。尽管图9中所示的体系结构运行良好，但发明人已经发现隐藏层中有十六个节点而不是三十个节点甚至可以稍微好一些。将认识到，TDNN1和TDNN2的其他配置也可以起作用。

训练第二个神经网络——对咳嗽的最后相位进行分类

以与第一网络相反的方式训练第二网络TDNN2 617。咳嗽的开始和从开端开始的前四帧做为阴性目标训练。如果它们的RMS高于整个咳嗽信号的平均RMS的0.1倍，则在其间跳过一帧，然后将所有其余的咳嗽帧作为阳性目标训练。丢弃非常低的能量帧，即重新采样的许多背景噪声。同样，阴性示例也是如此训练的。图10示出了部分咳嗽，其作为第二神经网络的阳性目标101和阴性目标103训练。

如前所述，咳嗽的检测是基于从音频信号中提取并馈送到两个网络的连续特征流的两个已训练的神经网络的输出。图11示出了已训练的初始阶段检测神经网络TDNN1 615的输出111、以及检测神经网络TDNN2 617的后续阶段的输出113，其响应于三个连接的咳嗽115的突发。

可以通过专门编程的便携式计算装置(诸如智能手机)来实现在图5A的流程图中阐述的咳嗽检测方法。图12是已被编程以实现咳嗽检测设备39的典型智能手机的框图。设备39包括访问电子存储器5的处理组件3。电子存储器5包括操作系统8，例如Android操作系统或Apple iOS操作系统，用于由处理组件3执行。电子存储器5还包括根据本发明优选实施例的咳嗽检测应用软件产品或“App”6。咳嗽检测App 36包括可由处理组件3执行的指令，以便咳嗽检测设备39实现图5A的流程图的方法。

处理组件3通过数据总线7与多个外围组件9-23进行数据通信，如图1所示。因此，咳嗽检测设备39能够经由WAN/WLAN组件23和射频天线29与数据通信网络31建立数据通信。在使用中，设备39与远程服务器33建立数据通信，从远程服务器33可以下载对App 36的更新，或者可以上传检测到的咳嗽声音以进行诊断。

在使用中，医疗护理提供者通过执行咳嗽诊断App 36来操作咳嗽检测设备39。App36在LCD屏幕11上呈现记录屏幕，其包括经由触摸屏界面13的“开始记录”按钮。一旦医疗护理提供者将咳嗽检测设备39定位成足够靠近患者，护理提供者便点击“开始记录”按钮。来自患者的声音，包括咳嗽声，由麦克风25记录。这些声音被音频接口组件21过滤并转换成数字数据流。用于执行包括咳嗽诊断App 36的指令的处理组件3使得图6的专用设备600的各种功能块生效。在检测到咳嗽时，处理组件3写入存储咳嗽的记录声波部分的记录，从而识别咳嗽，并且可以操作屏幕11以在视觉上指示已经临床医生检测到咳嗽。已经鉴定的咳嗽随后可以通过诊断方法处理，以确定它们是否指示患者的疾病状态和患者提供的适当治疗，例如抗生素、水合(hydration)和休息。然后，可以在屏幕11上显示咳嗽的数量及其在声波中的位置。包含检测到的咳嗽的部分声波也可以存储在存储器5中，用于随后的诊断处理。

本发明的变型和进一步的实施例是可能的。例如，尽管在本发明的优选实施例中已经使用神经网络来对声音进行分类，但是也可以使用其他分类器，例如决策树(包括打包决策树(bagged tree)或增强决策树(boosted tree))。同样重要的是要注意，在优选实施例中，使用了两种分类器，即用于咳嗽的第一相位的TDNN1 615和用于咳嗽的第二和第三相位的TDNN2 617。在本发明的其他实施例中，可以使用三种分类器(其中一种用于咳嗽的每个单独相位)。

在本发明的另一实施例中，提供了单个多级模式分类器，其被训练以处理候选咳嗽声并且在使用的同时区分咳嗽的第一部分和第二部分。图13示出了已被训练以一次区分咳嗽的第一和第二部分的示例性神经网络1300。应当注意，图13的神经网络1300是多类别的，因为它产生三个输出，与之前讨论的产生单个输出的图9的神经网络615形成对比。

训练图13的神经网络1300以检测音频信号的每个帧的三个类别。这三个类别是第一咳嗽部分、第二咳嗽部分、或者在没有第一咳嗽部分和第二咳嗽部分的情况下，作为阴性训练示例。来自神经网络1300的三个输出信号对应于三个类别中的每一个的检测概率。然后可以以与本发明的早期实施例的两个神经网络的输出相同的方式，使用两个咳嗽部分中的每一个的概率。根据多类别方法的咳嗽检测器可以使用通用硬件平台来实现，如本发明的前述实施例之一，例如，图12的智能手机硬件。

三个类别的训练目标在图14的曲线图中示出。在图14中，实线表示咳嗽发作有效的音频特征部分(第1类)。点线表示咳嗽的第二部分(第2类)，而虚线表示阴性训练实例(第3类)。

如表3所示，发明人已经发现，图13和图14中所示的多类别方法的性能略差于先前已经讨论过的两个神经网络实施例的性能。

表3-不同实施例的性能比较

替代模型

使用神经网络对两类别模型或多类别模型结构中的咳嗽帧进行分类并不是必需的。发明人还使用其他几种模型类型测试了本文列出的方法：

·决策树的集合

·梯度增强决策树(Gradient boosted trees)

·替代神经网络软件

所有这些模型都获得了与表3中列出的原始实现方案类似的性能。

根据法规，已经用或多或少特定于结构或方法特征的语言对本发明进行描述。术语“包括”及其变形，例如“包括有”和“由······组成”在包含性意义上始终一致，而不是排除任何附加特征。应理解，本发明不限于所示或所述的具体特征，因为本文所述的方法包括了实现本发明的优选形式。因此，本发明在本领域技术人员对所附权利要求适当解释的适当范围内以其任何形式或变型要求保护。

在整个说明书和权利要求书(如果存在的话)中，除非上下文另有要求，否则术语“基本上”或“约”将被理解为不限于由术语限定的范围的值。

本发明的任何实施例仅是说明性的，并不意味着对本发明构成限制。

Claims

1.一种用于检测声波中的咳嗽声音的方法，包括以下步骤：

获取电子格式的声波；

将从声波中提取的特征应用于至少两个电子模式分类器，所述两个电子模式分类器包括训练成检测咳嗽声音的爆发相位的第一分类器和训练成检测咳嗽声音的一个或多个后爆发相位的第二分类器。

2.根据权利要求1所述的方法，包括仅在所述第一分类器将所述声波的特征分类为咳嗽声音的爆炸相位之后，将从所述声波提取的特征应用于所述第二分类器。

3.根据权利要求1所述的方法，其中，根据关于爆发相位为阳性和关于爆发相位之后的咳嗽声音的部分为阴性的训练，配置所述第一分类器。

4.根据权利要求3所述的方法，包括在爆发相位的结束与爆发相位结束之后的所述咳嗽声音的开始之间提供间隙。

5.根据权利要求3所述的方法，其中，根据关于爆发相位为阴性和关于爆发相位之后的咳嗽声音的部分为阳性的训练，配置所述第二分类器。

6.根据权利要求3至5中任一项所述的方法，其中，所述第一和第二分类器包括具有单个隐藏层的神经网络。

7.根据权利要求1所述的方法，其中，所述特征包括与声波的梅尔频率倒频谱系数对应的特征。

8.根据权利要求7所述的方法，其中，所述特征还包括与声波的对数能量相对应的特征。

9.根据权利要求1-5中任一项所述的方法，其中，所述第一和第二分类器包括时延神经网络。

10.一种用于检测声波中的咳嗽声音的设备，包括：

数字化组件，用于将转换器的输出数字化，所述转换器用于转换声波；

响应于特征提取组件的第一分类器，训练成识别咳嗽声音的爆发相位；

响应于特征提取组件的第二分类器，训练成识别咳嗽声音的一个或多个后爆发相位；以及

后分类器咳嗽识别处理器，布置成基于来自第一分类器和第二分类器的输出而识别咳嗽声音。

11.根据权利要求10所述的设备，其中所述后分类器咳嗽识别处理器布置成在所述第一分类器的输出指示检测到所述咳嗽声的爆发相位之后，再响应来自所述第二分类器的输出。

12.根据权利要求10所述的设备，其中，所述第一分类器和所述第二分类器包括第一和第二神经网络，其中根据阳性训练对所述第一神经网络进行加权以检测所述爆发相位，并且其中根据阳性训练对所述第二神经网络进行加权以检测一个或多个后爆发相位。

13.根据权利要求12所述的设备，其中，根据关于爆发相位的阳性训练和关于后爆发相位的阴性训练，对所述第一神经网络进一步加权。

14.根据权利要求12所述的设备，其中，根据关于爆发相位的阴性训练和关于后爆发相位的阳性训练，对所述第二神经网络进一步加权。

15.根据权利要求10所述的设备，所述特征提取组件布置成从所述声波中提取梅尔频率倒频谱系数（MFCC）。

16.根据权利要求15所述的设备，其中，所述特征提取组件设置成提取包括零阶MFCC的多个MFCC。

17.根据权利要求15所述的设备，其中，所述特征提取组件进一步设置成提取声波的对数能量特征。

18.根据权利要求10所述的设备，包括第一和第二比较器，用于将来自所述第一分类器和第二分类器的输出与阈值进行比较，以便测量爆发相位和后爆发相位的各自检测概率水平。

19.根据权利要求18所述的设备，其中，所述咳嗽识别处理器响应于比较器以识别所述咳嗽声音。

20.根据权利要求10所述的设备，所述设备还包括RMS功率评估器，用于评估所述声波的片段的RMS功率，其中所述咳嗽识别处理器设置成对RMS功率估计器的输出进行考量以识别咳嗽声音。

21.根据权利要求10至20中任一项所述的设备，包括响应于所述后分类器咳嗽识别处理器的咳嗽旗号标记组件，其中所述咳嗽旗号标记组件设置成记录被识别为包含咳嗽声音的声波部分。

22.根据权利要求12至14中任一项所述的设备，其中，所述第一和第二神经网络包括时延神经网络，用于处理从所述特征提取组件发出的一系列时间延迟特征向量。

23. 一种用于检测来自声波的咳嗽声音的方法，包括以下步骤：

将从声波中提取的特征应用于电子模式分类器，其中模式分类器配置成检测

咳嗽声音的爆发相位；

咳嗽声音的一个或多个后爆发相位；和

是否存在非咳嗽事件；以及