CN109473119B - 一种声学目标事件监控方法 - Google Patents
一种声学目标事件监控方法 Download PDFInfo
- Publication number
- CN109473119B CN109473119B CN201710800615.6A CN201710800615A CN109473119B CN 109473119 B CN109473119 B CN 109473119B CN 201710800615 A CN201710800615 A CN 201710800615A CN 109473119 B CN109473119 B CN 109473119B
- Authority
- CN
- China
- Prior art keywords
- neural network
- acoustic
- deep neural
- target
- signal
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Active
Links
- 238000012544 monitoring process Methods 0.000 title claims abstract description 40
- 238000000034 method Methods 0.000 title claims abstract description 39
- 238000013528 artificial neural network Methods 0.000 claims abstract description 43
- 238000013527 convolutional neural network Methods 0.000 claims abstract description 17
- 238000012549 training Methods 0.000 claims abstract description 16
- 238000012360 testing method Methods 0.000 claims abstract description 4
- 238000001228 spectrum Methods 0.000 claims description 23
- 238000000605 extraction Methods 0.000 claims description 14
- 238000012545 processing Methods 0.000 claims description 13
- 238000004458 analytical method Methods 0.000 claims description 10
- 230000008569 process Effects 0.000 claims description 6
- 239000010410 layer Substances 0.000 claims description 3
- 239000002356 single layer Substances 0.000 claims description 3
- 230000000306 recurrent effect Effects 0.000 abstract description 3
- 230000006872 improvement Effects 0.000 description 6
- 238000005070 sampling Methods 0.000 description 6
- 230000007613 environmental effect Effects 0.000 description 3
- 238000004880 explosion Methods 0.000 description 3
- 238000013135 deep learning Methods 0.000 description 2
- 238000003672 processing method Methods 0.000 description 2
- 230000003044 adaptive effect Effects 0.000 description 1
- 230000008859 change Effects 0.000 description 1
- 238000010586 diagram Methods 0.000 description 1
- 238000012986 modification Methods 0.000 description 1
- 230000004048 modification Effects 0.000 description 1
- 230000005236 sound signal Effects 0.000 description 1
- 230000003595 spectral effect Effects 0.000 description 1
- 230000001629 suppression Effects 0.000 description 1
Images
Classifications
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L25/00—Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00
- G10L25/27—Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00 characterised by the analysis technique
- G10L25/30—Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00 characterised by the analysis technique using neural networks
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L25/00—Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00
- G10L25/03—Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00 characterised by the type of extracted parameters
Landscapes
- Engineering & Computer Science (AREA)
- Computational Linguistics (AREA)
- Signal Processing (AREA)
- Health & Medical Sciences (AREA)
- Audiology, Speech & Language Pathology (AREA)
- Human Computer Interaction (AREA)
- Physics & Mathematics (AREA)
- Acoustics & Sound (AREA)
- Multimedia (AREA)
- Artificial Intelligence (AREA)
- Evolutionary Computation (AREA)
- Measurement Of Mechanical Vibrations Or Ultrasonic Waves (AREA)
Abstract
本发明公开了一种声学目标事件监控方法,所述方法包括:步骤1)建立样本集,所述样本集包括训练集和测试集;步骤2)构建并训练深度神经网络,所述深度神经网络为结合递归网络结构的卷积神经网络,用于提取声学信号的信号特征;步骤3)构建并训练多个任务辨识网络;步骤4)利用训练好的深度神经网络和多个任务辨识网络,对实时采集的声学信号进行目标类别辨识;步骤5)当辨识出的目标属于监控的事件范围内,根据系统设置执行监控策略。本发明的方法可以解决为智能交通、城市环境监测、特定建筑物内公共区域声学监测等应用,用于特定目标事件的发现、定位和远距离声信号获取,能够提高城市的噪声源目标监控技术水平。
Description
技术领域
本发明涉及环境声学监测、人群语音监测、公共安全监测等领域,具体涉及一种声学目标事件监控方法。
背景技术
目前在针对多种公共或野外环境下的声学监测相关应用中,根据不同的应用目标和领域,形成了多种多样的声学信号采集处理设备或系统,比如雷声监测定位、爆炸声监测、环境噪声污染水平监测等。这些不同的监测目标通常采用不同的声学信号处理方法,比如设置不同的信号采样率、目标信号特征提取方法等。
目前通常是针对某些目标设定信号处理方法、特征提取识别方法等,搜集相应数据进行分类器训练。一旦完成之后就形成固定的目标识别分类器,难以再增加或改变所辨识目标的类型。
发明内容
本发明的目的在于克服上述问题,针对环境噪声监测应用提出了一种统一的信号特征分析提取与识别的方法,为多种采样率信号、不同目标声信号的处理与辨识提供一个统一基于深度学习的技术框架。
为了实现上述目的,本发明提出了一种声学目标事件监控方法,所述方法包括:
步骤1)建立样本集,所述样本集包括训练集和测试集;
步骤2)构建并训练深度神经网络,所述深度神经网络为结合递归网络结构的卷积神经网络,用于提取声学信号的信号特征;
步骤3)构建并训练多个任务辨识网络;
步骤4)利用训练好的深度神经网络和多个任务辨识网络,对实时采集的声学信号进行目标类别辨识;
步骤5)当辨识出的目标属于监控的事件范围内,根据系统设置执行监控策略。
作为上述方法的一种改进,所述步骤1)具体为:
采集已有的或在线监测所得到的大量声信号数据,处理后得到每个信号的傅立叶短时谱;傅立叶短时谱是多帧信号进行傅里叶变换后得到的二维频谱信息,二维分别表示时间和频率,所述样本集包括若干个样本,每个样本包括:声信号的傅立叶短时谱,声信号的标签。
作为上述方法的一种改进,所述步骤2)具体包括:
步骤201)构建深度神经网络;所述深度神经网络是一个改进卷积神经网络,是将传统的卷积神经网络结合递归网络结构,形成可利用历史信息对声信号进行特征分析提取与判别的深度神经网络;
步骤202)使用样本集进行无监督学习,优化所述深度神经网络参数:网络规模、权系数及控制参数。
作为上述方法的一种改进,所述步骤3)具体包括:
步骤301)根据不同任务场景、不同需要和不同任务目标,构建多个任务辨识网络,所述任务辨识网络使用单层或多层网络形式;
步骤302)将深度神经网络提取的样本集的每个声信号的目标特征作为多个任务辨识网络的输入,根据已知的该声学信号的标签进行反向训练,训练出多个任务辨识网络的参数。
作为上述方法的一种改进,所述步骤302)的多个任务辨识网络的输入还可以增加基于信号处理的部分参数:信号短时能量和事件持续时间。
作为上述方法的一种改进,所述步骤4)具体包括:
步骤401)对实时采集的声信号进行处理,得到声信号的傅立叶短时谱;
步骤402)将声信号的傅立叶短时谱输入训练好的深度神经网络,得到网络的输出:信号特征的表征;
步骤403)将深度神经网络输出的信号特征,分别输入多个任务辨识网络;并将任务辨识网络输出的目标类别概率进行排序,取目标类别概率最大值为辨识结果。
作为上述方法的一种改进,所述步骤5)的监控策略包括:系统报警、日志记录和证据记录。
本发明的优势在于:
1、本发明的方法可以解决为智能交通、城市环境监测、特定建筑物内公共区域声学监测等应用,可用于特定目标事件的发现、定位和远距离声信号获取,提高城市的噪声源目标监控技术水平。
2、本发明的方法构建容纳多种目标类型的基于深度学习的目标信号特征分析提取框架,形成适应特定环境(如城市环境)的统一的声学监测体系。
附图说明
图1为本发明的声学目标事件监控方法的示意图。
具体实施方式
本发明采用深度神经网络作为声信号分析、特征提取与目标辨识的基本方法。以卷积神经网络(CNN)方法为基础,构建多任务学习的深度神经网络,以信号频谱特征为基本输入,在神经网络内完成信号特征分析提取与辨识,输出为目标类别的后验概率以及噪声抑制后的信号等。
下面结合附图和具体实施例对本发明进行详细的说明。
如图1所示,一种声学目标事件监控方法,所述方法包括:
步骤1)建立样本集,所述样本集包括训练集和测试集;
采集已有的或在线监测所得到的大量声信号数据,处理后得到信号的傅立叶短时谱;傅立叶短时谱是多帧信号(帧长度、帧重叠可调整)进行傅里叶变换后得到的二维频谱信息,x,y轴分别表示时间和频率,所述样本集包括若干个样本,每个样本包括:声信号的傅立叶短时谱,声信号的标签。
在实际使用中,可根据需要设定要辨识的声学目标,为多种数据采集单元设定不同的采样率。
步骤2)构建并训练深度神经网络;具体包括:
步骤201)构建深度神经网络;
所述识别声学信号的深度神经网络是一个改进卷积神经网络,是将传统的卷积神经网络结合递归网络结构(例如,LSTM:长短时记忆模型),形成可利用历史信息对声信号进行特征分析提取与判别的深度神经网络;
采用卷积神经网络可对二维频谱图像信息进行特征分析和提取。二维表示的短时谱可作为基本输入。在处理过程中,为了兼容不同信号处理需要的采样率,短时谱的频率轴表示的频率范围不同,可在CNN处理过程中利用不同的卷积参数对频率信息进行抽象和降采样,从而使不同采样率信号的短时谱得到同样的表达。
为了适应不同目标信号持续时间的不同,如爆炸声是瞬间的独立声源,强烈的人员语音是持续时间长的间断语音信号,车辆声信号是较强的连续声源,在CNN的基本架构中可引入时间上的反馈控制,形成递归的CNN网络结构。进一步地,可将LSTM等RNN网络与CNN网络结合,通过自适应的参数训练,得到可回溯历史信息的声信号特征分析提取的深度神经网络。
步骤202)使用样本集进行无监督学习,优化网络规模、权系数及控制参数等深度神经网络参数;
上述深度神经网络的目标特征提取辨识框架的训练可采用离线学习方式,在专门的服务器上实现,得到优化后的神经网络参数。用户系统中仅使用固定的深度神经网络参数对数据进行实时分析处理,标记背景噪声信号或目标信号的类别。也可以将深度神经网络的训练集成在用户系统中,增加在线学习能力,进一步提高在具体应用场景中的辨识能力。
步骤3)构建和训练多个任务辨识网络;
通过多场景下多个信号采集处理节点的数据来源,针对多种目标,在经过无监督学习后,深度神经网络具备了声学特征提取的基本能力。可进一步使用监督学习方法对多种目标的区分能力进行优化。形成针对多种目标的特征提取分析能力。
进一步地,可根据不同任务场景定义不同学习任务。根据不同需要和任务,建立所需识别的目标类型;如鸣笛监控,识别是否是鸣笛声;如安全监控,辨识是否有爆炸、车祸碰撞以及人的尖叫等。根据不同的任务目标,构建多个任务辨识网络,任务辨识网络使用单层或多层网络形式。比如,训练数据中包含了多种车辆、无人机目标数据,可建立诸如任务1可能辨识不同车辆类型;任务2辨识不同无人机类型;任务3区分车辆与无人机等适合不同应用场景的任务。
根据任务特定需求,使用样本集中经过标记的目标事件数据进行训练,输入的待判决特征对每个具体识别任务的辨识网络进行独立优化,除了深度神经网络提取的目标特征以外,可根据需要增加基于信号处理的部分参数,如信号短时能量、事件持续时间等,从而使每个目标辨识任务都能得到较好辨识能力。
步骤4)利用训练好的深度神经网络和多个任务辨识网络,对实时采集的声学信号进行辨识;
步骤401)对实时采集的声信号进行处理,得到声信号的傅立叶短时谱;
步骤402)将声信号的傅立叶短时谱输入训练好的深度神经网络,得到网络的输出:信号特征的表征;
步骤403)将深度神经网络输出的信号特征,分别输入多个任务辨识网络;将任务辨识网络输出的目标类别概率进行排序,取目标类别概率最大值为辨识结果。
步骤5)当辨识出的目标属于监控的事件范围内,根据系统设置执行监控策略。
所述监控策略包括:系统报警、日志记录和证据记录。
本发明的创新点在于:
1、以图像形式的2-D傅立叶短时谱图为声信号的基本特征,可兼容不同时间长度以及不同采样率的短时谱表示。
2、以CNN为基础,结合递归网络结构,建立可回溯历史信息的声信号特征分析与提取的深度神经网络架构。
3、在目标辨识部分结合深度神经网络的输出和信号处理特征参数,构建多任务的个性化识别网络。
最后所应说明的是,以上实施例仅用以说明本发明的技术方案而非限制。尽管参照实施例对本发明进行了详细说明,本领域的普通技术人员应当理解,对本发明的技术方案进行修改或者等同替换,都不脱离本发明技术方案的精神和范围,其均应涵盖在本发明的权利要求范围当中。
Claims (6)
1.一种声学目标事件监控方法,所述方法包括:
步骤1)建立样本集,所述样本集包括训练集和测试集;
步骤2)构建并训练深度神经网络,所述深度神经网络为结合递归网络结构的卷积神经网络,用于提取声信号的信号特征;
步骤3)构建并训练多个任务辨识网络;
步骤4)利用训练好的深度神经网络和多个任务辨识网络,对实时采集的声信号进行目标类别辨识;
步骤5)当辨识出的目标属于监控的事件范围内,根据系统设置执行监控策略;
所述步骤3)具体包括:
步骤301)根据不同任务场景、不同需要和不同任务目标,构建多个任务辨识网络,所述任务辨识网络使用单层或多层网络形式;
步骤302)将深度神经网络提取的样本集的每个声信号的目标特征作为多个任务辨识网络的输入,根据已知的该声信号的标签进行反向训练,训练出多个任务辨识网络的参数。
2.根据权利要求1所述的声学目标事件监控方法,其特征在于,所述步骤1)具体为:
采集已有的或在线监测所得到的大量声信号数据,处理后得到每个信号的傅立叶短时谱;傅立叶短时谱是多帧信号进行傅里叶变换后得到的二维频谱信息,二维分别表示时间和频率,所述样本集包括若干个样本,每个样本包括:声信号的傅立叶短时谱,声信号的标签。
3.根据权利要求1所述的声学目标事件监控方法,其特征在于,所述步骤2)具体包括:
步骤201)构建深度神经网络;所述深度神经网络是一个改进卷积神经网络,是将传统的卷积神经网络结合递归网络结构,形成可利用历史信息对声信号进行特征分析提取与判别的深度神经网络;
步骤202)使用样本集进行无监督学习,优化所述深度神经网络参数:网络规模、权系数及控制参数。
4.根据权利要求1所述的声学目标事件监控方法,其特征在于,所述步骤302)的多个任务辨识网络的输入还可以增加基于信号处理的部分参数:信号短时能量和事件持续时间。
5.根据权利要求1所述的声学目标事件监控方法,其特征在于,所述步骤4)具体包括:
步骤401)对实时采集的声信号进行处理,得到声信号的傅立叶短时谱;
步骤402)将声信号的傅立叶短时谱输入训练好的深度神经网络,得到网络的输出:信号特征的表征;
步骤403)将深度神经网络输出的信号特征,分别输入多个任务辨识网络;并将任务辨识网络输出的目标类别概率进行排序,取目标类别概率最大值为辨识结果。
6.根据权利要求1所述的声学目标事件监控方法,其特征在于,所述步骤5)的监控策略包括:系统报警、日志记录和证据记录。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN201710800615.6A CN109473119B (zh) | 2017-09-07 | 2017-09-07 | 一种声学目标事件监控方法 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN201710800615.6A CN109473119B (zh) | 2017-09-07 | 2017-09-07 | 一种声学目标事件监控方法 |
Publications (2)
Publication Number | Publication Date |
---|---|
CN109473119A CN109473119A (zh) | 2019-03-15 |
CN109473119B true CN109473119B (zh) | 2023-04-07 |
Family
ID=65657561
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN201710800615.6A Active CN109473119B (zh) | 2017-09-07 | 2017-09-07 | 一种声学目标事件监控方法 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN109473119B (zh) |
Families Citing this family (8)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN110010155A (zh) * | 2019-04-11 | 2019-07-12 | 中国一拖集团有限公司 | 基于卷积神经网络和mfcc的颤振识别方法和系统 |
CN110600059B (zh) * | 2019-09-05 | 2022-03-15 | Oppo广东移动通信有限公司 | 声学事件检测方法、装置、电子设备及存储介质 |
CN111863029A (zh) * | 2019-09-19 | 2020-10-30 | 北京嘀嘀无限科技发展有限公司 | 一种基于音频的事件检测方法和系统 |
CN111161715B (zh) * | 2019-12-25 | 2022-06-14 | 福州大学 | 一种基于序列分类的特定声音事件检索与定位的方法 |
CN111227839B (zh) * | 2020-01-19 | 2023-08-18 | 中国电子科技集团公司电子科学研究院 | 一种行为识别方法及装置 |
CN111477213A (zh) * | 2020-03-09 | 2020-07-31 | 重庆邮电大学 | 一种基于机器学习的声事件检测系统及方法 |
CN111477248B (zh) * | 2020-04-08 | 2023-07-28 | 腾讯音乐娱乐科技(深圳)有限公司 | 一种音频噪声检测方法及装置 |
CN111599382B (zh) * | 2020-07-27 | 2020-10-27 | 深圳市声扬科技有限公司 | 语音分析方法、装置、计算机设备和存储介质 |
Citations (1)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN107086036A (zh) * | 2017-04-19 | 2017-08-22 | 杭州派尼澳电子科技有限公司 | 一种高速公路隧道安全监控方法 |
Family Cites Families (8)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
US20020078818A1 (en) * | 2000-12-22 | 2002-06-27 | Elliott Brig Barnum | Network- supplied selectable sound- data for time identification |
JP6235938B2 (ja) * | 2013-08-13 | 2017-11-22 | 日本電信電話株式会社 | 音響イベント識別モデル学習装置、音響イベント検出装置、音響イベント識別モデル学習方法、音響イベント検出方法及びプログラム |
US9858919B2 (en) * | 2013-11-27 | 2018-01-02 | International Business Machines Corporation | Speaker adaptation of neural network acoustic models using I-vectors |
JP6401126B2 (ja) * | 2015-08-11 | 2018-10-03 | 日本電信電話株式会社 | 特徴量ベクトル算出装置、特徴量ベクトル算出方法及び特徴量ベクトル算出プログラム。 |
CN106328123B (zh) * | 2016-08-25 | 2020-03-20 | 苏州大学 | 小数据库条件下正常语音流中耳语音的识别方法 |
CN106653056B (zh) * | 2016-11-16 | 2020-04-24 | 中国科学院自动化研究所 | 基于lstm循环神经网络的基频提取模型及训练方法 |
CN106682574A (zh) * | 2016-11-18 | 2017-05-17 | 哈尔滨工程大学 | 一维深度卷积网络的水下多目标识别方法 |
CN106710599A (zh) * | 2016-12-02 | 2017-05-24 | 深圳撒哈拉数据科技有限公司 | 一种基于深度神经网络的特定声源检测方法与系统 |
-
2017
- 2017-09-07 CN CN201710800615.6A patent/CN109473119B/zh active Active
Patent Citations (1)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN107086036A (zh) * | 2017-04-19 | 2017-08-22 | 杭州派尼澳电子科技有限公司 | 一种高速公路隧道安全监控方法 |
Also Published As
Publication number | Publication date |
---|---|
CN109473119A (zh) | 2019-03-15 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
CN109473119B (zh) | 一种声学目标事件监控方法 | |
CN102163427B (zh) | 一种基于环境模型的音频异常事件检测方法 | |
WO2020220439A9 (zh) | 基于深度神经网络的高速公路交通流量状态识别方法 | |
CN106710599A (zh) | 一种基于深度神经网络的特定声源检测方法与系统 | |
CN105679313A (zh) | 一种音频识别报警系统及方法 | |
CN111341319B (zh) | 一种基于局部纹理特征的音频场景识别方法及系统 | |
CN106650644B (zh) | 驾驶员危险行为识别方法及系统 | |
CN113311857A (zh) | 一种基于无人机的环境感知与避障系统及方法 | |
CN109243496A (zh) | 声音识别方法和系统 | |
CN113640768B (zh) | 一种基于小波变换的低分辨雷达目标识别方法 | |
Smailov et al. | A novel deep CNN-RNN approach for real-time impulsive sound detection to detect dangerous events | |
Machap et al. | IoT audio sensor networks and decision trees for enhanced rain sound classification | |
CN117351995A (zh) | 基于深度学习复合模型的环境声音识别方法及装置 | |
Liang et al. | Fall detection system based on millimeter wave radar and machine learning | |
CN110333484B (zh) | 基于环境背景声感知与分析的室内区域级定位方法 | |
CN110390949A (zh) | 基于大数据的水声目标智能识别方法 | |
CN112733927A (zh) | 一种基于一维卷积神经网络的风叶声音边界定位方法和存储设备 | |
Astapov et al. | Military vehicle acoustic pattern identification by distributed ground sensors | |
CN206648005U (zh) | 一种内置碰撞声检测功能的智能路灯 | |
CN118334497A (zh) | 一种周界视频监控系统 | |
CN117370832A (zh) | 基于贝叶斯神经网络的水声目标识别方法及装置 | |
CN113688953B (zh) | 基于多层gan网络的工控信号分类方法、装置和介质 | |
CN116259313A (zh) | 一种基于时域卷积网络的声音事件定位和检测方法 | |
KR20170035248A (ko) | 통계모델을 이용한 전자전 위협신호의 자동 분류 장치 | |
CN116884416A (zh) | 野生动物音频采集检测系统、方法、存储介质及电子设备 |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination | ||
GR01 | Patent grant | ||
GR01 | Patent grant |