CN110782920B - 音频识别方法、装置及数据处理设备 - Google Patents
音频识别方法、装置及数据处理设备 Download PDFInfo
- Publication number
- CN110782920B CN110782920B CN201911072080.0A CN201911072080A CN110782920B CN 110782920 B CN110782920 B CN 110782920B CN 201911072080 A CN201911072080 A CN 201911072080A CN 110782920 B CN110782920 B CN 110782920B
- Authority
- CN
- China
- Prior art keywords
- audio
- identified
- clip
- classification
- mel
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Active
Links
Images
Classifications
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L25/00—Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00
- G10L25/48—Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00 specially adapted for particular use
- G10L25/51—Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00 specially adapted for particular use for comparison or discrimination
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L25/00—Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00
- G10L25/03—Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00 characterised by the type of extracted parameters
- G10L25/24—Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00 characterised by the type of extracted parameters the extracted parameters being the cepstrum
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L25/00—Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00
- G10L25/27—Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00 characterised by the analysis technique
- G10L25/30—Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00 characterised by the analysis technique using neural networks
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L25/00—Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00
- G10L25/45—Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00 characterised by the type of analysis window
Landscapes
- Engineering & Computer Science (AREA)
- Computational Linguistics (AREA)
- Signal Processing (AREA)
- Health & Medical Sciences (AREA)
- Audiology, Speech & Language Pathology (AREA)
- Human Computer Interaction (AREA)
- Physics & Mathematics (AREA)
- Acoustics & Sound (AREA)
- Multimedia (AREA)
- Artificial Intelligence (AREA)
- Evolutionary Computation (AREA)
- Information Retrieval, Db Structures And Fs Structures Therefor (AREA)
Abstract
本申请一种音频识别方法、装置及数据处理设备,方法包括:获取待识别音频,将待识别音频拆分为多个音频片段;针对每个音频片段,获取音频片段的特征;将音频片段的特征输入训练好的分类模型进行分类识别,获得该音频片段是否为疑似特定音频片段的分类结果;将多个音频片段的分类结果输入长短期记忆网络LSTM网络进行处理,获得待识别音频是否为特定音频的识别结果。相较于现有技术中对整个音频进行整体识别的方式,本实施例提供的方案可以更为准确的识别待识别音频中占比很小的特定音频内容。
Description
技术领域
本申请涉及数据处理技术领域,具体而言,涉及一种音频识别方法、装置及数据处理设备。
背景技术
音频识别是一种根据识别音频中特定信息的技术,对于基于音频内容的报警、违规音频判别等具有重要意义。
在一些音频识别方法中,通常是对音频进行整体分析,检测音频中存在的特定内容。但是当音频中特定内容在整个音频中所占时间很短时,采用音频整体分析会造成特定音频内容的特征不够显著,导致特定音频内容的识别率低,不能准确判断特定能的存在性。
发明内容
为了克服现有技术中的上述不足,本申请的目的在于提供一种音频识别方法,所述方法包括:
获取待识别音频,将所述待识别音频拆分为多个音频片段;
针对每个所述音频片段,获取所述音频片段的特征;
将所述音频片段的特征输入训练好的分类模型进行分类识别,获得该音频片段是否为疑似特定音频片段的分类结果;
将多个所述音频片段的分类结果输入长短期记忆网络LSTM网络进行处理,获得所述待识别音频是否为特定音频的识别结果。
在一种可能的实施方式中,所述针对每个所述音频片段,获取所述音频片段的特征,包括:
针对每个所述音频片段,获取该音频片段的梅尔频率倒谱系数频谱;
根据所述音频片段的梅尔频率倒谱系数频谱获取所述音频片段的特征。
在一种可能的实施方式中,所述针对每个所述音频片段,获取该音频片段的梅尔频率倒谱系数频谱,包括:
将每个所述音频片段,将该音频片段拆分为多个帧;
根据每个帧中振幅和时间的关系,通过短时傅里叶变换计算获得该待识别音频的声谱图;
通过预设阶数的梅尔标度滤波器组对所述多个帧的声谱图进行处理,获得该音频片段的梅尔频谱;
对所述梅尔频谱进行倒谱分析处理,获得所述音频片段的梅尔倒谱系数频谱。
在一种可能的实施方式中,针对每个所述音频片段,按照预设窗长、预设步长对该音频片段进行拆分,包括:
按照预设窗长、预设步长,使用汉宁窗口对该音频片段进行拆分,其中,所述预设窗长不小于所述预设步长。
在一种可能的实施方式中,所述根据所述音频片段的梅尔频率倒谱系数频谱获取所述音频片段的特征,包括:
将所述音频片段的梅尔频率倒谱系数频谱拆分为多个大小相同的特征矩阵;
将所述多个特征矩阵输入视觉几何群VGG模型进行特征提取,获得所述音频片段的特征。
在一种可能的实施方式中,所述针对每个所述音频片段,获取所述音频片段的特征的步骤之前,所述方法还包括:
对每个所述音频片段进行降采样并转化为单声道音频。
在一种可能的实施方式中,所述将所述待识别音频拆分为多个音频片段,包括:
从所述待识别音频中剔除空白时间超过预设时间阈值的部分并将剩余部分拆分为多个音频片段。
本申请的另一目的在于提供一种音频识别装置,所述音频识别装置包括:
音频获取模块,用于获取待识别音频,将所述待识别音频拆分为多个音频片段;
特征提取模块,用于针对每个所述音频片段,获取所述音频片段的特征;
分类模块,用于将所述音频片段的特征输入训练好的分类模型进行分类识别,获得该音频片段是否为疑似特定音频片段的分类结果;
识别模块,用于将多个所述音频片段的分类结果输入长短期记忆网络LSTM网络进行处理,获得所述待识别音频是否为特定音频的识别结果。
本申请的另一目的在于提供一种数据处理设备,所述数据处理设备包括机器可读存储介质及处理器,所述机器可读存储介质存储有机器可执行指令,所述机器可执行指令在被所述处理器执行时,实现本申请提供的音频识别方法。
本申请的另一目的在于提供一种机器可读存储介质,所述机器可读存储介质存储有机器可执行指令,所述机器可执行指令在被所述处理器执行时,实现本申请提供的音频识别方法。
本申请提供一种音频识别方法、装置及数据处理设备,通过将待识别音频拆分为多个音频片段后,先针对每个音频片段进行是否为疑似特定音频片段的识别,使用LSTM网络对多个音频片段的分类结果进行整体分析,得出整个待识别音频是否为特定音频的识别结果。相较于现有技术中对整个音频进行整体识别的方式,本实施例提供的方案可以更为准确的识别待识别音频中占比很小的特定音频内容。
附图说明
为了更清楚地说明本申请实施例的技术方案,下面将对实施例中所需要使用的附图作简单地介绍,应当理解,以下附图仅示出了本申请的某些实施例,因此不应被看作是对范围的限定,对于本领域普通技术人员来讲,在不付出创造性劳动的前提下,还可以根据这些附图获得其他相关的附图。
图1为本申请实施例提供的数据处理设备的应用场景示意图;
图2为本申请实施例提供的数据处理设备的结构示意图;
图3为本申请实施例提供的音频识别方法的流程示意图;
图4为本申请实施例提供的音频片段拆分的示意图;
图5为图3所示步骤S120的子步骤流程示意图;
图6为本申请实施例提供的音频识别装置的功能模块示意图。
图标:100-数据处理设备;110-音频识别装置;111-音频获取模块;112-特征提取模块;113-分类模块;114-识别模块;120-机器可读存储介质;130-处理器;200-终端设备;300-存储设备。
具体实施方式
为使本申请实施例的目的、技术方案和优点更加清楚,下面将结合本申请实施例中的附图,对本申请实施例中的技术方案进行清楚、完整地描述,应当理解,本申请中的附图仅起到说明和描述的目的,并不用于限定本申请的保护范围。另外,应当理解,示意性的附图并未按实物比例进行绘制。本申请中使用的流程图示出了根据本申请的一些实施例实现的操作。应该理解,流程图的操作可以不按顺序实现,没有逻辑的上下文关系的步骤可以反转顺序或者同时实施。此外,本领域技术人员在本申请内容的指引下,可以向流程图添加一个或多个其它操作,也可以从流程图中移除一个或多个操作。
另外,所描述的实施例仅仅是本申请的一部分实施例,而不是全部的实施例。通常在此处附图中描述和示出的本申请实施例的组件可以以各种不同的配置来布置和设计。因此,以下对在附图中提供的本申请的实施例的详细描述并非旨在限制要求保护的本申请的范围,而是仅仅表示本申请的选定实施例。基于本申请的实施例,本领域技术人员在没有做出创造性劳动的前提下所获得的所有其它实施例,都属于本申请保护的范围。
对音频中特定内容的识别,对于基于音频内容的报警、违规音频判别等十分重要。但有的特定音频内容在整个音频中的占比很少,导致对音频进行整体分析时,特定音频内容的特征不够显著,难易将包含特定内容的音频识别出来。
以“互联网直播”场景为例,主播在较长时间的直播过程中,可能会通过一些违规动作来博取观众的关注,例如,模仿性行为的声音或发出具有性暗示的违规声音(如叫床、挑逗、呻吟、娇喘等)。这类违规动作通常难以通过视频画面来识别,只能通过识别音频中是否具有此类违规音频内容来判断主播是否具有违规动作。但是在较长时间的直播过程中,违规声音的存在时间可能很短,传统的整体音频分析方法难以有效识别出具有此类违规声音的音频。
基于对上述问题的发现,本实施例提供一种可以较为准确地识别出较长待识别音频中是否存在小段特定音频内容的方案,下面对本实施例提供的方案进行详细解释。
请参照图1,图1示出了本实施例提供的一种数据处理设备100的应用场景示意图。所述数据处理设备100可以为具有数据分析能力的任何电子设备,如个人电脑、工作站、服务器等。
在一种实施方式中,所述数据处理设备100可以和终端设备200通信。所述终端设备200可以为“互联网直播”场景中主播使用的终端设备(如个人电脑、移动终端等)。数据处理设备100可以直接从终端设备200获取待识别音频或者通过一些中转设备从所述终端设别200获取待识别音频。
在一个示例中,终端设备200可以为主播使用的客户端设备,该设备安装有直播服务器提供的客户端,并可以通过该客户端使用直播服务器提供的直播服务。所述客户端可以是直播应用程序、运行直播程序的浏览器或第三方应用程序等。
直播过程中,客户端设备可以将带有直播间ID的直播视频流发送给视频流服务器,由直播服务器将视频流服务器中到直播视频流发送给观众使用到客户端设备。
本示例中,第三方服务器可以作为数据处理设备100直接从客户端设备获取直播视频流,再从直播视频流中获取上述的待识别音频;视频流服务器也可以作为数据处理设备100从客户端设备发送的直播视频流中获取上述的待识别音频;还可以由直播服务器作为数据处理设备100,从视频流服务器存储的直播视频流中获取上述的待识别音频。
在另一种实施方式中,所述数据处理设备100也可以和存储设备300通信。所述数据处理设备100可以从所述存储设备300获取预先存储的待识别音频。
在本实施例中,所述待识别音频可以为从多媒体视频中提取的音频数据,也可以为单独的音频数据。
请参照图2,图2是图1所示的数据处理设备100的方框示意图。所述数据处理设备100包括音频识别装置110、机器可读存储介质120及处理器130。
所述机器可读存储介质120及处理器130相互之间直接或间接地电性连接,以实现数据的传输或交互。例如,这些元件相互之间可通过一条或多条通讯总线或信号线实现电性连接。所述音频识别装置110包括至少一个可以软件或固件(firmware)的形式存储于所述机器可读存储介质120中或固化在所述数据处理设备100的操作系统(operatingsystem,OS)中的软件功能模块。所述处理器130用于执行所述机器可读存储介质120中存储的可执行模块,例如所述音频识别装置110所包括的软件功能模块及计算机程序等。
其中,所述机器可读存储介质120可以是,但不限于,随机存取存储器(RandomAccess Memory,RAM),只读存储器(Read Only Memory,ROM),可编程只读存储器(Programmable Read-Only Memory,PROM),可擦除只读存储器(Erasable ProgrammableRead-Only Memory,EPROM),电可擦除只读存储器(Electric Erasable ProgrammableRead-Only Memory,EEPROM)等。其中,机器可读存储介质120用于存储程序,所述处理器130在接收到执行指令后,执行所述程序。
所述处理器130可以是一种通用处理器,包括中央处理器(Central ProcessingUnit,CPU)、网络处理器(Network Processor,NP)、片上系统(System on Chip,SoC)等;还可以是数字信号处理器(DSP)、专用集成电路(ASIC)、现场可编程门阵列(FPGA)或者其他可编程逻辑器件、分立门或者晶体管逻辑器件、分立硬件组件。
可以理解,图2所示的结构仅为示意,所述数据处理设别100还可包括比图2中所示更多或者更少的组件,或者具有与图2所示不同的配置,例如,还可以包括用于与其它设备进行信息交互的通信单元,如通过该通信单元与各所述终端设备200或存储设备300进行信息交互,以从所述终端设备200或存储设备300获取待识别音频。
请参照图3,图3为本实施例提供的一种音频识别方法的流程示意图,该音频识别方法可以应用于图1所示的数据处理设备100。应当理解,在其它实施例中,本实施例的业务预测方法其中部分步骤的顺序可以根据实际需要相互交换,或者其中的部分步骤也可以省略或删除。下面对该音频识别方法的各个步骤进行详细解释。
步骤S110,获取待识别音频,将所述待识别音频拆分为多个音频片段。
可选地,请参照图4,可以按照相同时长将待识别音频拆分为多个音频片段,例如,将待识别音频拆分为多个长度为4秒的音频片段。
步骤S120,针对每个所述音频片段,获取所述音频片段的特征。
步骤S130,将所述音频片段的特征输入训练好的分类模型进行分类识别,获得该音频片段是否为疑似特定音频片段的分类结果。
在本实施例中,通过将待识别音频拆分为多个音频片段后,针对每个音频片段进行是否为疑似特定音频片段的识别,相较于现有技术中对整个音频进行整体识别的方式,可以跟准确地确定出疑似具有特定音频内容的片段。
步骤S140,将多个所述音频片段的分类结果输入LSTM(LongShort-TermMemory,长短期记忆)网络进行处理,获得所述待识别音频是否为特定音频的识别结果。
LSTM网络是一种时间循环神经网络,适合于处理和预测时间序列中间隔和延迟非常长的重要事件。在本实施例中,可以将多个音频片段的分类结果看作沿时间序列排布的特征,将这些特征输入LSTM网络,可以对总体较长的待识别音频拆分出的大量音频片段的分类结果进行整体分析,获得整个待识别音频的是否属于特定音频的识别置信结果。
如此,在整个音频较长且特定音频内容的时间占比很小时,相较于现有技术采用音频整体分析的方法,本实施例提供的方案可以更为准确地判定待识别音频是否具有特定音频内容。
可选地,在一些待识别音频中,可能存在大量的空白的无声音频部分,为了减少后续数据处理量,提高处理效率,在步骤S110中,可以先从所述待识别音频中剔除空白时间超过预设时间阈值的部分,再将剩余部分拆分为多个音频片段。
可选地,请参照图5,在本实施例中,步骤S120可以包括子步骤S121和子步骤S122。
子步骤S121,针对每个所述音频片段,获取该音频片段的梅尔频率倒谱系数频谱。
子步骤S122,根据所述音频片段的梅尔频率倒谱系数频谱获取所述音频片段的特征。
在声音处理领域中,梅尔频率倒谱(Mel-Frequency Cepstrum)是基于声音频率的非线性梅尔刻度(mel scale)对数能量频谱的线性变换。梅尔频率倒谱系数(Mel-Frequency Cepstral Coefficients,MFCCs)衍生自音讯片段的倒频谱(cepstrum)。梅尔频率倒谱的频带划分是在梅尔刻度上等距划分的,它比用于正常的对数倒频谱中的线性间隔的频带更能近似人类的听觉系统。
因此在本实施例中,对于一些仅会出现在人耳能够识别的频率范围中特定的音频内容,例如,模仿性行为的声音或具有性暗示的声音,可以获取音频片段的梅尔频率倒谱系数频谱作为该音频片段的特征来进行识别分析,从而可以将音频分析的重点集中在人耳可以识别的频率范围,有利于提高识别的准确率。
可选地,通常直接获取的待识别音频数据的帧率(或采样频率)可能较高,为了减少后续分析的计算量,在本实施例中,在子步骤S121之前,还可以先对每个所述音频片段进行降采样并转化为单声道音频,从而减少后续分析的数据量。例如,通常从直播视频中获取到的待识别音频的帧率为48kHz,在本实施例中可以先将待识别音频降采样为16kHz的单声道音频数据,再获取该16kHz的单声道音频数据的特征。
本实施例中,可选地,上述子步骤S121可以通过以下流程实现:
第一,针对每个所述音频片段,将该音频片段拆分为多个帧。
可选地,对音频片段进行拆分的方式可以为:按照预设窗长、预设步长,使用汉宁窗(Hanning)对该音频片段进行拆分。其中,所述预设窗长不小于所述预设步长。如此,拆分出的帧与帧之间具有一定的重叠部分,从而可以使多个帧具有一定的相关连续性,保留更多的信息。在一个例子中,所述步长可以设置为不大于所述预设窗长的半。
例如,在本实施例中,可以以25ms作为窗长、10ms作为步长,采用汉宁窗对所述音频片段进行拆分。
第二,根据每个帧中振幅和时间的关系,通过短时傅里叶变换(short-timeFourier transform,STFT)将该帧中的数据转换至频域,表示为频率和振幅的关系后,再转置为频率随振幅变化的关系,获得每个帧的声谱。
在获得多个帧到声谱之后,将多个帧的声谱按照帧的时间排列成整个待识别音频的声谱图。在处理获得的声谱图中,横坐标每个时间点表示一个帧,纵坐标表示不同的频率,声谱图像上的点的值表示在某一时间点、某一频率上的声音振幅。
第三,通过预设阶数的梅尔标度滤波器组对所述多个帧的声谱图进行处理,获得该音频片段的梅尔频谱。例如,可以通过64阶的梅尔标度滤波器组对多个帧的声谱图进行处理,在处理获得的梅尔频谱的示意图中,纵坐标划分为64个频率的数值区间,横坐标为时间,梅尔频谱图中点的值表示某一时间点、某一频率区间上的声音振幅。
第四,对所述梅尔频谱进行倒谱分析处理,获得所述音频片段的梅尔倒谱系数频谱。通过倒谱分析处理,可以突出对人耳能识别频率且声音振幅较大的特征,更利于后续的识别分析。
可选地,在上述子步骤S122中,可以将所述音频片段的梅尔频率倒谱系数频谱拆分为多个大小相同的特征矩阵。例如,可以按照每10毫秒为1帧对步骤S121获得的梅尔倒谱系数频谱进行拆分,然后选取每100帧的数据组成一个100*64的矩阵,其中,矩阵横向对应为100个不同的帧,纵向为64个不同的频率区间,矩阵中的数据表示某一帧中、某一频率区间上声音的振幅大小。
接着,将所述多个特征矩阵输入视觉几何群VGG模型进行特征提取,获得所述音频片段的特征。例如,对于长度为4秒的音频片段,通过上述处理可以获得4个100*64的特征矩阵,再将4个特征矩阵输入VGGish模型后,可以提取获得4个128维的特征向量。
然后在图1所示的步骤S130中,可以将4个128维的特征向量嵌入为一个4*128维的向量输入训练好的分类模型进行分类识别。
可选地,在本实施例中,所述分类模型可以为基于注意力机制(AttentionMechanism)的多层卷积神经网络,通过所述分类模型可以获得每个音频片段是否为疑似特定音频片段的分类结果。
可选地,在本实施例中,可以预先对所述卷积神经网络和所述LSTM网络进行训练。
其中,训练过程可以包括:预先获取多个带有特定音频内容的样本音频和多个不带特定音频内容的样本音频,并为这些样本添加带有特定内容或不带特定内容的标签。接着采用图2所示步骤S120的方法获取这些样本音频特征。将这些样本音频到特征与其标签一起输入所示分类模型,以对所示分类模型进行训练。然后针对每个样本音频,将分类模型输出的结果与该样本音频的标签一起输入LSTM网络,以对所示LSTM网络进行训练。
如此,训练获得所示分类模型可以用于执行图3所示的步骤S130,训练获得的所述LSTM网络可用于执行图3所示的步骤S140。
请参照图6,图6为本实施例提供一种音频识别装置110的功能模块示意图,该音频识别装置可以包括音频获取模块111、特征提取模块112、分类模块113及识别模块114。
音频获取模块111,用于获取待识别音频,将所述待识别音频拆分为多个音频片段。
本实施例中,所述音频获取模块111可用于执行图3所示的步骤S110,关于所述音频获取模块111的具体描述可参对所述步骤S110的描述。
特征提取模块112,用于针对每个所述音频片段,获取所述音频片段的特征。
本实施例中,所述特征提取模块112可用于执行图3所示的步骤S120,关于所述特征提取模块112的具体描述可参对所述步骤S120的描述。
分类模块113,用于将所述音频片段的特征输入训练好的分类模型进行分类识别,获得该音频片段是否为疑似特定音频片段的分类结果。
本实施例中,所述分类模块113可用于执行图3所示的步骤S130,关于所述分类模块113的具体描述可参对所述步骤S130的描述。
识别模块114,用于将多个所述音频片段的分类结果输入长短期记忆网络LSTM网络进行处理,获得所述待识别音频是否为特定音频的识别结果。
本实施例中,所述识别模块114可用于执行图3所示的步骤S140,关于所述识别模块114的具体描述可参对所述步骤S140的描述。
综上所述,本申请提供一种音频识别方法、装置及数据处理设备,通过将待识别音频拆分为多个音频片段后,现针对每个音频片段进行是否为疑似特定音频片段的识别,使用LSTM网络对多个音频片段的分类结果进行整体分析,得出整个待识别音频是否为特定音频的识别结果。相较于现有技术中对整个音频进行整体识别的方式,本实施例提供的方案可以更为准确的识别待识别音频中占比很小的特定音频内容。
在本申请实施例所提供的几个实施例中,应该理解到,所揭露的装置和方法,也可以通过其它的方式实现。以上所描述的装置和方法实施例仅仅是示意性的,例如,附图中的流程图和框图显示了根据本申请的多个实施例的装置、方法和计算机程序产品的可能实现的体系架构、功能和操作。在这点上,流程图或框图中的每个方框可以代表一个模块、程序段或代码的一部分,所述模块、程序段或代码的一部分包含一个或多个用于实现规定的逻辑功能的可执行指令。也应当注意,在有些作为替换的实现方式中,方框中所标注的功能也可以以不同于附图中所标注的顺序发生。例如,两个连续的方框实际上可以基本并行地执行,它们有时也可以按相反的顺序执行,这依所涉及的功能而定。也要注意的是,框图和/或流程图中的每个方框、以及框图和/或流程图中的方框的组合,可以用执行规定的功能或动作的专用的基于硬件的系统来实现,或者可以用专用硬件与计算机指令的组合来实现。
另外,在本申请各个实施例中的各功能模块可以集成在一起形成一个独立的部分,也可以是各个模块单独存在,也可以两个或两个以上模块集成形成一个独立的部分。
所述功能如果以软件功能模块的形式实现并作为独立的产品销售或使用时,可以存储在一个计算机可读取存储介质中。基于这样的理解,本申请的技术方案本质上或者说对现有技术做出贡献的部分或者该技术方案的部分可以以软件产品的形式体现出来,该计算机软件产品存储在一个存储介质中,包括若干指令用以使得一台计算机设备(可以是个人计算机,电子设备,或者网络设备等)执行本申请各个实施例所述方法的全部或部分步骤。而前述的存储介质包括:U盘、移动硬盘、只读存储器(ROM,Read-Only Memory)、随机存取存储器(RAM,Random Access Memory)、磁碟或者光盘等各种可以存储程序代码的介质。需要说明的是,在本文中,术语“包括”、“包含”或者其任何其他变体意在涵盖非排他性的包含,从而使得包括一系列要素的过程、方法、物品或者设备不仅包括那些要素,而且还包括没有明确列出的其他要素,或者是还包括为这种过程、方法、物品或者设备所固有的要素。在没有更多限制的情况下,由语句“包括一个……”限定的要素,并不排除在包括所述要素的过程、方法、物品或者设备中还存在另外的相同要素。
以上所述仅为本申请的优选实施例而已,并不用于限制本申请,对于本领域的技术人员来说,本申请可以有各种更改和变化。凡在本申请的精神和原则之内,所作的任何修改、等同替换、改进等,均应包含在本申请的保护范围之内。
Claims (7)
1.一种音频识别方法,其特征在于,所述方法包括:
获取待识别音频,从所述待识别音频中剔除空白时间超过预设时间阈值的部分并将剩余部分拆分为多个音频片段;
针对每个所述音频片段,获取该音频片段的梅尔频率倒谱系数频谱;
将所述音频片段的梅尔频率倒谱系数频谱拆分为多个大小相同的特征矩阵;
将所述多个特征矩阵输入视觉几何群VGG模型进行特征提取,获得各所述特征矩阵对应的特征;
将各所述特征矩阵对应的特征进行拼接后,输入到VGGish模型获得所述音频片段的特征;
将所述音频片段的特征输入训练好的分类模型进行分类识别,获得该音频片段是否为疑似特定音频片段的分类结果;
将多个所述音频片段的分类结果输入长短期记忆网络LSTM网络进行处理,获得所述待识别音频是否为特定音频的识别结果。
2.根据权利要求1所述的方法,其特征在于,所述针对每个所述音频片段,获取该音频片段的梅尔频率倒谱系数频谱,包括:
针对每个所述音频片段,将该音频片段拆分为多个帧;
根据每个帧中振幅和时间的关系,通过短时傅里叶变换计算获得该待识别音频的声谱图;
通过预设阶数的梅尔标度滤波器组对所述多个帧的声谱图进行处理,获得该音频片段的梅尔频谱;
对所述梅尔频谱进行倒谱分析处理,获得所述音频片段的梅尔倒谱系数频谱。
3.根据权利要求2所述的方法,其特征在于,针对每个所述音频片段,按照预设窗长、预设步长对该音频片段进行拆分,包括:
按照预设窗长、预设步长,使用汉宁窗口对该音频片段进行拆分,其中,所述预设窗长不小于所述预设步长。
4.根据权利要求1所述的方法,其特征在于,所述针对每个所述音频片段,获取所述音频片段的特征的步骤之前,所述方法还包括:
对每个所述音频片段进行降采样并转化为单声道音频。
5.一种音频识别装置,其特征在于,包括:
音频获取模块,用于获取待识别音频,从所述待识别音频中剔除空白时间超过预设时间阈值的部分并将剩余部分拆分为多个音频片段;
特征提取模块,用于针对每个所述音频片段,获取该音频片段的梅尔频率倒谱系数频谱;
将所述音频片段的梅尔频率倒谱系数频谱拆分为多个大小相同的特征矩阵;
将所述多个特征矩阵输入视觉几何群VGG模型进行特征提取,获得各所述特征矩阵对应的特征;
将各所述特征矩阵对应的特征进行拼接后,输入到VGGish模型获得所述音频片段的特征;
分类模块,用于将所述音频片段的特征输入训练好的分类模型进行分类识别,获得该音频片段是否为疑似特定音频片段的分类结果;
识别模块,用于将多个所述音频片段的分类结果输入长短期记忆网络LSTM网络进行处理,获得所述待识别音频是否为特定音频的识别结果。
6.一种数据处理设备,其特征在于,包括机器可读存储介质及处理器,所述机器可读存储介质存储有机器可执行指令,所述机器可执行指令在被所述处理器执行时,实现权利要求1-4任意一项所述的方法。
7.一种机器可读存储介质,其特征在于,所述机器可读存储介质存储有机器可执行指令,所述机器可执行指令在被处理器执行时,实现权利要求1-4任意一项所述的方法。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN201911072080.0A CN110782920B (zh) | 2019-11-05 | 2019-11-05 | 音频识别方法、装置及数据处理设备 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN201911072080.0A CN110782920B (zh) | 2019-11-05 | 2019-11-05 | 音频识别方法、装置及数据处理设备 |
Publications (2)
Publication Number | Publication Date |
---|---|
CN110782920A CN110782920A (zh) | 2020-02-11 |
CN110782920B true CN110782920B (zh) | 2021-09-21 |
Family
ID=69389281
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN201911072080.0A Active CN110782920B (zh) | 2019-11-05 | 2019-11-05 | 音频识别方法、装置及数据处理设备 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN110782920B (zh) |
Families Citing this family (13)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN111402920B (zh) * | 2020-03-10 | 2023-09-12 | 同盾控股有限公司 | 娇喘音频的识别方法及装置、终端、存储介质 |
CN111540364A (zh) * | 2020-04-21 | 2020-08-14 | 同盾控股有限公司 | 音频识别方法、装置、电子设备及计算机可读介质 |
CN113992970A (zh) * | 2020-07-27 | 2022-01-28 | 阿里巴巴集团控股有限公司 | 视频数据处理方法、装置、电子设备及计算机存储介质 |
CN111816170B (zh) * | 2020-07-29 | 2024-01-19 | 杭州网易智企科技有限公司 | 一种音频分类模型的训练和垃圾音频识别方法和装置 |
CN112259078A (zh) * | 2020-10-15 | 2021-01-22 | 上海依图网络科技有限公司 | 一种音频识别模型的训练和非正常音频识别的方法和装置 |
CN112270933B (zh) * | 2020-11-12 | 2024-03-12 | 北京猿力未来科技有限公司 | 一种音频识别方法和装置 |
CN112669850A (zh) * | 2020-12-23 | 2021-04-16 | 平安普惠企业管理有限公司 | 语音质量检测方法、装置、计算机设备及存储介质 |
CN112667828B (zh) * | 2020-12-31 | 2022-07-05 | 福建星网视易信息系统有限公司 | 一种音频可视化方法及终端 |
CN113326760B (zh) * | 2021-05-26 | 2023-05-09 | 上海哔哩哔哩科技有限公司 | 视频分类方法及装置 |
CN115600084A (zh) * | 2022-10-18 | 2023-01-13 | 浙江大学(Cn) | 声非视距信号识别方法及装置、电子设备、存储介质 |
CN115964582B (zh) * | 2022-11-03 | 2023-09-19 | 太平洋电信股份有限公司 | 一种网络安全风险评估方法及系统 |
CN116546264B (zh) * | 2023-04-10 | 2024-08-30 | 北京度友信息技术有限公司 | 视频处理方法及装置、电子设备和存储介质 |
CN117558296B (zh) * | 2024-01-11 | 2024-04-09 | 腾讯科技(深圳)有限公司 | 目标音频识别模型的确定方法、装置及计算设备 |
Citations (6)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
US5956463A (en) * | 1993-06-15 | 1999-09-21 | Ontario Hydro | Audio monitoring system for assessing wildlife biodiversity |
CN108172213A (zh) * | 2017-12-26 | 2018-06-15 | 北京百度网讯科技有限公司 | 娇喘音频识别方法、装置、设备及计算机可读介质 |
CN109431507A (zh) * | 2018-10-26 | 2019-03-08 | 平安科技(深圳)有限公司 | 基于深度学习的咳嗽疾病识别方法及装置 |
CN109949824A (zh) * | 2019-01-24 | 2019-06-28 | 江南大学 | 基于N-DenseNet和高维mfcc特征的城市声音事件分类方法 |
CN110047510A (zh) * | 2019-04-15 | 2019-07-23 | 北京达佳互联信息技术有限公司 | 音频识别方法、装置、计算机设备及存储介质 |
CN110189769A (zh) * | 2019-05-23 | 2019-08-30 | 复钧智能科技(苏州)有限公司 | 基于多个卷积神经网络模型结合的异常声音检测方法 |
Family Cites Families (6)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN107133974B (zh) * | 2017-06-02 | 2019-08-27 | 南京大学 | 高斯背景建模与循环神经网络相结合的车型分类方法 |
CN108921811B (zh) * | 2018-04-03 | 2020-06-30 | 阿里巴巴集团控股有限公司 | 检测物品损伤的方法和装置、物品损伤检测器 |
CN109101876A (zh) * | 2018-06-28 | 2018-12-28 | 东北电力大学 | 基于长短时记忆网络的人体行为识别方法 |
CN109346061B (zh) * | 2018-09-28 | 2021-04-20 | 腾讯音乐娱乐科技(深圳)有限公司 | 音频检测方法、装置及存储介质 |
CN109378010A (zh) * | 2018-10-29 | 2019-02-22 | 珠海格力电器股份有限公司 | 神经网络模型的训练方法、语音去噪方法及装置 |
US11544463B2 (en) * | 2019-05-09 | 2023-01-03 | Intel Corporation | Time asynchronous spoken intent detection |
-
2019
- 2019-11-05 CN CN201911072080.0A patent/CN110782920B/zh active Active
Patent Citations (6)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
US5956463A (en) * | 1993-06-15 | 1999-09-21 | Ontario Hydro | Audio monitoring system for assessing wildlife biodiversity |
CN108172213A (zh) * | 2017-12-26 | 2018-06-15 | 北京百度网讯科技有限公司 | 娇喘音频识别方法、装置、设备及计算机可读介质 |
CN109431507A (zh) * | 2018-10-26 | 2019-03-08 | 平安科技(深圳)有限公司 | 基于深度学习的咳嗽疾病识别方法及装置 |
CN109949824A (zh) * | 2019-01-24 | 2019-06-28 | 江南大学 | 基于N-DenseNet和高维mfcc特征的城市声音事件分类方法 |
CN110047510A (zh) * | 2019-04-15 | 2019-07-23 | 北京达佳互联信息技术有限公司 | 音频识别方法、装置、计算机设备及存储介质 |
CN110189769A (zh) * | 2019-05-23 | 2019-08-30 | 复钧智能科技(苏州)有限公司 | 基于多个卷积神经网络模型结合的异常声音检测方法 |
Non-Patent Citations (2)
Title |
---|
基于改进投票机制的音乐流派分类方法研究;杨翠丽等;《计算机工程》;20080531;第3节 * |
基于深度学习的音乐流派分类方法的研究;袁斌;《中国优秀硕士学位论文全文数据库 信息科技辑》;20190715;第4.2-4.3节 * |
Also Published As
Publication number | Publication date |
---|---|
CN110782920A (zh) | 2020-02-11 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
CN110782920B (zh) | 音频识别方法、装置及数据处理设备 | |
CN109473123B (zh) | 语音活动检测方法及装置 | |
CN111128223B (zh) | 一种基于文本信息的辅助说话人分离方法及相关装置 | |
WO2021128741A1 (zh) | 语音情绪波动分析方法、装置、计算机设备及存储介质 | |
CN102568478B (zh) | 一种基于语音识别的视频播放控制方法和系统 | |
EP3701528B1 (en) | Segmentation-based feature extraction for acoustic scene classification | |
Sadjadi et al. | Mean Hilbert envelope coefficients (MHEC) for robust speaker and language identification | |
CN105244026B (zh) | 一种语音处理方法及装置 | |
CN103943104B (zh) | 一种语音信息识别的方法及终端设备 | |
WO2019148586A1 (zh) | 多人发言中发言人识别方法以及装置 | |
US20210193169A1 (en) | Emotion detection in audio interactions | |
US9058384B2 (en) | System and method for identification of highly-variable vocalizations | |
CN110324726B (zh) | 模型生成、视频处理方法、装置、电子设备及存储介质 | |
CN106548786B (zh) | 一种音频数据的检测方法及系统 | |
CN108364656B (zh) | 一种用于语音重放检测的特征提取方法及装置 | |
CN108877779B (zh) | 用于检测语音尾点的方法和装置 | |
EP3504708B1 (en) | A device and method for classifying an acoustic environment | |
CN109634554B (zh) | 用于输出信息的方法和装置 | |
CN112289340B (zh) | 音频检测方法及装置 | |
CN113823258A (zh) | 一种语音处理方法及装置 | |
CN117877510A (zh) | 语音自动化测试的方法、装置、电子设备及存储介质 | |
CN115331703A (zh) | 一种歌曲人声检测方法及装置 | |
CN113921042A (zh) | 语音脱敏方法、装置、电子设备及存储介质 | |
CN115396549A (zh) | 通话违规业务处理方法、装置及电子设备 | |
US20160163354A1 (en) | Programme Control |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination | ||
GR01 | Patent grant | ||
GR01 | Patent grant |