CN114171029B

CN114171029B - 音频识别方法、装置、电子设备和可读存储介质

Info

Publication number: CN114171029B
Application number: CN202111484928.8A
Authority: CN
Inventors: 刘柏基; 吴振宗; 曾志平; 徐易楠; 康世胤
Original assignee: Guangzhou Huya Technology Co Ltd
Current assignee: Guangzhou Huya Technology Co Ltd
Priority date: 2021-12-07
Filing date: 2021-12-07
Publication date: 2025-03-14
Anticipated expiration: 2041-12-07
Also published as: CN114171029A

Abstract

本申请提供一种音频识别方法、装置、电子设备和可读存储介质，首先利用预先构建的第一过滤模型对待识别音频中的第一类噪声进行过滤得到第一识别音频，第一类噪声为非语音噪声。再利用预先构建的第二过滤模型对第一识别音频中的第二类噪声进行过滤得到第二识别音频，第一识别音频中包含目标语音和非目标语音，第二类噪声属于非目标语音。最后，将第二识别音频导入预先构建的识别模型，对第二识别音频中的目标语音进行处理得到对应的文本。该方案，预先对非语音噪声和属于非目标语音的噪声进行过滤处理，降低了语音识别的处理压力且排除各类噪声的干扰，对于较长时长且掺杂噪声的音频识别处理有较佳效果。

Description

音频识别方法、装置、电子设备和可读存储介质

技术领域

本申请涉及音频处理技术领域，具体而言，涉及一种音频识别方法、装置、电子设备和可读存储介质。

背景技术

随着多媒体技术的发展，音频识别以及文本的转换需求较大。目前的音频识别处理方式在处理较短时长的音频时能够达到较佳效果，但是对于掺杂有噪声的、较长时长的音频的处理时，一则由于对于噪声的处理方式不够完善导致后续识别造成障碍，另则由于在语音识别阶段要处理较大体量的语音的识别转换，造成识别压力过大。因此，导致对于较长时长且掺杂噪声的音频处理效果不佳。

发明内容

本申请的目的包括，例如，提供了一种音频识别方法、装置、电子设备和可读存储介质，其能够降低语音识别的处理压力且排除各类噪声的干扰，对于较长时长且掺杂噪声的音频识别处理有较佳效果。

本申请的实施例可以这样实现：

第一方面，本申请提供一种音频识别方法，所述方法包括：

利用预先构建的第一过滤模型对待识别音频中的第一类噪声进行过滤得到第一识别音频，所述第一类噪声为非语音噪声；

利用预先构建的第二过滤模型对所述第一识别音频中的第二类噪声进行过滤得到第二识别音频，所述第一识别音频包含目标语音和非目标语音，所述第二类噪声属于所述非目标语音；

将所述第二识别音频导入预先构建的识别模型，对所述第二识别音频中的目标语音进行处理得到对应的文本。

在可选的实施方式中，所述利用预先构建的第一过滤模型对待识别音频中的第一类噪声进行过滤得到第一识别音频的步骤，包括：

利用预先构建的第一过滤模型对待识别音频中包含的各帧音频帧进行音量检测；

将检测得到的音量低于预设音量的音频帧确定为第一类噪声，并将确定为第一类噪声的音频帧从所述待识别音频中截取并滤除，得到第一识别音频。

在可选的实施方式中，所述利用预先构建的第二过滤模型对所述第一识别音频中的第二类噪声进行过滤得到第二识别音频的步骤，包括：

利用预先构建的第二过滤模型，从所述第一识别音频中第一个音频帧开始进行解码，获得对应的音频特征；

在解码到音频帧的音频特征表征为非目标语音，且从该音频帧开始存在设定帧的音频帧的音频特征表征为非目标语音时，将该设定帧的音频帧确定为第二类噪声，其中，所述设定帧超过预设阈值；

将所述设定帧的音频帧从第一识别音频中截取并滤除，并继续后续音频帧的处理直至完成第一识别音频的处理。

在可选的实施方式中，所述第二过滤模型中保存有解码后的音频帧的语义上下文信息；

所述继续后续音频帧的处理直至完成第一识别音频的处理的步骤之前，所述利用预先构建的第二过滤模型对所述第一识别音频中的第二类噪声进行过滤得到第二识别音频的步骤，还包括：

将所述第二过滤模型中保存的语义上下文信息进行初始化。

在可选的实施方式中，所述将所述第二识别音频导入预先构建的识别模型，对所述第二识别音频中的目标语音进行处理得到对应的文本的步骤，包括：

在所述第二识别音频中存在音频帧的音频特征表征为非目标语音且连续帧数低于预设阈值时，确定出所述第二识别音频中音频特征表征为目标语音的音频帧；

获得确定出的音频特征表征为目标语音的音频帧对应的文本。

利用预先构建的第二过滤模型识别出所述第一识别音频中表征为目标语音的音频帧和非目标语音的音频帧；

从识别出的非目标语音的音频帧中确定出第二类噪声，并从识别出的目标语音的音频帧中确定出空白帧；

将所述第二类噪声和所述空白帧从所述第一识别音频中截取并滤除。

在可选的实施方式中，所述第二过滤模型为预先基于包含目标语音和非目标语音的多个训练样本训练获得；

各所述训练样本中的第二类噪声标记有起始符和结束符，所述第二类噪声由多个非目标语音的音频帧构成，所述第二过滤模型通过解码各所述训练样本中第二类噪声的起始符和结束符进行训练。

在可选的实施方式中，各所述训练样本中的第二类噪声还标记有噪声标签，所述噪声标签标识所述第二类噪声的类型。

第二方面，本申请提供一种音频识别装置，所述装置包括：

第一过滤模块，用于利用预先构建的第一过滤模型对待识别音频中的第一类噪声进行过滤得到第一识别音频，所述第一类噪声为非语音噪声；

第二过滤模块，用于利用预先构建的第二过滤模型对所述第一识别音频中的第二类噪声进行过滤得到第二识别音频，所述第一识别音频包含目标语音和非目标语音，所述第二类噪声属于所述非目标语音；

处理模块，用于将所述第二识别音频导入预先构建的识别模型，对所述第二识别音频中的目标语音进行处理得到对应的文本。

第三方面，本申请提供一种电子设备，包括一个或多个存储介质和一个或多个与存储介质通信的处理器，一个或多个存储介质存储有处理器可执行的机器可执行指令，当电子设备运行时，处理器执行所述机器可执行指令，以执行前述实施方式中任意一项所述的方法步骤。

第四方面，本申请提供一种计算机可读存储介质，所述计算机可读存储介质存储有机器可执行指令，所述机器可执行指令被执行时实现前述实施方式中任意一项所述的方法步骤。

本申请实施例的有益效果包括，例如：

附图说明

为了更清楚地说明本申请实施例的技术方案，下面将对实施例中所需要使用的附图作简单地介绍，应当理解，以下附图仅示出了本申请的某些实施例，因此不应被看作是对范围的限定，对于本领域普通技术人员来讲，在不付出创造性劳动的前提下，还可以根据这些附图获得其他相关的附图。

图1为本申请实施例提供的音频识别方法的应用场景示意图；

图2为本申请实施例提供的音频识别方法的流程图；

图3为本申请实施例提供的待识别音频的处理示意图；

图4为本申请实施例提供的待识别音频的另一处理示意图；

图5为图2中步骤S101包含的子步骤的流程图；

图6为图2中步骤S102包含的子步骤的流程图；

图7为图2中步骤S102包含的子步骤的另一流程图；

图8为图2中步骤S103包含的子步骤的流程图；

图9为本申请实施例提供的电子设备的结构框图；

图10为本申请实施例提供的音频识别装置的功能模块框图。

图标：100-直播提供端；200-直播服务器；300-直播接收端；410-存储器；420-处理器；430-音频识别装置；431-第一过滤模块；432-第二过滤模块；433-处理模块。

具体实施方式

为使本申请实施例的目的、技术方案和优点更加清楚，下面将结合本申请实施例中的附图，对本申请实施例中的技术方案进行清楚、完整地描述，显然，所描述的实施例是本申请一部分实施例，而不是全部的实施例。通常在此处附图中描述和示出的本申请实施例的组件可以以各种不同的配置来布置和设计。

因此，以下对在附图中提供的本申请的实施例的详细描述并非旨在限制要求保护的本申请的范围，而是仅仅表示本申请的选定实施例。基于本申请中的实施例，本领域普通技术人员在没有作出创造性劳动前提下所获得的所有其他实施例，都属于本申请保护的范围。

应注意到：相似的标号和字母在下面的附图中表示类似项，因此，一旦某一项在一个附图中被定义，则在随后的附图中不需要对其进行进一步定义和解释。

在本申请的描述中，需要说明的是，若出现术语“第一”、“第二”等仅用于区分描述，而不能理解为指示或暗示相对重要性。

需要说明的是，在不冲突的情况下，本申请的实施例中的特征可以相互结合。

本申请提供的音频识别方法可以适用于多种应用场景，例如通讯软件中用户音频转换为对应文本、监控场景下场景音频转换为对应文本或网络直播场景下主播侧的音频转换为对应文本等。本申请提供的音频识别方法可以对多种应用场景下采集到的音频信息进行过滤处理，以滤除其中的各种噪声，以保留下所需的语音部分，从而进行识别处理。

请参阅图1，为本申请实施例提供的一种可能的应用场景示意图，该应用场景中包括直播提供端100、直播接收端300和与该直播提供端100和该直播接收端300分别通信连接的直播服务器200。

其中，所述直播提供端100可以为主播在直播时使用的终端设备(如智能手机、平板电脑、个人计算机等)，所述直播接收端300可以为观众在观看直播时使用的终端设备(如智能手机、平板电脑、个人计算机等)。

本实施例中，在该场景中还可以包括用于采集音频的音频采集设备，其中，音频采集设备可以直接安装或集成于直播提供端100。例如，音频采集设备可以是配置在直播提供端100上的麦克风，直播提供端100中的其他模块或组件可以经由内部总线接收从音频采集设备处发送的音频信息。或者，音频采集设备也可以独立于直播提供端100，两者之间通过有线或无线的方式进行通信。

直播提供端100可以将直播视频流发送至直播服务器200，观众可以通过直播接收端300访问直播服务器200以观看直播视频。同时，直播提供端发送的直播视频流中携带有音频信息，如音频采集设备采集到的音频信息，包括如主播的语音、场景中的背景音、设备所发出的音频等，直播服务器200可以对其中的音频信息进行处理，从而生成对应的文本，以便于后续生成对应的字幕等。或者音频信息的识别处理也可以在直播提供端100进行，直播提供端100将识别结果发送至直播服务器200，经由直播服务器200转发至直播接收端300。

需要说明的是，上述仅为本申请的音频识别方法一种可能的应用场景，并非将音频识别方法的应用场景限定于此。

请参阅图2，本申请实施例还提供一种可应用于电子设备的音频识别方法，该电子设备可以是上述的直播提供端100，也可以是上述直播服务器200。所述音频识别方法有关的流程所定义的方法步骤可以由所述电子设备实现。下面将对图2所示的具体流程进行详细阐述。

S101，利用预先构建的第一过滤模型对待识别音频中的第一类噪声进行过滤得到第一识别音频，所述第一类噪声为非语音噪声。

S102，利用预先构建的第二过滤模型对所述第一识别音频中的第二类噪声进行过滤得到第二识别音频，所述第一识别音频包含目标语音和非目标语音，所述第二类噪声属于所述非目标语音。

S103，将所述第二识别音频导入预先构建的识别模型，对所述第二识别音频中的目标语音进行处理得到对应的文本。

以网络直播应用场景为例，获得的待识别音频可以是主播在进行直播过程中音频采集设备采集到的音频，在该音频信息中包含主播的语音，此外还可能包含主播所处环境的环境音，例如若主播是在街道上进行现场直播，则可能包含较多的背景音。此外，在待识别音频中可能还包含直播提供端100本身所发出的音频，例如，在进行游戏直播的过程中，除了主播的语音之外，还包括设备发出的游戏的音频，例如游戏中的音效、游戏中人物发出的语音等。

在例如网络直播应用场景中，需要处理的待识别音频往往是较长时长的音频段，例如一个小时、两个小时等。若对待识别音频不作任何处理，直接执行后续的语音识别操作，较长时长的音频段的识别处理将造成较大的处理负担，并且其中的多种噪声也对识别造成干扰。

本实施例中，请结合参阅图3，首先，将采集到的待识别音频导入至预先构建的第一过滤模型中，通过该第一过滤模型可以对待识别音频中的第一类噪声进行过滤。其中，第一类噪声可以是非语音噪声，例如上述的环境音、背景音、游戏的音效以及音频中的静音等。也即，第一过滤模型可以针对性地对待识别音频中的第一类噪声进行过滤处理。

由上述可知，待识别音频中除了包含环境音等噪声之外，可能还包含类似主播语音的人声，例如上述的游戏中的人物发出的语音。这类语音同样是人声，但是后续需要针对性地对主播语音进行识别并文本转换，而这类语音并非是后续的处理对象。因此，在上述基础上，将通过第一过滤模型得到的第一识别音频导入到预先构建的第二过滤模型，从而对第一识别音频中的第二类噪声进行过滤。其中，第一识别音频中包含目标语音和非目标语音，其中，目标语音即为如后续需要进行识别处理的人声对象，例如主播的语音，而非目标语音即为虽然为人声，但并非后续需要识别处理的人声对象，例如上述的游戏中人物的语音等。

通过上述处理后，可以将待识别音频中的非语音噪声以及非目标语音进行过滤，仅保留下待识别音频中的目标语音。最后，可以利用预先构建的识别模型对第二识别音频中的目标语音进行处理得到对应的文本。

本实施例所提供的音频识别方法，不仅可以对待识别音频中的如环境音、背景音、设备音效等非语音噪声进行过滤处理，还可以对其中的如游戏人物的非目标语音进行过滤处理，从而仅保留下所需的目标语音。如此，可以有效过滤掉各种无意义的噪声，可以避免各类噪声对后续语音识别处理造成的干扰，显著降低误识别。同时，还可以避免需要对较长时长的音频处理的场景下，由于对噪声的过滤不完善导致识别转换阶段处理体量较大，避免系统对无意义音频的冗余计算，避免造成较大的处理负担的问题。

本实施例中，以下首先对预先构建第一过滤模型、第二过滤模型和识别模型的过程进行介绍。

本实施例中，第一过滤模型可以采用VAD(Voice Activity Detection，语音活动检测)算法构建得到。VAD模型可以从一段音频中标识出语音片段和非语音片段。VAD模型可以采用硬性指标检测方法进行噪声过滤，也可以采用基于神经网络模型进行机器学习的方式以进行噪声的识别。

其中，采用硬性指标检测方式时，可以通过检测音量大小、持续时间等以识别语音片段和非语音片段。采用该检测方式时，VAD模型预先可无需进行训练，在应用阶段直接采用检测相关硬性指标实现识别。

而采用基于神经网络模型的方式时，可以预先构建神经网络模型，包括但不限于径向基网络模型、循环神经网络模型、长短期记忆模型等，并采集包含非语音噪声的音频训练样本，例如在历史阶段产生的网络直播场景下主播侧的音频信息作为训练样本。对于其中的非语音噪声进行标签标记，并利用训练样本对构建的神经网络模型进行训练，直至训练满足设定要求时，得到基于神经网络模型训练得到的VAD模型。

本实施例中，VAD模型采用硬性指标检测方式时，可以通过音量大小、持续时间等方式检测出音频中的非语音噪声。VAD模型采用基于神经网络模型训练得到时，可以有效识别出音频中的语音片段和非语音片段。并且，对于小音量的音频比较敏感，可以识别出音频中的小音量的音频。也即，结合两种不同的方式所得到的VAD模型，可以有效地对音频中的如小音量的背景音、环境音、静音(无音量)以及其他一些非语音等进行检测识别。

在上述基础上，本实施例还可预先训练得到第二过滤模型以及识别模型，其中，第二过滤模型和识别模型可以是由ASR(Automatic Speech Recognition，自动语音识别技术)所构建的联合模型。

对于ASR系统中的第二过滤模型，可以预先建立神经网络模型，并利用包含目标语音和非目标语音的多个训练样本进行训练获得对建立的神经网络模型进行训练，其中，所采用的训练样本可以是由上述的第一过滤模型所输出的结果。第一过滤模型仅能识别并过滤掉训练样本中的非语音片段。也即，针对第二过滤模型训练所采用的训练样本中包含目标语音和非目标语音。可以对训练样本中的非目标语音，也即上述的第二类噪声进行标签标记。利用携带标签标记的训练样本对建立的神经网络模型进行训练，进而得到满足要求的第二过滤模型。当然，也可以采用其他采集的包含非目标语音的训练样本。第二过滤模型的训练过程中，模型可以对训练样本中的非目标语音进行识别，并且对非目标语音进行过滤。

其中，由于非目标语音也往往是持续一定时长的语音段，为了能够对非目标语音以语音段的方式进行标记，对于训练样本中的第二类噪声，各训练样本中的第二类噪声标记有起始符和结束符，第二类噪声由多个非目标语音的音频帧构成，第二过滤模型可通过解码各训练样本中的第二类噪声的起始符和结束符进行训练。

其中，对于一段持续的第二类噪声，起始符标记在第二类噪声的起始音频帧、结束符标记在第二类噪声的结束音频帧。例如，起始符可以标记为“<s>”，结束符可以标记为“</s>”。起初符和结束符都是控制字符，可以用于引导模型正确解码。

第二过滤模型在训练阶段，对于输入的训练样本，可以对各个音频帧进行特征识别并解码，若解码到起始符则表明从对应音频帧开始为非目标语音，若后续的音频帧持续为非目标语音并直至解码到结束符，则意味着这一段均为非目标语音，可以确定为第二类噪声，并将其过滤。若第二过滤模型在训练阶段，在对输入的训练样本进行解码过程中，若解码到起始符，但是在并未解码到结束符时，即解码到目标语音，表明在起初符和结束符对应的一段音频片段内，存在音频帧既包含非目标语音还包括非目标语音。在此种情形下，可以统计其中单纯的非目标语音的时长，若时长达到一定长度，则可以确定其中单纯的非目标语音为第二类噪声，并将第二类噪声进行过滤。

此外，第二过滤模型还可以通过学习音频训练样本中的音频的语义的上下文信息，从而识别出目标语音和非目标语音。由于目标语音为如主播的语音等语音段，目标语音在语义表达上一般是存在上下文之间的连贯性、逻辑性的。而非目标语音在语义表达上一般不具有明显的连贯性。因此，通过学习音频的上下文信息的方式，则可以用于后续在实际应用阶段，可结合解码待识别音频的语义上下文信息，进行目标语音和非目标语音的识别。

本实施例中，所采用的训练样本可以是采集的包含多种不同噪声类型的样本，例如掺杂有游戏人物的语音的训练样本、掺杂音乐播放时的语音的训练样本等，这些不同的语音的噪声在音频特征上存在一定差别，本实施例中，各个训练样本中的第二类噪声还标记有噪声标签，噪声标签可以标识第二类噪声的类型。

如此，在第二过滤模型的训练阶段，还可以基于训练样本标记的噪声标签，学习不同噪声类型的训练样本的特征信息，后续在实际应用阶段，第二过滤模型不仅可以过滤掉音频中的第二类噪声，还可以识别出第二类噪声具体的噪声类型，以用于运营对于直播平台的管理等。

在上述基础上，ASR系统中的识别模型的训练阶段，可以采集包含有各类噪声的训练样本。其中，训练样本中除了包含各类噪声还包含目标语音，训练识别模型的目的是为了可以将其中的目标语音转换为对应的文本。本实施例中，可以对训练样本中的目标语音进行标签标记，标签可以是具体的文本信息，利用标记有文本信息的训练样本进行识别模型的训练，从而可以使得识别模型可以学习到目标语音和文本之间的映射关系。

以上过程为预先进行第一过滤模型、第二过滤模型和识别模型的训练过程，在训练得到满足要求的模型后，可以将其应用于实际应用阶段的对待识别音频的识别处理。

请参阅图4，对应上述实施方式，在利用基于VAD模型、ASR系统进行待识别音频的识别时，首先，待识别音频输入到VAD模型中，对其中的第一类噪声进行截断并滤除得到第一识别音频，将第一识别音频输入到ASR系统中，首先在ASR系统中对第二类噪声进行截断并滤除得到第二识别音频，再对第二识别音频进行语音识别，以输出对应的文本。

由上述可知，第一过滤模型可以基于硬性指标检测方式实现噪声检测、也可以基于由神经网络模型训练得到的模型进行噪声检测。

请参阅图5，作为一种可能的实现方式，在利用第一过滤模型进行第一类噪声的过滤时，可以通过以下方式实现：

S1011，利用预先构建的第一过滤模型对待识别音频中包含的各帧音频帧进行音量检测。

S1012，将检测得到的音量低于预设音量的音频帧确定为第一类噪声，并将确定为第一类噪声的音频帧从所述待识别音频中截取并滤除，得到第一识别音频。

对于如环境音、背景音这类噪声，其音量往往是较低的，而VAD模型对于小音量的音频具有敏感性，可以检测出小音量的音频。因此，可以采用预先建立的VAD模型形式的第一过滤模型，检测出待识别音频中音量低于预设音量的音频帧，作为第一类噪声并进行过滤。并且，VAD模型还可以识别出语音片段和非语音片段，因此，除了可以检测出音量较低的音频外，还可以识别出其中的非语音片段，并作为第一类噪声。

在对第一类噪声进行过滤时，假设从5s到10s被检测为第一类噪声，可以将待识别音频从第5s的音频帧前、第10s的音频帧后进行截断，将截取的第5s至第10s的音频段从待识别音频中去除，并将截断处进行拼接，从而得到过滤掉第一类噪声的第一识别音频。

在此基础上，可以利用预先训练得到的第二过滤模型，对第一识别音频进行解码处理，从而过滤其中的第二类噪声。请参阅图6，本实施例中，该步骤可以通过以下方式实现：

S1021A，利用预先构建的第二过滤模型，从所述第一识别音频中第一个音频帧开始进行解码，获得对应的音频特征。

S1022A，在解码到音频帧的音频特征表征为非目标语音，且从该音频帧开始存在设定帧的音频帧的音频特征表征为非目标语音时，将该设定帧的音频帧确定为第二类噪声，其中，所述设定帧超过预设阈值。

S1023A，将所述设定帧的音频帧从第一识别音频中截取并滤除，并继续后续音频帧的处理直至完成第一识别音频的处理。

由上述可知，预先对第二过滤模型进行训练时，第二过滤模型可以学习到非目标语音的特征信息以及目标语音的特征信息。针对输入到第二过滤模型中的第一识别音频，第二过滤模型可从第一个音频帧开始进行解码，并逐次获得各个音频帧对应的音频特征。

第二过滤模型可基于解码后得到的音频特征判断音频帧为非目标语音还是目标语音。本实施例中，考虑到若非目标语音持续时间很短，对后续的语音识别并不会造成很大的干扰，并且若每遇到非目标语音即进行截断处理，也将造成过滤截断的处理负担。因此，本实施例中，在解码到音频帧为非目标语音并且从该音频帧开始存在设定帧的音频帧均为非目标语音时，才确定该设定帧的音频帧为第二类噪声，也即需要过滤掉的噪声。

其中，设定帧为超过预设阈值，例如预设阈值可为5帧，则设定帧可为6帧、7帧、8帧等不限。

例如，预设阈值设置为5帧，若从第一识别音频中的第5帧音频帧确定为非目标语音，并且从第6帧至第10帧均为非目标语音，则可以将第5帧至第10帧确定为第二类噪声，并将该段第二类噪声进行过滤。若第5帧至第9帧确定为非目标语音，但是从第10帧开始为目标语音，则第5帧至第9帧并不确定为第二类噪声，仍保留在第一识别音频中。

需要说明的是，利用第二过滤模型过滤掉的音频帧为仅包含非目标语音的音频帧，若某个音频帧既表征为目标语音、也表征为非目标语音，则该音频帧应当判定为目标语音。在过滤时，若第5帧到第15帧为非目标语音，例如第5帧到第15帧持续有游戏人物的语音信息，但是从第11帧到15帧同时表征为目标语音，表明在第11帧至15帧内既有如主播的语音也有如游戏中的人物语音，则可截取第5帧到10帧确定为第二类噪声，并进行滤除。

通过上述方式，可以在保障不对后续音频识别造成较大干扰的前提下，避免过滤阶段过多的处理负担。

本实施例中，由上述可知，第二过滤模型可以通过学习音频的语义上下文信息来进行目标语音、非目标语音的识别。在第二过滤模型处理第一识别音频的过程中，将获得解码后的音频帧的语义上下文信息。

在确定出第一识别音频中的第二类噪声并进行截取和滤除后，一般性地，从截取处往后，在语义上下文的连贯性上可能存在断节。为了避免由于之前的语义上下文对于后续音频的解码处理的影响，可以将第二过滤模型中保存的语义上下文信息进行初始化，也即对第二过滤模型的解码状态进行重置，然后再继续后续音频帧的处理直至完成第一识别音频的处理。

本实施例中，基于上述方式可以通过第二过滤模型将第一识别音频中的非目标语音进行过滤。然而，由于中文语音表达中字与字、词与词之间存在短暂停顿，因此，目标语音的音频帧存在对应该短暂停顿的音频帧，这类音频帧实质为静音。因此，为了进一步降低后续的语音识别的处理工作量，请参阅图7，在一种可能的实现方式中，在利用第二过滤模型进行过滤处理时，可以通过以下方式实现：

S1021B，利用预先构建的第二过滤模型识别出所述第一识别音频中表征为目标语音的音频帧和非目标语音的音频帧。

S1022B，从识别出的非目标语音的音频帧中确定出第二类噪声，并从识别出的目标语音的音频帧中确定出空白帧。

S1023B，将所述第二类噪声和所述空白帧从所述第一识别音频中截取并滤除。

本实施例中，在利用上述方式确定出第一识别音频中的第二类噪声的基础上，还可识别出目标语音的音频帧中的空白帧。从而将第二类造成和空白帧从第一识别音频中滤除。

其中，可以在第二过滤模型中加入CTC算法，一种端到端语音识别方法。CTC算法可以建立音频和文字的序列映射关系，通过CTC算法的损失函数可以逐帧输出音频帧的分类标签，从而确定出其中的空白帧，并将空白帧从音频段中截取并滤除。

本实施例中，结合上述空白帧滤除的方式，可以将第一过滤模型过滤阶段所遗漏的静音检测出来，进一步降低后续语音识别的处理量。

在经过以上方式获得第二识别音频后，可以利用识别模型对第二识别音频中的目标语音进行处理得到对应的文本。由上述可知，得到的第二识别音频中可能存在一些非目标语音但未判定为第二类噪声的音频帧，也即持续时间很短的非目标语音。在此情形下，请参阅图8，在进行文本转换时，可以通过以下方式实现：

S1031，在所述第二识别音频中存在音频帧的音频特征表征为非目标语音且连续帧数低于预设阈值时，确定出所述第二识别音频中音频特征表征为目标语音的音频帧。

S1032，获得确定出的音频特征表征为目标语音的音频帧对应的文本。

本实施例中，在第二识别音频中包含有目标语音和非目标语音的音频帧时，则确定出其中的目标语音。在进行文本转换时，仅对其中目标语音进行转换即可，而非目标语音不进行文本输出，如此，可以避免一些不必要的工作量，并且，避免输出文本上无意义语义造成的干扰。

本实施例所提供的音频识别方法，可以通过基于VAD模型所构成的第一过滤模型对非语音噪声进行过滤，利用VAD模型对于音量等硬性指标的检测优势和语义识别上的处理优势，分级截断、处理音频，有效过滤掉音频中的非语音噪声。此外，结合ASR系统中的第二过滤模型对非目标语音进行过滤。

利用VAD模型对于小音量的敏感性实现一些背景音、环境音、静音的滤除，可以弥补ASR系统对于小音量不敏感的缺陷，避免利用ASR系统处理极小音量的背景声等而影响整个系统识别效果的问题。并且，VAD模型相较而言模型体积较小，可以避免单纯依赖ASR系统处理音频而需要较大计算量的问题。

针对识别模型的语音识别阶段，可以利用更加贴合实际应用场景下的掺杂噪声的训练样本，相对于现有方式中采用单纯的仅包含人声的训练样本进行训练的方式而言，可以使得训练得到的识别模型更加能够学习到真实应用场景下的音频特征，提高语音识别转换的准确性，可以广泛地应用于如网络直播场景下等掺杂噪声的、较长时长的音频的识别处理。

请参阅图9，本申请实施例还提供了一种电子设备。其中，该电子设备可以作为一种直播设备，例如，可以是主播在直播时使用的终端设备(如上述的直播提供端100)，也可以是与主播在直播时使用终端设备通信连接的服务器(如上述的直播服务器200)。

详细地，所述电子设备可以包括存储器410、处理器420和音频识别装置430。所述存储器410和处理器420之间直接或间接地电性连接，以实现数据的传输或交互。例如，相互之间可通过一条或多条通讯总线或信号线实现电性连接。所述音频识别装置430包括至少一个可以软件或固件(firmware)的形式存储于所述存储器410中的软件功能模块。所述处理器420用于执行所述存储器410中存储的可执行的计算机程序，例如，所述音频识别装置430所包括的软件功能模块及计算机程序等，以实现对于音频中各类噪声的过滤，以及语音的识别处理。

其中，所述存储器410可以是，但不限于，随机存取存储器(Random AccessMemory，RAM)，只读存储器(Read Only Memory，ROM)，可编程只读存储器(ProgrammableRead-Only Memory，PROM)，可擦除只读存储器(Erasable Programmable Read-OnlyMemory，EPROM)，电可擦除只读存储器(Electric Erasable Programmable Read-OnlyMemory，EEPROM)等。

其中，存储器410用于存储程序，所述处理器420在接收到执行指令后，执行所述程序。所述处理器420可能是一种集成电路芯片，具有信号的处理能力。例如，可以是中央处理器(Central Processing Unit，CPU)、网络处理器(Network Processor，NP)、片上系统(System on Chip，SoC)、数字信号处理器(DSP)等，以实现或者执行本申请实施例中的公开的各方法、步骤。

可以理解，图9所示的结构仅为示意，所述电子设备还可包括比图9中所示更多或者更少的组件，或者具有与图9所示不同的配置，例如，还可以包括用于与其它直播设备进行信息交互的通信单元。其中，图9中所示的各组件可以采用硬件、软件或其组合实现。

请参阅图10，为本申请实施例提供的音频识别装置430的功能模块框图。该音频识别装置430包括第一过滤模块431、第二过滤模块432和处理模块433。

第一过滤模块431，用于利用预先构建的第一过滤模型对待识别音频中的第一类噪声进行过滤得到第一识别音频，所述第一类噪声为非语音噪声。

在本实施例中，所述第一过滤模块431可用于执行图2所示的步骤S101，关于所述第一过滤模块431的相关内容可以参照前文对步骤S101的描述。

第二过滤模块432，用于利用预先构建的第二过滤模型对所述第一识别音频中的第二类噪声进行过滤得到第二识别音频，所述第一识别音频包含目标语音和非目标语音，所述第二类噪声属于所述非目标语音。

在本实施例中，所述第二过滤模块432可用于执行图2所示的步骤S102，关于所述第二过滤模块432的相关内容可以参照前文对步骤S102的描述。

处理模块433，用于将所述第二识别音频导入预先构建的识别模型，对所述第二识别音频中的目标语音进行处理得到对应的文本。

在本实施例中，所述处理模块433可用于执行图2所示的步骤S103，关于所述处理模块433的相关内容可以参照前文对步骤S103的描述。

在一种可能的实现方式中，上述第一过滤模块431具体可以用于：

在一种可能的实现方式中，上述第二过滤模块432具体可以用于：

在一种可能的实现方式中，所述第二过滤模型中保存有解码后的音频帧的语义上下文信息，上述第二过滤模块432还可以在继续后续音频帧的处理之前，用于：

将所述第二过滤模型中保存的语义上下文信息进行初始化。

在一种可能的实现方式中，上述处理模块433具体可以用于：

在一种可能的实现方式中，上述第二过滤模块432可以用于：

在一种可能的实现方式中，所述第二过滤模型为预先基于包含目标语音和非目标语音的多个训练样本训练获得；

在一种可能的实现方式中，各所述训练样本中的第二类噪声还标记有噪声标签，所述噪声标签标识所述第二类噪声的类型。

关于装置中的各模块的处理流程、以及各模块之间的交互流程的描述可以参照上述方法实施例中的相关说明，这里不再详述。

在本申请实施例中，对应于上述的音频识别方法，还提供了一种计算机可读存储介质，该计算机可读存储介质中存储有计算机程序，该计算机程序运行时执行上述音频识别方法的各个步骤。

其中，前述计算机程序运行时执行的各步骤，在此不再一一赘述，可参考前文对所述音频识别方法的解释说明。

综上所述，本申请实施例提供的音频识别方法、装置、电子设备和可读存储介质，首先利用预先构建的第一过滤模型对待识别音频中的第一类噪声进行过滤得到第一识别音频，第一类噪声为非语音噪声。再利用预先构建的第二过滤模型对第一识别音频中的第二类噪声进行过滤得到第二识别音频，第一识别音频中包含目标语音和非目标语音，第二类噪声属于非目标语音。最后，将第二识别音频导入预先构建的识别模型，对第二识别音频中的目标语音进行处理得到对应的文本。该方案，预先对非语音噪声和属于非目标语音的噪声进行过滤处理，降低了语音识别的处理压力且排除各类噪声的干扰，对于较长时长且掺杂噪声的音频识别处理有较佳效果。

以上所述，仅为本申请的具体实施方式，但本申请的保护范围并不局限于此，任何熟悉本技术领域的技术人员在本申请揭露的技术范围内，可轻易想到的变化或替换，都应涵盖在本申请的保护范围之内。因此，本申请的保护范围应以所述权利要求的保护范围为准。

Claims

1.一种音频识别方法，其特征在于，所述方法包括：

利用预先构建的第二过滤模型对所述第一识别音频中的第二类噪声进行过滤得到第二识别音频，所述第一识别音频包含目标语音和非目标语音，所述第二类噪声属于所述非目标语音，所述第二过滤模型处理所述第一识别音频的过程中，获得解码后的音频帧的语义上下文信息并保存，并在每次确定出所述第一识别音频中的第二类噪声并进行截取和滤除后，将保存的语义上下文信息进行初始化，然后再继续后续音频帧的处理直至完成所述第一识别音频的处理；

2.根据权利要求1所述的音频识别方法，其特征在于，所述利用预先构建的第一过滤模型对待识别音频中的第一类噪声进行过滤得到第一识别音频的步骤，包括：

3.根据权利要求1所述的音频识别方法，其特征在于，所述利用预先构建的第二过滤模型对所述第一识别音频中的第二类噪声进行过滤得到第二识别音频的步骤，包括：

4.根据权利要求3所述的音频识别方法，其特征在于，所述将所述第二识别音频导入预先构建的识别模型，对所述第二识别音频中的目标语音进行处理得到对应的文本的步骤，包括：

5.根据权利要求1所述的音频识别方法，其特征在于，所述利用预先构建的第二过滤模型对所述第一识别音频中的第二类噪声进行过滤得到第二识别音频的步骤，包括：

6.根据权利要求1-5任意一项所述的音频识别方法，其特征在于，所述第二过滤模型为预先基于包含目标语音和非目标语音的多个训练样本训练获得；

7.根据权利要求6所述的音频识别方法，其特征在于，各所述训练样本中的第二类噪声还标记有噪声标签，所述噪声标签标识所述第二类噪声的类型。

8.一种音频识别装置，其特征在于，用于实现权利要求1-7任意一项所述的音频识别方法，所述装置包括：

9.一种电子设备，其特征在于，包括一个或多个存储介质和一个或多个与存储介质通信的处理器，一个或多个存储介质存储有处理器可执行的机器可执行指令，当电子设备运行时，处理器执行所述机器可执行指令，以执行权利要求1-7中任意一项所述的方法步骤。

10.一种计算机可读存储介质，其特征在于，所述计算机可读存储介质存储有机器可执行指令，所述机器可执行指令被执行时实现权利要求1-7中任意一项所述的方法步骤。