CN114299997B

CN114299997B - 音频数据处理方法、装置、电子设备、存储介质及产品

Info

Publication number: CN114299997B
Application number: CN202111539880.6A
Authority: CN
Inventors: 李良斌; 陈孝良
Original assignee: Beijing SoundAI Technology Co Ltd
Current assignee: Beijing SoundAI Technology Co Ltd
Priority date: 2021-12-15
Filing date: 2021-12-15
Publication date: 2024-12-31
Anticipated expiration: 2041-12-15
Also published as: CN114299997A

Abstract

本申请提供了一种音频数据处理方法、装置、电子设备、存储介质及产品，属于语音交互技术领域。方法包括：接收输入的音频数据，对音频数据进行识别处理，输出识别结果；在识别结果包括唤醒词的情况下，获取音频数据的解码图，解码图包括音频数据对应的解码路径的跳转标识序列，跳转标识序列用于表示音频数据中相邻音频帧之间的音素变化情况；从跳转标识序列中确定目标跳转标识，目标跳转标识满足目标条件，目标条件表示跳转标识序列中的跳转标识属于唤醒词的唤醒音素序列对应的跳转标识；基于目标跳转标识，确定唤醒词对应的唤醒音频数据的首端点。该方案实现了音素级别的端点检测，能够准确地检测出唤醒音频数据的首端点。

Description

音频数据处理方法、装置、电子设备、存储介质及产品

技术领域

本申请涉及语音交互技术领域，特别涉及一种音频数据处理方法、装置、电子设备、存储介质及产品。

背景技术

端点检测是音频处理中的一个重要步骤，通过端点检测可以确定音频中的目标音频段的首端点(也即是目标音频段的起始点)和尾端点(也即是目标音频段的终止点)，进而能够从大段的音频中截取出该目标音频段，以便基于截取出的目标音频段进行下一步处理。例如，从输入的一大段音频中截取出唤醒音频(也即是唤醒词对应的音频)，后续，可以将该唤醒音频应用到模型训练中。因此，如何准确地检测唤醒音频的端点成为当前亟需解决的技术问题。

发明内容

本申请实施例提供了一种音频数据处理方法、装置、电子设备、存储介质及产品，能够提高确定唤醒词音频首端点的准确率。所述技术方案如下：

一方面，提供了一种音频数据处理方法，所述方法包括：

接收输入的音频数据，对所述音频数据进行识别处理，输出识别结果；

在所述识别结果包括唤醒词的情况下，获取所述音频数据的解码图，所述解码图包括所述音频数据对应的解码路径的跳转标识序列，所述跳转标识序列用于表示所述音频数据中相邻音频帧之间的音素变化情况；

从所述跳转标识序列中确定目标跳转标识，所述目标跳转标识满足目标条件，所述目标条件表示跳转标识序列中的跳转标识属于唤醒词的唤醒音素序列对应的跳转标识；

基于所述目标跳转标识，确定所述唤醒词对应的唤醒音频数据的首端点。

在一种可能的实现方式中，所述解码图包括所述音频数据对应的多个解码路径以及所述多个解码路径的跳转标识序列；

所述从所述跳转标识序列中确定目标跳转标识，包括：

基于所述多个解码路径的解码参数，从所述多个解码路径中选取满足参数条件的解码路径；

从选取的解码路径的跳转标识序列中确定所述目标跳转标识。

在另一种可能的实现方式中，所述基于所述多个解码路径的解码参数，从所述多个解码路径中选取满足参数条件的解码路径，包括：

基于所述多个解码路径的解码参数，从所述多个解码路径中选取解码参数最大的解码路径；或者，

基于所述多个解码路径的解码参数，从所述多个解码路径中选取解码参数超过参数阈值的解码路径；或者，

基于所述多个解码路径的解码参数，从所述多个解码路径中选取第一目标数量的解码路径，所述第一目标数量的解码路径的解码参数大于所述多个解码路径中除所述第一目标数量的解码路径之外的其他解码路径的解码参数。

在另一种可能的实现方式中，所述识别结果还包括解码路径的索引，所述索引表示所述处理结果是对所述解码路径进行解码得到的；

所述从所述跳转标识序列中确定目标跳转标识，包括：

基于所述索引，确定对应的解码路径；

从确定的解码路径的跳转标识序列中确定所述目标跳转标识。

在另一种可能的实现方式中，所述目标跳转标识为从所述跳转标识序列中查询到的满足所述目标条件的跳转标识，所述从所述跳转标识序列中确定目标跳转标识，包括：

依次查询所述跳转标识序列中的跳转标识；

在查询的跳转标识不满足所述目标条件的情况下，继续查询下一跳转标识，直至从所述跳转标识序列中查询到满足所述目标条件的跳转标识。

在另一种可能的实现方式中，所述依次查询所述跳转标识序列中的跳转标识，包括：

按照所述解码路径从前往后的顺序，依次查询所述解码路径的跳转标识序列中的跳转标识；或者，

按照所述解码路径从后往前的顺序，依次查询所述解码路径的跳转标识序列中的跳转标识。

在另一种可能的实现方式中，所述目标跳转标识为从所述跳转标识序列中查询到的满足所述目标条件的多个连续跳转标识，所述依次查询所述跳转标识序列中的跳转标识，包括：

依次查询所述跳转标识序列中多个连续跳转标识；

所述在查询的跳转标识不满足所述目标条件的情况下，继续查询下一跳转标识，直至从所述跳转标识序列中查询到满足所述目标条件的跳转标识，包括：

在查询的所述多个连续跳转标识不满足所述目标条件的情况下，继续查询后多个连续跳转标识，直至从所述跳转标识序列中查询到满足所述目标条件的多个连续跳转标识，所述目标条件表示跳转标识序列中多个连续跳转标识的每个跳转标识属于所述唤醒音素序列对应的跳转标识，且所述多个连续跳转标识表示的跳转路径包含所述唤醒音素序列的全部或者部分跳转路径。

在另一种可能的实现方式中，所述基于所述目标跳转标识，确定所述唤醒词对应的唤醒音频数据的首端点，包括：

基于每个目标跳转标识表示的跳转路径，从所述多个目标跳转标识中确定首端点跳转标识，所述首端点跳转标识表示的跳转路径包括所述唤醒音素序列中第一个音素；

将所述首端点跳转标识对应的音频数据确定为所述唤醒音频数据的首端点。

在另一种可能的实现方式中，所述目标跳转标识为从所述跳转标识序列中查询到的对应音素属于所述唤醒音素序列的跳转标识，所述在查询的跳转标识不满足所述目标条件的情况下，继续查询下一跳转标识，直至从所述跳转标识序列中查询到满足所述目标条件的跳转标识，包括：

获取查询的跳转标识和音素的映射关系；

基于所述映射关系，确定所述跳转标识对应的音素；

在确定的音素不属于所述唤醒音素序列的情况下，继续查询下一跳转标识，直至从所述跳转标识序列中查询到对应音素属于所述唤醒音素序列的跳转标识。

在另一种可能的实现方式中，所述目标跳转标识为从所述跳转标识序列中查询到的与所述唤醒音素序列对应的跳转标识集合中的任一跳转标识相同的跳转标识；所述在查询的跳转标识不满足所述目标条件的情况下，继续查询下一跳转标识，直至从所述跳转标识序列中查询到满足所述目标条件的跳转标识，包括：

获取所述唤醒音素序列对应的跳转标识集合，所述跳转标识集合中的跳转标识用于表示所述唤醒音素序列中相邻音素的跳转路径；

在查询到与所述跳转标识集合中的任一跳转标识不同的跳转标识的情况下，继续查询下一跳转标识，直至从所述跳转标识序列中查询到与所述跳转标识集合中的任一跳转标识相同的跳转标识。

在另一种可能的实现方式中，所述方法还包括：

在查询的跳转标识不满足所述目标条件的情况下，从所述音频数据中丢弃该跳转标识对应的音频数据。

将所述目标跳转标识对应的音频数据确定为所述唤醒音频数据的首端点。

在另一种可能的实现方式中，所述接收输入的音频数据，对所述音频数据进行识别处理，输出识别结果，包括：

接收所述音频数据，所述音频数据包括多个音频帧；

每当所述音频数据中的音频帧的已接收量达到第二目标数量时，对已接收的音频数据进行识别处理，得到所述已接收的音频数据的识别结果；

输出所述识别结果。

另一方面，提供了一种音频数据处理装置，所述装置包括：

处理模块，用于接收输入的音频数据，对所述音频数据进行识别处理，输出识别结果；

获取模块，用于在所述识别结果包括唤醒词的情况下，获取所述音频数据的解码图，所述解码图包括所述音频数据对应的解码路径的跳转标识序列，所述跳转标识序列用于表示所述音频数据中相邻音频帧之间的音素变化情况；

第一确定模块，用于从所述跳转标识序列中确定目标跳转标识，所述目标跳转标识满足目标条件，所述目标条件表示跳转标识序列中的跳转标识属于唤醒词的唤醒音素序列对应的跳转标识；

第二确定模块，用于基于所述目标跳转标识，确定所述唤醒词对应的唤醒音频数据的首端点。

在一种可能的实现方式中，所述解码图包括所述音频数据对应的多个解码路径以及所述多个解码路径的跳转标识序列；所述第一确定模块，包括：

选取单元，用于基于所述多个解码路径的解码参数，从所述多个解码路径中选取满足参数条件的解码路径；

确定单元，用于从选取的解码路径的跳转标识序列中确定所述目标跳转标识。

在另一种可能的实现方式中，所述选取单元，用于基于所述多个解码路径的解码参数，从所述多个解码路径中选取解码参数最大的解码路径；或者，

所述选取单元，用于基于所述多个解码路径的解码参数，从所述多个解码路径中选取解码参数超过参数阈值的解码路径；或者，

所述选取单元，用于基于所述多个解码路径的解码参数，从所述多个解码路径中选取第一目标数量的解码路径，所述第一目标数量的解码路径的解码参数大于所述多个解码路径中除所述第一目标数量的解码路径之外的其他解码路径的解码参数。

所述第一确定模块，用于基于所述索引，确定对应的解码路径；从确定的解码路径的跳转标识序列中确定所述目标跳转标识。

在另一种可能的实现方式中，所述目标跳转标识为从所述跳转标识序列中查询到的满足所述目标条件的跳转标识，所述第一确定模块，用于依次查询所述跳转标识序列中的跳转标识；在查询的跳转标识不满足所述目标条件的情况下，继续查询下一跳转标识，直至从所述跳转标识序列中查询到满足所述目标条件的跳转标识。

在另一种可能的实现方式中，所述第一确定模块，用于按照所述解码路径从前往后的顺序，依次查询所述解码路径的跳转标识序列中的跳转标识；或者，

所述第一确定模块，用于按照所述解码路径从后往前的顺序，依次查询所述解码路径的跳转标识序列中的跳转标识。

在另一种可能的实现方式中，所述目标跳转标识为从所述跳转标识序列中查询到的满足所述目标条件的多个连续跳转标识；

所述第一确定模块，用于依次查询所述跳转标识序列中多个连续跳转标识；在查询的所述多个连续跳转标识不满足所述目标条件的情况下，继续查询后多个连续跳转标识，直至从所述跳转标识序列中查询到满足所述目标条件的多个连续跳转标识，所述目标条件表示跳转标识序列中多个连续跳转标识的每个跳转标识属于所述唤醒音素序列对应的跳转标识，且所述多个连续跳转标识表示的跳转路径包含所述唤醒音素序列的全部或者部分跳转路径。

在另一种可能的实现方式中，所述第二确定模块，用于所述目标跳转标识表示的跳转路径，从所述目标跳转标识中确定首端点跳转标识，所述首端点跳转标识表示的跳转路径包括所述唤醒音素序列中第一个音素；将所述首端点跳转标识对应的音频数据确定为所述唤醒音频数据的首端点。

在另一种可能的实现方式中，所述目标跳转标识为从所述跳转标识序列中查询到的对应音素属于所述唤醒音素序列的跳转标识，所述第一确定模块，用于获取查询的跳转标识和音素的映射关系；基于所述映射关系，确定所述跳转标识对应的音素；在确定的音素不属于所述唤醒音素序列的情况下，继续查询下一跳转标识，直至从所述跳转标识序列中查询到对应音素属于所述唤醒音素序列的跳转标识。

在另一种可能的实现方式中，所述目标跳转标识为从所述跳转标识序列中查询到的与所述唤醒音素序列对应的跳转标识集合中的任一跳转标识相同的跳转标识；所述第一确定模块，用于获取所述唤醒音素序列对应的跳转标识集合，所述跳转标识集合中的跳转标识用于表示所述唤醒音素序列中相邻音素的跳转路径；在查询到与所述跳转标识集合中的任一跳转标识不同的跳转标识的情况下，继续查询下一跳转标识，直至从所述跳转标识序列中查询到与所述跳转标识集合中的任一跳转标识相同的跳转标识。

在另一种可能的实现方式中，所述装置还包括：

丢弃模块，用于在查询的跳转标识不满足所述目标条件的情况下，从所述音频数据中丢弃该跳转标识对应的音频数据。

在另一种可能的实现方式中，所述第二确定模块，用于将所述目标跳转标识对应的音频数据确定为所述唤醒音频数据的首端点。

在另一种可能的实现方式中，所述处理模块，包括：

接收单元，用于接收所述音频数据，所述音频数据包括多个音频帧；

处理单元，用于每当所述音频数据中的音频帧的已接收量达到第二目标数量时，对已接收的音频数据进行识别处理，得到所述已接收的音频数据的识别结果；

输出单元，用于输出所述识别结果。

另一方面，提供了一种电子设备，所述电子设备包括一个或多个处理器和一个或多个存储器，所述一个或多个存储器中存储有至少一条程序代码，所述至少一条程序代码由所述一个或多个处理器加载并执行以实现如上述任一实现方式所述的音频数据处理方法。

另一方面，提供了一种计算机可读存储介质，所述计算机可读存储介质中存储至少一条程序代码，所述至少一条程序代码由处理器加载并执行，以实现如上述任一实现方式所述的音频数据处理方法。

另一方面，提供了一种计算机程序产品，所述计算机程序产品包括至少一条程序代码，所述至少一条程序代码由处理器加载并执行，以实现如上述任一实现方式所述的音频数据处理方法。

本申请实施例提供的技术方案的有益效果至少包括：

本申请实施例提供了一种音频数据处理方法，能够基于解码路径来寻找唤醒音频的首端点，由于解码路径中的跳转标识能够确定唯一的音素，因此，该方案实现了音素级别的首端点检测，能够更加准确地检测出唤醒音频的首端点，提高了唤醒音频首端点的准确性。

附图说明

为了更清楚地说明本申请实施例中的技术方案，下面将对实施例描述中所需要使用的附图作简单地介绍，显而易见地，下面描述中的附图仅仅是本申请的一些实施例，对于本领域普通技术人员来讲，在不付出创造性劳动的前提下，还可以根据这些附图获得其他的附图。

图1是本申请实施例提供的一种实施环境的示意图；

图2是本申请实施例提供的一种音频数据处理的方法流程图；

图3是本申请实施例提供的一种音频数据处理的方法流程图；

图4是本申请实施例提供的一种音频数据处理装置的框图；

图5是本申请实施例提供的一种音频数据处理装置的框图；

图6是本申请实施例提供的一种电子设备的框图。

具体实施方式

为使本申请的目的、技术方案和优点更加清楚，下面将结合附图对本申请实施方式作进一步地详细描述。

本申请的说明书和权利要求书及所述附图中的术语“第一”、“第二”、“第三”和“第四”等是用于区别不同对象，而不是用于描述特定顺序。此外，术语“包括”和“具有”以及它们的任意变形，意图在于覆盖不排他的包含。例如包含了一系列步骤或单元的过程、方法、系统、产品或设备没有限定于已列出的步骤或单元，而是可选地还包括没有列出的步骤或单元，或可选地还包括对于这些过程、方法、产品或设备固有的其他步骤或单元。

图1是本申请实施例提供的一种实施环境的示意图。参见图1，该实施环境中包括电子设备101和服务器102。电子设备101上安装有服务器102提供服务的客户端，用户在电子设备101上可以通过该客户端与服务器102之间实现例如数据传输、语音交互等功能。该客户端至少具备音频识别功能，例如，识别输入的音频数据是否唤醒电子设备101，该客户端还可以具备语音控制功能等。其中，该客户端可以为语音助手或者语音控制应用等。

在一种可能的实现方式中，电子设备101接收输入的音频数据，对音频数据进行识别，识别出唤醒词之后，找出唤醒词的首端点，将该首端点上报服务器102。在另一种可能实现方式中，电子设备101接收输入的音频数据，将该音频数据发送至服务器102，由服务器102对该音频数据进行识别，识别出唤醒词之后，找出唤醒词的首端点。

电子设备101可以为电脑、手机、音响、空调、电视或者其他电子设备。服务器102可以是一台服务器，或者由若干台服务器组成的服务器集群，或者是一个云计算服务中心。

图2是本申请实施例提供的一种音频数据处理方法的流程图，参见图2，该方法包括：

201、接收输入的音频数据，对该音频数据进行识别处理，输出识别结果。

202、在该识别结果包括唤醒词的情况下，获取该音频数据的解码图，该解码图包括该音频数据对应的解码路径的跳转标识序列，该跳转标识序列用于表示该音频数据中相邻音频帧之间的音素变化情况。

203、从该跳转标识序列中确定目标跳转标识，该目标跳转标识满足目标条件，该目标条件表示跳转标识序列中的跳转标识属于唤醒词的唤醒音素序列对应的跳转标识。

204、基于目标跳转标识，确定该唤醒词对应的唤醒音频数据的首端点。

本申请实施例提供的音频数据处理方法，能够基于解码路径来寻找唤醒音频的首端点，由于解码路径中的跳转标识能够确定唯一的音素，因此，该方案实现了音素级别的首端点检测，能够更加准确地检测出唤醒音频的首端点，提高了唤醒音频首端点的准确性。

所述从所述跳转标识序列中确定目标跳转标识，包括：

基于所述索引，确定对应的解码路径；

依次查询所述跳转标识序列中的跳转标识；

依次查询所述跳转标识序列中多个连续跳转标识；

基于所述目标跳转标识表示的跳转路径，从所述目标跳转标识中确定首端点跳转标识，所述首端点跳转标识表示的跳转路径包括所述唤醒音素序列中第一个音素；

获取查询的跳转标识和音素的映射关系；

基于所述映射关系，确定所述跳转标识对应的音素；

在另一种可能的实现方式中，所述方法还包括：

接收所述音频数据，所述音频数据包括多个音频帧；

输出所述识别结果。

上述所有可选技术方案，可以采用任意结合形成本申请的可选实施例，在此不再一一赘述。

图3是本申请实施例提供的一种音频数据处理方法流程图，本申请实施例以执行主体为电子设备为例进行示例性说明，参见图3，该方法包括：

301、电子设备接收输入的音频数据，对该音频数据进行识别处理，输出识别结果。

本申请实施例中，音频数据可以是电子设备采集的音频数据，也可以是从服务器等其他设备获取的音频数据，还可以是本地存储的音频数据，本申请实施例对音频数据不做限定。可选地，电子设备具有音频采集功能，音频数据是电子设备实时采集的音频数据。

识别结果包括文本数据，该文本数据表示音频数据中人声所表达的内容。因此，电子设备对音频数据进行处理，可以识别出音频数据中人声所说的语句。例如，用户对着电子设备说“今天天气真好”，电子设备通过音频采集功能获取到音频数据，对该音频数据进行识别处理，输出识别结果“今天天气真好”。

本申请实施例中，电子设备对音频数据进行识别处理的过程不做限定，仅通过以下方式对电子设备对音频数据进行识别处理的过程进行示例性说明。

在一种可能的实现方式中，对音频数据的识别处理可以由解码器来完成。可选地，电子设备包括解码器，电子设备接收输入的音频数据，对该音频数据进行识别处理，输出识别结果，包括：解码器接收输入的音频数据，对该音频数据进行识别处理，输出识别结果。

其中，解码器可以是采用chain model(链状模型)的解码器。可选地，解码器通过已生成的解码图来对音频数据进行识别处理，得到识别结果。其中，已生成的解码图可以为WFST(Weighted Finite State Transducers，加权有限状态转换器)解码图。并且，已生成的解码图可以通过对chain model(链状模型)进行训练得到。

例如，电子设备将音频数据划分成多个音频帧，对每个音频帧进行特征提取，得到每个音频帧的音频帧特征，对每个音频帧的音频帧特征进行处理，得到每个音频帧对应的概率分布，该概率分布表示该音频帧对应的发音动作为各个音素的概率。相邻音频帧之间音素的变化可以通过跳转标识(transition id)表示，解码器可以根据音素自身的概率、该音素之前的其他音素的概率以及该音素之后其他音素的概率，对该音素的跳转路径进行打分，最后基于分值最高的路径进行解码，得到识别结果。

另外，本申请实施例中，在对音频数据进行识别处理时，可以是完全获取到音频数据之后，再对音频数据进行识别处理，也可以是在获取音频数据的过程中，实时对已获取的音频数据进行识别处理。可选地，电子设备接收输入的音频数据，对该音频数据进行识别处理，输出识别结果，包括：接收音频数据，该音频数据包括多个音频帧；每当音频数据中的音频帧的已接收量达到第二目标数量时，对已接收的音频数据进行识别处理，得到已接收的音频数据的识别结果；输出该识别结果。因此，本申请实施例从而无需等待音频数据完全接收，即可对已获取的音频数据进行处理。

其中，第二目标数量可以是任一数量，例如，该第二目标数量为1、3、5、10等。第二目标数量可以为一经验值，也可以是技术人员设置的任一数值，或者是系统默认的数值，本申请实施例对第二目标数量不做限定。

另外，在本申请实施例中，电子设备可以通过一个解码器来对音频数据进行识别处理，也可以通过多个解码器来对音频数据进行识别处理。在一种可能的实现方式中，电子设备通过一个解码器对音频数据进行识别处理，输出识别结果。在另一种可能的实现方式中，将音频数据划分成多个音频数据段，电子设备通过该多个解码器分别对每个音频数据段进行识别处理，得到每个解码器输出的识别结果。为了避免唤醒音频被划分到两个音频数据段中，在将音频数据进行划分的时候，还可以将音频数据的切分点划分到其他音频数据段中。

例如，将0秒至10秒的音频数据划分为一个音频数据段，将10秒至20秒的音频数据划分为一个音频数据段，为了避免唤醒音频在第10秒，还可以将5秒至15秒的音频数据换分为一个音频数据段。

302、电子设备在识别结果包括唤醒词的情况下，获取该音频数据的解码图，该解码图包括该音频数据对应的解码路径的跳转标识序列，该跳转标识序列用于表示该音频数据中相邻音频帧之间的音素变化情况。

如果识别结果包括唤醒词，则说明用户说出了唤醒词。由于音频数据中除了唤醒词对应的唤醒音频之外，可能还包括静音音频、其他语句对应的音频等，因此，本申请实施例中，电子设备还可以从音频数据中检测唤醒音频的首端点，以便后续从音频数据中提取唤醒音频。其中，提取的唤醒音频可以用于存储、传输、模型训练等，本申请实施例对唤醒音频的用途不做限定。

唤醒词是用于唤醒某一客户端、某一功能或者某一设备的词语。例如，该唤醒词是“您好”，电子设备在识别到“您好”之后，唤醒语音助手。需要说明的是，该唤醒词可以由用户进行设置，也可以是系统默认的，本申请实施例对唤醒词不做限定。

该步骤302中的音频数据的解码图是通过将音频数据的相关信息输入到电子设备已生成的解码图中而得到的。解码图包括节点以及连接节点之间的边。其中，节点用于表示音素的状态，且一个节点对应一个音素状态。连接节点的边表示音素状态之间的跳转。

电子设备将音频数据划分为多个音频帧之后，可以提取每个音频帧对应的音频帧特征，该音频帧特征可以是MFCC(Mel Frequency Cepstrum Coefficient,梅尔频率倒谱系数)特征、FBank(Filter Bank，滤波器组)特征或者能量特征等。对每个音频帧的音频帧特征进行处理，可以得到每个音频帧对应的概率分布，该概率分布表示该音频帧对应的发音动作为各个音素的概率。在进行解码时，解码器会基于当前视频帧中各个音素的概率以及前述音频帧中各个音素的概率和后述音频帧中各个音素的概率，对音素之间的跳转路径进行打分，分值最高的跳转路径可以看做是最有可能的跳转路径。因此，解码器可以基于分值最高的解码路径进行解码，输出识别结果。

解码路径是从解码图的起始节点到终止节点之间的任一跳转路径。解码路径的跳转标识序列是解码路径中每个边对应的跳转标识，用于表示解码路径中多个节点的跳转路径，是基于音频数据中相邻音频帧之间的音素变化情况确定的。

其中，在对解码图进行解码得到识别结果的过程中，可以将每个音频帧对应的音素状态输入到解码图中，再基于解码图对输入的数据进行解码处理，依次得到跳转标识序列、音素序列、词语序列和语句。

303、电子设备依次查询该跳转标识序列中的跳转标识。

由于跳转标识能够用于确定唯一的音素，因此，本申请实施例可以采用跳转标识来实现音素级别的端点检测。

在一种可能的实现方式中，电子设备依次查询该跳转标识序列中的跳转标识，包括：电子设备按照该解码路径从前往后的顺序，依次查询该解码路径的跳转标识序列中的跳转标识。在另一种可能的实现方式中，电子设备依次查询该跳转标识序列中的跳转标识，包括：电子设备按照该解码路径从后往前的顺序，依次查询该解码路径的跳转标识序列中的跳转标识。

本申请实施例中，是在输出的识别结果包括唤醒词的情况下，进行唤醒音频首端点检测的，并且，本申请实施例中电子设备还可以在音频数据的输入过程中，对已输入的音频数据进行实时处理。因此，电子设备可以在输出的识别结果包括唤醒词的情况下，停止对音频数据的处理，按照解码路径从后往前的顺序依次查询跳转标识序列中的跳转标识，从而能够更快地检测到唤醒音频的首端点。

需要说明的是，解码图中包含多个解码路径，电子设备可以仅基于一条解码路径进行首端点检测，也可以基于多条解码路径进行首端点检测。本申请实施例对此不做限定。

在一种可能的实现方式中，解码图包括音频数据对应的多个解码路径以及多个解码路径的跳转标识序列。电子设备按照一定的条件从多个解码路径中选取符合条件的解码路径。电子设备依次查询该跳转标识序列中的跳转标识，包括：电子设备基于多个解码路径的解码参数，从多个解码路径中选取满足参数条件的解码路径；电子设备在选取的解码路径中依次查询该解码路径的跳转标识序列中的跳转标识。

可选地，电子设备基于该多个解码路径的解码参数，从多个解码路径中选取满足参数条件的解码路径，包括：基于该多个解码路径的解码参数，从多个解码路径中选取解码参数最大的解码路径；或者，基于该多个解码路径的解码参数，从多个解码路径中选取解码参数超过参数阈值的解码路径；或者，基于该多个解码路径的解码参数，从多个解码路径中选取第一目标数量的解码路径，该第一目标数量的解码路径的解码参数大于多个解码路径中除该第一目标数量的解码路径之外的其他解码路径的解码参数。

其中，第一目标数量可以是任一数量，例如，2、3、5等。本申请实施例对第一目标数量不做限定。该第一目标数量可以是经验值，也可以是技术人员设置的任一数值，或者是电子设备的默认数值等。参数阈值可以是任一数值，例如，10、20、30等。本申请实施例对参数阈值不做限定。该参数阈值可以是经验值，也可以是技术人员设置的任一数值，或者是电子设备的默认数值等。

电子设备基于多个解码路径的解码参数和参数条件，可以从多个解码路径中选取得分较高的解码路径，保证了该解码路径的可靠性，进而保证了检测到的首端点的可靠性。

在一种可能的实现方式中，电子设备输出的识别结果还包括解码路径的索引，该索引表示该处理结果是对解码路径进行解码得到的。电子设备基于该解码路径进行解码得到识别结果，在该识别结果包括唤醒词的情况下，电子设备基于该解码路径进行首端点的检测。可选地，电子设备依次查询该跳转标识序列中的跳转标识，包括：电子设备基于该索引，确定对应的解码路径；电子设备在该解码路径中依次查询该解码路径的跳转标识序列中的跳转标识。

304、在查询到的跳转标识不满足目标条件的情况下，电子设备继续查询下一跳转标识，直至从跳转标识序列中查询到满足目标条件的跳转标识，该目标条件表示跳转标识序列中的跳转标识属于唤醒词的唤醒音素序列对应的跳转标识。

在本申请实施例中，电子设备在查询到跳转标识之后，如果该跳转标识不满足目标条件，则说明该跳转标识的跳转路径所对应的音频数据一定不是唤醒音频数据，因此，可以继续查询下一跳转标识，直至查询到满足目标条件的跳转标识，再基于该满足目标条件的跳转标识来确定唤醒音频数据的首端点。其中，满足目标条件的跳转标识可以看做是跳转标识序列中的目标跳转标识，从跳转标识序列中查询满足目标条件的跳转标识就是从跳转标识序列中确定目标跳转标识。

本申请实施例中，目标条件表示跳转标识序列中的跳转标识属于唤醒词的唤醒音素序列对应的跳转标识。其中，唤醒词的唤醒音素序列对应的跳转标识可以唤醒音素序列中任意相邻的两个或者多个音素的跳转路径的标识；也可以是任一音素与唤醒音素序列的第一个或者前N(N为大于1的整数)个音素的跳转路径的标识；还可以是唤醒音素序列的最后一个或者后N(N为大于1的整数)个音素与任一音素的跳转路径的标识。

另外，本申请实施例中，解码路径的跳转标识序列中的跳转标识可以是单音素对应的跳转标识，也可以是三音素对应的跳转标识，本申请实施例对此不做限定。其中，三音素是指三个音素的组合。

由于跳转标识能够确定唯一的音素，因此，本申请实施例可以通过跳转标识序列中的跳转标识，能够确定该跳转标识对应的音素，再确定该音素是否是唤醒音素序列中的音素来检测唤醒音频数据的首端点。在一种可能的实现方式中，目标跳转标识为从跳转标识序列中查询到的对应音素属于唤醒音素序列的跳转标识，电子设备在查询的跳转标识不满足目标条件的情况下，继续查询下一跳转标识，直至从跳转标识序列中查询到满足该目标条件的跳转标识，包括：获取查询的跳转标识和音素的映射关系；基于该映射关系，确定该跳转标识对应的音素；在确定的音素不属于唤醒音素序列的情况下，继续查询下一跳转标识，直至从跳转标识序列中查询到对应音素属于该唤醒音素序列的跳转标识。

需要说明的是，用户在通过唤醒词来进行唤醒的时候，除了唤醒词很少会说其他语句。因此，在一种可能的实现方式中，电子设备在查询到对应音素属于该唤醒音素序列的跳转标识之后，就可以认为找到唤醒音频数据了。在另一种可能的实现方式中，为了更加准确地检测唤醒音频数据的首端点，电子设备在查询到对应音素属于该唤醒音素序列的跳转标识之后，还会继续进行查询，直至找到对应的音素为唤醒音素序列的多个连续跳转标识，再基于该多个连续跳转标识，确定唤醒音频数据的首端点。

另外，电子设备还可以获取唤醒音素序列对应的跳转标识集合，将查询的跳转标识与跳转标识集合中的每个跳转标识比较，如果查询的跳转标识与跳转标识集合中的任一跳转标识相同，则说明该查询的跳转标识表示的跳转路径中包括唤醒音素，该查询的跳转标识表示的跳转路径中包括唤醒音素，电子设备找到了与唤醒音频数据相关的音频数据。在另一种可能实现方式中，该目标跳转标识为从跳转标识序列中查询到的与唤醒音素序列对应的跳转标识集合中的任一跳转标识相同的跳转标识；电子设备在查询的跳转标识不满足目标条件的情况下，继续查询下一跳转标识，直至查询到满足该目标条件的跳转标识，包括：获取该唤醒音素序列对应的跳转标识集合，该跳转标识集合中的跳转标识用于表示该唤醒音素序列中相邻音素的跳转路径；在查询到与该跳转标识集合中的任一跳转标识不同的跳转标识的情况下，继续查询下一跳转标识，直至从跳转标识序列中查询到与该跳转标识集合中的任一跳转标识相同的跳转标识。

其中，跳转标识集合可以是电子设备查询跳转标识和音素的映射关系得到的，也可以是技术人员输入的，本申请实施例对此不做限定。

需要说明的是，用户在通过唤醒词来进行唤醒的时候，除了唤醒词很少会说其他语句。因此，在一种可能的实现方式中，电子设备在查询到与该跳转标识集合中的任一跳转标识相同的跳转标识之后，就可以认为找到唤醒音频数据了。在另一种可能的实现方式中，为了更加准确地检测唤醒音频数据的首端点，电子设备在查询到与该跳转标识集合中的任一跳转标识相同的跳转标识之后，还会继续进行查询，直至找到与该跳转标识集合中的跳转标识相同的多个连续跳转标识。

305、电子设备基于目标跳转标识，确定该唤醒词对应的唤醒音频数据的首端点，该目标跳转标识为满足目标条件的跳转标识。

在一种可能的实现方式中，电子设备基于该目标跳转标识，确定唤醒词对应的唤醒音频数据的首端点，包括：将该目标跳转标识对应的音频数据确定为该唤醒音频数据的首端点。

可选地，目标跳转标识对应的音频数据是一个音频帧，将该目标跳转标识对应的音频数据确定为该唤醒音频数据的首端点就是将该目标跳转标识对应的音频帧确定为唤醒音频数据的首帧。可选地，唤醒音频数据的首端点采用时间点来表示。电子设备基于目标跳转标识，确定该唤醒词对应的唤醒音频数据的首端点，包括：电子设备将目标跳转标识对应的音频数据的起始时间点确定为唤醒音频数据的首端点。

需要说明的是，上述步骤303至步骤305仅是以目标跳转标识为一个为例，对首端点的检测过程进行示例性说明，而在另一实施例中，该目标跳转标识为多个。在一种可能的实现方式中，电子设备依次查询该跳转标识序列中的跳转标识，包括：依次查询该跳转标识序列中多个连续跳转标识。

其中，电子设备依次查询该跳转标识序列中多个连续跳转标识时，可以每次后移一个跳转标识，也可以每次后移多个跳转标识。例如，电子设备查询跳转标识序列中的第1至5个跳转标识，在第1至5个跳转标识不满足目标条件的情况下，电子设备可以查询第2至6个跳转标识，也可以查询第6至10个跳转标识。

在一种可能实现方式中，目标跳转标识为跳转标识序列中查询到的满足目标条件的多个连续跳转标识；电子设备在查询的跳转标识不满足目标条件的情况下，继续查询下一跳转标识，直至从跳转标识序列中查询到满足目标条件的跳转标识，包括：在查询的多个连续跳转标识不满足目标条件的情况下，继续查询后多个连续跳转标识，直至从跳转标识序列中查询到满足目标条件的多个连续跳转标识，该目标条件表示跳转标识序列中的多个连续跳转标识的每个跳转标识属于该唤醒音素序列对应的跳转标识，且该多个连续跳转标识表示唤醒音素序列的跳转路径。

其中，目标条件表示跳转标识序列中的多个连续跳转标识表示唤醒音素序列的跳转路径可以是：跳转标识序列中的多个连续跳转表示的跳转路径包含唤醒音素序列的完整跳转路径；还可以是：跳转标识序列中的多个连续跳转表示的跳转路径包括唤醒音素序列的部分跳转路径。

例如，唤醒音素序列是“nihao”，多个目标跳转标识表示的跳转路径为“h→ai→n→i→h”，则认为该多个目标跳转标识满足目标条件。

在一种可能实现方式中，电子设备基于目标跳转标识，确定唤醒词对应的唤醒音频数据的首端点，包括：电子设备基于目标跳转标识表示的跳转路径，从该目标跳转标识中确定首端点跳转标识，该首端点跳转标识表示的跳转路径包括该唤醒音素序列中第一个音素；将该首端点跳转标识对应的音频数据确定为唤醒音频数据的首端点。

可选地，首端点跳转标识对应的音频数据是一个音频帧，将该首端点跳转标识对应的音频数据确定为该唤醒音频数据的首端点就是将该首端点跳转标识对应的音频帧确定为唤醒音频数据的首帧。可选地，唤醒音频数据的首端点采用时间点来表示。电子设备将该首端点跳转标识对应的音频数据确定为唤醒音频数据的首端点，包括：电子设备将首端点跳转标识对应的音频数据的起始时间点确定为唤醒音频数据的首端点。

需要说明的是，本申请实施例中，在一种可能的实现方式中，音频数据处理方法还包括：在查询的跳转标识不满足该目标条件的情况下，从音频数据中丢弃该跳转标识对应的音频数据。这样就可以丢弃音频数据中唤醒音频数据之前的其他音频数据，以便后续获取唤醒音频数据。

需要说明的另一点是，本申请实施例仅是以“电子设备依次查询跳转标识序列中的跳转标识，在查询的跳转标识不满足目标条件的情况下，继续查询下一跳转标识，直至查询到满足该目标条件的目标跳转标识”为例，对“从跳转标识序列中确定目标跳转标识”进行示例性说明。

而在另一实施例中，电子设备在获取音频数据的解码图之后，执行“从跳转标识序列中确定目标跳转标识；基于目标跳转标识，确定唤醒词对应的唤醒音频数据的首端点”的步骤。

在一种可能的实现方式中，解码图包括该音频数据对应的多个解码路径以及该多个解码路径的跳转标识序列；从该跳转标识序列中确定目标跳转标识，包括：基于该多个解码路径的解码参数，从该多个解码路径中选取满足参数条件的解码路径；从选取的解码路径的跳转标识序列中确定该目标跳转标识。

可选地，基于该多个解码路径的解码参数，从该多个解码路径中选取满足参数条件的解码路径，包括：基于该多个解码路径的解码参数，从该多个解码路径中选取解码参数最大的解码路径；或者，基于该多个解码路径的解码参数，从该多个解码路径中选取解码参数超过参数阈值的解码路径；或者，基于该多个解码路径的解码参数，从该多个解码路径中选取第一目标数量的解码路径，该第一目标数量的解码路径的解码参数大于该多个解码路径中除该第一目标数量的解码路径之外的其他解码路径的解码参数。

在另一种可能的实现方式中，电子设备输出的识别结果还包括解码路径的索引，该索引表示该处理结果是对解码路径进行解码得到的。电子设备基于该解码路径进行解码得到识别结果，在该识别结果包括唤醒词的情况下，电子设备基于该解码路径进行首端点的检测。可选地，识别结果还包括解码路径的索引，该索引表示该处理结果是对该解码路径进行解码得到的；电子设备从该跳转标识序列中确定目标跳转标识，包括：基于该索引，确定对应的解码路径；从确定的解码路径的跳转标识序列中确定该目标跳转标识。

另外，本申请实施例中，采用单解码器对音频数据进行处理，不仅能够节约更多的运算资源，还能够避免唤醒词被分割到不同的音频段中，进而能够更加准确地检测出唤醒音频的首端点。

图4是本申请实施例提供的一种音频数据处理装置的框图，参见图4，该装置包括：

处理模块401，用于接收输入的音频数据，对所述音频数据进行识别处理，输出识别结果；

获取模块402，用于在所述识别结果包括唤醒词的情况下，获取所述音频数据的解码图，所述解码图包括所述音频数据对应的解码路径的跳转标识序列，所述跳转标识序列用于表示所述音频数据中相邻音频帧之间的音素变化情况；

第一确定模块403，用于从所述跳转标识序列中确定目标跳转标识，所述目标跳转标识满足目标条件，所述目标条件表示跳转标识序列中的跳转标识属于唤醒词的唤醒音素序列对应的跳转标识；

第二确定模块404，用于基于所述目标跳转标识，确定所述唤醒词对应的唤醒音频数据的首端点。

本申请实施例提供了一种音频数据处理装置，能够基于解码路径来寻找唤醒音频的首端点，由于解码路径中的跳转标识能够确定唯一的音素，因此，该方案实现了音素级别的首端点检测，能够更加准确地检测出唤醒音频的首端点，提高了唤醒音频首端点的准确性。

如图5所示，在一种可能的实现方式中，所述解码图包括所述音频数据对应的多个解码路径以及所述多个解码路径的跳转标识序列；所述第一确定模块403，包括：

选取单元4031，用于基于所述多个解码路径的解码参数，从所述多个解码路径中选取满足参数条件的解码路径；

确定单元4032，用于从选取的解码路径的跳转标识序列中确定所述目标跳转标识。

在另一种可能的实现方式中，所述选取单元4031，用于基于所述多个解码路径的解码参数，从所述多个解码路径中选取解码参数最大的解码路径；或者，

所述选取单元4031，用于基于所述多个解码路径的解码参数，从所述多个解码路径中选取解码参数超过参数阈值的解码路径；或者，

所述选取单元4031，用于基于所述多个解码路径的解码参数，从所述多个解码路径中选取第一目标数量的解码路径，所述第一目标数量的解码路径的解码参数大于所述多个解码路径中除所述第一目标数量的解码路径之外的其他解码路径的解码参数。

所述第一确定模块403，用于基于所述索引，确定对应的解码路径；从确定的解码路径的跳转标识序列中确定所述目标跳转标识。

在另一种可能的实现方式中，所述目标跳转标识为从所述跳转标识序列中查询到的满足所述目标条件的跳转标识，所述第一确定模块403，用于依次查询所述跳转标识序列中的跳转标识；在查询的跳转标识不满足所述目标条件的情况下，继续查询下一跳转标识，直至从所述跳转标识序列中查询到满足所述目标条件的跳转标识。

在另一种可能的实现方式中，所述第一确定模块403，用于按照所述解码路径从前往后的顺序，依次查询所述解码路径的跳转标识序列中的跳转标识；或者，

所述第一确定模块403，用于按照所述解码路径从后往前的顺序，依次查询所述解码路径的跳转标识序列中的跳转标识。

所述第一确定模块403，用于依次查询所述跳转标识序列中多个连续跳转标识；在查询的所述多个连续跳转标识不满足所述目标条件的情况下，继续查询后多个连续跳转标识，直至从所述跳转标识序列中查询到满足所述目标条件的多个连续跳转标识，所述目标条件表示跳转标识序列中多个连续跳转标识的每个跳转标识属于所述唤醒音素序列对应的跳转标识，且所述多个连续跳转标识表示的跳转路径包含所述唤醒音素序列的全部或者部分跳转路径。

在另一种可能的实现方式中，所述第二确定模块404，用于基于所述目标跳转标识表示的跳转路径，从所述目标跳转标识中确定首端点跳转标识，所述首端点跳转标识表示的跳转路径包括所述唤醒音素序列中第一个音素；将所述首端点跳转标识对应的音频数据确定为所述唤醒音频数据的首端点。

在另一种可能的实现方式中，所述目标跳转标识为从所述跳转标识序列中查询到的对应音素属于所述唤醒音素序列的跳转标识，所述第一确定模块403，用于获取查询的跳转标识和音素的映射关系；基于所述映射关系，确定所述跳转标识对应的音素；在确定的音素不属于所述唤醒音素序列的情况下，继续查询下一跳转标识，直至从所述跳转标识序列中查询到对应音素属于所述唤醒音素序列的跳转标识。

在另一种可能的实现方式中，所述目标跳转标识为从所述跳转标识序列中查询到的与所述唤醒音素序列对应的跳转标识集合中的任一跳转标识相同的跳转标识；所述第一确定模块403，用于获取所述唤醒音素序列对应的跳转标识集合，所述跳转标识集合中的跳转标识用于表示所述唤醒音素序列中相邻音素的跳转路径；在查询到与所述跳转标识集合中的任一跳转标识不同的跳转标识的情况下，继续查询下一跳转标识，直至从所述跳转标识序列中查询到与所述跳转标识集合中的任一跳转标识相同的跳转标识。

在另一种可能的实现方式中，所述装置还包括：

丢弃模块405，用于在查询的跳转标识不满足所述目标条件的情况下，从所述音频数据中丢弃该跳转标识对应的音频数据。

在另一种可能的实现方式中，所述第二确定模块404，用于将所述目标跳转标识对应的音频数据确定为所述唤醒音频数据的首端点。

在另一种可能的实现方式中，所述处理模块401，包括：

接收单元4011，用于接收所述音频数据，所述音频数据包括多个音频帧；

处理单元4012，用于每当所述音频数据中的音频帧的已接收量达到第二目标数量时，对已接收的音频数据进行识别处理，得到所述已接收的音频数据的识别结果；

输出单元4013，用于输出所述识别结果。

图6示出了本发明一个示例性实施例提供的电子设备600的结构框图。该电子设备600可以是：智能手机、平板电脑、MP3播放器(Moving Picture Experts Group AudioLayer III，动态影像专家压缩标准音频层面3)、MP4(Moving Picture Experts GroupAudio Layer IV，动态影像专家压缩标准音频层面4)播放器、笔记本电脑或台式电脑。电子设备600还可能被称为用户设备、便携式电子设备、膝上型电子设备、台式电子设备等其他名称。

通常，电子设备600包括有：处理器601和存储器602。

处理器601可以包括一个或多个处理核心，比如4核心处理器、8核心处理器等。处理器601可以采用DSP(Digital Signal Processing，数字信号处理)、FPGA(Field－Programmable Gate Array，现场可编程门阵列)、PLA(Programmable Logic Array，可编程逻辑阵列)中的至少一种硬件形式来实现。处理器601也可以包括主处理器和协处理器，主处理器是用于对在唤醒状态下的数据进行处理的处理器，也称CPU(Central ProcessingUnit，中央处理器)；协处理器是用于对在待机状态下的数据进行处理的低功耗处理器。在一些实施例中，处理器601可以在集成有GPU(Graphics Processing Unit，图像处理器)，GPU用于负责显示屏所需要显示的内容的渲染和绘制。一些实施例中，处理器601还可以包括AI(Artificial Intelligence，人工智能)处理器，该AI处理器用于处理有关机器学习的计算操作。

存储器602可以包括一个或多个计算机可读存储介质，该计算机可读存储介质可以是非暂态的。存储器602还可包括高速随机存取存储器，以及非易失性存储器，比如一个或多个磁盘存储设备、闪存存储设备。在一些实施例中，存储器602中的非暂态的计算机可读存储介质用于存储至少一个指令，该至少一个指令用于被处理器601所执行以实现本申请中方法实施例提供的音频数据处理方法。

在一些实施例中，电子设备600还可选包括有：外围设备接口603和至少一个外围设备。处理器601、存储器602和外围设备接口603之间可以通过总线或信号线相连。各个外围设备可以通过总线、信号线或电路板与外围设备接口603相连。具体地，外围设备包括：射频电路604、显示屏605、摄像头606、音频电路607、定位组件608和电源609中的至少一种。

外围设备接口603可被用于将I/O(Input/Output，输入/输出)相关的至少一个外围设备连接到处理器601和存储器602。在一些实施例中，处理器601、存储器602和外围设备接口603被集成在同一芯片或电路板上；在一些其他实施例中，处理器601、存储器602和外围设备接口603中的任意一个或两个可以在单独的芯片或电路板上实现，本实施例对此不加以限定。

射频电路604用于接收和发射RF(Radio Frequency，射频)信号，也称电磁信号。射频电路604通过电磁信号与通信网络以及其他通信设备进行通信。射频电路604将电信号转换为电磁信号进行发送，或者，将接收到的电磁信号转换为电信号。可选地，射频电路604包括：天线系统、RF收发器、一个或多个放大器、调谐器、振荡器、数字信号处理器、编解码芯片组、用户身份模块卡等等。射频电路604可以通过至少一种无线通信协议来与其它电子设备进行通信。该无线通信协议包括但不限于：城域网、各代移动通信网络(2G、3G、4G及5G)、无线局域网和/或WiFi(Wireless Fidelity，无线保真)网络。在一些实施例中，射频电路604还可以包括NFC(Near Field Communication，近距离无线通信)有关的电路，本申请对此不加以限定。

显示屏605用于显示UI(User Interface，用户界面)。该UI可以包括图形、文本、图标、视频及其它们的任意组合。当显示屏605是触摸显示屏时，显示屏605还具有采集在显示屏605的表面或表面上方的触摸信号的能力。该触摸信号可以作为控制信号输入至处理器601进行处理。此时，显示屏605还可以用于提供虚拟按钮和/或虚拟键盘，也称软按钮和/或软键盘。在一些实施例中，显示屏605可以为一个，设置电子设备600的前面板；在另一些实施例中，显示屏605可以为至少两个，分别设置在电子设备600的不同表面或呈折叠设计；在再一些实施例中，显示屏605可以是柔性显示屏，设置在电子设备600的弯曲表面上或折叠面上。甚至，显示屏605还可以设置成非矩形的不规则图形，也即异形屏。显示屏605可以采用LCD(Liquid Crystal Display，液晶显示屏)、OLED(Organic Light-Emitting Diode,有机发光二极管)等材质制备。

摄像头组件606用于采集图像或视频。可选地，摄像头组件606包括前置摄像头和后置摄像头。通常，前置摄像头设置在电子设备的前面板，后置摄像头设置在电子设备的背面。在一些实施例中，后置摄像头为至少两个，分别为主摄像头、景深摄像头、广角摄像头、长焦摄像头中的任意一种，以实现主摄像头和景深摄像头融合实现背景虚化功能、主摄像头和广角摄像头融合实现全景拍摄以及VR(Virtual Reality，虚拟现实)拍摄功能或者其它融合拍摄功能。在一些实施例中，摄像头组件606还可以包括闪光灯。闪光灯可以是单色温闪光灯，也可以是双色温闪光灯。双色温闪光灯是指暖光闪光灯和冷光闪光灯的组合，可以用于不同色温下的光线补偿。

音频电路607可以包括麦克风和扬声器。麦克风用于采集用户及环境的声波，并将声波转换为电信号输入至处理器601进行处理，或者输入至射频电路604以实现语音通信。出于立体声采集或降噪的目的，麦克风可以为多个，分别设置在电子设备600的不同部位。麦克风还可以是阵列麦克风或全向采集型麦克风。扬声器则用于将来自处理器601或射频电路604的电信号转换为声波。扬声器可以是传统的薄膜扬声器，也可以是压电陶瓷扬声器。当扬声器是压电陶瓷扬声器时，不仅可以将电信号转换为人类可听见的声波，也可以将电信号转换为人类听不见的声波以进行测距等用途。在一些实施例中，音频电路607还可以包括耳机插孔。

定位组件608用于定位电子设备600的当前地理位置，以实现导航或LBS(LocationBased Service，基于位置的服务)。定位组件608可以是基于美国的GPS(GlobalPositioning System，全球定位系统)、中国的北斗系统、俄罗斯的格雷纳斯系统或欧盟的伽利略系统的定位组件。

电源609用于为电子设备600中的各个组件进行供电。电源609可以是交流电、直流电、一次性电池或可充电电池。当电源609包括可充电电池时，该可充电电池可以支持有线充电或无线充电。该可充电电池还可以用于支持快充技术。

在一些实施例中，电子设备600还包括有一个或多个传感器610。该一个或多个传感器610包括但不限于：加速度传感器611、陀螺仪传感器612、压力传感器613、指纹传感器614、光学传感器615以及接近传感器616。

加速度传感器611可以检测以电子设备600建立的坐标系的三个坐标轴上的加速度大小。比如，加速度传感器611可以用于检测重力加速度在三个坐标轴上的分量。处理器601可以根据加速度传感器611采集的重力加速度信号，控制显示屏605以横向视图或纵向视图进行用户界面的显示。加速度传感器611还可以用于游戏或者用户的运动数据的采集。

陀螺仪传感器612可以检测电子设备600的机体方向及转动角度，陀螺仪传感器612可以与加速度传感器611协同采集用户对电子设备600的3D动作。处理器601根据陀螺仪传感器612采集的数据，可以实现如下功能：动作感应(比如根据用户的倾斜操作来改变UI)、拍摄时的图像稳定、游戏控制以及惯性导航。

压力传感器613可以设置在电子设备600的侧边框和/或显示屏605的下层。当压力传感器613设置在电子设备600的侧边框时，可以检测用户对电子设备600的握持信号，由处理器601根据压力传感器613采集的握持信号进行左右手识别或快捷操作。当压力传感器613设置在显示屏605的下层时，由处理器601根据用户对显示屏605的压力操作，实现对UI界面上的可操作性控件进行控制。可操作性控件包括按钮控件、滚动条控件、图标控件、菜单控件中的至少一种。

指纹传感器614用于采集用户的指纹，由处理器601根据指纹传感器614采集到的指纹识别用户的身份，或者，由指纹传感器614根据采集到的指纹识别用户的身份。在识别出用户的身份为可信身份时，由处理器601授权该用户执行相关的敏感操作，该敏感操作包括解锁屏幕、查看加密信息、下载软件、支付及更改设置等。指纹传感器614可以被设置电子设备600的正面、背面或侧面。当电子设备600上设置有物理按键或厂商Logo时，指纹传感器614可以与物理按键或厂商Logo集成在一起。

光学传感器615用于采集环境光强度。在一个实施例中，处理器601可以根据光学传感器615采集的环境光强度，控制显示屏605的显示亮度。具体地，当环境光强度较高时，调高显示屏605的显示亮度；当环境光强度较低时，调低显示屏605的显示亮度。在另一个实施例中，处理器601还可以根据光学传感器615采集的环境光强度，动态调整摄像头组件606的拍摄参数。

接近传感器616，也称距离传感器，通常设置在电子设备600的前面板。接近传感器616用于采集用户与电子设备600的正面之间的距离。在一个实施例中，当接近传感器616检测到用户与电子设备600的正面之间的距离逐渐变小时，由处理器601控制显示屏605从亮屏状态切换为息屏状态；当接近传感器616检测到用户与电子设备600的正面之间的距离逐渐变大时，由处理器601控制显示屏605从息屏状态切换为亮屏状态。

本领域技术人员可以理解，图6中示出的结构并不构成对电子设备600的限定，可以包括比图示更多或更少的组件，或者组合某些组件，或者采用不同的组件布置。

本申请实施例还提供了一种计算机可读存储介质，该计算机可读存储介质中存储至少一条程序代码，该至少一条程序代码由处理器加载并执行，以实现如上述任一实现方式所述的音频数据处理方法。

本申请实施例还提供了一种计算机程序产品，计算机程序产品包括至少一条程序代码，该至少一条程序代码由处理器加载并执行，以实现如上述任一实现方式所述的音频数据处理方法。

在一些实施例中，本申请实施例所涉及的计算机程序可被部署在一个计算机设备上执行，或者在位于一个地点的多个计算机设备上执行，又或者，在分布在多个地点且通过通信网络互连的多个计算机设备上执行，分布在多个地点且通过通信网络互连的多个计算机设备可以组成区块链系统。

以上仅为本申请的可选实施例，并不用以限制本申请，凡在本申请的精神和原则之内，所作的任何修改、等同替换、改进等，均应包含在本申请的保护范围之内。

Claims

1.一种音频数据处理方法，其特征在于，所述方法包括：

从所述跳转标识序列中确定目标跳转标识，所述目标跳转标识满足目标条件，所述目标条件表示跳转标识序列中的跳转标识属于所述唤醒词的唤醒音素序列对应的跳转标识；

将所述首端点跳转标识对应的音频数据确定为所述唤醒词对应的唤醒音频数据的首端点；

其中，所述从所述跳转标识序列中确定目标跳转标识，包括：

所述解码图包括所述音频数据对应的多个解码路径以及所述多个解码路径的跳转标识序列；基于所述多个解码路径的解码参数，从所述多个解码路径中选取满足参数条件的解码路径；从选取的解码路径的跳转标识序列中确定所述目标跳转标识；或者，

所述识别结果还包括解码路径的索引，所述索引表示所述识别结果是对所述解码路径进行解码得到的；基于所述索引，确定对应的解码路径；从确定的解码路径的跳转标识序列中确定所述目标跳转标识。

2.根据权利要求1所述的方法，其特征在于，所述基于所述多个解码路径的解码参数，从所述多个解码路径中选取满足参数条件的解码路径，包括：

3.根据权利要求1所述的方法，其特征在于，所述目标跳转标识为从所述跳转标识序列中查询到的满足所述目标条件的跳转标识，所述从所述跳转标识序列中确定目标跳转标识，包括：

依次查询所述跳转标识序列中的跳转标识；

4.根据权利要求3所述的方法，其特征在于，所述依次查询所述跳转标识序列中的跳转标识，包括：

5.根据权利要求3或4所述的方法，其特征在于，所述目标跳转标识为从所述跳转标识序列中查询到的满足所述目标条件的多个连续跳转标识，所述依次查询所述跳转标识序列中的跳转标识，包括：

依次查询所述跳转标识序列中多个连续跳转标识；

6.根据权利要求3所述的方法，其特征在于，所述目标跳转标识为从所述跳转标识序列中查询到的对应音素属于所述唤醒音素序列的跳转标识，所述在查询的跳转标识不满足所述目标条件的情况下，继续查询下一跳转标识，直至从所述跳转标识序列中查询到满足所述目标条件的跳转标识，包括：

获取查询的跳转标识和音素的映射关系；

基于所述映射关系，确定所述跳转标识对应的音素；

7.根据权利要求3所述的方法，其特征在于，所述目标跳转标识为从所述跳转标识序列中查询到的与所述唤醒音素序列对应的跳转标识集合中的任一跳转标识相同的跳转标识；所述在查询的跳转标识不满足所述目标条件的情况下，继续查询下一跳转标识，直至从所述跳转标识序列中查询到满足所述目标条件的跳转标识，包括：

8.根据权利要求3所述的方法，其特征在于，所述方法还包括：

9.根据权利要求1所述的方法，其特征在于，所述方法还包括：

10.根据权利要求1所述的方法，其特征在于，所述接收输入的音频数据，对所述音频数据进行识别处理，输出识别结果，包括：

接收所述音频数据，所述音频数据包括多个音频帧；

输出所述识别结果。

11.一种音频数据处理装置，其特征在于，所述装置包括：

第二确定模块，用于基于所述目标跳转标识表示的跳转路径，从所述目标跳转标识中确定首端点跳转标识，所述首端点跳转标识表示的跳转路径包括所述唤醒音素序列中第一个音素；将所述首端点跳转标识对应的音频数据确定为所述唤醒词对应的唤醒音频数据的首端点；

其中，所述第一确定模块用于从所述跳转标识序列中确定目标跳转标识，包括：

所述解码图包括所述音频数据对应的多个解码路径以及所述多个解码路径的跳转标识序列；所述第一确定模块包括选取单元和确定单元，所述选取单元，用于基于所述多个解码路径的解码参数，从所述多个解码路径中选取满足参数条件的解码路径；所述确定单元，用于从选取的解码路径的跳转标识序列中确定所述目标跳转标识；或者，

所述识别结果还包括解码路径的索引，所述索引表示所述识别结果是对所述解码路径进行解码得到的；所述第一确定模块，用于基于所述索引，确定对应的解码路径；从确定的解码路径的跳转标识序列中确定所述目标跳转标识。

12.一种电子设备，其特征在于，所述电子设备包括：

处理器和存储器，所述存储器中存储有至少一条程序代码，所述至少一条程序代码由所述处理器加载并执行，以实现如权利要求1至权利要求11任一项所述的音频数据处理方法。

13.一种计算机可读存储介质，其特征在于，所述存储介质中存储有至少一条程序代码，所述至少一条程序代码由处理器加载并执行，以实现如权利要求1至权利要求11任一项所述的音频数据处理方法。

14.一种计算机程序产品，其特征在于，所述计算机程序产品包括至少一条程序代码，所述至少一条程序代码由处理器加载并执行，以实现如权利要求1至权利要求11任一项所述的音频数据处理方法。