CN118210470B

CN118210470B - 音频的播放方法、装置、电子设备和存储介质

Info

Publication number: CN118210470B
Application number: CN202410631959.9A
Authority: CN
Inventors: 刘宁; 王琪; 赵立峰
Original assignee: Nanjing Leyunrui Information Technology Co ltd
Current assignee: Nanjing Leyunrui Information Technology Co ltd
Priority date: 2024-05-21
Filing date: 2024-05-21
Publication date: 2024-08-13
Anticipated expiration: 2044-05-21
Also published as: CN118210470A

Abstract

本公开提供了一种音频的播放方法、装置、电子设备和存储介质；其中，该方法包括：对需要播放的原始音频数据进行并行的数字音频信号编码，得到多个目标编码音频数据；将多个目标编码音频数据封装为多个目标音频帧，将多个目标音频帧同步至所有的可通信音频播放设备；响应于切换音频播放设备的切换指令，确定切换指令指示的至少一个候选音频播放设备；切换指令用于指示音频切换位置；对至少一个候选音频播放设备进行最优播放设备识别，得到目标音频播放设备；向目标音频播放设备发送音频切换播放指令，以使得目标音频播放设备基于目标编码音频数据以音频切换位置为起始进行音频播放。本公开可以降低音频播放设备切换时的播放延迟。

Description

音频的播放方法、装置、电子设备和存储介质

技术领域

本公开涉及音频处理技术领域，尤其是涉及一种音频的播放方法、装置、电子设备和存储介质。

背景技术

在多播放设备的系统中，会涉及到音频播放设备的切换场景，例如，智能家居系统的控制模块可以控制音频从手机播放切换到电视、或卧室音响上播放。

现有的切换音频播放设备的技术通常是在被切换的音频播放设备收到指令之后开始对音频数据进行编码播放，这种方式存在切换播放时延迟过大的技术问题。

发明内容

有鉴于此，本公开的目的在于提供一种音频的播放方法、装置、电子设备和存储介质，以减少音频播放设备切换时的播放延迟。

第一方面，本公开实施例提供了一种音频的播放方法，方法包括：对需要播放的原始音频数据进行并行的数字音频信号编码，得到多个目标编码音频数据；将所述多个目标编码音频数据封装为多个目标音频帧，将所述多个目标音频帧同步至所有的可通信音频播放设备；响应于切换音频播放设备的切换指令，确定所述切换指令指示的至少一个候选音频播放设备；所述切换指令用于指示音频切换位置；对所述至少一个候选音频播放设备进行最优播放设备识别，得到目标音频播放设备；向所述目标音频播放设备发送音频切换播放指令，以使得所述目标音频播放设备基于所述目标编码音频数据以所述音频切换位置为起始进行音频播放。

第二方面，本公开实施例提供了一种音频的播放方法，应用于音频播放设备，方法包括：响应于音频切换播放指令，根据所述音频切换播放指令指示的音频切换位置，确定第一音频片段和第二音频片段；其中，所述第一音频片段为所述音频切换位置之前预设时长内的多个音频帧，所述第二音频片段为所述音频切换位置之后预设时长内的多个音频帧；根据所述第一音频片段在原始音频播放设备中的播放参数，对所述第二音频片段进行渐变叠加，得到目标音频片段；对所述目标音频片段进行播放。

第三方面，本公开实施例提供了一种音频的播放装置，装置包括：编码模块，用于对需要播放的原始音频数据进行并行的数字音频信号编码，得到多个目标编码音频数据；同步模块，用于将所述多个目标编码音频数据封装为多个目标音频帧，将所述多个目标音频帧同步至所有的可通信音频播放设备；初选模块，用于响应于切换音频播放设备的切换指令，确定所述切换指令指示的至少一个候选音频播放设备；所述切换指令用于指示音频切换位置；择优模块，用于对所述至少一个候选音频播放设备进行最优播放设备识别，得到目标音频播放设备；指示模块，用于向所述目标音频播放设备发送音频切换播放指令，以使得所述目标音频播放设备基于所述目标编码音频数据以所述音频切换位置为起始进行音频播放。

第四方面，本公开实施例提供了一种音频的播放装置，装置包括：响应模块，用于响应于音频切换播放指令，根据所述音频切换播放指令指示的音频切换位置，确定第一音频片段和第二音频片段；其中，所述第一音频片段为所述音频切换位置之前预设时长内的多个音频帧，所述第二音频片段为所述音频切换位置之后预设时长内的多个音频帧；叠加模块，用于根据所述第一音频片段在原始音频播放设备中的播放参数，对所述第二音频片段进行渐变叠加，得到目标音频片段；播放模块，用于对所述目标音频片段进行播放。

第五方面，本公开实施例提供了一种电子设备，包括处理器和存储器，存储器存储有能够被处理器执行的机器可执行指令，处理器执行机器可执行指令以实现上述音频的播放方法。

第六方面，本公开实施例提供了一种计算机可读存储介质，计算机可读存储介质存储有计算机可执行指令，计算机可执行指令在被处理器调用和执行时，计算机可执行指令促使处理器实现上述音频的播放方法。

本公开实施例带来了以下有益效果：

上述音频的播放方法、装置、电子设备和存储介质，预先对需要播放的音频进行并行的编码和音频帧的封装后同步到所有的可通信音频播放设备，当切换指令被触发时，确定所要切换的最优的目标音频播放设备之后，向目标音频播放设备发送音频切换播放指令，以使得目标音频播放设备播放预先接收到的音频帧，达到切换音频播放设备时的无缝衔接效果，音频播放设备切换时的播放延迟得以降低。

本公开的其他特征和优点将在随后的说明书中阐述，并且，部分地从说明书中变得显而易见，或者通过实施本公开而了解。本公开的目的和其他优点在说明书、权利要求书以及附图中所特别指出的结构来实现和获得。

为使本公开的上述目的、特征和优点能更明显易懂，下文特举较佳实施例，并配合所附附图，作详细说明如下。

附图说明

为了更清楚地说明本公开具体实施方式或现有技术中的技术方案，下面将对具体实施方式或现有技术描述中所需要使用的附图作简单地介绍，显而易见地，下面描述中的附图是本公开的一些实施方式，对于本领域技术人员来讲，在不付出创造性劳动的前提下，还可以根据这些附图获得其他的附图。

图1为本公开实施例中音频的播放方法的一个实施例流程图；

图2为本公开实施例中音频的播放方法的另一个实施例流程图；

图3为本公开实施例中音频的播放方法的另一个实施例流程图；

图4为本公开实施例提供的一种音频的播放装置的一个示意图；

图5为本公开实施例提供的一种音频的播放装置的另一个示意图；

图6为本公开实施例提供的一种电子设备的示意图。

具体实施方式

为使本公开实施例的目的、技术方案和优点更加清楚，下面将结合附图对本公开的技术方案进行清楚、完整地描述，显然，所描述的实施例是本公开一部分实施例，而不是全部的实施例。基于本公开中的实施例，本领域技术人员在没有做出创造性劳动前提下所获得的所有其他实施例，都属于本公开保护的范围。

本公开的说明书和权利要求书及上述附图中的术语“第一”、“第二”、“第三”、“第四”等（如果存在）是用于区别类似的对象，而不必用于描述特定的顺序或先后次序。应该理解这样使用的数据在适当情况下可以互换，以便这里描述的实施例能够以除了在这里图示或描述的内容以外的顺序实施。此外，术语“包括”或“具有”及其任何变形，意图在于覆盖不排他的包含，例如，包含了一系列步骤或单元的过程、方法、系统、产品或设备不必限于清楚地列出的那些步骤或单元，而是可包括没有清楚地列出的或对于这些过程、方法、产品或设备固有的其它步骤或单元。

为便于理解，下面对本公开实施例的具体流程进行描述，请参阅图1，本公开实施例中音频的播放方法的一个实施例包括：

步骤S10、对需要播放的原始音频数据进行并行的数字音频信号编码，得到多个目标编码音频数据；

本实施方式中，需要播放的原始音频数据是数字表示形式的模拟音频信号，通过并行的数字音频信号编码，可以高效地获得编码格式的音频数据，即目标编码音频数据。可以理解的是，模拟音频信号是指随时间连续变化的物理量，而数字音频信号则是离散的，在一种实施方式中，通过预设的数字音频信号编码算法，对需要播放的原始音频数据进行并行的数字音频信号编码，得到多个目标编码音频数据。具体的，预设的数字音频信号编码算法可以是脉冲编码调制（pulse code modulation，PCM）算法、脉冲密度调制（pulsedensity modulation，PDM）算法等可以将模拟音频信号转换为数字音频信号的算法，具体此处不做限定。

需要说明的是，需要播放的原始音频数据可以是目标音频对象的部分/全部，也就是说，需要播放的原始音频数据可以是目标音频对象的模拟音频信号片段，也可以是目标音频对象的完整模拟音频信号，例如，当前需要播放一首歌曲，那么，这首歌曲即目标音频对象，而需要播放的原始音频数据可以是这首歌曲的一部分模拟音频信号（即模拟音频信号片段），也可以是这整首歌曲的全部、完整的模拟音频信号，具体此处不做限定。

进一步的，目标音频对象可以是正在原始音频播放设备播放的音频对象，也可以是任意指定的音频对象，指定的音频对象可以是未在任何音频播放设备播放的音频对象。例如，目标音频对象可以是正在音响A播放的音乐，也可以是在手机、或流媒体盒子中被选中的指定音乐，还可以是正在电视上播放的节目音频等，具体此处不做限定。需要说明的是，原始音频播放设备可以是除目标音频播放设备之外的任意具有音频播放功能的设备，具体此处不做限定。

本实施方式中，为提高音频切换播放的流畅度，降低播放延时，采用并行编码的方式对需要播放的原始音频数据进行数字音频信号编码，从而得到多个目标编码音频数据。在一种实施方式中，可以按照预设并行数量，将需要播放的原始音频数据划分为至少预设并行数量的份数，得到多份原始音频数据，再至少一次地同时对每份原始音频数据进行数字音频信号编码，得到多个目标编码音频数据，其中，预设并行数量用于指示每次同时进行数字音频信号编码的原始音频数据的份数。例如，假设预设的并行数量为5，那么，可以将需要播放的原始音频数据划分为5的倍数份，假设为10份，那么，则需要进行2次并行的数字音频信号编码，每次均同时对5份原始音频数据进行数字音频信号编码，从而得到10个目标编码音频数据。可以理解的是，预设并行数量越大、或每次编码的数据量越小，编码的效率越高，音频切换播放的流畅度越高，播放延时越低。

在一种实施方式中，在进行并行的数字音频信号编码时可以对需要播放的原始音频数据进行并行采样，得到多个目标采样值，再对多个目标采样值进行数字音频信号转换，从而得到多个目标编码音频数据，其中，每个目标编码音频数据可以对应一个目标采样值。在一种实施方式中，可以在进行数字音频信号编码的任意处理过程中采用并行的处理方式，例如，假设通过PCM算法进行数字音频信号编码，那么，可以对PCM算法中的任意处理过程采用并行的处理方式，如并行采样、并行量化、并行转换、和/或并行重建等，具体此处不做限定。

步骤S20、将多个目标编码音频数据封装为多个目标音频帧，将多个目标音频帧同步至所有的可通信音频播放设备；

本实施方式中，为便于音频播放设备的播放，预先将多个目标编码音频数据封装为音频帧的形式，得到多个目标音频帧之后，再将多个目标音频帧同步到所有可通信的音频播放设备，以便于在切换音频播放设备时，切换的目标音频播放设备可以快速地从本地获取可播放的目标音频帧，从而快速地进行音频播放，降低切换播放的延时。在一种实施方式中，如果一个目标编码音频数据对应一个目标采样值，那么，一个目标音频帧可以包含多个目标编码音频数据。例如，可以将480个目标采样值封装为一个目标音频帧，如果每秒同步100帧到一个可通信音频播放设备，那么，则每秒可以同步48000个目标采样值到该可通信音频播放设备，具体此处不做限定。

在一种实施方式中，还可以将同步相关的信息以帧头信息的形式封装到目标音频帧中，同步相关的信息用于指示音频的同步播放，其中，同步相关的信息可以包括帧序号和时间信息（如时间戳、采样位置时间等），具体此处不做限定。可以理解的是，音频帧是对音频数据进行组织和打包的方式，能够方便地在不同设备之间进行传输。通过将编码后的音频数据打包成音频帧，可以在网络上传输或在存储设备上存储，以便于后续的解码和播放；另外，音频帧还包含元数据信息，比如采样率、位深度、声道数等，这些元数据信息对于解码和播放是非常重要的，通过封装音频数据为音频帧，能够在数据中添加这些关键的元数据信息，确保在解码端能够正确地理解和处理音频数据；音频帧还会包含时间戳或其他同步信息，以确保音频数据在播放时能够按照正确的顺序和时间被解码和输出，这对于实时通信或多媒体应用非常重要，能够保证音频和视频的同步播放。

可以理解的是，可通信音频播放设备是指处于可通信状态的音频播放设备，例如，假设本公开实施例应用于服务器，那么，可通信音频播放设备是指可以与服务器通信的音频播放设备；假设本公开实施例应用于流媒体盒子，那么，可通信音频播放设备可以是指与该流媒体盒子处于同一局域网的音频播放设备、也可以是指能够与同一服务器通信的音频播放设备、还可以是指通过任意通信方式（如蓝牙）能与该流媒体盒子进行通信的音频播放设备。需要说明的是，服务器可以作为本公开实施例的执行主体，也可以作为本公开实施例的数据中转载体，具体此处不做限定。

步骤S30、响应于切换音频播放设备的切换指令，确定切换指令指示的至少一个候选音频播放设备；切换指令用于指示音频切换位置；

可以理解的是，用户可以通过任意形式触发切换音频播放设备的切换指令，响应于切换音频播放设备的切换指令，基于切换指令，确定至少一个候选音频播放设备。例如，用户可以向任意的可通信音频播放设备或音频控制设备发送语音指令“将音乐切换到房间”，也可以通过遥控器或手机控制音频播放设备的切换，还可以通过音频播放设备上的控件切换音频播放设备等方式触发切换指令，具体此处不做限定。

需要说明的是，候选音频播放设备是所有可通信音频播放设备中的任意一个，切换指令可以明确指示一个所要切换的音频播放设备，也可以指示所要切换的音频播放设备的范围/条件，当切换指令明确指示一个所要切换的音频播放设备时，该音频播放设备即目标音频播放设备，当切换指令指示所要切换的音频播放设备的范围/条件时，至少一个候选音频播放设备即符合所要切换的音频播放设备的范围/条件的可通信音频播放设备。例如，当用户通过任意一个可通信音频播放设备上的控件将音频切换到该设备上播放时，该可通信音频播放设备即为目标音频播放设备；而当用户通过语音指令“将音乐切换到房间”，那么，房间内的所有可通信音频播放设备均符合该语音指令，即房间内的所有可通信音频播放设备均属于候选音频播放设备，例如可以包括房间内的音响、房间内的电视、房间内的耳机、房间内的电脑等，具体此处不做限定。

步骤S40、对至少一个候选音频播放设备进行最优播放设备识别，得到目标音频播放设备；

本实施方式中，目标音频播放设备是所有候选音频播放设备中最优的音频播放设备，例如，目标音频播放设备可以是所有候选音频播放设备中网络传输速度最快的音频播放设备、用户偏好程度最高的音频播放设备、设备性能最佳的音频播放设备。在一种实施方式中，通过预设的播放适宜性评分策略，对至少一个候选音频播放设备进行播放适宜性评分，得到评分结果，再根据评分结果确定目标音频播放设备。

在一种实施方式中，目标音频播放设备可以是1个或1个以上，具体此处不做限定。例如，通过预设的播放适宜性评分策略，获得3个候选音频播放设备的播放适宜性分值相同且最高，那么，则可以将这3个候选音频播放设备均确定为目标音频播放设备，具体此处不做限定。

步骤S50、向目标音频播放设备发送音频切换播放指令，以使得目标音频播放设备基于目标编码音频数据以音频切换位置为起始进行音频播放。

本实施方式中，确定目标音频播放设备之后，向目标音频播放设备发送音频切换播放指令，目标音频播放设备响应于音频切换播放指令，基于目标编码音频数据以音频切换位置为起始进行音频播放。例如，在实际应用中，用户在家中安装有智能语音交互系统，每个房间均安装有音频播放设备，用户可以通过智能语音交互系统中的控制模块触发切换音频播放设备的切换指令，将正在播放的目标音频对象从音频播放设备A无缝切换到音频播放设备B，其中，控制模块可以设置/安装在智能语音交互系统的任意设备中，如用户的手机、流媒体盒子、和/或任意的音频播放设备均可，具体此处不做限定。

上述实施方式提供的音频的播放方法，预先对需要播放的音频进行并行的编码和音频帧的封装后同步到所有的可通信音频播放设备，当切换指令被触发时，确定所要切换的最优的目标音频播放设备之后，向目标音频播放设备发送音频切换播放指令，以使得目标音频播放设备播放预先接收到的音频帧，达到切换音频播放设备时的无缝衔接效果，音频播放设备切换时的播放延迟得以降低。

请参阅图2，本公开实施例中音频的播放方法的另一个实施例包括：

步骤S201、对需要播放的原始音频数据进行并行的数字音频信号编码，得到多个目标编码音频数据；

在一种实施方式中，步骤S201包括：实时获取需要播放的原始音频数据；其中，原始音频数据为正在原始音频播放设备中播放的音频对象的待播放片段；对原始音频数据进行浮点样本采样，得到多个浮点样本音频数据；并行对多个浮点样本音频数据进行数字音频信号编码，得到多个目标编码音频数据。

需要说明的是，原始音频播放设备是指音频播放设备切换之前正在播放目标音频对象的音频播放设备，本实施方式采用分段式的编码技术，对目标音频对象进行分段式的编码，具体的，需要播放的原始音频数据是目标音频对象的待播放片段，待播放片段是目标音频对象的一部分，格式与原始音频数据一样。例如，假设在音频播放设备切换之前正在播放音乐A的原始音频播放设备为音频播放设备01，那么，音乐A即目标音频对象，假设音乐A被划分为100个片段，正在播放的片段为第80个片段，那么，第81个片段即为音乐A的待播放片段，也就是需要播放的原始音频数据，具体此处不做限定。

本实施方式中，在将随时间连续变化的模拟音频信号转换为离散的数字音频信号时，通过浮点样本采样可以有效地提高音频播放的音质，使音频播放设备切换之后的音频质量也得到保证。需要说明的是，浮点样本音频数据是指用浮点数表示的模拟音频信号，在一种实施方式中，可以先将原始音频数据转换为浮点数，得到浮点音频数据，再按照预设的采样频率，对浮点音频数据进行采样，得到多个浮点样本音频数据。例如，假设原始音频数据是16位整数的格式，量化范围有限,难以满足高保真音频的需求，而浮点数可以采用IEEE754的IEEE二进制浮点数算术标准，使音频质量提高。

本实施方式中，获得多个浮点样本音频数据之后，并行地将多个浮点样本音频数据转换为数字音频信号，得到多个目标编码音频数据，具体的，在一种实施方式中，并行对多个浮点样本音频数据进行量化和编码，得到多个目标编码音频数据。本实施方式通过并行编码的方式提高音频的编码效率，使得所有的可通信音频播放设备可以更高效地接收到待播放的音频片段，使音频播放设备切换时的播放延迟减少。

在一种实施方式中，上述对原始音频数据进行浮点样本采样，得到多个浮点样本音频数据，包括：按照预设的采样频率，对原始音频数据进行采样，得到多个整数样本音频数据；将多个整数样本音频数据转换为浮点数，得到多个第一样本音频数据；对多个第一样本音频数据进行归一化处理，得到多个浮点样本音频数据。

本实施方式中，首先按照预设的采样频率对原始音频数据进行采样，得到多个整数样本音频数据，再将多个整数样本音频数据转换为浮点数，获得每个整数样本音频数据对应的第一样本音频数据，其中，第一样本音频数据为浮点数，例如，假设整数样本音频数据为16位的整数值，转换为浮点数之后，获得的第一样本音频数据可以为32位浮点数，具体此处不做限定。在一种实施方式中，可以通过查表或定点浮点转换指令(如Intel的CVT指令)将多个整数样本音频数据转换为浮点数。接着，将多个第一样本音频数据归一化到[−1,1]区间，得到多个浮点样本音频数据，以便于后续运算。

在一种实施方式中，上述并行对多个浮点样本音频数据进行数字音频信号编码，得到多个目标编码音频数据，包括：通过单指令多数据算法，对多个浮点样本音频数据进行预设并行数量的并行音频特征参量提取，得到多个音频特征参量；对多个音频特征参量进行量化编码和冗余信息去除，得到多个目标编码音频数据。可以理解的是，单指令多数据（single instruction multiple data，SIMD）算法是一种可以同时并行处理多个数据的指令，可以提高处理数据的效率，本实施方式中，通过SIMD指令同时对预设并行数量的浮点样本音频数据进行数字音频信号编码，从而获得多个目标编码音频数据。具体的，首先通过SIMD指令同时对预设并行数量的浮点样本音频数据进行音频特征参量提取，得到每个浮点样本音频数据对应的音频特征参量，再对多个音频特征参量进行量化编码和冗余信息去除，得到每个音频特征参量对应的目标编码音频数据。例如，对多个浮点样本音频数据进行变换域分析，可以提取音频特征参量，音频特征参量可以是线性预测系数(linearprediction coefficients，LPC)、梅尔频率倒谱系数(mel-frequency cepstralcoefficient，MFCC)等，音频特征参量可以用于后续信号的表示和重建；再对多个音频特征参量进行量化编码，去除冗余信息，得到压缩后的音频码流（即多个目标编码音频数据），其中，可采用矢量量化( Vector Quantization，VQ)、代数码本激励线性预测(algebraiccodebook excited linear prediction，ACELP)等编码算法进行量化编码，以控制码率和失真的平衡。

步骤S202、将多个目标编码音频数据封装为多个目标音频帧，将多个目标音频帧同步至所有的可通信音频播放设备；

在一种实施方式中，步骤S202包括：获取每个目标编码音频数据的采样信息，将预设数量的目标编码音频数据与对应的采样信息封装为一个音频帧，得到多个目标音频帧；通过局域网将多个目标音频帧同步至所有的可通信音频播放设备。本实施方式中，将每个目标编码音频数据采样时的相关采样数据封装到音频帧中，以获得多个目标音频帧，其中，每个音频帧包含预设数量的目标编码音频数据和每个目标编码音频数据对应的采样信息，采样信息可以包括帧序号、采样的时间戳和同步信息等，具体此处不做限定。接着，再通过局域网以UDP（User Datagram Protocol，用户数据报协议）包的方式将多个目标音频帧分发给所有的可通信音频播放设备，可通信音频播放设备将接收到的多个目标音频帧的储存在缓存区，以在接收到切换音频播放设备的切换指令之后进行多个目标音频帧的播放。

步骤S203、响应于切换音频播放设备的切换指令，确定切换指令指示的至少一个候选音频播放设备；切换指令用于指示音频切换位置；

在一种实施方式中，步骤S203包括：响应于切换音频播放设备的切换指令，判断切换指令是否为语音类型的切换指令；若切换指令为语音类型的切换指令，则对切换指令中的语音内容进行语义识别，得到切换指令指示的至少一个候选音频播放设备；若切换指令为非语音类型的切换指令，则对切换指令进行音频播放设备的信息解析，得到切换指令指示的至少一个候选音频播放设备。

可以理解的是，用户可以通过任意形式触发切换音频播放设备的切换指令，不同形式触发的切换指令对应不同的指令类型，指令类型包括但不限于语音类型、软件类型、遥控器类型、设备控件类型等，具体此处不做限定。本实施方式中，响应于切换音频播放设备的切换指令，判断切换指令的指令类型是否为语音类型，如果是，则对切换指令所指示的语音内容进行语义识别，从而确定至少一个候选音频播放设备。例如，用户可以对智能语音交互系统中任意一个设置/安装有控制模块的设备说：“将音乐切换到房间播放”，那么，通过对语音内容“将音乐切换到房间播放”进行语义识别，可以将所有处于房间的可通信音频播放设备确定为候选音频播放设备。而如果切换指令为语音类型之外的指令类型，则通过对切换指令进行音频播放设备的信息解析，即可获得切换指令所指示的至少一个候选音频播放设备，例如，用户可以在手机上安装的智能语音交互系统控制软件点击“在房间播放语音”的按键，通过解析该按键的信息，即可将所有处于房间的可通信音频播放设备确定为候选音频播放设备。

步骤S204、根据每个候选音频播放设备所处环境的环境参数和设备属性参数，对每个候选音频播放设备进行播放适宜性评分，得到每个候选音频播放设备对应的播放适宜性分值；

本实施方式中，通过播放适宜性评分，可以在所有的候选音频播放设备中选出最适宜播放的目标音频播放设备，使音频播放设备的切换体验更佳。具体的，根据每个候选音频播放设备所处环境的环境参数和设备属性参数，计算每个候选音频播放设备对应的播放适宜性分值。其中，环境参数可以是任意与环境中的声音相关的参数，如环境噪声水平、说话人是否处于任意候选音频播放设备所处的指定空间、候选音频播放设备所处环境是否处于静音模式等，具体此处不做限定；候选音频播放设备的设备属性参数包括候选音频播放设备的硬件属性参数和用户配置参数，硬件属性参数可以是候选音频播放设备的信噪比、输入灵敏度、转换速率、通道串扰、共模抑制比、阻尼系数等，用户配置参数可以是音量、静音模式开关、切换优先级、音效模式等用户可配置的参数，具体此处不做限定。

在一种实施方式中，可以通过预设的播放适宜性评分函数，对每个候选音频播放设备所处环境的环境参数和设备属性参数进行播放适宜性评分，从而得到每个候选音频播放设备对应的播放适宜性分值。例如，作为示例而非限定的是，一种播放适宜性评分函数可以是：

Score = w1 * parameter1 + w2 * parameter2

w1 + w2 = 1

其中，Score是指候选音频播放设备对应的播放适宜性分值，parameter1是指环境参数，w1是指环境参数的权重，parameter2是指设备属性参数，w2是指设备属性参数的权重。

在一种实施方式中，环境参数包括环境噪声水平，设备属性参数包括预期网络传输延迟时长、设备性能参数和设备偏好参数；步骤S204包括：通过预设的环境噪声评估模型对每个候选音频播放设备进行环境噪声水平评估，得到每个候选音频播放设备所处环境的环境参数；获取每个候选音频播放设备的实时网络传输参数，根据实时网络传输参数，对每个候选音频播放设备进行网络传输延迟时长预测，得到每个候选音频播放设备对应的预期网络传输延迟时长；获取每个候选音频播放设备的设备性能参数和设备偏好参数，通过预设的播放适宜性评分函数，对每个候选音频播放设备所处环境的环境参数、预期网络传输延迟时长、设备性能参数和设备偏好参数进行播放适宜性分值计算，得到每个候选音频播放设备对应的播放适宜性分值。

本实施方式中，通过环境噪声评估模型对每个候选音频播放设备所处环境的实时声音数据进行环境噪声水平评估，得到每个候选音频播放设备所处环境的环境参数，其中，实时声音数据可以由对应的候选音频播放设备实时录制，也可以由处于同一环境的音频录制设备实时录制，具体此处不做限定。例如，假设一个候选音频播放设备所处的环境具有较高的装修噪音，那么，该候选音频播放设备所处环境的环境噪声水平指示该环境噪声较大。

本实施方式中，根据每个候选音频播放设备的实时网络传输参数，可以预测每个候选音频播放设备若作为目标音频播放设备，可能的网络传输延迟时长，即预期网络传输延迟时长。另外，本实施方式还结合设备性能参数和设备偏好参数进行播放适宜性分值计算，使播放适宜性评估的准确性更高，其中，设备性能参数可以是任意用于指示候选音频播放设备性能的参数，设备偏好参数是指用户对候选音频播放设备的偏好程度，可以根据历史指定播放的次数确定，具体此处不做赘述。

在一种实施方式中，一种预设的播放适宜性评分函数可以是：

Score = w1 * UserPrefer + w2 * Delay + w3 * Noise + w4 * Capacity

w1 + w2 + w3 + w4 = 1

其中，Score是指候选音频播放设备对应的播放适宜性分值，UserPrefer表示设备偏好参数，w1表示设备偏好参数对应的权重，Delay表示预期网络传输延迟时长，w2表示预期网络传输延迟时长对应的权重，Noise表示环境噪声水平，w3表示环境噪声水平对应的权重，Capacity表示设备性能参数，w4表示设备性能参数对应的权重。

步骤S205、将播放适宜性分值最高的候选音频播放设备确定为目标音频播放设备；

在一种实施方式中，目标音频播放设备可以是1个或1个以上，可以将播放适宜性分值高于预设分值阈值的候选音频播放设备确定为目标音频播放设备，也可以根据播放适宜性分值对候选音频播放设备进行排序，将排名前N（N为正整数）的候选音频播放设备确定为目标音频播放设备，还可以通过其他方式根据播放适宜性分值确定至少一个目标音频播放设备，具体此处不做限定。

步骤S206、向目标音频播放设备发送音频切换播放指令，以使得目标音频播放设备基于目标编码音频数据以音频切换位置为起始进行音频播放。

在一种实施方式中，步骤S206之后，还包括：根据目标音频播放设备反馈的播放信息，对目标音频播放设备的播放状态进行监测，得到监测结果；根据监测结果，确定针对目标音频播放设备的音频帧同步策略。本实施方式中，在向目标音频播放设备发送音频切换播放指令之后，还对目标音频播放设备的播放状态进行实时的采集和监测，具体的，接收目标音频播放设备实时反馈的播放信息，再根据播放信息对目标音频播放设备的播放状态进行实时分析和监测，得到监测结果，再根据监测结果，确定是否需要调整针对目标音频播放设备的音频帧同步策略，以及所要调整的音频帧同步策略，其中，播放信息用于指示目标音频播放设备的播放状态，可以包括播放进度、缓冲量、CPU负载等，具体此处不做限定。例如，假设监测到目标音频播放设备的CPU负载高于预设警戒值，则可以指示目标音频播放设备采用较低同步量的音频帧同步策略，具体可以通过音频切换播放指令指示音频帧同步策略。

在一种实施方式中，上述根据监测结果，确定针对目标音频播放设备的音频帧同步策略，包括：若监测结果指示目标音频播放设备无法响应，则向次优播放设备发送音频切换播放指令；其中，次优播放设备为播放适宜性分值仅次于目标音频播放设备的候选音频播放设备。本实施方式中，如果监测到目标音频播放设备无法响应，则向次优播放设备发送音频切换播放指令，以使得次优播放设备响应于音频切换播放指令，基于当前的音频切换位置进行音频播放，其中，次优播放设备是指播放适宜性分值仅次于目标音频播放设备的候选音频播放设备，当前的音频切换位置是指向次优播放设备发送音频切换播放指令时，目标音频对象的播放位置。

上述实施方式提供的音频的播放方法，预先对需要播放的音频进行并行的编码和音频帧的封装后同步到所有的可通信音频播放设备，当切换指令被触发时，通过播放适宜性评分确定所要切换的最优的目标音频播放设备之后，向目标音频播放设备发送音频切换播放指令，以使得目标音频播放设备播放预先接收到的音频帧，达到切换音频播放设备时的无缝衔接效果，音频播放设备切换时的播放延迟得以降低，播放适宜性评分也使得用户的体验更佳。

请参阅图3，本公开实施例中音频的播放方法的另一个实施例，应用于音频播放设备，包括：

步骤S301、响应于音频切换播放指令，根据音频切换播放指令指示的音频切换位置，确定第一音频片段和第二音频片段；其中，第一音频片段为音频切换位置之前预设时长内的多个音频帧，第二音频片段为音频切换位置之后预设时长内的多个音频帧；

本实施方式中，音频播放设备接收到音频切换播放指令之后，对音频切换播放指令进行解析，确定音频切换位置、第一音频片段和第二音频片段，其中，第一音频片段是指音频切换位置之前预设时长内的多个音频帧，第二音频片段为音频切换位置之后预设时长内的多个音频帧。例如，假设音频切换位置在一首歌曲的2:05，那么，第一音频片段可以是这首歌曲2:04-2:05的多个音频帧，第二音频片段可以是这首歌曲2:05-2:06的多个音频帧，具体此处不做限定。

步骤S302、根据第一音频片段在原始音频播放设备中的播放参数，对第二音频片段进行渐变叠加，得到目标音频片段；

可以理解的是，渐变叠加(Crossfading)是一种音频信号处理技术，用于在两个不同的音频片段之间实现平滑的过渡，避免突变和断续，其基本原理是在过渡区间内，逐渐降低前一个片段的音量，同时逐渐增加后一个片段的音量，两个片段的音频信号按照一定的比例叠加在一起，最终实现无缝衔接。具体的，播放参数可以包括音量参数、音色参数和音高参数等。

在一种实施方式中，步骤S302包括：根据第一音频片段在原始音频播放设备中的播放参数，通过淡入淡出窗函数对第一音频片段和第二音频片段中的多个音频帧进行渐变系数计算，得到第一音频片段和第二音频片段中每个音频帧对应的目标渐变系数；根据第一音频片段和第二音频片段中每个音频帧对应的目标渐变系数，对第一音频片段和第二音频片段进行加权叠加，得到目标音频片段。

本实施方式中，通过淡入淡出窗函数传入渐变叠加的时间窗口大小，例如，20-200毫秒中的任意一个数值均可以作为时间窗口大小，可以根据音频的类型、切换的场景等因素确定时间窗口大小；再将音频切换位置作为时间窗口的中心，对时间窗口内的多个音频帧进行渐变叠加处理，例如，假设音频切换位置为第N帧，窗口大小为M帧，则渐变叠加处理的范围可以是[N-M/2，N+M/2]；对于时间窗口内的每一帧，计算每一帧的渐变系数a和b，a表示第一音频片段的权重，b表示第二音频片段的权重，满足a+b=1，且从时间窗口的第1帧开始，a从1逐渐减小到0，b从0逐渐增加到1，渐变曲线可以线性、对数、或正弦等，具体此处不做限定；将第一音频片段和第二音频片段按照渐变系数进行加权叠加，得到平滑过渡的多个音频帧，即目标音频片段，例如，假设第一音频片段为x1，第二音频片段为x2，则目标音频片段y=a*x1+b*x2。

步骤S303、对目标音频片段进行播放。

本实施方式中，通过目标音频播放设备播放目标音频片段即可完成音频播放设备的无缝切换播放。需要说明的是，播放目标音频片段之后，音频播放设备从缓存中读取目标音频片段后的多个音频片段，并有序地播放目标音频片段后的多个音频片段，达到音频的连贯播放。例如，假设音频切换位置在一首歌曲的2:05，那么，第一音频片段可以是这首歌曲2:04-2:05的多个音频帧，第二音频片段可以是这首歌曲2:05-2:06的多个音频帧，那么，经过渐变叠加之后，得到的目标音频片段是这首歌2:04-2:06的多个音频帧，这多个音频帧播放完成之后，从缓存中读取这首歌2:06之后的多个音频片段，并有序地播放这些音频片段，使得这首歌在音频播放设备中连贯播放。可以理解的是，目标音频片段后的每个音频片段包含多个目标音频帧，可以由音频切换播放指令的发送方同步到音频播放设备中，使得音频播放设备可以高效地解码播放音频。

上述实施方式提供的音频的播放方法，通过音频播放设备响应音频切换播放指令，根据前一个音频片段的播放属性进行下一个音频片段的渐变叠加播放，使得音量平稳，不出现削波失真，从而有效地平滑音频切换时的突变和差异，提供更加自然和连贯的听觉体验。

对应于上述方法实施例，参见图4所示的一种音频的播放装置的示意图，该装置包括：编码模块41，用于对需要播放的原始音频数据进行并行的数字音频信号编码，得到多个目标编码音频数据；同步模块42，用于将所述多个目标编码音频数据封装为多个目标音频帧，将所述多个目标音频帧同步至所有的可通信音频播放设备；初选模块43，用于响应于切换音频播放设备的切换指令，确定所述切换指令指示的至少一个候选音频播放设备；所述切换指令用于指示音频切换位置；择优模块44，用于对所述至少一个候选音频播放设备进行最优播放设备识别，得到目标音频播放设备；指示模块45，用于向所述目标音频播放设备发送音频切换播放指令，以使得所述目标音频播放设备基于所述目标编码音频数据以所述音频切换位置为起始进行音频播放。

上述音频的播放装置，预先对需要播放的音频进行并行的编码和音频帧的封装后同步到所有的可通信音频播放设备，当切换指令被触发时，确定所要切换的最优的目标音频播放设备之后，向目标音频播放设备发送音频切换播放指令，以使得目标音频播放设备播放预先接收到的音频帧，达到切换音频播放设备时的无缝衔接效果，音频播放设备切换时的播放延迟得以降低。

可选的，上述初选模块43具体用于：响应于切换音频播放设备的切换指令，判断所述切换指令是否为语音类型的切换指令；若所述切换指令为语音类型的切换指令，则对所述切换指令中的语音内容进行语义识别，得到所述切换指令指示的至少一个候选音频播放设备；若所述切换指令为非语音类型的切换指令，则对所述切换指令进行音频播放设备的信息解析，得到所述切换指令指示的至少一个候选音频播放设备。

可选的，上述择优模块44包括：评分单元，用于根据每个候选音频播放设备所处环境的环境参数和设备属性参数，对每个候选音频播放设备进行播放适宜性评分，得到每个候选音频播放设备对应的播放适宜性分值；择优单元，用于将播放适宜性分值最高的候选音频播放设备确定为目标音频播放设备。

可选的，所述环境参数包括环境噪声水平，所述设备属性参数包括预期网络传输延迟时长、设备性能参数和设备偏好参数；上述评分单元具体用于：通过预设的环境噪声评估模型对每个候选音频播放设备进行环境噪声水平评估，得到每个候选音频播放设备所处环境的环境参数；获取每个候选音频播放设备的实时网络传输参数，根据所述实时网络传输参数，对每个候选音频播放设备进行网络传输延迟时长预测，得到每个候选音频播放设备对应的预期网络传输延迟时长；获取每个候选音频播放设备的设备性能参数和设备偏好参数，通过预设的播放适宜性评分函数，对每个候选音频播放设备所处环境的环境参数、预期网络传输延迟时长、设备性能参数和设备偏好参数进行播放适宜性分值计算，得到每个候选音频播放设备对应的播放适宜性分值。

可选的，上述编码模块41包括：获取单元，用于实时获取需要播放的原始音频数据；其中，所述原始音频数据为正在原始音频播放设备中播放的音频对象的待播放片段；采样单元，用于对所述原始音频数据进行浮点样本采样，得到多个浮点样本音频数据；编码单元，用于并行对所述多个浮点样本音频数据进行数字音频信号编码，得到多个目标编码音频数据。

可选的，上述采样单元具体用于：按照预设的采样频率，对所述原始音频数据进行采样，得到多个整数样本音频数据；将所述多个整数样本音频数据转换为浮点数，得到多个第一样本音频数据；对所述多个第一样本音频数据进行归一化处理，得到多个浮点样本音频数据。

可选的，上述编码单元具体用于：通过单指令多数据算法，对多个浮点样本音频数据进行预设并行数量的并行音频特征参量提取，得到多个音频特征参量；对所述多个音频特征参量进行量化编码和冗余信息去除，得到多个目标编码音频数据。

可选的，上述同步模块42具体用于：获取每个目标编码音频数据的采样信息，将预设数量的目标编码音频数据与对应的采样信息封装为一个音频帧，得到多个目标音频帧；通过局域网将所述多个目标音频帧同步至所有的可通信音频播放设备。

可选的，上述装置还包括：监测模块，用于根据所述目标音频播放设备反馈的播放信息，对所述目标音频播放设备的播放状态进行监测，得到监测结果；同步模块，用于根据所述监测结果，确定针对所述目标音频播放设备的音频帧同步策略。

可选的，上述同步模块具体用于：若所述监测结果指示所述目标音频播放设备无法响应，则向次优播放设备发送音频切换播放指令；其中，所述次优播放设备为播放适宜性分值仅次于所述目标音频播放设备的候选音频播放设备。

对应于上述方法实施例，参见图5所示的一种音频的播放装置的示意图，应用于音频播放设备，该装置包括：响应模块51，用于响应于音频切换播放指令，根据所述音频切换播放指令指示的音频切换位置，确定第一音频片段和第二音频片段；其中，所述第一音频片段为所述音频切换位置之前预设时长内的多个音频帧，所述第二音频片段为所述音频切换位置之后预设时长内的多个音频帧；叠加模块52，用于根据所述第一音频片段在原始音频播放设备中的播放参数，对所述第二音频片段进行渐变叠加，得到目标音频片段；播放模块53，用于对所述目标音频片段进行播放。

上述音频的播放装置，通过音频播放设备响应音频切换播放指令，根据前一个音频片段的播放属性进行下一个音频片段的渐变叠加播放，使得音量平稳，不出现削波失真，从而有效地平滑音频切换时的突变和差异，提供更加自然和连贯的听觉体验。

可选的，上述叠加模块52具体用于：根据所述第一音频片段在原始音频播放设备中的播放参数，通过淡入淡出窗函数对所述第一音频片段和所述第二音频片段中的多个音频帧进行渐变系数计算，得到所述第一音频片段和所述第二音频片段中每个音频帧对应的目标渐变系数；根据所述第一音频片段和所述第二音频片段中每个音频帧对应的目标渐变系数，对所述第一音频片段和所述第二音频片段进行加权叠加，得到目标音频片段。

本实施例还提供一种电子设备，包括处理器和存储器，存储器存储有能够被处理器执行的机器可执行指令，处理器执行机器可执行指令以实现上述音频的播放方法。该电子设备可以是服务器，也可以是终端设备。

参见图6所示，该电子设备包括处理器600和存储器601，该存储器601存储有能够被处理器600执行的机器可执行指令，该处理器600执行机器可执行指令以实现上述音频的播放方法。

进一步地，图6所示的电子设备还包括总线602和通信接口603，处理器600、通信接口603和存储器601通过总线602连接。

其中，存储器601可能包含高速随机存取存储器（RAM，Random Access Memory），也可能还包括非不稳定的存储器（non-volatile memory），例如至少一个磁盘存储器。通过至少一个通信接口603（可以是有线或者无线）实现该系统网元与至少一个其他网元之间的通信连接，可以使用互联网，广域网，本地网，城域网等。总线602可以是ISA总线、PCI总线或EISA总线等。所述总线可以分为地址总线、数据总线、控制总线等。为便于表示，图6中仅用一个双向箭头表示，但并不表示仅有一根总线或一种类型的总线。

处理器600可能是一种集成电路芯片，具有信号的处理能力。在实现过程中，上述方法的各步骤可以通过处理器600中的硬件的集成逻辑电路或者软件形式的指令完成。上述的处理器600可以是通用处理器，包括中央处理器(Central Processing Unit，简称CPU)、网络处理器(Network Processor，简称NP)等；还可以是数字信号处理器(DigitalSignal Processor，简称DSP)、专用集成电路(Application Specific IntegratedCircuit，简称ASIC)、现场可编程门阵列(Field-Programmable Gate Array，简称FPGA)或者其他可编程逻辑器件、分立门或者晶体管逻辑器件、分立硬件组件。可以实现或者执行本公开实施例中的公开的各方法、步骤及逻辑框图。通用处理器可以是微处理器或者该处理器也可以是任何常规的处理器等。结合本公开实施例所公开的方法的步骤可以直接体现为硬件译码处理器执行完成，或者用译码处理器中的硬件及软件模块组合执行完成。软件模块可以位于随机存储器，闪存、只读存储器，可编程只读存储器或者电可擦写可编程存储器、寄存器等本领域成熟的存储介质中。该存储介质位于存储器601，处理器600读取存储器601中的信息，结合其硬件完成前述实施例的方法的步骤。

本实施例还提供一种计算机可读存储介质，计算机可读存储介质存储有计算机可执行指令，计算机可执行指令在被处理器调用和执行时，计算机可执行指令促使处理器实现上述音频的播放方法。

本公开实施例所提供的音频的播放方法、装置、电子设备及存储介质的计算机程序产品，包括存储了程序代码的计算机可读存储介质，所述程序代码包括的指令可用于执行前面方法实施例中所述的方法，具体实现可参见方法实施例，在此不再赘述。

所属领域的技术人员可以清楚地了解到，为描述的方便和简洁，上述描述的系统和装置的具体工作过程，可以参考前述方法实施例中的对应过程，在此不再赘述。

另外，在本公开实施例的描述中，除非另有明确的规定和限定，术语“安装”、“相连”、“连接”应做广义理解，例如，可以是固定连接，也可以是可拆卸连接，或一体地连接；可以是机械连接，也可以是电连接；可以是直接相连，也可以通过中间媒介间接相连，可以是两个元件内部的连通。对于本领域技术人员而言，可以具体情况理解上述术语在本公开中的具体含义。

所述功能如果以软件功能单元的形式实现并作为独立的产品销售或使用时，可以存储在一个计算机可读存储介质中。基于这样的理解，本公开的技术方案本质上或者说对现有技术做出贡献的部分或者该技术方案的部分可以以软件产品的形式体现出来，该计算机软件产品存储在一个存储介质中，包括若干指令用以使得一台计算机设备（可以是个人计算机，服务器，或者网络设备等）执行本公开各个实施例所述方法的全部或部分步骤。而前述的存储介质包括：U盘、移动硬盘、只读存储器（ROM，Read-Only Memory）、随机存取存储器（RAM，Random Access Memory）、磁碟或者光盘等各种可以存储程序代码的介质。

在本公开的描述中，需要说明的是，术语“中心”、“上”、“下”、“左”、“右”、“竖直”、“水平”、“内”、“外”等指示的方位或位置关系为基于附图所示的方位或位置关系，仅是为了便于描述本公开和简化描述，而不是指示或暗示所指的装置或元件必须具有特定的方位、以特定的方位构造和操作，因此不能理解为对本公开的限制。此外，术语“第一”、“第二”、“第三”仅用于描述目的，而不能理解为指示或暗示相对重要性。

最后应说明的是：以上实施例，仅为本公开的具体实施方式，用以说明本公开的技术方案，而非对其限制，本公开的保护范围并不局限于此，尽管参照前述实施例对本公开进行了详细的说明，本领域技术人员应当理解：任何熟悉本技术领域的技术人员在本公开揭露的技术范围内，其依然可以对前述实施例所记载的技术方案进行修改或可轻易想到变化，或者对其中部分技术特征进行等同替换；而这些修改、变化或者替换，并不使相应技术方案的本质脱离本公开实施例技术方案的精神和范围，都应涵盖在本公开的保护范围之内。因此，本公开的保护范围应以权利要求的保护范围为准。

Claims

1.一种音频的播放方法，其特征在于，所述方法包括：

实时获取需要播放的原始音频数据；其中，所述原始音频数据为正在原始音频播放设备中播放的音频对象的待播放片段；

对所述原始音频数据进行浮点样本采样，得到多个浮点样本音频数据；

通过单指令多数据算法，对多个浮点样本音频数据进行预设并行数量的并行变换域分析，得到多个为梅尔频率倒谱系数的音频特征参量；

采用代数码本激励线性预测编码算法对所述多个音频特征参量进行量化编码和冗余信息去除，得到多个目标编码音频数据；

将所述多个目标编码音频数据封装为多个目标音频帧，将所述多个目标音频帧同步至所有的可通信音频播放设备；所述目标音频帧包括采样率、位深度、声道数；

响应于切换音频播放设备的切换指令，确定所述切换指令指示的至少一个候选音频播放设备；所述切换指令用于指示音频切换位置；

根据每个候选音频播放设备的信噪比、输入灵敏度、转换速率、通道串扰、共模抑制比、阻尼系数、音量、静音模式开关、切换优先级和音效模式、以及每个候选音频播放设备所处环境的环境噪声水平、说话人是否处于任意候选音频播放设备所处的指定空间、候选音频播放设备所处环境是否处于静音模式，对所述至少一个候选音频播放设备进行最优播放设备识别，得到目标音频播放设备；

向所述目标音频播放设备发送音频切换播放指令，以使得所述目标音频播放设备基于所述目标编码音频数据以所述音频切换位置为起始进行音频播放；

接收所述目标音频播放设备实时反馈的播放信息，根据所述播放信息对所述目标音频播放设备的播放状态进行实时分析和监测，得到监测结果；其中，所述播放状态包括所述目标音频播放设备的播放进度、缓冲量、CPU负载；

根据所述监测结果，确定是否需要调整针对所述目标音频播放设备的音频帧同步策略，以及所要调整的音频帧同步策略。

2.根据权利要求1所述的方法，其特征在于，所述响应于切换音频播放设备的切换指令，确定所述切换指令指示的至少一个候选音频播放设备，包括：

响应于切换音频播放设备的切换指令，判断所述切换指令是否为语音类型的切换指令；

若所述切换指令为语音类型的切换指令，则对所述切换指令中的语音内容进行语义识别，得到所述切换指令指示的至少一个候选音频播放设备；

若所述切换指令为非语音类型的切换指令，则对所述切换指令进行音频播放设备的信息解析，得到所述切换指令指示的至少一个候选音频播放设备。

3.根据权利要求1所述的方法，其特征在于，所述对所述至少一个候选音频播放设备进行最优播放设备识别，得到目标音频播放设备，包括：

根据每个候选音频播放设备所处环境的环境参数和设备属性参数，对每个候选音频播放设备进行播放适宜性评分，得到每个候选音频播放设备对应的播放适宜性分值；

将播放适宜性分值最高的候选音频播放设备确定为目标音频播放设备。

4.根据权利要求3所述的方法，其特征在于，所述环境参数包括环境噪声水平，所述设备属性参数包括预期网络传输延迟时长、设备性能参数和设备偏好参数；

所述根据每个候选音频播放设备所处环境的环境参数和设备属性参数，对每个候选音频播放设备进行播放适宜性评分，得到每个候选音频播放设备对应的播放适宜性分值，包括：

通过预设的环境噪声评估模型对每个候选音频播放设备进行环境噪声水平评估，得到每个候选音频播放设备所处环境的环境参数；

获取每个候选音频播放设备的实时网络传输参数，根据所述实时网络传输参数，对每个候选音频播放设备进行网络传输延迟时长预测，得到每个候选音频播放设备对应的预期网络传输延迟时长；

获取每个候选音频播放设备的设备性能参数和设备偏好参数，通过预设的播放适宜性评分函数，对每个候选音频播放设备所处环境的环境参数、预期网络传输延迟时长、设备性能参数和设备偏好参数进行播放适宜性分值计算，得到每个候选音频播放设备对应的播放适宜性分值。

5.根据权利要求1所述的方法，其特征在于，所述对所述原始音频数据进行浮点样本采样，得到多个浮点样本音频数据，包括：

按照预设的采样频率，对所述原始音频数据进行采样，得到多个整数样本音频数据；

将所述多个整数样本音频数据转换为浮点数，得到多个第一样本音频数据；

对所述多个第一样本音频数据进行归一化处理，得到多个浮点样本音频数据。

6.根据权利要求1所述的方法，其特征在于，所述将所述多个目标编码音频数据封装为多个目标音频帧，将所述多个目标音频帧同步至所有的可通信音频播放设备，包括：

获取每个目标编码音频数据的采样信息，将预设数量的目标编码音频数据与对应的采样信息封装为一个音频帧，得到多个目标音频帧；

通过局域网将所述多个目标音频帧同步至所有的可通信音频播放设备。

7.根据权利要求1所述的方法，其特征在于，所述根据所述监测结果，确定是否需要调整针对所述目标音频播放设备的音频帧同步策略，以及所要调整的音频帧同步策略，包括：

若所述监测结果指示所述目标音频播放设备无法响应，则向次优播放设备发送音频切换播放指令；其中，所述次优播放设备为播放适宜性分值仅次于所述目标音频播放设备的候选音频播放设备。

8.一种音频的播放装置，其特征在于，所述装置包括：

编码模块，用于实时获取需要播放的原始音频数据；其中，所述原始音频数据为正在原始音频播放设备中播放的音频对象的待播放片段；对所述原始音频数据进行浮点样本采样，得到多个浮点样本音频数据；通过单指令多数据算法，对多个浮点样本音频数据进行预设并行数量的并行变换域分析，得到多个为梅尔频率倒谱系数的音频特征参量；采用代数码本激励线性预测编码算法对所述多个音频特征参量进行量化编码和冗余信息去除，得到多个目标编码音频数据；

同步模块，用于将所述多个目标编码音频数据封装为多个目标音频帧，将所述多个目标音频帧同步至所有的可通信音频播放设备；所述目标音频帧包括采样率、位深度、声道数；

初选模块，用于响应于切换音频播放设备的切换指令，确定所述切换指令指示的至少一个候选音频播放设备；所述切换指令用于指示音频切换位置；

择优模块，用于根据每个候选音频播放设备的信噪比、输入灵敏度、转换速率、通道串扰、共模抑制比、阻尼系数、音量、静音模式开关、切换优先级和音效模式、以及每个候选音频播放设备所处环境的环境噪声水平、说话人是否处于任意候选音频播放设备所处的指定空间、候选音频播放设备所处环境是否处于静音模式，对所述至少一个候选音频播放设备进行最优播放设备识别，得到目标音频播放设备；

指示模块，用于向所述目标音频播放设备发送音频切换播放指令，以使得所述目标音频播放设备基于所述目标编码音频数据以所述音频切换位置为起始进行音频播放；接收所述目标音频播放设备实时反馈的播放信息，根据所述播放信息对所述目标音频播放设备的播放状态进行实时分析和监测，得到监测结果；其中，所述播放状态包括所述目标音频播放设备的播放进度、缓冲量、CPU负载；根据所述监测结果，确定是否需要调整针对所述目标音频播放设备的音频帧同步策略，以及所要调整的音频帧同步策略。

9.一种电子设备，其特征在于，包括处理器和存储器，所述存储器存储有能够被所述处理器执行的机器可执行指令，所述处理器执行所述机器可执行指令以实现权利要求1-7任一项所述的音频的播放方法。

10.一种计算机可读存储介质，其特征在于，所述计算机可读存储介质存储有计算机可执行指令，所述计算机可执行指令在被处理器调用和执行时，所述计算机可执行指令促使所述处理器实现权利要求1-7任一项所述的音频的播放方法。