CN114615381A

CN114615381A - 音频数据处理方法、装置、电子设备、服务器和存储介质

Info

Publication number: CN114615381A
Application number: CN202210228022.8A
Authority: CN
Inventors: 肖又畅
Original assignee: Vivo Mobile Communication Co Ltd
Current assignee: Vivo Mobile Communication Co Ltd
Priority date: 2022-03-08
Filing date: 2022-03-08
Publication date: 2022-06-10

Abstract

本申请公开了一种音频数据处理方法、装置、电子设备、服务器和存储介质，属于通信技术领域。音频数据处理方法，包括：将多个音频数据中的第一音频数据发送至多个客户端进行播放，并对多个音频数据中的第二音频数据执行第一目标处理，第一目标处理包括以下任意一项：将第二音频数据转换为第一文本信息，并将第一文本信息发送至多个客户端进行显示，第一文本信息的显示时间与第一音频数据的播放时间的时间差值小于第二时间阈值；在第一音频数据播放结束后，将第二音频数据发送至多个客户端进行播放；删除第二音频数据。

Description

音频数据处理方法、装置、电子设备、服务器和存储介质

技术领域

本申请属于通信技术领域，具体涉及一种音频数据处理方法、装置、电子设备、服务器和存储介质。

背景技术

现有技术中，在进行多人语音对话的过程中，服务器会接收来自各个用户的语音消息，并实时进行播放。在多人同时讲话的情况下，终端输出的音频无法辨别，导致沟通效率低下。

发明内容

本申请实施例的目的是提供一种音频数据处理方法、装置、电子设备、服务器和存储介质，保证电子设备输出的音频数据足够清晰，避免了多人同时讲话声音无法辨别，提高了多人语音对话的沟通效率。

第一方面，本申请实施例提供了一种音频数据处理方法，应用于服务端，包括：接收来自多个客户端的多个音频数据；将多个音频数据中的第一音频数据发送至多个客户端进行播放，并对多个音频数据中的第二音频数据执行第一目标处理，第一目标处理包括以下任意一项：在第二音频数据的录制起始时间与第一音频数据的录制起始时间的时间差值小于第一时间阈值的情况下，将第二音频数据转换为第一文本信息，并将第一文本信息发送至多个客户端进行显示，第一文本信息的显示时间与第一音频数据的播放时间的时间差值小于第二时间阈值；在第二音频数据的录制起始时间与第一音频数据的录制起始时间的时间差值小于第一时间阈值的情况下，在第一音频数据播放结束后，将第二音频数据发送至多个客户端进行播放；删除所述第二音频数据。

第二方面，本申请实施例提供了一种音频数据处理方法，应用于第一客户端，包括：接收来自服务端的第一数据；对第一数据执行第三目标处理，第三目标处理包括以下任意一项：在第一数据包括第一音频数据和第一文本信息的情况下，播放第一音频数据，并显示第一文本信息，第一文本信息的显示时间与第一音频数据的播放时间的时间差值小于第二时间阈值，其中，第一文本信息是基于第二音频数据得到的，且第一音频数据与第二音频数据的录制起始时间的时间差值小于第一时间阈值；在第一数据包括第一音频数据和第二音频数据，且第一音频数据与第二音频数据的录制起始时间的时间差值小于第一时间阈值的情况下，播放第一音频数据，在第一音频数据播放结束后，继续播放第二音频数据。

第三方面，本申请实施例提供了一种音频数据处理方法，应用于第二客户端，包括：录制并发送音频数据至服务端；接收用户的操作输入；基于操作输入生成请求信息，请求信息用于请求服务端执行第四目标处理，第四目标处理包括以下至少一项：延迟发送音频数据、删除音频数据、将音频数据转换为文本信息。

第四方面，本申请实施例提供了一种音频数据处理装置，应用于服务端，包括：第一接收模块，用于接收来自多个客户端的多个音频数据；第一处理模块，用于将多个音频数据中的第一音频数据发送至多个客户端进行播放，并对多个音频数据中的第二音频数据执行第一目标处理，第一目标处理包括以下任意一项：在第二音频数据的录制起始时间与第一音频数据的录制起始时间的时间差值小于第一时间阈值的情况下，将第二音频数据转换为第一文本信息，并将第一文本信息发送至多个客户端进行显示，第一文本信息的显示时间与第一音频数据的播放时间的时间差值小于第二时间阈值；在第二音频数据的录制起始时间与第一音频数据的录制起始时间的时间差值小于第一时间阈值的情况下，在第一音频数据播放结束后，将第二音频数据发送至多个客户端进行播放；删除第二音频数据。

第五方面，本申请实施例提供了一种音频数据处理装置，应用于第一客户端，包括：第二接收模块，用于接收来自服务器的第一数据；第二处理模块，用于对第一数据执行第三目标处理，第三目标处理包括以下任意一项：在第一数据包括第一音频数据和第一文本信息的情况下，播放第一音频数据，并显示第一文本信息，第一文本信息的显示时间与第一音频数据的播放时间的时间差值小于第二时间阈值，其中，第一文本信息是基于第二音频数据得到的，且第一音频数据与第二音频数据的录制起始时间的时间差值小于第一时间阈值；在第一数据包括第一音频数据和第二音频数据，且第一音频数据与第二音频数据的录制起始时间的时间差值小于第一时间阈值的情况下，播放第一音频数据，在第一音频数据播放结束后，继续播放第二音频数据；在第一数据包括第一音频数据的情况下，播放第一音频数据。

第六方面，本申请实施例提供了一种音频数据处理装置，应用于第二客户端，包括：录制模块，用于录制并发送音频数据至服务端；第三接收模块，用于接收用户的操作输入；第三处理模块，用于基于操作输入生成请求信息，请求信息用于请求服务端执行第四目标处理，第四目标处理包括以下至少一项：延迟发送音频数据、删除音频数据、将音频数据转换为文本信息。

第七方面，本申请实施例提供了一种服务器，包括处理器和存储器，存储器可在处理器上运行的程序或指令，程序或指令被处理器执行时实现如第一方面的方法的步骤。

第八方面，本申请实施例提供了一种电子设备，包括处理器和存储器，存储器可在处理器上运行的程序或指令，程序或指令被处理器执行时实现如第二方面或第三方面的方法的步骤。

第九方面，本申请实施例提供了一种可读存储介质，该可读存储介质上存储程序或指令，该程序或指令被处理器执行时实现如第一方面、第二方面或第三方面的方法的步骤。

第十方面，本申请实施例提供了一种芯片，该芯片包括处理器和通信接口，该通信接口和该处理器耦合，该处理器用于运行程序或指令，实现如第一方面、第二方面或第三方面的方法的步骤。

第十一方面，本申请实施例提供一种计算机程序产品，该程序产品被存储在存储介质中，该程序产品被至少一个处理器执行以实现如第一方面、第二方面或第三方面的方法的步骤。

本申请实施例中，服务器与多个客户端通信连接，多个客户端通过服务器进行数据交互，实现多人语音通话。在服务器在预设时长内接收到来自多个客户端的音频数据的情况下，服务器能够按照预设规则确定多个音频数据中的第一音频数据和第二音频数据。在确定第一音频数据和第二音频数据之后，服务器将第一音频数据发送至多个客户端，多个客户端在接收到第一音频数据之后，对第一音频数据进行播放。并且对第二音频数据执行第一目标处理。

本申请实施例通过服务器自动筛选多条音频数据中的第一音频数据进行播放，减少了人力成本，同时根据实际需求选择对第二音频数据执行不同的第一目标处理。在多人语音对话过程中，在无需人工进行协调处理的情况下，保证电子设备输出的音频数据足够清晰，避免了多人同时讲话声音无法辨别，提高了多人语音对话的沟通效率。并且还能够选择将第二音频数据进行转换文字输出，以及延迟播放，避免了对其余消息的遗漏。

附图说明

图1示出了本申请实施例提供的音频数据处理方法的流程示意图之一；

图2示出了本申请实施例提供的音频数据处理方法的流程示意图之二；

图3示出了本申请实施例提供的音频数据处理方法的流程示意图之三；

图4示出了本申请实施例提供的多人语音系统的示意图；

图5示出了本申请实施例提供的音频数据处理装置的结构框图之一；

图6示出了本申请实施例提供的音频数据处理装置的结构框图之二；

图7示出了本申请实施例提供的音频数据处理装置的结构框图之三；

图8示出了本申请实施例提供的服务器的结构框图；

图9示出了本申请实施例提供的电子设备的结构框图；

图10示出了本申请实施例的一种电子设备的硬件结构示意图。

具体实施方式

下面将结合本申请实施例中的附图，对本申请实施例中的技术方案进行清楚地描述，显然，所描述的实施例是本申请一部分实施例，而不是全部的实施例。基于本申请中的实施例，本领域普通技术人员获得的所有其他实施例，都属于本申请保护的范围。

本申请的说明书和权利要求书中的术语“第一”、“第二”等是用于区别类似的对象，而不用于描述特定的顺序或先后次序。应该理解这样使用的数据在适当情况下可以互换，以便本申请的实施例能够以除了在这里图示或描述的那些以外的顺序实施，且“第一”、“第二”等所区分的对象通常为一类，并不限定对象的个数，例如第一对象可以是一个，也可以是多个。此外，说明书以及权利要求中“和/或”表示所连接对象的至少其中之一，字符“/”，一般表示前后关联对象是一种“或”的关系。

下面结合附图1至图10，通过具体的实施例及其应用场景对本申请实施例提供的音频数据处理方法、装置、电子设备、服务器和存储介质进行详细地说明。

在本申请实施例提供了一种音频数据处理方法，图1示出了本申请实施例提供的音频数据处理方法的流程示意图之一，如图1所示，音频数据处理方法包括：

步骤102，接收来自多个客户端的多个音频数据；

本申请实施例中的音频数据处理方法应用于服务器，服务器与多个客户端建立通信连接，多个客户端之间能够通过服务器进行数据的传递。具体来说，多个客户端之间能够通过服务器进行多人语音通话。

步骤104，将多个音频数据中的第一音频数据发送至多个客户端进行播放，并对多个音频数据中的第二音频数据执行第一目标处理。

其中，第一目标处理包括以下任意一项：

在第二音频数据的录制起始时间与第一音频数据的录制起始时间的时间差值小于第一时间阈值的情况下，将第二音频数据转换为第一文本信息，并将第一文本信息发送至多个客户端进行显示，第一文本信息的显示时间与第一音频数据的播放时间的时间差值小于第二时间阈值；

在第二音频数据的录制起始时间与第一音频数据的录制起始时间的时间差值小于第一时间阈值的情况下，在第一音频数据播放结束后，将第二音频数据发送至多个客户端进行播放；

删除第二音频数据。

具体来说，服务器能够将接收到的多个音频数据按照优先级进行分类，将优先级较高的音频数据作为第一音频数据，即多个客户端需要优先播放该第一音频数据。第二音频数据为相较于第一音频数据优先级较低的音频数据，则服务器能够根据实际需求选择对第二音频数据执行不同的处理。

服务器对第二音频数据执行的第一目标处理包括：在检测到第二音频数据和第一音频数据的录制起始时间差值小于第一时间阈值，即在第一音频数据与第二音频数据的录制起始时间距离较近的情况下，将优先级较低的第二音频数据进行格式转换，以得到第一文本信息。并将第一文本信息也发送至客户端中进行显示。在上述情况下，客户端会接收到优先级较高的第一音频数据，以及优先级较低的第二音频数据对应的第一文本信息，客户端在播放第一音频数据的过程中，同时显示第一文本信息。

具体来说，在多个用户分别使用不同的客户端进行语音通话或多人会议时，多个用户通过不同的客户端将音频数据上传至服务器，在服务器接收到来自不同客户端的多个音频数据的情况下。服务器根据用户身份对应的优先级，以及音频数据的发送时刻等参数，对多个音频数据进行筛选。在筛选到的第一音频数据与第二音频数据的录制起始时间较近的情况下，服务器将筛选到的第一音频数据发送至客户端进行播放，由于客户端仅播放筛选到的第一音频数据，避免了在多人语音通话过程中，多人同时讲话造成的客户端播放的语音冲突。服务器还将筛选到的第二音频数据转换成第一文本信息，并将转换得到的第一文本信息也发送至客户端进行显示，实现了在保证客户端播放的音频数据清晰的同时，还避免了其他信息损失的情况发生。

其中，服务器通过语音识别技术(ASR，Acceleration Slip Regulation)，将第二音频数据进行转换，以得到对应的第一文本信息。可以理解的是，第一文本信息与第二音频数据中的语义相同。

示例性地，多个用户在分别使用各自的客户端进行多人语音通话。在通话过程中，用户A和用户B同时进行讲话，此时，服务器接收到用户A和用户B各自的客户端发送的语音消息，服务器对两个语音消息进行筛选，确定用户A发送的第一语音消息为第一音频数据，用户B发送的第二语音消息为第二音频数据，则将用户A发送的第一语音消息群发至参与多人语音通话的用户的客户端进行播放，并将第二语音消息转换为文本格式的第一文本信息，发送第一文本信息至参与多人语音通话的用户的客户端进行显示。保证了其他用户能够听清用户A的第一语音消息的同时，还不会错过用户B的第二语音消息。

服务器对第二音频数据执行的第一处理包括：在检测到第二音频数据和第一音频数据的录制起始时间差值小于第一时间阈值，即在第一音频数据与第二音频数据的录制起始时间距离较近的情况下，在客户端将接收到的第一音频数据完成播放后，发送第二音频数据至多个客户端进行播放。

具体来说，在多个用户分别使用不同的客户端进行语音通话或多人会议时，多个用户通过不同的客户端将音频数据上传至服务器，在服务器接收到来自不同客户端的多个音频数据的情况下。服务器根据用户身份对应的优先级，以及音频数据的发送时刻等参数，对多个音频数据进行筛选。在筛选到的第一音频数据与第二音频数据的录制起始时间较近的情况下，服务器将筛选到的第一音频数据发送至客户端进行播放，由于客户端仅播放筛选到的第一音频数据，避免了在多人语音通话过程中，多人同时讲话造成的客户端播放的语音冲突。服务器持续检测多个客户端对第一音频数据的播放状态，在检测到多个客户端完成对第一音频数据的播放，则将优先级较低的第二音频数据发送至多个客户端继续进行播放。实现了服务器对接收到的多个音频数据进行合理分发。

值得说明的是，在检测到包括多个音频数据中包括多个第二音频数据的情况下，在多个第一音频数据播放完成后，按照第二音频数据的录制起始时间以此播放多个第二音频数据。

示例性地，多个用户在分别使用各自的客户端进行多人语音通话。在通话过程中，用户A和用户B同时进行讲话，此时，服务器接收到用户A和用户B各自的客户端发送的语音消息，服务器对两个语音消息进行筛选，确定用户A发送的第一语音消息为第一音频数据，用户B发送的第二语音消息为第二音频数据，则将用户A发送的第一语音消息群发至参与多人语音通话的用户的客户端进行播放。服务器在检测到参与多人语音通话的客户端对第一音频消息播放完成后，将第二语音消息继续发送至参与多人语音通话的用户的客户端进行播放。避免了参与多人语义语音通话的用户的客户端同时播放二人的语音消息，同时还避免了遗漏消息的问题发生。

服务器对第二音频数据执行的第一处理包括：在确定多个音频数据中包括第二音频数据的情况下，直接删除第二音频数据。

具体来说，服务器在筛选多个音频数据中包括优先级较低的第二音频数据的情况下，直接删除第二音频数据，使多个客户端仅播放优先级较高的第一音频数据。

示例性地，服务器根据音频数据的播放时长筛选得到第二音频数据，将播放时长较短的音频数据作为第二音频数据，并将其删除。由于第二音频数据的播放时长较短，则判定该第二音频数据为无用数据，故直接将其删除。

示例性地，服务器在筛选得到多个音频数据中包括多个第二音频数据，即多个客户端播放多个第一音频数据需要较长的播放时间，因此，将优先级较低的第二音频数据直接删除。

现有技术中存在通过管理员分配“话筒”的方式来避免多人同时讲话造成的声音无法分别的问题，但是难以保证多人语音通话过程中的实时性，并且参与人数越多则管理员协调难度越大。

音频数据在本申请的一些实施例中，将多个音频数据中的第一音频数据发送至多个客户端进行播放之前，还包括：按照预设优先级确定多个音频数据中的第三音频数据；在第三音频数据的数量为多个的情况下，根据第三音频数据的录制起始时间，确定多个第三音频数据中的第一音频数据和第二音频数据。

本申请实施例中，服务器在接收到多个客户端发送的多个音频数据之后，根据多个音频数据的优先级对其中的第一音频数据第二音频数据进行筛选。具体筛选方式为按照预设优先级对多个音频数据进行筛选，筛选得到多个音频数据中的第三音频数据和第二音频数据。其中，第三音频数据为优先级较高的音频数据，第二音频数据为优先级较低的音频数据。在通过预设优先级对多个音频数据筛选完成后，确定优先级较高的第三音频数据的数量为多个的情况下，根据多个第三音频数据的录制起始时间，筛选其中的第一音频数据和第二音频数据。其中，将录制起始时间最早的第三音频数据作为第一音频数据进行播放，并将录制起始时间较晚的第三音频数据作为第二音频数据。

具体来说，第二音频数据和第三音频数据对应的客户端的优先级不同。在开始多人语音通话之前，服务器获取多个客户端对应的身份信息，根据身份信息对不同的客户端设置预设优先级。服务器根据接收到的多条音频数据对应的身份信息，确定多条音频数据中每条音频数据的优先级。将优先级高的音频数据作为第三音频数据，将优先级低的音频数据作为第二音频数据。在获取到多个相同预设优先级的第三音频数据时，将服务器最早接收到的第三音频数据作为第一音频数据，将其余的第三音频数据作为第二音频数据。

本申请实施例中，服务器能够根据预设优先级筛选多个音频数据中的优先级较高的第三音频数据，以及优先级较低的第二音频数据，并根据第三音频数据的第一接收时刻，筛选第三音频数据中的第一音频数据，保证了通过客户端播放的第一音频数据为接收时刻较早，且优先级较高的音频数据，提高了多人语音通话过程中的及时性。

在本申请的一些实施例中，在第一文本信息的数量为多个的情况下，将第一文本信息发送至多个客户端进行显示之前，还包括：确定多个第一文本信息的显示顺序，显示顺序与第二音频数据的录制起始时间相关联；将第一文本信息发送至多个客户端进行显示，包括：按照显示顺序，将多个第一文本信息发送至多个客户端，以使多个客户端顺序显示多个第一文本信息。

本申请实施例中，在服务器将第二音频数据转换为第一文本信息，且第一文本信息的数量为多个的情况下，其中，多个第一文本信息与多个第二音频数据相对应。在第一文本信息的数量为多个的情况下，为保证用户通过客户端观看第一文本信息的语义通顺，服务器在发送第一文本信息至客户端之前，根据第一文本信息对应的第二音频数据的录制起始时间确定第一文本信息在客户端中的显示顺序。并按照显示顺序，将第一文本信息发送至多个客户端进行显示。客户端在接收到第一文本信息后，则通过显示屏幕显示该第一文本信息，故客户端能够按照显示顺序对多个第一文本信息进行显示。

具体来说，第一文本信息是根据第二音频数据转换得到的，为保证显示在客户端上的第一文本信息的语义通顺，服务器根据第一文本信息对应的第二音频数据的录制起始时间，对第一文本信息的显示顺序进行排序。并按照排序得到的显示顺序将第一文本信息发送至客户端进行显示。

值得说明的是，在多人语音通话过程中，用户通常根据听到的内容讲话。故按照第二音频数据的录制起始时间对第一文本信息进行排序，能够保证显示在客户端上的第一文本信息语义通顺。

本申请实施例中，服务器能够根据多个第一文本信息对应的第二音频数据的录制起始时间，对多个第一文本信息的显示顺序进行排序，并按照排序得到显示顺序将多个第一文本信息发送至客户端。客户端能够按照显示顺序对多个第一文本信息进行显示，从而保证了显示在客户端上的第一文本信息的语义通顺。

在本申请的一些实施例中，接收来自多个客户端的多个音频数据之后，还包括：对多个音频数据执行第二目标处理；其中，所述目标操作包括以下至少一项：删除所述多个音频数据中的第四音频数据、对所述多个音频数据设置优先级、对多个音频数据中的第五音频数据进行回复。

本申请实施例中，在服务器接收到多个客户端发送的多个音频数据之后，管理原能够在服务器端对多个音频数据执行第二目标处理。管理员在服务器端能够持续查看接收到的多个音频数据，服务器能够将多个音频数据转换成文本格式以供管理员进行查看。管理员能够直接在服务器端执行操作输入，以对多个音频数据执行第二目标处理，实现了具有管理员权限的电子设备能够在对多人语音通话进行控制。

其中，第二目标处理包括删除多个音频数据中的第四音频数据。服务器端在接收到多个音频数据后，直接将多个音频数据转换为文本格式，管理员通过查看文本格式的多个音频数据，根据实际需求选择多个音频数据中的第四音频数据进行删除处理。

第二目标处理包括对多个音频数据设置优先级。管理员能够在服务器端查看多个音频数据，并对多个音频数据分别设置优先级，并基于优先级对多个音频数据进行处理。示例性地，将优先级高的音频数据插队发送至客户端进行播放。

第二目标处理包括对多个音频数据中的第五音频数据进行回复。管理原在查看服务器端的音频数据的过程中，能够根据实际需要回复多个音频数据中的第五音频数据。管理员用户能够选择多个音频数据中的任一数据进行回复。在回复完毕后，管理员用户能够选择将回复内容发送至与服务器连接的多个客户端中的一个或多个。本申请实施例中，管理员用户能够通过目标客户端，对服务器接收到的音频数据中的任意音频数据进行回复，便于管理员用户与其他用户进行交流沟通。

可以理解的是，在管理员用户回复完毕后，能够选择将回复内容对全部用户可见，则将回复内容发送给全部客户端进行显示。还能够选择将回复内容对消息所有者可见，则将回复内容单独发送给消息所有者进行显示。

示例性地，在服务器接收到多个音频数据的情况下，服务器能够以表格的形式对上述信息进行显示，便于管理员对上述信息执行操作输入，具体请参阅如下表1：

表1

音频数据队列	文本信息队列	用户(客户端)	发言起始时间
				音频1	文本1	用户A	12:30:10
音频2	文本2	用户B	12:30:15
				音频3	本文3	用户C	12:30:18

具体来说，管理员能够通过服务器删除多个音频数据中的第四音频数据，即选中上述表1中的音频1，并通过执行删除输入，将音频1从音频数据队列中删除。

管理员用户的目标客户端，能够按接收时刻的先后顺序显示消息队列中的消息数据(第一文本信息、第一音频数据)，以及与上述数据对应的客户端，管理员可以进行以下操作：

拖拽表格中的显示内容，将消息数据进行插队播放(显示)，或延后播放(显示)。例如：将某条消息数据上移一行，其发言顺序就提前一个，将某条消息数据下移两行，其发言顺序就延后两个。

将第一音频数据队列中的某一音频数据手动调整为第二音频数据，并设置将该第二音频数据切换为文本格式显示，则该音频数据在第一音频数据的播放队列中删除，并将该第一音频数据转换为第一文本信息，并发送至各个客户端进行显示。

彻底删除表格中的消息数据，则该消息数据不再以任何形式发送至其他客户端。

管理员还能够选择撤销前次操作，以及收藏表格中的消息数据。

具体来说，服务器能够直接接收来自管理员的操作输入，从而对服务器接收到的多个音频数据，实现了管理员通过目标客户端能够实时看到所有人想要表达的信息，并将冗余和不重要的信息删除，避免信息爆炸。还能够将一些重要的信息对应的音频数据以第一音频数据或第一文本信息进行提前输出，将不重要的信息对应的音频数据进行延后输出。以及在待输出的音频数据过多的情况下，将一些音频数据手动转换成文本信息进行输出。

本申请实施例管理员用户能够通过服务器对音频数据进行管理，提高了多人语音系统的可控性。

在本申请的一些实施例中，将多个音频数据中的第一音频数据发送至多个客户端进行播放的过程中，还包括：根据第一音频数据，确定历史播放记录中的第六音频数据，第六音频数据的内容与第一音频数据的内容相关联；将第六音频数据转换为第二文本信息；将第二文本信息发送至多个客户端进行显示，第二文本信息的显示时间与第一音频数据的播放时间的时间差值小于第三时间阈值。

在本申请实施例中，服务器在将第一音频数据发送至客户端进行播放的过程中，在历史播放记录中查找与第一音频数据的内容相关联的第六音频数据。在查找到第六音频数据后，将第六音频数据转换为第二文本信息，并将第二文本信息发送至客户端进行显示。

其中，将第二文本信息的显示时间与第一音频数据的播放时间的时间差值设置为小于第三时间阈值。使客户端播放第一音频数据的过程中，同时显示与第一音频数据内容相关联的第二文本信息。

具体来说，服务器在将第一音频数据发送至客户端进行播放的过程中，根据第一音频数据的录制起始时间，在历史播放数据库中查找第六音频数据，或者服务器识别第一音频数据的语义内容，并按照语义内容在历史播放数据库中查找第六音频数据。在播放第一音频的过程中，显示第六音频数据对应的第二文本信息。

本申请实施例中，服务器在发送第一音频数据至客户端进行播放的过程中，还能够将与第一音频数据内容相关联的第六音频数据转换为第二文本信息，并将内容相关联的第二文本信息发送至客户端进行显示，提高了多人语音通话过程中的语义连贯性。

值得说明的是，在播放第一音频数据的过程中，可将第一音频数据转换为文本格式存储在历史播放记录中。在播放下一条第一音频数据的过程中，查找到相关联的第六音频数据后，能够直接调用转换后的第六音频数据对应的文本信息。

示例性地，服务器接收到的用户A、用户B、用户C发送的音频数据之间的时间间隔很短，被标记成关联的音频数据，并为这些关联消息创建一个空的缓存队列。三个关联的音频数据以下记作音频1、音频2和音频3，三个音频数据对应的三个第二文本信息分别记作文本1、文本2和文本3。

音频1作为第一音频数据发送至客户端进行播放，由于被标记为关联消息，系统会检测其关联缓存队列，由于目前缓存队列为空，故将音频1对应的文本1实时写入缓存队列。即在播放音频1的过程中，历史播放记录中未存在相关联的第六音频数据，则将音频1转换为文本格式存储在历史播放记录中。

音频1播放完毕后，音频2开始播放，由于被标记为关联消息，系统会检测其关联缓存队列，并发现此时缓存队列中有文本1，因此会对其进行读取并做一个时间的对齐，在音频2播放的同时，将文本1同步显示在客户端的屏幕上，同时文本2也会被写入缓存队列中。

音频2播放完毕后，音频3开始播放，由于被标记为关联消息，系统会检测其关联缓存队列，并发现此时缓存队列中有文本1，文本2，因此会对它们进行读取并做一个时间的对齐，在音频3播放的同时，将文本1和文本2同步显示在屏幕上。

由于音频3之后再无关联消息，因此文本3无需写入缓存队列，音频3播放完毕，删除缓存队列。

在本申请的一些实施例中，将多个音频数据中的第一音频数据发送至多个客户端进行播放之后，还包括：在接收到的第七音频数据中包括目标信息的情况下，停止向多个客户端发送第一音频数据，并向多个客户端发送第七音频数据进行播放。

在本申请实施例中，在服务器将第一音频数据发送至客户端之后，保持接收音频数据，在检测到接收到的音频数据中包括目标信息的情况下，则确定该音频数据为第七音频数据。其中，目标信息为预设的插队唤醒词。

在服务器检测到接收到的第七音频数据中包括目标信息的情况下，则判定发送第七音频数据的客户端的用户此时需要插队发言。此时，服务器停止继续向客户端发送第一音频数据，并开始向客户端发送第七音频数据，实现用户能够通过插队唤醒词进行插队发言。

示例性地，用户在需要插队发言时，讲话之前增加目标信息，例如：“打断一下”。服务端实时检测接收到的音频数据中是否包括目标信息，会对每条音频数据的前几个字进行唤醒词匹配，如果匹配成功，则将该段音频数据作为第七音频数进行插队发送至客户端，实现插队播放的效果。

可以理解的是，服务器能够将接收到的音频数据全部转换为文本格式，通过文字识别的方式进行识别目标信息。

本申请实施例服务器能够根据客户端发送的音频数据中是否带有目标信息，对用户是否需要插队发言进行检测，在检测到用户需要插队发言的情况下，插队发送该第七音频数据至客户端，实现了根据用户实际需求播放接收到的音频数据，提高了音频数据播放的灵活性。

在本申请实施例提供了一种音频数据处理方法，图2示出了本申请实施例提供的音频数据处理方法的流程示意图之二，如图2所示，音频数据处理方法，应用于第一客户端。

第一客户端为接收服务器发送的第一数据的客户端，其中，第一数据包括文本数据以及音频数据。

其中，音频数据处理方法包括：

步骤202，接收来自服务端的第一数据；

本申请实施例中的音频数据处理方法应用于第一客户端，电子设备与服务器建立通信连接。多个电子设备之间能够通过服务器进行数据的传递。具体来说，多个电子设备之间能够通过服务器进行多人语音通话。

步骤204，对第一数据执行第三目标处理。

其中，第三目标处理包括以下任意一项：

在第一数据包括第一音频数据和第一文本信息的情况下，播放第一音频数据，并显示第一文本信息，第一文本信息的显示时间与第一音频数据的播放时间的时间差值小于第二时间阈值，其中，第一文本信息是基于第二音频数据得到的，且第一音频数据与第二音频数据的录制起始时间的时间差值小于第一时间阈值；

在第一数据包括第一音频数据和第二音频数据，且第一音频数据与第二音频数据的录制起始时间的时间差值小于第一时间阈值的情况下，播放第一音频数据，在第一音频数据播放结束后，继续播放第二音频数据。

第一客户端为接收服务器发送的第一音频数据，以及经过第一目标处理后的第二音频数据的客户端，即第一客户端接收到的第一数据包括第一音频数据，以及经过第一目标处理后的第二音频数据。

第三目标处理包括：在第一数据包括第一音频数据和第一文本信息的情况下，对第一数据中的第一音频数据进行播放，并对第一数据中的第一文本信息进行显示。在播放第一音频数据，以及显示第一文本信息的过程中，保证第一文本信息的显示时间与第一音频数据的播放时间的时间差小于第二时间阈值。其中，第一文本信息是服务器根据第二音频数据经过格式转换得到的文本信息，并且第一音频数据和第二音频数据的录制起始时间的时间差小于第一时间阈值，即第一音频数据和第二音频数据的录制起始时间距离较近。

值得说明的是，服务器将第一数据中的第一文本信息和第一音频数据以数据包的形式发送。客户端在对数据包解包后，可选择在播放第一音频数据的同时显示第一文本信息。

第三目标处理包括：在第一数据包括第一音频数据和第二音频数据，并且第一音频数据和第二音频数据的录制起始时间较近的情况下，对第一数据中的第一音频数据进行播放，并在第一音频数据播放结束后，继续播放第一数据中的第二音频数据。

值得说明的是，服务器按照先后顺序发送第一音频数据和第二音频数据。具体地，服务器先将第一音频数据发送至客户端进行播放，在客户端对第一音频数据播放完成后，服务器继续将第二音频数据发送至客户端进行播放，实现了客户端无需对第一音频数据和第二音频数据的播放时刻进行处理，就能够播放第一音频数据后，继续播放第二音频数据。服务器还能够将第一音频数据和第二音频数据以数据包的形式发送至客户端，其中，服务器在第一音频数据和第二音频数据中配置播放时刻信息，以使客户端按照播放时刻信息对第一音频数据和第二音频数据进行播放。

在本申请的一些实施例中，在第一文本信息的数量为多个的情况下，播放第一音频数据，并显示第一文本信息，包括：在播放第一音频数据的过程中，按照多个第一文本信息的接收顺序，依次显示多个第一文本信息。

本申请实施例中，第一客户端接收到的第一数据中包括多个第一文本信息的情况下。按照接收到多个第一文本信息的接收顺序，以此对第一文本信息进行显示。

值得说明的是，在第一文本信息的数量为多个的情况下，为保证用户通过客户端观看第一文本信息的语义通顺，服务器在发送第一文本信息至第一客户端之前，根据第一文本信息对应的第二音频数据的录制起始时间确定第一文本信息在第一客户端中的显示顺序。并按照显示顺序，将第一文本信息发送至多个第一客户端进行显示。第一客户端接收第一文本信息的接收顺序即为显示顺序，故客户端能够按照显示顺序对多个第一文本信息进行显示。

值得说明的是，在多人语音通话过程中，用户通常根据听到的内容讲话。故服务器按照第二音频数据的录制起始时间对第一文本信息进行排序，能够保证显示在第一客户端上的第一文本信息语义通顺。

本申请实施例中，服务器能够根据多个第一文本信息对应的第二音频数据的录制起始时间，对多个第一文本信息的显示顺序进行排序，并按照排序得到显示顺序将多个第一文本信息发送至第一客户端。客户端能够按照对第一文本信息进行接收的接收顺序对多个第一文本信息进行显示，从而保证了显示在客户端上的第一文本信息的语义通顺。

在本申请的一些实施例中，播放第一音频数据的过程中，还包括：接收来自服务端的第二文本信息，并显示第二文本信息；其中，第二文本信息的显示时间与第一音频数据的播放时间的时间差值小于第三时间阈值，第二文本信息是基于历史播放记录中的第六音频数据生成的，第六音频数据的内容与第一音频数据的内容相关联。

本申请实施例中，第一客户端在接收到来自服务器的第一音频数据的过程中，还接收到来自服务器的第二文本信息，则在播放第一音频数据的过程中，显示第二文本信息。其中，第二文本信息与第一音频数据的内容相关联。

具体来说，服务器在将第一音频数据发送至客户端进行播放的过程中，在历史播放记录中查找与第一音频数据的内容相关联的第六音频数据。在查找到第六音频数据后，将第六音频数据转换为第二文本信息，并将第二文本信息发送至客户端进行显示。其中，将第二文本信息的显示时间与第一音频数据的播放时间的时间差值设置为小于第三时间阈值。使客户端播放第一音频数据的过程中，同时显示与第一音频数据内容相关联的第二文本信息。

本申请实施例中，第一客户端在播放来自服务器的第一音频数据的过程中，还能够同时显示与第一音频数据内容相关联的第六音频数据转换为第二文本信息，提高了多人语音通话过程中的语义连贯性。

在本申请的一些实施例中，播放第一音频数据的过程中，还包括：发送第七音频数据至服务端，使服务端停止向其他客户端发送第一音频数据；其中，第七音频数据中包括目标信息。

本申请实施例中，在第一客户端显示第一音频数据的过程中，第一客户端的用户存在插队发言需求的情况下，用户通过第一客户端发送第七音频数据到服务器。在服务器检测到接收到的第七音频数据中包括目标信息的情况下，则判定发送第七音频数据的客户端的用户此时需要插队发言。此时，服务器停止继续向客户端发送第一音频数据，并开始向客户端发送第七音频数据，实现用户能够通过插队唤醒词进行插队发言。

本申请实施例中，用户能够在第一客户端播放第一音频数据的情况下，将包括目标信息的第七音频数据发送至服务器，使服务器将第七音频数据插队发送至其他客户端，实现了根据用户实际需求播放接收到的音频数据，提高了音频数据播放的灵活性。

在本申请实施例提供了一种音频数据处理方法，图3示出了本申请实施例提供的音频数据处理方法的流程示意图之三，如图3所示，音频数据处理方法，应用于第二客户端。

其中，音频数据处理方法包括：

步骤302，录制并发送音频数据至服务端；

步骤304，接收用户的操作输入；

步骤306，基于操作输入生成请求信息，请求信息用于请求服务器执行第四目标处理。

其中，第四目标处理包括以下至少一项：延迟发送音频数据、删除音频数据、将音频数据转换为第三文本信息。

本申请实施例提供的音频处理方法应用于第二客户端，第二客户端为发送音频数据至服务器的客户端，第二客户端录制并发送音频数据至服务器的情况下，不会接收到服务器发送的数据。用户在录制并发送音频数据至服务器之后，第二客户端响应于用户的操作输入，能够将操作输入对应的请求信息发送至服务器，服务器在接收到请求信息之后执行第四目标处理。

具体来说，第四目标处理包括延迟发送音频数据，用户通过第二客户端将音频数据发送至服务端之后，用户通过第二客户端发送请求信息至服务器，服务器响应于请求信息，将第二客户端发送的音频数据延迟发送至其他客户端。

第四目标处理包括删除音频数据，用户通过第二客户端将音频数据发送至服务端之后，用户通过第二客户端发送请求信息至服务器，服务器响应于请求信息，将第二客户端发送的音频数据删除，使服务器不再发送第二客户端对应的音频数据。

第四目标处理包括将音频数据转换为文本信息，用户通过第二客户端将音频数据发送至服务端之后，用户通过第二客户端发送请求信息至服务器，服务器响应于请求信息，将第二客户端发送的音频数据转换为第三文本信息，服务器能够将第二客户端发送的音频数据对应的第三文本信息发送至其他客户端进行显示。

本申请实施例中，在用户通过第二客户端将音频数据发送至服务器之后，能够通过第二客户端对发送至服务器的音频数据进行处理，实现了用户能够对发送至服务器的音频数据的输出形式进行选择。

图4示出了本申请实施例提供的多人语音系统的示意图，如图4示，对电子设备1、电子设备2和电子设备3发送的音频数据进行优先级分配。将优先级高的音频数据回传给各个电子设备进行播放。将优先级低的音频数据暂存在缓存通道的消息队列中，如果播放通道处于空闲状态，则依次将消息队列中的音频数据发送至电子设备进行播放，如果播放通道处于占用状态，则将音频数据对应的文本数据发送至各个电子设备进行显示。本申请实施例提供的音频数据处理方法，执行主体可以为音频数据处理装置。本申请实施例中以音频数据处理装置执行数据处理方法为例，说明本申请实施例提供的音频数据处理装置。

在本申请的一些实施例中提供了一种音频数据处理装置，应用于服务器，图5示出了本申请实施例提供的音频数据处理装置的结构框图之一，如图5所示，音频数据处理装置500，其包括：

第一接收模块502，用于接收来自多个客户端的多个音频数据；

第一处理模块504，用于将多个音频数据中的第一音频数据发送至多个客户端进行播放，并对多个音频数据中的第二音频数据执行第一目标处理，第一目标处理包括以下任意一项：

删除第二音频数据。

在本申请的一些实施例中，音频数据处理装置500，还包括：

确定模块，用于按照预设优先级确定多个音频数据中的第三音频数据；

确定模块，还用于在第三音频数据的数量为多个的情况下，根据第三音频数据的录制起始时间，确定多个第三音频数据中的第一音频数据和第二音频数据。

在本申请的一些实施例中，确定模块，还用于确定多个第一文本信息的显示顺序，显示顺序与第二音频数据的录制起始时间相关联；

第一发送模块，用于按照显示顺序，将多个第一文本信息发送至多个客户端，以使多个客户端顺序显示多个第一文本信息。

在本申请的一些实施例中，第一处理模块504，还用于对多个音频数据执行第二目标处理；其中，所述目标操作包括以下至少一项：删除所述多个音频数据中的第四音频数据、对所述多个音频数据设置优先级、对多个音频数据中的第五音频数据进行回复。

在本申请的一些实施例中，确定模块，还用于根据第一音频数据，确定历史播放记录中的第六音频数据，第六音频数据的内容与第一音频数据的内容相关联；

音频数据处理装置500，还包括：

转换模块，用于将第六音频数据转换为第二文本信息；

第二发送模块，还用于将第二文本信息发送至多个客户端进行显示，第二文本信息的显示时间与第一音频数据的播放时间的时间差值小于第三时间阈值。

在本申请的一些实施例中，第二发送模块，还用于在接收到的第七音频数据中包括目标信息的情况下，停止向多个客户端发送第一音频数据，并向多个客户端发送第七音频数据进行播放。

在本申请的一些实施例中提供了一种音频数据处理装置，应用于第一客户端，图6示出了本申请实施例提供的音频数据处理装置的结构框图之二，如图6所示，音频数据处理装置600，其包括：

第二接收模块602，用于接收来自服务端的第一数据；

第二处理模块604，用于对第一数据执行第三目标处理。

其中，第三目标处理包括以下任意一项：

在本申请的一些实施例中，音频数据处理装置600，还包括：

显示模块，用于在播放第一音频数据的过程中，按照多个第一文本信息的接收顺序，依次显示多个第一文本信息。

在本申请的一些实施例中，第二接收模块602，还用于接收来自服务端的第二文本信息；

显示模块，还用于显示第二文本信息。

其中，第二文本信息的显示时间与第一音频数据的播放时间的时间差值小于第三时间阈值，第二文本信息是基于历史播放记录中的第六音频数据生成的，第六音频数据的内容与第一音频数据的内容相关联。

在本申请的一些实施例中，音频数据处理装置600，还包括：

第三发送模块，用于发送第七音频数据至服务端，使服务端停止向其他客户端发送第一音频数据；其中，第七音频数据中包括目标信息。

在本申请的一些实施例中提供了一种音频数据处理装置，应用于第二客户端，图7示出了本申请实施例提供的音频数据处理装置的结构框图之三，如图7所示，音频数据处理装置700，其包括：

录制模块702，用于录制音频数据；

第一发送模块704，用于发送音频数据至服务端；

第三接收模块706，用于接收用户的操作输入；

生成模块708，用于基于操作输入生成请求信息，请求信息用于请求服务器执行第四目标处理。

本申请实施例中的音频数据处理装置可以是电子设备，也可以是电子设备中的部件，例如集成电路或芯片。该电子设备可以是电子设备，也可以为除电子设备之外的其他设备。示例性的，电子设备可以为手机、平板电脑、笔记本电脑、掌上电脑、车载电子设备、移动上网装置(Mobile Internet Device，MID)、增强现实(augmented reality，AR)/虚拟现实(virtual reality，VR)设备、机器人、可穿戴设备、超级移动个人计算机(ultra-mobilepersonal computer，UMPC)、上网本或者个人数字助理(personal digital assistant，PDA)等，还可以为服务器、网络附属存储器(Network Attached Storage，NAS)、个人计算机(personal computer，PC)、电视机(television，TV)、柜员机或者自助机等，本申请实施例不作具体限定。

本申请实施例中的音频数据处理装置可以为具有操作系统的装置。该操作系统可以为安卓(Android)操作系统，可以为iOS操作系统，还可以为其他可能的操作系统，本申请实施例不作具体限定。

本申请实施例提供的音频数据处理装置能够实现上述方法实施例实现的各个过程，为避免重复，这里不再赘述。

可选地，本申请实施例还提供了一种电子设备，其中包括如上述任一实施例中的音频数据处理装置，因而具有上述任一实施例中任一实施例中的音频数据处理装置的全部有益效果，在此不再做过多赘述。

可选地，本申请实施例还提供一种服务器，图8示出了根据本申请实施例的服务器的结构框图，如图8所示，服务器800包括处理器802，存储器804，存储在存储器804上并可在处理器802上运行的程序或指令，该程序或指令被处理器802执行时实现上述音频数据处理方法实施例的各个过程，且能达到相同的技术效果，为避免重复，这里不再赘述。

可选地，本申请实施例还提供一种电子设备，图9示出了根据本申请实施例的电子设备的结构框图，如图9所示，电子设备900包括处理器902，存储器904，存储在存储器904上并可在处理器902上运行的程序或指令，该程序或指令被处理器902执行时实现上述音频数据处理方法实施例的各个过程，且能达到相同的技术效果，为避免重复，这里不再赘述。

需要说明的是，本申请实施例中的电子设备包括上述的移动电子设备和非移动电子设备。

图10为实现本申请实施例的一种电子设备的硬件结构示意图。

该电子设备1000包括但不限于：射频单元1001、网络模块1002、音频输出单元1003、输入单元1004、传感器1005、显示单元1006、用户输入单元1007、接口单元1008、存储器1009、以及处理器1010等部件。

本领域技术人员可以理解，电子设备1000还可以包括给各个部件供电的电源(比如电池)，电源可以通过电源管理系统与处理器1010逻辑相连，从而通过电源管理系统实现管理充电、放电、以及功耗管理等功能。图10中示出的电子设备结构并不构成对电子设备的限定，电子设备可以包括比图示更多或更少的部件，或者组合某些部件，或者不同的部件布置，在此不再赘述。

其中，处理器1010，用于接收来自服务端的第一数据；

处理器1010，用于对第一数据执行第三目标处理。

其中，第三目标处理包括以下任意一项：

进一步地，在所述第一文本信息的数量为多个的情况下，显示单元1006，用于在播放第一音频数据的过程中，按照多个第一文本信息的接收顺序，依次显示多个第一文本信息。

进一步地，处理器1010，用于接收来自服务端的第二文本信息；

显示单元1006，用于显示第二文本信息。

进一步地，处理器1010，用于发送第七音频数据至服务端，使服务端停止向其他客户端发送第一音频数据；其中，第七音频数据中包括目标信息。

进一步地，输入单元1004，用于录制音频数据；

处理器1010，用于发送音频数据至服务端；

用户输入单元1007，用于接收用户的操作输入；

处理器1010，用于基于操作输入生成请求信息，请求信息用于请求服务器执行第四目标处理。

应理解的是，本申请实施例中，输入单元1004可以包括图形处理器(GraphicsProcessing Unit，GPU)10041和麦克风10042，图形处理器10041对在视频捕获模式或图像捕获模式中由图像捕获装置(如摄像头)获得的静态图片或视频的图像数据进行处理。显示单元1006可包括显示面板10061，可以采用液晶显示器、有机发光二极管等形式来配置显示面板10061。用户输入单元1007包括触控面板10071以及其他输入设备10072中的至少一种。触控面板10071，也称为触摸屏。触控面板10071可包括触摸检测装置和触摸控制器两个部分。其他输入设备10072可以包括但不限于物理键盘、功能键(比如音量控制按键、开关按键等)、轨迹球、鼠标、操作杆，在此不再赘述。

存储器1009可用于存储软件程序以及各种数据。存储器1009可主要包括存储程序或指令的第一存储区和存储数据的第二存储区，其中，第一存储区可存储操作系统、至少一个功能所需的应用程序或指令(比如声音播放功能、图像播放功能等)等。此外，存储器1009可以包括易失性存储器或非易失性存储器，或者，存储器1009可以包括易失性和非易失性存储器两者。其中，非易失性存储器可以是只读存储器(Read-Only Memory，ROM)、可编程只读存储器(Programmable ROM，PROM)、可擦除可编程只读存储器(Erasable PROM，EPROM)、电可擦除可编程只读存储器(Electrically EPROM，EEPROM)或闪存。易失性存储器可以是随机存取存储器(Random Access Memory，RAM)，静态随机存取存储器(Static RAM，SRAM)、动态随机存取存储器(Dynamic RAM，DRAM)、同步动态随机存取存储器(Synchronous DRAM，SDRAM)、双倍数据速率同步动态随机存取存储器(Double Data Rate SDRAM，DDRSDRAM)、增强型同步动态随机存取存储器(Enhanced SDRAM，ESDRAM)、同步连接动态随机存取存储器(Synch link DRAM，SLDRAM)和直接内存总线随机存取存储器(Direct Rambus RAM，DRRAM)。本申请实施例中的存储器1009包括但不限于这些和任意其它适合类型的存储器。

处理器810可包括一个或多个处理单元；可选地，处理器810集成应用处理器和调制解调处理器，其中，应用处理器主要处理涉及操作系统、用户界面和应用程序等的操作，调制解调处理器主要处理无线通信信号，如基带处理器。可以理解的是，上述调制解调处理器也可以不集成到处理器810中。

本申请实施例还提供一种可读存储介质，可读存储介质上存储有程序或指令，该程序或指令被处理器执行时实现上述方法实施例的各个过程，且能达到相同的技术效果，为避免重复，这里不再赘述。

其中，处理器为上述实施例中的电子设备中的处理器。可读存储介质，包括计算机可读存储介质，如计算机只读存储器ROM、随机存取存储器RAM、磁碟或者光盘等。

本申请实施例另提供了一种芯片，芯片包括处理器和通信接口，通信接口和处理器耦合，处理器用于运行程序或指令，实现上述音频数据处理方法实施例的各个过程，且能达到相同的技术效果，为避免重复，这里不再赘述。

应理解，本申请实施例提到的芯片还可以称为系统级芯片、系统芯片、芯片系统或片上系统芯片等。

本申请实施例提供一种计算机程序产品，该程序产品被存储在存储介质中，该程序产品被至少一个处理器执行以实现如上述音频数据处理方法实施例的各个过程，且能达到相同的技术效果，为避免重复，这里不再赘述。

需要说明的是，在本文中，术语“包括”、“包含”或者其任何其他变体意在涵盖非排他性的包含，从而使得包括一系列要素的过程、方法、物品或者装置不仅包括那些要素，而且还包括没有明确列出的其他要素，或者是还包括为这种过程、方法、物品或者装置所固有的要素。在没有更多限制的情况下，由语句“包括一个……”限定的要素，并不排除在包括该要素的过程、方法、物品或者装置中还存在另外的相同要素。此外，需要指出的是，本申请实施方式中的方法和装置的范围不限按示出或讨论的顺序来执行功能，还可包括根据所涉及的功能按基本同时的方式或按相反的顺序来执行功能，例如，可以按不同于所描述的次序来执行所描述的方法，并且还可以添加、省去、或组合各种步骤。另外，参照某些示例所描述的特征可在其他示例中被组合。

通过以上的实施方式的描述，本领域的技术人员可以清楚地了解到上述实施例方法可借助软件加必需的通用硬件平台的方式来实现，当然也可以通过硬件，但很多情况下前者是更佳的实施方式。基于这样的理解，本申请的技术方案本质上或者说对现有技术做出贡献的部分可以以计算机软件产品的形式体现出来，该计算机软件产品存储在一个存储介质(如ROM/RAM、磁碟、光盘)中，包括若干指令用以使得一台电子设备(可以是手机，计算机，服务器，或者网络设备等)执行本申请各个实施例的方法。

上面结合附图对本申请的实施例进行了描述，但是本申请并不局限于上述的具体实施方式，上述的具体实施方式仅仅是示意性的，而不是限制性的，本领域的普通技术人员在本申请的启示下，在不脱离本申请宗旨和权利要求所保护的范围情况下，还可做出很多形式，均属于本申请的保护之内。

Claims

1.一种音频数据处理方法，应用于服务端，其特征在于，包括：

接收来自多个客户端的多个音频数据；

将所述多个音频数据中的第一音频数据发送至所述多个客户端进行播放，并对所述多个音频数据中的第二音频数据执行第一目标处理，所述第一目标处理包括以下任意一项：

在所述第二音频数据的录制起始时间与所述第一音频数据的录制起始时间的时间差值小于第一时间阈值的情况下，将所述第二音频数据转换为第一文本信息，并将所述第一文本信息发送至所述多个客户端进行显示，所述第一文本信息的显示时间与所述第一音频数据的播放时间的时间差值小于第二时间阈值；

在所述第二音频数据的录制起始时间与所述第一音频数据的录制起始时间的时间差值小于第一时间阈值的情况下，在所述第一音频数据播放结束后，将所述第二音频数据发送至所述多个客户端进行播放；

删除第二音频数据。

2.根据权利要求1所述的音频数据处理方法，其特征在于，所述将所述多个音频数据中的第一音频数据发送至所述多个客户端进行播放之前，还包括：

按照预设优先级确定所述多个音频数据中的第三音频数据和第二音频数据；

在所述第三音频数据的数量为多个的情况下，根据所述第三音频数据的录制起始时间，确定多个所述第三音频数据中的第一音频数据和第二音频数据。

3.根据权利要求1所述的音频数据处理方法，其特征在于，在所述第一文本信息的数量为多个的情况下，所述将所述第一文本信息发送至所述多个客户端进行显示之前，还包括：

确定多个所述第一文本信息的显示顺序，所述显示顺序与所述第二音频数据的录制起始时间相关联；

所述将第一文本信息发送至所述多个客户端进行显示，包括：

按照所述显示顺序，将多个所述第一文本信息发送至所述多个客户端，以使所述多个客户端顺序显示多个所述第一文本信息。

4.根据权利要求1所述的音频数据处理方法，其特征在于，所述接收来自多个客户端的多个音频数据之后，还包括：

对所述多个音频数据执行第二目标处理；

其中，所述目标操作包括以下至少一项：删除所述多个音频数据中的第四音频数据、对所述多个音频数据设置优先级、对多个音频数据中的第五音频数据进行回复。

5.根据权利要求1所述的音频数据处理方法，其特征在于，所述将所述多个音频数据中的第一音频数据发送至所述多个客户端进行播放的过程中，还包括：

根据所述第一音频数据，确定历史播放记录中的第六音频数据，所述第六音频数据的内容与所述第一音频数据的内容相关联；

将所述第六音频数据转换为第二文本信息；

将所述第二文本信息发送至所述多个客户端进行显示，所述第二文本信息的显示时间与所述第一音频数据的播放时间的时间差值小于第三时间阈值。

6.根据权利要求1至5中任一项所述的音频数据处理方法，其特征在于，所述将所述多个音频数据中的第一音频数据发送至所述多个客户端进行播放之后，还包括：

在接收到的第七音频数据中包括目标信息的情况下，停止向所述多个客户端发送所述第一音频数据，并向所述多个客户端发送所述第七音频数据进行播放。

7.一种音频数据处理方法，应用于第一客户端，其特征在于，包括：

接收来自服务端的第一数据；

对所述第一数据执行第三目标处理，所述第三目标处理包括以下任意一项：

在所述第一数据包括第一音频数据和第一文本信息的情况下，播放所述第一音频数据，并显示所述第一文本信息，所述第一文本信息的显示时间与所述第一音频数据的播放时间的时间差值小于第二时间阈值，其中，所述第一文本信息是基于第二音频数据得到的，且所述第一音频数据与所述第二音频数据的录制起始时间的时间差值小于第一时间阈值；

在所述第一数据包括第一音频数据和第二音频数据，且所述第一音频数据与所述第二音频数据的录制起始时间的时间差值小于第一时间阈值的情况下，播放所述第一音频数据，在所述第一音频数据播放结束后，继续播放所述第二音频数据。

8.根据权利要求7所述的音频数据处理方法，其特征在于，在所述第一文本信息的数量为多个的情况下，所述播放所述第一音频数据，并显示所述第一文本信息，包括：

在播放所述第一音频数据的过程中，按照多个所述第一文本信息的接收顺序，依次显示多个所述第一文本信息。

9.根据权利要求7所述的音频数据处理方法，其特征在于，所述播放所述第一音频数据的过程中，还包括：

接收来自所述服务端的第二文本信息，并显示第二文本信息；

其中，所述第二文本信息的显示时间与所述第一音频数据的播放时间的时间差值小于第三时间阈值，所述第二文本信息是基于历史播放记录中的第六音频数据生成的，所述第六音频数据的内容与所述第一音频数据的内容相关联。

10.根据权利要求8所述的音频数据处理方法，其特征在于，所述播放所述第一音频数据的过程中，还包括：

发送第七音频数据至所述服务端，使所述服务端停止向其他客户端发送所述第一音频数据；

其中，所述第七音频数据中包括目标信息。

11.一种音频数据处理方法，应用于第二客户端，其特征在于，包括：

录制并发送音频数据至服务端；

接收用户的操作输入；

基于所述操作输入生成请求信息，所述请求信息用于请求服务器执行第四目标处理，所述第四目标处理包括以下至少一项：

延迟发送所述音频数据、删除所述音频数据、将所述音频数据转换为第三文本信息。

12.一种音频数据处理装置，应用于服务端，其特征在于，包括：

第一接收模块，用于接收来自多个客户端的多个音频数据；

第一处理模块，用于将所述多个音频数据中的第一音频数据发送至所述多个客户端进行播放，并对所述多个音频数据中的第二音频数据执行第一目标处理，所述第一目标处理包括以下任意一项：

删除所述第二音频数据。

13.一种音频数据处理装置，应用于第一客户端，其特征在于，包括：

第二接收模块，用于接收来自服务器的第一数据；

第二处理模块，用于对所述第一数据执行第三目标处理，所述第三目标处理包括以下任意一项：

在所述第一数据包括第一音频数据和第二音频数据，且所述第一音频数据与所述第二音频数据的录制起始时间的时间差值小于第一时间阈值的情况下，播放所述第一音频数据，在所述第一音频数据播放结束后，继续播放所述第二音频数据；

在所述第一数据包括第一音频数据的情况下，播放所述第一音频数据。

14.一种音频数据处理装置，应用于第二客户端，其特征在于，包括：

录制模块，用于录制音频数据；

第一发送模块，用于发送音频数据至服务端；

第三接收模块，用于接收用户的操作输入；

生成模块，用于基于所述操作输入生成请求信息，所述请求信息用于请求所述服务端执行第四目标处理，所述第四目标处理包括以下至少一项：延迟发送所述音频数据、删除所述音频数据、将所述音频数据转换为文本信息。

15.一种服务器，其特征在于，包括处理器，存储器及存储在所述存储器上并可在所述处理器上运行的程序或指令，所述程序或指令被所述处理器执行时实现如权利要求1至6中任一项所述的音频数据处理方法的步骤。

16.一种电子设备，其特征在于，包括处理器，存储器及存储在所述存储器上并可在所述处理器上运行的程序或指令，所述程序或指令被所述处理器执行时实现如权利要求7至11中任一项所述的音频数据处理方法的步骤。

17.一种可读存储介质，其特征在于，所述可读存储介质上存储有程序或指令，所述程序或指令被处理器执行时实现如上述权利要求1至11中任一项所述的音频数据处理方法的步骤。