CN113450797B

CN113450797B - 基于在线会议的音频处理方法、设备、存储介质及系统

Info

Publication number: CN113450797B
Application number: CN202110729223.1A
Authority: CN
Inventors: 韦国华; 顾振华; 张祖良; 王超
Original assignee: Suzhou Keda Technology Co Ltd
Current assignee: Suzhou Keda Technology Co Ltd
Priority date: 2021-06-29
Filing date: 2021-06-29
Publication date: 2024-12-17
Anticipated expiration: 2041-06-29
Also published as: CN113450797A

Abstract

本申请涉及一种基于在线会议的音频处理方法、设备、存储介质及系统，属于计算机技术领域，该方法包括；在在线会议进行过程中，获取至少两个与会终端的音频数据；从至少两路音频数据中确定主要发言人对应的一路目标音频数据；获取目标音频数据对应的第一文本数据；可以解决对每路音频数据均转换为文本数据时，导致消耗大量的转写资源的问题；通过预测当前的主要发言人，仅对该主要发言人对应的一路音频数据进行处理，一个在线会议只需要一路语音转写资源，可以减少在线会议占用的转写资源。同时实际用于转写的音频为原始音频，因此，不存在中间处理所导致的信号损失，可以提高语音转写的准确性。

Description

基于在线会议的音频处理方法、设备、存储介质及系统

【技术领域】

本申请涉及一种基于在线会议的音频处理方法、设备、存储介质及系统，属于计算机技术领域。

【背景技术】

在进行在线会议的过程中，需要对在线会议的语音进行处理以进行字幕显示或者生成会议纪要。其中，对音频进行处理包括将音频数据中的语音数据转化为文本数据的过程，即语音转写过程。

传统的视频会议中的语音转写方法包括：将所有参会的终端的音频分别进行语音转写，得到文本数据；将每一路文本数据根据时间顺序合并，得到在线会议对应的文本文件。

然而，对多路音频分别进行转写需要为每路音频均设置对应的语音转写模块，需要消耗大量的转写资源。

【发明内容】

本申请提供了一种基于在线会议的音频处理方法、设备、存储介质及系统，可以解决对每路音频数据均转换为文本数据时，导致消耗大量的转写资源的问题。本申请提供的技术方案如下：

第一方面，提供一种基于在线会议的音频处理方法，用于会议智能服务器中，所述方法包括：

在在线会议进行过程中，获取至少两个与会终端的音频数据；所述至少两个与会终端接入同一所述在线会议，每个与会终端对应一路音频数据；

从至少两路音频数据中确定主要发言人对应的一路目标音频数据；

获取所述目标音频数据对应的第一文本数据。

可选地，所述从至少两路音频数据中确定主要发言人对应的一路目标音频数据，包括：

确定每路音频数据中是否包括语音数据；

当存在至少两路音频数据包括语音数据时，获取所述语音数据的语音特征；

根据所述语音特征，从包括所述语音数据的至少两路音频数据中确定所述目标音频数据。

可选地，所述根据所述语音特征，从包括所述语音数据的至少两路音频数据中确定所述目标音频数据，包括：

所述语音特征包括语音能量，将所述语音能量最大的一路音频数据确定为所述目标音频数据；

或者，

所述语音特征包括语音能量和语音持续时长，将所述语音能量超过预设阈值、且所述语音持续时长最大的一路音频数据确定为所述目标音频数据；

或者，

所述语音特征包括语音持续时长，将所述语音持续时长超过预设时长阈值、且所述语音持续时长最大的一路音频数据确定为所述目标音频数据。

可选地，所述从至少两路音频数据中确定主要发言人对应的一路目标音频数据，还包括：

获取所述在线会议中指定的主要发言人；

从至少两路音频数据中确定所述指定的主要发言人对应的一路音频数据，得到所述目标音频数据。

可选地，所述获取所述目标音频数据对应的第一文本数据，包括：

使用语音转写算法对所述目标音频数据进行处理，得到所述第一文本数据；

或者，

将所述目标音频数据发送至指定设备，以供所述指定设备使用语音转写算法对所述目标音频数据进行处理，得到所述目标音频数据对应的第一文本数据；接收所述指定设备发送的所述目标音频数据对应的第一文本数据。

可选地，所述获取所述至少两个与会终端的音频数据，包括：

当会议控制平台开启混音功能时，获取所述会议控制平台发送的混音列表，所述混音列表包括所述至少两路音频数据的数据标识；所述会议控制平台用于为所述至少两个与会终端提供在线会议服务，所述混音列表中数据标识的数量是所述会议控制平台根据预设混音深度确定的；

接收所述会议控制平台发送的N路音频数据，所述N路音频数据是指接入所述在线会议的所有与会终端对应的音频数据，N大于或等于2；

从所述N路音频数据中获取所述数据标识指示的所述至少两路音频数据。

可选地，所述获取所述目标音频数据对应的第一文本数据之后，还包括：

在所述在线会议结束后，获取所述在线会议的其他音频数据，所述其他音频数据是指所述至少两路音频数据中除所述目标音频数据以外的音频数据；

获取所述其他音频数据对应的第二文本数据；

将所述第一文本数据与所述第二文本数据按照时间顺序合并，得到所述在线会议对应的文本文件。

第二方面，提供一种基于在线会议的音频处理装置，所述装置包括：

音频获取模块，用于在在线会议进行过程中，获取至少两个与会终端的音频数据；所述至少两个与会终端接入同一所述在线会议，每个与会终端对应一路音频数据；

音频确定模块，用于从至少两路音频数据中确定主要发言人对应的一路目标音频数据；

文本获取模块，用于获取所述目标音频数据对应的第一文本数据。

第三方面，提供一种电子设备，所述设备包括处理器和存储器；所述存储器中存储有程序，所述程序由所述处理器加载并执行以实现第一方面提供的基于在线会议的音频处理方法。

第四方面，提供一种计算机可读存储介质，所述存储介质中存储有程序，所述程序被处理器执行时用于实现第一方面提供的基于在线会议的音频处理方法。

第五方面，提供一种基于在线会议的音频处理系统，所述系统包括N个与会终端、与每个与会终端通信相连的会议控制平台、以及与所述会议控制平台相连的会议智能服务器；所述N个与会终端接入同一在线会议，所述N为大于1的整数；

所述N个与会终端中的每个与会终端，用于在在线会议进行过程中采集音频数据，得到N路音频数据；将所述N路音频数据发送至所述会议控制平台；

所述会议控制平台，用于接收所述N路音频数据，并将所述N路音频数据转发至所述会议智能服务器；

所述会议智能服务器，用于在在线会议进行过程中，获取至少两个与会终端的音频数据；从至少两路音频数据中确定主要发言人对应的一路目标音频数据；并获取所述目标音频数据对应的第一文本数据。

本申请的有益效果至少包括：通过在在线会议进行过程中，获取至少两个与会终端的音频数据；从至少两路音频数据中确定主要发言人对应的一路目标音频数据；获取目标音频数据对应的第一文本数据；可以解决对每路音频数据均转换为文本数据时，导致消耗大量的转写资源的问题；通过预测当前的主要发言人，仅对该主要发言人对应的一路音频数据进行处理，此时，一个在线会议只需要一路语音转写资源，可以减少在线会议占用的转写资源。

另外，本申请实际用于转写的音频为原始音频，而非混音后的音频，因此，不存在中间处理所导致的信号损失，可以提高语音转写的准确性。

另外，通过结合语音检测和语音特征来确定主要发言人，而不是仅通过语音检测来确定发言人，可以提高确定主要发言人的准确性。

另外，通过获取在线会议指定的主要发言人，无需自身通过决策确定，可以提高确定主要发言人的效率。

另外，在会议控制平台开启混音功能时，由于为进入混音的音频数据不会被与会者听到，因此，通过从混音列表对应的至少两路音频数据中确定主要发言人，可以减少需要判断的音频数据的路数，节省设备资源。

另外，通过在会议结束时，将各路其它音频数据均进行语音转写，得到第二文本数据，并将第一文本数据与第二文本数据合并，可以保证用户能够获得完整的会议记录。

上述说明仅是本申请技术方案的概述，为了能够更清楚了解本申请的技术手段，并可依照说明书的内容予以实施，以下以本申请的较佳实施例并配合附图详细说明如后。

【附图说明】

图1是本申请一个实施例提供的基于在线会议的音频处理系统的结构示意图；

图2是本申请一个实施例提供的基于在线会议的音频处理方法的流程图；

图3是本申请另一个实施例提供的基于在线会议的音频处理方法的流程图；

图4是本申请一个实施例提供的在线会议结束后的音频处理方法的流程图；

图5是本申请一个实施例提供的基于在线会议的音频处理装置的框图；

图6是本申请一个实施例提供的电子设备的框图。

【具体实施方式】

下面结合附图和实施例，对本申请的具体实施方式做进一步详细描述。以下实施例用于说明本申请，但不用来限制本申请的范围。

首先，对部分的申请涉及的若干名词进行介绍。

在线会议：在线会议又称为网络会议或是远程协同办公，用户利用互联网实现不同地点多个用户的数据共享。

语音活动检测(Voice Activity Detection，VAD)又称语音端点检测,语音边界检测：用于检测当前音频信号中是否包含语音信号存在，即对当前输入的音频信号进行判断，将语音信号与各种背景噪声信号进行区分。

语音转写技术：是指将音频数据转换成文本数据的技术。在一个示例中，语音转写技术包括但不限于：自动语音识别技术(Automatic Speech Recognitio，ASR)：是一种将人的语音转换为文本的技术。

图1是本申请一个实施例提供的基于在线会议的音频处理系统的结构示意图。本申请中，在线会议可以为多点会议，或者也可以是点对点的会议，本实施例不对在线会议的类型作限定。如图1所示，该系统至少包括与会终端110、会议控制平台120和会议智能服务器130。

与会终端110的数量为N个，N的数量大于或等于2。N个与会终端110通过会议控制平台120加入同一在线会议。

可选地，与会终端110可以为手机、平板电脑、计算机等具有在线会议功能的设备，本实施例不对与会终端110的设备类型作限定。

在线会议进行过程中，与会终端110具有采集与会者的音频数据、并将该音频数据发送至会议控制平台120的功能。此时，每个与会终端110会向会议控制平台120发送一路音频数据。换言之，每个与会终端110对应一路音频数据，且不同与会终端110不同路的音频数据。

另外，与会终端110还可以具有在线会议进行时所需的其它功能，比如：图像采集功能、通信功能等，本实施例在此不再一一列举。

与会终端110与会议控制平台120通信相连。

可选地，会议控制平台120可以为多点控制单元(multi control unit，MCU)，或者是安装有MCU的终端或服务器，本实施例不对会议控制平台120的实现方式作限定。

会议控制平台120用于为与会终端110提供在线会议服务。在线会议进行过程中，会议控制平台120用于接收N个与会终端110发送的音频数据，得到N路音频数据。

可选地，会议控制平台120具有混音功能、且会议控制平台120开启该混音功能时，可以基于预设混音深度将N路音频数据中的M路音频数据进行混音；并将混音后的音频数据发送至各个与会终端110。N≥M，M大于或等于2。M的值小于或等于预设混音深度。

相应地，与会终端110接收并播放会议控制平台120混音后的音频数据，此时，各个与会终端110对应的参会者仅能听到加入混音的M路音频数据。

其中，预设混音深度是指会议控制平台120的最大混音路数，比如：预设混音深度为8、或者5等，本实施例不对预设混音深度的取值作限定。

由于同一时间可能存在很多个与会终端110采集到音频数据，但并不是所有与会终端110的音频数据都需要进行混音。基于此，本实施例中，通过设置预设混音深度，当同时发送音频数据的与会终端110的数量超过预设混音深度时，从各路音频数据中选择出M(与预设混音深度相等)路音频数据进行混音，可以节省传输资源，提高会议效果。

会议控制平台120根据混音深度选择M路音频数据的方式包括：对接收到的N路音频数据分别进行语音检测；从N路音频数据中确定出包括语音数据的至少两路音频数据；确定包括语音数据的至少两路音频数据的路数是否大于混音深度；若是，则获取包括语音数据的至少两路音频数据的语音能量，选择语音能量最高的M路音频数据作为待进行混音的音频数据。

可选地，本申请中，语音能量可以为包括语音数据的音频数据的音量最大值；或者为包括语音数据的音频数据的音量平均值，本申请不对语音能量的设置方式作限定。

其中，对音频数据进行语音检测的方式可以为VAD检测，此时，会议控制平台120还具有VAD检测功能。

需要补充说明的是，当同时发送音频数据的与会终端110的数量小于或等于预设混音深度时，会议控制平台120可以将接收到的所有音频数据进行混音，不需要进行音频数据的选择。

可选地，会议控制平台120不具有混音功能，或者会议控制平台120具有混音功能、但未开启该混音功能时，会议控制平台120每接收到一个与会终端110发送的音频数据，都将该音频数据转发至接入同一在线会议的各个其它与会终端110。

本实施例中，会议控制平台120还与会议智能服务器130通信相连。

可选地，会议智能服务器130可以为计算机、或服务器集群等，会议智能服务器130可以与会议控制平台120实现在同一设备中，或者也可以与会议控制平台120实现在不同设备中，本实施例不对会议智能服务器130的实现方式作限定。

在其它实施方式中，会议智能服务器130也可以称为音频处理设备、智能会议管理服务器等，本实施例不对会议智能服务器130的名称作限定。

在线会议进行过程中，会议控制平台120接收到N个与会终端110发送的N路音频数据后，将N路音频数据发送至会议智能服务器130。

相应地，会议智能服务器130接收到N路音频数据后，获取至少两个与会终端的音频数据；从至少两路音频数据中确定主要发言人对应的一路目标音频数据；获取目标音频数据对应的第一文本数据。

其中，会议智能服务器130获取到的至少两个与会终端的音频数据是指待进行音频处理的音频数据。待进行音频处理的音频数据的路数小于或等于N。

主要发言人是指会议智能服务器130预测出的当前时间段内主要在发言的与会人员。

由于在一些大会场景里，会议模式是以一个发言人在主席台发言为主，很少涉及与听众之间的对话，即使有对话的需求，也都是以终端轮流发言的方式来进行。基于此，在特定的、以单一发言人发言为主的会议场景下，通过预测当前的主要发言人，然后仅对该主要发言人对应的一路音频数据进行处理，得到第一文本数据。此时，一个在线会议只需要一路语音转写资源；并且由于实际用于转写的音频为原始音频(而非混音后的音频)，因此，不存在中间处理所导致的信号损失，可以提高语音转写的准确性。

下面对本申请涉及的在线会议的音频处理方法进行详细介绍。

图2是本申请一个实施例提供的在线会议的音频处理方法的流程图，本实施例以该方法用于图1所述的系统的会议智能服务器130中为例进行说明，该方法至少包括以下几个步骤：

步骤201，在在线会议进行过程中，获取至少两个与会终端的音频数据。

其中，至少两路与会终端为接入同一在线会议的终端，每个与会终端对应一路音频数据。

本实施例中，会议智能服务器获取到的音频数据均为会议控制平台转发的音频数据，即，会议控制平台接收到与各个会终端发送的音频数据后，会将该原始的音频数据转发至会议智能服务器。

本实施例中，会议智能服务器获取到的至少两个与会终端的音频数据为待进行音频处理的音频数据。换言之，会议智能服务器可能接收到N路音频数据，但仅对其中M路音频数据进行音频处理。

比如：在会议控制平台开启混音功能的情况下，若会议控制平台接收到N个与会终端发送的N路音频数据，则先根据预设混音深度对N路音频数据进行混音，并将混音列表以及N路音频数据均发送至会议智能服务器。其中，混音列表包括至少两路音频数据的数据标识；混音列表中数据标识的数量是会议控制平台根据预设混音深度确定的。

可选地，数据标识用于唯一地标识一路音频数据，可以是发送音频数据的与会终端的编号、设备号、参会名称或者IP地址等，本实施例不对数据标识的实现方式作限定。

相应地，会议智能服务器获取会议控制平台发送的混音列表，并接收会议控制平台发送的N路音频数据，从N路音频数据中获取数据标识指示的至少两路音频数据，即得到待进行音频处理的M路音频数据。

在会议控制平台未开启混音功能、或者不具有混音功能的情况下，会议智能服务器可以将接收到的所有音频数据均作为待处理的至少两路音频数据，即，M＝N。

步骤202，从至少两路音频数据中确定主要发言人对应的一路目标音频数据。

本实施例中，智能会议服务器确定出的主要发言人的数量为一个，因此，可以得到主要发言人对应的一路目标音频数据。

从至少两路音频数据中确定主要发言人对应的一路目标音频数据的方式包括但不限于以下几种中的一种：

第一种：获取在线会议中指定的主要发言人；从至少两路音频数据中确定指定的主要发言人对应的一路音频数据，得到目标音频数据。

在线会议中指定的主要发言人是在线会议的管理者指定的，或者是各个参会者投票决定的，本实施例不对指定的主要发言人的指定方式作限定。会议控制平台获取到指定的主要发言人后，会将指定的发言人的发言人信息发送至智能会议服务器。相应地，智能会议服务器获取会议控制平台发送的发言人信息，得到该发言人信息对应的主要发言人。

其中，发言人信息可以与数据标识相同，或者与数据标识不同。发言人信息可以是参会名称、与会终端的IP地址、设备号等，本实施例不对发言人信息的实现方式作限定。

第二种：确定每路音频数据中是否包括语音数据；当存在至少两路音频数据包括语音数据时，获取语音数据的语音特征；根据语音特征，从包括语音数据的至少两路音频数据中确定目标音频数据。

在一个示例中，确定每路音频数据中是否包括语音数据，包括：使用VAD算法对每路音频数据分别进行检测，得到检测结果，该检测结果用于指示音频数据中是否包括语音数据。

此时，每路音频数据均对应一个VAD检测算法，换言之，同一时间段内的各路音频数据并行进行VAD检测，得到检测结果。

在另一个示例中，会议控制平台在混音时对每路音频数据进行VAD检测，得到检测结果；并将该检测结果发送至会议智能服务器。相应地，会议智能服务器确定每路音频数据中是否包括语音数据，包括：接收会议控制平台发送的检测结果；根据该检测结果确定每路音频数据中是否包括语音数据。

可选地，语音特征包括语音能量和或语音持续时长。对于不同的语音特征，确定目标音频数据的方式不同。下面对各个确定目标音频数据的方式分别进行介绍。

情况1：当语音特征包括语音能量时，将语音能量最大的一路音频数据确定为目标音频数据。

情况2：语音特征包括语音能量和语音持续时长，将语音能量超过预设阈值、且语音持续时长最大的一路音频数据确定为目标音频数据。

由于某路音频数据可能存在语音能量突变的情况，比如：与会者打了个喷嚏，导致语音能量突然变大和变小。此时，在仅依赖语音能量确定目标音频数据可能不够准确。基于此，在第2种情况中，结合语音能量和语音持续时长来确定目标音频数据，可以提高确定目标音频数据的准确性。

情况3：语音特征包括语音持续时长，将语音持续时长超过预设时长阈值、且语音持续时长最大的一路音频数据确定为目标音频数据。

需要补充说明的是，在实际实现时，语音特征还可以包括其它特征，比如：语音频率等，本实施例不对语音特征的实现方式、以及根据语音特征确定目标音频数据的方式作限定。

步骤203，获取目标音频数据对应的第一文本数据。

本实施例中，获取目标音频数据对应的第一文本数据，包括但不限于以下几种实现方式：

第一种：使用语音转写算法对目标音频数据进行处理，得到第一文本数据。

比如：使用ASR算法对目标音频数据进行语音转写。

第二种：将目标音频数据发送至指定设备，以供指定设备使用语音转写算法对目标音频数据进行处理，得到目标音频数据对应的第一文本数据；接收指定设备发送的目标音频数据对应的第一文本数据。

此时，会议智能服务器不具有语音转写功能，会议智能服务器可以将目标音频数据发送至指定设备，该指定设备与会议智能服务器通信相连，且具有语音转写功能。

可选地，智能会议服务器在获取到第一文本数据后，可以将第一文本数据通过会议控制平台发送至各个与会终端，以供与会终端在会议进行过程中实时显示第一文本数据。此时，各个与会者均可以看到与主要发言人的发言内容对应的文字信息。

由于上述实施例中仅对主要发言人对应的一路目标音频数据进行转写，此时，其它发言人的信息没有转化成文本数据。为了保证用户能够获取到各个发言人的发言内容所对应的文本数据，本实施例中，在步骤103之后，还包括：当在线会议结束后，获取在线会议的其他音频数据，该其他音频数据是指至少两路音频数据中除目标音频数据以外的音频数据；获取其他音频数据对应的第二文本数据；将第一文本数据与第二文本数据按照时间顺序合并，得到在线会议对应的文本文件。

其中，获取其它音频数据对应的第二文本数据的相关描述详见步骤103中的两种实现方式，本实施例在此不再赘述。

将第一文本数据与第二文本数据按照时间顺序合并，得到在线会议对应的文本文件，包括：当同一时间段内既包括第一文本数据又包括第二文本数据时，分别建立该时间段与第一文本数据和第二文本数据之间的对应关系，并按照该对应关系合并第一文本数据和第二文本数据。

换言之，当各个发言人员在时间上存在交叉时，会议智能服务器会按照每个发言人员原始的音频数据进行处理，得到每个发言人员对应的文本数据，然后将各个发言人员的文本数据均保存至文本文件中。

可选地，文本文件可以作为最终的会议纪要发送至各个与会终端中。

综上所述，本实施例提供的基于在线会议的音频处理方法，通过在在线会议进行过程中，获取至少两个与会终端的音频数据；从至少两路音频数据中确定主要发言人对应的一路目标音频数据；获取目标音频数据对应的第一文本数据；可以解决对每路音频数据均转换为文本数据时，导致消耗大量的转写资源的问题；而在特定的、以单一发言人发言为主的会议场景下，通过预测当前的主要发言人，仅对该主要发言人对应的一路音频数据进行处理，此时，一个在线会议只需要一路语音转写资源，可以减少在线会议占用的转写资源。

另外，当会议控制平台开启混音功能时，由于为进入混音的音频数据不会被与会者听到，因此，通过从混音列表对应的至少两路音频数据中确定主要发言人，可以减少需要判断的音频数据的路数，节省设备资源。

为了更清楚地理解本申请提供的基于在线会议的音频处理方法，下面对该方法以一个示例进行说明。参考图3，在本实施例中，以接入在线会议的与会终端的数量为3个，分别为与会终端1、与会终端2和与会终端3为例进行说明，该方法至少包括以下几个步骤：

步骤31，与会终端1加入会议，向会议控制平台发送一路音频数据；与会终端2加入会议，向会议控制平台发送一路音频数据；与会终端3加入会议，向会议控制平台发送一路音频数据。

本实施例不对与会终端1、与会终端2和与会终端3加入同一在线会议的先后顺序作限定。

步骤32，会议控制平台将3路音频数据均转发至会议智能服务器。

会议控制平台将来自与会终端的各路音频数据全部转发到会议智能服务器。在会议控制平台启用的混音功能的情况下，会议控制平台还会根据预设混音深度将所有进混音的音频列表发送到会议智能服务器。

步骤33，在当前在线会议有指定的主要发言人时，会议控制平台将指定的主要发言人的发言人信息转发至会议智能服务器。

可选地，指定的主要发言人可以是在在线会议开始时强制指定的，或者也可以是会议控制平台根据自身的决策策略所选举出来的，本实施例不对指定的主要发言人的确定方式作限定。

在当前的在线会议没有指定的主要发言人时，不执行步骤33。

步骤33可以在步骤32之后执行，或者也可以在步骤32之前执行，或者也可以与步骤32同时执行，本实施例不对步骤33与步骤32之间的执行顺序作限定。

步骤34，会议智能服务器确定在线会议是否存在指定的主要发言人；若是，则执行步骤37；若否，则执行步骤35。

具体地，会议智能服务器若接收到指定的主要发言人的发言人信息，则确定在线会议存在指定的主要发言人；若未接收到指定的主要发言人的发言人信息，则确定在线会议不存在指定的主要发言人。

步骤35，会议智能服务器对接收到的3路音频数据进行VAD检测。

在会议控制平台启用的混音功能的情况下，本实施例以会议智能服务器接收的3路音频数据均进入混音为例进行说明。在实际实现时，若存在一路音频数据未进入混音，则可以按照混音列表从3路音频数据中选择两路音频数据进行VAD检测，具体说明详见图2所述的实施例。

步骤36，会议智能服务器根据VAD检测的结果，确定出当前存在语音数据、语音持续时长超过3秒、且语音持续时间最长的一路音频数据，得到主要发言人对应的一路目标音频数据。

本实施例中，以预设时长阈值为3秒为例进行说明，在实际实现时，也可以为其它数值，本申请不对预设时长阈值的取值作限定。

其中步骤35和步骤36是随着时间推移不断循环迭代的过程，即，对每个当前时间段的3路音频数据不断进行VAD检测，并确定主要发言人，直至在线会议结束时停止。

步骤37，会议智能服务器将主要发言人对应的一路目标音频数据发送至ASR转写服务器进行转写。

本实施例中，以通过ASR转写服务器进行转写为例进行说明，在实际实现时，转写过程也可以在会议智能服务器中完成，本实施例不对转写过程的实现方式作限定。

步骤38，ASR转写服务器对发言人的音频进行转写后，得到第一文本数据；并将第一文本数据返回给会议智能服务器。

步骤39，会议智能服务器在收到ASR服务器所返回的第一文本数据后，将第一文本数据作为在线会议对应的实时文本，并将该第一文本数据转发给会议控制平台。

步骤310，会议控制平台在接收到第一文本数据后，将该第一文本数据转发给参会终端1、2和3，以供参会终端1、2和3显示同声字幕。

在在线会议结束时，参考图4，至少还包括如下几个步骤：

步骤311，会议智能服务器将存在VAD的其它音频数据发送至ASR转写服务器。

步骤312，ASR转写服务器对其它音频数据进行转写，得到第二文本数据；并第二文本数据返回至会议智能服务器。

步骤313，会议智能服务器接收第二文本数据，并将第二文本数据和第一文本数据按照时间顺序进行合并，得到文本文件。

可选地，会议智能服务器还可以将各路音频数据进行混音，得到混音后的音频文件。

根据上述步骤可知，本实施例提供的音频处理方法可以实现：

1、在实时场景下(同声字幕)只做一路转写(指定的主要发言人对应的一路，或者通过自身决策出来的主要发言人)，并输出到屏幕上。

其中，非主要发言人的音频数据不做实时转写，而是在生成文本文(或者说是会议纪要)时再开始转写，可节省转写资源。一路实时转写的资源要求远大于一路非实时转写的资源要求。

2、在非实时的场景下记录完整的会议发言，每个会场说的话都存储至文本文件中。

图5是本申请一个实施例提供的基于在线会议的音频处理装置的框图。本实施例以该装置用于图1所述的系统的会议智能服务器130中为例进行说明，该装置至少包括以下几个模块：音频获取模块510、音频确定模块520和文本获取模块530。

音频获取模块510，用于在在线会议进行过程中，获取至少两个与会终端的音频数据；所述至少两个与会终端接入同一所述在线会议，每个与会终端对应一路音频数据；

音频确定模块520，用于从至少两路音频数据中确定主要发言人对应的一路目标音频数据；

文本获取模块530，用于获取所述目标音频数据对应的第一文本数据。

相关细节参考上述方法实施例。

需要说明的是：上述实施例中提供的基于在线会议的音频处理装置在进行基于在线会议的音频处理时，仅以上述各功能模块的划分进行举例说明，实际应用中，可以根据需要而将上述功能分配由不同的功能模块完成，即将基于在线会议的音频处理装置的内部结构划分成不同的功能模块，以完成以上描述的全部或者部分功能。另外，上述实施例提供的基于在线会议的音频处理装置与基于在线会议的音频处理方法实施例属于同一构思，其具体实现过程详见方法实施例，这里不再赘述。

图6是本申请一个实施例提供的电子设备的框图。该设备可以为图1所述的系统的会议智能服务器130。该设备至少包括处理器601和存储器602。

处理器601可以包括一个或多个处理核心，比如：4核心处理器、8核心处理器等。处理器601可以采用DSP(Digital Signal Processing，数字信号处理)、FPGA(Field－Programmable Gate Array，现场可编程门阵列)、PLA(Programmable Logic Array，可编程逻辑阵列)中的至少一种硬件形式来实现。处理器601也可以包括主处理器和协处理器，主处理器是用于对在唤醒状态下的数据进行处理的处理器，也称CPU(Central ProcessingUnit，中央处理器)；协处理器是用于对在待机状态下的数据进行处理的低功耗处理器。在一些实施例中，处理器601可以在集成有GPU(Graphics Processing Unit，图像处理器)，GPU用于负责显示屏所需要显示的内容的渲染和绘制。一些实施例中，处理器601还可以包括AI(Artificial Intelligence，人工智能)处理器，该AI处理器用于处理有关机器学习的计算操作。

存储器602可以包括一个或多个计算机可读存储介质，该计算机可读存储介质可以是非暂态的。存储器602还可包括高速随机存取存储器，以及非易失性存储器，比如一个或多个磁盘存储设备、闪存存储设备。在一些实施例中，存储器602中的非暂态的计算机可读存储介质用于存储至少一个指令，该至少一个指令用于被处理器601所执行以实现本申请中方法实施例提供的基于在线会议的音频处理方法。

在一些实施例中，电子设备还可选包括有：外围设备接口和至少一个外围设备。处理器601、存储器602和外围设备接口之间可以通过总线或信号线相连。各个外围设备可以通过总线、信号线或电路板与外围设备接口相连。示意性地，外围设备包括但不限于：射频电路、触摸显示屏、音频电路、和电源等。

当然，电子设备还可以包括更少或更多的组件，本实施例对此不作限定。

可选地，本申请还提供有一种计算机可读存储介质，所述计算机可读存储介质中存储有程序，所述程序由处理器加载并执行以实现上述方法实施例的基于在线会议的音频处理方法。

可选地，本申请还提供有一种计算机产品，该计算机产品包括计算机可读存储介质，所述计算机可读存储介质中存储有程序，所述程序由处理器加载并执行以实现上述方法实施例的基于在线会议的音频处理方法。

以上所述实施例的各技术特征可以进行任意的组合，为使描述简洁，未对上述实施例中的各个技术特征所有可能的组合都进行描述，然而，只要这些技术特征的组合不存在矛盾，都应当认为是本说明书记载的范围。

以上所述实施例仅表达了本申请的几种实施方式，其描述较为具体和详细，但并不能因此而理解为对发明专利范围的限制。应当指出的是，对于本领域的普通技术人员来说，在不脱离本申请构思的前提下，还可以做出若干变形和改进，这些都属于本申请的保护范围。因此，本申请专利的保护范围应以所附权利要求为准。

Claims

1.一种基于在线会议的音频处理方法，其特征在于，用于会议智能服务器中，所述方法包括：

从至少两路音频数据中确定主要发言人对应的一路目标音频数据,包括：

对所述至少两路音频数据进行VAD循环迭代检测，并根据VAD循环迭代检测结果，确定主要发言人对应的一路目标音频数据，直至在线会议结束时停止；

获取所述目标音频数据对应的第一文本数据，所述目标音频数据为原始音频数据，并将所述第一文本数据发送至各个与会终端，以供与会终端在会议进行过程中实时显示所述第一文本数据；

所述获取所述目标音频数据对应的第一文本数据之后，还包括：

在所述在线会议结束后，获取所述在线会议的其他音频数据，所述其他音频数据是指所述至少两路音频数据中除所述目标音频数据以外的存在VAD的其它音频数据；

获取所述其他音频数据对应的第二文本数据；

将所述第一文本数据与所述第二文本数据按照时间顺序合并，得到所述在线会议对应的文本文件，包括：

当同一时间段内既包括所述第一文本数据又包括所述第二文本数据时，分别建立该时间段与所述第一文本数据和所述第二文本数据之间的对应关系，并按照该对应关系合并所述第一文本数据和所述第二文本数据；

将所述文本文件作为最终的会议纪要发送至各个与会终端中。

2.根据权利要求1所述的方法，其特征在于，所述从至少两路音频数据中确定主要发言人对应的一路目标音频数据，包括：

确定每路音频数据中是否包括语音数据；

3.根据权利要求2所述的方法，其特征在于，所述根据所述语音特征，从包括所述语音数据的至少两路音频数据中确定所述目标音频数据，包括：

或者，

4.根据权利要求1所述的方法，其特征在于，所述从至少两路音频数据中确定主要发言人对应的一路目标音频数据，还包括：

获取所述在线会议中指定的主要发言人；

5.根据权利要求1所述的方法，其特征在于，所述获取所述目标音频数据对应的第一文本数据，包括：

或者，

6.根据权利要求1所述的方法，其特征在于，所述获取所述至少两个与会终端的音频数据，包括：

7.一种基于在线会议的音频处理设备，其特征在于，所述设备包括处理器和存储器；所述存储器中存储有程序，所述程序由所述处理器加载并执行以实现如权利要求1至6任一项所述的基于在线会议的音频处理方法。

8.一种计算机可读存储介质，其特征在于，所述存储介质中存储有程序，所述程序被处理器执行时用于实现如权利要求1至6任一项所述的基于在线会议的音频处理方法。

9.一种基于在线会议的音频处理系统，其特征在于，所述系统包括N个与会终端、与每个与会终端通信相连的会议控制平台、以及与所述会议控制平台相连的会议智能服务器；所述N个与会终端接入同一在线会议，所述N为大于1的整数；

所述会议智能服务器，用于在在线会议进行过程中，获取至少两个与会终端的音频数据；从至少两路音频数据中确定主要发言人对应的一路目标音频数据；并获取所述目标音频数据对应的第一文本数据，所述目标音频数据为原始音频数据，并将所述第一文本数据发送至各个与会终端，以供与会终端在会议进行过程中实时显示所述第一文本数据；

所述从至少两路音频数据中确定主要发言人对应的一路目标音频数据,包括：

获取所述其他音频数据对应的第二文本数据；