CN111294606A

CN111294606A - 直播处理方法、装置、直播客户端及介质

Info

Publication number: CN111294606A
Application number: CN202010061768.5A
Authority: CN
Inventors: 符德恩
Original assignee: Tencent Technology Shenzhen Co Ltd
Current assignee: Tencent Technology Shenzhen Co Ltd
Priority date: 2020-01-19
Filing date: 2020-01-19
Publication date: 2020-06-16
Anticipated expiration: 2040-01-19
Also published as: CN111294606B

Abstract

本申请实施例公开了一种直播处理方法、装置、直播客户端及介质，其中方法包括：在直播过程中，从直播界面中获取观众客户端发送的互动内容；获取与所述互动内容相关的提示语音；所述提示语音用于提示接收到所述观众客户端发送的互动内容；从至少两个分离的声道中选取第一声道，并采用所述第一声道播放所述提示语音。采用本申请实施例，可以有效提升主播用户在直播过程中的便利性，从而增强直播客户端的用户黏度。

Description

直播处理方法、装置、直播客户端及介质

技术领域

本申请涉及互联网技术领域，具体涉及计算机技术领域，尤其涉及一种直播处理方法、一种直播处理装置、一种直播客户端及一种计算机存储介质。

背景技术

随着互联网技术的发展，直播行业逐渐受到了广泛关注。在直播行业中，可将通过直播客户端进行直播的工作称为主播；主播作为一种新兴职业，能够为众多用户(尤其是视障用户)提供全新的就业机会。随着越来越多的用户选择加入直播行业中并从事主播这一份职业，如何提高主播用户在直播过程中的便利性，从而增强直播客户端的用户黏度成为了研究热点。

发明内容

本申请实施例提供了一种直播处理方法、装置、直播客户端及介质，可以有效提升主播用户在直播过程中的便利性，从而增强直播客户端的用户黏度。

一方面，本申请实施例提供了一种直播处理方法，所述方法包括：

在直播过程中，从直播界面中获取观众客户端发送的互动内容；

获取与所述互动内容相关的提示语音；所述提示语音用于提示接收到所述观众客户端发送的互动内容；

从至少两个分离的声道中选取第一声道，并采用所述第一声道播放所述提示语音。

另一方面，本申请实施例提供了一种直播处理装置，所述装置包括：

获取单元，用于在直播过程中，从直播界面中获取观众客户端发送的互动内容；

所述获取单元，还用于获取与所述互动内容相关的提示语音；所述提示语音用于提示接收到所述观众客户端发送的互动内容；

处理单元，用于从至少两个分离的声道中选取第一声道，并采用所述第一声道播放所述提示语音。

再一方面，本申请实施例提供了一种直播客户端，所述直播客户端包括输入接口和输出接口，所述直播客户端还包括：

处理器，适于实现一条或多条指令；以及，

计算机存储介质，所述计算机存储介质存储有一条或多条指令，所述一条或多条指令适于由所述处理器加载并执行如下步骤：

再一方面，本申请实施例提供了一种计算机存储介质，所述计算机存储介质存储有一条或多条指令，所述一条或多条指令适于由处理器加载并执行如下步骤：

本申请实施例在主播用户的直播过程中，可从直播界面中获取观众客户端发送的互动内容，并采用第一声道播放与互动内容相关的提示语音。通过播放提示语音的方式提示主播用户接收到观众客户端发送的互动内容，无需主播用户浏览直播界面中的互动内容，可有效提高直播的便利性，从而增强直播客户端的用户黏度。并且，通过声道分离以从至少两个分离的声道中选取第一声道；可有效减少提示语音对声道的资源占用，从而保证可正常播放直播过程中除提示语音之外的其他音乐。

附图说明

为了更清楚地说明本申请实施例技术方案，下面将对实施例描述中所需要使用的附图作简单地介绍，显而易见地，下面描述中的附图是本申请的一些实施例，对于本领域普通技术人员来讲，在不付出创造性劳动的前提下，还可以根据这些附图获得其他的附图。

图1a是本申请实施例提供的一种直播系统的架构示意图；

图1b是本申请实施例提供的一种直播客户端的主播接收声道的示意图；

图1c是本申请实施例提供的一种观众客户端的用户声道的示意图；

图1d是本申请实施例提供的一种主播用户进行直播的流程示意图；

图2是本申请实施例提供的一种直播处理方法的流程示意图；

图3a是本申请实施例提供的一种观众用户侧的观看界面的示意图；

图3b是本申请实施例提供的一种模板类别的示意图；

图3c是本申请实施例提供的一种观众客户端输出评论界面的示意图；

图3d是本申请实施例提供的一种观众客户端输出信息选择区域的示意图；

图3e是本申请实施例提供的另一种观众客户端输出评论界面的示意图；

图3f是本申请实施例提供的一种生成提示语音的示意图；

图3g是本申请实施例提供的另一种生成提示语音的示意图；

图4是本申请另一实施例提供的一种直播处理方法的流程示意图；

图5a是本申请实施例提供的一种直播客户端输出默认界面的示意图；

图5b是本申请实施例提供的一种直播客户端显示设置界面的示意图；

图5c是本申请实施例提供的一种直播客户端输出音效识别入口的示意图；

图5d是本申请实施例提供的一种直播客户端输出音效识别界面的示意图；

图5e是本申请实施例提供的一种音效对应关系的示意图；

图5f是本申请实施例提供的一种直播客户端输出识别提示的示意图；

图5g是本申请实施例提供的一种直播客户端输出直播界面的示意图；

图5h是本申请实施例提供的一种直播界面的示意图；

图5i是本申请实施例提供的一种直播客户端输出提示语音对应的文本的示意图；

图6是本申请实施例提供的一种直播处理装置的结构示意图；

图7是本申请实施例提供的一种直播客户端的结构示意图。

具体实施方式

下面将结合本申请实施例中的附图，对本申请实施例中的技术方案进行清楚、完整地描述。

直播是一种在现场随着事件的发生，同步制作并发布关于事件的发展进程的信息流，具有双向流通过程的信息网络发布方式。具体的，直播可在图1a所示的直播系统中实现；参见图1a所示，该直播处理系统可至少包括：直播客户端11、至少一个观众客户端12以及服务器13。其中，直播客户端11是指主播用户所使用的客户端，所谓的主播用户是指负责进行直播的用户；观众客户端12是指观众用户所使用的客户端，所谓的观众用户是指观看主播用户的直播内容的用户。此处的客户端可以包括但不限于：智能手机、平板电脑、膝上计算机以及台式电脑等终端设备，或者运行于终端设备中具有直播功能的APP(application，应用程序)，如NOW直播APP(腾讯公司的一款直播APP)，等等。其中，APP是指安装在终端设备中的软件。服务器13是指可在直播客户端11和观众客户端12之间提供信息交互服务的服务器，其包括但不限于：数据处理服务器、应用服务器以及web服务器，等等。在物理部署服务器13时，可将服务器部署为一个独立的服务设备，也可以将服务器13部署为由多个服务设备共同构成的集群设备，本申请实施例对此不作限定。

在如图1a所示的直播系统中实现直播时，直播客户端11可实时地将主播用户的直播内容上传至服务器13，由服务器13将直播内容下发至观众客户端12进行显示，以供观众用户实时观看主播用户的直播内容。观众用户在观看直播内容的过程中，可向主播用户发送互动内容；具体的，观众用户可通过观众客户端12将互动内容上传至服务器13，由服务器13将该互动内容下发至直播客户端11，使得直播客户端11在主播用户的直播界面中显示该互动内容。相应的，主播用户可在直播界面中查看观众用户发送的互动内容，并基于该互动内容与观众用户进行互动。由于主播用户在直播界面查看观众用户发送的互动内容时，通常会分散主播用户的注意力，容易导致主播用户无法较好地进行直播，影响直播效果。尤其是对于患有视障的主播用户而言，所谓的视障是指视觉功能受到一定程度的损害，因为视觉敏锐度低或视野受损而导致无法达到正常视力，从而影响到日常生活的疾病；由于此类主播用户无法清晰地查看用户界面中的互动内容，因此无法实现和观众用户的互动，从而导致此类主播用户无法进行直播。基于此，本申请实施例基于图1a所示的直播系统，提出了一种直播处理方案，以使得主播用户(尤其是患有视障的主播用户)可以更好地进行直播。该直播处理方案可由上述所提及的直播客户端执行，其方案原理大致如下：

在具体实现中，直播客户端可为主播用户提供一个视障直播模式(或称为视障直播功能)。并且，直播客户端可通过调用操作系统的底层声音API(ApplicationProgramming Interface，应用程序接口)协议实现声道分离，从而为主播用户提供至少两个分离的主播接收声道；并可控制一个或多个分离的声道输出声音或控制各个声道输出不同声音，如图1b所示。其中，底层声音API协议是指可实现声道分离的协议，其可以是安卓操作系统中的Audio Track协议、IOS操作系统中的Audio Unit协议，等等；所谓的声道是指声音在录制或播放时在不同空间位置采集或回放的相互独立的音频信号。主播接收声道是指用于向主播用户播放声音的声道；后续以分离的主播接收声道包括左声道和右声道两个声道为例，对本申请实施例提出的直播处理方案进行阐述。其中，左声道是指靠近主播用户的左耳的声道，其可统一用于播放关于观众用户发送的互动内容的提示语音，例如可用于播放“已收到某个观众用户发送的互动内容”的提示语音；相应的，主播用户可通过左声道收听提示语音。右声道是指靠近主播用户的右耳的声道，其可统一用于播放除提示语音以外的其他音频(如背景音乐)，例如可用于播放主播用户在唱歌过程中所选取的音乐；相应的，主播用户可通过右声道收听除提示语音以外的其他音频。

应理解的是，本申请实施例对左右声道的具体作用并不进行限定；例如，也可统一采用右声道播放提示语音，统一采用左声道播放除提示语音以外的其他音频；又如，左右声道还可用于采集主播用户的人声等。同理，直播客户端还可提供主播输出声道，该主播输出声道是指用于采集主播用户的人声以及背景音乐的声道；在采集主播用户的人声以及背景音乐时，由于左声道和右声道相同，因此均可作为主播输出声道。相应的，观众客户端可为观众用户提供用户声道，如图1c所示。其中，用户声道是指用于向观众用户播放主播用户侧的人声以及背景音乐的声道。观众用户可通过用户声道收听到和主播用户侧的右声道保持一致的背景音乐，并还可收听到主播用户侧的主播输出声道所采集到的人声，如麦克风采集到的主播用户唱歌的人声。可选的，主播输出声道可无需采集主播用户侧的左声道所播放的提示语音；也就是说，观众用户侧的用户声道可无需向观众用户播放主播用户侧的左声道的提示语音。

当主播用户想要进行直播时，可先在直播客户端中开启此视障直播模式；然后，进入直播间(进行直播的虚拟房间)进行直播，如图1d所示。在主播用户的直播过程中，直播客户端可控制主播接收声道播放相关音频。具体的，若在主播用户的直播过程中，存在观众用户向主播用户发送互动内容，则直播客户端可控制左声道播放关于互动内容的提示语音；若主播用户在直播过程中存在背景音乐，则直播客户端还可控制右声道播放背景音乐。由于在主播用户的直播过程中，主播用户可能会通过麦克风执行说话、唱歌等一系列操作；因此，直播客户端还可控制主播输出声道采集主播用户的人声(即麦克风声音)。同理，若存在背景音乐，则还可控制主播输出声道采集背景音乐。然后，直播客户端可将采集到的人声和背景音乐发送至观众客户端。相应的，观众客户端在接收到直播客户端发送的人声和背景音乐后，可通过用户声道播放该人声和背景音乐。由此可见，采用本申请实施例所提出的直播处理方案，可使得主播用户能够及时地与观众用户进行互动交流，提高主播用户在直播过程中的便利性，从而提升直播客户端的用户黏度。尤其是针对患有视障的主播用户而言，不仅能够帮助此类主播用户可以进行正常直播，还可吸引更多视障用户加入直播行业，从而提升使用该直播客户端的用户基数。

基于上述的描述，本申请实施例提出一种直播处理方法，该直播处理方法可以由上述所提及的直播客户端执行。请参见图2，该直播处理方法可包括以下步骤S201-S203：

S201，在直播过程中，从直播界面中获取观众客户端发送的互动内容。

在本申请实施例中，主播用户可以为视障用户或者非视障用户；所谓的视障用户是指患有视障的用户，其可分为全盲和弱视；即视障用户是指视觉功能有障碍，或者视觉功能受到一定程度的损害，因为视觉敏锐度低或视野受损而导致无法达到正常视力，从而影响到日常生活的用户。在主播用户的直播过程中，观众用户可通过观众客户端向主播用户发送互动内容；此处的互动内容可包括以下至少一项：目标虚拟资源以及目标评论信息。其中，目标虚拟资源是指在虚拟世界中的资源，其可包括但不限于：虚拟礼物、虚拟货币，等等。目标评论信息是指在主播用户的直播过程中，观众用户通过观众客户端发送的文本信息或语音信息，甚至是表情信息。其中，文本信息是指以文字形式呈现的信息，例如“很赞很赞”“继续加油”等文本信息；语音信息是以音频形式呈现的信息；表情信息是指包含表情符号或表情图标的信息。在具体实现中，观众用户通过观众客户端进入主播用户的直播间后，观众客户端可为观众用户展示观看界面；该观看界面中可至少包含评论按钮和礼物赠送按钮，如图3a所示。观众用户可通过该礼物赠送按钮向主播用户赠送虚拟礼物，也可以通过评论按钮向主播用户发送评论信息。

为了便于在主播用户的直播过程中，观众用户可及时快速地向主播用户发送评论信息，观众客户端可为观众用户提供一个精简评论功能。此处的精简评论功能是指可提供至少一个模板类别的模板评论信息以供观众用户选择的功能，该模板评论信息可以为模板文本信息、模板语音信息或者模板表情信息等。观众用户通过此精简评论功能向主播用户发送评论信息时，只需选取预先设置的模板评论信息即可。其中，模板类别可根据实际业务需求设置；例如，参见图3b所示，模板类别可包括但不限于：祝福类、加油类、赞美类、搞笑类、网络流行语类，等等。本申请实施例可预先为每个模板评论信息录制相应的模板音频，以便于后续可基于模板音频生成提示语音；且当模板评论信息为模板文本信息时，该模板评论信息所包含的字数可小于或等于字数阈值。具体的，当观众用户想要向主播用户发送评论信息时，可以对该评论按钮执行触发操作，以触发观众客户端输出评论界面。在一种实施方式中，评论界面中包括模板类别选择区域和信息输入区域，如图3c所示。其中，模板类别选择区域中可包括多个模板类别；观众用户可从模板类别选择区域中选取一个模板类别作为目标模板类别；此时可触发观众客户端输出信息选择区域，该信息选择区域中可包括目标模板类别下的一个或多条模板评论信息，如图3d所示。观众用户可从信息选择区域中选取任一条模板评论信息，以触发观众客户端将观众用户所选择的模板评论信息作为目标评论信息发送给主播用户所使用的直播客户端，即此情况下的目标评论信息是观众用户从多个模板评论信息中选择的一条模板评论信息。再一种实施方式中，评论界面中可直接包括信息选择区域和信息输入区域，如图3e所示。其中，信息选择区域中可包括多个模板评论信息；观众用户可直接从信息选择区域中选取一条模板评论信息作为目标评论信息。可选的，观众用户想要向主播用户发送目标评论信息时，也可在图3c或图3e所示的信息输入区域中，手动输入文本信息或表情信息以触发观众客户端将信息输入区域中的信息作为目标评论信息发送至直播客户端；即此情况下的目标评论信息是观众用户手动在信息输入区域中输入的信息。

直播客户端在接收到观众客户端发送的互动内容(如目标虚拟资源、目标评论信息等)，可在主播用户的直播界面显示该互动内容；即任一观众用户向主播用户发送的互动内容均可显示在主播用户的直播界面中，以供主播用户查看。为使得主播用户可以更加专心地进行直播，直播客户端可在主播用户的直播过程中，先从直播界面中获取观众客户端发送的互动内容。然后，可通过后续步骤S202-S203实现采用智能的语音播放方式播放与该互动内容相关的提示语音，以告知主播用户接收到了观众客户端(即观众用户)发送的互动内容。

S202，获取与互动内容相关的提示语音。

直播客户端在获取到观众用户发送的互动内容后，可获取与互动内容相关的提示语音；该提示语音可用于提示接收到观众客户端发送的互动内容。由前述可知，互动内容可包括以下至少一项：目标虚拟资源以及目标评论信息；相应的，步骤S202可具有如下实施方式：

当互动内容包括目标虚拟资源时，步骤S202的具体实施方式可以是：先获取观众客户端对应的观众用户的用户标识，以及目标虚拟资源的属性信息；此处的属性信息可包括：目标虚拟资源的资源标识或目标虚拟资源对应的音效。其中，用户标识可以包括但不限于：观众用户的姓名、观众用户的社交账号、观众用户的网络昵称，等等；资源标识可包括但不限于：资源名称(如礼物名称)、资源编号(如礼物编号)，等等；音效是指为增强资源信息(如礼物信息)而附加的声音，例如，若目标虚拟资源是虚拟礼物“轮船”，则对应的音效可以是轮船的鸣笛声。在获取到目标虚拟资源的属性信息后，可根据观众用户的用户标识和目标虚拟资源的属性信息，生成与目标虚拟资源相关的提示语音。应理解的是，随着目标虚拟资源的属性信息的不同，直播客户端所生成的与目标虚拟资源相关的提示语音也就不同。当目标虚拟资源的属性信息为资源标识时，提示语音可以为“××用户赠送了××虚拟资源”；在此情况下，后续通过步骤S203播放提示语音时，可让主播用户较为直观地知道哪个观众用户赠送了目标虚拟资源，且目标虚拟资源是什么。当目标虚拟资源的属性信息为目标虚拟资源对应的音效时，提示语音可以为“××用户”及目标虚拟资源对应的音效；在此情况下，后续通过步骤S203播放提示语音时，可让主播用户通过提示语音中的音效知道目标虚拟资源是什么。

当互动内容包括目标评论信息时，若目标评论信息是观众客户端对应的观众用户从多个模板评论信息中选择的一条模板评论信息，则由于一个模板评论信息对应一个模板音频，那么步骤S202的具体实施方式可以是：获取与目标评论信息对应的目标模板音频，以及观众用户的用户标识。然后，可根据目标模板音频和观众用户的用户标识，生成与目标评论信息相关的提示语音；即提示语音可以为“××用户”及目标模板音频。由此可见，当观众用户使用精简评论功能选取模板评论信息作为目标评论信息时，直播客户端可直接采用预先录制的目标模板音频和用户标识生成提示语音，可有效提升提示语音的生成效率和及时性，从而提高后续提示语音的播放及时性。并且，当目标评论信息为文本信息时，由于目标评论信息所包含的字数较少，这样可使得基于目标模板音频所生成的提示语音的时长较短，可有效提升提示语音的播放效率，从而可便于主播用户高效率地通过收听提示语音来获取观众用户的目标评论信息，提升主播用户和观众用户之间的沟通效率。

若目标评论信息是观众用户手动在信息输入区域中输入的文本信息，则步骤S202的具体实施方式可以是：采用语音合成器将目标评论信息转换成中间音频，然后根据观众用户的用户标识和中间音频，生成与目标评论信息相关的提示语音。若目标评论信息是观众用户在信息输入区域中输入的表情信息，则步骤S202的具体实施方式可以是：可先对目标评论信息中的表情符号或者表情图标进行识别，得到目标表情。其次，可获取与目标表情相匹配的匹配音频。其中，该匹配音频可以是用于反映目标表情的声音，例如目标表情为“笑脸”时，则匹配音频可为反映“笑脸”的哈哈笑声；或者，该匹配音频可以是目标表情的表情名称，例如目标表情为“笑脸”时，则匹配音频即为“笑脸”。然后，可根据观众用户的用户标识和匹配音频，生成与目标评论信息相关的提示语音。应理解的是，若目标评论信息是观众用户输入的语音信息，则步骤S202的具体实施方式可以是：直接根据观众用户的用户标识和语音信息，生成与目标评论信息相关的提示语音。

应理解的是，当互动内容同时包括目标虚拟资源和目标评论信息时，直播客户端通过步骤S202获取到的与互动内容相关的提示语音可包括：与目标虚拟资源相关的提示语音，以及与目标评论信息相关的提示语音。具体的，直播客户端生成与互动内容相关的提示语音的具体实施方式可以参见图3f或者图3g所示。其中，图3f表征的是目标虚拟资源的属性信息为资源标识时，生成与互动内容相关的提示语音的方法示意图；图3g表征的是目标虚拟资源的属性信息为目标虚拟资源对应的音效时，生成与互动内容相关的提示语音的方法示意图。

S203，从至少两个分离的声道中选取第一声道，并采用第一声道播放提示语音。

由前述可知，至少两个分离的声道是由直播客户端调用操作系统的底层声音API协议(如安卓操作系统中的Audio Track协议、IOS操作系统中的Audio Unit协议等)进行声道分离后得到的。直播客户端在获取到提示语音后，可从至少两个分离的声道中选取第一声道，并采用第一声道播放提示语音。其中，第一声道可以是至少两个分离的声道中的任一声道；也可以是预先设置的用于播放互动内容的提示语音的声道，如前述所提及的左声道。

本申请实施例在主播用户的直播过程中，可从直播界面中获取观众客户端发送的互动内容，并采用第一声道播放与互动内容相关的提示语音。通过播放提示语音的方式提示主播用户接收到观众客户端发送的互动内容，无需主播用户浏览直播界面中的互动内容，可有效提高直播的便利性，从而增强直播客户端的用户黏度。并且，通过声道分离以从至少两个分离的声道中选取第一声道；可有效减少提示语音对声道的资源占用，从而保证可正常播放直播过程中除提示语音之外的其他音频。

请参见图4，是本申请实施例提供的另一种直播处理方法的流程示意图。该直播处理方法可以由上述所提及的直播客户端执行。请参见图4，该直播处理方法可包括以下步骤S401-S408：

S401，显示目标应用程序的设置界面。

在具体实现中，主播用户可先打开目标应用程序；直播客户端可响应主播用户的操作，输出目标应用程序的默认界面，如图5a所示。其中，默认界面可以为以下任一种界面：主页界面、地址详情界面、关注信息界面、消息界面，等等；后续以默认界面为消息界面为例进行阐述。需说明的是：若直播客户端为终端设备，则目标应用程序是指运行于直播客户端中的具有直播功能的APP；若直播客户端为运行于终端设备的具有直播功能的APP，则目标应用程序就是指的直播客户端。在打开目标应用程序后，主播用户可在默认界面中输入关于设置界面的显示触发操作。以默认界面中包括主播用户的标识显示区域为例，显示触发操作则可包括针对标识显示区域的触发操作(如点击操作、按压操作)。其中，标识显示区域是指显示主播用户的标识(如头像、昵称)的区域；所谓的头像是指在网站或社交平台上用作标识的图像，昵称是指在网站或社交平台上所使用的用户名字。相应的，直播客户端可响应于该显示触发操作，显示目标应用程序的设置界面，如图5b所示。其中，设置界面可包括模式设置区域，该模式设置区域中可包含用于开启或关闭视障直播模式的设置按钮。主播用户可通过对该设置按钮执行开启设置操作来触发直播客户端启动视障直播模式；此处的开始设置操作可包括但不限于：将设置按钮中的焦点移动至开启位置的手势操作，或者输入控制设置按钮中的焦点移动至开启位置的语音指令的操作。同理，主播用户可通过对该设置按钮执行关闭设置操作来触发直播客户端关闭视障直播模式。

S402，若检测到针对设置按钮的开启设置操作，则启动视障直播模式。

S403，响应于主播用户的直播触发操作，在视障直播模式下输出主播用户的直播界面。

在步骤S402-S403中，直播客户端若检测到针对设置按钮的开启设置操作，则可启动视障直播模式。在启动视障直播模式后，直播客户端还可调用操作系统的底层声音API协议(如安卓操作系统中的Audio Track协议、IOS操作系统中的Audio Unit协议等)实现声道分离，得到至少两个分离的主播接收声道。由前述可知，本申请实施例可在虚拟资源的设计中加入音效元素，使得每个虚拟资源均可附带一个容易识别的音效；主播用户通过收听音效，便可快速知道观众用户赠送了什么虚拟资源。具体的，可为每个虚拟资源均设置一个对应的音效；也可只为关键的虚拟资源设置一个对应的音效，关键的虚拟资源可根据实际业务需求设置。基于此，为便于后续在直播过程中，主播用户可通过提示语音中的音效确定观众用户所发送的目标虚拟资源是什么；直播客户端还可为主播用户提供一个音效识别入口，以使得主播用户在进行直播之前，可通过该音效识别入口学习并记忆不同的虚拟资源所对应的音效。在具体实现中，若检测到针对设置按钮的开启设置操作，则直播客户端还可在设置界面中输出关于虚拟资源的音效识别入口，如图5c所示。主播用户可对该音效识别入口执行触发操作，如点击操作、按压操作、语音控制操作等；相应的，直播客户端可响应于针对音效识别入口的触发操作，输出音效识别界面，如图5d所示。然后，直播客户端可在音效识别界面中输出任一虚拟资源的识别提示；该识别提示包含任一虚拟资源的资源标识，以及任一虚拟资源对应的音效标识。在具体实现中，直播客户端可先选取任一虚拟资源，并根据图5e所示的音效对应关系获取被选取的任一虚拟资源所对应的音效标识以及相应的资源标识；其次可根据获取到的资源标识和音效标识生成任一虚拟资源的识别提示，然后可在音效识别界面中输出该识别提示，如图5f所示。除了在音效识别界面输出识别提示外，直播客户端还可采用至少一个声道播放识别提示对应的语音，以及播放任一虚拟资源对应的音效标识所指示的音效。相应的，主播用户可先通过至少一个声道收听到该识别提示对应的语音，确定即将播放的音效是哪一个虚拟资源的音效；在收听到音效后，并可将该虚拟资源和收听到的音效进行联合记忆。例如，若识别提示为“超级跑车，播放A音效”，则主播用户可根据该识别提示对应的语音确定即将播放的音效是“超级跑车”对应的音效；那么主播用户在收听到A音效后，便可将A音效和“超级跑车”进行联合记忆。

当主播用户想要进行直播时，可在直播客户端中输入直播触发操作；此处的直播触发操作可包括但不限于：针对直播按钮的触发操作(如点击操作、按压操作等)、进入直播间的操作，等等。相应的，直播客户端可响应该直播触发操作，在视障直播模式下输出直播界面；以直播触发操作为针对直播按钮的触发操作为例，输出直播界面的示例图可参见图5g所示。在一种实施方式中，直播客户端还可在直播界面中输出直播提示。除此之外，直播客户端还可采用至少一个声道，播放直播提示对应的语音。在一种实施方式中，直播提示可用于提示主播用户目标应用程序已进入视障直播模式；例如，直播提示可以为“直播提示视障/盲人直播模式”，此实施方式下的直播界面的示意图可参见图5h的左图所示。再一种实施方式中，为避免直播客户端在通过主播输出声道采集主播用户的人声和背景音乐等声音时，将关于互动内容的提示语音一并采集并传输至观众用户侧进行播放，直播客户端还可提示主播用户佩戴直播设备(如耳机)。在此情况下，直播提示可用于提示主播用户目标应用程序已进入视障直播模式，且提示主播用户佩戴直播设备，以便于后续接收关于互动内容的提示语音；例如，直播提示可以为“已进入视障直播模式，为了最佳直播效果请佩戴好耳机”，此实施方式下的直播界面的示意图可参见图5h的右图所示。

S404，在直播过程中，从直播界面中获取观众客户端发送的互动内容。

S405，获取与互动内容相关的提示语音；该提示语音可用于提示接收到观众客户端发送的互动内容。

S406，从至少两个分离的声道中选取第一声道，并采用第一声道播放提示语音。

在一种具体实现中，可预先从至少两个分离的声道中预留一个声道作为互动内容的关联声道，例如可预留左声道作为互动内容的关联声道；以便于后续接收到观众用户发送的互动内容后，可直接采用该关联声道(如左声道)播放与互动内容相关的提示语音。在此具体实现中，步骤S406的具体实施方式可以是：从至少两个分离的声道中，获取为互动内容预留的关联声道；并将获取到的关联声道作为第一声道。再一种具体实现中，也可根据各个声道是否正在播放多媒体数据，从至少两个分离的声道中选取未播放多媒体数据的声道作为第一声道；此处的多媒体数据可包括但不限于：音乐、录音、噪声、说话声等等。在此具体实现中，步骤S406的具体实施方式可以是：获取分离的各个声道的声道状态，此处的声道状态可包括：占用状态或者未占用状态。其中，占用状态是指声道正在播放多媒体数据的状态。其次，可根据各个声道的声道状态，从至少两个分离的声道中选取至少一个候选声道，每个候选声道的声道状态为未占用状态。然后，可从至少一个候选声道中选取至少一个声道，将选取的至少一个声道作为第一声道。具体的，若候选声道的数量为一个，则可直接将该候选声道作为第一声道；若候选声道的数量为多个，则可从多个候选声道中任意选取一个或多个候选声道作为第一声道。需要说明的是，若分离的各个声道的声道状态均为占用状态，例如各个声道均在播放背景音乐；则会导致选取至少一个候选声道失败。相应的，直播客户端检测到若选取至少一个候选声道失败，则可从至少两个分离的声道中选取任一个声道。然后，控制被选取的声道暂停播放当前播放的多媒体数据，并将被选取的声道作为第一声道。

可选的，直播客户端还可在直播界面中输出该提示语音所对应的文本；例如，提示语音所对应文本为“语音提示用户A赠送，超级跑车1台”，则在直播界面输出该文本的示意图可参见图5i所示。

S407，获取在直播过程中所采用的背景音乐。

S408，从至少两个分离的声道中选取第二声道，并采用第二声道播放背景音乐。

在步骤S407-S408中，若主播用户为娱乐类主播(如唱歌或跳舞的主播用户)、或者为电竞类主播(即打游戏的主播用户)，则在主播用户的直播过程中，通常会存在背景音乐。其中，背景音乐(Background music，简称BGM)是指在电视剧、电影、动画、电子游戏、网站中用于调节气氛的一种音乐，或者在直播过程中所播放的音乐。当主播用户为娱乐类主播时，背景音乐可以为主播用户所选取的歌曲；当主播用户为电竞类主播时，背景音乐可以为主播用户所选取的游戏中所涉及的音乐。在此情况下，直播客户端可通过步骤S407获取主播用户在直播过程中所采用的背景音乐；然后，通过步骤S408从至少两个分离的声道中选取第二声道，并采用第二声道播放背景音乐。其中，直播客户端从至少两个分离的声道中选取第二声道的具体实施方式可以是：从至少两个分离的声道中，选取为背景音乐预留的声道作为第二声道。或者，可以获取分离的各个声道的声道状态；从声道状态为未占用状态的声道中选取任一个声道作为第二声道。

需要说明的是，步骤S407-S408和步骤S404-S406并无先后顺序。也就是说，可先执行步骤S404-S406，再执行步骤S407-S408；也可先执行步骤S407-S408，再执行步骤S404-406；还可同时执行步骤S404-S406和步骤S407-S408，在此情况下，主播用户可同时通过第一声道收听到提示语音，并通过第二声道收听到背景音乐。

基于上述直播处理方法实施例的描述，本申请实施例还公开了一种直播处理装置，所述直播处理装置可以是运行于直播客户端中的一个计算机程序(包括程序代码)。该直播处理装置可以执行图2或图4所示的方法。请参见图6，所述直播处理装置可以运行如下单元：

获取单元601，用于在直播过程中，从直播界面中获取观众客户端发送的互动内容；

所述获取单元601，还用于获取与所述互动内容相关的提示语音；所述提示语音用于提示接收到所述观众客户端发送的互动内容；

处理单元602，用于从至少两个分离的声道中选取第一声道，并采用所述第一声道播放所述提示语音。

在一种实施方式中，获取单元601还可用于：获取在直播过程中所采用的背景音乐；处理单元602还可用于：从所述至少两个分离的声道中选取第二声道，并采用所述第二声道播放所述背景音乐。

再一种实施方式中，处理单元602在用于从至少两个分离的声道中选取第一声道时，可具体用于：从至少两个分离的声道中，获取为所述互动内容预留的关联声道；将获取到的所述关联声道作为第一声道。

再一种实施方式中，处理单元602在用于从至少两个分离的声道中选取第一声道时，可具体用于：获取分离的各个声道的声道状态，所述声道状态包括：占用状态或者未占用状态；所述占用状态是指声道正在播放多媒体数据的状态；根据所述各个声道的声道状态，从所述至少两个分离的声道中选取至少一个候选声道，每个所述候选声道的声道状态为所述未占用状态；从所述至少一个候选声道中选取至少一个声道，将选取的至少一个声道作为第一声道。

再一种实施方式中，所述分离的各个声道的声道状态均为所述占用状态；相应的，处理单元602还可用于：若选取所述至少一个候选声道失败，则从所述至少两个分离的声道中选取任一个声道；控制被选取的声道暂停播放当前播放的多媒体数据，并将所述被选取的声道作为第一声道。

再一种实施方式中，所述互动内容包括目标虚拟资源；相应的，获取单元601在用于获取与所述互动内容相关的提示语音时，可具体用于：获取所述观众客户端对应的观众用户的用户标识，以及所述目标虚拟资源的属性信息；所述属性信息包括：所述目标虚拟资源的资源标识或所述目标虚拟资源对应的音效；根据所述观众用户的用户标识和所述目标虚拟资源的属性信息，生成与所述目标虚拟资源相关的提示语音。

再一种实施方式中，所述互动内容包括目标评论信息；所述目标评论信息是所述观众客户端对应的观众用户从多个模板评论信息中选择的一条模板评论信息；一个模板评论信息对应一个模板音频；相应的，获取单元601在用于获取与所述互动内容相关的提示语音时，可具体用于：获取与所述目标评论信息对应的目标模板音频，以及所述观众用户的用户标识；根据所述目标模板音频和所述观众用户的用户标识，生成与所述目标评论信息相关的提示语音。

再一种实施方式中，处理单元602还可用于：显示目标应用程序的设置界面，所述设置界面包括模式设置区域，所述模式设置区域中包含用于开启或关闭视障直播模式的设置按钮；若检测到针对所述设置按钮的开启设置操作，则启动所述视障直播模式；响应于直播触发操作，在所述视障直播模式下输出直播界面。

再一种实施方式中，处理单元602还可用于：在直播界面中输出直播提示，所述直播提示用于提示所述目标应用程序已进入视障直播模式；采用至少一个声道，播放所述直播提示对应的语音。

再一种实施方式中，处理单元602还可用于：若检测到针对所述设置按钮的开启设置操作，则在所述设置界面中输出关于虚拟资源的音效识别入口；响应于针对所述音效识别入口的触发操作，输出音效识别界面；在所述音效识别界面中输出任一虚拟资源的识别提示，所述识别提示包含所述任一虚拟资源的资源标识，以及所述任一虚拟资源对应的音效标识；采用至少一个声道播放所述识别提示对应的语音，以及播放所述任一虚拟资源对应的音效标识所指示的音效。

根据本申请的一个实施例，图2或图4所示的方法所涉及的各个步骤均可以是由图6所示的直播处理装置中的各个单元来执行的。例如，图2中所示的步骤S201和S202可由图6中所示的获取单元601来执行，步骤S203可由图6中所示的处理单元602来执行；又如，图4中所示的步骤S401-S403、S406和S408均可由图6中所示的处理单元602来执行，步骤S404-S405以及步骤S407均可由图6中所示的获取单元601来执行。

根据本申请的另一个实施例，图6所示的直播处理装置中的各个单元可以分别或全部合并为一个或若干个另外的单元来构成，或者其中的某个(些)单元还可以再拆分为功能上更小的多个单元来构成，这可以实现同样的操作，而不影响本申请的实施例的技术效果的实现。上述单元是基于逻辑功能划分的，在实际应用中，一个单元的功能也可以由多个单元来实现，或者多个单元的功能由一个单元实现。在本申请的其它实施例中，基于直播处理装置也可以包括其它单元，在实际应用中，这些功能也可以由其它单元协助实现，并且可以由多个单元协作实现。

根据本申请的另一个实施例，可以通过在包括中央处理单元(CPU)、随机存取存储介质(RAM)、只读存储介质(ROM)等处理元件和存储元件的例如计算机的通用计算设备上运行能够执行如图2或图4中所示的相应方法所涉及的各步骤的计算机程序(包括程序代码)，来构造如图6中所示的直播处理装置设备，以及来实现本申请实施例的直播处理方法。所述计算机程序可以记载于例如计算机可读记录介质上，并通过计算机可读记录介质装载于上述计算设备中，并在其中运行。

基于上述方法实施例以及装置实施例的描述，本发明实施例还提供一种直播客户端。请参见图7，该直播客户端至少包括处理器701、输入接口702、输出接口703以及计算机存储介质704。其中，计算机存储介质704用于存储计算机程序，所述计算机程序包括程序指令，所述处理器701用于执行所述计算机存储介质704存储的程序指令。需要说明的，若直播客户端为终端设备，则处理器701可以是CPU(Central Processing Unit，中央处理器)，计算机存储介质704可直接存储在直播客户端的存储器中。若直播客户端为终端设备中所运行的APP，则处理器701可以是微处理器，计算机存储介质704可存储在该直播客户端所在的终端设备的存储器中。

处理器701是直播客户端的计算核心以及控制核心，其适于实现一条或多条指令，具体适于加载并执行一条或多条指令从而实现相应方法流程或相应功能；在一个实施例中，本发明实施例所述的处理器701可以用于进行一系列的直播处理，包括：在直播过程中，从直播界面中获取观众客户端发送的互动内容；获取与所述互动内容相关的提示语音；所述提示语音用于提示接收到所述观众客户端发送的互动内容；从至少两个分离的声道中选取第一声道，并采用所述第一声道播放所述提示语音，等等。

本发明实施例还提供了一种计算机存储介质(Memory)，所述计算机存储介质是直播客户端中的记忆设备，用于存放程序和数据。可以理解的是，此处的计算机存储介质既可以包括直播客户端中的内置存储介质，当然也可以包括直播客户端所支持的扩展存储介质。在该存储空间中可存放适于被处理器701加载并执行的一条或多条的指令，这些指令可以是一个或一个以上的计算机程序(包括程序代码)。需要说明的是，此处的计算机存储介质可以是高速RAM存储器，也可以是非不稳定的存储器(non-volatile memory)，例如至少一个磁盘存储器；可选的还可以是至少一个位于远离前述处理器的计算机存储介质。

在一个实施例中，可由处理器701加载并执行计算机存储介质中存放的一条或多条指令，以实现上述有关直播处理实施例中的方法的相应步骤；具体实现中，计算机存储介质中的一条或多条指令由处理器701加载并执行如下步骤：

在一种实施方式中，所述一条或多条指令还可由处理器701加载并具体执行：获取在直播过程中所采用的背景音乐；从所述至少两个分离的声道中选取第二声道，并采用所述第二声道播放所述背景音乐。

再一种实施方式中，在从至少两个分离的声道中选取第一声道时，所述一条或多条指令由处理器701加载并具体执行：从至少两个分离的声道中，获取为所述互动内容预留的关联声道；将获取到的所述关联声道作为第一声道。

再一种实施方式中，在从至少两个分离的声道中选取第一声道时，所述一条或多条指令由处理器701加载并具体执行：获取分离的各个声道的声道状态，所述声道状态包括：占用状态或者未占用状态；所述占用状态是指声道正在播放多媒体数据的状态；根据所述各个声道的声道状态，从所述至少两个分离的声道中选取至少一个候选声道，每个所述候选声道的声道状态为所述未占用状态；从所述至少一个候选声道中选取至少一个声道，将选取的至少一个声道作为第一声道。

再一种实施方式中，所述分离的各个声道的声道状态均为所述占用状态；相应的，所述一条或多条指令还可由处理器701加载并具体执行：若选取所述至少一个候选声道失败，则从所述至少两个分离的声道中选取任一个声道；控制被选取的声道暂停播放当前播放的多媒体数据，并将所述被选取的声道作为第一声道。

再一种实施方式中，所述互动内容包括目标虚拟资源；相应的，在获取与所述互动内容相关的提示语音时，所述一条或多条指令由处理器701加载并具体执行：获取所述观众客户端对应的观众用户的用户标识，以及所述目标虚拟资源的属性信息；所述属性信息包括：所述目标虚拟资源的资源标识或所述目标虚拟资源对应的音效；根据所述观众用户的用户标识和所述目标虚拟资源的属性信息，生成与所述目标虚拟资源相关的提示语音。

再一种实施方式中，所述互动内容包括目标评论信息；所述目标评论信息是所述观众客户端对应的观众用户从多个模板评论信息中选择的一条模板评论信息；一个模板评论信息对应一个模板音频；相应的，在获取与所述互动内容相关的提示语音时，所述一条或多条指令由处理器701加载并具体执行：获取与所述目标评论信息对应的目标模板音频，以及所述观众用户的用户标识；根据所述目标模板音频和所述观众用户的用户标识，生成与所述目标评论信息相关的提示语音。

再一种实施方式中，所述一条或多条指令还可由处理器701加载并具体执行：显示目标应用程序的设置界面，所述设置界面包括模式设置区域，所述模式设置区域中包含用于开启或关闭视障直播模式的设置按钮；若检测到针对所述设置按钮的开启设置操作，则启动所述视障直播模式；响应于直播触发操作，在所述视障直播模式下输出直播界面。

再一种实施方式中，所述一条或多条指令还可由处理器701加载并具体执行：在直播界面中输出直播提示，所述直播提示用于提示所述目标应用程序已进入视障直播模式；采用至少一个声道，播放所述直播提示对应的语音。

再一种实施方式中，所述一条或多条指令还可由处理器701加载并具体执行：若检测到针对所述设置按钮的开启设置操作，则在所述设置界面中输出关于虚拟资源的音效识别入口；响应于针对所述音效识别入口的触发操作，输出音效识别界面；在所述音效识别界面中输出任一虚拟资源的识别提示，所述识别提示包含所述任一虚拟资源的资源标识，以及所述任一虚拟资源对应的音效标识；采用至少一个声道播放所述识别提示对应的语音，以及播放所述任一虚拟资源对应的音效标识所指示的音效。

以上所揭露的仅为本发明较佳实施例而已，当然不能以此来限定本发明之权利范围，因此依本发明权利要求所作的等同变化，仍属本发明所涵盖的范围。

Claims

1.一种直播处理方法，其特征在于，包括：

2.如权利要求1所述的方法，其特征在于，所述方法还包括：

获取在直播过程中所采用的背景音乐；

从所述至少两个分离的声道中选取第二声道，并采用所述第二声道播放所述背景音乐。

3.如权利要求1或2所述的方法，其特征在于，所述从至少两个分离的声道中选取第一声道，包括：

从至少两个分离的声道中，获取为所述互动内容预留的关联声道；

将获取到的所述关联声道作为第一声道。

4.如权利要求1或2所述的方法，其特征在于，所述从至少两个分离的声道中选取第一声道，包括：

获取分离的各个声道的声道状态，所述声道状态包括：占用状态或者未占用状态；所述占用状态是指声道正在播放多媒体数据的状态；

根据所述各个声道的声道状态，从所述至少两个分离的声道中选取至少一个候选声道，每个所述候选声道的声道状态为所述未占用状态；

从所述至少一个候选声道中选取至少一个声道，将选取的至少一个声道作为所述第一声道。

5.如权利要求4所述的方法，其特征在于，所述分离的各个声道的声道状态均为所述占用状态；所述方法还包括：

若选取所述至少一个候选声道失败，则从所述至少两个分离的声道中选取任一个声道；

控制被选取的声道暂停播放当前播放的多媒体数据，并将所述被选取的声道作为第一声道。

6.如权利要求1或2所述的方法，其特征在于，所述互动内容包括目标虚拟资源；所述获取与所述互动内容相关的提示语音，包括：

获取所述观众客户端对应的观众用户的用户标识，以及所述目标虚拟资源的属性信息；所述属性信息包括：所述目标虚拟资源的资源标识或所述目标虚拟资源对应的音效；

根据所述观众用户的用户标识和所述目标虚拟资源的属性信息，生成与所述目标虚拟资源相关的提示语音。

7.如权利要求1或2所述的方法，其特征在于，所述互动内容包括目标评论信息；所述目标评论信息是所述观众客户端对应的观众用户从多个模板评论信息中选择的一条模板评论信息；一个模板评论信息对应一个模板音频；

所述获取与所述互动内容相关的提示语音，包括：

获取与所述目标评论信息对应的目标模板音频，以及所述观众用户的用户标识；

根据所述目标模板音频和所述观众用户的用户标识，生成与所述目标评论信息相关的提示语音。

8.如权利要求1或2所述的方法，其特征在于，所述方法还包括：

显示目标应用程序的设置界面，所述设置界面包括模式设置区域，所述模式设置区域中包含用于开启或关闭视障直播模式的设置按钮；

若检测到针对所述设置按钮的开启设置操作，则启动所述视障直播模式；

响应于直播触发操作，在所述视障直播模式下输出直播界面。

9.如权利要求8所述的方法，其特征在于，所述方法还包括：

在所述直播界面中输出直播提示，所述直播提示用于提示所述目标应用程序已进入视障直播模式；

采用至少一个声道，播放所述直播提示对应的语音。

10.如权利要求8所述的方法，其特征在于，所述方法还包括：

若检测到针对所述设置按钮的开启设置操作，则在所述设置界面中输出关于虚拟资源的音效识别入口；

响应于针对所述音效识别入口的触发操作，输出音效识别界面；

在所述音效识别界面中输出任一虚拟资源的识别提示，所述识别提示包含所述任一虚拟资源的资源标识，以及所述任一虚拟资源对应的音效标识；

采用至少一个声道播放所述识别提示对应的语音，以及播放所述任一虚拟资源对应的音效标识所指示的音效。

11.一种直播处理装置，其特征在于，包括：

12.一种直播客户端，包括输入接口和输出接口，其特征在于，还包括：

处理器，适于实现一条或多条指令；以及，

计算机存储介质，所述计算机存储介质存储有一条或多条指令，所述一条或多条指令适于由所述处理器加载并执行如权利要求1-10任一项所述的直播处理方法。

13.一种计算机存储介质，其特征在于，所述计算机存储介质存储有一条或多条指令，所述一条或多条指令适于由处理器加载并执行如权利要求1-10任一项所述的直播处理方法。