CN111817943B

CN111817943B - 一种基于即时通讯应用的数据处理方法和装置

Info

Publication number: CN111817943B
Application number: CN201910295763.6A
Authority: CN
Inventors: 刘立强; 沙莎; 吴俊�; 钟庆华
Original assignee: Tencent Technology Shenzhen Co Ltd
Current assignee: Tencent Technology Shenzhen Co Ltd
Priority date: 2019-04-12
Filing date: 2019-04-12
Publication date: 2022-06-14
Anticipated expiration: 2039-04-12
Also published as: US11683278B2; CN114938360A; CN111817943A; WO2020207375A1; CN114938360B; US20210266274A1

Abstract

本发明实施例公开了一种基于即时通讯应用的数据处理方法和装置，该方法包括：在即时通讯应用中获取音频数据，并基于采样频率获取音频数据对应的采样音量数据；根据音频数据与采样音量数据，生成音频数据对应的声纹图，输出包含声纹图和音频数据的消息栏；响应针对消息栏的目标触发操作，对音频数据进行音频进度控制，并基于音频进度对声纹图进行显示控制。采用本发明实施例，可以提高音频数据展示形式的多样性，并丰富音频数据操作方式。

Description

一种基于即时通讯应用的数据处理方法和装置

技术领域

本发明涉及互联网技术领域，尤其涉及一种基于即时通讯应用的数据处理方法和装置。

背景技术

随着互联网的发展，越来越多用户会使用即时通讯应用进行聊天，即时通讯应用中的语音消息功能由于操作方式简单、交流自然，已经成为各个年龄段用户的一项日常需求。

目前的即时通讯应用聊天场景中，当用户接收到语音消息时，可以在消息栏中显示该语音消息的时长，并为该用户提供点击播放语音消息的功能。可见，消息栏中仅显示语音消息的时长，对于语音消息的展示形式过于单一；而且对于接收到的语音消息，采用点击播放收听语音消息的操作方式也过于单一。

发明内容

本发明实施例提供一种基于即时通讯应用的数据处理方法和装置，可以提高音频数据展示形式的多样性，并丰富音频数据操作方式。

本发明实施例一方面提供了一种基于即时通讯应用的数据处理方法，包括：

在即时通讯应用中获取音频数据，并基于采样频率获取所述音频数据对应的采样音量数据；

根据所述音频数据与所述采样音量数据，生成所述音频数据对应的声纹图，输出包含所述声纹图和所述音频数据的消息栏；

响应针对所述消息栏的目标触发操作，对所述音频数据进行音频进度控制，并基于音频进度对所述声纹图进行显示控制。

其中，所述根据所述音频数据与所述采样音量数据，生成所述音频数据对应的声纹图，包括：

根据所述音频数据对应的音频时长，确定所述音频数据对应的声纹点的数量；

基于所述采样音量数据，确定每个声纹点分别对应的高度；

根据所述数量与所述高度，生成所述音频数据对应的声纹图。

其中，所述根据所述音频数据对应的音频时长，确定所述音频数据对应的声纹点的数量，包括：

获取所述音频数据对应的音频时长；

根据所述音频时长确定所述即时通讯应用中的消息栏的长度；

根据所述消息栏的长度与相邻声纹点之间的距离，确定所述音频数据对应的声纹点的数量。

其中，所述根据所述消息栏的长度与相邻声纹点之间的距离，确定所述音频数据对应的声纹点的数量，包括：

根据所述消息栏对应的预留边距与所述消息栏的长度，确定音频数据对应的声纹区域长度；

根据所述声纹区域长度、声纹点图形尺寸以及相邻声纹点之间的距离，确定所述音频数据对应的声纹点的数量。

其中，所述基于所述采样音量数据，确定每个声纹点分别对应的高度，包括：

根据所述音频时长，确定每个声纹点分别对应的单位音频时长；

获取所述单位音频时长内的采样音量数据对应的音量均值，基于所述音量均值确定每个声纹点分别对应的待处理高度；

获取所述待处理高度对应的插值参数信息，基于所述插值参数信息与所述待处理高度，确定每个声纹点分别对应的高度。

其中，所述获取所述单位音频时长内的采样音量数据对应的音量均值，基于所述音量均值确定每个声纹点分别对应的待处理高度，包括：

获取所述单位音频时长内的目标采样数据对应的音量均值；

若所述音量均值小于第一音量阈值，则将目标数值确定为所述音量均值对应的声纹点的待处理高度；

若所述音量均值大于或等于所述第一音量阈值且小于第二音量阈值，则根据音量与高度之间的线性增长函数，确定所述音量均值对应的声纹点的待处理高度；

若所述音量均值大于或等于所述第二音量阈值，则根据音量与高度之间的对数增长函数，确定所述音量均值对应的声纹点的待处理高度。

其中，响应所述目标触发操作后的消息栏包括进度指示游标；所述进度指示游标用于区分所述声纹图中的已播放声纹区域和未播放声纹区域，所述已播放声纹区域和所述未播放声纹区域具有不同的显示方式。

其中，所述目标触发操作包括第一播放触发操作或暂停触发操作或第二播放触发操作；

所述响应针对所述消息栏的目标触发操作，对所述音频数据进行音频进度控制，并基于音频进度对所述声纹图进行显示控制，包括：

响应针对所述消息栏的第一播放触发操作，对所述音频数据进行语音播放，并记录所述音频数据的音频播放进度，根据所述音频播放进度在声纹图中显示所述进度指示游标；

响应针对所述消息栏的暂停触发操作，停止对所述音频数据进行语音播放，并记录停止时所述进度指示游标所处位置的停止时间戳；

响应针对所述消息栏的第二播放触发操作，从所述音频数据中的所述停止时间戳所在位置开始播放语音。

其中，所述目标触发操作包括拖动触发操作；

响应针对所述消息栏中的所述进度指示游标的拖动触发操作，获取所拖动的所述进度指示游标在音频数据中的第一时间戳，在所述声纹图对应的第一文字显示区域中，显示所述第一时间戳对应的音频数据的文字信息，并根据所拖动的所述进度指示游标对所述已播放声纹区域和所述未播放声纹区域进行区域更新；

获取拖动结束时所述进度指示游标在音频数据中的第二时间戳，从所述音频数据中的所述第二时间戳所在位置开始播放语音。

其中，所述根据所述数量与所述高度，生成所述音频数据对应的声纹图，包括：

根据所述数量与所述高度，生成所述音频数据对应的待处理声纹图；

获取所述音频数据对应的声音参数，从声纹图库中选择与所述声音参数相匹配的声纹形状类型；

根据所述声纹形状类型与所述待处理声纹图，确定所述音频数据对应的声纹图。

获取所述音频数据对应的消息栏显示类型，并提取与所述消息栏显示类型相匹配的声纹显示参数；

根据所述声纹显示参数、所述数量以及所述高度，生成所述音频数据对应的声纹图。

其中，所述方法还包括：

响应针对所述消息栏的文本转换触发操作，将所述音频数据转换成第一文本数据，并在所述声纹图对应的第二文字显示区域中，显示所述第一文本数据；

响应针对所述第一文本数据的翻译触发操作，对所述第一文本数据进行文本类型转换处理，得到第二文本数据，并在所述第二文字显示区域中显示所述第二文本数据。

本发明实施例一方面提供了一种基于即时通讯应用的数据处理装置，包括：

采样模块，用于在即时通讯应用中获取音频数据，并基于采样频率获取所述音频数据对应的采样音量数据；

生成模块，用于根据所述音频数据与所述采样音量数据，生成所述音频数据对应的声纹图，输出包含所述声纹图和所述音频数据的消息栏；

响应模块，用于响应针对所述消息栏的目标触发操作，对所述音频数据进行音频进度控制，并基于音频进度对所述声纹图进行显示控制。

其中，所述生成模块包括：

数量确定单元，用于根据所述音频数据对应的音频时长，确定所述音频数据对应的声纹点的数量；

高度确定单元，用于基于所述采样音量数据，确定每个声纹点分别对应的高度；

声纹图生成单元，用于根据所述数量与所述高度，生成所述音频数据对应的声纹图。

其中，所述数量确定单元包括：

时长获取子单元，用于获取所述音频数据对应的音频时长；

长度获取子单元，用于根据所述音频时长确定所述即时通讯应用中的消息栏的长度；

数量确定子单元，用于根据所述消息栏的长度与相邻声纹点之间的距离，确定所述音频数据对应的声纹点的数量。

其中，所述数量确定子单元包括：

声纹长度确定子单元，用于根据所述消息栏对应的预留边距与所述消息栏的长度，确定音频数据对应的声纹区域长度；

声纹点数量确定子单元，用于根据所述声纹区域长度、声纹点图形尺寸以及相邻声纹点之间的距离，确定所述音频数据对应的声纹点的数量。

其中，所述高度确定单元包括：

单位时长确定子单元，用于根据所述音频时长，确定每个声纹点分别对应的单位音频时长；

待处理高度确定子单元，用于获取所述单位音频时长内的采样音量数据对应的音量均值，基于所述音量均值确定每个声纹点分别对应的待处理高度；

声纹高度确定子单元，用于获取所述待处理高度对应的插值参数信息，基于所述插值参数信息与所述待处理高度，确定每个声纹点分别对应的高度。

其中，所述待处理高度子确定单元包括：

均值确定子单元，用于获取所述单位音频时长内的目标采样数据对应的音量均值；

第一高度确定子单元，用于若所述音量均值小于第一音量阈值，则将目标数值确定为所述音量均值对应的声纹点的待处理高度；

第二高度确定子单元，用于若所述音量均值大于或等于所述第一音量阈值且小于第二音量阈值，则根据音量与高度之间的线性增长函数，确定所述音量均值对应的声纹点的待处理高度；

第三高度确定子单元，用于若所述音量均值大于或等于所述第二音量阈值，则根据音量与高度之间的对数增长函数，确定所述音量均值对应的声纹点的待处理高度。

所述响应模块包括：

第一播放操作响应单元，用于响应针对所述消息栏的第一播放触发操作，对所述音频数据进行语音播放，并记录所述音频数据的音频播放进度，根据所述音频播放进度在声纹图中显示所述进度指示游标；

暂停操作响应单元，用于响应针对所述消息栏的暂停触发操作，停止对所述音频数据进行语音播放，并记录停止时所述进度指示游标所处位置的停止时间戳；

第二播放操作响应单元，用于响应针对所述消息栏的第二播放触发操作，从所述音频数据中的所述停止时间戳所在位置开始播放语音。

其中，所述目标触发操作包括拖动触发操作；

所述响应模块包括：

拖动操作响应单元，用于响应针对所述消息栏中的所述进度指示游标的拖动触发操作，获取所拖动的所述进度指示游标在音频数据中的第一时间戳，在所述声纹图对应的第一文字显示区域中，显示所述第一时间戳对应的音频数据的文字信息，并根据所拖动的所述进度指示游标对所述已播放声纹区域和所述未播放声纹区域进行区域更新；

语音播放单元，用于获取拖动结束时所述进度指示游标在音频数据中的第二时间戳，从所述音频数据中的所述第二时间戳所在位置开始播放语音。

其中，所述声纹图生成单元包括：

待处理声纹图生成子单元，用于根据所述数量与所述高度，生成所述音频数据对应的待处理声纹图；

声纹形状选择子单元，用于获取所述音频数据对应的声音参数，从声纹图库中选择与所述声音参数相匹配的声纹形状类型；

第一声纹图确定子单元，用于根据所述声纹形状类型与所述待处理声纹图，确定所述音频数据对应的声纹图。

其中，所述声纹图生成单元包括：

显示参数提取子单元，用于获取所述音频数据对应的消息栏显示类型，并提取与所述消息栏显示类型相匹配的声纹显示参数；

第二声纹图确定子单元，用于根据所述声纹显示参数、所述数量以及所述高度，生成所述音频数据对应的声纹图。

其中，所述装置还包括：

转换模块，用于响应针对所述消息栏的文本转换触发操作，将所述音频数据转换成第一文本数据，并在所述声纹图对应的第二文字显示区域中，显示所述第一文本数据；

翻译模块，用于响应针对所述第一文本数据的翻译触发操作，对所述第一文本数据进行文本类型转换处理，得到第二文本数据，并在所述第二文字显示区域中显示所述第二文本数据。

本发明实施例一方面提供了一种基于即时通讯应用的数据处理装置，包括：处理器和存储器；

所述处理器和存储器相连，其中，所述存储器用于存储程序代码，所述处理器用于调用所述程序代码，以执行如本发明实施例中一方面中的方法。

本发明实施例一方面提供了一种计算机可读存储介质，所述计算机可读存储介质存储有计算机程序，所述计算机程序包括程序指令，所述程序指令当被处理器执行时，执行如本发明实施例中一方面中的方法。

本发明实施例可以在即时通讯应用中获取音频数据，通过对音频数据进行采样，得到采样音量数据，进而可以根据音频数据的音频时长确定声纹点的数量，根据采样音量数据确定每个声纹点对应的高度，进而可以根据声纹点的数量与每个声纹点对应的高度，生成音频数据对应的声纹图，并在即时通讯应用中输出包含声纹图与音频数据的消息栏，并可以响应针对该消息栏的触发操作，记录音频数据的音频进度，基于音频进度对声纹图进行显示控制。可见，在即时通讯应用的消息栏中展示音频数据对应的声纹图，不仅可以提高音频数据展示形式的多样性，而且通过对音频数据进行音频进度控制，可以丰富音频数据操作方式。

附图说明

为了更清楚地说明本发明实施例或现有技术中的技术方案，下面将对实施例或现有技术描述中所需要使用的附图作简单地介绍，显而易见地，下面描述中的附图仅仅是本发明的一些实施例，对于本领域普通技术人员来讲，在不付出创造性劳动的前提下，还可以根据这些附图获得其他的附图。

图1是本发明实施例提供的一种基于即时通讯应用的数据处理方法的场景示意图；

图2是本发明实施例提供的一种基于即时通讯应用的数据处理方法的流程示意图；

图3a-图3c是本发明实施例提供的一种响应针对消息栏的目标触发操作的界面示意图；

图4是本发明实施例提供的另一种基于即时通讯应用的数据处理方法的流程示意图；

图5是本发明实施例提供的一种声纹可视化计算规则的示意图；

图6a-图6c是本发明实施例提供的可视化声纹形状类型的界面示意图；

图7是本发明实施例提供的一种基于即时通讯应用的语音消息技术实现模型图；

图8是本发明实施例提供的另一种基于即时通讯应用的数据处理方法的流程示意图；

图9是本发明实施例提供的一种个性化消息显示类型的界面示意图；

图10是本发明实施例提供的一种消息栏功能模型的结构示意图；

图11是本发明实施例提供的一种基于即时通讯应用的数据处理装置的结构示意图；

图12是本发明实施例提供的另一种基于即时通讯应用的数据处理装置的结构示意图。

具体实施方式

下面将结合本发明实施例中的附图，对本发明实施例中的技术方案进行清楚、完整地描述，显然，所描述的实施例仅仅是本发明一部分实施例，而不是全部的实施例。基于本发明中的实施例，本领域普通技术人员在没有作出创造性劳动前提下所获得的所有其他实施例，都属于本发明保护的范围。

请参见图1，是本发明实施例提供的一种基于即时通讯应用的数据处理方法的场景示意图。如图1所示，用户可以从终端设备100a中打开即时通讯应用(如QQ、微信等)，点击即时通讯应用中的任意联系人对应的聊天窗口200a，在该聊天窗口200a中，在用户点击语音图标200b后，可以在聊天窗口200a中的底端显示语音操作面板300a，在该语音操作面板300a中，有多种语音模式(如语音模式、变声模式、录音模式)可供用户选择。若用户选择语音模式，则该用户可以用手指按住语音图标，并对准终端设备100a的话筒说话，与此同时，即时通讯应用可以实时录制该用户的语音，并在语音操作面板300a中显示录制语音的时长信息(如0:07)；当用户松开手指时，可以将录制的语音作为音频数据，并根据音频数据生成相应的第一声纹图，在本端显示包含该音频数据与第一声纹图的消息栏，同时也会将所述音频数据发送给该聊天窗口200a对应的联系人(该用户可以称为音频数据的发送者，该联系人可以称为该目标语音数据的接收者)，该联系人所在的接收端也可以根据接收到的音频数据生成相应的第二声纹图，并在接收端显示包含该音频数据与第二声纹图的消息栏。其中，本端显示的消息栏中包含的语音信息与接收端显示的消息栏中包含的语音信息是一样的，但在消息栏中显示的声纹图，即第一声纹图与第二声纹图可以相同，也可以不同。当本端与发送端使用的消息栏显示类型不同时，第一声纹图与第二声纹图在显示颜色上会有所差异。以该用户对应的客户端聊天窗口200a为例，聊天窗口200a中可以显示该音频数据对应的消息栏400a，该消息栏400a可以显示该音频数据对应的声纹图，即可以显示音频数据的声音大小以及音频数据的高低音节。用户可以通过点击该消息栏400a对音频数据进行播放，在播放过程中可以实时记录音频数据的播放进度，并根据语音播放进度在消息栏400a中显示进度指示游标500a，该进度指示游标500a可以将音频数据对应的声纹图划分为两个区域，分别为已经播放的语音对应的声纹区域(即声纹图区域101a)和未播放的语音对应的声纹区域(即声纹图区域101b)，已经播放的语音对应的声纹区域和未播放的语音对应的声纹区域具有不同的显示颜色，用户可以根据进度指示游标500a和颜色信息快速确定语音播放的进度信息。用户可以将当前播放的音频数据点击暂停，并再次点击该音频数据对应的消息栏400a时，可以从该音频数据对应的暂停节点继续向后播放该语音。例如，音频数据对应的时长为1:15，若用户在该音频数据播放到0:20时刻时点击暂停播放，并再次点击该音频数据对应的消息栏400a时，可以从0:20时刻继续往后播放该音频数据。

其中，终端设备100a可以包括手机、平板电脑、笔记本电脑、掌上电脑、移动互联网设备(mobile internet device，MID)、POS(Point Of Sales，销售点)机、可穿戴设备(例如智能手表、智能手环等)或其他具有安装即时通讯应用功能的终端设备。

请参见图2，是本发明实施例提供的一种基于即时通讯应用的数据处理方法的流程示意图。如图2所示，该方法可以包括以下步骤：

步骤S101，在即时通讯应用中获取音频数据，并基于采样频率获取所述音频数据对应的采样音量数据；

具体的，终端设备可以包括发送端和接收端，在发送端可以在即时通讯应用中直接记录用户的声音数据作为音频数据，而接收端可以将从发送端接收到的语音数据作为音频数据。当用户在即时通讯应用的聊天窗口中，点击语音图标进入语音操作面板，选择需要的语音模式，并按住语音图标说话时，终端设备可以实时记录该用户的声音数据，并将记录的用户声音数据作为音频数据。需要说明的是，当用户选择变声模式时，音频数据为该用户进行变声之后的声音数据。在终端设备中，不同的操作系统对于音频数据的数字化表现方式存在差异，因此需要对采集到的音频数据进行统一转换处理，转换成0-255范围的分贝数据。例如在某终端操作系统中，采集到的声音数据对应的区间为[0,1]，因此需要将该终端采集到的声音数据换算成区间为[0,255]的分贝数据。在将音频数据进行转换处理后，确定该音频数据对应的采样频率，并基于该采样频率对音频数据进行声音采样，得到采样音量数据，即对音频数据进行分贝数据转换处理后，再进行声音采样。可选的，对于获取到的音频数据，可以先基于采样频率对音频数据进行声音采样，在得到采样音量数据后，将采样音量数据转换成0-255范围的分贝数据，即对音频数据进行声音采样后，再对采样音量数据进行分贝数据转换处理。例如，采样频率为100次/秒时，表示在音频数据中每秒钟可以采样100个声音数据点。

步骤S102，根据所述音频数据与所述采样音量数据，生成所述音频数据对应的声纹图，输出包含所述声纹图和所述音频数据的消息栏；

具体的，终端设备可以获取音频数据对应的音频时长，并根据音频时长可以确定音频数据对应的声纹点的数量，进而可以确定每个声纹点在音频数据中对应的音频时长，并根据每个声纹点对应的音频时长内的采样音量数据，确定每个声纹点分别对应的高度。换言之，声纹点的高度与采样音量数据中声音音量有关，在预设音量范围内(如用户语音常用音量范围)，声音音量越大，声纹点对应的高度就越高。为了保证消息栏的可读性与视觉上的美观，当采样音量数据中的声音音量低于预设音量范围(如60-150分贝)时，声纹点对应的高度取最小值；当采样音量数据中的声音音量高于预设音量范围时，声纹点对应的高度取最大值。根据上述确定的声纹点的数量和每个声纹点分别对应的高度，终端设备可以生成音频数据对应的声纹图，并可以在即时通讯应用的聊天窗口中，输出包含声纹图和音频数据的消息栏。其中，该声纹图是利用图形对音频数据进行可视化信息展示，即利用声纹图表达音频数据中声纹元素的位置，音节的高低(声纹图中，声纹点的高度可以表示为音频数据中声音音量的大小，声纹点高度的变化趋势，可以表示为音频数据中声音音量的变化趋势)。因此可以根据声纹图感知音频数据的声音大小、声音变化，进而可以使用户能够快速判断包含该音频数据的消息栏的操作方式(如听筒模式、免提模式、无声音状态等)。若声纹图中，声纹点对应的高度较低，则可以选择在免提模式对该消息栏进行操作；若声纹图中，声纹点对应的高度较高，则可以选择在无声音状态下或者听筒模式下对该消息栏进行操作。

步骤S103，响应针对所述消息栏的目标触发操作，对所述音频数据进行音频进度控制，并基于音频进度对所述声纹图进行显示控制。

具体的，终端设备可以响应用户针对上述消息栏的目标触发操作，以对音频数据进行音频进度控制，并基于音频进度对所述声纹图进行显示控制，即可以实时记录音频数据的进度信息，并根据进度信息在包含音频数据的消息栏中，显示音频数据中已读音频数据与未读音频数据进度。其中，目标触发操作可以包括播放触发操作、暂停触发操作、拖动触发操作，还可以包括语音转文字触发操作、翻译触发操作等。

进一步的，请参见3a-图3c，是本发明实施例提供的一种响应针对消息栏的目标触发操作的界面示意图。如图3a-图3c所示，步骤S201-步骤S207是对上述图2所对应实施例中步骤S103的具体描述，即步骤S201-步骤S207是本发明实施例提供的一种响应针对消息栏的目标触发操作的具体流程。

当目标触发操作包括第一播放触发操作或暂停触发操作或第二播放触发操作时，如图3a所示，响应目标触发操作可以包括以下步骤：

步骤S201，响应针对所述消息栏的第一播放触发操作，对所述音频数据进行语音播放，并记录所述音频数据的音频播放进度，根据所述音频播放进度在声纹图中显示所述进度指示游标；

具体的，在即时通讯应用的聊天窗口中，若用户接收到了多条语音信息，即多个音频数据，则可以在聊天窗口中显示上述多条语音消息对应的消息栏，如消息栏400b，消息栏400c，消息栏400d等，对于用户未读取的音频数据，即时通讯应用可以对未读取音频数据对应的消息栏进行标识，如用户在读取消息栏400b中包含的音频数据之前，可以在标识区域401b中显示一个小圆点对该消息栏400b进行标识。当用户点击播放消息栏400b所包含的音频数据时，终端设备可以响应针对该消息栏400b的播放触发操作，也可以称为第一播放触发操作，进而对该消息栏400b中的音频数据进行语音播放，同时可以清除消息栏400b对应的标识，即清除标识区域401b中的小圆点。在语音播放过程中，可以记录音频数据的音频播放进度，并根据音频播放进度在消息栏400b所包含的声纹图中显示进度指示游标500b，进度指示游标500b可以用于区分声纹图中的已播放声纹区域和未播放声纹区域，上述已播放声纹区域和未播放声纹区域具有不同的显示方式(如可以显示不同的颜色)。

步骤S202，响应针对所述消息栏的暂停触发操作，停止对所述音频数据进行语音播放，并记录停止时所述进度指示游标所处位置的停止时间戳；

具体的，在消息栏400b所包含的音频数据正在播放的过程中，用户可以点击暂停播放该音频数据。当用户点击暂停时，终端设备可以响应针对该消息栏400b的暂停触发操作，停止对该消息栏400b中的音频数据进行语音播放，并可以记录音频数据停止播放时进度指示游标500c对应的停止时间戳，即记录音频数据停止播放时的时刻。若音频数据对应的音频时长为2:00分钟，用户点击停止播放时，音频数据正播放到0:30时刻，则进度指示游标500c所处位置的停止时间戳为音频数据中的0:30时刻。

步骤S203，响应针对所述消息栏的第二播放触发操作，从所述音频数据中的所述停止时间戳所在位置开始播放语音。

具体的，对于暂停播放的消息栏400b，用户可以点击再次播放。当用户对该消息栏400b点击再次播放时，终端设备可以响应针对该消息栏400b的再次播放触发操作，也可以称为第二播放触发操作(这里的第二播放触发操作是为了区分步骤S201中的第一播放触发操作)，从该消息栏400b所包含的音频数据中的停止时间戳所在位置开始播放语音，即从暂停处开始播放该消息栏400b所包含的音频数据。当该消息栏400b所包含的音频数据播放完成时，可以自动播放下一个消息栏400c中的音频数据，并在播放消息栏400c所包含的音频数据时，可以对消息栏400b所包含的音频数据对应的音频播放进度进行清除，即在客户端仅存储一条音频数据对应的音频播放进度。同理，当播放完消息栏400c所包含的音频数据时，可以自动播放消息栏400d所包含的音频数据，直至播放完该用户聊天窗口中的所有未读取的音频数据，或者响应针对该音频数据对应的消息栏的暂停触发操作，停止播放语音。

当目标触发操作包括拖动触发操作时，如图3b所示，响应目标触发操作可以包括以下步骤：

步骤S204，响应针对所述消息栏中的所述进度指示游标的拖动触发操作，获取所拖动的所述进度指示游标在音频数据中的第一时间戳，在所述声纹图对应的第一文字显示区域中，显示所述第一时间戳对应的音频数据的文字信息，并根据所拖动的所述进度指示游标对所述已播放声纹区域和所述未播放声纹区域进行区域更新；

具体的，用户还可以按住消息栏中的进度指示游标，并拖动进度指示游标，以使消息栏所包含的音频数据可以在任意时刻进行播放。当用户按住消息栏400e中的进度指示游标500e并进行拖动时，终端设备可以响应该用户针对进度指示游标500e的拖动触发操作，获取在拖动过程中进度指示游标500e在消息栏400e所包含的音频数据中的第一时间戳，即记录进度指示游标500e在拖动过程中的音频进度，并在声纹图中的第一文字区域600a中显示第一时间戳对应的音频数据的文字信息，即在用户拖动过程中可以实时展示当前进度的文字字段内容，以使用户可以根据文字字段内容确定进度指示游标500e的准确停止位置。例如，音频数据对应的音频时长为2分钟，若用户在播放了该音频数据后，对于该音频数据中的部分语音内容想进行再次播放，为了避免浪费时间(重新播放整条音频数据需要花费2分钟)，该用户可以按住该音频数据对应的消息栏中的进度指示游标并拖动，根据拖动过程中的文字字段内容，确定进度指示游标的具体位置，即用户想要进行再次播放的语音内容所在位置。另外，在人的说话习惯中，通常在一句话中的语气助词部分(即一句话的最后)音量较小，由于声纹图中声纹条对应的高度可以表示音量的大小，因此用户还可以根据声纹条的高度确定进度指示游标500e的准确停止位置，以便用户可以从下一句完整的句子处开始播放，而不是在一句话的中间开始收听。在拖动过程中，可以根据拖动的进度指示游标500e对声纹图中的已播放声纹区域和未播放声纹区域进行实时更新。换言之，将进度指示游标500e向声纹图区域102a拖动时，可以将所拖动的声纹区间确定为未播放声纹区域，将进度指示游标500e向声纹图区域102b拖动时，可以将所拖动的声纹区间确定为已播放声纹区域。

其中，在消息栏中还可以显示刻度表，如消息栏400e中刻度表102c，在刻度表102c中，可以根据消息栏400e所包含的音频数据对应的的音频时长确定刻度表102c中的时间刻度，如消息栏400e所包含的音频数据对应的音频时长为120秒，则在刻度表102c中可以显示对应的时间信息，以使用户可以根据时间确定进度指示游标500e的准确停止位置。

步骤S205，获取拖动结束时所述进度指示游标在音频数据中的第二时间戳，从所述音频数据中的所述第二时间戳所在位置开始播放语音。

具体的，当用户停止拖动时，终端设备可以获取拖动结束时进度指示游标500e在消息栏400e所包含的音频数据中的第二时间戳，即拖动停止时的时间戳，并从消息栏400e所包含的音频数据中的第二时间戳所在位置开始播放语音。例如，用户将进度指示游标500e从音频数据中的0:30时刻拖动到0:50时刻，并在0:50时刻停止拖动时，可以从音频数据的0:50时刻开始播放语音。

需要说明的是，若用户在拖动进度指示游标500e之前，正在播放消息栏400e中的目标音频数据，则在用户拖动进度指示游标500e的过程中，可以按照拖动之前的语音播放进度进行正常播放，直到进度指示游标500e停止拖动时，才跳转到进度指示游标500e停止时所在时刻进行语音播放。可选的，在播放消息栏400e中的音频数据的情形下，用户拖动进度指示游标500e的过程中可以暂停语音播放，直到进度指示游标500e停止拖动时，才跳转到进度指示游标500e停止时所在时刻进行语音播放。

针对包含音频数据和声纹图的消息栏，目标触发操作还可以包括文本转换触发操作或翻译触发操作，如图3c所示，响应目标触发操作可以包括以下步骤：

步骤S206，响应针对所述消息栏的文本转换触发操作，将所述音频数据转换成第一文本数据，并在所述声纹图对应的第二文字显示区域中，显示所述第一文本数据；

具体的，当用户不方便收听语音消息时，可以长按消息栏选择转文字功能，将音频数据转换为文字信息并进行显示，以使用户通过查看文字信息来读取语音消息。如图3c所示，当用户长按消息栏400f时，在该消息栏400f的相应区域可以弹出一个菜单窗口700a，用户可以选择菜单窗口700a中的转文字选项701a，在用户点击转文字选项701a后，终端设备可以响应该用户针对消息栏400f的文本转换触发操作，对将消息栏400f所包含的音频数据进行语音识别，得到音频数据对应的文字信息，也可以称为第一文本数据，并在声纹图对应的第二文字显示区域600b中显示上述第一文本数据。其中，即时通讯应用为音频数据提供转文字选项701a，表示即时通讯应用具备文字转换功能，文字转换功能是指将音频数据转换成相应的文字信息。例如，若音频数据中的语音信息为汉语，文字转换功能可以将该音频数据转换成汉字文字信息；若音频数据中的语音信息为英语，文字转换功能可以将该音频数据转换成英文文字信息；若音频数据中的语音信息为方言(如湖南话、重庆话、粤语等)，文字转换功能可以识别该音频数据中的方言，并将该音频数据转换成汉字文字信息。

步骤S207，响应针对所述第一文本数据的翻译触发操作，对所述第一文本数据进行文本类型转换处理，得到第二文本数据，并在所述第二文字显示区域中显示所述第二文本数据。

具体的，当用户接收到的目标音频信息为外语(如：俄语、德语等)语音时，通过文字转换功能将目标音频信息转换成第一文本数据(该第一文本数据为外语文字信息)后，该用户无法理解第一文本数据中的内容，用户可以长按第二文字显示区域600b中的第一文本数据，在该消息栏400f的相应区域可以弹出一个菜单窗口700b，用户可以选择菜单窗口700b中的翻译选项701b，在用户点击翻译选项701b，并选择翻译语言类型后，终端设备可以响应该用户针对第一文本数据的翻译触发操作，对第一文本数据进行文本类型转换处理(即翻译处理)，得到与用户选择的翻译语言类型相匹配的第二文本数据，并在第二文字显示区域700b中将第一文本数据替换成第二文本数据，即在第二文字显示区域700b中显示翻译后的文字信息。其中，翻译功能中可以实现多种语言类型之间的相互翻译，例如可以将汉语翻译成英语、日语、德语等，也可以将英语、日语、德语翻译成汉语等，还可以将英语翻译成德语、意大利语等。

本发明实施例可以在即时通讯应用中获取音频数据，通过对音频数据进行采样，得到采样音量数据，进而可以根据音频数据的音频时长确定声纹点的数量，根据采样音量数据确定每个声纹点对应的高度，进而可以根据声纹点的数量与每个声纹点对应的高度，生成音频数据对应的声纹图，并在即时通讯应用中输出包含声纹图与音频数据的消息栏，并可以响应针对该消息栏的触发操作，记录音频数据的音频进度，基于音频进度对声纹图进行显示控制。可见，在即时通讯应用的聊天场景中，消息栏中展示音频数据对应的声纹图，用户可以点击消息栏播放/暂停语音，还可以通过可视化声纹图判断声音的区域，并可以滑动调节语音进度，同时调节进度时可实时观看语音对应的文字翻译，进而可以提高音频数据展示形式的多样性，丰富音频数据操作方式；并且能够高效地帮助用户收听、查看、操作语音消息，大大的增强了语音消息的互动性、阅读性、高效性，更好的促进即时通讯应用用户对语音消息的便捷使用。

请参见图4，是本发明实施例提供的另一种基于即时通讯应用的数据处理方法的流程示意图。如图4所示，该方法可以包括以下步骤：

步骤S301，在即时通讯应用中获取音频数据，并基于采样频率获取所述音频数据对应的采样音量数据；

其中，步骤S301的具体实现过程可以参见上述图2所对应实施例中对步骤S101的描述，这里不再进行赘述。

步骤S302，获取所述音频数据对应的音频时长；

具体的，终端设备在即时通讯应用中获取到音频数据后，可以获取音频数据对应的音频时长，即从用户在即时通讯应用的语音操作面板中按住语音图标说话到松开的时长信息。

步骤S303，根据所述音频时长确定所述即时通讯应用中的消息栏的长度；

具体的，在即时通讯应用中，预先设置有音频数据对应的音频时长与消息栏长度的对应关系，因此在获取到音频数据对应的音频时长后，可以从即时通讯应用的存储数据表中，查找与该音频时长相匹配的消息栏的长度。

步骤S304，根据所述消息栏对应的预留边距与所述消息栏的长度，确定音频数据对应的声纹区域长度；

具体的，终端设备可以获取即时通讯应用中消息栏对应的预留边距，该预留边距包括消息栏的左边预留边距和右边预留边距，该预留边距可以根据消息栏的长度来确定，如左边预留边距和右边预留边距分别为消息栏的长度的5％，或者也可以进行预先设定，如不论消息栏的长度为多少，左边预留边距和右边预留边距均设置为2mm。根据消息栏的长度与上述预留边距，可以确定音频数据对应的声纹区域长度，即将消息栏的长度减去预留边距，可以得到音频数据对应的声纹区域长度。

步骤S305，根据所述声纹区域长度、声纹点图形尺寸以及相邻声纹点之间的距离，确定所述音频数据对应的声纹点的数量；

具体的，获取声纹点图形尺寸以及相邻声纹点之间的距离，可以根据声纹区域长度、声纹点图形尺寸以及相邻声纹点之间的距离，确定音频数据对应的声纹点的数量。若声纹点图形为声纹点，则若声纹点图形尺寸可以忽略不记，采用表达式：[声纹区域长度+相邻两个声纹点之间的距离]/相邻两个声纹条之间的距离，可以计算得到声纹点的数量；若声纹点图形为声纹条，即以声纹点作为声纹条上边长的中点，则获取声纹条的宽度，相邻两个声纹条之间的距离，采用表达式：[声纹区域长度+相邻两个声纹条之间的距离]/(声纹条的宽度+相邻两个声纹条之间的距离)，可以计算得到声纹条的数量。需要说明的是，声纹条的宽度与声纹点之间的距离都是固定的。

需要说明的是，当音频数据对应的音频时长超过时长阈值(如40s)时，可以将固定值(如25)确定为音频数据对应的声纹点的数量。当音频数据对应的音频时长小于或等于时长阈值(如40s)时，才会执行上述步骤S303-步骤S305。

步骤S306，根据所述音频时长，确定每个声纹点分别对应的单位音频时长；

具体的，在确定了声纹点的数量后，可以根据音频时长确定每个声纹点对应的单位音频时长，每个声纹点在音频数据中对应的单位音频时长之和等于音频数据的音频时长。例如，音频数据对应的时长为10s，声纹点的数量为10个，可以确定每个声纹点对应的单位音频时长为1s，即第一个声纹点对应的单位音频时长区间为音频数据中的0-1s，第二个声纹点对应的单位音频时长区间为音频数据中的1s-2s，以此类推，可以确定每个声纹点在音频数据中对应的单位音频时长区间。

步骤S307，获取所述单位音频时长内的采样音量数据对应的音量均值，基于所述音量均值确定每个声纹点分别对应的待处理高度；

具体的，可以获取上述单位音频时长内的采样音量数据对应的音量均值。例如，采样频率为100次/秒，某声纹点对应的单位音频时长区间为1s-2s，则计算采样音量数据中1s-2s范围内采样的100个声音数据的平均音量。根据音量与声纹点高度之间的函数关系，确定每个声纹点分别对应的待处理高度，具体的实施过程为：若所述音量均值小于第一音量阈值，则将目标数值确定为所述音量均值对应的声纹点的待处理高度；若所述音量均值大于或等于所述第一音量阈值且小于第二音量阈值，则根据音量与高度之间的线性增长函数，确定所述音量均值对应的声纹点的待处理高度；若所述音量均值大于或等于所述第二音量阈值，则根据音量与高度之间的对数增长函数，确定所述音量均值对应的声纹点的待处理高度。请一并参见图5，是本发明实施例提供的一种声纹可视化计算规则的示意图。如图5所示，声纹点的待处理高度对于音量的变化并非线性，而是可以表示为一个分段函数，当音量均值小于第一音量阈值，即小于用户语音正常音量时，可以将目标数值(一个固定值)确定为该音量均值对应的声纹点的待处理高度。换言之，小于用户语音正常音量的音量均值对应的声纹点的待处理高度始终处于最小值。当音量均值大于或等于第一音量阈值且小于第二音量阈值，即处于用户语音正常音量范围时，声纹点的待处理高度对于音量的变化是线性的，可以根据音量与高度之间的线性增长函数，确定音量均值对应的声纹点的待处理高度。当音量均值大于或等于第二音量阈值，即大于用户语音常用音量时，声纹点的待处理高度对于音量的变化是非线性的，且随着音量的增大，待处理高度达到最大值，可以根据音量与高度之间的对数增长函数，确定所述音量均值对应的声纹点的待处理高度。

步骤S308，获取所述待处理高度对应的插值参数信息，基于所述插值参数信息与所述待处理高度，确定每个声纹点分别对应的高度；

具体的，在实际应用中，通过上述声纹可视化规则计算得到的声纹点对应的待处理高度之间的高度差异偏小，因此可以使用减速插值器放大待处理高度之间的差异，即对于两个具有不同待处理高度的声纹点，可以通过减速差值器获得两个待处理高度分别对应的插值参数信息，通过将待处理的高度与各自对应的插值参数信息相乘，可以增大两个待处理高度之间的高度差。例如，在进行放大处理之前，两个待处理高度之间的高度差为0.01厘米，经过放大处理后，两个待处理高度之间的高度差可以变为0.05厘米。

步骤S309，根据所述数量与所述高度，生成所述音频数据对应的待处理声纹图；

具体的，可以根据声纹点的数量和每个声纹点对应的高度，可以绘制出音频数据对应的待处理声纹图。该待处理声纹图可以包括音频数据中声音的大小和高低音节等信息。

步骤S310，获取所述音频数据对应的声音参数，从声纹图库中选择与所述声音参数相匹配的声纹形状类型；

具体的，可以获取音频数据对应的声音参数，可以根据声音参数信息确定音频数据对应的声音类型，并根据声音类型从声纹土库中选择与该声音类型相匹配的声纹形状类型。在即时通讯应用中，可以包括多种声音类型，如“正常”声音类型，“萝莉”声音类型，“大叔”声音类型，“惊悚”声音类型，“搞怪”声音类型等，每种声音类型具有不同的声音参数，也可以对应不同的声纹形状类型。当然，可以是一种声音类型对应一种声纹形状类型，如“正常”声音类型对应的声纹形状类型为条形声纹类型，“萝莉”声音类型对应的声纹形状类型为曲线声纹类型等；也可以是多种声音类型对应一种声纹形状类型，如“正常”声音类型和“大叔”声音类型对应的声纹形状类型都为条形声纹类型，“萝莉”声音类型、“惊悚”声音类型以及“搞怪”声音类型对应的声纹形状类型为曲线声纹类型等，这里不做限定。需要说明的是，声纹图库存储有声音类型与声纹形状类型的对应关系，可以根据声音类型在声纹图库中直接查找声纹形状类型。

步骤S311，根据所述声纹形状类型与所述待处理声纹图，确定所述音频数据对应的声纹图，输出包含所述声纹图和所述音频数据的消息栏；

具体的，请一并参见图6a-图6c，是本发明实施例提供的可视化声纹形状类型的界面示意图。根据声纹形状类型与待处理声纹图，可以生成最终的声纹图，如图6a中的可视化声纹图800a、图6b中的可视化声纹图800b、图6c中的可视化声纹图800c，并在即时通讯应用的聊天窗口中，输出包含所述声纹图和所述音频数据的消息栏。其中，对于图6a中的可视化声纹图800a，也可以称为条形声纹图，由于每个声纹条的宽度和声纹条之间的间距是预先设置好的固定值，可以根据每个声纹点的高度确定每个声纹条的高度，声纹点的数量即为声纹条的数量，因此可以根据每个声纹条的高度和声纹条的数量，生成可视化声纹图800a；对于图6b中的可视化声纹图800b，也可以称为曲线声纹图，可以根据声纹点的数量与每个声纹点的高度，将每个声纹点进行曲线连接，形成一条圆滑的声纹图曲线，即可视化声纹图800b；对于图6c中的可视化声纹图800c，从所有声纹点分别对应的高度中选择最小值，根据最小值确定每个声纹条的初始矩形框，根据声纹点的高度超出最小值的部分，确定每个声纹条的超出矩形框的个数(超出矩形框的宽度和高度是预先设置好的固定值)，每个声纹点对应的声纹条可以由初始矩形框和超出矩形框构成(初始矩形框和超出矩形框的高度与声纹点高度相同)，进而可以确定可视化声纹图800c。

步骤S312，响应针对所述消息栏的目标触发操作，对所述音频数据进行音频进度控制，并基于音频进度对所述声纹图进行显示控制。

其中，步骤S312的具体实现方式可以参见上述图3a-图3c所对应实施例中对步骤S201-步骤S207的描述，这里不再进行赘述。

请一并参见图7，是本发明实施例提供的一种基于即时通讯应用的语音消息技术实现模型图。如图7所示，用户在即时通讯应用的聊天场景下，发送者在打开即时通讯应用的聊天界面后，可以点击语音，并选择语音类型，然后按住语音操作面板中的语音图标说话，发送者说话的过程即为向发送者对应的即时通讯应用客户端(下面简称发送者客户端)传送数据的过程，因此在发送者说话时，发送者客户端可以开始收音，记录发送者的实时声音数据，并根据即时通讯应用中的规则，即将记录的实时声音数据转换成区间为[0,255]的分贝数据，并对记录到的实时声音数据进行声音采样，当用户松开手指时，发送者客户端完成了声音数据的实时记录过程和采样过程，因此可以将语音音频数据(包括记录的实时声音数据和采样数据)发送至接收者对应的即时通讯应用客户端(下面简称接收者客户端)。接收者客户端在接收到发送者客户端发送的语音音频数据后，可以根据音频时长确定聊天界面声纹条个数(默认声纹图的声纹显示类型为条形显示类型)，并根据采样数据，计算每个声纹条处的音量平均值，可以根据音量-高度曲线，确定各个声纹条高度，由于这样计算出来的高度较小，可以利用减速插值法，放大声纹高度，生成语音音频数据对应的声纹图。在发送者客户端根据采样数据，计算出每个声纹条处的音量平均值后，可以将语音音频数据传输给接收者，并在接收者的聊天界面上显示语音消息气泡(即语音消息栏)，在语音消息气泡中还可以显示语音音频数据对应的声纹图。当接收者点击播放语音消息气泡包含的语音音频数据时，在语音消息气泡中可以显示进度指示游标，此时接收者客户端可以记录音频播放进度，若接收者按住进度指示游标并进行拖动，则停止播放该语音音频数据，且接收者客户端可以记录语音音频数据的进度，在接收者手指松开后，可以跳转到语音音频数据中停止拖动时的进度继续播放；若接收者点击暂停，则接收者客户端可以停止播放该语音音频数据，并记录当前音频进度。当接收者点击播放下一条语音消息时，接收者客户端可以清空上一条语音消息的音频记录，开始记录新的语音消息的音频进度，至此，完成了整个语音消息技术的实现过程。

请参见图8，是本发明实施例提供的另一种基于即时通讯应用的数据处理方法的流程示意图。如图8所示，该方法可以包括以下步骤：

步骤S401，在即时通讯应用中获取音频数据，并基于采样频率获取所述音频数据对应的采样音量数据；

步骤S402，根据所述音频数据对应的音频时长，确定所述音频数据对应的声纹点的数量，并基于所述采样音量数据，确定每个声纹点分别对应的高度；

其中，步骤S401-步骤S402的具体实现过程可以参见上述图2所对应实施例中对步骤S101-步骤S102的描述，或者可以参见上述图4所对应实施例中对步骤S301-步骤S308的描述，这里不再进行赘述。

步骤S403，获取所述音频数据对应的消息栏显示类型，并提取与所述消息栏显示类型相匹配的声纹显示参数；

具体的，在确定了声纹点的数量与每个声纹点的高度后，终端设备可以获取该音频数据对应的消息栏显示类型，从本地存储中提取与该消息栏显示类型相匹配的声纹显示参数。换言之，用户可以从即时通讯应用中所提供的多种消息栏显示类型中选择任意一种消息栏显示类型，当消息栏显示类型中的消息栏背景颜色与声纹图的显示颜色相冲突(即颜色相同或相近，无法区分消息栏中的声纹图)时，可以从本地存储中提取与该消息栏显示类型相匹配的声纹显示参数，即提取与该消息栏显示类型中的背景颜色差异性较大的颜色作为声纹图的声纹显示颜色，也可以称为声纹显示参数。

其中，即时通讯应用中可以为用户提供多种消息栏显示类型，请一并参见图9，是本发明实施例提供的一种个性化消息显示类型的界面示意图。如图9所示，消息显示类型可以包括消息显示类型900a、消息显示类型900b、消息显示类型900c，在即时通讯应用中，可以根据音频数据的声音类型(如变声类型)自适应匹配该音频数据对应的消息显示类型，也可以是用户根据自身需求从客户端中选择满意的消息显示类型，进而客户端可以获取该消息显示类型，并提取与该消息显示类型相匹配的声纹显示参数。例如，用户为音频数据选择的消息显示类型为消息显示类型900a，则根据该消息显示类型900a的背景颜色信息，确定与该消息显示类型900a相匹配的声纹显示参数，若消息显示类型900a的背景颜色信息为黑色，则可以将声纹显示参数确定为白色等。

可选的，即时通讯应用的本地文件中可以存储有消息栏显示类型与声纹显示参数的对应关系，当终端设备获取到声纹图对应的声纹显示参数时，可以从本地文件中根据声纹显示参数查找消息栏对应的消息栏显示类型。

步骤S404，根据所述声纹显示参数、所述数量以及所述高度，生成所述音频数据对应的声纹图，输出包含所述声纹图和所述音频数据的消息栏；

具体的，根据声纹点的数量以及每个声纹点对应的高度，终端设备可以绘制出待处理声纹图，根据声纹显示参数，可以确定音频数据最终对应的声纹图，并在即时通讯应用的聊天界面上输出包含所述声纹图和所述音频数据的消息栏，此时的声纹图可以很明显地与消息栏中的背景颜色区分开来。

步骤S405，响应针对所述消息栏的目标触发操作，对所述音频数据进行音频进度控制，并基于音频进度对所述声纹图进行显示控制。

其中，步骤S405的具体实现方式可以参见上述图3a-图3c所对应实施例中对步骤S201-步骤S207的描述，这里不再进行赘述。

请一并参见图10，是本发明实施例提供的一种消息栏功能模型的结构示意图。如图10所示，该消息栏功能模型100可以根据用户的环境因素，以及每个用户语音说话的习惯，识别当前语音音频数据中的语音信息，并分析语音信息的数据变化，将语音信息转换成图形进行可视化的消息展示。主要可以通过视觉信息渲染层110，功能操作展示120，气泡消息表现130来实现。其中，视觉信息渲染层110可以绘制可视化的声纹信息，并在绘制时判断声纹元素位置、声纹音节和声纹颜色变化；功能操作展示120可以为用户提供可操作的点击暂停/播放、按住调节语音、实时文字字段、长按转语音转文字等功能；气泡消息表现130可以为语音音频数据提供个性化消息栏显示类型，即为语音音频数据提供可变化的消息栏视觉背景。

请参见图11，是本发明实施例提供的一种基于即时通讯应用的数据处理装置的结构示意图。如图11所示，该基于即时通讯应用的数据处理装置1可以包括：采样模块10，生成模块20，响应模块30；

采样模块10，用于在即时通讯应用中获取音频数据，并基于采样频率获取所述音频数据对应的采样音量数据；

具体的，当用户在即时通讯应用的聊天窗口中，点击语音图标进入语音操作面板，选择需要的语音模式，并按住语音图标说话时，采样模块10可以实时记录该用户的声音数据，并将记录的用户声音数据作为音频数据。需要说明的是，当用户选择变声模式时，音频数据为该用户进行变声之后的声音数据。由于不同的操作系统对于音频数据的数字化表现方式存在差异，因此采样模块10需要对采集到的音频数据进行统一转换处理，转换成0-255范围的分贝数据。例如在某终端操作系统中，采样模块10采集到的声音数据对应的区间为[0,1]，因此采样模块10需要将采集到的声音数据换算成区间为[0,255]的分贝数据。在将音频数据进行转换处理后，确定该音频数据对应的采样频率，并基于该采样频率对音频数据进行声音采样，得到采样音量数据，即对音频数据进行分贝数据转换处理后，再进行声音采样。可选的，对于获取到的音频数据，可以先基于采样频率对音频数据进行声音采样，在得到采样音量数据后，将采样音量数据转换成0-255范围的分贝数据，即对音频数据进行声音采样后，再对采样音量数据进行分贝数据转换处理。例如，采样频率为100次/秒时，表示在音频数据中每秒钟可以采样100个声音数据点。

生成模块20，用于根据所述音频数据与所述采样音量数据，生成所述音频数据对应的声纹图，输出包含所述声纹图和所述音频数据的消息栏；

具体的，生成模块20可以获取音频数据对应的音频时长，并根据音频时长可以确定音频数据对应的声纹点的数量，进而可以确定每个声纹点在音频数据中对应的音频时长，并根据每个声纹点对应的音频时长内的采样音量数据，确定每个声纹点分别对应的高度。换言之，声纹点的高度与采样音量数据中声音音量有关，在预设音量范围内(如用户语音常用音量范围)，声音音量越大，声纹点对应的高度就越高。为了保证消息栏的可读性与视觉上的美观，当采样音量数据中的声音音量低于预设音量范围(如60-150分贝)时，声纹点对应的高度取最小值；当采样音量数据中的声音音量高于预设音量范围时，声纹点对应的高度取最大值。根据上述确定的声纹点的数量和每个声纹点分别对应的高度，终端设备可以生成音频数据对应的声纹图，并可以在即时通讯应用的聊天窗口中，输出包含声纹图和音频数据的消息栏。其中，该声纹图是利用图形对音频数据进行可视化信息展示，即利用声纹图表达音频数据中声纹元素的位置，音节的高低(声纹图中，声纹点的高度可以表示为音频数据中声音音量的大小，声纹点高度的变化趋势，可以表示为音频数据中声音音量的变化趋势)。因此可以根据声纹图感知音频数据的声音大小、声音变化，进而可以使用户能够快速判断包含该音频数据的消息栏的操作方式(如听筒模式、免提模式、无声音状态等)。若声纹图中，声纹点对应的高度较低，则可以选择在免提模式对该消息栏进行操作；若声纹图中，声纹点对应的高度较高，则可以选择在无声音状态下或者听筒模式下对该消息栏进行操作。

响应模块30，用于响应针对所述消息栏的目标触发操作，对所述音频数据进行音频进度控制，并基于音频进度对所述声纹图进行显示控制。

具体的，响应模块30可以响应用户针对上述消息栏的目标触发操作，以对音频数据进行音频进度控制，并基于音频进度对所述声纹图进行显示控制，即可以实时记录音频数据的进度信息，并根据进度信息在包含音频数据的消息栏中，显示音频数据中已读音频数据与未读音频数据进度。其中，目标触发操作可以包括播放触发操作、暂停触发操作、拖动触发操作，还可以包括语音转文字触发操作、翻译触发操作等。

请一并参见图11，该基于即时通讯应用的数据处理装置1还可以包括：转换模块40，翻译模块50；

转换模块40，用于响应针对所述消息栏的文本转换触发操作，将所述音频数据转换成第一文本数据，并在所述声纹图对应的第二文字显示区域中，显示所述第一文本数据；

翻译模块50，用于响应针对所述第一文本数据的翻译触发操作，对所述第一文本数据进行文本类型转换处理，得到第二文本数据，并在所述第二文字显示区域中显示所述第二文本数据。

其中，转换模块40，翻译模块50的具体功能实现方式可以参见上述图3c所对应实施例中的步骤S206-步骤S207，这里不再进行赘述。

请一并参见图11，生成模块20可以包括：数量确定单元201，高度确定单元202，声纹图生成单元203；

数量确定单元201，用于根据所述音频数据对应的音频时长，确定所述音频数据对应的声纹点的数量；

高度确定单元202，用于基于所述采样音量数据，确定每个声纹点分别对应的高度；

声纹图生成单元203，用于根据所述数量与所述高度，生成所述音频数据对应的声纹图。

其中，数量确定单元201，高度确定单元202的具体功能实现方式可以参见上述图4所对应实施例中的步骤S302-步骤S308，声纹图生成单元203的具体功能实现方式可以参见上述图4所对应实施例中的步骤S309-步骤S311和上述图8所对应实施例中的步骤S403-步骤S404，这里不再进行赘述。

请一并参见图11，响应模块30可以包括：第一播放操作响应单元301，暂停操作响应单元302，第二播放操作响应单元303，拖动操作响应单元304，语音播放单元305；

第一播放操作响应单元301，用于响应针对所述消息栏的第一播放触发操作，对所述音频数据进行语音播放，并记录所述音频数据的音频播放进度，根据所述音频播放进度在声纹图中显示所述进度指示游标；

暂停操作响应单元302，用于响应针对所述消息栏的暂停触发操作，停止对所述音频数据进行语音播放，并记录停止时所述进度指示游标所处位置的停止时间戳；

第二播放操作响应单元303，用于响应针对所述消息栏的第二播放触发操作，从所述音频数据中的所述停止时间戳所在位置开始播放语音；

拖动操作响应单元304，用于响应针对所述消息栏中的所述进度指示游标的拖动触发操作，获取所拖动的所述进度指示游标在音频数据中的第一时间戳，在所述声纹图对应的第一文字显示区域中，显示所述第一时间戳对应的音频数据的文字信息，并根据所拖动的所述进度指示游标对所述已播放声纹区域和所述未播放声纹区域进行区域更新；

语音播放单元305，用于获取拖动结束时所述进度指示游标在音频数据中的第二时间戳，从所述音频数据中的所述第二时间戳所在位置开始播放语音。

其中，第一播放操作响应单元301，暂停操作响应单元302，第二播放操作响应单元303，拖动操作响应单元304，语音播放单元305的具体功能实现方式可以参见上述图3a-图3c所对应实施例中的步骤S201-步骤S205，这里不再进行赘述。

请一并参见图11，数量确定单元201可以包括：时长获取子单元2011，长度获取子单元2012，数量确定子单元2013；

时长获取子单元2011，用于获取所述音频数据对应的音频时长；

长度获取子单元2012，用于根据所述音频时长确定所述即时通讯应用中的消息栏的长度；

数量确定子单元2013，用于根据所述消息栏的长度与相邻声纹点之间的距离，确定所述音频数据对应的声纹点的数量。

其中，：时长获取子单元2011，长度获取子单元2012，数量确定子单元2013的具体功能实现方式可以参见上述图4所对应实施例中的步骤S302-步骤S305，这里不再进行赘述。

请一并参见图11，高度确定单元202可以包括：单位时长确定子单元2021，待处理高度确定子单元2022，声纹高度确定子单元2023；

单位时长确定子单元2021，用于根据所述音频时长，确定每个声纹点分别对应的单位音频时长；

待处理高度确定子单元2022，用于获取所述单位音频时长内的采样音量数据对应的音量均值，基于所述音量均值确定每个声纹点分别对应的待处理高度；

声纹高度确定子单元2023，用于获取所述待处理高度对应的插值参数信息，基于所述插值参数信息与所述待处理高度，确定每个声纹点分别对应的高度。

其中，单位时长确定子单元2021，待处理高度确定子单元2022，声纹高度确定子单元2023的具体功能实现方式可以参见上述图4所对应实施例中的步骤S306-步骤S308，这里不再进行赘述。

请一并参见图11，声纹图生成单元203可以包括：待处理声纹图生成子单元2031，声纹形状选择子单元2032，第一声纹图确定子单元2033，显示参数提取子单元2034，第二声纹图确定子单元2035；

待处理声纹图生成子单元2031，用于根据所述数量与所述高度，生成所述音频数据对应的待处理声纹图；

声纹形状选择子单元2032，用于获取所述音频数据对应的声音参数，从声纹图库中选择与所述声音参数相匹配的声纹形状类型；

第一声纹图确定子单元2033，用于根据所述声纹形状类型与所述待处理声纹图，确定所述音频数据对应的声纹图；

显示参数提取子单元2034，用于获取所述音频数据对应的消息栏显示类型，并提取与所述消息栏显示类型相匹配的声纹显示参数；

第二声纹图确定子单元2035，用于根据所述声纹显示参数、所述数量以及所述高度，生成所述音频数据对应的声纹图。

其中，生成模块30可以包括：待处理声纹图生成子单元2031，声纹形状选择子单元2032，第一声纹图确定子单元2033的具体功能实现方式可以参见上述图4所对应实施例中的步骤S309-步骤S311，显示参数提取子单元2034，第二声纹图确定子单元2035的具体功能实现方式可以参见上述图8所对应实施例中的步骤S403-步骤S404，这里不再进行赘述。

请一并参见图11，数量确定子单元2013可以包括：声纹长度确定子单元20131，声纹点数量确定子单元20132；

声纹长度确定子单元20131，用于根据所述消息栏对应的预留边距与所述消息栏的长度，确定音频数据对应的声纹区域长度；

声纹点数量确定子单元20132，用于根据所述声纹区域长度、声纹点图形尺寸以及相邻声纹点之间的距离，确定所述音频数据对应的声纹点的数量。

其中，声纹长度确定子单元20131，声纹点数量确定子单元20132的具体功能实现方式可以参见上述图4所对应实施例中的步骤S304-步骤S305，这里不再进行赘述。

请一并参见图11，待处理高度确定子单元2022可以包括：均值确定子单元20221，第一高度确定子单元20222，第二高度确定子单元20223，第三高度确定子单元20224；

均值确定子单元20221，用于获取所述单位音频时长内的目标采样数据对应的音量均值；

第一高度确定子单元20222，用于若所述音量均值小于第一音量阈值，则将目标数值确定为所述音量均值对应的声纹点的待处理高度；

第二高度确定子单元20223，用于若所述音量均值大于或等于所述第一音量阈值且小于第二音量阈值，则根据音量与高度之间的线性增长函数，确定所述音量均值对应的声纹点的待处理高度；

第三高度确定子单元20224，用于若所述音量均值大于或等于所述第二音量阈值，则根据音量与高度之间的对数增长函数，确定所述音量均值对应的声纹点的待处理高度。

其中，均值确定子单元20221，第一高度确定子单元20222，第二高度确定子单元20223，第三高度确定子单元20224的具体功能实现方式可以参见上述图4所对应实施例中的步骤307，这里不再进行赘述。

请参见图12，图12是本发明实施例提供的一种基于即时通讯应用的数据处理装置的结构示意图。如图12所示，该基于即时通讯应用的数据处理装置1000可以包括：处理器1001，网络接口1004和存储器1005，此外，上述基于即时通讯应用的数据处理装置1000还可以包括：用户接口1003，和至少一个通信总线1002。其中，通信总线1002用于实现这些组件之间的连接通信。其中，用户接口1003可以包括显示屏(Display)、键盘(Keyboard)，可选用户接口1003还可以包括标准的有线接口、无线接口。网络接口1004可选的可以包括标准的有线接口、无线接口(如WI-FI接口)。存储器1004可以是高速RAM存储器，也可以是非不稳定的存储器(non-volatile memory)，例如至少一个磁盘存储器。存储器1005可选的还可以是至少一个位于远离前述处理器1001的存储装置。如图12所示，作为一种计算机可读存储介质的存储器1005中可以包括操作系统、网络通信模块、用户接口模块以及设备控制应用程序。

在如图12所示的基于即时通讯应用的数据处理装置1000中，网络接口1004可提供网络通讯功能；而用户接口1003主要用于为用户提供输入的接口；而处理器1001可以用于调用存储器1005中存储的设备控制应用程序，以实现上述图2、图4、图8任一个所对应实施例中对所述基于即时通讯应用的数据处理方法的描述，在此不再赘述。

应当理解，本发明实施例中所描述的基于即时通讯应用的数据处理装置1000可执行前文图2、图4、图8任一个所对应实施例中对所述基于即时通讯应用的数据处理方法的描述，也可执行前文图11所对应实施例中对所述基于即时通讯应用的数据处理装置1的描述，在此不再赘述。另外，对采用相同方法的有益效果描述，也不再进行赘述。

此外，这里需要指出的是：本发明实施例还提供了一种计算机可读存储介质，且所述计算机可读存储介质中存储有前文提及的基于即时通讯应用的数据处理装置1所执行的计算机程序，且所述计算机程序包括程序指令，当所述处理器执行所述程序指令时，能够执行前文图2、图4、图8任一个所对应实施例中对所述基于即时通讯应用的数据处理方法的描述，因此，这里将不再进行赘述。另外，对采用相同方法的有益效果描述，也不再进行赘述。对于本发明所涉及的计算机可读存储介质实施例中未披露的技术细节，请参照本发明方法实施例的描述。

本领域普通技术人员可以理解实现上述实施例方法中的全部或部分流程，是可以通过计算机程序来指令相关的硬件来完成，所述的程序可存储于一计算机可读取存储介质中，该程序在执行时，可包括如上述各方法的实施例的流程。其中，所述的存储介质可为磁碟、光盘、只读存储存储器(Read-Only Memory，ROM)或随机存储存储器(Random AccessMemory，RAM)等。

以上所揭露的仅为本发明较佳实施例而已，当然不能以此来限定本发明之权利范围，因此依本发明权利要求所作的等同变化，仍属本发明所涵盖的范围。

Claims

1.一种基于即时通讯应用的数据处理方法，其特征在于，包括：

响应针对所述消息栏的目标触发操作，对所述音频数据进行音频进度控制，并基于音频进度对所述声纹图进行显示控制；

响应所述目标触发操作后的消息栏包括进度指示游标；所述进度指示游标用于区分所述声纹图中的已播放声纹区域和未播放声纹区域，所述已播放声纹区域和所述未播放声纹区域具有不同的显示方式。

2.根据权利要求1所述的方法，其特征在于，所述根据所述音频数据与所述采样音量数据，生成所述音频数据对应的声纹图，包括：

基于所述采样音量数据，确定每个声纹点分别对应的高度；

3.根据权利要求2所述的方法，其特征在于，所述根据所述音频数据对应的音频时长，确定所述音频数据对应的声纹点的数量，包括：

获取所述音频数据对应的音频时长；

4.根据权利要求3所述的方法，其特征在于，所述根据所述消息栏的长度与相邻声纹点之间的距离，确定所述音频数据对应的声纹点的数量，包括：

5.根据权利要求2所述的方法，其特征在于，所述基于所述采样音量数据，确定每个声纹点分别对应的高度，包括：

6.根据权利要求5所述的方法，其特征在于，所述获取所述单位音频时长内的采样音量数据对应的音量均值，基于所述音量均值确定每个声纹点分别对应的待处理高度，包括：

获取所述单位音频时长内的目标采样数据对应的音量均值；

7.根据权利要求1所述的方法，其特征在于，所述目标触发操作包括第一播放触发操作或暂停触发操作或第二播放触发操作；

8.根据权利要求1所述的方法，其特征在于，所述目标触发操作包括拖动触发操作；

9.根据权利要求2所述方法，其特征在于，所述根据所述数量与所述高度，生成所述音频数据对应的声纹图，包括：

10.根据权利要求2所述方法，其特征在于，所述根据所述数量与所述高度，生成所述音频数据对应的声纹图，包括：

11.根据权利要求1所述的方法，其特征在于，还包括：

12.一种基于即时通讯应用的数据处理装置，其特征在于，包括：

响应模块，用于响应针对所述消息栏的目标触发操作，对所述音频数据进行音频进度控制，并基于音频进度对所述声纹图进行显示控制；

13.一种基于即时通讯应用的数据处理装置，其特征在于，包括：处理器和存储器；

所述处理器和存储器相连，其中，所述存储器用于存储程序代码，所述处理器用于调用所述程序代码，以执行如权利要求1-11任一项所述的方法。

14.一种计算机可读存储介质，其特征在于，所述计算机可读存储介质存储有计算机程序，所述计算机程序包括程序指令，所述程序指令当被处理器执行时，执行如权利要求1-11任一项所述的方法。