CN112214636A

CN112214636A - 音频文件的推荐方法、装置、电子设备以及可读存储介质

Info

Publication number: CN112214636A
Application number: CN202011005042.6A
Authority: CN
Inventors: 徐致欣; 许浩维; 刘永祥
Original assignee: Huawei Technologies Co Ltd
Current assignee: Huawei Technologies Co Ltd
Priority date: 2020-09-21
Filing date: 2020-09-21
Publication date: 2021-01-12
Anticipated expiration: 2040-09-21
Also published as: CN112214636B

Abstract

本申请适用于数据处理技术领域，提供了一种音频文件的推荐方法、装置、电子设备以及可读存储介质，该方法包括：获取视频文件对应的拍摄事件的事件标签；对所述视频文件进行解析，获得所述视频文件对应的内容标签；在音乐库内选取与所述内容标签和/或所述事件标签关联的目标音频，并基于所述目标音频生成所述视频文件的音频推荐信息。本申请提供的技术方案通过事件标签以及内容标签查找目标音频。提高了目标音频选取的准确性，在进行个性化推荐音频文件的同时，还能够实现精准推送，提升了用户的使用体验，也提高了推荐的音频文件与视频文件之间的相关度。

Description

音频文件的推荐方法、装置、电子设备以及可读存储介质

技术领域

本申请属于数据处理技术领域，尤其涉及一种音频文件的推荐方法、装置、电子设备以及可读存储介质。

背景技术

随着多媒体技术的不断发展，短视频、微视频也随之普及，用户可以在日常生活中通过电子设备拍摄视频文件，来记录生活。为了提高视频文件的趣味性以及可观赏性，用户可以为视频文件添加背景音乐，因此，电子设备如何为用户推荐与视频文件匹配的背景音乐，则成为亟需解决的问题。

现有音频文件的推荐技术，往往预设多个不同的音乐分类，例如“摇滚”、“民谣”、“流行”等不同音乐分类，为不同音乐分类固定关联多个候选音频，并根据用户选择的分类，推荐该分类关联的多个候选音频。然而该方式无法根据视频文件对候选音频进行调整，个性化推荐程度低，无法实现音频文件的精准推荐。

发明内容

本申请实施例提供了一种音频文件的推荐方法、装置、电子设备以及可读存储介质，可以解决现有的音频文件的推荐技术，无法根据视频文件对候选音频进行调整，个性化推荐程度低，无法实现音频文件的精准推荐的问题。

第一方面，本申请实施例提供了一种音频文件的推荐方法，包括：

获取视频文件对应的拍摄事件的事件标签；

对所述视频文件进行解析，获得所述视频文件对应的内容标签；

在音乐库内选取与所述内容标签和/或所述事件标签关联的目标音频，并基于所述目标音频生成所述视频文件的音频推荐信息。

实施本申请实施例具有以下有益效果：在需要生成视频文件关联的音频文件时，获取拍摄视频文件的拍摄事件对应的视频标签，以及基于视频文件的拍摄内容得到内容标签，通过视频标签以及内容标签从音乐库中提取关联的目标音频，生成视频文件关联的音频推荐信息，以实现个性化推荐的目的。与现有的音频文件的推荐技术相比，本申请实施例不仅可以根据视频内容生成对应的内容标签，还能够生成与拍摄事件相关的事件标签，从而通过上述两种类型的标签查找目标音频。提高了目标音频选取的准确性，在进行个性化推荐音频文件的同时，还能够实现精准推送，提升了用户的使用体验，也提高了推荐的音频文件与视频文件之间的相关度。

在第一方面的一种可能实现方式中，所述事件标签包含拍摄地点；所述在音乐库内选取与所述内容标签和/或所述事件标签关联的目标音频，包括：

获取所述音乐库内各个已有音频的文本信息，将文本信息内包含所述拍摄地点的已有音频作为所述目标音频；和/或

获取所述拍摄地点关联的视频片段，将所述视频片段的配乐音频作为所述目标音频；和/或

确定所述拍摄地点关联的历史事件，将所述历史事件对应的音频文件作为所述目标音频。

在第一方面的一种可能实现方式中，所述事件标签包含拍摄日期；所述在音乐库内选取与所述内容标签和/或所述事件标签关联的目标音频，包括：

若所述拍摄日期为预设的任一特定日期，则将所述特定日期关联的音频文件作为所述目标音频。

在第一方面的一种可能实现方式中，在所述若所述拍摄日期为预设的任一特定日期，则将所述特定日期关联的音频文件作为所述目标音频之前，还包括：

获取当前登录的用户账户的用户信息；

基于所述用户信息确定所述特定日期。

在第一方面的一种可能实现方式中，所述在音乐库内选取与所述内容标签和/或所述事件标签关联的目标音频，包括：

将所述内容标签以及所述事件标签，生成所述视频文件对应的初始标签序列；

基于预设的标签映射算法，生成所述初始标签序列对应的映射标签序列；所述映射标签序列内的各个标签配置关联的权重值；

基于所述映射标签序列内各个标签的权重值，计算所述音乐库内各个已有音频的匹配度；

基于所述匹配度从所述已有音频中确定所述目标音频。

在第一方面的一种可能实现方式中，所述基于所述匹配度从所述已有音频中确定所述目标音频，包括：

选取所述匹配度大于预设的匹配阈值的已有音频作为候选音频；

基于当前登录的用户账户的用户信息，确定所述用户账户的用户特征；

若任一所述候选音频与所述用户特征匹配，则将所述候选音频作为所述目标音频。

在第一方面的一种可能实现方式中，所述对所述视频文件进行解析，获得所述视频文件对应的内容标签，包括：

确定所述视频文件的每一视频图像帧包含的画面标签；

分别统计各个所述画面标签在所述视频文件的所有所述视频图像帧中的出现次数，并基于所述出现次数从到小的次序，对各个所述画面标签进行排序，得到画面标签序列；

选取所述画面标签中前N个所述画面标签作为所述视频文件对应的内容标签；所述N为正整数。

在第一方面的一种可能实现方式中，在所述在音乐库内选取与所述内容标签和/或所述事件标签关联的目标音频之前，还包括：

若存储有当前登录的用户账户的授权信息，则获取所述用户账户的操作记录；

基于所述操作记录生成所述用户账户的用户特征；

从数据库内提取与所述用户特征匹配的已有音乐，生成所述音乐库。

第二方面，本申请实施例提供了一种音频文件的推荐装置，包括：

事件标签获取单元，用于获取视频文件对应的拍摄事件的事件标签；

内容标签获取单元，用于对所述视频文件进行解析，获得所述视频文件对应的内容标签；

音频推荐信息生成单元，用于在音乐库内选取与所述内容标签和/或所述事件标签关联的目标音频，并基于所述目标音频生成所述视频文件的音频推荐信息。

第三方面，本申请实施例提供了一种电子设备，存储器、处理器以及存储在所述存储器中并可在所述处理器上运行的计算机程序，其特征在于，所述处理器执行所述计算机程序时实现上述第一方面中任一项所述音频文件的推荐方法。

第四方面，本申请实施例提供了一种计算机可读存储介质，所述计算机可读存储介质存储有计算机程序，其特征在于，所述计算机程序被处理器执行时实现上述第一方面中任一项所述音频文件的推荐方法。

第五方面，本申请实施例提供了一种计算机程序产品，当计算机程序产品在电子设备上运行时，使得电子设备执行上述第一方面中任一项所述音频文件的推荐方法。

第六方面，本申请实施例提供一种芯片系统，包括处理器，处理器与存储器耦合，所述处理器执行存储器中存储的计算机程序，以实现如第一方面中任一项所述音频文件的推荐方法。

可以理解的是，上述第二方面至第六方面的有益效果可以参见上述第一方面中的相关描述，在此不再赘述。

附图说明

图1是本申请实施例提供的电子设备的结构示意图；

图2是本申请实施例的电子设备的软件结构框图；

图3是本申请一实施例提供的编辑界面的示意图；

图4是本申请一实施例提供的音频文件的推荐方法的实现流程图；

图5是本申请一实施例提供的视频文件的选取操作流程图；

图6是本申请一实施例提供的视频图像帧的示意图；

图7是本申请一是实施例提供的内容标签的标记示意图；

图8是本申请一实施例提供的音频文件的推荐方法中S402的具体实现流程图；

图9是本申请一实施例提供的视频画面段的划分示意图；

图10是本申请一实施例提供的内容标签的生成流程示意图；

图11是本申请一实施例提供的音频推荐信息的示意图；

图12是本申请一实施例提供的拍摄地点的获取示意图；

图13是本申请另一实施例提供的音频文件的推荐方法中S403的实现流程图；

图14是本申请另一实施例提供的音频文件的推荐方法中S403的实现流程图；

图15是本申请另一实施例提供的音频文件的推荐方法中S403的具体实现流程图；

图16是本申请一实施例提供的映射标签序列的生成示意图；

图17是本申请实施例提供了一种音频文件的推荐方法的实现流程图；

图18是本申请一实施例提供的授权信息的获取示意图；

图19是本申请一实施例提供的电子设备与云端服务器之间的交互流程图；

图20是本申请一实施例提供的内容标签的生成示意图；

图21是本申请一实施例提供的音频文件的推荐装置的结构框图；

图22是本申请一实施例提供的一种电子设备的示意图。

具体实施方式

以下描述中，为了说明而不是为了限定，提出了诸如特定系统结构、技术之类的具体细节，以便透彻理解本申请实施例。然而，本领域的技术人员应当清楚，在没有这些具体细节的其它实施例中也可以实现本申请。在其它情况中，省略对众所周知的系统、装置、电路以及方法的详细说明，以免不必要的细节妨碍本申请的描述。

应当理解，当在本申请说明书和所附权利要求书中使用时，术语“包括”指示所描述特征、整体、步骤、操作、元素和/或组件的存在，但并不排除一个或多个其它特征、整体、步骤、操作、元素、组件和/或其集合的存在或添加。

还应当理解，在本申请说明书和所附权利要求书中使用的术语“和/或”是指相关联列出的项中的一个或多个的任何组合以及所有可能组合，并且包括这些组合。

如在本申请说明书和所附权利要求书中所使用的那样，术语“如果”可以依据上下文被解释为“当...时”或“一旦”或“响应于确定”或“响应于检测到”。类似地，短语“如果确定”或“如果检测到[所描述条件或事件]”可以依据上下文被解释为意指“一旦确定”或“响应于确定”或“一旦检测到[所描述条件或事件]”或“响应于检测到[所描述条件或事件]”。

另外，在本申请说明书和所附权利要求书的描述中，术语“第一”、“第二”、“第三”等仅用于区分描述，而不能理解为指示或暗示相对重要性。

在本申请说明书中描述的参考“一个实施例”或“一些实施例”等意味着在本申请的一个或多个实施例中包括结合该实施例描述的特定特征、结构或特点。由此，在本说明书中的不同之处出现的语句“在一个实施例中”、“在一些实施例中”、“在其他一些实施例中”、“在另外一些实施例中”等不是必然都参考相同的实施例，而是意味着“一个或多个但不是所有的实施例”，除非是以其他方式另外特别强调。术语“包括”、“包含”、“具有”及它们的变形都意味着“包括但不限于”，除非是以其他方式另外特别强调。

本申请实施例提供的音频文件的推荐方法可以应用于手机、平板电脑、可穿戴设备、车载设备、增强现实(augmented reality，AR)/虚拟现实(virtual reality，VR)设备、笔记本电脑、超级移动个人计算机(ultra-mobile personal computer，UMPC)、上网本、个人数字助理(personal digital assistant，PDA)等电子设备上，本申请实施例对电子设备的具体类型不作任何限制。

例如，所述电子设备可以是WLAN中的站点(STAION，ST)，可以是蜂窝电话、无绳电话、会话启动协议(Session InitiationProtocol，SIP)电话、无线本地环路(WirelessLocal Loop，WLL)站、个人数字处理(Personal Digital Assistant，PDA)设备、具有无线通信功能的手持设备、计算设备或连接到无线调制解调器的其它处理设备、电脑、膝上型计算机、手持式通信设备、手持式计算设备、和/或用于在无线系统上进行通信的其它设备以及下一代通信系统，例如，5G网络中的移动终端或者未来演进的公共陆地移动网络(PublicLand Mobile Network，PLMN)网络中的移动终端等。

图1示出了电子设备100的一种结构示意图。

电子设备100可以包括处理器110，外部存储器接口120，内部存储器121，通用串行总线(universal serial bus，USB)接口130，充电管理模块140，电源管理模块141，电池142，天线1，天线2，移动通信模块150，无线通信模块160，音频模块170，扬声器170A，受话器170B，麦克风170C，耳机接口170D，传感器模块180，按键190，马达191，指示器192，摄像头193，显示屏194，以及用户标识模块(subscriber identification module，SIM)卡接口195等。其中传感器模块180可以包括压力传感器180A，陀螺仪传感器180B，气压传感器180C，磁传感器180D，加速度传感器180E，距离传感器180F，接近光传感器180G，指纹传感器180H，温度传感器180J，触摸传感器180K，环境光传感器180L，骨传导传感器180M等。

可以理解的是，本发明实施例示意的结构并不构成对电子设备100的具体限定。在本申请另一些实施例中，电子设备100可以包括比图示更多或更少的部件，或者组合某些部件，或者拆分某些部件，或者不同的部件布置。图示的部件可以以硬件，软件或软件和硬件的组合实现。

处理器110可以包括一个或多个处理单元，例如：处理器110可以包括应用处理器(application processor，AP)，调制解调处理器，图形处理器(graphics processingunit，GPU)，图像信号处理器(image signal processor，ISP)，控制器，视频编解码器，数字信号处理器(digital signal processor，DSP)，基带处理器，和/或神经网络处理器(neural-network processing unit，NPU)等。其中，不同的处理单元可以是独立的器件，也可以集成在一个或多个处理器中。

控制器可以根据指令操作码和时序信号，产生操作控制信号，完成取指令和执行指令的控制。

处理器110中还可以设置存储器，用于存储指令和数据。在一些实施例中，处理器110中的存储器为高速缓冲存储器。该存储器可以保存处理器110刚用过或循环使用的指令或数据。如果处理器110需要再次使用该指令或数据，可从所述存储器中直接调用。避免了重复存取，减少了处理器110的等待时间，因而提高了系统的效率。

在一些实施例中，处理器110可以包括一个或多个接口。接口可以包括集成电路(inter-integrated circuit，I2C)接口，集成电路内置音频(inter-integrated circuitsound，I2S)接口，脉冲编码调制(pulse code modulation，PCM)接口，通用异步收发传输器(universal asynchronous receiver/transmitter，UART)接口，移动产业处理器接口(mobile industry processor interface，MIPI)，通用输入输出(general-purposeinput/output，GPIO)接口，用户标识模块(subscriber identity module，SIM)接口，和/或通用串行总线(universal serial bus，USB)接口等。

I2C接口是一种双向同步串行总线，包括一根串行数据线(serial data line，SDA)和一根串行时钟线(derail clock line，SCL)。在一些实施例中，处理器110可以包含多组I2C总线。处理器110可以通过不同的I2C总线接口分别耦合触摸传感器180K，充电器，闪光灯，摄像头193等。例如：处理器110可以通过I2C接口耦合触摸传感器180K，使处理器110与触摸传感器180K通过I2C总线接口通信，实现电子设备100的触摸功能。

I2S接口可以用于音频通信。在一些实施例中，处理器110可以包含多组I2S总线。处理器110可以通过I2S总线与音频模块170耦合，实现处理器110与音频模块170之间的通信。在一些实施例中，音频模块170可以通过I2S接口向无线通信模块160传递音频信号，实现通过蓝牙耳机接听电话的功能。

PCM接口也可以用于音频通信，将模拟信号抽样，量化和编码。在一些实施例中，音频模块170与无线通信模块160可以通过PCM总线接口耦合。在一些实施例中，音频模块170也可以通过PCM接口向无线通信模块160传递音频信号，实现通过蓝牙耳机接听电话的功能。所述I2S接口和所述PCM接口都可以用于音频通信。

UART接口是一种通用串行数据总线，用于异步通信。该总线可以为双向通信总线。它将要传输的数据在串行通信与并行通信之间转换。在一些实施例中，UART接口通常被用于连接处理器110与无线通信模块160。例如：处理器110通过UART接口与无线通信模块160中的蓝牙模块通信，实现蓝牙功能。在一些实施例中，音频模块170可以通过UART接口向无线通信模块160传递音频信号，实现通过蓝牙耳机播放音乐的功能。

MIPI接口可以被用于连接处理器110与显示屏194，摄像头193等外围器件。MIPI接口包括摄像头串行接口(camera serial interface，CSI)，显示屏串行接口(displayserial interface，DSI)等。在一些实施例中，处理器110和摄像头193通过CSI接口通信，实现电子设备100的拍摄功能。处理器110和显示屏194通过DSI接口通信，实现电子设备100的显示功能。

GPIO接口可以通过软件配置。GPIO接口可以被配置为控制信号，也可被配置为数据信号。在一些实施例中，GPIO接口可以用于连接处理器110与摄像头193，显示屏194，无线通信模块160，音频模块170，传感器模块180等。GPIO接口还可以被配置为I2C接口，I2S接口，UART接口，MIPI接口等。

USB接口130是符合USB标准规范的接口，具体可以是Mini USB接口，Micro USB接口，USB Type C接口等。USB接口130可以用于连接充电器为电子设备100充电，也可以用于电子设备100与外围设备之间传输数据。也可以用于连接耳机，通过耳机播放音频。该接口还可以用于连接其他电子设备，例如AR设备等。

可以理解的是，本发明实施例示意的各模块间的接口连接关系，只是示意性说明，并不构成对电子设备100的结构限定。在本申请另一些实施例中，电子设备100也可以采用上述实施例中不同的接口连接方式，或多种接口连接方式的组合。

充电管理模块140用于从充电器接收充电输入。其中，充电器可以是无线充电器，也可以是有线充电器。在一些有线充电的实施例中，充电管理模块140可以通过USB接口130接收有线充电器的充电输入。在一些无线充电的实施例中，充电管理模块140可以通过电子设备100的无线充电线圈接收无线充电输入。充电管理模块140为电池142充电的同时，还可以通过电源管理模块141为电子设备供电。

电源管理模块141用于连接电池142，充电管理模块140与处理器110。电源管理模块141接收电池142和/或充电管理模块140的输入，为处理器110，内部存储器121，显示屏194，摄像头193，和无线通信模块160等供电。电源管理模块141还可以用于监测电池容量，电池循环次数，电池健康状态(漏电，阻抗)等参数。在其他一些实施例中，电源管理模块141也可以设置于处理器110中。在另一些实施例中，电源管理模块141和充电管理模块140也可以设置于同一个器件中。

电子设备100的无线通信功能可以通过天线1，天线2，移动通信模块150，无线通信模块160，调制解调处理器以及基带处理器等实现。

天线1和天线2用于发射和接收电磁波信号。电子设备100中的每个天线可用于覆盖单个或多个通信频带。不同的天线还可以复用，以提高天线的利用率。例如：可以将天线1复用为无线局域网的分集天线。在另外一些实施例中，天线可以和调谐开关结合使用。

移动通信模块150可以提供应用在电子设备100上的包括2G/3G/4G/5G等无线通信的解决方案。移动通信模块150可以包括至少一个滤波器，开关，功率放大器，低噪声放大器(low noise amplifier，LNA)等。移动通信模块150可以由天线1接收电磁波，并对接收的电磁波进行滤波，放大等处理，传送至调制解调处理器进行解调。移动通信模块150还可以对经调制解调处理器调制后的信号放大，经天线1转为电磁波辐射出去。在一些实施例中，移动通信模块150的至少部分功能模块可以被设置于处理器110中。在一些实施例中，移动通信模块150的至少部分功能模块可以与处理器110的至少部分模块被设置在同一个器件中。

调制解调处理器可以包括调制器和解调器。其中，调制器用于将待发送的低频基带信号调制成中高频信号。解调器用于将接收的电磁波信号解调为低频基带信号。随后解调器将解调得到的低频基带信号传送至基带处理器处理。低频基带信号经基带处理器处理后，被传递给应用处理器。应用处理器通过音频设备(不限于扬声器170A，受话器170B等)输出声音信号，或通过显示屏194显示图像或视频。在一些实施例中，调制解调处理器可以是独立的器件。在另一些实施例中，调制解调处理器可以独立于处理器110，与移动通信模块150或其他功能模块设置在同一个器件中。

无线通信模块160可以提供应用在电子设备100上的包括无线局域网(wirelesslocal area networks，WLAN)(如无线保真(wireless fidelity，Wi-Fi)网络)，蓝牙(bluetooth，BT)，全球导航卫星系统(global navigation satellite system，GNSS)，调频(frequency modulation，FM)，近距离无线通信技术(near field communication，NFC)，红外技术(infrared，IR)等无线通信的解决方案。无线通信模块160可以是集成至少一个通信处理模块的一个或多个器件。无线通信模块160经由天线2接收电磁波，将电磁波信号调频以及滤波处理，将处理后的信号发送到处理器110。无线通信模块160还可以从处理器110接收待发送的信号，对其进行调频，放大，经天线2转为电磁波辐射出去。

在一些实施例中，电子设备100的天线1和移动通信模块150耦合，天线2和无线通信模块160耦合，使得电子设备100可以通过无线通信技术与网络以及其他设备通信。所述无线通信技术可以包括全球移动通讯系统(global system for mobile communications，GSM)，通用分组无线服务(general packet radio service，GPRS)，码分多址接入(codedivision multiple access，CDMA)，宽带码分多址(wideband code division multipleaccess，WCDMA)，时分码分多址(time-division code division multiple access，TD-SCDMA)，长期演进(long term evolution，LTE)，BT，GNSS，WLAN，NFC，FM，和/或IR技术等。所述GNSS可以包括全球卫星定位系统(global positioning system，GPS)，全球导航卫星系统(global navigation satellite system，GLONASS)，北斗卫星导航系统(beidounavigation satellite system，BDS)，准天顶卫星系统(quasi-zenith satellitesystem，QZSS)和/或星基增强系统(satellite based augmentation systems，SBAS)。

电子设备100通过GPU，显示屏194，以及应用处理器等实现显示功能。GPU为图像处理的微处理器，连接显示屏194和应用处理器。GPU用于执行数学和几何计算，用于图形渲染。处理器110可包括一个或多个GPU，其执行程序指令以生成或改变显示信息。

显示屏194用于显示图像，视频等。显示屏194包括显示面板。显示面板可以采用液晶显示屏(liquid crystal display，LCD)，有机发光二极管(organic light-emittingdiode，OLED)，有源矩阵有机发光二极体或主动矩阵有机发光二极体(active-matrixorganic light emitting diode的，AMOLED)，柔性发光二极管(flex light-emittingdiode，FLED)，Miniled，MicroLed，Micro-oLed，量子点发光二极管(quantum dot lightemitting diodes，QLED)等。在一些实施例中，电子设备100可以包括1个或N个显示屏194，N为大于1的正整数。显示屏194可包括触控面板以及其他输入设备。

电子设备100可以通过ISP，摄像头193，视频编解码器，GPU，显示屏194以及应用处理器等实现拍摄功能。

ISP用于处理摄像头193反馈的数据。例如，拍照时，打开快门，光线通过镜头被传递到摄像头感光元件上，光信号转换为电信号，摄像头感光元件将所述电信号传递给ISP处理，转化为肉眼可见的图像。ISP还可以对图像的噪点，亮度，肤色进行算法优化。ISP还可以对拍摄场景的曝光，色温等参数优化。在一些实施例中，ISP可以设置在摄像头193中。

摄像头193用于捕获静态图像或视频。物体通过镜头生成光学图像投射到感光元件。感光元件可以是电荷耦合器件(charge coupled device，CCD)或互补金属氧化物半导体(complementary metal-oxide-semiconductor，CMOS)光电晶体管。感光元件把光信号转换成电信号，之后将电信号传递给ISP转换成数字图像信号。ISP将数字图像信号输出到DSP加工处理。DSP将数字图像信号转换成标准的RGB，YUV等格式的图像信号。在一些实施例中，电子设备100可以包括1个或N个摄像头193，N为大于1的正整数。

数字信号处理器用于处理数字信号，除了可以处理数字图像信号，还可以处理其他数字信号。例如，当电子设备100在频点选择时，数字信号处理器用于对频点能量进行傅里叶变换等。

视频编解码器用于对数字视频压缩或解压缩。电子设备100可以支持一种或多种视频编解码器。这样，电子设备100可以播放或录制多种编码格式的视频，例如：动态图像专家组(moving picture experts group，MPEG)1，MPEG2，MPEG3，MPEG4等。

NPU为神经网络(neural-network，NN)计算处理器，通过借鉴生物神经网络结构，例如借鉴人脑神经元之间传递模式，对输入信息快速处理，还可以不断的自学习。通过NPU可以实现电子设备100的智能认知等应用，例如：图像识别，脸部识别，语音识别，文本理解等。

外部存储器接口120可以用于连接外部存储卡，例如Micro SD卡，实现扩展电子设备100的存储能力。外部存储卡通过外部存储器接口120与处理器110通信，实现数据存储功能。例如将音乐，视频等文件保存在外部存储卡中。

内部存储器121可以用于存储计算机可执行程序代码，所述可执行程序代码包括指令。内部存储器121可以包括存储程序区和存储数据区。其中，存储程序区可存储操作系统，至少一个功能所需的应用程序(比如声音播放功能，图像播放功能等)等。存储数据区可存储电子设备100使用过程中所创建的数据(比如音频数据，电话本等)等。此外，内部存储器121可以包括高速随机存取存储器，还可以包括非易失性存储器，例如至少一个磁盘存储器件，闪存器件，通用闪存存储器(universal flash storage，UFS)等。处理器110通过运行存储在内部存储器121的指令，和/或存储在设置于处理器中的存储器的指令，执行电子设备100的各种功能应用以及数据处理。

电子设备100可以通过音频模块170，扬声器170A，受话器170B，麦克风170C，耳机接口170D，以及应用处理器等实现音频功能。例如音乐播放，录音等。

音频模块170用于将数字音频信息转换成模拟音频信号输出，也用于将模拟音频输入转换为数字音频信号。音频模块170还可以用于对音频信号编码和解码。在一些实施例中，音频模块170可以设置于处理器110中，或将音频模块170的部分功能模块设置于处理器110中。

扬声器170A，也称“喇叭”，用于将音频电信号转换为声音信号。电子设备100可以通过扬声器170A收听音乐，或收听免提通话。

受话器170B，也称“听筒”，用于将音频电信号转换成声音信号。当电子设备100接听电话或语音信息时，可以通过将受话器170B靠近人耳接听语音。

麦克风170C，也称“话筒”，“传声器”，用于将声音信号转换为电信号。当拨打电话或发送语音信息时，用户可以通过人嘴靠近麦克风170C发声，将声音信号输入到麦克风170C。电子设备100可以设置至少一个麦克风170C。在另一些实施例中，电子设备100可以设置两个麦克风170C，除了采集声音信号，还可以实现降噪功能。在另一些实施例中，电子设备100还可以设置三个，四个或更多麦克风170C，实现采集声音信号，降噪，还可以识别声音来源，实现定向录音功能等。

耳机接口170D用于连接有线耳机。耳机接口170D可以是USB接口130，也可以是3.5mm的开放移动电子设备平台(open mobile terminal platform，OMTP)标准接口，美国蜂窝电信工业协会(cellular telecommunications industry association of the USA，CTIA)标准接口。

压力传感器180A用于感受压力信号，可以将压力信号转换成电信号。在一些实施例中，压力传感器180A可以设置于显示屏194。压力传感器180A的种类很多，如电阻式压力传感器，电感式压力传感器，电容式压力传感器等。电容式压力传感器可以是包括至少两个具有导电材料的平行板。当有力作用于压力传感器180A，电极之间的电容改变。电子设备100根据电容的变化确定压力的强度。当有触摸操作作用于显示屏194，电子设备100根据压力传感器180A检测所述触摸操作强度。电子设备100也可以根据压力传感器180A的检测信号计算触摸的位置。在一些实施例中，作用于相同触摸位置，但不同触摸操作强度的触摸操作，可以对应不同的操作指令。例如：当有触摸操作强度小于第一压力阈值的触摸操作作用于短消息应用图标时，执行查看短消息的指令。当有触摸操作强度大于或等于第一压力阈值的触摸操作作用于短消息应用图标时，执行新建短消息的指令。

陀螺仪传感器180B可以用于确定电子设备100的运动姿态。在一些实施例中，可以通过陀螺仪传感器180B确定电子设备100围绕三个轴(即，x，y和z轴)的角速度。陀螺仪传感器180B可以用于拍摄防抖。示例性的，当按下快门，陀螺仪传感器180B检测电子设备100抖动的角度，根据角度计算出镜头模组需要补偿的距离，让镜头通过反向运动抵消电子设备100的抖动，实现防抖。陀螺仪传感器180B还可以用于导航，体感游戏场景。

气压传感器180C用于测量气压。在一些实施例中，电子设备100通过气压传感器180C测得的气压值计算海拔高度，辅助定位和导航。

磁传感器180D包括霍尔传感器。电子设备100可以利用磁传感器180D检测翻盖皮套的开合。在一些实施例中，当电子设备100是翻盖机时，电子设备100可以根据磁传感器180D检测翻盖的开合。进而根据检测到的皮套的开合状态或翻盖的开合状态，设置翻盖自动解锁等特性。

加速度传感器180E可检测电子设备100在各个方向上(一般为三轴)加速度的大小。当电子设备100静止时可检测出重力的大小及方向。还可以用于识别电子设备姿态，应用于横竖屏切换，计步器等应用。

距离传感器180F，用于测量距离。电子设备100可以通过红外或激光测量距离。在一些实施例中，拍摄场景，电子设备100可以利用距离传感器180F测距以实现快速对焦。

接近光传感器180G可以包括例如发光二极管(LED)和光检测器，例如光电二极管。发光二极管可以是红外发光二极管。电子设备100通过发光二极管向外发射红外光。电子设备100使用光电二极管检测来自附近物体的红外反射光。当检测到充分的反射光时，可以确定电子设备100附近有物体。当检测到不充分的反射光时，电子设备100可以确定电子设备100附近没有物体。电子设备100可以利用接近光传感器180G检测用户手持电子设备100贴近耳朵通话，以便自动熄灭屏幕达到省电的目的。接近光传感器180G也可用于皮套模式，口袋模式自动解锁与锁屏。

环境光传感器180L用于感知环境光亮度。电子设备100可以根据感知的环境光亮度自适应调节显示屏194亮度。环境光传感器180L也可用于拍照时自动调节白平衡。环境光传感器180L还可以与接近光传感器180G配合，检测电子设备100是否在口袋里，以防误触。

指纹传感器180H用于采集指纹。电子设备100可以利用采集的指纹特性实现指纹解锁，访问应用锁，指纹拍照，指纹接听来电等。

温度传感器180J用于检测温度。在一些实施例中，电子设备100利用温度传感器180J检测的温度，执行温度处理策略。例如，当温度传感器180J上报的温度超过阈值，电子设备100执行降低位于温度传感器180J附近的处理器的性能，以便降低功耗实施热保护。在另一些实施例中，当温度低于另一阈值时，电子设备100对电池142加热，以避免低温导致电子设备100异常关机。在其他一些实施例中，当温度低于又一阈值时，电子设备100对电池142的输出电压执行升压，以避免低温导致的异常关机。

触摸传感器180K，也称“触控器件”。触摸传感器180K可以设置于显示屏194，由触摸传感器180K与显示屏194组成触摸屏，也称“触控屏”。触摸传感器180K用于检测作用于其上或附近的触摸操作。触摸传感器可以将检测到的触摸操作传递给应用处理器，以确定触摸事件类型。可以通过显示屏194提供与触摸操作相关的视觉输出。在另一些实施例中，触摸传感器180K也可以设置于电子设备100的表面，与显示屏194所处的位置不同。

骨传导传感器180M可以获取振动信号。在一些实施例中，骨传导传感器180M可以获取人体声部振动骨块的振动信号。骨传导传感器180M也可以接触人体脉搏，接收血压跳动信号。在一些实施例中，骨传导传感器180M也可以设置于耳机中，结合成骨传导耳机。音频模块170可以基于所述骨传导传感器180M获取的声部振动骨块的振动信号，解析出语音信号，实现语音功能。应用处理器可以基于所述骨传导传感器180M获取的血压跳动信号解析心率信息，实现心率检测功能。

按键190包括开机键，音量键等。按键190可以是机械按键。也可以是触摸式按键。电子设备100可以接收按键输入，产生与电子设备100的用户设置以及功能控制有关的键信号输入。

马达191可以产生振动提示。马达191可以用于来电振动提示，也可以用于触摸振动反馈。例如，作用于不同应用(例如拍照，音频播放等)的触摸操作，可以对应不同的振动反馈效果。作用于显示屏194不同区域的触摸操作，马达191也可对应不同的振动反馈效果。不同的应用场景(例如：时间提醒，接收信息，闹钟，游戏等)也可以对应不同的振动反馈效果。触摸振动反馈效果还可以支持自定义。

指示器192可以是指示灯，可以用于指示充电状态，电量变化，也可以用于指示消息，未接来电，通知等。

SIM卡接口195用于连接SIM卡。SIM卡可以通过插入SIM卡接口195，或从SIM卡接口195拔出，实现和电子设备100的接触和分离。电子设备100可以支持1个或N个SIM卡接口，N为大于1的正整数。SIM卡接口195可以支持Nano SIM卡，Micro SIM卡，SIM卡等。同一个SIM卡接口195可以同时插入多张卡。所述多张卡的类型可以相同，也可以不同。SIM卡接口195也可以兼容不同类型的SIM卡。SIM卡接口195也可以兼容外部存储卡。电子设备100通过SIM卡和网络交互，实现通话以及数据通信等功能。在一些实施例中，电子设备100采用eSIM，即：嵌入式SIM卡。eSIM卡可以嵌在电子设备100中，不能和电子设备100分离。

电子设备100的软件系统可以采用分层架构，事件驱动架构，微核架构，微服务架构，或云架构。本发明实施例以分层架构的Android系统为例，示例性说明电子设备100的软件结构。

图2是本申请实施例的电子设备的一种软件结构框图。

分层架构将软件分成若干个层，每一层都有清晰的角色和分工。层与层之间通过软件接口通信。在一些实施例中，将Android系统分为四层，从上至下分别为应用程序层，应用程序框架层，安卓运行时(Android runtime)和系统库，以及内核层。

应用程序层可以包括一系列应用程序包。

如图2所示，应用程序包可以包括相机，图库，日历，通话，地图，导航，WLAN，蓝牙，音乐，视频，短信息等应用程序。

应用程序框架层为应用程序层的应用程序提供应用编程接口(applicationprogramming interface，API)和编程框架。应用程序框架层包括一些预先定义的函数。

如图2所示，应用程序框架层可以包括窗口管理器，内容提供器，视图系统，电话管理器，资源管理器，通知管理器等。

窗口管理器用于管理窗口程序。窗口管理器可以获取显示屏大小，判断是否有状态栏，锁定屏幕，截取屏幕等。

内容提供器用来存放和获取数据，并使这些数据可以被应用程序访问。所述数据可以包括视频，图像，音频，拨打和接听的电话，浏览历史和书签，电话簿等。

视图系统包括可视控件，例如显示文字的控件，显示图片的控件等。视图系统可用于构建应用程序。显示界面可以由一个或多个视图组成的。例如，包括短信通知图标的显示界面，可以包括显示文字的视图以及显示图片的视图。

电话管理器用于提供电子设备的通信功能。例如通话状态的管理(包括接通，挂断等)。

资源管理器为应用程序提供各种资源，比如本地化字符串，图标，图片，布局文件，视频文件等等。

通知管理器使应用程序可以在状态栏中显示通知信息，可以用于传达告知类型的消息，可以短暂停留后自动消失，无需用户交互。比如通知管理器被用于告知下载完成，消息提醒等。通知管理器还可以是以图表或者滚动条文本形式出现在系统顶部状态栏的通知，例如后台运行的应用程序的通知，还可以是以对话窗口形式出现在屏幕上的通知。例如在状态栏提示文本信息，发出提示音，电子设备振动，指示灯闪烁等。

Android Runtime包括核心库和虚拟机。Android runtime负责安卓系统的调度和管理。

核心库包含两部分：一部分是java语言需要调用的功能函数，另一部分是安卓的核心库。

应用程序层和应用程序框架层运行在虚拟机中。虚拟机将应用程序层和应用程序框架层的java文件执行为二进制文件。虚拟机用于执行对象生命周期的管理，堆栈管理，线程管理，安全和异常的管理，以及垃圾回收等功能。

系统库可以包括多个功能模块。例如：表面管理器(surface manager)，媒体库(Media Libraries)，三维图形处理库(例如：OpenGL ES)，2D图形引擎(例如：SGL)等。

表面管理器用于对显示子系统进行管理，并且为多个应用程序提供了2D和3D图层的融合。

媒体库支持多种常用的音频，视频格式回放和录制，以及静态图像文件等。媒体库可以支持多种音视频编码格式，例如:MPEG4，H.264，MP3，AAC，AMR，JPG，PNG等。

三维图形处理库用于实现三维图形绘图，图像渲染，合成，和图层处理等。

2D图形引擎是2D绘图的绘图引擎。

内核层是硬件和软件之间的层。内核层至少包含显示驱动，摄像头驱动，音频驱动，传感器驱动。

下面结合捕获拍照场景，示例性说明电子设备100软件以及硬件的工作流程。

当触摸传感器180K接收到触摸操作，相应的硬件中断被发给内核层。内核层将触摸操作加工成原始输入事件(包括触摸坐标，触摸操作的时间戳等信息)。原始输入事件被存储在内核层。应用程序框架层从内核层获取原始输入事件，识别该输入事件所对应的控件。以该触摸操作是触摸单击操作，该单击操作所对应的控件为相机应用图标的控件为例，相机应用调用应用框架层的接口，启动相机应用，进而通过调用内核层启动摄像头驱动，通过摄像头193捕获静态图像或视频。

实施例一：

电子设备可以输出视频文件的编辑界面，接收用户在上述编辑界面中的编辑操作，并基于编辑操作对视频文件进行修改。示例性地，图3示出了本申请一实施例提供的编辑界面的示意图。参见图3中的(a)所示，在编辑界面中，包含有滤镜设置控件301、字幕设置控件302以及背景音乐设置控件303，根据编辑需求，用户可以点击对应的控件，以使电子设备显示对应的设置界面或编辑界面。例如，需要对视频文件进行编辑时，电子设备会接收到用户对于背景音乐设置控件303的点击操作，此时，电子设备会切换至背景音乐的设置页面，即图3中的(b)所示。在背景音乐的设置页面中，包含有多个音乐分类，分别为“热门推荐”、“流行音乐”、“摇滚音乐”、“民谣音乐”以及“纯音乐”，每个音乐分类固定关联有至少一个候选音乐，电子设备可以接收用户发起的选择指令，并展开对应音乐分类的音乐推荐列表，如图3中的(c)所示。音乐分类并不会根据视频文件的内容进行变更，并且每个音乐分类关联的候选音乐也较为固定，从而降低了音乐文件推荐操作的个性化程度。另一方面，上述推荐方式需要用户手动确定所需选择的音乐分类后，再显示关联的候选音乐的推荐列表，操作复杂，也降低了用户选取背景音乐的操作效率。

因此，为了解决上述音频文件推荐技术的缺陷，本申请提供一种音频文件的推荐方法，具体详述如下：参见图4所示，该音频文件的推荐方法的执行主体为一电子设备，该电子设备可以为一智能手机、平板电脑、计算机、智能游戏机以及配置有显示模块的任一设备。图4示出了本申请一实施例提供的音频文件的推荐方法的实现流程图，详述如下：

在S401中，获取视频文件对应的拍摄事件的事件标签。

在本实施例中，电子设备可以接收背景音乐的推荐请求，该推荐请求包含有所需配置背景音乐的视频文件的文件标识。电子设备可以通过对上述推荐请求进行解析，获取视频文件的文件标识，并基于该文件标识获得该视频文件以及与该视频文件关联的拍摄事件的拍摄记录。

在一种可能的实现方式中，电子设备可以配置有视频文件的编辑应用程序。示例性地，图5示出了本申请一实施例提供的视频文件的选取操作流程图。参见图5中的(a)所示，电子设备的主界面中可以显示有视频文件的编辑应用程序的应用图标，即图标501。电子设备在检测到用户点击图标501时，则启动该编辑应用程序，并输出视频文件选择界面，如图5中的(b)。电子设备可以对存储器进行扫描，获取该电子设备包含的候选视频，并将所有候选视频的缩略图显示在上述视频文件选择界面内。电子设备可以接收用户发起的选择操作，识别用户选择的候选视频为目标视频，即上述的视频文件，切换至对视频文件进行编辑的界面，如图5中的(c)。

在一种可能的实现方式中，电子设备在启动编辑应用程序时，可以提示用户输入登录信息，基于登录信息获取用户账户关联的视频数据库，该视频数据库内存储有该用户账户对应的多个候选视频，该各个候选视频可以存储与电子设备本地的存储器内，也可以存储于云端服务器，当然，还可以存储于外置的存储设备中。通过建立用户账户关联的视频数据库，无需所有候选视频均需要存储于电子设备的本地存储器内，减少了存储器的存储压力，也能够提高可编辑的视频文件的数量。

在本实施例中，该拍摄事件具体指的是拍摄视频文件所对应的事件，上述事件标签则为与拍摄事件相关的标签。事件标签具体用于描述拍摄视频文件过程相关的标签，与视频文件的内容无关。上述事件标签包括但不限于：拍摄地点、拍摄时间、执行拍摄操作的用户、拍摄设备等。

在一种可能的实现方式中，上述事件标签在生成视频文件时，可以封装于视频文件对应额数据包内，例如该视频文件对应的数据包包含至少两部分，分别为首部部分以及内容部分，首部部分具体用于存储于视频标识、拍摄事件相关的信息等，而内容部分具体用于存储视频数据，即各个视频图像帧以及对应的音频轨道。在该情况下，电子设备可以对视频文件进行解析，获取该视频文件内的首部部分的内容，获取与拍摄事件相关的信息，并基于上述信息生成事件标签。

在一种可能的实现方式中，电子设备可以用于拍摄上述视频文件。在该情况下，电子设备可以配置有定位模块，该定位模块具体可以为一全球定位模块GPRS，以及时钟模块。电子设备可以通过定位模块获取位置信息，通过时钟模块获取时间信息，在检测到录制开始时，可以获取录制开始时刻的位置信息以及时间信息，将上述两个信息封装在当前录制的视频文件的数据包内，以记录关于拍摄事件相关的信息。若电子设备在录制视频文件时登录有用户账户，则可以将用户账户的账户标识添加到数据包内，从而将该账户标识作为视频文件的拍摄用户。

在一种可能的实现方式中，若视频文件内并未记录有关于拍摄事件的信息，则电子设备可以输出空白标签，或配置为预设的缺省标签。

在一种可能的实现方式中，若视频文件内并未记录有关于拍摄事件的信息，则电子设备对视频文件进行解析，基于视频内容配置对应的事件标签。举例性地，若电子设备可以获取视频文件内各个视频图像帧中的背景区域图像，通过识别背景区域图像内包含的建筑物或自然风景等拍摄对象，确定视频文件对应的拍摄地点。图6示出了本申请一实施例提供的视频图像帧的示意图。参见图6所示，一视频文件并未记录有拍摄地点的信息，而视频文件的其中一个视频图像帧的背景区域图像中包含有“广州塔”这一标志建筑物，则可以识别该拍摄地点为“广州”，进一步地，该拍摄地点可以为“广州塔”。

在一种可能的实现方式中，电子设备可以为事件标签配置有对应的白名单列表。电子设备获取与视频文件相关的拍摄事件的信息，获取多个与拍摄事件相关的候选标签，继而判断上述候选标签是否在预设的白名单列表内，若是，则将该候选标签作为上述的事件标签；反之，若该候选标签不在上述的白名单列表内，则将候选标签作为无效标签。由于并非所有与拍摄事件相关的标签在选取音频文件时均有贡献，为了减少无效的事件标签与音频文件的匹配操作，可以配置有对应的白名单列表，过滤无效标签，保留有效的事件标签。

在一种可能的实现方式中，上述白名单列表具体可以根据音乐库内各个候选音频关联的音乐标签生成。音乐库内的候选音频可以根据音频内包含的歌词、歌曲名以及旋律特点等，为音频配置关联的音乐标签。电子设备可以获取音乐库内各个候选音频关联的音乐标签，对所有音乐标签进行整理，从而生成上述的白名单列表，从而可以将从拍摄事件对应的所有候选标签中，选取与音频相关的候选标签作为事件标签，提高了事件标签的准确性。

在S402中，对所述视频文件进行解析，获得所述视频文件对应的内容标签。

在本实施例中，电子设备可以对视频文件进行解析，确定与视频文件的拍摄内容相关的内容标签。示例性地，图7示出了本申请一是实施例提供的内容标签的标记示意图。参见图7所示，电子设备可以对视频文件进行解析，获取视频文件中包含的每一视频图像帧，对视频图像帧内的拍摄对象进行识别，例如图7所示的画面中包含有小孩、树木、气球等拍摄对象，则将每个拍摄对象作为一个内容标签，当然根据视频图像帧的颜色信息，可以确定该视频图像帧对应的天气或时间段，例如白天。因此，通过对视频文件内的各个视频图像帧进行识别，能够得到视频文件对应的内容标签。

在一种可能的实现方式中，电子设备可以将视频文件内的各个视频图像帧导入到已训练好的多重卷积神经网络，从而输出关于该视频图像帧对应的内容标签。该多重卷积神经网络包含多个卷积层以及全连接层，每个卷积层配置对应的卷积核，通过卷积核对视频图像帧进行卷积运算，输出对应的特征向量，将最后一层卷积层输出的特征向量导入到全连接层，计算与全连接层内预先配置多个已有标签之间的匹配概率，选取匹配概率大于预设的概率阈值的已有标签，作为该视频图像帧的内容标签。其中，上述多重卷积神经网络是可以通过大量图片以及关联的训练标签对神经网络训练后得到的，从而能够提高内容标签识别的准确性。其中，上述多重卷积神经网络的全连接层配置的已有标签，可以基于音乐库内各个候选音频的音乐标签得到(获取音乐标签的方式可以参见上面的描述，在此不再赘述)，也可以自行设置，在此不做限定。

进一步地，作为本申请另一实施例，图8示出了本申请一实施例提供的音频文件的推荐方法中S402的具体实现流程图。参见图8所示，相对于图4所述实施例，本实施例中的S402具体包括S4021～S4023，具体描述如下：

进一步地，所述对所述视频文件进行解析，获得所述视频文件对应的内容标签，包括：

在S4021中，确定所述视频文件的每一视频图像帧包含的画面标签。

在本实施例中，电子设备可以对视频文件进行解析，得到多个视频图像帧，分别对各个视频图像帧内的拍摄画面进行标签识别，确定每个视频图像帧内包含的画面标签。

在一种可能的实现方式中，电子设备可以识别相邻的多个视频图像帧之间的相似度，若多个相邻的视频图像帧之间的相似度大于预设的相似度阈值，则识别上述多个视频图像帧属于同一视频画面段，并为该视频画面段配置对应的画面标签。为了提高画面标签识别的准确性，例如对部分动态类型的标签进行识别，同时也能够减少画面标签的识别次数，电子设备可以对视频文件进行分段处理，将画面相关度较大的多个视频图像帧划分为同一视频画面段，并识别该视频画面段包含的画面标签，将视频画面段的画面标签作为该视频画面段内各个视频图像真的画面标签。示例性地，图9示出了本申请一实施例提供的视频画面段的划分示意图。参见图9所示，电子设备获取得到一视频文件，该视频文件的视频时长为60秒，电子设备识别得到第一秒至第四秒所包含的多个视频图像帧之间的相似度大于相似阈值，因此将第一到四秒的视频图像帧划分为同一视频画面段，并识别该视频画面端对应的画面标签。基于同样的识别方式，将第25秒至28秒对应的视频图像帧，划分为同一视频画面段，以及将第57秒至第60秒的视频图像帧识别为同一视频画面段，确定各个视频画面段对应的画面标签。

在一种可能的实现方式中，电子设备还可以基于预设的时间间隔，将视频文件划分为多个视频画面段，并分别识别各个视频画面段包含的画面标签，将该视频画面段的画面标签作为该视频画面段内所有视频图像帧对应的画面标签。例如，以4s为上述的时间间隔，则将视频文件划分为多个时间长度为4s的视频画面段。

在一种可能的实现方式中，电子设备确定视频图像帧包含的画面标签具体可以采用以下多种检测算法中的一种或两种以上的结合进行标签识别：人脸检测算法(人脸识别检测以及人脸属性检测)、场景识别算法、物体检测算法等。

举例性地，电子设备可以通过人脸检测算法判断视频图像帧内是否包含人脸区域，若是，则定位人脸区域，并基于人脸区域确定多个关键特征点，基于多个关键特征点对应的特征信息，确定该人脸对应的拍摄对象的对象属性(如性别、年龄等)。同样地，电子设备还可以将识别得到的人脸区域作为基准点，从而获取得到人体区域，从而确定拍摄对象的身高、身材等对象属性。可选地，电子设备在获取得到人体区域后，可以在多个视频图像帧中进行人体跟踪，从而确定拍摄对象在多个视频图像帧中的姿态变化信息，从而根据姿态变化信息确定拍摄对象的运动类型(如奔跑、跳跃、静坐等)。

举例性地，电子设备可以预先存储有不同可识别物体的标准模型。电子设备可以判断视频图像帧内是否存在与任一可识别物体的标准模型相匹配的图像区域，若存在，则识别该图像区域对应的拍摄对象为该可识别物体，从而实现了物体识别。

在一种可能的实现方式中，电子设备在获取得到画面标签后，可以将视频图像帧的多个页面标签导入到语义感知模型，生成与该视频图像帧对应的描述语句。由于画面标签之间的相互关系是独立且无联系的，基于此，基于此，电子设备可以将属于同一视频图像帧的页面标签导入到语义感知模型，从而将多个孤立的画面标签整合为一个具有连贯意义的语句，以便更为准确地描述视频图像帧的画面内容，从而提高后续配乐的准确性。举例性地，继续参见图9所示，视频文件中的第一秒至第四秒对应的画面标签为：蓝天、沙滩、海水、狗以及小孩。因此，电子设备将上述多个画面标签导入到语义感知模型，输出对应的描述语段可以为：“在蓝天下，小孩和小狗在海边的沙滩玩耍”。电子设备可以从描述语句中提取画面标签未识别得到的增补标签，从而提高了标签识别的完整性以及准确性。

在S4022中，分别统计各个所述画面标签在所述视频文件的所有所述视频图像帧中的出现次数，并基于所述出现次数从到小的次序，对各个所述画面标签进行排序，得到画面标签序列。

在本实施例中，电子设备在获取得到多个画面标签后，可以对所有画面标签进行聚类分析，统计各个画面标签在视频文件的所有视频图像帧中的出现次数。若将视频文件划分为多个视频画面段，则将该视频画面段内包含的视频图像帧的个数，作为该视频画面段的画面标签对应的出现个数。举例性地，电子设备的一视频画面段的画面时长为4s，而视频文件的采集帧率为60fps，则时长为四秒的视频画面段对应的视频图像帧的个数为240，即上述视频画面段对应的画面标签的出现次数为240次。

在一种可能的实现方式中，电子设备的聚类算法可以将同义或近义的多个画面标签识别为同一标签，即生成聚类标签，并将多个属于同一标签的画面标签的出现次数进行叠加，作为聚类标签的出现次数。举例性地，若某一视频图像帧识别得到的画面标签为“玫瑰”，而另一视频图像帧得到的画面标签为“红玫瑰”，由于两个标签的内容相似，因此可以将上述两个标签识别为同一标签，将两个画面标签进行聚类，生成“玫瑰”这一聚类标签，并将画面标签“玫瑰”的第一出现次数与画面标签“红玫瑰”的第二出现次数进行相加，作为聚类标签“玫瑰”的出现次数。通过对画面标签进行聚类操作，能够整理所表示内容相似或相同的多个不同标签，从而能够减少页面标签的个数的同时，不会降低对视频文件的内容识别的准确性。

在本实施例中，电子设备可以根据各个画面标签的出现次数，从大到小依次排列各个画面标签，并生成画面标签序列，其中，该画面标签序列中，越靠前的画面标签，其出现次数越多；反之，越靠后的画面标签，其出现次数越少。可选地，若存在两个或以上的画面标签的出现次数相同，则可以根据该画面标签在各个视频图像帧内所占的平均面积，确定在画面标签序列中的次序，若画面标签在各个视频图像帧内的平均面积越大，则对应的排序越靠前。

在S4023中，选取所述画面标签中前N个所述画面标签作为所述视频文件对应的内容标签；所述N为正整数。

在本实施例中，电子设备在获取得的画面标签序列后，可以提取前N个画面标签作为视频文件的内容标签，而后N个画面标签则作为无效标签。由于排序靠后的画面标签出现次数较少，则表示对于视频文件的内容的代表性较差，与背景音乐之间的关联度较差，在该情况下，则无需通过上述代表性较差的画面标签作为确定所需推荐的音频文件的标签，因而识别为无效标签；而出现次数较多，则对于视频文件内容的代表性较高，可以将代表性较高的画面标签作为确定所需推荐的音频文件的标签。

在一种可能的实现方式中，上述N的数值可以为固定值或默认数值，也可以根据视频文件内包含的画面标签的个数进行动态调整。例如，预设标签占比为30％，而视频文件识别得到的标签个数为100，则选取前100*30％＝30个画面标签，作为视频文件的内容标签。

示例性地，图10示出了本申请一实施例提供的内容标签的生成流程示意图。参见图10所示，电子设备识别得视频文件内各个视频图像帧对应的画面标签，如“蓝天”、“海水”等画面标签，继而统计各个画面标签在整个视频文件内的出现次数，例如，“小孩”这一画面标签在视频文件内有12个视频图像帧包含该画面标签，则“小孩”这一画面标签的出现次数即为12，以此类推，确定其他各个画面标签的出现次数，得到如图的画面标签序列。预设的N为5，则选取前5个画面标签(分别为：小孩、沙滩、海水、蓝天以及狗)作为视频文件的内容标签。

在本申请实施例中，通过对视频文件进行解析，分别识别各个视频图像帧包含的画面标签，统计各个画面标签的出现次数，从而能够选取出与推荐音频文件相关度较高的画面标签作为内容标签，能够保证选取音频文件的准确性，减少了无效噪声对于推荐过程的影响。

在S403中，在音乐库内选取与所述内容标签和/或所述事件标签关联的目标音频，并基于所述目标音频生成所述视频文件的音频推荐信息。

在本实施例中，电子设备获取了视频文件两种类型的标签，分别为与拍摄事件相关的事件标签，以及与拍摄内容相关的内容标签。在用户为视频文件挑选背景音乐时，往往有两方面的考虑，分别是要符合当前的拍摄心情或者与拍摄内容吻合等，而单单只是通过对视频文件的画面内容，无法准确地表达拍摄视频文件所需表达的拍摄内容。例如，用户到某一有名的自然景区进行参观，而该自然景区内包含的动植物可能为常见的动植物，只是通过视频文件的画面内容无法准确表达拍摄内容，即无法识别出该自然景区，继而无法准确实现音频文件的推荐。基于此，电子设备除了通过对视频文件的画面内容进行识别外，还获取与拍摄事件相关的标签，通过日期、地点以及拍摄对象等，确定事件标签，通过事件标签以及内容标签，方便电子设备准确确定视频文件的拍摄内容，从而实现推荐与拍摄内容更为相关的音频文件。例如，上述自然景区的例子，通过事件标签，则可以确定视频文件对应的拍摄地点，通过拍摄地点以及画面内容能够确定当前画面具体为一自然景区的动植物，解决了单纯通过画面内容确定拍摄内容的片面性以及不准确性。

在本实施例中，上述音乐库可以存储于电子设备的存储器内，也可以存储于云端，电子设备可以获取音乐库内各个候选音频的音频信息，将各个音频信息与内容标签和/或事件标签进行匹配，选取与内容标签和/或时间标签匹配的候选音频作为目标音频，即需要推荐给用户的音频，生成包含目标音频的音频推荐信息，示例性地，图11示出了本申请一实施例提供的音频推荐信息的示意图。参见图11中的(a)所示，音频推荐信息可以给出各个音频文件关联的封面图像，除了通过音频文件的文件名确定音频文件外，还可以给出对应的封面图像，便于用户了解更多与音频相关的信息。参见图11中的(b)所示，音频推荐信息具体可以为一音频推荐列表，根据各个目标音频与视频文件之间的相关度，确定推荐次序，生成音频推荐列表，其中，与视频文件相关度较高的目标音频其在音频推荐列表中的排序靠前，反之，与视频文件相关度较低的目标音频在音频推荐列表中的排序靠后。在该音频推荐列表中，可以显示目标音频的歌曲名，还可以显示与目标音频相关的其他信息，如歌手、歌曲封面或作曲人等。

在一种可能的实现方式中，音乐库内的各个候选音频关联有对应的音频标签。该音频标签可以根据音频文件的歌曲名、歌词内容以及音乐风格等信息确定。在获取目标音乐时，可以判断音频文件关联的音频标签中是否存在一个或多个在事件标签以及内容标签构成的标签组内，若是，则识别该候选音频为目标音频；反之，则识别该候选音频并非目标音频。

进一步地，作为本申请的另一实施例，在音乐库内选取与所述内容标签和/或所述事件标签关联的目标音频可以至少包含以下两种方式：

方式1：从音乐库中获取与事件标签关联的目标音频。其中，根据事件标签的标签类型不同，选取目标音频的方式又可以细分为两种过程。其中，过程1是当事件标签的标签类型为地点类型，即事件标签具体为拍摄地点时，所采用的选取过程；过程2是当事件标签的标签类型为时间类型，即事件标签具体为拍摄时间时，所采用的选取过程。

需要说明的是，上述事件标签的拍摄地点，具体可以在拍摄视频文件时通过电子设备的定位模块获取拍摄地点。其中，电子设备可以获取拍摄地点的地理信息点(Point ofInformation，POI)，电子设备可以调用第三方地图应用，通过定位模块获取到的位置信息以及第三方定位系统，确定拍摄地点的POI。

在一种可能的实现方式中，图12示出了本申请一实施例提供的拍摄地点的获取示意图。参见图12所示，电子设备可以通过内置的定位模块获取拍摄地点的室外位置信息，以及通过所在拍摄地点场景内的网络设备获取室内位置信息，基于室外位置信息以及室内位置信息生成拍摄地点的位置坐标，将位置坐标通过第三方应用对应的服务器确定位置坐标的逆地址编码以及场景属性，从而获取得到视频文件的拍摄地点以及拍摄点对应的场景属性。例如该拍摄地点是属于公园、商城或是写字楼等类型，以便于更加全面地了解拍摄地点。

方式2：根据事件标签以及内容标签，计算与音乐库内的已有音频之间的匹配度，基于匹配度从已有音频中选取目标音频。

以下具体阐述上面两个过程的具体实现方式：

方式1：基于事件标签确定目标音频：

过程1：参见图13所示，图13示出了本申请另一实施例提供的音频文件的推荐方法中S403的实现流程图。参见图13所示，与图4所示的实施例相比，本实施例中上述的事件标签包含拍摄地点；所述在音乐库内选取与所述内容标签和/或所述事件标签关联的目标音频，具体包括：S1301至S1303中的一个或两个以上，具体描述如下：

在S1301中，获取所述音乐库内各个已有音频的文本信息，将文本信息内包含所述拍摄地点的已有音频作为所述目标音频。

在本实施例中，音乐库内各个已有音频关联有对应的文本信息。该文本信息具体可以包括已有音频对应的歌曲名、歌词、演唱者、作曲人以及填词人等信息。电子设备可以判断上述文本信息内是否包含拍摄视频文件时对应的拍摄地点，若是，则将该文本信息包含拍摄地点的已有音频作为所需推荐的目标音频。由于拍摄视频文件时对应的拍摄地点往往与视频文件的内容主题相关度较高，对于背景音乐的推荐贡献较大，因此，若某一已有音频的文本信息中直接出现视频文件的拍摄地点，在该情况下，该已有音频的推荐优先级也较高，因此可以将上述的已有文件作为目标音频。

举例性地，视频文件对应的拍摄地点为长江，而音乐库内存在一已有音乐为《我的中国心》，该曲目包含一句歌词为“长江、长城、黄山、黄河，在我心中重千斤”，该已有音乐对应的文本信息(即歌词)包含视频文件的事件标签中的拍摄地点，因此，电子设备可以将上述已有音乐《我的中国心》作为目标音频。

在S1302中，获取所述拍摄地点关联的视频片段，将所述视频片段的配乐音频作为所述目标音频。

在本实施例中，音乐库内可以包含不同已有的影视剧目的配乐音频，已有的影视剧目包括但不限于：电影、电视剧、动画番剧、动画电影、短视频等，上述的视频片段具体可以为影视剧目中的某一片段。对于知名的影视剧目，其剧目内经典场景所对应的配乐音频，也往往成为该经典场景所关联地点的“专属配乐”，即部分拍摄地点与剧目的配乐之间具有强相关性，此时，可以将与拍摄地点具有强相关的配乐音频，作为所需推荐的目标音频。

举例性地，经典的影视剧目《上海滩》，大部分的经典场景的拍摄点位于上海外滩。若电子设备所需推荐音频文件的一视频文件的拍摄地点也为上海的外滩，则可以将影视剧目《上海滩》内的配乐音频作为所需推荐的目标音频，例如歌曲《上海滩》。

又例如，经典的动漫番剧《灌篮高手》，该动漫番剧是讲述日本镰仓的中学一篮球队的故事，即《灌篮高手》与镰仓这一地点之间具有强相关性。若视频文件对应的拍摄地点为日本镰仓，则可以将动漫番剧《灌篮高手》内的配乐音乐作为所需推荐的目标音频，例如《直到世界尽头》。

又例如，经典的电影《哈利波特》，有一经典场景是哈利需要通过9又四分之三号站台进入魔法世界，而该场景的拍摄地为英国伦敦的国王十字站，即英国伦敦的国王十字站(宽泛而言，伦敦)与《哈利波特》之间均有强相关性。若视频文件赌赢的拍摄地点为伦敦，进一步而言为国王十字站，则可以将电影《哈利波特》内的配乐作为所需推荐的目标音频。

在一种可能的实现方式中，电子设备可以存储有一影视剧目与拍摄地点之间的对应关系，表1示出了本申请一实施例提供的上述对应关系。如表1所示，该对应关系中记录有影视剧目的剧目名以及关联的配乐音乐。上述配乐音乐可以存储于音乐库内，每个影视剧目可以关联有对应的拍摄地点。在识别得到视频文件的事件标签的拍摄地点后，可以判断视频文件的拍摄地点是否在预先存储的对应关系内，若存在，则将该对应关系中该视频文件的拍摄点对应的影视剧目的配乐音乐，作为所需推荐的配乐音乐。需要说明的是，一个拍摄地点可以对应多个影视剧目。

拍摄地点	剧目名	配乐名
			日本镰仓	《灌篮高手》	《直到世界尽头》
英国伦敦国王十字站	《哈利波特》	《电影哈利波特配乐》
			上海外滩	《上海滩》	《上海滩》

表1

在S1303中，确定所述拍摄地点关联的历史事件，将所述历史事件对应的音频文件作为所述目标音频。

在本实施例中，拍摄地点除了与影视剧目相关外，还可以与部分历史事件相关，电子设备可以根据关联的历史事件的事件类型、发生年代等信息，从音乐库内获取与历史事件对应的音频文件作为所需推荐的目标音频。举例性地，若一历史事件发生于90世纪60年代，则可以从音乐库中选取创作时间或发行时间在90世纪60年代的已有音频作为与该历史事件对应的音频文件；又例如一历史事件为一战争时间，则可以从音乐库中选取与战争相关的已有音乐作为该历史时间对应的音频文件。

例如，在美国的珍珠港，则与历史事件“空袭珍珠港”具有较强的相关性。而上述历史事件具体为一战争事件，则可以从音乐库中选取与战争、爆炸，或音频关键词为“灾难”、“悲壮”的已有音乐，作为所需推荐的目标音频。

在一种可能的实现方式中，对于地点而言，地点相关的历史事件还可以包括历史名人的居住事件，即某一地点可以为某一历史名人的居住地。在该情况下，电子设备可以将该历史名人关联的音频文件作为该地点对应的音频文件。

在本申请实施例中，通过获取视频文件的拍摄地点，通过例如歌词、歌曲名等音频文本、已有的影视剧目以及历史事件等方式，获取与拍摄点相关的音频文件，作为所需推荐的目标音频，能够提高推荐音频搜索方式的多样性以及相关音频搜索的准确性。

过程2：参见图14所示，图14示出了本申请另一实施例提供的音频文件的推荐方法中S403的实现流程图。参见图14所示，与图4所示的实施例相比，本实施例中上述的事件标签包含拍摄日期；所述在音乐库内选取与所述内容标签和/或所述事件标签关联的目标音频，具体包括：S1401至S1403中的一个或两个以上，具体描述如下：

在S1403中，若所述拍摄日期为预设的任一特定日期，则将所述特定日期关联的音频文件作为所述目标音频。

在本实施例中，电子设备可以预先存储有多个特定日期，上述特定日期包括但不限于：公众假期或具有特殊意义的日期。举例性地，上述特征日期可以为：圣诞节、儿童节、中秋节等公众假期，还可以为如11月11日，该日期有“购物节”、“光棍节”等特殊意义；又例如，拍摄日期对应一周的周末或周中的某个日期，可以对应歌词包含周末或周中的音频文件，例如歌词包含星期一，则可以作为拍摄日期为星期一关联的音频文件。电子设备可以为各个特定日期配置关联的音频文件，建立特定日期与音频文件之间的对应关系。每个特定日期可以关联有一个或两个以上关联的音频文件。

示例性地，表2示出了本申请一实施例提供的特定日期与音频文件之间的对应关系表。参见表2所示，部分具有特殊意义的日期可以关联有对应的音频文件，上述具有特殊意义的日期可以为公众假期等，一个特定日期可以关联有一个或多个音频文件，例如农历新年则可以对应两个音频文件。

特定日期	关联曲目
		圣诞节	《Merry Christmas》
农历新年	《新年好》《恭喜发财》
		国庆节	《好日子》

表2

在本实施例中，电子设备在确定了视频文件的拍摄日期后，可以通过查询上述对应关系，确定该拍摄日期关联的音频文件，并将该音频文件作为所需推荐的目标音频。

进一步地，作为本申请的另一实施例，在S1403之前，还可以包括S1401以及S1402，具体描述如下：

在S1401中，获取当前登录的用户账户的用户信息。

在本实施例中，部分特定日期属于私人相关的日期，即对于不同人而言是不同的，对于私人的特定日期并不具有泛用性，需要结合电子设备所属用户的用户信息进行确定。例如，生日日期、结婚纪念日、与恋人的相识纪念日。基于此，电子设备在确定特定日期之前，可以首先获取电子设备当前登录的用户账户预先登记的用户信息。

在一种可能的实现方式中，上述用户信息可以包含出生日期、结婚日期、父母的生日日期、配偶的生日日期等。

在本实施例中，当前登录的用户账户具体为电子设备在对视频文件进行编辑时，电子设备登录的用户账户。该用户账户可以为视频文件编辑应用程序所登录的用户账户，还可以为电子设备的设备系统中已登录的用户账户。

在S1402中，基于所述用户信息确定所述特定日期。

在本实施例中，电子设备可以存储有多个特定日期的日期类型，根据用户信息以及上述的日期类型，确定特定日期的具体日期。

举例性地，上述特定日期的日期类型为生日类型，则电子设备可以从用户信息中获取当前登录的用户的出生日期，基于出生日期确定每年生日类型的具体日期，即上述的特定日期。

在本实施例中，对于每个与用户私人相关的特定日期，还可以关联有对应的音频文件，上述与特定日期关联的音频文件可以由系统默认设置，也可以为通过用户手动进行配置。例如，若某一特定日期为用户生日，则可以将《生日快乐》作为该特定日期关联的音频文件；还可以将用户喜欢的歌曲设置为与用户生日关联的音频文件，如用户设置《少年》作为该用户生日关联的音频文件。

在本申请实施例中，通过确定视频文件的拍摄日期，判断该拍摄日期是否在预设的特定日期中，若是，则将该特定日期关联的音频文件作为所需推荐的目标音频，从而提高了目标音频选取方式的多样性，以及与视频文件相关音频搜索的准确性。

方式2：根据事件标签以及内容标签，计算与音乐库内的已有音频之间的匹配度，基于匹配度从已有音频中选取目标音频。参见图15所示，图15示出了本申请另一实施例提供的音频文件的推荐方法中S403的具体实现流程图。参见图15所示，与图4所示的实施例相比，所述在音乐库内选取与所述内容标签和/或所述事件标签关联的目标音频，具体包括：S1501～S1504，具体描述如下：

在S1501中，将所述内容标签以及所述事件标签，生成所述视频文件对应的初始标签序列。

在本实施例中，电子设备可以将与视频内容相关的内容标签以及与拍摄事件相关的事件标签进行封装，生成视频文件对应的初始标签序列。该初始标签序列包含内容标签以及事件标签。

在一种可能的实现方式中，电子设备可以将内容标签以及事件标签进行聚类后，生成初始标签序列。其中，聚类的方式具体可以为将内容标签以及事件标签中意义相同或相近的标签进行合并，并基于合并后的标签生成初始标签序列。举例性地，拍摄事件对应的事件标签内包含有拍摄日期，而拍摄日期具体到拍摄时间，例如为9月20日白天，而通过对视频文件的视频图像帧进行解析后，获得一内容标签为白天，则可以将“9月20日白天”这一事件标签与“白天”这一内容标签进行合并，合并为“9月20日白天”，从而减少了标签的个数，避免无效的匹配操作。

举例性地，表3示出了本申请一实施例提供的初始标签序列对应的表格。参见表3所示，事件标签包含两个，分别为拍摄地点以及拍摄日期，具体为“三亚沙滩”及“2019/07/05 14:30”；而内容标签则包含五个，电子设备除了确定各个内容标签对应的拍摄内容外，还可以根据拍摄内容的类型，确定该内容标签对应的标签类型，例如内容标签“小孩”，对应的初始标签类型为“人物”，并统计各个标签类型在所有视频图像帧中出现的比例，即上述的标签占比，例如内容标签“小孩”的标签占比为25％，即表示在视频文件中，出现“小孩”这一拍摄内容的视频图像帧占所有视频图像帧的25％，若视频文件包含100帧，则包含“小孩”的视频图像帧的帧数具体可以为25帧。

表3

在S1502中，基于预设的标签映射算法，生成所述初始标签序列对应的映射标签序列；所述映射标签序列内的各个标签配置关联的权重值。

在本实施例中，该标签库存储有多个已有标签，并且每个已有标签根据背景音乐之间的相关性，可以配置对应的权重值，若已有标签与背景音乐之间的相关性较高，则预先配置的权重值较大；反之，若已有标签与背景音乐之间的相关性较低，则预先配置的权重值较小。需要说明的是，该标签库可以存储于电子设备的存储器内，也可以存储于云端服务器。

在一种可能的实现方式中，若标签库存储与云端服务器，则电子设备可以将生成的初始标签序列通过与云端服务器之间的通信链路，发送给云端服务器，云端服务器在接收到初始标签序列后，可以基于存储的标签库，对初始标签序列内的各个标签进行映射，确定各个初始标签序列中标签在标签库内关联的已有标签，并生成映射标签序列。云端服务器可以将生成的映射标签序列反馈给电子设备，也可以在确定完成目标音频后，将确定的目标音频反馈给电子设备，以便电子设备接收到目标音频后，生成音频推荐信息。

在本实施例中，电子设备可以将初始标签序列内的各个标签与标签库内的各个已有标签进行映射，即确定初始标签序列中各个标签关联的已有标签，并基于映射后的各个已有标签，生成视频文件对应的映射标签序列，其中，映射标签序列中包含的标签为标签库内的任一已有标签。由于标签库内的已有标签已预先配置有对应的权重值，则可以在生成上述映射标签序列时，将各个已有标签关联的权重值封装在上述的映射标签序列内。

在一种可能的实现方式中，电子设备识别得到的初始标签序列中的标签的粒度可以较细，而标签库内的已有标签的粒度较粗，在该情况下，通过执行标签映射，能够对初始标签序列内标签进行聚类，并且筛选无效的分类标签。

示例性地，图16示出了本申请一实施例提供的映射标签序列的生成示意图。参见图16所示，初始标签序列内包含的标签具体如表3所示，确定初始标签序列内各个标签在标签库内关联的已有标签，例如对于初始标签序列一事件标签“三亚海滩”，其关联的标签类型为“拍摄地点”，标签内容为“三亚海滩”，则通过预设的标签映射算法映射至映射标签序列后，其标签内容保持不变，依然为“三亚海滩”，而标签类型则从细化的“拍摄地点”同一配置聚类为“场景”，并基于预设的标签类型，确定该标签在映射标签序列中关联的权重值，例如，对于场景类型的标签，在映射标签序列中关联的权重值为0.8，而对于天气类型的标签，在映射标签序列中关联的权重值为0.2。若初始标签序列内的任一标签在标签映射算法内不存在关联的标签类型，则将该初始标签识别为无效标签，例如图16中的“小狗-物体”，通过标签映射算法无法确定关联的映射标签，这将该初始标签的标签类型配置为忽略，不对忽略的映射标签配置关联的权重值，或将忽略的映射标签的权重值设置为0。

在S1503中，基于所述映射标签序列内各个标签的权重值，计算所述音乐库内各个已有音频的匹配度。

在本实施例中，电子设备在确定了映射标签序列内各个标签的权重值后，可以判断音乐库内各个已有音频是否包含映射标签序列内的任一标签，其中，已有音频包含映射标签序列的方式具体为：已有音频可以关联有多个音频标签，以及已有音频关联有文本信息(如歌曲名、歌词等)，判断音频标签与文本信息内是否包含映射标签序列内的任一标签，若包含，则基于所包含的标签关联的权重值，计算该已有音频的匹配度。

举例性地，若音频库内一已有音频关联的音频标签为“流行音乐”、“三亚沙滩”、“蓝天”以及“轻松”，包含映射标签序列内的两个标签，分别为“三亚沙滩-场景”以及“蓝天-天气”，则基于上述两个标签关联的权重值，分别为0.8以及0.2，计算得到该已有音频的匹配度，例如基于两个标签的权重值进行叠加，0.8+0.2＝1。

可选地，在计算匹配度时可以代入映射标签在视频文件中所占的视频图像帧的比例，得到对应的加权值，从而计算得到该已有音频的匹配度。

在S1504中，基于所述匹配度从所述已有音频中确定所述目标音频。

在本实施例中，电子设备在计算了各个已有音频与映射标签序列之间的匹配度后，可以根据匹配度从已有音频中确定目标音频。由于上述匹配度可以表征已有音频与视频内容之间的相关度，若该匹配度越高，则该已有音频与视频内容之间的相关度越大；反之，若该匹配度越低，则该已有音频与视频内容之间的相关度越小。

在一种可能的实现方式中电子设备可以选取匹配度大于预设的匹配阈值的已有音频作为目标音频；也可以根据匹配度从大到小的次序，对各个已有音频进行排序，并选取前M个已有音频作为目标音频，其中，M为任一正整数。

进一步地，作为本申请的另一实施例，上述选取目标音频的方式具体可以包括：

S1.选取所述匹配度大于预设的匹配阈值的已有音频作为候选音频。

S2.基于当前登录的用户账户的用户信息，确定所述用户账户的用户特征。

S3.若任一所述候选音频与所述用户特征匹配，则将所述候选音频作为所述目标音频。

在本实施例中，电子设备除了根据匹配度选取目标音频外，还可以根据用户的偏好确定目标音频。在该情况下，电子设备可以根据计算得到匹配度，从音乐库中对所有已有音频进行筛选，选取出匹配度大于预设的匹配阈值的已有音频作为候选音频。由于匹配度可以确定已有音频与视频文件之间的相关度，通过匹配度可以筛选出与视频文件具有较强相关性的候选音频。

继而，电子设备可以获取当前登录的用户账户的用户信息。上述用户信息具体用于确定该用户对于音乐选取的偏好。

在一种可能的实现方式中，电子设备在获取用户信息之前，需要首先获取用户的授权信息。电子设备可以输出一授权提示框，若接收到用户基于所述授权提示框反馈的同意授权操作，则从用户账户处获取用户信息。

在本实施例中，上述用户信息具体可以包括：用户账户的播放记录和/或预先配置的音乐偏好，电子设备可以根据各个播放记录对应的音频文件，确定用户的音乐偏好，或者直接用过用户预先配置信息，确定用户的音乐偏好，基于用户账户的音乐偏好确定用户账户的用户特征，举例性地，上述用户特征具体可以为用户偏好的音乐类型。

在本实施例中，电子设备可以判断选取得到的候选音频与用户特征是否匹配，例如该候选音频的音乐类型是否为用户特征记载的音乐类型一致，若是，则将匹配的候选音乐作为所需推荐的目标音频。

在本申请实施例中，通过获取用户账户的用户特征，以及根据匹配度以及用户特征选取出目标音频，能够提高目标音频选取的准确性。

在本申请实施例中，通过对已识别的事件标签以及内容标签进行映射，得到映射标签序列，从而计算出与各个已有音频之间的匹配度，基于匹配度选取出目标音频，能够选取出与视频内容相关联的目标音频，提高了目标音频选取的准确性。

以上即为选取目标音频的两种实现方式的具体描述。

在一种可能的实现方式中，电子设备可以采用方式1或方式2中的一种，确定所需推荐的目标音频，也可以同时采用上述两种方式确定目标音频。

若电子设备采用上述两种方式确定目标音频，则可以为不同的获取方式配置对应的判定优先级。

在一种可能的实现方式中，电子设备可以首先采用方式1，从音乐库内获取与拍摄地点或拍摄日期匹配的目标音频，然后采用方式2，即通过事件标签以及内容标签计算已有音频的匹配度的方式确定目标音频。即方式1的判定优先级高于方式2的判定优先级，其中，通过方式1选取的目标音频可以从音乐库中暂时移除，避免在通过方式2进行判定时，进行重复识别。

举例性地，音乐库内包含曲目1、曲目2以及曲目3。若曲目1的歌词内包含有视频文件的拍摄地点，则电子设备在执行方式1的判定操作时，会将曲目1识别为目标音频。在执行方式2的判定操作时，可以将曲目1从音乐库中移除，即执行方式2时，音乐库内包含曲目2以及曲目3，从而避免了不必要的判定操作。

在一种可能的实现方式中，电子设备可以首先采用方式2，通过事件标签以及内容标签计算已有音频的匹配度的方式确定目标音频，然后采用方式1，从音乐库内获取与拍摄地点或拍摄日期匹配的目标音频。即方式2的判定优先级高于方式1的判定优先级，其中，通过方式2选取的目标音频可以从音乐库中暂时移除，避免在通过方式1进行判定时，进行重复识别。

进一步地，作为本申请的另一实施例，在执行S403之前，电子设备可以生成与当前使用的用户账户相关的音乐库。图17示出了本申请实施例提供了一种音频文件的推荐方法的实现流程图。如图17所示，与图4所示的实施例相比，本申请实施例在S403之前，还包括：S1701～S1703，具体描述如下：

在S1701中，若存储有当前登录的用户账户的授权信息，则获取所述用户账户的操作记录。

在本实施例中，电子设备可以获取当前登录的用户账户的授权信息。示例性地，图18示出了本申请一实施例提供的授权信息的获取示意图。参见图18所示，电子设备在用户启动视频编辑应用时，可以输出一授权获取弹窗，该授权获取弹窗包含两个控件，分别为同意授权控件181，以及拒绝授权控件182，其中，电子设备在若接收到关于同意授权控件181的点击操作，则确定用户同意获取用户账户的隐私信息，例如用户信息以及操作记录等，生成上述的授权信息并进行存储；反之，若接收到关于拒绝授权控件182的点击操作，则确定用户拒绝获取用户账户的隐私信息，即并不生成上述的授权信息。

在本实施例中，用户账户的操作记录可以存储于本地的存储器内，也可以存储于云端服务器。电子设备在检测到存储有用户账户的授权信息时，可以基于授权信息获取得到用户账户的操作记录，该用户账户的操作记录包括但不限于：音频播放记录、音乐视频浏览记录、音乐网站浏览记录以及视频文件的编辑记录(对于视频文件的编辑记录可以包括对于背景音频的选取操作的记录)等。

在S1702中，基于所述操作记录生成所述用户账户的用户特征。

在本实施例中，电子设备在获得用户账户多个操作记录后，可以根据多个操作记录确定用户账户对应的用户特征，该用户特征具体用于表示用户账户对于音乐的偏好。

在一种可能的实现方式中，电子设备可以确定操作记录关联的已播放的音频文件，并识别各个音频文件的音乐分类，继而统计各个预设的音乐分类对应的播放次数；选取播放次数最多或大于预设阈值的音乐分类，作为用户账户偏爱的音乐分类，得到用户特征。

在S1703中，从数据库内提取与所述用户特征匹配的已有音乐，生成所述音乐库。

在本实施例中，数据库内可以存储有大量的音频文件，每个音频文件可以关联有对应的音乐分类。电子设备可以根据识别得到用户特征，确定用户偏好的音乐分类，并从数据库中选取与上述用户特征相匹配的音乐分类作为已有音频，基于所有选取的已有音频生成用户账户关联的音乐库。

在一种可能的实现方式中，若数据库存储于云端服务器，则电子设备可以将用户特征发送给云端服务器，云端服务器在接收到用户特征后，可以在云端存储的数据库中选取与用户特征匹配的音频文件作为上述的已有音频，并基于所有已有音频在云端服务器处创建用户账户关联的音乐库。

在本申请实施例中，通过获取当前登录的用户账户的操作记录，确定用户选取音乐的偏好，并生成用户账户对应的音乐库，能够提高推荐音频文件选取的准确性。

在一种可能的实现方式中，若音乐库存储于云端服务器，则选取目标音频的操作可以交由云端服务器完成。在该情况下，电子设备可以将识别得到的事件标签以及内容标签发送给云端服务器，云端服务器可以根据电子设备反馈的事件标签以及内容标签识别得到电子设备。示例性地，图19示出了本申请一实施例提供的电子设备与云端服务器之间的交互流程图。参见图19所示，实现的交互过程如下：

1.电子设备可以首先获取视频文件的事件标签，其中，事件标签可以包含拍摄地点以及拍摄日期。

2.与此同时，电子设备可以对视频文件进行解析，确定视频文件各个视频图像帧包含的内容标签，基于语义理解算法以及识别得到的多个内容标签，生成用于表达视频文件内容的描述语段。

3.根据识别得到的事件标签以及内容标签(也可以为通过语义理解得到的描述语段)，对所有标签进行汇聚。

4.将汇聚得到标签发送给云端服务器，以通过云端服务器确定目标音频。

5.云端服务器在获取得到汇聚的标签后，可以从音乐库(即音乐服务应用)中搜索匹配的目标音频。其中，搜索目标音频的方式可以分为两种方式，一种是在用户已登录且获取得到隐私授权的情况下，可以获取用户的操作记录，确定用户特征(即用户偏好)，基于用户特征以及标签进行大数据推荐，得到目标音频；另一种方式是在用户未登录或未获得隐私授权的情况下，可以直接根据汇聚的标签进行大数据搜索，得到目标音频。

6.云端服务器将选取的目标音频发送给电子设备。

7.电子设备根据反馈的目标音频生成音频推荐信息。

特别地，对于上述步骤2至4，具体识别方式可以参见图20所示，图20示出了本申请一实施例提供的内容标签的生成示意图。电子设备可以将视频文件传输给图像信号处理单元，通过图像信号处理单元ISP对视频文件内的每帧视频图像帧进行解析，通过动作识别算法、场景识别算法、人脸检测算法以及人脸属性算法确定视频图像帧内包含的内容标签，其中，动作识别算法需要导入当前识别的视频图像帧以及缓存的多个关联的视频图像帧进行识别，进行动作检测，确定与动作相关的标签，并将识别得到内容标签统一反馈给摄像模块驱动，对内容标签进行汇聚，并反馈给摄像模块应用程序包，其中，摄像模块应用程序包还可以从摄像模块处获取事件标签，并将内容标签以及事件标签生成初始标签序列，并发送给图库应用程序包，图库应用程序包可以将初始标签序列进行映射，得到映射标签序列，并反馈给云端服务器的音乐应用，计算各个已有音频的匹配度，从而确定目标音频。

以上可以看出，本申请实施例提供的一种音频文件的推荐方法可以在需要生成视频文件关联的音频文件时，获取拍摄视频文件的拍摄事件对应的视频标签，以及基于视频文件的拍摄内容得到内容标签，通过视频标签以及内容标签从音乐库中提取关联的目标音频，生成视频文件关联的音频推荐信息，以实现个性化推荐的目的。与现有的音频文件的推荐技术相比，本申请实施例不仅可以根据视频内容生成对应的内容标签，还能够生成与拍摄事件相关的事件标签，从而通过上述两种类型的标签查找目标音频。提高了目标音频选取的准确性，在进行个性化推荐音频文件的同时，还能够实现精准推送，提升了用户的使用体验，也提高了推荐的音频文件与视频文件之间的相关度。

应理解，上述实施例中各步骤的序号的大小并不意味着执行顺序的先后，各过程的执行顺序应以其功能和内在逻辑确定，而不应对本申请实施例的实施过程构成任何限定。

实施例二：

对应于上文实施例所述的音频文件的推荐方法，图21示出了本申请实施例提供的音频文件的推荐装置的结构框图，为了便于说明，仅示出了与本申请实施例相关的部分。

参照图21，该音频文件的推荐装置包括：

事件标签获取单元211，用于获取视频文件对应的拍摄事件的事件标签；

内容标签获取单元212，用于对所述视频文件进行解析，获得所述视频文件对应的内容标签；

音频推荐信息生成单元213，用于在音乐库内选取与所述内容标签和/或所述事件标签关联的目标音频，并基于所述目标音频生成所述视频文件的音频推荐信息。

可选地，所述事件标签包含拍摄地点；所述音频推荐信息生成单元213包括：

音频文本匹配单元，用于获取所述音乐库内各个已有音频的文本信息，将文本信息内包含所述拍摄地点的已有音频作为所述目标音频；和/或

视频片段匹配单元，用于获取所述拍摄地点关联的视频片段，将所述视频片段的配乐音频作为所述目标音频；和/或

历史事件匹配单元，用于确定所述拍摄地点关联的历史事件，将所述历史事件对应的音频文件作为所述目标音频。

可选地，所述事件标签包含拍摄日期；所述音频推荐信息生成单元213具体用于：

可选地，音频文件的推荐装置还包括：

用户信息获取单元，用于获取当前登录的用户账户的用户信息；

特定日期确定单元，用于基于所述用户信息确定所述特定日期。

可选地，所述音频推荐信息生成单元213包括：

初始标签序列生成单元，用于将所述内容标签以及所述事件标签，生成所述视频文件对应的初始标签序列；

映射标签序列生成单元，用于基于预设的标签映射算法，生成所述初始标签序列对应的映射标签序列；所述映射标签序列内的各个标签配置关联的权重值；

匹配度计算单元，用于基于所述映射标签序列内各个标签的权重值，计算所述音乐库内各个已有音频的匹配度；

匹配度识别单元，用于基于所述匹配度从所述已有音频中确定所述目标音频。

可选地，所述匹配度识别单元包括：

候选音频选取单元，用于选取所述匹配度大于预设的匹配阈值的已有音频作为候选音频；

用户特征获取单元，用于基于当前登录的用户账户的用户信息，确定所述用户账户的用户特征；

用户特征匹配单元，用于若任一所述候选音频与所述用户特征匹配，则将所述候选音频作为所述目标音频。

可选地，所述内容标签获取单元212包括：

画面标签确定单元，用于确定所述视频文件的每一视频图像帧包含的画面标签；

出现次数统计单元，用于分别统计各个所述画面标签在所述视频文件的所有所述视频图像帧中的出现次数，并基于所述出现次数从到小的次序，对各个所述画面标签进行排序，得到画面标签序列；

内容标签选取单元，用于选取所述画面标签中前N个所述画面标签作为所述视频文件对应的内容标签；所述N为正整数。

可选地，其特征在于，音频文件的推荐装置还包括：

操作记录获取单元，用于若存储有当前登录的用户账户的授权信息，则获取所述用户账户的操作记录；

操作记录解析单元，用于基于所述操作记录生成所述用户账户的用户特征；

音乐库生成单元，用于从数据库内提取与所述用户特征匹配的已有音乐，生成所述音乐库。

因此，本申请实施例提供的音频文件的推荐装置同样可以通过获取包含拍摄对象的原始图像，从原始图像中确定皮肤区域图像，根据该皮肤区域图像内各个像素点的像素值，得到每个像素点关联的皮肤敏感度，并根据确定得到的皮肤敏感度调整原始图像内对应像素点的像素值，从而生成敏感度分布示意图，从而用户能够在敏感度分布示意图中了解整体皮肤敏感度的同时，也能够确定每个局部皮肤对应的敏感度。与现有的皮肤检测技术相比，生成的敏感度分布示意图是基于原始图像通过调整像素点的像素值后生成的，因此，皮肤区域的轮廓与原始图像是一致的，通过查看敏感度分布示意图可以确定各个局部区域对应的敏感度，提高了显示效果；另一方面，由于敏感度分布示意图的生成过程只需通过包含摄像模块的电子设备即可完成，也无需用户去到特定的医疗机构完成，大大提高了皮肤敏感度获取的便捷性，以及降低了获取难度，提高了皮肤检测的效率。

图22为本申请一实施例提供的电子设备的结构示意图。如图22所示，该实施例的电子设备22包括：至少一个处理器220(图22中仅示出一个)处理器、存储器221以及存储在所述存储器221中并可在所述至少一个处理器220上运行的计算机程序222，所述处理器220执行所述计算机程序222时实现上述任意各个音频文件的推荐方法实施例中的步骤。

所述电子设备22可以是桌上型计算机、笔记本、掌上电脑及云端服务器等计算设备。该电子设备可包括，但不仅限于，处理器220、存储器221。本领域技术人员可以理解，图22仅仅是电子设备22的举例，并不构成对电子设备22的限定，可以包括比图示更多或更少的部件，或者组合某些部件，或者不同的部件，例如还可以包括输入输出设备、网络接入设备等。

所称处理器220可以是中央处理单元(Central Processing Unit，CPU)，该处理器220还可以是其他通用处理器、数字信号处理器(Digital Signal Processor，DSP)、专用集成电路(Application Specific Integrated Circuit，ASIC)、现成可编程门阵列(Field-Programmable Gate Array，FPGA)或者其他可编程逻辑器件、分立门或者晶体管逻辑器件、分立硬件组件等。通用处理器可以是微处理器或者该处理器也可以是任何常规的处理器等。

所述存储器221在一些实施例中可以是所述电子设备22的内部存储单元，例如电子设备22的硬盘或内存。所述存储器221在另一些实施例中也可以是所述电子设备22的外部存储设备，例如所述电子设备22上配备的插接式硬盘，智能存储卡(Smart Media Card,SMC)，安全数字(Secure Digital,SD)卡，闪存卡(Flash Card)等。进一步地，所述存储器221还可以既包括所述电子设备22的内部存储单元也包括外部存储设备。所述存储器221用于存储操作系统、应用程序、引导装载程序(BootLoader)、数据以及其他程序等，例如所述计算机程序的程序代码等。所述存储器221还可以用于暂时地存储已经输出或者将要输出的数据。

需要说明的是，上述装置/单元之间的信息交互、执行过程等内容，由于与本申请方法实施例基于同一构思，其具体功能及带来的技术效果，具体可参见方法实施例部分，此处不再赘述。

所属领域的技术人员可以清楚地了解到，为了描述的方便和简洁，仅以上述各功能单元、模块的划分进行举例说明，实际应用中，可以根据需要而将上述功能分配由不同的功能单元、模块完成，即将所述装置的内部结构划分成不同的功能单元或模块，以完成以上描述的全部或者部分功能。实施例中的各功能单元、模块可以集成在一个处理单元中，也可以是各个单元单独物理存在，也可以两个或两个以上单元集成在一个单元中，上述集成的单元既可以采用硬件的形式实现，也可以采用软件功能单元的形式实现。另外，各功能单元、模块的具体名称也只是为了便于相互区分，并不用于限制本申请的保护范围。上述系统中单元、模块的具体工作过程，可以参考前述方法实施例中的对应过程，在此不再赘述。

本申请实施例还提供了一种电子设备，该电子设备包括：至少一个处理器、存储器以及存储在所述存储器中并可在所述至少一个处理器上运行的计算机程序，所述处理器执行所述计算机程序时实现上述任意各个方法实施例中的步骤。

本申请实施例还提供了一种计算机可读存储介质，所述计算机可读存储介质存储有计算机程序，所述计算机程序被处理器执行时实现可实现上述各个方法实施例中的步骤。

本申请实施例提供了一种计算机程序产品，当计算机程序产品在移动终端上运行时，使得移动终端执行时实现可实现上述各个方法实施例中的步骤。

所述集成的单元如果以软件功能单元的形式实现并作为独立的产品销售或使用时，可以存储在一个计算机可读取存储介质中。基于这样的理解，本申请实现上述实施例方法中的全部或部分流程，可以通过计算机程序来指令相关的硬件来完成，所述的计算机程序可存储于一计算机可读存储介质中，该计算机程序在被处理器执行时，可实现上述各个方法实施例的步骤。其中，所述计算机程序包括计算机程序代码，所述计算机程序代码可以为源代码形式、对象代码形式、可执行文件或某些中间形式等。所述计算机可读介质至少可以包括：能够将计算机程序代码携带到拍照装置/电子设备的任何实体或装置、记录介质、计算机存储器、只读存储器(ROM，Read-Only Memory)、随机存取存储器(RAM，RandomAccess Memory)、电载波信号、电信信号以及软件分发介质。例如U盘、移动硬盘、磁碟或者光盘等。在某些司法管辖区，根据立法和专利实践，计算机可读介质不可以是电载波信号和电信信号。

在上述实施例中，对各个实施例的描述都各有侧重，某个实施例中没有详述或记载的部分，可以参见其它实施例的相关描述。

本领域普通技术人员可以意识到，结合本文中所公开的实施例描述的各示例的单元及算法步骤，能够以电子硬件、或者计算机软件和电子硬件的结合来实现。这些功能究竟以硬件还是软件方式来执行，取决于技术方案的特定应用和设计约束条件。专业技术人员可以对每个特定的应用来使用不同方法来实现所描述的功能，但是这种实现不应认为超出本申请的范围。

在本申请所提供的实施例中，应该理解到，所揭露的装置/网络设备和方法，可以通过其它的方式实现。例如，以上所描述的装置/网络设备实施例仅仅是示意性的，例如，所述模块或单元的划分，仅仅为一种逻辑功能划分，实际实现时可以有另外的划分方式，例如多个单元或组件可以结合或者可以集成到另一个系统，或一些特征可以忽略，或不执行。另一点，所显示或讨论的相互之间的耦合或直接耦合或通讯连接可以是通过一些接口，装置或单元的间接耦合或通讯连接，可以是电性，机械或其它的形式。

所述作为分离部件说明的单元可以是或者也可以不是物理上分开的，作为单元显示的部件可以是或者也可以不是物理单元，即可以位于一个地方，或者也可以分布到多个网络单元上。可以根据实际的需要选择其中的部分或者全部单元来实现本实施例方案的目的。

以上所述实施例仅用以说明本申请的技术方案，而非对其限制；尽管参照前述实施例对本申请进行了详细的说明，本领域的普通技术人员应当理解：其依然可以对前述各实施例所记载的技术方案进行修改，或者对其中部分技术特征进行等同替换；而这些修改或者替换，并不使相应技术方案的本质脱离本申请各实施例技术方案的精神和范围，均应包含在本申请的保护范围之内。

Claims

1.一种音频文件的推荐方法，其特征在于，包括：

获取视频文件对应的拍摄事件的事件标签；

2.根据权利要求1所述的推荐方法，其特征在于，所述事件标签包含拍摄地点；所述在音乐库内选取与所述内容标签和/或所述事件标签关联的目标音频，包括：

3.根据权利要求1所述的推荐方法，其特征在于，所述事件标签包含拍摄日期；所述在音乐库内选取与所述内容标签和/或所述事件标签关联的目标音频，包括：

4.根据权利要求3所述的推荐方法，其特征在于，在所述若所述拍摄日期为预设的任一特定日期，则将所述特定日期关联的音频文件作为所述目标音频之前，还包括：

获取当前登录的用户账户的用户信息；

基于所述用户信息确定所述特定日期。

5.根据权利要求1所述的推荐方法，其特征在于，所述在音乐库内选取与所述内容标签和/或所述事件标签关联的目标音频，包括：

基于所述匹配度从所述已有音频中确定所述目标音频。

6.根据权利要求5所述的推荐方法，其特征在于，所述基于所述匹配度从所述已有音频中确定所述目标音频，包括：

7.根据权利要求1-6任一项所述的推荐方法，其特征在于，所述对所述视频文件进行解析，获得所述视频文件对应的内容标签，包括：

确定所述视频文件的每一视频图像帧包含的画面标签；

8.根据权利要求1-6任一项所述的推荐方法，其特征在于，在所述在音乐库内选取与所述内容标签和/或所述事件标签关联的目标音频之前，还包括：

基于所述操作记录生成所述用户账户的用户特征；

9.一种音频文件的推荐装置，其特征在于，包括：

10.一种电子设备，包括存储器、处理器以及存储在所述存储器中并可在所述处理器上运行的计算机程序，其特征在于，所述处理器执行所述计算机程序时实现如权利要求1至8任一项所述的方法。

11.一种计算机可读存储介质，所述计算机可读存储介质存储有计算机程序，其特征在于，所述计算机程序被处理器执行时实现如权利要求1至8任一项所述的方法。