CN113767644B

CN113767644B - 自动的音频-视频内容生成

Info

Publication number: CN113767644B
Application number: CN202080030878.3A
Authority: CN
Inventors: 克里斯多夫·沃谢
Original assignee: Sokolipu Co
Current assignee: Sokolipu Co
Priority date: 2019-04-22
Filing date: 2020-04-21
Publication date: 2024-01-09
Anticipated expiration: 2040-04-21
Also published as: WO2020216751A1; CN113767644A; US11915723B2; US20210319808A1; US11062736B2; US20200335133A1; EP3959896A1

Abstract

用于生成媒体内容的系统和方法包括处理音频文件以确定所述音频文件的一个或更多个参数。基于与所述音频文件相关联的皮肤，来确定对应于所述音频文件的一个或更多个参数的一个或更多个媒体效果。对媒体文件施加所述一个或更多个媒体效果以生成经修改的媒体文件，其中，所述媒体文件不包括所述音频文件。生成包括所述音频文件与所述经修改的媒体文件的组合的音频‑视频文件。

Description

自动的音频-视频内容生成

相关申请的交叉引用

本申请要求于2019年4月22日提交的美国临时申请第62/837,122号的权益，通过引用将其全部内容合并于此并用于所有目的。

技术领域

本发明一般性地涉及用于视频编辑的平台，具体地说，涉及一种用于使用基于音乐的视频编辑来生成媒体内容的自适应计算机模型。

背景技术

常规的音频-视频内容编辑要求专门的软件来实施。而且，如何编辑音频-视频内容要求经验和专业知识，以理解如何基于内容的伴音部分来恰当地对内容的视频部分实施编辑。随着音频-视频内容的受欢迎程度，例如在与他人分享内容时，需要提供允许普通大众能够编辑音频-视频内容的方式。

发明内容

公开了用于自动编辑/生成音频-视频内容的系统和方法，其中，可对音频-视频内容的音频部分进行处理以辨识可被用于施加媒体效果的各个元素。音频文件(例如歌曲、音乐等)、不包括该音频文件的媒体文件(例如照片、视频、图像等)和用于施加媒体效果的模板/策略(被称作皮肤)可被用于自动生成音频-视频内容，例如音乐视频剪辑。可对音频文件进行处理以确定参数或元素，比如能量水平一致的节段、过渡、节拍(每分钟节拍数、主节拍、鼓节拍的类型等)，并且皮肤可基于音频文件的这些参数自动地对媒体文件施加媒体效果，以生成音频-视频文件。例如，长的过渡可被更多地应用于平静和缓慢的音乐(对应于低能量的节段)，而较短的过渡可被更多地应用于快速和有力的音乐(对应于高能量或每分钟节拍数多的节段)。

在一些例子中，描述了一种生成媒体内容的方法。所述方法包括处理音频文件以确定音频文件的一个或更多个参数；基于与所述音频文件相关联的皮肤来确定与所述音频文件的一个或更多个参数对应的一个或更多个媒体效果；对媒体文件施加所述一个或更多个媒体效果，以生成经修改的媒体文件，其中，所述媒体文件不包括音频文件；以及，生成包括所述音频文件与所述经修改的媒体文件的组合的音频-视频文件。

在一些例子中，描述了一种系统。所述系统包括一个或更多个处理器；和包含指令的非暂态计算机可读存储介质，所述指令当在所述一个或更多个处理器上执行时使得所述一个或更多个处理器实施操作以生成媒体内容，所述操作包括：处理音频文件以确定所述音频文件的一个或更多个参数；基于与所述音频文件相关联的皮肤来确定与所述音频文件的一个或更多个参数对应的一个或更多个媒体效果；对媒体文件施加所述一个或更多个媒体效果，以生成经修改的媒体文件，其中，所述媒体文件不包括音频文件；以及，生成包括所述音频文件与所述经修改的媒体文件的组合的音频-视频文件。

在一些例子中，描述了一种非暂态计算机可读介质，所述非暂态计算机可读介质被描述为其上存储有指令，所述指令当被一个或更多个处理器执行时使得所述一个或更多个处理器：处理音频文件以确定所述音频文件的一个或更多个参数；基于与所述音频文件相关联的皮肤来确定与所述音频文件的一个或更多个参数对应的一个或更多个媒体效果；对媒体文件施加所述一个或更多个媒体效果，以生成经修改的媒体文件，其中，所述媒体文件不包括音频文件；以及，生成包括所述音频文件与所述经修改的媒体文件的组合的音频-视频文件。

一些例子还包括基于由第一用户界面接收第一用户输入来从一个或更多个图像、照片或视频获得媒体文件。在一些例子中，所述第一用户界面包括用于显示所述一个或更多个图像、照片或视频的视觉展示和接收对应于所述第一用户输入的对所述一个或更多个图像、照片或视频的选择的第一下拉菜单(或其它合适的显示/选择界面)。

一些例子还包括基于由第二用户界面接收第二用户输入来从一个或更多个音乐、歌曲或其它音频数据获得音频文件。在一些例子中，所述第二用户界面包括用于显示所述一个或更多个音乐、歌曲或其它音频数据的视觉展示和接收对应于所述第二用户输入的对所述一个或更多个音乐、歌曲或其它音频数据的选择的第二下拉菜单(或其它合适的显示/选择界面)。

一些例子还包括基于由第三用户界面接收第三用户输入来从包括媒体效果的一个或更多个皮肤获得皮肤。在一些例子中，所述第三用户界面包括用于显示所述一个或更多个皮肤的视觉展示和接收对应于所述第三用户输入的对所述一个或更多个皮肤的选择的第三下拉菜单(或其它合适的显示/选择界面)。

在一些例子中，处理音频文件以确定一个或更多个参数包括：确定所述音频文件的一个或更多个节段，其中，所述一个或更多个节段中的每个都包括大体一致的能量水平，在相邻节段之间具有对应于节拍的能量水平的过渡；针对所述一个或更多个节段中的每个确定一个或更多个特征，所述一个或更多个特征包括以下中的一个或更多个：鼓节拍的出现、鼓节拍的类型或鼓节拍序列之间的距离；以及，基于针对所述一个或更多个节段中的每个的所述一个或更多个特征来针对所述一个或更多个节段确定节段类型唯一编号(STUN，即section type unique number)，其中，所述音频文件的一个或更多个参数基于针对所述音频文件的一个或更多个节段中的每个的STUN。

在一些例子中，所述一个或更多个媒体效果包括以下中的一个或更多个：编辑，所述编辑包括改变所述媒体文件的样子以合并缩放、色彩转译或亮度调节中的一个或更多个；过渡，所述过渡包括一个或更多个淡入淡出或溶解的效果；或调节与显示所述媒体内容相关联的强度、速度或时长的一个或更多个水平。

附图说明

为了说明可获得本公开的上述和其它优点和特征的方式，将参照本公开的在附图中示出的特定实施例来对上文简要说明的原理做出更详细的说明。要理解的是，这些图仅描绘本公开的例子性实施例，因此不应视为限制其范围，在此通过使用以下附图以更多的特性和细节说明和解释上述原理：

图1示出根据一些例子的用于实施在此所述的技术的方面的基于处理器的设备；

图2示出根据一些例子的音频-视频内容编辑的方面；

图3示出根据一些例子的与音频-视频内容的音频部分相关联的能量水平；

图4示出根据一些例子的与音频-视频内容的音频部分相关联的命中数水平；

图5示出根据一些例子的与音频-视频内容的音频部分相关联的每分钟节拍数水平；

图6示出根据一些例子的与音频-视频内容的音频部分相关联的能量水平、命中数水平和每分钟节拍数水平的组合；

图7示出根据一些例子的用于针对音频-视频内容的音频部分的节段计算节段类型唯一编号(STUN)的表格；

图8示出根据一些例子的与音频-视频内容相关联的部分的概图；

图9示出根据一些例子的处理音频-视频内容的音频部分的方面；

图10示出根据一些例子的用于定制皮肤的用户界面；

图11示出根据一些例子的与定制皮肤相关联的用户界面；

图12示出根据一些例子的与编辑策略模板相关联的组成要素；

图13示出根据一些例子的使用基于与音频-视频内容的音频部分相关联的不同水平的节段来处理歌曲；

图14A和14B示出根据一些例子的用于拍摄视频内容的用户界面；

图15示出根据一些例子的用于创建音乐视频剪辑的用户界面；

图16示出根据一些例子的用于创建音乐视频剪辑的用户界面；

图17示出根据一些例子的用于创建音乐视频剪辑的用户界面；

图18示出根据一些例子的从用于创建音乐视频剪辑的一般情况用户界面切换到简化界面的方面；

图19示出根据一些例子的在视频编辑中涉及的组成要素；

图20示出根据一些例子的包括皮肤的集合的皮肤商店；

图21示出根据一些例子的创建音乐视频剪辑的方法；

图22示出根据一些例子的播放指令文件。

具体实施方式

以下陈述的具体说明旨在作为对本主题技术的不同配置的说明，并非旨在代表可实施本主题技术的唯一配置。附图在此并入本文并构成具体说明的一部分。具体说明包括特定细节，目的在于提供对本主题技术的更彻底的理解。然而，将清楚和明显的是本主题技术不限于在此陈述的特定细节，而是可没有这些细节地实施。在一些情况中，结构和组成要素以框图的形式示出，以避免妨碍理解本主题技术的概念。

本公开技术的方面通过提供具有自动创建媒体内容的基础方法的平台来解决当前常规音频-视频内容编辑的局限，该基础方法可包括基于音频-视频内容的音频部分而施加到音频-视频内容的视频部分的编辑、效果等。该用于媒体内容生成的自动化方法可以以与例如由在音频-视频内容编辑领域具有经验或专业知识的人对视频所做的编辑一致的方式实施。然而，本公开技术分析音频-视频内容的基础音频部分以辨识要对音频-视频内容的视频部分自动实施的编辑/内容生成的类型和何时将这些编辑/生成的内容合并在音频-视频文件中，而不是要求用户手动进行编辑或生成内容(例如通过选择音频-视频内容的具体部分，然后选择要进行的具体编辑或要实施的效果)。

如在本文中所使用的，音频-视频内容指具有在音频-视频内容的时长期间伴随视频部分播放的相关联的音频部分的任何类型的媒体或视频内容。示例音频-视频内容可以是音乐视频，其中，音频-视频内容的音频部分是音乐。音频-视频内容的基础音频部分是在本公开中描述的音频-视频内容编辑的必要部分，这是因为所述方法会使用与音频部分相关联的参数来辨识应该对音频-视频内容的视频部分实施什么类型的编辑和应该在何处合并这些编辑。

图1示出可被用来实施本技术的不同方面的示例性基于处理器的设备100。例如，基于处理器的设备100可被用来实施本公开中说明的音频-视频内容编辑。还应理解，基于处理器的设备100可结合一个或更多个其它基于处理器的设备使用，例如，作为计算机网络或计算机集群的一部分。基于处理器的设备100包括主中央处理单元(CPU)162、接口168和总线115(例如PCI总线)。CPU 162优选地在包括操作系统和任何合适的应用程序软件的软件控制下实现所有这些功能。CPU 162可包括一个或更多个处理器163，比如来自Motorola微处理器家族或MIPS微处理器家族的处理器。在一个替代实施例中，处理器163是用于控制基于处理器的设备100的操作的专门设计的硬件。在一个特定实施例中，存储器161(比如非易失性RAM和/或ROM)也形成CPU 162的一部分。不过，存储器可以以许多不同方式耦接到系统。

接口168可被提供为接口卡(有时被称作“线卡”)。它们一般控制数据包在网络上的发送和接收，和有时支持与路由器一起使用的其它外围设备。在可提供的接口中，有以太网接口、帧中继接口、线缆接口、DSL接口、令牌环接口等。此外，可提供各种非常高速的接口，比如快速令牌环接口、无线接口、以太网接口、千兆以太网接口、ATM接口、HSSI接口、POS接口、FDDI接口等。这些接口一般可包括适于与合适的介质通信的端口。在一些情况中，它们还可包括独立处理器和在一些例子中还可包括易失性RAM。该独立处理器可控制诸如包交换、介质控制和管理等通信密集任务。通过为通信密集任务提供单独的处理器，这些接口允许主微处理器162有效地实施路由计算、网络诊断、安全功能等。

尽管图1所示的系统是本发明的一个特定网络设备，但它绝非本发明可于其上实施的唯一设备架构。例如，经常使用具有单个处理器的架构，该单个处理器处理通信以及路由计算等。而且，其它类型的接口和介质也可与路由器一起使用。

无论网络设备的配置如何，它可使用被配置为存储程序指令的一个或更多个存储器或存储器模块(包括存储器161)，这些程序指令用于通用网络操作和用于漫游、路由优化和在此描述的路由功能的机制。程序指令可控制例如操作系统和/或一个或更多个应用程序的运行。所述一个或更多个存储器也可被配置为存储比如移动绑定、注册和关联表之类的表。

为了解释清楚，在一些情况中，本技术可被介绍为包括个体功能块，这些个体功能块包括如下所述的功能块：该功能块包括设备、设备组件、在软件中实现的方法中的步骤或例行程序、或者硬件与软件的组合。

在一些实施例中，计算机可读存储设备、介质和存储器可包括包含比特流等的线缆或无线信号。然而，当提及时，非暂态计算机可读存储介质明确排除诸如能量、载波信号、电磁波和信号本身此类的介质。

根据上述例子的方法可使用所存储的或以其它方式可从计算机可读介质获取使用的计算机可执行指令来实施。这样的指令可包括例如使得或以其它方式配置通用计算机、专用计算机或专用处理设备实施某个功能或功能集的指令和数据。所使用的计算机资源的部分可在网络上访问。计算机可执行指令可以例如是二进制、比如汇编语言的中间格式指令、固件或源代码。可用来存储指令、在根据所述例子的方法期间创建的信息和/或使用的信息的计算机可读介质的例子包括磁盘或光盘、闪存、设有非易失性存储器的USB设备，联网存储设备等。

实施根据本公开的方法的设备可包括硬件、固件和/或软件，并可采用多种形状因素中的任一种。这样的形状因素的典型例子包括笔记本、智能手机、小尺寸因子的个人电脑、个人数字助理、机架式设备、单机设备等。在此说明的功能性还可在外围设备或扩展卡中实现。作为另外的举例，这样的功能性还可在单个设备中执行的不同方法或不同芯片中的电路板上实施。

指令、用于传输这些指令的介质、用于执行它们的计算资源和用于支持这样的计算资源的其它结构是用于提供本公开中描述的功能性的装置。

图2示出用于进行音频-视频内容编辑的示例步骤。具体地说，该图示出可将音频-视频内容的音频部分(例如音乐或歌曲)分解成一定数量的不同节段(例如节段1、节段2、……、节段8)。节段的数量和这些节段在音频部分期间位于何处基于音频内容的时长以及音频内容本身。

基于在音频-视频内容的音频部分中辨识的节段，皮肤可确定将如何对音频-视频内容的视频部分实施不同的激活属性/效果和过渡。如在本文中所使用的，“皮肤”被定义为将施加给音频-视频内容的视频部分的激活属性/效果(例如FX)和过渡的清单。皮肤促进了自动化视频编辑功能的性能，这将允许普通大众利用本发明来使用皮肤进行音频-视频编辑或媒体内容生成，这在以前需要专门的软件和经验才能恰当地进行。这些自动化视频编辑的功能/效果实际上如何实施到视频部分中将取决于在显示时与媒体内容一起播放的伴随的音频部分。

可存在可实施到音频-视频内容的视频部分中的任意数量的不同类型的激活属性和过渡。例如，某些激活属性可包括改变视频的样子以合并缩放、色彩转译和不同的亮度。一些示例过渡可包括合并淡入淡出或溶解效果。而且，可存在与激活属性和/或过渡相关联的参数，这些参数限定所使用的每个不同的激活属性和/或过渡的水平(即强度)和时长。要指出的是，除了上述的以外，还可使用许多其它类型的激活属性和过渡。特别地，在音频-视频编辑中已知和使用的激活属性和/或过渡也可在本公开中实施。

以下将提供关于如何将音频-视频内容的音频部分分解成不同节段和如何根据音频的不同节段对媒体内容应用皮肤的进一步细节。此外，分别提供关于如何进行节拍跟踪和节拍匹配的技术的相关细节的临时申请62/693,799和62/755,172在此通过引用并入本文。节拍跟踪和节拍匹配技术将方便于将音频-视频内容的音频部分分解成不同节段，以及辅助表征与音频相关联的参数以创建被用来辨识应该在这些节段中何处进行编辑(例如剪切应位于何处、激活属性/效果应位于何处)的播放指令文件。

图3示出与音频-视频内容相关联的示例能量水平。为了将音频部分分解成不同节段，第一步骤在于辨识音频内容的具有相似能量水平的部分。该图示出涉及辨识与音频-视频内容的音频部分相关联的不同能量水平的第一步骤。这将被称作“1级节段分解”。能量水平被辨识为在图3中示出的水平线，其中能量水平中的一些代表性地用附图标记302、304、306、308、310指示。

首先将音频部分从其原始音频文件形式(例如.MP3、.M4A)转换成.wav文件。在进行了初始转换之后，对.wav文件使用低通滤波。之后，对.wav文件进行“两重包络”方法。这是处理音频部分(例如歌曲)以使得可以表征音频部分的能量水平的第一示例性方式。也可使用现有技术中已知的其它方式。

转换的结果和之后的两个步骤提供图3的图示，该图示出与音频-视频内容的音频部分相关联的具有介于0至1之间的数值的能量水平。能量水平越接近0，音频的该部分就越可能具有平静的元素。相反地，能量水平越接近1，音频的该部分就越可能具有强有力或响亮的元素。

一般可基于音频的相邻部分之间的大的过渡来初始地辨识音频部分的节段。例如，点300、310和320对应于在音频的不同部分之间具有大的过渡的音频的一些部分。其中能量水平的变化可潜在地标记不同节段的范围可被初始地设置或预定。不过，该范围可随时间调节，例如通过与人工智能相关的处理来基于对不同音频在一定时间段上进行相似处理来修改该范围。

图4示出与音频-视频内容的音频部分相关联的示例节段类型。具体地说，在完成如图3所示的提供能量水平的“1级节段分解”之后，接下来进行“2级节段分解”。在该接下来的步骤中，处理在“1级节段分解”期间获得的1级节段以跟踪鼓节拍。在2级节段分解中可跟踪的示例性鼓节拍可包括底鼓、小鼓、查理鼓、筒鼓或其它鼓。在鼓节拍连续处以少于X秒创建“Hit(命中)”节段，X通常等于2.5秒。这样的节段(在图4中被标记为“h”)由例如(402；404)、(406；408)等的2个边界限定。HIT节段的余下部分被称作NOHIT(未命中)节段。这样的节段(在图4中被标记为“nh”)由例如(404；406)、(408；410)等的2个边界限定。

基于在节段内检测到的鼓节拍的类型，可赋予该节段不同的标签。例如，任何没有任何鼓节拍的节段可用标签“0”标记。适当时，具有底鼓、小鼓和查理鼓中的一个或更多个的节段会用标签“1s”标记。例如，具有所有这三种的节段可用标签“1110”标记，而仅具有小鼓和查理鼓的另一节段可用标签“0110”标记。

标签可以根据辨识可针对该节段检测到的鼓节拍的不同类型所需的尽可能地长。例如，如果“2级节段分解”寻找四种不同类型的鼓节拍(例如底鼓、小鼓、查理鼓和筒鼓)，标签可设有如上文例子中所述的4的长度。关于如何具体地检测和跟踪鼓节拍的细节在临时申请62/693,799中进一步说明，该申请通过引用并入本文。由鼓节拍跟踪所获得的输出提供图4中的图示。

图5示出与音频-视频内容的音频部分相关联的每分钟节拍数水平的示例测量。例如，在图5中针对对应节段示出了每分钟节拍数水平502、504、506、508和510。具体地说，在完成如图4所示的“2级节段分解”之后，可进行“3级节段分解”。“3级节段分解”处理“2级节段”的输出以跟踪主节拍。具体地说，每个节段可标有与“3级节段分解”相关联对应于该节段的每分钟节拍数的数值的标签。关于如何跟踪主节拍的细节在临时申请62/755,172中进一步说明，该申请通过引用并入本文。由主节拍跟踪所获得的输出提供图5中的图示。

图6示出1级、2级和3级节段分解的组合。通过使用这三次分解，可示出音频-视频内容的音频部分的不同节段。具体地说，最终节段(其对应于音频部分中通过本节拍跟踪和节拍匹配技术辨识的实际节段)是音频部分的连续节选，其中与1级、2级和3级节段分解相关联的数值、标签和描述符相似(例如点600)。与1级、2级和3级分解相关联的数值、标签和描述符有关的时间点之间的显著变化(例如对于点610)指示当前节段的结束和新的节段的开始。

尽管在本公开中说明的图和实施例说明以这种特定方式使用1级、2级和3级节段分解，应认识到，为了表征歌曲的参数，其它不同方法也可以是可行的。例如，一个实施例可以使用三次不同的1级节段分解。而且，除了1级、2级和3级节段分解以外也可实施能方便表征歌曲参数的替代方法。

到本公开的时候为止，之前已经在两个不同的临时申请中囊括了为了辨识音频-视频内容的音频部分中的不同节段的上述节拍跟踪和节拍匹配技术，这两个临时申请都通过引用并入本文。本公开的以下说明通过以下所述扩展了该节拍跟踪和节拍匹配技术：通过使用这些技术来根据音频的对应节段对媒体内容辨识和施加皮肤作为视频编辑，以使得在音频的节段期间播放的视频/媒体内容的对应部分可被自动地编辑、创建或生成。

编辑者或内容生成者遵循的具体方法可包括为存在于音频-视频内容的音频部分中的特定元素匹配特定编辑。与添加到视频的效果与音频部分不协调相比，以与音频部分相关联的合适的时尚对音频-视频内容的视频部分做出的编辑、效果、过渡等对于观看者而言可能更有吸引力。在本申请之前，编辑者/内容生成者使用经验和反馈来确定什么视频效果是合适的和何时在视频部分中实施这些效果。然而，在本公开中，现在描述的是这样的方法：其中，可使用关于音频部分的信息来自动辨识合适的视频效果(例如编辑、过渡、激活属性等)以及辨识应该何时和怎样在视频部分中实施这些视频效果。

图7示出用来计算节段类型唯一编号(STUN)700的示例表格。音频部分的每个节段可具有基于由在前的上文所述的1级、2级和3级节段分解过程获得的信息而计算的对应的STUN数值700。STUN数值700在一些实施例中可以是介于0到1之间的数值，其中STUN数值可被用来修改与限定在媒体(例如视频、照片)中如何应用激活属性/效果和过渡作为编辑的皮肤相关联的不同参数。如图所示，该STUN数值700通过合计由进行1级、2级和3级节段分解获得的不同数值来计算。

例如，如图所示，查看1级节段分解，如果能量水平(NRJ)704是1，则为该节段的STUN数值700提供+0.2数值。如果能量水平是0，则不改变对于该节段的STUN数值。查看2级节段分解，存在(即HIT/NO-HIT指示702)任何底鼓、小鼓和/或查理鼓可被用来改变对应的STUN数值700(例如，如果存在底鼓则增大0.2，如果存在小鼓则增大0.2，和/或如果存在查理鼓则增大0.1)。查看3级节段分解，可基于测得的每分钟节拍数或主节拍706来改变STUN数值700(最大至0.3)。

通过查看1级、2级和3级节段分解而计算得到的STUN数值700可被用来表征该节段内的音频的类型。较接近0的STUN数值可指示该音频部分对应于平静的类似于例如治愈或新世纪音乐的音频。较接近1的STUN数值可指示该音频部分对应于具有强有力元素的类似于例如重金属音乐的音频。

如上所述，STUN数值可被用来设置关于可如何将激活属性/效果和过渡应用于对应节段的编辑参数。例如，长过渡可更适合于平静和缓慢的音乐，而较短的过渡可更适合于快速和强有力的音乐。尽管可对任何节段使用任何皮肤，STUN数值700也可被用来为当前节段选择优选皮肤。实际上，应被普遍理解的是，某些激活属性/效果(例如FX)和过渡可能更适合于一种类型的音乐而不是全部类型的音乐。

然而，上述优选皮肤的选择不阻止用户选择任何皮肤和对一个或更多个节段应用该皮肤。期望时，用户可选择优选皮肤以应用于音频-视频内容。用户选择的皮肤会被相应地施加。

图8示出与在此描述的本技术适用的音频-视频内容相关联的部分的概图。也被称作音乐视频或视频剪辑800的该音频-视频内容可被分解成三个部分。第一部分810对应于音频-视频内容的非音频部分(或媒体/视频部分)。尽管本公开已将音频-视频内容的非音频部分称作视频部分，应认识到本技术也可结合非视频的媒体内容使用。例如，也可用本技术编辑可选择为之后与音乐相关联地显示的一张或更多张照片(例如.jpg文件)。本技术则可基于基础音频部分(例如音乐)编辑该一张或更多张照片。

第二部分820对应于音频-视频内容的音频部分(例如音乐)。这一般可对应于音乐。然而，它也可包括与非音频部分810一起的声音集，使得该声音集(作为音频部分820)将被用来编辑非音频部分810。这会一般对应于使用者想要与和第一部分810相关联的用户选择要编辑的媒体组相组合的音乐。

第三部分830对应于内容生成策略。在下文中更详细说明的该内容生成策略830对应于可被用来基于对应的音频部分820来在非音频部分810(例如视频、照片)中进行编辑或实施效果的一个或更多个模板，该对应的音频部分820将与第一部分810组合并会在播放媒体内容的同时播放。内容生成策略830可规定如与可由用户选择的皮肤相关联的适用模板所限定地实施不同的激活属性/效果(例如FX)和过渡。

与音频部分的节段相关联的音频-视频内容的非音频部分(例如视频、图像/照片)还可包括三种不同类型的设置：主要媒体、文本框、和覆盖框。主要媒体可指由用户选择的与音频相关联的实际照片或视频。文本框指在该照片或视频上出现的任何文本。覆盖框指嵌入主要媒体中的额外的非音频相关元素(例如额外的图片或视频)。

与皮肤相关联的内容生成策略可相应地对这三种类型的设置实施激活属性/效果和过渡，以使得不仅可基于音频-视频内容的音频部分编辑主要媒体，而且还可编辑文本和嵌入的内容(例如画中画)。可进行的编辑/可引入的效果的类型可类似于在主要内容上进行的编辑/引入的效果。在一些情况中，编辑/效果也可在实质上更加受限或完全不同于添加到主要内容的编辑/效果的类型。

图9示出与处理音频-视频内容的音频部分相关联的示例方法。具体地说，可处理音频-视频内容的音频部分以辨识可用来建立对于音频-视频内容的相关联视频部分的编辑策略的不同元素。如皮肤所限定的，策略可根据音频部分的结构和事件(例如鼓节拍、主节拍)设置编辑选项和参数。

由音频-视频内容的音频部分(例如歌曲)，第一生成数据组会对应于播放指令文件900。播放指令文件900可包括被用来创建经过编辑的音频-视频内容的信息。例如，播放指令文件900可包括用来以与如果由个人进行的话专业视频编辑者会编辑的方式类似的方式自动对视频部分进行编辑/生成效果的指令。这样的指令可包括剪切和FX最佳位置和过渡位置。例如在图22中可见一个示例播放指令文件。

媒体播放选项910可包括指示将如何播放非音频部分(例如视频或图片)的指令。例如，可在此限定比如详细说明非音频部分(例如视频)的播放速度的参数。

FX位置和皮肤水平920可限定将在何处应用激活属性/效果。这些激活属性/效果是已经辨识并存储在播放指令文件900中的那些激活属性/效果。而且，FX位置和皮肤水平920还可限定应用效果的水平(例如时长、强度)。

过渡位置和时长930可限定过渡在音频-视频内容的视频部分中位于何处。所使用的过渡已经在播放指令文件900中辨识。而且，过渡位置和时长930还可限定过渡可持续多久。过渡将对应于例如从一个媒体到下一个媒体的变化和以在两个后续媒体(照片或视频)之间的变化期间的方式编辑视频部分。

图10示出用于定制皮肤的示例用户界面。尽管可以有默认对于每个人都可用来编辑媒体内容(例如视频、照片)的皮肤，但该图示了允许任何人都能够创建其自己的定制皮肤以使用其个人偏好来编辑其自己的音频-视频内容的界面。而且，允许用户保存和与他人分享其定制创建的皮肤。

如上所述，皮肤对应于可应用于下列的激活属性/效果(例如FX)和过渡的清单：(1)音频-视频内容的视频部分；和(2)文本框和覆盖框。该图示出了不同的菜单，这些菜单列出了可对音频-视频内容的视频部分实施为编辑或效果的定制皮肤中的各种不同属性。用户可激活(和禁用)不同属性，限定何时激活某些属性(基于基础音频部分中的特定元素，比如检测到底鼓或在过渡期间)以及所激活的属性的程度/强度或时长。该程度/强度或时长可例如通过滚动条来调节，该滚动条如果指示器位于最左边则代表短/低强度而如果指示器位于最右边则代表最大强度或最长时长。

图10中图示的各个菜单示出可实施的示例参数。例如，在第一菜单1000下，皮肤可被设有关于何时或如何实施比如缩放功能、转译、亮度和色移等功能的定制限定。在第二菜单1010中，可调节文本颜色、文本形态和文字尺寸。在第三菜单1020中，可反转非音频部分(例如照片/图像)或改变其颜色。第四菜单1030，可类似地反转非音频部分(例如视频)或改变其颜色。如上文所指出的，采用本技术可使用任意数量的不同类型的激活属性/效果(例如FX)和过渡。而且，这些用户界面可被更新以添加额外的或更新的属性，以及可被重新设置以将更新的或更受欢迎的属性布置在与较老的和不那么受欢迎的属性相比更高的位置。

用户选择的与其皮肤相关联的属性组可随后被命名和保存。该模板可存储在进行音频-视频编辑的用户设备上的应用程序中，或上传到云服务器。一旦保存，皮肤可在不同设置之间共享，或由云服务器访问和被其它用户下载到他们各自的设备以使用。

在一个实施例中，可将创建定制皮肤的能力限于特定用户(例如认证的皮肤创建者、支付费用以允许访问该功能的订阅者)。由这些特定用户创建的皮肤可与其它用户共享，例如通过皮肤商店(在图20中描述)。

图11示出用于与定制皮肤相关联的皮肤商店110的另一示例性用户界面。具体地说，该图示出用户可在可被用来生成将应用于音频-视频内容的视频部分的皮肤的三种不同类型的子皮肤(例如是脉冲1102、嗖的一下1104和波浪1106)之间选择。在其它实施例中，可具有与在该图中初始图示出的相比更多的不同类型的子皮肤。其它子皮肤可能具有如本领域已知的可对音频-视频内容的视频部分应用的其它特征。

如该图所示，该示例性三种子皮肤类型——脉冲1102、嗖的一下1104和波浪1106——可通过皮肤商店700提供。脉冲皮肤1102可以是这样的皮肤类型：其中，激活属性/效果的时长通常短(例如200ms)。脉冲皮肤1102可以被应用于在音频-视频内容的音频部分中找到的类似鼓的音频元素。嗖的一下皮肤1104可以是脉冲皮肤1102与附加短声音的组合。嗖的一下皮肤1104可类似地应用于类似鼓的音频元素。波浪皮肤1106涉及时长通常持续超过数秒的激活属性/效果。由于波浪皮肤1106具有更长的时长，它们通常在与音频部分节段相关联的媒体(例如视频)的播放期间施加。

图12示出与图8中描述的内容生成策略模板830相关联的组成要素有关的进一步细节。如图12所示，内容生成策略模板830可包括以下部分：依赖于音频的部分1204(其被基于音频-视频内容的基础音频部分自动调节)和非依赖于音频的部分1202(其参数可由用户选择)。这两个部分1202和1204的总和覆盖皮肤可如何自动地编辑或将效果应用于音频-视频内容的视频部分。如在本申请中所述，任何用户选择的皮肤(或其相关联的激活属性/效果和过渡)都对应于非依赖于音频的部分1202的用户选择——该部分是在允许用户选择使用什么皮肤的各个下拉菜单中显示的部分。依赖于音频的部分1204可不能够由用户选择，而是对应于如何将非依赖于音频的部分应用于媒体内容(例如视频或照片)。

关于非依赖于音频的部分1202，皮肤会包括将结合待编辑的视频部分使用的激活属性和效果以及过渡组。每个皮肤可具有激活属性和效果以及过渡的不同的组合。由于皮肤的该部分不依赖于音频-视频内容的音频部分，用户可通过例如图10所示的用户界面自由地定制皮肤的该方面。因此，用户可选择皮肤、歌曲和媒体内容。皮肤可包括可基于歌曲对媒体内容实施的各个效果。可以没有来自用户的进一步动作地生成最终产物(例如音乐视频)。关于激活属性和效果和过渡的任何定制可由用户通过高级编辑/定制菜单/功能来提供。

关于依赖于音频的部分1204，皮肤会具有限定(并被根据节段的STUN自动调节)将如何基于伴随视频部分的基础音频部分编辑音频-视频内容的视频部分的各个参数。播放指令文件、媒体播放选项和FX/过渡位置类似于上文在图9中描述的元素。如上文所指出的，与皮肤相关联的激活属性和效果和过渡组由用户选择。然而，激活属性和效果和过渡以及它们各自的水平(例如强度)和时长由音频部分(例如歌曲)限定。

图13示出根据在此所述的本技术的一个示例性实施例。歌曲1300可被转换成可使用1级、2级和3级节段分解处理的形式。这些个体节段分解中的每个会输出表征该节段的对应数值1310。每个节段(例如节段1、节段2、……、节段8)会基于歌曲的特征具有不同的数值组1310。基于通过1级、2级和3级节段分解获得的三个计算出的数值1310，不仅可辨识歌曲1300的不同节段，而且还会确定将如何在编辑媒体内容(例如视频、照片)中实施用户选择的皮肤。这三个数值可以被用来计算STUN数值(如上文参照图7所述)，该STUN数值可被用来确定和修改如何将激活属性/效果和过渡应用于媒体内容(例如视频、照片)。

为歌曲1300的该节段选择的每个皮肤都具有对应属性1320，这些属性将被用于自动编辑音频-视频内容的将在歌曲播放期间播放的对应视频部分。如属性1320所限定的，这些皮肤将包括会在视频部分中自动实施的激活属性/效果和过渡的类型。如上所述，位置和程度(例如水平、强度、时长)将基于歌曲1300。

在图13中所示的例子提供了可如何基于音频-视频内容的基础音频部分自动编辑或生成音频-视频内容的视频部分的概图。在本申请中说明的技术描述了能够提取音频部分的不同属性和元素以使得能够基于音频-视频内容的音频部分自动对视频部分进行编辑(基于用户选择的皮肤)的技术。

图14A和图14B示出用于拍摄视频内容的示例用户界面。具体地说，图14A示出显示用户正在录制视频的用户界面，而图14B示出告知用户可截取多长时间的视频的进度条。

在一个例子中，用户可选择用户想与媒体内容(例如视频)配对的歌曲(或歌曲的一部分)。用户将能够使用其自己的计算设备(例如智能手机的摄像头)来拍摄对应于所选择歌曲的时长的视频剪辑。

存在众多的允许用户拍摄短视频剪辑并与其它用户分享的现有应用程序(例如Facebook和Instagram stories)。一些应用程序甚至还可允许用户将视频剪辑与音乐配对(例如TikTok)。然而，本申请通过使用音乐自动对短视频剪辑提供最优化剪辑、视觉效果和过渡而包括对短视频剪辑的拍摄和分享的改进。现有应用程序(例如Facebook、Instagram、TikTok等)不提供这样的技术。

关于图14A，用户界面提供了方便使用例如存在于移动设备上(例如智能手机上)的用户的摄像头来“拍摄且同时编辑”视频剪辑的各个元素。该用户界面可包括会被按下以发起和/或停止播放所选择歌曲的按键1400。随着歌曲被播放，摄像头会被用于拍摄要与歌曲配对的视频。可为用户提供在具体时间位置(例如：t6)停止/开始其拍摄的建议，这些具体时间位置是匹配所选择歌曲的节拍的位置。可能地，一旦最后的拍摄完成，就可提供(并随时可分享)完全编辑好的视频剪辑(由用户拍摄的数个镜头构成)。

随着用户为视频剪辑拍摄视频，位于用户界面上方的拍摄条1410用于辅助用户使得其拍摄匹配所选择的歌曲的节拍。整个拍摄条1410可对应于将与视频剪辑配对的伴随歌曲的时长。随着用户继续录制，拍摄条1410(其初始地是空的)可通过颜色指示逐个节拍地逐渐填充。拍摄条1410的填充用于指示伴随的歌曲的节拍位置。

关于图14B，提供对拍摄条1410、1420更详细的图示。点t6对应于所选择的歌曲的节拍位置并用于标记为视频剪辑录制的推荐开始/停止。已填充部分(对应于点t1-t5)涉及用户已经为视频剪辑开始/停止视频录制的其它节拍位置。点t7-t9对应于拍摄条的空的部分，其意味着用户还能够为视频剪辑拍摄更多视频。每个点t1-t9都对应于节拍位置。一旦拍摄条完全充满，视频拍摄终止：由此，使用上述技术可在拍摄视频剪辑的同时基于所选择的皮肤和将伴随视频剪辑的歌曲自动生成或修改该视频剪辑。

图15示出用于创建音乐视频剪辑的示例性界面1500。如图所示的用户界面1500是分成用户可从中选择各个元素的三个“下拉菜单”的简化界面。这三个下拉菜单可上拉或下拉(模拟滚轮)以使得用户能够选择具体元素。在一些情况中，可选择对每个元素随机选择(例如通过很类似于老虎机的“旋转(spin)”选项)。用于选择不同元素的其它方法也可以是可行的，例如通过列出可选择的元素的折叠式下拉菜单。相应地，在以下例子中讨论的三个下拉菜单可包括用于给用户展示元素以接收用户输入和基于接收到的用户输入提供对应的元素选择以根据本公开生成媒体内容的任何合适的用户界面。

第一下拉菜单1502是用户可选择的第一用户界面，也称作媒体下拉菜单(其对应于用户可选择的媒体)。第一下拉菜单1502上的每个缩略图对应于用户可在其计算设备上具有的图像、照片和视频(也称作时刻或专辑)组。媒体内容也可对应于用户自己的已经使用用户设备拍摄好的照片和视频集。

第二下拉菜单1504是对应于可与第一下拉菜单1502(例如媒体下拉菜单)配对的多首不同歌曲的第二用户界面。在第二下拉菜单1504中，用户可选择用户想与通过第一下拉菜单1502或媒体下拉菜单选择的视频或照片组配对的歌曲。歌曲可以是用户已经下载和存储在用户设备上的歌曲(例如个人播放列表)或由外部服务(例如Spotify)提供的歌曲。歌曲还可从因特网下载或从其它设备获得。

第三下拉菜单1506是对应于将施加到媒体内容(通过第一下拉菜单1502或媒体下拉菜单选择)的皮肤的第三用户界面。皮肤具有将根据与所选择的歌曲(通过第二下拉菜单1504或歌曲下拉菜单选择)相关联的属性和事件自动应用于所选择的媒体的一组预定的属性、效果和过渡。皮肤可以是对视频编辑应用程序默认的、由用户创建的或者从其它用户或其它来源(例如因特网)下载的皮肤。

在一个实施例中，可应用的皮肤可从更大的可用皮肤的数据库获得并在第三下拉菜单1506中提供。在另一实施例中，第三部分可包括用户偏好的、过去使用过的或基于偏好推荐给用户的所有可用皮肤。

无论用户从不同的下拉菜单选择元素进行组合还是选择随机元素组，用户界面都可自动将媒体内容与歌曲组合并基于所选择的皮肤对媒体内容进行视频编辑/添加效果。使用上述技术，如何对媒体内容进行编辑或添加效果可基于歌曲。

一旦已经选择了媒体、歌曲和皮肤，可在预定空间中提供“预览”，或在一些情况中可在预定空间中提供最终产物(例如由媒体内容、歌曲和皮肤的选择生成的音频-视频内容)。使用用户界面，用户可即时观看“预览”或最终产物。

图16示出用于创建音乐视频剪辑的一个更加复杂的用户界面1600。图16的用户界面在用户可从中选择的各个下拉菜单中的每一个中都具有可变数量的行，而不是如图15中那样仅示出三个下拉菜单且每个仅具有一行可选择的元素。这允许用户能够将多个媒体组、多首歌和多个皮肤一同组合在单个音频-视频内容文件中。

从可用媒体组选择多个不同媒体内容(例如视频、照片)可如在第一下拉菜单1600组中所示的那样一个加在另一个之后。而且，对于从第一下拉菜单1602组选择的每组媒体(例如来自专辑或时刻的照片、视频)，用户可(从第二下拉菜单1604组)选择要与从第一下拉菜单1602组获得的媒体内容文件相关联的任何数量的不同歌曲。第二下拉菜单1604组可给用户提供从任何数量的不同歌曲选择的能力。用户可为从第一下拉菜单1602组选择的媒体内容文件中的一个或更多个选择单首歌曲。例如，可从第二下拉菜单1604组选择要针对从第一下拉菜单1602组选择的媒体内容的整个时长播放的一首歌曲。在其它实施例中，用户可为所选择的每个媒体内容文件选择一首歌曲。使用上述例子，用户可从第二下拉菜单1604组选择三首不同歌曲，以使得第一歌曲在显示第一媒体组时播放，第二歌曲在显示第二媒体组时播放，第三歌曲在播放第三媒体组时播放。

取决于从第二下拉菜单1604组选择的歌曲的时长，所选择的歌曲可具有一个或更多个不同的节段。每个节段本身可与其自己各自的皮肤相关联。对于更长的歌曲，第三下拉菜单1606组可为用户提供为所选择歌曲的每个节段选择特定皮肤的能力。

更像图15中的用户界面那样，用户可从三个下拉菜单组中选择元素中的每个，以使得可基于用户选择创建音频-视频内容文件。然而，还可通过“旋转”元素1606创建随机的音频-视频内容文件。如果被选择，应用程序可从第一下拉菜单1602组选择随机媒体内容组，从第二下拉菜单1604组选择随机歌曲组，并从第三下拉菜单1606组选择随机皮肤组。在一些情况中，用户可提供会影响随机选择的某些偏好(例如缩小可行选择的可用池)。

图17是用于创建音频视频剪辑的另一示例性用户界面1700，其中，独立于所选择歌曲的总的选择数量地将皮肤下拉菜单的数量设定为给定的有限数值(例如4)。更像图15和图16那样，用户可分别使用在用户界面中提供的下拉菜单1702、1704和1706来选择媒体内容、歌曲和皮肤。如果所选择的歌曲例如由10个不同的节段构成，歌曲的每个节段可例如使用不同可行规则与4个所选择的皮肤中的一个随机匹配，这些不同可行规则由用于创建音频视频剪辑的应用程序或基于用户偏好限定。该实施例允许下拉菜单的数量不取决于歌曲节段变化并因此保持滚轮结构(否则，每次要选择新的歌曲时下拉菜单的数量可能变化)。要指出的是，可以例如允许用户专门选择可应用于10个不同的节段中的每个节段的皮肤。

图18示出如何从用于创建音乐视频剪辑的普通用户界面1800切换到简化界面1850。当处于用户界面1800中时，提供媒体下拉菜单1802、歌曲下拉菜单1804和对于每行具有多个皮肤的皮肤下拉菜单1806；在简化界面1850中，媒体下拉菜单1802、歌曲下拉菜单1804和皮肤下拉菜单1856仅具有一行媒体组、歌曲和皮肤。作为“简单模式”，使用界面1850可限制用户只选择一组媒体(例如专辑/时刻)、一个音频文件(例如歌曲)和一个皮肤来组合。在该实施例中，同一皮肤可被应用于所选择的歌曲的所有节段(与上述实施例相比，在上述实施例中可以对于所选择的歌曲的不同节段选择不同皮肤)。该“简单模式”与图15中示出的相同。然而，可存在为用户提供从不同媒体、歌曲和/或皮肤选择的更多或更少选项的替代方式。

图19是使用本申请中描述的技术生成视频内容所涉及的各个组成要素的图示。该视频内容生成平台可以与可被下载并在用户计算设备(例如移动设备)上运行的视频编辑/内容生成应用程序相关联。该视频编辑/内容生成平台还可在基于云的服务器上运行并通过连接到云服务器的每个用户计算设备访问。

该视频编辑/内容生成平台可具有可用于存储可与媒体内容(例如视频、图片)组合的歌曲的歌曲目录1900。包括上述技术的处理器1910则可处理所选择的歌曲。如果视频编辑/内容生成平台在用户计算设备上运行，可离线地实施对播放指令文件的处理。处理器1910会运行各个步骤以辨识歌曲的节段、计算对于每个节段的STUN数值和辨识与歌曲的节段相关联的参数，这些参数指示如何应用与用户选择的皮肤相关联的激活属性/效果和过渡来编辑伴随的媒体内容(例如照片、视频)。

视频编辑/内容生成平台还可具有皮肤目录1920。皮肤目录1920可包括可应用于任意数量的不同媒体内容的所有可用皮肤。皮肤目录可例如基于赞助的、社团创建的和受欢迎的那些皮肤来组织可用皮肤。

视频编辑/内容生成平台还可包括媒体数据库1930。媒体数据库1930可具有用户使用其用户计算设备拍摄的所有媒体内容(例如视频、照片)。用户可从媒体内容数据库1930选择一个或更多个媒体组(通过时间相近性或通过预先创建的专辑自动集合)，以使用图19的视频编辑/内容生成平台与来自歌曲目录1900的歌曲合并。

视频编辑/内容生成平台还具有自动化皮肤参数设置模块1940。模块1940会用来辨识将应用于媒体内容的各个自动的激活属性/效果和过渡。如上所述，皮肤包括将用于对媒体内容(例如视频、图片)自动进行将取决于与媒体内容一起播放的歌曲的视频编辑的这样的预定的指令组。歌曲可自动指示在何处和何时对媒体内容进行视频编辑(其与用户选择的皮肤相关联)。

一旦用户定位好3个下拉菜单，则可给用户提供生成的“音乐视频”以供其在用户设备1950上观看。在播放(或在线播放(streamed))所选择的歌曲的同时，可实时生成“音乐视频”。用户还可例如选择将生成的“音乐视频”保存为MP4编码视频，与他人分享该“音乐视频”，或将“音乐视频”上传到云以使得他人能够观看、下载和分享该“音乐视频”。

图20示出一个示例性皮肤商店200。如上文结合图10关于用户定制和保存其自己的皮肤的功能所述，可创建能允许其他用户观看不同皮肤和下载它们以在其自己的设备上使用的皮肤商店。个人创建的皮肤可被上传到云中的可用于存储皮肤以便未来分发的特定服务器。一旦存储之后，皮肤可按照不同类别组织，例如基于类型、作者、创建/上传日期。其它组织还可包括皮肤是否是赞助的皮肤或皮肤是否由社团创建。

还可收集和存储会用于进一步组织皮肤的关于皮肤的信息。例如，可捕获评价(例如，其他用户关于皮肤的评语，喜欢，不喜欢)和该皮肤的下载/使用次数。该信息可用于辨识受欢迎的皮肤。基于受欢迎的程度，可突显这些皮肤并使之对于他人而言更容易看见以便观看和下载。

用户能够自由地基于各个参数搜索皮肤商店中所有可用皮肤以及筛选皮肤。如上所述，可使用比上述各个参数更多或更少的参数，例如按照作者、评价、受欢迎程度、赞助、社团、上传日期、名称和/或类型来筛选。而且，筛选可利用当时参数中的一个或更多个以寻找特定皮肤。

皮肤商店200可包括用于包含便于货币化的功能的功能性。例如，可对用户收取下载和使用特定皮肤的费用。在一些情况中，皮肤可免费下载和随意使用。然而，其它皮肤也可是免费的但使用上有限制(例如仅能够编辑性质上受限、例如30秒的音频-视频内容)。可支付费用以“解锁”对于该皮肤的不受限的使用。还可对用户收取订阅费以获得在预定时期内对所有皮肤的无限制的不受限访问。其它货币化方式可包括要求用户在使用皮肤来编辑音频-视频内容之前和/或之后观看广告。可存在任意数量的不同方式以用于货币化皮肤商店中的皮肤，和可与皮肤合并的已知的任何方法。

应理解的是，示例性方面包括用于实施在此公开的过程、功能和/或算法的不同方法。例如，图21示出生成媒体内容的示例性方法2100。在一些例子中，方法2100可用于创建音乐视频剪辑。具体地说，所述方法2100是基于与媒体内容相关联的基础音频(例如歌曲)进行编辑或创建要包括在媒体内容中的效果的自动化方法。应理解的是，尽管将示例性方法2100描述为以下步骤的序列，但这些步骤的替代的序列或组合位于本公开的范围内。

在步骤2110中，用户可选择没有伴随音乐的媒体内容(例如图片、视频)。例如，媒体内容可包括排除音频文件的媒体文件。媒体内容对应于可被拍摄并存储在用户设备上的内容。在一些情况中，媒体内容可从其它来源(例如因特网、其它计算设备)获得。在一些例子中，选择媒体内容可包括基于由第一用户界面接收第一用户输入来从一个或更多个图像、照片或视频获得媒体文件。例如，第一用户界面可包括第一下拉菜单(例如1502、1602、1702、1802)或其它合适的显示/选择界面/选取解决方案，以用于显示该一个或更多个图像、照片或视频的视觉展示和接收对应于第一用户输入的对该一个或更多个图像、照片或视频的选择。所选择的媒体(例如图像、照片、视频等)可与音乐内容组合并如下所述地基于所选择的皮肤和音乐内容被编辑/修改。

在步骤2120中，用户可选择歌曲或其它音频。例如，选择歌曲或音频可包括基于由第二用户界面接收第二用户输入来从一个或更多个音乐、歌曲或其它音频数据获得音频文件。在一些例子中，第二用户界面可包括第二下拉菜单(例如1504、1604、1704、1804)或其它合适的显示/选择界面/选取解决方案，以用于显示该一个或更多个音乐、歌曲或其它音频数据的视觉展示和接收对应于第二用户输入的对该一个或更多个音乐、歌曲或其它音频数据的选择。在一些例子中，歌曲可以不仅可与所选择的媒体内容(例如图像、图片、视频)配对，而且还可影响可如何对所选择的媒体内容实施激活属性/媒体效果或过渡。例如，在歌曲中发生的元素和事件可被用于使对所选择的媒体内容进行的编辑自动化。

在步骤2130中，可处理所选择的歌曲以表征可被用于应用各个激活属性/效果和过渡的参数(例如元素/事件)。例如，处理歌曲可包括处理音频文件以确定音频文件的一个或更多个参数。在一些例子中，这样的处理可包括：确定音频文件的一个或更多个节段，其中，该一个或更多个节段中的每个包括大体一致的能量水平，在相邻节段之间具有对应于节拍的能量水平过渡；以及，确定针对该一个或更多个节段中的每个的一个或更多个特征，该一个或更多个特征包括能量水平、每分钟节拍数或鼓节拍的类型。所述处理可还包括基于对于该一个或更多个节段中的每个的该一个或更多个特征来确定对于该一个或更多个节段中的每个的节段类型唯一编号(STUN)，其中，音频文件的该一个或更多个参数基于对于音频文件的该一个或更多个节段中的每个的STUN。

例如，音频内容或音频文件的处理可包括辨识音频内容(例如歌曲)的一个或更多个节段，其中，每个节段都具有特征相似的内容，该特征比如是大体一致的能量水平。可基于实施用于表征与音频内容相关联的元素/事件的各种方法(例如低通滤波、两重包络、节拍跟踪、节拍匹配)来辨识具有相似或一致的特征的节段。

基于该过程的结果，每个节段可与例如指代能量水平、每分钟节拍数和鼓命中次数的不同数值相关联。这些数值可用于计算对应的STUN数值，该STUN数值可用于指示在编辑所选择的媒体中如何实施(在步骤2140中)用户选择的皮肤的激活属性/效果和过渡。

在步骤2140中，用户可选择皮肤。皮肤包括将基于所选择的歌曲自动应用于所选择的媒体、文本框和覆盖框的所有不同的激活属性/效果和过渡的限定。在一些例子中，基于与音频文件相关联的皮肤，可确定对应于音频文件的一个或更多个参数的一个或更多个媒体效果。在一些例子中，选择皮肤可包括基于由第三用户界面接收第三用户输入来从包括媒体效果的一个或更多个皮肤获得皮肤，其中，第三用户界面可包括第三下拉菜单(例如1506、1606、1706、1806/1856)或其它合适的显示/选择界面/选取解决方案，以用于显示该一个或更多个皮肤的视觉展示和接收对应于第三用户输入的对该第一或更多个皮肤的选择。

在步骤2150中，所选择的皮肤可被用于对媒体内容自动进行编辑或添加效果。例如，使用皮肤对媒体内容自动进行编辑或添加效果可包括对媒体文件应用所述一个或更多个效果以生成经修改的媒体文件(例如具有所应用的效果的媒体文件)。而且，可生成包括音频文件与经修改的媒体文件的组合的这样的音频-视频文件。在一些例子中，皮肤可使用从音频文件确定的参数以辨识如何将媒体效果(例如激活属性、过渡或其它)应用于所选择的媒体文件。例如，每当在歌曲中出现底鼓或小鼓时，可对媒体内容应用对应的激活属性或效果。施加在媒体内容中的效果的这些实施生成经修改的媒体文件。生成经修改的媒体文件可以是自动化的过程，该过程取决于将在使用歌曲与经修改的媒体文件组合地生成的音频-视频文件中与媒体内容相关联的基础歌曲或音频。

在不同例子中，可应用于媒体内容的一个或更多个媒体效果可包括以下中的一个或更多个：编辑，所述编辑包括改变媒体文件的样子以合并缩放、色彩转译或亮度调节中的一个或更多个；过渡，所述过渡包括一个或更多个淡入淡出或溶解效果；或调节与显示媒体内容相关联的强度、速度或时长的一个或更多个水平。在一些例子中，相同的媒体内容可具有不同类型的编辑，并且可如何将这些编辑应用于媒体内容也可以基于被选择为与媒体内容一起播放的歌曲的不同而不同。

图22示出一个示例性播放指令文件。如上文所指出的，在图9中，播放指令文件包括用于以与如果由个人进行的话专业视频编辑者将如何编辑视频部分的方式类似的方式自动对视频部分进行编辑的指令。指令可包括剪切2202和FX位置2204、过渡位置和时长(例如节段1-4、开始时间2206、终止时间2208等)和其它歌曲相关数据。图22中示出的示例播放指令示出了突显的一些指令，例如在效果位置2204和剪切位置2202在音频-视频文件中的位置处。

尽管多个例子和其它信息是用于解释本公开技术的范围内的方面的技术，不应基于这样的例子中的具体特征或设置暗示对该技术的限制，这是因为本领域技术人员能够使用这些例子推导出各种各样的实施方式。而且，尽管某些主题可能以专门用于结构性特征和/或方法步骤的例子的语言描述，但是应理解，本公开的主题不一定限于这些所描述的特征或动作。例如，这样的功能性可以以不同的方式分布或在与本文所认定的组成要素不同的组成要素中实施。相反地，所描述的特征和步骤是作为本公开范围内的方法和系统的组成要素的例子而公开的。

本公开的示意性例子包括：

例子1：一种生成媒体内容的方法，该方法包括：处理音频文件以确定该音频文件的一个或更多个参数；基于与所述音频文件相关联的皮肤来确定对应于该音频文件的该一个或更多个参数的一个或更多个媒体效果；对媒体文件施加该一个或更多个媒体效果以生成经修改的媒体文件，其中，该媒体文件不包括该音频文件；和生成包括该音频文件与该经修改的媒体文件的组合的音频-视频文件。

例子2：例子1的方法，还包括：基于由第一用户界面接收第一用户输入来从一个或更多个图像、照片或视频获得所述媒体文件。

例子3：例子2的方法，其中，所述第一用户界面包括第一下拉菜单，该第一下拉菜单用于显示所述一个或更多个图像、照片或视频的视觉展示和接收对应于所述第一用户输入的对所述一个或更多个图像、照片或视频的选择。

例子4：例子1至3中任一个的方法，还包括：基于由第二用户界面接收第二用户输入来从一个或更多个音乐、歌曲或其它音频数据获得所述音频文件。

例子5：例子1至4中任一个的方法，其中，所述第二用户界面包括第二下拉菜单，该第二下拉菜单用于显示所述一个或更多个音乐、歌曲或其它音频数据的视觉展示和接收对应于所述第二用户输入的对所述一个或更多个音乐、歌曲或其它音频数据的选择。

例子6：例子1至5中任一个的方法，还包括：基于由第三用户界面接收第三用户输入来从包括媒体效果的一个或更多个皮肤获得所述皮肤。

例子7：例子1至6中任一个的方法，其中，所述第三用户界面包括第三下拉菜单，该第三下拉菜单用于显示所述一个或更多个皮肤的视觉展示和接收对应于所述第三用户输入的对所述一个或更多个皮肤的选择。

例子8：例子1至7中任一个的方法，其中，处理所述音频文件以确定所述一个或更多个参数包括：确定所述音频文件的一个或更多个节段，其中，所述一个或更多个节段中的每个包括大体一致的能量水平，且在相邻节段之间具有对应于节拍的能量水平过渡；确定对于所述一个或更多个节段中的每个的一个或更多个特征，所述一个或更多个特征包括以下中的一个或更多个：出现鼓节拍、鼓节拍的类型或鼓节拍序列之间的距离；以及，基于对于所述一个或更多个节段中的每个的所述一个或更多个特征，来确定对于所述一个或更多个节段中的每个的节段类型唯一编号(STUN)，其中，所述音频文件的所述一个或更多个参数基于对于所述音频文件的所述一个或更多个节段中的每个的所述STUN。

例子9：例子1至8中任一个的方法，其中，所述一个或更多个媒体效果包括以下中的一个或更多个：编辑，该编辑包括改变所述媒体文件的样子以合并缩放、色彩转译或亮度调节中的一个或更多个；过渡，该过渡包括一个或更多个淡入淡出或溶解效果；或调节与显示所述媒体内容相关联的强度、速度或时长的一个或更多个水平。

例子10：一种系统，包括：一个或更多个处理器；和非暂态计算机可读存储介质，该介质包含指令，所述指令当在所述一个或更多个处理器上执行时使得所述一个或更多个处理器实施用于生成媒体内容的操作，所述操作包括：处理音频文件以确定该音频文件的一个或更多个参数；基于与所述音频文件相关联的皮肤，来确定对应于该音频文件的该一个或更多个参数的一个或更多个媒体效果；对媒体文件施加该一个或更多个媒体效果以生成经修改的媒体文件，其中，该媒体文件不包括该音频文件；以及，生成包括该音频文件与该经修改的媒体文件的组合的音频-视频文件。

例子11：例子10的系统，其中，所述操作还包括：基于由第一用户界面接收第一用户输入来从一个或更多个图像、照片或视频获得所述媒体文件。

例子12：例子11的系统，其中，所述第一用户界面包括第一下拉菜单，该第一下拉菜单用于显示所述一个或更多个图像、照片或视频的视觉展示和接收对应于所述第一用户输入的对所述一个或更多个图像、照片或视频的选择。

例子13：例子10至12中任一个的系统，其中，所述操作还包括：基于由第二用户界面接收第二用户输入来从一个或更多个音乐、歌曲或其它音频数据获得所述音频文件。

例子14：例子10至13中任一个的系统，其中，所述第二用户界面包括第二下拉菜单，该第二下拉菜单用于显示所述一个或更多个音乐、歌曲或其它音频数据的视觉展示和接收对应于所述第二用户输入的对所述一个或更多个音乐、歌曲或其它音频数据的选择。

例子15：例子10至14中任一个的系统，其中，所述操作还包括：基于由第三用户界面接收第三用户输入来从包括媒体效果的一个或更多个皮肤获得所述皮肤。

例子16：例子10至15中任一个的系统，其中，所述第三用户界面包括第三下拉菜单，该第三下拉菜单用于显示所述一个或更多个皮肤的视觉展示和接收对应于所述第三用户输入的对所述一个或更多个皮肤的选择。

例子17：例子10至16中任一个的系统，其中，处理所述音频文件以确定所述一个或更多个参数包括：确定所述音频文件的一个或更多个节段，其中，所述一个或更多个节段中的每个包括大体一致的能量水平，且在相邻节段之间具有对应于节拍的能量水平过渡；确定对于所述一个或更多个节段中的每个的一个或更多个特征，所述一个或更多个特征包括以下中的一个或更多个：鼓节拍的出现、鼓节拍的类型或鼓节拍序列之间的距离；以及，基于对于所述一个或更多个节段中的每个的所述一个或更多个特征，来确定对于所述一个或更多个节段中的每个的节段类型唯一编号(STUN)，其中，所述音频文件的所述一个或更多个参数基于对于所述音频文件的所述一个或更多个节段中的每个的所述STUN。

例子18：例子10至17中任一个的系统，其中，所述一个或更多个媒体效果包括以下中的一个或更多个：编辑，该编辑包括改变所述媒体文件的样子以合并缩放、色彩转译或亮度调节中的一个或更多个；过渡，该过渡包括一个或更多个淡入淡出或溶解效果；或调节与显示所述媒体内容相关联的强度、速度或时长的一个或更多个水平。

例子19：一种非暂态计算机可读介质，其上存储有指令，所述指令当被一个或更多个处理器执行时使得所述一个或更多个处理器：处理音频文件以确定该音频文件的一个或更多个参数；基于与所述音频文件相关联的皮肤，来确定对应于该音频文件的该一个或更多个参数的一个或更多个媒体效果；对媒体文件施加该一个或更多个媒体效果以生成经修改的媒体文件，其中，该媒体文件不包括该音频文件；以及，生成包括该音频文件与该经修改的媒体文件的组合的音频-视频文件。

例子20：例子19的非暂态计算机可读介质，其中，所述一个或更多个媒体效果包括以下中的一个或更多个：编辑，该编辑包括改变所述媒体文件的样子以合并缩放、色彩转译或亮度调节中的一个或更多个；过渡，该过渡包括一个或更多个淡入淡出或溶解效果；或调节与显示所述媒体内容相关联的强度、速度或时长的一个或更多个水平。

Claims

1.一种生成媒体内容的方法，所述方法包括：

处理音频文件以确定所述音频文件的一个或更多个参数，这包括：确定所述音频文件的一个或更多个节段，其中，所述一个或更多个节段中的每个包括大体一致的能量水平，且在相邻节段之间具有对应于节拍的能量水平过渡；确定对于所述一个或更多个节段中的每个的一个或更多个特征，所述一个或更多个特征包括以下中的一个或更多个：能量水平、鼓节拍的类型、每分钟节拍数；以及，基于对于所述一个或更多个节段中的每个的所述一个或更多个特征，来计算对于所述一个或更多个节段中的每个的节段类型唯一编号STUN的数值，其中，所述音频文件的一个或更多个参数基于对于所述一个或更多个节段中的每个的节段类型唯一编号STUN的数值；

通过选择包括媒体效果的皮肤，来确定要施加给媒体文件的一个或更多个媒体效果；

对所述媒体文件施加所述一个或更多个媒体效果以生成经修改的媒体文件，其中施加的位置和程度基于所述音频文件的一个或更多个参数；以及

生成包括所述音频文件与所述经修改的媒体文件的组合的音频-视频文件。

2.如权利要求1所述的方法，还包括：

基于由第一用户界面接收第一用户输入，来从一个或更多个图像、照片或视频获得所述媒体文件。

3.如权利要求2所述的方法，其中，所述第一用户界面包括第一下拉菜单，所述第一下拉菜单用于显示所述一个或更多个图像、照片或视频的视觉展示和接收对应于所述第一用户输入的对所述一个或更多个图像、照片或视频的选择。

4.如权利要求1所述的方法，还包括：

基于由第二用户界面接收第二用户输入，来从一个或更多个音乐、歌曲或其它音频数据获得所述音频文件。

5.如权利要求4所述的方法，其中，所述第二用户界面包括第二下拉菜单，所述第二下拉菜单用于显示所述一个或更多个音乐、歌曲或其它音频数据的视觉展示和接收对应于所述第二用户输入的对所述一个或更多个音乐、歌曲或其它音频数据的选择。

6.如权利要求1所述的方法，还包括：

基于由第三用户界面接收第三用户输入来从一个或更多个皮肤获得所述皮肤。

7.如权利要求6所述的方法，其中，所述第三用户界面包括第三下拉菜单，所述第三下拉菜单用于显示所述一个或更多个皮肤的视觉展示和接收对应于所述第三用户输入的对所述一个或更多个皮肤的选择。

8.如权利要求1所述的方法，其中，所述一个或更多个媒体效果包括以下中的一个或更多个：编辑，该编辑包括改变所述媒体文件的样子以合并缩放、色彩转译或亮度调节中的一个或更多个；过渡，该过渡包括一个或更多个淡入淡出或溶解效果；或调节与显示所述媒体内容相关联的强度、速度或时长的一个或更多个水平。

9.一种非暂态计算机可读存储介质，其上存储有指令，所述指令当被一个或更多个处理器执行时使得所述一个或更多个处理器实施如权利要求1至8之一所述的方法。

10. 一种系统，其包括：

一个或更多个处理器；和

如权利要求9所述的非暂态计算机可读存储介质。