CN112420004B

CN112420004B - 生成歌曲的方法、装置、电子设备及计算机可读存储介质

Info

Publication number: CN112420004B
Application number: CN201910779948.4A
Authority: CN
Inventors: 郝舫; 张跃; 白云飞
Original assignee: Beijing Fengqu Internet Information Service Co ltd
Current assignee: Hefei Shujuan Information Technology Co ltd
Priority date: 2019-08-22
Filing date: 2019-08-22
Publication date: 2024-11-15
Anticipated expiration: 2039-08-22
Also published as: CN112420004A

Abstract

本申请实施例提供了一种生成歌曲的方法、装置、电子设备及计算机可读存储介质。涉及语音处理技术领域，该方法包括：从用户选择的音频信息中提取旋律信息对应的多个第一音高信息，从用户输入的语音信息中，提取各个字分别对应的与音色相关的参数信息，然后基于旋律信息对应的多个第一音高信息确定各个字分别对应的第一音高信息，然后基于各个字分别对应的第一音高信息以及各个字分别对应的与音色相关的参数信息，生成歌曲。本申请实施例实现了提升生成歌曲的效果，并且不需要用户具备较高的歌唱技能，进而可以提升用户体验。

Description

生成歌曲的方法、装置、电子设备及计算机可读存储介质

技术领域

本申请涉及语音处理技术领域，具体而言，本申请涉及一种生成歌曲的方法、装置、电子设备及计算机可读存储介质。

背景技术

随着信息技术的发展，各种应用软件随之产生，尤其是与歌曲相关的应用软件，例如，歌唱合成系统。

现有的歌唱合成系统播放用户选择的歌曲的旋律或者在屏幕上显示针对用户选择的歌曲旋律的提示消息，用户需要根据播放的旋律或者屏幕上显示的针对歌曲旋律的提示消息进行唱歌，并进行录制，并将用户的唱歌声音与用户选择的歌曲旋律进行简单的合并，得到合并后的歌曲。

但是，上述歌唱合成系统中需要用户了解进行录制的歌曲的旋律，并且录制的是用户的针对这首歌曲的歌唱声音，因此对使用用户的歌唱技能要求较高；再者合成过程中仅是在录制的用户的歌唱声音中添加旋律，合并后的歌曲的效果也较差，用户体验较低。

发明内容

本申请提供了一种生成歌曲的方法、装置、电子设备及计算机可读存储介质，用于上述至少一种技术问题，具体的技术方案如下所示：

第一方面，提供了一种生成歌曲的方法，该方法包括：

从用户选择的音频信息中提取旋律信息对应的多个第一音高信息；

从用户输入的语音信息中，提取各个字分别对应的与音色相关的参数信息；

基于旋律信息对应的多个第一音高信息确定各个字分别对应的第一音高信息；

基于各个字分别对应的第一音高信息以及各个字分别对应的与音色相关的参数信息，生成歌曲。

在一种可能的实现方式中，基于旋律信息对应的多个第一音高信息确定各个字分别对应的第一音高信息，包括：

基于旋律信息与用户输入的语音信息中各个字之间的匹配关系，从旋律信息对应的多个第一音高信息中分别确定用于替换每个第二音高信息的第一音高信息，得到各个字分别对应的第一音高信息；

各个第二音高信息为用户输入的语音信息中各个字分别对应的原始音高信息。

在另一种可能的实现方式中，基于各个字分别对应的第一音高信息以及各个字分别对应与音色相关的参数信息，生成歌曲，包括：

基于第一类音高信息、第二类音高信息以及各个字分别对应的与音色相关的参数信息，生成歌曲；

其中，第一类音高信息包括：用于替换每个第二音高信息的第一音高信息；第二类音高信息包括：旋律信息对应的多个第一音高信息中除第一类音高信息之外的音高信息。

在另一种可能的实现方式中，基于各个字分别对应的第一音高信息以及各个字分别对应的与音色相关的参数信息，生成歌曲，之前还包括：

对各个字分别对应的与音色相关的参数信息进行预设处理，预设处理包括：插值处理以及采样处理中的至少一项；

其中，基于各个字分别对应的第一音高信息以及各个字分别对应的与音色相关的参数信息，生成歌曲，包括：

基于各个字分别对应的第一音高信息以及预设处理后各个字分别对应的与音色相关的参数信息，生成歌曲。

在另一种可能的实现方式中，对各个字分别对应的与音色相关的参数信息进行预设处理，之前还包括：

对旋律信息中各个音符分别对应的起始时间以及截止时间进行标注，得到标注后的旋律信息；

对各个字分别对应的与音色相关的参数信息进行预设处理，包括：

基于标注后的旋律信息，对各个字分别对应的音色相关的参数信息进行预设处理。

在另一种可能的实现方式中，从用户输入的语音信息中，提取各个字分别对应的与音色相关的参数信息，之前还包括：

获取用户输入的语音信息；

对用户输入的语音信息进行去噪处理。

在另一种可能的实现方式中，与音色相关的参数信息包括以下至少一项：

频谱包络参数SP；非周期序列信号AP。

第二方面，提供了一种生成歌曲的装置，该装置包括：

第一提取模块，用于从用户选择的音频信息中提取旋律信息对应的多个第一音高信息；

第二提取模块，用于从用户输入的语音信息中，提取各个字分别对应的与音色相关的参数信息；

确定模块，用于基于旋律信息对应的多个第一音高信息确定各个字分别对应的第一音高信息；

生成模块，用于基于各个字分别对应的第一音高信息以及各个字分别对应的与音色相关的参数信息，生成歌曲。

在一种可能的实现方式中，确定模块，具体用于基于旋律信息与用户输入的语音信息中各个字之间的匹配关系，从旋律信息对应的多个第一音高信息中分别确定用于替换每个第二音高信息的第一音高信息，得到各个字分别对应的第一音高信息；

其中，各个第二音高信息为用户输入的语音信息中各个字分别对应的原始音高信息。

在另一种可能的实现方式中，生成模块，具体用于基于第一类音高信息、第二类音高信息以及各个字分别对应的与音色相关的参数信息，生成歌曲；

在另一种可能的实现方式中，装置还包括：预设处理模块，其中，

预设处理模块，用于对各个字分别对应的与音色相关的参数信息进行预设处理，预设处理包括：插值处理以及采样处理中的至少一项；

生成模块，具体用于基于各个字分别对应的第一音高信息以及预设处理后各个字分别对应的与音色相关的参数信息，生成歌曲。

在另一种可能的实现方式中，装置还包括：标注模块，其中，

标注模块，用于对旋律信息中各个音符分别对应的起始时间以及截止时间进行标注，得到标注后的旋律信息；

预设处理模块，具体用于基于标注后的旋律信息，对各个字分别对应的音色相关的参数信息进行预设处理。

在另一种可能的实现方式中，装置还包括：获取模块以及去噪处理模块，其中，

获取模块，用于获取用户输入的语音信息；

去噪处理模块，用于对用户输入的语音信息进行去噪处理。

频谱包络参数SP；非周期序列信号AP。

第三方面，提供了一种电子设备，该电子设备包括：

一个或多个处理器；

存储器；

一个或多个应用程序，其中一个或多个应用程序被存储在存储器中并被配置为由一个或多个处理器执行，一个或多个程序配置用于：执行根据第一方面或者第一方面任一可能的实现方式所示的生成歌曲的方法对应的操作。

第四方面，提供了一种计算机可读存储介质，存储介质存储有至少一条指令、至少一段程序、代码集或指令集，至少一条指令、至少一段程序、代码集或指令集由处理器加载并执行以实现如第一方面或者第一方面任一可能的实现方式所示的生成歌曲的方法。

本申请实施例提供的技术方案带来的有益效果是：

本申请提供了一种生成歌曲的方法、装置、电子设备及计算机可读存储介质，与现有技术相比，本申请从用户选择的音频信息中提取旋律信息对应的多个第一音高信息，从用户输入的语音信息中，提取各个字分别对应的与音色相关的参数信息，然后基于旋律信息对应的多个第一音高信息确定各个字分别对应的第一音高信息，然后基于各个字分别对应的第一音高信息以及各个字分别对应的与音色相关的参数信息，生成歌曲。即本申请在生成歌曲时，是基于用户选择的旋律信息中的第一音高信息以及用户输入的语音信息中的与音色相关的参数信息进行生成的，并不是简单的在用户录制的歌唱声音中添加旋律，从而可以提升生成歌曲的效果，并且用户在生成歌曲时仅需要用户输入的语音信息，因此也不需要用户具备较高的歌唱技能，进而可以提升用户体验。

附图说明

为了更清楚地说明本申请实施例中的技术方案，下面将对本申请实施例描述中所需要使用的附图作简单地介绍。

图1为本申请实施例提供的一种生成歌曲的方法流程示意图；

图2为本申请实施例提供的一种生成歌曲的装置结构示意图；

图3为本申请实施例提供的一种生成歌曲的电子设备的结构示意图。

具体实施方式

下面详细描述本申请的实施例，所述实施例的示例在附图中示出，其中自始至终相同或类似的标号表示相同或类似的元件或具有相同或类似功能的元件。下面通过参考附图描述的实施例是示例性的，仅用于解释本申请，而不能解释为对本发明的限制。

本技术领域技术人员可以理解，除非特意声明，这里使用的单数形式“一”、“一个”、“所述”和“该”也可包括复数形式。应该进一步理解的是，本申请的说明书中使用的措辞“包括”是指存在所述特征、整数、步骤、操作、元件和/或组件，但是并不排除存在或添加一个或多个其他特征、整数、步骤、操作、元件、组件和/或它们的组。应该理解，当我们称元件被“连接”或“耦接”到另一元件时，它可以直接连接或耦接到其他元件，或者也可以存在中间元件。此外，这里使用的“连接”或“耦接”可以包括无线连接或无线耦接。这里使用的措辞“和/或”包括一个或更多个相关联的列出项的全部或任一单元和全部组合。

下面以具体地实施例对本申请的技术方案以及本申请的技术方案如何解决上述技术问题进行详细说明。下面这几个具体的实施例可以相互结合，对于相同或相似的概念或过程可能在某些实施例中不再赘述。下面将结合附图，对本申请的实施例进行描述。

本申请实施例提供了一种生成歌曲的方法，如图1所示，该方法包括：

步骤S101、从用户选择的音频信息中提取旋律信息对应的多个第一音高信息。

对于本申请实施例，用户选择的音频信息可以仅包含旋律信息，也可以包含旋律信息以及除旋律信息之外的信息。在本申请实施例中并不限定。

对于本申请实施例，音高指各种不同高低的声音，即音的高度，音的基本特征的一种。音的高低是由振动频率决定的，两者成正相关关系：频率(即单位时间内振动次数的多少)高则音"高"，反之则"低"。

步骤S102、从用户输入的语音信息中，提取各个字分别对应的与音色相关的参数信息。

对于本申请实施例，音色是指不同的声音的频率表现在波形方面总是有与众不同的特性。在本申请实施例中，与音色相关的参数信息包括：频谱包络参数SP以及非周期序列信号AP中的至少一项。

对于本申请实施例，语音是一个复杂的多频信号，各个频率成分具有不同的幅度，将它们按频率的大小加以排列时，其顶端所练成的曲线，成为语音频谱包络。包络线的形状是随所发的声音而变化的。声带振动产生的声波通过由口腔、鼻腔等构成的声道时将产生共振。共振的结果会使频谱的某些区域得到加强。因此，频谱包络线的形状因人而异。

对于本申请实施例，步骤S101可以在步骤S102之前执行，也可以在步骤S102之后执行，还可以与步骤S102同时执行。在本申请实施例中不做限定。

步骤S103、基于旋律信息对应的多个第一音高信息确定各个字分别对应的第一音高信息。

对于本申请实施例，从旋律信息对应的多个第一音高信息中选择出与各个字分别对应的第一音高信息，作为从用户输入的语音信息中提取的各个字分别对应的第一音高信息。

步骤S104、基于各个字分别对应的第一音高信息以及各个字分别对应的与音色相关的参数信息，生成歌曲。

对于本申请实施例，基于步骤S103确定出的各个字分别对应的第一音高信息以及步骤S102提取的各个字分别对应的与音色相关的参数信息，生成歌曲。

本申请实施例提供了一种生成歌曲的方法，与现有技术相比，本申请实施例从用户选择的音频信息中提取旋律信息对应的多个第一音高信息，从用户输入的语音信息中，提取各个字分别对应的与音色相关的参数信息，然后基于旋律信息对应的多个第一音高信息确定各个字分别对应的第一音高信息，然后基于各个字分别对应的第一音高信息以及各个字分别对应的与音色相关的参数信息，生成歌曲。即本申请实施例在生成歌曲时，是基于用户选择的旋律信息中的第一音高信息以及用户输入的语音信息中的与音色相关的参数信息进行生成的，并不是简单的在用户录制的歌唱声音中添加旋律，从而可以提升生成歌曲的效果，并且用户在生成歌曲时仅需要用户输入的语音信息，因此也不需要用户具备较高的歌唱技能，进而可以提升用户体验。

本申请实施例的一种可能的实现方式，步骤S103具体可以包括：步骤S1031(图中未示出)，其中，

步骤S1031、基于旋律信息与用户输入的语音信息中各个字之间的匹配关系，从旋律信息对应的多个第一音高信息中分别确定用于替换每个第二音高信息的第一音高信息，得到各个字分别对应的第一音高信息。

对于本申请实施例，从旋律信息中确定与用户输入语音信息中各个字相匹配的音符对应的第一音高信息，并将旋律信息中与用户输入的语音信息中各个字相匹配的音符信息对应的第一音高信息来替换各个字跟别对应的第二音高信息，或者作为用户输入的语音信息中各个字分别对应的音高信息。

本申请实施例的另一种可能的实现方式，步骤S104具体可以包括：步骤S1041(图中未示出)，其中，

步骤S1041、基于第一类音高信息、第二类音高信息以及各个字分别对应的与音色相关的参数信息，生成歌曲。

对于本申请实施例，第二类音高信息可以包括：除了第一类音高信息之外，前奏或者间奏等对应的音高信息；在本申请实施例中，通过基于第一类音高信息、第二类音高信息以及各个字分别对应的与音色相关的参数信息，生成歌曲，可以提高生成歌曲的完整度，进而可以提高生成的歌曲的效果，提升用户体验。

本申请实施例的另一种可能的实现方式，步骤S104之前还可以包括：步骤Sa(图中未示出)，其中，

步骤Sa、对各个字分别对应的与音色相关的参数信息进行预设处理。

其中，预设处理包括：插值处理以及采样处理中的至少一项。

对于本申请实施例，插值是离散函数逼近的重要方法，利用它可通过函数在有限个点处的取值状况，估算出函数在其他点处的近似值。

对于本申请实施例，对各个字分别对应的与音色相关的参数信息与音色相关的参数信息进行插值处理和/或采样处理，以使得插值和/或采样处理后各个字分别对应的与音色相关的参数信息与旋律中与各个字对应的音符的长短一致。

对于本申请实施例，与音色相关的参数信息可以包括：频谱包络参数SP以及非周期序列信号AP中的至少一项。在本申请实施例中，步骤Sa具体可以包括：对各个字分别对应的频谱包络参数进行插值处理和/或采样处理；以及对各个字分别对应的非周期序列信号进行插值处理和/或采样处理。

本申请实施例的另一种可能的实现方式，在步骤Sa的基础上，步骤S104具体可以包括：步骤S1042(图中未示出)，其中，

步骤S1042、基于各个字分别对应的第一音高信息以及预设处理后各个字分别对应的与音色相关的参数信息，生成歌曲。

对于本申请实施例，基于各个字分别对应的第一音高信息以及通过插值处理或者采样处理后各个字分别对应的与音色相关的参数信息，生成歌曲。

本申请实施例的另一种可能的实现方式，步骤Sa之前还可以包括：步骤Sb(图中未示出)，其中，

步骤Sb、对旋律信息中各个音符分别对应的起始时间以及截止时间进行标注，得到标注后的旋律信息。

对于本申请实施例，通过训练后的标注模型对旋律信息中各个音符分别对应的起始时间以及截止时间进行标注，得到标注后的旋律信息。

对于本申请实施例，获取用户通过哼唱方式输入的旋律信息，例如，通过哼唱“啦啦啦啦”的方式输入的旋律信息，然后从用户输入的旋律信息中获取对应的音频特征，例如，Mel频率倒谱系数MFCC，然后将从用户输入的旋律信息中获取到的MFCC通过训练后的标注模型，对“啦啦啦啦”中每个“啦”的标注的起始时间以及标注时间。

本申请实施例的另一种可能的实现方式，在步骤Sb的基础上，步骤Sa具体可以包括：步骤Sa1(图中未示出)，其中，

步骤Sa1、基于标注后的旋律信息，对各个字分别对应的音色相关的参数信息进行预设处理。

对于本申请实施例，通过对旋律信息进行标注处理，可以确定旋律信息中各个音符的起始时间以及截止时间，并根据确定出的各个音符的起始时间以及截止时间，对各个音符分别对应的各个字分别对应的音色信息进行插值处理或者采样处理。

例如，旋律信息中第一个音符的起始时间与截止时间分别为0′10″以及0′15″，则基于此对用户输入的语音信息中与第一个音符相对应的字按照第一个音符的起始时间与截止时间进行插值处理或者采样处理。

本申请实施例的另一种可能的实现方式，步骤S102之前还可以包括：步骤Sc(图中未示出)以及步骤Sd(图中未示出)，其中，

步骤Sc、获取用户输入的语音信息。

步骤Sd、对用户输入的语音信息进行去噪处理。

对于本申请实施例，通过以下至少一种算法对用户输入的语音信息进行去噪处理：

最小均方误差(Least Mean Square，LMS)自适应滤波器；LMS的自适应陷波器；谱减法；维纳滤波法。

对于本申请实施例，LMS自适应滤波器为利用前一刻已获得的滤波器参数，自动调节当前滤波器参数，以适应信号和噪声未知的或随机变化的统计特性，从而实现最优滤波。

对于本申请实施例，LMS的自适应陷波器适用于单色干扰噪声，如单频正弦波噪声，希望陷波器的特性理想，缺口的肩部任意窄，可马上进入平坦区域。

对于本申请实施例，谱减法用于在语音信号的频域上进行降噪处理。

对于本申请实施例，维纳滤波法即设计一个数字滤波器h(n)，使得输入的带噪语音信号与纯净语音信号的误差满足LMS准则。

对于本申请实施例，由于从用户输入的语音信息中，提取各个字分别对应的与音色相关的参数信息，因此通过对用户输入的语音信息进行去噪处理，可以提高从用户输入的语音信息中，提取各个字分别对应的与音色相关的参数信息的准确度，进而可以提升生成歌曲的效果，提升用户体验。

上述实施例从方法流程的角度介绍了一种生成歌曲的方法，下述从虚拟模块或者虚拟单元的角度介绍一种生成歌曲的装置，下述生成歌曲的装置适用于上述生成歌曲的方法，具体如下所示：

本申请实施例提供了一种生成歌曲的装置，如图2所示，生成歌曲的装置20具体可以包括：第一提取模块21、第二提取模块22、确定模块23以及生成模块24，其中，

第一提取模块21，用于从用户选择的音频信息中提取旋律信息对应的多个第一音高信息。

第二提取模块22，用于从用户输入的语音信息中，提取各个字分别对应的与音色相关的参数信息。

对于本申请实施例，第一提取模块21与第二提取模块22可以为同一提取模块，还可以为不同的提取模块。在本申请实施例中不做限定。

确定模块23，用于基于旋律信息对应的多个第一音高信息确定各个字分别对应的第一音高信息。

生成模块24，用于基于各个字分别对应的第一音高信息以及各个字分别对应的与音色相关的参数信息，生成歌曲。

本申请实施例的另一种可能的实现方式，确定模块23，具体用于基于旋律信息与用户输入的语音信息中各个字之间的匹配关系，从旋律信息对应的多个第一音高信息中分别确定用于替换每个第二音高信息的第一音高信息，得到各个字分别对应的第一音高信息。

本申请实施例的另一种可能的实现方式，生成模块24，具体用于基于第一类音高信息、第二类音高信息以及各个字分别对应的与音色相关的参数信息，生成歌曲。

本申请实施例的另一种可能的实现方式，装置20还包括：预设处理模块，其中，

预设处理模块，用于对各个字分别对应的与音色相关的参数信息进行预设处理。

生成模块24，具体用于基于各个字分别对应的第一音高信息以及预设处理后各个字分别对应的与音色相关的参数信息，生成歌曲。

本申请实施例的另一种可能的实现方式，装置20还包括：标注模块，其中，

标注模块，用于对旋律信息中各个音符分别对应的起始时间以及截止时间进行标注，得到标注后的旋律信息.

本申请实施例的另一种可能的实现方式，装置20还包括：获取模块以及去噪处理模块，其中，

获取模块，用于获取用户输入的语音信息；

去噪处理模块，用于对用户输入的语音信息进行去噪处理。

本申请实施例的另一种可能的实现方式，与音色相关的参数信息包括以下至少一项：

频谱包络参数SP；非周期序列信号AP。

本申请实施例提供了一种生成歌曲的装置，与现有技术相比，本申请实施例从用户选择的音频信息中提取旋律信息对应的多个第一音高信息，从用户输入的语音信息中，提取各个字分别对应的与音色相关的参数信息，然后基于旋律信息对应的多个第一音高信息确定各个字分别对应的第一音高信息，然后基于各个字分别对应的第一音高信息以及各个字分别对应的与音色相关的参数信息，生成歌曲。即本申请实施例在生成歌曲时，是基于用户选择的旋律信息中的第一音高信息以及用户输入的语音信息中的与音色相关的参数信息进行生成的，并不是简单的在用户录制的歌唱声音中添加旋律，从而可以提升生成歌曲的效果，并且用户在生成歌曲时仅需要用户输入的语音信息，因此也不需要用户具备较高的歌唱技能，进而可以提升用户体验。

本实施例的生成歌曲的装置可执行上述方法实施例提供的一种生成歌曲的方法，其实现原理相类似，此处不再赘述。

上述实施例从方法流程的角度介绍生成歌曲的方法以及从虚拟模块、虚拟单元的角度介绍了生成歌曲的装置，下述从实体结构的角度介绍一种电子设备，用于执行上述生成歌曲的方法实施例，具体如下所示：

本申请实施例提供了一种电子设备，如图3所示，图3所示的电子设备3000包括：处理器3001和存储器3003。其中，处理器3001和存储器3003相连，如通过总线3002相连。可选地，电子设备3000还可以包括收发器3004。需要说明的是，实际应用中收发器3004不限于一个，该电子设备3000的结构并不构成对本申请实施例的限定。

处理器3001可以是CPU，通用处理器，DSP，ASIC，FPGA或者其他可编程逻辑器件、晶体管逻辑器件、硬件部件或者其任意组合。其可以实现或执行结合本申请公开内容所描述的各种示例性的逻辑方框，模块和电路。处理器3001也可以是实现计算功能的组合，例如包含一个或多个微处理器组合，DSP和微处理器的组合等。

总线3002可包括一通路，在上述组件之间传送信息。总线3002可以是PCI总线或EISA总线等。总线3002可以分为地址总线、数据总线、控制总线等。为便于表示，图3中仅用一条粗线表示，但并不表示仅有一根总线或一种类型的总线。

存储器3003可以是ROM或可存储静态信息和指令的其他类型的静态存储设备，RAM或者可存储信息和指令的其他类型的动态存储设备，也可以是EEPROM、CD-ROM或其他光盘存储、光碟存储(包括压缩光碟、激光碟、光碟、数字通用光碟、蓝光光碟等)、磁盘存储介质或者其他磁存储设备、或者能够用于携带或存储具有指令或数据结构形式的期望的程序代码并能够由计算机存取的任何其他介质，但不限于此。

存储器3003用于存储执行本申请方案的应用程序代码，并由处理器3001来控制执行。处理器3001用于执行存储器3003中存储的应用程序代码，以实现前述任一方法实施例所示的内容。

本申请实施例提供了一种电子设备，本申请实施例中的电子设备包括：存储器和处理器；至少一个程序，存储于所述存储器中，用于被所述处理器执行时，与现有技术相比可实现：本申请实施例从用户选择的音频信息中提取旋律信息对应的多个第一音高信息，从用户输入的语音信息中，提取各个字分别对应的与音色相关的参数信息，然后基于旋律信息对应的多个第一音高信息确定各个字分别对应的第一音高信息，然后基于各个字分别对应的第一音高信息以及各个字分别对应的与音色相关的参数信息，生成歌曲。即本申请实施例在生成歌曲时，是基于用户选择的旋律信息中的第一音高信息以及用户输入的语音信息中的与音色相关的参数信息进行生成的，并不是简单的在用户录制的歌唱声音中添加旋律，从而可以提升生成歌曲的效果，并且用户在生成歌曲时仅需要用户输入的语音信息，因此也不需要用户具备较高的歌唱技能，进而可以提升用户体验。

本申请实施例提供了一种计算机可读存储介质，该计算机可读存储介质上存储有计算机程序，当其在计算机上运行时，使得计算机可以执行前述方法实施例中相应内容。与现有技术相比，本申请实施例从用户选择的音频信息中提取旋律信息对应的多个第一音高信息，从用户输入的语音信息中，提取各个字分别对应的与音色相关的参数信息，然后基于旋律信息对应的多个第一音高信息确定各个字分别对应的第一音高信息，然后基于各个字分别对应的第一音高信息以及各个字分别对应的与音色相关的参数信息，生成歌曲。即本申请实施例在生成歌曲时，是基于用户选择的旋律信息中的第一音高信息以及用户输入的语音信息中的与音色相关的参数信息进行生成的，并不是简单的在用户录制的歌唱声音中添加旋律，从而可以提升生成歌曲的效果，并且用户在生成歌曲时仅需要用户输入的语音信息，因此也不需要用户具备较高的歌唱技能，进而可以提升用户体验。

应该理解的是，虽然附图的流程图中的各个步骤按照箭头的指示依次显示，但是这些步骤并不是必然按照箭头指示的顺序依次执行。除非本文中有明确的说明，这些步骤的执行并没有严格的顺序限制，其可以以其他的顺序执行。而且，附图的流程图中的至少一部分步骤可以包括多个子步骤或者多个阶段，这些子步骤或者阶段并不必然是在同一时刻执行完成，而是可以在不同的时刻执行，其执行顺序也不必然是依次进行，而是可以与其他步骤或者其他步骤的子步骤或者阶段的至少一部分轮流或者交替地执行。

以上所述仅是本发明的部分实施方式，应当指出，对于本技术领域的普通技术人员来说，在不脱离本发明原理的前提下，还可以做出若干改进和润饰，这些改进和润饰也应视为本发明的保护范围。

Claims

1.一种生成歌曲的方法，其特征在于，包括：

基于所述旋律信息与所述用户输入的语音信息中各个字之间的匹配关系，从所述旋律信息对应的多个第一音高信息中分别确定用于替换每个第二音高信息的第一音高信息，得到所述各个字分别对应的第一音高信息；所述各个第二音高信息为所述用户输入的语音信息中各个字分别对应的原始音高信息；

对所述旋律信息中各个音符分别对应的起始时间以及截止时间进行标注，得到各个音符分别对应的起始时间和终止时间；

基于所述各个音符分别对应的起始时间和终止时间，对各个音符分别对应的各个字分别对应的音色信息进行插值处理或者采样处理；

基于所述各个字分别对应的第一音高信息以及通过插值处理或者采样处理后各个字分别对应的与音色相关的参数信息，生成歌曲。

2.根据权利要求1所述的方法，其特征在于，所述基于所述各个字分别对应的第一音高信息以及所述各个字分别对应与音色相关的参数信息，生成歌曲，包括：

基于第一类音高信息、第二类音高信息以及所述各个字分别对应的与音色相关的参数信息，生成歌曲；

其中，所述第一类音高信息包括：所述用于替换每个第二音高信息的第一音高信息；所述第二类音高信息包括：所述旋律信息对应的多个第一音高信息中除所述第一类音高信息之外的音高信息。

3.根据权利要求1所述的方法，其特征在于，所述从用户输入的语音信息中，提取各个字分别对应的与音色相关的参数信息，之前还包括：

获取用户输入的语音信息；

对所述用户输入的语音信息进行去噪处理。

4.根据权利要求1-3任一项所述的方法，其特征在于，所述与音色相关的参数信息包括以下至少一项：

频谱包络参数SP；非周期序列信号AP。

5.一种生成歌曲的装置，其特征在于，包括：

确定模块，用于基于所述旋律信息与所述用户输入的语音信息中各个字之间的匹配关系，从所述旋律信息对应的多个第一音高信息中分别确定用于替换每个第二音高信息的第一音高信息，得到所述各个字分别对应的第一音高信息；所述各个第二音高信息为所述用户输入的语音信息中各个字分别对应的原始音高信息；

标注模块，用于对所述旋律信息中各个音符分别对应的起始时间以及截止时间进行标注，得到各个音符分别对应的起始时间和终止时间；

预设处理模块，用于基于所述各个音符分别对应的起始时间和终止时间，对各个音符分别对应的各个字分别对应的音色信息进行插值处理或者采样处理；

生成模块，用于基于所述各个字分别对应的第一音高信息以及通过插值处理或者采样处理后各个字分别对应的与音色相关的参数信息，生成歌曲。

6.根据权利要求5所述的装置，其特征在于，

所述生成模块，具体用于基于第一类音高信息、第二类音高信息以及所述各个字分别对应的与音色相关的参数信息，生成歌曲；

7.根据权利要求5所述的装置，其特征在于，所述装置还包括：获取模块以及去噪处理模块，其中，

所述获取模块，用于获取用户输入的语音信息；

所述去噪处理模块，用于对所述用户输入的语音信息进行去噪处理。

8.根据权利要求5-7任一项所述的装置，其特征在于，所述与音色相关的参数信息包括以下至少一项：

频谱包络参数SP；非周期序列信号AP。

9.一种电子设备，其特征在于，其包括：

一个或多个处理器；

存储器；

一个或多个应用程序，其中所述一个或多个应用程序被存储在所述存储器中并被配置为由所述一个或多个处理器执行，所述一个或多个程序配置用于：执行根据权利要求1~4任一项所述的生成歌曲的方法。

10.一种计算机可读存储介质，其特征在于，所述存储介质存储有至少一条指令、至少一段程序、代码集或指令集，所述至少一条指令、所述至少一段程序、所述代码集或指令集由处理器加载并执行以实现如权利要求1~4任一所述的生成歌曲的方法。