CN105590633A

CN105590633A - 一种用于歌曲评分的曲谱生成方法和设备

Info

Publication number: CN105590633A
Application number: CN201510784342.1A
Authority: CN
Inventors: 张瑞怀; 董昌朝; 刘小峰; 陈伟煌
Original assignee: Fujian Bailiheng Information Technology Co Ltd
Current assignee: Fujian Bailiheng Information Technology Co Ltd
Priority date: 2015-11-16
Filing date: 2015-11-16
Publication date: 2016-05-18

Abstract

一种用于歌曲评分的曲谱生成方法和设备，其涉及一种音频数据中的信息提取，特别涉及从歌曲中提取曲谱生的方法。包括下述步骤：S010、获取原唱音轨中的一段实信号X0和伴奏音轨中与实信号X0对应的一段实信号X1；S020、对上述实信号X0和X1实施加窗离散傅里叶变换，得到对应原唱音轨的能量分布谱X0’和对应伴奏音轨的能量分布谱X1’；S030、根据能量分布谱X0’和能量分布谱X1’计算原唱音轨与伴奏音轨在各频段上能量的差值，根据差值获得人声能量分布谱Xmag_diff。本方法提供一种批量生成乐谱的方法。

Description

一种用于歌曲评分的曲谱生成方法和设备

技术领域

涉及一种音频数据中的信息提取，特别涉及从歌曲中提取曲谱生的方法。

背景技术

音乐是人类文明的一大产物，音乐不仅仅是一种文明艺术，更是一种社会文化；不同的音乐具有不同的社会功效，优秀的音乐更具有陶冶情操和灵魂升华的功能。音乐产业在全世界的娱乐文化产业中占有巨大比例，与影视产业、游戏动漫产业也有千丝万缕的联系。

音乐有许多种类型，歌曲大约是最大的一种。从一首歌曲的内容来看，有三大组成部分：词、曲、编曲。而“曲”则是一首歌最具显著的特征，是歌曲之间最显著的区别所在。一首歌的“曲”由伴奏谱和人声谱组成。作为一首歌，人声的部分更是一首歌曲最关键的要素。

作为一首歌最关键的要素，人声谱是各种基于内容的音乐信息检索或比对功能的根基——例如哼唱检索、音乐原创性比对、基于音乐相似度的推荐算法；另外，人声谱的也是音乐教学领域、音乐创作领域当中重要的素材。

发明人在实现本发明时发现，想要获取歌曲中的人声谱有三种方法，第一种方法是由歌曲所属的唱片公司直接提供，但是在大多数情况下，唱片公司不会公开出歌曲原始的人声谱，所以大多情况下往往无法使用第一种方法。

第二种是由有音乐训练的工作人员听写出来，是非常的原始和低效的，虽然准确率是最高的，但是这种方法不能够快速而自动化地完成，而且人力成本很高，特别不适用于处理大批量歌曲。

第三种是从音频信号处理的角度出发，基于人声和各式各样的乐器的声学特征、或基于其他的监督或无监督机器学习方法，提取出来人声谱。但是在现如今的常见音乐制作过程中，在混缩前的各种人声、器乐轨都有可能应用各种效果器，而且不同混缩过程都有可能再叠加各种未知的效果器，所以这个问题变成了半盲源或者全盲源信号分离，所以这种方法变得更加困难，得出来的人声谱准确性不高。

以上三种方法，均不能够满足自动化高效地批量计算出海量歌曲的人声谱的目的。

发明内容

以下给出对一个或更多个方面的简化概述以力图提供对此类方面的基本理解。此概述不是所有构想到的方面的详尽综览，并且既非旨在指认出所有方面的关键性或决定性要素亦非试图界定任何或所有方面的范围。其唯一的目的是要以简化形式给出一个或更多个方面的一些概念以作为稍后给出的更加具体的说明之序。

为此，需要提供一种自动化高效地批量计算出海量歌曲的人声谱的目的方法和设备

为实现上述目的，发明人提供了一种用于歌曲评分的曲谱生成方法，其特征在于，包括步骤，S010、获取原唱音轨中的一段实信号X0和伴奏音轨中与实信号X0对应的一段实信号X1；S020、对上述实信号X0和X1实施加窗离散傅里叶变换，得到对应原唱音轨的能量分布谱X0’和对应伴奏音轨的能量分布谱X1’；S030、根据能量分布谱X0’和能量分布谱X1’计算原唱音轨与伴奏音轨在各频段上能量的差值，根据差值获得人声能量分布谱Xmag_diff。S040、根据人声能量分布谱Xmag_diff计算基础频率；将歌曲分段并对各分段实施上述S010～S040步骤，获得各分段对应的基础频率，将各分段对应的基础频率按照时间顺序拼接，即得到用于歌曲评分的曲谱。

区别于现有技术，上述技术方案从对应原唱音轨的实信号X0和对应伴唱音轨的实信号X1中计算获得人声能量的部分，从而根据人声的能量确定人声的频率(也被称作音调)，使用本方法，可以抵消伴奏中混杂的各种人声、器乐以及各种效果器的影响，增加了人声识别的准确性。以及使用本方法能够高效自动化的批量处理歌曲，以获得人声部分的乐谱，人声部分的乐谱可以进一步用于唱歌的评分系统。为能达成前述及相关目的，这一个或更多个方面包括在下文中充分描述并在所附权利要求中特别指出的特征。以下描述和附图详细阐述了这一个或更多个方面的某些说明性特征。但是，这些特征仅仅是指示了可采用各种方面的原理的各种方式中的若干种，并且本描述旨在涵盖所有此类方面及其等效方面。

附图说明

以下将结合附图来描述所公开的方面，提供附图是为了说明而非限定所公开的方面，附图中相似的标号标示相似要素，并且在其中：

图1为本发明的一种实施方法；

图2为某一首歌的原唱音轨和伴奏音轨示意图；

图3为得到对应原唱音轨的能量分布谱X0’和对应伴奏音轨的能量分布谱X1’；

图4为获得的人声能量分布谱X_{mag_diff}；

图5为获得的用于歌曲评分的曲谱；

图6为本发明的一种实施方式对应的模块图。

附图标记说明：

10、预处理模块；

20、实信号获取模块；

30、能量计算模块；

40、基础频率计算模块；

50、曲谱合成模块。

具体实施方式

为详细说明技术方案的技术内容、构造特征、所实现目的及效果，以下结合具体实施例并配合附图详予说明。在以下描述中，出于解释目的阐述了众多的具体细节以提供对一个或更多个方面的透彻理解。但是显而易见的是，没有这些具体细节也可实践此类方面。

本发明提供一种用于歌曲评分的曲谱生成方法，参见图1，步骤如下，

S010、获取原唱音轨中的一段实信号X0和伴奏音轨中与实信号X0对应的一段实信号X1；

S020对上述实信号X0和X1实施加窗傅里叶变换，得到对应原唱音轨的能量分布谱X0’和对应伴奏音轨的能量分布谱X1’；

S030、根据能量分布谱X0’和能量分布谱X1’计算原唱音轨与伴奏音轨在各频段上能量的差值，根据差值获得人声能量分布谱X_{mag_diff}。

S040、根据人声能量分布谱X_{mag_dif}f计算基础频率；

将歌曲分段并对各分段实施上述S010～S040步骤，获得各分段对应的基础频率，将各分段对应的基础频率按照时间顺序拼接，即得到用于歌曲评分的曲谱。

人声能量分布谱X_{mag_diff}也被称为人声幅值谱。

在一些实施例中，上述方法具体为，获得一首歌原唱音轨的实信号和伴奏音轨的实信号，然后对它们做加窗傅立叶变换，对窗内的短时信号计算频谱，本方法中通过傅里叶变换得到的是在一段时间内的频域分布(即能量谱)。优选的分析使用的窗口长度为4096个采样点，步移长度256个采样点。例如，图2所示的是某一歌曲做加窗傅里叶变换时，所使用的对应原唱音轨的实信号X0和对应伴唱音轨的实信号X1。实信号X0和实信号X1是具有4096采样点的短时信号(对应所述歌曲的1:26.600～1:26.685部分)。获得实信号X1和X2之后，分别对实信号X0和X1做Hamming加窗傅立叶变换，然后分别得到对应原唱音轨的能量分布谱X0’和对应伴奏音轨的能量分布谱X1’，对某一首歌的某一连续的4096各采样点做傅里叶变换后得到的能量分布谱X0’和X1’如图3所示，图中上方的是X0’,下方的是X1’)。

对上述实信号X0和实信号X1实施傅里叶变换，可以是，

X0’＝fft(x0·w)

X1’＝fft(x1·w)

w (n) = 0.53836 - 0.46164 \cos (\frac{2 π n}{N - 1})

可以理解的是，可以使用其他傅里叶变换实现算法或其改进算法，以根据实信号求得能量分布。例如其他傅里叶变换方法，而采用不同的算法，所得到的X0’和X1’和上述图示X中的X0’和X1’相比，可能是不同。

根据上述计算得出的原唱音轨的能量分布谱X0’和伴奏音轨的能量分布谱X1’计算原唱音轨与伴奏音轨的人声能量分布谱X_mag__diff,优选的计算方法为：

式1:

其中

可以理解的是，等式右边可以乘以任意的常量，都为本方法的变式。例如本方法的变式还可以为：

式2:

其中

某一歌曲的某一段的原唱音轨的能量分布谱X0’和伴奏音轨的能量分布谱X1’计算出的人声能量分布谱X_{mag_diff}如图4所示。可以理解的是采用不同的计算方法，所得到的图谱可能是有差异的。

有选的根据人声能量分布谱X_{mag_diff}计算基础频率，包括下述具体步骤：

对人声音域频率范围内的每一频段采样，分别结合人声能量分布谱X_{mag_diff}计算对应该采样频率段的能量加权平均总和maxAvgDb；计算各采样频段对应的能量加权平均总和maxAvgDb中的最大值maxOfMaxAvgDbs，该最大值maxOfMaxAvgDbs对应的谐波为谐波bestOfBestFreq，则该谐波bestOfBestFreq对应频率为基础频率；

所述计算对应该采样频段的能量加权平均总和包括步骤：计算该采样频段的各种可能的谐波和各谐波分别对应的能量加权平均总和avgDb，以及计算各谐波对应的能量加权平均总和avgDb中的最大值maxAvgDb，该最大值maxAvgDb对应的谐波bestFreq，则谐波bestFreq对应的频率为该采样频段最可能的基础频率。在另一些实施例中,若最大值maxOfMaxAvgDbs小于设定值，则该分段不生成音调，即该段时间内无人声。设定值时不同的计算方法，设定值可以是不同的，影响设定值的计算方法有：根据计算能量分布谱X0’和能量分布谱X1’的方法,以及计算人声能量分布谱X_{mag_diff}的方法，以及根据根据人声能量分布谱X_{mag_diff}计算基础频率的方法。

上述根据人声能量分布谱X_{mag_diff}计算基础频率的方法用伪代码表示为：

通过上述方法计算某一首歌得出的用于歌曲评分的曲谱如图5所示(图中仅显示一该曲谱的小段)。

通过上述方法，从对应原唱音轨的实信号X0和对应伴唱音轨的实信号X1中计算获得人声能量的部分，从而根据人声的能量确定人声的频率(也被称作音调)，使用本方法，可以抵消伴奏中混杂的各种人声、器乐以及各种效果器的影响，增加了人声识别的准确性。以及使用本方法能够高效自动化的批量处理歌曲，以获得人声部分的乐谱，人声部分的乐谱可以进一步用于唱歌的评分系统。

在步骤获取原唱音轨中的一段实信号X0和伴奏音轨中与实信号X0对应的一段实信号X1之前还包括步骤将MPG格式的MV中的原唱音轨与伴奏音轨分离出来。

将MPG格式的MV中的原唱音轨与伴奏音轨分离出来。另外，要把双声道的音轨通过PCA(主成分分析方法)提取主成分为单声道的原唱轨和伴奏轨。如图2所示，上半部分的一维实信号是提取后的原唱单声道、下半部分的一维实信号是提取后的伴奏单声道。

发明人还提供一种一种电子设备，用于生成歌曲评分的曲谱，其特征在于，包括实信号获取模块、能量计算模块、基础频率计算模块、曲谱合成模块；

所述实信号获取模块用于获取原唱音轨中的一段实信号X0和伴奏音轨中与实信号X0对应的一段实信号X1；

所述能量计算模块，用于根据实信号X0和X1，并对X0和X1实施傅里叶变换，得到对应原唱音轨的能量分布谱X0’和对应伴奏音轨的能量分布谱X1’；以及根据能量分布谱X0’和能量分布谱X1’计算原唱音轨与伴奏音轨在各频段上能量的差值，根据差值获得人声能量分布谱X_{mag_diff}；

所述基础频率计算模块用于根据人声能量分布谱X_{mag_dif}f计算基础频率；

所述曲谱合成模块用于将基础评论计算模块计算出的基础频率合为用于歌曲评分的曲谱。

在另一些实施例中，优选的能量计算模块用于根据傅里叶变换方法分别得到对应原唱音轨的能量分布谱X0’和对应伴奏音轨的能量分布谱X1’。

在另一些实施例中，优选的能量计算模块用于根据能量分布谱X0’和对应伴奏音轨的能量分布谱X1’计算出人声能量分布谱，所述计算式为：

其中

在另一些实施例中，优选的所述基础频率计算模块用于对人声音域频率范围内的每一采样频段，分别结合人声能量分布谱X_mag__diff计算对应该采样频率段的能量加权平均总和maxAvgDb；计算各采样频段对应的能量加权平均总和maxAvgDb中的最大值maxOfMaxAvgDbs，该最大值maxOfMaxAvgDbs对应的谐波为谐波bestOfBestDiv，则该谐波bestOfBestDiv对应频率为基础频率；所述计算对应该采样频段的能量加权平均总和包括步骤：计算该采样频段的各种可能的谐波和各谐波分别对应的能量加权平均总和avgDb，以及计算各谐波对应的能量加权平均总和avgDb中的最大值maxAvgDb，该最大值maxAvgDb对应的谐波bestDiv，则谐波bestDiv对应的频率为该采样频段最可能的基础频率。若最大值maxOfMaxAvgDbs小于设定值，则对应分段中无人声成分。

在另一些实施例中，优选的还包括预处理模块，所述预处理模块用于将歌曲文件中的原唱音轨与伴奏音轨分离出来。

可以理解的是歌曲文件可以使视频文件，也可以是音频文件。需要说明的是，在本文中，诸如第一和第二等之类的关系术语仅仅用来将一个实体或者操作与另一个实体或操作区分开来，而不一定要求或者暗示这些实体或操作之间存在任何这种实际的关系或者顺序。而且，术语“包括”、“包含”或者其任何其他变体意在涵盖非排他性的包含，从而使得包括一系列要素的过程、方法、物品或者终端设备不仅包括那些要素，而且还包括没有明确列出的其他要素，或者是还包括为这种过程、方法、物品或者终端设备所固有的要素。在没有更多限制的情况下，由语句“包括……”或“包含……”限定的要素，并不排除在包括所述要素的过程、方法、物品或者终端设备中还存在另外的要素。此外，在本文中，“大于”、“小于”、“超过”等理解为不包括本数；“以上”、“以下”、“以内”等理解为包括本数。

本领域内的技术人员应明白，上述各实施例可提供为方法、装置、或计算机程序产品。这些实施例可采用完全硬件实施例、完全软件实施例、或结合软件和硬件方面的实施例的形式。上述各实施例涉及的方法中的全部或部分步骤可以通过程序来指令相关的硬件来完成，所述的程序可以存储于计算机设备可读取的存储介质中，用于执行上述各实施例所述的全部或部分步骤。所述计算机设备，包括但不限于：个人计算机、服务器、通用计算机、专用计算机、网络设备、嵌入式设备、可编程设备、智能移动终端、智能家居设备、穿戴式智能设备、车载智能设备等；所述的存储介质，包括但不限于：RAM、ROM、磁碟、磁带、光盘、闪存、U盘、移动硬盘、存储卡、记忆棒、网络服务器存储、网络云存储等。

上述各实施例是参照根据实施例所述的方法、设备(系统)、和计算机程序产品的流程图和/或方框图来描述的。应理解可由计算机程序指令实现流程图和/或方框图中的每一流程和/或方框、以及流程图和/或方框图中的流程和/或方框的结合。可提供这些计算机程序指令到计算机设备的处理器以产生一个机器，使得通过计算机设备的处理器执行的指令产生用于实现在流程图一个流程或多个流程和/或方框图一个方框或多个方框中指定的功能的装置。

这些计算机程序指令也可存储在能引导计算机设备以特定方式工作的计算机设备可读存储器中，使得存储在该计算机设备可读存储器中的指令产生包括指令装置的制造品，该指令装置实现在流程图一个流程或多个流程和/或方框图一个方框或多个方框中指定的功能。

这些计算机程序指令也可装载到计算机设备上，使得在计算机设备上执行一系列操作步骤以产生计算机实现的处理，从而在计算机设备上执行的指令提供用于实现在流程图一个流程或多个流程和/或方框图一个方框或多个方框中指定的功能的步骤。

尽管已经对上述各实施例进行了描述，但本领域内的技术人员一旦得知了基本创造性概念，则可对这些实施例做出另外的变更和修改，所以以上所述仅为本发明的实施例，并非因此限制本发明的专利保护范围，凡是利用本发明说明书及附图内容所作的等效结构或等效流程变换，或直接或间接运用在其他相关的技术领域，均同理包括在本发明的专利保护范围之内。

Claims

1.一种用于歌曲评分的曲谱生成方法，其特征在于，包括步骤，

S020、对上述实信号X0和X1实施加窗离散傅里叶变换，得到对应原唱音轨的能量分布谱X0’和对应伴奏音轨的能量分布谱X1’；

S030、根据原唱音轨的能量分布谱X0’和伴奏音轨的能量分布谱X1’计算原唱音轨与伴奏音轨在各频段上能量的差值，根据差值获得人声能量分布谱X_{mag_diff}；

S040、根据人声能量分布谱X_{mag_diff}计算基础频率；

2.如权利要求1所述的一种用于歌曲评分的曲谱生成方法，其特征在于，所述根据原唱音轨的能量分布谱X0’和伴奏音轨的能量分布谱X1’计算原唱音轨与伴奏音轨的人声能量分布谱X_{mag_diff},具体为：

。

其中i＝1，2...，N

3.如权利要求1所述的一种用于歌曲评分的曲谱生成方法，其特征在于，对上述实信号X0和实信号X1实施加窗傅里叶变换，分别得到对应原唱音轨的能量分布谱X0’和对应伴奏音轨的能量分布谱X1’的具体为：

X0’＝fft(x0·w)

X1’＝fft(x1·w)

。

4.如权利要求1所述的一种用于歌曲评分的曲谱生成方法，其特征在于，所述根据人声能量分布谱X_{mag_diff}计算基础频率，包括步骤：

对人声音域频率范围内的每一频率采样，分别结合人声能量分布谱X_{mag_diff}计算对应该采样频率段的能量加权平均总和maxAvgDb；计算各采样频段对应的能量加权平均总和maxAvgDb中的最大值maxOfMaxAvgDbs，该最大值maxOfMaxAvgDbs对应的谐波为谐波bestOfBestFreq，则该谐波bestOfBestFreq对应频率为基础频率；

所述计算对应该采样频段的能量加权平均总和包括步骤：计算该采样频段的各种可能的谐波和各谐波分别对应的能量加权平均总和avgDb，以及计算各谐波对应的能量加权平均总和avgDb中的最大值maxAvgDb，该最大值maxAvgDb对应的谐波bestFreq，则谐波bestFreq对应的频率为该采样频段最可能的基础频率。

5.如权利要求4所述的一种用于歌曲评分的曲谱生成方法，其特征在于，若最大值maxOfMaxAvgDbs小于设定值，则该时段不生成音调。

6.如权利要求1所述的一种用于歌曲评分的曲谱生成方法，其特征在于，在步骤获取原唱音轨中的一段实信号X0和伴奏音轨中与实信号X0对应的一段实信号X1之前还包括步骤歌曲文件中的原唱音轨与伴奏音轨分离出来。

7.一种电子设备，用于生成歌曲评分的曲谱，其特征在于，包括实信号获取模块、能量计算模块、基础频率计算模块、曲谱合成模块；

所述能量计算模块，用于根据实信号X0和X1，并对X0和X1实施傅里叶变换，得到对应原唱音轨的能量分布谱X0’和对应伴奏音轨的能量分布谱X1’；以及根据能量分布谱X0’和能量分布谱X1’计算原唱音轨与伴奏音轨在各频段上能量的差值，根据差值获得人声能量分布谱Xmag_diff；

所述基础频率计算模块用于根据人声能量分布谱X_{mag_diff}计算基础频率；

8.如权利要求7所述的一种电子设备，其特征在于，所述能量计算模块用于根据傅里叶变换方法分别得到对应原唱音轨的能量分布谱X0’和对应伴奏音轨的能量分布谱X1’。

9.如权利要求7所述的一种电子设备，其特征在于，所述能量计算模块用于根据能量分布谱X0’和对应伴奏音轨的能量分布谱X1’计算出人声能量分布谱，所述计算式为：

其中i＝1，2...，N

10.如权利要求7所述的一种电子设备，其特征在于，所述基础频率计算模块用于对人声音域频率范围内的每一采样频段，分别结合人声能量分布谱X_{mag_diff}计算对应该采样频率段的能量加权平均总和maxAvgDb；计算各采样频段对应的能量加权平均总和maxAvgDb中的最大值maxOfMaxAvgDbs，该最大值maxOfMaxAvgDbs对应的谐波为谐波bestOfBestFreq，则该谐波bestOfBestFreq对应频率为基础频率；所述计算对应该采样频段的能量加权平均总和包括步骤：计算该采样频段的各种可能的谐波和各谐波分别对应的能量加权平均总和avgDb，以及计算各谐波对应的能量加权平均总和avgDb中的最大值maxAvgDb，该最大值maxAvgDb对应的谐波bestFreq，则谐波bestFreq对应的频率为该采样频段最可能的基础频率；若最大值maxOfMaxAvgDbs小于设定值，则对应分段中无人声成分。

11.如权利要求7所述的一种电子设备，其特征在于，还包括预处理模块，所述预处理模块用于将歌曲文件中的原唱音轨与伴奏音轨分离出来。