CN105590633A - 一种用于歌曲评分的曲谱生成方法和设备 - Google Patents
一种用于歌曲评分的曲谱生成方法和设备 Download PDFInfo
- Publication number
- CN105590633A CN105590633A CN201510784342.1A CN201510784342A CN105590633A CN 105590633 A CN105590633 A CN 105590633A CN 201510784342 A CN201510784342 A CN 201510784342A CN 105590633 A CN105590633 A CN 105590633A
- Authority
- CN
- China
- Prior art keywords
- track
- energy
- energy distribution
- accompaniment
- distribution spectrum
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Pending
Links
- 238000000034 method Methods 0.000 title claims abstract description 56
- 238000001228 spectrum Methods 0.000 claims abstract description 72
- 238000009826 distribution Methods 0.000 claims abstract description 68
- 238000005070 sampling Methods 0.000 claims description 18
- 230000011218 segmentation Effects 0.000 claims description 10
- 230000009466 transformation Effects 0.000 claims description 8
- 230000015572 biosynthetic process Effects 0.000 claims description 5
- 239000000203 mixture Substances 0.000 claims description 5
- 238000003786 synthesis reaction Methods 0.000 claims description 5
- 238000012163 sequencing technique Methods 0.000 claims description 3
- 239000004744 fabric Substances 0.000 claims description 2
- 238000000605 extraction Methods 0.000 abstract description 3
- 238000010586 diagram Methods 0.000 description 7
- 230000000694 effects Effects 0.000 description 5
- 238000004590 computer program Methods 0.000 description 4
- 230000006870 function Effects 0.000 description 4
- 238000003860 storage Methods 0.000 description 4
- 238000006243 chemical reaction Methods 0.000 description 3
- 238000000205 computational method Methods 0.000 description 3
- 239000000284 extract Substances 0.000 description 3
- 230000001755 vocal effect Effects 0.000 description 3
- 201000004569 Blindness Diseases 0.000 description 2
- 238000010923 batch production Methods 0.000 description 2
- 238000005516 engineering process Methods 0.000 description 2
- 241000931705 Cicada Species 0.000 description 1
- 238000004458 analytical method Methods 0.000 description 1
- 238000007906 compression Methods 0.000 description 1
- 238000004821 distillation Methods 0.000 description 1
- 238000010801 machine learning Methods 0.000 description 1
- 238000004519 manufacturing process Methods 0.000 description 1
- 239000000463 material Substances 0.000 description 1
- 230000000192 social effect Effects 0.000 description 1
- 230000005236 sound signal Effects 0.000 description 1
- 241000894007 species Species 0.000 description 1
- 238000011426 transformation method Methods 0.000 description 1
Classifications
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L25/00—Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00
- G10L25/78—Detection of presence or absence of voice signals
- G10L25/81—Detection of presence or absence of voice signals for discriminating voice from music
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10H—ELECTROPHONIC MUSICAL INSTRUMENTS; INSTRUMENTS IN WHICH THE TONES ARE GENERATED BY ELECTROMECHANICAL MEANS OR ELECTRONIC GENERATORS, OR IN WHICH THE TONES ARE SYNTHESISED FROM A DATA STORE
- G10H1/00—Details of electrophonic musical instruments
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L25/00—Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00
- G10L25/03—Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00 characterised by the type of extracted parameters
- G10L25/18—Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00 characterised by the type of extracted parameters the extracted parameters being spectral information of each sub-band
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L25/00—Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00
- G10L25/03—Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00 characterised by the type of extracted parameters
- G10L25/21—Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00 characterised by the type of extracted parameters the extracted parameters being power information
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10H—ELECTROPHONIC MUSICAL INSTRUMENTS; INSTRUMENTS IN WHICH THE TONES ARE GENERATED BY ELECTROMECHANICAL MEANS OR ELECTRONIC GENERATORS, OR IN WHICH THE TONES ARE SYNTHESISED FROM A DATA STORE
- G10H2210/00—Aspects or methods of musical processing having intrinsic musical character, i.e. involving musical theory or musical parameters or relying on musical knowledge, as applied in electrophonic musical tools or instruments
- G10H2210/031—Musical analysis, i.e. isolation, extraction or identification of musical elements or musical parameters from a raw acoustic signal or from an encoded audio signal
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10H—ELECTROPHONIC MUSICAL INSTRUMENTS; INSTRUMENTS IN WHICH THE TONES ARE GENERATED BY ELECTROMECHANICAL MEANS OR ELECTRONIC GENERATORS, OR IN WHICH THE TONES ARE SYNTHESISED FROM A DATA STORE
- G10H2210/00—Aspects or methods of musical processing having intrinsic musical character, i.e. involving musical theory or musical parameters or relying on musical knowledge, as applied in electrophonic musical tools or instruments
- G10H2210/031—Musical analysis, i.e. isolation, extraction or identification of musical elements or musical parameters from a raw acoustic signal or from an encoded audio signal
- G10H2210/091—Musical analysis, i.e. isolation, extraction or identification of musical elements or musical parameters from a raw acoustic signal or from an encoded audio signal for performance evaluation, i.e. judging, grading or scoring the musical qualities or faithfulness of a performance, e.g. with respect to pitch, tempo or other timings of a reference performance
Landscapes
- Engineering & Computer Science (AREA)
- Physics & Mathematics (AREA)
- Acoustics & Sound (AREA)
- Multimedia (AREA)
- Computational Linguistics (AREA)
- Signal Processing (AREA)
- Health & Medical Sciences (AREA)
- Audiology, Speech & Language Pathology (AREA)
- Human Computer Interaction (AREA)
- Spectroscopy & Molecular Physics (AREA)
- Auxiliary Devices For Music (AREA)
Abstract
一种用于歌曲评分的曲谱生成方法和设备,其涉及一种音频数据中的信息提取,特别涉及从歌曲中提取曲谱生的方法。包括下述步骤:S010、获取原唱音轨中的一段实信号X0和伴奏音轨中与实信号X0对应的一段实信号X1;S020、对上述实信号X0和X1实施加窗离散傅里叶变换,得到对应原唱音轨的能量分布谱X0’和对应伴奏音轨的能量分布谱X1’;S030、根据能量分布谱X0’和能量分布谱X1’计算原唱音轨与伴奏音轨在各频段上能量的差值,根据差值获得人声能量分布谱Xmag_diff。本方法提供一种批量生成乐谱的方法。
Description
技术领域
涉及一种音频数据中的信息提取,特别涉及从歌曲中提取曲谱生的方法。
背景技术
音乐是人类文明的一大产物,音乐不仅仅是一种文明艺术,更是一种社会文化;不同的音乐具有不同的社会功效,优秀的音乐更具有陶冶情操和灵魂升华的功能。音乐产业在全世界的娱乐文化产业中占有巨大比例,与影视产业、游戏动漫产业也有千丝万缕的联系。
音乐有许多种类型,歌曲大约是最大的一种。从一首歌曲的内容来看,有三大组成部分:词、曲、编曲。而“曲”则是一首歌最具显著的特征,是歌曲之间最显著的区别所在。一首歌的“曲”由伴奏谱和人声谱组成。作为一首歌,人声的部分更是一首歌曲最关键的要素。
作为一首歌最关键的要素,人声谱是各种基于内容的音乐信息检索或比对功能的根基——例如哼唱检索、音乐原创性比对、基于音乐相似度的推荐算法;另外,人声谱的也是音乐教学领域、音乐创作领域当中重要的素材。
发明人在实现本发明时发现,想要获取歌曲中的人声谱有三种方法,第一种方法是由歌曲所属的唱片公司直接提供,但是在大多数情况下,唱片公司不会公开出歌曲原始的人声谱,所以大多情况下往往无法使用第一种方法。
第二种是由有音乐训练的工作人员听写出来,是非常的原始和低效的,虽然准确率是最高的,但是这种方法不能够快速而自动化地完成,而且人力成本很高,特别不适用于处理大批量歌曲。
第三种是从音频信号处理的角度出发,基于人声和各式各样的乐器的声学特征、或基于其他的监督或无监督机器学习方法,提取出来人声谱。但是在现如今的常见音乐制作过程中,在混缩前的各种人声、器乐轨都有可能应用各种效果器,而且不同混缩过程都有可能再叠加各种未知的效果器,所以这个问题变成了半盲源或者全盲源信号分离,所以这种方法变得更加困难,得出来的人声谱准确性不高。
以上三种方法,均不能够满足自动化高效地批量计算出海量歌曲的人声谱的目的。
发明内容
以下给出对一个或更多个方面的简化概述以力图提供对此类方面的基本理解。此概述不是所有构想到的方面的详尽综览,并且既非旨在指认出所有方面的关键性或决定性要素亦非试图界定任何或所有方面的范围。其唯一的目的是要以简化形式给出一个或更多个方面的一些概念以作为稍后给出的更加具体的说明之序。
为此,需要提供一种自动化高效地批量计算出海量歌曲的人声谱的目的方法和设备
为实现上述目的,发明人提供了一种用于歌曲评分的曲谱生成方法,其特征在于,包括步骤,S010、获取原唱音轨中的一段实信号X0和伴奏音轨中与实信号X0对应的一段实信号X1;S020、对上述实信号X0和X1实施加窗离散傅里叶变换,得到对应原唱音轨的能量分布谱X0’和对应伴奏音轨的能量分布谱X1’;S030、根据能量分布谱X0’和能量分布谱X1’计算原唱音轨与伴奏音轨在各频段上能量的差值,根据差值获得人声能量分布谱Xmag_diff。S040、根据人声能量分布谱Xmag_diff计算基础频率;将歌曲分段并对各分段实施上述S010~S040步骤,获得各分段对应的基础频率,将各分段对应的基础频率按照时间顺序拼接,即得到用于歌曲评分的曲谱。
区别于现有技术,上述技术方案从对应原唱音轨的实信号X0和对应伴唱音轨的实信号X1中计算获得人声能量的部分,从而根据人声的能量确定人声的频率(也被称作音调),使用本方法,可以抵消伴奏中混杂的各种人声、器乐以及各种效果器的影响,增加了人声识别的准确性。以及使用本方法能够高效自动化的批量处理歌曲,以获得人声部分的乐谱,人声部分的乐谱可以进一步用于唱歌的评分系统。为能达成前述及相关目的,这一个或更多个方面包括在下文中充分描述并在所附权利要求中特别指出的特征。以下描述和附图详细阐述了这一个或更多个方面的某些说明性特征。但是,这些特征仅仅是指示了可采用各种方面的原理的各种方式中的若干种,并且本描述旨在涵盖所有此类方面及其等效方面。
附图说明
以下将结合附图来描述所公开的方面,提供附图是为了说明而非限定所公开的方面,附图中相似的标号标示相似要素,并且在其中:
图1为本发明的一种实施方法;
图2为某一首歌的原唱音轨和伴奏音轨示意图;
图3为得到对应原唱音轨的能量分布谱X0’和对应伴奏音轨的能量分布谱X1’;
图4为获得的人声能量分布谱Xmag_diff;
图5为获得的用于歌曲评分的曲谱;
图6为本发明的一种实施方式对应的模块图。
附图标记说明:
10、预处理模块;
20、实信号获取模块;
30、能量计算模块;
40、基础频率计算模块;
50、曲谱合成模块。
具体实施方式
为详细说明技术方案的技术内容、构造特征、所实现目的及效果,以下结合具体实施例并配合附图详予说明。在以下描述中,出于解释目的阐述了众多的具体细节以提供对一个或更多个方面的透彻理解。但是显而易见的是,没有这些具体细节也可实践此类方面。
本发明提供一种用于歌曲评分的曲谱生成方法,参见图1,步骤如下,
S010、获取原唱音轨中的一段实信号X0和伴奏音轨中与实信号X0对应的一段实信号X1;
S020对上述实信号X0和X1实施加窗傅里叶变换,得到对应原唱音轨的能量分布谱X0’和对应伴奏音轨的能量分布谱X1’;
S030、根据能量分布谱X0’和能量分布谱X1’计算原唱音轨与伴奏音轨在各频段上能量的差值,根据差值获得人声能量分布谱Xmag_diff。
S040、根据人声能量分布谱Xmag_diff计算基础频率;
将歌曲分段并对各分段实施上述S010~S040步骤,获得各分段对应的基础频率,将各分段对应的基础频率按照时间顺序拼接,即得到用于歌曲评分的曲谱。
人声能量分布谱Xmag_diff也被称为人声幅值谱。
在一些实施例中,上述方法具体为,获得一首歌原唱音轨的实信号和伴奏音轨的实信号,然后对它们做加窗傅立叶变换,对窗内的短时信号计算频谱,本方法中通过傅里叶变换得到的是在一段时间内的频域分布(即能量谱)。优选的分析使用的窗口长度为4096个采样点,步移长度256个采样点。例如,图2所示的是某一歌曲做加窗傅里叶变换时,所使用的对应原唱音轨的实信号X0和对应伴唱音轨的实信号X1。实信号X0和实信号X1是具有4096采样点的短时信号(对应所述歌曲的1:26.600~1:26.685部分)。获得实信号X1和X2之后,分别对实信号X0和X1做Hamming加窗傅立叶变换,然后分别得到对应原唱音轨的能量分布谱X0’和对应伴奏音轨的能量分布谱X1’,对某一首歌的某一连续的4096各采样点做傅里叶变换后得到的能量分布谱X0’和X1’如图3所示,图中上方的是X0’,下方的是X1’)。
对上述实信号X0和实信号X1实施傅里叶变换,可以是,
X0’=fft(x0·w)
X1’=fft(x1·w)
可以理解的是,可以使用其他傅里叶变换实现算法或其改进算法,以根据实信号求得能量分布。例如其他傅里叶变换方法,而采用不同的算法,所得到的X0’和X1’和上述图示X中的X0’和X1’相比,可能是不同。
根据上述计算得出的原唱音轨的能量分布谱X0’和伴奏音轨的能量分布谱X1’计算原唱音轨与伴奏音轨的人声能量分布谱Xmag_diff,优选的计算方法为:
式1:
其中
可以理解的是,等式右边可以乘以任意的常量,都为本方法的变式。例如本方法的变式还可以为:
式2:
其中
某一歌曲的某一段的原唱音轨的能量分布谱X0’和伴奏音轨的能量分布谱X1’计算出的人声能量分布谱Xmag_diff如图4所示。可以理解的是采用不同的计算方法,所得到的图谱可能是有差异的。
有选的根据人声能量分布谱Xmag_diff计算基础频率,包括下述具体步骤:
对人声音域频率范围内的每一频段采样,分别结合人声能量分布谱Xmag_diff计算对应该采样频率段的能量加权平均总和maxAvgDb;计算各采样频段对应的能量加权平均总和maxAvgDb中的最大值maxOfMaxAvgDbs,该最大值maxOfMaxAvgDbs对应的谐波为谐波bestOfBestFreq,则该谐波bestOfBestFreq对应频率为基础频率;
所述计算对应该采样频段的能量加权平均总和包括步骤:计算该采样频段的各种可能的谐波和各谐波分别对应的能量加权平均总和avgDb,以及计算各谐波对应的能量加权平均总和avgDb中的最大值maxAvgDb,该最大值maxAvgDb对应的谐波bestFreq,则谐波bestFreq对应的频率为该采样频段最可能的基础频率。在另一些实施例中,若最大值maxOfMaxAvgDbs小于设定值,则该分段不生成音调,即该段时间内无人声。设定值时不同的计算方法,设定值可以是不同的,影响设定值的计算方法有:根据计算能量分布谱X0’和能量分布谱X1’的方法,以及计算人声能量分布谱Xmag_diff的方法,以及根据根据人声能量分布谱Xmag_diff计算基础频率的方法。
上述根据人声能量分布谱Xmag_diff计算基础频率的方法用伪代码表示为:
通过上述方法计算某一首歌得出的用于歌曲评分的曲谱如图5所示(图中仅显示一该曲谱的小段)。
通过上述方法,从对应原唱音轨的实信号X0和对应伴唱音轨的实信号X1中计算获得人声能量的部分,从而根据人声的能量确定人声的频率(也被称作音调),使用本方法,可以抵消伴奏中混杂的各种人声、器乐以及各种效果器的影响,增加了人声识别的准确性。以及使用本方法能够高效自动化的批量处理歌曲,以获得人声部分的乐谱,人声部分的乐谱可以进一步用于唱歌的评分系统。
在步骤获取原唱音轨中的一段实信号X0和伴奏音轨中与实信号X0对应的一段实信号X1之前还包括步骤将MPG格式的MV中的原唱音轨与伴奏音轨分离出来。
将MPG格式的MV中的原唱音轨与伴奏音轨分离出来。另外,要把双声道的音轨通过PCA(主成分分析方法)提取主成分为单声道的原唱轨和伴奏轨。如图2所示,上半部分的一维实信号是提取后的原唱单声道、下半部分的一维实信号是提取后的伴奏单声道。
发明人还提供一种一种电子设备,用于生成歌曲评分的曲谱,其特征在于,包括实信号获取模块、能量计算模块、基础频率计算模块、曲谱合成模块;
所述实信号获取模块用于获取原唱音轨中的一段实信号X0和伴奏音轨中与实信号X0对应的一段实信号X1;
所述能量计算模块,用于根据实信号X0和X1,并对X0和X1实施傅里叶变换,得到对应原唱音轨的能量分布谱X0’和对应伴奏音轨的能量分布谱X1’;以及根据能量分布谱X0’和能量分布谱X1’计算原唱音轨与伴奏音轨在各频段上能量的差值,根据差值获得人声能量分布谱Xmag_diff;
所述基础频率计算模块用于根据人声能量分布谱Xmag_diff计算基础频率;
所述曲谱合成模块用于将基础评论计算模块计算出的基础频率合为用于歌曲评分的曲谱。
在另一些实施例中,优选的能量计算模块用于根据傅里叶变换方法分别得到对应原唱音轨的能量分布谱X0’和对应伴奏音轨的能量分布谱X1’。
在另一些实施例中,优选的能量计算模块用于根据能量分布谱X0’和对应伴奏音轨的能量分布谱X1’计算出人声能量分布谱,所述计算式为:
其中
在另一些实施例中,优选的所述基础频率计算模块用于对人声音域频率范围内的每一采样频段,分别结合人声能量分布谱Xmag_diff计算对应该采样频率段的能量加权平均总和maxAvgDb;计算各采样频段对应的能量加权平均总和maxAvgDb中的最大值maxOfMaxAvgDbs,该最大值maxOfMaxAvgDbs对应的谐波为谐波bestOfBestDiv,则该谐波bestOfBestDiv对应频率为基础频率;所述计算对应该采样频段的能量加权平均总和包括步骤:计算该采样频段的各种可能的谐波和各谐波分别对应的能量加权平均总和avgDb,以及计算各谐波对应的能量加权平均总和avgDb中的最大值maxAvgDb,该最大值maxAvgDb对应的谐波bestDiv,则谐波bestDiv对应的频率为该采样频段最可能的基础频率。若最大值maxOfMaxAvgDbs小于设定值,则对应分段中无人声成分。
在另一些实施例中,优选的还包括预处理模块,所述预处理模块用于将歌曲文件中的原唱音轨与伴奏音轨分离出来。
可以理解的是歌曲文件可以使视频文件,也可以是音频文件。需要说明的是,在本文中,诸如第一和第二等之类的关系术语仅仅用来将一个实体或者操作与另一个实体或操作区分开来,而不一定要求或者暗示这些实体或操作之间存在任何这种实际的关系或者顺序。而且,术语“包括”、“包含”或者其任何其他变体意在涵盖非排他性的包含,从而使得包括一系列要素的过程、方法、物品或者终端设备不仅包括那些要素,而且还包括没有明确列出的其他要素,或者是还包括为这种过程、方法、物品或者终端设备所固有的要素。在没有更多限制的情况下,由语句“包括……”或“包含……”限定的要素,并不排除在包括所述要素的过程、方法、物品或者终端设备中还存在另外的要素。此外,在本文中,“大于”、“小于”、“超过”等理解为不包括本数;“以上”、“以下”、“以内”等理解为包括本数。
本领域内的技术人员应明白,上述各实施例可提供为方法、装置、或计算机程序产品。这些实施例可采用完全硬件实施例、完全软件实施例、或结合软件和硬件方面的实施例的形式。上述各实施例涉及的方法中的全部或部分步骤可以通过程序来指令相关的硬件来完成,所述的程序可以存储于计算机设备可读取的存储介质中,用于执行上述各实施例所述的全部或部分步骤。所述计算机设备,包括但不限于:个人计算机、服务器、通用计算机、专用计算机、网络设备、嵌入式设备、可编程设备、智能移动终端、智能家居设备、穿戴式智能设备、车载智能设备等;所述的存储介质,包括但不限于:RAM、ROM、磁碟、磁带、光盘、闪存、U盘、移动硬盘、存储卡、记忆棒、网络服务器存储、网络云存储等。
上述各实施例是参照根据实施例所述的方法、设备(系统)、和计算机程序产品的流程图和/或方框图来描述的。应理解可由计算机程序指令实现流程图和/或方框图中的每一流程和/或方框、以及流程图和/或方框图中的流程和/或方框的结合。可提供这些计算机程序指令到计算机设备的处理器以产生一个机器,使得通过计算机设备的处理器执行的指令产生用于实现在流程图一个流程或多个流程和/或方框图一个方框或多个方框中指定的功能的装置。
这些计算机程序指令也可存储在能引导计算机设备以特定方式工作的计算机设备可读存储器中,使得存储在该计算机设备可读存储器中的指令产生包括指令装置的制造品,该指令装置实现在流程图一个流程或多个流程和/或方框图一个方框或多个方框中指定的功能。
这些计算机程序指令也可装载到计算机设备上,使得在计算机设备上执行一系列操作步骤以产生计算机实现的处理,从而在计算机设备上执行的指令提供用于实现在流程图一个流程或多个流程和/或方框图一个方框或多个方框中指定的功能的步骤。
尽管已经对上述各实施例进行了描述,但本领域内的技术人员一旦得知了基本创造性概念,则可对这些实施例做出另外的变更和修改,所以以上所述仅为本发明的实施例,并非因此限制本发明的专利保护范围,凡是利用本发明说明书及附图内容所作的等效结构或等效流程变换,或直接或间接运用在其他相关的技术领域,均同理包括在本发明的专利保护范围之内。
Claims (11)
1.一种用于歌曲评分的曲谱生成方法,其特征在于,包括步骤,
S010、获取原唱音轨中的一段实信号X0和伴奏音轨中与实信号X0对应的一段实信号X1;
S020、对上述实信号X0和X1实施加窗离散傅里叶变换,得到对应原唱音轨的能量分布谱X0’和对应伴奏音轨的能量分布谱X1’;
S030、根据原唱音轨的能量分布谱X0’和伴奏音轨的能量分布谱X1’计算原唱音轨与伴奏音轨在各频段上能量的差值,根据差值获得人声能量分布谱Xmag_diff;
S040、根据人声能量分布谱Xmag_diff计算基础频率;
将歌曲分段并对各分段实施上述S010~S040步骤,获得各分段对应的基础频率,将各分段对应的基础频率按照时间顺序拼接,即得到用于歌曲评分的曲谱。
2.如权利要求1所述的一种用于歌曲评分的曲谱生成方法,其特征在于,所述根据原唱音轨的能量分布谱X0’和伴奏音轨的能量分布谱X1’计算原唱音轨与伴奏音轨的人声能量分布谱Xmag_diff,具体为:
。
其中i=1,2...,N
3.如权利要求1所述的一种用于歌曲评分的曲谱生成方法,其特征在于,对上述实信号X0和实信号X1实施加窗傅里叶变换,分别得到对应原唱音轨的能量分布谱X0’和对应伴奏音轨的能量分布谱X1’的具体为:
X0’=fft(x0·w)
X1’=fft(x1·w)
。
4.如权利要求1所述的一种用于歌曲评分的曲谱生成方法,其特征在于,所述根据人声能量分布谱Xmag_diff计算基础频率,包括步骤:
对人声音域频率范围内的每一频率采样,分别结合人声能量分布谱Xmag_diff计算对应该采样频率段的能量加权平均总和maxAvgDb;计算各采样频段对应的能量加权平均总和maxAvgDb中的最大值maxOfMaxAvgDbs,该最大值maxOfMaxAvgDbs对应的谐波为谐波bestOfBestFreq,则该谐波bestOfBestFreq对应频率为基础频率;
所述计算对应该采样频段的能量加权平均总和包括步骤:计算该采样频段的各种可能的谐波和各谐波分别对应的能量加权平均总和avgDb,以及计算各谐波对应的能量加权平均总和avgDb中的最大值maxAvgDb,该最大值maxAvgDb对应的谐波bestFreq,则谐波bestFreq对应的频率为该采样频段最可能的基础频率。
5.如权利要求4所述的一种用于歌曲评分的曲谱生成方法,其特征在于,若最大值maxOfMaxAvgDbs小于设定值,则该时段不生成音调。
6.如权利要求1所述的一种用于歌曲评分的曲谱生成方法,其特征在于,在步骤获取原唱音轨中的一段实信号X0和伴奏音轨中与实信号X0对应的一段实信号X1之前还包括步骤歌曲文件中的原唱音轨与伴奏音轨分离出来。
7.一种电子设备,用于生成歌曲评分的曲谱,其特征在于,包括实信号获取模块、能量计算模块、基础频率计算模块、曲谱合成模块;
所述实信号获取模块用于获取原唱音轨中的一段实信号X0和伴奏音轨中与实信号X0对应的一段实信号X1;
所述能量计算模块,用于根据实信号X0和X1,并对X0和X1实施傅里叶变换,得到对应原唱音轨的能量分布谱X0’和对应伴奏音轨的能量分布谱X1’;以及根据能量分布谱X0’和能量分布谱X1’计算原唱音轨与伴奏音轨在各频段上能量的差值,根据差值获得人声能量分布谱Xmag_diff;
所述基础频率计算模块用于根据人声能量分布谱Xmag_diff计算基础频率;
所述曲谱合成模块用于将基础评论计算模块计算出的基础频率合为用于歌曲评分的曲谱。
8.如权利要求7所述的一种电子设备,其特征在于,所述能量计算模块用于根据傅里叶变换方法分别得到对应原唱音轨的能量分布谱X0’和对应伴奏音轨的能量分布谱X1’。
9.如权利要求7所述的一种电子设备,其特征在于,所述能量计算模块用于根据能量分布谱X0’和对应伴奏音轨的能量分布谱X1’计算出人声能量分布谱,所述计算式为:
其中i=1,2...,N
10.如权利要求7所述的一种电子设备,其特征在于,所述基础频率计算模块用于对人声音域频率范围内的每一采样频段,分别结合人声能量分布谱Xmag_diff计算对应该采样频率段的能量加权平均总和maxAvgDb;计算各采样频段对应的能量加权平均总和maxAvgDb中的最大值maxOfMaxAvgDbs,该最大值maxOfMaxAvgDbs对应的谐波为谐波bestOfBestFreq,则该谐波bestOfBestFreq对应频率为基础频率;所述计算对应该采样频段的能量加权平均总和包括步骤:计算该采样频段的各种可能的谐波和各谐波分别对应的能量加权平均总和avgDb,以及计算各谐波对应的能量加权平均总和avgDb中的最大值maxAvgDb,该最大值maxAvgDb对应的谐波bestFreq,则谐波bestFreq对应的频率为该采样频段最可能的基础频率;若最大值maxOfMaxAvgDbs小于设定值,则对应分段中无人声成分。
11.如权利要求7所述的一种电子设备,其特征在于,还包括预处理模块,所述预处理模块用于将歌曲文件中的原唱音轨与伴奏音轨分离出来。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN201510784342.1A CN105590633A (zh) | 2015-11-16 | 2015-11-16 | 一种用于歌曲评分的曲谱生成方法和设备 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN201510784342.1A CN105590633A (zh) | 2015-11-16 | 2015-11-16 | 一种用于歌曲评分的曲谱生成方法和设备 |
Publications (1)
Publication Number | Publication Date |
---|---|
CN105590633A true CN105590633A (zh) | 2016-05-18 |
Family
ID=55930155
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN201510784342.1A Pending CN105590633A (zh) | 2015-11-16 | 2015-11-16 | 一种用于歌曲评分的曲谱生成方法和设备 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN105590633A (zh) |
Cited By (3)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN107910019A (zh) * | 2017-11-30 | 2018-04-13 | 中国科学院微电子研究所 | 一种人体声音信号处理及分析方法 |
CN109300485A (zh) * | 2018-11-19 | 2019-02-01 | 北京达佳互联信息技术有限公司 | 音频信号的评分方法、装置、电子设备及计算机存储介质 |
WO2020015411A1 (zh) * | 2018-07-18 | 2020-01-23 | 阿里巴巴集团控股有限公司 | 一种训练改编水平评价模型、评价改编水平的方法及装置 |
Citations (19)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN1148230A (zh) * | 1995-04-18 | 1997-04-23 | 德克萨斯仪器股份有限公司 | 卡拉ok计分的方法和系统 |
US6057502A (en) * | 1999-03-30 | 2000-05-02 | Yamaha Corporation | Apparatus and method for recognizing musical chords |
US20030106413A1 (en) * | 2001-12-06 | 2003-06-12 | Ramin Samadani | System and method for music identification |
US20050065781A1 (en) * | 2001-07-24 | 2005-03-24 | Andreas Tell | Method for analysing audio signals |
CN1607575A (zh) * | 2003-10-16 | 2005-04-20 | 扬智科技股份有限公司 | 哼唱编曲系统及其方法 |
CN1924992A (zh) * | 2006-09-12 | 2007-03-07 | 东莞市步步高视听电子有限公司 | 一种卡拉ok人声播放方法 |
CN1945689A (zh) * | 2006-10-24 | 2007-04-11 | 北京中星微电子有限公司 | 一种从歌曲中提取伴奏乐的方法及其装置 |
CN101238511A (zh) * | 2005-08-11 | 2008-08-06 | 旭化成株式会社 | 声源分离装置、音频识别装置、移动电话机、声源分离方法、以及程序 |
CN101894552A (zh) * | 2010-07-16 | 2010-11-24 | 安徽科大讯飞信息科技股份有限公司 | 基于语谱切分的唱歌评测系统 |
CN101944355A (zh) * | 2009-07-03 | 2011-01-12 | 深圳Tcl新技术有限公司 | 伴奏音乐生成装置及其实现方法 |
CN102054480A (zh) * | 2009-10-29 | 2011-05-11 | 北京理工大学 | 一种基于分数阶傅立叶变换的单声道混叠语音分离方法 |
CN102682762A (zh) * | 2011-03-15 | 2012-09-19 | 新加坡科技研究局 | 和声合成器及声音信号的和声方法 |
CN103426433A (zh) * | 2012-05-14 | 2013-12-04 | 宏达国际电子股份有限公司 | 噪声消除方法 |
US20140039891A1 (en) * | 2007-10-16 | 2014-02-06 | Adobe Systems Incorporated | Automatic separation of audio data |
CN103680517A (zh) * | 2013-11-20 | 2014-03-26 | 华为技术有限公司 | 一种音频信号的处理方法、装置及设备 |
CN104134444A (zh) * | 2014-07-11 | 2014-11-05 | 福建星网视易信息系统有限公司 | 一种基于mmse的歌曲去伴奏方法和装置 |
CN104219556A (zh) * | 2014-09-12 | 2014-12-17 | 北京阳光视翰科技有限公司 | 一种四音轨卡拉ok识别播放系统的使用方法 |
CN104538011A (zh) * | 2014-10-30 | 2015-04-22 | 华为技术有限公司 | 一种音调调节方法、装置及终端设备 |
CN104683933A (zh) * | 2013-11-29 | 2015-06-03 | 杜比实验室特许公司 | 音频对象提取 |
-
2015
- 2015-11-16 CN CN201510784342.1A patent/CN105590633A/zh active Pending
Patent Citations (19)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN1148230A (zh) * | 1995-04-18 | 1997-04-23 | 德克萨斯仪器股份有限公司 | 卡拉ok计分的方法和系统 |
US6057502A (en) * | 1999-03-30 | 2000-05-02 | Yamaha Corporation | Apparatus and method for recognizing musical chords |
US20050065781A1 (en) * | 2001-07-24 | 2005-03-24 | Andreas Tell | Method for analysing audio signals |
US20030106413A1 (en) * | 2001-12-06 | 2003-06-12 | Ramin Samadani | System and method for music identification |
CN1607575A (zh) * | 2003-10-16 | 2005-04-20 | 扬智科技股份有限公司 | 哼唱编曲系统及其方法 |
CN101238511A (zh) * | 2005-08-11 | 2008-08-06 | 旭化成株式会社 | 声源分离装置、音频识别装置、移动电话机、声源分离方法、以及程序 |
CN1924992A (zh) * | 2006-09-12 | 2007-03-07 | 东莞市步步高视听电子有限公司 | 一种卡拉ok人声播放方法 |
CN1945689A (zh) * | 2006-10-24 | 2007-04-11 | 北京中星微电子有限公司 | 一种从歌曲中提取伴奏乐的方法及其装置 |
US20140039891A1 (en) * | 2007-10-16 | 2014-02-06 | Adobe Systems Incorporated | Automatic separation of audio data |
CN101944355A (zh) * | 2009-07-03 | 2011-01-12 | 深圳Tcl新技术有限公司 | 伴奏音乐生成装置及其实现方法 |
CN102054480A (zh) * | 2009-10-29 | 2011-05-11 | 北京理工大学 | 一种基于分数阶傅立叶变换的单声道混叠语音分离方法 |
CN101894552A (zh) * | 2010-07-16 | 2010-11-24 | 安徽科大讯飞信息科技股份有限公司 | 基于语谱切分的唱歌评测系统 |
CN102682762A (zh) * | 2011-03-15 | 2012-09-19 | 新加坡科技研究局 | 和声合成器及声音信号的和声方法 |
CN103426433A (zh) * | 2012-05-14 | 2013-12-04 | 宏达国际电子股份有限公司 | 噪声消除方法 |
CN103680517A (zh) * | 2013-11-20 | 2014-03-26 | 华为技术有限公司 | 一种音频信号的处理方法、装置及设备 |
CN104683933A (zh) * | 2013-11-29 | 2015-06-03 | 杜比实验室特许公司 | 音频对象提取 |
CN104134444A (zh) * | 2014-07-11 | 2014-11-05 | 福建星网视易信息系统有限公司 | 一种基于mmse的歌曲去伴奏方法和装置 |
CN104219556A (zh) * | 2014-09-12 | 2014-12-17 | 北京阳光视翰科技有限公司 | 一种四音轨卡拉ok识别播放系统的使用方法 |
CN104538011A (zh) * | 2014-10-30 | 2015-04-22 | 华为技术有限公司 | 一种音调调节方法、装置及终端设备 |
Cited By (6)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN107910019A (zh) * | 2017-11-30 | 2018-04-13 | 中国科学院微电子研究所 | 一种人体声音信号处理及分析方法 |
WO2020015411A1 (zh) * | 2018-07-18 | 2020-01-23 | 阿里巴巴集团控股有限公司 | 一种训练改编水平评价模型、评价改编水平的方法及装置 |
US11074897B2 (en) | 2018-07-18 | 2021-07-27 | Advanced New Technologies Co., Ltd. | Method and apparatus for training adaptation quality evaluation model, and method and apparatus for evaluating adaptation quality |
US11367424B2 (en) | 2018-07-18 | 2022-06-21 | Advanced New Technologies Co., Ltd. | Method and apparatus for training adaptation quality evaluation model, and method and apparatus for evaluating adaptation quality |
CN109300485A (zh) * | 2018-11-19 | 2019-02-01 | 北京达佳互联信息技术有限公司 | 音频信号的评分方法、装置、电子设备及计算机存储介质 |
CN109300485B (zh) * | 2018-11-19 | 2022-06-10 | 北京达佳互联信息技术有限公司 | 音频信号的评分方法、装置、电子设备及计算机存储介质 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
Lee et al. | Multi-level and multi-scale feature aggregation using pretrained convolutional neural networks for music auto-tagging | |
Nanni et al. | Combining visual and acoustic features for audio classification tasks | |
Lagrange et al. | Normalized cuts for predominant melodic source separation | |
CN111400543A (zh) | 音频片段的匹配方法、装置、设备及存储介质 | |
Wu et al. | Combining visual and acoustic features for music genre classification | |
CN103871426A (zh) | 对比用户音频与原唱音频相似度的方法及其系统 | |
CN111309965A (zh) | 音频匹配方法、装置、计算机设备及存储介质 | |
CN104282316A (zh) | 一种基于语音匹配的k歌计分方法和装置 | |
CN103489445A (zh) | 一种识别音频中人声的方法及装置 | |
CN111445922B (zh) | 音频匹配方法、装置、计算机设备及存储介质 | |
CN105590633A (zh) | 一种用于歌曲评分的曲谱生成方法和设备 | |
Dhall et al. | Music genre classification with convolutional neural networks and comparison with f, q, and mel spectrogram-based images | |
Wang et al. | Musicyolo: A sight-singing onset/offset detection framework based on object detection instead of spectrum frames | |
Seo et al. | Higher-order moments for musical genre classification | |
Mutiara et al. | Musical genre classification using SVM and audio features | |
Lindenbaum et al. | Musical key extraction using diffusion maps | |
Anitha et al. | Fisher-Jenks Classification Technique for Music Raaga Identification | |
Smaragdis | Polyphonic pitch tracking by example | |
Schmitt et al. | Recognising guitar effects-which acoustic features really matter? | |
Matsui et al. | Gradient-based musical feature extraction based on scale-invariant feature transform | |
Wu et al. | Gabor-lbp features and combined classifiers for music genre classification | |
Suma et al. | Raga classification for carnatic music | |
Shirali-Shahreza et al. | Fast and scalable system for automatic artist identification | |
Kiran | Indian Music Classification using Neural network based Dragon fly algorithm | |
Behún | Image features in music style recognition |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
C06 | Publication | ||
PB01 | Publication | ||
C10 | Entry into substantive examination | ||
SE01 | Entry into force of request for substantive examination | ||
WD01 | Invention patent application deemed withdrawn after publication | ||
WD01 | Invention patent application deemed withdrawn after publication |
Application publication date: 20160518 |