CN112397044B - 一种基于深度学习的自动音乐转录方法 - Google Patents
一种基于深度学习的自动音乐转录方法 Download PDFInfo
- Publication number
- CN112397044B CN112397044B CN202011227287.3A CN202011227287A CN112397044B CN 112397044 B CN112397044 B CN 112397044B CN 202011227287 A CN202011227287 A CN 202011227287A CN 112397044 B CN112397044 B CN 112397044B
- Authority
- CN
- China
- Prior art keywords
- layer
- dimensional
- convolution
- channel
- time
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Active
Links
Images
Classifications
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10H—ELECTROPHONIC MUSICAL INSTRUMENTS; INSTRUMENTS IN WHICH THE TONES ARE GENERATED BY ELECTROMECHANICAL MEANS OR ELECTRONIC GENERATORS, OR IN WHICH THE TONES ARE SYNTHESISED FROM A DATA STORE
- G10H1/00—Details of electrophonic musical instruments
- G10H1/0033—Recording/reproducing or transmission of music for electrophonic musical instruments
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06N—COMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
- G06N3/00—Computing arrangements based on biological models
- G06N3/02—Neural networks
- G06N3/04—Architecture, e.g. interconnection topology
- G06N3/045—Combinations of networks
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06N—COMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
- G06N3/00—Computing arrangements based on biological models
- G06N3/02—Neural networks
- G06N3/08—Learning methods
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L25/00—Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00
- G10L25/03—Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00 characterised by the type of extracted parameters
- G10L25/18—Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00 characterised by the type of extracted parameters the extracted parameters being spectral information of each sub-band
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L25/00—Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00
- G10L25/27—Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00 characterised by the analysis technique
- G10L25/30—Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00 characterised by the analysis technique using neural networks
Landscapes
- Engineering & Computer Science (AREA)
- Physics & Mathematics (AREA)
- Health & Medical Sciences (AREA)
- Theoretical Computer Science (AREA)
- Computational Linguistics (AREA)
- Evolutionary Computation (AREA)
- Multimedia (AREA)
- Artificial Intelligence (AREA)
- Acoustics & Sound (AREA)
- Computing Systems (AREA)
- Software Systems (AREA)
- Molecular Biology (AREA)
- Data Mining & Analysis (AREA)
- General Engineering & Computer Science (AREA)
- General Physics & Mathematics (AREA)
- Mathematical Physics (AREA)
- General Health & Medical Sciences (AREA)
- Biophysics (AREA)
- Signal Processing (AREA)
- Audiology, Speech & Language Pathology (AREA)
- Human Computer Interaction (AREA)
- Biomedical Technology (AREA)
- Life Sciences & Earth Sciences (AREA)
- Spectroscopy & Molecular Physics (AREA)
- Stereophonic System (AREA)
Abstract
本发明公开了一种基于深度学习的自动音乐转录方法,在传统音乐转录的基础上设计了新颖的能用于双声道特征增强的立体声特征增强网络以及能有效提取音乐时序结构特征的时序卷积模块网络,能够有效提升音乐自动转录的效果,取得比现有方法更好的转录质量。立体声特征增强网络克服了现有方案只是简单地对立体声信号取均值转换为单声道信号进行处理,从而对双声道信号特征利用不充分的缺陷;时序卷积模块网络在保证对音乐结构特征良好的建模提取效果的同时,克服了以往的方案使用循环神经网络等模型来提取音乐结构信息的方法所存在的缺陷,如模型训练时易出现梯度不稳定、内存资源开销以及难以并行化运行导致时间开销大问题等。
Description
技术领域
本发明属于音频信号处理领域,具体涉及一种基于深度学习的自动音乐转录方法。
背景技术
在音频信号处理类的任务中,自动音乐转录(automatic music transcription,AMT)是很有挑战性的任务之一。在日常生活中音乐是很常见的一种媒体形式,在互联网上被广泛地分发与存储,普通用户接触到的主要是记录波形的文件,如真实记录音乐波形信号的WAV格式以及经过编码压缩之后的mp3格式等,但是直接对这样的波形文件进行理解与编辑是不容易的。音乐转录技术便是有效的解决办法之一,致力于将原始的音频文件转换为易于直观理解的符号化表示形式,比如MIDI格式。
MIDI文件是音乐编曲最为广泛的标准音乐格式,它采用音符的数字控制信号来记录音乐,被看作是“计算机能理解的乐谱”,一首完整的MIDI音乐大小只有几十KB,却能包含数十条音轨信息,MIDI传输的不是声音信号,而是音符、控制参数等指令。
传统的音乐转录工作往往是需要具有相当程度的音乐乐理知识的专业人士来完成,且转录的质量与技术人员的乐理知识水平和耗费的时间精力紧密相关,是比较耗费时间和人力成本的工作。最近若干年时间里,随着深度学习技术的飞速发展,越来越多的学者致力于将深度学习技术应用于计算机实现自动音乐转录的任务中。
概括来说,现有将深度学习技术应用于自动音乐转录的方案有着相似的技术路径为:先采用合适的信号处理技术将原始的音频波形文件转化为二维频谱图,然后设计相应的卷积神经网络结构对频谱图进行特征提取,最后输出网络对每个时间点的音符与音高的预测结果,从而实现将音乐波形文件转录为MIDI文件表示。
现有的方案在面对立体声音乐信号时,在数据处理过程中往往直接对立体声道信号求平均值将其转化为单声道的信号,再由该单声道信号生成频谱图。如Kelz等人在文献“Rainer Kelz,Sebastian Bock,and Gerhard Widmer,“Deep polyphonic ADSR pianonote transcription,”in IEEE International Conference on Acoustics,Speech andSignal Processing,ICASSP 2019,Brighton,United Kingdom,May 12-17,2019,2019,pp.246–250”中提出的方法以及Hawthorne等人在文献“Curtis Hawthorne,Erich Elsen,Jialin Song,Adam Roberts,Ian Simon,Colin Raffel,Jesse H.Engel,SageevOore,andDouglas Eck,“Onsets and frames:Dual-objective piano transcription,”inProceedings of the 19th International Society for Music Information RetrievalConference,ISMIR 2018,Paris,France,September 23-27,2018,2018,pp.50–57”中提出的方法,在数据处理时均采用的是将立体声信号求平均转化为单声道信号的方式。然而Wang等人在文献“Xian Wang,Lingqiao Liu,and Qinfeng Shi,“Exploiting stereosound channels to boost performance of neural network-based musictranscription,”in 18th IEEE International Conference On Machine Learning AndApplications,ICMLA 2019,Boca Raton,FL,USA,December 16-19,2019,2019,pp.1353–1358”中指出这种将立体声信号转换为单声道的方式会造成一部分立体声信息损失,从而不利于音乐转录效果的提升,因此Wang等人在文献中提出的方法在处理原始音频时保留了两个声道的信息,但该方法的不足之处在于只是简单地设计损失函数来约束模型对双声道信息的独立处理,而没有对双声道的信息进行足够充分的利用。
另外,音乐是在时间维度上具有鲜明的结构化特征的序列,以往的研究已经证明了对音乐时序结构的有效提取和建模有助于提升音乐转录的质量。近年来的方案在提取音乐的时序结构时多采用循环神经网络(recurrent neural network,RNN)及其改进结构如长短期记忆网络(long short-term memory network,LSTM),比如前述的Hawthorne提出的方法便是使用LSTM进行对音乐结构特征的提取。然而像RNN、LSTM的这类网络结构具有一定的局限性,如网络训练时消耗大量的内存资源,难以并行化运行导致较大的时间消耗,训练时容易出现梯度稳定性问题导致训练困难等。
发明内容
针对现有技术中的上述不足,本发明提供的基于深度学习的自动音乐转录方法解决了以往的自动音乐转录方法中对立体声道信号利用不充分及音乐时序结构提取不准确的问题。
为了达到上述发明目的,本发明采用的技术方案为:一种基于深度学习的自动音乐转录方法,包括以下步骤:
S1、对待转录的原始音乐波形文件进行下采样处理;
S2、对下采样处理后的波形文件进行时频转换,得到具有时间和频率维度的二维频谱图;
S3、通过初级特征提取网络对二维频谱图进行初步特征提取,得到具有初步特征的频谱图,作为时序卷积网络的输入;
S4、通过时序卷积网络对输入的具有频率结构信息的特征频谱图进行处理,得到具有时间结构信息的特征频谱图;
S5、对具有时间结构信息的特征频谱图中的特征进行进一步整合提取,得到对应的双声道特征图,并将输入到立体声增强网络;
S6、通过立体声增强网络对输入的双声道特征图中的两个声道进行特征增强,得到声道增强的双声道特征图;
S7、通过音符预测输出网络对声道增强后的双声道特征图进行特征处理,得到每一帧的音符预测结果,进而实现自动音乐转录。
进一步地,所述步骤S2具体为:
S21、对下采样得到波形文件中的立体声音乐信号进行分帧处理;
S22、对分帧后的每一帧进行短时傅里叶变换,并将到的频谱结果用dB尺度进行表示;
S23、通过一组对数滤波器组对dB尺度的频谱结果进行处理,并将处理得到的双声道频谱图连接起来,得到具有时间和频率维度的二维频谱图。
进一步地,所述步骤S21中,对立体声音乐信号进行分帧处理时,每一帧大小为2048个采样点,前后两帧之间的重叠大小为512个采样点;
所述步骤S23中的对数滤波器组的频率范围为39Hz~6kHz,每个8度有48个频段,共有229个三角带通滤波器;
所述步骤S23中,得到形状大小为2×T×229×1的张量,作为具有时间和频率维度的二维频谱图,T为每个频谱图在时间维度所包含的帧数。
进一步地,所述步骤S3中的初级特征提取网络包括依次连接的第一二维卷积层、第二二维卷积层和第一最大池化层;
所述第一二维卷积层的卷积核大小为3×7,步长为1,输出通道数为32;所述第二二维卷积层的卷积核为3×3,步长为1,输出通道数为32;所述第一最大池化层在频率维度执行最大池化操作,且其池化核及步长均为1×2。
进一步地,所述步骤S4中的时序卷积网络包括依次连接的降维层、第一时序卷积块、第二时序卷积块、第三时序卷积块、第四时序卷积块、维度扩展层及融合层,所述融合层的第一输入端与维度扩展层的输出端连接,第二输入端与降维的输入端连接;
所述第一时序卷积块、第二时序卷积块、第三时序卷积块和第四时序卷积块结构相同均包括依次连接的第一一维卷积层、第一ReLU激活函数、第二一维卷积层、求和层和第二ReLU激活函数,所述求和层的第一输入端与第二ReLU激活函数连接,所述求和层的第二输入端与第一一维卷积层的输入端连接;
所述第一一维卷积层和第二一维卷积层的卷积核大小均为3,步长均为1,输出通道数均为32;
所述第一时序卷积块中的第一一维卷积层和第二一维卷积层的膨胀率为1,
第二时序卷积块中的第一一维卷积层和第二一维卷积层的膨胀率为2,
第三时序卷积块中的第一一维卷积层和第二一维卷积层的膨胀率为3,
第四时序卷积块中的第一一维卷积层和第二一维卷积层的膨胀率为4。
进一步地,所述步骤S4具体为:
S41、对输入的特征频谱图在频率维度求平均值,降维成对应的时间序列向量;
S42、通过四个堆叠的时序卷积块对时间序列向量进行特征提取处理,并对处理后的时间序列向量进行维度扩展;
S43、将维度扩展后的时间序列向量与时序卷积网络输入的特征频谱图依次进行元素乘积与求和的融合处理,得到具有时间结构信息的特征频谱图。
进一步地,所述步骤S5中,通过一个卷积核大小为3×3、步长为1、输出通道数为32的二维卷积模块对具有时间结构信息的特征频谱图中的特征进行进一步整合提取,获得对应的双声道特征图。
进一步地,所述步骤S6中的立体声增强网络包括第三二维卷积层、拆分层、第一声道分支、第二声道分支和连接层;
所述第三二维卷积层的输出端与拆分层的输入端连接,所述拆分层的两个输出端分别与第一声道分支和第二声道分支的输入端连接,所述第一声道分支的输出端和第二声道分支的输出端均与连接层的输入端连接,所述连接层的输出端输出具有特征增强后的双声道特征图;
所述第一通道分支包括第四二维卷积层、第一通道维平均层、第一元素乘积层和第一求和层,所述第二通道分支包括第五二维卷积层、第二通道维平均层、第二元素乘积层和第二求和层;
所述第四二维卷积层的输入端分别第一元素乘积层的第一输入端和第一求和层的第一输入端连接,所述第四二维卷积层的输出端、第一通道维平均层、第二元素乘积层和第二求和层依次连接,所述第二元素卷积层的第一输入端与第二求和层的第一输入端连接;
所述第五二维卷积层的输入端分别与第二元素乘积层的第二输入端和第二求和层的第二输入端连接,所述第五二维卷积层的输出端、第二通道维平均层第一元素乘积和第一求和层依次连接,所述第一元素卷积层的第二输入端与第一求和层的第二输入端连接;
所述第一求和层的输出端和第二求和层的输出端均与所述连接层的输入端连接;
所述第三二维卷积层的卷积核大小为1×3,步长为1,输出通道数为32;
所述第四二维卷积层和第五二维卷积层的卷积核大小为1×1,输出通道数为16,且其内设有softmax激活函数。
进一步地,所述步骤S6具体为:
S61、通过一个卷积核为1×3,步长为1,输出通道数为32的二维卷积层对输入的双声道特征图进行处理,得到对应的张量;
S62、将张量在batch维度上进行拆分,得到两个声道各自的频谱特征图;
所述batch维度为二维卷积层输出的张量的第一个维度;
S63、将两个声道的特征频谱图分别输入到两个独立的声道分支中;
S64、在每个声道分支中,通过一个卷积核为1×1,输出通道数为16的二维卷积层对输入的频谱特征图进行降维,并将降维得到的张量在通道维度求平均值,得到两个声道各自的热力图;
S65、利用一个声道的热力图对另一个声道的频谱特征图进行依次元素相乘及求和的特征融合处理,实现特征增强;
S66、将两个声道分支中特征增强的频谱特征图在batch维度上进行连接,得到声道增强的双声道特征图。
进一步地,所述步骤S7中,所述音符预测输出网络包括依次连接的第六二维卷积层、第二最大池化层、形状转换层、第一全连接层和第二全连接层;
所述第六二维卷积层的卷积核大小为3×3,步长为1,输出通道数为64;
所述最大池化层的池化核和步长均为1×2;
所述形状转换层将输入的四维特征图转换为三维特征图;
所述第一全连接层的神经元个数为512;
所述第二全连接层的神经元个数为88。
本发明的有益效果为:
本发明通过双声道增强网络进行声道增强及通过时序特征网络进行音乐时序结构特征提取,从而能够有效提升音乐自动转录的效果,取得比现有方法更好的转录质量,主要从以下两点体现:
(1)双声道增强网络利用注意力机制能够很好地增加对这些区域特征的关注,给与其更重的权值,然后两个声道的热力图对彼此的频谱特征进行处理,使两个声道能够各自融合对方的一部分有用的特征,从而使每个声道具有的频谱特征更丰富,两个声道的特征互相参照并增强,使双声道的特征得到了更充分的提取和利用,从而有利于提升最终对音符的预测输出效果;
(2)时序卷积网络在保证对音乐结构特征良好的建模提取效果的同时,克服了以往的方案使用RNN等模型来提取音乐结构信息的方法所存在的一些缺陷,如模型训练时容易出现梯度不稳定从而不易训练的问题,模型训练时内存资源开销大的问题,以及难以并行化运行导致时间开销大问题等。
附图说明
图1为本发明提供基于神经网络的自动音乐转录方法流程图。
图2为本发明提供的初级特征提取网络结构示意图。
图3为本发明提供的时序卷积网络的结构示意图。
图4为本发明提供的时序卷积网络中时序卷积块的结构示意图。
图5为本发明提供的立体声增强网络结构示意图。
图6为本发明提供的音符预测输出网络结构示意图。
具体实施方式
下面对本发明的具体实施方式进行描述,以便于本技术领域的技术人员理解本发明,但应该清楚,本发明不限于具体实施方式的范围,对本技术领域的普通技术人员来讲,只要各种变化在所附的权利要求限定和确定的本发明的精神和范围内,这些变化是显而易见的,一切利用本发明构思的发明创造均在保护之列。
实施例1:
如图1所示,一种基于深度学习的自动音乐转录方法,包括以下步骤:
S1、对待转录的原始音乐波形文件进行下采样处理;
S2、对下采样处理后的波形文件进行时频转换,得到具有时间和频率维度的二维频谱图;
S3、通过初级特征提取网络对二维频谱图进行初步特征提取,得到具有初步特征的频谱图,作为时序卷积网络的输入;
S4、通过时序卷积网络对输入的具有频率结构信息的特征频谱图进行处理,得到具有时间结构信息的特征频谱图;
S5、对具有时间结构信息的特征频谱图中的特征进行进一步整合提取,得到对应的双声道特征图,并将输入到立体声增强网络;
S6、通过立体声增强网络对输入的双声道特征图中的两个声道进行特征增强,得到声道增强的双声道特征图;
S7、通过音符预测输出网络对声道增强后的双声道特征图进行特征处理,得到每一帧的音符预测结果,进而实现自动音乐转录。
本实施例的步骤S1中,下采样处理时的采样率为16kHz,以减少数据量。
本实施例的步骤S2具体为:
S21、对下采样得到波形文件中的立体声音乐信号进行分帧处理;
S22、对分帧后的每一帧进行短时傅里叶变换,并将到的频谱结果用dB尺度进行表示;
S23、通过一组对数滤波器组对dB尺度的频谱结果进行处理,并将处理得到的双声道频谱图连接起来,得到具有时间和频率维度的二维频谱图;
具体地,对数滤波器组的频率范围为39Hz~6kHz,每个8度有48个频段,共有229个三角带通滤波器,得到形状大小为2×T×229×1的张量,作为具有时间和频率维度的二维频谱图,T为每个频谱图在时间维度所包含的帧数,在本实施例中默认设置为T=900。
如图2所示,本实施例步骤S3中的初级特征提取网络包括依次连接的第一二维卷积层、第二二维卷积层和第一最大池化层;
第一二维卷积层的卷积核大小为3×7,步长为1,输出通道数为32;第二二维卷积层的卷积核为3×3,步长为1,输出通道数为32;第一最大池化层在频率维度执行最大池化操作,且其池化核及步长均为1×2。
如图3所示,本实施例的步骤S4中的时序卷积网络包括依次连接的降维层、第一时序卷积块、第二时序卷积块、第三时序卷积块、第四时序卷积块、维度扩展层及融合层,融合层的第一输入端与维度扩展层的输出端连接,第二输入端与降维的输入端连接;
如图4所示,上述第一时序卷积块、第二时序卷积块、第三时序卷积块和第四时序卷积块结构相同均包括依次连接的第一一维卷积层、第一ReLU激活函数、第二一维卷积层、求和层和第二ReLU激活函数,求和层的第一输入端与第二ReLU激活函数连接,求和层的第二输入端与第一一维卷积层的输入端连接;
第一一维卷积层和第二一维卷积层的卷积核大小均为3,步长均为1,输出通道数均为32;
第一时序卷积块中的第一一维卷积层和第二一维卷积层的膨胀率为1,
第二时序卷积块中的第一一维卷积层和第二一维卷积层的膨胀率为2,
第三时序卷积块中的第一一维卷积层和第二一维卷积层的膨胀率为3,
第四时序卷积块中的第一一维卷积层和第二一维卷积层的膨胀率为4。
基于上述时序卷积网络结构,本实施例的步骤S4具体为:
S41、对输入的特征频谱图在频率维度求平均值,降维成对应的时间序列向量;
S42、通过四个堆叠的时序卷积块对时间序列向量进行特征提取处理,并对处理后的时间序列向量进行维度扩展;
S43、将维度扩展后的时间序列向量与时序卷积网络输入的特征频谱图依次进行元素乘积与求和的融合处理,得到具有时间结构信息的特征频谱图。
本实施例的步骤S5中,通过一个卷积核大小为3×3、步长为1、输出通道数为32的二维卷积模块对具有时间结构信息的特征频谱图中的特征进行进一步整合提取,获得对应的双声道特征图。
如图5所示,本实施例的步骤S6中的立体声增强网络可充分利用双声道的特征对彼此的特征进行增强,其包括第三二维卷积层、拆分层、第一声道分支、第二声道分支和连接层;
第三二维卷积层的输出端与拆分层的输入端连接,拆分层的两个输出端分别与第一声道分支和第二声道分支的输入端连接,第一声道分支的输出端和第二声道分支的输出端均与连接层的输入端连接,连接层的输出端输出具有特征增强后的双声道特征图;
第一通道分支包括第四二维卷积层、第一通道维平均层、第一元素乘积层和第一求和层,第二通道分支包括第五二维卷积层、第二通道维平均层、第二元素乘积层和第二求和层;
第四二维卷积层的输入端分别第一元素乘积层的第一输入端和第一求和层的第一输入端连接,第四二维卷积层的输出端、第一通道维平均层、第二元素乘积层和第二求和层依次连接,第二元素卷积层的第一输入端与第二求和层的第一输入端连接;
第五二维卷积层的输入端分别与第二元素乘积层的第二输入端和第二求和层的第二输入端连接,第五二维卷积层的输出端、第二通道维平均层第一元素乘积和第一求和层依次连接,第一元素卷积层的第二输入端与第一求和层的第二输入端连接;
第一求和层的输出端和第二求和层的输出端均与连接层的输入端连接;
第三二维卷积层的卷积核大小为1×3,步长为1,输出通道数为32;
第四二维卷积层和第五二维卷积层的卷积核大小为1×1,输出通道数为16,且其内设有softmax激活函数。
基于上述立体声增强网络的结构,本实施例步骤S6具体为:
S61、通过一个卷积核为1×3,步长为1,输出通道数为32的二维卷积层对输入的双声道特征图进行处理,得到对应的张量;
S62、将张量在batch维度上进行拆分,得到两个声道各自的频谱特征图;
其中,batch维度为二维卷积层输出的张量的第一个维度,即大小为“2”的维度,二维卷积层输出的张量的大小为2×T×114×32;
在该维度上进行拆分从而得到两个频谱特征图,分别代表两个声道各自的频谱特征;
S63、将两个声道的特征频谱图分别输入到两个独立的声道分支中;
S64、在每个声道分支中,通过一个卷积核为1×1,输出通道数为16的二维卷积层对输入的频谱特征图进行降维,并将降维得到的张量在通道维度求平均值,得到两个声道各自的热力图;
S65、利用一个声道的热力图对另一个声道的频谱特征图进行依次元素相乘及求和的特征融合处理,实现特征增强;
S66、将两个声道分支中特征增强的频谱特征图在batch维度上进行连接,得到声道增强的双声道特征图。
如图6所示,本实施例的步骤S7中,音符预测输出网络包括依次连接的第六二维卷积层、第二最大池化层、形状转换层、第一全连接层和第二全连接层;
第六二维卷积层的卷积核大小为3×3,步长为1,输出通道数为64;最大池化层的池化核和步长均为1×2;形状转换层将输入的四维特征图转换为三维特征图;第一全连接层的神经元个数为512;第二全连接层的神经元个数为88。
需要说明的是,在上述网络训练过程,本发明使用的损失函数为加权交叉熵损失函数,如下面公式所示:
其中:yk是数据集中每个目标音符的真值,取值为{0,1},其中0表示该音符未激活,1表示该音符被激活;是模型对每个音符的预测值,取值为[0,1],其值越接近0说明该音符被激活的概率越小,越接近1说明音符被激活的概率越大,预测值为:
该式可以约束模型更加关注于两个声道的预测结果中更偏离真值的预测,从而得到更好的预测效果。
本发明的主要贡献在于设计了新颖的能用于双声道特征增强的立体声特征增强网络(stereo feature enhancement,SFE)以及能有效提取时序结构特征的时序卷积网络(temporal convolutional module,TCM),从而能够有效提升音乐自动转录的效果,取得比现有方法更好的转录质量。
对于立体声特征增强网络(SFE),现有的音乐转录方案未能将立体声音乐信息充分利用,大部分方案简单地将立体声信号求平均转换成单声道信号,这会损失很多有用的信息,不利于提升音乐的转录效果。针对这一缺陷,本发明提出了立体声特征增强网络(SFE),首先在数据处理的时候不是简单地对信号做平均转换为单声道信号,而是分别对两个声道的信号独立进行时频转换得到两个声道的频谱图作为模型后续的输入数据,SFE网络主要通过深度学习中的注意力机制得到两个声道各自的特征热力图,由于在频谱图中,很多区域里的像素点大部分都是未激活的,与音符相关的激活的像素点主要集中在一部分区域中,而这些区域对于相应的音符的预测是十分重要的,因此SFE利用注意力机制能够很好地增加对这些区域特征的关注,给与其更重的权值,然后两个声道的热力图对彼此的频谱特征进行处理,使两个声道能够各自融合对方的一部分有用的特征,从而使每个声道具有的频谱特征更丰富,两个声道的特征互相参照并增强,使双声道的特征得到了更充分的提取和利用,从而有利于提升最终对音符的预测输出效果。
对于时序卷积网络(TCM),现有的方案在提取音乐的时序特征时,采用的多是循环神经网络RNN及其变体,虽然能够取得较好的提取音乐时序结构的效果,但由于RNN自身的结构特点,会导致一些应用方面的问题:训练时内存开销大且容易出现梯度稳定性方面的问题导致不易训练,难以并行化运行导致时间开销较大,本文现有的时序卷积神经网络理论的启发,结合音乐转录任务的具体要求与数据特点,将该方法做了一定修改之后,设计了本发明中的时序卷积网络(TCM),对于TCM模块,其堆叠的四个时序卷积块能够很有效地提取音乐的时序结构特征。一方面,数个堆叠的一维卷积模块具有因果卷积(causalconvolution)的特征,所谓因果卷积是指在一个特定时间点T的输出结果是由时间点T以及T之前的数据卷积得到,这与音乐的结构特点是相符合的:一个时间点的音符总是与在此之前出现的音符有着符合乐理的结构顺承关系;另一方面,这些堆叠的一维卷积模块是膨胀卷积,分别具有不同的膨胀率,从而形成了更大的非线性感受野,能够提取更长的音乐历史特征信息。TCM在保证对音乐结构特征良好的建模提取效果的同时,克服了以往的方案使用RNN等模型来提取音乐结构信息的方法所存在的一些缺陷,如模型训练时容易出现梯度不稳定从而不易训练的问题,模型训练时内存资源开销大的问题,以及难以并行化运行导致时间开销大问题等。
实施例2:
本实施例中使用MAPS数据集对上述方法进行效果测试,并将其与现有方法进行比较,结果列于表1:
表1:实验结果对比
在音乐转录任务中,由于音乐特有的数据结构方式,未激活的音符数量比激活的音符数量多,即数据中的正负样本分布不平衡,从而在评估模型效果时仅仅使用音符预测的准确率不够客观合理,需要综合考量准确率与召回率,换句话说,综合了准确率和召回率的F1分数是更加重要的指标。从实验结果可以看到,本文的方法取得了比现有的先进方法更好的效果。
Claims (10)
1.一种基于深度学习的自动音乐转录方法,其特征在于,包括以下步骤:
S1、对待转录的原始音乐波形文件进行下采样处理;
S2、对下采样处理后的波形文件进行时频转换,得到具有时间和频率维度的二维频谱图;
S3、通过初级特征提取网络对二维频谱图进行初步特征提取,得到具有初步特征的频谱图,作为时序卷积网络的输入;
S4、通过时序卷积网络对输入的具有频率结构信息的特征频谱图进行处理,得到具有时间结构信息的特征频谱图;
S5、对具有时间结构信息的特征频谱图中的特征进行进一步整合提取,得到对应的双声道特征图,并将输入到立体声增强网络;
S6、通过立体声增强网络对输入的双声道特征图中的两个声道进行特征增强,得到声道增强的双声道特征图;
S7、通过音符预测输出网络对声道增强后的双声道特征图进行特征处理,得到每一帧的音符预测结果,进而实现自动音乐转录。
2.根据权利要求1所述的基于深度学习的自动音乐转录方法,其特征在于,所述步骤S2具体为:
S21、对下采样得到波形文件中的立体声音乐信号进行分帧处理;
S22、对分帧后的每一帧进行短时傅里叶变换,并将到的频谱结果用dB尺度进行表示;
S23、通过一组对数滤波器组对dB尺度的频谱结果进行处理,并将处理得到的双声道频谱图连接起来,得到具有时间和频率维度的二维频谱图。
3.根据权利要求2所述的基于深度学习的自动音乐转录方法,其特征在于,所述步骤S21中,对立体声音乐信号进行分帧处理时,每一帧大小为2048个采样点,前后两帧之间的重叠大小为512个采样点;
所述步骤S23中的对数滤波器组的频率范围为39Hz~6kHz,每个8度有48个频段,共有229个三角带通滤波器;
所述步骤S23中,得到形状大小为2×T×229×1的张量,作为具有时间和频率维度的二维频谱图,T为每个频谱图在时间维度所包含的帧数。
4.根据权利要求1所述的基于深度学习的自动音乐转录方法,其特征在于,所述步骤S3中的初级特征提取网络包括依次连接的第一二维卷积层、第二二维卷积层和第一最大池化层;
所述第一二维卷积层的卷积核大小为3×7,步长为1,输出通道数为32;所述第二二维卷积层的卷积核为3×3,步长为1,输出通道数为32;所述第一最大池化层在频率维度执行最大池化操作,且其池化核及步长均为1×2。
5.根据权利要求1所述的基于深度学习的自动音乐转录方法,其特征在于,所述步骤S4中的时序卷积网络包括依次连接的降维层、第一时序卷积块、第二时序卷积块、第三时序卷积块、第四时序卷积块、维度扩展层及融合层,所述融合层的第一输入端与维度扩展层的输出端连接,第二输入端与降维的输入端连接;
所述第一时序卷积块、第二时序卷积块、第三时序卷积块和第四时序卷积块结构相同均包括依次连接的第一一维卷积层、第一ReLU激活函数、第二一维卷积层、求和层和第二ReLU激活函数,所述求和层的第一输入端与第二ReLU激活函数连接,所述求和层的第二输入端与第一一维卷积层的输入端连接;
所述第一一维卷积层和第二一维卷积层的卷积核大小均为3,步长均为1,输出通道数均为32;
所述第一时序卷积块中的第一一维卷积层和第二一维卷积层的膨胀率为1,
第二时序卷积块中的第一一维卷积层和第二一维卷积层的膨胀率为2,
第三时序卷积块中的第一一维卷积层和第二一维卷积层的膨胀率为3,
第四时序卷积块中的第一一维卷积层和第二一维卷积层的膨胀率为4。
6.根据权利要求1所述的基于深度学习的自动音乐转录方法,其特征在于,所述步骤S4具体为:
S41、对输入的特征频谱图在频率维度求平均值,降维成对应的时间序列向量;
S42、通过四个堆叠的时序卷积块对时间序列向量进行特征提取处理,并对处理后的时间序列向量进行维度扩展;
S43、将维度扩展后的时间序列向量与时序卷积网络输入的特征频谱图依次进行元素乘积与求和的融合处理,得到具有时间结构信息的特征频谱图。
7.根据权利要求1所述的基于深度学习的自动音乐转录方法,其特征在于,所述步骤S5中,通过一个卷积核大小为3×3、步长为1、输出通道数为32的二维卷积模块对具有时间结构信息的特征频谱图中的特征进行进一步整合提取,获得对应的双声道特征图。
8.根据权利要求1所述的基于深度学习的自动音乐转录方法,其特征在于,所述步骤S6中的立体声增强网络包括第三二维卷积层、拆分层、第一声道分支、第二声道分支和连接层;
所述第三二维卷积层的输出端与拆分层的输入端连接,所述拆分层的两个输出端分别与第一声道分支和第二声道分支的输入端连接,所述第一声道分支的输出端和第二声道分支的输出端均与连接层的输入端连接,所述连接层的输出端输出具有特征增强后的双声道特征图;
所述第一声道分支包括第四二维卷积层、第一通道维平均层、第一元素乘积层和第一求和层,所述第二声道分支包括第五二维卷积层、第二通道维平均层、第二元素乘积层和第二求和层;
所述第四二维卷积层的输入端分别第一元素乘积层的第一输入端和第一求和层的第一输入端连接,所述第四二维卷积层的输出端、第一通道维平均层、第二元素乘积层和第二求和层依次连接,所述第二元素卷积层的第一输入端与第二求和层的第一输入端连接;
所述第五二维卷积层的输入端分别与第二元素乘积层的第二输入端和第二求和层的第二输入端连接,所述第五二维卷积层的输出端、第二通道维平均层第一元素乘积和第一求和层依次连接,所述第一元素卷积层的第二输入端与第一求和层的第二输入端连接;
所述第一求和层的输出端和第二求和层的输出端均与所述连接层的输入端连接;
所述第三二维卷积层的卷积核大小为1×3,步长为1,输出通道数为32;
所述第四二维卷积层和第五二维卷积层的卷积核大小为1×1,输出通道数为16,且其内设有softmax激活函数。
9.根据权利要求3所述的基于深度学习的自动音乐转录方法,其特征在于,所述步骤S6具体为:
S61、通过一个卷积核为1×3,步长为1,输出通道数为32的二维卷积层对输入的双声道特征图进行处理,得到对应的张量;
S62、将张量在batch维度上进行拆分,得到两个声道各自的频谱特征图;
所述batch维度为二维卷积层输出的张量的第一个维度;
S63、将两个声道的特征频谱图分别输入到两个独立的声道分支中;
S64、在每个声道分支中,通过一个卷积核为1×1,输出通道数为16的二维卷积层对输入的频谱特征图进行降维,并将降维得到的张量在通道维度求平均值,得到两个声道各自的热力图;
S65、利用一个声道的热力图对另一个声道的频谱特征图进行依次元素相乘及求和的特征融合处理,实现特征增强;
S66、将两个声道分支中特征增强的频谱特征图在batch维度上进行连接,得到声道增强的双声道特征图。
10.根据权利要求1所述的基于深度学习的自动音乐转录方法,其特征在于,所述步骤S7中,所述音符预测输出网络包括依次连接的第六二维卷积层、第二最大池化层、形状转换层、第一全连接层和第二全连接层;
所述第六二维卷积层的卷积核大小为3×3,步长为1,输出通道数为64;
所述最大池化层的池化核和步长均为1×2;
所述形状转换层将输入的四维特征图转换为三维特征图;
所述第一全连接层的神经元个数为512;
所述第二全连接层的神经元个数为88。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202011227287.3A CN112397044B (zh) | 2020-11-06 | 2020-11-06 | 一种基于深度学习的自动音乐转录方法 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202011227287.3A CN112397044B (zh) | 2020-11-06 | 2020-11-06 | 一种基于深度学习的自动音乐转录方法 |
Publications (2)
Publication Number | Publication Date |
---|---|
CN112397044A CN112397044A (zh) | 2021-02-23 |
CN112397044B true CN112397044B (zh) | 2022-07-01 |
Family
ID=74598415
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN202011227287.3A Active CN112397044B (zh) | 2020-11-06 | 2020-11-06 | 一种基于深度学习的自动音乐转录方法 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN112397044B (zh) |
Families Citing this family (1)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN117133305B (zh) * | 2023-04-27 | 2024-08-06 | 荣耀终端有限公司 | 立体声降噪方法、设备及存储介质 |
Citations (3)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN103854544A (zh) * | 2012-11-30 | 2014-06-11 | 中国科学院沈阳自动化研究所 | 液压或气压人工肌肉驱动的心脏腔室模拟器 |
CN110782915A (zh) * | 2019-10-31 | 2020-02-11 | 广州艾颂智能科技有限公司 | 一种基于深度学习的波形音乐成分分离方法 |
CN111540374A (zh) * | 2020-04-17 | 2020-08-14 | 杭州网易云音乐科技有限公司 | 伴奏和人声提取方法及装置、逐字歌词生成方法及装置 |
Family Cites Families (1)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
JP2020003536A (ja) * | 2018-06-25 | 2020-01-09 | カシオ計算機株式会社 | 学習装置、自動採譜装置、学習方法、自動採譜方法及びプログラム |
-
2020
- 2020-11-06 CN CN202011227287.3A patent/CN112397044B/zh active Active
Patent Citations (3)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN103854544A (zh) * | 2012-11-30 | 2014-06-11 | 中国科学院沈阳自动化研究所 | 液压或气压人工肌肉驱动的心脏腔室模拟器 |
CN110782915A (zh) * | 2019-10-31 | 2020-02-11 | 广州艾颂智能科技有限公司 | 一种基于深度学习的波形音乐成分分离方法 |
CN111540374A (zh) * | 2020-04-17 | 2020-08-14 | 杭州网易云音乐科技有限公司 | 伴奏和人声提取方法及装置、逐字歌词生成方法及装置 |
Non-Patent Citations (1)
Title |
---|
Exploiting stereo sound channels to boost performance of neural network-based music transcription;Xian Wang, etc;<ICMLA>;20200217;1353-1358 * |
Also Published As
Publication number | Publication date |
---|---|
CN112397044A (zh) | 2021-02-23 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
CN110808033B (zh) | 一种基于双重数据增强策略的音频分类方法 | |
CN110718211B (zh) | 一种基于混合压缩卷积神经网络的关键词识别系统 | |
CN117095694B (zh) | 一种基于标签层级结构属性关系的鸟类鸣声识别方法 | |
CN114141238A (zh) | 一种融合Transformer和U-net网络的语音增强方法 | |
CN115762536A (zh) | 一种基于桥接Transformer的小样本优化鸟声识别方法 | |
CN113241092A (zh) | 基于双注意力机制和多阶段混合卷积网络声源分离方法 | |
CN109584904B (zh) | 应用于基础音乐视唱教育的视唱音频唱名识别建模方法 | |
CN113257279A (zh) | 一种基于gtcn的实时语音情感识别方法及应用装置 | |
CN112259080A (zh) | 一种基于神经网络模型的语音识别方法 | |
CN114141237A (zh) | 语音识别方法、装置、计算机设备和存储介质 | |
CN112562725A (zh) | 基于语谱图和胶囊网络的混合语音情感分类方法 | |
Pons et al. | Gass: Generalizing audio source separation with large-scale data | |
CN112397044B (zh) | 一种基于深度学习的自动音乐转录方法 | |
CN114913872B (zh) | 基于卷积神经网络的时频双域音频分类方法与系统 | |
CN118280371B (zh) | 一种基于人工智能的语音交互方法及系统 | |
CN115497509A (zh) | 一种基于mfcc差分混合频谱的语音情感识别方法 | |
CN116665704B (zh) | 一种基于局部注意力的多任务学习钢琴复音音乐自动记谱方法 | |
CN118230747A (zh) | 一种适用于语音增强的轻量级神经网络系统及其方法 | |
Parisae et al. | Stacked u-net with time–frequency attention and deep connection net for single channel speech enhancement | |
CN111916060A (zh) | 一种基于谱减的深度学习语音端点检测方法和系统 | |
Huang et al. | A two-stage frequency-time dilated dense network for speech enhancement | |
CN117854545A (zh) | 基于时间卷积网络的多乐器识别方法及系统 | |
CN115602158A (zh) | 一种基于电话信道的语音识别声学模型构建方法及系统 | |
CN113345427A (zh) | 一种基于残差网络的环境声音识别系统及方法 | |
Vanambathina et al. | Real time speech enhancement using densely connected neural networks and Squeezed temporal convolutional modules |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination | ||
GR01 | Patent grant | ||
GR01 | Patent grant |