CN113923517B - 一种背景音乐生成方法、装置及电子设备 - Google Patents
一种背景音乐生成方法、装置及电子设备 Download PDFInfo
- Publication number
- CN113923517B CN113923517B CN202111166926.4A CN202111166926A CN113923517B CN 113923517 B CN113923517 B CN 113923517B CN 202111166926 A CN202111166926 A CN 202111166926A CN 113923517 B CN113923517 B CN 113923517B
- Authority
- CN
- China
- Prior art keywords
- music
- feature vectors
- training
- generators
- audio
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Active
Links
Classifications
-
- H—ELECTRICITY
- H04—ELECTRIC COMMUNICATION TECHNIQUE
- H04N—PICTORIAL COMMUNICATION, e.g. TELEVISION
- H04N21/00—Selective content distribution, e.g. interactive television or video on demand [VOD]
- H04N21/40—Client devices specifically adapted for the reception of or interaction with content, e.g. set-top-box [STB]; Operations thereof
- H04N21/43—Processing of content or additional data, e.g. demultiplexing additional data from a digital video stream; Elementary client operations, e.g. monitoring of home network or synchronising decoder's clock; Client middleware
- H04N21/44—Processing of video elementary streams, e.g. splicing a video clip retrieved from local storage with an incoming video stream or rendering scenes according to encoded video stream scene graphs
- H04N21/44008—Processing of video elementary streams, e.g. splicing a video clip retrieved from local storage with an incoming video stream or rendering scenes according to encoded video stream scene graphs involving operations for analysing video streams, e.g. detecting features or characteristics in the video stream
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L15/00—Speech recognition
- G10L15/02—Feature extraction for speech recognition; Selection of recognition unit
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L15/00—Speech recognition
- G10L15/06—Creation of reference templates; Training of speech recognition systems, e.g. adaptation to the characteristics of the speaker's voice
- G10L15/063—Training
-
- H—ELECTRICITY
- H04—ELECTRIC COMMUNICATION TECHNIQUE
- H04N—PICTORIAL COMMUNICATION, e.g. TELEVISION
- H04N21/00—Selective content distribution, e.g. interactive television or video on demand [VOD]
- H04N21/40—Client devices specifically adapted for the reception of or interaction with content, e.g. set-top-box [STB]; Operations thereof
- H04N21/47—End-user applications
- H04N21/485—End-user interface for client configuration
- H04N21/4852—End-user interface for client configuration for modifying audio parameters, e.g. switching between mono and stereo
-
- H—ELECTRICITY
- H04—ELECTRIC COMMUNICATION TECHNIQUE
- H04N—PICTORIAL COMMUNICATION, e.g. TELEVISION
- H04N21/00—Selective content distribution, e.g. interactive television or video on demand [VOD]
- H04N21/60—Network structure or processes for video distribution between server and client or between remote clients; Control signalling between clients, server and network components; Transmission of management data between server and client, e.g. sending from server to client commands for recording incoming content stream; Communication details between server and client
- H04N21/65—Transmission of management data between client and server
- H04N21/658—Transmission by the client directed to the server
- H04N21/6587—Control parameters, e.g. trick play commands, viewpoint selection
-
- H—ELECTRICITY
- H04—ELECTRIC COMMUNICATION TECHNIQUE
- H04N—PICTORIAL COMMUNICATION, e.g. TELEVISION
- H04N21/00—Selective content distribution, e.g. interactive television or video on demand [VOD]
- H04N21/80—Generation or processing of content or additional data by content creator independently of the distribution process; Content per se
- H04N21/81—Monomedia components thereof
- H04N21/8106—Monomedia components thereof involving special audio data, e.g. different tracks for different languages
- H04N21/8113—Monomedia components thereof involving special audio data, e.g. different tracks for different languages comprising music, e.g. song in MP3 format
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10H—ELECTROPHONIC MUSICAL INSTRUMENTS; INSTRUMENTS IN WHICH THE TONES ARE GENERATED BY ELECTROMECHANICAL MEANS OR ELECTRONIC GENERATORS, OR IN WHICH THE TONES ARE SYNTHESISED FROM A DATA STORE
- G10H2250/00—Aspects of algorithms or signal processing methods without intrinsic musical character, yet specifically adapted for or used in electrophonic musical processing
- G10H2250/541—Details of musical waveform synthesis, i.e. audio waveshape processing from individual wavetable samples, independently of their origin or of the sound they represent
Landscapes
- Engineering & Computer Science (AREA)
- Multimedia (AREA)
- Signal Processing (AREA)
- Human Computer Interaction (AREA)
- Computational Linguistics (AREA)
- Health & Medical Sciences (AREA)
- Audiology, Speech & Language Pathology (AREA)
- Physics & Mathematics (AREA)
- Acoustics & Sound (AREA)
- Computer Vision & Pattern Recognition (AREA)
- Artificial Intelligence (AREA)
- Information Retrieval, Db Structures And Fs Structures Therefor (AREA)
Abstract
本发明公开了一种背景音乐生成方法,对获取的目标音视频数据进行语音识别,得到识别文字;利用自然语言处理技术对所述识别文字进行特征提取,得到N个特征向量;从预先训练的音乐生成器集中,获取所述N个特征向量对应的N个音乐生成器;将所述N个特征向量中每个特征向量输入到对应的音乐生成器中,得到N种风格音乐;将所述N种风格音乐进行合成,得到背景音乐,如此,在将N种风格音乐进行合成得到背景音乐时,由于背景音乐是由N种风格音乐生成的,且N为不小于2的整数,使得背景音乐是由多种风格音乐生成的,不属于现有的音乐和歌曲,如此,使得生成的背景音乐的个性化更强,与用户的需求更匹配。
Description
技术领域
本发明涉及语音处理技术领域,特别涉及一种背景音乐生成方法、装置及电子设备。
背景技术
音乐一直是陪伴人类的一种重要艺术形式,而人类也从未停止对音乐的探索。随着计算机技术的发展,计算机与深度学习技术的结合使得创造音乐得到越来越多的应用。
现有技术中在生成背景音乐时,通常是利用用户预先设定音乐特征参数,输入给神经网络预测未来的音符,或者使用生成对抗神经网络进行音乐生成,能够快速的生成背景音乐,但生成的背景音乐不能很好地满足用户的需求。从而,亟需一种背景音乐生成方法以解决上述问题。
发明内容
本发明实施例提供一种背景音乐生成方法、装置及电子设备,用于生成音视频文件的背景音乐。
本发明实施例第一方面提供一种背景音乐生成方法,所述方法包括:
对获取的目标音视频数据进行语音识别,得到识别文字;
利用自然语言处理技术对所述识别文字进行特征提取,得到N个特征向量,其中,N为不小于2的整数;
从预先训练的音乐生成器集中,获取所述N个特征向量对应的N个音乐生成器;
将所述N个特征向量中每个特征向量输入到对应的音乐生成器中,得到N种风格音乐;
将所述N种风格音乐进行合成,得到背景音乐。
可选的,所述获取所述N个特征向量对应的N个音乐生成器,包括:
获取所述N个特征向量对应的N个情感标签;
根据情感标签与音乐生成器的对应关系,从所述音乐生成器集中获取与所述N个情感标签对应的所述N个音乐生成器。
可选的,所述对获取的目标音视频数据进行语音识别,得到识别文字,包括:
对获取的所述目标音视频数据进行音频提取,得到用户音频数据;
对所述用户音频数据进行语音识别,得到所述识别文字。
可选的,所述音乐生成器集的训练步骤包括,包括:
获取训练样本集,所述训练样本集中每个训练样本包括训练音视频数据;
针对训练样本集中的每个训练样本,对训练样本的训练音视频数据进行语音识别,得到训练识别文字;利用自然语言处理技术对所述训练识别文字进行特征提取,得到M个特征向量,其中,M为不小于N的整数;
采用对抗网络,利用每个训练样本的M个特征向量对M个音乐生成器进行模型训练,得到训练好的所述M个音乐生成器,将训练好的所述M个音乐生成器作为所述音乐生成器集,其中,所述M个音乐生成器与所述M个特征向量对应。
可选的,在得到背景音乐之后,所述方法还包括:
将所述背景音乐添加到所述目标音视频数据中。
本发明实施例第二方面还提供一种背景音乐生成装置,其特征在于,所述装置包括:
识别单元,用于对获取的目标音视频数据进行语音识别,得到识别文字;
特征提取单元,用于利用自然语言处理技术对所述识别文字进行特征提取,得到N个特征向量,其中,N为不小于2的整数;
音乐生成器获取单元,用于从预先训练的音乐生成器集中,获取所述N个特征向量对应的N个音乐生成器;
风格音乐获取单元,用于将所述N个特征向量中每个特征向量输入到对应的音乐生成器中,得到N种风格音乐;
背景音乐获取单元,用于将所述N种风格音乐进行合成,得到背景音乐。
可选的,所述音乐生成器获取单元,用于获取所述N个特征向量对应的N个情感标签;根据情感标签与音乐生成器的对应关系,从所述音乐生成器集中获取与所述N个情感标签对应的所述N个音乐生成器。
可选的,所述识别单元,用于对获取的所述目标音视频数据进行音频提取,得到用户音频数据;对所述用户音频数据进行语音识别,得到所述识别文字。
可选的,还包括:
音乐生成器训练单元,用于获取训练样本集,所述训练样本集中每个训练样本包括训练音视频数据;针对训练样本集中的每个训练样本,对训练样本的训练音视频数据进行语音识别,得到训练识别文字;利用自然语言处理技术对所述训练识别文字进行特征提取,得到M个特征向量,其中,M为不小于N的整数;采用对抗网络,利用每个训练样本的M个特征向量对M个音乐生成器进行模型训练,得到训练好的所述M个音乐生成器,将训练好的所述M个音乐生成器作为所述音乐生成器集,其中,所述M个音乐生成器与所述M个特征向量对应。
可选的,还包括:
背景音乐添加单元,用于在得到背景音乐之后,将所述背景音乐添加到所述目标音视频数据中。
本发明实施例第三方面提供了一种电子设备,包括有存储器,以及一个或者一个以上的程序,其中一个或者一个以上的程序存储于存储器中,且经配置以由一个或者一个以上的处理器执行所述一个或者一个以上的程序所包含的用于进行如第一方面提供的背景音乐生成方法对应的操作指令。
本发明实施例第四方面提供了一种计算机可读存储介质,其上存储有计算机程序,该程序被处理器执行时实现如第一方面提供的背景音乐生成方法对应的步骤。
本申请实施例中的上述一个或至少一个技术方案,至少具有如下技术效果:
基于上述技术方案,对获取的目标音视频数据进行语音识别,得到识别文字;利用自然语言处理技术对识别文字进行特征提取,得到N个特征向量;在根据预先训练的音乐生成器集中,将N个特征向量中每个特征向量输入到对应的音乐生成器中,得到N种风格音乐;将所述N种风格音乐进行合成,得到背景音乐;此时,可以将目标音视频数据依次进行语音识别和特征提取,将提取到N个特征向量输入到预先训练的N个音乐生成器,生成N种风格音乐,再将N种风格音乐进行合成得到背景音乐,由于背景音乐是由N种风格音乐生成的,且N为不小于2的整数,使得背景音乐是由多种风格音乐生成的,不属于现有的音乐和歌曲,如此,使得生成的背景音乐的个性化更强,与用户的需求更匹配。
附图说明
图1为本申请实施例提供的一种背景音乐生成方法的流程示意图;
图2为本申请实施例提供的一种音乐生成器集的训练方法的流程示意图;
图3为本申请实施例提供的一种背景音乐生成装置的方框图;
图4为本申请实施例提供的一种电子设备的结构示意图。
具体实施方式
在本申请实施例提供的技术方案中,提供一种背景音乐生成方法,基于上述技术方案,对获取的目标音视频数据进行语音识别,得到识别文字;利用自然语言处理技术对识别文字进行特征提取,得到N个特征向量;在根据预先训练的音乐生成器集中,将N个特征向量中每个特征向量输入到对应的音乐生成器中,得到N种风格音乐;将所述N种风格音乐进行合成,得到背景音乐;此时,可以将目标音视频数据依次进行语音识别和特征提取,将提取到N个特征向量输入到预先训练的N个音乐生成器,生成N种风格音乐,再将N种风格音乐进行合成得到背景音乐,由于背景音乐是由N种风格音乐生成的,而N为不小于2的整数,使得背景音乐是由多种风格音乐生成的,不属于现有的音乐和歌曲,如此,使得生成的背景音乐的个性化更强,与用户的需求更匹配。
下面结合附图对本申请实施例技术方案的主要实现原理、具体实施方式及其对应能够达到的有益效果进行详细的阐述。
实施例
请参考图1,本申请实施例提供一种背景音乐生成方法,所述方法包括:
S101、对获取的目标音视频数据进行语音识别,得到识别文字;
S102、利用自然语言处理技术对所述识别文字进行特征提取,得到N个特征向量,其中,N为不小于2的整数;
S103、从预先训练的音乐生成器集中,获取所述N个特征向量对应的N个音乐生成器;
S104、将所述N个特征向量中每个特征向量输入到对应的音乐生成器中,得到N种风格音乐;
S105、将所述N种风格音乐进行合成,得到背景音乐。
其中,在步骤S101中,可以首先获取目标音视频数据,再对目标音视频数据进行语音识别,得到识别文字。其中,目标音视频数据包括音频数据和视频数据,使得目标音视频数据可以是音频数据,也可以是视频数据,本说明书不作具体限制。
在具体实施过程中,在获取目标音视频数据时,可以将用户选取的音频数据或者视频数据作为目标音视频数据。以及在对目标音视频数据进行语音识别时,可以采用语音识别模型对目标音视频数据进行语音识别,以使得得到的识别文字的精确度更高。
本说明书实施例中,语音识别模型例如可以是基于神经网络的时序类分类(Connectionisttemporal classification,简称CTC)模型、长短时记忆网络(LSTM,LongShort Term Memory)、CNN模型和CLDNN模型等,本说明书不作具体限制。
具体来讲,在对目标音视频数据进行语音识别,得到识别文字时,为了使得得到的识别文字的准确性更高,可以先对获取的目标音视频数据进行音频提取,得到用户音频数据;再对用户音频数据进行语音识别,得到识别文字。此时,由于是先从目标音视频数据提取到用户音频数据,从而将目标音视频数据中的其它背景音乐去除掉后得到用户音频数据,使得在对用户音频数据进行语音识别时,没有目标音视频数据中的其它背景音乐造成的干扰,能够有效提高识别的准确性,从而使得识别得到的识别文字的准确性更高。
具体地,为了进一步提高得到的识别文字的准确性,在获取用户音频数据之后,还可以对用户音频数据进行降噪处理,去除音频中的噪音,包括音乐噪音或者背景噪音等,得到降噪音频数据,其中,降噪音频数据中仅保留了用户音频数据中的人声;再对降噪音频数据进行语音识别,得到识别文字。此时,由于降噪音频数据仅保留了用户音频数据中的人声,而且去除了音乐噪音或者背景噪音等噪音,在进行语音识别时能够进一步降低噪声对识别准确性的影响,从而能够进一步提高识别准确性,使得得到的识别文字的准确性进一步提高。
在得到识别文字之后,执行步骤S102。
在步骤S102中,利用自然语言处理技术对识别文字进行特征提取,得到N个特征向量。
在具体实施例过程中,在利用自然语言处理技术对识别文字进行特征提取时,可以采用词袋模型、CNN模型、RNN模型和LSTM模型等模型对识别文字进行特征提取,提取到N个特征向量,其中,N个特征向量包括情感特征向量、场景特征向量和用户特征向量等向量中的至少两种。当然,N个特征向量还可以包括语义向量,语义向量可以包括识别文字的语义信息。
具体地,情感特征向量可以包括用于表示高兴、悲伤和愤怒等情感的信息,场景特征向量可以包括用于表示婚礼、聚餐、生日派对和会议等场景的信息,用户特征向量可以包括用于表示用户性别和用户年龄等用户信息。
本说明书另一实施例中,在获取到N个特征向量之后,还需获取N个特征向量对应的N个情感标签。以及,在获取N个情感标签时,可以根据N个特征向量,从情感标签与特征向量的标签与向量对应关系中进行查找,查找到N个特征向量对应的N个情感标签,其中,特性向量与情感标签一一对应。当然,还可以根据N个特征向量,从情感标签与特征向量的标签与向量对应关系中进行查找,查找到N个特征向量对应的K个情感标签,其中,K为不小于1且不大于N的整数,此时,一个情感标签可以与一个或多个特征向量对应,但一个特征向量仅与一个情感标签对应。
例如,以目标音视频数据为视频数据A为例,首先提取A中的用户音频数据用A1表示,然后对A1进行降噪处理,将降噪处理后的A1进行语音识别,得到识别文字用A2表示;利用LSTM模型对A2进行特征提取,提取到情感特征向量用Q1表示,场景特征向量用Q2表示和用户特征向量用Q3表示,则将Q1、Q2和Q3作为N个特征向量;再根据预先设置的标签与向量对应关系查找到Q1对应的情感标签为B1,Q2对应的情感标签为B2,以及Q3对应的情感标签为B3。
在得到N个特征向量之后,执行步骤S103。
在步骤S103中,可以首先获取所述N个特征向量对应的N个情感标签;再根据情感标签与音乐生成器的对应关系,从音乐生成器集中获取与N个情感标签对应的N个音乐生成器。此时,通过情感标签与特征向量对应关系和情感标签与音乐生成器的对应关系,以此来获取N个特征向量对应的N个音乐生成器。通过获取N个特征向量对应的N个情感标签,再根据情感标签与音乐生成器的对应关系,查找到N特征向量对应的N个音乐生成器,以通过标签对应关系来缩短获取N个音乐生成器的时间,进而提高获取N个音乐生成器的效率。
在具体实施过程中,也可以将特性向量与音乐生成器直接对应,从而可以根据N个特征向量,获取到N个特征向量对应的N个音乐生成器,本说明书不作具体限制。
具体来讲,在执行步骤S103之前,还需预先训练得到音乐生成器集,其中,音乐生成器集的训练步骤包括,如图2所示,包括:
S201、获取训练样本集,所述训练样本集中每个训练样本包括训练音视频数据;
S202、针对训练样本集中的每个训练样本,对训练样本的训练音视频数据进行语音识别,得到训练识别文字;利用自然语言处理技术对所述训练识别文字进行特征提取,得到M个特征向量,其中,M为不小于N的整数;
S203、采用对抗网络,利用每个训练样本的M个特征向量对M个音乐生成器进行模型训练,得到训练好的所述M个音乐生成器,将训练好的所述M个音乐生成器作为所述音乐生成器集,其中,所述M个音乐生成器与所述M个特征向量对应。
其中,在步骤S201中,首先需要获取到训练样本集,训练样本集中至少包括一个训练样本,且训练样本集中的每个训练样本包括训练音视频数据,其中,训练音视频数据包括音频数据和视频数据,使得训练音视频数据可以为音频数据,也可以为视频数据,本说明书不作具体限制。
在获取到训练样本集之后,执行步骤S202。
在步骤S202中,针对训练样本集中的每个训练样本,可以利用自然语言处理技术对识别文字进行特征提取,得到M个特征向量。
在具体实施例过程中,针对每个训练样本,在利用自然语言处理技术对识别文字进行特征提取时,可以采用词袋模型、CNN模型、RNN模型和LSTM模型等模型对每个训练样本的训练识别文字进行特征提取,提取到每个训练样本的M个特征向量,其中,M个特征向量包括情感特征向量、场景特征向量和用户特征向量等向量中的至少两种。当然,M个特征向量还可以包括语义向量,语义向量可以包括识别文字的语义信息。
具体地,情感特征向量可以包括用于表示高兴、悲伤和愤怒等情感的信息,场景特征向量可以包括用于表示婚礼、聚餐、生日派对和会议等场景的信息,用户特征向量可以包括用于表示用户性别和用户年龄等用户信息。
具体来讲,M通常与N相同,此时,使得训练使用的M个特征向量和实际使用的N个特性向量的向量类型相同,使得音乐生成器预测的准确度更高。当然,M也可以为大于N的整数,此时,训练时使用更多类型的特征向量,在实际使用时可以使用部分或全部类型的特征向量,例如,训练时获取的M个特征向量为C1、C2、C3、C4和C5这5种类型特征向量,而在实际使用过程中获取的N种特征向量可以为C1、C2、C3和C4这4种类型特征向量,或者C1、C2和C3这3种类型特征向量等,本说明书不作具体限制。
具体地,在针对每个训练样本的训练音视频数据进行语音识别过程中,为了使得得到的训练识别文字的准确性更高,可以先对获取的每个训练样本的训练音视频数据进行音频提取,得到训练用户音频数据;再对训练用户音频数据进行语音识别,得到识别文字。
具体地,为了进一步提高得到的每个训练样本的训练识别文字的准确性,在获取每个训练样本的训练用户音频数据之后,还可以对每个训练样本的训练用户音频数据进行降噪处理,去除音频中的噪音,包括音乐噪音或者背景噪音等,得到每个训练样本的训练降噪音频数据,其中,降噪音频数据中仅保留了用户音频数据中的人声;再对每个训练样本的训练降噪音频数据进行语音识别,得到每个训练样本的训练识别文字。
在获取到每个训练样本的M个特征向量之后,执行步骤S203。
在步骤S203中,针对每个训练样本,根据预先设置的通过情感标签与特征向量对应关系,获取M个特征向量对应的M个情感标签;再根据情感标签与音乐生成器的对应关系,获取M个特征向量对应的M个音乐生成器;将M个特征向量输入到M个音乐生成器中,得到M种风格音乐;在将M种风格音乐进行合成,得到训练背景音乐;进而得到每个训练样本的训练背景音乐。在得到每个训练样本的训练背景音乐之后,使用音乐判别器对每个训练样本的训练背景音乐和真实音乐数据进行区分,通过不断的调整每个音乐生成器的参数再使用音乐判别器进行区分,进而实现不断的对抗优化,最终使得音乐判别器区分出训练背景音乐和真实音乐数据的准确率小于设定准确率时,将此时的M个音乐生成器作为训练好的M个音乐生成器。
本说明书实施例中,在将M种风格音乐进行合成,得到训练背景音乐时,通常是使用音乐合成器将M种风格音乐进行合成。
本说明书实施例中,M个音乐生成器中每个音乐生成器生成的音乐风格可以与其它音乐生成器生成的音乐风格不同。
具体来讲,以M个音乐生成器为G1、G2、G3和G4表示,且音乐判别器用D表示,针对每个训练样本,将训练样本的M个特征向量输入到G1、G2、G3和G4中,得到输出的M种风格音乐合成的训练背景音乐;再使用D对训练背景音乐和真实音乐数据进行区别,在G1、G2、G3、G4和D不断对抗优化中,最终使得D无法区分出训练背景音乐和真实音乐数据,或者,使得D针对训练背景音乐和真实音乐数据的区分率满足约束条件(小于设定准确率),此时,会使得G1、G2、G3和G4输出的训练背景音乐与真实音乐数据极其相似,将此时的G1、G2、G3和G4作为训练好的M个音乐生成器。
由于采用对抗训练方式进行模型训练,能够使得通过对抗训练得到的训练好的M个音乐生成器预测出的背景音乐的精确度更高。
如此,在通过步骤S201-S203练得到训练好的M个音乐生成器之后,由于训练好的M个音乐生成器是采用对抗训练得到的,使得训练好的M个音乐生成器预测出的背景音乐的精确度更高;如此,在将N个特征向量输入到N个音乐生成器中时,由于N个音乐生成器是从训练好的M个音乐生成器中的部分或全部音乐生成器,使得输出的背景音乐与用户需求的音乐匹配度更高,进而使得输出的背景音乐的准确度更高。
在得到训练好的M个音乐生成器之后,根据N个情感标签,从训练好的M个音乐生成器获取到N个音乐生成器。
在获取到N个音乐生成器之后,执行步骤S104。
在步骤S104中,由于N种特征向量与N个音乐生成器是一一对应的,如此,可以将N个特征向量中的每个特征向量输入到对应的音乐生成器中,得到N种风格音乐。
具体来讲,可以通过情感标签,将N个特征向量中的每个特征向量输入到对应的音乐生成器中,以避免出现特征向量输入到错误的音乐生成器中,例如某个特征向量的情感标签为B2,而B2对应的音乐生成器为G2,则将该特征向量输入到G2中。
在获取到N种风格音乐之后,执行步骤S105。
在步骤S105中,可以将N种风格音乐输入到音乐合成器中进行合成,得到合成后的音乐作为背景音乐。
例如,以训练好的M个音乐生成器为G1、G2、G3和G4为例,且M个音乐生成器对应的情感标签依次为B1、B2、B3和B4,若目标音频数据为视频数据为A,获取到A的N个特征向量为Q1、Q2和Q3,根据预先设置的标签与向量对应关系查找到Q1对应的情感标签为B1,Q2对应的情感标签为B2,以及Q3对应的情感标签为B3,再根据情感标签与音乐生成器的对应关系,则确定N个音乐生成器为G1、G2和G3,如此,将Q1输入到G1中,Q2输入到G2,以及Q3输入到G3中,得到3种风格音乐,再通过音乐合成器将3种风格音乐进行合成得到背景音乐。
如此,使得N个音乐生成器是从训练好的M个音乐生成器中的部分或全部音乐生成器,而训练好的M个音乐生成器是采用对抗训练得到的,使得训练好的M个音乐生成器预测出的背景音乐的精确度提高,进而使得N个音乐生成器预测出的背景音乐的精确度也会随之提高。
在本说明书另一实施例中,还可以在得到背景音乐之后,将背景音乐添加到目标音视频数据中,在添加了背景音乐的目标音视频数据进行发布。例如在自媒体创作中,用户仅仅有一段音视或视频的音视频,通过本实施例提供的背景音乐生成方法能够自动根据音视频的内容生成背景音乐,并将生成好的背景音乐自动添加到用户的音视频中,由用户进行发布即可。
此时,由于生成的背景音乐是由N个音乐生成器生成的,而N个音乐生成器是从训练好的M个音乐生成器中的部分或全部音乐生成器,且训练好的M个音乐生成器是采用对抗训练得到的,使得训练好的M个音乐生成器预测出的背景音乐的精确度提高,进而使得N个音乐生成器预测出的背景音乐的精确度也会随之提高。
基于上述技术方案,对获取的目标音视频数据进行语音识别,得到识别文字;利用自然语言处理技术对识别文字进行特征提取,得到N个特征向量;在根据预先训练的音乐生成器集中,将N个特征向量中每个特征向量输入到对应的音乐生成器中,得到N种风格音乐;将所述N种风格音乐进行合成,得到背景音乐;此时,可以将目标音视频数据依次进行语音识别和特征提取,将提取到N个特征向量输入到预先训练的N个音乐生成器,生成N种风格音乐,再将N种风格音乐进行合成得到背景音乐,由于背景音乐是由N种风格音乐生成的,而N为不小于2的整数,使得背景音乐是由多种风格音乐生成的,不属于现有的音乐和歌曲,如此,使得生成的背景音乐的个性化更强,与用户的需求更匹配。
针对上述实施例提供一种背景音乐生成方法,本申请实施例还对应提供一种背景音乐生成装置,请参考图3,该装置包括:
识别单元301,用于对获取的目标音视频数据进行语音识别,得到识别文字;
特征提取单元302,用于利用自然语言处理技术对所述识别文字进行特征提取,得到N个特征向量,其中,N为不小于2的整数;
音乐生成器获取单元303,用于从预先训练的音乐生成器集中,获取所述N个特征向量对应的N个音乐生成器;
风格音乐获取单元304,用于将所述N个特征向量中每个特征向量输入到对应的音乐生成器中,得到N种风格音乐;
背景音乐获取单元305,用于将所述N种风格音乐进行合成,得到背景音乐。
在一种可选的实施方式中,音乐生成器获取单元303,用于获取所述N个特征向量对应的N个情感标签;根据情感标签与音乐生成器的对应关系,从所述音乐生成器集中获取与所述N个情感标签对应的所述N个音乐生成器。
在一种可选的实施方式中,识别单元301,用于对获取的所述目标音视频数据进行音频提取,得到用户音频数据;对所述用户音频数据进行语音识别,得到所述识别文字。
在一种可选的实施方式中,所述装置还包括:
音乐生成器训练单元,用于获取训练样本集,所述训练样本集中每个训练样本包括训练音视频数据;针对训练样本集中的每个训练样本,对训练样本的训练音视频数据进行语音识别,得到训练识别文字;利用自然语言处理技术对所述训练识别文字进行特征提取,得到M个特征向量,其中,M为不小于N的整数;采用对抗网络,利用每个训练样本的M个特征向量对M个音乐生成器进行模型训练,得到训练好的所述M个音乐生成器,将训练好的所述M个音乐生成器作为所述音乐生成器集,其中,所述M个音乐生成器与所述M个特征向量对应。
在一种可选的实施方式中,所述装置还包括:
背景音乐添加单元,用于在得到背景音乐之后,将所述背景音乐添加到所述目标音视频数据中。
关于上述实施例中的装置,其中各个模块执行操作的具体方式已经在有关该方法的实施例中进行了详细描述,此处将不做详细阐述说明。
图4是根据一示例性实施例示出的一种用于背景音乐生成方法的电子设备800的框图。例如,电子设备800可以是移动电话,计算机,数字广播终端,消息收发设备,游戏控制台,平板设备,医疗设备,健身设备,个人数字助理等。
参照图4,电子设备800可以包括以下一个或多个组件:处理组件802,存储器804,电源组件806,多媒体组件808,音频组件810,输入/展现(I/O)的接口812,传感器组件814,以及通信组件816。
处理组件802通常控制电子设备800的整体操作,诸如与显示,电话呼叫,数据通信,相机操作和记录操作相关联的操作。处理元件802可以包括一个或多个处理器820来执行指令,以完成上述的方法的全部或部分步骤。此外,处理组件802可以包括一个或多个模块,便于处理组件802和其他组件之间的交互。例如,处理部件802可以包括多媒体模块,以方便多媒体组件808和处理组件802之间的交互。
存储器804被配置为存储各种类型的数据以支持在设备800的操作。这些数据的示例包括用于在电子设备800上操作的任何应用程序或方法的指令,联系人数据,电话簿数据,消息,图片,视频等。存储器804可以由任何类型的易失性或非易失性存储设备或者它们的组合实现,如静态随机存取存储器(SRAM),电可擦除可编程只读存储器(EEPROM),可擦除可编程只读存储器(EPROM),可编程只读存储器(PROM),只读存储器(ROM),磁存储器,快闪存储器,磁盘或光盘。
电源组件806为电子设备800的各种组件提供电力。电源组件806可以包括电源管理系统,一个或多个电源,及其他与为电子设备800生成、管理和分配电力相关联的组件。
多媒体组件808包括在所述电子设备800和用户之间的提供一个展现接口的屏幕。在一些实施例中,屏幕可以包括液晶显示器(LCD)和触摸面板(TP)。如果屏幕包括触摸面板,屏幕可以被实现为触摸屏,以接收来自用户的输入信号。触摸面板包括一个或多个触摸传感器以感测触摸、滑动和触摸面板上的手势。所述触摸传感器可以不仅感测触摸或滑动动作的边界,而且还检测与所述触摸或滑动操作相关的持续时间和压力。在一些实施例中,多媒体组件808包括一个前置摄像头和/或后置摄像头。当设备800处于操作模式,如拍摄模式或视频模式时,前置摄像头和/或后置摄像头可以接收外部的多媒体数据。每个前置摄像头和后置摄像头可以是一个固定的光学透镜系统或具有焦距和光学变焦能力。
音频组件810被配置为展现和/或输入音频信号。例如,音频组件810包括一个麦克风(MIC),当电子设备800处于操作模式,如呼叫模式、记录模式和语音识别模式时,麦克风被配置为接收外部音频信号。所接收的音频信号可以被进一步存储在存储器804或经由通信组件816发送。在一些实施例中,音频组件810还包括一个扬声器,用于展现音频信号。
I/O接口812为处理组件802和外围接口模块之间提供接口,上述外围接口模块可以是键盘,点击轮,按钮等。这些按钮可包括但不限于:主页按钮、音量按钮、启动按钮和锁定按钮。
传感器组件814包括一个或多个传感器,用于为电子设备800提供各个方面的状态评估。例如,传感器组件814可以检测到设备800的打开/关闭状态,组件的相对定位,例如所述组件为电子设备800的显示器和小键盘,传感器组件814还可以检测电子设备800或电子设备800一个组件的位置改变,用户与电子设备800接触的存在或不存在,电子设备800方位或加速/减速和电子设备800的温度变化。传感器组件814可以包括接近传感器,被配置用来在没有任何的物理接触时检测附近物体的存在。传感器组件814还可以包括光传感器,如CMOS或CCD图像传感器,用于在成像应用中使用。在一些实施例中,该传感器组件814还可以包括加速度传感器,陀螺仪传感器,磁传感器,压力传感器或温度传感器。
通信组件816被配置为便于电子设备800和其他设备之间有线或无线方式的通信。电子设备800可以接入基于通信标准的无线网络,如WiFi,2G或3G,或它们的组合。在一个示例性实施例中,通信部件816经由广播信道接收来自外部广播管理系统的广播信号或广播相关信息。在一个示例性实施例中,所述通信部件816还包括近场通信(NFC)模块,以促进短程通信。例如,在NFC模块可基于射频识别(RFID)技术,红外数据协会(IrDA)技术,超宽带(UWB)技术,蓝牙(BT)技术和其他技术来实现。
在示例性实施例中,电子设备800可以被一个或多个应用专用集成电路(ASIC)、数字信号处理器(DSP)、数字信号处理设备(DSPD)、可编程逻辑器件(PLD)、现场可编程门阵列(FPGA)、控制器、微控制器、微处理器或其他电子元件实现,用于执行上述方法。
在示例性实施例中,还提供了一种包括指令的非临时性计算机可读存储介质,例如包括指令的存储器804,上述指令可由电子设备800的处理器820执行以完成上述方法。例如,所述非临时性计算机可读存储介质可以是ROM、随机存取存储器(RAM)、CD-ROM、磁带、软盘和光数据存储设备等。
一种非临时性计算机可读存储介质,当所述存储介质中的指令由移动终端的处理器执行时,使得移动终端能够执行一种背景音乐生成方法,所述方法包括:
对获取的目标音视频数据进行语音识别,得到识别文字;
利用自然语言处理技术对所述识别文字进行特征提取,得到N个特征向量,其中,N为不小于2的整数;
从预先训练的音乐生成器集中,获取所述N个特征向量对应的N个音乐生成器;
将所述N个特征向量中每个特征向量输入到对应的音乐生成器中,得到N种风格音乐;
将所述N种风格音乐进行合成,得到背景音乐。
本领域技术人员在考虑说明书及实践这里公开的发明后,将容易想到本发明的其它实施方案。本申请旨在涵盖本发明的任何变型、用途或者适应性变化,这些变型、用途或者适应性变化遵循本发明的一般性原理并包括本公开未公开的本技术领域中的公知常识或惯用技术手段。说明书和实施例仅被视为示例性的,本发明的真正范围和精神由下面的权利要求指出。
应当理解的是,本发明并不局限于上面已经描述并在附图中示出的精确结构,并且可以在不脱离其范围进行各种修改和改变。本发明的范围仅由所附的权利要求来限制
以上所述仅为本发明的较佳实施例,并不用以限制本发明,凡在本发明的精神和原则之内,所作的任何修改、等同替换、改进等,均应包含在本发明的保护范围之内。
Claims (12)
1.一种背景音乐生成方法,其特征在于,所述方法包括:
对获取的目标音视频数据进行语音识别,得到识别文字;
利用自然语言处理技术对所述识别文字进行特征提取,得到N个特征向量,其中,N为不小于2的整数;所述N个特征向量包括情感特征向量、场景特征向量和用户特征向量中的至少两个;
从预先训练的音乐生成器集中,获取所述N个特征向量对应的N个音乐生成器;每个音乐生成器代表不同的音乐风格;
将所述N个特征向量中每个特征向量输入到对应的音乐生成器中,得到N种风格音乐;
将所述N种风格音乐进行合成,得到背景音乐。
2.如权利要求1所述的方法,其特征在于,所述获取所述N个特征向量对应的N个音乐生成器,包括:
获取所述N个特征向量对应的N个情感标签;
根据情感标签与音乐生成器的对应关系,从所述音乐生成器集中获取与所述N个情感标签对应的所述N个音乐生成器。
3.如权利要求2所述的方法,其特征在于,所述对获取的目标音视频数据进行语音识别,得到识别文字,包括:
对获取的所述目标音视频数据进行音频提取,得到用户音频数据;
对所述用户音频数据进行语音识别,得到所述识别文字。
4.如权利要求3所述的方法,其特征在于,所述音乐生成器集的训练步骤,包括:
获取训练样本集,所述训练样本集中每个训练样本包括训练音视频数据;
针对训练样本集中的每个训练样本,对训练样本的训练音视频数据进行语音识别,得到训练识别文字;利用自然语言处理技术对所述训练识别文字进行特征提取,得到M个特征向量,其中,M为不小于N的整数;
采用对抗网络,利用每个训练样本的M个特征向量对M个音乐生成器进行模型训练,得到训练好的所述M个音乐生成器,将训练好的所述M个音乐生成器作为所述音乐生成器集,其中,所述M个音乐生成器与所述M个特征向量对应。
5.如权利要求1-4任一项所述的方法,其特征在于,在得到背景音乐之后,所述方法还包括:
将所述背景音乐添加到所述目标音视频数据中。
6.一种背景音乐生成装置,其特征在于,所述装置包括:
识别单元,用于对获取的目标音视频数据进行语音识别,得到识别文字;
特征提取单元,用于利用自然语言处理技术对所述识别文字进行特征提取,得到N个特征向量,其中,N为不小于2的整数;所述N个特征向量包括情感特征向量、场景特征向量和用户特征向量中的至少两个;
音乐生成器获取单元,用于从预先训练的音乐生成器集中,获取所述N个特征向量对应的N个音乐生成器;每个音乐生成器代表不同的音乐风格;
风格音乐获取单元,用于将所述N个特征向量中每个特征向量输入到对应的音乐生成器中,得到N种风格音乐;
背景音乐获取单元,用于将所述N种风格音乐进行合成,得到背景音乐。
7.如权利要求6所述的装置,其特征在于,所述音乐生成器获取单元,用于获取所述N个特征向量对应的N个情感标签;根据情感标签与音乐生成器的对应关系,从所述音乐生成器集中获取与所述N个情感标签对应的所述N个音乐生成器。
8.如权利要求7所述的装置,其特征在于,所述识别单元,用于对获取的所述目标音视频数据进行音频提取,得到用户音频数据;对所述用户音频数据进行语音识别,得到所述识别文字。
9.如权利要求8所述的装置,其特征在于,还包括:
音乐生成器训练单元,用于获取训练样本集,所述训练样本集中每个训练样本包括训练音视频数据;针对训练样本集中的每个训练样本,对训练样本的训练音视频数据进行语音识别,得到训练识别文字;利用自然语言处理技术对所述训练识别文字进行特征提取,得到M个特征向量,其中,M为不小于N的整数;采用对抗网络,利用每个训练样本的M个特征向量对M个音乐生成器进行模型训练,得到训练好的所述M个音乐生成器,将训练好的所述M个音乐生成器作为所述音乐生成器集,其中,所述M个音乐生成器与所述M个特征向量对应。
10.如权利要求6-9任一项所述的装置,其特征在于,还包括:
背景音乐添加单元,用于在得到背景音乐之后,将所述背景音乐添加到所述目标音视频数据中。
11.一种电子设备,其特征在于,包括有存储器,以及一个或者一个以上的程序,其中一个或者一个以上的程序存储于存储器中,且经配置以由一个或者一个以上的处理器执行所述一个或者一个以上的程序所包含的用于进行如权利要求1~5任一所述方法对应的操作指令。
12.一种计算机可读存储介质,其上存储有计算机程序,其特征在于,该程序被处理器执行时实现如权利要求1~5任一所述方法对应的步骤。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202111166926.4A CN113923517B (zh) | 2021-09-30 | 2021-09-30 | 一种背景音乐生成方法、装置及电子设备 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202111166926.4A CN113923517B (zh) | 2021-09-30 | 2021-09-30 | 一种背景音乐生成方法、装置及电子设备 |
Publications (2)
Publication Number | Publication Date |
---|---|
CN113923517A CN113923517A (zh) | 2022-01-11 |
CN113923517B true CN113923517B (zh) | 2024-05-07 |
Family
ID=79237894
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN202111166926.4A Active CN113923517B (zh) | 2021-09-30 | 2021-09-30 | 一种背景音乐生成方法、装置及电子设备 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN113923517B (zh) |
Families Citing this family (1)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN116504206B (zh) * | 2023-03-18 | 2024-02-20 | 深圳市狼视天下科技有限公司 | 一种识别环境并生成音乐的摄像头 |
Citations (25)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
WO2006022606A2 (en) * | 2003-01-07 | 2006-03-02 | Madwares Ltd. | Systems and methods for portable audio synthesis |
CN103186527A (zh) * | 2011-12-27 | 2013-07-03 | 北京百度网讯科技有限公司 | 建立音乐分类模型的系统、推荐音乐的系统及相应方法 |
CN103795897A (zh) * | 2014-01-21 | 2014-05-14 | 深圳市中兴移动通信有限公司 | 自动生成背景音乐的方法和装置 |
CN108986842A (zh) * | 2018-08-14 | 2018-12-11 | 百度在线网络技术(北京)有限公司 | 音乐风格识别处理方法及终端 |
CN109492128A (zh) * | 2018-10-30 | 2019-03-19 | 北京字节跳动网络技术有限公司 | 用于生成模型的方法和装置 |
CN109599079A (zh) * | 2017-09-30 | 2019-04-09 | 腾讯科技(深圳)有限公司 | 一种音乐的生成方法和装置 |
CN109862393A (zh) * | 2019-03-20 | 2019-06-07 | 深圳前海微众银行股份有限公司 | 视频文件的配乐方法、系统、设备及存储介质 |
CN110085263A (zh) * | 2019-04-28 | 2019-08-02 | 东华大学 | 一种音乐情感分类和机器作曲方法 |
CN110148393A (zh) * | 2018-02-11 | 2019-08-20 | 阿里巴巴集团控股有限公司 | 音乐生成方法、装置和系统以及数据处理方法 |
CN110309327A (zh) * | 2018-02-28 | 2019-10-08 | 北京搜狗科技发展有限公司 | 音频生成方法、装置以及用于音频的生成装置 |
CN110740262A (zh) * | 2019-10-31 | 2020-01-31 | 维沃移动通信有限公司 | 背景音乐的添加方法、装置及电子设备 |
CN110767201A (zh) * | 2018-07-26 | 2020-02-07 | Tcl集团股份有限公司 | 一种配乐生成方法、存储介质及终端设备 |
CN110781835A (zh) * | 2019-10-28 | 2020-02-11 | 中国传媒大学 | 一种数据处理方法、装置、电子设备和存储介质 |
CN110830368A (zh) * | 2019-11-22 | 2020-02-21 | 维沃移动通信有限公司 | 即时通讯消息发送方法及电子设备 |
CN110858924A (zh) * | 2018-08-22 | 2020-03-03 | 北京优酷科技有限公司 | 视频背景音乐的生成方法及装置 |
CN110971969A (zh) * | 2019-12-09 | 2020-04-07 | 北京字节跳动网络技术有限公司 | 视频配乐方法、装置、电子设备及计算机可读存储介质 |
CN111737516A (zh) * | 2019-12-23 | 2020-10-02 | 北京沃东天骏信息技术有限公司 | 一种互动音乐生成方法、装置、智能音箱及存储介质 |
CN111950266A (zh) * | 2019-04-30 | 2020-11-17 | 北京搜狗科技发展有限公司 | 一种数据处理方法、装置和用于数据处理的装置 |
CN112040273A (zh) * | 2020-09-11 | 2020-12-04 | 腾讯科技(深圳)有限公司 | 视频合成方法及装置 |
CN112189193A (zh) * | 2018-05-24 | 2021-01-05 | 艾米有限公司 | 音乐生成器 |
CN112231499A (zh) * | 2019-07-15 | 2021-01-15 | 李姿慧 | 一种视频配乐智能系统 |
CN112584062A (zh) * | 2020-12-10 | 2021-03-30 | 上海哔哩哔哩科技有限公司 | 背景音频构建方法及装置 |
CN112597320A (zh) * | 2020-12-09 | 2021-04-02 | 上海掌门科技有限公司 | 社交信息生成方法、设备及计算机可读介质 |
CN113190709A (zh) * | 2021-03-31 | 2021-07-30 | 浙江大学 | 一种基于短视频关键帧的背景音乐推荐方法和装置 |
CN113299255A (zh) * | 2021-05-13 | 2021-08-24 | 中国科学院声学研究所 | 基于深度神经网络和音乐元素驱动的情感音乐生成方法 |
Family Cites Families (4)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
US10380983B2 (en) * | 2016-12-30 | 2019-08-13 | Google Llc | Machine learning to generate music from text |
CN110555126B (zh) * | 2018-06-01 | 2023-06-27 | 微软技术许可有限责任公司 | 旋律的自动生成 |
US11741922B2 (en) * | 2018-09-14 | 2023-08-29 | Bellevue Investments Gmbh & Co. Kgaa | Method and system for template based variant generation of hybrid AI generated song |
KR102148006B1 (ko) * | 2019-04-30 | 2020-08-25 | 주식회사 카카오 | 동영상에 특수 이펙트를 제공하는 방법 및 장치 |
-
2021
- 2021-09-30 CN CN202111166926.4A patent/CN113923517B/zh active Active
Patent Citations (25)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
WO2006022606A2 (en) * | 2003-01-07 | 2006-03-02 | Madwares Ltd. | Systems and methods for portable audio synthesis |
CN103186527A (zh) * | 2011-12-27 | 2013-07-03 | 北京百度网讯科技有限公司 | 建立音乐分类模型的系统、推荐音乐的系统及相应方法 |
CN103795897A (zh) * | 2014-01-21 | 2014-05-14 | 深圳市中兴移动通信有限公司 | 自动生成背景音乐的方法和装置 |
CN109599079A (zh) * | 2017-09-30 | 2019-04-09 | 腾讯科技(深圳)有限公司 | 一种音乐的生成方法和装置 |
CN110148393A (zh) * | 2018-02-11 | 2019-08-20 | 阿里巴巴集团控股有限公司 | 音乐生成方法、装置和系统以及数据处理方法 |
CN110309327A (zh) * | 2018-02-28 | 2019-10-08 | 北京搜狗科技发展有限公司 | 音频生成方法、装置以及用于音频的生成装置 |
CN112189193A (zh) * | 2018-05-24 | 2021-01-05 | 艾米有限公司 | 音乐生成器 |
CN110767201A (zh) * | 2018-07-26 | 2020-02-07 | Tcl集团股份有限公司 | 一种配乐生成方法、存储介质及终端设备 |
CN108986842A (zh) * | 2018-08-14 | 2018-12-11 | 百度在线网络技术(北京)有限公司 | 音乐风格识别处理方法及终端 |
CN110858924A (zh) * | 2018-08-22 | 2020-03-03 | 北京优酷科技有限公司 | 视频背景音乐的生成方法及装置 |
CN109492128A (zh) * | 2018-10-30 | 2019-03-19 | 北京字节跳动网络技术有限公司 | 用于生成模型的方法和装置 |
CN109862393A (zh) * | 2019-03-20 | 2019-06-07 | 深圳前海微众银行股份有限公司 | 视频文件的配乐方法、系统、设备及存储介质 |
CN110085263A (zh) * | 2019-04-28 | 2019-08-02 | 东华大学 | 一种音乐情感分类和机器作曲方法 |
CN111950266A (zh) * | 2019-04-30 | 2020-11-17 | 北京搜狗科技发展有限公司 | 一种数据处理方法、装置和用于数据处理的装置 |
CN112231499A (zh) * | 2019-07-15 | 2021-01-15 | 李姿慧 | 一种视频配乐智能系统 |
CN110781835A (zh) * | 2019-10-28 | 2020-02-11 | 中国传媒大学 | 一种数据处理方法、装置、电子设备和存储介质 |
CN110740262A (zh) * | 2019-10-31 | 2020-01-31 | 维沃移动通信有限公司 | 背景音乐的添加方法、装置及电子设备 |
CN110830368A (zh) * | 2019-11-22 | 2020-02-21 | 维沃移动通信有限公司 | 即时通讯消息发送方法及电子设备 |
CN110971969A (zh) * | 2019-12-09 | 2020-04-07 | 北京字节跳动网络技术有限公司 | 视频配乐方法、装置、电子设备及计算机可读存储介质 |
CN111737516A (zh) * | 2019-12-23 | 2020-10-02 | 北京沃东天骏信息技术有限公司 | 一种互动音乐生成方法、装置、智能音箱及存储介质 |
CN112040273A (zh) * | 2020-09-11 | 2020-12-04 | 腾讯科技(深圳)有限公司 | 视频合成方法及装置 |
CN112597320A (zh) * | 2020-12-09 | 2021-04-02 | 上海掌门科技有限公司 | 社交信息生成方法、设备及计算机可读介质 |
CN112584062A (zh) * | 2020-12-10 | 2021-03-30 | 上海哔哩哔哩科技有限公司 | 背景音频构建方法及装置 |
CN113190709A (zh) * | 2021-03-31 | 2021-07-30 | 浙江大学 | 一种基于短视频关键帧的背景音乐推荐方法和装置 |
CN113299255A (zh) * | 2021-05-13 | 2021-08-24 | 中国科学院声学研究所 | 基于深度神经网络和音乐元素驱动的情感音乐生成方法 |
Non-Patent Citations (3)
Title |
---|
Fang-Fei Kuo ; Man-Kwan Shan ; Suh-Yin Lee.Background music recommendation for video based on multimodal latent semantic analysis.《2013 IEEE International Conference on Multimedia and Expo (ICME)》.2013,全文. * |
互动仪式链视角下的音乐短视频探析――以抖音App为例;翟欣;;新媒体研究;20180831(第16期);全文 * |
基于深度学习的视频背景音乐自动推荐算法研究;吕军辉;;电视技术;20181005(第10期);全文 * |
Also Published As
Publication number | Publication date |
---|---|
CN113923517A (zh) | 2022-01-11 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
CN107644646B (zh) | 语音处理方法、装置以及用于语音处理的装置 | |
CN107527619B (zh) | 语音控制业务的定位方法及装置 | |
CN108038102B (zh) | 表情图像的推荐方法、装置、终端及存储介质 | |
CN110781323A (zh) | 多媒体资源的标签确定方法、装置、电子设备及存储介质 | |
CN110610720B (zh) | 一种数据处理方法、装置和用于数据处理的装置 | |
CN111831806B (zh) | 语义完整性确定方法、装置、电子设备和存储介质 | |
CN113705210B (zh) | 一种文章大纲生成方法、装置和用于生成文章大纲的装置 | |
CN111797262B (zh) | 诗词生成方法、装置、电子设备和存储介质 | |
US11335348B2 (en) | Input method, device, apparatus, and storage medium | |
CN113656557B (zh) | 消息回复方法、装置、存储介质及电子设备 | |
CN112037756A (zh) | 语音处理方法、装置和介质 | |
CN113709548B (zh) | 基于图像的多媒体数据合成方法、装置、设备及存储介质 | |
CN113923517B (zh) | 一种背景音乐生成方法、装置及电子设备 | |
CN113177419B (zh) | 文本改写方法、装置、存储介质及电子设备 | |
CN114676308A (zh) | 搜索词推荐方法、装置、电子设备、存储介质及产品 | |
CN112130839A (zh) | 一种构建数据库、语音编程的方法及相关装置 | |
CN106339160A (zh) | 浏览交互处理方法及装置 | |
CN113936697B (zh) | 语音处理方法、装置以及用于语音处理的装置 | |
CN108241438B (zh) | 一种输入方法、装置和用于输入的装置 | |
CN112948565A (zh) | 人机对话方法、装置、电子设备及存储介质 | |
CN109977303A (zh) | 多媒体信息的交互方法、装置及存储介质 | |
CN117642817A (zh) | 识别音频数据类别的方法、装置及存储介质 | |
CN114550691A (zh) | 一种多音字消歧方法、装置、电子设备及可读存储介质 | |
CN114154465B (zh) | 结构图的结构重构方法、装置、电子设备及存储介质 | |
CN115484471B (zh) | 主播推荐方法及装置 |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination | ||
GR01 | Patent grant | ||
GR01 | Patent grant |