CN111198958A - 匹配背景音乐的方法、装置及终端 - Google Patents
匹配背景音乐的方法、装置及终端 Download PDFInfo
- Publication number
- CN111198958A CN111198958A CN201811375951.1A CN201811375951A CN111198958A CN 111198958 A CN111198958 A CN 111198958A CN 201811375951 A CN201811375951 A CN 201811375951A CN 111198958 A CN111198958 A CN 111198958A
- Authority
- CN
- China
- Prior art keywords
- image
- information
- label
- determining
- target
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Pending
Links
- 238000000034 method Methods 0.000 title claims abstract description 67
- 230000008451 emotion Effects 0.000 claims description 32
- 238000004590 computer program Methods 0.000 claims description 20
- 230000014509 gene expression Effects 0.000 claims description 18
- 230000001815 facial effect Effects 0.000 claims description 12
- 230000006399 behavior Effects 0.000 claims description 6
- 230000008569 process Effects 0.000 description 13
- 230000006870 function Effects 0.000 description 8
- 238000010586 diagram Methods 0.000 description 5
- 230000002996 emotional effect Effects 0.000 description 5
- 239000011295 pitch Substances 0.000 description 5
- 238000012545 processing Methods 0.000 description 5
- 230000009471 action Effects 0.000 description 3
- 230000008878 coupling Effects 0.000 description 3
- 238000010168 coupling process Methods 0.000 description 3
- 238000005859 coupling reaction Methods 0.000 description 3
- 230000010354 integration Effects 0.000 description 3
- 230000000630 rising effect Effects 0.000 description 3
- 230000008859 change Effects 0.000 description 2
- 238000004891 communication Methods 0.000 description 2
- 239000000284 extract Substances 0.000 description 2
- 230000008921 facial expression Effects 0.000 description 2
- 230000011218 segmentation Effects 0.000 description 2
- 241000276489 Merlangius merlangus Species 0.000 description 1
- 241001465754 Metazoa Species 0.000 description 1
- 238000013135 deep learning Methods 0.000 description 1
- 238000013461 design Methods 0.000 description 1
- 238000011161 development Methods 0.000 description 1
- 230000018109 developmental process Effects 0.000 description 1
- 238000005516 engineering process Methods 0.000 description 1
- 238000000605 extraction Methods 0.000 description 1
- 238000009432 framing Methods 0.000 description 1
- 238000012986 modification Methods 0.000 description 1
- 230000004048 modification Effects 0.000 description 1
- 230000036651 mood Effects 0.000 description 1
- 210000003205 muscle Anatomy 0.000 description 1
- 230000003287 optical effect Effects 0.000 description 1
- 238000007781 pre-processing Methods 0.000 description 1
- 238000006467 substitution reaction Methods 0.000 description 1
- 239000002699 waste material Substances 0.000 description 1
Images
Landscapes
- Image Analysis (AREA)
Abstract
本发明适用于多媒体技术领域,提供了一种匹配背景音乐的方法、装置及终端,所述方法包括:获取待处理的目标视频的语音信息和图像信息;基于所述语音信息以及所述图像信息确定所述目标视频所属的目标类别标签;从候选音乐库中确定与目标类别标签匹配的目标音乐。本发明实施例,由于从语音和图像两个部分的提取特征标签,生成的视频类别标签内容更全面,更能体现视频的内容,匹配出的背景音乐与视频的匹配度高,用户不用多次进行选择,提高了设置背景音乐的效率。
Description
技术领域
本发明属于多媒体技术领域,尤其涉及一种匹配背景音乐的方法、装置及终端。
背景技术
随着深度学习的发展,越来越多的智能设备应用到日常生活中,智能越来越深入人们的生活,而我们也希望借助智能科技让生活越来越简单、高效。现在有很多人拍写真、婚纱摄影之类的。当把拍摄的相片做成视频时,通常需要添加背景音乐。由于对于不同的视频选择的音乐不尽相同,因此,在添加背景音乐的时候总是需要花大量的时间去选择合适的音乐而且。然而,人们只想见到音乐和内容合成后结果,对于选取音乐这一环节并不想把时间浪费在这上面。
现有技术中,提供了一种为视频匹配背景音乐的方法,但是,这种方法只是单纯的字面上的匹配,匹配后给出的背景音乐达不到用户心目中的预期,匹配度低,用户还是需要进行多次的选择,浪费了时间,效率低下。
发明内容
有鉴于此,本发明实施例提供了一种匹配背景音乐的方法及、装置及终端,以解决现有技术中匹配的背景音乐匹配度低,用户需要多次选择,浪费时间,效率低下的问题。
第一方面,本发明实施例提供了一种匹配背景音乐的方法,该方法包括:
获取待处理的目标视频的语音信息和图像信息;
基于所述语音信息以及所述图像信息确定所述目标视频所属的目标类别标签;
从候选音乐库中确定与目标类别标签匹配的目标音乐。
第二方面,本发明实施例提供了一种匹配背景音乐的装置,包括:
第一获取单元,用于获取待处理的目标视频的语音信息和图像信息;
第二获取单元,用于基于所述语音特征信息以及所述图像特征信息确定所述目标视频所属的目标类别标签;
确定单元,用于从候选音乐库中确定与目标类别标签匹配的目标音乐。
第三方面,本发明实施例提供了另一种匹配背景音乐的终端,包括:存储器、处理器以及存储在所述存储器中并可在所述处理器上运行的计算机程序,其特征在于,所述处理器执行所述计算机程序时实现上述第一方面的匹配背景音乐的方法的步骤。
第四方面,本发明实施例提供了一种计算机可读存储介质,所述计算机存储介质存储有计算机程序,所述计算机程序包括程序指令,所述程序指令当被处理器执行时使所述处理器执行上述第一方面的匹配背景音乐的方法的步骤。
本发明实施例通过获取待处理的目标视频的语音信息和图像信息;基于所述语音信息以及所述图像信息确定所述目标视频所属的目标类别标签;从候选音乐库中确定与目标类别标签匹配的目标音乐。本发明实施例,由于从语音和图像两个部分的提取特征标签,生成的视频类别标签内容更全面,更能体现视频的内容,匹配出的背景音乐与视频的匹配度高,用户不用多次进行选择,提高了设置背景音乐的效率。
附图说明
为了更清楚地说明本发明实施例技术方案,下面将对实施例描述中所需要使用的附图作简单地介绍,显而易见地,下面描述中的附图是本发明的一些实施例,对于本领域普通技术人员来讲,在不付出创造性劳动的前提下,还可以根据这些附图获得其他的附图。
图1是本发明实施例提供的一种匹配背景音乐的方法的实现流程图;
图2是本发明另一实施例提供的一种匹配背景音乐的方法实现的流程图;
图3是本发明实施例提供的一种匹配背景音乐的方法中S202的细化流程图;
图4是本发明实施例提供的一种匹配背景音乐的方法中S203的细化流程图;
图5是本发明实施例提供的一种匹配背景音乐的方法中S2031的细化流程图;
图6是本发明实施例提供的一种匹配背景音乐的装置的示意性框图;
图7是本发明实施例提供的一种匹配背景音乐的终端的示意性框图。
具体实施方式
以下描述中,为了说明而不是为了限定,提出了诸如特定系统结构、技术之类的具体细节,以便透彻理解本发明实施例。然而,本领域的技术人员应当清楚,在没有这些具体细节的其它实施例中也可以实现本发明。在其它情况中,省略对众所周知的系统、装置、电路以及方法的详细说明,以免不必要的细节妨碍本发明的描述。
为了说明本发明所述的技术方案,下面通过具体实施例来进行说明。请参见图1,图1是本发明实施例提供的一种匹配背景音乐的方法的示意流程图。本实施例中匹配背景音乐的方法的执行主体为终端,终端包括但不限于智能手机、平板电脑、个人数字助理PAD等移动终端。如图所示的匹配背景音乐的方法可包括:
S101:获取待处理的目标视频的语音信息和图像信息。
终端在检测到用于表示为视频设置背景音乐的指令时,获取待处理的目标视频,并提取待处理的目标视频的语音信息和图像信息。待处理的目标视频为需要为其设置背景音乐的视频。
语音信息可以包括文本信息和语调信息。文本信息标识目标视频中包含的谈话内容。语调信息标识目标视频中说话人的情绪。文本信息是将语音信息转化为文本,并对文本进行文本分析得到的。
图像信息是对待处理的目标视频的图像做分帧处理后获取得到。图像信息可以包括环境信息、亮度信息、色彩信息、人物肢体信息和面部信息中的任意一个或至少两个的任意组合。
S102:基于所述语音信息以及所述图像信息确定所述目标视频所属的目标类别标签。
终端在获取了语音信息以及图像信息后,对语音信息以及图像信息进行整理分析,基于整理分析的结果确定目标视频所属的目标类别标签。整理分析的过程可以是提取语音信息的关键词,以及提取图像信息的关键词,基于语音信息的关键词以及图像信息的关键词,确定目标视频的类别标签。目标视频的类别标签可以多有多个属性,例如,目标视频的类别标签=[‘开心’,‘沙滩’,‘做游戏’]。整理分析的方法以及获取目标视频所属的目标类别标签的方法并不限于此,还可以采用其他方式,此处不做限制。
S103:从候选音乐库中确定与目标类别标签匹配的目标音乐。
一实施方式中,终端中预设有音乐库,音乐库中存储有各种类型的音乐,每一个音乐设置有相应的标签。每首音乐设置的标签的数量可以为一个,也可以为至少两个。
从候选音乐库中确定与目标类别标签匹配的目标音乐,终端预设目标类别标签与音乐标签之间的预设关系,通过目标类别标签与音乐标签之间的预设关系,确定目标音乐。
另一实施方式中,从候选音乐库中确定与目标类别标签匹配的目标音乐还可以通过将目标视频的目标类别标签与音乐标签相匹配,计算两组标签之间的相似度来实现,得到匹配结果,与目标类别标签匹配度越高的音乐标签对应的音乐就与待处理的目标视频越匹配。
对于计算目标类别标签和音乐标签的相似度的方法,可以采用Tanimoto分值来计算两组标签之间的相似度,将待处理视频的目标类别标签和音乐标签两两一组计算,再利用降序排序输出相似度的结果,即为匹配结果。Tanimoto分值可以计算用户之间的相似程度,算法原理如下:
若A集合为A=[1,0,1,1,0,],B集合为B=[1,1,1,1,0],C=A&B=[1,1,1,0],则A与B的相似度为:
T=len(C)/(len(A)+len(B)-len(C))=4/(5+5-4)=0.66667即A与B的匹配度为0.66667。
上述方案,通过获取待处理的目标视频的语音信息和图像信息;基于所述语音信息以及所述图像信息确定所述目标视频所属的目标类别标签;从候选音乐库中确定与目标类别标签匹配的目标音乐。本发明实施例,由于从语音和图像两个部分的提取特征标签,生成的视频类别标签内容更全面,更能体现视频的内容,匹配出的背景音乐与视频的匹配度高,用户不用多次进行选择,提高了设置背景音乐的效率。
请参见图2,图2是本发明另一实施例提供的一种匹配背景音乐的方法的示意流程图。本实施例中整理应用图标的方法的执行主体为终端,终端包括但不限于智能手机、平板电脑、个人数字助理PAD等移动终端。如图所示的匹配背景音乐的方法可包括:
S201:获取待处理的目标视频的语音信息和图像信息。
本实施例中S201与上一实施例中的S101相同,具体请参阅上一实施例中S101的相关描述,此处不赘述。
S202:根据所述语音信息确定所述语音信息的语音类别标签。
终端在获取了语音信息后,对语音信息进行整理分析,基于整理分析的结果确定语音信息的语音类别标签。整理分析的过程可以是将语音转换成文本内容,再对文本内容进行关键词的提取,确定语音信息的关键词,基于语音信息的关键词,确定语音类别标签。语音类别标签可以有多个属性,例如,语音类别标签=[‘文本内容标签'、‘声音情绪标签']。整理分析的方法以及获取语音类别标签的方法并不限于此,还可以采用其他方式,此处不做限制。
可选地,S202可以包括S2021~S2022,如图3所示。具体如下:
S2021:对所述语音信息进行分析,确定所述语音信息的文本内容标签和声音情绪标签。
终端在获取了语音信息后,对语音信息进行整理分析,基于整理分析的结果确定语音信息的文本内容标签和声音情绪标签。
语音信息的文本内容标签的获取过程为,终端通过语音识别功能将语音内容转化成文本格式得到文本信息,对文本信息进行分析,主要是分析文本信息的内容和情感。对文本信息进行分词、预处理得到文本的分词结果,然后统计其中出现的频率最高的词,加上其中的情感词,即得到文本内容标签。具体地说,首先可以分析当前对话的内容,判断当前对话是属于哪一方面的谈话,例如日常谈话、跳楼或者谈判等等这些情景,得出对话所处的情景;再分析说话的人用到的情感词语,比如说今天天气好好,心情好美丽,就可以判断出这个人当前的情感是开心的。其中对情感词的权重比其余词语的权重要高一点,比如说文本主要是在讲学习的事情,分析后多次得出“开心”这个情绪词汇,那么文本内容标签就是:文本内容标签=[‘开心的学习']。
声音情绪标签的获取过程为:终端在获取语音信息后,对语音信息进行整理分析,判断当前说话者说话的情绪是平静的,愤怒的,惊恐的还是惊喜的或者是其他情绪,得到整理分析的结果,基于整理分析的结果确定声音情绪标签。对语音信息的分析可以从语音音调、说话的停顿、各种音调持续的时长的、单位时间内音调的差异等方面进行分析,例如对音调的分析,如果是平调,就表示平静;如果是重音比较多,就表示愤怒;比如说是升调,表示兴奋惊讶;如果句尾降调,就表示感叹请求这一类。
终端中预设有语音标签的集合,例如语音标签=[‘平静'、‘愤怒'、‘惊讶兴奋'、‘感叹请求'],不同的音调对应不同的语音标签。举例来说,预设升调对应的语音标签为惊讶兴奋,如果要判断语音1的声音情绪标签,那么对语音1进行分析,获取语音1中所有的标签,统计获取出现次数最多的标签,如果语音1中升调的语调次数出现最多,则语音1的声音情绪标签就为惊讶兴奋,记为语音1=[‘惊讶兴奋']。
S2022:将所述文本内容标签和所述声音情绪标签进行整合,得到所述语音类别标签。
终端将文本内容标签和声音情绪标签转化为字符串,将文本内容标签和声音情绪标签字符串添加到语音类别标签数组中,获取语音类别标签。则语音类别标签可以记为:语音类别标签=[‘文本内容标签'、‘声音情绪标签']。
本实施例中,通过对所述语音信息进行分析,确定所述语音信息的文本内容标签和声音情绪标签,将所述文本内容标签和所述声音情绪标签进行整合,得到所述语音类别标签。细化了语音类别标签的获取方式,通过对语音信息中文本信息和音频信息的分析,得到文本内容标签和声音情绪标签,标签更具有代表性也更加全面,使得最后获取匹配音乐时的准确度进一步提高。
S203:根据所述图像信息确定所述图像信息的图像类别标签。
终端在获取了图像信息后,对图像信息进行整理分析,基于整理分析的结果确定图像信息的图像类别标签。整理分析的过程可以通过对图像进行识别,识别出图像中人物,标示性的建筑,环境等等,确定图像信息的关键词,基于图像信息的关键词,确定图像类别标签。图像类别标签可以有多个属性,例如,图像类别标签=[‘图像环境标签’、‘图像色调标签’、‘图像拍摄主题标签’]。整理分析的方法以及获取图像类别标签的方法并不限于此,还可以采用其他方式,此处不做限制。
进一步地,图像信息包括:拍摄环境信息、亮度信息、色彩信息以及被拍摄对象的人物特征信息,如图4所示,S203可以包括S2031~S2033:
S2031:根据所述拍摄环境信息确定所述图像信息的图像环境标签。
终端在获取了图像信息后,获取图像信息中包含的拍摄环境信息,其中,拍摄环境信息即为图像中的具体场景,可以包括街道、标志性建筑、动物、植物、自然地理环境等等。对拍摄环境信息的进行识别分析,分析当前所处环境是在室内还是室外,若是在室外,分析这个场景是在街道,公园,还是沙漠野外,基于识别分析的结果,确定图片信息的图像环境标签。比如分析出当前场景是在沙滩海边,那么图像环境标签=[‘海边的沙滩’]。
S2032:根据所述亮度信息以及所述色彩信息确定所述图像信息的图像色调标签。
终端在获取了图像信息后,获取图像信息中包含的亮度信息和色彩信息,对亮度信息和色彩信息进行分析,分析图像的色调,分析当前的图像是明亮的、温馨的、幽暗的或者是漆黑的,得到分析结果,基于分析结果确定图像信息的图像色调标签。例如,图像的色彩对比不是很强烈,色调为橘黄色、橘红色或者黄色,这种色调的图像一般属于比较温暖温馨的风格,如果分析得到这类色调就可以给出温馨的图像色调标签。
进一步地,对于S2032,可以包括:获取所述目标视频中每帧图像包含的所有像素点的三原色值;从所述所有像素点的三原色值中提取出现频率最高的三原色值;根据所述出现频率最高的三原色值确定图像色调标签。
由于在图像中,根据色性将图像分为三种色调,冷色调、暖色调、中间色调,这三种色调一般都是表示的情绪色调;所以根据三原色值建立一个色调表,根据三原色阈值将其分为冷色调、暖色调、中间色调。对目标视频中每帧图像中的像素点进行三原色值的分析,提取出出现频率最高的三原色值,将出现频率最高的三原色值与色调表中每种色调各自对应的三原色值进行比较,以确定出现频率最高的三原色值属于哪种色调,基于比较结果确定当前画面的图像色调标签。通过对图像像素点进行三原色值的提取,能够准确的获取整个图像的色调,这样使得图像色调标签更加的准确,贴合目标视频。
S2033:根据所述人物特征信息确定所述图像信息的图像拍摄主题标签;其中,所述图像拍摄主题标签用于标识人物的行为和情绪。
终端在获取了图像信息后,获取图像信息中包含的人物特征信息,对人物特征信息进行分析,确定图像中人物的行为动作,基于人物的行为动作确定人物的情绪,从而确定整个图像的拍摄主题标签。若人物情绪为高兴,那么整个图像的拍摄主题标签即为高兴。
如果画面中有很多人,提取每个人的肢体信息和表情信息,进行加权求和得到整体的画面的肢体信息和表情信息。加权求和是对不同的变量给它设置不同的权重系数,然后计算最终的输出。所有权重系数之和为1。输出的是图像拍摄主题信息,变量是肢体信息和表情信息。比如说在整个图像中,多个人是存在面部表情的,那么可以推定为面部信息比较重要,就给面部信息比较大的系数。比如图像中五六个人围着两个人在笑,而这两个人一个站着,一个跪着,都很开心地笑,在这个图像中,存在的人物表情的数量是大于人物肢体动作的,那么可以推定在这个图像中,面部信息比较重要,在获取图像拍摄主题信息时,面部信息占得比例要大于肢体信息,可以采用一个算法得到图像拍摄主题信息,图像拍摄主题信息=0.3×肢体信息+0.7×表情信息,其中0.3和0.7为权重系数,是根据图像信息来确定的,通过图像可以获取的面部信息为“开心”,通过图像可以获取的肢体信息为“站”“跪”,这种场景就是会给一个求婚或者表白这些比较开心的标签。
优选地,对于S2033,人物特征信息包括人体肢体信息以及面部特征信息,如图5所示,可以包括S20331~S20333:
S20331:根据所述人物特征信息中的所述人体肢体信息,确定图像人物肢体标签。
终端在获取了人物特征信息后,获取人物特征信息中包含的人体肢体信息,基于人体肢体信息确定人物肢体标签。人体肢体信息为图像中人物的动作,比如躺着、坐着、趴着、站着等。
S20332:根据所述人物特征信息中的所述面部特征信息,确定图像人物表情标签。
终端在获取了人物特征信息后,获取人物特征信息中包含的面部特征信息,基于面部特征信息确定人物表情标签。面部信息为人物面部表情,嘴巴和眼睛周围的肌肉动作,通过分析来判断人物的情绪是开心、伤心、生气、感动还是恐惧等。
S20333:将所述图像人物肢体标签和所述图像人物表情标签进行整合,得到所述图像拍摄主题标签。
终端将图像人物肢体标签和图像人物表情标签转化为字符串,将图像人物肢体标签字符串和图像人物表情标签字符串添加到图像拍摄主题标签数组中,获取图像拍摄主题标签,则图像拍摄主题标签可以记为:图像拍摄主题标签=[‘人物肢体标签'、‘图像人物表情标签']。
本发明实施例,根据所述人物特征信息中的所述人体肢体信息,确定图像人物肢体标签,根据所述人物特征信息中的所述面部特征信息,确定图像人物表情标签,将所述图像人物肢体标签和所述图像人物表情标签进行整合,得到所述图像拍摄主题标签。从人物肢体和人物表情两个角度分析确定图像拍摄主题标签,标签更具有代表性,与目标视频的贴合度更高,是的最后获取匹配音乐的准确定进一步提高。
S2034:将所述图像环境标签、所述图像色调标签和所述图像拍摄主题标签进行整合,得到所述图像类别标签。
终端将图像环境标签、图像色调标签和图像拍摄主题标签转化为字符串,将图像环境标签字符串、图像色调标签字符串和图像拍摄主题标签字符串添加到图像类别标签数组中,获取图像类别标签。则图像类别标签可以记为:图像类别标签=[‘图像环境标签’、‘图像色调标签’、‘图像拍摄主题标签’]。
本发明实施例,对于获取图像类别标签进行了细化,从图像环境、图像色调以及图像拍摄主题几个方面获取信息转化为标签,提升了标签和目标视频的贴合度,使得标签能够更加全面准确的体现视频的风格和内容,匹配出的音乐也具有和目标视频更高的匹配度。
S204:将所述语音类别标签和所述图像类别标签进行整合,得到所述目标视频所属的目标类别标签。
终端将语音类别标签和图像类别标签转化为字符串,将语音类别标签字符串和图像类别标签字符串添加到语音类别标签数组中,获取目标视频所属的目标类别标签,即目标视频所属的目标类别标签可以记为:目标视频所属的目标类别标签=[‘语音类别标签'、‘图像类别标签']。
举例来说,如果语音类别标签=[‘文本内容标签'、‘声音情绪标签'],图像类别标签=[‘图像环境标签’、‘图像色调标签’、‘图像拍摄主题标签’],则整合过后,创建一个有五个属性的目标视频类别标签,如下:目标视频类别标签=[‘文本内容标签'、‘声音情绪标签'、‘图像环境标签’、‘图像色调标签’、‘图像拍摄主题标签’]。
S205:从候选音乐库中确定与目标类别标签匹配的目标音乐。
本实施例中S205与上一实施例中的S103相同,具体请参阅上一实施例中S103的相关描述,此处不赘述。
可选地,当目标音乐的数量为至少两个时,为了用户不满意匹配度最高的音乐最为背景音乐时,可以对背景音乐更换,在S205之后,还可以包括S206~S207。具体如下:
S206:播放与所述目标视频匹配度最高的目标音乐。
匹配度最高的音乐即为终端为用户自动选择出的与目标视频最匹配的音乐,播放与所述目标视频匹配度最高的目标音乐,让用户体验匹配好的背景音乐。
S207:若接收到用于表示用户更改背景音乐的指令,则弹出目标音乐列表,所述目标音乐列表用于供所述用户选择背景音乐。
终端检测是否接收到用于表示用户更改背景音乐的指令,若接收到用于表示用户更改背景音乐的指令,则弹出目标音乐列表。在终端上可以设置一个按钮,若用户对系统自动播放的匹配度最高的目标音乐不满意,可以点击按钮,此时会弹出目标音乐的列表,该列表中的音乐都是经过匹配后,匹配度高于某个预设阈值的音乐,用户可以在弹出的列表中选择音乐作为背景音乐。当用户不满意匹配度最高的音乐最为背景音乐时,可以对背景音乐更换,且更换的音乐列表都是与目标视频匹配度较高的音乐,用户在选择时也会节省很多时间,提高了效率。
上述方案,通过获取待处理的目标视频的语音信息和图像信息;根据所述语音信息确定所述语音信息的语音类别标签;根据所述图像信息确定所述图像信息的图像类别标签;将所述语音类别标签和所述图像类别标签进行整合,得到所述目标视频所属的目标类别标签;从候选音乐库中确定与目标类别标签匹配的目标音乐。本发明实施例,由于从语音和图像两个部分的提取特征标签,生成的视频类别标签内容更全面,更能体现视频的内容,匹配出的背景音乐与视频的匹配度高,用户不用多次进行选择,提高了设置背景音乐的效率。
应理解,上述实施例中各步骤的序号的大小并不意味着执行顺序的先后,各过程的执行顺序应以其功能和内在逻辑确定,而不应对本发明实施例的实施过程构成任何限定。
请参阅图6,图6是本发明一实施例提供的一种匹配背景音乐的装置的示意图。包括的各单元用于执行图1~图5对应的实施例中的各步骤。具体请参阅图1~图5各自对应的实施例中的相关描述。为了便于说明,仅示出了与本实施例相关的部分。参见图6,匹配背景音乐的装置包括:
第一获取单元610,用于获取待处理的目标视频的语音信息和图像信息;
第二获取单元620,用于基于所述语音特征信息以及所述图像特征信息确定所述目标视频所属的目标类别标签;
确定单元630,用于从候选音乐库中确定与目标类别标签匹配的目标音乐。
进一步地,第二获取单元620可以包括:
第一确定单元,用于根据所述语音信息确定所述语音信息的语音类别标签;
第二确定单元,根据所述图像信息确定所述图像信息的图像类别标签;
第一整合单元,用于将所述语音类别标签和所述图像类别标签进行整合,得到所述目标视频所属的目标类别标签。
进一步地,第一确定单元具体用于:
对所述语音信息进行分析,确定所述语音信息的文本内容标签和声音情绪标签;
将所述文本内容标签和所述声音情绪标签进行整合,得到所述语音类别标签。
进一步地,所述图像信息包括:拍摄环境信息、亮度信息、色彩信息以及被拍摄对象的人物特征信息,第二确定单元包括:
第三确定单元,用于根据所述拍摄环境信息确定所述图像信息的图像环境标签;
第四确定单元,用于根据所述亮度信息以及所述色彩信息确定所述图像信息的图像色调标签;
第五确定单元,用于根据所述人物特征信息确定所述图像信息的图像拍摄主题标签;其中,所述图像拍摄主题标签用于标识人物的行为和情绪;
第二整合单元,用于将所述图像环境标签、所述图像色调标签和所述图像拍摄主题标签进行整合,得到所述图像类别标签。
进一步地,第三确定单元具体用于:
根据所述拍摄环境信息确定所述图像信息的图像环境标签;
根据所述亮度信息以及所述色彩信息确定所述图像信息的图像色调标签;
根据所述人物特征信息确定所述图像信息的图像拍摄主题标签;其中,所述图像拍摄主题标签用于标识人物的行为和情绪;
将所述图像环境标签、所述图像色调标签和所述图像拍摄主题标签进行整合,得到所述图像类别标签。进一步地,第三确定单元具体用于:
获取所述目标视频中每帧图像包含的所有像素点的三原色值;
从所述所有像素点的三原色值中提取出现频率最高的三原色值;
根据所述出现频率最高的三原色值确定图像色调标签。
进一步地,所述人物特征信息包括人体肢体信息以及面部特征信息,第五确定单元具体用于:
根据所述人物特征信息中的所述人体肢体信息,确定图像人物肢体标签;
根据所述人物特征信息中的所述面部特征信息,确定图像人物表情标签;
将所述图像人物肢体标签和所述图像人物表情标签进行整合,得到所述图像拍摄主题标签。
进一步地,装置还包括:
播放单元,用于播放与所述目标视频匹配度最高的目标音乐;
处理单元,用于若接收到用于表示用户更改背景音乐的指令,则弹出目标音乐列表,所述目标音乐列表用于供所述用户选择背景音乐。
图7是本发明一实施例提供的匹配背景音乐的终端的示意图。如图7所示,该实施例的匹配背景音乐的终端7包括:处理器710、存储器720以及存储在所述存储器720中并可在所述处理器710上运行的计算机程序730,例如匹配背景音乐的程序。所述处理器710执行所述计算机程序730时实现上述各个匹配背景音乐的方法实施例中的步骤,例如图1所示的步骤101至103。或者,所述处理器710执行所述计算机程序730时实现上述各装置实施例中各模块/单元的功能,例如图6所示单元610至630的功能。
示例性的,所述计算机程序730可以被分割成一个或多个模块/单元,所述一个或者多个模块/单元被存储在所述存储器720中,并由所述处理器710执行,以完成本发明。所述一个或多个模块/单元可以是能够完成特定功能的一系列计算机程序指令段,该指令段用于描述所述计算机程序730在所述匹配背景音乐的终端6中的执行过程。例如,所述计算机程序730可以被分割成第一获取单元、第二获取单元、确定单元,各单元具体功能如下:
第一获取单元,用于获取待处理的目标视频的语音信息和图像信息;
第二获取单元,用于基于所述语音特征信息以及所述图像特征信息确定所述目标视频所属的目标类别标签;
确定单元,用于从候选音乐库中确定与目标类别标签匹配的目标音乐。
所述匹配背景音乐的终端7可以是桌上型计算机、笔记本、掌上电脑及云端服务器等计算设备。所述匹配背景音乐的终端可包括,但不仅限于,处理器710、存储器720。本领域技术人员可以理解,图7仅仅是匹配背景音乐的终端7的示例,并不构成对匹配背景音乐的终端7的限定,可以包括比图示更多或更少的部件,或者组合某些部件,或者不同的部件,例如所述匹配背景音乐的终端还可以包括输入输出设备、网络接入设备、总线等。
所称处理器710可以是中央处理单元(Central Processing Unit,CPU),还可以是其他通用处理器、数字信号处理器(Digital Signal Processor,DSP)、专用集成电路(Application Specific Integrated Circuit,ASIC)、现成可编程门阵列(Field-Programmable Gate Array,FPGA)或者其他可编程逻辑器件、分立门或者晶体管逻辑器件、分立硬件组件等。通用处理器可以是微处理器或者该处理器也可以是任何常规的处理器等。
所述存储器720可以是所述匹配背景音乐的终端7的内部存储单元,例如匹配背景音乐的终端7的硬盘或内存。所述存储器720也可以是所述匹配背景音乐的终端7的外部存储设备,例如所述匹配背景音乐的终端7上配备的插接式硬盘,智能存储卡(Smart MediaCard,SMC),安全数字(Secure Digital,SD)卡,闪存卡(Flash Card)等。进一步地,所述存储器720还可以既包括所述匹配背景音乐的终端7的内部存储单元也包括外部存储设备。所述存储器720用于存储所述计算机程序以及所述匹配背景音乐的终端所需的其他程序和数据。所述存储器720还可以用于暂时地存储已经输出或者将要输出的数据。
所属领域的技术人员可以清楚地了解到,为了描述的方便和简洁,仅以上述各功能单元、模块的划分进行举例说明,实际应用中,可以根据需要而将上述功能分配由不同的功能单元、模块完成,即将所述装置的内部结构划分成不同的功能单元或模块,以完成以上描述的全部或者部分功能。实施例中的各功能单元、模块可以集成在一个处理单元中,也可以是各个单元单独物理存在,也可以两个或两个以上单元集成在一个单元中,上述集成的单元既可以采用硬件的形式实现,也可以采用软件功能单元的形式实现。另外,各功能单元、模块的具体名称也只是为了便于相互区分,并不用于限制本申请的保护范围。上述系统中单元、模块的具体工作过程,可以参考前述方法实施例中的对应过程,在此不再赘述。
在上述实施例中,对各个实施例的描述都各有侧重,某个实施例中没有详述或记载的部分,可以参见其它实施例的相关描述。
本领域普通技术人员可以意识到,结合本文中所公开的实施例描述的各示例的单元及算法步骤,能够以电子硬件、或者计算机软件和电子硬件的结合来实现。这些功能究竟以硬件还是软件方式来执行,取决于技术方案的特定应用和设计约束条件。专业技术人员可以对每个特定的应用来使用不同方法来实现所描述的功能,但是这种实现不应认为超出本发明的范围。
在本发明所提供的实施例中,应该理解到,所揭露的装置/终端设备和方法,可以通过其它的方式实现。例如,以上所描述的装置/终端设备实施例仅仅是示意性的,例如,所述模块或单元的划分,仅仅为一种逻辑功能划分,实际实现时可以有另外的划分方式,例如多个单元或组件可以结合或者可以集成到另一个系统,或一些特征可以忽略,或不执行。另一点,所显示或讨论的相互之间的耦合或直接耦合或通讯连接可以是通过一些接口,装置或单元的间接耦合或通讯连接,可以是电性,机械或其它的形式。
所述作为分离部件说明的单元可以是或者也可以不是物理上分开的,作为单元显示的部件可以是或者也可以不是物理单元,即可以位于一个地方,或者也可以分布到多个网络单元上。可以根据实际的需要选择其中的部分或者全部单元来实现本实施例方案的目的。
另外,在本发明各个实施例中的各功能单元可以集成在一个处理单元中,也可以是各个单元单独物理存在,也可以两个或两个以上单元集成在一个单元中。上述集成的单元既可以采用硬件的形式实现,也可以采用软件功能单元的形式实现。
所述集成的模块/单元如果以软件功能单元的形式实现并作为独立的产品销售或使用时,可以存储在一个计算机可读取存储介质中。基于这样的理解,本发明实现上述实施例方法中的全部或部分流程,也可以通过计算机程序来指令相关的硬件来完成,所述的计算机程序可存储于一计算机可读存储介质中,该计算机程序在被处理器执行时,可实现上述各个方法实施例的步骤。。其中,所述计算机程序包括计算机程序代码,所述计算机程序代码可以为源代码形式、对象代码形式、可执行文件或某些中间形式等。所述计算机可读介质可以包括:能够携带所述计算机程序代码的任何实体或装置、记录介质、U盘、移动硬盘、磁碟、光盘、计算机存储器、只读存储器(ROM,Read-Only Memory)、随机存取存储器(RAM,Random Access Memory)、电载波信号、电信信号以及软件分发介质等。需要说明的是,所述计算机可读介质包含的内容可以根据司法管辖区内立法和专利实践的要求进行适当的增减,例如在某些司法管辖区,根据立法和专利实践,计算机可读介质不包括电载波信号和电信信号。
以上所述实施例仅用以说明本发明的技术方案,而非对其限制;尽管参照前述实施例对本发明进行了详细的说明,本领域的普通技术人员应当理解:其依然可以对前述各实施例所记载的技术方案进行修改,或者对其中部分技术特征进行等同替换;而这些修改或者替换,并不使相应技术方案的本质脱离本发明各实施例技术方案的精神和范围,均应包含在本发明的保护范围之内。
Claims (10)
1.一种匹配背景音乐的方法,其特征在于,包括:
获取待处理的目标视频的语音信息和图像信息;
基于所述语音信息以及所述图像信息确定所述目标视频所属的目标类别标签;
从候选音乐库中确定与目标类别标签匹配的目标音乐。
2.如权利要求1所述的匹配背景音乐的方法,其特征在于,所述基于所述语音信息以及所述图像信息确定所述目标视频所属的目标类别标签,包括:
根据所述语音信息确定所述语音信息的语音类别标签;
根据所述图像信息确定所述图像信息的图像类别标签;
将所述语音类别标签和所述图像类别标签进行整合,得到所述目标视频所属的目标类别标签。
3.如权利要求2所述的匹配背景音乐的方法,其特征在于,所述根据所述语音信息确定所述语音信息的语音类别标签,包括:
对所述语音信息进行分析,确定所述语音信息的文本内容标签和声音情绪标签;
将所述文本内容标签和所述声音情绪标签进行整合,得到所述语音类别标签。
4.如权利要求2所述的匹配背景音乐的方法,其特征在于,所述图像信息包括:拍摄环境信息、亮度信息、色彩信息以及被拍摄对象的人物特征信息;
所述根据所述图像信息确定所述图像信息的图像类别标签,包括:
根据所述拍摄环境信息确定所述图像信息的图像环境标签;
根据所述亮度信息以及所述色彩信息确定所述图像信息的图像色调标签;
根据所述人物特征信息确定所述图像信息的图像拍摄主题标签;其中,所述图像拍摄主题标签用于标识人物的行为和情绪;
将所述图像环境标签、所述图像色调标签和所述图像拍摄主题标签进行整合,得到所述图像类别标签。
5.如权利要求4所述的匹配背景音乐的方法,其特征在于,所述根据所述亮度信息以及所述色彩信息确定所述图像信息对应的图像色调标签,包括:
获取所述目标视频中每帧图像包含的所有像素点的三原色值;
从所述所有像素点的三原色值中提取出现频率最高的三原色值;
根据所述出现频率最高的三原色值确定图像色调标签。
6.如权利要求4所述的匹配背景音乐的方法,其特征在于,所述人物特征信息包括人体肢体信息以及面部特征信息;
所述根据所述人物特征信息确定所述图像信息的图像拍摄主题标签,包括:
根据所述人物特征信息中的所述人体肢体信息,确定图像人物肢体标签;
根据所述人物特征信息中的所述面部特征信息,确定图像人物表情标签;
将所述图像人物肢体标签和所述图像人物表情标签进行整合,得到所述图像拍摄主题标签。
7.如权利要求1-6任意一项所述的匹配背景音乐的方法,其特征在于,所述目标音乐的数量为至少两个,在从候选音乐库中确定与目标类别标签匹配的目标音乐之后,还包括:
播放与所述目标视频匹配度最高的目标音乐;
若接收到用于表示用户更改背景音乐的指令,则弹出目标音乐列表,所述目标音乐列表用于供所述用户选择背景音乐。
8.一种匹配背景音乐的装置,其特征在于,包括:
第一获取单元,用于获取待处理的目标视频的语音信息和图像信息;
第二获取单元,用于基于所述语音信息以及所述图像信息确定所述目标视频所属的目标类别标签;
确定单元,用于从候选音乐库中确定与目标类别标签匹配的目标音乐。
9.一种匹配背景音乐的终端,包括存储器、处理器以及存储在所述存储器中并可在所述处理器上运行的计算机程序,其特征在于,所述处理器执行所述计算机程序时实现如权利要求1至7任一项所述方法的步骤。
10.一种计算机可读存储介质,所述计算机可读存储介质存储有计算机程序,其特征在于,所述计算机程序被处理器执行时实现如权利要求1至7任一项所述方法的步骤。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN201811375951.1A CN111198958A (zh) | 2018-11-19 | 2018-11-19 | 匹配背景音乐的方法、装置及终端 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN201811375951.1A CN111198958A (zh) | 2018-11-19 | 2018-11-19 | 匹配背景音乐的方法、装置及终端 |
Publications (1)
Publication Number | Publication Date |
---|---|
CN111198958A true CN111198958A (zh) | 2020-05-26 |
Family
ID=70744206
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN201811375951.1A Pending CN111198958A (zh) | 2018-11-19 | 2018-11-19 | 匹配背景音乐的方法、装置及终端 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN111198958A (zh) |
Cited By (23)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN111800650A (zh) * | 2020-06-05 | 2020-10-20 | 腾讯科技(深圳)有限公司 | 视频配乐方法、装置、电子设备及计算机可读介质 |
CN111881315A (zh) * | 2020-06-24 | 2020-11-03 | 华为技术有限公司 | 图像信息输入方法、电子设备及计算机可读存储介质 |
CN111918094A (zh) * | 2020-06-29 | 2020-11-10 | 北京百度网讯科技有限公司 | 视频处理方法、装置、电子设备和存储介质 |
CN111970579A (zh) * | 2020-08-14 | 2020-11-20 | 苏州思萃人工智能研究所有限公司 | 基于ai视频理解的视频音乐适配方法与系统 |
CN112214636A (zh) * | 2020-09-21 | 2021-01-12 | 华为技术有限公司 | 音频文件的推荐方法、装置、电子设备以及可读存储介质 |
CN112291612A (zh) * | 2020-10-12 | 2021-01-29 | 北京沃东天骏信息技术有限公司 | 视频与音频的匹配方法、装置、存储介质与电子设备 |
CN113289338A (zh) * | 2021-04-28 | 2021-08-24 | 网易(杭州)网络有限公司 | 游戏技能音效处理方法、装置及电子装置 |
CN113573143A (zh) * | 2021-07-21 | 2021-10-29 | 维沃移动通信有限公司 | 音频播放方法和电子设备 |
CN113613061A (zh) * | 2021-07-06 | 2021-11-05 | 北京达佳互联信息技术有限公司 | 一种卡点模板生成方法、装置、设备及存储介质 |
CN113792178A (zh) * | 2021-08-31 | 2021-12-14 | 北京达佳互联信息技术有限公司 | 一种歌曲生成方法、装置、电子设备及存储介质 |
WO2021258866A1 (en) * | 2020-06-23 | 2021-12-30 | Guangdong Oppo Mobile Telecommunications Corp., Ltd. | Method and system for generating a background music for a video |
CN113901263A (zh) * | 2021-09-30 | 2022-01-07 | 宿迁硅基智能科技有限公司 | 一种视频素材的标签生成方法及装置 |
CN114390342A (zh) * | 2021-12-10 | 2022-04-22 | 阿里巴巴(中国)有限公司 | 一种视频配乐方法、装置、设备及介质 |
CN114419623A (zh) * | 2021-12-17 | 2022-04-29 | 广西壮族自治区公众信息产业有限公司 | 基于卷积神经网络识别的漫画背景音乐匹配方法 |
CN114512113A (zh) * | 2022-04-11 | 2022-05-17 | 科大讯飞(苏州)科技有限公司 | 一种音频合成方法及相关方法和设备 |
CN115114475A (zh) * | 2022-08-29 | 2022-09-27 | 成都索贝数码科技股份有限公司 | 用于匹配短视频声音与音乐现场原声音轨的音频检索方法 |
WO2023009057A1 (zh) * | 2021-07-26 | 2023-02-02 | 脸萌有限公司 | 音乐筛选方法、装置、设备、存储介质及程序产品 |
WO2023015862A1 (zh) * | 2021-08-09 | 2023-02-16 | 北京达佳互联信息技术有限公司 | 基于图像的多媒体数据合成方法及装置 |
CN115878835A (zh) * | 2021-09-26 | 2023-03-31 | 天翼爱音乐文化科技有限公司 | 一种漫画背景音乐匹配方法、装置及存储介质 |
CN116017094A (zh) * | 2022-12-29 | 2023-04-25 | 空间视创(重庆)科技股份有限公司 | 基于用户需求的短视频智能生成系统及方法 |
WO2023197749A1 (zh) * | 2022-04-15 | 2023-10-19 | 腾讯科技(深圳)有限公司 | 背景音乐的插入时间点确定方法、装置、设备和存储介质 |
CN117457021A (zh) * | 2023-10-26 | 2024-01-26 | 北京汇畅数宇科技发展有限公司 | 一种基于视频动作的视频检测方法 |
WO2025067304A1 (zh) * | 2023-09-27 | 2025-04-03 | 北京字跳网络技术有限公司 | 流媒体生成方法、装置及终端设备 |
Citations (3)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN103795897A (zh) * | 2014-01-21 | 2014-05-14 | 深圳市中兴移动通信有限公司 | 自动生成背景音乐的方法和装置 |
CN108197185A (zh) * | 2017-12-26 | 2018-06-22 | 努比亚技术有限公司 | 一种音乐推荐方法、终端及计算机可读存储介质 |
CN108764010A (zh) * | 2018-03-23 | 2018-11-06 | 姜涵予 | 情绪状态确定方法及装置 |
-
2018
- 2018-11-19 CN CN201811375951.1A patent/CN111198958A/zh active Pending
Patent Citations (3)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN103795897A (zh) * | 2014-01-21 | 2014-05-14 | 深圳市中兴移动通信有限公司 | 自动生成背景音乐的方法和装置 |
CN108197185A (zh) * | 2017-12-26 | 2018-06-22 | 努比亚技术有限公司 | 一种音乐推荐方法、终端及计算机可读存储介质 |
CN108764010A (zh) * | 2018-03-23 | 2018-11-06 | 姜涵予 | 情绪状态确定方法及装置 |
Cited By (30)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN111800650A (zh) * | 2020-06-05 | 2020-10-20 | 腾讯科技(深圳)有限公司 | 视频配乐方法、装置、电子设备及计算机可读介质 |
WO2021258866A1 (en) * | 2020-06-23 | 2021-12-30 | Guangdong Oppo Mobile Telecommunications Corp., Ltd. | Method and system for generating a background music for a video |
WO2021258797A1 (zh) * | 2020-06-24 | 2021-12-30 | 华为技术有限公司 | 图像信息输入方法、电子设备及计算机可读存储介质 |
CN111881315A (zh) * | 2020-06-24 | 2020-11-03 | 华为技术有限公司 | 图像信息输入方法、电子设备及计算机可读存储介质 |
CN111918094A (zh) * | 2020-06-29 | 2020-11-10 | 北京百度网讯科技有限公司 | 视频处理方法、装置、电子设备和存储介质 |
CN111970579A (zh) * | 2020-08-14 | 2020-11-20 | 苏州思萃人工智能研究所有限公司 | 基于ai视频理解的视频音乐适配方法与系统 |
CN112214636A (zh) * | 2020-09-21 | 2021-01-12 | 华为技术有限公司 | 音频文件的推荐方法、装置、电子设备以及可读存储介质 |
CN112291612A (zh) * | 2020-10-12 | 2021-01-29 | 北京沃东天骏信息技术有限公司 | 视频与音频的匹配方法、装置、存储介质与电子设备 |
CN113289338A (zh) * | 2021-04-28 | 2021-08-24 | 网易(杭州)网络有限公司 | 游戏技能音效处理方法、装置及电子装置 |
CN113289338B (zh) * | 2021-04-28 | 2024-07-19 | 网易(杭州)网络有限公司 | 游戏技能音效处理方法、装置及电子装置 |
CN113613061A (zh) * | 2021-07-06 | 2021-11-05 | 北京达佳互联信息技术有限公司 | 一种卡点模板生成方法、装置、设备及存储介质 |
CN113573143B (zh) * | 2021-07-21 | 2023-09-19 | 维沃移动通信有限公司 | 音频播放方法和电子设备 |
CN113573143A (zh) * | 2021-07-21 | 2021-10-29 | 维沃移动通信有限公司 | 音频播放方法和电子设备 |
WO2023009057A1 (zh) * | 2021-07-26 | 2023-02-02 | 脸萌有限公司 | 音乐筛选方法、装置、设备、存储介质及程序产品 |
WO2023015862A1 (zh) * | 2021-08-09 | 2023-02-16 | 北京达佳互联信息技术有限公司 | 基于图像的多媒体数据合成方法及装置 |
CN113792178A (zh) * | 2021-08-31 | 2021-12-14 | 北京达佳互联信息技术有限公司 | 一种歌曲生成方法、装置、电子设备及存储介质 |
CN115878835B (zh) * | 2021-09-26 | 2024-06-11 | 天翼爱音乐文化科技有限公司 | 一种漫画背景音乐匹配方法、装置及存储介质 |
CN115878835A (zh) * | 2021-09-26 | 2023-03-31 | 天翼爱音乐文化科技有限公司 | 一种漫画背景音乐匹配方法、装置及存储介质 |
CN113901263A (zh) * | 2021-09-30 | 2022-01-07 | 宿迁硅基智能科技有限公司 | 一种视频素材的标签生成方法及装置 |
CN114390342A (zh) * | 2021-12-10 | 2022-04-22 | 阿里巴巴(中国)有限公司 | 一种视频配乐方法、装置、设备及介质 |
CN114390342B (zh) * | 2021-12-10 | 2023-08-29 | 阿里巴巴(中国)有限公司 | 一种视频配乐方法、装置、设备及介质 |
CN114419623A (zh) * | 2021-12-17 | 2022-04-29 | 广西壮族自治区公众信息产业有限公司 | 基于卷积神经网络识别的漫画背景音乐匹配方法 |
CN114512113A (zh) * | 2022-04-11 | 2022-05-17 | 科大讯飞(苏州)科技有限公司 | 一种音频合成方法及相关方法和设备 |
WO2023197749A1 (zh) * | 2022-04-15 | 2023-10-19 | 腾讯科技(深圳)有限公司 | 背景音乐的插入时间点确定方法、装置、设备和存储介质 |
CN115114475B (zh) * | 2022-08-29 | 2022-11-29 | 成都索贝数码科技股份有限公司 | 用于匹配短视频声音与音乐现场原声音轨的音频检索方法 |
CN115114475A (zh) * | 2022-08-29 | 2022-09-27 | 成都索贝数码科技股份有限公司 | 用于匹配短视频声音与音乐现场原声音轨的音频检索方法 |
CN116017094A (zh) * | 2022-12-29 | 2023-04-25 | 空间视创(重庆)科技股份有限公司 | 基于用户需求的短视频智能生成系统及方法 |
WO2025067304A1 (zh) * | 2023-09-27 | 2025-04-03 | 北京字跳网络技术有限公司 | 流媒体生成方法、装置及终端设备 |
CN117457021A (zh) * | 2023-10-26 | 2024-01-26 | 北京汇畅数宇科技发展有限公司 | 一种基于视频动作的视频检测方法 |
CN117457021B (zh) * | 2023-10-26 | 2024-09-20 | 北京汇畅数宇科技发展有限公司 | 一种基于视频动作的视频检测方法 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
CN111198958A (zh) | 匹配背景音乐的方法、装置及终端 | |
CN108986186B (zh) | 文字转化视频的方法和系统 | |
Hossain et al. | An emotion recognition system for mobile applications | |
CN107633207B (zh) | Au特征识别方法、装置及存储介质 | |
US20200135158A1 (en) | System and Method of Reading Environment Sound Enhancement Based on Image Processing and Semantic Analysis | |
CN113380271B (zh) | 情绪识别方法、系统、设备及介质 | |
US20210012777A1 (en) | Context acquiring method and device based on voice interaction | |
CN106897372B (zh) | 语音查询方法和装置 | |
CN107333071A (zh) | 视频处理方法、装置、电子设备及存储介质 | |
CN114821740B (zh) | 基于多模态信息融合的情感识别方法、装置及电子设备 | |
CN112233698A (zh) | 人物情绪识别方法、装置、终端设备及存储介质 | |
CN113923521B (zh) | 一种视频的脚本化方法 | |
CN112804558B (zh) | 视频拆分方法、装置及设备 | |
CN108256513A (zh) | 一种智能视频分析方法及智能视频记录系统 | |
CN115393933A (zh) | 一种基于帧注意力机制的视频人脸情绪识别方法 | |
CN114913303A (zh) | 虚拟形象生成方法及相关装置、电子设备、存储介质 | |
CN114268747A (zh) | 基于虚拟数字人的访谈业务处理方法及相关装置 | |
WO2024082914A1 (zh) | 视频问答方法及电子设备 | |
CN110781329A (zh) | 图像搜索方法、装置、终端设备及存储介质 | |
CN111445545B (zh) | 一种文本转贴图方法、装置、存储介质及电子设备 | |
CN110781327A (zh) | 图像搜索方法、装置、终端设备及存储介质 | |
CN116010545A (zh) | 一种数据处理方法、装置及设备 | |
CN116152904A (zh) | 一种行为识别方法、装置、设备及计算机可读存储介质 | |
CN113536009A (zh) | 数据描述方法及装置、计算机可读介质和电子设备 | |
CN116721449A (zh) | 视频识别模型的训练方法、视频识别方法、装置以及设备 |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination | ||
RJ01 | Rejection of invention patent application after publication | ||
RJ01 | Rejection of invention patent application after publication |
Application publication date: 20200526 |