CN114401440A - 视频剪辑及剪辑模型生成方法、装置、设备、程序和介质 - Google Patents
视频剪辑及剪辑模型生成方法、装置、设备、程序和介质 Download PDFInfo
- Publication number
- CN114401440A CN114401440A CN202111530280.3A CN202111530280A CN114401440A CN 114401440 A CN114401440 A CN 114401440A CN 202111530280 A CN202111530280 A CN 202111530280A CN 114401440 A CN114401440 A CN 114401440A
- Authority
- CN
- China
- Prior art keywords
- target object
- image
- video
- target
- clip
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Granted
Links
- 238000000034 method Methods 0.000 title claims abstract description 57
- 230000004044 response Effects 0.000 claims abstract description 22
- 238000012986 modification Methods 0.000 claims description 15
- 230000004048 modification Effects 0.000 claims description 15
- 238000004590 computer program Methods 0.000 claims description 7
- 238000003860 storage Methods 0.000 claims description 5
- 238000010586 diagram Methods 0.000 description 10
- 238000012217 deletion Methods 0.000 description 7
- 230000037430 deletion Effects 0.000 description 7
- 238000012549 training Methods 0.000 description 6
- 239000013589 supplement Substances 0.000 description 5
- 238000005457 optimization Methods 0.000 description 4
- 238000012545 processing Methods 0.000 description 4
- 238000005520 cutting process Methods 0.000 description 3
- 230000009286 beneficial effect Effects 0.000 description 2
- 238000006748 scratching Methods 0.000 description 2
- 230000002393 scratching effect Effects 0.000 description 2
- 206010063385 Intellectualisation Diseases 0.000 description 1
- 230000006978 adaptation Effects 0.000 description 1
- 238000013473 artificial intelligence Methods 0.000 description 1
- 238000004891 communication Methods 0.000 description 1
- 238000013500 data storage Methods 0.000 description 1
- 238000013461 design Methods 0.000 description 1
- 238000005516 engineering process Methods 0.000 description 1
- 238000002372 labelling Methods 0.000 description 1
- 238000004519 manufacturing process Methods 0.000 description 1
- 230000003287 optical effect Effects 0.000 description 1
- 230000036544 posture Effects 0.000 description 1
- 230000001502 supplementing effect Effects 0.000 description 1
Images
Classifications
-
- H—ELECTRICITY
- H04—ELECTRIC COMMUNICATION TECHNIQUE
- H04N—PICTORIAL COMMUNICATION, e.g. TELEVISION
- H04N21/00—Selective content distribution, e.g. interactive television or video on demand [VOD]
- H04N21/40—Client devices specifically adapted for the reception of or interaction with content, e.g. set-top-box [STB]; Operations thereof
- H04N21/43—Processing of content or additional data, e.g. demultiplexing additional data from a digital video stream; Elementary client operations, e.g. monitoring of home network or synchronising decoder's clock; Client middleware
- H04N21/44—Processing of video elementary streams, e.g. splicing a video clip retrieved from local storage with an incoming video stream or rendering scenes according to encoded video stream scene graphs
- H04N21/44008—Processing of video elementary streams, e.g. splicing a video clip retrieved from local storage with an incoming video stream or rendering scenes according to encoded video stream scene graphs involving operations for analysing video streams, e.g. detecting features or characteristics in the video stream
-
- H—ELECTRICITY
- H04—ELECTRIC COMMUNICATION TECHNIQUE
- H04N—PICTORIAL COMMUNICATION, e.g. TELEVISION
- H04N21/00—Selective content distribution, e.g. interactive television or video on demand [VOD]
- H04N21/40—Client devices specifically adapted for the reception of or interaction with content, e.g. set-top-box [STB]; Operations thereof
- H04N21/43—Processing of content or additional data, e.g. demultiplexing additional data from a digital video stream; Elementary client operations, e.g. monitoring of home network or synchronising decoder's clock; Client middleware
- H04N21/44—Processing of video elementary streams, e.g. splicing a video clip retrieved from local storage with an incoming video stream or rendering scenes according to encoded video stream scene graphs
- H04N21/44016—Processing of video elementary streams, e.g. splicing a video clip retrieved from local storage with an incoming video stream or rendering scenes according to encoded video stream scene graphs involving splicing one content stream with another content stream, e.g. for substituting a video clip
Landscapes
- Engineering & Computer Science (AREA)
- Multimedia (AREA)
- Signal Processing (AREA)
- Television Signal Processing For Recording (AREA)
Abstract
本公开关于一种视频剪辑及剪辑模型生成方法、装置、设备、程序和介质,该方法包括:获取目标对象图像集,目标对象图像集包括目标对象的至少一个第一区域图像;获取待剪辑视频,根据至少一个第一区域图像得到待剪辑视频中包含目标对象的若干目标视频片段;响应于目标视频片段内的目标对象的图像的变化,生成目标对象的第二区域图像,并将第二区域图像合并入目标对象图像集。采用本公开,可以自动参照目标对象的目标对象图像集,从待剪辑视频中将包括目标对象的若干目标视频片段剪辑出,可以缩短视频剪辑的耗时且提高视频剪辑的操作效率。
Description
技术领域
本公开涉及人工智能技术领域,尤其涉及一种视频剪辑及剪辑模型生成方法、装置、设备、程序和介质。
背景技术
相关技术中,当用户需要剪辑某个视频中包含目标人物的所有视频片段时,该用户需要从视频的开始一直看到视频的结束,在观看视频的过程中一一手动标记目标人物出场的各视频片段分别对应的起始帧和结束帧,然后基于标记出的各视频片段分别对应的起始帧和结束帧,将各视频片段剪辑出。相关技术中剪辑某个视频中包含目标人物的所有视频片段的方式耗时较长且操作效率较低。
发明内容
本公开提供一种视频剪辑及剪辑模型生成方法、装置、设备、程序和介质,以至少解决相关技术中剪辑某个视频中包含目标人物的所有视频片段的方式耗时较长且操作效率较低的问题。本公开的技术方案如下:
根据本公开实施例的第一方面,提供一种视频剪辑及剪辑模型生成方法,包括:
获取目标对象图像集,所述目标对象图像集包括目标对象的至少一个第一区域图像;
获取待剪辑视频,根据所述至少一个第一区域图像得到所述待剪辑视频中包含所述目标对象的若干目标视频片段;
响应于所述目标视频片段内的目标对象的图像的变化,生成所述目标对象的第二区域图像,并将所述第二区域图像合并入所述目标对象图像集。
可选地,所述至少一个第一区域图像对应所述目标对象的至少一个角度或者至少一种形态。
可选地,所述获取目标对象图像集,包括:
在预先建立的外观数据库中,基于目标对象的标识查找所述目标对象图像集。
可选地,所述获取目标对象图像集,包括:
获取用户输入的至少一个待处理图像;
识别每个待处理图像中包含的对象;
在所述每个待处理图像中包含的对象中,确定所述每个待处理图像都包含的相同的目标对象;
从所述至少一个待处理图像中提取所述目标对象的至少一个第一区域图像。
可选地,在从所述至少一个待处理图像中提取所述目标对象的至少一个第一区域图像之后,所述方法还包括:
响应于所述用户对所述至少一个第一区域图像中的任一区域图像的修改操作,对所述任一区域图像进行修改。
可选地,在从所述至少一个待处理图像中提取所述目标对象的至少一个第一区域图像之后,所述方法还包括:
基于提取到的所述目标对象的至少一个第一区域图像,确定所述目标对象的其他角度的第三区域图像,所述其他角度为除所述至少一个第一区域图像对应的角度之外的角度;
将所述第三区域图像合并入所述目标对象图像集。
可选地,在从所述至少一个待处理图像中提取所述目标对象的至少一个第一区域图像之后,所述方法还包括:
响应于对所述至少一个第一区域图像的分享操作,获取所述用户输入的所述目标对象的标识;
将所述至少一个第一区域图像和所述目标对象的标识关联上传到外观数据库中。
可选地,所述获取目标对象图像集,包括:
获取目标对象的预设角度的第四区域图像;
以所述第四区域图像为跟踪目标,对所述待剪辑视频进行跟踪处理,以确定所述待剪辑视频中包含所述目标对象的至少一个视频帧;
从所述至少一个视频帧中提取所述目标对象的至少一个第一区域图像。
可选地,在根据所述至少一个第一区域图像得到所述待剪辑视频中包含所述目标对象的若干目标视频片段之后,所述方法还包括:
输出所述目标视频片段。
可选地,在输出所述目标视频片段之后,所述方法还包括:
响应于用户对所述目标视频片段中的任一视频片段的删除操作,删除所述目标视频片段中的所述任一视频片段。
可选地,所述根据所述至少一个第一区域图像得到所述待剪辑视频中包含所述目标对象的若干目标视频片段,包括:
将所述至少一个第一区域图像和所述待剪辑视频输入到预先训练的剪辑模型中,得到所述待剪辑视频中包含所述目标对象的若干目标视频片段。
可选地,在删除所述目标视频片段中的所述任一视频片段之后,所述方法还包括:
基于删除所述任一视频片段的目标视频片段,对所述剪辑模型进行优化训练。
可选地,所述根据所述至少一个第一区域图像得到所述待剪辑视频中包含所述目标对象的若干目标视频片段,包括:
若根据所述至少一个第一区域图像未识别到所述待剪辑视频中包含的所述目标对象的目标视频片段,则输出提示信息,所述提示信息用于提示用户未识别到所述待剪辑视频中包含的所述目标对象的目标视频片段。
可选地,所述生成所述目标对象的第二区域图像,包括:
响应于对所述目标视频片段内的目标对象的图像的手动抠图操作,生成所述目标对象的第二区域图像。
根据本公开实施例的第二方面,提供一种视频剪辑及剪辑模型生成装置,包括:
获取单元,被配置为执行获取目标对象图像集,所述目标对象图像集包括目标对象的至少一个第一区域图像;
剪辑单元,被配置为执行获取待剪辑视频,根据所述至少一个第一区域图像得到所述待剪辑视频中包含所述目标对象的若干目标视频片段;
合并单元,被配置为执行响应于所述目标视频片段内的目标对象的图像的变化,生成所述目标对象的第二区域图像,并将所述第二区域图像合并入所述目标对象图像集。
可选地,所述至少一个第一区域图像对应所述目标对象的至少一个角度或者至少一种形态。
可选地,所述获取单元,被配置为执行:
在预先建立的外观数据库中,基于目标对象的标识查找所述目标对象图像集。
可选地,所述获取单元,被配置为执行:
获取用户输入的至少一个待处理图像;
识别每个待处理图像中包含的对象;
在所述每个待处理图像中包含的对象中,确定所述每个待处理图像都包含的相同的目标对象;
从所述至少一个待处理图像中提取所述目标对象的至少一个第一区域图像。
可选地,所述装置还包括:
修改单元,被配置为执行响应于所述用户对所述至少一个第一区域图像中的任一区域图像的修改操作,对所述任一区域图像进行修改。
可选地,所述合并单元,还被配置为执行:
基于提取到的所述目标对象的至少一个第一区域图像,确定所述目标对象的其他角度的第三区域图像,所述其他角度为除所述至少一个第一区域图像对应的角度之外的角度;
将所述第三区域图像合并入所述目标对象图像集。
可选地,所述装置还包括分享单元;
所述分享单元,被配置为执行:
响应于对所述至少一个第一区域图像的分享操作,获取所述用户输入的所述目标对象的标识;
将所述至少一个第一区域图像和所述目标对象的标识关联上传到外观数据库中。
可选地,所述获取单元,被配置为执行:
获取目标对象的预设角度的第四区域图像;
以所述第四区域图像为跟踪目标,对所述待剪辑视频进行跟踪处理,以确定所述待剪辑视频中包含所述目标对象的至少一个视频帧;
从所述至少一个视频帧中提取所述目标对象的至少一个第一区域图像。
可选地,所述装置还包括:
输出单元,被配置为执行输出所述目标视频片段。
可选地,所述装置还包括:
删除单元,被配置为执行响应于用户对所述目标视频片段中的任一视频片段的删除操作,删除所述目标视频片段中的所述任一视频片段。
可选地,所述剪辑单元,被配置为执行:
将所述至少一个第一区域图像和所述待剪辑视频输入到预先训练的剪辑模型中,得到所述待剪辑视频中包含所述目标对象的若干目标视频片段。
可选地,所述装置还包括:
训练单元,被配置为执行基于删除所述任一视频片段的目标视频片段,对所述剪辑模型进行优化训练。
可选地,所述剪辑单元,被配置为执行:
若根据所述至少一个第一区域图像未识别到所述待剪辑视频中包含的所述目标对象的目标视频片段,则输出提示信息,所述提示信息用于提示用户未识别到所述待剪辑视频中包含的所述目标对象的目标视频片段。
可选地,所述合并单元,被配置为执行:
响应于对所述目标视频片段内的目标对象的图像的手动抠图操作,生成所述目标对象的第二区域图像。
根据本公开实施例的第三方面,提供一种电子设备,包括:
处理器;
用于存储所述处理器可执行指令的存储器;
其中,所述处理器被配置为执行所述指令,以实现本公开实施例第一方面提供的视频剪辑及剪辑模型生成方法。
根据本公开实施例的第四方面,提供一种计算机可读存储介质,当所述计算机可读存储介质中的指令由电子设备的处理器执行时,使得所述电子设备能够执行本公开实施例第一方面提供的视频剪辑及剪辑模型生成方法。
根据本公开实施例的第五方面,提供一种计算机程序产品,包括计算机程序/指令,所述计算机程序/指令被处理器执行时实现本公开实施例第一方面提供的视频剪辑及剪辑模型生成方法。
本公开的实施例提供的技术方案至少带来以下有益效果:
采用本公开,可以自动参照目标对象的目标对象图像集,从待剪辑视频中将包括目标对象的若干目标视频片段剪辑出。这样就可以避免用户从待剪辑视频的开始一直看到结束,避免用户手动标注目标对象出场的所有视频片段的起始帧和结束帧以剪辑视频,进而采用本公开实施例提供的视频剪辑的方法,可以缩短视频剪辑的耗时且提高视频剪辑的操作效率。
另外,由于目标视频片段是由多个包含目标对象的视频帧构成的,因此可以从目标视频片段中提取目标对象的第二区域图像。由于目标对象在目标视频片段的各视频帧中的角度或者形态是连续变化的,因此第二区域图像针对的也是目标对象的不同角度或者不同形态。可以将第二区域图像作为目标对象图像集的补充内容合并到目标对象图像集中。这样,后续再基于目标对象图像集中的区域图像剪辑其他待剪辑视频时,目标对象的外观信息更加的充分,可以进一步提高视频剪辑的正确率。
应当理解的是,以上的一般描述和后文的细节描述仅是示例性和解释性的,并不能限制本公开。
附图说明
此处的附图被并入说明书中并构成本说明书的一部分,示出了符合本公开的实施例,并与说明书一起用于解释本公开的原理,并不构成对本公开的不当限定。
图1是根据一示例性实施例示出的一种视频剪辑及剪辑模型生成方法的流程图;
图2是根据一示例性实施例示出的一种智能剪辑视频的应用程序的界面示意图;
图3是根据一示例性实施例示出的一种智能剪辑视频的应用程序的界面示意图;
图4是根据一示例性实施例示出的一种智能剪辑视频的应用程序的界面示意图;
图5是根据一示例性实施例示出的一种智能剪辑视频的应用程序的界面示意图;
图6是根据一示例性实施例示出的一种智能剪辑视频的应用程序的界面示意图;
图7是根据一示例性实施例示出的一种视频剪辑及剪辑模型生成装置框图;
图8是根据一示例性实施例示出的一种电子设备框图。
具体实施方式
为了使本领域普通人员更好地理解本公开的技术方案,下面将结合附图,对本公开实施例中的技术方案进行清楚、完整地描述。
需要说明的是,本公开的说明书和权利要求书及上述附图中的术语“第一”、“第二”等是用于区别类似的对象,而不必用于描述特定的顺序或先后次序。应该理解这样使用的数据在适当情况下可以互换,以便这里描述的本公开的实施例能够以除了在这里图示或描述的那些以外的顺序实施。以下示例性实施例中所描述的实施方式并不代表与本公开相一致的所有实施方式。相反,它们仅是与如所附权利要求书中所详述的、本公开的一些方面相一致的装置和方法的例子。
图1是根据一示例性实施例示出的一种视频剪辑及剪辑模型生成方法的流程图,该方法可以应用于电子设备中。如图1所示,该方法可以包括以下步骤。
在步骤S11中,获取目标对象图像集,目标对象图像集包括目标对象的至少一个第一区域图像。
在步骤S12中,获取待剪辑视频,根据至少一个第一区域图像得到待剪辑视频中包含目标对象的若干目标视频片段。
在步骤S13中,响应于目标视频片段内的目标对象的图像的变化,生成目标对象的第二区域图像,并将第二区域图像合并入目标对象图像集。
在本公开实施例中,目标对象可以是人物、动物、物体、景物等具有相对固定外形的对象。第一区域图像可以是从包含有目标对象的一整个图像中将目标对象对应的区域抠出得到的图像。
可选地,至少一个第一区域图像对应目标对象的至少一个角度或者至少一种形态。
如果包含有目标对象的整个图像是通过图像拍摄装置拍摄得到的,可以通过调整目标对象和图像拍摄装置之间相对的角度来获得从不同角度拍摄的目标对象的图像,进而从该目标对象的图像中抠出的第一区域图像对应着目标对象的不同角度。或者,可以让目标对象摆出各种姿态,通过图像拍摄装置拍摄目标对象在不同形态下的图像,进而从目标对象在不同形态下的图像中抠出的第一区域图像对应着目标对象的不同形态。
下面将对本公开实施例提供的多种获取目标对象图像集的方式进行说明。
可选地,获取目标对象图像集的过程可以实现为:在预先建立的外观数据库中,基于目标对象的标识查找目标对象图像集。
需要说明的是,外观数据库中存储有多个对象各自对应的对象图像集,这些对象图像集可以是不同用户上传到外观数据库中的。具体来说,可以通过用户原创内容(UserGenerated Content,UGC)共享的方式补充外观数据库中的对象图像集。在外观数据库中,对象对应的对象图像集与该对象的标识关联进行存储,基于此,在需要使用到某一目标对象的目标对象图像集时,可以通过该目标对象的标识在该外观数据库中搜索目标对象图像集。外观数据库可以建立在服务器中,用户可以将搜索到的目标对象图像集下载到终端本地进行使用。
举例来说,用户可以在外观数据库中搜索某知名人物A的名字,如果该知名人物A对应的对象图像集已存储于该外观数据库中,则该外观数据库可以输出该知名人物A对应的对象图像集。用户可以直接将该知名人物A对应的对象图像集下载到本地进行使用。
可选地,外观数据库支持用户修改其中存储的不同对象图像集,用户也可以删除其中存储的某些对象图像集,或者,用户还可以选择修改其中的某些对象的标识。
采用上述从外观数据库中获取目标对象图像集的方式,可以节约用户制作目标对象图像集的操作成本,极大的提高操作效率。
可选地,获取目标对象图像集的过程可以实现为:获取用户输入的至少一个待处理图像;识别每个待处理图像中包含的对象;在每个待处理图像中包含的对象中,确定每个待处理图像都包含的相同的目标对象;从至少一个待处理图像中提取目标对象的至少一个第一区域图像。
在本公开实施例中,如果用户不想使用外观数据库中的目标对象图像集,或者在外观数据库中无法搜索到目标对象图像集,则可以制作目标对象的至少一个第一区域图像。
首先,用户可以从本地的图像库中找到几个包含目标对象的待处理图像,这些待处理图像可以是包含目标对象的多个角度的图像。由于待处理图像中包含除目标对象以外的其他区域,比如背景区域,其他区域是会对后续步骤产生干扰的,因此需要从待处理图像中提取出目标对象的第一区域图像。
为了提高智能化,可以采用自动抠图的方式将不同待处理图像中的目标对象的第一区域图像抠出。在自动抠图的过程中,终端能够自动识别每个待处理对象都包含的相同的对象,并将该相同的对象作为目标对象,无需用户指定待处理图像中哪个对象是需要抠图的目标对象。这一过程可以实现为:识别每个待处理图像中包含的对象,然后在每个待处理图像中包含的对象中,确定每个待处理图像都包含的相同的目标对象。
具体来说,确定每个待处理图像都包含的相同的目标对象的过程可以实现为:计算不同待处理图像之间包含的各对象之间的相似度,确定相似度大于预设阈值的每个待处理图像都包含的目标对象。
举例来说,假设有待处理图像A和待处理图像B,可以识别出待处理图像A中包含人物1和人物2,以及待处理图像B中包含人物2和人物3。待处理图像A和待处理图像B中都包含的目标对象为人物2。
在上述方案中,由于至少一个第一区域图像是通过自动抠图的方式获得的,通过自动抠图的方式获得的结果可能存在一定误差。基于此,为了消除误差,可选地,在从至少一个待处理图像中提取目标对象的至少一个第一区域图像之后,本公开实施例提供的方法还可以包括:响应于用户对至少一个第一区域图像中的任一区域图像的修改操作,对任一区域图像进行修改。
实际应用中,在经过自动抠图之后,终端可以将自动抠图后的结果展示给用户,如果用户对某个自动抠图得到的结果不满意,可以手动进行调整。比如说,终端将自动抠出的目标对象的第一区域图像高亮标出,用户可以手动拖拽高亮部分的外边缘,以调整抠图区域。
值得注意的是,如果能够获得目标对象的足够多角度的第一区域图像,则目标对象的外观信息更加完善,更利于后续步骤的处理。基于此,在从至少一个待处理图像中提取目标对象的至少一个第一区域图像之后,本公开实施例提供的方法还可以包括:基于提取到的目标对象的至少一个第一区域图像,确定目标对象的其他角度的第三区域图像,其他角度为除至少一个第一区域图像对应的角度之外的角度;将第三区域图像合并入目标对象图像集。
在本公开实施例提供的方案中,可以基于已提取到的目标对象的至少一个第一区域图像,自动生成目标对象的其他角度的第三区域图像,起到补充原有的目标对象的外观信息的作用,以使得目标对象的外观信息更加完善。
实际应用中,可以基于提取到的目标对象的至少一个第一区域图像,建立目标对象的三维模型,然后再基于该三维模型,生成目标对象的其他角度的第三区域图像。
可选地,在制作好目标对象的至少一个第一区域图像之后,可以将至少一个第一区域图像添加到目标对象图像集中,然后将目标对象图像集上传到外观数据库,以补充外观数据库。这样,其他用户可以从外观数据库下载目标对象图像集直接进行使用。基于此,本公开实施例提供的方法还可以包括:响应于对至少一个第一区域图像的分享操作,获取用户输入的目标对象的标识;将至少一个第一区域图像和目标对象的标识关联上传到外观数据库中。
在本公开实施例中,还可以获取目标对象对应的待剪辑视频。比如说,目标对象是某知名演员,该待剪辑视频可以是该知名演员拍摄的影视作品、出席某活动的现场记录等。
在某些应用场景中,用户无法获得目标对象对应的足够多的角度的第一区域图像,仅有目标对象的预设角度的第四区域图像。比如说,用户仅有某人物的正面的待处理图像,基于该人物的正面的待处理图像,仅能提取出该人物的正面的第四区域图像。由于缺乏目标对象的足够多的外观信息,而又难以仅凭单一的目标对象的预设角度的第四区域图像补充出其他角度的第三区域图像,需要寻找其他方式获取目标对象的足够多的外观信息。此时,可以基于待剪辑视频补充目标对象的外观信息。
基于此,可选地,获取目标对象图像集的过程可以实现为:获取目标对象的预设角度的第四区域图像;以第四区域图像为跟踪目标,对待剪辑视频进行跟踪处理,以确定待剪辑视频中包含目标对象的至少一个视频帧;从至少一个视频帧中提取目标对象的至少一个第一区域图像。
可以理解的是,待剪辑视频中的某些视频片段中会包含目标对象对应的视频帧,因此可以以目标对象的预设角度的第四区域图像为跟踪目标,对待剪辑视频进行跟踪处理,这样就可以确定出待剪辑视频中包含目标对象的至少一个视频帧,然后可以从该至少一个视频帧中提取目标对象的至少一个第一区域图像。
举例来说,可以以某人物的正面的第四区域图像为跟踪目标,跟踪得到由5个连续的视频帧构成的待剪辑视频中出现的目标对象对应的第一个视频片段。可以提取出该5个连续的视频帧,然后对该5个连续的视频帧进行自动抠图,以提取出各视频帧中包含的目标对象的5个第一区域图像。
通过上述方法可以获取到目标对象的至少一个第一区域图像,在获取到目标对象的至少一个第一区域图像和待剪辑视频之后,可以根据至少一个第一区域图像得到待剪辑视频中包含目标对象的若干目标视频片段。
可选地,根据至少一个第一区域图像得到待剪辑视频中包含目标对象的若干目标视频片段的过程可以实现为:将至少一个第一区域图像和待剪辑视频输入到预先训练的剪辑模型中,得到待剪辑视频中包含目标对象的若干目标视频片段。
通过剪辑模型,可以自动参照目标对象的至少一个第一区域图像,从待剪辑视频中将包括目标对象的若干视频片段剪辑出。这样就可以避免用户从待剪辑视频的开始一直看到结束,避免用户手动标注目标对象出场的所有视频片段的起始帧和结束帧以剪辑视频,进而采用本公开实施例提供的视频剪辑的方式,可以提高视频剪辑的操作效率。
如果如前文所述,除了获取到了目标对象的至少一个第一区域图像之外,还补充了目标对象的第三区域图像,此时,可以将该目标对象的至少一个第一区域图像、该第三区域图像和待剪辑视频一起输入到剪辑模型中,以得到待剪辑视频中包含目标对象的若干目标视频片段。当输入到剪辑模型中的目标对象对应的各个角度的区域图像越全面,剪辑模型参照目标对象对应的各个角度的区域图像剪辑出的包含目标对象的目标视频片段就越准确。
在识别出待剪辑视频中包含目标对象的若干目标视频片段之后,可以响应于目标视频片段内的目标对象的图像的变化,生成目标对象的第二区域图像,并将第二区域图像合并入目标对象图像集。
可以理解的是,基于第一区域图像可以自动将待剪辑视频中的若干包含目标对象的目标视频片段剪辑出。由于目标视频片段是由多个包含目标对象的视频帧构成的,因此可以从目标视频片段中提取目标对象的第二区域图像。由于目标对象在目标视频片段的各视频帧中的角度或者形态是连续变化的,因此第二区域图像针对的也是目标对象的不同角度或者不同形态。可以将第二区域图像作为目标对象图像集的补充内容合并到目标对象图像集中。这样,后续再基于目标对象图像集中的区域图像剪辑其他待剪辑视频时,目标对象的外观信息更加的充分,可以进一步提高剪辑的正确率。
可选地,生成目标对象的第二区域图像的过程可以实现为:响应于对目标视频片段内的目标对象的图像的手动抠图操作,生成目标对象的第二区域图像。
由于目标视频片段的各视频帧中存在除目标对象以外的其他区域,因此可以将目标对象的第二区域图像从目标视频片段的各视频帧中抠出。具体来说,可以让用户通过手动抠图的方式将目标对象的第二区域图像从目标视频片段的各视频帧中抠出。
在识别出待剪辑视频中包含目标对象的若干目标视频片段之后,还可以输出目标视频片段。输出目标视频片段可以实现为向用户展示目标视频片段。可选地,用户可以对识别结果进行标注。对识别结果进行标注的过程可以实现为:响应于用户对目标视频片段中的任一视频片段的删除操作,删除目标视频片段中的任一视频片段。
举例来说,假设某影视作品是由人物1、人物2、人物3……人物n共同出演的,用户需要剪辑出该影视作品中包含人物2的所有目标视频片段。假设剪辑模型输出的结果包括5个视频片段,可以向用户展示该5个视频片段。假设5个视频片段中视频片段1、3、4、5都是包含人物2的视频片段,而视频片段2中只包含人物3且人物2不曾出现过,此时可以认为视频片段2为错误的输出结果。用户可以选择从输出的5个视频片段中删除掉视频片段2。
如果待剪辑视频中不包含目标对象的任何视频片段,则剪辑结果为空。可选地,根据至少一个第一区域图像得到待剪辑视频中包含目标对象的若干目标视频片段的过程还可以实现为:若根据至少一个第一区域图像未识别到待剪辑视频中包含的目标对象的目标视频片段,则输出提示信息,提示信息用于提示用户未识别到待剪辑视频中包含的目标对象的目标视频片段。
可选地,为了提高剪辑模型智能剪辑待剪辑视频的准确率,可以基于删除任一视频片段的目标视频片段,对剪辑模型进行优化训练。
可以理解的是,用户对剪辑模型输出的结果进行了人工标注,可以将人工标注后的正确的包含目标对象的目标视频片段作为正样本对剪辑模型进行优化训练,以提高剪辑模型剪辑待剪辑视频的准确率。
为了便于理解,结合如下的应用场景对以上提供的视频剪辑及剪辑模型生成方法的具体实现进行示例性说明。
假设用户需要将包含人物1的视频片段从待剪辑视频中剪辑出来。图2是智能剪辑视频的应用程序的界面示意图。在该界面中,包括待剪辑视频的预览窗口,从该预览窗口中可以播放待剪辑视频。在预览窗口下面还设置有播放进度条,可以查看待剪辑视频的播放进度。同时,在界面中还设置有快进、后退、暂停等控件,用于控制待剪辑视频的播放进度。
在图2所示的界面中,还设置有搜索对话框,在该搜索对话框中可以输入需要从外观数据库中下载区域图像的对象的名称。在搜索对话框的下面,可以设置有从相册导入图像的操作控件。在该操作控件的附近,可以设置一些热门对象的预览图和标识,以供用户直接从中选择。
响应于对该操作控件的选择操作,如图3所示,可以弹出相册列表,相册列表中包括多个图像的缩略图,用户可以从中勾选需要导入的待处理图像。在图3所示的示例中,用户勾选了人物1对应的角度A、B、C、D的4个照片作为待处理图像。在用户勾选好需要导入的待处理图像之后,可以点击界面下方设置的完成按钮。
在用户点击了完成按钮之后,跳转到如图4所示的界面,进入自动抠图的步骤。在该界面中设置有待处理图像的预览窗口,可以从该预览窗口中查看当前需要抠图的待处理图像。在该预览窗口的下方设置有智能抠图的操作控件,当用户选择了该操作控件时,可以自动对当前的待处理图像进行抠图操作。在智能抠图的操作控件的边上还设置有修改控件,当用户选择了该修改控件时,可以在智能抠图的基础上对抠图结果进行调整。
在完成智能抠图以及修改抠图结果的操作之后,智能剪辑视频的应用程序可以基于最终确认的人物1对应的角度A、B、C、D的区域图像,将包含人物1的视频片段从待剪辑视频中剪辑出来。智能剪辑视频的应用程序还可以在如图5所示的界面中将智能剪裁的结果展示出来,在图5所示的示例中智能剪辑视频的应用程序从待剪辑视频中剪辑出4个视频片段,其中第2个视频片段中人物1并没有出现过,因此用户可以选择删除掉该视频片段,界面跳转到图6。
需要说明的是,在图5、图6所示的界面中,还可以设置增加当前帧的操作控件。通过该操作控件,用户可以从播放中的待剪辑视频中选择当前播放的视频帧,将当前播放的视频帧进行抠图后补充到人物1的外观信息中,以提高智能剪辑的准确率。此外,还可以设置修改控件。通过该修改控件,用户可以对已录入的人物1对应的不同角度的区域图像进行修改,也可进一步提高智能剪裁的准确率。
采用本公开,可以自动参照目标对象的目标对象图像集,从待剪辑视频中将包括目标对象的若干目标视频片段剪辑出。这样就可以避免用户从待剪辑视频的开始一直看到结束,避免用户手动标注目标对象出场的所有视频片段的起始帧和结束帧以剪辑视频,进而采用本公开实施例提供的视频剪辑的方法,可以缩短视频剪辑的耗时且提高视频剪辑的操作效率。
另外,由于目标视频片段是由多个包含目标对象的视频帧构成的,因此可以从目标视频片段中提取目标对象的第二区域图像。由于目标对象在目标视频片段的各视频帧中的角度或者形态是连续变化的,因此第二区域图像针对的也是目标对象的不同角度或者不同形态。可以将第二区域图像作为目标对象图像集的补充内容合并到目标对象图像集中。这样,后续再基于目标对象图像集中的区域图像剪辑其他待剪辑视频时,目标对象的外观信息更加的充分,可以进一步提高视频剪辑的正确率。
图7是根据一示例性实施例示出的一种视频剪辑及剪辑模型生成装置框图。参照图7,该装置包括:
获取单元71,被配置为执行获取目标对象图像集,所述目标对象图像集包括目标对象的至少一个第一区域图像;
剪辑单元72,被配置为执行获取待剪辑视频,根据所述至少一个第一区域图像得到所述待剪辑视频中包含所述目标对象的若干目标视频片段;
合并单元73,被配置为执行响应于所述目标视频片段内的目标对象的图像的变化,生成所述目标对象的第二区域图像,并将所述第二区域图像合并入所述目标对象图像集。
可选地,所述至少一个第一区域图像对应所述目标对象的至少一个角度或者至少一种形态。
可选地,所述获取单元71,被配置为执行:
在预先建立的外观数据库中,基于目标对象的标识查找所述目标对象图像集。
可选地,所述获取单元71,被配置为执行:
获取用户输入的至少一个待处理图像;
识别每个待处理图像中包含的对象;
在所述每个待处理图像中包含的对象中,确定所述每个待处理图像都包含的相同的目标对象;
从所述至少一个待处理图像中提取所述目标对象的至少一个第一区域图像。
可选地,所述装置还包括:
修改单元,被配置为执行响应于所述用户对所述至少一个第一区域图像中的任一区域图像的修改操作,对所述任一区域图像进行修改。
可选地,所述合并单元73,还被配置为执行:
基于提取到的所述目标对象的至少一个第一区域图像,确定所述目标对象的其他角度的第三区域图像,所述其他角度为除所述至少一个第一区域图像对应的角度之外的角度;
将所述第三区域图像合并入所述目标对象图像集。
可选地,所述装置还包括分享单元;
所述分享单元,被配置为执行:
响应于对所述至少一个第一区域图像的分享操作,获取所述用户输入的所述目标对象的标识;
将所述至少一个第一区域图像和所述目标对象的标识关联上传到外观数据库中。
可选地,所述获取单元71,被配置为执行:
获取目标对象的预设角度的第四区域图像;
以所述第四区域图像为跟踪目标,对所述待剪辑视频进行跟踪处理,以确定所述待剪辑视频中包含所述目标对象的至少一个视频帧;
从所述至少一个视频帧中提取所述目标对象的至少一个第一区域图像。
可选地,所述装置还包括:
输出单元,被配置为执行输出所述目标视频片段。
可选地,所述装置还包括:
删除单元,被配置为执行响应于用户对所述目标视频片段中的任一视频片段的删除操作,删除所述目标视频片段中的所述任一视频片段。
可选地,所述剪辑单元72,被配置为执行:
将所述至少一个第一区域图像和所述待剪辑视频输入到预先训练的剪辑模型中,得到所述待剪辑视频中包含所述目标对象的若干目标视频片段。
可选地,所述装置还包括:
训练单元,被配置为执行基于删除所述任一视频片段的目标视频片段,对所述剪辑模型进行优化训练。
可选地,所述剪辑单元72,被配置为执行:
若根据所述至少一个第一区域图像未识别到所述待剪辑视频中包含的所述目标对象的目标视频片段,则输出提示信息,所述提示信息用于提示用户未识别到所述待剪辑视频中包含的所述目标对象的目标视频片段。
可选地,所述合并单元73,被配置为执行:
响应于对所述目标视频片段内的目标对象的图像的手动抠图操作,生成所述目标对象的第二区域图像。
关于上述实施例中的装置,其中各个模块执行操作的具体方式已经在有关该方法的实施例中进行了详细描述,此处将不做详细阐述说明。
在一个可能的设计中,上述图7所示视频剪辑及剪辑模型生成装置的结构可实现为一电子设备,如图8所示,该电子设备可以包括:处理器91、存储器92。其中,所述存储器92上存储有可执行代码,当所述可执行代码被所述处理器91执行时,使所述处理器91至少可以实现如前述图1至图6所示实施例中提供的视频剪辑及剪辑模型生成方法。
可选地,该电子设备中还可以包括通信接口93,用于与其他设备进行通信。
在示例性实施例中,还提供了一种包括指令的计算机可读存储介质,例如包括指令的存储器92,上述指令可由服务器的处理器91执行以完成上述方法。可选地,计算机可读存储介质可以是ROM、随机存取存储器(RAM)、CD-ROM、磁带、软盘和光数据存储设备等。
在示例性实施例中,还提供一种计算机程序产品,包括计算机程序/指令,所述计算机程序/指令被处理器91执行时实现前述图1至图6所示实施例中提供的视频剪辑及剪辑模型生成方法。
本领域技术人员在考虑说明书及实践这里公开的发明后,将容易想到本公开的其它实施方案。本申请旨在涵盖本公开的任何变型、用途或者适应性变化,这些变型、用途或者适应性变化遵循本公开的一般性原理并包括本公开未公开的本技术领域中的公知常识或惯用技术手段。说明书和实施例仅被视为示例性的,本公开的真正范围和精神由下面的权利要求指出。
应当理解的是,本公开并不局限于上面已经描述并在附图中示出的精确结构,并且可以在不脱离其范围进行各种修改和改变。本公开的范围仅由所附的权利要求来限制。
Claims (10)
1.一种视频剪辑及剪辑模型生成方法,其特征在于,包括:
获取目标对象图像集,所述目标对象图像集包括目标对象的至少一个第一区域图像;
获取待剪辑视频,根据所述至少一个第一区域图像得到所述待剪辑视频中包含所述目标对象的若干目标视频片段;
响应于所述目标视频片段内的目标对象的图像的变化,生成所述目标对象的第二区域图像,并将所述第二区域图像合并入所述目标对象图像集。
2.根据权利要求1所述的方法,其特征在于,所述至少一个第一区域图像对应所述目标对象的至少一个角度或者至少一种形态。
3.根据权利要求1所述的方法,其特征在于,所述获取目标对象图像集,包括:
在预先建立的外观数据库中,基于目标对象的标识查找所述目标对象图像集。
4.根据权利要求1所述的方法,其特征在于,所述获取目标对象图像集,包括:
获取用户输入的至少一个待处理图像;
识别每个待处理图像中包含的对象;
在所述每个待处理图像中包含的对象中,确定所述每个待处理图像都包含的相同的目标对象;
从所述至少一个待处理图像中提取所述目标对象的至少一个第一区域图像。
5.根据权利要求4所述的方法,其特征在于,在从所述至少一个待处理图像中提取所述目标对象的至少一个第一区域图像之后,所述方法还包括:
响应于所述用户对所述至少一个第一区域图像中的任一区域图像的修改操作,对所述任一区域图像进行修改。
6.根据权利要求4所述的方法,其特征在于,在从所述至少一个待处理图像中提取所述目标对象的至少一个第一区域图像之后,所述方法还包括:
基于提取到的所述目标对象的至少一个第一区域图像,确定所述目标对象的其他角度的第三区域图像,所述其他角度为除所述至少一个第一区域图像对应的角度之外的角度;
将所述第三区域图像合并入所述目标对象图像集。
7.一种视频剪辑及剪辑模型生成装置,其特征在于,包括:
获取单元,被配置为执行获取目标对象图像集,所述目标对象图像集包括目标对象的至少一个第一区域图像;
剪辑单元,被配置为执行获取待剪辑视频,根据所述至少一个第一区域图像得到所述待剪辑视频中包含所述目标对象的若干目标视频片段;
合并单元,被配置为执行响应于所述目标视频片段内的目标对象的图像的变化,生成所述目标对象的第二区域图像,并将所述第二区域图像合并入所述目标对象图像集。
8.一种电子设备,其特征在于,包括:
处理器;
用于存储所述处理器可执行指令的存储器;
其中,所述处理器被配置为执行所述指令,以实现如权利要求1-6中任一项所述的视频剪辑及剪辑模型生成方法。
9.一种计算机可读存储介质,其特征在于,当所述计算机可读存储介质中的指令由电子设备的处理器执行时,使得所述电子设备能够执行如权利要求1-6中任一项所述的视频剪辑及剪辑模型生成方法。
10.一种计算机程序产品,包括计算机程序/指令,其特征在于,所述计算机程序/指令被处理器执行时实现权利要求1-6中任一项所述的视频剪辑及剪辑模型生成方法。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202111530280.3A CN114401440B (zh) | 2021-12-14 | 2021-12-14 | 视频剪辑及剪辑模型生成方法、装置、设备、程序和介质 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202111530280.3A CN114401440B (zh) | 2021-12-14 | 2021-12-14 | 视频剪辑及剪辑模型生成方法、装置、设备、程序和介质 |
Publications (2)
Publication Number | Publication Date |
---|---|
CN114401440A true CN114401440A (zh) | 2022-04-26 |
CN114401440B CN114401440B (zh) | 2024-10-25 |
Family
ID=81227386
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN202111530280.3A Active CN114401440B (zh) | 2021-12-14 | 2021-12-14 | 视频剪辑及剪辑模型生成方法、装置、设备、程序和介质 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN114401440B (zh) |
Citations (13)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
JP2007121111A (ja) * | 2005-10-27 | 2007-05-17 | Mitsubishi Heavy Ind Ltd | 合成開口レーダ画像による目標物識別方法及び装置 |
CN106534967A (zh) * | 2016-10-25 | 2017-03-22 | 司马大大(北京)智能系统有限公司 | 视频剪辑方法及装置 |
CN110691202A (zh) * | 2019-08-28 | 2020-01-14 | 咪咕文化科技有限公司 | 视频剪辑方法、装置及计算机存储介质 |
CN111460219A (zh) * | 2020-04-01 | 2020-07-28 | 百度在线网络技术(北京)有限公司 | 视频处理方法及装置、短视频平台 |
CN111476059A (zh) * | 2019-01-23 | 2020-07-31 | 北京奇虎科技有限公司 | 目标检测方法、装置、计算机设备及存储介质 |
CN111586474A (zh) * | 2020-05-21 | 2020-08-25 | 口碑(上海)信息技术有限公司 | 直播视频处理方法及装置 |
US20200410241A1 (en) * | 2019-06-28 | 2020-12-31 | Nvidia Corporation | Unsupervised classification of gameplay video using machine learning models |
JP2021039740A (ja) * | 2019-09-02 | 2021-03-11 | 株式会社Nttドコモ | 歩行者再識別デバイス及び方法 |
WO2021056450A1 (zh) * | 2019-09-27 | 2021-04-01 | 深圳市汇顶科技股份有限公司 | 图像模板的更新方法、设备及存储介质 |
CN112801004A (zh) * | 2021-02-05 | 2021-05-14 | 网易(杭州)网络有限公司 | 视频片段的筛选方法、装置、设备及存储介质 |
CN112800805A (zh) * | 2019-10-28 | 2021-05-14 | 上海哔哩哔哩科技有限公司 | 视频剪辑方法、系统、计算机设备及计算机存储介质 |
CN113286173A (zh) * | 2021-05-19 | 2021-08-20 | 北京沃东天骏信息技术有限公司 | 一种视频剪辑方法和装置 |
CN113709384A (zh) * | 2021-03-04 | 2021-11-26 | 腾讯科技(深圳)有限公司 | 基于深度学习的视频剪辑方法、相关设备及存储介质 |
-
2021
- 2021-12-14 CN CN202111530280.3A patent/CN114401440B/zh active Active
Patent Citations (13)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
JP2007121111A (ja) * | 2005-10-27 | 2007-05-17 | Mitsubishi Heavy Ind Ltd | 合成開口レーダ画像による目標物識別方法及び装置 |
CN106534967A (zh) * | 2016-10-25 | 2017-03-22 | 司马大大(北京)智能系统有限公司 | 视频剪辑方法及装置 |
CN111476059A (zh) * | 2019-01-23 | 2020-07-31 | 北京奇虎科技有限公司 | 目标检测方法、装置、计算机设备及存储介质 |
US20200410241A1 (en) * | 2019-06-28 | 2020-12-31 | Nvidia Corporation | Unsupervised classification of gameplay video using machine learning models |
CN110691202A (zh) * | 2019-08-28 | 2020-01-14 | 咪咕文化科技有限公司 | 视频剪辑方法、装置及计算机存储介质 |
JP2021039740A (ja) * | 2019-09-02 | 2021-03-11 | 株式会社Nttドコモ | 歩行者再識別デバイス及び方法 |
WO2021056450A1 (zh) * | 2019-09-27 | 2021-04-01 | 深圳市汇顶科技股份有限公司 | 图像模板的更新方法、设备及存储介质 |
CN112800805A (zh) * | 2019-10-28 | 2021-05-14 | 上海哔哩哔哩科技有限公司 | 视频剪辑方法、系统、计算机设备及计算机存储介质 |
CN111460219A (zh) * | 2020-04-01 | 2020-07-28 | 百度在线网络技术(北京)有限公司 | 视频处理方法及装置、短视频平台 |
CN111586474A (zh) * | 2020-05-21 | 2020-08-25 | 口碑(上海)信息技术有限公司 | 直播视频处理方法及装置 |
CN112801004A (zh) * | 2021-02-05 | 2021-05-14 | 网易(杭州)网络有限公司 | 视频片段的筛选方法、装置、设备及存储介质 |
CN113709384A (zh) * | 2021-03-04 | 2021-11-26 | 腾讯科技(深圳)有限公司 | 基于深度学习的视频剪辑方法、相关设备及存储介质 |
CN113286173A (zh) * | 2021-05-19 | 2021-08-20 | 北京沃东天骏信息技术有限公司 | 一种视频剪辑方法和装置 |
Also Published As
Publication number | Publication date |
---|---|
CN114401440B (zh) | 2024-10-25 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
US11769528B2 (en) | Systems and methods for automating video editing | |
US8204312B2 (en) | Moving image editing apparatus | |
CN110769314B (zh) | 一种视频播放方法、装置和计算机可读存储介质 | |
US11393208B2 (en) | Video summarization using selected characteristics | |
CN107707931B (zh) | 根据视频数据生成解释数据、数据合成方法及装置、电子设备 | |
US9324171B2 (en) | Image overlaying and comparison for inventory display auditing | |
JP5371083B2 (ja) | 顔識別特徴量登録装置、顔識別特徴量登録方法、顔識別特徴量登録プログラム及び記録媒体 | |
EP1083567A2 (en) | System and method for editing source metadata to produce an edited metadata sequence | |
CN110675433A (zh) | 视频处理方法、装置、电子设备及存储介质 | |
US20130236162A1 (en) | Video editing apparatus and method for guiding video feature information | |
CN112118395B (zh) | 视频处理方法、终端及计算机可读存储介质 | |
JP2006155384A (ja) | 映像コメント入力・表示方法及び装置及びプログラム及びプログラムを格納した記憶媒体 | |
US11445272B2 (en) | Video processing method and apparatus | |
CN110691202A (zh) | 视频剪辑方法、装置及计算机存储介质 | |
CN108388649B (zh) | 处理音视频的方法、系统、设备及存储介质 | |
CN114363714B (zh) | 标题生成方法、设备及存储介质 | |
CN110703976A (zh) | 剪辑方法、电子设备和计算机可读存储介质 | |
CN105812920A (zh) | 媒体信息处理方法及媒体信息处理装置 | |
US11099811B2 (en) | Systems and methods for displaying subjects of an audio portion of content and displaying autocomplete suggestions for a search related to a subject of the audio portion | |
US8896708B2 (en) | Systems and methods for determining, storing, and using metadata for video media content | |
CN114401440B (zh) | 视频剪辑及剪辑模型生成方法、装置、设备、程序和介质 | |
JP2019092025A (ja) | 編集システム | |
CN110769325A (zh) | 视频拍摄方法、系统、电子设备及存储介质 | |
US20210089781A1 (en) | Systems and methods for displaying subjects of a video portion of content and displaying autocomplete suggestions for a search related to a subject of the video portion | |
CN109948546B (zh) | 媒体播放交互控制系统及方法 |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination | ||
GR01 | Patent grant | ||
GR01 | Patent grant |