[go: up one dir, main page]

CN113038271B - 视频自动剪辑方法、装置及计算机存储介质 - Google Patents

视频自动剪辑方法、装置及计算机存储介质 Download PDF

Info

Publication number
CN113038271B
CN113038271B CN202110321530.6A CN202110321530A CN113038271B CN 113038271 B CN113038271 B CN 113038271B CN 202110321530 A CN202110321530 A CN 202110321530A CN 113038271 B CN113038271 B CN 113038271B
Authority
CN
China
Prior art keywords
video
video frame
frame
optical flow
value
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Active
Application number
CN202110321530.6A
Other languages
English (en)
Other versions
CN113038271A (zh
Inventor
黄锐
胡攀文
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Chinese University of Hong Kong Shenzhen
Original Assignee
Chinese University of Hong Kong Shenzhen
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Chinese University of Hong Kong Shenzhen filed Critical Chinese University of Hong Kong Shenzhen
Priority to CN202110321530.6A priority Critical patent/CN113038271B/zh
Publication of CN113038271A publication Critical patent/CN113038271A/zh
Application granted granted Critical
Publication of CN113038271B publication Critical patent/CN113038271B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Classifications

    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04NPICTORIAL COMMUNICATION, e.g. TELEVISION
    • H04N21/00Selective content distribution, e.g. interactive television or video on demand [VOD]
    • H04N21/40Client devices specifically adapted for the reception of or interaction with content, e.g. set-top-box [STB]; Operations thereof
    • H04N21/43Processing of content or additional data, e.g. demultiplexing additional data from a digital video stream; Elementary client operations, e.g. monitoring of home network or synchronising decoder's clock; Client middleware
    • H04N21/44Processing of video elementary streams, e.g. splicing a video clip retrieved from local storage with an incoming video stream or rendering scenes according to encoded video stream scene graphs
    • H04N21/44016Processing of video elementary streams, e.g. splicing a video clip retrieved from local storage with an incoming video stream or rendering scenes according to encoded video stream scene graphs involving splicing one content stream with another content stream, e.g. for substituting a video clip
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04NPICTORIAL COMMUNICATION, e.g. TELEVISION
    • H04N21/00Selective content distribution, e.g. interactive television or video on demand [VOD]
    • H04N21/40Client devices specifically adapted for the reception of or interaction with content, e.g. set-top-box [STB]; Operations thereof
    • H04N21/43Processing of content or additional data, e.g. demultiplexing additional data from a digital video stream; Elementary client operations, e.g. monitoring of home network or synchronising decoder's clock; Client middleware
    • H04N21/441Acquiring end-user identification, e.g. using personal code sent by the remote control or by inserting a card
    • H04N21/4415Acquiring end-user identification, e.g. using personal code sent by the remote control or by inserting a card using biometric characteristics of the user, e.g. by voice recognition or fingerprint scanning
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04NPICTORIAL COMMUNICATION, e.g. TELEVISION
    • H04N21/00Selective content distribution, e.g. interactive television or video on demand [VOD]
    • H04N21/40Client devices specifically adapted for the reception of or interaction with content, e.g. set-top-box [STB]; Operations thereof
    • H04N21/45Management operations performed by the client for facilitating the reception of or the interaction with the content or administrating data related to the end-user or to the client device itself, e.g. learning user preferences for recommending movies, resolving scheduling conflicts
    • H04N21/466Learning process for intelligent management, e.g. learning user preferences for recommending movies
    • H04N21/4662Learning process for intelligent management, e.g. learning user preferences for recommending movies characterized by learning algorithms
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04NPICTORIAL COMMUNICATION, e.g. TELEVISION
    • H04N21/00Selective content distribution, e.g. interactive television or video on demand [VOD]
    • H04N21/40Client devices specifically adapted for the reception of or interaction with content, e.g. set-top-box [STB]; Operations thereof
    • H04N21/47End-user applications
    • H04N21/485End-user interface for client configuration
    • H04N21/4858End-user interface for client configuration for modifying screen layout parameters, e.g. fonts, size of the windows

Landscapes

  • Engineering & Computer Science (AREA)
  • Multimedia (AREA)
  • Signal Processing (AREA)
  • Databases & Information Systems (AREA)
  • Human Computer Interaction (AREA)
  • Health & Medical Sciences (AREA)
  • Biomedical Technology (AREA)
  • General Health & Medical Sciences (AREA)
  • Theoretical Computer Science (AREA)
  • Television Signal Processing For Recording (AREA)

Abstract

本申请实施例公开了一种视频自动剪辑方法、装置及计算机存储介质,使得剪辑生成的视频能够最大化地呈现目标人物的信息以及避免呈现出其他无关人物的信息。本申请实施例包括:将计算得到的姿态信息量化值以及光流能量变化值应用于强化学习算法中对动作的回报值的计算,并将最大回报值对应的候选视频帧确定为当前视频帧的下一视频帧,将当前视频帧的下一视频帧作为新的当前视频帧,返回执行计算在当前视频帧下的动作的回报值的步骤,同时,基于目标人物在视频帧中的位置和尺寸大小确定视频画面窗口,并根据视频画面窗口提取出关于目标人物的视频画面,使得最终合成的视频最大化地呈现有关于目标人物的信息,以及避免呈现出其他无关人物的信息。

Description

视频自动剪辑方法、装置及计算机存储介质
技术领域
本申请实施例涉及视频剪辑领域,具体涉及一种视频自动剪辑方法、装置及计算机存储介质。
背景技术
现有技术中,视频自动剪辑可以提高安防、教育、影视娱乐等领域中视频剪辑的工作效率。在视频被剪辑之后,视频的数据量大大减小,视频占用的存储空间减小,因此,视频自动剪辑还能缓解海量视频的存储问题,视频经过自动剪辑之后可以释放更多的存储空间。
现有的视频自动剪辑系统主要针对于舞会视频、音乐会视频、室外活动视频、和足球比赛视频等视频进行设计,注重于使视频内容更加丰富,使视频内容更加多样化,以增加趣味性和提高观感。但是,在一些需要在视频中着重呈现出目标人物的场景中,现有的视频自动剪辑系统并无法很好地处理,因为现有的视频自动剪辑系统注重于呈现更多的视频内容,无法聚焦在目标人物上,无法呈现出更多的有关于目标人物的信息。同时,现有的视频自动剪辑系统在剪辑的视频中呈现了与目标人物无关的其他人物的信息,也可能会造成视频中其他人物的隐私泄露问题。
发明内容
本申请实施例提供了一种视频自动剪辑方法、装置及计算机存储介质,使得剪辑生成的视频能够最大化地呈现目标人物的信息以及避免呈现出其他无关人物的信息。
本申请实施例第一方面提供了一种视频自动剪辑方法,所述方法包括:
计算至少一路视频中的每一视频帧的目标人物的脸部姿态信息,计算所述脸部姿态信息对应的姿态信息量化值,计算所述每一视频帧的光流能量变化值;
将任一路视频中的任一视频帧作为当前视频帧;
基于强化学习算法,根据当前视频帧的姿态信息量化值和光流能量变化值计算在所述当前视频帧下的动作的回报值,将最大回报值对应的候选视频帧确定为所述当前视频帧的下一视频帧,将所述当前视频帧的下一视频帧作为新的当前视频帧,并返回执行所述基于强化学习算法,根据当前视频帧的姿态信息量化值和光流能量变化值计算在所述当前视频帧下的动作的回报值的步骤;其中,所述动作为分别从所述至少一路视频的每一路视频中选择一个候选视频帧;
根据当前视频帧的先后确定顺序确定视频帧序列,基于所述视频帧序列得到初始合成视频;
根据所述目标人物在所述初始合成视频中的每一帧的位置和尺寸大小,确定所述初始合成视频中的每一帧的视频画面窗口的位置和尺寸大小;
基于所述视频画面窗口的位置和尺寸大小提取所述初始合成视频中的每一帧的视频画面,得到目标合成视频。
本申请实施例第二方面提供了一种视频自动剪辑装置,所述装置包括:
计算单元,用于计算至少一路视频中的每一视频帧的目标人物的脸部姿态信息,计算所述脸部姿态信息对应的姿态信息量化值,计算所述每一视频帧的光流能量变化值;
确定单元,用于将任一路视频中的任一视频帧作为当前视频帧;
剪辑单元,用于基于强化学习算法,根据当前视频帧的姿态信息量化值和光流能量变化值计算在所述当前视频帧下的动作的回报值,将最大回报值对应的候选视频帧确定为所述当前视频帧的下一视频帧,将所述当前视频帧的下一视频帧作为新的当前视频帧,并返回执行所述基于强化学习算法,根据当前视频帧的姿态信息量化值和光流能量变化值计算在所述当前视频帧下的动作的回报值的步骤;其中,所述动作为分别从所述至少一路视频的每一路视频中选择一个候选视频帧;
生成单元,用于根据当前视频帧的先后确定顺序确定视频帧序列,基于所述视频帧序列得到初始合成视频;
所述确定单元还用于根据所述目标人物在所述初始合成视频中的每一帧的位置和尺寸大小,确定所述初始合成视频中的每一帧的视频画面窗口的位置和尺寸大小;
提取单元,用于基于所述视频画面窗口的位置和尺寸大小提取所述初始合成视频中的每一帧的视频画面,得到目标合成视频。
本申请实施例第三方面提供了一种视频自动剪辑装置,所述装置包括:
存储器,用于存储计算机程序;处理器,用于在执行所述计算机程序时实现如前述第一方面所述的视频自动剪辑方法的步骤。
本申请实施例第四方面提供了一种计算机存储介质,计算机存储介质中存储有指令,该指令在计算机上执行时,使得计算机执行前述第一方面的方法。
从以上技术方案可以看出,本申请实施例具有以下优点:
本实施例中,通过计算每一视频帧的目标人物的脸部姿态信息量化值以及光流能量变化值,将计算得到的姿态信息量化值以及光流能量变化值应用于强化学习算法中对动作的回报值的计算,并将最大回报值对应的候选视频帧确定为当前视频帧的下一视频帧,将当前视频帧的下一视频帧作为新的当前视频帧,返回执行计算在当前视频帧下的动作的回报值的步骤,从而使得每一次从至少一路视频中确定出的视频帧均能最大化地呈现目标人物的信息以及避免呈现出目标人物被遮挡的画面。同时,基于目标人物在视频帧中的位置和尺寸大小确定视频画面窗口,并根据视频画面窗口提取出关于目标人物的视频画面,使得最终合成的视频最大化地呈现有关于目标人物的信息,以及避免呈现出其他无关人物的信息。
附图说明
图1为本申请实施例中视频自动剪辑方法一个流程示意图;
图2为本申请实施例中视频自动剪辑方法另一流程示意图;
图3为本申请实施例中一种脸部姿态信息的示意图;
图4为本申请实施例中视频自动剪辑装置一个结构示意图;
图5为本申请实施例中视频自动剪辑装置另一结构示意图。
具体实施方式
本申请实施例提供了一种视频自动剪辑方法、装置及计算机存储介质,使得剪辑生成的视频能够最大化地呈现目标人物的信息以及避免呈现出其他无关人物的信息。
请参阅图1,本申请实施例中视频自动剪辑方法一个实施例包括:
101、计算至少一路视频中的每一视频帧的目标人物的脸部姿态信息,计算脸部姿态信息对应的姿态信息量化值,计算每一视频帧的光流能量变化值;
本实施例的方法可应用于视频自动剪辑装置,该视频自动剪辑装置具体可以是终端、服务器等具备数据处理能力的计算机设备。
在需要着重体现视频中的目标人物的应用场景中,本实施例将获取至少一路视频,其中每一路视频的视频画面中包括目标人物,本实施例的任务是对该至少一路视频进行自动剪辑,以使得剪辑生成的视频重点呈现出目标人物以及与目标人物交互的对象的信息,并确保其他无关人物的信息不被显示在剪辑生成的视频中,从而保护其他无关人物的隐私信息安全。
在获取到至少一路视频之后,计算每一路视频的每一视频帧的目标人物的脸部姿态信息,并计算脸部姿态信息对应的姿态信息量化值。此外,本实施例还提出一种确定视频画面中目标人物被遮挡的情况,即根据光流能量变化值来确定视频画面中目标人物的遮挡情况。因此,本步骤还计算每一视频帧的光流能量变化值,通过光流能量变化值来反映目标人物的遮挡情况。
102、将任一路视频中的任一视频帧作为当前视频帧;
本实施例采用强化学习算法来确定剪辑生成的视频中的每一帧,视频帧作为强化学习算法中的状态。用户可以指定任一路视频中的任一视频帧为当前视频帧,因此视频自动剪辑装置根据用户的指定确定当前视频帧,则当前视频帧作为强化学习算法中的一个状态,在后续的步骤中将根据当前视频帧所对应的状态确定下一状态。
103、基于强化学习算法,根据当前视频帧的姿态信息量化值和光流能量变化值计算在当前视频帧下的动作的回报值,将最大回报值对应的候选视频帧确定为当前视频帧的下一视频帧,将当前视频帧的下一视频帧作为新的当前视频帧,并返回执行基于强化学习算法,根据当前视频帧的姿态信息量化值和光流能量变化值计算在当前视频帧下的动作的回报值的步骤;
在自动剪辑过程中,本实施例依次确定剪辑生成的视频中的每一视频帧。具体的,在确定当前视频帧之后,视频自动剪辑装置基于强化学习算法,根据当前视频帧的姿态信息量化值和光流能量变化值计算在当前视频帧下的动作的回报值。
本实施例的强化学习算法具体可以是马尔可夫决策过程。在强化学习算法中,动作的回报值越大,表明该动作越有意义,则强化学习算法中虚拟的智能体将依据最大回报值所对应的动作来优化策略,进而根据优化的策略采取下一步的动作。因此,在计算出当前视频帧下多个动作的回报值之后,将最大回报值的动作所选择出来的候选视频帧确定为当前视频帧的下一视频帧。
在确定出当前视频帧的下一视频帧之后,将当前视频帧的下一视频帧作为新的当前视频帧,并返回执行基于强化学习算法,根据当前视频帧的姿态信息量化值和光流能量变化值计算在当前视频帧下的动作的回报值的步骤。其中,在当前视频帧下的动作是指分别从至少一路视频的每一路视频中选择一个候选视频帧。
104、根据当前视频帧的先后确定顺序确定视频帧序列,基于视频帧序列得到初始合成视频;
通过步骤103可依次确定出每一个视频帧,并且确定出的多个视频帧具有先后的确定顺序,因此,可以根据步骤103中当前视频帧的先后确定顺序确定视频帧序列,进而基于视频帧序列得到初始合成视频。
105、根据目标人物在初始合成视频中的每一帧的位置和尺寸大小,确定初始合成视频中的每一帧的视频画面窗口的位置和尺寸大小;
在得到初始合成视频之后,由于本实施例的目的在于着重体现视频画面中的目标人物,因此,进一步确定初始合成视频中目标人物在每一帧画面的位置和尺寸大小,并根据目标人物在每一帧画面的位置和尺寸大小确定初始合成视频中的每一帧的视频画面窗口的位置和尺寸大小。
106、基于视频画面窗口的位置和尺寸大小提取初始合成视频中的每一帧的视频画面,得到目标合成视频;
在确定视频画面窗口的位置和尺寸大小之后,基于视频画面窗口的位置和尺寸大小提取初始合成视频中的每一帧的视频画面,从而得到目标合成视频,实现视频的自动剪辑。
本实施例中,通过计算每一视频帧的目标人物的脸部姿态信息量化值以及光流能量变化值,将计算得到的姿态信息量化值以及光流能量变化值应用于强化学习算法中对动作的回报值的计算,并将最大回报值对应的候选视频帧确定为当前视频帧的下一视频帧,将当前视频帧的下一视频帧作为新的当前视频帧,返回执行计算在当前视频帧下的动作的回报值的步骤,从而使得每一次从至少一路视频中确定出的视频帧均能最大化地呈现目标人物的信息以及避免呈现出目标人物被遮挡的画面。同时,基于目标人物在视频帧中的位置和尺寸大小确定视频画面窗口,并根据视频画面窗口提取出关于目标人物的视频画面,使得最终合成的视频最大化地呈现有关于目标人物的信息,以及避免呈现出其他无关人物的信息。
下面将在前述图1所示实施例的基础上,进一步详细地描述本申请实施例。请参阅图2,本申请实施例中视频自动剪辑方法另一实施例包括:
201、计算至少一路视频中的每一视频帧的目标人物的脸部姿态信息,计算脸部姿态信息对应的姿态信息量化值,计算每一视频帧的光流能量变化值;
本实施例中,可以根据人脸姿态估计算法计算每一视频帧的目标人物的脸部姿态信息。具体的,人脸姿态估计算法计算得到的脸部姿态信息可以使用旋转矩阵、旋转向量、四元数或者欧拉角来表示。由于欧拉角可读性更好,可以优选使用欧拉角来表示脸部姿态信息。如图3所示,可以根据人脸姿态估计算法计算得到目标人物的脸部姿态信息如俯仰角(pitch)的角度、偏航角(yaw)的角度以及旋转角(roll)的角度。
为了使计算得到的脸部姿态信息与人脸的对称结构保持一致性,本实施例采用多元高斯模型来计算脸部姿态信息对应的姿态信息量化值。进一步地,为便于计算,可对计算得到的姿态信息量化值进行归一化,将归一化的姿态信息量化值用于后续的计算过程中。
具体的,本实施例计算光流能量变化值的具体方式是,计算至少一路视频中每一视频帧的光流信息以及计算与该每一视频帧属于同一路视频的其他视频帧的光流信息,根据该每一视频帧的光流信息计算该每一视频帧的光流能量,根据该其他视频帧的光流信息计算该其他视频帧的光流能量,计算该每一视频帧与该其他视频帧的光流能量差值以及该每一视频帧与该其他视频帧的间隔时间,将光流能量差值与间隔时间的商作为该每一视频帧的光流能量变化值。
例如,假设视频自动剪辑装置获取到C路视频(C≥1),每一路视频包括T帧视频帧,C路视频中的某一视频帧可以表示为fc,t(c=1,…,C;t=1,…,T),则与fc,t属于同一路视频且与fc,t+1相邻的视频帧可以表示为fc,t+1。分别计算fc,t的光流信息以及fc,t+1的光流信息,根据fc,t的光流信息计算fc,t的光流能量,根据fc,t+1的光流信息计算fc,t+1的光流能量,计算fc,t的光流能量与fc,t+1的光流能量的光流能量差值以及fc,t与fc,t+1的间隔时间,再将计算得到的光流能量差值与间隔时间的商作为fc,t的光流能量变化值。
在多元高斯模型中,当人脸的欧拉角的角度趋向于0时,脸部姿态信息对应的姿态信息量化值最大;当人脸发生偏转而产生欧拉角时,即欧拉角不等于0,此时脸部姿态信息对应的姿态信息量化值降低。欧拉角的角度导致的姿态信息量化值的变化幅度可以通过方差矩阵来控制。因此,可以设置欧拉角的方差,以此来调节欧拉角对姿态信息量化值的影响程度。
202、将任一路视频中的任一视频帧作为当前视频帧;
本步骤所执行的操作与前述图1所示实施例中的步骤102所执行的操作类似,此处不再赘述。
203、基于强化学习算法,根据当前视频帧的姿态信息量化值和光流能量变化值计算在当前视频帧下的动作的回报值,将最大回报值对应的候选视频帧确定为当前视频帧的下一视频帧,将当前视频帧的下一视频帧作为新的当前视频帧,并返回执行基于强化学习算法,根据当前视频帧的姿态信息量化值和光流能量变化值计算在当前视频帧下的动作的回报值的步骤;
本实施例中,在计算动作的回报值时,具体的计算方式是,确定该动作下当前视频帧到候选视频帧的转移概率,根据当前视频帧的姿态信息量化值和光流能量变化值计算在当前视频帧下的动作的初始回报值,将初始回报值与该转移概率的乘积作为该动作的回报值。
具体的,确定转移概率的具体方式是,当满足预设条件时,确定转移概率为1;当不满足该预设条件中的任一项时,确定转移概率为0。其中,预设条件包括:当前视频帧与候选视频帧在时间线上相邻、目标人物存在于候选视频帧的画面中、动作对应的视频索引与候选视频帧在至少一路视频中的索引一致。
其中,当前视频帧与候选视频帧在时间线上相邻,是指当前视频帧与候选视频帧在视频的时间线上相邻。例如,当前视频帧为第一路视频中的第T帧视频帧,则候选视频帧可以是当前视频或者其他视频(如第二路视频、第三路视频等等)中的第T+1帧视频帧。
204、根据当前视频帧的先后确定顺序确定视频帧序列,基于视频帧序列得到初始合成视频;
本步骤所执行的操作与前述图1所示实施例中的步骤104所执行的操作类似,此处不再赘述。
205、根据目标人物在初始合成视频中的每一帧的位置和尺寸大小,确定初始合成视频中的每一帧的视频画面窗口的位置和尺寸大小;
本实施例中,可以根据目标人物以及与目标人物交互的对象的信息确定目标人物在视频帧中的位置和大小,其中,与目标人物交互的对象的信息可以是目标人物的视线方向所关注的对象的信息。例如,目标人物的视线方向关注的是一把椅子,则确定的目标人物在视频帧中的位置和大小除了包括目标人物,还应当包括目标人物的视线方向所关注的椅子。
具体的,确定视频帧中目标人物的视线方向的具体方式可以是,由于视线方向与目标人物的脸部姿态信息有关,例如人脸朝上可以确定是仰视的动作,人脸朝下可以确定是俯视的动作,因此,可以根据目标人物在初始合成视频中的每一帧的脸部姿态信息确定目标人物在初始合成视频中的每一帧的视线方向。
例如,朝左看和朝右看主要取决于脸部姿态信息中的偏航角(yaw),因此,可以根据偏航角来确定目标人物的视线方向。为便于后续的计算过程,可以将视线方向进行量化,例如,可以基于以下公式以数值表示视线方向:
其中,g指代视线方向,φ指代偏航角。因此,根据上述公式即可确定出一定的偏航角角度对应的视线方向的取值。
在确定视线方向的取值之后,进一步根据目标人物在初始合成视频中的每一帧的视线方向确定目标人物在初始合成视频中的每一帧的位置和尺寸大小,并根据目标人物在初始合成视频中的每一帧的位置和尺寸大小,确定初始合成视频中的每一帧的视频画面窗口的位置和尺寸大小。
具体的,目标人物在初始合成视频中的每一帧的位置和尺寸大小,可以表示为其中,/>指代目标人物在初始合成视频的每一帧中的坐标,即根据/>和/>可以确定目标人物在视频帧中的位置;/>指代目标人物在初始合成视频的每一帧中的宽,/>指代目标人物在初始合成视频的每一帧中的高,即根据/>和/>可以确定目标人物在视频帧中的尺寸大小。
同时,初始合成视频中的每一帧的视频画面窗口的位置和尺寸大小,可以表示为其中,/>指代视频画面窗口在视频帧中的坐标,即根据/>可以确定视频画面窗口在初始合成视频中的视频帧的具体位置;/>指代视频画面窗口的宽,/>指代视频画面窗口的高,即根据/>和/>可以确定视频画面窗口的尺寸大小。
本实施例中,根据函数求解具体的,每一帧的视频画面窗口的位置和尺寸大小可以根据以下目标函数计算得到:
其中,ct指代初始合成视频,t指代ct中的任一个视频帧,gt指代前文提及的视线方向的取值。
由于上述目标函数是一个凸函数,因此,可以利用凸优化算法对该目标函数进行求解,可以解得初始合成视频ct中每一帧的视频画面窗口的最优的位置和尺寸大小,即求得的最优解。
因此,根据以上目标函数的表达式可以看出,在确定视频画面窗口的位置和尺寸大小时,还考虑了在目标人物的视线方向上与目标人物交互的对象的信息,将目标人物所交互的对象囊括至视频画面窗口中。
206、基于视频画面窗口的位置和尺寸大小提取初始合成视频中的每一帧的视频画面,得到目标合成视频;
在确定了视频画面窗口的位置和尺寸大小之后,可以基于视频画面窗口的位置和尺寸大小提取初始合成视频中的每一帧的视频画面,提取到的多帧视频画面构成目标合成视频。根据上述描述可知,由于视频画面窗口基于目标人物以及与目标人物交互的对象确定位置和尺寸大小,因此,根据视频画面窗口提取到的视频画面包括了目标人物的信息以及与目标人物交互的对象的信息,并避免了其他无关人物的信息呈现在视频画面中,一方面可以最大化地呈现出目标人物的信息,另一方面也避免呈现其他无关人物的信息,避免了隐私泄露问题。
本实施例中,在视频自动剪辑上强调突出了目标人物的信息,并且避免了隐私泄露问题,使得技术方案更具有实际的应用价值,提高了方案的可实现性。
上面对本申请实施例中的视频自动剪辑方法进行了描述,下面对本申请实施例中的视频自动剪辑装置进行描述,请参阅图4,本申请实施例中视频自动剪辑装置一个实施例包括:
计算单元401,用于计算至少一路视频中的每一视频帧的目标人物的脸部姿态信息,计算所述脸部姿态信息对应的姿态信息量化值,计算所述每一视频帧的光流能量变化值;
确定单元402,用于将任一路视频中的任一视频帧作为当前视频帧;
剪辑单元403,用于基于强化学习算法,根据当前视频帧的姿态信息量化值和光流能量变化值计算在所述当前视频帧下的动作的回报值,将最大回报值对应的候选视频帧确定为所述当前视频帧的下一视频帧,将所述当前视频帧的下一视频帧作为新的当前视频帧,并返回执行所述基于强化学习算法,根据当前视频帧的姿态信息量化值和光流能量变化值计算在所述当前视频帧下的动作的回报值的步骤;其中,所述动作为分别从所述至少一路视频的每一路视频中选择一个候选视频帧;
生成单元404,用于根据当前视频帧的先后确定顺序确定视频帧序列,基于所述视频帧序列得到初始合成视频;
所述确定单元402还用于根据所述目标人物在所述初始合成视频中的每一帧的位置和尺寸大小,确定所述初始合成视频中的每一帧的视频画面窗口的位置和尺寸大小;
提取单元405,用于基于所述视频画面窗口的位置和尺寸大小提取所述初始合成视频中的每一帧的视频画面,得到目标合成视频。
本实施例一种优选的实施方式中,计算单元401具体用于根据人脸姿态估计算法计算所述每一视频帧的目标人物的脸部姿态信息,所述脸部姿态信息包括俯仰角的角度、偏航角的角度以及旋转角的角度。
本实施例一种优选的实施方式中,计算单元401具体用于使用多元高斯模型计算所述脸部姿态信息对应的所述姿态信息量化值。
本实施例一种优选的实施方式中,计算单元401具体用于计算所述每一视频帧的光流信息以及与所述每一视频帧属于同一路视频的其他视频帧的光流信息;根据所述每一视频帧的光流信息计算所述每一视频帧的光流能量,根据所述其他视频帧的光流信息计算所述其他视频帧的光流能量,计算所述每一视频帧与所述其他视频帧的光流能量差值以及所述每一视频帧与所述其他视频帧的间隔时间;将所述光流能量差值与所述间隔时间的商作为所述每一视频帧的光流能量变化值。
本实施例一种优选的实施方式中,剪辑单元403具体用于确定所述动作下所述当前视频帧到所述候选视频帧的转移概率;根据所述当前视频帧的姿态信息量化值和光流能量变化值计算在所述当前视频帧下的动作的初始回报值;将所述初始回报值与所述转移概率的乘积作为所述回报值。
本实施例一种优选的实施方式中,剪辑单元403具体用于当满足预设条件时,确定所述转移概率为1;当不满足所述预设条件中的任一项时,确定所述转移概率为0;
其中,所述预设条件包括:所述当前视频帧与所述候选视频帧在时间线上相邻、所述目标人物存在于所述候选视频帧的画面中、所述动作对应的视频索引与所述候选视频帧在所述至少一路视频中的索引一致。
本实施例一种优选的实施方式中,确定单元402具体用于根据所述目标人物在所述初始合成视频中的每一帧的脸部姿态信息确定所述目标人物在所述初始合成视频中的每一帧的视线方向;根据所述目标人物在所述初始合成视频中的每一帧的视线方向确定所述目标人物在所述初始合成视频中的每一帧的位置和尺寸大小;根据所述目标人物在所述初始合成视频中的每一帧的位置和尺寸大小,确定所述初始合成视频中的每一帧的视频画面窗口的位置和尺寸大小。
本实施例中,视频自动剪辑装置中各单元所执行的操作与前述图1至图2所示实施例中描述的类似,此处不再赘述。
本实施例中,计算单元401计算每一视频帧的目标人物的脸部姿态信息量化值以及光流能量变化值,剪辑单元403将计算得到的姿态信息量化值以及光流能量变化值应用于强化学习算法中对动作的回报值的计算,并将最大回报值对应的候选视频帧确定为当前视频帧的下一视频帧,将当前视频帧的下一视频帧作为新的当前视频帧,返回执行计算在当前视频帧下的动作的回报值的步骤,从而使得每一次从至少一路视频中确定出的视频帧均能最大化地呈现目标人物的信息以及避免呈现出目标人物被遮挡的画面。同时,确定单元402基于目标人物在视频帧中的位置和尺寸大小确定视频画面窗口,提取单元405根据视频画面窗口提取出关于目标人物的视频画面,使得最终合成的视频最大化地呈现有关于目标人物的信息,以及避免呈现出其他无关人物的信息。
下面对本申请实施例中的视频自动剪辑装置进行描述,请参阅图5,本申请实施例中视频自动剪辑装置一个实施例包括:
该视频自动剪辑装置500可以包括一个或一个以上中央处理器(centralprocessing units,CPU)501和存储器505,该存储器505中存储有一个或一个以上的应用程序或数据。
其中,存储器505可以是易失性存储或持久存储。存储在存储器505的程序可以包括一个或一个以上模块,每个模块可以包括对视频自动剪辑装置中的一系列指令操作。更进一步地,中央处理器501可以设置为与存储器505通信,在视频自动剪辑装置500上执行存储器505中的一系列指令操作。
视频自动剪辑装置500还可以包括一个或一个以上电源502,一个或一个以上有线或无线网络接口503,一个或一个以上输入输出接口504,和/或,一个或一个以上操作系统,例如Windows ServerTM,Mac OS XTM,UnixTM,LinuxTM,FreeBSDTM等。
该中央处理器501可以执行前述图1至图2所示实施例中视频自动剪辑装置所执行的操作,具体此处不再赘述。
本申请实施例还提供了一种计算机存储介质,其中一个实施例包括:该计算机存储介质中存储有指令,该指令在计算机上执行时,使得该计算机执行前述图1至图2所示实施例中视频自动剪辑装置所执行的操作。
所属领域的技术人员可以清楚地了解到,为描述的方便和简洁,上述描述的系统,装置和单元的具体工作过程,可以参考前述方法实施例中的对应过程,在此不再赘述。
在本申请所提供的几个实施例中,应该理解到,所揭露的系统,装置和方法,可以通过其它的方式实现。例如,以上所描述的装置实施例仅仅是示意性的,例如,所述单元的划分,仅仅为一种逻辑功能划分,实际实现时可以有另外的划分方式,例如多个单元或组件可以结合或者可以集成到另一个系统,或一些特征可以忽略,或不执行。另一点,所显示或讨论的相互之间的耦合或直接耦合或通信连接可以是通过一些接口,装置或单元的间接耦合或通信连接,可以是电性,机械或其它的形式。
所述作为分离部件说明的单元可以是或者也可以不是物理上分开的,作为单元显示的部件可以是或者也可以不是物理单元,即可以位于一个地方,或者也可以分布到多个网络单元上。可以根据实际的需要选择其中的部分或者全部单元来实现本实施例方案的目的。
另外,在本申请各个实施例中的各功能单元可以集成在一个处理单元中,也可以是各个单元单独物理存在,也可以两个或两个以上单元集成在一个单元中。上述集成的单元既可以采用硬件的形式实现,也可以采用软件功能单元的形式实现。
所述集成的单元如果以软件功能单元的形式实现并作为独立的产品销售或使用时,可以存储在一个计算机可读取存储介质中。基于这样的理解,本申请的技术方案本质上或者说对现有技术做出贡献的部分或者该技术方案的全部或部分可以以软件产品的形式体现出来,该计算机软件产品存储在一个存储介质中,包括若干指令用以使得一台计算机设备(可以是个人计算机,服务器,或者网络设备等)执行本申请各个实施例所述方法的全部或部分步骤。而前述的存储介质包括:U盘、移动硬盘、只读存储器(ROM,read-onlymemory)、随机存取存储器(RAM,random access memory)、磁碟或者光盘等各种可以存储程序代码的介质。

Claims (10)

1.一种视频自动剪辑方法,其特征在于,所述方法包括:
计算至少一路视频中的每一视频帧的目标人物的脸部姿态信息,计算所述脸部姿态信息对应的姿态信息量化值,计算所述每一视频帧的光流能量变化值;
将任一路视频中的任一视频帧作为当前视频帧;
基于强化学习算法,根据当前视频帧的姿态信息量化值和光流能量变化值计算在所述当前视频帧下的动作的回报值,将最大回报值对应的候选视频帧确定为所述当前视频帧的下一视频帧,将所述当前视频帧的下一视频帧作为新的当前视频帧,并返回执行所述基于强化学习算法,根据当前视频帧的姿态信息量化值和光流能量变化值计算在所述当前视频帧下的动作的回报值的步骤;其中,所述动作为分别从所述至少一路视频的每一路视频中选择一个候选视频帧;
根据当前视频帧的先后确定顺序确定视频帧序列,基于所述视频帧序列得到初始合成视频;
根据所述目标人物在所述初始合成视频中的每一帧的位置和尺寸大小,确定所述初始合成视频中的每一帧的视频画面窗口的位置和尺寸大小;
基于所述视频画面窗口的位置和尺寸大小提取所述初始合成视频中的每一帧的视频画面,得到目标合成视频。
2.根据权利要求1所述的方法,其特征在于,所述计算至少一路视频中的每一视频帧的目标人物的脸部姿态信息,包括:
根据人脸姿态估计算法计算所述每一视频帧的目标人物的脸部姿态信息,所述脸部姿态信息包括俯仰角的角度、偏航角的角度以及旋转角的角度。
3.根据权利要求1所述的方法,其特征在于,所述计算所述脸部姿态信息对应的姿态信息量化值,包括:
使用多元高斯模型计算所述脸部姿态信息对应的所述姿态信息量化值。
4.根据权利要求1所述的方法,其特征在于,所述计算所述每一视频帧的光流能量变化值,包括:
计算所述每一视频帧的光流信息以及与所述每一视频帧属于同一路视频的其他视频帧的光流信息;
根据所述每一视频帧的光流信息计算所述每一视频帧的光流能量,根据所述其他视频帧的光流信息计算所述其他视频帧的光流能量,计算所述每一视频帧与所述其他视频帧的光流能量差值以及所述每一视频帧与所述其他视频帧的间隔时间;
将所述光流能量差值与所述间隔时间的商作为所述每一视频帧的光流能量变化值。
5.根据权利要求1所述的方法,其特征在于,所述根据当前视频帧的姿态信息量化值和光流能量变化值计算在所述当前视频帧下的动作的回报值,包括:
确定所述动作下所述当前视频帧到所述候选视频帧的转移概率;
根据所述当前视频帧的姿态信息量化值和光流能量变化值计算在所述当前视频帧下的动作的初始回报值;
将所述初始回报值与所述转移概率的乘积作为所述回报值。
6.根据权利要求5所述的方法,其特征在于,所述确定所述动作下所述当前视频帧到所述候选视频帧的转移概率,包括:
当满足预设条件时,确定所述转移概率为1;当不满足所述预设条件中的任一项时,确定所述转移概率为0;
其中,所述预设条件包括:所述当前视频帧与所述候选视频帧在时间线上相邻、所述目标人物存在于所述候选视频帧的画面中、所述动作对应的视频索引与所述候选视频帧在所述至少一路视频中的索引一致。
7.根据权利要求1所述的方法,其特征在于,所述根据所述目标人物在所述初始合成视频中的每一帧的位置和尺寸大小,确定所述初始合成视频中的每一帧的视频画面窗口的位置和尺寸大小,包括:
根据所述目标人物在所述初始合成视频中的每一帧的脸部姿态信息确定所述目标人物在所述初始合成视频中的每一帧的视线方向;
根据所述目标人物在所述初始合成视频中的每一帧的视线方向确定所述目标人物在所述初始合成视频中的每一帧的位置和尺寸大小;
根据所述目标人物在所述初始合成视频中的每一帧的位置和尺寸大小,确定所述初始合成视频中的每一帧的视频画面窗口的位置和尺寸大小。
8.一种视频自动剪辑装置,其特征在于,所述装置包括:
计算单元,用于计算至少一路视频中的每一视频帧的目标人物的脸部姿态信息,计算所述脸部姿态信息对应的姿态信息量化值,计算所述每一视频帧的光流能量变化值;
确定单元,用于将任一路视频中的任一视频帧作为当前视频帧;
剪辑单元,用于基于强化学习算法,根据当前视频帧的姿态信息量化值和光流能量变化值计算在所述当前视频帧下的动作的回报值,将最大回报值对应的候选视频帧确定为所述当前视频帧的下一视频帧,将所述当前视频帧的下一视频帧作为新的当前视频帧,并返回执行所述基于强化学习算法,根据当前视频帧的姿态信息量化值和光流能量变化值计算在所述当前视频帧下的动作的回报值的步骤;其中,所述动作为分别从所述至少一路视频的每一路视频中选择一个候选视频帧;
生成单元,用于根据当前视频帧的先后确定顺序确定视频帧序列,基于所述视频帧序列得到初始合成视频;
所述确定单元还用于根据所述目标人物在所述初始合成视频中的每一帧的位置和尺寸大小,确定所述初始合成视频中的每一帧的视频画面窗口的位置和尺寸大小;
提取单元,用于基于所述视频画面窗口的位置和尺寸大小提取所述初始合成视频中的每一帧的视频画面,得到目标合成视频。
9.一种视频自动剪辑装置,其特征在于,所述装置包括:
存储器,用于存储计算机程序;处理器,用于在执行所述计算机程序时实现如权利要求1至7任一项所述的视频自动剪辑方法的步骤。
10.一种计算机存储介质,其特征在于,所述计算机存储介质中存储有指令,所述指令在计算机上执行时,使得所述计算机执行如权利要求1至7中任一项所述的方法。
CN202110321530.6A 2021-03-25 2021-03-25 视频自动剪辑方法、装置及计算机存储介质 Active CN113038271B (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN202110321530.6A CN113038271B (zh) 2021-03-25 2021-03-25 视频自动剪辑方法、装置及计算机存储介质

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN202110321530.6A CN113038271B (zh) 2021-03-25 2021-03-25 视频自动剪辑方法、装置及计算机存储介质

Publications (2)

Publication Number Publication Date
CN113038271A CN113038271A (zh) 2021-06-25
CN113038271B true CN113038271B (zh) 2023-09-08

Family

ID=76473798

Family Applications (1)

Application Number Title Priority Date Filing Date
CN202110321530.6A Active CN113038271B (zh) 2021-03-25 2021-03-25 视频自动剪辑方法、装置及计算机存储介质

Country Status (1)

Country Link
CN (1) CN113038271B (zh)

Citations (10)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN106534967A (zh) * 2016-10-25 2017-03-22 司马大大(北京)智能系统有限公司 视频剪辑方法及装置
CN108805080A (zh) * 2018-06-12 2018-11-13 上海交通大学 基于上下文的多层次深度递归网络群体行为识别方法
EP3410353A1 (en) * 2017-06-01 2018-12-05 eyecandylab Corp. Method for estimating a timestamp in a video stream and method of augmenting a video stream with information
CN109618184A (zh) * 2018-12-29 2019-04-12 北京市商汤科技开发有限公司 视频处理方法及装置、电子设备和存储介质
CN110691202A (zh) * 2019-08-28 2020-01-14 咪咕文化科技有限公司 视频剪辑方法、装置及计算机存储介质
CN111063011A (zh) * 2019-12-16 2020-04-24 北京蜜莱坞网络科技有限公司 一种人脸图像处理方法、装置、设备和介质
CN111131884A (zh) * 2020-01-19 2020-05-08 腾讯科技(深圳)有限公司 一种视频剪辑的方法、相关装置、设备以及存储介质
CN111294524A (zh) * 2020-02-24 2020-06-16 中移(杭州)信息技术有限公司 视频剪辑方法、装置、电子设备及存储介质
CN111800644A (zh) * 2020-07-14 2020-10-20 深圳市人工智能与机器人研究院 一种视频分享、获取方法、服务器、终端设备及介质
CN112203115A (zh) * 2020-10-10 2021-01-08 腾讯科技(深圳)有限公司 一种视频识别方法和相关装置

Family Cites Families (5)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
TWI430185B (zh) * 2010-06-17 2014-03-11 Inst Information Industry 臉部表情辨識系統及其辨識方法及其電腦程式產品
JP5569329B2 (ja) * 2010-10-15 2014-08-13 大日本印刷株式会社 会議システム、監視システム、画像処理装置、画像処理方法及び画像処理プログラム等
US20150318020A1 (en) * 2014-05-02 2015-11-05 FreshTake Media, Inc. Interactive real-time video editor and recorder
GB2583676B (en) * 2018-01-18 2023-03-29 Gumgum Inc Augmenting detected regions in image or video data
JP2022536030A (ja) * 2019-06-03 2022-08-12 エヌビディア コーポレーション ビデオ分析アプリケーションにおける相関フィルタを使用した複数物体追跡

Patent Citations (10)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN106534967A (zh) * 2016-10-25 2017-03-22 司马大大(北京)智能系统有限公司 视频剪辑方法及装置
EP3410353A1 (en) * 2017-06-01 2018-12-05 eyecandylab Corp. Method for estimating a timestamp in a video stream and method of augmenting a video stream with information
CN108805080A (zh) * 2018-06-12 2018-11-13 上海交通大学 基于上下文的多层次深度递归网络群体行为识别方法
CN109618184A (zh) * 2018-12-29 2019-04-12 北京市商汤科技开发有限公司 视频处理方法及装置、电子设备和存储介质
CN110691202A (zh) * 2019-08-28 2020-01-14 咪咕文化科技有限公司 视频剪辑方法、装置及计算机存储介质
CN111063011A (zh) * 2019-12-16 2020-04-24 北京蜜莱坞网络科技有限公司 一种人脸图像处理方法、装置、设备和介质
CN111131884A (zh) * 2020-01-19 2020-05-08 腾讯科技(深圳)有限公司 一种视频剪辑的方法、相关装置、设备以及存储介质
CN111294524A (zh) * 2020-02-24 2020-06-16 中移(杭州)信息技术有限公司 视频剪辑方法、装置、电子设备及存储介质
CN111800644A (zh) * 2020-07-14 2020-10-20 深圳市人工智能与机器人研究院 一种视频分享、获取方法、服务器、终端设备及介质
CN112203115A (zh) * 2020-10-10 2021-01-08 腾讯科技(深圳)有限公司 一种视频识别方法和相关装置

Non-Patent Citations (1)

* Cited by examiner, † Cited by third party
Title
人脸自动识别方法综述;李刚等;《计算机应用研究》;20030828(第08期);全文 *

Also Published As

Publication number Publication date
CN113038271A (zh) 2021-06-25

Similar Documents

Publication Publication Date Title
US11776131B2 (en) Neural network for eye image segmentation and image quality estimation
US11249557B2 (en) Methods and systems for controlling a device using hand gestures in multi-user environment
Zhang et al. Deep future gaze: Gaze anticipation on egocentric videos using adversarial networks
US10354159B2 (en) Methods and software for detecting objects in an image using a contextual multiscale fast region-based convolutional neural network
US10929648B2 (en) Apparatus and method for data processing
US20130169530A1 (en) Human eye controlled computer mouse interface
WO2018076622A1 (zh) 图像处理方法、装置及终端
TW202141340A (zh) 圖像處理方法、電子設備和電腦可讀儲存介質
CN110443230A (zh) 人脸融合方法、装置以及电子设备
CN112527115B (zh) 用户形象生成方法、相关装置及计算机程序产品
US20210158593A1 (en) Pose selection and animation of characters using video data and training techniques
US12106606B2 (en) Method for determining the direction of gaze based on adversarial optimization
CN114399424B (zh) 模型训练方法及相关设备
CN113553905B (zh) 图像识别方法、装置及系统
Lemley et al. Eye tracking in augmented spaces: A deep learning approach
JP2023543964A (ja) 画像処理方法、画像処理装置、電子機器、記憶媒体およびコンピュータプログラム
CN112714337A (zh) 视频处理方法、装置、电子设备和存储介质
US20230290029A1 (en) Generation of virtual idol
JP7414902B2 (ja) 顔生体検出方法、装置、電子機器及び記憶媒体
CN111583280A (zh) 图像处理方法、装置、设备及计算机可读存储介质
CN113038271B (zh) 视频自动剪辑方法、装置及计算机存储介质
CN115268285A (zh) 设备控制方法、装置、电子设备以及存储介质
CN117455989A (zh) 室内场景slam追踪方法、装置、头戴式设备及介质
CN114461078A (zh) 一种基于人工智能的人机交互方法
CN110266937A (zh) 终端设备及摄像头的控制方法

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
GR01 Patent grant
GR01 Patent grant