[go: up one dir, main page]

CN112188202A - 基于神经网络的自学习视频编解码技术 - Google Patents

基于神经网络的自学习视频编解码技术 Download PDF

Info

Publication number
CN112188202A
CN112188202A CN201910585090.8A CN201910585090A CN112188202A CN 112188202 A CN112188202 A CN 112188202A CN 201910585090 A CN201910585090 A CN 201910585090A CN 112188202 A CN112188202 A CN 112188202A
Authority
CN
China
Prior art keywords
neural network
video
training data
decoding
data unit
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Pending
Application number
CN201910585090.8A
Other languages
English (en)
Inventor
何刚
李云松
沈八中
蒋昊
吴畅
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Xidian University
Original Assignee
Xidian University
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Xidian University filed Critical Xidian University
Priority to CN201910585090.8A priority Critical patent/CN112188202A/zh
Publication of CN112188202A publication Critical patent/CN112188202A/zh
Pending legal-status Critical Current

Links

Images

Classifications

    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04NPICTORIAL COMMUNICATION, e.g. TELEVISION
    • H04N19/00Methods or arrangements for coding, decoding, compressing or decompressing digital video signals
    • H04N19/10Methods or arrangements for coding, decoding, compressing or decompressing digital video signals using adaptive coding
    • H04N19/169Methods or arrangements for coding, decoding, compressing or decompressing digital video signals using adaptive coding characterised by the coding unit, i.e. the structural portion or semantic portion of the video signal being the object or the subject of the adaptive coding
    • H04N19/17Methods or arrangements for coding, decoding, compressing or decompressing digital video signals using adaptive coding characterised by the coding unit, i.e. the structural portion or semantic portion of the video signal being the object or the subject of the adaptive coding the unit being an image region, e.g. an object
    • H04N19/172Methods or arrangements for coding, decoding, compressing or decompressing digital video signals using adaptive coding characterised by the coding unit, i.e. the structural portion or semantic portion of the video signal being the object or the subject of the adaptive coding the unit being an image region, e.g. an object the region being a picture, frame or field
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/08Learning methods
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06TIMAGE DATA PROCESSING OR GENERATION, IN GENERAL
    • G06T5/00Image enhancement or restoration
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04NPICTORIAL COMMUNICATION, e.g. TELEVISION
    • H04N19/00Methods or arrangements for coding, decoding, compressing or decompressing digital video signals
    • H04N19/42Methods or arrangements for coding, decoding, compressing or decompressing digital video signals characterised by implementation details or hardware specially adapted for video compression or decompression, e.g. dedicated software implementation

Landscapes

  • Engineering & Computer Science (AREA)
  • Physics & Mathematics (AREA)
  • Theoretical Computer Science (AREA)
  • Multimedia (AREA)
  • Signal Processing (AREA)
  • General Physics & Mathematics (AREA)
  • Data Mining & Analysis (AREA)
  • Molecular Biology (AREA)
  • Biophysics (AREA)
  • Computational Linguistics (AREA)
  • Artificial Intelligence (AREA)
  • Evolutionary Computation (AREA)
  • General Health & Medical Sciences (AREA)
  • Biomedical Technology (AREA)
  • Computing Systems (AREA)
  • General Engineering & Computer Science (AREA)
  • Life Sciences & Earth Sciences (AREA)
  • Mathematical Physics (AREA)
  • Software Systems (AREA)
  • Health & Medical Sciences (AREA)
  • Compression Or Coding Systems Of Tv Signals (AREA)

Abstract

本公开涉及一种基于神经网络的自学习视频编解码技术。其介绍如下:视频编码装置中的第一编码模块对目标视频进行压缩编码获得对应的第一码流数据和重建图像,并将第一码流数据发送至视频解码装置;视频编码装置中的第二编码模块用于以目标视频所对应的原始视频帧为标签、重建图像为输入,训练学习得到对应目标视频的修复神经网络,并获取对应的神经网络信息、发送至视频解码装置;视频解码装置中的第一解码模块基于第一码流数据进行解码得到重建图像;视频解码装置中的第二解码模块根据神经网络信息构建的修复神经网络对重建图像进行修复,得到目标视频的修复视频作为最终的解码输出。本公开实施例所提供的视频编解码技术,压缩效率高、兼容性好。

Description

基于神经网络的自学习视频编解码技术
技术领域
本公开涉及计算机技术领域,尤其涉及一种基于自学习神经网络的视频编码装置、解码装置及编解码系统。
背景技术
数字视频是目前人们获取信息最便捷、直观的载体,也是最完整的信息记录、存储途径之一。数字视频无论在生活娱乐还是军事、航天、医疗等各个方面都起到了不可替代的作用。目前视频应用占据了互联网过半的流量,与此同时,人们对于视频质量的要求也越来越高。代表着更完美感官体验的高分辨率、高帧率、高动态范围视频需求强烈,2K、4K等超高清视频标准应运而生。对视频进行编解码是节省带宽、降低存储空间的必要手段。相关技术中,对视频进行压缩的方式存在压缩效率低、与已有的编解码标准难以兼容等问题。
发明内容
有鉴于此,本公开提出了一种基于自学习神经网络的视频编码装置、解码装置及编解码系统。
根据本公开的一方面,提供了一种基于自学习神经网络的视频编码装置,所述装置包括:
第一编码模块,用于对目标视频进行压缩编码,获得对应所述目标视频的第一码流数据和重建图像,并将所述第一码流数据发送至视频解码装置;
第二编码模块,用于以所述目标视频所对应的原始视频帧为标签、所述重建图像为输入,进行神经网络训练学习,得到对应所述目标视频的修复神经网络,并获取对应所述修复神经网络的神经网络信息,将所述神经网络信息发送至视频解码装置,以使所述视频解码装置根据所述神经网络信息构建的修复神经网络,对所述第一码流数据解码得到的重建图像进行修复,得到所述目标视频的修复视频,
其中,所述神经网络信息包括所述修复神经网络的网络参数。
在一种可能的实现方式中,所述第二编码模块,包括:
训练数据组织子模块,用于对所述目标视频的原始视频帧和重建图像数据依次进行划分,组织成为多个训练数据单元,每个训练数据单元包括n个原始视频帧和对应的n个重建图像,n为大于零的实数;
训练子模块,用于根据每个训练数据单元进行神经网络训练学习,获得对应的每个训练数据单元的修复神经网络,并将各个修复神经网络的神经网络信息发送至视频解码装置。
在一种可能的实现方式中,所述训练子模块具体用于:
以第i个训练数据单元的原始视频帧为标签,对应于第i个训练数据单元的原始视频帧的重建图像为输入,进行神经网络训练学习,得到对应于所述第i个训练数据单元的修复神经网络,i为正整数。
在一种可能的实现方式中,所述第二编码模块,包括:
信息压缩子模块,用于在将所述神经网络信息发送至视频解码装置之前,采用预设的压缩方式对所述神经网络信息进行压缩,
其中,所述压缩方式包括以下任一种:无损压缩和有损压缩。
在一种可能的实现方式中,所述第一编码模块包括编码器,所述神经网络信息还包括所述修复神经网络的网络结构和/或对应的训练数据单元的数据单元信息。
根据本公开的另一方面,提供了一种基于自学习神经网络的视频解码装置,所述装置包括:
第一解码模块,用于对接收到的视频编码装置发送的第一码流数据进行解码,得到对应目标视频的重建图像;
第二解码模块,用于根据接收到的所述视频编码装置发送的神经网络信息构建针对所述目标视频的修复神经网络,根据所述修复神经网络对所述重建图像进行修复,得到所述目标视频的修复视频,
其中,所述神经网络信息包括所述修复神经网络的网络参数,
所述修复神经网络是所述视频编码装置以所述目标视频的原始视频帧为标签、对应所述原始视频帧的重建图像为输入进行神经网络训练学习得到的。
在一种可能的实现方式中,所述目标视频的修复神经网络包括多个,每个修复神经网络对应于所述目标视频的一个训练数据单元所述训练数据单元中包括n个所述原始视频帧和对应的n个重建图像,n为大于零的实数,
其中,所述第二解码模块,包括:
网络构建子模块,用于根据针对第i个训练数据单元的神经网络信息,构建对应于所述第i个训练数据单元的修复神经网络,i为正整数。
在一种可能的实现方式中,所述第二解码模块,还包括:
修复子模块,根据所述第i个训练数据单元的修复神经网络,对与所述第i个训练数据单元相对应的重建图像进行修复。
在一种可能的实现方式中,所述第二解码模块,包括:
信息解压子模块,用于根据预设的压缩方式,对所述神经网络信息进行解压,
其中,所述压缩方式包括以下任一种:无损压缩和有损压缩。
在一种可能的实现方式中,所述第一解码模块包括解码器,所述神经网络信息还包括所述修复神经网络的网络结构和/或对应的训练数据单元的数据单元信息。
根据本公开的另一方面,提供了一种基于自学习神经网络的视频编解码系统,所述系统包括上述基于自学习神经网络的视频编码装置和上述基于自学习神经网络的视频解码装置。
本公开实施例所提供的基于自学习神经网络的视频编码装置、解码装置及编解码系统,视频编码装置中的第一编码模块对目标视频进行压缩编码获得对应的第一码流数据和重建图像、并发送至视频解码装置;视频编码装置中的第二编码模块用于以目标视频所对应的原始视频帧为标签、重建图像为输入,训练得到对应目标视频的修复神经网络,并获取对应修复神经网络的神经网络信息、发送至视频解码装置,以使视频解码装置中的第二解码模块根据神经网络信息构建的修复神经网络,并根据修复神经网络对视频解码装置中的第一解码模块基于第一码流数据进行解码得到的重建图像进行修复,得到目标视频的修复视频。本公开实施例所提供的基于自学习神经网络的视频编码装置、解码装置及编解码系统,进行视频压缩的效率高,与已有编解码标准的兼容性好。
根据下面参考附图对示例性实施例的详细说明,本公开的其它特征及方面将变得清楚。
附图说明
包含在说明书中并且构成说明书的一部分的附图与说明书一起示出了本公开的示例性实施例、特征和方面,并且用于解释本公开的原理。
图1示出根据本公开一实施例的基于自学习神经网络的视频编解码系统的结构示意图。
图2示出根据本公开一实施例的基于自学习神经网络的视频编解码系统的应用场景的示意图。
具体实施方式
以下将参考附图详细说明本公开的各种示例性实施例、特征和方面。附图中相同的附图标记表示功能相同或相似的元件。尽管在附图中示出了实施例的各种方面,但是除非特别指出,不必按比例绘制附图。
在这里专用的词“示例性”意为“用作例子、实施例或说明性”。这里作为“示例性”所说明的任何实施例不必解释为优于或好于其它实施例。
另外,为了更好的说明本公开,在下文的具体实施方式中给出了众多的具体细节。本领域技术人员应当理解,没有某些具体细节,本公开同样可以实施。在一些实例中,对于本领域技术人员熟知的方法、手段、元件和电路未作详细描述,以便于凸显本公开的主旨。
视频编解码技术的本质目标在于保持数字视频图像信息准确的前提下,尽可能压缩文件的体积,从而在有限空间与带宽下使得数据的存储与传输变得可行。数字视频由一系列连续的帧组成,无论是在图像平面空间上还是在时间延续上,帧图像的内容都不是突变的,时空相邻的像素具有较强的相关性。即,原始的数字视频中其实记录了大量的重复(冗余)信息。根据这一点,我们可以根据已知的某个时间、图像上某个位置的画面,来预测前后相邻时间以及空间的其他图像的值;在此基础上,我们只需要记录预测的误差,而并不需要记录完整的像素值。原理上就是消除这种分布在临近时空上的信息冗余,实现信息压缩。相关技术中的视频编码器就是基于这样的原理而构建的。
目前,存在的视频编码标准包括ITU-T(ITU-T for ITU TelecommunicationStandardization Sector,国际电信联盟电信标准分局)的H.26x系列,MPEG(MovingPicture Experts Group,动态图像专家组)组织的MPEG-x系列,ITU-T/MPEG联合的标准系列,AVS(Audio Video coding Standard,信源编码标准)系列。当前,最新已公布并广泛应用的技术标准是ITU-T/MPEG联合的H.265/HEVC标准。此外,下一代最新的标准H.266/VVC也已经开始了其制定过程。
随着神经网络的深度学习获得的爆发性发展,将基于神经网络的深度学习技术和视频编码技术结合,来提高视频编码的压缩效率成为一个热门研究,将推动未来编解码标准技术发展。相关技术中,主要的神经网络优化编码方案,都是用神经网络替换或辅助传统编码器系统中的特定模块,通过编码器中某个模块的效率提升带来整体编码效率的提高。但是,对于已有的相关技术,存在以下问题:
一方面,相关技术中广泛应用的HEVC等主流标准技术方案能够对视频在一定程度上进行有效压缩编码。但是,从不断增长的数字视频造成大量传输带宽和存储空间的角度讲,都对更加有效的技术方案存在着巨大需求。并且,从当前这种传统编解码原理来说,存在很大的提升空间,因为当前的编解码架构,在预测模式和句法元素选择上,均是采用统计和人工设计的办法,也就是说信息提取和记忆均采用的手工模型。在人工智能发展迅速情况的当下,传统编解码在原理上已经显得不够合理或者说不够有效。
另一方面,相关技术中所提出的深度学习增强方案,主流均是希望通过神经网络实现传统编码器内部局部模块能力的提升;使用的方法较为类似,即通过训练一个通用的模块,内置进编码器中进行服务。提高的压缩效率有限,远达不到未来的使用需求。从技术思路来说,通过神经网络实现传统编码器内部局部模块能力的提升本质上还是要完全延续传统编解码结构,数字视频的压缩结果依然是传统编码器的熵编码后的码流。此外,这些算法改动会引起编码器内部改动和句法元素改动,与已有编解码标准存在难以兼容的问题。
图1示出根据本公开一实施例的基于自学习神经网络的视频编解码系统的结构示意图。如图1所示,该系统可以包括基于自学习神经网络的视频编码装置100和/或基于自学习神经网络的视频解码装置200。
本公开提供一种基于自学习神经网络的视频编码装置的框图。如图1所示,该视频编码装置包括第一编码模块11和第二编码模块12。
第一编码模块11,用于对目标视频进行压缩编码,获得对应目标视频的第一码流数据和重建图像,并将第一码流数据发送至视频解码装置200。
第二编码模块12,用于以目标视频所对应的原始视频帧VL为标签、重建图像VC为输入,进行神经网络训练学习,得到对应目标视频的修复神经网络,并获取对应修复神经网络的神经网络信息,将神经网络信息发送至视频解码装置200,以使视频解码装置200根据神经网络信息构建的修复神经网络,对第一码流数据解码得到的重建图像进行修复,得到目标视频的修复视频。其中,神经网络信息包括修复神经网络的网络参数。
在本实施例中,第二编码模块可以通过硬件实现、软件指令实现,也可以通过硬件与软件指令的相结合的方式实现,本公开对此不作限制。
在本实施例中,视频编码装置在向视频解码装置发送第一码流数据和神经网络信息时,可以将二者打包统一发送,也可以分别发送。第一编码模块和第二编码模块可以分别在对应的第一码流数据和神经网络信息中添加编号、名称等标识,以使得视频解码装置接收到第一码流数据和神经网络信息之后,可以根据二者所携带的标识确定其是否对应同一目标视频。
在本实施例中,第一编码模块可以选择基于H.26x系列如H.265/HEVC,H.264/AVC、AVS系列如AVS2,AVS+,AV1,VP9等视频压缩标准以及非视频压缩标准等的视频编码器进行视频编码,本公开对此不作限制。
本公开实施例所提供的基于自学习神经网络的视频编码装置,包括第一编码模块和第二编码模块。第一编码模块,用于对目标视频进行压缩编码,获得对应目标视频的第一码流数据和重建图像,并将第一码流数据发送至视频解码装置;第二编码模块用于以目标视频所对应的原始视频帧为标签、重建图像为输入,进行神经网络训练学习,得到对应目标视频的修复神经网络,并获取对应修复神经网络的神经网络信息,将神经网络信息发送至视频解码装置,以使视频解码装置根据神经网络信息构建的修复神经网络,对第一码流数据解码得到的重建图像进行修复,得到目标视频的修复视频。本公开实施例所提供的基于神经网络的视频编码装置,进行视频压缩的效率高,与已有编解码标准的兼容性好。由于该装置通过自学习修复神经网络对重建图像进行修复,与现有技术相比,在相同的码率下(或称文件大小相同、数据量大小相同),得到的压缩视频的质量高。也即,在相同的压缩视频质量要求下,本公开装置对目标视频进行编码后,与现有技术相比本公开的码率更小(或称文件更小、数据量更小)。
在一种可能的实现方式中,第一编码模块可以是独立的、能够对视频进行编码的装置,例如H.26x系列如H.265/HEVC,H.264/AVC、AVS系列如AVS2,AVS+,AV1,VP9等视频压缩标准的视频编码器以及非视频压缩标准的视频编码器、编码模块。这样,无需对编码器或编码模块已使用的编解码标准进行修改,提高了视频编码装置的兼容性,已有的编码器或编码模块通过复用即可以实现上述第一编码模块的功能。
在一种可能的实现方式中,第二编码模块12可以包括划分子模块和训练子模块。
训练数据组织子模块,用于对目标视频的原始视频帧和重建图像数据依次进行划分,组织成为多个训练数据单元,每个训练数据单元包括n个原始视频帧和对应的n个重建图像,n为大于零的实数。例如,某训练数据单元中可以包括1个原始视频帧以及对应的重建图像、1.25个原始视频帧以及对应的重建图像以及对应的重建图像、0.25个原始视频帧等。在n大于1时,多个原始视频帧在目标视频中的播放时间是相邻的,也即多个原始视频帧在目标视频中是连续的。
训练子模块,用于根据每个训练数据单元进行神经网络训练学习,获得对应的每个训练数据单元的修复神经网络,并将各个修复神经网络的神经网络信息发送至视频解码装置。
在一种可能的实现方式中,训练数据组织子模块可以具体用于:根据目标视频的视频信息,确定目标视频的划分帧数;根据划分帧数,将目标视频划分为多个训练数据单元。其中,视频信息可以包括以下至少一项:视频内容、视频场景信息、视频字幕信息。
在该实现方式中,训练数据组织子模块可以根据视频信息确定划分训练数据单元的划分帧数,进而对目标视频进行划分。对于不同的目标视频,其所对应的划分帧数可以相同,也可以不同。对于同一个目标视频,可以根据目标视频中不同视频帧对应的视频信息的不同,设置多个划分帧数,例如,某帧数为100帧的目标视频,可以为设置4个划分帧数10帧、20帧、30帧、40帧,将目标视频的第1帧-10帧原始视频帧以及对应的重建图像组织为训练数据单元1、目标视频的第11帧-30帧原始视频帧以及对应的重建图像组织为训练数据单元2、目标视频的第31帧-60帧原始视频帧以及对应的重建图像组织为训练数据单元3、目标视频的第61帧-100帧原始视频帧以及对应的重建图像组织为训练数据单元4。视频信息能够反映视频的内容复杂程度、场景变换的程度等。
在一种可能的实现方式中,训练子模块可以具体用于:以第i个训练数据单元的原始视频帧为标签、重建图像为输入,进行神经网络训练学习,得到对应于第i个训练数据单元的修复神经网络,i为正整数。
通过上述方式,将一个目标视频划分为多个训练数据单元,并为每个训练数据单元分别训练修复神经网络,可以提高视频解码装置的压缩效率,于现有技术相比,在相同码率下,所修复得到的修复视频的修复效果更好,其更接近于原始的目标视频。
在一种可能的实现方式中,第二编码模块中可以包括一个训练子模块,该训练子模块可以依次根据训练数据单元进行训练,每次训练进行针对一个训练数据单元。
在一种可能的实现方式中,第二编码模块中可以包括多个训练子模块,多个训练子模块可以并行,每个训练子模块进行一个训练数据单元的修复神经网络训练。这样,可以提高神经网络训练的速度,提高对目标视频进行编码的效率。
在一种可能的实现方式中,神经网络信息是用于描述修复神经网络的信息,根据神经网络信息可以构建出修复神经网络,神经网络信息还可以包括修复神经网络的网络结构和/或对应的训练数据单元的数据单元信息。
在该实现方式中,在视频解码装置已经预先确定修复神经网络的网络结构时,在进行神经网络信息传输的过程中,视频编码装置可以仅向视频解码装置发送修复神经网络的网络参数。在视频解码装置已经和视频解码装置预先确定每个训练数据单元中原始视频帧的划分帧数时,视频编码装置可以仅向视频解码装置发送修复神经网络的网络参数,否则,还需要向视频解码装置发送数据单元信息,以使得视频解码装置根据数据单元信息确定对应修复神经网络所对应的重建图像。
在一种可能的实现方式中,可以根据神经网络信息所占用的码率、以及第一编码模块的码率控制功能对装置进行数据传输过程中的码率进行控制,以保证按照用户预设的码率进行传输。例如,在固定的修复神经网络结构和固定的训练数据单元大小的情况下,可以确定需要第二编码模块的码率,再根据用户预设的码率,可以确定出第一编码器的码率要求,进而可以在第一编码器的工作中设置其码率参数达到控制,满足要求。
在一种可能的实现方式中,第二编码模块12可以包括信息压缩子模块。信息压缩子模块用于在将神经网络信息发送至视频解码装置之前,采用预设的压缩方式对神经网络信息进行压缩。其中,压缩方式可以包括以下任一种:无损压缩和有损压缩。
在该实现方式中,对神经网络信息进行压缩可以降低所需传输的数据量,进而提升对目标视频的编码速度。进行无损压缩可以采用哈夫曼编码、算数编码等编码方式实现,进行有损压缩可以采用剪枝、量化、精度削减(如将原32位浮点数表示的神经网络信息压缩为16位浮点数)等编码方式实现,本公开对此不作限制。
需要说明的是,尽管以上述实施例作为示例介绍了基于神经网络的视频编码装置如上,但本领域技术人员能够理解,本公开应不限于此。事实上,用户完全可根据个人喜好和/或实际应用场景灵活设定各模块,只要符合本公开的技术方案即可。
本公开还提供一种基于神经网络的视频解码装置,该视频解码装置用于接收上述视频编码装置所发出的神经网络信息和第一码流数据。如图1所示,该视频解码装置200包括第一解码模块21、第二解码模块22。
第一解码模块21,用于对接收到的视频编码装置发送的第一码流数据进行解码,得到对应目标视频的重建图像。
第二解码模块22,用于根据接收到的视频编码装置发送的神经网络信息构建针对目标视频的修复神经网络,根据修复神经网络对重建图像进行修复,得到目标视频的修复视频。
其中,神经网络信息包括修复神经网络的网络参数。修复神经网络是视频编码装置以目标视频的原始视频帧为标签、对应原始视频帧的重建图像为输入进行神经网络训练学习得到的。
在一种可能的实现方式中,神经网络信息是用于描述修复神经网络的信息,根据神经网络信息可以构建出修复神经网络,神经网络信息还可以包括修复神经网络的网络结构和/或对应的训练数据单元的数据单元信息。
在本实施例中,第二解码模块可以通过硬件实现、软件指令实现,也可以通过硬件与软件指令的结合实现,本公开对此不作限制。
在本实施例中,第一解码模块可以基于H.26x系列如H.265/HEVC,H.264/AVC、AVS系列如AVS2,AVS+,AV1,VP9等视频压缩标准以及非视频压缩标准进行视频解码,本公开对此不作限制。
在一种可能的实现方式中,第一解码模块可以是独立的、能够对视频进行解码的装置,第一解码模块可以选择基于H.26x系列如H.265/HEVC,H.264/AVC、AVS系列如AVS2,AVS+,AV1,VP9等视频压缩标准的视频解码器以及非视频压缩标准的视频解码器、解码模块。这样,无需对解码器或解码模块已使用的编解码标准进行修改,提高了视频编码装置的兼容性,已有的解码器或解码模块通过复用即可以实现上述第一解码模块的功能。
在一种可能的实现方式中,目标视频的修复神经网络包括多个,每个修复神经网络对应于目标视频的一个训练数据单元,训练数据单元中包括n个原始视频帧和对应的n个重建图像,n为大于零的实数。第二解码模块22可以包括网络构建子模块。
网络构建子模块用于根据针对第i个训练数据单元的神经网络信息,构建对应于第i个训练数据单元的修复神经网络,i为正整数。
在一种可能的实现方式中,第二解码模块还可以包括修复子模块。修复子模块,根据第i个训练数据单元的修复神经网络,对与第i个训练数据单元相对应的重建图像进行修复。
在该实现方式中,修复子模块可以根据构建修复神经网络所利用的神经网络信息的标识、接收顺序等确定其所对应的训练数据单元、以及其所对应的重建图像,进而根据修复神经网络对确定的重建图像进行修复得到修复图像,形成对应该训练数据单元的修复视频。
在一种可能的实现方式中,第二解码模块可以包括信息解压子模块。信息解压子模块用于根据预设的压缩方式,对神经网络信息进行解压,其中,压缩方式可以包括以下任一种:无损压缩和有损压缩。
在该实现方式中,信息解压子模块可以根据接收到的神经网络信息的压缩方式,采用对应的解压方式对神经网络信息进行解压。
需要说明的是,尽管以上述实施例作为示例介绍了基于神经网络的视频解码装置如上,但本领域技术人员能够理解,本公开应不限于此。事实上,用户完全可根据个人喜好和/或实际应用场景灵活设定各模块,只要符合本公开的技术方案即可。
本公开实施例所提供的基于神经网络的视频解码装置,进行视频压缩的效率高,与已有编解码标准的兼容性。
应用示例
以下结合“通过基于神经网络的视频编解码系统进行视频编解码”作为一个示例性应用场景,给出根据本公开实施例的应用示例,以便于理解上述基于神经网络的视频编解码系统、视频编码装置及视频解码装置的工作过程与原理。本领域技术人员应理解,以下应用示例仅仅是出于便于理解本公开实施例的目的,不应视为对本公开实施例的限制。
图2示出根据本公开一实施例的基于神经网络的视频编解码系统的应用场景的示意图。如图2所示,在该系统中,视频编码装置100中的第一编码模块为编码器11,视频解码装置200中的第一解码模块为解码器21。
假定在视频编码装置和视频解码装置中进行传输的目标视频A为包含100个原始视频帧的视频。那么,系统的执行过程如下。
视频编码装置100侧:
第二编码模块12,先根据目标视频的视频信息确定划分帧数,假定确定的划分帧数为50帧,将目标视频的原始视频帧和重建图像划分为第一训练数据单元(对应的帧数为第1帧-第50帧)和第二训练数据单元(对应的帧数为第51帧-第100帧)。
编码器11对目标视频进行编码,得到对应的重建图像和第一码流数据,并对第一训练数据单元、第二训练数据单元所对应的第一码流数据进行标记,并在标记后依次发送至视频解码装置200。
第二编码模块12,先获取第一训练数据单元的原始视频帧和对应的重建图像(也即编码器对第一训练数据单元的原始视频帧进行编码所获得的图像)。第二编码模块以第一训练数据单元的原始视频帧为标签、重建图像为输入,进行神经网络训练学习,得到对应该第一训练数据单元的第一修复神经网络,并获取对应第一修复神经网络的第一神经网络信息,而后对其进行标记,标记后进行压缩并发送至视频解码装置200。
之后,第二编码模块以训练数据单元的原始视频帧为标签、重建图像为输入,进行神经网络训练学习,得到对应该第二训练数据单元的第二修复神经网络,并获取对应第二修复神经网络的第二神经网络信息。而后对其进行标记第二神经网络信息,标记后进行压缩并发送至视频解码装置200。
视频解码装置200侧:
解码器21对接收到的第一码流数据进行解码,得到重建图像,并根据第一码流数据的标记对重建图像进行标记。
第二解码模块22对接收到的第一神经网络信息进行解压缩,并根据其上的标记确定其对应的第一训练数据单元。根据第一神经网络信息构建出针对第一训练数据单元的第一修复神经网络,而后根据该第一修复神经网络、以对应于第一训练数据单元的重建图像(根据标记确定)为输入,对第一训练数据单元的重建图像进行修复,得到对应于第一训练数据单元的修复图像。
而后,对接收到的第二神经网络信息进行解压缩,并根据其上的标记确定其对应的第二训练数据单元。根据第二神经网络信息构建出针对第二训练数据单元的第二修复神经网络,而后根据该第二修复神经网络、以对应于第二训练数据单元的重建图像(根据标记确定)为输入,对第二训练数据单元的重建图像进行修复,得到对应于第二训练数据单元的修复图像。
根据对应于第一训练数据单元的修复图像、对应于第二训练数据单元的修复图像,形成对应于目标视频的修复视频。
上述视频编码装置和视频解码装置的具体工作过程和原理参见上述相关描述,不再赘述。
这样,进行视频压缩的效率高,与已有编解码标准的兼容性好。
以上已经描述了本公开的各实施例,上述说明是示例性的,并非穷尽性的,并且也不限于所披露的各实施例。在不偏离所说明的各实施例的范围和精神的情况下,对于本技术领域的普通技术人员来说许多修改和变更都是显而易见的。本文中所用术语的选择,旨在最好地解释各实施例的原理、实际应用或对市场中的技术的技术改进,或者使本技术领域的其它普通技术人员能理解本文披露的各实施例。

Claims (11)

1.一种自学习基于神经网络的视频编码装置,其特征在于,所述装置包括:
第一编码模块,用于对目标视频进行压缩编码,获得对应所述目标视频的第一码流数据和重建图像,并将所述第一码流数据发送至视频解码装置;
第二编码模块,用于以所述目标视频所对应的原始视频帧为标签、所述重建图像为输入,进行神经网络训练学习,得到对应所述目标视频的修复神经网络,并获取对应所述修复神经网络的神经网络信息,将所述神经网络信息发送至视频解码装置,以使所述视频解码装置根据所述神经网络信息构建的修复神经网络,对所述第一码流数据解码得到的重建图像进行修复,得到所述目标视频的修复视频,
其中,所述神经网络信息包括所述修复神经网络的网络参数。
2.根据权利要求1所述的装置,其特征在于,所述第二编码模块,包括:
训练数据组织子模块,用于对所述目标视频的原始视频帧和重建图像数据依次进行划分,组织成为多个训练数据单元,每个训练数据单元包括n个原始视频帧和对应的n个重建图像,n为大于零的实数;
训练子模块,用于根据每个训练数据单元进行神经网络训练学习,获得对应的每个训练数据单元的修复神经网络,并将各个修复神经网络的神经网络信息发送至视频解码装置。
3.根据权利要求2所述的装置,其特征在于,所述训练子模块具体用于:
以第i个训练数据单元的原始视频帧为标签、重建图像为输入,进行神经网络训练学习,得到对应于所述第i个训练数据单元的修复神经网络,i为正整数。
4.根据权利要求1所述的装置,其特征在于,所述第二编码模块,包括:
信息压缩子模块,用于在将所述神经网络信息发送至视频解码装置之前,采用预设的压缩方式对所述神经网络信息进行压缩,
其中,所述压缩方式包括以下任一种:无损压缩和有损压缩。
5.根据权利要求1至4任一项所述的装置,其特征在于,所述第一编码模块包括编码器,所述神经网络信息还包括所述修复神经网络的网络结构和/或对应的训练数据单元的数据单元信息。
6.一种基于自学习神经网络的视频解码装置,其特征在于,所述装置包括:
第一解码模块,用于对接收到的视频编码装置发送的第一码流数据进行解码,得到对应目标视频的重建图像;
第二解码模块,用于根据接收到的所述视频编码装置发送的神经网络信息构建针对所述目标视频的修复神经网络,根据所述修复神经网络对所述重建图像进行修复,得到所述目标视频的修复视频,
其中,所述神经网络信息包括所述修复神经网络的网络参数,
所述修复神经网络是所述视频编码装置以所述目标视频的原始视频帧为标签、对应所述原始视频帧的重建图像为输入进行神经网络训练学习得到的。
7.根据权利要求6所述的装置,其特征在于,所述目标视频的修复神经网络包括多个,每个修复神经网络对应于所述目标视频的一个训练数据单元所述训练数据单元中包括n个所述原始视频帧和对应的n个重建图像,n为大于零的实数,
其中,所述第二解码模块,包括:
网络构建子模块,用于根据针对第i个训练数据单元的神经网络信息,构建对应于所述第i个训练数据单元的修复神经网络,i为正整数。
8.根据权利要求7所述的装置,其特征在于,所述第二解码模块,还包括:
修复子模块,根据所述第i个训练数据单元的修复神经网络,对与所述第i个训练数据单元相对应的重建图像进行修复。
9.根据权利要求6所述的装置,其特征在于,所述第二解码模块,包括:
信息解压子模块,用于根据预设的压缩方式,对所述神经网络信息进行解压,
其中,所述压缩方式包括以下任一种:无损压缩和有损压缩。
10.根据权利要求6至9任一项所述的装置,其特征在于,所述第一解码模块包括解码器,所述神经网络信息还包括所述修复神经网络的网络结构和/或对应的训练数据单元的数据单元信息。
11.一种基于自学习神经网络的视频编解码系统,其特征在于,所述系统包括权利要求1至5任意一项所述的基于自学习神经网络的视频编码装置和权利要求6至10任意一项所述的基于自学习神经网络的视频解码装置。
CN201910585090.8A 2019-07-01 2019-07-01 基于神经网络的自学习视频编解码技术 Pending CN112188202A (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN201910585090.8A CN112188202A (zh) 2019-07-01 2019-07-01 基于神经网络的自学习视频编解码技术

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN201910585090.8A CN112188202A (zh) 2019-07-01 2019-07-01 基于神经网络的自学习视频编解码技术

Publications (1)

Publication Number Publication Date
CN112188202A true CN112188202A (zh) 2021-01-05

Family

ID=73914901

Family Applications (1)

Application Number Title Priority Date Filing Date
CN201910585090.8A Pending CN112188202A (zh) 2019-07-01 2019-07-01 基于神经网络的自学习视频编解码技术

Country Status (1)

Country Link
CN (1) CN112188202A (zh)

Cited By (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN113313776A (zh) * 2021-05-27 2021-08-27 Oppo广东移动通信有限公司 图像处理方法、图像处理装置、存储介质与电子设备
CN114363631A (zh) * 2021-12-09 2022-04-15 慧之安信息技术股份有限公司 一种基于深度学习的音视频处理方法和装置
CN114531604A (zh) * 2022-02-16 2022-05-24 广州佳邦信息科技有限公司 一种在线教学视频的智能处理方法及系统
WO2023093559A1 (zh) * 2021-11-23 2023-06-01 华为技术有限公司 数据传输的方法和装置

Citations (5)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US20130198588A1 (en) * 2012-01-31 2013-08-01 Cleversafe, Inc. Identifying a potentially compromised encoded data slice
CN103313056A (zh) * 2013-06-03 2013-09-18 南京邮电大学 一种基于图像融合和边缘Hash的子块修复方法
CN108134932A (zh) * 2018-01-11 2018-06-08 上海交通大学 基于卷积神经网络的视频编解码环路内滤波实现方法及系统
CN108174225A (zh) * 2018-01-11 2018-06-15 上海交通大学 基于对抗生成网络的视频编解码环路内滤波实现方法及系统
WO2019088657A1 (ko) * 2017-10-30 2019-05-09 한국전자통신연구원 은닉 변수를 이용하는 영상 및 신경망 압축을 위한 방법 및 장치

Patent Citations (5)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US20130198588A1 (en) * 2012-01-31 2013-08-01 Cleversafe, Inc. Identifying a potentially compromised encoded data slice
CN103313056A (zh) * 2013-06-03 2013-09-18 南京邮电大学 一种基于图像融合和边缘Hash的子块修复方法
WO2019088657A1 (ko) * 2017-10-30 2019-05-09 한국전자통신연구원 은닉 변수를 이용하는 영상 및 신경망 압축을 위한 방법 및 장치
CN108134932A (zh) * 2018-01-11 2018-06-08 上海交通大学 基于卷积神经网络的视频编解码环路内滤波实现方法及系统
CN108174225A (zh) * 2018-01-11 2018-06-15 上海交通大学 基于对抗生成网络的视频编解码环路内滤波实现方法及系统

Non-Patent Citations (1)

* Cited by examiner, † Cited by third party
Title
丁丹丹等: "多特征增量学习的视频重建图像质量增强算法", 《华南理工大学学报(自然科学版)》 *

Cited By (5)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN113313776A (zh) * 2021-05-27 2021-08-27 Oppo广东移动通信有限公司 图像处理方法、图像处理装置、存储介质与电子设备
CN113313776B (zh) * 2021-05-27 2024-07-05 Oppo广东移动通信有限公司 图像处理方法、图像处理装置、存储介质与电子设备
WO2023093559A1 (zh) * 2021-11-23 2023-06-01 华为技术有限公司 数据传输的方法和装置
CN114363631A (zh) * 2021-12-09 2022-04-15 慧之安信息技术股份有限公司 一种基于深度学习的音视频处理方法和装置
CN114531604A (zh) * 2022-02-16 2022-05-24 广州佳邦信息科技有限公司 一种在线教学视频的智能处理方法及系统

Similar Documents

Publication Publication Date Title
CN112188202A (zh) 基于神经网络的自学习视频编解码技术
KR100952892B1 (ko) 비디오 데이타의 인트라코딩 방법 및 장치
US9191668B1 (en) Division of entropy coding in codecs
CN113766249B (zh) 视频编解码中的环路滤波方法、装置、设备及存储介质
US9866868B2 (en) Non-transform coding
CN101137065A (zh) 图像编码方法、解码方法、编码器、解码器、编解码方法及编解码器
US7840083B2 (en) Method of encoding flag, method of decoding flag, and apparatus thereof
KR20130070574A (ko) 메모리 요건을 완화한 영상 전송 시스템
JP2002523943A (ja) 複数チャンネルデータ圧縮方法
CN114257818A (zh) 视频的编、解码方法、装置、设备和存储介质
US7558322B2 (en) Method and apparatus for temporal wavelet compression
KR20130006578A (ko) 비표준 벡터 양자화 코더를 이용한 비디오 표준을 따르는 레지듀얼 코딩
US20240236378A1 (en) Encoding method, decoding method, and decoder
CN113422960A (zh) 图像的传输方法及装置
US20240114147A1 (en) Systems, methods and bitstream structure for hybrid feature video bitstream and decoder
CN117692650A (zh) 图像编码/解码方法、电子设备和计算机可读存储介质
US20060133491A1 (en) Video codec
WO2023225808A1 (en) Learned image compress ion and decompression using long and short attention module
CN115866297A (zh) 视频处理方法、装置、设备及存储介质
KR20220139801A (ko) 낮은 비트레이트 비디오 압축을 위한 마이크로도싱
WO2021065656A1 (ja) 画像符号化方法、画像符号化装置、画像復号方法および画像復号装置
WO2022031633A1 (en) Supporting view direction based random access of bitstream
KR20210066715A (ko) 데이터 압축 장치, 방법, 데이터 복원 장치, 방법, 컴퓨터 판독 가능한 기록매체 및 컴퓨터 프로그램
US20200382767A1 (en) Motion compensation reference frame compression
US20240244229A1 (en) Systems and methods for predictive coding

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
RJ01 Rejection of invention patent application after publication
RJ01 Rejection of invention patent application after publication

Application publication date: 20210105