CN117729335B - 一种视频数据处理方法、装置、计算机设备及存储介质 - Google Patents
一种视频数据处理方法、装置、计算机设备及存储介质 Download PDFInfo
- Publication number
- CN117729335B CN117729335B CN202310267004.5A CN202310267004A CN117729335B CN 117729335 B CN117729335 B CN 117729335B CN 202310267004 A CN202310267004 A CN 202310267004A CN 117729335 B CN117729335 B CN 117729335B
- Authority
- CN
- China
- Prior art keywords
- video
- encoded
- data set
- video data
- frame
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Active
Links
- 238000003672 processing method Methods 0.000 title claims abstract description 16
- 238000003062 neural network model Methods 0.000 claims abstract description 34
- 238000000034 method Methods 0.000 claims abstract description 33
- 238000011156 evaluation Methods 0.000 claims description 42
- 230000006870 function Effects 0.000 claims description 18
- 238000004590 computer program Methods 0.000 claims description 12
- 239000013598 vector Substances 0.000 claims description 7
- 238000010586 diagram Methods 0.000 description 8
- 230000006835 compression Effects 0.000 description 4
- 238000007906 compression Methods 0.000 description 4
- 239000000284 extract Substances 0.000 description 4
- 230000004927 fusion Effects 0.000 description 4
- 238000004364 calculation method Methods 0.000 description 3
- 238000013527 convolutional neural network Methods 0.000 description 3
- 230000000007 visual effect Effects 0.000 description 2
- 241000023320 Luma <angiosperm> Species 0.000 description 1
- 230000005540 biological transmission Effects 0.000 description 1
- 238000011217 control strategy Methods 0.000 description 1
- 238000005516 engineering process Methods 0.000 description 1
- 238000010801 machine learning Methods 0.000 description 1
- OSWPMRLSEDHDFF-UHFFFAOYSA-N methyl salicylate Chemical compound COC(=O)C1=CC=CC=C1O OSWPMRLSEDHDFF-UHFFFAOYSA-N 0.000 description 1
- 230000003287 optical effect Effects 0.000 description 1
- 238000005192 partition Methods 0.000 description 1
Landscapes
- Compression Or Coding Systems Of Tv Signals (AREA)
Abstract
本申请实施例公开了一种视频数据处理方法、装置、计算机设备及存储介质,该方法包括:获取视频数据集,视频数据集中包括多个视频,以及获取视频数据集中各个视频的视频数据信息;根据各个视频的视频数据信息对预设的神经网络模型进行训练,得到码率预测模型;获取待编码视频,并获取待编码视频的视频数据信息,以及将待编码视频的视频数据信息输入码率预测模型,得到待编码视频对应的目标编码码率;利用目标编码码率对待编码视频进行编码,得到待编码视频对应的视频编码数据。通过这种方式可以灵活、准确地确定视频的目标编码码率,以提高编码视频的质量。
Description
技术领域
本申请涉及数据处理技术领域,尤其涉及一种视频数据处理方法、装置、计算机设备及存储介质。
背景技术
在短视频消费场景,通常为了保证用户获得较好的视频消费体验,视频编码会使用固定视频质量的(Constant Rate Factor,CRF)码率控制策略,即在压缩编码器前设置一个预设的CRF值,利用该预设的CRF值对视频进行编码,其中,在x264,x265等开源视频编码器中允许的CRF参数取值范围是0-51(也支持浮点数)。但CRF值应当是和每个视频的内容和画面复杂度强相关的,对画面细节纹理较多,运动情况复杂的视频内容,编码前应当设置较小的CRF值,保证编码后此视频具有较高的视频质量,而对于画面纹理简单,运动区域较少的视频内容,则应当设置较大的CRF值进行压缩编码,这样可以保证编码后的视频画质较好的同时,不会占用较多网络带宽和存储成本。因此,如何更好地确定视频编码的码率是视频编码器码率控制的一个难点问题。
发明内容
本申请实施例提供了一种视频数据处理方法、装置、计算机设备及存储介质,可以灵活、准确地确定视频的目标编码码率,以提高编码视频的质量。
第一方面,本申请实施例提供了一种视频数据处理方法,包括:
获取视频数据集,所述视频数据集中包括多个视频,以及获取所述视频数据集中各个视频的视频数据信息;
根据所述各个视频的视频数据信息对预设的神经网络模型进行训练,得到码率预测模型;
获取待编码视频,并获取所述待编码视频的视频数据信息,以及将所述待编码视频的视频数据信息输入所述码率预测模型,得到所述待编码视频对应的目标编码码率;
利用所述目标编码码率对所述待编码视频进行编码,得到所述待编码视频对应的视频编码数据。
第二方面,本申请实施例提供了一种视频数据处理装置,包括:
获取单元,用于获取视频数据集,所述视频数据集中包括多个视频,以及获取所述视频数据集中各个视频的视频数据信息;
训练单元,用于根据所述各个视频的视频数据信息对预设的神经网络模型进行训练,得到码率预测模型;
预测单元,用于获取待编码视频,并获取所述待编码视频的视频数据信息,以及将所述待编码视频的视频数据信息输入所述码率预测模型,得到所述待编码视频对应的目标编码码率;
编码单元,用于利用所述目标编码码率对所述待编码视频进行编码,得到所述待编码视频对应的视频编码数据。
第三方面,本申请实施例提供了一种计算机设备,所述计算机设备包括:处理器和存储器,所述处理器用于执行上述第一方面所述的方法。
第四方面,本申请实施例还提供了一种计算机可读存储介质,该计算机可读存储介质中存储有程序指令,该程序指令被执行时实现上述第一方面所述的方法。
本申请实施例通过获取视频数据集,以及获取视频数据集中各个视频的视频数据信息;根据各个视频的视频数据信息对预设的神经网络模型进行训练,得到码率预测模型;获取待编码视频,并获取待编码视频的视频数据信息,以及将待编码视频的视频数据信息输入该码率预测模型,得到该待编码视频对应的目标编码码率;利用该目标编码码率对该待编码视频进行编码,得到该待编码视频对应的视频编码数据。通过根据视频数据信息训练得到码率预测模型,以便于通过码率预测模型可以更准确、灵活地确定出待编码视频的目标编码码率,有助于提高编码后的待编码视频的质量。
附图说明
为了更清楚地说明本申请实施例或现有技术中的技术方案,下面将对实施例或现有技术描述中所需要使用的附图作简单地介绍,显而易见地,下面描述中的附图仅仅是本申请的一些实施例,对于本领域普通技术人员来讲,在不付出创造性劳动的前提下,还可以根据这些附图获得其他的附图。
图1是一种非I帧预测编码的示意图;
图2是本申请实施例提供的一种视频数据处理方法的流程示意图;
图3是本申请实施例提供的另一种视频数据处理方法的流程示意图;
图4是本申请实施例提供的一种编码单元的编码模式分布示意图;
图5是本申请实施例提供一种计算视频帧评价指标的示意图;
图6是本申请实施例提供的一种视频数据处理装置的结构示意图;
图7是本申请实施例提供的一种计算机设备的结构示意图。
具体实施方式
下面将结合本申请实施例中的附图,对本申请实施例中的技术方案进行清楚地描述,显然,所描述的实施例仅仅是本申请一部分实施例,而不是全部的实施例。基于本申请中的实施例,本领域普通技术人员在没有做出创造性劳动前提下所获得的所有其他实施例,都属于本申请保护的范围。
本申请提出了一种视频数据处理方案,通过获取视频数据集,以及获取视频数据集中各个视频的视频数据信息;根据各个视频的视频数据信息对预设的神经网络模型进行训练,得到码率预测模型;获取待编码视频,并获取待编码视频的视频数据信息,以及将待编码视频的视频数据信息输入该码率预测模型,得到该待编码视频对应的目标编码码率;利用该目标编码码率对该待编码视频进行编码,得到该待编码视频对应的视频编码数据。通过根据视频数据信息训练得到码率预测模型,以便于通过码率预测模型可以更准确、灵活地确定出待编码视频的目标编码码率,有助于提高编码后的待编码视频的质量。
短视频转码服务器侧的编码器需要根据原视频的视频数据信息,在编码压缩处理之前自适应的决策出不同视频最合适的码率。考虑到视频编码时帧内编码的I(Intra)帧和帧间编码的非I帧的压缩特性有很大的差异,需要对非I帧的码率进行不同的处理如图1所示,图1是一种非I帧预测编码的示意图,如图1所示,对非I帧11进行解码得到已解码帧12,根据已解码帧12预测得到预测帧13,对预测帧13进行编码得到当前帧14。因此,本申请基于帧间编码帧(P帧和B帧)提出基于原视频的视频数据信息进行机器学习网络训练,进而根据训练得到的码率模型来智能决策不同视频的帧间编码帧的码率。
本申请提供的一种视频数据处理方法可应用于如视频传输、视频存储等需要对视频进行编码的任意场景。
本申请实施例中提供的视频数据处理方法可以应用于一种视频数据处理装置,该视频数据处理装置可设置于计算机设备中,在某些实施例中,该计算机设备可以包括但不限于智能手机、平板电脑、笔记本电脑、台式电脑、车载智能终端、智能手表等智能终端设备或服务器。
下面结合附图对本申请实施例提供的视频数据处理方法进行示意性说明。
具体请参见图2,图2是本申请实施例提供的一种视频数据处理方法的流程示意图,本申请实施例的视频数据处理方法可以由视频数据处理装置执行,其中,该视频数据处理装置可设置于计算机设备中。
S201:获取视频数据集,该视频数据集中包括多个视频,以及获取该视频数据集中各个视频的视频数据信息。
本申请实施例中,计算机设备可以获取视频数据集,该视频数据集中包括多个视频,以及获取该视频数据集中各个视频的视频数据信息。
在一个实施例中,计算机设备在获取该视频数据集中各个视频的视频数据信息时,可以利用目标编码器对该视频数据集中各个视频进行编码处理,得到该视频数据集中各个视频的编码数据;根据该视频数据集中各个视频的编码数据,确定该视频数据集中各个视频的视频特征信息以及目标编码数据,并确定该视频数据集中各个视频的视频特征信息以及目标编码数据为该视频数据集中各个视频的视频数据信息。
进一步地,该目标编码器可以为支持CRF码率控制的编码器(比如开源的x264);计算机设备在利用目标编码器对该视频数据集中各个视频进行编码处理,得到该视频数据集中各个视频的编码数据时,可以使用支持CRF码率控制的编码器对该视频数据集中的各个视频进行编码,得到该视频数据集中各个视频的编码数据。其中,计算机设备可以离线使用支持CRF码率控制的编码器对该视频数据集中的各个视频进行编码。
本申请实施例通过从视频数据信息中获取视频特征信息和目标编码数据,有助于训练得到可靠性更好的码率预测模型,以便通过码率预测模型确定出适合不同视频内容的目标编码码率,提高视频编码的准确性和灵活性。
S202:根据各个视频的视频数据信息对预设的神经网络模型进行训练,得到码率预测模型。
本申请实施例中,计算机设备可以根据各个视频的视频数据信息对预设的神经网络模型进行训练,得到码率预测模型。其中,该预设的神经网络模型可以包括但不限于卷积神经网络模型,该卷积神经网络模型包括特征提取器、全连接层和输出层,其中,全连接层与特征提取器和输出层相连,特征提取器通过卷积神经网络模型提取每个视频的特征,全连阶层则利用统计出的视频特征进行CRF值的预测,最后输出层输出预测的CRF值。
在一个实施例中,计算机设备在根据各个视频的视频数据信息对预设的神经网络模型进行训练,得到码率预测模型时,可以将各个视频的视频特征信息和目标编码数据输入预设的神经网络模型,得到预测码率,并根据该预测码率确定损失函数值;当该损失函数值不满足预设条件时,根据该损失函数值调整该神经网络模型的模型参数;将该各个视频的视频特征信息和目标编码数据输入调整模型参数后的神经网络模型进行重新训练,当重新训练得到的损失函数值满足预设条件时,确定得到该码率预测模型。其中,该损失函数值满足预设条件用于指示该损失函数小于预设阈值。
本申请实施例通过将各个视频的视频特征信息和目标编码数据作为输入数据输入神经网络模型进行训练,得到码率预测模型,可以准确地预测出视频编码的目标码率。
S203:获取待编码视频,并获取该待编码视频的视频数据信息,以及将该待编码视频的视频数据信息输入该码率预测模型,得到该待编码视频对应的目标编码码率。
本申请实施例中,计算机设备可以获取待编码视频,并获取该待编码视频的视频数据信息,以及将该待编码视频的视频数据信息输入该码率预测模型,得到该待编码视频对应的目标编码码率。
在一个实施例中,计算机设备在获取该待编码视频的视频数据信息时,可以利用目标编码器对该待编码视频进行编码处理,得到该待编码视频的编码数据;根据该待编码视频的编码数据,确定该待编码视频的视频特征信息以及目标编码数据,并确定该待编码视频的视频特征信息以及目标编码数据为该待编码视频的视频数据信息。
进一步地,该目标编码器可以为支持CRF码率控制的编码器(比如开源的x264);计算机设备在利用目标编码器对该待编码视频进行编码处理,得到该待编码视频的编码数据时,可以使用支持CRF码率控制的编码器对该待编码视频进行编码,得到该待编码视频的编码数据。其中,计算机设备可以离线使用支持CRF码率控制的编码器对该待编码视频进行编码。
在一个实施例中,计算机设备在根据该待编码视频的编码数据,确定该待编码视频的视频特征信息以及目标编码数据时,可以从该待编码视频的编码数据中提取该视频数据集中各个视频的视频特征信息;获取该待编码视频在编码处理之前的第一评价指标以及从该编码数据中获取该待编码视频在编码处理之后的第二评价指标,并确定该第一评价指标和该第二评价指标为该待编码视频的目标编码数据。
在一种可选的实施方式中,视频特征信息包括纹理复杂度;计算机设备在从该待编码视频的编码数据中提取该待编码视频的视频特征信息时,可以获取该待编码视频的每一帧视频图像的原始像素和重建像素;计算该待编码视频的每一帧视频图像的原始像素与重建像素之间的像素差值,并确定该像素差值为该待编码视频的每一个视频图像帧的纹理复杂度,以及确定该待编码视频的所有视频图像帧的纹理复杂度之和为各个视频的纹理复杂度。
在一种可选的实施方式中,计算机设备在获取该视频数据集中各个视频在编码处理之前的第一评价指标时,可以获取该待编码视频在编码处理之前每一个视频帧的峰值信噪比,并确定各个视频中所有视频帧的峰值信噪比的平均值为各个视频的第一评价指标。其中,该峰值信噪比可以为(Peak Signal to Noise Ratio,PSNR)。
在一种可选的实施方式中,计算机设备在从该编码数据中获取该待编码视频在编码处理之后的第二评价指标时,可以获取该待编码视频在编码处理之后每一个视频帧的质量分值,并确定各个视频中所有视频帧的质量分值的平均值为所述各个视频的第二评价指标。其中,该质量分值可以为通过(Visual Multimethod Assessment Fusion,VMAF)视频质量多方法评价融合计算得到的值。
S204:利用该目标编码码率对该待编码视频进行编码,得到该待编码视频对应的视频编码数据。
本申请实施例中,计算机设备可以利用该目标编码码率对该待编码视频进行编码,得到该待编码视频对应的视频编码数据。通过准确地确定出待编码视频的目标编码码率,利用该目标编码码率对待编码视频进行编码,有助于提高待编码视频在编码后的视频质量。
本申请实施例通过获取视频数据集,以及获取视频数据集中各个视频的视频数据信息;根据各个视频的视频数据信息对预设的神经网络模型进行训练,得到码率预测模型;获取待编码视频,并获取待编码视频的视频数据信息,以及将待编码视频的视频数据信息输入该码率预测模型,得到该待编码视频对应的目标编码码率;利用该目标编码码率对该待编码视频进行编码,得到该待编码视频对应的视频编码数据。通过根据视频数据信息训练得到码率预测模型,以便于通过码率预测模型可以更准确、灵活地确定出待编码视频的目标编码码率,有助于提高编码后的待编码视频的质量。
具体请参见图3,图3是本申请实施例提供的另一种视频数据处理方法的流程示意图,本申请实施例的视频数据处理方法可以由视频数据处理装置执行,其中,该视频数据处理装置设置于计算机设备中,其中,该计算机设备的具体解释如前所述。本申请实施例是对如何获取视频特征信息和目标编码数据的说明,具体地,本申请实施例的方法包括如下步骤。
S301:获取视频数据集中各个视频的视频特征信息。
本申请实施例中,计算机设备可以根据该视频数据集中各个视频的编码数据,确定该视频数据集中各个视频的视频特征信息以及目标编码数据。
在一个实施例中,计算机设备在根据该视频数据集中各个视频的编码数据,确定该视频数据集中各个视频的视频特征信息以及目标编码数据时,可以从该视频数据集中各个视频的编码数据中提取该视频数据集中各个视频的视频特征信息,该视频特征信息包括多个非I帧的编码单元占比、纹理复杂度、运动矢量中一种或多种。
在一种可选的实施方式中,该视频特征信息包括多个非I帧的编码单元占比,每一个非I帧的数据块包括I块、P块和B块,该非I帧为P帧和B帧的帧间编码帧;计算机设备在从该视频数据集中各个视频的编码数据中提取该视频数据集中各个视频的视频特征信息时,可以从该视频数据集中各个视频的编码数据中提取该视频数据集中各个视频的每一个P帧和B帧的帧间编码帧的I块占比、P块占比和B块占比。
具体可以图4为例进行说明,图4是本申请实施例提供的一种编码单元的编码模式分布示意图,如图4所示,包括16个编码单元(即宏块或(coding tree units,CTU)树编码单元,CTU可以包含有一个编码单元或是切割成多个较小的编码单元)的编码模式占比情况,其中包括13个B块,3个intra块,因此,intra块占比为3/16,B块占比为13/16,P块占比为0。
在一种可选的实施方式中,视频特征信息包括纹理复杂度;计算机设备在从该视频数据集中各个视频的编码数据中提取该视频数据集中各个视频的视频特征信息时,可以获取该视频数据集中各个视频的每一帧视频图像的原始像素和重建像素;计算该视频数据集中各个视频的每一帧视频图像的原始像素与重建像素之间的像素差值,并确定该像素差值为该视频数据集中各个视频的每一个视频图像帧的纹理复杂度,以及确定该视频数据集中各个视频的所有视频图像帧的纹理复杂度之和为各个视频的纹理复杂度。
进一步地,每一帧视频图像的纹理复杂度的计算公式如下公式(1)所示:
其中,n表示当前视频帧划分的8x8块个数,(sum of absolute transformeddifferences,SATD)残差变换绝对值和是原始像素和重建像素之间的像素差值(即原始像素-重建像素)。
在一种可选的实施方式中,对于P帧或B帧中的一个Intra模式块,它的SATD_Cost是亮度分量(两个色度分量不用计算)在帧内预测所有角度模式(H.264是9种,H.265是35种)中决策出最佳模式下原始像素与重建像素之间的像素差值即SATD值。
在一种可选的实施方式中,对于P帧或B帧中的一个Inter模式块,它的SATD_Cost是亮度分量在进行运动估计整像素搜索和亚像素搜索后,得到的最佳运动矢量下原始像素与重建像素之间的像素差值即SATD值。
在一个实施例中,视频特征信息包括运动矢量;计算机设备在从该视频数据集中各个视频的编码数据中提取该视频数据集中各个视频的视频特征信息时,可以计算每一帧视频图像编码后所有拥有运动矢量块的(Motion Vector,MV)运动矢量的平均值、最大值和最小值。
S302:获取视频数据集中各个视频的目标编码数据。
本申请实施例中,计算机设备可以获取该视频数据集中各个视频在编码处理之前的第一评价指标以及从该编码数据中获取该视频数据集中各个视频在编码处理之后的第二评价指标,并确定该第一评价指标和该第二评价指标为该视频数据集中各个视频的目标编码数据。
在一种可选的实施方式中,计算机设备在获取该视频数据集中各个视频在编码处理之前的第一评价指标时,可以获取该视频数据集中各个视频在编码处理之前每一个视频帧的峰值信噪比,并确定各个视频中所有视频帧的峰值信噪比的平均值为各个视频的第一评价指标。其中,该峰值信噪比可以为(Peak Signal to Noise Ratio,PSNR)。
在一种可选的实施方式中,计算机设备在从该编码数据中获取该视频数据集中各个视频在编码处理之后的第二评价指标时,可以获取该视频数据集中各个视频在编码处理之后每一个视频帧的质量分值,并确定各个视频中所有视频帧的质量分值的平均值为所述各个视频的第二评价指标。其中,该质量分值可以为通过(Visual MultimethodAssessment Fusion,VMAF)视频质量多方法评价融合计算得到的值。
具体可以图5为例进行说明,图5是本申请实施例提供一种计算视频帧评价指标的示意图,如图5所示,计算一帧视频帧的PSNR/VMAF的一种可选的实施方式为,获取一帧视频帧的原始YUV,通过该视频帧的原始YUV计算得到该视频帧的PSNR/VMAF。计算一帧视频帧的PSNR/VMAF的另一种可选的实施方式为,对一帧视频帧进行视频编码,得到压缩码流,通过对压缩码流进行解码得到失真YUV,进一步通过失真YUV计算得到该帧视频帧的PSNR/VMAF。
进一步地,计算机设备可以计算每个视频的PSNR或VMAF,每个视频的PSNR或VMAF是视频每一帧PSNR或VMAF的累加平均,计算方式如下公式(2)和公式(3)所示:
其中,n用于指示视频帧的数量。
S303:根据各个视频的视频数据信息对预设的神经网络模型进行训练,得到码率预测模型。
S304:获取待编码视频,并获取该待编码视频的视频数据信息,以及将该待编码视频的视频数据信息输入该码率预测模型,得到该待编码视频对应的目标编码码率。
S305:利用该目标编码码率对该待编码视频进行编码,得到该待编码视频对应的视频编码数据。
本申请实施例通过获取视频数据集,以及获取视频数据集中各个视频的视频数据信息;根据各个视频的视频数据信息对预设的神经网络模型进行训练,得到码率预测模型;获取待编码视频,并获取待编码视频的视频数据信息,以及将待编码视频的视频数据信息输入该码率预测模型,得到该待编码视频对应的目标编码码率;利用该目标编码码率对该待编码视频进行编码,得到该待编码视频对应的视频编码数据。通过根据视频数据信息训练得到码率预测模型,以便于通过码率预测模型可以更准确、灵活地确定出待编码视频的目标编码码率,有助于提高编码后的待编码视频的质量。
请参见图6,图6是本申请实施例提供的一种视频数据处理装置的结构示意图。具体的,所述装置设置于计算机设备中,所述装置包括:获取单元601、训练单元602、预测单元603以及编码单元604;
获取单元601,用于获取视频数据集,所述视频数据集中包括多个视频,以及获取所述视频数据集中各个视频的视频数据信息;
训练单元602,用于根据所述各个视频的视频数据信息对预设的神经网络模型进行训练,得到码率预测模型;
预测单元603,用于获取待编码视频,并获取所述待编码视频的视频数据信息,以及将所述待编码视频的视频数据信息输入所述码率预测模型,得到所述待编码视频对应的目标编码码率;
编码单元604,用于利用所述目标编码码率对所述待编码视频进行编码,得到所述待编码视频对应的视频编码数据。
进一步地,所述获取单元601获取所述视频数据集中各个视频的视频数据信息时,具体用于:
利用目标编码器对所述视频数据集中各个视频进行编码处理,得到所述视频数据集中各个视频的编码数据;
根据所述视频数据集中各个视频的编码数据,确定所述视频数据集中各个视频的视频特征信息以及目标编码数据,并确定所述视频数据集中各个视频的视频特征信息以及目标编码数据为所述视频数据集中各个视频的视频数据信息。
进一步地,所述获取单元601根据所述视频数据集中各个视频的编码数据,确定所述视频数据集中各个视频的视频特征信息以及目标编码数据时,具体用于:
从所述视频数据集中各个视频的编码数据中提取所述视频数据集中各个视频的视频特征信息,所述视频特征信息包括多个非I帧的编码单元占比、纹理复杂度、运动矢量中一种或多种;
获取所述视频数据集中各个视频在编码处理之前的第一评价指标以及从所述编码数据中获取所述视频数据集中各个视频在编码处理之后的第二评价指标,并确定所述第一评价指标和所述第二评价指标为所述视频数据集中各个视频的目标编码数据。
进一步地,所述视频特征信息包括多个非I帧的编码单元占比,每一个非I帧的数据块包括I块、P块和B块,所述非I帧为P帧和B帧的帧间编码帧;所述获取单元601从所述视频数据集中各个视频的编码数据中提取所述视频数据集中各个视频的视频特征信息时,具体用于:
从所述视频数据集中各个视频的编码数据中提取所述视频数据集中各个视频的每一个P帧和B帧的帧间编码帧的I块占比、P块占比和B块占比。
进一步地,所述视频特征信息包括纹理复杂度;所述获取单元601从所述视频数据集中各个视频的编码数据中提取所述视频数据集中各个视频的视频特征信息时,具体用于:
获取所述视频数据集中各个视频的每一帧视频图像的原始像素和重建像素;
计算所述视频数据集中各个视频的每一帧视频图像的原始像素与重建像素之间的像素差值,并确定所述像素差值为所述视频数据集中各个视频的每一个视频图像帧的纹理复杂度,以及确定所述视频数据集中各个视频的所有视频图像帧的纹理复杂度之和为所述各个视频的纹理复杂度。
进一步地,所述获取单元601获取所述视频数据集中各个视频在编码处理之前的第一评价指标以及从所述编码数据中获取所述视频数据集中各个视频在编码处理之后的第二评价指标时,具体用于:
获取所述视频数据集中各个视频在编码处理之前每一个视频帧的峰值信噪比,并确定各个视频中所有视频帧的峰值信噪比的平均值为所述各个视频的第一评价指标;以及,
获取所述视频数据集中各个视频在编码处理之后每一个视频帧的质量分值,并确定各个视频中所有视频帧的质量分值的平均值为所述各个视频的第二评价指标。
进一步地,所述训练单元602根据所述各个视频的视频数据信息对预设的神经网络模型进行训练,得到码率预测模型时,具体用于:
将所述各个视频的视频特征信息和目标编码数据输入预设的神经网络模型,得到预测码率,并根据所述预测码率确定损失函数值;
当所述损失函数值不满足预设条件时,根据所述损失函数值调整所述神经网络模型的模型参数;
将所述各个视频的视频特征信息和目标编码数据输入调整模型参数后的神经网络模型进行重新训练,当重新训练得到的损失函数值满足所述预设条件时,确定得到所述码率预测模型。
本申请实施例通过获取视频数据集,以及获取视频数据集中各个视频的视频数据信息;根据各个视频的视频数据信息对预设的神经网络模型进行训练,得到码率预测模型;获取待编码视频,并获取待编码视频的视频数据信息,以及将待编码视频的视频数据信息输入该码率预测模型,得到该待编码视频对应的目标编码码率;利用该目标编码码率对该待编码视频进行编码,得到该待编码视频对应的视频编码数据。通过根据视频数据信息训练得到码率预测模型,以便于通过码率预测模型可以更准确、灵活地确定出待编码视频的目标编码码率,有助于提高编码后的待编码视频的质量。
请参见图7,图7是本申请实施例提供的一种计算机设备的结构示意图。具体的,所述计算机设备包括:存储器701、处理器702。
在一种实施例中,所述计算机设备还包括数据接口703,所述数据接口703,用于传递计算机设备和其他设备之间的数据信息。
所述存储器701可以包括易失性存储器(volatile memory);存储器701也可以包括非易失性存储器(non-volatile memory);存储器701还可以包括上述种类的存储器的组合。所述处理器702可以是中央处理器(central processing unit,CPU)。所述处理器702还可以进一步包括硬件芯片。上述硬件芯片可以是专用集成电路(application-specificintegrated circuit,ASIC),可编程逻辑器件(programmable logic device,PLD)或其组合。上述PLD可以是复杂可编程逻辑器件(complex programmable logic device,CPLD),现场可编程逻辑门阵列(field-programmable gate array,FPGA)或其任意组合。
所述存储器701用于存储程序,所述处理器702可以调用存储器701中存储的程序,用于执行如下步骤:
获取视频数据集,所述视频数据集中包括多个视频,以及获取所述视频数据集中各个视频的视频数据信息;
根据所述各个视频的视频数据信息对预设的神经网络模型进行训练,得到码率预测模型;
获取待编码视频,并获取所述待编码视频的视频数据信息,以及将所述待编码视频的视频数据信息输入所述码率预测模型,得到所述待编码视频对应的目标编码码率;
利用所述目标编码码率对所述待编码视频进行编码,得到所述待编码视频对应的视频编码数据。
进一步地,所述处理器702获取所述视频数据集中各个视频的视频数据信息时,具体用于:
利用目标编码器对所述视频数据集中各个视频进行编码处理,得到所述视频数据集中各个视频的编码数据;
根据所述视频数据集中各个视频的编码数据,确定所述视频数据集中各个视频的视频特征信息以及目标编码数据,并确定所述视频数据集中各个视频的视频特征信息以及目标编码数据为所述视频数据集中各个视频的视频数据信息。
进一步地,所述处理器702根据所述视频数据集中各个视频的编码数据,确定所述视频数据集中各个视频的视频特征信息以及目标编码数据时,具体用于:
从所述视频数据集中各个视频的编码数据中提取所述视频数据集中各个视频的视频特征信息,所述视频特征信息包括多个非I帧的编码单元占比、纹理复杂度、运动矢量中一种或多种;
获取所述视频数据集中各个视频在编码处理之前的第一评价指标以及从所述编码数据中获取所述视频数据集中各个视频在编码处理之后的第二评价指标,并确定所述第一评价指标和所述第二评价指标为所述视频数据集中各个视频的目标编码数据。
进一步地,所述视频特征信息包括多个非I帧的编码单元占比,每一个非I帧的数据块包括I块、P块和B块,所述非I帧为P帧和B帧的帧间编码帧;所述处理器702从所述视频数据集中各个视频的编码数据中提取所述视频数据集中各个视频的视频特征信息时,具体用于:
从所述视频数据集中各个视频的编码数据中提取所述视频数据集中各个视频的每一个P帧和B帧的帧间编码帧的I块占比、P块占比和B块占比。
进一步地,所述视频特征信息包括纹理复杂度;所述处理器702从所述视频数据集中各个视频的编码数据中提取所述视频数据集中各个视频的视频特征信息时,具体用于:
获取所述视频数据集中各个视频的每一帧视频图像的原始像素和重建像素;
计算所述视频数据集中各个视频的每一帧视频图像的原始像素与重建像素之间的像素差值,并确定所述像素差值为所述视频数据集中各个视频的每一个视频图像帧的纹理复杂度,以及确定所述视频数据集中各个视频的所有视频图像帧的纹理复杂度之和为所述各个视频的纹理复杂度。
进一步地,所述处理器702获取所述视频数据集中各个视频在编码处理之前的第一评价指标以及从所述编码数据中获取所述视频数据集中各个视频在编码处理之后的第二评价指标时,具体用于:
获取所述视频数据集中各个视频在编码处理之前每一个视频帧的峰值信噪比,并确定各个视频中所有视频帧的峰值信噪比的平均值为所述各个视频的第一评价指标;以及,
获取所述视频数据集中各个视频在编码处理之后每一个视频帧的质量分值,并确定各个视频中所有视频帧的质量分值的平均值为所述各个视频的第二评价指标。
进一步地,所述处理器702根据所述各个视频的视频数据信息对预设的神经网络模型进行训练,得到码率预测模型时,具体用于:
将所述各个视频的视频特征信息和目标编码数据输入预设的神经网络模型,得到预测码率,并根据所述预测码率确定损失函数值;
当所述损失函数值不满足预设条件时,根据所述损失函数值调整所述神经网络模型的模型参数;
将所述各个视频的视频特征信息和目标编码数据输入调整模型参数后的神经网络模型进行重新训练,当重新训练得到的损失函数值满足所述预设条件时,确定得到所述码率预测模型。
本申请实施例通过获取视频数据集,以及获取视频数据集中各个视频的视频数据信息;根据各个视频的视频数据信息对预设的神经网络模型进行训练,得到码率预测模型;获取待编码视频,并获取待编码视频的视频数据信息,以及将待编码视频的视频数据信息输入该码率预测模型,得到该待编码视频对应的目标编码码率;利用该目标编码码率对该待编码视频进行编码,得到该待编码视频对应的视频编码数据。通过根据视频数据信息训练得到码率预测模型,以便于通过码率预测模型可以更准确、灵活地确定出待编码视频的目标编码码率,有助于提高编码后的待编码视频的质量。
本申请的实施例还提供了一种计算机可读存储介质,所述计算机可读存储介质存储有计算机程序,所述计算机程序被处理器执行时实现本申请图1或图3所对应实施例中描述的方法,也可实现图6所述本申请所对应实施例的装置,在此不再赘述。
所述计算机可读存储介质可以是前述任一实施例所述的设备的内部存储单元,例如设备的硬盘或内存。所述计算机可读存储介质也可以是所述设备的外部存储设备,例如所述设备上配备的插接式硬盘,智能存储卡(Smart Media Card,SMC),安全数字(SecureDigital,SD)卡,闪存卡(Flash Card)等。进一步地,所述计算机可读存储介质还可以既包括所述设备的内部存储单元也包括外部存储设备。所述计算机可读存储介质用于存储所述计算机程序以及所述计算机设备所需的其他程序和数据。所述计算机可读存储介质还可以用于暂时地存储已经输出或者将要输出的数据。
本申请的实施例还提供了一种计算机程序产品或计算机程序,该计算机程序产品或计算机程序包括计算机指令,该计算机指令存储在计算机可读存储介质中。计算机设备的处理器从计算机可读存储介质读取该计算机指令,处理器执行该计算机指令,使得该计算机设备执行上述各种实施方式中提供的方法。
本领域普通技术人员可以理解实现上述实施例方法中的全部或部分流程,是可以通过计算机程序来指令相关的硬件来完成,所述的程序可存储于一计算机可读取存储介质中,该程序在执行时,可包括如上述各方法的实施例的流程。其中,所述的存储介质可为磁碟、光盘、只读存储记忆体(Read-Only Memory,ROM)或随机存储记忆体(Random AccessMemory,RAM)等。
以上所揭露的仅为本申请的部分实施例而已,当然不能以此来限定本申请之权利范围,本领域普通技术人员可以理解实现上述实施例的全部或部分流程,并依本申请权利要求所作的等同变化,仍属于本发明所涵盖的范围。
Claims (11)
1.一种视频数据处理方法,其特征在于,包括:
获取视频数据集,所述视频数据集中包括多个视频,所述视频数据集中各个视频包括至少一个帧间编码帧;
获取所述视频数据集中各个视频的视频数据信息,任一视频的视频数据信息包括所述任一视频中各个帧间编码帧的视频特征信息以及所述任一视频的目标编码数据,任一帧间编码帧的视频特征信息包括所述任一帧间编码帧的I块占比、P块占比和B块占比;
根据所述各个视频的各个帧间编码帧的I块占比、P块占比和B块占比,以及所述各个视频的目标编码数据对预设的神经网络模型进行训练,得到码率预测模型;
获取待编码视频,并获取所述待编码视频的视频数据信息,以及将所述待编码视频的视频数据信息输入所述码率预测模型,得到所述待编码视频对应的目标编码码率,所述待编码视频包括至少一个待编码帧间编码帧,所述待编码视频的视频数据信息包括所述待编码视频中各个待编码帧间编码帧的视频特征信息以及所述待编码视频的目标编码数据,任一待编码帧间编码帧的视频特征信息包括所述任一待编码帧间编码帧的I块占比、P块占比和B块占比;
利用所述目标编码码率对所述待编码视频进行编码,得到所述待编码视频对应的视频编码数据。
2.根据权利要求1所述的方法,其特征在于,所述获取所述视频数据集中各个视频的视频数据信息,包括:
利用目标编码器对所述视频数据集中各个视频进行编码处理,得到所述视频数据集中各个视频的编码数据;
根据所述视频数据集中各个视频的编码数据,确定所述视频数据集中各个视频的视频特征信息以及目标编码数据,并确定所述视频数据集中各个视频的视频特征信息以及目标编码数据为所述视频数据集中各个视频的视频数据信息。
3.根据权利要求2所述的方法,其特征在于,所述根据所述视频数据集中各个视频的编码数据,确定所述视频数据集中各个视频的视频特征信息以及目标编码数据,包括:
从所述视频数据集中各个视频的编码数据中提取所述视频数据集中各个视频的视频特征信息,所述视频特征信息还包括纹理复杂度、运动矢量中一种或多种;
获取所述视频数据集中各个视频在编码处理之前的第一评价指标以及从所述编码数据中获取所述视频数据集中各个视频在编码处理之后的第二评价指标,并确定所述第一评价指标和所述第二评价指标为所述视频数据集中各个视频的目标编码数据。
4.根据权利要求3所述的方法,其特征在于,所述从所述视频数据集中各个视频的编码数据中提取所述视频数据集中各个视频的视频特征信息,包括:
从所述视频数据集中各个视频的编码数据中提取所述视频数据集中各个视频的每一个P帧或者B帧的I块占比、P块占比和B块占比。
5.根据权利要求3所述的方法,其特征在于,所述视频特征信息包括纹理复杂度;所述从所述视频数据集中各个视频的编码数据中提取所述视频数据集中各个视频的视频特征信息,包括:
获取所述视频数据集中各个视频的每一帧视频图像的原始像素和重建像素;
计算所述视频数据集中各个视频的每一帧视频图像的原始像素与重建像素之间的像素差值,并确定所述像素差值为所述视频数据集中各个视频的每一个视频图像帧的纹理复杂度,以及确定所述视频数据集中各个视频的所有视频图像帧的纹理复杂度之和为所述各个视频的纹理复杂度。
6.根据权利要求3所述的方法,其特征在于,所述获取所述视频数据集中各个视频在编码处理之前的第一评价指标以及从所述编码数据中获取所述视频数据集中各个视频在编码处理之后的第二评价指标,包括:
获取所述视频数据集中各个视频在编码处理之前每一个视频帧的峰值信噪比,并确定各个视频中所有视频帧的峰值信噪比的平均值为所述各个视频的第一评价指标;以及,
获取所述视频数据集中各个视频在编码处理之后每一个视频帧的质量分值,并确定各个视频中所有视频帧的质量分值的平均值为所述各个视频的第二评价指标。
7.根据权利要求3所述的方法,其特征在于,所述根据所述各个视频的视频数据信息对预设的神经网络模型进行训练,得到码率预测模型,包括:
将所述各个视频的视频特征信息和目标编码数据输入预设的神经网络模型,得到预测码率,并根据所述预测码率确定损失函数值;
当所述损失函数值不满足预设条件时,根据所述损失函数值调整所述神经网络模型的模型参数;
将所述各个视频的视频特征信息和目标编码数据输入调整模型参数后的神经网络模型进行重新训练,当重新训练得到的损失函数值满足所述预设条件时,确定得到所述码率预测模型。
8.一种视频数据处理装置,其特征在于,包括:
获取单元,用于获取视频数据集,所述视频数据集中包括多个视频,以及获取所述视频数据集中各个视频的视频数据信息,所述视频数据集中各个视频包括至少一个帧间编码帧,任一视频的视频数据信息包括所述任一视频中各个帧间编码帧的视频特征信息以及所述任一视频的目标编码数据,任一帧间编码帧的视频特征信息包括所述任一帧间编码帧的I块占比、P块占比和B块占比;
训练单元,用于根据所述各个视频的各个帧间编码帧的I块占比、P块占比和B块占比,以及所述各个视频的目标编码数据对预设的神经网络模型进行训练,得到码率预测模型;
预测单元,用于获取待编码视频,并获取所述待编码视频的视频数据信息,以及将所述待编码视频的视频数据信息输入所述码率预测模型,得到所述待编码视频对应的目标编码码率,所述待编码视频包括至少一个待编码帧间编码帧,所述待编码视频的视频数据信息包括所述待编码视频中各个待编码帧间编码帧的视频特征信息以及所述待编码视频的目标编码数据,任一待编码帧间编码帧的视频特征信息包括所述任一待编码帧间编码帧的I块占比、P块占比和B块占比;
编码单元,用于利用所述目标编码码率对所述待编码视频进行编码,得到所述待编码视频对应的视频编码数据。
9.一种计算机设备,其特征在于,包括处理器和存储器,所述处理器和存储器相互连接,其中,所述存储器用于存储计算机程序,所述计算机程序包括程序指令,所述处理器被配置用于调用所述程序指令,执行如权利要求1-7任一项所述的方法。
10.一种计算机可读存储介质,其特征在于,所述计算机可读存储介质中存储有程序指令,该程序指令被执行时实现如权利要求1-7任一项所述的方法。
11.一种计算机程序产品,其特征在于,所述计算机程序产品包括计算机程序,所述计算机程序适于由处理器加载并执行如权利要求1-7任一项所述的方法。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202310267004.5A CN117729335B (zh) | 2023-03-14 | 2023-03-14 | 一种视频数据处理方法、装置、计算机设备及存储介质 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202310267004.5A CN117729335B (zh) | 2023-03-14 | 2023-03-14 | 一种视频数据处理方法、装置、计算机设备及存储介质 |
Publications (2)
Publication Number | Publication Date |
---|---|
CN117729335A CN117729335A (zh) | 2024-03-19 |
CN117729335B true CN117729335B (zh) | 2024-11-19 |
Family
ID=90205815
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN202310267004.5A Active CN117729335B (zh) | 2023-03-14 | 2023-03-14 | 一种视频数据处理方法、装置、计算机设备及存储介质 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN117729335B (zh) |
Citations (4)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN111083483A (zh) * | 2019-12-31 | 2020-04-28 | 北京奇艺世纪科技有限公司 | 一种视频编码码率确定方法、装置、电子设备及存储介质 |
CN114554211A (zh) * | 2022-01-14 | 2022-05-27 | 百果园技术(新加坡)有限公司 | 内容自适应视频编码方法、装置、设备和存储介质 |
CN114885167A (zh) * | 2022-04-29 | 2022-08-09 | 上海哔哩哔哩科技有限公司 | 视频编码方法及装置 |
CN115379229A (zh) * | 2022-07-19 | 2022-11-22 | 百果园技术(新加坡)有限公司 | 内容自适应视频编码方法及装置 |
Family Cites Families (2)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN110198444B (zh) * | 2019-04-16 | 2021-07-09 | 浙江大华技术股份有限公司 | 视频帧编码方法、视频帧编码设备及具有存储功能的装置 |
CN115209150B (zh) * | 2022-09-16 | 2022-12-27 | 沐曦科技(成都)有限公司 | 一种视频编码参数获取方法、装置及电子设备 |
-
2023
- 2023-03-14 CN CN202310267004.5A patent/CN117729335B/zh active Active
Patent Citations (4)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN111083483A (zh) * | 2019-12-31 | 2020-04-28 | 北京奇艺世纪科技有限公司 | 一种视频编码码率确定方法、装置、电子设备及存储介质 |
CN114554211A (zh) * | 2022-01-14 | 2022-05-27 | 百果园技术(新加坡)有限公司 | 内容自适应视频编码方法、装置、设备和存储介质 |
CN114885167A (zh) * | 2022-04-29 | 2022-08-09 | 上海哔哩哔哩科技有限公司 | 视频编码方法及装置 |
CN115379229A (zh) * | 2022-07-19 | 2022-11-22 | 百果园技术(新加坡)有限公司 | 内容自适应视频编码方法及装置 |
Also Published As
Publication number | Publication date |
---|---|
CN117729335A (zh) | 2024-03-19 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
US10841583B2 (en) | Coding unit depth determining method and apparatus | |
US20180338161A1 (en) | In Loop Chroma Deblocking Filter | |
US9414086B2 (en) | Partial frame utilization in video codecs | |
CN105472205B (zh) | 编码过程中的实时视频降噪方法和装置 | |
KR101808327B1 (ko) | 영상 코덱에서 패딩을 이용한 영상 부/복호화 방법 및 장치 | |
CN113766249B (zh) | 视频编解码中的环路滤波方法、装置、设备及存储介质 | |
US11330263B1 (en) | Machine learning based coded size estimation in rate control of video encoding | |
WO2021129007A1 (zh) | 视频码率的确定方法、装置、计算机设备及存储介质 | |
CN109587491A (zh) | 一种帧内预测方法、装置及存储介质 | |
CN108848377B (zh) | 视频编码、解码方法、装置、计算机设备和存储介质 | |
WO2024078066A1 (zh) | 视频解码方法、视频编码方法、装置、存储介质及设备 | |
CN114157863B (zh) | 基于数字视网膜的视频编码方法、系统及存储介质 | |
CN112001854A (zh) | 一种编码图像的修复方法及相关系统和装置 | |
CN117729335B (zh) | 一种视频数据处理方法、装置、计算机设备及存储介质 | |
US11350134B2 (en) | Encoding apparatus, image interpolating apparatus and encoding program | |
CN111212288A (zh) | 视频数据的编解码方法、装置、计算机设备和存储介质 | |
CN113473137B (zh) | 编码方法、终端及存储介质 | |
CN112468826B (zh) | 一种基于多层gan的vvc环路滤波方法及系统 | |
CN115442617A (zh) | 一种基于视频编码的视频处理方法和装置 | |
KR101247024B1 (ko) | 루프 내 전처리 필터링을 이용한 움직임 추정 및 보상 방법 | |
CN113115075A (zh) | 一种视频画质增强的方法、装置、设备以及存储介质 | |
CN112714336A (zh) | 视频分割方法和装置、电子设备、计算机可读存储介质 | |
US20230269380A1 (en) | Encoding method, decoding method, encoder, decoder and storage medium | |
US7706440B2 (en) | Method for reducing bit rate requirements for encoding multimedia data | |
WO2025065416A1 (zh) | 编解码方法、编码器、解码器以及存储介质 |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination | ||
GR01 | Patent grant | ||
GR01 | Patent grant |