发明内容
本发明揭露一种编码速度优化的高阶视频编解码技术。该技术能够大幅提升H.264硬件编码器的编码速度。
根据本发明一种实施方式所实现的一高阶视频编解码芯片包括一直流分量运算单元、一哈德玛变换单元、一交流分量运算单元以及一量化单元。该直流分量运算单元用于计算一宏块中16个4x4子块所对应的残差块的离散余弦转换的直流分量。该哈德玛变换单元用于对上述16个4x4子块所对应的残差块的上述直流分量作哈德玛变换。该交流分量运算单元用于计算上述16个4x4子块所对应的残差块的离散余弦转换的交流分量。该量化单元用于对上述16个4x4子块哈德玛变换后的上述直流分量作量化,并且对上述16个4x4子块所对应的残差块的上述交流分量作量化,以获得上述16个4x4子块的变换系数。特别是,该哈德玛变换单元在该交流分量运算单元完整计算出上述16个4x4子块所对应的残差块的上述交流分量前开始对上述16个4x4子块所对应的残差块的上述直流分量作哈德玛变换。
在一种实施方式中,该直流分量运算单元包括进行以下运算:
Xk为上述16个4x4子块其一所对应的残差块。DCk为残差块Xk的离散余弦转换的直流分量。
本发明另一实施方式还以上述单元实现高阶视频编解码方法。该高阶视频编解码方法包括:以一直流分量运算单元计算一宏块中16个4x4子块所对应的残差块的离散余弦转换的直流分量;以一哈德玛变换单元对上述16个4x4子块所对应的残差块的上述直流分量作哈德玛变换;以一交流分量运算单元计算上述16个4x4子块的离散余弦转换的交流分量;以及以一量化单元对上述16个4x4子块哈德玛变换后的上述直流分量作量化,且对上述16个4x4子块所对应的残差块的上述交流分量作量化,以获得上述16个4x4子块的变换系数,其中,该哈德玛变换单元在该交流分量运算单元完整计算出上述16个4x4子块所对应的残差块的上述交流分量前开始对上述16个4x4子块所对应的残差块的上述直流分量作哈德玛变换。
附图说明
图1图解一种高阶视频编解码芯片100的应用。
图2图解高阶视频编解码芯片100的16x16像素编码单位,称为一宏块,X0…X15表示一个宏块的16个4x4子块所对应的残差块。
图3为方块图,根据本发明一种实施方式说明高阶视频编解码芯片100中的硬件,其中离散余弦转换(DCT)的直流分量以及交流分量以硬件分流获得,且相关硬件可并行运算。
图4以时序图方式说明图3硬件302以及308的数据处理时序。
其中,附图中符号的简单说明如下:
100~高阶视频编解码芯片;
102~高清晰度多媒体接口; 104~色差端子;
106~复合视频广播信号接口; 108~音视频接口;
110~三原色输入视频接口; 112~电视调谐器;
114~通用串行总线接口; 116~网络接口;
118~储存装置; 120~显示器;
302~离散余弦转换与量化运算的硬件;
304~熵编码的硬件; 306~高阶视频格式编码流;
308~反量化与反离散余弦转换的硬件;
310~去方块滤波的硬件; 312~直流分量运算的硬件;
314~交流分量运算的硬件; 316~哈德玛变换的硬件;
318~量化的硬件;
402~交流分量的[式3]运算以及量化时序;
404~直流分量的[式1]运算、哈德玛变换[式2]以及量化时序;
406~直流分量的反量化以及逆变换时序;
408~交流分量的反量化以及逆变换时序;
AC_factors~交流分量;
C~变换系数;
D(n)~残差; D’(n)~重构残差;
F(n)~当前待编码帧;
F’(n)~重构帧; F’(n-1)~参考帧;
P~预测像素;
X0…X15~16x16的一宏块内的16个4x4残差块;
μF’(n)~重构像素;
(DC0,…,DC15)、(HD0,…,HD15)~哈德玛变换前、后的直流分量。
具体实施方式
下文特举实施例,并配合所附图示,详细说明本发明内容。
以下叙述列举本发明的多种实施例。以下叙述介绍本发明的基本概念,且并非意图限制本发明内容。实际发明范围应依照权利要求书的范围界定。
图1图解一种高阶视频编解码芯片100的应用。高阶视频编解码芯片100可以以系统单芯片(SOC)实现,作高阶视频编解码(如,H.264格式)。高阶编解码芯片100可以以高清晰度多媒体接口(HDMI)102、色差端子(YPbPr)104、复合视频广播信号接口(Multiple CVBS)106、音视频接口(SCART)108、三原色输入视频接口(RGB)110、电视调谐器(hybrid tuner)112、通用串行总线接口(USB 3.0)114、网络接口(RJ45)116等取得视频数据作高阶视频编码,并将编码后的压缩视频储存于储存单元118。高阶视频编解码芯片100还可将压缩视频还原为高清视频,交由显示器120播放。
图2图解高阶视频编解码芯片100的16x16像素编码单位,称为一宏块,X0…X15表示一个宏块的16个4x4子块所对应的残差块。
图3为方块图,根据本发明一种实施方式说明高阶视频编解码芯片100中的硬件,其中可采用帧内预测编码或帧间预测编码两种模式。帧内预测编码采用当前待编码帧F(n)的像素来得到预测像素P。帧间预测编码则还采用前一帧的重构图像F’(n-1)(又称为“参考帧”)来得到预测像素P。预测像素P相对当前待编码帧F(n)可计算出残差D(n)。残差D(n)再经作离散余弦转换(DCT)与量化运算的硬件302处理后,形成变换系数C。变换系数C经熵编码的硬件304处理后,形成高阶视频编码流306。另一方面,变换系数C经反量化以及反离散余弦转换的硬件308处理后形成重构残差D’(n)。重构残差D’(n)加回预测像素P后形成重构像素μF’(n),再经过后续的去方块处理的硬件310运算后,形成重构帧F’(n),作为下一编码帧的参考帧。
如图3硬件302所示,其中离散余弦转换(DCT)的直流(DC)分量以及交流(AC)分量以硬件分流获得,且相关硬件可并行运算。特别说明,所谓“并行”技术是指两运算不受限于“串行”运算形式,无须待一运算结束后,方能据以进行另一运算。如图3所示,离散余弦转换与量化的硬件302包括一直流分量运算的硬件(直流分量运算单元)312、一交流分量运算的硬件(交流分量运算单元)314、一哈德玛(Hadamard)变换的硬件(哈德玛变换单元)316以及一量化的硬件(量化单元)318。以下详细说明该些硬件的运作。
直流分量运算的硬件312包括进行[式1]运算:
[式1]
Xk为一宏块中16个4x4子块所对应的残差块X0…X15(参阅图2)其一。DCk为4x4残差块Xk的离散余弦转换的直流分量。直流分量运算的硬件312用于快速求得一宏块中16个4x4残差块X0…X15的离散余弦转换的直流分量(DC0,…,DC15)。
基于直流分量运算的硬件312所快速求得的直流分量(DC0,…,DC15),哈德玛变换的硬件316包括进行[式2]运算:
[式2]
其中,YD数值如下:
哈德玛变换的硬件316用于获得哈德玛变换后的直流分量(HD0,…,HD15)。
至于上述16个4x4残差块X0…X15的离散余弦转换的交流分量ACk0…ACke(k变数为0到15,总标号为AC_factors),则是由交流分量运算的硬件314进行[式3]运算获得:
[式3]
[式3]所求得的16个4x4残差块X0…X15的离散余弦转换的直流分量DC0…DC15因早已由直流分量运算的硬件312以[式1]运算获得,故交流分量运算的硬件314以[式3]所获得的数值DC0…DC15可略去不使用。
以硬件并行运算且分流得出的哈德玛变换直流分量(HD0,…,HD15)以及交流分量AC_factors(包括ACk0…ACke,k为0到15)亦可以量化的硬件318以并行方式作量化。量化处理后的哈德玛变换直流分量(HD′0,…,HD′15)以及交流分量(包括AC′k0,…,AC′ke,k为0到15)将组成变换系数C,包括内容C0…C15如下:
特别说明,由于直流分量(DC0,…,DC15)由直流分量运算的硬件312执行[式1]运算获得,故无须等待16次回圈的冗长[式3]运算即可接续以哈德玛的变换硬件316进行[式2]运算,获得哈德玛变换后的直流分量(HD0,…,HD15)继而交由量化的硬件318作直流分量(HD0,…,HD15)的量化。如此一来,本发明高阶视频编解码芯片的运算速度远快于传统直流分量、交流分量未分流且并行处理的技术。
图4以时序图方式说明图3硬件302以及308的数据处理时序。标号402显示交流分量的[式3]运算以及量化时序。标号404显示直流分量的[式1]运算、哈德玛变换[式2]以及量化时序。标号406显示直流分量的反量化以及逆变换时序。标号408显示交流分量的反量化以及逆变换时序。如标号402以及404所示,直流分量的运算不再受交流分量运算的牵制,可与交流分量的运算并行进行。本发明高阶视频编解码芯片的运算速度远快于传统直流分量、交流分量未分流处理的技术。
此段落参照图3说明图4时序。哈德玛变换的硬件316在交流分量运算的硬件314完整计算出上述16个4x4残差块X0…X15的上述交流分量AC_factors(包括ACk0…ACke,k为0到15)前开始对上述16个4x4残差块X0…X15的上述直流分量(DC0,…,DC15)作哈德玛变换。一种实施方式中,哈德玛变换的硬件316还在交流分量运算的硬件314完整计算出上述16个4x4残差块X0…X15的上述交流分量AC_factors(包括ACk0…ACke,k为0到15)前结束对上述16个4x4残差块X0…X15的上述直流分量(DC0,…,DC15)作哈德玛变换。一种实施方式中,量化的硬件318在交流分量运算的硬件314完整计算出上述16个4x4残差块X0…X15的上述交流分量AC_factors(包括ACk0…ACke,k为0到15)前开始对上述16个4x4残差块X0…X15哈德玛变换后的直流分量(HD0,…,HD15)作量化。一种实施方式中,量化的硬件318还在交流分量运算的硬件314完整计算出上述16个4x4残差块X0…X15的上述交流分量AC_factors(包括ACk0…ACke,k为0到15)前结束对上述16个4x4残差块X0…X15哈德玛变换后的直流分量(HD0,…,HD15)作量化。更甚者,参阅图4标号406以及408,反量化与反离散余弦转换的硬件308可在交流分量运算的硬件314完整计算出上述16个4x4残差块X0…X15的上述交流分量AC_factors(包括ACk0…ACke,k为0到15)前开始对上述16个4x4残差块X0…X15的上述变换系数C作反量化以及逆变换。以上硬件并行运作方式使得所揭露的高阶视频编解码技术拥有远快于传统技术的编码速度。
其他采用上述概念作高阶视频编解码的技术都属于本发明所欲保护的范围。基于以上技术内容,本发明还涉及高阶视频编解码方法,不限定以特定硬件架构实现。
以上所述仅为本发明较佳实施例,然其并非用以限定本发明的范围,任何熟悉本项技术的人员,在不脱离本发明的精神和范围内,可在此基础上做进一步的改进和变化,因此本发明的保护范围当以本申请的权利要求书所界定的范围为准。