JP2006502677A

JP2006502677A - 無制約及びリフティング型動き補償時間フィルタ処理のための効率的動きベクトル予測

Info

Publication number: JP2006502677A
Application number: JP2005500070A
Authority: JP
Inventors: デルシアールミハエラファン; ディーパクトゥルガ
Original assignee: Koninklijke Philips Electronics NV
Current assignee: Koninklijke Philips NV
Priority date: 2002-10-07
Filing date: 2003-09-24
Publication date: 2006-01-19
Also published as: KR20050065582A; EP1552703A1; WO2004032519A1; US20050286632A1; AU2003263533A1

Abstract

動きベクトルビットの数を低減するビデオ符号化方法及び装置である。該方法及び装置は、動きベクトルを時間的に予測すると共に差分を符号化することにより、各時間的分解レベルにおいて動きベクトルを差分的に符号化する。

Description

本出願は、２００２年１０月７日に出願された米国予備特許出願第６０／４１６，５９２号の３５ＵＳＣ１１９（ｅ）に基づく利益を主張するもので、該予備出願は参照により本明細書に組み込まれるものとする。

本発明は、広くはビデオ符号化に関するもので、更に詳細には無制約且つリフティング型動き補償時間フィルタ処理において差分的動きベクトル符号化を使用するウェーブレット型符号化に関する。

動き補償ウェーブレット符号化に対しては、無制約動き補償時間フィルタ処理（unconstrained motion compensated temporal filtering: UMCTF）及びリフティング型動き補償時間フィルタ処理（lifting-based motion compensated temporal filtering: MCTF）が使用される。これらのＭＣＴＦ方法は、ビデオにおける時間的相関を除去するために、同様の動き補償技術、例えば双方向フィルタ処理、複数参照フレーム等を使用する。ＵＭＣＴＦ及びリフティング型ＭＣＴＦの両者は、単方向ＭＣＴＦ方法を凌駕する。

良好な時間的無相関を提供する場合、ＵＭＣＴＦ及びリフティング型ＭＣＴＦは、全てを符号化する必要があるような付加的動きベクトル（ＭＶ）を伝送することを要するという問題点を有している。これが図１に示され、該図は、複数参照フレームを用いず、双方向フィルタ処理のみによるようなＵＭＣＴＦの一例を示している。見られるように、時間的分解レベルの各々におけるＭＶ（レベル０におけるＭＶ１及びＭＶ２並びにレベル１におけるＭＶ３）は独立に推定され、符号化される。双方向動き推定は複数の時間的分解レベルにおいて実行されるので、追加のＭＶビットの数は分解レベルの数に伴って増加する。同様に、時間的フィルタ処理の間に使用される参照フレームの数が大きいほど、伝送されるべきＭＶの数も大きくなる。ハイブリッドビデオ符号化又はハールの時間的分解と比較して、ＭＶフィールドの数は殆ど２倍になる。これは、低伝送ビットレートにおける双方向動き補償ウェーブレット符号化のためのＵＭＣＴＦ及びリフティング型ＭＣＴＦの効率に悪く影響し得る。

従って、無制約の又はリフティング型のＭＣＴＦ方法においてＭＶを符号化するために消費されるビット数を低減するような方法が必要となる。

本発明は、動きベクトルビットの数を低減するような態様でビデオを符号化する方法及び装置を目指すものである。本発明によれば、動きベクトルは、該動きベクトルを時間的に予測すると共に差分を符号化することにより、各時間的分解レベルにおいて差分的に符号化される。

本発明は、双方向動き補償ウェーブレット符号化のための無制約及びリフティング型動き補償時間フィルタ処理の間に発生される動きベクトル（ＭＶ）を符号化するために要するビット数を低減するような差分動きベクトル符号化方法である。本方法は、ＭＶを種々の時間的レベルにおいて差分的に符号化する。これは、通常は、ＭＶを時間的に予測すると共に、何らかの通常の符号化方法を用いて差分を符号化することにより達成される。

図２は、本発明の原理を一実施化するために使用することができるような、符号１００で示すエンコーダの実施例を示している。該エンコーダ１００は、入力ビデオを１つの単位として符号化される１群のフレーム（ＧＯＦ）に分割するための分割ユニット１２０を有している。無制約又はリフティング型ＭＣＴＦユニット１３０が含まれ、該ＭＣＴＦユニットは動き推定ユニット１３２及び時間フィルタ処理ユニット１３４を有している。動き推定ユニット１３２は、後に更に詳述するように、本発明の方法に従い各ＧＯＦ内のフレームに対して双方向動き推定又は予測を行う。時間フィルタ処理ユニット１３４は、動き推定ユニット１３２により供給される動きベクトルＭＶ及びフレーム番号に基づいて各ＧＯＦのフレーム間の時間的冗長性を除去する。空間分解ユニット１４０が含まれ、ＭＣＴＦユニット１３０により供給されるフレーム内の空間的冗長性を低減する。処理の間において、ＭＣＴＦユニット１３０から入力されるフレームは、空間分解ユニット１４０により２Ｄウェーブレット変換に従いウェーブレット係数に空間的に変換することができる。多くの異なる種類の既知のフィルタ及びウェーブレット変換の構成が存在する。空間分解ユニット１４０の出力をウェーブレット係数の大きさ等の有意情報に従って符号化するために有意符号化ユニット１０５が含まれ、ここでは、大きな係数が小さな係数よりも一層意味がある。出力ビットストリームを生成するためにエントロピ符号化ユニット１６０が含まれている。該エントロピ符号化ユニット１６０は、前記ウェーブレット係数を出力ビットストリームにエントロピ符号化する。後に更に詳述するように、該エントロピ符号化ユニット１６０は、本発明の方法に基づいて動き推定ユニット１３２により供給されるＭＶ及びフレーム番号もエントロピ符号化する。この情報は、復号を可能にするために上記出力ビットストリームに含まれる。好適なエントロピ符号化技術の例は、制限するものではないが、算術符号化及び可変長符号化を含む。

以下、差分動きベクトル符号化方法を図３のＧＯＦを参照して説明するが、該図は説明の簡略化のために、レベル０及びレベル１と呼ぶ２つの異なる時間的分解レベルにおける３つの動きベクトルのみを考察する。ＭＶ１及びＭＶ２は、時間的分解レベル０においてＨフレーム（中間のフレーム）を前のＡフレーム（左側Ａフレーム）及び続くＡフレーム（右側Ａフレーム）に接続する双方向動きベクトルである。この時間的分解レベルにおけるフィルタ処理の後、上記Ａフレームは次の時間的分解レベル（即ち、レベル１）においてフィルタ処理され、ここでは、ＭＶ３が斯かる２つのフレームを接続する動きベクトルに対応する。

本発明の方法のトップダウン予測及び符号化方法（該方法のステップは図４のフローチャートに示される）に基づき、レベル０におけるＭＶはレベル１におけるＭＶを予測するために使用され、等々となる。図３の簡略化された例を使用すると、ステップ２００は、ＭＶ１及びＭＶ２を決定する処理を含む。ＭＶ１及びＭＶ２は、動き推定の間にレベル０において動き推定ユニット１３２により従来のように決定することができる。動き推定の間において、Ｈフレームにおけるピクセル群又は領域が前のＡフレームにおける同様のピクセル群又は領域と突き合わされてＭＶ１を得る一方、上記Ｈフレームのピクセル群又は領域が後続のＡフレームにおける同様のピクセル群又は領域と突き合わされてＭＶ２を得る。ステップ２１０において、ＭＶ３はレベル１に関して、ＭＶ１及びＭＶ２に基づく細分（refinement）として推定又は予測される。ＭＶ３の推定は、レベル０の前のＡフレームにおける同様のピクセル群又は領域に一致するようなレベル０の後続するＡフレームにおけるピクセル群又は領域の推定である。ＭＶ３の推定又は予測は、ＭＶ１とＭＶ２との間の差分を計算することにより得ることができる。ステップ２２０において、エントロピ符号化ユニット１６０（図２）はＭＶ１及びＭＶ２をエントロピ符号化する。本方法は、ここで終了することができるか、又はオプションとしてステップ２３０において、エントロピ符号化ユニット１６０はＭＶ３に対する細分を符号化することもできる。

ＭＶ１及びＭＶ２は正確でありそうなので（フレーム間の距離が小さいので）、ＭＶ３に対する予測も良好でありそうであり、これにより符号化効率の増加につながる。２つの異なるビデオシーケンスに対する結果が図５Ａ、５Ｂ、６Ａ及び６Ｂに示されている。両シーケンスは３０ＨｚにおけるＱＣＩＦである。これらの例においては、１６フレームのＧＯＦサイズ、４レベルの時間的分解、１６ｘ１６の固定ブロックサイズ及び±６４の検索範囲が使用された。当該結果は順方向及び逆方向ＭＶを別個に提示し、該結果の内容依存的性質を強調するためにシーケンスの異なるＧＯＦにわたり示されている。同じグラフが、ＭＶを符号化するための何の予測も、空間予測も使用しない結果もプロットしている。符号化に要する結果としてのビットは、図７の表に要約されている。

予測された通り、図５Ａ及び５Ｂのコーストガード（Coastguard）ビデオシーケンスにおける大きな時間的に相関された動きにより、大きなビットの節約が存在する。これら結果の内容依存的性質を理解することが重要である。例えば、図６Ａ及び６Ｂのフォアマン(Foreman)ビデオシーケンスの終了近くでは、動きは非常に小さく、空間的に非常によく相関されている。これは、ＭＶの空間予測符号化により非常に良好な性能につながる。また、ＧＯＦ５の辺りの、コーストガードビデオシーケンスにおける突然のカメラ動きの間では、動きの空間的及び時間的予測は多くの利得は提供しない。

本発明の方法のトップダウン予測及び符号化実施例はビットレート節約を実現するので、本発明の該実施例は動き推定処理の間において使用することもできる。これの一例が、図８に示されている。

予測後の異なる検索範囲サイズを考察した後、これがビットレート、品質及び推定の複雑さの間での興味或る取引を提供することができることが観察された。図９の表は時間的予測位置の周辺の異なる検索サイズウインドウ（時間的予測が検索中心として使用される）の結果を要約している。

ＭＥ（動き推定）に対する無予測の行は、図７の表における結果に対応する。予測されたように、コーストガードビデオシーケンスにおける大きな時間的に相関された動きにより、ＭＶビットが大きく節約される。他の行を“ＭＶに対して無予測”行と比較することにより分かるように、推定の間における時間的ＭＶ予測は、ＭＶビットを更に低減する助けとなる。ＭＶビットのこの低減は、テクスチャに対する一層多くのビットを、従って動きが時間的に相関された場合に一層高いＰＳＮＲを可能にする。予測後の範囲の増加に伴い、一致の品質が改善し、従って、ＭＶに対するビットは増加するが、ＰＳＮＲが実際に改善する。内容及び動きの性質に依存して、結果はＧＯＦからＧＯＦへと変化することに注意すべきである。幾つかのＧＯＦに対して、０．４ｄＢまでのＰＳＮＲの改善、又は１２％までの空間予測に対するＭＶビットの節約が観測された。

上記トップダウン予測及び符号化実施例を使用する問題点の１つは、時間的再組立の前に、全ての動きベクトルが復号されねばならないという事実である。従って、ＭＶ３を復号することができる前にＭＶ１及びＭＶ２は復号されねばならず、そうすればレベル１を再組立することができる。これは、より高いレベルの幾つかが独立に復号される必要があるような時間的スケーラビリティにとり好ましくない。

上記トップダウン予測及び符号化実施例は、より高い時間的レベルにおける動き推定がフィルタ処理されたフレームに対して実行されるようなリフティングフレームワーク内でＭＶを符号化するために容易に使用することができる。しかしながら、Ｌフレームを作成するために使用される時間的平均のために、差分的ＭＶ符号化の利得は小さくなりがちである。第１に、時間的平均は、シーンにおける対象の幾らかの平滑化及びぼやけ（smearing）につながる。また、良好な一致が見つけられない場合、幾らかの不所望なアーチファクトが生成される。この場合、平均フレーム間の動きベクトルを予測するためにフィルタ処理されていないフレーム間の動きベクトルを使用すること、又はその逆は、劣った予測につながり得る。これは、動きベクトル符号化の効率を低減させ得る。

次に、図１０のフローチャートを参照すると、本発明の方法のボトムアップ予測及び符号化実施例が示されている。この実施例では、レベル０におけるＭＶを予測するためにレベル１におけるＭＶが使用され、等々となる。再び図３の簡略化された例を用いると、ステップ３００はＭＶ３を決定するステップを含む。ＭＶ３は、動き推定の間のレベル１において、動き推定ユニット１３２により従来のように決定することができる。動き推定の間において、レベル０の後続のＡフレームにおけるピクセル群又は領域が、レベル０の前のＡフレームにおける同様のピクセル群又は領域と突き合わされる。ステップ３１０において、レベル０に対するＭＶ１及びＭＶ２が、ＭＶ３に基づく細分として各々推定又は予測される。ＭＶ１に対する推定は、前のＡフレームにおける同様のピクセル群又は領域に一致するような、Ｈフレームにおけるピクセル群又は領域の推定である。ＭＶ２に対する推定は、後続のＡフレームにおける同様のピクセル群又は領域に一致するような、Ｈフレームにおけるピクセル群又は領域の推定である。ＭＶ１の推定はＭＶ３とＭＶ２との間の差分を計算することにより得ることができる。ＭＶ２の推定はＭＶ３とＭＶ１との間の差分を計算することにより得ることができる。ステップ３２０において、エントロピ符号化ユニット１６０（図２）が、ＭＶ３をエントロピ符号化する。本方法は、ここで終了するか、又はオプション的にステップ３３０において、エントロピ符号化ユニット１６０はＭＶ１及び／又はＭＶ２に対する細分を符号化することもできる。

上記ボトムアップ予測及び符号化実施例は時間的に階層的な動きベクトルを生成し、該動きベクトルは時間的分解構成の異なるレベルにおいて漸進的に使用することができる。従って、ＭＶ３は、ＭＶ２及びＭＶ１を復号する必要性無しに、レベル１を再組立するために使用することができる。また、ここでは、ＭＶ３は時間的に分解されたフレームの場合と同様にＭＶ２及びＭＶ１より重要であるので、より強いビットストリームを生成するために不等誤差防止（ＵＥＰ）方法と容易に組み合わせることができる。これは、特に低ビットレート構成の場合に有益であり得る。しかしながら、該予測方法は、前述したトップダウン実施例よりも効率的ではない傾向にある。これは、ＭＶ３が不正確でありがちであり（ソースフレームと参照フレームとの間の大きな距離により）、不正確な予測の使用はビットの増加につながり得るからである。トップダウン実施例におけるのと同様に、同じ解像度及び同じ動き推定パラメータにおけるフォアマン及びコーストガードビデオシーケンスに対して実験が行われた。符号化のみ（動き推定の間において予測無し）に対する時間的予測の利得を示すために、結果が図１１Ａ、１１Ｂ、１２Ａ及び１２Ｂに提示されている。これの結果は図１３の表に要約されている。

予測された通り、予測結果はトップダウン実施例におけるようには良好ではなく、特に動きが時間的に相関されていないＧＯＦに対しては性能の大幅な劣化が存在する。図１１Ａ及び１１Ｂからは、コーストガードビデオシーケンスのＧＯＦ５に対して時間的予測が極端に劣ることが分かる。これは、ＧＯＦ５周辺では、急激なカメラの動きが存在し、結果としての動きが低い時間的相関しか有さないからである。これら結果の内容依存的性質、及び時間的フィルタ処理を使用する判断は適応的にオン及びオフすることができるという事実が再強調されるべきである。

上記実験の幾つかが、動き推定の間にボトムアップ実施例を使用して繰り返され、その結果が図１４の表に要約されている。見られるように、該結果はトップダウン予測実施例の結果ほど良好ではない。しかしながら、もっと興味あるのは、コーストガードビデオシーケンスに対する結果を見ると、時間的予測後のＭＶに対するビット数はウインドウサイズの増加に伴い減少することが分かる。これは直感に反するように見えるが、以下のように説明することができる。時間的予測が悪い場合、小さな検索ウインドウは、より正確な予測の発見を可能にする代わりに、この劣った予測の近くに結果を制限してしまう。この予測からの小さな距離は、現レベルで符号化するのに少ないビットで済む結果となるが、次の（より早い）時間的レベルに対して良好な予測を持たないことは、当該性能を著しく悪化させ得る。これが、図１５表における結果により実際に明確に示されている。これら全ての結果は、４レベルの時間的分解による１６フレームＧＯＦからのものである。ＭＶビットは５つのフレームに対して、即ちレベル３でフィルタ処理されたフレーム８、レベル２でフィルタ処理されたフレーム４及び１２、並びにレベル１でフィルタ処理されたフレーム２及び６に対して示されている。フレーム８のＭＶはフレーム４及び１２のＭＶを予測するために使用され、フレーム４のＭＶはフレーム２及び６のＭＶを予測するために使用される。

フレーム８に対しては、時間的予測は存在せず、従って両方の場合においてビット数は同じである。より小さなウインドウサイズにより、フレーム４及び１２に対しては±４のウインドウの場合にビット数はより小さい。しかしながら、この結果レベル１におけるフレームに対して予測が劣ることになるという事実が、フレーム６のＭＶビットが±１６ウインドウサイズに対して大幅に小さいという事実により示されている。事実、レベル２における全ての節約は、レベル１において完全に否定されている。しかしながら、動きが時間的に相関されている場合、この方法の使用は結果としてビットレートの節約及び改善されたＰＳＮＲになり得る。

結果を改善する当該思想の興味或る拡張が可能である。予測は可能な限り正確であることが望まれるので、レベル３において大きなウインドウサイズで開始される必要があり、次いで、異なるレベルにわたりウインドウサイズを減少する。例えば、±６４ウインドウサイズをレベル３及び２で使用し、次いでレベル１において±１６ウインドウサイズに減少することができる。これは、ビットの低減及びＰＳＮＲの改善につながり得る。

上述した議論の全ては、動き推定がオリジナルのフレームに対して全ての時間的レベルにおいて実行されるようなＵＭＣＴＦフレームワークに対するものである。上記方法を、動き推定がフィルタ処理されたＬフレームに対して一層高い時間的レベルにおいて実行されるようなリフティング型の構成に対して適用することは困難であろう。前述したトップダウン実施例は困難さを伴わずに適用することができ、結果がＵＭＣＴＦに対するよりも僅かに良好であることが期待される。何故なら、Ｌフレームは、より低い時間的レベルにおいて推定された動きベクトルを考慮に入れることにより計算されるからである。しかしながら、ボトムアップ実施例の場合は、幾つかの困難さ、特に因果関係の問題に遭遇し得る。

図１６に示すように、動き推定の間にボトムアップ予測実施例を実施するためには、ＭＶ３はＭＶ１及びＭＶ２を予測するために使用される必要がある。しかしながら、ＭＶ３に関する推定がフィルタ処理されたＬフレームに対して実行される必要がある場合は、ＭＶ１及びＭＶ２は既に推定されている必要がある。これは、これらがＬフレームの作成の間に使用されるからである。従って、ＭＶ３はＭＶ１及びＭＶ２の推定の間の予測のためには使用され得なかった。代わりに、ＭＶ３に関する動き推定がフィルタ処理されていないフレーム（即ち、オリジナルのフレーム）に対して実行される場合、推定の間のボトムアップ予測を使用することができる。しかしながら、利得はＵＭＣＴＦ方法に対するよりも悪そうである。勿論、ボトムアップ予測実施例は動きベクトルの符号化（推定の間の予測無しで）の間に使用することができるが、トップダウン実施例に関連して述べたように、異なるレベルにおける動きベクトルの間に幾らかの不整合が存在し得る。

次に図１７を参照すると、本発明の方法の混合されたハイブリッド予測及び符号化実施例が示されている。この実施例においては、或る分解レベルからのＭＶを他のレベルからのＭＶを予測するために使用する代わりに、異なるレベルからのＭＶの混合が、他のＭＶを予測するために使用される。例えば、現レベルからの一層高いレベルのＭＶ及び順方向ＭＶを、逆方向ＭＶを予測するために使用することができる。再び図３の簡略化された例を使用すると、ステップ４００はＭＶ１及びＭＶ３を決定するステップを含み、これらの両者は、動き推定の間にレベル０（ＭＶ１）及びレベル１（ＭＶ３）において動き推定ユニット１３２により従来のように決定することができる。ステップ４１０において、レベル０に関するＭＶ２が、ＭＶ１及びＭＶ３に基づく細分として推定又は予測される。ＭＶ２の推定は、ＭＶ１とＭＶ３との間の差分を計算することにより得ることができる。ステップ４２０において、エントロピ符号化ユニット１６０（図２）はＭＶ１及びＭＶ３をエントロピ符号化する。当該方法は、ここで終了するか、オプションとしてステップ４３０において、エントロピ符号化ユニット１６０はＭＶ２に関する前記細分を符号化することもできる。

図１８は、本発明の原理を実施化するために使用することが可能な、符号５００により示すデコーダの実施例を示している。該デコーダ５００は入力ビットストリームを復号するためのエントロピ復号ユニット５１０を含んでいる。動作の間において、入力ビットストリームは、各ＧＯＦに対応するウェーブレット係数を生成するような、符号化側で実行されるエントロピ符号化技術の逆に従って復号される。更に、該エントロピ復号は、本発明により予測されたＭＶを含むようなＭＶ、及び後に使用されるフレーム番号を生成する。

エントロピ復号ユニット５１０からのウェーブレット係数を重要度情報に従って復号するために、重要度復号ユニット５２０が含まれている。従って、動作の間において、ウェーブレット係数は、エンコーダ側で使用された技術の逆を使用することにより正しい空間的順序に従って配列される。更に見られるように、重要度復号ユニット５２０からのウェーブレット係数を部分的に復号されたフレームに変換するために、空間的再組立ユニット５３０も含まれている。動作の間において、各ＧＯＦに対応するウェーブレット係数は、エンコーダ側で実行されたウェーブレット変換の逆に従って変換される。これは、本発明に従い動き補償され時間的にフィルタ処理された、部分的に復号されたフレームを生成する。

前述したように、本発明による動き補償された時間的フィルタ処理の結果、各ＧＯＦは多数のＨフレーム及びＡフレームにより表されるようになる。Ｈフレームは、ＧＯＦにおける各フレームと、同じＧＯＦ内の他のフレームとの間の差分であり、Ａフレームはエンコーダ側の動き推定及び時間的フィルタ処理により処理されていない最初又は最後のフレームである。逆時間的フィルタ処理ユニット５４０が含まれ、空間的再組立ユニット５３０からの各ＧＯＦに含まれるＨフレームを、エントロピ復号ユニット５１０により供給されるＭＶ及びフレーム番号に基づいて、エンコーダ側で実行された時間的フィルタ処理の逆を実行することにより再構築する。

図１９は、本発明の原理を実施化することができる、符号６００により示すシステムの実施例を示している。例示として、システム６００は、テレビジョン、セット・トップ・ボックス、デスクトップ、ラップトップ又はパームトップコンピュータ、パーソナル・デジタル・アシスタント（ＰＤＡ）、ビデオカセットレコーダ（ＶＣＲ）、デジタルビデオレコーダ（ＤＶＲ）、ＴｉＶｏ装置等のビデオ／画像記憶装置、並びにこれら及び他の装置の一部又は組合せを表すことができる。システム６００は、１以上のビデオソース６１０、１以上の入力／出力装置６２０、プロセッサ６３０、メモリ６４０及び表示装置６５０を含む。

ビデオ／画像ソース（又は複数のソース）６１０は、例えばテレビジョン受信機、ＶＣＲ又は他のビデオ／画像記憶装置を表すことができる。他の例として、ソース（又は複数のソース）６１０は、例えばインターネットのような全地球的コンピュータ通信ネットワーク、広域ネットワーク、都市地域ネットワーク、ローカルエリアネットワーク、地上放送システム、ケーブルネットワーク、衛星ネットワーク、無線ネットワーク、又は電話ネットワーク、並びにこれら及び他の型式のネットワークの部分若しくは組合せ等を介して、サーバ若しくは複数のサーバからビデオを受信する１以上のネットワーク接続を表すことができる。

入力／出力装置６２０、プロセッサ６３０及びメモリ６４０は、通信媒体６６０を介して通信する。通信媒体６６０は、例えばバス、通信ネットワーク、回路、回路カード又は他の装置の１以上の内部接続、並びにこれら及び他の通信媒体の一部及び組合せ等を表すことができる。ソース（又は複数のソース）６１０からの入力ビデオデータは、メモリ６４０に記憶されプロセッサ６３０により実行される１以上のソフトウェアプログラムに従って処理され、表示装置６５０に供給される出力ビデオ／画像を発生する。

特に、メモリ６４０に記憶される上記ソフトウェアプログラムは、前述したような本発明の方法を含むことができる。この実施例において、本発明の方法は、システム６００により実行されるコンピュータ読み取り可能なコードにより実施化することができる。該コードは、メモリ６４０に記憶するか、又はＣＤ−ＲＯＭ又はフロッピーディスク等のメモリ媒体から読み取り／ダウンロードすることができる。他の実施例では、本発明を実施化するために、ソフトウェア命令の代わりに、又は斯かるソフトウェア命令との組合せでハードウェア回路を使用することもできる。

ＭＣＴＦフレームワーク内での複数レベルの時間的分解にわたる時間的ＭＶ予測は、ＵＭＣＴＦ及びリフティング型ＭＣＴＦフレームワーク内で発生される追加の群の動きベクトルを効率的に符号化するために必要である。推定処理が予測を使用しない場合、又は推定が時間的予測も使用する場合、ＭＶは差分的に符号化することができる。トップダウン実施例の方がより効率的であるが、ボトムアップ実施例の場合のように、時間的スケーラビリティをサポートしない。動きが時間的に相関される場合、これらの方法の使用は、ＭＶビットを、予測無しに対して５〜１３％、空間予測に対して約３〜５％低減することができる。このＭＶビットの低減により、より多くのビットをテクスチャ符号化に割り当てることができ、従って結果としてのＰＳＮＲが改善する。ＱＣＩＦシーケンスに対して、５０Ｋｂｐｓにおいて約０．１〜０．２ｄＢのＰＳＮＲの改善が観察された。重要なことに、該結果は大きな内容依存性を示す。事実、時間的に相関された動きを伴うＧＯＦに対して、斯様な方法はＭＶビットを大幅に低減することができると共に、ＰＳＮＲを０．４ｄＢまで改善することができる。このように、本発明の方法は、コンテンツ及び動きの性質に基づいて、適応的に使用することができる。本発明により達成される改善は、利用することが可能な一層大きな時間的相関により、複数の参照フレームが使用される場合に、より大幅になりそうである。動き推定の間にＭＶ予測が使用される場合、ビットレート、品質及び動き推定の複雑さの間で異なる取引をなすことができる。

以上、本発明を特定の実施例に関して説明したが、本発明は、これに限定又は制限されることを意図するものではないと理解されるべきである。従って、本発明は、添付請求項の趣旨及び範囲内に含まれる本発明の種々の構造及び変形もカバーすることを意図するものである。
ＭＶビットを

図１は、複数の参照フレームを用いず、双方向フィルタ処理のみによるＵＭＣＴＦの一例を示す。図２は、本発明の原理を実施化するために使用することができるエンコーダの一実施例を示す。図３は、３つの動きベクトルを２つの異なる時間的分解レベルで考慮する例示的なＧＯＦを示す。図４は、本発明の方法のトップダウン予測及び符号化実施例を示すフローチャートである。図５Ａは、本発明の方法のトップダウン予測及び符号化実施例を用いた２つの差分ビデオシーケンスの結果を示す。図５Ｂも、本発明の方法のトップダウン予測及び符号化実施例を用いた２つの差分ビデオシーケンスの結果を示す。図６Ａは、本発明の方法のトップダウン予測及び符号化実施例を用いた２つの差分ビデオシーケンスの結果を示す。図６Ｂも、本発明の方法のトップダウン予測及び符号化実施例を用いた２つの差分ビデオシーケンスの結果を示す。図７、本発明の方法のトップダウン予測及び符号化実施例を用いた２つの差分ビデオシーケンスの結果を示す。図８は、動き推定の間におけるトップダウン予測の一例を示す。図９は、動き推定の間にトップダウン予測を用いた２つの差分ビデオシーケンスの結果を示す。図１０は、本発明の方法のボトムアップ予測及び符号化実施例を示すフローチャートである。図１１Ａは、本発明の方法のボトムアップ予測及び符号化実施例を用いた２つの差分ビデオシーケンスの結果を示す。図１１Ｂも、本発明の方法のボトムアップ予測及び符号化実施例を用いた２つの差分ビデオシーケンスの結果を示す。図１２Ａは、本発明の方法のボトムアップ予測及び符号化実施例を用いた２つの差分ビデオシーケンスの結果を示す。図１２Ｂも、本発明の方法のボトムアップ予測及び符号化実施例を用いた２つの差分ビデオシーケンスの結果を示す。図１３は、本発明の方法のボトムアップ予測及び符号化実施例を用いた２つの差分ビデオシーケンスの結果を示す。図１４は、動き推定の間にトップダウン予測を用いた２つの差分ビデオシーケンスの結果を示す。図１５は、動き推定の間にトップダウン予測を用いた、フレーム群内のフレームのための動きベクトルビットを示す。図１６は、リフティングを用いた２つのレベルの双方向ＭＣＴＦを示す。図１７は、本発明の方法の混合されたハイブリッド予測及び符号化実施例を示す。図１８は、本発明の原理を実施化するために使用することができるデコーダの一実施例を示す。図１９は、本発明の原理を実施化することができるシステムの一実施例を示す。

Claims

ビデオを符号化する方法において、該方法が、
前記ビデオを一群のフレームに分割するステップと、
前記フレームを時間的にフィルタ処理して、少なくとも第１及び第２の時間的分解レベルを形成するステップと、
前記第１の分解レベルからの少なくとも２つの動きベクトルを決定するステップと、
前記第２の時間的分解レベル上の少なくとも１つの動きベクトルを、前記第１の時間的分解レベルからの前記少なくとも２つの動きベクトルの細分として推定するステップと、
前記第１の時間的分解レベルからの前記少なくとも２つの動きベクトルを符号化するステップと、
を有することを特徴とする方法。
請求項１に記載の方法において、前記第２の時間的分解レベルの前記推定された少なくとも１つの動きベクトルを符号化するステップを更に有していることを特徴とする方法。
ビデオを符号化する方法において、該方法が、
前記ビデオを一群のフレームに分割するステップと、
前記フレームを時間的にフィルタ処理して、少なくとも第１及び第２の時間的分解レベルを形成するステップと、
前記第２の分解レベルからの少なくとも１つの動きベクトルを決定するステップと、
前記第１の時間的分解レベル上の少なくとも２つの動きベクトルを、前記第２の時間的分解レベルからの前記少なくとも１つの動きベクトルの細分として推定するステップと、
前記第２の時間的分解レベルからの前記少なくとも１つの動きベクトルを符号化するステップと、
を有することを特徴とする方法。
請求項３に記載の方法において、前記第１の時間的分解レベルの前記推定された少なくとも２つの動きベクトルを符号化するステップを更に有していることを特徴とする方法。
ビデオを符号化する方法において、該方法が、
前記ビデオを一群のフレームに分割するステップと、
前記フレームを時間的にフィルタ処理して、少なくとも第１及び第２の時間的分解レベルを形成するステップと、
前記第１の時間的分解レベルからの少なくとも１つの動きベクトル及び前記第２の時間的分解レベルからの少なくとも１つの動きベクトルを決定するステップと、
前記第１の時間的分解レベルの少なくとも第２動きベクトルを、前記第１の時間的分解レベルからの前記少なくとも１つの動きベクトル及び前記第２の時間的分解レベルからの前記少なくとも１つの動きベクトルの細分として推定するステップと、
前記第１の時間的分解レベルからの前記少なくとも１つの動きベクトル及び前記第２の時間的分解レベルからの前記少なくとも１つの動きベクトルを符号化するステップと、
を有することを特徴とする方法。
請求項５に記載の方法において、前記第１の時間的分解レベルの前記推定された少なくとも第２動きベクトルを符号化するステップを更に有していることを特徴とする方法。
ビデオを符号化する装置において、
前記ビデオを一群のフレームに分割する手段と、
前記フレームを時間的にフィルタ処理して、少なくとも第１及び第２の時間的分解レベルを形成する手段と、
前記第１の分解レベルからの少なくとも２つの動きベクトルを決定する手段と、
前記第２の時間的分解レベル上の少なくとも１つの動きベクトルを、前記第１の時間的分解レベルからの前記少なくとも２つの動きベクトルの細分として推定する手段と、
前記第１の時間的分解レベルからの前記少なくとも２つの動きベクトルを符号化する手段と、
を有することを特徴とする装置。
請求項７に記載の装置において、前記第２の時間的分解レベルの前記推定された少なくとも１つの動きベクトルを符号化する手段を更に有していることを特徴とする装置。
ビデオを符号化するメモリ媒体において、
前記ビデオを一群のフレームに分割するコードと、
前記フレームを時間的にフィルタ処理して、少なくとも第１及び第２の時間的分解レベルを形成するコードと、
前記第１の分解レベルからの少なくとも２つの動きベクトルを決定するコードと、
前記第２の時間的分解レベル上の少なくとも１つの動きベクトルを、前記第１の時間的分解レベルからの前記少なくとも２つの動きベクトルの細分として推定するコードと、
前記第１の時間的分解レベルからの前記少なくとも２つの動きベクトルを符号化するコードと、
を有することを特徴とするメモリ媒体。
請求項９に記載のメモリ媒体において、前記第２の時間的分解レベルの前記推定された少なくとも１つの動きベクトルを符号化するコードを更に有していることを特徴とするメモリ媒体。
ビデオを符号化する装置において、
前記ビデオを一群のフレームに分割する手段と、
前記フレームを時間的にフィルタ処理して、少なくとも第１及び第２の時間的分解レベルを形成する手段と、
前記第２の分解レベルからの少なくとも１つの動きベクトルを決定する手段と、
前記第１の時間的分解レベル上の少なくとも２つの動きベクトルを、前記第２の時間的分解レベルからの前記少なくとも１つの動きベクトルの細分として推定する手段と、
前記第２の時間的分解レベルからの前記少なくとも１つの動きベクトルを符号化する手段と、
を有することを特徴とする装置。
請求項１１に記載の装置において、前記第１の時間的分解レベルの前記推定された少なくとも２つの動きベクトルを符号化する手段を更に有していることを特徴とする装置。
ビデオを符号化するメモリ媒体において、
前記ビデオを一群のフレームに分割するコードと、
前記フレームを時間的にフィルタ処理して、少なくとも第１及び第２の時間的分解レベルを形成するコードと、
前記第２の分解レベルからの少なくとも１つの動きベクトルを決定するコードと、
前記第１の時間的分解レベル上の少なくとも２つの動きベクトルを、前記第２の時間的分解レベルからの前記少なくとも１つの動きベクトルの細分として推定するコードと、
前記第２の時間的分解レベルからの前記少なくとも１つの動きベクトルを符号化するコードと、
を有することを特徴とするメモリ媒体。
請求項１３に記載のメモリ媒体において、前記第１の時間的分解レベルの前記推定された少なくとも２つの動きベクトルを符号化するコードを更に有していることを特徴とするメモリ媒体。
ビデオを符号化する装置において、
前記ビデオを一群のフレームに分割する手段と、
前記フレームを時間的にフィルタ処理して、少なくとも第１及び第２の時間的分解レベルを形成する手段と、
前記第１の時間的分解レベルからの少なくとも１つの動きベクトル及び前記第２の時間的分解レベルからの少なくとも１つの動きベクトルを決定する手段と、
前記第１の時間的分解レベルの少なくとも第２動きベクトルを、前記第１の時間的分解レベルからの前記少なくとも１つの動きベクトル及び前記第２の時間的分解レベルからの前記少なくとも１つの動きベクトルの細分として推定する手段と、
前記第１の時間的分解レベルからの前記少なくとも１つの動きベクトル及び前記第２の時間的分解レベルからの前記少なくとも１つの動きベクトルを符号化する手段と、
を有することを特徴とする装置。
請求項１５に記載の装置において、前記第１の時間的分解レベルの前記推定された少なくとも第２動きベクトルを符号化する手段を更に有していることを特徴とする装置。
ビデオを符号化するメモリ媒体において、
前記ビデオを一群のフレームに分割するコードと、
前記フレームを時間的にフィルタ処理して、少なくとも第１及び第２の時間的分解レベルを形成するコードと、
前記第１の時間的分解レベルからの少なくとも１つの動きベクトル及び前記第２の時間的分解レベルからの少なくとも１つの動きベクトルを決定するコードと、
前記第１の時間的分解レベルの少なくとも第２動きベクトルを、前記第１の時間的分解レベルからの前記少なくとも１つの動きベクトル及び前記第２の時間的分解レベルからの前記少なくとも１つの動きベクトルの細分として推定するコードと、
前記第１の時間的分解レベルからの前記少なくとも１つの動きベクトル及び前記第２の時間的分解レベルからの前記少なくとも１つの動きベクトルを符号化するコードと、
を有することを特徴とするメモリ媒体。
請求項１７に記載のメモリ媒体において、前記第１の時間的分解レベルの前記推定された少なくとも第２動きベクトルを符号化するコードを更に有していることを特徴とするメモリ媒体。