JP2006502677A - 無制約及びリフティング型動き補償時間フィルタ処理のための効率的動きベクトル予測 - Google Patents
無制約及びリフティング型動き補償時間フィルタ処理のための効率的動きベクトル予測 Download PDFInfo
- Publication number
- JP2006502677A JP2006502677A JP2005500070A JP2005500070A JP2006502677A JP 2006502677 A JP2006502677 A JP 2006502677A JP 2005500070 A JP2005500070 A JP 2005500070A JP 2005500070 A JP2005500070 A JP 2005500070A JP 2006502677 A JP2006502677 A JP 2006502677A
- Authority
- JP
- Japan
- Prior art keywords
- decomposition level
- motion vector
- temporal decomposition
- temporal
- encoding
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Pending
Links
Images
Classifications
-
- H—ELECTRICITY
- H04—ELECTRIC COMMUNICATION TECHNIQUE
- H04N—PICTORIAL COMMUNICATION, e.g. TELEVISION
- H04N19/00—Methods or arrangements for coding, decoding, compressing or decompressing digital video signals
- H04N19/60—Methods or arrangements for coding, decoding, compressing or decompressing digital video signals using transform coding
- H04N19/61—Methods or arrangements for coding, decoding, compressing or decompressing digital video signals using transform coding in combination with predictive coding
- H04N19/615—Methods or arrangements for coding, decoding, compressing or decompressing digital video signals using transform coding in combination with predictive coding using motion compensated temporal filtering [MCTF]
-
- H—ELECTRICITY
- H04—ELECTRIC COMMUNICATION TECHNIQUE
- H04N—PICTORIAL COMMUNICATION, e.g. TELEVISION
- H04N19/00—Methods or arrangements for coding, decoding, compressing or decompressing digital video signals
- H04N19/10—Methods or arrangements for coding, decoding, compressing or decompressing digital video signals using adaptive coding
- H04N19/134—Methods or arrangements for coding, decoding, compressing or decompressing digital video signals using adaptive coding characterised by the element, parameter or criterion affecting or controlling the adaptive coding
- H04N19/136—Incoming video signal characteristics or properties
- H04N19/137—Motion inside a coding unit, e.g. average field, frame or block difference
-
- H—ELECTRICITY
- H04—ELECTRIC COMMUNICATION TECHNIQUE
- H04N—PICTORIAL COMMUNICATION, e.g. TELEVISION
- H04N19/00—Methods or arrangements for coding, decoding, compressing or decompressing digital video signals
- H04N19/10—Methods or arrangements for coding, decoding, compressing or decompressing digital video signals using adaptive coding
- H04N19/134—Methods or arrangements for coding, decoding, compressing or decompressing digital video signals using adaptive coding characterised by the element, parameter or criterion affecting or controlling the adaptive coding
- H04N19/136—Incoming video signal characteristics or properties
- H04N19/137—Motion inside a coding unit, e.g. average field, frame or block difference
- H04N19/139—Analysis of motion vectors, e.g. their magnitude, direction, variance or reliability
-
- H—ELECTRICITY
- H04—ELECTRIC COMMUNICATION TECHNIQUE
- H04N—PICTORIAL COMMUNICATION, e.g. TELEVISION
- H04N19/00—Methods or arrangements for coding, decoding, compressing or decompressing digital video signals
- H04N19/50—Methods or arrangements for coding, decoding, compressing or decompressing digital video signals using predictive coding
- H04N19/503—Methods or arrangements for coding, decoding, compressing or decompressing digital video signals using predictive coding involving temporal prediction
- H04N19/51—Motion estimation or motion compensation
-
- H—ELECTRICITY
- H04—ELECTRIC COMMUNICATION TECHNIQUE
- H04N—PICTORIAL COMMUNICATION, e.g. TELEVISION
- H04N19/00—Methods or arrangements for coding, decoding, compressing or decompressing digital video signals
- H04N19/50—Methods or arrangements for coding, decoding, compressing or decompressing digital video signals using predictive coding
- H04N19/503—Methods or arrangements for coding, decoding, compressing or decompressing digital video signals using predictive coding involving temporal prediction
- H04N19/51—Motion estimation or motion compensation
- H04N19/513—Processing of motion vectors
- H04N19/517—Processing of motion vectors by encoding
- H04N19/52—Processing of motion vectors by encoding by predictive encoding
-
- H—ELECTRICITY
- H04—ELECTRIC COMMUNICATION TECHNIQUE
- H04N—PICTORIAL COMMUNICATION, e.g. TELEVISION
- H04N19/00—Methods or arrangements for coding, decoding, compressing or decompressing digital video signals
- H04N19/60—Methods or arrangements for coding, decoding, compressing or decompressing digital video signals using transform coding
- H04N19/61—Methods or arrangements for coding, decoding, compressing or decompressing digital video signals using transform coding in combination with predictive coding
-
- H—ELECTRICITY
- H04—ELECTRIC COMMUNICATION TECHNIQUE
- H04N—PICTORIAL COMMUNICATION, e.g. TELEVISION
- H04N19/00—Methods or arrangements for coding, decoding, compressing or decompressing digital video signals
- H04N19/60—Methods or arrangements for coding, decoding, compressing or decompressing digital video signals using transform coding
- H04N19/63—Methods or arrangements for coding, decoding, compressing or decompressing digital video signals using transform coding using sub-band based transform, e.g. wavelets
-
- H—ELECTRICITY
- H04—ELECTRIC COMMUNICATION TECHNIQUE
- H04N—PICTORIAL COMMUNICATION, e.g. TELEVISION
- H04N19/00—Methods or arrangements for coding, decoding, compressing or decompressing digital video signals
- H04N19/10—Methods or arrangements for coding, decoding, compressing or decompressing digital video signals using adaptive coding
-
- H—ELECTRICITY
- H04—ELECTRIC COMMUNICATION TECHNIQUE
- H04N—PICTORIAL COMMUNICATION, e.g. TELEVISION
- H04N19/00—Methods or arrangements for coding, decoding, compressing or decompressing digital video signals
- H04N19/10—Methods or arrangements for coding, decoding, compressing or decompressing digital video signals using adaptive coding
- H04N19/102—Methods or arrangements for coding, decoding, compressing or decompressing digital video signals using adaptive coding characterised by the element, parameter or selection affected or controlled by the adaptive coding
- H04N19/13—Adaptive entropy coding, e.g. adaptive variable length coding [AVLC] or context adaptive binary arithmetic coding [CABAC]
Landscapes
- Engineering & Computer Science (AREA)
- Multimedia (AREA)
- Signal Processing (AREA)
- Compression Or Coding Systems Of Tv Signals (AREA)
- Compression, Expansion, Code Conversion, And Decoders (AREA)
Abstract
動きベクトルビットの数を低減するビデオ符号化方法及び装置である。該方法及び装置は、動きベクトルを時間的に予測すると共に差分を符号化することにより、各時間的分解レベルにおいて動きベクトルを差分的に符号化する。
Description
本出願は、2002年10月7日に出願された米国予備特許出願第60/416,592号の35USC119(e)に基づく利益を主張するもので、該予備出願は参照により本明細書に組み込まれるものとする。
本発明は、広くはビデオ符号化に関するもので、更に詳細には無制約且つリフティング型動き補償時間フィルタ処理において差分的動きベクトル符号化を使用するウェーブレット型符号化に関する。
動き補償ウェーブレット符号化に対しては、無制約動き補償時間フィルタ処理(unconstrained motion compensated temporal filtering: UMCTF)及びリフティング型動き補償時間フィルタ処理(lifting-based motion compensated temporal filtering: MCTF)が使用される。これらのMCTF方法は、ビデオにおける時間的相関を除去するために、同様の動き補償技術、例えば双方向フィルタ処理、複数参照フレーム等を使用する。UMCTF及びリフティング型MCTFの両者は、単方向MCTF方法を凌駕する。
良好な時間的無相関を提供する場合、UMCTF及びリフティング型MCTFは、全てを符号化する必要があるような付加的動きベクトル(MV)を伝送することを要するという問題点を有している。これが図1に示され、該図は、複数参照フレームを用いず、双方向フィルタ処理のみによるようなUMCTFの一例を示している。見られるように、時間的分解レベルの各々におけるMV(レベル0におけるMV1及びMV2並びにレベル1におけるMV3)は独立に推定され、符号化される。双方向動き推定は複数の時間的分解レベルにおいて実行されるので、追加のMVビットの数は分解レベルの数に伴って増加する。同様に、時間的フィルタ処理の間に使用される参照フレームの数が大きいほど、伝送されるべきMVの数も大きくなる。ハイブリッドビデオ符号化又はハールの時間的分解と比較して、MVフィールドの数は殆ど2倍になる。これは、低伝送ビットレートにおける双方向動き補償ウェーブレット符号化のためのUMCTF及びリフティング型MCTFの効率に悪く影響し得る。
従って、無制約の又はリフティング型のMCTF方法においてMVを符号化するために消費されるビット数を低減するような方法が必要となる。
本発明は、動きベクトルビットの数を低減するような態様でビデオを符号化する方法及び装置を目指すものである。本発明によれば、動きベクトルは、該動きベクトルを時間的に予測すると共に差分を符号化することにより、各時間的分解レベルにおいて差分的に符号化される。
本発明は、双方向動き補償ウェーブレット符号化のための無制約及びリフティング型動き補償時間フィルタ処理の間に発生される動きベクトル(MV)を符号化するために要するビット数を低減するような差分動きベクトル符号化方法である。本方法は、MVを種々の時間的レベルにおいて差分的に符号化する。これは、通常は、MVを時間的に予測すると共に、何らかの通常の符号化方法を用いて差分を符号化することにより達成される。
図2は、本発明の原理を一実施化するために使用することができるような、符号100で示すエンコーダの実施例を示している。該エンコーダ100は、入力ビデオを1つの単位として符号化される1群のフレーム(GOF)に分割するための分割ユニット120を有している。無制約又はリフティング型MCTFユニット130が含まれ、該MCTFユニットは動き推定ユニット132及び時間フィルタ処理ユニット134を有している。動き推定ユニット132は、後に更に詳述するように、本発明の方法に従い各GOF内のフレームに対して双方向動き推定又は予測を行う。時間フィルタ処理ユニット134は、動き推定ユニット132により供給される動きベクトルMV及びフレーム番号に基づいて各GOFのフレーム間の時間的冗長性を除去する。空間分解ユニット140が含まれ、MCTFユニット130により供給されるフレーム内の空間的冗長性を低減する。処理の間において、MCTFユニット130から入力されるフレームは、空間分解ユニット140により2Dウェーブレット変換に従いウェーブレット係数に空間的に変換することができる。多くの異なる種類の既知のフィルタ及びウェーブレット変換の構成が存在する。空間分解ユニット140の出力をウェーブレット係数の大きさ等の有意情報に従って符号化するために有意符号化ユニット105が含まれ、ここでは、大きな係数が小さな係数よりも一層意味がある。出力ビットストリームを生成するためにエントロピ符号化ユニット160が含まれている。該エントロピ符号化ユニット160は、前記ウェーブレット係数を出力ビットストリームにエントロピ符号化する。後に更に詳述するように、該エントロピ符号化ユニット160は、本発明の方法に基づいて動き推定ユニット132により供給されるMV及びフレーム番号もエントロピ符号化する。この情報は、復号を可能にするために上記出力ビットストリームに含まれる。好適なエントロピ符号化技術の例は、制限するものではないが、算術符号化及び可変長符号化を含む。
以下、差分動きベクトル符号化方法を図3のGOFを参照して説明するが、該図は説明の簡略化のために、レベル0及びレベル1と呼ぶ2つの異なる時間的分解レベルにおける3つの動きベクトルのみを考察する。MV1及びMV2は、時間的分解レベル0においてHフレーム(中間のフレーム)を前のAフレーム(左側Aフレーム)及び続くAフレーム(右側Aフレーム)に接続する双方向動きベクトルである。この時間的分解レベルにおけるフィルタ処理の後、上記Aフレームは次の時間的分解レベル(即ち、レベル1)においてフィルタ処理され、ここでは、MV3が斯かる2つのフレームを接続する動きベクトルに対応する。
本発明の方法のトップダウン予測及び符号化方法(該方法のステップは図4のフローチャートに示される)に基づき、レベル0におけるMVはレベル1におけるMVを予測するために使用され、等々となる。図3の簡略化された例を使用すると、ステップ200は、MV1及びMV2を決定する処理を含む。MV1及びMV2は、動き推定の間にレベル0において動き推定ユニット132により従来のように決定することができる。動き推定の間において、Hフレームにおけるピクセル群又は領域が前のAフレームにおける同様のピクセル群又は領域と突き合わされてMV1を得る一方、上記Hフレームのピクセル群又は領域が後続のAフレームにおける同様のピクセル群又は領域と突き合わされてMV2を得る。ステップ210において、MV3はレベル1に関して、MV1及びMV2に基づく細分(refinement)として推定又は予測される。MV3の推定は、レベル0の前のAフレームにおける同様のピクセル群又は領域に一致するようなレベル0の後続するAフレームにおけるピクセル群又は領域の推定である。MV3の推定又は予測は、MV1とMV2との間の差分を計算することにより得ることができる。ステップ220において、エントロピ符号化ユニット160(図2)はMV1及びMV2をエントロピ符号化する。本方法は、ここで終了することができるか、又はオプションとしてステップ230において、エントロピ符号化ユニット160はMV3に対する細分を符号化することもできる。
MV1及びMV2は正確でありそうなので(フレーム間の距離が小さいので)、MV3に対する予測も良好でありそうであり、これにより符号化効率の増加につながる。2つの異なるビデオシーケンスに対する結果が図5A、5B、6A及び6Bに示されている。両シーケンスは30HzにおけるQCIFである。これらの例においては、16フレームのGOFサイズ、4レベルの時間的分解、16x16の固定ブロックサイズ及び±64の検索範囲が使用された。当該結果は順方向及び逆方向MVを別個に提示し、該結果の内容依存的性質を強調するためにシーケンスの異なるGOFにわたり示されている。同じグラフが、MVを符号化するための何の予測も、空間予測も使用しない結果もプロットしている。符号化に要する結果としてのビットは、図7の表に要約されている。
予測された通り、図5A及び5Bのコーストガード(Coastguard)ビデオシーケンスにおける大きな時間的に相関された動きにより、大きなビットの節約が存在する。これら結果の内容依存的性質を理解することが重要である。例えば、図6A及び6Bのフォアマン(Foreman)ビデオシーケンスの終了近くでは、動きは非常に小さく、空間的に非常によく相関されている。これは、MVの空間予測符号化により非常に良好な性能につながる。また、GOF5の辺りの、コーストガードビデオシーケンスにおける突然のカメラ動きの間では、動きの空間的及び時間的予測は多くの利得は提供しない。
本発明の方法のトップダウン予測及び符号化実施例はビットレート節約を実現するので、本発明の該実施例は動き推定処理の間において使用することもできる。これの一例が、図8に示されている。
予測後の異なる検索範囲サイズを考察した後、これがビットレート、品質及び推定の複雑さの間での興味或る取引を提供することができることが観察された。図9の表は時間的予測位置の周辺の異なる検索サイズウインドウ(時間的予測が検索中心として使用される)の結果を要約している。
ME(動き推定)に対する無予測の行は、図7の表における結果に対応する。予測されたように、コーストガードビデオシーケンスにおける大きな時間的に相関された動きにより、MVビットが大きく節約される。他の行を“MVに対して無予測”行と比較することにより分かるように、推定の間における時間的MV予測は、MVビットを更に低減する助けとなる。MVビットのこの低減は、テクスチャに対する一層多くのビットを、従って動きが時間的に相関された場合に一層高いPSNRを可能にする。予測後の範囲の増加に伴い、一致の品質が改善し、従って、MVに対するビットは増加するが、PSNRが実際に改善する。内容及び動きの性質に依存して、結果はGOFからGOFへと変化することに注意すべきである。幾つかのGOFに対して、0.4dBまでのPSNRの改善、又は12%までの空間予測に対するMVビットの節約が観測された。
上記トップダウン予測及び符号化実施例を使用する問題点の1つは、時間的再組立の前に、全ての動きベクトルが復号されねばならないという事実である。従って、MV3を復号することができる前にMV1及びMV2は復号されねばならず、そうすればレベル1を再組立することができる。これは、より高いレベルの幾つかが独立に復号される必要があるような時間的スケーラビリティにとり好ましくない。
上記トップダウン予測及び符号化実施例は、より高い時間的レベルにおける動き推定がフィルタ処理されたフレームに対して実行されるようなリフティングフレームワーク内でMVを符号化するために容易に使用することができる。しかしながら、Lフレームを作成するために使用される時間的平均のために、差分的MV符号化の利得は小さくなりがちである。第1に、時間的平均は、シーンにおける対象の幾らかの平滑化及びぼやけ(smearing)につながる。また、良好な一致が見つけられない場合、幾らかの不所望なアーチファクトが生成される。この場合、平均フレーム間の動きベクトルを予測するためにフィルタ処理されていないフレーム間の動きベクトルを使用すること、又はその逆は、劣った予測につながり得る。これは、動きベクトル符号化の効率を低減させ得る。
次に、図10のフローチャートを参照すると、本発明の方法のボトムアップ予測及び符号化実施例が示されている。この実施例では、レベル0におけるMVを予測するためにレベル1におけるMVが使用され、等々となる。再び図3の簡略化された例を用いると、ステップ300はMV3を決定するステップを含む。MV3は、動き推定の間のレベル1において、動き推定ユニット132により従来のように決定することができる。動き推定の間において、レベル0の後続のAフレームにおけるピクセル群又は領域が、レベル0の前のAフレームにおける同様のピクセル群又は領域と突き合わされる。ステップ310において、レベル0に対するMV1及びMV2が、MV3に基づく細分として各々推定又は予測される。MV1に対する推定は、前のAフレームにおける同様のピクセル群又は領域に一致するような、Hフレームにおけるピクセル群又は領域の推定である。MV2に対する推定は、後続のAフレームにおける同様のピクセル群又は領域に一致するような、Hフレームにおけるピクセル群又は領域の推定である。MV1の推定はMV3とMV2との間の差分を計算することにより得ることができる。MV2の推定はMV3とMV1との間の差分を計算することにより得ることができる。ステップ320において、エントロピ符号化ユニット160(図2)が、MV3をエントロピ符号化する。本方法は、ここで終了するか、又はオプション的にステップ330において、エントロピ符号化ユニット160はMV1及び/又はMV2に対する細分を符号化することもできる。
上記ボトムアップ予測及び符号化実施例は時間的に階層的な動きベクトルを生成し、該動きベクトルは時間的分解構成の異なるレベルにおいて漸進的に使用することができる。従って、MV3は、MV2及びMV1を復号する必要性無しに、レベル1を再組立するために使用することができる。また、ここでは、MV3は時間的に分解されたフレームの場合と同様にMV2及びMV1より重要であるので、より強いビットストリームを生成するために不等誤差防止(UEP)方法と容易に組み合わせることができる。これは、特に低ビットレート構成の場合に有益であり得る。しかしながら、該予測方法は、前述したトップダウン実施例よりも効率的ではない傾向にある。これは、MV3が不正確でありがちであり(ソースフレームと参照フレームとの間の大きな距離により)、不正確な予測の使用はビットの増加につながり得るからである。トップダウン実施例におけるのと同様に、同じ解像度及び同じ動き推定パラメータにおけるフォアマン及びコーストガードビデオシーケンスに対して実験が行われた。符号化のみ(動き推定の間において予測無し)に対する時間的予測の利得を示すために、結果が図11A、11B、12A及び12Bに提示されている。これの結果は図13の表に要約されている。
予測された通り、予測結果はトップダウン実施例におけるようには良好ではなく、特に動きが時間的に相関されていないGOFに対しては性能の大幅な劣化が存在する。図11A及び11Bからは、コーストガードビデオシーケンスのGOF5に対して時間的予測が極端に劣ることが分かる。これは、GOF5周辺では、急激なカメラの動きが存在し、結果としての動きが低い時間的相関しか有さないからである。これら結果の内容依存的性質、及び時間的フィルタ処理を使用する判断は適応的にオン及びオフすることができるという事実が再強調されるべきである。
上記実験の幾つかが、動き推定の間にボトムアップ実施例を使用して繰り返され、その結果が図14の表に要約されている。見られるように、該結果はトップダウン予測実施例の結果ほど良好ではない。しかしながら、もっと興味あるのは、コーストガードビデオシーケンスに対する結果を見ると、時間的予測後のMVに対するビット数はウインドウサイズの増加に伴い減少することが分かる。これは直感に反するように見えるが、以下のように説明することができる。時間的予測が悪い場合、小さな検索ウインドウは、より正確な予測の発見を可能にする代わりに、この劣った予測の近くに結果を制限してしまう。この予測からの小さな距離は、現レベルで符号化するのに少ないビットで済む結果となるが、次の(より早い)時間的レベルに対して良好な予測を持たないことは、当該性能を著しく悪化させ得る。これが、図15表における結果により実際に明確に示されている。これら全ての結果は、4レベルの時間的分解による16フレームGOFからのものである。MVビットは5つのフレームに対して、即ちレベル3でフィルタ処理されたフレーム8、レベル2でフィルタ処理されたフレーム4及び12、並びにレベル1でフィルタ処理されたフレーム2及び6に対して示されている。フレーム8のMVはフレーム4及び12のMVを予測するために使用され、フレーム4のMVはフレーム2及び6のMVを予測するために使用される。
フレーム8に対しては、時間的予測は存在せず、従って両方の場合においてビット数は同じである。より小さなウインドウサイズにより、フレーム4及び12に対しては±4のウインドウの場合にビット数はより小さい。しかしながら、この結果レベル1におけるフレームに対して予測が劣ることになるという事実が、フレーム6のMVビットが±16ウインドウサイズに対して大幅に小さいという事実により示されている。事実、レベル2における全ての節約は、レベル1において完全に否定されている。しかしながら、動きが時間的に相関されている場合、この方法の使用は結果としてビットレートの節約及び改善されたPSNRになり得る。
結果を改善する当該思想の興味或る拡張が可能である。予測は可能な限り正確であることが望まれるので、レベル3において大きなウインドウサイズで開始される必要があり、次いで、異なるレベルにわたりウインドウサイズを減少する。例えば、±64ウインドウサイズをレベル3及び2で使用し、次いでレベル1において±16ウインドウサイズに減少することができる。これは、ビットの低減及びPSNRの改善につながり得る。
上述した議論の全ては、動き推定がオリジナルのフレームに対して全ての時間的レベルにおいて実行されるようなUMCTFフレームワークに対するものである。上記方法を、動き推定がフィルタ処理されたLフレームに対して一層高い時間的レベルにおいて実行されるようなリフティング型の構成に対して適用することは困難であろう。前述したトップダウン実施例は困難さを伴わずに適用することができ、結果がUMCTFに対するよりも僅かに良好であることが期待される。何故なら、Lフレームは、より低い時間的レベルにおいて推定された動きベクトルを考慮に入れることにより計算されるからである。しかしながら、ボトムアップ実施例の場合は、幾つかの困難さ、特に因果関係の問題に遭遇し得る。
図16に示すように、動き推定の間にボトムアップ予測実施例を実施するためには、MV3はMV1及びMV2を予測するために使用される必要がある。しかしながら、MV3に関する推定がフィルタ処理されたLフレームに対して実行される必要がある場合は、MV1及びMV2は既に推定されている必要がある。これは、これらがLフレームの作成の間に使用されるからである。従って、MV3はMV1及びMV2の推定の間の予測のためには使用され得なかった。代わりに、MV3に関する動き推定がフィルタ処理されていないフレーム(即ち、オリジナルのフレーム)に対して実行される場合、推定の間のボトムアップ予測を使用することができる。しかしながら、利得はUMCTF方法に対するよりも悪そうである。勿論、ボトムアップ予測実施例は動きベクトルの符号化(推定の間の予測無しで)の間に使用することができるが、トップダウン実施例に関連して述べたように、異なるレベルにおける動きベクトルの間に幾らかの不整合が存在し得る。
次に図17を参照すると、本発明の方法の混合されたハイブリッド予測及び符号化実施例が示されている。この実施例においては、或る分解レベルからのMVを他のレベルからのMVを予測するために使用する代わりに、異なるレベルからのMVの混合が、他のMVを予測するために使用される。例えば、現レベルからの一層高いレベルのMV及び順方向MVを、逆方向MVを予測するために使用することができる。再び図3の簡略化された例を使用すると、ステップ400はMV1及びMV3を決定するステップを含み、これらの両者は、動き推定の間にレベル0(MV1)及びレベル1(MV3)において動き推定ユニット132により従来のように決定することができる。ステップ410において、レベル0に関するMV2が、MV1及びMV3に基づく細分として推定又は予測される。MV2の推定は、MV1とMV3との間の差分を計算することにより得ることができる。ステップ420において、エントロピ符号化ユニット160(図2)はMV1及びMV3をエントロピ符号化する。当該方法は、ここで終了するか、オプションとしてステップ430において、エントロピ符号化ユニット160はMV2に関する前記細分を符号化することもできる。
図18は、本発明の原理を実施化するために使用することが可能な、符号500により示すデコーダの実施例を示している。該デコーダ500は入力ビットストリームを復号するためのエントロピ復号ユニット510を含んでいる。動作の間において、入力ビットストリームは、各GOFに対応するウェーブレット係数を生成するような、符号化側で実行されるエントロピ符号化技術の逆に従って復号される。更に、該エントロピ復号は、本発明により予測されたMVを含むようなMV、及び後に使用されるフレーム番号を生成する。
エントロピ復号ユニット510からのウェーブレット係数を重要度情報に従って復号するために、重要度復号ユニット520が含まれている。従って、動作の間において、ウェーブレット係数は、エンコーダ側で使用された技術の逆を使用することにより正しい空間的順序に従って配列される。更に見られるように、重要度復号ユニット520からのウェーブレット係数を部分的に復号されたフレームに変換するために、空間的再組立ユニット530も含まれている。動作の間において、各GOFに対応するウェーブレット係数は、エンコーダ側で実行されたウェーブレット変換の逆に従って変換される。これは、本発明に従い動き補償され時間的にフィルタ処理された、部分的に復号されたフレームを生成する。
前述したように、本発明による動き補償された時間的フィルタ処理の結果、各GOFは多数のHフレーム及びAフレームにより表されるようになる。Hフレームは、GOFにおける各フレームと、同じGOF内の他のフレームとの間の差分であり、Aフレームはエンコーダ側の動き推定及び時間的フィルタ処理により処理されていない最初又は最後のフレームである。逆時間的フィルタ処理ユニット540が含まれ、空間的再組立ユニット530からの各GOFに含まれるHフレームを、エントロピ復号ユニット510により供給されるMV及びフレーム番号に基づいて、エンコーダ側で実行された時間的フィルタ処理の逆を実行することにより再構築する。
図19は、本発明の原理を実施化することができる、符号600により示すシステムの実施例を示している。例示として、システム600は、テレビジョン、セット・トップ・ボックス、デスクトップ、ラップトップ又はパームトップコンピュータ、パーソナル・デジタル・アシスタント(PDA)、ビデオカセットレコーダ(VCR)、デジタルビデオレコーダ(DVR)、TiVo装置等のビデオ/画像記憶装置、並びにこれら及び他の装置の一部又は組合せを表すことができる。システム600は、1以上のビデオソース610、1以上の入力/出力装置620、プロセッサ630、メモリ640及び表示装置650を含む。
ビデオ/画像ソース(又は複数のソース)610は、例えばテレビジョン受信機、VCR又は他のビデオ/画像記憶装置を表すことができる。他の例として、ソース(又は複数のソース)610は、例えばインターネットのような全地球的コンピュータ通信ネットワーク、広域ネットワーク、都市地域ネットワーク、ローカルエリアネットワーク、地上放送システム、ケーブルネットワーク、衛星ネットワーク、無線ネットワーク、又は電話ネットワーク、並びにこれら及び他の型式のネットワークの部分若しくは組合せ等を介して、サーバ若しくは複数のサーバからビデオを受信する1以上のネットワーク接続を表すことができる。
入力/出力装置620、プロセッサ630及びメモリ640は、通信媒体660を介して通信する。通信媒体660は、例えばバス、通信ネットワーク、回路、回路カード又は他の装置の1以上の内部接続、並びにこれら及び他の通信媒体の一部及び組合せ等を表すことができる。ソース(又は複数のソース)610からの入力ビデオデータは、メモリ640に記憶されプロセッサ630により実行される1以上のソフトウェアプログラムに従って処理され、表示装置650に供給される出力ビデオ/画像を発生する。
特に、メモリ640に記憶される上記ソフトウェアプログラムは、前述したような本発明の方法を含むことができる。この実施例において、本発明の方法は、システム600により実行されるコンピュータ読み取り可能なコードにより実施化することができる。該コードは、メモリ640に記憶するか、又はCD−ROM又はフロッピーディスク等のメモリ媒体から読み取り/ダウンロードすることができる。他の実施例では、本発明を実施化するために、ソフトウェア命令の代わりに、又は斯かるソフトウェア命令との組合せでハードウェア回路を使用することもできる。
MCTFフレームワーク内での複数レベルの時間的分解にわたる時間的MV予測は、UMCTF及びリフティング型MCTFフレームワーク内で発生される追加の群の動きベクトルを効率的に符号化するために必要である。推定処理が予測を使用しない場合、又は推定が時間的予測も使用する場合、MVは差分的に符号化することができる。トップダウン実施例の方がより効率的であるが、ボトムアップ実施例の場合のように、時間的スケーラビリティをサポートしない。動きが時間的に相関される場合、これらの方法の使用は、MVビットを、予測無しに対して5〜13%、空間予測に対して約3〜5%低減することができる。このMVビットの低減により、より多くのビットをテクスチャ符号化に割り当てることができ、従って結果としてのPSNRが改善する。QCIFシーケンスに対して、50Kbpsにおいて約0.1〜0.2dBのPSNRの改善が観察された。重要なことに、該結果は大きな内容依存性を示す。事実、時間的に相関された動きを伴うGOFに対して、斯様な方法はMVビットを大幅に低減することができると共に、PSNRを0.4dBまで改善することができる。このように、本発明の方法は、コンテンツ及び動きの性質に基づいて、適応的に使用することができる。本発明により達成される改善は、利用することが可能な一層大きな時間的相関により、複数の参照フレームが使用される場合に、より大幅になりそうである。動き推定の間にMV予測が使用される場合、ビットレート、品質及び動き推定の複雑さの間で異なる取引をなすことができる。
以上、本発明を特定の実施例に関して説明したが、本発明は、これに限定又は制限されることを意図するものではないと理解されるべきである。従って、本発明は、添付請求項の趣旨及び範囲内に含まれる本発明の種々の構造及び変形もカバーすることを意図するものである。
MVビットを
MVビットを
Claims (18)
- ビデオを符号化する方法において、該方法が、
前記ビデオを一群のフレームに分割するステップと、
前記フレームを時間的にフィルタ処理して、少なくとも第1及び第2の時間的分解レベルを形成するステップと、
前記第1の分解レベルからの少なくとも2つの動きベクトルを決定するステップと、
前記第2の時間的分解レベル上の少なくとも1つの動きベクトルを、前記第1の時間的分解レベルからの前記少なくとも2つの動きベクトルの細分として推定するステップと、
前記第1の時間的分解レベルからの前記少なくとも2つの動きベクトルを符号化するステップと、
を有することを特徴とする方法。 - 請求項1に記載の方法において、前記第2の時間的分解レベルの前記推定された少なくとも1つの動きベクトルを符号化するステップを更に有していることを特徴とする方法。
- ビデオを符号化する方法において、該方法が、
前記ビデオを一群のフレームに分割するステップと、
前記フレームを時間的にフィルタ処理して、少なくとも第1及び第2の時間的分解レベルを形成するステップと、
前記第2の分解レベルからの少なくとも1つの動きベクトルを決定するステップと、
前記第1の時間的分解レベル上の少なくとも2つの動きベクトルを、前記第2の時間的分解レベルからの前記少なくとも1つの動きベクトルの細分として推定するステップと、
前記第2の時間的分解レベルからの前記少なくとも1つの動きベクトルを符号化するステップと、
を有することを特徴とする方法。 - 請求項3に記載の方法において、前記第1の時間的分解レベルの前記推定された少なくとも2つの動きベクトルを符号化するステップを更に有していることを特徴とする方法。
- ビデオを符号化する方法において、該方法が、
前記ビデオを一群のフレームに分割するステップと、
前記フレームを時間的にフィルタ処理して、少なくとも第1及び第2の時間的分解レベルを形成するステップと、
前記第1の時間的分解レベルからの少なくとも1つの動きベクトル及び前記第2の時間的分解レベルからの少なくとも1つの動きベクトルを決定するステップと、
前記第1の時間的分解レベルの少なくとも第2動きベクトルを、前記第1の時間的分解レベルからの前記少なくとも1つの動きベクトル及び前記第2の時間的分解レベルからの前記少なくとも1つの動きベクトルの細分として推定するステップと、
前記第1の時間的分解レベルからの前記少なくとも1つの動きベクトル及び前記第2の時間的分解レベルからの前記少なくとも1つの動きベクトルを符号化するステップと、
を有することを特徴とする方法。 - 請求項5に記載の方法において、前記第1の時間的分解レベルの前記推定された少なくとも第2動きベクトルを符号化するステップを更に有していることを特徴とする方法。
- ビデオを符号化する装置において、
前記ビデオを一群のフレームに分割する手段と、
前記フレームを時間的にフィルタ処理して、少なくとも第1及び第2の時間的分解レベルを形成する手段と、
前記第1の分解レベルからの少なくとも2つの動きベクトルを決定する手段と、
前記第2の時間的分解レベル上の少なくとも1つの動きベクトルを、前記第1の時間的分解レベルからの前記少なくとも2つの動きベクトルの細分として推定する手段と、
前記第1の時間的分解レベルからの前記少なくとも2つの動きベクトルを符号化する手段と、
を有することを特徴とする装置。 - 請求項7に記載の装置において、前記第2の時間的分解レベルの前記推定された少なくとも1つの動きベクトルを符号化する手段を更に有していることを特徴とする装置。
- ビデオを符号化するメモリ媒体において、
前記ビデオを一群のフレームに分割するコードと、
前記フレームを時間的にフィルタ処理して、少なくとも第1及び第2の時間的分解レベルを形成するコードと、
前記第1の分解レベルからの少なくとも2つの動きベクトルを決定するコードと、
前記第2の時間的分解レベル上の少なくとも1つの動きベクトルを、前記第1の時間的分解レベルからの前記少なくとも2つの動きベクトルの細分として推定するコードと、
前記第1の時間的分解レベルからの前記少なくとも2つの動きベクトルを符号化するコードと、
を有することを特徴とするメモリ媒体。 - 請求項9に記載のメモリ媒体において、前記第2の時間的分解レベルの前記推定された少なくとも1つの動きベクトルを符号化するコードを更に有していることを特徴とするメモリ媒体。
- ビデオを符号化する装置において、
前記ビデオを一群のフレームに分割する手段と、
前記フレームを時間的にフィルタ処理して、少なくとも第1及び第2の時間的分解レベルを形成する手段と、
前記第2の分解レベルからの少なくとも1つの動きベクトルを決定する手段と、
前記第1の時間的分解レベル上の少なくとも2つの動きベクトルを、前記第2の時間的分解レベルからの前記少なくとも1つの動きベクトルの細分として推定する手段と、
前記第2の時間的分解レベルからの前記少なくとも1つの動きベクトルを符号化する手段と、
を有することを特徴とする装置。 - 請求項11に記載の装置において、前記第1の時間的分解レベルの前記推定された少なくとも2つの動きベクトルを符号化する手段を更に有していることを特徴とする装置。
- ビデオを符号化するメモリ媒体において、
前記ビデオを一群のフレームに分割するコードと、
前記フレームを時間的にフィルタ処理して、少なくとも第1及び第2の時間的分解レベルを形成するコードと、
前記第2の分解レベルからの少なくとも1つの動きベクトルを決定するコードと、
前記第1の時間的分解レベル上の少なくとも2つの動きベクトルを、前記第2の時間的分解レベルからの前記少なくとも1つの動きベクトルの細分として推定するコードと、
前記第2の時間的分解レベルからの前記少なくとも1つの動きベクトルを符号化するコードと、
を有することを特徴とするメモリ媒体。 - 請求項13に記載のメモリ媒体において、前記第1の時間的分解レベルの前記推定された少なくとも2つの動きベクトルを符号化するコードを更に有していることを特徴とするメモリ媒体。
- ビデオを符号化する装置において、
前記ビデオを一群のフレームに分割する手段と、
前記フレームを時間的にフィルタ処理して、少なくとも第1及び第2の時間的分解レベルを形成する手段と、
前記第1の時間的分解レベルからの少なくとも1つの動きベクトル及び前記第2の時間的分解レベルからの少なくとも1つの動きベクトルを決定する手段と、
前記第1の時間的分解レベルの少なくとも第2動きベクトルを、前記第1の時間的分解レベルからの前記少なくとも1つの動きベクトル及び前記第2の時間的分解レベルからの前記少なくとも1つの動きベクトルの細分として推定する手段と、
前記第1の時間的分解レベルからの前記少なくとも1つの動きベクトル及び前記第2の時間的分解レベルからの前記少なくとも1つの動きベクトルを符号化する手段と、
を有することを特徴とする装置。 - 請求項15に記載の装置において、前記第1の時間的分解レベルの前記推定された少なくとも第2動きベクトルを符号化する手段を更に有していることを特徴とする装置。
- ビデオを符号化するメモリ媒体において、
前記ビデオを一群のフレームに分割するコードと、
前記フレームを時間的にフィルタ処理して、少なくとも第1及び第2の時間的分解レベルを形成するコードと、
前記第1の時間的分解レベルからの少なくとも1つの動きベクトル及び前記第2の時間的分解レベルからの少なくとも1つの動きベクトルを決定するコードと、
前記第1の時間的分解レベルの少なくとも第2動きベクトルを、前記第1の時間的分解レベルからの前記少なくとも1つの動きベクトル及び前記第2の時間的分解レベルからの前記少なくとも1つの動きベクトルの細分として推定するコードと、
前記第1の時間的分解レベルからの前記少なくとも1つの動きベクトル及び前記第2の時間的分解レベルからの前記少なくとも1つの動きベクトルを符号化するコードと、
を有することを特徴とするメモリ媒体。 - 請求項17に記載のメモリ媒体において、前記第1の時間的分解レベルの前記推定された少なくとも第2動きベクトルを符号化するコードを更に有していることを特徴とするメモリ媒体。
Applications Claiming Priority (3)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
US41659202P | 2002-10-07 | 2002-10-07 | |
US48379503P | 2003-06-30 | 2003-06-30 | |
PCT/IB2003/004291 WO2004032519A1 (en) | 2002-10-07 | 2003-09-24 | Efficient motion-vector prediction for unconstrained and lifting-based motion compensated temporal filtering |
Publications (1)
Publication Number | Publication Date |
---|---|
JP2006502677A true JP2006502677A (ja) | 2006-01-19 |
Family
ID=32073415
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
JP2005500070A Pending JP2006502677A (ja) | 2002-10-07 | 2003-09-24 | 無制約及びリフティング型動き補償時間フィルタ処理のための効率的動きベクトル予測 |
Country Status (6)
Country | Link |
---|---|
US (1) | US20050286632A1 (ja) |
EP (1) | EP1552703A1 (ja) |
JP (1) | JP2006502677A (ja) |
KR (1) | KR20050065582A (ja) |
AU (1) | AU2003263533A1 (ja) |
WO (1) | WO2004032519A1 (ja) |
Cited By (1)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
JP2016529747A (ja) * | 2013-05-23 | 2016-09-23 | トムソン ライセンシングThomson Licensing | ビデオシーケンスをトーンマッピングする方法 |
Families Citing this family (7)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
KR20060043051A (ko) * | 2004-09-23 | 2006-05-15 | 엘지전자 주식회사 | 영상 신호의 인코딩 및 디코딩 방법 |
US20070014365A1 (en) * | 2005-07-18 | 2007-01-18 | Macinnis Alexander | Method and system for motion estimation |
KR100818921B1 (ko) * | 2006-01-12 | 2008-04-03 | 삼성전자주식회사 | 모션 벡터 압축 방법, 상기 압축 방법을 이용하는 비디오인코더 및 비디오 디코더 |
US8265157B2 (en) * | 2007-02-07 | 2012-09-11 | Lsi Corporation | Motion vector refinement for MPEG-2 to H.264 video transcoding |
KR101493325B1 (ko) * | 2008-09-03 | 2015-02-16 | 삼성전자주식회사 | 정밀 움직임 예측을 기반으로 한 프레임 보간 장치 및 그 방법 |
US9137555B2 (en) * | 2010-10-05 | 2015-09-15 | Telefonaktiebolaget L M Ericsson (Publ) | Client, a content creator entity and methods thereof for media streaming |
PL2675169T3 (pl) | 2011-02-09 | 2020-01-31 | Lg Electronics Inc. | Sposób kodowania i dekodowania danych obrazu z elementem predykcji czasowego wektora ruchu i urządzenie wykorzystujące ten sposób |
Family Cites Families (1)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
US6907075B2 (en) * | 2000-06-30 | 2005-06-14 | Koninklijke Philips Electronics N.V. | Encoding method for the compression of a video sequence |
-
2003
- 2003-09-24 JP JP2005500070A patent/JP2006502677A/ja active Pending
- 2003-09-24 WO PCT/IB2003/004291 patent/WO2004032519A1/en not_active Application Discontinuation
- 2003-09-24 KR KR1020057006015A patent/KR20050065582A/ko not_active Application Discontinuation
- 2003-09-24 EP EP03799033A patent/EP1552703A1/en not_active Withdrawn
- 2003-09-24 US US10/530,265 patent/US20050286632A1/en not_active Abandoned
- 2003-09-24 AU AU2003263533A patent/AU2003263533A1/en not_active Abandoned
Cited By (1)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
JP2016529747A (ja) * | 2013-05-23 | 2016-09-23 | トムソン ライセンシングThomson Licensing | ビデオシーケンスをトーンマッピングする方法 |
Also Published As
Publication number | Publication date |
---|---|
KR20050065582A (ko) | 2005-06-29 |
EP1552703A1 (en) | 2005-07-13 |
WO2004032519A1 (en) | 2004-04-15 |
US20050286632A1 (en) | 2005-12-29 |
AU2003263533A1 (en) | 2004-04-23 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
US7944975B2 (en) | Inter-frame prediction method in video coding, video encoder, video decoding method, and video decoder | |
KR101183304B1 (ko) | Sdmctf 인코딩된 비디오의 3d 부-대역 디코딩에서의 공간 확장성 | |
US8817872B2 (en) | Method and apparatus for encoding/decoding multi-layer video using weighted prediction | |
US7042946B2 (en) | Wavelet based coding using motion compensated filtering based on both single and multiple reference frames | |
EP1737243A2 (en) | Video coding method and apparatus using multi-layer based weighted prediction | |
US7023923B2 (en) | Motion compensated temporal filtering based on multiple reference frames for wavelet based coding | |
US20060209961A1 (en) | Video encoding/decoding method and apparatus using motion prediction between temporal levels | |
US20030202599A1 (en) | Scalable wavelet based coding using motion compensated temporal filtering based on multiple reference frames | |
JP2004519909A (ja) | 細粒度スケーラビリティビデオ符号化における上位レイヤのための改善された予測構造 | |
JP2007081720A (ja) | 符号化方法 | |
EP1878252A1 (en) | Method and apparatus for encoding/decoding multi-layer video using weighted prediction | |
JP2006502677A (ja) | 無制約及びリフティング型動き補償時間フィルタ処理のための効率的動きベクトル予測 | |
WO1997004402A1 (en) | Method and apparatus for regenerating a dense motion vector field | |
JP2005524354A (ja) | 複数基準フレームに基づいた動き補償時間的フィルタ化を行うウェーブレット・ベース符号化 | |
JP2006501750A (ja) | ウェーブレットベースの符号化において、動き補償された時間フィルタリングのための、フィルタリングされた領域とフィルタリングされない領域とを両方備えるlフレーム | |
US20060088100A1 (en) | Video coding method and apparatus supporting temporal scalability | |
AU681324C (en) | Method and apparatus for regenerating a dense motion vector field | |
WO2006043754A1 (en) | Video coding method and apparatus supporting temporal scalability | |
WO2006098586A1 (en) | Video encoding/decoding method and apparatus using motion prediction between temporal levels | |
WO2006080665A1 (en) | Video coding method and apparatus |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
A621 | Written request for application examination |
Free format text: JAPANESE INTERMEDIATE CODE: A621 Effective date: 20060922 |
|
A131 | Notification of reasons for refusal |
Free format text: JAPANESE INTERMEDIATE CODE: A131 Effective date: 20090604 |
|
A02 | Decision of refusal |
Free format text: JAPANESE INTERMEDIATE CODE: A02 Effective date: 20091112 |