JP2015515806A - コンテキストベースの映像符号化及び映像復号化 - Google Patents
コンテキストベースの映像符号化及び映像復号化 Download PDFInfo
- Publication number
- JP2015515806A JP2015515806A JP2015503204A JP2015503204A JP2015515806A JP 2015515806 A JP2015515806 A JP 2015515806A JP 2015503204 A JP2015503204 A JP 2015503204A JP 2015503204 A JP2015503204 A JP 2015503204A JP 2015515806 A JP2015515806 A JP 2015515806A
- Authority
- JP
- Japan
- Prior art keywords
- feature
- prediction
- video data
- macroblock
- model
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Pending
Links
- 238000000034 method Methods 0.000 claims abstract description 122
- 230000008569 process Effects 0.000 claims abstract description 62
- 238000012545 processing Methods 0.000 claims abstract description 49
- 238000004422 calculation algorithm Methods 0.000 claims abstract description 40
- 238000001514 detection method Methods 0.000 claims abstract description 32
- 230000002596 correlated effect Effects 0.000 claims abstract description 17
- 230000033001 locomotion Effects 0.000 claims description 65
- 238000007906 compression Methods 0.000 claims description 62
- 230000006835 compression Effects 0.000 claims description 60
- 239000013598 vector Substances 0.000 claims description 53
- 230000000875 corresponding effect Effects 0.000 claims description 28
- 239000011159 matrix material Substances 0.000 claims description 19
- 238000004590 computer program Methods 0.000 claims description 16
- 239000002131 composite material Substances 0.000 claims description 11
- 238000005070 sampling Methods 0.000 claims description 11
- 230000002860 competitive effect Effects 0.000 claims description 6
- 230000001276 controlling effect Effects 0.000 claims description 5
- 230000006872 improvement Effects 0.000 claims description 3
- 238000011156 evaluation Methods 0.000 claims description 2
- 238000003672 processing method Methods 0.000 claims 22
- 230000001747 exhibiting effect Effects 0.000 claims 1
- 230000001131 transforming effect Effects 0.000 claims 1
- 238000010586 diagram Methods 0.000 description 31
- 230000006870 function Effects 0.000 description 13
- 230000003044 adaptive effect Effects 0.000 description 12
- 238000003860 storage Methods 0.000 description 12
- 230000008859 change Effects 0.000 description 11
- 230000007774 longterm Effects 0.000 description 11
- 230000008901 benefit Effects 0.000 description 7
- 238000000605 extraction Methods 0.000 description 7
- 238000013139 quantization Methods 0.000 description 5
- 230000009467 reduction Effects 0.000 description 5
- 230000002829 reductive effect Effects 0.000 description 5
- 230000002123 temporal effect Effects 0.000 description 5
- 230000009466 transformation Effects 0.000 description 5
- 230000002776 aggregation Effects 0.000 description 4
- 238000004220 aggregation Methods 0.000 description 4
- 238000013459 approach Methods 0.000 description 4
- 238000006243 chemical reaction Methods 0.000 description 4
- 238000004891 communication Methods 0.000 description 4
- 239000000047 product Substances 0.000 description 4
- 230000005540 biological transmission Effects 0.000 description 3
- 230000006837 decompression Effects 0.000 description 3
- 238000009826 distribution Methods 0.000 description 3
- 230000001815 facial effect Effects 0.000 description 3
- 238000002156 mixing Methods 0.000 description 3
- 239000000203 mixture Substances 0.000 description 3
- 230000000644 propagated effect Effects 0.000 description 3
- 230000015572 biosynthetic process Effects 0.000 description 2
- 238000004364 calculation method Methods 0.000 description 2
- 239000000470 constituent Substances 0.000 description 2
- 230000000694 effects Effects 0.000 description 2
- 239000000284 extract Substances 0.000 description 2
- 238000005286 illumination Methods 0.000 description 2
- 230000014759 maintenance of location Effects 0.000 description 2
- 230000007246 mechanism Effects 0.000 description 2
- 238000010606 normalization Methods 0.000 description 2
- 238000012546 transfer Methods 0.000 description 2
- 230000007704 transition Effects 0.000 description 2
- 238000013519 translation Methods 0.000 description 2
- PXFBZOLANLWPMH-UHFFFAOYSA-N 16-Epiaffinine Natural products C1C(C2=CC=CC=C2N2)=C2C(=O)CC2C(=CC)CN(C)C1C2CO PXFBZOLANLWPMH-UHFFFAOYSA-N 0.000 description 1
- 102100037812 Medium-wave-sensitive opsin 1 Human genes 0.000 description 1
- 230000004931 aggregating effect Effects 0.000 description 1
- 150000001875 compounds Chemical class 0.000 description 1
- 230000001010 compromised effect Effects 0.000 description 1
- 239000012141 concentrate Substances 0.000 description 1
- 238000000354 decomposition reaction Methods 0.000 description 1
- 230000007423 decrease Effects 0.000 description 1
- 238000012217 deletion Methods 0.000 description 1
- 230000037430 deletion Effects 0.000 description 1
- 230000001419 dependent effect Effects 0.000 description 1
- 230000004069 differentiation Effects 0.000 description 1
- 238000005315 distribution function Methods 0.000 description 1
- 238000013213 extrapolation Methods 0.000 description 1
- 210000000744 eyelid Anatomy 0.000 description 1
- 230000008570 general process Effects 0.000 description 1
- 230000010354 integration Effects 0.000 description 1
- 230000000670 limiting effect Effects 0.000 description 1
- 238000012986 modification Methods 0.000 description 1
- 230000004048 modification Effects 0.000 description 1
- 238000005457 optimization Methods 0.000 description 1
- 230000008520 organization Effects 0.000 description 1
- 230000004044 response Effects 0.000 description 1
- 230000004043 responsiveness Effects 0.000 description 1
- 230000002441 reversible effect Effects 0.000 description 1
- 230000003595 spectral effect Effects 0.000 description 1
- 239000013589 supplement Substances 0.000 description 1
- 238000003786 synthesis reaction Methods 0.000 description 1
- 238000000844 transformation Methods 0.000 description 1
- 230000037303 wrinkles Effects 0.000 description 1
Classifications
-
- H—ELECTRICITY
- H04—ELECTRIC COMMUNICATION TECHNIQUE
- H04N—PICTORIAL COMMUNICATION, e.g. TELEVISION
- H04N19/00—Methods or arrangements for coding, decoding, compressing or decompressing digital video signals
- H04N19/85—Methods or arrangements for coding, decoding, compressing or decompressing digital video signals using pre-processing or post-processing specially adapted for video compression
-
- H—ELECTRICITY
- H04—ELECTRIC COMMUNICATION TECHNIQUE
- H04N—PICTORIAL COMMUNICATION, e.g. TELEVISION
- H04N19/00—Methods or arrangements for coding, decoding, compressing or decompressing digital video signals
- H04N19/20—Methods or arrangements for coding, decoding, compressing or decompressing digital video signals using video object coding
- H04N19/23—Methods or arrangements for coding, decoding, compressing or decompressing digital video signals using video object coding with coding of regions that are present throughout a whole video segment, e.g. sprites, background or mosaic
-
- H—ELECTRICITY
- H04—ELECTRIC COMMUNICATION TECHNIQUE
- H04N—PICTORIAL COMMUNICATION, e.g. TELEVISION
- H04N19/00—Methods or arrangements for coding, decoding, compressing or decompressing digital video signals
- H04N19/50—Methods or arrangements for coding, decoding, compressing or decompressing digital video signals using predictive coding
- H04N19/503—Methods or arrangements for coding, decoding, compressing or decompressing digital video signals using predictive coding involving temporal prediction
- H04N19/51—Motion estimation or motion compensation
Landscapes
- Engineering & Computer Science (AREA)
- Multimedia (AREA)
- Signal Processing (AREA)
- Compression Or Coding Systems Of Tv Signals (AREA)
Abstract
Description
セット以外のフレームを参照フレームとして指定することも可能である。
本発明の構成要素には、記憶時または伝送時にデジタル映像データを最適に表現することができる映像圧縮プロセス及び映像解凍プロセスが含まれ得る。当該プロセスは、映像データの空間的な、時間的なまたはスペクトル的な冗長性や非関連性を有効活用する少なくとも1つの映像圧縮/符号化アルゴリズムを備え得るか又はそのようなアルゴリズムとインターフェースし得る。また、そのような有効活用は、特徴ベースのモデル/パラメータの使用及び保持によって行われ得る。以降では、「特徴」および「オブジェクト」という用語を置き換え可能に使用する。オブジェクトとは、一般性を失うことなく「大規模な特徴」と定義することができる。データのモデル化には、特徴およびオブジェクトのどちらも利用することができる。
図1Aには、少なくとも1つの映像フレーム20−1,20−2,…,20−nで検出された、特徴のインスタンス(特徴インスタンス)10−1,10−2,…,10−nが示されている。典型的に、このような特徴は、ペルから導き出される構造的情報に基づく複数の条件に基づいて、さらに、従来の圧縮法ではその特徴領域(特徴の領域)の符号化に過度の帯域量を利用しなければならないことを示す複雑性基準に基づいて検出され得る。さらに、特徴の各インスタンスは、図1Aに示すように、フレーム20−1,20−2,…,20−n内で空間的な広がり又は境界を有する「領域」30−1,30−2,…,30−nとして空間的に特定され得る。特徴のこのような領域(特徴領域)30−1,30−2,…,30−nは、例えば、ペルデータで構成される単純な直方形領域として抽出され得る。本発明の一実施形態において、前記特徴領域のサイズは、H.264のマクロブロックと同じ16×16のサイズである。
重要なのは、複数の映像フレームで特徴を検出した後、同じ特徴の複数のインスタンスを相関させることである。このプロセスは「特徴相関」と称されるプロセスであり、後述するように、(特定の特徴の経時的位置を定める)特徴トラッキングの基礎となる。ただし、この特徴相関プロセスを効果的に行うには、まず、類似する特徴インスタンスを類似しない特徴インスタンスから区別するために用いられる「特徴モデル」を定義する必要がある。
特徴を検出・モデル化した後の次の過程は、類似する特徴を、複数のフレームにわたって相関させる(対応付ける)ことである。それぞれのフレーム内に現れる各特徴インスタンスは、当該特徴の外観のサンプルである。複数の特徴インスタンスは、複数のフレームにわたって相関されることで、同じ特徴に「属する」と見なされる。同じ特徴に属するように相関された複数の特徴インスタンスは、特徴トラックを形成するように集約してもよいし、あるいは、集合体行列40(図1A)に集めるようにしてもよい。
特徴モデリング(あるいは、データモデリング全般)を用いることにより、従来のコーデックよりも圧縮を向上させることができる。標準的なインターフレーム予測では、ブロックベースの動き予測・補償を用いて、復号化した参照フレームの限られた探索空間から、各符号化単位(マクロブロック)の予測を見つけ出す。徹底的な探索を実行し、過去の全ての参照フレームで良好な予測を行おうとすると、演算負荷があまりにも大きくなってしまう。対照的に、映像を通して特徴を検出及び追跡することにより、演算負荷が過度になることなく、より多くの予測探索空間をナビゲートすることができるので、優れた予測を生成することが可能になる。特徴自体が一種のモデルであることから、以降では、「特徴ベース」および「モデルベース」という用語を置き換え可能に使用する。
本発明の一実施形態において、特徴ベースの予測は、次のようにして実行される:(1)フレームごとに特徴を検出する;(2)検出された特徴をモデル化する;(3)相異なるフレームにおける特徴を相関させて、特徴トラックを生成する;(4)特徴トラックを用いて、符号化されている最中の「現在の」フレームにおける特徴の位置を予測する;(5)現在のフレームにおけるその特徴の予測位置の近傍に存在するマクロブロックを関連付ける;および(6)前記(5)におけるマクロブロックに対して、関連付けられた特徴(相関する特徴)の特徴トラックに沿った過去の位置に基づいて予測を生成する。
ターゲットのマクロブロックに対する一次的予測(キー予測)および副次的予測の生成後に、これらの予測に基づいて、そのターゲットのマクロブロックの全体的な再構成を算出することができる。一実施形態において、前記再構成は、従来のコーデックにならって、キー予測のみに基づいた再構成とされる。以降では、このような再構成を、キー単独(KO)再構成と称する。
1. ターゲットのマクロブロックの(一次元)ベクトル(ターゲットベクトルtと称する)およびキー予測の(一次元)ベクトル(キーベクトルkと称する)を生成する;
2. ターゲットベクトルからキーベクトルを減算することにより、残差ベクトルrを算出する;
3. 副次的予測の集合をベクトル化してベクトルsiを形成する(一般性を失うことなく、これらの副次的ベクトルは、単位ノルムを有するものと仮定する)。次に、全ての副次的ベクトルからキーベクトルを減算することにより、キー減算集合si−kを生成する。これは、副次的ベクトルからキーベクトルの射影を減算するようなものである;
4. それぞれの副次的ベクトルについて、重み付け係数c=rT(si−k)を算出する;および
5. それぞれの副次的ベクトルについて、複合予測t^=k+c×(si−k)を算出する。
本発明では、モデルベース圧縮のために、複数の忠実度でデータをモデル化することが可能である。図2Aに、この一実施形態を示す。図2Aには、モデル化の4つの階層が描かれている。以下の表は、これら4つの階層をまとめたものである。以下では、これら4つの階層について詳細に説明する。
符号化プロセスでは、映像データを、圧縮フォーマット又は符号化フォーマットに変換し得る。同様に、解凍プロセスでは、圧縮された映像を、圧縮される前のフォーマット(すなわち、元々のフォーマット)に変換し得る。映像圧縮プロセス及び映像解凍プロセスは、コーデックと一般的に称されるエンコーダ/デコーダのペアにより実現され得る。
図3Dは、モデルベース予測を実行する、本発明の一実施形態のエンコーダを示す図である。コーデック360は、現在の(ターゲットの)フレームを符号化し得る(過程362)。そして、コーデック360は、そのフレーム内の各マクロブロックを符号化し得る(過程364)。標準的なH.264符号化プロセスを用いて、H.264符号化ソリューションをもたらす基礎的な(第1の)符号を定義する(過程366)。好ましい一実施形態において、エンコーダ366は、GOP(参照フレームの集合)を符号化することができるH.264エンコーダである。好ましくは、H.264エンコーダは、各フレーム内のペルを符号化するのにあたって様々な方法を適用できるように設定可能であり、そのような方法としてはイントラフレーム予測およびインターフレーム予測が挙げられ、当該インターフレーム予測では、符号化されている最中のマクロブロックに対する良好なマッチを見つけ出すために多数の参照フレームを探索することができる。好ましくは、元々のマクロブロックデータと予測との誤差が、変換及び量子化及びエントロピー符号化される。
図3Dでは、H.264によるマクロブロック符号を分析する(過程368)。過程368では、H.264によるマクロブロック符号が「効率的」であると判断された場合、そのH.264ソリューションが理想に近いと見なし、それ以上の分析を行わずに、ターゲットのマクロブロックにH.264符号化ソリューションを選択する。一実施形態において、H.264による符号化効率は、H.264による符号化サイズ(ビット)を閾値と比較することによって判定され得る。そのような閾値は、過去に符号化した映像のパーセンタイル統計から導き出され得るか、あるいは、同じ映像のこれまでのパーセンタイル統計から導き出され得る。他の実施形態において、H.264による符号化効率は、H.264エンコーダがターゲットのマクロブロックを「スキップ」マクロブロックと判断したか否かによって判定され得る、「スキップ」マクロブロックとは、その内側及び周辺のデータが、追加の符号化を実質的に必要としない程度に十分に一様であるマクロブロックのことを言う。
上記のように、まず、ターゲットのマクロブロックごとに、そのマクロブロックにとってH.264ソリューション(予測)が効率的である(「十分に良好である」)か否かを判断する。この判定結果が否定である場合、競争モードに移行する。
−トラッカー(追跡手段)の種類(FPA、MBC、SURF)、
−キー予測に用いる動きモデル(零次または一次)
−キー予測に用いるサンプリングスキーム(直接または間接)
−キー予測に用いるサブタイル化スキーム(サブタイル化を行わない、1/4分割、Y/U/V)
−再構成アルゴリズム(KOまたはPCA−L)および
−副次的な予測に用いる参照フレーム(PCA−Lの場合)。
図4は、本願の出願人によるEuclidVisionコーデック内のモデルベースの予測を実現し得る、本発明の一実施形態のデコーダの一例を示す図である。デコーダ400は、符号化された映像ビットストリームを復号化することにより、フレーム符号420の基となった入力映像フレームの近似を合成する。フレーム符号420には、対応する映像フレーム418を再構成するのにあたってデコーダ400が使用するパラメータのセットが含まれ得る。
上記のハイブリッドコーデックの態様では、特徴モデルを暗示的に利用することにより、マクロブロックの良好な予測に関する手がかりをエンコーダに与える。これとは対照的に、コーデックフレームワークにおいて、特徴モデルを明示的に利用することも可能である。ターゲットのフレーム内の特定の領域を、所与の種類のモデル(例えば、顔モデルなど)によって表現する場合、当該表現はそのモデルのパラメータに依存する。以降では、この種の明示的なモデリングを、パラメトリックモデリング(パラメトリックなモデル化)と称する。一方で、上記のハイブリッドコーデックの態様は、ノンパラメトリックモデリング(ノンパラメトリックなモデル化)または経験的なモデリングを使用している。パラメトリックモデリングは、特定の種類の特徴またはオブジェクト(例えば、顔など)が存在することを予期して行うので、通常、その種類のあらゆる特徴/オブジェクトの空間内に広がる基底ベクトルのセットで構成される。そして、この場合のモデルのパラメータは、基底関数へのターゲットの領域の投影になる。
一変形例では、パラメトリックモデリングを用いることにより、既述したハイブリッドコーデックによる予測を改良することができる。一実施形態では、パラメトリックモデルのエレメントを、ターゲットのマクロブロックについて予め得られた予測(例えば、前記競争モードの出力など)に適用することにより、その予測を改良できるか否かを判断する。
映像ストリーム内に同じ特徴のインスタンスが複数現れる場合、特徴モデルの不変コンポーネント(フレーム間で変化しないコンポーネント)を維持するのが望ましい。パラメトリックな特徴モデリングでは、特徴モデルの特定のパラメータ(例えば、各種基底関数の重み付けを表す係数など)が不変コンポーネントとなる。一般的に、ノンパラメトリックな(経験的な)特徴モデリングでは、特徴ペルそのものが不変コンポーネントとなる。特徴動き予測・補償を実行する際に、モデルの不変コンポーネントを維持することを、動き予測・補償の指針原則(以降では、「不変原則」と称する)としてもよい。
特徴モデルの生成中に、映像内で、同じ特徴のインスタンスが複数見つかる場合が多い。このとき、キャッシュに格納する前に特徴モデル情報を整理することにより、当該特徴モデル情報を効率的に記憶またはキャッシュ格納することができる。この手法は、パラメトリックなモデルベースの圧縮スキームにも、ノンパラメトリックなモデルベースの圧縮スキームにも適用することができる。
本発明の実施形態は、ソフトウェア環境でも、ファームウェア環境でも、ハードウェア環境でも実現可能である。一実施形態として、図8Aにそのような環境を示す。少なくとも1つのクライアントコンピュータ/デバイス810およびクラウド(またはサーバーコンピュータもしくはその集団)812は、アプリケーションプログラムを実行する処理機能、記憶機能および入出力装置などを実現し得る。少なくとも1つのクライアントコンピュータ/デバイス810は、通信ネットワーク816を介して、(別のクライアントデバイス/プロセス810および少なくとも1つの別のサーバーコンピュータ812も含め)別のコンピューティングデバイスに接続可能である。通信ネットワーク816は、リモートアクセスネットワークの一部、グローバルネットワーク(例えば、インターネットなど)の一部、世界規模のコンピュータの集まりの一部、ローカルエリアネットワークの一部、ワイドエリアネットワークの一部、あるいは、各種プロトコル(TCP/IP、Bluetooth(登録商標)など)を用いて相互通信するゲートウェイの一部であり得る。それ以外の電子デバイス/コンピュータネットワークアーキテクチャも使用可能である。
図8Cは、一具体例での、特徴ベースのディスプレイツールのスクリーンショット840である。スクリーンショット840は、映像のフレームを、ボックス842で特定された特徴と共に描いている。このフレームに係る映像フレームシーケンスコンテキストが、符号844で特定されている。特徴842が複数のフレーム844にわたって追跡されて、特徴セットが複数生成され、当該特徴セットがディスプレイのセクション846内に表示される。1つの特徴セット846には、複数の特徴メンバ(特徴インスタンス)が含まれる。データエリアには、所与の特徴を従来の圧縮法で符号化した場合に必要となるビット数である特徴帯域量(Bandwidth)852が表示される。同じデータエリアには、さらに、特徴検出プロセスが表示される(符号850)。このツールは、対象の映像内で特定された全ての特徴及び特徴トラックを表示することができる。
一部の実施形態では、本発明にかかるモデルを用いて、符号化されたデジタル映像へのアクセスを制御することができる。例えば、関連モデルなしでは、ユーザは映像ファイルを再生することができない。このアプローチの一具体例は、2008年1月4日付出願の米国特許出願第12/522,357号に記載されている。なお、この米国特許出願の全教示内容は、参照をもって本明細書に取り入れたものとする。映像を「ロックする」(映像に「鍵をかける」)のに前記モデルを使用することができる。また、映像データにアクセスするためのキー(鍵)として、前記モデルを使用することができる。符号化された映像データの再生動作は、モデルに依存し得る。このようなアプローチにより、符号化された映像データの読出しを、モデルへのアクセスなしでは不可能とすることができる。
本発明の例示的な実施形態では、従来の符号化/復号化プロセスを拡張することにより、符号化プロセスを向上させて圧縮の恩恵を受け得る。一実施形態では、本発明に、基礎的なH.264規格の拡張機能であるフレキシブルマクロブロック順序付け(FMO)及びスケーラブル映像符号化(SVC)が適用され得る。
Claims (37)
- 映像データを処理する方法であって、
検出アルゴリズムを用いて、少なくとも1つのフレーム内で、対象の領域における特徴およびオブジェクトのうちの少なくとも一方を検出する過程と、
パラメータのセットを用いて、特徴およびオブジェクトのうちの検出された前記少なくとも一方をモデル化する過程と、
特徴およびオブジェクトのうちの検出された前記少なくとも一方の、あらゆるインスタンスを、複数のフレームにわたって相関させる過程と、
相関された前記インスタンスの、少なくとも1つのトラックを形成する過程と、
前記少なくとも1つのトラックを、符号化する映像データの少なくとも1つのブロックに関連付ける過程と、
関連付けられた前記トラックの情報を用いて、映像データの前記少なくとも1つのブロックに対するモデルベース予測を生成する過程であって、前記モデルベース予測を、処理した映像データとして記憶することを含む、過程と、
を備える、映像データの処理方法。 - 請求項1に記載の映像データの処理方法において、前記検出アルゴリズムが、ノンパラメトリックな特徴検出アルゴリズムの種類に含まれる、映像データの処理方法。
- 請求項1に記載の映像データの処理方法において、前記パラメータのセットが、特徴およびオブジェクトのうちの前記少なくとも一方に関する情報を含み、メモリに記憶される、映像データの処理方法。
- 請求項3に記載の映像データの処理方法において、特徴のパラメータが、特徴記述子ベクトルおよび当該特徴の位置を含む、映像データの処理方法。
- 請求項4に記載の映像データの処理方法において、前記パラメータが、その特徴の検出時に生成される、映像データの処理方法。
- 請求項1に記載の映像データの処理方法において、映像データの前記少なくとも1つのブロックがマクロブロックであり、前記少なくとも1つのトラックが特徴を当該マクロブロックに関連付ける、映像データの処理方法。
- 映像データを処理する方法であって、
対象の領域における特徴およびオブジェクトのうちの少なくとも一方を検出する過程と、
パラメータのセットを用いて、特徴およびオブジェクトのうちの前記少なくとも一方をモデル化する過程と、
特徴およびオブジェクトのうちの前記少なくとも一方の、あらゆるインスタンスを、複数のフレームにわたって相関させる過程と、
相関された前記インスタンスの、少なくとも1つの行列を形成する過程と、
前記少なくとも1つの行列を、符号化する映像データの少なくとも1つのブロックに関連付ける過程と、
関連付けられた前記行列の情報を用いて、映像データの前記少なくとも1つのブロックに対するモデルベース予測を生成する過程であって、前記モデルベース予測を、処理した映像データとして記憶することを含む、過程と、
を備える、映像データの処理方法。 - 請求項7に記載の映像データの処理方法において、前記パラメータのセットが、特徴およびオブジェクトのうちの前記少なくとも一方に関する情報を含み、メモリに記憶される、映像データの処理方法。
- 請求項8に記載の映像データの処理方法において、特徴のパラメータが、特徴記述子ベクトルおよび当該特徴の位置を含む、映像データの処理方法。
- 請求項9に記載の映像データの処理方法において、前記パラメータが、その特徴の検出時に生成される、映像データの処理方法。
- 請求項7に記載の映像データの処理方法において、さらに、
あるベクトル空間の少なくとも1つの部分空間を用いて、前記少なくとも1つの行列を、特徴およびオブジェクトのうちの相関された前記少なくとも一方の、パラメトリックモデルとしてまとめる過程、
を含む、映像データの処理方法。 - 映像データを処理するコーデックであって、
少なくとも2つの映像フレーム内における特徴のインスタンスを特定する、特徴ベース検出手段であって、特定される、当該特徴のインスタンスが、前記1つまたは2つ以上の映像フレーム内の他のピクセルよりもデータ複雑さを示す複数のピクセルを有する、特徴ベース検出手段と、
前記特徴ベース検出手段に動作可能に接続されたモデル化手段であって、2つまたは3つ以上の映像フレーム内における特徴の前記インスタンスの対応関係をモデル化する、特徴ベースの対応関係モデルを生成するモデル化手段と、
前記特徴ベースの対応関係モデルを用いて特徴の前記インスタンスを符号化する方が、第1の映像符号化プロセスを用いて特徴の当該インスタンスを符号化するよりも圧縮効率が向上すると判断された場合に、前記特徴ベースの対応関係モデルの使用を優先するキャッシュと、
を備える、コーデック。 - 請求項12に記載のコーデックにおいて、従来の映像圧縮法による前記ピクセルの符号化が所定の閾値を超える場合に、前記データ複雑さが判断される、コーデック。
- 請求項12に記載のコーデックにおいて、従来の映像圧縮法により前記特徴を符号化すると割り当てられる帯域量が所定の閾値を超える場合に、前記データ複雑さが判断される、コーデック。
- 請求項14に記載のコーデックにおいて、前記所定の閾値が、所定の数値、データベースに記憶された所定の数値、過去に符号化した特徴に割り当てられた帯域量の平均値として設定される数値、および過去に符号化した特徴に割り当てられた帯域量の中央値として設定される数値のうちの少なくとも1つである、コーデック。
- 請求項12に記載のコーデックにおいて、前記第1の映像符号化プロセスが、動き補償予測プロセスを含む、コーデック。
- 請求項12に記載のコーデックにおいて、前記使用の優先が、競争モード内の各ソリューション候補の符号化コストを比較することによって決定され、前記ソリューション候補が、追跡手段、キー予測動きモデル、キー予測サンプリングスキーム、サブタイル化スキーム、再構成アルゴリズム(、および(場合によっては)副次的な予測スキーム)を含む、コーデック。
- 請求項17に記載のコーデックにおいて、前記特徴ベースのモデル化の使用が優先されると、特徴の前記インスタンスのデータ複雑さのレベルが前記閾値として使用され、これにより、特徴の後続のインスタンスがその閾値以上のデータ複雑さのレベルを示すと、前記エンコーダが、特徴の当該後続のインスタンスに対する特徴ベースの圧縮の開始及び使用を自動的に判断する、コーデック。
- 請求項12に記載のコーデックにおいて、前記特徴ベース検出手段が、FPAトラッカー、MBCトラッカーおよびSURFトラッカーのうちの1つを利用する、コーデック。
- 映像データを処理するコーデックであって、
少なくとも2つの映像フレーム内における特徴のインスタンスを特定する、特徴ベースの検出手段であって、特定される、特徴の当該インスタンスが、前記少なくとも2つの映像フレームのうちの少なくとも1つの映像フレーム内の他のピクセルよりもデータ複雑さを示す複数のピクセルを有する、特徴ベース検出手段と、
前記特徴ベース検出手段に動作可能に接続されたモデル化手段であって、前記少なくとも2つの映像フレーム内における、特徴の特定されたインスタンスの対応関係をモデル化する特徴ベースの対応関係モデルを生成するモデル化手段と、
複数の前記特徴ベースの対応関係モデルのうち、所与の特徴ベースの対応関係モデルにより、特徴の特定された前記インスタンスの圧縮効率が向上すると判断された場合に、その対応関係モデルの使用を優先するメモリと、
を備える、コーデック。 - 請求項20に記載のコーデックにおいて、特定された特徴の圧縮効率を、第1の映像符号化プロセスを用いた場合の特徴の当該特徴のインスタンの符号化と、データベースに記憶された圧縮効率の所定の数値との一方と比べることにより、当該特徴の特定されたインスタンスの圧縮効率の向上を判断する、コーデック。
- 映像データを処理する方法であって、
特徴のペルおよび特徴記述子のうちの少なくとも一方をベクトル化することにより、特徴をモデル化する過程と、
(a)特徴のペルの異なるベクトル間または異なる特徴記述子間の平均二乗誤差(MSE)の最小化と、(b)特徴のペルの異なるベクトル間または異なる特徴記述子間の内積の最大化との少なくとも一方により、類似する特徴を特定する過程と、
標準の動き予測・補償アルゴリズムを適用する過程であって、これにより前記特徴の並進動きを考慮し、処理した映像データを得る過程と、
を備える、映像データの処理方法。 - 映像データを処理する方法であって、
モデルベース予測を、ターゲットのフレームを符号化するようにコーデックを構成することによって実現する過程と、
従来の符号化プロセスを用いて、前記ターゲットのフレーム内のマクロブロックを符号化する過程と、
前記マクロブロックの符号化を分析する過程であって、そのマクロブロックの従来の符号化が効率的と非効率の少なくとも一方と判断され、前記従来の符号化が非効率と判断された場合、前記マクロブロックに対する予測を複数のモデルに基づいて複数生成することによって、前記エンコーダが分析され、そのマクロブロックの前記複数の予測の評価が、符号化サイズに基づく、過程と、
前記マクロブロックの前記予測を、前記従来の符号化によるマクロブロックと共に順位付けする過程と、
を備える、映像データの処理方法。 - 請求項23に記載の映像データの処理方法において、前記マクロブロックの前記従来の符号化を、符号化サイズが所定のサイズ閾値よりも小さい場合に効率的とする、映像データの処理方法。
- 請求項23に記載の映像データの処理方法において、前記マクロブロックの前記従来の符号化を、前記ターゲットマクロブロックがスキップマクロブロックである場合に効率的とする、映像データの処理方法。
- 請求項23に記載の映像データの処理方法において、前記マクロブロックの前記従来の符号化を、符号化サイズが閾値よりも大きい場合に非効率とする、映像データの処理方法。
- 請求項23に記載の映像データの処理方法において、前記マクロブロックの前記従来の符号化が非効率と判断された場合に、当該マクロブロックに対する符号化を競争モードで複数生成して互いの圧縮効率を比較する、映像データの処理方法。
- 請求項27に記載の映像データの処理方法において、競争モードの符号化アルゴリズムが、
前記マクロブロックから前記予測を減算する手順であって、これにより、残差信号を生成する手順、
ブロックベースの二次元DCTの近似を用いて、前記残差信号を変換する手順、および
エントロピーエンコーダを用いて、変換係数を符号化する手順、
を備える、映像データの処理方法。 - 請求項23に記載の映像データの処理方法において、複数の予測を生成することによって分析される前記エンコーダが、一次的予測および重み付けされた副次的予測を合計する複合予測を生成する、映像データの処理方法。
- 映像データを処理する方法であって、
モデルベース圧縮のために、複数の忠実度でデータをモデル化する過程であって、当該複数の忠実度が、マクロブロック階層、特徴としてのマクロブロック階層、特徴階層、およびオブジェクト階層のうちの少なくとも1つを含む過程、
を備え、
前記マクロブロック階層は、ブロックベースの動き予測・補償(BBMEC)アプリケーションを用いて、復号化した参照フレーム内の限られた空間から各タイルに対する予測を見つけ出し、
前記特徴としてのマクロブロック階層は、(i)前記マクロブロック階層と同じ1回目のBBMECアプリケーションを用いて、一番最近の参照フレームからターゲットのマクロブロックの第1の予測を見つけ出し、(ii)2回目のBBMECアプリケーションを用いて、二番目に最近の参照フレームを探索することにより、前記第1の予測に対する第2の予測を見つけ出し、(iii)徐々に過去のフレームを溯ってBBMECアプリケーションを適用することにより、前記ターゲットのマクロブロックのトラックを生成し、
前記特徴階層は、マクロブロックのグリッドに関係なく特徴を検出及び追跡し、その特徴を当該特徴と重複するマクロブロックに関連付けて、特徴のトラックを用いて、復号化した参照フレームをナビゲートすることで前記重複するマクロブロックに対する良好なマッチを見つけ出し、さらに、複数の特徴が1つの対象のターゲットのマクロブロックと重複する場合には、重複の最も大きい特徴が当該ターゲットのマクロブロックをモデル化するのに選択され、
前記オブジェクト階層では、オブジェクトが複数のマクロブロックを包含するか又は複数のマクロブロックと重複する場合、そのオブジェクトに対応する全てのマクロブロックに関して単一の動きベクトルを算出可能であり、これにより演算量及び符号化サイズを節約する、
映像データの処理方法。 - 請求項30に記載の映像データの処理方法において、前記複数の忠実度が、順次的に調べられる、映像データの処理方法。
- 請求項30に記載の映像データの処理方法において、前記複数の忠実度が、競争モードで調べられる、映像データの処理方法。
- プログラムコード手段を備えるコンピュータプログラムプロダクトであって、
前記プログラムコード手段は、コンピュータにロードされることにより、請求項1に記載の処理方法を実行するように当該コンピュータを制御する、コンピュータプログラムプロダクト。 - プログラムコード手段を備えるコンピュータプログラムプロダクトであって、
前記プログラムコード手段は、コンピュータにロードされることにより、請求項7に記載の処理方法を実行するように当該コンピュータを制御する、コンピュータプログラムプロダクト。 - プログラムコード手段を備えるコンピュータプログラムプロダクトであって、
前記プログラムコード手段は、コンピュータにロードされることにより、請求項22に記載の処理方法を実行するように当該コンピュータを制御する、コンピュータプログラムプロダクト。 - プログラムコード手段を備えるコンピュータプログラムプロダクトであって、
前記プログラムコード手段は、コンピュータにロードされることにより、請求項23に記載の処理方法を実行するように当該コンピュータを制御する、コンピュータプログラムプロダクト。 - プログラムコード手段を備えるコンピュータプログラムプロダクトであって、
前記プログラムコード手段は、コンピュータにロードされることにより、請求項30に記載の処理方法を実行するように当該コンピュータを制御する、コンピュータプログラムプロダクト。
Applications Claiming Priority (7)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
US201261615795P | 2012-03-26 | 2012-03-26 | |
US61/615,795 | 2012-03-26 | ||
US201261707650P | 2012-09-28 | 2012-09-28 | |
US61/707,650 | 2012-09-28 | ||
US13/725,940 US9578345B2 (en) | 2005-03-31 | 2012-12-21 | Model-based video encoding and decoding |
US13/725,940 | 2012-12-21 | ||
PCT/US2013/025123 WO2013148002A2 (en) | 2012-03-26 | 2013-02-07 | Context based video encoding and decoding |
Publications (2)
Publication Number | Publication Date |
---|---|
JP2015515806A true JP2015515806A (ja) | 2015-05-28 |
JP2015515806A5 JP2015515806A5 (ja) | 2016-02-25 |
Family
ID=47901315
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
JP2015503204A Pending JP2015515806A (ja) | 2012-03-26 | 2013-02-07 | コンテキストベースの映像符号化及び映像復号化 |
Country Status (5)
Country | Link |
---|---|
EP (1) | EP2815572A2 (ja) |
JP (1) | JP2015515806A (ja) |
CA (1) | CA2868448A1 (ja) |
TW (1) | TW201342926A (ja) |
WO (1) | WO2013148002A2 (ja) |
Families Citing this family (25)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
US9743078B2 (en) | 2004-07-30 | 2017-08-22 | Euclid Discoveries, Llc | Standards-compliant model-based video encoding and decoding |
US9532069B2 (en) | 2004-07-30 | 2016-12-27 | Euclid Discoveries, Llc | Video compression repository and model reuse |
US9578345B2 (en) | 2005-03-31 | 2017-02-21 | Euclid Discoveries, Llc | Model-based video encoding and decoding |
WO2015054813A1 (en) | 2013-10-14 | 2015-04-23 | Microsoft Technology Licensing, Llc | Encoder-side options for intra block copy prediction mode for video and image coding |
CA2928495C (en) | 2013-10-14 | 2020-08-18 | Microsoft Technology Licensing, Llc | Features of intra block copy prediction mode for video and image coding and decoding |
EP3058740B1 (en) | 2013-10-14 | 2020-06-03 | Microsoft Technology Licensing, LLC | Features of base color index map mode for video and image coding and decoding |
KR102258427B1 (ko) | 2014-01-03 | 2021-06-01 | 마이크로소프트 테크놀로지 라이센싱, 엘엘씨 | 비디오 및 이미지 코딩/디코딩에서의 블록 벡터 예측 |
US10390034B2 (en) | 2014-01-03 | 2019-08-20 | Microsoft Technology Licensing, Llc | Innovations in block vector prediction and estimation of reconstructed sample values within an overlap area |
US11284103B2 (en) | 2014-01-17 | 2022-03-22 | Microsoft Technology Licensing, Llc | Intra block copy prediction with asymmetric partitions and encoder-side search patterns, search ranges and approaches to partitioning |
US10542274B2 (en) | 2014-02-21 | 2020-01-21 | Microsoft Technology Licensing, Llc | Dictionary encoding and decoding of screen content |
US10097851B2 (en) | 2014-03-10 | 2018-10-09 | Euclid Discoveries, Llc | Perceptual optimization for model-based video encoding |
US10091507B2 (en) | 2014-03-10 | 2018-10-02 | Euclid Discoveries, Llc | Perceptual optimization for model-based video encoding |
WO2015138008A1 (en) | 2014-03-10 | 2015-09-17 | Euclid Discoveries, Llc | Continuous block tracking for temporal prediction in video encoding |
TWI499985B (zh) * | 2014-04-30 | 2015-09-11 | Univ Nat Taiwan Science Tech | 影像特徵點自動點選方法和對應系統 |
EP4354856A3 (en) | 2014-06-19 | 2024-06-19 | Microsoft Technology Licensing, LLC | Unified intra block copy and inter prediction modes |
US9767853B2 (en) | 2014-07-21 | 2017-09-19 | International Business Machines Corporation | Touch screen video scrolling |
WO2016049839A1 (en) | 2014-09-30 | 2016-04-07 | Microsoft Technology Licensing, Llc | Rules for intra-picture prediction modes when wavefront parallel processing is enabled |
CN106664405B (zh) | 2015-06-09 | 2020-06-09 | 微软技术许可有限责任公司 | 用调色板模式对经逸出编码的像素的稳健编码/解码 |
US10986349B2 (en) | 2017-12-29 | 2021-04-20 | Microsoft Technology Licensing, Llc | Constraints on locations of reference blocks for intra block copy prediction |
US11830225B2 (en) * | 2018-05-30 | 2023-11-28 | Ati Technologies Ulc | Graphics rendering with encoder feedback |
CN110503636B (zh) * | 2019-08-06 | 2024-01-26 | 腾讯医疗健康(深圳)有限公司 | 参数调整方法、病灶预测方法、参数调整装置及电子设备 |
CN111083497B (zh) * | 2019-12-31 | 2022-07-08 | 北京奇艺世纪科技有限公司 | 一种视频截图方法及装置 |
KR20210147404A (ko) * | 2020-05-28 | 2021-12-07 | 삼성전자주식회사 | 엣지 컴퓨팅 서비스를 이용한 영상 컨텐츠 전송 방법 및 장치 |
CN113938666B (zh) * | 2021-10-25 | 2023-07-25 | 珠海普罗米修斯视觉技术有限公司 | 基于关键帧的视频数据传输方法、装置及存储介质 |
US20240146963A1 (en) * | 2022-10-17 | 2024-05-02 | Alibaba Damo (Hangzhou) Technology Co., Ltd. | Method and apparatus for talking face video compression |
Citations (2)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
JP2010259087A (ja) * | 2005-03-31 | 2010-11-11 | Euclid Discoveries Llc | ビデオデータを処理する装置および方法 |
JP2012505600A (ja) * | 2008-10-07 | 2012-03-01 | ユークリッド・ディスカバリーズ・エルエルシー | 特徴を基礎とするビデオ圧縮 |
Family Cites Families (9)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
US6738424B1 (en) * | 1999-12-27 | 2004-05-18 | Objectvideo, Inc. | Scene model generation from video for use in video processing |
US7457435B2 (en) | 2004-11-17 | 2008-11-25 | Euclid Discoveries, Llc | Apparatus and method for processing video data |
WO2006015092A2 (en) | 2004-07-30 | 2006-02-09 | Euclid Discoveries, Llc | Apparatus and method for processing video data |
US7436981B2 (en) | 2005-01-28 | 2008-10-14 | Euclid Discoveries, Llc | Apparatus and method for processing video data |
US7457472B2 (en) | 2005-03-31 | 2008-11-25 | Euclid Discoveries, Llc | Apparatus and method for processing video data |
US7508990B2 (en) | 2004-07-30 | 2009-03-24 | Euclid Discoveries, Llc | Apparatus and method for processing video data |
CN101061489B (zh) | 2004-09-21 | 2011-09-07 | 欧几里得发现有限责任公司 | 用来处理视频数据的装置和方法 |
CA2676219C (en) * | 2007-01-23 | 2017-10-24 | Euclid Discoveries, Llc | Computer method and apparatus for processing image data |
US8848802B2 (en) * | 2009-09-04 | 2014-09-30 | Stmicroelectronics International N.V. | System and method for object based parametric video coding |
-
2013
- 2013-02-07 JP JP2015503204A patent/JP2015515806A/ja active Pending
- 2013-02-07 CA CA2868448A patent/CA2868448A1/en not_active Abandoned
- 2013-02-07 WO PCT/US2013/025123 patent/WO2013148002A2/en active Application Filing
- 2013-02-07 EP EP13710636.5A patent/EP2815572A2/en not_active Withdrawn
- 2013-03-04 TW TW102107461A patent/TW201342926A/zh unknown
Patent Citations (2)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
JP2010259087A (ja) * | 2005-03-31 | 2010-11-11 | Euclid Discoveries Llc | ビデオデータを処理する装置および方法 |
JP2012505600A (ja) * | 2008-10-07 | 2012-03-01 | ユークリッド・ディスカバリーズ・エルエルシー | 特徴を基礎とするビデオ圧縮 |
Also Published As
Publication number | Publication date |
---|---|
WO2013148002A3 (en) | 2013-12-19 |
WO2013148002A2 (en) | 2013-10-03 |
TW201342926A (zh) | 2013-10-16 |
CA2868448A1 (en) | 2013-10-03 |
EP2815572A2 (en) | 2014-12-24 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
JP2015515806A (ja) | コンテキストベースの映像符号化及び映像復号化 | |
JP2015536092A (ja) | 標準に準拠した、モデルベースの映像符号化及び映像復号化 | |
US9578345B2 (en) | Model-based video encoding and decoding | |
JP6193972B2 (ja) | 映像圧縮レポジトリおよびモデル再利用 | |
US8902971B2 (en) | Video compression repository and model reuse | |
Kuhn | Algorithms, complexity analysis and VLSI architectures for MPEG-4 motion estimation | |
US20130114703A1 (en) | Context Based Video Encoding and Decoding | |
US9532069B2 (en) | Video compression repository and model reuse | |
JP2020527001A (ja) | 点群エンコーダ | |
JP6636615B2 (ja) | 動きベクトル場の符号化方法、復号方法、符号化装置、および復号装置 | |
US20150172687A1 (en) | Multiple-candidate motion estimation with advanced spatial filtering of differential motion vectors | |
JP2021529471A (ja) | 動きベクトル精密化および動き補償のためのメモリアクセスウィンドウおよびパディング | |
EP2382786A1 (en) | Multiple-candidate motion estimation with advanced spatial filtering of differential motion vectors | |
KR102177900B1 (ko) | 비디오에 있어서의 키포인트 궤적을 처리하는 방법 | |
Cuevas | Block-matching algorithm based on harmony search optimization for motion estimation | |
Xiong et al. | Sparse spatio-temporal representation with adaptive regularized dictionary learning for low bit-rate video coding | |
US20180376151A1 (en) | Method and device for picture encoding and decoding | |
WO2024083100A1 (en) | Method and apparatus for talking face video compression | |
Liu et al. | H. 264/AVC video error concealment algorithm by employing motion vector recovery under cloud computing environment | |
Manikandan et al. | A study and analysis on block matching algorithms for motion estimation in video coding | |
Roy et al. | Graph-based transform with weighted self-loops for predictive transform coding based on template matching | |
JP7054007B2 (ja) | 符号化装置及びプログラム | |
Díaz-Cortés et al. | Motion estimation algorithm using block-matching and harmony search optimization | |
Zhang et al. | From visual search to video compression: A compact representation framework for video feature descriptors | |
Kumar Pal et al. | Object detection driven composite block motion estimation algorithm for surveillance video coding |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
A521 | Request for written amendment filed |
Free format text: JAPANESE INTERMEDIATE CODE: A523 Effective date: 20151222 |
|
A524 | Written submission of copy of amendment under article 19 pct |
Free format text: JAPANESE INTERMEDIATE CODE: A524 Effective date: 20151222 |
|
A621 | Written request for application examination |
Free format text: JAPANESE INTERMEDIATE CODE: A621 Effective date: 20151222 |
|
A977 | Report on retrieval |
Free format text: JAPANESE INTERMEDIATE CODE: A971007 Effective date: 20161107 |
|
A131 | Notification of reasons for refusal |
Free format text: JAPANESE INTERMEDIATE CODE: A131 Effective date: 20170110 |
|
A601 | Written request for extension of time |
Free format text: JAPANESE INTERMEDIATE CODE: A601 Effective date: 20170407 |
|
A02 | Decision of refusal |
Free format text: JAPANESE INTERMEDIATE CODE: A02 Effective date: 20171031 |