[go: up one dir, main page]

JP2015515806A - コンテキストベースの映像符号化及び映像復号化 - Google Patents

コンテキストベースの映像符号化及び映像復号化 Download PDF

Info

Publication number
JP2015515806A
JP2015515806A JP2015503204A JP2015503204A JP2015515806A JP 2015515806 A JP2015515806 A JP 2015515806A JP 2015503204 A JP2015503204 A JP 2015503204A JP 2015503204 A JP2015503204 A JP 2015503204A JP 2015515806 A JP2015515806 A JP 2015515806A
Authority
JP
Japan
Prior art keywords
feature
prediction
video data
macroblock
model
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Pending
Application number
JP2015503204A
Other languages
English (en)
Other versions
JP2015515806A5 (ja
Inventor
リー・ニゲル
ピッゾルニ・レナート
デフォレスト・ダリン
ペース・チャールズ・ピー
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Euclid Discoveries LLC
Original Assignee
Euclid Discoveries LLC
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Priority claimed from US13/725,940 external-priority patent/US9578345B2/en
Application filed by Euclid Discoveries LLC filed Critical Euclid Discoveries LLC
Publication of JP2015515806A publication Critical patent/JP2015515806A/ja
Publication of JP2015515806A5 publication Critical patent/JP2015515806A5/ja
Pending legal-status Critical Current

Links

Classifications

    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04NPICTORIAL COMMUNICATION, e.g. TELEVISION
    • H04N19/00Methods or arrangements for coding, decoding, compressing or decompressing digital video signals
    • H04N19/85Methods or arrangements for coding, decoding, compressing or decompressing digital video signals using pre-processing or post-processing specially adapted for video compression
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04NPICTORIAL COMMUNICATION, e.g. TELEVISION
    • H04N19/00Methods or arrangements for coding, decoding, compressing or decompressing digital video signals
    • H04N19/20Methods or arrangements for coding, decoding, compressing or decompressing digital video signals using video object coding
    • H04N19/23Methods or arrangements for coding, decoding, compressing or decompressing digital video signals using video object coding with coding of regions that are present throughout a whole video segment, e.g. sprites, background or mosaic
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04NPICTORIAL COMMUNICATION, e.g. TELEVISION
    • H04N19/00Methods or arrangements for coding, decoding, compressing or decompressing digital video signals
    • H04N19/50Methods or arrangements for coding, decoding, compressing or decompressing digital video signals using predictive coding
    • H04N19/503Methods or arrangements for coding, decoding, compressing or decompressing digital video signals using predictive coding involving temporal prediction
    • H04N19/51Motion estimation or motion compensation

Landscapes

  • Engineering & Computer Science (AREA)
  • Multimedia (AREA)
  • Signal Processing (AREA)
  • Compression Or Coding Systems Of Tv Signals (AREA)

Abstract

【課題】高次のモデリングを適用することにより、従来のエンコーダと同じ一般処理フロー及び一般処理フレームワークを維持しながら、従来のコーデックのインター予測プロセスの根本的な限界を解消し、向上したインター予測を提供する。【解決手段】映像データの処理方法は、検出アルゴリズムを用いて、フレーム内で、対象の領域における特徴およびオブジェクトのうちの少なくとも一方を検出し、パラメータのセットを用いて、少なくとも一方をモデル化し、少なくとも一方のあらゆるインスタンスを、複数のフレームにわたって相関させ、相関されたインスタンスのトラックを形成し、トラックを、符号化する映像データの特定のブロックに関連付け、トラックの情報を用いて、特定のブロックのモデルベース予測を生成する。モデルベース予測を、処理した映像データとして記憶する。【選択図】図1A

Description

関連出願
本願は、2012年3月26日付出願の米国仮特許出願第61/615,795号および2012年9月28日付出願の米国仮特許出願第61/707,650号の利益を主張する。本願は、さらに、2012年12月21日付出願の米国特許出願第13/725,940号の利益を主張する。この2012年12月21日付出願の米国特許出願第13/725,940号は、2008年10月7日付出願の米国仮特許出願第61/103,362号の利益を主張する2009年10月6日付出願のPCT/US2009/059653の米国移行出願である、2009年10月6日付出願の米国特許出願第13/121,904号の一部継続出願である。この2009年10月6日付出願の米国特許出願第13/121,904号は、2008年1月4日付出願の米国特許出願第12/522,322号の一部継続出願である。この2008年1月4日付出願の米国特許出願第12/522,322号は、2007年1月23日付出願の米国仮特許出願第60/881,966号の利益を主張し、2006年6月8日付出願の米国仮特許出願第60/811,890号に関連し、さらに、2006年3月31日付出願の米国特許出願第11/396,010号の一部継続出願である。この2006年3月31日付出願の米国特許出願第11/396,010号は、2006年1月20日付出願の米国特許出願第11/336,366号の一部継続出願であり、現在では米国特許第7,457,472号である。その2006年1月20日付出願の米国特許出願第11/336,366号は、2005年11月16日付出願の米国特許出願第11/280,625号の一部継続出願であり、現在では米国特許第7,436,981号である。その2005年11月16日付出願の米国特許出願第11/280,625号は、2005年9月20日付出願の米国特許出願第11/230,686号の一部継続出願であり、現在では米国特許第7,457,435号である。その2005年9月20日付出願の米国特許出願第11/230,686号は、2005年7月28日付出願の米国特許出願第11/191,562号の一部継続出願であり、現在では米国特許第7,426,285号である。その2005年7月28日付出願の米国特許出願第11/191,562号は、現在では米国特許第7,158,680号である。上記の米国特許出願第11/396,010号は、さらに、2005年3月31日付出願の米国仮特許出願第60/667,532号および2005年4月13日付出願の米国仮特許出願第60/670,951号の利益を主張する。本願は、さらに、2012年3月27日付出願の米国仮特許出願第61/616,334号に関連する。
上記の特許出願及び特許の全教示内容は、参照をもって本願に取り入れたものとする。
動画像圧縮(映像圧縮)は、デジタル映像データを、少ないビット数で記憶または伝送可能な形式で表現するプロセスであると言える。映像圧縮アルゴリズムは、映像データの空間的な、時間的なまたは色空間の冗長性や非関連性を利用することにより、圧縮を達成することができる。典型的に、映像圧縮アルゴリズムは、映像データをフレームのグループやペルのグループなどの各部位に分割して、その映像に含まれる冗長な部分を特定し、当該冗長な部分を元々の映像データよりも少ないビット数で表現し得る。このような冗長性を縮小させることにより、より大きな圧縮を達成することができる。映像データを符号化フォーマットに変換する際にはエンコーダを用いる。そして、デコーダを用いることにより、符号化された映像を本来の映像データにほぼ匹敵する形態に変換する。エンコーダ/デコーダを実現するものがコーデック(符号器復号器)と称される。
標準的なエンコーダは、映像フレームの符号化にあたって、1つの映像フレームを、互いに重複しない複数の符号化単位すなわちマクロブロック(複数の隣接するペルからなる矩形ブロック)に分割する。典型的に、マクロブロック(MB)は、フレームの左から右の走査順序や上から下の走査順序で処理される。圧縮は、これらのマクロブロックが先に符号化されたデータを用いて予測・符号化される場合に、行われる。同じフレーム内の空間的に隣接する先に符号化したマクロブロックサンプルを用いてマクロブロックを符号化するプロセスは、イントラ予測と称される。イントラ予測は、データに含まれる空間的な冗長性を利用しようとするものである。先に符号化したフレームからの類似する領域と動き予測モデルとを用いてマクロブロックを符号化するプロセスは、インター予測と称される。インター予測は、データに含まれる時間的な冗長性を利用しようとするものである。
エンコーダは、符号化するデータと予測(予測結果)との差分を測定することにより、残差を生成し得る。この残差は、予測されたマクロブロックと本来のマクロブロックとの差分となり得る。また、エンコーダは、動きベクトル情報(例えば、符号化中または復号化中のマクロブロックに対する参照フレーム内のマクロブロックの位置を示す動きベクトル情報)を生成し得る。これらの予測、動きベクトル(インター予測用)、残差および関連データを、空間変換、量子化、エントロピー符号化、ループフィルタなどの他のプロセスと組み合せることにより、映像データの効率的な符号を生成することができる。量子化及び変換を受けた残差は、処理されてから前記予測に加算され、復号化したフレームに組み込まれて、フレームストア(フレームを記憶する手段又は記憶部)に記憶される。このような映像符号化技術の詳細は、当業者であればよく知っている。
H.264/MPEG−4AVC(Advanced Video Encoding)は、ブロックベースの動き予測・補償を利用して比較的低いビットレートで高品質映像を表現することが可能なコーデック規格である(以降では、「H.264」と称する)。H.264は、ブルーレイディスクだけでなく、インターネット上のビデオストリーミング、テレビ会議、ケーブルテレビおよび直接衛星テレビを含む主要な映像配信チャネルに利用される符号化方式の選択肢の1つである。H.264の符号化基本単位は、16×16マクロブロックである。H.264は、広く普及している最新の動画像圧縮規格である。
基礎的なMPEG規格は、フレーム内のマクロブロックの符号化方法によって、3種類のフレーム(またはピクチャ)を規定する。そのうちの1つであるIフレーム(イントラ符号化ピクチャ)は、そのフレームに含まれるデータのみを用いて符号化する。一般的に、映像信号データを受け取ったエンコーダは、まずIフレームを生成して、映像フレームデータを複数のマクロブロックに分割し、イントラ予測を用いて各マクロブロックを符号化する。このように、Iフレームは、イントラ予測マクロブロック(または「イントラマクロブロック」)だけで構成される。Iフレームは、符号化済みのフレームからの情報を利用せずに符号化を実行するので、符号化コストが高くなる。Pフレーム(予測ピクチャ)は、先に符号化したIフレーム又はPフレームからのデータ(参照フレームとも称される)を用いた前方向予測により符号化する。Pフレームは、イントラマクロブロックおよび(前方向)予測マクロブロックのいずれも含み得る。Bフレーム(双予測ピクチャ)は、前のフレームと後のフレームの両方からのデータを用いた双方向予測により符号化する。Bフレームは、イントラマクロブロック、(前方向)予測マクロブロックおよび双予測マクロブロックのいずれも含み得る。
既述したように、従来のインター予測は、ブロックベースの動き予測・補償(BBMEC)に基づいている。BBMECプロセスは、ターゲットのマクロブロック(符号化する現在のマクロブロック)と先に符号化した参照フレーム内の同サイズの領域との最良のマッチを探索する。最良のマッチが見つかると、エンコーダは動きベクトルを送信し得る。この動きベクトルは、その最良のマッチのフレーム内位置に対するポインタ、さらに、その最良のマッチと当該最良のマッチに対応する前記ターゲットのマクロブロックとの差分に関する情報を含み得る。映像の「データキューブ」(高さ×幅×フレームのインデックス)にわたってこのような探索を徹底的に実行して、マクロブロック毎に最良のマッチを見つけ出すことも可能ではあるが、一般的に演算負荷があまりにも大きくなってしまう。したがって、BBMEC探索プロセスは制限されて、時間的には探索する参照フレームに制限され、空間的には探索する隣接領域に制限される。すなわち、「最良の」マッチが必ずしも常に見つかるとは限らず、高速で変化するデータの場合には特にそうである。
参照フレームの特定の集合のことを、Group of Pictures(ピクチャのグループ)(GOP)と称する。GOPは、各参照フレーム内の復号化したペルのみを含み、マクロブロックまたはフレームがどのように符号化されていたか(Iフレーム、BフレームまたはPフレーム)についての情報を含まない。MPEG−2などの古い映像圧縮規格では、Pフレームの予測に1つの参照フレーム(過去のフレーム)を利用し、Bフレームの予測に2つの参照フレーム(1つ前のフレームと1つ後のフレーム)を利用する。対照的に、H.264規格では、Pフレームの予測にもBフレームの予測にも、複数の参照フレームを利用することができる。現在のフレームと時間的に隣接するフレームを参照フレームに用いるのが典型的であるが、時間的に隣接するフレームの
セット以外のフレームを参照フレームとして指定することも可能である。
従来の圧縮方法では、複数のフレームからの複数のマッチをブレンディング(混合)することにより、現在のフレームの領域を予測し得る。ブレンディングは、複数のマッチの線形混合であったり対数線形混合であったりする。このような双予測方法は、例えば、ある画像から別の画像への移行に経時的なフェードが設けられている際に有効である。フェードプロセスは2つの画像の線形ブレンディングであり、双予測によって効率的にモデル化できる場合がある。従来の標準的なエンコーダの中には、例えばMPEG−2内挿モードのように、多数のフレームにわたって線形パラメータの内挿により双予測モデルを合成できるものもある。
H.264規格は、さらに、フレームを、1つ以上の互いに隣接するマクロブロックで構成された領域、具体的には、スライスと称さる空間的に互いに独立した領域に分割することにより、さらなる符号化の自由度を提供する。同じフレーム内の各スライスは、他のスライスとは独立して符号化される(つまり、互いに独立して復号化される)。そして、既述した3種類のフレームと同様に、Iスライス、PスライスおよびBスライスが定義される。したがって、1つのフレームは、複数の種類のスライスによって構成され得る。さらに、エンコーダ側では、一般的に、処理したスライスの順番を自由に決めることができる。これにより、デコーダは、デコーダ側に到達するスライスを任意の順番で処理することができる。
H.264規格により、コーデックは、MPEG−2やMPEG−4ASP(Advanced Simple Profile)などの古い規格に比べて、小さいファイルサイズで優れた品質の映像を提供することができる。しかし、H.264規格を組み込んだ「従来の」圧縮コーデックで、限られた帯域幅のネットワークで動作し且つ限られたメモリを有するデバイス(例えば、スマートフォンや他のモバイルデバイスなど)での映像の品質向上や解像度向上に対する需要に応える際には、一般的に悪戦苦闘を強いられてきた。そのようなデバイスで満足のいく再生を実現するには、映像の品質や解像度を妥協せざるを得ないことが多い。さらに、映像の解像度が向上しているため、ファイルサイズが増加し、当該映像を前記デバイスで記憶したり前記デバイス外部に記憶したりする際に課題となる。
本発明は、従来のコーデックのインター予測プロセスの根本的な限界を認識し、高次のモデリング(モデル化)を適用することにより、従来のエンコーダと同じ一般処理フロー及び一般処理フレームワークを維持しながら、上記のような限界を解消し、向上したインター予測を提供する。
本発明にかかる高次のモデリングにより、より多くの予測探索空間(映像データキューブ)をナビゲートして(対象にして)、従来のブロックベースの動き予測・補償を用いた場合よりも優れた予測を効率良く生成することができる。まず、コンピュータビジョン(コンピュータ視覚)ベースの特徴・オブジェクト検出アルゴリズムが、映像データキューブの中から対象の領域を特定する。その検出アルゴリズムは、ノンパラメトリックな特徴検出アルゴリズムの種類から選択され得る。次に、検出された特徴やオブジェクトが、パラメータのコンパクトな(少規模の)セットを用いてモデル化され、特徴/オブジェクトの類似するインスタンスが複数のフレームにわたって相関される(対応付けられる)。本発明では、さらに、相関された特徴/オブジェクトからトラックを形成し、当該トラックを、符号化される映像データの特定のブロックに関連付けて、この追跡情報を用いてデータの当該ブロックについてモデルベース予測を生成する。
各実施形態において、符号化される、前記データの特定のブロックは、マクロブロックであり得る。形成された前記トラックは、特徴を、対応するマクロブロックに関連付け得る。
特徴/オブジェクトを追跡する構成は、従来の符号化/復号化プロセスにさらなるコンテキストをもたらす。さらに、パラメータのコンパクトなセットで特徴/オブジェクトをモデル化するので、参照フレームのペル全体を記憶する高コストな構成と異なり、特徴/オブジェクトに関する情報をメモリに効率的に記憶することができる。これにより、特徴/オブジェクトモデルでは、許容できないほどの演算量やメモリ量を必要とせずに、より多くの映像データキューブを探索することができる。このようにして得られるモデルベース予測は、より多くの予測探索空間から導き出されたものなので、従来のインター予測よりも優れている。
一部の実施形態において、前記パラメータのコンパクトなセットは、前記特徴/オブジェクトに関する情報を含むものであり、かつ、メモリに記憶され得る。特徴に対して、対応する前記パラメータは、特徴記述子ベクトルおよび当該特徴の位置を含み得る。その対応するパラメータは、その特徴の検出時に生成され得る。
特徴/オブジェクトのインスタンスを複数のフレームにわたって相関させた後、これらの相関されたインスタンスを、(特徴/オブジェクトのトラックを形成する代わりに)集合体行列に集めてもよい。この場合、本発明では、そのような集合体行列を形成し、重要なベクトルの部分空間を用いて当該行列を要約して、この部分ベクトル空間を前記相関された特徴/オブジェクトのパラメトリックモデルとして使用する。これにより、それら特定の特徴/オブジェクトがデータに現れた際に、極めて効率的な符号化を実現することができる。
前述した本発明の原理を具現化した、映像データを処理するコンピュータベースの方法、映像データを処理するコーデック、ならびに映像データを処理するその他のコンピュータシステム及び装置が提供され得る。
前述の内容は、添付の図面に示す本発明の例示的な実施形態についての以下の詳細な説明から明らかになる。異なる図をとおして、同一の符号は同一の構成又は構成要素を指している。図面は必ずしも縮尺どおりではなく、むしろ、本発明の実施形態を示すことに重点を置いている。
本発明の一実施形態にかかる特徴モデリングを示すブロック図である。 本発明の一実施形態にかかる特徴トラッキング(特徴の追跡)を示すブロック図である。 本発明の一実施形態に従って、特徴を近傍のマクロブロックに関連付ける過程、および当該特徴のトラックを用いて前記マクロブロックの良好な予測を生成する過程を示すブロック図である。 本発明の一実施形態に従って、効率的な符号化を実現するための複数の忠実度によるデータのモデル化を示すブロック図である。 本発明の一実施形態に従った、特徴モデルの相関及び集約によるオブジェクト特定の様子を示すブロック図である。 本発明の一実施形態に従った、近傍の特徴の集約および近傍のマクロブロックの集約によるオブジェクト特定の様子を示すブロック図である。 本発明の一実施形態にかかる、変換ベースのコーデックの構成の一例を示す概略図である。 本発明の一実施形態にかかる、イントラ予測マクロブロック用のデコーダの一例を示すブロック図である。 本発明の一実施形態にかかる、インター予測マクロブロック用のデコーダの一例を示すブロック図である。 本発明の一実施形態にかかる、特徴ベース予測を用いる変換ベースのコーデックの構成の一例を示す概略図である。 本発明の一実施形態にかかる、特徴ベース予測フレームワーク内のコーデックの一例を示すブロック図である。 本発明の一実施形態にかかる、特徴のインスタンス(特徴インスタンス)の状態抽出プロセスを示すブロック図である。 本発明の一実施形態にかかる、パラメトリックなモデリング(パラメトリックモデル化)を用いるコーデックの構成要素の一例を示すブロック図である。 本発明の一実施形態にかかる、パラメトリックモデルベースの適応型エンコーダの構成要素の一例を示すブロック図である。 本発明の一実施形態にかかる、特徴モデルのパラメータの内挿による、特徴の動き補償予測の様子を示すブロック図である。 本発明の一実施形態にかかる、キャッシュアーキテクチャの一例の概要を示すブロック図である。 本発明の一実施形態かかる、局所的な(短期的な)キャッシュのデータの利用に伴う処理を示すブロック図である。 本発明の一実施形態かかる、長期的なキャッシュのデータの利用に伴う処理を示すブロック図である。 実施形態を実現するためのコンピュータネットワーク環境を示す概略図である。 図8Aのネットワークのコンピュータノードを示すブロック図である。 具体例における特徴ベース圧縮ツールのスクリーンショットである。 本発明の一実施形態かかる、顔特徴及び顔以外の特徴に数字が付されたスクリーンショットである。 本発明の一実施形態かかる、図8Dの顏トラッカー(顔追跡手段)により特定された顔を示すスクリーンショットである。
全ての特許公報、全ての特許公開公報およびこれらの公報に引用されている全ての文献の全教示内容は、参照をもって本明細書に取り入れたものとする。以下では、本発明の例示的な実施形態について説明する。
本発明は、標準的な各種符号化方法や各種符号化単位(コーディングユニット)に適用可能である。以下では、特記しない限り、「従来」や「標準的」といった用語(「圧縮」、「コーデック」、「符号」、「エンコーダ」といった用語と共に使用し得る)はH.264のことを指し、さらに、「マクロブロック」とは、一般性を失うことなくH.264の符号化基本単位のことを指すものとする。
<特徴ベースのモデル化>
<特徴の定義>
本発明の構成要素には、記憶時または伝送時にデジタル映像データを最適に表現することができる映像圧縮プロセス及び映像解凍プロセスが含まれ得る。当該プロセスは、映像データの空間的な、時間的なまたはスペクトル的な冗長性や非関連性を有効活用する少なくとも1つの映像圧縮/符号化アルゴリズムを備え得るか又はそのようなアルゴリズムとインターフェースし得る。また、そのような有効活用は、特徴ベースのモデル/パラメータの使用及び保持によって行われ得る。以降では、「特徴」および「オブジェクト」という用語を置き換え可能に使用する。オブジェクトとは、一般性を失うことなく「大規模な特徴」と定義することができる。データのモデル化には、特徴およびオブジェクトのどちらも利用することができる。
特徴とは、互いに近接するペルのグループであって、データ複雑性(データ複雑さ)を示すグループのことを言う。データ複雑性は、後述するように様々な基準(criteria)で検出可能である。圧縮の観点からみると、データ複雑性の特徴とは、究極的に言えば「符号化コストが高いこと」である。符号化コストが高いとは、従来の映像圧縮法によるペルの符号が、「効率的な符号化」と考えられる閾値を超えることを指している。所与の領域に対し、従来のエンコーダが過度の帯域量(bandwidth)を割り当てる場合(従来のインターフレーム探索では、従来の参照フレーム内に当該所与の領域に対する良好なマッチを見つけ出せない場合)には、その領域は「特徴に富んで」おり、特徴モデルベースの圧縮法により、その領域の圧縮を大幅に向上できる可能性が高いことを示唆している。
<特徴の検出>
図1Aには、少なくとも1つの映像フレーム20−1,20−2,…,20−nで検出された、特徴のインスタンス(特徴インスタンス)10−1,10−2,…,10−nが示されている。典型的に、このような特徴は、ペルから導き出される構造的情報に基づく複数の条件に基づいて、さらに、従来の圧縮法ではその特徴領域(特徴の領域)の符号化に過度の帯域量を利用しなければならないことを示す複雑性基準に基づいて検出され得る。さらに、特徴の各インスタンスは、図1Aに示すように、フレーム20−1,20−2,…,20−n内で空間的な広がり又は境界を有する「領域」30−1,30−2,…,30−nとして空間的に特定され得る。特徴のこのような領域(特徴領域)30−1,30−2,…,30−nは、例えば、ペルデータで構成される単純な直方形領域として抽出され得る。本発明の一実施形態において、前記特徴領域のサイズは、H.264のマクロブロックと同じ16×16のサイズである。
過去の文献には、ペル自体の構造に基づいて特徴を検出するアルゴリズムとして、ペルデータの各種変換に対してロバスト(頑健)であるノンパラメトリックな特徴検出アルゴリズムの種類を含む、数多くのアルゴリズムが提案されている。例えば、スケール不変特徴量変換(SIFT)[Lowe, David, 2004, "Distinctive image features from scale-invariant keypoints," Int. J. of Computer Vision, 60(2):91-110]は、画像にガウス関数の差分を畳み込むことで斑点状の特徴を検出する。高速化ロバスト特徴(SURF)アルゴリズム[Bay, Herbert et al., 2008, "SURF: Speeded up robust features," Computer Vision and Image Understanding, 110(3):346-359]も、ヘシアン演算子の行列式を用いることで斑点状の特徴を検出する。本発明の一実施形態では、SURFアルゴリズムを用いて特徴を検出する。
別の実施形態では、2009年10月6日付出願の米国特許出願第13/121,904号に全容が記載されているように、従来のエンコーダでの符号化複雑性(帯域量)に基づいて、特徴が検出され得る。なお、この米国特許出願の全教示内容は、参照をもって本明細書に取り入れたものとする。一例として、符号化複雑性は、特徴が現れる領域を従来の圧縮法(例えば、H.264など)で符号化するのに必要な帯域量(ビット数)を分析することによって判断され得る。すなわち、検出アルゴリズムが異なればその動作も異なるが、いずれにしても実施形態では、どの検出アルゴリズムであっても、映像データ全体にわたる映像フレームシーケンス全体に対して適用される。本発明を限定しない一例として、H.264エンコーダによる第1の符号化パスが行われて「帯域量マップ」が生成される。この帯域量マップにより、H.264による符号化コストが、各フレームのどの箇所で最も高くなるのかが定義されるか、あるいは、その帯域量マップがそれを判断する。
典型的に、H.264などの従来のエンコーダは、映像フレームを、互いに重なり合わないように並んだ複数の一様なタイル(例えば、16×16マクロブロック、当該マクロブロックのサブタイルなど)に分割する。一実施形態において、各タイルは、H.264でそのタイルを符号化するのに必要な相対的帯域量に基づいて、特徴候補として分析され得る。一例として、H.264でタイルを符号化するのに必要な帯域量が、一定の閾値と比較され得る。そして、帯域量がその閾値を超える場合には、タイルが「特徴」と判断され得る。この閾値は、所定の数値であってもよい。その場合、この所定の数値は、特徴の検出時に簡単にアクセスできるようにデータベースに記憶され得る。前記閾値は、過去に符号化した特徴に割り当てられた帯域量の平均値として設定される数値であってもよい。同様に、前記閾値は、過去に符号化した特徴に割り当てられた帯域量の中央値として設定される数値であってもよい。あるいは、フレーム全体(または映像全体)にわたってタイルの帯域量の蓄積分布関数を算出し、全タイルの帯域量の上位パーセンタイル内に入る帯域量を有する全てのタイルを「特徴」と判断するようにしてもよい。
別の実施形態では、映像フレームが、互いに重なり合うタイルに分割され得る。この重なり合いのサンプリングは、1つのタイルの中心に当該タイルと重なり合う4つのタイルの角の交差点が位置するようにオフセットされ得る。このように過剰な分割により、最初のサンプリング位置で特徴を検出できる可能性が高まる。その他にも、より複雑な分割方法として、トポロジー的な分割方法が挙げられる。
特徴として検出された小規模の空間的領域を分析し、所与の整合性基準(coherency criteria(一貫性を満たす基準))に基づき当該小規模の空間的領域同士を組み合わせて大規模の空間的領域にできるか否かを判断するようにしてもよい。前記空間的領域のサイズは、ペルの小規模のグループから、実際のオブジェクトまたは実際のオブジェクトの一部に相当し得る大規模な部分まで多種多様であり得る。ただし、検出される特徴は、オブジェクトやサブオブジェクトなどの互いに区別可能な単一のエンティティーと必ずしも対応関係にある必要はない。1つの特徴に、2つ以上のオブジェクトのそれぞれのエレメント(構成要素)が含まれることもあれば、オブジェクトのエレメントが全く含まれないこともある。本発明にかかる特徴の重要な側面は、特徴モデルベースの圧縮法により、従来の圧縮法に比べて、特徴を構成するペルの集合を効率的に圧縮できるという点である。
小規模の領域同士を組み合わせて大規模の領域にする際の整合性基準には、動きの類似性、動き補償後の外観の類似性、および符号化複雑性の類似性が含まれ得る。整合性を有する動きは、高次の動きモデルにより見つけ出され得る。一実施形態では、小規模の各領域の並進動きがアフィン運動モデルに組み込まれ得る。このモデルにより、それら小規模の各領域の動きモデルを近似することができる。小規模の領域のセットについて、それらの動きを常に集約モデルに組み込むことができる場合、これは、当該小規模の領域間が依存しており整合性があることを示唆している。そのような整合性は、集約特徴モデルによって有効活用することができる。
<特徴モデルの形成>
重要なのは、複数の映像フレームで特徴を検出した後、同じ特徴の複数のインスタンスを相関させることである。このプロセスは「特徴相関」と称されるプロセスであり、後述するように、(特定の特徴の経時的位置を定める)特徴トラッキングの基礎となる。ただし、この特徴相関プロセスを効果的に行うには、まず、類似する特徴インスタンスを類似しない特徴インスタンスから区別するために用いられる「特徴モデル」を定義する必要がある。
一実施形態では、特徴のペル(特徴ペル)自体を用いて特徴をモデル化し得る。特徴のペルの領域は二次元であり、ベクトル化可能である。異なる特徴のペルのベクトル間の平均二乗誤差(MSE)の最小化又は当該異なる特徴のペルのベクトル間の内積の最大化により、類似する特徴を特定することができる。この構成の問題点として、特徴ペルのベクトルが並進、回転、拡大/縮小などの特徴の小規模の変化、さらには、特徴の照度の変化に敏感な点が挙げられる。映像をとおして特徴はこのような変化を頻繁に起こすので、特徴ペルのベクトルを用いて特徴をモデル化して相関させる場合、そのような変化を考慮する必要がある。本発明の一実施形態では、従来のコーデック(例えば、H.264など)に見受けられる、特徴の並進動きを考慮するための標準的な動き予測・補償アルゴリズムを適用するという極めて単純な方法により、特徴の上述したような変化を考慮する。他の実施形態では、より複雑な方法を用いて、フレーム間の特徴の回転、拡大/縮小および照度変化を考慮し得る。
代替の実施形態において、特徴モデルは、特徴の小規模の回転、並進、拡大/縮小、および場合によっては照度変化に対して「不変な」、特徴のコンパクトな表現(所与の種類の変換の適用時に変化しない表現)である(ここで、「コンパクト」とは、本来の特徴ペルのベクトルの次元よりも低次元であることを意味する)。すなわち、フレーム間で特徴が小規模の変化を起こしても、この場合の特徴モデルは比較的一定のままである。このようなコンパクトな特徴モデルは、しばしば「記述子(descriptor)」と称される。一例として、本発明の一実施形態では、SURFの特徴記述子の長さが、Haarウェーブレット変換応答の和に基づいて64とされる(これに対し、特徴ペルのベクトルの長さは256である)。別の実施形態では、特徴ペルのカラーマップから、5個のビンのカラーヒストグラムが構築され、この5つのコンポーネントからなるヒストグラムが、特徴記述子として機能する。さらなる別の実施形態では、二次元DCTにより、特徴領域が変換される。そして、係数行列の上三角部分および下三角部分にわたって、二次元DCT係数が合計される。この合計が、エッジ特徴空間を構成し、前記特徴記述子として機能し得る。
特徴記述子を用いて特徴をモデル化した場合、(特徴のペル間のベクトルの代わりに、)特徴記述子間のMSEの最小化又は当該特徴記述子間の内積の最大化により、類似する特徴が特定され得る。
<特徴相関(特徴関連付け)>
特徴を検出・モデル化した後の次の過程は、類似する特徴を、複数のフレームにわたって相関させる(対応付ける)ことである。それぞれのフレーム内に現れる各特徴インスタンスは、当該特徴の外観のサンプルである。複数の特徴インスタンスは、複数のフレームにわたって相関されることで、同じ特徴に「属する」と見なされる。同じ特徴に属するように相関された複数の特徴インスタンスは、特徴トラックを形成するように集約してもよいし、あるいは、集合体行列40(図1A)に集めるようにしてもよい。
「特徴トラック」は、映像フレームに対する特徴の位置(x,y)として定義される。一実施形態では、特徴の新たに検出されたインスタンスを、追跡した特徴と関連付ける(映像の最初のフレームの場合には、検出した特徴又は過去に検出された特徴と関連付ける)。これを基礎として、現在のフレームにおける特徴インスタンスが、これまでに構築された特徴トラックのうちのどのトラックの延長上に属するのかを決定する。現在のフレームにおける特徴インスタンスを、これまでに構築した特徴トラック(映像の最初のフレームの場合には、検出した特徴又は過去に検出された特徴と関連付けることで、特徴の追跡が行われる。
図1Bに、特徴追跡手段(特徴トラッカー)70を用いて特徴60−1,60−2,…,60−nを追跡する様子を示す。特徴検出手段80(例えば、SIFT、SURFなど)を用いて、現在のフレームにおける特徴を特定する。現在のフレーム90において検出された特徴インスタンスが、検出された(又は追跡された)特徴50と照らし合わされる。一実施形態では、前述した相関過程よりも前に、HarrisとStephensのコーナー検出アルゴリズム[Harris, Chris and Mike Stephens, 1988, "A combined corner and edge detector," in Proc. of the 4th Alvey Vision Conference, pp. 147-151]に見受けられるように、ガウシアンフィルタの微分で特徴の自己相関行列の画像勾配を算出することで、当該特徴の自己相関行列に基づく特徴強度を表す自己相関分析(ACA)量を用いることにより、現在のフレームにおける特徴検出候補のセットのなかで順位を決めるようにしてもよい。大きいACA量を有する特徴インスタンスが、トラック延長の候補として優先される。一実施形態では、ACA順位リストのなかで低い順位にある特徴インスタンスが、そのリストのなかで高い順番にある特徴インスタンスの所与の距離(例えば、1ペルなど)内に位置する場合には、特徴候補のセットから取り除かれる。
種々の実施形態では、特徴記述子(例えば、SURF記述子など)または特徴ペルのベクトルが、特徴モデルとして機能し得る。一実施形態では、追跡したトラック(図1Bの領域60−1,60−2,…,60−n)が、1つずつ、現在のフレーム90で新たに検出された特徴の中から、トラック延長(追跡の続き)について調べられる。一実施形態では、各特徴トラックの一番最近の特徴インスタンスが、現在のフレームにおけるトラック延長の探索の焦点(すなわち、「ターゲットの特徴」)とされる。現在のフレームにおいて、そのターゲットの特徴の位置の所与の距離(例えば、16ペルなど)内にある全ての特徴検出候補が調べられ、そのターゲットの特徴に対するMSEが最小となる候補が特徴トラックの延長に選択される。別の実施形態では、ターゲットの特徴に対するMSEが所与の閾値を超える特徴候補については、トラック延長の資格がないとして除外する。
さらなる実施形態では、現在のフレームにおいて、所与の特徴トラックの延長となる資格を有する特徴検出候補がない場合、その現在のフレームにおいて、H.264内の動き補償予測(MCP)または汎用的な動き予測・補償(MEC)を用いて、マッチング領域を見つけ出すための限定的な探索を実行する。MCPおよびMECは、いずれも勾配降下探索を実行して、過去のフレームにおけるターゲットの特徴に対するMSEが最小となる(MSE閾値を満足する)、現在のフレーム内のマッチング領域を探索する。現在のフレームにおいて、前記ターゲットの特徴に対するマッチが前記特徴検出候補からも前記MCP/MEC探索プロセスからも見つけられなかった場合には、その対応する特徴トラックを「無効」または「終了」と判断する。
さらなる実施形態では、2つ以上の特徴トラックについて、現在のフレームにおけるそれぞれの特徴インスタンスが、所与の閾値(例えば、70%の重複)を超えて合致している場合には、それらの特徴トラックのうちの1つ以外を、今後の検討対象から全て削除又は除外する。この削除プロセスにより、最も長い履歴を有し、かつ、全ての特徴インスタンスを総計した合計ACA量が最も大きい特徴トラックを維持することができる。
本発明の一実施形態では、上記の過程の組合せとして、SURF特徴検出と、ACAベースの特徴候補の順位決めと、MCP/MEC探索法で補助しながら行う特徴候補のMSEの最小化による特徴相関とを適用する。以下では、このような組合せを特徴点分析(FPA)トラッカー(追跡手段)と称する。
本発明の別の実施形態では、映像フレーム内のマクロブロックを特徴とみなし、H.264のMCPエンジンによって特徴/マクロブロックを登録し、H.264のインターフレーム予測量(変換差分絶対値和(SATD)など)を用いて特徴/マクロブロックを相関させる。以降では、このような組合せを、マクロブロックキャッシュ(MBC)トラッカー(追跡手段)と称する。このMBCトラッカーは、特定のパラメータが異なる点(例えば、探索境界が無効にされているので、より広範囲のマッチ探索を実行できる点)、さらに、マッチングプロセスの特定の構成が異なる点で、標準的なインターフレーム予測と区別される。第3の実施形態では、SURF検出結果が近傍のマクロブロックと関連付けられて、H.264のMCPエンジン及びインターフレーム予測エンジンを用いて、当該マクロブロックを相関及び追跡する。以降では、このような組合せを、SURFトラッカー(追跡手段)と称する。
代替の一実施形態では、複数の特徴インスタンスを集合体行列に集めて、さらなるモデル化を行う。図1Aに示すような領域30−1,30−2,…,30−nの形態の特徴インスタンスが、同じ特徴を表すものとして相関及び特定される。次に、これらの領域からのペルデータがベクトル化されて集合体行列40に配置され得る。この集合体行列40全体が前記特徴を表す。十分な数のサンプルを集合体に集めることにより、当該サンプルを用いて、その特徴をサンプリングしたフレームだけでなく、その特徴をサンプリングしていないフレームにおいても、当該特徴の外観をモデル化することが可能になる。この「特徴外観モデル」の次元数は特徴の次元数と同じであり、前述の特徴記述子モデルと異なる。
領域の前記集合体を、当該集合体内の単一のキー領域を中心として、空間的に正規化(ばらつきの原因を取り除くことによる所与の基準への適合化)するようにしてもよい。一実施形態では、前記集合体の幾何重心に最も近い領域が、前記キー領域として選択される。別の実施形態では、前記集合体内に早いうちから存在する特徴(前記集合体内に存在する期間の長い特徴)が、前記キー領域として選択される。米国特許第7,508,990号、米国特許第7,457,472号、米国特許第7,457,435号、米国特許第7,426,285号、米国特許第7,158,680号、米国特許第7,424,157号、米国特許第7,436,981号、米国特許出願第12/522,322号および米国特許出願第12/121,904号に記載されているように、このような正規化を実行するのに必要な変形成分(deformation)は変形集合体として集められ、正規化後の画像は変更入り外観集合体として集められる。なお、これらの特許及び特許出願の全教示内容は、参照をもって本願に取り入れたものとする。
この実施形態では、前記外観集合体が処理されることによって外観モデルがもたらされ、前記変形集合体が処理されることによって変形モデルがもたらされる。これら外観モデルと変形モデルとの組合せが、この特徴の特徴モデルとなる。この特徴モデルを用いることにより、特徴を、パラメータのコンパクトなセットで表すことが可能になる。一実施形態では、前記集合体行列を特異値分解(SVD)して、これにランク低減法を適用し、特異ベクトルの部分集合および対応する特異値のみが維持されるようにすることにより、モデルが形成される。さらなる実施形態において、前記ランク低減法の条件は、ランク低減法の適用によって再構成された前記集合体行列が、当該集合体行列の2ノルムに基づく誤差閾値範囲内で再構成前の完全な集合体行列を近似できるのに十分な数の主要特異ベクトル(および対応する特異値)を維持することとされる。代替の一実施形態では、前記集合体をパターン辞書とみなし、この辞書を繰り替えし探索することによって再構成精度を最大化する直交マッチング追跡(OMP)法[Pati, Y.C. et al., 1993, "Orthogonal matching pursuit: Recursive function approximation with applications to wavelet decomposition," in Proc. of the 27th Asilomar Conference, pp. 40-44]により、モデルが形成される。この場合も、OMP法の適用後の再構成結果が前記集合体行列の2ノルムに基づく誤差閾値を満足するのに十分な数の集合体ベクトル(および対応するOMP重み)が維持され得る。後述するように、このようにして形成された特徴の外観モデルおよび変形モデルを、特徴ベースの圧縮に利用してもよい。
特徴の前記集合体は、当該集合体のメンバー(member)を互いに比較することで改良することができる。一実施形態では、サンプリングされた各領域(各サンプリング領域)(前記集合体の各ベクトル)を他のサンプリング領域と徹底的に比較することにより、前記集合体が改良される。この比較では、2つのタイルを登録する。第1の登録では、第1の領域が第2の領域に対して比較される。第2の登録では、前記第2の領域が前記第1の領域に対して比較される。このような登録は、各画像における前記第1および第2の領域の位置で、各画像ごとに実行される。このようにして得られる登録オフセットは、対応する位置的なオフセットと共に保持される。これらを相関関係と称する。この相関関係を分析することにより、複数の登録結果からみて、サンプリング領域の位置を変更したほうが望ましいか否かを判断する。ソースフレーム(source frame)での変更後の位置が、他のフレームでの1つ以上の領域に対し、より誤差の少ないマッチをもたらす場合には、それら領域の位置を前記変更後の位置に調節する。このように前記ソースフレームにおいて領域を変更する際の前記変更後の位置の選定は、当該ソースフレームにおける領域の時間的な延長に相当する、他のフレームにおける領域の位置を線形内挿することで実行される。
<特徴ベース圧縮>
特徴モデリング(あるいは、データモデリング全般)を用いることにより、従来のコーデックよりも圧縮を向上させることができる。標準的なインターフレーム予測では、ブロックベースの動き予測・補償を用いて、復号化した参照フレームの限られた探索空間から、各符号化単位(マクロブロック)の予測を見つけ出す。徹底的な探索を実行し、過去の全ての参照フレームで良好な予測を行おうとすると、演算負荷があまりにも大きくなってしまう。対照的に、映像を通して特徴を検出及び追跡することにより、演算負荷が過度になることなく、より多くの予測探索空間をナビゲートすることができるので、優れた予測を生成することが可能になる。特徴自体が一種のモデルであることから、以降では、「特徴ベース」および「モデルベース」という用語を置き換え可能に使用する。
本発明の一実施形態では、特徴トラックを用いて、特徴をマクロブロックと関連付ける。図1Cに、この一般的な過程を示す。所与の特徴トラックは、複数のフレームにわたって特徴の位置を示す。そして、その特徴には、フレームにわたって動きがある。現在のフレームからみて一番最近の2つのフレームにおけるその特徴の位置を用いることにより、当該現在のフレームにおけるその特徴の位置を推測することができる。そして、その特徴の推測位置には、対応する最も近傍のマクロブロックが存在する。そのようなマクロブロックは、前記特徴の推測位置と最も大きく重複するマクロブロックとして定義される。このため、このマクロブロック(符号化されている最中のターゲットマクロブロック)は、特定の特徴トラックに対して関連付けられたことになる。この特定の特徴トラックの現在のフレームにおける推測位置は、前記マクロブロックの近傍である(図1Cの過程100)。
次の過程は、現在のフレームにおける、ターゲットのマクロブロック(ターゲットマクロブロック)と特徴の推測位置とのオフセットを算出することである(過程110)。このオフセット、さらには、前記関連付けられた特徴トラックにおける過去の特徴インスタンスを用いることにより、前記ターゲットのマクロブロックに対する予測を生成することができる。そのような過去のインスタンスは、その特徴が現れた最近の参照フレームが格納される局所的な(近くにある)キャッシュ120に含まれるか、あるいは、その特徴が現れた「古い」参照フレーム150が格納される長期的な(distant(遠くにある))キャッシュに含まれる。参照フレーム内において、当該参照フレームにおける過去の特徴インスタンスとのオフセットが、現在のフレームにおけるターゲットのマクロブロックと特徴の推測位置とのオフセットと同じである領域を見つけ出すことにより(過程130,160)、前記ターゲットのマクロブロックに対する予測を生成することができる。
<モデルベースの一次的予測及び副次的予測の生成>
本発明の一実施形態において、特徴ベースの予測は、次のようにして実行される:(1)フレームごとに特徴を検出する;(2)検出された特徴をモデル化する;(3)相異なるフレームにおける特徴を相関させて、特徴トラックを生成する;(4)特徴トラックを用いて、符号化されている最中の「現在の」フレームにおける特徴の位置を予測する;(5)現在のフレームにおけるその特徴の予測位置の近傍に存在するマクロブロックを関連付ける;および(6)前記(5)におけるマクロブロックに対して、関連付けられた特徴(相関する特徴)の特徴トラックに沿った過去の位置に基づいて予測を生成する。
一実施形態では、特徴を、既述のSURFアルゴリズムを用いて検出し、既述のFPAアルゴリズムを用いて相関させて追跡する。特徴の検出、相関及び追跡後には、上記のように各特徴トラックを最も近傍のマクロブロックと関連付け得る。一実施形態において、1つのマクロブロックに複数の特徴を関連付けることが可能な場合には、そのマクロブロックと最も大きく重複する特徴を、そのマクロブロックと関連付ける特徴として選択する。
ターゲットのマクロブロック(符号化されている最中の現在のマクロブロック)、これに関連付けられた特徴、およびその特徴の特徴トラックが与えられることで、当該ターゲットのマクロブロックに対する一次的予測(またはキー予測)を生成することができる。キー予測のデータ(ペル)は、その特徴が現れる(最新のフレームからみて)一番最近のフレームから取得する。以降では、この一番最近のフレームを、キーフレームと称する。キー予測は、動きモデルおよびペルのサンプリングスキームを選択したうえで生成される。本発明の一実施形態において、前記動きモデルは、特徴がキーフレームと現在のフレームとの間で静止していると仮定する「零次」か、あるいは、特徴の動きが2番目に一番最近の参照フレームとキーフレームと現在のフレームとの間で線形であると仮定する「一次」とされ得る。いずれの場合も、特徴の動きを、当該特徴と関連付けられた、現在のフレームにおけるマクロブロックに(時間的に逆方向に)適用することにより、キーフレームにおけるそのマクロブロックに対する予測が得られる。本発明の一実施形態において、前記ペルのサンプリングスキームは、動きベクトルを整数に四捨五入して(整数に丸めて)キー予測のペルをキーフレームから直接取り出す「直接」か、あるいは、H.264などの従来の圧縮法の内挿スキームを用いて動き補償されたキー予測を導き出す「間接」とされ得る。つまり、本発明では、前記動きモデル(零次または一次)に応じて、さらに、前記サンプリングスキーム(直接または間接)に応じて、4種類の相異なるキー予測を得ることができる。
キー予測は、サブタイル化プロセスを用いて局所的な変形成分をモデル化することにより、改良することができる。サブタイル化プロセスでは、マクロブロックの相異なる局所部位について、それぞれの動きベクトルを算出する。一実施形態において、前記サブタイル化プロセスは、16×16のマクロブロックを8×8の4つの1/4部位(quadrant)に分割し、それぞれに対する予測を別個に算出することで実行され得る。別の実施形態では、前記サブタイル化プロセスが、Y/U/V色空間ドメインにおいて、Y色チャネル、U色チャネルおよびV色チャネルの予測を別個に算出することで実行され得る。
ターゲットのマクロブロックに対する一次的予測/キー予測に加えて、そのターゲットのマクロブロックに関連付けられた特徴の、当該キーフレームよりも過去の参照フレームにおける位置に基づいて、副次的予測を生成してもよい。一実施形態では、現在のフレームにおける、ターゲットのマクロブロックから当該ターゲットのマクロブロックに関連付けられた特徴の位置(推測位置)までのオフセットを、過去の参照フレームにおける当該特徴の位置に基づいて副次的予測を見つけ出すための動きベクトルとして使用し得る。このようにして、特徴が関連付けられた所与のターゲットのマクロブロックに対する副次的予測を、(その特徴が現れたフレームごとに1つずつ)複数生成することができる。一実施形態では、探索対象とする過去の参照フレームの数を制限する(例えば、25個とする)ことにより、副次的予測の数を制限するようにしてもよい。
<複合予測>
ターゲットのマクロブロックに対する一次的予測(キー予測)および副次的予測の生成後に、これらの予測に基づいて、そのターゲットのマクロブロックの全体的な再構成を算出することができる。一実施形態において、前記再構成は、従来のコーデックにならって、キー予測のみに基づいた再構成とされる。以降では、このような再構成を、キー単独(KO)再構成と称する。
別の実施形態において、前記再構成は、前記キー予測と前記副次的予測のうちの1つを重み付けしたものとを合計した複合予測に基づいた再構成とされる。以降では、このようなアルゴリズムを、PCA−Lite(PCA−L)と称する。PCA−Liteは、以下の手順を含む:
1. ターゲットのマクロブロックの(一次元)ベクトル(ターゲットベクトルtと称する)およびキー予測の(一次元)ベクトル(キーベクトルkと称する)を生成する;
2. ターゲットベクトルからキーベクトルを減算することにより、残差ベクトルrを算出する;
3. 副次的予測の集合をベクトル化してベクトルsを形成する(一般性を失うことなく、これらの副次的ベクトルは、単位ノルムを有するものと仮定する)。次に、全ての副次的ベクトルからキーベクトルを減算することにより、キー減算集合s−kを生成する。これは、副次的ベクトルからキーベクトルの射影を減算するようなものである;
4. それぞれの副次的ベクトルについて、重み付け係数c=r(s−k)を算出する;および
5. それぞれの副次的ベクトルについて、複合予測t=k+c×(s−k)を算出する。
概すれば、PCA−Liteアルゴリズムの上記手順は、周知の直交マッチング追跡アルゴリズム[Pati, 1993]の手順に似ているが、上記の複合予測は、一次的予測および副次的予測からの冗長な寄与を含まないように意図されている。別の実施形態では、前記PCA−Liteアルゴリズムにおいて、上述した手順3〜5のキーベクトルをキーベクトルと副次的ベクトルとの平均に置き換える。以降では、このような変更入りアルゴリズムを、PCA−Lite−Meanと称する。
上記のPCA−Liteアルゴリズムは、一部の標準的なコーデックで見受けられる双予測アルゴリズム(冒頭の「背景技術」の欄に記載)と異なるタイプの複合予測を提供することができる。標準的な双予測アルゴリズムは、各予測に用いる参照フレームと現在のフレームとの時間的距離に基づいて、複数の予測をブレンディング(混合)する。対照的に、PCA−Liteは、各予測の「内容」に基づいて複数の予測を混合し、複合予測を生成する。
なお、上記の複合予測は、特徴ベースのモデリングでなくても可能である。すなわち、どのような予測の集合を用いても、所与のターゲットのマクロブロックについての複合予測を生成することは可能である。しかし、特徴ベースのモデリングでは、所与のターゲットのマクロブロックについての予測の集合が、自然と互いに関連性を有するものになる。そして、複合予測とすることにより、それらの複数の予測からの情報を効率良く組み合わせることができる。
<複数の忠実度でのデータのモデリング>
本発明では、モデルベース圧縮のために、複数の忠実度でデータをモデル化することが可能である。図2Aに、この一実施形態を示す。図2Aには、モデル化の4つの階層が描かれている。以下の表は、これら4つの階層をまとめたものである。以下では、これら4つの階層について詳細に説明する。
図2Aの一番下の階層は、「マクロブロック」(MB)階層と称され、フレームを、互いに重複しないマクロブロック(16×16サイズのタイル)または有限のサブタイルのセットに分割する従来の圧縮法に相当するものである。従来の圧縮法(例えば、H.264など)は、基本的にモデル化を行わず、ブロックベースの動き予測・補償(BBMEC)を用いて、復号化した参照フレーム内の限られた探索空間から各タイルの予測212を見つけ出す。デコーダで、予測212をマクロブロック(またはサブタイル)の残差符号と組み合わせることにより、本来のデータの再構成を合成する(過程210)。
図2Aの2番目の階層202は、「マクロブロックを特徴とする」(MBF)階層と称され、既述のMBCトラッカー(図2Aの216)に基づいた圧縮法に相当する。この階層では、符号化した複数のフレームにわたって従来のBBMEC探索法を繰り返し適用することにより、マクロブロック(マクロブロックのサブタイル)を特徴として取り扱う。前記MB階層と同じ、1回目のBBMECを適用して、構成要素216内の一番最近の参照フレームから、ターゲットのマクロブロックについての従来での予測を見つけ出す。ただし、2回目のBBMECの適用は、構成要素216内の二番目に最近の参照フレームを探索することによって、従来の1回目の予測に対する従来のさらなる予測を探索する。構成要素216内の過去のフレームを徐々に遡ってBBMECを繰り返し適用することにより、ターゲットのマクロブロック(特徴として特定されていない)の「トラック」を生成する。MBCトラックによってモデル214を生成し、このモデル214によって予測212を生成する。デコーダで、この予測212をマクロブロック(またはサブタイル)の残差符号と組み合わせることにより、本来のデータの再構成が合成される(過程210)。
図2Aの3番目の階層204は、「特徴」階層と称され、既述の特徴ベースの圧縮法に相当する。既述したように、マクロブロックのグリッドに関係なく特徴を検出及び追跡し、これらの特徴を当該特徴と重複するマクロブロックに関連付けて、特徴トラックを用いて、復号化した参照フレーム216をナビゲートすることで前記重複するマクロブロックに対する良好なマッチを見つけ出す。代替の一実施形態では、コーデックが、特徴をマクロブロックと関連付けずに当該特徴を直接的に符号化及び復号化し、例えば前記MB階層の従来の圧縮法などにより、「特徴でない」バックグラウンドを特徴とは別に処理し得る。特徴ベースのモデル214によって予測212を生成する。デコーダで、この予測212を対応するマクロブロック(またはサブタイル)の残差符号と組み合わせることにより、本来のデータの再構成が合成される(過程210)。
図2Aの一番上位の階層206は、「オブジェクト」階層と称され、オブジェクトベースの圧縮法に相当する。オブジェクトとは、本質的に、複数のマクロブロックを包含し得る大規模な特徴であり、物理的な意味(例えば、顔、ボール、携帯電話など)または複雑な事象208を有する何らかに相当し得る。オブジェクトのモデル化(オブジェクトモデリング)は、そのオブジェクトが特定の種類のもの(例えば、顔など)であると予想される場合、特殊な基底関数を用いてモデル化することが可能(過程214)なので、パラメトリックモデリング(パラメトリックなモデル化)となり得る。オブジェクトが複数のマクロブロックを包含するか又は複数のマクロブロックと重複する場合、そのオブジェクト216に対応する全てのマクロブロックに関して単一の動きベクトル212を算出可能であり、これにより演算量及び符号化サイズを節約することができる。オブジェクトベースのモデル214によって予測212を生成する。デコーダで、この予測212を対応するマクロブロック(またはサブタイル)の残差符号と組み合わせることにより、本来のデータの再構成が合成される(過程210)。
代替の一実施形態では、オブジェクトを、当該オブジェクトの近傍の特徴モデル214を相関及び集約することによって特定するようにしてもよい。図2Bは、そのような特徴モデルの集約による、ノンパラメトリックなまたは経験的なオブジェクト検出の様子を示すブロック図である。特定の種類のオブジェクト220は、その種類のオブジェクトの性質を有する特徴(すなわち、「オブジェクトバイアス」を示す特徴)を特定することによって検出される(過程222)。次に、その特徴のセット222がモデル状態224の硬直性(rigidity)、すなわち、特徴同士及び当該特徴の状態同士が経時的に相関する傾向を示すか否かを判断する(過程224)。各特徴モデルに相関関係があると判断された場合(これにより、オブジェクトが検出されたと判断する(過程226))、付随するパラメータを備えた複合外観モデル228および付随するパラメータを備えた複合変形モデル230が形成され得る。複合外観モデルおよび複合変形モデルが形成されることで、個々の外観モデルおよび個々の変形モデルの場合よりも、当然にパラメータが低減する(過程232)。
図2Cに、図2Aの前記「オブジェクト」階層206の第3の実施形態として、オブジェクトベースのパラメトリックなモデル化とノンパラメトリックなモデル化の両方を用いる構成を示す。オブジェクトは、パラメトリックなモデルによって検出される(過程240)。検出されたオブジェクト240を処理して、当該オブジェクトと重複する特徴が存在するか否かを判断する(過程250)。次に、そのような重複する特徴のセットを調べて、上記のように特徴同士を集約できるか否かを判断し得る(過程260)。重複する特徴同士を集約できないと判断された場合には、過程240で検出されたオブジェクトと重複するマクロブロックを調べて、前述したように共通する単一の動きベクトルを有するようにマクロブロック同士を効率良く集約できるか否かを判断し得る(過程270)。
複数の忠実度での処理アーキテクチャでは、最良の処理を達成できるように、階層200、階層202、階層204および階層206を適宜組み合わせてもよい。一実施形態では、図2Aの全ての階層を「競争」のようにして調べることにより、符号化する各マクロブロックの最良の(最小量の)符号が、どの階層で得られかを判断する。この「競争」については、後で詳述する。
別の実施形態では、図2Aの階層が、一番下位の階層(最も単純な階層)から一番上位の階層(最も複雑な階層)へと順次的に調べられ得る。下位の階層のソリューションで十分な場合には、上位の階層のソリューションを調べなくてもよい。所与のソリューションについて「十分に良好である」か否かを判断する基準については、後で詳述する。
<モデルベースの圧縮コーデック>
<従来のコーデックの処理>
符号化プロセスでは、映像データを、圧縮フォーマット又は符号化フォーマットに変換し得る。同様に、解凍プロセスでは、圧縮された映像を、圧縮される前のフォーマット(すなわち、元々のフォーマット)に変換し得る。映像圧縮プロセス及び映像解凍プロセスは、コーデックと一般的に称されるエンコーダ/デコーダのペアにより実現され得る。
図3Aは、標準的なエンコーダ312のブロック図である。図3Aのエンコーダは、ソフトウェア環境でも、ハードウェア環境でも、あるいは、それらの組合せでも実現可能である。一例として、このようなエンコーダの構成要素(コンポーネント)は、図8Aまたは図8Bのように、少なくとも1つのプロセッサ820によって実行可能な、記憶媒体に記憶されたコードとして実施され得る。エンコーダ312の構成要素には、あらゆる組合せの構成要素が使用されてもよく、そのような構成要素には、イントラ予測部314、インター予測部316、変換部324、量子化部326、エントロピー符号化部328、ループフィルタ334が含まれ得るが、必ずしもこれらに限定されない。インター予測部316は、動き補償部318、フレーム記憶部320および動き予測部322を含み得る。エンコーダ312は、さらに、逆量子化部330および逆変換部332を備え得る。図3Aのエンコーダ312の各コンポーネントの機能は、当業者にとって周知である。
図3Aのエントロピー符号化アルゴリズム328は、量子化された変換係数の各種数値の確率を定量化した確率分布に基づくアルゴリズムであってもよい。その時点の符号化単位(例えば、マクロブロックなど)の符号化サイズは、その時点の符号化状態(符号化する各種数量の数値)および前記確率分布に対する当該符号化状態の一致の程度に依存する。後述するように、この符号化状態が変化すると、後続のフレーム内の符号化単位の符号化サイズに影響が及び得る。映像の符号を徹底的に最適化するために、映像の全ての符号化経路(すなわち、考えられる全ての符号化状態)を徹底的に探索することも可能ではあるが、演算負荷があまりにも大きくなってしまう。本発明の一実施形態では、エンコーダ312が、大規模な範囲(すなわち、1つのスライス、1つのフレームまたはフレームのセット)を検討するのではなく、最新の(ターゲット)マクロブロックだけに集中することにより、最適化を局所的に達成する。
図3Bは、イントラ予測データ336を復号化する標準的なデコーダ340のブロック図であり、図3Cは、インター予測データ338を復号化する標準的なデコーダ340のブロック図である。デコーダ340は、ソフトウェア環境でも、ハードウェア環境でも、あるいは、それらの組合せでも実現可能である。図3A、図3B及び図3Cを参照して、典型的なエンコーダ312は、内部または外部から映像入力310を受け取り、データを符号化し、符号化したデータをデコーダのキャッシュ/バッファ348に記憶する。デコーダ340は、符号化されたデータをそのキャッシュ/バッファ348から取り出して復号化や送信を行う。デコーダは、システムバスやネットワークインターフェースなどのあらゆる利用可能な手段を介して、復号化されたデータにアクセスし得る。デコーダ340は、映像データを復号化して前述したキーフレーム及び予測対象のフレーム(図2Aの符号210全般)を解凍し得る。キャッシュ/バッファ348は、映像シーケンス/ビットストリームに関係するデータを受け取って、エントロピー復号化部346に情報を供給し得る。エントロピー復号化部346は、ビットストリームを処理して、図3Bのイントラ予測の変換係数の量子化された推定値または図3Cの残差信号の変換係数の量子化された推定値を生成する。逆量子化部344は、逆スケーリング(rescaling operation)を実行することにより、変換係数の推定値を生成する。これら変換係数の推定値に逆変換を適用することにより(過程342)、図3Bでは元々の映像データペルのイントラ予測が合成され、図3Cでは残差信号のイントラ予測が合成される。図3Cでは、合成された残差信号が、ターゲットのマクロブロックのインター予測に加算されることにより、そのターゲットのマクロブロックの完全な再構成が生成される。デコーダのインター予測部350は、フレームストア(フレーム記憶部)352に含まれた参照フレームに動き予測(過程356)及び動き補償(過程354)を適用することにより、エンコーダで生成されたインター予測を複製する。デコーダのインター予測部350は、その構成要素である動き予測部322、動き補償部318およびフレームストア320も含め、図3Aのインター予測部316と同様の構成を有する。
<モデルベース予測を実現するハイブリッドコーデック>
図3Dは、モデルベース予測を実行する、本発明の一実施形態のエンコーダを示す図である。コーデック360は、現在の(ターゲットの)フレームを符号化し得る(過程362)。そして、コーデック360は、そのフレーム内の各マクロブロックを符号化し得る(過程364)。標準的なH.264符号化プロセスを用いて、H.264符号化ソリューションをもたらす基礎的な(第1の)符号を定義する(過程366)。好ましい一実施形態において、エンコーダ366は、GOP(参照フレームの集合)を符号化することができるH.264エンコーダである。好ましくは、H.264エンコーダは、各フレーム内のペルを符号化するのにあたって様々な方法を適用できるように設定可能であり、そのような方法としてはイントラフレーム予測およびインターフレーム予測が挙げられ、当該インターフレーム予測では、符号化されている最中のマクロブロックに対する良好なマッチを見つけ出すために多数の参照フレームを探索することができる。好ましくは、元々のマクロブロックデータと予測との誤差が、変換及び量子化及びエントロピー符号化される。
好ましくは、エンコーダ360は、CABACエントロピー符号化アルゴリズムを利用することにより、コンテキストに敏感なコンテキストモデリング用適応型メカニズムを提供する(過程382)。このようなコンテキストモデリングは、所定のメカニズムの二値化プロセスを用いられた、映像データのシンタックスエレメント(例えば、ブロックの種類、動きベクトル、量子化された係数など)の二値シーケンスに適用され得る。次に、各エレメントを、適応型又は固定型の確率モデルを用いて符号化する。コンテキスト値を用いて確率モデルを適宜調整するようにしてもよい。
<競争モード>
図3Dでは、H.264によるマクロブロック符号を分析する(過程368)。過程368では、H.264によるマクロブロック符号が「効率的」であると判断された場合、そのH.264ソリューションが理想に近いと見なし、それ以上の分析を行わずに、ターゲットのマクロブロックにH.264符号化ソリューションを選択する。一実施形態において、H.264による符号化効率は、H.264による符号化サイズ(ビット)を閾値と比較することによって判定され得る。そのような閾値は、過去に符号化した映像のパーセンタイル統計から導き出され得るか、あるいは、同じ映像のこれまでのパーセンタイル統計から導き出され得る。他の実施形態において、H.264による符号化効率は、H.264エンコーダがターゲットのマクロブロックを「スキップ」マクロブロックと判断したか否かによって判定され得る、「スキップ」マクロブロックとは、その内側及び周辺のデータが、追加の符号化を実質的に必要としない程度に十分に一様であるマクロブロックのことを言う。
過程368において、H.264によるマクロブロックソリューションが効率的であると判断されなかった場合、追加の分析が実行され、エンコーダは競争モード380に移行する。このモードでは、複数のモデル378に基づいて、ターゲットのマクロブロックの各種予測が複数生成される。モデル378は、過去のフレーム374で検出及び追跡された特徴を特定する(過程376)ことによって生成される。新しいフレーム362が処理される(符号化及び復号化されてフレームストアに記憶される)たびに、その新しいフレーム362における新たな特徴の検出およびこれに対応する特徴トラックの延長を考慮して、特徴モデルを更新する必要がある。モデルベースのソリューション382は、取得したH.264ソリューションと共に、符号化サイズ384に基づいて順位付けされる。このように、基礎的な符号化(H.264ソリューション)およびモデルベースの符号化のいずれでも所与のマクロブロックを符号化できるという自由度に基づいて、本発明にかかるコーデックを、ハイブリッドコーデックと称することができる。
例えば、競争モードでは、H.264によってターゲットのマクロブロックの符号が生成されて、その圧縮効率(より少ないビット数でデータを符号化する能力)が他のモデルと比較される。競争モードで使用する符号化アルゴリズムごとに、次の手順を実行する:(1)使用するコーデックモード/アルゴリズムに基づいて予測を生成する;(2)ターゲットのマクロブロックから予測を減算して残差信号を生成する;(3)ブロックベースの二次元DCTの近似を用いて、その残差(ターゲット−前記予測)を変換する;および(4)エントロピー符号化(encoder)により、変換係数を符号化する。
幾つかの側面で、H.264(インターフレーム)によるベースライン予測は、比較的単純な制限されたモデルに基づいた予測であると言える(H.264は、競争モードで使用される複数のアルゴリズムのうちの1つとされる)。しかし、エンコーダ360の予測には、より複雑なモデル(特徴ベースのモデルまたはオブジェクトベースのモデル)及び当該モデルに対応するトラッキング(追跡)に基づいた予測も使用され得る。エンコーダ360は、データ複雑性を示すマクロブロックが検出された場合、従来の圧縮法よりも特徴ベースの圧縮法のほうが良好な結果をもたらすとの仮定に基づいて動作する。
<競争モードでの特徴ベース予測の使用>
上記のように、まず、ターゲットのマクロブロックごとに、そのマクロブロックにとってH.264ソリューション(予測)が効率的である(「十分に良好である」)か否かを判断する。この判定結果が否定である場合、競争モードに移行する。
図3Dの競争モード380では、特徴ベースの予測を行う際の各種処理選択肢(既述の説明を参照)を適宜選択することにより、その競争への「エントリー」が決まる。各エントリーは、ターゲットのマクロブロックについて互いに異なる予測を行う。本発明にかかる特徴ベース予測では、以下の処理選択肢の指定が可能である:
−トラッカー(追跡手段)の種類(FPA、MBC、SURF)、
−キー予測に用いる動きモデル(零次または一次)
−キー予測に用いるサンプリングスキーム(直接または間接)
−キー予測に用いるサブタイル化スキーム(サブタイル化を行わない、1/4分割、Y/U/V)
−再構成アルゴリズム(KOまたはPCA−L)および
−副次的な予測に用いる参照フレーム(PCA−Lの場合)。
所与のターゲットのマクロブロックのソリューションの探索空間には、H.264ソリューション(H.264での「最良の」インターフレーム予測)に加えて、既述した本発明にかかる全種類の特徴ベース予測が含まれ得る。一実施形態において、競争モードは、上記の処理選択肢(トラッカー(追跡手段)の種類、キー予測に用いる動きモデル、キー予測に用いるサンプリングスキーム、サブタイル化スキームおよび再構成アルゴリズム)のあらゆる組合せを含む。別の実施形態において、競争モードでの前記処理選択肢は設定可能であり、演算量を節約するのに十分な数のサブセットの組合せに限定可能とされる。
前記競争でのソリューション候補は、次の4つの手順(既述の手順と同様)により1つずつ評価される:(1)予測を生成する;(2)ターゲットのマクロブロックから前記予測を減算して残差信号を生成する;(3)残差を変換する;および(4)エントロピー符号化(encoder)により変換係数を符号化する。図3Dの過程382からの出力は、所与のソリューション384に伴うビット数である。各ソリューションの評価が終わるごとに、エンコーダは、その次のソリューションについて評価できるように、現在の評価を行う前の状態にロールバックされる。一実施形態において、全てのソリューションについての評価後、最小の符号化サイズを有するソリューションが選択されることにより、前記競争の「勝者」が選ばれる(過程370)。そして、勝者のソリューションが、前記ターゲットのマクロブロックについての最終的な符号として再びエンコーダに送信される(過程372)。既述したように、前記勝者のソリューションは、前記ターゲットのマクロブロックにのみ最適化されたソリューションであることから、局所的に最適なソリューションであると言える。代替の一実施形態では、最適なソリューションを、より広域的なトレードオフを緩和できるか否かに基づいて選択する。そのようなトレードオフには、後続のフレームでの、コンテキストのイントラフレーム予測フィードバックの影響、残差誤差の影響などが含まれ得るが、必ずしもこれらに限定されない。
勝者のソリューションに関する情報は、符号化ストリームに保存されて(過程386)、将来の復号化用に送信/記憶される。この情報には、特徴ベース予測に用いた処理選択肢(例えば、トラッカー(追跡手段)の種類、キー算出、サブタイル化スキーム、再構成アルゴリズムなど)が含まれ得るが、必ずしもこれらに限定されない。
場合によっては、ターゲットのマクロブロックがH.264では効率的に符号化されないとエンコーダ360が判断するだけでなく、さらに、そのマクロブロックと重複する特徴が全く検出されないこともあり得る。そのような場合には、エンコーダが最後の手段として、H.264を用いてマクロブロックを符号化する。代替の一実施形態では、そのマクロブロックと重複する疑似特徴を生成するように特徴追跡手段(特徴トラッカー)のトラックを延長することにより、特徴ベース予測を生成するようにしてもよい。
一実施形態では、図2Aの4つの階層間の移動が、前記競争モードで管理される。
<特徴ベース予測を用いた復号化>
図4は、本願の出願人によるEuclidVisionコーデック内のモデルベースの予測を実現し得る、本発明の一実施形態のデコーダの一例を示す図である。デコーダ400は、符号化された映像ビットストリームを復号化することにより、フレーム符号420の基となった入力映像フレームの近似を合成する。フレーム符号420には、対応する映像フレーム418を再構成するのにあたってデコーダ400が使用するパラメータのセットが含まれ得る。
デコーダ400は、エンコーダが採用した順番と同じスライスの順番で、各フレームを走査する。また、デコーダは、エンコーダが採用した順番と同じマクロブロックの順番で、各スライスを走査する。デコーダは、エンコーダでのプロセスに従い、マクロブロック404ごとに、そのマクロブロックを従来の方式で復号化する(過程408)のか、あるいは、特徴モデル及びパラメータを用いて復号化する(過程416)のかを判断する。本発明にかかるモデルベース予測によってマクロブロックが符号化されている場合、デコーダ400は、そのソリューションでの予測を再生する(過程418)のに必要なあらゆる特徴情報(特徴トラック、特徴の参照フレーム[GOP]、特徴の動きベクトル)を抽出する。また、デコーダは、復号化時に特徴モデルを更新し(過程410、412、414)、処理中のフレーム/スライス/マクロブロックについてのエンコーダ側での特徴状態と同期させる。
従来のコーデックでは、メモリの制限により、復号化したフレームについての全ての予測コンテキストを、図3Cのフレームストア352及びキャッシュ348に保持することができず、そのフレーム(ペル)のみを保持するのが一般的であった。対照的に、本発明では、特徴ベースのモデル及びパラメータの保持を優先することにより、図3Cのフレームストア352及びキャッシュ348に記憶される予測コンテキストを拡大させることができる。
特徴モデルを表現するパラメータの全セットは、特徴状態(特徴の状態)と称される。特徴モデルを効率的に保持するには、この特徴状態を抽出する(isolate)必要がある。図5は、本発明の一実施形態での、特徴インスタンスの状態抽出プロセス500を示すブロック図である。この状態抽出情報は、ターゲットのマクロブロックに関連付けられ得る。また、この状態抽出情報は、関係する特徴インスタンス502に対応したパラメータを含み得る。そのようなパラメータは、前記ターゲットのマクロブロックを符号化するのに有用となり得る。また、この状態抽出情報を用いて、後続の映像フレームに予測した特徴を内挿することも可能である。各特徴インスタンスは、それぞれ対応するGOP504を有する。各GOPには、それぞれ対応する状態情報(例えば、対応する境界情報など)が含まれる。各特徴インスタンスの状態抽出情報には、さらに、当該特徴インスタンスと関連付けられるあらゆるオブジェクトについての状態情報、対応するスライスパラメータについての状態情報506、および対応するエントロピー状態についての状態情報508が含まれ得る。このように、前記状態情報は、特徴インスタンスのGOP/スライス/エントロピーパラメータの境界に関する説明、ならびに新たな状態及び新たなコンテキストへの当該境界の延長に関する説明を提供することができる。状態情報506,508を用いることにより、予測して、後続のフレームに予測した特徴の状態を内挿することが可能となる。
マクロブロックのデータ(ペル)と、当該マクロブロックデータと関連付けられた特徴の状態抽出情報とにより、拡張予測コンテキストが形成される。複数の特徴インスタンスからの拡張コンテキストを、復号化した近傍部分(neighbor)と組み合わせるようにしてもよい。図3Aのエンコーダ312ならびに図3B及び図3Cのデコーダ340が用いる前記拡張予測コンテキストには:(1)少なくとも1つのマクロブロック;(2)少なくとも1つの近傍のマクロブロック;(3)スライス情報;(4)参照フレーム[GOP];(5)少なくとも1つの特徴インスタンス;および(6)オブジェクト/テクスチャ情報;が含まれ得るが、必ずしもこれらに限定されない。
<パラメトリックモデルベース圧縮>
<パラメトリックモデリングのコーデックフレームワークへの統合>
上記のハイブリッドコーデックの態様では、特徴モデルを暗示的に利用することにより、マクロブロックの良好な予測に関する手がかりをエンコーダに与える。これとは対照的に、コーデックフレームワークにおいて、特徴モデルを明示的に利用することも可能である。ターゲットのフレーム内の特定の領域を、所与の種類のモデル(例えば、顔モデルなど)によって表現する場合、当該表現はそのモデルのパラメータに依存する。以降では、この種の明示的なモデリングを、パラメトリックモデリング(パラメトリックなモデル化)と称する。一方で、上記のハイブリッドコーデックの態様は、ノンパラメトリックモデリング(ノンパラメトリックなモデル化)または経験的なモデリングを使用している。パラメトリックモデリングは、特定の種類の特徴またはオブジェクト(例えば、顔など)が存在することを予期して行うので、通常、その種類のあらゆる特徴/オブジェクトの空間内に広がる基底ベクトルのセットで構成される。そして、この場合のモデルのパラメータは、基底関数へのターゲットの領域の投影になる。
図6Aは、本発明の代替の一実施形態での、パラメトリックモデリングを実現するコーデック600の構成要素の一例を示すブロック図である。図6Aに示すように、コーデック600は、適応型動き補償予測を実行する手段610および/または適応型動きベクトル予測を実行する手段612および/または適応型変換処理を実行する手段614および/または適応型エントロピー符号化手段616を含み得る。
適応型動き補償予測手段610は、特徴のインスタンスが含まれていることに基づいて参照フレーム618を選択し得る。特徴のモデル化によって圧縮効率が向上した場合、そのモデルが導き出されたフレームを参照フレームとして選択し、さらに、対応するGOPを生成するようにしてもよい。動きベクトルのオフセット626の内挿は、検出された特徴のパラメータに基づいて実行され得る。これにより、検出済みの特徴に基づいた既知のデータポイントの離散集合の範囲内で、予測対象の特徴のインスタンスの新たなデータペルを構築することができる。従来のエンコーダで用いられるサブタイル分割処理612の結果は、変形変化モデル620の制約によって補う。変換処理614は、外観変化モデリング622を用いて外観変化パラメータを制約するようにして実行され得る。エントロピー符号化処理616は、本発明にかかるコーデック600のパラメータレンジ/スケール分析624および適応型量子化628によって補われ得る。このようにして得られたマクロブロック補助データ630が、コーデック600によって出力される。
<パラメトリックモデリングを用いた適応型符号化によるハイブリッドコーデックの改良>
一変形例では、パラメトリックモデリングを用いることにより、既述したハイブリッドコーデックによる予測を改良することができる。一実施形態では、パラメトリックモデルのエレメントを、ターゲットのマクロブロックについて予め得られた予測(例えば、前記競争モードの出力など)に適用することにより、その予測を改良できるか否かを判断する。
図6Bに、パラメトリックモデルベースの適応型エンコーダ634のアプリケーションの一例を示す。適応型エンコーダ634−1は、従来のコーデック(例えば、H.264など)または既述したようなハイブリッドコーデックによって実行される符号化を補い得る。従来の動き補償予測プロセスで得られたペル残差636を分析し(過程638)、当該残差の変形変化及び外観変化をパラメトリックな特徴モデルでより効率的にモデル化(過程642)できるか否かを判断する。一実施形態では、予測残差636とパラメトリックモデル638との変換差分絶対値和(SATD)640が減少するか否かにより、パラメトリックモデルの相対効率を求め得る。パラメトリックなモデルが効率的な表現であると判断された場合、ターゲットの領域(マクロブロック)を特徴モデル(外観基底及び変形基底)に投影することにより、残差信号の符号として機能する特徴パラメータを得ることができる。
この実施形態では、さらに、現在のGOP状態、スライス状態およびエントロピー状態内で、代わりの残差モデリングを適用できるか否かを調べる追加のロールバック機能が設けられる。例えば、一連の映像フレームシーケンスにおいて、符号化されている最中の現在のフレームからみて遠くに位置する、参照フレーム、GOPおよび特徴(スライス)646を、予測の基準として検討することができる。このような手法は、従来のエンコードでは実際的ではない。さらに、別の映像ファイルからの特徴モデルで圧縮が向上するのであれば、そのような映像ファイルなどの別の映像データにロールバックすることも可能である。
<パラメトリックなモデルのパラメータの内挿による特徴ベース予測>
映像ストリーム内に同じ特徴のインスタンスが複数現れる場合、特徴モデルの不変コンポーネント(フレーム間で変化しないコンポーネント)を維持するのが望ましい。パラメトリックな特徴モデリングでは、特徴モデルの特定のパラメータ(例えば、各種基底関数の重み付けを表す係数など)が不変コンポーネントとなる。一般的に、ノンパラメトリックな(経験的な)特徴モデリングでは、特徴ペルそのものが不変コンポーネントとなる。特徴動き予測・補償を実行する際に、モデルの不変コンポーネントを維持することを、動き予測・補償の指針原則(以降では、「不変原則」と称する)としてもよい。
図6Cは、本発明の一実施形態において、前記不変原則を指針として、特徴モデルのパラメータの内挿により特徴の動き補償予測を行う様子を示すブロック図である。図6Cに示すように、動き補償予測プロセス668は、複数の特徴インスタンスのモデルパラメータを当該パラメータの不変インスタンスを中心として調節する、正規化プロセスから開始する。特徴インスタンス(「マッチしたマクロブロック」)の集合670を用いることにより、不変インスタンスを中心として当該インスタンスを正規化するための、複数の種類の内挿関数(674,676,678,680)を生成することができる。モデルのパラメータの不変インスタンス682は、キーフレームでのモデルパラメータ値のセットとして定義され得る。このような不変インスタンスにより、特徴ベースモデルにおける(全てでなくとも)大半の予測/パターンを表現することができる。不変インスタンスは、インスタンスの外観パラメータのベクトルによって構成されるベクトル空間の重心と概念が似ている。
不変インスタンス682は、前記内挿関数(674,676,678,680)のうちの1つを用いてターゲットの位置684を外挿で求める際のキーパターンになり得る。このような内挿/外挿プロセスを用いることにより、ターゲットのフレームにおける特徴のフレーム内位置、外観変化および変形変化を予測することができる。このような特徴の不変表現と、特徴インスタンスのコンパクトなパラメータ形式との組合せにより、参照ソースフレームに含まれる特徴の外観及び変形をキャッシュに格納するのに必要なメモリ量を、従来の圧縮法と比較して劇的に減少させることができる。すなわち、このような特徴モデルにより、フレームのデータのうち圧縮にとって重要かつ有用なデータを簡潔に捕集することができる。
代替の一実施形態として、少なくとも2つの特徴インスタンスについて、それらの特徴インスタンスが現れた参照フレームと現在の(ターゲットの)フレームとの時間間隔が与えられている場合に、それらの特徴モデルパラメータを用いて、ターゲットの領域の状態を予測することができる。この場合、所与の状態モデルと時間ステップとに基づいて、前記不変原則に従って少なくとも2つの特徴パラメータを外挿することにより、ターゲットの領域の特徴パラメータを予測することができる。この場合の状態モデルは、線形のモデルであっても、それよりも高次のモデルであってもよい(例えば、拡張カルマンフィルタなど)。
<特徴モデル情報のキャッシュ整理およびアクセス>
特徴モデルの生成中に、映像内で、同じ特徴のインスタンスが複数見つかる場合が多い。このとき、キャッシュに格納する前に特徴モデル情報を整理することにより、当該特徴モデル情報を効率的に記憶またはキャッシュ格納することができる。この手法は、パラメトリックなモデルベースの圧縮スキームにも、ノンパラメトリックなモデルベースの圧縮スキームにも適用することができる。
例えば、図3Cにおいて、(フレームストア352も含め)キャッシュ348を、特徴ベースモデリングによる予測コンテキスト情報で圧縮効率が向上すると判断された場合に、特徴ベースモデリングによる予測コンテキスト情報を格納するものとして構成することができる。特徴ベースの予測コンテキスト情報がキャッシュに格納されない場合に、これにアクセスしようとすると、オーバーヘッドが発生し、システムの応答性や判断性能を低下させる可能性がある。処理済みの特徴ベース符号化の予測コンテキストをキャッシュに格納しておくことにより、そのようなオーバーヘッドを抑えることができる。このような構成により、特徴ベースの予測コンテキストに関係するデータへのアクセス頻度を減らすことができる。
一例として、エンコーダ312/デコーダ340(図3A、図3C)のキャッシュとして、映像処理の実行速度及び効率を向上させるように構成されたキャッシュを使用することが考えられる。符号化した映像データが、特徴ベース符号化の予測データを導き出したフレームと空間的に近くない映像データであっても、キャッシュにおいて、その符号化した映像データの近傍に、当該特徴ベース符号化の予測データを格納できるか否かによって、映像処理の性能は変化し得る。キャッシュの近さは、アクセスレイテンシや動作遅延やデータ伝送時間に影響し得る。例えば、多数のフレームからの特徴データを少量の物理的メモリに記憶しその形態でアクセスできるようにした方が、それらの特徴を導き出したフレームを恒久的な記憶装置に記憶し、そこにアクセスするよりも遥かに効率的である。また、エンコーダ312/デコーダ340(図3A、図3C)は、マクロブロックまたはフレームが復号化された際にキャッシュ/バッファ/フレームストア内の特徴ベースの予測コンテキスト情報に容易にアクセスできるように予測データをキャッシュに格納する、コンフィギュレータ(設定部/設定手段)を含み得る。
本発明の特定の実施形態では、まず、復号化したフレームについて2種類の特徴相関を定義することにより、すなわち、キャッシュに格納する局所的な復号化したデータと非局所的な復号化したデータとの2種類を定義することにより、キャッシュを拡張し得る。局所的なキャッシュは、バッチ形態(すなわち、フレームのグループの形態)でアクセス可能な、復号化したフレームの集合とされ得る。検出された特徴により、そのようなグループを構成するフレームが決まる。局所的なキャッシュは、現在のフレームで検出された特徴により活性化される。局所的なキャッシュは、現在のフレーム/マクロブロックにおいて「強い」特徴モデル(長い履歴のモデル)が少ない場合に多く使用される。局所的なキャッシュの処理は、バッチ形態の動き補償予測に基づく処理であり、フレームのグループは参照フレームのバッファに記憶される。図7Aは、本発明の一実施形態にかかるキャッシュアーキテクチャ710−1の一例の概要を示すブロック図である。キャッシュアクセスアーキテクチャ710−1は、局所的なキャッシュへのアクセス712(716,718,720,722,724)と長期的な(非局所的な)キャッシュへのアクセス714(726,728,730,732)との判断プロセス710を含む。大部分の特徴が局所的である場合(過程712)(例えば、現在のフレーム/マクロブロックにおいて「強い」特徴モデルが少ない場合)、局所的なキャッシュの処理が行われる(過程718)。
図7Bは、局所的な(短期的な)キャッシュデータ734の利用に伴う処理を示すブロック図である。局所的なキャッシュは、バッチ形態(すなわち、フレームのグループの形態)でアクセス可能な、復号化したフレームの集合とされ得る。検出された特徴により、そのようなグループを構成するフレームが決まる。図7Bの局所的なキャッシュ734は、「短い履歴の」特徴、すなわち、少数のフレームにしか及ばない特徴トラックの特徴のみをグループ化する。そのような「短い履歴」の複数の特徴によって包含される、フレーム同士の集約集合により、それら複数の特徴の共同フレームセット738が定まる。共同フレームセット738内のフレームの優先度は、各フレームのフレームトラックの複雑性に基づいて定まり得る。一実施形態において、そのような複雑性は、H.264などの基礎的な符号化プロセスによる特徴の符号化コストで決まり得る。図3B、図3C、図7A及び図7Bにおいて、前記局所的なキャッシュは、フレームストア352またはキャッシュバッファ348に記憶/格納され得る。局所的に格納されたフレームは、過程720で利用する。次に、検出された特徴インスタンスに基づくGOP/バッチ742を、符号722で利用する。そして、検出された特徴インスタンスに基づく当該GOP/バッチ742を、動き補償予測プロセスの参照フレームとしてテストし得る(過程724)。このようにして行われる動き補償予測は、特徴インスタンスが検出されたフレームを参照フレームとして動き補償を実施することから、特徴の追跡情報に「バイアス」しているとも見なせる。さらに、GOP/バッチ状態、スライス状態およびエントロピー状態内で残差モデリングが可能か否かを調べる、追加のロールバックが設けられる(過程746)。これにより、映像フレームシーケンスにおいて、符号化されている最中の現在のフレームからみて遠くに位置する参照フレームを効率良く評価することができる。
このように、本発明の特定の実施形態では、過去のフレームを分析して、現在のフレームに対するマッチをもたらす確率が最も高いフレームを決定することができる。さらに、参照フレームの数が、従来の圧縮法での1〜16といった典型的なフレーム上限数よりも遥かに多くなる。有用なマッチを含む参照フレームが十分な数存在する場合、システム資源によっては、そのような参照フレームの数が、システムのメモリの限界にまで達することもある。さらに、本発明で生成される中間形態のデータにより、同数の参照フレームを記憶するのに必要なメモリ量を減少させることができる。
再び図7Aを参照して、長い履歴を有する特徴726の大半は、非局所的な/長期的なキャッシュに格納される。非局所的なキャッシュは、「フレーム」と「保持」の2種類のキャッシュアクセス方法に基づいたキャッシュである。非局所的なキャッシュの「フレーム」アクセスでは、フレームに直接アクセスすることにより、現在のフレームを符号化さするための特徴モデルを生成する。「保持」モードでは、復号化したデータに直接アクセスするのではなく、復号化したフレームから予め導き出されたデータ(その復号化したフレームにおける特徴モデルおよび当該特徴モデルでのインスタンスのパラメータ)として保持された特徴モデルを利用する。これにより、この「保持」モードでも、前記「フレーム」モードの場合と同じデータを合成することができる。具体的には、特徴インスタンスのモデルにアクセスする(過程728)。参照フレームにアクセスする(過程730)。最適な参照フレームとモデルとの組合せに印を付ける(過程732)。最適か否かの基準には、各参照フレームにおける特徴モデルの中間特徴情報(特徴の強さおよび特徴の帯域量を含む)が用いられ得る。
長期的なキャッシュ714は、復号化したデータ(又は符号化したデータ)であればどのようなデータであってもよく、好ましくは、デコーダ状態でアクセス可能なものとされる。長期的なキャッシュ714は、例えば、参照フレーム/GOPを含み得る。当該参照フレーム/GOPは、一般的に、符号化されている最中の現在のフレームに先行する複数のフレームである。このようなフレームの組合せ以外にも、デコーダ側の長期的なキャッシュには、現在のフレームを復号化するのに利用可能な、あらゆる組合せの復号化したフレームを格納することができる。
図7Cは、長期的なキャッシュデータの利用に伴う処理を示すブロック図である。長期的な(非局所的な)キャッシュ748は、より長いレンジのキャッシュアーキテクチャを有する。検出された特徴のインスタンスが複数回繰り返し発生しており、当該特徴の対応関係モデルを繰り返し適用できることから、その特徴が長い履歴を有すると判断された場合(過程752)、長期的なキャッシュが、局所的なキャッシュから初期化される(過程750)。次に、プロセスはどの「保持」モードを使用するのかを決定する(過程754)。非局所的なキャッシュのモードは、「保持」760と「非保持」756の2種類である。「非保持」756では、(既述したハイブリッドコーデックでの暗示的なモデリングの使用と同じく、)従来の動き補償予測プロセスを、特徴モデルに基づく予測によって補償する。そのため、「非保持」モード756では、参照フレームにアクセスする(符号758)ことによって有効な予測を得る。「保持」モードは、特徴モデルから明示的に得られた予測を使用する(過程762,766)点で「非保持」モードと異なる。よって、「保持」モードでは、予測空間が、特徴モデルを用いて合成可能な特徴のデータのみに必然的に限定される。また、その特徴モデルは、過去のフレームにおける特徴インスタンスのインスタンスパラメータ(当該過去のフレームに含まれるペルと同等)を含み得る。このようなパラメータを記述する関数の内挿により、予測を動き補償予測プロセスに提供し、フレームの合成を支援する(過程764)。
本発明において、特徴の集合体(特徴集合体)を利用する一部の実施形態では、キャッシュに格納された特徴情報を使用して符号化を行う。このような実施形態では、特徴集合体の部分集合を用いて、その集合体の全体を表現(モデル化)する。既述したように、そのような部分集合は、例えばSVD等を用いることによって選択される。このようにして選択した特徴インスタンスの部分空間は、前記集合体の基底となり、同じ映像(又は他の映像)の後続のフレーム内に対応する特徴が現れるたびに当該特徴を符号化できるようにキャッシュに格納され使用され得る。このような特徴インスタンスの部分集合により、特徴をコンパクトに且つ正確にモデル化することができる。
<デジタル処理環境および通信ネットワーク>
本発明の実施形態は、ソフトウェア環境でも、ファームウェア環境でも、ハードウェア環境でも実現可能である。一実施形態として、図8Aにそのような環境を示す。少なくとも1つのクライアントコンピュータ/デバイス810およびクラウド(またはサーバーコンピュータもしくはその集団)812は、アプリケーションプログラムを実行する処理機能、記憶機能および入出力装置などを実現し得る。少なくとも1つのクライアントコンピュータ/デバイス810は、通信ネットワーク816を介して、(別のクライアントデバイス/プロセス810および少なくとも1つの別のサーバーコンピュータ812も含め)別のコンピューティングデバイスに接続可能である。通信ネットワーク816は、リモートアクセスネットワークの一部、グローバルネットワーク(例えば、インターネットなど)の一部、世界規模のコンピュータの集まりの一部、ローカルエリアネットワークの一部、ワイドエリアネットワークの一部、あるいは、各種プロトコル(TCP/IP、Bluetooth(登録商標)など)を用いて相互通信するゲートウェイの一部であり得る。それ以外の電子デバイス/コンピュータネットワークアーキテクチャも使用可能である。
図8Bは、図8Aの処理環境における所与のコンピュータ/コンピューティングノード(例えば、クライアントプロセッサ/デバイス810、サーバーコンピュータ812など)の内部構造を示す図である。各コンピュータ810,812は、コンピュータ(又は処理システム)の構成品間のデータ転送に用いられる実在する又は仮想的なハードウェアラインのセットである、システムバス834を備える。バス834は、コンピュータシステムの相異なる構成品(例えば、プロセッサ、ディスクストレージ、メモリ、入力/出力ポートなど)同士を接続する共有の配管のようなものであり、それら構成品間の情報のやり取りを可能にする。システムバス834には、様々な入出力装置(例えば、キーボード、マウス、ディスプレイ、プリンター、スピーカーなど)をコンピュータ810,812に接続するためのI/O装置インターフェース818が取り付けられている。コンピュータ810,812は、ネットワークインターフェース822を介して、ネットワーク(例えば、図8Aのネットワーク816など)に取り付けられた他の様々なデバイスに接続することができる。メモリ830は、本発明の一実施形態(例えば、コーデック、ビデオエンコーダ/デコーダなど)を実現するのに用いられるコンピュータソフトウェア命令824およびデータ828を記憶する揮発性メモリである。ディスクストレージ832は、本発明の一実施形態を実施するのに用いられるコンピュータソフトウェア命令824(「OSプログラム」826と同等)およびデータ828を記憶する不揮発性ストレージである。また、ディスクストレージ832は、映像を圧縮フォーマットで長期的に記憶するのにも使用され得る。システムバス834には、さらに、コンピュータ命令を実行する中央演算処理装置820も取り付けられている。なお、本明細書をとおして、「コンピュータソフトウェア命令」と「OSプログラム」は互いに等価物である。
一実施形態において、プロセッサルーチン824およびデータ828は、本発明にかかるシステム用のソフトウェア命令の少なくとも一部を提供するコンピュータプログラムプロダクト(概して符号824で示す)である。コンピュータプログラムプロダクト824としては、ストレージデバイス828に記憶可能なコンピュータ読み取り可能な媒体が挙げられる。コンピュータプログラムプロダクト824は、当該技術分野において周知である任意の適切なソフトウェアインストール方法によってインストール可能なものであり得る。他の実施形態において、前記ソフトウェア命令の少なくとも一部は、ケーブルおよび/または通信および/または無線接続を介してダウンロード可能なものであり得る。さらなる他の実施形態において、本発明にかかるプログラムは、伝播媒体による伝播信号(例えば、無線波、赤外線波、レーザ波、音波、インターネットなどのグローバルネットワークやその他のネットワークによって伝播される電波など)によって実現される、コンピュータプログラム伝播信号プロダクト814(図8A)である。このような搬送媒体または搬送信号が、本発明にかかるルーチン/プログラム824,826用のソフトウェア命令の少なくとも一部を提供する。
代替の実施形態において、前記伝播信号は、伝播媒体によって搬送されるアナログ搬送波またはデジタル信号である。例えば、前記伝播信号は、グローバルネットワーク(例えば、インターネットなど)、電気通信ネットワークまたはその他のネットワークによって搬送されるデジタル信号であり得る。一実施形態において、前記伝播信号は、所与の期間のあいだ伝播媒体によって送信される信号であり、例えば、数ミリ秒、数秒、数分またはそれ以上の期間のあいだネットワークによってパケットで送信される、ソフトウェアアプリケーション用の命令などであり得る。別の実施形態において、コンピュータプログラムプロダクト824の前記コンピュータ読み取り可能な媒体は、コンピュータシステム810が受け取って読み取り可能な伝播媒体である。例えば、コンピュータシステム810は、前述したコンピュータプログラム伝播信号プロダクトの場合のように、伝播媒体を受け取ってその伝播媒体内に組み込まれた伝播信号を特定する。
<特徴ベースのディスプレイツール>
図8Cは、一具体例での、特徴ベースのディスプレイツールのスクリーンショット840である。スクリーンショット840は、映像のフレームを、ボックス842で特定された特徴と共に描いている。このフレームに係る映像フレームシーケンスコンテキストが、符号844で特定されている。特徴842が複数のフレーム844にわたって追跡されて、特徴セットが複数生成され、当該特徴セットがディスプレイのセクション846内に表示される。1つの特徴セット846には、複数の特徴メンバ(特徴インスタンス)が含まれる。データエリアには、所与の特徴を従来の圧縮法で符号化した場合に必要となるビット数である特徴帯域量(Bandwidth)852が表示される。同じデータエリアには、さらに、特徴検出プロセスが表示される(符号850)。このツールは、対象の映像内で特定された全ての特徴及び特徴トラックを表示することができる。
顔にバイアスした(顔に注目する)顔トラッカー(顔追跡手段)を用いて、顔の検出を支援してもよい。顔の検出により、複数の特徴をグループ化するようにしてもよい。図8Eは、顔トラッカーで顔864を指定したスクリーンショット860−02である。図8Dは、顔特徴及び顔以外の特徴の両方を数字862で示したスクリーンショット860−01である。この例において、図8Dの数字は、複数のフレームにわたる特徴の追跡の長さを表す。顔に対するバイアスに基づいて特徴をグループ化することにより、顔と重複する複数のマクロブロックを符号化するのに使用可能なモデルを生成することができる。
厳密にH.264エンコーダのプロセスを用いる代わりに、上記の顔モデルを用いて、対象の領域内の全ペル/全ピクセルを符号化するようにしてもよい。顏モデルを直接適用することにより、追加のバイアシングを実行する必要がなくなり、さらに、H.264を使用せずに過去の参照フレームを選択することができる。特徴対応関係モデルに基づいて顏を生成した後、下位の処理によって残差を符号化する。
<デジタルライツ管理>
一部の実施形態では、本発明にかかるモデルを用いて、符号化されたデジタル映像へのアクセスを制御することができる。例えば、関連モデルなしでは、ユーザは映像ファイルを再生することができない。このアプローチの一具体例は、2008年1月4日付出願の米国特許出願第12/522,357号に記載されている。なお、この米国特許出願の全教示内容は、参照をもって本明細書に取り入れたものとする。映像を「ロックする」(映像に「鍵をかける」)のに前記モデルを使用することができる。また、映像データにアクセスするためのキー(鍵)として、前記モデルを使用することができる。符号化された映像データの再生動作は、モデルに依存し得る。このようなアプローチにより、符号化された映像データの読出しを、モデルへのアクセスなしでは不可能とすることができる。
モデルへのアクセスを制御することにより、コンテンツの再生へのアクセスを制御することができる。この方式は、映像コンテンツへのアクセスを制限するための、ユーザフレンドリー且つデベロッパーフレンドリーな、効率良いソリューションとなり得る。
また、モデルを用いて、コンテンツを段階的にアンロックする(コンテンツの鍵を開ける)ようにしてもよい。あるバージョンのモデルでは、符号をあるレベルまでしか復号化できないようにすることができる。段階的にモデルが完成していくことにより、最終的に映像全体をアンロックすることができる。初期のアンロック状態では映像のサムネイルのみをアンロックし、その映像全体が欲しいか否かを決める機会をユーザに与えるようにしてもよい。ユーザは、標準画質バージョンが欲しければ、1つ上のバージョンのモデルを手に入れる。ユーザが、高精細度品質またはシネマ品質を望むのであれば、より完成されたバージョンのモデルをダウンロードすればよい。モデルは、符号化サイズ及び符号化品質に応じた映像品質を段階的に実現できるように、冗長性なく符号化される。
<フレキシブルマクロブロック順序付けおよびスケーラブル映像符号化>
本発明の例示的な実施形態では、従来の符号化/復号化プロセスを拡張することにより、符号化プロセスを向上させて圧縮の恩恵を受け得る。一実施形態では、本発明に、基礎的なH.264規格の拡張機能であるフレキシブルマクロブロック順序付け(FMO)及びスケーラブル映像符号化(SVC)が適用され得る。
FMOは、符号化されたフレームのマクロブロックを、複数の種類のスライスグループのうちの1つの種類に割り当てる。この割当ては、マクロブロック割当てマップによって定まり、同じスライスグループ内のマクロブロックは互いに隣接していなくてもよい。FMOは、スライスグループを互いに独立して復号化するので、エラー耐性の面で有利である。具体的には、ビットストリームの転送時に1つのスライスグループが失われても、そのスライスグループに割り当てられたマクロブロックを、他のスライスに割り当てられた、当該スライスグループと隣接するマクロブロックから再構成することができる。本発明の一実施形態では、特徴ベース圧縮を、FMOの「フォアグラウンドおよびバックグラウンド」マクロブロック割当てマップタイプに組み込む。特徴と関連付けられたマクロブロックがフォアグラウンドのスライスグループを構成し、それ以外の全てのマクロブロック(特徴と関連付けられないマクロブロック)がバックグラウンドのスライスグループを構成する。
SVCは、映像データの符号を、相異なるビットレートで提供することができる。基本レイヤは低いビットレートで符号化され、少なくとも1つの拡張レイヤは高いビットレートで符号化される。SVCビットストリームの復号化には、基本レイヤ(低ビットレート/低品質アプリケーション)のみを伴い得るか、あるいは、それに加えて一部又は全ての拡張レイヤ(高ビットレート/高品質アプリケーション)も伴い得る。SVCビットストリームのサブストリームもそれ自体が有効なビットストリームなので、SVCを利用することにより、複数のデバイスでSVCビットストリームを(当該デバイスの能力に応じて相異なる品質で)復号化すること、さらに、インターネットストリーミングなどのチャネルスループットが変化する環境で復号化することも含め、アプリケーションのシナリオの自由度が向上する。
一般的に、SVC処理には、時間スケーラビリティ、空間スケーラビリティおよび品質スケーラビリティの3種類のスケーラビリティがある。本発明の一実施形態では、特徴ベースの一次的予測を基本レイヤに含めることにより、特徴ベース圧縮を、品質スケーラビリティ構成に組み込む(「モデルベースの主要な予測及び副次的な予測の生成」と題した前述の説明箇所を参照されたい)。そして、基本レイヤにおける符号化済みフレームを、拡張レイヤで参照フレームとして使用することにより、当該拡張レイヤにおいて特徴ベースの副次的予測を実現することができる。これにより、特徴ベース予測の情報を一斉に符号に加算するのではなく、段階的に加算することが可能となる。一変形例として、全ての特徴ベース予測(一次的予測および副次的予測)を拡張レイヤに移し、基本レイヤでは従来での予測のみを使用するようにしてもよい。
図示のデータ経路/実行経路及び構成要素は例示に過ぎず、各構成要素の動作及び構成並びに各構成要素からのデータフロー及び各構成要素へのデータフローが、実施形態や圧縮する映像データの種類によって変わり得ることは、当業者であれば理解できる。つまり、あらゆる構成のデータモジュール/データ経路を採用することが可能である。
本発明を例示的な実施形態を参照しながら具体的に図示・説明したが、当業者であれば、添付の特許請求の範囲に包含される本発明の範囲から逸脱することなく、形態および細部の詳細な変更が可能であることを理解するであろう。

Claims (37)

  1. 映像データを処理する方法であって、
    検出アルゴリズムを用いて、少なくとも1つのフレーム内で、対象の領域における特徴およびオブジェクトのうちの少なくとも一方を検出する過程と、
    パラメータのセットを用いて、特徴およびオブジェクトのうちの検出された前記少なくとも一方をモデル化する過程と、
    特徴およびオブジェクトのうちの検出された前記少なくとも一方の、あらゆるインスタンスを、複数のフレームにわたって相関させる過程と、
    相関された前記インスタンスの、少なくとも1つのトラックを形成する過程と、
    前記少なくとも1つのトラックを、符号化する映像データの少なくとも1つのブロックに関連付ける過程と、
    関連付けられた前記トラックの情報を用いて、映像データの前記少なくとも1つのブロックに対するモデルベース予測を生成する過程であって、前記モデルベース予測を、処理した映像データとして記憶することを含む、過程と、
    を備える、映像データの処理方法。
  2. 請求項1に記載の映像データの処理方法において、前記検出アルゴリズムが、ノンパラメトリックな特徴検出アルゴリズムの種類に含まれる、映像データの処理方法。
  3. 請求項1に記載の映像データの処理方法において、前記パラメータのセットが、特徴およびオブジェクトのうちの前記少なくとも一方に関する情報を含み、メモリに記憶される、映像データの処理方法。
  4. 請求項3に記載の映像データの処理方法において、特徴のパラメータが、特徴記述子ベクトルおよび当該特徴の位置を含む、映像データの処理方法。
  5. 請求項4に記載の映像データの処理方法において、前記パラメータが、その特徴の検出時に生成される、映像データの処理方法。
  6. 請求項1に記載の映像データの処理方法において、映像データの前記少なくとも1つのブロックがマクロブロックであり、前記少なくとも1つのトラックが特徴を当該マクロブロックに関連付ける、映像データの処理方法。
  7. 映像データを処理する方法であって、
    対象の領域における特徴およびオブジェクトのうちの少なくとも一方を検出する過程と、
    パラメータのセットを用いて、特徴およびオブジェクトのうちの前記少なくとも一方をモデル化する過程と、
    特徴およびオブジェクトのうちの前記少なくとも一方の、あらゆるインスタンスを、複数のフレームにわたって相関させる過程と、
    相関された前記インスタンスの、少なくとも1つの行列を形成する過程と、
    前記少なくとも1つの行列を、符号化する映像データの少なくとも1つのブロックに関連付ける過程と、
    関連付けられた前記行列の情報を用いて、映像データの前記少なくとも1つのブロックに対するモデルベース予測を生成する過程であって、前記モデルベース予測を、処理した映像データとして記憶することを含む、過程と、
    を備える、映像データの処理方法。
  8. 請求項7に記載の映像データの処理方法において、前記パラメータのセットが、特徴およびオブジェクトのうちの前記少なくとも一方に関する情報を含み、メモリに記憶される、映像データの処理方法。
  9. 請求項8に記載の映像データの処理方法において、特徴のパラメータが、特徴記述子ベクトルおよび当該特徴の位置を含む、映像データの処理方法。
  10. 請求項9に記載の映像データの処理方法において、前記パラメータが、その特徴の検出時に生成される、映像データの処理方法。
  11. 請求項7に記載の映像データの処理方法において、さらに、
    あるベクトル空間の少なくとも1つの部分空間を用いて、前記少なくとも1つの行列を、特徴およびオブジェクトのうちの相関された前記少なくとも一方の、パラメトリックモデルとしてまとめる過程、
    を含む、映像データの処理方法。
  12. 映像データを処理するコーデックであって、
    少なくとも2つの映像フレーム内における特徴のインスタンスを特定する、特徴ベース検出手段であって、特定される、当該特徴のインスタンスが、前記1つまたは2つ以上の映像フレーム内の他のピクセルよりもデータ複雑さを示す複数のピクセルを有する、特徴ベース検出手段と、
    前記特徴ベース検出手段に動作可能に接続されたモデル化手段であって、2つまたは3つ以上の映像フレーム内における特徴の前記インスタンスの対応関係をモデル化する、特徴ベースの対応関係モデルを生成するモデル化手段と、
    前記特徴ベースの対応関係モデルを用いて特徴の前記インスタンスを符号化する方が、第1の映像符号化プロセスを用いて特徴の当該インスタンスを符号化するよりも圧縮効率が向上すると判断された場合に、前記特徴ベースの対応関係モデルの使用を優先するキャッシュと、
    を備える、コーデック。
  13. 請求項12に記載のコーデックにおいて、従来の映像圧縮法による前記ピクセルの符号化が所定の閾値を超える場合に、前記データ複雑さが判断される、コーデック。
  14. 請求項12に記載のコーデックにおいて、従来の映像圧縮法により前記特徴を符号化すると割り当てられる帯域量が所定の閾値を超える場合に、前記データ複雑さが判断される、コーデック。
  15. 請求項14に記載のコーデックにおいて、前記所定の閾値が、所定の数値、データベースに記憶された所定の数値、過去に符号化した特徴に割り当てられた帯域量の平均値として設定される数値、および過去に符号化した特徴に割り当てられた帯域量の中央値として設定される数値のうちの少なくとも1つである、コーデック。
  16. 請求項12に記載のコーデックにおいて、前記第1の映像符号化プロセスが、動き補償予測プロセスを含む、コーデック。
  17. 請求項12に記載のコーデックにおいて、前記使用の優先が、競争モード内の各ソリューション候補の符号化コストを比較することによって決定され、前記ソリューション候補が、追跡手段、キー予測動きモデル、キー予測サンプリングスキーム、サブタイル化スキーム、再構成アルゴリズム(、および(場合によっては)副次的な予測スキーム)を含む、コーデック。
  18. 請求項17に記載のコーデックにおいて、前記特徴ベースのモデル化の使用が優先されると、特徴の前記インスタンスのデータ複雑さのレベルが前記閾値として使用され、これにより、特徴の後続のインスタンスがその閾値以上のデータ複雑さのレベルを示すと、前記エンコーダが、特徴の当該後続のインスタンスに対する特徴ベースの圧縮の開始及び使用を自動的に判断する、コーデック。
  19. 請求項12に記載のコーデックにおいて、前記特徴ベース検出手段が、FPAトラッカー、MBCトラッカーおよびSURFトラッカーのうちの1つを利用する、コーデック。
  20. 映像データを処理するコーデックであって、
    少なくとも2つの映像フレーム内における特徴のインスタンスを特定する、特徴ベースの検出手段であって、特定される、特徴の当該インスタンスが、前記少なくとも2つの映像フレームのうちの少なくとも1つの映像フレーム内の他のピクセルよりもデータ複雑さを示す複数のピクセルを有する、特徴ベース検出手段と、
    前記特徴ベース検出手段に動作可能に接続されたモデル化手段であって、前記少なくとも2つの映像フレーム内における、特徴の特定されたインスタンスの対応関係をモデル化する特徴ベースの対応関係モデルを生成するモデル化手段と、
    複数の前記特徴ベースの対応関係モデルのうち、所与の特徴ベースの対応関係モデルにより、特徴の特定された前記インスタンスの圧縮効率が向上すると判断された場合に、その対応関係モデルの使用を優先するメモリと、
    を備える、コーデック。
  21. 請求項20に記載のコーデックにおいて、特定された特徴の圧縮効率を、第1の映像符号化プロセスを用いた場合の特徴の当該特徴のインスタンの符号化と、データベースに記憶された圧縮効率の所定の数値との一方と比べることにより、当該特徴の特定されたインスタンスの圧縮効率の向上を判断する、コーデック。
  22. 映像データを処理する方法であって、
    特徴のペルおよび特徴記述子のうちの少なくとも一方をベクトル化することにより、特徴をモデル化する過程と、
    (a)特徴のペルの異なるベクトル間または異なる特徴記述子間の平均二乗誤差(MSE)の最小化と、(b)特徴のペルの異なるベクトル間または異なる特徴記述子間の内積の最大化との少なくとも一方により、類似する特徴を特定する過程と、
    標準の動き予測・補償アルゴリズムを適用する過程であって、これにより前記特徴の並進動きを考慮し、処理した映像データを得る過程と、
    を備える、映像データの処理方法。
  23. 映像データを処理する方法であって、
    モデルベース予測を、ターゲットのフレームを符号化するようにコーデックを構成することによって実現する過程と、
    従来の符号化プロセスを用いて、前記ターゲットのフレーム内のマクロブロックを符号化する過程と、
    前記マクロブロックの符号化を分析する過程であって、そのマクロブロックの従来の符号化が効率的と非効率の少なくとも一方と判断され、前記従来の符号化が非効率と判断された場合、前記マクロブロックに対する予測を複数のモデルに基づいて複数生成することによって、前記エンコーダが分析され、そのマクロブロックの前記複数の予測の評価が、符号化サイズに基づく、過程と、
    前記マクロブロックの前記予測を、前記従来の符号化によるマクロブロックと共に順位付けする過程と、
    を備える、映像データの処理方法。
  24. 請求項23に記載の映像データの処理方法において、前記マクロブロックの前記従来の符号化を、符号化サイズが所定のサイズ閾値よりも小さい場合に効率的とする、映像データの処理方法。
  25. 請求項23に記載の映像データの処理方法において、前記マクロブロックの前記従来の符号化を、前記ターゲットマクロブロックがスキップマクロブロックである場合に効率的とする、映像データの処理方法。
  26. 請求項23に記載の映像データの処理方法において、前記マクロブロックの前記従来の符号化を、符号化サイズが閾値よりも大きい場合に非効率とする、映像データの処理方法。
  27. 請求項23に記載の映像データの処理方法において、前記マクロブロックの前記従来の符号化が非効率と判断された場合に、当該マクロブロックに対する符号化を競争モードで複数生成して互いの圧縮効率を比較する、映像データの処理方法。
  28. 請求項27に記載の映像データの処理方法において、競争モードの符号化アルゴリズムが、
    前記マクロブロックから前記予測を減算する手順であって、これにより、残差信号を生成する手順、
    ブロックベースの二次元DCTの近似を用いて、前記残差信号を変換する手順、および
    エントロピーエンコーダを用いて、変換係数を符号化する手順、
    を備える、映像データの処理方法。
  29. 請求項23に記載の映像データの処理方法において、複数の予測を生成することによって分析される前記エンコーダが、一次的予測および重み付けされた副次的予測を合計する複合予測を生成する、映像データの処理方法。
  30. 映像データを処理する方法であって、
    モデルベース圧縮のために、複数の忠実度でデータをモデル化する過程であって、当該複数の忠実度が、マクロブロック階層、特徴としてのマクロブロック階層、特徴階層、およびオブジェクト階層のうちの少なくとも1つを含む過程、
    を備え、
    前記マクロブロック階層は、ブロックベースの動き予測・補償(BBMEC)アプリケーションを用いて、復号化した参照フレーム内の限られた空間から各タイルに対する予測を見つけ出し、
    前記特徴としてのマクロブロック階層は、(i)前記マクロブロック階層と同じ1回目のBBMECアプリケーションを用いて、一番最近の参照フレームからターゲットのマクロブロックの第1の予測を見つけ出し、(ii)2回目のBBMECアプリケーションを用いて、二番目に最近の参照フレームを探索することにより、前記第1の予測に対する第2の予測を見つけ出し、(iii)徐々に過去のフレームを溯ってBBMECアプリケーションを適用することにより、前記ターゲットのマクロブロックのトラックを生成し、
    前記特徴階層は、マクロブロックのグリッドに関係なく特徴を検出及び追跡し、その特徴を当該特徴と重複するマクロブロックに関連付けて、特徴のトラックを用いて、復号化した参照フレームをナビゲートすることで前記重複するマクロブロックに対する良好なマッチを見つけ出し、さらに、複数の特徴が1つの対象のターゲットのマクロブロックと重複する場合には、重複の最も大きい特徴が当該ターゲットのマクロブロックをモデル化するのに選択され、
    前記オブジェクト階層では、オブジェクトが複数のマクロブロックを包含するか又は複数のマクロブロックと重複する場合、そのオブジェクトに対応する全てのマクロブロックに関して単一の動きベクトルを算出可能であり、これにより演算量及び符号化サイズを節約する、
    映像データの処理方法。
  31. 請求項30に記載の映像データの処理方法において、前記複数の忠実度が、順次的に調べられる、映像データの処理方法。
  32. 請求項30に記載の映像データの処理方法において、前記複数の忠実度が、競争モードで調べられる、映像データの処理方法。
  33. プログラムコード手段を備えるコンピュータプログラムプロダクトであって、
    前記プログラムコード手段は、コンピュータにロードされることにより、請求項1に記載の処理方法を実行するように当該コンピュータを制御する、コンピュータプログラムプロダクト。
  34. プログラムコード手段を備えるコンピュータプログラムプロダクトであって、
    前記プログラムコード手段は、コンピュータにロードされることにより、請求項7に記載の処理方法を実行するように当該コンピュータを制御する、コンピュータプログラムプロダクト。
  35. プログラムコード手段を備えるコンピュータプログラムプロダクトであって、
    前記プログラムコード手段は、コンピュータにロードされることにより、請求項22に記載の処理方法を実行するように当該コンピュータを制御する、コンピュータプログラムプロダクト。
  36. プログラムコード手段を備えるコンピュータプログラムプロダクトであって、
    前記プログラムコード手段は、コンピュータにロードされることにより、請求項23に記載の処理方法を実行するように当該コンピュータを制御する、コンピュータプログラムプロダクト。
  37. プログラムコード手段を備えるコンピュータプログラムプロダクトであって、
    前記プログラムコード手段は、コンピュータにロードされることにより、請求項30に記載の処理方法を実行するように当該コンピュータを制御する、コンピュータプログラムプロダクト。
JP2015503204A 2012-03-26 2013-02-07 コンテキストベースの映像符号化及び映像復号化 Pending JP2015515806A (ja)

Applications Claiming Priority (7)

Application Number Priority Date Filing Date Title
US201261615795P 2012-03-26 2012-03-26
US61/615,795 2012-03-26
US201261707650P 2012-09-28 2012-09-28
US61/707,650 2012-09-28
US13/725,940 US9578345B2 (en) 2005-03-31 2012-12-21 Model-based video encoding and decoding
US13/725,940 2012-12-21
PCT/US2013/025123 WO2013148002A2 (en) 2012-03-26 2013-02-07 Context based video encoding and decoding

Publications (2)

Publication Number Publication Date
JP2015515806A true JP2015515806A (ja) 2015-05-28
JP2015515806A5 JP2015515806A5 (ja) 2016-02-25

Family

ID=47901315

Family Applications (1)

Application Number Title Priority Date Filing Date
JP2015503204A Pending JP2015515806A (ja) 2012-03-26 2013-02-07 コンテキストベースの映像符号化及び映像復号化

Country Status (5)

Country Link
EP (1) EP2815572A2 (ja)
JP (1) JP2015515806A (ja)
CA (1) CA2868448A1 (ja)
TW (1) TW201342926A (ja)
WO (1) WO2013148002A2 (ja)

Families Citing this family (25)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US9743078B2 (en) 2004-07-30 2017-08-22 Euclid Discoveries, Llc Standards-compliant model-based video encoding and decoding
US9532069B2 (en) 2004-07-30 2016-12-27 Euclid Discoveries, Llc Video compression repository and model reuse
US9578345B2 (en) 2005-03-31 2017-02-21 Euclid Discoveries, Llc Model-based video encoding and decoding
WO2015054813A1 (en) 2013-10-14 2015-04-23 Microsoft Technology Licensing, Llc Encoder-side options for intra block copy prediction mode for video and image coding
CA2928495C (en) 2013-10-14 2020-08-18 Microsoft Technology Licensing, Llc Features of intra block copy prediction mode for video and image coding and decoding
EP3058740B1 (en) 2013-10-14 2020-06-03 Microsoft Technology Licensing, LLC Features of base color index map mode for video and image coding and decoding
KR102258427B1 (ko) 2014-01-03 2021-06-01 마이크로소프트 테크놀로지 라이센싱, 엘엘씨 비디오 및 이미지 코딩/디코딩에서의 블록 벡터 예측
US10390034B2 (en) 2014-01-03 2019-08-20 Microsoft Technology Licensing, Llc Innovations in block vector prediction and estimation of reconstructed sample values within an overlap area
US11284103B2 (en) 2014-01-17 2022-03-22 Microsoft Technology Licensing, Llc Intra block copy prediction with asymmetric partitions and encoder-side search patterns, search ranges and approaches to partitioning
US10542274B2 (en) 2014-02-21 2020-01-21 Microsoft Technology Licensing, Llc Dictionary encoding and decoding of screen content
US10097851B2 (en) 2014-03-10 2018-10-09 Euclid Discoveries, Llc Perceptual optimization for model-based video encoding
US10091507B2 (en) 2014-03-10 2018-10-02 Euclid Discoveries, Llc Perceptual optimization for model-based video encoding
WO2015138008A1 (en) 2014-03-10 2015-09-17 Euclid Discoveries, Llc Continuous block tracking for temporal prediction in video encoding
TWI499985B (zh) * 2014-04-30 2015-09-11 Univ Nat Taiwan Science Tech 影像特徵點自動點選方法和對應系統
EP4354856A3 (en) 2014-06-19 2024-06-19 Microsoft Technology Licensing, LLC Unified intra block copy and inter prediction modes
US9767853B2 (en) 2014-07-21 2017-09-19 International Business Machines Corporation Touch screen video scrolling
WO2016049839A1 (en) 2014-09-30 2016-04-07 Microsoft Technology Licensing, Llc Rules for intra-picture prediction modes when wavefront parallel processing is enabled
CN106664405B (zh) 2015-06-09 2020-06-09 微软技术许可有限责任公司 用调色板模式对经逸出编码的像素的稳健编码/解码
US10986349B2 (en) 2017-12-29 2021-04-20 Microsoft Technology Licensing, Llc Constraints on locations of reference blocks for intra block copy prediction
US11830225B2 (en) * 2018-05-30 2023-11-28 Ati Technologies Ulc Graphics rendering with encoder feedback
CN110503636B (zh) * 2019-08-06 2024-01-26 腾讯医疗健康(深圳)有限公司 参数调整方法、病灶预测方法、参数调整装置及电子设备
CN111083497B (zh) * 2019-12-31 2022-07-08 北京奇艺世纪科技有限公司 一种视频截图方法及装置
KR20210147404A (ko) * 2020-05-28 2021-12-07 삼성전자주식회사 엣지 컴퓨팅 서비스를 이용한 영상 컨텐츠 전송 방법 및 장치
CN113938666B (zh) * 2021-10-25 2023-07-25 珠海普罗米修斯视觉技术有限公司 基于关键帧的视频数据传输方法、装置及存储介质
US20240146963A1 (en) * 2022-10-17 2024-05-02 Alibaba Damo (Hangzhou) Technology Co., Ltd. Method and apparatus for talking face video compression

Citations (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2010259087A (ja) * 2005-03-31 2010-11-11 Euclid Discoveries Llc ビデオデータを処理する装置および方法
JP2012505600A (ja) * 2008-10-07 2012-03-01 ユークリッド・ディスカバリーズ・エルエルシー 特徴を基礎とするビデオ圧縮

Family Cites Families (9)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US6738424B1 (en) * 1999-12-27 2004-05-18 Objectvideo, Inc. Scene model generation from video for use in video processing
US7457435B2 (en) 2004-11-17 2008-11-25 Euclid Discoveries, Llc Apparatus and method for processing video data
WO2006015092A2 (en) 2004-07-30 2006-02-09 Euclid Discoveries, Llc Apparatus and method for processing video data
US7436981B2 (en) 2005-01-28 2008-10-14 Euclid Discoveries, Llc Apparatus and method for processing video data
US7457472B2 (en) 2005-03-31 2008-11-25 Euclid Discoveries, Llc Apparatus and method for processing video data
US7508990B2 (en) 2004-07-30 2009-03-24 Euclid Discoveries, Llc Apparatus and method for processing video data
CN101061489B (zh) 2004-09-21 2011-09-07 欧几里得发现有限责任公司 用来处理视频数据的装置和方法
CA2676219C (en) * 2007-01-23 2017-10-24 Euclid Discoveries, Llc Computer method and apparatus for processing image data
US8848802B2 (en) * 2009-09-04 2014-09-30 Stmicroelectronics International N.V. System and method for object based parametric video coding

Patent Citations (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2010259087A (ja) * 2005-03-31 2010-11-11 Euclid Discoveries Llc ビデオデータを処理する装置および方法
JP2012505600A (ja) * 2008-10-07 2012-03-01 ユークリッド・ディスカバリーズ・エルエルシー 特徴を基礎とするビデオ圧縮

Also Published As

Publication number Publication date
WO2013148002A3 (en) 2013-12-19
WO2013148002A2 (en) 2013-10-03
TW201342926A (zh) 2013-10-16
CA2868448A1 (en) 2013-10-03
EP2815572A2 (en) 2014-12-24

Similar Documents

Publication Publication Date Title
JP2015515806A (ja) コンテキストベースの映像符号化及び映像復号化
JP2015536092A (ja) 標準に準拠した、モデルベースの映像符号化及び映像復号化
US9578345B2 (en) Model-based video encoding and decoding
JP6193972B2 (ja) 映像圧縮レポジトリおよびモデル再利用
US8902971B2 (en) Video compression repository and model reuse
Kuhn Algorithms, complexity analysis and VLSI architectures for MPEG-4 motion estimation
US20130114703A1 (en) Context Based Video Encoding and Decoding
US9532069B2 (en) Video compression repository and model reuse
JP2020527001A (ja) 点群エンコーダ
JP6636615B2 (ja) 動きベクトル場の符号化方法、復号方法、符号化装置、および復号装置
US20150172687A1 (en) Multiple-candidate motion estimation with advanced spatial filtering of differential motion vectors
JP2021529471A (ja) 動きベクトル精密化および動き補償のためのメモリアクセスウィンドウおよびパディング
EP2382786A1 (en) Multiple-candidate motion estimation with advanced spatial filtering of differential motion vectors
KR102177900B1 (ko) 비디오에 있어서의 키포인트 궤적을 처리하는 방법
Cuevas Block-matching algorithm based on harmony search optimization for motion estimation
Xiong et al. Sparse spatio-temporal representation with adaptive regularized dictionary learning for low bit-rate video coding
US20180376151A1 (en) Method and device for picture encoding and decoding
WO2024083100A1 (en) Method and apparatus for talking face video compression
Liu et al. H. 264/AVC video error concealment algorithm by employing motion vector recovery under cloud computing environment
Manikandan et al. A study and analysis on block matching algorithms for motion estimation in video coding
Roy et al. Graph-based transform with weighted self-loops for predictive transform coding based on template matching
JP7054007B2 (ja) 符号化装置及びプログラム
Díaz-Cortés et al. Motion estimation algorithm using block-matching and harmony search optimization
Zhang et al. From visual search to video compression: A compact representation framework for video feature descriptors
Kumar Pal et al. Object detection driven composite block motion estimation algorithm for surveillance video coding

Legal Events

Date Code Title Description
A521 Request for written amendment filed

Free format text: JAPANESE INTERMEDIATE CODE: A523

Effective date: 20151222

A524 Written submission of copy of amendment under article 19 pct

Free format text: JAPANESE INTERMEDIATE CODE: A524

Effective date: 20151222

A621 Written request for application examination

Free format text: JAPANESE INTERMEDIATE CODE: A621

Effective date: 20151222

A977 Report on retrieval

Free format text: JAPANESE INTERMEDIATE CODE: A971007

Effective date: 20161107

A131 Notification of reasons for refusal

Free format text: JAPANESE INTERMEDIATE CODE: A131

Effective date: 20170110

A601 Written request for extension of time

Free format text: JAPANESE INTERMEDIATE CODE: A601

Effective date: 20170407

A02 Decision of refusal

Free format text: JAPANESE INTERMEDIATE CODE: A02

Effective date: 20171031