WO2022075078A1

WO2022075078A1 - 画像処理装置および方法

Info

Publication number: WO2022075078A1
Application number: PCT/JP2021/034950
Authority: WO
Inventors: 華央林; 智隈; 央二中神
Original assignee: Sony Group Corp
Current assignee: Sony Group Corp
Priority date: 2020-10-06
Filing date: 2021-09-24
Publication date: 2022-04-14
Anticipated expiration: 2023-04-06
Also published as: CN116018618A; US20230370636A1; US12457363B2

Abstract

本開示は、単数のジオメトリに対応するアトリビュートの数を時間方向に可変とすることができるようにする画像処理装置および方法に関する。３次元形状のオブジェクトをポイントの集合として表現するポイントクラウドの単数のジオメトリに対応する複数のアトリビュートのそれぞれについて、そのアトリビュートを部分領域毎に２次元平面に投影することで得られるパッチが配置されたビデオフレームであるアトリビュートビデオフレームを生成し、その生成された、各アトリビュートのアトリビュートビデオフレームを符号化し、その生成された互いに同一のタイミングに対応するアトリビュートビデオフレームを示す情報であるアトリビュート情報を生成する。本開示は、例えば、画像処理装置、電子機器、画像処理方法、またはプログラム等に適用することができる。

Description

画像処理装置および方法

　本開示は、画像処理装置および方法に関し、特に、単数のジオメトリに対応するアトリビュートの数を時間方向に可変とした画像処理装置および方法に関する。

　従来、３次元形状のオブジェクトをポイントの集合として表現するポイントクラウドデータ（Point cloud data）の符号化・復号の標準化がMPEG（Moving Picture Experts Group）で進められている（例えば、非特許文献１参照）。

　また、ポイントクラウドのジオメトリデータとアトリビュートデータとを小領域毎に２次元平面に投影し、その２次元平面に投影された画像（パッチ）をビデオのフレーム画像内に配置し、そのフレーム画像を２次元画像用の符号化方法で符号化する方法（以下、ビデオベースドアプローチ（Video-based approach）とも称する）が提案された（例えば、非特許文献２乃至非特許文献４参照）。

　さらに、そのビデオベースドアプローチにおいて、単数のジオメトリに対して複数のアトリビュートを設ける手法であるマルチアトリビュートが提案された（例えば、非特許文献５参照）。この方法の場合、この複数のアトリビュートは、それぞれ上述のようにフレーム画像化されて符号化される。つまり、ジオメトリの各フレーム画像に対して、複数のアトリビュートのフレーム画像が形成される。

"Information technology - MPEG-I (Coded Representation of Immersive Media) - Part 9: Geometry-based Point Cloud Compression", ISO/IEC 23090-9:2019(E) Tim Golla and Reinhard Klein, "Real-time Point Cloud Compression", IEEE, 2015 K. Mammou, "Video-based and Hierarchical Approaches Point Cloud Compression", MPEG m41649, Oct. 2017 K. Mammou,"PCC Test Model Category 2 v0", N17248 MPEG output document, October 2017 Maja Krivoku.a, Philip A. Chou, and Patrick Savill, "8i Voxelized Surface Light Field (8iVSLF) Dataset", ISO/IEC JTC1/SC29/WG11 MPEG2018/m42914, July 2018, Ljubljana

　しかしながら、非特許文献５に記載のマルチアトリビュートの場合、全フレームにおいて、アトリビュートの数が固定化されており、全てのアトリビュートを符号化しなければならなかった。

　本開示は、このような状況に鑑みてなされたものであり、単数のジオメトリに対応するアトリビュートの数を時間方向に可変とするものである。

　本技術の一側面の画像処理装置は、３次元形状のオブジェクトをポイントの集合として表現するポイントクラウドの単数のジオメトリに対応する複数のアトリビュートのそれぞれについて、前記アトリビュートを部分領域毎に２次元平面に投影することで得られるパッチが配置されたビデオフレームであるアトリビュートビデオフレームを生成するアトリビュートビデオフレーム生成部と、前記アトリビュートビデオフレーム生成部により生成された、各アトリビュートの前記アトリビュートビデオフレームを符号化するアトリビュートビデオフレーム符号化部と、前記アトリビュートビデオフレーム生成部により生成された互いに同一のタイミングに対応する前記アトリビュートビデオフレームを示す情報であるアトリビュート情報を生成するアトリビュート情報生成部とを備える画像処理装置である。

　本技術の一側面の画像処理方法は、３次元形状のオブジェクトをポイントの集合として表現するポイントクラウドの単数のジオメトリに対応する複数のアトリビュートのそれぞれについて、前記アトリビュートを部分領域毎に２次元平面に投影することで得られるパッチが配置されたビデオフレームであるアトリビュートビデオフレームを生成し、生成された、各アトリビュートの前記アトリビュートビデオフレームを符号化し、生成された互いに同一のタイミングに対応する前記アトリビュートビデオフレームを示す情報であるアトリビュート情報を生成する画像処理方法である。

　本技術の他の側面の画像処理装置は、符号化データを復号し、３次元形状のオブジェクトをポイントの集合として表現するポイントクラウドの単数のジオメトリに対応する複数のアトリビュートのそれぞれに対応する、前記アトリビュートを部分領域毎に２次元平面に投影することで得られるパッチが配置されたビデオフレームであるアトリビュートビデオフレームを生成するアトリビュートビデオフレーム復号部と、符号化データを復号し、互いに同一のタイミングに対応する前記アトリビュートビデオフレームを示す情報であるアトリビュート情報を生成するアトリビュート情報復号部と、前記アトリビュートビデオフレーム復号部により生成された前記アトリビュートビデオフレームに含まれる前記アトリビュートと、前記アトリビュート情報復号部により生成された前記アトリビュート情報とに基づいて、前記ポイントクラウドを生成するポイントクラウド生成部とを備える画像処理装置である。

　本技術の他の側面の画像処理方法は、符号化データを復号し、３次元形状のオブジェクトをポイントの集合として表現するポイントクラウドの単数のジオメトリに対応する複数のアトリビュートのそれぞれに対応する、前記アトリビュートを部分領域毎に２次元平面に投影することで得られるパッチが配置されたビデオフレームであるアトリビュートビデオフレームを生成し、符号化データを復号し、互いに同一のタイミングに対応する前記アトリビュートビデオフレームを示す情報であるアトリビュート情報を生成し、生成された前記アトリビュートビデオフレームに含まれる前記アトリビュートと、生成された前記アトリビュート情報とに基づいて、前記ポイントクラウドを生成する画像処理方法である。

　本技術の一側面の画像処理装置および方法においては、３次元形状のオブジェクトをポイントの集合として表現するポイントクラウドの単数のジオメトリに対応する複数のアトリビュートのそれぞれについて、そのアトリビュートを部分領域毎に２次元平面に投影することで得られるパッチが配置されたビデオフレームであるアトリビュートビデオフレームが生成され、その生成された、各アトリビュートのアトリビュートビデオフレームが符号化され、その生成された互いに同一のタイミングに対応するアトリビュートビデオフレームを示す情報であるアトリビュート情報が生成される。

　本技術の他の側面の画像処理装置および方法においては、符号化データが復号され、３次元形状のオブジェクトをポイントの集合として表現するポイントクラウドの単数のジオメトリに対応する複数のアトリビュートのそれぞれに対応する、そのアトリビュートを部分領域毎に２次元平面に投影することで得られるパッチが配置されたビデオフレームであるアトリビュートビデオフレームが生成され、符号化データが復号され、互いに同一のタイミングに対応するアトリビュートビデオフレームを示す情報であるアトリビュート情報が生成され、その生成されたアトリビュートビデオフレームに含まれるアトリビュートと、その生成されたアトリビュート情報とに基づいて、ポイントクラウドが生成される。

マルチアトリビュートについて説明する図である。マルチアトリビュートについて説明する図である。適応的なマルチアトリビュートについて説明する図である。アトリビュート数の変化例について説明する図である。アトリビュート数の変化例について説明する図である。アトリビュート情報の例について説明する図である。アトリビュートの補間例について説明する図である。アトリビュートのビットストリームの構成例を示す図である。アトリビュートのビットストリームの構成例を示す図である。インタリーブの例を示す図である。インタリーブの例を示す図である。インタリーブの例を示す図である。符号化装置の主な構成例を示すブロック図である。符号化処理の流れの例を説明するフローチャートである。復号装置の主な構成例を示すブロック図である。復号処理の流れの例を説明するフローチャートである。コンピュータの主な構成例を示すブロック図である。

　以下、本開示を実施するための形態（以下実施の形態とする）について説明する。なお、説明は以下の順序で行う。
　１．適応的なマルチアトリビュート
　２．第１の実施の形態（符号化装置）
　３．第２の実施の形態（復号装置）
　４．付記

　＜１．適応的なマルチアトリビュート＞
　　＜技術内容・技術用語をサポートする文献等＞
　本技術で開示される範囲は、実施の形態に記載されている内容だけではなく、出願当時において公知となっている以下の非特許文献等に記載されている内容や以下の非特許文献において参照されている他の文献の内容等も含まれる。

　非特許文献１：（上述）
　非特許文献２：（上述）
　非特許文献３：（上述）
　非特許文献４：（上述）
　非特許文献５：（上述）

　つまり、上述の非特許文献に記載されている内容や、上述の非特許文献において参照されている他の文献の内容等も、サポート要件を判断する際の根拠となる。

　　＜ポイントクラウド＞
　従来、点の位置情報や属性情報等により３次元構造を表すポイントクラウド（Point cloud）等の３Ｄデータが存在した。

　例えばポイントクラウドの場合、立体構造物（３次元形状のオブジェクト）を多数の点の集合として表現する。ポイントクラウドは、各点の位置情報（ジオメトリとも称する）と属性情報（アトリビュートとも称する）とにより構成される。アトリビュートは任意の情報を含むことができる。例えば、各ポイントの色情報、反射率情報、法線情報等がアトリビュートに含まれるようにしてもよい。このようにポイントクラウドは、データ構造が比較的単純であるとともに、十分に多くの点を用いることにより任意の立体構造物を十分な精度で表現することができる。

　　＜ボクセルを用いた位置情報の量子化＞
　このようなポイントクラウドのデータ（ポイントクラウドデータとも称する）はそのデータ量が比較的大きいので、符号化等によるデータ量を圧縮するために、ボクセル（Voxel）を用いた符号化方法が考えられた。ボクセルは、ジオメトリ（位置情報）を量子化するための３次元領域である。

　つまり、ポイントクラウドを内包する３次元領域（バウンディングボックス（Bounding box）とも称する）をボクセルと称する小さな３次元領域に分割し、そのボクセル毎に、ポイントを内包するか否かを示すようにする。このようにすることにより、各ポイントの位置はボクセル単位に量子化される。したがって、ポイントクラウド（Point cloud）データをこのようなボクセルのデータ（ボクセル（Voxel）データとも称する）に変換することにより、情報量の増大を抑制する（典型的には情報量を削減する）ことができる。

　　＜ビデオベースドアプローチの概要＞
　ビデオベースドアプローチ（Video-based approach）では、このようなポイントクラウドのジオメトリやアトリビュートが、小領域（コネクションコンポーネント）毎に２次元平面に投影される。本開示において、この小領域を部分領域という場合がある。このジオメトリやアトリビュートが２次元平面に投影された画像を投影画像とも称する。また、この小領域（部分領域）毎の投影画像をパッチと称する。例えば、ジオメトリの投影画像（パッチ）において、ポイントの位置情報は、投影面に対して垂直方向（奥行方向）の位置情報（デプス値（Depth））として表現される。

　そして、このように生成された各パッチがビデオシーケンスのフレーム画像（ビデオフレームとも称する）内に配置される。ジオメトリのパッチが配置されたフレーム画像をジオメトリビデオフレーム（Geometry video frame）とも称する。また、アトリビュートのパッチが配置されたフレーム画像をアトリビュートビデオフレーム（Atribute video frame）とも称する。例えば、ジオメトリビデオフレームの各画素値は、上述のデプス値を示す。

　そして、これらのビデオフレームが、例えばAVC（Advanced Video Coding）やHEVC（High Efficiency Video Coding）等といった２次元画像用の符号化方法で符号化される。つまり、３次元構造を表す３Ｄデータであるポイントクラウドデータを、２次元画像用のコーデックを用いて符号化することができる。

　　＜オキュパンシーマップ＞
　なお、このようなビデオベースドアプローチの場合、オキュパンシーマップを用いることもできる。オキュパンシーマップは、ジオメトリビデオフレームやアトリビュートビデオフレームのNxN画素毎に、投影画像（パッチ）の有無を示すマップ情報である。例えば、オキュパンシーマップは、ジオメトリビデオフレームやアトリビュートビデオフレームの、パッチが存在する領域（NxN画素）を値「１」で示し、パッチが存在しない領域（NxN画素）を値「０」で示す。

　このようなオキュパンシーマップが、ジオメトリビデオフレームやアトリビュートビデオフレームとは別のデータとして符号化され、復号側に伝送される。デコーダは、このオキュパンシーマップを参照することにより、パッチが存在する領域であるか否かを把握することができるので、符号化・復号により生じるノイズ等の影響を抑制することができ、より正確に３Ｄデータを復元することができる。例えば、符号化・復号によりデプス値が変化しても、デコーダは、オキュパンシーマップを参照することにより、パッチが存在しない領域のデプス値を無視する（３Ｄデータの位置情報として処理しないようにする）ことができる。

　なお、このオキュパンシーマップも、ジオメトリビデオフレームやアトリビュートビデオフレーム等と同様に、ビデオフレームとして伝送することができる。

　　＜補助パッチ情報＞
　さらに、ビデオベースドアプローチの場合、パッチに関する情報（補助パッチ情報とも称する）がメタデータとして伝送される。

　　＜動画像＞
　なお、以下において、ポイントクラウド（のオブジェクト）は、２次元画像の動画像のように、時間方向に変化し得るものとする。つまり、ジオメトリデータやアトリビュートデータは、時間方向の概念を有し、２次元画像の動画像のように、所定の時間毎にサンプリングされたデータとする。なお、２次元画像のビデオフレームのように、各サンプリング時刻のデータをフレームと称する。つまり、ポイントクラウドデータ（ジオメトリデータやアトリビュートデータ）は、２次元画像の動画像のように、複数フレームにより構成されるものとする。本開示において、このポイントクラウドのフレームのことを、ポイントクラウドフレームとも称する。ビデオベースドアプローチの場合、このような動画像（複数フレーム）のポイントクラウドであっても、各ポイントクラウドフレームをビデオフレーム化してビデオシーケンスとすることで、動画像の符号化方式を用いて高効率に符号化することができる。

　　＜マルチアトリビュート＞
　非特許文献５では、このようなビデオベースドアプローチにおける、単数のジオメトリに対して複数のアトリビュートを設ける手法であるマルチアトリビュートが開示された。単数のジオメトリに対して複数のアトリビュートを対応させることにより、例えば、レンダリングの際により適切なアトリビュートを選択したり、複数のアトリビュートを用いてより適切なアトリビュートを生成したりすることができ、表示用画像の主観画質の低減を抑制することができる。

　例えば、図１に示されるように、被写体であるオブジェクト１１をカメラ１２により撮像し、その撮像画像から得られるオブジェクトのテクスチャを用いて、オブジェクト１１のポイントクラウドのアトリビュートを生成するとする。オブジェクト１１のポイントクラウドのジオメトリは、各ポイントの位置情報であるので、１つ生成される。これに対して、カメラ１２は５台あるので（＃１乃至＃５）撮像画像は５つ得られる。このような場合において、各撮像画像に含まれるオブジェクト１１のテクスチャ（オブジェクト１１の表面の絵柄、色、明るさ、質感等）をそれぞれ独立したアトリビュートとすると、１つのジオメトリに対して５つのアトリビュートが生成される。図１に示されるようにこの５台のカメラ１２の位置および方向は互いに異なる。一般的に、オブジェクト１１（のテクスチャ）の見え方は視点の位置および方向によって異なるものとなり得る。したがって、各アトリビュートのテクスチャは、互いに異なるものとなり得る。

　このように単数のジオメトリに対して複数の視点から得られるテクスチャを対応させることにより、レンダリングの際に、視点の位置や方向がより近いテクスチャを選択したり、複数のテクスチャを用いてより適切なテクスチャを生成したりすることができ、表示用画像の主観画質の低減を抑制することができる。

　ビデオベースドアプローチにおいてこのようなマルチアトリビュートを適用する場合、図２に示されるように、カメラ毎に（つまりアトリビュート毎に）アトリビュートビデオフレームが生成される。したがって、図２に示されるように、パッチ情報（補助パッチ情報）と、単数のジオメトリビデオフレーム（デプス）と、オキュパンシーマップと、複数のアトリビュートビデオフレームとが符号化される。各ポイントクラウドフレームについて、これらのビデオフレームや補助パッチ情報が生成される。

　なお、図２に示されるように、このパッチ情報には、パッチの識別情報（patchID）、２Ｄ投影面（ポイントクラウドのコネクションコンポーネント（小領域）が投影される２次元平面）上でのパッチの位置（u0,v0）、その投影面の３次元空間における位置（u,v,d）、法線（n）等の情報が含まれる。さらに、パッチの幅（width）やパッチの高さ（Height）等の情報がパッチ情報に含まれてもよい。

　しかしながら、非特許文献５に記載のマルチアトリビュートの場合、全ポイントクラウドフレームにおいて、アトリビュートの数が固定化されており、全てのアトリビュートのアトリビュートビデオフレームを符号化しなければならなかった。例えば、図３のＡに示されるように全アトリビュートの内、円で囲まれたアトリビュートビデオフレームのみ必要であり、×印が付されたアトリビュートビデオフレームが不要な場合であっても、全てのアトリビュートの全てのフレーム（つまり全てのアトリビュートビデオフレーム）を符号化しなければならなかった。つまり、例えば図３のＡのように一部のアトリビュートビデオフレームが不要であったとしても、その不要なアトリビュートビデオフレームも符号化しなければならなかった。そのため、符号化するデータ量が増大し、符号量が増大するおそれがあった。

　符号量が増大すると、符号化処理や復号処理の負荷が増大するだけでなく、符号化データを伝送したり記憶したりする際の負荷（伝送媒体や記憶媒体の負荷等）も増大するおそれがあった。これにより、このビデオベースドアプローチに関する装置やシステムのコストが増大するおそれがあった。

　　＜アトリビュート数の可変化＞
　そこで、単数のジオメトリに対応するアトリビュートの数を時間方向に可変とする。つまり、必要に応じて、符号化されるアトリビュートの数（すなわち、互いに同一のタイミングに対応するアトリビュートビデオフレームの数）を増減させることができるようにする。すなわち、この場合、各ポイントクラウドフレームに対応するアトリビュート（アトリビュートビデオフレーム）の数が統一されていなくてもよい（互いに同一でなくてもよい）。

　例えば、図３のＢに示されるように、円で囲まれた必要なアトリビュートビデオフレームのみを符号化することができるようにする。言い換えれば、図３のＢに存在しない不要なアトリビュートフレームは符号化されない。このようにすることにより、不要なアトリビュートのアトリビュートビデオフレームの符号化を省略することができるので、符号化するデータ量の増大を抑制し、符号量の増大を抑制することができる。

　なお、本開示においては、アトリビュートが３次元形状のオブジェクトのテクスチャ（オブジェクトの表面の絵柄、色、明るさ、質感等）を含むものとする。また、複数台のカメラで撮像して得られた複数の撮像画像のそれぞれに含まれるそのオブジェクトのテクスチャが、マルチアトリビュートとしてそのオブジェクトの１つのジオメトリに対応付けられているものとする。つまり、マルチアトリビュートとして単数のジオメトリに対応する複数のアトリビュートは、互いに異なる位置および方向に設置されたカメラにより撮像されて得られた撮像画像に含まれるそのオブジェクトのテクスチャを含むものとする。

　つまり、各アトリビュートに対応する撮像画像は、画角が互いに異なる。このカメラの位置および方向のことを、オブジェクトを見るための「視点」とも称する。つまり、マルチアトリビュートとして単数のジオメトリに対応する複数のアトリビュートは、それぞれ、互いに異なる視点において得られるそのオブジェクトのテクスチャを含むものとする。

　次に、アトリビュートの数を可変とする方法の例について説明する。

　　＜アトリビュート数が可変の例１＞
　例えば、符号化するアトリビュートビデオフレームをユーザ等が選択してもよい。例えば、図４のＡに示されるように、オブジェクト１１を複数のカメラ１２で撮像し、各撮像画像から得られるオブジェクト１１のテクスチャを用いてアトリビュートを生成するとする。この場合において、時間軸に沿ってレンダリングの際の視点が矢印４１のように移動するとする。つまり、矢印４１のようなレンダリングの際の視点の動き（視点パスとも称する）が既知であるとする。

　このような場合において、非特許文献５に記載の方法では、その視点位置に関わらず、全てのアトリビュートのアトリビュートビデオフレームを符号化しなければならなかった。そのため符号量が増大するおそれがあった。

　そこで、このような場合において、視点パスに応じて一部のアトリビュート（カメラ）をユーザ等が選択し、エンコーダが、その選択されたアトリビュートのアトリビュートビデオフレームのみを符号化するようにしてもよい。換言するに、各ポイントクラウドフレームの、選択されたアトリビュートビデオフレームが符号化され、選択されなかったアトリビュートビデオフレームの符号化が省略（スキップ）されるようにしてもよい。例えば、図４のＢに示されるように、各ポイントクラウドフレームｔに対して、その時点の視点位置に近いカメラが順次選択され、その選択されたカメラに対応するアトリビュートのアトリビュートビデオフレームが生成され、符号化されるようにしてもよい。

　例えば、ポイントクラウドフレームのタイミングである時刻ｔにおける視点の位置View(t)は、以下のように、その時刻ｔのｘ座標（Xview(t)）と、ｙ座標（Yview(t)）と、ｚ座標（Zview(t)）とを用いて示される。

　View(t) = (Xview(t), Yview(t), Zview(t))

　各カメラ１２の場所Cam(k)（k = 1,…,K）は、以下のように、ｘ座標（Xcam(k)）、ｙ座標（Ycam(k)）、ｚ座標（Zcam(k)）を用いて示される。

　Cam(k) = (Xcam(k), Ycam(k), Zcam(k))

　これらのView(t)とCam(k)とに基づいて、各時刻に必要なカメラのセットが選択される。例えば、View(t)とCam(k)が十分に近い場合、そのカメラ（アトリビュート）が選択される。そして、その選択されたカメラに対応するアトリビュートのアトリビュートビデオフレームが符号化される。

　このようにすることにより、符号化されるアトリビュートの数（符号化される互いに同一のタイミングに対応するアトリビュートビデオフレームの数）を、必要に応じて適宜増減させることができる。つまり、不要なアトリビュートビデオフレームの符号化を省略することができるので、符号量の増大を抑制することができる。

　例えば、視点から遠いカメラに対応するアトリビュートは、レンダリングの際に利用される可能性が低い。レンダリングに必要なアトリビュートビデオフレームの符号化を省略すると、表示用画像の主観画質が低減するおそれがあるが、このように必要性の低いアトリビュートビデオフレームの符号化を省略しても、表示用画像の主観画質への影響を抑制することができる。つまり、上述したように視点から遠いカメラに対応するアトリビュートビデオフレームの符号化を省略することにより、表示用画像の主観画質の低減を抑制しながら、符号量の増大を抑制することができる。

　　＜アトリビュート数が可変の例２＞
　元々、全てのアトリビュートのアトリビュートビデオフレームが揃っていない場合がある。このような場合に、アトリビュートビデオフレームを補間せずに符号化してもよい。

　例えば、図５のＡに示されるように、オブジェクト１１を複数のカメラ１２で撮像し、各撮像画像から得られるオブジェクト１１のテクスチャを用いてアトリビュートを生成するとする。そして、時間軸に沿ってオブジェクト１１が矢印５１のように移動するとする。このような場合において、オブジェクト１１の位置によって、オブジェクト１１を撮像可能なカメラ１２の数が異なることがあり得る。つまり、図５のＢに示されるように、オブジェクト１１が移動することにより、オブジェクト１１を撮像可能なカメラ１２の数が変化しうる。すなわち、アトリビュートビデオフレームの数が時間軸に沿って変化しうる。図５のＢの例の場合、ポイントクラウドフレームのタイミングである時刻ｔ＝２においては、全てのアトリビュートビデオフレームが揃っているが、それ以外の時刻ｔにおいては、アトリビュートビデオフレームが揃っていない。

　このような場合において、非特許文献５に記載の方法では、全てのアトリビュートビデオフレームを揃える必要があったので、ポイントクラウドフレームに存在しないアトリビュートのアトリビュートビデオフレームを補間して符号化していた。そのため、符号量が増大するおそれがあった。

　そこで、このような場合において、エンコーダが、ポイントクラウドフレームに存在しないアトリビュートのアトリビュートビデオフレームを補間せずに符号化してもよい。つまり、エンコーダが、各ポイントクラウドフレームについて、そのポイントクラウドフレームに存在するアトリビュートのアトリビュートビデオフレームのみを符号化するようにしてもよい。換言するに、エンコーダが、各ポイントクラウドフレームについて、そのポイントクラウドフレームに存在するアトリビュートのアトリビュートビデオフレームを符号化し、存在しないアトリビュートのアトリビュートビデオフレームの符号化を省略（スキップ）するようにしてもよい。

　なお、アトリビュートビデオフレームが存在しないということは、そのポイントクラウドフレームのタイミングにおいて、そのカメラ１２の位置および方向からオブジェクト１１は見えないということである。したがって、レンダリングの際に、そのタイミングにおいて、そのカメラ１２の近傍を、オブジェクト１１を見る視点とする可能性は低い。つまり、補間されたアトリビュートビデオフレームをレンダリングの際に必要とする可能性が低い。レンダリングに必要なアトリビュートビデオフレームの符号化を省略すると、表示用画像の主観画質が低減するおそれがあるが、このように必要性の低いアトリビュートビデオフレームの符号化を省略しても、表示用画像の主観画質への影響を抑制することができる。つまり、上述したように存在しないアトリビュートビデオフレームを補間せずに符号化することにより、表示用画像の主観画質の低減を抑制しながら、符号量の増大を抑制することができる。

　　＜アトリビュート数が可変の例３＞
　例えば、ポイントクラウドを符号化する符号化部が、符号量の増大を抑制するように、適応的にアトリビュート（アトリビュートビデオフレーム）を選択してもよい。例えば、その符号化部が、アトリビュート同士の差分（カメラ間の差分）、または、全アトリビュート（全カメラ）の平均と処理対象のアトリビュートとの差分を導出し、その差分が十分に小さい場合、そのアトリビュートビデオフレームの符号化を省略するようにしてもよい。

　このようにすることにより、符号化されるアトリビュートの数（符号化される互いに同一時刻のタイミングに対応するアトリビュートビデオフレームの数）を、必要に応じて適宜増減させることができる。つまり、不要なアトリビュートビデオフレームの符号化を省略することができるので、符号量の増大を抑制することができる。

　なお、上述の差分が十分に小さいということは、他のアトリビュートとの類似性が高いということであり、復号側においてそのアトリビュートを代用しても、レンダリングへの影響は小さい。すなわち、表示用画像の主観画質への影響を抑制することができる。つまり、上述したように他のアトリビュートやアトリビュートの平均との差が十分に小さいアトリビュートビデオフレームの符号化を省略することにより、表示用画像の主観画質の低減を抑制しながら、符号量の増大を抑制することができる。

　　＜ベースのアトリビュート＞
　なお、例えば、ベースのアトリビュート（アトリビュートビデオフレーム）を符号化し、別の別途ストリームを生成してもよい。ベースのアトリビュートは、例えば、全アトリビュート（カメラ）の平均や、所定のアトリビュート（代表カメラ）等により構成されるアトリビュートである。

　このように、ベースのアトリビュートが符号化され、別の別途ストリームとして符号化側から復号側に伝送される場合、各フレーム時刻において、符号化されるアトリビュートの数が０となってもよい。

　　＜アトリビュート情報＞
　以上のように、マルチアトリビュートを適用したビデオベースドアプローチにおいて、アトリビュートの数を時間方向に可変とすると、復号側においてどのアトリビュートビデオフレームが符号化されたかを把握することが困難になる。したがって、エンコーダが、そのような符号化データを正しく復号することが困難になるおそれがあった。換言するに、マルチアトリビュートを適用したビデオベースドアプローチにおいて、アトリビュートの数の時間方向の可変化を実現することが困難になるおそれがあった。

　そこで、符号化されたアトリビュート（アトリビュートビデオフレーム）に関する情報であるアトリビュート情報をシグナリングする（符号化側から復号側に伝送する）。

　例えば、３次元形状のオブジェクトをポイントの集合として表現するポイントクラウドの単数のジオメトリに対応する複数のアトリビュートのそれぞれについて、そのアトリビュートを部分領域毎に２次元平面に投影することで得られるパッチが配置されたビデオフレームであるアトリビュートビデオフレームを生成し、その生成された、各アトリビュートのアトリビュートビデオフレームを符号化し、その生成された互いに同一のタイミングに対応するアトリビュートビデオフレームを示す情報であるアトリビュート情報を生成するようにする。

　また、例えば、画像処理装置において、３次元形状のオブジェクトをポイントの集合として表現するポイントクラウドの単数のジオメトリに対応する複数のアトリビュートのそれぞれについて、そのアトリビュートを部分領域毎に２次元平面に投影することで得られるパッチが配置されたビデオフレームであるアトリビュートビデオフレームを生成するアトリビュートビデオフレーム生成部と、そのアトリビュートビデオフレーム生成部により生成された、各アトリビュートのアトリビュートビデオフレームを符号化するアトリビュートビデオフレーム符号化部と、そのアトリビュートビデオフレーム生成部により生成された互いに同一のタイミングに対応するアトリビュートビデオフレームを示す情報であるアトリビュート情報を生成するアトリビュート情報生成部とを備えるようにする。

　さらに、例えば、符号化データを復号し、３次元形状のオブジェクトをポイントの集合として表現するポイントクラウドの単数のジオメトリに対応する複数のアトリビュートのそれぞれに対応する、そのアトリビュートを部分領域毎に２次元平面に投影することで得られるパッチが配置されたビデオフレームであるアトリビュートビデオフレームを生成し、符号化データを復号し、互いに同一のタイミングに対応するアトリビュートビデオフレームを示す情報であるアトリビュート情報を生成し、その生成されたアトリビュートビデオフレームに含まれるアトリビュートと、生成されたアトリビュート情報とに基づいて、ポイントクラウドを生成するようにする。

　また、例えば、画像処理装置において、符号化データを復号し、３次元形状のオブジェクトをポイントの集合として表現するポイントクラウドの単数のジオメトリに対応する複数のアトリビュートのそれぞれに対応する、そのアトリビュートを部分領域毎に２次元平面に投影することで得られるパッチが配置されたビデオフレームであるアトリビュートビデオフレームを生成するアトリビュートビデオフレーム復号部と、符号化データを復号し、互いに同一のタイミングに対応するアトリビュートビデオフレームを示す情報であるアトリビュート情報を生成するアトリビュート情報復号部と、そのアトリビュートビデオフレーム復号部により生成されたアトリビュートビデオフレームに含まれるアトリビュートと、そのアトリビュート情報復号部により生成されたアトリビュート情報とに基づいて、ポイントクラウドを生成するポイントクラウド生成部とを備えるようにする。

　以上のように、アトリビュート情報をシグナリングすることにより、デコーダは、どのアトリビュートビデオフレームが符号化されたかをより容易に把握することができる。つまり、マルチアトリビュートを適用したビデオベースドアプローチにおいてアトリビュートの数を時間方向に可変とした場合であっても、デコーダは、符号化データを正しく復号することができる。換言するに、マルチアトリビュートを適用したビデオベースドアプローチにおいて、アトリビュートの数の時間方向の可変化を実現することができる。

　なお、このアトリビュート情報は、符号化されたアトリビュートを復号側において把握することができるものであれば、どのような情報であってもよい。

　例えば、アトリビュート情報が各ポイントクラウドフレームに存在するアトリビュートのリストを含むようにしてもよい。例えば、図６のＡのように各アトリビュートのアトリビュートビデオフレームが存在するとする。このようなアトリビュートデータに対して、図６のＢに示されるようなアトリビュート情報６１をシグナリングしてもよい。

　図６のＢに示されるように、このアトリビュート情報６１には、ポイントクラウドフレーム（ポイントクラウドフレームの時刻）毎に、そのポイントクラウドフレームに存在するアトリビュート（カメラ）の識別情報が示されている。例えば、フレーム時刻t = 0のポイントクラウドフレームには、アトリビュート（cam#1）が存在することが示されている。換言するに、そのポイントクラウドフレーム（t = 0）のアトリビュートとして、アトリビュート（cam#1）のアトリビュートビデオフレームが符号化されている。

　また、フレーム時刻t = 1のポイントクラウドフレームには、アトリビュート（cam#1）とアトリビュート（cam#3）が存在することが示されている。換言するに、そのポイントクラウドフレーム（t = 1）のアトリビュートとして、アトリビュート（cam#1）とアトリビュート（cam#3）のアトリビュートビデオフレームが符号化されている。

　さらに、フレーム時刻t = 2のポイントクラウドフレームには、アトリビュート（cam#1）とアトリビュート（cam#2）とアトリビュート（cam#3）が存在することが示されている。換言するに、そのポイントクラウドフレーム（t = 2）のアトリビュートとして、アトリビュート（cam#1）とアトリビュート（cam#2）とアトリビュート（cam#3）のアトリビュートビデオフレームが符号化されている。

　また、フレーム時刻t = 3のポイントクラウドフレームには、アトリビュートが存在しないことが示されている。換言するに、そのポイントクラウドフレーム（t = 3）のアトリビュートとして符号化されたアトリビュートフレームが存在しない（NONE）。

　さらに、フレーム時刻t = 4のポイントクラウドフレームには、アトリビュート（cam#2）が存在することが示されている。換言するに、そのポイントクラウドフレーム（t = 4）のアトリビュートとして、アトリビュート（cam#2）のアトリビュートビデオフレームが符号化されている。

　また、フレーム時刻t = 5のポイントクラウドフレームには、アトリビュート（cam#2）とアトリビュート（cam#3）が存在することが示されている。換言するに、そのポイントクラウドフレーム（t = 5）のアトリビュートとして、アトリビュート（cam#2）とアトリビュート（cam#3）のアトリビュートビデオフレームが符号化されている。

　このようなアトリビュート情報を参照することにより、符号化されたアトリビュートビデオフレームを容易に把握することができる。付言するに、ポイントクラウドフレームを用いて、符号化されたアトリビュートを同タイミングのジオメトリやオキュパンシーマップに関連付けることができる。

　また、例えば、アトリビュート情報が各ポイントクラウドフレームに存在しないアトリビュートのリストを含むようにしてもよい。例えば、図６のＢの例と同様に、アトリビュート情報が、ポイントクラウドフレーム毎に、そのポイントクラウドフレームに存在しないアトリビュート（カメラ）の識別情報のリストを含むようにしてもよい。存在しないアトリビュートが分かれば、存在するアトリビュートも把握することができる。したがって、この場合も、図６のＢの例の場合と同様に、アトリビュート情報から、符号化されたアトリビュートビデオフレームを容易に把握することができる。

　例えば、符号化されるアトリビュートビデオフレームの方が、符号化されないアトリビュートビデオフレームよりも多い場合、このように符号化されないアトリビュートのリストを適用することにより、アトリビュート情報の情報量の増大を抑制することができる。換言するに、符号化されないアトリビュートビデオフレームの方が、符号化されるアトリビュートビデオフレームよりも多い場合、符号化されるアトリビュートのリストを適用することにより、アトリビュート情報の情報量の増大を抑制することができる。

　また、アトリビュート情報は、ポイントクラウドフレーム毎に生成してもよいし、一部のポイントクラウドフレームに対してのみ生成してもよい。例えば、１つ前のポイントクラウドフレームと比較して、存在するアトリビュート（アトリビュートビデオフレームが符号化されたアトリビュート）が変化した場合、そのポイントクラウドフレームに対応するアトリビュート情報を生成し、存在するアトリビュートが変化していない場合、そのポイントクラウドフレームに対応するアトリビュート情報の生成を省略してもよい。

　その際、アトリビュート情報が、図６のＢの例のように、そのフレーム時刻において符号化された（または符号化されない）全てのアトリビュートの情報を含むようにしてもよい。また、アトリビュート情報が、その１つ前のポイントクラウドフレームとの間のアトリビュートの差分に関する情報を含むようにしてもよい。つまり、符号化されたか否かのステータスが変化したアトリビュートのみをリスト化してもよい。このようにすることにより、アトリビュートの時間方向の変化が少ない場合、アトリビュート情報のデータ量の増大を抑制する（典型的には低減させる）ことができる。

　　＜復号側の処理＞
　復号側においては、このアトリビュート情報に基づいて、どのアトリビュートのアトリビュートビデオフレームが符号化されたかを容易に把握することができる。上述のように全てのアトリビュートのアトリビュートビデオフレームが揃っていない場合の復号側のアトリビュートの処理方法は任意である。

　例えば、図７のＡに示されるように、アトリビュートビデオフレームが揃っていない状態のままアトリビュートを用いてポイントクラウドを生成してもよい。つまり、復号後に存在しないアトリビュートビデオフレームの補間を行わずにポイントクラウドを生成してもよい。

　また、他のアトリビュートのアトリビュートビデオフレームを用いて復号後に存在しないアトリビュートビデオフレームを補間してもよい。例えば、図７のＢに示されるように、復号後に存在しないアトリビュートビデオフレームと同一のポイントクラウドフレームに対応する、復号後に存在する全てのアトリビュートの平均または重み付き平均で置き換えてもよい。また、復号後に存在しないアトリビュートビデオフレームと同一のポイントクラウドフレームに対応する、その復号後に存在しないアトリビュートビデオフレームとカメラの位置が最も近いアトリビュートのアトリビュートビデオフレームで置き換えてもよい。さらに、復号後に存在しないアトリビュートビデオフレームと同一のポイントクラウドフレームに対応する、その復号後に存在しないアトリビュートビデオフレームとカメラの位置が十分に近い複数のアトリビュートの平均または重み付き平均で置き換えてもよい。また、図７のＣに示されるように、復号後に存在しないアトリビュートビデオフレームと同一のポイントクラウドフレームに対応する、ベースのアトリビュートで置き換えてもよい。

　　＜アトリビュート毎の符号化＞
　例えば、図８の例のように、各アトリビュートのアトリビュートビデオフレームをアトリビュート毎のビデオシーケンスとして符号化し、アトリビュート毎の符号化データを生成してもよい。

　この場合、符号化に利用される参照関係は、アトリビュート内に限定される（カメラ間の相関は符号化に利用されない）。また、図８に示される例のように、各カメラのアトリビュートの他に、ベースのアトリビュートを１つのビデオシーケンスとして符号化し、ベースのアトリビュートの符号化データを生成してもよい。その場合、ベースのアトリビュートやベースの符号化データに対して識別情報（カメラID等）を付してもよい。

　この場合、アトリビュート情報に含まれる各時刻ｔのカメラIDと、各ビットストリームのカメラIDに基づいてアトリビュートの対応付けを行う。

　　＜全アトリビュートの符号化＞
　また、図９の例のように、全てのアトリビュートのアトリビュートビデオフレームを１本のビデオシーケンスとして符号化し、全てのアトリビュートを含む符号化データを生成してもよい。

　この場合、カメラ間の相関を符号化に利用することができる。なお、さらにベースのアトリビュートも含めて１本のビデオシーケンスとして符号化してもよい。

　このように全てのアトリビュートを含む符号化データを生成する場合、各アトリビュートのアトリビュートビデオフレームを所定の間隔でインタリーブして符号化してもよい。例えば、図９のＡの場合、インタリーブ間隔Ｔ＝１でインタリーブされている。つまり、各フレーム時刻において、各アトリビュートのアトリビュートビデオフレームがインタリーブされている。これに対して、図９のＢの場合、インタリーブ間隔Ｔ＝３でインタリーブされている。つまり、３フレーム時刻毎に、各アトリビュートのアトリビュートビデオフレームがインタリーブされている。

　なお、このインタリーブの間隔は、予め定められていてもよいし、可変であってもよい。また、そのインタリーブの間隔を示すパラメータであるインタリーブ間隔Ｔをシグナリングしてもよい。例えば、このインタリーブ間隔Ｔの値をアトリビュート情報に含めてもよい。

　また、以上のように全てのアトリビュートを含む符号化データを生成する場合、各時刻ｔ内におけるフレーム順は、アトリビュート情報に示されるカメラIDの順に並べてもよい。このようにすることにより、アトリビュート情報に基づいて、各時刻ｔにおけるフレーム順も容易に把握することができる。

　　＜参照構造例１＞
　全てのアトリビュートのアトリビュートビデオフレームを１本のビデオシーケンスとして符号化し、全てのアトリビュートを含む符号化データを生成する場合の、フレーム間の参照構造は任意である。例えば、図１０の例のように、Ｉピクチャ、Ｐピクチャ、およびＢピクチャを設定してもよい。この場合、各フレーム時刻において１つのピクチャがＩピクチャまたはＰピクチャとされ、その他のピクチャがＢピクチャとされている。このようにすることにより、符号化においてカメラ間参照と時間参照を利用することができる。したがって、符号化効率の低減を抑制することができる。なお、この場合、各時刻の１つのアトリビュートのみを復号したい場合、スキップデコードを選択し、Ｂピクチャの復号をスキップすればよい。

　図１１の例のように、ベースのアトリビュートビデオフレームも含める場合、ベースのアトリビュートビデオフレームがＩピクチャまたはＰピクチャとされ、その他のアトリビュートのアトリビュートビデオフレームがＢピクチャとされるようにしてもよい。この場合も、図１０の例と同様に、各フレーム時刻において１つのピクチャがＩピクチャまたはＰピクチャとされ、その他のピクチャがＢピクチャとされている。このようにすることにより、図１０の場合と同様に、符号化においてカメラ間参照と時間参照を利用することができる。したがって、符号化効率の低減を抑制することができる。なお、この場合、スキップデコードを選択し、Ｂピクチャの復号をスキップすることにより、ベースのアトリビュートビデオフレームのみを復号することができる。

　また、図１２に示されるように、各フレーム時刻に１つのピクチャがＩピクチャとされ、その他のピクチャがＰピクチャまたはＢピクチャとされてもよい。つまり、フレーム時刻毎にGOP（Group Of Picture）を分けてもよい。このような構造とすることにより、任意の時刻から復号を開始することができる。すなわち、ランダムアクセス性を向上させることができる。

　＜２．第１の実施の形態＞
　　＜符号化装置＞
　図１３は、本技術を適用した画像処理装置の一実施の形態である符号化装置の構成の一例を示すブロック図である。図１３に示される符号化装置３００は、ビデオベースドアプローチを適用してポイントクラウドデータをビデオフレームとして２次元画像用の符号化方法により符号化を行う装置である。また、符号化装置３００は、マルチアトリビュートのように、１つのジオメトリに対して複数のアトリビュートを対応づけることができる。

　なお、図１３においては、処理部やデータの流れ等の主なものを示しており、図１３に示されるものが全てとは限らない。つまり、符号化装置３００において、図１３においてブロックとして示されていない処理部が存在したり、図１３において矢印等として示されていない処理やデータの流れが存在したりしてもよい。

　図１３に示されるように符号化装置３００は、分解処理部３０１、パッキング部３０２、補助パッチ情報生成部３０３、補助パッチ情報圧縮部３０４、ジオメトリビデオフレーム符号化部３０５、アトリビュートビデオフレーム符号化部３０６、オキュパンシーマップ符号化部３０７、およびマルチプレクサ３０８を有する。

　分解処理部３０１は、ジオメトリデータの分解に関する処理を行う。例えば、分解処理部３０１は、符号化装置３００に入力される、ポイントクラウドを取得する。また、分解処理部３０１は、取得したそのポイントクラウドをパッチに分解し、ジオメトリのパッチやアトリビュートのパッチを生成する。そして、分解処理部３０１は、それらのパッチをパッキング部３０２に供給する。

　また、分解処理部３０１は、生成したパッチに関する情報（例えば、パッチIDや位置情報等）を補助パッチ情報生成部３０３に供給する。さらに、分解処理部３０１は、必要に応じて、視点に関する情報であるプロジェクションメタデータを生成し、パッキング部３０２、オキュパンシーマップ符号化部３０７、およびマルチプレクサ３０８に供給する。

　例えば、＜アトリビュート数が可変の例１＞や＜アトリビュート数が可変の例３＞において説明したように符号化するアトリビュートを選択する場合、分解処理部３０１が、その選択を行う。そして分解処理部３０１は、その選択したアトリビュートについてのみパッチ（アトリビュートのパッチ）を生成する。

　パッキング部３０２は、パッキングに関する処理を行う。例えば、パッキング部３０２は、分解処理部３０１から供給されるジオメトリやアトリビュートのパッチを取得する。そして、パッキング部３０２は、取得したジオメトリのパッチをビデオフレームにパッキングし、ジオメトリビデオフレームを生成する。パッキング部３０２は、生成したジオメトリビデオフレームをジオメトリビデオフレーム符号化部３０５に供給する。

　また、パッキング部３０２は、取得したアトリビュートのパッチを、そのアトリビュート毎にビデオフレームにパッキングし、アトリビュートビデオフレームを生成する。その際、パッキング部３０２は、＜１．適応的なマルチアトリビュート＞において上述したようにアトリビュートビデオフレームを生成する。例えば、パッキング部３０２は、３次元形状のオブジェクトをポイントの集合として表現するポイントクラウドの単数のジオメトリに対応する複数のアトリビュートのそれぞれについて、そのアトリビュートを部分領域毎に２次元平面に投影することで得られるパッチが配置されたビデオフレームであるアトリビュートビデオフレームを生成する。

　その際、パッキング部３０２は、ポイントクラウドのフレームであるポイントクラウドフレーム毎にアトリビュートビデオフレームを生成してもよい。またパッキング部３０２は、複数のアトリビュートのうち、ポイントクラウドフレームに存在するアトリビュートのアトリビュートビデオフレームを生成し、そのポイントクラウドフレームに存在しないアトリビュートのアトリビュートビデオフレームの生成を省略してもよい。つまり、パッキング部３０２は、分解処理部３０１により選択されたアトリビュートのパッチのみをパッキングしてもよい。

　パッキング部３０２は、生成したアトリビュートビデオフレームをアトリビュートビデオフレーム符号化部３０６に供給する。

　さらに、パッキング部３０２は、生成したジオメトリビデオフレームに基づいて、オキュパンシーマップを生成する。パッキング部３０２は、生成したオキュパンシーマップをビデオフレームとし、そのオキュパンシーマップをオキュパンシーマップ符号化部３０７に供給する。

　また、パッキング部３０２は、パッキングに関する情報を補助パッチ情報生成部３０３に供給する。例えば、パッキング部３０２は、パッチの２次元平面上でのパッチの位置（u0,v0）等をパッキングに関する情報として、補助パッチ情報生成部３０３に供給する。また、パッキング部３０２は、＜１．適応的なマルチアトリビュート＞において上述したようなアトリビュート情報を生成し、補助パッチ情報生成部３０３に供給する。つまり、パッキング部３０２は、生成された互いに同一のタイミングに対応するアトリビュートビデオフレームを示す情報であるアトリビュート情報を生成する。

　補助パッチ情報生成部３０３は、補助パッチ情報の生成に関する処理を行う。例えば、補助パッチ情報生成部３０３は、分解処理部３０１やパッキング部３０２から供給される各種情報を取得する。そして、補助パッチ情報生成部３０３は、それらの情報を含む補助パッチ情報を生成する。つまり、補助パッチ情報生成部３０３は、アトリビュート情報を含むパッチ情報を生成する。補助パッチ情報生成部３０３は、生成した補助パッチ情報を補助パッチ情報圧縮部３０４に供給する。

　補助パッチ情報圧縮部３０４は、補助パッチ情報の圧縮に関する処理を行う。例えば、補助パッチ情報圧縮部３０４は、補助パッチ情報生成部３０３から供給される補助パッチ情報を取得する。補助パッチ情報圧縮部３０４は、その取得した補助パッチ情報を符号化（圧縮）する。上述のようにこの補助パッチ情報には、アトリビュート情報が含まれる。つまり、補助パッチ情報圧縮部３０４は、そのアトリビュート情報を符号化（圧縮）する。この符号化方法は任意である。例えば、２次元画像用の符号化方式を適用してもよいし、ランレングス符号化等を適用してもよい。補助パッチ情報圧縮部３０４は、得られた補助パッチ情報の符号化データをマルチプレクサ３０８に供給する。

　ジオメトリビデオフレーム符号化部３０５は、ジオメトリビデオフレームの符号化に関する処理を行う。例えば、ジオメトリビデオフレーム符号化部３０５は、パッキング部３０２から供給されるジオメトリビデオフレームを取得する。また、ジオメトリビデオフレーム符号化部３０５は、その取得したジオメトリビデオフレームを、例えばAVC（Advanced Video Coding）やHEVC（High Efficiency Video Coding）等の任意の２次元画像用の符号化方法により符号化し、ジオメトリビデオフレームの符号化データを生成する。ジオメトリビデオフレーム符号化部３０５は、そのジオメトリビデオフレームの符号化データをマルチプレクサ３０８に供給する。

　アトリビュートビデオフレーム符号化部３０６は、アトリビュートビデオフレームの符号化に関する処理を行う。例えば、アトリビュートビデオフレーム符号化部３０６は、パッキング部３０２から供給されるアトリビュートビデオフレームを取得する。また、アトリビュートビデオフレーム符号化部３０６は、その取得したアトリビュートビデオフレームを、例えばAVCやHEVC等の任意の２次元画像用の符号化方法により符号化する。

　このアトリビュートビデオフレームは、＜１．適応的なマルチアトリビュート＞において上述したような特徴を有する。つまり、同一の時刻に対して複数のアトリビュートビデオフレームが存在し得る。また、各時刻のアトリビュートビデオフレームの数は時間方向に可変である。アトリビュートビデオフレーム符号化部３０６は、このようなアトリビュートビデオフレームを、＜１．適応的なマルチアトリビュート＞において上述したように符号化する。例えば、アトリビュートビデオフレーム符号化部３０６が、アトリビュート毎にシーケンスを分けて符号化し、アトリビュート毎の符号化データを生成してもよい。また、アトリビュートビデオフレーム符号化部３０６が、全てのアトリビュートを所定の間隔でインタリーブして１本のシーケンスとして符号化し、全アトリビュートを含む符号化データを生成してもよい。

　アトリビュートビデオフレーム符号化部３０６は、その符号化により得られたアトリビュートビデオフレームの符号化データをマルチプレクサ３０８に供給する。

　オキュパンシーマップ符号化部３０７は、オキュパンシーマップのビデオフレームの符号化に関する処理を行う。例えばオキュパンシーマップ符号化部３０７は、パッキング部３０２から供給されるオキュパンシーマップを取得する。また、オキュパンシーマップ符号化部３０７は、その取得したオキュパンシーマップを、例えば任意の２次元画像用の符号化方法により符号化する。オキュパンシーマップ符号化部３０７は、その符号化により得られたオキュパンシーマップの符号化データをマルチプレクサ３０８に供給する。

　マルチプレクサ３０８は、多重化に関する処理を行う。例えば、マルチプレクサ３０８は、補助パッチ情報圧縮部３０４から供給される補助パッチ情報の符号化データ（アトリビュート情報を含む）を取得する。また、マルチプレクサ３０８は、ジオメトリビデオフレーム符号化部３０５から供給されるジオメトリの符号化データを取得する。さらに、マルチプレクサ３０８は、アトリビュートビデオフレーム符号化部３０６から供給されるアトリビュートの符号化データを取得する。また、マルチプレクサ３０８は、オキュパンシーマップ符号化部３０７から供給されるオキュパンシーマップの符号化データを取得する。

　マルチプレクサ３０８は、取得したそれらの情報を多重化して、ビットストリームを生成する。マルチプレクサ３０８は、その生成したビットストリームを符号化装置３００の外部に出力する。

　このような構成とすることにより、符号化装置３００は、＜１．適応的なマルチアトリビュート＞において上述したように、符号量の増大を抑制することができる。これにより、符号化装置３００は、符号化処理の負荷の増大を抑制することができる。また、符号化装置３００は、復号処理の負荷の増大を抑制させることができる。さらに、符号化装置３００は、符号化データを伝送したり記憶したりする際の負荷（伝送媒体や記憶媒体の負荷等）の増大を抑制することができる。また、符号化装置３００は、例えば、符号化装置３００自身や後述する復号装置４００等、このビデオベースドアプローチに関する装置やシステムのコストの増大を抑制することができる。

　なお、これらの処理部（分解処理部３０１乃至マルチプレクサ３０８）は、任意の構成を有する。例えば、各処理部が、上述の処理を実現する論理回路により構成されるようにしてもよい。また、各処理部が、例えばCPU（Central Processing Unit）、ROM（Read Only Memory）、RAM（Random Access Memory）等を有し、それらを用いてプログラムを実行することにより、上述の処理を実現するようにしてもよい。もちろん、各処理部が、その両方の構成を有し、上述の処理の一部を論理回路により実現し、他を、プログラムを実行することにより実現するようにしてもよい。各処理部の構成は互いに独立していてもよく、例えば、一部の処理部が上述の処理の一部を論理回路により実現し、他の一部の処理部がプログラムを実行することにより上述の処理を実現し、さらに他の処理部が論理回路とプログラムの実行の両方により上述の処理を実現するようにしてもよい。

　　＜符号化処理の流れ＞
　符号化装置３００により実行される符号化処理の流れの例を、図１４のフローチャートを参照して説明する。

　符号化処理が開始されると、符号化装置３００の分解処理部３０１は、ステップＳ３０１において、＜１．適応的なマルチアトリビュート＞において上述したように、符号化するアトリビュート（カメラ）を選択する。

　ステップＳ３０２において、分解処理部３０１は、ポイントクラウドをパッチに分解し、ジオメトリやアトリビュートのパッチを生成する。その際、分解処理部３０１は、アトリビュートについては、ステップＳ３０１において選択されたアトリビュートについてのみパッチを生成する。

　ステップＳ３０３において、パッキング部３０２は、ステップＳ３０２において生成されたパッチをビデオフレームにパッキングする。例えば、パッキング部３０２は、ジオメトリのパッチをパッキングし、ジオメトリビデオフレームを生成する。また、パッキング部３０２は、各アトリビュートのパッチをパッキングし、アトリビュート毎にアトリビュートビデオフレームを生成する。さらに、パッキング部３０２は、生成したジオメトリビデオフレームに基づいて、オキュパンシーマップを生成する。

　また、パッキング部３０２は、パッキングに関する情報や＜１．適応的なマルチアトリビュート＞において上述したようなアトリビュート情報を生成する。

　ステップＳ３０４において、補助パッチ情報生成部３０３は、ステップＳ３０２において生成されたパッチに関する情報、並びに、ステップＳ３０３において生成されたパッキングに関する情報およびアトリビュート情報を含む補助パッチ情報を生成する。

　ステップＳ３０５において、補助パッチ情報圧縮部３０４は、ステップＳ３０５において生成された補助パッチ情報を所定の符号化方法で符号化する。なお、この補助パッチ情報には、アトリビュート情報が含まれる。つまり、補助パッチ情報圧縮部３０４は、そのアトリビュート情報を符号化（圧縮）する。

　ステップＳ３０６において、ジオメトリビデオフレーム符号化部３０５は、ステップＳ３０３の処理により得られたジオメトリビデオフレームを、２次元画像用の符号化方法により符号化する。

　ステップＳ３０７において、アトリビュートビデオフレーム符号化部３０６は、ステップＳ３０３の処理により得られたアトリビュートビデオフレームを、２次元画像用の符号化方法により符号化する。＜１．適応的なマルチアトリビュート＞において上述したように、同一の時刻に対して複数のアトリビュートビデオフレームが存在し得る。また、各時刻のアトリビュートビデオフレームの数は可変である。アトリビュートビデオフレーム符号化部３０６は、このようなアトリビュートビデオフレームを、＜１．適応的なマルチアトリビュート＞において上述したように符号化する。例えば、アトリビュートビデオフレーム符号化部３０６は、アトリビュートビデオフレームを、アトリビュート毎に分けて符号化したり、全てのアトリビュートをインタリーブして１つのシーケンスにまとめて符号化したりすることができる。

　ステップＳ３０８において、オキュパンシーマップ符号化部３０７は、ステップＳ３０３の処理により得られたオキュパンシーマップを、２次元画像用の符号化方法により符号化する。

　ステップＳ３０９において、マルチプレクサ３０８は、以上のように生成された各種情報を多重化し、これらの情報を含むビットストリームを生成する。ステップＳ３１０において、マルチプレクサ３０８は、ステップＳ３０９の処理により生成したビットストリームを符号化装置３００の外部に出力する。ステップＳ３１０の処理が終了すると符号化処理が終了する。

　以上のように符号化処理を実行することにより、符号化装置３００は、＜１．適応的なマルチアトリビュート＞において上述したように、符号量の増大を抑制することができる。これにより、符号化装置３００は、符号化処理の負荷の増大を抑制することができる。また、符号化装置３００は、復号処理の負荷の増大を抑制させることができる。さらに、符号化装置３００は、符号化データを伝送したり記憶したりする際の負荷（伝送媒体や記憶媒体の負荷等）の増大を抑制することができる。また、符号化装置３００は、例えば、符号化装置３００自身や後述する復号装置４００等、このビデオベースドアプローチに関する装置やシステムのコストの増大を抑制することができる。

　＜３．第２の実施の形態＞
　　＜復号装置＞
　図１５は、本技術を適用した画像処理装置の一態様である復号装置の構成の一例を示すブロック図である。図１５に示される復号装置４００は、ビデオベースドアプローチを適用し、ポイントクラウドデータをビデオフレームとして２次元画像用の符号化方法により符号化された符号化データを、２次元画像用の復号方法により復号し、ポイントクラウドを生成（再構築）する装置である。

　なお、図１５においては、処理部やデータの流れ等の主なものを示しており、図１５に示されるものが全てとは限らない。つまり、復号装置４００において、図１５においてブロックとして示されていない処理部が存在したり、図１５において矢印等として示されていない処理やデータの流れが存在したりしてもよい。

　図１５に示されるように復号装置４００は、デマルチプレクサ４０１、補助パッチ情報復号部４０２、ジオメトリビデオフレーム復号部４０３、アトリビュートビデオフレーム復号部４０４、オキュパンシーマップ復号部４０５、アンパッキング部４０６、および3D再構築部４０７を有する。

　デマルチプレクサ４０１は、データの逆多重化に関する処理を行う。例えば、デマルチプレクサ４０１は、復号装置４００に入力されるビットストリームを取得する。このビットストリームは、例えば、符号化装置３００がポイントクラウドデータを符号化することにより生成されたものである。

　また、デマルチプレクサ４０１は、このビットストリームを逆多重化する。例えば、デマルチプレクサ４０１は、その逆多重化によりビットストリームから補助パッチ情報の符号化データを抽出する。そして、デマルチプレクサ４０１は、抽出した補助パッチ情報の符号化データを補助パッチ情報復号部４０２に供給する。

　また、デマルチプレクサ４０１は、その逆多重化によりビットストリームからジオメトリビデオフレームの符号化データを抽出する。そして、デマルチプレクサ４０１は、抽出したジオメトリビデオフレームの符号化データをジオメトリビデオフレーム復号部４０３に供給する。

　さらに、デマルチプレクサ４０１は、その逆多重化によりビットストリームからアトリビュートビデオフレームの符号化データを抽出する。そして、デマルチプレクサ４０１は、抽出したアトリビュートビデオフレームの符号化データをアトリビュートビデオフレーム復号部４０４に供給する。

　また、デマルチプレクサ４０１は、その逆多重化によりビットストリームからオキュパンシーマップの符号化データを抽出する。そして、デマルチプレクサ４０１は、抽出したオキュパンシーマップの符号化データをオキュパンシーマップ復号部４０５に供給する。

　さらに、デマルチプレクサ４０１は、符号化側からシグナリングされたプロジェクションメタデータを、ジオメトリビデオフレーム復号部４０３、アトリビュートビデオフレーム復号部４０４、およびオキュパンシーマップ復号部４０５に供給しうる。

　補助パッチ情報復号部４０２は、補助パッチ情報の符号化データの復号に関する処理を行う。例えば、補助パッチ情報復号部４０２は、デマルチプレクサ４０１から供給される補助パッチ情報の符号化データを取得する。また、補助パッチ情報復号部４０２は、その符号化データを復号し、補助パッチ情報を生成する。この補助パッチ情報には、アトリビュート情報が含まれる。つまり、補助パッチ情報復号部４０２は、符号化データを復号してアトリビュート情報を生成する。なお、この復号方法は、符号化の際に適用された符号化方法（例えば、補助パッチ情報圧縮部３０４が適用した符号化方法）に対応する方法（２次元画像用でない復号方法）であれば任意である。さらに、補助パッチ情報復号部４０２は、その補助パッチ情報を3D再構築部４０７に供給する。

　ジオメトリビデオフレーム復号部４０３は、ジオメトリビデオフレームの符号化データの復号に関する処理を行う。例えば、ジオメトリビデオフレーム復号部４０３は、デマルチプレクサ４０１から供給されるジオメトリビデオフレームの符号化データを取得する。また、ジオメトリビデオフレーム復号部４０３は、その符号化データを復号し、ジオメトリビデオフレームを生成する。さらに、ジオメトリビデオフレーム復号部４０３は、そのジオメトリビデオフレームを、アンパッキング部４０６に供給することができる。

　アトリビュートビデオフレーム復号部４０４は、アトリビュートビデオフレームの符号化データの復号に関する処理を行う。例えば、アトリビュートビデオフレーム復号部４０４は、デマルチプレクサ４０１から供給されるアトリビュートビデオフレームの符号化データを取得する。また、アトリビュートビデオフレーム復号部４０４は、その符号化データを復号し、アトリビュートビデオフレームを生成する。

　このアトリビュートビデオフレームは、＜１．適応的なマルチアトリビュート＞において上述したような特徴を有する。つまり、同一の時刻に対して複数のアトリビュートビデオフレームが存在し得る。また、各時刻のアトリビュートビデオフレームの数は可変である。アトリビュートビデオフレーム復号部４０４は、このようなアトリビュートビデオフレームの符号化データを、＜１．適応的なマルチアトリビュート＞において上述したように復号する。例えば、アトリビュートビデオフレーム復号部４０４が、アトリビュート毎の符号化データを復号することより、各アトリビュートのアトリビュートビデオフレームを生成してもよい。また、アトリビュートビデオフレーム復号部４０４が、インタリーブされて１つのシーケンスにまとめられた全アトリビュートを含む符号化データを復号することにより、各アトリビュートのアトリビュートビデオフレームを生成してもよい。

　また、アトリビュートビデオフレーム復号部４０４が、ビデオのフレーム時刻毎に符号化データを復号し、アトリビュートビデオフレームを生成してもよい。また、アトリビュートビデオフレーム復号部４０４は、各フレーム時刻において存在するアトリビュートについてのみ符号化データを復号し、アトリビュートビデオフレームを生成してもよい。

　アトリビュートビデオフレーム復号部４０４は、そのアトリビュートビデオフレームを、アンパッキング部４０６に供給する。

　オキュパンシーマップ復号部４０５は、オキュパンシーマップの符号化データの復号に関する処理を行う。例えば、オキュパンシーマップ復号部４０５は、デマルチプレクサ４０１から供給されるオキュパンシーマップの符号化データを取得する。また、オキュパンシーマップ復号部４０５は、その符号化データを復号し、オキュパンシーマップを生成する。さらに、オキュパンシーマップ復号部４１５は、そのオキュパンシーマップを、アンパッキング部４０６に供給する。

　アンパッキング部４０６は、アンパッキングに関する処理を行う。例えば、アンパッキング部４０６は、ジオメトリビデオフレーム復号部４０３から供給されるジオメトリビデオフレームを取得する。また、アンパッキング部４０６は、アトリビュートビデオフレーム復号部４０４から供給されるアトリビュートビデオフレームを取得する。また、アンパッキング部４０６は、オキュパンシーマップ復号部４０５から供給されるオキュパンシーマップを取得する。

　さらに、アンパッキング部４０６は、オキュパンシーマップに基づいて、そのジオメトリビデオフレーム、並びに、各アトリビュートビデオフレームをアンパッキングし、パッチを生成する。また、アンパッキング部４０６は、その生成した、ジオメトリやアトリビュートのパッチ等を3D再構築部４０７に供給する。

　3D再構築部４０７は、ポイントクラウド（3Dデータ）の生成（再構築）に関する処理を行う。例えば、3D再構築部４０７は、補助パッチ情報復号部４０２から供給される補助パッチ情報を取得する。また、3D再構築部４０７は、アンパッキング部４０６から供給されるジオメトリやアトリビュートのパッチ等を取得する。3D再構築部４０７は、それらの情報を用いてポイントクラウドを生成（再構築）する。その際、3D再構築部４０７は、＜１．適応的なマルチアトリビュート＞において上述したように処理を行う。

　例えば、3D再構築部４０７は、補助パッチ情報に含まれるアトリビュート情報を参照して、どのアトリビュートのパッチが存在するかを把握する。これにより、3D再構築部４０７は、補助パッチ情報、ジオメトリやアトリビュートのパッチ等を用いて、正しくポイントクラウドを生成（再構築）することができる。

　また、3D再構築部４０７が、アトリビュートビデオフレームが揃っていない状態のままアトリビュートを用いてポイントクラウドを生成してもよい。つまり、3D再構築部４０７が、復号後に存在しないアトリビュートビデオフレームの補間を行わずにポイントクラウドを生成してもよい。

　また、3D再構築部４０７が、他のアトリビュートのアトリビュートビデオフレームを用いて復号後に存在しないアトリビュートビデオフレームを補間してもよい。例えば、3D再構築部４０７が、復号後に存在しないアトリビュートビデオフレームと同一フレーム時刻の、復号後に存在する全てのアトリビュートの平均または重み付き平均で置き換えてもよい。また、3D再構築部４０７が、復号後に存在しないアトリビュートビデオフレームと同一フレーム時刻の、その復号後に存在しないアトリビュートビデオフレームとカメラの位置が最も近いアトリビュートのアトリビュートビデオフレームで置き換えてもよい。さらに、3D再構築部４０７が、復号後に存在しないアトリビュートビデオフレームと同一フレーム時刻の、その復号後に存在しないアトリビュートビデオフレームとカメラの位置が十分に近い複数のアトリビュートの平均または重み付き平均で置き換えてもよい。また、3D再構築部４０７が、復号後に存在しないアトリビュートビデオフレームと同一フレーム時刻の、ベースのアトリビュートで置き換えてもよい。

　3D再構築部４０７は、このような処理により得られたポイントクラウドデータを復号装置４００の外部に出力する。このポイントクラウドデータは、例えば、レンダリングされて表示部に表示されたり、記録媒体に記録されたり、通信を介して他の装置に供給されたりする。

　このような構成とすることにより、復号装置４００は、＜１．適応的なマルチアトリビュート＞において上述したように、符号量の増大を抑制することができる。これにより、復号装置４００は、復号処理の負荷の増大を抑制することができる。また、復号装置４００は、符号化データを伝送したり記憶したりする際の負荷（伝送媒体や記憶媒体の負荷等）の増大を抑制することができる。また、復号装置４００は、例えば、符号化装置３００や復号装置４００自身等、このビデオベースドアプローチに関する装置やシステムのコストの増大を抑制することができる。

　なお、これらの処理部（デマルチプレクサ４０１乃至3D再構築部４０７）は、任意の構成を有する。例えば、各処理部が、上述の処理を実現する論理回路により構成されるようにしてもよい。また、各処理部が、例えばCPU、ROM、RAM等を有し、それらを用いてプログラムを実行することにより、上述の処理を実現するようにしてもよい。もちろん、各処理部が、その両方の構成を有し、上述の処理の一部を論理回路により実現し、他を、プログラムを実行することにより実現するようにしてもよい。各処理部の構成は互いに独立していてもよく、例えば、一部の処理部が上述の処理の一部を論理回路により実現し、他の一部の処理部がプログラムを実行することにより上述の処理を実現し、さらに他の処理部が論理回路とプログラムの実行の両方により上述の処理を実現するようにしてもよい。

　　＜復号処理の流れ＞
　このような復号装置４００により実行される復号処理の流れの例を、図１６のフローチャートを参照して説明する。

　復号処理が開始されると、復号装置４００のデマルチプレクサ４０１は、ステップＳ４０１において、ビットストリームを逆多重化する。

　ステップＳ４０２において、補助パッチ情報復号部４０２は、ステップＳ４０１の処理によりビットストリームから抽出された補助パッチ情報の符号化データを復号する。この補助パッチ情報には、アトリビュート情報が含まれる。つまり、補助パッチ情報復号部４０２は、符号化データを復号してアトリビュート情報を生成する。

　ステップＳ４０３において、ジオメトリビデオフレーム復号部４０３は、ステップＳ４０１の処理によりビットストリームから抽出されたジオメトリビデオフレームの符号化データを復号する。

　ステップＳ４０４において、アトリビュートビデオフレーム復号部４０４は、ステップＳ４０１の処理によりビットストリームから抽出されたアトリビュートビデオフレームの符号化データを復号する。

　ステップＳ４０５において、オキュパンシーマップ復号部４０５は、ステップＳ４０１の処理によりビットストリームから抽出されたオキュパンシーマップの符号化データを復号する。

　ステップＳ４０６において、アンパッキング部４０６は、オキュパンシーマップ等に基づいて、ジオメトリビデオフレームやアトリビュートビデオフレームをそれぞれアンパッキングし、ジオメトリやアトリビュートのパッチを生成（復元）する。

　ステップＳ４０７において、3D再構築部４０７は、ステップＳ４０２において生成された補助パッチ情報と、ステップＳ４０６において得られた各種情報とに基づいて、ポイントクラウドを生成（再構築）する。その際、3D再構築部４０７は、＜１．適応的なマルチアトリビュート＞において上述したように処理を行う。

　3D再構築部４０７は、このような処理により得られたポイントクラウドデータを復号装置４００の外部に出力する。ステップＳ４０７の処理が終了すると復号処理が終了する。

　以上のように復号処理を実行することにより、復号装置４００は、＜１．適応的なマルチアトリビュート＞において上述したように、符号量の増大を抑制することができる。これにより、復号装置４００は、復号処理の負荷の増大を抑制することができる。また、復号装置４００は、符号化データを伝送したり記憶したりする際の負荷（伝送媒体や記憶媒体の負荷等）の増大を抑制することができる。さらに、復号装置４００は、例えば、符号化装置３００や復号装置４００自身等、このビデオベースドアプローチに関する装置やシステムのコストの増大を抑制することができる。

　＜４．付記＞
　　＜コンピュータ＞
　上述した一連の処理は、ハードウエアにより実行させることもできるし、ソフトウエアにより実行させることもできる。一連の処理をソフトウエアにより実行する場合には、そのソフトウエアを構成するプログラムが、コンピュータにインストールされる。ここでコンピュータには、専用のハードウエアに組み込まれているコンピュータや、各種のプログラムをインストールすることで、各種の機能を実行することが可能な、例えば汎用のパーソナルコンピュータ等が含まれる。

　図１７は、上述した一連の処理をプログラムにより実行するコンピュータのハードウエアの構成例を示すブロック図である。

　図１７に示されるコンピュータ９００において、CPU（Central Processing Unit）９０１、ROM（Read Only Memory）９０２、RAM（Random Access Memory）９０３は、バス９０４を介して相互に接続されている。

　バス９０４にはまた、入出力インタフェース９１０も接続されている。入出力インタフェース９１０には、入力部９１１、出力部９１２、記憶部９１３、通信部９１４、およびドライブ９１５が接続されている。

　入力部９１１は、例えば、キーボード、マウス、マイクロホン、タッチパネル、入力端子などよりなる。出力部９１２は、例えば、ディスプレイ、スピーカ、出力端子などよりなる。記憶部９１３は、例えば、ハードディスク、RAMディスク、不揮発性のメモリなどよりなる。通信部９１４は、例えば、ネットワークインタフェースよりなる。ドライブ９１５は、磁気ディスク、光ディスク、光磁気ディスク、または半導体メモリなどのリムーバブルメディア９２１を駆動する。

　以上のように構成されるコンピュータでは、CPU９０１が、例えば、記憶部９１３に記憶されているプログラムを、入出力インタフェース９１０およびバス９０４を介して、RAM９０３にロードして実行することにより、上述した一連の処理が行われる。RAM９０３にはまた、CPU９０１が各種の処理を実行する上において必要なデータなども適宜記憶される。

　コンピュータが実行するプログラムは、例えば、パッケージメディア等としてのリムーバブルメディア９２１に記録して適用することができる。その場合、プログラムは、リムーバブルメディア９２１をドライブ９１５に装着することにより、入出力インタフェース９１０を介して、記憶部９１３にインストールすることができる。

　また、このプログラムは、ローカルエリアネットワーク、インターネット、デジタル衛星放送といった、有線または無線の伝送媒体を介して提供することもできる。その場合、プログラムは、通信部９１４で受信し、記憶部９１３にインストールすることができる。

　その他、このプログラムは、ROM９０２や記憶部９１３に、あらかじめインストールしておくこともできる。

　　＜本技術の適用対象＞
　以上においては、ポイントクラウドデータの符号化・復号に本技術を適用する場合について説明したが、本技術は、これらの例に限らず、任意の規格の３Ｄデータの符号化・復号に対して適用することができる。つまり、上述した本技術と矛盾しない限り、符号化・復号方式等の各種処理、並びに、３Ｄデータやメタデータ等の各種データの仕様は任意である。また、本技術と矛盾しない限り、上述した一部の処理や仕様を省略してもよい。

　また、以上においては、本技術の適用例として符号化装置３００および復号装置４００等について説明したが、本技術は、任意の構成に適用することができる。

　例えば、本技術は、衛星放送、ケーブルＴＶなどの有線放送、インターネット上での配信、およびセルラー通信による端末への配信などにおける送信機や受信機（例えばテレビジョン受像機や携帯電話機）、または、光ディスク、磁気ディスクおよびフラッシュメモリなどの媒体に画像を記録したり、これら記憶媒体から画像を再生したりする装置（例えばハードディスクレコーダやカメラ）などの、様々な電子機器に適用され得る。

　また、例えば、本技術は、システムLSI（Large Scale Integration）等としてのプロセッサ（例えばビデオプロセッサ）、複数のプロセッサ等を用いるモジュール（例えばビデオモジュール）、複数のモジュール等を用いるユニット（例えばビデオユニット）、または、ユニットにさらにその他の機能を付加したセット（例えばビデオセット）等、装置の一部の構成として実施することもできる。

　また、例えば、本技術は、複数の装置により構成されるネットワークシステムにも適用することもできる。例えば、本技術を、ネットワークを介して複数の装置で分担、共同して処理するクラウドコンピューティングとして実施するようにしてもよい。例えば、コンピュータ、AV（Audio Visual）機器、携帯型情報処理端末、IoT（Internet of Things）デバイス等の任意の端末に対して、画像（動画像）に関するサービスを提供するクラウドサービスにおいて本技術を実施するようにしてもよい。

　なお、本明細書において、システムとは、複数の構成要素（装置、モジュール（部品）等）の集合を意味し、全ての構成要素が同一筐体中にあるか否かは問わない。したがって、別個の筐体に収納され、ネットワークを介して接続されている複数の装置、および、１つの筐体の中に複数のモジュールが収納されている１つの装置は、いずれも、システムである。

　　＜本技術を適用可能な分野・用途＞
　本技術を適用したシステム、装置、処理部等は、例えば、交通、医療、防犯、農業、畜産業、鉱業、美容、工場、家電、気象、自然監視等、任意の分野に利用することができる。また、その用途も任意である。

　　＜その他＞
　なお、本明細書において「フラグ」とは、複数の状態を識別するための情報であり、真(1)または偽(0)の２状態を識別する際に用いる情報だけでなく、３以上の状態を識別することが可能な情報も含まれる。したがって、この「フラグ」が取り得る値は、例えば1/0の２値であってもよいし、３値以上であってもよい。すなわち、この「フラグ」を構成するbit数は任意であり、1bitでも複数bitでもよい。また、識別情報（フラグも含む）は、その識別情報をビットストリームに含める形だけでなく、ある基準となる情報に対する識別情報の差分情報をビットストリームに含める形も想定されるため、本明細書においては、「フラグ」や「識別情報」は、その情報だけではなく、基準となる情報に対する差分情報も包含する。

　また、符号化データ（ビットストリーム）に関する各種情報（メタデータ等）は、符号化データに関連付けられていれば、どのような形態で伝送または記録されるようにしてもよい。ここで、「関連付ける」という用語は、例えば、一方のデータを処理する際に他方のデータを利用し得る（リンクさせ得る）ようにすることを意味する。つまり、互いに関連付けられたデータは、１つのデータとしてまとめられてもよいし、それぞれ個別のデータとしてもよい。例えば、符号化データ（画像）に関連付けられた情報は、その符号化データ（画像）とは別の伝送路上で伝送されるようにしてもよい。また、例えば、符号化データ（画像）に関連付けられた情報は、その符号化データ（画像）とは別の記録媒体（または同一の記録媒体の別の記録エリア）に記録されるようにしてもよい。なお、この「関連付け」は、データ全体でなく、データの一部であってもよい。例えば、画像とその画像に対応する情報とが、複数フレーム、１フレーム、またはフレーム内の一部分などの任意の単位で互いに関連付けられるようにしてもよい。

　なお、本明細書において、「合成する」、「多重化する」、「付加する」、「一体化する」、「含める」、「格納する」、「入れ込む」、「差し込む」、「挿入する」等の用語は、例えば符号化データとメタデータとを１つのデータにまとめるといった、複数の物を１つにまとめることを意味し、上述の「関連付ける」の１つの方法を意味する。

　また、本技術の実施の形態は、上述した実施の形態に限定されるものではなく、本技術の要旨を逸脱しない範囲において種々の変更が可能である。

　例えば、１つの装置（または処理部）として説明した構成を分割し、複数の装置（または処理部）として構成するようにしてもよい。逆に、以上において複数の装置（または処理部）として説明した構成をまとめて１つの装置（または処理部）として構成されるようにしてもよい。また、各装置（または各処理部）の構成に上述した以外の構成を付加するようにしてももちろんよい。さらに、システム全体としての構成や動作が実質的に同じであれば、ある装置（または処理部）の構成の一部を他の装置（または他の処理部）の構成に含めるようにしてもよい。

　また、例えば、上述したプログラムは、任意の装置において実行されるようにしてもよい。その場合、その装置が、必要な機能（機能ブロック等）を有し、必要な情報を得ることができるようにすればよい。

　また、例えば、１つのフローチャートの各ステップを、１つの装置が実行するようにしてもよいし、複数の装置が分担して実行するようにしてもよい。さらに、１つのステップに複数の処理が含まれる場合、その複数の処理を、１つの装置が実行するようにしてもよいし、複数の装置が分担して実行するようにしてもよい。換言するに、１つのステップに含まれる複数の処理を、複数のステップの処理として実行することもできる。逆に、複数のステップとして説明した処理を１つのステップとしてまとめて実行することもできる。

　また、例えば、コンピュータが実行するプログラムは、プログラムを記述するステップの処理が、本明細書で説明する順序に沿って時系列に実行されるようにしても良いし、並列に、あるいは呼び出しが行われたとき等の必要なタイミングで個別に実行されるようにしても良い。つまり、矛盾が生じない限り、各ステップの処理が上述した順序と異なる順序で実行されるようにしてもよい。さらに、このプログラムを記述するステップの処理が、他のプログラムの処理と並列に実行されるようにしても良いし、他のプログラムの処理と組み合わせて実行されるようにしても良い。

　また、例えば、本技術に関する複数の技術は、矛盾が生じない限り、それぞれ独立に単体で実施することができる。もちろん、任意の複数の本技術を併用して実施することもできる。例えば、いずれかの実施の形態において説明した本技術の一部または全部を、他の実施の形態において説明した本技術の一部または全部と組み合わせて実施することもできる。また、上述した任意の本技術の一部または全部を、上述していない他の技術と併用して実施することもできる。

　なお、本技術は以下のような構成も取ることができる。
　（１）　３次元形状のオブジェクトをポイントの集合として表現するポイントクラウドの単数のジオメトリに対応する複数のアトリビュートのそれぞれについて、前記アトリビュートを部分領域毎に２次元平面に投影することで得られるパッチが配置されたビデオフレームであるアトリビュートビデオフレームを生成するアトリビュートビデオフレーム生成部と、
　前記アトリビュートビデオフレーム生成部により生成された、各アトリビュートの前記アトリビュートビデオフレームを符号化するアトリビュートビデオフレーム符号化部と、
　前記アトリビュートビデオフレーム生成部により生成された互いに同一のタイミングに対応する前記アトリビュートビデオフレームを示す情報であるアトリビュート情報を生成するアトリビュート情報生成部と
　を備える画像処理装置。
　（２）　前記アトリビュートビデオフレーム生成部は、前記ポイントクラウドのフレームであるポイントクラウドフレーム毎に、前記アトリビュートビデオフレームを生成する
　（１）に記載の画像処理装置。
　（３）　前記アトリビュートビデオフレーム生成部は、前記複数のアトリビュートのうち、前記ポイントクラウドフレームに存在するアトリビュートの前記アトリビュートビデオフレームを生成し、前記ポイントクラウドフレームに存在しないアトリビュートの前記アトリビュートビデオフレームの生成を省略する
　（２）に記載の画像処理装置。
　（４）　前記アトリビュート情報は、前記ポイントクラウドフレームに存在する前記アトリビュートのリストを含む
　（３）に記載の画像処理装置。
　（５）　前記アトリビュート情報は、前記ポイントクラウドフレームに存在しない前記アトリビュートのリストを含む
　（３）に記載の画像処理装置。
　（６）　前記アトリビュート情報生成部は、前記ポイントクラウドフレーム毎に前記アトリビュート情報を生成する
　（３）乃至（５）のいずれかに記載の画像処理装置。
　（７）　前記アトリビュート情報生成部は、１つ前の前記ポイントクラウドフレームと比較して、存在する前記アトリビュートが変化した場合、前記アトリビュート情報を生成し、存在する前記アトリビュートが変化していない場合、前記アトリビュート情報の生成を省略する
　（３）乃至（５）のいずれかに記載の画像処理装置。
　（８）　前記アトリビュート情報は、１つ前の前記ポイントクラウドフレームとの間の前記アトリビュートの差分に関する情報を含む
　（７）に記載の画像処理装置。
　（９）　前記アトリビュートビデオフレーム符号化部は、各アトリビュートの前記アトリビュートビデオフレームを前記アトリビュート毎のビデオシーケンスとして符号化し、前記アトリビュート毎の符号化データを生成する
　（１）乃至（８）のいずれかに記載の画像処理装置。
　（１０）　前記アトリビュートビデオフレーム符号化部は、全ての前記アトリビュートの前記アトリビュートビデオフレームを１本のビデオシーケンスとして符号化し、全ての前記アトリビュートを含む符号化データを生成する
　（１）乃至（８）のいずれかに記載の画像処理装置。
　（１１）　前記アトリビュートビデオフレーム符号化部は、各アトリビュートの前記アトリビュートビデオフレームを所定の間隔でインタリーブして符号化する
　（１０）に記載の画像処理装置。
　（１２）　前記アトリビュート情報は、前記間隔を示すパラメータを含む
　（１１）に記載の画像処理装置。
　（１３）　前記複数のアトリビュートは、それぞれ、互いに異なる視点において得られる前記オブジェクトのテクスチャを含む
　（１）乃至（１２）のいずれかに記載の画像処理装置。
　（１４）　３次元形状のオブジェクトをポイントの集合として表現するポイントクラウドの単数のジオメトリに対応する複数のアトリビュートのそれぞれについて、前記アトリビュートを部分領域毎に２次元平面に投影することで得られるパッチが配置されたビデオフレームであるアトリビュートビデオフレームを生成し、
　生成された、各アトリビュートの前記アトリビュートビデオフレームを符号化し、
　生成された互いに同一のタイミングに対応する前記アトリビュートビデオフレームを示す情報であるアトリビュート情報を生成する
　画像処理方法。

　（１５）　符号化データを復号し、３次元形状のオブジェクトをポイントの集合として表現するポイントクラウドの単数のジオメトリに対応する複数のアトリビュートのそれぞれに対応する、前記アトリビュートを部分領域毎に２次元平面に投影することで得られるパッチが配置されたビデオフレームであるアトリビュートビデオフレームを生成するアトリビュートビデオフレーム復号部と、
　符号化データを復号し、互いに同一のタイミングに対応する前記アトリビュートビデオフレームを示す情報であるアトリビュート情報を生成するアトリビュート情報復号部と、
　前記アトリビュートビデオフレーム復号部により生成された前記アトリビュートビデオフレームに含まれる前記アトリビュートと、前記アトリビュート情報復号部により生成された前記アトリビュート情報とに基づいて、前記ポイントクラウドを生成するポイントクラウド生成部と
　を備える画像処理装置。
　（１６）　前記アトリビュートビデオフレーム復号部は、前記ポイントクラウドのフレームであるポイントクラウドフレーム毎の前記アトリビュートビデオフレームが符号化された前記符号化データを復号し、前記アトリビュートビデオフレームを生成する
　（１５）に記載の画像処理装置。
　（１７）　前記アトリビュートビデオフレーム復号部は、前記複数のアトリビュートのうち、前記ポイントクラウドフレームに存在するアトリビュートについて生成され、存在しない前記アトリビュートについて生成が省略された前記アトリビュートビデオフレームが符号化された前記符号化データを復号し、前記ポイントクラウドフレームに存在する前記アトリビュートの前記アトリビュートビデオフレームを生成する
　（１６）に記載の画像処理装置。
　（１８）　前記ポイントクラウド生成部は、前記ポイントクラウドフレームに存在しない前記アトリビュートを、他の前記アトリビュートを用いて生成する
　（１７）に記載の画像処理装置。
　（１９）　前記ポイントクラウド生成部は、前記ポイントクラウドフレームに存在しない前記アトリビュートを、他の前記アトリビュートの平均を用いて生成する
　（１７）に記載の画像処理装置。
　（２０）　前記ポイントクラウド生成部は、前記ポイントクラウドフレームに存在しない前記アトリビュートを、他の前記アトリビュートの重み付き平均を用いて生成する
　（１７）に記載の画像処理装置。
　（２１）　前記複数のアトリビュートは、それぞれ、互いに異なる視点において得られる前記オブジェクトのテクスチャを含む
　（１５）乃至（２０）のいずれかに記載の画像処理装置。
　（２２）　符号化データを復号し、３次元形状のオブジェクトをポイントの集合として表現するポイントクラウドの単数のジオメトリに対応する複数のアトリビュートのそれぞれに対応する、前記アトリビュートを部分領域毎に２次元平面に投影することで得られるパッチが配置されたビデオフレームであるアトリビュートビデオフレームを生成し、
　符号化データを復号し、互いに同一のタイミングに対応する前記アトリビュートビデオフレームを示す情報であるアトリビュート情報を生成し、
　生成された前記アトリビュートビデオフレームに含まれる前記アトリビュートと、生成された前記アトリビュート情報とに基づいて、前記ポイントクラウドを生成する
　画像処理方法。

　３００　符号化装置，　３０１分解処理部，　３０２　パッキング部，　３０３　補助パッチ情報生成部，　３０４　補助パッチ情報圧縮部，　３０５　ジオメトリビデオフレーム符号化部，　３０６　アトリビュートビデオフレーム符号化部，　３０７　オキュパンシーマップ符号化部，　３０８　マルチプレクサ，　４００　復号装置，　４０１　デマルチプレクサ，　４０２　補助パッチ情報復号部，　４０３　ジオメトリビデオフレーム復号部，　４０４　アトリビュートビデオフレーム復号部，　４０５　オキュパンシーマップ復号部，　４０６　アンパッキング部，　４０７　3D再構築部

Claims

　３次元形状のオブジェクトをポイントの集合として表現するポイントクラウドの単数のジオメトリに対応する複数のアトリビュートのそれぞれについて、前記アトリビュートを部分領域毎に２次元平面に投影することで得られるパッチが配置されたビデオフレームであるアトリビュートビデオフレームを生成するアトリビュートビデオフレーム生成部と、
　前記アトリビュートビデオフレーム生成部により生成された、各アトリビュートの前記アトリビュートビデオフレームを符号化するアトリビュートビデオフレーム符号化部と、
　前記アトリビュートビデオフレーム生成部により生成された互いに同一のタイミングに対応する前記アトリビュートビデオフレームを示す情報であるアトリビュート情報を生成するアトリビュート情報生成部と
　を備える画像処理装置。
　前記アトリビュートビデオフレーム生成部は、前記ポイントクラウドのフレームであるポイントクラウドフレーム毎に、前記アトリビュートビデオフレームを生成する
　請求項１に記載の画像処理装置。
　前記アトリビュートビデオフレーム生成部は、前記複数のアトリビュートのうち、前記ポイントクラウドフレームに存在するアトリビュートの前記アトリビュートビデオフレームを生成し、前記ポイントクラウドフレームに存在しないアトリビュートの前記アトリビュートビデオフレームの生成を省略する
　請求項２に記載の画像処理装置。
　前記アトリビュート情報は、前記ポイントクラウドフレームに存在する前記アトリビュートのリストを含む
　請求項３に記載の画像処理装置。
　前記アトリビュート情報は、前記ポイントクラウドフレームに存在しない前記アトリビュートのリストを含む
　請求項３に記載の画像処理装置。
　前記アトリビュート情報生成部は、前記ポイントクラウドフレーム毎に前記アトリビュート情報を生成する
　請求項３に記載の画像処理装置。
　前記アトリビュート情報生成部は、１つ前の前記ポイントクラウドフレームと比較して、存在する前記アトリビュートが変化した場合、前記アトリビュート情報を生成し、存在する前記アトリビュートが変化していない場合、前記アトリビュート情報の生成を省略する
　請求項３に記載の画像処理装置。
　前記アトリビュート情報は、１つ前の前記ポイントクラウドフレームとの間の前記アトリビュートの差分に関する情報を含む
　請求項７に記載の画像処理装置。
　前記アトリビュートビデオフレーム符号化部は、各アトリビュートの前記アトリビュートビデオフレームを前記アトリビュート毎のビデオシーケンスとして符号化し、前記アトリビュート毎の符号化データを生成する
　請求項１に記載の画像処理装置。
　前記アトリビュートビデオフレーム符号化部は、全ての前記アトリビュートの前記アトリビュートビデオフレームを１本のビデオシーケンスとして符号化し、全ての前記アトリビュートを含む符号化データを生成する
　請求項１に記載の画像処理装置。
　前記アトリビュートビデオフレーム符号化部は、各アトリビュートの前記アトリビュートビデオフレームを所定の間隔でインタリーブして符号化する
　請求項１０に記載の画像処理装置。
　前記アトリビュート情報は、前記間隔を示すパラメータを含む
　請求項１１に記載の画像処理装置。
　前記複数のアトリビュートは、それぞれ、互いに異なる視点において得られる前記オブジェクトのテクスチャを含む
　請求項１に記載の画像処理装置。
　３次元形状のオブジェクトをポイントの集合として表現するポイントクラウドの単数のジオメトリに対応する複数のアトリビュートのそれぞれについて、前記アトリビュートを部分領域毎に２次元平面に投影することで得られるパッチが配置されたビデオフレームであるアトリビュートビデオフレームを生成し、
　生成された、各アトリビュートの前記アトリビュートビデオフレームを符号化し、
　生成された互いに同一のタイミングに対応する前記アトリビュートビデオフレームを示す情報であるアトリビュート情報を生成する
　画像処理方法。
　符号化データを復号し、３次元形状のオブジェクトをポイントの集合として表現するポイントクラウドの単数のジオメトリに対応する複数のアトリビュートのそれぞれに対応する、前記アトリビュートを部分領域毎に２次元平面に投影することで得られるパッチが配置されたビデオフレームであるアトリビュートビデオフレームを生成するアトリビュートビデオフレーム復号部と、
　符号化データを復号し、互いに同一のタイミングに対応する前記アトリビュートビデオフレームを示す情報であるアトリビュート情報を生成するアトリビュート情報復号部と、
　前記アトリビュートビデオフレーム復号部により生成された前記アトリビュートビデオフレームに含まれる前記アトリビュートと、前記アトリビュート情報復号部により生成された前記アトリビュート情報とに基づいて、前記ポイントクラウドを生成するポイントクラウド生成部と
　を備える画像処理装置。
　前記アトリビュートビデオフレーム復号部は、前記ポイントクラウドのフレームであるポイントクラウドフレーム毎の前記アトリビュートビデオフレームが符号化された前記符号化データを復号し、前記アトリビュートビデオフレームを生成する
　請求項１５に記載の画像処理装置。
　前記アトリビュートビデオフレーム復号部は、前記複数のアトリビュートのうち、前記ポイントクラウドフレームに存在するアトリビュートについて生成され、存在しない前記アトリビュートについて生成が省略された前記アトリビュートビデオフレームが符号化された前記符号化データを復号し、前記ポイントクラウドフレームに存在する前記アトリビュートの前記アトリビュートビデオフレームを生成する
　請求項１６に記載の画像処理装置。
　前記ポイントクラウド生成部は、前記ポイントクラウドフレームに存在しない前記アトリビュートを、他の前記アトリビュートを用いて生成する
　請求項１７に記載の画像処理装置。
　前記ポイントクラウド生成部は、前記ポイントクラウドフレームに存在しない前記アトリビュートを、他の前記アトリビュートの平均を用いて生成する
　請求項１７に記載の画像処理装置。
　前記ポイントクラウド生成部は、前記ポイントクラウドフレームに存在しない前記アトリビュートを、他の前記アトリビュートの重み付き平均を用いて生成する
　請求項１７に記載の画像処理装置。
　前記複数のアトリビュートは、それぞれ、互いに異なる視点において得られる前記オブジェクトのテクスチャを含む
　請求項１５に記載の画像処理装置。
　符号化データを復号し、３次元形状のオブジェクトをポイントの集合として表現するポイントクラウドの単数のジオメトリに対応する複数のアトリビュートのそれぞれに対応する、前記アトリビュートを部分領域毎に２次元平面に投影することで得られるパッチが配置されたビデオフレームであるアトリビュートビデオフレームを生成し、
　符号化データを復号し、互いに同一のタイミングに対応する前記アトリビュートビデオフレームを示す情報であるアトリビュート情報を生成し、
　生成された前記アトリビュートビデオフレームに含まれる前記アトリビュートと、生成された前記アトリビュート情報とに基づいて、前記ポイントクラウドを生成する
　画像処理方法。