JP2020017927A - Image processing apparatus, control method therefor, and image processing system - Google Patents
Image processing apparatus, control method therefor, and image processing system Download PDFInfo
- Publication number
- JP2020017927A JP2020017927A JP2018141630A JP2018141630A JP2020017927A JP 2020017927 A JP2020017927 A JP 2020017927A JP 2018141630 A JP2018141630 A JP 2018141630A JP 2018141630 A JP2018141630 A JP 2018141630A JP 2020017927 A JP2020017927 A JP 2020017927A
- Authority
- JP
- Japan
- Prior art keywords
- image
- virtual viewpoint
- images
- camera
- encoding
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Pending
Links
- 238000012545 processing Methods 0.000 title claims abstract description 65
- 238000000034 method Methods 0.000 title claims abstract description 55
- 238000013507 mapping Methods 0.000 claims abstract description 79
- 238000013139 quantization Methods 0.000 claims description 100
- 238000012935 Averaging Methods 0.000 claims description 2
- 238000010586 diagram Methods 0.000 description 16
- 230000006870 function Effects 0.000 description 16
- 238000004364 calculation method Methods 0.000 description 13
- 238000012986 modification Methods 0.000 description 11
- 230000004048 modification Effects 0.000 description 11
- 230000006866 deterioration Effects 0.000 description 7
- 238000000605 extraction Methods 0.000 description 6
- 230000015572 biosynthetic process Effects 0.000 description 5
- 238000003786 synthesis reaction Methods 0.000 description 5
- 230000002194 synthesizing effect Effects 0.000 description 5
- 230000005540 biological transmission Effects 0.000 description 4
- 239000000284 extract Substances 0.000 description 3
- 230000015556 catabolic process Effects 0.000 description 1
- 238000006243 chemical reaction Methods 0.000 description 1
- 238000004891 communication Methods 0.000 description 1
- 230000006835 compression Effects 0.000 description 1
- 238000007906 compression Methods 0.000 description 1
- 230000007423 decrease Effects 0.000 description 1
- 230000003247 decreasing effect Effects 0.000 description 1
- 238000006731 degradation reaction Methods 0.000 description 1
- 230000014509 gene expression Effects 0.000 description 1
- 238000010191 image analysis Methods 0.000 description 1
- 238000003384 imaging method Methods 0.000 description 1
- 238000009877 rendering Methods 0.000 description 1
- 238000010187 selection method Methods 0.000 description 1
- 230000001360 synchronised effect Effects 0.000 description 1
- 230000000007 visual effect Effects 0.000 description 1
Images
Landscapes
- Image Processing (AREA)
- Image Generation (AREA)
- Compression Or Coding Systems Of Tv Signals (AREA)
Abstract
Description
本発明は、複数のカメラにより被写体を複数の方向から撮影することにより得られた複数の画像を用いて仮想視点画像を生成するための画像処理装置およびその制御方法、画像処理システムに関する。 The present invention relates to an image processing apparatus for generating a virtual viewpoint image using a plurality of images obtained by photographing a subject from a plurality of directions with a plurality of cameras, a control method thereof, and an image processing system.
複数のカメラを異なる位置に設置して多視点で同期撮影し、当該撮影により得られた複数視点画像を用いて仮想視点画像を生成する技術が注目されている。このような仮想視点画像によれば、例えば、サッカーやバスケットボールのハイライトシーンを様々な角度から視聴することが出来るため、通常の画像と比較してユーザに高臨場感を与えることが出来る。一般に、このような仮想視点画像を生成するシステムでは、複数のカメラが撮影した複数視点画像は、サーバなどの画像処理部に集約される。画像処理部は、これら複数視点画像から生成したモデルを用いて、指定された仮想視点からのモデルの見えを表す仮想視点画像を生成し、ユーザ端末に伝送する。ユーザは、ユーザ端末で仮想視点画像を表示することにより、仮想視点画像を閲覧することができる。 2. Description of the Related Art A technique of installing a plurality of cameras at different positions, performing synchronous shooting from multiple viewpoints, and generating a virtual viewpoint image using the multiple viewpoint images obtained by the shooting has attracted attention. According to such a virtual viewpoint image, for example, a highlight scene of soccer or basketball can be viewed from various angles, so that a higher sense of reality can be given to the user as compared with a normal image. Generally, in such a system for generating a virtual viewpoint image, a plurality of viewpoint images captured by a plurality of cameras are collected in an image processing unit such as a server. The image processing unit generates a virtual viewpoint image representing the appearance of the model from the specified virtual viewpoint using the model generated from the multiple viewpoint images, and transmits the virtual viewpoint image to the user terminal. The user can browse the virtual viewpoint image by displaying the virtual viewpoint image on the user terminal.
特許文献1では、複数のカメラによる画像の伝送において、各カメラで量子化ステップサイズ(量子化パラメータ)を調整し、発生するデータ量を制御して画像伝送におけるレートを制御する技術が記載されている。さらに、特許文献2では、複数のカメラで撮影された複数の画像からモデルを生成し、仮想カメラから見えるモデルの部分に対してテクスチャマッピングを行って仮想画像を生成する。特許文献2には、仮想カメラの位置およびオブジェクトの位置といったような空間的情報(幾何学的情報)に応じて画像に優先順位を設け、テクスチャマッピングに利用する画像を選択する技術が記載されている。 Patent Literature 1 discloses a technique in which, in image transmission by a plurality of cameras, a quantization step size (quantization parameter) is adjusted in each camera, a generated data amount is controlled, and a rate in image transmission is controlled. I have. Further, in Patent Literature 2, a model is generated from a plurality of images captured by a plurality of cameras, and texture mapping is performed on a part of the model viewed from the virtual camera to generate a virtual image. Patent Literature 2 describes a technique of assigning priorities to images in accordance with spatial information (geometric information) such as the position of a virtual camera and the position of an object, and selecting an image to be used for texture mapping. I have.
特許文献1では、複数のカメラがそれぞれ、通信路の状況に応じて画質の制御や符号化モードを変更して符号量を調整する。このため、各カメラから送られてくる画像の符号化による劣化の度合いは各カメラによって異なる場合がある。すなわち、これらの画像では様々な符号化劣化が発生しており、特許文献2に記載されているような空間的情報によって得られた優先順位では、順位が高い画像の画質が必ずしも高くはならない。すなわち、カメラごとに符号化方式を変更して伝送のレート制御をおこなう場合、仮想視点画像の生成に使用するカメラの画像を空間的情報によって決定すると、符号化による劣化が大きい画像を優先して選択してしまう可能性がある。その結果、生成される仮想視点画像の画質が低くなってしまうという課題がある。 In Patent Literature 1, a plurality of cameras adjust the code amount by controlling the image quality and changing the encoding mode according to the state of the communication path. For this reason, the degree of deterioration due to encoding of the image sent from each camera may differ from camera to camera. That is, various coding degradations occur in these images, and the image quality of an image having a higher order is not necessarily higher in the priority order obtained by spatial information as described in Patent Document 2. In other words, when controlling the transmission rate by changing the encoding method for each camera, if the image of the camera to be used for generating the virtual viewpoint image is determined based on the spatial information, priority is given to an image that is largely degraded by encoding. There is a possibility of choosing. As a result, there is a problem that the image quality of the generated virtual viewpoint image is reduced.
本発明は、上記の課題に鑑みてなされたものであり、その目的は、複数のカメラから取得された画像を用いて生成される仮想視点画像の品質を高めることにある。 The present invention has been made in view of the above problems, and has as its object to improve the quality of a virtual viewpoint image generated using images acquired from a plurality of cameras.
本発明の一態様による画像処理装置は以下の構成を備える。すなわち、
複数のカメラから得られた複数の画像を用いて、仮想視点から観察される仮想視点画像を生成する画像処理装置であって、
前記仮想視点と前記複数のカメラの位置関係に基づいて、前記複数の画像から前記仮想視点画像の部分のテクスチャマッピングに利用可能な画像を選択する選択手段と、
前記選択手段により選択された画像に用いられた符号化を表す符号化情報に基づいて、前記選択された画像の前記テクスチャマッピングへの利用法を決定する決定手段と、
前記決定手段により決定された利用法に従って前記選択された画像を用いてテクスチャマッピングを実行し、前記仮想視点画像の前記部分の画像を生成する生成手段と、を備える。
An image processing device according to one aspect of the present invention has the following configuration. That is,
An image processing apparatus that generates a virtual viewpoint image observed from a virtual viewpoint using a plurality of images obtained from a plurality of cameras,
Selection means for selecting an image available for texture mapping of a portion of the virtual viewpoint image from the plurality of images, based on a positional relationship between the virtual viewpoint and the plurality of cameras,
Determining means for determining how to use the selected image for the texture mapping based on encoding information representing the encoding used for the image selected by the selecting means,
Generating means for performing texture mapping using the selected image in accordance with the usage determined by the determining means, and generating an image of the portion of the virtual viewpoint image.
本発明によれば、複数のカメラから取得された画像を用いて生成される仮想視点画像の品質を高めることができる。 According to the present invention, it is possible to enhance the quality of a virtual viewpoint image generated using images acquired from a plurality of cameras.
以下、添付の図面を参照して、本願発明の実施形態のいくつかについて詳細に説明する。なお、以下の実施形態において示す構成は一例に過ぎず、本発明は図示された構成に限定されるものではない。 Hereinafter, some embodiments of the present invention will be described in detail with reference to the accompanying drawings. Note that the configurations shown in the following embodiments are merely examples, and the present invention is not limited to the illustrated configurations.
<第1実施形態>
競技場(スタジアム)やコンサートホールなどの施設に複数のカメラ及びマイクを設置し撮影及び集音を行う本実施形態の画像処理システムの構成について説明する。図1は、第1実施形態による画像処理システム100の構成例を示すブロック図である。画像処理システム100は、センサシステム110a〜110z、画像コンピューティングサーバ200、コントローラ280、スイッチングハブ180、及びエンドユーザ端末190を有する。
<First embodiment>
A configuration of the image processing system according to the present embodiment in which a plurality of cameras and microphones are installed in facilities such as a stadium or a concert hall to perform shooting and sound collection will be described. FIG. 1 is a block diagram illustrating a configuration example of an
本実施形態において、センサシステム110aからセンサシステム110zまでの26セットのセンサシステムは同様の構成を有しており、これらを区別せずセンサシステム110と記載する場合がある。また、各センサシステム110内の装置についても同様に、特別な説明がない場合は区別せず、マイク111、カメラ112、雲台113、及びカメラアダプタ120と記載する。なお、センサシステムの台数として26セットと記載しているが、あくまでも一例であり、台数をこれに限定するものではない。
In the present embodiment, 26 sets of sensor systems from the
また、本実施形態では、特に断りがない限り、画像という文言が、動画と静止画の概念を含むものとして説明する。すなわち、本実施形態の画像処理システム100は、静止画及び動画の何れについても処理可能である。また、本実施形態では、画像処理システム100により提供される仮想視点コンテンツには、仮想視点画像と仮想視点音声が含まれる例を中心に説明するが、これに限らない。例えば、仮想視点コンテンツに音声が含まれていなくても良い。また例えば、仮想視点コンテンツに含まれる音声が、仮想視点に最も近いマイクにより集音された音声であっても良い。また、本実施形態では、説明の簡略化のため、部分的に音声についての記載を省略しているが、基本的に画像と音声は共に処理されるものとする。
Further, in the present embodiment, unless otherwise specified, the term image is described as including the concept of a moving image and a still image. That is, the
画像処理システム100において、センサシステム110a〜110zが有するカメラ112a〜112zは、被写体を複数の方向から撮影するための複数のカメラを構成する。複数のセンサシステム110a〜110zはデイジーチェーンにより接続される。なおこれに限らず、接続形態として、各センサシステム110a〜110zがスイッチングハブ180に接続されて、スイッチングハブ180を経由してセンサシステム110間のデータ送受信を行うスター型のネットワーク構成としてもよい。また、図1では、デイジーチェーンとなるようセンサシステム110a〜110zの全てがカスケード接続されている構成を示したがこれに限定するものではない。例えば、複数のセンサシステム110をいくつかのグループに分割して、分割したグループ単位でセンサシステム110間をデイジーチェーン接続してもよい。
In the
マイク111aにて集音された音声と、カメラ112aにて撮影された画像は、カメラアダプタ120aにおいて所定の画像処理が施された後、エンコーダ121aで符号化される。カメラアダプタ120aは、符号化されたデータを、ネットワーク170aを通してセンサシステム110bのカメラアダプタ120bに伝送する。同様にセンサシステム110bは、集音された音声と撮影された画像を符号化し、センサシステム110aから取得した画像及び音声の符号化データと合わせてセンサシステム110cに伝送する。
The sound collected by the
以上の動作を続けることにより、センサシステム110a〜110zが取得した画像及び音声は、センサシステム110zからネットワーク180bを介してスイッチングハブ180に伝わり、その後、画像コンピューティングサーバ200へ伝送される。なお、センサシステム110の構成は、上記に限定されるものではない。例えば、本実施形態では、カメラ112とカメラアダプタ120が分離された構成となっているが、同一筺体で一体化されていてもよい。その場合、マイク111は一体化されたカメラ112に内蔵されてもよいし、カメラ112の外部に接続されていてもよい。また、カメラアダプタ120の機能の少なくとも一部をフロントエンドサーバ230が有していてもよい。また、センサシステム110a〜110zが同じ構成を有している必要はなく、其々のセンサシステム110が異なる構成でもよい。
By continuing the above operation, the images and sounds acquired by the
コントローラ280は制御ステーション281と仮想カメラ操作UI282を有する。制御ステーション281は画像処理システム100を構成するそれぞれのブロックに対してネットワークを通じて動作状態の管理及びパラメータの設定・制御などを行う。仮想カメラ操作UI282は、ユーザが指定を指定するためのユーザインターフェースを提供し、ユーザ操作により指定された視点を、制御ステーション281を介してバックエンドサーバ270に提供する。
The
タイムサーバ290は、スイッチングハブ180を介してセンサシステム110a〜110zに時刻及び同期信号を配信する。時刻と同期信号を受信したカメラアダプタ120a〜120zは、カメラ112a〜112zを時刻と同期信号をもとにGenlockさせて画像フレーム同期を行う。即ち、タイムサーバ290は、複数のカメラ112の撮影タイミングを同期させる。
The time server 290 distributes time and synchronization signals to the
画像コンピューティングサーバ200は、センサシステム110zから取得したデータの処理を行う。画像コンピューティングサーバ200は、エンキャプセレータ210a〜210b、フロントエンドサーバ230、データベース250、バックエンドサーバ270を有する。
The
エンキャプセレータ210a〜210bは、センサシステム110zから取得した画像及び音声のセグメント化された伝送パケットを再構成してフレームデータに変換する。フロントエンドサーバ230は、フレームデータをカメラの識別子やデータ種別、フレーム番号に対応付けてデータベース250に書き込む。また、データベース250にはカメラの識別子で識別される各カメラについて、位置、方向、画角を含むカメラ設定情報が格納されている。バックエンドサーバ270は、仮想カメラ操作UI282から視点の指定を受け付け、受け付けた視点に基づいて、データベース250から対応する画像を取得し、レンダリング処理などを行って仮想視点画像を生成する。また、バックエンドサーバ270は、データベース250から音声データを取得して仮想視点画像に対応する音声を生成する。
The
なお、画像コンピューティングサーバ200の構成は上記に限られるものではない。例えば、フロントエンドサーバ230、データベース250、及びバックエンドサーバ270のうち少なくとも2つが一体となって構成されていてもよい。また、フロントエンドサーバ230、データベース250、及びバックエンドサーバ270の少なくとも1つ以上が別体として構成されてもよい。また、画像コンピューティングサーバ200内の任意の位置に上記の装置以外の装置が含まれていてもよい。さらに、画像コンピューティングサーバ200の機能の少なくとも一部をエンドユーザ端末190や仮想カメラ操作UI282が有していてもよい。
The configuration of the
バックエンドサーバ270によってレンダリング処理された画像(仮想視点画像)は、バックエンドサーバ270からエンドユーザ端末190に送信される。こうして、エンドユーザ端末190を操作するユーザは、視点の指定に応じた画像、音声を視聴することが出来る。すなわち、バックエンドサーバ270は、複数のカメラ112により撮影された複数の撮影画像(複数視点画像)とユーザ操作により指定された視点を示す視点情報とに基づいて、仮想視点画像を生成する。そしてバックエンドサーバ270は、生成した仮想視点コンテンツをエンドユーザ端末190に提供する。
The image (virtual viewpoint image) rendered by the backend server 270 is transmitted from the backend server 270 to the
本実施形態における仮想視点コンテンツは、仮想的な視点から被写体を撮影した場合に得られる画像としての仮想視点画像を含むコンテンツである。言い換えると、仮想視点画像は、指定された視点における見えを表す画像であるとも言える。仮想的な視点(仮想視点)は、ユーザにより(例えば、仮想カメラ操作UI282を用いて)指定されても良いし、画像解析の結果等に基づいて自動的に指定されても良い。すなわち仮想視点画像には、ユーザが任意に指定した視点に対応する任意視点画像(仮想視点画像)が含まれる。また、複数の候補からユーザが指定した視点に対応する画像や、装置が自動で指定した視点に対応する画像も、仮想視点画像に含まれる。また、バックエンドサーバ270は、仮想視点画像をH.264やHEVCに代表される標準技術により圧縮符号化したうえで、MPEG−DASHプロトコルを使ってエンドユーザ端末190へ送信してもよい。なお、本実施形態における画像処理システム100は、上記で説明した物理的な構成に限定される訳ではなく、論理的に構成されていてもよい。
The virtual viewpoint content in the present embodiment is a content including a virtual viewpoint image as an image obtained when a subject is photographed from a virtual viewpoint. In other words, it can be said that the virtual viewpoint image is an image representing the appearance at the designated viewpoint. The virtual viewpoint (virtual viewpoint) may be specified by the user (for example, using the virtual camera operation UI 282), or may be automatically specified based on a result of image analysis or the like. That is, the virtual viewpoint image includes an arbitrary viewpoint image (virtual viewpoint image) corresponding to a viewpoint arbitrarily specified by the user. In addition, an image corresponding to a viewpoint designated by the user from a plurality of candidates and an image corresponding to a viewpoint automatically designated by the device are also included in the virtual viewpoint image. Further, the back-end server 270 converts the virtual viewpoint image into an H.264 image. H.264 or HEVC, and may be transmitted to the
以上の構成を備えた本実施形態の画像処理システム100による、撮影対象(オブジェクト)の撮影動作の例について図2を利用して説明する。図2は複数のセンサシステムによるオブジェクトの撮影状況の例を示す図である。図2において、撮影対象であるオブジェクト320は、説明を容易にするため本実施形態では球体を想定するが、これに限定されない。図2において、カメラ112a〜112cは、それぞれセンサシステム110a〜110cが有するカメラである。301a〜301cはカメラ112a〜112cの画角を表している。カメラ112a〜112cはオブジェクト320を様々な角度(視線方向)から撮影する。カメラ112aによるオブジェクト320の撮影範囲は点331〜点335の間である。同様に、カメラ112bによるオブジェクト320の撮影範囲は点332〜点336の間であり、カメラ112cによるオブジェクト320の撮影範囲は点334〜点338の間である。これらのカメラ112a〜112cが画角301a〜301cで撮影したオブジェクト320の画像は、センサシステムごとにレート制御され、符号化される。
An example of a shooting operation of a shooting target (object) by the
本実施形態におけるセンサシステム110のカメラアダプタ120について説明する。カメラアダプタ120のエンコーダ121は、カメラ112から画像を入力し、符号化して符号データを生成し、ネットワーク170に送出する。エンコーダ121はその生成される符号データの量を制御するためにレート制御を行う。レート制御では、量子化パラメータの調整、符号化モード(イントラ(Intra)/インター(Inter)やロスレス/ロッシ―)の選択などによって符号量を制御する。これらのレート制御に使用する情報を以後、符号化情報と呼称する。本実施形態では符号化情報のうち、量子化パラメータの調整によってレート制御を行う場合を例にとって説明するが、これに限定されない。また、エンコーダ121はH.264符号化方式で符号化する場合を例にとって説明するがこれに限定されない。例えば、JPEG符号化方式やMPEG符号化方式などを用いても良い。 The camera adapter 120 of the sensor system 110 according to the present embodiment will be described. The encoder 121 of the camera adapter 120 receives an image from the camera 112, generates encoded data by encoding, and sends the encoded data to the network 170. The encoder 121 performs rate control to control the amount of generated code data. In the rate control, the amount of code is controlled by adjusting a quantization parameter, selecting an encoding mode (Intra / Inter, lossless / lossy), or the like. The information used for such rate control is hereinafter referred to as coded information. In the present embodiment, a case will be described as an example in which rate control is performed by adjusting a quantization parameter in encoded information, but the present invention is not limited to this. In addition, the encoder 121 is H.264. A case where encoding is performed by the H.264 encoding method will be described as an example, but the present invention is not limited thereto. For example, a JPEG encoding method or an MPEG encoding method may be used.
エンコーダ121は、例えば、デイジーチェーンで伝送されてくる符号データのデータ量や、カメラ112から入力される画像の特徴から量子化パラメータ(例えば、量子化ステップ)を調整して符号化を行う。例えば、エンコーダ121は、伝送されてくる符号データのデータ量が多い場合には量子化パラメータを大きくして当該センサシステム110が生成する符号データのデータ量を減少させる。他方、データ量に余裕があれば、エンコーダ121は、量子化パラメータを小さくして当該センサシステム110で発生するデータ量を増加させる。また、カメラで撮影した画像にエッジ等の重要な情報を含む場合は、エンコーダ121は、量子化パラメータを小さくして符号化する。H.264符号化方式においては、フレーム単位で量子化パラメータを設定することが可能である。フレームのヘッダであるPicture Parameter Setにはpic_init_qp_minus26符号があり、フレーム単位での量子化パラメータを定義できる。また、より詳細な符号化単位であるスライス単位でもスライスヘッダの中のslice_qp_delta符号で量子化パラメータを定義できる。さらに詳細なマクロブロック単位でもmb_qp_delta符号を用いて量子化パラメータを定義できる。以上のように、H.264では、フレーム単位、スライス単位、マクロブロック単位での量子化パラメータの設定が可能である。 The encoder 121 performs encoding by adjusting a quantization parameter (for example, a quantization step) based on, for example, the data amount of code data transmitted in a daisy chain and the characteristics of an image input from the camera 112. For example, when the amount of transmitted coded data is large, the encoder 121 increases the quantization parameter to reduce the amount of coded data generated by the sensor system 110. On the other hand, if the data amount has a margin, the encoder 121 decreases the quantization parameter to increase the data amount generated in the sensor system 110. If the image captured by the camera includes important information such as an edge, the encoder 121 performs encoding by reducing the quantization parameter. H. In the H.264 coding method, it is possible to set a quantization parameter for each frame. The Picture Parameter Set, which is the header of the frame, has a pic_init_qp_minus26 code, and can define a quantization parameter for each frame. Also, a quantization parameter can be defined by a slice_qp_delta code in a slice header in a slice unit which is a more detailed encoding unit. Further, a quantization parameter can be defined using a mb_qp_delta code even in macroblock units. As described above, H. In H.264, quantization parameters can be set in frame units, slice units, and macroblock units.
エンコーダ121は量子化パラメータを制御して変換係数の量子化を行い、符号量を調整する。また、符号化情報として使われた量子化パラメータは前述の符号を用いて符号化される。符号化によって得られた符号データはパケット化され、ネットワーク170、スイッチングハブ180を介して画像コンピューティングサーバ200に送信される。
The encoder 121 controls the quantization parameter to quantize the transform coefficient, and adjusts the code amount. Further, the quantization parameter used as the encoding information is encoded using the above-described code. The encoded data obtained by the encoding is packetized and transmitted to the
画像コンピューティングサーバ200は各センサシステム110から撮影された画像データの符号データをエンキャプセレータ210で受信する。エンキャプセレータ210は1つまたは複数で構成することができ、帯域やそれぞれの処理の重さに応じて並列化して処理を行うことができる。本実施形態では2台のエンキャプセレータ210a、210bを用いた例を示す。例えば、画像が撮影された時間を示すタイムコードが奇数か偶数かで処理を行うエンキャプセレータを分けてもよい。また、タイムコードは撮影された時間やフレーム番号で構成されているので、例えば、フレーム番号が奇数か偶数かでエンキャプセレータ210を選択するようにしてもよい。エンキャプセレータ210は、例えば、パケット化されて受信した画像の符号データを1フレーム単位でまとめて、フロントエンドサーバ230に出力する。
The
フロントエンドサーバ230はフレーム単位での符号データをデータベース250に書き込むためのデータ形式変換や必要なメタ情報の付与を行う。メタ情報として、例えば、センサシステム110のカメラ112を特定するためのカメラ識別子や同期のための時刻やフレームの番号などの情報がある。データベース250は各カメラの各時刻のフレーム画像の符号データを格納する。
The front-
ユーザは仮想カメラ操作UI282を用いて仮想視点画像における仮想視点を示す仮想カメラの位置、方向、画角の設定を行う。以後、これらの仮想カメラの位置、方向、画角等の情報を仮想カメラ情報と呼称する。例えば、図2に示されるようにカメラ112bとカメラ112cとの間に仮想カメラ350を設定したとする。351は仮想カメラ350の画角を表す。仮想カメラ350によるオブジェクト320の撮影範囲は、点333〜点337の間である。図3は、図2に示される位置関係を有するカメラ112a〜112cおよび仮想カメラ350により撮影されるオブジェクト320の部分の関係の詳細を示す図である。図3と図2において同じ構成には同一の参照番号を付してある。仮想カメラ操作UI282で設定された仮想カメラ情報はデータベース250及びバックエンドサーバ270に出力される。
The user uses the virtual
バックエンドサーバ270は、仮想カメラ操作UI282から入力した仮想カメラ情報に基づいて、センサシステム110が撮影した画像から、仮想カメラ350から見た仮想視点画像を生成するために必要な画像を検索、選択する。バックエンドサーバ270は、仮想カメラ350の仮想カメラ情報から、画角351に含まれる実空間上の撮影範囲(例えば、オブジェクト320上の点333〜点337の範囲)を決定する。この撮影範囲に各オブジェクトが含まれるかどうかはその位置と撮影範囲との比較によって決定される。すなわち、画角351の仮想視点画像を生成するのに用いられる画像は、仮想カメラ350によって撮影される範囲を仮想カメラ情報に基づいて特定することで選択される。
The back-end server 270 searches and selects an image necessary for generating a virtual viewpoint image viewed from the
各センサシステム110で撮影した画像にはカメラ識別子を含む符号データが付与されている。バックエンドサーバ270は、カメラ識別子に基づいてデータベース250から各カメラのカメラ設定情報を読み出し、仮想カメラ350の仮想視点画像を構成するのに必要な画像を撮影したカメラを判別することができる。また、バックエンドサーバ270は、そのカメラの画像をデータベース250から読み出すことができる。図3においては、画角351は、仮想カメラ350のオブジェクト320に対する画角である。カメラ112a、112b、112cのオブジェクト320に対する画角は、それぞれ画角301a、301b、301cである。データベース250は、空間的情報(仮想カメラ350の画角351と、複数のカメラ112の画角)に基づいて、仮想カメラ350が撮影する仮想視点画像を生成するのに利用可能な画像を選択し、バックエンドサーバ270へ提供する。なお、バックエンドサーバ270が、そのような画像を選択し、データベース250に要求するようにしてもよい。
The image captured by each sensor system 110 is provided with code data including a camera identifier. The back-end server 270 can read the camera setting information of each camera from the
バックエンドサーバ270では、仮想カメラ操作UI282からの仮想カメラ情報がモデル生成器272と合成器273に入力される。合成器273で生成される仮想カメラ350からみたオブジェクト320の画像はその視線を法線とする面352上に射影した画像となる。図3では、オブジェクト320が射影される画像領域は点333〜点337の領域となる。この画像領域のうちの部分領域321は、カメラ112a〜112cの画角内にある。したがって、部分領域321については、カメラ112a〜112cにより撮影された画像が利用可能な画像であり、これらの画像からモデル上の点にテクスチャマッピングするための画像が選択される。部分領域322については、カメラ112bとカメラ112cにより撮影された画像がテクスチャマッピングに利用可能な画像である。さらに、部分領域323については、カメラ112cにより撮影された画像がテクスチャマッピングに利用可能な画像である。以上は各カメラの位置、画角といった空間的情報によって一意に判別される。データベース250はこれらの画像の符号データを時刻ごとにバックエンドサーバ270に出力する。
In the back-end server 270, virtual camera information from the virtual
バックエンドサーバ270において、デコーダ271は、データベース250から受け取った符号データの中から符号化情報を抽出し、符号化情報を用いて復号を行うことにより復号画像を生成する。生成した復号画像は、モデル生成器272と合成器273に入力される。また、抽出された符号化情報は合成器273に入力される。
In the back-end server 270, the
モデル生成器272は入力された復号画像を用いて、オブジェクトの輪郭を取得し、画像とそのカメラのカメラ設定情報に基づいて3次元モデルを生成する。生成された3次元モデルでは、合成器273に出力される。オブジェクト320の3次元モデルの生成には、例えば、Visual Hullなどの方法を用いることができる。なお、3次元モデルの生成方法に関しては特に限定はなく、3次元モデルは例えば点群や、メッシュで表現され得る。ここでは、3次元モデルは点群で表現されるものとする。点群は撮影対象の空間を三次元空間で表した座標の値を持った点の集合である。
The model generator 272 obtains the outline of the object using the input decoded image, and generates a three-dimensional model based on the image and the camera setting information of the camera. The generated three-dimensional model is output to the
図4は、合成器273の構成例を示すブロック図である。合成器273は、モデルを構成する点群の各点に対して、前景画像の画素値を選択または合成して得られた値をマッピングする(テクスチャマッピング)。一般に、仮想視点画像の生成においては、画像を前景画像と背景画像に分け、それぞれの画像について生成された3次元モデルを用いることにより仮想視点からの画像が生成される。以下、映像のフレームに対応した前景画像を前景フレームとも称する。図4において、モデルバッファ500は、モデル生成器272によって生成された3次元モデルを時刻ごとに格納する。前景フレームバッファ506はデコーダ271で復号された前景画像の一部またはすべてをカメラ識別子とともに蓄積する。点選択部501は、3次元モデルの点群のうち、仮想カメラ情報と3次元モデルの位置情報に基づいて決定される仮想カメラの画角の内側にある点を順に選択する。選択された点の情報は前景フレーム選択部502と前景マッピング部507に入力される。
FIG. 4 is a block diagram illustrating a configuration example of the
前景フレーム選択部502は、データベース250から各カメラのカメラ設定情報を取得し、点選択部501により選択された点が各カメラの画角に含まれるか否かをカメラ設定情報に基づいて判定する。さらに、前景フレーム選択部502は、選択された点の座標情報とカメラの位置、向き、画角に基づいて、各カメラの画像上に点を射影し、射影した点に対応する画素位置を算出する。なお、選択された点に対応する画素は1つとは限らず、複数が対応する場合もある。前景フレーム選択部502は、点を画角に含むカメラのカメラ識別子、およびそのカメラの画像における選択された点に対応する画素位置を量子化パラメータ比較部505に出力する。
The foreground
前景フレーム選択部502が、選択された点を画角内に含むと判定されたカメラのカメラ識別子を選択することは、テクスチャマッピングするために用いる対象(候補)となる前景画像を選択することと等価である。量子化パラメータ比較部505は、選択された前景画像に用いられた符号化を表す符号化情報に基づいて、選択された前景画像のテクスチャマッピングへの利用法を決定するための構成の一例である。本実施形態では、複数の前景画像が選択された場合に、符号化情報(量子化パラメータ)に基づいて、テクスチャマッピングに用いる前景画像が決定される。
Selecting the camera identifier of a camera determined to include the selected point within the angle of view by the foreground
デコーダ271で復号された符号化情報は量子化パラメータ抽出部503に入力される。量子化パラメータ抽出部503は符号化情報からマクロブロック単位で量子化パラメータを抽出する。抽出された量子化パラメータはカメラ識別子ごとにマクロブロック単位で量子化パラメータメモリ504に格納される。なお、量子化パラメータの格納の単位は、これに限定されず、フレーム、スライス、ブロック、画素単位であっても良い。
The encoded information decoded by the
量子化パラメータ比較部505は、前景フレーム選択部502で選択された前景画像のカメラ識別子と、選択された点に対応する画素位置とに基づいて、量子化パラメータメモリ504から、その画素位置を含むマクロブロックの量子化パラメータを読み出す。複数の前景画像が選択されている場合、量子化パラメータ比較部505は、テクスチャマッピングに用いる前景画像を決定するために、読み出した複数の量子化パラメータの比較を行う。本実施形態では、量子化パラメータ比較部505は、読み出された量子化パラメータの大小を比較し、その比較結果に基づいて、仮想視点画像を生成するために用いるべく選択された前景画像のカメラ識別子を取得する。例えば、量子化パラメータが最少のものを選ぶことにより、テスクチャの画質を向上させることができる。量子化パラメータ比較部505は、決定されたカメラ識別子および選択された点に対応する画素位置を前景フレームバッファ506に出力する。
The quantization
前景フレームバッファ506は前述の比較の結果に基づいて決定されたカメラ識別子と選択された点に対応する画素位置に基づいて、デコーダ271から得られる符号化された画像のうち、該当する画像の該当する画素値を前景マッピング部507に入力する。前景マッピング部507は、点選択部501によって選択された点の座標情報と仮想カメラ情報に基づき、選択された点を仮想カメラの画像に射影し、対応する画素位置を算出する。前景マッピング部507は、算出された仮想カメラの画像における画素位置に、前景フレームバッファ506から入力された画素値を配置することによりテクスチャマッピングを行う。1つの点に対して画素値が複数ある場合は、例えばそれらの平均値をとることで該当する画素値が算出される。こうして仮想カメラから観察される3次元モデル上の全ての点についてテクスチャマッピングを行って得られたモデルを用いて、仮想視点カメラから見た画像(仮想視点画像)が生成される。仮想視点画像は、エンドユーザ端末190に送信され、表示される。
The
図5は、以上の様な構成を備えた合成器273の動作を表したフローチャートである。なお、本実施形態では、コントローラ280が画像処理システム100内のフロントエンドサーバ230やデータベース250等のワークフローを制御することにより、以下の制御が実現される。このことは、第2、第3実施形態も同様である。
FIG. 5 is a flowchart showing the operation of the
ステップS600からステップS608は処理のループを表し、3次元モデルを構成する点群のすべての点について処理を行うためのループである。ステップS601において、点選択部501は前景をテクスチャマッピングする対象となる点、すなわち3次元モデルを構成する点群の1つを選択する。ステップS602において、点選択部501により選択された点が仮想視点カメラから見えるか否かを判定する。選択された点が仮想視点カメラから見えないと判定された場合、処理はステップS608からステップS601に戻り、点選択部501は次の点を選択する。ステップS602において、選択された点が見えると判定された場合、処理はステップS603に進む。
Steps S600 to S608 represent a processing loop, which is a loop for performing processing on all points of the point group forming the three-dimensional model. In step S601, the
ステップS603において、前景フレーム選択部502は、データベース250から各カメラのカメラ設定情報を取得し、取得したカメラ設定情報に基づいて、選択された点をテクスチャマッピングするために利用可能な前景画像を選択する。ステップS604において、量子化パラメータ比較部505は、前景フレーム選択部502が選択した前景画像のフレームが複数あるか否かを判断する。選択された前景画像が1つしかないと判定された場合、処理はステップS605に進み、複数あると判定された場合、処理はステップS606に進む。
In step S603, the foreground
ステップS605において、量子化パラメータ比較部505は、前景フレーム選択部502によって選択された前景画像を撮影したカメラ識別子を取得する。ステップS606において、量子化パラメータ比較部505は、選択された複数の前景画像のそれぞれについての量子化パラメータを量子化パラメータメモリ504から読み出す。量子化パラメータ比較部505は、読み出した量子化パラメータを比較することにより最小の量子化パラメータを選択する。そして、量子化パラメータ比較部505は、最小の量子化パラメータで復号された前景画像を撮影したカメラのカメラ識別子を取得し、前景フレームバッファ506に通知する。
In step S <b> 605, the quantization
ステップS607において、前景フレームバッファ506は、量子化パラメータ比較部505から通知されたカメラ識別子に対応する前景画像の、選択された点の画素位置に対応する画素値を取得し、前景マッピング部507に出力する。前景マッピング部507は、前景フレームバッファ506から入力された画素値を、モデルバッファ500から取得した3次元モデル上の点選択部501が選択した点にマッピングする。その後、処理はステップS601に戻り、点選択部501は次の点を選択する。
In step S607, the
図3を用いて、上記処理についてさらに説明する。ここでは簡略化のために、カメラごとにフレーム単位で量子化パラメータが設定されるものとして説明する。カメラ112aで撮影された画像を符号化するためにエンコーダ121aが使用した量子化パラメータをQ1とする。同様に、エンコーダ121bで使用した量子化パラメータをQ2、エンコーダ121cで使用した量子化パラメータをQ3とする。この時、各量子化パラメータではQ1<Q2<Q3の関係があったとする。
The above processing will be further described with reference to FIG. Here, for the sake of simplicity, a description will be given assuming that the quantization parameter is set for each camera in frame units. The quantization parameter used by the
図3において、オブジェクト320に対する仮想視点画像の中の部分領域321内の点のテクスチャマッピングに使用できる前景画像は、カメラ112a〜112cにより撮影された画像である。この時、エンコーダ121aで用いられた量子化パラメータQ1が最小であるので、部分領域321に射影される点に対してカメラ112aにより撮影された画像が選択される。また、部分領域322内の点のテクスチャマッピングに使用できる前景画像はカメラ112bとカメラ112cの画像である。この場合、エンコーダ121bで用いられた量子化パラメータQ2が最小であるので、部分領域322に射影される点に対してカメラ112bにより撮影された画像が選択される。さらに、部分領域323内の点のテクスチャマッピングに使用できる前景画像は、カメラ112cによって撮影された画像のみである。したがって、部分領域323に射影される点に対してカメラ112cの画像が選択される。
In FIG. 3, foreground images that can be used for texture mapping of points in the
以上のようにして仮想視点画像生成に必要な点に対してマッピングが終了したら、本処理を終了する。その後、全ての点でテクスチャマッピングによって得られたモデルを用いて、仮想視点カメラからの見た画像を仮想視点画像の画像として画像コンピューティングサーバ200から送出する。生成された画像はエンドユーザ端末190に送られ、表示、閲覧される。
When the mapping for the points required for generating the virtual viewpoint image has been completed as described above, the present processing ends. Thereafter, using the models obtained by texture mapping at all points, the image viewed from the virtual viewpoint camera is transmitted from the
以上の世に、第1実施形態によれば、仮想視点画像の生成に関連して、複数のカメラの前景画像を用いる場合、符号化による劣化の少ない画像を符号化情報によって選択することができる。結果、画像から特徴量等の抽出を行わなくても、高画質な仮想視点画像を生成できる。 As described above, according to the first embodiment, when foreground images of a plurality of cameras are used in connection with generation of a virtual viewpoint image, an image with little deterioration due to encoding can be selected based on encoded information. As a result, a high-quality virtual viewpoint image can be generated without extracting a feature amount or the like from the image.
なお、本実施形態ではステップS604で前景画像が1枚のみの場合について判定を行ったが、これに限定されない。ステップS604、S605を省略して、量子化パラメータの読み出しが増えるが、1枚の場合でも最小の量子化パラメータの前景画像を選択しても構わない。 In the present embodiment, the determination is made in step S604 when there is only one foreground image, but the present invention is not limited to this. Steps S604 and S605 are omitted, and the readout of the quantization parameter increases. However, even in the case of one image, the foreground image having the minimum quantization parameter may be selected.
<変形例>
前景フレーム選択部502によって選択された前景画像の、テクスチャマッピングへの利用法の決定に関する変形例を説明する。上記第1実施形態では、3次元モデルの各点について、複数の前景画像のうちの1つを符号化情報に基づいて選択してテスクチャマッピングに用いるように決定する構成を説明した。これに対して変形例では、複数の前景画像から得られる画素値に符号化情報に基づいた重みづけを行って合成された画素値をテクスチャマッピングに用いる。このために、例えば、前景マッピング部507は、符号化情報に基づいて優先的に用いる画像(本例では量子化パラメータが最小の画像)と他の画像に分類し、それぞれに重みを設定して画素値を合成する。
<Modification>
A description will be given of a modified example of determining how to use the foreground image selected by the foreground
変形例による合成器273の構成について図4を流用して説明する。変形例では、図4において、量子化パラメータ比較部505と前景マッピング部507との間の接続が追加される。量子化パラメータ比較部505は、前景フレーム選択部502によって選択された前景画像を撮影したカメラの全台数と、それらのカメラのうち最小の量子化パラメータで符号化したカメラの台数とを前景マッピング部507に出力する。前景マッピング部507は、選択された前景画像を撮影したカメラの全台数と最小の量子化パラメータを持つカメラの台数とに応じて、それぞれのカメラに対応する前景画像の画素値に重み付けを行ってマッピングを行う。
The configuration of the
図6は変形例による合成器273の動作を示すフローチャートである。図5に示した処理と同様の処理を行うステップには、図5と同一のステップ番号を付してある。ステップS620において、量子化パラメータ比較部505は前景フレーム選択部502で選択された前景画像のフレームが複数か否かを判断する。1つと判定された場合、処理はステップS605に進み、複数と判定された場合、処理はステップS621に進む。
FIG. 6 is a flowchart showing the operation of the
ステップS621において、量子化パラメータ比較部505は、選択された前景画像を復号した際の量子化パラメータを量子化パラメータメモリ504から読み出す。量子化パラメータ比較部505は、読み出した量子化パラメータの比較を行うことにより最小の量子化パラメータを選択する。量子化パラメータ比較部505は、最小の量子化パラメータで復号された前景画像を撮影したカメラのカメラ識別子を取得するとともに、合成時の重み係数W0を決定する。例えば、重み係数W0は、前景フレーム選択部502によって選択された前景画像を撮影したカメラの台数をMとし、最小の量子化パラメータで復号された前景画像を撮影したカメラの台数をNとした場合に、係数αを用いて、
W0=α/((M−N)+Nα) ...(1)
により決定する。
In step S621, the quantization
W0 = α / ((M−N) + Nα) (1)
Determined by
また、ステップS622において、量子化パラメータ比較部505は、最小の量子化パラメータ以外の量子化パラメータで復号された前景画像に適用する重み係数W1を、例えば、
W1=1/((M−N)+Nα) ...(2)
により決定する。
In step S622, the quantization
W1 = 1 / ((M−N) + Nα) (2)
Determined by
なお、(1)式、(2)式において、係数αは1以上の値である。係数αは、予め決めておいてもよいし、量子化パラメータの最小値と最大値の差分値などに基づいて動的に決めても良い。例えば、差分値が大きければαの値を大きくし、差分値が小さければ値を小さくする。ただし、重み係数の決定方法はこれに限定されない。 In the expressions (1) and (2), the coefficient α is a value of 1 or more. The coefficient α may be determined in advance, or may be dynamically determined based on a difference value between the minimum value and the maximum value of the quantization parameter. For example, if the difference value is large, the value of α is increased, and if the difference value is small, the value is decreased. However, the method of determining the weight coefficient is not limited to this.
ステップS623において、前景マッピング部507はステップS621、S622で決定された重み係数を用いて、それぞれのカメラ識別子に基づいて読み出された画素値にこれらの重み係数を掛け、加重平均をとることで仮想視点画像の画素値を決定する。ステップS624において、前景マッピング部507は、ステップS605で選択された画素値、またはステップS623で合成された画素値を取得し、3次元モデルの選択されている点の位置にマッピングする。
In step S623, the
以上の構成と動作により、仮想視点画像の生成に関連して、複数のカメラからの前景画像を用いる場合、符号化による劣化の少ない画像を優先して生成することにより、画像から特徴量等の抽出を行わなくても、高画質な仮想視点画像を生成できる。 With the above-described configuration and operation, when foreground images from a plurality of cameras are used in connection with generation of a virtual viewpoint image, an image with little deterioration due to encoding is preferentially generated, so that features such as feature amounts can be obtained from the image. A high-quality virtual viewpoint image can be generated without performing extraction.
なお、上記のフローチャートでは重み係数を最小の量子化パラメータか否かで2つに分けたがこれに限定されない。量子化パラメータの最小の画像が最大の重み係数になるようにして、そのほかの画像の重み係数を量子化パラメータの大きさに応じて決定しても良い。また、選択された前景画像の分類は、符号化モードに基づいて行われてもよい。また、上述の実施形態では、データベース250が画角351から見た仮想視点画像を生成するために必要な画像を各センサシステム110の撮影した画像から選択したがこれに限定されない。前景フレーム選択部502が選択した結果を用いて、バックエンドサーバ270がデータベース250から必要な画像を選択して読み出すようにしても良い。
In the above flowchart, the weight coefficient is divided into two depending on whether it is the minimum quantization parameter, but the present invention is not limited to this. The image with the smallest quantization parameter may be the largest weighting factor, and the weighting factors of other images may be determined according to the magnitude of the quantization parameter. The classification of the selected foreground image may be performed based on the encoding mode. Further, in the above-described embodiment, the image necessary for the
なお、上述の実施形態は、画像処理システム100が競技場やコンサートホールなどの施設に設置される場合の例を中心に説明した。施設の他の例としては、例えば、遊園地、公園、競馬場、競輪場、カジノ、プール、スケートリンク、スキー場、ライブハウスなどがある。また、各種施設で行われるイベントは、屋内で行われるものであっても屋外で行われるものであっても良い。また、本実施形態における施設は、一時的に(期間限定で)建設される施設も含む。
In the above-described embodiment, an example in which the
<第2実施形態>
第1実施形態では、符号化情報に基づいてテクスチャマッピングに用いる前景画像を決定する構成を、符号化情報としての量子化パラメータに基づいて決定する場合を例に挙げて説明した。第2実施形態では、符号化情報のうちの符号化方式に基づいてテクスチャマッピングに用いる前景画像を決定する構成を説明する。
<Second embodiment>
In the first embodiment, the configuration for determining the foreground image to be used for texture mapping based on the encoding information has been described using an example in which the configuration is determined based on the quantization parameter as the encoding information. In the second embodiment, a configuration will be described in which a foreground image to be used for texture mapping is determined based on an encoding method of encoded information.
図7は、第2実施形態による画像処理システム100の構成例を示すブロック図である。図7において図1と同じ機能を有するブロックには同一の参照番号を付してある。図7において、エンキャプセレータ210a、210bは、それぞれ、デコーダ271a、271bを備える。デコーダ271a、271bは図1のデコーダ271の機能に加え、復号した画像データと符号化情報をフロントエンドサーバ230aに出力する。フロントエンドサーバ230aは、モデル生成器272aを備える。モデル生成器272aは図1のモデル生成器272の機能に加え、エンキャプセレータ210a、210bから前景画像の画像データと符号化情報を取得する機能、3次元モデルをデータベース250aに出力する機能を有する。データベース250aは第1実施形態のデータベース250の機能に加えて、3次元モデルをフレーム単位で格納する機能を有する。バックエンドサーバ270aは第1実施形態のバックエンドサーバ270とは異なり、3次元モデルの生成は行わず、3次元モデルをデータベース250aから読み込む。
FIG. 7 is a block diagram illustrating a configuration example of an
上述の構成での仮想視点画像生成処理について説明する。第1実施形態と同様に、センサシステム110において、カメラ112が画像を撮影し、エンコーダ121はその画像を符号化して符号化情報とともに出力する。エンコーダ121は、伝送されてくる符号データのデータ量、カメラ112から入力される画像の特徴から符号化モードを調整して符号化を行う。 The virtual viewpoint image generation processing in the above configuration will be described. As in the first embodiment, in the sensor system 110, the camera 112 captures an image, and the encoder 121 encodes the image and outputs the encoded image together with the encoded information. The encoder 121 performs encoding by adjusting the encoding mode based on the amount of transmitted encoded data and the characteristics of an image input from the camera 112.
例えば、H.264符号化方式においては、マクロブロック単位で、マクロブロックモードを設定することが可能である。マクロブロックレイヤの先頭にはmb_typeがあり、マクロブロックの符号化モードを定義する。マクロブロックの符号化モードにはフレーム内予測を行うIntraモード、フレーム間予測を行うInterモードがある。さらに、Intraモードの中にはブロックの係数をそのままPCM符号化するI_PCMモードがある。I_PCMモードは符号化が難しい細かいテクスチャがある場合に用いられ、画素値がそのまま符号化される。このため、I_PCMモードは、劣化がないロスレスによる符号化を行うこともでき、符号量は大きいが画質が優れている。 For example, H. In the H.264 coding method, a macroblock mode can be set in macroblock units. At the top of the macroblock layer is mb_type, which defines the coding mode of the macroblock. Macroblock coding modes include an intra mode for performing intra-frame prediction and an inter mode for performing inter-frame prediction. Further, among the Intra modes, there is an I_PCM mode in which coefficients of a block are directly subjected to PCM coding. The I_PCM mode is used when there is a fine texture that is difficult to encode, and the pixel value is encoded as it is. For this reason, the I_PCM mode can perform lossless encoding without deterioration, and has a large code amount but excellent image quality.
エンコーダ121はこれらの符号化モードと量子化パラメータを制御して変換係数の量子化を行い、符号量を調整する。また、符号化情報として使われた符号化モードは前述の符号を用いて符号化される。符号化によって得られた符号データはパケット化され、ネットワーク170、スイッチングハブ180を介して画像コンピューティングサーバ200に送信される。
The encoder 121 controls these encoding modes and quantization parameters to quantize the transform coefficients and adjust the code amount. The encoding mode used as the encoding information is encoded using the above-described code. The encoded data obtained by the encoding is packetized and transmitted to the
画像コンピューティングサーバ200は、各センサシステム110から撮影された画像データの符号データをエンキャプセレータ210で受信する。エンキャプセレータ210a、210bは、受信したデータが画像であれば、パケット化された符号データをデコーダ271a、271bで復号し、再生された画像データを1フレーム単位でまとめて、フロントエンドサーバ230aに出力する。また、エンキャプセレータ210a、210bは符号化情報をフロントエンドサーバ230aに出力する。ここでは、符号化情報は画像データにメタ情報として添付されて出力される。符号化情報には、マクロブロック単位での量子化パラメータ、符号化モードが含まれる。ただし、符号化情報の出力の方法は上記に限定されるものではなく、例えば画像データとは別データとして出力し、別管理を行うようにしても構わない。
The
フロントエンドサーバ230aは、エンキャプセレータ210a、210bから画像データと符号化情報を取得する。モデル生成器272aは、画像データを時間単位で集約して3次元モデルの生成を行う。すなわち、モデル生成器272aは、同じ時刻の各センサシステムの画像から3次元モデルの生成を行う。3次元モデルの生成方法は第1実施形態のモデル生成器272と同様である。生成された3次元モデルは復号された前景画像データ、符号化情報とともにデータベース250aに格納される。第1実施形態と同様に、センサシステム110のカメラ112を特定するためのカメラ識別子や同期のためのフレームの時刻などの情報が付加される。データベース250aは各時刻の3次元モデル、復号された前景画像データ、符号化情報を格納する。
The front-
ユーザは仮想カメラ操作UI282を用いて仮想カメラ情報を設定する。設定された仮想カメラ情報はデータベース250a及びバックエンドサーバ270aに出力される。データベース250aは、第1実施形態と同様に、仮想カメラから見た仮想視点画像を生成するために必要な前景画像を、カメラの位置および画角と3次元モデルに基づいて選択する。データベース250aは、選択した前景画像を時刻ごとにバックエンドサーバ270aに出力する。バックエンドサーバ270aにおいて、入力された符号化情報、復号された前景画像データ、3次元モデルは合成器273aに入力される。
The user sets virtual camera information using the virtual
図8は第2実施形態による合成器273aの詳細な機能構成例を示すブロック図である。図8において、第1実施形態(図4)と同様の機能を有するブロックには同一の参照番号を付してある。 FIG. 8 is a block diagram illustrating a detailed functional configuration example of the synthesizer 273a according to the second embodiment. 8, blocks having the same functions as those in the first embodiment (FIG. 4) are denoted by the same reference numerals.
符号化情報バッファ810は、データベース250aから入力された符号化情報をフレームごとに格納する。符号化情報は、フレームに含まれるマクロブロック単位の符号化モード、量子化パラメータを含む。符号化モード抽出部811は符号化情報バッファ810に格納されている符号化情報から符号化モードをフレーム単位で抽出し、符号化モードメモリ812に格納する。符号化モード比較部813は前景フレーム選択部502により選択された前景フレームの、点選択部501により選択された点に対応する画素についての符号化モードを符号化モードメモリ812から読み出し比較する。
The encoding information buffer 810 stores the encoding information input from the
前景画素選択部814は、前景フレーム選択部502による前景画像の選択状態、符号化モード比較部813の比較結果と量子化パラメータ比較部505の比較結果に基づいてマッピングに使用する前景画像と画素を選択する。前景画素選択部814は、前景フレーム選択部502により選択された前景画像が1枚の場合は、当該前景画像の選択された点に対応する画素をテクスチャマッピングに利用する画素として選択する。他方、前景フレーム選択部502により複数の前景画像が選択された場合、前景画素選択部814は、量子化パラメータ比較部505と符号化モード比較部813の比較結果に基づいてカメラ識別子と、選択された点に対応する画素位置を選択する。前景フレームバッファ506は、前景画素選択部814により選択された前景画像の画素値を前景マッピング部507aと画素合成部806へ提供する。画素合成部806は選択された画素値が複数の場合に、これらの画素値を合成して、マッピング処理に用いる画素値を生成する。画素合成部806における合成方法の詳細は後述する。
The foreground
前景マッピング部507aは、点選択部501から入力された点の座標情報と仮想カメラ情報に基づいて、点選択部501により選択された点を仮想カメラの画像に射影し、対応する画素位置を算出する。また、前景マッピング部507aは、算出された仮想カメラの画素位置に、前景フレームバッファ506から読み出された画素値または画素合成部806で合成された画素値をマッピングする。
The
図9は、第2実施形態による合成器273aの動作を表したフローチャートである。なお、図9において、第1実施形態(図5)およびその変形例(図6)と同様の処理を行うステップには同一の参照番号を付してある。ステップS600からステップS608は処理のループを表し、3次元モデルを構成する点群のすべての点について処理を行うためのループである。ループにおいては、すべての点群を行う方法と、見えている点群を判別して選択する方法があるがこれらについては特に限定しない。 FIG. 9 is a flowchart showing the operation of the synthesizer 273a according to the second embodiment. In FIG. 9, steps for performing the same processing as in the first embodiment (FIG. 5) and its modification (FIG. 6) are denoted by the same reference numerals. Steps S600 to S608 represent a processing loop, which is a loop for performing processing on all points of the point group forming the three-dimensional model. In the loop, there are a method of performing all the point groups and a method of determining and selecting a visible point group, but these are not particularly limited.
ステップS900において、前景フレーム選択部502は、ステップS603で選択された前景画像が1枚か否かを判断し、その結果を量子化パラメータ比較部505、符号化モード比較部813に出力する。選択された前景画像が1つの場合、処理はステップS605に進み、選択された前景画像が複数の場合、処理はステップS901に進む。ステップS605において、選択された前景画像の画素が選択される。すなわち、前景画素選択部814は、選択された前景画像の選択された点に対応する画素位置を前景フレームバッファ506に提供し、前景フレームバッファ506はその画素値を前景マッピング部507aに出力する。
In step S900, the foreground
ステップS901において、符号化モード比較部813は符号化モードメモリ812から、ステップS603で選択された前景画像における、選択された点に対応する画素を復号した際の符号化モードを読み出す。符号化モード比較部813は、選択された点に対応する画素の符号化モードがI_PCMモードである前景画像が存在するか否かを判定する。ステップS901においてそのような前景画像が存在すると判定された場合、処理はステップS902に進み、そのような前景画像が存在しないと判定された場合、処理はステップS606に進む。
In step S901, the encoding
ステップS606では、量子化パラメータ比較部505が量子化パラメータの比較を行い、最小の量子化パラメータで復号された前景画像のカメラ識別子を前景画素選択部814に入力する。前景画素選択部814は、カメラ識別子とその画素位置に基づいて前景フレームバッファ506からテクスチャマッピングに利用する前景画像の画素値を選択する。ステップS902において、前景画素選択部814は、選択された点に対応する画素の符号化モードがI_PCMモードである前景画像が複数存在するか否かを判断する。そのような前景画像が1つしかない場合、処理はステップS903に進み、そのような前景画像が複数ある場合、処理はステップS904に進む。
In step S606, the quantization
ステップS903において、前景画素選択部814は、選択された点に対応する画素がI_PCMモードで復号された前景画像を撮影したカメラのカメラ識別子に基づいて前景フレームバッファ506からテクスチャマッピングに利用する前景画像の画素を選択する。他方、ステップS904において、前景画素選択部814は、選択された点に対応する画素がI_PCMモードで復号された複数の前景画像について、該当する全てのカメラ識別子を取得する。前景画素選択部814は、取得した複数のカメラ識別子と選択された点に対応する画素位置に基づいて、前景フレームバッファ506から複数の画素を選択する。画素合成部806は、選択された複数の画素を合成する。画素合成部806による合成の方法には、例えば、複数の画素値の加算平均を用いることができる。
In step S903, the foreground
ステップS624において、ステップS605、ステップS606、ステップS903で選択された画素の画素値、またはステップS904で合成された画素値を用いて、3次元モデルへのテクスチャマッピングを行う。 In step S624, texture mapping to a three-dimensional model is performed using the pixel values of the pixels selected in steps S605, S606, and S903, or the pixel values synthesized in step S904.
以上のように、第2実施形態によれば、仮想視点画像の生成に複数の前景画像を用いる場合、符号化による劣化の少ない前景画像が優先して選択されるため、画像から特徴量等の抽出を行わなくても高画質な仮想視点画像を生成することができる。 As described above, according to the second embodiment, when a plurality of foreground images are used to generate a virtual viewpoint image, a foreground image with little deterioration due to encoding is preferentially selected. A high-quality virtual viewpoint image can be generated without performing extraction.
なお、第2実施形態では符号量の調整を符号化モードと量子化パラメータの両方を用いて行ったが、これに限定されない。用いる前景画像データでI_PCMモードの画素を優先的に使い、もし、I_PCMモードの画素がなければそれ以外の符号化モードの画素の平均値を用いても構わない。 In the second embodiment, the code amount is adjusted using both the coding mode and the quantization parameter. However, the present invention is not limited to this. The pixels in the I_PCM mode are preferentially used in the foreground image data to be used, and if there are no pixels in the I_PCM mode, the average value of the pixels in the other encoding modes may be used.
また、第2実施形態では比較する符号化モードをI_PCMモードとそれ以外としたがこれに限定されない。一般的にIntraモードの復号画像の方がInterモードの復号画像より高画質であることが知られている。Interモードでは符号化劣化がある画像から予測を行うため、符号化の誤差が蓄積しやすく、画質が低い傾向がある。したがって、Intraモードの符号号画像を優先的に使用しても良い。 Further, in the second embodiment, the encoding modes to be compared are set to the I_PCM mode and the other modes, but the present invention is not limited to this. It is generally known that a decoded image in the Intra mode has higher image quality than a decoded image in the Inter mode. In the Inter mode, since prediction is performed from an image having coding deterioration, coding errors tend to accumulate and image quality tends to be low. Therefore, the code image in the Intra mode may be preferentially used.
また、第2実施形態において、デコーダ271をエンキャプセレータ210に含めたがこれに限定されず、例えば、第1実施形態のようにバックエンドサーバ270に含めても構わない。さらに、第2実施形態のステップS904において、画素値の合成を行ったが、その際に、第1実施形態の変形例で説明したような重みづけを行ってもよい。
In the second embodiment, the
<第3実施形態>
第2実施形態では、符号化情報のうちの符号化方式(符号化モード)に基づいてテクスチャマッピングに用いる前景画像を決定する構成を説明した。第3実施形態では、さらに画像中の被写体とカメラとの距離に基づいてテクスチャマッピングに用いる前景画像を選択する構成を説明する。
<Third embodiment>
In the second embodiment, a configuration has been described in which a foreground image to be used for texture mapping is determined based on an encoding method (encoding mode) of encoded information. In the third embodiment, a configuration will be described in which a foreground image used for texture mapping is further selected based on a distance between a camera and a subject in the image.
図10は、第3実施形態による画像処理システム100の構成例を示すブロック図である。同図において、第1実施形態(図1)、もしくは第2実施形態(図7)と同様の機能を有するブロックについては同一の参照番号を付してある。データベース250bは、各カメラのカメラ設定情報を格納するカメラ設定情報記憶部251を有する。カメラ設定情報は、カメラの識別子で識別されるカメラの位置、方向、画角の少なくとも1つを含む。バックエンドサーバ270bは、データベース250bのカメラ設定情報記憶部251からカメラ設定情報を読み込む。
FIG. 10 is a block diagram illustrating a configuration example of an
次に、第3実施形態による仮想視点画像の生成処理について説明する。第1実施形態および第2実施形態と同様に、第3実施形態においても、センサシステム110のカメラ112が画像を撮影し、エンコーダ121がカメラ112の撮影した画像を符号化し、符号化された画像と符号化情報を出力する。ただし、第3実施形態では、他のセンサシステムから伝送されてくる符号データのデータ量、カメラ112から入力される画像の特徴から符号化モードを調整して符号化を行う。エンコーダ121はこれらの符号化モードと量子化パラメータを制御して変換係数の量子化を行い、符号量を調整する。また、符号化情報として、使用した符号化モードは前述の符号を用いて符号化される。符号化によって得られた符号データはパケット化され、ネットワーク170、スイッチングハブ180を介して画像コンピューティングサーバ200に送信される。
Next, generation processing of a virtual viewpoint image according to the third embodiment will be described. As in the first and second embodiments, also in the third embodiment, the camera 112 of the sensor system 110 captures an image, the encoder 121 encodes the image captured by the camera 112, and encodes the encoded image. And the encoded information is output. However, in the third embodiment, encoding is performed by adjusting the encoding mode based on the data amount of encoded data transmitted from another sensor system and the characteristics of an image input from the camera 112. The encoder 121 controls these encoding modes and quantization parameters to quantize the transform coefficients and adjust the code amount. The encoding mode used is encoded using the above-described code as the encoding information. The encoded data obtained by the encoding is packetized and transmitted to the
画像コンピューティングサーバ200のエンキャプセレータ210a、210bは、センサシステム110から、符号化された画像データを含む符号データを受信する。エンキャプセレータ210a、210bは受信した符号データが画像であれば、パケット化された符号データをデコーダ271a、271bで復号し、再生された画像データを1フレーム単位でまとめて、フロントエンドサーバ230aに出力する。
The
フロントエンドサーバ230aは画像データと符号化情報を読み込み、モデル生成器272aは画像データを時間単位で集約して3次元モデルの生成を行う。生成された3次元モデルは復号された前景画像、符号化情報とともにデータベース250bに格納される。また、モデル生成器272aは、3次元モデルのスタジアム内の位置情報(オブジェクト位置情報と称す)をデータベース250bに出力する。第2実施形態と同様に、センサシステム110のカメラ112を特定するためのカメラ識別子や同期のためのフレーム時刻などの情報が付加される。また、データベース250bはカメラ設定情報を取得し、カメラ設定情報記憶部251に格納する。データベース250bは各時刻の3次元モデルと、各カメラの各時刻の復号された前景画像データ、符号化情報、及び、カメラ設定情報を格納する。
The front-
ユーザは仮想カメラ操作UI282を用いて仮想カメラ情報を設定する。設定された仮想カメラ情報はデータベース250b及びバックエンドサーバ270bに出力される。データベース250bでは、第2実施形態と同様に、仮想カメラから見た仮想視点画像を生成するために必要な前景画像が、3次元モデル、仮想カメラ情報、カメラ設定情報に基づいて選択される。データベース250bはこれらのデータを時刻ごとにバックエンドサーバ270bに出力する。
The user sets virtual camera information using the virtual
バックエンドサーバ270bに入力された符号化情報、復号された前景画像、3次元モデルは合成器273bに入力される。また、バックエンドサーバ270bは、テクスチャマッピングに用いる前景画像を撮影したセンサシステム110のカメラ設定情報(カメラの位置情報)を、データベース250bのカメラ設定情報記憶部251から読み出しておく。なお、カメラ設定情報記憶部251がバックエンドサーバ270bに含まれていても良い。
The encoded information input to the back-
第3実施形態による合成器273bの詳細なブロック図を図11に示す。図11において、第1実施形態(図4)および第2実施形態(図7)と同様の機能を有するブロックには同一の参照番号を付してある。
FIG. 11 is a detailed block diagram of the
モデルバッファ500aは入力された3次元モデルをフレームごとに格納する。その際に3次元モデルのオブジェクト位置情報もフレーム単位で格納する。距離演算部1101はデータベース250bのカメラ設定情報記憶部251から各カメラの位置情報を入力し、カメラの位置情報とオブジェクト位置情報とを用いて、それぞれのカメラとオブジェクトの距離を算出する。前景画素選択部814aは符号化モード比較部813、量子化パラメータ比較部505、距離演算部1101の比較結果に基づいてマッピングに使用する前景画像の画素を選択する。画素の選択方法の詳細は後述する。前景画素選択部814aは比較結果に基づいて選択された前景画像のカメラ識別子と、前景画像における選択された点に対応する画素位置の画素値を前景フレームバッファ506から選択する。前景フレームバッファ506は、選択された画素値を前景マッピング部507bに出力する。
The
図12は、第3実施形態による合成器273bの動作を表したフローチャートである。図12において、第1実施形態(図5)、第2実施形態(図9)と同様の処理を行うステップには同一のステップ番号を付してある。
FIG. 12 is a flowchart showing the operation of the
ステップS600からステップS608は処理のループを表す。このループは、3次元モデルを構成する点群のすべての点の処理を行うためのループである。ループにおいては、すべての点群を行う方法と、見えている点群を判別して選択する方法があるがこれらについては特に限定しない。 Steps S600 to S608 represent a processing loop. This loop is a loop for processing all points of the point group forming the three-dimensional model. In the loop, there are a method of performing all the point groups and a method of determining and selecting a visible point group, but these are not particularly limited.
ステップS902において、前景画素選択部814aは、ステップS603で選択された前景画像のうち、選択された点に対応する画素の符号化モードがI_PCMモードである前景画像が複数あるか否かを判断する。ステップS902において、そのような前景画像が1つしかないと判断された場合、処理はステップS903に進み、複数あると判断された場合、処理はステップS1204に進む。
In step S902, the foreground
ステップS1204において、前景画素選択部814aは、3次元モデルの選択された点との距離が最も近いカメラにより撮影された前景画像の画素を選択する。ステップS1204の処理について、より詳細に説明する。前景フレーム選択部502は、ステップS603で選択した前景画像を取得したカメラのカメラ識別子と点選択部501が選択した3次元モデルの点を距離演算部1101に通知する。距離演算部1101は、カメラ識別子で特定されるカメラの位置情報をカメラ設定情報記憶部251から取得する。また、距離演算部1101はモデルバッファ500aに保持されているオブジェクト位置情報から、3次元モデルの選択された点の位置を取得する。距離演算部1101は、オブジェクト位置情報から取得した点の位置と、カメラの位置情報とからそれらの間の距離を算出し、その算出結果を前景画素選択部814aに出力する。前景画素選択部814aは、距離演算部1101により算出された距離が最も短いカメラ(選択された点に最も近いカメラ)により撮影された前景画像の、選択された点に対応する画素を選択する。前景フレームバッファ506は、前景画素選択部814aが選択した画素を前景マッピング部507bに提供する。
In step S1204, the foreground
ステップS607において、前景マッピング部507bは、点選択部501から入力された点の座標情報と仮想カメラ情報に基づき、点を仮想カメラの画像に射影し、出力する画像の画素位置を算出する。算出された仮想カメラの画素位置に、前景マッピング部507bは、前景フレームバッファ506から提供される画素値をテクスチャマッピングする。
In step S607, the
以上の構成と動作により、仮想視点画像の生成に関連して、複数のカメラからの前景画像を用いる場合、符号化モードで符号化による劣化の少ない画像を選択して生成することにより、画像から特徴量等の抽出を行わなくても高画質な仮想視点画像を生成できる。また、同じ品質の前景画像が存在した場合、距離が近い方を選択することにより、ボケによる解像度の低下の少ない画像を選択することで、より高画質な仮想視点画像を生成できる。 With the above configuration and operation, in the case of using foreground images from a plurality of cameras in connection with the generation of a virtual viewpoint image, by selecting and generating an image with little deterioration due to encoding in the encoding mode, A high-quality virtual viewpoint image can be generated without extracting a feature amount or the like. In addition, when foreground images of the same quality are present, a higher-quality virtual viewpoint image can be generated by selecting an image having a smaller resolution due to blurring by selecting a closer distance.
<変形例>
第3実施形態では、カメラと選択された点との距離を用いてテクスチャマッピングに利用する前景画像を選択する構成を設けている。このような、距離に基づく前景画像の選択は、例えば、第1実施形態で説明した量子化パラメータに基づく前景画像の選択にも適用できる。図14は、変形例による合成器273bの動作を表したフローチャートである。ここでは、距離情報と符号化モード、符号化パラメータに基づいて、画像を選択する方法について示す。従って、合成器273bの機能構成は図11と同様であるが、符号化モード抽出部811、符号化モードメモリ812、符号化モード比較部813は省略可能である。
<Modification>
In the third embodiment, a configuration is provided in which a foreground image used for texture mapping is selected using the distance between a camera and a selected point. Such selection of the foreground image based on the distance can be applied to, for example, selection of the foreground image based on the quantization parameter described in the first embodiment. FIG. 14 is a flowchart showing the operation of the
ステップS1401において、前景画素選択部814aは、距離演算部1101の演算結果と量子化パラメータ比較部505の比較結果から、量子化パラメータが最小である前景画像と、選択された点とカメラの距離が最小である(最近距離の)前景画像を選択する。ステップS1402において、前景画素選択部814aは、量子化パラメータが最小である前景画像と最近距離の前景画像について、カメラと選択された点との距離を距離演算部1101から取得する。図13はオブジェクト320の点とカメラ112a、112bの位置関係の例を示す図である。オブジェクト320上の点とカメラ112aとの距離をdA、カメラ112bとの距離をdBとする。距離演算部1101はこれらの距離dA、dBをオブジェクトの点の位置とカメラ位置情報から算出する。ここでは、距離dAが最近距離の前景画像におけるカメラと点との距離であり、距離dBが最小の量子化パラメータを有する前景画像におけるカメラと点との距離であるとする。
In step S1401, the foreground
ステップS1403において、前景画素選択部814aはこれらの距離dA、dBとあらかじめ決められた係数βの比較を行う。より具体的には、dA/dBの値と係数βを比較し、dA/dBの値の値が係数βより小さい場合はステップS1405に進み、そうでない場合はステップS1404に進む。ステップS1404において、前景画素選択部814aは、量子化パラメータが最小である前景画像の画素を選択する。ステップS1405において、前景画素選択部814aは、最近距離の前景画像の画素を選択する。ステップS607で、前景マッピング部507aは、ステップS605、S1404、S1405のいずれかで選択された画素の画素値を用いて、仮想視点画像の画素値をマッピングする。
In step S1403, the foreground
以上の構成と動作により、高画質な前景画像が複数存在した場合でも、距離が近い方を選択することにより、ボケによる解像度の低下の少ない画像を選択することで、より高画質な仮想視点画像を生成できる。 With the above configuration and operation, even when there are a plurality of high-quality foreground images, by selecting an image having a shorter distance and selecting an image with less reduction in resolution due to blurring, a higher-quality virtual viewpoint image can be obtained. Can be generated.
なお、第2、第3実施形態では符号量の調整を符号化モードと量子化パラメータの両方を用いて行ったが、これに限定されない。用いる前景画像データでI_PCMモードの画素を優先的に使い、もし、I_PCMモードの画素がなければそれ以外の符号化モードの画素の平均値を用いるようにしてもよい。また、第2、第3実施形態において、デコーダ271a、271bをエンキャプセレータ210a、210bに含めたがこれに限定されず、例えば第1実施形態のようにバックエンドサーバ270に含めても構わない。また、画素合成部806(第2実施形態)による画素値の合成において、距離演算部1101(第3実施形態)で算出された距離情報に応じた加重平均が用いられてもよい。
In the second and third embodiments, the code amount is adjusted using both the coding mode and the quantization parameter, but the present invention is not limited to this. The pixels in the I_PCM mode may be preferentially used in the foreground image data to be used, and if there is no pixel in the I_PCM mode, the average value of the pixels in the other encoding modes may be used. In the second and third embodiments, the
<その他の実施形態>
本発明は、上述の実施形態の1以上の機能を実現するプログラムを、ネットワーク又は記憶媒体を介してシステム又は装置に供給し、そのシステム又は装置のコンピュータにおける1つ以上のプロセッサーがプログラムを読出し実行する処理でも実現可能である。また、1以上の機能を実現する回路(例えば、ASIC)によっても実現可能である。
<Other embodiments>
The present invention supplies a program for realizing one or more functions of the above-described embodiments to a system or an apparatus via a network or a storage medium, and one or more processors in a computer of the system or the apparatus read and execute the program. This processing can be realized. Further, it can also be realized by a circuit (for example, an ASIC) that realizes one or more functions.
以上、上述した実施形態によれば、カメラ112の台数などのシステムを構成する装置の規模、及び撮影画像の出力解像度や出力フレームレートなどに依らず、仮想視点画像を簡便に生成することが出来る。以上、本発明の実施形態について詳述したが、本発明は上述の実施形態に限定されるものではなく、特許請求の範囲に記載された本発明の要旨の範囲内において、種々の変形及び変更が可能である。 As described above, according to the above-described embodiment, it is possible to easily generate a virtual viewpoint image regardless of the scale of a device configuring the system such as the number of cameras 112, the output resolution of a captured image, the output frame rate, and the like. . As described above, the embodiments of the present invention have been described in detail. However, the present invention is not limited to the above embodiments, and various modifications and changes may be made within the scope of the present invention described in the appended claims. Is possible.
本発明は、上述の実施形態の1以上の機能を実現するプログラムを、ネットワーク又は記憶媒体を介してシステム又は装置に供給し、そのシステム又は装置のコンピュータにおける1つ以上のプロセッサーがプログラムを読出し実行する処理でも実現可能である。また、1以上の機能を実現する回路(例えば、ASIC)によっても実現可能である。 The present invention supplies a program for realizing one or more functions of the above-described embodiments to a system or an apparatus via a network or a storage medium, and one or more processors in a computer of the system or the apparatus read and execute the program. This process can be realized. Further, it can also be realized by a circuit (for example, an ASIC) that realizes one or more functions.
110:センサシステム、111:マイク、112:カメラ、113:雲台、120:カメラアダプタ、121::エンコーダ、180:スイッチングハブ、190:エンドユーザ端末、230、930:フロントエンドサーバ、250:データベース 110: Sensor system, 111: Microphone, 112: Camera, 113: Head, 120: Camera adapter, 121: Encoder, 180: Switching hub, 190: End user terminal, 230, 930: Front end server, 250: Database
Claims (19)
前記仮想視点と前記複数のカメラの位置関係に基づいて、前記複数の画像から前記仮想視点画像の部分のテクスチャマッピングに利用可能な画像を選択する選択手段と、
前記選択手段により選択された画像に用いられた符号化を表す符号化情報に基づいて、前記選択された画像の前記テクスチャマッピングへの利用法を決定する決定手段と、
前記決定手段により決定された利用法に従って前記選択された画像を用いてテクスチャマッピングを実行し、前記仮想視点画像の前記部分の画像を生成する生成手段と、を備えることを特徴とする画像処理装置。 An image processing apparatus that generates a virtual viewpoint image observed from a virtual viewpoint using a plurality of images obtained from a plurality of cameras,
Selection means for selecting an image available for texture mapping of a portion of the virtual viewpoint image from the plurality of images, based on a positional relationship between the virtual viewpoint and the plurality of cameras,
Determining means for determining how to use the selected image for the texture mapping based on encoding information representing the encoding used for the image selected by the selecting means,
Generating means for executing texture mapping using the selected image in accordance with the usage determined by the determining means, and generating an image of the portion of the virtual viewpoint image. .
前記決定手段は、前記選択手段により選択された画像のうち量子化パラメータが最も小さい画像を用いるように、前記テクスチャマッピングに用いる画像を決定することを特徴とする請求項4に記載の画像処理装置。 The encoding information includes a quantization parameter,
The image processing apparatus according to claim 4, wherein the determining unit determines an image to be used for the texture mapping such that an image having the smallest quantization parameter among the images selected by the selecting unit is used. .
前記決定手段は、前記符号化モードがロスレスである画像を用いるように、前記テクスチャマッピングに用いる画像を決定することを特徴とする請求項4に記載の画像処理装置。 The encoding information includes an encoding mode indicating whether or not lossless,
The image processing apparatus according to claim 4, wherein the determining unit determines an image to be used for the texture mapping such that an image whose encoding mode is lossless is used.
前記決定手段は、前記符号化モードがIntraモードを示す画像を用いるように、前記テクスチャマッピングに用いる画像を決定することを特徴とする請求項4に記載の画像処理装置。 The coding information includes a coding mode indicating whether the mode is an Intra mode or an Inter mode,
The image processing apparatus according to claim 4, wherein the determining unit determines an image to be used for the texture mapping such that an image indicating that the encoding mode is Intra mode is used.
前記決定手段は、前記符号化モードがI_PCMモードを示す画像を用いるように、前記テクスチャマッピングに用いる画像を決定することを特徴とする請求項7に記載の画像処理装置。 The encoding information indicates whether the encoding mode is the Intra mode and whether the encoding mode is the I_PCM mode.
The image processing apparatus according to claim 7, wherein the determining unit determines an image to be used for the texture mapping such that an image indicating that the encoding mode is the I_PCM mode is used.
前記生成手段は、前記決定手段により決定された重みを用いて前記複数の選択された画像の画素値を合成して得られた画素値を用いて前記テクスチャマッピングを行う、ことを特徴とする請求項1乃至3のいずれか1項に記載の画像処理装置。 The determining unit, when a plurality of selected images are obtained by the selecting unit, determines the weight of the plurality of selected images based on the encoding information,
The method according to claim 1, wherein the generation unit performs the texture mapping using a pixel value obtained by combining pixel values of the plurality of selected images using a weight determined by the determination unit. Item 4. The image processing device according to any one of Items 1 to 3.
W0=α/((M−N)+Nα)
W1=1/((M−N)+Nα)
により決定することを特徴とする請求項9に記載の画像処理装置。 The determining means classifies the image to be used preferentially and other images based on the coding information, and sets the number of the plurality of selected images to M, the number of images to be used preferentially to N, and a predetermined coefficient. Is α, the weight W0 of the preferentially used image and the weight W1 of the other image are
W0 = α / ((M−N) + Nα)
W1 = 1 / ((M−N) + Nα)
The image processing apparatus according to claim 9, wherein:
前記決定手段は、前記複数の選択された画像の中で最小の量子化パラメータを有する画像を前記優先的に用いる画像に分類する、ことを特徴とする請求項10に記載の画像処理装置。 The encoding information includes a quantization parameter,
The image processing apparatus according to claim 10, wherein the determining unit classifies an image having a minimum quantization parameter among the plurality of selected images into an image to be used preferentially.
前記決定手段は、符号化モードがIntraモードの画像を前記優先的に用いる画像に分類する、ことを特徴とする請求項10に記載の画像処理装置。 The encoding information includes information indicating whether an encoding mode is an Intra mode,
The image processing apparatus according to claim 10, wherein the determination unit classifies an image in an Intra mode as an encoding mode into the image to be used preferentially.
前記仮想視点と前記複数のカメラの位置関係に基づいて、前記複数の画像から前記仮想視点画像の部分のテクスチャマッピングに利用可能な画像を選択する選択工程と、
前記選択工程により選択された画像に用いられた符号化を表す符号化情報に基づいて、前記選択された画像の前記テクスチャマッピングへの利用法を決定する決定工程と、
前記決定工程により決定された利用法に従って前記選択された画像を用いてテクスチャマッピングを実行し、前記仮想視点画像の前記部分の画像を生成する生成工程と、を備えることを特徴とする画像処理装置の制御方法。 A method of controlling an image processing apparatus that generates a virtual viewpoint image observed from a virtual viewpoint using a plurality of images obtained from a plurality of cameras,
A selection step of selecting an image available for texture mapping of a portion of the virtual viewpoint image from the plurality of images, based on a positional relationship between the virtual viewpoint and the plurality of cameras;
Based on encoding information representing the encoding used for the image selected by the selecting step, a determining step of determining how to use the selected image for the texture mapping,
Performing a texture mapping using the selected image according to the usage determined in the determining step, and generating an image of the portion of the virtual viewpoint image. Control method.
前記複数のカメラから得られた複数の画像を用いて、仮想視点から観察される仮想視点画像を生成する画像処理装置と、を備え、前記画像処理装置が、
前記仮想視点と前記複数のカメラの位置関係に基づいて、前記複数の画像から前記仮想視点画像の部分のテクスチャマッピングに利用可能な画像を選択する選択手段と、
前記選択手段により選択された画像に用いられた符号化を表す符号化情報に基づいて、前記選択された画像の前記テクスチャマッピングへの利用法を決定する決定手段と、
前記決定手段により決定された利用法に従って前記選択された画像を用いてテクスチャマッピングを実行し、前記仮想視点画像の前記部分の画像を生成する生成手段と、を備えることを特徴とする画像処理システム。 A plurality of cameras, each of which captures an image, performs encoding selected by rate control and outputs the result,
Using a plurality of images obtained from the plurality of cameras, an image processing apparatus that generates a virtual viewpoint image observed from a virtual viewpoint, comprising,
Selection means for selecting an image available for texture mapping of a portion of the virtual viewpoint image from the plurality of images, based on a positional relationship between the virtual viewpoint and the plurality of cameras,
Determining means for determining how to use the selected image for the texture mapping based on encoding information representing the encoding used for the image selected by the selecting means,
Generating means for performing texture mapping using the selected image according to the usage determined by the determining means, and generating an image of the portion of the virtual viewpoint image. .
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
JP2018141630A JP2020017927A (en) | 2018-07-27 | 2018-07-27 | Image processing apparatus, control method therefor, and image processing system |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
JP2018141630A JP2020017927A (en) | 2018-07-27 | 2018-07-27 | Image processing apparatus, control method therefor, and image processing system |
Publications (1)
Publication Number | Publication Date |
---|---|
JP2020017927A true JP2020017927A (en) | 2020-01-30 |
Family
ID=69581679
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
JP2018141630A Pending JP2020017927A (en) | 2018-07-27 | 2018-07-27 | Image processing apparatus, control method therefor, and image processing system |
Country Status (1)
Country | Link |
---|---|
JP (1) | JP2020017927A (en) |
Cited By (1)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
JP2023051356A (en) * | 2021-09-30 | 2023-04-11 | キヤノン株式会社 | Information processing device, information processing method and program |
-
2018
- 2018-07-27 JP JP2018141630A patent/JP2020017927A/en active Pending
Cited By (2)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
JP2023051356A (en) * | 2021-09-30 | 2023-04-11 | キヤノン株式会社 | Information processing device, information processing method and program |
JP7576013B2 (en) | 2021-09-30 | 2024-10-30 | キヤノン株式会社 | Information processing device, information processing method, and program |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
KR102797011B1 (en) | Point cloud data transmission device, point cloud data transmission method, point cloud data reception device and point cloud data reception method | |
US10904570B2 (en) | Method for encoding/decoding synchronized multi-view video by using spatial layout information and apparatus of the same | |
JP7277372B2 (en) | 3D model encoding device, 3D model decoding device, 3D model encoding method, and 3D model decoding method | |
JP7451576B2 (en) | Point cloud data processing method and device | |
US10412413B2 (en) | Image processing device and image processing method | |
Shi et al. | Using graphics rendering contexts to enhance the real-time video coding for mobile cloud gaming | |
CN107534789B (en) | Image synchronization device and image synchronization method | |
CN103905741B (en) | Ultrahigh-definition panoramic video real-time generation and multi-channel synchronous playing system | |
US20210233303A1 (en) | Image processing apparatus and image processing method | |
JP7440546B2 (en) | Point cloud data processing device and method | |
KR102166158B1 (en) | Stereoscopic video encoding apparatus, stereoscopic video decoding apparatus and stereoscopic video display system including the same | |
WO2019093234A1 (en) | Encoding device, decoding device, encoding method, and decoding method | |
JP2009512316A (en) | Multi-view video encoding and decoding apparatus and method using camera parameters, and recording medium on which a program for performing the method is recorded | |
US10708469B2 (en) | Image processing apparatus, method of controlling the same, non-transitory computer-readable storage medium, and image processing system | |
JP2024138070A (en) | Point cloud data processing apparatus and method | |
CN114009012B (en) | Content distribution method, image capture and processing system, playback system, method of operating a playback system, and computer readable medium | |
EP0843857A1 (en) | Multi-viewpoint digital video encoding | |
CN110121065B (en) | Multi-directional image processing in spatially ordered video coding applications | |
CN111800653B (en) | Video decoding method, system, device and computer readable storage medium | |
JP7425207B2 (en) | Point cloud data transmitting device, point cloud data transmitting method, point cloud data receiving device, and point cloud data receiving method | |
JP2024511312A (en) | Point cloud data transmission method, point cloud data transmission device, point cloud data reception method, and point cloud data reception device | |
JP2024525583A (en) | Point cloud data transmitting device, point cloud data transmitting method, point cloud data receiving device, and point cloud data receiving method | |
CN113438495A (en) | VR live broadcast method, device, system, equipment and storage medium | |
Chan et al. | Overview of current development in depth map coding of 3D video and its future | |
US20200267385A1 (en) | Method for processing synchronised image, and apparatus therefor |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
RD01 | Notification of change of attorney |
Free format text: JAPANESE INTERMEDIATE CODE: A7421 Effective date: 20210103 |
|
A521 | Written amendment |
Free format text: JAPANESE INTERMEDIATE CODE: A523 Effective date: 20210113 |