JP2010238134A - Image processor and program - Google Patents
Image processor and program Download PDFInfo
- Publication number
- JP2010238134A JP2010238134A JP2009087806A JP2009087806A JP2010238134A JP 2010238134 A JP2010238134 A JP 2010238134A JP 2009087806 A JP2009087806 A JP 2009087806A JP 2009087806 A JP2009087806 A JP 2009087806A JP 2010238134 A JP2010238134 A JP 2010238134A
- Authority
- JP
- Japan
- Prior art keywords
- image
- human body
- body model
- joint
- model
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Pending
Links
Images
Landscapes
- Processing Or Creating Images (AREA)
Abstract
Description
本発明は、現実空間で取得した数少ない人の形状データを3次元仮想空間上に投影して画像認識システムを構築するための画像処理装置及びプログラムに関する。 The present invention relates to an image processing apparatus and a program for constructing an image recognition system by projecting a few human shape data acquired in a real space onto a three-dimensional virtual space.
画像内の人を認識する画像認識システムでは、一般に、人の形状、姿勢、動作を撮影した多数の画像を取得して解析することで、認識に必要な認識データベースを構築し、認識データベースの各種データを使用して現実空間の画像内の人の動作や姿勢等を認識する。その際、解析する画像の種類や数が多いほど、認識データベースの精度が向上して、人の形状、姿勢、動作を正確に認識できるようになる。ところが、実際には、人の体型や動作、周囲の環境や照明、或いは、撮影の手段や方向等は様々であり、それらの差異(ノイズ)に応じた全ての画像を撮影して取得するのは極めて困難である。 In general, an image recognition system that recognizes people in an image constructs a recognition database necessary for recognition by acquiring and analyzing a large number of images obtained by capturing the shape, posture, and movement of people. Recognize human movements and postures in real space images using data. At that time, the more types and the number of images to be analyzed, the higher the accuracy of the recognition database and the more accurately the shape, posture, and movement of a person can be recognized. In reality, however, the human body shape and movement, the surrounding environment and lighting, or the means and direction of photographing are various, and all images corresponding to the difference (noise) are photographed and acquired. Is extremely difficult.
これに対し、仮想空間上で人の3次元モデルを変化させて所望の画像を生成することで、多数のパターンの画像を取得することが考えられる。また、そのような装置として、従来、3次元基本モデルに2次元モデルの画像を貼り付けて、所望の3次元モデルを生成する装置が知られている(特許文献1参照)。 On the other hand, it is conceivable to obtain images of a large number of patterns by generating a desired image by changing a three-dimensional model of a person in a virtual space. Further, as such an apparatus, there is conventionally known an apparatus that generates a desired three-dimensional model by pasting a two-dimensional model image on a three-dimensional basic model (see Patent Document 1).
しかしながら、この従来の装置では、単に、2次元モデルの特定部位を動かして3次元モデルの姿勢を変化させており、上記したノイズに応じた種々の画像を生成できず、現実空間で取得した画像との差が大きくなる傾向がある。その結果、正確な画像を取得することができず、かつ、取得できる画像のパターン等が制限されて、その数を大幅に増加させるのは難しい。 However, in this conventional apparatus, the posture of the three-dimensional model is simply changed by moving a specific part of the two-dimensional model, and various images corresponding to the noise cannot be generated. And the difference tends to increase. As a result, an accurate image cannot be acquired, and the pattern or the like of the image that can be acquired is limited, and it is difficult to greatly increase the number of images.
本発明は、このような従来の問題に鑑みなされたものであって、その目的は、現実空間で取得した少量のデータを基に、現実空間で取得が困難な画像を仮想空間上で容易にかつ膨大な数生成するとともに、現実空間で取得した画像と遜色ない画像を取得することである。また、他の目的は、これらの画像から所定の画像特徴を算出して機械学習することで、仮想空間において取得したデータのみで汎用性の高い認識データベースを構築することである。 The present invention has been made in view of such a conventional problem, and an object of the present invention is to easily obtain an image that is difficult to acquire in the real space in the virtual space based on a small amount of data acquired in the real space. In addition, an enormous number of images are generated, and images that are comparable to images acquired in real space are acquired. Another object is to construct a highly versatile recognition database using only data acquired in a virtual space by calculating predetermined image features from these images and performing machine learning.
請求項1の発明は、画像処理装置であって、人の3次元形状データを取得する手段と、3次元形状データを仮想空間の人の関節モデルに当てはめて仮想空間に人体モデルを作成する手段と、関節モデルの各関節の動きに合わせて人体モデルの各関節を動かし、人体モデルを変化させる手段と、人体モデルに現実空間の差異に応じたノイズを付加する手段と、人体モデルから画像を生成する手段と、人体モデルから生成した画像を記憶させる手段と、を備えたことを特徴とする。
請求項2の発明は、請求項1に記載された画像処理装置において、人の動きや姿勢に応じた関節モデルの関節毎の変位情報を取得する手段と、関節毎の変位情報に基づき関節モデルを変化させる手段と、を備えたことを特徴とする。
請求項3の発明は、請求項1又は2に記載された画像処理装置において、人体モデルから取得する画像の撮影条件を設定する手段を備え、人体モデルから画像を生成する手段が、人体モデルから撮影条件に基づく画像を生成することを特徴とする。
請求項4の発明は、請求項1ないし3のいずれかに記載された画像処理装置において、ノイズを付加する手段が、人体モデルに人の姿勢、動作、体格の少なくとも1つのノイズを付加して個人差を生成する手段を有することを特徴とする。
請求項5の発明は、請求項1ないし4のいずれかに記載された画像処理装置において、ノイズを付加する手段が、人体モデルに服、照明、遮蔽物の少なくとも1つのノイズを付加する手段を有することを特徴とする。
請求項6の発明は、請求項1ないし5のいずれかに記載された画像処理装置において、人体モデルから生成した画像に基づいて画像内の人の画像特徴を算出する手段と、画像特徴を機械学習して画像内の人を認識するための認識データベースを構築する手段と、を備えたことを特徴とする。
請求項7の発明は、コンピュータにより、請求項1ないし6のいずれかに記載された画像処理装置の各手段を実現するためのプログラムである。
The invention of claim 1 is an image processing device, means for acquiring human three-dimensional shape data, and means for applying a three-dimensional shape data to a human joint model in a virtual space to create a human body model in the virtual space A means for moving the human body model according to the movement of each joint of the joint model to change the human body model, a means for adding noise to the human body model according to the difference in the real space, and an image from the human body model. It is characterized by comprising means for generating and means for storing an image generated from a human body model.
According to a second aspect of the present invention, there is provided the image processing apparatus according to the first aspect, wherein the joint model is based on the displacement information for each joint of the joint model according to the movement and posture of the person, and the displacement information for each joint. And means for changing.
According to a third aspect of the present invention, in the image processing apparatus according to the first or second aspect, the image processing apparatus includes means for setting a photographing condition of an image acquired from the human body model, and the means for generating the image from the human body model is based on the human body model. An image based on shooting conditions is generated.
According to a fourth aspect of the present invention, in the image processing apparatus according to any one of the first to third aspects, the means for adding noise adds at least one noise of a human posture, motion, and physique to the human body model. It has the means to produce | generate an individual difference, It is characterized by the above-mentioned.
According to a fifth aspect of the present invention, in the image processing apparatus according to any one of the first to fourth aspects, the means for adding noise includes means for adding at least one noise of clothes, lighting, and shielding to a human body model. It is characterized by having.
According to a sixth aspect of the present invention, in the image processing apparatus according to any one of the first to fifth aspects, the means for calculating the human image feature in the image based on the image generated from the human body model, Means for constructing a recognition database for learning and recognizing a person in the image.
The invention according to claim 7 is a program for realizing each means of the image processing apparatus according to any one of claims 1 to 6 by a computer.
本発明によれば、現実空間で取得した少量のデータを基に、現実空間で取得が困難な画像を仮想空間上で容易にかつ膨大な数生成することができる。しかも、これらの画像には、人の形状、姿勢、動作、及び照明等に対して、予め設定する現実空間の差異に応じたノイズを付加しているため、現実空間で取得した画像と遜色ない画像を取得できる。これらの画像から所定の画像特徴を算出して機械学習することで、仮想空間において取得したデータのみで汎用性の高い認識データベースを構築できる。 According to the present invention, it is possible to easily generate an enormous number of images that are difficult to acquire in the real space in the virtual space, based on a small amount of data acquired in the real space. Moreover, since these images are added with noise corresponding to differences in the real space set in advance with respect to the human shape, posture, movement, lighting, etc., they are comparable to images acquired in the real space. Images can be acquired. By calculating predetermined image features from these images and performing machine learning, a highly versatile recognition database can be constructed using only data acquired in the virtual space.
本発明の画像処理装置の一実施形態について、図面を参照して説明する。
図1は、本実施形態の画像処理装置の構成を概略的に示すブロック図である。
An image processing apparatus according to an embodiment of the present invention will be described with reference to the drawings.
FIG. 1 is a block diagram schematically showing the configuration of the image processing apparatus of the present embodiment.
画像処理装置1は、例えば、中央演算処理装置(CPU)と、各種のプログラムを格納するROM(Read Only Memory)と、CPUの処理用データを一時的に格納するRAM(Random Access Memory)とを有するコンピュータを備えている。また、画像処理装置1は、画像処理部10と、それぞれ予め記憶された各種関数からなるノイズ生成関数群20及び画像特徴算出関数群40と、画像を記憶する画像メモリ30とを備えている。更に、画像処理装置1は、人の3次元形状データベース50と、モーションキャプチャデータベース51とを備え、それらに画像処理に使用する各種データを予め記憶している。
The image processing apparatus 1 includes, for example, a central processing unit (CPU), a ROM (Read Only Memory) that stores various programs, and a RAM (Random Access Memory) that temporarily stores processing data for the CPU. Having a computer. The image processing apparatus 1 also includes an
この画像処理装置1では、まず、ステレオカメラ等の距離画像センサを用いて、所定の姿勢の人を、前後、左右、上下等から撮影して、人の全方位から見た画像(距離画像)を取得する。取得した各画像の距離データに基づき、例えば縦横所定ピッチで網目状に人の表面を3次元計測し、人の全体の3次元的な表面形状を、計測点同士を結んだポリゴンデータとして算出して形状データを取得し、取得した人の形状データを3次元形状データベース50に記憶する。また、画像処理装置1は、このように作成して取得した人の3次元形状データを、仮想空間の人の関節モデルに当てはめて、仮想空間に人体モデルを作成する。
In this image processing apparatus 1, first, an image (distance image) obtained by photographing a person in a predetermined posture from front and rear, left and right, up and down using a distance image sensor such as a stereo camera, and viewed from all directions of the person. To get. Based on the acquired distance data of each image, for example, the surface of a person is measured three-dimensionally at a predetermined vertical and horizontal pitch, and the entire three-dimensional surface shape of the person is calculated as polygon data connecting measurement points. The shape data is acquired, and the acquired human shape data is stored in the three-
図2は、人の関節モデルを示す模式図である。
関節モデル70は、複数の関節を結んで人を表すモデルであり、図示のように、人の各関節位置に応じて、順に結ばれた12個の関節71、72、73と、手と足の先端に位置する4個の終端効果器74からなる。また、各関節71、72、73は、10個の関節71、72が回転可能に、かつ、4個の関節72が関節モデル70内での位置が固定と設定されている。
FIG. 2 is a schematic diagram showing a human joint model.
The
ここで、モーションキャプチャデータベース51は、人の動きや姿勢をデジタル的に記憶するモーションキャプチャシステムにより、人の3次元の動きや姿勢のデータを取得して記憶している。即ち、例えば、マーカを付けた人に所定の動作をさせて、マーカをトラッカーにより連続して検出し、それぞれの動作や姿勢に対する1又は複数の時系列データを取得して記憶している。これにより、関節モデル70の各部毎の変化を取得し、人の動きや姿勢に応じた関節モデル70の関節71、72、73毎の回転角度、位置、変位(ここでは、これらを総称して変位情報という)を、時系列に沿うデータとして順に記憶してデータベースを構築する。
なお、関節モデル70に当てはめる人の距離画像は、関節モデル70の姿勢に合わせた姿勢の人の距離画像を取得するのが望ましい。また、この関節モデル70は一例であり、あらゆる関節モデルへの適用が可能である。
Here, the
The distance image of the person applied to the
画像処理装置1は、上記した人の3次元形状データに基づく画像(人体モデル)を表示手段(図示せず)に表示する。この表示された人体モデルの画像に対して、ユーザが、関節モデル70の各関節71、72、73や終端効果器74に対応する位置を、マウスを操作等して指定することで、3次元形状データを表す人体モデルの画像と関節モデル70の位置同士が対応づけられる。これにより、画像処理装置1は、人体モデルの3次元形状データを関節モデル70に当てはめ、関節モデル70の各関節の動きに合わせて作成した人体モデルの各関節を動かし、人体モデルを関節モデル70に合わせて変化させる。このように人体モデル及びその各部の形状の位置や方向を変化させて、所定の姿勢や動作の人体モデル及び3次元形状データを作成する。
The image processing apparatus 1 displays an image (human body model) based on the above-described human three-dimensional shape data on a display means (not shown). The user designates positions corresponding to the
画像処理装置1は、上記のようにモーションキャプチャデータベース51から読み出して、人の特定の動作や姿勢に応じた関節モデル70の関節71、72、73毎の変位情報を取得し、変位情報に基づき、関節71、72、73の回転角度や位置等を変化させて動かし、関節モデル70を変化させる。同時に、画像処理部10のノイズ生成処理部11により、人の3次元形状データ(人体モデル)を変化させ、所定のかつ少量の人の3次元形状データから、人体モデルにより人の様々な動き等を再現する。
The image processing apparatus 1 reads out from the
即ち、現実空間では、痩せ型の人や太っている人、身長が高い人や低い人等、人毎に様々な体格差がある。また、厚着しているときや薄着しているとき等に応じて形状も様々に変化するとともに、人の動作についても、動作がゆっくりの人や速い人等の個人差が様々である。そこで、画像処理装置1は、このような、現実空間における人の体格、形状、動作における差異、照明や環境上の差異等、現実空間における差異を、ノイズ生成処理部11によりノイズを付加することで再現する。ノイズ生成処理部11は、ノイズ生成関数群20に設定された各ノイズモデル21〜26に基づき、人の形状や動き、体格、照明等、現実空間の差異に応じたノイズを付加して、人の3次元形状データと人体モデルを変化させる。以下、ノイズ生成処理部11による、各種ノイズ付加の一例を説明するが、これらは一例であり、現実空間を忠実に再現するための、あらゆるノイズモデルへの拡張が可能である。
That is, in the real space, there are various physique differences for each person, such as a thin person, a fat person, a tall person, or a short person. In addition, the shape changes variously depending on whether the person is wearing thick clothes or wearing lightly, and the person's movements are also different from person to person such as a slow-moving person or a fast-moving person. Therefore, the image processing apparatus 1 adds noise to the difference in the real space such as a difference in the physique, shape, and movement of the person in the real space, a difference in lighting and the environment, and the like by the noise
ノイズ生成処理部11は、人体モデル(3次元形状データ)に対して、人の体格のノイズモデル23と人の形状のノイズモデル24に基づき、人の体格のノイズを付加して体格の個人差を生成する。具体的には、人体モデルの頭部・胴部・腕部・足部の体積と、身長及び頭部・胴部・腕部・足部・肩幅の長さと、頭部・胸部・腹部・臀部・腕部・足部の周囲長と、を変動させる。これらの値は、日本人標準サイズを中央にとる。そして、各値の上限値及び下限値を任意に設定する。上限値と中央値の差及び下限値と中央値の差は同じになるように設定する。各値の出現確率は、上限値及び下限値が±3σと対応する正規分布に従うものとする。(その際、各値を、例えば、0.1σずつ変動させる等、所定量ずつ都度変動させる。以下、同様。)。ここでは、各値に、日本人の標準サイズを適用するが、世界の標準サイズや、国別や地方別の標準サイズを適用してもよい。また、各値のバラツキの確率密度関数に正規分布を仮定しているが、これを整形医学の分野の知見を利用して、医学的に解明された人の体格差の統計データに置き換えることもできる。
The noise
また、ノイズ生成処理部11は、その他のノイズモデル24に基づき、人体モデルに洋服等の服のノイズを付加して服の違いを生成する。この服の違いには、薄着、厚着等の厚みの違いと服の模様の違いがあるが、服の模様の違いについては、3次元形状データの人体モデルを画像面に投影して生成した輝度画像に対してテンプレートマッチング処理を行った際、充分に高い相関値が獲得できればよい。ここでは、先ず、人体モデル表面の服を着用する範囲に、所定の輝度パターン80(図3参照)を並べて格子状に投影し、輝度パターン80に輝度階調の±33%範囲のホワイトノイズを加算することで、服の模様の違いを生成する。即ち、輝度階調の変化に伴い、例えば輝度パターン80の黒色部81は変化させずに白色部82を次第に黒くし、或いは、白色部82は変化させずに黒色部81を次第に白くし、全体の色を、白色から黒色の間で次第に変化させて模様の違いを生成する。これに対し、服の形状や厚みの違いは、体格差の生成と同様に生成する。ただし、服の厚みは、胴部及び腕部の変動が最も大きく、頭部、足部については小さいため、この規則に従い、頭部・胸部・腹部・臀部の周囲長及び、身長、肩幅、胴部、腕部、足部の長さに適当なノイズを加算して3次元形状データを変化させ、人体モデルの服の厚みの違いを生成する。
The noise
ノイズ生成処理部11は、人の姿勢のノイズモデル22に基づき、人体モデルに姿勢のノイズを付加して、姿勢の個人差を生成する。その際、関節モデル70の関節71、72、73毎(図2参照)に、同じ姿勢の複数の関節角度をモーションキャプチャデータベース51から取得して平均値と標準偏差を求める。関節角度の出現確率は正規分布に従うものとし、平均値に対して±3σの範囲で各関節角度にノイズを付加して3次元形状データを変化させ、姿勢の個人差を生成して人体モデルを作成する。ただし、モーションキャプチャデータベース51から、同じ姿勢のサンプルを充分に多く獲得できるときは、姿勢毎に各関節角度のバラツキを統計的に解析して求めた最適な関節角度のバラツキを適用することもできる。また、リハビリテーション医学の知見を利用して、各関節の可動域や姿勢毎の関節に掛かる肉体的負荷のデータを参考にして、関節角度にバラツキ範囲を設定してもよい。
The noise
ノイズ生成処理部11は、人の動きのノイズモデル21に基づき、人体モデルに動作のノイズを付加して動作の個人差を生成する。具体的には、例えば、関節モデル70の関節71、72、73毎に、その関節角度の時系列データをモーションキャプチャデータベース51から取得する。この関節角度の時系列データを伸縮することで、動作の個人差を表現する。関節角度の時系列データの伸縮率の範囲は、元データに対して1/2倍〜2倍の範囲で設定する。そして、伸縮率の出現する確率は一定となるものとする。元データが出現する確率、1/2倍データが出現する確率、2倍データの出現する確率は同じである。以上の規則に基づき、関節角度の時系列データにノイズを与えることで、動作の個人差を表現する。
The noise
また、現実空間において、ステレオカメラにより距離画像を生成することを想定している場合は、ノイズ生成処理部11は、その画像のステレオマッチング位置に、予め設定する誤差モデルを適用して距離画像の計測誤差を再現する。即ち、仮想実験環境では、後述するカメラ仕様及び視点位置設定処理部12の設定に基づき、設定されたステレオカメラから出力されるステレオ画像同士の対応点の正確な対応関係が判る。このステレオ対応点を中心に、3ピクセルを半径とする円の範囲で誤差を加算する。その際、正確なステレオ対応点を中心にして、誤差を含むステレオ計測点が分布する確率密度関数が正規分布に従うと仮定し、正確なステレオ対応点を中心に±3ピクセルが±3σ(標準偏差=1ピクセル)になるようなノイズモデルを適用して、計測誤差を再現する。
In addition, when it is assumed that a distance image is generated by a stereo camera in the real space, the noise
加えて、現実空間では、被写体とカメラの間に隠蔽物が存在する場合があり、本実施形態では、ノイズ生成処理部11により、仮想空間における被写体(人体モデル)とカメラの間の適当な位置に、適当な大きさの直方体を1又は複数配置することで隠蔽の現象を再現する。また、現実空間では、光源と被写体の間に遮蔽物があり被写体に影が映る場合や、様々な色の光源が混在していて被写体に映る場合がある。本実施形態では、これらの現象を照明ノイズとして扱い、ノイズ生成処理部11により、予め設定する照明のノイズモデル25を、仮想空間における被写体に投影することで、この現象を再現する。具体的には、複数周波数の正弦(SIN)波の振幅を輝度画像の階調の±3.3%の範囲で変動させて生成した輝度ノイズを輝度画像に加算することで照明ノイズを生成する。また、輝度値のみでなく、様々な色の照明ノイズを同様に生成する。このように、ノイズ生成処理部11は、人体モデルに遮蔽物のノイズ又は照明のノイズを付加する。
In addition, in the real space, there may be a concealment between the subject and the camera. In this embodiment, the noise
その後、画像処理装置1は、以上のようにノイズを付加して生成した3次元形状データ(人体モデル)から、現実空間の撮影画像に対応する画像を順次生成して、認識データベース54を構築する。まず、画像処理装置1は、カメラ仕様及び視点位置設定処理部12で、人体モデルから取得する画像のカメラや視点位置等に関する撮影条件を設定する。具体的には、例えば、カメラにより出力するセンサ値(輝度画像、距離画像)、その焦点距離、画像面サイズ、画像面解像度、カメラの設置状態(位置、高さ、ロール角度、パン角度、チルト角度等)、被写体との相対的な位置関係を設定する。その際、カメラは、複数設定することもできる。続いて、画像生成処理部13により、3次元形状データ(人体モデル)に基づき、その輝度や距離等の画像を生成する。その際、カメラ仕様及び視点位置設定処理部12で設定された撮影条件に基づいて、そのカメラ仕様及び視点位置の設定等に従い、人体モデルを、取得すべき距離又は輝度を画像面に中心射影することで、撮影条件に基づく画像を生成する。ここでは、カメラモデルとして、ピンホールカメラモデルを採用するが、例えば、魚眼カメラモデル等の他のカメラモデルに適用することもできる。このように、画像生成処理部13は、人体モデルから画像を生成して、各画像を画像メモリ30の対応するフォルダに記憶させる。
Thereafter, the image processing apparatus 1 constructs the
また、画像処理装置1は、画像特徴算出処理部14により、人体モデルから生成した各画像に基づき、画像内の人の範囲や位置、姿勢や動作等、人の各認識処理に必要な画像内の人の画像特徴を算出する。この画像特徴は、画像特徴算出関数群40に予め設定された各種の画像特徴を算出する。画像処理装置1は、算出された各画像特徴に基づき、それらを機械学習部15により機械学習して、認識データベースを構築する。これを、人の認識に使用する認識データベース54として記憶する。
Further, the image processing apparatus 1 uses the image feature
その際、例えば、(1)画像内の人の領域を抽出するための画像特徴を算出し、人領域の抽出の為の画像特徴から人らしさを機械学習する。(2)人の姿勢を推定するための画像特徴を算出し、姿勢を推定するための画像特徴から各関節の回転角度や位置等を機械学習する。(3)人の動作を判定する為の画像特徴を算出し、人の動作を判定する為の画像特徴を算出する。これら(1)、(2)、(3)の画像特徴算出及び認識データベースの構築の例について以下説明する。本実施形態では、距離画像を用いた場合の一例を示すが、輝度画像や2値化画像についても適用可能である。 At this time, for example, (1) image features for extracting a human region in the image are calculated, and humanity is machine-learned from the image features for extracting the human region. (2) Image features for estimating the posture of a person are calculated, and the rotation angle and position of each joint are machine-learned from the image features for estimating the posture. (3) An image feature for determining a human motion is calculated, and an image feature for determining a human motion is calculated. An example of image feature calculation and recognition database construction in (1), (2), and (3) will be described below. In this embodiment, an example of using a distance image is shown, but the present invention can also be applied to a luminance image and a binarized image.
(1)人領域の抽出データベースの構築について。
人領域の抽出には、人らしさの特徴として距離画像から獲得した対象物の大きさ、長さ及び円らしさの特徴を用いる。これらの画像特徴を多層パーセプトロンにより、人か人以外かを教師あり学習することで認識データベースを構築する。大きさや長さ及び円らしさの画像特徴の算出については、特に限定されず、既存の画像処理技術を駆使して算出する。例えば、大きさについては、距離画像上の対象物が占有する領域の画素値を積分することで求めることが可能である。また、長さについては、先に求めた大きさ量を距離画像上の対象物が占有する画素数で割り算することで簡易的に求めることが可能である。円らしさについては、対象物の最外郭のエッジ線にサーキュラハフ変換を適用することで円らしさ量を獲得することが可能である。これら人らしさの画像特徴は一例であり、これら以外にも適用可能である。また、上記した各種画像特徴算出方法についても既存の画像処理技術を利用して適用することが可能である。
(1) Constructing an extraction database for human areas.
For the extraction of the human region, the characteristics of the size, length, and circularity of the object acquired from the distance image are used as the characteristics of humanity. A recognition database is constructed by learning whether these image features are human or non-human by using a multilayer perceptron. The calculation of the image feature of size, length, and circularity is not particularly limited, and is calculated using existing image processing technology. For example, the size can be obtained by integrating the pixel values of the area occupied by the object on the distance image. The length can be easily obtained by dividing the previously obtained size amount by the number of pixels occupied by the object on the distance image. As for the circularity, it is possible to obtain the circularity amount by applying a circular Hough transform to the outermost edge line of the object. These image characteristics of humanity are examples, and can be applied to other than these. The various image feature calculation methods described above can also be applied using existing image processing techniques.
(2)人の姿勢認識データベースの構築について。
人の姿勢認識には、距離画像を格子状の小領域に分割した局所領域における対象の大きさ及び長さの特徴を用いる。この距離画像上の局所領域における対象の大きさ及び長さを入力として、多層パーセプトロンにより、各関節角度を教師あり学習することで認識データベースを構築する。距離画像上の局所領域における対象物の大きさ及び長さ特徴の算出については、(1)で記載した手法と同様に算出する。
(3)人の動作認識データベースの構築について。
人の動作は、(2)で構築した人の姿勢認識データベースを利用して推定した各関節角度及び変位の時系列データをHMM(Hidden Markov Model)アルゴリズムにより学習することで構築する。
(2) About construction of human posture recognition database.
For the posture recognition of a person, the characteristics of the size and length of a target in a local area obtained by dividing a distance image into small grid areas are used. Using the size and length of the object in the local region on the distance image as input, a recognition database is constructed by learning each joint angle with a multi-layer perceptron with supervision. The size and length characteristics of the object in the local area on the distance image are calculated in the same manner as the method described in (1).
(3) Constructing a human motion recognition database.
The human motion is constructed by learning the time series data of each joint angle and displacement estimated using the human posture recognition database constructed in (2) using an HMM (Hidden Markov Model) algorithm.
画像処理装置1は、このように算出した画像特徴を機械学習して、画像内の人を認識するための認識データベース54を構築する。なお、ここでは、距離画像から画像特徴を算出する一例を示したが、輝度画像や2値化画像への適用も可能である。また、画像特徴についても、予め定められた画像特徴のみに適用するのではなく、必要に応じて新規の画像特徴算出関数を追加して適用することもできる。
The image processing apparatus 1 performs machine learning on the image features calculated in this way, and constructs a
次に、この画像処理装置1による画像処理の手順について説明する。
図4は、画像処理装置1による画像処理の手順を示すフローチャートである。
画像処理装置1は、図示のように、各データベース50、51から、人の3次元形状データ及びモーションキャプチャデータを取得し(S101)、まず、3次元形状データに関節モデル70を当てはめて人体モデルを作成する(S102)。次に、モーションキャプチャデータベース51から読み出した、特定の動作や姿勢時における人の関節の回転角度や位置の情報等(関節毎の変位情報)に基づき、関節モデル70を変化させて人体モデルの各関節を動かし、人体モデルを変更する(S103)。また、ノイズ生成処理部11により、人体モデルに現実空間に応じた差異、例えば人の姿勢、動作、体格、服の模様、服の形状や厚み、照明、遮蔽物に関する各ノイズを上記のように付加して個人差等を生成し(S104)、各3次元形状データ(人体モデル)を生成する。
Next, the procedure of image processing by the image processing apparatus 1 will be described.
FIG. 4 is a flowchart showing a procedure of image processing by the image processing apparatus 1.
As shown in the figure, the image processing apparatus 1 acquires human three-dimensional shape data and motion capture data from each of the
続いて、人体モデルから取得したい画像のカメラ等に関する撮影条件を設定し(S105)、その設定に基づき、ノイズ等を付加した人体モデルから画像を生成する処理を行い(S106)、生成した画像を画像メモリ30に記憶させる。次に、生成した各画像に基づいて、画像特徴算出処理部14により画像特徴を算出して(S107)、機械学習部15により機械学習する(S108)。また、画像処理装置1は、以上の手順を繰り返して(S101〜S108)、人の動きや姿勢、ノイズ、撮影条件等を変化させて画像を生成し、その画像特徴を順次機械学習して、実際の画像内の人の認識に必要な認識データベース及び画像認識システムを構築する。
Subsequently, shooting conditions relating to the camera or the like of the image desired to be acquired from the human body model are set (S105), and based on the setting, processing is performed to generate an image from the human body model to which noise or the like is added (S106). The image is stored in the
以上説明したように、本実施形態では、現実空間で取得した数少ない人の形状、姿勢、動作等のデータを3次元仮想空間上に投影することで、現実空間での取得が困難な画像(例えば、複数視点から撮影した画像等)を容易に且つ膨大な数を生成して取得することができる。また、仮想空間上で、人の形状や姿勢、動作に対して、実験を通じて統計的に求める等したノイズモデルを適用することで、現実空間での人の形状、姿勢、動作等の差異が付された現実に近い3次元形状データを取得して膨大なデータを生成することができる。その際、影、外乱光、照明についても、予め設定した照明モデルを仮想空間上で再現することにより、より現実空間での光の現象に近い現象が生じた3次元形状データを膨大に生成することができる。 As described above, in this embodiment, an image (for example, an image that is difficult to acquire in the real space is projected by projecting data such as a few human shapes, postures, and movements acquired in the real space onto the three-dimensional virtual space. , Images taken from a plurality of viewpoints) can be easily generated and acquired. In addition, by applying a noise model that is statistically obtained through experiments to human shapes, postures, and movements in virtual space, differences in human shapes, postures, movements, etc. in real space are added. A large amount of data can be generated by acquiring the three-dimensional shape data close to reality. At that time, by reproducing a preset illumination model in the virtual space for shadows, disturbance light, and illumination, a large amount of 3D shape data in which a phenomenon closer to the phenomenon of light in the real space has occurred is generated. be able to.
更に、上記のように、取得した膨大な3次元形状データを多視点距離画像や1視点距離画像、多視点輝度画像、1視点輝度画像、多視点2値画像、1視点2値画像等、多種類の画像に変換でき、かつ、現実空間で取得した画像と遜色ない画像を取得できる。また、上記のように取得した画像から算出した所定の画像特徴を機械学習して認識データベースを構築することで、仮想空間において取得したデータのみで、汎用性の高い認識データベースを構築できる。この認識データベースを現実空間に適用することで、撮影装置の種類の違い等を問題としない画像認識システムを構築できる。即ち、撮影装置が距離画像センサ、又は輝度画像センサであっても、その違いを問わず画像内の人や動作等を認識でき、例えば輝度画像センサの2次元の輝度画像から、その画像特徴を算出して、3次元形状データから対応する距離画像を検索することで、より高次元な画像での認識結果を取得できる。その結果を参考にすることで、より高精度な、人の形状、姿勢、動作等の認識が可能になる。 Further, as described above, the acquired enormous three-dimensional shape data can be used as a multi-view distance image, a single-view distance image, a multi-view luminance image, a single-view luminance image, a multi-view binary image, a single-view binary image, etc. An image that can be converted into a kind of image and that is comparable to an image acquired in the real space can be acquired. Further, by constructing a recognition database by machine learning of predetermined image features calculated from the images acquired as described above, a highly versatile recognition database can be constructed using only data acquired in the virtual space. By applying this recognition database to the real space, it is possible to construct an image recognition system that does not cause a difference in the types of photographing devices. That is, even if the photographing device is a distance image sensor or a luminance image sensor, it is possible to recognize a person or an action in the image regardless of the difference. For example, the image characteristics can be obtained from a two-dimensional luminance image of the luminance image sensor. By calculating and retrieving the corresponding distance image from the three-dimensional shape data, a recognition result in a higher-dimensional image can be acquired. By referring to the result, it is possible to recognize a human shape, posture, movement, etc. with higher accuracy.
なお、本発明は、コンピュータにより、画像処理装置1の以上説明した各手段を実現するためのプログラムとしても実現できる。 The present invention can also be realized as a program for realizing the above-described units of the image processing apparatus 1 by a computer.
1・・・画像処理装置、10・・・画像処理部、11・・・ノイズ生成処理部、12・・・カメラ仕様及び視点位置設定処理部、13・・・画像生成処理部、14・・・画像特徴算出処理部、15・・・機械学習部、20・・・ノイズ生成関数群、30・・・画像メモリ、40・・・画像特徴算出関数群、50・・・人の3次元形状データベース、51・・・モーションキャプチャデータベース、54・・・認識データベース、70・・・人の関節モデル。
DESCRIPTION OF SYMBOLS 1 ... Image processing apparatus, 10 ... Image processing part, 11 ... Noise generation processing part, 12 ... Camera specification and viewpoint position setting processing part, 13 ... Image generation processing part, 14 ... Image feature calculation processing unit, 15 ... machine learning unit, 20 ... noise generation function group, 30 ... image memory, 40 ... image feature calculation function group, 50 ... 3D
Claims (7)
3次元形状データを仮想空間の人の関節モデルに当てはめて仮想空間に人体モデルを作成する手段と、
関節モデルの各関節の動きに合わせて人体モデルの各関節を動かし、人体モデルを変化させる手段と、
人体モデルに現実空間の差異に応じたノイズを付加する手段と、
人体モデルから画像を生成する手段と、
人体モデルから生成した画像を記憶させる手段と、
を備えたことを特徴とする画像処理装置。 Means for acquiring human three-dimensional shape data;
Means for applying a three-dimensional shape data to a human joint model in a virtual space to create a human body model in the virtual space;
Means for moving each joint of the human body model in accordance with the movement of each joint of the joint model and changing the human body model;
Means for adding noise corresponding to the difference in real space to the human body model;
Means for generating an image from a human body model;
Means for storing an image generated from a human body model;
An image processing apparatus comprising:
人の動きや姿勢に応じた関節モデルの関節毎の変位情報を取得する手段と、
関節毎の変位情報に基づき関節モデルを変化させる手段と、
を備えたことを特徴とする画像処理装置。 The image processing apparatus according to claim 1,
Means for acquiring displacement information for each joint of the joint model according to the movement and posture of the person;
Means for changing the joint model based on displacement information for each joint;
An image processing apparatus comprising:
人体モデルから取得する画像の撮影条件を設定する手段を備え、
人体モデルから画像を生成する手段が、人体モデルから撮影条件に基づく画像を生成することを特徴とする画像処理装置。 In the image processing apparatus according to claim 1 or 2,
Means for setting image capturing conditions of an image acquired from a human body model,
An image processing apparatus, wherein means for generating an image from a human body model generates an image based on a photographing condition from the human body model.
ノイズを付加する手段が、人体モデルに人の姿勢、動作、体格の少なくとも1つのノイズを付加して個人差を生成する手段を有することを特徴とする画像処理装置。 The image processing apparatus according to any one of claims 1 to 3,
An image processing apparatus characterized in that the means for adding noise includes means for adding at least one noise of a human posture, motion, and physique to a human body model to generate an individual difference.
ノイズを付加する手段が、人体モデルに服、照明、遮蔽物の少なくとも1つのノイズを付加する手段を有することを特徴とする画像処理装置。 In the image processing device according to any one of claims 1 to 4,
An image processing apparatus characterized in that the means for adding noise has means for adding at least one noise of clothes, lighting, and shielding to a human body model.
人体モデルから生成した画像に基づいて画像内の人の画像特徴を算出する手段と、
画像特徴を機械学習して画像内の人を認識するための認識データベースを構築する手段と、
を備えたことを特徴とする画像処理装置。 The image processing apparatus according to any one of claims 1 to 5,
Means for calculating an image feature of a person in the image based on an image generated from a human body model;
Means for constructing a recognition database for machine learning of image features to recognize people in the image;
An image processing apparatus comprising:
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
JP2009087806A JP2010238134A (en) | 2009-03-31 | 2009-03-31 | Image processor and program |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
JP2009087806A JP2010238134A (en) | 2009-03-31 | 2009-03-31 | Image processor and program |
Publications (1)
Publication Number | Publication Date |
---|---|
JP2010238134A true JP2010238134A (en) | 2010-10-21 |
Family
ID=43092369
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
JP2009087806A Pending JP2010238134A (en) | 2009-03-31 | 2009-03-31 | Image processor and program |
Country Status (1)
Country | Link |
---|---|
JP (1) | JP2010238134A (en) |
Cited By (6)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
JP2013089123A (en) * | 2011-10-20 | 2013-05-13 | National Institute Of Information & Communication Technology | Generation method, generation program, and generation system of individual model data |
JP2018152037A (en) * | 2017-03-14 | 2018-09-27 | オムロン株式会社 | Driver monitoring device, driver monitoring method, learning device, and learning method |
KR20210108044A (en) * | 2020-02-25 | 2021-09-02 | 제주한라대학교산학협력단 | Video analysis system for digital twin technology |
WO2021240996A1 (en) * | 2020-05-25 | 2021-12-02 | コニカミノルタ株式会社 | Learning device, reader, and learning program |
JP2022051991A (en) * | 2020-09-23 | 2022-04-04 | カシオ計算機株式会社 | Information processing device, information processing method, and program |
JP7601354B2 (en) | 2019-10-10 | 2024-12-17 | タレス | A method for object recognition with increased representativeness. |
-
2009
- 2009-03-31 JP JP2009087806A patent/JP2010238134A/en active Pending
Cited By (10)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
JP2013089123A (en) * | 2011-10-20 | 2013-05-13 | National Institute Of Information & Communication Technology | Generation method, generation program, and generation system of individual model data |
JP2018152037A (en) * | 2017-03-14 | 2018-09-27 | オムロン株式会社 | Driver monitoring device, driver monitoring method, learning device, and learning method |
JP2018152038A (en) * | 2017-03-14 | 2018-09-27 | オムロン株式会社 | Driver monitoring device, driver monitoring method, learning device, and learning method |
JP7601354B2 (en) | 2019-10-10 | 2024-12-17 | タレス | A method for object recognition with increased representativeness. |
KR20210108044A (en) * | 2020-02-25 | 2021-09-02 | 제주한라대학교산학협력단 | Video analysis system for digital twin technology |
KR102462934B1 (en) * | 2020-02-25 | 2022-11-03 | 제주한라대학교산학협력단 | Video analysis system for digital twin technology |
WO2021240996A1 (en) * | 2020-05-25 | 2021-12-02 | コニカミノルタ株式会社 | Learning device, reader, and learning program |
US11803714B2 (en) | 2020-05-25 | 2023-10-31 | Konica Minolta, Inc. | Learning device, reader, and learning program |
JP2022051991A (en) * | 2020-09-23 | 2022-04-04 | カシオ計算機株式会社 | Information processing device, information processing method, and program |
JP7056708B2 (en) | 2020-09-23 | 2022-04-19 | カシオ計算機株式会社 | Information processing equipment, information processing methods and programs |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
JP5422735B2 (en) | Computer-aided analysis method for real-time use of image sequences including variable postures | |
JP6392756B2 (en) | System and method for obtaining accurate body size measurements from a two-dimensional image sequence | |
Auvinet et al. | Multiple depth cameras calibration and body volume reconstruction for gait analysis | |
JP2024501897A (en) | Method and system for registering preoperative image data to intraoperative image data of a scene such as a surgical scene | |
JP6352208B2 (en) | 3D model processing apparatus and camera calibration system | |
WO2019035155A1 (en) | Image processing system, image processing method, and program | |
US20200057778A1 (en) | Depth image pose search with a bootstrapped-created database | |
WO2018075053A1 (en) | Object pose based on matching 2.5d depth information to 3d information | |
JP2008537190A (en) | Generation of three-dimensional image of object by irradiating with infrared pattern | |
JP2014127208A (en) | Method and apparatus for detecting object | |
JP5795250B2 (en) | Subject posture estimation device and video drawing device | |
JP2012123667A (en) | Attitude estimation device and attitude estimation method | |
Malti et al. | Combining conformal deformation and cook–torrance shading for 3-d reconstruction in laparoscopy | |
JP2010238134A (en) | Image processor and program | |
JP2018129007A (en) | Learning data generation apparatus, learning apparatus, estimation apparatus, learning data generation method, and computer program | |
JP6868875B1 (en) | Posture estimation learning system, posture estimation learning method, and data creation program for machine learning | |
CN119068558B (en) | Deep learning-based athlete throwing action analysis and training method and equipment | |
Chen et al. | Camera networks for healthcare, teleimmersion, and surveillance | |
JP2003061936A (en) | Moving three-dimensional model formation apparatus and method | |
JP7024876B2 (en) | Detection device, processing device, detection method, and processing program | |
Velesaca et al. | Deep learning-based human height estimation from a stereo vision system | |
JPH0273471A (en) | Estimating method for three-dimensional form | |
KR102075079B1 (en) | Motion tracking apparatus with hybrid cameras and method there | |
JP2011149952A (en) | Model input device and model generation system | |
KR102685401B1 (en) | Device for evaluating movement of user using matching between skeleton information and virtual objects |