JP6760490B2

JP6760490B2 - 認識装置、認識方法および認識プログラム

Info

Publication number: JP6760490B2
Application number: JP2019512072A
Authority: JP
Inventors: 佐藤　卓也; 卓也佐藤
Original assignee: Fujitsu Ltd
Current assignee: Fujitsu Ltd
Priority date: 2017-04-10
Filing date: 2017-04-10
Publication date: 2020-09-23
Anticipated expiration: 2037-04-10
Also published as: US11210557B2; CN110546644A; EP3611690A1; CN110546644B; JPWO2018189795A1; EP3611690A4; US20200034659A1; WO2018189795A1

Description

本発明は、認識装置等に関する。

近年、距離センサでセンシングした結果の距離データ（距離画像）またはＲＧＢ（Red Green Blue）画像を基にして、機械学習による辞書を作成し、作成した辞書を用いて、人体の骨格を認識する技術がある。

図２０は、従来の骨格認識システムの一例を示す図である。図２０に示す例では、距離センサ５ａを用いてセンシングすることで、対象者６ａを含む距離データ５ｂを取得し、距離データ５ｂと辞書５ｃとを用いて、対象者６ａの３次元骨格位置６ｂを推定する。辞書５ｃは、予め機械学習しておく。

なお、従来技術１に開示されているように、画像データから人体に対応するピクセルを抽出し、抽出したピクセルの各部分を、人体部位にラベル分けを行うことで、人体の骨格モデルを推定する技術も開示されている。

ここで、人体の骨格を認識する場合には、学習時に認識対象となるあらゆる動作を学習することが前提となるため、例えば、単一の辞書を用いて、体操競技のように複雑で広範囲な動作を認識しようとすると、認識精度が低下してしまう。

認識精度の低下を防止するものとして、従来技術２がある。従来技術２は、顔の特徴点認識に関する技術である。顔の特徴点は、目、鼻、口の位置等を示す点である。従来技術２は、学習データを、正面、右、左等の方向に応じて分割し、分割した各学習データで顔特徴点の学習を行う。以下に、図２１および図２２を用いて、従来技術２の一例について説明する。

図２１は、従来技術２による顔特徴点の学習例を示す図である。従来技術２による特徴点の学習は、予め顔の方向に応じて分類された画像と、その画像における顔特徴点とを示す教師データを用いて、方向毎に独立して機械学習を行う。これにより、入力される顔画像の方向を限定して特徴点を認識する。

図２１に示す例では、左向き学習画像と顔特徴点との教師データ１ａを用いて、左向き顔画像の特徴点を学習することで、左向き用識別器２ａを得る。正面向き学習画像と顔特徴点との教師データ１ｂを用いて、正面向き顔画像の特徴点を学習することで、正面向き用識別器２ｂを得る。右向き学習画像と顔特徴点との教師データ１ｃを用いて、右向き顔画像の特徴点を学習することで、右向き用識別器２ｃを得る。

図２２は、従来技術２による特徴点の認識処理を示す図である。図２２に示すように、従来技術２は、顔画像３ａを受け付けると、顔方向識別器４を基にして、顔画像３ａの方向を認識する。従来技術２は、方向の認識結果を基にして、識別器２ａ〜２ｃのうちいずれかの識別器を選択し、選択した識別器を用いて、顔画像３ａの特徴点を認識することで、認識結果３ｂを得る。このように、従来技術２では、顔画像の方向に応じて、識別器を使い分けることで、特徴点の認識精度を高めている。

米国特許出願公開第２０１０／０１９７３９０号明細書米国特許出願公開第２０１３／０２４１８３３号明細書

J. Shotton，A. Fitzgibbon，M. Cook, T. Sharp, M. Finocchio，R. Moore，A. Kipman, A. Blake "Real-time human pose recognition in parts from a single depth image," CVPR，pp. 1297-1304, 2011. M. Dantone, J. Gall, G. Fanelli and L. Van Gool, Real-time facial feature detection using conditional regression forests," CVPR, pp.2578-2585, 2012.

しかしながら、上述した従来技術では、人体の骨格認識の精度が低いという問題がある。

例えば、従来技術２では、顔方向識別器４を用いて、顔画像３ａの方向を認識しているが、従来技術１で説明したような対象が複雑な動きをするものについては、顔画像と同様にして、シーンを識別することが難しい。シーンを精度良く識別できないと、最適な辞書を用いることができず、結果として、認識精度が低下する。

本発明は、上記に鑑みてなされたものであって、人体の骨格認識の精度を向上させることができる装置を提供することを目的とする。

第１の案では、認識装置は、記憶部と、シーン認識部と、骨格認識部とを有する。記憶部は、人物までの距離情報に含まれる人物の特徴と、互いに直交する複数の基準軸と人の骨格に基づくベクトルとのなす角により特定されるシーンとを対応づけるシーン認識辞書と、シーンに応じた距離情報と人物の関節位置とを対応づけた骨格認識辞書とを記憶する。シーン認識部は、対象者の距離情報となる認識用データを取得した場合に、認識用データの特徴と、シーン認識辞書とを基にして、認識用データに対応するシーンを認識する。骨格認識部は、シーン認識部により認識されたシーンの認識結果と、認識用データと、骨格認識辞書とを基にして、対象者の骨格を認識する。

人体の骨格認識の精度を向上させることができる。

図１Ａは、本実施例１で扱う人の方向の定義例を示す図である。図１Ｂは、本実施例１で扱う方向の認識単位、認識範囲、学習範囲の一例を示す図（１）である。図１Ｃは、本実施例１で扱う方向の認識単位、認識範囲、学習範囲の一例を示す図（２）である。図１Ｄは、本実施例１に係るシステムの構成を示す図である。図２は、本実施例１に係る認識装置の構成を示す機能ブロック図である。図３は、学習処理の一例を説明するための図である。図４は、自転方向および前転方向を説明する図である。図５は、自転方向のなす角を説明するための図である。図６は、自転方向の姿勢の分類基準の一例を示す図である。図７は、前転方向のなす角を説明するための図である。図８は、前転方向の姿勢の分類基準の一例を示す図である。図９は、距離データから特徴量を抽出する処理を説明するための図である。図１０は、骨格認識辞書の選択範囲と学習範囲との一例を示す図（１）である。図１１は、骨格認識辞書の選択範囲と学習範囲との一例を示す図（２）である。図１２は、本実施例１に係る学習部の処理手順を示すフローチャートである。図１３は、本実施例１に係る認識装置の認識処理の処理手順を示すフローチャートである。図１４は、本実施例２に係るシステムの構成を示す図である。図１５は、３次元点群データの一例を示す図である。図１６は、本実施例２に係る認識装置の構成を示す機能ブロック図である。図１７は、本実施例２に係る学習部の処理手順を示すフローチャートである。図１８は、本実施例２に係る認識装置の認識処理の処理手順を示すフローチャートである。図１９は、認識装置と同様の機能を実現するコンピュータのハードウェア構成の一例を示す図である。図２０は、従来の骨格認識システムの一例を示す図である。図２１は、従来技術２による顔特徴点の学習例を示す図である。図２２は、従来技術２による特徴点の認識処理を示す図である。

以下に、本発明にかかる認識装置、認識方法および認識プログラムの実施例を図面に基づいて詳細に説明する。なお、この実施例によりこの発明が限定されるものではない。

図１Ａは、本実施例１で扱う人の方向の定義例を示す図である。図１Ａに示すように、地面に垂直な直線を軸として人が正面を向いている場合を代表して０°とする。人が左を向いている場合を９０°とする。人が後ろを向いている場合を１８０°とする。人が右を向いている場合を２７０°とする。本実施例１では、９０°単位で４分割した単位毎に方向を認識して骨格認識を行う。例えば、３１５°〜４５°を正面、４５°〜１３５°を左、１３５°〜２２５°を後ろ、２２５°〜３１５°を右とする。

図１Ｂおよび図１Ｃは、本実施例１で扱う方向の認識単位、認識範囲、学習範囲の一例を示す図である。例えば、認識装置は、人方向の認識の際は狭い範囲で認識し、関節位置の推定の際には各認識単位を複数結合した広い範囲によって、学習した結果を用いる。図１Ｃは、方向認識時の認識単位例を示す。認識装置が、方向認識を行う時点で、３０°単位で学習・認識を行い、その結果を９０°単位にまとめ、最終的に正面のグループＧ１、左のグループＧ２、後ろのグループＧ３、右のグループＧ４のいずれかに確定する。

図１Ｂに示すように、認識装置は、認識範囲Ａ１の単位で、方向を確定する。例えば、認識範囲Ａ１の単位は、図１Ｃで説明した各グループＧ１〜Ｇ４の単位（９０°単位）に対応する。また、認識時の実際の人の方向が４分割の境界付近であった場合には、認識装置は、骨格認識時の精度低下を防止するために、学習範囲Ａ２のデータを用いて学習を行う。例えば、学習範囲Ａ２は、認識範囲Ａ１に対して、右に３０°左に３０°広い１５０°の範囲となる。

図１Ｄは、本実施例１に係るシステムの構成を示す図である。図１Ｄに示すように、このシステムは、距離センサ２０と、認識装置１００とを有する。認識装置１００は、距離センサ２０に接続される。認識装置１００は、予め学習されたシーン認識辞書と、骨格認識辞書とを蓄積しておく。認識装置１００は、シーン認識辞書と、骨格認識辞書とを用いて、対象者６ａの骨格認識を行う。なお、本実施例１では一例として、認識装置１００が、シーン認識辞書と、骨格認識辞書とを学習する場合について説明するが、認識装置１００以外の外部の計算機が、シーン認識辞書と、骨格認識辞書とを学習し、かかるシーン認識辞書と、骨格認識辞書とを、認識装置１００が蓄積しても良い。

距離センサ２０は、距離センサ２０の設置位置から、距離センサ２０の撮影範囲に含まれる対象者６ａ上の各観測点までの距離情報を計測するセンサである。距離センサ２０は、各観測点の３次元座標を示す距離データを生成し、生成した距離データを認識装置１００に出力する。以下の説明では、距離センサ２０が、認識装置１００に出力する距離データを、「認識用データ」と表記する。

認識装置１００は、距離センサ２０から認識用データを取得し、シーン認識辞書１３０ａおよび骨格認識辞書１３０ｂを基にして、対象者６ａの骨格位置を認識する。

図２は、本実施例１に係る認識装置の構成を示す機能ブロック図である。図２に示すように、この認識装置１００は、入力部１１０と、表示部１２０と、記憶部１３０と、制御部１４０とを有する。また、認識装置１００は、距離センサ２０に接続される。

入力部１１０は、認識装置１００に各種の情報を入力するための入力装置である。例えば、入力部１１０は、キーボードやマウス、タッチパネル等に対応する。

表示部１２０は、制御部１４０から出力される情報を表示する表示装置である。例えば、表示部１２０は、液晶ディスプレイやタッチパネル等に対応する。

記憶部１３０は、シーン認識辞書１３０ａと、骨格認識辞書１３０ｂと、認識用データバッファ１３０ｃとを有する。記憶部１３０は、ＲＡＭ（Random Access Memory）、ＲＯＭ（Read Only Memory）、フラッシュメモリ（Flash Memory）などの半導体メモリ素子や、ＨＤＤ（Hard Disk Drive）などの記憶装置に対応する。

シーン認識辞書１３０ａは、認識用データに含まれる画像データが、いずれのシーンに対応するのかを判定する際に用いられる辞書情報である。例えば、シーン認識辞書１３０ａは、シーンを一意に識別するシーン識別情報と、係るシーン識別情報に対応する距離データの特徴とを対応づける。

骨格認識辞書１３０ｂは、シーン毎の仮定の関節位置（骨格位置）を示す辞書情報である。例えば、骨格認識辞書１３０ｂは、シーン識別情報と、係るシーン識別情報に対応する距離データと、人物の関節位置の情報（骨格辞書情報）とを対応づける。図示を省略するが、各シーン識別情報に対応する骨格辞書情報がそれぞれ存在するものとする。

認識用データバッファ１３０ｃは、認識用データを格納するバッファである。認識用データは、距離センサ２０から出力される距離データに対応する。

図２の説明に戻る。制御部１４０は、学習部１４０ａと、シーン認識部１４０ｂと、骨格認識部１４０ｃとを有する。制御部１４０は、ＣＰＵ（Central Processing Unit）やＭＰＵ（Micro Processing Unit）などによって実現できる。また、制御部１４０は、ＡＳＩＣ（Application Specific Integrated Circuit）やＦＰＧＡ（Field Programmable Gate Array）などのハードワイヤードロジックによっても実現できる。

学習部１４０ａは、シーン認識辞書１３０ａと、骨格認識辞書１３０ｂとを生成する処理部である。

図３は、学習処理の一例を説明するための図である。上段は、学習により、シーン認識辞書１３０ａを生成する処理の一例について説明する。学習部１４０ａによる学習は、ＣＧなどにより生成される距離画像データと、付随するシーン認識用の教師ラベルデータをセットとして実行される。教師ラベルは、各距離データ２１ａに含まれる人物の方向を一意に識別する情報であり、「正面」、「左」、「後ろ」、「右」のうちいずれか一つの人方向となる。なお、教師ラベルは図１Ｂのような人方向範囲を直接示す情報（分類）であっても良いし、距離データ２１ａに含まれる人物の方向を示す角度値（回帰）そのものであっても良い。また、後述するように、人物の関節位置データを基にして、人物の骨格に基づく軸と、基準軸とのなす角度を基にして、学習部１４０ａが、シーン識別情報を判定しても良い。かかるシーン識別情報は、教師ラベルの役割を担う。人物の関節位置データは、モーションキャプチャ等を用いて取得できる。

シーン認識辞書作成用学習において、学習部１４０ａは、シーン認識用の教師ラベル「正面」が付与された複数の距離データ２１ａを基にして機械学習を行い、人方向「正面」の特徴量を抽出する。人方向「正面」と人方向「正面」の特徴量とを対応付けて、シーン認識辞書１３１に登録する。学習部１４０ａは、他の教師ラベル「左」、「後ろ」、「右」が付与された複数の距離データについても同様に機械学習を行う。人方向「左」、「後ろ」、「右」の各特徴量を、人方向「左」、「後ろ」、「右」と対応付けて、シーン認識辞書１３０ａに登録する。

学習部１４０ａが、骨格認識辞書１３０ｂを生成する場合には、教師データとして、部位ラベル画像、あるいは、骨格位置が紐づけられた距離画像２１ｂを入力として機械学習を行う。また、学習部１４０ａは、後述するように、人物の関節位置データを基にして、人物の骨格に基づく軸と、基準軸との角度を特定し、各シーン識別情報を判定してもよい。

図４は、自転方向および前転方向を説明する図である。図４に示すように、自転方向は、方向１Ａとなる。前転方向は、方向１Ｂとなる。この図は、人の骨格に基づく、２軸における角度をベースとしたシーン分類の例を示しているが、両者に垂直な軸を含んだ３軸に分割することも可能である。

図５は、自転方向のなす角を説明するための図である。自転方向のなす角は、線分１１と基準線１２ａとのなす角θ_１に対応する。例えば、線分１１は、人物の右肩１１ａと、左肩１１ｂとを結ぶ直線を、平面１３に射影した線分である。平面１３は、床に平行な平面としてもよい。人物の右肩１１ａおよび左肩１１ｂの位置は、人物の関節位置データにより特定される。基準線１２ａは、平面１３のＸ軸方向に水平な線分でも良いし、人物の開始タイミングにおける右肩１１ａと、左肩１１ｂとを結ぶ直線を平面１３に射影した線分でも良い。

続いて、学習部１４０ａが、学習画像分類時（シーンに応じて距離データを分類する場合）に人物の関節位置データを基にして、シーン識別情報を判定する処理の一例について説明する。学習部１４０ａによる、学習画像分類時には、なす角θ_１に応じて、人物の自転方向の姿勢を「正面」、「左側」、「後方」、「右側」のいずれかに分類する。図６は、自転方向の姿勢の分類基準の一例を示す図である。例えば、なす角θ_１が、θ_α１〜θ_α２の範囲に含まれる場合には、自転方向の姿勢を「正面」と判定する。なす角θ_１が、θ_α２〜θ_α３の範囲に含まれる場合には、自転方向の姿勢を「左側」と判定する。なす角θ_１が、θ_α３〜θ_α４の範囲に含まれる場合には、自転方向の姿勢を「後方」と判定する。なす角θ_１が、θ_α４〜θ_α１の範囲に含まれる場合には、自転方向の姿勢を「右側」と判定する。

図７は、前転方向のなす角を説明するための図である。前転方向のなす角は、線分１５と基準線１２ｂとのなす角θ_２となる。例えば、線分１５は、背骨上の１５ａ、１５ｂを通る直線を、平面１４に投影した線分である。背骨上の１５ａ、１５ｂの位置は、人物の関節位置データにより特定される。基準線１２ｂは、鉛直上方向の線分を、平面１４に投影した線分である。

学習部１４０ａによる、学習画像分類時には、なす角θ_２に応じて、人物の前転方向の姿勢を「正立」、「倒立」のいずれかに分類する。図８は、前転方向の姿勢の分類基準の一例を示す図である。例えば、なす角θ_２が、θ_β１（２８５°）〜θ_β２（１０５°）の範囲に含まれる場合には、前転方向の姿勢を「正立」と判定する。なす角θ_２が、θ_β2（１０５°）〜θ_β1（２８５°）の範囲に含まれる場合には、前転方向の姿勢を「倒立」と判定する。

学習部１４０ａによる、シーン認識辞書１３０ａ生成時には、関節位置データを基にして、なす角θ_１に対応する自転方向の姿勢と、なす角θ_２に対応する前転方向の姿勢とを判定し、自転方向の姿勢と前転方向の姿勢との組み合わせから、対応するシーン識別情報を特定する。

例えば、学習部１４０ａは、前転方向の姿勢が「正立」で、自転方向の姿勢が「正面」である場合には、「第１シーン」と判定する。学習部１４０ａは、前転方向の姿勢が「正立」で、自転方向の姿勢が「左側」である場合には、「第２シーン」と判定する。学習部１４０ａは、前転方向の姿勢が「正立」で、自転方向の姿勢が「後方」である場合には、「第３シーン」と判定する。学習部１４０ａは、前転方向の姿勢が「正立」で、自転方向の姿勢が「右側」である場合には、「第４シーン」と判定する。

例えば、学習部１４０ａは、前転方向の姿勢が「倒立」で、自転方向の姿勢が「正面」である場合には、「第５シーン」と判定する。学習部１４０ａは、前転方向の姿勢が「倒立」で、自転方向の姿勢が「左側」である場合には、「第６シーン」と判定する。学習部１４０ａは、前転方向の姿勢が「倒立」で、自転方向の姿勢が「後方」である場合には、「第７シーン」と判定する。学習部１４０ａは、前転方向の姿勢が「倒立」で、自転方向の姿勢が「右側」である場合には、「第８シーン」と判定する。

学習部１４０ａは、シーン認識辞書１３０ａ生成時において、種々の機械学習手法に基づき、シーン識別情報毎に、各距離データの特徴量をそれぞれ抽出する。図９は、距離データから特徴量を抽出する処理を説明するための図である。図９の説明では説明の便宜上、距離データを視覚的に示す距離画像２５を用いて説明する。学習部１４０ａは、注目ピクセル座標２５ａと、ベクトルｕ、ベクトルｖの組をランダムに複数設定する。学習部１４０ａは、距離画像２５に対し、注目ピクセル２５ａからベクトルｕ離れた選択ピクセル２５ｂの画素値が示す距離値と、注目ピクセル２５ａからベクトルｖ離れた選択ピクセル２５ｃの画素値が示す距離値の差を算出する。学習部１４０ａは、注目ピクセル２５ａと、ベクトルｕ、ベクトルｖの組の分だけ距離画像２５に対して距離差の算出を行い、それらの距離差を距離画像２５の特徴量として抽出する。学習部１４０ａは、各距離データ（距離画像）に対して同一の注目ピクセル２５ａと、ベクトルｕ、ベクトルｖの組を用いて特徴量を抽出する。学習部１４０ａは、各距離データの特徴量と、シーン識別情報をもとに、機械学習によってシーンを適切に分類する特徴量の閾値を決定し、シーン認識辞書１３０ａに登録する。すなわち、特徴量の閾値により、第１シーン〜第８シーンが切り分けられることになる。

より具体的には、学習部１４０ａは、特徴量１パラメータ：注目ピクセル座標ａ１(ｘ１，ｙ１)、ベクトルｕ１、ベクトルｖ１、特徴量２パラメータ：注目ピクセル座標ａ２(ｘ２，ｙ２)、ベクトルｕ２、ベクトルｖ２といったパラメータを複数（例えば、数百〜数千個程度）用意する。学習部１４０ａは、すべての学習画像（距離データ）に対し、上記の特徴量パラメータに基づく特徴量を計算し、任意の個数（例えば10〜20個程度）の特徴量を組合せて、例えば、特徴量７７の値がａ以上、かつ、特徴量５の値がｂ以上、かつ、…、かつ、特徴量１２３の値がｃ以上、の画像は第１シーン、特徴量７７の値がａ以上、かつ、特徴量５の値がｂ以上、かつ、…、かつ、特徴量１２３の値がｃ未満、の画像は第５シーンというような、各シーンをうまく切り分けられる特徴量と閾値との組合せを、機械学習によって見つけて、シーン認識辞書１３０ａとする。

学習部１４０ａは、骨格認識辞書１３０ｂの生成時には、距離画像と、部位ラベル画像、あるいは、骨格３次元座標を基にして、シーン識別情報毎の骨格認識辞書を生成する。例えば、骨格認識辞書は、距離データと、人物の関節位置の情報とを対応づけた情報である。

学習部１４０ａは、骨格認識辞書１３０ｂの生成時には、シーン識別情報毎の関節位置データを利用することで、自動的に辞書を生成する。学習部１４０ａ、上記処理と同様の処理を行うことで、あらかじめ判明している両肩の関節位置からシーン識別情報を特定できる。この特定したシーン（例えば、第１シーン）に対して、該当する距離画像と部位ラベル画像、あるいは、距離画像と骨格３次元座標を選別し、特定シーンの骨格認識辞書１３０ｂを自動的に作成する。他のシーン「第２シーン〜第８シーン等」においても、第１シーンと同様にして特定し、骨格認識辞書１３０ｂに登録できる。

なお、本実施例１では、自転方向における、シーンの区切りおよび骨格認識辞書１３０ｂの学習範囲を、９０度単位の４方向としていたが、これに限定されるものではない。例えば、９０度単位の４方向でシーン分けを行い、各シーン両端３０度ずつ広い範囲で学習した骨格認識の結果を、該当する骨格認識辞書１３０ｂとしてもよい。

図１０及び図１１は、骨格認識辞書の選択範囲と学習範囲との一例を示す図である。図１０に示すように、例えば、自転方向の範囲Ｇ１に対応する正面辞書を学習する場合には、範囲Ｇ１よりも両端３０度ずつ広い範囲ｇ１で、正面辞書の学習を行う。自転方向の範囲Ｇ２に対応する左側辞書を学習する場合には、範囲Ｇ２よりも両端３０度ずつ広い範囲ｇ２で、左側辞書の学習を行う。自転方向の範囲Ｇ３に対応する後方辞書を学習する場合には、範囲Ｇ３よりも両端３０度ずつ広い範囲ｇ３で、背面辞書の学習を行う。自転方向の範囲Ｇ４に対応する右側辞書を学習する場合には、範囲Ｇ４よりも両端３０度ずつ広い範囲ｇ４で、右側辞書の学習を行う。なお、ここでは、選択範囲を９０度、学習範囲を３０度ずつ広い範囲に設定する場合について説明したが、これに限定されるものではない。

また、図１１に示すように、自転方向、前転方向それぞれ、３０度毎に該当する角度を中心とした±３０度の範囲で学習した１２通りの骨格認識辞書で、骨格認識を行っても良い。例えば、人の向き３０度に用いる骨格認識辞書の学習範囲を、範囲Ｈ１とする。人の向き０度に用いる骨格認識辞書の学習範囲を、範囲Ｈ２とする。人の向き３３０度に用いる骨格認識辞書の学習範囲を、範囲Ｈ３とする。なお、図１１に示す例では、±３０度にしたが、これに限定されるものではない。

また、学習部１４０ａは、シーン認識辞書１３０ａおよび骨格認識辞書１３０ｂを生成する場合に、人物の関節位置の情報を基にして、距離データ（距離画像）、部位ラベル画像、あるいは、骨格３次元座標等をソートしておき、ソートしておいた情報を用いて、シーン認識辞書１３０ａおよび骨格認識辞書１３０ｂを生成してもよい。

シーン認識部１４０ｂは、距離センサ２０から認識用データを認識用データバッファ１３０ｃに格納する。シーン認識部１４０ｂは、認識用データの特徴と、シーン認識辞書１３０ａとを基にして、認識用データに対応するシーン識別情報を判定する。シーン認識部１４０ｂは、判定したシーン識別情報を、骨格認識部１４０ｃに出力する。

シーン認識部１４０ｂがシーン認識辞書１３０ａに設定された特徴量の閾値を基に、シーンを認識する処理の一例について説明する。説明の便宜上、シーン識別情報「第１シーン」に対応する距離データＡの特徴量を「ａ１」とし、シーン識別情報「第２シーン」に対応する距離データＢの特徴量を「ｂ１」とする。ただし、ａ１＜ｂ１とする。また、認識用データ（距離データＣ）の特徴量を「ｃ１」とする。ここで、特徴量ｃ１が、（ａ１＋ｂ１）／２より小さい場合には、シーン識別部１４０ｂは、認識用データに対応するシーン識別情報が「第１シーン」であると判定する。一方、特徴量ｃ１が、（ａ１＋ｂ１）／２より大きい場合には、シーン識別部１４０ｂは、認識用データに対応するシーン識別情報が「第２シーン」であると判定する。

なお、シーン認識辞書１３０ａが、各シーンを複数の特徴量の値の閾値により、切り分けている場合には、シーン認識部１４０ｂは、認識用データについて、各特徴量（例えば、上記の特徴量７７、５、・・・、１２３）の値を求め、各特徴量の値が閾値を超えたか否かにより、シーンを認識する。例えば、シーン認識部１４０ｂは、認識用データに関する特徴量７７の値がａ以上、かつ、特徴量５の値がｂ以上、かつ、…、かつ、特徴量１２３の値がｃ以上、の場合には、認識用データが、第１シーンであると認識する。

骨格認識部１４０ｃは、シーン認識部１４０ｂに認識されたシーン識別情報に対応する骨格認識辞書１３０ｂの情報を基にして、対象者６ａの骨格位置を認識する処理部である。

認識装置１００は、骨格認識部１４０ｃに生成された情報を基にして、対象者６ａの技名を判定する技判定部を更に有していても良い。

次に、本実施例１に係る学習部１４０ａの処理手順の一例について説明する。図１２は、本実施例１に係る学習部の処理手順を示すフローチャートである。図１２に示すように、学習部１４０ａは、学習データを取得する（ステップＳ１０１）。ここで、学習データは、シーン識別辞書１３０ａ、骨格認識辞書１３０ｂを生成するためのデータであり、例えば、関節位置データ、距離データ（距離画像）、部位ラベル画像、あるいは、骨格３次元座標の情報を含む。

学習部１４０ａは、なす角を求める軸を選択する（ステップＳ１０２）。学習部１４０ａは、選択した軸に関し、２関節を端点とする線分と基準線とのなす角を算出する（ステップＳ１０３）。

学習部１４０ａは、シーン分類に使用する全ての軸のなす角を算出済みである場合には（ステップＳ１０４，Ｙｅｓ）、ステップＳ１０５に移行する。一方、学習部１４０ａは、シーン分類に使用する全ての軸のなす角を算出済みでない場合には（ステップＳ１０４，Ｎｏ）、ステップＳ１０２に移行する。

学習部１４０ａは、シーン識別情報毎に距離データを分類する（ステップＳ１０５）。学習部１４０ａは、該当するシーン識別情報について、分類された距離データの特徴量を抽出し、シーン認識辞書１３０ａを生成する（ステップＳ１０６）。

学習部１４０ａは、シーン識別情報毎に関節位置データ（距離データ（距離画像）、部位ラベル画像、あるいは、骨格３次元座標の情報）を分類する（ステップＳ１０７）。学習部１４０ａは、該当するシーン識別情報について、分類された関節位置データを基にして、骨格認識辞書１３０ｂを生成する（ステップＳ１０８）。

図１３は、本実施例１に係る認識装置の認識処理の処理手順を示すフローチャートである。図１３に示すように、認識装置１００のシーン認識部１４０ｂは、距離センサ２０から認識用データを取得する（ステップＳ２０１）。

認識装置１００のシーン認識部１４０ｂは、認識用データと、シーン認識辞書１３０ａとを比較して、認識用データのシーン識別情報を判定する（ステップＳ２０２）。認識装置１００の骨格認識部１４０ｃは、判定されたシーン識別情報に対応する骨格認識辞書１３０ｂの情報を選択する（ステップＳ２０３）。

骨格認識部１４０ｃは、認識用データと、選択した骨格認識辞書１３０ｂの情報とを基にして、骨格を認識する（ステップＳ２０４）。骨格認識部１４０ｃは、骨格認識結果を出力する（ステップＳ２０５）。

次に、本実施例１に係る認識装置１００の効果について説明する。認識装置１００は、人の骨格に基づいた軸と複数の基準軸との角度により特定されるシーン識別情報と距離データの特徴とを対応づけたシーン認識辞書１３０ａおよびシーン識別情報と距離データと人物の関節位置とを対応づけた骨格認識辞書１３０ｂを記憶部１３０に格納する。そして、認識装置１００は、認識用データを取得すると、シーン認識辞書１３０ａを基にして、シーン識別情報を特定し、特定したシーン識別情報に対応する骨格認識辞書１３０ｂの情報を用いて、対象者の骨格認識を行う。このように、限定された姿勢で構成された骨格認識辞書１３０ｂにより骨格認識ができるようになるため、骨格認識精度が向上する。

また、認識装置１００は、シーン認識の特定領域における人の向きの範囲より、シーンで選択される骨格認識の辞書に含まれる人の向きの範囲を大きくとることにより、シーン認識時に人の向きの角度検出に誤差があっても、正確な姿勢を認識できる。

ところで、上述した実施例１に係る学習部１４０ａは、一例として、ランダムフォレストを用いて、同一のシーン識別情報に分類される複数の距離データから特徴量を抽出する処理を繰り返し実行することで、シーン認識辞書１３０ａを生成していた。しかし、学習部１４０ａが特徴量を抽出する処理は、これに限定されるものではない。

例えば、学習部１４０ａは、ディープラーニングを用いて、距離データの特徴量を自動的に抽出する手法を用いても良い。学習部１４０ａは、正解となるシーン識別情報と、距離画像データとを、多層化されたニューラルネットワークに繰り返し入力して学習させることで、距離データを正解となるシーン識別情報に導くための「重み」を自動的に決定する。学習部１４０ａは、ディープラーニングを用いて、自動的に決定された「重み」を、シーン識別情報に対応する「特徴量」とする。ディープラーニングを用いて特徴量を自動的に抽出することで、シーン認識の正答率を向上することができる。

図１４は、本実施例２に係るシステムの構成を示す図である。図１４に示すように、このシステムは、距離センサ７０ａ、７０ｂ、７０ｃと、認識装置２００とを有する。認識装置２００は、距離センサ７０ａ〜７０ｃに接続される。なお、距離センサ７０ａ〜７０ｃは、対象者６ａを囲むように配置される。なお、本実施例２では一例として、認識装置２００が、シーン認識辞書と、骨格認識辞書とを学習する場合について説明するが、認識装置２００以外の外部の計算機が、シーン認識辞書と、骨格認識辞書とを学習し、かかるシーン認識辞書と、骨格認識辞書とを、認識装置２００が蓄積しても良い。

実施例１で示した例では、単一の距離センサ２０を用いているため、距離センサ２０から人物のセンサ側の各観測点までの距離しか計測できない。これに対して、実施例２では、複数の距離センサ７０ａ〜７０ｃを用いることで、人物の全方向の各観測点までの距離を計測することができる。

距離センサ７０ａ〜７０ｃは、距離センサの設置位置から、距離センサの撮影範囲に含まれる対象者６ａ上の各観測点までの距離情報を計測するセンサである。以下の説明では、距離センサ７０ａ〜７０ｃをまとめて、距離センサ７０と表記する。距離センサ７０は、学習フェーズおよび認識フェーズにおいて動作する。距離センサ７０は、各観測点の３次元座標を示す距離データ（３次元点群データ）を生成し、生成した距離データを認識装置２００に出力する。図１５は、３次元点群データの一例を示す図である。３次元点群データは、各距離センサ７０ａ〜７０ｃから人物までの各観測点までの距離をまとめた情報である。

図１６は、本実施例２に係る認識装置の構成を示す機能ブロック図である。図１６に示すように、この認識装置２００は、入力部２１０と、表示部２２０と、記憶部２３０と、制御部２４０とを有する。また、認識装置２００は、距離センサ７０ａ〜７０ｃに接続される。入力部２１０、表示部２２０に関する説明は、図２に示した入力部１１０、表示部１２０に関する説明と同様である。

記憶部２３０は、シーン認識辞書２３０ａと、骨格認識辞書２３０ｂと、認識用データバッファ２３０ｃとを有する。記憶部２３０は、ＲＡＭ、ＲＯＭ、フラッシュメモリなどの半導体メモリ素子や、ＨＤＤなどの記憶装置に対応する。

シーン認識辞書２３０ａは、認識用データが、いずれのシーンに対応するのかを判定する際に用いられる辞書情報である。例えば、シーン認識辞書２３０ａは、シーンを一意に識別するシーン識別情報と、係るシーン識別情報に対応する距離データの特徴量とを対応づける。特徴量は、該当するシーンに対応する３次元点群データの特徴量である。例えば、３次元点群データの特徴量は、機械学習に基づいて特定される。

骨格認識辞書２３０ｂは、単一のシーンの仮定の関節位置（骨格位置）を示す辞書情報である。例えば、骨格認識辞書２３０ｂは、所定のシーン識別情報と、所定のシーン識別情報に対応する距離データと、人物の関節位置の情報とを対応づける。

認識用データバッファ２３０ｃは、認識用データを格納するバッファである。認識用データは、各距離センサ７０から出力される距離データをまとめた３次元点群データである。

制御部２４０は、学習部２４０ａ、シーン認識部２４０ｂ、骨格認識部２４０ｃを有する。制御部２４０は、ＣＰＵやＭＰＵなどによって実現できる。また、制御部２４０は、ＡＳＩＣやＦＰＧＡなどのハードワイヤードロジックによっても実現できる。

学習部２４０ａは、シーン認識辞書２３０ａおよび骨格認識辞書２３０ｂを生成する処理部である。まず、学習部２４０ａがシーン認識辞書２３０ａを生成する処理の一例について説明する。学習部２４０ａは、距離データから、シーン識別情報毎の特徴量を抽出することで、シーン認識辞書２３０ａを生成する。

例えば、学習部２４０ａは、人物の関節位置データに基づき、第１シーンに分類された距離データの各３次元点群データの特徴量をそれぞれ抽出する。学習部２４０ａは、各３次元点群データから抽出した各特徴量に対し、各シーンをうまく切り分けられる特徴量と閾値との組合せを、機械学習によって見つけ、シーン認識辞書２３０ａに登録する。

学習部２４０ａが骨格認識辞書２３０ｂを生成する処理の一例について説明する。学習部２４０ａは、所定のシーン識別情報に対応する関節位置データ（距離画像と、部位ラベル画像、あるいは、骨格３次元座標）を取得し、所定のシーン識別情報と関節位置データとを対応付けて、骨格認識辞書２３０ｂに登録する処理部である。本実施例２では一例として、所定のシーン識別情報を「第１シーン」とする。

シーン認識部２４０ｂは、距離センサ７０から取得する認識用データを、認識用データバッファ２３０ｃに格納する。シーン認識部２４０ｂは、認識用データバッファ２３０ｃに格納された認識用データを取得し、取得した認識用データの特徴量と、シーン認識辞書２３０ａとを比較することで、取得した認識用データのシーン識別情報を特定する処理部である。シーン認識部２４０ｂは、判定結果のシーン識別情報と、認識用データとを骨格認識部２４０ｃに出力する。

骨格認識部２４０ｃは、認識用データから対象者６ａの骨格位置を認識する処理部である。骨格認識部２３０ｂは、シーン認識部２４０ｂの判定結果となるシーン識別情報が「第１シーン」である場合には、認識用データと、骨格認識辞書２３０ｂとを比較することで、対象者６ａの関節位置を特定する。

骨格認識部２４０ｃは、シーン認識部２４０ｂの判定結果となるシーン識別情報が「第１シーン以外」である場合には、第１シーンに対応する向きとなるように、認識用データの３次元点群データの向きを回転する。例えば、第２〜第８シーンそれぞれについて、３次元点群データの向きを、どの方向にどれだけ回転するかの情報が予め定義されており、骨格認識部２４０ｃは、係る情報を基にして、３次元点群データの向きを回転する。骨格認識部２４０ｃは、回転した認識用データと、骨格認識辞書２３０ｂとを比較することで、対象者６ａの関節位置を特定する。

次に、本実施例２に係る認識装置２００の処理手順の一例について説明する。図１７は、本実施例２に係る学習部の処理手順を示すフローチャートである。図１７に示すように、学習部２４０ａは、学習データを取得する（ステップＳ３０１）。ここで、学習データは、シーン識別辞書２３０ａ、骨格認識辞書２３０ｂを生成するためのデータであり、例えば、関節位置データ、距離データ（距離画像）、部位ラベル画像、あるいは、骨格３次元座標の情報を含む。学習部２４０ａは、なす角を求める軸を選択する（ステップＳ３０２）。学習部２４０ａは、選択した軸に関し、２関節を端点とする線分と基準線とのなす角を算出する（ステップＳ３０３）。

学習部２４０ａは、シーン分類に使用する全ての軸のなす角を算出済みである場合には（ステップＳ３０４，Ｙｅｓ）、ステップＳ３０５に移行する。一方、学習部２４０ａは、シーン分類に使用する全ての軸のなす角を算出済みでない場合には（ステップＳ３０４，Ｎｏ）、ステップＳ３０２に移行する。

学習部２４０ａは、シーン識別情報毎に距離データを分類する（ステップＳ３０５）。学習部２４０ａは、該当するシーン識別情報について、分類された距離データの特徴量を抽出し、シーン認識辞書２３０ａを生成する（ステップＳ３０６）。

学習部２４０ａは、シーン識別情報毎に関節位置データ（距離データ（距離画像）、部位ラベル画像、あるいは、骨格３次元座標の情報）を分類する（ステップＳ３０７）。学習部２４０ａは、所定のシーン識別情報に対応する関節位置データを基にして、骨格認識辞書２３０ｂを生成する（ステップＳ３０８）。

図１８は、本実施例２に係る認識装置の認識処理の処理手順を示すフローチャートである。図１８に示すように、認識装置２００のシーン認識部２４０ｂは、距離センサ７０から認識用データを取得する（ステップＳ４０１）。

シーン認識部２４０ｂは、認識用データと、シーン認識辞書２３０ａとを比較して、認識用データのシーン識別情報を判定する（ステップＳ４０２）。認識装置２００の骨格認識部２４０ｃは、判定されたシーン識別情報が、所定のシーン識別情報であるか否かを判定する（ステップＳ４０３）。本実施例２では、一例として所定のシーン識別情報を「第１シーン」として説明を行った。上記のように、第１シーンは、対象者６ａの前転方向の姿勢が「正立」で、自転方向の姿勢が「正面」となるシーンである。

認識装置２００の骨格認識部２４０ｃは、判定されたシーン識別情報が、所定のシーン識別情報である場合には（ステップＳ４０４，Ｙｅｓ）、ステップＳ４０６に移行する。一方、骨格認識部２４０ｃは、判定されたシーン識別情報が、所定のシーン識別情報でない場合には（ステップＳ４０４，Ｎｏ）、ステップＳ４０５に移行する。

骨格認識部２４０ｃは、所定のシーン識別情報（第１シーン）となるように、認識用データの３次元点群データの向きを補正（回転）する（ステップＳ４０５）。骨格認識部２４０ｃは、認識用データと、骨格認識辞書２３０ｂの関節位置データとを基にして、骨格を認識する（ステップＳ４０６）。骨格認識部２４０ｃは、骨格認識結果を出力する（ステップＳ４０７）。

次に、本実施例２に係る認識装置２００の効果について説明する。認識装置２００は、体の正面など１方向のみから見た骨格認識辞書２３０ｂを用意する。認識装置２００は、認識時において、シーン分類を行った後に、３次元点群データの向きを、骨格認識辞書２３０ｂの想定する向きに合わせた後に、骨格認識を実施する。この結果、骨格認識辞書２３０ｂの１シーンのみ準備すれば良くなり、学習時間が短縮可能となる。

なお、本実施例１、２では一例として、距離センサ２０、７０を用いて、シーン識別情報を判定していたがこれに限定されるものではない。例えば、認識装置１００、２００は、ＲＧＢカメラに接続し、このＲＧＢカメラにより撮影される画像データを基にして、対象者６ａのシーン識別情報を判定しても良い。

次に、上記実施例に示した認識装置１００、２００と同様の機能を実現するコンピュータのハードウェア構成の一例について説明する。図１９は、認識装置と同様の機能を実現するコンピュータのハードウェア構成の一例を示す図である。

図１９に示すように、コンピュータ３００は、各種演算処理を実行するＣＰＵ３０１と、ユーザからのデータの入力を受け付ける入力装置３０２と、ディスプレイ３０３とを有する。また、コンピュータ３００は、記憶媒体からプログラム等を読み取る読み取り装置３０４と、有線または無線ネットワークを介して他のコンピュータとの間でデータの授受を行うインターフェース装置３０５とを有する。例えば、インターフェース装置３０５は、距離センサ２０、７０ａ〜７０ｃ等に接続される。また、コンピュータ３００は、各種情報を一時記憶するＲＡＭ３０６と、ハードディスク装置３０７とを有する。そして、各装置３０１〜３０７は、バス３０８に接続される。

ハードディスク装置３０７は、学習プログラム３０７ａ、シーン認識プログラム３０７ｂ、骨格認識プログラム３０７ｃを有する。ＣＰＵ３０１は、学習プログラム３０７ａ、シーン認識プログラム３０７ｂ、骨格認識プログラム３０７ｃを読み出してＲＡＭ３０６に展開する。

学習プログラム３０７ａは、学習プロセス３０６ａとして機能する。シーン認識プログラム３０７ｂは、シーン認識プロセス３０６ｂとして機能する。骨格認識プログラム３０７ｃは、骨格認識プロセス３０６ｃとして機能する。

学習プロセス３０６ａの処理は、学習部１４０ａ、２４０ａの処理に対応する。シーン認識プロセス３０６ｂの処理は、シーン認識部１４０ｂ、２４０ｂの処理に対応する。骨格認識プロセス３０６ｃの処理は、骨格認識部１４０ｃ、２４０ｃの処理に対応する。

なお、各プログラム３０６ａ〜３０７ｃについては、必ずしも最初からハードディスク装置３０７に記憶させておかなくても良い。例えば、コンピュータ３００に挿入されるフレキシブルディスク（ＦＤ）、ＣＤ−ＲＯＭ、ＤＶＤディスク、光磁気ディスク、ＩＣカードなどの「可搬用の物理媒体」に各プログラムを記憶させておく。そして、コンピュータ３００が各プログラム３０６ａ〜３０７ｃを読み出して実行するようにしても良い。

２０、７０ａ、７０ｂ、７０ｃ距離センサ
１００、２００認識装置

Claims

人物までの距離情報に含まれる前記人物の特徴と、互いに直交する複数の基準軸と人の骨格に基づくベクトルとのなす角により特定されるシーンとを対応づけるシーン認識辞書と、前記シーンに応じた距離情報と前記人物の関節位置とを対応づけた骨格認識辞書とを記憶する記憶部と、
対象者の距離情報となる認識距離情報を取得した場合に、前記認識距離情報の特徴と、前記シーン認識辞書とを基にして、前記認識距離情報に対応するシーンを認識するシーン認識部と、
前記シーン認識部により認識されたシーンの認識結果と、前記認識距離情報と、前記骨格認識辞書とを基にして、前記対象者の骨格を認識する骨格認識部と
を有することを特徴とする認識装置。
前記人物の関節位置の情報と対応づけられた距離情報を複数取得し、複数の距離情報を、前記関節位置の情報を基にして分類し、分類した結果を基にして、前記シーン認識辞書および前記骨格認識辞書を生成する学習部を更に有することを特徴とする請求項１に記載の認識装置。
前記骨格認識辞書を生成する場合に使用する距離画像は、モーションキャプチャ時に測定された人の関節位置情報を基に作成され、かつ、シーン毎の人の向きと対応づけられており、前記学習部は、所定シーンに対応する骨格認識辞書を生成する場合に、複数の距離画像を前記人の関節位置情報を基にして分類し、分類した距離画像毎に、骨格認識辞書を生成することを特徴とする請求項２に記載の認識装置。
前記学習部は、所定シーンと前記所定シーンに対応する前記対象者の距離情報との組を多階層のニューラルネットワークに繰り返し入力することで、前記対象者の距離情報を前記所定シーンに導くためのニューラルネットワークの重みを決定させ、決定された重みを前記所定シーンの特徴として抽出し、前記シーン認識辞書を生成することを特徴とする請求項２に記載の認識装置。
前記骨格認識辞書は、単一の所定シーンに対応する距離情報と前記人物の関節位置との情報を有し、前記骨格認識部は、前記シーン認識部により認識されたシーンに対応する前記認識結果の距離情報を、前記単一の所定シーンに対応する距離情報に回転し、回転した距離情報と、前記骨格認識辞書とを基にして、前記対象者の骨格位置を認識することを特徴とする請求項１に記載の認識装置。
コンピュータが実行する認識方法であって、
人物までの距離情報に含まれる前記人物の特徴と、互いに直交する複数の基準軸と人の骨格に基づくベクトルとのなす角により特定されるシーンとを対応づけるシーン認識辞書と、前記シーンに応じた距離情報と前記人物の関節位置とを対応づけた骨格認識辞書とを記憶する記憶装置を参照し、対象者の距離情報となる認識距離情報を取得した場合に、前記認識距離情報の特徴と、前記シーン認識辞書とを基にして、前記認識距離情報に対応するシーンを認識し、
認識したシーンの認識結果と、前記認識距離情報と、前記骨格認識辞書とを基にして、前記対象者の骨格を認識する
処理を実行することを特徴とする認識方法。
コンピュータが実行する認識プログラムであって、
人物までの距離情報に含まれる前記人物の特徴と、互いに直交する複数の基準軸と人の骨格に基づくベクトルとのなす角により特定されるシーンとを対応づけるシーン認識辞書と、前記シーンに応じた距離情報と前記人物の関節位置とを対応づけた骨格認識辞書とを記憶する記憶装置を参照し、対象者の距離情報となる認識距離情報を取得した場合に、前記認識距離情報の特徴と、前記シーン認識辞書とを基にして、前記認識距離情報に対応するシーンを認識し、
認識したシーンの認識結果と、前記認識距離情報と、前記骨格認識辞書とを基にして、前記対象者の骨格を認識する
処理を実行させることを特徴とする認識プログラム。