JP6760490B2 - 認識装置、認識方法および認識プログラム - Google Patents
認識装置、認識方法および認識プログラム Download PDFInfo
- Publication number
- JP6760490B2 JP6760490B2 JP2019512072A JP2019512072A JP6760490B2 JP 6760490 B2 JP6760490 B2 JP 6760490B2 JP 2019512072 A JP2019512072 A JP 2019512072A JP 2019512072 A JP2019512072 A JP 2019512072A JP 6760490 B2 JP6760490 B2 JP 6760490B2
- Authority
- JP
- Japan
- Prior art keywords
- recognition
- scene
- skeleton
- distance information
- dictionary
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Active
Links
- 238000000034 method Methods 0.000 title claims description 44
- 239000013598 vector Substances 0.000 claims description 15
- 238000013528 artificial neural network Methods 0.000 claims description 3
- 238000010586 diagram Methods 0.000 description 40
- 238000010801 machine learning Methods 0.000 description 10
- 239000000284 extract Substances 0.000 description 7
- 230000006870 function Effects 0.000 description 6
- 230000001815 facial effect Effects 0.000 description 4
- 238000013135 deep learning Methods 0.000 description 3
- 238000007796 conventional method Methods 0.000 description 2
- 238000001514 detection method Methods 0.000 description 2
- 230000000694 effects Effects 0.000 description 2
- 238000003384 imaging method Methods 0.000 description 2
- 238000009434 installation Methods 0.000 description 2
- 239000004065 semiconductor Substances 0.000 description 2
- 230000006866 deterioration Effects 0.000 description 1
- 239000004973 liquid crystal related substance Substances 0.000 description 1
- 238000007637 random forest analysis Methods 0.000 description 1
Images
Classifications
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06T—IMAGE DATA PROCESSING OR GENERATION, IN GENERAL
- G06T7/00—Image analysis
- G06T7/70—Determining position or orientation of objects or cameras
- G06T7/73—Determining position or orientation of objects or cameras using feature-based methods
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F16/00—Information retrieval; Database structures therefor; File system structures therefor
- G06F16/50—Information retrieval; Database structures therefor; File system structures therefor of still image data
- G06F16/58—Retrieval characterised by using metadata, e.g. metadata not derived from the content or metadata generated manually
- G06F16/583—Retrieval characterised by using metadata, e.g. metadata not derived from the content or metadata generated manually using metadata automatically derived from the content
- G06F16/5854—Retrieval characterised by using metadata, e.g. metadata not derived from the content or metadata generated manually using metadata automatically derived from the content using shape and object relationship
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F18/00—Pattern recognition
- G06F18/20—Analysing
- G06F18/21—Design or setup of recognition systems or techniques; Extraction of features in feature space; Blind source separation
- G06F18/214—Generating training patterns; Bootstrap methods, e.g. bagging or boosting
- G06F18/2148—Generating training patterns; Bootstrap methods, e.g. bagging or boosting characterised by the process organisation or structure, e.g. boosting cascade
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F18/00—Pattern recognition
- G06F18/20—Analysing
- G06F18/28—Determining representative reference patterns, e.g. by averaging or distorting; Generating dictionaries
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06T—IMAGE DATA PROCESSING OR GENERATION, IN GENERAL
- G06T7/00—Image analysis
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06V—IMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
- G06V40/00—Recognition of biometric, human-related or animal-related patterns in image or video data
- G06V40/20—Movements or behaviour, e.g. gesture recognition
- G06V40/23—Recognition of whole body movements, e.g. for sport training
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06T—IMAGE DATA PROCESSING OR GENERATION, IN GENERAL
- G06T2207/00—Indexing scheme for image analysis or image enhancement
- G06T2207/10—Image acquisition modality
- G06T2207/10028—Range image; Depth image; 3D point clouds
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06T—IMAGE DATA PROCESSING OR GENERATION, IN GENERAL
- G06T2207/00—Indexing scheme for image analysis or image enhancement
- G06T2207/20—Special algorithmic details
- G06T2207/20081—Training; Learning
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06T—IMAGE DATA PROCESSING OR GENERATION, IN GENERAL
- G06T2207/00—Indexing scheme for image analysis or image enhancement
- G06T2207/20—Special algorithmic details
- G06T2207/20084—Artificial neural networks [ANN]
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06T—IMAGE DATA PROCESSING OR GENERATION, IN GENERAL
- G06T2207/00—Indexing scheme for image analysis or image enhancement
- G06T2207/30—Subject of image; Context of image processing
- G06T2207/30196—Human being; Person
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06T—IMAGE DATA PROCESSING OR GENERATION, IN GENERAL
- G06T2207/00—Indexing scheme for image analysis or image enhancement
- G06T2207/30—Subject of image; Context of image processing
- G06T2207/30221—Sports video; Sports image
Landscapes
- Engineering & Computer Science (AREA)
- Theoretical Computer Science (AREA)
- Physics & Mathematics (AREA)
- General Physics & Mathematics (AREA)
- Computer Vision & Pattern Recognition (AREA)
- Data Mining & Analysis (AREA)
- General Engineering & Computer Science (AREA)
- Library & Information Science (AREA)
- Evolutionary Biology (AREA)
- Bioinformatics & Computational Biology (AREA)
- Bioinformatics & Cheminformatics (AREA)
- Evolutionary Computation (AREA)
- Artificial Intelligence (AREA)
- Life Sciences & Earth Sciences (AREA)
- Databases & Information Systems (AREA)
- Health & Medical Sciences (AREA)
- General Health & Medical Sciences (AREA)
- Psychiatry (AREA)
- Social Psychology (AREA)
- Human Computer Interaction (AREA)
- Multimedia (AREA)
- Image Analysis (AREA)
- Image Processing (AREA)
Description
本発明は、認識装置等に関する。
近年、距離センサでセンシングした結果の距離データ(距離画像)またはRGB(Red Green Blue)画像を基にして、機械学習による辞書を作成し、作成した辞書を用いて、人体の骨格を認識する技術がある。
図20は、従来の骨格認識システムの一例を示す図である。図20に示す例では、距離センサ5aを用いてセンシングすることで、対象者6aを含む距離データ5bを取得し、距離データ5bと辞書5cとを用いて、対象者6aの3次元骨格位置6bを推定する。辞書5cは、予め機械学習しておく。
なお、従来技術1に開示されているように、画像データから人体に対応するピクセルを抽出し、抽出したピクセルの各部分を、人体部位にラベル分けを行うことで、人体の骨格モデルを推定する技術も開示されている。
ここで、人体の骨格を認識する場合には、学習時に認識対象となるあらゆる動作を学習することが前提となるため、例えば、単一の辞書を用いて、体操競技のように複雑で広範囲な動作を認識しようとすると、認識精度が低下してしまう。
認識精度の低下を防止するものとして、従来技術2がある。従来技術2は、顔の特徴点認識に関する技術である。顔の特徴点は、目、鼻、口の位置等を示す点である。従来技術2は、学習データを、正面、右、左等の方向に応じて分割し、分割した各学習データで顔特徴点の学習を行う。以下に、図21および図22を用いて、従来技術2の一例について説明する。
図21は、従来技術2による顔特徴点の学習例を示す図である。従来技術2による特徴点の学習は、予め顔の方向に応じて分類された画像と、その画像における顔特徴点とを示す教師データを用いて、方向毎に独立して機械学習を行う。これにより、入力される顔画像の方向を限定して特徴点を認識する。
図21に示す例では、左向き学習画像と顔特徴点との教師データ1aを用いて、左向き顔画像の特徴点を学習することで、左向き用識別器2aを得る。正面向き学習画像と顔特徴点との教師データ1bを用いて、正面向き顔画像の特徴点を学習することで、正面向き用識別器2bを得る。右向き学習画像と顔特徴点との教師データ1cを用いて、右向き顔画像の特徴点を学習することで、右向き用識別器2cを得る。
図22は、従来技術2による特徴点の認識処理を示す図である。図22に示すように、従来技術2は、顔画像3aを受け付けると、顔方向識別器4を基にして、顔画像3aの方向を認識する。従来技術2は、方向の認識結果を基にして、識別器2a〜2cのうちいずれかの識別器を選択し、選択した識別器を用いて、顔画像3aの特徴点を認識することで、認識結果3bを得る。このように、従来技術2では、顔画像の方向に応じて、識別器を使い分けることで、特徴点の認識精度を高めている。
J. Shotton,A. Fitzgibbon,M. Cook, T. Sharp, M. Finocchio,R. Moore,A. Kipman, A. Blake "Real-time human pose recognition in parts from a single depth image," CVPR,pp. 1297-1304, 2011.
M. Dantone, J. Gall, G. Fanelli and L. Van Gool, Real-time facial feature detection using conditional regression forests," CVPR, pp.2578-2585, 2012.
しかしながら、上述した従来技術では、人体の骨格認識の精度が低いという問題がある。
例えば、従来技術2では、顔方向識別器4を用いて、顔画像3aの方向を認識しているが、従来技術1で説明したような対象が複雑な動きをするものについては、顔画像と同様にして、シーンを識別することが難しい。シーンを精度良く識別できないと、最適な辞書を用いることができず、結果として、認識精度が低下する。
本発明は、上記に鑑みてなされたものであって、人体の骨格認識の精度を向上させることができる装置を提供することを目的とする。
第1の案では、認識装置は、記憶部と、シーン認識部と、骨格認識部とを有する。記憶部は、人物までの距離情報に含まれる人物の特徴と、互いに直交する複数の基準軸と人の骨格に基づくベクトルとのなす角により特定されるシーンとを対応づけるシーン認識辞書と、シーンに応じた距離情報と人物の関節位置とを対応づけた骨格認識辞書とを記憶する。シーン認識部は、対象者の距離情報となる認識用データを取得した場合に、認識用データの特徴と、シーン認識辞書とを基にして、認識用データに対応するシーンを認識する。骨格認識部は、シーン認識部により認識されたシーンの認識結果と、認識用データと、骨格認識辞書とを基にして、対象者の骨格を認識する。
人体の骨格認識の精度を向上させることができる。
以下に、本発明にかかる認識装置、認識方法および認識プログラムの実施例を図面に基づいて詳細に説明する。なお、この実施例によりこの発明が限定されるものではない。
図1Aは、本実施例1で扱う人の方向の定義例を示す図である。図1Aに示すように、地面に垂直な直線を軸として人が正面を向いている場合を代表して0°とする。人が左を向いている場合を90°とする。人が後ろを向いている場合を180°とする。人が右を向いている場合を270°とする。本実施例1では、90°単位で4分割した単位毎に方向を認識して骨格認識を行う。例えば、315°〜45°を正面、45°〜135°を左、135°〜225°を後ろ、225°〜315°を右とする。
図1Bおよび図1Cは、本実施例1で扱う方向の認識単位、認識範囲、学習範囲の一例を示す図である。例えば、認識装置は、人方向の認識の際は狭い範囲で認識し、関節位置の推定の際には各認識単位を複数結合した広い範囲によって、学習した結果を用いる。図1Cは、方向認識時の認識単位例を示す。認識装置が、方向認識を行う時点で、30°単位で学習・認識を行い、その結果を90°単位にまとめ、最終的に正面のグループG1、左のグループG2、後ろのグループG3、右のグループG4のいずれかに確定する。
図1Bに示すように、認識装置は、認識範囲A1の単位で、方向を確定する。例えば、認識範囲A1の単位は、図1Cで説明した各グループG1〜G4の単位(90°単位)に対応する。また、認識時の実際の人の方向が4分割の境界付近であった場合には、認識装置は、骨格認識時の精度低下を防止するために、学習範囲A2のデータを用いて学習を行う。例えば、学習範囲A2は、認識範囲A1に対して、右に30°左に30°広い150°の範囲となる。
図1Dは、本実施例1に係るシステムの構成を示す図である。図1Dに示すように、このシステムは、距離センサ20と、認識装置100とを有する。認識装置100は、距離センサ20に接続される。認識装置100は、予め学習されたシーン認識辞書と、骨格認識辞書とを蓄積しておく。認識装置100は、シーン認識辞書と、骨格認識辞書とを用いて、対象者6aの骨格認識を行う。なお、本実施例1では一例として、認識装置100が、シーン認識辞書と、骨格認識辞書とを学習する場合について説明するが、認識装置100以外の外部の計算機が、シーン認識辞書と、骨格認識辞書とを学習し、かかるシーン認識辞書と、骨格認識辞書とを、認識装置100が蓄積しても良い。
距離センサ20は、距離センサ20の設置位置から、距離センサ20の撮影範囲に含まれる対象者6a上の各観測点までの距離情報を計測するセンサである。距離センサ20は、各観測点の3次元座標を示す距離データを生成し、生成した距離データを認識装置100に出力する。以下の説明では、距離センサ20が、認識装置100に出力する距離データを、「認識用データ」と表記する。
認識装置100は、距離センサ20から認識用データを取得し、シーン認識辞書130aおよび骨格認識辞書130bを基にして、対象者6aの骨格位置を認識する。
図2は、本実施例1に係る認識装置の構成を示す機能ブロック図である。図2に示すように、この認識装置100は、入力部110と、表示部120と、記憶部130と、制御部140とを有する。また、認識装置100は、距離センサ20に接続される。
入力部110は、認識装置100に各種の情報を入力するための入力装置である。例えば、入力部110は、キーボードやマウス、タッチパネル等に対応する。
表示部120は、制御部140から出力される情報を表示する表示装置である。例えば、表示部120は、液晶ディスプレイやタッチパネル等に対応する。
記憶部130は、シーン認識辞書130aと、骨格認識辞書130bと、認識用データバッファ130cとを有する。記憶部130は、RAM(Random Access Memory)、ROM(Read Only Memory)、フラッシュメモリ(Flash Memory)などの半導体メモリ素子や、HDD(Hard Disk Drive)などの記憶装置に対応する。
シーン認識辞書130aは、認識用データに含まれる画像データが、いずれのシーンに対応するのかを判定する際に用いられる辞書情報である。例えば、シーン認識辞書130aは、シーンを一意に識別するシーン識別情報と、係るシーン識別情報に対応する距離データの特徴とを対応づける。
骨格認識辞書130bは、シーン毎の仮定の関節位置(骨格位置)を示す辞書情報である。例えば、骨格認識辞書130bは、シーン識別情報と、係るシーン識別情報に対応する距離データと、人物の関節位置の情報(骨格辞書情報)とを対応づける。図示を省略するが、各シーン識別情報に対応する骨格辞書情報がそれぞれ存在するものとする。
認識用データバッファ130cは、認識用データを格納するバッファである。認識用データは、距離センサ20から出力される距離データに対応する。
図2の説明に戻る。制御部140は、学習部140aと、シーン認識部140bと、骨格認識部140cとを有する。制御部140は、CPU(Central Processing Unit)やMPU(Micro Processing Unit)などによって実現できる。また、制御部140は、ASIC(Application Specific Integrated Circuit)やFPGA(Field Programmable Gate Array)などのハードワイヤードロジックによっても実現できる。
学習部140aは、シーン認識辞書130aと、骨格認識辞書130bとを生成する処理部である。
図3は、学習処理の一例を説明するための図である。上段は、学習により、シーン認識辞書130aを生成する処理の一例について説明する。学習部140aによる学習は、CGなどにより生成される距離画像データと、付随するシーン認識用の教師ラベルデータをセットとして実行される。教師ラベルは、各距離データ21aに含まれる人物の方向を一意に識別する情報であり、「正面」、「左」、「後ろ」、「右」のうちいずれか一つの人方向となる。なお、教師ラベルは図1Bのような人方向範囲を直接示す情報(分類)であっても良いし、距離データ21aに含まれる人物の方向を示す角度値(回帰)そのものであっても良い。また、後述するように、人物の関節位置データを基にして、人物の骨格に基づく軸と、基準軸とのなす角度を基にして、学習部140aが、シーン識別情報を判定しても良い。かかるシーン識別情報は、教師ラベルの役割を担う。人物の関節位置データは、モーションキャプチャ等を用いて取得できる。
シーン認識辞書作成用学習において、学習部140aは、シーン認識用の教師ラベル「正面」が付与された複数の距離データ21aを基にして機械学習を行い、人方向「正面」の特徴量を抽出する。人方向「正面」と人方向「正面」の特徴量とを対応付けて、シーン認識辞書131に登録する。学習部140aは、他の教師ラベル「左」、「後ろ」、「右」が付与された複数の距離データについても同様に機械学習を行う。人方向「左」、「後ろ」、「右」の各特徴量を、人方向「左」、「後ろ」、「右」と対応付けて、シーン認識辞書130aに登録する。
学習部140aが、骨格認識辞書130bを生成する場合には、教師データとして、部位ラベル画像、あるいは、骨格位置が紐づけられた距離画像21bを入力として機械学習を行う。また、学習部140aは、後述するように、人物の関節位置データを基にして、人物の骨格に基づく軸と、基準軸との角度を特定し、各シーン識別情報を判定してもよい。
図4は、自転方向および前転方向を説明する図である。図4に示すように、自転方向は、方向1Aとなる。前転方向は、方向1Bとなる。この図は、人の骨格に基づく、2軸における角度をベースとしたシーン分類の例を示しているが、両者に垂直な軸を含んだ3軸に分割することも可能である。
図5は、自転方向のなす角を説明するための図である。自転方向のなす角は、線分11と基準線12aとのなす角θ1に対応する。例えば、線分11は、人物の右肩11aと、左肩11bとを結ぶ直線を、平面13に射影した線分である。平面13は、床に平行な平面としてもよい。人物の右肩11aおよび左肩11bの位置は、人物の関節位置データにより特定される。基準線12aは、平面13のX軸方向に水平な線分でも良いし、人物の開始タイミングにおける右肩11aと、左肩11bとを結ぶ直線を平面13に射影した線分でも良い。
続いて、学習部140aが、学習画像分類時(シーンに応じて距離データを分類する場合)に人物の関節位置データを基にして、シーン識別情報を判定する処理の一例について説明する。学習部140aによる、学習画像分類時には、なす角θ1に応じて、人物の自転方向の姿勢を「正面」、「左側」、「後方」、「右側」のいずれかに分類する。図6は、自転方向の姿勢の分類基準の一例を示す図である。例えば、なす角θ1が、θα1〜θα2の範囲に含まれる場合には、自転方向の姿勢を「正面」と判定する。なす角θ1が、θα2〜θα3の範囲に含まれる場合には、自転方向の姿勢を「左側」と判定する。なす角θ1が、θα3〜θα4の範囲に含まれる場合には、自転方向の姿勢を「後方」と判定する。なす角θ1が、θα4〜θα1の範囲に含まれる場合には、自転方向の姿勢を「右側」と判定する。
図7は、前転方向のなす角を説明するための図である。前転方向のなす角は、線分15と基準線12bとのなす角θ2となる。例えば、線分15は、背骨上の15a、15bを通る直線を、平面14に投影した線分である。背骨上の15a、15bの位置は、人物の関節位置データにより特定される。基準線12bは、鉛直上方向の線分を、平面14に投影した線分である。
学習部140aによる、学習画像分類時には、なす角θ2に応じて、人物の前転方向の姿勢を「正立」、「倒立」のいずれかに分類する。図8は、前転方向の姿勢の分類基準の一例を示す図である。例えば、なす角θ2が、θβ1(285°)〜θβ2(105°)の範囲に含まれる場合には、前転方向の姿勢を「正立」と判定する。なす角θ2が、θβ2(105°)〜θβ1(285°)の範囲に含まれる場合には、前転方向の姿勢を「倒立」と判定する。
学習部140aによる、シーン認識辞書130a生成時には、関節位置データを基にして、なす角θ1に対応する自転方向の姿勢と、なす角θ2に対応する前転方向の姿勢とを判定し、自転方向の姿勢と前転方向の姿勢との組み合わせから、対応するシーン識別情報を特定する。
例えば、学習部140aは、前転方向の姿勢が「正立」で、自転方向の姿勢が「正面」である場合には、「第1シーン」と判定する。学習部140aは、前転方向の姿勢が「正立」で、自転方向の姿勢が「左側」である場合には、「第2シーン」と判定する。学習部140aは、前転方向の姿勢が「正立」で、自転方向の姿勢が「後方」である場合には、「第3シーン」と判定する。学習部140aは、前転方向の姿勢が「正立」で、自転方向の姿勢が「右側」である場合には、「第4シーン」と判定する。
例えば、学習部140aは、前転方向の姿勢が「倒立」で、自転方向の姿勢が「正面」である場合には、「第5シーン」と判定する。学習部140aは、前転方向の姿勢が「倒立」で、自転方向の姿勢が「左側」である場合には、「第6シーン」と判定する。学習部140aは、前転方向の姿勢が「倒立」で、自転方向の姿勢が「後方」である場合には、「第7シーン」と判定する。学習部140aは、前転方向の姿勢が「倒立」で、自転方向の姿勢が「右側」である場合には、「第8シーン」と判定する。
学習部140aは、シーン認識辞書130a生成時において、種々の機械学習手法に基づき、シーン識別情報毎に、各距離データの特徴量をそれぞれ抽出する。図9は、距離データから特徴量を抽出する処理を説明するための図である。図9の説明では説明の便宜上、距離データを視覚的に示す距離画像25を用いて説明する。学習部140aは、注目ピクセル座標25aと、ベクトルu、ベクトルvの組をランダムに複数設定する。学習部140aは、距離画像25に対し、注目ピクセル25aからベクトルu離れた選択ピクセル25bの画素値が示す距離値と、注目ピクセル25aからベクトルv離れた選択ピクセル25cの画素値が示す距離値の差を算出する。学習部140aは、注目ピクセル25aと、ベクトルu、ベクトルvの組の分だけ距離画像25に対して距離差の算出を行い、それらの距離差を距離画像25の特徴量として抽出する。学習部140aは、各距離データ(距離画像)に対して同一の注目ピクセル25aと、ベクトルu、ベクトルvの組を用いて特徴量を抽出する。学習部140aは、各距離データの特徴量と、シーン識別情報をもとに、機械学習によってシーンを適切に分類する特徴量の閾値を決定し、シーン認識辞書130aに登録する。すなわち、特徴量の閾値により、第1シーン〜第8シーンが切り分けられることになる。
より具体的には、学習部140aは、特徴量1パラメータ:注目ピクセル座標a1(x1,y1)、ベクトルu1、ベクトルv1、特徴量2パラメータ:注目ピクセル座標a2(x2,y2)、ベクトルu2、ベクトルv2といったパラメータを複数(例えば、数百〜数千個程度)用意する。学習部140aは、すべての学習画像(距離データ)に対し、上記の特徴量パラメータに基づく特徴量を計算し、任意の個数(例えば10〜20個程度)の特徴量を組合せて、例えば、特徴量77の値がa以上、かつ、特徴量5の値がb以上、かつ、…、かつ、特徴量123の値がc以上、の画像は第1シーン、特徴量77の値がa以上、かつ、特徴量5の値がb以上、かつ、…、かつ、特徴量123の値がc未満、の画像は第5シーンというような、各シーンをうまく切り分けられる特徴量と閾値との組合せを、機械学習によって見つけて、シーン認識辞書130aとする。
学習部140aは、骨格認識辞書130bの生成時には、距離画像と、部位ラベル画像、あるいは、骨格3次元座標を基にして、シーン識別情報毎の骨格認識辞書を生成する。例えば、骨格認識辞書は、距離データと、人物の関節位置の情報とを対応づけた情報である。
学習部140aは、骨格認識辞書130bの生成時には、シーン識別情報毎の関節位置データを利用することで、自動的に辞書を生成する。学習部140a、上記処理と同様の処理を行うことで、あらかじめ判明している両肩の関節位置からシーン識別情報を特定できる。この特定したシーン(例えば、第1シーン)に対して、該当する距離画像と部位ラベル画像、あるいは、距離画像と骨格3次元座標を選別し、特定シーンの骨格認識辞書130bを自動的に作成する。他のシーン「第2シーン〜第8シーン等」においても、第1シーンと同様にして特定し、骨格認識辞書130bに登録できる。
なお、本実施例1では、自転方向における、シーンの区切りおよび骨格認識辞書130bの学習範囲を、90度単位の4方向としていたが、これに限定されるものではない。例えば、90度単位の4方向でシーン分けを行い、各シーン両端30度ずつ広い範囲で学習した骨格認識の結果を、該当する骨格認識辞書130bとしてもよい。
図10及び図11は、骨格認識辞書の選択範囲と学習範囲との一例を示す図である。図10に示すように、例えば、自転方向の範囲G1に対応する正面辞書を学習する場合には、範囲G1よりも両端30度ずつ広い範囲g1で、正面辞書の学習を行う。自転方向の範囲G2に対応する左側辞書を学習する場合には、範囲G2よりも両端30度ずつ広い範囲g2で、左側辞書の学習を行う。自転方向の範囲G3に対応する後方辞書を学習する場合には、範囲G3よりも両端30度ずつ広い範囲g3で、背面辞書の学習を行う。自転方向の範囲G4に対応する右側辞書を学習する場合には、範囲G4よりも両端30度ずつ広い範囲g4で、右側辞書の学習を行う。なお、ここでは、選択範囲を90度、学習範囲を30度ずつ広い範囲に設定する場合について説明したが、これに限定されるものではない。
また、図11に示すように、自転方向、前転方向それぞれ、30度毎に該当する角度を中心とした±30度の範囲で学習した12通りの骨格認識辞書で、骨格認識を行っても良い。例えば、人の向き30度に用いる骨格認識辞書の学習範囲を、範囲H1とする。人の向き0度に用いる骨格認識辞書の学習範囲を、範囲H2とする。人の向き330度に用いる骨格認識辞書の学習範囲を、範囲H3とする。なお、図11に示す例では、±30度にしたが、これに限定されるものではない。
また、学習部140aは、シーン認識辞書130aおよび骨格認識辞書130bを生成する場合に、人物の関節位置の情報を基にして、距離データ(距離画像)、部位ラベル画像、あるいは、骨格3次元座標等をソートしておき、ソートしておいた情報を用いて、シーン認識辞書130aおよび骨格認識辞書130bを生成してもよい。
シーン認識部140bは、距離センサ20から認識用データを認識用データバッファ130cに格納する。シーン認識部140bは、認識用データの特徴と、シーン認識辞書130aとを基にして、認識用データに対応するシーン識別情報を判定する。シーン認識部140bは、判定したシーン識別情報を、骨格認識部140cに出力する。
シーン認識部140bがシーン認識辞書130aに設定された特徴量の閾値を基に、シーンを認識する処理の一例について説明する。説明の便宜上、シーン識別情報「第1シーン」に対応する距離データAの特徴量を「a1」とし、シーン識別情報「第2シーン」に対応する距離データBの特徴量を「b1」とする。ただし、a1<b1とする。また、認識用データ(距離データC)の特徴量を「c1」とする。ここで、特徴量c1が、(a1+b1)/2より小さい場合には、シーン識別部140bは、認識用データに対応するシーン識別情報が「第1シーン」であると判定する。一方、特徴量c1が、(a1+b1)/2より大きい場合には、シーン識別部140bは、認識用データに対応するシーン識別情報が「第2シーン」であると判定する。
なお、シーン認識辞書130aが、各シーンを複数の特徴量の値の閾値により、切り分けている場合には、シーン認識部140bは、認識用データについて、各特徴量(例えば、上記の特徴量77、5、・・・、123)の値を求め、各特徴量の値が閾値を超えたか否かにより、シーンを認識する。例えば、シーン認識部140bは、認識用データに関する特徴量77の値がa以上、かつ、特徴量5の値がb以上、かつ、…、かつ、特徴量123の値がc以上、の場合には、認識用データが、第1シーンであると認識する。
骨格認識部140cは、シーン認識部140bに認識されたシーン識別情報に対応する骨格認識辞書130bの情報を基にして、対象者6aの骨格位置を認識する処理部である。
認識装置100は、骨格認識部140cに生成された情報を基にして、対象者6aの技名を判定する技判定部を更に有していても良い。
次に、本実施例1に係る学習部140aの処理手順の一例について説明する。図12は、本実施例1に係る学習部の処理手順を示すフローチャートである。図12に示すように、学習部140aは、学習データを取得する(ステップS101)。ここで、学習データは、シーン識別辞書130a、骨格認識辞書130bを生成するためのデータであり、例えば、関節位置データ、距離データ(距離画像)、部位ラベル画像、あるいは、骨格3次元座標の情報を含む。
学習部140aは、なす角を求める軸を選択する(ステップS102)。学習部140aは、選択した軸に関し、2関節を端点とする線分と基準線とのなす角を算出する(ステップS103)。
学習部140aは、シーン分類に使用する全ての軸のなす角を算出済みである場合には(ステップS104,Yes)、ステップS105に移行する。一方、学習部140aは、シーン分類に使用する全ての軸のなす角を算出済みでない場合には(ステップS104,No)、ステップS102に移行する。
学習部140aは、シーン識別情報毎に距離データを分類する(ステップS105)。学習部140aは、該当するシーン識別情報について、分類された距離データの特徴量を抽出し、シーン認識辞書130aを生成する(ステップS106)。
学習部140aは、シーン識別情報毎に関節位置データ(距離データ(距離画像)、部位ラベル画像、あるいは、骨格3次元座標の情報)を分類する(ステップS107)。学習部140aは、該当するシーン識別情報について、分類された関節位置データを基にして、骨格認識辞書130bを生成する(ステップS108)。
図13は、本実施例1に係る認識装置の認識処理の処理手順を示すフローチャートである。図13に示すように、認識装置100のシーン認識部140bは、距離センサ20から認識用データを取得する(ステップS201)。
認識装置100のシーン認識部140bは、認識用データと、シーン認識辞書130aとを比較して、認識用データのシーン識別情報を判定する(ステップS202)。認識装置100の骨格認識部140cは、判定されたシーン識別情報に対応する骨格認識辞書130bの情報を選択する(ステップS203)。
骨格認識部140cは、認識用データと、選択した骨格認識辞書130bの情報とを基にして、骨格を認識する(ステップS204)。骨格認識部140cは、骨格認識結果を出力する(ステップS205)。
次に、本実施例1に係る認識装置100の効果について説明する。認識装置100は、人の骨格に基づいた軸と複数の基準軸との角度により特定されるシーン識別情報と距離データの特徴とを対応づけたシーン認識辞書130aおよびシーン識別情報と距離データと人物の関節位置とを対応づけた骨格認識辞書130bを記憶部130に格納する。そして、認識装置100は、認識用データを取得すると、シーン認識辞書130aを基にして、シーン識別情報を特定し、特定したシーン識別情報に対応する骨格認識辞書130bの情報を用いて、対象者の骨格認識を行う。このように、限定された姿勢で構成された骨格認識辞書130bにより骨格認識ができるようになるため、骨格認識精度が向上する。
また、認識装置100は、シーン認識の特定領域における人の向きの範囲より、シーンで選択される骨格認識の辞書に含まれる人の向きの範囲を大きくとることにより、シーン認識時に人の向きの角度検出に誤差があっても、正確な姿勢を認識できる。
ところで、上述した実施例1に係る学習部140aは、一例として、ランダムフォレストを用いて、同一のシーン識別情報に分類される複数の距離データから特徴量を抽出する処理を繰り返し実行することで、シーン認識辞書130aを生成していた。しかし、学習部140aが特徴量を抽出する処理は、これに限定されるものではない。
例えば、学習部140aは、ディープラーニングを用いて、距離データの特徴量を自動的に抽出する手法を用いても良い。学習部140aは、正解となるシーン識別情報と、距離画像データとを、多層化されたニューラルネットワークに繰り返し入力して学習させることで、距離データを正解となるシーン識別情報に導くための「重み」を自動的に決定する。学習部140aは、ディープラーニングを用いて、自動的に決定された「重み」を、シーン識別情報に対応する「特徴量」とする。ディープラーニングを用いて特徴量を自動的に抽出することで、シーン認識の正答率を向上することができる。
図14は、本実施例2に係るシステムの構成を示す図である。図14に示すように、このシステムは、距離センサ70a、70b、70cと、認識装置200とを有する。認識装置200は、距離センサ70a〜70cに接続される。なお、距離センサ70a〜70cは、対象者6aを囲むように配置される。なお、本実施例2では一例として、認識装置200が、シーン認識辞書と、骨格認識辞書とを学習する場合について説明するが、認識装置200以外の外部の計算機が、シーン認識辞書と、骨格認識辞書とを学習し、かかるシーン認識辞書と、骨格認識辞書とを、認識装置200が蓄積しても良い。
実施例1で示した例では、単一の距離センサ20を用いているため、距離センサ20から人物のセンサ側の各観測点までの距離しか計測できない。これに対して、実施例2では、複数の距離センサ70a〜70cを用いることで、人物の全方向の各観測点までの距離を計測することができる。
距離センサ70a〜70cは、距離センサの設置位置から、距離センサの撮影範囲に含まれる対象者6a上の各観測点までの距離情報を計測するセンサである。以下の説明では、距離センサ70a〜70cをまとめて、距離センサ70と表記する。距離センサ70は、学習フェーズおよび認識フェーズにおいて動作する。距離センサ70は、各観測点の3次元座標を示す距離データ(3次元点群データ)を生成し、生成した距離データを認識装置200に出力する。図15は、3次元点群データの一例を示す図である。3次元点群データは、各距離センサ70a〜70cから人物までの各観測点までの距離をまとめた情報である。
図16は、本実施例2に係る認識装置の構成を示す機能ブロック図である。図16に示すように、この認識装置200は、入力部210と、表示部220と、記憶部230と、制御部240とを有する。また、認識装置200は、距離センサ70a〜70cに接続される。入力部210、表示部220に関する説明は、図2に示した入力部110、表示部120に関する説明と同様である。
記憶部230は、シーン認識辞書230aと、骨格認識辞書230bと、認識用データバッファ230cとを有する。記憶部230は、RAM、ROM、フラッシュメモリなどの半導体メモリ素子や、HDDなどの記憶装置に対応する。
シーン認識辞書230aは、認識用データが、いずれのシーンに対応するのかを判定する際に用いられる辞書情報である。例えば、シーン認識辞書230aは、シーンを一意に識別するシーン識別情報と、係るシーン識別情報に対応する距離データの特徴量とを対応づける。特徴量は、該当するシーンに対応する3次元点群データの特徴量である。例えば、3次元点群データの特徴量は、機械学習に基づいて特定される。
骨格認識辞書230bは、単一のシーンの仮定の関節位置(骨格位置)を示す辞書情報である。例えば、骨格認識辞書230bは、所定のシーン識別情報と、所定のシーン識別情報に対応する距離データと、人物の関節位置の情報とを対応づける。
認識用データバッファ230cは、認識用データを格納するバッファである。認識用データは、各距離センサ70から出力される距離データをまとめた3次元点群データである。
制御部240は、学習部240a、シーン認識部240b、骨格認識部240cを有する。制御部240は、CPUやMPUなどによって実現できる。また、制御部240は、ASICやFPGAなどのハードワイヤードロジックによっても実現できる。
学習部240aは、シーン認識辞書230aおよび骨格認識辞書230bを生成する処理部である。まず、学習部240aがシーン認識辞書230aを生成する処理の一例について説明する。学習部240aは、距離データから、シーン識別情報毎の特徴量を抽出することで、シーン認識辞書230aを生成する。
例えば、学習部240aは、人物の関節位置データに基づき、第1シーンに分類された距離データの各3次元点群データの特徴量をそれぞれ抽出する。学習部240aは、各3次元点群データから抽出した各特徴量に対し、各シーンをうまく切り分けられる特徴量と閾値との組合せを、機械学習によって見つけ、シーン認識辞書230aに登録する。
学習部240aが骨格認識辞書230bを生成する処理の一例について説明する。学習部240aは、所定のシーン識別情報に対応する関節位置データ(距離画像と、部位ラベル画像、あるいは、骨格3次元座標)を取得し、所定のシーン識別情報と関節位置データとを対応付けて、骨格認識辞書230bに登録する処理部である。本実施例2では一例として、所定のシーン識別情報を「第1シーン」とする。
シーン認識部240bは、距離センサ70から取得する認識用データを、認識用データバッファ230cに格納する。シーン認識部240bは、認識用データバッファ230cに格納された認識用データを取得し、取得した認識用データの特徴量と、シーン認識辞書230aとを比較することで、取得した認識用データのシーン識別情報を特定する処理部である。シーン認識部240bは、判定結果のシーン識別情報と、認識用データとを骨格認識部240cに出力する。
骨格認識部240cは、認識用データから対象者6aの骨格位置を認識する処理部である。骨格認識部230bは、シーン認識部240bの判定結果となるシーン識別情報が「第1シーン」である場合には、認識用データと、骨格認識辞書230bとを比較することで、対象者6aの関節位置を特定する。
骨格認識部240cは、シーン認識部240bの判定結果となるシーン識別情報が「第1シーン以外」である場合には、第1シーンに対応する向きとなるように、認識用データの3次元点群データの向きを回転する。例えば、第2〜第8シーンそれぞれについて、3次元点群データの向きを、どの方向にどれだけ回転するかの情報が予め定義されており、骨格認識部240cは、係る情報を基にして、3次元点群データの向きを回転する。骨格認識部240cは、回転した認識用データと、骨格認識辞書230bとを比較することで、対象者6aの関節位置を特定する。
次に、本実施例2に係る認識装置200の処理手順の一例について説明する。図17は、本実施例2に係る学習部の処理手順を示すフローチャートである。図17に示すように、学習部240aは、学習データを取得する(ステップS301)。ここで、学習データは、シーン識別辞書230a、骨格認識辞書230bを生成するためのデータであり、例えば、関節位置データ、距離データ(距離画像)、部位ラベル画像、あるいは、骨格3次元座標の情報を含む。学習部240aは、なす角を求める軸を選択する(ステップS302)。学習部240aは、選択した軸に関し、2関節を端点とする線分と基準線とのなす角を算出する(ステップS303)。
学習部240aは、シーン分類に使用する全ての軸のなす角を算出済みである場合には(ステップS304,Yes)、ステップS305に移行する。一方、学習部240aは、シーン分類に使用する全ての軸のなす角を算出済みでない場合には(ステップS304,No)、ステップS302に移行する。
学習部240aは、シーン識別情報毎に距離データを分類する(ステップS305)。学習部240aは、該当するシーン識別情報について、分類された距離データの特徴量を抽出し、シーン認識辞書230aを生成する(ステップS306)。
学習部240aは、シーン識別情報毎に関節位置データ(距離データ(距離画像)、部位ラベル画像、あるいは、骨格3次元座標の情報)を分類する(ステップS307)。学習部240aは、所定のシーン識別情報に対応する関節位置データを基にして、骨格認識辞書230bを生成する(ステップS308)。
図18は、本実施例2に係る認識装置の認識処理の処理手順を示すフローチャートである。図18に示すように、認識装置200のシーン認識部240bは、距離センサ70から認識用データを取得する(ステップS401)。
シーン認識部240bは、認識用データと、シーン認識辞書230aとを比較して、認識用データのシーン識別情報を判定する(ステップS402)。認識装置200の骨格認識部240cは、判定されたシーン識別情報が、所定のシーン識別情報であるか否かを判定する(ステップS403)。本実施例2では、一例として所定のシーン識別情報を「第1シーン」として説明を行った。上記のように、第1シーンは、対象者6aの前転方向の姿勢が「正立」で、自転方向の姿勢が「正面」となるシーンである。
認識装置200の骨格認識部240cは、判定されたシーン識別情報が、所定のシーン識別情報である場合には(ステップS404,Yes)、ステップS406に移行する。一方、骨格認識部240cは、判定されたシーン識別情報が、所定のシーン識別情報でない場合には(ステップS404,No)、ステップS405に移行する。
骨格認識部240cは、所定のシーン識別情報(第1シーン)となるように、認識用データの3次元点群データの向きを補正(回転)する(ステップS405)。骨格認識部240cは、認識用データと、骨格認識辞書230bの関節位置データとを基にして、骨格を認識する(ステップS406)。骨格認識部240cは、骨格認識結果を出力する(ステップS407)。
次に、本実施例2に係る認識装置200の効果について説明する。認識装置200は、体の正面など1方向のみから見た骨格認識辞書230bを用意する。認識装置200は、認識時において、シーン分類を行った後に、3次元点群データの向きを、骨格認識辞書230bの想定する向きに合わせた後に、骨格認識を実施する。この結果、骨格認識辞書230bの1シーンのみ準備すれば良くなり、学習時間が短縮可能となる。
なお、本実施例1、2では一例として、距離センサ20、70を用いて、シーン識別情報を判定していたがこれに限定されるものではない。例えば、認識装置100、200は、RGBカメラに接続し、このRGBカメラにより撮影される画像データを基にして、対象者6aのシーン識別情報を判定しても良い。
次に、上記実施例に示した認識装置100、200と同様の機能を実現するコンピュータのハードウェア構成の一例について説明する。図19は、認識装置と同様の機能を実現するコンピュータのハードウェア構成の一例を示す図である。
図19に示すように、コンピュータ300は、各種演算処理を実行するCPU301と、ユーザからのデータの入力を受け付ける入力装置302と、ディスプレイ303とを有する。また、コンピュータ300は、記憶媒体からプログラム等を読み取る読み取り装置304と、有線または無線ネットワークを介して他のコンピュータとの間でデータの授受を行うインターフェース装置305とを有する。例えば、インターフェース装置305は、距離センサ20、70a〜70c等に接続される。また、コンピュータ300は、各種情報を一時記憶するRAM306と、ハードディスク装置307とを有する。そして、各装置301〜307は、バス308に接続される。
ハードディスク装置307は、学習プログラム307a、シーン認識プログラム307b、骨格認識プログラム307cを有する。CPU301は、学習プログラム307a、シーン認識プログラム307b、骨格認識プログラム307cを読み出してRAM306に展開する。
学習プログラム307aは、学習プロセス306aとして機能する。シーン認識プログラム307bは、シーン認識プロセス306bとして機能する。骨格認識プログラム307cは、骨格認識プロセス306cとして機能する。
学習プロセス306aの処理は、学習部140a、240aの処理に対応する。シーン認識プロセス306bの処理は、シーン認識部140b、240bの処理に対応する。骨格認識プロセス306cの処理は、骨格認識部140c、240cの処理に対応する。
なお、各プログラム306a〜307cについては、必ずしも最初からハードディスク装置307に記憶させておかなくても良い。例えば、コンピュータ300に挿入されるフレキシブルディスク(FD)、CD−ROM、DVDディスク、光磁気ディスク、ICカードなどの「可搬用の物理媒体」に各プログラムを記憶させておく。そして、コンピュータ300が各プログラム306a〜307cを読み出して実行するようにしても良い。
20、70a、70b、70c 距離センサ
100、200 認識装置
100、200 認識装置
Claims (7)
- 人物までの距離情報に含まれる前記人物の特徴と、互いに直交する複数の基準軸と人の骨格に基づくベクトルとのなす角により特定されるシーンとを対応づけるシーン認識辞書と、前記シーンに応じた距離情報と前記人物の関節位置とを対応づけた骨格認識辞書とを記憶する記憶部と、
対象者の距離情報となる認識距離情報を取得した場合に、前記認識距離情報の特徴と、前記シーン認識辞書とを基にして、前記認識距離情報に対応するシーンを認識するシーン認識部と、
前記シーン認識部により認識されたシーンの認識結果と、前記認識距離情報と、前記骨格認識辞書とを基にして、前記対象者の骨格を認識する骨格認識部と
を有することを特徴とする認識装置。 - 前記人物の関節位置の情報と対応づけられた距離情報を複数取得し、複数の距離情報を、前記関節位置の情報を基にして分類し、分類した結果を基にして、前記シーン認識辞書および前記骨格認識辞書を生成する学習部を更に有することを特徴とする請求項1に記載の認識装置。
- 前記骨格認識辞書を生成する場合に使用する距離画像は、モーションキャプチャ時に測定された人の関節位置情報を基に作成され、かつ、シーン毎の人の向きと対応づけられており、前記学習部は、所定シーンに対応する骨格認識辞書を生成する場合に、複数の距離画像を前記人の関節位置情報を基にして分類し、分類した距離画像毎に、骨格認識辞書を生成することを特徴とする請求項2に記載の認識装置。
- 前記学習部は、所定シーンと前記所定シーンに対応する前記対象者の距離情報との組を多階層のニューラルネットワークに繰り返し入力することで、前記対象者の距離情報を前記所定シーンに導くためのニューラルネットワークの重みを決定させ、決定された重みを前記所定シーンの特徴として抽出し、前記シーン認識辞書を生成することを特徴とする請求項2に記載の認識装置。
- 前記骨格認識辞書は、単一の所定シーンに対応する距離情報と前記人物の関節位置との情報を有し、前記骨格認識部は、前記シーン認識部により認識されたシーンに対応する前記認識結果の距離情報を、前記単一の所定シーンに対応する距離情報に回転し、回転した距離情報と、前記骨格認識辞書とを基にして、前記対象者の骨格位置を認識することを特徴とする請求項1に記載の認識装置。
- コンピュータが実行する認識方法であって、
人物までの距離情報に含まれる前記人物の特徴と、互いに直交する複数の基準軸と人の骨格に基づくベクトルとのなす角により特定されるシーンとを対応づけるシーン認識辞書と、前記シーンに応じた距離情報と前記人物の関節位置とを対応づけた骨格認識辞書とを記憶する記憶装置を参照し、対象者の距離情報となる認識距離情報を取得した場合に、前記認識距離情報の特徴と、前記シーン認識辞書とを基にして、前記認識距離情報に対応するシーンを認識し、
認識したシーンの認識結果と、前記認識距離情報と、前記骨格認識辞書とを基にして、前記対象者の骨格を認識する
処理を実行することを特徴とする認識方法。 - コンピュータが実行する認識プログラムであって、
人物までの距離情報に含まれる前記人物の特徴と、互いに直交する複数の基準軸と人の骨格に基づくベクトルとのなす角により特定されるシーンとを対応づけるシーン認識辞書と、前記シーンに応じた距離情報と前記人物の関節位置とを対応づけた骨格認識辞書とを記憶する記憶装置を参照し、対象者の距離情報となる認識距離情報を取得した場合に、前記認識距離情報の特徴と、前記シーン認識辞書とを基にして、前記認識距離情報に対応するシーンを認識し、
認識したシーンの認識結果と、前記認識距離情報と、前記骨格認識辞書とを基にして、前記対象者の骨格を認識する
処理を実行させることを特徴とする認識プログラム。
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
PCT/JP2017/014716 WO2018189795A1 (ja) | 2017-04-10 | 2017-04-10 | 認識装置、認識方法および認識プログラム |
Publications (2)
Publication Number | Publication Date |
---|---|
JPWO2018189795A1 JPWO2018189795A1 (ja) | 2020-01-16 |
JP6760490B2 true JP6760490B2 (ja) | 2020-09-23 |
Family
ID=63793213
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
JP2019512072A Active JP6760490B2 (ja) | 2017-04-10 | 2017-04-10 | 認識装置、認識方法および認識プログラム |
Country Status (5)
Country | Link |
---|---|
US (1) | US11210557B2 (ja) |
EP (1) | EP3611690A4 (ja) |
JP (1) | JP6760490B2 (ja) |
CN (1) | CN110546644B (ja) |
WO (1) | WO2018189795A1 (ja) |
Families Citing this family (12)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
EP3611691B1 (en) * | 2017-04-10 | 2021-04-21 | Fujitsu Limited | Recognition device, recognition system, recognition method, and recognition program |
JP7032623B2 (ja) * | 2017-10-31 | 2022-03-09 | 株式会社デンソー | 推論装置、推論方法及びプログラム |
CN109934881B (zh) * | 2017-12-19 | 2022-02-18 | 华为技术有限公司 | 图像编码方法、动作识别的方法及计算机设备 |
WO2020084667A1 (ja) * | 2018-10-22 | 2020-04-30 | 富士通株式会社 | 認識方法、認識プログラム、認識装置、学習方法、学習プログラムおよび学習装置 |
JP7124888B2 (ja) * | 2018-12-13 | 2022-08-24 | 富士通株式会社 | 推定方法、推定プログラムおよび推定装置 |
CN109840917B (zh) * | 2019-01-29 | 2021-01-26 | 北京市商汤科技开发有限公司 | 图像处理方法及装置、网络训练方法及装置 |
CN112668359A (zh) * | 2019-10-15 | 2021-04-16 | 富士通株式会社 | 动作识别方法、动作识别装置和电子设备 |
JP7415469B2 (ja) * | 2019-11-15 | 2024-01-17 | 株式会社アイシン | 体格推定装置および姿勢推定装置 |
JP6846765B1 (ja) * | 2020-03-26 | 2021-03-24 | 株式会社 情報システムエンジニアリング | 情報処理プログラム |
US11450111B2 (en) | 2020-08-27 | 2022-09-20 | International Business Machines Corporation | Deterministic learning video scene detection |
JP7521704B2 (ja) | 2021-01-15 | 2024-07-24 | 日本電気株式会社 | 姿勢推定装置、学習モデル生成装置、姿勢推定方法、学習モデル生成方法及び、プログラム |
US20230085518A1 (en) * | 2021-09-14 | 2023-03-16 | Mediatek Inc. | Video processing method for detecting location, pixels, and skeleton of object, and associated video processing circuit |
Family Cites Families (23)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
JP2000137810A (ja) * | 1998-10-30 | 2000-05-16 | Oki Electric Ind Co Ltd | 個体識別装置 |
JP4661074B2 (ja) * | 2004-04-07 | 2011-03-30 | ソニー株式会社 | 情報処理システム、情報処理方法、並びにロボット装置 |
JP4668680B2 (ja) * | 2005-05-17 | 2011-04-13 | ヤマハ発動機株式会社 | 属性識別システムおよび属性識別辞書生成装置 |
JP4709723B2 (ja) | 2006-10-27 | 2011-06-22 | 株式会社東芝 | 姿勢推定装置及びその方法 |
US8295546B2 (en) | 2009-01-30 | 2012-10-23 | Microsoft Corporation | Pose tracking pipeline |
US8631355B2 (en) * | 2010-01-08 | 2014-01-14 | Microsoft Corporation | Assigning gesture dictionaries |
JP2011181021A (ja) | 2010-03-04 | 2011-09-15 | Nippon Telegr & Teleph Corp <Ntt> | 時系列信号識別装置、時系列信号識別方法、およびプログラム |
JP2011248525A (ja) * | 2010-05-25 | 2011-12-08 | Kyushu Institute Of Technology | 物体の検出装置及びその検出方法 |
JP2012000165A (ja) * | 2010-06-14 | 2012-01-05 | Sega Corp | ビデオゲーム装置 |
JP5820366B2 (ja) * | 2010-10-08 | 2015-11-24 | パナソニック株式会社 | 姿勢推定装置及び姿勢推定方法 |
JP5525407B2 (ja) | 2010-10-12 | 2014-06-18 | 日本電信電話株式会社 | 動作モデル学習装置、3次元姿勢推定装置、動作モデル学習方法、3次元姿勢推定方法およびプログラム |
JP5866728B2 (ja) * | 2011-10-14 | 2016-02-17 | サイバーアイ・エンタテインメント株式会社 | 画像認識システムを備えた知識情報処理サーバシステム |
JP5885583B2 (ja) * | 2012-05-18 | 2016-03-15 | 三菱電機株式会社 | 目標類識別装置 |
WO2014010203A1 (ja) * | 2012-07-13 | 2014-01-16 | 日本電気株式会社 | 転倒検知装置および転倒検知方法、転倒検知カメラ、並びにコンピュータ・プログラム |
JP2014048540A (ja) * | 2012-08-31 | 2014-03-17 | Toshiba Tec Corp | 認識辞書作成装置及び認識辞書作成プログラム |
US9754154B2 (en) * | 2013-02-15 | 2017-09-05 | Microsoft Technology Licensing, Llc | Identification using depth-based head-detection data |
JP6433149B2 (ja) | 2013-07-30 | 2018-12-05 | キヤノン株式会社 | 姿勢推定装置、姿勢推定方法およびプログラム |
KR102106135B1 (ko) * | 2013-10-01 | 2020-05-04 | 한국전자통신연구원 | 행동 인식 기반의 응용 서비스 제공 장치 및 그 방법 |
JP6337447B2 (ja) | 2013-11-18 | 2018-06-06 | 富士通株式会社 | 姿勢分類方法、情報処理装置およびプログラム |
KR20150103927A (ko) * | 2014-03-04 | 2015-09-14 | 삼성전자주식회사 | 콘텐츠를 표시하는 방법과 전자 장치 |
JP2016054409A (ja) * | 2014-09-03 | 2016-04-14 | キヤノン株式会社 | 映像認識装置、映像認識方法及びプログラム |
CN105404886B (zh) * | 2014-09-16 | 2019-01-18 | 株式会社理光 | 特征模型生成方法和特征模型生成装置 |
US10575759B2 (en) * | 2015-07-01 | 2020-03-03 | BaziFIT, Inc. | Method and system for monitoring and analyzing position, motion, and equilibrium of body parts |
-
2017
- 2017-04-10 EP EP17905268.3A patent/EP3611690A4/en not_active Withdrawn
- 2017-04-10 WO PCT/JP2017/014716 patent/WO2018189795A1/ja unknown
- 2017-04-10 JP JP2019512072A patent/JP6760490B2/ja active Active
- 2017-04-10 CN CN201780089445.3A patent/CN110546644B/zh active Active
-
2019
- 2019-10-07 US US16/594,251 patent/US11210557B2/en active Active
Also Published As
Publication number | Publication date |
---|---|
US11210557B2 (en) | 2021-12-28 |
CN110546644A (zh) | 2019-12-06 |
EP3611690A1 (en) | 2020-02-19 |
CN110546644B (zh) | 2022-10-21 |
JPWO2018189795A1 (ja) | 2020-01-16 |
EP3611690A4 (en) | 2020-10-28 |
US20200034659A1 (en) | 2020-01-30 |
WO2018189795A1 (ja) | 2018-10-18 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
JP6760490B2 (ja) | 認識装置、認識方法および認識プログラム | |
JP4829141B2 (ja) | 視線検出装置及びその方法 | |
JP4653606B2 (ja) | 画像認識装置、方法およびプログラム | |
JP5771413B2 (ja) | 姿勢推定装置、姿勢推定システム、および姿勢推定方法 | |
KR101184097B1 (ko) | 얼굴 정면포즈 판단 방법 | |
EP2579210A1 (en) | Face feature-point position correction device, face feature-point position correction method, and face feature-point position correction program | |
JP6897787B2 (ja) | 姿勢認識システム、画像補正プログラムおよび画像補正方法 | |
CN105740779B (zh) | 人脸活体检测的方法和装置 | |
JP7127650B2 (ja) | 認識プログラム、認識方法および認識装置 | |
CN110546679B (zh) | 识别装置、识别系统,识别方法以及存储介质 | |
JP2019125057A (ja) | 画像処理装置及びその方法、プログラム | |
JP6708260B2 (ja) | 情報処理装置、情報処理方法、およびプログラム | |
US20150169947A1 (en) | Posture estimation device, posture estimation method, and posture estimation program | |
US20210286983A1 (en) | Estimation method, and computer-readable recording medium recording estimation program | |
CN112017212B (zh) | 人脸关键点跟踪模型的训练、跟踪方法及系统 | |
JP5704909B2 (ja) | 注目領域検出方法、注目領域検出装置、及びプログラム | |
US11176661B2 (en) | Image processing apparatus and image processing method | |
JP2020042575A (ja) | 情報処理装置、位置合わせ方法、及びプログラム | |
WO2020065790A1 (ja) | 推定装置、推定方法、および記憶媒体 | |
WO2022190206A1 (ja) | 骨格認識方法、骨格認識プログラムおよび体操採点支援システム | |
US9563816B2 (en) | Information processing apparatus, method for controlling information processing apparatus, and storage medium | |
JP7152651B2 (ja) | プログラム、情報処理装置、及び情報処理方法 | |
JP7419993B2 (ja) | 信頼度推定プログラム、信頼度推定方法、および信頼度推定装置 | |
JP7586189B2 (ja) | 追跡装置、追跡システム、追跡方法、およびプログラム | |
CN109977746A (zh) | 用于登记面部姿态以用于面部识别的设备和方法 |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
A621 | Written request for application examination |
Free format text: JAPANESE INTERMEDIATE CODE: A621 Effective date: 20190918 |
|
TRDD | Decision of grant or rejection written | ||
A01 | Written decision to grant a patent or to grant a registration (utility model) |
Free format text: JAPANESE INTERMEDIATE CODE: A01 Effective date: 20200804 |
|
A61 | First payment of annual fees (during grant procedure) |
Free format text: JAPANESE INTERMEDIATE CODE: A61 Effective date: 20200817 |
|
R150 | Certificate of patent or registration of utility model |
Ref document number: 6760490 Country of ref document: JP Free format text: JAPANESE INTERMEDIATE CODE: R150 |