[go: up one dir, main page]

JP7482471B2 - How to generate a learning model - Google Patents

How to generate a learning model Download PDF

Info

Publication number
JP7482471B2
JP7482471B2 JP2019231158A JP2019231158A JP7482471B2 JP 7482471 B2 JP7482471 B2 JP 7482471B2 JP 2019231158 A JP2019231158 A JP 2019231158A JP 2019231158 A JP2019231158 A JP 2019231158A JP 7482471 B2 JP7482471 B2 JP 7482471B2
Authority
JP
Japan
Prior art keywords
motion
data
depth
neural network
dimensional
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Active
Application number
JP2019231158A
Other languages
Japanese (ja)
Other versions
JP2021099666A (en
Inventor
勝彦 植田
祐樹 永野
良明 白井
伸敬 島田
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Sumitomo Rubber Industries Ltd
Ritsumeikan Trust
Original Assignee
Sumitomo Rubber Industries Ltd
Ritsumeikan Trust
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Sumitomo Rubber Industries Ltd, Ritsumeikan Trust filed Critical Sumitomo Rubber Industries Ltd
Priority to JP2019231158A priority Critical patent/JP7482471B2/en
Publication of JP2021099666A publication Critical patent/JP2021099666A/en
Application granted granted Critical
Publication of JP7482471B2 publication Critical patent/JP7482471B2/en
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Landscapes

  • Image Analysis (AREA)

Description

本発明は、物体の動作を解析するための学習モデルの生成方法及び装置、並びに、同学習モデルを用いて物体の動作を解析する動作解析装置、方法及びプログラムに関する。 The present invention relates to a method and device for generating a learning model for analyzing the motion of an object, and a motion analysis device, method, and program for analyzing the motion of an object using the learning model.

従来より、ゴルフスイングをカメラで撮影し、このときの画像に基づいてゴルフスイングを解析する装置が公知である(特許文献1等)。解析の結果は、ゴルファーに適したゴルフクラブのフィッティングや、ゴルファーのフォームの改善、ゴルフ用品の開発等、様々な用途で利用される。また、近年では、深度画像を計測可能な距離画像センサが普及している。特許文献1は、距離画像センサにより撮影された深度画像を、ニューラルネットワークで構成される学習モデルに入力し、同学習モデルから物体の動作を表す動作値を導出することが開示されている。 Conventionally, devices that capture a golf swing with a camera and analyze the golf swing based on the captured image have been known (Patent Document 1, etc.). The results of the analysis are used for various purposes, such as fitting golf clubs to suit golfers, improving a golfer's form, and developing golf equipment. In recent years, distance image sensors that can measure depth images have also become widespread. Patent Document 1 discloses that depth images captured by a distance image sensor are input into a learning model consisting of a neural network, and a motion value that represents the motion of an object is derived from the learning model.

特開2018-26131号公報JP 2018-26131 A

特許文献1のように、学習モデルにより解析を行う場合、その解析の精度は、精度のよい学習モデルを構築できるかに依存する。さらに、精度のよい学習モデルを構築できるかは、学習に使用される教師データに依存する。すなわち、教師データの量が少なかったり、あるいは、質的に不十分な教師データしか集められなければ、精度のよい学習モデルを得ることができない。なお、このことは、冒頭に例示したゴルフスイングの解析の場面だけでなく、物体の動作を解析する場面全般に当てはまる。 When analysis is performed using a learning model, as in Patent Document 1, the accuracy of the analysis depends on whether an accurate learning model can be constructed. Furthermore, whether an accurate learning model can be constructed depends on the training data used for training. In other words, if the amount of training data is small or only training data of insufficient quality is collected, an accurate learning model cannot be obtained. This applies not only to the golf swing analysis example given at the beginning, but also to all situations in which the movement of an object is analyzed.

本発明は、精度のよい学習モデルを容易に生成するための方法及び装置、並びに、同学習モデルを用いて物体の動作を解析する動作解析装置、方法及びプログラムを提供することを目的とする。 The present invention aims to provide a method and device for easily generating a highly accurate learning model, as well as a motion analysis device, method, and program for analyzing the motion of an object using the learning model.

第1観点に係る学習モデルの生成方法は、物体の動作を解析するための学習モデルの生成方法であって、以下の(1)~(5)を含む。
(1)前記物体の骨格を表すボーンデータを取得すること
(2)前記ボーンデータに基づいて、前記物体の体型を表す三次元コンピュータ・グラフィックス(CG)データを作成すること
(3)前記三次元CGデータに基づいて、前記物体の多数の深度画像を作成すること
(4)前記多数の深度画像にそれぞれ対応する、前記物体における1又は複数の所定の部位の動作を表す多数の動作値を取得すること
(5)前記三次元CGデータに基づく前記深度画像及びこれに対応する前記動作値の多数のデータセットを教師データとして、距離画像センサにより撮影される前記物体の深度画像を入力とし、前記動作値を出力とするニューラルネットワークを学習させること
A method for generating a learning model according to a first aspect is a method for generating a learning model for analyzing the movement of an object, and includes the following (1) to (5).
(1) Obtaining bone data representing the skeleton of the object; (2) Creating three-dimensional computer graphics (CG) data representing the body shape of the object based on the bone data; (3) Creating a number of depth images of the object based on the three-dimensional CG data; (4) Obtaining a number of motion values representing the motion of one or more specific parts of the object, each corresponding to the number of depth images; (5) Using the depth images based on the three-dimensional CG data and a number of data sets of the corresponding motion values as training data, training a neural network that uses depth images of the object captured by a range image sensor as input and the motion values as output.

第2観点に係る学習モデルの生成方法は、第1観点に係る学習モデルの生成方法であって、(4)は、前記ボーンデータ及び前記三次元CGデータの少なくとも一方に基づいて、前記多数の動作値を導出することを含む。 The method for generating a learning model according to the second aspect is the method for generating a learning model according to the first aspect, and (4) includes deriving the multiple motion values based on at least one of the bone data and the three-dimensional CG data.

第3観点に係る学習モデルの生成方法は、第1観点又は第2観点に係る学習モデルの生成方法であって、(2)は、同じ1つの骨格に対し異なる態様で肉付けし、異なる体型を表す前記三次元CGデータを作成することを含む。 The method for generating a learning model according to the third aspect is a method for generating a learning model according to the first or second aspect, and (2) includes creating the three-dimensional CG data representing different body types by fleshing out the same skeleton in different ways.

第4観点に係る学習モデルの生成方法は、第1観点から第3観点のいずれかに係る学習モデルの生成方法であって、(3)は、同じ1つのシーンにおける前記三次元CGデータに基づいて、視点の異なる複数の深度画像を作成することを含む。 The method for generating a learning model according to the fourth aspect is a method for generating a learning model according to any one of the first aspect to the third aspect, and (3) includes creating multiple depth images with different viewpoints based on the 3D CG data of the same scene.

第5観点に係る学習モデルの生成方法は、第1観点から第4観点のいずれかに係る学習モデルの生成方法であって、以下の(6)~(8)をさらに含む。
(6)前記距離画像センサにより撮影された前記物体の多数の深度画像を取得すること
(7)前記距離画像センサにより撮影された前記多数の深度画像にそれぞれ対応する、多数の前記動作値を取得すること
(8)前記三次元CGデータに基づく前記深度画像及びこれに対応する前記動作値の前記多数のデータセットを教師データとして、前記ニューラルネットワークを学習させた後に、前記距離画像センサにより撮影された前記深度画像及びこれに対応する前記動作値の多数のデータセットを教師データとして、前記ニューラルネットワークを学習させること
A method for generating a learning model according to a fifth aspect is a method for generating a learning model according to any one of the first aspect to the fourth aspect, and further includes the following (6) to (8).
(6) acquiring a number of depth images of the object photographed by the distance image sensor; (7) acquiring a number of the motion values corresponding to the number of depth images photographed by the distance image sensor; (8) training the neural network using the number of data sets of the depth images based on the 3D CG data and the corresponding motion values as training data, and then training the neural network using the number of data sets of the depth images photographed by the distance image sensor and the corresponding motion values as training data.

第6観点に係る学習モデルの生成方法は、第1観点から第5観点のいずれかに係る学習モデルの生成方法であって、前記ボーンデータは、ゴルフスイング中のゴルファーの骨格を表すデータである。 The method for generating a learning model according to the sixth aspect is a method for generating a learning model according to any one of the first aspect to the fifth aspect, and the bone data is data representing the skeleton of a golfer during a golf swing.

第7観点に係る学習モデルの生成装置は、物体の動作を解析するための学習モデルの生成装置であって、前記物体の骨格を表すボーンデータを取得する第1取得部と、前記ボーンデータに基づいて、前記物体の体型を表す三次元コンピュータ・グラフィックス(CG)データを作成するCG作成部と、前記三次元CGデータに基づいて、前記物体の多数の深度画像を作成する画像作成部と、前記多数の深度画像にそれぞれ対応する、前記物体における1又は複数の所定の部位の動作を表す多数の動作値を取得する第2取得部と、前記三次元CGデータに基づく前記深度画像及びこれに対応する前記動作値の多数のデータセットを教師データとして、距離画像センサにより撮影される前記物体の深度画像を入力とし、前記動作値を出力とするニューラルネットワークを学習させる学習部とを備える。 The learning model generating device according to the seventh aspect is a learning model generating device for analyzing the motion of an object, and includes a first acquisition unit that acquires bone data representing the skeleton of the object, a CG creation unit that creates three-dimensional computer graphics (CG) data representing the body shape of the object based on the bone data, an image creation unit that creates multiple depth images of the object based on the three-dimensional CG data, a second acquisition unit that acquires multiple motion values that represent the motion of one or more predetermined parts of the object, each corresponding to the multiple depth images, and a learning unit that trains a neural network that uses the depth images based on the three-dimensional CG data and multiple data sets of the corresponding motion values as training data, receives depth images of the object captured by a range image sensor as input, and outputs the motion values.

第8観点に係る動作解析装置は、物体の動作を解析する動作解析装置であって、前記物体の動作を距離画像センサにより撮影した深度画像を取得する取得部と、前記取得された深度画像を、第1観点から第7観点のいずれかに係る生成方法を用いて生成された前記ニューラルネットワークに入力することにより、前記動作値を導出する導出部とを備える。 The motion analysis device according to the eighth aspect is a motion analysis device that analyzes the motion of an object, and includes an acquisition unit that acquires a depth image captured by a distance image sensor of the motion of the object, and a derivation unit that derives the motion value by inputting the acquired depth image to the neural network generated using a generation method according to any one of the first to seventh aspects.

第9観点に係る動作解析方法は、物体の動作を解析する動作解析方法であって、以下のことを含む。また、第10観点に係る動作解析プログラムは、以下のことをコンピュータに実行させる。
(2-1)前記物体の動作を距離画像センサにより撮影した深度画像を取得すること
(2-2)前記取得された深度画像を、第1観点から第7観点のいずれかに係る生成方法を用いて生成された前記ニューラルネットワークに入力することにより、前記動作値を導出すること
A motion analysis method according to a ninth aspect is a motion analysis method for analyzing the motion of an object, and includes the following: A motion analysis program according to a tenth aspect causes a computer to execute the following:
(2-1) acquiring a depth image by capturing the motion of the object using a distance image sensor; (2-2) inputting the acquired depth image into the neural network generated using the generation method according to any one of the first to seventh aspects, thereby deriving the motion value.

第1観点によれば、物体の骨格を表すボーンデータに基づいて、物体の体型を表す三次元CGデータが作成され、このような三次元CGデータに基づいて、物体の多数の深度画像が作成される。そして、このような多数の深度画像を含む教師データに基づいて、ニューラルネットワークが学習される。以上により、精度のよい学習モデルを容易に生成することが可能になる。 According to the first aspect, three-dimensional CG data representing the body shape of an object is created based on bone data representing the skeleton of the object, and multiple depth images of the object are created based on such three-dimensional CG data. Then, a neural network is trained based on training data including such multiple depth images. As a result, it becomes possible to easily generate a highly accurate learning model.

本発明の一実施形態に係る学習モデルの学習装置及び動作解析装置(コンピュータ)を含む動作解析システムの全体構成を示す図。1 is a diagram showing the overall configuration of a motion analysis system including a learning device for a learning model and a motion analysis device (computer) according to an embodiment of the present invention. 動作解析システムの機能ブロック図。FIG. 1 is a functional block diagram of a motion analysis system. ゴルファーの身体に取り付けられたマーカーの位置を示す図。A diagram showing the locations of markers attached to a golfer's body. ニューラルネットワークのモデル構成を示す図。FIG. 1 shows the model configuration of a neural network. ニューラルネットワークに基づく動作解析処理の流れを示すフローチャート。11 is a flowchart showing the flow of a motion analysis process based on a neural network. 正規化された深度画像の例を示す図。FIG. 1 illustrates an example of a normalized depth image. ニューラルネットワークに基づく腰の回転角度の推定値のグラフ。A graph of hip rotation angle estimates based on neural networks. ニューラルネットワークの学習処理の流れを示すフローチャート。1 is a flowchart showing the flow of a learning process of a neural network. ボーンデータの例を示す図。FIG. 4 is a diagram showing an example of bone data. 三次元CGデータの例を示す図。FIG. 1 is a diagram showing an example of three-dimensional CG data. 腰の回転角度の導出方法を説明する図。13A and 13B are diagrams for explaining a method for deriving a waist rotation angle.

以下、図面を参照しつつ、本発明の一実施形態に係る学習モデルの生成方法及び装置、並びに、動作解析装置、方法及びプログラムについて説明する。以下の実施形態は、ゴルフスイングを解析する場面を例に説明される。 Below, a method and device for generating a learning model, as well as a motion analysis device, method, and program according to one embodiment of the present invention will be described with reference to the drawings. The following embodiment will be described using an example of a situation in which a golf swing is analyzed.

<1.動作解析システムの概要>
図1及び図2に、本実施形態に係る動作解析装置であるコンピュータ1を含む動作解析システム100の全体構成図を示す。動作解析システム100は、ゴルファー7によるゴルフクラブ5のスイング動作を深度画像として撮影し、当該深度画像に基づいてスイング動作を解析するためのシステムである。以上の撮影は、距離画像センサ2により行われる。コンピュータ1は、距離画像センサ2とともに動作解析システム100を構成し、距離画像センサ2により取得される深度画像を解析することにより、スイング動作を解析する。コンピュータ1による解析の結果は、ゴルファー7に適したゴルフクラブ5のフィッティングや、ゴルファー7のフォームの改善、ゴルフ用品の開発等、様々な用途で利用される。
<1. Overview of the motion analysis system>
1 and 2 show an overall configuration diagram of a motion analysis system 100 including a computer 1 which is a motion analysis device according to this embodiment. The motion analysis system 100 is a system for capturing a swing motion of a golf club 5 by a golfer 7 as a depth image and analyzing the swing motion based on the depth image. The above capturing is performed by a distance image sensor 2. The computer 1 constitutes the motion analysis system 100 together with the distance image sensor 2, and analyzes the swing motion by analyzing the depth image acquired by the distance image sensor 2. The results of the analysis by the computer 1 are used for various purposes such as fitting a golf club 5 suitable for the golfer 7, improving the form of the golfer 7, and developing golf equipment.

スイング動作の解析は、深度画像を入力とするニューラルネットワーク8に基づいて行われる。ニューラルネットワーク8は、スイング動作を解析するための学習モデルであり、スイング動作を表す動作値W1を出力する。ニューラルネットワーク8は、事前学習により構築される。 The analysis of the swing motion is performed based on a neural network 8 that receives the depth image as an input. The neural network 8 is a learning model for analyzing the swing motion, and outputs a motion value W1 that represents the swing motion. The neural network 8 is constructed by prior learning.

以下では、ニューラルネットワーク8に基づく動作の解析だけでなく、ニューラルネットワーク8の学習(学習モデルの生成)についても、動作解析システム100が行うものとする。すなわち、本実施形態に係る動作解析装置として機能するコンピュータ1は、本実施形態に係る学習モデルの生成装置としても機能する。しかしながら、このような動作解析処理と事前の学習処理とは、別々のハードウェアシステムにより実行されてもよい。図1及び図2では、学習処理でのみ使用されるハードウェア構成、具体的には、モーションキャプチャシステム3及び角速度センサ4が、点線で示されている(図1では、モーションキャプチャシステム3は省略されている)。よって、ニューラルネットワーク8が学習され、記憶部13内に保存された後においては、これらの計測装置3及び4は、動作解析システム100から省略することができる。 In the following, the motion analysis system 100 not only analyzes the motion based on the neural network 8, but also learns the neural network 8 (generates a learning model). That is, the computer 1 functioning as the motion analysis device according to this embodiment also functions as the learning model generation device according to this embodiment. However, such motion analysis processing and advance learning processing may be executed by separate hardware systems. In Figures 1 and 2, the hardware configuration used only in the learning processing, specifically, the motion capture system 3 and the angular velocity sensor 4, are shown by dotted lines (the motion capture system 3 is omitted in Figure 1). Therefore, after the neural network 8 is learned and stored in the memory unit 13, these measuring devices 3 and 4 can be omitted from the motion analysis system 100.

以下、動作解析システム100の各部の詳細について述べた後、ニューラルネットワーク8のモデル構成、ニューラルネットワーク8に基づく動作解析処理、及びニューラルネットワーク8の学習処理について順に説明する。 Below, we will first describe the details of each part of the motion analysis system 100, and then explain the model configuration of the neural network 8, the motion analysis process based on the neural network 8, and the learning process of the neural network 8.

<2.各部の詳細>
<2-1.距離画像センサ>
距離画像センサ2は、測距機能を有するカメラであり、ゴルフクラブ5を試打するゴルファー7までの距離を測定する。従って、距離画像センサ2は、深度画像を出力することができる。深度画像とは、カメラの光軸方向の被写体の奥行きのデータ(深度データ)を、カメラの光軸に直交する撮像範囲内の画素に割り当てた画像である。
<2. Details of each part>
<2-1. Range image sensor>
The distance image sensor 2 is a camera with a distance measuring function, and measures the distance to a golfer 7 who is test hitting a golf club 5. Therefore, the distance image sensor 2 can output a depth image. A depth image is an image in which data on the depth of a subject in the optical axis direction of the camera (depth data) is assigned to pixels within an imaging range perpendicular to the optical axis of the camera.

これに限定されないが、本実施形態で使用される距離画像センサ2では、赤外線を用いたタイムオブフライト方式やドットパターン投影方式等の方式が採用される。従って、図1に示すように、距離画像センサ2は、赤外線を前方に向けて発光するIR発光部21と、IR発光部21から照射され、被写体に反射して戻ってきた赤外線を受光するIR受光部22とを有する。IR受光部22は、光学系及び撮像素子等を有するカメラである。ドットパターン投影方式では、IR発光部21から照射された赤外線のドットパターンをIR受光部22で読み取り、距離画像センサ2内部での画像処理によりドットパターンを検出し、これに基づいて奥行きが計算される。本実施形態では、IR発光部21及びIR受光部22は、同じ筐体20内に収容され、筐体20の前方に配置されている。本実施形態では、距離画像センサ2は、ゴルファー7を正面側から撮影すべく、ゴルファー7の前方に設置され、IR発光部21及びIR受光部22がゴルファー7に向けられている。 Although not limited thereto, the distance image sensor 2 used in this embodiment employs a method such as a time-of-flight method using infrared rays or a dot pattern projection method. Therefore, as shown in FIG. 1, the distance image sensor 2 has an IR light emitter 21 that emits infrared rays forward, and an IR light receiver 22 that receives the infrared rays irradiated from the IR light emitter 21 and reflected back from the subject. The IR light receiver 22 is a camera having an optical system and an image sensor. In the dot pattern projection method, the IR light receiver 22 reads the dot pattern of the infrared rays irradiated from the IR light emitter 21, detects the dot pattern by image processing inside the distance image sensor 2, and calculates the depth based on this. In this embodiment, the IR light emitter 21 and the IR light receiver 22 are housed in the same housing 20 and are arranged in front of the housing 20. In this embodiment, the distance image sensor 2 is installed in front of the golfer 7 to photograph the golfer 7 from the front side, and the IR light emitter 21 and the IR light receiver 22 are directed toward the golfer 7.

距離画像センサ2には、距離画像センサ2の動作全体を制御するCPU23の他、撮影された画像データを少なくとも一時的に記憶するメモリ24が内蔵されている。距離画像センサ2の動作を制御する制御プログラムは、メモリ24内に格納されている。また、距離画像センサ2には、通信部25も内蔵されており、通信部25は、撮影された画像データを有線又は無線の通信線17を介して、コンピュータ1等の外部のデバイスへと出力する。本実施形態では、CPU23及びメモリ24も、IR発光部21及びIR受光部22とともに、筐体20内に収納されている。 The distance image sensor 2 includes a built-in CPU 23 that controls the overall operation of the distance image sensor 2, as well as a built-in memory 24 that at least temporarily stores captured image data. A control program that controls the operation of the distance image sensor 2 is stored in the memory 24. The distance image sensor 2 also includes a built-in communication unit 25 that outputs captured image data to an external device such as the computer 1 via a wired or wireless communication line 17. In this embodiment, the CPU 23 and memory 24 are also housed in the housing 20, together with the IR light emitter 21 and the IR light receiver 22.

<2-2.コンピュータ>
図2を参照しつつ、コンピュータ1の構成について説明する。コンピュータ1は、ハードウェアとしては汎用のコンピュータであり、例えば、デスクトップ型コンピュータ、ラップトップ型コンピュータ、タブレットコンピュータ、スマートフォンとして実現される。コンピュータ1は、CD-ROM、USBメモリ等のコンピュータで読み取り可能な記録媒体から、或いはインターネット等のネットワークを介して、プログラム6を汎用のコンピュータにインストールすることにより製造される。プログラム6は、距離画像センサ2から送られてくる画像データに基づいてゴルフスイングを解析するためのソフトウェアであり、コンピュータ1に後述する動作を実行させる。また、プログラム6には、コンピュータ1に後述する学習処理を実行させるためのプログラムモジュールも含まれる。
<2-2. Computer>
The configuration of the computer 1 will be described with reference to Fig. 2. The computer 1 is a general-purpose computer in terms of hardware, and is realized as, for example, a desktop computer, a laptop computer, a tablet computer, or a smartphone. The computer 1 is manufactured by installing a program 6 into the general-purpose computer from a computer-readable recording medium such as a CD-ROM or a USB memory, or via a network such as the Internet. The program 6 is software for analyzing a golf swing based on image data sent from the distance image sensor 2, and causes the computer 1 to execute operations described later. The program 6 also includes a program module for causing the computer 1 to execute a learning process described later.

コンピュータ1は、表示部11、入力部12、記憶部13、制御部14及び通信部15を備える。これらの部11~15は、互いにバス線16を介して接続されており、相互に通信可能である。表示部11は、液晶ディスプレイ等で構成することができ、ゴルフスイングの解析の結果等をユーザに対し表示する。なお、ここでいうユーザとは、ゴルファー7自身やそのインストラクター、ゴルフ用品の開発者等、ゴルフスイングの解析の結果を必要とする者の総称である。入力部12は、マウス、キーボード、タッチパネル等で構成することができ、コンピュータ1に対するユーザからの操作を受け付ける。 The computer 1 comprises a display unit 11, an input unit 12, a memory unit 13, a control unit 14, and a communication unit 15. These units 11 to 15 are connected to each other via a bus line 16 and can communicate with each other. The display unit 11 can be configured as a liquid crystal display or the like, and displays the results of the golf swing analysis to the user. Note that the user here is a general term for anyone who requires the results of the golf swing analysis, such as the golfer 7 himself/herself, his/her instructor, golf equipment developers, etc. The input unit 12 can be configured as a mouse, keyboard, touch panel, etc., and accepts operations from the user on the computer 1.

記憶部13は、ハードディスク等で構成することができる。記憶部13内には、プログラム6が格納されている。また、記憶部13内には、後述する学習処理で学習され、後述する動作解析処理で使用されるニューラルネットワーク8を定義する情報が格納される。制御部14は、CPU、ROMおよびRAM等から構成することができる。制御部14は、記憶部13内のプログラム6を読み出して実行することにより、仮想的に第1取得部14a、第2取得部14b、第3取得部14c、第4取得部14d、CG作成部14e、画像作成部14f、学習部14g、第5取得部14h、導出部14i及び表示制御部14jとして動作する。各部14a~14jの動作の詳細については、後述する。通信部15は、距離画像センサ2やモーションキャプチャシステム3、角速度センサ4等の外部のデバイスから通信線17を介してデータを受信する通信インターフェースとして機能する。 The storage unit 13 may be configured with a hard disk or the like. The storage unit 13 stores a program 6. The storage unit 13 also stores information defining a neural network 8 that is learned in a learning process described later and is used in a motion analysis process described later. The control unit 14 may be configured with a CPU, a ROM, a RAM, or the like. The control unit 14 reads out and executes the program 6 in the storage unit 13, thereby virtually operating as a first acquisition unit 14a, a second acquisition unit 14b, a third acquisition unit 14c, a fourth acquisition unit 14d, a CG creation unit 14e, an image creation unit 14f, a learning unit 14g, a fifth acquisition unit 14h, a derivation unit 14i, and a display control unit 14j. Details of the operation of each unit 14a to 14j will be described later. The communication unit 15 functions as a communication interface that receives data from external devices such as the distance image sensor 2, the motion capture system 3, and the angular velocity sensor 4 via a communication line 17.

<2-3.モーションキャプチャシステム>
本実施形態では、学習過程で使用される教師データを作成するために、モーションキャプチャシステム3が使用される。モーションキャプチャシステム3は、学習過程でのみ使用される。モーションキャプチャシステム3は、複数台のカメラ31,31,・・・を備える。複数台のカメラ31,31,・・・は、ゴルファー7によるスイング動作の三次元計測が可能なように、ゴルファー7がゴルフクラブ5をスイングする様子を様々な方向から撮影することができる位置に配置される。モーションキャプチャシステム3としては、例えば、VICON社製の三次元動作分析システムを好ましく使用することができる。
<2-3. Motion capture system>
In this embodiment, a motion capture system 3 is used to create teacher data used in the learning process. The motion capture system 3 is used only in the learning process. The motion capture system 3 includes a plurality of cameras 31, 31, .... The plurality of cameras 31, 31, ... are arranged at positions where the manner in which the golfer 7 swings the golf club 5 can be photographed from various directions so that the swing motion of the golfer 7 can be measured in three dimensions. As the motion capture system 3, for example, a three-dimensional motion analysis system manufactured by VICON Corporation can be preferably used.

本実施形態では、カメラ31,31,・・・によりゴルファー7の身体の挙動を捉え易いように、身体における複数の所定の部位にマーカーが取り付けられる。より具体的には、図3に示すように、ゴルファー7の頭、手首、手の指先、肘、肩、腰、膝、踝、脚の指先等の所定の部位に、光反射性の球体のマーカー30,30,・・・が取り付けられる。この例では、マーカー30,30,・・・は、ゴルファー7が着用するボディスーツに取り付けられる。 In this embodiment, markers are attached to multiple predetermined parts of the body so that the cameras 31, 31, ... can easily capture the physical behavior of the golfer 7. More specifically, as shown in FIG. 3, light-reflective spherical markers 30, 30, ... are attached to predetermined parts of the golfer 7, such as the head, wrists, fingertips, elbows, shoulders, hips, knees, ankles, and toes. In this example, the markers 30, 30, ... are attached to a body suit worn by the golfer 7.

カメラ31,31,・・・は、ゴルファー7がゴルフクラブ5を使用してスイング動作を行う間、その様子を所定のサンプリング周波数で連続撮影する。サンプリング周波数は、例えば、500Hzとすることができる。本実施形態では、少なくともアドレスから、トップ、インパクトを順に経て、フィニッシュまでの時系列の画像データが撮影される。カメラ31,31,・・・による撮影は、同期が取られており、同じ時刻に様々な方向から見たゴルフスイングが撮影される。 The cameras 31, 31, ... continuously capture images of the golfer 7 using the golf club 5 while he or she is performing a swing motion at a predetermined sampling frequency. The sampling frequency can be, for example, 500 Hz. In this embodiment, time-series image data is captured from at least the address, top, impact, and finish. The cameras 31, 31, ... are synchronized, and the golf swing viewed from various directions is captured at the same time.

特に図示されないが、モーションキャプチャシステム3には、カメラ31,31,・・・の他、カメラ31,31,・・・により撮影された画像データを画像処理し、画像データに捉えられた複数のマーカーの位置情報(三次元座標)を算出するコンピュータも搭載されている。また、モーションキャプチャシステム3には、算出された位置情報を、通信線17を介して外部のデバイスであるコンピュータ1に送信するための通信装置も搭載されている。通信装置は、スイング動作の妨げにならないように無線式とすることもできるし、ケーブルを介して有線式にコンピュータ1に接続することもできる。モーションキャプチャシステム3により計測された位置情報は、通信装置を介してリアルタイムにコンピュータ1に送信される。 Although not specifically shown, the motion capture system 3 is equipped with cameras 31, 31, ... as well as a computer that processes image data captured by the cameras 31, 31, ... and calculates position information (three-dimensional coordinates) of multiple markers captured in the image data. The motion capture system 3 is also equipped with a communication device for transmitting the calculated position information to the computer 1, which is an external device, via a communication line 17. The communication device can be wireless so as not to interfere with the swing motion, or can be connected to the computer 1 in a wired manner via a cable. The position information measured by the motion capture system 3 is transmitted to the computer 1 in real time via the communication device.

<2-4.角速度センサ>
本実施形態では、学習過程で使用される教師データを作成するために、モーションキャプチャシステム3の他、角速度センサ4も使用される。角速度センサ4も、学習過程でのみ使用される。詳細は後述するが、本実施形態では、動作解析処理において、スイング動作中のゴルファー7の腰の回転動作が解析される。そのため、角速度センサ4は、ゴルファー7の腰に取り付けられ、腰の回転角度の真値を表す教師信号として、角速度データを計測する。角速度センサ4は、三軸角速度センサであり、ここでの角速度データには、三次元直交座標系における角速度の値が含まれる。
2-4. Angular velocity sensor
In this embodiment, in addition to the motion capture system 3, an angular velocity sensor 4 is also used to create teacher data used in the learning process. The angular velocity sensor 4 is also used only in the learning process. Although details will be described later, in this embodiment, the hip rotation motion of the golfer 7 during a swing motion is analyzed in the motion analysis process. For this reason, the angular velocity sensor 4 is attached to the hip of the golfer 7, and measures angular velocity data as a teacher signal representing the true value of the hip rotation angle. The angular velocity sensor 4 is a triaxial angular velocity sensor, and the angular velocity data here includes the value of the angular velocity in a three-dimensional orthogonal coordinate system.

角速度センサ4は、ゴルファー7がゴルフクラブ5を使用してスイング動作を行う間、その様子を所定のサンプリング周波数で連続計測する。サンプリング周波数は、例えば、1000Hzとすることができる。本実施形態では、角速度センサ4は、少なくともアドレスからフィニッシュまでの時系列の角速度データを計測する。 The angular velocity sensor 4 continuously measures the state of the golfer 7 swinging the golf club 5 at a predetermined sampling frequency. The sampling frequency can be, for example, 1000 Hz. In this embodiment, the angular velocity sensor 4 measures time-series angular velocity data at least from the address to the finish.

特に図示されないが、角速度センサ4には、通信線17を介して外部のデバイスであるコンピュータ1に角速度データを送信するための通信装置も搭載されている。通信装置は、スイング動作の妨げにならないように無線式とすることもできるし、ケーブルを介して有線式にコンピュータ1に接続することもできる。角速度センサ4により計測された時系列の角速度データは、通信装置を介してリアルタイムにコンピュータ1へ出力される。 Although not specifically shown, the angular velocity sensor 4 is also equipped with a communication device for transmitting angular velocity data to the computer 1, which is an external device, via a communication line 17. The communication device can be wireless so as not to interfere with the swing motion, or can be connected to the computer 1 in a wired manner via a cable. The time-series angular velocity data measured by the angular velocity sensor 4 is output to the computer 1 in real time via the communication device.

<3.ニューラルネットワークのモデル構成>
図4は、ニューラルネットワーク8のモデル構成を示す。ニューラルネットワーク8は、上述したとおり、深度画像を入力とし、スイング動作を表す動作値W1を出力とするネットワークである。本実施形態では、ニューラルネットワーク8により、スイング動作中のゴルファー7の腰の回転動作が解析され、より具体的には、腰の回転角度が動作値W1として定量的に導出される。
<3. Neural network model configuration>
4 shows a model configuration of the neural network 8. As described above, the neural network 8 is a network that receives a depth image as input and outputs a motion value W1 representing a swing motion. In this embodiment, the neural network 8 analyzes the hip rotation motion of the golfer 7 during a swing motion, and more specifically, quantitatively derives the hip rotation angle as the motion value W1 .

ニューラルネットワーク8のモデル構成は、様々に設計することができ、特に限定されないが、本実施形態では、図4に示す通り、以下のように設計される。ニューラルネットワーク8は、ResNet50と呼ばれるニューラルネットワークであり、畳み込み(図4中、COVと表される)層、バッチノーマライゼーション(図4中、バッチNORMと表される)層、及びプーリング層を経た後、3つの畳み込み層のセットを16回繰り返す、計50層(バッチノーマライゼーション層を除く)の層構成を有する。なお、図4中、各畳み込み層に付されている「数値×数値」は、カーネルのサイズを意味している。また、ResNet50で学習されるデータは、入力と出力との差である残差になるため、3つの畳み込み層を含む各セットの最後では、入力(図4中、x:スキップコネクションで示される)と残差(図4中、F(x)で示される)とが足し合わされる。ResNet50の最終層である、2048個のユニットから構成される全結合層は、1つの出力層に結合され、最終的に、1次元の動作値W1が出力される。 The model configuration of the neural network 8 can be designed in various ways and is not particularly limited, but in this embodiment, as shown in FIG. 4, it is designed as follows. The neural network 8 is a neural network called ResNet50, and has a layer configuration of 50 layers (excluding the batch normalization layer) in total, which includes a convolution layer (represented as COV in FIG. 4), a batch normalization layer (represented as batch NORM in FIG. 4), and a pooling layer, and then repeats a set of three convolution layers 16 times. In addition, in FIG. 4, the "number x number" attached to each convolution layer means the size of the kernel. In addition, since the data learned by ResNet50 becomes a residual, which is the difference between the input and the output, at the end of each set including three convolution layers, the input (represented by x: skip connection in FIG. 4) and the residual (represented by F(x) in FIG. 4) are added together. The final layer of ResNet50, a fully connected layer consisting of 2048 units, is connected to one output layer, and finally, a one-dimensional motion value W1 is output.

<4.ニューラルネットワークに基づく動作解析処理>
以下、図5を参照しつつ、ゴルフスイングの動作解析処理について説明する。既に述べたとおり、本実施形態では、ニューラルネットワーク8に基づいて、スイング動作中のゴルファー7の腰の回転角度を定量的に表す動作値W1が導出される。なお、解析の対象となる深度画像は、動画として時系列に取得される。従って、以下、深度画像を、深度フレームということがあり、単にフレームということもある。
4. Motion Analysis Processing Based on Neural Networks
The golf swing motion analysis process will be described below with reference to Fig. 5. As already mentioned, in this embodiment, a motion value W1 that quantitatively represents the rotation angle of the hips of the golfer 7 during the swing motion is derived based on the neural network 8. The depth images to be analyzed are acquired in time series as moving images. Therefore, hereinafter, the depth images may be referred to as depth frames or simply as frames.

まず、ステップS1において、ゴルファー7にゴルフクラブ5を試打させ、このときのスイング動作の様子を距離画像センサ2により動画として撮影する。これにより取得された時系列の深度フレームは、距離画像センサ2からコンピュータ1に送信される。コンピュータ1側では、第5取得部14hが、この深度フレームを取得し、記憶部13内に格納する。 First, in step S1, the golfer 7 tries out the golf club 5, and the swing motion at this time is captured as a video by the distance image sensor 2. The time-series depth frames thus acquired are transmitted from the distance image sensor 2 to the computer 1. On the computer 1 side, the fifth acquisition unit 14h acquires these depth frames and stores them in the memory unit 13.

続いて、導出部14iは、スイング動作中の各タイミングでの深度フレームを正規化する(ステップS2)。ここでいう正規化とは、ゴルファー7を含む被写体の深度に合わせて、深度フレームの階調のスケール変換を行う処理である。具体的には、導出部14iは、記憶部13内に格納されている時系列の深度フレームを読み出す。このとき、深度フレームの画素値である深度データは、距離画像センサ2の規格に従う階調を有しており、本実施形態では、1画素に16ビットが割り当てられ、各画素は、0~65535の画素値をとる。また、距離画像センサ2の奥行き方向の撮像範囲も、距離画像センサ2の規格により定められている。一方で、ゴルファー7の腰の回転角度を推定するために、ゴルファー7以外の深度データは特に必要とされない。そのため、深度フレームの中からゴルファー7を捉えた領域(以下、人物領域という)に含まれる画素値が、0~65535の範囲内の値をとるように、深度フレームの階調をスケール変換する。 Then, the derivation unit 14i normalizes the depth frame at each timing during the swing motion (step S2). The normalization here refers to a process of scaling the gradation of the depth frame in accordance with the depth of the subject including the golfer 7. Specifically, the derivation unit 14i reads out the time-series depth frames stored in the storage unit 13. At this time, the depth data, which is the pixel value of the depth frame, has a gradation according to the standard of the distance image sensor 2, and in this embodiment, 16 bits are assigned to one pixel, and each pixel has a pixel value of 0 to 65535. The imaging range in the depth direction of the distance image sensor 2 is also determined by the standard of the distance image sensor 2. On the other hand, in order to estimate the rotation angle of the hips of the golfer 7, depth data other than that of the golfer 7 is not particularly required. Therefore, the gradation of the depth frame is scaled so that the pixel value included in the area capturing the golfer 7 (hereinafter referred to as the person area) in the depth frame has a value within the range of 0 to 65535.

距離画像センサ2の設置位置及びゴルファー7の立ち位置は、凡そ固定されている。従って、人物領域において深度データが取り得る値の範囲(以下、人物深度範囲という)を、予め設定することができる。本実施形態では、導出部14iは、深度フレーム内の各画素の画素値(深度データ)を下式に従って、スケール変換する。ただし、人物深度範囲をminz~maxzとし、右辺のzを深度フレーム内の各画素の画素値とする。左辺のzは、変換後の画素値である。
The installation position of the distance image sensor 2 and the standing position of the golfer 7 are approximately fixed. Therefore, the range of values that the depth data can take in the person area (hereinafter referred to as the person depth range) can be set in advance. In this embodiment, the derivation unit 14i scales and converts the pixel value (depth data) of each pixel in the depth frame according to the following formula, where the person depth range is min z to max z , and z on the right side is the pixel value of each pixel in the depth frame. z on the left side is the pixel value after conversion.

以上のスケール変換は、深度フレームから人物深度範囲内の画素値を有する領域を抽出する処理である。図6は、以上のスケール変換後のある特定のタイミングでの深度フレームである。同図から分かるように、スケール変換後の深度フレーム内では、主としてゴルファー7以外を捉えた領域、すなわち、背景領域には、画素値「0」(黒色)が与えられる。その結果、以上のスケール変換により、人物領域が抽出される。 The above scale conversion is a process for extracting an area having pixel values within the person depth range from the depth frame. Figure 6 shows a depth frame at a specific timing after the above scale conversion. As can be seen from the figure, in the depth frame after the scale conversion, a pixel value of "0" (black) is given to areas that mainly capture things other than the golfer 7, i.e., the background area. As a result, the above scale conversion extracts a person area.

続いて、導出部14iは、ステップS2で正規化された深度フレームから、スイング動作中の各タイミングでのゴルファー7の腰の近傍の領域(以下、腰領域)を抽出する(ステップS3)。具体的には、導出部14iは、ステップS2で正規化された所定のサイズ(本実施形態では、512×424ピクセル)の深度フレームから、人物領域に外接する矩形領域を抽出し、矩形領域内の所定の位置における所定のサイズ(本実施形態では、128×64ピクセル)の領域を、腰領域として切り出す。スイング動作中の人体を所定の角度から捉えたとき、人体全体の中で腰が占める範囲は概ね定まるため、このような範囲内の領域が腰領域として切り出される。 Next, the derivation unit 14i extracts an area near the waist of the golfer 7 at each timing during the swing motion (hereinafter, waist area) from the depth frame normalized in step S2 (step S3). Specifically, the derivation unit 14i extracts a rectangular area circumscribing the person area from the depth frame of a predetermined size (512 x 424 pixels in this embodiment) normalized in step S2, and cuts out an area of a predetermined size (128 x 64 pixels in this embodiment) at a predetermined position within the rectangular area as the waist area. When a human body is captured from a predetermined angle during a swing motion, the range that the waist occupies within the entire human body is roughly determined, so the area within this range is cut out as the waist area.

注目される腰の動きと、肩や足、腕等の他の部位の動きとは独立的である。従って、人体全体が写っている画像に基づいてニューラルネットワーク8を学習すると、腰の見え方に対応した特徴の検出の精度が低下する虞がある。また、画像のサイズが大き過ぎると、ニューラルネットワーク8による解析が困難になり得る。ステップS3は、ニューラルネットワーク8に基づいて腰の動作の特徴を精度よく検出できるように、解析の対象となる深度フレームから、腰領域を抽出している。 The movement of the waist, which is of interest, is independent of the movement of other parts of the body, such as the shoulders, legs, and arms. Therefore, if the neural network 8 is trained based on an image showing the entire human body, there is a risk that the accuracy of detecting features corresponding to the appearance of the waist will decrease. Furthermore, if the image size is too large, analysis by the neural network 8 may become difficult. In step S3, the waist region is extracted from the depth frame to be analyzed so that the characteristics of waist movement can be detected accurately based on the neural network 8.

続くステップS4では、導出部14iは、ステップS3で抽出されたスイング動作中の時系列の腰領域の画像を、順次、ニューラルネットワーク8に入力する。これにより、ニューラルネットワーク8の出力層からは、順次、スイング動作を定量的に表す動作値W1、本実施形態では、ゴルファー7の腰の回転角度W1が出力される。なお、本実施形態では、ステップS3までで取得された所定サイズ(本実施形態では、128×64ピクセル)の画像は、所定のサイズ(本実施形態では、64×32ピクセル)まで圧縮された後、ニューラルネットワーク8へ入力される。 In the next step S4, the derivation unit 14i sequentially inputs the images of the waist region in time series during the swing motion extracted in step S3 to the neural network 8. As a result, the output layer of the neural network 8 sequentially outputs a motion value W1 quantitatively expressing the swing motion, in this embodiment, the rotation angle W1 of the waist of the golfer 7. Note that in this embodiment, the images of a predetermined size (128×64 pixels in this embodiment) acquired up to step S3 are compressed to a predetermined size (64×32 pixels in this embodiment) and then input to the neural network 8.

続いて、導出部14iは、ステップS4で導出された回転角度W1の時系列データの平滑化及び補間を行う(ステップS5)。図7は、5点の移動平均により平滑化し、33ms間隔のデータを1ms間隔のデータに変換するスプライン補間を行った例を示している。これにより、平滑化及び補間された滑らかな回転角度W1の時系列データが取得される。 Next, the derivation unit 14i smoothes and interpolates the time series data of the rotation angle W1 derived in step S4 (step S5). Fig. 7 shows an example of smoothing using a five-point moving average and performing spline interpolation to convert data at 33 ms intervals into data at 1 ms intervals. As a result, smooth, interpolated time series data of the rotation angle W1 is obtained.

その後、表示制御部14jは、ステップS4及びS5で導出されたスイング動作中の時系列の平滑化及び補完の前後の回転角度W1及びその時系列変化、並びに図7に示すようなこれらのグラフを表示部11上に表示させる(ステップS6)。これにより、ユーザは、ゴルファー7の腰の回転の動作を把握することができる。 Thereafter, the display control unit 14j displays the rotation angle W1 and its time series change before and after the smoothing and complementation of the time series during the swing motion derived in steps S4 and S5, as well as a graph of these as shown in Fig. 7 on the display unit 11 (step S6). This allows the user to understand the hip rotation motion of the golfer 7.

<5.ニューラルネットワークの学習処理>
次に、図8を参照しつつ、ニューラルネットワーク8の学習処理について説明する。この学習処理では、教師データの作成と、これに基づく学習とが行われる。本実施形態では、転移学習のため、教師データとして、2種類の学習用データセットが作成され、それぞれに基づく学習が行われる。以下、区別のため、ステップS11~S14で取得される学習用データセットを、第1学習用データセットと呼び、これとは別にステップS16及びS17で取得される学習用データセットを、第2学習用データセットと呼ぶことがある。すなわち、本実施形態では、転移学習が行われ、まず、第1学習用データセットに基づきニューラルネットワーク8のパラメータが学習され(ステップS15)、その後、ここで学習されたパラメータを初期値として、第2学習用データセットに基づくさらなる学習(ステップS18)が行われる。
5. Neural network learning process
Next, the learning process of the neural network 8 will be described with reference to FIG. 8. In this learning process, teacher data is created and learning is performed based on the teacher data. In this embodiment, for transfer learning, two types of learning data sets are created as teacher data, and learning is performed based on each of them. Hereinafter, for the sake of distinction, the learning data set acquired in steps S11 to S14 may be called the first learning data set, and the learning data set acquired in steps S16 and S17 may be called the second learning data set. That is, in this embodiment, transfer learning is performed, and first, the parameters of the neural network 8 are learned based on the first learning data set (step S15), and then, further learning is performed based on the second learning data set (step S18) using the learned parameters as initial values.

具体的には、まず、ゴルファー7にゴルフクラブ5を試打させる。ステップS11では、このときのスイング動作の様子が、モーションキャプチャシステム3により計測され、ゴルファー7の身体に取り付けられた複数のマーカー30の時系列の位置情報が取得される。ここでは、モーションキャプチャシステム3に含まれる複数台のカメラ31,31,・・・により同時に異なる視点から撮影が行われ、位置情報として三次元座標が取得される。以上の通りに計測された複数のマーカー30の時系列の位置情報は、モーションキャプチャシステム3からコンピュータ1に送信される。コンピュータ1側では、第1取得部14aが、この位置情報を取得し、記憶部13内に格納する。 Specifically, first, golfer 7 is asked to try out golf club 5. In step S11, the swing motion at this time is measured by motion capture system 3, and time-series position information of multiple markers 30 attached to golfer 7's body is obtained. Here, multiple cameras 31, 31, ... included in motion capture system 3 simultaneously capture images from different viewpoints, and three-dimensional coordinates are obtained as position information. The time-series position information of multiple markers 30 measured as described above is transmitted from motion capture system 3 to computer 1. On the computer 1 side, first acquisition unit 14a acquires this position information and stores it in memory unit 13.

第1取得部14aは、記憶部13内に格納された複数のマーカー30の時系列の位置情報を順次処理することにより、ゴルフスイング中のゴルファー7の身体の骨格を表す時系列のボーンデータD1を取得する。ボーンデータD1とは、典型的には、図9に示す通り、複数のジョイント(関節)とこれらを連結するボーン(骨)とを組み合わせたデータであり、全体として物体の骨格を表し、スケルトンデータと呼ばれることもある。第1取得部14aは、ゴルファー7の身体においてマーカー30が取り付けられた複数の所定の部位の三次元座標を適宜連結することにより、ボーンデータD1を作成する。 The first acquisition unit 14a acquires time-series bone data D1 representing the body skeleton of the golfer 7 during a golf swing by sequentially processing the time-series position information of the multiple markers 30 stored in the memory unit 13. Bone data D1 is typically data that combines multiple joints and the bones that connect them, as shown in FIG. 9, and represents the skeleton of an object as a whole, and is sometimes called skeleton data. The first acquisition unit 14a creates bone data D1 by appropriately linking the three-dimensional coordinates of multiple specific parts of the golfer 7's body to which markers 30 are attached.

続くステップS12では、CG作成部14eは、時系列のボーンデータD1を順次、最適化することにより、ゴルフスイング中のゴルファー7の体型を表す時系列の三次元コンピュータ・グラフィックス(CG)データD2(図10参照)を作成する。より具体的には、CG作成部14eは、予め用意されている体型を規定する体型データをボーンデータD1に適用し、ボーンデータD1により表される骨格を肉付けすることにより、ゴルファー7の体型を再現する。ここでは、同じ1つの骨格に対し異なる態様で肉付けが行われ、同じ1つの骨格を表すボーンデータD1から、異なる体型を表す三次元CGデータD2が作成される。例えば、同じ1つの骨格を表すボーンデータD1から、「太っている」「普通」及び「痩せている」タイプ等、複数の体型に対応する三次元CGデータD2が作成される。 In the next step S12, the CG creation unit 14e sequentially optimizes the time-series bone data D1 to create time-series three-dimensional computer graphics (CG) data D2 (see FIG. 10) representing the body type of the golfer 7 during a golf swing. More specifically, the CG creation unit 14e applies body type data that defines a body type prepared in advance to the bone data D1, and reproduces the body type of the golfer 7 by fleshing out the skeleton represented by the bone data D1. Here, the same skeleton is fleshed out in different ways, and three-dimensional CG data D2 representing different body types is created from the bone data D1 representing the same skeleton. For example, three-dimensional CG data D2 corresponding to multiple body types, such as "fat," "normal," and "thin" types, is created from the bone data D1 representing the same skeleton.

続くステップS13では、画像作成部14fは、時系列の三次元CGデータD2に基づいて、ゴルフスイング中のゴルファー7の身体の多数の深度画像を作成する。より具体的には、三次元CGデータD2により表されるゴルファー7の身体を、所定の方向から視たときの深度画像が作成される。ここでいう所定の方向とは、典型的には、動作解析処理において距離画像センサ2がゴルファー7のスイング動作を撮影するときの方向である。 In the next step S13, the image creation unit 14f creates multiple depth images of the body of the golfer 7 during a golf swing based on the time-series three-dimensional CG data D2. More specifically, depth images are created when the body of the golfer 7 represented by the three-dimensional CG data D2 is viewed from a predetermined direction. The predetermined direction here typically refers to the direction in which the distance image sensor 2 captures the swing motion of the golfer 7 in the motion analysis process.

本実施形態では、同じ1つのシーン(タイミング)における三次元CGデータD2から、視点の異なる複数の深度画像が作成される。例えば、同じ1つのシーンを表す三次元CGデータD2から、ゴルファー7に対する方向は同じであるが、ゴルファー7までの距離が異なる複数の視点にそれぞれ対応する複数の深度画像が作成される。また、同じ1つのシーン(タイミング)を表す三次元CGデータD2から、上述した所定の方向からやや左右にずれた複数の視点にそれぞれ対応する複数の深度画像が作成される。 In this embodiment, multiple depth images with different viewpoints are created from the three-dimensional CG data D2 of the same scene (timing). For example, multiple depth images corresponding to multiple viewpoints with the same direction relative to the golfer 7 but different distances to the golfer 7 are created from the three-dimensional CG data D2 representing the same scene. Also, multiple depth images corresponding to multiple viewpoints slightly shifted to the left or right from the above-mentioned specified direction are created from the three-dimensional CG data D2 representing the same scene (timing).

本実施形態では、以上の通りに作成された各深度画像を、動作解析処理に含まれるステップS2及びS3と同様に正規化し、腰領域の画像を抽出する。すなわち、動作解析処理においてニューラルネットワーク8に入力される深度画像と同様の深度画像を用意する。以下、ここで正規化され、取得された腰領域の画像も、単に深度画像と呼ぶことがある。 In this embodiment, each depth image created as described above is normalized in the same manner as steps S2 and S3 included in the motion analysis process, and an image of the waist region is extracted. That is, a depth image similar to the depth image input to the neural network 8 in the motion analysis process is prepared. Hereinafter, the image of the waist region normalized and obtained here may also be simply referred to as a depth image.

続くステップS14では、第2取得部14bは、ステップS13で作成された多数の深度画像(正規化された腰領域の画像)にそれぞれ対応する、多数の動作値W1を取得する。ここでいう動作値W1とは、上記の通り、ゴルフスイング中のゴルファー7の腰の回転角度である。本実施形態では、ここでの動作値W1は、ボーンデータD1及び/又は三次元CGデータD2に基づいて導出される。より具体的には、ボーンデータD1及び/又は三次元CGデータD2から、左股関節及び右股関節(図9及び図10において実線の丸印で示される)の三次元座標を取得し、図11に示すように、平面視においてこれらを結ぶ直線の基準線に対する傾きθを導出し、これを腰の回転角度W1とする。第2取得部14bは、ステップS11で取得された時系列のボーンデータD1及び/又はステップS12で作成された時系列の三次元CGデータD2から順次、動作値W1を導出し、各動作値W1を、ステップS13で同じデータD1及び/又はD2から作成された深度画像に関連付ける。これにより、三次元CGデータD2に基づく深度画像と、これに対応する動作値W1との組み合わせである第1学習用データセットが多数用意される。 In the next step S14, the second acquisition unit 14b acquires a number of motion values W1 corresponding to the number of depth images (normalized images of the waist region) created in step S13. The motion value W1 here is the rotation angle of the waist of the golfer 7 during the golf swing, as described above. In this embodiment, the motion value W1 here is derived based on the bone data D1 and/or the three-dimensional CG data D2. More specifically, the three-dimensional coordinates of the left hip joint and the right hip joint (shown by solid circles in Figs. 9 and 10) are acquired from the bone data D1 and/or the three-dimensional CG data D2, and the inclination θ of the straight line connecting these in a plan view with respect to a reference line is derived as shown in Fig. 11, and this is set as the rotation angle W1 of the waist. The second acquisition unit 14b sequentially derives motion values W1 from the time-series bone data D1 acquired in step S11 and/or the time-series three-dimensional CG data D2 created in step S12, and associates each motion value W1 with a depth image created from the same data D1 and/or D2 in step S13. This allows a large number of first learning data sets to be prepared, each of which is a combination of a depth image based on the three-dimensional CG data D2 and a corresponding motion value W1 .

続くステップS15では、学習部14gは、多数の第1学習用データセットを教師データとして、ニューラルネットワーク8を学習させる。より具体的には、学習部14gは、第1学習用データセットに含まれる深度画像(正規化された腰領域の画像)を現在のニューラルネットワーク8に入力し、出力値として動作値W1を取得し、この動作値W1と、同じ第1学習用データセットに含まれる動作値W1との誤差を最小化するように、ニューラルネットワーク8のパラメータを更新する。そして、ステップS11~S14で作成された多数の第1学習用データセットを次々と適用しながら、ニューラルネットワーク8を最適化してゆく。 In the next step S15, the learning unit 14g trains the neural network 8 using a large number of first learning data sets as teacher data. More specifically, the learning unit 14g inputs a depth image (a normalized image of the waist region) included in the first learning data set to the current neural network 8, obtains a motion value W1 as an output value, and updates the parameters of the neural network 8 so as to minimize the error between this motion value W1 and the motion value W1 included in the same first learning data set. Then, the neural network 8 is optimized while successively applying the large number of first learning data sets created in steps S11 to S14.

続くステップS16では、第3取得部14cは、ゴルファー7によるゴルフスイング中に距離画像センサ2により撮影された多数の深度画像を取得する。具体的には、ステップS11と同様に、ゴルファー7にゴルフクラブ5を試打させる。ステップS16では、このときのスイング動作の様子が、距離画像センサ2により動画として撮影される。以上の通りに計測された時系列の深度フレームは、距離画像センサ2からコンピュータ1に送信される。コンピュータ1側では、第3取得部14cが、この画像データを取得し、記憶部13内に格納する。なお、ステップS16における距離画像センサ2による計測は、ステップS11における計測と同時に、同じゴルファー7によるゴルフスイングに対し実行されてもよい。 In the next step S16, the third acquisition unit 14c acquires a large number of depth images captured by the distance image sensor 2 during the golf swing by the golfer 7. Specifically, similar to step S11, the golfer 7 is made to test hit the golf club 5. In step S16, the swing motion at this time is captured as a video by the distance image sensor 2. The time-series depth frames measured as described above are transmitted from the distance image sensor 2 to the computer 1. On the computer 1 side, the third acquisition unit 14c acquires this image data and stores it in the memory unit 13. Note that the measurement by the distance image sensor 2 in step S16 may be performed on the golf swing by the same golfer 7 at the same time as the measurement in step S11.

本実施形態では、以上の通りに取得された各深度画像を、動作解析処理に含まれるステップS2及びS3と同様に正規化し、腰領域の画像を抽出する。すなわち、動作解析処理においてニューラルネットワーク8に入力される深度画像と同様の深度画像を用意する。以下、ここで正規化され、取得された腰領域の画像も、単に深度画像と呼ぶことがある。 In this embodiment, each depth image acquired as described above is normalized in the same manner as steps S2 and S3 included in the motion analysis process, and an image of the waist region is extracted. That is, a depth image similar to the depth image input to the neural network 8 in the motion analysis process is prepared. Hereinafter, the image of the waist region normalized and acquired here may also be simply referred to as a depth image.

続くステップS17では、第4取得部14dは、ステップS16で取得された多数の深度画像(正規化された腰領域の画像)にそれぞれ対応する、多数の動作値W1を取得する。ここでいう動作値W1とは、上記の通り、ゴルフスイング中のゴルファー7の腰の回転角度である。本実施形態では、ここでの動作値W1は、角速度センサ4により計測された時系列の角速度データに基づいて取得される。より具体的には、ステップS16において距離画像センサ2によりゴルフスイングが撮影される間、角速度センサ4による計測も行われる。このとき、角速度センサ4は、ゴルフスイング中のゴルファー7の腰の回転角度を表す角速度データを連続的に計測する。こうして計測された時系列の角速度データは、角速度センサ4からコンピュータ1に送信される。コンピュータ1側では、第4取得部14dが、この角速度データを取得し、記憶部13内に格納する。 In the next step S17, the fourth acquisition unit 14d acquires a number of motion values W1 corresponding to the number of depth images (normalized images of the waist region) acquired in step S16. The motion value W1 here is the rotation angle of the waist of the golfer 7 during the golf swing, as described above. In this embodiment, the motion value W1 here is acquired based on the time-series angular velocity data measured by the angular velocity sensor 4. More specifically, while the golf swing is being photographed by the distance image sensor 2 in step S16, the angular velocity sensor 4 also performs measurement. At this time, the angular velocity sensor 4 continuously measures angular velocity data representing the rotation angle of the waist of the golfer 7 during the golf swing. The time-series angular velocity data thus measured is transmitted from the angular velocity sensor 4 to the computer 1. On the computer 1 side, the fourth acquisition unit 14d acquires this angular velocity data and stores it in the memory unit 13.

第4取得部14dは、ステップS16で取得された各深度画像(正規化された腰領域の画像)に対し、同深度画像が距離画像センサ2により撮影されたタイミングで取得された角速度データを関連付ける。これにより、距離画像センサ2により撮影された深度画像と、これに対応する動作値W1との組み合わせである第2学習用データセットが多数用意される。 The fourth acquisition unit 14d associates, with each depth image (normalized image of the waist region) acquired in step S16, angular velocity data acquired at the timing when the depth image was captured by the range image sensor 2. In this way, a large number of second learning data sets, which are combinations of depth images captured by the range image sensor 2 and the corresponding motion values W1 , are prepared.

続くステップS18では、ステップS15と同様に、学習部14gは、多数の第2学習用データセットを教師データとして、ニューラルネットワーク8を学習させる。より具体的には、学習部14gは、第2学習用データセットに含まれる深度画像(正規化された腰領域の画像)を現在のニューラルネットワーク8に入力し、出力値として動作値W1を取得し、この動作値W1と、同じ第2学習用データセットに含まれる動作値W1との誤差を最小化するように、ニューラルネットワーク8のパラメータを更新する。そして、ステップS16及びS17で作成された多数の第2学習用データセットを次々と適用しながら、ニューラルネットワーク8を最適化してゆく。以上により、学習処理が終了する。 In the next step S18, similarly to step S15, the learning unit 14g trains the neural network 8 using a large number of second learning data sets as teacher data. More specifically, the learning unit 14g inputs a depth image (a normalized image of the waist region) included in the second learning data set to the current neural network 8, obtains a motion value W1 as an output value, and updates the parameters of the neural network 8 so as to minimize the error between this motion value W1 and the motion value W1 included in the same second learning data set. Then, the neural network 8 is optimized while successively applying the large number of second learning data sets created in steps S16 and S17. This completes the learning process.

<6.変形例>
以上、本発明のいくつかの実施形態について説明したが、本発明は上記実施形態に限定されるものではなく、その趣旨を逸脱しない限りにおいて、種々の変更が可能である。例えば、以下の変更が可能である。また、以下の変形例の要旨は、適宜組み合わせることができる。
6. Modifications
Although several embodiments of the present invention have been described above, the present invention is not limited to the above-mentioned embodiments, and various modifications are possible without departing from the spirit of the present invention. For example, the following modifications are possible. In addition, the gist of the following modifications can be combined as appropriate.

<6-1>
上記実施形態では、ゴルフスイングが解析されたが、解析の対象はこれに限られず、同様の方法で、テニスや野球等の打具のスイング動作を解析することもできる。また、スイング動作に含まれる人体の動作に代えて又は加えて、スイング動作に含まれる打具の動作を解析の対象とすることができる。また、解析の対象は、スポーツの動作でなくても、人体の動作でなくてもよく、任意の物体の任意の動作を解析の対象とすることができる。
<6-1>
In the above embodiment, a golf swing is analyzed, but the subject of analysis is not limited to this, and the swing motion of a hitting tool in tennis, baseball, etc. can also be analyzed in a similar manner. Also, instead of or in addition to the motion of the human body included in the swing motion, the motion of a hitting tool included in the swing motion can be the subject of analysis. Also, the subject of analysis does not have to be the motion of a sport or the motion of the human body, and any motion of any object can be the subject of analysis.

<6-2>
ニューラルネットワーク8から出力される動作値W1は、注目部位の回転角度に限られず、注目部位の位置(座標)、回転速度、回転加速度、速度及び加速度等であってもよい。また、注目部位も、ゴルファー7の腰に限られず、ゴルファー7の肩、腕、頭、重心等であってもよい。また、ニューラルネットワーク8の出力として、複数の部位の動作値W1が導出されてもよい。例えば、身体の多数の所定の部位の位置情報(座標)のセットが導出されてもよいし、身体における多数の関節の位置情報(座標)を含むボーンデータが導出されてもよい。
<6-2>
The motion value W1 output from the neural network 8 is not limited to the rotation angle of the part of interest, and may be the position (coordinates), rotation speed, rotation acceleration, speed and acceleration, etc. of the part of interest. Furthermore, the part of interest is not limited to the waist of the golfer 7, and may be the shoulders, arms, head, center of gravity, etc. of the golfer 7. Furthermore, motion values W1 of a plurality of parts may be derived as the output of the neural network 8. For example, a set of position information (coordinates) of a number of predetermined parts of the body may be derived, or bone data including position information (coordinates) of a number of joints in the body may be derived.

例えば、動作値W1として、肩の回転角度を導出する場合を考える。この場合、動作解析処理では、ステップS3で、深度フレームから肩の近傍の領域(肩領域)の画像を抽出し、ステップS4で、これをニューラルネットワーク8に入力すればよい。また、これに先立つ学習処理では、ステップS13で、肩領域の深度画像を用意し、ステップS14で、これに対応する動作値W1として、ボーンデータD1及び/又は三次元CGデータD2から肩の回転角度を導出すればよい。このとき、ボーンデータD1及び/又は三次元CGデータD2から左肩及び右肩の三次元座標を取得し、平面視においてこれらを結ぶ直線の基準線に対する傾きθを導出し、これを肩の回転角度W1とすることができる。さらに、ステップS16でも、肩領域の深度画像を用意し、ステップS17で、これに対応する動作値W1として、肩の回転角度を取得すればよい。ここでの肩の回転角度は、例えば、角速度センサ4をゴルファー7の腰から肩に付け替えておくことにより、角速度センサ4から取得することができる。 For example, consider the case where the shoulder rotation angle is derived as the motion value W1 . In this case, in the motion analysis process, an image of the area near the shoulder (shoulder area) is extracted from the depth frame in step S3, and this is input to the neural network 8 in step S4. In the learning process preceding this, a depth image of the shoulder area is prepared in step S13, and the shoulder rotation angle is derived from the bone data D1 and/or the three-dimensional CG data D2 as the corresponding motion value W1 in step S14. At this time, the three-dimensional coordinates of the left shoulder and the right shoulder are obtained from the bone data D1 and/or the three-dimensional CG data D2, and the inclination θ of the straight line connecting these in a planar view with respect to the reference line is derived, and this can be set as the shoulder rotation angle W1 . Furthermore, in step S16, a depth image of the shoulder area is also prepared, and the shoulder rotation angle is obtained as the corresponding motion value W1 in step S17. The shoulder rotation angle here can be obtained from the angular velocity sensor 4, for example, by attaching the angular velocity sensor 4 from the waist of the golfer 7 to the shoulder.

以上の例のように、動作解析処理で動作値W1として、身体における多数の関節の位置情報(二次元又は三次元座標)が導出される場合、これらの位置情報は、身体の重心の位置情報(二次元又は三次元座標)を導出することに利用することができる。この場合、動作解析処理では、ステップS3で、深度フレームから主としてゴルファーの占める領域(人物領域)の画像を抽出し、ステップS4で、これをニューラルネットワーク8に入力すればよい。また、これに先立つ学習処理では、ステップS13で、人物領域の深度画像を用意し、ステップS14で、これに対応する動作値W1として、ボーンデータD1及び/又は三次元CGデータD2から身体における多数の関節の位置情報を導出すればよい。さらに、ステップS16でも、人物領域の深度画像を用意し、ステップS17で、これに対応する動作値W1として、例えば距離画像センサ2による計測と同時に行ったモーションキャプチャシステム3による計測の結果に基づいて、身体における多数の関節の位置情報を取得すればよい。 As in the above example, when position information (two-dimensional or three-dimensional coordinates) of a number of joints in the body is derived as the motion value W 1 in the motion analysis process, these position information can be used to derive position information (two-dimensional or three-dimensional coordinates) of the center of gravity of the body. In this case, in the motion analysis process, in step S3, an image of the area (person area) mainly occupied by the golfer is extracted from the depth frame, and in step S4, this is input to the neural network 8. In addition, in the learning process preceding this, in step S13, a depth image of the person area is prepared, and in step S14, position information of a number of joints in the body corresponding to this is derived from the bone data D1 and/or the three-dimensional CG data D2 as the motion value W 1 corresponding to this. Furthermore, in step S16, a depth image of the person area is also prepared , and in step S17, position information of a number of joints in the body corresponding to this may be obtained based on the result of measurement by the motion capture system 3 performed simultaneously with the measurement by the distance image sensor 2, for example.

そして、動作解析処理で動作値W1として導出された多数の関節の位置情報に基づいて、身体の重心の位置情報が導出される。このとき、例えば、身体を頭部、胴部、左右の上腕、左右の前腕、左右の手、左右の大腿、左右の下腿、及び左右の足の14個の部位(以下、分割部位という)に仮想的に分ける。そして、予め、男女別に、身体全体に対する各部位の質量比と、各部位において重心が存在する位置を規定する割合である重心位置比とを定めておく。そして、これらの質量比及び重心位置比と、動作解析処理で導出された動作値W1とから、身体の重心の位置情報(座標)を導出することができる。より具体的には、例えば、頭部の重心位置比が46%とする。この場合、頭部の重心位置のx座標は、(頭部の頂点のx座標)+0.46×(頭部の頂点のx座標-首のx座標)として導出され、頭部の重心位置のy及びz座標についても、同様に導出される。頭部の頂点及び首のx,y及びz座標は、動作値W1に含まれる。同様にして、14個の分割部位の重心の三次元座標を算出する。ここで、14個の分割部位の質量比をそれぞれ、m1,m2,・・・,m14とする。また、14個の分割部位の重心の三次元座標をそれぞれ、(x1,y1,z1),(x2,y2,z2),・・・,(x14,y14,z14)とする。このとき、身体の重心の三次元座標は、以下の通り算出される。
Then, based on the position information of many joints derived as the motion value W 1 in the motion analysis process, the position information of the center of gravity of the body is derived. At this time, for example, the body is virtually divided into 14 parts (hereinafter referred to as divided parts) including the head, the torso, the left and right upper arms, the left and right forearms, the left and right hands, the left and right thighs, the left and right lower legs, and the left and right feet. Then, the mass ratio of each part to the whole body and the center of gravity position ratio, which is the ratio that defines the position where the center of gravity exists in each part, are determined in advance for each gender. Then, the position information (coordinates) of the center of gravity of the body can be derived from these mass ratios and center of gravity position ratios and the motion value W 1 derived in the motion analysis process. More specifically, for example, the center of gravity position ratio of the head is 46%. In this case, the x coordinate of the center of gravity of the head is derived as (x coordinate of the apex of the head) + 0.46 × (x coordinate of the apex of the head - x coordinate of the neck), and the y and z coordinates of the center of gravity of the head are derived in the same manner. The x, y, and z coordinates of the vertex of the head and the neck are included in the motion value W1 . Similarly, the three-dimensional coordinates of the center of gravity of the 14 divided parts are calculated. Here, the mass ratios of the 14 divided parts are respectively m1 , m2 , ..., m14 . Also, the three-dimensional coordinates of the center of gravity of the 14 divided parts are respectively ( x1 , y1 , z1 ), ( x2 , y2 , z2 ), ..., ( x14 , y14 , z14 ). At this time, the three-dimensional coordinates of the center of gravity of the body are calculated as follows.

<6-3>
上記実施形態では、ボーンデータは、モーションキャプチャシステム3により取得された位置情報から取得されたが、例えば、距離画像センサの1つであるKinect(登録商標)は、深度フレームからスケルトンデータを導出し、これを深度フレームとともに出力する機能を有している。よって、このようなスケルトンデータを、上記のボーンデータとして使用することもできる。
<6-3>
In the above embodiment, the bone data is obtained from the position information obtained by the motion capture system 3, but for example, Kinect (registered trademark), which is one of distance image sensors, has a function of deriving skeleton data from a depth frame and outputting it together with the depth frame. Therefore, such skeleton data can also be used as the above bone data.

<6-4>
上記実施形態では、ニューラルネットワーク8に入力される画像は、1枚の深度画像であった。しかしながら、時系列の複数枚の深度画像をセットとしてニューラルネットワーク8に入力するようにしてもよい。例えば、連続的に撮影された3枚の深度画像を、RGBのように1つのセットにすることができる。この場合、動作値W1の時間変化も考慮に入れて、ニューラルネットワーク8を学習させることができ、動作値W1の予測精度が向上する。
<6-4>
In the above embodiment, the image input to the neural network 8 is one depth image. However, a plurality of depth images in a time series may be input to the neural network 8 as a set. For example, three depth images captured consecutively can be combined into one set, such as RGB. In this case, the neural network 8 can learn by taking into account the time change of the motion value W1 , and the prediction accuracy of the motion value W1 is improved.

1 コンピュータ(学習モデルの生成装置、動作解析装置)
14a 第1取得部
14b 第2取得部
14c 第3取得部
14d 第4取得部
14e CG作成部
14f 画像作成部
14g 学習部
14h 第5取得部(取得部)
14i 導出部
14j 表示制御部
2 距離画像センサ
3 モーションキャプチャシステム
4 角速度センサ
5 ゴルフクラブ
6 プログラム(動作解析プログラム)
7 ゴルファー(物体)
8 ニューラルネットワーク
100 動作解析システム
D1 ボーンデータ
D2 三次元CGデータ
1. Computer (learning model generation device, motion analysis device)
14a: First acquisition unit 14b: Second acquisition unit 14c: Third acquisition unit 14d: Fourth acquisition unit 14e: CG creation unit 14f: Image creation unit 14g: Learning unit 14h: Fifth acquisition unit (acquisition unit)
14i Derivation unit 14j Display control unit 2 Distance image sensor 3 Motion capture system 4 Angular velocity sensor 5 Golf club 6 Program (motion analysis program)
7. Golfer (object)
8 Neural network 100 Motion analysis system D1 Bone data D2 Three-dimensional CG data

Claims (9)

物体の動作を解析するための学習モデルの生成方法であって、
前記物体の骨格を表すボーンデータを取得することと、
前記ボーンデータに基づいて、前記物体の体型を表す三次元コンピュータ・グラフィックス(CG)データを作成することと、
前記三次元CGデータに基づいて、前記物体の多数の深度画像を作成することと、
前記多数の深度画像にそれぞれ対応する、前記物体における1又は複数の所定の部位の動作を表す多数の動作値を取得することと、
前記三次元CGデータに基づく前記深度画像及びこれに対応する前記動作値の多数のデータセットを教師データとして、距離画像センサにより撮影される前記物体の深度画像を入力とし、前記動作値を出力とするニューラルネットワークを学習させることと
を含み、
前記多数の深度画像を作成することは、同じ1つのシーンにおける前記三次元CGデータに基づいて、視点の異なる複数の深度画像を作成することを含む、
学習モデルの生成方法。
A method for generating a learning model for analyzing an object's motion, comprising the steps of:
obtaining bone data representative of a skeleton of the object;
creating three-dimensional computer graphics (CG) data representing a body shape of the object based on the bone data;
generating multiple depth images of the object based on the 3D CG data;
obtaining a number of motion values representing motion of one or more predetermined portions of the object, the motion values corresponding to the number of depth images respectively;
and training a neural network that uses a large number of data sets of the depth images based on the three-dimensional CG data and the corresponding action values as training data, inputs a depth image of the object captured by a range image sensor, and outputs the action values ;
Creating the multiple depth images includes creating multiple depth images having different viewpoints based on the 3D CG data of a single scene.
How to generate a learning model.
前記多数の動作値を取得することは、前記ボーンデータ及び前記三次元CGデータの少なくとも一方に基づいて、前記多数の動作値を導出することを含む、
請求項1に記載の学習モデルの生成方法。
obtaining the multiple motion values includes deriving the multiple motion values based on at least one of the bone data and the three-dimensional CG data;
A method for generating a learning model according to claim 1 .
前記三次元CGデータを作成することは、同じ1つの骨格に対し異なる態様で肉付けし、異なる体型を表す前記三次元CGデータを作成することを含む、
請求項1又は2に記載の学習モデルの生成方法。
Creating the three-dimensional CG data includes creating the three-dimensional CG data representing different body types by fleshing out the same skeleton in different ways.
A method for generating a learning model according to claim 1 or 2.
前記距離画像センサにより撮影された前記物体の多数の深度画像を取得することと、
前記距離画像センサにより撮影された前記多数の深度画像にそれぞれ対応する、多数の前記動作値を取得することと、
前記三次元CGデータに基づく前記深度画像及びこれに対応する前記動作値の前記多数のデータセットを教師データとして、前記ニューラルネットワークを学習させた後に、前記距離画像センサにより撮影された前記深度画像及びこれに対応する前記動作値の多数のデータセットを教師データとして、前記ニューラルネットワークを学習させることと
をさらに含む、
請求項1からのいずれかに記載の学習モデルの生成方法。
acquiring multiple depth images of the object captured by the range image sensor;
acquiring a number of the motion values corresponding to the number of depth images captured by the distance image sensor;
The method further includes: training the neural network using the depth image based on the three-dimensional CG data and the multiple data sets of the corresponding action values as training data, and then training the neural network using the depth image captured by the distance image sensor and the multiple data sets of the corresponding action values as training data.
A method for generating a learning model according to any one of claims 1 to 3 .
前記ボーンデータは、ゴルフスイング中のゴルファーの骨格を表すデータである、
請求項1からのいずれかに記載の学習モデルの生成方法。
The bone data is data representing a golfer's skeleton during a golf swing.
A method for generating a learning model according to any one of claims 1 to 4 .
物体の動作を解析するための学習モデルの生成装置であって、
前記物体の骨格を表すボーンデータを取得する第1取得部と、
前記ボーンデータに基づいて、前記物体の体型を表す三次元コンピュータ・グラフィックス(CG)データを作成するCG作成部と、
前記三次元CGデータに基づいて、前記物体の多数の深度画像を作成する画像作成部と、
前記多数の深度画像にそれぞれ対応する、前記物体における1又は複数の所定の部位の動作を表す多数の動作値を取得する第2取得部と、
前記三次元CGデータに基づく前記深度画像及びこれに対応する前記動作値の多数のデータセットを教師データとして、距離画像センサにより撮影される前記物体の深度画像を入力とし、前記動作値を出力とするニューラルネットワークを学習させる学習部と
を備え、
前記画像作成部は、同じ1つのシーンにおける前記三次元CGデータに基づいて、視点の異なる複数の深度画像を作成する、
学習モデルの生成装置。
A device for generating a learning model for analyzing the motion of an object, comprising:
a first acquisition unit that acquires bone data representing a skeleton of the object;
a CG creation unit that creates three-dimensional computer graphics (CG) data representing a body shape of the object based on the bone data;
an image creation unit that creates multiple depth images of the object based on the three-dimensional CG data;
A second acquisition unit that acquires a number of motion values that represent motions of one or more predetermined parts of the object, the motion values corresponding to the number of depth images, respectively;
a learning unit that uses a large number of data sets of the depth images based on the three-dimensional CG data and the corresponding action values as training data, inputs a depth image of the object captured by a distance image sensor, and trains a neural network that outputs the action values;
the image creation unit creates a plurality of depth images having different viewpoints based on the 3D CG data of the same scene;
A device for generating learning models.
物体の動作を解析する動作解析装置であって、
前記物体の動作を距離画像センサにより撮影した深度画像を取得する取得部と、
前記取得された深度画像を、請求項1からのいずれかに記載の生成方法を用いて生成された前記ニューラルネットワークに入力することにより、前記動作値を導出する導出部と
を備える、
動作解析装置。
A motion analysis device for analyzing a motion of an object, comprising:
an acquisition unit that acquires a depth image obtained by capturing the motion of the object using a distance image sensor;
and a derivation unit that derives the operation value by inputting the acquired depth image to the neural network generated by using the generation method according to any one of claims 1 to 5 .
Motion analysis device.
物体の動作を解析する動作解析方法であって、
前記物体の動作を距離画像センサにより撮影した深度画像を取得することと、
前記取得された深度画像を、請求項1からのいずれかに記載の生成方法を用いて生成された前記ニューラルネットワークに入力することにより、前記動作値を導出することと
を含む、
動作解析方法。
A motion analysis method for analyzing a motion of an object, comprising:
acquiring a depth image by capturing the motion of the object using a distance image sensor;
and deriving the motion value by inputting the acquired depth image into the neural network generated using the generation method according to any one of claims 1 to 5 .
Motion analysis method.
物体の動作を解析する動作解析プログラムであって、
前記物体の動作を距離画像センサにより撮影した深度画像を取得することと、
前記取得された深度画像を、請求項1からのいずれかに記載の生成方法を用いて生成された前記ニューラルネットワークに入力することにより、前記動作値を導出することと
をコンピュータに実行させる、
動作解析プログラム。
A motion analysis program for analyzing a motion of an object,
acquiring a depth image by capturing the motion of the object using a distance image sensor;
and deriving the motion value by inputting the acquired depth image into the neural network generated using the generation method according to any one of claims 1 to 5 .
Motion analysis program.
JP2019231158A 2019-12-23 2019-12-23 How to generate a learning model Active JP7482471B2 (en)

Priority Applications (1)

Application Number Priority Date Filing Date Title
JP2019231158A JP7482471B2 (en) 2019-12-23 2019-12-23 How to generate a learning model

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
JP2019231158A JP7482471B2 (en) 2019-12-23 2019-12-23 How to generate a learning model

Publications (2)

Publication Number Publication Date
JP2021099666A JP2021099666A (en) 2021-07-01
JP7482471B2 true JP7482471B2 (en) 2024-05-14

Family

ID=76541212

Family Applications (1)

Application Number Title Priority Date Filing Date
JP2019231158A Active JP7482471B2 (en) 2019-12-23 2019-12-23 How to generate a learning model

Country Status (1)

Country Link
JP (1) JP7482471B2 (en)

Families Citing this family (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN114534224A (en) * 2022-01-13 2022-05-27 上海凯视力成科技有限公司 Intelligent mirror for golf swing

Citations (5)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2011078753A (en) 2009-09-14 2011-04-21 Univ Of Tokyo Motor learning support apparatus and method
JP2015116308A (en) 2013-12-18 2015-06-25 三菱電機株式会社 Gesture registration device
JP2018026131A (en) 2016-08-09 2018-02-15 ダンロップスポーツ株式会社 Motion analyzer
JP2018067294A (en) 2016-10-14 2018-04-26 パナソニック インテレクチュアル プロパティ コーポレーション オブ アメリカPanasonic Intellectual Property Corporation of America Learning data creation support method, learning data creation support device, and program
WO2018207351A1 (en) 2017-05-12 2018-11-15 富士通株式会社 Distance image processing device, distance image processing system, distance image processing method, and distance image processing program

Patent Citations (5)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2011078753A (en) 2009-09-14 2011-04-21 Univ Of Tokyo Motor learning support apparatus and method
JP2015116308A (en) 2013-12-18 2015-06-25 三菱電機株式会社 Gesture registration device
JP2018026131A (en) 2016-08-09 2018-02-15 ダンロップスポーツ株式会社 Motion analyzer
JP2018067294A (en) 2016-10-14 2018-04-26 パナソニック インテレクチュアル プロパティ コーポレーション オブ アメリカPanasonic Intellectual Property Corporation of America Learning data creation support method, learning data creation support device, and program
WO2018207351A1 (en) 2017-05-12 2018-11-15 富士通株式会社 Distance image processing device, distance image processing system, distance image processing method, and distance image processing program

Non-Patent Citations (1)

* Cited by examiner, † Cited by third party
Title
上原 和加貴,深層学習を用いた3次元CG歩行モデルにおける運動モーション識別の研究 A Study on Motion Recognition by Using 3D-CG Pedestrian Model and Alternative Learning,電気学会研究会資料 The Papers of Technical Meeting on "Innovative Industrial System",IEE Japan,日本,電気学会,2018年09月03日,P25-28

Also Published As

Publication number Publication date
JP2021099666A (en) 2021-07-01

Similar Documents

Publication Publication Date Title
US11468612B2 (en) Controlling display of a model based on captured images and determined information
JP7057959B2 (en) Motion analysis device
US8175326B2 (en) Automated scoring system for athletics
JP6973388B2 (en) Information processing equipment, information processing methods and programs
CN104598867B (en) A kind of human action automatic evaluation method and dancing points-scoring system
JP7367764B2 (en) Skeleton recognition method, skeleton recognition program, and information processing device
US20210286983A1 (en) Estimation method, and computer-readable recording medium recording estimation program
CN104035557B (en) Kinect action identification method based on joint activeness
JP7008342B2 (en) Exercise evaluation system
CN104598012B (en) A kind of interactive advertising equipment and its method of work
Chun et al. A sensor-aided self coaching model for uncocking improvement in golf swing
KR101636171B1 (en) Skeleton tracking method and keleton tracking system using the method
WO2020147797A1 (en) Image processing method and apparatus, image device, and storage medium
KR20220067965A (en) Method and apparatus for Virtual training based on tangible interaction
JP7482471B2 (en) How to generate a learning model
Hwang et al. Motion data acquisition method for motion analysis in golf
JP2024087325A (en) Behavior analysis result output method, behavior analysis result output program, and behavior analysis result output system
US20240362849A1 (en) Computer-readable recording medium storing training program, generation program, training method, and generation method
KR20210067718A (en) Apparatus and method for providing feedback on golf swing motion
JP7620372B1 (en) Exercise evaluation device, exercise evaluation method, and exercise evaluation program
WO2024111430A1 (en) Processing device, processing system, processed model construction method, and program
EP4303824A1 (en) System and method for monitoring a body pose of a user
JP7281138B2 (en) Swing analysis device
WO2024172013A1 (en) Coordinate transformation method, coordinate transformation device, motion analysis method, motion analysis device, and computer program
Rymut et al. Kinematic analysis of hurdle clearance using a mobile device

Legal Events

Date Code Title Description
A621 Written request for application examination

Free format text: JAPANESE INTERMEDIATE CODE: A621

Effective date: 20220803

A977 Report on retrieval

Free format text: JAPANESE INTERMEDIATE CODE: A971007

Effective date: 20230623

A131 Notification of reasons for refusal

Free format text: JAPANESE INTERMEDIATE CODE: A131

Effective date: 20230704

A521 Request for written amendment filed

Free format text: JAPANESE INTERMEDIATE CODE: A523

Effective date: 20230830

A131 Notification of reasons for refusal

Free format text: JAPANESE INTERMEDIATE CODE: A131

Effective date: 20231205

A521 Request for written amendment filed

Free format text: JAPANESE INTERMEDIATE CODE: A523

Effective date: 20240119

TRDD Decision of grant or rejection written
A01 Written decision to grant a patent or to grant a registration (utility model)

Free format text: JAPANESE INTERMEDIATE CODE: A01

Effective date: 20240402

A61 First payment of annual fees (during grant procedure)

Free format text: JAPANESE INTERMEDIATE CODE: A61

Effective date: 20240419

R150 Certificate of patent or registration of utility model

Ref document number: 7482471

Country of ref document: JP

Free format text: JAPANESE INTERMEDIATE CODE: R150