JP2020046500A - Information processing apparatus, information processing method and information processing program - Google Patents
Information processing apparatus, information processing method and information processing program Download PDFInfo
- Publication number
- JP2020046500A JP2020046500A JP2018173676A JP2018173676A JP2020046500A JP 2020046500 A JP2020046500 A JP 2020046500A JP 2018173676 A JP2018173676 A JP 2018173676A JP 2018173676 A JP2018173676 A JP 2018173676A JP 2020046500 A JP2020046500 A JP 2020046500A
- Authority
- JP
- Japan
- Prior art keywords
- information
- performance
- information processing
- musical instrument
- input image
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Pending
Links
Images
Classifications
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10G—REPRESENTATION OF MUSIC; RECORDING MUSIC IN NOTATION FORM; ACCESSORIES FOR MUSIC OR MUSICAL INSTRUMENTS NOT OTHERWISE PROVIDED FOR, e.g. SUPPORTS
- G10G3/00—Recording music in notation form, e.g. recording the mechanical operation of a musical instrument
- G10G3/04—Recording music in notation form, e.g. recording the mechanical operation of a musical instrument using electrical means
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10H—ELECTROPHONIC MUSICAL INSTRUMENTS; INSTRUMENTS IN WHICH THE TONES ARE GENERATED BY ELECTROMECHANICAL MEANS OR ELECTRONIC GENERATORS, OR IN WHICH THE TONES ARE SYNTHESISED FROM A DATA STORE
- G10H1/00—Details of electrophonic musical instruments
Landscapes
- Physics & Mathematics (AREA)
- Engineering & Computer Science (AREA)
- Acoustics & Sound (AREA)
- Multimedia (AREA)
- Auxiliary Devices For Music (AREA)
- Electrophonic Musical Instruments (AREA)
Abstract
Description
本技術は、情報処理装置、情報処理方法および情報処理プログラムに関する。 The present technology relates to an information processing device, an information processing method, and an information processing program.
従来から、ダンスなどの人のパフォーマンスをデータ化するシステムが提案されている(特許文献1)。 2. Description of the Related Art Hitherto, a system has been proposed in which performance of a person such as a dance is converted into data (Patent Document 1).
特許文献1に記載のシステムは、3次元空間におけるパフォーマーのダンス動作が記録された譜面データを生成するものである。このような動作をデータ化する手法においては、動作の種別によってデータ化のために必要な情報や処理が異なるため、そのまま他の動作、例えば楽器演奏などに適用することは難しい。 The system described in Patent Literature 1 generates musical score data in which a dance motion of a performer in a three-dimensional space is recorded. In the method of converting such an operation into data, it is difficult to apply the operation to other operations, for example, a musical instrument performance as it is, because information and processing required for data conversion differ depending on the type of operation.
本技術はこのような点に鑑みなされたものであり、画像から楽器の演奏を示す情報を取得することができる情報処理装置、情報処理方法および情報処理プログラムを提供することを目的とする。 The present technology has been made in view of such a point, and an object of the present technology is to provide an information processing apparatus, an information processing method, and an information processing program capable of acquiring information indicating performance of a musical instrument from an image.
上述した課題を解決するために、第1の技術は、入力画像から演奏者の身体の部位の位置を認識する位置認識部と、入力画像から楽器を認識する楽器認識部と、部位の位置と楽器との関連性に基づき、演奏者による楽器の演奏を示す演奏情報を生成する演奏情報生成部とを備える情報処理装置である。 In order to solve the above-described problem, a first technique includes a position recognition unit that recognizes a position of a body part of a player from an input image, a musical instrument recognition unit that recognizes a musical instrument from the input image, and a position of the part. An information processing apparatus comprising: a performance information generating unit configured to generate performance information indicating a performance of a musical instrument by a player based on relevance to the musical instrument.
また、第2の技術は、入力画像から演奏者の身体の部位の位置を認識し、入力画像から楽器を認識し、部位の位置と楽器との関連性に基づき、演奏者による楽器の演奏を示す演奏情報を生成する情報処理方法である。 The second technique recognizes a position of a body part of a player from an input image, recognizes a musical instrument from the input image, and plays a musical instrument by the player based on the relationship between the position of the part and the musical instrument. This is an information processing method for generating performance information shown in FIG.
さらに、第3の技術は、入力画像から演奏者の身体の部位の位置を認識し、入力画像から楽器を認識し、部位の位置と楽器との関連性に基づき、演奏者による前記楽器の演奏を示す演奏情報を生成する情報処理方法をコンピュータに実行させる情報処理プログラムである。 Further, a third technique recognizes the position of a body part of a player from an input image, recognizes a musical instrument from the input image, and performs the performance of the musical instrument by the player based on the relationship between the position of the part and the musical instrument. Is an information processing program for causing a computer to execute an information processing method for generating performance information indicating the following.
以下、本技術の実施の形態について図面を参照しながら説明する。なお、説明は以下の順序で行う。
<1.第1の実施の形態>
[1−1.端末装置の構成]
[1−2.情報処理装置の構成]
[1−3.情報処理装置による処理]
[1−3−1.部分演奏情報の生成]
[1−3−2.複合演奏情報の生成]
<2.第2の実施の形態>
[2−1.情報処理装置の構成]
[2−2.情報処理装置の処理]
<3.第3の実施の形態>
[3−1.情報処理装置の構成]
[3−2.情報処理装置の処理]
<4.変形例>
Hereinafter, embodiments of the present technology will be described with reference to the drawings. The description will be made in the following order.
<1. First Embodiment>
[1-1. Configuration of Terminal Device]
[1-2. Configuration of Information Processing Apparatus]
[1-3. Processing by information processing device]
[1-3-1. Generation of partial performance information]
[1-3-2. Generating composite performance information]
<2. Second Embodiment>
[2-1. Configuration of Information Processing Apparatus]
[2-2. Processing of information processing device]
<3. Third Embodiment>
[3-1. Configuration of Information Processing Apparatus]
[3-2. Processing of information processing device]
<4. Modification>
<1.第1の実施の形態>
[1−1.端末装置の構成]
まず図1を参照して端末装置10について説明する。端末装置10は、制御部11、記憶部12、通信部13、表示部14、入力部15、カメラ部16および情報処理装置100を備えている。
<1. First Embodiment>
[1-1. Configuration of Terminal Device]
First, the
制御部11は、CPU(Central Processing Unit)、RAM(Random Access Memory)およびROM(Read Only Memory)などから構成されている。ROMには、CPUにより読み込まれ動作されるプログラムなどが記憶されている。RAMは、CPUのワークメモリとして用いられる。CPUは、ROMに記憶されたプログラムに従い様々な処理を実行してコマンドの発行を行うことによって端末装置10全体の制御を行う。
The
記憶部12は、例えば、ハードディスク、半導体メモリなどを用いた大容量記憶媒体である。記憶部12は、カメラ部16により撮影された撮影画像、撮影映像や、情報処理装置100により生成された演奏情報や楽譜情報、さらにコンテンツやアプリケーションなどを保存することができる。
The
通信部13は、他の装置、インターネットなどと通信するための通信モジュール、通信用コネクタなどである。通信部13による通信は、USB通信などの有線通信、Wi-Fiなどの無線LAN、Bluetooth(登録商標)、ZigBee、4G(第4世代移動通信システム)、ブロードバンドなどの無線通信などなんでもよい。
The
表示部14は、例えば、LCD(Liquid Crystal Display)、PDP(Plasma Display Panel)、有機EL(Electro Luminescence)パネルなどにより構成された表示デバイスである。表示部14には、端末装置10のユーザインターフェース、情報処理装置100による処理のためにユーザに提示するインターフェースなどが表示される。
The
入力部15は、ユーザの端末装置10に対する操作入力を受け付けるものである。入力部15に対してユーザから入力がなされると、その入力に応じた入力信号が生成されて制御部11に出力される。そして、制御部11はその入力信号に対応した演算処理、端末装置10の制御を行う。入力部15としては、表示部14と一体に構成されたタッチパネル、トラックパッドやタッチパッドと称される表示部14とは一体となっていない平板状のセンサーを指でなぞって操作するポインティングデバイス、キーボード、マウスなどがある。
The
カメラ部16は撮像素子、画像処理用LSIなどを備え、静止画像および映像の撮影が可能なカメラ機能を備えるものである。カメラ部16により撮影された静止画像または映像は情報処理装置100における演奏情報生成処理に用いることができる。なお、カメラ部16は端末装置10の必須の構成要素ではない。
The
情報処理装置100は、本技術に係る演奏情報生成処理を行うものである。情報処理装置100の詳細は後述する。
The
端末装置10は以上のようにして構成されている。端末装置10の具体例としてはパーソナルコンピュータ、ノートパソコン、タブレット端末、スマートフォン、電子キーボード、シンセサイザー、DAW(Digital Audio Workstation)などが挙げられる。
The
[1−2.情報処理装置の構成]
次に図2を参照して情報処理装置100の構成について説明する。情報処理装置100は、画像入力部101、位置認識部102、形状認識部103、動き認識部104、楽器認識部105、関連性認識部106、演奏情報生成部107、楽譜情報生成部108とから構成されている。
[1-2. Configuration of Information Processing Apparatus]
Next, the configuration of the
画像入力部101には処理対象となる入力画像としての複数枚の連続する静止画像、または動画を構成する連続する複数のフレーム画像が入力される。画像入力部101は、入力画像を位置認識部102と楽器認識部105に供給する。本技術における処理対象である入力画像は、複数枚の連続する静止画像のそれぞれ、動画を構成する複数のフレーム画像のそれぞれである。
The
なお、入力画像は端末装置10が備えるカメラ部16で撮影したものでもよいし、カメラ部16以外のカメラで撮影して端末装置10を介して情報処理装置100に取り込んだものでもよい。また、外部の別の装置から端末装置10を介して情報処理装置100に供給したものでもよい。また、現実に情報処理装置100の使用者の眼の前で行われている演奏を撮影したものでもよいし、テレビ、パーソナルコンピュータなどのディスプレイに表示されている映像を撮影したものでもよい。また、市販のDVD、Blue ray(登録商標)に収録された映像、インターネット上で取得可能な静止画像や映像などでもよい。すなわち、入力画像は、演奏者が演奏している様子が映っている画像であればどのようなものでもよい。また、入力画像はRBG(Red,Green,Blue)画像の他、IR画像などでもよい。
The input image may be an image captured by the
第1の実施の形態における入力画像は図3に示すように、演奏者の両手、演奏者が演奏する楽器において演奏者の手が接触する演奏のための領域(演奏領域)の全体が写っているものである。 As shown in FIG. 3, the input image according to the first embodiment shows the entire area (performance area) for the performance in which both hands of the player and the hand of the player touch on the instrument played by the player. Is what it is.
位置認識部102は、入力画像からHand Pose Detection、Hand Pose Estimation、Hand segmentationなどの人体の手認識技術や、HOG(Histogram of Oriented Gradient)、SIFT(Scale Invariant Feature Transform)などの特徴点抽出方法、Boosting、SVM(Support Vector Machine)などのパターン認識による被写体認識方法、Graph Cutなどによる領域抽出方法、CNN(Convolutional Neural Network)などにより、入力画像中における演奏者の身体の部位である手の3次元位置を認識する。また位置認識部102は、手に加えて、演奏情報生成のために必要に応じて演奏者の身体の部位としての手の指の位置、腕の位置、肘の位置なども認識する。手の3次元位置情報は形状認識部103、動き認識部104および関連性認識部106に供給される。
The
手の3次元位置を認識するための手の特徴点としては指先、指の関節、手首などがある。位置情報は入力画像中における演奏者の手の3次元位置を示す情報であるため、例えば、入力画像の所定の位置を原点(0,0,0)とした(x,y,z)の座標で表される。連続する入力画像の番号をt(t=1、2、3、・・・)とし、手の特徴点をP(P=1、2、3、・・・)とすると、位置情報は(xtP,ytP,ztP)という形式で表される。 The characteristic points of the hand for recognizing the three-dimensional position of the hand include a fingertip, a finger joint, and a wrist. Since the position information is information indicating the three-dimensional position of the player's hand in the input image, for example, the coordinates of (x, y, z) where the predetermined position of the input image is the origin (0, 0, 0) It is represented by If the number of the continuous input image is t (t = 1, 2, 3,...) And the hand feature point is P (P = 1, 2, 3,...), The position information is (x tP , ytP , ztP ).
例えば図4Aに示すように、入力画像(t=1)では、手の特徴点が5つ認識された場合、それらは、
特徴点P1:(x11,y11,z11)
特徴点P2:(x12,y12,z12)
特徴点P3:(x13,y13,z13)
特徴点P4:(x14,y14,z14)
特徴点P5:(x15,y15,z15)
のように表される。
For example, as shown in FIG. 4A, when five feature points of the hand are recognized in the input image (t = 1),
Feature point P1: (x 11, y 11 , z 11)
Feature point P2: (x 12, y 12 , z 12)
Feature point P3: (x 13, y 13 , z 13)
Feature point P4: (x 14, y 14 , z 14)
Feature point P5: (x 15, y 15 , z 15)
It is represented as
また、図4Bに示すように、入力画像(t=2)では、手の特徴点が5つ認識された場合、それらは、
特徴点P1:(x21,y21,z21)
特徴点P2:(x22,y22,z22)
特徴点P3:(x23,y23,z23)
特徴点P4:(x24,y24,z24)
特徴点P5:(x25,y25,z25)
のように表される。
Also, as shown in FIG. 4B, in the input image (t = 2), when five hand feature points are recognized,
Feature point P1: (x 21, y 21 , z 21)
Feature point P2: (x 22, y 22 , z 22)
Feature point P3: (x 23, y 23 , z 23)
Feature point P4: (x 24, y 24 , z 24)
Feature point P5: (x 25, y 25 , z 25)
It is represented as
なお、手の3次元位置情報はカメラ原点のグローバル座標系でもよいし、入力画像上のローカル座標系+奥行き情報でもよい。また、Hand Segmentationで求めた領域の重心およびDepth情報を用いて手の3次元位置を求めてもよい。 Note that the three-dimensional position information of the hand may be a global coordinate system of the camera origin, or a local coordinate system + depth information on the input image. Alternatively, the three-dimensional position of the hand may be obtained using the center of gravity and Depth information of the region obtained by Hand Segmentation.
なお、図4は説明の便宜上手の5本の各指の先端に特徴点が認識された図であるが、実際には図5の手に重畳して表された複数の黒点が示すように例えば各指の関節部分、水かき部分および手首など多数の特徴点が認識される。このように多数の特徴点を認識したほうがより正確に演奏情報を生成することができる。 Note that FIG. 4 is a diagram in which characteristic points are recognized at the tips of five fingers of the hand for convenience of description, but in reality, as shown by a plurality of black dots superimposed on the hand in FIG. For example, a number of feature points such as a joint part, a web part, and a wrist of each finger are recognized. Recognition of a large number of feature points enables more accurate performance information to be generated.
また、入力画像の一部領域を切り出した切り出し画像においては、(x,y,z)の座標系とは異なる座標系である、切り出し画像の所定の位置を原点とした(utP,vtP,dtP)の座標で表してもよい。 Further, in a cut-out image obtained by cutting out a partial area of the input image, a predetermined position of the cut-out image, which is a coordinate system different from the (x, y, z) coordinate system, is set as an origin ( utP , vtP). , d tP ).
形状認識部103は、CNN、パターンマッチング、Boostingなどの技術を用いて、位置認識部102から供給された位置情報で示される手の形状を認識する。手の形状情報は動き認識部104と演奏情報生成部107に供給される。
The
動き認識部104は、CNN、Hand Trackingなどの技術を用いて、位置および形状が認識された演奏者の手の動きを認識する。手の動き情報は演奏情報生成部107に供給される。手の動きは、複数の連続する入力画像のうちの一の入力画像(t)と、時系列でその入力画像(t)以降の入力画像(t+n)との動きベクトルの変化から認識することができる。
The
楽器認識部105は、CNN、パターンマッチングなどの技術を用いて、入力画像中における楽器およびその楽器において演奏者の手が接触する演奏のための領域(演奏領域)を認識するものである。演奏領域とは、例えば楽器がピアノであれば鍵盤、楽器がギターであればピックアップ部分(アコースティックギターであればサウンドホール)およびネックである。楽器認識情報は関連性認識部106に供給される。
The musical
関連性認識部106は、CNN、パターンマッチングなどの技術を用いて演奏者の手の位置と楽器の演奏領域の関連性を認識する。関連性 とは、楽器演奏のための演奏者と楽器の関連、すなわち、演奏者の手が楽器の演奏領域のどこに接触しているかを示す接触位置である。また、関連性は、楽器の演奏領域に対する演奏者の手、腕、肘などの部位の動作の方向である。関連性情報は演奏情報生成部107に供給される。
The
演奏情報生成部107は、CNNなどの技術を用いて演奏者が演奏状態にあるか否かを認識する。そして、入力画像において演奏者が演奏している状態に基づく演奏要素(第1演奏要素)、演奏者が演奏してない状態に基づく演奏要素(第2演奏要素)、複数の入力画像に跨る演奏要素(第3演奏要素)とから入力画像の一枚に対応した演奏情報(部分演奏情報)を生成する。
The performance
第1演奏要素は楽器によって異なるものではあるが、ピアノなどの鍵盤楽器では、音階、音の長さ、テンポ、強弱などがある。また、ギターなどの弦楽器でも同様に音階、音の長さ、音の強弱などがある。さらに、ドラムなどの打楽器では叩くドラムセットの種類、音の長さ、テンポ、強弱などがある。 Although the first performance element varies depending on the musical instrument, a keyboard instrument such as a piano has a scale, a sound length, a tempo, a strength, and the like. Similarly, a stringed instrument such as a guitar has a scale, a sound length, and a sound intensity. Further, for percussion instruments such as drums, there are a type of drum set to be hit, a sound length, a tempo, a strength and the like.
また、第2演奏要素としてはいずれの楽器においても、休みの長さ、などがある。第3演奏要素としては、テンポ、音の長さ、休みの長さ、調、音の強弱などがある。音の強弱、音の長さなどは第1の演奏要素でもあり、第3の演奏要素でもあるが、これは入力画像1枚で音の強弱や音の長さを推定することができる場合もあれば、推定に複数枚の入力画像を必要とする場合もあるからである。例えば、1枚の入力画像において演奏者の指が楽器の演奏領域から大きく離れている位置にある場合はその1枚の入力画像から音が強いことを推定することができるが、指が楽器の演奏領域の近くで細かく動いているような場合は1枚の画像では強弱は推定できず、複数枚の入力画像を参照して演奏者の指の動きを認識して強弱を推定する必要がある。 Further, as the second performance element, for any musical instrument, there is a length of rest. As the third performance element, there are a tempo, a sound length, a rest length, a key, a sound intensity, and the like. The dynamics of the sound, the duration of the sound, etc. are also the first performance element and the third performance element. In some cases, the strength and duration of the sound can be estimated from one input image. If there is, a plurality of input images may be required for estimation. For example, when the player's finger is located far away from the musical performance area of the musical instrument in one input image, it can be estimated from the single input image that the sound is strong. In the case where the image moves finely near the performance area, the strength cannot be estimated with one image, and it is necessary to estimate the strength by recognizing the movement of the player's finger with reference to a plurality of input images. .
演奏者の手の位置と楽器の演奏領域との関連性情報から演奏要素を取得する方法としては、位置認識部102により認識された手の位置と、形状認識部103により認識された手の形状と、楽器認識部105により認識された楽器と演奏領域に基き、演奏者の手の指が楽器の演奏領域のどの鍵盤に接触しているかを認識する。それにより、その入力画像における演奏者の状態において演奏により音階のどの音を鳴らしているかを認識することができる。また、複数の音により構成されるどのような和音(コード)を鳴らしているかも認識することもできる。
As a method for acquiring a performance element from the relevance information between the position of the player's hand and the playing area of the instrument, the hand position recognized by the
また、演奏者の指が演奏領域の同一箇所にどのくらい接触し続けているかを認識することにより音の長さを認識することもできる。 In addition, by recognizing how long the finger of the player keeps touching the same place in the performance area, the sound length can be recognized.
和音(コード)の認識は、例えば楽器がギターである場合は、図6A、図6Bに示すように予め演奏情報生成部107に和音(コード)を演奏する場合の指の位置および形状を示すテンプレート画像を和音(コード)の種類ごとに複数保持させておく。そして、入力画像から抽出された指の位置情報、指の形状情報とテンプレート画像を比較(テンプレートマッチング)することにより指の位置および形状が最も近似する和音(コード)を決定する。
For example, if the musical instrument is a guitar, the chord (chord) is recognized by the performance
また、和音(コード)の認識は、図6Cに示すように予め演奏情報生成部107に和音(コード)を演奏する場合の指の位置を示す指の特徴点の座標情報を和音(コード)の種類ごとに複数保持させておき、その座標情報と入力画像から抽出された指の位置情報(座標情報)を比較することによっても可能である。
As shown in FIG. 6C, the recognition of chords (chords) is performed in advance by the performance
また、動き認識部104により認識された手の動きに基づいて、一の入力画像(t)と、時系列でその入力画像(t)以降の入力画像(t+n)とから認識することができる演奏者の手の略垂直方向の動きから演奏しているか否か、演奏の強弱、テンポなどを認識することができる。
Also, based on the hand movement recognized by the
この場合の略垂直方向とは、楽器がピアノの場合、鍵盤が並ぶ方向に対して略垂直の方向である。演奏者が演奏しているか否かは楽器の鍵盤に手が離れているか否かに基づいて判断することができる。また、演奏の強弱は略垂直方向における手の位置(手の高さ)から判断することができる。例えば、手が鍵盤から垂直方向に離れているほど音が強く、手が鍵盤に垂直方向に近づいているほど音が弱いと判断することができる。また、手の垂直方向における規則的な上下動作の時間間隔から曲のテンポを認識することができる。このように曲のテンポや音の長さなど時間に関連する演奏要素を認識するためには映像を構成するフレームレートと実時間を対応付けて、演奏者の規則的な動きの実時間での動作間隔と映像の再生時間とから求めることができる。 The substantially vertical direction in this case is a direction substantially perpendicular to the direction in which the keyboards are arranged when the musical instrument is a piano. Whether or not the player is playing can be determined based on whether or not the hand is off the keyboard of the musical instrument. The strength of the performance can be determined from the position of the hand (hand height) in a substantially vertical direction. For example, it can be determined that the sound is stronger when the hand is farther away from the keyboard in the vertical direction, and the sound is weaker when the hand is closer to the keyboard in the vertical direction. Further, the tempo of the music can be recognized from the time interval of the regular up and down movement in the vertical direction of the hand. In this way, in order to recognize performance elements related to time, such as the tempo of a song and the duration of a sound, the frame rate constituting the video is associated with real time, and the player's regular movements in real time are It can be obtained from the operation interval and the video playback time.
また、同様に一の入力画像(t)と、時系列でその入力画像(t)以降の入力画像(t+n)とから認識することができる演奏者の手の略水平方向の動きから音階を認識することができる。この場合の略水平方向とは、楽器がピアノの場合、鍵盤が並ぶ方向に対して略水平の方向である。具体的にはピアノに対する手の略水平方向の位置が変わることにより、ピアノの鍵盤のどの領域を演奏しているかがわかり、それにより音域、オクターブの変化など演奏されている音階を認識することができる。 Similarly, the scale is recognized from the movement of the player's hand in a substantially horizontal direction that can be recognized from one input image (t) and the input image (t + n) subsequent to the input image (t) in time series. can do. In this case, the substantially horizontal direction is a direction substantially horizontal to the direction in which the keyboards are arranged when the musical instrument is a piano. Specifically, by changing the position of the hand with respect to the piano in a substantially horizontal direction, it is possible to know which area of the piano's keyboard is being played, thereby recognizing the scale being played, such as changes in the range and octave. it can.
手の略垂直方向の動きと略水平方向の動きは、複数の連続する入力画像のうちの一の入力画像(t)と、時系列でその入力画像(t)以降の入力画像(t+n)との動きベクトルの変化から認識することができる。 The movement of the hand in the substantially vertical direction and the movement in the substantially horizontal direction include the input image (t) of one of a plurality of continuous input images and the input image (t + n) subsequent to the input image (t) in time series. Can be recognized from the change of the motion vector.
第3演奏要素は複数の入力画像に跨った演奏者の指や腕の変化に基づいて生成することができる。例えば、手が複数の入力画像に跨って鍵盤から垂直方向に離れている時間が長いほど次に鳴らされる音が強いとして第3演奏要素とすることができる。また、複数の入力画像跨る手の垂直方向における上下動作の時間間隔から曲のテンポを認識して第3演奏要素とすることができる。 The third performance element can be generated based on a change in a player's finger or arm over a plurality of input images. For example, it can be determined that the longer the time the hand is separated from the keyboard in the vertical direction over a plurality of input images, the stronger the sound to be played next is, and thus the third performance element can be used. In addition, the tempo of the music can be recognized from the time interval of the vertical movement in the vertical direction of the hand straddling a plurality of input images, and can be used as the third performance element.
さらに演奏情報生成部107は、複数の入力画像のそれぞれに対応した部分演奏情報を時系列に従って?いでいくことにより、それら複数の入力画像により構成されるフレーズ、曲の一部または全部の複合演奏情報を生成する。フレーズや曲の一部の複合演奏情報とは、1または複数の小節単位での演奏情報である。
Further, the performance
部分演奏情報および複合演奏情報は、五線譜で記された楽譜に限らず、その情報に基づいて演奏者、コンピュータ、音楽演奏用ソフトウェア、音楽作成用ソフトウェアなどが楽曲を再現することができればどのような形式の情報でもよい。例えば、MIDI(Musical Instrument Digital Interface)形式の情報やプログラミング形式の情報、音楽演奏/制作用ソフトウェア独自のフォーマットの情報などでもよい。 The partial performance information and the composite performance information are not limited to music notation written in staff notation. What kind of information can be used if a player, a computer, software for music performance, software for music creation, etc. can reproduce music based on the information. Format information may be used. For example, information in a MIDI (Musical Instrument Digital Interface) format, information in a programming format, information in a format unique to music playing / production software, and the like may be used.
楽譜情報生成部108は、演奏情報生成部107から部分演奏情報が供給された場合には入力画像一枚に対応する部分楽譜情報を生成する。また、演奏情報生成部107から複合演奏情報が供給された場合には複数の入力画像により構成されるフレーズ、曲の一部または全部の楽譜情報である複合楽譜情報を生成する。ここでいう楽譜とは五線譜で記された楽譜であり、楽譜情報を構成する情報としては、音符、休符、拍子記号、テンポ、臨時記号、調号、強弱などがある。臨時記号情報は演奏者が演奏している状態に基づく第1演奏要素である、演奏されている音階と、複数の入力画像に跨る第3演奏要素である調とから導き出すことができる。
When the partial performance information is supplied from the performance
情報処理装置100は以上のようにして構成されている。情報処理装置100はプログラムで構成され、そのプログラムは予め端末装置10にインストールされていてもよいし、ダウンロード、記憶媒体などで配布されて、ユーザが自ら端末装置10にインストールするようにしてもよい。また、情報処理装置100は、プログラムによって実現されるのみでなく、その機能を有するハードウェアによる専用の装置、回路などを組み合わせて実現されてもよい。
The
[1−3.情報処理装置による処理]
[1−3−1.部分演奏情報の生成]
次に図7のフローチャートを参照して情報処理装置100における処理の流れについて説明する。図7のフローチャートの処理は、入力画像一枚に対応した部分演奏情報を生成するものである。なお、上述したように入力画像の一枚とは、複数枚の連続する静止画像のうちの一枚または、動画を構成する複数のフレーム画像のうちの一枚である。
[1-3. Processing by information processing device]
[1-3-1. Generation of partial performance information]
Next, the flow of processing in the
まずステップS101で、画像入力部101に対して入力画像が入力される。この入力画像は一枚の静止画像またはフレーム画像でもよいし、連続する複数の静止画像でもよいし、動画を構成する連続する複数のフレーム画像でもよい。複数の入力画像が入力されると、以下のステップS102以降の処理は、まず(t=1)の一番目の入力画像に対して行われる。また、連続する複数の静止画像または動画を構成する連続する複数のフレーム画像が入力された場合、どの入力画像の部分演奏情報を生成するかをユーザが選択できるようにしてもよい。
First, in step S101, an input image is input to the
次にステップS102で位置認識部102により入力画像中における演奏者の手の3次元位置が認識され、手の位置情報が形状認識部103、動き認識部104および関連性認識部106に供給される。
Next, in step S102, the three-dimensional position of the player's hand in the input image is recognized by the
次にステップS103で、形状認識部103により入力画像中において位置が認識された手の形状が認識される。手の形状情報は動き認識部104と演奏情報生成部107に供給される。さらにステップS104で、動き認識部104により、位置および形状が認識された手の動きが認識される。手の動き情報は演奏情報生成部107に供給される。
Next, in step S103, the shape of the hand whose position has been recognized in the input image is recognized by the
次にステップS105で楽器認識部105により入力画像中における楽器および演奏領域が認識される。楽器情報および演奏領域情報は関連性認識部106に供給される。なお、ステップS102乃至ステップS104における演奏者の手の位置、形状、動きの認識処理とステップS105における楽器および演奏領域の認識は並行して行うようにしてもよいし、楽器および演奏領域の認識を先に行ってもよい。
Next, in step S105, the musical instrument and the playing area in the input image are recognized by the musical
次にステップS106で関連性認識部106により手の各指とそれに対応する楽器の演奏領域の位置の関連性が認識される。関連性とは演奏者の手が楽器の演奏領域のどこに位置しているかを示すものであり、関連性情報は演奏情報生成部107に供給される。
Next, in step S106, the
次にステップS107で演奏情報生成部107は手の動き情報および関連性情報から演奏者が入力画像において楽器を演奏している状態であるか否かを判定する。
Next, in step S107, the performance
判定の結果、演奏者が演奏している場合、処理はステップS108からステップS109に進む(ステップS108のYes)。そしてステップS109で演奏情報生成部107は手の3次元位置情報、手の形状情報、手の動き情報、関連性情報とから第1演奏要素を生成する。
If the result of the determination is that the player is performing, the process proceeds from step S108 to step S109 (Yes in step S108). Then, in step S109, the performance
一方、ステップS107での判定の結果、演奏者が演奏していない場合、処理はステップS108からステップS110に進む(ステップS108のNo)。そしてステップS110で演奏情報生成部107は第2演奏要素を生成する。
On the other hand, if the result of determination in step S107 is that the player is not playing, the process proceeds from step S108 to step S110 (No in step S108). Then, in step S110, the performance
次にステップS111で演奏情報生成部107は、第1演奏要素または第2演奏要素から入力画像に対応した部分演奏情報を生成する。そしてステップS112でその部分演奏情報を出力する。
Next, in step S111, the performance
出力された部分演奏情報は端末装置10の表示部14において表示したり、端末装置10が備える音楽演奏用ソフトウェア、音楽制作用ソフトウェアなどにおいて使用可能である。また、ユーザ、演奏者などからの要求に応じて楽譜情報生成部108によって演奏情報に基づいて楽譜情報を生成してもよい。また、部分演奏情報を端末装置10の記憶部12に保存しておき、必要に応じて記憶部12から読み出して使用することも可能である。
The output partial performance information can be displayed on the
以上のようにして入力画像に対する演奏情報生成処理が行われる。 The performance information generation processing for the input image is performed as described above.
[1−3−2.複合演奏情報の生成]
次に図8のフローチャートについて説明する。図8のフローチャートの処理は、複数の入力画像により構成されるフレーズ、曲の一部または全部の演奏情報である複合演奏情報を生成する処理である。
[1-3-2. Generating composite performance information]
Next, the flowchart of FIG. 8 will be described. The process of the flowchart of FIG. 8 is a process of generating composite performance information that is performance information of a phrase or a part or all of a song composed of a plurality of input images.
まずステップS101で、画像入力部101に対して入力画像として連続する複数の静止画像または動画を構成する連続する複数のフレーム画像が入力される。複数の入力画像が入力されると以下のステップS102以降の処理はまず入力画像(t=1)の一番目の入力画像に対して行われる。また、連続する複数の静止画像または動画を構成する連続する複数のフレーム画像が入力された場合、どの入力画像から処理を開始するかをユーザが選択できるようにしてもよい。
First, in step S101, a plurality of continuous still images or a plurality of continuous frame images forming a moving image are input to the
ステップS101からステップS111までの処理は図7のフローチャートと同様であるため、説明を省略する。 The processing from step S101 to step S111 is the same as that in the flowchart in FIG.
ステップS111の後、次にステップS121で、演奏情報生成部107は複数の入力画像間に跨る演奏要素である第3演奏要素があるか否かが判定する。複数の入力画像間に跨る第3演奏要素があるか否かは、以下のように判断できる。例えば音の強弱(大きさ)の場合、現在処理中の入力画像(t)において認識された演奏の強弱が一つ前の入力画像である入力画像(t−1)で認識された強弱よりも強くなる場合、入力画像(t−1)から入力画像(t)まで、「だんだん強く」という演奏要素が導き出せる。また、同様に、例えば、入力画像(t+1)の音程において認識された演奏の強弱が入力画像(t)の強弱より大きい場合は、入力画像(t−1)、入力画像(t)、入力画像(t+1)とも「だんだん強く」という演奏要素が導き出せる。このように、処理対象である複数の入力画像それぞれの状態により、現在の入力画像における演奏要素に基づいて過去の入力画像における演奏要素が認識される場合「フレーム間に跨る演奏要素である第3演奏要素がある」と判断することができる。
After step S111, next in step S121, the performance
複数の入力画像間に跨る第3演奏要素がある場合、処理はステップS122に進み(ステップS121のYes)、ステップS111で生成した部分演奏情報に第3演奏要素を付加することにより部分演奏情報を更新する。そして処理はステップS122からステップS123に進む。なお、第3演奏要素は部分演奏情報において第1演奏要素、第2演奏要素と同様に部分演奏情報の構成要素としてもよいし、部分演奏情報とは別情報としたまま紐付けにより対応付けてもよい。 If there is a third performance element extending over a plurality of input images, the process proceeds to step S122 (Yes in step S121), and the partial performance information is added by adding the third performance element to the partial performance information generated in step S111. Update. Then, the process proceeds from step S122 to step S123. The third performance element may be a component of the partial performance information in the partial performance information similarly to the first performance element and the second performance element, or may be associated with the partial performance information by associating it with the separate performance information. Is also good.
一方、ステップS121で複数の画像間に跨る第3演奏要素がない場合処理はステップS123に進む(ステップS121のNo)。 On the other hand, if there is no third performance element spanning a plurality of images in step S121, the process proceeds to step S123 (No in step S121).
次にステップS123で処理対象である次の入力画像があるか否かが判定される。ステップS101で画像入力部101に対して入力された、連続する複数の静止画像または動画を構成する連続する複数のフレーム画像にまだ未処理の画像がある場合には次の入力画像があるとして処理はステップS102に戻る(ステップS123のYes)。そして、時系列で次の順の入力画像(フレーム画像である場合には次のフレーム番号の画像)に対してステップS102乃至ステップS123の処理が行われる。そして、入力された全ての入力画像のそれぞれに対して処理が行われるまでステップS102乃至ステップS123が繰り返される。
Next, in step S123, it is determined whether there is a next input image to be processed. If there are still unprocessed images in a plurality of continuous still images or a plurality of continuous frame images constituting a moving image input to the
ステップS123で処理対象の画像がない場合、処理はステップS124に進む(ステップS123のNo)。 If there is no image to be processed in step S123, the process proceeds to step S124 (No in step S123).
次にステップS124で演奏情報生成部107は、複数の入力画像のそれぞれに対応した部分演奏情報を時系列に従ってつないでいくことにより、それら複数の入力画像により構成されるフレーズ、曲の一部または全部の複合演奏情報を生成する。
Next, in step S124, the performance
次にステップS125で、演奏情報生成部107は複合演奏情報を出力する。出力された複合演奏情報は端末装置10の表示部14において表示したり、端末装置10が備える音楽演奏用ソフトウェア、音楽制作用ソフトウェアなどにおいて使用可能である。また、ユーザ、演奏者などからの要求に応じて楽譜情報生成部108が複合演奏情報に基づいて複合楽譜情報を生成してもよい。また、複合演奏情報を出力する際に部分演奏情報も出力してもよい。
Next, in step S125, the performance
以上のようにして第1の実施の形態における処理が行われる。本技術の第1の実施の形態によれば、複数枚の連続する静止画像または動画を構成する複数のフレーム画像に基づいて演奏情報と楽譜情報を生成することができる。
これにより、専門的な知識のない人でも手軽に演奏情報、楽譜情報を得ることができる。また、例えば、音声がない映像データ、音声が劣化/破損している映像データなどに基づいても演奏情報と楽譜情報を生成することができる。また、音声を出力することができない環境においても映像データのみに基づいて演奏情報を生成することができる。
The processing according to the first embodiment is performed as described above. According to the first embodiment of the present technology, it is possible to generate performance information and score information based on a plurality of continuous still images or a plurality of frame images forming a moving image.
As a result, even people who do not have specialized knowledge can easily obtain performance information and score information. Also, for example, performance information and musical score information can be generated based on video data having no sound, video data having deteriorated / damaged sound, and the like. Further, even in an environment where audio cannot be output, performance information can be generated based only on video data.
なお、第1の実施の形態において演奏情報を生成するための入力画像は、例えば楽器がピアノの場合には、ピアノの演奏領域である鍵盤と演奏者の両手を認識することができる上方から撮影したものが好ましい。楽器がギターの場合にはギターの演奏領域であるピックアップ部分(アコースティックギターであればサウンドホール)およびネックと演奏領域の両手を認識することができる正面から撮影したものが好ましい。 In the first embodiment, the input image for generating the performance information is, for example, when the musical instrument is a piano, captured from above, which can recognize both the keyboard, which is the performance area of the piano, and both hands of the player. Are preferred. When the musical instrument is a guitar, it is preferable that the image is taken from the front which can recognize both hands of the pickup part (sound hole in the case of acoustic guitar) which is the playing area of the guitar and the neck and the playing area.
本技術は、自分または自分以外の他の演奏者の即興演奏の楽譜化、楽器練習の楽譜化、好きなアーティスト曲を演奏するための楽譜作成、作曲、編曲などの用途に用いることができる。また、作曲、編曲の際には、楽器でいろいろな演奏、フレーズなどを試し、必要な演奏パターンまたは全ての演奏パターンを用意に演奏情報、楽譜情報として得ることができる。また、「楽譜を書いて、楽器で演奏してみる」、または「楽器で演奏してみて、良かったら楽譜を書く」の繰り返し作業が必要なくなる。 The present technology can be used for scores of improvisations performed by one or other players, score creation for musical instrument practice, score creation for playing a favorite artist song, composition, arrangement, and the like. Also, when composing or arranging, it is possible to try various performances, phrases, and the like with musical instruments, and to obtain necessary performance patterns or all performance patterns as performance information and score information. Also, there is no need to repeat the steps of “writing a score and playing with an instrument” or “playing with an instrument and writing a score if it is good”.
<2.第2の実施の形態>
[2−1.情報処理装置の構成]
次に本技術の第2の実施の形態について説明する。第2の実施の形態は図9に示すように、入力画像において演奏者の身体の部位である手の一部が遮蔽されて隠れているまたは写っていない場合において演奏情報の生成を行うものである。図9においては演奏者の左手の一部が隠れている。なお、情報処理装置100が動作する端末装置10の構成は第1の実施の形態と同様であるためその説明を省略する。
<2. Second Embodiment>
[2-1. Configuration of Information Processing Apparatus]
Next, a second embodiment of the present technology will be described. In the second embodiment, as shown in FIG. 9, performance information is generated when a part of a hand, which is a part of a player's body, is covered or hidden in an input image. is there. In FIG. 9, a part of the player's left hand is hidden. Note that the configuration of the
図10に示すように情報処理装置200は、画像入力部101、センサ情報取得部201、第1位置認識部202、第2位置認識部203、形状認識部103、動き認識部104、楽器認識部105、関連性認識部106、演奏情報生成部107、楽譜情報生成部108とから構成されている。画像入力部101、形状認識部103、動き認識部104、楽器認識部105、関連性認識部106、演奏情報生成部107、楽譜情報生成部108は第1の実施の形態と同様のものである。
As shown in FIG. 10, the
センサ情報取得部201は端末装置10が備える、または端末装置10に接続された外部のセンサで取得されたセンサ情報を取得して第2位置認識部203に供給するものである。センサとしては、マイクロホン、圧力センサ、動きセンサなどがある。
The sensor
第1位置認識部202は入力画像中において隠れていない演奏者の手の位置を認識するものであり、第1の実施の形態における位置認識部102と同様のものである。
The first
第1位置認識部202は第1の実施の形態における位置認識部102と同様に、入力画像からHand Pose Detection、Hand Pose Estimationなどと称される人体の手認識技術やHOG、SIFTなどの特徴点抽出方法、Boosting、SVMなどのパターン認識による被写体認識方法、Graph Cutなどによる領域抽出方法、CNNなどにより、入力画像中における演奏者の身体の部位である手の3次元位置を認識する。
Similar to the
第2位置認識部203は、入力画像中において遮蔽されることによって一部が隠れている演奏者の手の3次元位置を補助情報を用いて認識するものである。補助情報としては、センサ情報取得部201から供給されるセンサ情報などがある。センサ情報としては、マイクロホンで集音される演奏の音、手または指が楽器を押圧する力を示す圧力センサ情報、演奏者の腕/手/指の動き示す動きセンサ情報などがある。さらに補助情報としては、第1位置認識部202と同様の手法を用いて認識した演奏者の腕および/または肘の位置/形状/動き情報などもある。
The second
例えば、演奏者の腕および肘の位置、形状の情報から演奏者の肘から先の腕の先端にある手(隠れている手)が楽器の演奏領域のどこに位置しているかを推定して認識することができる。 For example, based on information on the positions and shapes of the player's arms and elbows, the position of the hand (hidden hand) at the tip of the arm beyond the player's elbow is estimated and recognized in the playing area of the instrument. can do.
第1位置認識部202および第2位置認識部203により取得された位置情報は3次元位置を示す情報であるため、例えば、入力画像の所定の位置を原点とした(x,y,z)の座標で表される。また、入力画像の一部領域を切り出した切り出し画像においては、切り出し画像の所定の位置を原点とした(u,v,d)の座標で表される。この点は第1の実施の形態と同様である。位置情報は形状認識部103および関連性認識部106に供給される。
Since the position information acquired by the first
第2の実施の形態における情報処理装置200は以上のように構成されている。
The
[2−2.情報処理装置の処理]
次に第2の実施の形態における情報処理装置200の処理の流れについて説明する。図11のフローチャートは第1の実施の形態で説明した、一つの入力画像に対応する部分演奏情報を生成するための処理に対応したものである。
[2-2. Processing of information processing device]
Next, a flow of processing of the
まずステップS101で、画像入力部101に対して入力画像が入力されると、次にステップS201で入力画像において手の一部が隠れているか否かが判定される。これは、例えば、第1位置認識部202において2つの手の全体が認識された否かに基づいて判定することができる。
First, in step S101, when an input image is input to the
手の一部が隠れている場合、処理はステップS202に進み(ステップS201のYes)、第2位置認識部203により補助情報を用いて一部が隠れている演奏者の手が認識される。
When a part of the hand is hidden, the process proceeds to step S202 (Yes in step S201), and the second
一方、手の一部が隠れていない場合処理はステップS103に進み、第1位置認識部202により演奏者の手が認識される。
On the other hand, if a part of the hand is not hidden, the process proceeds to step S103, where the first
これ以降の処理は第1の実施の形態におけるものと同様である。 Subsequent processes are the same as those in the first embodiment.
また、図12のフローチャートに示すように、複数の入力画像により構成されるフレーズ、曲の一部または全部の複合演奏情報を生成する処理においても図11のフローチャートにおけるステップS201とステップS202と同様の処理が行われる。 Also, as shown in the flowchart of FIG. 12, in a process of generating composite performance information of a phrase composed of a plurality of input images and a part or all of a tune, the same as steps S201 and S202 in the flowchart of FIG. Processing is performed.
この第2の実施の形態によれば、入力画像において演奏者の手の一部が隠れていても第1の実施の形態と同様に演奏情報、楽譜情報の生成を行うことができる。 According to the second embodiment, even if a part of the player's hand is hidden in the input image, performance information and score information can be generated in the same manner as in the first embodiment.
<3.第3の実施の形態>
[3−1.情報処理装置の構成]
次に本技術の第3の実施の形態について説明する。第3の実施の形態は図13に示すように、入力画像において楽器の一部が隠れているまたは映っていない場合において演奏情報の生成を行うものである。図13においては、楽器であるピアノの鍵盤の一部のみが映っており、鍵盤の一部が入力画像の画角外に存在している。なお、情報処理装置300が動作する端末装置10の構成は第1の実施の形態と同様であるためその説明を省略する。
<3. Third Embodiment>
[3-1. Configuration of Information Processing Apparatus]
Next, a third embodiment of the present technology will be described. In the third embodiment, as shown in FIG. 13, performance information is generated when a part of a musical instrument is hidden or not shown in an input image. In FIG. 13, only a part of the keyboard of the piano which is the musical instrument is shown, and a part of the keyboard exists outside the angle of view of the input image. The configuration of the
図14に示すように、情報処理装置300は、画像入力部101、センサ情報取得部301、位置認識部102、形状認識部103、動き認識部104、楽器認識部105、関連性認識部106、演奏情報生成部107、楽譜情報生成部108とから構成されている。画像入力部101、位置認識部102、形状認識部103、動き認識部104、演奏情報生成部107、楽譜情報生成部108は第1の実施の形態と同様のものである。
As shown in FIG. 14, the
センサ情報取得部201は、端末装置10が備える、または端末装置10に接続された外部のセンサで取得されたセンサ情報を取得して演奏情報生成部107に供給するものである。センサとしては、マイクロホン、圧力センサ、動きセンサなどがある。
The sensor
楽器認識部105は、CNN、パターンマッチング、テンプレートマッチングなどの技術を用いて、入力画像中における楽器およびその楽器において演奏者の手が接触する演奏のための領域(演奏領域)を認識するものである。そこで、例えば、テンプレートマッチングで楽器の一部分のみがテンプレートと一致するような場合、認識された楽器は一部分が隠れているまたは映っていないと判断する。入力画像に楽器の一部分しか映ってないことを示す情報と共に楽器認識情報は関連性認識部106に供給される。
The musical
関連性認識部106は、CNN、パターンマッチングなどの技術を用いて演奏者の手の位置と楽器の演奏領域の関連性を認識する。関連性とは、演奏者の手が楽器の演奏領域のどこに接触しているかを示す接触位置である。また、関連性は、楽器の演奏領域に対する演奏者の手の動作の方向である。関連性認識部106は、入力画像中において楽器の一部しか映っていない場合、手の位置情報、手の形状情報、楽器(例えばピアノ)の演奏領域である鍵盤が並ぶ方向に対する略水平方向における腕/肘の開き具合の角度、腕の動きから指が接触している演奏領域を推定ことにより演奏者の指と楽器の演奏領域の関連性を認識する。関連性情報は演奏情報生成部107に供給される。
The
演奏情報生成部107は補助情報としてセンサ情報を用いて指が接触している鍵盤を推定する。センサ情報としては、マイクロホンで集音される演奏の音、手または指が楽器を押圧する力を示す圧力センサ情報、演奏者の腕/手/指の動き示す動きセンサ情報などがある。さらに関連性認識部106は、複数の入力画像において楽器全体が写っている入力画像がある場合、その入力画像と腕、手の動き情報から指が接触している鍵盤を推定することにより演奏者の指と楽器の演奏領域の関連性を推定する。
The performance
このように指が接触している鍵盤を推定することによりその推定結果から第1の実施の形態と同様に第1演奏要素、第2演奏要素、第3演奏要素を生成することができる。 By estimating the keyboard with which the finger is in contact, the first performance element, the second performance element, and the third performance element can be generated from the estimation result in the same manner as in the first embodiment.
第3の実施の形態に係る情報処理装置300は以上のように構成されている。
The
[3−2.情報処理装置の処理]
次に第3の実施の形態における情報処理装置300の処理の流れについて説明する。図15のフローチャートは第1の実施の形態で説明した、一つの入力画像に対応する演奏情報および楽譜情報を生成するための処理に対応したものである。
[3-2. Processing of information processing device]
Next, a flow of processing of the
ステップS101乃至ステップS105は第1の実施の形態における処理と同様である。 Steps S101 to S105 are the same as the processing in the first embodiment.
ステップS301で、関連性認識部106は入力画像において楽器の演奏領域全体が映っているかを判定し、楽器の演奏領域全体が映っている場合処理はステップS106に進む(ステップS301のYes)。そして、ステップS106乃至ステップS112の処理が第1の実施の形態と同様に行われる。
In step S301, the
一方、入力画像に楽器の演奏領域全体が映ってはいない場合、処理はステップS302に進む(ステップS301のNo)。そしてステップS302で関連性認識部106により、手の位置情報、センサ情報などを用いて関連性を推定する。
On the other hand, if the entire performance area of the musical instrument is not shown in the input image, the process proceeds to step S302 (No in step S301). Then, in step S302, the relevance is estimated by the
その後はステップS106乃至ステップS112の処理が第1の実施の形態と同様に行われて、部分演奏情報が生成されて出力される。 Thereafter, the processing of steps S106 to S112 is performed in the same manner as in the first embodiment, and partial performance information is generated and output.
また、図16のフローチャートに示すように、複数の入力画像により構成されるフレーズ、曲の一部または全部の複合演奏情報を生成する処理においても図15のフローチャートにおけるステップS301とステップS302と同様の処理が行われる。 Also, as shown in the flowchart of FIG. 16, in a process of generating composite performance information of a phrase composed of a plurality of input images and a part or all of a song, the same processing as in steps S301 and S302 in the flowchart of FIG. Processing is performed.
この第3の実施の形態によれば、入力画像において楽器の一部が映っていなくても第1の実施の形態と同様に演奏情報、楽譜情報の生成を行うことができる。 According to the third embodiment, performance information and musical score information can be generated similarly to the first embodiment even if a part of the musical instrument is not shown in the input image.
<4.変形例>
以上、本技術の実施の形態について具体的に説明したが、本技術は上述の実施の形態に限定されるものではなく、本技術の技術的思想に基づく各種の変形が可能である。
<4. Modification>
Although the embodiments of the present technology have been specifically described above, the present technology is not limited to the above-described embodiments, and various modifications based on the technical idea of the present technology are possible.
実施の形態では演奏の音がなくても複数枚の連続する静止画像または動画を構成する複数のフレーム画像から演奏情報および楽譜情報を生成できると説明したが、本技術は音の使用を除外するものではない。演奏情報および楽譜情報を生成の際の補助情報として音情報を用いてもよいし、生成した演奏情報および楽譜情報の精度を確認する際に音情報を用いてもよい。例えば、入力映像の音声に対して音声認識処理を施し、音の周波数から音階を認識する、音量から強弱や演奏しているか否かを認識するなどである。 In the embodiment, it has been described that the performance information and the score information can be generated from a plurality of continuous still images or a plurality of frame images constituting a moving image without the sound of the performance, but the present technology excludes the use of the sound. Not something. Sound information may be used as auxiliary information when generating performance information and musical score information, or sound information may be used when checking the accuracy of the generated performance information and musical score information. For example, voice recognition processing is performed on the audio of the input video to recognize the scale based on the frequency of the sound, and to recognize whether the sound is strong or weak based on the volume.
第2の実施の形態と第3の実施の形態を組み合わせることにより、入力画像において演奏者の手の一部および楽器の演奏領域の一部が映っていない場合でも演奏情報の生成を行うことができる。 By combining the second embodiment and the third embodiment, it is possible to generate performance information even when a part of a player's hand and a part of a performance area of a musical instrument are not reflected in an input image. it can.
本技術は実施の形態で挙げたピアノ、ギター、ドラムに限られず、木琴、鉄琴、パーカッションなどの楽器の演奏に対しても使用可能である。 The present technology is not limited to the piano, guitar, and drum described in the embodiment, and can be used for playing musical instruments such as a xylophone, a metallophone, and a percussion.
実施の形態では主に押す、叩くなどのピアノの演奏方法、手をストロークさせる、爪弾くなどのギターの演奏方法を例にして説明を行ったが、それら以外の演奏方法、例えば、引っ張る、弾くなどの演奏動作を認識して演奏情報を生成してもよい。入力画像から認識できる楽器の演奏の動作であればどのような動作に基づいて演奏情報を生成してもよい。 In the embodiment, the description has been given mainly of the piano playing method such as pressing and striking, and the guitar playing method such as stroking a hand and striking a nail, but other playing methods such as pulling and playing The performance information may be generated by recognizing a performance operation such as a performance operation. The performance information may be generated based on any operation of the performance of the musical instrument that can be recognized from the input image.
第3の実施の形態においては、入力画像に写っていない楽器の一部を推定し、その推定結果に基づいて演奏情報生成部107が演奏情報を生成するようにしてもよい。
In the third embodiment, a part of the musical instrument not shown in the input image may be estimated, and the performance
本技術は以下のような構成も取ることができる。
(1)
入力画像から演奏者の身体の部位の位置を認識する位置認識部と、
前記入力画像から楽器を認識する楽器認識部と、
前記部位の位置と前記楽器との関連性に基づき、前記演奏者による前記楽器の演奏を示す演奏情報を生成する演奏情報生成部と
を備える情報処理装置。
(2)
前記位置認識部により認識された前記部位の形状を認識する形状認識部を備え、
前記演奏情報生成部は、前記部位の形状と前記楽器の関連性に基づき前記演奏情報を生成する(1)に記載の情報処理装置。
(3)
前記位置認識部により認識された前記部位の動きを認識する動き認識部を備え、
前記演奏情報生成部は、前記部位の動きと前記楽器の関連性に基づき前記演奏情報を生成する(1)または(2)に記載の情報処理装置。
(4)
前記演奏情報は、前記演奏者が前記楽器を演奏している状態に対応した第1演奏要素を含む(1)から(3)のいずれかに記載の情報処理装置。
(5)
前記第1演奏要素は、前記演奏者により演奏されている音階を含む(4)に記載の情報処理装置。
(6)
前記演奏情報は、前記演奏者が前記楽器を演奏してない状態に対応した第2演奏要素を含む(1)から(5)のいずれかに請求項1に記載の情報処理装置。
(7)
前記第2演奏要素は、前記演奏者により演奏されていない休みの長さを含む(6)に記載の情報処理装置。
(8)
前記演奏情報は、複数の前記入力画像間に跨る要素である第3演奏要素を含む(1)から(7)のいずれかに記載の情報処理装置。
(9)
前記第3演奏要素は、前記演奏者により演奏されている曲のテンポを含む(8)に記載の情報処理装置。
(10)
前記演奏情報生成部は、一の前記入力画像に対応した前記演奏情報を生成する(1)から(9)のいずれかに記載の情報処理装置。
(11)
前記演奏情報生成部は、複数の前記入力画像により構成される前記楽器の演奏の一部または全部に対応する演奏情報を生成する(1)から(9)のいずれかに記載の情報処理装置。
(12)
前記関連性は、前記楽器に対する前記部位の接触位置である(1)から(11)のいずれかに記載の情報処理装置。
(13)
前記関連性は、前記楽器に対する前記部位の動作の方向である(1)から(12)のいずれかに記載の情報処理装置。
(14)
前記部位は前記演奏者の手である(1)から(13)のいずれかに記載の情報処理装置。
(15)
前記演奏情報から楽譜情報を生成する楽譜情報生成部を備える(1)から(14)のいずれかに記載の情報処理装置。
(16)
前記入力画像において前記部位の一部が映っていない場合、前記部位の一部の位置を推定し、前記演奏情報生成部は推定結果に基づき前記演奏情報を生成する(1)から(15)のいずれかに記載の情報処理装置。
(17)
前記入力画像において前記楽器の一部が映っていない場合、前記演奏情報生成部は、前記部位と前記楽器の一部との前記関連性を推定し、推定結果に基づき前記演奏情報を生成する(1)から(16)のいずれかに記載の情報処理装置。
(18)
前記演奏情報生成部は、補助情報として音情報を用いて前記演奏情報を生成する(1)から(17)のいずれかに記載の情報処理装置。
(19)
入力画像から演奏者の身体の部位の位置を認識し、
前記入力画像から楽器を認識し、
前記部位の位置と前記楽器との関連性に基づき、前記演奏者による前記楽器の演奏を示す演奏情報を生成する
情報処理方法。
(20)
入力画像から演奏者の身体の部位の位置を認識し、
前記入力画像から楽器を認識し、
前記部位の位置と前記楽器との関連性に基づき、前記演奏者による前記楽器の演奏を示す演奏情報を生成する
情報処理方法をコンピュータに実行させる情報処理プログラム。
The present technology can also have the following configurations.
(1)
A position recognition unit that recognizes a position of a body part of the player from the input image;
An instrument recognition unit that recognizes an instrument from the input image;
An information processing apparatus, comprising: a performance information generating unit configured to generate performance information indicating performance of the musical instrument by the player based on a relationship between the position of the part and the musical instrument.
(2)
A shape recognition unit that recognizes the shape of the part recognized by the position recognition unit,
The information processing device according to (1), wherein the performance information generation unit generates the performance information based on a relationship between the shape of the part and the musical instrument.
(3)
A movement recognition unit that recognizes the movement of the part recognized by the position recognition unit,
The information processing device according to (1) or (2), wherein the performance information generation unit generates the performance information based on the association between the movement of the part and the musical instrument.
(4)
The information processing apparatus according to any one of (1) to (3), wherein the performance information includes a first performance element corresponding to a state in which the player is playing the musical instrument.
(5)
The information processing device according to (4), wherein the first performance element includes a scale played by the player.
(6)
2. The information processing apparatus according to claim 1, wherein the performance information includes a second performance element corresponding to a state in which the player does not play the musical instrument. 3.
(7)
The information processing device according to (6), wherein the second performance element includes a length of a rest that is not performed by the player.
(8)
The information processing apparatus according to any one of (1) to (7), wherein the performance information includes a third performance element that is an element spanning the plurality of input images.
(9)
The information processing device according to (8), wherein the third performance element includes a tempo of a song played by the player.
(10)
The information processing apparatus according to any one of (1) to (9), wherein the performance information generation unit generates the performance information corresponding to one input image.
(11)
The information processing apparatus according to any one of (1) to (9), wherein the performance information generation unit generates performance information corresponding to a part or all of the performance of the musical instrument constituted by the plurality of input images.
(12)
The information processing apparatus according to any one of (1) to (11), wherein the association is a contact position of the part with the musical instrument.
(13)
The information processing apparatus according to any one of (1) to (12), wherein the association is a direction of movement of the part with respect to the musical instrument.
(14)
The information processing apparatus according to any one of (1) to (13), wherein the part is a hand of the player.
(15)
The information processing apparatus according to any one of (1) to (14), further comprising a score information generating unit configured to generate score information from the performance information.
(16)
When a part of the part is not shown in the input image, the position of a part of the part is estimated, and the performance information generation unit generates the performance information based on the estimation result (1) to (15). An information processing device according to any one of the above.
(17)
When a part of the musical instrument is not shown in the input image, the performance information generation unit estimates the association between the part and the part of the musical instrument, and generates the performance information based on the estimation result ( The information processing apparatus according to any one of (1) to (16).
(18)
The information processing apparatus according to any one of (1) to (17), wherein the performance information generation unit generates the performance information using sound information as auxiliary information.
(19)
Recognize the position of the performer's body from the input image,
Recognizing a musical instrument from the input image,
An information processing method for generating performance information indicating a performance of the musical instrument by the player based on a relationship between the position of the part and the musical instrument.
(20)
Recognize the position of the performer's body from the input image,
Recognizing a musical instrument from the input image,
An information processing program for causing a computer to execute an information processing method for generating performance information indicating a performance of the musical instrument by the player based on a relationship between the position of the part and the musical instrument.
100、200、300・・・情報処理装置
102・・・位置認識部
103・・・形状認識部
104・・・動き認識部
105・・・楽器認識部
107・・・演奏情報生成部
108・・・楽譜情報生成部
202・・・第1位置認識部
203・・・第2位置認識部
100, 200, 300
Claims (20)
前記入力画像から楽器を認識する楽器認識部と、
前記部位の位置と前記楽器との関連性に基づき、前記演奏者による前記楽器の演奏を示す演奏情報を生成する演奏情報生成部と
を備える情報処理装置。 A position recognition unit that recognizes a position of a body part of the player from the input image;
An instrument recognition unit that recognizes an instrument from the input image;
An information processing apparatus, comprising: a performance information generating unit configured to generate performance information indicating performance of the musical instrument by the player based on a relationship between the position of the part and the musical instrument.
前記演奏情報生成部は、前記部位の形状と前記楽器の関連性に基づき前記演奏情報を生成する
請求項1に記載の情報処理装置。 A shape recognition unit that recognizes the shape of the part recognized by the position recognition unit,
The information processing apparatus according to claim 1, wherein the performance information generating unit generates the performance information based on a relationship between the shape of the part and the musical instrument.
前記演奏情報生成部は、前記部位の動きと前記楽器の関連性に基づき前記演奏情報を生成する
請求項1に記載の情報処理装置。 A movement recognition unit that recognizes the movement of the part recognized by the position recognition unit,
The information processing apparatus according to claim 1, wherein the performance information generation unit generates the performance information based on a relationship between the movement of the part and the musical instrument.
請求項1に記載の情報処理装置。 The information processing apparatus according to claim 1, wherein the performance information includes a first performance element corresponding to a state in which the player is playing the musical instrument.
請求項4に記載の情報処理装置。 The information processing apparatus according to claim 4, wherein the first performance element includes a scale played by the player.
請求項1に記載の情報処理装置。 The information processing apparatus according to claim 1, wherein the performance information includes a second performance element corresponding to a state in which the player does not play the musical instrument.
請求項6に記載の情報処理装置。 The information processing apparatus according to claim 6, wherein the second performance element includes a length of a rest that has not been performed by the player.
請求項1に記載の情報処理装置。 The information processing apparatus according to claim 1, wherein the performance information includes a third performance element that is an element spanning the plurality of input images.
請求項8に記載の情報処理装置。 9. The information processing apparatus according to claim 8, wherein the third performance element includes a tempo of a music piece played by the player.
請求項1に記載の情報処理装置。 The information processing apparatus according to claim 1, wherein the performance information generation unit generates the performance information corresponding to one of the input images.
請求項1に記載の情報処理装置。 The information processing apparatus according to claim 1, wherein the performance information generation unit generates performance information corresponding to a part or all of the performance of the musical instrument composed of the plurality of input images.
請求項1に記載の情報処理装置。 The information processing apparatus according to claim 1, wherein the association is a contact position of the part with the musical instrument.
請求項1に記載の情報処理装置。 The information processing apparatus according to claim 1, wherein the association is a direction of movement of the part with respect to the musical instrument.
請求項1に記載の情報処理装置。 The information processing apparatus according to claim 1, wherein the part is a hand of the player.
請求項1に記載の情報処理装置。 The information processing apparatus according to claim 1, further comprising a musical score information generating unit configured to generate musical score information from the performance information.
請求項1に記載の情報処理装置。 The information processing according to claim 1, wherein when a part of the part is not shown in the input image, a position of the part is estimated, and the performance information generating unit generates the performance information based on the estimation result. apparatus.
請求項1に記載の情報処理装置。 When a part of the musical instrument is not shown in the input image, the performance information generation unit estimates the association between the part and the part of the musical instrument, and generates the performance information based on the estimation result. Item 2. The information processing device according to item 1.
請求項1に記載の情報処理装置。 The information processing apparatus according to claim 1, wherein the performance information generation unit generates the performance information using sound information as auxiliary information.
前記入力画像から楽器を認識し、
前記部位の位置と前記楽器との関連性に基づき、前記演奏者による前記楽器の演奏を示す演奏情報を生成する
情報処理方法。 Recognize the position of the performer's body from the input image,
Recognizing a musical instrument from the input image,
An information processing method for generating performance information indicating a performance of the musical instrument by the player based on a relationship between the position of the part and the musical instrument.
前記入力画像から楽器を認識し、
前記部位の位置と前記楽器との関連性に基づき、前記演奏者による前記楽器の演奏を示す演奏情報を生成する
情報処理方法をコンピュータに実行させる情報処理プログラム。 Recognize the position of the performer's body from the input image,
Recognizing a musical instrument from the input image,
An information processing program for causing a computer to execute an information processing method for generating performance information indicating a performance of the musical instrument by the player based on a relationship between the position of the part and the musical instrument.
Priority Applications (2)
| Application Number | Priority Date | Filing Date | Title |
|---|---|---|---|
| JP2018173676A JP2020046500A (en) | 2018-09-18 | 2018-09-18 | Information processing apparatus, information processing method and information processing program |
| PCT/JP2019/026290 WO2020059245A1 (en) | 2018-09-18 | 2019-07-02 | Information processing device, information processing method and information processing program |
Applications Claiming Priority (1)
| Application Number | Priority Date | Filing Date | Title |
|---|---|---|---|
| JP2018173676A JP2020046500A (en) | 2018-09-18 | 2018-09-18 | Information processing apparatus, information processing method and information processing program |
Publications (1)
| Publication Number | Publication Date |
|---|---|
| JP2020046500A true JP2020046500A (en) | 2020-03-26 |
Family
ID=69886908
Family Applications (1)
| Application Number | Title | Priority Date | Filing Date |
|---|---|---|---|
| JP2018173676A Pending JP2020046500A (en) | 2018-09-18 | 2018-09-18 | Information processing apparatus, information processing method and information processing program |
Country Status (2)
| Country | Link |
|---|---|
| JP (1) | JP2020046500A (en) |
| WO (1) | WO2020059245A1 (en) |
Cited By (6)
| Publication number | Priority date | Publication date | Assignee | Title |
|---|---|---|---|---|
| JPWO2022070769A1 (en) * | 2020-09-30 | 2022-04-07 | ||
| WO2022202266A1 (en) * | 2021-03-25 | 2022-09-29 | ヤマハ株式会社 | Image processing method, image processing system, and program |
| WO2022202265A1 (en) * | 2021-03-25 | 2022-09-29 | ヤマハ株式会社 | Image processing method, image processing system, and program |
| WO2023032422A1 (en) * | 2021-09-03 | 2023-03-09 | キヤノン株式会社 | Processing method, program, and processing device |
| WO2025100385A1 (en) * | 2023-11-06 | 2025-05-15 | eMotto株式会社 | Musical note input device, performance state display device, musical score, performance instruction device, musical note input method, performance state display method, performance instruction method, program, and recording medium |
| JP7728624B1 (en) * | 2025-05-13 | 2025-08-25 | 晴男 村山 | Performance data generation device, model generation device, and program |
Families Citing this family (4)
| Publication number | Priority date | Publication date | Assignee | Title |
|---|---|---|---|---|
| JP7540264B2 (en) * | 2020-09-25 | 2024-08-27 | 株式会社Jvcケンウッド | Program, performance evaluation device, and performance evaluation method |
| CN116686303A (en) | 2020-12-17 | 2023-09-01 | 3M创新有限公司 | Sound attenuation rating system and method |
| WO2024212940A1 (en) * | 2023-04-12 | 2024-10-17 | 黄志坚 | Method and device for music teaching, and computer-readable storage medium |
| CN116386424A (en) * | 2023-04-12 | 2023-07-04 | 黄志坚 | Method, device and computer readable storage medium for music teaching |
Family Cites Families (8)
| Publication number | Priority date | Publication date | Assignee | Title |
|---|---|---|---|---|
| JPH0753117Y2 (en) * | 1989-06-27 | 1995-12-06 | ヤマハ株式会社 | Electronic keyboard instrument |
| JP2002215139A (en) * | 2001-01-17 | 2002-07-31 | Casio Comput Co Ltd | Performance operation recording device and performance operation recording method |
| JP2004177546A (en) * | 2002-11-26 | 2004-06-24 | Casio Comput Co Ltd | Performance training device, performance training method and performance training program |
| JP2006091632A (en) * | 2004-09-27 | 2006-04-06 | Casio Comput Co Ltd | Performance data creation system and performance data creation processing program |
| JP4501620B2 (en) * | 2004-09-27 | 2010-07-14 | カシオ計算機株式会社 | Performance evaluation system and performance evaluation processing program |
| JP4765705B2 (en) * | 2006-03-22 | 2011-09-07 | ヤマハ株式会社 | Music control device |
| KR101679239B1 (en) * | 2010-07-06 | 2016-11-24 | 삼성전자주식회사 | Apparatus and method for playing on musical instruments by augmented reality in portable terminal |
| JP6618276B2 (en) * | 2015-05-29 | 2019-12-11 | キヤノン株式会社 | Information processing apparatus, control method therefor, program, and storage medium |
-
2018
- 2018-09-18 JP JP2018173676A patent/JP2020046500A/en active Pending
-
2019
- 2019-07-02 WO PCT/JP2019/026290 patent/WO2020059245A1/en not_active Ceased
Cited By (13)
| Publication number | Priority date | Publication date | Assignee | Title |
|---|---|---|---|---|
| CN116324932A (en) * | 2020-09-30 | 2023-06-23 | 雅马哈株式会社 | Information processing method and information processing system |
| WO2022070769A1 (en) * | 2020-09-30 | 2022-04-07 | ヤマハ株式会社 | Information processing method and information processing system |
| JP2024170465A (en) * | 2020-09-30 | 2024-12-10 | ヤマハ株式会社 | Information processing method, information processing system, and program |
| JPWO2022070769A1 (en) * | 2020-09-30 | 2022-04-07 | ||
| JP7548323B2 (en) | 2020-09-30 | 2024-09-10 | ヤマハ株式会社 | Information processing method and information processing system |
| WO2022202265A1 (en) * | 2021-03-25 | 2022-09-29 | ヤマハ株式会社 | Image processing method, image processing system, and program |
| JP2022149159A (en) * | 2021-03-25 | 2022-10-06 | ヤマハ株式会社 | Image processing method, image processing system and program |
| JP2022149158A (en) * | 2021-03-25 | 2022-10-06 | ヤマハ株式会社 | Image processing method, image processing system and program |
| WO2022202266A1 (en) * | 2021-03-25 | 2022-09-29 | ヤマハ株式会社 | Image processing method, image processing system, and program |
| JP7651901B2 (en) | 2021-03-25 | 2025-03-27 | ヤマハ株式会社 | IMAGE PROCESSING METHOD, IMAGE PROCESSING SYSTEM, AND PROGRAM |
| WO2023032422A1 (en) * | 2021-09-03 | 2023-03-09 | キヤノン株式会社 | Processing method, program, and processing device |
| WO2025100385A1 (en) * | 2023-11-06 | 2025-05-15 | eMotto株式会社 | Musical note input device, performance state display device, musical score, performance instruction device, musical note input method, performance state display method, performance instruction method, program, and recording medium |
| JP7728624B1 (en) * | 2025-05-13 | 2025-08-25 | 晴男 村山 | Performance data generation device, model generation device, and program |
Also Published As
| Publication number | Publication date |
|---|---|
| WO2020059245A1 (en) | 2020-03-26 |
Similar Documents
| Publication | Publication Date | Title |
|---|---|---|
| WO2020059245A1 (en) | Information processing device, information processing method and information processing program | |
| US9905090B2 (en) | Automatic fitting of haptic effects | |
| US10748515B2 (en) | Enhanced real-time audio generation via cloud-based virtualized orchestra | |
| EP3759707B1 (en) | A method and system for musical synthesis using hand-drawn patterns/text on digital and non-digital surfaces | |
| US20170344113A1 (en) | Hand-held controller for a computer, a control system for a computer and a computer system | |
| CN111630573A (en) | Information processing method | |
| WO2022252966A1 (en) | Method and apparatus for processing audio of virtual instrument, electronic device, computer readable storage medium, and computer program product | |
| CN105786162A (en) | Method and device for virtual performance commanding | |
| CN109564756B (en) | Intelligence piano system | |
| CN113515209B (en) | Music screening method, device, equipment and medium | |
| CN106601217A (en) | Interactive-type musical instrument performing method and device | |
| Overholt | Advancements in violin-related human-computer interaction | |
| CN117121090A (en) | Information processing methods, information processing systems and programs | |
| Shang et al. | A music performance method based on visual gesture recognition | |
| CN117043818A (en) | Image processing method, image processing system, and program | |
| JP2013161040A (en) | Music score creation device, music score creation method, program, and recording medium | |
| Driessen et al. | Digital sensing of musical instruments | |
| CN107404581B (en) | Musical instrument simulation method and device for mobile terminal, storage medium and mobile terminal | |
| TW202511905A (en) | Video-audio system and video-audio interactive method | |
| JP2023037162A (en) | Processing method, program, and processing device | |
| Cicconet | The Guitar as a Human-Computer Interface | |
| Martin | Touchless gestural control of concatenative sound synthesis | |
| CN114822454A (en) | Intelligent musical instrument playing method and intelligent musical instrument | |
| CN120821357A (en) | Interactive method, electronic device, readable medium and program product | |
| Dasari | Gestural musical interfaces using real time machine learning |