JP7585681B2 - Performance information prediction device, performance model training device, performance information generation system, performance information prediction method, and performance model training method - Google Patents
Performance information prediction device, performance model training device, performance information generation system, performance information prediction method, and performance model training method Download PDFInfo
- Publication number
- JP7585681B2 JP7585681B2 JP2020158761A JP2020158761A JP7585681B2 JP 7585681 B2 JP7585681 B2 JP 7585681B2 JP 2020158761 A JP2020158761 A JP 2020158761A JP 2020158761 A JP2020158761 A JP 2020158761A JP 7585681 B2 JP7585681 B2 JP 7585681B2
- Authority
- JP
- Japan
- Prior art keywords
- performance
- spectral
- data frame
- performance information
- reference time
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Active
Links
- 238000012549 training Methods 0.000 title claims description 109
- 238000000034 method Methods 0.000 title claims description 37
- 230000003595 spectral effect Effects 0.000 claims description 143
- 238000007781 pre-processing Methods 0.000 claims description 23
- 238000012512 characterization method Methods 0.000 claims description 17
- 230000008859 change Effects 0.000 claims description 14
- 238000013528 artificial neural network Methods 0.000 claims description 11
- 230000001629 suppression Effects 0.000 claims 1
- 230000008569 process Effects 0.000 description 22
- 238000010586 diagram Methods 0.000 description 20
- 238000001514 detection method Methods 0.000 description 13
- 238000004519 manufacturing process Methods 0.000 description 8
- 238000012545 processing Methods 0.000 description 8
- 238000004458 analytical method Methods 0.000 description 3
- 239000000284 extract Substances 0.000 description 3
- 230000006870 function Effects 0.000 description 3
- 238000010801 machine learning Methods 0.000 description 3
- 230000000306 recurrent effect Effects 0.000 description 3
- 238000010079 rubber tapping Methods 0.000 description 3
- 238000001228 spectrum Methods 0.000 description 3
- 238000004364 calculation method Methods 0.000 description 2
- 238000006243 chemical reaction Methods 0.000 description 2
- 230000030279 gene silencing Effects 0.000 description 2
- 238000003825 pressing Methods 0.000 description 2
- 238000005070 sampling Methods 0.000 description 2
- 238000013459 approach Methods 0.000 description 1
- 230000008901 benefit Effects 0.000 description 1
- 238000013145 classification model Methods 0.000 description 1
- 238000007796 conventional method Methods 0.000 description 1
- 238000005516 engineering process Methods 0.000 description 1
- 238000000605 extraction Methods 0.000 description 1
- 239000000463 material Substances 0.000 description 1
- 238000012986 modification Methods 0.000 description 1
- 230000004048 modification Effects 0.000 description 1
- 238000005457 optimization Methods 0.000 description 1
- 238000002360 preparation method Methods 0.000 description 1
- 230000001052 transient effect Effects 0.000 description 1
Images
Landscapes
- Electrophonic Musical Instruments (AREA)
Description
本開示は、演奏情報予測装置、演奏モデル訓練装置、演奏情報生成システム、演奏情報予測方法及び演奏モデル訓練方法に関する。 This disclosure relates to a performance information prediction device, a performance model training device, a performance information generation system, a performance information prediction method, and a performance model training method.
ギターのような楽器の弦振動波形を、マグネティックピックアップもしくはピエゾピックアップによって電気信号化し、そのピッチや音量を分析することで、MIDI(Musical Instrumental Digital Interface)メッセージ等のデジタル演奏データに変換するギターコントローラ(もしくはギターシンセサイザー)という電子楽器が存在する。このようなタイプのコントローラは音源を鳴らすためのみの専用ギターコントローラと異なり、通常のギターのシェイプや機能を残しつつ、そこに演奏情報取得用の各弦に独立のピックアップを搭載することでMIDI演奏も可能となるという大きなメリットがあり、最も一般的な形態であると言える。 There is an electronic musical instrument called a guitar controller (or guitar synthesizer) that converts the string vibration waveform of an instrument such as a guitar into an electric signal using a magnetic or piezo pickup, analyzes the pitch and volume, and converts it into digital performance data such as MIDI (Musical Instrument Digital Interface) messages. Unlike dedicated guitar controllers that are only used to play sound sources, this type of controller retains the shape and functions of a normal guitar, but has the great advantage of being equipped with independent pickups for each string to obtain performance information, making it possible to play MIDI, and is said to be the most common form.
しかしながら、このような楽器において長年解決されていない大きな問題の1つとして撥弦時に演奏者が意図しない演奏情報に変換されてしまう、いわゆるトラッキングエラーがある。これは、入力信号の波形のピークやゼロクロスポイントの周期などを観測することでピッチを検出し、入力エンベロープの変化量だけから発音方法を判断しているため、撥弦時に発生するピッキングやタッピングによる過渡的な演奏ノイズや、弦の複雑な倍音の動きに騙されてしまうためである。 However, one of the major problems with these instruments that has remained unsolved for many years is the so-called tracking error, where the performance information is converted into unintended performance information when the strings are plucked. This is because the pitch is detected by observing the peaks of the input signal waveform and the cycle of the zero crossing points, and the sound generation method is determined only from the amount of change in the input envelope, so it is fooled by the transient performance noise caused by picking or tapping when plucking the strings, and the complex harmonic movements of the strings.
例えば、ピッキングノイズについて、撥弦前にピックが弦に接した際に発生する摩擦音、及びピックとブリッジの間の非常に短い長さの弦の振動によるピッキングノイズを演奏音と認識してしまうケースがある。これにより、実際に弦を抑えたフレット位置に対応する演奏音程とはかけ離れた高い音程のノート情報が発生されうる。 For example, when it comes to picking noise, there are cases where the friction noise that occurs when the pick touches the string before plucking, and the picking noise caused by the vibration of the very short length of the string between the pick and the bridge are recognized as playing sounds. This can result in note information that is far higher in pitch than the playing pitch that corresponds to the fret position where the string is actually pressed.
また、ハーモニクスについて、意図的な奏法によってハーモニクスを発生したのではなく、通常演奏において弦振動に含まれるハーモニクスの量が多いために基音と倍音の区別が付かず、ハーモニクスの音程を演奏ノートと認識してしまうケースがある。最も多いのは、2倍音、すなわち、本来の音程よりも1オクターブ高い音程と誤認されてしまうことであるが、3倍音を基音と間違えるケースも起こりやすい。 In addition, when it comes to harmonics, there are cases where harmonics are not produced by an intentional playing technique, but rather the amount of harmonics contained in the string vibration during normal playing is so high that it is difficult to distinguish between the fundamental tone and the overtone, and the harmonic pitch is recognized as the played note. The most common case is that the second overtone is mistaken for a pitch one octave higher than the actual pitch, but it is also easy to mistake the third overtone for the fundamental tone.
また、ピッキングとレガートの奏法の誤認識について、ギターの弦の発音奏法を判断して演奏情報を付加する場合、意図しない発音奏法として誤解されるケースがある。例えば、ギターの弦の発音奏法は音の特性から以下のように分類できる。
A.ピッキングや指に依る通常の撥弦
B.あるフレットが押さえられている弦に対して、それよりも上位のフレット位置を別の指で叩くか触れることで押弦し、音程を変えるハンマリング・オン奏法(hammer-on)(フレットを押さえる手の指の場合)、あるいはタッピング奏法(通常の押弦の手と反対の手の指で弦を叩く)
C.フレットを押さえる指で弦を少し引っ張って離すか、あるいは前述のタッピングした指をそのまま使って引っ張って離すことで撥弦するプリング・オフ奏法(pull-off)
D.現在発音中の弦の上を指で押さえながらスライドさせることで音程を変えるグリッサンド奏法、あるいはスライド奏法。これは、MIDIメッセージでは撥弦による新規発音とは解釈せず、ピッチ変化として表現するのが普通である。
Regarding the misrecognition of picking and legato playing, when the sound production technique of guitar strings is judged and performance information is added, there are cases where it is misunderstood as an unintended sound production technique. For example, the sound production techniques of guitar strings can be classified as follows based on the characteristics of the sound.
A. Normal plucking with picking or fingers. B. Hammer-on (using the fingers of the fret hand to strike or touch a higher fret on a string, changing the pitch) or tapping (using the fingers of the opposite hand to strike the string).
C. Pull-off technique: Pull the string slightly with the finger pressing the fret and then release it, or use the same finger as above to pull and release the string to pluck it.
D. A glissando or slide technique in which the pitch is changed by pressing and sliding a finger over the currently sounding string. This is not interpreted as a new sound being produced by plucking the string in a MIDI message, but is usually represented as a pitch change.
これらの中で一般的にA,B,Cのケースでは、新しい発音情報が発生し、Dのケースではレガート奏法と判断し、現在の発音中のノートに対してピッチベンド情報を発生させる。 Of these, cases A, B, and C generally generate new sounding information, while case D is determined to be legato playing and generates pitch bend information for the currently sounding note.
これらの奏法の判断は発音時の音量エンベロープの変化だけでなく、過渡時に発生する各種ノイズの倍音のレベルの変化の様子なども解析することで判断できると考えられるが、このような解析は従来の方法では困難であった。 It is believed that these playing styles can be determined not only by changes in the volume envelope when sound is produced, but also by analyzing changes in the levels of the harmonics of various noises that occur during transients, but this type of analysis has been difficult using conventional methods.
また、さらに言えばギターごとに異なる特性、演奏者の癖、ピックの形状や材質、フィンガーピッキングでは演奏者の皮膚の硬さなどで撥弦時の周波数成分や変化が大きく変わってくるため、判断時には個別の特性を考慮する必要もあるが、判断時にそのようなファクターを加味するものも存在しないのが実情であり、奏法の判断自体を行っている楽器はほとんど存在しないのが実情である。 Furthermore, the frequency components and changes when plucking the strings vary greatly depending on the different characteristics of each guitar, the player's habits, the shape and material of the pick, and in fingerpicking, the hardness of the player's skin, so it is necessary to take individual characteristics into account when making a judgment. However, there is currently nothing that takes such factors into account when making a judgment, and in reality, there are almost no instruments that can judge playing style itself.
上記課題を鑑み、本開示の課題は、電子弦楽器の演奏を演奏情報に高精度に変換するための技術を提供することである。 In view of the above problems, the objective of this disclosure is to provide technology for converting the performance of an electronic stringed instrument into performance information with high accuracy.
上記課題を解決するため、本開示の一態様は、弦楽器演奏を表す弦振動波形データからスペクトルデータフレームを生成し、前記スペクトルデータフレームに基づいて、前記スペクトルデータフレームに含まれる所定個数の上位ピークの周波数から構成されるスペクトル特徴化データフレームを取得する前処理部と、訓練済み演奏モデルを利用して、基準時刻の前記スペクトル特徴化データフレームと、前記基準時刻前後の時刻の前記スペクトル特徴化データフレームとから、前記弦楽器演奏の演奏情報を予測する演奏情報予測部と、を有し、前記訓練済み演奏モデルは、前記基準時刻の前記スペクトル特徴化データフレームと、前記基準時刻前の第1の数のスペクトル特徴化データフレームと、前記基準時刻後の第2の数のスペクトル特徴化データフレームとを取得し、弦楽器の奏法及びノート番号を出力する、演奏情報予測装置に関する。
In order to solve the above-mentioned problems, one aspect of the present disclosure relates to a performance information prediction device including: a pre-processing unit that generates a spectral data frame from string vibration waveform data representing a stringed instrument performance, and acquires, based on the spectral data frame, a spectral feature data frame composed of frequencies of a predetermined number of top peaks contained in the spectral data frame; and a performance information prediction unit that utilizes a trained performance model to predict performance information of the stringed instrument performance from the spectral feature data frame at a reference time and the spectral feature data frames at times before and after the reference time, wherein the trained performance model acquires the spectral feature data frame at the reference time, a first number of spectral feature data frames before the reference time, and a second number of spectral feature data frames after the reference time, and outputs a playing style and note numbers of the stringed instrument .
本開示によると、電子弦楽器の演奏を演奏情報に高精度に変換することができる。 According to this disclosure, it is possible to convert the performance of an electronic stringed instrument into performance information with high accuracy.
以下の実施例では、ギターの演奏によって生成される弦振動波形から演奏情報(例えば、MIDIメッセージなど)を生成するギターコントローラが開示される。なお、本開示は、ギターコントローラに限定されず、弦振動波形抽出機能を備えた弦楽器の演奏から演奏情報を生成する他の何れかの演奏情報生成装置に適用されてもよい。
[本開示の概要]
後述される実施例を概略すると、図1に示されるように、本開示の一実施例によるギターコントローラ10は、ギター50及び制御装置100を有する。ギターコントローラ10は、ニューラルネットワークなどの機械学習モデルとして実現される演奏モデルを利用して、ギター50の演奏によって生成される弦振動波形から演奏情報を生成する。
In the following embodiment, a guitar controller is disclosed that generates performance information (e.g., MIDI messages) from a string vibration waveform generated by playing a guitar. Note that the present disclosure is not limited to a guitar controller, and may be applied to any other performance information generating device that generates performance information from the performance of a stringed instrument having a string vibration waveform extraction function.
[Summary of the Disclosure]
1 , a
本開示の一実施例による演奏情報は、図2に示されるように、発音情報、消音情報及びピッチ変更情報の演奏種別を示す。 The performance information according to one embodiment of the present disclosure indicates the performance type of sound production information, mute information, and pitch change information, as shown in FIG. 2.
発音情報は、分類モデルとしての演奏モデルによって判別されるノート番号及び奏法と、エンベロープ検出による撥弦の強さとを示す。奏法は、例えば、0)ピックによるピッキング、1)フィンガーピッキング、2)ハンマリング・オン(タッピング)、3)プリング・オフ、4)ミュートピッキング、5)オープンハーモニクス、及び6)ピッキング・ハーモニクスの7種類に分類される。発音をMIDIメッセージにより表現する場合、奏法はControl Change:0xBn,0x46,vvによって表し、ノート番号及び撥弦の強さはNote On:0x9n,kk,vvによって表してもよい。 The sound generation information indicates the note number and playing style determined by the performance model as a classification model, and the strength of the string plucking determined by envelope detection. The playing styles are classified into seven types, for example: 0) picking with a pick, 1) finger picking, 2) hammering on (tapping), 3) pulling off, 4) mute picking, 5) open harmonics, and 6) picking harmonics. When sound generation is expressed by a MIDI message, the playing style may be represented by Control Change: 0xBn, 0x46, vv, and the note number and string plucking strength may be represented by Note On: 0x9n, kk, vv.
また、消音情報は、エンベロープ検出によって検出され、0)発音停止及び1)置き換えを表す。消音をMIDIメッセージにより表現する場合、Control Change:0xBn,0x46,vv及びNote Off:0x8n,kk,vvによって表してもよい。 Also, the mute information is detected by envelope detection and indicates 0) sound stop and 1) replacement. When mute is expressed by a MIDI message, it may be expressed by Control Change: 0xBn, 0x46, vv and Note Off: 0x8n, kk, vv.
また、ピッチ変更情報は、ゼロクロスカウントによって検出され、例えば、半音チョーキングアップ、半音チョーキングダウン、全音チョーキングアップ、全音チョーキングダウン、1音半チョーキングアップ、1音半チョーキングダウン、2音チョーキングアップ、2音チョーキングダウン、及びスライドを示す。ピッチ変化をMIDIメッセージにより表現する場合、Pitch Bend:0xEn,ll,mmによって表してもよい。 The pitch change information is detected by zero cross counting, and indicates, for example, half-tone choking up, half-tone choking down, whole-tone choking up, whole-tone choking down, one-tone and a half-tone choking up, one-tone and a half-tone choking down, two-tone choking up, two-tone choking down, and slide. When expressing pitch change by MIDI message, it may be expressed by Pitch Bend: 0xEn, ll, mm.
図1に示された実施例では、ギターコントローラ10は、演奏モデルを訓練する訓練モードと、訓練した演奏モデルを利用して演奏情報を予測する演奏モードとの2つの動作モードを有し、制御装置100は、訓練モードにおいて利用される演奏モデル訓練装置200と、演奏モードにおいて利用される演奏情報予測装置300とを有する。
In the embodiment shown in FIG. 1, the
まず、訓練モードにおいて、ギターコントローラ10は、訓練用演奏情報データベース80から訓練データを取得する。訓練データは、例えば、楽譜データ(例えば、TAB譜など)と、当該楽譜データに対応するMIDIファイルとのペアから構成される。TAB譜は、例えば、図3に示されるような周知の記法に従って記述されたものであってもよい。ユーザが取得した訓練用楽譜データの楽譜に従ってギター50を演奏すると、演奏モデル訓練装置200は、ユーザの演奏に基づきギター50によって生成された弦振動情報を訓練対象の演奏モデルに入力し、演奏モデルから出力される演奏情報としてのMIDIメッセージと訓練用MIDIファイルとを比較し、これらの誤差が小さくなるように演奏モデルを訓練する。本開示では、弦振動波形データが高速フーリエ変換(FFT)によってスペクトルデータに変換され、スペクトルデータにおける所定数のピークに基づき特徴化されたスペクトル特徴化データを利用して、演奏モデルから演奏情報を取得する。訓練が終了すると、演奏モデル訓練装置200は、訓練した演奏モデルを演奏情報予測装置300に提供する。
First, in the training mode, the
次に、演奏モードでは、ユーザがギター50を演奏すると、演奏情報予測装置300は、ユーザの演奏に基づきギター50によって生成された弦振動情報を訓練済み演奏モデルに入力し、MIDIメッセージなどの演奏情報を取得する。取得した演奏情報は、例えば、外部の再生装置やコンピュータに送信され、ユーザは、再生装置を介してユーザによる演奏を再生したり、演奏情報をコンピュータ上で利用できる。
Next, in the performance mode, when the user plays the
これにより、電子弦楽器の演奏を演奏情報に変換する際のトラッキングエラーを軽減すると共に、高精度に奏法を判断することが可能になる。 This reduces tracking errors when converting the performance of an electronic string instrument into performance information, and makes it possible to determine playing style with high accuracy.
なお、以下に説明する実施例によるギターコントローラ10は、演奏モデル訓練装置200を有するが、本開示はこれに限定されず、例えば、演奏モデルは、外部のコンピュータやサーバによって訓練され、訓練された演奏モデル及び/又は演奏モデルの更新情報が外部のコンピュータやサーバから演奏情報予測装置300に提供されてもよい。
[ハードウェア構成]
次に、図4を参照して、ギターコントローラ10の物理的構成を説明する。図4は、本開示の一実施例によるギターコントローラ10の外観を示す図である。
It should be noted that the
[Hardware configuration]
Next, the physical configuration of the
図4に示されるように、ギターコントローラ10は、相互接続されたギター50と制御装置100とから構成されるセパレートタイプの演奏情報生成システムである。
As shown in FIG. 4, the
ギター50は、通常のエレクトリックギターに、6つの弦の各弦の独立した振動を拾うためのヘクサディバイデッドピックアップ、演奏情報の音量をコントロールするためのMIDIボリューム、制御装置100に対してパッチメモリ番号の上下切り替えを行うためのアップダウンスイッチ、を搭載したものである。これらの情報とノーマルなピックアップの出力が、マルチケーブルによって制御装置100に送信されている。また、電源は制御装置100からマルチケーブル経由で供給される。本実施例のヘクサディバイデッドピックアップは、ノーマルピックアップと同じマグネティック(磁気)ピックアップである。
The
一方、制御装置100は、ギターの弦振動の入力を受け、MIDIフォーマットによる演奏情報を生成する。演奏情報の送信先は、限定することなく、音源ユニットやコンピュータ等であってもよい。制御装置100は、図1に示されるように、各種設定を記憶したパッチメモリのバンク番号とナンバーを切り替えるフットスイッチ、任意の演奏メッセージを割り当てて送信することができるCONTROLスイッチとフットペダルを有する。現在選択されているパッチメモリの番号はBANK/NUM画面に表示される。メインの表示デバイスとしてLCDがあるが、画面上にはタッチパネルが装着される。また、データを入力する際のロータリエンコーダもパネル上に装備される。端子として、ギター50からのマルチケーブルの入力端子GUITAR INPUT、ノーマルピックアップのオーディオ出力端子GUITAR OUT、MIDI演奏信号の出力端子MIDI OUT、ホストコンピュータとの接続端子USB to HOST、AC電源入力端子AC POWERが備えられる。
On the other hand, the
次に、図5を参照して、本開示の一実施例によるギター50のハードウェア構成を説明する。図5は、本開示の一実施例によるギター50のハードウェア構成を示すブロック図である。
Next, the hardware configuration of the
図5に示されるように、ギター50は、ヘクサディバイデッドピックアップのバッファアンプを通した信号、MIDIボリュームコントロール、パッチメモリのアップダウンスイッチ、そしてノーマルピックアップの信号がマルチケーブルで制御装置100に送信される。3つのノーマルピックアップはピックアップセレクターで選択され、トーンコントロール回路と、ボリュームコントロール回路を経てバッファアンプを通過したものが制御装置100に送信される。
As shown in FIG. 5, the
次に、図6を参照して、本開示の一実施例による制御装置100のハードウェア構成を説明する。図6は、本開示の一実施例による制御装置のハードウェア構成を示すブロック図である。
Next, the hardware configuration of the
図6に示されるように、制御装置100は、CPU(Central Processing Unit)及びDSP(Digital Signal Processor)から構成され、CPUは制御装置100全体の機能及び処理を管理し、DSPは高速処理が必要な波形解析処理を実行する。CPUのバスには、CPUが使用するRAM、Flash ROM、LCDをコントロールするLCDコントローラ、各種I/Oデバイスと接続されるI/Oインターフェース、DSP、USBインターフェース、及びMIDIインターフェースが接続される。さらに、I/Oインターフェースにはフットスイッチ、ロータリエンコーダ、LCDタッチパネル、ギター50のMIDIボリュームと、制御装置100のペダルの位置を検出するためのA/Dコンバータ、パッチメモリの番号表示用のLEDが接続される。1つのA/Dコンバータしか図示されていないが、マルチプレクサによって入力ソースを時分割で切り替えて値を読み込んでいる。専用のRAMとFlash ROMが接続されているDSPには、ヘクサディバイデッドピックアップの6つの弦の出力を高速にデジタル信号化するための独立したA/Dコンバータが接続されており高速な解析処理を行うことができる。
As shown in FIG. 6, the
しかしながら、ギター50及び制御装置100は、上述したハードウェア構成に限定されるものでなく、他の何れか適切なハードウェア構成により実現されてもよい。
[演奏モデル訓練装置]
次に、図7~12を参照して、本開示の一実施例による演奏モデル訓練装置200を説明する。図7は、本開示の一実施例による演奏モデル訓練装置200の動作を示す概略図である。
However, the
[Performance model training device]
Next, the musical performance
図7に示されるように、演奏モデル訓練装置200は、訓練データを格納する訓練用演奏情報データベース80に格納されている訓練データを利用して演奏モデルを訓練する。具体的には、訓練データは、訓練用楽譜データと当該楽譜データに対応する訓練用演奏情報とのペアから構成され、訓練用楽譜データに基づき表示された楽譜(例えば、TAB譜など)を演奏者に表示し、演奏者は、メトロノームによるテンポ制御の下でギター50を演奏する。当該演奏を表す弦振動波形データは、演奏モデル訓練装置200に提供され、演奏モデル訓練装置200は、取得した弦振動波形データを以下で詳細に説明するスペクトル特徴化データフレームに変換し、基準時及び基準時前後のスペクトル特徴化データフレームを訓練対象の演奏モデルに入力する。そして、演奏モデル訓練装置200は、演奏モデルからの出力と訓練用演奏情報の発音情報(例えば、ノート番号と奏法など)とを比較し、その誤差に応じて演奏モデルのパラメータを更新する。演奏モデル訓練装置200は、所定の終了条件が充足されるまで上述した処理を繰り返し、演奏モデルからの出力が訓練用演奏情報の発音情報に近づくように演奏モデルを最適化する。
As shown in FIG. 7, the performance
図8は、本開示の一実施例による演奏モデル訓練装置200の機能構成を示すブロック図である。
Figure 8 is a block diagram showing the functional configuration of a performance
図8に示されるように、演奏モデル訓練装置200は、前処理部210及び演奏モデル訓練部220を有する。
As shown in FIG. 8, the performance
前処理部210は、訓練用演奏情報に従って演奏された弦楽器演奏を表す弦振動波形データからスペクトルデータフレームを生成し、スペクトルデータフレームをスペクトル特徴化データフレームに変換する。
The
具体的には、演奏者によってギター50が演奏されると、ギター50は、図9に示されるように、時間と各弦の振幅とを示す弦振動波形データを取得し、演奏モデル訓練装置200に送信する。すなわち、ギター50は6弦からなるため、6種類の弦振動波形データが生成される。前処理部210は、各弦の弦振動波形データに対して高速フーリエ変換(FFT)を実行し、スペクトルデータを取得する。具体的には、前処理部210は、弦振動波形データから時間軸に関して重複する窓幅w(例えば、W=512,25.6msecなど)の弦振動波形フレームを抽出し、I回(I=64,3.2msecなど)のサンプリング毎にFFTを実行し、各弦振動波形フレームをスペクトルデータフレームに変換してもよい。
Specifically, when the
スペクトルデータフレームへの変換後、前処理部210は、各スペクトルデータフレームの所定数個の上位のピークによってスペクトルデータフレームを特徴化する。例えば、上位4個のピークによってスペクトルデータフレームを特徴化する場合、前処理部210は、図10に示されるように、スペクトルデータフレーム内の周波数軸に関するピーク(極大点)のうち上位4個のピークの周波数によってスペクトルデータフレームを特徴化し、当該4個のピークの周波数によるスペクトル特徴化データフレームを構成する。当該特徴化によると、データサイズが圧縮されると共に、予測対象の奏法及びノート番号に関係すると想定されるピークの波高及びピークからの波高の時間変化が強調され、演奏モデル訓練処理の精度の向上及び高速化が可能になると考えられる。
After conversion to a spectral data frame, the
前処理部210は、このようにして抽出した所定数のピークから構成されるスペクトル特徴化データを生成し、演奏モデル訓練部220に提供する。
The
演奏モデル訓練部220は、訓練用演奏情報を利用して、基準時刻のスペクトル特徴化データフレームと、当該基準時刻のスペクトル特徴化データフレームの前後のスペクトル特徴化データフレームとから弦楽器演奏の演奏情報を予測する演奏モデルを訓練する。ここで、訓練対象の演奏モデルは、予測対象の基準時刻の奏法及びノート番号を予測する際、当該基準時刻のスペクトル特徴化データフレームだけでなく、当該基準時刻の前後の時刻のスペクトル特徴化データフレームを入力として取得し、基準時刻の奏法及びノート番号を出力する。例えば、演奏モデル訓練部220は、基準時刻のスペクトル特徴化データフレームと、基準時刻直前のp個のスペクトル特徴化データフレームと、基準時刻直後のn個のスペクトル特徴化データフレームとを演奏モデルに入力してもよい。ここで、所定数p,nは同一又は異なる所定値であってもよい。例えば、所定数p,nは、演奏者によるギター50の撥弦と、演奏情報予測装置300における演奏情報の出力とのタイムラグが演奏者によって認知できない程度の値に設定されることが好ましい。
The performance
このように一定の時間範囲のスペクトル特徴化データフレームを利用することによって、フレーム間の前後関係を考慮して新たな撥弦が発生したか判断することができると共に、撥弦の時間変化を判断することが可能になる。 By using a spectral feature data frame for a certain time range in this way, it is possible to determine whether a new pluck has occurred while taking into account the context between frames, and to determine the change in the pluck over time.
なお、基準時刻において発音がなかった場合、すなわち、基準時刻が消音状態であった場合、演奏モデルは、検出不可を示す値を出力するように訓練されてもよい。 In addition, if there is no sound at the reference time, i.e., if the reference time is in a mute state, the performance model may be trained to output a value indicating that detection is not possible.
一実施例では、演奏モデルは、ニューラルネットワークによって実現されてもよい。例えば、演奏モデルは、図11に示されるようなネットワークアーキテクチャを有するニューラルネットワークであってもよい。この場合、演奏モデル訓練部220は、ニューラルネットワークの入力層に基準時刻のスペクトル特徴化データフレームと、基準時刻前後の(p+n)個のスペクトル特徴化データフレームとを入力し、中間層における演算を介し出力層から奏法番号Var及びノート番号Noteを取得する。
In one embodiment, the performance model may be realized by a neural network. For example, the performance model may be a neural network having a network architecture as shown in FIG. 11. In this case, the performance
また、他の実施例では、演奏モデルは、図12に示されるような再帰型ニューラルネットワークによって実現されてもよい。この場合、演奏モデル訓練部220は、上述したp,nによる時間範囲より広い時間範囲のスペクトル特徴化データフレームを利用してもよく、例えば、基準時刻tのスペクトル特徴化データフレーム、基準時刻直前のb個(b>p)のスペクトル特徴化データフレーム、及び基準時刻直後のf個(f>n)のスペクトル特徴化データフレームを再帰型ニューラルネットワークの入力層Xt-b,・・・Xt-1,Xt,Xt+1,・・・,Xt+fに入力し、中間層における演算を介し出力層から奏法番号Var及びノート番号Noteを取得してもよい。再帰型ニューラルネットワークは、時系列データの処理に適しており、奏法番号Var及びノート番号Noteを高精度に予測することができると考えられる。
In another embodiment, the performance model may be realized by a recurrent neural network as shown in Fig. 12. In this case, the performance
また、訓練対象の演奏モデルは、事前訓練された機械学習モデルであってもよく、演奏モデル訓練部220は、上述した訓練処理によって、事前訓練された演奏モデルをファインチューニングするようにしてもよい。これにより、初期状態の機械学習モデルから演奏モデルを訓練するのと比較して、少ない訓練データにより高精度な演奏モデルを構築することが可能になる。
The performance model to be trained may be a pre-trained machine learning model, and the performance
演奏モデルから奏法及びノート番号を取得すると、演奏モデル訓練部220は、取得した奏法及びノート番号と、訓練用演奏情報の奏法及びノート番号とを比較し、これらが一致するように演奏モデルのパラメータを更新する。例えば、演奏モデルがニューラルネットワークにより実現される場合、演奏モデル訓練部220は、周知の誤差逆伝播法に従って比較結果に応じてニューラルネットワークのパラメータを更新してもよい。
When the performance model obtains the playing style and note number from the performance model, the performance
演奏モデル訓練部220は、所定の終了条件が充足されるまで、上述した処理を繰り返し、演奏モデルを訓練し、所定の終了条件が充足されると、当該時点における演奏モデルを訓練済み演奏モデルとして演奏情報予測装置300にわたす。ここで、所定の終了条件は、準備された全ての訓練データを処理したことなどであってもよい。
[演奏モデル訓練処理]
次に、図13を参照して、本開示の一実施例による演奏モデル訓練処理を説明する。当該演奏モデル訓練処理は、上述した演奏モデル訓練装置200によって実現され、例えば、プロセッサがプログラム又は命令を実行することによって実現されてもよい。図13は、本開示の一実施例による演奏モデル訓練処理を示すフローチャートである。
The performance
[Performance model training process]
Next, a musical performance model training process according to an embodiment of the present disclosure will be described with reference to Fig. 13. The musical performance model training process is realized by the musical performance
図13に示されるように、ステップS101において、演奏モデル訓練装置200は、訓練用演奏情報データベース80から訓練用演奏情報を選択する。具体的には、演奏モデル訓練装置200は、ランダム、順次、ユーザ選択によって訓練用演奏情報を自動選択してもよい。
As shown in FIG. 13, in step S101, the performance
ステップS102において、演奏モデル訓練装置200は、演奏情報をTAB譜の表示情報に変換する。
In step S102, the performance
ステップS103において、演奏モデル訓練装置200は、TAB譜を制御装置100のLCDなどに表示する。
In step S103, the performance
ステップS104において、演奏モデル訓練装置200は、演奏情報のテンポに合わせてMIDIプレーヤーをスタートする。
In step S104, the performance
ステップS105において、演奏モデル訓練装置200は、テンポに合わせてメトロノームをスタートする。
In step S105, the performance
ステップS106において、MIDIプレーヤーは、演奏情報を再生する。 In step S106, the MIDI player plays the performance information.
ステップS107において、メトロノームは、演奏情報を再生する。これにより、演奏者の演奏を取得するための準備が整い、演奏者は演奏を開始する。 In step S107, the metronome plays back the performance information. This completes the preparations for acquiring the performer's performance, and the performer begins playing.
ステップS108において、演奏モデル訓練装置200は、弦番号sを0に初期化する。ギター50は6弦からなるため、弦番号sは0~5の値をとりうる。
In step S108, the performance
ステップS109において、演奏モデル訓練装置200は、MIDIプレーヤーから発生したsチャネルの発音情報を発音情報メモリpに格納する。
In step S109, the performance
ステップS110において、演奏モデル訓練装置200は、演奏者による演奏を表す弦番号sの弦振動波形をバッファから取得し、スペクトル特徴化データフレームを生成し、リングバッファなどに格納する。
In step S110, the performance
ステップS111において、演奏モデル訓練装置200は、基準時刻のスペクトル特徴化データフレーム、基準時刻直前のp個のスペクトル特徴化データフレーム、及び基準時刻直後のn個のスペクトル特徴化データフレームを訓練対象の演奏モデルに入力する。
In step S111, the performance
ステップS112において、演奏モデル訓練装置200は、演奏モデルの出力結果をメモリoに格納する。
In step S112, the performance
ステップS113において、演奏モデル訓練装置200は、メモリpの発音情報(例えば、奏法番号及びノート番号など)と、メモリoの演奏モデルの出力結果とを比較する。
In step S113, the performance
ステップS114において、演奏モデル訓練装置200は、メモリpの発音情報とメモリoの出力結果との間に差分があるか判断する。
In step S114, the performance
有意な差分があった場合(S114:Yes)、演奏モデル訓練装置200は、ステップS115において、当該差分から演奏モデルを更新するための最適化情報を演奏モデルに適用し、ステップS116に移行する。他方、有意な差分がなかった場合(S114:No)、演奏モデル訓練装置200は、演奏モデルを更新することなく、ステップS116に移行する。
If there is a significant difference (S114: Yes), in step S115, the performance
ステップS116において、演奏モデル訓練装置200は、次の弦を処理するため、弦番号sを1だけインクリメントする。
In step S116, the performance
ステップS117において、演奏モデル訓練装置200は、全ての弦について演奏モデルの更新処理を終了したか判断し、全ての弦について更新処理が終了していない場合(S117:Yes)、ステップS109に戻る。
In step S117, the performance
ステップS118において、演奏モデル訓練装置200は、演奏情報全体を処理したか判断し、演奏情報全体を処理していない場合(S118:No)、ステップS106に戻る。
In step S118, the performance
ステップS119において、演奏モデル訓練装置200は、メトロノーム及びMIDIプレーヤーを停止する。
In step S119, the performance
ステップS120において、演奏モデル訓練装置200は、ユーザなどによる終了操作があったか判断し、終了操作がない場合(S120:No)、ステップS101に戻り、次の演奏情報を選択し、終了操作があった場合(S120:Yes)、当該処理を終了する。
[演奏情報予測装置]
次に、図14~16を参照して、本開示の一実施例による演奏情報予測装置300を説明する。図14は、本開示の一実施例による演奏情報予測装置300の動作を示す概略図である。
In step S120, the performance
[Performance Information Prediction Device]
Next, the performance
演奏情報予測装置300は、演奏モデル訓練装置200によって訓練された演奏モデルを利用して、演奏者によるギター50の演奏から演奏情報(例えば、MIDIメッセージなど)を予測する。具体的には、図14に示されるように、演奏情報予測装置300は、ギター50からギター演奏を表す弦振動波形データを取得すると、取得した弦振動波形データに対して高速フーリエ変換を実行し、時間軸に関して重複部分を有する所定の窓幅のスペクトルデータフレームを生成する。そして、演奏情報予測装置300は、各スペクトルデータフレームにおける周波数に関する所定数個の上位のピークを特定し、特定したピークを抽出することによってスペクトル特徴化データフレームを生成する。例えば、これらの前処理は、DSPによって実現されてもよい。
The performance
基準時刻の演奏情報を予測するため、演奏情報予測装置300は、基準時刻前後の一定の時間範囲のスペクトル特徴化データフレーム、すなわち、基準時刻のスペクトル特徴化データフレーム、基準時刻直前のp個のスペクトル特徴化データフレーム及び基準時刻直後のn個のスペクトル特徴化データフレームを訓練済み演奏モデルに入力し、奏法及びノート番号を含む発音情報を取得する。また、演奏情報予測装置300は、基準時刻のスペクトルに対して音量検出及びピッチ検出を実行し、演奏の音量及びピッチを検出する。演奏情報予測装置300は、検出した音量及びピッチに基づきそれぞれ消音情報及びピッチ変更情報を生成すると共に、音量に基づき撥弦の強さを示すベロシティー情報を生成し、発音情報に付加する。このようにして、演奏情報予測装置300は、各時刻のスペクトル特徴化データフレームから発音情報、消音情報及び/又はピッチ変更情報を含む各時刻の演奏情報(例えば、MIDIメッセージなど)を生成し、外部機器(例えば、再生装置、コンピュータ等)に送信する。例えば、これらの演奏情報生成処理は、CPUによって実現されてもよい。
To predict the performance information at the reference time, the performance
図15は、本開示の一実施例による演奏情報予測装置300の機能構成を示すブロック図である。
Figure 15 is a block diagram showing the functional configuration of a performance
図15に示されるように、演奏情報予測装置300は、前処理部310及び演奏情報予測部320を有する。
As shown in FIG. 15, the performance
前処理部310は、弦楽器演奏を表す弦振動波形データからスペクトルデータフレームを生成し、スペクトルデータフレームをスペクトル特徴化データフレームに変換する。前処理部210と同様に、前処理部310は、演奏者によってギター50が演奏されると、ギター50から各弦の弦振動波形データを取得し、各弦の弦振動波形データに対して高速フーリエ変換(FFT)を実行し、スペクトルデータを取得する。具体的には、前処理部210と同様の設定の下、前処理部310は、弦振動波形データから時間軸に関して重複する窓幅wの弦振動波形フレームを抽出し、サンプリング毎にFFTを実行し、各弦振動波形フレームをスペクトルデータフレームに変換してもよい。スペクトルデータフレームへの変換後、前処理部310は、各スペクトルデータフレームの所定数個の上位のピークに基づきスペクトル特徴化データフレームを生成し、基準時刻前後の一定の時間範囲におけるスペクトル特徴化データフレームをリングバッファなどに格納する。
The
演奏情報予測部320は、訓練済み演奏モデルを利用して、基準時刻のスペクトル特徴化データフレームと、基準時刻のスペクトル特徴化データフレームの前後のスペクトル特徴化データフレームとから、弦楽器演奏の演奏情報を予測する。具体的には、演奏情報予測部320は、基準時刻のスペクトル特徴化データフレーム、基準時刻直前のp個のスペクトル特徴化データフレーム及び基準時刻直後のn個のスペクトル特徴化データフレームを訓練済み演奏モデルに入力し、基準時刻における奏法及びノート番号を取得する。
The performance
また、これと並行して、演奏情報予測部320は、基準時刻のスペクトル特徴化データフレームに対して音量検出及びピッチ検出を実行する。例えば、音量検出について、演奏情報予測部320は、図16(a)に示されるように、スペクトル特徴化データフレームの所定数のピークの周波数レベルの合計を算出し、算出した合計の周波数レベルを当該基準時刻における音量として決定してもよい。当該基準時刻に対して訓練済み演奏モデルが発音を検出しなかった場合、あるいは、検出した音量が消音状態と認められる所定の閾値以下であった場合、演奏情報予測部320は、発音がなかったと判断し、演奏情報として消音情報を出力する。そうでない場合、演奏情報予測部320は、発音があったと判断し、検出した音量を当該発音のベロシティー値とし、演奏モデルから出力された奏法及びノート番号と共に当該ベロシティー値を発音情報に含める。
In parallel with this, the performance
また、ピッチ検出について、演奏情報予測部320は、図16(b)に示されるように、スペクトル特徴化データフレームの所定数のピークのうち最小の周波数レベルを撥弦のピッチと決定し、ピッチ情報を生成する。そして、演奏情報予測部320は、直近のピッチ情報又は発音情報と差異があった場合、ピッチ変更があったと判断し、ピッチ変更情報を出力する。
For pitch detection, the performance
なお、前処理部310及び演奏情報予測部320は、全ての弦に対して上述した処理を並列に実行する。
[演奏情報予測処理]
次に、図17を参照して、本開示の一実施例による演奏情報予測処理を説明する。当該演奏情報予測処理は、上述した演奏情報予測装置300によって実現され、例えば、プロセッサがプログラム又は命令を実行することによって実現されてもよい。図17は、本開示の一実施例による演奏情報予測処理を示すフローチャートである。
The
[Performance Information Prediction Processing]
Next, a performance information prediction process according to an embodiment of the present disclosure will be described with reference to Fig. 17. The performance information prediction process is realized by the above-mentioned performance
図17に示されるように、ステップS201において、演奏情報予測装置300は、弦番号sを0に初期化する。ギター50は6弦から構成されるため、弦番号sは0~5の値をとる。
As shown in FIG. 17, in step S201, the performance
ステップS202において、演奏情報予測装置300は、弦振動波形データからスペクトル特徴化データフレームを生成し、基準時刻のスペクトル特徴化データフレームに対して音量検出を実行する。
In step S202, the performance
ステップS203において、演奏情報予測装置300は、検出した音量Iが所定の閾値未満であるか判断する。音量Iが所定の閾値以上である場合(S203:No)、演奏情報予測装置300は、発音中であると判断し、ステップS206に移行する。
In step S203, the performance
他方、音量Iが所定の閾値未満である場合(S203:Yes)、演奏情報予測装置300は、ステップS204において、当該基準時刻において発音中であるかを判断する。例えば、当該判断は、訓練済み演奏モデルから前回発音情報の出力があったか否かに基づき行われてもよい。発音中であった場合(S204:Yes)、演奏情報予測装置300は、ステップS205において、演奏モデルから出力されたノート番号に対応した消音情報を生成する。発音中でない場合(S204:No)、演奏情報予測装置300は、ステップS206に移行する。
On the other hand, if the volume I is less than the predetermined threshold (S203: Yes), the performance
ステップS206において、演奏情報予測装置300は、当該基準時刻のスペクトル特徴化データフレーム、基準時刻直前のp個のスペクトル特徴化データフレーム、及び基準時刻直後のn個のスペクトル特徴化データフレームをバッファから抽出する。
In step S206, the performance
ステップS207において、演奏情報予測装置300は、抽出したスペクトル特徴化データフレームを演奏モデルに入力する。
In step S207, the performance
ステップS208において、演奏情報予測装置300は、演奏モデルから奏法及びノート番号を含む発音情報が出力されたか判断する。発音情報が出力された場合(S208:Yes)、演奏情報予測装置300は、ステップS209において、出力された奏法及びノート番号をそれぞれ変数v,kに代入する。他方、発音情報が出力されなかった場合(S208:No)、演奏情報予測装置300は、ステップS215に移行する。
In step S208, the performance
ステップS210において、演奏情報予測装置300は、発音があったか判断する。発音があった場合(S210:Yes)、演奏情報予測装置300は、ステップS211において、前回の発音イベントのノート番号K0の消音情報を生成する。他方、発音がない場合(S210:No)、演奏情報予測装置300は、ステップS212に移行する。
In step S210, the performance
ステップS212において、演奏情報予測装置300は、奏法番号v、ノート番号k及び音量Iから変換されたベロシティーを含む発音情報を生成する。
In step S212, the performance
ステップS213において、演奏情報予測装置300は、前回の発音イベントのノート番号K0にkを代入する。
In step S213, the performance
ステップS214において、演奏情報予測装置300は、前回発生したピッチP0=kに対応するピッチを特定する。
In step S214, the performance
ステップS215において、演奏情報予測装置300は、基準時刻のスペクトル特徴化データフレームに対してピッチ検出を実行し、検出したピッチをpに格納する。
In step S215, the performance
ステップS216において、演奏情報予測装置300は、p=P0であるか判断する。演奏情報予測装置300は、p=P0である場合(S216:Yes)、ステップS218に移行し、p=P0でない場合(S216:No)、ステップS217において、pからの差分によってピッチベンド情報を生成する。
In step S216, the performance
ステップS218において、演奏情報予測装置300は、次の弦に対して上述した処理を実行するため、弦番号sを1だけインクリメントする。
In step S218, the performance
ステップS219において、演奏情報予測装置300は、全ての弦が処理されたか判断し、全ての弦が処理された場合(S219:No)、当該演奏情報予測処理を終了し、そうでない場合(S219:Yes)、次の弦に対して上述した処理を繰り返す。
In step S219, the performance
なお、上述した実施例では、ギター50などの弦楽器の弦振動波形データから演奏情報を予測する演奏モデルを訓練し、訓練した演奏モデルを利用して演奏情報を予測する演奏情報予測システムを説明したが、本開示はこれに限定されず、管楽器に適用されてもよい。すなわち、本開示は、管楽器の空気振動波形データから演奏情報を予測する演奏モデルを訓練し、訓練した演奏モデルを利用して演奏情報を予測する演奏情報予測システムに適用されてもよい。
In the above-described embodiment, a performance information prediction system is described in which a performance model that predicts performance information from string vibration waveform data of a stringed instrument such as a
以上、本発明の実施例について詳述したが、本発明は上述した特定の実施形態に限定されるものではなく、特許請求の範囲に記載された本発明の要旨の範囲内において、種々の変形・変更が可能である。 Although the examples of the present invention have been described in detail above, the present invention is not limited to the specific embodiments described above, and various modifications and variations are possible within the scope of the gist of the present invention as described in the claims.
以下に、本願出願の当初の特許請求の範囲に記載された発明を付記する。
[付記]
本開示の一態様では、
弦楽器演奏を表す弦振動波形データからスペクトルデータフレームを生成し、前記スペクトルデータフレームに基づいて、スペクトル特徴化データフレームを取得する前処理部と、
訓練済み演奏モデルを利用して、基準時刻のスペクトル特徴化データフレームと、前記基準時刻のスペクトル特徴化データフレームの前後のスペクトル特徴化データフレームとから、前記弦楽器演奏の演奏情報を予測する演奏情報予測部と、
を有する演奏情報予測装置が提供される。
The invention as originally claimed in the present application is set forth below.
[Additional Notes]
In one aspect of the present disclosure,
a pre-processing unit that generates a spectral data frame from string vibration waveform data representing a stringed instrument performance, and obtains a spectral characterization data frame based on the spectral data frame;
a performance information prediction unit that predicts performance information of the stringed instrument performance from a spectral feature data frame at a reference time and spectral feature data frames before and after the spectral feature data frame at the reference time by using a trained performance model;
The present invention provides a performance information prediction device having the above structure.
一実施例では、前記演奏情報は、発音情報、消音情報及びピッチ変更情報から構成されてもよい。 In one embodiment, the performance information may consist of sound generation information, mute information, and pitch change information.
一実施例では前記発音情報は、奏法及びノート番号を含んでもよい。 In one embodiment, the sound information may include playing style and note number.
一実施例では、前記訓練済み演奏モデルは、前記奏法及び前記ノート番号を出力してもよい。 In one embodiment, the trained performance model may output the playing style and the note number.
一実施例では、前記訓練済み演奏モデルは、前記基準時刻のスペクトル特徴化データフレームと、前記基準時刻のスペクトル特徴化データフレームの前の第1の数のスペクトル特徴化データフレームと、前記基準時刻のスペクトル特徴化データフレームの後の第2の数のスペクトル特徴化データフレームとを取得し、前記奏法及び前記ノート番号を出力してもよい。 In one embodiment, the trained performance model may obtain a spectral feature data frame at the reference time, a first number of spectral feature data frames before the spectral feature data frame at the reference time, and a second number of spectral feature data frames after the spectral feature data frame at the reference time, and output the playing style and the note number.
一実施例では、前記訓練済み演奏モデルは、ニューラルネットワークにより実現されてもよい。 In one embodiment, the trained performance model may be realized by a neural network.
一実施例では、前記スペクトル特徴化データフレームは、前記スペクトルデータフレームに含まれる所定数個の上位のピークから構成されてもよい。 In one embodiment, the spectral characterization data frame may consist of a predetermined number of top peaks contained in the spectral data frame.
一実施例では、前記演奏情報は、MIDIプロトコルに従って記述されてもよい。 In one embodiment, the performance information may be described according to the MIDI protocol.
本開示の他の態様では、
訓練用演奏情報に従って演奏された弦楽器演奏を表す弦振動波形データからスペクトルデータフレームを生成し、前記スペクトルデータフレームに基づいて、スペクトル特徴化データフレームを取得する前処理部と、
前記訓練用演奏情報を利用して、基準時刻のスペクトル特徴化データフレームと、前記基準時刻のスペクトル特徴化データフレームの前後のスペクトル特徴化データフレームとから前記弦楽器演奏の演奏情報を予測する演奏モデルを訓練する演奏モデル訓練部と、
を有する演奏モデル訓練装置が提供される。
In another aspect of the present disclosure,
a pre-processing unit that generates a spectral data frame from string vibration waveform data representing a stringed instrument performance performed in accordance with training performance information, and obtains a spectral characterization data frame based on the spectral data frame;
a performance model training unit that uses the training performance information to train a performance model that predicts performance information of the stringed instrument performance from a spectral feature data frame at a reference time and spectral feature data frames before and after the spectral feature data frame at the reference time;
A performance model training device having the above structure is provided.
本開示の他の態様では、
電子弦楽器と、
上述した演奏情報予測装置と、
上述した演奏モデル訓練装置と、
を有する演奏情報生成システムが提供される。
In another aspect of the present disclosure,
Electronic string instruments,
The performance information prediction device described above;
The above-mentioned performance model training device;
A performance information generating system having the above structure is provided.
本開示の他の態様では、
1つ以上のプロセッサが、弦楽器演奏を表す弦振動波形データからスペクトルデータフレームを生成し、前記スペクトルデータフレームに基づいて、スペクトル特徴化データフレームを取得するステップと、
前記1つ以上のプロセッサが、訓練済み演奏モデルを利用して、基準時刻のスペクトル特徴化データフレームと、前記基準時刻のスペクトル特徴化データフレームの前後のスペクトル特徴化データフレームとから、前記弦楽器演奏の演奏情報を予測するステップと、
を有する演奏情報予測方法が提供される。
In another aspect of the present disclosure,
generating, by one or more processors, a spectral data frame from string vibration waveform data representative of a stringed instrument performance, and obtaining a spectral characterization data frame based on the spectral data frame;
predicting performance information of the stringed instrument performance from a spectral feature data frame at a reference time and spectral feature data frames before and after the spectral feature data frame at the reference time using a trained performance model;
A performance information prediction method is provided, which has the following steps:
本開示の他の態様では、
1つ以上のプロセッサが、訓練用演奏情報に従って演奏された弦楽器演奏を表す弦振動波形データからスペクトルデータフレームを生成し、前記スペクトルデータフレームに基づいて、スペクトル特徴化データフレームを取得するステップと、
前記1つ以上のプロセッサが、前記訓練用演奏情報を利用して、基準時刻のスペクトル特徴化データフレームと、前記基準時刻のスペクトル特徴化データフレームの前後のスペクトル特徴化データフレームとから前記弦楽器演奏の演奏情報を予測する演奏モデルを訓練するステップと、
を有する演奏モデル訓練方法が提供される。
In another aspect of the present disclosure,
generating, by one or more processors, a spectral data frame from string vibration waveform data representative of a stringed instrument performance performed according to training performance information, and obtaining a spectral characterization data frame based on the spectral data frame;
training a performance model using the training performance information, the one or more processors, to predict performance information of the stringed instrument performance from a spectral feature data frame at a reference time and spectral feature data frames before and after the spectral feature data frame at the reference time;
A performance model training method is provided, which has the following:
10 ギターコントローラ
50 ギター
100 制御装置
200 演奏モデル訓練装置
210 前処理部
220 演奏モデル訓練部
300 演奏情報予測装置
310 前処理部
320 演奏情報予測部
10
Claims (9)
訓練済み演奏モデルを利用して、基準時刻の前記スペクトル特徴化データフレームと、前記基準時刻前後の時刻の前記スペクトル特徴化データフレームとから、前記弦楽器演奏の演奏情報を予測する演奏情報予測部と、
を有し、
前記訓練済み演奏モデルは、前記基準時刻の前記スペクトル特徴化データフレームと、前記基準時刻前の第1の数のスペクトル特徴化データフレームと、前記基準時刻後の第2の数のスペクトル特徴化データフレームとを取得し、弦楽器の奏法及びノート番号を出力する、演奏情報予測装置。 a pre-processing unit that generates a spectral data frame from string vibration waveform data representing a stringed instrument performance, and obtains a spectral characterization data frame based on the spectral data frame, the spectral characterization data frame being configured from the frequencies of a predetermined number of top peaks included in the spectral data frame ;
a performance information prediction unit that predicts performance information of the stringed instrument performance from the spectral feature data frame at a reference time and the spectral feature data frames at times before and after the reference time by using a trained performance model;
having
The trained performance model obtains the spectral feature data frame at the reference time, a first number of spectral feature data frames before the reference time, and a second number of spectral feature data frames after the reference time, and outputs a playing style and note number of a stringed instrument .
前記訓練用演奏情報を利用して、基準時刻の前記スペクトル特徴化データフレームと、前記基準時刻前後の時刻の前記スペクトル特徴化データフレームとから前記弦楽器演奏の演奏情報を予測する演奏モデルを訓練する演奏モデル訓練部と、
を有する演奏モデル訓練装置。 a pre-processing unit that generates a spectral data frame from string vibration waveform data representing a stringed instrument performance performed in accordance with training performance information, and obtains a spectral characterization data frame based on the spectral data frame, the spectral characterization data frame being configured from frequencies of a predetermined number of upper peaks included in the spectral data frame ;
a performance model training unit that uses the training performance information to train a performance model that predicts performance information of the stringed instrument performance from the spectral feature data frame at a reference time and the spectral feature data frames at times before and after the reference time;
A performance model training device having the above structure.
請求項1乃至5何れか一項記載の演奏情報予測装置と、
請求項6記載の演奏モデル訓練装置と、
を有する演奏情報生成システム。 Electronic string instruments,
The performance information prediction device according to any one of claims 1 to 5 ,
A musical performance model training device according to claim 6 ,
A performance information generating system having the above configuration.
前記1つ以上のプロセッサが、訓練済み演奏モデルを利用して、基準時刻の前記スペクトル特徴化データフレームと、前記基準時刻前後の時刻の前記スペクトル特徴化データフレームとから、前記弦楽器演奏の演奏情報を予測するステップと、
を有し、
前記訓練済み演奏モデルは、前記基準時刻の前記スペクトル特徴化データフレームと、前記基準時刻前の第1の数のスペクトル特徴化データフレームと、前記基準時刻後の第2の数のスペクトル特徴化データフレームとを取得し、弦楽器の奏法及びノート番号を出力する、演奏情報予測方法。 one or more processors generating a spectral data frame from string vibration waveform data representing a stringed instrument performance, and obtaining a spectral characterization data frame based on the spectral data frame, the spectral characterization data frame being composed of frequencies of a predetermined number of top peaks included in the spectral data frame ;
predicting performance information of the stringed instrument performance from the spectral feature data frame at a reference time and the spectral feature data frames at times around the reference time using a trained performance model;
having
The trained performance model obtains the spectral feature data frame at the reference time, a first number of spectral feature data frames before the reference time, and a second number of spectral feature data frames after the reference time, and outputs a playing style and note number of a stringed instrument .
前記1つ以上のプロセッサが、前記訓練用演奏情報を利用して、基準時刻の前記スペクトル特徴化データフレームと、前記基準時刻前後の時刻の前記スペクトル特徴化データフレームとから前記弦楽器演奏の演奏情報を予測する演奏モデルを訓練するステップと、
を有する演奏モデル訓練方法。 one or more processors generating a spectral data frame from string vibration waveform data representing a stringed instrument performance performed according to training performance information, and obtaining a spectral characterization data frame based on the spectral data frame, the spectral characterization data frame being composed of frequencies of a predetermined number of top peaks included in the spectral data frame ;
training a performance model using the training performance information, the one or more processors, to predict performance information of the stringed instrument performance from the spectral feature data frame at a reference time and the spectral feature data frames at times around the reference time;
A performance model training method having the above structure.
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
JP2020158761A JP7585681B2 (en) | 2020-09-23 | 2020-09-23 | Performance information prediction device, performance model training device, performance information generation system, performance information prediction method, and performance model training method |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
JP2020158761A JP7585681B2 (en) | 2020-09-23 | 2020-09-23 | Performance information prediction device, performance model training device, performance information generation system, performance information prediction method, and performance model training method |
Publications (2)
Publication Number | Publication Date |
---|---|
JP2022052389A JP2022052389A (en) | 2022-04-04 |
JP7585681B2 true JP7585681B2 (en) | 2024-11-19 |
Family
ID=80948575
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
JP2020158761A Active JP7585681B2 (en) | 2020-09-23 | 2020-09-23 | Performance information prediction device, performance model training device, performance information generation system, performance information prediction method, and performance model training method |
Country Status (1)
Country | Link |
---|---|
JP (1) | JP7585681B2 (en) |
Citations (2)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
JP2010217408A (en) | 2009-03-16 | 2010-09-30 | Yamaha Corp | Sound waveform extraction device, and program |
JP2017532614A (en) | 2014-09-25 | 2017-11-02 | サンハウス・テクノロジーズ・インコーポレーテッド | Systems and methods for capturing and interpreting audio |
-
2020
- 2020-09-23 JP JP2020158761A patent/JP7585681B2/en active Active
Patent Citations (2)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
JP2010217408A (en) | 2009-03-16 | 2010-09-30 | Yamaha Corp | Sound waveform extraction device, and program |
JP2017532614A (en) | 2014-09-25 | 2017-11-02 | サンハウス・テクノロジーズ・インコーポレーテッド | Systems and methods for capturing and interpreting audio |
Non-Patent Citations (1)
Title |
---|
Masaki Otsuka and Tetsuro Kitahara,Improving MIDI Guitar's Accuracy with NMF and Neural Net,Proceedings of the 16th International Society for Music Information Retrieval (ISMIR) Conference,2015年,pp. 413-419 |
Also Published As
Publication number | Publication date |
---|---|
JP2022052389A (en) | 2022-04-04 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
JP2025100899A (en) | Performance information prediction device, effective string vibration judgment model training device, performance information generation system, performance information prediction method, and effective string vibration judgment model training method | |
JP6735100B2 (en) | Automatic transcription of music content and real-time music accompaniment | |
CN103810992B (en) | Voice synthesizing method and voice synthesizing apparatus | |
US9558727B2 (en) | Performance method of electronic musical instrument and music | |
US9741327B2 (en) | Automatic transcription of musical content and real-time musical accompaniment | |
JP5642296B2 (en) | Input interface for generating control signals by acoustic gestures | |
JP2010518428A (en) | Music transcription | |
US10748515B2 (en) | Enhanced real-time audio generation via cloud-based virtualized orchestra | |
JP7619395B2 (en) | Electronic musical instrument, method and program | |
JP4479701B2 (en) | Music practice support device, dynamic time alignment module and program | |
JP2020003536A (en) | Learning device, automatic transcription device, learning method, automatic transcription method and program | |
CN107103895A (en) | A kind of detection means of piano playing accuracy in pitch | |
CN103915089B (en) | Noise control device and noise control method | |
CN110910895B (en) | Sound processing method, device, equipment and medium | |
Mayor et al. | Performance analysis and scoring of the singing voice | |
JP5297662B2 (en) | Music data processing device, karaoke device, and program | |
CN113823270A (en) | Rhythm score determination method, medium, device and computing equipment | |
JP7585681B2 (en) | Performance information prediction device, performance model training device, performance information generation system, performance information prediction method, and performance model training method | |
EP2814025B1 (en) | Music playing device, electronic instrument, and music playing method | |
JP7585682B2 (en) | Performance information prediction device, performance model training device, performance information generation system, performance information prediction method, and performance model training method | |
JP2015184447A (en) | Program, information processing apparatus, and evaluation data generation method | |
CN114898725A (en) | An impromptu accompaniment generation device | |
JP2021081601A (en) | Musical sound information output device, musical sound generation device, musical sound information generation method, and program | |
JP3719157B2 (en) | Music data expression device, music data expression method, and music data expression program | |
JP2010224430A (en) | Automatic musical transcription device, scale identification program, musical scale identification program, electric traditional stringed musical instrument automatic musical transcription system, and electric shamisen automatic musical transcription system |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
A621 | Written request for application examination |
Free format text: JAPANESE INTERMEDIATE CODE: A621 Effective date: 20230905 |
|
A977 | Report on retrieval |
Free format text: JAPANESE INTERMEDIATE CODE: A971007 Effective date: 20240627 |
|
A131 | Notification of reasons for refusal |
Free format text: JAPANESE INTERMEDIATE CODE: A131 Effective date: 20240716 |
|
A521 | Request for written amendment filed |
Free format text: JAPANESE INTERMEDIATE CODE: A523 Effective date: 20240909 |
|
TRDD | Decision of grant or rejection written | ||
A01 | Written decision to grant a patent or to grant a registration (utility model) |
Free format text: JAPANESE INTERMEDIATE CODE: A01 Effective date: 20241008 |
|
A61 | First payment of annual fees (during grant procedure) |
Free format text: JAPANESE INTERMEDIATE CODE: A61 Effective date: 20241021 |
|
R150 | Certificate of patent or registration of utility model |
Ref document number: 7585681 Country of ref document: JP Free format text: JAPANESE INTERMEDIATE CODE: R150 |