JP7147384B2

JP7147384B2 - 情報処理方法および情報処理装置

Info

Publication number: JP7147384B2
Application number: JP2018164362A
Authority: JP
Inventors: 陽前澤
Original assignee: Yamaha Corp
Current assignee: Yamaha Corp
Priority date: 2018-09-03
Filing date: 2018-09-03
Publication date: 2022-10-05
Anticipated expiration: 2038-09-03
Also published as: WO2020050203A1; JP2020038252A; CN112912951A; US11830462B2; US20210174771A1; CN112912951B

Description

本発明は、楽曲の演奏等の動作を表すデータを処理する技術に関する。

複数の演奏者が楽曲を合奏する場面など、複数の実演者が相互に協調しながら並行して実演する場面が数多く想定される。非特許文献１には、演奏者間の非言語的な相互作用により、複数の演奏者による演奏が相互に同期していくことが開示されている。

片平建史，「合奏場面での非言語的コミュニケーションの対人的効果」，対人社会心理学研究 12，p.51-58，2012

複数の実演者による実演の間の時間的な関係（例えば時間差）が変化していく過程を推定できれば、例えば、演奏者による楽曲の実演奏に並行して自動演奏楽器に当該楽曲の自動演奏を実行させる場面において、自動演奏を実演奏に自然に追従させる（あるいは敢えて追従させない）ことができて便利である。なお、以上の説明では自動演奏の制御に便宜的に着目したが、複数の実演の相互間における時間的な関係が変化していく過程の推定結果は、自動演奏の制御以外の場面でも有効に利用される。以上の事情を考慮して、本発明は、複数の動作の間の時間的な関係が変化していく過程を推定することを目的とする。

以上の課題を解決するために、本発明の好適な態様に係る情報処理方法は、第１動作の内容を表す第１時系列データと、前記第１動作に並行する第２動作の内容を表す第２時系列データと、を学習済モデルに入力することで、前記第１動作と前記第２動作との間の時間的な関係が変化する過程に関する変化パラメータを生成する。

本発明の好適な態様に係る情報処理装置は、第１動作の内容を表す第１時系列データと、前記第１動作に並行する第２動作の内容を表す第２時系列データと、を学習済モデルに入力することで、前記第１動作と前記第２動作との間の時間的な関係が変化する過程に関する変化パラメータを生成する推定処理部を具備する。

実施形態に係る情報処理装置の構成を例示するブロック図である。情報処理装置の機能的な構成を例示するブロック図である。第１演奏パートの演奏時点と第２演奏パートの演奏時点との時間的な誤差の説明図である。学習済モデルの構成を例示するブロック図である。推定処理の具体的な手順を例示するフローチャートである。学習処理の具体的な手順を例示するフローチャートである。

図１は、本発明の好適な形態に係る情報処理装置１００の構成を例示するブロック図である。図１に例示される通り、本実施形態の情報処理装置１００は、制御装置１１と記憶装置１２と収音装置１３とを具備するコンピュータシステムで実現される。例えば携帯電話機、スマートフォンまたはパーソナルコンピュータ等の情報端末が、情報処理装置１００として好適に利用される。

図１の演奏者Ｐは楽器を演奏する。収音装置１３は、演奏者Ｐによる演奏で楽器から発音される音響を収音し、当該音響を表す音響信号を生成する。演奏者Ｐは、楽曲を構成する複数の演奏パートのうち第１演奏パートを演奏する。したがって、収音装置１３は、楽曲の第１演奏パートの演奏音を表す音響信号を生成する。なお、収音装置１３が生成した音響信号をアナログからデジタルに変換するＡ/Ｄ変換器の図示は便宜的に省略した。

電気弦楽器等の電気楽器が生成する音響信号を情報処理装置１００に供給してもよい。電気楽器が音響信号を生成する構成では、収音装置１３は省略される。演奏者Ｐが歌唱曲の第１演奏パートを歌唱した音声を表す音響信号を、収音装置１３が生成してもよい。また、収音装置１３が情報処理装置１００に搭載された構成を図１では例示したが、情報処理装置１００とは別体の収音装置１３を有線または無線により情報処理装置１００に接続してもよい。

制御装置１１は、例えばCPU（Central Processing Unit）等の処理回路であり、情報処理装置１００の各要素を統括的に制御する。記憶装置１２は、制御装置１１が実行するプログラムと制御装置１１が使用する各種のデータとを記憶する。例えば磁気記録媒体または半導体記録媒体等の公知の記録媒体が記憶装置１２として利用される。なお、複数種の記録媒体の組合せにより記憶装置１２を構成してもよい。また、情報処理装置１００に対して着脱可能な可搬型の記録媒体、または情報処理装置１００が通信網を介して通信可能な外部記録媒体（例えばオンラインストレージ）を、記憶装置１２として利用してもよい。

本実施形態の記憶装置１２は、演奏データＸ1および演奏データＸ2を記憶する。演奏データＸ1は、楽曲の第１演奏パートによる演奏の内容を表すデータである。すなわち、演奏データＸ1は、演奏者Ｐによる演奏の内容を表すデータである。ただし、演奏者Ｐによる実際の演奏には、当該演奏者Ｐに特有の音楽的な意図が反映されるから、演奏データＸ1が表す演奏は、演奏者Ｐが表す演奏に厳密に一致するわけではない。他方、演奏データＸ2は、楽曲の第２演奏パートによる演奏の内容を表すデータである。第１演奏パートと第２演奏パートとは、楽曲の別個の演奏パートである。例えば、第１演奏パートは旋律パートであり、第２演奏パートは伴奏パートである。例えばMIDI（Musical Instrument Digital Interface）規格に準拠したMIDIデータが演奏データＸ1および演奏データＸ2として好適である。具体的には、演奏データＸ1および演奏データＸ2の各々は、各演奏パートの複数の音符の各々について音高および音量を指定して発音または消音を指示するデータ（例えばMIDIイベントデータ）の時系列である。

演奏装置１５は、情報処理装置１００による制御のもとで楽曲の自動演奏を実行する。具体的には、演奏装置１５は、例えば弦等の発音体を発音させる発音機構と、発音機構を駆動する駆動機構とを具備する自動演奏楽器（例えば自動演奏ピアノ）である。情報処理装置１００からの指示に応じて駆動機構が発音機構を駆動することで自動演奏が実現される。本実施形態の演奏装置１５は、演奏データＸ2が表す第２演奏パートについて自動演奏を実行する。なお、情報処理装置１００を演奏装置１５に搭載してもよい。

図２は、情報処理装置１００の機能的な構成を例示するブロック図である。図２に例示される通り、制御装置１１は、記憶装置１２に記憶されたプログラムを実行することで複数の機能（演奏制御部２１，推定処理部２２および学習処理部２３）を実現する。なお、相互に別体で構成された複数の装置により制御装置１１の機能を実現してもよい。制御装置１１の機能の一部または全部を専用の電子回路で実現してもよい。

演奏制御部２１は、演奏者Ｐによる第１演奏パートの演奏に並行して、演奏データＸ2が表す第２演奏パートの自動演奏を演奏装置１５に実行させる。本実施形態の演奏制御部２１は、演奏者Ｐによる第１演奏パートの演奏に追従するように演奏装置１５による自動演奏を制御する。具体的には、演奏制御部２１は、収音装置１３が生成する音響信号Ａを解析することで、楽曲内において演奏者Ｐが演奏している時点（以下「演奏時点」という）を推定し、当該演奏時点の進行に追従するように演奏装置１５による第２演奏パートの自動演奏を制御する。したがって、演奏者Ｐと演奏装置１５とが恰も相互に呼吸を合わせて協調的に合奏しているかのような雰囲気を醸成することが可能である。なお、演奏時点の推定には公知の解析技術（スコアアライメント技術）が任意に採用される。

ここで、複数の演奏者による実際の合奏の傾向について説明する。図３は、第１演奏パートの各発音点Ｂa（Ｂa1，Ｂa2，…）と第２演奏パートの各発音点Ｂb（Ｂb1，Ｂb2，…）との時間的な関係の説明図である。

各発音点Ｂaと各発音点Ｂbとは、楽曲の楽譜において同時に発音することが規定されていると仮定する。すなわち、楽譜通りに演奏した場合には、各発音点Ｂaと各発音点Ｂbとは時間軸上で一致する。しかし、各演奏者の音楽的な意図または嗜好等を反映して、実際の演奏では、第１演奏パートの各発音点Ｂaと第２演奏パートの各発音点Ｂbとは、時間軸上で完全には合致しない。第１演奏パートの演奏時点と第２演奏パートの演奏時点との間には時間的な誤差（すなわち時間差）Ｅが発生する。誤差Ｅは、第１演奏パートの演奏と第２演奏パートの演奏との間の時間的な関係である。誤差Ｅは、第２演奏パートに対する第１演奏パートの誤差Ｅaと、第１演奏パートに対する第２演奏パートの誤差Ｅbとに区別される。

実際の合奏の場面では、第１演奏パートと第２演奏パートとの間の時間的な関係（すなわち誤差Ｅ）が、楽曲の内容に応じて刻々と変動する。例えば、
・第１演奏パートと第２演奏パートとの間で追従が発生するか否か、
・第１演奏パートおよび第２演奏パートの何れが他方に追従するのか（追従の方向）、
・演奏パート間でどの程度の追従が発生するのか
等の傾向は、楽曲内の音符の配列パターン等の内容（すなわち音楽的なコンテキスト）に依存する。例えば、楽曲のうち第１演奏パートの音数が多い区間では第２演奏パートが第１演奏パートに追従し、または、楽曲のうち第２演奏パートの音符が所定のリズムで発音される区間では第１演奏パートが第２演奏パートに追従する、等の様々な傾向が想定される。

ここで、演奏パート間の演奏時点の誤差Ｅの時間的な変化は、自己回帰過程（AR（autoregressive）モデル）で近似される。具体的には、誤差Ｅaおよび誤差Ｅbは、以下の数式で表現される２次の自己回帰過程で表現される。記号ｔは時間軸上の任意の時点である。
Ｅa(t)＝Ｃa1・Ｅa(t-1)＋Ｃa2・Ｅa(t-2) …(1)
Ｅb(t)＝Ｃb1・Ｅb(t-1)＋Ｃb2・Ｅb(t-2) …(2)

数式(1)の記号Ｃa1およびＣa2と数式(2)の記号Ｃb1および記号Ｃb2とは、誤差Ｅの変化を近似する自己回帰過程のパラメータである。以下の説明では、数式(1)の記号Ｃa1およびＣa2と数式(2)の記号Ｃb1および記号Ｃb2との集合を「変化パラメータＣ」と表記する。変化パラメータＣは、誤差Ｅaに対応する第１パラメータＣa（Ｃa1およびＣa2）と、誤差Ｅbに対応する第２パラメータＣb（Ｃb1およびＣb2）とを包含する。

以上に説明した通り、演奏パート間の演奏時点の誤差Ｅは楽曲の内容に依存し、かつ、誤差Ｅは、変化パラメータＣで規定される自己回帰過程により近似される。したがって、誤差Ｅの変化パラメータＣは楽曲の内容に依存する、という傾向がある。以上に説明した傾向が自動演奏において再現されるように、本実施形態の演奏制御部２１は、演奏者Ｐによる第１演奏パートの演奏時点と演奏装置１５による第２演奏パートの演奏時点との間の誤差Ｅが、楽曲の内容に応じて経時的に変化するように、演奏装置１５による演奏時点を制御する。演奏制御部２１による以上の制御を実現するために、図２の推定処理部２２は、記憶装置１２に記憶された演奏データＸ1および演奏データＸ2から変化パラメータＣの時系列を生成する。

図２に例示される通り、本実施形態の推定処理部２２は、楽曲の演奏データＸ1と演奏データＸ2とを学習済モデルＭに入力することで、当該楽曲の第１演奏パートと第２演奏パートとの間の誤差Ｅの時間的な変化に関する変化パラメータＣの時系列を生成する。変化パラメータＣは、第２演奏パートに対する第１演奏パートの誤差Ｅaを示す第１パラメータＣa（Ｃa1およびＣa2）と、第１演奏パートに対する第２演奏パートの誤差Ｅbを示す第２パラメータＣb（Ｃb1およびＣb2）とを包含する。

演奏制御部２１は、推定処理部２２が生成した変化パラメータＣに応じて演奏装置１５による自動演奏を制御する。具体的には、演奏制御部２１は、例えば、演奏者Ｐによる第１演奏パートの演奏と演奏装置１５による第２演奏パートの自動演奏との間の誤差Ｅaおよび誤差Ｅbが、変化パラメータＣで規定される自己回帰過程により経時的に変化するように、演奏装置１５による自動演奏を制御する。したがって、演奏者Ｐによる第１演奏パートの演奏との間で追従の度合および方向が聴感的に自然に変化する自動演奏を、演奏装置１５に実行させることが可能である。

図４は、学習済モデルＭの具体的な構成を例示するブロック図である。推定処理部２２は、時間軸上の複数の時点の各々を時系列の順番で処理時点τとして順次に選択し、図４に例示される通り、当該処理時点τに対応する処理データＵを学習済モデルＭに入力する。処理データＵは、単位データＵ1および単位データＵ2を含む。単位データＵ1（第１時系列データの例示）は、演奏データＸ1のうち処理時点τを含む単位区間Ｑ内の部分である。同様に、単位データＵ2（第２時系列データの例示）は、演奏データＸ2のうち処理時点τを含む単位区間Ｑ内の部分である。単位区間Ｑは、例えば時間軸上において処理時点τを中心とする所定長（例えば楽曲の１小節分）の区間である。以上の説明から理解される通り、単位データＵ1は、楽曲の第１演奏パートのうち単位区間Ｑ内の演奏内容を表す時系列データであり、単位データＵ2は、楽曲の第２演奏パートのうち単位区間Ｑ内の演奏内容を表す時系列データである。学習済モデルＭは、処理データＵ毎に変化パラメータＣを出力する。

学習済モデルＭは、処理データＵと変化パラメータＣとの関係を学習した統計的予測モデルである。具体的には、学習済モデルＭは、処理データＵから変化パラメータＣを生成する演算を制御装置１１に実行させるプログラム（例えば人工知能ソフトウェアを構成するプログラムモジュール）と、当該演算に適用される複数の係数Ｋとの組合せで実現される。学習済モデルＭを規定する複数の係数Ｋは、複数の学習データを利用した機械学習（特に深層学習）により設定されて記憶装置１２に保持される。学習済モデルＭの機械学習については後述する。

図４に例示される通り、本実施形態の学習済モデルＭは、第１畳込ニューラルネットワーク（CNN：Convolutional Neural Network）Ｎ1と第２畳込ニューラルネットワーク（CNN）Ｎ2と全結合層Ｎfとを含んで構成される。第１畳込ニューラルネットワークＮ1および第２畳込ニューラルネットワークＮ2の各々は、畳込層とプーリング層とを複数層にわたり積層したニューラルネットワークである。第１畳込ニューラルネットワークＮ1の構成と第２畳込ニューラルネットワークＮ2の構成とは共通する。単位データＵ1は第１畳込ニューラルネットワークＮ1に入力され、単位データＵ2は第２畳込ニューラルネットワークＮ2に入力される。

第１畳込ニューラルネットワークＮ1は、単位データＵ1の特徴を表す特徴データＦ1（第１特徴データの例示）を生成する。第２畳込ニューラルネットワークＮ2は、単位データＵ2の特徴を表す特徴データＦ2（第２特徴データの例示）を生成する。特徴データＦ1が表す特徴は、処理データＵと変化パラメータＣとの間の関連付けに寄与する第１演奏パートの音楽的な特徴である。同様に、特徴データＦ2が表す特徴は、処理データＵと変化パラメータＣとの間の関連付けに寄与する第２演奏パートの音楽的な特徴である。全結合層Ｎfは、第１畳込ニューラルネットワークＮ1が生成した特徴データＦ1と第２畳込ニューラルネットワークＮ2が生成した特徴データＦ2とに応じた変化パラメータＣを生成する。

図５は、推定処理部２２が変化パラメータＣを生成する処理（以下「推定処理」という）の具体的な手順を例示するフローチャートである。時間軸上の複数の時点の各々について、当該時点を処理時点τとして図５の推定処理が実行される。

推定処理を開始すると、推定処理部２２は、処理時点τに対応する単位データＵ1および単位データＵ2を処理データＵとして記憶装置１２から取得する（Ｓa1）。推定処理部２２は、単位データＵ1および単位データＵ2を学習済モデルＭに入力することで変化パラメータＣを生成する（Ｓa2～Ｓa4）。具体的には、推定処理部２２は、第１畳込ニューラルネットワークＮ1に単位データＵ1を入力することで特徴データＦ1を生成し（Ｓa2）、第２畳込ニューラルネットワークＮ2に単位データＵ2を入力することで特徴データＦ2を生成する（Ｓa3）。特徴データＦ1の生成（Ｓa2）と特徴データＦ2の生成（Ｓa3）との順序を逆転してもよい。そして、推定処理部２２は、特徴データＦ1および特徴データＦ2を全結合層Ｎfに入力することで変化パラメータＣを生成する（Ｓa4）。以上の処理が処理時点τ毎に反復されることで、楽曲の全区間にわたる変化パラメータＣの時系列が生成される。

図２の学習処理部２３は、推定処理に利用される学習済モデルＭを生成する。具体的には、学習処理部２３は、複数の学習データＬを利用して複数の係数Ｋを反復的に更新する処理（以下「学習処理」という）により学習済モデルＭの複数の係数Ｋを設定する。複数の学習データＬの各々は、処理データＵと変化パラメータＣとを含むデータである。各学習データＬに含まれる変化パラメータＣは、第１演奏パートと第２演奏パートとの時間的な誤差から観測された既知の正解値である。すなわち、各学習データＬの変化パラメータＣは、当該学習データＬの処理データＵが表す単位区間Ｑを実際に演奏した結果から、第１演奏パートと第２演奏パートとの間における演奏時点の誤差の時間的な変化を解析することで観測される。任意の複数の楽曲に対応する学習データＬが学習処理のために記憶装置１２に記憶される。

図６は、学習処理部２３が学習済モデルＭを生成する学習処理の具体的な手順を例示するフローチャートである。推定処理部２２による推定処理の実行前に図５の学習処理が実行される。

学習処理を開始すると、学習処理部２３は、複数の係数Ｋが暫定な数値に設定されたモデル（以下「暫定モデル」という）に学習データＬの処理データＵを入力することで変化パラメータＣを生成する（Ｓb1）。暫定モデルは、図４に例示した学習済モデルＭと同様に、第１畳込ニューラルネットワークＮ1と第２畳込ニューラルネットワークＮ2と全結合層Ｎfとを含んで構成される。学習処理部２３は、暫定モデルが生成した変化パラメータＣと当該学習データＬの変化パラメータＣとの相違を表す評価関数を算定する（Ｓb2）。学習処理部２３は、評価関数が所定値（典型的にはゼロ）に近付くように、暫定モデルの複数の係数Ｋを更新する（Ｓb3）。評価関数に応じた各係数Ｋの更新には、例えば誤差逆伝播法が好適に利用される。以上に説明した処理（Ｓb1～Ｓb3）が複数の学習データＬの各々について反復される。複数の係数Ｋの更新が完了した段階の暫定モデルが、確定的な学習済モデルＭとして推定処理に利用される。

以上の説明から理解される通り、本実施形態によれば、複数の学習データＬにおける処理データＵと変化パラメータＣとの間に潜在する傾向のもとで、未知の処理データＵに対して統計的に妥当な変化パラメータＣを生成することが可能である。すなわち、第１演奏パートの演奏と第２演奏パートの演奏との間の時間的な関係が変化していく過程を推定することができる。

本実施形態では特に、変化パラメータＣが第１パラメータＣaと第２パラメータＣbとを含むから、第１演奏パートの演奏と第２演奏パートの演奏との相互的な関係に関するパラメータを生成できるという利点がある。また、第１演奏パートの演奏と第２演奏パートの演奏との間の時間的な誤差Ｅが変化する過程が自己回帰過程により近似されるから、演奏パート間の演奏時点の誤差Ｅが自然に変化する過程を表す変化パラメータＣを生成できるという利点もある。

＜変形例＞
以上に例示した各態様に付加される具体的な変形の態様を以下に例示する。以下の例示から任意に選択された２個以上の態様を、相互に矛盾しない範囲で適宜に併合してもよい。

（１）前述の各形態では、楽曲の第１演奏パートと第２演奏パートとが相異なる演奏パートである場合を例示したが、第１演奏パートと第２演奏パートとを共通の演奏パートとしてもよい。第１演奏パートと第２演奏パートとが共通する構成では、楽曲のひとつの演奏パートを複数の演奏者が並行に演奏する場合（いわゆるユニゾン）における両演奏間の時間的な誤差Ｅに関する変化パラメータＣを推定できる。

（２）前述の形態では、ひとりの演奏者Ｐによる演奏の内容を表す演奏データＸ1（単位データＵ1）を例示したが、複数の演奏者による第１演奏パートの平均的な演奏を表す演奏データＸ1を利用してもよい。以上の構成によれば、複数の演奏者が第１演奏パートを演奏する場合における第２演奏パートとの時間的な誤差Ｅの変化を適切に表現する変化パラメータＣが生成される。同様に、複数の演奏者による第２演奏パートの平均的な演奏を表す演奏データＸ2（単位データＵ1）を利用してもよい。

（３）前述の形態では、演奏データＸ1および演奏データＸ2としてMIDIデータを例示したが、演奏データＸ1（単位データＵ1）および演奏データＸ2（単位データＵ2）の具体的な形式は任意である。例えば、第１演奏パートの演奏音の波形を表すサンプルの時系列を演奏データＸ1として利用し、第２演奏パートの演奏音の波形を表すサンプルの時系列を演奏データＸ2として利用してもよい。また、第１演奏パートの演奏時における演奏者の身体の各部位の動作を表す動作データを演奏データＸ1として利用し、第２演奏パートの演奏時における演奏者の身体の各部位の動作を表す動作データを演奏データＸ2として利用してもよい。

（４）前述の形態では、第１演奏パートと第２演奏パートとの間の演奏時点の誤差Ｅの時間的な変化を自己回帰過程により近似したが、誤差Ｅの時間的な変化を近似するモデルは以上の例示に限定されない。例えば、非線形振動等の振動過程により誤差Ｅの時間的な変化を近似し、当該振動過程を規定する変化パラメータＣを推定してもよい。

（５）前述の形態では、第１演奏パートの演奏と第２演奏パートの演奏との時間的な誤差の変化を表す変化パラメータＣを生成したが、相互に並行する複数の動作の間の時間的な関係の変化を表す変化パラメータＣを推定する任意の場面において、前述の形態と同様に本発明が利用される。例えば、特定のダンス（第１ダンス）を表す単位データＵ1と、当該第１ダンスに並行する他のダンス（第２ダンス）を表す単位データＵ2とを学習済モデルＭに入力することで、第１ダンスと第２ダンスとの時間的な関係が変化する過程に関する変化パラメータＣを生成することが可能である。第１ダンスは、例えば男女のペアで実演されるペアダンスにおける男性のダンスであり、第２ダンスは女性のダンスである。以上の説明から理解される通り、単位データＵ1は、第１動作の内容を表す第１時系列データとして包括的に表現され、単位データＵ2は、第２動作の内容を表す第２時系列データとして包括的に表現される。第１動作および第２動作の典型例は、演奏またはダンスであるが、以上の例示には限定されない。

（６）前述の形態では、推定処理部２２および学習処理部２３の双方を具備する情報処理装置１００を例示したが、推定処理部２２と学習処理部２３とを別個の情報処理装置で実現してもよい。推定処理部２２を具備する情報処理装置は、処理データＵから変化パラメータＣを推定する推定装置として実現される。推定装置において学習処理部２３の有無は不問である。また、学習処理部２３を具備する情報処理装置は、複数の学習データＬを利用した学習処理で学習済モデルＭを生成する学習装置として実現される。学習装置において推定処理部２２の有無は不問である。端末装置と通信可能なサーバ装置により学習装置を実現し、学習装置が生成した学習済モデルＭを端末装置に配信してもよい。端末装置は、学習装置から配信された学習済モデルＭを利用して推定処理を実行する推定処理部２２を具備する。

（７）前述の各形態に係る情報処理装置１００の機能は、コンピュータ（例えば制御装置１１）とプログラムとの協働により実現される。本発明の好適な態様に係るプログラムは、コンピュータが読取可能な記録媒体に格納された形態で提供されてコンピュータにインストールされる。記録媒体は、例えば非一過性（non-transitory）の記録媒体であり、CD-ROM等の光学式記録媒体（光ディスク）が好例であるが、半導体記録媒体または磁気記録媒体等の公知の任意の形式の記録媒体を含む。なお、非一過性の記録媒体とは、一過性の伝搬信号（transitory, propagating signal）を除く任意の記録媒体を含み、揮発性の記録媒体を除外するものではない。また、通信網を介した配信の形態でプログラムをコンピュータに提供してもよい。

（８）学習済モデルＭを実現するための人工知能ソフトウェアの実行主体はCPUに限定されない。例えば、Tensor Processing UnitおよびNeural Engine等のニューラルネットワーク専用の処理回路、または、人工知能に専用されるDSP（Digital Signal Processor）が、人工知能ソフトウェアを実行してもよい。また、以上の例示から選択された複数種の処理回路が協働して人工知能ソフトウェアを実行してもよい。

＜付記＞
以上に例示した形態から、例えば以下の構成が把握される。

本発明の好適な態様（第１態様）に係る情報処理方法は、第１動作の内容を表す第１時系列データと、前記第１動作に並行する第２動作の内容を表す第２時系列データと、を学習済モデルに入力することで、前記第１動作と前記第２動作との間の時間的な関係が変化する過程に関する変化パラメータを生成する。以上の態様によれば、第１動作および第２動作の内容と両動作間の時間的な関係が変化する過程とについて学習済モデルが学習した関係のもとで、未知の第１動作と第２動作との時間的な関係が変化していく過程を推定することが可能である。

第１態様の好適例（第２態様）において、前記変化パラメータは、前記第１動作に対する前記第２動作の時間的な誤差が変化する過程に関する第１パラメータと、前記第２動作に対する前記第１動作の時間的な誤差が変化する過程に関する第２パラメータとを含む。以上の態様によれば、第１動作と第２動作との相互的な関係に関する変化パラメータを生成することが可能である。

第２態様の好適例（第３態様）において、前記第１パラメータは、前記第１動作に対する前記第２動作の時間的な誤差が変化する過程を表す自己回帰過程のパラメータであり、前記第２パラメータは、前記第２動作に対する前記第１動作の時間的な誤差が変化する過程を表す自己回帰過程のパラメータである。以上の態様によれば、第１動作と第２動作との間の時間的な誤差が変化する過程が自己回帰過程により近似されるから、当該誤差が自然に変化する過程を表現する変化パラメータを生成できる。

第１態様から第３態様の何れかの好適例（第４態様）において、前記第１動作は、楽曲の複数の演奏パートのうちの第１演奏パートの演奏であり、前記第２動作は、前記複数の演奏パートのうち前記第１演奏パート以外の第２演奏パートの演奏であり、前記第１動作と前記第２動作との間の時間的な関係は、前記第１動作による演奏時点と前記第２動作による演奏時点との時間的な誤差である。以上の態様によれば、楽曲の第１演奏パートと第２演奏パートとの間における演奏時点の誤差が変化する過程を適切に表す変化パラメータを生成することが可能である。

第１態様から第４態様の何れかの好適例（第５態様）において、前記学習済モデルは、前記第１時系列データの特徴を表す第１特徴データを生成する第１畳込ニューラルネットワークと、前記第２時系列データの特徴を表す第２特徴データを生成する、前記第１畳込ニューラルネットワークと共通の構成の第２畳込ニューラルネットワークと、前記第１特徴データと前記第２特徴データとに応じた前記変化パラメータを出力する全結合層とを含む。以上の態様によれば、第１動作および第２動作の内容と両動作間の時間的な関係が変化する過程との間の関係に対して特に寄与する特徴を表す第１特徴データおよび第２特徴データが生成される。したがって、第１時系列データと第２時系列データとに対して適切な変化パラメータを生成することが可能である。

以上に例示した各態様の情報処理方法を実行する情報処理装置、または、以上に例示した各態様の情報処理方法をコンピュータに実行させるプログラムとしても、本発明の好適な態様は実現される。

１００…情報処理装置、１１…制御装置、１２…記憶装置、１３…収音装置、１５…演奏装置、２１…演奏制御部、２２…推定処理部、２３…学習処理部、Ｍ…学習済モデル、Ｎ1…第１畳込ニューラルネットワーク、Ｎ2…第２畳込ニューラルネットワーク、Ｎf…全結合層。

Claims

第１動作の内容を表す第１時系列データと、前記第１動作に並行する第２動作の内容を表す第２時系列データと、を学習済モデルに入力することで、前記第１動作と前記第２動作との間の時間的な関係が変化する過程に関する変化パラメータを生成する
コンピュータにより実現される情報処理方法。
前記変化パラメータは、
前記第１動作に対する前記第２動作の時間的な誤差が変化する過程に関する第１パラメータと、
前記第２動作に対する前記第１動作の時間的な誤差が変化する過程に関する第２パラメータとを含む
請求項１の情報処理方法。
前記第１パラメータは、前記第１動作に対する前記第２動作の時間的な誤差が変化する過程を表す自己回帰過程のパラメータであり、
前記第２パラメータは、前記第２動作に対する前記第１動作の時間的な誤差が変化する過程を表す自己回帰過程のパラメータである
請求項２の情報処理方法。
前記第１動作は、楽曲の複数の演奏パートのうちの第１演奏パートの演奏であり、
前記第２動作は、前記複数の演奏パートのうち前記第１演奏パート以外の第２演奏パートの演奏であり、
前記第１動作と前記第２動作との間の時間的な関係は、前記第１動作による演奏時点と前記第２動作による演奏時点との時間的な誤差である
請求項１から請求項３の何れかの情報処理方法。
前記学習済モデルは、
前記第１時系列データの特徴を表す第１特徴データを生成する第１畳込ニューラルネットワークと、
前記第２時系列データの特徴を表す第２特徴データを生成する、前記第１畳込ニューラルネットワークと共通の構成の第２畳込ニューラルネットワークと、
前記第１特徴データと前記第２特徴データとに応じた前記変化パラメータを出力する全結合層とを含む
請求項１から請求項４の何れかの情報処理方法。
第１動作の内容を表す第１時系列データと、前記第１動作に並行する第２動作の内容を表す第２時系列データと、を学習済モデルに入力することで、前記第１動作と前記第２動作との間の時間的な関係が変化する過程に関する変化パラメータを生成する推定処理部
を具備する情報処理装置。