JP6313159B2 - ダンス動作データ作成システム及びダンス動作データ作成方法 - Google Patents
ダンス動作データ作成システム及びダンス動作データ作成方法 Download PDFInfo
- Publication number
- JP6313159B2 JP6313159B2 JP2014165591A JP2014165591A JP6313159B2 JP 6313159 B2 JP6313159 B2 JP 6313159B2 JP 2014165591 A JP2014165591 A JP 2014165591A JP 2014165591 A JP2014165591 A JP 2014165591A JP 6313159 B2 JP6313159 B2 JP 6313159B2
- Authority
- JP
- Japan
- Prior art keywords
- dance
- acoustic feature
- vocabulary
- motion
- music
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Expired - Fee Related
Links
- 230000033001 locomotion Effects 0.000 title claims description 301
- 238000000034 method Methods 0.000 title claims description 88
- 239000012634 fragment Substances 0.000 claims description 123
- 230000009471 action Effects 0.000 claims description 121
- 238000004458 analytical method Methods 0.000 claims description 104
- 230000008569 process Effects 0.000 claims description 50
- 238000003860 storage Methods 0.000 claims description 49
- 230000002123 temporal effect Effects 0.000 claims description 30
- 238000010276 construction Methods 0.000 claims description 24
- 238000013500 data storage Methods 0.000 claims description 18
- 230000007704 transition Effects 0.000 claims description 13
- 238000007476 Maximum Likelihood Methods 0.000 claims description 11
- 230000005236 sound signal Effects 0.000 claims description 8
- 238000004422 calculation algorithm Methods 0.000 claims description 7
- 238000005070 sampling Methods 0.000 claims description 6
- 239000000203 mixture Substances 0.000 claims description 3
- 101710170766 Fibulin-5 Proteins 0.000 description 520
- 102100028065 Fibulin-5 Human genes 0.000 description 520
- 230000036544 posture Effects 0.000 description 20
- 238000009825 accumulation Methods 0.000 description 13
- 210000000988 bone and bone Anatomy 0.000 description 13
- 239000011159 matrix material Substances 0.000 description 13
- 239000013598 vector Substances 0.000 description 12
- 238000012545 processing Methods 0.000 description 9
- 238000009826 distribution Methods 0.000 description 6
- 238000004519 manufacturing process Methods 0.000 description 6
- 230000011218 segmentation Effects 0.000 description 6
- 238000010586 diagram Methods 0.000 description 5
- 238000000605 extraction Methods 0.000 description 5
- 238000005520 cutting process Methods 0.000 description 4
- 230000006870 function Effects 0.000 description 4
- 238000010801 machine learning Methods 0.000 description 4
- 238000004590 computer program Methods 0.000 description 3
- 230000006399 behavior Effects 0.000 description 2
- 238000004364 calculation method Methods 0.000 description 2
- 238000007796 conventional method Methods 0.000 description 2
- 239000000284 extract Substances 0.000 description 2
- JEIPFZHSYJVQDO-UHFFFAOYSA-N iron(III) oxide Inorganic materials O=[Fe]O[Fe]=O JEIPFZHSYJVQDO-UHFFFAOYSA-N 0.000 description 2
- 238000005457 optimization Methods 0.000 description 2
- 238000011160 research Methods 0.000 description 2
- 230000009466 transformation Effects 0.000 description 2
- 101001060252 Homo sapiens Fibulin-5 Proteins 0.000 description 1
- 230000008859 change Effects 0.000 description 1
- 238000012790 confirmation Methods 0.000 description 1
- 238000010219 correlation analysis Methods 0.000 description 1
- 238000000354 decomposition reaction Methods 0.000 description 1
- 238000013461 design Methods 0.000 description 1
- 238000001514 detection method Methods 0.000 description 1
- 239000006185 dispersion Substances 0.000 description 1
- 238000002474 experimental method Methods 0.000 description 1
- 239000000835 fiber Substances 0.000 description 1
- 230000004907 flux Effects 0.000 description 1
- 230000010354 integration Effects 0.000 description 1
- 238000013507 mapping Methods 0.000 description 1
- 238000010606 normalization Methods 0.000 description 1
- 238000001228 spectrum Methods 0.000 description 1
Landscapes
- Toys (AREA)
- Processing Or Creating Images (AREA)
Description
データ記憶部1は、複数の音楽音響信号c1〜cDに対応した複数の音響特徴量の時系列データからなる複数の音響特徴量系列を記憶する音響特徴量系列記憶部11と複数の音楽音響信号c1〜cDに対応した複数の階層的ビート構造の時系列データを記憶する階層的ビート構造の時系列データ記憶部12と複数の音楽音響信号c1〜cDに対応した複数のダンスd1〜dDにそれぞれ対応した複数のダンス動作を時系列の骨格モデルの変形データで表した複数のダンス動作時系列データを記憶するダンス動作時系列データ記憶部13とを備えている。これらの記憶部11乃至13に記憶されたデータは、すでに作成されて入手可能なものを利用してもよく、新たに音楽音響信号とダンス動作を用いてデータ化してもよい。
図3に示すように、ステップST12で変換したダンス動作(学習データのすべてのダンス動作)は、ステップST2においてダンスの学習として学習処理される。このステップST2は、図1の実施の形態では、第1の学習部2によって実行される。第1の学習部2は、ダンス動作の断片切り出し部21と、ダンス動作の断片集積部22と、ダンス動作のクラスタリング部23と、時間的順序付きダンス語彙記憶部24とダンス語彙からの動作生成モデル記憶部25とから構成される。ダンス動作の断片切り出し部21は、まず複数の階層的ビート構造の時系列データと複数のダンス動作時系列データとに基づいて、複数のダンス動作時系列データをそれぞれ所定の分析区間におけるダンス動作の断片として切り出し、併せてダンス動作時系列データ中でのダンス動作の断片の時間的順序を決定する。所定の分析区間の定め方は任意であるが、小節及びビート構造を構成する拍を基準にして定めることができる。なお以下の本実施の形態の説明では、分析区間を1.5小節としている。ダンス動作の断片集積部22は、ダンス動作時系列データ中における複数のダンス動作の断片を集める。そしてダンス動作のクラスタリング部23は、複数のダンス動作の断片を複数のダンス語彙に対応するクラスタに配分するクラスタリングを行って、どのような時間的順序付きダンス語彙があるかを求め、同時に複数のダンス動作の断片のそれぞれがどのダンス語彙に対応するクラスタに属するのかを分析し、その分析結果から得たどの音楽音響信号のどの分析区間でどのダンス語彙が出現するかの情報に基づいて、ダンス語彙が与えられたときにどのようなダンス動作が生成されるかを決定するダンス語彙からの動作生成モデルを構築する。時間的順序付きダンス語彙記憶部24は、ダンス動作のクラスタリング部23で得た時間的順序付きダンス語彙を記憶する。そしてダンス語彙からの動作生成モデル記憶部25は、ダンス動作のクラスタリング部23で得たダンス語彙からの動作生成モデルを記憶する。なお類似した特徴を持つダンス動作の確率的な生成源のことを、「ダンス語彙」と呼ぶ。また時間的順序付きダンス語彙における「時間的順序付き」とは、音楽音響信号のどの分析区間で出現するかの情報をダンス語彙それぞれが備えていることを意味する。
第2の学習部3は、音響特徴量系列の断片の切り出し部31と、音響特徴量系列の断片集積部32と、音響特徴量系列のクラスタリング部33と、時間的順序付き音響特徴量系列のクラスタ記憶部34及び音響特徴量系列のクラスタからの音響特徴量系列生成モデル記憶部35とから構成される。音響特徴量系列の断片の切り出し部31は、複数の音響特徴量系列と複数の階層的ビート構造の時系列データとに基づいて、複数の音響特徴量系列をそれぞれ所定の分析区間における音響特徴量系列の断片として切り出し、併せて音響特徴量系列の断片の音楽音響信号中での時間的順序を決定する(図7のステップST31)。音響特徴量系列の断片集積部32は、音響特徴量系列における複数の音響特徴量系列の断片を集める。そして音響特徴量系列のクラスタリング部33は、複数の音響特徴量系列の断片を複数の音響特徴量系列のクラスタに配分するクラスタリングを行って、どのような音響特徴量系列のクラスタがあるのかを求め、同時に音響特徴量系列の断片のそれぞれがどの音響特徴量系列のクラスタに属するのかを分析し、時間的順序付き音響特徴量系列のクラスタを求め、音響特徴量系列のクラスタが与えられたときにどのような音響特徴量が生成されるかを決定する音響特徴量系列生成モデルを構築する。具体的に、音響特徴量系列のクラスタリング部33では、複数の音響特徴量系列の断片からガウシアンプロセスで複数の音響特徴量系列のクラスタを決定し、音響特徴量系列のクラスタからの音響特徴量系列生成モデルを構築する。具体的には、複数の音響特徴量系列の断片からなる複数の時間的順序付き音響特徴量系列のクラスタごとにガウシアンプロセスで確率モデルを構築し(図7のステップST32)、確率が最大となるように複数の音響特徴量系列の断片を複数の時間的順序付きの音響特徴量系列のクラスタへ再配分する(図7のステップST33)クラスタリングを所定回数繰り返して、複数の時間的順序付き音響特徴量系列のクラスタを決定し且つ複数の時間的順序付き音響特徴量系列のクラスタからの音響特徴量系列生成モデルを生成する。時間的順序付き音響特徴量系列のクラスタ記憶部34は、音響特徴量系列のクラスタリング部33で取得した時間的順序付き音響特徴量系列のクラスタを記憶する。また音響特徴量系列生成モデル記憶部35は、音響特徴量系列のクラスタリング
部で得た音響特徴量系列生成モデルを記憶する。ここで時間的順序付き音響特徴量の「時間的順序付き」とは、音楽音響信号のどの分析区間で出現するかの情報を音響特徴量系列のクラスタそれぞれが備えていることを意味する。
そして確率モデル構築部4は、時間的順序付きダンス語彙記憶部24にダンス語彙とともに記憶された、どの楽曲のどの分析区間でどのダンス語彙が出現するかの情報と、ダンス語彙からの動作生成モデル記憶部25に記憶されたダンス語彙からの動作生成モデルと、時間的順序付き音響特徴量系列のクラスタ記憶部34に記憶された時間的順序付き音響特徴量系列のクラスタと、音響特徴量クラスタからの音響特徴量系列生成モデル記憶部35に記憶された音響特徴量系列生成モデルとに基づいて、時間的順序付き音響特徴量系列のクラスタとダンス語彙の対応関係を分析して音楽とダンスの対応関係の確率モデルを構築する。そこで本実施の形態の確率モデル構築部4は、ダンス動作の確率的生成モデル構築部41と、ダンス動作の確率的生成モデルを記憶するダンス動作の確率的生成モデル記憶部42と、音楽とダンスの対応関係の確率モデル構築部43と、音楽とダンスの対応関係の確率モデル記憶部44とにより構成される。ダンス動作の確率的生成モデル構築部41は、複数の時間的順序付きダンス語彙とダンス語彙からの動作生成モデルとに基づいて、すべてのダンス動作の断片について、どのダンス語彙であるかを分析し、どの楽曲のどの分析区間でどのダンス語彙が出現するかの情報を出力するダンス動作の確率的生成モデルを構築する(図6のステップST24及びステップST25)。ダンス動作の確率的生成モデルの構築のために、ステップST25Aでは、隠れマルコフモデル(HMM)の遷移確率を学習中の隣り合うダンス語彙の遷移回数により学習し、ステップST25Bでは、隠れマルコフモデル(HMM)の初期確率を学習データ中のダンス語彙の出現回数により学習し、ステップST25Cでは隠れマルコフモデル(HMM)の出力確率をダンス語彙からのダンス動作の生成モデル(ガウシアンプロセス)により設定する。
具体的に、ダンス語彙{vk}K k=1を学習する方法について説明する。ダンスの語彙には自然言語のようなあらかじめ決まった語彙のセットはないので、ダンス動作の類似度に基づいてクラスタリングを行い学習する。最も適切にダンス語彙とダンス動作の対応関係が取れている状態は、ダンス語彙が割り当てられたときの学習データの対数尤度L(下記参照)が最大になるときである。
この状態は、適当なダンス語彙とダンス動作の対応関係の初期状態から、EMアルゴリズムに基づくクラスタリングで求めることができる。クラスタリングは以下の2つのステップの反復により行われる。
次に、ダンス語彙に基づくダンス動作の動作生成モデルの生成について説明する。先頭からn 番目の分析区間のダンス動作Dnが、ダンス語彙vnとして分析することができるとする。ここでDnは分析区間中の姿勢を表わすベクトルd を束ねた行列[d1,…,ds,…dS]T である。ds は現在の実装では79次元ベクトルである。Sは分析区間中で観測される姿勢の個数である。ダンス動作のデータには一定のフレームレートで時刻ごとの姿勢が記述されるか、時間的にとびとびのキーフレームの時刻ごとの姿勢が記述されている。したがって、分析区間中に含まれる姿勢データの個数Sは、楽曲のテンポやキーフレームの詳細な設定され度合いに応じて異なっている可能性がある。分析区間内のダンス動作Dnがダンス語彙vnを元に確率的な揺らぎをもって生成されるとして、確率P(Dn|vn)を導入する。またダンス語彙は隣り合う分析区間にランダムに連なるわけではなく、ある語彙の後にはどのような語彙が続きそうかという偏りがあると考えられる。そこで語彙から語彙へと遷移する確率P(vn|vn−1)を導入する。このときN個の分析区間のダンス動作{Dn}N n=1がダンス語彙{vn}N n=1から生成される確率は以下のように計算できる。
ダンス動作には周期性や拍ごとの動作に対応関係があることから、これらを確率的にモデル化したい。同じダンス語彙として捉えることができる2つの似たダンス動作D1とD2とがあるとき、これら2つの行列に含まれる姿勢を表わすベクトルの個数は同じとは限らない。そこで、Dに含まれる姿勢[d1,…,ds,…dS] を、1小節の長さが1.0となるよう正規化された時刻を変数として、ds=f(ts)と表せる連続関数fを推定する必要がある。ここでts は姿勢dsが分析区間内で観測される時刻(−0.5<ts<1.0)である。fを推定するにあたって、次の2点を仮定する。第一の仮定として、各時刻での姿勢dsは、f(ts)の値からガウスノイズが加わって観測されるとする。すなわち下記(2)のように書ける。
前述の出力確率、すなわちダンス動作D がダンス語彙vから成される確率は、最適化されたモデルパラメータσv とλvを用いて、学習データが与えられたもとでの条件付き確率を以下のように計算すればよい。
本実施の形態では、ダンス動作の語彙v のもとでの音楽音響信号を分析するため、音響特徴量MFCC+ΔMFCCの列についても、ダンス動作の分析区間と同じように、一つの小節の3拍目から今の小節の4拍目までを切り出して分析する。切り出された音響特徴量の列を{Mn}N n=1とする。ダンス動作の場合と同様に、音響特徴量にも時間的な構造があり、小節中の特徴量ベクトル同士の相関がダンス動作に関連していると考えられる。そこでP(M|v)をガウシアンプロセスによってダンス動作の場合と同様にモデル化することを考えた。しかし、同じダンスに対して対応する音響特徴量の列は多様であり、単一の確率分布で表現することはできないと考えられる。そこで複数の確率分布の重み付き和によって確率を計算することを考えた。あらかじめ{Mn}N n=1 を、ダンス動作をクラスタリングした場合と同様の操作で、K 個のクラスタ{zk}K k=1 に分割しておく。このときP(Mn|v)はz を変数に加えて、下記(11)式のようにかける。
あるダンス語彙vのもとで、どのようなMFCC+ΔMFCCが生成されるかの確率に基づいて、ダンス動作の確率的生成モデルと統合し、音楽に連動するダンス動作の確率的生成モデルをつくる。隠れマルコフモデルである上記式(1)にダンス語彙{vn}N n=1を導入して変形すると、下記の(12)式が得られる。この式から、ダンス動作のガウシアンプロセスに基づくモデルと音響特徴量とダンス語彙の関係のモデルを用いて確率が計算できることがわかる。
図1および図3並びに図8を参照して、音楽に連動したダンスの自動生成のために必要なダンス生成用データ記憶部5とダンス動作データ生成部6について説明する。
前述の式(12)により表されるダンス動作のガウシアンプロセスに基づくモデルと音響特徴量とダンス語彙の関係のモデルをもとに、ビートと小節線が推定済みの新しい楽曲に対してダンス動作系列データを生成する場合を例にして説明する。この場合、ダンスの自動生成は与えられた音楽特徴量のもとで尤度最大のダンスを探索する問題として帰着できる。しかし各時刻でのダンス動作を最適化することは困難であるので、ダンス語彙の列{vn}N n=1を最適化する問題として解き、得られたダンス語彙の列からダンス動作を生成する2ステップによって自動生成を行う。はじめに、分析区間ごとに与えられた音響特徴量の列{Mn}N n=1のもとで、尤度最大のダンス語彙の系列{v* n}N n=1を求める。
11 音響特徴量系列記憶部
12 階層的ビート構造の時系列データ記憶部
13 ダンス動作時系列データ記憶部
2 第1の学習部
21 ダンス動作の断片切り出し部
22 ダンス動作の断片集積部
23 ダンス動作のクラスタリング部
24 時間的順序付きダンス語彙記憶部
25 ダンス語彙からの動作生成モデル記憶部
3 第2の学習部
31 音響特徴量系列の断片の切り出し部
32 音響特徴量系列の断片集積部
33 音響特徴量系列のクラスタリング部
34 時間的順序付き音響特徴量系列のクラスタ記憶部
35 モデル記憶部
4 確率モデル構築部
41 ダンス動作の確率的生成モデル構築部
42 ダンス動作の確率的生成モデル記憶部
43 音楽とダンスの対応関係の確率モデル構築部
44 音楽とダンスの対応関係の確率モデル記憶部
5 ダンス生成用データ記憶部
6 ダンス動作データ生成部
61 音響特徴量系列の断片切り出し部
62 音響特徴量系列の断片集積部
63 ダンス語彙系列作成部
64 ダンス動作の断片生成部
65 ダンス動作時系列データ生成部
66 補間部
Claims (33)
- 複数の音楽音響信号に対応した複数の音響特徴量の時系列データからなる複数の音響特徴量系列と、前記複数の音楽音響信号に対応した複数の階層的ビート構造の時系列データと、前記複数の音楽音響信号に対応した複数のダンスにそれぞれ対応した複数のダンス動作を骨格モデルの変形の時系列データで表した複数のダンス動作時系列データを記憶するデータ記憶部と、
前記複数の階層的ビート構造の時系列データと前記複数の前記ダンス動作時系列データとに基づいて、前記複数のダンス動作時系列データをそれぞれ所定の分析区間におけるダンス動作の断片として切り出し、併せて前記ダンス動作時系列データ中での前記ダンス動作の断片の時間的順序を決定するダンス動作の断片切り出し部と、前記ダンス動作時系列データ中における時間的順序の情報を伴った複数のダンス動作の断片を集めるダンス動作の断片集積部と、前記複数のダンス動作の断片を複数のダンス語彙に対応するクラスタに配分するクラスタリングを行って、どのようなダンス語彙があるかを求め、同時に複数のダンス動作の断片のそれぞれがどの前記ダンス語彙に対応するクラスタに属するのかを分析し、時間的順序付きダンス語彙を求め、前記時間的順序付きダンス語彙に基づいて、前記ダンス語彙が与えられたときにどのようなダンス動作が生成されるかを決定するダンス語彙からの動作生成モデルを構築するダンス動作のクラスタリング部と、前記時間的順序付きダンス語彙を記憶する時間的順序付きダンス語彙記憶部と前記ダンス語彙からの動作生成モデルを記憶するダンス語彙からの動作生成モデル記憶部とからなる第1の学習部と、
前記複数の音響特徴量系列と前記複数の階層的ビート構造の時系列データとに基づいて、前記複数の音響特徴量系列をそれぞれ前記所定の分析区間における音響特徴量系列の断片として切り出し、併せて前記音響特徴量系列の断片の前記音楽音響信号中での時間的順序を決定する音響特徴量系列の断片切り出し部と、前記音響特徴量系列における時間的順序の情報を伴った複数の前記音響特徴量系列の断片を集める音響特徴量系列の
断片集積部と、前記複数の音響特徴量系列の断片を複数の音響特徴量系列のクラスタに配分するクラスタリングを行って、どのような音響特徴量系列のクラスタがあるかと、前記複数の音響特徴量系列の断片のそれぞれがどの前記音響特徴量系列のクラスタに属するのかを分析し、時間的順序付き音響特徴量系列のクラスタを求め、前記音響特徴量系列のクラスタが与えられたときにどのような音響特徴量系列が生成されるかを決定する前記音響特徴量系列のクラスタからの音響特徴量系列生成モデルを構築する音響特徴量系列のクラスタリング部と、前記時間的順序付き音響特徴量系列のクラスタを記憶する時間的順序付き音響特徴量系列のクラスタ記憶部と前記音響特徴量系列生成モデルを記憶する前記音響特徴量系列のクラスタからの音響特徴量系列生成モデル記憶部とからなる第2の学習部と、
前記時間的順序付きダンス語彙と、ダンス語彙からの動作生成モデルと、前記時間的順序付き音響特徴量系列のクラスタと、前記音響特徴量系列のクラスタからの音響特徴量系列生成モデルとに基づいて、前記時間的順序付き音響特徴量系列のクラスタとダンス語彙の対応関係を分析して音楽とダンスの対応関係の確率モデルを構築して記憶する確率モデル構築部と、
ダンスを生成したい楽曲の音楽音響信号の複数の音響特徴量の時系列データからなる音響特徴量系列とその階層的ビート構造の時系列データを記憶するダンス生成用データ記憶部と、
前記ダンスを生成したい楽曲の音楽音響信号の複数の音響特徴量の時系列データからなる音響特徴量系列と前記階層的ビート構造の時系列データとに基づいて、前記音響特徴量系列を前記所定の分析区間における時間的順序付き音響特徴量系列の断片として切り出して複数の音響特徴量系列の断片を集め、該時間的順序付き複数の音響特徴量系列の断片と前記音楽とダンスの対応関係の確率モデルとに基づいて、尤度を考慮しながら前記複数の時間的順序付き音響特徴量系列の断片に対応したンス語彙の系列を作成し、前記ダンス語彙の系列中の前記ダンス語彙ごとに前記ダンス語彙からの動作生成モデルに基づいて前記分析区間ごとのダンス動作の断片を生成し、生成した複数のダンス動作の断片に基づいて前記ダンスを生成したい楽曲の音楽音響信号に連動した複数のダンス動作を骨格モデルの変形の時系列データで表した複数のダンス動作時系列データとして出力するダンス動作データ生成部とからなるダンス動作データ作成システム。 - 前記所定の分析区間は、1小節以上2小節以下の分析区間であり、
前記所定の分析区間が1小節の長さからなるときには、前後二つの前記分析区間はオーバーラップせず、
前記所定の分析区間が1小節より長いときには、前後二つの前記分析区間は一部オーバーラップする請求項1に記載のダンス動作データ作成システム。 - 前記骨格モデルの変形の時系列データが、前記骨格モデルの位置座標とクォータニオンである請求項1に記載のダンス動作データ作成システム。
- 前記階層的ビート構造が、前記複数の音楽音響信号と前記ダンスを生成したい楽曲の音楽音響信号から分析される、複数の拍と小節線の時刻情報である請求項1に記載のダンス動作データ作成システム。
- 前記ダンス動作のクラスタリング部では、前記複数のダンス動作の断片からガウシアンプロセスで前記ダンス語彙を決定し、前記ダンス語彙からの動作生成モデルを構築する請求項1に記載のダンス動作データ作成システム。
- 前記ダンス動作のクラスタリング部では、
ダンス動作の断片からなる複数個のダンス語彙に対応するクラスタごとにガウシアンプロセスでダンス語彙からの確率モデルを構築し、確率が最大となるように前記複数のダンス動作の断片を前記複数個のダンス語彙に対応するクラスタへ再配分するクラスタリングを所定回数繰り返して、前記複数のダンス語彙を決定し且つ前記ダンス語彙からのダンス動作の動作生成モデルを構築し、全ての前記ダンス動作の断片について、前記複数の語彙のいずれに属するものかを分析して前記分析結果を得るとともに、前記音楽音響信号のどの分析区間でどの前記ダンス語彙が出現するかの情報を得る請求項5に記載のダンス動作データ作成システム。 - 前記音響特徴量系列のクラスタリング部では、複数の音響特徴量系列の断片からガウシアンプロセスで複数の音響特徴量系列のクラスタを決定し、音響特徴量系列のクラスタからの音響特徴量系列生成モデルを構築する請求項1に記載のダンス動作データ作成システム。
- 前記音響特徴量系列のクラスタリング部では、前記複数の音響特徴量系列の断片からなる複数の時間的順序付き音響特徴量系列のクラスタごとにガウシアンプロセスで確率モデルを構築し、確率が最大となるように前記複数の音響特徴量系列の断片を前記複数の時間的順序付き音響特徴量系列のクラスタへ再配分するクラスタリングを所定回数繰り返して、前記複数の時間的順序付き音響特徴量系列のクラスタを決定し且つ前記複数の時間的順序付き音響特徴量系列のクラスタからの音響特徴量系列生成モデルを構築する請求項7に記載のダンス動作データ作成システム。
- 前記確率モデル構築部は、前記複数の時間的順序付きダンス語彙と前記ダンス語彙からの動作生成モデルとに基づいて、すべての前記ダンス動作の断片について、どのダンス語彙であるかを分析し、どの楽曲のどの分析区間でどのダンス語彙が出現するかを決定し、隣り合う二つの前記ダンス語彙の遷移回数と前記ダンス語彙の出現回数と複数のダンス語彙からの動作生成モデルに基づいて設定するダンス動作の確率的生成モデルを構築するダンス動作の確率的生成モデル構築部と、前記ダンス動作の確率的生成モデルを記憶するダンス動作の確率的生成モデル記憶部と、
どのダンス語彙のもとでどの音響特徴量系列のクラスタが観測されるかを分析して、その分析結果に基づいてあるダンス語彙のもとでどの音響特徴量系列のクラスタが観測されるかの確率モデルを構築し、前記ダンス動作の確率的生成モデル並びに前記音響特徴量の確率的生成モデル及びあるダンス語彙のもとでどの音響特徴量系列のクラスタが観測されるかの確率モデルに基づいて、前記音楽とダンスの対応関係の確率モデルを構築する音楽とダンスの対応関係の確率モデル構築部と、音楽とダンスの対応関係の確率モデル記憶部とにより構成されている請求項1に記載のダンス動作データ作成システム。 - 前記ダンス動作の確率的生成モデル構築部及び前記音楽とダンスの対応関係の確率モデル構築部は、それぞれ隠れマルコフモデルによって構成されている請求項9に記載のダンス動作データ作成システム。
- 前記ダンス動作データ生成部は、前記音楽とダンスの対応関係の確率モデルに基づき、前記時間的順序付き音響特徴量系列の断片に対応したダンス語彙の系列を作成する請求項1に記載のダンス動作データ作成システム。
- 前記ダンス動作データ生成部は、前記音楽とダンスの対応関係の確率モデルに基づき、Viterbiアルゴリズムによって前記複数の音響特徴量系列の断片に対応したダンス語彙の尤度最大の系列を探索する請求項1に記載のダンス動作データ作成システム。
- 前記分析区間が1小節より長く2小節より短い場合において、時系列的に隣り合う2つの前記ダンス動作の断片同士でオーバーラップする1以上の拍のダンス動作を補間して、前記ダンスを生成したい楽曲の音楽音響信号に連動した時系列の前記ダンス動作時系列データとして出力する補間部を備えている請求項1に記載のダンス動作データ作成システム。
- 前記補間部は、線形補間により時系列的に隣り合う2つの前記ダンス動作の断片同士でオーバーラップする1以上の拍のダンス動作を補間する請求項13に記載のダンス動作データ作成システム。
- 前記ダンス動作データ生成部は、前記ダンス語彙からのダンス動作生成モデルに基づいてサンプリングを行って前記分析区間ごとのダンス動作の断片を生成する請求項1に記載のダンス動作データ作成システム。
- 前記ダンス動作データ生成部は、前記ダンス語彙からのダンス動作生成モデルをガウシアンプロセスで構築した場合において、前記ガウシアンプロセスの平均と分散に基づいて前記分析区間ごとのダンス動作の断片を生成する請求項1に記載のダンス動作データ作成システム。
- 請求項1乃至16のいずれか1項に記載のダンス動作データ作成システムにより作成した前記複数のダンス動作時系列データに基づいて3次元コンピュータグラフィックスのキャラクタあるいはロボットのダンスを自動生成するダンス自動生成システム。
- 複数の音楽音響信号に対応した複数の音響特徴量の時系列データからなる複数の音響特徴量系列と、前記複数の音楽音響信号に対応した複数の階層的ビート構造の時系列データと、前記複数の音楽音響信号に対応した複数のダンスにそれぞれ対応した複数のダンス動作を骨格モデルの変形の時系列データで表した複数のダンス動作時系列データを用意するステップと、
前記複数の階層的ビート構造の時系列データと前記複数の前記ダンス動作時系列データとに基づいて、前記複数のダンス動作時系列データをそれぞれ所定の分析区間におけるダンス動作の断片として切り出し、併せて前記ダンス動作時系列データ中での前記ダンス動作の断片の時間的順序を決定し、前記ダンス動作時系列データ中における時間的順序の情報を伴ったダンス動作の断片を集め、前記複数のダンス動作の断片を複数のダンス語彙に対応するクラスタに配分するクラスタリングを行って、どのようなダンス語彙があるかと前記複数のダンス動作の断片のそれぞれがどの前記ダンス語彙に対応するクラスタに属するのかを分析し、前記時間的順序付きダンス語彙に基づいて、前記ダンス語彙が与えられたときにどのようなダンス動作が生成されるかを決定するダンス語彙からの動作生成モデルを構築し、前記時間的順序付きダンス語彙をダンス語彙記憶部に記憶させ、前記ダンス語彙からの動作生成モデルを動作生成モデル記憶部に記憶させる第1の学習ステップと、
前記音響特徴量系列と前記層的ビート構造の時系列データとに基づいて、前記複数の音響特徴量系列をそれぞれ前記所定の分析区間における音響特徴量系列の断片として切り出し、併せて前記音響特徴量系列の断片の前記音楽音響信号中での時間的順序を決定し、前記音響特徴量系列における時間的順序の情報を伴った複数の前記音響特徴量系列の断片を集め、前記複数の音響特徴量系列の断片を複数の音響特徴量系列のクラスタに配分するクラスタリングを行って、どのような音響特徴量系列のクラスタがあるかと前記複数の音響特徴量系列の断片のそれぞれがどの前記音響特徴量系列のクラスタに属するのかを分析し、時間的順序付き音響特徴量系列のクラスタを求め、前記音響特徴量系列のクラスタが与えられたときにどのような音響特徴量が生成されるかを決定する音響特徴量系列生成モデルを構築し、前記時間的順序付き音響特徴量系列のクラスタを時間的順序付き音響特徴量系列のクラスタ記憶部に記憶させ、前記音響特徴量系列生成モデルを音響特徴量系列生成モデル記憶部に記憶させる第2の学習ステップと、
前記ダンス語彙からの動作生成モデルと、前記時間的順序付き音響特徴量系列のクラスタと、前記前記音響特徴量系列のクラスタからの音響特徴量系列生成モデルとに基づいて、前記時間的順序付き音響特徴量系列のクラスタとダンス語彙の対応関係を分析して音楽とダンスの対応関係の確率モデルを構築する音楽とダンスの対応関係の確率モデルを構築確率モデル構築ステップと、
ダンスを生成したい楽曲の音楽音響信号の複数の音響特徴量の時系列データからなる音響特徴量系列と階層的ビート構造の時系列データを準備するダンス生成用データ準備ステップと、
前記ダンスを生成したい楽曲の音楽音響信号の複数の音響特徴量の時系列データからなる音響特徴量系列と前記階層的ビート構造の時系列データとに基づいて、前記音響特徴量系列を前記所定の分析区間における時間的順序付き音響特徴量系列の断片として切り出して複数の音響特徴量系列の断片を集め、該時間的順序付き複数の音響特徴量系列の断片と前記音楽とダンスの対応関係の確率モデルとに基づいて、尤度を考慮しながら前記複数の時間的順序付き音響特徴量系列の断片に対応したダンス語彙の系列を作成し、前記ダンス語彙の系列中の前記ダンス語彙ごとに前記ダンス語彙からの動作生成モデルに基づいて前記分析区間ごとのダンス動作の断片を生成し、生成した複数のダンス動作の断片に基づいて前記ダンスを生成したい楽曲の音楽音響信号に連動した複数のダンス動作を骨格モデルの変形の時系列データで表した複数のダンス動作時系列データとして出力するダンス動作データ生成ステップとからなるダンス動作データ作成方法。 - 前記所定の分析区間は、1小節以上2小節以下の分析区間であり、
前記所定の分析区間が1小節の長さからなるときには、前後二つの前記分析区間はオーバーラップせず、
前記所定の分析区間が1小節より長いときには、前後二つの前記分析区間は一部オーバーラップする請求項18に記載のダンス動作データ作成方法。 - 前記骨格モデルの変形の時系列データが、前記骨格モデルの位置座標とクォータニオンである請求項18に記載のダンス動作データ作成方法。
- 前記階層的ビート構造が、前記複数の音楽音響信号と前記ダンスを生成したい楽曲の音楽音響信号から分析される、複数の拍と小節線の時刻情報である請求項18に記載のダンス動作データ作成システム。
- 前記第1の学習ステップにおけるクラスタリングでは、前記複数のダンス動作の断片からガウシアンプロセスで前記ダンス語彙を決定し、前記ダンス語彙からの動作生成モデルを構築する請求項18に記載のダンス動作データ作成方法。
- 前記第1の学習ステップにおけるクラスタリングでは、ダンス動作の断片からなる複数個のダンス語彙に対応するクラスタごとにガウシアンプロセスでダンス語彙からの動作生成モデルを構築し、確率が最大となるように前記複数のダンス動作の断片を前記複数個のダンス語彙に対応するクラスタへ再配分するクラスタリングを所定回数繰り返して、前記複数のダンス語彙を決定し且つ前記ダンス語彙からのダンス動作の動作生成モデルを構築し、全ての前記ダンス動作の断片について、前記複数の語彙のいずれに属するものかを分析して前記分析結果を得るとともに、前記音楽音響信号のどの分析区間でどの前記ダンス語彙が出現するかの情報を得る請求項22に記載のダンス動作データ作成システム。
- 前記第2の学習ステップにおけるクラスタリングでは、複数の音響特徴量系列の断片からガウシアンプロセスで複数の音響特徴量系列のクラスタを決定し、音響特徴量系列のクラスタからの音響特徴量系列生成モデルを構築する請求項18に記載のダンス動作データ作成方法。
- 前記第2の学習ステップでは、前記複数の音響特徴量系列の断片からなる複数の時間的順序付き音響特徴量系列のクラスタごとにガウシアンプロセスで確率モデルを構築し、確率が最大となるように前記複数の音響特徴量系列の断片を前記複数の時間的順序付き音響特徴量系列のクラスタへ再配分するクラスタリングを所定回数繰り返して、前記複数の時間的順序付き音響特徴量系列のクラスタを決定し且つ前記複数の時間的順序付き音響特徴量系列のクラスタからの音響特徴量系列生成モデルを構築する請求項24に記載のダンス動作データ作成方法。
- 前記確率モデル構築ステップでは、前記複数の時間的順序付きダンス語彙と前記ダンス語彙からの動作生成モデルとに基づいて、すべての前記ダンス動作の断片について、どのダンス語彙であるかを分析し、どの楽曲のどの分析区間でどのダンス語彙が出現するかを決定し、隣り合う二つの前記ダンス語彙の遷移回数と前記ダンス語彙の出現回数と複数のダンス語彙からの動作生成モデルに基づいて設定するダンス動作の確率的生成モデルを構築して、ダンス動作の確率的生成モデル記憶部に記憶させるステップと、
どのダンス語彙のもとでどの音響特徴量系列のクラスタが観測されるかを分析して、その分析結果に基づいてあるダンス語彙のもとでどの音響特徴量系列のクラスタが観測されるかの確率モデルを構築し、前記ダンス動作の確率的生成モデル並びに前記音響特徴量の確率的生成モデル及びあるダンス語彙のもとでどの音響特徴量系列のクラスタが観測されるかの確率モデルに基づいて、前記音楽とダンスの対応関係の確率モデルを構築して、音楽とダンスの対応関係の確率モデル記憶部に記憶させるステップとにより構成されている請求項18に記載のダンス動作データ作成方法。 - 前記ダンス動作の確率的生成モデルステップ及び前記音楽とダンスの対応関係の確率モデルステップは、それぞれ隠れマルコフモデルを用いる請求項26に記載のダンス動作データ作成方法。
- 前記ダンス動作データ生成ステップは、前記音楽とダンスの対応関係の確率モデルに基づき、前記時間的順序付き音響特徴量系列の断片に対応したダンス語彙の系列を作成する請求項18に記載のダンス動作データ作成方法。
- 前記ダンス動作データ生成ステップは、前記音楽とダンスの対応関係の確率モデルに基づき、Viterbiアルゴリズムによって前記複数の音響特徴量系列の断片に対応したダンス語彙の尤度最大の系列を探索する請求項18に記載のダンス動作データ作成方法。
- 前記分析区間が1小節より長く2小節より短い場合において、時系列的に隣り合う2つの前記ダンス動作の断片同士でオーバーラップする1以上の拍のダンス動作を補間して、前記ダンスを生成したい楽曲の音楽音響信号に連動した時系列の前記複数のダンス動作時系列データとして出力する補間ステップをさらに備えている請求項18に記載のダンス動作データ作成方法。
- 前記補間ステップは、線形補間により時系列的に隣り合う2つの前記ダンス動作の断片同士でオーバーラップする1以上の拍のダンス動作を補間する請求項30に記載のダンス動作データ作成方法
- 前記ダンス動作データ生成ステップは、前記ダンス語彙からのダンス動作生成モデルに基づいてサンプリングを行って前記分析区間ごとのダンス動作の断片を生成する請求項18に記載のダンス動作データ作成方法。
- 前記ダンス動作データ生成ステップは、前記ダンス語彙からのダンス動作生成モデルをガウシアンプロセスで構築した場合において、前記ガウシアンプロセスの平均と分散に基づいて前記分析区間ごとのダンス動作の断片を生成する請求項18に記載のダンス動作データ作成方法。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
JP2014165591A JP6313159B2 (ja) | 2014-08-15 | 2014-08-15 | ダンス動作データ作成システム及びダンス動作データ作成方法 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
JP2014165591A JP6313159B2 (ja) | 2014-08-15 | 2014-08-15 | ダンス動作データ作成システム及びダンス動作データ作成方法 |
Publications (2)
Publication Number | Publication Date |
---|---|
JP2016041142A JP2016041142A (ja) | 2016-03-31 |
JP6313159B2 true JP6313159B2 (ja) | 2018-04-18 |
Family
ID=55591305
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
JP2014165591A Expired - Fee Related JP6313159B2 (ja) | 2014-08-15 | 2014-08-15 | ダンス動作データ作成システム及びダンス動作データ作成方法 |
Country Status (1)
Country | Link |
---|---|
JP (1) | JP6313159B2 (ja) |
Families Citing this family (16)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
JP6699677B2 (ja) * | 2018-02-06 | 2020-05-27 | ヤマハ株式会社 | 情報処理方法、情報処理装置およびプログラム |
JP7069768B2 (ja) * | 2018-02-06 | 2022-05-18 | ヤマハ株式会社 | 情報処理方法、情報処理装置およびプログラム |
KR102137112B1 (ko) * | 2018-10-29 | 2020-07-31 | 주식회사 액티브플러스 | 로봇 동작 제어 시스템 및 그 방법 |
CN110135303B (zh) * | 2019-04-30 | 2022-09-13 | 西安理工大学 | 一种舞蹈类非遗传承与交互学习的方法 |
JP2021033063A (ja) | 2019-08-23 | 2021-03-01 | 富士通株式会社 | 演算処理装置及び方法 |
CN110992449B (zh) * | 2019-11-29 | 2023-04-18 | 网易(杭州)网络有限公司 | 舞蹈动作合成方法、装置、设备及存储介质 |
CN110955786B (zh) * | 2019-11-29 | 2023-10-27 | 网易(杭州)网络有限公司 | 一种舞蹈动作数据的生成方法及装置 |
CN111080752B (zh) * | 2019-12-13 | 2023-08-22 | 北京达佳互联信息技术有限公司 | 基于音频的动作序列生成方法、装置以及电子设备 |
JP7060889B2 (ja) * | 2020-05-26 | 2022-04-27 | 株式会社コナミデジタルエンタテインメント | ゲームシステム、それに用いるコンピュータプログラム、及び制御方法 |
KR102192210B1 (ko) * | 2020-06-23 | 2020-12-16 | 인하대학교 산학협력단 | Lstm 기반 댄스 모션 생성 방법 및 장치 |
CN112365568A (zh) * | 2020-11-06 | 2021-02-12 | 广州小鹏汽车科技有限公司 | 音频处理方法、装置、电子设备和存储介质 |
WO2022201418A1 (ja) * | 2021-03-25 | 2022-09-29 | 日本電気株式会社 | 運動支援装置、運動支援方法及び記録媒体 |
KR102490769B1 (ko) * | 2021-04-22 | 2023-01-20 | 국민대학교산학협력단 | 음악적 요소를 이용한 인공지능 기반의 발레동작 평가 방법 및 장치 |
WO2022230177A1 (ja) * | 2021-04-30 | 2022-11-03 | 株式会社KPMG Ignition Tokyo | 管理装置及び管理方法 |
CN114211485B (zh) * | 2021-12-07 | 2024-05-17 | 深圳市优必选科技股份有限公司 | 机器人舞蹈控制方法、装置、机器人及存储介质 |
CN115712739B (zh) * | 2022-11-17 | 2024-03-26 | 腾讯音乐娱乐科技(深圳)有限公司 | 舞蹈动作生成方法、计算机设备及存储介质 |
-
2014
- 2014-08-15 JP JP2014165591A patent/JP6313159B2/ja not_active Expired - Fee Related
Also Published As
Publication number | Publication date |
---|---|
JP2016041142A (ja) | 2016-03-31 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
JP6313159B2 (ja) | ダンス動作データ作成システム及びダンス動作データ作成方法 | |
Alemi et al. | GrooveNet: Real-time music-driven dance movement generation using artificial neural networks | |
Fan et al. | Photo-real talking head with deep bidirectional LSTM | |
Smith et al. | Efficient neural networks for real-time motion style transfer | |
Liu et al. | Video-audio driven real-time facial animation | |
Ferstl et al. | Adversarial gesture generation with realistic gesture phasing | |
Lee et al. | Music similarity-based approach to generating dance motion sequence | |
Wang et al. | 3D human motion editing and synthesis: A survey | |
Duan et al. | Cascade attention guided residue learning gan for cross-modal translation | |
Aristidou et al. | Style-based motion analysis for dance composition | |
Liu et al. | Optimization-based key frame extraction for motion capture animation | |
Du et al. | Stylistic locomotion modeling and synthesis using variational generative models | |
CN114998984A (zh) | 一种基于多特征融合策略的音乐生成舞蹈姿势方法 | |
Mousas et al. | Real-time performance-driven finger motion synthesis | |
Ribet et al. | Survey on style in 3d human body motion: Taxonomy, data, recognition and its applications | |
Naert et al. | Coarticulation analysis for sign language synthesis | |
Fukayama et al. | Automated choreography synthesis using a Gaussian process leveraging consumer-generated dance motions | |
Roh et al. | Human gesture recognition using a simplified dynamic Bayesian network | |
Cai et al. | An automatic music-driven folk dance movements generation method based on sequence-to-sequence network | |
Yin et al. | Multimodal dance style transfer | |
CN116528016A (zh) | 音视频合成方法、服务器和可读存储介质 | |
Yang et al. | Keyframe control of music-driven 3d dance generation | |
Wu et al. | Music-to-dance generation with optimal transport | |
KR100463819B1 (ko) | 율동의 리듬분석방법, 연속성을 고려한 동작전이방법 및그를 이용한 비트분석 기반의 율동과 음악의 동기화방법 | |
Oliveira et al. | A parameterizable spatiotemporal representation of popular dance styles for humanoid dancing characters |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
A621 | Written request for application examination |
Free format text: JAPANESE INTERMEDIATE CODE: A621 Effective date: 20170316 |
|
TRDD | Decision of grant or rejection written | ||
A01 | Written decision to grant a patent or to grant a registration (utility model) |
Free format text: JAPANESE INTERMEDIATE CODE: A01 Effective date: 20180313 |
|
A61 | First payment of annual fees (during grant procedure) |
Free format text: JAPANESE INTERMEDIATE CODE: A61 Effective date: 20180322 |
|
R150 | Certificate of patent or registration of utility model |
Ref document number: 6313159 Country of ref document: JP Free format text: JAPANESE INTERMEDIATE CODE: R150 |
|
R250 | Receipt of annual fees |
Free format text: JAPANESE INTERMEDIATE CODE: R250 |
|
R250 | Receipt of annual fees |
Free format text: JAPANESE INTERMEDIATE CODE: R250 |
|
R250 | Receipt of annual fees |
Free format text: JAPANESE INTERMEDIATE CODE: R250 |
|
LAPS | Cancellation because of no payment of annual fees |