JP6150237B2

JP6150237B2 - 多角的歌声分析システム及び多角的歌声分析方法

Info

Publication number: JP6150237B2
Application number: JP2016503915A
Authority: JP
Inventors: 倫靖中野; 和佳吉井; 後藤　真孝; 真孝後藤
Original assignee: National Institute of Advanced Industrial Science and Technology AIST
Current assignee: National Institute of Advanced Industrial Science and Technology AIST
Priority date: 2014-02-21
Filing date: 2014-08-15
Publication date: 2017-06-21
Anticipated expiration: 2034-08-15
Also published as: US20170061988A1; JPWO2015125321A1; WO2015125321A1; US9747927B2

Description

本発明は、一つの楽曲中の歌声と、潜在的意味（トピック）において、何らかの関連を有する他の歌声を含む楽曲等を知る情報を得るのに利用可能な多角的歌声分析システム及び多角的歌声分析方法に関するものである。

楽曲にはジャンルやムードといった共通の特質を有する集合の概念（カテゴリー）がある。従来、音楽音響信号からのジャンル識別やムード推定が研究されてきた。歌声も同様に、その声質や歌い方に応じた何らかのカテゴリーを形成できると予想できる。例えば、同じ楽曲ジャンルの曲や同じ曲を、別の歌手が歌った場合であっても、歌い方（歌声の音色や音高・音量の変化）に違いを感じたり、逆に似ていると感じることがある。このような類似性において「どのように似ているのか」を説明することができれば、歌声に関する客観的理解を深めることを支援でき、音楽検索や音楽鑑賞、コミュニケーションの円滑化などに有用である。さらに、声質や歌い方に応じた何らかのカテゴリーを形成できれば、人間の音楽との関わり方の研究にも有用である。例えば、歌声の聴取印象の分析や、特定の状況や場における人の選曲分析などにおいて、歌声の特性を説明する手段として、声質や歌い方に応じた何らかのカテゴリーの分析を活用できる。

従来、歌声を特徴付けたり説明したりする方法には、声種や性別などに関する「歌手の特性」、歌声区間や歌声の基本周波数F0の軌跡のモデル化などに関する「歌い方の特性」、感情などに関する「聴取印象」、楽曲ジャンルや歌詞などに関する「楽曲の特性」の研究があった。

例えば、特開２００９−１２３１２４号公報（特許文献１）の発明では、声質が類似する歌声を含む未知の楽曲を検索するために、前述の特性の一部を利用している。

上記の特性に加えて、複数の歌声から分かるような、各歌声の潜在的な特性を分析する技術もいくつか提案されている。歌声の潜在的な特性を分析する従来の技術としては、以下のようなもの（非特許文献１乃至非特許文献７）がある。

特開２００９−１２３１２４号公報

特性が変更された音楽音響信号を用いた歌詞と旋律による楽曲検索［Brochu, E. and de Freitas, N.: "Name That Song!": A Probabilistic Approach to Querying on Music and Text, Proc. of NIPS2002 (2002)］低音旋律からのジャンル分類[上田雄，角尾衣未留，小野順貴，嵯峨山茂樹：低音旋律の潜在意味解析による音楽ジャンル分類，日本音響学会春季研究発表会講演集，pp. 875-876 (2009)] 潜在的ディリクレ配分法（LDA）による調推定[Hu, D. J. and Saul, L. K.: A Probabilistic Topic Model for Unsupervised Learning of Musical Key-Profiles, Proc.of ISMIR2009 (2009)及びHu, D. J. and Saul, L. K.: A Probabilistic Topic Model for Music Analysis, Proc. of NIPS-09 (2009)] 楽曲の音響特徴量とブログや歌詞の文字の対応付け[Takahashi, R., Ohishi, Y., Kitaoka, N., and Takeda, K.:Building and Combining Document and Music Spaces for Music Query-By-Webpage System, Proc. of Interspeech 2008, pp. 2020-2023 (2008)] ソーシャルタグによる楽曲推薦[Symeonidis, P., Ruxanda, M.M., Nanopoulos, A. and Manolopoulos, Y.: Ternary Semantic Analysis of Social Tags for Personalized Music Recommendation, Proc. Of ISMIR2008, pp. 219-224 (2008)] 階層ディリクレ過程（HDP）を用いた楽曲間類似度の推定[Hoffman, M., Blei, D. and Cook, P.: Content-Based Musical Similarity Computation Using the Hierarchical Dirichlet Process, Proc. of ISMIR2008 (2008)] 自己組織化マップ（SOM）に基づく楽曲のクラスタリング[Pampalk, E.: Islands of Music: Analysis, Organization and Visualization of Music Archives, Master’s thesis,Vienna University of Technology (2001)]

しかしながら潜在的な意味解析を用いて、歌声の声質や歌い方についての音響特徴量を対象とした技術は従来なかった。そのため従来は、潜在的意味（トピック）において、何らかの関連を有する他の歌声を含む楽曲等を知る情報を得ることができなかった。

本発明の目的は、歌声を含む楽曲の音楽音響信号から歌声特徴ベクトルを推定し、複数の歌声を含む楽曲について集めて、それらの推定結果をトピックモデルによって分析した結果を用いて、歌声を多角的に分析することにより、一つの楽曲中の歌声と、潜在的意味（トピック）において、何らかの関連を有する他の歌声を含む楽曲等を知る情報を得るのに利用可能な多角的歌声分析システム及び多角的歌声分析方法を提供することにある。

本発明の多角的歌声分析システムは、音楽音響信号生成部と、フレーム信号取得部と、歌声特徴ベクトル推定部と、分析適正区間推定部と、ベクトル離散化部と、トピック分析部と、歌声トピック分布保存部と、歌声シンボル分布保存部と、歌声多角的分析部とを備えている。

音楽音響信号生成部は、歌声を含む楽曲の音楽音響信号を対象として、音楽や歌声の特性が変更された１以上の変更された音楽音響信号を生成する。具体的に、音楽音響信号生成部は、音楽音響信号の音高をシフトして変更された音楽音響信号を生成することができる。また音楽音響信号生成部は、音楽音響信号のテンポをシフトして変更された音楽音響信号を生成することもできる。音楽音響信号生成部を設けると、例えば、男性の歌声の楽曲を女性の歌声の楽曲に似たものに変更することができる。その結果、音楽音響信号生成部を設けることにより、例えば１万曲の分析対象の音楽音響信号を、数万曲の音楽音響信号に増やすことができ、分析対象を簡単に増やすことができる。また潜在的な意味で関連する楽曲との遭遇が可能になる。このような未知の楽曲や実際には存在していない曲との遭遇は、従来の技術では発生し得ないものであった。

フレーム信号取得部は、音楽音響信号及び変更された音楽音響信号の一つに所定の窓関数を掛けて、音楽音響信号から複数のフレーム信号を時系列で取得する。使用する窓関数は任意であるが、分析に適した数のフレーム信号を取得できる窓関数を用いるのが好ましい。

歌声特徴ベクトル推定部は、音楽音響信号から取得した複数のフレーム信号ごとに、複数の歌声特徴ベクトルを推定する。歌声特徴ベクトルは、歌声に関するもので予め定めたものであり、例えば、前記歌声の線形予測メルケプストラム係数や、基本周波数（F0）の時間変化であるΔF0等を歌声特徴ベクトルとすることができるが、どのような歌声特徴ベクトルを用いるかは任意である。

分析適正区間推定部は、歌声特徴ベクトル推定部で推定した歌声特徴ベクトルから、フレーム信号の区間が分析に適正であるか否かを推定する。分析適正区間の推定技術は、公知のものを用いればよい。例えば、歌声区間を分析適正区間として推定することができる。分析適正区間における歌声特徴ベクトルを分析に用いるようにすれば、歌声の潜在的意味の分析精度を高めることができる。

ベクトル離散化部は、分析適正区間における複数の歌声特徴ベクトルを、離散化して、複数の歌声シンボルによって構成される歌声シンボル系列に変換する。離散化の方法は任意であるが、例えばk-means法により離散化を実施することができる。歌声特徴ベクトルは、アナログデータである。代表的な、潜在的な特性を分析する潜在的ディリクレ配分法（LDA）は、文章のような離散的なデータの解析のために開発されたものである。そのため、アナログデータをそのまま入力データとして潜在的ディリクレ配分法（LDA）を用いて解析することはできない。そこでベクトル離散化部は、アナログデータを文章のような離散的なデータとして扱えるように、複数の歌声特徴ベクトルを複数の歌声シンボルによって構成される歌声シンボル系列に変換する。

本願明細書において、「歌声シンボル」とは、Ｐ個のフレームにおけるそれぞれの特徴ベクトルを、Ｐよりも小さいＱ個のグループ（クラス）に分割した場合、それぞれのクラスを一つの歌声シンボルとして定義したものである。Ｐ及びＱは２以上の整数である。例えば、k-means法では、それぞれの歌声シンボルを代表する平均的な特徴ベクトルを推定し、Ｐ個の歌声特徴ベクトルはそれぞれ、Ｑ個の平均ベクトルからの距離を算出して、それが最も近い歌声シンボルを割り当てている。なお必ずしもＱ≦Ｐである必要はないが、k-means法を用いる現在の実装では、Ｑ≦Ｐである。

トピック分析部は、複数の歌声を含む楽曲の音楽音響信号及び複数の変更された音楽音響信号について得た複数の歌声シンボル系列を、トピックモデルによって分析する。そしてトピック分析部は、一つの音楽音響信号と他の音楽音響信号との関係性を示す複数の歌声トピックから構成される歌声トピック分布をすべての音楽音響信号について生成し、併せてすべての歌声トピックのそれぞれにおける複数の歌声シンボルの出現確率を示す複数の歌声シンボル分布を生成する。そして歌声シンボル分布保存部は、トピック分析部が生成した複数の歌声シンボル分布を保存する。また歌声トピック分布保存部は、トピック分析部が生成した複数の歌声トピック分布を保存する。

歌声トピック分布は、各曲の歌声が潜在意味（歌声トピック）に基づいて生成される過程を確率的に表現するのに利用される。なおトピックモデルを用いることにより、各歌声に内在する隠れた構造を抽出するとともに、歌声間の類似度を算出することもできる。本願明細書において、「歌声トピック」とは、Ｄ個（Ｄは２以上の整数）の歌声に共通する要因（Ｋ個）として定義される。これは、それぞれＮ個（Ｄ個の歌声全てのフレーム数の総数）の歌声シンボル（１〜Ｑのいずれか）の出現の仕方によって決まる。例えば予めＫ＝１００などとして歌声トピックを推定することができる。

歌声多角的分析部は、歌声トピック分布保存部に保存された複数の歌声トピック分布と歌声シンボル分布保存部に保存された複数の歌声シンボル分布に基づいて、複数の、歌声を含む楽曲の音楽音響信号及び複数の変更された音楽音響信号にそれぞれ含まれた歌声を多角的に分析する。歌声多角的分析部による分析手法は任意である。例えば、複数の楽曲間の歌声間類似度を表示部に表示するように歌声多角的分析部を構成することができる。また歌声多角的分析部は、歌声トピック分布と複数の歌声シンボル分布に基づいて複数の音楽音響信号に含まれる歌声及び変更された音楽音響信号に含まれる歌声が近いものであるかを分析するように構成することができる。

複数の音楽音響信号にはメタデータが付随していてもよい。この場合には、歌声多角的分析部は、分析結果を表示する際に、メタデータの少なくとも一部を分析結果に併せて表示部に表示することができる。このようにすると表示部にメタデータの一部が表示されることにより、観者がメタデータに含まれる情報を併せて認識することが可能になり、分析結果の活用度が向上する。

楽曲のメタデータとしての歌手名が音楽音響信号に付随している場合、歌声多角的分析部は、表示部に、分析結果と一緒に歌手名を表示することができる。例えば、歌声トピック分布や各トピックの歌声シンボル分布から、支配的な曲の歌手名をワードクラウドとして、分布上に占める割合の大きさが歌手名の大きさに比例するように提示することで、歌声やトピックの意味を可視化することが可能になる。このようにワードクラウド表示をすると、観者は歌手名から歌声の声質をイメージしながら、分析結果を見ることができるため、分析結果からより多くの潜在的意味を想像することができるようになる。

なおワードクラウド表示において、歌手名の位置と大きさにより、歌声の類似性を検索可能にしてもよい。歌手名の位置が、類似性に比例していれば、位置を見ることにより、例えば、一つの楽曲の歌声と似かよった歌声の曲の検索を容易に行えるようになる利点が得られる。この際、男女の名前が近接して表示された場合、性別を超えた類似歌手検索を実現することができる。さらに、トピック分布全体で歌声の類似性を算出した場合は、総合的な類似性を評価できるが、各トピックで類似性を算出すれば、歌声におけるある特性一つに着目した類似性判断になり、「どのように似ているのか」を分析しやすい利点がある。

本発明は、コンピュータを用いて実施する多角的歌声分析方法としても把握することができる。本発明の分析方法では、音楽音響信号生成ステップと、フレーム信号取得ステップと、歌声特徴ベクトル推定ステップと、分析適正区間推定ステップと、ベクトル離散化ステップと、トピック分析ステップと、歌声トピック分布保存ステップと、歌声シンボル分布保存ステップと、歌声多角的分析ステップとを備えている。音楽音響信号生成ステップでは、歌声を含む楽曲の音楽音響信号を対象として、音楽や歌声の特性が変更された１以上の変更された音楽音響信号を生成する。フレーム信号取得ステップでは、歌声を含む楽曲の音楽音響信号及び音楽や歌声の特性が変更された１以上の変更された音楽音響信号の一つに所定の窓関数を掛けて、音楽音響信号から複数のフレーム信号を時系列で取得する。歌声特徴ベクトル推定ステップでは、音楽音響信号から取得した複数のフレーム信号ごとに、複数の歌声特徴ベクトルを推定する。分析適正区間推定ステップでは、歌声特徴ベクトル推定ステップで推定した歌声特徴ベクトルから、フレーム信号の区間が分析に適した区間であるか否かを推定する。ベクトル離散化ステップでは、分析に適した区間における複数の歌声特徴ベクトルを、離散化して、複数の歌声シンボルによって構成される歌声シンボル系列に変換する。

トピック分析ステップでは、複数の前記歌声を含む楽曲の音楽音響信号及び複数の音楽や歌声の特性が変更された音楽音響信号について得た複数の歌声シンボル系列を、トピックモデルによって分析し、一つの音楽音響信号と他の音楽音響信号との関係性を示す複数の歌声トピックから構成される歌声トピック分布をすべての前記音楽音響信号について生成し、併せて、複数の歌声トピックのすべてについて複数の歌声シンボルの出現確率を示す歌声シンボル分布をそれぞれ生成する。歌声トピック分布保存ステップでは、トピック分析ステップで生成した複数の歌声トピック分布を歌声トピック分布保存部に保存する。歌声シンボル分布保存ステップでは、トピック分析ステップで生成した複数の歌声シンボル分布を歌声シンボル分布保存部に保存する。歌声多角的分析ステップでは、歌声トピック分布保存部に保存された複数の歌声トピック分布と歌声シンボル分布保存部に保存された複数の歌声シンボル分布に基づいて、複数の歌声を含む楽曲の音楽音響信号及び複数の変更された音楽音響信号にそれぞれ含まれた歌声を多角的に分析する。

本発明の、多角的歌声分析用プログラムは、本発明の方法をコンピュータで実施する場合に各ステップを実現するためのプログラムである。なおこのプログラムは、コンピュータ読み取り可能な記憶媒体に記憶される。

本発明の多角的歌声分析システムの一実施の形態の構成を示すブロック図である。本実施の形態をコンピュータを用いて実現する場合のアルゴリズムを示す図である。図２のアルゴリズムの理解を補助するための図である。図２のアルゴリズムの理解を補助するための図である。（Ａ）乃至（Ｆ）は、図１の多角的歌声分析システムのデータ処理の流れを説明するために用いる図である。潜在的ディリクレ配分法のグラフィカルモデルを示す図である。１０００回反復したトピック混合比の類似度行列（ハイパーパラメータαを更新しなかった場合）を示す図である。（Ａ）及び（Ｂ）は、一青窈と平井堅におけるそれぞれのトピックの混合比を示す図である。歌手クラウドの例を示す図である。歌手クラウドの例を示す図である。歌手クラウドの例を示す図である。歌手クラウドの例を示す図である。楽曲全てを用いた分析において、１０００回反復したトピック混合比の類似度行列（ハイパーパラメータαを更新しなかった場合）を示す図である。（Ａ）及び（Ｂ）は、図９の類似度行列に基づいて類似度の順位とその平均、逆順位とその平均を示す図である。楽曲全てを用いた分析において、３６曲（１２人×３曲）のそれぞれを検索クエリとして、クエリと同一曲及びその特性が変更された４９曲を除いた１７１５曲（１７６４−４９曲）中、それらに最も似ているとされた曲の歌手名の総数を示す図である。

以下図面を参照して本発明の実施の形態について詳細に説明する。図１は、本発明の多角的歌声分析システムの一実施の形態の構成を示すブロック図である。図２は本実施の形態をコンピュータを用いて実現する場合のアルゴリズムを示す図であり、図３（Ａ）及び図３（Ｂ）は図２のアルゴリズムの理解を補助するための図である。図４は、図１の多角的歌声分析システムのデータ処理の流れを説明するために用いる図である。この多角的歌声分析システムは、コンピュータを用いて実現される。したがって図１の各ブロックは、コンピュータプログラムがコンピュータにインストールされることによってコンピュータ内に実現される機能実現手段である。本実施の形態の多角的歌声分析システムは、音楽音響信号生成部１と、フレーム信号取得部２と、歌声特徴ベクトル推定部３と、分析適正区間推定部４と、ベクトル離散化部５と、トピック分析部６、歌声シンボル分布保存部７と、歌声トピック分布保存部８と、歌声多角的分析部９と、表示部１０とを機能実現手段として備えている。

音楽音響信号生成部１（音楽音響信号生成ステップＳＴ１）は、図３（Ａ）に示すように歌声を含む楽曲の音楽音響信号Ｓ１〜Ｓｎを対象として、音楽や歌声の特性が変更された１以上の変更された音楽音響信号Ｓ１´〜Ｓｎ´を生成する。具体的に、本実施の形態では、音楽音響信号生成部１は、音楽音響信号の音高をシフトして変更された音楽音響信号と、音楽音響信号のテンポをシフトして変更された音楽音響信号を、音楽や歌声の特性が変更された音楽音響信号Ｓ１´〜Ｓｎ´として生成する。なお歌声を含む楽曲の音楽音響信号Ｓ１〜Ｓｎ及び音楽や歌声の特性が変更された音楽音響信号Ｓ１´〜Ｓｎ´は、再生目的のために、図示しない信号記憶部に保存しておくのが好ましい。音楽音響信号生成部１を設けると、例えば、男性の歌声の楽曲を女性の歌声の楽曲に似たものに変更することができる。その結果、例えば１万曲の分析対象の音楽音響信号を、数万曲の音楽音響信号に増やすことができ、分析対象を簡単に増やすことができる。また潜在的な意味で関連する楽曲との遭遇が可能になる。このような未知の楽曲や実際には存在していない曲との遭遇は、従来の技術では発生し得ない。なお歌手の性別の違いによる声道長の違いによる影響を除去するために、信号処理的に音高シフトさせることで性別を超えた歌い方の分析を行うことができる。また、楽曲のテンポによる歌唱速度も、信号処理的にテンポシフトさせる処理を導入して違いを吸収することができる。

例えば、音楽音響信号生成部１では、短時間周波数分析の周波数軸方向へのシフトによって音高シフトを実現し、声道長を伸縮させたことに相当する歌声を生成する。また、WSOLA（Waveform Similarity Based Overlap-Add）アルゴリズムによってテンポシフトを実現し、速度を変更させた歌声を生成する。なおそのような歌声の生成には、公知の技術を使えばよく、例えばhttp://sox.sourceforge.net/を用いることができる。

フレーム信号取得部２（フレーム信号取得ステップ２）は、歌声を含む楽曲の音楽音響信号及び複数の音楽や歌声の特性が変更された音楽音響信号［図４（Ａ）参照］の一つに所定の窓関数［図４（Ｂ）］を掛けて、音楽音響信号から複数のフレーム信号［図４（Ｃ）］を時系列でサンプリング取得する。使用する窓関数は任意であるが、分析に適した数のフレーム信号を取得できる窓関数を用いるのが好ましい。なお具体的なフレーム信号のサンプリング間隔は、１０msec程度である。

歌声特徴ベクトル推定部３（歌声特徴ベクトル推定ステップＳＴ３）は、音楽音響信号から取得した複数のフレーム信号ごとに、複数の歌声特徴ベクトルを推定する［図４（Ｄ）参照］。歌声特徴ベクトルは、歌声に関するもので予め定めたものであり、本実施の形態では、歌声の線形予測メルケプストラム係数（１２次元）や、基本周波数（F0）の時間変化であるΔF0（１次元）を歌声特徴ベクトル（特徴量）とする。なおどのような歌声特徴ベクトルを用いるかは任意である。具体的な歌声特徴ベクトルの推定は、公知の能動的音楽鑑賞サービスのモジュールを用いて行った。このモジュールについては、後藤真孝，吉井和佳，藤原弘将，Mauch, M.，中野倫靖：Songle: ユーザが誤り訂正により貢献可能な能動的音楽鑑賞サービス，インタラクション2012 講演論文集，pp.1-8 (2012)に記載されている。具体的には、混合音中で最も優勢な音高を推定する手法PreFEst ［Goto, M.: A Real-time Music Scene Description System:Predominant-F0 Estimation for Detecting Melody and Bass Lines in Real-world Audio Signals, Speech Communication,Vol. 43, No. 4, pp. 311-329 (2004).29］によってボーカルのメロディーを推定する。そして歌声・非歌声ＧＭＭを用いた高信頼度フレーム選択によって、歌声らしさが高いフレーム信号を選択し、ＬＰＭＣＣとΔF0を歌声特徴ベクトルとして推定した［Fujihara, H., Goto, M., Kitahara, T. and Okuno, H. G.:A Modeling of Singing Voice Robust to Accompaniment Sounds and Its Application to Singer Identification and Vocal-Timbre-SimilarityBased Music Information Retrieval, IEEE Trans. on ASLP, Vol. 18, No. 3,pp. 638-648 (2010).26］。最後に、全歌声特徴ベクトルについて、次元毎に平均を引いて標準偏差で割る正規化を行った。ここで、ある歌手が別の歌手の歌い方を真似る際にもスペクトル包絡形状が変化すると報告されている［鈴木千文，坂野秀樹，板倉文忠，森勢将雅：歌唱音声の類似度評価を目的とした声質に関する音声特徴量の提案，電子情報通信学会技術研究報告SP，Vol. 111, No. 364, pp.79-84（2011）及び齋藤毅，榊原健一：歌唱時の物真似による音響特徴の変化，聴覚研究会資料（2011）.］ことから、ＬＰＭＣＣのようなスペクトル包絡に関する歌声特徴ベクトルは、歌手同定に重要であるだけでなく、「歌い方」を議論する上でも同様に重要な特徴量であると考えられる。なおここまでの処理は、図２のステップ（ＳＴ１）で実行される。

分析適正区間推定部４（分析適正区間推定ステップＳＴ４）は、歌声特徴ベクトル推定部３で推定した歌声特徴ベクトルから、フレーム信号の区間が歌声トピック分析に適した適正な区間であるか否かを推定する。例えば、伴奏だけの区間のように、歌声が含まれていない区間や、伴奏が非常に大きい区間は、分析には適さない区間である。分析適正区間の推定技術は、公知のものを用いればよい。例えば、歌声区間を分析適正区間として推定して、歌声区間における歌声特徴ベクトルを分析に用いるようにすれば、歌声の潜在的意味の分析精度を高めることができる。歌声区間（適正区間）の推定の一例については、特開２００９−１２３１２４号公報に詳しく説明されている。図４（Ｅ）には、歌声らしい区間を適正区間と判断して「○印」を付してあり、歌声らしくない区間を不適正区間と判断して「×印」を付してある。なおこの処理は、図２及び図３（Ａ）のステップＳＴ４で実行される。

ベクトル離散化部５（ベクトル離散化ステップＳＴ５）は、分析適正区間における複数の歌声特徴ベクトルを、離散化して、複数の歌声シンボルによって構成される歌声シンボル系列に変換する［図２及び図３（Ａ）のステップＳＴ５］。離散化の方法は任意であるが、本実施の形態では、k-means法（k-meansアルゴリズム）により離散化を実施する。歌声特徴ベクトルは、アナログデータである。代表的な、潜在的な特性を分析する潜在的ディリクレ配分法（LDA）は、文章のような離散的なデータ解析のために開発されたものである。そのため、アナログデータをそのまま入力データとして潜在的ディリクレ配分法（LDA）を用いて解析することはできない。そこでベクトル離散化部５は、アナログデータを文章のような離散的なデータとして扱えるように、複数の歌声特徴ベクトルを複数の歌声シンボルによって構成される歌声シンボル系列に変換する。図４（Ｆ）は、歌声シンボル系列の例を示している。なお図４（Ｆ）において、「シンボル１」、「シンボル２」等は、グループまたはクラスを識別できる予め定めた符号、記号等によって表される。ここで歌声シンボルとは、Ｐ個のフレーム信号におけるそれぞれの特徴ベクトルを、Ｐよりも小さいＱ個のグループ（クラス）に分割した場合、それぞれのクラスを一つの歌声シンボルとして定義したものである。なおＰ及びＱは２以上の整数である。なおＮ及びＭは、正の整数である。例えば、k-means法では、それぞれの歌声シンボルを代表する平均的な特徴ベクトルを推定し、Ｐ個の歌声特徴ベクトルはそれぞれ、Ｑ個の平均ベクトルからの距離を算出して、それが最も近い歌声シンボルを割り当てている。なお必ずしもＱ≦Ｐである必要はないが、k-means法を用いる現在の実装では、Ｑ≦Ｐである。

トピック分析部６は、複数の歌声を含む楽曲の音楽音響信号及び複数の変更された音楽音響信号について得た複数の歌声シンボル系列を、トピックモデルすなわち潜在的ディリクレ配分法（Latent Dirichlet Allocation: LDA）によってトピック分析する［図２及び図３（Ａ）のステップＳＴ６］。本実施の形態で用いた潜在的ディリクレ配分法については、「Blei, D. M., Ng, A. Y. and Jordan, M. I.: Latent Dirichlet Allocation, Journal of Machine Learning Research,Vol. 3, pp. 993-1022 (2003).」に詳しく記載されている。トピック分析部６は、一つの音楽音響信号と他の音楽音響信号との関係性を示す複数の歌声トピックから構成される歌声トピック分布をすべての音楽音響信号について生成する。なお「歌声トピック」とは、Ｄ個の歌声に共通する要因（Ｋ個）として定義される。これは、それぞれＮ個（Ｄ個の歌声全てのフレーム数の総数）の歌声シンボル（１〜Ｑのいずれか）の出現の仕方によって決まる。例えば予めＫ＝１００などとして歌声トピックを推定する。

図３（Ｂ）のステップＳＴ７では、歌声トピック分布保存部８に保存する歌声トピック分布の生成結果の一例を図で示す。歌声トピック分布は、音楽音響信号に含まれる歌声の複数の歌声トピック（横軸）とそれらの混合比（縦軸）として、各音楽音響信号ごとに１つ生成される。したがって１万曲の音楽音響信号が分析対象としてあれば、１万の歌声トピック分布が生成される。またトピック分析部６は、歌声トピック分布の生成と併せてすべての歌声トピックのそれぞれにおける複数の歌声シンボルの出現確率を示す複数の歌声シンボル分布を生成し、歌声シンボル分布保存部７に歌声シンボル分布を保存する［図３（Ｂ）のステップＳＴ８］。図３（Ｂ）のステップＳＴ８に示すように、歌声シンボル分布は、１つの歌声トピックについて、複数の歌声シンボル（横軸）が出現する出現確率（縦軸）を示すものである。したがって複数の歌声トピックに対応して複数の歌声シンボル分布が生成されることになる。例えば、生成された複数の歌声シンボル分布同士を比較することにより、歌声トピック間の類似度を知ることができる。なお歌声シンボル分布保存部７（歌声シンボル分布保存ステップＳＴ７）は、トピック分析部６が生成した複数の歌声シンボル分布を保存する。また歌声トピック分布保存部８（歌声トピック分布保存ステップＳＴ８）は、トピック分析部６が生成した複数の歌声トピック分布を保存する。

ここで潜在的ディリクレ配分法（LDA）を利用した分析について、詳細に説明する。潜在的ディリクレ配分法におけるモデル学習用のデータとしてＤ個の独立した歌声X = {X₁, ...,X_D} を考える。ここでX₁は１個目の歌声シンボル系列であり、X_DはＤ個目の歌声シンボル系列である。ここで扱う歌声は、離散化された歌声シンボル系列であるため、通常の潜在的ディリクレ配分法により歌声を分析できる。

歌声X_d は、N_d個の歌声シンボルによって構成される歌声シンボル系列であり、X_d = {x_d,1, ..., x_d,Nd} で構成されている。ここでx_d,1は１個目の歌声シンボルの出現確率であり、x_d,NdはN_d個目の歌声シンボルの出現確率である。歌声シンボルの語彙サイズＶは、k-means法におけるクラスタ数に相当し、x_d,nは語彙中から選ばれた歌声シンボルに対応する次元のみが１で他は０であるＶ次元ベクトルとなる。

歌声X_d に対応する潜在変数系列（歌声トピック分布）をZ_d = {z_d,1, ..., z_d,Nd} とする。トピック数をＫとすると、z_d,nは選ばれたトピックに対応する次元（混合比）のみが１で他は０であるＫ次元のベクトルで表せる。ここで、全歌声の潜在変数系列（歌声トピック分布）をまとめてZ = {Z₁, ...,Z_D} としておく。このとき、グラフィカルモデル（図５）から変数間の条件つき独立性を考慮すると、完全な同時分布は

として与えられる。ここで、πは歌声トピック分布であり、各歌声の歌声トピックの混合比（Ｄ個のＫ次元ベクトル）であり、φは各トピックにおけるユニグラム確率（Ｋ個のＶ次元ベクトル）すなわち歌声シンボルの出現確率を示す歌声シンボル分布である。

最初の二項には多項分布に基づく離散分布を仮定する。

残りの二項には、多項分布の共役事前分布であるディリクレ分布を仮定する。

ここで、α⁽⁰⁾及びβ⁽⁰⁾はハイパーパラメータ、C(α⁽⁰⁾)及びC(β⁽⁰⁾) はディリクレ分布の正規化定数であり、

である。

歌声多角的分析部９（歌声多角的分析ステップＳＴ９）は、歌声トピック分布保存部８に保存された複数の歌声トピック分布と歌声シンボル分布保存部７に保存された複数の歌声シンボル分布に基づいて、複数の、歌声を含む楽曲の音楽音響信号及び複数の変更された音楽音響信号に含まれた歌声を多角的に分析する（図２のステップＳＴ７）。歌声多角的分析部９による分析手法は任意である。例えば、複数の楽曲間の歌声間類似度を表示部１０に表示するように歌声多角的分析部９を構成することができる。また歌声多角的分析部９は、歌声トピック分布と複数の歌声シンボル分布に基づいて複数の音楽音響信号に含まれる歌声及び変更された音楽音響信号に含まれる歌声が近いものであるかを分析するように構成することができる。

複数の音楽音響信号にはメタデータが付随していてもよい。この場合には、歌声多角的分析部９は、分析結果を表示する際に、メタデータの少なくとも一部を分析結果に併せて表示部１０に表示することができる。このようにすると表示部にメタデータの一部が表示されることにより、観者がメタデータに含まれる情報を併せて認識することが可能になり、分析結果の活用度が向上する。図３のステップＳＴ９には、表示部１０に表示した分析結果の一例を示している。この例は、楽曲のメタデータとしての歌手名が音楽音響信号に付随している場合である。この例では、歌声多角的分析部９は、表示部１０に、分析結果と一緒に歌手名を用いてワードクラウド表示している。すなわち、歌声トピック分布や各トピックの歌声シンボル分布から、支配的な曲の歌手名をワードクラウドとして、分布上に占める割合の大きさが歌手名の大きさに比例するように表示することで、歌声やトピックの意味を可視化することが可能になる。このようにワードクラウド表示をすると、観者は歌手名から歌声の声質をイメージしながら、分析結果を見ることができるため、分析結果からより多くの潜在的意味を想像することができるようになる。

例えば、ワードクラウド表示において、歌手名の位置が、類似性に比例していれば、位置を見ることにより、例えば、一つの楽曲の歌声と似かよった歌声の曲の検索を容易に行えるようになる利点が得られる。この際、男女の名前が近接して表示された場合、性別を超えた類似歌手検索を実現することができる。さらに、トピック分布全体で歌声の類似性を算出した場合は、総合的な類似性を評価できるが、各トピックで類似性を算出すれば、歌声におけるある特性一つに着目した類似性判断になり、「どのように似ているのか」を分析しやすい利点がある。

［実施例］
以下本発明を適用して多角的歌声分析を行った実施例について説明する。この実施例では、歌声を含む音楽音響信号を全て１６kHzのモノラル信号に変換し、表１に示した楽曲を用いて分析した。

これは、日本の音楽チャートであるオリコン（http:www.oricon.co.jp/）で２０００〜２００８年までの上位２０位以内に登場した楽曲の中から、ボーカルが一人のアーティストを男女６アーティストずつ選び、それぞれのアーティストの曲から３曲ずつを選んだ。そして選んだ各曲について、音高シフトを−３〜＋３半音を１半音単位でシフトして７種類の特性が変更された音楽音響信号を生成した。また選んだ各曲について、テンポシフトを０．７〜１．３倍速を０．１倍速単位でシフトして７種類の特性が変更された音楽音響信号をそれぞれ生成した。従って、一つの歌声から音高とテンポをそれぞれシフトさせた４９（＝７×７）曲の歌声を生成し、合計でＤ＝１７６４(＝４９×３×１２)曲を解析対象として用いた。歌声特徴ベクトル（歌声特徴量）は、楽曲の冒頭１分間のうち、歌声らしさが高い上位１５％のフレーム信号から推定し、クラスタ数Ｖ＝１００としてk-means 法によるクラスタリングを行った。潜在的ディリクレ配分法の学習においては、トピック数をｋ＝１００として、周辺化Gibbsサンプラーを用いて学習を行った。ハイパーパラメータα⁽⁰⁾については初期値をすべて１として、ハイパーパラメータβ⁽⁰⁾の値はすべて０．１とした。

上述のような歌声データから学習された潜在的ディリクレ配分法のトピックモデルの正当性を確認するために、推定された歌声トピックの混合比に基づいた歌声間類似度を確認した。ここでは、音高シフトやテンポシフトを行わない３６（＝１２×３）曲について、類似度が高い上位３曲について黒く塗りつぶした図を図６に示した。図６の例は、１０００回反復してハイパーパラメータα⁽⁰⁾を更新しなかった場合の結果を示している。

ここで、歌声Ａにおける歌声トピックの混合比をπＡ、歌声Ｂにおける歌声トピックの混合比をπＢとしたとき、下記（７）式に示す対称カルバック・ライブラ距離（symmetric Kullback Leibler distance, KL2）を算出し、その逆数を類似度とした。

ただし、πＡ、πＢはそれぞれ下記（８）式に示す通り正規化して、確率分布として扱う。

他にも、確率分布間の距離尺度としてEMD （Earth Mover's Distance）等も利用可能である。EMDを用いる場合は、各トピックの歌声トピックの混合比πＡおよびπＢで与えることができ、各トピックの歌声シンボル分布間の距離は、カルバック・ライブラ情報量（Kullback-Leibler divergence）で算出できる。EMDについては、「Y. Rubner, C. Tomasi, and L. J. Guibas. A Metric for Distributions with Applications to Image Databases. Proceedings of the 1998 IEEE International Conference on Computer Vision, Bombay, India, January 1998, pp. 59-66. ［ICCV1998Rubner.pdf］」に詳しく記載されている。

図６からは、同一アーティストの曲のみが主に黒く塗りつぶされていて（類似度が上位３位以内）、同一アーティスト間では歌声トピックの混合比が類似していることが分かる。これによって潜在的ディリクレ配分法（LDA）が適切に動作していることが判る。この結果から、歌声特徴ベクトル（歌声特徴量）を潜在的ディリクレ配分法でトピック分析することで得られる各歌声における歌声トピックの混合比は、歌手名同定に適用できる可能性があるといえる。

[歌声トピックモデルを活用する２つの手法について]
上記のようにして学習した潜在的ディリクレ配分法（歌声トピック分析）を用いる本発明の実施例は、歌手名同定に有用である。しかしながら本発明の多角的歌声分析システムは、上記の実施例に限定されるものではない。

別の分析手法としては、音高シフトやテンポシフトした歌声を含めて歌手名同定を行う、速度の違いを抑制した「性別を超えた類似歌声検索」がある。また、更に別の分析手法としては、各歌声トピックの意味を単語クラウドによって可視化する「歌声トピックの可視化」であり、自分好みの歌声トピックを見つけることを支援する。歌声トピックの意味が分かれば、上記式(７)の類似度算出において特定の歌声トピックに重みをかけて類似歌手を検索する等の応用が可能になる。

[性別を超えた類似歌声検索手法の実施例]
検索対象の楽曲を音高シフトとテンポシフトによって「仮想的に増やす」ことで、速度の違いを吸収して、性別を超えた類似歌声の検索が可能にした。検索対象が増える以外は、最初の実施例と同様に、歌声トピックの混合比間の類似度を計算すれば良い。表２に、表１のそれぞれの歌声を検索クエリとして、自身以外で最も類似度が高かった歌手ＩＤと、その音高シフト及びテンポシフトの値を示す。

表２において、下線は異性同士で顕著に似ていた歌手同士、太字は同性同士で顕著に似ていた歌手同士を示す。この表２からは、「平井堅（M6）を２〜３半音上げるか、一青窈（F3）を２〜３半音下げると、お互いに類似している」ことや、「東京事変（F4）を０〜１半音上げて０．７〜０．８倍速にするか、矢井田瞳（F6）を０〜１半音上げて１．１〜１．３倍速にすると、お互いに類似している。」ことが分かる。実際の聴取印象もそのようであった。また、特に平井堅と一青窈とが、３半音程度の音高シフトで類似することは一般的によく知られた事例であるため、それが確認できた点からも手法の有効性を確認できた。ここで、図７に一青窈の歌声「もらい泣き」と、それに最も類似していた平井堅の歌声「思いがかさなるその前に…」を３半音上げて１．１倍速した歌声について、それぞれトピックの混合比を示す。両者共にトピック２８，３２，８２に関する特性の歌声だということが分かる。

[単語クラウドによる曲とトピックの可視化手法の実施例]
各歌声における混合比π_dkは、Ｄ個（歌声数）のＫ次元ベクトル（トピック数）であり、「各歌声ｄにおける支配的な歌声トピックｋが分かる」ことを意味する。本実施例では、この性質を利用して歌手の同定や類似歌手の検索を行った。しかし、図７に示したように歌声トピックの混合比だけでは、それぞれの歌声トピックの意味が分からない場合がある。そこで逆に「歌声トピックの混合比から各歌声トピックｋにおける支配的な歌声ｄが分かる」ことを考えて、本実施例では、各トピックの意味を可視化する。ここで本実施例では、ウェブサイト上で使用されるタグ等の単語を視覚的に記述する手法一つである「ワードクラウド」を応用し、各トピックに支配的な歌手ほど大きく表示する「歌手クラウド」によってトピックの意味を図８（Ａ）乃至（Ｄ）のように提示するこのように表示すると、歌手名の羅列に比べて一覧性が高くて有用である。図８（Ａ）乃至（Ｄ）では、同じ曲について歌声トピックの混合比を足し合わせ（音高とテンポの違いを無視）、その値に応じて歌手名のサイズを変えて生成した。図８（Ａ）からは、類似性が高かったトピック２８は一青窈（Hitoto Yo）の歌声が支配的であった。次いで図８（Ｂ）及び（Ｃ）に示すように、類似性が高かったトピック３２や８２は、宇多田ヒカル（Utada Hikaru）の歌声や東京事変（Tokyo Jihen）、矢井田瞳（Yaida Hitomi）などの歌声のような特性を持っていることが分かる。逆に、図８（Ｄ）に示す、一青窈（Hitoto Yo）の歌声にしか現れなかったトピック２３は、一青窈（Hitoto Yo）の歌声に加え「ASIAN KUNG-FU GENERATION、JUDY AND MARY、aiko」などといった、前者と異なった歌声の特性を持っていると推測できる。このような歌手クラウドは、データセットを増やすことで、視覚的な印象が変わってくる。

以上の説明では、「楽曲の冒頭１分間」を用いた分析結果であるが、「楽曲全て」を用いると推定精度はさらに向上する。

図９に、楽曲全てを用いた結果について、図６と同様に、類似度が高い上位３曲について黒く塗りつぶした図を示す。図９の例でも、１０００回反復してハイパーパラメータα⁽⁰⁾を更新しなかった場合の結果を示している。図６では、同一アーティストの曲を検索クエリとして、その上位３曲にそのアーティストと別のアーティストの曲が含まれた数は３０であったが、図９では１７であり、同一アーティスト間の類似度をより高く推定できたことがわかる。すなわち、歌声間類似度がより精度よく推定できた。

図１０は、図９をより定量的に評価した結果である。あるアーティストの曲を検索クエリとして、それと同じアーティストの別の曲（２曲）の順位のうち、高い順位とその平均を図１０（Ａ）に示し、それらの順位の逆数（逆順位）とその平均（平均逆順位：MRR）を図１０（Ｂ）に示す。平均逆順位が１に近いほど、検索性能が高いことを意味する。

図１１は、楽曲全てを用いた分析において、表２をより定量的に評価した結果である。表２では、あるアーティストの曲を検索クエリとして、それぞれの検索クエリに最も似ているとして検索された曲（最も類似度が高い曲）の歌手名を示していたが、図１１ではＤ＝１７６４の全てを検索クエリとして、それらに最も似ているとされた曲の歌手名の総数を示している。

個々の歌声をモデル化したり、分析する発明が多くある中で、本発明によれば、複数の歌声から分かる潜在的な特性を分析することができる。

１音楽音響信号生成部
２フレーム信号取得部
３歌声特徴ベクトル推定部
４分析適正区間推定部
５ベクトル離散化部
６トピック分析部
７歌声シンボル分布保存部
８歌声トピック分布保存部
９歌声多角的分析部
１０表示部

Claims

歌声を含む楽曲の音楽音響信号を対象として、音楽や歌声の特性が変更された１以上の変更された音楽音響信号を生成する音楽音響信号生成部と、
前記歌声を含む楽曲の音楽音響信号及び前記音楽や歌声の特性が変更された１以上の変更された音楽音響信号の一つに所定の窓関数を掛けて、前記音楽音響信号から複数のフレーム信号を時系列で取得するフレーム信号取得部と、
前記音楽音響信号から取得した前記複数のフレーム信号ごとに、複数の歌声特徴ベクトルを推定する歌声特徴ベクトル推定部と、
前記歌声特徴ベクトル推定部で推定した前記歌声特徴ベクトルから、前記フレーム信号の区間が分析に適した区間であるか否かを推定する分析適正区間推定部と、
前記分析に適した区間における前記複数の歌声特徴ベクトルを、離散化して、複数の歌声シンボルによって構成される歌声シンボル系列に変換するベクトル離散化部と、
複数の前記歌声を含む楽曲の音楽音響信号及び複数の前記音楽や歌声の特性が変更された音楽音響信号について得た複数の前記歌声シンボル系列を、トピックモデルによって分析し、一つの前記音楽音響信号と他の前記音楽音響信号との関係性を示す複数の歌声トピックから構成される歌声トピック分布をすべての前記音楽音響信号について生成し、併せて、前記複数の歌声トピックのすべてについて前記複数の歌声シンボルの出現確率を示す歌声シンボル分布をそれぞれ生成するトピック分析部と、
前記トピック分析部が生成した前記複数の歌声トピック分布を保存する歌声トピック分布保存部と、
前記トピック分析部が生成した複数の前記歌声シンボル分布を保存する歌声シンボル分布保存部と、
前記歌声トピック分布保存部に保存された前記複数の歌声トピック分布と前記歌声シンボル分布保存部に保存された前記複数の歌声シンボル分布に基づいて、複数の前記歌声を含む楽曲の音楽音響信号及び複数の前記変更された音楽音響信号にそれぞれ含まれた歌声を多角的に分析する歌声多角的分析部とを備えている多角的歌声分析システム。
前記歌声多角的分析部は、前記複数の楽曲間の歌声間類似度を表示部に表示する請求項１に記載の多角的歌声分析システム。
前記歌声多角的分析部は、前記歌声トピック分布と前記複数の歌声シンボル分布に基づいて複数の前記音楽音響信号に含まれる歌声及び前記変更された音楽音響信号に含まれる歌声が近いものであるかを分析するように構成されている請求項１に記載の多角的歌声分析システム。
前記複数の音楽音響信号にはメタデータが付随しており、
前記歌声多角的分析部は、分析結果を表示する際に、前記メタデータの少なくとも一部を分析結果に併せて表示部に表示する請求項１に記載の多角的歌声分析システム。
前記音楽音響信号生成部は、前記音楽音響信号の音高をシフトして前記変更された音楽音響信号を生成する請求項１に記載の多角的歌声分析システム。
前記音楽音響信号生成部は、前記音楽音響信号のテンポをシフトして前記変更された音楽音響信号を生成する請求項１に記載の多角的歌声分析システム。
前記分析適正区間推定部は、歌声区間を前記分析に適した区間として推定する請求項１に記載の多角的歌声分析システム。
前記歌声特徴ベクトルが、前記歌声の線形予測メルケプストラム係数とΔF0である請求項１に記載の多角的歌声分析システム。
前記ベクトル離散化部は、k-means法等のクラスタリング法により離散化を実施する請求項１に記載の多角的歌声分析システム。
前記楽曲のメタデータとしての歌手名が前記音楽音響信号に付随しており、
前記歌声多角的分析部は、前記表示部に、前記分析結果と一緒に前記歌手名を用いてワードクラウド表示する請求項２に記載の多角的歌声分析システム。
前記ワードクラウド表示において、前記歌手名の位置と大きさにより、歌手の類似性を検索可能にした請求項１０に記載の多角的歌声分析システム。
歌声を含む楽曲の音楽音響信号を対象として、音楽や歌声の特性が変更された１以上の変更された音楽音響信号を生成する音楽音響信号生成ステップと、
前記歌声を含む楽曲の音楽音響信号及び前記音楽や歌声の特性が変更された１以上の変更された音楽音響信号の一つに所定の窓関数を掛けて、前記音楽音響信号から複数のフレーム信号を時系列で取得するフレーム信号取得ステップと、
前記音楽音響信号から取得した前記複数のフレーム信号ごとに、複数の歌声特徴ベクトルを推定する歌声特徴ベクトル推定ステップと、
前記歌声特徴ベクトル推定ステップで推定した前記歌声特徴ベクトルから、前記フレーム信号の区間が分析に適した区間であるか否かを推定する分析適正区間推定ステップと、
前記分析に適した区間における前記複数の歌声特徴ベクトルを、離散化して、複数の歌声シンボルによって構成される歌声シンボル系列に変換するベクトル離散化ステップと、
複数の前記歌声を含む楽曲の音楽音響信号及び複数の前記音楽や歌声の特性が変更された音楽音響信号について得た複数の前記歌声シンボル系列を、トピックモデルによって分析し、一つの前記音楽音響信号と他の前記音楽音響信号との関係性を示す複数の歌声トピックから構成される歌声トピック分布をすべての前記音楽音響信号について生成し、併せて、前記複数の歌声トピックのすべてについて前記複数の歌声シンボルの出現確率を示す歌声シンボル分布をそれぞれ生成するトピック分析ステップと、
前記トピック分析ステップで生成した前記複数の歌声トピック分布を歌声トピック分布保存部に保存する歌声トピック分布保存ステップと、
前記トピック分析ステップで生成した複数の前記歌声シンボル分布を歌声シンボル分布保存部に保存する歌声シンボル分布保存ステップと、
前記歌声トピック分布保存部に保存された前記複数の歌声トピック分布と前記歌声シンボル分布保存部に保存された前記複数の歌声シンボル分布に基づいて、複数の前記歌声を含む楽曲の音楽音響信号及び複数の前記変更された音楽音響信号にそれぞれ含まれた歌声を多角的に分析する歌声多角的分析ステップとをコンピュータを用いて実施することを特徴とする多角的歌声分析方法。
前記歌声多角的分析ステップでは、前記複数の楽曲間の歌声間類似度を表示部に表示する請求項１２に記載の多角的歌声分析方法。
前記歌声多角的分析ステップでは、前記歌声トピック分布と前記複数の歌声シンボル分布に基づいて複数の前記音楽音響信号に含まれる歌声及び前記変更された音楽音響信号に含まれる歌声が近いものであるかを分析するように構成されている請求項１２に記載の多角的歌声分析方法。
前記複数の音楽音響信号にはメタデータが付随しており、
前記歌声多角的分析ステップでは、分析結果を表示する際に、前記メタデータの少なくとも一部を分析結果に併せて表示部に表示する請求項１２に記載の多角的歌声分析方法。
前記音楽音響信号生成ステップでは、前記音楽音響信号の音高をシフトして前記変更された音楽音響信号を生成する請求項１２に記載の多角的歌声分析方法。
前記音楽音響信号生成ステップでは、前記音楽音響信号のテンポをシフトして前記変更された音楽音響信号を生成する請求項１２に記載の多角的歌声分析方法。
前記分析適正区間推定ステップでは、歌声区間を前記分析に適した区間として推定する請求項１２に記載の多角的歌声分析方法。
前記歌声特徴ベクトルが、前記歌声の線形予測メルケプストラム係数とΔF0である請求項１２に記載の多角的歌声分析方法。
前記ベクトル離散化ステップでは、k-means法等のクラスタリング法により離散化を実施する請求項１２に記載の多角的歌声分析方法。
前記楽曲のメタデータとしての歌手名が前記音楽音響信号に付随しており、
前記歌声多角的分析ステップでは、前記表示部に、前記分析結果と一緒に前記歌手名を用いてワードクラウド表示する請求項１５に記載の多角的歌声分析方法。
前記ワードクラウド表示において、前記歌手名の位置と大きさにより、歌手の類似性を検索可能にした請求項２１に記載の多角的歌声分析方法。