JP6977818B2

JP6977818B2 - 音声合成方法、音声合成システムおよびプログラム

Info

Publication number: JP6977818B2
Application number: JP2020114265A
Authority: JP
Inventors: 竜之介大道; 正宏清水
Original assignee: Yamaha Corp
Current assignee: Yamaha Corp
Priority date: 2017-11-29
Filing date: 2020-07-01
Publication date: 2021-12-08
Anticipated expiration: 2037-11-29
Also published as: JP2020166299A

Description

本発明は、音声を合成する技術に関する。

任意の音韻の音声を合成する各種の音声合成技術が従来から提案されている。例えば非特許文献１には、ニューラルネットワークを利用して歌唱音声を合成する技術が開示されている。非特許文献１の技術では、楽曲の音符毎に音高と音韻と発音期間とを指定する制御データをニューラルネットワークに入力することで、調波成分の周波数スペクトルの時系列と非調波成分の周波数スペクトルの時系列とが生成される。調波成分の周波数スペクトルと非調波成分の周波数スペクトルとを合成することで、歌唱音声の波形を表す時間領域の音声信号が生成される。

Merlijn Blaauw, Jordi Bonada, "A NEURAL PARAMETRIC SINGING SYNTHESIZER," arXiv, 2017.4.12

非特許文献１の技術では、歌唱音声の調波成分については聴感的に自然な音声を生成できるものの、気息成分または摩擦音等の非調波成分については聴感的に自然な音声を生成することが困難であるという問題がある。以上の事情を考慮して、本発明は、調波成分および非調波成分の双方について現実の人間の音声に近い自然な音声を生成することを目的とする。

以上の課題を解決するために、本発明の好適な態様に係る音声合成方法は、音韻の指定を含む制御データに応じた調波成分の周波数スペクトルの時系列を第１学習済モデルにより生成し、前記制御データに応じた非調波成分の波形を表す時間領域の音響信号を第２学習済モデルにより生成し、前記調波成分と前記非調波成分とを含む音声信号を前記周波数スペクトルの時系列と前記音響信号とから生成する。

本発明の好適な態様に係るプログラムは、音韻の指定を含む制御データに応じた調波成分の周波数スペクトルの時系列を第１学習済モデルにより生成する処理と、前記制御データに応じた非調波成分の波形を表す時間領域の音響信号を第２学習済モデルにより生成する処理と、前記調波成分と前記非調波成分とを含む音声信号を前記周波数スペクトルの時系列と前記音響信号とから生成する処理とをコンピュータに実行させる。

本発明の第１実施形態に係る音声合成装置の構成を示すブロック図である。音声合成装置の機能的な構成を示すブロック図である。制御データＸの模式図である。音声合成処理のフローチャートである。第２実施形態における音声合成装置の動作の説明図である。第３実施形態に係る学習済モデル生成装置の構成を示すブロック図である。学習済モデル生成装置の機能的な構成を示すブロック図である。機械学習処理のフローチャートである。

＜第１実施形態＞
図１は、本発明の第１実施形態に係る音声合成装置１００の構成を例示するブロック図である。第１実施形態の音声合成装置１００は、歌唱者が楽曲を仮想的に歌唱した音声（以下「合成音声」という）を合成する歌唱合成装置であり、図１に例示される通り、制御装置１１と記憶装置１２と放音装置１３とを具備するコンピュータシステムで実現される。例えば携帯電話機もしくはスマートフォン等の可搬型の情報端末、またはパーソナルコンピュータ等の可搬型または据置型の情報端末が、音声合成装置１００として好適に利用され得る。

制御装置１１は、例えばＣＰＵ（Central Processing Unit）等の処理回路であり、音声合成装置１００を構成する各要素を統括的に制御する。第１実施形態の制御装置１１は、合成音声の波形を表す時間領域の音声信号Ｖを生成する。放音装置１３（例えばスピーカまたはヘッドホン）は、制御装置１１が生成した音声信号Ｖが表す音声を再生する。なお、制御装置１１が生成した音声信号Ｖをデジタルからアナログに変換するＤ/Ａ変換器と音声信号Ｖを増幅する増幅器とについては図示を便宜的に省略した。また、放音装置１３を音声合成装置１００に搭載した構成を図１では例示したが、音声合成装置１００とは別体の放音装置１３を音声合成装置１００に有線または無線で接続してもよい。

記憶装置１２は、例えば磁気記録媒体もしくは半導体記録媒体等の公知の記録媒体、または、複数種の記録媒体の組合せで構成され、制御装置１１が実行するプログラムと制御装置１１が使用する各種のデータとを記憶する。なお、音声合成装置１００とは別体の記憶装置１２（例えばクラウドストレージ）を用意し、移動体通信網またはインターネット等の通信網を介して制御装置１１が記憶装置１２に対する書込および読出を実行してもよい。すなわち、記憶装置１２は音声合成装置１００から省略され得る。

記憶装置１２は、楽曲の内容を表す楽曲データＱを記憶する。第１実施形態の楽曲データＱは、楽曲を構成する複数の音符の各々について音高と音韻と発音期間とを指定する。音高は、例えばＭＩＤＩ（Musical Instrument Digital Interface）のノート番号である。音韻は、合成音声による発音内容（すなわち楽曲の歌詞）である。発音期間は、楽曲の各音符が発音される期間であり、例えば音符の始点と終点または継続長とで指定される。また、第１実施形態の楽曲データＱは、合成音声の音楽的な表現を指定する。例えば発音強度（例えばフォルテ）、発音強度の増減（例えばクレッシェンド）、歌唱表現（例えばビブラート）または声質（例えば嗄れ声）等の音楽的な表現が楽曲データＱにより指定される。

図２は、制御装置１１の機能的な構成を例示するブロック図である。図２に例示される通り、制御装置１１は、記憶装置１２に記憶されたプログラムを実行することで、特定の歌唱者（以下「特定歌唱者」という）の合成音声の波形を表す時間領域の音声信号Ｖを生成するための複数の機能（第１学習済モデルＭ1，第２学習済モデルＭ2および合成処理部５０）を実現する。なお、複数の装置の集合（すなわちシステム）で制御装置１１の機能を実現してもよいし、制御装置１１の機能の一部または全部を専用の電子回路（例えば信号処理回路）で実現してもよい。

第１学習済モデルＭ1は、特定歌唱者の合成音声のうち調波成分の周波数スペクトル（以下「調波スペクトル」という）Ｈの時系列を生成する統計的モデルであり、記憶装置１２に記憶された複数の係数Ｋ1により規定される。調波成分は、基本周波数の基音成分と倍音周波数の複数の倍音成分とで構成される調波構造（倍音構造）を含む周期成分である。第１学習済モデルＭ1は、調波スペクトルＨを第１単位期間（すなわちフレーム）毎に順次に生成する。例えば５ミリ秒毎に調波スペクトルＨが生成される。

具体的には、楽曲データＱに応じた調波スペクトルＨを順次に出力するニューラルネットワーク（典型的にはディープニューラルネットワーク）が第１学習済モデルＭ1として好適である。具体的には、Dilated Convolutionの手法とResidual Network（ResNet）の手法とを利用して調波スペクトルの受容野を広げた畳込みニューラルネットワーク（CNN）が第１学習済モデルＭ1として好適に利用される。第１実施形態の第１学習済モデルＭ1は、第１単位期間毎（フレーム毎）に、楽曲データＱから特定される制御データＸと、直前の複数の第１単位期間にわたる調波スペクトルＨとを入力として、現在の第１単位期間における調波スペクトルＨを出力する。制御データＸは、合成音声の内容を指定するデータであり、時間軸上の複数の時点（以下「制御時点」という）の各々について生成される。任意の１個の制御データＸは、図３に例示される通り、音韻データＸ1と音高データＸ2と時間データＸ3と表現データＸ4とを含んで構成される。

音韻データＸ1は、合成音声の音韻に関するデータである。具体的には、音韻データＸ1は、例えば制御時点に対応する音素の音韻と、当該音素の直前の音素の音韻と、直後の音素の音韻とを指定する。音高データＸ2は、合成音声の音高に関するデータである。具体的には、音高データＸ2は、例えば制御時点に対応する音符の音高と、当該音符の直前の音符の音高と、直後の音符の音高とを指定する。時間データＸ3は、例えば音素内における制御時点の位置を指定する。表現データＸ4は、制御時点における音楽的な表現である。なお、制御時点に対応する１個の音素の音韻のみを指定する音韻データＸ1、または、制御時点に対応する１個の音符の音高のみを指定する音高データＸ2を利用してもよい。

特定歌唱者の第１学習済モデルＭ1は、制御データＸと調波スペクトルＨとを対応させた特定歌唱者の複数の教師データＬ1を利用した機械学習（深層学習）により、制御データＸと調波スペクトルＨの時間的な変化との間の関係を学習した学習済モデルである。すなわち、第１学習済モデルＭ1を規定する複数の係数Ｋ1が、複数の教師データＬ1を利用した機械学習により設定されて記憶装置２２に記憶される。したがって、特定歌唱者の複数の教師データＬ1から抽出される傾向（制御データＸと調波スペクトルＨとの間の関係）のもとで未知の制御データＸに対して妥当な調波スペクトルＨの時系列が、特定歌唱者の第１学習済モデルＭ1から出力される。なお、複数の教師データＬ1を利用した機械学習については後述する。以上の説明から理解される通り、音韻データＸ1で指定される音韻を、音高データＸ2で指定される音高および表現データＸ4で指定される表現で特定歌唱者が仮想的に発音した合成音声の調波成分について、調波スペクトルＨの時系列が生成される。なお、調波スペクトルＨを生成するニューラルネットワークについては例えば非特許文献１に記載されている。

第２学習済モデルＭ2は、特定歌唱者の合成音声のうち非調波成分の波形を表す時間領域の音響信号（以下「非調波信号」という）Ａ2を生成する統計的モデルであり、記憶装置１２に記憶された複数の係数Ｋ2により規定される。非調波成分は、調波成分以外の非周期成分であり、濁声および嗄れ声等の声質の聴感的な印象を特徴付ける音響成分である。非調波信号Ａ2は、非調波成分の時間領域における波形のサンプル（すなわち第２単位期間毎の信号強度を表すサンプル）の時系列で表現される。第２学習済モデルＭ2は、非調波信号Ａ2の各サンプルを第２単位期間（すなわちサンプル周期）毎に順次に生成する。第２単位期間は第１単位期間と比較して短い。例えば０.０５ミリ秒毎に非調波信号Ａ2の各サンプルが生成される。

具体的には、制御データＸに応じた非調波信号Ａ2の各サンプルを出力するニューラルネットワーク（典型的にはディープニューラルネットワーク）が第２学習済モデルＭ2として好適である。具体的には、Dilated Convolutionの手法とResidual Network（ResNet）の手法とを利用して非調波信号Ａ2の受容野を広げた畳込みニューラルネットワーク（CNN）が第２学習済モデルＭ2として好適に利用される。第１実施形態の第２学習済モデルＭ2は、第２単位期間毎（サンプル周期毎）に、楽曲データＱに応じた前述の制御データＸと、第１学習済モデルＭ1の処理結果に応じた補助データＹと、直前の複数の第２単位期間にわたる非調波信号Ａ2のサンプルとを入力として、現在の第２単位期間における非調波信号Ａ2のサンプルの時系列を出力する。なお、時間領域の波形を表す各サンプルを生成するニューラルネットワークについては、例えば"WaveNet: A Generative Model for Raw Audio," Oord et.al., arXiv 2016/09/19に開示されている。

補助データＹは、制御データＸと同様に制御時点毎に生成される。第１実施形態の補助データＹは、第１学習済モデルＭ1が調波スペクトルＨに関連して出力する基本周波数（ピッチ）Ｙ1と、調波スペクトルＨに基づいて有声／無声を判定した結果（以下「有声性判定結果」という）Ｙ2とを含んで構成される。有声性判定結果Ｙ2は、調波スペクトルＨに明確な調波構造が含まれるか否か（有意な基本周波数Ｙ1を調波スペクトルＨから明確に特定できるか否か）を判定した結果である。

特定歌唱者の第２学習済モデルＭ2は、制御データＸおよび補助データＹと非調波信号Ａ2（具体的には非調波信号Ａ2のサンプルの時系列）とを対応させた特定歌唱者の複数の教師データＬ2を利用した機械学習（深層学習）により、制御データＸおよび補助データＹと非調波信号Ａ2の時間的な変化との間の関係を学習した学習済モデルである。すなわち、第２学習済モデルＭ2を規定する複数の係数Ｋ2が、複数の教師データＬ2を利用した機械学習により設定されて記憶装置１２に記憶される。したがって、複数の教師データＬ2から抽出される傾向（制御データＸおよび補助データＹと非調波信号Ａ2との間の関係）のもとで未知の制御データＸおよび補助データＹに対して妥当な非調波信号Ａ2の各サンプルの時系列が第２学習済モデルＭ2から出力される。なお、複数の教師データＬ2を利用した機械学習については後述する。以上の説明から理解される通り、音韻データＸ1で指定される音韻を、音高データＸ2で指定される音高および表現データＸ4で指定される表現で特定歌唱者が仮想的に発音した合成音声の非調波成分について、非調波信号Ａ2が生成される。

第１実施形態では、調波スペクトルＨの基本周波数Ｙ1が第２学習済モデルＭ2に入力されるから、非調波信号Ａ2のサンプルは基本周波数Ｙ1に連動して変化する。例えば、制御データＸ（および有声性判定結果Ｙ2）が共通する場合でも、基本周波数Ｙ1が相違すれば、相異なる音響特性の非調波信号Ａ2が生成されてよい。また、有声性判定結果Ｙ2が第２学習済モデルＭ2に入力されるから、非調波信号Ａ2のサンプルは有声性判定結果Ｙ2に連動して変化する。例えば、制御データＸ（および基本周波数Ｙ1）が共通する場合でも、有声性判定結果Ｙ2が相違すれば、相異なる音響特性の非調波信号Ａ2が生成されてよい。なお、第２学習済モデルＭ2は、基本周波数Ｙ1および有声性判定結果Ｙ2の何れか一方のみを入力とし、他方を入力しないモデルでもよい。

図２の合成処理部５０は、調波成分と非調波成分とを含む音声信号Ｖを、第１学習済モデルＭ1が生成した調波スペクトルＨの時系列と第２学習済モデルＭ2が生成した非調波信号Ａ2とから生成する。第１実施形態の合成処理部５０は、図２に例示される通り、波形合成部５１と混合処理部５２とを含んで構成される。

波形合成部５１は、第２単位期間毎（サンプル周期毎）に、第１学習済モデルＭ1が生成した調波スペクトルＨの時系列から時間領域の音響信号（以下「調波信号」という）Ａ1のサンプルを生成する。調波信号Ａ1の生成には例えば公知のボコーダ技術が任意に採用される。混合処理部５２は、第２単位期間毎に、波形合成部５１が生成した調波信号Ａ1のサンプルと第２学習済モデルＭ2が生成した非調波信号Ａ2のサンプルとを混合することで、時間領域の音声信号Ｖのサンプルを生成する。例えば調波信号Ａ1と非調波信号Ａ2とを加算する加算器が混合処理部５２として好適である。調波信号Ａ1と非調波信号Ａ2との混合比を例えば利用者からの指示に応じて変更してもよい。以上の説明から理解される通り、楽曲データＱで指定される楽曲を、特定歌唱者が仮想的に歌唱した合成音声を表す音声信号Ｖが生成される。合成処理部５０（混合処理部５２）が生成した音声信号Ｖが放音装置１３に供給されて音波として再生される。

図４は、制御装置１１が音声信号Ｖを生成する処理（以下「音声合成処理」という）のフローチャートである。音声合成処理は、例えば音声合成装置１００の利用者からの指示を契機として開始され、所定の時間毎に反復される。

音声合成処理を開始すると、制御装置１１は、制御データＸに応じた調波スペクトルＨの時系列を、特定歌唱者の第１学習済モデルＭ1により生成する（Ｓa1）。また、制御装置１１は、制御データＸに応じた時間領域の非調波信号Ａ2を、特定歌唱者の第２学習済モデルＭ2により生成する（Ｓa2）。なお、第１学習済モデルＭ1による調波スペクトルＨの生成（Ｓa1）と第２学習済モデルＭ2による非調波信号Ａ2の生成との順序を逆転してもよい。

波形合成部５１は、第１学習済モデルＭ1により生成した調波スペクトルＨの時系列から時間領域の調波信号Ａ1を生成する（Ｓa3）。なお、調波スペクトルＨの生成（Ｓa1）と非調波信号Ａ2の生成（Ｓa2）との間に調波信号Ａ1の生成（Ｓa3）を実行してもよい。混合処理部５２は、波形合成部５１が生成した調波信号Ａ1と第２学習済モデルＭ2が生成した非調波信号Ａ2とを混合することで時間領域の音声信号Ｖを生成する（Ｓa4）。

以上に説明した通り、第１実施形態では、第１学習済モデルＭ1により調波スペクトルＨの時系列が生成される一方、非調波成分については時間領域の非調波信号Ａ2が第２学習済モデルＭ2により生成される。したがって、調波成分および非調波成分の双方についてニューラルネットワークにより周波数スペクトルを生成する非特許文献１の技術と比較して、調波成分および非調波成分の双方について聴感的に自然な音声を生成することが可能である。

第１実施形態では、調波スペクトルＨが第１単位期間（フレーム）毎に第１学習済モデルＭ1から出力される一方、非調波信号Ａ2の各サンプルは、第１単位期間よりも短い第２単位期間（サンプル周期）毎に第２学習済モデルＭ2から出力される。したがって、周波数領域では再現し難い非調波信号Ａ2を時間領域で高音質に生成できる。また、相対的に短い第２単位期間毎に時間領域で生成されるのは、合成音声の非調波信号Ａ2だけであるから、合成音声の全体を生成するWave Net等のニューラルネットワークと比較して必要な学習量および係数が充分に少ない。他方、合成音声の調波信号Ａ1については、第１単位期間毎に周波数領域で効率的に生成される。以上の通り、第１実施形態によれば、高音質な合成音声が効率よく合成される。

第１実施形態では、第１学習済モデルＭ1が出力する調波スペクトルＨに対応する基本周波数Ｙ1が第２学習済モデルＭ2に入力されるから、調波成分の基本周波数Ｙ1の変化に適切に追随する非調波成分を生成できるという利点がある。また、調波信号Ａ1の有声／無声を判定した結果（有声性判定結果Ｙ2）が第２学習済モデルＭ2に入力されるから、合成音声の有声／無声の変化に適切に追随する非調波成分を生成できるという利点がある。

＜第２実施形態＞
本発明の第２実施形態を説明する。なお、以下に例示する各態様において機能または作用が第１実施形態と同様である要素については、第１実施形態の説明で使用した符号を流用して各々の詳細な説明を適宜に省略する。第２実施形態は、合成音声の発音区間のなかで、非調波成分のレベルが相対的に高い区間が短いという傾向に着目して、音声合成の演算効率を更に向上させた形態である。

第２実施形態の音声合成装置１００は、第１実施形態と同様の構成であるが、第１実施形態とは動作が相違する。図５は、第２実施形態における音声合成装置１００の動作の説明図である。図５には、各音符の音韻に対応する音素が図示されている。図５に例示される通り、第１学習済モデルＭ1は、合成音声の音素の種類（有声音／無声音）に関わらず調波スペクトルＨの時系列を継続的に生成する。

図５には、有声区間Ｚvと無声区間Ｚuとが時間軸上に図示されている。有声区間Ｚvは、合成音声が有声音となる区間であり、無声区間Ｚuは、合成音声が無声音となる区間である。無声音の音素を含む区間および無音の区間が無声区間Ｚuとして画定される。無声区間Ｚuでは非調波成分が聴感的に顕著となり、有声区間Ｚvでは調波成分に対して非調波成分が相対的に低減されるという傾向がある。以上の傾向を考慮して、第２実施形態の第２学習済モデルＭ2は、図５に例示される通り、無声区間Ｚuにおいて非調波信号Ａ2の生成を実行する一方、有声区間Ｚvでは非調波信号Ａ2の生成を停止する。

以上の説明から理解される通り、無声区間Ｚuでは調波信号Ａ1と非調波信号Ａ2とを含む音声信号Ｖが生成される。したがって、高音質な無声音が合成音声として生成される。他方、有声区間Ｚvでは非調波信号Ａ2の生成が停止されるから、非調波信号Ａ2を含まない音声信号Ｖが生成される。すなわち、有声区間Ｚvにおいては非調波成分が生成されない。しかし、有声区間Ｚvでは調波成分が聴感的に顕著に知覚されるから、非調波成分の欠落は受聴者に知覚され難い。そして、有声区間Ｚvでは第２学習済モデルＭ2による非調波信号Ａ2の生成が停止されるから、第２実施形態によれば、有声区間Ｚvおよび無声区間Ｚuの双方で非調波信号Ａ2が生成される第１実施形態と比較して、音声信号Ｖの生成に必要な演算量が削減されるという利点がある。

＜第３実施形態＞
以下に例示する第３実施形態は、第１実施形態または第２実施形態の音声合成装置１００で利用される第１学習済モデルＭ1および第２学習済モデルＭ2を生成する学習済モデル生成装置２００である。図６は、第３実施形態における学習済モデル生成装置２００の構成を例示するブロック図である。

第３実施形態の学習済モデル生成装置２００は、第１学習済モデルＭ1を規定する複数の係数Ｋ1と第２学習済モデルＭ2を規定する複数の係数Ｋ2とを機械学習により生成する情報処理装置であり、図６に例示される通り、制御装置２１と記憶装置２２とを具備するコンピュータシステムで実現される。例えばパーソナルコンピュータ等の可搬型または据置型の情報端末が、情報処理装置として好適に利用され得る。

制御装置２１は、例えばＣＰＵ等の処理回路である。記憶装置２２は、例えば磁気記録媒体もしくは半導体記録媒体等の公知の記録媒体、または、複数種の記録媒体の組合せで構成され、制御装置２１が実行するプログラムと制御装置２１が使用する各種のデータとを記憶する。なお、音声合成装置１００とは別体の記憶装置２２を用意し、移動体通信網またはインターネット等の通信網を介して制御装置２１が記憶装置２２に対する書込および読出を実行してもよい。すなわち、記憶装置２２は学習済モデル生成装置２００から省略され得る。

第３実施形態の記憶装置２２は、相異なる楽曲に対応する複数の楽曲データＱと、各楽曲を歌唱した音声（以下「参照音声」という）の波形を表す複数の音声信号（以下「参照信号」という）Ｒとを記憶する。各参照信号Ｒは、複数のサンプル（すなわち第２単位期間毎の信号強度を表すサンプル）の時系列で構成され、調波成分と非調波成分とを含む参照音声の波形を表す時間領域の信号である。多数の歌唱者が楽曲を歌唱した音声を事前に収録することで、複数の参照信号Ｒが生成されて記憶装置２２に記憶される。なお、記憶装置２２に記憶される複数の参照信号Ｒについて位相を最小位相に変換してもよい。複数の参照信号Ｒの位相を共通させることで調波スペクトルＨの多様性が低下するから、複数の参照信号Ｒの間で位相が相違する場合と比較して、第１学習処理部６４による機械学習が効率化されるという利点がある。なお、多様な状況に対応した音声を合成できるように複数の楽曲データＱを利用した場合を例示したが、１個の楽曲データＱで必要な状況の全てを網羅できるならば、１個の楽曲データＱのみを利用してもよい。

図７は、制御装置２１の機能的な構成を例示するブロック図である。図７に例示される通り、制御装置２１は、記憶装置２２に記憶されたプログラムを実行することで、第１学習済モデルＭ1および第２学習済モデルＭ2を生成するための複数の機能（周波数解析部６１，波形合成部６２，成分抽出部６３，第１学習処理部６４および第２学習処理部６５）を実現する。なお、複数の装置の集合（すなわちシステム）で制御装置２１の機能を実現してもよいし、制御装置２１の機能の一部または全部を専用の電子回路（例えば信号処理回路）で実現してもよい。

周波数解析部６１は、特定歌唱者の複数の楽曲データＱに対応する複数の参照信号Ｒの各々について、各楽曲データＱに対応する調波スペクトル（すなわち参照音声のうち調波成分の周波数スペクトル）Ｈの時系列を算定する。調波スペクトルＨの算定には、例えば離散フーリエ変換等の公知の周波数解析が任意に採用される。

波形合成部６２は、周波数解析部６１が算定した調波スペクトルＨの時系列から時間領域の音響信号（以下「調波信号」という）Ａ1を生成する。調波信号Ａ1は、参照信号Ｒが表す参照音声のうち調波成分の波形を表す時間領域の信号である。成分抽出部６３は、その参照信号Ｒからその調波信号Ａ1を減算することで、参照音声のうち非調波成分の波形を表す時間領域の非調波信号Ａ2を生成する。

図７に例示される通り、各楽曲データＱから特定される制御データＸと周波数解析部６１が当該楽曲データＱについて算定した調波スペクトルＨの時系列とを含む複数の教師データＬ1が第１学習処理部６４に供給される。各教師データＬ1は、１個の制御データＸと、当該制御データＸに対応する参照音声の調波スペクトルＨの時系列との組合せである。第１学習処理部６４は、複数の教師データＬ1を利用した機械学習により、特定歌唱者の第１学習済モデルＭ1を生成する。具体的には、第１学習処理部６４は、複数の教師データＬ1の各々について、当該教師データＬ1の制御データＸと過去の第１単位期間の調波スペクトルＨとを入力したときに第１学習済モデルＭ1が出力する調波スペクトルＨと、当該教師データＬ1の現在の第１単位期間における調波スペクトルＨ（すなわち正解）との間の誤差を最小化する機械学習により、第１学習済モデルＭ1を規定する複数の係数Ｋ1を設定する。

図７に例示される通り、各楽曲データＱから特定される制御データＸと、第１学習済モデルＭ1の処理結果に応じた補助データＹと、成分抽出部６３が当該楽曲データＱについて生成した非調波信号Ａ2とを含む特定歌唱者の複数の教師データＬ2が第２学習処理部６５に供給される。各教師データＬ2は、１個の制御データＸと、当該制御データＸに対する第１学習済モデルＭ1の処理結果を表す補助データＹと、当該制御データＸに対応する参照音声の非調波信号Ａ2との組合せである。第２学習処理部６５は、複数の教師データＬ2を利用した機械学習により特定歌唱者の第２学習済モデルＭ2を生成する。補助データＹは、第１実施形態と同様に、例えば参照音声の基本周波数Ｙ1と有声性判定結果Ｙ2とを含む。具体的には、第２学習処理部６５は、教師データＬ2の制御データＸ、補助データＹ、および過去の第２単位期間の非調波信号Ａ2とを入力したときに第２学習済モデルＭ2が出力する非調波信号Ａ2と、当該教師データＬ2に含まれる現在の第２単位期間における非調波信号Ａ2（すなわち正解）との間の誤差を最小化する機械学習により、第２学習済モデルＭ2を規定する複数の係数Ｋ2を設定する。

第１学習処理部６４が生成した複数の係数Ｋ1（第１学習済モデルＭ1）と、第２学習処理部６５が生成した複数の係数Ｋ2（第２学習済モデルＭ2）とが記憶装置２２に記憶される。記憶装置２２に記憶された複数の係数Ｋ1と複数の係数Ｋ2とが学習済モデル生成装置２００から音声合成装置１００に転送されて記憶装置１２に記憶される。すなわち、学習済モデル生成装置２００が生成した特定歌唱者の第１学習済モデルＭ1（複数の係数Ｋ1）と第２学習済モデルＭ2（複数の係数Ｋ2）とが、音声合成装置１００による音声信号Ｖの生成に利用される。

図８は、制御装置２１が特定歌唱者の第１学習済モデルＭ1および第２学習済モデルＭ2を生成する処理（以下「機械学習処理」という）のフローチャートである。機械学習処理は、例えば学習済モデル生成装置２００の利用者からの指示を契機として開始され、所定の時間毎に反復される。

機械学習処理を開始すると、周波数解析部６１は、複数の楽曲データＱに対応する特定歌唱者の複数の参照信号Ｒの各々について調波スペクトルＨの時系列を算定する（Ｓb1）。また、波形合成部６２は、各参照信号Ｒの調波スペクトルＨの時系列から時間領域の調波信号Ａ1を生成し（Ｓb2）、成分抽出部６３は、その参照信号Ｒからその調波信号Ａ1を減算することで、当該参照信号Ｒの時間領域の非調波信号Ａ2を生成する（Ｓb3）。

第１学習処理部６４は、各楽曲データＱの制御データＸと調波スペクトルＨの時系列とを含む複数の教師データＬ1を利用した、複数の楽曲データＱに関する機械学習により、第１学習済モデルＭ1の複数の係数Ｋ1を設定する（Ｓb4）。また、第２学習処理部６５は、各楽曲データＱの制御データＸと補助データＹと非調波信号Ａ2とを含む複数の教師データＬ2を利用した、複数の楽曲データＱに関する機械学習により、第２学習済モデルＭ2の複数の係数Ｋ2を設定する（Ｓb5）。

＜変形例＞
以上に例示した各態様に付加される具体的な変形の態様を以下に例示する。以下の例示から任意に選択された２個以上の態様を、相互に矛盾しない範囲で適宜に併合してもよい。

（１）前述の各形態では、調波スペクトルＨの時系列を時間領域の調波信号Ａ1に変換して非調波信号Ａ2と混合したが、調波成分と非調波成分とを時間領域で混合する構成は必須ではない。例えば、第２学習済モデルＭ2が生成した非調波信号Ａ2を周波数スペクトル（以下「非調波スペクトル」という）に変換し、調波スペクトルＨと非調波スペクトルとを混合（例えば加算）してから時間領域の音声信号Ｖに変換してもよい。以上の説明から理解される通り、合成処理部５０は、調波成分と非調波成分とを含む音声信号Ｖを調波スペクトルＨの時系列と非調波信号Ａ2とから生成する要素として包括的に表現され、音声信号Ｖが生成されるまでの各処理が周波数領域および時間領域の何れで実行されるのかは不問である。

（２）前述の各形態では、第１学習済モデルＭ1の出力と第２学習済モデルＭ2の出力との間の同期を主要な目的として、第１学習済モデルＭ1の処理結果に応じた補助データＹを第２学習済モデルＭ2に入力したが、例えば、両者間の同期のためのデータを制御データＸに含めることで、第２学習済モデルＭ2が補助データＹを利用する構成を省略してもよい。また、調波成分の基本周波数Ｙ1および有声性判定結果Ｙ2の一方のみを制御データＸとともに第２学習済モデルＭ2に入力してもよい。

（３）第２実施形態では、第２学習済モデルＭ2による非調波信号Ａ2の生成を有声区間Ｚvにおいて停止したが、第２学習済モデルＭの動作を有声区間Ｚvと無声区間Ｚuとで切替える構成は以上の例示に限定されない。例えば、有声区間Ｚvで生成される非調波信号Ａ2の各サンプルのビット数を、無声区間Ｚuで生成される非調波信号Ａ2の各サンプルのビット数よりも少なくしてもよい。すなわち、有声区間Ｚvでは無声区間Ｚuと比較して非調波信号Ａ2のサンプルの分解能を低下させてもよい。

（４）前述の各形態では、特定歌唱者が仮想的に歌唱した合成音声を合成したが、複数の歌唱者の何れかが歌唱した合成音声を選択的に合成してもよい。具体的には、複数の歌唱者の各々について、第１学習済モデルＭ1と第２学習済モデルＭ2とが記憶装置１２に記憶される。制御装置１１は、複数の歌唱者のうち例えば利用者が選択した歌唱者について記憶装置１２に記憶された第１学習済モデルＭ1と第２学習済モデルＭ2とを利用して、前述の各形態と同様の方法で音声信号Ｖを生成する。すなわち、利用者が複数の候補から選択した歌唱者が仮想的に歌唱した合成音声を表す音声信号Ｖが生成される。

（５）第１実施形態および第２実施形態で例示した音声合成装置１００の機能と、第３実施形態で例示した学習済モデル生成装置２００の機能とを、単体の装置で実現してもよい。

（６）前述の各形態に係る音声合成装置１００および学習済モデル生成装置２００は、各形態での例示の通り、コンピュータ（具体的には制御装置１１または制御装置２１）とプログラムとの協働により実現される。前述の各形態に係るプログラムは、コンピュータが読取可能な記録媒体に格納された形態で提供されてコンピュータにインストールされ得る。記録媒体は、例えば非一過性（non-transitory）の記録媒体であり、ＣＤ-ＲＯＭ等の光学式記録媒体（光ディスク）が好例であるが、半導体記録媒体または磁気記録媒体等の公知の任意の形式の記録媒体を含み得る。なお、非一過性の記録媒体とは、一過性の伝搬信号（transitory, propagating signal）を除く任意の記録媒体を含み、揮発性の記録媒体を除外するものではない。また、通信網を介した配信の形態でプログラムをコンピュータに提供することも可能である。また、プログラムの実行主体はＣＰＵに限定されず、Tensor Processing UnitおよびNeural Engine等のニューラルネットワーク用のプロセッサ、または、信号処理用のＤＳＰ（Digital Signal Processor）がプログラムを実行してもよい。また、以上の例示から選択された複数種の主体が協働してプログラムを実行してもよい。

（７）学習済モデル（第１学習済モデルＭ1および第２学習済モデルＭ2）は、制御装置（コンピュータの例示）により実現される統計的モデル（例えばニューラルネットワーク）であり、入力Ａに応じた出力Ｂを生成する。具体的には、学習済モデルは、入力Ａから出力Ｂを特定する演算を制御装置に実行させるプログラム（例えば人工知能ソフトウェアを構成するプログラムモジュール）と、当該演算に適用される複数の係数との組合せで実現される。学習済モデルの複数の係数は、入力Ａと出力Ｂとを対応させた複数の教師データを利用した事前の機械学習（深層学習）により最適化されている。すなわち、学習済モデルは、入力Ａと出力Ｂとの間の関係を学習した統計的モデルである。制御装置は、学習済の複数の係数と所定の応答関数とを適用した演算を未知の入力Ａに対して実行することで、複数の教師データから抽出される傾向（入力Ａと出力Ｂとの間の関係）のもとで入力Ａに対して妥当な出力Ｂを生成する。

（８）以上に例示した形態から、例えば以下の構成が把握される。

本発明の好適な態様（第１態様）に係る音声合成方法は、コンピュータにより実現される方法であって、音韻の指定を含む制御データに応じた調波成分の周波数スペクトルの時系列を第１学習済モデルにより生成し、前記制御データに応じた非調波成分の波形を表す時間領域の音響信号を第２学習済モデルにより生成し、前記調波成分と前記非調波成分とを含む音声信号を前記周波数スペクトルの時系列と前記音響信号とから生成する。以上の態様では、第１学習済モデルにより調波成分の周波数スペクトルの時系列が生成される一方、非調波成分については時間領域の音響信号が第２学習済モデルにより生成される。したがって、調波成分および非調波成分の双方についてニューラルネットワークにより周波数スペクトルを生成する非特許文献１の技術と比較して、調波成分および非調波成分の双方について聴感的に自然な音声を生成することが可能である。

第１態様の好適例（第２態様）において、前記第１学習済モデルは、前記調波成分の周波数スペクトルを第１単位期間毎に出力するニューラルネットワークであり、前記第２学習済モデルは、非調波成分の時間領域におけるサンプルを、前記第１単位期間よりも短い第２単位期間毎に出力するニューラルネットワークである。以上の態様では、調波成分の周波数スペクトルが第１学習済モデルにより第１単位期間毎に出力される一方、非調波成分のサンプルは、第１単位期間よりも短い第２単位期間毎に第２学習済モデルにより出力される。したがって、第１単位期間と同等以上の時間毎に非調波成分のサンプルを生成する構成と比較して、高音質な非調波成分を生成できるという利点がある。

第１態様または第２態様の好適例（第３態様）において、前記第１学習済モデルは、時間軸上の各時点における前記調波成分の周波数スペクトルを、前記制御データと当該第１学習済モデルが過去に生成した前記調波成分の周波数スペクトルの時系列とに基づいて生成する。また、第１態様から第３態様の何れかの好適例（第４態様）において、前記第２学習済モデルは、時間軸上の各時点における前記非調波成分の時間領域におけるサンプルを、前記制御データと当該第２学習済モデルが過去に生成した前記非調波成分の複数のサンプルとに基づいて生成する。

第１態様から第４態様の好適例（第５態様）において、前記第２学習済モデルは、前記第１学習済モデルが出力する周波数スペクトルに対応する基本周波数を入力として含む。以上の態様では、第１学習済モデルが出力する調波成分の周波数スペクトルに対応する基本周波数が第２学習済モデルに入力される。したがって、調波成分の基本周波数の変化に適切に追随する非調波成分を生成できるという利点がある。

第１態様から第５態様の何れかの好適例（第６態様）において、前記第１学習済モデルが出力する複数の周波数スペクトルの時系列から有声／無声を判定し、前記第２学習済モデルは、前記有声／無声の判定結果を入力として含む。以上の態様では、調波成分の有声／無声を判定した結果が第２学習済モデルに入力されるから、有声／無声の変化に適切に追随する非調波成分を生成できるという利点がある。

本発明の好適な態様（第５態様）に係るプログラムは、音韻の指定を含む制御データに応じた調波成分の周波数スペクトルの時系列を第１学習済モデルにより生成する処理と、前記制御データに応じた非調波成分の波形を表す時間領域の音響信号を第２学習済モデルにより生成する処理と、前記調波成分と前記非調波成分とを含む音声信号を前記周波数スペクトルの時系列と前記音響信号とから生成する処理とをコンピュータに実行させる。以上の態様では、第１学習済モデルにより調波成分の周波数スペクトルの時系列が生成される一方、非調波成分については時間領域の音響信号が第２学習済モデルにより生成される。したがって、調波成分および非調波成分の双方についてニューラルネットワークにより周波数スペクトルを生成する非特許文献１の技術と比較して、調波成分および非調波成分の双方について聴感的に自然な音声を生成することが可能である。

１００…音声合成装置、２００…学習済モデル生成装置、１１，２１…制御装置、１２，２２…記憶装置、１３…放音装置１３、５０…合成処理部、５１…波形合成部、５２…混合処理部、６１…周波数解析部、６２…波形合成部、６３…成分抽出部、６４…第１学習処理部、６５…第２学習処理部、Ｍ1…第１学習済モデル、Ｍ2…第２学習済モデル。

Claims

合成音声の制御データに応じた調波成分の周波数スペクトルの時系列を第１学習済モデルにより生成し、
前記制御データに応じた非調波成分の波形を表す時間領域の音響信号を第２学習済モデルにより生成し、
前記調波成分と前記非調波成分とを含む音声信号を前記周波数スペクトルの時系列と前記音響信号とから生成し、
前記音響信号の生成においては、前記合成音声が無声音となる無声区間において前記音響信号を生成し、前記合成音声が有声音となる有声区間において前記音響信号の生成を停止する、
コンピュータにより実現される音声合成方法。
前記周波数スペクトルの時系列の生成は、前記無声区間および前記有声区間の双方において実行される
請求項１の音声合成方法。
合成音声の制御データに応じた調波成分の周波数スペクトルの時系列を第１学習済モデルにより生成し、
前記制御データに応じた非調波成分の波形を表す時間領域の音響信号を第２学習済モデルにより生成し、
前記調波成分と前記非調波成分とを含む音声信号を前記周波数スペクトルの時系列と前記音響信号とから生成し、
前記合成音声が無声音となる無声区間における前記音響信号のサンプルのビット数は、前記合成音声が有声音となる有声区間における前記音響信号のサンプルのビット数を上回る、
コンピュータにより実現される音声合成方法。
前記第１学習済モデルは、前記調波成分の周波数スペクトルを第１単位期間毎に出力するニューラルネットワークであり、
前記第２学習済モデルは、前記非調波成分の時間領域におけるサンプルを、前記第１単位期間よりも短い第２単位期間毎に出力するニューラルネットワークである
請求項１から請求項３の何れかの音声合成方法。
合成音声の制御データに応じた調波成分の周波数スペクトルの時系列を生成する第１学習済モデルと、
前記制御データに応じた非調波成分の波形を表す時間領域の音響信号を生成する第２学習済モデルと、
前記調波成分と前記非調波成分とを含む音声信号を前記周波数スペクトルの時系列と前記音響信号とから生成する合成処理部とを具備し、
前記第２学習済モデルは、前記合成音声が無声音となる無声区間において前記音響信号を生成し、前記合成音声が有声音となる有声区間において前記音響信号の生成を停止する、
音声合成システム。
前記第１学習済モデルは、前記無声区間および前記有声区間の双方において前記周波数スペクトルの時系列を生成する
請求項５の音声合成システム。
合成音声の制御データに応じた調波成分の周波数スペクトルの時系列を生成する第１学習済モデルと、
前記制御データに応じた非調波成分の波形を表す時間領域の音響信号を生成する第２学習済モデルと、
前記調波成分と前記非調波成分とを含む音声信号を前記周波数スペクトルの時系列と前記音響信号とから生成する合成処理部とを具備し、
前記合成音声が無声音となる無声区間における前記音響信号のサンプルのビット数は、前記合成音声が有声音となる有声区間における前記音響信号のサンプルのビット数を上回る、
音声合成システム。
前記第１学習済モデルは、前記調波成分の周波数スペクトルを第１単位期間毎に出力するニューラルネットワークであり、
前記第２学習済モデルは、前記非調波成分の時間領域におけるサンプルを、前記第１単位期間よりも短い第２単位期間毎に出力するニューラルネットワークである
請求項５から請求項７の何れかの音声合成システム。
合成音声の制御データに応じた調波成分の周波数スペクトルの時系列を第１学習済モデルにより生成する処理と、
前記制御データに応じた非調波成分の波形を表す時間領域の音響信号を第２学習済モデルにより生成する処理と、
前記調波成分と前記非調波成分とを含む音声信号を前記周波数スペクトルの時系列と前記音響信号とから生成する処理と
をコンピュータに実行させるプログラムであって、
前記音響信号を生成する処理においては、前記合成音声が無声音となる無声区間において前記音響信号を生成し、前記合成音声が有声音となる有声区間において前記音響信号の生成を停止する、
プログラム。
合成音声の制御データに応じた調波成分の周波数スペクトルの時系列を第１学習済モデルにより生成する処理と、
前記制御データに応じた非調波成分の波形を表す時間領域の音響信号を第２学習済モデルにより生成する処理と、
前記調波成分と前記非調波成分とを含む音声信号を前記周波数スペクトルの時系列と前記音響信号とから生成する処理と
をコンピュータに実行させるプログラムであって、
前記合成音声が無声音となる無声区間における前記音響信号のサンプルのビット数は、前記合成音声が有声音となる有声区間における前記音響信号のサンプルのビット数を上回る、
プログラム。