JP6977818B2 - 音声合成方法、音声合成システムおよびプログラム - Google Patents
音声合成方法、音声合成システムおよびプログラム Download PDFInfo
- Publication number
- JP6977818B2 JP6977818B2 JP2020114265A JP2020114265A JP6977818B2 JP 6977818 B2 JP6977818 B2 JP 6977818B2 JP 2020114265 A JP2020114265 A JP 2020114265A JP 2020114265 A JP2020114265 A JP 2020114265A JP 6977818 B2 JP6977818 B2 JP 6977818B2
- Authority
- JP
- Japan
- Prior art keywords
- trained model
- acoustic signal
- harmonic component
- harmonic
- frequency spectrum
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Active
Links
- 230000015572 biosynthetic process Effects 0.000 title claims description 30
- 238000003786 synthesis reaction Methods 0.000 title claims description 30
- 238000001308 synthesis method Methods 0.000 title claims description 7
- 238000001228 spectrum Methods 0.000 claims description 88
- 238000000034 method Methods 0.000 claims description 37
- 230000008569 process Effects 0.000 claims description 23
- 230000005236 sound signal Effects 0.000 claims description 23
- 238000013528 artificial neural network Methods 0.000 claims description 20
- 238000010801 machine learning Methods 0.000 description 18
- 238000010586 diagram Methods 0.000 description 10
- 230000014509 gene expression Effects 0.000 description 10
- 230000006870 function Effects 0.000 description 9
- 230000008901 benefit Effects 0.000 description 7
- 230000008859 change Effects 0.000 description 5
- 238000000605 extraction Methods 0.000 description 5
- 238000013527 convolutional neural network Methods 0.000 description 4
- 238000013179 statistical model Methods 0.000 description 4
- 230000002194 synthesizing effect Effects 0.000 description 4
- 238000004364 calculation method Methods 0.000 description 3
- 238000004891 communication Methods 0.000 description 3
- 238000013135 deep learning Methods 0.000 description 3
- 239000004065 semiconductor Substances 0.000 description 3
- 230000010365 information processing Effects 0.000 description 2
- 238000010295 mobile communication Methods 0.000 description 2
- 230000004048 modification Effects 0.000 description 2
- 238000012986 modification Methods 0.000 description 2
- 230000001537 neural effect Effects 0.000 description 2
- 230000003287 optical effect Effects 0.000 description 2
- 230000002123 temporal effect Effects 0.000 description 2
- 230000001052 transient effect Effects 0.000 description 2
- 230000001960 triggered effect Effects 0.000 description 2
- 206010013952 Dysphonia Diseases 0.000 description 1
- 208000027498 hoarse voice Diseases 0.000 description 1
- 239000004615 ingredient Substances 0.000 description 1
- 230000000737 periodic effect Effects 0.000 description 1
- 230000001902 propagating effect Effects 0.000 description 1
- 238000005316 response function Methods 0.000 description 1
Images
Landscapes
- Reverberation, Karaoke And Other Acoustics (AREA)
Description
図1は、本発明の第1実施形態に係る音声合成装置100の構成を例示するブロック図である。第1実施形態の音声合成装置100は、歌唱者が楽曲を仮想的に歌唱した音声(以下「合成音声」という)を合成する歌唱合成装置であり、図1に例示される通り、制御装置11と記憶装置12と放音装置13とを具備するコンピュータシステムで実現される。例えば携帯電話機もしくはスマートフォン等の可搬型の情報端末、またはパーソナルコンピュータ等の可搬型または据置型の情報端末が、音声合成装置100として好適に利用され得る。
本発明の第2実施形態を説明する。なお、以下に例示する各態様において機能または作用が第1実施形態と同様である要素については、第1実施形態の説明で使用した符号を流用して各々の詳細な説明を適宜に省略する。第2実施形態は、合成音声の発音区間のなかで、非調波成分のレベルが相対的に高い区間が短いという傾向に着目して、音声合成の演算効率を更に向上させた形態である。
以下に例示する第3実施形態は、第1実施形態または第2実施形態の音声合成装置100で利用される第1学習済モデルM1および第2学習済モデルM2を生成する学習済モデル生成装置200である。図6は、第3実施形態における学習済モデル生成装置200の構成を例示するブロック図である。
以上に例示した各態様に付加される具体的な変形の態様を以下に例示する。以下の例示から任意に選択された2個以上の態様を、相互に矛盾しない範囲で適宜に併合してもよい。
Claims (10)
- 合成音声の制御データに応じた調波成分の周波数スペクトルの時系列を第1学習済モデルにより生成し、
前記制御データに応じた非調波成分の波形を表す時間領域の音響信号を第2学習済モデルにより生成し、
前記調波成分と前記非調波成分とを含む音声信号を前記周波数スペクトルの時系列と前記音響信号とから生成し、
前記音響信号の生成においては、前記合成音声が無声音となる無声区間において前記音響信号を生成し、前記合成音声が有声音となる有声区間において前記音響信号の生成を停止する、
コンピュータにより実現される音声合成方法。 - 前記周波数スペクトルの時系列の生成は、前記無声区間および前記有声区間の双方において実行される
請求項1の音声合成方法。 - 合成音声の制御データに応じた調波成分の周波数スペクトルの時系列を第1学習済モデルにより生成し、
前記制御データに応じた非調波成分の波形を表す時間領域の音響信号を第2学習済モデルにより生成し、
前記調波成分と前記非調波成分とを含む音声信号を前記周波数スペクトルの時系列と前記音響信号とから生成し、
前記合成音声が無声音となる無声区間における前記音響信号のサンプルのビット数は、前記合成音声が有声音となる有声区間における前記音響信号のサンプルのビット数を上回る、
コンピュータにより実現される音声合成方法。 - 前記第1学習済モデルは、前記調波成分の周波数スペクトルを第1単位期間毎に出力するニューラルネットワークであり、
前記第2学習済モデルは、前記非調波成分の時間領域におけるサンプルを、前記第1単位期間よりも短い第2単位期間毎に出力するニューラルネットワークである
請求項1から請求項3の何れかの音声合成方法。 - 合成音声の制御データに応じた調波成分の周波数スペクトルの時系列を生成する第1学習済モデルと、
前記制御データに応じた非調波成分の波形を表す時間領域の音響信号を生成する第2学習済モデルと、
前記調波成分と前記非調波成分とを含む音声信号を前記周波数スペクトルの時系列と前記音響信号とから生成する合成処理部とを具備し、
前記第2学習済モデルは、前記合成音声が無声音となる無声区間において前記音響信号を生成し、前記合成音声が有声音となる有声区間において前記音響信号の生成を停止する、
音声合成システム。 - 前記第1学習済モデルは、前記無声区間および前記有声区間の双方において前記周波数スペクトルの時系列を生成する
請求項5の音声合成システム。 - 合成音声の制御データに応じた調波成分の周波数スペクトルの時系列を生成する第1学習済モデルと、
前記制御データに応じた非調波成分の波形を表す時間領域の音響信号を生成する第2学習済モデルと、
前記調波成分と前記非調波成分とを含む音声信号を前記周波数スペクトルの時系列と前記音響信号とから生成する合成処理部とを具備し、
前記合成音声が無声音となる無声区間における前記音響信号のサンプルのビット数は、前記合成音声が有声音となる有声区間における前記音響信号のサンプルのビット数を上回る、
音声合成システム。 - 前記第1学習済モデルは、前記調波成分の周波数スペクトルを第1単位期間毎に出力するニューラルネットワークであり、
前記第2学習済モデルは、前記非調波成分の時間領域におけるサンプルを、前記第1単位期間よりも短い第2単位期間毎に出力するニューラルネットワークである
請求項5から請求項7の何れかの音声合成システム。 - 合成音声の制御データに応じた調波成分の周波数スペクトルの時系列を第1学習済モデルにより生成する処理と、
前記制御データに応じた非調波成分の波形を表す時間領域の音響信号を第2学習済モデルにより生成する処理と、
前記調波成分と前記非調波成分とを含む音声信号を前記周波数スペクトルの時系列と前記音響信号とから生成する処理と
をコンピュータに実行させるプログラムであって、
前記音響信号を生成する処理においては、前記合成音声が無声音となる無声区間において前記音響信号を生成し、前記合成音声が有声音となる有声区間において前記音響信号の生成を停止する、
プログラム。 - 合成音声の制御データに応じた調波成分の周波数スペクトルの時系列を第1学習済モデルにより生成する処理と、
前記制御データに応じた非調波成分の波形を表す時間領域の音響信号を第2学習済モデルにより生成する処理と、
前記調波成分と前記非調波成分とを含む音声信号を前記周波数スペクトルの時系列と前記音響信号とから生成する処理と
をコンピュータに実行させるプログラムであって、
前記合成音声が無声音となる無声区間における前記音響信号のサンプルのビット数は、前記合成音声が有声音となる有声区間における前記音響信号のサンプルのビット数を上回る、
プログラム。
Priority Applications (1)
| Application Number | Priority Date | Filing Date | Title |
|---|---|---|---|
| JP2020114265A JP6977818B2 (ja) | 2017-11-29 | 2020-07-01 | 音声合成方法、音声合成システムおよびプログラム |
Applications Claiming Priority (2)
| Application Number | Priority Date | Filing Date | Title |
|---|---|---|---|
| JP2017229041A JP6733644B2 (ja) | 2017-11-29 | 2017-11-29 | 音声合成方法、音声合成システムおよびプログラム |
| JP2020114265A JP6977818B2 (ja) | 2017-11-29 | 2020-07-01 | 音声合成方法、音声合成システムおよびプログラム |
Related Parent Applications (1)
| Application Number | Title | Priority Date | Filing Date |
|---|---|---|---|
| JP2017229041A Division JP6733644B2 (ja) | 2017-11-29 | 2017-11-29 | 音声合成方法、音声合成システムおよびプログラム |
Publications (3)
| Publication Number | Publication Date |
|---|---|
| JP2020166299A JP2020166299A (ja) | 2020-10-08 |
| JP2020166299A5 JP2020166299A5 (ja) | 2021-01-07 |
| JP6977818B2 true JP6977818B2 (ja) | 2021-12-08 |
Family
ID=72666035
Family Applications (1)
| Application Number | Title | Priority Date | Filing Date |
|---|---|---|---|
| JP2020114265A Active JP6977818B2 (ja) | 2017-11-29 | 2020-07-01 | 音声合成方法、音声合成システムおよびプログラム |
Country Status (1)
| Country | Link |
|---|---|
| JP (1) | JP6977818B2 (ja) |
Families Citing this family (4)
| Publication number | Priority date | Publication date | Assignee | Title |
|---|---|---|---|---|
| WO2019003349A1 (ja) * | 2017-06-28 | 2019-01-03 | ヤマハ株式会社 | 音発生装置及び方法 |
| US11545143B2 (en) * | 2021-05-18 | 2023-01-03 | Boris Fridman-Mintz | Recognition or synthesis of human-uttered harmonic sounds |
| KR102621842B1 (ko) * | 2021-08-31 | 2024-01-04 | 네이버 주식회사 | 비 자기회귀 음성 합성 방법 및 시스템 |
| CN119049445B (zh) * | 2024-07-15 | 2025-04-01 | 上海艾特欧数字娱乐科技有限公司 | 一种高表现力歌唱声音合成模型训练方法、合成方法及装置 |
Family Cites Families (5)
| Publication number | Priority date | Publication date | Assignee | Title |
|---|---|---|---|---|
| WO1995030193A1 (en) * | 1994-04-28 | 1995-11-09 | Motorola Inc. | A method and apparatus for converting text into audible signals using a neural network |
| JP4067762B2 (ja) * | 2000-12-28 | 2008-03-26 | ヤマハ株式会社 | 歌唱合成装置 |
| JP2002268660A (ja) * | 2001-03-13 | 2002-09-20 | Japan Science & Technology Corp | テキスト音声合成方法および装置 |
| JP5102939B2 (ja) * | 2005-04-08 | 2012-12-19 | ヤマハ株式会社 | 音声合成装置および音声合成プログラム |
| JPWO2011118207A1 (ja) * | 2010-03-25 | 2013-07-04 | 日本電気株式会社 | 音声合成装置、音声合成方法および音声合成プログラム |
-
2020
- 2020-07-01 JP JP2020114265A patent/JP6977818B2/ja active Active
Also Published As
| Publication number | Publication date |
|---|---|
| JP2020166299A (ja) | 2020-10-08 |
Similar Documents
| Publication | Publication Date | Title |
|---|---|---|
| JP6733644B2 (ja) | 音声合成方法、音声合成システムおよびプログラム | |
| JP6977818B2 (ja) | 音声合成方法、音声合成システムおよびプログラム | |
| JP6724932B2 (ja) | 音声合成方法、音声合成システムおよびプログラム | |
| JP6729539B2 (ja) | 音声合成方法、音声合成システムおよびプログラム | |
| JP7067669B2 (ja) | 音信号合成方法、生成モデルの訓練方法、音信号合成システムおよびプログラム | |
| JP6737320B2 (ja) | 音響処理方法、音響処理システムおよびプログラム | |
| JP2019061135A (ja) | 電子楽器、電子楽器の楽音発生方法、及びプログラム | |
| JP6821970B2 (ja) | 音声合成装置および音声合成方法 | |
| JP3966074B2 (ja) | ピッチ変換装置、ピッチ変換方法及びプログラム | |
| US11756558B2 (en) | Sound signal generation method, generative model training method, sound signal generation system, and recording medium | |
| JP3540159B2 (ja) | 音声変換装置及び音声変換方法 | |
| US20220084492A1 (en) | Generative model establishment method, generative model establishment system, recording medium, and training data preparation method | |
| JP2022065554A (ja) | 音声合成方法およびプログラム | |
| RU2591640C1 (ru) | Способ модификации голоса и устройство для его осуществления (варианты) | |
| JP5953743B2 (ja) | 音声合成装置及びプログラム | |
| JP2020166298A (ja) | 音声合成方法 | |
| JP3907838B2 (ja) | 音声変換装置及び音声変換方法 | |
| Takara et al. | A study on the pitch pattern of a singing voice synthesis system based on the cepstral method. |
Legal Events
| Date | Code | Title | Description |
|---|---|---|---|
| A521 | Request for written amendment filed |
Free format text: JAPANESE INTERMEDIATE CODE: A523 Effective date: 20201118 |
|
| A621 | Written request for application examination |
Free format text: JAPANESE INTERMEDIATE CODE: A621 Effective date: 20201118 |
|
| A977 | Report on retrieval |
Free format text: JAPANESE INTERMEDIATE CODE: A971007 Effective date: 20210929 |
|
| TRDD | Decision of grant or rejection written | ||
| A01 | Written decision to grant a patent or to grant a registration (utility model) |
Free format text: JAPANESE INTERMEDIATE CODE: A01 Effective date: 20211012 |
|
| A61 | First payment of annual fees (during grant procedure) |
Free format text: JAPANESE INTERMEDIATE CODE: A61 Effective date: 20211025 |
|
| R151 | Written notification of patent or utility model registration |
Ref document number: 6977818 Country of ref document: JP Free format text: JAPANESE INTERMEDIATE CODE: R151 |
|
| S531 | Written request for registration of change of domicile |
Free format text: JAPANESE INTERMEDIATE CODE: R313532 |
|
| R350 | Written notification of registration of transfer |
Free format text: JAPANESE INTERMEDIATE CODE: R350 |