JP7139628B2 - 音処理方法および音処理装置 - Google Patents
音処理方法および音処理装置 Download PDFInfo
- Publication number
- JP7139628B2 JP7139628B2 JP2018043116A JP2018043116A JP7139628B2 JP 7139628 B2 JP7139628 B2 JP 7139628B2 JP 2018043116 A JP2018043116 A JP 2018043116A JP 2018043116 A JP2018043116 A JP 2018043116A JP 7139628 B2 JP7139628 B2 JP 7139628B2
- Authority
- JP
- Japan
- Prior art keywords
- sound
- sound signal
- period
- time
- spectral envelope
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Active
Links
- 238000012545 processing Methods 0.000 title claims description 154
- 238000003672 processing method Methods 0.000 title claims description 7
- 230000005236 sound signal Effects 0.000 claims description 247
- 230000003595 spectral effect Effects 0.000 claims description 150
- 230000002194 synthesizing effect Effects 0.000 claims description 18
- 230000002123 temporal effect Effects 0.000 claims description 16
- 230000014509 gene expression Effects 0.000 description 59
- 238000004458 analytical method Methods 0.000 description 47
- 230000015572 biosynthetic process Effects 0.000 description 33
- 238000000034 method Methods 0.000 description 33
- 238000003786 synthesis reaction Methods 0.000 description 33
- 238000001228 spectrum Methods 0.000 description 23
- 230000008859 change Effects 0.000 description 15
- 230000008569 process Effects 0.000 description 12
- 238000010586 diagram Methods 0.000 description 10
- 230000006870 function Effects 0.000 description 9
- 238000004364 calculation method Methods 0.000 description 5
- 238000009499 grossing Methods 0.000 description 5
- 206010013952 Dysphonia Diseases 0.000 description 3
- 238000013459 approach Methods 0.000 description 3
- 230000006837 decompression Effects 0.000 description 3
- 230000007423 decrease Effects 0.000 description 2
- 208000027498 hoarse voice Diseases 0.000 description 2
- 238000012935 Averaging Methods 0.000 description 1
- 208000010473 Hoarseness Diseases 0.000 description 1
- 238000004891 communication Methods 0.000 description 1
- 238000012217 deletion Methods 0.000 description 1
- 230000037430 deletion Effects 0.000 description 1
- 230000008921 facial expression Effects 0.000 description 1
- 230000006872 improvement Effects 0.000 description 1
- 238000013507 mapping Methods 0.000 description 1
- 238000012986 modification Methods 0.000 description 1
- 230000004048 modification Effects 0.000 description 1
- 230000003287 optical effect Effects 0.000 description 1
- 238000012887 quadratic function Methods 0.000 description 1
- 239000004065 semiconductor Substances 0.000 description 1
- 238000013179 statistical model Methods 0.000 description 1
- 230000001131 transforming effect Effects 0.000 description 1
- 230000001755 vocal effect Effects 0.000 description 1
Images
Classifications
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L21/00—Speech or voice signal processing techniques to produce another audible or non-audible signal, e.g. visual or tactile, in order to modify its quality or its intelligibility
- G10L21/003—Changing voice quality, e.g. pitch or formants
- G10L21/007—Changing voice quality, e.g. pitch or formants characterised by the process used
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L13/00—Speech synthesis; Text to speech systems
- G10L13/02—Methods for producing synthetic speech; Speech synthesisers
- G10L13/033—Voice editing, e.g. manipulating the voice of the synthesiser
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L21/00—Speech or voice signal processing techniques to produce another audible or non-audible signal, e.g. visual or tactile, in order to modify its quality or its intelligibility
- G10L21/003—Changing voice quality, e.g. pitch or formants
- G10L21/007—Changing voice quality, e.g. pitch or formants characterised by the process used
- G10L21/01—Correction of time axis
Landscapes
- Engineering & Computer Science (AREA)
- Quality & Reliability (AREA)
- Multimedia (AREA)
- Health & Medical Sciences (AREA)
- Audiology, Speech & Language Pathology (AREA)
- Human Computer Interaction (AREA)
- Physics & Mathematics (AREA)
- Acoustics & Sound (AREA)
- Computational Linguistics (AREA)
- Signal Processing (AREA)
- Reverberation, Karaoke And Other Acoustics (AREA)
- Electrophonic Musical Instruments (AREA)
- Auxiliary Devices For Music (AREA)
Description
図7は、リリース処理部32が実行するリリース処理S2の具体的な内容を例示するフローチャートである。第1音信号X1の定常期間Q1毎に図7のリリース処理S2が実行される。
[条件Cr1]定常期間Q1の時間長が所定値を下回る。
[条件Cr2]定常期間Q1の直後の無声期間の時間長が所定値を下回る。
[条件Cr3]定常期間Q1に後続する有声期間Vrの時間長が所定値を上回る。
リリース処理部32は、第1音信号X1のうち第2音信号X2の音表現が付加される期間(以下「処理期間」という)Z1_Rを時間軸上で伸縮する(S24)。図8に例示される通り、処理期間Z1_Rは、音表現の付加が開始される時刻(以下「合成開始時刻」という)Tm_Rから定常期間Q1の直後の有声期間Vrの終点時刻τ1_Rまでの期間である。合成開始時刻Tm_Rは、歌唱音声の定常期間Q1の始点時刻T1_Sと参照音声の定常期間Q2の始点時刻T2_Sとのうち後方の時刻である。図8の例示の通り、定常期間Q2の始点時刻T2_Sが定常期間Q1の始点時刻T1_Sの後方に位置する場合には、定常期間Q2の始点時刻T2_Sが合成開始時刻Tm_Rとして設定される。ただし、合成開始時刻Tm_Rは始点時刻T2_Sに限定されない。
リリース処理部32は、歌唱音声の伸長後の処理期間Z1_Rと参照音声の表現期間Z2_Rとの間でスペクトル包絡概形を合成する。第1音信号X1のスペクトル包絡概形G1は、図9に例示される通り、第1音信号X1の周波数スペクトルg1の概形であるスペクトル包絡g2を周波数領域で更に平滑化した強度分布を意味する。具体的には、音韻性(音韻に依存した差異)および個人性(発声者に依存した差異)が知覚できなくなる程度にスペクトル包絡g2を平滑化した強度分布がスペクトル包絡概形G1である。例えばスペクトル包絡g2を表すメルケプストラムの複数の係数のうち低次側に位置する所定個の係数によりスペクトル包絡概形G1が表現される。以上の説明では第1音信号X1のスペクトル包絡概形G1に着目したが、第2音信号X2のスペクトル包絡概形G2も同様である。
図10は、アタック処理部31が実行するアタック処理S1の具体的な内容を例示するフローチャートである。第1音信号X1の定常期間Q1毎に図10のアタック処理S1が実行される。なお、アタック処理S1の具体的な手順はリリース処理S2と同様である。
[条件Ca1]定常期間Q1の時間長が所定値を下回る。
[条件Ca2]定常期間Q1内で平滑化した基本周波数f1の変動幅が所定値を上回る。
[条件Ca3]定常期間Q1のうち始点を含む所定長の期間内で平滑化した基本周波数f1の変動幅が所定値を上回る。
[条件Ca4]定常期間Q1の直前の有声期間Vaの時間長が所定値を上回る。
[条件Ca5]定常期間Q1の直前の有声期間Vaにおける基本周波数f1の変動幅が所定値を上回る。
アタック処理部31は、第1音信号X1のうち第2音信号X2の音表現が付加される処理期間Z1_Aを時間軸上で伸長する(S14)。処理期間Z1_Aは、定常期間Q1の直前の有声期間Vaの始点時刻τ1_Aから音表現の付加が終了される時刻(以下「合成終了時刻」という)Tm_Aまでの期間である。合成終了時刻Tm_Aは、例えば定常期間Q1の始点時刻T1_S(定常期間Q2の始点時刻T2_S)である。すなわち、アタック処理S1においては、定常期間Q1の前方の有声期間Vaが処理期間Z1_Aとして伸長される。前述の通り、定常期間Q1は楽曲の音符に相当する期間である。有声期間Vaを伸長し、定常期間Q1は伸長しない構成によれば、定常期間Q1の始点時刻T1_Sの変化が抑制される。すなわち、歌唱音声における音符の先頭が前後に移動する可能性を低減できる。
以上に例示した各態様に付加される具体的な変形の態様を以下に例示する。以下の例示から任意に選択された2個以上の態様を、相互に矛盾しない範囲で適宜に併合してもよい。
以上に例示した形態から、例えば以下の構成が把握される。
なお、スペクトル包絡概形は、スペクトル包絡の概形である。具体的には、音韻性(音韻間の差異)および個人性(発話者間の差異)が知覚できなくなる程度にスペクトル包絡を平滑化した周波数軸上の強度分布がスペクトル包絡概形に相当する。周波数スペクトルの概形を表すメルケプストラムの複数の係数のうち低次側に位置する所定個の係数によりスペクトル包絡概形が表現される。
Claims (8)
- 第1音を表す第1音信号における第1スペクトル包絡概形と、前記第1音信号のうち第1時点の第1基準スペクトル包絡概形との差分である第1差分と、
前記第1音とは音響特性が相違する第2音を表す第2音信号における第2スペクトル包絡概形と、前記第2音信号のうち第2時点の第2基準スペクトル包絡概形との差分である第2差分と
を前記第1スペクトル包絡概形に合成することで、前記第1音を前記第2音に応じて変形した変形音を表す第3音信号における合成スペクトル包絡概形を生成する、
コンピュータにより実現される音処理方法。 - 前記第1音信号のうちスペクトル形状が時間的に安定する第1定常期間と、前記第2音信号のうちスペクトル形状が時間的に安定する第2定常期間との間で終点が一致するように前記第1音信号と前記第2音信号との時間的な位置を調整したときに、前記第1時点および前記第2時点は、前記第1定常期間の始点および前記第2定常期間の始点のうち後方の時点である
請求項1の音処理方法。 - 前記第1音信号のうちスペクトル形状が時間的に安定する第1定常期間と、前記第2音信号のうちスペクトル形状が時間的に安定する第2定常期間との間で始点が一致するように前記第1音信号と前記第2音信号との時間的な位置を調整したときに、前記第1時点および前記第2時点は、前記第1定常期間の始点である
請求項1の音処理方法。 - 前記合成スペクトル包絡概形の生成においては、
前記第1スペクトル包絡概形に対して、
前記第1差分に第1係数を乗算した結果を減算し、
前記第2差分に第2係数を乗算した結果を加算する
請求項1から請求項3の何れかの音処理方法。 - 第1音を表す第1音信号における第1スペクトル包絡概形と、前記第1音信号のうち第1時点の第1基準スペクトル包絡概形との差分である第1差分と、
前記第1音とは音響特性が相違する第2音を表す第2音信号における第2スペクトル包絡概形と、前記第2音信号のうち第2時点の第2基準スペクトル包絡概形との差分である第2差分と
を前記第1スペクトル包絡概形に合成することで、前記第1音を前記第2音に応じて変形した変形音を表す第3音信号における合成スペクトル包絡概形を生成する合成処理部
を具備する音処理装置。 - 前記第1音信号のうちスペクトル形状が時間的に安定する第1定常期間と、前記第2音信号のうちスペクトル形状が時間的に安定する第2定常期間との間で終点が一致するように前記第1音信号と前記第2音信号との時間的な位置を調整したときに、前記第1時点および前記第2時点は、前記第1定常期間の始点および前記第2定常期間の始点のうち後方の時点である
請求項5の音処理装置。 - 前記第1音信号のうちスペクトル形状が時間的に安定する第1定常期間と、前記第2音信号のうちスペクトル形状が時間的に安定する第2定常期間との間で始点が一致するように前記第1音信号と前記第2音信号との時間的な位置を調整したときに、前記第1時点および前記第2時点は、前記第1定常期間の始点である
請求項5の音処理装置。 - 前記合成処理部は、前記第1スペクトル包絡概形に対して、前記第1差分に第1係数を乗算した結果を減算し、前記第2差分に第2係数を乗算した結果を加算する
請求項5から請求項7の何れかの音処理装置。
Priority Applications (5)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
JP2018043116A JP7139628B2 (ja) | 2018-03-09 | 2018-03-09 | 音処理方法および音処理装置 |
PCT/JP2019/009220 WO2019172397A1 (ja) | 2018-03-09 | 2019-03-08 | 音処理方法、音処理装置および記録媒体 |
CN201980017203.2A CN111837183A (zh) | 2018-03-09 | 2019-03-08 | 声音处理方法、声音处理装置及记录介质 |
EP19763716.8A EP3764357A4 (en) | 2018-03-09 | 2019-03-08 | VOICE PROCESSING METHOD, VOICE PROCESSING DEVICE AND RECORDING MEDIA |
US17/014,312 US11646044B2 (en) | 2018-03-09 | 2020-09-08 | Sound processing method, sound processing apparatus, and recording medium |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
JP2018043116A JP7139628B2 (ja) | 2018-03-09 | 2018-03-09 | 音処理方法および音処理装置 |
Publications (2)
Publication Number | Publication Date |
---|---|
JP2019159012A JP2019159012A (ja) | 2019-09-19 |
JP7139628B2 true JP7139628B2 (ja) | 2022-09-21 |
Family
ID=67847157
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
JP2018043116A Active JP7139628B2 (ja) | 2018-03-09 | 2018-03-09 | 音処理方法および音処理装置 |
Country Status (5)
Country | Link |
---|---|
US (1) | US11646044B2 (ja) |
EP (1) | EP3764357A4 (ja) |
JP (1) | JP7139628B2 (ja) |
CN (1) | CN111837183A (ja) |
WO (1) | WO2019172397A1 (ja) |
Families Citing this family (3)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
JP7439433B2 (ja) * | 2019-09-27 | 2024-02-28 | ヤマハ株式会社 | 表示制御方法、表示制御装置およびプログラム |
JP7439432B2 (ja) * | 2019-09-27 | 2024-02-28 | ヤマハ株式会社 | 音響処理方法、音響処理装置およびプログラム |
JP7484118B2 (ja) * | 2019-09-27 | 2024-05-16 | ヤマハ株式会社 | 音響処理方法、音響処理装置およびプログラム |
Citations (1)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
JP2017203963A (ja) | 2016-05-13 | 2017-11-16 | 日本放送協会 | 音声加工装置、及びプログラム |
Family Cites Families (22)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
JP3035939B2 (ja) * | 1989-11-30 | 2000-04-24 | 日本電気株式会社 | 音声分析合成装置 |
JP3240908B2 (ja) * | 1996-03-05 | 2001-12-25 | 日本電信電話株式会社 | 声質変換方法 |
JP3259759B2 (ja) * | 1996-07-22 | 2002-02-25 | 日本電気株式会社 | 音声信号伝送方法及び音声符号復号化システム |
JP3444396B2 (ja) * | 1996-09-11 | 2003-09-08 | 日本電信電話株式会社 | 音声合成方法、その装置及びプログラム記録媒体 |
KR100351590B1 (ko) * | 2000-12-19 | 2002-09-05 | (주)신종 | 음성 변환 방법 |
JP2006030609A (ja) * | 2004-07-16 | 2006-02-02 | Yamaha Corp | 音声合成データ生成装置、音声合成装置、音声合成データ生成プログラム及び音声合成プログラム |
JP4349316B2 (ja) * | 2005-04-28 | 2009-10-21 | ヤマハ株式会社 | 音声分析及び合成装置、方法、プログラム |
JP5141688B2 (ja) * | 2007-09-06 | 2013-02-13 | 富士通株式会社 | 音信号生成方法、音信号生成装置及びコンピュータプログラム |
JP2009284110A (ja) * | 2008-05-20 | 2009-12-03 | Funai Electric Advanced Applied Technology Research Institute Inc | 音声入力装置及びその製造方法、並びに、情報処理システム |
JP5038995B2 (ja) * | 2008-08-25 | 2012-10-03 | 株式会社東芝 | 声質変換装置及び方法、音声合成装置及び方法 |
JP2010250131A (ja) * | 2009-04-16 | 2010-11-04 | Victor Co Of Japan Ltd | 雑音除去装置 |
AU2016204672B2 (en) * | 2010-07-02 | 2016-08-18 | Dolby International Ab | Audio encoder and decoder with multiple coding modes |
CN102456352A (zh) * | 2010-10-26 | 2012-05-16 | 深圳Tcl新技术有限公司 | 一种背景音频处理装置以及处理方法 |
BR112013020987B1 (pt) * | 2011-02-18 | 2021-01-19 | Ntt Docomo, Inc. | Decodificador de fala, codificador de fala, método de decodificação de fala, método decodificação de fala e memórias legíveis por computador. |
JP5772739B2 (ja) * | 2012-06-21 | 2015-09-02 | ヤマハ株式会社 | 音声処理装置 |
US9159329B1 (en) * | 2012-12-05 | 2015-10-13 | Google Inc. | Statistical post-filtering for hidden Markov modeling (HMM)-based speech synthesis |
CN104978970B (zh) * | 2014-04-08 | 2019-02-12 | 华为技术有限公司 | 一种噪声信号的处理和生成方法、编解码器和编解码系统 |
WO2016045706A1 (en) * | 2014-09-23 | 2016-03-31 | Binauric SE | Method and apparatus for generating a directional sound signal from first and second sound signals |
CN106205623B (zh) * | 2016-06-17 | 2019-05-21 | 福建星网视易信息系统有限公司 | 一种声音转换方法及装置 |
JP6821970B2 (ja) * | 2016-06-30 | 2021-01-27 | ヤマハ株式会社 | 音声合成装置および音声合成方法 |
WO2018084305A1 (ja) * | 2016-11-07 | 2018-05-11 | ヤマハ株式会社 | 音声合成方法 |
US10504538B2 (en) * | 2017-06-01 | 2019-12-10 | Sorenson Ip Holdings, Llc | Noise reduction by application of two thresholds in each frequency band in audio signals |
-
2018
- 2018-03-09 JP JP2018043116A patent/JP7139628B2/ja active Active
-
2019
- 2019-03-08 EP EP19763716.8A patent/EP3764357A4/en not_active Withdrawn
- 2019-03-08 WO PCT/JP2019/009220 patent/WO2019172397A1/ja active Application Filing
- 2019-03-08 CN CN201980017203.2A patent/CN111837183A/zh not_active Withdrawn
-
2020
- 2020-09-08 US US17/014,312 patent/US11646044B2/en active Active
Patent Citations (1)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
JP2017203963A (ja) | 2016-05-13 | 2017-11-16 | 日本放送協会 | 音声加工装置、及びプログラム |
Non-Patent Citations (1)
Title |
---|
東 晃弘,周波数非線形伸縮を用いた対数パワースペクトル包絡のモーフィングによる声質変換,電子情報通信学会論文誌 第2号,日本,社団法人電子情報通信学会,2001年02月,第J84-A巻,第2号,P. 238-242 |
Also Published As
Publication number | Publication date |
---|---|
JP2019159012A (ja) | 2019-09-19 |
WO2019172397A1 (ja) | 2019-09-12 |
US11646044B2 (en) | 2023-05-09 |
US20200402525A1 (en) | 2020-12-24 |
CN111837183A (zh) | 2020-10-27 |
EP3764357A4 (en) | 2022-04-20 |
EP3764357A1 (en) | 2021-01-13 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
JP5961950B2 (ja) | 音声処理装置 | |
EP3065130B1 (en) | Voice synthesis | |
JP6724932B2 (ja) | 音声合成方法、音声合成システムおよびプログラム | |
JP2010014913A (ja) | 声質変換音声生成装置および声質変換音声生成システム | |
JP7139628B2 (ja) | 音処理方法および音処理装置 | |
CN109416911B (zh) | 声音合成装置及声音合成方法 | |
JP7147211B2 (ja) | 情報処理方法および情報処理装置 | |
WO2010050103A1 (ja) | 音声合成装置 | |
JP7200483B2 (ja) | 音声処理方法、音声処理装置およびプログラム | |
JP7106897B2 (ja) | 音声処理方法、音声処理装置およびプログラム | |
JP6011039B2 (ja) | 音声合成装置および音声合成方法 | |
JP6747236B2 (ja) | 音響解析方法および音響解析装置 | |
JP5573529B2 (ja) | 音声処理装置およびプログラム | |
WO2019172396A1 (ja) | 音声処理方法、音声処理装置および記録媒体 | |
JP2015079122A (ja) | 音響処理装置 | |
JP6191094B2 (ja) | 音声素片切出装置 | |
WO2022190403A1 (ja) | 信号処理システム、信号処理方法およびプログラム | |
JP6784137B2 (ja) | 音響解析方法および音響解析装置 | |
JP2018072370A (ja) | 音響解析方法および音響解析装置 |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
A621 | Written request for application examination |
Free format text: JAPANESE INTERMEDIATE CODE: A621 Effective date: 20210121 |
|
A131 | Notification of reasons for refusal |
Free format text: JAPANESE INTERMEDIATE CODE: A131 Effective date: 20220215 |
|
A521 | Request for written amendment filed |
Free format text: JAPANESE INTERMEDIATE CODE: A523 Effective date: 20220408 |
|
TRDD | Decision of grant or rejection written | ||
A01 | Written decision to grant a patent or to grant a registration (utility model) |
Free format text: JAPANESE INTERMEDIATE CODE: A01 Effective date: 20220809 |
|
A61 | First payment of annual fees (during grant procedure) |
Free format text: JAPANESE INTERMEDIATE CODE: A61 Effective date: 20220822 |
|
R151 | Written notification of patent or utility model registration |
Ref document number: 7139628 Country of ref document: JP Free format text: JAPANESE INTERMEDIATE CODE: R151 |
|
S531 | Written request for registration of change of domicile |
Free format text: JAPANESE INTERMEDIATE CODE: R313532 |
|
R350 | Written notification of registration of transfer |
Free format text: JAPANESE INTERMEDIATE CODE: R350 |