KR102752064B1 - 자기지도 학습기반 통합 음성 합성 방법 및 장치 - Google Patents
자기지도 학습기반 통합 음성 합성 방법 및 장치 Download PDFInfo
- Publication number
- KR102752064B1 KR102752064B1 KR1020230047906A KR20230047906A KR102752064B1 KR 102752064 B1 KR102752064 B1 KR 102752064B1 KR 1020230047906 A KR1020230047906 A KR 1020230047906A KR 20230047906 A KR20230047906 A KR 20230047906A KR 102752064 B1 KR102752064 B1 KR 102752064B1
- Authority
- KR
- South Korea
- Prior art keywords
- voice
- speech
- learning
- synthesis
- features
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Active
Links
- 238000000034 method Methods 0.000 title claims description 33
- 230000002194 synthesizing effect Effects 0.000 title claims description 23
- 238000004458 analytical method Methods 0.000 claims abstract description 161
- 238000012549 training Methods 0.000 claims abstract description 68
- 238000001308 synthesis method Methods 0.000 claims abstract description 61
- 230000015572 biosynthetic process Effects 0.000 claims description 377
- 238000003786 synthesis reaction Methods 0.000 claims description 377
- 238000013528 artificial neural network Methods 0.000 claims description 154
- 238000001228 spectrum Methods 0.000 claims description 20
- 230000005284 excitation Effects 0.000 claims description 17
- 238000006243 chemical reaction Methods 0.000 claims description 12
- 238000013461 design Methods 0.000 claims description 4
- 230000000737 periodic effect Effects 0.000 description 39
- 238000013473 artificial intelligence Methods 0.000 description 15
- 238000010586 diagram Methods 0.000 description 14
- 238000005516 engineering process Methods 0.000 description 10
- 238000010801 machine learning Methods 0.000 description 8
- 230000001537 neural effect Effects 0.000 description 6
- 230000008569 process Effects 0.000 description 6
- 230000006870 function Effects 0.000 description 5
- 239000000284 extract Substances 0.000 description 4
- 238000004364 calculation method Methods 0.000 description 3
- 230000014509 gene expression Effects 0.000 description 3
- 238000010606 normalization Methods 0.000 description 3
- 238000012545 processing Methods 0.000 description 3
- 238000005070 sampling Methods 0.000 description 3
- 230000008859 change Effects 0.000 description 2
- 238000012986 modification Methods 0.000 description 2
- 230000004048 modification Effects 0.000 description 2
- 210000000056 organ Anatomy 0.000 description 2
- 230000001755 vocal effect Effects 0.000 description 2
- 230000002776 aggregation Effects 0.000 description 1
- 238000004220 aggregation Methods 0.000 description 1
- 238000004891 communication Methods 0.000 description 1
- 238000004590 computer program Methods 0.000 description 1
- 230000008451 emotion Effects 0.000 description 1
- 210000000867 larynx Anatomy 0.000 description 1
- 230000003287 optical effect Effects 0.000 description 1
- PIRWNASAJNPKHT-SHZATDIYSA-N pamp Chemical compound C([C@@H](C(=O)N[C@@H](CCCNC(N)=N)C(=O)N[C@@H](CCCCN)C(=O)N[C@@H](CCCCN)C(=O)N[C@@H](CC=1C2=CC=CC=C2NC=1)C(=O)N[C@@H](CC(N)=O)C(=O)N[C@@H](CCCCN)C(=O)N[C@@H](CC=1C2=CC=CC=C2NC=1)C(=O)N[C@@H](C)C(=O)N[C@@H](CC(C)C)C(=O)N[C@@H](CO)C(=O)N[C@@H](CCCNC(N)=N)C(N)=O)NC(=O)[C@H](CCC(O)=O)NC(=O)[C@H](CO)NC(=O)[C@H](C)NC(=O)[C@@H](NC(=O)[C@H](CC(O)=O)NC(=O)[C@H](CC(C)C)NC(=O)[C@H](CCCNC(N)=N)NC(=O)[C@H](C)N)C(C)C)C1=CC=CC=C1 PIRWNASAJNPKHT-SHZATDIYSA-N 0.000 description 1
- 238000011176 pooling Methods 0.000 description 1
- 230000033764 rhythmic process Effects 0.000 description 1
- 210000001260 vocal cord Anatomy 0.000 description 1
Classifications
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L13/00—Speech synthesis; Text to speech systems
- G10L13/08—Text analysis or generation of parameters for speech synthesis out of text, e.g. grapheme to phoneme translation, prosody generation or stress or intonation determination
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06N—COMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
- G06N3/00—Computing arrangements based on biological models
- G06N3/02—Neural networks
- G06N3/08—Learning methods
- G06N3/0895—Weakly supervised learning, e.g. semi-supervised or self-supervised learning
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L13/00—Speech synthesis; Text to speech systems
- G10L13/02—Methods for producing synthetic speech; Speech synthesisers
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L13/00—Speech synthesis; Text to speech systems
- G10L13/02—Methods for producing synthetic speech; Speech synthesisers
- G10L13/033—Voice editing, e.g. manipulating the voice of the synthesiser
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L13/00—Speech synthesis; Text to speech systems
- G10L13/02—Methods for producing synthetic speech; Speech synthesisers
- G10L13/033—Voice editing, e.g. manipulating the voice of the synthesiser
- G10L13/0335—Pitch control
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L13/00—Speech synthesis; Text to speech systems
- G10L13/02—Methods for producing synthetic speech; Speech synthesisers
- G10L13/04—Details of speech synthesis systems, e.g. synthesiser structure or memory management
- G10L13/047—Architecture of speech synthesisers
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L25/00—Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00
- G10L25/03—Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00 characterised by the type of extracted parameters
- G10L25/15—Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00 characterised by the type of extracted parameters the extracted parameters being formant information
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L25/00—Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00
- G10L25/03—Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00 characterised by the type of extracted parameters
- G10L25/18—Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00 characterised by the type of extracted parameters the extracted parameters being spectral information of each sub-band
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L25/00—Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00
- G10L25/27—Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00 characterised by the analysis technique
- G10L25/30—Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00 characterised by the analysis technique using neural networks
Landscapes
- Engineering & Computer Science (AREA)
- Physics & Mathematics (AREA)
- Computational Linguistics (AREA)
- Health & Medical Sciences (AREA)
- Acoustics & Sound (AREA)
- Human Computer Interaction (AREA)
- Multimedia (AREA)
- Audiology, Speech & Language Pathology (AREA)
- Signal Processing (AREA)
- Spectroscopy & Molecular Physics (AREA)
- Theoretical Computer Science (AREA)
- Evolutionary Computation (AREA)
- Artificial Intelligence (AREA)
- Biomedical Technology (AREA)
- Data Mining & Analysis (AREA)
- Biophysics (AREA)
- General Health & Medical Sciences (AREA)
- Molecular Biology (AREA)
- Computing Systems (AREA)
- General Engineering & Computer Science (AREA)
- General Physics & Mathematics (AREA)
- Mathematical Physics (AREA)
- Software Systems (AREA)
- Life Sciences & Earth Sciences (AREA)
- Machine Translation (AREA)
- Electrically Operated Instructional Devices (AREA)
Abstract
Description
도 2는 도 1에 도시된 음성합성장치에서 음성분석모듈 및 음성합성모듈을 트레이닝하는 과정을 도시한 예시도이다.
도 3은 음고 인코더의 상세 구조도이다.
도 4는 발음 인코더의 상세 구조도이다.
도 5는 음색 인코더의 상세 구조도이다.
도 6은 프레임 레벨 합성 인공신경망의 상세 구조도이다.
도 7은 시간변화음색 인공신경망의 상세 구조도이다.
도 8은 본 발명의 일 실시예에 따른 자기지도 학습 기반의 음성합성방법의 흐름도이다.
도 9는 본 발명의 일 실시예에 따른 자기지도학습 기반의 가창음성합성방법의 흐름도이다.
도 10은 본 발명의 다른 실시예에 따른 자기지도학습 기반의 변조음성 합성방법의 흐름도이다.
도 11은 본 발명의 또 다른 실시예에 따른 자기지도학습 기반의 TTS 합성방법의 흐름도이다.
101: 프로세서 102: 입력모듈
103: 음성분석모듈
1031: 음고 인코더 1032: 발음 인코더
1033: 음색 인코더
104: 음성합성모듈
1041: 사인파 노이즈 생성기 1042: 프레임 레벨 합성 인공신경망
1043: 시간변화음색 인공신경망 1044: 샘플 레벨 합성 인공신경망
105: 가창음성합성모듈 106: 음성설계모듈
107: 텍스트음성변환모듈 108: 출력모듈
109: 스토리지
Claims (13)
- 자기지도 학습 기반의 음성합성방법에 있어서,
학습용 음성을 나타내는 학습용 음성 신호를 이용하여 상기 학습용 음성 신호에 대한 음성 특징을 출력하도록 음성분석모듈에 대한 학습을 수행하고, 상기 학습용 음성에 대한 음성 특징을 출력하는 단계; 및
상기 출력된 음성 특징을 이용하여. 상기 학습용 음성의 음성 특징으로부터 음성 신호를 합성하도록 음성합성모듈에 대한 학습을 수행하고, 상기 출력된 음성 특징으로부터 합성 음성을 나타내는 합성 음성 신호를 합성하는 단계를 포함하고,
상기 학습용 음성의 음성 특징은 학습용 음성의 기초 주파수 F0, 진폭, 발음 특징 및 음색 특징을 포함하고,
상기 학습용 음성에 대한 음성 특징을 출력하는 단계는
상기 학습용 음성 신호를 복수 개의 주파수 빈의 확률분포 스펙트럼으로 변환하고, 변환된 확률분포 스펙트럼으로부터 상기 학습용 음성의 기초 주파수 F0 및 진폭을 출력하는 단계;
상기 학습용 음성 신호로부터 상기 학습용 음성에 포함된 텍스트의 발음 특징을 출력하는 단계; 및
상기 학습용 음성 신호를 스펙트로그램으로 변환하고, 변환된 스펙트로그램부터 상기 학습용 음성의 음색 특징을 출력하는 단계를 포함하고,
상기 출력된 음성 특징으로부터 합성 음성을 나타내는 합성 음성 신호를 합성하는 단계는
상기 학습용 음성의 기초 주파수 F0 및 진폭에 기초하여, 입력 여기 신호(input excitation signal)를 생성하는 단계;
상기 학습용 음성의 음색 특징에 기초하여, 시간-변화음색 임베딩(time-varying embedding)을 생성하는 단계;
상기 학습용 음성의 발음 특징 및 상기 생성된 시간-변화음색 임베딩에 기초하여, 상기 합성 음성에 대한 프레임-레벨 컨디션을 생성하는 단계; 및
상기 입력 여기 신호 및 상기 프레임-레벨 컨디션에 기초하여, 상기 합성 음성을 나타내는 합성 음성 신호를 합성하는 단계를 포함하는 것을 특징으로 하는 자기지도 학습 기반의 음성합성방법. - 제 1 항에 있어서,
상기 학습용 음성 신호 및 상기 합성 음성 신호에 기초하여, 상기 학습용 음성 신호 및 상기 합성 음성 신호의 재구성 손실을 산출하고, 산출된 재구성 손실에 기초하여 상기 음성분석모듈 및 상기 음성합성모듈에 대한 학습을 수행하는 단계를 더 포함하는 것을 특징으로 하는 자기지도 학습 기반의 음성합성방법. - 삭제
- 삭제
- 삭제
- 자기지도 학습 기반의 음성합성장치에 있어서,
학습용 음성을 나타내는 학습용 음성 신호를 이용하여 상기 학습용 음성 신호에 대한 음성 특징을 출력하도록 음성분석모듈에 대한 학습을 수행하고, 상기 학습용 음성에 대한 음성 특징을 출력하는 음성분석모듈(103); 및
상기 출력된 음성 특징을 이용하여. 상기 학습용 음성의 음성 특징으로부터 음성 신호를 합성하도록 음성합성모듈에 대한 학습을 수행하고, 상기 출력된 음성 특징으로부터 합성 음성을 나타내는 합성 음성 신호를 합성하는 음성합성모듈(104)을 포함하고,
상기 학습용 음성의 음성 특징은 학습용 음성의 기초 주파수 F0, 진폭, 발음 특징 및 음색 특징을 포함하고,
상기 음성분석모듈(103)은
상기 학습용 음성 신호를 복수 개의 주파수 빈의 확률분포 스펙트럼으로 변환하고, 변환된 확률분포 스펙트럼으로부터 상기 학습용 음성의 기초 주파수 F0 및 진폭을 출력하는 음고 인코더(1031);
상기 학습용 음성 신호로부터 상기 학습용 음성에 포함된 텍스트의 발음 특징을 출력하는 발음 인코더(1032); 및
상기 학습용 음성 신호를 스펙트로그램으로 변환하고, 변환된 스펙트로그램부터 상기 학습용 음성의 음색 특징을 출력하는 음색 인코더(1033)를 포함하고,
상기 음성합성모듈(104)은
상기 학습용 음성의 기초 주파수 F0 및 진폭에 기초하여, 입력 여기 신호(input excitation signal)를 생성하는 사인파 노이즈 생성기(1041);
상기 학습용 음성의 음색 특징에 기초하여, 시간-변화음색 임베딩(time-varying embedding)을 생성하는 시간변화음색 인공신경망(1043);
상기 학습용 음성의 발음 특징 및 상기 생성된 시간-변화음색 임베딩에 기초하여, 상기 합성 음성에 대한 프레임-레벨 컨디션을 생성하는 프레임 레벨 합성 인공신경망(1042); 및
상기 입력 여기 신호 및 상기 프레임-레벨 컨디션에 기초하여, 상기 합성 음성을 나타내는 합성 음성 신호를 합성하는 샘플-레벨 합성 인공신경망(1044)을 포함하는 것을 특징으로 하는 음성합성장치. - 학습용 음성을 나타내는 학습용 음성 신호를 이용하여 상기 학습용 음성 신호에 대한 음성 특징을 출력하도록 음성분석모듈에 대한 학습을 수행하고, 상기 학습용 음성에 대한 음성 특징을 출력하는 음성분석모듈, 및 상기 출력된 음성 특징을 이용하여. 상기 학습용 음성의 음성 특징으로부터 음성 신호를 합성하도록 음성합성모듈에 대한 학습을 수행하고, 상기 출력된 음성 특징으로부터 합성 음성을 나타내는 합성 음성 신호를 합성하는 음성합성모듈을 포함하는 음성합성장치에서 실행되는 자기지도 학습 기반의 가창음성합성방법에 있어서,
합성대상노래 및 합성대상가수를 포함하는 가창음성 합성요청을 획득하는 단계;
상기 가창음성 합성요청에 기초하여, 상기 합성대상가수와 연관된 음성 신호를 획득하는 단계;
SVS(singing voice synthesis) 모듈에서, 상기 가창음성 합성요청 및 상기 합성대상가수와 연관된 음성 신호에 기초하여, 상기 합성대상노래 및 상기 합성대상가수에 대한 기초 주파수 F0, 진폭 및 발음 특징을 포함하는 가창음성특징을 생성하는 단계;
상기 음성분석모듈에서, 상기 획득된 합성대상가수와 연관된 음성 신호에 기초하여 상기 합성대상가수의 음색 특징을 생성하는 단계; 및
상기 음성합성모듈에서, 상기 가창음성특징 및 상기 음색 특징에 기초하여 상기 합성대상가수의 목소리로 상기 합성대상노래를 부른 음성을 나타내는 가창음성 신호를 합성하는 단계를 포함하고,
상기 학습용 음성의 음성 특징은 학습용 음성의 기초 주파수 F0, 진폭, 발음 특징 및 음색 특징을 포함하고,
상기 음성분석모듈(103)은
상기 학습용 음성 신호를 복수 개의 주파수 빈의 확률분포 스펙트럼으로 변환하고, 변환된 확률분포 스펙트럼으로부터 상기 학습용 음성의 기초 주파수 F0 및 진폭을 출력하는 음고 인코더(1031);
상기 학습용 음성 신호로부터 상기 학습용 음성에 포함된 텍스트의 발음 특징을 출력하는 발음 인코더(1032); 및
상기 학습용 음성 신호를 스펙트로그램으로 변환하고, 변환된 스펙트로그램부터 상기 학습용 음성의 음색 특징을 출력하는 음색 인코더(1033)를 포함하고,
상기 음성합성모듈(104)은
상기 학습용 음성의 기초 주파수 F0 및 진폭에 기초하여, 입력 여기 신호(input excitation signal)를 생성하는 사인파 노이즈 생성기(1041);
상기 학습용 음성의 음색 특징에 기초하여, 시간-변화음색 임베딩(time-varying embedding)을 생성하는 시간변화음색 인공신경망(1043);
상기 학습용 음성의 발음 특징 및 상기 생성된 시간-변화음색 임베딩에 기초하여, 상기 합성 음성에 대한 프레임-레벨 컨디션을 생성하는 프레임 레벨 합성 인공신경망(1042); 및
상기 입력 여기 신호 및 상기 프레임-레벨 컨디션에 기초하여, 상기 합성 음성을 나타내는 합성 음성 신호를 합성하는 샘플-레벨 합성 인공신경망(1044)을 포함하는 것을 특징으로 하는 자기지도 학습 기반의 가창음성합성방법. - 제 7 항에 있어서,
상기 SVS 모듈은 학습용 노래, 학습용 가수 음성 및 학습용 가창 음성 특징을 포함하는 학습용 데이터세트에 의해, 입력된 합성대상노래 및 합성대상가수에 대한 가창음성특징을 출력하도록 사전에 트레이닝된 인공신경망인 것을 특징으로 하는 자기지도 학습 기반의 가창음성합성방법. - 학습용 음성을 나타내는 학습용 음성 신호를 이용하여 상기 학습용 음성 신호에 대한 음성 특징을 출력하도록 음성분석모듈에 대한 학습을 수행하고, 상기 학습용 음성에 대한 음성 특징을 출력하는 음성분석모듈, 및 상기 출력된 음성 특징을 이용하여. 상기 학습용 음성의 음성 특징으로부터 음성 신호를 합성하도록 음성합성모듈에 대한 학습을 수행하고, 상기 출력된 음성 특징으로부터 합성 음성을 나타내는 합성 음성 신호를 합성하는 음성합성모듈을 포함하는 음성합성장치에서 실행되는 자기지도 학습 기반의 변조음성 합성방법에 있어서,
음성변환의 대상이 되는 변환-전-음성을 획득하는 단계;
상기 음성분석모듈에서, 상기 획득한 변환-전-음성에 기초하여, 상기 변환-전-음성에 대한 기초 주파수 F0, 진폭 및 발음 특징을 포함하는 변환-전-음성 특징을 출력하는 단계;
변환음성에 대한 음성 속성을 획득하는 단계;
VOD(voice design) 모듈에서, 상기 변환음성에 대한 음성속성에 기초하여, 변환음성에 대한 기초 주파수 F0 및 음색 특징을 포함하는 변환음성 특징을 출력하는 단계; 및
상기 음성합성모듈에서, 상기 변환-전-음성 특징 및 상기 변환음성 특징에 기초하여, 변환음성을 합성하는 단계를 포함하고,
상기 학습용 음성의 음성 특징은 학습용 음성의 기초 주파수 F0, 진폭, 발음 특징 및 음색 특징을 포함하고,
상기 음성분석모듈(103)은
상기 학습용 음성 신호를 복수 개의 주파수 빈의 확률분포 스펙트럼으로 변환하고, 변환된 확률분포 스펙트럼으로부터 상기 학습용 음성의 기초 주파수 F0 및 진폭을 출력하는 음고 인코더(1031);
상기 학습용 음성 신호로부터 상기 학습용 음성에 포함된 텍스트의 발음 특징을 출력하는 발음 인코더(1032); 및
상기 학습용 음성 신호를 스펙트로그램으로 변환하고, 변환된 스펙트로그램부터 상기 학습용 음성의 음색 특징을 출력하는 음색 인코더(1033)를 포함하고,
상기 음성합성모듈(104)은
상기 학습용 음성의 기초 주파수 F0 및 진폭에 기초하여, 입력 여기 신호(input excitation signal)를 생성하는 사인파 노이즈 생성기(1041);
상기 학습용 음성의 음색 특징에 기초하여, 시간-변화음색 임베딩(time-varying embedding)을 생성하는 시간변화음색 인공신경망(1043);
상기 학습용 음성의 발음 특징 및 상기 생성된 시간-변화음색 임베딩에 기초하여, 상기 합성 음성에 대한 프레임-레벨 컨디션을 생성하는 프레임 레벨 합성 인공신경망(1042); 및
상기 입력 여기 신호 및 상기 프레임-레벨 컨디션에 기초하여, 상기 합성 음성을 나타내는 합성 음성 신호를 합성하는 샘플-레벨 합성 인공신경망(1044)을 포함하는 것을 특징으로 하는 자기지도 학습 기반의 변조음성 합성방법. - 제 9 항에 있어서,
상기 VOD 모듈은 학습용 음성속성, 학습용 기초 주파수 F0 및 학습용 음색 특징을 포함하는 학습용 데이터 세트에 의해, 입력된 음성속성에 기초하여 변환음성의 기초 주파수 F0 및 음색 특징을 출력하도록 사전에 트레이닝된 인공신경망인 것을 특징으로 하는 자기지도 학습 기반의 변조음성 합성방법. - 학습용 음성을 나타내는 학습용 음성 신호를 이용하여 상기 학습용 음성 신호에 대한 음성 특징을 출력하도록 음성분석모듈에 대한 학습을 수행하고, 상기 학습용 음성에 대한 음성 특징을 출력하는 음성분석모듈, 및 상기 출력된 음성 특징을 이용하여. 상기 학습용 음성의 음성 특징으로부터 음성 신호를 합성하도록 음성합성모듈에 대한 학습을 수행하고, 상기 출력된 음성 특징으로부터 합성 음성을 나타내는 합성 음성 신호를 합성하는 음성합성모듈을 포함하는 음성합성장치에서 실행되는 자기지도 학습 기반의 TTS(text to speech) 합성방법에 있어서,
TTS 합성을 윈하는 합성대상텍스트 및 합성대상 음성주체를 획득하는 단계;
상기 합성대상 음성 주체에 기초하여, 상기 합성대상 음성주체와 연관된 음성을 획득하는 단계;
상기 음성분석모듈에서, 상기 합성대상 음성주체와 연관된 음성에 기초하여, 상기 합성대상 음성주체의 음색 특징을 포함하는 합성대상음성주체의 음성 특징을 출력하는 단계;
TTS 모듈에서, 합성대상텍스트 및 합성대상 음성주체와 연관된 음성에 기초하여, 상기 합성대상텍스트를 상기 합성대상 음성주체의 목소리로 읽은 텍스트 음성에 대한 기초 주파수 F0 및 진폭을 포함하는 텍스트음성의 음성특징을 출력하는 단계; 및
상기 텍스트 음성에 대한 기초 주파수 F0, 진폭, 및 상기 합성대상 음성주체의 음색 특징에 기초하여, 텍스트 음성을 합성하는 단계를 포함하고,
상기 학습용 음성의 음성 특징은 학습용 음성의 기초 주파수 F0, 진폭, 발음 특징 및 음색 특징을 포함하고,
상기 음성분석모듈(103)은
상기 학습용 음성 신호를 복수 개의 주파수 빈의 확률분포 스펙트럼으로 변환하고, 변환된 확률분포 스펙트럼으로부터 상기 학습용 음성의 기초 주파수 F0 및 진폭을 출력하는 음고 인코더(1031);
상기 학습용 음성 신호로부터 상기 학습용 음성에 포함된 텍스트의 발음 특징을 출력하는 발음 인코더(1032); 및
상기 학습용 음성 신호를 스펙트로그램으로 변환하고, 변환된 스펙트로그램부터 상기 학습용 음성의 음색 특징을 출력하는 음색 인코더(1033)를 포함하고,
상기 음성합성모듈(104)은
상기 학습용 음성의 기초 주파수 F0 및 진폭에 기초하여, 입력 여기 신호(input excitation signal)를 생성하는 사인파 노이즈 생성기(1041);
상기 학습용 음성의 음색 특징에 기초하여, 시간-변화음색 임베딩(time-varying embedding)을 생성하는 시간변화음색 인공신경망(1043);
상기 학습용 음성의 발음 특징 및 상기 생성된 시간-변화음색 임베딩에 기초하여, 상기 합성 음성에 대한 프레임-레벨 컨디션을 생성하는 프레임 레벨 합성 인공신경망(1042); 및
상기 입력 여기 신호 및 상기 프레임-레벨 컨디션에 기초하여, 상기 합성 음성을 나타내는 합성 음성 신호를 합성하는 샘플-레벨 합성 인공신경망(1044)을 포함하는 것을 특징으로 하는 자기지도 학습 기반의 TTS 합성방법. - 제 11 항에 있어서,
상기 TTS 모듈은 학습용 합성텍스트, 학습용 음성 및 학습용 음성특징을 포함하는 학습용 데이터 세트에 의해, 입력된 텍스트 및 음성에 기초하여 텍스트 음성의 기초 주파수 F0 및 진폭을 출력하도록 사전에 트레이닝된 인공신경망인 것을 특징으로 하는 자기지도 학습 기반의 TTS 합성방법. - 제 1 항 및 제 2 항 중 어느 한 항에 기재된 방법을 수행하는 프로그램이 기록된 컴퓨터 판독 가능한 기록매체.
Priority Applications (3)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
KR1020230047906A KR102752064B1 (ko) | 2023-04-12 | 2023-04-12 | 자기지도 학습기반 통합 음성 합성 방법 및 장치 |
JP2023199749A JP2024152575A (ja) | 2023-04-12 | 2023-11-27 | 自己教師あり学習に基づく統合音声合成方法及び装置 |
US18/404,568 US20240347037A1 (en) | 2023-04-12 | 2024-01-04 | Method and apparatus for synthesizing unified voice wave based on self-supervised learning |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
KR1020230047906A KR102752064B1 (ko) | 2023-04-12 | 2023-04-12 | 자기지도 학습기반 통합 음성 합성 방법 및 장치 |
Publications (3)
Publication Number | Publication Date |
---|---|
KR20240151961A KR20240151961A (ko) | 2024-10-21 |
KR102752064B1 true KR102752064B1 (ko) | 2025-01-09 |
KR102752064B9 KR102752064B9 (ko) | 2025-03-10 |
Family
ID=93016820
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
KR1020230047906A Active KR102752064B1 (ko) | 2023-04-12 | 2023-04-12 | 자기지도 학습기반 통합 음성 합성 방법 및 장치 |
Country Status (3)
Country | Link |
---|---|
US (1) | US20240347037A1 (ko) |
JP (1) | JP2024152575A (ko) |
KR (1) | KR102752064B1 (ko) |
Families Citing this family (1)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN119964551B (zh) * | 2025-04-08 | 2025-06-24 | 厦门大学 | 一种基于互信息理论的自监督语音特征增强语音合成方法 |
Family Cites Families (6)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
JP2002132281A (ja) * | 2000-10-26 | 2002-05-09 | Nippon Telegr & Teleph Corp <Ntt> | 歌声メッセージ生成・配信方法及びその装置 |
US10540957B2 (en) | 2014-12-15 | 2020-01-21 | Baidu Usa Llc | Systems and methods for speech transcription |
JP6989951B2 (ja) * | 2018-01-09 | 2022-01-12 | 国立大学法人 奈良先端科学技術大学院大学 | スピーチチェイン装置、コンピュータプログラムおよびdnn音声認識・合成相互学習方法 |
JP6876641B2 (ja) * | 2018-02-20 | 2021-05-26 | 日本電信電話株式会社 | 音声変換学習装置、音声変換装置、方法、及びプログラム |
KR20200015418A (ko) | 2018-08-02 | 2020-02-12 | 네오사피엔스 주식회사 | 순차적 운율 특징을 기초로 기계학습을 이용한 텍스트-음성 합성 방법, 장치 및 컴퓨터 판독가능한 저장매체 |
KR102057926B1 (ko) | 2019-03-19 | 2019-12-20 | 휴멜로 주식회사 | 음성 합성 장치 및 그 방법 |
-
2023
- 2023-04-12 KR KR1020230047906A patent/KR102752064B1/ko active Active
- 2023-11-27 JP JP2023199749A patent/JP2024152575A/ja active Pending
-
2024
- 2024-01-04 US US18/404,568 patent/US20240347037A1/en active Pending
Non-Patent Citations (2)
Title |
---|
Adam Polyak et al., ‘Speech Resynthesis from Discrete Disentangled Self-Supervised Representations’, arXiv:2104.00355v3 [cs.SD], 27 Jul 2021.* |
Hyeong-Seok Choi et al., ‘Neural Analysis and Synthesis: Reconstructing Speech from Self-Supervised Representation’, Advances in Neural Information Processing Systems 34(NeurIPS 2021), December 2021.* |
Also Published As
Publication number | Publication date |
---|---|
KR20240151961A (ko) | 2024-10-21 |
US20240347037A1 (en) | 2024-10-17 |
KR102752064B9 (ko) | 2025-03-10 |
JP2024152575A (ja) | 2024-10-25 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
US11545121B2 (en) | Electronic musical instrument, electronic musical instrument control method, and storage medium | |
US11468870B2 (en) | Electronic musical instrument, electronic musical instrument control method, and storage medium | |
US10629179B2 (en) | Electronic musical instrument, electronic musical instrument control method, and storage medium | |
Gold et al. | Speech and audio signal processing: processing and perception of speech and music | |
KR102168529B1 (ko) | 인공신경망을 이용한 가창음성 합성 방법 및 장치 | |
CN106971703A (zh) | 一种基于hmm的歌曲合成方法及装置 | |
US11495206B2 (en) | Voice synthesis method, voice synthesis apparatus, and recording medium | |
CN104081453A (zh) | 用于声学变换的系统和方法 | |
JP6733644B2 (ja) | 音声合成方法、音声合成システムおよびプログラム | |
CN112382274B (zh) | 音频合成方法、装置、设备以及存储介质 | |
KR102752064B1 (ko) | 자기지도 학습기반 통합 음성 합성 방법 및 장치 | |
Chu et al. | MPop600: A mandarin popular song database with aligned audio, lyrics, and musical scores for singing voice synthesis | |
JP5360489B2 (ja) | 音素符号変換装置および音声合成装置 | |
Lee et al. | A comparative study of spectral transformation techniques for singing voice synthesis. | |
TWI360108B (en) | Method for synthesizing speech | |
JP5560888B2 (ja) | 符号化音声データの音高変換装置 | |
CN117012230A (zh) | 歌唱发音咬字评价模型 | |
JP6578544B1 (ja) | 音声処理装置、および音声処理方法 | |
JP2022065554A (ja) | 音声合成方法およびプログラム | |
JP2022065566A (ja) | 音声合成方法およびプログラム | |
Li et al. | A lyrics to singing voice synthesis system with variable timbre | |
CN119920231A (zh) | 一种音频处理方法、电子设备和可读存储介质 | |
i Barrobes | Voice Conversion applied to Text-to-Speech systems | |
Liu et al. | Pitch Preservation In Singing Voice Synthesis | |
Sarasola Aramendia | Application of singing synthesis techniquest to bertsolaritza |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PA0109 | Patent application |
Patent event code: PA01091R01D Comment text: Patent Application Patent event date: 20230412 |
|
PA0201 | Request for examination |
Patent event code: PA02011R01I Patent event date: 20230412 Comment text: Patent Application |
|
PE0902 | Notice of grounds for rejection |
Comment text: Notification of reason for refusal Patent event date: 20240429 Patent event code: PE09021S01D |
|
PG1501 | Laying open of application | ||
E701 | Decision to grant or registration of patent right | ||
PE0701 | Decision of registration |
Patent event code: PE07011S01D Comment text: Decision to Grant Registration Patent event date: 20241219 |
|
PG1601 | Publication of registration | ||
PG1701 | Publication of correction |