KR102484967B1 - 음성 전환 방법, 장치 및 전자 기기 - Google Patents
음성 전환 방법, 장치 및 전자 기기 Download PDFInfo
- Publication number
- KR102484967B1 KR102484967B1 KR1020210105264A KR20210105264A KR102484967B1 KR 102484967 B1 KR102484967 B1 KR 102484967B1 KR 1020210105264 A KR1020210105264 A KR 1020210105264A KR 20210105264 A KR20210105264 A KR 20210105264A KR 102484967 B1 KR102484967 B1 KR 102484967B1
- Authority
- KR
- South Korea
- Prior art keywords
- voice
- acoustic feature
- network
- speech
- content information
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Active
Links
Images
Classifications
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L13/00—Speech synthesis; Text to speech systems
- G10L13/02—Methods for producing synthetic speech; Speech synthesisers
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L21/00—Speech or voice signal processing techniques to produce another audible or non-audible signal, e.g. visual or tactile, in order to modify its quality or its intelligibility
- G10L21/003—Changing voice quality, e.g. pitch or formants
- G10L21/007—Changing voice quality, e.g. pitch or formants characterised by the process used
- G10L21/013—Adapting to target pitch
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06N—COMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
- G06N3/00—Computing arrangements based on biological models
- G06N3/02—Neural networks
- G06N3/08—Learning methods
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L13/00—Speech synthesis; Text to speech systems
- G10L13/02—Methods for producing synthetic speech; Speech synthesisers
- G10L13/033—Voice editing, e.g. manipulating the voice of the synthesiser
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L13/00—Speech synthesis; Text to speech systems
- G10L13/08—Text analysis or generation of parameters for speech synthesis out of text, e.g. grapheme to phoneme translation, prosody generation or stress or intonation determination
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L15/00—Speech recognition
- G10L15/02—Feature extraction for speech recognition; Selection of recognition unit
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L21/00—Speech or voice signal processing techniques to produce another audible or non-audible signal, e.g. visual or tactile, in order to modify its quality or its intelligibility
- G10L21/003—Changing voice quality, e.g. pitch or formants
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L21/00—Speech or voice signal processing techniques to produce another audible or non-audible signal, e.g. visual or tactile, in order to modify its quality or its intelligibility
- G10L21/003—Changing voice quality, e.g. pitch or formants
- G10L21/007—Changing voice quality, e.g. pitch or formants characterised by the process used
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L25/00—Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00
- G10L25/03—Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00 characterised by the type of extracted parameters
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L25/00—Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00
- G10L25/27—Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00 characterised by the analysis technique
- G10L25/30—Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00 characterised by the analysis technique using neural networks
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L15/00—Speech recognition
- G10L15/08—Speech classification or search
- G10L15/14—Speech classification or search using statistical models, e.g. Hidden Markov Models [HMMs]
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L15/00—Speech recognition
- G10L15/02—Feature extraction for speech recognition; Selection of recognition unit
- G10L2015/025—Phonemes, fenemes or fenones being the recognition units
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L21/00—Speech or voice signal processing techniques to produce another audible or non-audible signal, e.g. visual or tactile, in order to modify its quality or its intelligibility
- G10L21/003—Changing voice quality, e.g. pitch or formants
- G10L21/007—Changing voice quality, e.g. pitch or formants characterised by the process used
- G10L21/013—Adapting to target pitch
- G10L2021/0135—Voice conversion or morphing
Landscapes
- Engineering & Computer Science (AREA)
- Physics & Mathematics (AREA)
- Health & Medical Sciences (AREA)
- Computational Linguistics (AREA)
- Audiology, Speech & Language Pathology (AREA)
- Human Computer Interaction (AREA)
- Acoustics & Sound (AREA)
- Multimedia (AREA)
- Signal Processing (AREA)
- Quality & Reliability (AREA)
- Artificial Intelligence (AREA)
- Evolutionary Computation (AREA)
- Computer Vision & Pattern Recognition (AREA)
- Theoretical Computer Science (AREA)
- Biomedical Technology (AREA)
- General Physics & Mathematics (AREA)
- Data Mining & Analysis (AREA)
- General Health & Medical Sciences (AREA)
- Molecular Biology (AREA)
- Computing Systems (AREA)
- General Engineering & Computer Science (AREA)
- Biophysics (AREA)
- Mathematical Physics (AREA)
- Software Systems (AREA)
- Life Sciences & Earth Sciences (AREA)
- Telephonic Communication Services (AREA)
- User Interface Of Digital Computer (AREA)
- Electrically Operated Instructional Devices (AREA)
- Machine Translation (AREA)
Abstract
Description
도1은 본 출원의 제1 실시예에 따른 음성 전환 방법의 흐름도이고;
도2는 본 출원의 제2 실시예에 따른 음성 전환 방법의 장면 그래프이고;
도3은 본 출원의 제3 실시예에 따른 음성 전환 방법의 장면 그래프이고;
도4는 본 출원의 제4 실시예에 따른 음성 전환 방법에서 재구성된 제3 음향 특징을 획득하는 흐름도이고;
도5는 본 출원의 제4 실시예에 따른 음성 전환 방법에서 미리 훈련된 음성 전환 모델을 획득하는 흐름도이고;
도6은 본 출원의 제1 실시예에 따른 음성 전환 장치의 블록도이고;
도7은 본 출원의 제2 실시예에 따른 음성 전환 장치의 블록도이고;
도8은 본 출원의 실시예에 따른 음성 전환 방법을 구현하기 위한 전자 기기의 블록도이다.
Claims (19)
- 음성 전환 방법에 있어서,
제1 사용자의 소스 음성과 제2 사용자의 참조 음성을 획득하는 단계;
상기 소스 음성에서 제1 음성 콘텐츠 정보와 제1 음향 특징을 추출하는 단계;
상기 참조 음성에서 제2 음향 특징을 추출하는 단계;
상기 제1 음성 콘텐츠 정보, 상기 제1 음향 특징 및 상기 제2 음향 특징을 미리 훈련된 음성 전환 모델에 입력하여 재구성된 제3 음향 특징을 획득하는 단계 - 상기 미리 훈련된 음성 전환 모델은 제3 사용자의 음성에 따라 훈련하여 획득함 -; 및
상기 제3 음향 특징에 따라 타겟 음성을 합성하는 단계를 포함하고,
상기 방법은,
상기 제3 사용자의 제1 음성과 제2 음성을 획득하는 단계;
상기 제1 음성에서 제2 음성 콘텐츠 정보와 제4 음향 특징을 추출하는 단계;
상기 제2 음성에서 제5 음향 특징을 추출하는 단계;
상기 제2 음성 콘텐츠 정보, 상기 제4 음향 특징과 상기 제5 음향 특징을 훈련할 음성 전환 모델에 입력하여 재구성된 제6 음향 특징을 획득하는 단계; 및
상기 제6 음향 특징과 상기 제4 음향 특징의 차이에 따라 훈련할 음성 전환 모델 중의 모델 파라미터를 조정하고, 상기 제6 음향 특징과 상기 제4 음향 특징의 차이가 미리 설정된 훈련 종료 조건에 부합할 때까지, 상기 제3 사용자의 제1 음성과 제2 음성을 획득하는 단계로 돌아가고, 마지막으로 모델 파라미터를 조정한 후의 상기 훈련할 음성 전환 모델을 상기 미리 훈련된 음성 전환 모델으로 결정하는 단계를 포함하는 것,
을 특징으로 하는 음성 전환 방법. - 제1항에 있어서,
상기 소스 음성에서 제1 음성 콘텐츠 정보를 추출하는 단계는,
상기 소스 음성을 미리 훈련된 다중 언어 자동 음성 인식 모델에 입력하여 음성 사후확률 행렬을 획득하는 단계; 및
상기 음성 사후확률 행렬을 상기 제1 음성 콘텐츠 정보로 하는 단계를 포함하는 것,
을 특징으로 하는 음성 전환 방법. - 제1항에 있어서,
상기 제1 음향 특징, 상기 제2 음향 특징과 상기 제3 음향 특징은 모두 멜 특징인 것,
을 특징으로 하는 음성 전환 방법. - 제1항에 있어서,
상기 음성 전환 모델은 암묵적 변수 네트워크, 음색 네트워크와 재구성 네트워크를 포함하고, 상기 제1 음성 콘텐츠 정보, 상기 제1 음향 특징 및 상기 제2 음향 특징을 미리 훈련된 음성 전환 모델에 입력하여 재구성된 제3 음향 특징을 획득하는 단계는,
상기 제1 음향 특징을 상기 암묵적 변수 네트워크에 입력하여 기본 주파수 에너지 파라미터를 획득하는 단계;
상기 제2 음향 특징을 상기 음색 네트워크에 입력하여 음색 파라미터를 획득하는 단계; 및
상기 제1 음성 콘텐츠 정보, 상기 기본 주파수 에너지 파라미터 및 상기 음색 파라미터를 상기 재구성 네트워크에 입력하여 상기 제3 음향 특징을 획득하는 단계를 포함하는 것,
을 특징으로 하는 음성 전환 방법. - 제4항에 있어서,
상기 제1 음향 특징을 상기 암묵적 변수 네트워크에 입력하여 기본 주파수 에너지 파라미터를 획득하는 단계는,
상기 제1 음향 특징을 상기 암묵적 변수 네트워크에 입력하고, 상기 암묵적 변수 네트워크는 프레임 스케일에서 상기 제1 음향 특징을 압축하고, 압축한 제1 음향 특징에서 기본 주파수 에너지 파라미터를 추출하는 단계를 포함하는 것,
을 특징으로 하는 음성 전환 방법. - 제4항에 있어서,
상기 제2 음향 특징을 상기 음색 네트워크에 입력하여 음색 파라미터를 획득하는 단계는,
상기 제2 음향 특징을 상기 음색 네트워크에 입력하고, 상기 음색 네트워크가 딥 순환 뉴럴 네트워크와 베리에이션 오토 인코더를 사용하여 상기 제2 음향 특징을 추상화하여 상기 음색 파라미터를 획득하는 단계를 포함하는 것,
을 특징으로 하는 음성 전환 방법. - 제4항에 있어서,
상기 제1 음성 콘텐츠 정보, 상기 기본 주파수 에너지 파라미터 및 상기 음색 파라미터를 상기 재구성 네트워크에 입력하여 상기 제3 음향 특징을 획득하는 단계는,
상기 제1 음성 콘텐츠 정보, 상기 기본 주파수 에너지 파라미터 및 상기 음색 파라미터를 상기 재구성 네트워크에 입력하고 상기 재구성 네트워크가 딥 순환 뉴럴 네트워크를 사용하여 상기 제1 음성 콘텐츠 정보, 상기 기본 주파수 에너지 파라미터 및 상기 음색 파라미터에 대해 음향 특징 재구성을 수행하여 상기 제3 음향 특징을 획득하는 단계를 포함하는 것,
을 특징으로 하는 음성 전환 방법. - 음성 전환 장치에 있어서,
제1 사용자의 소스 음성과 제2 사용자의 참조 음성을 획득하는 획득 모듈;
상기 소스 음성에서 제1 음성 콘텐츠 정보와 제1 음향 특징을 추출하는 제1 추출 모듈;
상기 참조 음성에서 제2 음향 특징을 추출하는 제2 추출 모듈;
상기 제1 음성 콘텐츠 정보, 상기 제1 음향 특징 및 상기 제2 음향 특징을 미리 훈련된 음성 전환 모델에 입력하여 재구성된 제3 음향 특징을 획득하며, 여기서 상기 미리 훈련된 음성 전환 모델은 제3 사용자의 음성에 따라 훈련하여 획득하는 전환 모듈; 및
상기 제3 음향 특징에 따라 타겟 음성을 합성하는 합성 모듈을 포함하고,
상기 음성 전환 장치는 모델 훈련 모듈을 더 포함하고,
상기 모델 훈련 모듈은,
상기 제3 사용자의 제1 음성과 제2 음성을 획득하고;
상기 제1 음성에서 제2 음성 콘텐츠 정보와 제4 음향 특징을 추출하며;
상기 제2 음성에서 제5 음향 특징을 추출하고;
상기 제2 음성 콘텐츠 정보, 상기 제4 음향 특징과 상기 제5 음향 특징을 훈련할 음성 전환 모델에 입력하여 재구성된 제6 음향 특징을 획득하며;
상기 제6 음향 특징과 상기 제4 음향 특징의 차이에 따라 훈련할 음성 전환 모델 중의 모델 파라미터를 조정하고, 상기 제6 음향 특징과 상기 제4 음향 특징의 차이가 미리 설정된 훈련 종료 조건에 부합할 때까지, 상기 제3 사용자의 제1 음성과 제2 음성을 획득하는 단계로 돌아가고, 마지막으로 모델 파라미터를 조정한 후의 상기 훈련할 음성 전환 모델을 상기 미리 훈련된 음성 전환 모델으로 결정하는데 사용되는 것,
을 특징으로 하는 음성 전환 장치. - 제8항에 있어서,
상기 제1 추출 모듈은, 또한
상기 소스 음성을 미리 훈련된 다중 언어 자동 음성 인식 모델에 입력하여 음성 사후확률 행렬을 획득하고;
상기 음성 사후확률 행렬을 상기 제1 음성 콘텐츠 정보로 하는데 사용되는 것,
을 특징으로 하는 음성 전환 장치. - 제8항에 있어서,
상기 제1 음향 특징, 상기 제2 음향 특징과 상기 제3 음향 특징은 모두 멜 특징인 것,
을 특징으로 하는 음성 전환 장치. - 제8항에 있어서,
상기 음성 전환 모델은 암묵적 변수 네트워크, 음색 네트워크와 재구성 네트워크를 포함하고, 상기 전환 모델은,
상기 제1 음향 특징을 상기 암묵적 변수 네트워크에 입력하여 기본 주파수 에너지 파라미터를 획득하는 제1 입력유닛;
상기 제2 음향 특징을 상기 음색 네트워크에 입력하여 음색 파라미터를 획득하는 제2 입력유닛; 및
상기 제1 음성 콘텐츠 정보, 상기 기본 주파수 에너지 파라미터 및 상기 음색 파라미터를 상기 재구성 네트워크에 입력하여 상기 제3 음향 특징을 획득하는 제3 입력유닛을 포함하는 것,
을 특징으로 하는 음성 전환 장치. - 제11항에 있어서,
상기 제1 입력유닛은, 또한,
상기 제1 음향 특징을 상기 암묵적 변수 네트워크에 입력하는데 사용되고, 상기 암묵적 변수 네트워크는 프레임 스케일에서 상기 제1 음향 특징을 압축하고, 압축한 제1 음향 특징에서 기본 주파수 에너지 파라미터를 추출하는 것,
을 특징으로 하는 음성 전환 장치. - 제11항에 있어서,
상기 제2 입력유닛은, 또한,
상기 제2 음향 특징을 상기 음색 네트워크에 입력하고, 상기 음색 네트워크가 딥 순환 뉴럴 네트워크와 베리에이션 오토 인코더를 사용하여 상기 제2 음향 특징을 추상화하여 상기 음색 파라미터를 획득하는데 사용되는 것,
을 특징으로 하는 음성 전환 장치. - 제11항에 있어서,
상기 제3 입력유닛은, 또한,
상기 제1 음성 콘텐츠 정보, 상기 기본 주파수 에너지 파라미터 및 상기 음색 파라미터를 상기 재구성 네트워크에 입력하고 상기 재구성 네트워크가 딥 순환 뉴럴 네트워크를 사용하여 상기 제1 음성 콘텐츠 정보, 상기 기본 주파수 에너지 파라미터 및 상기 음색 파라미터에 대해 음향 특징 재구성을 수행하여 상기 제3 음향 특징을 획득하는데 사용되는 것,
을 특징으로 하는 음성 전환 장치. - 전자 기기에 있어서,
적어도 하나의 프로세서; 및
상기 적어도 하나의 프로세서와 통신 가능하게 연결되는 메모리;
상기 메모리에는 상기 적어도 하나의 프로세서에 의해 실행 가능한 명령이 저장되어 있고, 상기 명령이 상기 적어도 하나의 프로세서에 의해 실행되어, 상기 적어도 하나의 프로세서가 제1항 내지 제7항 중 어느 한 항에 따른 음성 전환 방법을 수행하도록 하는 것,
을 특징으로 하는 전자 기기. - 컴퓨터 명령이 저장되어 있는 비일시적 컴퓨터 판독 가능 저장 매체에 있어서,
상기 컴퓨터 명령은 컴퓨터가 제1항 내지 제7항 중 어느 한 항에 따른 음성 전환 방법을 수행하도록 하는 것,
을 특징으로 하는 컴퓨터 명령이 저장되어 있는 비일시적 컴퓨터 판독 가능 저장 매체. - 컴퓨터 판독 가능 저장 매체에 저장되어 있는 컴퓨터 프로그램에 있어서,
상기 컴퓨터 프로그램중의 명령이 실행될 경우, 제1항 내지 제7항 중 어느 한 항에 따른 음성 전환 방법이 실행되는,
것을 특징으로 하는 컴퓨터 판독 가능 저장 매체에 저장되어 있는 컴퓨터 프로그램. - 삭제
- 삭제
Applications Claiming Priority (2)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202011025400.XA CN112259072B (zh) | 2020-09-25 | 2020-09-25 | 语音转换方法、装置和电子设备 |
CN202011025400.X | 2020-09-25 |
Publications (2)
Publication Number | Publication Date |
---|---|
KR20210106397A KR20210106397A (ko) | 2021-08-30 |
KR102484967B1 true KR102484967B1 (ko) | 2023-01-05 |
Family
ID=74234043
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
KR1020210105264A Active KR102484967B1 (ko) | 2020-09-25 | 2021-08-10 | 음성 전환 방법, 장치 및 전자 기기 |
Country Status (5)
Country | Link |
---|---|
US (1) | US20210280202A1 (ko) |
EP (1) | EP3859735A3 (ko) |
JP (1) | JP7181332B2 (ko) |
KR (1) | KR102484967B1 (ko) |
CN (1) | CN112259072B (ko) |
Families Citing this family (28)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN113066498B (zh) * | 2021-03-23 | 2022-12-30 | 上海掌门科技有限公司 | 信息处理方法、设备和介质 |
CN113223555A (zh) * | 2021-04-30 | 2021-08-06 | 北京有竹居网络技术有限公司 | 视频生成方法、装置、存储介质及电子设备 |
CN113314101B (zh) * | 2021-04-30 | 2024-05-14 | 北京达佳互联信息技术有限公司 | 一种语音处理方法、装置、电子设备及存储介质 |
CN113409767B (zh) * | 2021-05-14 | 2023-04-25 | 北京达佳互联信息技术有限公司 | 一种语音处理方法、装置、电子设备及存储介质 |
CN113345411B (zh) * | 2021-05-31 | 2024-01-05 | 多益网络有限公司 | 一种变声方法、装置、设备和存储介质 |
CN113345454B (zh) * | 2021-06-01 | 2024-02-09 | 平安科技(深圳)有限公司 | 语音转换模型的训练、应用方法、装置、设备及存储介质 |
CN113571039B (zh) * | 2021-08-09 | 2022-04-08 | 北京百度网讯科技有限公司 | 语音转换方法、系统、电子设备及可读存储介质 |
CN114822496B (zh) * | 2021-08-20 | 2024-09-20 | 美的集团(上海)有限公司 | 一种音色切换方法、装置、设备及介质 |
CN113470622B (zh) * | 2021-09-06 | 2021-11-19 | 成都启英泰伦科技有限公司 | 一种可将任意语音转换成多个语音的转换方法及装置 |
CN113823300B (zh) * | 2021-09-18 | 2024-03-22 | 京东方科技集团股份有限公司 | 语音处理方法及装置、存储介质、电子设备 |
CN113889130B (zh) * | 2021-09-27 | 2025-01-07 | 平安科技(深圳)有限公司 | 一种语音转换方法、装置、设备及介质 |
CN113782052A (zh) * | 2021-11-15 | 2021-12-10 | 北京远鉴信息技术有限公司 | 一种音色转换方法、装置、电子设备及存储介质 |
CN114242093A (zh) * | 2021-12-16 | 2022-03-25 | 游密科技(深圳)有限公司 | 语音音色转换方法、装置、计算机设备和存储介质 |
CN114267352B (zh) * | 2021-12-24 | 2023-04-14 | 北京信息科技大学 | 一种语音信息处理方法及电子设备、计算机存储介质 |
CN114360558B (zh) * | 2021-12-27 | 2022-12-13 | 北京百度网讯科技有限公司 | 语音转换方法、语音转换模型的生成方法及其装置 |
CN114255737B (zh) * | 2022-02-28 | 2022-05-17 | 北京世纪好未来教育科技有限公司 | 语音生成方法、装置、电子设备 |
CN114648986A (zh) * | 2022-04-07 | 2022-06-21 | 游密科技(深圳)有限公司 | 语音转换方法、装置、计算机设备、存储介质和程序产品 |
CN114464162B (zh) * | 2022-04-12 | 2022-08-02 | 阿里巴巴达摩院(杭州)科技有限公司 | 语音合成方法、神经网络模型训练方法、和语音合成模型 |
US20230335109A1 (en) * | 2022-04-19 | 2023-10-19 | Tencent America LLC | Techniques for disentangled variational speech representation learning for zero-shot voice conversion |
CN114678032B (zh) * | 2022-04-24 | 2022-09-27 | 北京世纪好未来教育科技有限公司 | 一种训练方法、语音转换方法及装置和电子设备 |
CN114999506A (zh) * | 2022-04-27 | 2022-09-02 | 成都爱奇艺智能创新科技有限公司 | 语音处理方法、装置及网络设备 |
US20230386479A1 (en) * | 2022-05-27 | 2023-11-30 | Tencent America LLC | Techniques for improved zero-shot voice conversion with a conditional disentangled sequential variational auto-encoder |
CN115273777B (zh) * | 2022-07-22 | 2025-02-07 | 魔珐(上海)信息科技有限公司 | 声音转换模型的更新方法及应用方法 |
CN115457969B (zh) * | 2022-09-06 | 2024-10-11 | 平安科技(深圳)有限公司 | 基于人工智能的语音转换方法、装置、计算机设备及介质 |
CN116741144B (zh) * | 2023-05-26 | 2024-07-16 | 北京邮电大学 | 一种语音音色转换方法和系统 |
CN117476027B (zh) * | 2023-12-28 | 2024-04-23 | 南京硅基智能科技有限公司 | 语音转换方法及装置、存储介质、电子装置 |
CN117953906B (zh) * | 2024-02-18 | 2025-03-07 | 立心通智科技(北京)有限公司 | 一种高保真的语音转换系统及方法 |
CN119152865B (zh) * | 2024-11-20 | 2025-02-18 | 广州趣丸网络科技有限公司 | 一种语音转换方法、装置、计算机设备和存储介质 |
Citations (1)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
JP2019109306A (ja) * | 2017-12-15 | 2019-07-04 | 日本電信電話株式会社 | 音声変換装置、音声変換方法及びプログラム |
Family Cites Families (33)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
US20100198577A1 (en) * | 2009-02-03 | 2010-08-05 | Microsoft Corporation | State mapping for cross-language speaker adaptation |
US9798653B1 (en) * | 2010-05-05 | 2017-10-24 | Nuance Communications, Inc. | Methods, apparatus and data structure for cross-language speech adaptation |
US9564120B2 (en) * | 2010-05-14 | 2017-02-07 | General Motors Llc | Speech adaptation in speech synthesis |
US9922641B1 (en) * | 2012-10-01 | 2018-03-20 | Google Llc | Cross-lingual speaker adaptation for multi-lingual speech synthesis |
JP5817854B2 (ja) * | 2013-02-22 | 2015-11-18 | ヤマハ株式会社 | 音声合成装置およびプログラム |
US9195656B2 (en) * | 2013-12-30 | 2015-11-24 | Google Inc. | Multilingual prosody generation |
US9542927B2 (en) * | 2014-11-13 | 2017-01-10 | Google Inc. | Method and system for building text-to-speech voice from diverse recordings |
CN104575487A (zh) * | 2014-12-11 | 2015-04-29 | 百度在线网络技术(北京)有限公司 | 一种语音信号的处理方法及装置 |
CN105845127B (zh) * | 2015-01-13 | 2019-10-01 | 阿里巴巴集团控股有限公司 | 语音识别方法及其系统 |
US9842105B2 (en) * | 2015-04-16 | 2017-12-12 | Apple Inc. | Parsimonious continuous-space phrase representations for natural language processing |
US9754580B2 (en) * | 2015-10-12 | 2017-09-05 | Technologies For Voice Interface | System and method for extracting and using prosody features |
US10176819B2 (en) * | 2016-07-11 | 2019-01-08 | The Chinese University Of Hong Kong | Phonetic posteriorgrams for many-to-one voice conversion |
CN107863095A (zh) * | 2017-11-21 | 2018-03-30 | 广州酷狗计算机科技有限公司 | 音频信号处理方法、装置和存储介质 |
CN111566655B (zh) * | 2018-01-11 | 2024-02-06 | 新智株式会社 | 多种语言文本语音合成方法 |
JP6973304B2 (ja) * | 2018-06-14 | 2021-11-24 | 日本電信電話株式会社 | 音声変換学習装置、音声変換装置、方法、及びプログラム |
JP7127419B2 (ja) * | 2018-08-13 | 2022-08-30 | 日本電信電話株式会社 | 音声変換学習装置、音声変換装置、方法、及びプログラム |
CN109192218B (zh) * | 2018-09-13 | 2021-05-07 | 广州酷狗计算机科技有限公司 | 音频处理的方法和装置 |
US11068668B2 (en) * | 2018-10-25 | 2021-07-20 | Facebook Technologies, Llc | Natural language translation in augmented reality(AR) |
KR102495888B1 (ko) * | 2018-12-04 | 2023-02-03 | 삼성전자주식회사 | 사운드를 출력하기 위한 전자 장치 및 그의 동작 방법 |
CN111508511A (zh) * | 2019-01-30 | 2020-08-07 | 北京搜狗科技发展有限公司 | 实时变声方法及装置 |
CN110097890B (zh) * | 2019-04-16 | 2021-11-02 | 北京搜狗科技发展有限公司 | 一种语音处理方法、装置和用于语音处理的装置 |
EP4184949A1 (en) * | 2019-04-17 | 2023-05-24 | Oticon A/s | A hearing device comprising a transmitter |
CN110288975B (zh) * | 2019-05-17 | 2022-04-22 | 北京达佳互联信息技术有限公司 | 语音风格迁移方法、装置、电子设备及存储介质 |
US10997970B1 (en) * | 2019-07-30 | 2021-05-04 | Abbas Rafii | Methods and systems implementing language-trainable computer-assisted hearing aids |
CN110781394A (zh) * | 2019-10-24 | 2020-02-11 | 西北工业大学 | 一种基于多源群智数据的个性化商品描述生成方法 |
CN110970014B (zh) * | 2019-10-31 | 2023-12-15 | 阿里巴巴集团控股有限公司 | 语音转换、文件生成、播音、语音处理方法、设备及介质 |
CN111247584B (zh) * | 2019-12-24 | 2023-05-23 | 深圳市优必选科技股份有限公司 | 语音转换方法、系统、装置及存储介质 |
CN111223474A (zh) * | 2020-01-15 | 2020-06-02 | 武汉水象电子科技有限公司 | 一种基于多神经网络的语音克隆方法和系统 |
CN111326138A (zh) * | 2020-02-24 | 2020-06-23 | 北京达佳互联信息技术有限公司 | 语音生成方法及装置 |
CN111429877B (zh) * | 2020-03-03 | 2023-04-07 | 云知声智能科技股份有限公司 | 歌曲处理方法及装置 |
US11881210B2 (en) * | 2020-05-05 | 2024-01-23 | Google Llc | Speech synthesis prosody using a BERT model |
US11514888B2 (en) * | 2020-08-13 | 2022-11-29 | Google Llc | Two-level speech prosody transfer |
CN114203147A (zh) * | 2020-08-28 | 2022-03-18 | 微软技术许可有限责任公司 | 用于文本到语音的跨说话者样式传递以及用于训练数据生成的系统和方法 |
-
2020
- 2020-09-25 CN CN202011025400.XA patent/CN112259072B/zh active Active
-
2021
- 2021-03-25 JP JP2021051620A patent/JP7181332B2/ja active Active
- 2021-05-25 US US17/330,126 patent/US20210280202A1/en not_active Abandoned
- 2021-06-09 EP EP21178557.1A patent/EP3859735A3/en not_active Withdrawn
- 2021-08-10 KR KR1020210105264A patent/KR102484967B1/ko active Active
Patent Citations (1)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
JP2019109306A (ja) * | 2017-12-15 | 2019-07-04 | 日本電信電話株式会社 | 音声変換装置、音声変換方法及びプログラム |
Non-Patent Citations (1)
Title |
---|
Wen-Chin Huang et al., ‘Voice Conversion Based on Cross-Domain Features Using Variational Auto Encoders’, ISCSLP 2018, November 2018.* |
Also Published As
Publication number | Publication date |
---|---|
CN112259072A (zh) | 2021-01-22 |
EP3859735A3 (en) | 2022-01-05 |
KR20210106397A (ko) | 2021-08-30 |
US20210280202A1 (en) | 2021-09-09 |
JP7181332B2 (ja) | 2022-11-30 |
JP2021103328A (ja) | 2021-07-15 |
EP3859735A2 (en) | 2021-08-04 |
CN112259072B (zh) | 2024-07-26 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
KR102484967B1 (ko) | 음성 전환 방법, 장치 및 전자 기기 | |
JP7194779B2 (ja) | 音声合成方法及び対応するモデルのトレーニング方法、装置、電子機器、記憶媒体、並びにコンピュータプログラム | |
US11769480B2 (en) | Method and apparatus for training model, method and apparatus for synthesizing speech, device and storage medium | |
JP6875572B2 (ja) | 音声合成方法、装置、電子デバイス、及びプログラム | |
JP7335298B2 (ja) | 音声合成モデルの属性登録方法、装置、電子機器、記憶媒体及びコンピュータプログラム | |
US20230127787A1 (en) | Method and apparatus for converting voice timbre, method and apparatus for training model, device and medium | |
US20220068265A1 (en) | Method for displaying streaming speech recognition result, electronic device, and storage medium | |
US20230178067A1 (en) | Method of training speech synthesis model and method of synthesizing speech | |
KR20230086737A (ko) | 단순화된 스트리밍 및 비스트리밍 스피치 인식을 위한 캐스케이드 인코더들 | |
JP7335569B2 (ja) | 音声認識方法、装置及び電子機器 | |
JP2024538718A (ja) | コンフォーマの推論性能の最適化 | |
JP7216065B2 (ja) | 音声認識方法及び装置、電子機器並びに記憶媒体 | |
JP7335460B2 (ja) | テキストエコー消去 | |
CN112382269B (zh) | 音频合成方法、装置、设备以及存储介质 | |
JP7510562B2 (ja) | オーディオデータの処理方法、装置、電子機器、媒体及びプログラム製品 | |
CN114882151A (zh) | 虚拟形象视频的生成方法及装置、设备、介质和产品 | |
JP2022133447A (ja) | 音声処理方法、装置、電子機器及び記憶媒体 | |
CN114512121A (zh) | 语音合成方法、模型训练方法及装置 | |
CN111768756B (zh) | 信息处理方法、装置、车辆和计算机存储介质 | |
CN114999440B (zh) | 虚拟形象生成方法、装置、设备、存储介质以及程序产品 | |
CN114360558B (zh) | 语音转换方法、语音转换模型的生成方法及其装置 | |
CN118865943A (zh) | 语音合成模型训练方法以及语音合成方法 | |
CN115695943A (zh) | 数字人视频生成方法、装置、设备及存储介质 | |
CN118397985A (zh) | 音乐生成方法、装置、电子设备及存储介质 | |
CN118571240A (zh) | 一种音频转换方法、系统、设备及存储介质 |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PA0109 | Patent application |
Patent event code: PA01091R01D Comment text: Patent Application Patent event date: 20210810 |
|
PA0201 | Request for examination | ||
PG1501 | Laying open of application | ||
E902 | Notification of reason for refusal | ||
PE0902 | Notice of grounds for rejection |
Comment text: Notification of reason for refusal Patent event date: 20220826 Patent event code: PE09021S01D |
|
E701 | Decision to grant or registration of patent right | ||
PE0701 | Decision of registration |
Patent event code: PE07011S01D Comment text: Decision to Grant Registration Patent event date: 20221226 |
|
GRNT | Written decision to grant | ||
PR0701 | Registration of establishment |
Comment text: Registration of Establishment Patent event date: 20230102 Patent event code: PR07011E01D |
|
PR1002 | Payment of registration fee |
Payment date: 20230103 End annual number: 3 Start annual number: 1 |
|
PG1601 | Publication of registration |