KR102116014B1 - 음성인식엔진과 성대모사용음성합성엔진을 이용한 화자 성대모사시스템 - Google Patents
음성인식엔진과 성대모사용음성합성엔진을 이용한 화자 성대모사시스템 Download PDFInfo
- Publication number
- KR102116014B1 KR102116014B1 KR1020190043516A KR20190043516A KR102116014B1 KR 102116014 B1 KR102116014 B1 KR 102116014B1 KR 1020190043516 A KR1020190043516 A KR 1020190043516A KR 20190043516 A KR20190043516 A KR 20190043516A KR 102116014 B1 KR102116014 B1 KR 102116014B1
- Authority
- KR
- South Korea
- Prior art keywords
- voice
- speech
- vocal
- unit
- model
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Active
Links
- 230000001755 vocal effect Effects 0.000 claims abstract description 136
- 230000015572 biosynthetic process Effects 0.000 claims abstract description 100
- 238000003786 synthesis reaction Methods 0.000 claims abstract description 100
- 210000001260 vocal cord Anatomy 0.000 claims description 33
- 238000000034 method Methods 0.000 claims description 18
- 230000002996 emotional effect Effects 0.000 claims description 15
- 238000004891 communication Methods 0.000 claims description 12
- 238000007781 pre-processing Methods 0.000 claims description 7
- 238000012545 processing Methods 0.000 claims description 7
- 238000006243 chemical reaction Methods 0.000 claims description 5
- 238000013136 deep learning model Methods 0.000 claims description 5
- 230000008451 emotion Effects 0.000 claims description 4
- 238000004088 simulation Methods 0.000 claims description 3
- 238000005516 engineering process Methods 0.000 abstract description 19
- 230000006870 function Effects 0.000 description 13
- 238000010586 diagram Methods 0.000 description 10
- 239000000284 extract Substances 0.000 description 6
- 238000013135 deep learning Methods 0.000 description 4
- 238000011156 evaluation Methods 0.000 description 4
- 230000003278 mimic effect Effects 0.000 description 4
- 238000013528 artificial neural network Methods 0.000 description 3
- 230000009466 transformation Effects 0.000 description 3
- 230000009471 action Effects 0.000 description 2
- 238000013473 artificial intelligence Methods 0.000 description 2
- 230000008901 benefit Effects 0.000 description 2
- 210000004556 brain Anatomy 0.000 description 2
- 230000007177 brain activity Effects 0.000 description 2
- 230000008859 change Effects 0.000 description 2
- 230000019771 cognition Effects 0.000 description 2
- 238000004590 computer program Methods 0.000 description 2
- 238000011161 development Methods 0.000 description 2
- 230000000694 effects Effects 0.000 description 2
- 230000014509 gene expression Effects 0.000 description 2
- 238000010801 machine learning Methods 0.000 description 2
- 230000007246 mechanism Effects 0.000 description 2
- 238000012986 modification Methods 0.000 description 2
- 230000004048 modification Effects 0.000 description 2
- 210000002569 neuron Anatomy 0.000 description 2
- 238000012549 training Methods 0.000 description 2
- 238000007796 conventional method Methods 0.000 description 1
- 230000005284 excitation Effects 0.000 description 1
- 239000012634 fragment Substances 0.000 description 1
- 239000000203 mixture Substances 0.000 description 1
- 238000003058 natural language processing Methods 0.000 description 1
- 230000008569 process Effects 0.000 description 1
- 238000005070 sampling Methods 0.000 description 1
- 230000003595 spectral effect Effects 0.000 description 1
Images
Classifications
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L13/00—Speech synthesis; Text to speech systems
- G10L13/02—Methods for producing synthetic speech; Speech synthesisers
- G10L13/033—Voice editing, e.g. manipulating the voice of the synthesiser
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L13/00—Speech synthesis; Text to speech systems
- G10L13/08—Text analysis or generation of parameters for speech synthesis out of text, e.g. grapheme to phoneme translation, prosody generation or stress or intonation determination
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L15/00—Speech recognition
- G10L15/26—Speech to text systems
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L21/00—Speech or voice signal processing techniques to produce another audible or non-audible signal, e.g. visual or tactile, in order to modify its quality or its intelligibility
- G10L21/02—Speech enhancement, e.g. noise reduction or echo cancellation
- G10L21/0208—Noise filtering
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L21/00—Speech or voice signal processing techniques to produce another audible or non-audible signal, e.g. visual or tactile, in order to modify its quality or its intelligibility
- G10L21/02—Speech enhancement, e.g. noise reduction or echo cancellation
- G10L21/0272—Voice signal separating
Landscapes
- Engineering & Computer Science (AREA)
- Computational Linguistics (AREA)
- Health & Medical Sciences (AREA)
- Audiology, Speech & Language Pathology (AREA)
- Human Computer Interaction (AREA)
- Physics & Mathematics (AREA)
- Acoustics & Sound (AREA)
- Multimedia (AREA)
- Quality & Reliability (AREA)
- Signal Processing (AREA)
- Telephonic Communication Services (AREA)
Abstract
Description
도 2는 본 발명의 일실시예에 따른 음성인식엔진과 성대모사용음성합성엔진을 이용한 화자 성대모사시스템을 개략적으로 나타낸 구조도.
도 3은 본 발명의 일실시예에 따른 음성합성엔진을 이용한 음성인식 자동 평가시스템의 성대모사음성설정수단(200) 블록도.
도 4는 본 발명의 일실시예에 따른 음성합성엔진을 이용한 음성인식 자동 평가시스템의 음성인식수단(300) 블록도.
도 5는 본 발명의 일실시예에 따른 음성합성엔진을 이용한 음성인식 자동 평가시스템의 성대모사용음성합성수단(400) 블록도.
200 : 성대모사음성설정수단
300 : 음성인식수단
400 : 성대모사용음성합성수단
500 : 성대모사용음성출력부
Claims (6)
- 음성인식엔진과 성대모사용음성합성엔진을 이용한 화자 성대모사시스템에 있어서,
음성인식을 위한 화자의 음성을 획득하기 위한 마이크부(100)와,
음성 모델 리스트 중 성대모사할 음성 모델을 선택하며, 성대모사 음성 출력시, 옵션 정보를 설정하며, 상기 선택된 음성 모델 정보와 설정된 옵션 정보를 음성인식수단(300)으로 제공하기 위한 성대모사음성설정수단(200)과,
상기 마이크부(100)로부터 화자의 음성을 획득하여 노이즈 제거를 수행하고, 노이즈 제거된 화자의 음성을 텍스트로 변환시키고, 마이크부(100)로부터 획득된 화자 음성의 감정 상태 특징 파라미터를 추출하고, 변환된 텍스트와 성대모사음성설정수단(200)에서 제공한 음성 모델 정보 및 옵션 정보와 추출된 감정 상태 특징 파라미터를 성대모사용음성합성수단(400)으로 제공하기 위한 음성인식수단(300)과,
음성인식수단(300)에서 제공한 음성 모델 정보를 참조하여 해당 음성 모델의 특징 파라미터를 추출하며, 추출된 음성 모델의 특징 파라미터와 옵션 정보와 감정 상태 특징 파라미터를 참조하여 화자가 원하는 성대모사 음성으로 변환시킨 후, 변환된 성대모사 음성 정보를 성대모사용음성출력부(500)로 제공하기 위한 성대모사용음성합성수단(400)과,
상기 성대모사용음성합성수단(400)으로부터 변환된 성대모사 음성 정보를 획득하여 음성 출력시키기 위한 성대모사용음성출력부(500)를 포함하여 구성되고,
상기 성대모사음성설정수단(200)은,
음성 모델 리스트 중에서 음성합성엔진부(450)에서 출력할 음성 모델 정보를선택하기 위한 음성모델선택부(210);
음성인식엔진부에서 성대모사 음성 출력시, 볼륨, 음질의 옵션 정보를 설정하기 위한 음성출력옵션설정부(220);를 포함하고,
상기 음성인식수단(300)은,
마이크부(100)로부터 획득된 화자의 음성을 획득하여 저장하고 있는 화자음성저장부(310);
상기 화자음성저장부(310)에 저장된 화자의 음성을 추출하여 노이즈 제거를 수행하기 위한 전처리부(320);
상기 전처리부에서 노이즈 제거된 화자의 음성을 획득하여 텍스트로 변환시켜 음성인식결과제공부(340)로 제공하기 위한 음성인식엔진부(330);
상기 음성인식엔진부(330)로부터 제공된 텍스트로 변환된 음성인식 결과값을 성대모사음성합성수단(400)으로 제공하며, 성대모사음성설정수단(200)의 음성모델선택부(210)에서 선택한 음성 모델 정보와 성대모사음성설정수단(200)의 음성출력옵션설정부(220)에서 설정된 볼륨, 음질의 옵션 정보를 성대모사음성합성수단(400)으로 제공하기 위한 음성인식결과제공부(340);
마이크부(100)로부터 획득된 화자의 음성을 추출하여 감정 상태를 분석하고 분석 결과에 따른 감정 상태 특징 파라미터를 추출하여 성대모사용음성합성수단(400)으로 제공하기 위한 감정상태분석부를 포함하여 구성되는 것을 특징으로 하는 음성인식엔진과 성대모사용음성합성엔진을 이용한 화자 성대모사시스템.
- 삭제
- 삭제
- 제 1항에 있어서,
상기 성대모사용음성합성수단(400)은,
음성인식수단(300)에서 제공하는 텍스트로 변환된 음성인식 결과값, 음성 모델 정보, 볼륨 및 음질의 옵션 정보, 감정 상태 특징 파라미터를 수신받아 음성합성엔진부(450)로 제공하기 위한 음성합성통신부(410);
성대모사를 위한 음성 모델 리스트와 음성 모델별 특징 파라미터를 저장하고 있는 성대모사음성모델정보저장부(420);
상기 음성합성통신부로부터 제공된 음성 모델 정보를 참조하여 해당 음성 모델의 특징 파라미터를 추출하여 음성합성엔진부(450)로 제공하기 위한 음성모델정보제공부(430);
상기 음성합성통신부로부터 제공된 볼륨, 음질의 옵션 정보를 참조하여 조정된 볼륨, 음질 정보를 음성합성엔진부(450)로 제공하기 위한 옵션정보조정부(440);
상기 음성합성통신부(410)에서 제공된 음성인식 결과값인 텍스트를 상기 음성합성통신부(410)에서 제공된 감정 상태 특징 파라미터와 상기 음성모델정보제공부(430)에서 제공된 음성 모델의 특징 파라미터와 상기 옵션정보조정부(440)에서 제공된 볼륨, 음질 정보를 참조하여 화자가 원하는 성대모사 음성으로 변환시키기 위한 음성합성엔진부(450);
마이크부(100)로부터 입력된 특정 화자의 음성을 획득하여 특징 파라미터를 추출하고, 추출된 특징 파라미터에 설정된 음성 모델 이름을 매칭시켜 성대모사음성모델정보저장부(420)에 저장 처리하기 위한 특정화자음성모델리스트처리부를 포함하여 구성되는 것을 특징으로 하는 음성인식엔진과 성대모사용음성합성엔진을 이용한 화자 성대모사시스템.
- 제 4항에 있어서,
상기 음성합성엔진부(450)는,
딥 러닝(deep learning) 모델을 이용하여 추가되는 성대모사용 음성 모델 정보를 생성하는 것을 특징으로 하는 음성인식엔진과 성대모사용음성합성엔진을 이용한 화자 성대모사시스템.
- 제 1항에 있어서,
상기 음성인식수단(300)은,
외부단말기로부터 텍스트를 획득할 경우에,
텍스트와 성대모사음성설정수단(200)에서 제공한 음성 모델 정보 및 옵션 정보를 성대모사음성합성수단(400)으로 제공하는 것을 특징으로 하는 음성인식엔진과 성대모사용음성합성엔진을 이용한 화자 성대모사시스템.
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
KR1020190043516A KR102116014B1 (ko) | 2019-04-15 | 2019-04-15 | 음성인식엔진과 성대모사용음성합성엔진을 이용한 화자 성대모사시스템 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
KR1020190043516A KR102116014B1 (ko) | 2019-04-15 | 2019-04-15 | 음성인식엔진과 성대모사용음성합성엔진을 이용한 화자 성대모사시스템 |
Publications (1)
Publication Number | Publication Date |
---|---|
KR102116014B1 true KR102116014B1 (ko) | 2020-05-27 |
Family
ID=70911328
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
KR1020190043516A Active KR102116014B1 (ko) | 2019-04-15 | 2019-04-15 | 음성인식엔진과 성대모사용음성합성엔진을 이용한 화자 성대모사시스템 |
Country Status (1)
Country | Link |
---|---|
KR (1) | KR102116014B1 (ko) |
Citations (5)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
KR20070076121A (ko) | 2006-01-18 | 2007-07-24 | 이준근 | 길 안내용 네비게이션에 사투리모드, 성대모사모드,유머모드, 혼합모드등을선택할 수 있는 장치를 내장한음성안내 시스템을 탑재함으로써 네비게이션 판매를증대시키는 비지니스 모델 |
KR20120117041A (ko) * | 2011-04-14 | 2012-10-24 | 한국과학기술원 | 개인 운율 모델에 기반하여 감정 음성을 합성하기 위한 방법 및 장치 및 기록 매체 |
KR101647974B1 (ko) * | 2015-03-30 | 2016-08-16 | 주식회사 이드웨어 | 스마트 믹싱 모듈을 갖춘 스마트 이어폰, 스마트 믹싱 모듈을 갖춘 기기, 외부음과 기기음을 혼합하는 방법 및 시스템 |
KR20160131505A (ko) * | 2015-05-07 | 2016-11-16 | 주식회사 셀바스에이아이 | 음성 변환 방법 및 음성 변환 장치 |
KR20190002003A (ko) * | 2017-06-29 | 2019-01-08 | 주식회사 케이티 | 음성 합성 방법 및 장치 |
-
2019
- 2019-04-15 KR KR1020190043516A patent/KR102116014B1/ko active Active
Patent Citations (5)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
KR20070076121A (ko) | 2006-01-18 | 2007-07-24 | 이준근 | 길 안내용 네비게이션에 사투리모드, 성대모사모드,유머모드, 혼합모드등을선택할 수 있는 장치를 내장한음성안내 시스템을 탑재함으로써 네비게이션 판매를증대시키는 비지니스 모델 |
KR20120117041A (ko) * | 2011-04-14 | 2012-10-24 | 한국과학기술원 | 개인 운율 모델에 기반하여 감정 음성을 합성하기 위한 방법 및 장치 및 기록 매체 |
KR101647974B1 (ko) * | 2015-03-30 | 2016-08-16 | 주식회사 이드웨어 | 스마트 믹싱 모듈을 갖춘 스마트 이어폰, 스마트 믹싱 모듈을 갖춘 기기, 외부음과 기기음을 혼합하는 방법 및 시스템 |
KR20160131505A (ko) * | 2015-05-07 | 2016-11-16 | 주식회사 셀바스에이아이 | 음성 변환 방법 및 음성 변환 장치 |
KR20190002003A (ko) * | 2017-06-29 | 2019-01-08 | 주식회사 케이티 | 음성 합성 방법 및 장치 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
KR102265972B1 (ko) | 다중 언어 텍스트-음성 합성 모델을 이용한 음성 번역 방법 및 시스템 | |
KR102668866B1 (ko) | 기계학습을 이용한 텍스트-음성 합성 방법, 장치 및 컴퓨터 판독가능한 저장매체 | |
KR102677459B1 (ko) | 2-레벨 스피치 운율 전송 | |
CN110211563B (zh) | 面向情景及情感的中文语音合成方法、装置及存储介质 | |
KR102757438B1 (ko) | 순차적 운율 특징을 기초로 기계학습을 이용한 텍스트-음성 합성 방법, 장치 및 컴퓨터 판독가능한 저장매체 | |
KR102769179B1 (ko) | 목소리 변환 및 스피치 인식 모델을 사용한 합성 데이터 증강 | |
US20230290346A1 (en) | Content output management based on speech quality | |
CN115485766A (zh) | 使用bert模型的语音合成韵律 | |
CN113628609A (zh) | 自动音频内容生成 | |
JP2016151736A (ja) | 音声加工装置、及びプログラム | |
CN115148185A (zh) | 语音合成方法及装置、电子设备及存储介质 | |
US10446133B2 (en) | Multi-stream spectral representation for statistical parametric speech synthesis | |
KR102323482B1 (ko) | 발화 감정 히스토리를 이용한 대화 에이젼트 시스템 및 방법 | |
KR102116014B1 (ko) | 음성인식엔진과 성대모사용음성합성엔진을 이용한 화자 성대모사시스템 | |
KR102463570B1 (ko) | 무음 구간 검출을 통한 멜 스펙트로그램의 배치 구성 방법 및 음성 합성 시스템 | |
KR100806287B1 (ko) | 문말 억양 예측 방법 및 이를 기반으로 하는 음성합성 방법및 시스템 | |
KR102418465B1 (ko) | 동화 낭독 서비스를 제공하는 서버, 방법 및 컴퓨터 프로그램 | |
CN118366430B (zh) | 一种拟人化的语音合成方法、装置及可读存储介质 | |
Skare et al. | Using a Recurrent Neural Network and Articulatory Synthesis to Accurately Model Speech Output | |
Shinde et al. | Emotion classification and frequency domain parameters of speech signal for the expression of prosody in synthetic speech | |
Schabus | Interpolation of Austrian German and Viennese dialect/sociolect in HMM-based speech synthesis |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PA0109 | Patent application |
Patent event code: PA01091R01D Comment text: Patent Application Patent event date: 20190415 |
|
PA0201 | Request for examination | ||
PA0302 | Request for accelerated examination |
Patent event date: 20190417 Patent event code: PA03022R01D Comment text: Request for Accelerated Examination Patent event date: 20190415 Patent event code: PA03021R01I Comment text: Patent Application |
|
PE0902 | Notice of grounds for rejection |
Comment text: Notification of reason for refusal Patent event date: 20190614 Patent event code: PE09021S01D |
|
PE0902 | Notice of grounds for rejection |
Comment text: Final Notice of Reason for Refusal Patent event date: 20191122 Patent event code: PE09021S02D |
|
E701 | Decision to grant or registration of patent right | ||
PE0701 | Decision of registration |
Patent event code: PE07011S01D Comment text: Decision to Grant Registration Patent event date: 20200519 |
|
GRNT | Written decision to grant | ||
PR0701 | Registration of establishment |
Comment text: Registration of Establishment Patent event date: 20200521 Patent event code: PR07011E01D |
|
PR1002 | Payment of registration fee |
Payment date: 20200521 End annual number: 3 Start annual number: 1 |
|
PG1601 | Publication of registration | ||
PR1001 | Payment of annual fee |
Payment date: 20230517 Start annual number: 4 End annual number: 4 |
|
PR1001 | Payment of annual fee |
Payment date: 20240508 Start annual number: 5 End annual number: 5 |