KR20080030338A - 경계 휴지강도를 이용한 발음변환 방법 및 이를 기반으로하는 음성합성 시스템 - Google Patents
경계 휴지강도를 이용한 발음변환 방법 및 이를 기반으로하는 음성합성 시스템 Download PDFInfo
- Publication number
- KR20080030338A KR20080030338A KR1020060096296A KR20060096296A KR20080030338A KR 20080030338 A KR20080030338 A KR 20080030338A KR 1020060096296 A KR1020060096296 A KR 1020060096296A KR 20060096296 A KR20060096296 A KR 20060096296A KR 20080030338 A KR20080030338 A KR 20080030338A
- Authority
- KR
- South Korea
- Prior art keywords
- pronunciation
- training
- conversion
- boundary
- information
- Prior art date
Links
Images
Classifications
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L13/00—Speech synthesis; Text to speech systems
- G10L13/06—Elementary speech units used in speech synthesisers; Concatenation rules
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L13/00—Speech synthesis; Text to speech systems
- G10L13/02—Methods for producing synthetic speech; Speech synthesisers
- G10L13/033—Voice editing, e.g. manipulating the voice of the synthesiser
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L15/00—Speech recognition
- G10L15/06—Creation of reference templates; Training of speech recognition systems, e.g. adaptation to the characteristics of the speaker's voice
Landscapes
- Engineering & Computer Science (AREA)
- Computational Linguistics (AREA)
- Health & Medical Sciences (AREA)
- Audiology, Speech & Language Pathology (AREA)
- Human Computer Interaction (AREA)
- Physics & Mathematics (AREA)
- Acoustics & Sound (AREA)
- Multimedia (AREA)
- Artificial Intelligence (AREA)
- Electrically Operated Instructional Devices (AREA)
Abstract
Description
Claims (12)
- (a) 어절 경계에서의 발음 변이현상을 반영할 수 있도록 합성 데이터베이스를 가공하는 단계;(b) 상기 가공된 합성 데이터베이스로부터 특징파라미터를 추출하여 훈련 DB를 생성하는 단계;(c) 상기 추출된 특징파라미터를 기반으로 상기 훈련 DB를 훈련하여 발음변환모델을 생성하는 단계;(d) 텍스트가 입력되면 입력 텍스트에 대한 전처리 및 언어분석을 수행하여 상기 입력 텍스트에 대한 어절간 경계강도를 예측하는 단계;(e) 상기 입력 텍스트로부터 발음변환을 위한 특징파라미터를 추출하는 단계; 및(f) 상기 추출된 특징파라미터를 이용하여 상기 발음변환모델을 기반으로 상기 입력 텍스트에 대한 발음열을 생성하는 단계를 포함하는 것을 특징으로 하는 경계 휴지강도를 이용한 발음변환 방법.
- 제 1항에 있어서, 상기 (a) 단계는,상기 합성 데이터베이스에 대하여 발음전사를 수행하여 발음열을 생성하는 단계;상기 생성된 발음열에 대하여 음절단위, 음소단위 또는 어절단위로 휴지강도 를 태깅하는 단계;상기 태깅된 발음열에서 음소의 변이음을 레이블링하는 단계; 및상기 레이블링된 발음열에서 오류를 수정하는 단계를 더 포함하는 것을 특징으로 하는 경계 휴지강도를 이용한 발음변환 방법.
- 제 1항에 있어서, 상기 (b) 단계는,상기 가공된 합성 데이터베이스의 문맥정보를 기반으로 각 음소의 언어정보, 운율정보, 변이음 정보를 계산하는 단계; 및상기 계산된 각 음소의 언어정보, 운율정보, 변이음 정보로부터 특징파라미터를 추출하여 추출된 특징파라미터를 기반으로 훈련 DB를 생성하는 단계를 더 포함하는 것을 특징으로 하는 경계 휴지강도를 이용한 발음변환 방법.
- 제 3항에 있어서, 상기 특징파라미터는,현재 철자의 좌우 철자문맥정보, 현재 철자의 이전 발음변환된 음소문맥정보, 현재 철자의 경계강도 정보, 현재 철자의 음절단위 거리 정보, 형태소 정보 중 적어도 어느 하나의 정보를 포함하는 것을 특징으로 하는 경계 휴지강도를 이용한 발음변환 방법.
- 제 1항에 있어서, 상기 (c) 단계는,상기 훈련 DB를 통계 학습하기 위한 학습모델 파라미터를 결정하는 제 1 단 계;상기 결정된 학습모델 파라미터를 기반으로 훈련 DB를 훈련하는 제 2 단계;상기 훈련 결과를 기반으로 상기 결정된 학습모델 파라미터의 발음변환 성능을 평가하는 제 3 단계;상기 발음변환 성능 평가 결과를 기반으로 상기 결정된 학습모델 파라미터가 가장 높은 발음변환 성능을 가진 파라미터인지를 판단하는 제 4 단계; 및상기 결정된 학습모델의 파라미터가 가장 높은 발음변환 성능을 가진 파라미터로 판단된 경우 상기 훈련 결과를 기반으로 발음변환모델을 생성하는 제 5 단계를 더 포함하는 것을 특징으로 하는 경계 휴지강도를 이용한 발음변환 방법.
- 제 5항에 있어서, 상기 제 3 단계에서,발음변환 오류가 빈번하게 발생하는 단어를 추출하여 예외발음사전으로 구축하는 단계를 더 포함하는 것을 특징으로 하는 경계 휴지강도를 이용한 발음변환 방법.
- 제 1항 또는 제 6항에 있어서,상기 입력 텍스트의 단어가 상기 예외발음사전에 포함되어 있는 경우, 상기 예외발음사전을 기반으로 상기 입력 텍스트에 대한 발음열을 생성하는 단계를 더 포함하는 것을 특징으로 하는 경계 휴지강도를 이용한 발음변환 방법.
- 어절 경계에서의 발음 변이현상을 반영할 수 있도록 합성 데이터베이스를 가공하기 위한 합성 데이터베이스 가공부;상기 가공된 합성 데이터베이스로부터 특징파라미터를 추출하여 훈련 DB를 생성하기 위한 훈련 DB 생성부;상기 추출된 특징파라미터를 기반으로 상기 훈련 DB를 훈련하여 발음변환모델을 생성하고, 상기 훈련 과정에서 발음변환 오류가 빈번하게 발생하는 단어를 추출하여 예외발음사전으로 구축하는 발음변환모델 생성부;입력 텍스트에 대한 전처리를 수행하는 전처리부;상기 전처리된 입력 텍스트를 전달받아 언어분석을 수행하여 언어분석 결과를 기반으로 어절간 경계강도를 예측하는 언어분석부;상기 언어분석 결과 및 예측된 어절간 경계강도 정보를 이용하여 발음변환을 위한 특징파라미터를 추출하는 특징추출부;상기 발음변환모델 또는 예외발음사전을 기반으로 상기 입력 텍스트에 대한 발음열을 생성하는 발음열 생성부; 및상기 생성된 발음열에 대한 합성음을 생성하여 출력하는 합성음 생성부를 포함하는 것을 특징으로 하는 경계 휴지강도를 이용한 발음변환을 기반으로 하는 음성합성 시스템.
- 제 8항에 있어서, 상기 합성 데이터베이스 가공부는,상기 합성 데이터베이스에 대하여 발음전사를 수행하여 발음열을 생성한 후 상기 생성된 발음열에 대하여 음절단위, 음소단위 또는 어절단위로 휴지강도를 태깅하고,상기 태깅된 발음열에서 음소의 변이음을 레이블링한 후 오류를 수정하는 것을 특징으로 하는 경계 휴지강도를 이용한 발음변환을 기반으로 하는 음성합성 시스템.
- 제 8항에 있어서, 상기 훈련 DB 생성부는,상기 가공된 합성 데이터베이스로부터 현재 철자의 좌우 철자문맥정보, 현재 철자의 이전 발음변환된 음소문맥정보, 현재 철자의 경계강도 정보, 현재 철자의 음절단위 거리 정보, 형태소 정보 중 적어도 어느 하나의 특징파라미터를 추출하여 추출된 특징파라미터를 기반으로 훈련 DB를 생성하는 것을 특징으로 하는 경계 휴지강도를 이용한 발음변환을 기반으로 하는 음성합성 시스템.
- 제 10항에 있어서, 상기 발음변환모델 생성부는,상기 특징파라미터 중 가장 높은 발음변환 성능을 가진 특징파라미터를 기반으로 상기 훈련 DB를 훈련하여 발음변환모델을 생성하는 것을 특징으로 하는 경계 휴지강도를 이용한 발음변환을 기반으로 하는 음성합성 시스템.
- 제 8항에 있어서, 상기 발음열 생성부는,상기 입력 텍스트의 단어가 상기 예외발음사전에 포함되어 있는 경우 상기 예외발음사전을 기반으로 상기 입력 텍스트에 대한 발음열을 생성하며,상기 입력 텍스트의 단어가 상기 예외발음사전에 포함되어 있지 않은 경우 상기 발음변환모델을 기반으로 상기 입력 텍스트에 대한 발음열을 생성하는 것을 특징으로 하는 경계 휴지강도를 이용한 발음변환을 기반으로 하는 음성합성 시스템.
Priority Applications (2)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
KR1020060096296A KR20080030338A (ko) | 2006-09-29 | 2006-09-29 | 경계 휴지강도를 이용한 발음변환 방법 및 이를 기반으로하는 음성합성 시스템 |
PCT/KR2007/004699 WO2008038994A1 (en) | 2006-09-29 | 2007-09-27 | Method for converting pronunciation using boundary pause intensity and text-to-speech synthesis system based on the same |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
KR1020060096296A KR20080030338A (ko) | 2006-09-29 | 2006-09-29 | 경계 휴지강도를 이용한 발음변환 방법 및 이를 기반으로하는 음성합성 시스템 |
Publications (1)
Publication Number | Publication Date |
---|---|
KR20080030338A true KR20080030338A (ko) | 2008-04-04 |
Family
ID=39230372
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
KR1020060096296A KR20080030338A (ko) | 2006-09-29 | 2006-09-29 | 경계 휴지강도를 이용한 발음변환 방법 및 이를 기반으로하는 음성합성 시스템 |
Country Status (2)
Country | Link |
---|---|
KR (1) | KR20080030338A (ko) |
WO (1) | WO2008038994A1 (ko) |
Cited By (1)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN103856626A (zh) * | 2012-11-29 | 2014-06-11 | 北京千橡网景科技发展有限公司 | 个性声音的定制方法和装置 |
Families Citing this family (1)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN103581857A (zh) * | 2013-11-05 | 2014-02-12 | 华为终端有限公司 | 一种语音提示的方法、语音合成服务器及终端 |
Family Cites Families (4)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
KR100499116B1 (ko) * | 1999-02-09 | 2005-07-04 | 삼성전자주식회사 | 음성합성을 위한 끊어읽기 방법 및 그 장치 |
CN1168068C (zh) * | 1999-03-25 | 2004-09-22 | 松下电器产业株式会社 | 语音合成系统与语音合成方法 |
JP2001005479A (ja) * | 1999-06-23 | 2001-01-12 | Ricoh Co Ltd | 音声出力装置 |
KR100650393B1 (ko) * | 2004-06-26 | 2006-11-27 | 부산대학교 산학협력단 | 한국어 발음 기호열 생성 시스템 및 그 방법 및 상기방법을 실현시키기 위한 프로그램을 기록한 컴퓨터로 읽을수 있는 기록매체 |
-
2006
- 2006-09-29 KR KR1020060096296A patent/KR20080030338A/ko not_active Application Discontinuation
-
2007
- 2007-09-27 WO PCT/KR2007/004699 patent/WO2008038994A1/en active Application Filing
Cited By (1)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN103856626A (zh) * | 2012-11-29 | 2014-06-11 | 北京千橡网景科技发展有限公司 | 个性声音的定制方法和装置 |
Also Published As
Publication number | Publication date |
---|---|
WO2008038994A1 (en) | 2008-04-03 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
US9196240B2 (en) | Automated text to speech voice development | |
US7962341B2 (en) | Method and apparatus for labelling speech | |
MXPA01006594A (es) | Metodo y sistema para la preseleccion de unidades adecuadas para habla por concatenacion. | |
CN105336322A (zh) | 多音字模型训练方法、语音合成方法及装置 | |
Yanagita et al. | Neural iTTS: Toward synthesizing speech in real-time with end-to-end neural text-to-speech framework | |
Proença et al. | Automatic evaluation of reading aloud performance in children | |
Srikanth et al. | Automatic pronunciation scoring and mispronunciation detection using CMUSphinx | |
Koriyama et al. | On the Use of Extended Context for HMM-Based Spontaneous Conversational Speech Synthesis. | |
Halabi | Arabic speech corpus | |
Bunnell et al. | Automatic personal synthetic voice construction. | |
Gutkin et al. | Building statistical parametric multi-speaker synthesis for bangladeshi bangla | |
Basson et al. | Comparing grapheme-based and phoneme-based speech recognition for Afrikaans | |
Adell et al. | Database pruning for unsupervised building of text-to-speech voices | |
KR20080030338A (ko) | 경계 휴지강도를 이용한 발음변환 방법 및 이를 기반으로하는 음성합성 시스템 | |
Abdelmalek et al. | High quality Arabic text-to-speech synthesis using unit selection | |
Bonafonte et al. | The UPC TTS system description for the 2008 blizzard challenge | |
Réveil et al. | Improving proper name recognition by means of automatically learned pronunciation variants | |
Díez et al. | Non-native speech corpora for the development of computer assisted pronunciation training systems | |
Janyoi et al. | An Isarn dialect HMM-based text-to-speech system | |
KR100720175B1 (ko) | 음성합성을 위한 끊어읽기 장치 및 방법 | |
KR20100072962A (ko) | 복수의 끊어 읽기 모델을 이용한 음성 합성 장치 및 그 방법 | |
Li et al. | Hierarchical stress generation with Fujisaki model in expressive speech synthesis | |
Shah et al. | Influence of various asymmetrical contextual factors for TTS in a low resource language | |
Hirose et al. | Corpus-based synthesis of fundamental frequency contours of Japanese using automatically-generated prosodic corpus and generation process model. | |
Hirst | Empirical models of tone, rhythm and intonation for the analysis of speech prosody |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
A201 | Request for examination | ||
PA0109 | Patent application |
Patent event code: PA01091R01D Comment text: Patent Application Patent event date: 20060929 |
|
PA0201 | Request for examination | ||
E902 | Notification of reason for refusal | ||
PE0902 | Notice of grounds for rejection |
Comment text: Notification of reason for refusal Patent event date: 20071031 Patent event code: PE09021S01D |
|
PG1501 | Laying open of application | ||
E601 | Decision to refuse application | ||
PE0601 | Decision on rejection of patent |
Patent event date: 20080424 Comment text: Decision to Refuse Application Patent event code: PE06012S01D Patent event date: 20071031 Comment text: Notification of reason for refusal Patent event code: PE06011S01I |