[go: up one dir, main page]

KR0175247B1 - Text conversion method for speech synthesis - Google Patents

Text conversion method for speech synthesis Download PDF

Info

Publication number
KR0175247B1
KR0175247B1 KR1019910006438A KR910006438A KR0175247B1 KR 0175247 B1 KR0175247 B1 KR 0175247B1 KR 1019910006438 A KR1019910006438 A KR 1019910006438A KR 910006438 A KR910006438 A KR 910006438A KR 0175247 B1 KR0175247 B1 KR 0175247B1
Authority
KR
South Korea
Prior art keywords
code
assistant
text
speech synthesis
converting
Prior art date
Application number
KR1019910006438A
Other languages
Korean (ko)
Other versions
KR920020394A (en
Inventor
하남규
기석철
Original Assignee
정용문
삼성전자주식회사
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by 정용문, 삼성전자주식회사 filed Critical 정용문
Priority to KR1019910006438A priority Critical patent/KR0175247B1/en
Publication of KR920020394A publication Critical patent/KR920020394A/en
Application granted granted Critical
Publication of KR0175247B1 publication Critical patent/KR0175247B1/en

Links

Classifications

    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L13/00Speech synthesis; Text to speech systems
    • G10L13/08Text analysis or generation of parameters for speech synthesis out of text, e.g. grapheme to phoneme translation, prosody generation or stress or intonation determination

Landscapes

  • Engineering & Computer Science (AREA)
  • Computational Linguistics (AREA)
  • Health & Medical Sciences (AREA)
  • Audiology, Speech & Language Pathology (AREA)
  • Human Computer Interaction (AREA)
  • Physics & Mathematics (AREA)
  • Acoustics & Sound (AREA)
  • Multimedia (AREA)
  • Document Processing Apparatus (AREA)

Abstract

음성합성을 위한 텍스트 변환 방법에 있어, 텍스트를 입력하여 숫자, 영어, 한자, 기호, 한글, 일어별로 KS2규정에 따라 분류하고, 상기 분류한 텍스트별로 코드로 변환 처리하며, 상기에서 처리한 코드 텍스트를 음운 처리한다.In the text conversion method for speech synthesis, text is input and classified according to KS2 regulations for numbers, English, Chinese characters, symbols, Korean, and Japanese, and converted into codes for the classified texts, and the coded text processed above Phonically process

Description

음성 합성을 위한 텍스트 변환방법Text conversion method for speech synthesis

제1도는 본 발명에 따른 시스템도.1 is a system diagram according to the present invention.

제2도는 본 발명에 따른 흐름도.2 is a flow chart in accordance with the present invention.

제3도는 제2도의 숫자 처리 구체 흐름도.3 is a flowchart of a numerical processing concrete of FIG.

제4도는 제2도의 영어 처리 구체 흐름도.4 is a flowchart of an English language processing concrete of FIG.

제5도는 제2도의 한자 처리 구체 흐름도.5 is a flowchart illustrating a Chinese character processing of FIG.

제6도는 제2도의 기호 처리 구체 흐름도.6 is a symbol processing specific flowchart of FIG.

제7도는 제2도의 한글 처리 구체 흐름도.7 is a flowchart of a Hangul process of FIG.

제8도는 제2도의 일본어 처리 구체 흐름도.8 is a flowchart illustrating the Japanese language processing of FIG.

제9도는 제2도의 음운 처리 구체 흐름도.9 is a phonological processing specific flow chart of FIG.

본 발명은 기호 및 숫자 또는 영자 및 한자를 코드로 변환하여 음운 규칙에 의거하여 소리나는대로의 코드로 부호화할 수 있는 음성합성을 위한 텍스트 변환 방법에 관한 것이다.The present invention relates to a text conversion method for speech synthesis that can convert symbols and numbers or alphabets and Chinese characters into codes and code them into codes as they are sounded based on phonological rules.

컴퓨터 사용이 일반화되고 보편화되면서 인간과 컴퓨터 통신의 중요성이 점차 증대되고 있다. 지금까지는 주로 모니터, 프린터, 플로터 등 시각적인 장치에 주로 의존하고 있었으나, 마이크로 프로세서의 발달에 힘입어 최근 음성합성을 통한 청각적인 방법에 의한 컴퓨터와 인간과의 정보 전달(man-machine communication)이 개발되어 여러분야에서 응용되고 있다.As the use of computers becomes more common and universal, the importance of human and computer communication is increasing. Until now, it has been mainly dependent on visual devices such as monitors, printers, and plotters, but thanks to the development of microprocessors, man-machine communication between computers and humans has recently been developed by audible methods through speech synthesis. It is applied in all of you.

특히 사무자동화, 공장자동화, 가정자동화등 정보산업이 발달함에 따라 음성합성에 대한 수요가 더욱 증대되면서 현재 세계적으로 자국의 언어를 합성하는 연구가 활발히 진행중이다. 영어의 경우 정확도가 95%인 Vortax사의 Telesensory Prose2000 시스템에 까지 발전하였고, 일본어의 경우 언어 체계가 단순하고 음절수가 적은 이점을 바탕으로 한 합성 시스템이 개발되었다.In particular, as the information industry such as office automation, factory automation, and home automation develops, the demand for speech synthesis increases, and research is being actively conducted to synthesize the languages of the world. In the case of English, Vortax's Telesensory Prose2000 system with 95% accuracy has been developed. In the case of Japanese, a synthesis system was developed based on the advantages of simple language system and low number of syllables.

한국어의 경우 최근 음성신호 처리 연구가 활발히 진행되어 왔으나, 음성합성에 관한한 아직은 하드웨어와 소프트웨어로 완전하게 구성된 시스템에 관한 연구결과는 발표된 바가 없고 부분적인 연구 결과만이 발표되었다. 한국어 음성 합성시스템에 관한 연구에는 한국어의 정량적 음가에 대한 언어학적 연구가 근간이 되는데 그 연구가 미약하여 한국어 음성합성의 체계적 연구에 어려움이 있다. 한편 제한된 기능의 음성합성 전용 IC가 국내 기업에서 개발된 바 있다.In the case of Korean, voice signal processing research has been actively conducted in recent years. However, as for speech synthesis, no research on a system composed entirely of hardware and software has been published. The study on Korean speech synthesis system is based on linguistic research on quantitative phonetics of Korean language. However, the research is weak and it is difficult to systematically study Korean speech synthesis. Meanwhile, a limited function voice synthesis IC has been developed in Korea.

음성합성에는 합성할 수 있는 어휘의 범위에 따라 제한 단어 합성과 무제한 단어 합성으로 나누어진다.Speech synthesis is divided into restricted word synthesis and unlimited word synthesis according to the range of vocabulary that can be synthesized.

제한 단어 합성은 한정된 어휘만을 데이타 베이스에 저장하였다가 합성음을 출력하는 방법이고, 무제한 단어 합성은 기본이 되는 단위를 데이타 베이스에 저장하였다가 기본 단위들을 조합하여 임의의 합성음을 출력하는 방법이다.Restriction word synthesis is a method of storing only a limited vocabulary in a database and outputting synthesized sounds, and unlimited word synthesis is a method of storing a basic unit in a database and outputting a random synthesis sound by combining basic units.

제한 단어 합성은 무제한 단어 합성에 비하여 데이타 베이스의 양도 적고 합성 방법도 비교적 간단하므로 국내에서는 전화를 이용한 시보안내, 은행잔고 확인등의 간단한 문장-음성 변환 시스템에 응용되고 있다. 그러나 무제한 단어 합성에 대해서는 한국어 데이타 베이스의 양과 음질 모두가 만족할 만한 결과를 보인 연구는 지금까지 없었으며 시도되어 왔던 연구방법도 시뮬레이션이었으며 하드웨어를 통한 실시간 한국어 음성합성의 구현은 발표된 바 없다.Restricted word synthesis has a smaller amount of database and relatively simple synthesis method than unlimited word synthesis. Therefore, it is applied to simple sentence-to-speech system such as time signal guidance and checking bank balance by phone. However, for unlimited word synthesis, there have been no studies showing satisfactory results with both Korean and Korean database quality, and the research methods that have been attempted were simulations, and no implementation of real-time Korean speech synthesis through hardware has been published.

한편 음성합성의 데이타 베이스를 구성하는 데이타를 얻는 방법에 따라 파형 부호화 방법과 파라미터 부호화 방법으로 나누어진다. 파형부호화 방법은 음성파형을 PCM(pulse code modulation), ADPCM(adaptive PCM)등으로 부호화하여 저장하였다가 합성파형을 만들어내고, 파라미터 부호화법은 음성파형으로 부터 특정한 파라미터를 추출하여 저장하였다가 합성파형을 만들어낸다. 전자의 경우 합성음의 음질이 깨끗한 반면 하나의 기본 단위 데이타 베이스 화일이 너무 커서 제한된 단어의 음성합성에는 적합하나 무제한 단어 음성합성에는 부적합하다.On the other hand, the waveform encoding method and the parameter encoding method are divided according to a method of obtaining data constituting a database of speech synthesis. The waveform encoding method encodes and stores the speech waveform by PCM (pulse code modulation), ADPCM (adaptive PCM), and then generates a synthesized waveform.The parameter encoding method extracts and stores specific parameters from the speech waveform and then synthesizes the waveform. Create In the former case, the sound quality of the synthesized sound is clean, but one basic unit database file is so large that it is suitable for speech synthesis of limited words, but not for unlimited word speech synthesis.

파라미터 부호화 방법은 음질은 다소 떨어지나 데이타 베이스의 양이 작으므로 무제한 단어 음성합성에 적합하여 최근 여러가지 시도가 행해지고 있다. 파라미터 부호화법을 이용한 음성합성에는 포만트를 이용한 음성합성, LPC(linear predictive coding) 계수를 이용한 음성합성, MPLPC(multi-pulse LPC)를 이용한 음성합성등이 있다.Since the parameter coding method has a slightly lower sound quality but a small amount of database, various attempts have recently been made to suit unlimited word speech synthesis. Speech synthesis using parameter coding includes speech synthesis using formants, speech synthesis using linear predictive coding (LPC) coefficients, speech synthesis using multi-pulse LPC (MPLPC), and the like.

따라서 본 발명의 목적은 임의의 문자로 구성된 텍스트를 한글로 구성된 텍스트로 변환하여 인간이 읽는것과 같이 소리나는 대로 변환하는 방법을 제공함에 있다.Accordingly, an object of the present invention is to provide a method for converting text composed of arbitrary characters into text composed of Korean characters and converting the phonetic sounds as human reading.

이하 본 발명을 첨부된 도면을 참조하여 상세히 설명한다.Hereinafter, the present invention will be described in detail with reference to the accompanying drawings.

제1도는 본 발명에 따른 시스템도로서, 텍스트 데이타를 입력 처리하는 텍스트 입력 처리부(11)와, 상기 텍스트 입력 처리부(11)의 출력값에서 문자를 인식하는 문자 인식장치(13)와, 상기 텍스트 입력 처리부(11) 및 문자 인식장치(13)의 처리결과를 표시하는 표시부(12)와, 한글, 한자, 영어, 일어 코딩 데이타를 가지는 제1사전부(14)와, 조수사표, 기호표, 영자 표기 데이타를 가지는 제2사전부(17)와, 상기 문자 인식장치(13)를 통해 인식 코딩된 데이타를 받아 상기 제1,2사전부(14, 17)를 통해 제공되는 사전 데이타에 따라 구문을 분석하는 제어부(15)와, 상기 제어부(15)를 통해 처리된 코딩 데이타를 저장하는 코드 저장부(16)로 구성된다.1 is a system diagram according to the present invention, a text input processing unit 11 for input processing text data, a character recognition device 13 for recognizing characters in an output value of the text input processing unit 11, and the text input. A display unit 12 for displaying the processing result of the processing unit 11 and the character recognition device 13, a first dictionary 14 having Korean, Chinese, English, and Japanese coding data, an assistant mark, a symbol table, and an English letter The second dictionary unit 17 having the notation data and the recognition coded data are received through the character recognition device 13 and the syntax is provided according to the dictionary data provided through the first and second dictionary units 14 and 17. And a code storage unit 16 for storing the coded data processed through the control unit 15.

제2도는 본 발명에 따른 흐름도로서, 텍스트를 입력하여 숫자, 영어, 한자, 기호, 한글, 일어별로 KS2바이트 코드 규정에 따라 분류하는 제1과정과, 상기 제1과정에서 분류한 텍스트별로 코드로 변환 처리하는 제2과정과, 상기 제2과정에서 처리한 코드 텍스트를 음운처리하는 제3과정으로 이루어진다.FIG. 2 is a flow chart according to the present invention, which comprises a text inputting a first step of classifying numbers, English, Chinese characters, symbols, Korean, and Japanese according to the KS2 byte code regulation, and a code for each text classified in the first step. And a third process of phonologically processing the code text processed in the second process.

제3도는 제2도의 숫자처리(2c)의 구체 흐름도로서, 조수사 여부를 체킹하는 조수사 검색 과정과, 상기 조수사 검색과정에서 조수사가 없을때 제1규칙에 의해 상기 입력 숫자값을 읽는 제1읽는 과정과, 상기 조수사 검색과정에서 조수사가 있을때 3자리 숫자인가를 검색하여 3자리 숫자 이하는 조수사 표에 의해 읽고 3자리 조수사 이상은 상기 제1규칙에 의해 읽는 제2읽는 과정과, 상기 제1,2읽는 과정에서 읽은 값을 한글 코드로 변환하여 테이블에 기록하는 변환과정으로 이루어진다.FIG. 3 is a detailed flowchart of the numerical process 2c of FIG. 2, which includes an assistant searching process for checking whether an assistant is present and reading the input numerical value by the first rule when there is no assistant in the assistant searching process. In the first reading process and the assistant search in the assistant search process, search for the three-digit number when there is an assistant, and read the three-digit number or less by the assistant table, and read the second or above three-digit assistant by the first rule. And a conversion process of converting the values read in the first and second reading processes into Korean codes and writing them to a table.

제4도는 제2도의 영어 처리 구체 흐름도로서, 영어사전을 검색하여 해당 코드의 유무를 파악하는 과정과, 상기 과정에서 존재할 때 해당 코드를 억세스하여 한글 코드로 변환하는 과정과, 상기 과정에서 존재하지 않을때 알파벳을 한글코드로 변환하는 과정으로 이루어진다.FIG. 4 is a flowchart illustrating the English process of FIG. 2, which is a process of searching an English dictionary to determine the existence of a corresponding code, accessing the corresponding code when present in the process, and converting the code into Korean code, and not present in the process. When not in the process of converting the alphabet into Hangul code.

제5도는 제2도의 한자 처리 구체 흐름도로서, 한자변환 테이블을 인덱싱하는 인덱싱과정과, 상기 인덱싱 과정에서 한자 읽는 방법이 2가지 이내일 때 한글 코드로 변환하여 테이블에 기록하는 제1기록과정과, 상기 한자읽는 방법이 2가지 이상일때 한자어 사전을 검색하여 존재여부를 검색하여 테이블에 기록하는 제2과정으로 이루어진다.FIG. 5 is a detailed flowchart of the Chinese character processing of FIG. 2, which includes an indexing process of indexing a Chinese character conversion table, a first writing process of converting a Korean code into a table when the method of reading Chinese characters in the indexing process is less than two; When there are two or more methods of reading Chinese characters, a second process of searching for a dictionary of Chinese characters, searching for their existence, and writing them to a table is performed.

제6도는 제2도의 기호처리 구체 흐름도로서, 말줄임, 문장기호, 슬래시, 수식 및 단위 기존 처리모드를 검색하는 모드 선택과정과, 상기 모드 선택 과정에서 모드 선택된 값을 한글코드로 변환하는 한글코드 변환과정으로 이루어진다.FIG. 6 is a detailed flowchart of symbol processing of FIG. 2, which includes a mode selection process for searching for abbreviations, punctuation marks, slashes, equations, and unit existing processing modes, and a Hangul code for converting a mode selected value to a Hangul code during the mode selection process. It is a conversion process.

제7도는 제2도의 한글 처리 과정의 구체 흐름도로서, 한글의 어절(조사, 어미, 접미사)의 표기에 따라 어간과 어미로 분리하는 분리과정과, 상기 분리과정에서 분리된 어간과 어미를 기록하는 기록과정으로 이루어진다.FIG. 7 is a detailed flowchart of the Hangul process of FIG. 2, which separates the stems from the stems and endings according to the notation of the Korean word (survey, ending, suffix), and records the stems and endings separated in the splitting process. The recording process takes place.

제8도는 제2도의 일본어 처리 과정의 구체 흐름도로서, 일본어 표를 인덱싱하는 과정과, 상기 인덱싱된 표에 따라 한글 코드로 변환하는 과정과, 상기 변환된 코드를 테이블에 저장하는 과정으로 이루어진다.FIG. 8 is a detailed flowchart of the Japanese processing procedure of FIG. 2, which includes indexing a Japanese table, converting a Japanese table into Korean code according to the indexed table, and storing the converted code in a table.

제9도는 제2도의 음운처리 과정의 구체 흐름도이다.9 is a detailed flowchart of the phonological process of FIG.

따라서 본 발명의 구체적 일실시예를 제1도-제9도를 참조하여 상세히 설명하면, 텍스트 입력 처리부(11)를 통해 입력된 텍스트는 문자인식장치(13)에서 인식되어 제어부(15)의 (2a)과정에서 입력된다. 상기 (2a)과정에서 입력된 텍스트를 KS2 바이트 코드에 규정을 참조하여 분류를 실행한다. 숫자인 경우 (2c)과정이 실행되는데, 제3도를 참조하여 상세히 설명한다. (3a)과정에서 입력된 텍스트에 대해 조수사가 있는가를 체킹한다. 상기 (3a)과정에서 조수사가 없을 때 하기와 같은 규칙 1에 의해 (3b)과정에서 읽는다.Therefore, when a specific embodiment of the present invention is described in detail with reference to FIGS. 1 to 9, the text input through the text input processing unit 11 is recognized by the character recognition device 13 and the ( It is input in step 2a). The text input in the step (2a) is referred to the KS2 byte code, and the classification is performed. If it is a number (2c) process is performed, it will be described in detail with reference to FIG. Check if there is an assistant for the text entered in step (3a). When there is no assistant in step (3a), it reads in step (3b) according to rule 1 as follows.

[규칙 1][Rule 1]

x, xxx, xxx, xxx, xxx, xxxx, xxx, xxx, xxx, xxx, xxx

천 백십조 천백십 억천백 십만천 백십일(x의 위치는 숫자의 위치를 나타냄)Thousand one hundred twenty one billion one hundred thousand one hundred and ten days (where x is the position of the number)

x가 0이면 그 부분은 읽지 않는다.If x is 0, the part is not read.

,가 있을때 그 위치가 맞지 않으면, ' , '사이를 한 단위로 하여 숫자를 읽는다.If the position does not match when there is,, read the number with ',' as a unit.

그러나 상기 (3a)과정에서 조수사가 있을때 (3c)과정에서 3자리 숫자 이상인가의 여부를 체킹한다. 상기 (3c)과정에서 3자리 숫자 이상은 상기 규칙 1에 따라 읽고 3자리 숫자 이하는 하기 조수사표에 의해 읽는다.However, when there is an assistant in step (3a), it checks whether the number is more than three digits in step (3c). In the process (3c), three digits or more are read according to Rule 1, and three digits or less are read by the following assistant checker.

[조수사표]Assistant Assistant

[수사읽기표][Reading table]

1. 영 일 이 삼 사 오 육 칠 팔 구 십1. spirit one two three four five six seven eight nine ten

2. 한 두 세 네 다섯 여섯 일곱 여덟 아홉 열 스물 서른 마흔 쉰 예순 일흔 여든 아흔2. One two three four five six seven eight nine ten twenty thirty forty fifty sixty seventy forty eighty ninety

3. 한 두 세 넉 다섯 여섯 일곱 여덟 아홉 열 스물 서른 마흔 쉰 예순 일흔 여든 아흔3. One two three four five six seven eight nine ten twenty thirty forty fifty sixty seventy forty eighty ninety

4. 한 두 세 너 다섯 여섯 일곱 여덟 아홉 열 스물 서른 마흔 쉰 예순 일흔 여든 아흔4. One two three four five six seven eight nine ten twenty thirty forty fifty sixty forty seventy eighty ninety

5. 한 두 석 넉 다섯 여섯 일곱 여덟 아홉 열 스물 서른 마흔 쉰 예순 일흔 여든 아흔5. One two three four five six seven eight nine ten twenty thirty forty fifty sixty seventy seventy eighty

상기 읽은 값을 (3g)과정에서 한글 코드로 변환하여 (3h)과정에서 테이블에 기록한다. (2d)과정에서 영어 처리일때는 구체적으로 제4도와 같이 실행된다.The read value is converted into a Korean code in step 3g and recorded in a table in step 3h. In the case of English processing in step (2d), it is specifically executed as shown in FIG.

(4a)과정에서 입력 텍스트 값을 제1사전부(14)의 영어사전과 비교한다. 상기 입력 텍스트값이 제1사전부(14)에 존재할 때 (4c)과정에서 해당코드를 억세스하여 (4d)과정에서 한글코드로 변환한다.In step 4a, the input text value is compared with the English dictionary of the first dictionary 14. When the input text value exists in the first dictionary 14, the corresponding code is accessed in step 4c and converted to Korean code in step 4d.

상기 (4b)과정에서 상기 제1사전부(14)가 없음이 확인되면 (4e)과정에서 알파벳을 한자씩 한글 코드로 변환한다. 상기 코드로 변환값을 (4f)과정에서 테이블에 기록한다.If it is confirmed in step (4b) that the first dictionary 14 is absent, in step (4e) the alphabet is converted into Hangul code one by one. The code writes the converted value to the table in step (4f).

상기 (2e)과정의 한자 처리일때는 구체적으로 제5도와 같이 실행된다. (5a)과정에서 한자 변환 테이블을 제1사전부(14)에서 인덱싱한다. (5b)과정에서 한자 읽는 방법이 2가지 이상인가를 체킹한다. 2가지 이상이 아닐때는 (5h)과정에서 한글코드로 변환하여 (5i)과정에서 테이블에 기록한다.In the case of the Chinese character processing in the process (2e), it is specifically executed as shown in FIG. In operation 5a, the Chinese character conversion table is indexed by the first dictionary 14. In step (5b), check whether there are two or more ways to read Chinese characters. If it is not more than two, convert to Korean code in (5h) and record it in a table in (5i).

상기 (5b)과정에서 한자 읽는 방법이 2가지 이상일때 (5c)과정에서 제1사전부(14)에서 한자어를 검색하여 존재할 시 (5f)과정에서 한글코드로 변환하고 존재하지 않을시 (5e)과정에서 존재하지 않은 단어로 결정하여 테이블에 저장한다.When there are two or more ways of reading Chinese characters in the process (5b), when the Chinese dictionary is searched in the first dictionary 14 in the process (5c) and converted into a Korean code in the process (5f) and not present (5e) The word that does not exist in the process is determined and stored in the table.

기호처리일시 (2f)과정에서 실행되는데 제6도를 참조하여 구체적으로 설명한다.It is executed in the symbol processing date and time (2f), which will be described in detail with reference to FIG.

기호 처리는 (6a)-(6e)과정에서 점점으로 나열되는 말줄임 표시, 느낌, 물음, 따옴표에 해당하는 문장기호 처리, 슬래시(/), 수식기호, 단어기호별로 (6a)-(6e)과정에서 처리한 후 (6f)-(6i)과정에서 말줄임 및 문장기호 처리일때는 코드를 생성하지 않고 슬래시일때 읽기 방법을 결정하여 수식, 단어 기호일때는 인덱싱하여 (6j)과정에서 한글코드로 변환한 후 (6k)과정에서 테이블에 기록한다.Symbol processing consists of abbreviated marks, feelings, questions, and quotation marks, quotation marks, slashes (/), modifiers, and word symbols (6a)-(6e), which are listed gradually in the process (6a)-(6e). After processing in the process, determine the reading method in the case of slash without generating code in case of shortening or punctuation in (6f)-(6i) and indexing in case of formula and word symbol. After conversion, write to table in (6k).

(2g)과정에서 한걸의 처리는 제7도와 같다.In step (2g), one process is shown in FIG.

(7a)과정에서 한어절을 어간과 어미로 나누고 (7b)과정에서 분리된 어간과 어미를 기록한다.Divide the Korean word into stems and mothers in step (7a) and record the stems and mothers separated in step (7b).

(2h)과정에서 일본어의 처리는 제8도와 같다.In the process (2h), Japanese processing is the same as that of FIG.

(8a)과정에서 일본어표를 인덱싱하고 (8b)과정에서 한글코드로 변환하여 (8c)과정에서 기록한다.Index the Japanese table in step (8a), convert it to Korean code in step (8b), and record it in step (8c).

상기 각 과정에서 처리하여 저장한 코드를 (2i)과정에서 음운 처리한다. 상기 (2i)과정의 음운 처리는 제9도와 같이 실행된다.The code processed and stored in each process is phonologically processed in step 2i. The phonological process in step (2i) is performed as shown in FIG.

상술한 바와같이 한글, 한자, 숫자, 기호, 영자로 구성된 텍스트를 전부 한글코드로 바꾸어 줌으로서 기계가 인간이 텍스트를 읽는 방법을 취득하게 하여 주며, 음운 규칙을 적용하여 한글이 소리나는 대로 읽히게 하는 이점이 있다.As mentioned above, by converting all texts composed of Hangul, Hanja, numbers, symbols, and English into Hangul code, the machine acquires the way of reading the text by humans. This has the advantage.

Claims (4)

음성합성 방법에 있어서, 텍스트를 입력하여 숫자, 영어, 한자, 기호, 한글, 일어별로 KS2규정에 따라 분류하는 제1과정과, 상기 제1과정에서 분류한 텍스트별로 코드로 변환 처리하는 제2과정과, 상기 제2과정에서 처리한 코드 텍스트를 음운처리하는 제3과정으로 이루어짐을 특징으로 하는 음성합성을 위한 텍스트 변환방법.In the speech synthesis method, a first process of classifying text by numbers, English, Chinese characters, symbols, Korean, and Japanese according to KS2 regulations, and a second process of converting the text into codes for each text classified in the first process And a third step of phonologically processing the coded text processed in the second step. 제1항에 있어서, 숫자 처리과정이 조수사 여부를 체킹하는 조수사 검색 과정과, 상기 조수사 검색과정에서 조수사가 없을때 제1규칙에 의해 상기 입력 숫자값을 읽는 제1읽는 과정과, 상기 조수사 검색과정에서 조수사가 있을때 3자리 숫자인가를 검색하여 3자리 숫자 이하는 조수사 표에 의해 읽고 3자리 조수사 이상은 상기 제1규칙에 의해 읽는 제2읽는 과정과, 상기 제1,2읽는 과정에서 읽은 값을 한글 코드로 변환하여 테이블에 기록하는 변환과정으로 이루어짐을 특징으로 하는 음성합성을 위한 텍스트 변환방법.The method of claim 1, wherein the number processing process includes: an assistant search process for checking whether an assistant is present; a first reading process of reading the input numeric value by a first rule when there is no assistant in the assistant search process; In the assistant search process, when there is an assistant, search for three digits or less and read three digits or less by the assistant table, and read a second digit or more by the first rule. 2, a text conversion method for speech synthesis, characterized in that the conversion process of converting the value read in the reading process into a Hangul code and write to the table. 제1항에 있어서, 영어 처리과정이 영어사전을 검색하여 해당 코드의 유무를 파악하는 과정과, 상기 과정에서 존재할 때 해당 코드를 억세스하여 한글 코드로 변환하는 과정과, 상기 과정에서 존재하지 않을때 알파벳을 한글코드로 변환하는 과정으로 이루어짐을 특징으로 하는 음성합성을 위한 텍스트 변환방법.The method according to claim 1, wherein the English processing process searches for an English dictionary to determine the existence of the corresponding code, accessing the corresponding code when present in the process, converting the code into Korean code, and when not present in the process. Text conversion method for speech synthesis, characterized in that the process consisting of converting the alphabet to the Hangul code. 제1항에 있어서, 한자 처리과정이 한자변환 테이블을 인덱싱하는 인덱싱과정과, 상기 인덱싱 과정에서 한자 읽는 방법이 2가지 이내일 때 한글 코드로 변환하여 테이블에 기록하는 제1기록과정과, 상기 한자읽는 방법이 2가지 이상일때 한자어 사전을 검색하여 존재여부를 검색하여 테이블에 기록하는 제2과정으로 이루어짐을 특징으로 하는 음성합성을 위한 텍스트 변환방법.The method of claim 1, wherein the Chinese character processing comprises: an indexing process of indexing a Chinese character conversion table, a first writing process of converting a Korean code into a table when the method of reading Chinese characters in the indexing process is less than two; And a second process of searching for a Chinese character dictionary when there are two or more reading methods, searching for the existence of a Chinese word, and writing them in a table.
KR1019910006438A 1991-04-22 1991-04-22 Text conversion method for speech synthesis KR0175247B1 (en)

Priority Applications (1)

Application Number Priority Date Filing Date Title
KR1019910006438A KR0175247B1 (en) 1991-04-22 1991-04-22 Text conversion method for speech synthesis

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
KR1019910006438A KR0175247B1 (en) 1991-04-22 1991-04-22 Text conversion method for speech synthesis

Publications (2)

Publication Number Publication Date
KR920020394A KR920020394A (en) 1992-11-21
KR0175247B1 true KR0175247B1 (en) 1999-04-01

Family

ID=19313554

Family Applications (1)

Application Number Title Priority Date Filing Date
KR1019910006438A KR0175247B1 (en) 1991-04-22 1991-04-22 Text conversion method for speech synthesis

Country Status (1)

Country Link
KR (1) KR0175247B1 (en)

Also Published As

Publication number Publication date
KR920020394A (en) 1992-11-21

Similar Documents

Publication Publication Date Title
EP0262938B1 (en) Language translation system
US5384701A (en) Language translation system
JP5231698B2 (en) How to predict how to read Japanese ideograms
Lee Reading machine: From text to speech
WO1999035594A9 (en) Method and system for audibly outputting multi-byte characters to a visually-impaired user
JP4738847B2 (en) Data retrieval apparatus and method
KR0175247B1 (en) Text conversion method for speech synthesis
KR100369507B1 (en) Voice recognition/synthesis systems based on standard pronunciation analysis methodology and methods therefor
JPS634206B2 (en)
KR0175249B1 (en) How to process pronunciation of Korean sentences for speech synthesis
Akinwonmi Rule-Induced Misanalysis of Nasal Syllables in Yoruba Declarative Syllabification Algorithm
JPH11338498A (en) Voice synthesizer
Hussain To-sound conversion for Urdu text-to-speech system
Phaiboon et al. Isarn Dharma Alphabets lexicon for natural language processing
KR100292376B1 (en) Device and method for converting sentence
JPH0210957B2 (en)
KR100564742B1 (en) Text-to-speech device and method
JPH03245192A (en) Method for determining pronunciation of foreign language word
Sekhar Bangla script: A structural study
JPS61177575A (en) Forming device of japanese document
JP3888701B2 (en) Character converter
Nagabhushan et al. Dictionary supported generation of English text from Pitman shorthand scripted phonetic text
JPH02308194A (en) foreign language learning device
KR0136423B1 (en) Phonetic change processing method by validity check of sound control symbol
KR20220085304A (en) Book story data base generating method for reading evaluation

Legal Events

Date Code Title Description
PA0109 Patent application

Patent event code: PA01091R01D

Comment text: Patent Application

Patent event date: 19910422

PG1501 Laying open of application
A201 Request for examination
PA0201 Request for examination

Patent event code: PA02012R01D

Patent event date: 19960216

Comment text: Request for Examination of Application

Patent event code: PA02011R01I

Patent event date: 19910422

Comment text: Patent Application

E701 Decision to grant or registration of patent right
PE0701 Decision of registration

Patent event code: PE07011S01D

Comment text: Decision to Grant Registration

Patent event date: 19980930

GRNT Written decision to grant
PR0701 Registration of establishment

Comment text: Registration of Establishment

Patent event date: 19981109

Patent event code: PR07011E01D

PR1002 Payment of registration fee

Payment date: 19981109

End annual number: 3

Start annual number: 1

PG1601 Publication of registration
PR1001 Payment of annual fee

Payment date: 20010912

Start annual number: 4

End annual number: 4

PR1001 Payment of annual fee

Payment date: 20020926

Start annual number: 5

End annual number: 5

PR1001 Payment of annual fee

Payment date: 20031001

Start annual number: 6

End annual number: 6

PR1001 Payment of annual fee

Payment date: 20041001

Start annual number: 7

End annual number: 7

PR1001 Payment of annual fee

Payment date: 20051004

Start annual number: 8

End annual number: 8

FPAY Annual fee payment

Payment date: 20060913

Year of fee payment: 9

PR1001 Payment of annual fee

Payment date: 20060913

Start annual number: 9

End annual number: 9

LAPS Lapse due to unpaid annual fee
PC1903 Unpaid annual fee

Termination category: Default of registration fee

Termination date: 20081010