KR102062524B1 - 음성 인식과 번역 방법 및 그를 위한 단말 장치와 서버 - Google Patents
음성 인식과 번역 방법 및 그를 위한 단말 장치와 서버 Download PDFInfo
- Publication number
- KR102062524B1 KR102062524B1 KR1020190055009A KR20190055009A KR102062524B1 KR 102062524 B1 KR102062524 B1 KR 102062524B1 KR 1020190055009 A KR1020190055009 A KR 1020190055009A KR 20190055009 A KR20190055009 A KR 20190055009A KR 102062524 B1 KR102062524 B1 KR 102062524B1
- Authority
- KR
- South Korea
- Prior art keywords
- language
- dialect
- text
- standard
- machine learning
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Expired - Fee Related
Links
- 238000000034 method Methods 0.000 title claims abstract description 25
- 238000013519 translation Methods 0.000 title abstract description 119
- 238000010801 machine learning Methods 0.000 claims abstract description 151
- 230000015654 memory Effects 0.000 claims description 30
- 238000012549 training Methods 0.000 description 21
- 238000011156 evaluation Methods 0.000 description 10
- 238000010586 diagram Methods 0.000 description 6
- 238000013528 artificial neural network Methods 0.000 description 4
- 230000014509 gene expression Effects 0.000 description 4
- 238000013473 artificial intelligence Methods 0.000 description 3
- 238000012360 testing method Methods 0.000 description 3
- 230000005540 biological transmission Effects 0.000 description 2
- 238000004891 communication Methods 0.000 description 2
- 238000013527 convolutional neural network Methods 0.000 description 2
- 230000006870 function Effects 0.000 description 2
- 230000005291 magnetic effect Effects 0.000 description 2
- 230000003287 optical effect Effects 0.000 description 2
- 238000007781 pre-processing Methods 0.000 description 2
- 238000012545 processing Methods 0.000 description 2
- 230000000306 recurrent effect Effects 0.000 description 2
- 240000006108 Allium ampeloprasum Species 0.000 description 1
- 235000005254 Allium ampeloprasum Nutrition 0.000 description 1
- 238000003491 array Methods 0.000 description 1
- 230000002457 bidirectional effect Effects 0.000 description 1
- 238000013500 data storage Methods 0.000 description 1
- 230000008451 emotion Effects 0.000 description 1
- 238000005516 engineering process Methods 0.000 description 1
- 238000011478 gradient descent method Methods 0.000 description 1
- 239000000463 material Substances 0.000 description 1
- 239000011295 pitch Substances 0.000 description 1
- 230000002787 reinforcement Effects 0.000 description 1
- 239000004065 semiconductor Substances 0.000 description 1
- 230000006403 short-term memory Effects 0.000 description 1
Images
Classifications
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L15/00—Speech recognition
- G10L15/005—Language recognition
-
- G06F17/28—
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06N—COMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
- G06N20/00—Machine learning
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L13/00—Speech synthesis; Text to speech systems
- G10L13/08—Text analysis or generation of parameters for speech synthesis out of text, e.g. grapheme to phoneme translation, prosody generation or stress or intonation determination
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L15/00—Speech recognition
- G10L15/08—Speech classification or search
- G10L15/16—Speech classification or search using artificial neural networks
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L15/00—Speech recognition
- G10L15/26—Speech to text systems
Landscapes
- Engineering & Computer Science (AREA)
- Physics & Mathematics (AREA)
- Computational Linguistics (AREA)
- Health & Medical Sciences (AREA)
- Audiology, Speech & Language Pathology (AREA)
- Human Computer Interaction (AREA)
- Acoustics & Sound (AREA)
- Multimedia (AREA)
- Software Systems (AREA)
- Artificial Intelligence (AREA)
- Evolutionary Computation (AREA)
- Theoretical Computer Science (AREA)
- Computer Vision & Pattern Recognition (AREA)
- Medical Informatics (AREA)
- Computing Systems (AREA)
- General Engineering & Computer Science (AREA)
- General Physics & Mathematics (AREA)
- Mathematical Physics (AREA)
- Data Mining & Analysis (AREA)
- Machine Translation (AREA)
Abstract
Description
도 2는 본 개시의 일 실시예에 따른 음성 번역 시스템을 나타낸 도면이다.
도 3은 본 개시의 일 실시예에 따른 음성 번역 방법을 나타낸 흐름도이다.
도 4는 본 개시의 일 실시예에 따른 음성 번역 장치에 포함된 데이터 학습부를 나타낸다.
도 5는 본 개시의 일 실시예에 따른 음성 번역 장치에 포함된 데이터 학습부를 나타낸다.
도 6은 본 개시의 일 실시예에 따른 음성 번역 장치에 포함된 데이터 학습부를 나타낸다.
도 7은 본 개시의 일 실시예에 따른 음성 번역 방법을 나타낸 흐름도이다.
도 8은 본 개시의 일 실시예에 따른 사용자 단말기의 화면을 나타낸 도면이다.
Claims (8)
- 사투리가 섞인 음성을 인식하여 번역하기 위한 방법으로서,
복수의 제 1 언어의 사투리 음성 및 상기 복수의 제 1 언어의 사투리 음성에 대응되는 복수의 제 1 언어의 표준어 텍스트에 기초하여 제 1 언어의 사투리 음성과 제 1 언어의 표준어 텍스트의 관계를 학습한 제 1 기계학습모델을 획득하는 단계;
복수의 제 1 언어의 사투리 텍스트 및 상기 복수의 제 1 언어의 사투리 텍스트에 대응되는 복수의 제 1 언어의 표준어 텍스트에 기초하여 제 1 언어의 사투리 텍스트와 제 1 언어의 표준어 텍스트의 관계를 학습한 제 2 기계학습모델을 획득하는 단계;
제 1 언어의 제 1 사투리 입력 음성 및 상기 제 1 언어의 제 1 사투리 입력 음성에 대응되는 제 2 언어의 표준어 텍스트를 수신하는 단계;
상기 제 1 언어의 제 1 사투리 입력 음성을 상기 제 1 기계학습모델에 적용하여 제 1 언어의 제 1 표준어 입력 텍스트를 획득하는 단계;
상기 제 1 언어의 제 1 사투리 입력 음성을 제 1 언어의 제 1 사투리 입력 텍스트로 변환하는 단계;
상기 제 1 언어의 제 1 사투리 입력 텍스트를 상기 제 2 기계학습모델에 적용하여 제 1 언어의 제 2 표준어 입력 텍스트를 획득하는 단계;
상기 제 1 언어의 제 1 표준어 입력 텍스트, 상기 제 1 언어의 제 2 표준어 입력 텍스트 및 상기 제 2 언어의 표준어 텍스트에 기초하여 기계학습을 수행하여 제 3 기계학습모델을 획득하는 단계;
제 1 언어의 제 2 사투리 입력 음성을 수신하는 단계;
상기 제 1 언어의 제 2 사투리 입력 음성을 상기 제 1 기계학습모델에 적용하여 제 1 언어의 제 3 표준어 입력 텍스트를 획득하는 단계;
상기 제 1 언어의 제 2 사투리 입력 음성을 제 1 언어의 제 2 사투리 입력 텍스트로 변환하는 단계;
상기 제 1 언어의 제 2 사투리 입력 텍스트를 상기 제 2 기계학습모델에 적용하여 제 1 언어의 제 4 표준어 입력 텍스트를 획득하는 단계;
상기 제 1 언어의 제 3 표준어 입력 텍스트 및 상기 제 1 언어의 제 4 표준어 입력 텍스트를 상기 제 3 기계학습모델에 적용하여 제 2 언어의 표준어 입력 텍스트를 획득하는 단계;
상기 제 2 언어의 표준어 입력 텍스트 및 텍스트-투-스피치 모델에 기초하여 제 2 언어의 출력 음성을 생성하는 단계;
상기 제 1 기계학습모델 및 상기 제 2 기계학습모델 중 적어도 하나의 숨겨진 상태에 포함된 가중치에 기초하여, 상기 제 1 언어의 제 2 사투리 입력 음성이 사투리인지 여부를 나타내는 정보를 획득하는 단계;
상기 텍스트-투-스피치 모델은 상기 정보가 사투리를 나타내는 경우, 제 2 언어의 임의의 사투리 억양을 포함하는 상기 제 2 언어의 출력 음성을 생성하는 단계; 및
상기 텍스트-투-스피치 모델은 상기 정보가 표준어를 나타내는 경우, 제 2 언어의 표준어 억양을 포함하는 상기 제 2 언어의 출력 음성을 생성하는 단계를 포함하는 음성을 인식하여 번역하는 방법.
- 삭제
- 삭제
- 제 1 항에 있어서,
사용자로부터 제 2 언어의 출력 음성에 대한 정확도 정보를 수신하는 단계; 및
상기 정확도 정보, 상기 제 1 언어의 제 3 표준어 입력 텍스트 및 상기 제 1 언어의 제 4 표준어 입력 텍스트에 기초하여 상기 제 3 기계학습모델을 갱신하는 단계를 포함하는 음성을 인식하여 번역하는 방법.
- 사투리가 섞인 음성을 인식하여 번역하기 위한 장치로서,
상기 장치는 프로세서 및 메모리를 포함하고, 상기 프로세서는 상기 메모리에 포함된 명령어에 따라,
복수의 제 1 언어의 사투리 음성 및 상기 복수의 제 1 언어의 사투리 음성에 대응되는 복수의 제 1 언어의 표준어 텍스트에 기초하여 제 1 언어의 사투리 음성과 제 1 언어의 표준어 텍스트의 관계를 학습한 제 1 기계학습모델을 획득하는 단계;
복수의 제 1 언어의 사투리 텍스트 및 상기 복수의 제 1 언어의 사투리 텍스트에 대응되는 복수의 제 1 언어의 표준어 텍스트에 기초하여 제 1 언어의 사투리 텍스트와 제 1 언어의 표준어 텍스트의 관계를 학습한 제 2 기계학습모델을 획득하는 단계;
제 1 언어의 제 1 사투리 입력 음성 및 상기 제 1 언어의 제 1 사투리 입력 음성에 대응되는 제 2 언어의 표준어 텍스트를 수신하는 단계;
상기 제 1 언어의 제 1 사투리 입력 음성을 상기 제 1 기계학습모델에 적용하여 제 1 언어의 제 1 표준어 입력 텍스트를 획득하는 단계;
상기 제 1 언어의 제 1 사투리 입력 음성을 제 1 언어의 제 1 사투리 입력 텍스트로 변환하는 단계;
상기 제 1 언어의 제 1 사투리 입력 텍스트를 상기 제 2 기계학습모델에 적용하여 제 1 언어의 제 2 표준어 입력 텍스트를 획득하는 단계;
상기 제 1 언어의 제 1 표준어 입력 텍스트, 상기 제 1 언어의 제 2 표준어 입력 텍스트 및 상기 제 2 언어의 표준어 텍스트에 기초하여 기계학습을 수행하여 제 3 기계학습모델을 획득하는 단계;
제 1 언어의 제 2 사투리 입력 음성을 수신하는 단계;
상기 제 1 언어의 제 2 사투리 입력 음성을 상기 제 1 기계학습모델에 적용하여 제 1 언어의 제 3 표준어 입력 텍스트를 획득하는 단계;
상기 제 1 언어의 제 2 사투리 입력 음성을 제 1 언어의 제 2 사투리 입력 텍스트로 변환하는 단계;
상기 제 1 언어의 제 2 사투리 입력 텍스트를 상기 제 2 기계학습모델에 적용하여 제 1 언어의 제 4 표준어 입력 텍스트를 획득하는 단계;
상기 제 1 언어의 제 3 표준어 입력 텍스트 및 상기 제 1 언어의 제 4 표준어 입력 텍스트를 상기 제 3 기계학습모델에 적용하여 제 2 언어의 표준어 입력 텍스트를 획득하는 단계;
상기 제 2 언어의 표준어 입력 텍스트 및 텍스트-투-스피치 모델에 기초하여 제 2 언어의 출력 음성을 생성하는 단계;
상기 제 1 기계학습모델 및 상기 제 2 기계학습모델 중 적어도 하나의 숨겨진 상태의 가중치에 기초하여, 상기 제 1 언어의 제 2 사투리 입력 음성이 사투리인지 여부를 나타내는 정보를 획득하는 단계;
상기 텍스트-투-스피치 모델은 상기 정보가 사투리를 나타내는 경우, 제 2 언어의 임의의 사투리 억양을 포함하는 상기 제 2 언어의 출력 음성을 생성하는 단계; 및
상기 텍스트-투-스피치 모델은 상기 정보가 표준어를 나타내는 경우, 제 2 언어의 표준어 억양을 포함하는 상기 제 2 언어의 출력 음성을 생성하는 단계를 수행하는 음성을 인식하여 번역하기 위한 장치.
- 삭제
- 삭제
- 제 5 항에 있어서,
상기 프로세서는 상기 메모리에 포함된 명령어에 따라,
사용자로부터 제 2 언어의 출력 음성에 대한 정확도 정보를 수신하는 단계; 및
상기 정확도 정보, 상기 제 1 언어의 제 3 표준어 입력 텍스트 및 상기 제 1 언어의 제 4 표준어 입력 텍스트에 기초하여 상기 제 3 기계학습모델을 갱신하는 단계를 수행하는 음성을 인식하여 번역하기 위한 장치.
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
KR1020190055009A KR102062524B1 (ko) | 2019-05-10 | 2019-05-10 | 음성 인식과 번역 방법 및 그를 위한 단말 장치와 서버 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
KR1020190055009A KR102062524B1 (ko) | 2019-05-10 | 2019-05-10 | 음성 인식과 번역 방법 및 그를 위한 단말 장치와 서버 |
Publications (1)
Publication Number | Publication Date |
---|---|
KR102062524B1 true KR102062524B1 (ko) | 2020-01-06 |
Family
ID=69159228
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
KR1020190055009A Expired - Fee Related KR102062524B1 (ko) | 2019-05-10 | 2019-05-10 | 음성 인식과 번역 방법 및 그를 위한 단말 장치와 서버 |
Country Status (1)
Country | Link |
---|---|
KR (1) | KR102062524B1 (ko) |
Cited By (4)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
KR102253279B1 (ko) * | 2020-12-11 | 2021-05-18 | 고태건 | 인공지능을 사용하는 키오스크 기반 무인결제시스템 및 그 방법 |
WO2021246689A1 (ko) * | 2020-06-04 | 2021-12-09 | 삼성전자 주식회사 | 음성 또는 문자를 번역하는 전자 장치 및 그 방법 |
KR102406251B1 (ko) * | 2021-11-18 | 2022-06-07 | 염종명 | 언어 현지화에서 번역 완성도를 높이기 위한 자동 번역 및 코딩 방법 |
WO2023136490A1 (ko) * | 2022-01-11 | 2023-07-20 | 삼성전자 주식회사 | 발음에 기반한 이종 언어의 텍스트 검색 방법 및 이를 적용한 전자 장치 |
Citations (1)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
KR101836430B1 (ko) * | 2017-08-07 | 2018-03-08 | 고현선 | 음성 인식과 번역 방법 및 그를 위한 단말 장치와 서버 |
-
2019
- 2019-05-10 KR KR1020190055009A patent/KR102062524B1/ko not_active Expired - Fee Related
Patent Citations (1)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
KR101836430B1 (ko) * | 2017-08-07 | 2018-03-08 | 고현선 | 음성 인식과 번역 방법 및 그를 위한 단말 장치와 서버 |
Non-Patent Citations (2)
Title |
---|
Alexandre Berard et al., ‘Listen and Translate: A proof of concept for end-to-end speech-to-text translation’, arXiv:1612.01744v1 [cs.CL], 6 December 2016.* |
김현 외 4명, ‘심층학습 기반의 Predictor-Estimator 모델을 이용한 영어-한국어 기계번역 품질 예측’, 정보과학회논문지 45(6), pp. 545~553, 2018년 6월.* |
Cited By (5)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
WO2021246689A1 (ko) * | 2020-06-04 | 2021-12-09 | 삼성전자 주식회사 | 음성 또는 문자를 번역하는 전자 장치 및 그 방법 |
US12159121B2 (en) | 2020-06-04 | 2024-12-03 | Samsung Electronics Co., Ltd. | Electronic device for translating voice or text and method thereof |
KR102253279B1 (ko) * | 2020-12-11 | 2021-05-18 | 고태건 | 인공지능을 사용하는 키오스크 기반 무인결제시스템 및 그 방법 |
KR102406251B1 (ko) * | 2021-11-18 | 2022-06-07 | 염종명 | 언어 현지화에서 번역 완성도를 높이기 위한 자동 번역 및 코딩 방법 |
WO2023136490A1 (ko) * | 2022-01-11 | 2023-07-20 | 삼성전자 주식회사 | 발음에 기반한 이종 언어의 텍스트 검색 방법 및 이를 적용한 전자 장치 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
KR102246943B1 (ko) | 다중 언어 텍스트-음성 합성 방법 | |
KR102668866B1 (ko) | 기계학습을 이용한 텍스트-음성 합성 방법, 장치 및 컴퓨터 판독가능한 저장매체 | |
US11929059B2 (en) | Method, device, and computer readable storage medium for text-to-speech synthesis using machine learning on basis of sequential prosody feature | |
US11373633B2 (en) | Text-to-speech processing using input voice characteristic data | |
KR102757438B1 (ko) | 순차적 운율 특징을 기초로 기계학습을 이용한 텍스트-음성 합성 방법, 장치 및 컴퓨터 판독가능한 저장매체 | |
US10319365B1 (en) | Text-to-speech processing with emphasized output audio | |
US20160379638A1 (en) | Input speech quality matching | |
JP7557085B2 (ja) | 対話中のテキスト-音声の瞬時学習 | |
KR20190125154A (ko) | 심리 상담 데이터를 기계 학습한 자동 대화 장치 및 그 방법 | |
KR102062524B1 (ko) | 음성 인식과 번역 방법 및 그를 위한 단말 장치와 서버 | |
US12100383B1 (en) | Voice customization for synthetic speech generation | |
US11670285B1 (en) | Speech processing techniques | |
US12243511B1 (en) | Emphasizing portions of synthesized speech |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PA0109 | Patent application |
Patent event code: PA01091R01D Comment text: Patent Application Patent event date: 20190510 |
|
PA0201 | Request for examination | ||
PA0302 | Request for accelerated examination |
Patent event date: 20190510 Patent event code: PA03022R01D Comment text: Request for Accelerated Examination |
|
PE0902 | Notice of grounds for rejection |
Comment text: Notification of reason for refusal Patent event date: 20190927 Patent event code: PE09021S01D |
|
E701 | Decision to grant or registration of patent right | ||
PE0701 | Decision of registration |
Patent event code: PE07011S01D Comment text: Decision to Grant Registration Patent event date: 20191227 |
|
GRNT | Written decision to grant | ||
PR0701 | Registration of establishment |
Comment text: Registration of Establishment Patent event date: 20191230 Patent event code: PR07011E01D |
|
PR1002 | Payment of registration fee |
Payment date: 20191230 End annual number: 3 Start annual number: 1 |
|
PG1601 | Publication of registration | ||
PC1903 | Unpaid annual fee |
Termination category: Default of registration fee Termination date: 20231010 |