[go: up one dir, main page]

KR102062524B1 - 음성 인식과 번역 방법 및 그를 위한 단말 장치와 서버 - Google Patents

음성 인식과 번역 방법 및 그를 위한 단말 장치와 서버 Download PDF

Info

Publication number
KR102062524B1
KR102062524B1 KR1020190055009A KR20190055009A KR102062524B1 KR 102062524 B1 KR102062524 B1 KR 102062524B1 KR 1020190055009 A KR1020190055009 A KR 1020190055009A KR 20190055009 A KR20190055009 A KR 20190055009A KR 102062524 B1 KR102062524 B1 KR 102062524B1
Authority
KR
South Korea
Prior art keywords
language
dialect
text
standard
machine learning
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Expired - Fee Related
Application number
KR1020190055009A
Other languages
English (en)
Inventor
고현선
Original Assignee
고현선
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by 고현선 filed Critical 고현선
Priority to KR1020190055009A priority Critical patent/KR102062524B1/ko
Application granted granted Critical
Publication of KR102062524B1 publication Critical patent/KR102062524B1/ko
Expired - Fee Related legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Classifications

    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L15/00Speech recognition
    • G10L15/005Language recognition
    • G06F17/28
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N20/00Machine learning
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L13/00Speech synthesis; Text to speech systems
    • G10L13/08Text analysis or generation of parameters for speech synthesis out of text, e.g. grapheme to phoneme translation, prosody generation or stress or intonation determination
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L15/00Speech recognition
    • G10L15/08Speech classification or search
    • G10L15/16Speech classification or search using artificial neural networks
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L15/00Speech recognition
    • G10L15/26Speech to text systems

Landscapes

  • Engineering & Computer Science (AREA)
  • Physics & Mathematics (AREA)
  • Computational Linguistics (AREA)
  • Health & Medical Sciences (AREA)
  • Audiology, Speech & Language Pathology (AREA)
  • Human Computer Interaction (AREA)
  • Acoustics & Sound (AREA)
  • Multimedia (AREA)
  • Software Systems (AREA)
  • Artificial Intelligence (AREA)
  • Evolutionary Computation (AREA)
  • Theoretical Computer Science (AREA)
  • Computer Vision & Pattern Recognition (AREA)
  • Medical Informatics (AREA)
  • Computing Systems (AREA)
  • General Engineering & Computer Science (AREA)
  • General Physics & Mathematics (AREA)
  • Mathematical Physics (AREA)
  • Data Mining & Analysis (AREA)
  • Machine Translation (AREA)

Abstract

본 발명의 실시 예들은 음성 인식과 번역 방법 및 그를 위한 단말 장치와 서버에 관한 것으로서, 더욱 상세하게는 기계학습을 이용하여 음성을 인식하는 번역 방법 및 그를 위한 단말 장치와 서버에 관한 것이다. 사투리가 섞인 음성을 인식하여 번역하기 위한 방법은 복수의 제 1 언어의 사투리 음성 및 복수의 제 1 언어의 사투리 음성에 대응되는 복수의 제 1 언어의 표준어 텍스트에 기초하여 제 1 언어의 사투리 음성과 제 1 언어의 표준어 텍스트의 관계를 학습한 제 1 기계학습모델을 획득하는 단계, 복수의 제 1 언어의 사투리 텍스트 및 복수의 제 1 언어의 사투리 텍스트에 대응되는 복수의 제 1 언어의 표준어 텍스트에 기초하여 제 1 언어의 사투리 텍스트와 제 1 언어의 표준어 텍스트의 관계를 학습한 제 2 기계학습모델을 획득하는 단계, 제 1 언어의 제 1 사투리 입력 음성 및 제 1 언어의 제 1 사투리 입력 음성에 대응되는 제 2 언어의 표준어 텍스트를 수신하는 단계, 제 1 언어의 제 1 사투리 입력 음성을 제 1 기계학습모델에 적용하여 제 1 언어의 제 1 표준어 입력 텍스트를 획득하는 단계, 제 1 언어의 제 1 사투리 입력 음성을 제 1 언어의 제 1 사투리 입력 텍스트로 변환하는 단계, 제 1 언어의 제 1 사투리 입력 텍스트를 제 2 기계학습모델에 적용하여 제 1 언어의 제 2 표준어 입력 텍스트를 획득하는 단계, 제 1 언어의 제 1 표준어 입력 텍스트, 제 1 언어의 제 2 표준어 입력 텍스트 및 제 2 언어의 표준어 텍스트에 기초하여 기계학습을 수행하여 제 3 기계학습모델을 획득하는 단계를 포함한다.

Description

음성 인식과 번역 방법 및 그를 위한 단말 장치와 서버{VOICE RECOGNITION AND TRANSLATION METHOD AND, APPARATUS AND SERVER THEREFOR}
본 발명의 실시 예들은 음성 인식과 번역 방법 및 그를 위한 단말 장치와 서버에 관한 것으로서, 더욱 상세하게는 기계학습을 이용하여 음성을 인식하는 번역 방법 및 그를 위한 단말 장치와 서버에 관한 것이다.
최근에는 온라인 상에서 자국의 언어를 타국의 언어로 음성 번역이 활성화되고 있다. 그러나, 언어가 갖고 있는 속성이 달라 어려움이 따른다. 특히, 한국어, 중국어와 같이 각국의 언어마다 가지고 있는 사투리 음성을 타국의 언어로 번역하기란 더욱 어렵다.
예를 들면, 한국어의 경우, 경기도, 전라도, 경상도, 강원도 및 제주도에서 각각 가지고 있는 고유의 사투리 음색과 음소가 표준 한국어의 음색과 음소에 비하여 큰 차이를 보이고 있기 때문에, 사투리 음성을 제대로 된 표준 한국어로 음성 인식하는 것이 쉽지 않다.
본 개시의 사투리가 섞인 음성을 인식하여 번역하기 위한 방법은, 복수의 제 1 언어의 사투리 음성 및 복수의 제 1 언어의 사투리 음성에 대응되는 복수의 제 1 언어의 표준어 텍스트에 기초하여 제 1 언어의 사투리 음성과 제 1 언어의 표준어 텍스트의 관계를 학습한 제 1 기계학습모델을 획득하는 단계, 복수의 제 1 언어의 사투리 텍스트 및 복수의 제 1 언어의 사투리 텍스트에 대응되는 복수의 제 1 언어의 표준어 텍스트에 기초하여 제 1 언어의 사투리 텍스트와 제 1 언어의 표준어 텍스트의 관계를 학습한 제 2 기계학습모델을 획득하는 단계, 제 1 언어의 제 1 사투리 입력 음성 및 제 1 언어의 제 1 사투리 입력 음성에 대응되는 제 2 언어의 표준어 텍스트를 수신하는 단계, 제 1 언어의 제 1 사투리 입력 음성을 제 1 기계학습모델에 적용하여 제 1 언어의 제 1 표준어 입력 텍스트를 획득하는 단계, 제 1 언어의 제 1 사투리 입력 음성을 제 1 언어의 제 1 사투리 입력 텍스트로 변환하는 단계, 제 1 언어의 제 1 사투리 입력 텍스트를 제 2 기계학습모델에 적용하여 제 1 언어의 제 2 표준어 입력 텍스트를 획득하는 단계, 제 1 언어의 제 1 표준어 입력 텍스트, 제 1 언어의 제 2 표준어 입력 텍스트 및 제 2 언어의 표준어 텍스트에 기초하여 기계학습을 수행하여 제 3 기계학습모델을 획득하는 단계를 포함한다.
본 개시의 사투리가 섞인 음성을 인식하여 번역하기 위한 방법은, 제 1 언어의 제 2 사투리 입력 음성을 수신하는 단계, 제 1 언어의 제 2 사투리 입력 음성을 제 1 기계학습모델에 적용하여 제 1 언어의 제 3 표준어 입력 텍스트를 획득하는 단계, 제 1 언어의 제 2 사투리 입력 음성을 제 1 언어의 제 2 사투리 입력 텍스트로 변환하는 단계, 제 1 언어의 제 2 사투리 입력 텍스트를 제 2 기계학습모델에 적용하여 제 1 언어의 제 4 표준어 입력 텍스트를 획득하는 단계, 제 1 언어의 제 3 표준어 입력 텍스트 및 제 1 언어의 제 4 표준어 입력 텍스트를 제 3 기계학습모델에 적용하여 제 2 언어의 표준어 입력 텍스트를 획득하는 단계, 및 제 2 언어의 표준어 입력 텍스트 및 텍스트-투-스피치 모델에 기초하여 제 2 언어의 출력 음성을 생성하는 단계를 포함한다.
본 개시의 사투리가 섞인 음성을 인식하여 번역하기 위한 방법은, 제 1 기계학습모델 및 제 2 기계학습모델 중 적어도 하나의 숨겨진 상태를 분석하여, 제 1 언어의 제 2 사투리 입력 음성이 사투리인지 여부를 나타내는 정보를 획득하는 단계, 텍스트-투-스피치 모델은 정보가 사투리를 나타내는 경우, 제 2 언어의 임의의 사투리 억양을 포함하는 제 2 언어의 출력 음성을 생성하는 단계, 및 텍스트-투-스피치 모델은 정보가 표준어를 나타내는 경우, 제 2 언어의 표준어 억양을 포함하는 제 2 언어의 출력 음성을 생성하는 단계를 포함한다.
본 개시의 사투리가 섞인 음성을 인식하여 번역하기 위한 방법은, 사용자로부터 제 2 언어의 출력 음성에 대한 정확도 정보를 수신하는 단계, 및 정확도 정보, 제 1 언어의 제 3 표준어 입력 텍스트 및 제 1 언어의 제 4 표준어 입력 텍스트에 기초하여 제 3 기계학습모델을 갱신하는 단계를 포함한다.
본 개시의 사투리가 섞인 음성을 인식하여 번역하기 위한 장치는, 프로세서 및 메모리를 포함하고, 프로세서는 메모리에 포함된 명령어에 따라, 복수의 제 1 언어의 사투리 음성 및 복수의 제 1 언어의 사투리 음성에 대응되는 복수의 제 1 언어의 표준어 텍스트에 기초하여 제 1 언어의 사투리 음성과 제 1 언어의 표준어 텍스트의 관계를 학습한 제 1 기계학습모델을 획득하는 단계, 복수의 제 1 언어의 사투리 텍스트 및 복수의 제 1 언어의 사투리 텍스트에 대응되는 복수의 제 1 언어의 표준어 텍스트에 기초하여 제 1 언어의 사투리 텍스트와 제 1 언어의 표준어 텍스트의 관계를 학습한 제 2 기계학습모델을 획득하는 단계, 제 1 언어의 제 1 사투리 입력 음성 및 제 1 언어의 제 1 사투리 입력 음성에 대응되는 제 2 언어의 표준어 텍스트를 수신하는 단계, 제 1 언어의 제 1 사투리 입력 음성을 제 1 기계학습모델에 적용하여 제 1 언어의 제 1 표준어 입력 텍스트를 획득하는 단계, 제 1 언어의 제 1 사투리 입력 음성을 제 1 언어의 제 1 사투리 입력 텍스트로 변환하는 단계, 제 1 언어의 제 1 사투리 입력 텍스트를 제 2 기계학습모델에 적용하여 제 1 언어의 제 2 표준어 입력 텍스트를 획득하는 단계, 제 1 언어의 제 1 표준어 입력 텍스트, 제 1 언어의 제 2 표준어 입력 텍스트 및 제 2 언어의 표준어 텍스트에 기초하여 기계학습을 수행하여 제 3 기계학습모델을 획득하는 단계를 수행한다.
본 개시의 사투리가 섞인 음성을 인식하여 번역하기 위한 장치의 프로세서는 메모리에 포함된 명령어에 따라, 제 1 언어의 제 2 사투리 입력 음성을 수신하는 단계, 제 1 언어의 제 2 사투리 입력 음성을 제 1 기계학습모델에 적용하여 제 1 언어의 제 3 표준어 입력 텍스트를 획득하는 단계, 제 1 언어의 제 2 사투리 입력 음성을 제 1 언어의 제 2 사투리 입력 텍스트로 변환하는 단계, 제 1 언어의 제 2 사투리 입력 텍스트를 제 2 기계학습모델에 적용하여 제 1 언어의 제 4 표준어 입력 텍스트를 획득하는 단계, 제 1 언어의 제 3 표준어 입력 텍스트 및 제 1 언어의 제 4 표준어 입력 텍스트를 제 3 기계학습모델에 적용하여 제 2 언어의 표준어 입력 텍스트를 획득하는 단계, 및 제 2 언어의 표준어 입력 텍스트 및 텍스트-투-스피치 모델에 기초하여 제 2 언어의 출력 음성을 생성하는 단계를 수행한다.
본 개시의 사투리가 섞인 음성을 인식하여 번역하기 위한 장치의 프로세서는 메모리에 포함된 명령어에 따라, 제 1 기계학습모델 및 제 2 기계학습모델 중 적어도 하나의 숨겨진 상태를 분석하여, 제 1 언어의 제 2 사투리 입력 음성이 사투리인지 여부를 나타내는 정보를 획득하는 단계, 텍스트-투-스피치 모델은 정보가 사투리를 나타내는 경우, 제 2 언어의 임의의 사투리 억양을 포함하는 제 2 언어의 출력 음성을 생성하는 단계, 및 텍스트-투-스피치 모델은 정보가 표준어를 나타내는 경우, 제 2 언어의 표준어 억양을 포함하는 제 2 언어의 출력 음성을 생성하는 단계를 수행한다.
본 개시의 사투리가 섞인 음성을 인식하여 번역하기 위한 장치의 프로세서는 메모리에 포함된 명령어에 따라, 사용자로부터 제 2 언어의 출력 음성에 대한 정확도 정보를 수신하는 단계, 및 정확도 정보, 제 1 언어의 제 3 표준어 입력 텍스트 및 제 1 언어의 제 4 표준어 입력 텍스트에 기초하여 제 3 기계학습모델을 갱신하는 단계를 수행한다.
또한, 상술한 바와 같은 사투리가 섞인 음성을 인식하여 번역하기 위한 방법을 구현하기 위한 프로그램은 컴퓨터로 판독 가능한 기록 매체에 기록될 수 있다.
도 1은 본 개시의 일 실시예에 따른 음성 번역 장치(100)의 블록도이다.
도 2는 본 개시의 일 실시예에 따른 음성 번역 시스템을 나타낸 도면이다.
도 3은 본 개시의 일 실시예에 따른 음성 번역 방법을 나타낸 흐름도이다.
도 4는 본 개시의 일 실시예에 따른 음성 번역 장치에 포함된 데이터 학습부를 나타낸다.
도 5는 본 개시의 일 실시예에 따른 음성 번역 장치에 포함된 데이터 학습부를 나타낸다.
도 6은 본 개시의 일 실시예에 따른 음성 번역 장치에 포함된 데이터 학습부를 나타낸다.
도 7은 본 개시의 일 실시예에 따른 음성 번역 방법을 나타낸 흐름도이다.
도 8은 본 개시의 일 실시예에 따른 사용자 단말기의 화면을 나타낸 도면이다.
개시된 실시예의 이점 및 특징, 그리고 그것들을 달성하는 방법은 첨부되는 도면과 함께 후술되어 있는 실시예들을 참조하면 명확해질 것이다. 그러나 본 개시는 이하에서 개시되는 실시예들에 한정되는 것이 아니라 서로 다른 다양한 형태로 구현될 수 있으며, 단지 본 실시예들은 본 개시가 완전하도록 하고, 본 개시가 속하는 기술분야에서 통상의 지식을 가진 자에게 발명의 범주를 완전하게 알려주기 위해 제공되는 것일 뿐이다.
본 명세서에서 사용되는 용어에 대해 간략히 설명하고, 개시된 실시예에 대해 구체적으로 설명하기로 한다.
본 명세서에서 사용되는 용어는 본 개시에서의 기능을 고려하면서 가능한 현재 널리 사용되는 일반적인 용어들을 선택하였으나, 이는 관련 분야에 종사하는 기술자의 의도 또는 판례, 새로운 기술의 출현 등에 따라 달라질 수 있다. 또한, 특정한 경우는 출원인이 임의로 선정한 용어도 있으며, 이 경우 해당되는 발명의 설명 부분에서 상세히 그 의미를 기재할 것이다. 따라서 본 개시에서 사용되는 용어는 단순한 용어의 명칭이 아닌, 그 용어가 가지는 의미와 본 개시의 전반에 걸친 내용을 토대로 정의되어야 한다.
본 명세서에서의 단수의 표현은 문맥상 명백하게 단수인 것으로 특정하지 않는 한, 복수의 표현을 포함한다. 또한 복수의 표현은 문맥상 명백하게 복수인 것으로 특정하지 않는 한, 단수의 표현을 포함한다.
명세서 전체에서 어떤 부분이 어떤 구성요소를 "포함"한다고 할 때, 이는 특별히 반대되는 기재가 없는 한 다른 구성요소를 제외하는 것이 아니라 다른 구성요소를 더 포함할 수 있음을 의미한다.
또한, 명세서에서 사용되는 "부"라는 용어는 소프트웨어 또는 하드웨어 구성요소를 의미하며, "부"는 어떤 역할들을 수행한다. 그렇지만 "부"는 소프트웨어 또는 하드웨어에 한정되는 의미는 아니다. "부"는 어드레싱할 수 있는 저장 매체에 있도록 구성될 수도 있고 하나 또는 그 이상의 프로세서들을 재생시키도록 구성될 수도 있다. 따라서, 일 예로서 "부"는 소프트웨어 구성요소들, 객체지향 소프트웨어 구성요소들, 클래스 구성요소들 및 태스크 구성요소들과 같은 구성요소들과, 프로세스들, 함수들, 속성들, 프로시저들, 서브루틴들, 프로그램 코드의 세그먼트들, 드라이버들, 펌웨어, 마이크로 코드, 회로, 데이터, 데이터베이스, 데이터 구조들, 테이블들, 어레이들 및 변수들을 포함한다. 구성요소들과 "부"들 안에서 제공되는 기능은 더 작은 수의 구성요소들 및 "부"들로 결합되거나 추가적인 구성요소들과 "부"들로 더 분리될 수 있다.
본 개시의 일 실시예에 따르면 "부"는 프로세서 및 메모리로 구현될 수 있다. 용어 "프로세서" 는 범용 프로세서, 중앙 처리 장치 (CPU), 마이크로프로세서, 디지털 신호 프로세서 (DSP), 제어기, 마이크로제어기, 상태 머신 등을 포함하도록 넓게 해석되어야 한다. 몇몇 환경에서는, "프로세서" 는 주문형 반도체 (ASIC), 프로그램가능 로직 디바이스 (PLD), 필드 프로그램가능 게이트 어레이 (FPGA) 등을 지칭할 수도 있다. 용어 "프로세서" 는, 예를 들어, DSP 와 마이크로프로세서의 조합, 복수의 마이크로프로세서들의 조합, DSP 코어와 결합한 하나 이상의 마이크로프로세서들의 조합, 또는 임의의 다른 그러한 구성들의 조합과 같은 처리 디바이스들의 조합을 지칭할 수도 있다.
용어 "메모리" 는 전자 정보를 저장 가능한 임의의 전자 컴포넌트를 포함하도록 넓게 해석되어야 한다. 용어 메모리는 임의 액세스 메모리 (RAM), 판독-전용 메모리 (ROM), 비-휘발성 임의 액세스 메모리 (NVRAM), 프로그램가능 판독-전용 메모리 (PROM), 소거-프로그램가능 판독 전용 메모리 (EPROM), 전기적으로 소거가능 PROM (EEPROM), 플래쉬 메모리, 자기 또는 광학 데이터 저장장치, 레지스터들 등과 같은 프로세서-판독가능 매체의 다양한 유형들을 지칭할 수도 있다. 프로세서가 메모리로부터 정보를 판독하고/하거나 메모리에 정보를 기록할 수 있다면 메모리는 프로세서와 전자 통신 상태에 있다고 불린다. 프로세서에 집적된 메모리는 프로세서와 전자 통신 상태에 있다.
아래에서는 첨부한 도면을 참고하여 실시예에 대하여 본 개시가 속하는 기술 분야에서 통상의 지식을 가진 자가 용이하게 실시할 수 있도록 상세히 설명한다. 그리고 도면에서 본 개시를 명확하게 설명하기 위해서 설명과 관계없는 부분은 생략한다.
도 1은 본 개시의 일 실시예에 따른 음성 번역 장치(100)의 블록도이다.
도 1을 참조하면, 일 실시예에 따른 음성 번역 장치(100)는 데이터 학습부(110) 및 데이터 인식부(120)를 포함할 수 있다. 상술한 바와 같은 음성 번역 장치(100)는 프로세서 및 메모리를 포함할 수 있다.
데이터 학습부(110)는 제 1 데이터 및 제 2 데이터를 수신하여 제 1 데이터 및 제 2 데이터의 관계에 대한 기계학습모델을 획득할 수 있다. 데이터 학습부(110)가 획득한 기계학습모델은 제 1 데이터를 이용하여 제 2 데이터를 생성하기 위한 모델일 수 있다. 예를 들어, 복수의 제 1 언어의 사투리 음성 및 복수의 제 1 언어의 표준어 텍스트의 관계를 학습할 수 있다. 또한 데이터 학습부(110)는 복수의 제 1 언어의 사투리 텍스트 및 복수의 제 1 언어의 표준어 텍스트의 관계를 학습할 수 있다. 데이터 학습부(110)는 사투리 음성 또는 텍스트에 따라 어떤 표준어 텍스트를 출력할지에 관한 기준을 학습할 수 있다.
데이터 인식부(120)는 수신된 사투리 음성 또는 텍스트를 기계학습모델에 적용하여 표준어 텍스트를 출력할 수 있다. 기계학습모델은 사투리 음성 또는 텍스트에 기초하여 표준어 텍스트를 획득하기 위한 소정의 기준에 대한 정보일 수 있다. 또한, 데이터 인식부(120)는 수신된 사투리 음성 또는 텍스트 및 기계학습모델에 의해 출력된 결과를 기계학습모델을 갱신하는데 이용할 수 있다.
데이터 학습부(110) 및 데이터 인식부(120) 중 적어도 하나는, 적어도 하나의 하드웨어 칩 형태로 제작되어 전자 장치에 탑재될 수 있다. 예를 들어, 데이터 학습부(110) 및 데이터 인식부(120) 중 적어도 하나는 인공 지능(AI; artificial intelligence)을 위한 전용 하드웨어 칩 형태로 제작될 수도 있고, 또는 기존의 범용 프로세서(예: CPU 또는 application processor) 또는 그래픽 전용 프로세서(예: GPU)의 일부로 제작되어 이미 설명한 각종 전자 장치에 탑재될 수도 있다.
또한 데이터 학습부(110) 및 데이터 인식부(120)는 별개의 전자 장치들에 각각 탑재될 수도 있다. 예를 들어, 데이터 학습부(110) 및 데이터 인식부(120) 중 하나는 전자 장치에 포함되고, 나머지 하나는 서버에 포함될 수 있다. 또한, 데이터 학습부(110) 및 데이터 인식부(120)는 유선 또는 무선으로 통하여, 데이터 학습부(110)가 구축한 모델 정보를 데이터 인식부(120)로 제공할 수도 있고, 데이터 인식부(120)로 입력된 데이터가 추가 학습 데이터로써 데이터 학습부(110)로 제공될 수도 있다.
한편, 데이터 학습부(110) 및 데이터 인식부(120) 중 적어도 하나는 소프트웨어 모듈로 구현될 수 있다. 데이터 학습부(110) 및 데이터 인식부(120) 중 적어도 하나가 소프트웨어 모듈(또는, 인스트럭션(instruction)을 포함하는 프로그램 모듈)로 구현되는 경우, 소프트웨어 모듈은 메모리 또는 컴퓨터로 읽을 수 있는 판독 가능한 비일시적 판독 가능 기록매체(non-transitory computer readable media)에 저장될 수 있다. 또한, 이 경우, 적어도 하나의 소프트웨어 모듈은 OS(Operating System)에 의해 제공되거나, 소정의 애플리케이션에 의해 제공될 수 있다. 또는, 적어도 하나의 소프트웨어 모듈 중 일부는 OS(Operating System)에 의해 제공되고, 나머지 일부는 소정의 애플리케이션에 의해 제공될 수 있다.
본 개시의 일 실시예에 따른 데이터 학습부(110)는 데이터 획득부(111), 전처리부(112), 학습 데이터 선택부(113), 모델 학습부(114) 및 모델 평가부(115)를 포함할 수 있다.
데이터 획득부(111)는 기계학습에 필요한 데이터를 획득할 수 있다. 학습을 위해서는 많은 데이터가 필요하므로, 데이터 획득부(111)는 복수의 사투리 음성 또는 텍스트 및 복수의 사투리 음성 또는 텍스트에 대응되는 표준어 텍스트를 수신할 수 있다.
전처리부(112)는 수신된 데이터가 기계학습에 이용될 수 있도록, 획득된 데이터를 전처리할 수 있다. 전처리부(112)는 후술할 모델 학습부(114)가 이용할 수 있도록, 획득된 데이터를 미리 설정된 포맷으로 가공할 수 있다. 전처리부(112)는 텍스트 및 음성을 음소, 음절, 형태소, 단어, 어절 또는 문장 중 적어도 하나의 단위로 분리할 수 있다.
또한, 전처리부(112)는 텍스트 및 음성을 단위 별로 분석하여 단위 임베딩을 획득할 수 있다. 즉, 전처리부(112)는 음소, 음절, 형태소, 단어, 어절 또는 문장 중 적어도 하나에 대한 임베딩을 획득할 수 있다. 임베딩은 데이터를 고유의 벡터로 표현하는 것을 나타낼 수 있다. 예를 들어, 형태소 임베딩은 각각의 형태소마다 고유의 벡터로 나타내는 것을 의미할 수 있다. 전처리부(112)는 임베딩을 획득하기 위하여 Distributed memory(DM) 또는 Distributed bag of words(DBOW) 알고리즘을 사용할 수 있다.
학습 데이터 선택부(113)는 전처리된 데이터 중에서 학습에 필요한 데이터를 선택할 수 있다. 선택된 데이터는 모델 학습부(114)에 제공될 수 있다. 학습 데이터 선택부(113)는 기 설정된 기준에 따라, 전처리된 데이터 중에서 학습에 필요한 데이터를 선택할 수 있다. 또한, 학습 데이터 선택부(113)는 후술할 모델 학습부(114)에 의한 학습에 의해 기 설정된 기준에 따라 데이터를 선택할 수도 있다.
모델 학습부(114)는 학습 데이터에 기초하여 사투리 음성 또는 텍스트에 따라 어떤 표준어 텍스트를 출력할 지에 관한 기준을 학습할 수 있다. 또한, 모델 학습부(114)는 사투리 음성 또는 텍스트에 따라 표준어 텍스트를 출력하는 학습모델을 학습 데이터로써 이용하여 학습시킬 수 있다. 이 경우, 데이터 학습모델은 미리 구축된 모델일 수 있다. 예를 들어, 데이터 학습모델은 기본 학습 데이터(예를 들어, 샘플 사투리 텍스트, 음성 및 표준어 텍스트 등)을 입력 받아 미리 구축된 모델일 수 있다.
데이터 학습모델은, 학습모델의 적용 분야, 학습의 목적 또는 장치의 컴퓨터 성능 등을 고려하여 구축될 수 있다. 데이터 학습모델은, 예를 들어, 신경망(Neural Network)을 기반으로 하는 모델일 수 있다. 예컨대, Deep Neural Network (DNN), Recurrent Neural Network (RNN), Long Short-Term Memory models (LSTM), BRDNN (Bidirectional Recurrent Deep Neural Network), Convolutional Neural Networks (CNN)과 같은 모델이 데이터 학습모델로써 사용될 수 있으나, 이에 한정되지 않는다.
다양한 실시예에 따르면, 모델 학습부(114)는 미리 구축된 데이터 학습모델이 복수 개가 존재하는 경우, 입력된 학습 데이터와 기본 학습 데이터의 관련성이 큰 데이터 학습모델을 학습할 데이터 학습모델로 결정할 수 있다. 이 경우, 기본 학습 데이터는 데이터의 타입 별로 기 분류되어 있을 수 있으며, 데이터 학습모델은 데이터의 타입 별로 미리 구축되어 있을 수 있다. 예를 들어, 기본 학습 데이터는 학습 데이터가 생성된 지역, 학습 데이터가 생성된 시간, 학습 데이터의 크기, 학습 데이터의 장르, 학습 데이터의 생성자, 학습 데이터 내의 오브젝트의 종류 등과 같은 다양한 기준으로 기 분류되어 있을 수 있다.
또한, 모델 학습부(114)는, 예를 들어, 오류 역전파법(error back-propagation) 또는 경사 하강법(gradient descent)을 포함하는 학습 알고리즘 등을 이용하여 데이터 학습모델을 학습시킬 수 있다.
또한, 모델 학습부(114)는, 예를 들어, 학습 데이터를 입력 값으로 하는 지도 학습(supervised learning) 을 통하여, 데이터 학습모델을 학습할 수 있다. 또한, 모델 학습부(114)는, 예를 들어, 별다른 지도없이 상황 판단을 위해 필요한 데이터의 종류를 스스로 학습함으로써, 상황 판단을 위한 기준을 발견하는 비지도 학습(unsupervised learning)을 통하여, 데이터 학습모델을 학습할 수 있다. 또한, 모델 학습부(114)는, 예를 들어, 학습에 따른 상황 판단의 결과가 올바른 지에 대한 피드백을 이용하는 강화 학습(reinforcement learning)을 통하여, 데이터 학습모델을 학습할 수 있다.
또한, 데이터 학습모델이 학습되면, 모델 학습부(114)는 학습된 데이터 학습모델을 저장할 수 있다. 이 경우, 모델 학습부(114)는 학습된 데이터 학습모델을 데이터 인식부(120)를 포함하는 전자 장치의 메모리에 저장할 수 있다. 또는, 모델 학습부(114)는 학습된 데이터 학습모델을 전자 장치와 유선 또는 무선 네트워크로 연결되는 서버의 메모리에 저장할 수도 있다.
이 경우, 학습된 데이터 학습모델이 저장되는 메모리는, 예를 들면, 전자 장치의 적어도 하나의 다른 구성요소에 관계된 명령 또는 데이터를 함께 저장할 수도 있다. 또한, 메모리는 소프트웨어 및/또는 프로그램을 저장할 수도 있다. 프로그램은, 예를 들면, 커널, 미들웨어, 어플리케이션 프로그래밍 인터페이스(API) 및/또는 어플리케이션 프로그램(또는 "어플리케이션") 등을 포함할 수 있다.
모델 평가부(115)는 데이터 학습모델에 평가 데이터를 입력하고, 평가 데이터로부터 출력되는 결과가 소정 기준을 만족하지 못하는 경우, 모델 학습부(114)로 하여금 다시 학습하도록 할 수 있다. 이 경우, 평가 데이터는 데이터 학습모델을 평가하기 위한 기 설정된 데이터일 수 있다.
예를 들어, 모델 평가부(115)는 평가 데이터에 대한 학습된 데이터 학습모델의 결과 중에서, 인식 결과가 정확하지 않은 평가 데이터의 개수 또는 비율이 미리 설정된 임계치를 초과하는 경우 소정 기준을 만족하지 못한 것으로 평가할 수 있다. 예컨대, 소정 기준이 비율 2%로 정의되는 경우, 학습된 데이터 학습모델이 총 1000개의 평가 데이터 중의 20개를 초과하는 평가 데이터에 대하여 잘못된 인식 결과를 출력하는 경우, 모델 평가부(115)는 학습된 데이터 학습모델이 적합하지 않은 것으로 평가할 수 있다.
한편, 학습된 데이터 학습모델이 복수 개가 존재하는 경우, 모델 평가부(115)는 각각의 학습된 동영상 학습모델에 대하여 소정 기준을 만족하는지를 평가하고, 소정 기준을 만족하는 모델을 최종 데이터 학습모델로써 결정할 수 있다. 이 경우, 소정 기준을 만족하는 모델이 복수 개인 경우, 모델 평가부(115)는 평가 점수가 높은 순으로 미리 설정된 어느 하나 또는 소정 개수의 모델을 최종 데이터 학습모델로써 결정할 수 있다.
한편, 데이터 학습부(110) 내의 데이터 획득부(111), 전처리부(112), 학습 데이터 선택부(113), 모델 학습부(114) 및 모델 평가부(115) 중 적어도 하나는, 적어도 하나의 하드웨어 칩 형태로 제작되어 전자 장치에 탑재될 수 있다. 예를 들어, 데이터 획득부(111), 전처리부(112), 학습 데이터 선택부(113), 모델 학습부(114) 및 모델 평가부(115) 중 적어도 하나는 인공 지능(AI; artificial intelligence)을 위한 전용 하드웨어 칩 형태로 제작될 수도 있고, 또는 기존의 범용 프로세서(예: CPU 또는 application processor) 또는 그래픽 전용 프로세서(예: GPU)의 일부로 제작되어 전술한 각종 전자 장치에 탑재될 수도 있다.
또한, 데이터 획득부(111), 전처리부(112), 학습 데이터 선택부(113), 모델 학습부(114) 및 모델 평가부(115)는 하나의 전자 장치에 탑재될 수도 있으며, 또는 별개의 전자 장치들에 각각 탑재될 수도 있다. 예를 들어, 데이터 획득부(111), 전처리부(112), 학습 데이터 선택부(113), 모델 학습부(114) 및 모델 평가부(115) 중 일부는 전자 장치에 포함되고, 나머지 일부는 서버에 포함될 수 있다.
또한, 데이터 획득부(111), 전처리부(112), 학습 데이터 선택부(113), 모델 학습부(114) 및 모델 평가부(115) 중 적어도 하나는 소프트웨어 모듈로 구현될 수 있다. 데이터 획득부(111), 전처리부(112), 학습 데이터 선택부(113), 모델 학습부(114) 및 모델 평가부(115) 중 적어도 하나가 소프트웨어 모듈(또는, 인스트럭션(instruction) 포함하는 프로그램 모듈)로 구현되는 경우, 소프트웨어 모듈은 컴퓨터로 읽을 수 있는 판독 가능한 비일시적 판독 가능 기록매체(non-transitory computer readable media)에 저장될 수 있다. 또한, 이 경우, 적어도 하나의 소프트웨어 모듈은 OS(Operating System)에 의해 제공되거나, 소정의 애플리케이션에 의해 제공될 수 있다. 또는, 적어도 하나의 소프트웨어 모듈 중 일부는 OS(Operating System)에 의해 제공되고, 나머지 일부는 소정의 애플리케이션에 의해 제공될 수 있다.
본 개시의 일 실시예에 따른 데이터 인식부(120)는 데이터 획득부(121), 전처리부(122), 인식 데이터 선택부(123), 인식 결과 제공부(124) 및 모델 갱신부(125)를 포함할 수 있다.
데이터 획득부(121)는 표준어 텍스트를 생성하기 위해 필요한 사투리 텍스트 또는 음성을 획득할 수 있다. 전처리부(122)는 획득된 사투리 음성 또는 텍스트가 이용될 수 있도록, 획득된 데이터를 전처리할 수 있다. 전처리부(122)는 후술할 인식 결과 제공부(124)가 음성 또는 텍스트를 출력하기 위해 획득된 데이터를 이용할 수 있도록, 획득된 데이터를 기 설정된 포맷으로 가공할 수 있다.
인식 데이터 선택부(123)는 전처리된 데이터 중에서 필요한 데이터를 선택할 수 있다. 선택된 데이터는 인식 결과 제공부(124)에게 제공될 수 있다. 인식 데이터 선택부(123)는 기 설정된 기준에 따라, 전처리된 데이터 중에서 일부 또는 전부를 선택할 수 있다. 또한, 인식 데이터 선택부(123)는 모델 학습부(114)에 의한 학습에 의해 기 설정된 기준에 따라 데이터를 선택할 수도 있다.
인식 결과 제공부(124)는 선택된 데이터를 데이터 학습모델에 적용하여 음성 또는 텍스트를 출력할 수 있다. 인식 결과 제공부(124)는 인식 데이터 선택부(123)에 의해 선택된 데이터를 입력 값으로 이용함으로써, 선택된 데이터를 데이터 학습모델에 적용할 수 있다. 또한, 인식 결과는 데이터 학습모델에 의해 결정될 수 있다.
모델 갱신부(125)는 인식 결과 제공부(124)에 의해 제공되는 인식 결과에 대한 평가에 기초하여, 데이터 학습모델이 갱신되도록 할 수 있다. 예를 들어, 모델 갱신부(125)는 인식 결과 제공부(124)에 의해 제공되는 인식 결과를 모델 학습부(114)에게 제공함으로써, 모델 학습부(114)가 데이터 학습모델을 갱신하도록 할 수 있다.
한편, 데이터 인식부(120) 내의 데이터 획득부(121), 전처리부(122), 인식 데이터 선택부(123), 인식 결과 제공부(124) 및 모델 갱신부(125) 중 적어도 하나는, 적어도 하나의 하드웨어 칩 형태로 제작되어 전자 장치에 탑재될 수 있다. 예를 들어, 데이터 획득부(121), 전처리부(122), 인식 데이터 선택부(123), 인식 결과 제공부(124) 및 모델 갱신부(125) 중 적어도 하나는 인공 지능(AI; artificial intelligence)을 위한 전용 하드웨어 칩 형태로 제작될 수도 있고, 또는 기존의 범용 프로세서(예: CPU 또는 application processor) 또는 그래픽 전용 프로세서(예: GPU)의 일부로 제작되어 전술한 각종 전자 장치에 탑재될 수도 있다.
또한, 데이터 획득부(121), 전처리부(122), 인식 데이터 선택부(123), 인식 결과 제공부(124) 및 모델 갱신부(125)는 하나의 전자 장치에 탑재될 수도 있으며, 또는 별개의 전자 장치들에 각각 탑재될 수도 있다. 예를 들어, 데이터 획득부(121), 전처리부(122), 인식 데이터 선택부(123), 인식 결과 제공부(124) 및 모델 갱신부(125) 중 일부는 전자 장치에 포함되고, 나머지 일부는 서버에 포함될 수 있다.
또한, 데이터 획득부(121), 전처리부(122), 인식 데이터 선택부(123), 인식 결과 제공부(124) 및 모델 갱신부(125) 중 적어도 하나는 소프트웨어 모듈로 구현될 수 있다. 데이터 획득부(121), 전처리부(122), 인식 데이터 선택부(123), 인식 결과 제공부(124) 및 모델 갱신부(125) 중 적어도 하나가 소프트웨어 모듈(또는, 인스트럭션(instruction) 포함하는 프로그램 모듈)로 구현되는 경우, 소프트웨어 모듈은 컴퓨터로 읽을 수 있는 판독 가능한 비일시적 판독 가능 기록매체(non-transitory computer readable media)에 저장될 수 있다. 또한, 이 경우, 적어도 하나의 소프트웨어 모듈은 OS(Operating System)에 의해 제공되거나, 소정의 애플리케이션에 의해 제공될 수 있다. 또는, 적어도 하나의 소프트웨어 모듈 중 일부는 OS(Operating System)에 의해 제공되고, 나머지 일부는 소정의 애플리케이션에 의해 제공될 수 있다.
도 2는 본 개시의 일 실시예에 따른 음성 번역 시스템을 나타낸 도면이다.
음성 번역 시스템(200)은 입력부(210), 음성 번역 장치(220) 및 출력부(230)를 포함할 수 있다. 입력부(210)는 사용자 단말기에 포함될 수 있다. 입력부(210)는 제 1 언어의 음성 또는 텍스트를 수신할 수 있다. 입력부(210)는 수신한 제 1 언어의 음성 또는 텍스트를 유선 또는 무선을 통하여 음성 번역 장치(220)에 송신할 수 있다. 입력부(210)는 데이터의 용량을 줄이기 위하여 제 1 언어의 음성 또는 텍스트를 소정의 알고리즘에 기초하여 압축할 수 있다.
음성 번역 장치(220)는 수신한 제 1 언어의 음성 또는 텍스트를 제 2 언어의 음성 또는 텍스트로 변환할 수 있다. 음성 번역 장치(220)는 도 1의 음성 번역 장치(100)에 대응될 수 있다. 음성 번역 장치(220)는 사용자 단말 또는 서버에 대응될 수 있다. 음성 번역 장치(220)는 데이터 학습부(110) 및 데이터 인식부(120)를 포함할 수 있다. 음성 번역 장치(220)는 기계학습모델을 이용하여 제 1 언어의 음성 또는 텍스트를 제 2 언어의 음성 또는 텍스트로 변환할 수 있다.
음성 번역 장치(220)는 생성된 제 2 언어의 음성 또는 텍스트를 유선 또는 무선을 통하여 출력부(230)에 송신할 수 있다. 음성 번역 장치(220)는 생성된 제 2 언어의 음성 또는 텍스트를 소정의 알고리즘을 사용하여 압축하여, 데이터 송신에 필요한 데이터의 용량을 줄이고, 송신의 속도를 높일 수 있다.
출력부(230)는 사용자 단말기에 대응될 수 있다. 출력부(230)는 제 2 언어로 번역된 텍스트 또는 음성을 출력할 수 있다. 출력부(230)는 제 2 언어로 번역된 텍스트를 디스플레이부에 표시할 수 있다. 또는 출력부(230)는 제 2 언어로 번역된 음성을 스피커를 통하여 출력할 수 있다.
도 3은 본 개시의 일 실시예에 따른 음성 번역 방법을 나타낸 흐름도이다.
음성 번역 장치(220)는 복수의 제 1 언어의 사투리 음성 및 복수의 제 1 언어의 사투리 음성에 대응되는 복수의 제 1 언어의 표준어 텍스트에 기초하여 제 1 언어의 사투리 음성과 제 1 언어의 표준어 텍스트의 관계를 학습한 제 1 기계학습모델을 획득하는 단계(310)를 수행할 수 있다. 음성 번역 장치(220)는 복수의 제 1 언어의 사투리 텍스트 및 복수의 제 1 언어의 사투리 텍스트에 대응되는 복수의 제 1 언어의 표준어 텍스트에 기초하여 제 1 언어의 사투리 텍스트와 제 1 언어의 표준어 텍스트의 관계를 학습한 제 2 기계학습모델을 획득하는 단계(320)를 수행할 수 있다. 음성 번역 장치(220)는 제 1 언어의 제 1 사투리 입력 음성 및 상기 제 1 언어의 제 1 사투리 입력 음성에 대응되는 제 2 언어의 표준어 텍스트를 수신하는 단계(330)를 수행할 수 있다. 음성 번역 장치(220)는 제 1 언어의 제 1 사투리 입력 음성을 제 1 기계학습모델에 적용하여 제 1 언어의 제 1 표준어 입력 텍스트를 획득하는 단계(340)를 수행할 수 있다. 음성 번역 장치(220)는 제 1 언어의 제 1 사투리 입력 음성을 제 1 언어의 제 1 사투리 입력 텍스트로 변환하는 단계(350)를 수행할 수 있다. 음성 번역 장치(220)는 제 1 언어의 제 1 사투리 입력 텍스트를 제 2 기계학습모델에 적용하여 제 1 언어의 제 2 표준어 입력 텍스트를 획득하는 단계(360)를 수행할 수 있다. 음성 번역 장치(220)는 제 1 언어의 제 1 표준어 입력 텍스트, 제 1 언어의 제 2 표준어 입력 텍스트 및 제 2 언어의 표준어 텍스트에 기초하여 기계학습을 수행하여 제 3 기계학습모델을 획득하는 단계(370)를 수행할 수 있다. 각 단계에 대해서는 도 4 내지 도 6과 함께 자세히 설명한다.
도 4는 본 개시의 일 실시예에 따른 음성 번역 장치에 포함된 데이터 학습부를 나타낸다.
음성 번역 장치(220)에 포함된 데이터 학습부(410)는 복수의 제 1 언어의 사투리 음성 및 복수의 제 1 언어의 사투리 음성에 대응되는 복수의 제 1 언어의 표준어 텍스트에 기초하여 제 1 언어의 사투리 음성과 제 1 언어의 표준어 텍스트의 관계를 학습한 제 1 기계학습모델을 획득하는 단계(310)를 수행할 수 있다. 제 1 기계학습모델은 미리 학습된 기계학습모델일 수 있다.
음성 번역 장치(220)에 포함된 데이터 학습부(410)는 복수의 제 1 언어의 사투리 음성(421) 및 복수의 제 1 언어의 표준어 텍스트(422)를 수신할 수 있다. 데이터 학습부(410)는 복수의 제 1 언어의 사투리 음성(421) 또는 복수의 제 1 언어의 표준어 텍스트(422)를 음소, 음절, 형태소, 단어, 어절 또는 문장 중 적어도 하나로 분할할 수 있다. 음성 번역 장치(220)는 제 1 언어의 사투리 음성(421) 및 복수의 제 1 언어의 표준어 텍스트(422)의 관계를 학습하여 제 1 기계학습모델을 획득할 수 있다.
제 1 언어의 사투리 음성은 복수의 지역의 사투리일 수 있다. 예를 들어 제 1 언어가 한국어인 경우, 사투리는 서울, 경기도, 충청도, 경상도, 전라도, 강원도, 제주도의 사투리 등을 포함할 수 있다. 또한 제 1 언어의 사투리 음성은 각 지방의 화자가 읽은 텍스트를 녹음한 음성 데이터일 수 있다.
또한 복수의 제 1 언어의 사투리 음성에 대응되는 제 1 언어의 표준어 텍스트는 하나의 지방의 사투리 일 수 있다. 즉, 제 1 언어가 한국어인 경우 제 1 언어의 표준어 텍스트는 교양 있는 사람들이 두루 쓰는 현대 서울말로 된 텍스트일 수 있다. 복수의 제 1 언어의 표준어 텍스트는 적어도 하나의 글자를 포함할 수 있다.
복수의 제 1 언어의 사투리 음성은 복수의 문장들을 포함할 수 있다. 또한 복수의 제 1 언어의 사투리 음성에 대응되는 복수의 제 1 언어의 표준어 텍스트는 복수의 문장들을 포함할 수 있다. 음성 번역 장치(220)는 티비 방송 또는 영화 등에서 복수의 제 1 언어의 사투리 음성 및 복수의 제 1 언어의 표준어 텍스트를 획득할 수 있다. 예를 들어, 티비 방송 또는 영화는 음성은 사투리로 되어 있을지라도 자막은 표준어로 되어 있을 수 있다. 음성 번역 장치(220)는 티비 방송 또는 영화로부터 제 1 언어의 사투리 음성 및 복수의 제 1 언어의 표준어 텍스트를 수신하여, 기계학습을 수행할 수 있다.
음성 번역 장치(220)는 기계학습결과로써 제 1 기계학습모델(431)을 획득할 수 있다. 음성 번역 장치(220)는 제 1 기계학습모델(431)을 메모리에 저장할 수 있다. 음성 번역 장치(220)는 제 1 기계학습모델(431)을 다른 음성 번역 장치(220)로 전송할 수 있다. 음성 번역 장치(220)는 제 1 기계학습모델(431)에 기초하여 제 1 언어의 사투리 음성을 제 1 언어의 표준어 텍스트로 번역할 수 있다. 또한 음성 번역 장치(220)는 제 1 언어의 표준어 음성을 수신한 경우 제 1 기계학습모델(431)에 기초하여 제 1 언어의 표준어 텍스트를 생성할 수 있다. 음성 번역 장치(220)는 제 3 기계학습모델을 생성하기 위하여 사전에 제 1 기계학습모델(431)을 획득할 수 있다.
도 5는 본 개시의 일 실시예에 따른 음성 번역 장치에 포함된 데이터 학습부를 나타낸다.
음성 번역 장치(220)에 포함된 데이터 학습부(510)는 복수의 제 1 언어의 사투리 텍스트(521) 및 복수의 제 1 언어의 사투리 음성에 대응되는 복수의 제 1 언어의 표준어 텍스트(522)에 기초하여 제 1 언어의 사투리 텍스트(521)와 제 1 언어의 표준어 텍스트(522)의 관계를 학습한 제 2 기계학습모델(531)을 획득하는 단계(310)를 수행할 수 있다. 제 2 기계학습모델은 미리 학습된 기계학습모델일 수 있다.
음성 번역 장치(220)에 포함된 데이터 학습부(510)는 복수의 제 1 언어의 사투리 텍스트(521) 및 복수의 제 1 언어의 표준어 텍스트(522)를 수신할 수 있다. 데이터 학습부(510)는 복수의 제 1 언어의 사투리 텍스트(521) 또는 복수의 제 1 언어의 표준어 텍스트(522)를 음소, 음절, 형태소, 단어, 어절 또는 문장 중 적어도 하나로 분할할 수 있다. 음성 번역 장치(220)는 제 1 언어의 사투리 텍스트(521) 및 복수의 제 1 언어의 표준어 텍스트(522)의 관계를 학습하여 제 2 기계학습모델을 획득할 수 있다.
제 1 언어의 사투리 텍스트는 복수의 지역의 사투리일 수 있다. 예를 들어 제 1 언어가 한국어인 경우, 사투리는 서울, 경기도, 충청도, 경상도, 전라도, 강원도, 제주도의 사투리 등을 포함할 수 있다. 또한 복수의 제 1 언어의 사투리 텍스트에 대응되는 제 1 언어의 표준어 텍스트는 특정 지방의 특정 사람들이 쓰는 언어일 수 있다. 즉, 제 1 언어가 한국어인 경우 제 1 언어의 표준어 텍스트는 교양 있는 사람들이 두루 쓰는 현대 서울말로 된 텍스트일 수 있다.
복수의 제 1 언어의 사투리 텍스트는 복수의 단어들 또는 복수의 문장들을 포함할 수 있다. 또한 복수의 제 1 언어의 사투리 텍스트에 대응되는 복수의 제 1 언어의 표준어 텍스트는 복수의 단어들 또는 복수의 문장들을 포함할 수 있다. 사용자는 사투리를 연구한 논문, 사전 또는 인터넷에 올라와 있는 다양한 자료를 음성 번역 장치(220)에 입력하여 제 2 기계학습모델(531)을 획득할 수 있다.
음성 번역 장치(220)는 기계학습결과로써 제 2 기계학습모델(531)을 획득할 수 있다. 음성 번역 장치(220)는 제 2 기계학습모델(531)을 메모리에 저장할 수 있다. 음성 번역 장치(220)는 제 2 기계학습모델(531)을 다른 음성 번역 장치(220)로 전송할 수 있다. 음성 번역 장치(220)는 제 2 기계학습모델(531)에 기초하여 제 1 언어의 사투리 텍스트를 제 1 언어의 표준어 텍스트로 번역할 수 있다. 또한 음성 번역 장치(220)는 제 1 언어의 표준어 텍스트를 수신한 경우 제 1 기계학습모델(531)에 기초하여 유사하거나 동일한 제 1 언어의 표준어 텍스트를 생성할 수 있다. 음성 번역 장치(220)는 제 3 기계학습모델을 생성하기 위하여 사전에 제 2 기계학습모델(531)을 획득할 수 있다.
사투리를 구사하는 화자들이 같은 텍스트를 읽은 음성을 녹음하여 음성 데이터를 생성한 경우, 각 음성 데이터에는 서로 다른 음성 특징이 반영되어 있을 수 있다. 음성 특징은 서로 다른 발성 구간, 묵음 구간, 음성 높낮이 및 발음 강세 등을 포함할 수 있다. 제 1 기계학습모델은 제 1 언어의 사투리 음성과 제 1 언어의 표준어 텍스트의 관계를 학습하므로, 제 1 기계학습모델은 제 1 언어의 사투리 음성에 포함되어 있는 음성 특징에 기반하여 제 1 언어의 표준어 텍스트를 생성할 수 있다. 하지만, 사투리를 구사하는 화자들은 같은 텍스트를 서로 다르게 발음할 것이다. 예를 들어, 특정 지역의 화자들은 "ㅆ"을 "ㅅ"과 유사하게 발음하는 경우가 있다. 또한, 사투리를 구사하는 화자들은 같은 내용을 서로 다른 단어로 나타낼 수 있다. 예를 들어 특정 지역의 화자들은 "부추"를 "정구지"라고 부른다. 제 1 언어의 사투리 음성에만 기초하는 경우, 생성된 제 1 언어의 표준어 텍스트가 부정확할 가능성이 있다.
따라서 음성 번역 장치(220)는 제 1 언어의 사투리 텍스트와 제 1 언어의 표준어 텍스트의 관계를 학습한 제 2 기계학습모델을 더 사용할 수 있다. 즉, 음성 번역 장치(220)는 제 2 기계학습모델을 사용하여 사투리를 구사하는 화자의 음성 특징 뿐 아니라 텍스트의 차이에 기반하여 제 1 언어의 표준어 텍스트를 생성할 수 있다.
이하에서는 도 6과 함께 제 3 기계학습모델을 획득하는 과정을 설명한다.
도 6은 본 개시의 일 실시예에 따른 음성 번역 장치에 포함된 데이터 학습부를 나타낸다.
음성 번역 장치(220)는 제 1 언어의 제 1 사투리 입력 음성 및 제 1 언어의 제 1 사투리 입력 음성에 대응되는 제 2 언어의 표준어 텍스트(623)를 수신하는 단계(330)를 수행할 수 있다. 음성 번역 장치(220)는 제 1 언어의 제 1 사투리 입력 음성 및 제 1 언어의 제 1 사투리 입력 음성에 대응되는 제 2 언어의 표준어 텍스트(623)를 음소, 음절, 형태소, 단어, 어절 또는 문장 중 적어도 하나로 분할할 수 있다.
제 1 언어의 제 1 사투리 입력 음성은 음성 번역 장치(220)가 마이크 또는 메모리로부터 획득한 음성 데이터일 수 있다. 제 1 언어의 제 1 사투리 입력 음성은 음성 번역 장치(220)가 사용자 단말기와 같은 외부 장치로부터 수신한 음성 데이터일 수 있다.
제 2 언어의 표준어 텍스트(623)는 제 1 언어의 제 1 사투리 입력 음성과 동일한 의미를 가지를 텍스트일 수 있다. 제 2 언어의 표준어 텍스트(623)는 적어도 하나의 단어 또는 적어도 하나의 문장일 수 있다.
음성 번역 장치(220)는 제 1 언어의 제 1 사투리 입력 음성을 제 1 기계학습모델에 적용하여 제 1 언어의 제 1 표준어 입력 텍스트(621)를 획득하는 단계(340)를 수행할 수 있다. 이미 설명한 바와 같이, 제 1 기계학습모델은 제 1 언어의 사투리 음성과 제 1 언어의 표준어 텍스트 사이의 관계를 학습한 모델이다. 단계(340)는 제 1 기계학습모델의 테스트 스테이지(test stage)일 수 있다.
음성 번역 장치(220)는 제 1 언어의 제 1 사투리 입력 음성을 제 1 언어의 제 1 사투리 입력 텍스트로 변환하는 단계(350)를 수행할 수 있다. 제 1 언어의 제 1 사투리 입력 음성을 제 1 언어의 제 1 사투리 입력 텍스트로 변환하기 위해서는 스피치-투-텍스트(speech to text) 모델에 기초할 수 있다. 스피치-투-텍스트 모델은 다양한 알고리즘에 의하여 구현될 수 있다. 예를 들어, 스피치-투-텍스트 모델은 복수의 음성과 복수의 텍스트에 기초하여 미리 기계학습된 모델일 수 있다.
음성 번역 장치(220)는 제 1 언어의 제 1 사투리 입력 텍스트를 제 2 기계학습모델에 적용하여 제 1 언어의 제 2 표준어 입력 텍스트(622)를 획득하는 단계(360)를 수행할 수 있다. 이미 설명한 바와 같이 제 2 기계학습모델은 제 1 언어의 사투리 텍스트와 제 1 언어의 표준어 텍스트 사이의 관계를 학습한 모델일 수 있다. 단계(360)는 제 2 기계학습모델의 테스트 스테이지(test stage)일 수 있다.
음성 번역 장치(220)는 제 1 언어의 제 1 표준어 입력 텍스트(621), 제 1 언어의 제 2 표준어 입력 텍스트(622) 및 제 2 언어의 표준어 텍스트(623)에 기초하여 기계학습을 수행하여 제 3 기계학습모델을 획득하는 단계(370)를 수행할 수 있다. 단계(370)는 제 3 기계학습모델(631)의 학습 스테이지(learning stage)일 수 있다. 제 3 기계학습모델(631)은 제 1 언어의 제 1 표준어 입력 텍스트와 제 1 언어의 제 2 표준어 입력 텍스트에 기초하여 제 2 표준어 입력 텍스트를 생성하기 위한 기계학습모델일 수 있다. 음성 번역 장치(220)는 제 3 기계학습모델을 획득하기 위하여 어텐션 알고리즘을 사용할 수 있다. 어텐션 알고리즘에 대해서는 도 7과 함께 아래에서 설명한다.
음성 번역 장치(220)는 제 3 기계학습모델(631)을 메모리에 저장할 수 있다. 또는 음성 번역 장치(220)는 제 3 기계학습모델(631)을 다른 음성 번역 장치(220)에 송신할 수 있다. 음성 번역 장치(220)는 제 3 기계학습모델(631)에 기초하여 정확하게 제 1 언어의 음성을 제 2 언어의 텍스트로 번역할 수 있다. 음성 번역 장치(220)는 단계(330) 내지 단계(370)를 반복적으로 수행하여 제 3 기계학습모델(631)의 정확도를 높일 수 있다.
도 7은 본 개시의 일 실시예에 따른 음성 번역 방법을 나타낸 흐름도이다.
도 7의 흐름도는 음성 번역 장치(220)의 제 3 기계학습모델의 테스트 스테이지(test stage)를 나타낼 수 있다.
음성 번역 장치(220)는 제 1 언어의 제 2 사투리 입력 음성을 수신하는 단계(710)를 수행할 수 있다. 음성 번역 장치(220)는 스피커와 같은 입력부로부터 제 1 언어의 제 2 사투리 입력 음성을 직접 수신할 수 있다. 또한 음성 번역 장치(220)는 메모리에 저장된 음성 데이터 또는 사용자 단말기로부터 음성 데이터를 수신할 수 있다.
음성 번역 장치(220)는 제 1 언어의 제 2 사투리 입력 음성을 제 1 기계학습모델에 적용하여 제 1 언어의 제 3 표준어 입력 텍스트를 획득하는 단계(720)를 수행할 수 있다. 또한, 음성 번역 장치(220)는 제 1 언어의 제 2 사투리 입력 음성을 제 1 언어의 제 2 사투리 입력 텍스트로 변환하는 단계(730)를 수행할 수 있다. 또한 음성 번역 장치(220)는 제 1 언어의 제 2 사투리 입력 텍스트를 제 2 기계학습모델에 적용하여 제 1 언어의 제 4 표준어 입력 텍스트를 획득하는 단계(740)를 수행할 수 있다. 도 7의 단계(720) 내지 단계(740)는 도 3의 단계(340) 내지 단계(360)와 동일할 수 있다.
음성 번역 장치(220)는 제 1 언어의 제 3 표준어 입력 텍스트 및 제 1 언어의 제 4 표준어 입력 텍스트를 제 3 기계학습모델에 적용하여 제 2 언어의 표준어 입력 텍스트를 획득하는 단계(750)를 수행할 수 있다.
음성 번역 장치(220)는 제 3 기계학습모델에 기초하여, 제 2 언어의 표준어 입력 텍스트를 음소, 음절, 형태소, 단어, 어절 또는 문장 중 적어도 하나의 단위로 생성할 수 있다. 즉, 음성 번역 장치(220)는 이미 생성된 제 2 언어의 표준어 입력 텍스트 중 일부를 다시 제 3 기계학습모델에 적용하여 다음 제 2 언어의 표준어 입력 텍스트 중 일부를 생성할 수 있다. 음성 번역 장치(220)는 제 2 언어의 표준어 입력 텍스트 중 일부를 병합하여 전체 제 2 언어의 표준어 입력 텍스트를 생성할 수 있다.
또한, 음성 번역 장치(220)의 제 3 기계학습모델은 어텐션 알고리즘을 사용할 수 있다. 음성 번역 장치(220)는 제 1 언어의 제 3 표준어 입력 텍스트 또는 제 1 언어의 제 4 표준어 입력 텍스트에 포함된 음소, 음절, 형태소 또는 단어의 품사에 기초하여 제 2 언어의 표준어 입력 텍스트에 포함된 음소, 음절, 형태소 또는 단어를 생성해 나갈 수 있다. 예를 들어, 음성 번역 장치(220)의 제 3 기계학습모델은 제 2 언어의 주어 부분을 생성하기 위하여 제 1 언어의 주어 부분에 주목할 수 있다. 또한, 음성 번역 장치(220)의 제 3 기계학습모델은 제 2 언어의 동사 부분을 생성하기 위하여 제 1 언어의 동사 부분에 주목할 수 있다. 제 3 기계학습모델이 어텐션 알고리즘을 사용하는 경우, 보다 정확하게 제 1 언어의 텍스트를 제 2 언어의 텍스트로 변환할 수 있다.
또한, 어텐션 알고리즘에 의하면 음성 번역 장치(220)는 제 2 언어 텍스트의 생성의 초반에는 제 1 언어 텍스트의 앞문장에 기초하여 제 2 언어 텍스트를 생성하고, 제 2 언어 텍스트가 생성되어 감에 따라 점점 제 1 언어 텍스트의 뒷문장에 기초하여 제 2 언어 텍스트를 생성할 수 있다.
제 2 언어의 표준어 입력 텍스트는 제 1 언어의 제 3 표준어 입력 텍스트 및 제 1 언어의 제 4 표준어 입력 텍스트 모두에 기초하여 생성되므로, 제 1 언어의 제 3 표준어 입력 텍스트 및 제 1 언어의 제 4 표준어 입력 텍스트 중 어느 하나에 기초하여 생성된 제 2 언어의 텍스트보다 정확할 수 있다.
음성 번역 장치(220)는 제 2 언어의 표준어 입력 텍스트 및 텍스트-투-스피치(text to speech) 모델에 기초하여 제 2 언어의 출력 음성을 생성하는 단계(760)를 수행할 수 있다. 텍스트-투-스피치 모델은 다양한 알고리즘에 기초하여 구현될 수 있다.
텍스트-투-스피치 모델은 추가적인 정보에 기초하여, 다양한 발화 속도, 발음 강세, 음 높이, 발성 구간의 길이, 묵음 구간의 길이, 감정 및 음색을 적용하여 제 2 언어의 출력 음성을 생성할 수 있다.
음성 번역 장치(220)는 제 1 기계학습모델 및 제 2 기계학습모델 중 적어도 하나의 숨겨진 상태를 분석하여, 제 1 언어의 제 2 사투리 입력 음성이 사투리인지 여부를 나타내는 정보를 획득하는 단계를 수행할 수 있다. 예를 들어 제 1 기계학습모델 및 제 2 기계학습모델은 수신된 음성 또는 텍스트에 가중치를 적용하여 표준어 텍스트를 출력할 수 있다. 음성 번역 장치(220)는 수신된 음성 또는 텍스트에 적용된 가중치가 사투리에 대한 가중치인지 또는 표준어에 대한 가중치인지를 분석할 수 있다. 또한, 음성 번역 장치(220)는 수신된 음성 또는 텍스트에 적용된 가중치가 사투리와 관련성이 높은 가중치인 경우, 수신된 음성 또는 텍스트가 사투리임을 나타내는 정보를 생성할 수 있다.
음성 번역 장치(220)의 텍스트-투-스피치 모델은 사투리인지 여부를 나타내는 정보가 사투리를 나타내는 경우, 제 2 언어의 임의의 사투리 억양을 포함하는 상기 제 2 언어의 출력 음성을 생성하는 단계를 수행할 수 있다. 또한, 음성 번역 장치(220)의 텍스트-투-스피치 모델은 상기 정보가 표준어를 나타내는 경우, 제 2 언어의 표준어 억양을 포함하는 상기 제 2 언어의 출력 음성을 생성하는 단계를 수행할 수 있다. 즉, 음성 번역 장치(220)는 제 1 기계학습모델 및 제 2 기계학습모델에 적용된 제 1 언어의 음성 또는 텍스트가 사투리인 경우, 제 2 언어의 사투리로 된 음성을 출력할 수 있다. 또한 음성 번역 장치(220)는 제 1 기계학습모델 및 제 2 기계학습모델에 적용된 제 1 언어의 음성 또는 텍스트가 표준어인 경우, 제 2 언어의 표준어의 음성을 출력할 수 있다.
음성 번역 장치(220)는 사용자로부터 제 2 언어의 출력 음성에 대한 정확도 정보를 수신하는 단계를 수행할 수 있다. 예를 들어 제 2 언어의 구사자 또는 제 1 언어의 구사자가 제 2 언어의 출력 음성이 정확한지 평가할 수 있다. 음성 번역 장치(220)는 정확도 정보를 수신할 수 있다.
음성 번역 장치(220)의 정확도 정보, 상기 제 1 언어의 제 3 표준어 입력 텍스트 및 상기 제 1 언어의 제 4 표준어 입력 텍스트에 기초하여 상기 제 3 기계학습모델을 갱신하는 단계를 수행할 수 있다. 음성 번역 장치(220)는 정확도 정보가 높아지는 쪽으로 제 3 기계학습모델을 갱신할 수 있다. 음성 번역 장치(220)는 반복적으로 갱신하여 점점 완성도가 높은 제 3 기계학습모델을 획득할 수 있다. 음성 번역 장치(220)는 제 3 기계학습모델에 기초하여 정확한 제 2 언어의 출력 음성을 생성할 수 있다.
도 8은 본 개시의 일 실시예에 따른 사용자 단말기의 화면을 나타낸 도면이다.
사용자 단말(810)은 도 2의 음성 번역 장치(220)에 대응될 수 있다. 사용자 단말(810)은 디스플레이부를 포함할 수 있다. 디스플레이부는 음성 입력 버튼(821), 음성 입력 결과 표시 영역(822), 사투리의 지역 구분 표시 영역(823) 및 번역 결과 표시 영역(824)을 표시할 수 있다. 사용자는 음성 입력 버튼(821)을 누를 수 있다. 사용자 단말(810)은 사용자로부터 음성을 수신하는 모드로 전환될 수 있다. 사용자 단말(810)은 사용자로부터 음성을 수신할 수 있다.
사용자 단말(810)은 수신된 음성을 텍스트로 변환할 수 있다. 사용자 단말(810)은 수신된 음성을 그대로 텍스트로 변환할 수 있다. 즉, 텍스트는 표준어가 아닐 수 있다. 사용자 단말(810)은 변환된 텍스트를 음성 입력 결과 표시 영역(822)에 표시할 수 있다. 사용자는 음성 입력 결과 표시 영역(822)의 텍스트를 보고 사용자 단말(810)이 음성을 제대로 인식했는지 파악할 수 있다.
사용자 단말(810)은 음성의 억양 또는 단어에 기초하여 음성이 어느 지역 사투리인지 결정할 수 있다. 또한 사용자 단말(810)은 사투리의 지역 구분 표시 영역(823)에 음성이 어느 지역 사투리에 해당하는지를 표시할 수 있다.
사용자 단말(810)은 제 1 기계학습모델 또는 제 2 기계학습모델을 포함할 수 있다. 사용자 단말(810)은 제 1 기계학습모델 및 제 2 기계학습모델 중 적어도 하나의 숨겨진 상태를 분석하여, 제 1 언어의 제 2 사투리 입력 음성이 사투리인지 여부를 나타내는 정보를 획득하는 단계를 수행할 수 있다. 예를 들어 제 1 기계학습모델 및 제 2 기계학습모델은 수신된 음성 또는 텍스트에 가중치를 적용하여 표준어 텍스트를 출력할 수 있다. 사용자 단말(810)은 수신된 음성 또는 텍스트에 적용된 가중치가 특정 지역 사투리에 대한 가중치인지 또는 표준어에 대한 가중치인지를 분석할 수 있다. 또한, 사용자 단말(810)은 수신된 음성 또는 텍스트에 적용된 가중치가 특정 지역 사투리와 관련성이 높은 가중치인 경우, 수신된 음성 또는 텍스트가 특정 지역 사투리임을 나타내는 정보를 생성할 수 있다. 하지만 이에 한정되는 것은 아니며, 사용자 단말(810)은 소정의 알고리즘에 기초하여 음성이 어느 지역 사투리를 포함하는지 판단할 수 있다.
본 개시의 일 실시예에 따르면, 사용자 단말(810)의 디스플레이부는 번역 버튼(미도시)을 더 포함할 수 있다. 사용자가 번역 버튼을 누르는 경우 사용자 단말(810)은 입력 음성을 제 1 기계학습모델에 적용하여 제 1 언어의 제 3 표준어 입력 텍스트를 획득할 수 있다. 또한 사용자 단말(810)은 입력 음성을 제 1 언어의 제 2 사투리 입력 텍스트로 변환할 수 있다. 또한, 사용자 단말(810)은 제 1 언어의 제 2 사투리 입력 텍스트를 제 2 기계학습모델에 적용하여 제 1 언어의 제 4 표준어 입력 텍스트를 획득할 수 있다. 또한, 사용자 단말(810)은 제 1 언어의 제 3 표준어 입력 텍스트 및 제 1 언어의 제 4 표준어 입력 텍스트를 제 3 기계학습모델에 적용하여 제 2 언어의 표준어 입력 텍스트를 획득할 수 있다. 사용자 단말(810)은 번역 결과 표시 영역(824)에 번역된 텍스트를 표시할 수 있다.
본 개시의 일 실시예에 따르면, 사용자가 번역 버튼을 누르는 경우, 사용자 단말(810)은 입력 음성을 서버(미도시)에 송신할 수 있다. 서버는 입력 음성을 제 1 기계학습모델에 적용하여 제 1 언어의 제 3 표준어 입력 텍스트를 획득할 수 있다. 또한 서버는 입력 음성을 제 1 언어의 제 2 사투리 입력 텍스트로 변환할 수 있다. 또한, 서버는 제 1 언어의 제 2 사투리 입력 텍스트를 제 2 기계학습모델에 적용하여 제 1 언어의 제 4 표준어 입력 텍스트를 획득할 수 있다. 또한, 서버는 제 1 언어의 제 3 표준어 입력 텍스트 및 제 1 언어의 제 4 표준어 입력 텍스트를 제 3 기계학습모델에 적용하여 제 2 언어의 표준어 입력 텍스트를 획득할 수 있다. 또한 서버는 제 2 언어의 표준어 입력 텍스트를 사용자 단말(810)에 송신할 수 있다. 사용자 단말(810)은 번역 결과 표시 영역(824)에 번역된 텍스트를 표시할 수 있다.
또한, 사용자 단말(810)은 제 2 언어의 표준어 입력 텍스트 및 텍스트-투-스피치 모델에 기초하여 제 2 언어의 출력 음성을 생성할 수 있다. 또한 사용자 단말(810)은 스피커와 같은 음성 출력부(미도시)에 기초하여 제 2 언어의 출력 음성을 출력할 수 있다.
이제까지 다양한 실시예들을 중심으로 살펴보았다. 본 발명이 속하는 기술 분야에서 통상의 지식을 가진 자는 본 발명이 본 발명의 본질적인 특성에서 벗어나지 않는 범위에서 변형된 형태로 구현될 수 있음을 이해할 수 있을 것이다. 그러므로 개시된 실시예들은 한정적인 관점이 아니라 설명적인 관점에서 고려되어야 한다. 본 발명의 범위는 전술한 설명이 아니라 특허청구범위에 나타나 있으며, 그와 동등한 범위 내에 있는 모든 차이점은 본 발명에 포함된 것으로 해석되어야 할 것이다.
한편, 상술한 본 발명의 실시예들은 컴퓨터에서 실행될 수 있는 프로그램으로 작성가능하고, 컴퓨터로 읽을 수 있는 기록매체를 이용하여 상기 프로그램을 동작시키는 범용 디지털 컴퓨터에서 구현될 수 있다. 상기 컴퓨터로 읽을 수 있는 기록매체는 마그네틱 저장매체(예를 들면, 롬, 플로피 디스크, 하드디스크 등), 광학적 판독 매체(예를 들면, 시디롬, 디브이디 등)와 같은 저장매체를 포함한다.

Claims (8)

  1. 사투리가 섞인 음성을 인식하여 번역하기 위한 방법으로서,
    복수의 제 1 언어의 사투리 음성 및 상기 복수의 제 1 언어의 사투리 음성에 대응되는 복수의 제 1 언어의 표준어 텍스트에 기초하여 제 1 언어의 사투리 음성과 제 1 언어의 표준어 텍스트의 관계를 학습한 제 1 기계학습모델을 획득하는 단계;
    복수의 제 1 언어의 사투리 텍스트 및 상기 복수의 제 1 언어의 사투리 텍스트에 대응되는 복수의 제 1 언어의 표준어 텍스트에 기초하여 제 1 언어의 사투리 텍스트와 제 1 언어의 표준어 텍스트의 관계를 학습한 제 2 기계학습모델을 획득하는 단계;
    제 1 언어의 제 1 사투리 입력 음성 및 상기 제 1 언어의 제 1 사투리 입력 음성에 대응되는 제 2 언어의 표준어 텍스트를 수신하는 단계;
    상기 제 1 언어의 제 1 사투리 입력 음성을 상기 제 1 기계학습모델에 적용하여 제 1 언어의 제 1 표준어 입력 텍스트를 획득하는 단계;
    상기 제 1 언어의 제 1 사투리 입력 음성을 제 1 언어의 제 1 사투리 입력 텍스트로 변환하는 단계;
    상기 제 1 언어의 제 1 사투리 입력 텍스트를 상기 제 2 기계학습모델에 적용하여 제 1 언어의 제 2 표준어 입력 텍스트를 획득하는 단계;
    상기 제 1 언어의 제 1 표준어 입력 텍스트, 상기 제 1 언어의 제 2 표준어 입력 텍스트 및 상기 제 2 언어의 표준어 텍스트에 기초하여 기계학습을 수행하여 제 3 기계학습모델을 획득하는 단계;
    제 1 언어의 제 2 사투리 입력 음성을 수신하는 단계;
    상기 제 1 언어의 제 2 사투리 입력 음성을 상기 제 1 기계학습모델에 적용하여 제 1 언어의 제 3 표준어 입력 텍스트를 획득하는 단계;
    상기 제 1 언어의 제 2 사투리 입력 음성을 제 1 언어의 제 2 사투리 입력 텍스트로 변환하는 단계;
    상기 제 1 언어의 제 2 사투리 입력 텍스트를 상기 제 2 기계학습모델에 적용하여 제 1 언어의 제 4 표준어 입력 텍스트를 획득하는 단계;
    상기 제 1 언어의 제 3 표준어 입력 텍스트 및 상기 제 1 언어의 제 4 표준어 입력 텍스트를 상기 제 3 기계학습모델에 적용하여 제 2 언어의 표준어 입력 텍스트를 획득하는 단계;
    상기 제 2 언어의 표준어 입력 텍스트 및 텍스트-투-스피치 모델에 기초하여 제 2 언어의 출력 음성을 생성하는 단계;
    상기 제 1 기계학습모델 및 상기 제 2 기계학습모델 중 적어도 하나의 숨겨진 상태에 포함된 가중치에 기초하여, 상기 제 1 언어의 제 2 사투리 입력 음성이 사투리인지 여부를 나타내는 정보를 획득하는 단계;
    상기 텍스트-투-스피치 모델은 상기 정보가 사투리를 나타내는 경우, 제 2 언어의 임의의 사투리 억양을 포함하는 상기 제 2 언어의 출력 음성을 생성하는 단계; 및
    상기 텍스트-투-스피치 모델은 상기 정보가 표준어를 나타내는 경우, 제 2 언어의 표준어 억양을 포함하는 상기 제 2 언어의 출력 음성을 생성하는 단계를 포함하는 음성을 인식하여 번역하는 방법.
  2. 삭제
  3. 삭제
  4. 제 1 항에 있어서,
    사용자로부터 제 2 언어의 출력 음성에 대한 정확도 정보를 수신하는 단계; 및
    상기 정확도 정보, 상기 제 1 언어의 제 3 표준어 입력 텍스트 및 상기 제 1 언어의 제 4 표준어 입력 텍스트에 기초하여 상기 제 3 기계학습모델을 갱신하는 단계를 포함하는 음성을 인식하여 번역하는 방법.
  5. 사투리가 섞인 음성을 인식하여 번역하기 위한 장치로서,
    상기 장치는 프로세서 및 메모리를 포함하고, 상기 프로세서는 상기 메모리에 포함된 명령어에 따라,
    복수의 제 1 언어의 사투리 음성 및 상기 복수의 제 1 언어의 사투리 음성에 대응되는 복수의 제 1 언어의 표준어 텍스트에 기초하여 제 1 언어의 사투리 음성과 제 1 언어의 표준어 텍스트의 관계를 학습한 제 1 기계학습모델을 획득하는 단계;
    복수의 제 1 언어의 사투리 텍스트 및 상기 복수의 제 1 언어의 사투리 텍스트에 대응되는 복수의 제 1 언어의 표준어 텍스트에 기초하여 제 1 언어의 사투리 텍스트와 제 1 언어의 표준어 텍스트의 관계를 학습한 제 2 기계학습모델을 획득하는 단계;
    제 1 언어의 제 1 사투리 입력 음성 및 상기 제 1 언어의 제 1 사투리 입력 음성에 대응되는 제 2 언어의 표준어 텍스트를 수신하는 단계;
    상기 제 1 언어의 제 1 사투리 입력 음성을 상기 제 1 기계학습모델에 적용하여 제 1 언어의 제 1 표준어 입력 텍스트를 획득하는 단계;
    상기 제 1 언어의 제 1 사투리 입력 음성을 제 1 언어의 제 1 사투리 입력 텍스트로 변환하는 단계;
    상기 제 1 언어의 제 1 사투리 입력 텍스트를 상기 제 2 기계학습모델에 적용하여 제 1 언어의 제 2 표준어 입력 텍스트를 획득하는 단계;
    상기 제 1 언어의 제 1 표준어 입력 텍스트, 상기 제 1 언어의 제 2 표준어 입력 텍스트 및 상기 제 2 언어의 표준어 텍스트에 기초하여 기계학습을 수행하여 제 3 기계학습모델을 획득하는 단계;
    제 1 언어의 제 2 사투리 입력 음성을 수신하는 단계;
    상기 제 1 언어의 제 2 사투리 입력 음성을 상기 제 1 기계학습모델에 적용하여 제 1 언어의 제 3 표준어 입력 텍스트를 획득하는 단계;
    상기 제 1 언어의 제 2 사투리 입력 음성을 제 1 언어의 제 2 사투리 입력 텍스트로 변환하는 단계;
    상기 제 1 언어의 제 2 사투리 입력 텍스트를 상기 제 2 기계학습모델에 적용하여 제 1 언어의 제 4 표준어 입력 텍스트를 획득하는 단계;
    상기 제 1 언어의 제 3 표준어 입력 텍스트 및 상기 제 1 언어의 제 4 표준어 입력 텍스트를 상기 제 3 기계학습모델에 적용하여 제 2 언어의 표준어 입력 텍스트를 획득하는 단계;
    상기 제 2 언어의 표준어 입력 텍스트 및 텍스트-투-스피치 모델에 기초하여 제 2 언어의 출력 음성을 생성하는 단계;
    상기 제 1 기계학습모델 및 상기 제 2 기계학습모델 중 적어도 하나의 숨겨진 상태의 가중치에 기초하여, 상기 제 1 언어의 제 2 사투리 입력 음성이 사투리인지 여부를 나타내는 정보를 획득하는 단계;
    상기 텍스트-투-스피치 모델은 상기 정보가 사투리를 나타내는 경우, 제 2 언어의 임의의 사투리 억양을 포함하는 상기 제 2 언어의 출력 음성을 생성하는 단계; 및
    상기 텍스트-투-스피치 모델은 상기 정보가 표준어를 나타내는 경우, 제 2 언어의 표준어 억양을 포함하는 상기 제 2 언어의 출력 음성을 생성하는 단계를 수행하는 음성을 인식하여 번역하기 위한 장치.
  6. 삭제
  7. 삭제
  8. 제 5 항에 있어서,
    상기 프로세서는 상기 메모리에 포함된 명령어에 따라,
    사용자로부터 제 2 언어의 출력 음성에 대한 정확도 정보를 수신하는 단계; 및
    상기 정확도 정보, 상기 제 1 언어의 제 3 표준어 입력 텍스트 및 상기 제 1 언어의 제 4 표준어 입력 텍스트에 기초하여 상기 제 3 기계학습모델을 갱신하는 단계를 수행하는 음성을 인식하여 번역하기 위한 장치.
KR1020190055009A 2019-05-10 2019-05-10 음성 인식과 번역 방법 및 그를 위한 단말 장치와 서버 Expired - Fee Related KR102062524B1 (ko)

Priority Applications (1)

Application Number Priority Date Filing Date Title
KR1020190055009A KR102062524B1 (ko) 2019-05-10 2019-05-10 음성 인식과 번역 방법 및 그를 위한 단말 장치와 서버

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
KR1020190055009A KR102062524B1 (ko) 2019-05-10 2019-05-10 음성 인식과 번역 방법 및 그를 위한 단말 장치와 서버

Publications (1)

Publication Number Publication Date
KR102062524B1 true KR102062524B1 (ko) 2020-01-06

Family

ID=69159228

Family Applications (1)

Application Number Title Priority Date Filing Date
KR1020190055009A Expired - Fee Related KR102062524B1 (ko) 2019-05-10 2019-05-10 음성 인식과 번역 방법 및 그를 위한 단말 장치와 서버

Country Status (1)

Country Link
KR (1) KR102062524B1 (ko)

Cited By (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
KR102253279B1 (ko) * 2020-12-11 2021-05-18 고태건 인공지능을 사용하는 키오스크 기반 무인결제시스템 및 그 방법
WO2021246689A1 (ko) * 2020-06-04 2021-12-09 삼성전자 주식회사 음성 또는 문자를 번역하는 전자 장치 및 그 방법
KR102406251B1 (ko) * 2021-11-18 2022-06-07 염종명 언어 현지화에서 번역 완성도를 높이기 위한 자동 번역 및 코딩 방법
WO2023136490A1 (ko) * 2022-01-11 2023-07-20 삼성전자 주식회사 발음에 기반한 이종 언어의 텍스트 검색 방법 및 이를 적용한 전자 장치

Citations (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
KR101836430B1 (ko) * 2017-08-07 2018-03-08 고현선 음성 인식과 번역 방법 및 그를 위한 단말 장치와 서버

Patent Citations (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
KR101836430B1 (ko) * 2017-08-07 2018-03-08 고현선 음성 인식과 번역 방법 및 그를 위한 단말 장치와 서버

Non-Patent Citations (2)

* Cited by examiner, † Cited by third party
Title
Alexandre Berard et al., ‘Listen and Translate: A proof of concept for end-to-end speech-to-text translation’, arXiv:1612.01744v1 [cs.CL], 6 December 2016.*
김현 외 4명, ‘심층학습 기반의 Predictor-Estimator 모델을 이용한 영어-한국어 기계번역 품질 예측’, 정보과학회논문지 45(6), pp. 545~553, 2018년 6월.*

Cited By (5)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
WO2021246689A1 (ko) * 2020-06-04 2021-12-09 삼성전자 주식회사 음성 또는 문자를 번역하는 전자 장치 및 그 방법
US12159121B2 (en) 2020-06-04 2024-12-03 Samsung Electronics Co., Ltd. Electronic device for translating voice or text and method thereof
KR102253279B1 (ko) * 2020-12-11 2021-05-18 고태건 인공지능을 사용하는 키오스크 기반 무인결제시스템 및 그 방법
KR102406251B1 (ko) * 2021-11-18 2022-06-07 염종명 언어 현지화에서 번역 완성도를 높이기 위한 자동 번역 및 코딩 방법
WO2023136490A1 (ko) * 2022-01-11 2023-07-20 삼성전자 주식회사 발음에 기반한 이종 언어의 텍스트 검색 방법 및 이를 적용한 전자 장치

Similar Documents

Publication Publication Date Title
KR102246943B1 (ko) 다중 언어 텍스트-음성 합성 방법
KR102668866B1 (ko) 기계학습을 이용한 텍스트-음성 합성 방법, 장치 및 컴퓨터 판독가능한 저장매체
US11929059B2 (en) Method, device, and computer readable storage medium for text-to-speech synthesis using machine learning on basis of sequential prosody feature
US11373633B2 (en) Text-to-speech processing using input voice characteristic data
KR102757438B1 (ko) 순차적 운율 특징을 기초로 기계학습을 이용한 텍스트-음성 합성 방법, 장치 및 컴퓨터 판독가능한 저장매체
US10319365B1 (en) Text-to-speech processing with emphasized output audio
US20160379638A1 (en) Input speech quality matching
JP7557085B2 (ja) 対話中のテキスト-音声の瞬時学習
KR20190125154A (ko) 심리 상담 데이터를 기계 학습한 자동 대화 장치 및 그 방법
KR102062524B1 (ko) 음성 인식과 번역 방법 및 그를 위한 단말 장치와 서버
US12100383B1 (en) Voice customization for synthetic speech generation
US11670285B1 (en) Speech processing techniques
US12243511B1 (en) Emphasizing portions of synthesized speech

Legal Events

Date Code Title Description
PA0109 Patent application

Patent event code: PA01091R01D

Comment text: Patent Application

Patent event date: 20190510

PA0201 Request for examination
PA0302 Request for accelerated examination

Patent event date: 20190510

Patent event code: PA03022R01D

Comment text: Request for Accelerated Examination

PE0902 Notice of grounds for rejection

Comment text: Notification of reason for refusal

Patent event date: 20190927

Patent event code: PE09021S01D

E701 Decision to grant or registration of patent right
PE0701 Decision of registration

Patent event code: PE07011S01D

Comment text: Decision to Grant Registration

Patent event date: 20191227

GRNT Written decision to grant
PR0701 Registration of establishment

Comment text: Registration of Establishment

Patent event date: 20191230

Patent event code: PR07011E01D

PR1002 Payment of registration fee

Payment date: 20191230

End annual number: 3

Start annual number: 1

PG1601 Publication of registration
PC1903 Unpaid annual fee

Termination category: Default of registration fee

Termination date: 20231010