[go: up one dir, main page]

KR20200118744A - System of cloud-based conversion speech source to text and method performing the same - Google Patents

System of cloud-based conversion speech source to text and method performing the same Download PDF

Info

Publication number
KR20200118744A
KR20200118744A KR1020190060774A KR20190060774A KR20200118744A KR 20200118744 A KR20200118744 A KR 20200118744A KR 1020190060774 A KR1020190060774 A KR 1020190060774A KR 20190060774 A KR20190060774 A KR 20190060774A KR 20200118744 A KR20200118744 A KR 20200118744A
Authority
KR
South Korea
Prior art keywords
data
text
voice data
keyword
cloud
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Granted
Application number
KR1020190060774A
Other languages
Korean (ko)
Other versions
KR102267579B1 (en
Inventor
신현삼
Original Assignee
퓨렌스 주식회사
신현삼
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by 퓨렌스 주식회사, 신현삼 filed Critical 퓨렌스 주식회사
Publication of KR20200118744A publication Critical patent/KR20200118744A/en
Application granted granted Critical
Publication of KR102267579B1 publication Critical patent/KR102267579B1/en
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Classifications

    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L15/00Speech recognition
    • G10L15/26Speech to text systems
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L15/00Speech recognition
    • G10L15/02Feature extraction for speech recognition; Selection of recognition unit
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L15/00Speech recognition
    • G10L15/06Creation of reference templates; Training of speech recognition systems, e.g. adaptation to the characteristics of the speaker's voice
    • G10L15/063Training
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L15/00Speech recognition
    • G10L15/28Constructional details of speech recognition systems
    • G10L15/30Distributed recognition, e.g. in client-server systems, for mobile phones or network applications

Landscapes

  • Engineering & Computer Science (AREA)
  • Computational Linguistics (AREA)
  • Health & Medical Sciences (AREA)
  • Audiology, Speech & Language Pathology (AREA)
  • Human Computer Interaction (AREA)
  • Physics & Mathematics (AREA)
  • Acoustics & Sound (AREA)
  • Multimedia (AREA)
  • Computer Vision & Pattern Recognition (AREA)
  • Artificial Intelligence (AREA)
  • Telephonic Communication Services (AREA)

Abstract

본 발명은 클라우드 기반의 음성 데이터 텍스트 변환 시스템 및 이의 실행 방법에 관한 것으로서, 더욱 상세하게는 입력받은 음성 데이터를 분석하여 텍스트로 변환하여 표시 가능한 클라우드 기반의 음성 데이터 텍스트 변환 시스템 및 이의 실행 방법을 제공한다.
상기한 바에 따르면, 입력받은 음성 데이터를 분석하여 텍스트로 변환하여 표시 가능한 클라우드 기반의 음성 데이터 텍스트 변환 시스템 및 이의 실행 방법을 제공할 수 있으며, 클라우드 기반으로 동작되어 데이터베이스의 사용 및 음성 데이터 업데이트가 용이한 클라우드 기반의 음성 데이터 텍스트 변환 시스템 및 이의 실행 방법을 제공할 수 있다. 또한, 음성 데이터 및 텍스트 데이터의 대한 변환 오류 신호에 따라 미리 구축된 데이터베이스를 기초로 텍스트 데이터를 수정하여 다시 제공함으로써 데이터의 정확성을 높일 수 있도록 하는 클라우드 기반의 음성 데이터 텍스트 변환 시스템 및 이의 실행 방법을 제공할 수 있다.
The present invention relates to a cloud-based voice data-to-text conversion system and a method of executing the same, and more particularly, to provide a cloud-based voice data-to-text conversion system and execution method thereof that can be displayed by analyzing input voice data and converting it to text. do.
According to the above, it is possible to provide a cloud-based voice data text conversion system and execution method thereof that can be displayed by analyzing the input voice data and converting it into text, and it is operated based on the cloud, so that the use of the database and the voice data update are easy. It is possible to provide a cloud-based voice data text conversion system and an execution method thereof. In addition, a cloud-based voice data-to-text conversion system and execution method thereof are provided to improve the accuracy of data by correcting and reproviding text data based on a database built in advance according to a conversion error signal for voice data and text data. Can provide.

Description

클라우드 기반의 음성 데이터 텍스트 변환 시스템 및 이의 실행 방법{SYSTEM OF CLOUD-BASED CONVERSION SPEECH SOURCE TO TEXT AND METHOD PERFORMING THE SAME}Cloud-based voice data text conversion system and its execution method {SYSTEM OF CLOUD-BASED CONVERSION SPEECH SOURCE TO TEXT AND METHOD PERFORMING THE SAME}

본 발명은 클라우드 기반의 음성 데이터 텍스트 변환 시스템 및 이의 실행 방법에 관한 것으로서, 더욱 상세하게는 입력받은 음성 데이터를 분석하여 텍스트로 변환하여 표시 가능한 클라우드 기반의 음성 데이터 텍스트 변환 시스템 및 이의 실행 방법에 관한 것이다.The present invention relates to a cloud-based voice data-to-text conversion system and a method of executing the same, and more particularly, to a cloud-based voice data-to-text conversion system capable of analyzing input voice data and converting it to text and displaying the same, and a method of executing the same. will be.

일반적인 음성 데이터의 텍스트 변환(STT : Speech To Text) 기술은 녹취된 음성 또는 실시간으로 재생되는 음성 데이터가 입력되면, 상기 입력되는 음성 데이터의 발음, 억양, 길이를 분석하여, 단어와 문장을 생성하는 기술을 말한다.In general, speech to text (STT) technology is used to generate words and sentences by analyzing the pronunciation, intonation, and length of the input voice data when a recorded voice or voice data reproduced in real time is input. Speak of technology.

그러나 음성 데이터의 경우, 말하는 사람의 발음, 억양이 다르며, 말하는 사람의 주변 환경에 따라 음성에 잡음이 끼어 정확한 발음을 인식하고 분석하기까지 많은 어려움이 따른다.However, in the case of voice data, the speaker's pronunciation and intonation are different, and there is a lot of difficulty in recognizing and analyzing the correct pronunciation due to noise in the voice depending on the surrounding environment of the speaker.

이러한 음성 데이터의 인식율을 높이기 위해서는 다양한 발음, 억양에 대한 수많은 샘플 데이터가 저장된 데이터베이스가 필요하며, 잘못 인식된 음성 데이터에 대해 피드백 가능한 교정 시스템이 필요하다.In order to increase the recognition rate of such speech data, a database in which a large number of sample data for various pronunciations and intonations is stored is required, and a correction system capable of feeding back the incorrectly recognized speech data is required.

한편, 이러한 STT는 전화를 이용한 콜센서 또는 설문조사에 적용되어 많은 효과를 볼 수 있지만, 데이터베이스의 초기 구축비용과, 주기적인 음성 데이터의 업데이트에 많은 비용과 기술력이 필요하여, 널리 사용되지 못하고 있는 것이 실정이다.On the other hand, such STT can be applied to a call sensor or survey using a telephone and can have many effects, but it is not widely used due to the need for a large amount of cost and technology for the initial construction cost of the database and periodic update of voice data. It is the actual situation.

따라서, 이러한 문제점을 해결할 수 있는 새로운 방법이 필요하게 되었다.Therefore, there is a need for a new method to solve this problem.

본 발명은 입력받은 음성 데이터를 분석하여 텍스트로 변환하여 표시 가능한 클라우드 기반의 음성 데이터 텍스트 변환 시스템 및 이의 실행 방법을 제공하는 것을 목적으로 한다. An object of the present invention is to provide a cloud-based voice data text conversion system capable of analyzing input voice data, converting it into text, and displaying it, and an execution method thereof.

또한, 본 발명은 클라우드 기반으로 동작되어 데이터베이스의 사용 및 음성 데이터 업데이트가 용이한 클라우드 기반의 음성 데이터 텍스트 변환 시스템 및 이의 실행 방법을 제공하는 것을 목적으로 한다.In addition, an object of the present invention is to provide a cloud-based voice data text conversion system and a method of executing the same, which is operated on a cloud basis and is easy to use a database and update voice data.

또한, 본 발명은 음성 데이터 및 텍스트 데이터의 대한 변환 오류 신호에 따라 미리 구축된 데이터베이스를 기초로 텍스트 데이터를 수정하여 다시 제공함으로써 데이터의 정확성을 높일 수 있도록 하는 클라우드 기반의 음성 데이터 텍스트 변환 시스템 및 이의 실행 방법을 제공하는 것을 목적으로 한다.In addition, the present invention is a cloud-based voice data text conversion system and its object to improve the accuracy of data by correcting text data based on a database built in advance according to a conversion error signal for voice data and text data and providing it again. It aims to provide an implementation method.

본 발명의 바람직한 일실시예에 따르면, 사용자 단말, 고객사 서버 및 클라우드 서버를 포함하는 클라우드 기반의 음성 데이터 텍스트 변환 시스템에 있어서, 음성 데이터를 녹취하여 상기 고객사 서버에 제공하고, 상기 고객사 서버로부터 음성 데이터 및 텍스트 데이터를 수신하고, 변환 오류 발견 시 변환 오류 신호를 상기 고객사 서버에 제공하는 사용자 단말; 상기 사용자 단말 또는 상기 클라우드 서버로부터 음성 데이터를 수신하면, 상기 음성 데이터를 변환하여 텍스트 데이터를 생성한 후 상기 음성 데이터 및 상기 텍스트 데이터를 매칭시켜 저장하고, 상기 사용자 단말로부터 변환 오류 신호를 수신하면, 상기 변환 오류 신호에 해당하는 음성 데이터 및 텍스트 데이터 중 적어도 하나의 데이터를 상기 클라우드 서버에 제공하고, 상기 변환 오류 신호에 대한 응답으로 수정 데이터를 수신하여 저장하는 고객사 서버; 및 사용자에 의한 변환 오류 신호에 따라 상기 고객사 서버로부터 음성 데이터 및 텍스트 데이터 중 적어도 하나의 데이터를 수신하고, 미리 생성된 데이터베이스를 기초로 상기 음성 데이터 및 상기 텍스트 데이터 중 적어도 하나의 데이터를 수정하여 수정 데이터를 생성하고, 상기 수정 데이터를 상기 고객사 서버에 제공하는 클라우드 서버를 포함하는 것을 특징으로 한다.According to a preferred embodiment of the present invention, in a cloud-based voice data text conversion system including a user terminal, a customer server, and a cloud server, voice data is recorded and provided to the customer server, and the voice data from the customer server And a user terminal receiving text data and providing a conversion error signal to the customer server when a conversion error is found. When the voice data is received from the user terminal or the cloud server, the voice data is converted to generate text data, the voice data and the text data are matched and stored, and a conversion error signal is received from the user terminal, A customer server for providing at least one of voice data and text data corresponding to the conversion error signal to the cloud server, and receiving and storing correction data in response to the conversion error signal; And receiving at least one of voice data and text data from the customer server according to a conversion error signal by the user, and correcting by modifying at least one of the voice data and the text data based on a database created in advance. And a cloud server for generating data and providing the modified data to the customer server.

본 발명의 다른 일실시예에 따르면, 상기 고객사 서버는 상기 음성 데이터를 기초로 변환된 텍스트 데이터 상에 사용자가 미리 설정한 키워드가 존재하면, 키워드가 포함된 텍스트 데이터를 디스플레이 모듈을 통해 표시할 수 있는 것을 특징으로 한다.According to another embodiment of the present invention, the customer server may display text data including the keyword through the display module when a keyword preset by the user exists on the text data converted based on the voice data. It is characterized by having.

본 발명의 다른 일실시예에 따르면, 상기 고객사 서버는 상기 음성 데이터를 기초로 변환된 텍스트 데이터 상에 사용자가 미리 설정한 키워드가 존재하면 상기 키워드가 포함된 텍스트 데이터를 하이라이트 처리하고, 상기 음성 데이터 상에 사용자가 미리 설정한 키워드가 존재하면, 키워드가 포함된 음성 데이터를 하이라이트 처리하는 것을 특징으로 한다.According to another embodiment of the present invention, the customer company server highlights text data including the keyword if there is a keyword preset by the user on the text data converted based on the voice data, and the voice data If there is a keyword previously set by the user on the image, voice data including the keyword is highlighted.

본 발명의 다른 일실시예에 따르면, 상기 클라우드 서버는 단어 사전 데이터베이스를 이용하여 각각의 단어를 서로 다른 높낮이, 길이, 억양 및 발음으로 구현하여 음성 키워드를 생성한 후 상기 음성 키워드를 기초로 텍스트 키워드를 생성하고, 상기 음성 키워드 및 상기 텍스트 키워드 각각을 해당 단어를 참조 데이터로서 매칭시켜 저장하여 데이터베이스를 생성하는 것을 특징으로 한다.According to another embodiment of the present invention, the cloud server generates a voice keyword by implementing each word with a different height, length, intonation, and pronunciation using a word dictionary database, and then a text keyword based on the voice keyword. And generating a database by matching each of the voice keyword and the text keyword as reference data and storing the corresponding word.

본 발명의 또 다른 일실시예에 따르면, 상기 클라우드 서버는 상기 데이터베이스를 기초로 고객사 서버로부터 수신된 음성 데이터 및 텍스트 데이터 중 적어도 하나의 데이터 상에 상기 음성 키워드 또는 텍스트 키워드가 존재하는지 여부를 확인한 후 상기 확인 결과에 따라 상기 음성 키워드 또는 상기 텍스트 키워드에 해당하는 참조 데이터를 기초로 상기 음성 데이터 및 텍스트 데이터 중 적어도 하나의 데이터를 수정하여 수정 데이터를 생성하는 것을 특징으로 한다.According to another embodiment of the present invention, the cloud server checks whether the voice keyword or text keyword exists on at least one of voice data and text data received from the customer server based on the database. According to a result of the confirmation, correction data is generated by modifying at least one of the voice data and text data based on the voice keyword or reference data corresponding to the text keyword.

본 발명의 또 다른 일실시예에 따르면, 사용자 단말이 음성 데이터를 녹취하여 고객사 서버 또는 클라우드 서버에 제공하는 단계; 상기 고객사 서버 또는 클라우드 서버가 상기 음성 데이터를 텍스트 데이터로 변환한 후 음성 데이터 및 텍스트 데이터를 저장하는 단계; 상기 사용자 단말이 상기 고객사 서버에 접속하여 음성 데이터 및 텍스트 데이터 중 적어도 하나의 데이터를 이용하는 과정에서 변환 오류 발견 시 변환 오류 신호를 상기 고객사 서버에 제공하는 단계; 상기 고객사 서버가 상기 변환 오류 신호를 수신하면, 상기 변환 오류 신호에 해당하는 음성 데이터 및 텍스트 데이터 중 적어도 하나의 데이터를 상기 클라우드 서버에 제공하는 단계; 및 상기 클라우드 서버가 미리 생성된 데이터베이스를 기초로 상기 음성 데이터 및 상기 텍스트 데이터 중 적어도 하나의 데이터를 수정하여 수정 데이터를 생성한 후 상기 고객사 서버에 제공하는 단계를 포함하는 것을 특징으로 한다.According to another embodiment of the present invention, the user terminal recording voice data and providing it to a customer server or a cloud server; Converting the voice data into text data by the customer server or a cloud server and storing voice data and text data; Providing a conversion error signal to the customer server when a conversion error is found while the user terminal accesses the customer server and uses at least one of voice data and text data; If the customer server receives the conversion error signal, providing at least one of voice data and text data corresponding to the conversion error signal to the cloud server; And generating, by the cloud server, modifying at least one of the voice data and the text data based on the previously generated database, and providing the modified data to the customer server.

본 발명의 또 다른 일실시예에 따르면, 상기 고객사 서버 또는 클라우드 서버가 상기 음성 데이터를 텍스트 데이터로 변환한 후 음성 데이터 및 텍스트 데이터를 저장하는 단계는 상기 고객사 서버가 상기 음성 데이터를 기초로 변환된 텍스트 데이터 상에 사용자가 미리 설정한 키워드가 존재하면, 키워드가 포함된 텍스트 데이터를 디스플레이 모듈을 통해 표시하는 단계를 포함하는 것을 특징으로 한다.According to another embodiment of the present invention, the step of storing the voice data and text data after the customer server or the cloud server converts the voice data into text data, the customer server converts the voice data based on the If there is a keyword preset by the user on the text data, displaying text data including the keyword through a display module.

본 발명의 또 다른 일실시예에 따르면, 상기 고객사 서버 또는 클라우드 서버가 상기 음성 데이터를 텍스트 데이터로 변환한 후 음성 데이터 및 텍스트 데이터를 저장하는 단계는 상기 고객사 서버가 상기 음성 데이터를 기초로 변환된 텍스트 데이터 상에 사용자가 미리 설정한 키워드가 존재하면 상기 키워드가 포함된 텍스트 데이터를 하이라이트 처리하는 단계; 및 상기 고객사 서버가 상기 음성 데이터 상에 사용자가 미리 설정한 키워드가 존재하면, 키워드가 포함된 음성 데이터를 하이라이트 처리하는 단계를 포함하는 것을 특징으로 한다.According to another embodiment of the present invention, the step of storing the voice data and text data after the customer server or the cloud server converts the voice data into text data, the customer server converts the voice data based on the Highlighting text data including the keyword if there is a keyword preset by the user on the text data; And if the customer server has a keyword preset by the user on the voice data, highlighting the voice data including the keyword.

본 발명의 또 다른 일실시예에 따르면, 상기 클라우드 서버가 단어 사전 데이터베이스를 이용하여 각각의 단어를 서로 다른 높낮이, 길이, 억양 및 발음으로 구현하여 음성 키워드를 생성한 후 상기 음성 키워드를 기초로 텍스트 키워드를 생성하는 단계; 및 상기 클라우드 서버가 상기 음성 키워드 및 상기 텍스트 키워드 각각을 해당 단어를 참조 데이터로서 매칭시켜 저장하여 데이터베이스를 생성하는 단계를 포함하는 것을 특징으로 한다.According to another embodiment of the present invention, the cloud server generates a voice keyword by implementing each word in a different height, length, intonation, and pronunciation using a word dictionary database, and then text based on the voice keyword. Generating keywords; And generating, by the cloud server, matching each of the voice keywords and text keywords as reference data and storing the matching words.

본 발명의 또 다른 일실시예에 따르면, 상기 음성 데이터 및 상기 텍스트 데이터 중 적어도 하나의 데이터를 수정하여 수정 데이터를 생성한 후 상기 고객사 서버에 제공하는 단계는 상기 클라우드 서버가 상기 데이터베이스를 기초로 고객사 서버로부터 수신된 음성 데이터 및 텍스트 데이터 중 적어도 하나의 데이터 상에 상기 음성 키워드 또는 텍스트 키워드가 존재하는지 여부를 확인하는 단계; 및 상기 확인 결과에 따라 상기 음성 키워드 또는 상기 텍스트 키워드에 해당하는 참조 데이터를 기초로 상기 음성 데이터 및 텍스트 데이터 중 적어도 하나의 데이터를 수정하여 수정 데이터를 생성하는 단계를 포함하는 것을 특징으로 한다.According to another embodiment of the present invention, the step of modifying at least one of the voice data and the text data to generate the corrected data and then providing the modified data to the customer server is performed by the cloud server based on the database. Checking whether the voice keyword or text keyword exists on at least one of voice data and text data received from a server; And generating correction data by modifying at least one of the voice data and text data based on the voice keyword or reference data corresponding to the text keyword according to the confirmation result.

한편 본 발명은 이하에서 개시되는 실시예들에 한정되는 것이 아니라 서로 다른 다양한 형태로 구현될 수 있으며, 단지 본 실시예들은 본 발명의 개시가 완전하도록 함으로써 본 발명이 속하는 기술분야에서 통상의 지식을 가진 자에게 발명의 범주를 완전하게 알려주기 위해 제공되는 것이며, 본 발명은 청구항의 범주에 의해 정의될 뿐이다. 명세서 전체에 걸쳐 동일 참조 부호는 동일 구성요소를 지칭한다.Meanwhile, the present invention is not limited to the embodiments disclosed below, but may be implemented in a variety of different forms, and only the present embodiments provide a general knowledge in the technical field to which the present invention belongs by making the disclosure of the present invention complete. It is provided to completely inform the scope of the invention to those who have it, and the invention is only defined by the scope of the claims. The same reference numerals refer to the same elements throughout the specification.

본 발명은 입력받은 음성 데이터를 분석하여 텍스트로 변환하여 표시 가능한 클라우드 기반의 음성 데이터 텍스트 변환 시스템 및 이의 실행 방법을 제공할 수 있다.The present invention can provide a cloud-based voice data text conversion system capable of analyzing input voice data, converting it into text, and displaying it, and a method of executing the same.

또한, 클라우드 기반으로 동작되어 데이터베이스의 사용 및 음성 데이터 업데이트가 용이한 클라우드 기반의 음성 데이터 텍스트 변환 시스템 및 이의 실행 방법을 제공할 수 있다.In addition, it is possible to provide a cloud-based voice data text conversion system and a method of executing the same, which is operated based on a cloud, so that use of a database and update of voice data are easy.

또한, 음성 데이터 및 텍스트 데이터의 대한 변환 오류 신호에 따라 미리 구축된 데이터베이스를 기초로 텍스트 데이터를 수정하여 다시 제공함으로써 데이터의 정확성을 높일 수 있도록 하는 클라우드 기반의 음성 데이터 텍스트 변환 시스템 및 이의 실행 방법을 제공할 수 있다.In addition, a cloud-based voice data-to-text conversion system and execution method thereof are provided to improve the accuracy of data by correcting and reproviding text data based on a database built in advance according to a conversion error signal for voice data and text data. Can provide.

도 1은 본 발명의 일 실시예에 따른 클라우드 기반의 음성 데이터 텍스트 변환 시스템을 설명하기 위한 네트워크 구성도.
도 2는 본 발명에 따른 클라우드 기반의 음성 데이터 텍스트 변환 방법의 일 실시예를 설명하기 위한 도면.
도 3은 본 발명에 따른 클라우드 기반의 음성 데이터 텍스트 변환 방법의 다른 일 실시예를 설명하기 위한 도면.
도 4는 본 발명에 따른 클라우드 기반의 음성 데이터 텍스트 변환 방법의 또 다른 일 실시예를 설명하기 위한 도면.
도 5는 본 발명에 따른 클라우드 기반의 음성 데이터 텍스트 변환 방법의 또 다른 일 실시예를 설명하기 위한 도면.
1 is a network configuration diagram illustrating a cloud-based voice data text conversion system according to an embodiment of the present invention.
2 is a view for explaining an embodiment of a cloud-based voice data text conversion method according to the present invention.
3 is a view for explaining another embodiment of a cloud-based voice data text conversion method according to the present invention.
4 is a view for explaining another embodiment of a cloud-based voice data text conversion method according to the present invention.
5 is a view for explaining another embodiment of a cloud-based voice data text conversion method according to the present invention.

이하에서는 첨부된 도면을 참조하여 본 발명의 실시예들을 상세히 설명하기로 한다.Hereinafter, embodiments of the present invention will be described in detail with reference to the accompanying drawings.

도 1은 본 발명의 일 실시예에 따른 클라우드 기반의 음성 데이터 텍스트 변환 시스템을 설명하기 위한 네트워크 구성도이고, 도 2는 본 발명에 따른 클라우드 기반의 음성 데이터 텍스트 변환 방법의 일 실시예를 설명하기 위한 도면이며, 도 3은 본 발명에 따른 클라우드 기반의 음성 데이터 텍스트 변환 방법의 다른 일 실시예를 설명하기 위한 도면이고, 도 4는 본 발명에 따른 클라우드 기반의 음성 데이터 텍스트 변환 방법의 또 다른 일 실시예를 설명하기 위한 도면이며, 도 5는 본 발명에 따른 클라우드 기반의 음성 데이터 텍스트 변환 방법의 또 다른 일 실시예를 설명하기 위한 도면이다.1 is a network configuration diagram illustrating a cloud-based voice data text conversion system according to an embodiment of the present invention, and FIG. 2 is a diagram illustrating an embodiment of a cloud-based voice data text conversion method according to the present invention. 3 is a diagram for explaining another embodiment of a cloud-based voice data text conversion method according to the present invention, and FIG. 4 is another diagram of a cloud-based voice data text conversion method according to the present invention A diagram for explaining an embodiment, and FIG. 5 is a diagram for describing another embodiment of a cloud-based voice data text conversion method according to the present invention.

도 1은 본 발명의 일 실시예에 따른 클라우드 기반의 음성 데이터 텍스트 변환 시스템을 설명하기 위한 네트워크 구성도이다.1 is a network configuration diagram illustrating a cloud-based voice data text conversion system according to an embodiment of the present invention.

도 1을 참조하면, 클라우드 기반의 음성 데이터 텍스트 변환 시스템은 클라우드 서버(100), 고객사 서버(200) 및 사용자 단말(300)을 포함한다.Referring to FIG. 1, a cloud-based voice data text conversion system includes a cloud server 100, a customer company server 200, and a user terminal 300.

클라우드 서버(100)는 사용자 단말(300) 또는 고객사 서버(200)로부터 음성 데이터를 수신한 후 처리한다.The cloud server 100 processes after receiving voice data from the user terminal 300 or the customer server 200.

일 실시예에서, 클라우드 서버(100)는 사용자 단말(300)로부터 음성 데이터를 수신하면 음성 데이터를 저장한 후, 음성 데이터를 고객사 서버(200)에 제공한다.In one embodiment, the cloud server 100 stores the voice data upon receiving the voice data from the user terminal 300 and then provides the voice data to the customer server 200.

다른 일 실시예에서, 클라우드 서버(100)는 고객사 서버(200)로부터 음성 데이터를 수신하면, 음성 데이터를 저장한다. In another embodiment, when the cloud server 100 receives voice data from the customer server 200, the cloud server 100 stores the voice data.

클라우드 서버(100)는 사용자에 의한 음성 오류 신고에 따라 고객사 서버(200)로부터 음성 데이터 및 음성 데이터를 기초로 생성된 텍스트 데이터 중 적어도 하나의 데이터를 수신하고, 미리 생성된 데이터베이스를 기초로 고객사 서버(200)로부터 수신된 음성 데이터 및 텍스트 데이터 중 적어도 하나의 데이터를 수정하여 수정 데이터를 생성하고, 수정 데이터를 고객사 서버(200)에 제공한다.The cloud server 100 receives at least one of voice data and text data generated based on the voice data from the customer server 200 in response to a voice error report by the user, and based on the previously generated database, the customer server Modified data is generated by modifying at least one of the voice data and text data received from the 200, and the modified data is provided to the customer server 200.

이를 위해, 클라우드 서버(100)는 키워드 별 참조 데이터가 저장되어 있는 데이터베이스를 포함하고 있다. 키워드는 음성 또는 텍스트일 수 있으며, 참조 데이터는 텍스트로 구현될 수 있다. To this end, the cloud server 100 includes a database in which reference data for each keyword is stored. Keywords may be voice or text, and reference data may be implemented as text.

예를 들어, 클라우드 서버(100)는 키워드가 음성으로 구현되고 참조 데이터가 텍스트로 구현된 데이터베이스를 포함하는 경우, 음성 키워드는 “시울, 소울, 소울, 시이울, 소오울” 등과 같은 음성으로 구현되고, 참조 데이터는 “서울”과 같은 텍스트로 구현될 수 있다. For example, when the cloud server 100 includes a database in which keywords are implemented as voice and reference data is implemented as text, the voice keywords are implemented as voices such as “Siul, Soul, Soul, Siul, Soul”, etc. And the reference data may be implemented in text such as “Seoul”.

다른 예를 들어, 클라우드 서버(100)가 키워드가 텍스트로 구현되고 참조 데이터가 텍스트로 구현된 데이터베이스를 포함하는 경우, 텍스트 키워드는 “시울, 소울, 시이울, 소오울”과 같은 텍스트로 구현되고, 참조 데이터는 “서울” 등과 같은 텍스트로 구현될 수 있다. For another example, when the cloud server 100 includes a database in which keywords are implemented in text and reference data is implemented in text, the text keywords are implemented in text such as “Siul, Soul, Siul, Soul” , Reference data may be implemented in text such as “Seoul”.

상기와 같이, 클라우드 서버(100)는 단어 사전 데이터베이스를 이용하여 각각의 단어를 서로 다른 높낮이, 길이, 억양 및 발음으로 구현하여 음성 키워드를 생성한 후 상기 음성 키워드를 기초로 텍스트 키워드를 생성한다. 그런 다음, 클라우드 서버(100)는 음성 키워드 및 상기 텍스트 키워드 각각을 해당 단어를 참조 데이터로서 매칭시켜 저장하여 데이터베이스를 생성한다. As described above, the cloud server 100 generates a voice keyword by implementing each word with a different height, length, intonation, and pronunciation using a word dictionary database, and then generates a text keyword based on the voice keyword. Then, the cloud server 100 creates a database by matching each of the voice keywords and the text keywords as reference data and storing them.

즉, 클라우드 서버(100)는 단어가 텍스트인 경우, 텍스트 키워드 및 참조 데이터를 매칭시켜 저장하여 데이터베이스를 생성하고, 단어를 표준 음성으로 변환하여 생성한 음성 키워드 및 참조 데이터를 매칭시켜 저장하여 데이터베이스를 생성한다. That is, when the word is text, the cloud server 100 creates a database by matching and storing text keywords and reference data, and matching and storing the voice keywords and reference data generated by converting the words into standard speech and storing the database. Generate.

이와 같은 과정을 통해 데이터베이스를 생성하는 이유는, 동일한 단어라도 발화하는 사용자마다 서로 다른 높낮이, 길이, 억양 및 발음으로 다른 음성으로 발화될 수 있기 때문이다. The reason for creating the database through such a process is that even the same word can be uttered in different voices with different heights, lengths, intonations, and pronunciations for each user speaking.

이하에서는, 클라우드 서버(100)가 고객사 서버(200)로부터 수신된 음성 데이터 및 텍스트 데이터 중 적어도 하나의 데이터를 이용하여 수정 데이터를 생성하는 과정을 설명하기로 한다.Hereinafter, a process in which the cloud server 100 generates correction data by using at least one of voice data and text data received from the customer server 200 will be described.

클라우드 서버(100)가 미리 생성된 데이터베이스를 기초로 고객사 서버(200)로부터 수신된 음성 데이터 및 텍스트 데이터 중 적어도 하나의 데이터를 수정하여 수정 데이터를 생성하는 과정을 설명하기로 한다.A description will be made of a process in which the cloud server 100 modifies at least one of voice data and text data received from the customer server 200 based on a previously created database to generate the corrected data.

일 실시예에서, 클라우드 서버(100)는 데이터베이스를 기초로 고객사 서버(200)로부터 수신된 텍스트 데이터 상에 텍스트 키워드가 존재하는지 여부를 확인한다. In one embodiment, the cloud server 100 checks whether a text keyword exists on text data received from the customer server 200 based on the database.

만일, 클라우드 서버(100)는 데이터베이스를 기초로 고객사 서버(200)로부터 수신된 텍스트 데이터 상에 텍스트 키워드가 존재하면, 데이터베이스에서 텍스트 키워드에 해당하는 참조 데이터를 추출한 후 참조 데이터를 이용하여 텍스트 데이터를 수정하여 수정 데이터를 생성할 수 있다.If a text keyword exists in the text data received from the customer server 200 based on the database, the cloud server 100 extracts reference data corresponding to the text keyword from the database and then uses the reference data to retrieve the text data. Modification data can be generated by modification.

예를 들어, 클라우드 서버(100)는 고객사 서버(200)로부터 수신된 텍스트 데이터가“시울에서는 무엇을 하나요?”인 경우, 데이터베이스에서 텍스트 키워드“시울”에 해당하는 참조 데이터 “서울”을 기초로 텍스트 데이터를 수정하여 수정 데이터 “서울에서는 무엇을 하나요?”를 생성할 수 있다.For example, when the text data received from the customer's server 200 is “What does Siul do?”, the cloud server 100 is based on the reference data “Seoul” corresponding to the text keyword “Siul” in the database. You can edit text data to create edit data “What do you do in Seoul?”.

다른 일 실시예에서, 클라우드 서버(100)는 데이터베이스를 기초로 고객사 서버(200)로부터 수신된 음성 데이터 상에 음성 키워드가 존재하는지 여부를 확인한다.In another embodiment, the cloud server 100 checks whether or not a voice keyword exists on the voice data received from the customer server 200 based on the database.

만일, 클라우드 서버(100)는 음성 데이터 상에 음성 키워드가 존재하면, 데이터베이스에서 음성 키워드에 해당하는 참조 데이터를 추출한 후 참조 데이터를 기초로 텍스트 데이터를 수정하여 수정 데이터를 생성할 수 있다. If the voice keyword exists in the voice data, the cloud server 100 may extract reference data corresponding to the voice keyword from the database and then modify the text data based on the reference data to generate corrected data.

예를 들어, 클라우드 서버(100)는 고객사 서버(200)로부터 수신된 음성 데이터가 “소오울은 말이지?”인 경우, 데이터베이스에서 음성 키워드 “소오울”에 해당하는 참조 데이터 “서울”을 기초로 텍스트 데이터를 수정하여 수정 데이터 “서울은 말이지?”를 생성할 수 있다.For example, when the voice data received from the customer server 200 is “Soul?”, the cloud server 100 is based on the reference data “Seoul” corresponding to the voice keyword “Soul” in the database. By modifying the text data, the modified data “What about Seoul?” can be created.

상기의 실시예에서, 클라우드 서버(100)는 고객사 서버(200)로부터 수신된 음성 데이터 상에 데이터베이스에 미리 저장된 텍스트 키워드 또는 음성 키워드가 존재하지 않는 경우, 데이터베이스를 참조로 음성 데이터 또는 텍스트 데이터 상에 유사 키워드가 존재하는지 여부를 확인한다. In the above embodiment, when there is no text keyword or voice keyword previously stored in the database on the voice data received from the customer company server 200, the cloud server 100 refers to the database on the voice data or text data. Check whether or not similar keywords exist.

예를 들어, 클라우드 서버(100)는 고객사 서버(200)로부터 수신된 음성 데이터가 “시우우우울은 어떻게 가나요?”이고 데이터베이스에 미리 저장된 음성 키워드가 존재하지 않으면, 데이터베이스에서 음성 키워드 “시울”을 유사 키워드라고 판단한다. For example, in the cloud server 100, if the voice data received from the customer's server 200 is “How do you go?” and there is no pre-stored voice keyword in the database, the voice keyword “Siul” in the database Is determined as a similar keyword.

만일, 클라우드 서버(100)는 데이터베이스를 참조로 음성 데이터 또는 텍스트 데이터 상에 유사 키워드가 존재하면, 유사 키워드를 이용하여 텍스트 데이터를 수정한 후 수정 데이터를 생성한다. If there is a similar keyword in the voice data or text data with reference to the database, the cloud server 100 modifies the text data using the similar keyword and then generates the corrected data.

그런 다음, 클라우드 서버(100)는 음성 데이터 또는 텍스트 데이터 상에서 유사 키워드와 매칭되는 데이터를 이용하여 데이터베이스를 갱신한다.Then, the cloud server 100 updates the database using data matched with similar keywords on voice data or text data.

예를 들어, 클라우드 서버(100)는 고객사 서버(200)로부터 수신된 음성 데이터를 기초로 생성된 텍스트 데이터가 “시우우우울은 어떻게 가나요?”이고 유사 키워드가 “시울”인 경우, 유사 키워드 “시울”과 매칭되는 텍스트 데이터 “시우우우울”을 이용하여 데이터베이스를 갱신한다. For example, in the cloud server 100, when the text data generated based on the voice data received from the customer server 200 is “How does Siwooo go?” and the similar keyword is “Siul”, the similar keyword The database is updated using the text data "Siwool" that matches "Siul".

따라서, 원래의 데이터베이스에 음성 키워드“시울, 소울, 시이울, 소오울”및 참조 데이터“서울”이 저장되어 있는 경우, 음성 키워드 “시우우우울, 시울, 소울, 시이울, 소오울”및 참조 데이터“서울”로 데이터베이스가 갱신된다.Therefore, if the voice keyword “Siul, Soul, Siul, Soul” and the reference data “Seoul” are stored in the original database, the voice keyword “Siwool, Siul, Soul, Siul, Soul” and reference The database is updated with the data “Seoul”.

상기와 같이, 클라우드 서버(100)는 사용자에 의한 음성 오류 신고에 따라 고객사 서버(200)로부터 음성 데이터가 수집될 때마다 데이터베이스를 갱신함으로써 수정 데이터를 생성할 때 좀더 정확한 데이터를 생성할 수 있다. As described above, the cloud server 100 may generate more accurate data when generating corrected data by updating the database each time voice data is collected from the customer server 200 in response to a voice error report by the user.

고객사 서버(200)는 사용자 단말(300) 또는 클라우드 서버(100)로부터 음성 데이터를 수신하면, 음성 데이터를 텍스트 데이터로 변환한 후 음성 데이터 및 텍스트 데이터를 저장한다. 이때, 텍스트 데이터는 음성 데이터를 기초로 생성된 대화 내용, 음성 데이터의 재생 시간 등을 포함한다.When the customer server 200 receives voice data from the user terminal 300 or the cloud server 100, it converts the voice data into text data and stores the voice data and text data. In this case, the text data includes conversation contents generated based on the voice data, a reproduction time of the voice data, and the like.

또한, 고객사 서버(200)는 사용자의 요청에 따라 음성 데이터 및 텍스트 데이터 중 적어도 하나의 데이터를 사용자 단말(300)에 제공한다. 이때, 고객사 서버(200)는 음성 데이터 및 텍스트 데이터 중 적어도 하나의 데이터를 표시할 때 옵션 기능을 추가시켜 표시한다. In addition, the customer server 200 provides at least one of voice data and text data to the user terminal 300 according to the user's request. In this case, when displaying at least one of voice data and text data, the customer server 200 adds and displays an optional function.

일 실시예에서, 고객사 서버(200)는 음성 데이터를 기초로 변환된 텍스트 데이터 상에 사용자가 미리 설정한 키워드가 존재하면, 키워드가 포함된 텍스트 데이터를 디스플레이 모듈을 통해 표시할 수 있다.In an embodiment, the customer server 200 may display text data including the keyword through the display module when a keyword preset by the user exists on text data converted based on voice data.

다른 일 실시예에서, 고객사 서버(200)는 음성 데이터를 기초로 변환된 텍스트 데이터 상에 사용자가 미리 설정한 키워드가 존재하면, 상기 키워드가 포함된 텍스트 데이터를 하이라이트 처리할 수 있다. 여기서, 하이라이트 처리는 볼드, 밑줄, 형광펜 효과 등의 시각적으로 부각시키는 효과 일 수 있다.In another embodiment, the customer server 200 may highlight text data including the keyword if there is a keyword preset by the user on the text data converted based on the voice data. Here, the highlight treatment may be an effect of visually emphasizing a bold effect, an underline, or a highlighter effect.

또 다른 일 실시예에서, 고객사 서버(200)는 음성 데이터 상에 사용자가 미리 설정한 키워드가 존재하면, 키워드가 포함된 음성 데이터를 하이라이트 처리할 수 있다. 여기에서, 하이라이트 처리는 비프음, 노이즈, 음성 변조 등의 청각적으로 부각시키는 효과일 수 있다. 이는 녹취된 통화 내용 중 이름이나 전화번호, 주민등록번호 등의 개인정보가 포함되는 경우, 해당 텍스트를 변조하는 역할을 한다.In another embodiment, if there is a keyword preset by the user in the voice data, the customer server 200 may highlight voice data including the keyword. Here, the highlight processing may be an effect of audibly emphasizing a beep sound, noise, and voice modulation. This plays a role of falsifying the text if personal information such as a name, phone number, or social security number is included in the recorded call contents.

고객사 서버(200)는 사용자 단말(300)로부터 변환 오류 신호를 수신하면, 미리 저장된 데이터 중 변환 오류 신호에 해당하는 음성 데이터 및 텍스트 데이터 중 적어도 하나의 데이터를 클라우드 서버(100)에 제공한다. Upon receiving the conversion error signal from the user terminal 300, the customer server 200 provides at least one of voice data and text data corresponding to the conversion error signal among previously stored data to the cloud server 100.

이와 같은 이유는, 사용자에 의한 음성 오류 신고에 따라 음성 오류에 해당하는 음성 데이터를 클라우드 서버(100)에 제공함으로써, 클라우드 서버(100)로 하여금 텍스트 데이터를 수정하여 새로운 음성 데이터를 생성할 수 있도록 하기 위해서이다.The reason for this is that by providing voice data corresponding to the voice error to the cloud server 100 in response to a voice error report by the user, the cloud server 100 can modify the text data to generate new voice data. To do it.

사용자 단말(300)은 음성 데이터를 녹취하여 상기 고객사 서버에 제공한다.The user terminal 300 records voice data and provides it to the customer server.

사용자 단말(300)은 고객사 서버(200)에 접속하여 텍스트 키워드를 이용하여 음성 데이터를 검색한 후 고객사 서버(200)로부터 텍스트 키워드에 해당하는 음성 데이터를 수신할 수 있다.The user terminal 300 may access the customer server 200 and search for voice data using text keywords, and then receive voice data corresponding to the text keyword from the customer server 200.

이때, 사용자 단말(300)은 고객사 서버(200)로부터 텍스트 키워드에 해당하는 음성 데이터 및 텍스트 데이터를 수신하고, 변환 오류 확인 시 변환 오류 신호를 상기 고객사 서버(200)에 제공한다.At this time, the user terminal 300 receives voice data and text data corresponding to text keywords from the customer server 200 and provides a conversion error signal to the customer server 200 when a conversion error is checked.

예를 들어, 녹취된 음성 신호는 “클라우드 기반의 음성 데이터를 텍스트로 변환하는 기술입니다.”이고, 음성 데이터 매치에 의해 변환된 텍스트가 “큰나무 등기 반의 음성 데이터를 텍스쳐로 변경하는 기술입니다.”이면, 사용자는 신고 버튼을 눌러, 변환 오류 신호를 상기 고객사 서버(200)에 제공한다.For example, the recorded voice signal is “a technology that converts cloud-based voice data into text”, and the text converted by the voice data match is “a technology that converts voice data on the base of a large tree into a texture. If ”, the user presses the report button and provides a conversion error signal to the customer server 200.

도 2는 본 발명에 따른 클라우드 기반의 음성 데이터 텍스트 변환 방법의 일 실시예를 설명하기 위한 흐름도이다. 2 is a flowchart illustrating an embodiment of a cloud-based voice data text conversion method according to the present invention.

도 2를 참조하면, 사용자 단말(300)은 음성 데이터를 녹취하여 고객사 서버(200)에 제공한다(단계 S210). 고객사 서버(200)는 음성 데이터를 텍스트 데이터로 변환한 후 음성 데이터 및 텍스트 데이터를 저장한다(단계 S220). 고객사 서버(200)는 음성 데이터를 클라우드 서버(100)에 제공한다(단계 S230).Referring to FIG. 2, the user terminal 300 records voice data and provides it to the customer server 200 (step S210). The customer server 200 converts the voice data into text data and then stores the voice data and text data (step S220). The customer server 200 provides voice data to the cloud server 100 (step S230).

사용자 단말(300)은 고객사 서버(200)에 접속하여 텍스트 키워드를 이용하여 음성 데이터를 검색한 후(단계 S235) 고객사 서버(200)로부터 텍스트 키워드에 해당하는 음성 데이터 및 텍스트 데이터를 수신한다(단계 S240).The user terminal 300 accesses the customer server 200 and searches for voice data using a text keyword (step S235), and then receives voice data and text data corresponding to the text keyword from the customer company server 200 (step S235). S240).

사용자 단말(300)은 변환 오류 발견 시 변환 오류 신호를 상기 고객사 서버(200)에 제공한다(단계 S250). 고객사 서버(200)는 변환 오류 신호에 해당하는 음성 데이터 및 텍스트 데이터 중 적어도 하나의 데이터를 상기 클라우드 서버(100)에 제공한다(단계 S260).When a conversion error is found, the user terminal 300 provides a conversion error signal to the customer server 200 (step S250). The customer server 200 provides at least one of voice data and text data corresponding to the conversion error signal to the cloud server 100 (step S260).

클라우드 서버(100)는 미리 생성된 데이터베이스를 기초로 상기 음성 데이터 및 상기 텍스트 데이터 중 적어도 하나의 데이터를 수정하여 수정 데이터를 생성한다(단계 S270). 클라우드 서버(100)는 수정 데이터를 고객사 서버에 제공한다(단계 S280).The cloud server 100 generates correction data by modifying at least one of the voice data and the text data based on a previously generated database (step S270). The cloud server 100 provides the modified data to the customer server (step S280).

도 3은 본 발명에 따른 클라우드 기반의 음성 데이터 텍스트 변환 방법의 다른 일 실시예를 설명하기 위한 흐름도이다. 3 is a flowchart illustrating another embodiment of a cloud-based voice data text conversion method according to the present invention.

도 3을 참조하면, 클라우드 서버(100)는 단어 사전 데이터베이스를 이용하여 각각의 단어를 서로 다른 높낮이, 길이, 억양 및 발음으로 구현하여 음성 키워드를 생성한다(단계 S310). 클라우드 서버(100)는 음성 키워드를 기초로 텍스트 키워드를 생성한다(단계 S320). Referring to FIG. 3, the cloud server 100 generates a voice keyword by implementing each word with a different height, length, intonation, and pronunciation using a word dictionary database (step S310). The cloud server 100 generates a text keyword based on the voice keyword (step S320).

클라우드 서버(100)는 텍스트 키워드 및 해당 단어를 참조 데이터로서 매칭시켜 저장하여 데이터베이스를 생성한다(단계 S330). 클라우드 서버(100)는 단어를 표준 음성으로 변환하여 생성한 음성 키워드 및 해당 단어를 참조 데이터로서 매칭시켜 저장하여 데이터베이스를 생성한다.(단계 S340).The cloud server 100 creates a database by matching and storing the text keyword and the corresponding word as reference data (step S330). The cloud server 100 generates a database by matching and storing the voice keyword generated by converting the word into standard voice and the corresponding word as reference data (step S340).

이와 같은 과정을 통해 데이터베이스를 생성하는 이유는, 동일한 단어라도 발화하는 사용자마다 서로 다른 높낮이, 길이, 억양 및 발음으로 다른 음성으로 발화될 수 있기 때문이다. The reason for creating the database through such a process is that even the same word can be uttered in different voices with different heights, lengths, intonations, and pronunciations for each user speaking.

도 4는 본 발명에 따른 클라우드 기반의 음성 데이터 텍스트 변환 방법의 또 다른 일 실시예를 설명하기 위한 흐름도이다. 4 is a flowchart illustrating another embodiment of a cloud-based voice data text conversion method according to the present invention.

도 4를 참조하면, 클라우드 서버(100)는 데이터베이스를 기초로 고객사 서버(200)로부터 수신된 텍스트 데이터 상에 텍스트 키워드가 존재하는지 여부를 확인한다(단계 S410).Referring to FIG. 4, the cloud server 100 checks whether or not a text keyword exists on text data received from the customer server 200 based on the database (step S410).

클라우드 서버(100)는 데이터베이스를 기초로 고객사 서버(200)로부터 수신된 텍스트 데이터 상에 텍스트 키워드가 존재하면(단계 S420), 데이터베이스에서 텍스트 키워드에 해당하는 참조 데이터를 추출한다(단계 S430).The cloud server 100 extracts reference data corresponding to the text keyword from the database if there is a text keyword in the text data received from the customer server 200 based on the database (step S420).

클라우드 서버(100)는 참조 데이터를 이용하여 텍스트 데이터를 수정하여 수정 데이터를 생성할 수 있다(단계 S440).The cloud server 100 may generate corrected data by modifying text data using reference data (step S440).

예를 들어, 클라우드 서버(100)는 고객사 서버(200)로부터 수신된 텍스트 데이터가“시울에서는 무엇을 하나요?”인 경우, 데이터베이스에서 텍스트 키워드“시울”에 해당하는 참조 데이터 “서울”을 기초로 텍스트 데이터를 수정하여 수정 데이터 “서울에서는 무엇을 하나요?”를 생성할 수 있다.For example, when the text data received from the customer's server 200 is “What does Siul do?”, the cloud server 100 is based on the reference data “Seoul” corresponding to the text keyword “Siul” in the database. You can edit text data to create edit data “What do you do in Seoul?”.

도 5는 본 발명에 따른 클라우드 기반의 음성 데이터 텍스트 변환 방법의 또 다른 일 실시예를 설명하기 위한 흐름도이다. 5 is a flowchart illustrating another embodiment of a cloud-based voice data text conversion method according to the present invention.

도 5를 참조하면, 클라우드 서버(100)는 데이터베이스를 기초로 고객사 서버(200)로부터 수신된 음성 데이터 상에 음성 키워드가 존재하는지 여부를 확인한다(단계 S510).Referring to FIG. 5, the cloud server 100 checks whether or not a voice keyword exists in voice data received from the customer server 200 based on a database (step S510).

클라우드 서버(100)는 데이터베이스를 기초로 고객사 서버(200)로부터 수신된 음성 데이터 상에 음성 키워드가 존재하면(단계 S520), 데이터베이스에서 음성 키워드에 해당하는 참조 데이터를 추출한다(단계 S530).If the voice keyword exists in the voice data received from the customer server 200 based on the database (step S520), the cloud server 100 extracts reference data corresponding to the voice keyword from the database (step S530).

클라우드 서버(100)는 참조 데이터를 이용하여 텍스트 데이터를 수정하여 수정 데이터를 생성할 수 있다(단계 S540).The cloud server 100 may generate corrected data by modifying text data using the reference data (step S540).

예를 들어, 클라우드 서버(100)는 고객사 서버(200)로부터 수신된 음성 데이터가 “시우우우울은 어떻게 가나요?”이고 데이터베이스에 미리 저장된 음성 키워드가 존재하지 않으면, 데이터베이스에서 음성 키워드 “시울”을 유사 키워드라고 판단한다. For example, in the cloud server 100, if the voice data received from the customer's server 200 is “How do you go?” and there is no pre-stored voice keyword in the database, the voice keyword “Siul” in the database Is determined as a similar keyword.

이상과 같이 본 발명은 비록 한정된 실시예와 도면에 의해 설명되었으나, 본 발명은 상기의 실시예에 한정되는 것은 아니며, 이는 본 발명이 속하는 분야에서 통상의 지식을 가진 자라면 이러한 기재로부터 다양한 수정 및 변형이 가능하다. 따라서, 본 발명 사상은 아래에 기재된 특허청구범위에 의해서만 파악되어야 하고, 이의 균등 또는 등가적 변형 모두는 본 발명 사상의 범주에 속한다고 할 것이다.As described above, although the present invention has been described by the limited embodiments and drawings, the present invention is not limited to the above embodiments, which is various modifications and variations from these descriptions to those of ordinary skill in the field to which the present invention belongs. Transformation is possible. Accordingly, the idea of the present invention should be grasped only by the scope of the claims set forth below, and all equivalent or equivalent modifications thereof will be said to belong to the scope of the idea of the present invention.

이상과 같이 본 발명은 비록 한정된 실시예와 도면에 의해 설명되었으나, 본 발명은 상기의 실시예에 한정되는 것은 아니며, 이는 본 발명이 속하는 분야에서 통상의 지식을 가진 자라면 이러한 기재로부터 다양한 수정 및 변형이 가능하다. 따라서, 본 발명 사상은 아래에 기재된 특허청구범위에 의해서만 파악되어야 하고, 이의 균등 또는 등가적 변형 모두는 본 발명 사상의 범주에 속한다고 할 것이다.As described above, although the present invention has been described by the limited embodiments and drawings, the present invention is not limited to the above embodiments, which is various modifications and variations from these descriptions to those of ordinary skill in the field to which the present invention belongs. Transformation is possible. Accordingly, the idea of the present invention should be grasped only by the scope of the claims set forth below, and all equivalent or equivalent modifications thereof will be said to belong to the scope of the idea of the present invention.

한편 본 명세서에 개시된 기술에 관한 설명은 단지 구조적 내지 기능적 설명을 위한 실시예에 불과하므로, 개시된 기술의 권리범위는 본문에 설명된 실시예에 의하여 제한되는 것으로 해석되어서는 아니 된다. 즉, 실시예는 다양한 변경이 가능하고 여러 가지 형태를 가질 수 있으므로 개시된 기술의 권리범위는 기술적 사상을 실현할 수 있는 균등물들을 포함하는 것으로 이해되어야 한다. 또한, 개시된 기술에서 제시된 목적 또는 효과는 특정 실시예가 이를 전부 포함하여야 한다거나 그러한 효과만을 포함하여야 한다는 의미는 아니므로, 개시된 기술의 권리범위는 이에 의하여 제한되는 것으로 이해되어서는 아니 될 것이다.Meanwhile, since the description of the technology disclosed in this specification is merely an embodiment for structural or functional description, the scope of the rights of the disclosed technology should not be construed as being limited by the embodiments described in the text. That is, since the embodiments can be variously changed and have various forms, the scope of the rights of the disclosed technology should be understood to include equivalents capable of realizing the technical idea. In addition, since the object or effect presented in the disclosed technology does not mean that a specific embodiment should include all or only such effects, it should not be understood that the scope of the rights of the disclosed technology is limited thereby.

또한 본 발명에서 서술되는 용어의 의미는 다음과 같이 이해되어야 할 것이다. “제1”, “제2” 등의 용어는 하나의 구성요소를 다른 구성요소로부터 구별하기 위한 것으로, 이들 용어들에 의해 권리범위가 한정되어서는 아니 된다. 예를 들어, 제1 구성요소는 제2 구성요소로 명명될 수 있고, 유사하게 제2 구성요소로 제1 구성요소로 명명될 수 있다.In addition, the meaning of the terms described in the present invention should be understood as follows. Terms such as “first” and “second” are used to distinguish one element from other elements, and the scope of rights is not limited by these terms. For example, a first component may be referred to as a second component, and similarly, a second component may be referred to as a first component.

나아가 어떤 구성요소가 다른 구성요소에 “연결되어”있다고 언급된 때에는, 그 다른 구성요소에 직접적으로 연결될 수도 있지만, 중간에 다른 구성요소가 존재할 수도 있다고 이해되어야 할 것이다. 반면에, 어떤 구성요소가 다른 구성요소에 “직접 연결되어”있다고 언급된 때에는 중간에 다른 구성요소가 존재하지 않는 것으로 이해되어야 할 것이다. 한편, 구성요소들 간의 관계를 설명하는 다른 표현들, 즉 “~사이에”와 “~사이에” 또는 “~에 이웃하는”과 “~에 직접 이웃하는” 등도 마찬가지로 해석되어야 한다.Furthermore, when a component is referred to as being “connected” to another component, it should be understood that although it may be directly connected to the other component, another component may exist in the middle. On the other hand, when it is mentioned that a component is “directly connected” to another component, it should be understood that there is no other component in the middle. On the other hand, other expressions that describe the relationship between components, such as “between” and “between” or “neighbor to” and “directly neighbor to” should be interpreted as well.

단수의 표현은 문맥상 명백하게 다르게 뜻하지 않는 한 복수의 표현을 포함하는 것으로 이해되어야 하고, “포함하다”또는 “가지다” 등의 용어는 설시된 특징, 숫자, 단계, 동작, 구성요소, 부분품 또는 이들을 조합한 것이 존재함을 지정하려는 것이며, 하나 또는 그 이상의 다른 특징이나 숫자, 단계, 동작, 구성요소, 부분품 또는 이들을 조합한 것들의 존재 또는 부가 가능성을 미리 배제하지 않는 것으로 이해되어야 한다.Singular expressions are to be understood as including plural expressions unless the context clearly indicates otherwise, and terms such as “comprises” or “have” refer to specified features, numbers, steps, actions, components, parts, or It is to be understood that it is intended to designate that a combination exists and does not preclude the presence or addition of one or more other features or numbers, steps, actions, components, parts, or combinations thereof.

100: 클라우드 서버 200: 고객사 서버
300: 사용자 단말
100: cloud server 200: customer server
300: user terminal

Claims (7)

사용자 단말(300), 고객사 서버(200) 및 클라우드 서버(100)를 포함하는 클라우드 기반의 음성 데이터 텍스트 변환 시스템에 있어서,
음성 데이터(10)를 녹취하여 상기 고객사 서버(200)에 제공하고, 상기 고객사 서버(200)로부터 음성 데이터(10) 및 텍스트 데이터(20)를 수신하고, 변환 오류 발견 시 변환 오류 신호를 상기 고객사 서버(200)에 제공하는 사용자 단말(300);
상기 사용자 단말(300) 또는 상기 클라우드 서버(100)로부터 음성 데이터(10)를 수신하면, 상기 음성 데이터(10)를 변환하여 텍스트 데이터(20)를 생성한 후 상기 음성 데이터(10) 및 상기 텍스트 데이터(20)를 매칭시켜 저장하고, 상기 사용자 단말로부터 변환 오류 신호(30)를 수신하면, 상기 변환 오류 신호(30)에 해당하는 음성 데이터(10) 및 텍스트 데이터(20) 중 적어도 하나의 데이터를 상기 클라우드 서버(100)에 제공하고, 상기 변환 오류 신호(30)에 대한 응답으로 수정 데이터(40)를 수신하여 저장하는 고객사 서버(200); 및
사용자에 의한 변환 오류 신호(30)에 따라 상기 고객사 서버(200)로부터 음성 데이터(10) 및 텍스트 데이터(20) 중 적어도 하나의 데이터를 수신하고, 미리 생성된 데이터베이스(50)를 기초로 상기 음성 데이터(10) 및 상기 텍스트 데이터(20) 중 적어도 하나의 데이터를 수정하여 수정 데이터(40)를 생성하고, 상기 수정 데이터(40)를 상기 고객사 서버(200)에 제공하는 클라우드 서버(100)를 포함하는 것을 특징으로 하는 클라우드 기반의 음성 데이터 텍스트 변환 시스템.
In the cloud-based voice data text conversion system including the user terminal 300, the customer server 200 and the cloud server 100,
The voice data 10 is recorded and provided to the customer server 200, the voice data 10 and text data 20 are received from the customer server 200, and a conversion error signal is transmitted to the customer when a conversion error is found. A user terminal 300 provided to the server 200;
When the voice data 10 is received from the user terminal 300 or the cloud server 100, the voice data 10 is converted to generate text data 20, and the voice data 10 and the text When the data 20 is matched and stored, and when a conversion error signal 30 is received from the user terminal, at least one of voice data 10 and text data 20 corresponding to the conversion error signal 30 A customer server 200 that provides the cloud server 100 and receives and stores correction data 40 in response to the conversion error signal 30; And
Receives at least one of voice data 10 and text data 20 from the customer server 200 according to the conversion error signal 30 by the user, and based on the previously generated database 50, the voice A cloud server 100 that modifies at least one of the data 10 and the text data 20 to generate modified data 40 and provides the modified data 40 to the customer server 200 Cloud-based voice data text conversion system comprising a.
제 1 항에 있어서,
상기 고객사 서버(200)는 상기 음성 데이터(10)를 기초로 변환된 텍스트 데이터(20) 상에 사용자가 미리 설정한 키워드(21)가 존재하면, 키워드가 포함된 텍스트 데이터(20)를 디스플레이 모듈(400)을 통해 표시할 수 있는 것을 특징으로 하는 클라우드 기반의 음성 데이터 텍스트 변환 시스템.
The method of claim 1,
The customer server 200 displays the text data 20 including the keyword if there is a keyword 21 preset by the user on the text data 20 converted based on the voice data 10 Cloud-based voice data text conversion system, characterized in that it can be displayed through (400).
제 1 항에 있어서,
상기 고객사 서버(200)는 상기 음성 데이터(10)를 기초로 변환된 텍스트 데이터(20) 상에 사용자가 미리 설정한 키워드(21)가 존재하면 상기 키워드가 포함된 텍스트 데이터(20)를 하이라이트 처리하고,
상기 음성 데이터(10) 상에 사용자가 미리 설정한 키워드(21)가 존재하면, 키워드(21)가 포함된 음성 데이터를 하이라이트 처리하는 것을 특징으로 하는 클라우드 기반의 음성 데이터 텍스트 변환 시스템.
The method of claim 1,
The customer server 200 highlights the text data 20 including the keyword if there is a keyword 21 preset by the user on the text data 20 converted based on the voice data 10 and,
A cloud-based voice data text conversion system, characterized in that, if a keyword (21) previously set by a user exists on the voice data (10), voice data including the keyword (21) is highlighted.
제 1 항에 있어서,
상기 클라우드 서버(100)는 단어 사전 데이터베이스를 이용하여 각각의 단어를 서로 다른 높낮이(11), 길이(12), 억양(13) 및 발음(14)으로 구현하여 음성 키워드(10a)를 생성한 후 상기 음성 키워드(10a)를 기초로 텍스트 키워드(20a)를 생성하고, 상기 음성 키워드(10a) 및 상기 텍스트 키워드(20a) 각각을 해당 단어를 참조 데이터로서 매칭시켜 저장하여 데이터베이스(50)를 생성하는 것을 특징으로 하는 클라우드 기반의 음성 데이터 텍스트 변환 시스템.

The method of claim 1,
The cloud server 100 generates a voice keyword 10a by implementing each word with a different height (11), length (12), intonation (13), and pronunciation (14) using a word dictionary database. Generating a text keyword 20a based on the voice keyword 10a, matching each of the voice keyword 10a and the text keyword 20a as reference data, and storing the corresponding word to generate the database 50 Cloud-based voice data text conversion system, characterized in that.

사용자 단말(300)이 음성 데이터(10)를 녹취하여 고객사 서버(200) 또는 클라우드 서버(100)에 제공하는 단계;
상기 고객사 서버(200) 또는 클라우드 서버(100)가 상기 음성 데이터(10)를 텍스트 데이터(20)로 변환한 후 음성 데이터 및 텍스트 데이터를 저장하는 단계;
상기 사용자 단말(300)이 상기 고객사 서버(200)에 접속하여 음성 데이터(10) 및 텍스트 데이터(20) 중 적어도 하나의 데이터를 이용하는 과정에서 변환 오류 발견 시 변환 오류 신호(30)를 상기 고객사 서버(200)에 제공하는 단계;
상기 고객사 서버(200)가 상기 변환 오류 신호(30)를 수신하면, 상기 변환 오류 신호(30)에 해당하는 음성 데이터(10) 및 텍스트 데이터(20) 중 적어도 하나의 데이터를 상기 클라우드 서버(100)에 제공하는 단계; 및
상기 클라우드 서버(100)가 미리 생성된 데이터베이스(50)를 기초로 상기 음성 데이터(10) 및 상기 텍스트 데이터(20) 중 적어도 하나의 데이터를 수정하여 수정 데이터(40)를 생성한 후 상기 고객사 서버(200)에 제공하는 단계를 포함하는 것을 특징으로 하는 클라우드 기반의 음성 데이터 텍스트 변환 방법.
The user terminal 300 recording the voice data 10 and providing it to the customer server 200 or the cloud server 100;
Converting the voice data 10 into text data 20 by the customer server 200 or the cloud server 100 and storing voice data and text data;
When the user terminal 300 connects to the customer server 200 and uses at least one of the voice data 10 and the text data 20, a conversion error signal 30 is transmitted to the customer server. Providing to 200;
When the customer server 200 receives the conversion error signal 30, at least one of voice data 10 and text data 20 corresponding to the conversion error signal 30 is transferred to the cloud server 100 ) Providing to; And
The cloud server 100 modifies at least one of the voice data 10 and the text data 20 based on the previously created database 50 to generate the modified data 40, and then the customer server Cloud-based voice data text conversion method comprising the step of providing to (200).
제 5 항에 있어서,
상기 고객사 서버(200) 또는 클라우드 서버(100)가 상기 음성 데이터(10)를 텍스트 데이터(20)로 변환한 후 음성 데이터(10) 및 텍스트 데이터(20)를 저장하는 단계는
상기 고객사 서버(200)가 상기 음성 데이터를 기초로 변환된 텍스트 데이터 상에 사용자가 미리 설정한 키워드(21)가 존재하면, 키워드(21)가 포함된 텍스트 데이터(20)를 디스플레이 모듈(400)을 통해 표시하는 단계를 포함하는 것을 특징으로 하는 클라우드 기반의 음성 데이터 텍스트 변환 방법.
The method of claim 5,
The step of storing the voice data 10 and the text data 20 after the customer server 200 or the cloud server 100 converts the voice data 10 to text data 20
When the customer server 200 has a keyword 21 preset by the user on the text data converted based on the voice data, the display module 400 displays the text data 20 including the keyword 21 Cloud-based voice data text conversion method comprising the step of displaying through.
제 5 항에 있어서,
상기 고객사 서버(200) 또는 클라우드 서버(100)가 상기 음성 데이터(10)를 텍스트 데이터(20)로 변환한 후 음성 데이터(10) 및 텍스트 데이터(20)를 저장하는 단계는
상기 고객사 서버(200)가 상기 음성 데이터(10)를 기초로 변환된 텍스트 데이터(20) 상에 사용자가 미리 설정한 키워드(21)가 존재하면 상기 키워드(21)가 포함된 텍스트 데이터(20)를 하이라이트 처리하는 단계; 및
상기 고객사 서버(200)가 상기 음성 데이터(10) 상에 사용자가 미리 설정한 키워드(21)가 존재하면, 키워드(21)가 포함된 음성 데이터(10)를 하이라이트 처리하는 단계를 포함하는 것을 특징으로 하는 클라우드 기반의 음성 데이터 텍스트 변환 방법.
The method of claim 5,
The step of storing the voice data 10 and the text data 20 after the customer server 200 or the cloud server 100 converts the voice data 10 to text data 20
Text data 20 including the keyword 21 when a keyword 21 preset by the user exists on the text data 20 converted by the customer company server 200 based on the voice data 10 Highlighting; And
And the step of highlighting, by the customer server 200, the voice data 10 including the keyword 21, if there is a keyword 21 preset by the user on the voice data 10 Cloud-based voice data text conversion method.
KR1020190060774A 2019-04-08 2019-05-23 System of cloud-based conversion speech source to text and method performing the same Active KR102267579B1 (en)

Applications Claiming Priority (2)

Application Number Priority Date Filing Date Title
KR1020190041020 2019-04-08
KR20190041020 2019-04-08

Publications (2)

Publication Number Publication Date
KR20200118744A true KR20200118744A (en) 2020-10-16
KR102267579B1 KR102267579B1 (en) 2021-06-22

Family

ID=73035162

Family Applications (1)

Application Number Title Priority Date Filing Date
KR1020190060774A Active KR102267579B1 (en) 2019-04-08 2019-05-23 System of cloud-based conversion speech source to text and method performing the same

Country Status (1)

Country Link
KR (1) KR102267579B1 (en)

Citations (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
KR20060010260A (en) * 2004-07-27 2006-02-02 삼성전자주식회사 Error Correction Method of Speech Recognition System and Speech Recognition System
KR20140079988A (en) * 2012-12-20 2014-06-30 주식회사 팬택 Mobile device and method for voice recognition processing using the same

Patent Citations (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
KR20060010260A (en) * 2004-07-27 2006-02-02 삼성전자주식회사 Error Correction Method of Speech Recognition System and Speech Recognition System
KR20140079988A (en) * 2012-12-20 2014-06-30 주식회사 팬택 Mobile device and method for voice recognition processing using the same

Also Published As

Publication number Publication date
KR102267579B1 (en) 2021-06-22

Similar Documents

Publication Publication Date Title
KR101211796B1 (en) Apparatus for foreign language learning and method for providing foreign language learning service
US10672391B2 (en) Improving automatic speech recognition of multilingual named entities
US20100217591A1 (en) Vowel recognition system and method in speech to text applictions
US10325599B1 (en) Message response routing
US11798559B2 (en) Voice-controlled communication requests and responses
JP2004355629A (en) Semantic object synchronous understanding for highly interactive interface
JP2008225068A (en) Minutes creation method, its device and its program
CN110910903B (en) Speech emotion recognition method, device, equipment and computer readable storage medium
US11615787B2 (en) Dialogue system and method of controlling the same
US8478593B2 (en) Enhanced accuracy for speech recognition grammars
US20130253932A1 (en) Conversation supporting device, conversation supporting method and conversation supporting program
JP2014106523A (en) Voice input corresponding device and voice input corresponding program
CN110827803A (en) Method, device and equipment for constructing dialect pronunciation dictionary and readable storage medium
Gibbon et al. Spoken language system and corpus design
KR102610360B1 (en) Method for providing labeling for spoken voices, and apparatus implementing the same method
CN109616116B (en) Communication system and communication method thereof
KR102267579B1 (en) System of cloud-based conversion speech source to text and method performing the same
JP4042435B2 (en) Voice automatic question answering system
WO2022249362A1 (en) Speech synthesis to convert text into synthesized speech
KR20230018260A (en) Method and application of meaningful keyword extraction from speech conversion text data
JP2003162524A (en) Language processor
JP2020184183A (en) Information processing device, information processing system, and method for controlling information processing device
JP6538399B2 (en) Voice processing apparatus, voice processing method and program
JP6790791B2 (en) Voice dialogue device and dialogue method
JP4445371B2 (en) Recognition vocabulary registration apparatus, speech recognition apparatus and method

Legal Events

Date Code Title Description
PA0109 Patent application

Patent event code: PA01091R01D

Comment text: Patent Application

Patent event date: 20190523

PA0201 Request for examination
PE0902 Notice of grounds for rejection

Comment text: Notification of reason for refusal

Patent event date: 20200630

Patent event code: PE09021S01D

AMND Amendment
PG1501 Laying open of application
E601 Decision to refuse application
PE0601 Decision on rejection of patent

Patent event date: 20210129

Comment text: Decision to Refuse Application

Patent event code: PE06012S01D

Patent event date: 20200630

Comment text: Notification of reason for refusal

Patent event code: PE06011S01I

AMND Amendment
PX0901 Re-examination

Patent event code: PX09011S01I

Patent event date: 20210129

Comment text: Decision to Refuse Application

Patent event code: PX09012R01I

Patent event date: 20200831

Comment text: Amendment to Specification, etc.

PX0701 Decision of registration after re-examination

Patent event date: 20210524

Comment text: Decision to Grant Registration

Patent event code: PX07013S01D

Patent event date: 20210329

Comment text: Amendment to Specification, etc.

Patent event code: PX07012R01I

Patent event date: 20210129

Comment text: Decision to Refuse Application

Patent event code: PX07011S01I

Patent event date: 20200831

Comment text: Amendment to Specification, etc.

Patent event code: PX07012R01I

X701 Decision to grant (after re-examination)
GRNT Written decision to grant
PR0701 Registration of establishment

Comment text: Registration of Establishment

Patent event date: 20210615

Patent event code: PR07011E01D

PR1002 Payment of registration fee

Payment date: 20210616

End annual number: 3

Start annual number: 1

PG1601 Publication of registration
PR1001 Payment of annual fee

Payment date: 20240605

Start annual number: 4

End annual number: 4