KR102375508B1 - Electronic device that enables speech recognition of editing commands frequently used in document editing programs and operating method thereof - Google Patents
Electronic device that enables speech recognition of editing commands frequently used in document editing programs and operating method thereof Download PDFInfo
- Publication number
- KR102375508B1 KR102375508B1 KR1020200031774A KR20200031774A KR102375508B1 KR 102375508 B1 KR102375508 B1 KR 102375508B1 KR 1020200031774 A KR1020200031774 A KR 1020200031774A KR 20200031774 A KR20200031774 A KR 20200031774A KR 102375508 B1 KR102375508 B1 KR 102375508B1
- Authority
- KR
- South Korea
- Prior art keywords
- editing
- command
- voice
- commands
- editing commands
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Active
Links
- 238000011017 operating method Methods 0.000 title claims abstract description 11
- 230000015572 biosynthetic process Effects 0.000 claims abstract description 21
- 238000003786 synthesis reaction Methods 0.000 claims abstract description 21
- 238000010801 machine learning Methods 0.000 claims abstract description 11
- 239000013598 vector Substances 0.000 claims description 40
- 238000000034 method Methods 0.000 claims description 10
- 238000012905 input function Methods 0.000 claims description 7
- 238000004590 computer program Methods 0.000 claims description 5
- 238000012790 confirmation Methods 0.000 claims 1
- 238000005516 engineering process Methods 0.000 description 8
- 230000006870 function Effects 0.000 description 5
- 238000010586 diagram Methods 0.000 description 4
- 239000000284 extract Substances 0.000 description 3
- 238000012986 modification Methods 0.000 description 3
- 230000004048 modification Effects 0.000 description 3
- 238000013473 artificial intelligence Methods 0.000 description 1
- 238000013475 authorization Methods 0.000 description 1
- 238000013523 data management Methods 0.000 description 1
- 238000012217 deletion Methods 0.000 description 1
- 230000037430 deletion Effects 0.000 description 1
- 238000004519 manufacturing process Methods 0.000 description 1
- 230000005226 mechanical processes and functions Effects 0.000 description 1
- 230000003287 optical effect Effects 0.000 description 1
- 238000003909 pattern recognition Methods 0.000 description 1
- 238000012545 processing Methods 0.000 description 1
- 238000011160 research Methods 0.000 description 1
Images
Classifications
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L15/00—Speech recognition
- G10L15/06—Creation of reference templates; Training of speech recognition systems, e.g. adaptation to the characteristics of the speaker's voice
- G10L15/063—Training
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F3/00—Input arrangements for transferring data to be processed into a form capable of being handled by the computer; Output arrangements for transferring data from processing unit to output unit, e.g. interface arrangements
- G06F3/16—Sound input; Sound output
- G06F3/167—Audio in a user interface, e.g. using voice commands for navigating, audio feedback
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06N—COMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
- G06N20/00—Machine learning
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L15/00—Speech recognition
- G10L15/02—Feature extraction for speech recognition; Selection of recognition unit
Landscapes
- Engineering & Computer Science (AREA)
- Theoretical Computer Science (AREA)
- Physics & Mathematics (AREA)
- Multimedia (AREA)
- Health & Medical Sciences (AREA)
- Audiology, Speech & Language Pathology (AREA)
- Human Computer Interaction (AREA)
- General Engineering & Computer Science (AREA)
- Acoustics & Sound (AREA)
- Computer Vision & Pattern Recognition (AREA)
- Artificial Intelligence (AREA)
- General Physics & Mathematics (AREA)
- Computational Linguistics (AREA)
- Software Systems (AREA)
- Computing Systems (AREA)
- Medical Informatics (AREA)
- Evolutionary Computation (AREA)
- Mathematical Physics (AREA)
- Data Mining & Analysis (AREA)
- General Health & Medical Sciences (AREA)
- Document Processing Apparatus (AREA)
- User Interface Of Digital Computer (AREA)
Abstract
문서 작성 프로그램에서 자주 사용되는 편집 명령에 대한 음성 인식을 가능하게 하는 전자 장치 및 그 동작 방법이 개시된다. 본 발명에 따른 전자 장치 및 그 동작 방법은 문서 작성 프로그램에서 자주 사용되는 편집 명령들을 선별하고, 선별된 편집 명령들에 대응하는 말뭉치를 기초로 음성 합성을 수행하여 합성 음성을 생성하며, 상기 선별된 편집 명령들에 대한 합성 음성과 말뭉치를 이용한 기계학습을 통해 음성 인식 모듈을 생성한 후 상기 음성 인식 모듈을 통해 사용자의 음성 명령을 인식함으로써, 사용자가 문서 작성시 자주 사용되는 편집 명령을 음성을 통해 손쉽게 인가할 수 있도록 지원할 수 있다.Disclosed are an electronic device that enables voice recognition of an editing command frequently used in a document creation program, and an operating method thereof. An electronic device and an operating method thereof according to the present invention select editing commands frequently used in a document creation program, perform voice synthesis based on a corpus corresponding to the selected editing commands, and generate a synthesized voice, After creating a voice recognition module through machine learning using a synthesized voice for editing commands and a corpus, by recognizing the user's voice command through the voice recognition module, the user can use the voice to edit the frequently used editing commands when writing documents. We can support you for easy approval.
Description
본 발명은 문서 작성 프로그램에서 자주 사용되는 편집 명령에 대한 음성 인식을 가능하게 하는 전자 장치 및 그 동작 방법에 대한 것이다.The present invention relates to an electronic device that enables voice recognition for an editing command frequently used in a document creation program, and an operating method thereof.
최근, 컴퓨터나 스마트폰 또는 태블릿 PC 등이 널리 보급됨에 따라, 이러한 전자 장치를 이용하여 전자 문서를 열람, 작성, 편집할 수 있도록 하는 다양한 종류의 문서 작성 프로그램들이 출시되고 있다.In recent years, as computers, smart phones, or tablet PCs have become widespread, various types of document creation programs have been released that allow users to read, write, and edit electronic documents using such electronic devices.
이러한 문서 작성 프로그램들로는 기본적인 문서의 작성, 편집 등을 지원하는 워드프로세서, 데이터의 입력, 산술연산, 데이터 관리를 보조하는 스프레드시트, 발표자의 발표를 보조하기 위한 프레젠테이션 프로그램들이 있다.These document creation programs include a word processor supporting basic document creation and editing, a spreadsheet supporting data input, arithmetic operations, and data management, and presentation programs supporting a presenter's presentation.
문서 작성 프로그램에서는 다양한 편집 명령들을 지원하는데, 보통 사용자들은 문서 작성을 진행할 때, 자신이 자주 사용하는 편집 명령들만을 활용하는 경우가 많다. 따라서, 사용자가 자주 사용하는 편집 명령들을 보다 쉽게 이용할 수 있도록 하는 인터페이싱 기술이 도입된다면, 사용자의 문서 작성의 편의가 도모될 수 있을 것이다.A document creation program supports various editing commands, and users often use only the editing commands they frequently use when creating a document. Accordingly, if an interfacing technology that allows a user to more easily use editing commands frequently used is introduced, the user's convenience in writing a document may be promoted.
최근에는 인공지능 기능이 탑재된 전자 장비들이 출시됨에 따라 사용자가 음성으로 명령을 인가하면, 사용자의 음성을 인식하여 제어를 수행하는 기술이 주목받고 있다.Recently, as electronic devices equipped with artificial intelligence functions are released, when a user applies a command with a voice, a technology for performing control by recognizing the user's voice is attracting attention.
음성 인식 기술은 발화자로부터 음성이 입력되면, 음성의 특징을 분석하여 특징 벡터를 추출하고, 특징 벡터의 패턴을 인식한 후 패턴 인식 결과에 기반하여 발화자의 음성에 매칭되는 텍스트를 결과로 출력하는 기술을 의미한다.Speech recognition technology is a technology that, when a voice is input from a speaker, extracts a feature vector by analyzing the characteristics of the voice, recognizes a pattern of the feature vector, and outputs a text matching the speaker's voice as a result based on the pattern recognition result means
이러한 음성 인식 기술은 다양한 음성 데이터를 수집하여 소정의 음성 인식 모델 데이터로 구축해 둠으로써, 사용자에 의해 인가되는 음성에 매칭되는 텍스트를 생성하도록 구성된다.This speech recognition technology is configured to generate text matching the speech applied by the user by collecting various speech data and building it as predetermined speech recognition model data.
음성 인식기의 성능을 향상시키기 위해서는 다양한 말뭉치(Corpus)들을 확보하고, 확보된 말뭉치들을 기초로 실제 발화를 한 후 이에 대한 음성 인식 결과를 기반으로 음성 인식 모델을 학습시켜야 한다.In order to improve the performance of the speech recognizer, it is necessary to secure various corpus, make an actual utterance based on the secured corpus, and train a speech recognition model based on the speech recognition result.
이렇게, 음성 인식 기술이 주목받게 됨에 따라, 문서 작성 프로그램에서도 사용자에 의해 자주 사용되는 편집 명령들에 대한 음성 인식 모듈을 구축할 수 있다면, 사용자가 문서 작성을 수행할 때, 자주 사용되는 편집 명령과 관련된 명령을 음성으로 인가하는 것만으로 해당 편집 명령을 사용할 수 있다는 점에서 사용자의 편의가 증대될 수 있을 것이다.In this way, as the speech recognition technology draws attention, if a voice recognition module for editing commands frequently used by a user can be built in a document creation program, when a user creates a document, the frequently used editing commands and The user's convenience may be increased in that the corresponding editing command can be used only by applying the related command by voice.
따라서, 문서 작성 프로그램에서 사용자에 의해 자주 사용되는 편집 명령들을 식별하고, 해당 편집 명령들에 대한 음성 인식 모듈을 구축함으로써, 사용자가 음성 명령을 인가하는 것만으로 자주 사용하는 편집 명령을 손쉽게 사용할 수 있도록 지원하기 위한 기술의 연구가 필요하다.Therefore, by identifying the editing commands frequently used by the user in the document creation program and building a voice recognition module for the corresponding editing commands, the user can easily use the frequently used editing commands just by applying the voice command. It is necessary to study the technology to support it.
본 발명에 따른 전자 장치 및 그 동작 방법은 문서 작성 프로그램에서 자주 사용되는 편집 명령들을 선별하고, 선별된 편집 명령들에 대응하는 말뭉치를 기초로 음성 합성을 수행하여 합성 음성을 생성하며, 상기 선별된 편집 명령들에 대한 합성 음성과 말뭉치를 이용한 기계학습을 통해 음성 인식 모듈을 생성한 후 상기 음성 인식 모듈을 통해 사용자의 음성 명령을 인식함으로써, 사용자가 문서 작성시 자주 사용되는 편집 명령을 음성을 통해 손쉽게 인가할 수 있도록 지원하고자 한다.An electronic device and an operating method thereof according to the present invention select editing commands frequently used in a document creation program, perform voice synthesis based on a corpus corresponding to the selected editing commands, and generate a synthesized voice, After creating a voice recognition module through machine learning using a synthesized voice for editing commands and a corpus, by recognizing the user's voice command through the voice recognition module, the user can use the voice to edit the frequently used editing commands when writing documents. We want to support you so that you can easily apply.
본 발명의 일실시예에 따른 문서 작성 프로그램에서 자주 사용되는 편집 명령에 대한 음성 인식을 가능하게 하는 전자 장치는 문서 작성 프로그램에서 지원하는 복수의 편집 명령들 각각에 대응되는 미리 설정된 말뭉치(corpus)가 저장되어 있는 말뭉치 저장부, 미리 설정된 기간 동안 상기 문서 작성 프로그램에서 사용자에 의해 상기 복수의 편집 명령들이 사용된 횟수를 카운트한 후 상기 복수의 편집 명령들 중 사용 횟수가 많은 순서로 미리 설정된 개수의 편집 명령들을 선별하는 편집 명령 선별부, 상기 말뭉치 저장부로부터 상기 선별된 편집 명령들 각각에 대응되는 말뭉치를 추출한 후 사전 구축되어 있는 음성 합성 모듈에 상기 선별된 편집 명령들 각각에 대응되는 말뭉치를 입력으로 인가하여 음성 합성을 수행함으로써, 상기 선별된 편집 명령들 각각에 대응되는 말뭉치에 대한 합성 음성을 생성하는 음성 합성부 및 상기 선별된 편집 명령들 각각에 대응되는 말뭉치와 상기 선별된 편집 명령들 각각에 대응되는 말뭉치에 대한 합성 음성을 기초로 음성 인식기 구축을 위한 기계학습을 수행함으로써, 상기 선별된 편집 명령들의 실행과 관련된 음성 명령을 인식하기 위한 음성 인식 모듈을 생성하는 음성 인식 모듈 생성부를 포함한다.According to an embodiment of the present invention, an electronic device enabling voice recognition of an editing command frequently used in a document writing program includes a preset corpus corresponding to each of a plurality of editing commands supported by the document writing program. The stored corpus storage unit counts the number of times the plurality of editing commands are used by the user in the document creation program during a preset period, and then edits a preset number of the plurality of editing commands in the order of the highest number of use After extracting a corpus corresponding to each of the selected editing commands from the editing command selection unit for selecting commands, and the corpus storage unit, the corpus corresponding to each of the selected editing commands is input to a pre-built speech synthesis module. A voice synthesizer for generating a synthesized voice for a corpus corresponding to each of the selected editing commands by applying a voice synthesis to the corpus corresponding to each of the selected editing commands and to each of the selected editing commands and a voice recognition module generator configured to generate a voice recognition module for recognizing a voice command related to the execution of the selected editing commands by performing machine learning for constructing a voice recognizer based on the synthesized voice for the corresponding corpus.
또한, 본 발명의 일실시예에 따른 문서 작성 프로그램에서 자주 사용되는 편집 명령에 대한 음성 인식을 가능하게 하는 전자 장치의 동작 방법은 문서 작성 프로그램에서 지원하는 복수의 편집 명령들 각각에 대응되는 미리 설정된 말뭉치(corpus)가 저장되어 있는 말뭉치 저장부를 유지하는 단계, 미리 설정된 기간 동안 상기 문서 작성 프로그램에서 사용자에 의해 상기 복수의 편집 명령들이 사용된 횟수를 카운트한 후 상기 복수의 편집 명령들 중 사용 횟수가 많은 순서로 미리 설정된 개수의 편집 명령들을 선별하는 단계, 상기 말뭉치 저장부로부터 상기 선별된 편집 명령들 각각에 대응되는 말뭉치를 추출한 후 사전 구축되어 있는 음성 합성 모듈에 상기 선별된 편집 명령들 각각에 대응되는 말뭉치를 입력으로 인가하여 음성 합성을 수행함으로써, 상기 선별된 편집 명령들 각각에 대응되는 말뭉치에 대한 합성 음성을 생성하는 단계 및 상기 선별된 편집 명령들 각각에 대응되는 말뭉치와 상기 선별된 편집 명령들 각각에 대응되는 말뭉치에 대한 합성 음성을 기초로 음성 인식기 구축을 위한 기계학습을 수행함으로써, 상기 선별된 편집 명령들의 실행과 관련된 음성 명령을 인식하기 위한 음성 인식 모듈을 생성하는 단계를 포함한다.In addition, according to an embodiment of the present invention, a method of operating an electronic device that enables voice recognition of an editing command frequently used in a document writing program is set in advance corresponding to each of a plurality of editing commands supported by the document writing program. maintaining a corpus storage unit in which a corpus is stored; after counting the number of times the plurality of editing commands are used by a user in the document creation program for a preset period, the number of times of use among the plurality of editing commands is selecting a preset number of editing commands in a large order; extracting a corpus corresponding to each of the selected editing commands from the corpus storage unit; generating a synthesized voice for the corpus corresponding to each of the selected editing commands by applying the selected corpus as an input to perform voice synthesis; and the corpus corresponding to each of the selected editing commands and the selected editing command and generating a voice recognition module for recognizing a voice command related to the execution of the selected editing commands by performing machine learning for constructing a voice recognizer based on the synthesized voice for the corpus corresponding to each of them.
본 발명에 따른 전자 장치 및 그 동작 방법은 문서 작성 프로그램에서 자주 사용되는 편집 명령들을 선별하고, 선별된 편집 명령들에 대응하는 말뭉치를 기초로 음성 합성을 수행하여 합성 음성을 생성하며, 상기 선별된 편집 명령들에 대한 합성 음성과 말뭉치를 이용한 기계학습을 통해 음성 인식 모듈을 생성한 후 상기 음성 인식 모듈을 통해 사용자의 음성 명령을 인식함으로써, 사용자가 문서 작성시 자주 사용되는 편집 명령을 음성을 통해 손쉽게 인가할 수 있도록 지원할 수 있다.An electronic device and an operating method thereof according to the present invention select editing commands frequently used in a document creation program, perform voice synthesis based on a corpus corresponding to the selected editing commands, and generate a synthesized voice, After creating a voice recognition module through machine learning using a synthesized voice for editing commands and a corpus, by recognizing the user's voice command through the voice recognition module, the user can use the voice to edit the frequently used editing commands when writing documents. We can support you for easy approval.
도 1은 본 발명의 일실시예에 따른 문서 작성 프로그램에서 자주 사용되는 편집 명령에 대한 음성 인식을 가능하게 하는 전자 장치의 구조를 도시한 도면이다.
도 2는 본 발명의 일실시예에 따른 문서 작성 프로그램에서 자주 사용되는 편집 명령에 대한 음성 인식을 가능하게 하는 전자 장치의 동작 방법을 도시한 순서도이다.1 is a diagram illustrating a structure of an electronic device that enables voice recognition for an editing command frequently used in a document creation program according to an embodiment of the present invention.
2 is a flowchart illustrating an operating method of an electronic device that enables voice recognition for an editing command frequently used in a document creation program according to an embodiment of the present invention.
이하에서는 본 발명에 따른 실시예들을 첨부된 도면을 참조하여 상세하게 설명하기로 한다. 이러한 설명은 본 발명을 특정한 실시 형태에 대해 한정하려는 것이 아니며, 본 발명의 사상 및 기술 범위에 포함되는 모든 변경, 균등물 내지 대체물을 포함하는 것으로 이해되어야 한다. 각 도면을 설명하면서 유사한 참조부호를 유사한 구성요소에 대해 사용하였으며, 다르게 정의되지 않는 한, 기술적이거나 과학적인 용어를 포함해서 본 명세서 상에서 사용되는 모든 용어들은 본 발명이 속하는 기술분야에서 통상의 지식을 가진 사람에 의해 일반적으로 이해되는 것과 동일한 의미를 가지고 있다.Hereinafter, embodiments according to the present invention will be described in detail with reference to the accompanying drawings. These descriptions are not intended to limit the present invention to specific embodiments, and should be understood to include all modifications, equivalents, and substitutes included in the spirit and scope of the present invention. While describing each drawing, like reference numerals are used for similar components, and unless otherwise defined, all terms used in this specification, including technical or scientific terms, refer to those of ordinary skill in the art to which the present invention belongs. It has the same meaning as is commonly understood by those who have it.
본 문서에서, 어떤 부분이 어떤 구성요소를 "포함"한다고 할 때, 이는 특별히 반대되는 기재가 없는 한 다른 구성요소를 제외하는 것이 아니라 다른 구성요소를 더 포함할 수 있다는 것을 의미한다. 또한, 본 발명의 다양한 실시예들에 있어서, 각 구성요소들, 기능 블록들 또는 수단들은 하나 또는 그 이상의 하부 구성요소로 구성될 수 있고, 각 구성요소들이 수행하는 전기, 전자, 기계적 기능들은 전자회로, 집적회로, ASIC(Application Specific Integrated Circuit) 등 공지된 다양한 소자들 또는 기계적 요소들로 구현될 수 있으며, 각각 별개로 구현되거나 2 이상이 하나로 통합되어 구현될 수도 있다. In this document, when a part "includes" a certain component, it means that other components may be further included, rather than excluding other components, unless otherwise stated. In addition, in various embodiments of the present invention, each of the components, functional blocks or means may be composed of one or more sub-components, and the electrical, electronic, and mechanical functions performed by each component are electronic. A circuit, an integrated circuit, an ASIC (Application Specific Integrated Circuit), etc. may be implemented as various well-known devices or mechanical elements, and may be implemented separately or two or more may be integrated into one.
한편, 첨부된 블록도의 블록들이나 흐름도의 단계들은 범용 컴퓨터, 특수용 컴퓨터, 휴대용 노트북 컴퓨터, 네트워크 컴퓨터 등 데이터 프로세싱이 가능한 장비의 프로세서나 메모리에 탑재되어 지정된 기능들을 수행하는 컴퓨터 프로그램 명령들(instructions)을 의미하는 것으로 해석될 수 있다. 이들 컴퓨터 프로그램 명령들은 컴퓨터 장치에 구비된 메모리 또는 컴퓨터에서 판독 가능한 메모리에 저장될 수 있기 때문에, 블록도의 블록들 또는 흐름도의 단계들에서 설명된 기능들은 이를 수행하는 명령 수단을 내포하는 제조물로 생산될 수도 있다. 아울러, 각 블록 또는 각 단계는 특정된 논리적 기능(들)을 실행하기 위한 하나 이상의 실행 가능한 명령들을 포함하는 모듈, 세그먼트 또는 코드의 일부를 나타낼 수 있다. 또, 몇 가지 대체 가능한 실시예들에서는 블록들 또는 단계들에서 언급된 기능들이 정해진 순서와 달리 실행되는 것도 가능함을 주목해야 한다. 예컨대, 잇달아 도시되어 있는 두 개의 블록들 또는 단계들은 실질적으로 동시에 수행되거나, 역순으로 수행될 수 있으며, 경우에 따라 일부 블록들 또는 단계들이 생략된 채로 수행될 수도 있다.On the other hand, the blocks in the accompanying block diagram or steps in the flowchart are computer program instructions that are loaded in a processor or memory of equipment capable of data processing, such as a general-purpose computer, a special-purpose computer, a portable notebook computer, and a network computer, and perform specified functions. can be interpreted as meaning Since these computer program instructions may be stored in a memory provided in a computer device or in a computer-readable memory, the functions described in the blocks of the block diagram or the steps of the flowchart are produced as articles of manufacture containing instruction means for performing the same. it might be In addition, each block or each step may represent a module, segment, or portion of code comprising one or more executable instructions for executing the specified logical function(s). It should also be noted that, in some alternative embodiments, it is also possible for the functions recited in blocks or steps to be executed out of the prescribed order. For example, two blocks or steps shown one after another may be performed substantially simultaneously or in the reverse order, and in some cases, some blocks or steps may be omitted.
도 1은 본 발명의 일실시예에 따른 문서 작성 프로그램에서 자주 사용되는 편집 명령에 대한 음성 인식을 가능하게 하는 전자 장치의 구조를 도시한 도면이다.1 is a diagram illustrating a structure of an electronic device that enables voice recognition for an editing command frequently used in a document creation program according to an embodiment of the present invention.
도 1을 참조하면, 본 발명에 따른 전자 장치(110)는 말뭉치 저장부(111), 편집 명령 선별부(112), 음성 합성부(113) 및 음성 인식 모듈 생성부(114)를 포함한다.Referring to FIG. 1 , the
말뭉치 저장부(111)에는 문서 작성 프로그램에서 지원하는 복수의 편집 명령들 각각에 대응되는 미리 설정된 말뭉치(corpus)가 저장되어 있다.The
말뭉치란 자연언어 연구를 위해 특정한 목적을 가지고 언어의 표본을 추출한 집합을 의미하는 것으로, 소정의 문장들의 집합이라고 볼 수 있다. 이러한 말뭉치는 음성 인식기나 음성 합성기를 구축할 때 사용될 수 있다.A corpus refers to a set of samples extracted from a language for a specific purpose for natural language research, and can be viewed as a set of predetermined sentences. These corpora can be used to build speech recognizers or speech synthesizers.
관련해서, 말뭉치 저장부(111)에는 하기의 표 1과 같은 형태로 상기 복수의 편집 명령들 각각에 대응되는 말뭉치가 저장되어 있을 수 있다.In relation to this, the
표 입력해
표 입력 기능 실행
...enter a ticket
enter a table
Execute table input function
...
글자 진하게 실행
...Make the letters bold
bold text
...
글자를 삭제
글자 삭제 실행
...delete the text
delete letters
Execute character deletion
...
편집 명령 선별부(112)는 미리 설정된 기간 동안 상기 문서 작성 프로그램에서 사용자에 의해 상기 복수의 편집 명령들이 사용된 횟수를 카운트한 후 상기 복수의 편집 명령들 중 사용 횟수가 많은 순서로 미리 설정된 개수의 편집 명령들을 선별한다.The editing
예컨대, 상기 미리 설정된 기간이 '30일'이라고 하고, 상기 미리 설정된 개수를 '10개'라고 하는 경우, 편집 명령 선별부(112)는 '30일' 동안 상기 문서 작성 프로그램에서 사용자에 의해 상기 복수의 편집 명령들이 사용된 횟수를 카운트한 후 상기 복수의 편집 명령들 중 사용 횟수가 많은 순서로 '10개'의 편집 명령들을 선별할 수 있다.For example, if the preset period is '30 days' and the preset number is '10', the editing
음성 합성부(113)는 말뭉치 저장부(111)로부터 상기 선별된 편집 명령들 각각에 대응되는 말뭉치를 추출한 후 사전 구축되어 있는 음성 합성 모듈에 상기 선별된 편집 명령들 각각에 대응되는 말뭉치를 입력으로 인가하여 음성 합성을 수행함으로써, 상기 선별된 편집 명령들 각각에 대응되는 말뭉치에 대한 합성 음성을 생성한다.The
여기서, 음성 합성이란 텍스트를 음성으로 변환(Text-To-Speech: TTS)하는 기술을 의미한다. 관련해서, 전술한 예시와 같이, 편집 명령 선별부(112)를 통해 '10개'의 편집 명령들이 선별되었다고 하는 경우, 음성 합성부(113)는 상기 표 1과 같은 말뭉치 저장부(111)로부터 '10개'의 편집 명령들 각각에 대응되는 말뭉치를 추출한 후 상기 추출된 말뭉치를 사전 구축되어 있는 음성 합성 모듈에 입력으로 인가함으로써, '10개'의 편집 명령들 각각에 대응되는 말뭉치에 대한 합성 음성을 생성할 수 있다.Here, speech synthesis refers to a technology for converting text into speech (Text-To-Speech: TTS). In relation to, as in the above example, when it is said that '10' editing commands are selected through the editing
음성 인식 모듈 생성부(114)는 상기 선별된 편집 명령들 각각에 대응되는 말뭉치와 상기 선별된 편집 명령들 각각에 대응되는 말뭉치에 대한 합성 음성을 기초로 음성 인식기 구축을 위한 기계학습을 수행함으로써, 상기 선별된 편집 명령들의 실행과 관련된 음성 명령을 인식하기 위한 음성 인식 모듈을 생성한다.The voice recognition
관련해서, 전술한 예시와 같이, '10개'의 편집 명령들 각각에 대응되는 말뭉치에 대한 합성 음성이 생성되었다면, 음성 인식 모듈 생성부(114)는 '10개'의 편집 명령들 각각에 대응되는 말뭉치와 그에 대한 합성 음성을 기초로 음성 인식기 구축을 위한 기계학습을 수행함으로써, '10개'의 편집 명령들의 실행과 관련된 음성 명령을 인식하기 위한 음성 인식 모듈을 생성할 수 있다.In relation to, as in the above example, if the synthesized voice for the corpus corresponding to each of the '10' editing commands is generated, the voice recognition
이때, 본 발명의 일실시예에 따르면, 전자 장치(110)는 음성 명령 실행부(115)를 더 포함할 수 있다.In this case, according to an embodiment of the present invention, the
음성 명령 실행부(115)는 상기 음성 인식 모듈의 생성이 완료된 이후, 상기 문서 작성 프로그램에서 상기 사용자에 의해 자주 사용되는 편집 명령의 실행을 위한 음성 명령 입력 기능이 실행되고, 마이크로폰을 통해 제1 음성 명령이 인가되면, 상기 음성 인식 모듈을 통해 상기 제1 음성 명령을 인식하여 상기 선별된 편집 명령들 중 상기 제1 음성 명령에 대응하는 편집 명령을 실행한다.After the creation of the voice recognition module is completed, the voice
이때, 본 발명의 일실시예에 따르면, 음성 명령 실행부(115)는 상기 마이크로폰을 통해 상기 제1 음성 명령이 인가되면, 상기 음성 인식 모듈을 통해 상기 제1 음성 명령을 인식하여 상기 제1 음성 명령에 대한 인식 텍스트를 생성하고, 상기 선별된 편집 명령들 중 상기 인식 텍스트를 구성하는 문자열과의 최장 공통 부분 수열(Longest Common Subsequence: LCS)의 길이가 최대인 문자열로 구성된 문장을 말뭉치 내에 포함하고 있는 편집 명령을 상기 제1 음성 명령에 대응하는 편집 명령으로 지정하여 실행할 수 있다.At this time, according to an embodiment of the present invention, when the first voice command is applied through the microphone, the voice
예컨대, 전술한 예시와 같이 음성 인식 모듈 생성부(114)에서 '10개'의 편집 명령들의 실행과 관련된 음성 명령을 인식하기 위한 음성 인식 모듈이 생성되었다고 가정하자. 이때, 사용자가 상기 문서 작성 프로그램을 통해 문서 작성을 수행하는 도중, 자신이 자주 사용하는 편집 명령을 음성으로 인가하기 위해서 전자 장치(110) 상에 음성 명령 입력 기능을 실행시킨 후 전자 장치(110)에 연결된 마이크로폰을 통해 제1 음성 명령을 인가하게 되면, 음성 명령 실행부(115)는 상기 음성 인식 모듈을 통해 상기 제1 음성 명령을 인식하여 상기 제1 음성 명령에 대한 인식 텍스트를 생성할 수 있다.For example, it is assumed that a voice recognition module for recognizing a voice command related to the execution of '10' editing commands is generated by the voice recognition
그러고 나서, 음성 명령 실행부(115)는 상기 '10개'의 편집 명령들 중 상기 인식 텍스트를 구성하는 문자열과의 LCS의 길이가 최대인 문자열로 구성된 문장을 말뭉치 내에 포함하고 있는 편집 명령을 상기 제1 음성 명령에 대응하는 편집 명령으로 지정하여 실행할 수 있다.Then, the voice
여기서, LCS란 두 개의 문자열에서 일치하는 연속된 문자열을 의미하는 것으로, 'ACAYKP'와 'CAPCAK'가 있다고 하였을 때, 두 문자열 간의 LCS는 'ACAK'이고, 이때 LCS의 길이는 '4'가 된다. 이와 관련해서, '10개'의 편집 명령들 중에 '표 입력'이라는 편집 명령이 포함되어 있다고 하고, 상기 사용자에 의해 인가된 상기 제1 음성 명령에 대해서 음성 인식을 수행한 결과, '표를 입력해라'라고 하는 인식 텍스트가 생성되었다고 경우, '표 입력'이라는 편집 명령에 대응하는 말뭉치에 포함된 문장인 '표를 입력해줘'와 상기 인식 텍스트인 '표를 입력해라' 간의 LCS의 길이는 '5'가 될 수 있다. 이러한 방식으로, 음성 명령 실행부(115)는 상기 '10개'의 편집 명령들에 대한 말뭉치를 구성하는 문장들과 상기 인식 텍스트인 '표를 입력해라' 간의 LCS의 길이를 측정한 후 상기 '10개'의 편집 명령들 중 상기 인식 텍스트인 '표를 입력해라'를 구성하는 문자열과의 LCS의 길이가 최대인 문자열로 구성된 문장을 말뭉치 내에 포함하고 있는 편집 명령을 상기 제1 음성 명령에 대응하는 편집 명령으로 지정하여 실행할 수 있다.Here, LCS means a continuous string that matches in two strings. When there are 'ACAYKP' and 'CAPCAK', the LCS between the two strings is 'ACAK', and the length of the LCS is '4'. . In this regard, it is assumed that an editing command of 'table input' is included among the '10' editing commands, and as a result of performing voice recognition on the first voice command applied by the user, 'enter a table' When the recognition text 'Do it' is generated, the length of the LCS between 'Enter table', which is a sentence included in the corpus corresponding to the edit command 'Enter table', and 'Enter table', which is the recognition text, It can be 5'. In this way, the voice
결국, 본 발명에 따른 전자 장치(110)는 문서 작성 프로그램에서 자주 사용되는 편집 명령들을 선별하고, 선별된 편집 명령들에 대응하는 말뭉치를 기초로 음성 합성을 수행하여 합성 음성을 생성하며, 상기 선별된 편집 명령들에 대한 합성 음성과 말뭉치를 이용한 기계학습을 통해 음성 인식 모듈을 생성한 후 상기 음성 인식 모듈을 통해 사용자의 음성 명령을 인식함으로써, 사용자가 문서 작성시 자주 사용되는 편집 명령을 음성을 통해 손쉽게 인가할 수 있도록 지원할 수 있다.As a result, the
본 발명의 일실시예에 따르면, 전자 장치(110)는 부분 카운트부(116), 특징 벡터 생성부(117), 특징 벡터 확인부(118), 코사인 유사도 연산부(119) 및 추천 음성 명령어 표시부(120)를 더 포함할 수 있다.According to an embodiment of the present invention, the
부분 카운트부(116)는 상기 미리 설정된 기간을 k(k는 2이상의 자연수)개의 부분 기간들로 분할하여, 상기 문서 작성 프로그램에서 상기 선별된 편집 명령들 각각이 상기 k개의 부분 기간들 내에서 사용된 횟수를 카운트한다.The
특징 벡터 생성부(117)는 상기 선별된 편집 명령들 각각에 대해, 상기 k개의 부분 기간들 내에서의 사용 횟수를 성분으로 갖는 k차원의 특징 벡터를 생성한다.The
관련해서, 전술한 예시와 같이, 상기 미리 설정된 기간을 '30일'이라고 하고, 편집 명령 선별부(112)에서 선별된 편집 명령들이 '10개'의 편집 명령들이라고 하며, k가 '3'이라고 가정하는 경우, 부분 카운트부(116)는 '30일'이라는 기간을 '10일', '10일', '10일'이라고 하는 3개의 부분 기간들로 분할하여, 3개의 부분 기간들 내에서 상기 '10개'의 편집 명령들 각각이 상기 문서 작성 프로그램에서 사용된 횟수를 카운트할 수 있다.In relation to this, as in the above example, the preset period is referred to as '30 days', the edit commands selected by the edit
그러고 나서, 특징 벡터 생성부(117)는 상기 '10개'의 편집 명령들 각각에 대해, 3개의 부분 기간들 내에서의 사용 횟수를 성분으로 갖는 3차원의 특징 벡터를 생성할 수 있다. 예컨대, 상기 '10개'의 편집 명령들 중 특정 편집 명령에서 3개의 부분 기간들 내에서의 사용 횟수가 각각 '5회', '4회', '7회'라고 하는 경우, 특징 벡터 생성부(117)는 상기 특정 편집 명령에 대해서 '[5 4 7]'이라고 하는 3차원의 특징 벡터를 생성할 수 있다.Then, the feature
특징 벡터 확인부(118)는 음성 명령 실행부(115)에 의해 상기 선별된 편집 명령들 중 상기 제1 음성 명령에 대응하는 편집 명령으로 제1 편집 명령이 실행되면, 상기 제1 편집 명령에 대한 k차원의 특징 벡터를 확인한다.The feature
코사인 유사도 연산부(119)는 상기 선별된 편집 명령들 중 상기 제1 편집 명령을 제외한 나머지 편집 명령들에 대한 k차원의 특징 벡터 각각과 상기 제1 편집 명령에 대한 k차원의 특징 벡터 간의 코사인 유사도를 연산한다.The cosine
관련해서, 상기 선별된 편집 명령들이 '10개'의 편집 명령들이라고 하는 경우, 코사인 유사도 연산부(119)는 상기 제1 편집 명령을 제외한 '9개'의 편집 명령들에 대한 특징 벡터 각각과 상기 제1 편집 명령에 대한 특징 벡터 간의 코사인 유사도를 연산할 수 있다.In relation to this, when it is said that the selected editing commands are '10' editing commands, the cosine
여기서, 상기 코사인 유사도는 하기의 수학식 1에 따라 연산될 수 있다.Here, the cosine similarity may be calculated according to Equation 1 below.
여기서, S는 벡터 A와 B 사이의 코사인 유사도로 -1에서 1사이의 값을 가지며, 그 값이 클수록 유사한 벡터임을 의미하고, Ai는 벡터 A의 i번째 성분, Bi는 벡터 B의 i번째 성분을 의미한다.Here, S is the cosine similarity between vectors A and B, and has a value between -1 and 1, and a larger value means a similar vector, A i is the i-th component of the vector A, and B i is the i of the vector B means the second component.
추천 음성 명령어 표시부(120)는 상기 나머지 편집 명령들 중 상기 코사인 유사도가 최대로 연산된 k차원의 특징 벡터를 갖는 제2 편집 명령을 선택한 후 말뭉치 저장부(111)로부터 상기 제2 편집 명령에 대응하는 말뭉치에 포함된 어느 하나의 문장을 추출하여 상기 추출된 문장을 상기 제2 편집 명령의 실행을 위한 추천 음성 명령어로 화면 상에 표시함과 동시에 상기 추천 음성 명령어에 따른 음성 명령을 인가할 것을 안내하는 안내 메시지를 상기 화면 상에 표시한다.The recommended voice
예컨대, 상기 코사인 유사도가 최대인 상기 제2 편집 명령이 '표 입력'이라고 하는 경우, 추천 음성 명령어 표시부(120)는 상기 표 1과 같은 말뭉치 저장부(111)로부터 '표 입력'에 대응되는 말뭉치에 포함된 문장들 중 '표 입력 기능 실행'과 같은 어느 하나의 문장을 추출한 후 '표 입력 기능 실행'이라는 문장을 '표 입력'이라는 편집 명령의 실행을 위한 추천 음성 명령어로 화면 상에 표시함과 동시에 상기 추천 음성 명령어에 따른 음성 명령을 인가할 것을 안내하는 안내 메시지를 화면 상에 표시할 수 있다.For example, when the second editing command having the maximum cosine similarity is 'table input', the recommended voice
즉, 본 발명에 따른 전자 장치(110)는 사용자가 음성 명령을 인가함에 따라 자주 사용되는 편집 명령들 중 제1 편집 명령이 실행되면, 상기 자주 사용되는 편집 명령들 중 상기 제1 편집 명령의 사용 패턴과 유사한 사용 패턴을 갖는 제2 편집 명령을 확인한 후 상기 제2 편집 명령에 따른 소정의 추천 음성 명령어를 화면에 표시할 수 있다. 이를 통해, 상기 사용자는 상기 제1 편집 명령과 연관된 편집 명령으로 상기 제2 편집 명령에 대한 음성 명령을 추가로 인가할 수 있음을 직관적으로 인지할 수 있다.That is, in the
도 2는 본 발명의 일실시예에 따른 문서 작성 프로그램에서 자주 사용되는 편집 명령에 대한 음성 인식을 가능하게 하는 전자 장치의 동작 방법을 도시한 순서도이다.2 is a flowchart illustrating an operating method of an electronic device that enables voice recognition for an editing command frequently used in a document creation program according to an embodiment of the present invention.
단계(S210)에서는 문서 작성 프로그램에서 지원하는 복수의 편집 명령들 각각에 대응되는 미리 설정된 말뭉치가 저장되어 있는 말뭉치 저장부를 유지한다.In step S210, a corpus storage unit in which a preset corpus corresponding to each of a plurality of editing commands supported by the document creation program is stored is maintained.
단계(S220)에서는 미리 설정된 기간 동안 상기 문서 작성 프로그램에서 사용자에 의해 상기 복수의 편집 명령들이 사용된 횟수를 카운트한 후 상기 복수의 편집 명령들 중 사용 횟수가 많은 순서로 미리 설정된 개수의 편집 명령들을 선별한다.In step S220, after counting the number of times the plurality of editing commands are used by the user in the document creation program for a preset period, a preset number of editing commands are executed in the order of the highest number of use among the plurality of editing commands. select
단계(S230)에서는 상기 말뭉치 저장부로부터 상기 선별된 편집 명령들 각각에 대응되는 말뭉치를 추출한 후 사전 구축되어 있는 음성 합성 모듈에 상기 선별된 편집 명령들 각각에 대응되는 말뭉치를 입력으로 인가하여 음성 합성을 수행함으로써, 상기 선별된 편집 명령들 각각에 대응되는 말뭉치에 대한 합성 음성을 생성한다.In step S230, after extracting a corpus corresponding to each of the selected editing commands from the corpus storage unit, the corpus corresponding to each of the selected editing commands is applied as an input to a pre-built speech synthesis module to synthesize speech By performing , a synthesized voice for the corpus corresponding to each of the selected editing commands is generated.
단계(S240)에서는 상기 선별된 편집 명령들 각각에 대응되는 말뭉치와 상기 선별된 편집 명령들 각각에 대응되는 말뭉치에 대한 합성 음성을 기초로 음성 인식기 구축을 위한 기계학습을 수행함으로써, 상기 선별된 편집 명령들의 실행과 관련된 음성 명령을 인식하기 위한 음성 인식 모듈을 생성한다.In step S240, by performing machine learning for constructing a speech recognizer based on the synthesized speech for the corpus corresponding to each of the selected editing commands and the corpus corresponding to each of the selected editing commands, the selected editing Create a voice recognition module for recognizing a voice command related to the execution of the commands.
이때, 본 발명의 일실시예에 따르면, 상기 전자 장치의 동작 방법은 상기 음성 인식 모듈의 생성이 완료된 이후, 상기 문서 작성 프로그램에서 상기 사용자에 의해 자주 사용되는 편집 명령의 실행을 위한 음성 명령 입력 기능이 실행되고, 마이크로폰을 통해 제1 음성 명령이 인가되면, 상기 음성 인식 모듈을 통해 상기 제1 음성 명령을 인식하여 상기 선별된 편집 명령들 중 상기 제1 음성 명령에 대응하는 편집 명령을 실행하는 단계를 더 포함할 수 있다.At this time, according to an embodiment of the present invention, in the method of operating the electronic device, after the generation of the voice recognition module is completed, a voice command input function for executing an editing command frequently used by the user in the document creation program is executed and when a first voice command is applied through the microphone, recognizing the first voice command through the voice recognition module and executing an editing command corresponding to the first voice command among the selected editing commands may further include.
이때, 본 발명의 일실시예에 따르면, 상기 편집 명령을 실행하는 단계는 상기 마이크로폰을 통해 상기 제1 음성 명령이 인가되면, 상기 음성 인식 모듈을 통해 상기 제1 음성 명령을 인식하여 상기 제1 음성 명령에 대한 인식 텍스트를 생성하고, 상기 선별된 편집 명령들 중 상기 인식 텍스트를 구성하는 문자열과의 LCS의 길이가 최대인 문자열로 구성된 문장을 말뭉치 내에 포함하고 있는 편집 명령을 상기 제1 음성 명령에 대응하는 편집 명령으로 지정하여 실행할 수 있다.At this time, according to an embodiment of the present invention, in the step of executing the editing command, when the first voice command is applied through the microphone, the first voice command is recognized through the voice recognition module to recognize the first voice command. A recognition text for a command is generated, and an editing command including, in a corpus, a sentence consisting of a character string having the maximum LCS length with a character string constituting the recognition text among the selected editing commands is applied to the first voice command. It can be executed by specifying it with the corresponding edit command.
또한, 본 발명의 일실시예에 따르면, 상기 전자 장치의 동작 방법은 상기 미리 설정된 기간을 k(k는 2이상의 자연수)개의 부분 기간들로 분할하여, 상기 문서 작성 프로그램에서 상기 선별된 편집 명령들 각각이 상기 k개의 부분 기간들 내에서 사용된 횟수를 카운트하는 단계, 상기 선별된 편집 명령들 각각에 대해, 상기 k개의 부분 기간들 내에서의 사용 횟수를 성분으로 갖는 k차원의 특징 벡터를 생성하는 단계, 상기 편집 명령을 실행하는 단계를 통해 상기 선별된 편집 명령들 중 상기 제1 음성 명령에 대응하는 편집 명령으로 제1 편집 명령이 실행되면, 상기 제1 편집 명령에 대한 k차원의 특징 벡터를 확인하는 단계, 상기 선별된 편집 명령들 중 상기 제1 편집 명령을 제외한 나머지 편집 명령들에 대한 k차원의 특징 벡터 각각과 상기 제1 편집 명령에 대한 k차원의 특징 벡터 간의 코사인 유사도를 연산하는 단계 및 상기 나머지 편집 명령들 중 상기 코사인 유사도가 최대로 연산된 k차원의 특징 벡터를 갖는 제2 편집 명령을 선택한 후 상기 말뭉치 저장부로부터 상기 제2 편집 명령에 대응하는 말뭉치에 포함된 어느 하나의 문장을 추출하여 상기 추출된 문장을 상기 제2 편집 명령의 실행을 위한 추천 음성 명령어로 화면 상에 표시함과 동시에 상기 추천 음성 명령어에 따른 음성 명령을 인가할 것을 안내하는 안내 메시지를 상기 화면 상에 표시하는 단계를 더 포함할 수 있다.Also, according to an embodiment of the present invention, in the method of operating the electronic device, the preset period is divided into k (k is a natural number greater than or equal to 2) partial periods, and the selected editing commands in the document creation program are counting the number of times each is used within the k partial periods, generating, for each of the selected editing instructions, a k-dimensional feature vector having as a component the number of times of use within the k partial periods When a first editing command is executed as an editing command corresponding to the first voice command among the selected editing commands through the step of executing the editing command, a k-dimensional feature vector for the first editing command confirming, calculating a cosine similarity between each of the k-dimensional feature vectors for the remaining editing commands except for the first editing command among the selected editing commands and the k-dimensional feature vector with respect to the first editing command After selecting a second editing command having a k-dimensional feature vector in which the cosine similarity is calculated at the maximum from among the remaining editing commands, the second editing command is selected from the corpus storage unit and is included in the corpus corresponding to the second editing command. Extracting a sentence, displaying the extracted sentence as a recommended voice command for executing the second editing command, and simultaneously displaying a guidance message guiding to apply a voice command according to the recommended voice command on the screen The step of displaying may be further included.
이상, 도 2를 참조하여 본 발명의 일실시예에 따른 문서 작성 프로그램에서 자주 사용되는 편집 명령에 대한 음성 인식을 가능하게 하는 전자 장치의 동작 방법에 대해 설명하였다. 여기서, 본 발명의 일실시예에 따른 문서 작성 프로그램에서 자주 사용되는 편집 명령에 대한 음성 인식을 가능하게 하는 전자 장치의 동작 방법은 도 1을 이용하여 설명한 문서 작성 프로그램에서 자주 사용되는 편집 명령에 대한 음성 인식을 가능하게 하는 전자 장치(110)의 동작에 대한 구성과 대응될 수 있으므로, 이에 대한 보다 상세한 설명은 생략하기로 한다.In the above, an operating method of an electronic device enabling voice recognition for an editing command frequently used in a document creation program according to an embodiment of the present invention has been described with reference to FIG. 2 . Here, the operating method of the electronic device for enabling voice recognition for an editing command frequently used in a document writing program according to an embodiment of the present invention is a method for editing commands frequently used in the document writing program described with reference to FIG. 1 . Since it may correspond to the configuration of the operation of the
본 발명의 일실시예에 따른 문서 작성 프로그램에서 자주 사용되는 편집 명령에 대한 음성 인식을 가능하게 하는 전자 장치의 동작 방법은 컴퓨터와의 결합을 통해 실행시키기 위한 저장매체에 저장된 컴퓨터 프로그램으로 구현될 수 있다.According to an embodiment of the present invention, the method of operating an electronic device that enables voice recognition for an editing command frequently used in a document creation program may be implemented as a computer program stored in a storage medium for execution through combination with a computer. there is.
또한, 본 발명의 일실시예에 따른 문서 작성 프로그램에서 자주 사용되는 편집 명령에 대한 음성 인식을 가능하게 하는 전자 장치의 동작 방법은 다양한 컴퓨터 수단을 통하여 수행될 수 있는 프로그램 명령 형태로 구현되어 컴퓨터 판독 가능 매체에 기록될 수 있다. 상기 컴퓨터 판독 가능 매체는 프로그램 명령, 데이터 파일, 데이터 구조 등을 단독으로 또는 조합하여 포함할 수 있다. 상기 매체에 기록되는 프로그램 명령은 본 발명을 위하여 특별히 설계되고 구성된 것들이거나 컴퓨터 소프트웨어 당업자에게 공지되어 사용 가능한 것일 수도 있다. 컴퓨터 판독 가능 기록 매체의 예에는 하드 디스크, 플로피 디스크 및 자기 테이프와 같은 자기 매체(magnetic media), CD-ROM, DVD와 같은 광기록 매체(optical media), 플롭티컬 디스크(floptical disk)와 같은 자기-광 매체(magneto-optical media), 및 롬(ROM), 램(RAM), 플래시 메모리 등과 같은 프로그램 명령을 저장하고 수행하도록 특별히 구성된 하드웨어 장치가 포함된다. 프로그램 명령의 예에는 컴파일러에 의해 만들어지는 것과 같은 기계어 코드뿐만 아니라 인터프리터 등을 사용해서 컴퓨터에 의해서 실행될 수 있는 고급 언어 코드를 포함한다. In addition, the method of operating an electronic device that enables voice recognition for an editing command frequently used in a document creation program according to an embodiment of the present invention is implemented in the form of a program command that can be executed through various computer means and is read by a computer. It can be recorded on any available medium. The computer-readable medium may include program instructions, data files, data structures, etc. alone or in combination. The program instructions recorded on the medium may be specially designed and configured for the present invention, or may be known and available to those skilled in the art of computer software. Examples of the computer-readable recording medium include magnetic media such as hard disks, floppy disks and magnetic tapes, optical media such as CD-ROMs and DVDs, and magnetic such as floppy disks. - includes magneto-optical media, and hardware devices specially configured to store and execute program instructions, such as ROM, RAM, flash memory, and the like. Examples of program instructions include not only machine language codes such as those generated by a compiler, but also high-level language codes that can be executed by a computer using an interpreter or the like.
이상과 같이 본 발명에서는 구체적인 구성 요소 등과 같은 특정 사항들과 한정된 실시예 및 도면에 의해 설명되었으나 이는 본 발명의 보다 전반적인 이해를 돕기 위해서 제공된 것일 뿐, 본 발명은 상기의 실시예에 한정되는 것은 아니며, 본 발명이 속하는 분야에서 통상적인 지식을 가진 자라면 이러한 기재로부터 다양한 수정 및 변형이 가능하다.As described above, in the present invention, specific matters such as specific components, etc., and limited embodiments and drawings have been described, but these are only provided to help a more general understanding of the present invention, and the present invention is not limited to the above embodiments. , various modifications and variations are possible from these descriptions by those of ordinary skill in the art to which the present invention pertains.
따라서, 본 발명의 사상은 설명된 실시예에 국한되어 정해져서는 아니되며, 후술하는 특허청구범위뿐 아니라 이 특허청구범위와 균등하거나 등가적 변형이 있는 모든 것들은 본 발명 사상의 범주에 속한다고 할 것이다.Therefore, the spirit of the present invention should not be limited to the described embodiments, and not only the claims described below, but also all of the claims and all equivalents or equivalent modifications to the claims will be said to belong to the scope of the spirit of the present invention. .
110: 문서 작성 프로그램에서 자주 사용되는 편집 명령에 대한 음성 인식을 가능하게 하는 전자 장치
111: 말뭉치 저장부 112: 편집 명령 선별부
113: 음성 합성부 114: 음성 인식 모듈 생성부
115: 음성 명령 실행부 116: 부분 카운트부
117: 특징 벡터 생성부 118: 특징 벡터 확인부
119: 코사인 유사도 연산부 120: 추천 음성 명령어 표시부110: Electronic device that enables voice recognition for frequently used editing commands in a document creation program
111: corpus storage unit 112: edit command selection unit
113: voice synthesis unit 114: voice recognition module generation unit
115: voice command execution unit 116: partial count unit
117: feature vector generator 118: feature vector checker
119: cosine similarity calculating unit 120: recommended voice command display unit
Claims (10)
미리 설정된 기간 동안 상기 문서 작성 프로그램에서 사용자에 의해 상기 복수의 편집 명령들이 사용된 횟수를 카운트한 후 상기 복수의 편집 명령들 중 사용 횟수가 많은 순서로 미리 설정된 개수의 편집 명령들을 선별하는 편집 명령 선별부;
상기 미리 설정된 기간을 k(k는 2이상의 자연수)개의 부분 기간들로 분할하여, 상기 문서 작성 프로그램에서 상기 선별된 편집 명령들 각각이 상기 k개의 부분 기간들 내에서 사용된 횟수를 카운트하는 부분 카운트부;
상기 선별된 편집 명령들 각각에 대해, 상기 k개의 부분 기간들 내에서의 사용 횟수를 성분으로 갖는 k차원의 특징 벡터를 생성하는 특징 벡터 생성부;
상기 말뭉치 저장부로부터 상기 선별된 편집 명령들 각각에 대응되는 말뭉치를 추출한 후 사전 구축되어 있는 음성 합성 모듈에 상기 선별된 편집 명령들 각각에 대응되는 말뭉치를 입력으로 인가하여 음성 합성을 수행함으로써, 상기 선별된 편집 명령들 각각에 대응되는 말뭉치에 대한 합성 음성을 생성하는 음성 합성부;
상기 선별된 편집 명령들 각각에 대응되는 말뭉치와 상기 선별된 편집 명령들 각각에 대응되는 말뭉치에 대한 합성 음성을 기초로 음성 인식기 구축을 위한 기계학습을 수행함으로써, 상기 선별된 편집 명령들의 실행과 관련된 음성 명령을 인식하기 위한 음성 인식 모듈을 생성하는 음성 인식 모듈 생성부;
상기 음성 인식 모듈의 생성이 완료된 이후, 상기 문서 작성 프로그램에서 상기 사용자에 의해 자주 사용되는 편집 명령의 실행을 위한 음성 명령 입력 기능이 실행되고, 마이크로폰을 통해 제1 음성 명령이 인가되면, 상기 음성 인식 모듈을 통해 상기 제1 음성 명령을 인식하여 상기 선별된 편집 명령들 중 상기 제1 음성 명령에 대응하는 편집 명령을 실행하는 음성 명령 실행부;
상기 음성 명령 실행부에 의해 상기 선별된 편집 명령들 중 상기 제1 음성 명령에 대응하는 편집 명령으로 제1 편집 명령이 실행되면, 상기 제1 편집 명령에 대한 k차원의 특징 벡터를 확인하는 특징 벡터 확인부;
상기 선별된 편집 명령들 중 상기 제1 편집 명령을 제외한 나머지 편집 명령들에 대한 k차원의 특징 벡터 각각과 상기 제1 편집 명령에 대한 k차원의 특징 벡터 간의 코사인 유사도를 연산하는 코사인 유사도 연산부; 및
상기 나머지 편집 명령들 중 상기 코사인 유사도가 최대로 연산된 k차원의 특징 벡터를 갖는 제2 편집 명령을 선택한 후 상기 말뭉치 저장부로부터 상기 제2 편집 명령에 대응하는 말뭉치에 포함된 어느 하나의 문장을 추출하여 상기 추출된 문장을 상기 제2 편집 명령의 실행을 위한 추천 음성 명령어로 화면 상에 표시함과 동시에 상기 추천 음성 명령어에 따른 음성 명령을 인가할 것을 안내하는 안내 메시지를 상기 화면 상에 표시하는 추천 음성 명령어 표시부
를 포함하는 문서 작성 프로그램에서 자주 사용되는 편집 명령에 대한 음성 인식을 가능하게 하는 전자 장치.a corpus storage unit in which a preset corpus corresponding to each of a plurality of editing commands supported by the document creation program is stored;
After counting the number of times the plurality of editing commands are used by the user in the document creation program for a preset period, edit command selection for selecting a preset number of edit commands in the order of the highest number of use among the plurality of editing commands wealth;
Partial count for dividing the preset period into k (k is a natural number greater than or equal to 2) partial periods to count the number of times each of the selected editing commands in the document creation program is used within the k partial periods wealth;
a feature vector generator for generating, for each of the selected editing commands, a k-dimensional feature vector having as a component the number of times of use within the k partial periods;
After extracting a corpus corresponding to each of the selected editing commands from the corpus storage unit, the corpus corresponding to each of the selected editing commands is applied as an input to a pre-established voice synthesis module to perform voice synthesis. a voice synthesizer for generating a synthesized voice for a corpus corresponding to each of the selected editing commands;
By performing machine learning for constructing a speech recognizer based on a corpus corresponding to each of the selected editing commands and a synthesized voice for a corpus corresponding to each of the selected editing commands, execution of the selected editing commands is related a voice recognition module generator generating a voice recognition module for recognizing a voice command;
After the creation of the voice recognition module is completed, a voice command input function for executing an editing command frequently used by the user is executed in the document creation program, and when a first voice command is applied through a microphone, the voice recognition a voice command execution unit recognizing the first voice command through a module and executing an editing command corresponding to the first voice command among the selected editing commands;
When a first editing command is executed as an editing command corresponding to the first voice command among the editing commands selected by the voice command execution unit, a feature vector for confirming a k-dimensional feature vector for the first editing command confirmation unit;
a cosine similarity calculator configured to calculate a cosine similarity between each of the k-dimensional feature vectors for the remaining editing commands except for the first editing command among the selected editing commands and the k-dimensional feature vectors for the first editing command; and
After selecting a second editing command having a k-dimensional feature vector in which the cosine similarity is calculated at the maximum among the remaining editing commands, any one sentence included in the corpus corresponding to the second editing command is selected from the corpus storage unit. Extracting and displaying the extracted sentence as a recommended voice command for executing the second editing command on the screen and simultaneously displaying a guide message guiding to apply a voice command according to the recommended voice command on the screen Recommended voice command display
An electronic device that enables speech recognition for editing commands frequently used in document creation programs comprising:
상기 음성 명령 실행부는
상기 마이크로폰을 통해 상기 제1 음성 명령이 인가되면, 상기 음성 인식 모듈을 통해 상기 제1 음성 명령을 인식하여 상기 제1 음성 명령에 대한 인식 텍스트를 생성하고, 상기 선별된 편집 명령들 중 상기 인식 텍스트를 구성하는 문자열과의 최장 공통 부분 수열(Longest Common Subsequence: LCS)의 길이가 최대인 문자열로 구성된 문장을 말뭉치 내에 포함하고 있는 편집 명령을 상기 제1 음성 명령에 대응하는 편집 명령으로 지정하여 실행하는 문서 작성 프로그램에서 자주 사용되는 편집 명령에 대한 음성 인식을 가능하게 하는 전자 장치.According to claim 1,
The voice command execution unit
When the first voice command is applied through the microphone, the first voice command is recognized through the voice recognition module to generate recognition text for the first voice command, and the recognition text among the selected editing commands An editing command including a sentence consisting of a character string having the longest length of the longest common subsequence (LCS) with the character string constituting the corpus is designated as the editing command corresponding to the first voice command and executed An electronic device that enables speech recognition for frequently used editing commands in document creation programs.
미리 설정된 기간 동안 상기 문서 작성 프로그램에서 사용자에 의해 상기 복수의 편집 명령들이 사용된 횟수를 카운트한 후 상기 복수의 편집 명령들 중 사용 횟수가 많은 순서로 미리 설정된 개수의 편집 명령들을 선별하는 단계;
상기 미리 설정된 기간을 k(k는 2이상의 자연수)개의 부분 기간들로 분할하여, 상기 문서 작성 프로그램에서 상기 선별된 편집 명령들 각각이 상기 k개의 부분 기간들 내에서 사용된 횟수를 카운트하는 단계;
상기 선별된 편집 명령들 각각에 대해, 상기 k개의 부분 기간들 내에서의 사용 횟수를 성분으로 갖는 k차원의 특징 벡터를 생성하는 단계;
상기 말뭉치 저장부로부터 상기 선별된 편집 명령들 각각에 대응되는 말뭉치를 추출한 후 사전 구축되어 있는 음성 합성 모듈에 상기 선별된 편집 명령들 각각에 대응되는 말뭉치를 입력으로 인가하여 음성 합성을 수행함으로써, 상기 선별된 편집 명령들 각각에 대응되는 말뭉치에 대한 합성 음성을 생성하는 단계;
상기 선별된 편집 명령들 각각에 대응되는 말뭉치와 상기 선별된 편집 명령들 각각에 대응되는 말뭉치에 대한 합성 음성을 기초로 음성 인식기 구축을 위한 기계학습을 수행함으로써, 상기 선별된 편집 명령들의 실행과 관련된 음성 명령을 인식하기 위한 음성 인식 모듈을 생성하는 단계;
상기 음성 인식 모듈의 생성이 완료된 이후, 상기 문서 작성 프로그램에서 상기 사용자에 의해 자주 사용되는 편집 명령의 실행을 위한 음성 명령 입력 기능이 실행되고, 마이크로폰을 통해 제1 음성 명령이 인가되면, 상기 음성 인식 모듈을 통해 상기 제1 음성 명령을 인식하여 상기 선별된 편집 명령들 중 상기 제1 음성 명령에 대응하는 편집 명령을 실행하는 단계;
상기 편집 명령을 실행하는 단계를 통해 상기 선별된 편집 명령들 중 상기 제1 음성 명령에 대응하는 편집 명령으로 제1 편집 명령이 실행되면, 상기 제1 편집 명령에 대한 k차원의 특징 벡터를 확인하는 단계;
상기 선별된 편집 명령들 중 상기 제1 편집 명령을 제외한 나머지 편집 명령들에 대한 k차원의 특징 벡터 각각과 상기 제1 편집 명령에 대한 k차원의 특징 벡터 간의 코사인 유사도를 연산하는 단계; 및
상기 나머지 편집 명령들 중 상기 코사인 유사도가 최대로 연산된 k차원의 특징 벡터를 갖는 제2 편집 명령을 선택한 후 상기 말뭉치 저장부로부터 상기 제2 편집 명령에 대응하는 말뭉치에 포함된 어느 하나의 문장을 추출하여 상기 추출된 문장을 상기 제2 편집 명령의 실행을 위한 추천 음성 명령어로 화면 상에 표시함과 동시에 상기 추천 음성 명령어에 따른 음성 명령을 인가할 것을 안내하는 안내 메시지를 상기 화면 상에 표시하는 단계
를 포함하는 문서 작성 프로그램에서 자주 사용되는 편집 명령에 대한 음성 인식을 가능하게 하는 전자 장치의 동작 방법.maintaining a corpus storage unit in which a preset corpus corresponding to each of a plurality of editing commands supported by the document creation program is stored;
counting the number of times the plurality of editing commands are used by the user in the document creation program during a preset period, and then selecting a preset number of edit commands from among the plurality of editing commands in an order of the greatest number of use;
dividing the preset period into k (k is a natural number equal to or greater than 2) partial periods, and counting the number of times each of the selected editing commands is used within the k partial periods in the document creation program;
generating, for each of the selected editing instructions, a k-dimensional feature vector having as a component the number of uses within the k partial periods;
After extracting a corpus corresponding to each of the selected editing commands from the corpus storage unit, the corpus corresponding to each of the selected editing commands is applied as an input to a pre-established voice synthesis module to perform voice synthesis. generating a synthesized voice for a corpus corresponding to each of the selected editing commands;
By performing machine learning for constructing a speech recognizer based on a corpus corresponding to each of the selected editing commands and a synthesized voice for a corpus corresponding to each of the selected editing commands, execution of the selected editing commands is related generating a voice recognition module for recognizing a voice command;
After the creation of the voice recognition module is completed, a voice command input function for executing an editing command frequently used by the user is executed in the document creation program, and when a first voice command is applied through a microphone, the voice recognition recognizing the first voice command through a module and executing an editing command corresponding to the first voice command among the selected editing commands;
When a first editing command is executed as an editing command corresponding to the first voice command among the selected editing commands through the step of executing the editing command, a k-dimensional feature vector for the first editing command is checked. step;
calculating a cosine similarity between each of the k-dimensional feature vectors for the remaining editing commands excluding the first editing command among the selected editing commands and the k-dimensional feature vectors for the first editing command; and
After selecting a second editing command having a k-dimensional feature vector in which the cosine similarity is calculated at the maximum among the remaining editing commands, any one sentence included in the corpus corresponding to the second editing command is selected from the corpus storage unit. Extracting and displaying the extracted sentence as a recommended voice command for executing the second editing command on the screen and simultaneously displaying a guide message guiding to apply a voice command according to the recommended voice command on the screen step
An operating method of an electronic device that enables voice recognition for editing commands frequently used in a document creation program comprising a.
상기 편집 명령을 실행하는 단계는
상기 마이크로폰을 통해 상기 제1 음성 명령이 인가되면, 상기 음성 인식 모듈을 통해 상기 제1 음성 명령을 인식하여 상기 제1 음성 명령에 대한 인식 텍스트를 생성하고, 상기 선별된 편집 명령들 중 상기 인식 텍스트를 구성하는 문자열과의 최장 공통 부분 수열(Longest Common Subsequence: LCS)의 길이가 최대인 문자열로 구성된 문장을 말뭉치 내에 포함하고 있는 편집 명령을 상기 제1 음성 명령에 대응하는 편집 명령으로 지정하여 실행하는 문서 작성 프로그램에서 자주 사용되는 편집 명령에 대한 음성 인식을 가능하게 하는 전자 장치의 동작 방법.6. The method of claim 5,
The step of executing the editing command is
When the first voice command is applied through the microphone, the first voice command is recognized through the voice recognition module to generate recognition text for the first voice command, and the recognition text among the selected editing commands An editing command including a sentence consisting of a character string having the longest length of the longest common subsequence (LCS) with the character string constituting the corpus is designated as the editing command corresponding to the first voice command and executed A method of operating an electronic device that enables voice recognition for editing commands frequently used in document creation programs.
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
KR1020200031774A KR102375508B1 (en) | 2020-03-16 | 2020-03-16 | Electronic device that enables speech recognition of editing commands frequently used in document editing programs and operating method thereof |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
KR1020200031774A KR102375508B1 (en) | 2020-03-16 | 2020-03-16 | Electronic device that enables speech recognition of editing commands frequently used in document editing programs and operating method thereof |
Publications (2)
Publication Number | Publication Date |
---|---|
KR20210115671A KR20210115671A (en) | 2021-09-27 |
KR102375508B1 true KR102375508B1 (en) | 2022-03-17 |
Family
ID=77925645
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
KR1020200031774A Active KR102375508B1 (en) | 2020-03-16 | 2020-03-16 | Electronic device that enables speech recognition of editing commands frequently used in document editing programs and operating method thereof |
Country Status (1)
Country | Link |
---|---|
KR (1) | KR102375508B1 (en) |
Families Citing this family (1)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
KR102826315B1 (en) * | 2022-10-26 | 2025-06-27 | 주식회사 인텔로이드 | Method, speech recognition device and computer program for distinguishing text output sentences and editing command sentences based on STT(Speech-To-Text) |
Citations (2)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
JP2003518266A (en) * | 1999-12-20 | 2003-06-03 | コーニンクレッカ フィリップス エレクトロニクス エヌ ヴィ | Speech reproduction for text editing of speech recognition system |
KR102026479B1 (en) * | 2019-03-06 | 2019-09-30 | 주식회사 다이얼로그디자인에이전시 | System for providing parallel processing platform based artificial intelligence speech recognition service |
Family Cites Families (3)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
KR20130071161A (en) * | 2011-12-20 | 2013-06-28 | 주식회사 인프라웨어 | Function activating method of word processor using speech recognition |
US10317992B2 (en) * | 2014-09-25 | 2019-06-11 | Microsoft Technology Licensing, Llc | Eye gaze for spoken language understanding in multi-modal conversational interactions |
KR102068182B1 (en) * | 2017-04-21 | 2020-01-20 | 엘지전자 주식회사 | Voice recognition apparatus and home appliance system |
-
2020
- 2020-03-16 KR KR1020200031774A patent/KR102375508B1/en active Active
Patent Citations (2)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
JP2003518266A (en) * | 1999-12-20 | 2003-06-03 | コーニンクレッカ フィリップス エレクトロニクス エヌ ヴィ | Speech reproduction for text editing of speech recognition system |
KR102026479B1 (en) * | 2019-03-06 | 2019-09-30 | 주식회사 다이얼로그디자인에이전시 | System for providing parallel processing platform based artificial intelligence speech recognition service |
Also Published As
Publication number | Publication date |
---|---|
KR20210115671A (en) | 2021-09-27 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
De Vries et al. | A smartphone-based ASR data collection tool for under-resourced languages | |
US8015009B2 (en) | Speech derived from text in computer presentation applications | |
US11322133B2 (en) | Expressive text-to-speech utilizing contextual word-level style tokens | |
CN108288468A (en) | Audio recognition method and device | |
CN110334197A (en) | Corpus processing method and relevant apparatus | |
JP2021182438A (en) | Moving image generating method, device, electronic apparatus, and computer readable medium | |
TW201510774A (en) | Apparatus and method for selecting a control object by voice recognition | |
US20050256717A1 (en) | Dialog system, dialog system execution method, and computer memory product | |
CN110782880A (en) | Training method and device of rhythm generation model | |
McAuliffe et al. | Polyglot and Speech Corpus Tools: A System for Representing, Integrating, and Querying Speech Corpora. | |
CN116320607A (en) | Intelligent video generation method, device, equipment and medium | |
KR102375508B1 (en) | Electronic device that enables speech recognition of editing commands frequently used in document editing programs and operating method thereof | |
Kayte et al. | Speech synthesis system for marathi accent using festvox | |
CN117894293A (en) | Speech synthesis method, device, computer equipment and storage medium | |
CN114880516A (en) | Training method of lyric generation model, lyric generation method and computer equipment | |
KR102375507B1 (en) | Electronic device that supports retrieval of objects from document by matching objects and keywords inserted into document and operating method thereof | |
KR102168316B1 (en) | Electronic terminal device having a touch screen for performing a typing correction process on an input character and operating method thereof | |
KR20210138894A (en) | Electronic device capable of line break in sentence unit on spreadsheet and operating method thereof | |
KR102500730B1 (en) | Electronic apparatus that provides a translation function that maintains the style information of the sentence and operating method thereof | |
KR102266061B1 (en) | Electronic device capable of summarizing speech data using speech to text conversion technology and time information and operating method thereof | |
Shakil et al. | Cognitive Devanagari (Marathi) text-to-speech system | |
JP3958908B2 (en) | Transcription text automatic generation device, speech recognition device, and recording medium | |
Sim et al. | ICMI'12 grand challenge: haptic voice recognition | |
CN117711373A (en) | Text phoneme label information generation method and device and computer equipment | |
JP4206253B2 (en) | Automatic voice response apparatus and automatic voice response method |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PA0109 | Patent application |
Patent event code: PA01091R01D Comment text: Patent Application Patent event date: 20200316 |
|
PA0201 | Request for examination | ||
PE0902 | Notice of grounds for rejection |
Comment text: Notification of reason for refusal Patent event date: 20210720 Patent event code: PE09021S01D |
|
PG1501 | Laying open of application | ||
E701 | Decision to grant or registration of patent right | ||
PE0701 | Decision of registration |
Patent event code: PE07011S01D Comment text: Decision to Grant Registration Patent event date: 20220125 |
|
GRNT | Written decision to grant | ||
PR0701 | Registration of establishment |
Comment text: Registration of Establishment Patent event date: 20220314 Patent event code: PR07011E01D |
|
PR1002 | Payment of registration fee |
Payment date: 20220314 End annual number: 3 Start annual number: 1 |
|
PG1601 | Publication of registration | ||
PR1001 | Payment of annual fee |
Payment date: 20250304 Start annual number: 4 End annual number: 4 |