KR102711295B1 - 음성 인식 장치 및 그것을 이용한 음성 인식 속도 개선 방법 - Google Patents
음성 인식 장치 및 그것을 이용한 음성 인식 속도 개선 방법 Download PDFInfo
- Publication number
- KR102711295B1 KR102711295B1 KR1020200077320A KR20200077320A KR102711295B1 KR 102711295 B1 KR102711295 B1 KR 102711295B1 KR 1020200077320 A KR1020200077320 A KR 1020200077320A KR 20200077320 A KR20200077320 A KR 20200077320A KR 102711295 B1 KR102711295 B1 KR 102711295B1
- Authority
- KR
- South Korea
- Prior art keywords
- word
- cost
- graph
- speech recognition
- word string
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Active
Links
- 238000000034 method Methods 0.000 title claims abstract description 46
- 238000013138 pruning Methods 0.000 claims abstract description 65
- 230000008569 process Effects 0.000 claims abstract description 15
- 230000000306 recurrent effect Effects 0.000 claims description 13
- 238000013528 artificial neural network Methods 0.000 claims description 12
- 244000141353 Prunus domestica Species 0.000 description 10
- 238000010586 diagram Methods 0.000 description 10
- 238000004891 communication Methods 0.000 description 4
- 238000005516 engineering process Methods 0.000 description 4
- 230000009467 reduction Effects 0.000 description 3
- 230000003068 static effect Effects 0.000 description 3
- 230000006870 function Effects 0.000 description 2
- 238000005457 optimization Methods 0.000 description 2
- 238000012545 processing Methods 0.000 description 2
- 230000002411 adverse Effects 0.000 description 1
- 238000004364 calculation method Methods 0.000 description 1
- 238000012937 correction Methods 0.000 description 1
- 230000007423 decrease Effects 0.000 description 1
- 230000000694 effects Effects 0.000 description 1
- 239000000284 extract Substances 0.000 description 1
- 238000012986 modification Methods 0.000 description 1
- 230000004048 modification Effects 0.000 description 1
- 238000010606 normalization Methods 0.000 description 1
Classifications
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L15/00—Speech recognition
- G10L15/02—Feature extraction for speech recognition; Selection of recognition unit
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L15/00—Speech recognition
- G10L15/08—Speech classification or search
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L15/00—Speech recognition
- G10L15/28—Constructional details of speech recognition systems
- G10L15/30—Distributed recognition, e.g. in client-server systems, for mobile phones or network applications
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L15/00—Speech recognition
- G10L15/02—Feature extraction for speech recognition; Selection of recognition unit
- G10L2015/027—Syllables being the recognition units
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L15/00—Speech recognition
- G10L15/08—Speech classification or search
- G10L2015/085—Methods for reducing search complexity, pruning
Landscapes
- Engineering & Computer Science (AREA)
- Computational Linguistics (AREA)
- Health & Medical Sciences (AREA)
- Audiology, Speech & Language Pathology (AREA)
- Human Computer Interaction (AREA)
- Physics & Mathematics (AREA)
- Acoustics & Sound (AREA)
- Multimedia (AREA)
- Computer Vision & Pattern Recognition (AREA)
- Machine Translation (AREA)
Abstract
Description
도 2는 본 발명의 실시예에 따른 음성 인식 장치를 도시한 구성도이다.
도 3은 본 발명의 실시예에 따른 음성 인식 장치의 음성 인식 속도 개선 방법을 나타낸 흐름도이다.
도 4 내지 도 8은 본 발명의 실시예에 따른 가지치기 과정을 설명하기 위한 예시도이다.
도 9는 본 발명의 실시예에 따른 최적 경로를 나타낸 예시도이다.
도 10은 본 발명의 실시예에 따른 컴퓨팅 장치의 하드웨어 구성도이다.
Claims (11)
- 적어도 하나의 프로세스에 의해 동작하는 컴퓨팅 장치가 음성 인식 속도를 개선하는 방법으로서,
발화된 문장을 입력받으면, 상기 문장의 단어들을 순차적으로 연결한 복수의 단어열로 구성된 제1 그래프를 생성하고, 상기 제1 그래프에 포함된 단어별 초기 비용에 기초하여 단어열에 대한 초기 비용들의 합이 최소가 되는 기준 스코어를 선정하는 단계,
상기 제1 그래프에서 상기 문장의 음절 순서에 따라 단어를 선택하고, 선택된 단어가 연결되는 하나의 단어열에 따라 인식될 비용을 재산출하여 해당 단어열에 대한 전체 비용을 추정하고 상기 전체 비용이 상기 기준 스코어보다 큰 값을 가지면 해당 단어열로 연결되는 상기 선택된 단어를 가지치기하는 단계, 그리고
상기 제1 그래프의 복수의 단어열에 대해 가지치기를 완료하여 제2 그래프를 생성하고, 상기 제2 그래프의 단어열들 중에서 단어별 재산출한 비용들의 합이 최소가 되는 하나의 단어열을 선택하는 단계,
를 포함하는 음성 인식 속도 개선 방법. - 제1항에서,
상기 기준 스코어를 선정하는 단계는,
백오프 엔그램(back-off N-gram)을 이용하여 상기 제1 그래프를 생성하고, 단어열에서 단어별로 연결 단어와의 관계에 기초하여 해당 단어를 인식하기 위한 초기 비용을 산출하는 음성 인식 속도 개선 방법. - 제2항에서,
상기 선택된 단어를 가지치기하는 단계는,
순환 신경망 언어 모델(Recurrent Neural Network Language Model, RNN-LM)을 이용하여 해당 단어열에서 상기 선택된 단어를 인식하기 위해 재산출한 비용을 최종 비용으로 산출하는 음성 인식 속도 개선 방법. - 제1항에서,
상기 선택된 단어를 가지치기하는 단계는,
상기 선택된 단어를 포함하여 상기 선택된 단어의 이전 단어에 할당된 최종 비용과 상기 선택된 단어의 이후 단어에 할당된 초기 비용을 모두 합한 값을 해당 단어열의 상기 전체 비용으로 추정하는 음성 인식 속도 개선 방법. - 제4항에서,
상기 선택된 단어를 가지치기하는 단계는,
상기 제2 그래프에서 최초로 하나의 단어열을 구성하는 단어들에 최종 비용이 모두 할당되면, 해당 단어열에 대한 초기 비용들의 합과 최종 비용들의 합 간의 차이값을 보상값으로 설정하는 음성 인식 속도 개선 방법. - 제5항에서,
상기 보상값이 설정되면, 다음 단어열에 대한 상기 전체 비용을 산출할 때 상기 보상값을 포함하는 음성 인식 속도 개선 방법. - 음성 인식 장치로서,
메모리, 그리고 상기 메모리에 로드된 프로그램의 명령들(instructions)을 실행하는 적어도 하나의 프로세서를 포함하고,
상기 프로그램은
발화된 문장에 대한 음성 인식을 수행하여 상기 문장의 음절 순서에 따른 단어들을 순차적으로 연결한 단어열들로 구성된 제1 그래프(First lattice Tree)를 획득하고, 단어열별로 상기 단어열에 포함된 단어마다 백오프 엔그램(back-off N-gram)을 통해 해당 단어를 인식하기 위한 초기 비용을 계산하면, 상기 단어열로 인식하기 위한 전체 비용이 최소가 되는 값을 기준 스코어로 선정하는 단계,
상기 문장의 음절 순서에 따라 단어를 선택하고, 선택한 단어에서 연결되는 단어열마다 순환신경망 언어 모델(Recurrent Neural Network Language Model, RNN-LM)을 통해 상기 선택한 단어를 인식하기 위한 최종 비용을 산출하면, 상기 최종 비용을 포함하여 해당 단어열에 대한 전체 비용을 산출하는 단계,
해당 단어열에 대한 전체 비용이 상기 기준 스코어보다 큰 값을 가지면 해당 단어열로 연결되는 상기 선택한 단어를 가지치기하는 단계, 그리고
상기 제1 그래프에 대해 가지치기를 완료하여 제2 그래프를 획득하면, 상기 제2 그래프의 단어열 중에서 전체 비용이 최소가 되는 단어열을 선택하는 단계
을 실행하도록 기술된 명령들을 포함하는 음성 인식 장치. - 제7항에서,
상기 기준 스코어를 산출하는 단계는,
단어열별로 상기 단어열에 포함된 단어마다 해당 단어를 인식하는 데 소요되는 비용을 조건부 확률값으로 계산하는 단계,
상기 발화된 문장을 음향 모델에 적용하여 음성 입력 프레임 단위로 음향 모델 스코어를 할당하는 단계, 그리고
단어별로 상기 조건부 확률값과 상기 음향 모델 스코어를 조합하여 각 단어들에 대한 초기 비용을 할당하는 단계를 포함하는 음성 인식 장치. - 제8항에서,
상기 전체 비용을 산출하는 단계는,
상기 선택된 단어를 포함하여 상기 선택된 단어의 이전 단어에 할당된 최종 비용과 상기 선택된 단어의 이후 단어에 할당된 초기 비용을 모두 합한 값을 상기 전체 비용으로 산출하는 음성 인식 장치. - 제9항에서,
상기 전체 비용을 산출하는 단계는,
최초로 하나의 단어열에 포함된 단어들에 대해 최종 비용을 모두 산출하면 해당 단어열에 대한 최종 비용들의 합과 초기 비용들의 합간의 차이값을 보상값으로 선정하고, 다음 단어열의 전체 비용을 산출할 때 상기 보상값을 포함하는 음성 인식 장치. - 제10항에서,
상기 기준 스코어로 선정하는 단계는,
상기 전체 비용이 최소가 되는 값에 빔(Beam) 스코어 값을 더하여 기준 스코어를 선정하며, 상기 빔 스코어의 값이 작을수록 해당 단어를 제외하는 상기 가지치기가 타이트하게 수행되는 음성 인식 장치.
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
KR1020200077320A KR102711295B1 (ko) | 2020-06-24 | 2020-06-24 | 음성 인식 장치 및 그것을 이용한 음성 인식 속도 개선 방법 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
KR1020200077320A KR102711295B1 (ko) | 2020-06-24 | 2020-06-24 | 음성 인식 장치 및 그것을 이용한 음성 인식 속도 개선 방법 |
Publications (2)
Publication Number | Publication Date |
---|---|
KR20210158667A KR20210158667A (ko) | 2021-12-31 |
KR102711295B1 true KR102711295B1 (ko) | 2024-09-26 |
Family
ID=79177788
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
KR1020200077320A Active KR102711295B1 (ko) | 2020-06-24 | 2020-06-24 | 음성 인식 장치 및 그것을 이용한 음성 인식 속도 개선 방법 |
Country Status (1)
Country | Link |
---|---|
KR (1) | KR102711295B1 (ko) |
Citations (2)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
JP2001242884A (ja) | 2000-02-28 | 2001-09-07 | Sony Corp | 音声認識装置および音声認識方法、並びに記録媒体 |
JP2003140685A (ja) | 2001-10-30 | 2003-05-16 | Nippon Hoso Kyokai <Nhk> | 連続音声認識装置およびそのプログラム |
-
2020
- 2020-06-24 KR KR1020200077320A patent/KR102711295B1/ko active Active
Patent Citations (2)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
JP2001242884A (ja) | 2000-02-28 | 2001-09-07 | Sony Corp | 音声認識装置および音声認識方法、並びに記録媒体 |
JP2003140685A (ja) | 2001-10-30 | 2003-05-16 | Nippon Hoso Kyokai <Nhk> | 連続音声認識装置およびそのプログラム |
Also Published As
Publication number | Publication date |
---|---|
KR20210158667A (ko) | 2021-12-31 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
US10152971B2 (en) | System and method for advanced turn-taking for interactive spoken dialog systems | |
CN108305634B (zh) | 解码方法、解码器及存储介质 | |
EP0867857B1 (en) | Enrolment in speech recognition | |
US6754626B2 (en) | Creating a hierarchical tree of language models for a dialog system based on prompt and dialog context | |
US8019602B2 (en) | Automatic speech recognition learning using user corrections | |
EP4018437B1 (en) | Optimizing a keyword spotting system | |
US6195635B1 (en) | User-cued speech recognition | |
US20140019131A1 (en) | Method of recognizing speech and electronic device thereof | |
US9318105B1 (en) | Method, system, and computer readable medium for comparing phonetic similarity of return words to resolve ambiguities during voice recognition | |
CN112242144A (zh) | 基于流式注意力模型的语音识别解码方法、装置、设备以及计算机可读存储介质 | |
JP2017027044A (ja) | 音響点数を計算する装置及び方法、音声を認識する装置及び方法並びに電子装置 | |
US20120095766A1 (en) | Speech recognition apparatus and method | |
JP7447202B2 (ja) | 音声認識のためのシステムおよび方法 | |
JP6030135B2 (ja) | 音声認識システムにおいて、誤った肯定を低減すること | |
JP2017076127A (ja) | 音響モデル入力データの正規化装置及び方法と、音声認識装置 | |
KR20210123545A (ko) | 사용자 피드백 기반 대화 서비스 제공 방법 및 장치 | |
KR20160098910A (ko) | 음성 인식 데이터 베이스 확장 방법 및 장치 | |
CN114627896A (zh) | 语音评测方法、装置、设备及存储介质 | |
KR102758478B1 (ko) | 음성 인식 방법 및 장치 | |
KR102711295B1 (ko) | 음성 인식 장치 및 그것을 이용한 음성 인식 속도 개선 방법 | |
CN100431003C (zh) | 一种基于混淆网络的语音解码方法 | |
US12019997B2 (en) | Method of training real-time simultaneous interpretation model based on external alignment information, and method and system for simultaneous interpretation based on external alignment information | |
JP2938865B1 (ja) | 音声認識装置 | |
JPWO2020122974A5 (ko) | ||
JP2008293098A (ja) | 応答スコア情報生成装置、対話処理装置 |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PA0109 | Patent application |
Patent event code: PA01091R01D Comment text: Patent Application Patent event date: 20200624 |
|
PA0201 | Request for examination |
Patent event code: PA02012R01D Patent event date: 20210610 Comment text: Request for Examination of Application Patent event code: PA02011R01I Patent event date: 20200624 Comment text: Patent Application |
|
PG1501 | Laying open of application | ||
PE0701 | Decision of registration |
Patent event code: PE07011S01D Comment text: Decision to Grant Registration Patent event date: 20240628 |
|
GRNT | Written decision to grant | ||
PR0701 | Registration of establishment |
Comment text: Registration of Establishment Patent event date: 20240924 Patent event code: PR07011E01D |
|
PR1002 | Payment of registration fee |
Payment date: 20240924 End annual number: 3 Start annual number: 1 |
|
PG1601 | Publication of registration |