KR102117082B1 - 음성 인식 방법 및 음성 인식 장치 - Google Patents
음성 인식 방법 및 음성 인식 장치 Download PDFInfo
- Publication number
- KR102117082B1 KR102117082B1 KR1020140192711A KR20140192711A KR102117082B1 KR 102117082 B1 KR102117082 B1 KR 102117082B1 KR 1020140192711 A KR1020140192711 A KR 1020140192711A KR 20140192711 A KR20140192711 A KR 20140192711A KR 102117082 B1 KR102117082 B1 KR 102117082B1
- Authority
- KR
- South Korea
- Prior art keywords
- word
- sequence
- syllable
- speech recognition
- recognition
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Active
Links
Images
Classifications
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L15/00—Speech recognition
- G10L15/08—Speech classification or search
- G10L15/18—Speech classification or search using natural language modelling
- G10L15/183—Speech classification or search using natural language modelling using context dependencies, e.g. language models
- G10L15/187—Phonemic context, e.g. pronunciation rules, phonotactical constraints or phoneme n-grams
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L15/00—Speech recognition
- G10L15/02—Feature extraction for speech recognition; Selection of recognition unit
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L15/00—Speech recognition
- G10L15/26—Speech to text systems
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L15/00—Speech recognition
- G10L15/28—Constructional details of speech recognition systems
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L15/00—Speech recognition
- G10L15/02—Feature extraction for speech recognition; Selection of recognition unit
- G10L2015/025—Phonemes, fenemes or fenones being the recognition units
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L15/00—Speech recognition
- G10L15/02—Feature extraction for speech recognition; Selection of recognition unit
- G10L2015/027—Syllables being the recognition units
Landscapes
- Engineering & Computer Science (AREA)
- Computational Linguistics (AREA)
- Health & Medical Sciences (AREA)
- Audiology, Speech & Language Pathology (AREA)
- Human Computer Interaction (AREA)
- Physics & Mathematics (AREA)
- Acoustics & Sound (AREA)
- Multimedia (AREA)
- Computer Vision & Pattern Recognition (AREA)
- Artificial Intelligence (AREA)
- Machine Translation (AREA)
Abstract
Description
도 2는 일실시예에 따라 음성 인식 방법을 나타낸 도면이다.
도 3은 일실시예에 따라 임계값보다 낮은 인식률을 가지는 어절 엘리먼트에 대응하는 음절 시퀀스를 생성하는 예시를 설명하기 위한 도면이다.
도 4는 일실시예에 따라 음성 인식 방법이 적용되는 예시를 설명하기 위한 도면이다.
도 5는 일실시예에 따라 특정 언어에서 다양한 구조를 가지는 어절을 설명하기 위한 도면이다.
도 6은 일실시예에 따른 음성 인식 장치의 세부 구성을 나타낸 도면이다.
Claims (20)
- 음성 신호로부터 생성된 음소 시퀀스(phoneme sequence)에 기초하여 어절 시퀀스(word sequence)를 생성하는 단계;
상기 어절 시퀀스에 포함된 복수의 어절들 중 어느 하나인 어절 엘리먼트에 대응하는 음절 시퀀스(syllable sequence)를 상기 음소 시퀀스에 기초하여 생성하는 단계; 및
상기 어절 시퀀스 및 상기 음절 시퀀스에 기초하여, 상기 음성 신호의 인식 결과인 텍스트를 결정하는 단계
를 포함하는 음성 인식 방법. - 제1항에 있어서,
상기 텍스트를 결정하는 단계는,
상기 어절 시퀀스에서 상기 어절 엘리먼트를 상기 음절 시퀀스로 대체함으로써 상기 텍스트를 결정하는, 음성 인식 방법. - 제1항에 있어서,
상기 어절 엘리먼트는,
상기 어절 시퀀스에 포함된 복수의 어절들 중에서 미리 결정된 임계값보다 낮은 인식률을 가지는 어절에 해당하는, 음성 인식 방법. - 제1항에 있어서,
상기 어절 엘리먼트는,
상기 어절 시퀀스에 포함된 복수의 어절들 중에서 상기 복수의 어절들의 인식률들을 고려하여 결정된 상대적인 임계값보다 낮은 인식률을 가지는 어절에 해당하는, 음성 인식 방법. - 제1항에 있어서,
상기 어절 시퀀스는,
상기 음소 시퀀스를 어절 단위로 디코딩함으로써 생성되고, 상기 음성 신호로부터 변환된 텍스트를 구성하는, 음성 인식 방법. - 제1항에 있어서,
상기 음절 시퀀스를 상기 음소 시퀀스에 기초하여 생성하는 단계는,
상기 음소 시퀀스에 포함된 복수의 음소들 중에서 상기 어절 엘리먼트에 대응하는 부분을 음절 단위로 디코딩함으로써 상기 음절 시퀀스를 생성하는, 음성 인식 방법. - 제6항 있어서,
상기 음절 시퀀스를 상기 음소 시퀀스에 기초하여 생성하는 단계는,
음절을 구성하는 음소 시퀀스를 모델링한 음절 단위-발음 사전; 및
어절을 구성하는 음절 시퀀스를 모델링한 음절 단위-언어 모델
을 이용하여 음절 단위-디코딩을 수행함으로써 상기 음절 시퀀스를 생성하는, 음성 인식 방법. - 제1항에 있어서,
상기 음절 시퀀스는,
상기 음소 시퀀스에 기초하여 상기 어절 시퀀스를 생성할 때 이용되는 어절 단위-발음 사전에 미포함된 어절을 구성하는, 음성 인식 방법. - 사용자의 음성 신호로부터 생성된 음소 시퀀스를 어절 단위로 디코딩하여 어절 시퀀스를 생성하는 단계;
상기 어절 시퀀스에 포함된 복수의 어절들 중에서 임계값보다 낮은 인식률을 가지는 어절 엘리먼트가 존재하는지 여부를 판단하는 단계;
상기 어절 엘리먼트가 존재하는 것으로 판단된 경우, 상기 음소 시퀀스에 기초하여 상기 어절 엘리먼트에 대응하는 음절 시퀀스를 생성하는 단계; 및
상기 어절 시퀀스 및 상기 음절 시퀀스에 기초하여, 상기 음성 신호의 인식 결과인 텍스트를 결정하는 단계
를 포함하는 음성 인식 방법. - 제9항에 있어서,
상기 음절 시퀀스를 생성하는 단계는,
상기 음소 시퀀스에 포함된 복수의 음소들 중에서 상기 어절 엘리먼트에 대응하는 부분을 음절 단위로 디코딩함으로써 상기 음절 시퀀스를 생성하는, 음성 인식 방법. - 제9항에 있어서,
상기 텍스트를 결정하는 단계는,
상기 어절 시퀀스에서 상기 어절 엘리먼트를 상기 음절 시퀀스로 대체함으로써 상기 텍스트를 결정하는, 음성 인식 방법. - 제9항에 있어서,
상기 임계값은,
미리 결정된 임계값; 및
상기 어절 시퀀스에 포함된 상기 복수의 어절들의 인식률들을 고려하여 결정된 상대적인 임계값
중 어느 하나인, 음성 인식 방법. - 제1항 내지 제12항 중에서 어느 하나의 항의 방법을 실행시키기 위한 프로그램이 기록된 컴퓨터 판독 가능한 기록 매체.
- 음성 인식 장치에 있어서,
수신된 음성 신호를 처리하는 프로세서를 포함하고,
상기 프로세서는,
음성 신호로부터 생성된 음소 시퀀스(phoneme sequence)에 기초하여 어절 시퀀스(word sequence)를 생성하고,
상기 어절 시퀀스에 포함된 복수의 어절들 중 어느 하나인 어절 엘리먼트에 대응하는 음절 시퀀스(syllable sequence)를 상기 음소 시퀀스에 기초하여 생성하며,
상기 어절 시퀀스 및 상기 음절 시퀀스에 기초하여, 상기 음성 신호의 인식 결과인 텍스트를 결정하는 음성 인식 장치. - 제14항에 있어서,
상기 프로세서는,
상기 어절 시퀀스에서 상기 어절 엘리먼트를 상기 음절 시퀀스로 대체함으로써 상기 텍스트를 결정하는, 음성 인식 장치. - 제14항에 있어서,
상기 어절 엘리먼트는,
상기 어절 시퀀스에 포함된 복수의 어절들 중에서 미리 결정된 임계값보다 낮은 인식률을 가지는 어절에 해당하는, 음성 인식 장치. - 제14항에 있어서,
상기 어절 엘리먼트는,
상기 어절 시퀀스에 포함된 복수의 어절들 중에서 상기 복수의 어절들의 인식률들을 고려하여 결정된 상대적인 임계값보다 낮은 인식률을 가지는 어절에 해당하는, 음성 인식 장치. - 제14항에 있어서,
상기 어절 시퀀스는,
상기 음소 시퀀스를 어절 단위로 디코딩함으로써 생성되고, 상기 음성 신호로부터 변환된 텍스트를 구성하는, 음성 인식 장치. - 제14항에 있어서,
상기 프로세서는,
상기 음소 시퀀스에 포함된 복수의 음소들 중에서 상기 어절 엘리먼트에 대응하는 부분을 음절 단위로 디코딩함으로써 상기 음절 시퀀스를 생성하는, 음성 인식 장치. - 음성 인식 장치에 있어서,
수신된 음성 신호를 처리하는 프로세서를 포함하고,
상기 프로세서는,
사용자의 음성 신호로부터 생성된 음소 시퀀스를 어절 단위로 디코딩하여 어절 시퀀스를 생성하고,
상기 어절 시퀀스에 포함된 복수의 어절들 중에서 임계값보다 낮은 인식률을 가지는 어절 엘리먼트가 존재하는지 여부를 판단하고,
상기 어절 엘리먼트가 존재하는 것으로 판단된 경우, 상기 음소 시퀀스에 기초하여 상기 어절 엘리먼트에 대응하는 음절 시퀀스를 생성하며,
상기 어절 시퀀스 및 상기 음절 시퀀스에 기초하여, 상기 음성 신호의 인식 결과인 텍스트를 결정하는 음성 인식 장치.
Priority Applications (2)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
KR1020140192711A KR102117082B1 (ko) | 2014-12-29 | 2014-12-29 | 음성 인식 방법 및 음성 인식 장치 |
US14/751,654 US10140974B2 (en) | 2014-12-29 | 2015-06-26 | Method and apparatus for speech recognition |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
KR1020140192711A KR102117082B1 (ko) | 2014-12-29 | 2014-12-29 | 음성 인식 방법 및 음성 인식 장치 |
Publications (2)
Publication Number | Publication Date |
---|---|
KR20160080915A KR20160080915A (ko) | 2016-07-08 |
KR102117082B1 true KR102117082B1 (ko) | 2020-05-29 |
Family
ID=56164965
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
KR1020140192711A Active KR102117082B1 (ko) | 2014-12-29 | 2014-12-29 | 음성 인식 방법 및 음성 인식 장치 |
Country Status (2)
Country | Link |
---|---|
US (1) | US10140974B2 (ko) |
KR (1) | KR102117082B1 (ko) |
Families Citing this family (9)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
US9589563B2 (en) * | 2014-06-02 | 2017-03-07 | Robert Bosch Gmbh | Speech recognition of partial proper names by natural language processing |
KR102305584B1 (ko) * | 2015-01-19 | 2021-09-27 | 삼성전자주식회사 | 언어 모델 학습 방법 및 장치, 언어 인식 방법 및 장치 |
US10521945B2 (en) * | 2016-12-23 | 2019-12-31 | International Business Machines Corporation | Text-to-articulatory movement |
WO2019014183A1 (en) * | 2017-07-10 | 2019-01-17 | Vox Frontera, Inc. | AUTOMATIC SPEECH RECOGNITION BASED ON SYLLABE |
KR102075796B1 (ko) * | 2017-11-14 | 2020-03-02 | 주식회사 엘솔루 | 자동 음성인식 장치 및 방법 |
CN108417202B (zh) * | 2018-01-19 | 2020-09-01 | 苏州思必驰信息科技有限公司 | 语音识别方法及系统 |
KR102182408B1 (ko) * | 2019-03-05 | 2020-11-24 | 충북대학교 산학협력단 | 형태소 발음변이를 고려한 음성인식 단위 생성 장치 및 방법 |
KR102386635B1 (ko) * | 2020-04-16 | 2022-04-14 | 주식회사 카카오엔터프라이즈 | 음소의 특성에 관한 통계적 분석에 기초하여 자동적으로 음성 합성 데이터를 평가하는 방법 및 장치 |
CN112185356A (zh) * | 2020-09-29 | 2021-01-05 | 北京百度网讯科技有限公司 | 语音识别方法、装置、电子设备以及存储介质 |
Citations (4)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
US20040193408A1 (en) | 2003-03-31 | 2004-09-30 | Aurilab, Llc | Phonetically based speech recognition system and method |
JP2005257954A (ja) | 2004-03-10 | 2005-09-22 | Nec Corp | 音声検索装置、音声検索方法および音声検索プログラム |
WO2008106655A1 (en) | 2007-03-01 | 2008-09-04 | Apapx, Inc. | System and method for dynamic learning |
JP2010522923A (ja) | 2007-04-13 | 2010-07-08 | マサチューセッツ インスティテュート オブ テクノロジー | 音声データ検索装置、音声データ検索方法、音声データ検索プログラム、及びコンピュータが読取可能な音声データ検索プログラムを内蔵したコンピュータが使用可能な媒体 |
Family Cites Families (20)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
JP3428309B2 (ja) | 1996-09-24 | 2003-07-22 | 松下電器産業株式会社 | 音声認識装置 |
US6567779B1 (en) | 1997-08-05 | 2003-05-20 | At&T Corp. | Method and system for aligning natural and synthetic video to speech synthesis |
US7392185B2 (en) | 1999-11-12 | 2008-06-24 | Phoenix Solutions, Inc. | Speech based learning/training system using semantic decoding |
US7725307B2 (en) | 1999-11-12 | 2010-05-25 | Phoenix Solutions, Inc. | Query engine for processing voice based queries including semantic decoding |
JP4105841B2 (ja) | 2000-07-11 | 2008-06-25 | インターナショナル・ビジネス・マシーンズ・コーポレーション | 音声認識方法、音声認識装置、コンピュータ・システムおよび記憶媒体 |
KR100366601B1 (ko) | 2001-03-15 | 2003-01-06 | (주) 보이스웨어 | 음절 단위로 음성인식을 수행하는 방법 및 그 장치 |
JP4072718B2 (ja) | 2002-11-21 | 2008-04-09 | ソニー株式会社 | 音声処理装置および方法、記録媒体並びにプログラム |
KR100668297B1 (ko) | 2002-12-31 | 2007-01-12 | 삼성전자주식회사 | 음성인식방법 및 장치 |
KR100639931B1 (ko) | 2004-11-24 | 2006-11-01 | 한국전자통신연구원 | 대화형 음성인식 시스템의 인식오류 수정장치 및 그 방법 |
US9575953B2 (en) | 2006-09-07 | 2017-02-21 | Nec Corporation | Natural-language processing system and dictionary registration system |
KR100827802B1 (ko) * | 2006-10-24 | 2008-05-07 | 삼성전자주식회사 | 휴대 단말기의 화상 통화 장치 및 화상 통화 송수신방법 |
JP5141687B2 (ja) * | 2007-07-31 | 2013-02-13 | 富士通株式会社 | 音声認識用照合ルール学習システム、音声認識用照合ルール学習プログラムおよび音声認識用照合ルール学習方法 |
KR101025814B1 (ko) * | 2008-12-16 | 2011-04-04 | 한국전자통신연구원 | 운율 모델을 이용한 형태소 품사 태깅 방법 및 그 장치 |
KR101250897B1 (ko) * | 2009-08-14 | 2013-04-04 | 한국전자통신연구원 | 전자사전에서 음성인식을 이용한 단어 탐색 장치 및 그 방법 |
KR101122590B1 (ko) | 2011-06-22 | 2012-03-16 | (주)지앤넷 | 음성 데이터 분할에 의한 음성 인식 장치 및 방법 |
KR101210432B1 (ko) | 2011-07-14 | 2012-12-10 | 주식회사 시공미디어 | 단어 학습을 위한 전자학습장치 및 학습컨텐츠 제공방법 |
US8849666B2 (en) * | 2012-02-23 | 2014-09-30 | International Business Machines Corporation | Conference call service with speech processing for heavily accented speakers |
US9542936B2 (en) * | 2012-12-29 | 2017-01-10 | Genesys Telecommunications Laboratories, Inc. | Fast out-of-vocabulary search in automatic speech recognition systems |
CN104157285B (zh) * | 2013-05-14 | 2016-01-20 | 腾讯科技(深圳)有限公司 | 语音识别方法、装置及电子设备 |
US9697201B2 (en) * | 2014-11-24 | 2017-07-04 | Microsoft Technology Licensing, Llc | Adapting machine translation data using damaging channel model |
-
2014
- 2014-12-29 KR KR1020140192711A patent/KR102117082B1/ko active Active
-
2015
- 2015-06-26 US US14/751,654 patent/US10140974B2/en active Active
Patent Citations (4)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
US20040193408A1 (en) | 2003-03-31 | 2004-09-30 | Aurilab, Llc | Phonetically based speech recognition system and method |
JP2005257954A (ja) | 2004-03-10 | 2005-09-22 | Nec Corp | 音声検索装置、音声検索方法および音声検索プログラム |
WO2008106655A1 (en) | 2007-03-01 | 2008-09-04 | Apapx, Inc. | System and method for dynamic learning |
JP2010522923A (ja) | 2007-04-13 | 2010-07-08 | マサチューセッツ インスティテュート オブ テクノロジー | 音声データ検索装置、音声データ検索方法、音声データ検索プログラム、及びコンピュータが読取可能な音声データ検索プログラムを内蔵したコンピュータが使用可能な媒体 |
Also Published As
Publication number | Publication date |
---|---|
US10140974B2 (en) | 2018-11-27 |
KR20160080915A (ko) | 2016-07-08 |
US20160189710A1 (en) | 2016-06-30 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
KR102117082B1 (ko) | 음성 인식 방법 및 음성 인식 장치 | |
CN106373561B (zh) | 声学得分计算和语音识别的设备和方法 | |
KR102386854B1 (ko) | 통합 모델 기반의 음성 인식 장치 및 방법 | |
KR102396983B1 (ko) | 문법 교정 방법 및 장치 | |
JP6328260B2 (ja) | 意図推定装置及び意図推定方法 | |
US9911409B2 (en) | Speech recognition apparatus and method | |
US10373607B2 (en) | Testing words in a pronunciation lexicon | |
US20170091177A1 (en) | Machine translation apparatus, machine translation method and computer program product | |
WO2020226768A1 (en) | Wake word selection assistance architectures and methods | |
JP2020042257A (ja) | 音声認識方法及び装置 | |
CN106601240B (zh) | 归一化声学模型的输入数据的设备和方法和语音识别设备 | |
KR20150144031A (ko) | 음성 인식을 이용하는 사용자 인터페이스 제공 방법 및 사용자 인터페이스 제공 장치 | |
KR20120038198A (ko) | 음성 인식 장치 및 방법 | |
JP2020527253A (ja) | 音節に基づく自動音声認識 | |
CN105390137B (zh) | 响应生成方法、响应生成装置和响应生成程序 | |
WO2023082831A1 (en) | Global neural transducer models leveraging sub-task networks | |
KR102471790B1 (ko) | 능동적 음성 인식 방법 및 그 장치 | |
KR102637337B1 (ko) | 자동 통역 방법 및 장치, 및 기계 번역 방법 | |
KR102199444B1 (ko) | 음성 인식 오류에 강인한 의미 추론 방법 및 이를 위한 장치 | |
KR102272453B1 (ko) | 음성 신호 전처리 방법 및 장치 | |
KR102140438B1 (ko) | 오디오 컨텐츠 및 텍스트 컨텐츠의 동기화 서비스를 위해 텍스트 데이터를 오디오 데이터에 매핑하는 방법 및 시스템 | |
KR102749669B1 (ko) | 음성 인식 방법 및 장치 | |
US11210337B2 (en) | System and method for searching audio data | |
KR101729972B1 (ko) | 타국인 발화 음성을 위한 음성 인식 장치 | |
Eljhani | Front-end of wake-up-word speech recognition system design on FPGA |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PA0109 | Patent application |
Patent event code: PA01091R01D Comment text: Patent Application Patent event date: 20141229 |
|
PG1501 | Laying open of application | ||
A201 | Request for examination | ||
PA0201 | Request for examination |
Patent event code: PA02012R01D Patent event date: 20181029 Comment text: Request for Examination of Application Patent event code: PA02011R01I Patent event date: 20141229 Comment text: Patent Application |
|
E701 | Decision to grant or registration of patent right | ||
PE0701 | Decision of registration |
Patent event code: PE07011S01D Comment text: Decision to Grant Registration Patent event date: 20200224 |
|
GRNT | Written decision to grant | ||
PR0701 | Registration of establishment |
Comment text: Registration of Establishment Patent event date: 20200525 Patent event code: PR07011E01D |
|
PR1002 | Payment of registration fee |
Payment date: 20200526 End annual number: 3 Start annual number: 1 |
|
PG1601 | Publication of registration | ||
PR1001 | Payment of annual fee |
Payment date: 20230418 Start annual number: 4 End annual number: 4 |
|
PR1001 | Payment of annual fee |
Payment date: 20240418 Start annual number: 5 End annual number: 5 |