KR101905827B1 - 연속어 음성 인식 장치 및 방법 - Google Patents
연속어 음성 인식 장치 및 방법 Download PDFInfo
- Publication number
- KR101905827B1 KR101905827B1 KR1020130073990A KR20130073990A KR101905827B1 KR 101905827 B1 KR101905827 B1 KR 101905827B1 KR 1020130073990 A KR1020130073990 A KR 1020130073990A KR 20130073990 A KR20130073990 A KR 20130073990A KR 101905827 B1 KR101905827 B1 KR 101905827B1
- Authority
- KR
- South Korea
- Prior art keywords
- vocabulary
- representative
- vocabularies
- generating
- unit
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Active
Links
- 238000000034 method Methods 0.000 title claims abstract description 31
- 238000013139 quantization Methods 0.000 claims description 11
- 238000000605 extraction Methods 0.000 claims description 10
- 239000000284 extract Substances 0.000 claims description 9
- 230000006870 function Effects 0.000 description 9
- 238000005516 engineering process Methods 0.000 description 7
- 238000010586 diagram Methods 0.000 description 4
- 230000000694 effects Effects 0.000 description 3
- 238000004891 communication Methods 0.000 description 2
- 238000004590 computer program Methods 0.000 description 2
- 230000001419 dependent effect Effects 0.000 description 2
- 238000006467 substitution reaction Methods 0.000 description 2
- 230000006978 adaptation Effects 0.000 description 1
- 238000013473 artificial intelligence Methods 0.000 description 1
- 230000006866 deterioration Effects 0.000 description 1
- 238000002474 experimental method Methods 0.000 description 1
- 238000012986 modification Methods 0.000 description 1
- 230000004048 modification Effects 0.000 description 1
- 238000003058 natural language processing Methods 0.000 description 1
- 230000003287 optical effect Effects 0.000 description 1
- 238000011160 research Methods 0.000 description 1
- 230000004044 response Effects 0.000 description 1
- 238000013179 statistical model Methods 0.000 description 1
Images
Classifications
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L15/00—Speech recognition
- G10L15/08—Speech classification or search
- G10L15/18—Speech classification or search using natural language modelling
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L15/00—Speech recognition
- G10L15/02—Feature extraction for speech recognition; Selection of recognition unit
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L15/00—Speech recognition
- G10L15/08—Speech classification or search
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L15/00—Speech recognition
- G10L15/28—Constructional details of speech recognition systems
- G10L15/32—Multiple recognisers used in sequence or in parallel; Score combination systems therefor, e.g. voting systems
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L15/00—Speech recognition
- G10L15/04—Segmentation; Word boundary detection
Landscapes
- Engineering & Computer Science (AREA)
- Computational Linguistics (AREA)
- Health & Medical Sciences (AREA)
- Audiology, Speech & Language Pathology (AREA)
- Human Computer Interaction (AREA)
- Physics & Mathematics (AREA)
- Acoustics & Sound (AREA)
- Multimedia (AREA)
- Artificial Intelligence (AREA)
- Computer Vision & Pattern Recognition (AREA)
- Navigation (AREA)
- Machine Translation (AREA)
Abstract
Description
도 2는 도 1의 연속어 음성 인식 장치에 추가되는 구성을 설명하기 위한 블록도이다.
도 3은 도 1에 도시된 연속어 음성 인식 장치의 활용례를 도시한 흐름도이다.
도 4는 본 발명의 바람직한 실시예에 따른 연속어 음성 인식 방법을 도시한 흐름도이다.
Claims (13)
- 연속어로부터 적어도 하나의 어휘를 포함하는 클러스터들을 생성하는 클러스터 생성부;
각 클러스터에서 적어도 하나의 대표 어휘를 추출하는 대표 어휘 추출부;
추출된 대표 어휘들을 기초로 상기 연속어를 최초 인식하여 인식 결과를 도출하는 연속어 최초 인식부; 및
도출된 인식 결과를 기초로, 상기 연속어에서 대표 어휘로 추출되지 않은 어휘들을 이용하여 상기 연속어를 최종 인식하는 연속어 최종 인식부
를 포함하는 연속어 음성 인식 장치. - 제 1 항에 있어서,
상기 클러스터 생성부는 상기 연속어에 포함된 어휘들의 개수보다 적은 수의 클러스터들을 생성하는 것을 특징으로 하는 연속어 음성 인식 장치. - 제 1 항에 있어서,
상기 클러스터 생성부는,
각 어휘의 발음열을 추출하는 발음열 추출부; 및
추출된 발음열을 벡터로 하여 벡터 양자화(vector quantization) 방법에 따라 상기 연속어로부터 상기 클러스터들을 생성하는 양자화부
를 포함하는 것을 특징으로 하는 연속어 음성 인식 장치. - 제 1 항에 있어서,
상기 대표 어휘 추출부는 클러스터 또는 상기 연속어에서의 어휘의 출현 확률에 따라 상기 대표 어휘를 추출하는 것을 특징으로 하는 연속어 음성 인식 장치. - 삭제
- 제 1 항에 있어서,
상기 추출된 대표 어휘들을 포함하는 음성 인식용 언어 모델을 생성하는 언어 모델 생성부
를 더욱 포함하는 것을 특징으로 하는 연속어 음성 인식 장치. - 제 1 항에 있어서,
상기 연속어 음성 인식 장치는 내비게이션에 탑재되어 목적지명을 인식할 때 이용되는 것을 특징으로 하는 연속어 음성 인식 장치. - 연속어로부터 적어도 하나의 어휘를 포함하는 클러스터들을 생성하는 단계;
각 클러스터에서 적어도 하나의 대표 어휘를 추출하는 단계;
추출된 대표 어휘들을 기초로 상기 연속어를 최초 인식하여 인식 결과를 도출하는 단계; 및
도출된 인식 결과를 기초로, 상기 연속어에서 대표 어휘로 추출되지 않은 어휘들을 이용하여 상기 연속어를 최종 인식하는 단계
를 포함하는 연속어 음성 인식 방법. - 제 8 항에 있어서,
상기 클러스터들을 생성하는 단계는 상기 연속어에 포함된 어휘들의 개수보다 적은 수의 클러스터들을 생성하는 것을 특징으로 하는 연속어 음성 인식 방법. - 제 8 항에 있어서,
상기 클러스터들을 생성하는 단계는,
각 어휘의 발음열을 추출하는 단계; 및
추출된 발음열을 벡터로 하여 벡터 양자화(vector quantization) 방법에 따라 상기 연속어로부터 상기 클러스터들을 생성하는 단계
를 포함하는 것을 특징으로 하는 연속어 음성 인식 방법. - 제 8 항에 있어서,
상기 대표 어휘를 추출하는 단계는 클러스터 또는 상기 연속어에서의 어휘의 출현 확률에 따라 상기 대표 어휘를 추출하는 것을 특징으로 하는 연속어 음성 인식 방법. - 삭제
- 제 8 항에 있어서,
상기 추출된 대표 어휘들을 포함하는 음성 인식용 언어 모델을 생성하는 단계
를 더욱 포함하는 것을 특징으로 하는 연속어 음성 인식 방법.
Priority Applications (2)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
KR1020130073990A KR101905827B1 (ko) | 2013-06-26 | 2013-06-26 | 연속어 음성 인식 장치 및 방법 |
US14/304,104 US20150006175A1 (en) | 2013-06-26 | 2014-06-13 | Apparatus and method for recognizing continuous speech |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
KR1020130073990A KR101905827B1 (ko) | 2013-06-26 | 2013-06-26 | 연속어 음성 인식 장치 및 방법 |
Publications (2)
Publication Number | Publication Date |
---|---|
KR20150001191A KR20150001191A (ko) | 2015-01-06 |
KR101905827B1 true KR101905827B1 (ko) | 2018-10-08 |
Family
ID=52116455
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
KR1020130073990A Active KR101905827B1 (ko) | 2013-06-26 | 2013-06-26 | 연속어 음성 인식 장치 및 방법 |
Country Status (2)
Country | Link |
---|---|
US (1) | US20150006175A1 (ko) |
KR (1) | KR101905827B1 (ko) |
Families Citing this family (5)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
GB2523353B (en) * | 2014-02-21 | 2017-03-01 | Jaguar Land Rover Ltd | System for use in a vehicle |
KR101988222B1 (ko) | 2015-02-12 | 2019-06-13 | 한국전자통신연구원 | 대어휘 연속 음성 인식 장치 및 방법 |
KR102434604B1 (ko) * | 2016-01-05 | 2022-08-23 | 한국전자통신연구원 | 개인화된 음성 인식을 수행하기 위한 음성 인식 단말, 음성 인식 서버 및 음성 인식 방법 |
CN106601259B (zh) * | 2016-12-13 | 2021-04-06 | 北京奇虎科技有限公司 | 一种基于声纹搜索的信息推荐方法及装置 |
CN110019696A (zh) * | 2017-08-09 | 2019-07-16 | 百度在线网络技术(北京)有限公司 | 查询意图标注方法、装置、设备及存储介质 |
Family Cites Families (8)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
US5937384A (en) * | 1996-05-01 | 1999-08-10 | Microsoft Corporation | Method and system for speech recognition using continuous density hidden Markov models |
US6076056A (en) * | 1997-09-19 | 2000-06-13 | Microsoft Corporation | Speech recognition system for recognizing continuous and isolated speech |
US20020116196A1 (en) * | 1998-11-12 | 2002-08-22 | Tran Bao Q. | Speech recognizer |
WO2003088209A1 (fr) * | 2002-04-12 | 2003-10-23 | Mitsubishi Denki Kabushiki Kaisha | Systeme de navigation de voiture et dispositif de reconnaissance vocale de ce systeme |
US20040210437A1 (en) * | 2003-04-15 | 2004-10-21 | Aurilab, Llc | Semi-discrete utterance recognizer for carefully articulated speech |
US7606708B2 (en) * | 2005-02-01 | 2009-10-20 | Samsung Electronics Co., Ltd. | Apparatus, method, and medium for generating grammar network for use in speech recognition and dialogue speech recognition |
KR100755677B1 (ko) * | 2005-11-02 | 2007-09-05 | 삼성전자주식회사 | 주제 영역 검출을 이용한 대화체 음성 인식 장치 및 방법 |
US8014591B2 (en) * | 2006-09-13 | 2011-09-06 | Aurilab, Llc | Robust pattern recognition system and method using socratic agents |
-
2013
- 2013-06-26 KR KR1020130073990A patent/KR101905827B1/ko active Active
-
2014
- 2014-06-13 US US14/304,104 patent/US20150006175A1/en not_active Abandoned
Also Published As
Publication number | Publication date |
---|---|
US20150006175A1 (en) | 2015-01-01 |
KR20150001191A (ko) | 2015-01-06 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
US10249294B2 (en) | Speech recognition system and method | |
KR101237799B1 (ko) | 문맥 종속형 음성 인식기의 환경적 변화들에 대한 강인성을 향상하는 방법 | |
CN113470662A (zh) | 生成和使用用于关键词检出系统的文本到语音数据和语音识别系统中的说话者适配 | |
JP4749387B2 (ja) | 子供に向けられた発話を使用してモデル・ベースの音声の区分化をブートストラップすること、および認識システム | |
US8600749B2 (en) | System and method for training adaptation-specific acoustic models for automatic speech recognition | |
KR20140028174A (ko) | 음성 인식 방법 및 이를 적용한 전자 장치 | |
CN105654940B (zh) | 一种语音合成方法和装置 | |
CN112242144A (zh) | 基于流式注意力模型的语音识别解码方法、装置、设备以及计算机可读存储介质 | |
KR102094935B1 (ko) | 음성 인식 시스템 및 방법 | |
KR101905827B1 (ko) | 연속어 음성 인식 장치 및 방법 | |
KR20240068704A (ko) | 준지도 스피치 인식을 위한 대조 샴 네트워크 | |
KR102637025B1 (ko) | 자동 음성 인식을 위한 다언어 리스코어링 모델들 | |
KR101424193B1 (ko) | 타 언어권 화자음성에 대한 음성인식 시스템의 성능 향상을위한 비직접적 데이터 기반 발음변이 모델링 시스템 및방법 | |
KR20250092276A (ko) | 스피치 인식을 위한 반지도 트레이닝 방식 | |
US20140142925A1 (en) | Self-organizing unit recognition for speech and other data series | |
Soltau et al. | Reducing the computational complexity for whole word models | |
CN112151020B (zh) | 语音识别方法、装置、电子设备及存储介质 | |
JP6350935B2 (ja) | 音響モデル生成装置、音響モデルの生産方法、およびプログラム | |
KR101424496B1 (ko) | 음향 모델 학습을 위한 장치 및 이를 위한 방법이 기록된 컴퓨터 판독 가능한 기록매체 | |
Imseng et al. | Towards mixed language speech recognition systems. | |
Lin et al. | Language identification using pitch contour information in the ergodic Markov model | |
JP6594251B2 (ja) | 音響モデル学習装置、音声合成装置、これらの方法及びプログラム | |
Rasipuram et al. | Grapheme and multilingual posterior features for under-resourced speech recognition: a study on scottish gaelic | |
Yeh et al. | Recognition of highly imbalanced code-mixed bilingual speech with frame-level language detection based on blurred posteriorgram | |
Raab et al. | Multilingual weighted codebooks for non-native speech recognition |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PA0109 | Patent application |
Patent event code: PA01091R01D Comment text: Patent Application Patent event date: 20130626 |
|
PG1501 | Laying open of application | ||
A201 | Request for examination | ||
PA0201 | Request for examination |
Patent event code: PA02012R01D Patent event date: 20170208 Comment text: Request for Examination of Application Patent event code: PA02011R01I Patent event date: 20130626 Comment text: Patent Application |
|
E902 | Notification of reason for refusal | ||
PE0902 | Notice of grounds for rejection |
Comment text: Notification of reason for refusal Patent event date: 20180212 Patent event code: PE09021S01D |
|
E701 | Decision to grant or registration of patent right | ||
PE0701 | Decision of registration |
Patent event code: PE07011S01D Comment text: Decision to Grant Registration Patent event date: 20180816 |
|
GRNT | Written decision to grant | ||
PR0701 | Registration of establishment |
Comment text: Registration of Establishment Patent event date: 20181001 Patent event code: PR07011E01D |
|
PR1002 | Payment of registration fee |
Payment date: 20181002 End annual number: 3 Start annual number: 1 |
|
PG1601 | Publication of registration | ||
PR1001 | Payment of annual fee |
Payment date: 20210927 Start annual number: 4 End annual number: 4 |
|
PR1001 | Payment of annual fee |