KR102051966B1 - 음성 인식 향상 장치 및 방법 - Google Patents
음성 인식 향상 장치 및 방법 Download PDFInfo
- Publication number
- KR102051966B1 KR102051966B1 KR1020140035720A KR20140035720A KR102051966B1 KR 102051966 B1 KR102051966 B1 KR 102051966B1 KR 1020140035720 A KR1020140035720 A KR 1020140035720A KR 20140035720 A KR20140035720 A KR 20140035720A KR 102051966 B1 KR102051966 B1 KR 102051966B1
- Authority
- KR
- South Korea
- Prior art keywords
- voice
- mfcc
- standard
- standard voice
- feature data
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Active
Links
- 238000000034 method Methods 0.000 title claims abstract description 35
- 238000004364 calculation method Methods 0.000 claims description 9
- 238000012937 correction Methods 0.000 claims description 7
- 230000008569 process Effects 0.000 description 9
- 238000012545 processing Methods 0.000 description 7
- 238000010586 diagram Methods 0.000 description 5
- 230000008859 change Effects 0.000 description 4
- 230000009467 reduction Effects 0.000 description 4
- 230000005236 sound signal Effects 0.000 description 4
- 238000005516 engineering process Methods 0.000 description 3
- 239000000284 extract Substances 0.000 description 3
- 230000007704 transition Effects 0.000 description 3
- 238000004458 analytical method Methods 0.000 description 2
- 230000008901 benefit Effects 0.000 description 2
- 230000000694 effects Effects 0.000 description 2
- 238000000605 extraction Methods 0.000 description 2
- 230000006870 function Effects 0.000 description 2
- 230000014509 gene expression Effects 0.000 description 2
- 238000012986 modification Methods 0.000 description 2
- 230000004048 modification Effects 0.000 description 2
- 238000011160 research Methods 0.000 description 2
- 238000005070 sampling Methods 0.000 description 2
- 238000007796 conventional method Methods 0.000 description 1
- 230000001186 cumulative effect Effects 0.000 description 1
- 239000000203 mixture Substances 0.000 description 1
- 238000003672 processing method Methods 0.000 description 1
- 238000012549 training Methods 0.000 description 1
Images
Classifications
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L15/00—Speech recognition
- G10L15/20—Speech recognition techniques specially adapted for robustness in adverse environments, e.g. in noise, of stress induced speech
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L15/00—Speech recognition
- G10L15/02—Feature extraction for speech recognition; Selection of recognition unit
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L21/00—Speech or voice signal processing techniques to produce another audible or non-audible signal, e.g. visual or tactile, in order to modify its quality or its intelligibility
- G10L21/02—Speech enhancement, e.g. noise reduction or echo cancellation
- G10L21/0208—Noise filtering
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L25/00—Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00
- G10L25/03—Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00 characterised by the type of extracted parameters
- G10L25/24—Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00 characterised by the type of extracted parameters the extracted parameters being the cepstrum
Landscapes
- Engineering & Computer Science (AREA)
- Acoustics & Sound (AREA)
- Health & Medical Sciences (AREA)
- Audiology, Speech & Language Pathology (AREA)
- Human Computer Interaction (AREA)
- Physics & Mathematics (AREA)
- Computational Linguistics (AREA)
- Multimedia (AREA)
- Circuit For Audible Band Transducer (AREA)
- Telephone Function (AREA)
- Telephonic Communication Services (AREA)
- Quality & Reliability (AREA)
- Signal Processing (AREA)
- Artificial Intelligence (AREA)
Abstract
Description
도 2는 종래의 HMM 기반 음성 인식기의 음성 인식 탐색 네트워크를 설명하기 위한 도면이다.
도 3은 종래의 음성 인식기의 소음 처리 방법을 설명하기 위한 도면이다.
도 4는 종래 소음 처리기의 구성도이다.
도 5는 본 발명의 실시예에 따른 음성 인식 향상 장치의 구성도이다.
도 6은 도 5에 도시된 MFCC 보상부의 내부 구성도이다.
도 7은 본 발명의 실시예에 따른 음성 인식 향상 방법을 설명하기 위한 플로우차트이다.
30 : MFCC 보상부 130 : 관찰확률 계산부
140 : 비터비디코더 계산부 160 : 음향학 모델 데이터베이스
170 : 언어 모델 데이터베이스
Claims (9)
- 표준 음성을 발생시키는 표준 음성 발신부;
음성 인식 수행 전에 상기 표준 음성의 발성을 근거로 하는 음성특징 데이터(MFCC)를 생성하는 MFCC 생성부; 및
상기 표준 음성을 근거로 생성한 이득값을 저장하고, 음성 인식 수행중에 사용자의 발성을 근거로 하는 음성특징 데이터의 왜곡을 상기 이득값을 이용하여 보상하는 MFCC 보상부;를 포함하고,
상기 표준 음성 발신부는,
다른 표준 음성을 발생시키라는 신호에 근거하여 다른 표준 음성을 발생시키는 것을 특징으로 하는 음성 인식 향상 장치. - 청구항 1에 있어서,
상기 MFCC 보상부는,
상기 표준 음성의 발성을 근거로 하는 음성특징 데이터의 생성을 통해 이득 값을 생성하는 초기화 작업 모드 및 상기 음성 인식을 수행하는 모드 중에서 어느 하나의 모드로 스위칭 동작하는 스위치부;
상기 초기화 작업 모드에서 상기 표준 음성의 발성을 통해 상기 MFCC 생성부에서 생성된 음성특징 데이터를 저장하는 입력 MFCC 저장부;
상기 표준 음성의 표준 음성특징 데이터를 저장하는 표준 MFCC 저장부;
상기 초기화 작업 모드에서, 상기 표준 음성의 발성을 통해 생성된 음성특징 데이터 및 상기 표준 음성특징 데이터를 상호 비교하여 왜곡 보정을 위한 이득 값을 생성하는 MFCC 비교부; 및
상기 스위치부가 상기 음성 인식을 수행하는 모드로의 스위칭 동작을 수행함에 따라 상기 사용자의 발성을 근거로 하는 음성특징 데이터의 왜곡을 상기 이득 값으로 보상하는 보상부;를 포함하는 것을 특징으로 하는 음성 인식 향상 장치. - 청구항 2에 있어서,
상기 MFCC 보상부는 상기 MFCC 비교부에 의해 생성된 이득 값을 저장하는 이득 저장부를 추가로 포함하는 것을 특징으로 하는 음성 인식 향상 장치. - 청구항 1에 있어서,
음성인식 디코더 비터비 탐색의 확률 값이 목표치 이하로 도달하면 상기 표준 음성 발신부에게 다른 표준 음성을 발생시키라는 신호를 제공하는 비터비디코더 계산부를 추가로 포함하는 것을 특징으로 하는 음성 인식 향상 장치. - 청구항 4에 있어서,
상기 표준 음성 발신부는 상기 비터비디코더 계산부로부터의 다른 표준 음성을 발생시키라는 신호에 의해 다른 표준 음성을 발생시키는 것을 특징으로 하는 음성 인식 향상 장치. - 표준 음성 발신부가, 표준 음성을 발생시키는 단계;
MFCC 생성부가, 음성 인식 수행 전에 상기 표준 음성의 발성을 근거로 하는 음성특징 데이터를 생성하는 단계; 및
MFCC 보상부가, 음성 인식 수행중에 사용자의 발성을 근거로 생성된 음성특징 데이터의 왜곡을 상기 표준 음성을 근거로 생성한 이득값을 이용하여 보상하는 단계;를 포함하고,
상기 표준 음성을 발생시키는 단계는,
다른 표준 음성을 발생시키라는 신호에 근거하여 다른 표준 음성을 발생시키는 것을 특징으로 하는 음성 인식 향상 방법. - 청구항 6에 있어서,
상기 보상해 주는 단계는,
스위치부가 초기화 작업 모드로 스위칭됨에 따라 상기 표준 음성의 발성을 통해 생성된 음성특징 데이터를 저장하는 단계;
상기 표준 음성의 표준 음성특징 데이터를 저장하는 단계;
상기 초기화 작업 모드에서, 상기 표준 음성의 발성을 통해 생성된 음성특징 데이터 및 상기 표준 음성특징 데이터를 상호 비교하여 왜곡 보정을 위한 이득 값을 생성하는 단계; 및
상기 스위치부가 상기 음성 인식을 수행하는 모드로 스위칭됨에 따라 상기 사용자의 발성을 근거로 하는 음성특징 데이터의 왜곡을 상기 이득 값으로 보상하는 단계;를 포함하는 것을 특징으로 하는 음성 인식 향상 방법. - 청구항 7에 있어서,
상기 보상해 주는 단계는 상기 이득 값을 생성하는 단계에 의해 생성된 이득 값을 저장하는 단계를 추가로 포함하는 것을 특징으로 하는 음성 인식 향상 방법.
- 삭제
Priority Applications (2)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
KR1020140035720A KR102051966B1 (ko) | 2014-03-27 | 2014-03-27 | 음성 인식 향상 장치 및 방법 |
US14/667,675 US9311916B2 (en) | 2014-03-27 | 2015-03-24 | Apparatus and method for improving voice recognition |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
KR1020140035720A KR102051966B1 (ko) | 2014-03-27 | 2014-03-27 | 음성 인식 향상 장치 및 방법 |
Publications (2)
Publication Number | Publication Date |
---|---|
KR20150112168A KR20150112168A (ko) | 2015-10-07 |
KR102051966B1 true KR102051966B1 (ko) | 2019-12-04 |
Family
ID=54191287
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
KR1020140035720A Active KR102051966B1 (ko) | 2014-03-27 | 2014-03-27 | 음성 인식 향상 장치 및 방법 |
Country Status (2)
Country | Link |
---|---|
US (1) | US9311916B2 (ko) |
KR (1) | KR102051966B1 (ko) |
Families Citing this family (3)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN105741842A (zh) * | 2016-01-07 | 2016-07-06 | 中国农业大学 | 一种基于食品安全语料数据的语音匹配方法 |
CN106356058B (zh) * | 2016-09-08 | 2019-08-20 | 河海大学 | 一种基于多频带特征补偿的鲁棒语音识别方法 |
KR102356889B1 (ko) | 2017-08-16 | 2022-01-28 | 삼성전자 주식회사 | 음성 인식을 수행하는 방법 및 이를 사용하는 전자 장치 |
Family Cites Families (5)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
KR20050063995A (ko) | 2003-12-23 | 2005-06-29 | 한국전자통신연구원 | 음성인식을 위한 학습과 인식 방법 및 시스템 |
US8185389B2 (en) | 2008-12-16 | 2012-05-22 | Microsoft Corporation | Noise suppressor for robust speech recognition |
KR101253102B1 (ko) | 2009-09-30 | 2013-04-10 | 한국전자통신연구원 | 음성인식을 위한 모델기반 왜곡 보상형 잡음 제거 장치 및 방법 |
KR101236539B1 (ko) * | 2010-12-30 | 2013-02-25 | 부산대학교 산학협력단 | 가중 자동회귀 이동평균 필터와 전역 켑스트럼 평균 및 분산 정규화를 이용한 특징 보상 장치 및 방법 |
JP2013164572A (ja) * | 2012-01-10 | 2013-08-22 | Toshiba Corp | 音声特徴量抽出装置、音声特徴量抽出方法及び音声特徴量抽出プログラム |
-
2014
- 2014-03-27 KR KR1020140035720A patent/KR102051966B1/ko active Active
-
2015
- 2015-03-24 US US14/667,675 patent/US9311916B2/en not_active Expired - Fee Related
Also Published As
Publication number | Publication date |
---|---|
US9311916B2 (en) | 2016-04-12 |
KR20150112168A (ko) | 2015-10-07 |
US20150279385A1 (en) | 2015-10-01 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
Parchami et al. | Recent developments in speech enhancement in the short-time Fourier transform domain | |
Kumar et al. | Delta-spectral cepstral coefficients for robust speech recognition | |
Narayanan et al. | Improving robustness of deep neural network acoustic models via speech separation and joint adaptive training | |
Droppo et al. | Environmental robustness | |
KR20160125984A (ko) | 화자 사전 기반 스피치 모델링을 위한 시스템들 및 방법들 | |
Chowdhury et al. | Bayesian on-line spectral change point detection: a soft computing approach for on-line ASR | |
Fujimoto et al. | Noise robust voice activity detection based on switching Kalman filter | |
JP5242782B2 (ja) | 音声認識方法 | |
US11929058B2 (en) | Systems and methods for adapting human speaker embeddings in speech synthesis | |
Pujol et al. | On real-time mean-and-variance normalization of speech recognition features | |
CN108877784A (zh) | 一种基于口音识别的鲁棒语音识别方法 | |
Garner | Cepstral normalisation and the signal to noise ratio spectrum in automatic speech recognition | |
Nakamura et al. | A mel-cepstral analysis technique restoring high frequency components from low-sampling-rate speech. | |
EP3574499A1 (en) | Methods and apparatus for asr with embedded noise reduction | |
KR102051966B1 (ko) | 음성 인식 향상 장치 및 방법 | |
Sehr et al. | Towards a better understanding of the effect of reverberation on speech recognition performance | |
CN109155128B (zh) | 声学模型学习装置、声学模型学习方法、语音识别装置和语音识别方法 | |
Krueger et al. | A model-based approach to joint compensation of noise and reverberation for speech recognition | |
JP4705414B2 (ja) | 音声認識装置、音声認識方法、音声認識プログラムおよび記録媒体 | |
Milner et al. | Robust acoustic speech feature prediction from noisy mel-frequency cepstral coefficients | |
JP2009276365A (ja) | 処理装置、音声認識装置、音声認識システム、音声認識方法 | |
Han et al. | Reverberation and noise robust feature compensation based on IMM | |
Sehr et al. | Towards robust distant-talking automatic speech recognition in reverberant environments | |
Li et al. | Improved cepstra minimum-mean-square-error noise reduction algorithm for robust speech recognition | |
Almajai et al. | Effective visually-derived Wiener filtering for audio-visual speech processing. |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PA0109 | Patent application |
Patent event code: PA01091R01D Comment text: Patent Application Patent event date: 20140327 |
|
PG1501 | Laying open of application | ||
PA0201 | Request for examination |
Patent event code: PA02012R01D Patent event date: 20180411 Comment text: Request for Examination of Application Patent event code: PA02011R01I Patent event date: 20140327 Comment text: Patent Application |
|
E902 | Notification of reason for refusal | ||
PE0902 | Notice of grounds for rejection |
Comment text: Notification of reason for refusal Patent event date: 20190327 Patent event code: PE09021S01D |
|
E701 | Decision to grant or registration of patent right | ||
PE0701 | Decision of registration |
Patent event code: PE07011S01D Comment text: Decision to Grant Registration Patent event date: 20190902 |
|
GRNT | Written decision to grant | ||
PR0701 | Registration of establishment |
Comment text: Registration of Establishment Patent event date: 20191128 Patent event code: PR07011E01D |
|
PR1002 | Payment of registration fee |
Payment date: 20191129 End annual number: 3 Start annual number: 1 |
|
PG1601 | Publication of registration | ||
PR1001 | Payment of annual fee |
Payment date: 20221020 Start annual number: 4 End annual number: 4 |
|
PR1001 | Payment of annual fee |