KR101610151B1 - 개인음향모델을 이용한 음성 인식장치 및 방법 - Google Patents
개인음향모델을 이용한 음성 인식장치 및 방법 Download PDFInfo
- Publication number
- KR101610151B1 KR101610151B1 KR1020140141167A KR20140141167A KR101610151B1 KR 101610151 B1 KR101610151 B1 KR 101610151B1 KR 1020140141167 A KR1020140141167 A KR 1020140141167A KR 20140141167 A KR20140141167 A KR 20140141167A KR 101610151 B1 KR101610151 B1 KR 101610151B1
- Authority
- KR
- South Korea
- Prior art keywords
- speaker
- acoustic model
- speech recognition
- voice
- speech
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Active
Links
Images
Classifications
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L15/00—Speech recognition
- G10L15/06—Creation of reference templates; Training of speech recognition systems, e.g. adaptation to the characteristics of the speaker's voice
- G10L15/065—Adaptation
- G10L15/07—Adaptation to the speaker
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L15/00—Speech recognition
- G10L15/08—Speech classification or search
- G10L15/18—Speech classification or search using natural language modelling
- G10L15/183—Speech classification or search using natural language modelling using context dependencies, e.g. language models
- G10L15/187—Phonemic context, e.g. pronunciation rules, phonotactical constraints or phoneme n-grams
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L15/00—Speech recognition
- G10L15/28—Constructional details of speech recognition systems
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L15/00—Speech recognition
- G10L15/28—Constructional details of speech recognition systems
- G10L15/32—Multiple recognisers used in sequence or in parallel; Score combination systems therefor, e.g. voting systems
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L15/00—Speech recognition
- G10L15/06—Creation of reference templates; Training of speech recognition systems, e.g. adaptation to the characteristics of the speaker's voice
- G10L15/063—Training
- G10L2015/0631—Creating reference templates; Clustering
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L21/00—Speech or voice signal processing techniques to produce another audible or non-audible signal, e.g. visual or tactile, in order to modify its quality or its intelligibility
- G10L21/02—Speech enhancement, e.g. noise reduction or echo cancellation
- G10L21/0208—Noise filtering
Landscapes
- Engineering & Computer Science (AREA)
- Computational Linguistics (AREA)
- Health & Medical Sciences (AREA)
- Audiology, Speech & Language Pathology (AREA)
- Human Computer Interaction (AREA)
- Physics & Mathematics (AREA)
- Acoustics & Sound (AREA)
- Multimedia (AREA)
- Artificial Intelligence (AREA)
- Electrically Operated Instructional Devices (AREA)
- Telephonic Communication Services (AREA)
- Computer Vision & Pattern Recognition (AREA)
Abstract
Description
도 2는 본 발명의 하나의 실시예에 따른 음성인식부의 상세 구성이다.
도 3은 본 발명의 하나의 실시예에 따른 개인음향모델을 이용한 음성 인식방법이다.
210 : 수집부 220 : 전처리부
230 : 제1 저장부 240 : 학습부
250 : 제2 저장부 260 : 특징벡터 추출부
270 : 음성인식부 280 : 제어부
Claims (12)
- 음성 데이터를 수집하는 수집부,
상기 음성 데이터에 기초하여 학습을 수행하고 상기 음성 데이터의 주체가 되는 화자의 개인음향모델을 생성하는 학습부,
다수의 화자에 공통으로 대응하는 공통음향모델과 상기 음성 데이터, 그리고 상기 개인음향모델을 저장하는 저장부, 그리고
상기 화자의 음성인식 요청에 따라 상기 화자의 음성 데이터 수집량에 기초하여 상기 공통음향모델 또는 상기 개인음향모델을 선택하여 음성인식을 수행하는 음성인식부를 포함하며,
상기 음성인식부는 상기 화자의 음성인식 요청에 따라 상기 화자의 음성데이터 수집량을 미리 설정된 임계값과 비교하는 수집량 비교부,
상기 화자의 음성데이터 수집량이 미리 설정된 임계값 이상인 경우 상기 개인음향모델에 기초하여 음성인식을 수행하는 제1 음성인식 처리부, 그리고
상기 화자의 음성데이터 수집량이 미리 설정된 임계값 미만인 경우 상기 공통음향모델에 기초하여 음성인식을 수행하는 제2 음성인식 처리부를 포함하는 개인음향모델을 이용한 음성 인식장치. - 제1항에서,
상기 음성 데이터 내의 노이즈를 검출하여 제거하는 전처리부를 포함하는 개인음향모델을 이용한 음성 인식장치. - 제1항 또는 제2항에서,
상기 수집부는 원격지 서버로부터 언어모델과 문맥정보를 수집하고,
상기 음성인식부는 상기 개인음향모델, 상기 언어모델, 그리고 상기 문맥정보에 기초하여 음성인식을 수행하는 개인음향모델을 이용한 음성 인식장치. - 제1항 또는 제2항에서,
상기 학습부는 상기 음성 데이터에 기초하여 학습을 수행하고 상기 음성 데이터의 주체가 되는 다수의 화자에 대응하는 공통음향모델을 생성하는 개인음향모델을 이용한 음성 인식장치. - 제1항에서,
상기 음성데이터는 차량 내의 음성제어장치 또는 음성통화장치를 사용하는 화자의 음성데이터인 개인음향모델을 이용한 음성 인식장치. - 제1항에서,
상기 음성데이터는 동일 계정의 음성제어장치 또는 음성통화장치를 사용하는 화자의 음성데이터인 개인음향모델을 이용한 음성 인식장치. - 삭제
- 음성데이터, 다수의 화자에 공통으로 대응하는 공통음향모델, 언어모델 그리고 문맥정보를 수집하는 단계,
상기 음성데이터를 학습하여 상기 음성데이터의 주체가 되는 화자의 개인음향모델을 생성하는 단계,
상기 화자의 음성인식 요청에 따라 상기 화자의 음성데이터 수집량을 미리 설정된 임계값과 비교하는 단계, 그리고
상기 화자의 음성데이터 수집량이 미리 설정된 임계값 이상인 경우 상기 생성된 화자의 개인음향모델에 기초하여 음성인식을 수행하고, 상기 화자의 음성데이터 수집량이 미리 설정된 임계값 미만인 경우 상기 공통음향모델에 기초하여 음성인식을 수행하는 단계
를 포함하는 개인음향모델을 이용한 음성 인식방법. - 제8항에서,
상기 음성데이터는 차량 내의 음성제어장치 또는 음성통화장치를 사용하는 화자의 음성데이터인 개인음향모델을 이용한 음성 인식방법. - 제8항에서,
상기 음성데이터는 동일 계정의 음성제어장치 또는 음성통화장치를 사용하는 화자의 음성데이터인 개인음향모델을 이용한 음성 인식방법. - 제8항에서,
상기 수집단계는 상기 음성 데이터 내의 노이즈를 검출하여 제거하는 단계를 포함하는 개인음향모델을 이용한 음성 인식방법. - 제8항에서,
상기 개인음향모델 생성단계는,
다수의 화자의 음성데이터에 기초하여 상기 다수의 화자에 대응하는 공통음향모델을 생성하는 단계를 포함하는 개인음향모델을 이용한 음성 인식방법.
Priority Applications (4)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
KR1020140141167A KR101610151B1 (ko) | 2014-10-17 | 2014-10-17 | 개인음향모델을 이용한 음성 인식장치 및 방법 |
DE102015213715.5A DE102015213715A1 (de) | 2014-10-17 | 2015-07-21 | Spracherkennungsvorrichtung und Spracherkennungsverfahren |
US14/810,554 US20160111084A1 (en) | 2014-10-17 | 2015-07-28 | Speech recognition device and speech recognition method |
CN201510601128.8A CN105529026B (zh) | 2014-10-17 | 2015-09-18 | 语音识别装置和语音识别方法 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
KR1020140141167A KR101610151B1 (ko) | 2014-10-17 | 2014-10-17 | 개인음향모델을 이용한 음성 인식장치 및 방법 |
Publications (1)
Publication Number | Publication Date |
---|---|
KR101610151B1 true KR101610151B1 (ko) | 2016-04-08 |
Family
ID=55638192
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
KR1020140141167A Active KR101610151B1 (ko) | 2014-10-17 | 2014-10-17 | 개인음향모델을 이용한 음성 인식장치 및 방법 |
Country Status (4)
Country | Link |
---|---|
US (1) | US20160111084A1 (ko) |
KR (1) | KR101610151B1 (ko) |
CN (1) | CN105529026B (ko) |
DE (1) | DE102015213715A1 (ko) |
Cited By (5)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN110556097A (zh) * | 2018-06-01 | 2019-12-10 | 声音猎手公司 | 定制声学模型 |
KR20200025750A (ko) * | 2018-08-31 | 2020-03-10 | 삼성전자주식회사 | 음성 인식 모델을 개인화하는 방법 및 장치 |
US11074910B2 (en) | 2017-01-09 | 2021-07-27 | Samsung Electronics Co., Ltd. | Electronic device for recognizing speech |
US11631400B2 (en) | 2019-02-11 | 2023-04-18 | Samsung Electronics Co., Ltd. | Electronic apparatus and controlling method thereof |
KR102613698B1 (ko) * | 2023-07-31 | 2023-12-14 | 주식회사 효돌 | 사용자 음성 데이터에 기초하여 사용자 유형화를 수행하는방법 및 장치 |
Families Citing this family (17)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
JP6391895B2 (ja) * | 2016-05-20 | 2018-09-19 | 三菱電機株式会社 | 音響モデル学習装置、音響モデル学習方法、音声認識装置、および音声認識方法 |
CN106710591A (zh) * | 2016-12-13 | 2017-05-24 | 云南电网有限责任公司电力科学研究院 | 用于电力终端的语音客服系统 |
US10325592B2 (en) | 2017-02-15 | 2019-06-18 | GM Global Technology Operations LLC | Enhanced voice recognition task completion |
CN108630193B (zh) * | 2017-03-21 | 2020-10-02 | 北京嘀嘀无限科技发展有限公司 | 语音识别方法及装置 |
CN107170444A (zh) * | 2017-06-15 | 2017-09-15 | 上海航空电器有限公司 | 航空座舱环境自适应语音特征模型训练方法 |
CN109102801A (zh) | 2017-06-20 | 2018-12-28 | 京东方科技集团股份有限公司 | 语音识别方法和语音识别装置 |
JP6891736B2 (ja) * | 2017-08-29 | 2021-06-18 | 富士通株式会社 | 音声処理プログラム、音声処理方法および音声処理装置 |
CN109559759B (zh) * | 2017-09-27 | 2021-10-08 | 华硕电脑股份有限公司 | 具备增量注册单元的电子设备及其方法 |
US11182565B2 (en) | 2018-02-23 | 2021-11-23 | Samsung Electronics Co., Ltd. | Method to learn personalized intents |
CN108538293B (zh) * | 2018-04-27 | 2021-05-28 | 海信视像科技股份有限公司 | 语音唤醒方法、装置及智能设备 |
CN108717854A (zh) * | 2018-05-08 | 2018-10-30 | 哈尔滨理工大学 | 基于优化gfcc特征参数的说话人识别方法 |
KR102562227B1 (ko) * | 2018-06-12 | 2023-08-02 | 현대자동차주식회사 | 대화 시스템, 그를 가지는 차량 및 차량의 제어 방법 |
US11314940B2 (en) | 2018-05-22 | 2022-04-26 | Samsung Electronics Co., Ltd. | Cross domain personalized vocabulary learning in intelligent assistants |
CN111326141A (zh) * | 2018-12-13 | 2020-06-23 | 南京硅基智能科技有限公司 | 一种处理获取人声数据的方法 |
CN113096646B (zh) * | 2019-12-20 | 2022-06-07 | 北京世纪好未来教育科技有限公司 | 音频识别方法、装置、电子设备及存储介质 |
CN113555032B (zh) * | 2020-12-22 | 2024-03-12 | 腾讯科技(深圳)有限公司 | 多说话人场景识别及网络训练方法、装置 |
CN114582326A (zh) * | 2022-01-18 | 2022-06-03 | 湖北第二师范学院 | 基于年龄向量的语音识别方法、装置及设备 |
Family Cites Families (11)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
EP1126438B1 (en) * | 1998-09-09 | 2008-07-16 | Asahi Kasei Kabushiki Kaisha | Speech recognizer and speech recognition method |
US6754626B2 (en) * | 2001-03-01 | 2004-06-22 | International Business Machines Corporation | Creating a hierarchical tree of language models for a dialog system based on prompt and dialog context |
US6941264B2 (en) * | 2001-08-16 | 2005-09-06 | Sony Electronics Inc. | Retraining and updating speech models for speech recognition |
US20050004799A1 (en) * | 2002-12-31 | 2005-01-06 | Yevgenly Lyudovyk | System and method for a spoken language interface to a large database of changing records |
CN101281745B (zh) * | 2008-05-23 | 2011-08-10 | 深圳市北科瑞声科技有限公司 | 一种车载语音交互系统 |
CN102237086A (zh) * | 2010-04-28 | 2011-11-09 | 三星电子株式会社 | 用于语音识别设备的补偿装置和方法 |
CN102280106A (zh) * | 2010-06-12 | 2011-12-14 | 三星电子株式会社 | 用于移动通信终端的语音网络搜索方法及其装置 |
BR102012024861B1 (pt) * | 2011-09-30 | 2021-02-09 | Apple Inc. | sistema para desambiguar entrada de usuário para realizar uma tarefa |
CN103187053B (zh) * | 2011-12-31 | 2016-03-30 | 联想(北京)有限公司 | 输入方法和电子设备 |
US9158760B2 (en) * | 2012-12-21 | 2015-10-13 | The Nielsen Company (Us), Llc | Audio decoding with supplemental semantic audio recognition and report generation |
KR101493452B1 (ko) | 2013-05-31 | 2015-02-16 | 국방과학연구소 | 함정 전투체계의 트래픽 모델링 방법 |
-
2014
- 2014-10-17 KR KR1020140141167A patent/KR101610151B1/ko active Active
-
2015
- 2015-07-21 DE DE102015213715.5A patent/DE102015213715A1/de active Pending
- 2015-07-28 US US14/810,554 patent/US20160111084A1/en not_active Abandoned
- 2015-09-18 CN CN201510601128.8A patent/CN105529026B/zh active Active
Cited By (7)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
US11074910B2 (en) | 2017-01-09 | 2021-07-27 | Samsung Electronics Co., Ltd. | Electronic device for recognizing speech |
CN110556097A (zh) * | 2018-06-01 | 2019-12-10 | 声音猎手公司 | 定制声学模型 |
CN110556097B (zh) * | 2018-06-01 | 2023-10-13 | 声音猎手公司 | 定制声学模型 |
KR20200025750A (ko) * | 2018-08-31 | 2020-03-10 | 삼성전자주식회사 | 음성 인식 모델을 개인화하는 방법 및 장치 |
KR102637339B1 (ko) * | 2018-08-31 | 2024-02-16 | 삼성전자주식회사 | 음성 인식 모델을 개인화하는 방법 및 장치 |
US11631400B2 (en) | 2019-02-11 | 2023-04-18 | Samsung Electronics Co., Ltd. | Electronic apparatus and controlling method thereof |
KR102613698B1 (ko) * | 2023-07-31 | 2023-12-14 | 주식회사 효돌 | 사용자 음성 데이터에 기초하여 사용자 유형화를 수행하는방법 및 장치 |
Also Published As
Publication number | Publication date |
---|---|
CN105529026B (zh) | 2021-01-01 |
DE102015213715A1 (de) | 2016-04-21 |
US20160111084A1 (en) | 2016-04-21 |
CN105529026A (zh) | 2016-04-27 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
KR101610151B1 (ko) | 개인음향모델을 이용한 음성 인식장치 및 방법 | |
CN112435684B (zh) | 语音分离方法、装置、计算机设备和存储介质 | |
CN105741836B (zh) | 声音识别装置以及声音识别方法 | |
CN107928673B (zh) | 音频信号处理方法、装置、存储介质和计算机设备 | |
JP3584458B2 (ja) | パターン認識装置およびパターン認識方法 | |
KR100636317B1 (ko) | 분산 음성 인식 시스템 및 그 방법 | |
CN102842304B (zh) | 语音数据中继装置及中继方法、终端装置、语音识别系统 | |
US20140379332A1 (en) | Identification of a local speaker | |
KR102225404B1 (ko) | 디바이스 정보를 이용하는 음성인식 방법 및 장치 | |
KR20170060108A (ko) | 실행 중 범위 정규화를 이용하는 신경망 음성 활동 검출 | |
KR20160098771A (ko) | 음성 기능 운용 방법 및 이를 지원하는 전자 장치 | |
JP2005244968A (ja) | モバイル・デバイス上のマルチセンサによるスピーチ改良のための方法および装置 | |
KR101564087B1 (ko) | 화자 검증 장치 및 방법 | |
KR101888058B1 (ko) | 발화된 단어에 기초하여 화자를 식별하기 위한 방법 및 그 장치 | |
KR100639968B1 (ko) | 음성 인식 장치 및 그 방법 | |
CN112992153B (zh) | 音频处理方法、声纹识别方法、装置、计算机设备 | |
US20200251120A1 (en) | Method and system for individualized signal processing of an audio signal of a hearing device | |
KR20150145024A (ko) | 화자적응 음성인식 시스템의 단말 및 서버와 그 운용 방법 | |
KR101065188B1 (ko) | 진화 학습에 의한 화자 적응 장치 및 방법과 이를 이용한 음성인식 시스템 | |
CN115223584B (zh) | 音频数据处理方法、装置、设备及存储介质 | |
RU2597487C2 (ru) | Устройство обработки, способ обработки, программа, машиночитаемый носитель записи информации и система обработки | |
KR20190117448A (ko) | 음성 검출기를 구비한 보청기 및 그 방법 | |
KR20190129805A (ko) | 잡음 환경 분류 및 제거 기능을 갖는 보청기 및 그 방법 | |
JP5803125B2 (ja) | 音声による抑圧状態検出装置およびプログラム | |
CN109065026B (zh) | 一种录音控制方法及装置 |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PA0109 | Patent application |
Patent event code: PA01091R01D Comment text: Patent Application Patent event date: 20141017 |
|
PA0201 | Request for examination | ||
PE0902 | Notice of grounds for rejection |
Comment text: Notification of reason for refusal Patent event date: 20150831 Patent event code: PE09021S01D |
|
E701 | Decision to grant or registration of patent right | ||
PE0701 | Decision of registration |
Patent event code: PE07011S01D Comment text: Decision to Grant Registration Patent event date: 20160226 |
|
GRNT | Written decision to grant | ||
PR0701 | Registration of establishment |
Comment text: Registration of Establishment Patent event date: 20160401 Patent event code: PR07011E01D |
|
PR1002 | Payment of registration fee |
Payment date: 20160401 End annual number: 3 Start annual number: 1 |
|
PG1601 | Publication of registration | ||
FPAY | Annual fee payment |
Payment date: 20190327 Year of fee payment: 4 |
|
PR1001 | Payment of annual fee |
Payment date: 20190327 Start annual number: 4 End annual number: 4 |
|
PR1001 | Payment of annual fee |
Payment date: 20200330 Start annual number: 5 End annual number: 5 |
|
PR1001 | Payment of annual fee |
Payment date: 20210329 Start annual number: 6 End annual number: 6 |
|
PR1001 | Payment of annual fee |
Payment date: 20230327 Start annual number: 8 End annual number: 8 |
|
PR1001 | Payment of annual fee |
Payment date: 20240325 Start annual number: 9 End annual number: 9 |