KR102225984B1 - 음성 인식 서비스를 제공하는 서버 - Google Patents
음성 인식 서비스를 제공하는 서버 Download PDFInfo
- Publication number
- KR102225984B1 KR102225984B1 KR1020180104694A KR20180104694A KR102225984B1 KR 102225984 B1 KR102225984 B1 KR 102225984B1 KR 1020180104694 A KR1020180104694 A KR 1020180104694A KR 20180104694 A KR20180104694 A KR 20180104694A KR 102225984 B1 KR102225984 B1 KR 102225984B1
- Authority
- KR
- South Korea
- Prior art keywords
- voice recognition
- voice
- speech
- recognition model
- user
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Active
Links
Images
Classifications
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L15/00—Speech recognition
- G10L15/28—Constructional details of speech recognition systems
- G10L15/30—Distributed recognition, e.g. in client-server systems, for mobile phones or network applications
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L15/00—Speech recognition
- G10L15/08—Speech classification or search
- G10L15/16—Speech classification or search using artificial neural networks
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L15/00—Speech recognition
- G10L15/06—Creation of reference templates; Training of speech recognition systems, e.g. adaptation to the characteristics of the speaker's voice
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L15/00—Speech recognition
- G10L15/08—Speech classification or search
- G10L15/083—Recognition networks
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L15/00—Speech recognition
- G10L15/08—Speech classification or search
- G10L15/14—Speech classification or search using statistical models, e.g. Hidden Markov Models [HMMs]
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L15/00—Speech recognition
- G10L15/08—Speech classification or search
- G10L15/18—Speech classification or search using natural language modelling
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L15/00—Speech recognition
- G10L15/22—Procedures used during a speech recognition process, e.g. man-machine dialogue
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L15/00—Speech recognition
- G10L15/28—Constructional details of speech recognition systems
- G10L15/32—Multiple recognisers used in sequence or in parallel; Score combination systems therefor, e.g. voting systems
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L17/00—Speaker identification or verification techniques
- G10L17/18—Artificial neural networks; Connectionist approaches
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L15/00—Speech recognition
- G10L15/01—Assessment or evaluation of speech recognition systems
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L15/00—Speech recognition
- G10L15/06—Creation of reference templates; Training of speech recognition systems, e.g. adaptation to the characteristics of the speaker's voice
- G10L15/063—Training
- G10L2015/0631—Creating reference templates; Clustering
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L15/00—Speech recognition
- G10L15/22—Procedures used during a speech recognition process, e.g. man-machine dialogue
- G10L2015/225—Feedback of the input speech
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L15/00—Speech recognition
- G10L15/22—Procedures used during a speech recognition process, e.g. man-machine dialogue
- G10L2015/226—Procedures used during a speech recognition process, e.g. man-machine dialogue using non-speech characteristics
- G10L2015/227—Procedures used during a speech recognition process, e.g. man-machine dialogue using non-speech characteristics of the speaker; Human-factor methodology
Landscapes
- Engineering & Computer Science (AREA)
- Physics & Mathematics (AREA)
- Acoustics & Sound (AREA)
- Audiology, Speech & Language Pathology (AREA)
- Human Computer Interaction (AREA)
- Health & Medical Sciences (AREA)
- Multimedia (AREA)
- Computational Linguistics (AREA)
- Artificial Intelligence (AREA)
- Evolutionary Computation (AREA)
- Probability & Statistics with Applications (AREA)
- Telephonic Communication Services (AREA)
- User Interface Of Digital Computer (AREA)
Abstract
Description
도 2는 종래의 음성 인식 시스템의 문제점을 설명하기 위한 도면이다.
도 3은 본 발명의 실시 예에 따른 음성 인식 장치를 설명하기 위한 블록도이다.
도 4는 본 발명의 실시 예에 따른 서버를 설명하기 위한 블록도이다.
도 5는 본 발명의 실시 예에 따른, 음성 인식 서비스를 제공하는 서버의 동작 방법을 설명하기 위한 도면이다.
도 6은 본 발명의 실시 예에 따른, 음성 인식 장치의 사용성 정보를 이용하여 음성 인식 모델을 변경하는 방법을 설명하기 위한 도면이다.
도 7은 본 발명의 실시 예에 따른, 복수의 음성 인식 장치에 대응하는 음성 인식 모델의 변경 과정을 설명하기 위한 도면이다.
기기 | 인식률 | 만족도(주기 별 횟수) | 메타정보 | 업데이트 요청 | ||
부정적 표현 (은어/속어) |
인공지능 미응답으로 인한 재발화 시도 횟수 | 인공지능의 회신에 대한 재문의 | ||||
제1 음성인식 장치 |
34.13 | 13 | 34 | 70% | 여자/40대/경기 | O |
기기 | 인식률 | 만족도(주기 별 횟수) | 메타정보 | 업데이트 요청 | ||
부정적 표현 (은어/속어) |
인공지능 미응답으로 인한 재발화 시도 횟수 | 인공지능의 회신에 대한 재문의 | ||||
가중치 | 10 | 5 | 5 | 2 | 10 | 20 |
제1 음성인식 장치 |
34.13 | 13 | 34 | 70% | 여자/40대/경기 | O |
기기 | 인식률 | 만족도(주기 별 횟수) | 메타정보 | 업데이트 요청 | ||
부정적 표현 (은어/속어) |
인공지능 미응답으로 인한 재발화 시도 횟수 | 인공지능의 회신에 대한 재문의 | ||||
가중치 | 10 | 5 | 5 | 2 | 10 | 20 |
제1 음성인식 장치 |
0.34 | 0.13 | 0.34 | 0.7 | 카테고리 7 (000000111) |
1 |
기기 | 인식률 | 만족도(주기 별 횟수) | 메타정보 | 업데이트 요청 | ||
부정적 표현 (은어/속어) |
인공지능 미응답으로 인한 재발화 시도 횟수 | 인공지능의 회신에 대한 재문의 | ||||
제1 음성인식 장치 |
34.13 | 13 | 34 | 70% | 여자/40대/경기 | O |
제2 음성인식 장치 |
75.12 | 3 | 41 | 9% | 남자/20대/경상 | O |
제3 음성인식 장치 |
45.23 | 4 | 14 | 34% | 남자/10대/서울 | O |
제4 음성인식 장치 |
64.53 | 0 | 7 | 9% | 여자/70대/전라 | x |
기기 | 인식률 | 만족도(주기 별 횟수) | 메타정보 | 업데이트 요청 | ||
부정적 표현 (은어/속어) |
인공지능 미응답으로 인한 재발화 시도 횟수 | 인공지능의 회신에 대한 재문의 | ||||
가중치 | 10 | 5 | 5 | 2 | 10 | 20 |
제1 음성인식 장치 |
0.34 | 0.13 | 0.34 | 0.7 | 카테고리 7 (000000111) |
1 |
제2 음성인식 장치 |
0.75 | 0.03 | 0.41 | 0.09 | 카테고리 56 (000111000) |
1 |
제3 음성인식 장치 |
0.45 | 0.04 | 0.14 | 0.34 | 카테고리 1 (000000001) |
1 |
제4 음성인식 장치 |
0.64 | 0 | 0.07 | 0.6 | 카테고리 70 (1000110) |
0 |
530: 통신부
Claims (16)
- 복수의 음성 인식 모델을 저장하는 저장부;
복수의 음성 인식 장치와 통신하는 통신부; 및
상기 복수의 음성 인식 장치에 음성 인식 서비스를 제공하고, 상기 복수의 음성 인식 장치 중 제1 음성 인식 장치의 사용성 정보를 획득하고, 상기 사용성 정보에 기초하여 상기 제1 음성 인식 장치에 대응하는 음성 인식 모델을 제1 음성 인식 모델로부터 제2 음성 인식 모델로 변경하는 프로세서를 포함하고,
상기 사용성 정보는,
상기 제1 음성 인식 모델에 대한 상기 제1 음성 인식 장치의 사용자의 만족도를 나타내는 피드백을 포함하고,
상기 프로세서는,
상기 제1 음성 인식 장치로부터 상기 제1 음성 인식 장치의 사용자의 음성 데이터를 수신하고, 상기 음성 데이터를 상기 제1 음성 인식 모델에 입력하여 상기 음성 데이터에 대응하는 인식 결과를 획득하고, 상기 음성 데이터로부터 상기 피드백을 추출하고, 상기 음성 데이터에 대응하는 인식 결과를 상기 제1 음성 인식 장치에 전송하고,
상기 피드백을 포함하는 상기 사용성 정보에 기초하여 상기 제1 음성 인식 장치에 대응하는 음성 인식 모델의 변경 여부를 결정하고,
상기 프로세서는
동일한 용어의 발화 횟수, 재 문의 발화 횟수를 이용하여, 상기 음성 인식 모델에 대한 사용자의 만족도를 결정하는
음성 인식 서비스를 제공하는 서버. - 제 1항에 있어서,
상기 프로세서는,
상기 복수의 음성 인식 장치 중 제2 음성 인식 장치의 사용성 정보를 획득하고, 상기 제2 음성 인식 장치의 사용성 정보에 기초하여 상기 제2 음성 인식 장치에 대응하는 음성 인식 모델을 상기 제1 음성 인식 모델로부터 제3 음성 인식 모델로 변경하는
음성 인식 서비스를 제공하는 서버. - 제 1항에 있어서,
상기 사용성 정보는,
상기 제1 음성 인식 장치의 사용자의 메타 정보, 상기 제1 음성 인식 장치에 대응하는 음성 인식 모델의 인식 성능 및 상기 제1 음성 인식 장치의 사용자의 업데이트 요청 중 적어도 하나를 더 포함하는
음성 인식 서비스를 제공하는 서버. - 제 3항에 있어서,
상기 메타 정보는,
상기 사용자의 성별, 나이, 지역 및 국가 중 적어도 하나를 포함하는
음성 인식 서비스를 제공하는 서버. - 삭제
- 제 3항에 있어서,
상기 제1 음성 인식 장치에 대응하는 음성 인식 모델의 인식 성능은,
상기 제1 음성 인식 모델을 이용하여 상기 제1 음성 인식 장치의 사용자의 음성에 대한 음성 인식을 수행한 경우의 음성 인식률을 포함하는
음성 인식 서비스를 제공하는 서버. - 제 3항에 있어서,
상기 프로세서는,
상기 제1 음성 인식 장치에 대응하는 음성 인식 모델을 변경하는 것으로 결정되면, 상기 제1 음성 인식 장치의 사용자의 발화 습관 및 상기 메타 정보 중 적어도 하나에 기초하여 변경될 음성 인식 모델을 결정하는
음성 인식 서비스를 제공하는 서버. - 제 3항에 있어서,
상기 프로세서는,
상기 사용성 정보에 가중치를 부여하고 상기 가중치가 부여된 사용성 정보를 음성 인식 엔진 분류 모델에 입력하여 상기 음성 인식 모델의 변경 여부 및 변경될 음성 인식 모델을 결정하는
음성 인식 서비스를 제공하는 서버. - 음성 인식 서비스를 제공하는 서버의 동작 방법에 있어서,
복수의 음성 인식 장치에 음성 인식 서비스를 제공하는 단계;
상기 복수의 음성 인식 장치 중 제1 음성 인식 장치의 사용성 정보를 획득하는 단계; 및
상기 사용성 정보에 기초하여 상기 제1 음성 인식 장치에 대응하는 음성 인식 모델을 복수의 음성 인식 모델 중 제1 음성 인식 모델로부터 상기 복수의 음성 인식 모델 중 제2 음성 인식 모델로 변경하는 단계를 포함하고,
상기 사용성 정보는,
상기 제1 음성 인식 모델에 대한 상기 제1 음성 인식 장치의 사용자의 만족도를 나타내는 피드백을 포함하고,
상기 복수의 음성 인식 장치에 음성 인식 서비스를 제공하는 단계는,
상기 제1 음성 인식 장치로부터 상기 제1 음성 인식 장치의 사용자의 음성 데이터를 수신하는 단계;
상기 음성 데이터를 상기 제1 음성 인식 모델에 입력하여 상기 음성 데이터에 대응하는 인식 결과를 획득하고, 상기 음성 데이터로부터 상기 피드백을 추출하는 단계; 및
상기 음성 데이터에 대응하는 인식 결과를 상기 제1 음성 인식 장치에 전송하는 단계를 포함하고,
상기 제1 음성 인식 장치에 대응하는 음성 인식 모델을 상기 제1 음성 인식 모델로부터 상기 제2 음성 인식 모델로 변경하는 단계는,
상기 피드백을 포함하는 상기 사용성 정보에 기초하여 상기 제1 음성 인식 장치에 대응하는 음성 인식 모델의 변경 여부를 결정하는 단계를 포함하고,
상기 동작 방법은
동일한 용어의 발화 횟수, 재 문의 발화 횟수를 이용하여, 상기 음성 인식 모델에 대한 사용자의 만족도를 결정하는 단계를 더 포함하는
음성 인식 서비스를 제공하는 서버의 동작 방법. - 제 9항에 있어서,
상기 복수의 음성 인식 장치 중 제2 음성 인식 장치의 사용성 정보를 획득하는 단계; 및
상기 제2 음성 인식 장치의 사용성 정보에 기초하여 상기 제2 음성 인식 장치에 대응하는 음성 인식 모델을 상기 제1 음성 인식 모델로부터 제3 음성 인식 모델로 변경하는 단계를 더 포함하는
음성 인식 서비스를 제공하는 서버의 동작 방법. - 제 9항에 있어서,
상기 사용성 정보는,
상기 제1 음성 인식 장치의 사용자의 메타 정보, 상기 제1 음성 인식 장치에 대응하는 음성 인식 모델의 인식 성능 및 상기 제1 음성 인식 장치의 사용자의 업데이트 요청 중 적어도 하나를 더 포함하는
음성 인식 서비스를 제공하는 서버의 동작 방법. - 제 11항에 있어서,
상기 메타 정보는,
상기 사용자의 성별, 나이, 지역 및 국가 중 적어도 하나를 포함하는
음성 인식 서비스를 제공하는 서버의 동작 방법. - 삭제
- 제 11항에 있어서,
상기 제1 음성 인식 장치에 대응하는 음성 인식 모델의 인식 성능은,
상기 제1 음성 인식 모델을 이용하여 상기 제1 음성 인식 장치의 사용자의 음성에 대한 음성 인식을 수행한 경우의 음성 인식률을 포함하는
음성 인식 서비스를 제공하는 서버의 동작 방법. - 제 11항에 있어서,
상기 제1 음성 인식 장치에 대응하는 음성 인식 모델을 상기 제1 음성 인식 모델로부터 상기 제2 음성 인식 모델로 변경하는 단계는,
상기 제1 음성 인식 장치에 대응하는 음성 인식 모델을 변경하는 것으로 결정되면, 상기 제1 음성 인식 장치의 사용자의 발화 습관 및 상기 메타 정보 중 적어도 하나에 기초하여 변경될 음성 인식 모델을 결정하는 단계를 더 포함하는
음성 인식 서비스를 제공하는 서버의 동작 방법. - 제 11항에 있어서,
상기 제1 음성 인식 장치에 대응하는 음성 인식 모델을 상기 제1 음성 인식 모델로부터 상기 제2 음성 인식 모델로 변경하는 단계는,
상기 사용성 정보에 가중치를 부여하고 상기 가중치가 부여된 사용성 정보를 음성 인식 엔진 분류 모델에 입력하여 상기 음성 인식 모델의 변경 여부 및 변경될 음성 인식 모델을 결정하는 단계를 포함하는
음성 인식 서비스를 제공하는 서버의 동작 방법.
Priority Applications (3)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
KR1020180104694A KR102225984B1 (ko) | 2018-09-03 | 2018-09-03 | 음성 인식 서비스를 제공하는 서버 |
US16/545,794 US11222624B2 (en) | 2018-09-03 | 2019-08-20 | Server for providing voice recognition service |
PCT/KR2019/011341 WO2020050595A1 (ko) | 2018-09-03 | 2019-09-03 | 음성 인식 서비스를 제공하는 서버 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
KR1020180104694A KR102225984B1 (ko) | 2018-09-03 | 2018-09-03 | 음성 인식 서비스를 제공하는 서버 |
Publications (2)
Publication Number | Publication Date |
---|---|
KR20200026574A KR20200026574A (ko) | 2020-03-11 |
KR102225984B1 true KR102225984B1 (ko) | 2021-03-10 |
Family
ID=69640059
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
KR1020180104694A Active KR102225984B1 (ko) | 2018-09-03 | 2018-09-03 | 음성 인식 서비스를 제공하는 서버 |
Country Status (3)
Country | Link |
---|---|
US (1) | US11222624B2 (ko) |
KR (1) | KR102225984B1 (ko) |
WO (1) | WO2020050595A1 (ko) |
Families Citing this family (69)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
US9772817B2 (en) | 2016-02-22 | 2017-09-26 | Sonos, Inc. | Room-corrected voice detection |
US9965247B2 (en) | 2016-02-22 | 2018-05-08 | Sonos, Inc. | Voice controlled media playback system based on user profile |
US9947316B2 (en) | 2016-02-22 | 2018-04-17 | Sonos, Inc. | Voice control of a media playback system |
US10509626B2 (en) | 2016-02-22 | 2019-12-17 | Sonos, Inc | Handling of loss of pairing between networked devices |
US10095470B2 (en) | 2016-02-22 | 2018-10-09 | Sonos, Inc. | Audio response playback |
US10264030B2 (en) | 2016-02-22 | 2019-04-16 | Sonos, Inc. | Networked microphone device control |
US9978390B2 (en) | 2016-06-09 | 2018-05-22 | Sonos, Inc. | Dynamic player selection for audio signal processing |
US10134399B2 (en) | 2016-07-15 | 2018-11-20 | Sonos, Inc. | Contextualization of voice inputs |
US10115400B2 (en) | 2016-08-05 | 2018-10-30 | Sonos, Inc. | Multiple voice services |
US9942678B1 (en) | 2016-09-27 | 2018-04-10 | Sonos, Inc. | Audio playback settings for voice interaction |
US10181323B2 (en) | 2016-10-19 | 2019-01-15 | Sonos, Inc. | Arbitration-based voice recognition |
US11183181B2 (en) | 2017-03-27 | 2021-11-23 | Sonos, Inc. | Systems and methods of multiple voice services |
US10475449B2 (en) | 2017-08-07 | 2019-11-12 | Sonos, Inc. | Wake-word detection suppression |
US10048930B1 (en) | 2017-09-08 | 2018-08-14 | Sonos, Inc. | Dynamic computation of system response volume |
US10531157B1 (en) * | 2017-09-21 | 2020-01-07 | Amazon Technologies, Inc. | Presentation and management of audio and visual content across devices |
US10446165B2 (en) | 2017-09-27 | 2019-10-15 | Sonos, Inc. | Robust short-time fourier transform acoustic echo cancellation during audio playback |
US10482868B2 (en) | 2017-09-28 | 2019-11-19 | Sonos, Inc. | Multi-channel acoustic echo cancellation |
US10051366B1 (en) | 2017-09-28 | 2018-08-14 | Sonos, Inc. | Three-dimensional beam forming with a microphone array |
US10621981B2 (en) | 2017-09-28 | 2020-04-14 | Sonos, Inc. | Tone interference cancellation |
US10466962B2 (en) | 2017-09-29 | 2019-11-05 | Sonos, Inc. | Media playback system with voice assistance |
US10880650B2 (en) | 2017-12-10 | 2020-12-29 | Sonos, Inc. | Network microphone devices with automatic do not disturb actuation capabilities |
US10818290B2 (en) | 2017-12-11 | 2020-10-27 | Sonos, Inc. | Home graph |
WO2019152722A1 (en) | 2018-01-31 | 2019-08-08 | Sonos, Inc. | Device designation of playback and network microphone device arrangements |
US10600408B1 (en) * | 2018-03-23 | 2020-03-24 | Amazon Technologies, Inc. | Content output management based on speech quality |
US11175880B2 (en) | 2018-05-10 | 2021-11-16 | Sonos, Inc. | Systems and methods for voice-assisted media content selection |
US10959029B2 (en) | 2018-05-25 | 2021-03-23 | Sonos, Inc. | Determining and adapting to changes in microphone performance of playback devices |
US10681460B2 (en) | 2018-06-28 | 2020-06-09 | Sonos, Inc. | Systems and methods for associating playback devices with voice assistant services |
US11076035B2 (en) | 2018-08-28 | 2021-07-27 | Sonos, Inc. | Do not disturb feature for audio notifications |
US10461710B1 (en) | 2018-08-28 | 2019-10-29 | Sonos, Inc. | Media playback system with maximum volume setting |
US10587430B1 (en) | 2018-09-14 | 2020-03-10 | Sonos, Inc. | Networked devices, systems, and methods for associating playback devices based on sound codes |
WO2020060311A1 (en) * | 2018-09-20 | 2020-03-26 | Samsung Electronics Co., Ltd. | Electronic device and method for providing or obtaining data for training thereof |
US11024331B2 (en) | 2018-09-21 | 2021-06-01 | Sonos, Inc. | Voice detection optimization using sound metadata |
US10811015B2 (en) | 2018-09-25 | 2020-10-20 | Sonos, Inc. | Voice detection optimization based on selected voice assistant service |
US11100923B2 (en) | 2018-09-28 | 2021-08-24 | Sonos, Inc. | Systems and methods for selective wake word detection using neural network models |
US10692518B2 (en) | 2018-09-29 | 2020-06-23 | Sonos, Inc. | Linear filtering for noise-suppressed speech detection via multiple network microphone devices |
US11899519B2 (en) | 2018-10-23 | 2024-02-13 | Sonos, Inc. | Multiple stage network microphone device with reduced power consumption and processing load |
EP3654249A1 (en) | 2018-11-15 | 2020-05-20 | Snips | Dilated convolutions and gating for efficient keyword spotting |
US11183183B2 (en) | 2018-12-07 | 2021-11-23 | Sonos, Inc. | Systems and methods of operating media playback systems having multiple voice assistant services |
US11132989B2 (en) | 2018-12-13 | 2021-09-28 | Sonos, Inc. | Networked microphone devices, systems, and methods of localized arbitration |
US10602268B1 (en) | 2018-12-20 | 2020-03-24 | Sonos, Inc. | Optimization of network microphone devices using noise classification |
US11315556B2 (en) | 2019-02-08 | 2022-04-26 | Sonos, Inc. | Devices, systems, and methods for distributed voice processing by transmitting sound data associated with a wake word to an appropriate device for identification |
US10867604B2 (en) | 2019-02-08 | 2020-12-15 | Sonos, Inc. | Devices, systems, and methods for distributed voice processing |
EP3709194A1 (en) | 2019-03-15 | 2020-09-16 | Spotify AB | Ensemble-based data comparison |
US11120794B2 (en) | 2019-05-03 | 2021-09-14 | Sonos, Inc. | Voice assistant persistence across multiple network microphone devices |
US10586540B1 (en) | 2019-06-12 | 2020-03-10 | Sonos, Inc. | Network microphone device with command keyword conditioning |
US11200894B2 (en) | 2019-06-12 | 2021-12-14 | Sonos, Inc. | Network microphone device with command keyword eventing |
US11361756B2 (en) | 2019-06-12 | 2022-06-14 | Sonos, Inc. | Conditional wake word eventing based on environment |
US11138969B2 (en) | 2019-07-31 | 2021-10-05 | Sonos, Inc. | Locally distributed keyword detection |
US11138975B2 (en) | 2019-07-31 | 2021-10-05 | Sonos, Inc. | Locally distributed keyword detection |
US10871943B1 (en) | 2019-07-31 | 2020-12-22 | Sonos, Inc. | Noise classification for event detection |
US11094319B2 (en) | 2019-08-30 | 2021-08-17 | Spotify Ab | Systems and methods for generating a cleaned version of ambient sound |
US11189286B2 (en) | 2019-10-22 | 2021-11-30 | Sonos, Inc. | VAS toggle based on device orientation |
KR20210054800A (ko) * | 2019-11-06 | 2021-05-14 | 엘지전자 주식회사 | 사용자의 음성샘플 수집 |
US11200900B2 (en) | 2019-12-20 | 2021-12-14 | Sonos, Inc. | Offline voice control |
US11562740B2 (en) | 2020-01-07 | 2023-01-24 | Sonos, Inc. | Voice verification for media playback |
US11556307B2 (en) | 2020-01-31 | 2023-01-17 | Sonos, Inc. | Local voice data processing |
US11308958B2 (en) | 2020-02-07 | 2022-04-19 | Sonos, Inc. | Localized wakeword verification |
US11308959B2 (en) | 2020-02-11 | 2022-04-19 | Spotify Ab | Dynamic adjustment of wake word acceptance tolerance thresholds in voice-controlled devices |
US11328722B2 (en) * | 2020-02-11 | 2022-05-10 | Spotify Ab | Systems and methods for generating a singular voice audio stream |
JP7196122B2 (ja) * | 2020-02-18 | 2022-12-26 | 株式会社東芝 | インタフェース提供装置、インタフェース提供方法およびプログラム |
US11482224B2 (en) | 2020-05-20 | 2022-10-25 | Sonos, Inc. | Command keywords with input detection windowing |
US11727919B2 (en) | 2020-05-20 | 2023-08-15 | Sonos, Inc. | Memory allocation for keyword spotting engines |
US11308962B2 (en) * | 2020-05-20 | 2022-04-19 | Sonos, Inc. | Input detection windowing |
JP7491761B2 (ja) | 2020-07-20 | 2024-05-28 | ローランドディー.ジー.株式会社 | 三次元造形装置および三次元造形装置用の帯電捕集装置 |
US11698771B2 (en) | 2020-08-25 | 2023-07-11 | Sonos, Inc. | Vocal guidance engines for playback devices |
US11984123B2 (en) | 2020-11-12 | 2024-05-14 | Sonos, Inc. | Network device interaction by range |
CN112908333B (zh) * | 2021-05-08 | 2021-07-16 | 鹏城实验室 | 语音识别方法、装置、设备及计算机可读存储介质 |
KR102459856B1 (ko) * | 2022-06-22 | 2022-10-31 | 주식회사 인조이웍스 | 비대면 실시간 민원상담을 위한 주민생활 통합 지원 서비스 제공 시스템 |
CN116206606A (zh) * | 2023-02-21 | 2023-06-02 | 蔚来汽车科技(安徽)有限公司 | 语音处理方法、装置、计算机设备和存储介质 |
Citations (2)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
JP2005215689A (ja) * | 2004-02-02 | 2005-08-11 | Fuji Xerox Co Ltd | 情報源から情報を認識する方法およびシステム |
JP2008203469A (ja) * | 2007-02-19 | 2008-09-04 | Toshiba Corp | 音声認識装置及び方法 |
Family Cites Families (45)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
JP2871557B2 (ja) * | 1995-11-08 | 1999-03-17 | 株式会社エイ・ティ・アール音声翻訳通信研究所 | 音声認識装置 |
US9076448B2 (en) * | 1999-11-12 | 2015-07-07 | Nuance Communications, Inc. | Distributed real time speech recognition system |
US7548651B2 (en) * | 2003-10-03 | 2009-06-16 | Asahi Kasei Kabushiki Kaisha | Data process unit and data process unit control program |
GB0420464D0 (en) * | 2004-09-14 | 2004-10-20 | Zentian Ltd | A speech recognition circuit and method |
CN101034390A (zh) * | 2006-03-10 | 2007-09-12 | 日电(中国)有限公司 | 用于语言模型切换和自适应的装置和方法 |
JP4466665B2 (ja) * | 2007-03-13 | 2010-05-26 | 日本電気株式会社 | 議事録作成方法、その装置及びそのプログラム |
US8352264B2 (en) * | 2008-03-19 | 2013-01-08 | Canyon IP Holdings, LLC | Corrective feedback loop for automated speech recognition |
US8990085B2 (en) * | 2009-09-30 | 2015-03-24 | At&T Intellectual Property I, L.P. | System and method for handling repeat queries due to wrong ASR output by modifying an acoustic, a language and a semantic model |
US8442827B2 (en) * | 2010-06-18 | 2013-05-14 | At&T Intellectual Property I, L.P. | System and method for customized voice response |
US20130325447A1 (en) * | 2012-05-31 | 2013-12-05 | Elwha LLC, a limited liability corporation of the State of Delaware | Speech recognition adaptation systems based on adaptation data |
US9966064B2 (en) * | 2012-07-18 | 2018-05-08 | International Business Machines Corporation | Dialect-specific acoustic language modeling and speech recognition |
US10346542B2 (en) * | 2012-08-31 | 2019-07-09 | Verint Americas Inc. | Human-to-human conversation analysis |
US9035884B2 (en) * | 2012-10-17 | 2015-05-19 | Nuance Communications, Inc. | Subscription updates in multiple device language models |
US9190057B2 (en) * | 2012-12-12 | 2015-11-17 | Amazon Technologies, Inc. | Speech model retrieval in distributed speech recognition systems |
US9460083B2 (en) * | 2012-12-27 | 2016-10-04 | International Business Machines Corporation | Interactive dashboard based on real-time sentiment analysis for synchronous communication |
KR20160030168A (ko) * | 2013-07-09 | 2016-03-16 | 주식회사 윌러스표준기술연구소 | 음성 인식 방법, 장치 및 시스템 |
US20150073774A1 (en) * | 2013-09-11 | 2015-03-12 | Avaya Inc. | Automatic Domain Sentiment Expansion |
US9128930B2 (en) * | 2013-10-31 | 2015-09-08 | Tencent Technology (Shenzhen) Company Limited | Method, device and system for providing language service |
EP3067884B1 (en) * | 2015-03-13 | 2019-05-08 | Samsung Electronics Co., Ltd. | Speech recognition system and speech recognition method thereof |
US10325590B2 (en) * | 2015-06-26 | 2019-06-18 | Intel Corporation | Language model modification for local speech recognition systems using remote sources |
KR20170046291A (ko) * | 2015-10-21 | 2017-05-02 | 삼성전자주식회사 | 전자 기기, 그의 음향 모델 적응 방법 및 음성 인식 시스템 |
DE112016006496T5 (de) * | 2016-02-26 | 2018-11-15 | Mitsubishi Electric Corporation | Stimmerkennungsvorrichtung |
US11216069B2 (en) * | 2018-05-08 | 2022-01-04 | Facebook Technologies, Llc | Systems and methods for improved speech recognition using neuromuscular information |
KR102501714B1 (ko) * | 2016-11-16 | 2023-02-21 | 삼성전자주식회사 | 사용자의 음성 입력에 대한 답변 메시지를 제공하는 디바이스 및 방법 |
KR20180074210A (ko) * | 2016-12-23 | 2018-07-03 | 삼성전자주식회사 | 전자 장치 및 전자 장치의 음성 인식 방법 |
US11521641B2 (en) * | 2017-02-08 | 2022-12-06 | Nippon Telegraph And Telephone Corporation | Model learning device, estimating device, methods therefor, and program |
US11056104B2 (en) * | 2017-05-26 | 2021-07-06 | International Business Machines Corporation | Closed captioning through language detection |
CN107240396B (zh) * | 2017-06-16 | 2023-01-17 | 百度在线网络技术(北京)有限公司 | 说话人自适应方法、装置、设备及存储介质 |
GB201801527D0 (en) * | 2017-07-07 | 2018-03-14 | Cirrus Logic Int Semiconductor Ltd | Method, apparatus and systems for biometric processes |
US10558763B2 (en) * | 2017-08-03 | 2020-02-11 | Electronics And Telecommunications Research Institute | Automatic translation system, device, and method |
KR102413282B1 (ko) * | 2017-08-14 | 2022-06-27 | 삼성전자주식회사 | 개인화된 음성 인식 방법 및 이를 수행하는 사용자 단말 및 서버 |
KR102369416B1 (ko) * | 2017-09-18 | 2022-03-03 | 삼성전자주식회사 | 복수의 사용자 각각에 대응하는 개인화 레이어를 이용하여 복수의 사용자 각각의 음성 신호를 인식하는 음성 신호 인식 시스템 |
US10380261B2 (en) * | 2017-12-22 | 2019-08-13 | Disney Enterprises, Inc. | Conversational language and informational response systems and methods |
KR102550932B1 (ko) * | 2017-12-29 | 2023-07-04 | 삼성전자주식회사 | 음성 인식 모델의 개인화 방법 및 장치 |
US10783882B2 (en) * | 2018-01-03 | 2020-09-22 | International Business Machines Corporation | Acoustic change detection for robust automatic speech recognition based on a variance between distance dependent GMM models |
US10937414B2 (en) * | 2018-05-08 | 2021-03-02 | Facebook Technologies, Llc | Systems and methods for text input using neuromuscular information |
US10650811B2 (en) * | 2018-03-13 | 2020-05-12 | Microsoft Technology Licensing, Llc | Correction of speech recognition on repetitive queries |
EP4254402B1 (en) * | 2018-04-16 | 2025-01-01 | Google LLC | Automatically determining language for speech recognition of spoken utterance received via an automated assistant interface |
US10679615B2 (en) * | 2018-04-16 | 2020-06-09 | Google Llc | Adaptive interface in a voice-based networked system |
EP4270385B1 (en) * | 2018-04-16 | 2024-12-18 | Google LLC | Automatically determining language for speech recognition of spoken utterance received via an automated assistant interface |
US11010179B2 (en) * | 2018-04-20 | 2021-05-18 | Facebook, Inc. | Aggregating semantic information for improved understanding of users |
US10592001B2 (en) * | 2018-05-08 | 2020-03-17 | Facebook Technologies, Llc | Systems and methods for improved speech recognition using neuromuscular information |
KR102699827B1 (ko) * | 2018-05-11 | 2024-08-29 | 삼성전자주식회사 | 음성 인식 모델을 개인화하는 방법 및 장치 |
US20190362709A1 (en) * | 2018-05-25 | 2019-11-28 | Motorola Mobility Llc | Offline Voice Enrollment |
US11011162B2 (en) * | 2018-06-01 | 2021-05-18 | Soundhound, Inc. | Custom acoustic models |
-
2018
- 2018-09-03 KR KR1020180104694A patent/KR102225984B1/ko active Active
-
2019
- 2019-08-20 US US16/545,794 patent/US11222624B2/en active Active
- 2019-09-03 WO PCT/KR2019/011341 patent/WO2020050595A1/ko active Application Filing
Patent Citations (2)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
JP2005215689A (ja) * | 2004-02-02 | 2005-08-11 | Fuji Xerox Co Ltd | 情報源から情報を認識する方法およびシステム |
JP2008203469A (ja) * | 2007-02-19 | 2008-09-04 | Toshiba Corp | 音声認識装置及び方法 |
Also Published As
Publication number | Publication date |
---|---|
KR20200026574A (ko) | 2020-03-11 |
WO2020050595A1 (ko) | 2020-03-12 |
US11222624B2 (en) | 2022-01-11 |
US20200074990A1 (en) | 2020-03-05 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
KR102225984B1 (ko) | 음성 인식 서비스를 제공하는 서버 | |
EP3509061B1 (en) | Electronic device for voice recognition | |
KR102225918B1 (ko) | 인공 지능 기기 | |
KR102384641B1 (ko) | 다국어 처리를 수행하는 인공 지능 시스템의 제어 방법 | |
US11531864B2 (en) | Artificial intelligence server | |
US10593322B2 (en) | Electronic device and method for controlling the same | |
US10464570B2 (en) | Electronic device and method using machine learning for identifying characteristics of users located within a specific space | |
KR20190100114A (ko) | 배터리 장치 및 그 제어 방법 | |
US20200193989A1 (en) | Audio device and control method therefor | |
EP3364661A2 (en) | Electronic device and method for controlling the same | |
US20200302313A1 (en) | Artificial intelligence device | |
US10685650B2 (en) | Mobile terminal and method of controlling the same | |
KR102390685B1 (ko) | 전자 장치 및 그 제어 방법 | |
KR20190116035A (ko) | 인공지능 서버 | |
KR102172772B1 (ko) | 인공지능 서버 및 인공지능 디바이스 | |
US20190163436A1 (en) | Electronic device and method for controlling the same | |
US11734400B2 (en) | Electronic device and control method therefor | |
US20210287665A1 (en) | Voice recognition system | |
KR20190121558A (ko) | 이동 단말기 | |
KR102114064B1 (ko) | 이동 단말기 | |
US12216955B2 (en) | User terminal to which external display may be connected and control method therefor | |
KR20230031056A (ko) | 감성 분석 시스템을 이용한 데이터 학습 방법 | |
KR20220104595A (ko) | 중단 없는 기계학습 클러스터 재구성 방법 | |
KR20220075654A (ko) | Multi-class 데이터 잠재공간 분리를 위한 오토인코더 모델 | |
KR20190035363A (ko) | 전자 장치 및 그 제어 방법 |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
A201 | Request for examination | ||
PA0109 | Patent application |
Patent event code: PA01091R01D Comment text: Patent Application Patent event date: 20180903 |
|
PA0201 | Request for examination | ||
E902 | Notification of reason for refusal | ||
PE0902 | Notice of grounds for rejection |
Comment text: Notification of reason for refusal Patent event date: 20200113 Patent event code: PE09021S01D |
|
PG1501 | Laying open of application | ||
E902 | Notification of reason for refusal | ||
PE0902 | Notice of grounds for rejection |
Comment text: Notification of reason for refusal Patent event date: 20200729 Patent event code: PE09021S01D |
|
E701 | Decision to grant or registration of patent right | ||
PE0701 | Decision of registration |
Patent event code: PE07011S01D Comment text: Decision to Grant Registration Patent event date: 20210126 |
|
GRNT | Written decision to grant | ||
PR0701 | Registration of establishment |
Comment text: Registration of Establishment Patent event date: 20210304 Patent event code: PR07011E01D |
|
PR1002 | Payment of registration fee |
Payment date: 20210305 End annual number: 3 Start annual number: 1 |
|
PG1601 | Publication of registration | ||
PR1001 | Payment of annual fee |
Payment date: 20250210 Start annual number: 5 End annual number: 5 |