KR102386863B1 - 사용자 기반 언어 모델 생성 장치, 방법 및 음성 인식 장치 - Google Patents
사용자 기반 언어 모델 생성 장치, 방법 및 음성 인식 장치 Download PDFInfo
- Publication number
- KR102386863B1 KR102386863B1 KR1020150127916A KR20150127916A KR102386863B1 KR 102386863 B1 KR102386863 B1 KR 102386863B1 KR 1020150127916 A KR1020150127916 A KR 1020150127916A KR 20150127916 A KR20150127916 A KR 20150127916A KR 102386863 B1 KR102386863 B1 KR 102386863B1
- Authority
- KR
- South Korea
- Prior art keywords
- language model
- user
- characteristic data
- generating
- group
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Active
Links
Images
Classifications
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L15/00—Speech recognition
- G10L15/06—Creation of reference templates; Training of speech recognition systems, e.g. adaptation to the characteristics of the speaker's voice
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L15/00—Speech recognition
- G10L15/08—Speech classification or search
- G10L15/18—Speech classification or search using natural language modelling
- G10L15/183—Speech classification or search using natural language modelling using context dependencies, e.g. language models
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L15/00—Speech recognition
- G10L15/08—Speech classification or search
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L15/00—Speech recognition
- G10L15/22—Procedures used during a speech recognition process, e.g. man-machine dialogue
- G10L2015/226—Procedures used during a speech recognition process, e.g. man-machine dialogue using non-speech characteristics
- G10L2015/227—Procedures used during a speech recognition process, e.g. man-machine dialogue using non-speech characteristics of the speaker; Human-factor methodology
Landscapes
- Engineering & Computer Science (AREA)
- Physics & Mathematics (AREA)
- Computational Linguistics (AREA)
- Health & Medical Sciences (AREA)
- Audiology, Speech & Language Pathology (AREA)
- Human Computer Interaction (AREA)
- Acoustics & Sound (AREA)
- Multimedia (AREA)
- Artificial Intelligence (AREA)
- Machine Translation (AREA)
- User Interface Of Digital Computer (AREA)
- Information Retrieval, Db Structures And Fs Structures Therefor (AREA)
- Signal Processing (AREA)
Abstract
Description
도 2는 일 실시예에 따른 언어 모델 생성부의 구성도이다.
도 3은 다른 실시예에 따른 사용자 기반 언어 모델 생성 장치의 구성도이다.
도 4는 일 실시예에 따른 사용자의 특성 데이터를 수집하는 방법을 설명하기 위한 예시도이다.
도 5는 일 실시예에 음성 인식 장치의 구성도이다.
도 6은 일 실시예에 따른 사용자 기반 언어 모델 생성 방법의 단계를 구체적으로 도시한 흐름도이다.
도 7은 일 실시예에 따른 언어 모델 생성 방법의 단계를 구체적으로 도시한 흐름도이다.
110: 특성 데이터 수집부 130: 언어 모델 그룹 식별부
150: 언어 모델 생성부 151: 가중치 계산부
153: 언어 모델 보간부 310: 사용자 단말
350: 언어 모델 생성 서버 500: 음성 인식 장치
510: 언어 모델 획득부 530: 음성 인식부
550: 언어 모델 DB
Claims (15)
- 음성 인식을 위한 사용자 기반 언어 모델 생성 장치에 있어서,
사용자의 특성 데이터를 수집하는 특성 데이터 수집부;
상기 수집된 사용자의 특성 데이터와 소정 기준에 따라 생성된 복수의 언어 모델 그룹 각각의 그룹간의 일치정도를 결정하고, 상기 결정된 일치 정도에 기초하여 상기 복수의 언어 모델 그룹 중 사용자에게 적용할 언어 모델 그룹을 식별하는 언어 모델 그룹 식별부; 및
상기 결정된 일치 정도를 기초로 가중치를 계산하고, 상기 가중치, 및 상기 식별된 언어 모델 그룹을 기초로 범용 언어 모델을 보간하여, 상기 사용자에게 적용할 언어 모델을 생성하는 언어 모델 생성부;를 포함하는 사용자 기반 언어 모델 생성 장치. - 삭제
- 제1항에 있어서,
상기 특성 데이터 수집부는
사용자에게 소정 이미지나 소정 질의를 제시하고, 상기 이미지나 질의에 대한 사용자의 응답을 기초로 상기 사용자의 특성 데이터를 수집하는 사용자 기반 언어 모델 생성 장치. - 제1항에 있어서,
상기 사용자의 특성 데이터는 성별, 나이, 주소, 자주 사용하는 애플리케이션 및 생체 정보 중의 하나 이상을 포함하는 정적 정보 및, 상황에 따라 변화하는 자주 사용하는 키워드, 목소리 톤, 세기 및 빠르기 중의 하나 이상을 포함하는 동적 정보 중의 적어도 하나를 포함하는 사용자 기반 언어 모델 생성 장치. - 삭제
- 삭제
- 사용자로부터 음성 인식 요청이 수신되면, 상기 사용자에게 적용할 사용자 기반 언어 모델을 획득하는 언어 모델 획득부; 및
상기 획득된 사용자 기반 언어 모델을 이용하여, 음성 인식이 요청된 사용자의 음성을 인식하는 음성 인식부;를 포함하되,
상기 언어 모델 획득부는,
수집된 사용자의 특성 데이터와 소정 기준에 따라 생성된 복수의 언어 모델 그룹 각각의 그룹간의 일치 정도를 결정하고, 상기 결정된 일치 정도에 기초하여 상기 복수의 언어 모델 그룹 중 사용자에게 적용할 언어 모델 그룹을 식별하고, 상기 결정된 일치 정도를 기초로 가중치를 계산하고, 상기 가중치, 및 상기 식별된 언어 모델 그룹을 기초로 범용 언어 모델을 보간하여 상기 사용자에게 적용할 언어 모델을 생성하는 음성 인식 장치. - 삭제
- 삭제
- 음성 인식을 위한 사용자 기반 언어 모델 생성 방법에 있어서,
사용자의 특성 데이터를 수집하는 단계;
상기 사용자의 특성 데이터와, 소정 기준에 따라 생성된 복수의 언어 모델 그룹 각각의 그룹간의 일치 정도를 결정하는 단계;
상기 결정된 일치 정도에 기초하여 상기 복수의 언어 모델 그룹 중 사용자에게 적용할 언어 모델 그룹을 식별하는 단계;
상기 결정된 일치 정도를 기초로 가중치를 계산하는 단계;및
상기 가중치, 및 상기 식별된 언어 모델 그룹을 기초로 범용 언어 모델을 보간하여, 상기 사용자에게 적용할 언어 모델을 생성하는 단계;를 포함하는 사용자 기반 언어 모델 생성 방법. - 삭제
- 제10항에 있어서,
상기 특성 데이터를 수집하는 단계는
사용자에게 소정 이미지나 소정 질의를 제시하고, 상기 이미지나 질의에 대한 사용자의 응답을 기초로 상기 사용자의 특성 데이터를 수집하는 사용자 기반 언어 모델 생성 방법. - 제10항에 있어서,
상기 사용자의 특성 데이터는 성별, 나이, 주소, 자주 사용하는 애플리케이션 및 생체 정보 중의 하나 이상을 포함하는 정적 정보 및, 상황에 따라 변화하는 자주 사용하는 키워드, 목소리 톤, 세기 및 빠르기 중의 하나 이상을 포함하는 동적 정보 중의 적어도 하나를 포함하는 사용자 기반 언어 모델 생성 방법. - 삭제
- 삭제
Priority Applications (2)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
KR1020150127916A KR102386863B1 (ko) | 2015-09-09 | 2015-09-09 | 사용자 기반 언어 모델 생성 장치, 방법 및 음성 인식 장치 |
US15/227,426 US10242668B2 (en) | 2015-09-09 | 2016-08-03 | Speech recognition apparatus and method |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
KR1020150127916A KR102386863B1 (ko) | 2015-09-09 | 2015-09-09 | 사용자 기반 언어 모델 생성 장치, 방법 및 음성 인식 장치 |
Publications (2)
Publication Number | Publication Date |
---|---|
KR20170030387A KR20170030387A (ko) | 2017-03-17 |
KR102386863B1 true KR102386863B1 (ko) | 2022-04-13 |
Family
ID=58190657
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
KR1020150127916A Active KR102386863B1 (ko) | 2015-09-09 | 2015-09-09 | 사용자 기반 언어 모델 생성 장치, 방법 및 음성 인식 장치 |
Country Status (2)
Country | Link |
---|---|
US (1) | US10242668B2 (ko) |
KR (1) | KR102386863B1 (ko) |
Families Citing this family (17)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
EP3079342A4 (en) * | 2013-12-03 | 2017-03-15 | Ricoh Company, Ltd. | Relay device, display device, and communication system |
KR102413282B1 (ko) * | 2017-08-14 | 2022-06-27 | 삼성전자주식회사 | 개인화된 음성 인식 방법 및 이를 수행하는 사용자 단말 및 서버 |
KR102441422B1 (ko) * | 2018-01-11 | 2022-09-07 | 한국전자통신연구원 | 개인 정보 보호가 가능한 개인화된 질의응답 시스템, 클라우드 서버 및 이의 공통 신경망 모델 제공 방법 |
US11106868B2 (en) * | 2018-03-06 | 2021-08-31 | Samsung Electronics Co., Ltd. | System and method for language model personalization |
KR102699827B1 (ko) * | 2018-05-11 | 2024-08-29 | 삼성전자주식회사 | 음성 인식 모델을 개인화하는 방법 및 장치 |
KR102172772B1 (ko) * | 2018-07-18 | 2020-11-02 | 엘지전자 주식회사 | 인공지능 서버 및 인공지능 디바이스 |
US10720149B2 (en) * | 2018-10-23 | 2020-07-21 | Capital One Services, Llc | Dynamic vocabulary customization in automated voice systems |
US11940992B2 (en) | 2018-11-01 | 2024-03-26 | Huawei Technologies Co., Ltd. | Model file management method and terminal device |
KR102725793B1 (ko) * | 2018-11-07 | 2024-11-05 | 삼성전자주식회사 | 사용자 발화를 처리하는 전자 장치, 및 그 전자 장치의 제어 방법 |
KR20200059703A (ko) | 2018-11-21 | 2020-05-29 | 삼성전자주식회사 | 음성 인식 방법 및 음성 인식 장치 |
US10785171B2 (en) | 2019-02-07 | 2020-09-22 | Capital One Services, Llc | Chat bot utilizing metaphors to both relay and obtain information |
US10522138B1 (en) * | 2019-02-11 | 2019-12-31 | Groupe Allo Media SAS | Real-time voice processing systems and methods |
KR102783672B1 (ko) * | 2019-06-28 | 2025-03-21 | 엘지전자 주식회사 | 로봇, 그와 연결되는 서버, 및 로봇을 이용한 음성 인식 방법 |
KR102339085B1 (ko) * | 2019-07-22 | 2021-12-14 | 엘지전자 주식회사 | 사용자의 어플리케이션 사용 기록을 고려하여 사용자의 음성을 인식하는 인공 지능 장치 및 그 방법 |
KR20210029354A (ko) * | 2019-09-06 | 2021-03-16 | 삼성전자주식회사 | 전자장치 및 그 제어방법 |
US12198689B1 (en) * | 2020-08-10 | 2025-01-14 | Summer Institute of Linguistics, Inc. | Systems and methods for multilingual dialogue interactions using dynamic automatic speech recognition and processing |
KR102780552B1 (ko) * | 2024-05-07 | 2025-03-12 | 주식회사 큐엔엑스 | 인공지능을 이용한 자녀의 교육경험 공유 및 자녀 교육정보 사전 예측 서비스 제공 시스템 및 그 방법 |
Family Cites Families (16)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
US6167377A (en) * | 1997-03-28 | 2000-12-26 | Dragon Systems, Inc. | Speech recognition language models |
US6484136B1 (en) * | 1999-10-21 | 2002-11-19 | International Business Machines Corporation | Language model adaptation via network of similar users |
US20040085162A1 (en) * | 2000-11-29 | 2004-05-06 | Rajeev Agarwal | Method and apparatus for providing a mixed-initiative dialog between a user and a machine |
US7197457B2 (en) | 2003-04-30 | 2007-03-27 | Robert Bosch Gmbh | Method for statistical language modeling in speech recognition |
WO2010021368A1 (ja) | 2008-08-20 | 2010-02-25 | 日本電気株式会社 | 言語モデル作成装置、言語モデル作成方法、音声認識装置、音声認識方法、プログラム、および記録媒体 |
JP5235187B2 (ja) | 2009-11-16 | 2013-07-10 | 日本電信電話株式会社 | 音声認識装置、音声認識方法及び音声認識プログラム |
US8938391B2 (en) | 2011-06-12 | 2015-01-20 | Microsoft Corporation | Dynamically adding personalization features to language models for voice search |
US9129606B2 (en) * | 2011-09-23 | 2015-09-08 | Microsoft Technology Licensing, Llc | User query history expansion for improving language model adaptation |
KR101478146B1 (ko) | 2011-12-15 | 2015-01-02 | 한국전자통신연구원 | 화자 그룹 기반 음성인식 장치 및 방법 |
JP5914054B2 (ja) | 2012-03-05 | 2016-05-11 | 日本放送協会 | 言語モデル作成装置、音声認識装置、およびそのプログラム |
US9043205B2 (en) | 2012-06-21 | 2015-05-26 | Google Inc. | Dynamic language model |
US9747895B1 (en) * | 2012-07-10 | 2017-08-29 | Google Inc. | Building language models for a user in a social network from linguistic information |
US9053708B2 (en) * | 2012-07-18 | 2015-06-09 | International Business Machines Corporation | System, method and program product for providing automatic speech recognition (ASR) in a shared resource environment |
US9697821B2 (en) * | 2013-01-29 | 2017-07-04 | Tencent Technology (Shenzhen) Company Limited | Method and system for building a topic specific language model for use in automatic speech recognition |
US9361289B1 (en) * | 2013-08-30 | 2016-06-07 | Amazon Technologies, Inc. | Retrieval and management of spoken language understanding personalization data |
US10096317B2 (en) * | 2016-04-18 | 2018-10-09 | Interactions Llc | Hierarchical speech recognition decoder |
-
2015
- 2015-09-09 KR KR1020150127916A patent/KR102386863B1/ko active Active
-
2016
- 2016-08-03 US US15/227,426 patent/US10242668B2/en active Active
Also Published As
Publication number | Publication date |
---|---|
US20170069314A1 (en) | 2017-03-09 |
KR20170030387A (ko) | 2017-03-17 |
US10242668B2 (en) | 2019-03-26 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
KR102386863B1 (ko) | 사용자 기반 언어 모델 생성 장치, 방법 및 음성 인식 장치 | |
US10832686B2 (en) | Method and apparatus for pushing information | |
US10819811B2 (en) | Accumulation of real-time crowd sourced data for inferring metadata about entities | |
US10403282B2 (en) | Method and apparatus for providing voice service | |
US9311915B2 (en) | Context-based speech recognition | |
US9842588B2 (en) | Method and device for context-based voice recognition using voice recognition model | |
US10204619B2 (en) | Speech recognition using associative mapping | |
US11989219B2 (en) | Profile disambiguation | |
US11574637B1 (en) | Spoken language understanding models | |
US20160012820A1 (en) | Multilevel speech recognition method and apparatus | |
US9626962B2 (en) | Method and apparatus for recognizing speech, and method and apparatus for generating noise-speech recognition model | |
US20230275902A1 (en) | Distributed identification in networked system | |
KR101983635B1 (ko) | 개인방송 컨텐츠 추천방법 | |
US9319510B2 (en) | Personalized bandwidth extension | |
KR102688236B1 (ko) | 인공 지능을 이용한 음성 합성 장치, 음성 합성 장치의 동작 방법 및 컴퓨터로 판독 가능한 기록 매체 | |
CN110990685A (zh) | 基于声纹的语音搜索方法、设备、存储介质及装置 | |
JP6927318B2 (ja) | 情報処理装置、情報処理方法、及びプログラム | |
JP2020042131A (ja) | 情報処理装置、情報処理方法、およびプログラム | |
KR102631143B1 (ko) | 인공 지능을 이용한 음성 합성 장치, 음성 합성 장치의 동작 방법 및 컴퓨터로 판독 가능한 기록 매체 | |
US11790898B1 (en) | Resource selection for processing user inputs | |
CN106653006A (zh) | 基于语音交互的搜索方法和装置 | |
KR102335048B1 (ko) | 음성 인식 서비스를 제공하는 사용자 단말, 방법 및 서버 | |
US10629197B2 (en) | Voice processing system and voice processing method for predicting and executing an ask-again request corresponding to a received request | |
KR102642617B1 (ko) | 인공 지능을 이용한 음성 합성 장치, 음성 합성 장치의 동작 방법 및 컴퓨터로 판독 가능한 기록 매체 | |
CN110570843A (zh) | 一种用户语音识别方法和装置 |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PA0109 | Patent application |
Patent event code: PA01091R01D Comment text: Patent Application Patent event date: 20150909 |
|
PG1501 | Laying open of application | ||
A201 | Request for examination | ||
PA0201 | Request for examination |
Patent event code: PA02012R01D Patent event date: 20200902 Comment text: Request for Examination of Application Patent event code: PA02011R01I Patent event date: 20150909 Comment text: Patent Application |
|
E902 | Notification of reason for refusal | ||
PE0902 | Notice of grounds for rejection |
Comment text: Notification of reason for refusal Patent event date: 20210927 Patent event code: PE09021S01D |
|
E701 | Decision to grant or registration of patent right | ||
PE0701 | Decision of registration |
Patent event code: PE07011S01D Comment text: Decision to Grant Registration Patent event date: 20220318 |
|
GRNT | Written decision to grant | ||
PR0701 | Registration of establishment |
Comment text: Registration of Establishment Patent event date: 20220411 Patent event code: PR07011E01D |
|
PR1002 | Payment of registration fee |
Payment date: 20220411 End annual number: 3 Start annual number: 1 |
|
PG1601 | Publication of registration |