KR100622019B1 - 음성 인터페이스 시스템 및 방법 - Google Patents
음성 인터페이스 시스템 및 방법 Download PDFInfo
- Publication number
- KR100622019B1 KR100622019B1 KR1020050069038A KR20050069038A KR100622019B1 KR 100622019 B1 KR100622019 B1 KR 100622019B1 KR 1020050069038 A KR1020050069038 A KR 1020050069038A KR 20050069038 A KR20050069038 A KR 20050069038A KR 100622019 B1 KR100622019 B1 KR 100622019B1
- Authority
- KR
- South Korea
- Prior art keywords
- voice
- error
- speech
- recognition
- speech recognition
- Prior art date
Links
- 238000000034 method Methods 0.000 title claims abstract description 61
- 238000012805 post-processing Methods 0.000 claims abstract description 45
- 238000004891 communication Methods 0.000 claims abstract description 9
- 230000004044 response Effects 0.000 claims description 33
- 230000015572 biosynthetic process Effects 0.000 claims description 14
- 238000003786 synthesis reaction Methods 0.000 claims description 14
- 238000001514 detection method Methods 0.000 claims description 13
- 230000001186 cumulative effect Effects 0.000 claims description 5
- 230000003068 static effect Effects 0.000 claims 2
- 102100039718 Gamma-secretase-activating protein Human genes 0.000 claims 1
- 101710184700 Gamma-secretase-activating protein Proteins 0.000 claims 1
- 238000012795 verification Methods 0.000 description 17
- 230000006870 function Effects 0.000 description 14
- 238000010586 diagram Methods 0.000 description 9
- 230000008569 process Effects 0.000 description 8
- 230000006978 adaptation Effects 0.000 description 6
- 230000010365 information processing Effects 0.000 description 6
- 238000012545 processing Methods 0.000 description 5
- 230000008901 benefit Effects 0.000 description 4
- 238000000605 extraction Methods 0.000 description 4
- 230000002452 interceptive effect Effects 0.000 description 4
- 230000004048 modification Effects 0.000 description 3
- 238000012986 modification Methods 0.000 description 3
- 239000000284 extract Substances 0.000 description 2
- 230000003993 interaction Effects 0.000 description 2
- 230000015556 catabolic process Effects 0.000 description 1
- 230000010485 coping Effects 0.000 description 1
- 238000012937 correction Methods 0.000 description 1
- 238000006731 degradation reaction Methods 0.000 description 1
- 238000005516 engineering process Methods 0.000 description 1
- 239000000203 mixture Substances 0.000 description 1
- 230000009467 reduction Effects 0.000 description 1
- 238000013179 statistical model Methods 0.000 description 1
- 238000012546 transfer Methods 0.000 description 1
- 238000002604 ultrasonography Methods 0.000 description 1
Images
Classifications
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L15/00—Speech recognition
- G10L15/22—Procedures used during a speech recognition process, e.g. man-machine dialogue
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L15/00—Speech recognition
- G10L15/28—Constructional details of speech recognition systems
- G10L15/30—Distributed recognition, e.g. in client-server systems, for mobile phones or network applications
Landscapes
- Engineering & Computer Science (AREA)
- Computational Linguistics (AREA)
- Health & Medical Sciences (AREA)
- Audiology, Speech & Language Pathology (AREA)
- Human Computer Interaction (AREA)
- Physics & Mathematics (AREA)
- Acoustics & Sound (AREA)
- Multimedia (AREA)
- Machine Translation (AREA)
Abstract
Description
Claims (30)
- 음성 데이터를 이용하여 음성 인식을 수행하며, 수행된 음성 인식의 오류 여부를 판단하는 음성 인식 모듈; 및상기 음성 인식 모듈에서 음성 인식의 오류가 있는 것으로 판단되어지는 경우 휴먼 오퍼레이터를 통하여 음성 인식 결과를 얻는 H/O 오류 후처리 모듈을 포함하는 음성 인터페이스 서버.
- 제 1 항에 있어서,상기 H/O 오류 후처리 모듈은 사용자별 음성 인식 오류의 누적 회수, 자주 틀리는 단어, 오류가 발생한 단어와 가장 인접한 것으로 판단되어지는 적어도 하나의 단어, 및 대화 히스토리 중 적어도 하나를 디스플레이하는 음성 인터페이스 서버.
- 제 1 항에 있어서,상기 H/O 오류 후처리 모듈은 단어 자동 인덱싱 기능을 가지는 음성 인터페이스 서버.
- 제 1 항에 있어서,상기 H/O 오류 후처리 모듈은 발화 속도 가변 기능을 가지는 음성 인터페이 스 서버.
- 제 1 항에 있어서,상기 음성 인식 모듈 또는 상기 H/O 오류 후처리 모듈에서 얻어진 음성 인식 결과에 의미상의 오류가 있는 경우에 오류를 수정하기 위한 질문인 시스템 응답을 형성하는 대화 모델 모듈; 및상기 시스템 응답을 음성 데이터로 변환하는 음성 합성 모듈을 더 포함하는 음성 인터페이스 서버.
- 제 5 항에 있어서,상기 음성 인식 모듈은 상기 대화 모델 모듈에서 형성된 시스템 응답에 대응하는 범위의 단어만을 탐색하는 음성 인터페이스 서버.
- 사용자가 발화한 음성을 음성 데이터로 변환하고, 변환된 음성 데이터를 통신을 통하여 음성 인터페이스 서버로 전달하는 음성 인터페이스 클라이언트; 및상기 음성 인터페이스 클라이언트로부터 전달된 음성 데이터를 이용하여 음성 인식을 수행하되, 음성 인식에 오류가 클 것으로 판단되어지는 경우에는 휴먼 오퍼레이터를 통하여 음성 인식 결과를 얻는 음성 인터페이스 서버를 포함하는 음성 인터페이스 시스템.
- 제 7 항에 있어서,상기 음성 인터페이스 서버는 제 1 항 내지 6 항 중 어느 한 항에 의한 음성 인터페이스 서버인 음성 인터페이스 시스템.
- 제 7 항에 있어서,상기 음성 인터페이스 클라이언트는 상기 사용자가 발화한 음성으로부터 변환된 음성 데이터의 끝점 검출 기능을 가지는 음성 인터페이스 시스템.
- 제 7 항에 있어서,상기 음성 인터페이스 클라이언트는 로봇인 음성 인터페이스 시스템.
- 음성 데이터를 이용하여 음성 인식을 수행하는 음성 인식 모듈;상기 음성 인식 모듈에서 수행된 음성 인식 결과 오인식이거나, 의미상의 오류가 있는 경우에 오류를 수정하기 위한 질문인 시스템 응답을 형성하는 대화 모델 모듈; 및상기 질문을 음성 데이터로 변환하는 음성 합성 모듈을 포함하는 음성 인터페이스 서버.
- 제 11 항에 있어서,상기 음성 인식 모듈은 상기 대화 모델 모듈에서 형성된 질문에 대응하는 범위의 단어만을 탐색하는 음성 인터페이스 서버.
- 사용자가 발화한 음성을 음성 데이터로 변환하고, 변환된 음성 데이터를 통신을 통하여 음성 인터페이스 서버로 전달하는 음성 인터페이스 클라이언트; 및상기 음성 인터페이스 클라이언트로부터 전달된 음성 데이터를 이용하여 음성 인식을 수행하되, 음성 인식 결과 오인식이거나, 의미상의 오류가 있는 경우에는 오류를 수정하기 위한 질문인 시스템 응답을 형성하는 음성 인터페이스 서버를 포함하는 음성 인터페이스 시스템.
- 제 13 항에 있어서,상기 음성 인터페이스 서버는 제 11 또는 12 항에 의한 음성 인터페이스 서버인 음성 인터페이스 시스템.
- (a) 음성 데이터를 이용하여 음성 인식을 수행하며, 수행된 음성 인식의 오류 여부를 판단하는 음성 인식 단계; 및(b) 상기 (a) 단계에서 음성 인식의 오류가 있는 것으로 판단되어지는 경우 휴먼 오퍼레이터를 통하여 음성 인식 결과를 얻는 H/O 오류 후처리 단계를 포함하는 음성 인식 방법.
- 제 15 항에 있어서,상기 (a) 단계는(a1) 상기 음성 데이터로부터 특징 파라메터를 추출하는 단계;(a2) 상기 추출된 특징 파라메터로부터 핵심어를 탐색하여 구하는 단계; 및(a3) 상기 (a2) 단계에서 구한 핵심어가 정인식인지에 의한 결과인지 오인식에 의한 결과인지 여부를 판단하여 수행된 음성 인식의 오류 여부를 판단하는 단계를 포함하는 음성 인식 방법.
- 제 16 항에 있어서,상기 (a3) 단계는적어도 한 종류의 LLR 값으로부터 추출된 스코어 값을 이용하여 음성 인식의 오류 여부를 판단하는 단계; 및메타데이터를 이용하여 음성 인식의 오류 여부를 판단하는 단계를 포함하는 음성 인식 방법.
- 제 16 항에 있어서,상기 (a) 단계는(a4) 화자독립 음성 특성에 발화자의 음성특성을 실시간으로 반영하는 단계를 더 포함하는 음성 인식 방법.
- 제 16 항에 있어서,상기 (a) 단계는(a5) 상기 (a1) 단계 이전에 수행되며, 상기 음성 데이터의 묵음구간과 음성구간을 구분하는 음성 끝점 검출 단계를 더 포함하는 음성 인식 방법.
- 제 19 항에 있어서,상기 (a5) 단계는음성의 에너지 정보를 이용하여 음성 끝점을 검출하는 단계; 및GSAP를 이용하여 음성 끝점을 검출하는 단계를 포함하는 음성 인식 방법.
- 제 19 항에 있어서,상기 (a) 단계는(a6) 상기 (a1) 단계 이전에 수행되며, 상기 끝점 검출된 음성 데이터가 음성인지 잡음인지 검증하는 단계를 더 포함하는 음성 인식 방법.
- 제 19 항에 있어서,상기 (a) 단계는(a7) 상기 (a5) 단계 이전에 수행되며, 음성 데이터에서 정적 배경 잡음을 제거하는 단계를 더 포함하는 음성 인식 방법.
- 제 16 항에 있어서,상기 (a) 단계는(a8) 상기 (a1) 단계에서 추출한 특징 파라메터로부터 비정적 배경 잡음을 제거하는 단계를 더 포함하는 음성 인식 방법.
- 제 15 항에 있어서,상기 (b) 단계는사용자별 음성 인식 오류의 누적 회수, 자주 틀리는 단어, 오류가 발생한 단어와 가장 인접한 것으로 판단되어지는 적어도 하나의 단어, 및 대화 히스토리 중 적어도 하나를 디스플레이하는 단계를 포함하는 음성 인식 방법.
- 제 15 항에 있어서,상기 (b) 단계는적어도 하나의 음소가 타이핑되었을 때, 타이핑 된 음소를 포함하는 단어를 리스팅하는 단계를 포함하는 음성 인식 방법.
- 제 15 항에 있어서,상기 (b) 단계는발화 속도를 가변하는 단계를 포함하는 음성 인식 방법.
- 제 15 항에 있어서,(c) 상기 (a) 단계 또는 상기 (b) 단계에서 얻어진 음성 인식 결과에 의미상의 오류가 있는 경우에 오류를 수정하기 위한 질문을 형성하는 단계; 및(d) 상기 질문을 음성 데이터로 변환하는 단계를 더 포함하는 음성 인식 방법.
- 제 27 항에 있어서,상기 (c) 단계는(c1) 상기 (a) 단계 또는 상기 (b) 단계에서 얻어진 음성 인식 결과에 의미상의 오류가 있는지 여부를 판단하는 단계;(c2) 상기 질문을 형성하는 단계; 및(c3) 이후에 수행되는 음성 인식에서 상기 질문에 대응하는 범위의 핵심어만을 탐색하도록 제어하는 단계를 포함하는 음성 인식 방법.
- (a) 음성 데이터를 이용하여 음성 인식을 수행하는 음성 인식 단계;(b) 상기 (a) 단계에서 얻어진 음성 인식 결과에 오인식이 있거나 의미상의 오류가 있는 경우에 오류를 수정하기 위한 질문인 시스템 응답을 형성하는 단계; 및(c) 상기 시스템 응답을 음성 데이터로 변환하는 단계를 더 포함하는 음성 인식 방법.
- 제 29 항에 있어서,상기 (b) 단계는(b1) 상기 (a) 단계에서 얻어진 음성 인식 결과에 오인식이 있거나, 의미상의 오류가 있는지 여부를 판단하는 단계;(b2) 상기 시스템 응답을 형성하는 단계; 및(b3) 이후에 수행되는 음성 인식에서 상기 시스템 응답에 대응하는 범위의 단어만을 탐색하도록 제어하는 단계를 포함하는 음성 인식 방법.
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
US11/297,821 US20060122837A1 (en) | 2004-12-08 | 2005-12-07 | Voice interface system and speech recognition method |
Applications Claiming Priority (2)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
KR20040102918 | 2004-12-08 | ||
KR1020040102918 | 2004-12-08 |
Publications (2)
Publication Number | Publication Date |
---|---|
KR20060064493A KR20060064493A (ko) | 2006-06-13 |
KR100622019B1 true KR100622019B1 (ko) | 2006-09-11 |
Family
ID=37160044
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
KR1020050069038A KR100622019B1 (ko) | 2004-12-08 | 2005-07-28 | 음성 인터페이스 시스템 및 방법 |
Country Status (1)
Country | Link |
---|---|
KR (1) | KR100622019B1 (ko) |
Families Citing this family (4)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
KR100716438B1 (ko) * | 2004-07-27 | 2007-05-10 | 주식회사 현대오토넷 | 차량용 텔레매틱스 시스템에서 음성 사용자 인터페이스를제공하는 장치 및 방법 |
KR100723404B1 (ko) * | 2005-03-29 | 2007-05-30 | 삼성전자주식회사 | 음성 인식 및 반응을 위한 음성 처리 장치와 방법 |
JP6969491B2 (ja) * | 2018-05-11 | 2021-11-24 | トヨタ自動車株式会社 | 音声対話システム、音声対話方法及びプログラム |
WO2025042145A1 (ko) * | 2023-08-18 | 2025-02-27 | 삼성전자 주식회사 | 발화 로그를 기반으로 결정된 발화 카테고리를 제공하는 전자 장치 및 그 제어 방법 |
Citations (7)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
KR20020023294A (ko) * | 2002-01-12 | 2002-03-28 | (주)코리아리더스 테크놀러지 | 음성인식을 사용하는 사용자 인터페이스 문맥기반 명령제어 방법 |
KR20020040300A (ko) * | 2000-11-24 | 2002-05-30 | 심현대 | 컴퓨터를 이용한 음성인식시스템 및 그 제어방법 |
WO2002103675A1 (en) | 2001-06-19 | 2002-12-27 | Intel Corporation | Client-server based distributed speech recognition system architecture |
JP2004264464A (ja) | 2003-02-28 | 2004-09-24 | Techno Network Shikoku Co Ltd | 特定分野辞書を利用した音声認識誤り訂正システム |
KR20050015585A (ko) * | 2003-08-06 | 2005-02-21 | 삼성전자주식회사 | 향상된 음성인식 장치 및 방법 |
KR20060022156A (ko) * | 2004-09-06 | 2006-03-09 | 삼성전자주식회사 | 분산 음성 인식 시스템 및 그 방법 |
KR20060057921A (ko) * | 2004-11-24 | 2006-05-29 | 한국전자통신연구원 | 대화형 음성인식 시스템의 인식오류 수정장치 및 그 방법 |
-
2005
- 2005-07-28 KR KR1020050069038A patent/KR100622019B1/ko not_active IP Right Cessation
Patent Citations (7)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
KR20020040300A (ko) * | 2000-11-24 | 2002-05-30 | 심현대 | 컴퓨터를 이용한 음성인식시스템 및 그 제어방법 |
WO2002103675A1 (en) | 2001-06-19 | 2002-12-27 | Intel Corporation | Client-server based distributed speech recognition system architecture |
KR20020023294A (ko) * | 2002-01-12 | 2002-03-28 | (주)코리아리더스 테크놀러지 | 음성인식을 사용하는 사용자 인터페이스 문맥기반 명령제어 방법 |
JP2004264464A (ja) | 2003-02-28 | 2004-09-24 | Techno Network Shikoku Co Ltd | 特定分野辞書を利用した音声認識誤り訂正システム |
KR20050015585A (ko) * | 2003-08-06 | 2005-02-21 | 삼성전자주식회사 | 향상된 음성인식 장치 및 방법 |
KR20060022156A (ko) * | 2004-09-06 | 2006-03-09 | 삼성전자주식회사 | 분산 음성 인식 시스템 및 그 방법 |
KR20060057921A (ko) * | 2004-11-24 | 2006-05-29 | 한국전자통신연구원 | 대화형 음성인식 시스템의 인식오류 수정장치 및 그 방법 |
Non-Patent Citations (4)
Title |
---|
1020020023294 |
1020050015585 |
1020060022156 |
1020060057921 |
Also Published As
Publication number | Publication date |
---|---|
KR20060064493A (ko) | 2006-06-13 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
US11990127B2 (en) | User recognition for speech processing systems | |
US11580991B2 (en) | Speaker based anaphora resolution | |
US11594215B2 (en) | Contextual voice user interface | |
US11361763B1 (en) | Detecting system-directed speech | |
EP3114679B1 (en) | Predicting pronunciation in speech recognition | |
EP3832643B1 (en) | Dynamic wakewords for speech-enabled devices | |
US20060122837A1 (en) | Voice interface system and speech recognition method | |
US10027662B1 (en) | Dynamic user authentication | |
US9070367B1 (en) | Local speech recognition of frequent utterances | |
US10074369B2 (en) | Voice-based communications | |
US10522134B1 (en) | Speech based user recognition | |
US10917758B1 (en) | Voice-based messaging | |
US9916826B1 (en) | Targeted detection of regions in speech processing data streams | |
US20200184967A1 (en) | Speech processing system | |
US10506088B1 (en) | Phone number verification | |
US11798559B2 (en) | Voice-controlled communication requests and responses | |
US11715472B2 (en) | Speech-processing system | |
US20240071385A1 (en) | Speech-processing system | |
US11693622B1 (en) | Context configurable keywords | |
KR100622019B1 (ko) | 음성 인터페이스 시스템 및 방법 | |
US10854196B1 (en) | Functional prerequisites and acknowledgments | |
US11735178B1 (en) | Speech-processing system | |
JPH06161488A (ja) | 音声認識装置 | |
JP2004309504A (ja) | 音声キーワード認識装置 |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
A201 | Request for examination | ||
PA0109 | Patent application |
Patent event code: PA01091R01D Comment text: Patent Application Patent event date: 20050728 |
|
PA0201 | Request for examination | ||
PG1501 | Laying open of application | ||
E701 | Decision to grant or registration of patent right | ||
PE0701 | Decision of registration |
Patent event code: PE07011S01D Comment text: Decision to Grant Registration Patent event date: 20060830 |
|
GRNT | Written decision to grant | ||
PR0701 | Registration of establishment |
Comment text: Registration of Establishment Patent event date: 20060901 Patent event code: PR07011E01D |
|
PR1002 | Payment of registration fee |
Payment date: 20060904 End annual number: 3 Start annual number: 1 |
|
PG1601 | Publication of registration | ||
PR1001 | Payment of annual fee |
Payment date: 20090901 Start annual number: 4 End annual number: 4 |
|
PR1001 | Payment of annual fee |
Payment date: 20100901 Start annual number: 5 End annual number: 5 |
|
FPAY | Annual fee payment |
Payment date: 20110831 Year of fee payment: 6 |
|
PR1001 | Payment of annual fee |
Payment date: 20110831 Start annual number: 6 End annual number: 6 |
|
LAPS | Lapse due to unpaid annual fee | ||
PC1903 | Unpaid annual fee |