KR100748720B1 - 다중 계층 중심 어휘 목록에 기초하여 대규모 단어 음성인식 방법 및 그 장치 - Google Patents
다중 계층 중심 어휘 목록에 기초하여 대규모 단어 음성인식 방법 및 그 장치 Download PDFInfo
- Publication number
- KR100748720B1 KR100748720B1 KR1020060012529A KR20060012529A KR100748720B1 KR 100748720 B1 KR100748720 B1 KR 100748720B1 KR 1020060012529 A KR1020060012529 A KR 1020060012529A KR 20060012529 A KR20060012529 A KR 20060012529A KR 100748720 B1 KR100748720 B1 KR 100748720B1
- Authority
- KR
- South Korea
- Prior art keywords
- vocabulary
- node
- matching
- speech recognition
- symbol matching
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Expired - Fee Related
Links
Images
Classifications
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L15/00—Speech recognition
- G10L15/08—Speech classification or search
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L15/00—Speech recognition
- G10L15/08—Speech classification or search
- G10L15/18—Speech classification or search using natural language modelling
- G10L15/183—Speech classification or search using natural language modelling using context dependencies, e.g. language models
- G10L15/187—Phonemic context, e.g. pronunciation rules, phonotactical constraints or phoneme n-grams
Landscapes
- Engineering & Computer Science (AREA)
- Computational Linguistics (AREA)
- Health & Medical Sciences (AREA)
- Audiology, Speech & Language Pathology (AREA)
- Human Computer Interaction (AREA)
- Physics & Mathematics (AREA)
- Acoustics & Sound (AREA)
- Multimedia (AREA)
- Artificial Intelligence (AREA)
- Information Retrieval, Db Structures And Fs Structures Therefor (AREA)
- Machine Translation (AREA)
Abstract
Description
Claims (15)
- 음성 인식 방법에 있어서,인식 대상 어휘들에 대해 중심 어휘 목록(Central lexicon)을 트리 구조로 계층화하는 단계;음소 인식 열과 상기 트리 구조로 계층화된 중심 어휘 목록의 발음 열 사이의 다중 경로 심볼 매칭(multi-pass symbol matching)을 수행하는 단계; 및상기 심볼 매칭에 의해 선정된 후보 어휘들에 대해 상세한 음향 모델을 사용하여 비터비 검색(Viterbi search) 과정을 통해 최종 음성 인식 결과를 선정하는 단계를 포함하고,다중 경로 심볼 매칭을 수행하는 상기 단계는,상기 트리 구조로 계층화된 중심 어휘 목록을 심볼 매칭을 진행하면서 각 계층마다 최고 매칭 스코어(matching score)를 기록한 노드를 추적하고, 종단 노드(terminal node)에 도달할 때까지 노드 추적 과정을 반복하는 것을 특징으로 하는 음성 인식 방법.
- 삭제
- 제1항에 있어서,다중 경로 심볼 매칭을 수행하는 상기 단계는,상기 각 계층마다 복수 개의 후보 노드를 선정하는 단계를 포함하는 것을 특징으로 하는 음성 인식 방법.
- 제3항에 있어서,상기 후보 노드는 상기 심볼 매칭에 따른 매칭 점수가 각 계층마다 후보로 선정하기 위해 미리 설정된 기준 값을 초과하는 노드인 것을 특징으로 하는 음성 인식 방법.
- 제1항에 있어서,상기 매칭 스코어는,음소 혼동 매트릭스(phone confusion matrix)의 확률 값을 사용하여 계산되는 것을 특징으로 하는 음성 인식 방법.
- 제1항에 있어서,상기 중심 어휘 목록은 임의의 노드를 대표하며, 상기 노드에 속하는 모든 어휘 목록들 중에서 중심 위치에 속하는 어휘 목록으로 결정되는 것을 특징으로 하는 음성 인식 방법.
- 제6항에 있어서,각 종단 노드(terminal node)의 상기 중심 어휘 목록과 거리가 소정의 기준 값 이하에 속하는 어휘 목록들을 이웃 어휘 목록(neighborhood lexicon)으로 결정하는 단계를 더 포함하는 것을 특징으로 하는 음성 인식 방법.
- 제1항에 있어서,상기 트리 구조는 각 계층마다 클러스터링에 사용되는 기준 임계 값에 따라 노드 수가 결정되는 것을 특징으로 하는 음성 인식 방법.
- 제8항에 있어서,상기 클러스터링은 MKM(Modified K-means) 클러스터링 방식을 이용하는 것을 특징으로 하는 음성 인식 방법.
- 제1항, 제3항 내지 제9항 중 어느 한 항의 방법을 컴퓨터에서 실행하기 위한 프로그램을 기록하는 컴퓨터 판독 가능한 기록매체.
- 음성 인식 장치에 있어서,음소 인식 열과 트리 구조로 계층화된 중심 어휘 목록(Central lexicon)의 발음 열 사이의 다중 경로 심볼 매칭(multi-pass symbol matching)을 수행하는 다중 경로 심볼 매칭부; 및상기 다중 경로 심볼 매칭에 의해 선정된 후보 어휘 세트들에 대한 상세 음향 모델을 사용하여 음성 인식 결과를 선정하기 위한 상세 매칭을 수행하는 상세 매칭부를 포함하고,상기 다중 경로 심볼 매칭부는,각 계층마다 최고 매칭 스코어를 기록한 노드를 추적하며, 종단 노드에 도달할 때까지 노드 추적 과정을 반복하는 것을 특징으로 하는 음성 인식 장치.
- 제11항에 있어서,인식 대상 어휘들에 대한 모든 어휘 목록들을 상기 트리 구조로 분류하는 어휘 목록 분류부를 더 포함하는 것을 특징으로 하는 음성 인식 장치.
- 제11항에 있어서,상기 다중 경로 심볼 매칭부는,상기 음소 인식 열과 상기 트리 구조로 계층화된 중심 어휘 목록(Central lexicon)의 발음 열 사이의 음소 혼동 매트릭스의 확률 값을 사용하여 매칭 스코어를 계산하는 것을 특징으로 하는 음성 인식 장치.
- 삭제
- 제11항에 있어서,상기 다중 경로 심볼 매칭부는,상기 각 계층마다 후보로 선정되기 위해 미리 설정된 소정의 기준 값을 초과하는 노드들을 후보 노드로 선정하는 것을 특징으로 하는 음성 인식 장치.
Priority Applications (2)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
KR1020060012529A KR100748720B1 (ko) | 2006-02-09 | 2006-02-09 | 다중 계층 중심 어휘 목록에 기초하여 대규모 단어 음성인식 방법 및 그 장치 |
US11/510,654 US7627474B2 (en) | 2006-02-09 | 2006-08-28 | Large-vocabulary speech recognition method, apparatus, and medium based on multilayer central lexicons |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
KR1020060012529A KR100748720B1 (ko) | 2006-02-09 | 2006-02-09 | 다중 계층 중심 어휘 목록에 기초하여 대규모 단어 음성인식 방법 및 그 장치 |
Publications (1)
Publication Number | Publication Date |
---|---|
KR100748720B1 true KR100748720B1 (ko) | 2007-08-13 |
Family
ID=38335116
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
KR1020060012529A Expired - Fee Related KR100748720B1 (ko) | 2006-02-09 | 2006-02-09 | 다중 계층 중심 어휘 목록에 기초하여 대규모 단어 음성인식 방법 및 그 장치 |
Country Status (2)
Country | Link |
---|---|
US (1) | US7627474B2 (ko) |
KR (1) | KR100748720B1 (ko) |
Cited By (1)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN108074562A (zh) * | 2016-11-11 | 2018-05-25 | 株式会社东芝 | 语音识别装置、语音识别方法以及存储介质 |
Families Citing this family (13)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
KR100703697B1 (ko) * | 2005-02-02 | 2007-04-05 | 삼성전자주식회사 | 어휘 그룹 트리를 이용한 어휘 인식 방법 및 장치 |
KR100897554B1 (ko) * | 2007-02-21 | 2009-05-15 | 삼성전자주식회사 | 분산 음성인식시스템 및 방법과 분산 음성인식을 위한 단말기 |
US8583416B2 (en) * | 2007-12-27 | 2013-11-12 | Fluential, Llc | Robust information extraction from utterances |
US9436759B2 (en) | 2007-12-27 | 2016-09-06 | Nant Holdings Ip, Llc | Robust information extraction from utterances |
US20090171663A1 (en) * | 2008-01-02 | 2009-07-02 | International Business Machines Corporation | Reducing a size of a compiled speech recognition grammar |
US8447120B2 (en) * | 2008-10-04 | 2013-05-21 | Microsoft Corporation | Incremental feature indexing for scalable location recognition |
US9646603B2 (en) * | 2009-02-27 | 2017-05-09 | Longsand Limited | Various apparatus and methods for a speech recognition system |
US8489398B1 (en) * | 2011-01-14 | 2013-07-16 | Google Inc. | Disambiguation of spoken proper names |
US9336774B1 (en) * | 2012-04-20 | 2016-05-10 | Google Inc. | Pattern recognizing engine |
US9190057B2 (en) | 2012-12-12 | 2015-11-17 | Amazon Technologies, Inc. | Speech model retrieval in distributed speech recognition systems |
US9542947B2 (en) * | 2013-03-12 | 2017-01-10 | Google Technology Holdings LLC | Method and apparatus including parallell processes for voice recognition |
US9299347B1 (en) * | 2014-10-22 | 2016-03-29 | Google Inc. | Speech recognition using associative mapping |
US9959887B2 (en) * | 2016-03-08 | 2018-05-01 | International Business Machines Corporation | Multi-pass speech activity detection strategy to improve automatic speech recognition |
Citations (8)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
JPH08202387A (ja) * | 1995-01-30 | 1996-08-09 | Fujitsu Ten Ltd | 音声認識装置 |
KR19980702723A (ko) * | 1995-03-07 | 1998-08-05 | 히버트줄리엣제인그레이스 | 음성 인식 방법 및 장치 |
US6266634B1 (en) | 1997-11-21 | 2001-07-24 | At&T Corporation | Method and apparatus for generating deterministic approximate weighted finite-state automata |
US6311152B1 (en) | 1999-04-08 | 2001-10-30 | Kent Ridge Digital Labs | System for chinese tokenization and named entity recognition |
KR20030002197A (ko) * | 2001-06-30 | 2003-01-08 | 주식회사 케이티 | 인식 후 거리를 이용한 음성인식 방법 |
US6507815B1 (en) | 1999-04-02 | 2003-01-14 | Canon Kabushiki Kaisha | Speech recognition apparatus and method |
KR20030033394A (ko) * | 2001-10-22 | 2003-05-01 | 한국전자통신연구원 | 트리탐색기반 음성 인식 방법 및 이를 이용한 대용량 연속음성 인식 시스템 |
US20040267785A1 (en) | 2003-04-30 | 2004-12-30 | Nokia Corporation | Low memory decision tree |
Family Cites Families (9)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
JP3627299B2 (ja) | 1995-07-19 | 2005-03-09 | ソニー株式会社 | 音声認識方法及び装置 |
JPH0950291A (ja) | 1995-08-04 | 1997-02-18 | Sony Corp | 音声認識装置及びナビゲーシヨン装置 |
US5758024A (en) | 1996-06-25 | 1998-05-26 | Microsoft Corporation | Method and system for encoding pronunciation prefix trees |
JPH11149295A (ja) | 1997-11-17 | 1999-06-02 | Toyota Motor Corp | 音声認識装置 |
US6205428B1 (en) * | 1997-11-20 | 2001-03-20 | At&T Corp. | Confusion set-base method and apparatus for pruning a predetermined arrangement of indexed identifiers |
US6076053A (en) * | 1998-05-21 | 2000-06-13 | Lucent Technologies Inc. | Methods and apparatus for discriminative training and adaptation of pronunciation networks |
US6178401B1 (en) * | 1998-08-28 | 2001-01-23 | International Business Machines Corporation | Method for reducing search complexity in a speech recognition system |
KR20010077042A (ko) | 2000-01-31 | 2001-08-17 | 구자홍 | 트리 구조의 단어사전을 갖는 연속음성 인식 장치 |
US7035802B1 (en) * | 2000-07-31 | 2006-04-25 | Matsushita Electric Industrial Co., Ltd. | Recognition system using lexical trees |
-
2006
- 2006-02-09 KR KR1020060012529A patent/KR100748720B1/ko not_active Expired - Fee Related
- 2006-08-28 US US11/510,654 patent/US7627474B2/en not_active Expired - Fee Related
Patent Citations (8)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
JPH08202387A (ja) * | 1995-01-30 | 1996-08-09 | Fujitsu Ten Ltd | 音声認識装置 |
KR19980702723A (ko) * | 1995-03-07 | 1998-08-05 | 히버트줄리엣제인그레이스 | 음성 인식 방법 및 장치 |
US6266634B1 (en) | 1997-11-21 | 2001-07-24 | At&T Corporation | Method and apparatus for generating deterministic approximate weighted finite-state automata |
US6507815B1 (en) | 1999-04-02 | 2003-01-14 | Canon Kabushiki Kaisha | Speech recognition apparatus and method |
US6311152B1 (en) | 1999-04-08 | 2001-10-30 | Kent Ridge Digital Labs | System for chinese tokenization and named entity recognition |
KR20030002197A (ko) * | 2001-06-30 | 2003-01-08 | 주식회사 케이티 | 인식 후 거리를 이용한 음성인식 방법 |
KR20030033394A (ko) * | 2001-10-22 | 2003-05-01 | 한국전자통신연구원 | 트리탐색기반 음성 인식 방법 및 이를 이용한 대용량 연속음성 인식 시스템 |
US20040267785A1 (en) | 2003-04-30 | 2004-12-30 | Nokia Corporation | Low memory decision tree |
Cited By (2)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN108074562A (zh) * | 2016-11-11 | 2018-05-25 | 株式会社东芝 | 语音识别装置、语音识别方法以及存储介质 |
CN108074562B (zh) * | 2016-11-11 | 2021-12-03 | 株式会社东芝 | 语音识别装置、语音识别方法以及存储介质 |
Also Published As
Publication number | Publication date |
---|---|
US7627474B2 (en) | 2009-12-01 |
US20070185714A1 (en) | 2007-08-09 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
KR100748720B1 (ko) | 다중 계층 중심 어휘 목록에 기초하여 대규모 단어 음성인식 방법 및 그 장치 | |
CN111933129B (zh) | 音频处理方法、语言模型的训练方法、装置及计算机设备 | |
US9477753B2 (en) | Classifier-based system combination for spoken term detection | |
US10249294B2 (en) | Speech recognition system and method | |
JP6066354B2 (ja) | 信頼度計算の方法及び装置 | |
US6067517A (en) | Transcription of speech data with segments from acoustically dissimilar environments | |
Mandal et al. | Recent developments in spoken term detection: a survey | |
US20110218805A1 (en) | Spoken term detection apparatus, method, program, and storage medium | |
US7058575B2 (en) | Integrating keyword spotting with graph decoder to improve the robustness of speech recognition | |
KR20140082157A (ko) | 다중 음향 모델을 이용하여 음성을 인식하기 위한 장치 및 그 방법 | |
WO2002101719A1 (en) | Voice recognition apparatus and voice recognition method | |
Bazzi et al. | A multi-class approach for modelling out-of-vocabulary words. | |
KR20180028893A (ko) | 음성 인식 시스템 및 방법 | |
CN112509560A (zh) | 一种基于缓存语言模型的语音识别自适应方法和系统 | |
KR101483947B1 (ko) | 핵심어에서의 음소 오류 결과를 고려한 음향 모델 변별 학습을 위한 장치 및 이를 위한 방법이 기록된 컴퓨터 판독 가능한 기록매체 | |
JP2004198597A (ja) | 音声認識装置および文分類装置としてコンピュータを動作させるコンピュータプログラム、階層化された言語モデルを作成する方法を実現する様にコンピュータを動作させるコンピュータプログラム、および記憶媒体 | |
Moyal et al. | Phonetic search methods for large speech databases | |
CN112767921A (zh) | 一种基于缓存语言模型的语音识别自适应方法和系统 | |
Bhati et al. | Unsupervised Acoustic Segmentation and Clustering Using Siamese Network Embeddings. | |
Sarı et al. | Fusion of LVCSR and posteriorgram based keyword search | |
KR101424496B1 (ko) | 음향 모델 학습을 위한 장치 및 이를 위한 방법이 기록된 컴퓨터 판독 가능한 기록매체 | |
Tabibian | A survey on structured discriminative spoken keyword spotting | |
JP3176210B2 (ja) | 音声認識方法及び音声認識装置 | |
Ravi et al. | Phoneme segmentation-based unsupervised pattern discovery and clustering of speech signals | |
Chung et al. | Unsupervised discovery of structured acoustic tokens with applications to spoken term detection |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
A201 | Request for examination | ||
PA0109 | Patent application |
Patent event code: PA01091R01D Comment text: Patent Application Patent event date: 20060209 |
|
PA0201 | Request for examination | ||
E902 | Notification of reason for refusal | ||
PE0902 | Notice of grounds for rejection |
Comment text: Notification of reason for refusal Patent event date: 20070427 Patent event code: PE09021S01D |
|
E701 | Decision to grant or registration of patent right | ||
PE0701 | Decision of registration |
Patent event code: PE07011S01D Comment text: Decision to Grant Registration Patent event date: 20070730 |
|
GRNT | Written decision to grant | ||
PR0701 | Registration of establishment |
Comment text: Registration of Establishment Patent event date: 20070806 Patent event code: PR07011E01D |
|
PR1002 | Payment of registration fee |
Payment date: 20070807 End annual number: 3 Start annual number: 1 |
|
PG1601 | Publication of registration | ||
PR1001 | Payment of annual fee |
Payment date: 20100629 Start annual number: 4 End annual number: 4 |
|
PR1001 | Payment of annual fee |
Payment date: 20110728 Start annual number: 5 End annual number: 5 |
|
FPAY | Annual fee payment |
Payment date: 20120730 Year of fee payment: 6 |
|
PR1001 | Payment of annual fee |
Payment date: 20120730 Start annual number: 6 End annual number: 6 |
|
FPAY | Annual fee payment |
Payment date: 20130730 Year of fee payment: 7 |
|
PR1001 | Payment of annual fee |
Payment date: 20130730 Start annual number: 7 End annual number: 7 |
|
FPAY | Annual fee payment |
Payment date: 20140730 Year of fee payment: 8 |
|
PR1001 | Payment of annual fee |
Payment date: 20140730 Start annual number: 8 End annual number: 8 |
|
FPAY | Annual fee payment |
Payment date: 20150730 Year of fee payment: 9 |
|
PR1001 | Payment of annual fee |
Payment date: 20150730 Start annual number: 9 End annual number: 9 |
|
FPAY | Annual fee payment |
Payment date: 20160728 Year of fee payment: 10 |
|
PR1001 | Payment of annual fee |
Payment date: 20160728 Start annual number: 10 End annual number: 10 |
|
FPAY | Annual fee payment |
Payment date: 20170728 Year of fee payment: 11 |
|
PR1001 | Payment of annual fee |
Payment date: 20170728 Start annual number: 11 End annual number: 11 |
|
PC1903 | Unpaid annual fee |
Termination category: Default of registration fee Termination date: 20210517 |