KR20050101694A - 문법적 제약을 갖는 통계적인 음성 인식 시스템 및 그 방법 - Google Patents
문법적 제약을 갖는 통계적인 음성 인식 시스템 및 그 방법 Download PDFInfo
- Publication number
- KR20050101694A KR20050101694A KR1020040026780A KR20040026780A KR20050101694A KR 20050101694 A KR20050101694 A KR 20050101694A KR 1020040026780 A KR1020040026780 A KR 1020040026780A KR 20040026780 A KR20040026780 A KR 20040026780A KR 20050101694 A KR20050101694 A KR 20050101694A
- Authority
- KR
- South Korea
- Prior art keywords
- speech
- morpheme
- extracting
- unit
- gram
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Ceased
Links
- 238000000034 method Methods 0.000 title claims abstract description 33
- 230000000877 morphologic effect Effects 0.000 claims abstract description 10
- 150000001875 compounds Chemical class 0.000 claims abstract description 6
- 238000004458 analytical method Methods 0.000 claims description 27
- 238000006243 chemical reaction Methods 0.000 claims description 10
- 238000012805 post-processing Methods 0.000 claims description 7
- 238000007781 pre-processing Methods 0.000 claims description 6
- 230000006870 function Effects 0.000 claims description 5
- 238000012545 processing Methods 0.000 claims description 5
- 230000008569 process Effects 0.000 description 8
- 238000010586 diagram Methods 0.000 description 6
- 238000000605 extraction Methods 0.000 description 5
- 238000009499 grossing Methods 0.000 description 5
- 239000000284 extract Substances 0.000 description 4
- 238000009826 distribution Methods 0.000 description 2
- 238000012066 statistical methodology Methods 0.000 description 2
- 230000002123 temporal effect Effects 0.000 description 2
- 230000007704 transition Effects 0.000 description 2
- 239000013598 vector Substances 0.000 description 2
- 230000008901 benefit Effects 0.000 description 1
- 238000004364 calculation method Methods 0.000 description 1
- 230000008859 change Effects 0.000 description 1
- 230000000295 complement effect Effects 0.000 description 1
- 230000000694 effects Effects 0.000 description 1
- 238000005516 engineering process Methods 0.000 description 1
- 230000006872 improvement Effects 0.000 description 1
- 230000001939 inductive effect Effects 0.000 description 1
- 238000003058 natural language processing Methods 0.000 description 1
- 238000013432 robust analysis Methods 0.000 description 1
- 238000007619 statistical method Methods 0.000 description 1
- 239000002344 surface layer Substances 0.000 description 1
Classifications
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L15/00—Speech recognition
- G10L15/26—Speech to text systems
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F40/00—Handling natural language data
- G06F40/20—Natural language analysis
- G06F40/205—Parsing
- G06F40/216—Parsing using statistical methods
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F40/00—Handling natural language data
- G06F40/20—Natural language analysis
- G06F40/237—Lexical tools
- G06F40/242—Dictionaries
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F40/00—Handling natural language data
- G06F40/20—Natural language analysis
- G06F40/268—Morphological analysis
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L15/00—Speech recognition
- G10L15/02—Feature extraction for speech recognition; Selection of recognition unit
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L15/00—Speech recognition
- G10L15/08—Speech classification or search
- G10L15/14—Speech classification or search using statistical models, e.g. Hidden Markov Models [HMMs]
- G10L15/142—Hidden Markov Models [HMMs]
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L15/00—Speech recognition
- G10L15/08—Speech classification or search
- G10L15/18—Speech classification or search using natural language modelling
- G10L15/183—Speech classification or search using natural language modelling using context dependencies, e.g. language models
- G10L15/19—Grammatical context, e.g. disambiguation of the recognition hypotheses based on word sequence rules
- G10L15/197—Probabilistic grammars, e.g. word n-grams
Landscapes
- Engineering & Computer Science (AREA)
- Physics & Mathematics (AREA)
- Computational Linguistics (AREA)
- Health & Medical Sciences (AREA)
- Audiology, Speech & Language Pathology (AREA)
- Theoretical Computer Science (AREA)
- Multimedia (AREA)
- Acoustics & Sound (AREA)
- Human Computer Interaction (AREA)
- Artificial Intelligence (AREA)
- Probability & Statistics with Applications (AREA)
- General Health & Medical Sciences (AREA)
- General Engineering & Computer Science (AREA)
- General Physics & Mathematics (AREA)
- Computer Vision & Pattern Recognition (AREA)
- Machine Translation (AREA)
Abstract
Description
Claims (8)
- 음성 인식 시스템에 있어서,텍스트 말뭉치로부터 수신된 대상 텍스트의 형태소를 분석하는 형태소 분석기;상기 형태소 분석기에서 분석된 형태소 단위 중 길이가 짧은 기능어는 결합하고 길이가 긴 복합어는 분리하여 의사 형태소를 추출하는 의사 형태소 추출부;상기 형태소나 의사 형태소의 관계를 나타내는 품사 엔 그램(n-gram)을 추출하는 품사 엔 그램(n-gram) 추출부; 및상기 품사 엔 그램(n-gram)을 기반으로 관계가 없는 품사들을 정의하여 언어 모델부에 적용하는 품사 비 관계 정의부를 포함하여 구성된 것을 특징으로 하는 문법적 제약을 갖는 통계적인 음성 인식 시스템.
- 제 1 항에 있어서, 상기 형태소 분석기는,상기 텍스트 말뭉치를 통해 여러 형태소들의 묶음이 표층 형태로 나타나는 하나의 어절로부터 의미를 갖는 최소 단위인 각 형태소를 분석하여 실제의 문장에 사용되는 단어의 원래의 구조를 파악하는 것을 특징으로 하는 문법적 제약을 갖는 통계적인 음성 인식 시스템.
- 제 1 항 또는 제 2 항에 있어서, 상기 형태소 분석기는,상기 텍스트 말뭉치에서 띄어쓰기와 같은 빈번한 오류데이타를 처리하는 전처리 모듈;상기 전처리 모듈에서 처리된 형태소를 분석하는 형태소 분석모듈;상기 형태소 분석모듈에 품사간의 정의와 해석 규칙을 표현하는 FST 변환 모듈;상기 형태소의 코드정보와 음절길이를 변수로 하는 해쉬(Hash)함수를 이용하여 사전을 구성한 품사사전;상기 형태소 분석모듈에서 상기 품사사전을 검색할 수 있도록 인 메모리 트리(In-memory tree)구조로 설계된 트라이(Trie) 구조 변환 모듈;상기 형태소 분석모듈로부터 어절 구조를 반영한 HMM(Hidden Markov Model)을 통해, 하나의 단에 대해 여러 개의 품사가 존재하는 품사의 모호성을 해결하고 문맥 확률과 어휘 확률를 구하여 어절 간의 의존성과 형태소 간의 의존성을 바이그램으로 구성한 품사 추정 모듈;상기 형태소 분석모듈로부터 상기 HMM모델에 대한 재학습식을 유도하여 미등록어에 대한 정보를 원형 코퍼스(Raw Corpus)로부터 추출하는 재학습모듈; 및상기 품사사전 및 초기 학습 모델의 정확도를 수동 분석된 코퍼스를 통해 향상시키는 초기데이터 학습모델을 포함하여 구성된 것을 특징으로 하는 문법적 제약을 갖는 통계적인 음성 인식 시스템.
- 제 3 항에 있어서, 상기 형태소 분석모듈은,상기 형태소의 분석 규칙 및 프로그램을 생성하는 분석 규칙 및 프로그램 생성모듈;상기 품사사전을 관리하는 사전관리모듈; 및상기 형태소를 분석하는 분석엔진을 포함하여 구성된 것을 특징으로 하는 문법적 제약을 갖는 통계적인 음성 인식 시스템.
- 제 1 항에 있어서, 상기 음성 인식 시스템은,수신된 음성 신호로부터 여러가지 유용한 특징들을 추출하는 특징 추출부;상기 특징 추출부를 통해 수신된 음성 신호를 음성 데이터베이스를 이용하여 어떻게 표현할 수 있는지를 나타내는 음향 모델부; 및상기 특징 추출부를 통해 수신된 음성 신호의 표기음소를 발음 사전 데이터베이스를 이용하여 발음음소로 바꾸어주는 발음 모델부를 더 포함하여 구성된 것을 특징으로 하는 문법적 제약을 갖는 통계적인 음성 인식 시스템.
- 제 1 항에 있어서, 상기 음성 인식 시스템은,인식률이 높은 후보 문장을 선별한 후 또 다른 가공된 언어적 정보나 에러 패턴을 학습하고 적용하여 가장 적절한 문장을 찾는 후처리부를 더 포함하여 구성된 것을 특징으로 하는 문법적 제약을 갖는 통계적인 음성 인식 시스템.
- 텍스트 말뭉치로부터 수신된 대상 텍스트의 형태소를 분석하는 단계;상기 분석된 형태소 단위 중 길이가 짧은 기능어는 결합하고 길이가 긴 복합어는 분리하여 의사 형태소를 추출하는 단계;상기 형태소나 의사 형태소의 관계를 나타내는 품사 엔 그램(n-gram)을 추출하는 단계;상기 품사 엔 그램(n-gram)을 기반으로 관계가 없는 품사들을 정의하여 언어 모델에 적용하는 단계를 포함하여 이루어진 것을 특징으로 하는 문법적 제약을 갖는 통계적인 음성 인식 방법.
- 제 7 항에 있어서, 상기 음성 인식 방법은,상기 텍스트 말뭉치를 통해 여러 형태소들의 묶음이 표층 형태로 나타나는 하나의 어절로부터 의미를 갖는 최소 단위인 각 형태소를 분석하여 실제의 문장에 사용되는 단어의 원래의 구조를 파악하는 것을 특징으로 하는 문법적 제약을 갖는 통계적인 음성 인식 방법.
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
KR1020040026780A KR20050101694A (ko) | 2004-04-19 | 2004-04-19 | 문법적 제약을 갖는 통계적인 음성 인식 시스템 및 그 방법 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
KR1020040026780A KR20050101694A (ko) | 2004-04-19 | 2004-04-19 | 문법적 제약을 갖는 통계적인 음성 인식 시스템 및 그 방법 |
Publications (1)
Publication Number | Publication Date |
---|---|
KR20050101694A true KR20050101694A (ko) | 2005-10-25 |
Family
ID=37280074
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
KR1020040026780A Ceased KR20050101694A (ko) | 2004-04-19 | 2004-04-19 | 문법적 제약을 갖는 통계적인 음성 인식 시스템 및 그 방법 |
Country Status (1)
Country | Link |
---|---|
KR (1) | KR20050101694A (ko) |
Cited By (8)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
KR100735559B1 (ko) * | 2005-11-18 | 2007-07-04 | 삼성전자주식회사 | 언어 모델 구축 장치 및 방법 |
KR100784730B1 (ko) * | 2005-12-08 | 2007-12-12 | 한국전자통신연구원 | 태깅된 도메인 코퍼스 없이 새로운 도메인에 적용 가능한통계적 hmm 품사 태깅 장치 및 방법 |
KR100930715B1 (ko) * | 2007-10-25 | 2009-12-09 | 한국전자통신연구원 | 음성 인식 방법 |
US8356032B2 (en) | 2006-02-23 | 2013-01-15 | Samsung Electronics Co., Ltd. | Method, medium, and system retrieving a media file based on extracted partial keyword |
CN103903619A (zh) * | 2012-12-28 | 2014-07-02 | 安徽科大讯飞信息科技股份有限公司 | 一种提高语音识别准确率的方法及系统 |
CN112270923A (zh) * | 2020-10-22 | 2021-01-26 | 江苏峰鑫网络科技有限公司 | 一种基于神经网络的语义识别系统 |
KR20210067201A (ko) * | 2019-11-29 | 2021-06-08 | 광운대학교 산학협력단 | 발달 장애인 음성 인식 점수 산출 장치 및 그 방법 |
CN115240640A (zh) * | 2022-07-20 | 2022-10-25 | 科大讯飞股份有限公司 | 方言语音识别方法、装置、设备及存储介质 |
-
2004
- 2004-04-19 KR KR1020040026780A patent/KR20050101694A/ko not_active Ceased
Cited By (10)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
KR100735559B1 (ko) * | 2005-11-18 | 2007-07-04 | 삼성전자주식회사 | 언어 모델 구축 장치 및 방법 |
US8255220B2 (en) | 2005-11-18 | 2012-08-28 | Samsung Electronics Co., Ltd. | Device, method, and medium for establishing language model for expanding finite state grammar using a general grammar database |
KR100784730B1 (ko) * | 2005-12-08 | 2007-12-12 | 한국전자통신연구원 | 태깅된 도메인 코퍼스 없이 새로운 도메인에 적용 가능한통계적 hmm 품사 태깅 장치 및 방법 |
US8356032B2 (en) | 2006-02-23 | 2013-01-15 | Samsung Electronics Co., Ltd. | Method, medium, and system retrieving a media file based on extracted partial keyword |
KR100930715B1 (ko) * | 2007-10-25 | 2009-12-09 | 한국전자통신연구원 | 음성 인식 방법 |
CN103903619A (zh) * | 2012-12-28 | 2014-07-02 | 安徽科大讯飞信息科技股份有限公司 | 一种提高语音识别准确率的方法及系统 |
CN103903619B (zh) * | 2012-12-28 | 2016-12-28 | 科大讯飞股份有限公司 | 一种提高语音识别准确率的方法及系统 |
KR20210067201A (ko) * | 2019-11-29 | 2021-06-08 | 광운대학교 산학협력단 | 발달 장애인 음성 인식 점수 산출 장치 및 그 방법 |
CN112270923A (zh) * | 2020-10-22 | 2021-01-26 | 江苏峰鑫网络科技有限公司 | 一种基于神经网络的语义识别系统 |
CN115240640A (zh) * | 2022-07-20 | 2022-10-25 | 科大讯飞股份有限公司 | 方言语音识别方法、装置、设备及存储介质 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
EP1575030B1 (en) | New-word pronunciation learning using a pronunciation graph | |
Kwon et al. | Korean large vocabulary continuous speech recognition with morpheme-based recognition units | |
JP4543294B2 (ja) | 音声認識装置および音声認識方法、並びに記録媒体 | |
KR100486733B1 (ko) | 음소 결합정보를 이용한 연속 음성인식방법 및 장치 | |
Karpov et al. | Large vocabulary Russian speech recognition using syntactico-statistical language modeling | |
US8566076B2 (en) | System and method for applying bridging models for robust and efficient speech to speech translation | |
CN107705787A (zh) | 一种语音识别方法及装置 | |
EP0849723A2 (en) | Speech recognition apparatus equipped with means for removing erroneous candidate of speech recognition | |
Hacioglu et al. | On lexicon creation for Turkish LVCSR | |
Kirchhoff et al. | Novel speech recognition models for Arabic | |
CN107123419A (zh) | Sphinx语速识别中背景降噪的优化方法 | |
Arısoy et al. | A unified language model for large vocabulary continuous speech recognition of Turkish | |
JP2004170765A (ja) | 音声処理装置および方法、記録媒体並びにプログラム | |
KR100726875B1 (ko) | 구두 대화에서의 전형적인 실수에 대한 보완적인 언어모델을 갖는 음성 인식 디바이스 | |
Manasa et al. | Comparison of acoustical models of GMM-HMM based for speech recognition in Hindi using PocketSphinx | |
CN112346696A (zh) | 虚拟助理的语音比较 | |
KR100480790B1 (ko) | 양방향 n-그램 언어모델을 이용한 연속 음성인식방법 및장치 | |
KR20050101695A (ko) | 인식 결과를 이용한 통계적인 음성 인식 시스템 및 그 방법 | |
KR20050101694A (ko) | 문법적 제약을 갖는 통계적인 음성 인식 시스템 및 그 방법 | |
Kipyatkova et al. | Recurrent neural network-based language modeling for an automatic Russian speech recognition system | |
AbuZeina et al. | Cross-word modeling for Arabic speech recognition | |
Li et al. | Cantonese automatic speech recognition using transfer learning from mandarin | |
Al-Anzi et al. | Performance evaluation of Sphinx and htk speech recognizers for spoken Arabic language | |
Maskey et al. | A phrase-level machine translation approach for disfluency detection using weighted finite state transducers | |
Ma et al. | Low-frequency word enhancement with similar pairs in speech recognition |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
A201 | Request for examination | ||
PA0109 | Patent application |
Patent event code: PA01091R01D Comment text: Patent Application Patent event date: 20040419 |
|
PA0201 | Request for examination | ||
PG1501 | Laying open of application | ||
E902 | Notification of reason for refusal | ||
PE0902 | Notice of grounds for rejection |
Comment text: Notification of reason for refusal Patent event date: 20060224 Patent event code: PE09021S01D |
|
N231 | Notification of change of applicant | ||
PN2301 | Change of applicant |
Patent event date: 20060525 Comment text: Notification of Change of Applicant Patent event code: PN23011R01D |
|
E601 | Decision to refuse application | ||
PE0601 | Decision on rejection of patent |
Patent event date: 20060829 Comment text: Decision to Refuse Application Patent event code: PE06012S01D Patent event date: 20060224 Comment text: Notification of reason for refusal Patent event code: PE06011S01I |