KR20050101695A - 인식 결과를 이용한 통계적인 음성 인식 시스템 및 그 방법 - Google Patents
인식 결과를 이용한 통계적인 음성 인식 시스템 및 그 방법 Download PDFInfo
- Publication number
- KR20050101695A KR20050101695A KR1020040026781A KR20040026781A KR20050101695A KR 20050101695 A KR20050101695 A KR 20050101695A KR 1020040026781 A KR1020040026781 A KR 1020040026781A KR 20040026781 A KR20040026781 A KR 20040026781A KR 20050101695 A KR20050101695 A KR 20050101695A
- Authority
- KR
- South Korea
- Prior art keywords
- morpheme
- speech
- speech recognition
- extracting
- unit
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Ceased
Links
Classifications
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L15/00—Speech recognition
- G10L15/26—Speech to text systems
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F40/00—Handling natural language data
- G06F40/20—Natural language analysis
- G06F40/205—Parsing
- G06F40/216—Parsing using statistical methods
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F40/00—Handling natural language data
- G06F40/20—Natural language analysis
- G06F40/237—Lexical tools
- G06F40/242—Dictionaries
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F40/00—Handling natural language data
- G06F40/20—Natural language analysis
- G06F40/268—Morphological analysis
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L15/00—Speech recognition
- G10L15/02—Feature extraction for speech recognition; Selection of recognition unit
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L15/00—Speech recognition
- G10L15/08—Speech classification or search
- G10L15/14—Speech classification or search using statistical models, e.g. Hidden Markov Models [HMMs]
- G10L15/142—Hidden Markov Models [HMMs]
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L15/00—Speech recognition
- G10L15/08—Speech classification or search
- G10L15/18—Speech classification or search using natural language modelling
- G10L15/183—Speech classification or search using natural language modelling using context dependencies, e.g. language models
- G10L15/19—Grammatical context, e.g. disambiguation of the recognition hypotheses based on word sequence rules
- G10L15/197—Probabilistic grammars, e.g. word n-grams
Landscapes
- Engineering & Computer Science (AREA)
- Physics & Mathematics (AREA)
- Computational Linguistics (AREA)
- Health & Medical Sciences (AREA)
- Audiology, Speech & Language Pathology (AREA)
- Theoretical Computer Science (AREA)
- Multimedia (AREA)
- Acoustics & Sound (AREA)
- Human Computer Interaction (AREA)
- Artificial Intelligence (AREA)
- General Health & Medical Sciences (AREA)
- General Engineering & Computer Science (AREA)
- General Physics & Mathematics (AREA)
- Probability & Statistics with Applications (AREA)
- Computer Vision & Pattern Recognition (AREA)
- Machine Translation (AREA)
Abstract
Description
Claims (8)
- 음성 인식 시스템에 있어서,음성 인식 결과를 통해 대상 텍스트의 형태소를 분석하는 형태소 분석기;상기 형태소 분석기에서 분석된 형태소 단위 중 길이가 짧은 기능어는 결합하고 길이가 긴 복합어는 분리하여 의사 형태소를 추출하는 의사 형태소 추출부;상기 의사 형태소 추출부를 통해 입력 음성 텍스트와 인식기의 결과를 형태소로 구분하여 옳고 그름을 가리는 오 인식 어휘 추출부; 및상기 오 인식 어휘 추출부를 통해 엔 그램(n-gram) 관계를 구성하여 최종적으로 언어 모델 적용 시에 참조되는 오 인식 어휘 엔 그램(n-gram) 구축부를 포함하여 구성된 것을 특징으로 하는 인식 결과를 이용한 통계적인 음성 인식 시스템.
- 제 1 항에 있어서, 상기 형태소 분석기는,상기 음성 인식 결과를 통해 여러 형태소들의 묶음이 표층 형태로 나타나는 하나의 어절로부터 의미를 갖는 최소 단위인 각 형태소를 분석하여 실제의 문장에 사용되는 단어의 원래의 구조를 파악하는 것을 특징으로 하는 인식 결과를 이용한 통계적인 음성 인식 시스템.
- 제 1 항 또는 제 2 항에 있어서, 상기 형태소 분석기는,상기 텍스트 말뭉치에서 띄어쓰기와 같은 빈번한 오류데이타를 처리하는 전처리 모듈;상기 전처리 모듈에서 처리된 형태소를 분석하는 형태소 분석모듈;상기 형태소 분석모듈에 품사간의 정의와 해석 규칙을 표현하는 FST 변환 모듈;상기 형태소의 코드정보와 음절길이를 변수로 하는 해쉬(Hash)함수를 이용하여 사전을 구성한 품사사전;상기 형태소 분석모듈에서 상기 품사사전을 검색할 수 있도록 인 메모리 트리(In-memory tree)구조로 설계된 트라이(Trie) 구조 변환 모듈;상기 형태소 분석모듈로부터 어절 구조를 반영한 HMM(Hidden Markov Model)을 통해, 하나의 단에 대해 여러 개의 품사가 존재하는 품사의 모호성을 해결하고 문맥 확률과 어휘 확률를 구하여 어절 간의 의존성과 형태소 간의 의존성을 바이그램으로 구성한 품사 추정 모듈;상기 형태소 분석모듈로부터 상기 HMM모델에 대한 재학습식을 유도하여 미등록어에 대한 정보를 원형 코퍼스(Raw Corpus)로부터 추출하는 재학습모듈; 및상기 품사사전 및 초기 학습 모델의 정확도를 수동 분석된 코퍼스를 통해 향상시키는 초기데이터 학습모델을 포함하여 구성된 것을 특징으로 하는 인식 결과를 이용한 통계적인 음성 인식 시스템.
- 제 3 항에 있어서, 상기 형태소 분석모듈은,상기 형태소의 분석 규칙 및 프로그램을 생성하는 분석 규칙 및 프로그램 생성모듈;상기 품사사전을 관리하는 사전관리모듈; 및상기 형태소를 분석하는 분석엔진을 포함하여 구성된 것을 특징으로 하는 인식 결과를 이용한 통계적인 음성 인식 시스템.
- 제 1 항에 있어서, 상기 음성 인식 시스템은,수신된 음성 신호로부터 여러가지 유용한 특징들을 추출하는 특징 추출부;상기 특징 추출부를 통해 수신된 음성 신호를 음성 데이터베이스를 이용하여 어떻게 표현할 수 있는지를 나타내는 음향 모델부; 및상기 특징 추출부를 통해 수신된 음성 신호의 표기음소를 발음 사전 데이터베이스를 이용하여 발음음소로 바꾸어주는 발음 모델부를 더 포함하여 구성된 것을 특징으로 하는 인식 결과를 이용한 통계적인 음성 인식 시스템.
- 제 1 항에 있어서, 상기 음성 인식 시스템은,인식률이 높은 후보 문장을 선별한 후 또 다른 가공된 언어적 정보나 에러 패턴을 학습하고 적용하여 가장 적절한 문장을 찾는 후처리부를 더 포함하여 구성된 것을 특징으로 하는 인식 결과를 이용한 통계적인 음성 인식 시스템.
- 음성 인식 결과로부터 수신된 대상 텍스트의 형태소를 분석하는 단계;상기 분석된 형태소 단위 중 길이가 짧은 기능어는 결합하고 길이가 긴 복합어는 분리하여 의사 형태소를 추출하는 단계;상기 형태소나 의사 형태소의 관계를 나타내는 품사 엔 그램(n-gram)을 추출하는 단계;상기 품사 엔 그램(n-gram)을 기반으로 관계가 없는 품사들을 정의하여 언어 모델에 적용하는 단계를 포함하여 이루어진 것을 특징으로 하는 인식 결과를 이용한 통계적인 음성 인식 방법.
- 제 7 항에 있어서, 상기 음성 인식 방법은,상기 텍스트 말뭉치를 통해 여러 형태소들의 묶음이 표층 형태로 나타나는 하나의 어절로부터 의미를 갖는 최소 단위인 각 형태소를 분석하여 실제의 문장에 사용되는 단어의 원래의 구조를 파악하는 것을 특징으로 하는 인식 결과를 이용한 통계적인 음성 인식 방법.
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
KR1020040026781A KR20050101695A (ko) | 2004-04-19 | 2004-04-19 | 인식 결과를 이용한 통계적인 음성 인식 시스템 및 그 방법 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
KR1020040026781A KR20050101695A (ko) | 2004-04-19 | 2004-04-19 | 인식 결과를 이용한 통계적인 음성 인식 시스템 및 그 방법 |
Publications (1)
Publication Number | Publication Date |
---|---|
KR20050101695A true KR20050101695A (ko) | 2005-10-25 |
Family
ID=37280075
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
KR1020040026781A Ceased KR20050101695A (ko) | 2004-04-19 | 2004-04-19 | 인식 결과를 이용한 통계적인 음성 인식 시스템 및 그 방법 |
Country Status (1)
Country | Link |
---|---|
KR (1) | KR20050101695A (ko) |
Cited By (9)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
KR100735559B1 (ko) * | 2005-11-18 | 2007-07-04 | 삼성전자주식회사 | 언어 모델 구축 장치 및 방법 |
KR100822670B1 (ko) * | 2006-09-27 | 2008-04-17 | 한국전자통신연구원 | 말뭉치 기반의 확장 가능한 cfg 형태의 음성 인식 문법생성 방법 및 장치 |
KR100925479B1 (ko) * | 2007-09-19 | 2009-11-06 | 한국전자통신연구원 | 음성 인식 방법 및 장치 |
KR101134455B1 (ko) * | 2009-06-25 | 2012-04-13 | 한국전자통신연구원 | 음성 인식 장치 및 그 방법 |
KR101664080B1 (ko) * | 2015-07-28 | 2016-10-10 | 현대자동차 주식회사 | 음성 다이얼링 시스템 및 방법 |
KR102153220B1 (ko) * | 2019-05-20 | 2020-09-07 | 주식회사 모두의연구소 | 동일성 판단에 기초한 음성 인식 결과 출력 방법 및 이를 이용한 장치 |
KR102302029B1 (ko) * | 2020-11-23 | 2021-09-15 | (주)펜타유니버스 | 인공지능 기반 복합 입력 인지 시스템 |
CN117133294A (zh) * | 2023-10-26 | 2023-11-28 | 中铁四局集团有限公司 | 基于lstm模型的语音特征单元提取的改进型智慧工单系统 |
CN119446141A (zh) * | 2024-10-24 | 2025-02-14 | 广州九四智能科技有限公司 | 一种基于语音识别的对话交互方法及装置 |
-
2004
- 2004-04-19 KR KR1020040026781A patent/KR20050101695A/ko not_active Ceased
Cited By (11)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
KR100735559B1 (ko) * | 2005-11-18 | 2007-07-04 | 삼성전자주식회사 | 언어 모델 구축 장치 및 방법 |
US8255220B2 (en) | 2005-11-18 | 2012-08-28 | Samsung Electronics Co., Ltd. | Device, method, and medium for establishing language model for expanding finite state grammar using a general grammar database |
KR100822670B1 (ko) * | 2006-09-27 | 2008-04-17 | 한국전자통신연구원 | 말뭉치 기반의 확장 가능한 cfg 형태의 음성 인식 문법생성 방법 및 장치 |
KR100925479B1 (ko) * | 2007-09-19 | 2009-11-06 | 한국전자통신연구원 | 음성 인식 방법 및 장치 |
KR101134455B1 (ko) * | 2009-06-25 | 2012-04-13 | 한국전자통신연구원 | 음성 인식 장치 및 그 방법 |
KR101664080B1 (ko) * | 2015-07-28 | 2016-10-10 | 현대자동차 주식회사 | 음성 다이얼링 시스템 및 방법 |
KR102153220B1 (ko) * | 2019-05-20 | 2020-09-07 | 주식회사 모두의연구소 | 동일성 판단에 기초한 음성 인식 결과 출력 방법 및 이를 이용한 장치 |
KR102302029B1 (ko) * | 2020-11-23 | 2021-09-15 | (주)펜타유니버스 | 인공지능 기반 복합 입력 인지 시스템 |
CN117133294A (zh) * | 2023-10-26 | 2023-11-28 | 中铁四局集团有限公司 | 基于lstm模型的语音特征单元提取的改进型智慧工单系统 |
CN117133294B (zh) * | 2023-10-26 | 2024-01-05 | 中铁四局集团有限公司 | 基于lstm模型的语音特征单元提取的改进型智慧工单系统 |
CN119446141A (zh) * | 2024-10-24 | 2025-02-14 | 广州九四智能科技有限公司 | 一种基于语音识别的对话交互方法及装置 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
EP1575030B1 (en) | New-word pronunciation learning using a pronunciation graph | |
KR100486733B1 (ko) | 음소 결합정보를 이용한 연속 음성인식방법 및 장치 | |
US6910012B2 (en) | Method and system for speech recognition using phonetically similar word alternatives | |
Karpov et al. | Large vocabulary Russian speech recognition using syntactico-statistical language modeling | |
US8566076B2 (en) | System and method for applying bridging models for robust and efficient speech to speech translation | |
US7286984B1 (en) | Method and system for automatically detecting morphemes in a task classification system using lattices | |
CN107123419A (zh) | Sphinx语速识别中背景降噪的优化方法 | |
JP2004170765A (ja) | 音声処理装置および方法、記録媒体並びにプログラム | |
Arısoy et al. | A unified language model for large vocabulary continuous speech recognition of Turkish | |
KR100726875B1 (ko) | 구두 대화에서의 전형적인 실수에 대한 보완적인 언어모델을 갖는 음성 인식 디바이스 | |
KR20130126570A (ko) | 핵심어에서의 음소 오류 결과를 고려한 음향 모델 변별 학습을 위한 장치 및 이를 위한 방법이 기록된 컴퓨터 판독 가능한 기록매체 | |
KR100480790B1 (ko) | 양방향 n-그램 언어모델을 이용한 연속 음성인식방법 및장치 | |
KR20050101695A (ko) | 인식 결과를 이용한 통계적인 음성 인식 시스템 및 그 방법 | |
KR20050101694A (ko) | 문법적 제약을 갖는 통계적인 음성 인식 시스템 및 그 방법 | |
AbuZeina et al. | Cross-word modeling for Arabic speech recognition | |
JP3776391B2 (ja) | 多言語音声認識方法、装置、プログラム | |
Pellegrini et al. | Automatic word decompounding for asr in a morphologically rich language: Application to amharic | |
Al-Anzi et al. | Performance evaluation of Sphinx and htk speech recognizers for spoken Arabic language | |
Syadida et al. | Sphinx4 for indonesian continuous speech recognition system | |
Ma et al. | Recognize foreign low-frequency words with similar pairs | |
Puurula et al. | Vocabulary decomposition for Estonian open vocabulary speech recognition | |
Béchet et al. | Very large vocabulary proper name recognition for directory assistance | |
KR20030010979A (ko) | 의미어단위 모델을 이용한 연속음성인식방법 및 장치 | |
Sazhok et al. | Language Model Comparison for Ukrainian Real-Time Speech Recognition System | |
WO2014035437A1 (en) | Using character describer to efficiently input ambiguous characters for smart chinese speech dictation correction |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
A201 | Request for examination | ||
PA0109 | Patent application |
Patent event code: PA01091R01D Comment text: Patent Application Patent event date: 20040419 |
|
PA0201 | Request for examination | ||
PG1501 | Laying open of application | ||
E902 | Notification of reason for refusal | ||
PE0902 | Notice of grounds for rejection |
Comment text: Notification of reason for refusal Patent event date: 20060224 Patent event code: PE09021S01D |
|
N231 | Notification of change of applicant | ||
PN2301 | Change of applicant |
Patent event date: 20060525 Comment text: Notification of Change of Applicant Patent event code: PN23011R01D |
|
E601 | Decision to refuse application | ||
PE0601 | Decision on rejection of patent |
Patent event date: 20060829 Comment text: Decision to Refuse Application Patent event code: PE06012S01D Patent event date: 20060224 Comment text: Notification of reason for refusal Patent event code: PE06011S01I |