[go: up one dir, main page]

KR20050101695A - 인식 결과를 이용한 통계적인 음성 인식 시스템 및 그 방법 - Google Patents

인식 결과를 이용한 통계적인 음성 인식 시스템 및 그 방법 Download PDF

Info

Publication number
KR20050101695A
KR20050101695A KR1020040026781A KR20040026781A KR20050101695A KR 20050101695 A KR20050101695 A KR 20050101695A KR 1020040026781 A KR1020040026781 A KR 1020040026781A KR 20040026781 A KR20040026781 A KR 20040026781A KR 20050101695 A KR20050101695 A KR 20050101695A
Authority
KR
South Korea
Prior art keywords
morpheme
speech
speech recognition
extracting
unit
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Ceased
Application number
KR1020040026781A
Other languages
English (en)
Inventor
신종철
김진영
정경석
Original Assignee
대한민국(전남대학교총장)
송우아이엔티 주식회사
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by 대한민국(전남대학교총장), 송우아이엔티 주식회사 filed Critical 대한민국(전남대학교총장)
Priority to KR1020040026781A priority Critical patent/KR20050101695A/ko
Publication of KR20050101695A publication Critical patent/KR20050101695A/ko
Ceased legal-status Critical Current

Links

Classifications

    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L15/00Speech recognition
    • G10L15/26Speech to text systems
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F40/00Handling natural language data
    • G06F40/20Natural language analysis
    • G06F40/205Parsing
    • G06F40/216Parsing using statistical methods
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F40/00Handling natural language data
    • G06F40/20Natural language analysis
    • G06F40/237Lexical tools
    • G06F40/242Dictionaries
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F40/00Handling natural language data
    • G06F40/20Natural language analysis
    • G06F40/268Morphological analysis
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L15/00Speech recognition
    • G10L15/02Feature extraction for speech recognition; Selection of recognition unit
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L15/00Speech recognition
    • G10L15/08Speech classification or search
    • G10L15/14Speech classification or search using statistical models, e.g. Hidden Markov Models [HMMs]
    • G10L15/142Hidden Markov Models [HMMs]
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L15/00Speech recognition
    • G10L15/08Speech classification or search
    • G10L15/18Speech classification or search using natural language modelling
    • G10L15/183Speech classification or search using natural language modelling using context dependencies, e.g. language models
    • G10L15/19Grammatical context, e.g. disambiguation of the recognition hypotheses based on word sequence rules
    • G10L15/197Probabilistic grammars, e.g. word n-grams

Landscapes

  • Engineering & Computer Science (AREA)
  • Physics & Mathematics (AREA)
  • Computational Linguistics (AREA)
  • Health & Medical Sciences (AREA)
  • Audiology, Speech & Language Pathology (AREA)
  • Theoretical Computer Science (AREA)
  • Multimedia (AREA)
  • Acoustics & Sound (AREA)
  • Human Computer Interaction (AREA)
  • Artificial Intelligence (AREA)
  • General Health & Medical Sciences (AREA)
  • General Engineering & Computer Science (AREA)
  • General Physics & Mathematics (AREA)
  • Probability & Statistics with Applications (AREA)
  • Computer Vision & Pattern Recognition (AREA)
  • Machine Translation (AREA)

Abstract

본 발명은 실시간 환경에서 화자가 발화한 음성 신호에 포함된 언어적인 정보를 추출하여 문자열로 바꾸는 음성 인식 시스템 및 그 방법에 관한 것으로, 한국어 대 어휘 연속 음성인식을 하기 위한 통계적인 방법론에서 인식된 결과를 통해 오 인식되는 어휘들의 정보를 이용하여 최종적으로 언어 모델의 추가적인 성능 향상을 기할 수 있는 인식 결과를 이용한 통계적인 음성 인식 시스템 및 그 방법을 제공하는데 그 목적이 있다.
이를 위해, 본 발명에 의한 인식 결과를 이용한 통계적인 음성 인식 시스템은 음성 인식 결과를 통해 대상 텍스트의 형태소를 분석하는 형태소 분석기; 상기 형태소 분석기에서 분석된 형태소 단위 중 길이가 짧은 기능어는 결합하고 길이가 긴 복합어는 분리하여 의사 형태소를 추출하는 의사 형태소 추출부; 상기 의사 형태소 추출부를 통해 입력 음성 텍스트와 인식기의 결과를 형태소로 구분하여 옳고 그름을 가리는 오 인식 어휘 추출부; 및 상기 오 인식 어휘 추출부를 통해 엔 그램(n-gram) 관계를 구성하여 최종적으로 언어 모델 적용 시에 참조되는 오 인식 어휘 엔 그램(n-gram) 추출부를 포함하여 구성함으로써, 기존의 언어 모델만을 고려하여 탐색하는 알고리즘의 성능을 향상시킬 수 있고, 탐색공간에 동적으로 연계하여 실시간 환경을 최적화할 수 있는 효과가 있다.

Description

인식 결과를 이용한 통계적인 음성 인식 시스템 및 그 방법{A SYSTEM FOR STATISTICAL SPEECH RECOGNITION USING RECOGNITION RESULTS, AND METHOD THEREOF}
본 발명은 음성 인식 시스템 및 그 방법에 관한 것으로, 특히 실시간 환경에서 화자가 발화한 음성 신호에 포함된 언어적인 정보를 추출하여 문자열로 바꾸는 인식 결과를 이용한 통계적인 음성 인식 시스템 및 그 방법에 관한 것이다.
현재 상용화 되고 있는 음성 인식기술은 고립 단어 인식이나 짧은 대화체와 특정 도메인에서 한정되어 이루어졌다. 하지만, 최근에는 자연언어처리가 가능한 고성능 시스템들이 선보이고 있다.
예를 들면, 미국에서는 전화사용과 관련한 모든 문제에 대해 자유롭게 말한 내용을 인식하여 처리하는 "How may I help you?"와 같은 서비스가 진행되고 있고, 국내에서도 음성인식에 의한 증권거래 및 음성 다이얼링 서비스, 그리고 음성에 의한 문서작성(dictation) 프로그램 등이 상품화되어 사용되고 있다.
도 1은 일반적인 데스크 탑 환경 하에서의 음성 인식 시스템의 개략도로서, 화자가 특정 단말기(1)를 통해 발화를 하면, 발화된 음성 신호가 음성 인식 시스템(2)으로 전달되어 정보를 추출 및 연산하게 된다. 그리고 최종적으로 화자가 발화한 음성 신호는 텍스트(3)로 변환하게 된다.
종래의 음성 인식 시스템(2)을 구성하는 모듈은 보통 크게 다섯 가지로 학습 및 연산을 수행하게 된다. 이는 도 2에 도시된 바와 같이, 특징 추출부(10), 음향 모델부(12), 발음 모델부(14), 언어 모델부(16), 후처리부(18)를 포함한다.
상기 특징 추출부(10)는 음성 신호로부터 유용한 특징들을 추출하는 과정으로써, 인간의 청각특성을 반영하는(perceptually meaningful) 특징 표현, 다양한 잡음환경/화자/채널 변이에 강인한(robust) 특징, 시간적인 변화를 잘 표현하는 특징 등을 추출한다.
상기 음향 모델부(12)는 음성 데이터베이스(20)로부터 음성 신호가 어떻게 표현할 수 있는지를 나타낸다. 최근 음성인식기에서 가장 널리 사용되는 음향모델은 HMM(hidden Markov model)에 기반 한 것이다. 음향모델의 기본 단위는 음소 또는 유사음소 단위이다. 각 모델은 하나의 음향모델 단위를 나타내며 보통 3개의 상태(state)로 구성된다. 주로 좌에서 우로의 상태 간 천이만 허용된다. 각 상태에서의 음성특징 벡터의 관측 확률은 이산 확률분포 또는 연속 확률밀도함수(pdf)로 표현된다.
상기 발음 모델부(14)는 실제 학습 될 음소는 표기음소가 아니라 발음음소이므로 표기음소를 발음음소로 바꾸어주는 모델이다. 이 모델은 보통 표준발음법에 의거하여 간단한 규칙을 정하거나 특정 환경과 화자 및 사투리까지의 특색을 고려하여 정의하는 방법으로 발음 사전 DB(데이터베이스)(30)를 구축하여 수행한다.
상기 언어 모델부(16)는 음성 인식기의 문법이라고 할 수 있다. 이는 텍스트 말뭉치 DB(40)로부터 문법을 추출하여, 학습 및 탐색 시 임의적인 문장 보다는 문법에 맞는 문장을 선별하는 과정이다. 상기 언어 모델부(16)는 음성 인식기의 탐색 공간을 감소할 수 있으며 문법에 맞는 문장에 대한 확률을 높여 주는 역할을 하기 때문에 인식률 향상에도 기여하게 된다.
상기 후처리부(18)는 경우에 따라서는 고려하지 않은 경우도 있지만, 보통 인식기를 통해 인식률이 높은 후보 문장을 선별한 후, 또 다른 가공된 언어적 정보나 에러 패턴을 학습하고 적용하여 가장 적절한 문장을 찾는 과정이다.
기존의 언어 모델은 97%이상의 성공을 보이는 형태소 분석을 통해, 각 음소의 품사를 밝혀내고 이를 통해 각 음소들 간의 관계를 밝히는 지식으로 이용한다. 한국어의 품사는 일정한 규칙이 있어, 어떤 품사 뒤에는 특정 품사가 등장할 수 없고, 또한 어떤 품사 뒤에는 빈번히 나타나는 품사가 있다. 이러한 특징을 대량의 말뭉치를 이용해 각 품사와 품사간의 발생 확률을 구함으로써, 음향 모델의 확률과 함께 쓰여 더욱 효과적인 탐색을 수행할 수 있게 되는 것이다. 또한, 이런 방법론은 기존의 음향 모델의 탐색 과정에서 언어 모델을 참조하여 동적으로 작동하게 된다. 이는 실시간 환경에서 빠른 처리 능력은 물론, 탐색의 비용과 성능을 높이기 위한 방법이다.
대 어휘 연속 음성인식의 결과는 단어의 경우 90~95%의 성능을 보이나 연속되는 문장의 경우는 50%정도에 미치지 못하고 있다고 한다. 이는 기존의 탐색 기법은 많은 언어적 지식을 수반하지 못하고 있다는 것을 말한다. 이를 해결하기 위해, 특정 분야에서 의미적 분석을 이용하는 연구도 등장하고 있으나, 실제 모든 분야를 고려하기에는 불가능하다고 할 수 있다.
문법의 종류에는 FSN이나 CFG와 같은 형식 언어를 위한 문법 또는 엔 그램(n-gram)과 같은 통계적인 문법이 있다. 하지만 대 어휘 연속 음성을 인식하고자 하는 경우에는 형식 문법으로는 언어현상을 모두 고려할 수 없다. 그래서 일반적으로 통계적인 문법을 적용한다.
통계적 문법은 단어간의 연결 관계가 확률로서 표현되는 문법이다. 일반적으로 많이 사용되는 엔 그램(n-gram)은 과거의 n-1개의 단어로부터 다음에 나타날 단어의 확률을 정의하는 문법으로, 흔히 사용되는 엔 그램(n-gram)은 바이그램, 트라이그램이다. 통계적 언어모델의 장점은 모든 것을 확률로서 정의하기 때문에 사람의 지식이 별로 필요하지 않고 대량의 말뭉치만 있으면 쉽게 구현할 수 있다는 장점이 있다. 하지만 통계적 문법이란, 말뭉치에 있는 문장만으로 구성하기에, 말뭉치에 없는 입력 문장이 들어올 경우는 적절하게 적용될 수 없게 된다. 보통 이러한 경우를 해결하기 위해 기존의 시스템은 스무딩(smoothing)이라는 기법을 사용하게 된다. 그래서 말뭉치가 적을 경우에는 확률 값을 구하지 못하는 경우가 자주 발생하므로 스무딩(smoothing)을 적절히 할 필요가 있다. 하지만 이러한 통계적인 방법을 보완하기 위한 스무딩(smoothing)의 가장 큰 문제점은 기존의 음향, 언어 모델의 확률을 평준화시킴으로써 사용하고자 하는 언어적 지식을 충분히 활용하지 못한다는 것이다.
따라서, 본 발명은 상기 문제점을 해결하기 위하여 이루어진 것으로, 본 발명의 목적은 한국어 대 어휘 연속 음성인식을 하기 위한 통계적인 방법론에서 인식된 결과를 통해 오 인식되는 어휘들의 정보를 이용하여 최종적으로 언어 모델의 추가적인 성능 향상을 기할 수 있는 인식 결과를 이용한 통계적인 음성 인식 시스템 및 그 방법을 제공하는데 있다.
또한, 본 발명의 다른 목적은 기존의 통계적인 언어 모델에 또 다른 문법을 적용하여 통계적인 수치를 조정함으로써, 언어 모델의 성능을 향상시킨 인식 결과를 이용한 통계적인 음성 인식 시스템 및 그 방법을 제공하는데 있다.
상기 목적을 달성하기 위한 본 발명에 의한 인식 결과를 이용한 통계적인 음성 인식 시스템은,
음성 인식 결과를 통해 대상 텍스트의 형태소를 분석하는 형태소 분석기;
상기 형태소 분석기에서 분석된 형태소 단위 중 길이가 짧은 기능어는 결합하고 길이가 긴 복합어는 분리하여 의사 형태소를 추출하는 의사 형태소 추출부;
상기 의사 형태소 추출부를 통해 입력 음성 텍스트와 인식기의 결과를 형태소로 구분하여 옳고 그름을 가리는 오 인식 어휘 추출부; 및
상기 오 인식 어휘 추출부를 통해 엔 그램(n-gram) 관계를 구성하여 최종적으로 언어 모델 적용 시에 참조되는 오 인식 어휘 엔 그램(n-gram) 구축부를 포함하여 구성된 것을 특징으로 한다.
상기 형태소 분석기는 상기 음성 인식 결과를 통해 여러 형태소들의 묶음이 표층 형태로 나타나는 하나의 어절로부터 의미를 갖는 최소 단위인 각 형태소를 분석하여 실제의 문장에 사용되는 단어의 원래의 구조를 파악하는 것을 특징으로 한다.
상기 형태소 분석기는 상기 텍스트 말뭉치에서 띄어쓰기와 같은 빈번한 오류데이타를 처리하는 전처리 모듈; 상기 전처리 모듈에서 처리된 형태소를 분석하는 형태소 분석모듈; 상기 형태소 분석모듈에 품사간의 정의와 해석 규칙을 표현하는 FST 변환 모듈; 상기 형태소의 코드정보와 음절길이를 변수로 하는 해쉬(Hash)함수를 이용하여 사전을 구성한 품사사전; 상기 형태소 분석모듈에서 상기 품사사전을 검색할 수 있도록 인 메모리 트리(In-memory tree)구조로 설계된 트라이(Trie) 구조 변환 모듈; 상기 형태소 분석모듈로부터 어절 구조를 반영한 HMM(Hidden Markov Model)을 통해, 하나의 단에 대해 여러 개의 품사가 존재하는 품사의 모호성을 해결하고 문맥 확률과 어휘 확률를 구하여 어절 간의 의존성과 형태소 간의 의존성을 바이그램으로 구성한 품사 추정 모듈; 상기 형태소 분석모듈로부터 상기 HMM모델에 대한 재학습식을 유도하여 미등록어에 대한 정보를 원형 코퍼스(Raw Corpus)로부터 추출하는 재학습모듈; 및 상기 품사사전 및 초기 학습 모델의 정확도를 수동 분석된 코퍼스를 통해 향상시키는 초기데이터 학습모델을 포함하여 구성된 것을 특징으로 한다.
상기 형태소 분석모듈은 상기 형태소의 분석 규칙 및 프로그램을 생성하는 분석 규칙 및 프로그램 생성모듈; 상기 품사사전을 관리하는 사전관리모듈; 및 상기 형태소를 분석하는 분석엔진을 포함하여 구성된 것을 특징으로 한다.
상기 음성 인식 시스템은 수신된 음성 신호로부터 여러가지 유용한 특징들을 추출하는 특징 추출부; 상기 특징 추출부를 통해 수신된 음성 신호를 음성 데이터베이스를 이용하여 어떻게 표현할 수 있는지를 나타내는 음향 모델부; 및 상기 특징 추출부를 통해 수신된 음성 신호의 표기음소를 발음 사전 데이터베이스를 이용하여 발음음소로 바꾸어주는 발음 모델부를 더 포함하여 구성된 것을 특징으로 한다.
상기 음성 인식 시스템은 인식률이 높은 후보 문장을 선별한 후 또 다른 가공된 언어적 정보나 에러 패턴을 학습하고 적용하여 가장 적절한 문장을 찾는 후처리부를 더 포함하여 구성된 것을 특징으로 한다.
상기 목적을 달성하기 위한 본 발명에 의한 인식 결과를 이용한 통계적인 음성 인식 방법은,
음성 인식 결과로부터 수신된 대상 텍스트의 형태소를 분석하는 단계;
상기 분석된 형태소 단위 중 길이가 짧은 기능어는 결합하고 길이가 긴 복합어는 분리하여 의사 형태소를 추출하는 단계;
상기 형태소나 의사 형태소의 관계를 나타내는 품사 엔 그램(n-gram)을 추출하는 단계;
상기 품사 엔 그램(n-gram)을 기반으로 관계가 없는 품사들을 정의하여 언어 모델에 적용하는 단계를 포함하여 이루어진 것을 특징으로 한다.
상기 음성 인식 방법은 상기 텍스트 말뭉치를 통해 여러 형태소들의 묶음이 표층 형태로 나타나는 하나의 어절로부터 의미를 갖는 최소 단위인 각 형태소를 분석하여 실제의 문장에 사용되는 단어의 원래의 구조를 파악하는 것을 특징으로 한다.
본 발명은 종래의 위와 같은 방법론에 언어모델을 보완하는 방법으로, 바람직한 실시 예를 첨부된 도면을 참조하여 상세히 설명하기로 한다.
도 3은 본 발명에 의한 음성 인식 시스템의 블록 구성도로서, 특징 추출부(10), 음향 모델부(12), 발음 모델부(14), 언어 모델부(500), 후처리부(18)를 포함하여 구성한다.
상기 특징 추출부(10)는 종래(도 1)와 마찬가지로, 음성 신호로부터 유용한 특징들을 추출하는 과정으로써, 인간의 청각특성을 반영하는(perceptually meaningful) 특징 표현, 다양한 잡음환경/화자/채널 변이에 강인한(robust) 특징, 시간적인 변화를 잘 표현하는 특징 등을 추출한다.
상기 음향 모델부(12)도 종래와 마찬가지로, 음성 데이터베이스(20)로부터 음성 신호가 어떻게 표현할 수 있는지를 나타낸다. 최근 음성인식기에서 가장 널리 사용되는 음향모델은 HMM(hidden Markov model)에 기반 한 것이다. 음향모델의 기본 단위는 음소 또는 유사음소 단위이다. 각 모델은 하나의 음향모델 단위를 나타내며 보통 3개의 상태(state)로 구성된다. 주로 좌에서 우로의 상태 간 천이만 허용된다. 각 상태에서의 음성특징 벡터의 관측 확률은 이산 확률분포 또는 연속 확률밀도함수(pdf)로 표현된다.
상기 발음 모델부(14)도 종래와 마찬가지로, 실제 학습 될 음소는 표기음소가 아니라 발음음소이므로 표기음소를 발음음소로 바꾸어주는 모델이다. 이 모델은 보통 표준발음법에 의거하여 간단한 규칙을 정하거나 특정 환경과 화자 및 사투리까지의 특색을 고려하여 정의하는 방법으로 발음 사전 DB(데이터베이스)(30)를 구축하여 수행한다.
상기 후처리부(18)도 종래와 마찬가지로, 경우에 따라서는 고려하지 않은 경우도 있지만, 보통 인식기를 통해 인식률이 높은 후보 문장을 선별한 후, 또 다른 가공된 언어적 정보나 에러 패턴을 학습하고 적용하여 가장 적절한 문장을 찾는 과정이다.
상기 언어 모델부(500)는 도시된 바와 같이, 음성 인식 결과(90)를 통해 대상 텍스트의 형태소를 분석하는 형태소 분석기(100)와, 상기 형태소 분석기(100)를 통해 의사형태소를 추출하는 의사형태소 추출부(200)와, 상기 의사형태소 추출부(200)를 통해 입력 음성 텍스트와 인식기의 결과를 형태소로 구분하여 옳고 그름을 가리는 오 인식 어휘 추출부(300)와, 상기 오 인식 어휘 추출부(300)를 통해 엔 그램(n-gram) 관계를 구성하여 최종적으로 언어 모델 적용시 참조되는 오 인식 어휘 n-gram 구축부(400)와, 상기 오 인식 어휘 n-gram 구축부(400)를 통해 언어 모델을 적용하는 언어 모델부(500)를 포함하여 구성한다.
상기 형태소 분석기(100)는 여러 형태소들의 묶음이 표층 형태로 나타나는 하나의 어절로부터 의미를 갖는 최소 단위인 각 형태소를 분석해 내는 것으로, 실제의 문장에 사용되는 단어의 원래의 구조를 파악한다. 상기 형태소 분석기(100)는 도 4에 도시된 바와 같이, 대상 텍스트(110), 전처리 모듈(120), 형태소 분석모듈(130), FST 변환모듈(140), 품사정의 해석규칙(141), 트라이(Trie)구조 변환모듈(150), 품사사전(160), 품사추정모듈(170), 재학습모듈(180), 문맥확률어휘확률(181), 초기데이터학습모듈(190), 수동 분석된 코퍼스(191)를 포함하여 구성된다.
상기 전처리 모듈(120)은 상기 텍스트 말뭉치 DB(40)로부터 수신된 대상 텍스트(110)에서 띄어쓰기와 같은 빈번한 오류데이타를 처리하기 위한 것으로, 많은 노력과 시간을 필요로 하는 사전에 기반하지 않고 원형 말뭉치로부터 필요한 음절 정보 및 어휘 정보를 추출하여 오류가 포함된 문장에 대하여 견고한 분석이 가능하게 한다.
상기 형태소 분석 모듈(130)은 지식 확장이 용이한 규칙기반 방법으로 설계한다. 이는 크게 분석 규칙 및 프로그램 생성모듈, 사전관리모듈, 분석엔진으로 구성된다.
상기 FST 변환 모듈(140)은 언어적 분석을 수행하기 위한 형식적인 모듈로서, 품사간의 정의와 해석 규칙(141)을 표현한다.
상기 트라이(Trie) 구조 변환 모듈(150)은 품사사전(160)을 참조하기 위하여 속도 문제를 해결하기 위한 인 메모리 트라이(In-memory trie)구조로 설계한다. 이는 초기화할 때 메모리로 사전정보를 올리는 시간을 단축시키는 방법으로, 사전 구성 시 형태소의 코드정보와 음절길이를 변수로 하는 해쉬(Hash)함수를 이용하여 사전참조 속도를 빠르게 한다.
상기 품사 추정 모듈(170)은 어절 구조를 반영한 HMM(Hidden Markov Model)을 통해, 하나의 단에 대해 여러 개의 품사가 존재하는 품사의 모호성을 해결하고 문맥 확률과 어휘 확률(181)을 구하여 어절 간의 의존성과 형태소 간의 의존성을 바이그램으로 구성한다.
상기 재학습 모듈(180)은 HMM모델에 대한 재학습식을 유도하여 미등록어에 대한 정보를 원형 코퍼스(Raw Corpus)로부터 추출한다.
상기 초기 데이터 학습 모듈(190)은 수동 분석된 코퍼스(191)를 통하여 품사 사전 및 초기 학습 모델을 정확도를 높이기 위한 방법이다.
위와 같은 형태소 분석기(100)를 통해 나온 품사가 정의된 형태소는 최소의단위로써, 주어진 문장에 대하여 최소 의미 단위인 형태소로 나뉘게 된다. 하지만 근래에 보통 음성 인식기의 단위는 형태소 보다는 의사 형태소로 구분된다.
다시 도 3을 참조하면, 상기 의사 형태소 추출부(200)는 기존의 형태소 단위가 너무 짧을 경우 음향 모델의 성능이 저하되고, 너무 긴 경우 탐색 공간이 너무 커짐으로써 비용이 많이 드는 문제를 해결하고, 성능 또한 향상시키기 위한 방법이다. 이를 위해, 상기 의사 형태소 추출부(200)는 보통 종래의 의사 형태소중에서 자주 결합하고 길이가 짧은 보조용언이나 어미 등의 기능어를 중심으로 결합하거나 긴 복합어를 분리함으로써 이러한 문제를 해결하였다.
상기 오 인식 어휘 추출부(300)는 입력된 음성이나 음성 텍스트를 가지고 인식기를 통해 나온 결과와 비교하는 부분이다. 보통 한 문장씩 비교하게 되는데 한 어절이나 두 어절 이상의 오 인식된 부분이 있을 수 있다. 여기서 n번째 오인식된 어절이 있다면 n-1번째 올바르게 인식된 어절을 함께 추출한다. 이는 기존의 올바른 어절에서 올바르지 않은 어절과의 관계를 추출하기 위함이다.
상기 오 인식 어휘 n-gram 구축부(400)는 추출된 어휘들의 관계를 n-gram으로 구성한 후, 언어 모델 적용시 오 인식된 어휘 n-gram에 해당하는지의 유무를 가림으로써, 오 인식된 어휘의 관계이면 임의의 확률값을 줄이는 과정에 쓰게 된다.
이상에서 설명한 본 발명은 특정한 환경에 한정하는 것이 아니고, 특정 환경에도 변형 적용 가능한 모델임을 밝힌다. 또한 2차적으로 가공된 언어적 정보를 기존의 탐색과정에 동적으로 참조함으로써, 실시간 환경에서 빠르고 올바른 결과를 얻는 것을 유도한다.
이상의 본 발명은 상기에 기술된 실시예들에 의해 한정되지 않고, 당업자들에 의해 다양한 변형 및 변경을 가져올 수 있으며, 이는 첨부된 특허청구범위에서 정의되는 본 발명의 취지와 범위에 포함되는 것으로 보아야 할 것이다.
이상에서 설명한 바와 같이, 본 발명에 의한 인식 결과를 이용한 통계적인 음성 인식 시스템 및 그 방법에 의하면, 한국어 대 어휘 연속 음성인식을 하기 위한 통계적인 방법론에서 인식된 결과를 통해 오 인식되는 어휘들의 정보를 이용하여 최종적으로 언어 모델의 추가적인 성능 향상을 기할 수 있는 효과가 있다.
다시 말해, 오 인식되는 언어적 결합의 확률이 점차 낮아짐으로, 올바른 관계가 최종적으로 선택할 여지가 많아진다. 이는 자주 발생하는 음향학적으로 비슷한 어휘로의 오 인식되는 경우를 크게 향상시킴은 물론 절대적으로 함께 나타날 수 없는 어휘간의 결합의 문제를 해결해 줄 수 있다.
또는, 이는 기존의 음향, 발음, 언어 모델로 구성된 탐색 공간에 동적으로 연계하여 효과적인 연산을 수행함은 물론, 실시간 환경에서 고 성능과 속도를 이끌 수 있는 효과가 있다.
도 1은 일반적인 데스크 탑 환경 하에서의 음성 인식 시스템의 개략도
도 2는 종래 기술에 따른 음성 인식 시스템의 개략적인 블록 구성도
도 3은 본 발명에 의한 음성 인식 시스템의 블록 구성도
도 4는 도 3에 도시된 형태소 분석기의 블록 구성도
<도면의 주요 부분에 대한 부호의 설명>
10 : 특징 추출부 12 : 음향 모델부
14 : 발음 모델부 16 : 언어 모델부
18 : 후처리부 20 : 음성 데이터베이스
30 : 발음 사전 데이터베이스
40 : 텍스트 말뭉치 데이터베이스
100 : 형태소 분석기 110 : 대상 텍스트
120 : 전처리 모듈 130 : 형태소 분석모듈
140 : FST 변환모듈 141 : 품사정의 해석 규칙
150 : Trie 구조 변환모듈 160 : 품사사전
170 : 품사 추정모듈 180 : 재학습 모듈
181 : 문맥확률 어휘확률 190 : 초기데이터 학습모듈
191 : 수동 분석된 코퍼스 200 : 의사 형태소 추출부
300 : 오 인식 어휘 추출부
400 : 오 인식 어휘 n-gram 구축부 500 : 언어 모델부

Claims (8)

  1. 음성 인식 시스템에 있어서,
    음성 인식 결과를 통해 대상 텍스트의 형태소를 분석하는 형태소 분석기;
    상기 형태소 분석기에서 분석된 형태소 단위 중 길이가 짧은 기능어는 결합하고 길이가 긴 복합어는 분리하여 의사 형태소를 추출하는 의사 형태소 추출부;
    상기 의사 형태소 추출부를 통해 입력 음성 텍스트와 인식기의 결과를 형태소로 구분하여 옳고 그름을 가리는 오 인식 어휘 추출부; 및
    상기 오 인식 어휘 추출부를 통해 엔 그램(n-gram) 관계를 구성하여 최종적으로 언어 모델 적용 시에 참조되는 오 인식 어휘 엔 그램(n-gram) 구축부를 포함하여 구성된 것을 특징으로 하는 인식 결과를 이용한 통계적인 음성 인식 시스템.
  2. 제 1 항에 있어서, 상기 형태소 분석기는,
    상기 음성 인식 결과를 통해 여러 형태소들의 묶음이 표층 형태로 나타나는 하나의 어절로부터 의미를 갖는 최소 단위인 각 형태소를 분석하여 실제의 문장에 사용되는 단어의 원래의 구조를 파악하는 것을 특징으로 하는 인식 결과를 이용한 통계적인 음성 인식 시스템.
  3. 제 1 항 또는 제 2 항에 있어서, 상기 형태소 분석기는,
    상기 텍스트 말뭉치에서 띄어쓰기와 같은 빈번한 오류데이타를 처리하는 전처리 모듈;
    상기 전처리 모듈에서 처리된 형태소를 분석하는 형태소 분석모듈;
    상기 형태소 분석모듈에 품사간의 정의와 해석 규칙을 표현하는 FST 변환 모듈;
    상기 형태소의 코드정보와 음절길이를 변수로 하는 해쉬(Hash)함수를 이용하여 사전을 구성한 품사사전;
    상기 형태소 분석모듈에서 상기 품사사전을 검색할 수 있도록 인 메모리 트리(In-memory tree)구조로 설계된 트라이(Trie) 구조 변환 모듈;
    상기 형태소 분석모듈로부터 어절 구조를 반영한 HMM(Hidden Markov Model)을 통해, 하나의 단에 대해 여러 개의 품사가 존재하는 품사의 모호성을 해결하고 문맥 확률과 어휘 확률를 구하여 어절 간의 의존성과 형태소 간의 의존성을 바이그램으로 구성한 품사 추정 모듈;
    상기 형태소 분석모듈로부터 상기 HMM모델에 대한 재학습식을 유도하여 미등록어에 대한 정보를 원형 코퍼스(Raw Corpus)로부터 추출하는 재학습모듈; 및
    상기 품사사전 및 초기 학습 모델의 정확도를 수동 분석된 코퍼스를 통해 향상시키는 초기데이터 학습모델을 포함하여 구성된 것을 특징으로 하는 인식 결과를 이용한 통계적인 음성 인식 시스템.
  4. 제 3 항에 있어서, 상기 형태소 분석모듈은,
    상기 형태소의 분석 규칙 및 프로그램을 생성하는 분석 규칙 및 프로그램 생성모듈;
    상기 품사사전을 관리하는 사전관리모듈; 및
    상기 형태소를 분석하는 분석엔진을 포함하여 구성된 것을 특징으로 하는 인식 결과를 이용한 통계적인 음성 인식 시스템.
  5. 제 1 항에 있어서, 상기 음성 인식 시스템은,
    수신된 음성 신호로부터 여러가지 유용한 특징들을 추출하는 특징 추출부;
    상기 특징 추출부를 통해 수신된 음성 신호를 음성 데이터베이스를 이용하여 어떻게 표현할 수 있는지를 나타내는 음향 모델부; 및
    상기 특징 추출부를 통해 수신된 음성 신호의 표기음소를 발음 사전 데이터베이스를 이용하여 발음음소로 바꾸어주는 발음 모델부를 더 포함하여 구성된 것을 특징으로 하는 인식 결과를 이용한 통계적인 음성 인식 시스템.
  6. 제 1 항에 있어서, 상기 음성 인식 시스템은,
    인식률이 높은 후보 문장을 선별한 후 또 다른 가공된 언어적 정보나 에러 패턴을 학습하고 적용하여 가장 적절한 문장을 찾는 후처리부를 더 포함하여 구성된 것을 특징으로 하는 인식 결과를 이용한 통계적인 음성 인식 시스템.
  7. 음성 인식 결과로부터 수신된 대상 텍스트의 형태소를 분석하는 단계;
    상기 분석된 형태소 단위 중 길이가 짧은 기능어는 결합하고 길이가 긴 복합어는 분리하여 의사 형태소를 추출하는 단계;
    상기 형태소나 의사 형태소의 관계를 나타내는 품사 엔 그램(n-gram)을 추출하는 단계;
    상기 품사 엔 그램(n-gram)을 기반으로 관계가 없는 품사들을 정의하여 언어 모델에 적용하는 단계를 포함하여 이루어진 것을 특징으로 하는 인식 결과를 이용한 통계적인 음성 인식 방법.
  8. 제 7 항에 있어서, 상기 음성 인식 방법은,
    상기 텍스트 말뭉치를 통해 여러 형태소들의 묶음이 표층 형태로 나타나는 하나의 어절로부터 의미를 갖는 최소 단위인 각 형태소를 분석하여 실제의 문장에 사용되는 단어의 원래의 구조를 파악하는 것을 특징으로 하는 인식 결과를 이용한 통계적인 음성 인식 방법.
KR1020040026781A 2004-04-19 2004-04-19 인식 결과를 이용한 통계적인 음성 인식 시스템 및 그 방법 Ceased KR20050101695A (ko)

Priority Applications (1)

Application Number Priority Date Filing Date Title
KR1020040026781A KR20050101695A (ko) 2004-04-19 2004-04-19 인식 결과를 이용한 통계적인 음성 인식 시스템 및 그 방법

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
KR1020040026781A KR20050101695A (ko) 2004-04-19 2004-04-19 인식 결과를 이용한 통계적인 음성 인식 시스템 및 그 방법

Publications (1)

Publication Number Publication Date
KR20050101695A true KR20050101695A (ko) 2005-10-25

Family

ID=37280075

Family Applications (1)

Application Number Title Priority Date Filing Date
KR1020040026781A Ceased KR20050101695A (ko) 2004-04-19 2004-04-19 인식 결과를 이용한 통계적인 음성 인식 시스템 및 그 방법

Country Status (1)

Country Link
KR (1) KR20050101695A (ko)

Cited By (9)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
KR100735559B1 (ko) * 2005-11-18 2007-07-04 삼성전자주식회사 언어 모델 구축 장치 및 방법
KR100822670B1 (ko) * 2006-09-27 2008-04-17 한국전자통신연구원 말뭉치 기반의 확장 가능한 cfg 형태의 음성 인식 문법생성 방법 및 장치
KR100925479B1 (ko) * 2007-09-19 2009-11-06 한국전자통신연구원 음성 인식 방법 및 장치
KR101134455B1 (ko) * 2009-06-25 2012-04-13 한국전자통신연구원 음성 인식 장치 및 그 방법
KR101664080B1 (ko) * 2015-07-28 2016-10-10 현대자동차 주식회사 음성 다이얼링 시스템 및 방법
KR102153220B1 (ko) * 2019-05-20 2020-09-07 주식회사 모두의연구소 동일성 판단에 기초한 음성 인식 결과 출력 방법 및 이를 이용한 장치
KR102302029B1 (ko) * 2020-11-23 2021-09-15 (주)펜타유니버스 인공지능 기반 복합 입력 인지 시스템
CN117133294A (zh) * 2023-10-26 2023-11-28 中铁四局集团有限公司 基于lstm模型的语音特征单元提取的改进型智慧工单系统
CN119446141A (zh) * 2024-10-24 2025-02-14 广州九四智能科技有限公司 一种基于语音识别的对话交互方法及装置

Cited By (11)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
KR100735559B1 (ko) * 2005-11-18 2007-07-04 삼성전자주식회사 언어 모델 구축 장치 및 방법
US8255220B2 (en) 2005-11-18 2012-08-28 Samsung Electronics Co., Ltd. Device, method, and medium for establishing language model for expanding finite state grammar using a general grammar database
KR100822670B1 (ko) * 2006-09-27 2008-04-17 한국전자통신연구원 말뭉치 기반의 확장 가능한 cfg 형태의 음성 인식 문법생성 방법 및 장치
KR100925479B1 (ko) * 2007-09-19 2009-11-06 한국전자통신연구원 음성 인식 방법 및 장치
KR101134455B1 (ko) * 2009-06-25 2012-04-13 한국전자통신연구원 음성 인식 장치 및 그 방법
KR101664080B1 (ko) * 2015-07-28 2016-10-10 현대자동차 주식회사 음성 다이얼링 시스템 및 방법
KR102153220B1 (ko) * 2019-05-20 2020-09-07 주식회사 모두의연구소 동일성 판단에 기초한 음성 인식 결과 출력 방법 및 이를 이용한 장치
KR102302029B1 (ko) * 2020-11-23 2021-09-15 (주)펜타유니버스 인공지능 기반 복합 입력 인지 시스템
CN117133294A (zh) * 2023-10-26 2023-11-28 中铁四局集团有限公司 基于lstm模型的语音特征单元提取的改进型智慧工单系统
CN117133294B (zh) * 2023-10-26 2024-01-05 中铁四局集团有限公司 基于lstm模型的语音特征单元提取的改进型智慧工单系统
CN119446141A (zh) * 2024-10-24 2025-02-14 广州九四智能科技有限公司 一种基于语音识别的对话交互方法及装置

Similar Documents

Publication Publication Date Title
EP1575030B1 (en) New-word pronunciation learning using a pronunciation graph
KR100486733B1 (ko) 음소 결합정보를 이용한 연속 음성인식방법 및 장치
US6910012B2 (en) Method and system for speech recognition using phonetically similar word alternatives
Karpov et al. Large vocabulary Russian speech recognition using syntactico-statistical language modeling
US8566076B2 (en) System and method for applying bridging models for robust and efficient speech to speech translation
US7286984B1 (en) Method and system for automatically detecting morphemes in a task classification system using lattices
CN107123419A (zh) Sphinx语速识别中背景降噪的优化方法
JP2004170765A (ja) 音声処理装置および方法、記録媒体並びにプログラム
Arısoy et al. A unified language model for large vocabulary continuous speech recognition of Turkish
KR100726875B1 (ko) 구두 대화에서의 전형적인 실수에 대한 보완적인 언어모델을 갖는 음성 인식 디바이스
KR20130126570A (ko) 핵심어에서의 음소 오류 결과를 고려한 음향 모델 변별 학습을 위한 장치 및 이를 위한 방법이 기록된 컴퓨터 판독 가능한 기록매체
KR100480790B1 (ko) 양방향 n-그램 언어모델을 이용한 연속 음성인식방법 및장치
KR20050101695A (ko) 인식 결과를 이용한 통계적인 음성 인식 시스템 및 그 방법
KR20050101694A (ko) 문법적 제약을 갖는 통계적인 음성 인식 시스템 및 그 방법
AbuZeina et al. Cross-word modeling for Arabic speech recognition
JP3776391B2 (ja) 多言語音声認識方法、装置、プログラム
Pellegrini et al. Automatic word decompounding for asr in a morphologically rich language: Application to amharic
Al-Anzi et al. Performance evaluation of Sphinx and htk speech recognizers for spoken Arabic language
Syadida et al. Sphinx4 for indonesian continuous speech recognition system
Ma et al. Recognize foreign low-frequency words with similar pairs
Puurula et al. Vocabulary decomposition for Estonian open vocabulary speech recognition
Béchet et al. Very large vocabulary proper name recognition for directory assistance
KR20030010979A (ko) 의미어단위 모델을 이용한 연속음성인식방법 및 장치
Sazhok et al. Language Model Comparison for Ukrainian Real-Time Speech Recognition System
WO2014035437A1 (en) Using character describer to efficiently input ambiguous characters for smart chinese speech dictation correction

Legal Events

Date Code Title Description
A201 Request for examination
PA0109 Patent application

Patent event code: PA01091R01D

Comment text: Patent Application

Patent event date: 20040419

PA0201 Request for examination
PG1501 Laying open of application
E902 Notification of reason for refusal
PE0902 Notice of grounds for rejection

Comment text: Notification of reason for refusal

Patent event date: 20060224

Patent event code: PE09021S01D

N231 Notification of change of applicant
PN2301 Change of applicant

Patent event date: 20060525

Comment text: Notification of Change of Applicant

Patent event code: PN23011R01D

E601 Decision to refuse application
PE0601 Decision on rejection of patent

Patent event date: 20060829

Comment text: Decision to Refuse Application

Patent event code: PE06012S01D

Patent event date: 20060224

Comment text: Notification of reason for refusal

Patent event code: PE06011S01I