KR100563365B1

KR100563365B1 - 계층적 언어 모델

Info

Publication number: KR100563365B1
Application number: KR1020037010835A
Authority: KR
Inventors: 마크 에드워드 엡스테인
Original assignee: 인터내셔널 비지네스 머신즈 코포레이션
Priority date: 2001-03-01
Filing date: 2002-02-28
Publication date: 2006-03-22
Anticipated expiration: 2022-02-28
Also published as: EP1366490B1; WO2002071391A2; DE60201262T2; KR20030076686A; EP1366490A2; JP3940363B2; CN1256714C; CA2437620A1; WO2002071391A3; JP2004523004A; ATE276568T1; CA2437620C; DE60201262D1; US20020123891A1; US6754626B2; ES2227421T3; CN1535460A

Abstract

본 명세서에 개시된 발명은 문맥 모델의 계층구조를 이용하여 음성을 텍스트로 변환하기 위한 방법에 관련된 것이다. 문맥 모델의 계층구조는 언어 모델로 통계적 평탄화될 수 있다. 방법은 텍스트를 다수의 문맥 모델들로 처리하는 단계를 포함한다. 다수의 문맥 모델 각각은 다수의 문맥 모델 계층구조내의 노드에 대응할 수 있다. 또한, 텍스트에 관련하여 적어도 하나의 문맥 모델을 식별하는 단계와, 이후의 사용자 구두어를 상기 식별된 적어도 하나의 문맥 모델로 처리하는 단계를 포함한다.

문맥 모델의 계층구조, 음성-텍스트 변환, 언어 모델

Description

계층적 언어 모델{Hierarchical Language Model}

본원 발명은 음성 인식 및 대화 기반형 시스템 분야에 관한 것으로서, 좀더 구체적으로는 음성을 텍스트로 변환하기 위해 언어 모델을 이용하는 것에 관한 것이다.

음성 인식은 마이크로폰에 의해 수신된 음향 신호가 컴퓨터에 의해 일단의 텍스트 단어, 숫자 또는 심볼들로 변환되는 프로세스이다. 이렇게 인식된 단어들은, 문서 준비, 데이터 입력, 명령 및 제어와 같은 목적의 다양한 컴퓨터 소프트웨어에 의해 이용될 수 있다. 음성 인식 시스템의 향상은 이용자 생산성을 개선키는데 중요하다.

음성 인식 시스템은 음향 모델을 형성하기 위해 음향 신호를 모델링하고 분류할 수 있는데, 음향 모델은 음소(phoneme)라 지칭되는 기본 언어학상 단위(linguistic unit)를 나타낸다. 음향 신호를 수신하면, 음성 인식 시스템은 음향 신호를 분석하고, 음향 신호내의 일련의 음향 모델들을 식별해내고, 주어진 일련의 음향 모델들에 대한 가능성있는 단어 후보 리스트를 도출해낼 수 있다.

후속하여, 음성 인식 시스템은 가이드로서 언어 모델을 이용하여 가능성있는 단어 후보들을 문맥상 분석할 수 있다. 구체적으로, 언어 모델은 단어들을 문장을 형성하기 위해 조합되는 방식상에 부가되는 제한사항들을 나타낼 수 있다. 언어 모델은 일반적으로 또다른 단어 또는 단어들에 바로 인접하여 나타나는 언어의 확률을 표현할 수 있는 통계적인 모델이다. 언어 모델은 각각의 단어들을 따라오는 허용가능한 단어들이 명백하게 리스트되는 유한 상태 네트워크로서 지정될 수 있거나, 문맥-의존(context-sensitive) 문법을 이용하는 좀더 복잡한 방식으로 구현될 수 있다. 기타 다른 언어 모델에는 본 기술 분야에 공지된 n-그램(gram) 모델 및 최대 엔트로피(entropy) 언어 모델이 있을 수 있으며, 여기에 한정되는 것은 아니다. 언어 모델의 흔한 예는 n-그램 모델일 수 있다. 특히, 바이그램(bigram) 및 트라이그램(trigram) 모델들은 본 기술분야에서 흔히 이용되는 n-그램 모델의 예이다.

종래의 언어 모델들은 연습용 텍스트 언어자료(training corpus of text)의 분석으로부터 도출될 수 있다. 연습용 언어자료는 사람이 말하는 보통의 방식을 반영하는 텍스트를 포함한다. 연습용 언어자료는, 음성 디코딩으로서 언급되는, 음성에서 텍스트로의 변환을 위한 음성 인식 시스템에 의해 이용되는 통계적 언어 모델들을 결정하기 위해 처리된다. 이러한 방법들은 본 기술분야에서 공지된 것이다. 예를 들어, 언어 모델 및 언어 모델 구축을 위한 방법에 대한 좀더 자세한 설명을 위해서는 "음성인식용 통계 모델(Statistical Methods for Speech Recognition)"(Frederic Jelinek 지음, MIT 프레스, 1997)을 참조하기 바란다. 현재 본 기술분야내에서는, 음성 인식 시스템은 사용자가 말한 발음을 텍스트로 변환하기 위해 언어 모델 조합을 이용할 수 있다. 각각의 언어 모델은 최종 텍스트 스트링을 판단하기 위해 이용될 수 있다. 각각의 언어 모델로부터 각각의 최종적인 텍스트 스트링은 가장 정확하거나 가장 유사한 결과를 판단하기 위해 통계적으로 비교 고랑(weigh)될 수 있다. 예를 들어, 음성 인식 시스템은 시스템 내에 포함된 일반적인 또는 포괄적인 언어 모델 뿐만 아니라 사용자에 의해 구술된 처음 여러번의 구술 세션 또는 문서들로부터 도출된 사용자 특정 언어 모델도 포함할 수 있다. 일부 음성 인식 시스템들은 사용자가 새로운 문서를 구술하거나 새로운 구술 세션을 개시할 때 기존 언어 모델을 계속적으로 향상시킬 수 있다. 따라서, 다수의 종래 음성 인식 시스템들에서, 언어 모델은 계속적으로 갱신될 수 있다.

불행히도, 언어 모델이 계속적으로 성장함에 따라, 주제에 특정된 사용자 구술의 중요도가 줄어들 수 있다. 특히, 좀더 최근의 음성 세션 효과가 언어 모델내의 다량의 데이터 증가로 인하여 줄어들 수 있다. 유사하게, 최근의 사용자 구술의 중요성 또한, 그것이 주제 특정이건 아니건 간에, 확장되는 언어 모델 내에서 축소될 수 있다. 이는 언어 모델을 향상시키기 위해 이용될 수 있는 하나의 특정 세션 또는 문서의 통계적 중요성이 계속해서 확장되는 데이터 집합으로 인하여 줄어드는 통계적 언어 모델들에 관련하여 주로 발생한다. 이러한 통계적 효과는, 예를 들어,사용자가 음성 인식 또는 대화 기반과 상호작용하는데 좀더 친근해지고 익숙해짐에 따라 사용자의 음성 패턴이 변하는 경우에, 심각할 수 있다. 특히, 단일 세션 또는 문서로부터 야기된 언어 모델의 향상은 언어 모델에 대응하는 전체 데이터 집합 측면에서는 특별히 제한된 양의 데이터를 산출할 수 있는데, 이는 통계적인 음성 기반 시스템의 동작을 변경시키기 어렵다. 결과적으로, 언어 모델은 사용자의 변하는 구술 스타일을 정확하게 반영할 수 없다.

사용자가 하나 이상의 시스템 프롬프트(prompt)에 구두상으로 응답하는 자연언어 이해 시스템과 같은 대화 기반 시스템 측면에서도 유사한 문제가 존재할 수 있다. 이러한 시스템은 사용자의 응답을 처리하기 위해 하나 이상의 언어 모델들을 포함할 수 있지만, 특정 프롬프트에 맞추어진 언어 모델들은 불충분한 데이터량을 이용하여 구축될 수 있다. 따라서, 이러한 언어 모델은 너무 특정되어 수신된 음성을 정확히 처리할 수 없다. 구체적으로, 언어 모델들은 좀더 일반화된 사용자 응답을 처리하기 위해 그 언어 모델로부터 추상화시키는 능력이 부족할 수 있다.

본 명세서에 개시된 발명은 문맥 모델의 계층구조를 생성하고 음성을 텍스트로 변환시키는데 이러한 문맥 모델을 이용하는 방법에 관한 것이다. 본 발명에 따른 방법은 음성 인식 시스템 및 자연언어 이해 대화-기반 시스템 내에 이용될 수 있다. 특히, 본 발명은 사용자 구두어(user spoken utterances) 형태로 된 상이한 사용자 음성 세션, 문서, 문서의 일부 또는 사용자 응답으로부터 다수의 문맥 모델을 생성할 수 있다. 이러한 문맥 모델은 공지된 거리 측정법(distance metric)을 이용하여 관련 쌍으로 밑에서부터(in bottom up fashion) 구성되거나 집단화될 수 있다. 언어 모델의 관련 쌍은 트리-유사 구조가 형성될 때까지 계속적으로 병합될 수 있다. 문맥 모델의 트리-유사 구조 또는 문맥 모델의 계층구조는 단일의 루트 노드로부터 바깥쪽으로 확장될 수 있다. 문맥 모델의 계층구조는 삭제 보간(deleted interpolation) 또는 백오프(back-off) 방식과 같은 공지된 기법을 이용하는 저장된 텍스트 집적자료(held out corpus)를 이용하여 보간될 수 있다. 본 발명은 본 명세서에 개시된 특정의 평탄화(smoothing) 기법에 의해 한정되는 것은 아니다. 본 기술분야에 공지된 임의의 적합한 평탄화기법이 이용될 수 있다.

문맥 모델의 계층구조가 결정되고 평탄화된 후에, 수신된 사용자 구두어들이 최종적인 문맥 모델 계층구조를 이용하여 처리될 수 있다. 문맥 모델의 계층구조내에서 하나 이상의 수신된 사용자 구두어에 대응하는 하나 이상의 문맥 모델들이 식별될 수 있다.

본 발명의 일특징은 문맥 모델의 계층구조를 이용하여 음성을 텍스트로 변환하는 방법을 포함할 수 있다. 문맥 모델의 계층구조는 언어 모델로 통계적 평탄화될 수 있다. 상기 방법은 (a) 다수의 문맥 모델을 이용하여 텍스트를 처리하는 단계를 포함할 수 있는데, 상기 다수의 문맥 모델 각각은 상기 다수의 문맥 모델의 계층구조 내의 노드에 해당할 수 있다. 텍스트의 처리는 순차적으로 또는 병렬로 수행될 수 있다. 또한, 상기 방법에는 (b) 수신된 텍스트에 관련된 적어도 하나 이상의 문맥 모델을 식별하는 단계와, (c)상기 식별된 적어도 하나의 문맥 모델을 이용하여 이후의 사용자 구두어를 처리하는 단계가 더 포함된다.

다수의 문맥 모델중 적어도 하나는 문서 또는 문서의 일부, 문서 섹션, 대화 기반 시스템의 특정 대화 상태에서 수신된 적어도 하나의 사용자 응답, 또는 대화기반 시스템 내의 특정 트랜잭션 내의 특정 위치에서 수신된 적어도 하나의 사용자 응답에 대응할 수 있다. 또한, 다수의 문맥 모델중 적어도 하나는 대화 기반 시스템 프롬프트 구문(syntax), 특정의 공지된 대화 기반 시스템 프롬프트, 또는 수신 된 전자 메일 메시지에 대응할 수 있다.

본 발명의 또다른 실시예는 문맥 모델의 계층구조를 생성하는 방법을 포함할 수 있다. 이러한 경우에, 방법은 (a) 거리 측정법을 이용하여 다수의 문맥 모델들 각각 간에 거리를 측정하는 단계를 포함할 수 있다. 특히, 다수의 문맥 모델중 적어도 하나는 문서의 일부 또는 대화 기반 시스템 내의 사용자 응답에 대응할 수 있다. 또한, 상기 방법은 (b) 다수의 문맥 모델중 다른 것들보다 거리면에서 더 근접한 두개의 문맥 모델들을 식별해내는 단계를 포함할 수 있다. 또한, (c)상기 식별된 문맥 모델들을 부모(parent) 문맥 모델로 병합하는 단계를 포함할 수 있다. 병합 단계 (c)는 상기 식별된 문맥 모델들간에 보간하는 단계를 포함할 수 있는데, 보간은 상기 식별된 모델들의 조합으로 귀착된다. 대안적으로, 병합 단계 (c)는 식별된 문맥 모델들에 대응하는 데이터를 이용하여 부모 문맥 모델을 구축하는 단계를 포함할 수 있다. 또한, 상기 방법은 다수의 문맥 모델들의 계층구조가 생성될 수 있을 때까지 단계(a),(b) 및 (c)를 반복하는 단계(d)를 포함할 수 있다. 그러한 경우에, 계층구조는 루트 노드를 포함할 수 있다. 다수의 문맥 모델들의 계층구조는 통계적으로 평탄화되어 언어 모델을 산출할 수 있다. 예를 들어, 문맥 모델의 계층구조는, 삭제 보간, 백오프 방식, 또는 기타 다른 적합한 평탄화 기법과 같이 본 기술분야에 공지된 기술을 이용하는 저장된 텍스트 집적자료를 이용하여 보간될 수 있다.

다수의 문맥 모델들 또는 초기 문맥 모델들은 음성 세션, 문서 템플릿, 문서 및 단락과 같은 문서의 일부, 또는 문서의 섹션과 같이 하나 이상의 부분들로 분류 되는 문서의 임의의 부분으로부터 구축될 수 있다. 자연언어 이해 시스템과 같은 대화 기반 시스템의 경우에, 초기의 문맥 모델은 하나 이상의 사용자 응답으로부터 다양한 시스템 프롬프트의 전부 또는 일부에 이르기까지 구축될 수 있다.

도면에는 현재 바람직한 실시예들이 도시되어 있으나, 본 발명은 도시되어 있는 것에 따른 정확한 구성 및 수단에 한정되는 것은 아니다.

도 1은 본 발명이 이용될 수 있는 예시적 컴퓨터 시스템의 개략도이다.

도 2는 예시적인 음성 인식용 구조를 도시한 개략도이다.

도 3a 및 3b는 음성 인식 엔진을 포함할 수 있는 전형적인 구성요소들을 도시한 개략도이다.

도 4는 문맥 모델의 예시적인 계층구조를 설명하는 블록도이다.

도 5는 본 발명에 따른 예시적인 방법을 설명하는 흐름도이다.

도 6은 본 발명에 따른 예시적인 방법을 설명하는 흐름도이다.

본 명세서에 개시된 실시예는 문맥 모델의 계층구조를 생성하고 이러한 문맥 모델을 이용하여 음성을 텍스트로 변환하기 위한 방법에 관한 것이다. 본 방법은 음성 인식 시스템 및 자연언어 이해 대화 기반 시스템 내에 이용될 수 있다. 특히, 본 실시예는 상이한 사용자 음성 세션, 문서, 문서의 일부, 또는 사용자 구두어의 형태로 된 응답으로부터 다수의 문맥 모델을 생성할 수 있다. 그러한 문맥 모델들은 밑에서부터 위로 올라가는 형식(bottom up fashion)에 따라 공지된 거리 측정법을 이용하여 관련쌍들로 편성 또는 집단화될 수 있다. 특히, 문맥 모델들을 관련쌍으로 편성하는 것은 실행시간에 동적으로 자동 수행될 수 있다. 문맥 모델들의 관련쌍은 부모 문맥 모델을 형성하기 위해 병합될 수 있다. 프로세스는 문맥 모델의 계층구조가 트리-유사 구조를 닮는 것으로 나타날 때까지 반복될 수 있다. 계층은 다른 노드들이 확장될 수 있는 단일의 루트 노드를 가질 수 있다. 특히, 문맥 모델의 계층구조의 각각의 노드는 하나의 문맥 모델에 대응할 수 있다. 본 명세서에서 용어 "문맥 모델"은 단일 문서, 문서의 일부 또는 자연언어 이해(NLU) 시스템의 경우에는 하나 이상의 사용자 구두어 또는 응답으로부터 획득된 연습용 데이터로부터 구축된 언어 모델을 일컫는다.

최종적인 문맥 모델의 계층구조는 삭제 보간 또는 백오프 방식과 같이 본 기술분야에 공지된 기술을 이용하는 저장된 텍스트 집적자료를 이용하여 보간될 수 있다. 본 발명은 본 명세서에 개시된 특정의 평탄화 기법에 한정되지는 않는다. 오히려, 본 기술분야에 공지된 임의의 적합한 평탄화 기술이 이용될 수 있다.

문맥 모델의 계층구조가 결정된 후에, 수신된 사용자 구두어는 문맥 모델의 최종 계층 구조를 이용하여 처리될 수 있다. 구체적으로, 문맥 모델의 계층 구조 내에서, 하나 이상의 수신된 사용자 구두어에 대응하거나 가장 정확하게 반영하는 특정 문맥 모델이 식별될 수 있다. 예를 들어, 실시예는 문맥 모델의 계층구조를 이용하여 상기 수신된 사용자 구두어를 처리하고 가장 높은 만족도 점수를 갖는 최종 텍스트를 산출하는 문맥 모델을 식별할 수 있다. 실시예는 이후의 사용자 구두어가 이전에 수신된 사용자 구두어 또는 대응 문맥 모델을 식별하기 위해 이용된 발음의 내용과 유사한 내용을 갖는다는 가정에 따라 작동할 수 있다. 따라서,후속하는 사용자 구두어는 식별된 문맥 모델로써 처리되어 향상된 음성 인식 시스템 성능을 달성할 수 있다.

특히, 문맥 모델의 최종 계층구조 및 최종적으로 평탄화된 언어 모델은 후속하는 사용자 구두어의 처리가 좀더 일반화될 수 있도록 해준다. 이는 "훈련이 덜된(under-trained)" 언어 모델이 시스템 성능에 불리한 영향을 미치는 NLU 시스템에 특히 유용하다. 구체적으로, 문맥 모델의 평탄화된 계층구조는, 문맥 의존적이면서도, 문맥 모델이 좀더 일반화될 수 있도록, 루트 노드쪽으로 트래버스(traverse)되거나, 문맥 모델이 문맥 의존적이면서 좀더 구체적으로 될 수 있도록 리프쪽으로 트래버스될 수 있다.

도 1은 본 발명과 연관하여 이용될 수 있는 전형적인 컴퓨터 시스템(100)이다. 이러한 시스템은 중앙처리유닛(CPU,110), 하나 이상의 메모리 장치(115) 및 연관 회로들을 포함하는 컴퓨터(105)를 포함할 수 있다. 메모리 장치(115)는 전자적인 랜덤 액세스 메모리 및 벌크(bulk) 데이터 저장매체로 이루어질 수 있다. 또한, 시스템은 적합한 인터페이스 회로(125)를 통해 컴퓨터 시스템에 연동되는 마이크로폰(120)과, 시스템에 연동되는 비디오 데이터 단말과 같은 선택적인 사용자 인터페이스 디스플레이 장치(130)를 포함할 수 있다. CPU는 임의의 적합한 마이크로프로세서 또는 다른 전자처리장치로 이루어질 수 있으며, 이는 통상의 지식을 가진 자에게 공지되어 있다. 스피커(135, 140)와, 마우스(45) 및 키보드(150)와 같은 인터페이스 장치가 시스템에 제공될 수 있지만, 본 발명의 작동에 반드시 필요한 것은 아니다. 본 명세서에서 서술하는 컴퓨터 시스템의 다양한 하드웨어 요구사항은 다수의 상업적으로 이용가능한 고속 컴퓨터들중 어느 것에 의해서도 일반적으로 충족될 수 있다.

도 2는 컴퓨터 시스템(100) 내의 음성인식 시스템의 전형적인 구조를 도시한 개략도이다. 도 2에 도시된 바와 같이, 컴퓨터 시스템(100)의 메모리(115) 내에 운영 체제(200)와 음성 인식 엔진(210)이 있다. 또한, 음성 텍스트 프로세서 어플리케이션(220)과 음성 네비게이터 어플리케이션(230)이 포함될 수 있다. 그러나 ,본 발명은 이러한 구성에 한정되는 것은 아니며, 음성 인식 엔진(210)은 음성이 이용될 수 있는 다른 어플리케이션 프로그램에 이용될 수 있다. 도 2에서, 음성 인식 엔진(210), 음성 텍스트 프로세서 어플리케이션(220) 및 음성 네비게이터 어플리케이션(230)은 별도의 어플리케이션 프로그램들로서 도시된다. 그러나, 본 발명은 이에 한정되는 것은 아니며, 이러한 다양한 어플리케이션 프로그램들은 하나의 좀더 복잡한 어플리케이션 프로그램으로서 구현될 수 있다. 예를 들어, 음성 인식 엔진(210)은 음성 테스트 프로세서 어플리케이션(220) 또는 음성이 이용될 수 있는 다른 어플리케이션들과 결합될 수 있다. 또한, 음성 텍스트 프로세서 어플리케이션(220) 및 음성 인식 엔진(210)과 연계하여 작동될 수 있는 다른 음성 제어형 어플리케이션 프로그램이 없다면, 시스템은 음성 네비게이터 어플리케이션(230) 없이 작동되도록 변경될 수 있다. 음성 네비게이터 어플리케이션(230)은 우선적으로 음성인식엔진(210)의 동작을 조정한다.

전술한 구성요소들은 컴퓨터 시스템(100) 내에 중앙 집중 형태로 구현될 수 있다. 선택적으로, 전술한 컴포넌트들은 상이한 요소들이 몇 개의 상호연결되는 컴퓨터 시스템에 걸쳐 퍼져 있는 분산 형태로서 구현될 수 있다. 어느 경우이든, 컴포넌트들은 하드웨어, 소프트웨어, 또는 하드웨어 및 소프트웨어의 조합으로 구현될 수 있다. 본 발명에서 서술되는 발명을 수행하는데 어떠한 유형의 컴퓨터 시스템 또는 장치들도 적합하다. 본 명세서에서 기재된 시스템은, 이용되는 특정 운영 체제용으로 상업적으로 이용가능한 개발툴을 이용하여 구현될 수 있다.

본 명세서에서 언급되는 컴퓨터 프로그램 수단 또는 컴퓨터 프로그램은 정보처리능력을 갖는 시스템으로 하여금, 즉시, 또는 a) 또다른 언어, 코드 또는 표기(notation)로의 변환, b)상이한 유형물로의 복제중 하나 또는 모두를 거친 후에, 특정 기능을 수행하도록 하도록 이루어진 임의의 언어, 코드 또는 표기로 된 일단의 명령어 표현을 의미한다.

동작에 있어서, 마이크로폰(120)에서 수신된 사운드를 나타내는 오디오 신호는 디지털 형태로 운영 체제(200)에 이용가능하게 되도록 전형적인 컴퓨터 오디오 회로를 이용하여 컴퓨터(100) 내에서 처리될 수 있다. 대안으로서, 오디오 신호는 아날로그 또는 디지털 포맷으로 또다른 컴퓨터로부터 컴퓨터 통신망을 통해 또는 전화와 같은 또다른 변환장치로부터 수신될 수 있다. 컴퓨터 시스템(100)에 의해 수신된 오디오 신호는 음성인식기능을 수행하기 위해 전형적으로 컴퓨터 운영체제(200)를 통해 음성인식엔진(210)에 제공된다. 종래 음성 인식 시스템에서처럼, 마이크로폰(120)으로 사용자가 말한 단어들을 식별하기 위해 음성 신호들이 음성 인식 엔진(210)에 의해 처리될 수 있다. 도 3a는 음성 인식 엔진(210)을 포함할 수 있는 전형적인 구성요소들을 도시한 블록도이다. 도 3에 도시된 바와 같이, 음성 인식 엔진(210)은 운영체제로부터 디지털화된 음성 신호를 수신한다. 신호는 이어서 표현 블록(310)에서 임의의 정해진 비율(전형적으로는 매 10-20 msec)로 신호를 샘플링함으로써 유용한 데이터 집합으로 변환된다. 표현 블록은 방금 분석된 파장 형태의 일부가 특정 음성 이벤트에 대응하는 확률을 결정하기 위해 이후의 음성 인식 프로세스 단계들에서 이용될 수 있는 오디오 신호의 새로운 표현을 산출한다. 이러한 프로세스는 운영체제로부터 수신된 음성 신호의 지각적으로(perceptually) 중요한 화자-무관 (speaker independent) 특징들을 강조하기 위한 것이다. 모델링/분류 블록(320)에서, 알고리즘들이 음성 신호를 또한 처리함으로써 화자-무관 음향 모델을 현재 화자의 음향 모델에 적응시킨다. 마지막으로, 검색 블록(330)에서, 검색 엔진이 음성 신호에 대응하는 가장 유사한 단어를 찾을 수있도록 지도하기 위해 검색 알고리즘들이 이용된다. 검색 블록(330)에서의 검색 프로세스는, 음향 모델(340), 어휘 모델(350) 및 언어 모델(360)의 도움으로 이루어진다.

언어 모델들(360)은 단어가 문장내에서 다른 단어들과 함께 이용될 때 음성 신호에 대응하는 가능한 단어 수를 제한하는 것을 돕는데 이용될 수 있다. 언어 모델은 유한 상태 네트워크 - 각각의 단어 다음에 올 수 있는 단어들이 명확하게 열거되거나, 문맥-의존 문법을 이용하는 좀더 복잡한 방식으로 구현될 수 있음- 로서 지정될 수 있다. 다른 언어 모델의 예로서는 본 기술 분야에 공지되어 있는 n-그램 모델 및 최대 엔트로피 언어 모델들을 들 수 있으며, 이에 한정되는 것은 아 니다. 어느 경우이든, 언어 모델의 내용을 특정 사용자의 경우에 만날 가능성이 많은 음성 패턴에 관한 정보로 갱신해주는 것이 바람직하다. 검색 프로세스는 텍스트 출력으로서 가장 높은 만족도 점수를 갖는 단어 후보들을 결정한다.

만족도 점수는 특정 단어 후보가 대응하는 사용자 구두어를 정확하게 반영하는 가능성을 반영한다. 만족도 점수는, 음향 모델, 어휘 모델 및 언어 모델들로부터 도출되는 값일 수 있다. 예를 들어, 만족도 점수는 특정 단어 후보가 언어 모델을 이용하여 판단된 또다른 단어 또는 단어 그룹 다음에 위치할 가능성에 부가하여, 음향 모델을 이용하여 판단된 사용자 구두어를 나타낼 가능성을 고려할 수 있다.

인식된 텍스트는 언어 모델 세션 관리자(Language Model Session Manager: LMSM, 380)에 제공될 수 있다. 최종 텍스트가 수신된 사용자 구두어를 정확하게 반영할 확률에 근거하여, LMSM(380)은 이후에 수신되는 사용자 구두어를 처리하기 위한 좀더 적합한 문맥 모델을 판단할 수 있다. 좀더 구체적으로, LMSM(380)은 텍스트 처리에 이용하기 위해 최종 텍스트가 수신된 사용자 구두어를 반영하는 가장 높은 확률을 갖는 문맥 모델을 식별할 수 있다. 따라서, LMSM(380)은 이후에 수신되는 음성들을 처리하는데 이용하기 위해 적합한 문맥 모델을 선택할 수 있다. 도시된 바와 같이, LMSM(380)은 음성 인식 시스템에 대한 피드백 경로를 제공할 수 있다.

LMSM(380)은 또한 문서 섹션들을 인식할 수 있다. 예를 들어, LMSM(380)은 문서내의 커서 위치에 의해 문서 섹션을 판단할 수 있다. LMSM(380)은 하나 이상 의 템플릿으로 프로그래밍될 수 있는데, 여기서 템플릿은, 도입부, 배경 또는 기타 다른 정의가능한 문서 섹션과 같은 상이한 문서 섹션들의 표시자들을 포함할 수 있다. 섹션들은 사용자에 의해 정의된 섹션들이고 주제에 특정될 수 있다. 예를 들어, 섹션들은, 참 또는 거진 선택, 단답형 또는 선다형 섹션을 포함하는 주제에 특정된 테스트이거나 그렇지 않은 문서의 부분들일 수 있다. 특히, 종래의 단어 처리 프로그램들이 문서의 섹션화를 제공할 수 있다.

LMSM(380)은 언어 모델 구축기(Language Model Builder:LMB, 390)가 새로운 문맥 모델을 구축하고 문맥 모델들의 계층구조를 재구축하도록 명령하는 시점을 판단하기 위해 또한 프로그래밍될 수 있다. LMB(390)은 새로운 초기 문맥 모델을 동적으로 구축할 뿐만 아니라 문맥 모델들의 계층구조를 재구축할 수 있다. 예를 들어, 초기 문맥 모델이 문서들로부터 구축된다면, LMSM(380)은 새로운 문맥 모델이 구축되고 문맥 모델들의 계층구조가 재구축될 수 있도록 문서 또는 문서의 일부가 완료되는 시점을 결정할 수 있다. 구체적으로, 사용자가 문서를 닫거나 그렇지 않고 사용자가 문서 또는 문서의 일부를 구술하는 것을 종료하였음을 음성 인식 시스템에 알린 후에, LMSM(380)은 LMB(390)에게 지시하여 문맥 모델들의 계층구조들을 재구축할 것을 시작하도록 할 수 있다. LMSM(380)은 종래의 단어처리 프로그램들에서 사용된 것과 같은 다양한 템플릿 및 문서 섹션들로 프로그래밍될 수 있으며, 전술한 임의의 완료는 문맥 모델의 계층구조 재구축을 초래할 수 있다. 예를 들어, 텍스트 편집 프로그램의 커서가 문서 섹션을 떠날 때, LMSM(380)은 문서의 해당 섹션에 대응하는 문맥 모델을 동적으로 구축할 수 있으며 문맥 모델의 계층구 조를 재구축할 수 있다. 이와 유사하게, 문맥 모델이 단락과 같은 문서의 일부로부터 구축되면, 예를 들어, 단락의 종료 (예를 들어, 하드 리턴 명령)는 LMSM(380)에 신호를 전송하여 LMB(390)으로 하여금 가장 최근 단락 내에 포함된 텍스트와 무관하게 새로운 문맥 모델을 구축하도록 지시한다. 전술한 바와 같이, 초기의 문맥 모델은 문서 템플릿, 문서, 문서 섹션 또는 문서의 일부로부터 구축될 수 있다.

도 3b는 도 3a의 블록도와 유사한 음성 인식 엔진(210)을 포함할 수 있는 전형적인 구성요소들을 도시한 블록도이다. 그러나, 도 3b는 NLU 시스템을 포함할 수 있다. 특히, NLU 시스템은 컴퓨터로 하여금 사람이 작성하거나 말한 언어로부터 정보를 추출하고 이해할 수 있도록 해준다. 이러한 시스템은 사람의 언어를 이해할 필요가 있는 다양한 기타 컴퓨터 어플리케이션들과 상보적인 방식으로 기능할 수 있다. NLU 시스템은 텍스트내에 포함된 관련 정보를 추출한 다음에 이러한 정보를 또다른 어플리케이션 프로그램에 공급해줄 수 있다.

NLU 시스템은 LMSM(380)와 통신하여 LMSM(380)에게 대화기반 시스템에 대한 응답에 해당하는 사용자 구두어에 관한 정보를 제공한다. 이러한 정보에는 사용자가 관련된 특정의 트랜잭션 유형과, 트랜잭션 내의 사용자 위치, 상기 특정의 대화 기반 시스템 프롬프트 및 프롬프트 구문(syntax)이 포함될 수 있다. 예를 들어, NLU 시스템(395)은 사용자 구두어가 금융 시스템에서의 취소 트랜잭션과 관련하여 계좌명을 묻는 프롬프트에 대한 응답이었다는 정보를 LMSM(380)에 제공할 수 있다. 더욱이, NLU 시스템은 예상 응답이, 숫자, 특정 구문 또는 특정 주제에 관련된 텍스트 문장, 또는 예/아니오 유형의 프롬프트임을 LMSM에 알려줄 수 있다.

예를 들어, 초기의 문맥 모델은 소정의 대화 상태에 관련된 사용자 응답, 소정의 트랜잭션 주제, 특정 트랜잭션 내에서의 사용자 위치, 특정의 공지된 대화 프롬프트에 대한 사용자 응답, 또는 사용자가 응답하는 대화 프롬프트 구문들로부터 구축될 수 있다. 소정의 대화 상태라 함은 일반적으로 전술한 요소들 각각을 지칭할 수 있다.

소정의 트랜잭션 주제는 사용자가 요청한 동작 또는 명령을 의미할 수 있다. 예를 들어, 금융관리시스템에서, 트랜잭션에는 취소, 이체, 예금 등이 포함될 수 있다. 여행 시스템의 관점에서는, 트랜잭션에 비행기 예약, 렌트카 등이 포함될 수 있다. 트랜잭션은 어플리케이션마다 특정되며, NLU 시스템이 인터페이스를 제공하는 시스템에 기초한다. 따라서, 문맥 모델들은 대화 기반 시스템내에서 각각의 식별가능한 주제에 따라 구축될 수 있다.

트랜잭션 내의 위치는 사용자 응답에 대한 문맥 정보를 제공한다. 구체적으로, 임의의 소정의 트랜잭션은 하나 이상의 사용자에 의해 지정된 파라미터들을 요청할 수 있다. 따라서, 개시된 트랜잭션의 특정 유형 뿐만 아니라 수신된 파라미터에 기초하여, 음성 인식 시스템은 사용자가 응답한 대화기반 시스템 프롬프트에 대하여 정확하게 알지 못하고도 소정의 트랜잭션 내의 사용자 위치에 관련된 정보에만 근거하여 문맥 모델을 구축할 수 있다.

문맥 모델은 특정의 공지된 대화 기반 시스템 프롬프트에 대한 사용자 응답으로부터 구축될 수 있다. 부가적으로, 문맥 모델들은 특정 구문을 갖는 질문들에 대한 사용자 응답으로부터 구축될 수 있다. 예를 들어, "예 " 또는 "아니오" 시스템 프롬프트에 대한 사용자 응답들은 언어 모델 구축을 위해 그룹화될 수 있다. 이와 유사하게, "누구", "무엇", "어디", "언제", "왜" 또는 "어떻게" 질문들에 대한 사용자 응답들도 그룹화될 수 있으며, 선다형 또는 리스트형 프롬프트에 대한 사용자 응답들도 그룹화될 수 있다.

통계적 평탄화는 훈련이 덜되거나 작은 량의 훈련 데이터를 이용하는 것에 관련된 문제점을 약화시킬 수 있다. 부가적으로, 계층구조 덕분에 음성인식시스템은 문맥 의존성을 유지하면서 점차 일반화되는 모델들을 이용하여 사용자 구두어를 처리할 수 있다. 따라서, 사용자 응답이 이전에 수집된 데이터에 따르지 않는다면, 사용자 응답을 처리하기 위해 좀더 일반화된 문맥 모델이 이용될 수 있다.

따라서, LMB(390)는 동적으로 문맥 모델, 예를 들면, 초기 문맥 모델들을 구축할 수 있는데, 각각의 문맥 모델은 하나 이상의 사용자 응답들의 그룹화로부터 구축될 수 있다. 또한, LMB(390)는 대화식 프롬프트에 응답하여 주어진 사용자 구두어를 수신한 것에 응답하여 문맥 모델의 계층구조를 동적으로 재구축할 수 있다. 도 3b의 시스템은 NLU 시스템(395)이 녹음을 통해 또는 텍스트-음성 변환 기술을 이용하여 작동될 수 있는 대화식 프롬프트를 생성할 수 있다는 점에서 도 3a의 시스템과 또한 상이하다.

도 4는 도 3의 문맥 모델(360)의 예시적인 계층구조를 도시한다. 언어모델(360)은 루트 노드 아래로 연장되는 다수의 노드들 A, B, C, D, E 및 F를 갖는 트리 구조로서 도시된다. 각각의 노드는 문맥 모델에 대응할 수 있다. 단말 노드라고도 언급되는 리프 노드쌍 C 및 D 및 리프 노드쌍 E 및 F는 공지된 거리 측정법을 이용하여 관련 문맥 모델 쌍들로서 식별될 수 있다. 예를 들어, 이러한 측정법은 쿨백-리블레(Kullback-Liebler) 거리, 상대적 엔트로피, 차별 또는 분기를 포함할 수 있으며, 이에 한정되는 것은 아니다. 어느 경우이든, 문맥 모델의 하부 레벨은 공지된 측정법을 이용하여 쌍으로 그룹화될 수 있다. 바톰-업 클러스터링(bottom up clustering)이라 알려진 이러한 프로세스는 루트 노드가 결정될 때까지 계속될 수 있다.

본 발명의 또다른 실시예에서, 문맥 모델들은 문맥 모델이 도출된 구술 세션의 주제에 의해 그룹화될 수 있다. 예를 들어, 음성 인식 시스템은 단어 검색 알고리즘과 자연 언어 기술을 이용하여 선정된 주제에 따라 각각의 개별 문맥 모델(노드)을 분류하는데 이용할 수 있다. 문맥 모델은 이에 따라 관련 문맥 모델들이 쌍을 이루고, 음성 인식 시스템이 특정 주제하에 분류된 관련 문맥 모델들만을 그룹화할 수 있도록 태깅될(tagged) 수 있다. 대안적으로, 사용자는 특정 주제 분류를 정의할 수 있다. 그러한 경우에, 사용자는 음성 인식 시스템이 문맥 모델들을 분류하는데 이용할 수 있는 일련의 키워드를 입력할 수 있다. 또한, 음성 인식 시스템은 사용자가 문맥 모델의 분류를 무시하도록 허용할 수 있다.

문맥 모델의 그룹화된 쌍들은 부모 문맥 모델로 병합될 수 있다. 예를 들어, 노드 A는 그의 병합된 자식들인 리프 노드 C 및 D로부터 도출된 부모일 수 있다. 이와 유사하게, 노드 B는 그의 자식들, 리프 노드 E 및 F로부터 도출되는 부모일 수 있다. 부모 노드를 형성하기 위해 2개의 자식 노드들을 병합하는 것은 다양한 방법들을 이용하여 달성될 수 있다. 이러한 방법중 하나는 보간법이다. 예를 들어, 잠재적인 단어 후보들이 각각의 자식 노드 문맥 모델을 이용하여 처리된다. 이어서, 2개의 가능한 결과 구(phrase)들이 비교되어 가장 가능성 있는 결과가 선택된다. 각각의 문맥 모델 결과와 연관된 확률은 가중치(weighted) 상수와 곱하여진다. 그러한 경우에, 예를 들어, 리프 C에 적용되는 상수와 리프 D에 적용되는 상수는 합 1을 가질 수 있다. 부모 노드를 형성하기 위해 2개의 자식 노드들을 병합하는 또다른 방법은 문맥 모델을 구축하는 공지된 방법들을 이용하여 새로운 문맥 모델을 구축하기 위해 각각의 자식 노드에 대응하는 데이터를 이용하는 것을 포함할 수 있다. 따라서, 노드에서 부모 문맥 모델을 구축하기 위해 이용된 데이터는 부모의 2개 자식들의 혼합 데이터가 될 수 있다.

문맥 모델 계층구조의 각각의 레벨에서 두개의 노드들을 병합하기 위해 이용되는 특정 방법에 상관없이, 노드 쌍들의 그룹화 및 이러한 노드들을 부모 노드로 병합하는 것은 루트 노드에 도달할 때까지 계속될 수 있다. 부모 노드 A 및 B는 그들 자식의 공유 특성들을 포함할 수 있다. 유사하게, 루트 노드는 그의 자식들, 노드 A 및 B에 대응하는 문맥 모델들의 공유 특성을 포함할 수 있다. 따라서, 문맥 모델의 계층구조는 문맥 모델들의 분류를 제공하고, 각각은 거기에 구체화된 사용자에 따른 말하기 스타일의 혼합물을 포함한다. 부모 문맥 모델들이 혼합 데이터를 이용하여 구축된 경우에, 문맥 모델의 최종 계층구조는 단일의 계층적 언어 모델로서 지칭될 수 있다. 따라서, 가장 아래의 문맥 모델들이 가장 구체적인 모 델들이 될 수 있다. 특정의 문맥 모델이 만족할만한 만족도 점수를 산출하지 못한다면, 트리는 좀더 일반화된 문맥 모델로 올라갈 수 있다.

도 5는 도 1의 컴퓨터 시스템 및 도 2의 음성 인식 엔진을 이용하여 수행된 계층적 문맥 모델 생성 방법을 예시적으로 설명한 흐름도(500)이다. 방법은 음성 인식 시스템이 이후 생성될 문맥 모델 계층구조의 하단 행인, 리프 노드 C,D, E 및 F와 연관된 문맥 모델들과 같은 다수의 문맥 모델들을 축적한 상태에서 시작한다. 이러한 문맥 모델들, 시작 문맥 모델들은 사용에 따라 다르다. 예를 들어, 일반적인 구술의 경우에, 음성 인식 시스템은 특정 사용자에 대응하는 각각의 이전 구술 세션, 문서, 문서의 일부, 또는 문서의 섹션에 대한 새로운 문맥 모델을 생성할 수 있다.

도면에서, 음성 인식 시스템은 부모 어플리케이션에 대한 문맥 모델을 생성할 수 있다. 음성 인식 시스템은 부모 어플리케이션의 각각의 부분에 대한 문맥 모델을 생성할 수 있다. 예를 들어, 다양한 출원의 청구항들은 유사한 특징을 포함할 수 있으며, 요약, 상세한 설명 및 발명의 요약도 유사한 특징을 포함할 수 있다. 따라서, 문맥 모델은 출원과 같은 문서의 각 부분에 대해 구축될 수 있다. 또다른 실시예는 세부 부분들에 대한 문맥 모델을 구축하는 것을 포함할 수 있다. 예를 들어, 독립항에 대하여 하나의 문맥 모델이 구축될 수 있고 종속항에 대해 또다른 모델이 구축될 수 있다. 문서의 임의의 식별가능한 부분은 대응 문맥 모델을 구축하는데 이용될 수 있다. 종래의 워드 프로세서들은 문서들을 하나 이상의 단락으로 분류할 수 있다. 예를 들어, 이러한 분류는 문서에 대한 각각의 식별가능한 부분들에 대한 문맥 모델을 생성하는데 이용될 수 있다.

대화기반 시스템에서 이용된 문맥 모델의 경우에, 각각의 시작 문맥 모델은 대화기반 시스템에 의해 송출된 각각의 프롬프트에 대한 응답들인 일단의 문장들에 대응할 수 있다. 어느 경우이든, 시작 문맥 모델들, 또는 계층구조의 하단 행은 문맥 모델들간의 보간 또는 새로운 부모 문맥 모델들을 이후에 구축하는 기초로 작용할 수 있으며, 이들 모두는 최종적인 문맥 모델 계층구조를 포함할 수 있다.

음성 인식 시스템은 음성 인식 시스템에게 특정 사용자에 대응하는 최근 n개의 구술 세션들, 문서, 또는 응답들에 대한 문맥 모델을 저장하도록 지시하기 위한 사용자 조정 파라미터들을 포함할 수 있다. 대안적으로, 음성 인식 시스템은 문맥 모델의 특정 주제 분류에 대응하는 최근 n개의 문맥 모델들을 저장할 수 있다. 예를 들어, 최근 n개의 비즈니스 관련 문맥 모델들이 저장될 수 있으며, 최근 n개의 개인 편지 문맥 모델이 저장될 수 있다. 또한, 파라미터는 사용자별로 지정될 수 있을 뿐만 아니라, 주제별로도 지정될 수 있다. 따라서, 사용자 A는 각각의 주제 분류에 대한 n개의 특정값에 부가하여, n개의 전체 값을 판단할 수 있다. 또한, 사용자 B는 각각의 주제 분류에 대한 n개의 상이한 값들에 부가하여 n개의 전체값을 설정할 수 있다. 또한, 사용자 B에 의해 설정된 n 값은 사용자 A에 의해 설정된 n 값과는 전혀 관계없다. 이에 의해, 시스템이 필요한 만큼 일반화될 수 있다.

도 5의 방법은 사용자별로 수행될 수 있다. 더욱이, 도 1의 컴퓨터 시스템이 적당한 처리능력을 갖추었다면, 방법(500)은 각각의 새로운 사용자 구술 세션, 문서, 또는 사용자 응답이 개시될 때 수행될 수 있다. 따라서, 특정 사용자에 대응하는 문맥 모델의 계층구조는 꾸준히 갱신될 수 있다. 대안적으로, 방법(500)은 주기적으로 음성 인식 시스템에 의해 자동 수행되거나 사용자 요청에 응답하는 오프라인 방식으로 수행될 수 있다.

어느 경우이든, 단계(510)에서, 음성 인식 시스템은 각각의 문맥 모델이 특정 사용자에 대응하는 모든 다른 문맥 모델들과 얼마나 근접하여 관련되어 있는지를 판단하기 위해 거리 측정법을 이용할 수 있다. 언급한 바와 같이, 음성 인식 시스템은 쿨백-리블레 거리법 뿐만 아니라 관련도 또는 거리 판단을 위한 각 문맥 모델의 주제 분류를 이용할 수 있다. 단계(510)의 완료후에, 방법은 단계(520)로 계속된다.

단계(520)에서, 음성 인식 시스템은 가장 작은 거리를 갖는 문맥 모델쌍을 식별해낼 수 있다. 단계(520)의 완료후에, 방법은 문맥 모델들이 병합되는 단계(530)로 진행한다. 언급된 바와 같이, 문맥 모델들은 보간법 또는 각 자식 문맥 모델의 데이터를 이용함으로써 병합되어 새로운 부모 문맥 모델을 구축할 수 있다. 문맥 모델이 각각의 병합된 부모 노드에서 재구축된다면, 루트 노드는 단일의 언어 모델을 이용하는 것에 대응할 수 있다. 그러한 경우에, 계층적 문맥 모델의 노드들은 문맥 모델의 초기 도출로부터 제공되거나 제외될 수 있는 데이터를 이용하여 평탄화될 수 있다. 제외된 데이터는 최종 계층적 문맥 모델의 통계적 평탄화를 수행하기 위해 이용될 수 있다. 따라서, 문맥 모델은 리프 노드로부터 루트 노드에 이르는 모든 문맥 모델들의 보간치가 될 수 있다. 어쨌든, 단계(530)의 완 료후에, 방법은 단계(540)로 진행한다.

단계(540)에서, 음성 인식 시스템은 단일의 루트 노드가 결정되었는지를 판단한다. 좀더 구체적으로, 음성 인식 시스템은 문맥 모델의 계층구조가 단일 노드에서 종료되는지를 판단할 수 있다. 그렇다면, 방법은 종료할 수 있다. 그렇지 않다면, 방법은 단계(510)로 돌아가서 반복한다. 방법(500)은 필요한 만큼 반복될 수 있으며, 방법을 반복할 때마다 단일 루트 노드로 향하여 올라가는 방향으로 문맥 모델의 계층구조에 대한 또다른 레벨이 생성될 수 있다.

도 6은 도 4의 문맥 모델 계층구조를 이용하여 음성을 텍스트로 변환하는 예시적인 방법을 도시한 흐름도(600)이다. 구체적으로, 음성 인식 시스템은 적합한 문맥 모델을 선택하여, 수신된 사용자 구두어에 기초하여 이후에 사용자 구두어를 처리할 수 있다. 컴퓨터 시스템이 불합리한 지연없이 실시간으로 음성을 텍스트로 변환시킬 수 있는 충분한 처리 능력을 갖추었다면, 음성 인식 시스템에 의해 수신된 각 사용자 발음 또는 문장에 대하여 문맥 모델 판단이 수행될 수 있다. 예를 들어, 수신된 사용자 구두어 내의 각 검출가능한 잠시멈춤 이후에, 음성 인식 시스템은 방법(600)을 수행할 수 있다.

대안적으로, 구술 세션의 시작시점에, 음성 세션 전체에 걸쳐서 주기적으로, 또는 판단을 수행하라는 사용자 명령에 응답하여 판단이 수행될 수 있다. 예를 들어, 음성 인식 시스템은 사용자가 선정된 시간동안 구술한 후에 자동적으로, 또는 선정된 임계치밑으로 떨어지는 만족도 점수에 응하여 판단을 수행할 수 있다. 사용자 요청의 경우에, 사용자가 상이한 구술 스타일, 또는 주제(예를 들어, 비즈니스에서의 사적 응답)를 변화할 때 판단이 이루어지도록 사용자가 요청할 수 있다.

방법(600)은 음성 인식 시스템이 텍스트 입력을 수신하는 단계(610)에서 시작한다. 텍스트 입력은 음성 인식 시스템으로부터 도출되거나 기존 문서내의 텍스트가 될 수 있다. 텍스트는 수신된 전자메일 메시지일 수도 있다. 단계(610)의 완료 후에, 방법은 단계(620)로 진행한다. 단계(620)에서, 음성 인식 시스템은 문맥 모델의 계층구조를 이용하여 수신된 텍스트를 처리할 수 있다. 예를 들어, 텍스트는 문맥 모델의 계층구조내에 포함된 문맥 모델들 각각을 이용하여 처리될 수 있다. 가장 높은 만족도 점수를 갖는 텍스트를 산출하는 문맥 모델이 이후의 음성 구두어를 텍스트로 변환시키는데 이용하기 위한 올바른 또는 가장 적합한 문맥 모델로서 식별될 수 있다. 프로세싱은 직렬 또는 병렬로 진행될 수 있다.

예를 들어, 대화기반 시스템에서, 특정 대화 프롬프트에 응답하여 "예" 또는 "아니오" 응답이 사용자로부터 기대될 수 있지만, 사용자는 "예, 그러나 나는 X를 좋아한다"라고 응답할 수도 있다. 이러한 경우에,사용자는 응답과 함께,부가적인 정보를 제공한 것이다. 따라서, 대화기반 시스템은 사용자가 응답한 프롬프트에 대응하는 문맥 모델을 포함할 수 있지만, 사용자 응답은 또다른 시스템 프롬프트에 예측되는 응답에 더 근접하여 닮을 수 있다. 물론, 예측되는 응답은 "예" 또는 "아니오"에 제한되는 것은 아니다. 어쨌든, 음성 인식 시스템으로부터 도출된 텍스트는 문맥 모델의 계층구조로써 처리될 수 있다. 가장 높은 만족도 점수를 갖는 텍스트를 산출하는 문맥 모델이 식별될 수 있다. 사용자 응답은 NLU 시스템에 의해 예측되는 사용자 응답의 유형으로부터 변형되었기 때문에, 식별된 문맥 모델은 사용자가 응답한 특정 대화 프롬프트로부터 사용자 응답을 처리하는 것과 통상 연관되어 있는 문맥 모델과 다를 수 있다. 식별된 문맥 모델은 또한 사용자 구두어를 텍스트로 변환시키기 위해 음성 인식 시스템에 의해 이용된 문맥 모델과도 다를 수 있다.

본 발명의 또다른 실시예에서, 식별가능한 문서 단락에 대응하는 문맥 모델이 식별될 수 있다. 예를 들어, 사용자가 문서를 구술하는 중이고 음성 인식 시스템은 사용자의 커서가 문서의 특정 단락 내에 위치하고 있음을 판단한 경우에, 음성 인식 시스템은 해당 문서 단락에 대응하는 문맥 모델을 식별할 수 있다. 식별된 문맥 모델은, 적어도 초기에는, 사용자의 커서가 대응하는 문서 단락에 위치하는 동안에 이후에 수신된 사용자 구두어를 처리하기 위해 이용될 수 있다. 사용자는 음성 또는 포인터 명령을 통하는 것과 같이 또 다른 방법으로 문서 단락을 음성 인식 시스템에 지정해줄 수 있다. 문맥 모델을 판단하는 다른 방법들도 마찬가지로 통합될 수 있다. 예를 들어, 불만족스러운 만족도 점수에 의거하여, 음성 인식 시스템은 또다른 문맥 모델을 선호하여 상기 식별된 문맥 모델을 이용하는 것을 중단할 수 있다.

음성 인식 시스템은 선정된 최소 임계치보다 높은 만족도 점수로써 텍스트를 산출하는 하나 이상의 문맥 모델들을 식별할 수 있음을 이해하여야 할 것이다. 그러한 경우에, 음성 인식 시스템은 각각의 식별된 문맥 모델을 이용할 수 있으며, 각 모델을 이용한 결과들은 확률 계수를 이용하여 가중치가 더해질 수 있다. 예를 들어, 계수는 최종 텍스트의 만족도 점수에 직접 연관될 수 있다. 대안적으로, 음 성 인식 시스템은 식별된 문맥 모델들간에 보외할 수 있다(extrapolate). 가장 높은 만족도 점수를 갖는 텍스트를 산출하는 문맥 모델이 선택될 수 있다. 단계(620)의 완료 이후에, 방법은 단계(630)로 진행한다.

단계(630)에서, 식별된 문맥 모델은 음성 인식 시스템에서 이후의 사용자 구두어를 처리하는데 이용될 수 있다. 음성 인식 시스템은 문맥 모델 판단이후의 특정 시간량내에서 이후에 발생하는 사용자 구두어는 판단하는데 이용된 텍스트와 유사한 구문 및 어휘를 갖거나 유사한 주제에 관련될 가능성이 많다는 가정에서 처리될 수 있다. 따라서, 주제에 의거하여 문맥 모델을 선택할 뿐만 아니라, 구술 시스템에 관련하여, 상기 방법은 NLU 시스템 내의 대화 상태에 따른 문맥 모델의 계층구조로부터 문맥 모델을 선택할 수 있다.

본 발명의 또다른 실시예는 수신된 전자 메일에 의거하여 문맥 모델을 선택하는 것을 포함한다. 예를 들어, 수신된 전자 메일은 해당 전자 메일에 대응하는 적절한 문맥 모델을 판단하기 위해 처리될 수 있다. 식별된 문맥 모델은 이후의 사용자 구두어를 텍스트로 변화시키는데 이용될 수 있다. 문맥 모델은 사용자가 수신된 전자 메일 메시지에 답변할 수 있는 구술 세션동안 사용자 구두어를 변환시키는데 이용될 수 있다. 따라서, 수신된 전자 메일은 수신된 전자 메일의 주제에 대응하는 문맥 모델을 판단하기 위해 처리될 수 있다. 해당 전자 메일에 대한 사용자의 구술 응답을 처리하기 위해 해당 문맥 모델이 이용될 수 있다. 또한, 음성 인식 시스템은 메시지 주제를 포함하여 수신된 전자 메일 메시지의 상이한 부분들을 처리할 수 있다. 또다른 실시예에서, 합한 문맥 모델을 판단하는데 있어서 부가적인 가중치가 주제에 부여될 수 있다. 단계(630)의 완료 이후에, 방법은 단계(640)로 진행한다.

단계(640)에서, 세그먼트가 완료되면, 방법은 단계(650)로 진행한다. 그렇지 않으면, 방법은 좀더 많은 텍스트를 수집하기 위해 단계(610)로 계속한다. 세그먼트는 문맥 모델 계층구조를 위한 기반으로서의 역할을 수행하는 초기 문맥 모델을 구축하는데 이용된 텍스트 단위에 해당한다. 예를 들어, 세그먼트는 문서, 절, 문장, 문서의 일부, 또는 소정의 대화 프롬프트에 대한 사용자 응답들에 대응할 수 있다. 선정된 량의 텍스트가 수집되면, 세그먼트는 완성된다. 대안적으로, 사용자는 텍스트로 변환될 사용자 구두어의 시작과 끝을 음성 인식 시스템에 통지할 수 있다. 어느 경우이든, 초기 문맥 모델을 구축하기 위해 이용되는 텍스트량이 수집되고 이에 의해 세그먼트를 완성한다.

세그먼트가 완성되면, 단계(650)에서, 방법은 완성된 세그먼트에 대응하는 새로운 문맥 모델을 동적으로 구축할 수 있다. 부가적으로, 방법은 문맥 모델의 계층구조를 동적으로 재구축하기 위해 방법(500)을 실행할 수 있다. 단계(650)의 완료 이후에, 방법은 반복될 수 있다.

Claims

삭제
삭제
삭제
문맥 모델의 계층구조를 생성하는 방법에 있어서, 상기 방법은

(a) 거리 측정법(distance metric)을 이용하여 복수의 문맥 모델들의 각 모델 사이의 거리를 측정하는 단계 - 상기 복수의 문맥 모델들중 적어도 하나는 문서의 일부 또는 대화기반 시스템내의 사용자 응답중 적어도 하나에 대응함-와,

(b) 상기 복수의 문맥 모델들중에서 다른 모델들보다 거리면에서 더 근접하여 있는 2개의 문맥 모델들을 식별하는 단계와,

(c) 상기 식별된 문맥 모델들을 부모 문맥 모델로 병합하는 단계와,

(d) 상기 다수의 문맥 모델들의 계층구조가 생성될 때까지 단계(a), (b) 및 (c)를 반복하는 단계 - 상기 계층구조는 루트 노드를 구비함- 와,

(e) 언어 모델을 형성하기 위해 상기 다수의 문맥 모델들의 상기 계층구조를 통계적으로 평탄화하는 단계

를 포함하는 문맥 모델의 계층 구조 생성 방법.
제4항에 있어서, 상기 병합 단계(c)는 상기 식별된 문맥 모델들간을 보간하는 단계를 더 포함하고, 상기 보간은 상기 식별된 문맥 모델들의 조합으로 귀착되는 문맥 모델의 계층 구조 생성 방법.
제4항에 있어서,상기 병합 단계(c)는 상기 식별된 문맥 모델들에 대응하는 데이터를 이용하여 부모 문맥 모델을 구축하는 단계를 더 포함하는 문맥 모델의 계층 구조 생성 방법.
삭제
삭제
삭제
삭제
제4항에 있어서, 상기 복수의 문맥 모델들중 적어도 하나는 문서의 섹션에 대응하는 문맥 모델의 계층 구조 생성 방법.
제4항에 있어서, 상기 복수의 문맥 모델들중 적어도 하나는 대화 기반 시스템의 특정 대화 상태에 수신된 적어도 하나의 사용자 응답에 대응하는 문맥 모델의 계층 구조 생성 방법.
제4항에 있어서, 상기 복수의 문맥 모델들중 적어도 하나는 대화 기반 시스템내의 특정 트랜잭션에서의 특정 위치에서 수신된 적어도 하나의 사용자 응답에 대응하는 문맥 모델의 계층 구조 생성 방법.
제4항에 있어서, 상기 복수의 문맥 모델들중 적어도 하나는 대화 기반 시스템의 프롬프트 구문(syntax of a prompt)에 대응하는 문맥 모델의 계층 구조 생성 방법.
제4항에 있어서, 상기 복수의 문맥 모델들중 적어도 하나는 특정의 공지된 대화 기반 시스템 프롬프트에 대응하는 문맥 모델의 계층 구조 생성 방법.
제4항에 있어서, 상기 복수의 문맥 모델들중 적어도 하나는 수신된 전자 메일 메시지에 대응하는 문맥 모델의 계층 구조 생성 방법.
제4항 내지 제6항 및 제11항 내지 제16항중 어느 한 항에 따른 문맥 모델의 계층 구조 생성 방법을 수행하기 위한 컴퓨터 프로그램이 기록된 컴퓨터 판독가능한 기록매체.