KR20030014332A

KR20030014332A - 화자-독립형 보이스 인식 시스템용 보이스 템플릿을구성하는 방법 및 장치

Info

Publication number: KR20030014332A
Application number: KR10-2003-7000496A
Authority: KR
Inventors: 비닝
Original assignee: 퀄컴 인코포레이티드
Priority date: 2000-07-13
Filing date: 2001-07-11
Publication date: 2003-02-15
Anticipated expiration: 2021-07-11
Also published as: DE60124551D1; CN1441947A; ES2275700T3; DE60124551T2; WO2002007145A3; ATE345562T1; KR100766761B1; WO2002007145A2; CN1205601C; EP1301919B1; BR0112405A; JP4202124B2; TW514867B; JP2004504641A; HK1056427A1; AU2001273410A1; US6735563B1; EP1301919A2

Abstract

화자-독립형 보이스 인식 시스템에 대하여 보이스 템플릿을 구성하는 장치 및 방법은, 트레이닝 발화를 세그먼트화하여 각각 평균으로 표현되는 시간-클러스터링된 세그먼트를 생성시키는 단계를 포함한다. 각각의 템플릿 벡터는 테스팅 발화와 비교되어 비교 결과를 생성한다. 일반적으로 비교는 동적 시간 워핑 계산이다. 트레이닝 발화는 비교 결과가 하나 이상의 소정 임계값을 초과하는 경우 템플릿 벡터와 매칭되어, 최적의 경로 결과를 생성하고, 트레이닝 발화는 최적의 경로 결과에 따라서 분할된다. 일반적으로 분할은 K-평균 분할 계산이다. 그후, 분할된 발화는 하나 이상의 소정 임계값이 초과되지 않을 때까지 재양자화되고 테스팅 발화와 재비교된다.

Description

화자-독립형 보이스 인식 시스템용 보이스 템플릿을 구성하는 방법 및 장치 {METHOD AND APPARATUS FOR CONSTRUCTING VOICE TEMPLATES FOR A SPEAKER-INDEPENDENT VOICE RECOGNITION SYSTEM}

발명의 배경

발명의 분야

본 발명은 일반적으로 통신 분야에 관한 것으로, 보다 구체적으로는 화자-독립형 보이스 인식 시스템용 보이스 템플릿에 관한 것이다.

배경

보이스 인식 (VR) 은 사용자 또는 사용자의 보이스 명령을 인식하고 인간-기계간 인터페이스를 수용하기 위해서 기계에 모의 지능 (simulated intelligence) 을 구현하는 가장 중요한 기술중의 하나이다. 또한, VR 은 인간의 스피치 이해를 위한 주요 기술을 나타낸다. 음향학적 신호로부터 언어적 메시지를 복구하는 기술들을 사용하는 시스템은 보이스 인식기라고 불리운다. 여기서, 용어 "보이스 인식기" 는 일반적으로 임의의 화자 인터페이스 가능 (spoken-user-interface-enabled) 장치를 의미하기 위해서 사용된다. 일반적으로, 보이스 인식기는 음향 프로세서와 워드 디코더를 구비한다. 음향 프로세서는, 입력되는 원스피치 (raw speech) 의 VR 을 달성하기 위해서 필요한 일련의 정보 포함 특성이나 벡터를 추출한다. 워드 디코더는 일련의 특성이나 벡터를 디코딩하여, 입력발화 (utterance; 發話) 에 대응하는 일련의 언어적 단어 (linguistic word) 와 같이 의미있고 원하는 출력을 생성한다.

음향 프로세서는 보이스 인식기의 전단 스피치 분석 서브시스템을 나타낸다. 입력 스피치 신호에 응답하여, 음향 프로세서는 시변 스피치 신호를 특성화하기 위해서 적절한 표현을 제공한다. 음향 프로세서는 배경잡음, 채널 왜곡, 화자 특성, 및 스피킹 방식 등의 관련없는 정보를 버려야 한다. 효율적인 음향 처리는 보이스 인식기에 향상된 음향 판별력을 제공한다. 이런 목적에서, 분석할 유용한 특성은 단시간 스펙트럼 포락선이다. 단시간 스펙트럼 포락선을 특성화하기 위해 일반적으로 사용되는 2 가지 스펙트럼 분석 기술은 선형 예측 코딩 (LPC) 과 필터-뱅크-기반 스펙트럼 모델링이다. 대표적인 LPC 기술들이 본 발명의 양수인에게 양도되고 여기서 전부 참조하는 미국특허번호 제5,414,796호 및 또한 여기서 전적으로 참조하는 L.B. Rabiner & R.W. Schafer, Digital Processing of Speech Signals 396-453 (1978) 에 설명되어 있다.

VR 의 사용 (일반적으로, 스피치 인식이라고도 불리움) 은 안전상의 이유로 점차 중요해지고 있다. 예를들어, VR 은 무선 전화기 키패드상의 버튼을 누르는 수작업을 대체하는 데 사용될 수 있다. 이는 차량을 운전하는 동안 사용자가 전화 통화를 걸 때 특히 중요하다. VR 이 없는 전화기를 사용할 때, 운전자는 통화를 다이얼하기 위해서 버튼을 누르면서 운전대로부터 한 손을 제거하고 전화기 키패드를 응시해야만 한다. 이런 행동은 차량 사고의 가능성을 증대시킨다. 스피치 가능 전화기 (즉, 스피치 인식용으로 설계된 전화기) 는 운전자가 계속하여 도로를 응시하면서 전화통화를 걸 수 있게 한다. 또한, 추가적으로, 핸즈프리 카키트 시스템은 운전자가 통화를 거는 동안에 운전대에 손을 유지할 수 있게 한다.

스피치 인식 장치는 화자-의존형이나 화자-독립형 장치중의 하나로 분류된다. 보다 일반적인 화자-의존형 장치는, 특정한 사용자들로부터의 명령을 인식하도록 트레이닝된다. 대조적으로, 화자-독립형 장치는 임의의 사용자로부터 음성 명령을 수용할 수 있다. 주어진 VR 시스템의 성능을 증대시키기 위해서는, 화자-의존형 또는 화자-독립형이건 간에, 시스템에 유효 파라미터를 갖추기 위해서 트레이닝이 요구된다. 다시말해, 시스템은 최적으로 기능할 수 있기 전에 학습을 필요로 한다.

화자-의존형 VR 장치는 일반적으로 2 가지 상태, 즉 트레이닝 상태과 인식 상태으로 동작한다. 트레이닝 상태에서, VR 시스템은 사용자가 시스템의 단어집 (vocaburary) 의 단어 각각을 1회 또는 2회 (일반적으로, 2회) 말하도록 하여, 시스템이 이들 특정 단어나 구에 대한 사용자의 스피치 특성을 학습할 수 있게 한다. 핸즈프리 카키트용의 대표적인 단어집은 키패드상에 디지트; 키워드 "통화(call)", "발신(send)", "다이얼(dial)", "취소(cancel)", "제거(clear)", "추가(add)", "삭제(delete)", "히스토리(history)", "프로그램(program)", "예(yes)", 및 "아니오(no)"; 및 일반적으로 통화하는 소정 개수의 동료, 친구 또는 가족의 이름을 포함한다. 일단 트레이닝이 완성되면, 사용자는 VR 장치가 말해진 발화와 이전에 트레이닝된 발화 (템플릿으로서 저장된) 를 비교하고 최선의매칭을 취하여 인식한, 트레이닝된 키워드를 말하여 인식 상태에서 통화를 걸 수 있다. 예를들어, "죤 (John)" 이라는 이름이 트레이닝된 이름중의 하나이면, 사용자는 "통화 죤 (Call John)" 이라는 구를 말하여 죤에게 통화를 걸 수 있다. VR 시스템은 단어 "통화" 와 "죤" 을 인식할 수 있고, 사용자가 이전에 죤의 전화번호로서 입력한 번호를 다이얼링한다.

또한, 화자-독립형 VR 장치는 소정 사이즈의 미리 기록한 단어집을 포함하고 있는 트레이닝 템플릿 (예를들어, 일부 제어 워드, 0 부터 9 까지의 숫자, 및 예와 아니오) 을 사용한다. 다수의 화자 (예를들어, 100명) 가 단어집의 각각의 단어를 말하여 기록되어야 한다.

종래에는, 화자-독립형 VR 템플릿이 제 1 세트의 화자 (일반적으로, 100 명의 화자) 가 말한 단어를 포함하는 테스팅 데이터 베이스를 제 2 세트의 화자 (제 1 세트 만큼의) 가 말한 동일한 단어를 포함하는 트레이닝 데이터 베이스를 비교하여 구성된다. 한명의 사용자가 말한 하나의 단어는 일반적으로 발화 (utterance) 라고 불리운다. 트레이닝 데이터베이스의 각각의 발화는 처음에는 정규화된 후, 테스팅 데이터 베이스의 발화와의 수렴을 위해서 테스트하기 전에 양자화된다 (일반적으로, 공지 기술에 따라서 벡터 양자화됨). 그러나, 시간 정규화기술 (time normalization technique) 은 이전 프레임과 최대의 차이를 갖는 개별 프레임 (발화의 주기적인 세그먼트) 으로부터만 획득한 정보에 의존한다. 주어진 발화에서 보다 많은 정보를 사용하는 화자-독립형 VR 템플릿을 구성하는 방법을 제공하는 것이 유리할 수 있다. 또한, 발화의 유형에 기초하여 화자-독립형 템플릿을 구성하는 종래기술에서 정확성이나 수렴도를 증대시키는 것이 더 바람직할 수 있다. 따라서, 향상된 정확성을 제공하고 발화에서 더 많은 양의 정보를 사용하는 화자-독립형 스피치 인식 템플릿을 구성하는 방법이 요청되고 있다.

발명의 요약

본 발명은 향상된 정확성을 제공하고 발화에서 더 많은 양의 정보를 사용하는 화자-독립형 스피치 인식 템플릿을 구성하는 방법에 관한 것이다. 따라서, 본 발명의 일양태에서는, 화자-독립형 스피치 인식 시스템에 사용하기 위한 스피치 템플릿을 생성하는 방법이 제공된다. 유리하게는, 본 방법은, 제 1 복수의 발화의 각각의 발화를 세그먼트화하여, 각각의 발화에 대하여, 각각 스펙트럼 평균으로 표현되는 복수의 시간-클러스터링된 세그먼트를 생성하는 단계; 제 1 복수의 발화 모두에 대한 상기 복수의 스펙트럼 평균을 양자화하여 복수의 템플릿 벡터를 생성하는 단계; 상기 복수의 템플릿 벡터의 각각 하나씩 제 2 복수의 발화와 비교하여, 하나 이상의 비교결과를 생성하는 단계; 상기 하나 이상의 비교결과가 하나 이상의 소정 임계값을 초과하는 경우, 제 1 복수의 발화를 복수의 템플릿 벡터와 매칭시켜서 최적의 매칭 경로 결과 (optimal matching pass result) 를 생성하는 단계; 상기 최적의 매칭 경로 결과에 따라서 제 1 복수의 발화를 시간적으로 분할하는 단계; 및 상기 하나 이상의 비교결과가 임의의 하나 이상의 소정 임계값을 초과하지 않을 때까지, 양자화, 비교, 매칭, 및 분할을 반복하는 단계를 포함한다.

도 1 은 화자-독립형 보이스 인식용 보이스 템플릿을 구성하고 제공하는 시스템의 블록도이다.

도 2 는 도 1 의 시스템에서 사용할 수 있는 보이스 인식 서브시스템의 블록도이다.

도 3 은 입력 스피치 샘플을 인식하기 위해서, 도 2 의 서브시스템과 같은 보이스 인식 서브 시스템에 의해 수행되는 방법 단계들을 나타내는 플로우 차트이다.

도 4 는 도 1 의 시스템에서 사용할 수 있는 템플릿 구성 서브 시스템의 블록도이다.

도 5 는 도 1 의 시스템에서 사용할 수 있는 템플릿 구성 서브시스템의 블록도이다.

도 6 은, 보이스 템플릿을 구성하기 위해서, 도 4 의 서브 시스템이나 도 5 의 서브시스템과 같은 템플릿 구성 서브 시스템에 의해 수행되는 방법 단계들을 나타내는 플로우차트이다.

바람직한 실시형태의 상세한 설명

일실시형태에 따르면, 도 1 에 나타낸 바와 같이, 화자-독립형 보이스 인식용 보이스 템플릿을 구성하고 제공하는 시스템 (10) 은 화자-독립형 템플릿 구성 서브 시스템 (12) 과 스피치 인식 서브 시스템 (14) 을 구비한다. 화자-독립형 템플릿 구성 서브 시스템 (12) 은 스피치 인식 서브시스템 (14) 에 결합된다.

화자-독립형 보이스 템플릿은 도 4-6 과 관련하여 이하 설명하는 바와 같이 화자-독립형 템플릿 구성 서브 시스템 (12) 으로 구성된다. 템플릿은 도 2-3과 관련하여 이하 설명하는 바와 같이 사용자로부터의 입력 스피치를 인식하는 데 사용하기 위한 스피치 인식 서브 시스템 (14) 에 제공된다.

일실시형태에 따르면, 도 2 에 나타낸 바와 같이, 스피치 인식 서브 시스템 (100) 은 아날로그-디지털 컨버터 (A/D; 102), 전단 음향 프로세서 (104), 특성 추출기 (106), 스피치 템플릿 데이터 베이스 (108), 패턴 비교 로직 (110), 및 판정 로직 (112) 을 구비한다. 특정 실시형태에서, 음향 프로세서 (104) 와 특성 추출기 (106) 는, 하나의 장치, 예를들어 파라미터 추출기로서 제공된다. 일실시형태에서, 음향 프로세서 (104) 는 주파수 분석 모듈 (114) 를 구비한다. 일실시형태에서, 특성 추출기 (106) 은 종단점 검출기 (116), 시간-클러스터링 스피치 세그먼트화 모듈 (118), 및 스피치 레벨 정규화기 (120) 를 구비한다.

A/D (102) 는 주파수 분석 모듈 (114) 에 결합된다. 음향 프로세서 (104) 는 특성 추출기 (106) 에 결합된다. 일실시형태에서, 프레임 추출기 (106) 내에서, 종단점 추출기 (116) 는 진폭 양자화기 (120) 에 결합된 시간-클러스터링 스피치 세그먼트화 모듈 (118) 에 결합된다. 특성 추출기 (106) 는 패턴 비교 로직 (110) 에 결합된다. 패턴 비교 로직 (110) 은 템플릿 데이터 베이스 (108) 와 판정 로직 (112) 에 결합된다.

스피치 인식 서브시스템 (100) 은, 예를들어 무선 전화기나 핸즈프리 카키트에 구비될 수 있다. 사용자 (미도시) 는 단어나 구를 말하여, 스피치 신호를 생성한다. 종래의 트랜스듀서 (미도시) 로, 스피치 신호는 전기 스피치 신호 s(t) 로 변환된다. 스피치 신호 s(t) 는 A/D (102) 에 제공되며, 이 A/D 는 예를들어 펄스 코드 변조 (PCM), A 법칙이나 μ법칙과 같은 공지 샘플링 방식에 따라서, 스피치 신호를 디지털화된 스피치 샘플 s(n) 으로 변환한다.

스피치 샘플 s(n) 은 파라미터 결정을 위해 음향 프로세서 (104) 에 제공된다. 음향 프로세서 (104) 는 입력 스피치 신호 s(t) 의 특성을 모델링하는 파라미터 세트를 생성한다. 파라미터는, 앞에서 언급한 미국특허번호 제5,414,796호와 Lawrence Rabiner & Biing-Hwang Juang, Fundamentals of Speech Recognidtion (1993) 에 설명된, 예를들어 스피치 코더 인코딩, 이산 푸리에 변환 (DFT) 기반 셉스트럼 계수 (예를들어, 고속 푸리에 변환 (FFT) 기반 셉스트럼 계수), 선형 예측 계수 (LPC), Bark 스케일 분석을 포함하는 다수의 알려진 스피치 파라미터 결정 기술중의 임의의 것에 따라서 결정될 수 있다. 유리하게는, 파라미터 세트는 프레임 기반이다 (주기적인 프레임들로 세그먼트화됨). 음향 프로세서 (104) 는 디지털 신호 프로세서 (DSP) 로서 제공될 수 있다. DSP 는 스피치 코더를 구비할 수 있다. 다른 방법으로, 음향 프로세서 (104) 는 스피치 코더로서 제공될 수 있다.

파라미터의 각각의 프레임은 특성 추출기 (106) 에 제공된다. 특성 추출기 (106) 에서, 종단점 검출기 (116) 는 발화 (즉, 단어) 의 종단점을 검출하기 위해서 추출된 파라미터를 이용한다. 일실시형태에서, 종단점 검출은 유리하게는 본 발명의 양수인에게 양도되었으며 여기서 전부 참조하는 발명의 명칭이 METHOD AND APPARATUS FOR ACCURATE ENDPOINTING OF SPEECH IN THE PRESENCE OF NOISE 인 1999년 2월 8일자 출원의 미국출원번호 제09/246,414호에 설명된 기술에 따라서 수행될 수 있다. 이 기술에 따르면, 발화는, 발화의 제 1 시작점과 제 1 종단점을 결정하기 위해서, 예를들어 신호대잡음비 (SNR) 임계값 등의 제 1 임계값과 비교된다. 그후, 제 1 시작점보다 선행하는 발화의 일부분은 발화의 제 2 시작점을 결정하기 위해서 제 2 SNR 임계값과 비교된다. 그후, 제 2 종단점에 후속하는 발화의 일부분은 발화의 제 2 종단점을 결정하기 위해서 제 2 SNR 임계값과 비교된다. 제 1 및 제 2 SNR 임계값은 유리하게는 주기적으로 재계산되고, 제 1 SNR 임계값은 유리하게는 제 2 SNR 임계값을 초과한다.

검출된 발화에 대한 주파수 영역 파라미터의 프레임은, 본 발명의 양수인에게 양도되었으며 여기서 전부 참조하는 발명의 명칭이 "SYSTEM AND METHOD FOR SEGMENTATION AND RECOGNITION OF SPEECH SIGNALS" 인 1999년 1월 4일자 출원의 미국출원번호 제09/225,891호에 설명된 압축 기술을 본 발명의 일실시형태에 따라서 제공하는 시간-클러스터링 스피치 세크먼트화 모듈 (118) 에 제공된다. 이 기술에 따르면, 주파수-영역 파라미터의 각각의 음성 프레임은 스피치 프레임과 연관된 스펙트럼값으로 표현된다. 그후, 스펙트럼 차이값은 인접하는 각각의 프레임쌍에 대하여 결정된다. 스펙트럼 차이값은 그 쌍내의 2개의 프레임과 연관된 스펙트럼 값 사이의 차이를 나타낸다. 초기 클러스터 경계는 인접하는 프레임의 각각의 쌍 사이로 설정되어 파라미터에 클러스터를 생성하고, 편차값 (variance value) 이 각각의 클러스터에 할당된다. 유리하게는, 편차값은 결정된 스펙트럼 차이값중 하나와 동일하다. 그후, 한쌍의 인접하는 클러스터들과각각 연관되는 복수의 클러스터 병합 파라미터 (cluster merge parameter) 가 계산된다. 최소의 클러스터 병합 파라미터가 복수의 클러스터 병합 파라미터로부터 선택된다. 그후, 최소 클러스터 병합 파라미터와 연관된 클러스터 사이의 클러스터 경계를 제거하고 병합된 편차값을 병합된 클러스터에 할당함으로써, 병합된 클러스터가 형성된다. 병합된 편차값은 최소 클러스터 병합 파라미터와 연관된 클러스터에 할당된 편차값을 나타낸다. 유리하게는, 프로세스가 복수의 병합된 클러스터를 형성하기 위해서 프로세스가 반복되고, 세그먼트화된 스피치 신호는 복수의 병합된 클러스터에 따라서 형성될 수 있다.

당업자는, 시간-클러스터링 스피치 세크먼트화 모듈 (118) 이, 예를들어 시간 정규화 모듈 등의 다른 장치에 의해 대체될 수 있음을 이해할 수 있다. 그러나, 당업자는 시간-클러스터링 스피치 세그먼트화 모듈 (118) 이 이전 프레임에 비교하여 최소 차이를 갖는 프레임을 클러스터로 병합하고 개별 프레임 대신에 산술 평균 (mean average) 을 이용하기 때문에, 시간-클러스터링 스피치 세그먼트화 모듈 (118) 이 처리된 발화에서 보다 많은 정보를 이용하는 것도 이해할 수 있다. 또한, 유리하게는, 시간-클러스터링 스피치 세그먼트화 모듈 (118) 이 당해 기술분야에 공지되고 이하 설명하는 동적 시간 워핑 (DTW) 모델을 이용하는 패턴 비교 로직 (110) 과 연동하여 사용될 수 있음을 이해할 수 있다.

클러스터 평균은 스피치 레벨 정규화기 (120) 으로 제공된다. 일실시형태에서, 스피치 레벨 정규화기 (120) 는 각각의 클러스터 평균에 채널당 2 비트 (즉, 주파수당 2 비트) 를 할당하여 스피치 진폭을 양자화한다. 셉스트럼 계수 (cepstrum coefficient) 가 추출되는 다른 실시형태에서, 스피치 레벨 정규화기(120) 는 클러스터 평균을 양자화하는 데 사용될 수 없으며 이는 당업자들에 의해 이해될 수 있다. 스피치 레벨 정규화기 (120) 에 의해 생성된 출력은 특성 추출기 (106) 에 의해 패턴 비교 로직 (110) 에 제공된다.

스피치 인식 서브 시스템 (100) 의 단어집 단어 모두에 대한 템플릿 세트는 템플릿 데이터 베이스 (108) 에 영구적으로 저장된다. 유리하게는, 템플릿 세트는 이하 설명하는 화자-독립형 템플릿 구성 서브스스템으로 구성된 화자-독립형 템플릿 세트이다. 유리하게는, 템플릿 데이터베이스 (108) 는 예를들어 플래쉬 메모리 등의 임의의 종래 형태의 비휘발성 저장 매체로서 제공될 수 있다. 이는, 스피치 인식 서브시스템 (100) 으로의 전력이 턴오프될 때, 템플릿이 템플릿 데이터베이스 (108) 에 남아 있도록 한다.

패턴 비교 로직 (110) 은 특성 추출기 (106) 로부터의 벡터를 템플릿 데이터베이스 (108) 에 저장된 템플릿 모두와 비교한다. 템플릿 데이터 베이스 (108) 에 저장된 템플릿 모두와 벡터들간의 비교 결과나 거리는 판정 로직 (112) 에 제공된다. 판정 로직 (112) 은 텍터들과 가장 근접하게 매칭시키는 템플릿을 템플릿 데이터베이스 (108) 로부터 선택한다. 다른 방법으로, 판정 로직 (112) 는 소정 매칭 임계값내의 N 개의 가장 근접한 매칭을 선택하는 종래의 "N-최적" 선택 알고리즘 ("N-best" selection algorithm) 을 이용할 수 있다. 그후, 사용자는 어떤것을 선택하고자 의도했는 지 질의를 받는다. 판정 로직 (112) 의 출력은 단어집의 어떤 단어가 말해지는 지에 대한 판정이다.

일실시형태에서, 패턴 비교 로직 (110) 과 판정 로직 (112) 은 수렴에 대하여 테스트하기 위해서 DTW 기술을 이용한다. DTW 기술은 당해 기술분야에서 공지되었으며, 여기서 전부 참조하는 Lawrence Rabiner & Biing-Hwang Jauang, Fundamentals of Speech Recognition 200-238 (1993) 에 설명되어 있다. DTW 기술에 따르면, 템플릿 데이터베이스 (108) 에 저장된 각각의 발화에 대한 시간 시퀀스에 대하여 테스트될 발화의 시간 시퀀스를 좌표로 나타내어 트렐리스가 형성된다. 그후, 테스트되는 발화가 점대점으로 (예를들어 매 10ms 마다), 템플릿 데이터 베이스 (108) 의 각각의 발화로, 한번에 하나의 발화씩 비교된다. 템플릿 데이터베이스 (108) 의 각각의 발화에 대하여, 템플릿 데이터베이스 (108) 의 발화와 가장 근접하게 가능한 매칭을 획득할 때까지, 특정한 시점들에 압축되거나 확장되어, 테스트되는 발화가 적시에 조절되거나 "워프(warp)" 된다. 각각의 시점에, 2 개의 발화가 비교되고, 그 시점 (제로 비용) 에 매칭이 선언되거나 비매칭이 선언된다. 특정 시점에서 비매칭의 경우에, 테스트되는 발화는 압축되거나, 확장되거나, 또는 필요한 경우, 비매칭된다. 프로세스는 서로에 대하여 2 개의 발화가 완전히 비교될 때까지 계속된다. 다수의 (일반적으로, 수천의) 서로 다르게 조절된 발화가 가능하다. 최저 비용함수 (cost function) 을 갖는 조절된 발화 (즉, 최소 개수의 압축 및/또는 확장 및/또는 비매칭을 요구하는) 가 선택된다. 비터비 디코딩 알고리즘과 유사한 방식에서, 선택은 유리하게는 최저 총비용을 갖는 경로를 결정하기 위해서 템플릿 데이터 베이스 (108) 의 발화의 각각의 시점을 완전히 파악함으로써 수행된다. 이는 최저 비용 (즉, 가장 근접하게 매칭되는) 조절된 발화가 서로다르게 조절된 모든 가능한 하나의 발화를 생성하는"brute-force" 법에 의존하기 않고 결정되도록 한다. 그후, 템플릿 데이터 베이스 (108) 의 발화 모두에 대한 최저 비용 조절된 발화가 비교되고, 최저 비용을 갖는 하나가 테스트된 발화에 가장 근접하게 매칭되는 저장된 발화로서 선택된다.

유리하게는, 패턴 비교 로직 (110) 과 판정 로직 (112) 는 마이크로프로세서로서 제공될 수 있다. 스피치 인식 서브 시스템 (100) 은 예를들어, ASIC 일 수 있다. 스피치 인식 서브 시스템 (100) 의 인식 정확도는, 스피치 인식 서브시스템 (100) 이 단어집에서 말해진 단어나 구를 얼마나 잘 정확하게 인식하는 지의 측정값이다. 예를들어, 95% 의 인식 정확도는 스피치 인식 서브 시스템 (100) 이 단어집의 단어를 100 번중에 95 번을 정확하게 인식한다는 것을 나타낸다.

일실시형태에 따르면, 스피치 인식 서브 시스템 (미도시) 는 스피치 입력을 스피치 인식 서브시스템으로 인식하기 위해서 도 3 의 플로우 차트에 나타낸 알고리즘 단계들을 수행한다. 단계 200 에서, 입력 스피치는 스피치 인식 서브시스템에 제공된다. 그후, 제어 플로우는 단계 202 로 진행한다. 단계 202 에서는, 발화의 종단점이 검출된다. 특정 실시형태에서, 발화의 종단점은 위에서 언급한 미국출원번호 제09/246,414호에 설명된 기술에 따라서 도 2 와 관련하여 위에서 설명한 바와 같이 검출된다. 그후, 제어 플로우는 단계 204 로 진행한다.

단계 204 에서는 시간-클러스터링 스피치 세그먼트화가 추출된 발화에 수행된다. 특정 실시형태에서는, 사용되는 시간-클러스터링 스피치 세그먼트화 기술은, 위에서 언급한 미국출원번호 제09/225,891호에 설명되고, 도 2 와 관련하여 위에서 설명한 기술이다. 그후, 제어 플로우는 단계 208 로 진행한다. 단계 206 에서, 화자-독립형 템플릿은 단계 204 에서 생성된 스피치 클러스터 평균과 매칭하도록 제공된다. 유리하게는, 화자-독립형 템플릿은 유리하게는 도 4-6 과 관련하여 이하 설명되는 기술에 따라서 구성된다. 그후, 제어 플로우는 단계208 로 진행한다. 단계 208 에서, DTW 매칭은 특정 발화에 대한 클러스터와 모든 화자-독립형 템플릿간에 수행되며, 최근접 매칭 템플릿이 인식된 발화로서 선택된다. 일실시형태에서, DTW 매칭은 Lawrence Rabiner & Biing-Hwang Juang, Fundamentals of Speech Recognition 200-238(1993) 에 설명되고 도 2 와 관련하여 위에서 설명된 기술에 따라서 수행된다. 당업자는, 시간-클러스터링 스피치 세그먼트화가 아닌 방법들이 단계 204 에서 수행될 수 있음을 이해할 수 있다. 예를들어, 이런 방법은 시간 정규화를 포함한다.

일 실시형태에 따르면, 도 4 에 나타낸 바와 같이, 화자-독립형 템플릿 구성 서브 시스템 (300) 은 프로세서 (302) 와 저장 매체 (304) 를 구비한다. 유리하게는, 프로세서 (100) 는 마이크로 프로세서이지만, 임의의 종래 유형의 프로세서, 전용 프로세서, 디지털 신호 프로세서 (DSP), 제어기, 또는 스테이트 머신일 수 있다. 유리하게는, 프로세서 (302) 는 유리하게는 플래쉬 메모리, EEPROM 메모리, RAM 메모리, 펌웨어 명령을 수용하도록 구성된 ROM 메모리, 및 프로세서 (302) 상에서 구동하는 소프트웨어 모듈, 또는 임의의 다른 종래 유형의 메모리로서 제공될 수 있는 저장매체 (304) 에 결합된다. 유리하게는, 화자-독립형 템플릿 구축 서브 시스템 (300) 은 UNIX운영 체제상에서 구동하는 컴퓨터로서 제공될 수 있다. 다른 실시형태에서, 저장 매체 (304) 는 온보드 RAM 메모리(On-board RAM Memory), 또는 프로세서 (302) 일 수 있고, 저장 매체 (304) 는 ASIC 에 구비될 수 있다. 일실시형태에서, 프로세서 (302) 는, 도 6 과 관련하여 이하 설명하는 단계들과 같은 알고리즘 단계들을 수행하기 위하여 저장 매체 (304) 에 의해서 수용된 명령 세트를 실행하도록 구성된다.

또다른 실시형태에 따르면, 도 5 에 나타낸 바와 같이, 화자-독립형 템플릿 구축 서브 시스템 (400) 은 종단점 검출기 (402), 시간-클러스터링 스피치 세그먼트화 로직 (404), 벡터 양자화기 (406), 수렴 테스터 (408; convergence tester), 및 K-평균 스피치 세그먼트화 로직 (410; K-means speech segmentation logic)을 포함한다. 유리하게는, 제어 프로세서 (미도시) 는 화자-독립형 템플릿 구축 서브 시스템 (400) 이 수행하는 반복 회수를 제어하기 위해 이용될 수 있다.

종단점 검출기 (402) 는 시간-클러스터링 스피치 세그먼트화 로직 (404) 에 결합된다. 시간-클러스터링 스피치 세그먼트화 로직 (404) 는 벡터 양자화기 (406) 에 결합된다. 벡터 양자화기 (406) 는 수렴 테스터 (408) 와 K-평균 스피치 세그먼트화 로직 (410) 에 결합된다. 유리하게는, 제어 프로세서는 종단점 검출기 (402), 시간-클러스터링 스피치 세그먼트화 로직 (404), 벡터 양자화기 (406), 수렴 테스터 (408), 및 K-평균 스피치 세그먼트화 로직 (410) 에 제어 버스 (미도시) 를 통해서 결합된다.

트레이닝될 발화의 트레이닝 샘플 S_x(n) 은 종단점 검출기 (402) 에 프레임으로서 제공된다. 유리하게는, 트레이닝 샘플은, 트레이닝할 발화가 저장되는트레이닝 데이터 베이스 (미도시) 로부터 제공된다. 일실시형태에서, 트레이닝 데이터베이스는 총10,000개의 저장된 발화에 대하여 각각 100명의 다른 화자들에 의해 말해진 100단어를 포함한다. 종단점 검출기 (402) 는 발화의 시작점과 종단점을 검출한다. 일실시형태에서, 종단점 검출기 (402) 는 위에서 언급한 미국출원번호 09/246,414호에 설명되고 도 2 와 관련하여 위에서 설명된 기술에 따라서 동작한다.

종단점 검출기 (402) 는 검출한 발화를 시간-클러스터링 스피치 세그먼트화 로직 (404) 에 제공한다. 시간-클러스터링 스피치 세그먼트화 로직 (404) 는 검출한 발화에 압축 알고리즘을 수행한다. 일실시형태에서, 시간-클러스터링 스피치 세그먼트화 로직 (404) 은 위에서 언급한 미국출원번호 제09/225,891호와 도 2 와 관련하여 위에서 설명한 기술에 따라서 동작한다. 일실시형태에서, 시간-클러스터링 스피치 세그먼트화 로직 (404) 은 앞에서 언급한 미국출원번호 09/225,891호와 도 2 와 관련하여 위에서 설명한 기술에 따라서 동작한다.

시간-클러스터링 세그먼트화 로직 (404) 은 주어진 단어에 대한 트레이닝 발화 모두에 대하여 클러스터 평균을 벡터 양자화기 (406) 에 제공한다. 벡터 양자화기 (406) 는 발화에 대한 클러스터 평균을 벡터양자화하고, 그 벡터 양자화된 벡터를 발화에 대한 잠재적인 화자-독립형 (SI) 템플릿으로서 수렴 테스터 (408) 에 제공한다. 유리하게는, 벡터 양자화기 (406) 는 공지된 임의의 다양한 벡터 양자화 (VQ) 기술에 따라서 동작한다. 다양한 VQ 기술이, 예를들어 A. Gersho & R.M. Gray, Vector Quantization and Signal Compression (1992) 에 설명되어 있다. 특정 실시형태에서, 벡터 양자화기 (406) 는 4-클러스터 벡터를 생성한다. 따라서, 예를들어, 각각의 세그먼트는 각각의 세그먼트를 4개의 클러스터로 나타내는 벡터 양자화기 (406) 에 순차적으로 (serially) 제공된다. 각각의 클러스터는 특정 단어에 대하여 모든 화자를 나타내고, 단어마다 다수의 클러스터가 존재한다. 일실시형태에 따르면, 템플릿당 80개 (20개의 세그먼트 곱하기 4개의 클러스터) 의 벡터가 존재한다.

수렴 테스터 (408) 는 잠재적인 SI 템플릿을 테스트된 발화의 테스팅 샘플 S_y(n) 과 비교한다. 테스팅 샘플은 수렴 테스터 (408) 에 프레임으로 제공된다. 유리하게는, 테스팅 샘플은 테스트할 발화가 저장되는 테스팅 데이터 베이스 (미도시) 로부터 제공된다. 유리하게는, 단어는 트레이닝 데이터베이스에 포함된 동일한 단어이지만 100 명의 서로 다른 화자에 의해 말해진다. 일실시형태에서, 테스팅 데이터 베이스는, 총 10,000 개의 저장된 발화에 대하여 각각 100명의 서로다른 화자에 의해 말해진 100 단어를 포함한다. 수렴 테스터 (408) 는 트레이닝될 발화에 대한 잠재적인 SI 템플릿을 테스트할 발화에 대한 샘플에 대하여 비교한다. 일실시형태에서, 수렴 테스터 (408) 는 수렴에 대하여 테스트하기 위해서 DTW 알고리즘을 이용하도록 구성된다. 유리하게는, 이용되는 DTW 알고리즘은 Lawrence Rabiner & Biing-Hwang Juang, Fundamentals of Speech Recognition 200-238(1993), 및 도 2 와 관련하여 위에서 설명한 기술이다.

일실시형태에서, 수렴 테스터 (408) 는 데이터 베이스의 모든 단어에 대한결과의 정확성과 잠재적인 SI 템플릿을 갖는 데이터 베이스의 편차 양쪽을 분석하도록 구성된다. 먼저 편차가 체크된 후, 편차가 소정 임계값 아래로 떨어지는 경우 정확도가 체크된다. 유리하게는 편차는 세그먼트마다 계산된 후, 합산되어 전체적인 편차값을 산출한다. 특정 실시형태에서, 편차는 4개의 클러스터의 최선 매칭에 대한 평균 제곱 오차 (mean square error) 를 계산하여 구한다. 평균 제곱 오차 기술은 당해 기술분야에 공지되어 있다. 수렴 테스트는, 테스팅 데이터 베이스로부터의 발화가 트레이닝 데이터베이스에 의해 생성된 잠재적인 SI 템플릿과 매칭하는 경우(즉, 인식이 데이터베이스 내의 모든 단어에 대하여 정확한 경우) 에 정확한 것으로 정의된다.

또한, 잠재적인 SI 템플릿은 벡터 양자화기 (406) 로부터 K-평균 스피치 세그먼트화 로직 (410) 으로 제공된다. 또한, K-평균 스피치 세그먼트화 로직 (410) 은 유리하게는 프레임들로 분할된 트레이닝 샘플을 수신한다. 수렴 테스터 (408) 가 수렴에 대하여 제 1 테스트를 수행한 후에, 편차나 정확도중의 하나에 대한 결과는 편차나 정확도에 대하여 소정 임계값 아래로 떨어질 수 있다. 일실시형태에 있어서, 편차나 정확도중의 하나에 대한 결과가 편차와 정확도에 대한 소정 임계값 아래로 떨어지는 경우, 또한번의 반복이 수행된다. 따라서, 제어 프로세서는 K-평균 스피치 세그먼트화 로직 (410) 에 트레이닝 샘플에 대한 K-평균 세그먼트화를 수행하도록 하여, 아래서 설명하는 바와 같이 세그먼트화된 스피치 프레임을 생성하게 한다. K-평균 스피치 세그먼트화에 따르면, 트레이닝 샘플은 유리하게는 DTW 기술로, 잠재적인 SI 템플릿과 매칭하여, 도 2 와 관련하여 위에서 설명한 바와 같이 최적 경로를 생성하게 된다. 그후, 트레이닝 샘플은 최적 경로에 따라서 세그먼트화된다. 예를들어, 트레이닝 샘플의 처음 5 개의 샘플은 잠재적인 SI 템플릿의 제 1 프레임과 매칭할 수 있고, 트레이닝 샘플의 다음 3 개의 프레임은 잠재적인 SI 템플릿의 제 2 프레임과 매칭할 수 있고, 트레이닝 샘플의 다음 10 개의 프레임은 잠재적인 SI 템플릿의 제 3 프레임과 매칭할 수 있다. 이 경우, 트레이닝 샘플의 처음 5 개의 프레임은 하나의 프레임으로 세그먼트화될 수 있고, 다음 3 개의 프레임은 제 2 프레임으로 세그먼트화될 수 있고, 다음 10 개의 프레임은 제 3 프레임으로 세그먼트화될 수 있다. 일실시형태에서, K-평균 스피치 세그먼트화 로직 (410) 은 여기서 전부 참조하는 Lawrence Rabiner & Biing-Hwang Juang, Fundamentals of Speech Recognition 382-384 (1993) 에 설명된 대표적인 K-평균 세그먼트화 기술에 따라서 K-평균 세그먼트화를 수행한다. 그후, K-평균 스피치 세그먼트화 로직 (410) 은 클러스터 평균의 갱신된 프레임을 벡터 양자화기 (406) 로 제공하고, 이 벡터 양자화기는 클러스터 평균을 벡터 양자화하고, 다른 수렴 테스트를 수행하기 위해서 그 벡터 양자화된 벡터 (새로운 잠재적인 SI 템플릿을 포함함) 를 수렴 테스터 (408) 에 제공한다. 당업자는, 소정 임계값보다 높은 편차와 정확도 결과를 달성하기 위해 필요하다면 이 반복 프로세스가 계속되어야 함을 이해할 수 있을 것이다.

일단 수렴 테스트가 통과되면, 잠재적인 (이제, 최종) SI 템플릿은 유리하게는 도 2 의 보이스 인식 서브 시스템과 같은 보이스 인식 서브시스템에 사용될 수 있다. 최종 SI 템플릿은 도 2 읜 템플릿 데이터베이스 (108) 에 저장되거나,도 3 의 플로우차트의 단계 206 에서 사용될 수 있다.

일실시형태에서, 화자-독립형 템플릿 구성 서브 시브템 (미도시) 는 도 6 의 플로우차트에 나타낸 방법 단계들을 수행하여 발화에 대한 화자-독립형 템플릿을 구성할 수 있다. 유리하게는, 단계 500 에서 발화의 트레이닝 샘플은 트레이닝 데이터베이스 (미도시) 로부터 획득된다. 유리하게는, 트레이닝 데이터베이스는 각각 다수의 화자 (예를들어, 단어당 100명의 화자) 에 의해 말해진 다수의 단어 (예를들어, 100단어) 를 포함할 수 있다. 그후, 제어 플로우는 단계 502 로 진행한다.

단계 502 에서, 종단점 검출이 발화를 검출할 트레이닝 샘플상에 수행된다. 일실시형태에서, 종단점 검출은 위에서 언급한 미국출원번호 제09/246,414호, 및 도 2 와 관련하여 위에서 설명된 기술에 따라서 수행된다. 그후, 제어 플로우는 단계 504 로 진행한다.

단계 504 에서, 시간-클러스터링 스피치 세그먼트화가 수행되어, 발화를 각각 평균으로 표현되는 다중 세그먼트로 압축한다. 특정 실시형태에서, 발화는 각각 클러스터 평균을 포함하는 20개의 세그먼트로 압축된다. 일실시형태에서, 시간-클러스터링 스피치 세그먼트화는 위에서 언급한 미국출원번호 09/225,891호, 및 도 2 와 관련하여 위에서 설명된 기술에 따라서 수행된다. 그후, 제어 플로우는 단계 506 으로 진행한다.

단계 506 에서, 동일한 단어의 모든 화자에 대한 샘플을 트레이닝하는 클러스터 평균은 벡터 양자화된다. 특정 실시형태에서, 클러스터 평균은 A. Gersho& R.M. Gray, Vector Quantization and Signal Comprssion(1992) 에 설명된 다양한 임의의 공지 VQ 기술에 따라서 벡터 양자화된다. 특정 실시형태에서는, 4-클러스터 벡터가 생성된다. 따라서, 예를들어, 각각의 세그먼트는 4개의 클러스터로서 표현된다. 각각의 클러스터는 특정 단어에 대하여 모든 화자를 나타내며, 단어당 다수의 클러스터가 존재한다. 일실시형태에 따르면, 80개의 벡터 (20개의 세그먼트 곱하기 4개의 클러스터) 가 템플릿마다 생성된다. 그후, 제어 플로우는 단계 510 으로 진행한다.

단계 508 에서, 테스팅 샘플은 수렴에 대하여 테스트하기 위해서 테스팅 데이터 베이스 (미도시) 로부터 획득된다. 유리하게는, 테스팅 데이터베이스는 각각 다수의 화자 (예를들어, 발화당 100명의 화자) 에 의해 말해지는, 트레이닝 데이터 베이스에 포함된 동일한 단어를 포함한다. 그후, 제어 플로우는 단계 510 으로 진행한다.

단계 510 에서, 양자화된 벡터는 잠재적인 SI 템플릿으로서 수렴에 대하여 테스트할 테스팅 샘플과 비교된다. 일실시형태에서, 수렴 테스트는 DTW 알고리즘이다. 유리하게는, 사용되는 DTW 알고리즘은 Lawrence Rabiner & Biing-Hwang Juang, Fundamentals of Speech Recognition 200-238 (1993), 및 도 2 와 관련하여 위에서 설명한 기술일 수 있다.

일실시형태에서, 단계 510 의 수렴 테스트는 데이터 베이스내의 모든 단어에 대한 결과의 정확도와 잠재적인 SI 템플릿을 갖는 데이터베이스의 편차 양쪽을 분석한다. 먼저 편차가 체크되고, 편차가 소정 임계값 아래로 떨어지는 경우, 정확도가 체크된다. 유리하게는, 편차가 세그먼트마다 계산된 후, 합산되어 전체 편차값을 산출한다. 특정 실시형태에서, 편차는 4개의 클러스터의 최선의 매칭에 대한 평균 제곱 오차를 계산하여 획득된다. 평균 제곱 오차 기술은 당해 기술분야에서 공지되어 있다. 수렴 테스트는 테스팅 데이터베이스에 의해 생성된 잠재적인 SI 템플릿이 트레이닝 데이터 베이스로부터의 발화와 매칭하는 경우 (즉, 인식이 데이터 베이스의 모든 단어에 대하여 정확한 경우), 정확하다고 정의된다. 그후, 제어 플로우는 단계 512 로 진행한다.

단계 512 에서 편차나 정확도중 하나에 대한 단계 510 의 수렴 테스트의 결과가 편차와 정확도에 대한 소정 임계값 아래로 떨어지는 경우, 또다른 반복이 수행된다. 따라서, K-평균 스피치 세그먼트화가 트레이닝 샘플에 수행된다. K-평균 스피치 세그먼트화는, 유리하게는 DTW 기술로, 트레이닝 샘플을 잠재적인 SI 템플릿과 매칭시켜서, 도 2 와 관련하여 위에서 설명한 최적 경로를 생성한다. 그후, 트레이닝 샘플은 최적경로에 따라서 세그먼트화된다. 일실시형태에서, K-평균 스피치 세그먼트화는 Lawrence Rabiner & Biing-Hwang Juang, Fundamentals of Speech Recognition 382-384(1993) 에 설명된 기술에 따라서 수행된다. 그후, 제어 플로우는 단계 506 으로 복귀하여, 클러스터 평균의 갱신된 프레임이 벡터 양자화되고, 단계 510 에서, 테스팅 데이터베이스로부터 샘플과의 수렴에 대하여 테스트된다 (새로운 잠재적인 SI 템플릿으로서). 당업자는 소정 임계값보다 높은 편차와 정확도 결과를 달성하는 것이 필요하다면 이 반복 프로세스가 계속될 수 있음을 이해할 수 있다.

일단 수렴 테스트가 통과되면 (즉, 임계값이 달성되면), 잠재적인 (이제, 최종) SI 템플릿이 유리하게는 도 2 의 보이스 인식 서브시스템과 같은 보이스 인식 서브 시스템에서 사용될 수 있다. 최종 SI 템플릿은 도 2 의 템플릿 데이터 베이스 (108) 에 저장되거나 도 3 의 플로우차트의 단계 206 에서 사용될 수 있다.

따라서, 화자-독립형 보이스 인식 시스템에 대한 보이스 템플릿을 구성하는 신규하고 개선된 방법 및 장치가 설명되었다. 당업자는 앞의 설명 전반에 걸처서 언급될 수 있는 데이터, 명령, 정보, 신호, 비트, 심볼 및 칩을 유리하게는 전압, 전류, 전자기파, 자기장이나 자기입자, 광학장이나 광입자, 또는 그들의 조합으로 나타낼 수 있음을 이해할 수 있다. 또한, 당업자는 여기 개시한 실시형태들과 관련하여 설명한 다양한 예시적인 논리 블록, 모듈, 회로 및 알고리즘 단계들이 전자 하드웨어, 컴퓨터 소프트웨어, 또는 양자의 조합으로서 제공될 수 있음을 이해할 수 있다. 다양한 예시적인 부품, 블록, 모듈, 회로 및 단계들은 일반적으로 그들의 기능의 관점에서 설명되었다. 기능이 하드웨어 또는 소프트웨어로 제공되는 지 여부는 전체 시스템에 부여된 특정 응용 및 디자인 제한에 의존한다. 당업자는 이런 환경에서 하드웨어와 소프트웨어의 상호 교환성과 각각의 특정 응용에 대하여 설명한 기능을 어떻게 최선으로 제공할지를 인식한다. 예로서, 여기 개시한 실시형태들과 관련하여 설명한 다양한 예시적인 논리 블록, 모듈, 회로 및 알고리즘 단계들이 디지털 신호 프로세서 (DSP), 주문형 집적회로 (ASIC), 필드 프로그램가능 게이트 어레이 (FPGA) 나 다른 논리 장치, 이산 게이트나 트랜지스터 로직, 예를들어, 레지스터와 FIFO 와 같은 이산 하드웨어 부품, 펌웨어 명령 세트를 실행하는 프로세서, 임의의 종래 프로그램가능 소프트웨어 모듈과 프로세서, 및 여기 설명한 기능들을 수행하도록 설계한 그들의 조합으로 제공되거나 수행될 수 있다. 유리하게는, 프로세서는 마이크로 프로세서일 수 있으나, 다른 방법으로는, 프로세서가 임의의 종래 프로세서, 컨트롤러, 마이크로컨트롤러, 또는 스테이트 머신일 수 있다. 소프트웨어 모듈은 RAM 메모리, 플래쉬 메모리, ROM 메모리, EPROM 메모리, EEPROM 메모리, 레지스터, 하드 디스크, 분리형 디스크, CD-ROM, 및 당해 기술분야에 알려진 임의의 다른 형태의 저장 매체에 구비될 수 있다. 유리하게는, 대표적인 프로세서는 저장 매체에 결합되어, 정보를 저장 매체로부터 판독하고 정보를 저장매체에 기록한다. 다른 방법으로, 저장 매체는 프로세서에 통합될 수 있다. 프로세서와 저장 매체는 ASIC 에 구비될 수 있다. ASIC 는 전화기에 구비될 수 있다. 다른 방법으로, 프로세서와 저장 매체는 전화기에 구비될 수 있다. 프로세서는 DSP 와 마이크로 프로세서의 조합으로서, 또는 DSP 코어 등과 결합하여 2 개의 마이크로 프로세서로서 제공될 수 있다.

이상, 본 발명의 바람직한 실시형태들을 나타내고 설명하였다. 그러나, 본 발명의 정신과 범위를 벗어나지 않고서 다수의 변경이 여기 개시한 실시형태들에 행해질 수 있음은 당업자에게는 명백하다. 따라서, 본 발명은 후속하는 청구항에 따른 것을 제외하여 제한되지 않는다.

Claims

화자-독립형 스피치 인식 시스템에서 사용하기 위한 스피치 템플릿을 생성하는 방법으로서,

제 1 복수의 발화중 각각의 발화를 세그먼트화하여, 각각의 발화에 대하여, 각각 스펙트럼 평균으로 표현되는 복수의 시간-클러스터링된 세그먼트를 생성하는 단계;

제 1 복수의 발화 모두에 대한 상기 복수의 스펙트럼 평균을 양자화하여 복수의 템플릿 벡터를 생성하는 단계;

상기 복수의 템플릿 벡터들중 각각 하나씩 제 2 복수의 발화와 비교하여, 하나 이상의 비교결과를 생성하는 단계;

상기 하나 이상의 비교결과가 하나 이상의 소정 임계값을 초과하는 경우, 제 1 복수의 발화를 복수의 템플릿 벡터와 매칭시켜서, 최적의 매칭 경로 결과를 생성하는 단계;

상기 최적의 매칭 경로 결과에 따라서 제 1 복수의 발화를 시간적으로 분할하는 단계; 및

상기 하나 이상의 비교결과가 임의의 하나 이상의 소정 임계값을 초과하지 않을 때까지 양자화, 비교, 매칭, 및 분할을 반복하는 단계를 포함하는 것을 특징으로 하는 스피치 템플릿의 생성 방법.
제 1 항에 있어서,

상기 비교는 편차 측정치를 계산하는 단계를 포함하는 것을 특징으로 하는 스피치 템플릿의 생성 방법.
제 1 항에 있어서,

상기 비교는 정확도 측정치를 계산하는 단계를 포함하는 것을 특징으로 하는 스피치 템플릿의 생성 방법.
제 1 항에 있어서,

상기 비교는, 먼저 편차 측정치를 계산하고, 다음으로 그 편차 측정치가 제 1 소정 임계값을 초과하지 않는 경우 정확도 측정치를 계산하는 단계를 포함하는 것을 특징으로 하는 스피치 템플릿의 생성 방법.
제 4 항에 있어서,

상기 매칭은, 편차 측정치가 제 1 소정 임계값을 초과하거나 정확도 측정치가 제 2 소정 임계값을 초과하는 경우, 제 1 발화를 복수의 템플릿 벡터와 매칭시키는 단계를 포함하는 것을 특징으로 하는 스피치 템플릿의 생성 방법.
제 1 항에 있어서,

상기 비교는 동적 시간 워핑 계산 (dynamic time warping computation) 을수행하는 단계를 포함하는 것을 특징으로 하는 스피치 템플릿의 생성 방법.
제 1 항에 있어서,

상기 매칭은 동적 시간 워핑 계산을 수행하는 단계를 포함하는 것을 특징으로 하는 스피치 템플릿의 생성 방법.
제 1 항에 있어서,

상기 매칭과 분할은 K-평균 세그먼트화 계산을 수행하는 단계를 포함하는 것을 특징으로 하는 스피치 템플릿의 생성 방법.
제 1 항에 있어서,

제 1 발화의 종단점을 검출하는 단계를 더 포함하는 것을 특징으로 하는 스피치 템플릿의 생성 방법.
화자-독립형 스피치 인식 시스템에서 사용하기 위한 스피치 템플릿을 생성하도록 구성된 장치로서,

제 1 복수의 발화의 각각의 발화를 세그먼트화하여, 각각의 발화에 대하여, 각각 스펙트럼 평균으로 표현되는 복수의 시간-클러스터링된 세그먼트를 생성하는 수단;

제 1 복수의 발화 모두에 대한 상기 복수의 스펙트럼 평균을 양자화하여 복수의 템플릿 벡터를 생성하는 수단;

상기 복수의 템플릿 벡터들중 각각 하나씩 제 2 복수의 발화와 비교하여, 하나 이상의 비교 결과를 생성하는 수단;

상기 하나 이상의 비교결과가 하나 이상의 소정 임계값을 초과하는 경우, 제 1 복수의 발화를 복수의 템플릿 벡터와 매칭시켜서 최적의 매칭 경로 결과를 생성하는 수단;

상기 최적의 매칭 경로 결과에 따라서 제 1 복수의 발화를 시간적으로 분할하는 수단; 및

상기 하나 이상의 비교결과가 임의의 하나 이상의 소정 임계값을 초과하지 않을 때까지 양자화, 비교, 매칭, 분할을 반복하는 수단을 구비하는 것을 특징으로 하는 스피치 템플릿의 생성 장치.
화자-독립형 스피치 인식 시스템에서 사용하기 위한 스피치 템플릿을 생성하도록 구성된 장치로서,

제 1 복수의 발화중 각각의 발화를 세그먼트화하여, 각각의 발화에 대하여, 각각 스펙트럼 평균으로 표현되는 복수의 시간-클러스터링된 세그먼트를 생성하도록 구성된 세그먼트화 로직;

상기 세그먼트화 로직에 결합되고, 제 1 복수의 발화 모두에 대하여 상기 복수의 스펙트럼 평균을 양자화하여 복수의 템플릿 벡터를 생성하도록 구성된 양자화기;

상기 양자화기에 결합되고, 상기 복수의 템플릿 벡터들중 각각 하나씩 제 2 복수의 발화와 비교하여 하나 이상의 비교 결과를 생성하도록 구성된 수렴 테스터; 및

상기 양자화기와 상기 수렴 테스터에 결합되며, 하나 이상의 비교결과가 하나 이상의 소정 임계값을 초과하는 경우 제 1 복수의 발화를 복수의 템플릿 임계값과 매칭시켜서 최적의 매칭 경로 결과를 생성하고, 그 최적의 매칭 경로 결과에 따라서 제 1 복수의 발화를 시간적으로 분할하도록 구성된 분할 로직을 구비하되,

상기 양자화기, 상기 수렴 테스터, 및 상기 분할 로직은, 하나 이상의 비교결과가 임의의 하나 이상의 소정 임계값을 초과하지 않을 때까지, 양자화, 비교, 매칭 및 분할을 반복하도록 더 구성되는 것을 특징으로 하는 스피치 템플릿의 생성 장치.
제 11 항에 있어서,

상기 하나 이상의 비교 결과는 편차 측정치인 것을 특징으로 하는 스피치 템플릿의 생성 장치.
제 11 항에 있어서,

상기 하나 이상의 비교 결과는 정확도 측정치인 것을 특징으로 하는 스피치 템플릿의 생성 장치.
제 11 항에 있어서,

상기 하나 이상의 비교결과는 편차 측정치와 정확도 측정치이며, 상기 수렴 테스터가 먼저 편차 측정치를 계산하고, 다음으로, 그 편차 측정치가 제 1 소정 임계값을 초과하지 않는 경우 상기 정확도 측정치를 계산하도록 구성되는 것을 특징으로 하는 스피치 템플릿의 생성 장치.
제 14 항에 있어서,

상기 매칭은 편차 측정치가 제 1 소정 임계값을 초과하거나 정확도 측정치가 제 2 소정 임계값을 초과하는 경우, 제 1 발화를 복수의 템플릿 벡터와 매칭시키는 단계를 포함하는 것을 특징으로 하는 스피치 템플릿의 생성 장치.
제 11 항에 있어서,

상기 수렴 테스터는 동적 시간 워핑 계산을 수행하도록 구성되는 것을 특징으로 하는 스피치 템플릿의 생성 장치.
제 11 항에 있어서,

상기 분할 로직은 동적 시간 워핑 계산을 수행하도록 구성되는 것을 특징으로 하는 스피치 템플릿의 생성 장치.
제 11 항에 있어서,

상기 분할 로직은 K-평균 스피치 세그먼트화 로직을 구비하는 것을 특징으로 하는 스피치 템플릿의 생성 장치.
제 11 항에 있어서,

세그먼트화 로직에 결합되어, 제 1 발화의 종단점을 검출하도록 구성된 종단점 검출기를 더 구비하는 것을 특징으로 하는 스피치 템플릿의 생성 장치.
화자-독립형 스피치 인식 시스템에서 사용하기 위한 스피치 템플릿을 생성하도록 구성된 장치로서,

프로세서; 및

프로세서에 결합되며, 제 1 복수의 발화의 각각의 발화를 세그먼트화하여, 각각의 발화에 대하여, 각각 평균으로 표현되는 복수의 시간-클러스터링된 세그먼트를 생성하고, 제 1 복수의 발화 모두에 대한 상기 복수의 스펙트럼 평균을 양자화하여 복수의 템플릿 벡터를 생성하고, 상기 복수의 템플릿 벡터들중 각각 하나씩 제 2 복수의 발화와 비교하여, 하나 이상의 비교결과를 생성하고, 상기 하나 이상의 비교 결과가 하나 이상의 소정 임계값을 초과하는 경우, 제 1 복수의 발화를 복수의 템플릿 벡터와 매칭시켜서 최적의 매칭 경로 결과를 생성하고, 상기 최적의 매칭 경로 결과에 따라서 제 1 복수의 발화를 시간적으로 분할하고, 상기 하나 이상의 비교 결과가 임의의 하나 이상의 소정 임계값을 초과하지 않을 때까지 양자화, 비교, 매칭, 및 분할을 반복하도록 프로세서에 의해 실행가능한 명령 세트를포함하는 저장 매체를 구비하는 것을 특징으로 하는 스피치 템플릿의 생성 장치.
제 20 항에 있어서,

상기 하나 이상의 비교 결과는 편차 측정치인 것을 특징으로 하는 스피치 템플릿의 생성 장치.
제 20 항에 있어서,

상기 하나 이상의 비교 결과는 정확도 측정치인 것을 특징으로 하는 스피치 템플릿의 생성 장치.
제 20 항에 있어서,

상기 하나 이상의 비교 결과는 편차 측정치와 정확도 측정치이고,

상기 명령 세트는, 먼저 편차 측정치를 계산하고, 다음으로 그 편차 측정치가 제 1 소정 임계값을 초과하지 않는 경우 정확도 측정치를 계산하도록 프로세서에 의해 실행가능한 것을 특징으로 하는 스피치 템플릿의 생성 장치.
제 23 항에 있어서,

상기 명령 세트는 편차 측정치가 제 1 소정 임계값을 초과하거나 정확도 측정치가 제 2 소정 임계값을 초과하는 경우에 발화를 복수의 템플릿 벡터와 매칭시키도록 프로세서에 의해 더 실행가능한 것을 특징으로 스피치 템플릿의 생성 장치.
제 20 항에 있어서,

상기 명령 세트는, 동적 시간 워핑 계산을 수행하여 복수의 템플릿 벡터중 각각의 하나를 복수의 발화와 비교하도록 프로세서에 의해 실행가능한 것을 특징으로 하는 스피치 템플릿의 생성 장치.
제 20 항에 있어서,

상기 명령 세트는 동적 시간 워핑 계산을 수행하여 제 1 발화를 복수의 템플릿 벡터와 매칭시키도록 프로세서에 의해 실행가능한 것을 특징으로 하는 스피치 템플릿의 생성 장치.
제 20 항에 있어서,

상기 명령 세트는 K-평균 스피치 세그먼트화 계산을 수행하여 제 1 발화를 분할하도록 프로세서에 의해 실행가능한 것을 특징으로 하는 스피치 템플릿의 생성 장치.
제 20 항에 있어서,

상기 명령 세트는 제 1 발화의 종단점을 검출하도록 프로세서에 의해 더 실행가능한 것을 특징으로 하는 스피치 템플릿의 생성 장치.
제 1 복수의 발화의 각각의 발화를 세그먼트화하여, 각각의 발화에 대하여, 각각 스펙트럼 평균으로 표현되는 복수의 시간-클러스터링된 세그먼트를 생성하고;

제 1 복수의 발화 모두에 대해 상기 복수의 스펙트럼 평균을 양자화하여 복수의 템플릿 벡터를 생성하고;

상기 복수의 템플릿 벡터들중 각각 하나씩 제 2 복수의 발화와 비교하여, 하나 이상의 비교 결과를 생성하고;

상기 하나 이상의 비교 결과가 하나 이상의 소정 임계값을 초과하는 경우, 제 1 복수의 발화를 복수의 템플릿 벡터와 매칭시켜서, 최적의 매칭 경로 결과를 생성하고;

상기 최적 매칭 경로 결과에 따라서 제 1 복수의 발화를 시간적으로 분할하고;

상기 하나 이상의 비교 결과가 임의의 하나 이상의 소정 임계값을 초과하지 않을 때까지 양자화, 비교, 매칭, 및 분할을 반복하도록, 프로세서에 의해 실행가능한 명령 세트를 포함하는 것을 특징으로 하는 프로세서 판독가능 매체.