[go: up one dir, main page]

KR100307623B1 - 엠.에이.피 화자 적응 조건에서 파라미터의 분별적 추정 방법 및 장치 및 이를 각각 포함한 음성 인식 방법 및 장치 - Google Patents

엠.에이.피 화자 적응 조건에서 파라미터의 분별적 추정 방법 및 장치 및 이를 각각 포함한 음성 인식 방법 및 장치 Download PDF

Info

Publication number
KR100307623B1
KR100307623B1 KR1019990045856A KR19990045856A KR100307623B1 KR 100307623 B1 KR100307623 B1 KR 100307623B1 KR 1019990045856 A KR1019990045856 A KR 1019990045856A KR 19990045856 A KR19990045856 A KR 19990045856A KR 100307623 B1 KR100307623 B1 KR 100307623B1
Authority
KR
South Korea
Prior art keywords
speaker
parameters
learning
parameter
adaptation
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Expired - Fee Related
Application number
KR1019990045856A
Other languages
English (en)
Other versions
KR20010038049A (ko
Inventor
최인정
김상룡
Original Assignee
윤종용
삼성전자 주식회사
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by 윤종용, 삼성전자 주식회사 filed Critical 윤종용
Priority to KR1019990045856A priority Critical patent/KR100307623B1/ko
Publication of KR20010038049A publication Critical patent/KR20010038049A/ko
Application granted granted Critical
Publication of KR100307623B1 publication Critical patent/KR100307623B1/ko
Priority to US10/898,382 priority patent/US7324941B2/en
Anticipated expiration legal-status Critical
Expired - Fee Related legal-status Critical Current

Links

Classifications

    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L15/00Speech recognition
    • G10L15/06Creation of reference templates; Training of speech recognition systems, e.g. adaptation to the characteristics of the speaker's voice
    • G10L15/065Adaptation
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L15/00Speech recognition
    • G10L15/06Creation of reference templates; Training of speech recognition systems, e.g. adaptation to the characteristics of the speaker's voice
    • G10L15/065Adaptation
    • G10L15/07Adaptation to the speaker

Landscapes

  • Engineering & Computer Science (AREA)
  • Artificial Intelligence (AREA)
  • Computational Linguistics (AREA)
  • Health & Medical Sciences (AREA)
  • Audiology, Speech & Language Pathology (AREA)
  • Human Computer Interaction (AREA)
  • Physics & Mathematics (AREA)
  • Acoustics & Sound (AREA)
  • Multimedia (AREA)
  • Machine Translation (AREA)
  • Filters That Use Time-Delay Elements (AREA)

Abstract

본 발명은 엠.에이.피 화자 적응 조건에서 파라미터의 분별적 추정 방법 및 장치 및 이를 포함한 음성 인식 방법 및 장치를 개시한다. 학습 데이터베이스로 부터 복수의 화자에 대한 학습 데이터를 가져와 모델 학습을 수행한 결과 화자의 음성을 인식하는데 기준이 되는 적어도 화자 독립 모델 파라미터 및 이전 밀도 파라미터를 얻는 본 발명에 의한 일괄처리 형태의 MAP 화자 적응 조건에서의 파라미터의 분별적 추정 방법은, (a) 각 화자에 대한 학습 데이타에서 적응 데이타를 분류하는 단계, (b) 파라미터들의 초기값들을 이용하여 각 화자에 대한 적응 데이타로 부터 적응된 화자 독립 모델 파라미터를 구하는 단계, (c) 적응된 화자 독립 모델 파라미터를 이용하여 학습 데이타의 각 학습 문장에 대한 복수개의 후보 문장을 탐색하고, 각 후보 문장에 대한 오류 정도를 측정하여 적응된 화자 독립 모델 파라미터에 대한 미분치를 계산하는 단계 및 (d) 모든 화자의 학습 데이타에 대해 수행하였으면, 계산된 미분치에 근거하여 초기에 설정된 파라미터들을 조정하는 단계를 구비한다.

Description

엠.에이.피 화자 적응 조건에서 파라미터의 분별적 추정 방법 및 장치 및 이를 각각 포함한 음성 인식 방법 및 장치{Method and apparatus for discriminative estimation of parameters in MAP speaker adaptation condition and voice recognition method and apparatus including these}
본 발명은 음성 인식에 관한 것으로, 특히 MAP 화자 적응 조건에서 파라미터의 분별적 추정 방법, 장치 및 이를 구비한 음성 인식 장치 및 방법에 관한 것이다.
최대 사후(MAP:Maximum A Posteriori) 화자 적응법에서 새로운 화자의 음성에 맞게 모델을 변환하기 위해서는 모델 파라미터의 중심점과 그 파라미터의 변동 특성을 특징지우는 이전(prior) 밀도 파라미터가 정확히 추정되어야 한다. 특히, 비감독 증분처리(incremental) 형태의 MAP 화자 적응 방식은 초기 이전 밀도 파라미터가 잘못 추정되면, 적응 문장이 적은 초기에 화자 적응 기능이 없는 경우보다 오히려 성능이 떨어질 위험이 높다.
종래의 MAP 화자 적응법은 모멘트(moment) 방법이나 경험적 베이스(Bayes) 방법을 이용하여 이전 밀도 파라미터를 추정하였다. 이 방법들은 화자별로 모델 파라미터들이 어떻게 변화하는지를 통계적으로 특성화한다. 그러나, 이 방법들을 이용하여 신뢰성있는 이전 밀도 파라미터를 추정하기 위해서는 많은 화자들에 대한 학습 데이터가 요구되며, 또한 각 화자마다 모델별 충분한 데이터가 있어야만 가능하다. 또한, 비감독 증분처리 형태의 화자적응에서는 인식된 결과를 이용하여 모델을 변환하므로, 인식된 결과에 대한 검증 단계가 없으면 오인식된 결과에 의해잘못된 방향으로 모델이 적응될 수 있다.
MAP 화자 적응법에서는 세 가지의 중요한 문제가 있다. 즉, 이전 분포 특성을 정의하는 문제, 관측되지 않은 모델들에 대한 파라미터 추정 문제 및 이전 밀도 파라미터의 추정 문제이다. 어떠한 이전 밀도 함수를 사용할 것인지, 그리고 그 밀도 함수의 파라미터를 어떻게 추정할 것인지에 대한 문제는 여러 문헌에서 발표되어 왔다. 관측되지 않은 모델들의 파라미터를 추정하는 문제에 대해서는 여러 논문에서 그 해결 방법들이 발표되어 왔으며, 이산분포 히든 마코브 모델(HMM:Hidden Markov Model)의 모델 파라미터를 적응시킨 발명이 특허로 등록되어 있다(US5046099).
분별적 학습 방법은 음성 인식 분야에서 모델 학습에 처음 적용되었으며(US5606644, US5806029), 이후에 발성(utterance) 검증 분야에도 적용되었다(US5675506, US5737489).
본 발명이 이루고자 하는 기술적 과제는, 최소분류오류 학습법에 근거하여 학습 데이터에 대한 분류 오류가 최소화되는 방향으로 초기 모델 및 이전 밀도 파라미터를 조정함으로써 신뢰성있는 모델 및 이전 밀도 파라미터를 제공하는, MAP 화자 적응 조건에서 파라미터의 분별적 추정 방법 및 장치를 제공하는데 있다.
본 발명이 이루고자 하는 다른 기술적 과제는, 음성 인식 결과를 검증하여 얻은 신뢰된 구간만을 파라미터 적응에 이용함으로서 오인식된 결과에 의한 적응 위험성을 감소시키는, 음성 인식 방법 및 장치를 제공하는데 있다.
도 1은 본 발명에 의한 일괄처리 형태의 MAP 화자 적응 조건에서 모델 파라미터 및 이전 밀도 파라미터의 분별적 추정장치를 나타낸 블럭도이다.
도 2는 도 1에 도시된 장치에 의해 수행되는 본 발명에 의한 분별적 추정방법을 설명하기 위한 플로우챠트이다.
도 3은 본 발명에 의한 증분처리 형태의 MAP 화자 적응 조건에서 모델 파라미터 및 이전 밀도 파라미터의 분별적 추정장치를 나타낸 블럭도이다.
도 4는 도 3에 도시된 장치에 의해 수행되는 본 발명에 의한 분별적 추정방법을 설명하기 위한 플로우챠트이다.
도 5는 본 발명에 의한 비감독 증분처리 형태의 MAP 화자 적응 조건에서 신뢰 구간 검증 기능을 갖는 음성 인식장치를 나타낸 블럭도이다.
도 6은 도 5에 도시된 장치에 의해 수행되는 본 발명에 의한 음성 인식방법을 설명하기 위한 플로우챠트이다.
도 7은 본 발명에 의한 분별적 파라미터의 추정방법과 종래의 방법들을 비교한 실험예의 결과 도면이다.
상기 과제를 이루기 위하여, 학습 데이터베이스로 부터 복수의 화자에 대한 학습 데이터를 가져와 모델 학습을 수행한 결과 화자의 음성을 인식하는데 기준이 되는 적어도 화자 독립 모델 파라미터 및 이전 밀도 파라미터를 얻는 일괄처리 형태의 MAP 화자 적응 조건에서의 파라미터의 분별적 추정 방법은,
(a) 각 화자에 대한 학습 데이타에서 적응 데이타를 분류하는 단계, (b) 파라미터들의 초기값들을 이용하여 각 화자에 대한 적응 데이타로 부터 적응된 화자 독립 모델 파라미터를 구하는 단계, (c) 적응된 화자 독립 모델 파라미터를 이용하여 학습 데이타의 각 학습 문장에 대한 복수개의 후보 문장을 탐색하고, 각 후보 문장에 대한 오류 정도를 측정하여 적응된 화자 독립 모델 파라미터에 대한 미분치를 계산하는 단계 및 (d) 모든 화자의 학습 데이타에 대해 수행하였으면, 계산된 미분치에 근거하여 초기에 설정된 파라미터들을 조정하는 단계를 구비한다.
또한, 상기 과제를 이루기 위하여, 증분처리 형태의 MAP 화자 적응 조건에서의 파라미터의 분별적 추정 방법은,
(a) 각 화자에 대한 학습 데이타의 각 학습 문장을 순차적으로 입력하고, 입력된 학습 문장이 새로운 화자에 대한 것인가를 판단하는 단계, (b) 새로운 화자이면, 해당 화자의 1번째 학습 문장에 대한 복수개의 후보 문장을 탐색하고, 각 후보 문장에 대한 오류 정도를 측정하여 상기 파라미터들의 초기값들에 대한 미분치를 계산하는 단계, (c) 파라미터들을 이용하여 적응된 파라미터들을 구하는 단계, (d) 새로운 화자가 아니면, 해당 화자의 2,...,n번째 학습 문장에 대한 복수개의 후보문장을 탐색하고, 각 후보 문장에 대한 오류 정도를 측정하여 이전에 구해진 적응된 파라미터들에 대한 미분치를 계산하는 단계, (e) 파라미터들을 이용하여 다시 적응된 파라미터들을 구하는 단계 및 (f) 모든 화자의 학습 문장에 대해 수행하였으면, 계산된 미분치에 근거하여 초기에 설정된 파라미터들을 조정하는 단계를 구비한다.
상기 다른 과제를 이루기 위하여, 음성 인식 방법은, 엠. 에이. 피 화자 적응 조건에서의 음성 인식 방법은,
(a) 화자의 음성을 인식하는데 기준이 되는 초기 파라미터들을 분별적 추정 방법에 의해 추정하는 단계, (b) 화자가 발성한 문장으로 부터 특징을 추출하는 단계, (c) 추정된 초기 파라미터들 또는 적응된 파라미터들을 이용하여 추출된 특징으로 부터 음성을 인식하는 단계, (d) 인식된 결과를 검증하여 신뢰된 구간을 검색하는 단계, (e) 검색된 신뢰 구간에 대해서만 선택적으로 적응된 파라미터들을 구하는 단계 및 (f) 화자가 발성한 다음 문장이 있으면 (a) 단계로 진행하고, 그렇지 않으면 종료하는 단계를 구비한다.
이하, 본 발명에 의한 MAP 화자 적응 조건에서 파라미터의 분별적 추정 방법 및 장치 및 이를 구비한 음성 인식장치 및 방법을 첨부한 도면을 참조하여 다음과 같이 설명한다.
MAP 화자 적응법에서 이전 밀도 파라미터를 얼마나 신뢰성있게 추정하느냐는 중요한 문제이다. 특히, 증분처리 형태의 MAP 화자 적응법에서 초기 이전 밀도 파라미터가 잘못 추정될 경우에, 적응 문장이 적은 초기에 오히려 최대가능성(ML:Maximum Likelihood) 추정된 경우보다 성능이 떨어질 위험도 있다.
본 발명은 최소분류오류 학습법에 근거하여 MAP 화자 적응법을 위한 더 신뢰적인 모델 및 이전 밀도 파라미터를 제공한다. 본 발명은 학습 데이터에 대한 MAP 화자 적응 조건에서 인식 오류가 최소가 되도록 반복적으로 모델 및 이전 밀도 파라미터를 조정한다. 또한, 본 발명은 비감독 증분처리 형태의 MAP 화자 적응 조건에서 오인식된 결과에 의해 잘못된 방향으로 모델이 적응되는 것을 방지하기 위해 인식 결과에 대한 신뢰도를 측정하여 신뢰된 구간만을 이용하여 모델을 적응시킨다.
도 1은 본 발명에 의한 일괄처리 형태의 MAP 화자 적응 조건에서 모델 파라미터 및 이전 밀도 파라미터의 분별적 추정장치(130)를 나타낸 블럭도로서, MAP 화자 적응부(132), 인식 및 미분치 계산부(134) 및 파라미터 조정부(136)로 구성된다. 도 2는 도 1에 도시된 장치에 의해 수행되는 본 발명에 의한 분별적 추정방법을 설명하기 위한 플로우챠트이다.
도 2를 참조하여 도 1에 도시된 장치의 동작을 살펴보면, 먼저 화자 독립 모델 파라미터(126) 및 이전 밀도 파라미터(128)의 초기값을 설정한다(제200단계).
모델 학습부(120)는 학습 데이터베이스(DB)(110)로 부터 복수의 화자(화자-1,화자-2,...화자-N)(100)에 대한 학습 데이터를 가져와 모델 학습을 수행한다. 모델 학습 과정의 결과, 화자마다 화자에 따른 모델들(화자-1 모델, 화자-2 모델,...화자-N 모델)(122)과 이들 화자에 독립한 화자 독립 모델 파라미터(126)가 얻어진다. 그리고, 모멘트 방법을 이용하여 화자에 따른 모델(화자-1 모델, 화자-2 모델,...화자-N 모델)(122)로 부터 이전 밀도 파라미터(128)의 초기값을 설정한다. 또는, 적당한 상수값으로 이전 밀도 파라미터(128)의 초기값을 설정할 수 있다.
다음에, 각 화자에 대한 화자별 데이터에서 적응 데이터와 학습 데이터를 분류한다(제202단계). 학습 데이터베이스(110)는 복수의 화자(화자-1,화자-2,...화자-N)(100)에 대한 화자별 데이터를 모아서 학습 데이터를 구성하는데, 이중에 일부는 각 화자에 대한 적응 데이터(화자-1 적응 데이터, 화자-2 적응 데이터,...화자-N 적응 데이터)(102)로 사용된다.
다음에, 제200단계에서 설정된 초기값들을 이용하여 각 화자에 대한 적응 데이터로 부터 적응 모델 파라미터를 구한다(제204단계). 구체적으로, MAP 화자 적응부(132)는 일괄처리 형태의 MAP 화자 적응법에 따라 각 화자에 대한 적응 데이터(화자-1 적응 데이터,...,화자-N 적응 데이터)(102)로 부터 적응 모델 파라미터(적응 모델 파라미터-1,...,적응 모델 파라미터-N)(104)를 구한다. 일괄처리 형태의 MAP 화자 적응 과정에서, N번째 화자에 대한 적응 데이터로서 n개의 적응 문장()이 적응된 후의 모델 파라미터()는 다음 수학식 1과 같이 나타낼 수 있다.
여기서,는 화자 독립 HMM 모델 파라미터를,은 모멘트 방법이나 경험적 베이스 방법등으로 얻어진 이전 밀도 파라미터의 초기값을 각각 나타낸다. 결국, 적응된 모델 파라미터()는 화자 독립 모델 파라미터와 학습 강도, 그리고 적응 데이터로 부터 추정된 모델 파라미터와 데이터양에 의한 가중합으로서 얻어진다.
다시 도 2를 참조하면, 제204단계 후에 적응 모델 파라미터를 이용하여 학습 데이터의 각 학습 문장에 대한 복수개의 후보 문장을 탐색한다(제206단계). 각 후보 문장에 대한 오류 정도를 측정하고 초기 모델 파라미터에 대한 미분치를 계산한다(제208단계).
구체적으로 인식 및 미분치 계산부(134)는 복수의 화자(화자-1,화자-2,...화자-N)(100)에 대한 화자별 적응 모델 파라미터(적응 모델 파라미터-1,...,적응 모델 파라미터-N)(104)를 각각 인식하는 과정에서 등록된 단어 모델을 통해 학습 데이타의 각 문장에 대한 복수개의 후보 문장을 탐색한다. 그리고, 각 문장에 대한 오류 정도를 측정하기 위해 먼저 옳은 문장과 오인식된 문장들과의 거리()를 구하고, 그 거리에 대한 비선형 함수()의 값을 오류값()으로 사용한다. 오류값으로 부터 초기 파라미터에 대한 미분치()를 계산한다.
끝으로, 전술한 제204단계 내지 제208단계를 모든 화자의 학습 데이타에 대해 수행하였는가를 판단한다(제210단계). 그렇지 않으면 모든 화자의 학습 데이타에 대해 수행하고, 수행이 완료되면 계산된 미분치에 근거하여 초기에 설정된 화자 독립 모델 파라미터 및 이전 밀도 파라미터를 조정한다(제212단계).
구체적으로, 파라미터 조정부(136)는 바람직하게 다음 수학식 2에 의해 초기에 설정된 화자 독립 모델 파라미터(126) 및 이전 밀도 파라미터(128)를 조정한다.
여기서,은 모든 화자의 학습 데이터 전체에 대한 오류 함수를 나타내며,는 오류 정도를 측정하는 비선형 함수로서 일반적으로 시그모이드 함수가 이용된다.은 n번째 학습 문장에 대한 옳은 문장과 오인식된 문장들과의 거리를,는 k번째 반복 횟수에서의 학습율을 각각 나타낸다.
부가적으로, 전술한 제204단계 내지 제212단계를 소정의 수렴 조건을 만족하는 횟수만큼 또는 정해진 횟수만큼 반복하여 최종적인 화자 독립 모델 및 이전 밀도 파라미터를 추정한다. 이러한 반복적인 추정 과정을 통해 학습 데이타에 대한 오류의 수가 최소가 되는 방향으로 화자 독립 모델 파라미터 및 이전 밀도 파라미터를 조정한다.
일괄처리 형태의 MAP 화자 적응법은 음성 인식 시스템에서 사용자에게 미리 적응 데이타를 제공하고 화자에 맞도록 파라미터들, 모델들을 바꿔나간다. 한편, 증분처리 형태의 MAP 화자 적응법은 별도로 적응 데이타 없이 사용자가 인식 시스템을 사용하면서 적응시켜나가고, 화자에 맞도록 파라미터들, 모델들을 바꾸나간다. 이제 증분처리 형태의 MAP 화자 적응 조건에서 분별적 학습 방법에 의해 화자 독립 모델 파라미터 및 초기 이전 밀도 파라미터를 추정하는 방법 및 장치에 대해알아본다.
증분처리 형태의 MAP 화자 적응 조건에서 분별적 학습 방법에 의해 화자 독립 모델 파라미터 및 초기 이전 밀도 파라미터를 추정하기 위해서는, 먼저 한 화자에 의해 발성된 각 학습 문장을 적응시킨 후의 파라미터들이 초기 파라미터들로 부터 변환되는 과정들을 추적해야 한다. 다음에, 각 학습 문장에 대한 오류 정도를 측정하고, 모든 학습 문장에 대한 오류의 수를 줄이는 방향으로 화자 독립 모델 파라미터 및 초기 이전 밀도 파라미터를 조정한다. 구체적으로 살펴보면 다음과 같다.
도 3은 본 발명에 의한 증분처리 형태의 MAP 화자 적응 조건에서 모델 파라미터 및 이전 밀도 파라미터의 분별적 추정장치를 나타낸 블럭도로서, 새로운 화자 확인부(332), 파라미터 선택부(334), 인식 및 미분치 계산부(336), MAP 화자 적응부(338) 및 파라미터 조정부(340)로 구성된다. 도 4는 도 3에 도시된 장치에 의해 수행되는 본 발명에 의한 분별적 추정방법을 설명하기 위한 플로우챠트이다.
도 4를 참조하여 도 3에 도시된 장치의 동작을 살펴보면, 먼저 화자 독립 모델 파라미터(126) 및 이전 밀도 파라미터(128)의 초기값을 설정한다(제400단계).
모델 학습부(320)는 학습 데이터베이스(DB)(310)로 부터 복수의 화자(화자-1,화자-2,...,화자-N)(300)에 대한 학습 데이터를 가져와 모델 학습을 수행한다. 모델 학습 과정의 결과, 화자마다 화자에 따른 모델들(화자-1 모델, 화자-2 모델,...,화자-N 모델)(322)과 이들 화자에 독립한 화자 독립 모델 파라미터(326)가 얻어진다. 그리고, 모멘트 방법을 이용하여 화자에 따른 모델(화자-1 모델, 화자-2 모델,...,화자-N 모델)(322)로 부터 이전 밀도 파라미터(328)의 초기값을 설정한다. 또는, 적당한 상수값으로 이전 밀도 파라미터(328)의 초기값을 설정할 수 있다.
다음에, 각 화자에 대한 학습 데이타를 순차 입력한다(제402단계). 입력된 화자에 대한 학습 데이타를 다루기에 앞서 현재 화자가 새로운 화자인가를 판단한다(제404단계).
제404단계에서 새로운 화자이면, 화자의 학습 데이타가 n개의 학습 문장으로 이루어진다고 할때, 먼저 해당 화자의 1번째 학습 문장에 대한 복수개의 후보 문장을 탐색한다(제406단계). 각 후보 문장에 대한 오류 정도를 측정하고, 화자 독립 모델 및 초기 이전 밀도 파라미터에 대한 미분치를 계산한다(제408단계). 다음에, 화자 독립 모델 및 초기 이전 밀도 파라미터를 이용하여 적응 모델 및 적응 이전 밀도 파라미터를 구하고 제402단계로 진행한다(제410단계).
다음에, 해당 화자의 학습 데이타의 2~n번째 학습 문장을 순차적으로 입력한다(제402단계). 제404단계의 판단 결과 새로운 화자가 아니므로, 이제 다시 새로운 화자의 학습 데이타가 입력될 때까지 해당 화자의 2~n번째 학습 문장에 대해서는 제412단계 내지 제416단계를 수행한다. 예컨대, n번째 학습 문장에 대해 설명하면, 해당 화자의 n번째 문장에 대한 복수개의 후보 문장을 탐색한다(제412단계). 각 후보 문장에 대한 오류 정도를 측정하고, 적응 모델 및 적응 이전 밀도 파라미터에 대한 미분치를 계산한다(제414단계). 다음에, n-1번째 문장의 적응 모델 및 적응 이전 밀도 파라미터를 이용하여 n번째 문장의 적응 모델 및 적응 이전 밀도파라미터를 구한다(제416단계).
구체적으로, 도 3에서 새로운 화자 확인부(332)는 복수의 화자(화자-1,화자-2,...,화자-N)(100)중 한 화자에 대한 학습 데이타의 각 학습 문장을 순차 입력한 후에, 다른 화자에 대한 학습 데이타의 각 학습 문장을 입력할 때 화자의 변경을 확인한다. 파라미터 선택부(334)는 새로운 화자 확인부(332)에서 확인된 정보에 따라 새로운 화자이면 초기에 설정된 화자 독립 모델 파라미터(326) 및 이전 밀도 파라미터(328)를 선택하고, 새로운 화자가 아니면 이전 처리에 의해 적응된 모델 파라미터(302)를 선택한다.
인식 및 미분치 계산부(336)는 파라미터 선택부(334)에서 선택된 파라미터를 인식하는 과정에서 등록된 단어 모델을 통해 학습 데이타의 각 문장에 대한 복수개의 후보 문장을 탐색한다. 그리고, 각 문장에 대한 오류 정도를 측정하기 위해 먼저 옳은 문장과 오인식된 문장들과의 거리()를 구하고, 그 거리에 대한 비선형 함수()의 값을 오류값()으로 사용한다. 화자 독립 모델 파라미터 및 초기 이전 밀도 파라미터에 대한 n번째 문장의 오류 함수의 미분치는 다음 수학식 3과 같이 나타낼 수 있다.
MAP 화자 적응부(338)는 증분처리 형태의 MAP 화자 적응법에 따라 각 화자에대한 학습 데이타로 부터 적응 모델 파라미터(302)를 바람직하게 다음 수학식 4에 의해 구한다. 증분처리 형태의 MAP 화자 적응 과정에서, n번째 학습 문장이 처리된 후의 화자 독립 모델 파라미터와 이전 밀도 파라미터, 간단히 적응 모델 파라미터(302)는 바로 이전 단계의 화자 독립 모델 파라미터와 이전 밀도 파라미터, 그리고 현재 학습 문장의 통계로 부터 갱신된다. 결국, 새롭게 추정되는 파라미터 집합이란 초기 파라미터 집합과 현재 학습 문장까지의 적응 통계로 부터 얻어진다.
여기서,은 각각 n번째 학습 문장이 적응된 후의 화자 독립 모델 파라미터와 이전 밀도 파라미터를 나타내며,은 n번째 학습 문장을 나타낸다.
끝으로, 전술한 제402단계 내지 제416단계를 모든 화자의 학습 데이타에 대해 수행하였는가를 판단한다(제418단계). 그렇지 않으면 모든 화자의 학습 데이타에 대해 수행하고, 수행이 완료되면 계산된 미분치에 근거하여 초기에 설정된 화자 독립 모델 파라미터 및 이전 밀도 파라미터를 조정한다(제420단계).
구체적으로, 파라미터 조정부(340)는 바람직하게 다음 수학식 5에 의해 초기에 설정된 화자 독립 모델 파라미터(326) 및 이전 밀도 파라미터(328)를 조정한다.
여기서,은 학습 데이터에 대한 인식오류 함수를,는 시그모이드 함수를 각각 나타낸다.
부가적으로, 전술한 제402단계 내지 제420단계를 소정의 수렴 조건을 만족하는 횟수만큼 또는 정해진 횟수만큼 반복하여 최종적인 화자 독립 모델 및 이전 밀도 파라미터를 추정한다. 이러한 반복적인 추정 과정을 통해 학습 데이타에 대한 오류의 수가 최소가 되는 방향으로 화자 독립 모델 파라미터 및 이전 밀도 파라미터를 조정한다.
지금까지 MAP 화자 적응 조건에서의 파라미터의 분별적 추정방법 및 장치에 대해 살펴보았다. 이제 이러한 분별적 추정방법 및 장치를 포함하는 음성 인식 방법 및 장치에 대해 알아본다.
전술한 바와 같이 MAP 화자 적응 과정에서, 각 학습 문장에 대한 인식된 결과를 이용하여 화자 독립 모델 파라미터를 적응시키고, 이전 밀도 파라미터를 갱신한다. 그러나, 오인식된 결과에 의해서도 모델이 변환되기 때문에 오인식된 결과가 많을수록 원하지 않는 방향으로 모델이 조정되어 더 나쁜 결과를 초래할 수 있다. 본 발명은 비감독 증분처리 형태의 MAP 화자 적응 조건을 예로 하여 전술한 문제점을 해결한 음성 인식 방법 및 장치를 개시한다.
도 5는 본 발명에 의한 비감독 증분처리 형태의 MAP 화자 적응 조건에서 신뢰 구간 검증 기능을 갖는 음성 인식장치를 나타낸 블럭도로서, 특징 추출부(510), 인식(탐색)부(520), 신뢰구간 검색 및 적응부(530), 파라미터의 분별적 추정장치(540)로 구성된다. 도 6은 도 5에 도시된 장치에 의해 수행되는 본 발명에 의한 음성 인식방법을 설명하기 위한 플로우챠트이다.
특징 추출부(510)는 화자(500)가 발성한 문장을 입력하고, 그로 부터 음성을 인식하는데 참조가 될 음성의 특징을 추출한다(제600단계). 다음에, 인식(탐색)부(520)는 화자 독립 모델 파라미터(502) 및 이전 밀도 파라미터(504) 등을 이용하여 추출된 특징으로 부터 음성을 인식한다(제602단계). 여기서, 화자 독립 모델 파라미터(502) 및 이전 밀도 파라미터(504)는 초기 파라미터인데, 도 1 및 도 3에서 설명된 바와 같은 파라미터의 분별적 추정장치(540)를 거쳐 얻어진 결과이다.
신뢰구간 검색 및 적응부(530)는 인식(탐색)부(520)로 부터 인식된 결과를 검증하여, 신뢰된 구간을 검색한다(제604단계). 검색된 신뢰구간만을 이용하여 적응 모델 파라미터(506) 및 적응 이전 밀도 파라미터(508)를 구한다(제606단계). 즉, 본 발명의 음성 인식 방법 및 장치는 인식된 문장을 구성하는 단어나 음소에 대하여 검증 과정을 수행하고, 검증된 단어나 음소에 대해서만 모델 적응 단계에 적용시키는 특징을 가진다.
신뢰구간 검색 및 적응부(530)은 인식된 결과를 바람직하게 다음 수학식 6에 의해 검증한다.
여기서,은 인식된 모델을,는 모델과 정렬되는 t1에서 t2까지의 음성 구간을 각각 나타낸다.과 경쟁되는 모델들을 나타내며,은 모델의 신뢰도를 판단하는데 사용되는 문턱값을 나타낸다.
신뢰구간 검색 및 적응부(530)에서 구해진 적응 모델 파라미터(506) 및 적응 이전 밀도 파라미터(508)는 인식(탐색)부(520)로 피드백되고, 인식(탐색)부(520)는 다음부터 음성 인식을 수행하는데 이들 파라미터들을 이용한다. 따라서, 이러한 신뢰구간 검증 과정을 통해 오인식된 결과에 의한 적응 오류를 줄임으로써 인식 성능을 개선할 수 있다.
종래와 본 발명의 성능 비교를 위하여, 한국전자통신연구원에서 제작한 고립단어 음성 데이터베이스를 이용하여 다음과 같은 실험을 실시하였다.
음성 데이터베이스를 구축하기 위해, 40명의 화자가 445개의 고립 단어를 발성하였다. 30명의 발성 데이터를 모델 학습에 이용하고, 나머지 10명의 발성 데이터를 평가에 사용하였다. 사용된 모델은 39개의 음소 모델이며, 각 모델은 3개의 상태를 가지는 연속밀도 HMM으로 표현되었다. 사용된 특징 벡터는 한 프레임당 26차이며, 13차의 PLP와 13차의 차분 PLP로 이루어진다. 그리고 각 상태에서의 확률 분포는 4개의 혼합 가우시안 성분으로 모델링되었다.
본 발명의 성능을 평가하기 위하여 증분처리 형태의 MAP 화자 적응 조건에서 실험하였다. 증분처리 형태의 MAP 화자 적응 조건은 적응 데이터가 별도로 있는것이 아니라, 매 문장마다 인식되면서 모델도 또한 적응이 되어가는 형태이다. 감독 형태의 적응에서는 발성된 문장이 어떤 내용인지를 알려주고 적응을 시키며, 비감독 형태의 적응에서는 인식된 결과를 가지고 직접 적응한다. 증분처리 형태의 MAP 화자 적응이 적용되는 인식 시스템에서는 대부분 비감독 형태로 적응이 이루어진다. 전체적인 실험 결과는 다음 표 1에 잘 나타나 있다.
실험 조건 적용 방법 단어 오인식률(%)
화자 독립(no adaptation) ML 학습 12.6
분별적 학습 6.3
종래의 MAP 화자 적응 감독 증분처리 형태 7.4
비감독 증분처리 형태 9.4
본 발명의 MAP 화자 적응(이전 밀도 파라미터만분별적 학습) 감독 증분처리 형태 5.2
비감독 증분처리 형태 6.2
본 발명의 MAP 화자 적응(모델 파라미터 및 이전 밀도 파라미터 모두를 분별적 학습) 감독 증분처리 형태 3.5
비감독 증분처리 형태 4.6
먼저, 화자 적응 단계가 없는 화자 독립 인식기는 ML 학습된 경우에 단어 오인식률이 12.6%이었으며, 분별적 학습된 경우에 6.3%의 단어 인식률을 기록하였다. 종래의 MAP 화자 적응 조건의 인식기는 감독 증분처리 형태에서 7.4%, 비감독 증분처리 형태에서 9.4%의 단어 오인식률을 기록하였다. 본 발명에서 제안된 방법을적용할 경우에, 감독 증분처리 형태에서 3.5%, 비감독 증분처리 형태에서 4.6%의 단어 오인식율을 기록하였다. 이것은 종래에 비해 인식 성능을 50%이상 개선한 결과이다.
도 7은 본 발명에 의한 분별적 파라미터의 추정방법과 종래의 방법들을 비교한 실험예의 결과 도면이다.
도 7에서, 적응 단어의 수가 적은 경우에, 종래의 MAP 화자 적응 조건에서의 학습 방법은 적응을 시키지 않은 경우에 비해 성능 개선의 폭이 매우 작았다. 그러나, 본 발명에서 제안된 MAP 화자 적응 조건에서의 분별적 학습 방법은 적응 데이터 양이 적은 경우에 인식 성능을 크게 개선하였음을 알 수 있었다.
이상에서 설명한 바와 같이, 본 발명에 의한 분별적 학습 방법 및 장치는 일괄처리 형태의 MAP 화자 적응 조건에서 적응 데이터의 양이 적은 경우에 발생되는 성능 저하의 문제나, 증분처리 형태의 MAP 화자 적응 조건에서 초기 적응 단계에서 발생하는 성능 저하의 문제를 해결할 수 있으며, 본 발명에 의한 음성 인식 방법 및 장치는 비감독 증분처리 형태의 MAP 화자 적응 조건에서 인식된 결과의 검증된 부분만을 선택하여 파라미터를 적응시킴으로써, 오인식된 결과를 이용한 적응에 의해 발생되는 잘못된 방향으로의 적응을 방지할 수 있다.

Claims (10)

  1. 학습 데이터베이스로 부터 복수의 화자에 대한 학습 데이터를 가져와 모델학습을 수행한 결과 화자의 음성을 인식하는데 기준이 되는 적어도 화자 독립 모델 파라미터 및 이전 밀도 파라미터를 얻는 엠.에이.피 화자 적응 조건에서의 파라미터의 분별적 추정 방법에 있어서,
    (a) 각 화자에 대한 학습 데이타에서 적응 데이타를 분류하는 단계;
    (b) 상기 파라미터들의 초기값들을 이용하여 각 화자에 대한 적응 데이타로 부터 적응된 화자 독립 모델 파라미터를 구하는 단계;
    (c) 적응된 화자 독립 모델 파라미터를 이용하여 학습 데이타의 각 학습 문장에 대한 복수개의 후보 문장을 탐색하고, 각 후보 문장에 대한 오류 정도를 측정하여 적응된 화자 독립 모델 파라미터에 대한 미분치를 계산하는 단계; 및
    (d) 모든 화자의 학습 데이타에 대해 수행하였으면, 계산된 미분치에 근거하여 초기에 설정된 파라미터들을 조정하는 단계를 구비하는 것을 특징으로 하는 파라미터의 분별적 학습 방법.
  2. 제1항에 있어서, 상기 (d) 단계는 다음 수학식에 의해 화자 독립 모델 파라미터()와 이전 밀도 파라미터()를 조정하며,
    [수학식]
    여기서,은 학습 데이터 전체에 대한 오류 함수를 나타내며,는 오류 정도를 측정하는 비선형 함수를 나타내며,은 n번째 학습 문장에 대한 옳은 문장과 오인식된 문장들과의 거리를 나타내며,는 k번째 반복 회수에서의 학습율을 나타내는 것을 특징으로 분별적 학습 방법.
  3. 학습 데이터베이스로 부터 복수의 화자에 대한 학습 데이터를 가져와 모델 학습을 수행한 결과 화자의 음성을 인식하는데 기준이 되는 적어도 화자 독립 모델 파라미터 및 이전 밀도 파라미터를 얻는 엠.에이.피 화자 적응 조건에서의 파라미터의 분별적 추정 장치에 있어서,
    각 화자에 대한 학습 데이타에서 분류된 적응 데이타로 부터 상기 파라미터들의 초기값을 이용하여 적응 모델 파라미터를 구하는 일괄처리 형태의 화자 적응부;
    상기 적응 모델 파라미터를 이용하여 학습 데이타의 각 학습 문장에 대한 복수개의 후보 문장을 탐색하고, 각 후보 문장에 대한 오류 정도를 측정하여 상기 화자 독립 모델 파라미터의 초기값에 대한 미분치를 계산하는 인식 및 미분치 계산부; 및
    모든 화자의 학습 데이타에 대해 계산된 미분치에 근거하여 초기에 설정된 화자 독립 모델 파라미터 및 이전 밀도 파라미터를 조정하는 파라미터 조정부를 구비하는 것을 특징으로 하는 파라미터의 분별적 학습 장치.
  4. 학습 데이터베이스로 부터 복수의 화자에 대한 학습 데이터를 가져와 모델학습을 수행한 결과 화자의 음성을 인식하는데 기준이 되는 적어도 화자 독립 모델 파라미터 및 이전 밀도 파라미터를 얻는 엠.에이.피 화자 적응 조건에서의 파라미터의 분별적 추정 방법에 있어서,
    (a) 각 화자에 대한 학습 데이타의 각 학습 문장을 순차적으로 입력하고, 입력된 학습 문장이 새로운 화자에 대한 것인가를 판단하는 단계;
    (b) 새로운 화자이면, 해당 화자의 1번째 학습 문장에 대한 복수개의 후보 문장을 탐색하고, 각 후보 문장에 대한 오류 정도를 측정하여 상기 파라미터들의 초기값들에 대한 미분치를 계산하는 단계;
    (c) 상기 파라미터들을 이용하여 적응된 파라미터들을 구하는 단계;
    (d) 새로운 화자가 아니면, 해당 화자의 2,...,n번째 학습 문장에 대한 복수개의 후보 문장을 탐색하고, 각 후보 문장에 대한 오류 정도를 측정하여 이전에 구해진 적응된 파라미터들에 대한 미분치를 계산하는 단계;
    (e) 상기 파라미터들을 이용하여 다시 적응된 파라미터들을 구하는 단계; 및
    (f) 모든 화자의 학습 문장에 대해 수행하였으면, 계산된 미분치에 근거하여 초기에 설정된 파라미터들을 조정하는 단계를 구비하는 것을 특징으로 하는 파라미터의 분별적 학습 방법.
  5. 제4항에 있어서, 상기 (f) 단계는 다음 수학식에 의해 화자 독립 모델 파라미터 및 이전 밀도 파라미터를 조정하며,
    [수학식]
    여기서,은 학습 데이터에 대한 인식 오류 함수를 나타내며,는 오류 정도를 측정하는 비선형 함수를 나타내며,은 n번째 학습 문장에 대한 옳은 문장과 오인식된 문장들과의 거리를 나타내며,는 k번째 반복 회수에서의 학습율을 나타내는 것을 특징으로 분별적 학습 방법.
  6. 학습 데이터베이스로 부터 복수의 화자에 대한 학습 데이터를 가져와 모델 학습을 수행한 결과 화자의 음성을 인식하는데 기준이 되는 적어도 화자 독립 모델 파라미터 및 이전 밀도 파라미터를 얻는 엠.에이.피 화자 적응 조건에서의 파라미터의 분별적 추정 장치에 있어서,
    각 화자에 대한 학습 데이타의 각 학습 문장을 순차적으로 입력하고, 입력된 학습 문장이 새로운 화자에 대한 것인가를 판단하는 새로운 화자 확인부;
    새로운 화자이면 상기 파라미터들의 초기값들을 선택하고, 새로운 화자가 아니면 이전에 구해진 적응된 파라미티들을 선택하는 파라미터 선택부;
    해당 화자의 학습 문장에 대한 복수개의 후보 문장을 탐색하고, 각 후보 문장에 대한 오류 정도를 측정하여 상기 파라미터 선택부에서 선택된 파라미터들에 대한 미분치를 계산하는 인식 및 미분치 계산부;
    선택된 파라미터들을 이용하여 다시 적응된 파라미터들을 구하는 증분처리형태의 화자 적응부; 및
    모든 화자의 학습 문장에 대해 계산된 미분치에 근거하여 초기에 설정된 화자 독립 모델 파라미터 및 이전 밀도 파라미터를 조정하는 파라미터 조정부를 구비하는 것을 특징으로 하는 파라미터의 분별적 학습 장치.
  7. 엠. 에이. 피 화자 적응 조건에서의 음성 인식 방법에 있어서,
    (a) 화자의 음성을 인식하는데 기준이 되는 초기 파라미터들을 분별적 추정 방법에 의해 추정하는 단계;
    (b) 화자가 발성한 문장으로 부터 특징을 추출하는 단계;
    (c) 추정된 초기 파라미터들 또는 적응된 파라미터들을 이용하여 추출된 특징으로 부터 음성을 인식하는 단계;
    (d) 인식된 결과를 검증하여 신뢰된 구간을 검색하는 단계;
    (e) 검색된 신뢰 구간에 대해서만 선택적으로 적응된 파라미터들을 구하는 단계; 및
    (f) 상기 화자가 발성한 다음 문장이 있으면 상기 (a) 단계로 진행하고, 그렇지 않으면 종료하는 단계를 구비하는 것을 특징으로 하는 음성 인식 방법.
  8. 제7항에 있어서, 상기 초기 파라미터들은,
    비감독 증분처리 형태의 엠.에이.피 화자 적응 조건에서의 분별적 추정 방법에 의해 추정된 화자 독립 모델 파라미터 및 이전 밀도 파라미터인 것을 특징으로하는 음성 인식 방법.
  9. 엠.에이.피 화자 적응 조건에서의 음성 인식 장치에 있어서,
    화자의 음성을 인식하는데 기준이 되는 초기 파라미터들을 분별적 추정 방법에 의해 추정하는 분별적 추정 장치;
    화자가 발성한 문장으로 부터 특징을 추출하는 특징 추출부;
    상기 초기 파라미터들 또는 적응된 파라미터들을 이용하여 추출된 특징으로 부터 음성을 인식하는 음성 인식부; 및
    인식된 결과를 검증하여 신뢰된 구간을 검색하고, 검색된 신뢰 구간에 대해서만 선택적으로 적응된 파라미터들을 구하여 상기 음성 인식부로 피드백하는 신뢰구간 검색 및 적응부를 구비하는 것을 특징으로 하는 음성 인식 장치.
  10. 제9항에 있어서, 상기 초기 파라미터들은,
    비감독 증분처리 형태의 엠.에이.피 화자 적응 조건에서의 분별적 추정 방법에 의해 추정된 화자 독립 모델 파라미터 및 이전 밀도 파라미터인 것을 특징으로 하는 음성 인식 장치.
KR1019990045856A 1999-10-21 1999-10-21 엠.에이.피 화자 적응 조건에서 파라미터의 분별적 추정 방법 및 장치 및 이를 각각 포함한 음성 인식 방법 및 장치 Expired - Fee Related KR100307623B1 (ko)

Priority Applications (2)

Application Number Priority Date Filing Date Title
KR1019990045856A KR100307623B1 (ko) 1999-10-21 1999-10-21 엠.에이.피 화자 적응 조건에서 파라미터의 분별적 추정 방법 및 장치 및 이를 각각 포함한 음성 인식 방법 및 장치
US10/898,382 US7324941B2 (en) 1999-10-21 2004-07-26 Method and apparatus for discriminative estimation of parameters in maximum a posteriori (MAP) speaker adaptation condition and voice recognition method and apparatus including these

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
KR1019990045856A KR100307623B1 (ko) 1999-10-21 1999-10-21 엠.에이.피 화자 적응 조건에서 파라미터의 분별적 추정 방법 및 장치 및 이를 각각 포함한 음성 인식 방법 및 장치

Publications (2)

Publication Number Publication Date
KR20010038049A KR20010038049A (ko) 2001-05-15
KR100307623B1 true KR100307623B1 (ko) 2001-11-02

Family

ID=19616355

Family Applications (1)

Application Number Title Priority Date Filing Date
KR1019990045856A Expired - Fee Related KR100307623B1 (ko) 1999-10-21 1999-10-21 엠.에이.피 화자 적응 조건에서 파라미터의 분별적 추정 방법 및 장치 및 이를 각각 포함한 음성 인식 방법 및 장치

Country Status (2)

Country Link
US (1) US7324941B2 (ko)
KR (1) KR100307623B1 (ko)

Cited By (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
WO2017069554A1 (ko) * 2015-10-21 2017-04-27 삼성전자 주식회사 전자 기기, 그의 음향 모델 적응 방법 및 음성 인식 시스템

Families Citing this family (23)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US7243063B2 (en) * 2002-07-17 2007-07-10 Mitsubishi Electric Research Laboratories, Inc. Classifier-based non-linear projection for continuous speech segmentation
US8335688B2 (en) * 2004-08-20 2012-12-18 Multimodal Technologies, Llc Document transcription system training
US8412521B2 (en) * 2004-08-20 2013-04-02 Multimodal Technologies, Llc Discriminative training of document transcription system
US20060069678A1 (en) * 2004-09-30 2006-03-30 Wu Chou Method and apparatus for text classification using minimum classification error to train generalized linear classifier
US20070129943A1 (en) * 2005-12-06 2007-06-07 Microsoft Corporation Speech recognition using adaptation and prior knowledge
US7831423B2 (en) * 2006-05-25 2010-11-09 Multimodal Technologies, Inc. Replacing text representing a concept with an alternate written form of the concept
US8239332B2 (en) 2007-11-20 2012-08-07 Microsoft Corporation Constrained line search optimization for discriminative training of HMMS
US8306819B2 (en) * 2009-03-09 2012-11-06 Microsoft Corporation Enhanced automatic speech recognition using mapping between unsupervised and supervised speech model parameters trained on same acoustic training data
TWI431563B (zh) * 2010-08-03 2014-03-21 Ind Tech Res Inst 語言學習系統、語言學習方法及其程式產品
KR20120046627A (ko) * 2010-11-02 2012-05-10 삼성전자주식회사 화자 적응 방법 및 장치
US9177552B2 (en) * 2012-02-03 2015-11-03 Nuance Communications, Inc. Method and apparatus for setting selected recognition parameters to minimize an application cost function
EP2713367B1 (en) * 2012-09-28 2016-11-09 Agnitio, S.L. Speaker recognition
US10141009B2 (en) 2016-06-28 2018-11-27 Pindrop Security, Inc. System and method for cluster-based audio event detection
US9824692B1 (en) 2016-09-12 2017-11-21 Pindrop Security, Inc. End-to-end speaker recognition using deep neural network
US10553218B2 (en) * 2016-09-19 2020-02-04 Pindrop Security, Inc. Dimensionality reduction of baum-welch statistics for speaker recognition
US10347256B2 (en) 2016-09-19 2019-07-09 Pindrop Security, Inc. Channel-compensated low-level features for speaker recognition
WO2018053537A1 (en) 2016-09-19 2018-03-22 Pindrop Security, Inc. Improvements of speaker recognition in the call center
US10397398B2 (en) 2017-01-17 2019-08-27 Pindrop Security, Inc. Authentication using DTMF tones
US11355103B2 (en) 2019-01-28 2022-06-07 Pindrop Security, Inc. Unsupervised keyword spotting and word discovery for fraud analytics
US11019201B2 (en) 2019-02-06 2021-05-25 Pindrop Security, Inc. Systems and methods of gateway detection in a telephone network
US10803875B2 (en) 2019-02-08 2020-10-13 Nec Corporation Speaker recognition system and method of using the same
US11646018B2 (en) 2019-03-25 2023-05-09 Pindrop Security, Inc. Detection of calls from voice assistants
US12015637B2 (en) 2019-04-08 2024-06-18 Pindrop Security, Inc. Systems and methods for end-to-end architectures for voice spoofing detection

Family Cites Families (24)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JPH0636156B2 (ja) * 1989-03-13 1994-05-11 インターナショナル・ビジネス・マシーンズ・コーポレーション 音声認識装置
JPH0590224A (ja) * 1991-01-22 1993-04-09 Toshiba Corp 半導体装置の製造方法
US5675506A (en) * 1992-10-09 1997-10-07 Rensselaer Polytechnic Institute Detection of leaks in vessels
US5664059A (en) * 1993-04-29 1997-09-02 Panasonic Technologies, Inc. Self-learning speaker adaptation based on spectral variation source decomposition
CA2126380C (en) * 1993-07-22 1998-07-07 Wu Chou Minimum error rate training of combined string models
US5793891A (en) * 1994-07-07 1998-08-11 Nippon Telegraph And Telephone Corporation Adaptive training method for pattern recognition
US5864810A (en) * 1995-01-20 1999-01-26 Sri International Method and apparatus for speech recognition adapted to an individual speaker
US5737485A (en) * 1995-03-07 1998-04-07 Rutgers The State University Of New Jersey Method and apparatus including microphone arrays and neural networks for speech/speaker recognition systems
US5737489A (en) * 1995-09-15 1998-04-07 Lucent Technologies Inc. Discriminative utterance verification for connected digits recognition
US5806029A (en) * 1995-09-15 1998-09-08 At&T Corp Signal conditioned minimum error rate training for continuous speech recognition
US5787394A (en) * 1995-12-13 1998-07-28 International Business Machines Corporation State-dependent speaker clustering for speaker adaptation
US5737487A (en) 1996-02-13 1998-04-07 Apple Computer, Inc. Speaker adaptation based on lateral tying for large-vocabulary continuous speech recognition
CN1237259A (zh) * 1996-09-10 1999-12-01 西门子公司 隐含式-马而科夫-发音模型在语音识别系统中的匹配方法
US6151575A (en) * 1996-10-28 2000-11-21 Dragon Systems, Inc. Rapid adaptation of speech models
US6151574A (en) * 1997-12-05 2000-11-21 Lucent Technologies Inc. Technique for adaptation of hidden markov models for speech recognition
US6073096A (en) * 1998-02-04 2000-06-06 International Business Machines Corporation Speaker adaptation system and method based on class-specific pre-clustering training speakers
US6389393B1 (en) * 1998-04-28 2002-05-14 Texas Instruments Incorporated Method of adapting speech recognition models for speaker, microphone, and noisy environment
US6343267B1 (en) * 1998-04-30 2002-01-29 Matsushita Electric Industrial Co., Ltd. Dimensionality reduction for speaker normalization and speaker and environment adaptation using eigenvoice techniques
US6263309B1 (en) * 1998-04-30 2001-07-17 Matsushita Electric Industrial Co., Ltd. Maximum likelihood method for finding an adapted speaker model in eigenvoice space
US6327565B1 (en) * 1998-04-30 2001-12-04 Matsushita Electric Industrial Co., Ltd. Speaker and environment adaptation based on eigenvoices
US6272462B1 (en) * 1999-02-25 2001-08-07 Panasonic Technologies, Inc. Supervised adaptation using corrective N-best decoding
US6401063B1 (en) * 1999-11-09 2002-06-04 Nortel Networks Limited Method and apparatus for use in speaker verification
US6421641B1 (en) * 1999-11-12 2002-07-16 International Business Machines Corporation Methods and apparatus for fast adaptation of a band-quantized speech decoding system
US6499012B1 (en) * 1999-12-23 2002-12-24 Nortel Networks Limited Method and apparatus for hierarchical training of speech models for use in speaker verification

Cited By (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
WO2017069554A1 (ko) * 2015-10-21 2017-04-27 삼성전자 주식회사 전자 기기, 그의 음향 모델 적응 방법 및 음성 인식 시스템

Also Published As

Publication number Publication date
US7324941B2 (en) 2008-01-29
US20050065793A1 (en) 2005-03-24
KR20010038049A (ko) 2001-05-15

Similar Documents

Publication Publication Date Title
KR100307623B1 (ko) 엠.에이.피 화자 적응 조건에서 파라미터의 분별적 추정 방법 및 장치 및 이를 각각 포함한 음성 인식 방법 및 장치
JP3549681B2 (ja) 連結数字の認識のための発声識別立証
US6226612B1 (en) Method of evaluating an utterance in a speech recognition system
US6539352B1 (en) Subword-based speaker verification with multiple-classifier score fusion weight and threshold adaptation
KR100925479B1 (ko) 음성 인식 방법 및 장치
US5684925A (en) Speech representation by feature-based word prototypes comprising phoneme targets having reliable high similarity
US7672847B2 (en) Discriminative training of hidden Markov models for continuous speech recognition
US6490555B1 (en) Discriminatively trained mixture models in continuous speech recognition
CN111429919B (zh) 基于会议实录系统的防串音方法、电子装置及存储介质
JP2002500779A (ja) 識別訓練されたモデルを用いる音声認識システム
JPH0612093A (ja) 音声認識装置およびそのトレーニング方法ならびに装置
EP1465154B1 (en) Method of speech recognition using variational inference with switching state space models
CN106847259B (zh) 一种音频关键词模板的筛选和优化方法
US20030023438A1 (en) Method and system for the training of parameters of a pattern recognition system, each parameter being associated with exactly one realization variant of a pattern from an inventory
US7617101B2 (en) Method and system for utterance verification
CN111508505A (zh) 一种说话人识别方法、装置、设备及存储介质
Xiong et al. A tree-based kernel selection approach to efficient Gaussian mixture model–universal background model based speaker identification
Markov et al. Improved novelty detection for online GMM based speaker diarization.
US6728674B1 (en) Method and system for training of a classifier
WO2002029785A1 (en) Method, apparatus, and system for speaker verification based on orthogonal gaussian mixture model (gmm)
JPH08123469A (ja) 句境界確率計算装置および句境界確率利用連続音声認識装置
Huda et al. A variable initialization approach to the EM algorithm for better estimation of the parameters of hidden markov model based acoustic modeling of speech signals
CN114822517B (zh) 语音标注质量评价方法、装置、电子设备与存储介质
CN117789706B (zh) 一种音频信息内容识别方法
JPH10254477A (ja) 音素境界検出装置及び音声認識装置

Legal Events

Date Code Title Description
A201 Request for examination
PA0109 Patent application

Patent event code: PA01091R01D

Comment text: Patent Application

Patent event date: 19991021

PA0201 Request for examination
PG1501 Laying open of application
E701 Decision to grant or registration of patent right
PE0701 Decision of registration

Patent event code: PE07011S01D

Comment text: Decision to Grant Registration

Patent event date: 20010730

GRNT Written decision to grant
PR0701 Registration of establishment

Comment text: Registration of Establishment

Patent event date: 20010822

Patent event code: PR07011E01D

PR1002 Payment of registration fee

Payment date: 20010823

End annual number: 3

Start annual number: 1

PG1601 Publication of registration
PR1001 Payment of annual fee

Payment date: 20040702

Start annual number: 4

End annual number: 4

PR1001 Payment of annual fee

Payment date: 20050701

Start annual number: 5

End annual number: 5

PR1001 Payment of annual fee

Payment date: 20060703

Start annual number: 6

End annual number: 6

PR1001 Payment of annual fee

Payment date: 20070703

Start annual number: 7

End annual number: 7

FPAY Annual fee payment

Payment date: 20080708

Year of fee payment: 8

PR1001 Payment of annual fee

Payment date: 20080708

Start annual number: 8

End annual number: 8

LAPS Lapse due to unpaid annual fee
PC1903 Unpaid annual fee