[go: up one dir, main page]

KR19980702723A - 음성 인식 방법 및 장치 - Google Patents

음성 인식 방법 및 장치 Download PDF

Info

Publication number
KR19980702723A
KR19980702723A KR1019970706130A KR19970706130A KR19980702723A KR 19980702723 A KR19980702723 A KR 19980702723A KR 1019970706130 A KR1019970706130 A KR 1019970706130A KR 19970706130 A KR19970706130 A KR 19970706130A KR 19980702723 A KR19980702723 A KR 19980702723A
Authority
KR
South Korea
Prior art keywords
sequence
node
measurand
pronunciation
weighting
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Granted
Application number
KR1019970706130A
Other languages
English (en)
Other versions
KR100406604B1 (ko
Inventor
스캐힐프란시스제임스
시몬스앨리슨다이앤
휘태커스티븐존
Original Assignee
히버트줄리엣제인그레이스
브리티쉬텔리커뮤니케이션즈퍼블릭리미티드캄파니
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by 히버트줄리엣제인그레이스, 브리티쉬텔리커뮤니케이션즈퍼블릭리미티드캄파니 filed Critical 히버트줄리엣제인그레이스
Publication of KR19980702723A publication Critical patent/KR19980702723A/ko
Application granted granted Critical
Publication of KR100406604B1 publication Critical patent/KR100406604B1/ko
Anticipated expiration legal-status Critical
Expired - Fee Related legal-status Critical Current

Links

Classifications

    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L15/00Speech recognition
    • G10L15/01Assessment or evaluation of speech recognition systems
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L15/00Speech recognition
    • G10L15/08Speech classification or search
    • G10L15/18Speech classification or search using natural language modelling
    • G10L15/183Speech classification or search using natural language modelling using context dependencies, e.g. language models
    • G10L15/19Grammatical context, e.g. disambiguation of the recognition hypotheses based on word sequence rules
    • G10L15/197Probabilistic grammars, e.g. word n-grams

Landscapes

  • Engineering & Computer Science (AREA)
  • Physics & Mathematics (AREA)
  • Computational Linguistics (AREA)
  • Health & Medical Sciences (AREA)
  • Audiology, Speech & Language Pathology (AREA)
  • Human Computer Interaction (AREA)
  • Acoustics & Sound (AREA)
  • Multimedia (AREA)
  • Probability & Statistics with Applications (AREA)
  • Artificial Intelligence (AREA)
  • Machine Translation (AREA)
  • Telephonic Communication Services (AREA)
  • Information Retrieval, Db Structures And Fs Structures Therefor (AREA)
  • Selective Calling Equipment (AREA)
  • Character Discrimination (AREA)
  • Document Processing Apparatus (AREA)
  • Navigation (AREA)
  • Fittings On The Vehicle Exterior For Carrying Loads, And Devices For Holding Or Mounting Articles (AREA)
  • Image Analysis (AREA)
  • Computer And Data Communications (AREA)
  • Feedback Control In General (AREA)

Abstract

본 발명은 음성 인식 방법 및 장치에 관한 것으로서, 인식기는 특정한 환경에서 발생할 상기 인식기의 여러 어휘의 단어들이 얼마나 유사한지를 나타내는 (예:앞의 일부 인식으로부터의) 연역적 확률값이 준비되어 있고, 인식 점수는 결과(또는 결과들)가 선택되기전에 이러한 값에 의해 웨이팅되며, 상기 인식기는 또한 인식 프로세스를 빠르게 하기 위해 낮은 점수의 부분적인 결과가 제거되는 가지치기를 사용하고, 좀더 유사한 단어의 조기 가지치기를 피하기위해 가지치기 결정이 이뤄지기전에 확률값이 적용되며, 이러한 확률값을 사용하는 방법이 설명되어 있다.

Description

음성 인식 방법 및 장치
기술될 음성 인식기는 인식 프로세스가 입력 음성 신호가 가장 정확하게 유사한 단어들의 어휘(또는 좀더 일반적으로 발음)중의 어떤 하나를 알아낼 목적으로 착수될 상황에서 응용을 찾고, 정보는 어휘의 단어와 관련된 연역적 확률로서 유효하다. 그러한 상황의 하나의 예가 본 출원인이 출원하여 공동 계류중인 국제 특허 출원 제 WO95/02524에 기술되어 있는 자동 전화 디렉토리 조회 시스템이다. 그 시스템에서,
(ⅰ) 사용자가 도시의 이름을 말한다;
(ⅱ) 음성 인식기가 저장된 도시 데이터를 참조하여, 발음된 도시명과 가장 근접하게 일치하는 일부 도시를 식별하고, 일치의 정확성을 나타내는 점수 또는 확률을 생산한다;
(ⅲ) 상기 식별된 도시에 존재하는 모든 도로명들의 리스트를 편집한다;
(ⅳ) 사용자가 도로명을 말한다;
(ⅴ) 상기 음성 인식기가 다시 점수로 리스트내의 도로명들중에서 발음된 도로명과 가장 근접하게 일치하는 여러 도로명을 식별한다;
(ⅵ) 도로 점수는 상기 도로가 위치한 도시에서 습득된 점수에 따라 각각 웨이팅(weighting)되고, 가장 유사한 도로는 최고로 웨이팅된 점수를 가진 하나로 간주된다.
연역적 확률은 반드시 앞의 음성 인식 프로세스에서 발생되어야할 필요는 없는데, 또다른 디렉토리 조회 시스템으로 예를 들면, 앞서 언급된 특허 출원에도 설명되어 있고 그 지역에서 조회자에 의해 요구될 가장 유사한 도시로서 통계적 정보를 액세스하기 위한 통화의 발원을 식별하는데 신호를 사용한다.
이러한 프로세스는 유지면에서 신뢰성의 장점을 가지고 있는데, 예를 들면 한 도로 점수가 도로명 인식 단계에서 제 1 선택 도시보다 더 높게 표시되지 않는다면, 그 도시내의 도로는 제 2 선택 도시로 선택되지 않는 결과를 낳는다. 그러나 이 프로세스의 단점은 인식기가 상기 도로명 인식 단계를 수행할 때 제한된 수의 후보 도로명만을 생산하기 때문에 이러한 도로명의 짧은 리스트는 비교적 낮은 점수의 도시에 위치한 도로명만을 내포할 수도 있다는 것이다, 즉 높은 점수의 도시에 위치한 도로들 중 낮은 점수의 도로명은 웨이팅 프로세스가 적용되기 전에 이미 인식기에 의해 제거된다.
미국 특허 제 4783803 는 연역적 확률이 앞서 인식된 하나 또는 그 이상의 주어진 패턴의 환경과 관련된 음성 인식 장치에 대해 기술하고 있다. 어떤 단어가 또다른 어떤 단어후에 발생하는 확률을 나타내는 언어 점수는 그 단어들을 포함하는 시퀀스의 습득된 점수와 합쳐진다.
본 발명에 따르면, 음성 인식 방법은:
- 유사성의 측정량을 발생시키기 위해 알려지지않은 발음의 부분을 기준 모델과 비교하는 단계; 그러한 시퀀스들을 정의하는 저장된 데이터에 의해 정의된 다수의 참조 발음의 허용가능한 시퀀스 각각을 위해, 하나 또는 그 이상의 앞선 발음 부분들과 각각의 허용가능한 시퀀스내의 앞선 발음(들)에 대응하는 기준 모델(들)을 비교하여 습득된 먼저 발생된 측정량으로부터의 기증을 포함하는 누적된 유사성의 측정량을 발생시키기위해, 알려지지않은 발음의 다른 부분들과 기준 모델들을 반복적으로 비교하는 단계; 및 허용된 시퀀스 각각의 웨이팅 인수에 따라 누적된 측정량을 웨이팅하는 단계를 구비하고, 상기 웨이팅 단계는 부분적 시퀀스를 시작하는 상기 허용될 수 있는 시퀀스 각각을 위해, 부분적 시퀀스가 시작되는 발음 또는 더 짧은 시퀀스에 대해 발생된 측정량에 사용된 어떠한 웨이팅 인수보다 작은 웨이팅 인수의 값을 결합하여 부분적 시퀀스를 위한 측정량 또는 누적된 측정량의 각각의 계산을 웨이팅하는 것으로 수행된다.
본 발명의 다른 측면에 따르면, 음성 인식 장치는:
- 발음을 나타내는 기준 모델 및 참조 발음의 허용가능한 시퀀스를 정의하는 데이터와 관련하는 데이터를 저장하는 저장 수단;
- 그러한 시퀀스들을 정의하는 저장된 데이터에 의해 정의된 다수의 참조 발음의 허용가능한 시퀀스 각각을 위해, 하나 또는 그 이상의 좀더 빠른 발음 부분들과 각각의 허용가능한 시퀀스내의 좀더 빠른 발음(들)에 대응하는 기준 모델(들)을 비교하므로써 습득된 먼저 발생된 측정량으로부터의 기증을 포함하는 누적된 유사성의 측정량을 발생시키기위해 알려지지않은 발음의 부분들과 기준 모델들을 반복적으로 비교하는 비교 수단; 및
- 허용된 시퀀스 각각의 웨이팅 인수에 따라 누적된 측정량을 웨이팅하는 수단을 구비하고, 상기 웨이팅 수단은 부분적인 시퀀스의 측정량 또는 누적된 측정량을 발음 또는 그 부분적인 시퀀스가 시작하는 좀더 짧은 시퀀스에 대해 발생된 측정량에 사용된 그러한 어떤 웨이팅 인수보다 작은 그 부분적인 시퀀스로 시작하는 각각의 허용가능한 시퀀스의 웨이팅 인수의 값을 결합하는 것에 의해 웨이팅하는 것이 가능하다.
본 발명의 또다른 측면에 따르면, 사운드에 대응하는 기준 모델을 정의하는 저장된 데이터 및 그러한 모델의 허용가능한 시퀀스를 정의하는 저장된 데이터를 참조하고, 각각의 시퀀스는 인식될 발음에 대응하는 음성 인식 방법은, 발음의 좀더 긴 부분과 더 긴 부분의 허용가능한 시퀀스들간의 유사성을 나타내는 갱신된 측정량을 생산하기 위해 발음의 좀더 빠른 부분과 부분의 허용가능한 시퀀스간의 유사성을 나타내는 측정량을 갱신하기 위해 알려지지않은 발음의 부분들과 기준 모델을 비교하는 단계; 측정량이 정의된 유사성 정도보다 작은 것을 나타내는 그 부분적인 시퀀스들을 식별하는 단계; 및 어떤 시퀀스 또는 식별된 부분적인 시퀀스들중의 하나로 시작하는 부분적인 시퀀스에 속하는 다른 측정량의 발생을 억제하는 단계를 구비하고, 측정량과 경계값을 비교하므로써 식별이 수행되며, 상기 경계값은 그 상수를 유지하려는 것과 같이 발생된 측정량의 수에 종속되어 반복적으로 조정되고 억제되지 않는다.
본 발명의 또다른 측면에 따르면, 다수의 허용가능한 참조 발음의 시퀀스를 나타내는 음성 인식 네트워크의 각각의 노드로의 웨이팅 인수 지정 방법은:
- 각 노드를 위해, 부분적인 시퀀스가 시작되는 발음 또는 더 짧은 시퀀스에 적용된 어떤 웨이팅 인수보다 작은 노드를 통합하는 그 부분적인 시퀀스로 시작하는 허용가능한 시퀀스 각각의 웨이팅 인수(들) 값을 결합하는 단계를 구비한다.
상기 웨이팅 인수는 로그 영역에서 발생될 수 있는데, 주어진 웨이팅 인수의 로그는 허용가능한 시퀀스들에 대응하는 네트워크의 마지막 노드로 지정되고; 각각의 선행하는 노드는 그것을 뒤따르는 노드(들)로 지정된 그 최대값인 로그 확률값으로 지정되며; 및 각 노드의 값에서 그것을 선행하는 노드로 지정된 값을 뺀다.
상기 노드는 참조 발음을 나타내는 모델과 관련되어 있고, 상기 관련된 모델의 파라미터는 각 노드로 지정된 웨이팅 인수를 나타내기 위해 변경될 수 있다.
본 발명은 특히 제 1 노드외에 하나 이상의 노드가 하나 이상의 가지를 가지는 트리 구조를 가지고 있는 인식 네트워크에 적용할 수 있다.
지금부터 본 발명의 실시예를 첨부한 도면을 참고하여 예의 방법으로 설명하도록 하겠다.
도 1 은 본 발명의 한 실시예에 따른 장치의 블럭도,
도 2 는 Hidden Markov 모델의 실례가 되는 네트워크,
도 3 은 도 1 의 토큰 기억장치의 내용,
도 4 는 도 1 의 장치에 의한 조작의 응용,
도 5 는 도 1 의 노드 기억장치의 내용,
도 6 은 도 1 의 작동을 나타내는 플로우차트,
도 7 은 도 1 의 어휘 기억장치의 내용 및
도 8 은 도 4 의 응용의 대안적인 조작 함수를 나타내고 있다.
음성 인식에는 기본적으로 두 가지 접근 방법이 있는데, 각각의 발음(예:단어)이 하나 또는 그 이상의 가장 유사한 것들을 식별하기 위해 연속적으로 참조 템플릿 또는 모델과 비교되는 병렬 처리 및 발음(예:음소(phoneme))의 한 부분이 그 부분을 식별하기 위해 참조 템플릿 또는 모델(여기서 모델은 총칭적으로 사용된다)과 비교되는 트리 처리이다.
지금부터 트리 구조를 사용하는 하나의 실시예를 설명하도록 하겠다.
도 1 의 음성 인식기는 디지털 아날로그 변환기(2)에 의해 디지털 형태로 변환되는 음성 신호의 입력(1)을 가지고 있다. 그러면 상기 디지털화된 신호는 예를 들면 10ms 지속 기간 동안 다수의 파라미터들 또는 특징들의 연속적인 각각의 프레임을 평가하는 특징 추출기(feature extractor)(3)로 공급된다. 일반적으로 사용된 특징들중의 하나가 선택될 수 있는데, 예를 들면 멜 주파수 켑스트럴 계수(Mel frequency cepstral coefficients) 또는 LPC(Linear Prediction Coefficients)가 있다.
프레임 당 가능한 특징값 조합의 수는 매우 크고, 다음의 처리를 관리가능한 비율로 줄이기 위해 벡터 양자화(vector quantisation)를 사용하는 것, 즉 특징들의 세트를 제한된 수(m)의 표준 특징 조합들( v1,v2...vm ) 중의 하나와 매치시키는 것이 일반적이다; 이것은 단일 숫자 또는 관찰( Oj )(j번째 프레임용)을 생산하기 위해 벡터 양자화기(4)에 의해 수행된다. 따라서 이것은 일반적인 주기로 관찰 시퀀스 [ Oj ]를 모델 기억장치(6)에 저장되어 있는 모델들의 세트와 대항시키는 분류기(5)에 적용된다. 각각의 모델은 예를 들면 음소와 같은 여러 부(sub)단어와 대응한다. 상기 분류기는 프로그램 기억장치(52)에 저장된 프로그램에 의해 제어되는 중앙 프로세서(51), 노드 기억장치(53), 및 토큰 기억장치(54)를 구비하고 있다. 상기 분류기는 Hidden Markov 모델을 사용하여 분류 프로세스를 수행하는데 지금부터 그 주구조를 설명하도록 하겠다.
개념적으로, Hidden Markov 모델은 가능한 다수(n)의 상태를 가지고 있고, 확률 파라미터에 따라 규칙적인 간격으로 하나의 상태에서 다른 상태로 진전할 수 있거나 또는 대안적으로 동일한 상태에 남아있을 수 있는 블랙 박스이다; 상태(i)에 남아있을 확률이 aii 인 동안 상태(i)에서 상태(j)로의 전이 확률은 aij 이다:
음성 사운드가 일시적으로 배열되기 때문에, 좌우(left-right) 모델은 일반적으로 0≤j-i≤1일 동안만 aij 가 제로가 아닌 경우에 사용된다. 어떤 특정한 상태에서, 생산되는 출력은 제 2 확률 세트에 따라 유한한 수(m)의 가능한 출력들( v1,v2...vm )중의 하나가 될 수 있다. 현 환경에서 vk 는 특정한 음성 특징들의 세트를 식별한다. 상태(j)에 있을 때 출력 vk 을 생산할 확률은 bjk 이다. 따라서
제 3 파라미터는 어떤 특정한 상태에서 시작할 확률이다; 상태(i)에서 시작할 확률은 πi 이다.
따라서 상기 모델은 파라미터들의 세트,
A = [ aij ] (i=1...n, j=1...n)
B = [ bjk ] (j=1...n, k=1...n)
π = [ πi ] (i=1...n)
및 출력 시퀀스를 생산하기 위해 파라미터로 사용될 수 있는 규칙들의 세트로 구성되어 있다. 사실, 상기 모델은 존재하지 않거나 생산되지 않는 출력 시퀀스이다. 오히려, 음성 인식 문제는 질문, 관찰된 음성 특징들의 세트를 각각 나타내는 주어진 v의 시퀀스에서, A, B, π로 정의된 모델 M이 이 시퀀스(상기 관찰 시퀀스)를 생산할 수 있는 확률 P은 얼마인가?의 형식으로 나타내어진다.
만일 이 질문이 각각이 (예를 들어)여러 음소를 나타내는 다수의 다른 모델에게 질문된다면, 가장 높은 확률을 가지고 있는 모델에 의해 표현된 음소는 인식된 것으로 간주된다. 상기 관찰 시퀀스가 시간 t=1에서 t=T 동안 O1,O2...OT 인 것을 가정하자. 이러한 관찰을 가진 상태(j)에 도달할 확률 αT(j) 는 재귀 방식에 의해 주어진다.
α1(j)=πjbj(O1)
상기 모델(M)에 의해 생산되는 관찰 시퀀스(O)의 확률은
이것은 모든 가능한 상태 시퀀스를 고려한 관찰 시퀀스(O)의 확률이다; 실제적으로, 계산의 양을 줄이기 위해 Viterbi 알고리즘을 인용하고 상기 관찰 시퀀스 생산의 가장 높은 확률을 가지고 있는 상태 시퀀스와 관련된 확률을 계산하는 것이 일반적이다: 이러한 경우에 수학식 1 내지 수학식 3 은 다음으로 대체되거나
ø1(j)=πjbj(O1)
또는, 로그 변역에서
logø1(j)=log(πj)log(bj(O1))
모델 기억장치(6)는 각 음소용 A, B, 및 π의 값을 적절한 언어로 포함하고 있다(이들을 함께 모델(M)이라 함). 상기 모델의 파라미터 발생용 트레이닝 프로세스는 형식적이고 더이상 설명되지 않을 것이다. 참고로 Hidden Markov Models for Automatic Speech Recognition: Theory and Application(S.J.Cox, British Telecom Technology Journal 6권 2호, 1988. 4)이 있다. 특정한 관찰 시퀀스(O)에서 음소의 인식은 각 모델( M1...MQ )의 Prv(O\Mi) 을 계산하므로써 수행된다(Q가 모델의 수일 경우): 그 모델이 가장 높은 Prv 를 생산하는 음소는 인식된 것으로 간주된다.
물론, 실제적인 목적으로 단어를 인식할 필요가 있다. 이 프로세스는 네트워크 또는 다수의 노드를 가지고 있는 트리 구조의 형태로 명시화될 수 있다. 뒤에 나타내어지는 바와 같이, 이러한 구조는 각 노드가 메모리의 각 영역에 대응하는 관념으로만 존재한다.
도 2 에는 yes와 no를 구별하는 간단한 네트워크가 나타나 있는데, 여기서는 그 음소 표현이 {y}{eh}{s} 및 {n}{ow}로 표시되어 있다.
도 2 에서 노드(10)는 마지막 노드(16)가 그러한 것과 같이 노이즈 모델(일반적으로 1-상태 모델)과 대응하고 있는데, 이들은 전부터 그리고 앞으로 침묵으로 나타내어지고 있다. 마지막을 제외한 남아있는 노드들은 가리키는 바와 같이 음소와 대응하고 있다. 예를 들면, 상기 노드(11)는 yes의 음소 [y]과 대응하고 있다.
작동에서, 도 3 에 나타난 바와 같이 노드는 다음의 정보를 포함하고 있는 토큰을 수신한다:
- 앞 노드로부터 누적된 점수;
- 앞 노드의 아이덴티티(노드 기억장치내의 주소);
- 이 토큰을 발생시킨 앞 노드에 의해 수신된 토큰의 아이덴티티(토큰 기억장치내의 주소);
- 상기 토큰은 또한 뒤에 그 사용이 설명될 활동/비활동 플래그를 포함하고 있다.
그러한 모든 토큰들은 미래의 참조를 위해 토큰 기억장치(54)에 저장되어 있다.
제 1 노드는 프레임율로 비어있는 토큰에 공급된다. 어떠한 노드에 도착하는 토큰은 음성 입력이 그 노드까지의 경로상에서 상기 노드와 관련된 모델과 이제까지 대응하는 가능성(실제적으로 확률 알고리즘)을 나타내는 점수를 포함하고 있다; 따라서 노드(13)에 도착하는 토큰은 상기 음성이 발음 {y}{eh}과 이제까지 대응하는 가능성을 나타내는 점수를 포함하고 있다. 상기 노드와 관련된 태스크는 새로운 음성 입력 프레임과 그 모델을 비교하는 것이다. 이것은 갱신된 점수를 습득하기 위해 입력 점수가 더해진 확률 Prv 을 습득하기 위해 새로운 프레임에서 수학식 7 내지 수학식 9의 연산을 수행하므로써 이루어진다; 그러면 새로운 토큰은 이 점수를 포함하여 출력되고 다음 노드로 전달된다. 일반적으로, 상기 점수는 토큰을 출력하기전에 그 모델(전형적으로 3)내의 상태의 수와 동일한 다수의 프레임들에 걸쳐 누적된다. 그에 따라, 하나의 토큰이 매 프레임에서 생산된다. 만일 상기 노드가 계속 제 1 토큰을 프로세스하는 동안 토큰을 추가 수신한다면, 상기 노드는 상기 추가 토큰의 점수와 제 1 토큰의 가장 마지막 점수를 비교하고 추가 토큰 점수가 둘보다 낮거나 높은지의 여부에 따라 새로운 토큰을 무시하거나 또는 새로운 토큰을 위해 현 프로세스를 포기한다.
주어진 예에서, 경로는 마지막 노드에서를 제외하고 변환하지 않는다. 만일 변환 경로가 허가되면, 다중 경로의 전달이 가능하기는 하지만 상기 두 토큰의 동시 도착 가능성은 더 낮은 점수를 가지고 있는 하나를 무시하므로써 처리된다.
마지막 노드(16)에서, 변환 경로의 가장 높은 점수를 가진 하나를 제외한 모든 것을 거절하는 것이 가능하지만, 많은 응용에서 둘 또는 그 이상을 보유하는 것이 적절하다. 또한 그들이 마지막 노드에서 좋은 점수를 받을 기회를 가지지 못할 것으로 간주될 정도의 매우 낮은 점수를 가지고 있는 토큰의 전달을 종료하기 위한 준비가 이루어진다; 이 가지치기(pruning) 프로세스는 더 후술될 것이다. 상기 네트워크를 통하는 경로는, 상기 토큰 기억장치내의 토큰들을 식별하기위해 '앞 토큰' 주소들을 사용하여 상기 출력 토큰(들)로부터 성공적인 토큰 시퀀스를 조사하므로써 인식된 것으로 간주되는 발음의 음소를 찾아내기 위해 식별될 수 있다.
트리 구조로 구성되는 HM 모델이 단일한 커다란 모델로 고려될 수 있다는 것이 언급되어야 한다.
앞서 설명한 바와 같이, 인식기는 일반적인 조건에서 형식적이다. 지금부터 설명할 상기 인식기의 다른 특징은 인식 트리까지의 연역적 확률의 전달의 대상을 가지고 있다. 단어 cat,cab,cob,dog, 및 den을 구별하기 위한 도 4 의 트리를 고려해보자. 일부 앞 프로세스의 결과로서, 이 발생의 연역적 확률이 웨이팅값 0.5,0.2,0.3,0.1,0.1로 나타내어지는 것을 가정해보자. 이것은 노드(23, 24, 26, 29, 31)에서의 점수 입력이 다른 결정이 있기전에 이러한 값에 의해 웨이팅될 필요가 있다는 것을 나타낸다. 그러나 웨이팅은 다음과 같이 상기 트리내의 각각의 노드에 적용된다. 따라서 단어 cat 또는 cab 또는 cob의 확률은 dog 또는 den의 대응값이 0.1+0.1+0.05=0.2 일 때 웨이팅 0.5+0.2+0.3=1.0로 나타내어진다. 그 결과로 노드(21)로의 점수 입력은 10의 인수로 웨이팅되고, 노드(27)로의 점수 입력은 0.2의 인수로 웨이팅된다. 한 쪽에는 cat 또는 cab과 관련된 값 및 다른 한 쪽에는 cob과 관련된 값이 각각 0.7 및 0.3 이고, 그래서 노드(22,25)로의 입력은 적절하게 웨이팅될 필요가 있다. 그러나 1.0의 인수는 이미 상기 노드(21)에 의해 이 가지로 사용되었고, 그래서 노드(22,25)에서의 웨이팅은
노드(22)에서의 웨이팅
노드(25)에서의 웨이팅
유사하게 노드(23,24)에서는
노드(23)에서의 웨이팅
노드(24)에서의 웨이팅
노드(28,30)인 동안 웨이팅은
물론, 도 4 의 트리는 다만 프로세스의 개념적인 표현일뿐이다. 실제로, 각 노드는 다음의 정보를 포함하는 노드 기억장치내의 엔트리(도 5 에 나타난 바와 같이)에 의해 표현된다:
- 사용될 모델의 주소(모델 기억장치내);
- 네트워크내의 다음 노드의 주소(들);
- 상기 노드가 활동중인지 아닌지의 여부를 나타내는 플래그;
- 상기 노드와 관련된 웨이팅을 가리키는 로그값;
- 연산의 결과용 임시 기억장치.
처음 두 아이템의 내용은 상기 인식기의 어휘가 셋업되었을 경우에 결정된다. 이 프로세스는 인식될 단어의 리스트 및 각각을 위한 그 단어의 사운드에 대응하는 음소 모델들의 시퀀스를 식별하는 주소들의 스트링을 포함하고 있는 어휘 기억장치(7)(도 1)로의 참조에 의해 수행된다(도 7 도 참조). 상기 노드 기억장치 내용의 발생은 형식적이다(후술되는 로그 웨이팅값의 발생을 위해 세이브); 그것은 각 단어에 대응하는 노드 주소 시퀀스의 어휘 기억장치로의 삽입을 포함한다.
CPU(51)는 프로그램 기억장치(52)내에 저장된 프로그램의 제어하에서 다음의 프로세스를 수행한다; 도 6 의 플로우차트에 나타난 바와 같다:
처음으로, 제 1 노드(들)로의 입력으로서 비어있는 토큰을 생성한다-즉, 노드 주소 를 발생시키는 제로(즉, log(1)) 점수 및 제로(이것은 상기 토큰이 제 1 노드에 의해 프로세스되는 것을 의미하는 것으로 취급될 수 있다) 및 앞 프레임의 데이트를 가지고 있는 토큰 기억장치내에 엔트리를 생성한다. 그러면 이 제 1 노드(들)은 활동중인 것으로 간주된다.
그리고, 각 프레임 주기는 다음의 단계를 수행한다:
- 각각의 활동 노드를 위해:
- 만일 HMM 프로세스가 시작되고 노드에 의해 처리될 어떠한 토큰도 마지막 프레임 동안 발생되지 않을 경우, 현 프레임 관찰(O)을 사용하여 HMM 프로세스를 갱신한다. 만일 상기 프로세스가 n 프레임(n이 상기 노드와 관련된 특정한 HMM 내의 상태의 수일 경우)에 도달하는 경우, 상기 노드 기억장치에 저장된 로그 연역적 확률값을 계산된 가능성값과 더하고, 결과로 상기 토큰 기억장치내에 새로운 엔트리를 생성한다(그럼에도 불구하고 현 프로세스는 다음 프레임을 위해 지속할 수도 있다);
- 만일 어떤 프로세스도 시작되지 않고 상기 노드에 의해 처리될 토큰이 마지막 프레임동안 생성되는 경우(즉, 활동 플래그가 세트되기만 한 경우), 현 프레임 관찰(O)을 사용하여 새로운 HMM 프로세스를 시작한다. 단일 상태 HMM의 경우에서는, 결과로 상기 토큰 기억장치내에 새로운 엔트리를 생성한다(그럼에도 불구하고 현 프로세스는 다음 프레임을 위해 지속할 수도 있다);
- 만일 프로세스가 시작되고 상기 노드에 의해 처리될 토큰이 발생되는 경우, 입력 점수 및 내부 점수를 비교하고 그 결과에 따라 앞에서와 같이 변경되지 않았거나 또는 제 1 상태로의 입력으로서의 입력 점수로 프로세스를 지속한다.
- 각각의 발생된 토큰을 위해:
- 상기 토큰 점수로부터 발생하는 노드 주소를 습득;
- 상기 발생하는 노드를 위해 상기 노드 기억장치 엔트리로부터 '다음 노드' 주소(들)을 습득;
- 그러한 각각의 다음 노드를 다음 프레임을 위해 활동중인 것으로 플래그한다.
- 만일 상기 토큰 기억장치내에 새로운 엔트리가 생성되는 경우:
- 만일 관련된 점수가 저장된 모든 토큰의 최대 점수수를 초과할 경우, 이 수를 갱신한다;
- 만일 관련된 점수가 예정된 한계(예:50) 이상으로 저장된 모든 토큰의 최대 점수수보다 작은 경우, 상기 토큰 기억장치 엔트리를 제거한다(가지치기 단계). 만일 이것이 어떤 노드가 입력 토큰 및 출력 토큰을 가지고 있지 않는 결과로 나타난다면, 그것을 비활성화한다(즉, 상기 노드 기억장치 엔트리를 제거한다).
- 마지막 노드에서:
인식이 완료되고 인식 경로의 조사가 일어날 수 있는 경우에 결정은 특정한 측정량이 체크되는 것에 대항하여 시스템의 규칙 및 경계에 기초하고 있다. 따라서, 모든 프레임에서, 얼마나 많은 프레임들이 마지막 노이즈 노드에서 쓰였는지를 검사하기 위해 상기 마지막 노드에서 나타나는 최고의 토큰을 조사한다(네트워크내의 모든 경로는 엔드로서의 노이즈 노드를 가지고 있는 것으로 가정). 만일 지속 기간이 일부 경계보다 크고 경로 점수가 다른 경계보다 좋다면, 인식을 중단한다(즉, 본질적으로 완성 경로의 인식 점수가 상당히 좋고 상기 경로가 엔드에서 적당한 양의 노이즈를, 전형적으로 20프레임, 즉 0.32초로 포함하고 있을 때까지 기다린다). 이것은 음성 검출 알고리즘의 끝의 간단한 명세이다. 실제로, 상기 알고리즘은 신호의 SNR상에서 추가적인 체크에 의해 노이즈 에너지의 데이트 및 변천으로 확장될 수 있다. 또한 음성 검출의 끝이 결국에는 일어날 것이라는 것을 보장하기 위해 상기 체크가 계속적으로 실패하는 상황에서 다수의 타임아웃이 있다.
그러면, 가장 높은 점수의 토큰을 위해 또는 각각의 NOUT 을 위해, NOUT 이 요구된 출력 선택의 수일 경우:
- (a) 상기 토큰에서 앞의 노드 주소 및 거기서 관련된 모델 식별자를 검색한다;
- (b) 앞의 토큰 기억장치 엔트리를 검색한다;
- (c) 모든 모델들이 식별될 때까지 (a)와 (b)를 반복한다.
이제부터 인식된 단어는 그들의 관련된 점수와 함께 유효하다.
상기 명세는 인식 프로세스중의 하나이다: 그러한 프로세스가 시작할 수 있기전에 로그 연역적 확률이 상기 노드 기억장치로 입력하는 것이 필요하다. 다수의 도시명(예) 각각이 그것으로 지정된 가능성을 가지고 있을 때, 앞의 인식 프로세스가 도 7 에 도시된 포맷으로 연역적 확률값을 생성한다고 가정하자. CPU(52)는 노드 연역적 확률값을 추론하는 동안 뒤따른 셋업 프로세스를 수행한다.
먼저 어휘 기억장치(7)를 참조하여 어휘를 노드 시퀀스로 번역하는 것이 필요하고, 그래서, 인식 트리를 통해 각각의 가능한 경로를 위해, 루트로서 각 노드를 위한 로그 연역적 값의 합계가 알려진다. 그러면 도 4 의 설명에서 행해진 바와 같이 각각의 노드를 위한 각 값을 계산하는 것이 필요하다:
(a) 주어진 확률값을 각 단어에 대응하는 마지막 노드로 지정한다;
(b) 오른쪽에서 왼쪽으로 진행하면서(도 4 에 도시된 바와 같이), 각 노드에 그것을 따르는 노드들로 지정된 그들의 합인 확률값을 지정한다(제 1 노드는 1의 지정값을 가지고 있도록 도 4 에서 취해진다);
(c) 왼쪽에서 오른쪽으로 진행하면서, 각 노드의 확률값을 그것을 선행하는 노드로 지정된 값으로 나눈다;
(d) 모든 값들에 로그를 취한다.
실제로, 계산적으로 덜 번거로운 방법은 내내 로그값으로 작업하고, 합보다 최대값을 취하는 것이다. 따라서, (도 8 에 나타난 바와 같이):
(a) 주어진 로그 확률값을 각 단어에 대응하는 마지막 노드로 지정한다;
(b) 그것을 따르는 노드 또는 노드들로 지정된 것들의 최대값인 로그 확률값을 각 노드로 지정한다;
(c) 각 노드의 값에서 그것을 선행하는 노드로 지정된 값을 뺀다.
가지를 내지않은 링크(꺾쇠괄호에 도시됨)에서의 연산은 물론 수행될 필요가 없다.
앞의 명세에서, 기본적인 기준은 만일 토큰들이 어떤 때에 경계값 즉, '최고의 경로' 점수 부분 아래로 떨어진 점수를 진행할 경우 그들은 제거된다는 것이다. 사실 로그 확률이 사용되기 때문에 로그 점수와 최고 평균 수행을 제공하기 위해 세트되는 고정된 경계값을 뺀 최고 로그값간의 비교가 있다.
그러나, 사용을 위한 최적 가지치기 레벨은 실제로 사실적인 발음에 종속된다. 따라서 변경에서, 가지치기는 인식기상에서 현 계산적인 부하의 기능으로서 조정된다. 예를 들면, 그것은 활성 노드의 수에 종속되어 조정될 수 있다. 따라서,
1. 만일 소수의 노드만이 활동중일 경우, 가지치기 경계는 완화된다- 그 이상의 노드는 잠재적으로 더 높은 정확성을 이끌어 활동중인 것으로 남아있는다.
2. 만일 많은 노드들이 활동중일 경우, 가지치기 경계는 계산량에서 감소를 이끌어 강화된다.
이것의 하나의 가능한 구현은 활성 노드의 수를 대체로 상수로 유지하기 위해 경계를 조정하는 것이다. 따라서, 각 시간 프레임, 활성 노드( na )는 요구된 목표( nt )(예:1300)와 비교된다. 경계값( MT )운 최저값( Mmin )(예:75)과 최고값( Mmax )(예:150) 사이에서 스텝값( MS )만큼씩 시작값( MO )(예:100)을 벗어나는 것이 허용된다. 다음의 스텝이 각 시간 프레임에서 일어난다.
(1) 만일 na nt 이고 MT Mmin 이면 M=M-MS
(2) 만일 na nt 이고 MT Mmin 이면 M=M+MS
그러나 다른 기준이 적용될 수 있는데, 예를 들면 결정은 활성 모델 상태의 수 또는 (특히 매우 많은 어휘를 가지고 있는 인식기에서) 활성 단어의 수에 기초할 수 있다.
이 다이나믹한 경계 조정은 연역적 웨이팅을 사용하지 않는 시스템에서도 사용될 수 있다.
앞서 설명한 인식기는 특정한 상태에서 발생된 가능한 관찰의 유한수( M )만을 가지고 있도록 제한된다. 그러나, 만일 요구된다면, 확률( bjk )은 어떤 관찰( O )의 값을 가지고 있는 연속적인 확률 밀도( bj(O) )에 의해 대체될 수도 있다. 공지된 바와 같이 일반적인 연속 확률 밀도는 좀더 한정된 형태 - 일반적으로 가우스 분포의 연속 기능 이산수의 웨이팅된 합(또는 혼합)에 의해 성공적으로 근접될 수 있다. 따라서 확률 밀도 함수는:
혼합에서 X는 요소들(또는 모드들)의 수, cjx 는 상태(j)에서 모드(x)의 비중, 및 N[O,μjx,Ujx] 은 평균 벡터( μjx ) 및 공분산 행렬( Ujx )을 가진 다변량 정규 분포에서 벡터( O )를 그리는 확률이다.
가우스 분포에서:
d는 벡터의 크기이다. 이것은 만일 U가 기간( σi )을 가지고 있는 대각선 행렬인 경우,
υi 는 요소( O )이다.
수학식 1 내지 수학식 9 의 인식 프로세스는 변화되지 않는다; 정세도(definition)(b)만이 다르다. 그러한 연속 밀도 모델의 트레이닝 프로세스가 공지되어 있고 따라서 기술되지 않을 것이다.
병렬 프로세싱 방법은 지금까지 기술된 트리 프로세싱 방법보다 간단하다. 가지치기와 관련한 그러한 전형적인 프로세스는 톱의 실행 리스트를 유지하는 것과 관련되어 있다 (예)모델로서 여섯 개의 '최고' 후보들이 검사된다. 예를 들면:
(a) 알려지지 않은 단어를 처음 여섯 개 모델과 비교하고 각각의 유사 점수를 기록하여 이러한 모델들의 리스트를 발생시킨다;
(b) 알려지지 않은 단어를 다른 모델과 비교한다. 만일 습득된 점수가 리스트내의 어떤 것보다 더 높을 경우-즉, 좀더 유사성을 나타낼 경우-리스트내의 가장 낮은 점수의 엔트리 대신 새로운 모델 및 점수를 대용한다;
(c) 모든 모델들이 프로세스될 때까지 스텝(b)을 반복한다. 이 프로세스는 여섯 개 가장 높은 점수의 모델의 리스트로 끝난다. 만일 연역적 확률이 최고의 후보 선택에 앞서 사용되는 경우, 여섯개의 점수 각각은 연관된 웨이팅 인수로 곱해지고 가장 비중있는 점수를 가지고 있는 후보가 선택된다.
제안된 방법에서, 웨이팅은 그 자신의 인식 프로세스동안 적용된다; 즉,
(a) 각각의 유사 점수를 발생시켜 알려지지 않은 단어와 처음 여섯개의 모델들을 비교한다;
(b) 알려지지 않은 단어와 다른 모델을 비교한다. 점수에 그 모델의 웨이팅 인수를 곱한다. 만일 습득된 웨이팅 점수가 리스트내의 어떤 것보다 클 경우, 가장 낮은 웨이팅 점수를 가지고 있는 리스트내의 엔트리 대신 새로운 모델 및 웨이팅 점수를 대용한다;
(c) 모든 모델들이 프로세스될 때까지 스텝(b)을 반복한다.

Claims (16)

  1. - 유사성의 측정량을 발생시키기 위해 알려지지않은 발음의 부분을 기준 모델과 비교하는 단계;
    - 그러한 시퀀스들을 정의하는 저장된 데이터에 의해 정의된 다수의 참조 발음의 허용가능한 시퀀스 각각을 위해, 하나 또는 그 이상의 앞선 발음 부분들과 각각의 허용가능한 시퀀스내의 앞선 발음(들)에 대응하는 기준 모델(들)을 비교하여 습득된 먼저 발생된 측정량으로부터의 기증을 포함하는 누적된 유사성의 측정량을 발생시키기위해, 알려지지않은 발음의 다른 부분들과 기준 모델들을 반복적으로 비교하는 단계; 및
    - 허용된 시퀀스 각각의 웨이팅 인수에 따라 누적된 측정량을 웨이팅하는 단계를 구비하고, 상기 웨이팅 단계는 부분적 시퀀스를 시작하는 상기 허용될 수 있는 시퀀스 각각을 위해, 부분적 시퀀스가 시작되는 발음 또는 더 짧은 시퀀스에 대해 발생된 측정량에 사용된 어떠한 웨이팅 인수보다 작은 웨이팅 인수의 값을 결합하여 부분적 시퀀스를 위한 측정량 또는 누적된 측정량의 각각의 계산을 웨이팅하는 것으로 수행되는 것을 특징으로 하는 음성 인식 방법.
  2. 제 1 항에 있어서,
    웨이팅되고 누적된 측정량이 가지치기 경계에 의해 정의된 정도로 그러한 다른 시퀀스의 측정량보다 유사성을 나타내는 것이 작은 어떤 시퀀스의 다른 연속적인 비교를 제외하는 단계를 포함하는 것을 특징으로 하는 음성 인식 방법.
  3. 제 2 항에 있어서,
    상기 가지치기 기준은 그 상수를 유지하려고 하는 것과 같이 발생된 측정량의 수에 종속되어 반복적으로 조정되고 다른 반복적인 비교에서 제외되지 않는 것을 특징으로 하는 음성 인식 방법.
  4. - 발음을 나타내는 기준 모델 및 참조 발음의 허용가능한 시퀀스를 정의하는 데이터와 관련하는 데이터를 저장하는 저장 수단;
    - 그러한 시퀀스들을 정의하는 저장된 데이터에 의해 정의된 다수의 참조 발음의 허용가능한 시퀀스 각각을 위해, 하나 또는 그 이상의 좀더 빠른 발음 부분들과 각각의 허용가능한 시퀀스내의 좀더 빠른 발음(들)에 대응하는 기준 모델(들)을 비교하므로써 습득된 먼저 발생된 측정량으로부터의 기증을 포함하는 누적된 유사성의 측정량을 발생시키기위해 알려지지않은 발음의 부분들과 기준 모델들을 반복적으로 비교하는 비교 수단; 및
    - 허용된 시퀀스 각각의 웨이팅 인수에 따라 누적된 측정량을 웨이팅하는 수단을 구비하고, 상기 웨이팅 수단은 부분적인 시퀀스의 측정량 또는 누적된 측정량을 발음 또는 그 부분적인 시퀀스가 시작하는 좀더 짧은 시퀀스에 대해 발생된 측정량에 사용된 그러한 어떤 웨이팅 인수보다 작은 그 부분적인 시퀀스로 시작하는 각각의 허용가능한 시퀀스의 웨이팅 인수의 값을 결합하는 것에 의해 웨이팅하는 것이 가능한 것을 특징으로 하는 음성 인식 장치.
  5. 제 4 항에 있어서,
    웨이팅되고 누적된 측정량이 예정된 가지치기 경계에 의해 정의된 정도로 그러한 다른 시퀀스의 측정량보다 유사성을 나타내는 것이 작은 어떤 시퀀스의 다른 연속적인 비교를 제외하는 수단을 더 포함하는 것을 특징으로 하는 음성 인식 장치.
  6. 제 5 항에 있어서,
    상기 가지치기 기준은 그 상수를 유지하려는 것과 같이 발생된 측정량의 수에 종속되어 반복적으로 조정되고 다른 반복적인 비교에서 제외되지 않는 것을 특징으로 하는 음성 인식 장치.
  7. 사운드에 대응하는 기준 모델을 정의하는 저장된 데이터 및 그러한 모델의 허용가능한 시퀀스를 정의하는 저장된 데이터를 참조하고, 각각의 시퀀스는 인식될 발음에 대응하는 음성 인식 방법에 있어서,
    발음의 좀더 긴 부분과 더 긴 부분의 허용가능한 시퀀스들간의 유사성을 나타내는 갱신된 측정량을 생산하기 위해 발음의 좀더 빠른 부분과 부분의 허용가능한 시퀀스간의 유사성을 나타내는 측정량을 갱신하기 위해 알려지지않은 발음의 부분들과 기준 모델을 비교하는 단계;
    측정량이 정의된 유사성 정도보다 작은 것을 나타내는 그 부분적인 시퀀스들을 식별하는 단계; 및
    어떤 시퀀스 또는 식별된 부분적인 시퀀스들중의 하나로 시작하는 부분적인 시퀀스에 속하는 다른 측정량의 발생을 억제하는 단계를 구비하고,
    측정량과 경계값을 비교하므로써 식별이 수행되며, 상기 경계값은 그 상수를 유지하려는 것과 같이 발생된 측정량의 수에 종속되어 반복적으로 조정되고 억제되지 않는 것을 특징으로 하는 음성 인식 방법.
  8. 각 노드를 위해, 부분적인 시퀀스가 시작되는 발음 또는 더 짧은 시퀀스에 적용된 어떤 웨이팅 인수보다 작은 노드를 통합하는 그 부분적인 시퀀스로 시작하는 허용가능한 시퀀스 각각의 웨이팅 인수(들) 값을 결합하는 단계를 구비하는 것을 특징으로 하는 다수의 허용가능한 참조 발음의 시퀀스를 나타내는 음성 인식 네트워크의 각각의 노드로의 웨이팅 인수를 지정하는 방법.
  9. 제 8 항에 있어서,
    - 허용가능한 시퀀스들에 대응하는 네트워크의 마지막 노드로 주어진 웨이팅 인수의 로그를 지정하는 단계;
    - 각각의 선행하는 노드로 그것을 뒤따르는 노드(들)로 지정된 그 최대값인 로그 확률값을 지정하는 단계; 및
    - 각 노드의 값에서 그것을 선행하는 노드로 지정된 값을 빼는 단계를 구비하는 것을 특징으로 하는 웨이팅 인수를 지정하는 방법.
  10. 제 8 항 또는 제 9 항에 있어서,
    상기 노드는 참조 발음을 나타내는 모델과 관련되어 있고, 상기 관련된 모델의 파라미터는 각 노드로 지정된 웨이팅 인수를 나타내기 위해 변경되는 것을 특징으로 하는 웨이팅 인수를 지정하는 방법.
  11. 제 8 항, 제 9 항 또는 제 10 항에 있어서,
    상기 인식 네트워크는 트리 구조를 가지고 있고, 제 1 노드를 제외한 하나 이상의 노드는 하나 이상의 가지를 가지고 있는 것을 특징으로 하는 웨이팅 인수를 지정하는 방법.
  12. 제 8 항, 제 9 항, 제 10 항 또는 제 11 항에 따른 방법에 의해 형성된 웨이팅 인수를 통합하는 네트워크가 사용되는 웨이팅 인수를 지정하는 방법.
  13. 제 8 항, 제 9 항, 제 10 항 또는 제 11 항에 따른 방법에 의해 형성된 웨이팅 인수를 통합하는 네트워크와 관련하는 데이터를 포함하는 웨이팅 인수를 지정하는 방법.
  14. 첨부한 도면을 참조하여 본 명세서에서 설명한 바와 같은 웨이팅 인수를 지정하는 방법.
  15. 첨부한 도면을 참조하여 본 명세서에서 설명한 바와 같은 음성 인식 방법.
  16. 첨부한 도면을 참조하여 본 명세서에서 설명한 바와 같은 음성 인식 장치.
KR1019970706130A 1995-03-07 1996-03-07 음성인식방법및장치 Expired - Fee Related KR100406604B1 (ko)

Applications Claiming Priority (2)

Application Number Priority Date Filing Date Title
EP95301477 1995-03-07
EP95301477.6 1995-03-07

Publications (2)

Publication Number Publication Date
KR19980702723A true KR19980702723A (ko) 1998-08-05
KR100406604B1 KR100406604B1 (ko) 2004-02-18

Family

ID=8221113

Family Applications (1)

Application Number Title Priority Date Filing Date
KR1019970706130A Expired - Fee Related KR100406604B1 (ko) 1995-03-07 1996-03-07 음성인식방법및장치

Country Status (13)

Country Link
US (1) US5999902A (ko)
EP (1) EP0813735B1 (ko)
JP (1) JP4180110B2 (ko)
KR (1) KR100406604B1 (ko)
CN (1) CN1150515C (ko)
AU (1) AU702903B2 (ko)
CA (1) CA2211636C (ko)
DE (1) DE69615667T2 (ko)
ES (1) ES2164870T3 (ko)
MX (1) MX9706407A (ko)
NO (1) NO974097L (ko)
NZ (1) NZ302748A (ko)
WO (1) WO1996027872A1 (ko)

Cited By (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
KR100450396B1 (ko) * 2001-10-22 2004-09-30 한국전자통신연구원 트리탐색기반 음성 인식 방법 및 이를 이용한 대용량 연속음성 인식 시스템
KR100748720B1 (ko) * 2006-02-09 2007-08-13 삼성전자주식회사 다중 계층 중심 어휘 목록에 기초하여 대규모 단어 음성인식 방법 및 그 장치

Families Citing this family (64)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP3061114B2 (ja) * 1996-11-25 2000-07-10 日本電気株式会社 音声認識装置
GB9723214D0 (en) 1997-11-03 1998-01-07 British Telecomm Pattern recognition
US6411929B1 (en) * 1997-11-27 2002-06-25 Hitachi, Ltd. Speech recognition method and system
US7937260B1 (en) * 1998-06-15 2011-05-03 At&T Intellectual Property Ii, L.P. Concise dynamic grammars using N-best selection
US6574596B2 (en) * 1999-02-08 2003-06-03 Qualcomm Incorporated Voice recognition rejection scheme
AU777693B2 (en) 1999-03-05 2004-10-28 Canon Kabushiki Kaisha Database annotation and retrieval
US20050149462A1 (en) * 1999-10-14 2005-07-07 The Salk Institute For Biological Studies System and method of separating signals
US6424960B1 (en) * 1999-10-14 2002-07-23 The Salk Institute For Biological Studies Unsupervised adaptation and classification of multiple classes and sources in blind signal separation
US7310600B1 (en) 1999-10-28 2007-12-18 Canon Kabushiki Kaisha Language recognition using a similarity measure
US6882970B1 (en) 1999-10-28 2005-04-19 Canon Kabushiki Kaisha Language recognition using sequence frequency
WO2001031627A2 (en) 1999-10-28 2001-05-03 Canon Kabushiki Kaisha Pattern matching method and apparatus
AU1767600A (en) * 1999-12-23 2001-07-09 Intel Corporation Speech recognizer with a lexical tree based n-gram language model
US6920421B2 (en) * 1999-12-28 2005-07-19 Sony Corporation Model adaptive apparatus for performing adaptation of a model used in pattern recognition considering recentness of a received pattern data
GB0011798D0 (en) * 2000-05-16 2000-07-05 Canon Kk Database annotation and retrieval
GB0015233D0 (en) 2000-06-21 2000-08-16 Canon Kk Indexing method and apparatus
GB0023930D0 (en) 2000-09-29 2000-11-15 Canon Kk Database annotation and retrieval
GB0027178D0 (en) 2000-11-07 2000-12-27 Canon Kk Speech processing system
GB0028277D0 (en) 2000-11-20 2001-01-03 Canon Kk Speech processing system
WO2002087201A1 (en) * 2001-04-19 2002-10-31 British Telecommunications Public Limited Company Voice response system
US7970610B2 (en) * 2001-04-19 2011-06-28 British Telecommunication Public Limited Company Speech recognition
US20030018451A1 (en) * 2001-07-16 2003-01-23 Level 3 Communications, Inc. System, method and computer program product for rating enterprise metrics
JP2003108187A (ja) * 2001-09-28 2003-04-11 Fujitsu Ltd 類似性評価方法及び類似性評価プログラム
US7356466B2 (en) * 2002-06-28 2008-04-08 Samsung Electronics Co., Ltd. Method and apparatus for performing observation probability calculations
EP1387232A1 (fr) * 2002-07-29 2004-02-04 Centre National De La Recherche Scientifique Procédé de détermination de la valeur à donner à différents paramètres d'un système
US7228275B1 (en) * 2002-10-21 2007-06-05 Toyota Infotechnology Center Co., Ltd. Speech recognition system having multiple speech recognizers
US7805299B2 (en) * 2004-03-01 2010-09-28 Coifman Robert E Method and apparatus for improving the transcription accuracy of speech recognition software
US7852993B2 (en) * 2003-08-11 2010-12-14 Microsoft Corporation Speech recognition enhanced caller identification
US7899671B2 (en) * 2004-02-05 2011-03-01 Avaya, Inc. Recognition results postprocessor for use in voice recognition systems
US7869588B2 (en) * 2004-05-03 2011-01-11 Somatek System and method for providing particularized audible alerts
US9117460B2 (en) * 2004-05-12 2015-08-25 Core Wireless Licensing S.A.R.L. Detection of end of utterance in speech recognition system
US20060206330A1 (en) * 2004-12-22 2006-09-14 David Attwater Mode confidence
US7865362B2 (en) 2005-02-04 2011-01-04 Vocollect, Inc. Method and system for considering information about an expected response when performing speech recognition
US8200495B2 (en) * 2005-02-04 2012-06-12 Vocollect, Inc. Methods and systems for considering information about an expected response when performing speech recognition
US20090024183A1 (en) 2005-08-03 2009-01-22 Fitchmun Mark I Somatic, auditory and cochlear communication system and method
EP2026327A4 (en) * 2006-05-31 2012-03-07 Nec Corp LANGUAGE MODEL LEARNING, LANGUAGE MODEL LEARNING AND LANGUAGE MODEL LEARNING PROGRAM
US7899251B2 (en) * 2006-06-05 2011-03-01 Microsoft Corporation Balancing out-of-dictionary and in-dictionary recognition scores
CN101105894B (zh) * 2006-07-12 2011-08-10 陈修志 多功能语言学习机
KR100925479B1 (ko) * 2007-09-19 2009-11-06 한국전자통신연구원 음성 인식 방법 및 장치
GB2453366B (en) * 2007-10-04 2011-04-06 Toshiba Res Europ Ltd Automatic speech recognition method and apparatus
US7437291B1 (en) * 2007-12-13 2008-10-14 International Business Machines Corporation Using partial information to improve dialog in automatic speech recognition systems
US20090198490A1 (en) * 2008-02-06 2009-08-06 International Business Machines Corporation Response time when using a dual factor end of utterance determination technique
US20090307003A1 (en) * 2008-05-16 2009-12-10 Daniel Benyamin Social advertisement network
US8086631B2 (en) * 2008-12-12 2011-12-27 Microsoft Corporation Search result diversification
KR101217525B1 (ko) 2008-12-22 2013-01-18 한국전자통신연구원 비터비 디코더와 이를 이용한 음성 인식 방법
FI20086260L (fi) * 2008-12-31 2010-09-02 Teknillinen Korkeakoulu Menetelmä hahmon löytämiseksi ja tunnistamiseksi
US8442829B2 (en) * 2009-02-17 2013-05-14 Sony Computer Entertainment Inc. Automatic computation streaming partition for voice recognition on multiple processors with limited memory
US8504550B2 (en) * 2009-05-15 2013-08-06 Citizennet Inc. Social network message categorization systems and methods
US8306191B2 (en) * 2009-06-12 2012-11-06 Avaya Inc. Caller recognition by voice messaging system
US8380697B2 (en) * 2009-10-21 2013-02-19 Citizennet Inc. Search and retrieval methods and systems of short messages utilizing messaging context and keyword frequency
US8554854B2 (en) * 2009-12-11 2013-10-08 Citizennet Inc. Systems and methods for identifying terms relevant to web pages using social network messages
US8612293B2 (en) 2010-10-19 2013-12-17 Citizennet Inc. Generation of advertising targeting information based upon affinity information obtained from an online social network
US8615434B2 (en) 2010-10-19 2013-12-24 Citizennet Inc. Systems and methods for automatically generating campaigns using advertising targeting information based upon affinity information obtained from an online social network
US9063927B2 (en) 2011-04-06 2015-06-23 Citizennet Inc. Short message age classification
US9002892B2 (en) 2011-08-07 2015-04-07 CitizenNet, Inc. Systems and methods for trend detection using frequency analysis
US9053497B2 (en) 2012-04-27 2015-06-09 CitizenNet, Inc. Systems and methods for targeting advertising to groups with strong ties within an online social network
CN103544952A (zh) * 2012-07-12 2014-01-29 百度在线网络技术(北京)有限公司 语音自适应方法、装置及系统
US10055767B2 (en) 2015-05-13 2018-08-21 Google Llc Speech recognition for keywords
CN105356935B (zh) * 2015-11-27 2017-10-31 天津光电通信技术有限公司 一种实现同步数字体系高阶交叉的交叉板及实现方法
JP6618884B2 (ja) * 2016-11-17 2019-12-11 株式会社東芝 認識装置、認識方法およびプログラム
US10565320B1 (en) 2018-09-28 2020-02-18 International Business Machines Corporation Dynamic multilingual speech recognition
RU2744063C1 (ru) 2018-12-18 2021-03-02 Общество С Ограниченной Ответственностью "Яндекс" Способ и система определения говорящего пользователя управляемого голосом устройства
KR102805835B1 (ko) * 2020-07-17 2025-05-12 삼성전자주식회사 음성 신호 처리 방법 및 장치
CN112786007B (zh) * 2021-01-20 2024-01-26 北京有竹居网络技术有限公司 语音合成方法、装置、可读介质及电子设备
CN117166996B (zh) * 2023-07-27 2024-03-22 中国地质大学(北京) 地质参数门槛值的确定方法、装置、设备及存储介质

Family Cites Families (9)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US4860358A (en) * 1983-09-12 1989-08-22 American Telephone And Telegraph Company, At&T Bell Laboratories Speech recognition arrangement with preselection
US4783803A (en) * 1985-11-12 1988-11-08 Dragon Systems, Inc. Speech recognition apparatus and method
US5202952A (en) * 1990-06-22 1993-04-13 Dragon Systems, Inc. Large-vocabulary continuous speech prefiltering and processing system
JP2974387B2 (ja) * 1990-09-05 1999-11-10 日本電信電話株式会社 ワードスポッティング音声認識方法
KR920013250A (ko) * 1990-12-28 1992-07-28 이헌조 음성인식 시스템의 변별적 특성을 이용한 숫자음 인식방법
US5267345A (en) * 1992-02-10 1993-11-30 International Business Machines Corporation Speech recognition apparatus which predicts word classes from context and words from word classes
JPH06175685A (ja) * 1992-12-09 1994-06-24 Matsushita Electric Ind Co Ltd パタン認識装置及びヒドゥンマルコフモデル作成装置
US5699456A (en) * 1994-01-21 1997-12-16 Lucent Technologies Inc. Large vocabulary connected speech recognition system and method of language representation using evolutional grammar to represent context free grammars
JP2775140B2 (ja) * 1994-03-18 1998-07-16 株式会社エイ・ティ・アール人間情報通信研究所 パターン認識方法、音声認識方法および音声認識装置

Cited By (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
KR100450396B1 (ko) * 2001-10-22 2004-09-30 한국전자통신연구원 트리탐색기반 음성 인식 방법 및 이를 이용한 대용량 연속음성 인식 시스템
KR100748720B1 (ko) * 2006-02-09 2007-08-13 삼성전자주식회사 다중 계층 중심 어휘 목록에 기초하여 대규모 단어 음성인식 방법 및 그 장치
US7627474B2 (en) 2006-02-09 2009-12-01 Samsung Electronics Co., Ltd. Large-vocabulary speech recognition method, apparatus, and medium based on multilayer central lexicons

Also Published As

Publication number Publication date
NZ302748A (en) 1999-04-29
WO1996027872A1 (en) 1996-09-12
EP0813735B1 (en) 2001-10-04
JPH11501410A (ja) 1999-02-02
CN1150515C (zh) 2004-05-19
DE69615667T2 (de) 2002-06-20
CA2211636C (en) 2002-01-22
AU702903B2 (en) 1999-03-11
DE69615667D1 (de) 2001-11-08
KR100406604B1 (ko) 2004-02-18
US5999902A (en) 1999-12-07
AU4887696A (en) 1996-09-23
MX9706407A (es) 1997-11-29
CN1178023A (zh) 1998-04-01
JP4180110B2 (ja) 2008-11-12
CA2211636A1 (en) 1996-09-12
EP0813735A1 (en) 1997-12-29
ES2164870T3 (es) 2002-03-01
NO974097D0 (no) 1997-09-05
NO974097L (no) 1997-09-08

Similar Documents

Publication Publication Date Title
KR19980702723A (ko) 음성 인식 방법 및 장치
EP0527650B1 (en) Speech recognition apparatus
US5033087A (en) Method and apparatus for the automatic determination of phonological rules as for a continuous speech recognition system
US5983180A (en) Recognition of sequential data using finite state sequence models organized in a tree structure
US5956679A (en) Speech processing apparatus and method using a noise-adaptive PMC model
US5983177A (en) Method and apparatus for obtaining transcriptions from multiple training utterances
US6208964B1 (en) Method and apparatus for providing unsupervised adaptation of transcriptions
EP0771461B1 (en) Method and apparatus for speech recognition using optimised partial probability mixture tying
CN1321401C (zh) 语音识别设备、语音识别方法、会话控制设备以及会话控制方法
US5758319A (en) Method and system for limiting the number of words searched by a voice recognition system
EP0664535A2 (en) Large vocabulary connected speech recognition system and method of language representation using evolutional grammar to represent context free grammars
EP1178466B1 (en) Recognition system using lexical trees
EP0706171A1 (en) Speech recognition method and apparatus
US6725196B2 (en) Pattern matching method and apparatus
US6226610B1 (en) DP Pattern matching which determines current path propagation using the amount of path overlap to the subsequent time point
JP2002539482A (ja) 見本音声を決定するための方法及び装置
JPH07261785A (ja) 音声認識方法及び音声認識装置
JP2982689B2 (ja) 情報量基準を用いた標準パターン作成方式
JP2905674B2 (ja) 不特定話者連続音声認識方法
Paul The Lincoln large-vocabulary stack-decoder based HMM CSR
Gopalakrishnan et al. Fast match techniques
JP3369121B2 (ja) 音声認識方法および音声認識装置
JPH1078793A (ja) 音声認識装置
KR100557650B1 (ko) 문맥 종속 음소 지속시간 정보를 이용한 음성인식 방법
KR19990056312A (ko) 음성인식시스템에서의 단어 학습 및 인식 방법

Legal Events

Date Code Title Description
PA0105 International application

Patent event date: 19970830

Patent event code: PA01051R01D

Comment text: International Patent Application

PG1501 Laying open of application
A201 Request for examination
PA0201 Request for examination

Patent event code: PA02012R01D

Patent event date: 20010307

Comment text: Request for Examination of Application

E902 Notification of reason for refusal
PE0902 Notice of grounds for rejection

Comment text: Notification of reason for refusal

Patent event date: 20030221

Patent event code: PE09021S01D

E701 Decision to grant or registration of patent right
PE0701 Decision of registration

Patent event code: PE07011S01D

Comment text: Decision to Grant Registration

Patent event date: 20031029

GRNT Written decision to grant
PR0701 Registration of establishment

Comment text: Registration of Establishment

Patent event date: 20031110

Patent event code: PR07011E01D

PR1002 Payment of registration fee

Payment date: 20031111

End annual number: 3

Start annual number: 1

PG1601 Publication of registration
PR1001 Payment of annual fee

Payment date: 20061024

Start annual number: 4

End annual number: 4

PR1001 Payment of annual fee

Payment date: 20071018

Start annual number: 5

End annual number: 5

FPAY Annual fee payment

Payment date: 20081022

Year of fee payment: 6

PR1001 Payment of annual fee

Payment date: 20081022

Start annual number: 6

End annual number: 6

LAPS Lapse due to unpaid annual fee
PC1903 Unpaid annual fee