KR100533601B1

KR100533601B1 - 휴대전화의 화자독립형 음성인식을 위한 성별 구분방법

Info

Publication number: KR100533601B1
Application number: KR10-2002-0076813A
Authority: KR
Inventors: 한우진
Original assignee: 베스티안파트너스(주)
Priority date: 2002-12-05
Filing date: 2002-12-05
Publication date: 2005-12-06
Anticipated expiration: 2022-12-05
Also published as: KR20040049410A

Abstract

본 발명은 휴대전화의 화자독립형 음성인식을 위한 성별 구분방법에 관한 것으로서, 보다 상세하게는 CDMA 방식 휴대전화에서 화자독립형 음성인식 시스템을 구현함에 있어서, 입력음성의 성별을 자동으로 구분하고 남녀 각각의 성별에 최적화된 음성인식 모델을 이용하여 그 입력음성에 대한 음성인식을 수행함으로써 음성인식 성능을 향상시키도록 하는 휴대전화의 화자독립형 음성인식을 위한 성별 구분방법에 관한 것이다.

본 발명에 의한 휴대전화의 화자독립형 음성인식을 위한 성별 구분방법은, 패킷 파라미터 입력단계와, 음높이 파라미터 추출단계와, 음높이 평균값 추출단계와, 성별 구분단계와, 음성인식 수행단계를 포함하여 이루어진다.

Description

휴대전화의 화자독립형 음성인식을 위한 성별 구분방법{A METHOD FOR DECIDING A GENDER OF A SPEAKER IN A SPEAKER-INDEPENDENT SPEECH RECOGNITION SYSTEM OF A MOBILE PHONE}

음성은 인간의 가장 자연스러운 의사 소통 수단이면서 정보 전달 수단이자, 언어를 구현하는 수단으로서 인간이 내는 의미 있는 소리이다.

인간과 기계 사이의 음성을 통한 통신 구현에 대한 시도는 과거부터 꾸준히 발전되어 왔는 바, 더욱이 최근 음성 정보를 효과적으로 처리하기 위한 음성 정보 처리 기술(speech information technology;SIT) 분야가 괄목할 만한 발전을 이룩함에 따라 실생활에도 속속 적용이 되고 있다.

이러한 음성 정보 처리 기술을 크게 분류하면, 음성 인식(speech recognition), 음성 합성(speech synthesis), 화자 인증(speaker identification and verification), 음성 코딩(speech coding) 등의 카테고리로 분류할 수 있다.

음성 인식은 발화된 음성을 인식하여 문자열로 변환하는 기술이고, 음성 합성은 문자열을 음성 분석에서 얻어진 데이터나 파라미터를 이용하여 원래의 음성으로 변환하는 기술이며, 화자 인증은 발화된 음성을 통하여 발화자를 추정하거나 인증하는 기술이며 음성 코딩은 음성 신호를 효과적으로 압축하여 부호화하는 기술이다.

이중에서, 음성 인식을 구현하는 수많은 방법 및 알고리즘은 크게 인식모델을 이용하는 방법, 언어모델을 이용하는 방법 및 인식된 문장에 대한 구문을 분석하는 방법의 세 가지 카테고리로 나눌 수 있다. 첫번째 카테고리인 인식모델을 이용하는 방법에는 DTM(Dynamic Time Warping), HMM(Hidden markov model), HM-Net(Hidden Markov Network) 및 ANN(Artificial Neural Network)의 방법이 포함되고, 두번째 카테고리인 언어모델을 이용하는 방법에는 FSN (Finite State Network), Word-pair 및 N-gram의 방법이 포함되며, 세번째 카테고리인 인식된 문장에 대한 구문을 분석하는 방법에는 CFG(Context-Free Grammar) 및 Chart parser 방법 등이 포함된다.

한편, 휴대전화(mobile phone or cellular phone)에 있어서는 화자의 음성에 의한 명령어 입력에 의하여 특정 전화번호로 전화를 거는 장치 및 방법이 수년 전 이미 개발되어 상용화된 바 있다. 위와 같은 음성인식 방법의 카테고리 중에서 휴대전화를 위한 음성인식 시스템을 구현한 종래 기술의 일례로는 시간축정합 (DTW:Dynamic Time Warping) 알고리즘을 이용한 방법이 있다. 이것은 미리 음성 패턴 및 각각의 음성 패턴에 대응되는 전화번호를 휴대전화 내의 소정의 저장수단에 저장하여 두고, 휴대전화의 사용자가 명령음성을 발화하면 사용자의 음성에 가장 가까운 음성 패턴을 검색함으로써 패턴매칭을 통하여 사용자의 명령으로 추측되는 음성 패턴에 대응되는 전화번호로 호접속을 시도하도록 하는 방법인 것이다.

도 3에는 이러한 DTW 알고리즘을 이용한 음성인식 시스템의 구성도가 나타나 있다.

그러나, DTW 알고리즘에 의한 음성인식 방법은 각각의 명령어마다, 또한 각각의 사용자마다 별도로 음성 패턴을 미리 입력 및 등록하여야 하는 번거로운 문제점 및 휴대전화 또는 개인용 컴퓨터나 개인 휴대 정보 단말기(PDA) 등에 텍스트의 형태로 저장시킨 주소록을 전혀 활용할 수 없다는 문제점, 각각의 음성 패턴이 기억장치 공간을 많이 차지하는 음성 파일의 형태인 데 기인한 기억장치의 낭비 등의 문제점이 있어 널리 사용되지는 못하였다. 더욱이, DTW 알고리즘에 의한 음성인식 방법은 화자 종속적(speaker-dependent)인 음성인식 알고리즘이라는 본질적인 한계로 밀미암아, 음성 패턴을 등록해놓은 화자의 음성만을 처리할 수 있다는 치명적인 문제점이 있었다. 즉, 생산 및 출하 시에 각 명령어에 대한 최적화된 음성 패턴을 구비하는 것이 불가능하며, 사용자가 일일이 각 명령어 및 전화번호에 대한 자기의 음성 패턴을 직접 하나 하나 입력 및 저장할 수밖에 없는 것이어서, 번거롭고 까다로운 음성 패턴 과정의 필요로 인하여 자칫 휴대전화에 내장되는 음성인식 기능 자체가 무용지물이 될 수도 있는 것이다.

따라서 최근에는 이러한 문제점을 해결하고자, 휴대전화에 소용량의 화자 독립형(speaker-independent) 음성 인식기를 탑재하고, 사용자의 음성을 입력받아 텍스트 형태로 주소록에 이미 기록되어 있는 성명 및 전화번호에 대응시키도록 하는 음성인식 기술이 개발되고 있다. 특히, 이러한 형태의 화자 독립형 음성인식기를 내장한 휴대전화는, 별도의 음성 패턴을 등록하지 않으면서도 종래의 DTW 알고리즘을 이용한 음성인식 기술에 비해서 불특정 다수의 사용자에 대한 탁월한 인식률을 나타낸다는 장점을 가지고 있다.

그런데, 이러한 휴대전화에 내장되는 형태의 소용량 화자독립 음성인식 시스템의 경우, 휴대전화라는 기기의 성능 한계로 인하여 음성인식 성능을 결정하는 음성인식 모델의 크기를 최소화해야 할 뿐 아니라, 음성인식을 위하여 필요한 연산량 또한 최소화하여야 할 것이 요구된다. 따라서, 종래 기술에 의한 휴대전화 내장형 화자독립 음성인식 시스템은 이러한 성능 제약 조건에 따라 음성인식률이 상용화 수준에 미치지 못하게 되는 문제점이 있어, 하드웨어적인 제약 조건에도 불구하고 음성인식 시스템의 음성인식 성능을 획기적으로 향상시키기 위한 방법에 대한 요청이 그동안 꾸준히 제기되어 왔다.

본 발명은 상술한 바와 같은 요청에 부응하여 착안된 것으로서, CDMA 방식 휴대전화에서 화자독립형 음성인식 시스템을 구현함에 있어서, 휴대전화의 패킷 파라미터로부터 직접 음높이 파라미터를 추출하여 입력음성의 성별을 자동으로 구분하고, 남녀 각각의 성별에 최적화된 음성인식 모델을 이용하여 그 입력음성에 대한 음성인식을 수행함으로써, 휴대전화에 내장되는 화자독립형 음성인식 시스템의 성능을 향상시킬 수 있는 휴대전화의 화자독립형 음성인식을 위한 성별 구분방법을 제공하는 것을 목적으로 한다.

상기와 같은 목적을 달성하기 위하여, 본 발명에 의한 휴대전화의 화자독립형 음성인식을 위한 성별 구분방법은, 패킷 파라미터 입력단계와, 음높이 파라미터 추출단계와, 음높이 평균값 추출단계와, 성별 구분단계와, 음성인식 수행단계를 포함하여 이루어지며,

상기 패킷 파라미터 입력단계에서는, 화자의 발화음을 마이크 등의 입력수단을 통하여 휴대전화의 음성압축 코덱의 패킷 파라미터로 변환하고, 각각의 프레임을 4개의 서브 프레임으로 분할하여 입력하며,

상기 음높이 파라미터 추출단계에서는, 상기 패킷 파라미터 입력단계로부터 얻어지는 최적 잡음 여기 신호를, 피치 래그(pitch lag)를 그 길이로 가지는 피치 필터(pitch filter)를 통과시킴으로써 원래 음성신호에 근접하는 피치 래그를 음높이 파라미터로서 추출하며,

상기 음높이 평균값 추출단계에서는, 상기 발화음을 구성하는 모든 프레임에 대한 유성음 부분의 피치 래그의 총합을 프레임의 총합으로 나눔으로써 음높이 평균값을 추출하며,

상기 성별 구분단계에서는 상기 음높이 평균값을 남녀 성별을 가르는 소정의 임계값과 비교하여, 상기 음높이 평균값이 상기 임계값보다 크면 상기 발화음을 여성 발화음으로 판단하고, 상기 음높이 평균값이 상기 임계값보다 작으면 상기 발화음을 남성 발화음으로 판단하며,

상기 음성인식 수행단계에서는, 상기 음높이 평균값에 따라 상기 발화음이 여성 발화음인 경우에는 여성 음성인식 모델에 의한 음성인식을 수행하고, 상기 발화음이 남성 발화음인 경우에는 남성 음성인식 모델에 의한 음성인식을 수행하는 것을 특징으로 한다.

이때, 상기 휴대전화의 음성압축 코덱은 CDMA 휴대전화를 위한 IS733 코덱이 될 수 있다.

또한, 상기 피치 필터는 주파수 영역에서 피치 이득(pitch gain)과 z (z-변환시 매개변수)의 피치 레그 제곱의 역수와의 곱을 1에서 뺌으로써 구하여질 수 있다.

또한, 상기 음높이 평균값 추출단계에서, 각각의 프레임을 구성하는 네 개의 서브 프레임 중 어느 것도 0인 피치 래그 값을 가지지 않는 프레임을 유성음인 프레임으로 판단하고, 각각의 프레임을 구성하는 네 개의 서브 프레임 중 하나 또는 그 이상의 서브 프레임이 0인 피치 래그 값을 가지는 프레임을 무성음인 프레임으로 판단함으로써 상기 프레임의 유성음/무성음 여부 판단을 할 수 있다.

본 발명의 다른 실시예에서, 상기 음높이 평균값 추출단계의 상기 프레임의 유성음/무성음 여부 판단은, 각각의 프레임을 구성하는 네 개의 서브 프레임의 피치 이득의 합을 서브 프레임의 개수인 4로 나눔으로써 얻어지는 각각의 프레임에서의 평균 피치 이득이 0.5보다 큰 경우에 상기 프레임을 유성음인 프레임으로 판단하고, 상기 평균 피치 이득이 0.5보다 작은 경우에 상기 프레임을 무성음인 프레임으로 판단함으로써 이루어질 수도 있다.

이하 첨부된 도면을 참조하여 더욱 상세하게 설명하기로 한다.

도 1은 본 발명에 의한 휴대전화의 화자독립형 음성인식을 위한 성별 구분방법의 흐름을 나타낸 흐름도이다.

본 발명에 의한 휴대전화의 화자독립형 음성인식을 위한 성별 구분방법에서는 연산량을 최소화하기 위하여, CDMA 방식 휴대전화의 음성압축 코덱(codec), 특히 IS733 코덱이 생성하는 음성패킷으로부터 직접 성별 구분을 위하여 요구되는 파라미터를 추출하도록 하고 있다.

일반적으로 IS733 코덱은 코드 여기 선형 예측(CELP:code-excited linear prediction) 알고리즘에 기반하고 있으며, 발화음을 구성하는 각각의 프레임을 4개의 서브 프레임으로 나눈 후, 각각에 대한 분석을 수행하도록 하고 있다.

패킷 파라미터 입력단계(110)에서는, 이와 같이 마이크 등의 입력수단을 통하여 입력되는 화자의 발화음을 휴대전화의 음성압축 코덱에 의하여 생성되는 패킷 파라미터로 변환하고, 각각의 프레임을 4개의 서브 프레임으로 분할하여 입력하는 작업을 수행하게 된다.

음높이 파라미터 추출단계(120)에서는, 상기 패킷 파라미터로부터 음높이를 산출하기 위한 파라미터를 추출하게 된다.

발화음의 성별을 구분하기 위한 음높이값을 산출하기 위한 음높이 파라미터는 본 발명에서 피치 래그(pitch lag)가 되는데, 이 피치 래그는 하나의 프레임을 구성하는 각각의 서브 프레임마다 1개씩 존재한다. 음높이 파라미터, 즉 피치 래그는, CELP 알고리즘에 있어서 코드북(codebook)을 참조하여 얻어지는 최적 잡음 여기 신호에 대해서, 피치 래그를 그 길이로 가지는 피치 필터(pitch filter)를 통과시킨 최종값이 원래의 신호에 가장 가깝게 되도록 피치 래그를 추정함으로써 얻어지게 된다.

이 때, 피치 필터는, 주어진 피치 래그의 간격마다 신호를 강조하여 주는 역할을 하는 필터로서, 아래와 같은 식에 의하여 얻어질 수 있다.

(1)

위 식에서, G는 피치 이득(pitch gain)이며, D는 피치 래그가 된다.그리고 위 식에서 z는 특정 시간에서의 음성 샘플을 z-변환할 때의 매개변수즉 z-변환의 연산자로서, z-변환이란 음성 신호 처리에서 이산 신호의 푸리에 변환을 일반화시킨 것이다.음성 신호 처리에서의 z-변환은 공지된 내용이기 때문에 본 특허에서는 설명을 생략하고자 한다.(참고문헌 : Spoken Lanaguage Processing - A Guide to Theory, Algorithm, and System Development. Microsoft Research. 2001. pp 211 - pp 212)

이러한 피치 필터의 물리적인 의미는, 현재의 샘플을 D의 샘플 간격을 가지는 이전 샘플의 값에 G만큼의 피치 이득을 곱하여 모델링한다는 것으로서, 실제로 이러한 피치 필터를 통과시키게 되면, D의 샘플 간격을 가지고 떨어져 있는 신호들을 강조하게 된다. 따라서, 이 때의 D의 의미는 주기성이 강한 신호에서 에너지가 큰 부분 간의 간격을 의미하는 "피치(pitch)", 즉 음높이가 되는 것이다. 다만, 하나의 프레임을 구성하는 네 개의 서브 프레임 각각에 대한 네 개의 피치 래그가 존재하므로, 이 네 개의 값을 평균하면 평균 음높이를 의미하는 평균 피치 래그를 얻을 수 있다.

또한, IS733 코덱이 생성하는 패킷은, 하나의 프레임이 266개의 비트(bit)를 포함하여 이루어지게 되고, 각각의 비트가 34바이트(byte) 안에 차례로 들어가게 된다. 이 때, 네 개의 서브 프레임의 번호를 0 ~ 3이라고 하면, 0번 서브 프레임의 경우에는 221 ~ 227까지의 7비트를 차지하며, 1번 서브 프레임은 154 ~ 157 및 183 ~ 185, 2번 서브 프레임은 113 ~ 119, 3번 서브 프레임은 43 ~ 49까지의 비트를 차지하게 된다.

아래 표 1은 이를 정리한 것이다.

서브 프레임 번호	피치 래그가 차지하는 비트 번호
0123	221,222,223,224,225,226,227154,155,156,157,183,184,185113,114,115,116,117,118,11943,44,45,46,47,48,49

[표 1] IS733 코덱에 의한 패킷에서의 피치 래그의 비트 배치

다음으로, 음높이 평균값 추출단계(130)에서는, 음높이 파라미터 추출단계(120)에서 얻어진 음높이 파라미터를 이용하여 평균 음높이를 구하게 된다.

음높이 파라미터 추출단계(120)에서 얻어지는 평균 피치 래그 값, 즉 평균 음높이 값은 그 자체로서 평균 음높이를 나타내는 값임은 분명하다. 그러나, 발화음의 성별구분을 위하여 이 값을 그대로 사용하면, 발화음의 성별 구분의 정확도가 대단히 저하된다.

이는, 음높이 파라미터 추출단계(120)에서 얻어지는 평균 피치 래그 값은 실제로 음높이가 존재하는 유성음인 신호는 물론, 음높이가 존재하지 않는 무성음인 신호까지도 포함한 값이라는 이유에 기인한다. 즉, 무성음 신호 구간에 있어서 피치 래그 값이 의미하는 것은 단지 무성음 신호에서 오류를 최소화하기 위한 반복 샘플 간격을 의미할 뿐, 무성음 신호가 가지는 음높이가 아니기 때문이다.

이때문에, 물리적으로 유의미한 평균 음높이를 산출하기 위해서는 음높이 파라미터 추출단계(120)에서 추출된 음높이 파라미터 중에서, 특히 유성음 구간의 음높이 파라미터만을 선별하고, 무성음 구간의 음높이 파라미터는 폐기하는 과정이 필요하게 된다. 이러한 과정을 음높이 평균값 추출단계(130)에서 수행하는 것이다.

본 발명에서는 음높이 평균값을 추출하는 방법으로서 두 가지의 방법을 사용하는 바, 첫째는 피치 래그 값이 0인 경우를 제거하는 것이며, 둘째는 새로운 파라미터인 피치 이득(pitch gain)을 사용하는 것이다.

첫째 방법을 더욱 상세히 설명한다.

피치 래그 값이 0인 경우라 함은, CELP 알고리즘에 있어서 피치 래그의 값을 올바로 추정하는데 실패한 경우를 말한다. 첫째 방법에서는, 하나의 프레임을 구성하는 네 개의 서브 프레임 중에서 한 개라도 피치 래그 값이 0이라면 그 프레임 전체가 무성음 구간에 있는 프레임인 것으로 간주하여 이를 최종적인 음높이 평균값의 계산 과정에서 제외함으로써 무성음 구간의 프레임을 제거할 수 있게 된다.

다음, 둘째 방법을 더욱 상세히 설명한다.

피치 이득은 위 식 (1)에서 G에 해당하는 값으로서, 하나의 프레임을 구성하는 네 개의 서브 프레임마다 존재하며, 피치 래그만큼 떨어진 샘플들 사이에 G라는 상수배만큼의 에너지 상관관계가 있다는 물리적 의미를 가지고 있다. 그런데, 음성 신호에 있어서 안정적인 유성음 구간 내에서는 에너지의 변화가 천천히, 연속적으로 변화하는 특징이 있으므로, 현재 샘플의 값은 피치 래그만큼 떨어진 이전 신호와 거의 대등한 크기를 가지게 된다. 따라서 유성음 구간에서의 피치 이득 G는 1에 가까운 값을 가지게 되므로, 네 개의 서브 프레임에 대한 네 개의 피치 이득 G의 평균값을 1과 비교함으로써 유성음 구간의 프레임인지 무성음 구간의 프레임인지를 판단할 수 있게 된다. 이를 이용하면 종래의 음성인식 기술에서 발화음의 유/무성음 여부를 판단하는 연산 과정과 비교할 때 매우 적은 연산량만으로도 유/무성음 여부 판단을 수행하는 것이 가능해진다.

표 2는 IS733 코덱에 의한 패킷에서의 피치 이득의 비트 배치표이다.

서브 프레임 번호	피치 이득이 차지하는 비트 번호
0123	218,219,220180,181,182110,111,11272,73,42

[표 2] IS733 코덱에 의한 패킷에서의 피치 이득의 비트 배치

위 표 2에 의해서 구해지는 j번째 서브 프레임의 피치 이득을 G _j 라고 하면, 프레임 전체에 대한 평균 피치 이득 G 는 다음 식에 의하여 구해진다.

(2)

위 G 값이 1에 가까운 값이면, 당해 프레임을 유성음 구간의 프레임이라고 할 수 있으며, 그렇지 않으면 무성음 구간의 프레임이라고 판단할 수 있게 된다. 따라서, 무성음 구간에 속하는 프레임은 이를 최종 음높이 평균값을 구하는 과정에서 제외시키게 된다. 실제로 실험을 수행하여 본 결과, G 가 0.7 ~ 1.3 범위에 있는 경우에는 안정적으로 유성음 구간을 추정할 수 있었다.

이를 이용하여, i 번째 프레임이 유성음 구간이면 1, 무성음 구간이면 0의 값을 가지도록 하는 변수 를 정의하면, 음높이 평균값 는 다음 식에 의하여 구하여진다.

(3)

위 식에서, 는 i 번째 프레임에 대한 피치 이득이고, N 은 총 프레임 수이다.

성별 구분단계(140)에서는 위와 같이 음높이 평균값 추출단계(130)에서 구한 음높이 평균값에 의하여 발화음의 성별을 구분한다.

일반적으로 남성의 발화음은 음높이의 대역이 약 60Hz 내지 120Hz 범위에 속하며, 여성의 발화음은 약 80Hz 내지 400Hz 범위에 속한다. 그런데, 이를 휴대전화 음성의 샘플링 주파수(sampling frequency)를 고려하여 샘플 단위로 변환하게 되면, 남성의 발화음에 대한 샘플의 수는 약 67개 내지 133개가 되며, 여성의 발화음에 대한 샘플의 수는 약 20개 내지 100개가 된다. 즉, 위에서 구한 음높이의 평균값 의 값이 작으면 여성의 발화음, 크면 남성의 발화음인 것으로 판단할 수 있으므로, 이를 이용하면 다음의 식에 의하여 발화음의 성별을 판단할 수 있게 된다.

(4)

특히, 본 발명에서 사용하는 파라미터는 발화음으로부터 직접 별도의 연산을 수행하는 것이 아니라 IS733 코덱으로부터 생성되는 패킷으로부터 별도의 연산 없이 직접 얻어지므로, 파라미터 추출을 위한 연산량을 대폭 절감할 수 있게 된다.

실제로 휴대전화의 코덱을 통하여 수집한 다량의 필드 데이터에 의하여 분석을 한 결과, 의 대소 비교의 기준이 되는 임계값을 80으로 설정하였을 때, 대략 93%에 이르는 발화음의 남/녀 성별 구분율을 얻을 수 있었다.

상기 음성인식 수행단계(150)에서는, 일반적인 화자독립형 음성인식 시스템에 의하여 음성인식을 수행하는 단계이다.

도 2는 성별 구분단계 및 음성인식 수행단계에서의 흐름을 나타내고 있다.

도 2에 나타난 바와 같이, 본 발명에서는 화자독립형 음성인식 시스템을 구성하는 음성인식 모델로서 남/녀 각각의 성별에 대하여 최적화시킨 두 가지 음성인식 모델을 사용하도록 함으로써, 상기 성별 구분단계(140)에서 상기 음높이 평균값이 여성 발화음에 해당하는 것으로 판단되는 경우에는 여성 음성인식 모델에 의한 음성인식을 수행하고, 남성 발화음에 해당하는 것으로 판단되는 경우에는 남성 음성인식 모델에 의한 음성인식을 수행하도록 한다.

한편, 상기 음성인식 수행단계에서 실제로 음성인식을 수행하는 방법 및 장치는, 본 발명에 의한 화자독립형 음성인식 시스템을 위한 성별 구분방법을 적용할 수 있는 화자독립형 음성인식 방법 및 장치라면 어느 것이라도 무방하다.

위와 같이 의 대소 비교의 기준이 되는 임계값을 80으로 설정하였을 때, 연산량의 증가 없이, 남/녀 모두에 대해서 3% 이상의 인식률 향상을 얻을 수 있었다.

본 발명에 의한 휴대전화의 화자독립형 음성인식을 위한 성별 구분방법을 사용하면, CDMA 방식 휴대전화에서 화자독립형 음성인식 시스템을 구현함에 있어서, 휴대전화의 패킷 파라미터로부터 직접 음높이 파라미터를 추출하여 입력음성의 성별을 자동으로 구분하고, 남녀 각각의 성별에 최적화된 음성인식 모델을 이용하여 그 입력음성에 대한 음성인식을 수행함으로써, 추가적인 연산량의 증가 없이 휴대전화에 내장되는 화자독립형 음성인식 시스템의 성능을 향상시킬 수 있게 된다.

도 1은 본 발명에 의한 휴대전화의 화자독립형 음성인식을 위한 성별 구분방법의 흐름을 나타낸 흐름도,

도 2는 성별 구분단계 및 음성인식 수행단계의 흐름도,

도 3은 종래 기술에 의한 DTW 방식의 음성인식 시스템의 구성도이다.

Claims

패킷 파라미터 입력단계와, 음높이 파라미터 추출단계와, 음높이 평균값 추출단계와, 성별 구분단계와, 음성인식 수행단계를 포함하여 이루어지는 휴대전화의 화자독립형 음성인식을 위한 성별 구분방법으로서,

상기 패킷 파라미터 입력단계에서는, 화자의 발화음을 마이크 등의 입력수단을 통하여 휴대전화의 음성압축 코덱의 패킷 파라미터로 변환하고, 각각의 프레임을 4개의 서브 프레임으로 분할하여 입력하며,

상기 음높이 파라미터 추출단계에서는, 상기 패킷 파라미터 입력단계로부터 얻어지는 최적 잡음 여기 신호를, 피치 래그(pitch lag)를 그 길이로 가지는 피치 필터(pitch filter)를 통과시킴으로써 원래 음성신호에 근접하는 피치 래그를 음높이 파라미터로서 추출하며,

상기 음높이 평균값 추출단계에서는, 상기 발화음을 구성하는 모든 프레임에 대한 유성음 부분의 피치 래그의 총합을 프레임의 총합으로 나눔으로써 음높이 평균값을 추출하며,

상기 성별 구분단계에서는 상기 음높이 평균값을 남녀 성별을 가르는 소정의 임계값과 비교하여, 상기 음높이 평균값이 상기 임계값보다 크면 상기 발화음을 여성 발화음으로 판단하고, 상기 음높이 평균값이 상기 임계값보다 작으면 상기 발화음을 남성 발화음으로 판단하며,

상기 음성인식 수행단계에서는, 상기 음높이 평균값에 따라 상기 발화음이 여성 발화음인 경우에는 여성 음성인식 모델에 의한 음성인식을 수행하고, 상기 발화음이 남성 발화음인 경우에는 남성 음성인식 모델에 의한 음성인식을 수행하고,

상기 휴대전화의 음성압축 코덱은 CDMA 방식 휴대전화를 위한 IS733 코덱이며,

상기 피치 필터는 주파수 영역에서 피치 이득(pitch gain)과 z-변환시 매개변수의 피치 레그 제곱의 역수와의 곱을 1에서 뺌으로써 구하여지는 것을 특징으로 하는 휴대전화의 화자독립형 음성인식을 위한 성별 구분방법.
삭제
삭제
제 1항에 있어서,

상기 음높이 평균값 추출단계에서, 각각의 프레임을 구성하는 네 개의 서브 프레임 중 어느 것도 0인 피치 래그 값을 가지지 않는 프레임을 유성음인 프레임으로 판단하고, 각각의 프레임을 구성하는 네 개의 서브 프레임 중 하나 또는 그 이상의 서브 프레임이 0인 피치 래그 값을 가지는 프레임을 무성음인 프레임으로 판단함으로써 상기 프레임의 유성음/무성음 여부 판단을 하는 것을 특징으로 하는 휴대전화의 화자독립형 음성인식을 위한 성별 구분방법.
제 1항에 있어서,

상기 음높이 평균값 추출단계에서, 각각의 프레임을 구성하는 네 개의 서브 프레임의 피치 이득의 합을 서브 프레임의 개수인 4로 나눔으로써 얻어지는 각각의 프레임에서의 평균 피치 이득이 0.5보다 큰 경우에 상기 프레임을 유성음인 프레임으로 판단하고, 상기 평균 피치 이득이 0.5보다 작은 경우에 상기 프레임을 무성음인 프레임으로 판단함으로써 상기 프레임의 유성음/무성음 여부 판단을 하는 것을 특징으로 하는 휴대전화의 화자독립형 음성인식을 위한 성별 구분방법.