KR100745977B1

KR100745977B1 - 음성 구간 검출 장치 및 방법

Info

Publication number: KR100745977B1
Application number: KR1020050089526A
Authority: KR
Inventors: 장길진; 김정수; 오광철
Original assignee: 삼성전자주식회사
Priority date: 2005-09-26
Filing date: 2005-09-26
Publication date: 2007-08-06
Anticipated expiration: 2025-09-26
Also published as: JP4769663B2; US7711558B2; US20070073537A1; JP2007094388A; KR20070034881A

Abstract

본 발명은 입력 신호로부터 음성 구간을 검출하는 장치 및 방법에 관한 것으로서, 본 발명의 실시예에 따른 음성 구간 검출 장치는, 수신된 입력 신호를 소정의 시간 간격으로 나눈 프레임 단위로 주파수 영역의 신호로 변환하는 도메인 변환 모듈과, 상기 변환된 주파수 영역의 신호로부터 소정의 잡음 스펙트럼을 차감한 스펙트럼 차감 신호를 생성하는 차감 스펙트럼 생성 모듈과, 상기 스펙트럼 차감 신호를 소정의 확률 분포 모델에 적용하는 모델링 모듈 및 상기 모델링 모듈에 의해 연산된 확률 분포를 통하여 현재의 프레임 구간에 음성 신호가 존재하는지 여부를 결정하는 음성 검출 모듈을 포함한다.

음성 구간 검출(voice activity detection), 스펙트럼 차감법, 레일리 분포(Rayleigh distribution), 라플라스 분포(Laplace distribution)

Description

음성 구간 검출 장치 및 방법{Apparatus and method for voice activity detection}

도 1a 내지 도 1d는 SNR의 변화에 따른 잡음이 섞인 음성 신호(110)와 잡음 신호(120)의 분포를 나타내는 히스토그램(histogram)이다.

도 2는 본 발명의 일 실시예에 따른 음성 구간을 검출하는 장치의 구조를 나타내는 블록도이다.

도 3은 본 발명의 일 실시예에 따른 음성 구간을 검출하는 방법을 나타내는 플로우 차트이다.

도 4a 및 도 4b는 본 발명의 일 실시예에 따른 잡음 스펙트럼의 차감 효과를 나타내는 히스토그램(histogram)이다.

도 5는 본 발명의 일 실시예에 따른 레일리-라플라스 분포(Rayleigh-Laplacian distribution)을 나타내는 그래프이다.

도 6은 본 발명의 일 실시예에 따른 성능 평가 결과를 나타내는 그래프이다.

< 도면의 주요 부분에 대한 설명 >

200: 음성 구간 검출 장치

210: 신호 입력 모듈

220: 도메인 변환 모듈

230: 차감 스펙트럼 생성 모듈

240: 모델링 모듈

250: 음성 검출 모듈

본 발명은 음성 구간 검출에 관한 것으로서, 특히, 스펙트럼 차감법 및 확률 분포 모델을 이용하여 입력 신호로부터 음성 신호가 존재하는 구간을 검출하는 장치 및 방법에 관한 것이다.

전자, 통신, 기계 등 다양한 분야의 기술이 발달함에 따라 인간의 생활을 더욱 편리하게 해 주는 다양한 장치들이 개발되었고, 특히 인간의 음성을 인식하고, 인식된 음성 정보에 따라 적절한 반응을 나타내는 장치들이 개발되고 있다.

이러한 음성 인식 분야의 주요 기술로는 입력된 신호로부터 음성이 존재하는 구간을 검출하는 기술 분야와 검출된 음성 신호에 담긴 내용을 파악하는 기술 분야가 있다.

이 중에서 음성이 존재하는 구간을 검출하는 기술은 음성 인식 및 음성 압축 등에 있어서 필수적으로 요구되는 기술로서, 입력되는 신호로부터 음성 신호와 잡음 신호를 구별하는 것이 그 핵심이다.

이러한 기술의 대표적인 예로서 2003년 11월 ETSI(European Telecommunication Standard Institute)에 의해 선택된 "Extended advanced front- end feature extraction algorithm(이하, 제1 선행 기술)"이 있다. 이 알고리즘에 따르면 잡음이 제거된 음성 신호에 대하여 특징 파라미터의 시간적 변화를 이용하여 음성 주파수 대역의 에너지 정보를 기초로 음성 구간을 검출하게 되는데, 잡음 레벨이 큰 경우에는 성능이 저하되는 단점이 있다.

또한, 국내 등록특허공보 제10-304666호(이하, 제2 선행 기술)에서는 복소 가우시안 분포(complex Gaussain distribution)와 같은 통계적 모델링을 이용하여 잡음이 섞인 음성 신호로부터 잡음 신호와 음성 신호의 각 성분을 실시간으로 추정함으로써 음성 구간을 검출하는 방법을 개시하고 있다. 그러나, 이러한 경우에도 잡음 신호의 크기가 음성 신호의 크기보다 커지게 되면 이론적으로 음성이 존재하는 구간을 추정하는 것이 어렵게 된다.

이와 같이 종래의 기술에 따르면 신호 대 잡음 비(Signal to noise ratio; 이하, 'SNR'이라 칭함)가 작아질수록(잡음의 크기가 커질수록) 음성이 존재하는 구간과 잡음만이 존재하는 구간을 구별하기 어렵게 되는데 이를 도 1a 내지 도 1d에서 나타내고 있다.

여기에서, X축은 1kHz 내지 1.03kHz 사이의 주파수 대역에 대한 밴드 에너지(band energy)의 크기(magnitude)를 나타내고, Y축은 이에 대한 확률(probability)을 나타내고 있다.

또한, 도 1a는 SNR이 20dB인 경우를, 도 1b는 SNR이 10dB인 경우를, 도 1c는 SNR이 5dB인 경우를 그리고 도 1d는 SNR이 0dB인 경우를 각각 나타내고 있다.

도 1a 내지 도 1d를 참조하면, SNR의 값이 작아질수록 잡음이 섞인 음성 신호(110)가 잡음 신호(120)에 의해 더 많이 묻히게 되어 잡음이 섞인 음성 신호(110)를 잡음 신호(120)로부터 구별하기 어려워지게 된다.

따라서, 종래의 방법을 따르게 되면 낮은 SNR의 값을 갖는 입력 신호에 대해서는 음성이 존재하는 구간과 잡음만이 존재하는 구간을 구별하기 어려운 문제가 있다.

본 발명은 낮은 SNR에서도 음성이 존재하는 구간과 잡음만이 존재하는 구간의 분포를 추정하고 추정된 음성 스펙트럼의 분포를 통계적 모델링 기법을 사용하여 분포 추정의 오류를 최소화하는 음성 구간 검출 장치 및 방법을 제공하는 것을 목적으로 한다.

본 발명의 목적은 이상에서 언급한 목적으로 제한되지 않으며, 언급되지 않은 또 다른 목적들은 아래의 기재로부터 당업자에게 명확하게 이해될 수 있을 것이다.

상기 목적을 달성하기 위하여, 본 발명의 실시예에 따른 음성 구간 검출 장치는 수신된 입력 신호를 소정의 시간 간격으로 나눈 프레임 단위로 주파수 영역의 신호로 변환하는 도메인 변환 모듈과, 상기 변환된 주파수 영역의 신호로부터 소정의 잡음 스펙트럼을 차감한 스펙트럼 차감 신호를 생성하는 차감 스펙트럼 생성 모 듈과, 상기 스펙트럼 차감 신호를 소정의 확률 분포 모델에 적용하는 모델링 모듈 및 상기 모델링 모듈에 의해 연산된 확률 분포를 통하여 현재의 프레임 구간에 음성 신호가 존재하는지 여부를 결정하는 음성 검출 모듈을 포함한다.

또한, 상기 목적을 달성하기 위하여, 본 발명의 실시예에 따른 음성 구간 검출 방법은 수신된 입력 신호를 소정의 시간 간격으로 나눈 프레임 단위로 주파수 영역의 신호로 변환하는 (a) 단계와, 상기 변환된 주파수 영역의 신호로부터 소정의 잡음 스펙트럼을 차감한 스펙트럼 차감 신호를 생성하는 (b) 단계와, 상기 스펙트럼 차감 신호를 소정의 확률 분포 모델에 적용하는 (c) 단계 및 상기 확률 분포 모델의 적용에 따른 확률 분포를 통하여 현재의 프레임 구간에 음성 신호가 존재하는지 여부를 결정하는 (d) 단계를 포함한다.

기타 실시예들의 구체적인 사항들은 상세한 설명 및 도면들에 포함되어 있다.

본 발명의 이점 및 특징, 그리고 그것들을 달성하는 방법은 첨부되는 도면과 함께 상세하게 후술되어 있는 실시예들을 참조하면 명확해질 것이다. 그러나 본 발명은 이하에서 개시되는 실시예들에 한정되는 것이 아니라 서로 다른 다양한 형태로 구현될 수 있으며, 단지 본 실시예들은 본 발명의 개시가 완전하도록 하고, 본 발명이 속하는 기술분야에서 통상의 지식을 가진 자에게 발명의 범주를 완전하게 알려주기 위해 제공되는 것이며, 본 발명은 청구항의 범주에 의해 정의될 뿐이다.

이하, 본 발명의 실시예들에 의하여 음성 구간을 검출하는 장치 및 방법을 설명하기 위한 블록도 또는 처리 흐름도에 대한 도면들을 참고하여 본 발명에 대해 설명하도록 한다. 이 때, 처리 흐름도 도면들의 각 블록과 흐름도 도면들의 조합들은 컴퓨터 프로그램 인스트럭션들에 의해 수행될 수 있음을 이해할 수 있을 것이다. 이들 컴퓨터 프로그램 인스트럭션들은 범용 컴퓨터, 특수용 컴퓨터 또는 기타 프로그램 가능한 데이터 프로세싱 장비의 프로세서에 탑재될 수 있으므로, 컴퓨터 또는 기타 프로그램 가능한 데이터 프로세싱 장비의 프로세서를 통해 수행되는 그 인스트럭션들이 흐름도 블록(들)에서 설명된 기능들을 수행하는 수단을 생성하게 된다. 이들 컴퓨터 프로그램 인스트럭션들은 특정 방식으로 기능을 구현하기 위해 컴퓨터 또는 기타 프로그램 가능한 데이터 프로세싱 장비를 지향할 수 있는 컴퓨터 이용 가능 또는 컴퓨터 판독 가능 메모리에 저장되는 것도 가능하므로, 그 컴퓨터 이용가능 또는 컴퓨터 판독 가능 메모리에 저장된 인스트럭션들은 흐름도 블록(들)에서 설명된 기능을 수행하는 인스트럭션 수단을 내포하는 제조 품목을 생산하는 것도 가능하다. 컴퓨터 프로그램 인스트럭션들은 컴퓨터 또는 기타 프로그램 가능한 데이터 프로세싱 장비 상에 탑제되는 것도 가능하므로, 컴퓨터 또는 기타 프로그램 가능한 데이터 프로세싱 장비 상에서 일련의 동작 단계들이 수행되어 컴퓨터로 실행되는 프로세스를 생성해서 컴퓨터 또는 기타 프로그램 가능한 데이터 프로세싱 장비를 수행하는 인스트럭션들은 흐름도 블록(들)에서 설명된 기능들을 실행하기 위한 단계들을 제공하는 것도 가능하다.

또한, 각 블록은 특정된 논리적 기능(들)을 실행하기 위한 하나 이상의 실행 가능한 인스트럭션들을 포함하는 모듈, 세그먼트 또는 코드의 일부를 나타낼 수 있다. 또, 몇 가지 대체 실행예들에서는 블록들에서 언급된 기능들이 순서를 벗어나 서 발생하는 것도 가능함을 주목해야 한다. 예컨대, 잇달아 도시되어 있는 두 개의 블록들은 사실 실질적으로 동시에 수행되는 것도 가능하고 또는 그 블록들이 때때로 해당하는 기능에 따라 역순으로 수행되는 것도 가능하다.

도 2를 참조하면, 본 발명의 실시에 따른 음성 구간 검출 장치는 신호 입력 모듈(210), 도메인 변환 모듈(220), 차감 스펙트럼 생성 모듈(230), 모델링 모듈(240) 그리고 음성 검출 모듈(250)을 포함한다.

이 때, 본 실시예에서 사용되는 '모듈'이라는 용어는 FPGA또는 ASIC과 같은 하드웨어 구성요소를 의미하며, 모듈은 어떤 역할들을 수행한다.

신호 입력 모듈(210)은 마이크와 같은 기기를 이용하여 대상이 되는 입력 신호를 수신하고, 도메인 변환 모듈(220)은 수신된 입력 신호를 주파수 영역의 신호로 변환한다. 즉, 시간 도메인에서의 입력 신호를 주파수 도메인에서의 신호로 변환하는 것이다.

이 때, 도메인 변환 모듈(220)은 바람직하게는 상기 수신된 입력 신호를 소정의 시간 간격으로 나눈 프레임 단위로 도메인 변환 동작을 수행할 수 있다. 이러한 경우에는 하나의 프레임이 하나의 신호 구간을 형성하게 되며, n 번째 프레임에 대한 음성 검출 동작이 완료된 후 n+1 번째 프레임에 대한 도메인 변환 동작을 수행하게 된다.

차감 스펙트럼 생성 모듈(230)은 입력 신호에 대한 입력 주파수 스펙트럼으로부터 이전 프레임에 대한 소정의 잡음 스펙트럼을 차감한 신호(이하, '스펙트럼 차감 신호'라고 칭하기로 한다)를 생성한다.

이 때, 상기 잡음 스펙트럼은 상기 모델링 모듈(240)로부터 수신한 음성 부존재 확률에 대한 정보를 이용하여 연산될 수 있다.

모델링 모듈(240)은 확률 분포에 관한 소정의 모델을 설정하고, 차감 스펙트럼 생성 모듈(230)로부터 수신한 스펙트럼 차감 신호를 상기 설정된 확률 분포 모델에 적용한다. 이 때, 음성 검출 모듈(250)은 모델링 모듈(240)에 의해 연산된 확률 분포를 통하여 현재의 프레임 구간에서 음성 신호가 존재하는지 여부를 결정한다.

음성 구간 검출 장치(200)를 구성하는 모듈들의 구체적인 동작 관계를 도 3에 도시된 플로우 차트를 이용하여 구체적으로 설명하도록 한다.

우선 신호 입력 모듈(210)을 통하여 신호가 입력되고(S310), 도메인 변환 모듈(220)에 의해 상기 입력된 신호에 대한 프레임이 생성된다(S320). 이 때, 상기 입력된 신호에 대한 프레임은 신호 입력 모듈(210)에 의해 생성된 후, 도메인 변환 모듈(220)로 전달될 수도 있다.

생성된 프레임은 도메인 변환 모듈(220)에 의해 고속 푸리에 변환(Fast Fourie Transform)되어 주파수 영역의 신호로 표현된다(S330). 즉, 시간 도메인에서의 입력 신호가 주파수 도메인에서의 입력 신호로 변환되는 것이다.

FFT 연산에 의해 생성된 주파수 스펙트럼의 절대값을 Y라고 하면, 차감 스펙트럼 생성 모듈(230)은 Y로부터 잡음 스펙트럼 N_e을 차감한다(S350). 차감된 결과는 U라고 나타내기로 한다.

이 때, 상기 잡음 스펙트럼 N_e는 이전 프레임에 대한 잡음 스펙트럼의 추정치를 나타내는 것으로서, 프레임 인덱스(frame index)를 t라고 하면, U는 [수학식 1]과 같이 나타낼 수 있다.

이 때, N_e(t)는 [수학식 2]와 같이 모델링할 수 있다.

이 때,

는 잡음 갱신 비율(rate)을 나타내는 것으로서 0과 1사이의 값을 갖는다. 그리고, P₀은 t번째 프레임에서 음성 신호가 존재하지 않는 확률을 나타내는 것으로서, 모델링 모듈(240)에 의해 연산된 값이다.

따라서, 차감 스펙트럼 생성 모듈(230)은 Y 및 모델링 모듈(240)로부터 수신한 P₀을 이용하여 잡음 스펙트럼을 갱신하고(S340), [수학식 1]에 따라 갱신된 잡음 스펙트럼 N_e(t)는 다음 프레임에서 차감되는 잡음 스펙트럼으로서 이용된다.

위와 같은 방법으로 잡음 스펙트럼을 차감한 결과를 도 4a 및 도 4b에서 나타내고 있다.

도 4a 및 도 4b는 본 발명의 일 실시예에 따른 잡음 스펙트럼의 차감 효과를 나타내는 히스토그램(histogram)로서, X축은 1kHz 내지 1.03kHz 사이의 주파수 대역에 대한 밴드 에너지(band energy)의 크기(magnitude)를 나타내고, Y축은 이에 대한 확률(probability)을 나타내고 있다.

도 4a는 입력 신호의 SNR이 5dB인 경우를 나타내고 있는데, 잡음이 섞인 음성 신호(410)와 잡음 신호(420)가 본 발명에 따른 갱신된 잡음 스펙트럼 N_e에 의해 차감되면, 차감된 음성 신호(412)와 잡음 신호(422)는 그 교차되는 지점이 밴드 에너지 레벨(X축)이 0이 되는 지점으로 치우치기 때문에 입력 신호로부터 음성 신호(412)와 잡음 신호(422)를 구분하기가 잡음 스펙트럼 N_e를 차감하기 이전보다 용이해진다.

도 4b는 입력 신호의 SNR이 0dB인 경우를 나타내고 있는데, 이 경우에도 잡음이 섞인 음성 신호(430)와 잡음 신호(440)가 본 발명에 따른 갱신된 잡음 스펙트럼 N_e에 의해 차감되면, 차감된 음성 신호(432)와 잡음 신호(442)는 그 교차되는 지점이 도 4a와 마찬가지로 밴드 에너지 레벨(X축)이 0이 되는 지점으로 치우치기 때문에 입력 신호로부터 음성 신호(412)와 잡음 신호(422)를 구분하기가 잡음 스펙트럼 N_e를 차감하기 이전보다 용이해진다.

즉, 입력 신호의 SNR이 0dB 정도가 되더라도 음성 신호와 잡음 신호의 분포에 있어서 겹쳐지는 영역이 줄어들고, 음성 신호와 잡음 신호를 보다 용이하게 구분할 수 있게 된다.

모델링 모듈(240)은 차감 스펙트럼 생성 모듈(230)로부터 차감된 스펙트럼 U를 수신하고, U에 음성이 존재할 확률을 연산한다(S360).

본 발명에서는 음성이 존재할 확률을 연산하기 위해 통계학적인 모델링 방법을 사용하기로 한다.

우선, 도 4a 및 도 4b에서 나타나고 있는 바와 같이, 입력 신호로부터 잡음 스펙트럼을 차감한 결과 음성 신호와 잡음 신호의 교차점이 밴드 에너지 레벨(X축) 이 0이 되는 지점으로 치우치는 경향을 갖기 때문에, 피크(peak)가 밴드 에너지 레벨의 0에 가깝고, 히스포그램의 테일(tail)이 긴 통계적 모델을 적용함으로써 확률 오차를 줄일 수 있다.

이러한 통계학적 모델로서 본 발명에서는 레일리-라플라스 분포(Rayleigh-Laplace distribution) 모델을 개시하도록 한다.

레일리-라플라스 분포(Rayleigh-Laplace distribution) 모델은 레일리 분포(Rayleigh distribution) 모델에 라플라스 분포(Laplace distribution)를 적용한 것인데 그 과정을 구체적으로 설명하도록 한다.

우선, 레일리 분포(Rayleigh distribution)는 복소 랜덤 변수(complex random variable) z의 확률 밀도 함수(probability density function)로서 정의된다. 이 때, 복소 랜덤 변수 z는 [수학식 3]과 같이 나타낼 수 있다.

이 때, r은 크기(magnitude) 또는 포락선(envelope)을 나타내고, 는

는 위상(phase)을 나타낸다.

만일, 두 개의 랜덤 프로세스(random process) x와 y가 동일한 편차(variance)와 평균이 0인 가우시안 분포(Gaussian distribution)을 따를 경우에는 x와 y 각각에 대한 확률 밀도 함수(probability density function) P(x)와 P(y)는 [수학식 4]와 같이 나타낼 수 있다. 이 때,

는 분산을 나타낸다.

이 때, x와 y가 통계학적 독립(statistically independent)이라고 가정할 경우에는 x와 y를 변수로 하는 확률 밀도 함수 P(x,y)는 [수학식 5]와 같이 나타낼 수 있다.

이 때, 미소 영역(differential areas) dxdy에 대하여 로 변환하면, r과

에 대한 조인트 확률 밀도 함수(joint probability density function)는 [수학식 6]과 같이 나타낼 수 있다.

그리고 나서,

를

에 대해 적분하면, r에 대한 확률 밀도 함수 P(r)은 [수학식 7]과 같이 나타낼 수 있다.

이 때, r에 대한 분산

은 [수학식 8]과 같이 나타낼 수 있으므로, P(r)은 [수학식 9]와 같이 나타낼 수 있다.

한편, 본 발명에 따른 레일리-라플라스 분포(Rayleigh-Laplace Distribution)는 레일리 분포(Rayleigh distribution)와 마찬가지로 [수학식 3]과 같은 복소 랜덤 변수(complex random variable) z의 확률 밀도 함수(probability density function)로서 정의된다.

그러나, 레일리-라플라스 분포는 앞서 설명한 레일리 분포와는 달리 두 개의 랜덤 프로세스(random process) x와 y가 동일한 편차(variance)와 평균이 0인 가우시안 분포(Gaussian distribution)가 아닌 공지의 라플라시안 분포(Laplacian distribution)를 따를 경우에 x와 y 각각에 대한 확률 밀도 함수 P(x), P(y)는 [수학식 10]과 같이 나타낼 수 있다.

이 때, x와 y가 통계학적 독립(statistically independent)이라고 가정할 경 우에는 x와 y를 변수로 하는 확률 밀도 함수 P(x,y)는 [수학식 11]과 같이 나타낼 수 있다.

이 때, 미소 영역(differential areas) dxdy에 대하여

로 변환하고,

로 가정하면, r과

에 대한 조인트 확률 밀도 함수(joint probability density function)는 [수학식 12]과 같이 나타낼 수 있다.

그리고 나서,

를

에 대해 적분하면, r에 대한 확률 밀도 함수 P(r)은 [수학식 13]과 같이 나타낼 수 있다.

이 때, r에 대한 분산

은 [수학식 14]와 같이 나타낼 수 있으므로, P(r)은 [수학식 15]와 같이 나타낼 수 있다.

따라서, 본 발명의 실시에 따라 현재의 프레임 구간에서 음성 신호가 존재할 확률을 P(Y_k(t)|H₁)라고 하면, P(Y_k(t)|H₁)는 [수학식 15]를 이용하여 [수학식 16]과 같이 모델링될 수 있다.

이 때,

는 t번째 프레임에서, k번째 주파수 빈(frequency bin)에서의 분산 추정값이다. 이러한 분산 추정값은 프레임마다 갱신될 수 있다.

한편, k 번째 프레임에서 음성 신호가 존재하지 않을 확률은 앞서 설명한 공지의 레일리 분포 모델을 사용할 수 있는데, 이 때, 레일리 분포 모델은 복소 가우시안 분포(complex gaussain distribution)와 같은 통계적 모델과 등가(equivalent)인 특성을 갖는다.

k 번째 프레임에서 음성 신호가 존재하지 않을 확률을 P(Y_k(t)|H₀)라고 하면, P(Y_k(t)|H₀)는 [수학식 9]를 이용하여 [수학식 17]과 같이 모델링될 수 있다.

이 때,

설명의 편의상, P(Yk(t)|H1)=P₁으로, P(Yk(t)|H0)을 P₀으로 나타내기로 한 다.

레일리-라플라스 분포(Rayleigh-Laplace distribution) 모델의 확률 분포 곡선을 도 5에서 도시하고 있는데, 레일리 분포(Rayleigh distribution) 모델과 비교하여 밴드 에너지 레벨이 0쪽으로 더욱 치우쳐 있다. 이는 [수학식 9]와 [수학식 15]를 비교하면 더욱 자명하다.

한편, 모델링 모듈(240)은 현재의 프레임 구간에 음성 신호가 존재하지 않을 확률 P₀을 차감 스펙트럼 생성 모듈(230)로 전달하여 잡음 스펙트럼을 갱신하도록 한다.

또한, 모델링 모듈(240)은 P₀과 P₁을 이용하여 현재의 프레임 구간에 음성 신호가 존재하는지 혹은 존재하지 않는지 여부를 가리키는 지표가 되는 값을 생성한다.

예를 들어, 현재의 프레임 구간에 음성 신호가 존재하는지 여부에 대한 지표값을 A라고 하면, A는 [수학식 18]과 같이 나타낼 수 있다.

음성 검출 모듈(250)은 상기 모델링 모듈(240)에 의해 생성된 지표값을 소정의 기준값과 비교하여 상기 기준값 이상인 경우 현재의 프레임 구간에 음성 신호가 존재하는 것으로 판단한다(S370).

본 발명에 대한 실험 자료로서, 음성 신호는 남녀 각 8명이 인명, 지명, 상호명 등 100개의 단어를 발화하여 총 1600개의 단어를 발화하였다. 또한 잡음으로서 자동차 환경 잡음을 이용하였는데, 고속도로를 시속 100±10km의 정속 주행 중인 차량에서 녹취한 자동차 잡음을 이용하였다.

그리고, 실험을 위해 잡음이 섞이지 않은 음성 신호에 녹취된 잡음 신호를 SNR=0dB로 하여 부가하였고, 녹취된 잡음이 섞인 음성 신호로부터 음성이 존재하는 구간을 검출하고 이를 수동으로 기재된 끝점 정보와 비교하였다.

한편, 측정 지표로서 음성 검출 확률 오류(error of speech presence probability, 이하, 'ESPP'라고 칭하기로 한다)와 음성 검출 오류(error of voice activity detection, 이하, 'EVAD'라고 칭하기로 한다)를 이용한다.

음성 검출 확률 오류는 사람이 기재한 음성 구간으로부터 유추된 확률과 검출된 음성 검출 확률(speech presence probability)과의 차이를 나타내고, 음성 검출 오류는 사람이 기재한 음성 구간과 검출된 구간의 차이를 ms로 표현한 것이다.

도 6에서 도시한 그래프 중에서 도면 참조 번호 610으로 표시되는 구간은 사람이 기재한 음성 구간을 나타내는 것으로서, 사람이 발화되는 단어를 듣고 음성 신호의 시작과 끝을 수동으로 지정한 것이다.

이와 비교하여, 도면 참조 번호 620으로 표시되는 그래프는 본 발명의 실시에 따른 음성 검출 확률로부터 검출된 음성 구간을 나타내고 있고, 도면 참조 번호 630으로 표시되는 그래프는 음성이 존재할 확률을 나타낸다.

도 6을 통하여 알 수 있는 바와 같이, 사람에 의해 수동으로 기재된 음성 구간과 본 발명의 실시에 따른 음성 구간이 거의 일치함을 알 수 있다.

한편, ESPP에 대한 본 발명의 성능을 앞서 언급한 제1 선행 기술 및 제2 선행 기술과 비교하면 [표 1]과 같다. 이 때, Y는 입력 신호로서 잡음이 섞인 음성 신호를 나타낸다. 즉, Y = S(speech) + N(noise) 이다. 그리고, U는 적절한 잡음 억제 알고리즘에 의해 얻은 음성 신호의 추정치이다. 즉, U = Y - Ne (Ne: 잡음 추정(noise estimate))을 나타낸다.

ESPP	Y	U
제1 선행 기술	0.47	0.47
제2 선행 기술	0.35	0.34
본 발명	0.35	0.28

또한, EVAD에 대한 본 발명의 성능을 앞서 언급한 제1 선행 기술 및 제2 선행 기술과 비교하면 [표 2] 및 [표 3]과 같다.

EVAD (시작점)	Y	U
제1 선행 기술	134ms	134ms
제2 선행 기술	170ms	150ms
본 발명	144ms	103ms

EVAD (끝점)	Y	U
제1 선행 기술	291ms	291ms
제2 선행 기술	214ms	193ms
본 발명	196ms	131ms

상기 [표 1] 내지 [표 3]에서 알 수 있는 바와 같이 본원 발명은 음성 구간 검출에 있어서 제1 선행 기술 및 제2 선행 기술에 비하여 뛰어난 효과를 나타내고 있음을 알 수 있다.

이상 첨부된 도면을 참조하여 본 발명의 실시예를 설명하였지만, 본 발명이 속하는 기술분야에서 통상의 지식을 가진 자는 본 발명이 그 기술적 사상이나 필수적인 특징을 변경하지 않고서 다른 구체적인 형태로 실시될 수 있다는 것을 이해할 수 있을 것이다. 그러므로 이상에서 기술한 실시예들은 모든 면에서 예시적인 것이며 한정적이 아닌 것으로 이해해야만 한다.

본 발명을 따르게 되면 입력 신호로부터 음성 신호가 존재하는 구간을 검출하는데에 있어서 보다 향상된 성능을 제공하는 효과가 있다.

Claims

수신된 음성 입력신호를 소정의 시간 간격으로 나눈 프레임 단위로 주파수 영역의 신호로 변환하는 도메인 변환 모듈;

상기 변환된 주파수 영역의 신호로부터 이전 프레임에 대한 잡음 스펙트럼을 차감한 스펙트럼 차감 신호를 생성하는 차감 스펙트럼 생성 모듈;

상기 스펙트럼 차감 신호를 소정의 확률 분포 모델에 적용하는 모델링 모듈; 및

상기 모델링 모듈에 의해 연산된 확률 분포를 통하여 현재의 프레임 구간에 음성 신호가 존재하는지 여부를 결정하는 음성 검출 모듈을 포함하는 음성 구간 검출 장치.
제1항에 있어서,

상기 도메인 변환 모듈은 고속 푸리에 변환(FFT)을 이용하여 주파수 영역의 신호로 변환하는 음성 구간 검출 장치.
제1항에 있어서,

상기 잡음 스펙트럼은 상기 모델링 모듈로부터 수신한 음성 부존재 확률에 대한 정보 및 상기 변환된 주파수 영역의 신호를 이용하여 연산되는 음성 구간 검출 장치.
삭제
제1항에 있어서,

상기 확률 분포 모델은 피크(peak)가 밴드 에너지 레벨의 0에 가깝고, 히스포그램의 테일(tail)이 긴 통계적 모델을 포함하는 음성 구간 검출 장치.
제1항에 있어서,

상기 확률 분포 모델은 레일리 분포에 라플라스 분포를 적용한 확률 분포 모델을 포함하는 음성 구간 검출 장치.
제6항에 있어서,

상기 음성 검출 모듈은 상기 확률 분포 모델에 의한 확률 분포로부터 현재 프레임에 음성이 존재하는지 여부를 결정하는 음성 구간 검출 장치.
제1항에 있어서,

상기 확률 분포 모델은 레일리 분포 모델을 포함하는 음성 구간 검출 장치.
제8항에 있어서,

상기 모델링 모듈은 상기 확률 분포 모델로부터 현재 프레임에 음성이 존재하지 않을 확률을 연산하여 연산된 확률 정보를 상기 차감 스펙트럼 생성 모듈로 전달하고, 상기 차감 스펙트럼 생성 모듈은 상기 전달된 확률 정보를 이용하여 상기 잡음 스펙트럼을 갱신하는 음성 구간 검출 장치.
수신된 입력 신호를 소정의 시간 간격으로 나눈 프레임 단위로 주파수 영역의 신호로 변환하는 (a) 단계;

상기 변환된 주파수 영역의 신호로부터 이전 프레임에 대한 잡음 스펙트럼을 차감한 스펙트럼 차감 신호를 생성하는 (b) 단계;

상기 스펙트럼 차감 신호를 소정의 확률 분포 모델에 적용하는 (c) 단계; 및

상기 확률 분포 모델의 적용에 따른 확률 분포를 통하여 현재의 프레임 구간에 음성 신호가 존재하는지 여부를 결정하는 (d) 단계를 포함하는 음성 구간 검출 방법.
제10항에 있어서,

상기 (a) 단계는 고속 푸리에 변환(FFT)을 이용하여 주파수 영역의 신호로 변환하는 단계를 포함하는 음성 구간 검출 방법.
제10항에 있어서,

상기 잡음 스펙트럼은 상기 확률 분포 모델의 적용에 따른 음성 부존재 확률에 대한 정보 및 상기 변환된 주파수 영역의 신호를 이용하여 연산되는 음성 구간 검출 방법.
삭제
제10항에 있어서,

상기 확률 분포 모델은 피크(peak)가 밴드 에너지 레벨의 0에 가깝고, 히스포그램의 테일(tail)이 긴 통계적 모델을 포함하는 음성 구간 검출 방법.
제10항에 있어서,

상기 확률 분포 모델은 레일리 분포에 라플라스 분포를 적용한 확률 분포 모델을 포함하는 음성 구간 검출 방법.
제15항에 있어서,

상기 (d) 단계는 상기 확률 분포 모델의 확률 분포로부터 현재 프레임에 음성이 존재하는지 여부를 결정하는 음성 구간 검출 방법.
제10항에 있어서,

상기 확률 분포 모델은 레일리 분포 모델을 포함하는 음성 구간 검출 방법.
제17항에 있어서,

상기 (c) 단계는 상기 확률 분포 모델로부터 현재 프레임에 음성이 존재하지 않을 확률을 연산하여 연산된 확률 정보를 제공하고, 상기 (b) 단계는 상기 제공된 확률 정보를 이용하여 상기 잡음 스펙트럼을 갱신하는 단계를 포함하는 음성 구간 검출 방법.