KR100614496B1

KR100614496B1 - 가변 비트율의 광대역 음성 및 오디오 부호화 장치 및방법

Info

Publication number: KR100614496B1
Application number: KR1020030080225A
Authority: KR
Inventors: 이미숙; 김도영; 김홍국; 최승호
Original assignee: 한국전자통신연구원
Priority date: 2003-11-13
Filing date: 2003-11-13
Publication date: 2006-08-22
Anticipated expiration: 2023-11-13
Also published as: US20050108009A1; KR20050046204A; US7634402B2

Abstract

본 발명은 가변 비트율(variable bit rate)의 광대역 음성 및 오디오의 부호화에 있어서, 음성과 오디오를 판별하여 효율적인 비트율로 전송하기 위한 광대역 음성 및 오디오 부호화 장치 및 그 방법에 관한 것이다.

본 발명에 따른 가변 비트율의 광대역 음성 및 오디오 부호화(wideband speech and audio coding) 장치는, a) 코덱으로 입력되는 신호를 음성이나 오디오 신호로 각각 분류하는 음성 및 오디오 분류 수단; b) 분류된 입력 신호가 음성 신호인 경우, 협대역 부호화를 수행하는 협대역 부호화 수단; c) 분류된 입력 신호가 오디오 신호인 경우, 저대역과 고대역의 부호화 비트율을 각각 조정하는 비트율 조정 수단; 및 d) 비트율 조정 수단에서 조정된 비트율로 부호화를 수행하는 광대역 부호화 수단을 포함한다.

본 발명에 따른 가변 비트율의 광대역 음성 부호화기는 낮은 비트율에서도 고대역에 부호화 비트를 할당함으로써, 입력 신호에 오디오 신호가 포함된 경우에도 음질의 열화를 방지할 수 있고, 효율적으로 비트율을 변경함으로써 가변 비트율의 광대역 음성 부호화기의 성능을 향상시킬 수 있다.

가변 비트율, 부호화, 광대역, 협대역, 음성, 오디오

Description

가변 비트율의 광대역 음성 및 오디오 부호화 장치 및 방법 {An apparatus for coding of variable bit-rate wideband speech and audio signals, and a method thereof}

도 1a 및 도 1b는 음향신호를 각각 전화 음성(Telephone speech), 광대역 음성(Wideband speech) 및 광대역 오디오(Wideband audio 또는 Music) 신호로 분류하는 것을 설명하기 위한 도면이다.

도 2는 일반적인 ITU-T 광대역 음성 부호화기의 종류를 설명하기 위한 도면이다.

도 3은 본 발명에 따른 가변 비트율의 광대역 음성 및 오디오 부호화 장치의 개략적인 구성도이다.

도 4는 본 발명에 따라 협대역과 광대역의 비트율 할당 방법을 예시하는 도면이다.

도 5는 본 발명에 따른 가변 비트율의 광대역 음성 및 오디오 부호화 방법의 순서도이다.

본 발명은 가변 비트율의 광대역 음성 및 오디오 부호화 장치 및 방법에 관한 것으로, 보다 구체적으로, 가변 비트율(variable bitrate)의 광대역 음성 및 오디오의 부호화에 있어서, 음성과 오디오를 판별하여 효율적인 비트율로 전송하기 위한 광대역 음성 및 오디오 부호화 장치 및 그 방법에 관한 것이다.

먼저, 일반적인 음성 부호화 기술에 대해 설명한다. 사람의 음성 주파수는 50~7000㎐의 대역을 가지지만, 요해도를 해치지 않는 300~3400㎐를 음성 대역으로 하고, 보호 대역을 감안하여 8㎑로 표본화하고 있다.

이러한 음성 신호를 디지털 신호로 부호화하는 방법에는 파형 부호화, 음원 부호화, 혼합 부호화 방식이 있으며, 주요 기술로는 PCM(G.711), ADPCM(G.721), SB-ADPCM(G.722), LD-CELP(G.728), CS-ACELP(G.729), MP-MLQ(G.723.1) 등이 있다.

상기 G.711 표준은 64kbps PCM 기술을 이용한 음성 부호화 방식으로서, 1972년 ITU-T에 의해 권고된 파형 부호화 방식의 하나이다. 상기 PCM은 아날로그 음성신호를 표본화, 양자화, 부호화하여 디지털로 전송하고, 수신측에서 복호화함으로써 아날로그 음성신호를 재생시키는 방식으로서, 양자화 잡음을 줄이기 위해 양자화 전에 압축하고, 복호화 후 신장하는 비선형 양자화 기법을 사용하고 있다.

또한, 상기 G.721 표준은 32kbps ADPCM 기술을 이용한 음성 부호화 및 압축 방식으로서, 1984년 ITU-T에 의해 권고되었으며, 상기 ADPCM은 음성신호의 시간 상관성이 큰 특성을 이용하여 입력 신호와 예측 값과의 차이를 4비트 양자화 함으로써 전송 비트율을 감소시키는 기술이며, 적응 양자화기, 적응 예측기를 사용하여 PCM과 거의 동등한 음질을 얻게 된다.

또한, 상기 G.722 표준은 고품질의 현장감 있는 음성 통신을 위해 50㎐~7㎑ 광대역을 64kbps 이하의 고품질로 부호화하는 기술로서, 1986년 ITU-T에 의해 권고되었다. 이러한 Subband-ADPCM 방식은 디지털 필터에 의해 0~4㎑의 저역과 4~8㎑의 고역으로 분할하여 ADPCM 처리한 후에 다중화시켜 64kbps로 전송하는 방식으로서, 음성회의를 보완하는 멀티미디어 통신회의에 응용되고 있다.

또한, 상기 G.728 표준은 저속의 이동통신을 위해 16kbps로 부호화하면서도 전술한 G.721과 동등 이상의 음질을 얻을 수 있는 음성 부호화 방식으로서, 1992년 ITU-T에 의해 권고되었다. 상기 LD-CELP(Low Delay-Code Excited Linear Prediction) 방식은 인간의 청각 특성을 고려, 음성신호의 5샘플을 1 프레임으로 하는 10 바이트만 전송함으로써 2㎳의 부호화 지연 이내에서 벡터 단위로 처리된 높은 음질을 구현한다.

또한, 상기 G.729 표준은 8kbps로 부호화하며, 전술한 G.721보다 음질이 좋다. 여기서, CS-ACELP는 Conjugate Structure-Algebraic Code Excited Linear Prediction의 약어이다.

또한, 상기 G.723.1 표준은 6.3kbps로 부호화하며, 전술한 G.721보다 음질이 좋으며, 이러한 MP-MLQ(Multi Pulse-Multi Level Quantization) 방식으로는 5.3 kbps ACELP(Algebraic Code Excited Linear Prediction) 방식도 있으나, 음질은 떨어진다.

다음의 표 1은 전술한 여러 방식들을 비교하여 나타내고 있다.

표준	압축 방식	속도	MOS	응용
G.711	PCM	64 Kbps	4.1	전화국간 디지털 전송
G.721	ADPCM	32 Kbps	3.85	가정 또는 기업의 CODEC
G.722	SB-ADPCM	64 Kbps	(오디오 신호)	멀티미디어 음성회의. AM 방송 품질
G.728	LD-CELP	16 Kbps	3.61	디지털 이동통신, ISDN, FR망 음성용
G.729	CS-ACELP	8 Kbps	3.92	H.323, H.320 영상회의 단말 이동통신, FR망 음성용
G.723.1	MP-MLQ	6.3 Kbps	3.9	이동통신, H.324 등 영상회의 단말 VOIP 포럼 추천
G.723.1	ACELP	5.3 Kbps	3.65	이동통신, H.324 등 영상회의 단말 VOIP 포럼 추천

도 1a 및 도 1b는 각각 음향신호를 전화 음성(Telephone speech), 광대역 음성(Wideband speech) 및 광대역 오디오(Wideband audio 또는 Music) 신호로 분류하는 것을 설명하기 위한 도면으로서, 도 1a 및 도 1b에 도시된 바와 같이, 300~3,400㎐ 협대역 음성은 중요한 고주파 성분을 표현하지 못할 수 있고, 50~7,000㎐의 광대역 음성은 상기 협대역에 비해 양호한 음성 품질을 제공하며, 20~20,000㎐의 광대역 오디오는 CD(Compact Disc) 혹은 DAT (Digital Audio Tape) 품질의 음악을 제공할 수 있다.

도 2는 일반적인 ITU-T 광대역 음성 부호화기의 종류를 설명하기 위한 도면이다. 전술한 G.711 표준, G.723.1 표준, 및 G.729 표준 등은 협대역 음성 코덱(Narrowband Speech CODEC)으로 사용되고 있으며, 도 2에 도시된 바와 같이, G.722, G.722.1 또는 G.722.2 표준은 광대역 음성 코덱으로 사용되고 있다.

한편, NEC Corporation사가 EP에 2002년 2월 5일자로 출원한 출원번호 EP1202252A2호에는 "Apparatus for bandwidth expansion of speech signals"가 개시되어 있는 바, 코덱으로 입력되는 부호화 파라미터를 기반으로 협대역 음성신호로 복호화(decode)할지 또는 광대역 음성신호로 복호화할지를 결정한 후, 그 결과 에 따라 부호화하는 방식의 장치가 개시되어 있다.

보다 구체적으로, 전술한 EP1202252A2호의 발명에 의하면, 입력 신호를 협대역이나 광대역으로 분류하고, 이후 그 결과로부터 각각에 대해 대역폭에 적합한 복호화를 하는 방식으로서, 필요에 따라 광대역으로 음성신호를 복호화하여 복호기(decoder)에서 음질을 향상시키게 된다. 이때, 대역 결정은 LSP(Line Spectral Pairs), 적응형 코드북(adaptive codebook) 및 고정형 코드북(fixed codebook)으로부터 생성된 여기 신호를 이용하여 이루어지게 된다.

한편, Toshiyuki Nomura 등이 1998년 5월에 International Conference on Acoustics, Speech, Signal Processing(Vol. 1, pp 341-344)지에 "A bitrate and bandwidth scalable CELP coder"라는 명칭으로 논문을 게재한 바, 이 논문은 멀티미디어 응용을 위해 비트율과 대역폭을 가변시키는 융통적인 CELP형 음성 코덱에 관한 것으로, 다단계 여기 신호 부호화 방법을 사용하여 비트율을 가변시키는 내용을 개시하고 있다.

보다 구체적으로, 전술한 논문에 의하면, 대역폭 가변은 기존의 부대역(Subband) 구조 방식이 아닌 저대역 CELP 파라미터 정보를 이용하여 고대역 파라미터를 부호화하여 이루어지며, Mean Opinion Score(MOS) 테스트 결과, ITU-T 56 kbit/s G.722와 동등한 음질을 보이는 16 kbit/s 부호화기를 제공한다. 이 논문에 의하면, 비트율 가변 툴로서 다단계 여기 신호를 부호화 하고, 대역폭 가변 툴로서 저대역 파라미터 정보를 이용함으로써, 통신망 환경에 따라 융통적으로 전송률을 조정하게 된다.

한편, 음성 신호를 고능률로 부호화하는 방식으로서, 예를 들면, M. Schroeder and B. Atal에 의한 논문 "Code-excited linear prediction: High quality speech at very low bit rates"(Proc. ICASSP, pp.937-940, 1985년)이나, Kleijn 등에 의한 논문 "Improved speech quality and efficient vector quantization in SELP"(Proc. ICASSP, pp.155-158, 1988년) 등에 기재되어 있는 CELP(Code Excited Linear Predictive Coding)가 알려져 있다.

상기 CELP에서는, 송신측에서, 우선 음성 신호의 각 프레임(예를 들면, 20ms)마다 선형 예측 부호화(Linear Predictive Coding: LPC) 분석을 이용해 음성 신호의 스펙트럼 특성을 나타내는 스펙트럼 파라미터를 추출한다. 다음에, 각 프레임을 서브프레임(예를 들면, 5ms)으로 더 분할한다. 각 서브프레임마다 과거의 음원 신호에 기초하여 적응 코드 북(codebook)에서의 파라미터(피치 주기에 대응하는 지연 파라미터와 이득(gain) 파라미터)를 추출함으로써, 적응 코드북에 의해 서브프레임의 음성 신호를 장구간 예측한다.

다음에, 장구간 예측에 의해 구한 음원 신호에 대해서, 미리 결정된 종류의 잡음 신호로 이루어진 음원 코드 북(벡터 양자화 코드 북)으로부터 최적의 음원 코드 벡터를 선택해서 최적의 이득을 계산함으로써 음원 신호를 양자화 한다. 또한, 음원 코드 벡터의 선택에 있어서는, 선택한 잡음 신호에 의해 합성한 신호와 잔차(殘差) 신호간의 오차 전력을 최소화하도록 하는 음원 코드 벡터를 선택한다.

이후, 선택된 음원 코드 벡터의 종류를 나타내는 인덱스와 이득 및 스펙트럼 파라미터와 적응 코드북의 파라미터를 멀티플렉서에 의해 다중화하여 전송한다.

그런데, 상술한 바와 같은 음성 신호를 부호화하는 종래의 방식에 있어서는, 음원 코드북으로부터 최적인 음원 코드 벡터를 선택하는 경우, 각 코드 벡터 각각에 대해 일단 필터링 또는 컨벌루션(convolution) 연산을 행해야 하므로, 이 연산을 코드북에 저장되어 있는 코드 벡터의 개수만큼 반복해서 행하여야 하므로, 큰 연산 량이 필요하게 되는 문제점이 있다. 예를 들면, 음성 코드북의 비트수가 B비트이고, 차원 수가 N인 경우, 필터링 혹은 컨벌루션 연산 시의 필터 혹은 임펄스 응답 길이를 K로 하면, 1초당 N × K ×2 ^B×8000/N의 연산 량이 필요하게 된다. 일례로서, B=10, N=40, K=10으로 하면, 1초당 81,920,O00회라고 하는 매우 방대한 연산이 필요하게 된다.

그래서 음원 코드북으로부터 음원 코드 벡터를 탐색할 때에 필요하게 되는 연산 량을 저감하는 방법으로서 각종의 것이 제안되고 있다. 그 중 하나로서, 예를 들면, C. Laflamme 등에 의한 논문 "16 kbps wideband speech coding technique based on algebraic CELP"(Proc. ICASSP, pp.13-16, 1991)에 기재되어 있는 ACELP(Algebraic Code Excited Linear Prediction) 방식이 있다.

이 ACELP 방식에 있어서는, 음원 신호가 복수 개의 펄스로 나타나고, 각 펄스의 위치가 미리 결정된 비트수로 표시되어 전송된다. 각 펄스의 진폭이 +1.0 또는 -1.0으로 한정되어 있기 때문에, 펄스 탐색의 연산 량을 크게 저감할 수 있다.

그렇지만, 상술한 바와 같은 음성 신호를 부호화하는 종래의 방식에서는, 부호화 비트율이 8kbit/s 이상인 음성 신호에 대해서는 양호한 음질을 얻을 수 있지 만, 부호화 비트율이 8kbit/s 미만이 되면, 서브프레임 당의 펄스의 개수가 충분하지 않기 때문에, 음원 신호를 충분한 정밀도로 나타내는 것이 곤란해져서, 부호화된 음성의 음질이 열화하게 되는 문제점이 있었다.

한편, 현재 주로 사용되고 있는 대부분의 가변 비트율 광대역 음성 및 오디오 부호화기는 협대역 내부 또는 광대역 내부 간에 비트율을 변경하거나, 또는 대역폭만을 가변시키는 가변 대역폭(variable bandwidth) 방식을 사용한다.

즉, 종래 기술에 따른 음성 코덱(Speech CODEC)에서, 비트율(bit rate)의 변경은 채널 상황이나 코덱 내부의 제어에 따라 협대역 내부 또는 광대역 내부 사이에서 각 코덱의 파라미터별로 할당되는 비트를 조절하여 비트율을 가변시킴으로써 이루어지거나, 또는 이러한 비트율의 변경은 협대역에서 광대역으로 또는 광대역에서 협대역으로 단순히 대역폭을 변경함으로써 이루어질 수도 있다.

그런데, 입력 신호가 고대역(high-band)에 중요한 정보가 존재하는 오디오 신호(audio signal)일 경우, 저대역(low-band) 또는 협대역만을 부호화하여 전송하게 되면 상기 비트율 변경 방식은 낮은 비트율의 제한에 의해 문제가 발생할 수 있다. 즉, 음악(music) 신호나 자연음 등이 포함되는 오디오 신호를 부호화에서 제외함으로써 음질의 열화를 가져온다는 문제점이 있다.

상기 문제점을 해결하기 위한 본 발명의 목적은, 가변 비트율 광대역 음성 및 오디오 부호화기의 설계에 있어서 낮은 비트율에서도 고대역의 오디오 신호를 포함하도록 비트율을 할당함으로써 음질의 저하를 최소화할 수 있는 가변 비트율의 광대역 음성 및 오디오 부호화 장치 및 방법을 제공하기 위한 것이다.

상기 목적을 달성하기 위한 수단으로서, 본 발명에 따른 가변 비트율 (variable bit rate)의 광대역 음성 및 오디오 부호화(wideband speech and audio coding) 장치는, a) 코덱으로 입력되는 신호를 음성이나 오디오 신호로 각각 분류하는 음성 및 오디오 분류 수단; b) 상기 분류된 입력 신호가 음성 신호인 경우, 협대역 부호화를 수행하는 협대역 부호화 수단; c) 상기 분류된 입력 신호가 오디오 신호인 경우, 저대역과 고대역의 부호화 비트율을 각각 조정하는 비트율 조정 수단; 및 d) 상기 비트율 조정 수단에서 조정된 비트율로 부호화를 수행하는 광대역 부호화 수단을 포함하는 것을 특징으로 한다.

여기서, 상기 비트율 조정 수단은 낮은 비트율의 입력 오디오 신호에 대해 상기 저대역과 고대역의 비트율을 조정하는 것을 특징으로 한다.

여기서, 상기 광대역 부호화 수단은 상기 저대역에 할당되는 부호화 비트를 일부 줄이고, 줄인 만큼 상기 고대역에 부호화 비트를 추가 할당하는 것을 특징으로 한다.

한편, 상기 목적을 달성하기 위한 다른 수단으로서, 본 발명에 따른 가변 비트율의 광대역 음성 및 오디오 부호화 방법은, ⅰ) 코덱으로 입력되는 신호를 판별하여 음성이나 오디오 신호로 각각 분류하는 단계; ⅱ) 상기 분류된 입력 신호가 음성 신호인 경우, 저대역에만 비트를 할당하고 부호화를 수행하는 단계; ⅲ) 상기 분류된 입력 신호가 오디오 신호인 경우, 저대역과 고대역의 부호화 비트율을 각각 조정하는 단계; 및 ⅳ) 상기 조정된 비트율로 저대역 및 고대역에 비트를 할당하고 부호화를 수행하는 단계를 포함하는 것을 특징으로 한다.

여기서, 상기 ⅱ) 단계의 부호화는 음성-기반(speech-oriented) 협대역 부호화인 것을 특징으로 한다.

여기서, 상기 ⅳ) 단계의 부호화는 오디오-기반(audio-oriented) 광대역 부호화인 것을 특징으로 한다.

여기서, 상기 광대역 부호화는 상기 저대역에 할당되는 부호화 비트를 일부 줄이고, 줄인 만큼 상기 고대역에 부호화 비트를 추가 할당하는 것을 특징으로 한다.

한편, 본 발명에 따른 가변 비트율의 광대역 음성 및 오디오 부호화 방법을 구현하는 프로그램이 저장된 기록매체는, ⅰ) 코덱으로 입력되는 신호를 판별하여 음성이나 오디오 신호로 각각 분류하는 기능; ⅱ) 상기 분류된 입력 신호가 음성 신호인 경우, 저대역에만 비트를 할당하고 부호화를 수행하는 기능; ⅲ) 상기 분류된 입력 신호가 오디오 신호인 경우, 저대역과 고대역의 부호화 비트율을 각각 조정하는 기능; 및 ⅳ) 상기 조정된 비트율로 상기 저대역 및 고대역에 비트를 할당하고 부호화를 수행하는 기능을 포함하는 것을 특징으로 한다.

본 발명에 따르면, 가변 비트율 광대역 음성 부호화기의 설계에 있어서, 채널 상황에 따른 가변 비트율 및 가변 대역폭(또는 대역폭 변경)에 관한 것으로, 입력 신호를 음성이나 오디오 신호로 판별하여 분류하고, 이에 따라 저대역과 고대역 부호화에 할당되는 비트율을 조정함으로써, 고대역 성분을 포함하거나 포함하지 않 을 수 있고, 비트율 감축시 오디오 신호 정보를 잃지 않게 되므로, 낮은 전송률에서도 음질을 향상시킬 수 있다.

이하, 첨부된 도면을 참조하여, 본 발명의 실시예에 따른 가변 비트율의 광대역 음성 및 오디오 부호화 장치 및 방법을 상세히 설명한다.

먼저, 본 발명은 차세대 네트워크나 멀티미디어 서비스에서 내장형 구조의 가변 비트율 광대역 음성 부호화기의 비트율 변경을 효율적으로 수행하여 성능을 향상시키기 위한 것이다. 이를 위해, 본 발명은 입력 신호를 음성이나 오디오 신호로 판별하여 분류하고, 이러한 판별 결과에 따라 저대역과 고대역의 부호화 비트를 조정하도록 코덱을 구성함으로써, 오디오 신호의 열화를 줄이게 된다. 이러한 경우, 협대역에 할당되는 부호화 비트를 줄이고, 줄인 만큼 고대역 부호화에 일부 비트를 할당하게 된다.

도 3은 본 발명에 따른 가변 비트율의 광대역 음성 및 오디오 부호화 장치의 개략적인 구성도로서, 본 발명에 따른 광대역 음성 및 오디오 부호화 장치(300)는, 코덱으로 입력되는 신호를 음성이나 오디오 신호로 각각 분류하는 음성 및 오디오 분류부(310); 상기 분류된 입력 신호가 음성 신호인 경우, 협대역 부호화를 수행하는 협대역 부호화부(340); 상기 분류된 입력 신호가 오디오 신호인 경우, 저대역과 고대역의 부호화 비트율을 각각 조정하는 비트율 조정부(320); 및 상기 비트율 조정 수단에서 조정된 비트율로 부호화를 수행하는 광대역 부호화부(330)로 구성된다.

도 3을 참조하면, 본 발명은 입력 신호를 음성이나 오디오 신호로 판별하여 분류하는 음성 및 오디오 분류부(310), 이러한 판별 결과에 따라 저대역과 고대역의 부호화 비트를 조정하는 비트율 조정부(320)로 코덱을 구성하여 오디오 신호를 부호화하게 된다.

즉, 오디오 신호로 판별될 경우에는 상기 광대역 부호화부(330)에서 저대역에 할당되는 비트를 줄이고 고대역에 일부 비트를 할당하는 부호화를 수행하고, 음성으로 판별될 경우에는 음성신호만을 부호화하는 기존의 협대역 부호화부(340)에서 부호화를 수행하게 된다. 다시 말하면, 여기서, 상기 비트율 조정부(320)는 낮은 비트율의 입력 오디오 신호에 대해 상기 저대역과 고대역의 비트율을 조정하고, 상기 광대역 부호화부(330)는 상기 저대역에 할당되는 부호화 비트를 일부 줄이고, 줄인 만큼 상기 고대역에 부호화 비트를 추가 할당하게 된다.

도 4는 본 발명에 따라 협대역과 광대역의 비트율 할당 방법을 예시하는 도면으로서, 도 4를 참조하여, 협대역(410)과 광대역 (420)에서의 비트율을 할당하는 방법, 즉, 낮은 비트율에서 저대역과 고대역에 부분적으로 비트율을 할당하는 방법을 설명한다.

도 3에서 음성으로 판단되는 경우에, LB₁부터 시작하여 순차적으로 이를 합한다. 즉, LB₁ + LB₂ + ㆍㆍㆍ + LB_M과 같이 비트율을 조정한다. 반면, 오디오 신호로 판단되는 경우에는 저대역(430)은 LB₁ + LB₂ + ㆍㆍㆍ + LB_k (k < M)만큼 비트율을 할당하고, LB_k+1 + ㆍㆍㆍ + LB_M과 동일한 비트율로 고대역(440)을 HB ₁ + ㆍㆍ ㆍ + HB_n(n < N)만큼 할당하게 된다.

본 발명에 따른 가변 비트율의 광대역 음성 및 오디오 부호화 방법은, 먼저, 코덱으로 수신되는 신호를 입력하고(S510), 이후, 상기 코덱으로 입력되는 신호를 판별하여 음성이나 오디오 신호로 각각 분류하게 된다(S520). 즉, 고대역에 음질의 영향을 미치는 음악이나 자연음 등의 오디오 신호가 포함되었는가를 판별하여, 이에 따라 음성 및 오디오 신호로 분류하게 된다.

다음으로, 상기 분류된 입력 신호가 음성 신호인 경우(S530), 저대역에만 비트를 할당하고 부호화를 수행하게 된다(S540). 이때, 상기 부호화는 음성-기반 (speech-oriented) 협대역 부호화로서, 기존의 음성 부호화 방식과 동일하다.

다음으로, 상기 분류된 입력 신호가 오디오 신호인 경우(S550), 저대역과 고대역의 부호화 비트율을 각각 조정하고, 상기 조정된 비트율로 저대역 및 고대역에 비트를 할당하고 부호화를 수행하게 된다(S560). 이때, 상기 부호화는 오디오-기반(audio-oriented) 광대역 부호화로서, 상기 광대역 부호화는 상기 저대역에 할당되는 부호화 비트를 일부 줄이고, 줄인 만큼 상기 고대역에 부호화 비트를 추가 할당하게 된다.

위에서 발명을 설명하였지만, 이러한 실시예는 이 발명을 제한하려는 것이 아니라 예시하려는 것이다. 이 발명이 속하는 분야의 숙련자에게는 이 발명의 기 술 사항을 벗어남이 없어 위 실시 예에 대한 다양한 변화나 변경 또는 조절이 가능함이 자명할 것이다. 그러므로 본 발명의 보호 범위는 첨부된 청구 범위에 의해서만 한정될 것이며, 위와 같은 변화예나 변경예 또는 조절예를 모두 포함하는 것으로 해석되어야 할 것이다.

본 발명에 따른 가변 비트율의 광대역 음성 부호화기는 낮은 비트율에서도 고대역에 부호화 비트를 할당함으로써, 입력 신호에 오디오 신호가 포함된 경우에도 음질의 열화를 방지할 수 있다.

또한, 본 발명에 따르면, 효율적으로 비트율을 변경함으로써 가변 비트율의 광대역 음성 부호화기의 성능을 향상시킬 수 있다.

Claims

가변 비트율(variable bit rate)의 광대역 음성 및 오디오 부호화(wideband speech and audio coding) 장치에 있어서,

코덱으로 입력되는 신호를 음성이나 오디오 신호로 각각 분류하는 음성 및 오디오 분류 수단;

상기 분류된 입력 신호가 음성 신호인 경우, 협대역 부호화를 수행하는 협대역 부호화 수단;

상기 분류된 입력 신호가 오디오 신호인 경우, 저대역 신호 및 고대역 신호의 부호화를 위해 저대역과 고대역에 부호화 비트를 할당하는 비트율 조정 수단;

상기 저대역에 할당되는 부호화 비트를 일부 줄이고, 줄인 만큼 상기 고대역에 부호화 비트를 추가 할당하여 부호화를 수행하는 광대역 부호화 수단

을 포함하는 광대역 음성 및 오디오 부호화 장치.
제1항에 있어서,

상기 비트율 조정 수단은 낮은 비트율의 입력 오디오 신호에 대해 상기 저대역과 고대역의 비트율을 조정하는 것을 특징으로 하는 광대역 음성 및 오디오 부호화 장치.
삭제
가변 비트율의 광대역 음성 및 오디오 부호화 방법에 있어서,

ⅰ) 코덱으로 입력되는 신호를 판별하여 음성이나 오디오 신호로 각각 분류하는 단계;

ⅱ) 상기 분류된 입력 신호가 음성 신호인 경우, 저대역에만 비트를 할당하고 부호화를 수행하는 단계;

iii) 상기 분류된 입력 신호가 오디오 신호인 경우, 저대역 신호 및 고대역 신호의 부호화를 위해 저대역과 고대역에 부호화 비트를 할당하는 단계;

iv) 상기 저대역에 할당되는 부호화 비트를 일부 줄이고, 줄인 만큼 상기 고대역에 부호화 비트를 추가 할당하여 부호화를 수행하는 단계

를 포함하는 광대역 음성 및 오디오 부호화 방법.
제4항에 있어서,

상기 ⅱ) 단계의 부호화는 음성-기반(speech-oriented) 협대역 부호화인 것을 특징으로 하는 광대역 음성 및 오디오 부호화 방법.
제4항에 있어서,

상기 ⅳ) 단계의 부호화는 오디오-기반(audio-oriented) 광대역 부호화인 것을 특징으로 하는 광대역 음성 및 오디오 부호화 방법.
삭제
가변 비트율의 광대역 음성 및 오디오 부호화를 수행하는 프로그램이 저장된 기록매체에 있어서,

ⅰ) 코덱으로 입력되는 신호를 판별하여 음성이나 오디오 신호로 각각 분류하는 기능;

ⅱ) 상기 분류된 입력 신호가 음성 신호인 경우, 저대역에만 비트를 할당하고 부호화를 수행하는 기능;

iii) 상기 분류된 입력 신호가 오디오 신호인 경우, 저대역 신호 및 고대역 신호의 부호화를 위해 저대역과 고대역에 부호화 비트를 할당하는 기능;

iv) 상기 저대역에 할당되는 부호화 비트를 일부 줄이고, 줄인 만큼 상기 고대역에 부호화 비트를 추가 할당하여 부호화를 수행하는 기능

을 구현하는 프로그램이 저장된 기록매체.