KR101425355B1

KR101425355B1 - 파라메트릭 오디오 부호화 및 복호화 장치와 그 방법

Info

Publication number: KR101425355B1
Application number: KR1020070089971A
Authority: KR
Inventors: 이건형; 정종훈; 이남숙
Original assignee: 삼성전자주식회사
Priority date: 2007-09-05
Filing date: 2007-09-05
Publication date: 2014-08-06
Anticipated expiration: 2027-09-05
Also published as: US20090063162A1; WO2009031754A1; KR20090024970A; US8473302B2

Abstract

본 발명은 파라메트릭 오디오 부호화 및 복호화 장치와 그 방법에 관한 것으로, 입력되는 오디오 신호를 복수의 세그먼트로 분할하는 단계; 복수의 세그먼트의 각각에 대하여 적어도 하나의 정현파를 추출하는 단계; 정현파를 연결하는 단계; 정현파가 시작 정현파인지 여부를 결정하는 단계; 및 정현파가 시작 정현파이면, 시작 정현파의 위상이 시작 정현파의 주파수를 기초로 하여 부호화된 비트 스트림을 출력하는 단계를 포함하고, 시작 정현파의 위상을 부호화하기 위하여 할당되는 비트수는 시작 정현파의 주파수에 따라서 조절되도록 함으로써, 오디오 신호의 음질을 유지하면서 압축율을 향상시킬 수 있는 효과가 있다.

Description

파라메트릭 오디오 부호화 및 복호화 장치와 그 방법{Parametric audio encoding and decoding apparatus and method thereof}

본 발명은 파라메트릭 오디오 부호화 및 복호화 장치와 그 방법에 관한 것으로, 더욱 상세하게는 오디오 신호에 대한 정현파를 연결하여 부호화하는 파라메트릭 오디오 부호화 및 복호화 장치와 그 방법에 관한 것이다.

파라메트릭 오디오는 오디오 신호를 정현파와 노이즈로 분리하여 부호화하는 방식이다. 하나의 정현파를 기술하기 위해서는 위상과 주파수와 진폭을 부호화하는 것이 필요하다. 실제로는 비트율을 높이기 위해서, 시간적으로 이웃하고 주파수가 유사한 정현파는 서로 연결되고 연속적으로 부호화된다.

일반적으로, 처음 나타나는 정현파(이하, '시작 정현파'라 한다)의 경우에, 정현파의 위상, 주파수 및 진폭은 모두 부호화된다. 반면에, 시작 정현파에 연결된 다음 프레임의 정현파(이하, '연결된 정현파'라 한다)의 경우에는 정현파의 위상 및 진폭(또는 주파수 및 진폭) 만이 부호화된다. 연결된 정현파에서 위상과 진폭(또는 주파수 및 진폭) 만이 부호화되는 이유는 주파수(또는 위상)는 이전의 정현파의 위상(또는 주파수)로부터 유추될 수 있기 때문이다.

이와 같이, 시작 정현파를 기술하기 위해서는 진폭, 주파수 및 위상을 모두 부호화할 것이 요구되기 때문에, 음질 저하 없이 오디오 신호를 압축하기 위해서는 많은 비트수가 요구된다는 문제점이 있다.

본 발명은 상술한 문제점을 해결하기 위해 안출된 것으로, 본 발명의 목적은 오디오 신호에 대한 정현파를 연결하여 부호화할 때, 오디오 신호의 음질을 유지하면서 압축율을 향상시키기 위한 파라메트릭 오디오 부호화 및 복호화 장치와 그 방법을 제공하는데 있다.

상술한 목적을 달성하기 위하여, 본 발명의 일 실시예에 따른 파라메트릭 오디오 부호화 방법은, 입력되는 오디오 신호를 복수의 세그먼트로 분할하는 단계; 상기 복수의 세그먼트의 각각에 대하여 적어도 하나의 정현파를 추출하는 단계; 상기 정현파를 연결하는 단계; 상기 정현파가 시작 정현파인지 여부를 결정하는 단계; 및 상기 정현파가 상기 시작 정현파이면, 상기 시작 정현파의 위상이 상기 시작 정현파의 주파수를 기초로 하여 부호화된 비트 스트림을 출력하는 단계를 포함하고, 상기 시작 정현파의 위상을 부호화하기 위하여 할당되는 비트수는 상기 시작 정현파의 주파수에 따라서 조절되는 것을 특징으로 한다.

상기 시작 정현파의 위상을 부호화하는 단계는, 상기 시작 정현파가 소정의 기준 주파수보다 높은 주파수를 가지면, 상기 시작 정현파의 위상에 할당되는 비트수는 0인 것이 바람직하다.

상기 시작 정현파의 위상을 부호화하는 단계는, 상기 시작 정현파의 주파수 및 소정의 상수의 곱으로써 양자화 스텝을 결정하는 단계; 상기 양자화 스텝에 따 라서 상기 시작 정현파의 위상을 양자화하는 단계; 및 상기 양자화된 시작 정현파의 위상을 부호화한 비트 스트림을 출력하는 단계를 포함하는 것이 바람직하다.

상기 시작 정현파의 위상을 부호화하는 단계는, 상기 정현파의 주파수를 심리 음향적 주파수로 변환하는 단계; 상기 심리 음량적 주파수 및 소정의 상수의 곱으로써 양자화 스텝을 결정하는 단계; 상기 양자화 스텝에 따라서 상기 시작 정현파의 위상을 양자화하는 단계; 및 상기 양자화된 시작 정현파의 위상을 부호화한 비트 스트림을 출력하는 단계를 포함하는 것이 바람직하다.

상기 정현파의 주파수는 ERB(Equivalent Rectangular Band) 함수, 바크 밴드 스케일(Bark Band Scale) 함수, 및 크리티컬 밴드(Critical Band) 함수 중 어느 하나에 의해서 상기 심리 음향적 주파수로 변환되는 것이 바람직하다.

상기 비트 스트림은 상기 정현파가 상기 시작 정현파인지 여부에 관한 연결 정보, 부호화된 시작 정현파의 진폭 및 부호화된 시작 정현파의 주파수를 포함하는 것이 바람직하다.

상기 비트스트림은 양자화 스텝 정보를 더 포함하는 것이 바람직하다.

또한, 상술한 목적을 달성하기 위하여, 본 발명의 일 실시예에 따른 파라메트릭 오디오 부호화 장치는, 입력되는 오디오 신호를 복수의 세그먼트로 분할하는 세그먼테이션부; 상기 복수의 세그먼트의 각각에 대하여 적어도 하나의 정현파를 추출하는 정현파 추출부; 상기 정현파를 연결하는 정현파 연결부; 상기 정현파가 시작 정현파인지 여부를 결정하는 시작 정현파 결정부; 및 상기 정현파가 상기 시작 정현파이면, 상기 시작 정현파의 위상이 상기 시작 정현파의 주파수를 기초로 하여 부호화된 비트 스트림을 출력하는 부호화부를 포함하고, 상기 부호화부는 상기 시작 정현파의 위상을 부호화하기 위하여 할당되는 비트수를 상기 시작 정현파의 주파수에 따라서 조절하는 것을 특징으로 한다.

또한, 상술한 목적을 달성하기 위하여, 본 발명의 일 실시예에 따른 파라메트릭 오디오 복호화 방법은, 입력되는 비트 스트림을 파싱하는 단계; 부호화된 정현파가 부호화된 시작 정현파인지 여부를 결정하는 단계; 상기 부호화된 정현파가 상기 부호화된 시작 정현파이면, 상기 부호화된 시작 정현파의 진폭 및 주파수를 복호화하는 단계; 상기 시작 정현파의 주파수를 기초로 하여 상기 부호화된 시작 정현파의 위상을 복호화하는 단계; 및 상기 시작 정현파의 진폭, 주파수 및 위상을 이용하여 상기 시작 정현파를 복원하고, 상기 복원된 시작 정현파를 이용하여 오디오 신호를 복원하는 단계를 포함하는 것을 특징으로 한다.

상기 부호화된 시작 정현파의 위상을 복호화하는 단계는, 상기 시작 정현파의 주파수가 소정의 기준 주파수보다 높으면, 상기 시작 정현파의 위상을 0 내지 2π 사이의 랜덤 값으로 결정하는 것이 바람직하다.

상기 부호화된 시작 정현파의 위상을 복호화하는 단계는, 상기 비트 스트림에 포함된 양자화 스텝 정보를 이용하여 상기 부호화된 시작 정현파의 위상을 복호화하는 것이 바람직하다.

상기 부호화된 시작 정현파의 위상을 복호화하는 단계는, 상기 시작 정현파의 주파수를 이용하여 양자화 스텝을 결정하는 단계; 및 상기 양자화 스텝을 이용하여 상기 부호화된 시작 정현파의 위상을 복호화하는 단계를 포함하는 것이 바람 직하다.

또한, 상술한 목적을 달성하기 위하여, 본 발명의 일 실시예에 따른 파라메트릭 오디오 복호화 장치는, 입력되는 비트 스트림을 파싱하는 파싱부; 상기 파싱부로부터 출력되는 부호화된 정현파가 부호화된 시작 정현파인지 여부를 결정하는 시작 정현파 결정부; 상기 부호화된 정현파가 상기 부호화된 시작 정현파이면, 상기 부호화된 시작 정현파의 진폭 및 주파수를 복호화하는 제1 복호화부; 상기 시작 정현파의 주파수를 기초로 하여 상기 부호화된 시작 정현파의 위상을 복호화하는 제2 복호화부; 및 상기 시작 정현파의 진폭, 주파수 및 위상을 기초로 하여 상기 시작 정현파를 복원하고, 상기 복원된 시작 정현파를 이용하여 오디오 신호를 복원하는 복원부를 포함하는 것을 특징으로 한다.

또한, 상술한 목적을 달성하기 위하여, 본 발명의 일 실시예에 따른 파라메트릭 오디오 부호화 방법을 실행하기 위한 프로그램을 저장한 컴퓨터로 판독 가능한 기록매체는, 입력되는 오디오 신호를 복수의 세그먼트로 분할하는 단계; 상기 복수의 세그먼트의 각각에 대하여 적어도 하나의 정현파를 추출하는 단계; 상기 정현파를 연결하는 단계; 상기 정현파가 시작 정현파인지 여부를 결정하는 단계; 및 상기 정현파가 상기 시작 정현파이면, 상기 시작 정현파의 위상이 상기 시작 정현파의 주파수를 기초로 하여 부호화된 비트 스트림을 출력하는 단계를 포함하고, 상기 시작 정현파의 위상을 부호화하기 위하여 할당되는 비트수는 상기 시작 정현파의 주파수에 따라서 조절되는 방법을 실행하는 것을 특징으로 한다.

또한, 상술한 목적을 달성하기 위하여, 본 발명의 일 실시예에 따른 파라메 트릭 오디오 복호화 방법을 실행하기 위한 프로그램을 저장한 컴퓨터로 판독 가능한 기록매체는, 입력되는 비트 스트림을 파싱하는 단계; 부호화된 정현파가 부호화된 시작 정현파인지 여부를 결정하는 단계; 상기 부호화된 정현파가 상기 부호화된 시작 정현파이면, 상기 부호화된 시작 정현파의 진폭 및 주파수를 복호화하는 단계; 상기 시작 정현파의 주파수를 기초로 하여 상기 부호화된 시작 정현파의 위상을 복호화하는 단계; 및 상기 시작 정현파의 진폭, 주파수 및 위상을 이용하여 상기 시작 정현파를 복원하고, 상기 복원된 시작 정현파를 이용하여 오디오 신호를 복원하는 단계를 포함하는 방법을 실행하는 것을 특징으로 한다.

본 발명에 따르면, 오디오 신호에 대한 정현파를 연결하여 부호화할 때, 시작 정현파의 위상에 할당되는 비트수를 줄임으로써, 오디오 신호의 음질을 유지하면서 압축율을 향상시킬 수 있는 효과가 있다.

이하, 첨부한 도면을 참조하여 본 발명의 바람직한 실시예를 상세하게 설명한다.

도 1은 본 발명의 일 실시예에 따른 파라메트릭 오디오 부호화 방법을 도시한 동작 흐름도이다.

도 1을 참조하면, 단계 102에서는, 입력되는 오디오 신호는 복수의 세그먼트로 분할된다. 예를 들어, 입력되는 오디오 신호는 시간 길이 L(L은 정수)의 세그먼트로 분할될 수 있다. 입력되는 오디오 신호가 길이 L의 세그먼트로 분할되는 경 우, 분할된 세그먼트들은 L/2 또는 소정의 길이만큼 이전 세그먼트와 중첩될 수 있다.

단계 104에서는, 복수의 세그먼트의 각각에 대하여 적어도 하나의 정현파가 추출된다. 세그먼트화된 오디오 신호로부터 가장 큰 진폭(amplitude)을 갖는 정현파가 추출되고, 다음으로 추출된 정현파를 제외한 다음으로 큰 진폭을 갖는 정현파가 추출된다. 정현파의 추출은 정현파의 진폭이 소정의 진폭에 도달할 때까지 반복적으로 수행될 수 있다.

단계 106에서는, 단계 104에서 추출된 정현파가 연결된다. 즉, 현재 세그먼트화된 오디오 신호로부터 추출된 정현파는, 이전 세그먼트화된 오디오 신호로부터 추출된 정현파의 주파수를 기초로 하여, 이전 세그먼트화된 오디오 신호로부터 추출된 정현파에 연결된다. 현재 세그먼트에서 추출된 정현파의 주파수가 이전 세그먼트에서 추출된 정현파의 주파수와 유사하면, 현재 세그먼트에서 추출된 정현파는 이전 세그먼트에서 추출된 정현파와 연결된다. 추출된 정현파의 주파수가 시간적으로 여러 세그먼트에 걸쳐서 유사한 경우, 주파수가 유사한 정현파는 서로 연결되어 부호화된다.

단계 108에서는, 추출된 정현파가 시작 정현파인지의 여부가 결정된다. 본 명세서에서, 시작 정현파는 단계 106에서 이전 세그먼트에서 추출된 정현파와 연결되지 않은 정현파를 의미한다. 또한, 시작 정현파에 연결된 정현파는 연결된 정현파로 언급된다. 단계 106에서 추출된 정현파의 연결 결과에 따라서, 추출된 정현파가 시작 정현파인지 또는 연결된 정현파인지 여부를 결정하는 것이 가능하다.

단계 104에서 추출된 정현파가 시작 정현파이면 단계 112가 진행되고, 그렇지 않으면 단계 114로 진행된다(단계 110).

단계 112에서는, 시작 정현파의 주파수를 기초로 하여 시작 정현파의 위상을 부호화한 비트 스트림이 출력된다. 시작 정현파의 위상을 부호화하기 위해 할당되는 비트수는 시작 정현파의 주파수의 크기에 따라서 조절된다. 이는 오디오 신호(정현파)의 주파수가 높으면 높을수록, 사람이 오디오 신호(정현파)의 위상을 인지하는 것이 더 어려워지기 때문이다. 따라서, 시작 정현파의 주파수의 크기가 크면 시작 정현파의 위상을 부호화하기 위해 할당되는 비트수를 줄이는 것이 가능하다. 구체적인 예시는 도 2 내지 도 4를 참조하여 후술된다.

비트 스트림은 부호화된 시작 정현파의 진폭 및 부호화된 시작 정현파의 주파수를 포함하고, 또한, 비트 스트림은 정현파가 시작 정현파인지 여부에 관한 연결 정보를 포함할 수 있다. 후술될 파라메트릭 오디오 복호화 장치는 비트 스트림에 포함된 연결 정보에 의해서 부호화된 정현파가 시작 정현파인지 아니면 연결된 정현파인지를 결정할 수 있다. 또한, 비트 스트림은 정현파의 위상의 양자화에 관한 양자화 스텝 정보를 포함할 수 있다.

단계 114에서는, 연결된 정현파를 부호화한 비트 스트림이 출력된다. 연결된 정현파의 위상 및 진폭(또는 주파수 및 진폭)은 부호화되어 비트 스트림에 포함된다.

도 2는 본 발명의 다른 실시예에 따른 파라메트릭 오디오 부호화 방법을 도시한 동작 흐름도로서, 도 1의 단계 112에서 시작 정현파의 위상을 부호화하는 구 체적인 예시를 나타낸다.

도 2를 참조하면, 단계 202에서는, 시작 정현파의 주파수가 소정의 기준 주파수보다 높으면 단계 204가 진행되고, 그렇지 않으면 단계 206이 진행된다.

단계 204에서는, 시작 정현파가 소정의 기준 주파수보다 높은 주파수를 가지면, 시작 정현파의 위상은 전송되지 않는다. 즉, 시작 정현파의 위상을 부호화하기 위하여 할당되는 비트수는 0가 된다. 이는 정현파의 주파수가 약 3 KHz를 초과하면, 정현파의 위상은 사람에 의해서 인지되기 어렵기 때문이다. 따라서, 기준 주파수는 3 KHz 정도로 결정될 수 있다.

단계 206에서는, 시작 정현파가 소정의 기준 주파수보다 낮거나 같은 주파수를 가지면, 시작 정현파의 위상은 0부터 2π까지 균등하게 분할되는 방식으로 부호화된다.

도 3은 본 발명의 다른 실시예에 따른 파라메트릭 오디오 부호화 방법을 도시한 동작 흐름도로서, 도 1의 단계 112에서 시작 정현파의 위상을 부호화하는 또 다른 구체적인 예시를 나타낸다.

도 3을 참조하면, 단계 302에서는, 시작 정현파의 위상을 양자화하기 위한 양자화 스텝이 결정된다. 양자화 스텝은 다음의 식에 의해서 결정된다.

양자화 스텝 = 시작 정현파의 주파수 * 소정의 상수

상기 식에 따르면, 시작 정현파의 주파수가 높으면 높을수록 양자화 스텝은 커진다. 양자화 스텝이 커지면, 시작 정현파의 위상을 부호화하기 위하여 요구되는 비트수는 감소된다. 따라서, 상수를 변화시킴으로써 시작 정현파의 위상을 부호화 하기 위한 비트수가 조절될 수 있다.

결과적으로, 사람이 인지하기 어려운 고 주파수 영역에서는 적은 비트수가 할당되고, 저 주파수 영역에서는 상대적으로 많은 비트수가 할당된다.

또한, 단계 302에서 결정된 양자화 스텝에 관한 정보는 출력되는 비트 스트림에 포함될 수도 있다.

단계 304에서는, 단계 302에서 결정된 양자화 스텝에 따라서 시작 정현파의 위상이 양자화된다. 양자화는 다음의 식과 같이 수행될 수 있다.

Q = round(modular(phi, 2π)/step)

여기서, round는 반올림, phi는 시작 정현파의 위상, step은 양자화 스텝, modular(phi, 2π)는 시작 정현파의 위상을 2π로 나눈 나머지 값을 의미한다.

단계 306에서는, 양자화된 시작 정현파의 위상을 부호화한 비트 스트림이 출력된다. 따라서, 시작 정현파의 주파수가 커질수록 적은 수의 비트가 위상에 할당될 수 있다.

도 4는 본 발명의 다른 실시예에 따른 파라메트릭 오디오 부호화 방법을 도시한 동작 흐름도로서, 도 1의 단계 112에서 시작 정현파의 위상을 부호화하는 또 다른 구체적인 예시를 나타낸다.

도 4를 참조하면, 단계 402에서는, 시작 정현파의 주파수는 심리 음향적 주파수로 변환된다. 사람은 주파수가 높은 경우에 심리 음향의 특성상 정확한 주파수를 들을 수 없을 뿐 아니라 위상도 느끼지 못한다. 따라서, 낮은 주파수는 정밀하게 부호화되는 반면 높은 주파수는 정밀하게 부호화되지 않도록 하기 위하여, 정현 파의 주파수와 심리 음향적 주파수간의 관계가 정의된다. 따라서, 시작 정현파의 주파수가 높을수록, 심리 음향적인 주파수의 변화 폭은 작다.

또한, 시작 정현파의 주파수는 ERB(Equivalent Rectangular Band) 함수, 바크 밴드 스케일(Bark Band Scale) 함수, 및 크리티컬 밴드(Critical Band) 함수 등을 이용하여 심리 음향적 주파수로 변환될 수 있다. 예를 들어, ERB 함수를 사용할 경우에, 심리 음향적 주파수는 아래 식에 의해 변환될 수 있다.

ERB(f)=24.7(4.37(f/1000)+1)

여기서, f는 시작 정현파의 주파수를 의미한다.

단계 404에서는, 시작 정현파의 위상을 양자화하기 위한 양자화 스텝이 결정된다. 양자화 스텝은 다음의 식에 의해서 결정된다.

양자화 스텝 = 심리 음량적 주파수 * 소정의 상수

즉, 상수를 변화시킴으로써 시작 정현파의 위상을 부호화하기 위한 비트수가 조절될 수 있다.

또한, 출력되는 비트 스트림은 상기 식에 의해서 결정된 양자화 스텝에 관한 정보를 포함할 수도 있다.

단계 406에서는, 양자화 스텝에 따라서 시작 정현파의 위상이 양자화되고, 단계 408에서는, 양자화된 시작 정현파의 위상을 부호화한 비트 스트림이 출력된다. 도 4의 단계 406 및 단계 408은 도 3의 단계 304 및 단계 306과 유사하게 동작되므로 구체적인 설명은 생략된다.

도 5는 본 발명의 일 실시예에 따른 파라메트릭 오디오 부호화 장치를 도시 한 기능 블록도이다.

도 5를 참조하면, 본 발명의 일 실시예에 따른 파라메트릭 오디오 부호화 장치(500)는 세그먼테이션부(502), 정현파 추출부(504), 정현파 연결부(506), 시작 정현파 결정부(508), 및 부호화부(510)를 포함한다.

세그먼테이션부(502)는 입력되는 오디오 신호를 복수의 세그먼트로 분할한다. 예를 들어, 입력되는 오디오 신호가 길이 L(L은 정수)의 세그먼트로 분할되는 경우, 분할된 세그먼트들은 L/2 또는 소정의 길이만큼 이전 세그먼트와 중첩될 수 있다.

정현파 추출부(504)는 복수의 세그먼트의 각각에 대하여 적어도 하나의 정현파를 추출한다. 정현파 추출부(504)는 정현파의 진폭이 소정의 진폭에 도달할 때까지 정현파의 추출을 반복적으로 수행할 수 있다.

정현파 연결부(504)는 정현파 추출부(504)에서 추출된 정현파를 연결한다. 즉, 현재 세그먼트에서 추출된 정현파의 주파수가 이전 세그먼트에서 추출된 정현파의 주파수와 유사하면, 정현파 연결부(504)는 현재 세그먼트에서 추출된 정현파를 이전 세그먼트에서 추출된 정현파와 연결한다.

시작 정현파 결정부(508)는 정현파 추출부(504)에서 추출된 정현파가 시작 정현파인지 여부를 결정한다.

부호화부(510)는 정현파 추출부(504)에서 추출된 정현파가 시작 정현파이면, 시작 정현파의 위상을 시작 정현파의 주파수를 기초로 부호화한 비트 스트림을 출력한다. 부호화부(510)는 시작 정현파의 위상을 부호화하기 위하여 할당되는 비트 수를 시작 정현파의 주파수에 따라서 조절한다. 예를 들어, 부호화부(510)는, 시작 정현파가 소정의 기준 주파수보다 높은 주파수를 가지면, 시작 정현파의 위상에 비트수를 할당하지 않을 수 있다.

또한, 부호화부(510)로부터 출력되는 비트 스트림은 부호화된 시작 정현파의 진폭 및 부호화된 시작 정현파의 주파수를 포함한다. 또한, 비트 스트림은 정현파가 시작 정현파인지 아니면 연결된 정현파인지 여부에 관한 정보인 연결 정보를 포함할 수 있다. 또한, 비트 스트림은 양자화 스텝에 관한 정보를 포함할 수 있다.

또한, 부호화부(510)는 연결된 정현파의 위상 및 진폭(또는 주파수 및 진폭)을 부호화한 비트 스트림을 출력한다.

도 6은 본 발명의 다른 실시예에 따른 파라메트릭 오디오 부호화 장치를 도시한 기능 블록도이다.

도 6을 참조하면, 부호화부(510)는 주파수 부호화부(602), 진폭 부호화부(604), 양자화 스텝 결정부(606), 양자화부(608), 및 비트 스트림 출력부(610)를 포함한다.

주파수 부호화부(602)는 시작 정현파 결정부(508)로부터 시작 정현파의 주파수를 입력받고, 시작된 정현파의 주파수를 부호화한 신호를 출력한다.

진폭 부호화부(604)는 시작 정현파 결정부(508)로부터 시작 정현파의 진폭을 입력받고, 시작된 정현파의 진폭을 부호화한 신호를 출력한다.

양자화 스텝 결정부(606)는 시작 정현파 결정부(508)로부터 시작 정현파의 위상, 시작 정현파의 주파수 및 연결 정보를 입력받고, 시작 정현파의 주파수 및 소정의 상수의 곱으로써 양자화 스텝을 결정한다.

양자화부(608)는 양자화 스텝 결정부(606)에서 결정된 양자화 스텝에 따라서 시작 정현파의 위상을 양자화한다.

비트 스트림 출력부(610)는 양자화된 시작 정현파의 위상을 부호화한 비트 스트림을 출력한다.

도 7은 본 발명의 다른 실시예에 따른 파라메트릭 오디오 부호화 장치를 도시한 기능 블록도이다. 도 7은 시작 정현파의 주파수를 심리 음향적 주파수로 변환하고, 심리 음향적 주파수로부터 양자화 스텝을 결정하는 실시예이다.

도 7을 참조하면, 부호화부(510)는 주파수 부호화부(702), 진폭 부호화부(704), 주파수 변환부(706), 양자화 스텝 결정부(708), 양자화부(710), 및 비트 스트림 출력부(712)를 포함한다.

주파수 변환부(706)는 입력되는 시작 정현파의 주파수를 심리 음향적 주파수로 변환하여 출력한다. 또한, 양자화 스텝 결정부(708)에는 시작 정현파의 주파수 대신에 심리 음향적 주파수가 입력된다.

도 7의 주파수 부호화부(702), 진폭 부호화부(704), 양자화 스텝 결정부(708), 양자화부(710), 및 비트 스트림 출력부(712)는 각각 도 6의 주파수 부호화부(602), 진폭 부호화부(604), 양자화 스텝 결정부(606), 양자화부(608), 및 비트 스트림 출력부(610)와 유사하게 동작한다.

도 8은 본 발명의 일 실시예에 따른 파라메트릭 오디오 복호화 방법을 도시한 동작 흐름도이다.

도 8을 참조하면, 단계 802에서는, 입력되는 비트 스트림이 파싱되고, 연결 정보, 부호화된 정현파의 진폭, 부호화된 정현파의 주파수, 또는 부호화된 정현파의 위상이 검출된다.

단계 804에서는, 부호화된 정현파가 부호화된 시작 정현파인지 여부가 결정된다. 예를 들어, 부호화된 정현파가 부호화된 시작 정현파인지 여부는 단계 802에서 검출된 연결 정보에 의해서 결정될 수 있다.

단계 806에서, 부호화된 정현파가 부호화된 시작 정현파이면 단계 808로 진행되고, 부호화된 정현파가 부호화된 연결된 정현파이면 단계 812로 진행된다.

단계 808에서는, 부호화된 시작 정현파의 진폭 및 부호화된 시작 정현파의 주파수가 복호화된다.

단계 810에서는, 단계 808에서 복호화된 시작 정현파의 주파수를 기초로 하여 부호화된 시작 정현파의 위상이 복호화된다.

예를 들어, 도 2의 실시예와 같은 방법으로 부호화된 경우에, 시작 정현파의 주파수가 소정의 기준 주파수보다 높으면, 시작 정현파의 위상은 0 내지 2π 사이의 랜덤한 값으로 결정될 수 있다.

또한, 도 3 및 도 4의 실시예와 같은 방법으로 부호화된 경우에, 비트 스트림에 포함된 양자화 스텝 정보를 이용하여 부호화된 시작 정현파의 위상이 복호화될 수도 있다. 이 경우, 비트 스트림은 양자화 스텝 정보를 포함하여야 한다.

또한, 도 3 및 도 4의 실시예와 같은 방법으로 부호화된 경우에, 시작 정현파의 주파수를 이용하여 양자화 스텝이 결정되고, 결정된 양자화 스텝을 이용하여 부호화된 시작 정현파의 위상이 복호화될 수도 있다.

단계 812에서는, 부호화된 연결된 정현파의 진폭 및 부호화된 연결된 정현파의 주파수가 복호화된다. 또는, 부호화된 연결된 정현파의 진폭 및 부호화된 연결된 정현파의 위상이 복호화될 수도 있다.

단계 814에서는, 단계 812에서 복호화된 결과를 이용하여, 연결된 정현파의 위상(또는 연결된 정현파의 주파수)가 계산된다.

단계 816에서는, 시작 정현파의 진폭, 주파수 및 위상을 이용하여 시작 정현파가 복원되고, 복원된 시작 정현파를 이용하여 오디오 신호가 복원된다.

도 9는 본 발명의 일 실시예에 따른 파라메트릭 오디오 복호화 장치를 도시한 기능 블록도이다.

도 9를 참조하면, 본 발명의 일 실시예에 따른 파라메트릭 오디오 복호화 장치(900)는 파싱부(902), 시작 정현파 결정부(904), 제1 복호화부(906), 제2 복호화부(908), 및 복원부(910)를 포함한다

파싱부(902)는 입력되는 비트 스트림을 파싱하여, 연결 정보, 부호화된 정현파의 진폭, 부호화된 정현파의 주파수, 또는 부호화된 정현파의 위상을 검출한다.

시작 정현파 결정부(904)는 파싱부(902)로부터 출력되는 부호화된 정현파가 부호화된 시작 정현파인지 여부를 결정한다. 그 결정은 파싱부(902)로부터 출력되는 연결 정보에 의해서 수행될 수 있다.

제1 복호화부(906)는 부호화된 정현파가 부호화된 시작 정현파이면, 부호화된 시작 정현파의 진폭 및 주파수를 복호화한다.

제2 복호화부(908)는 시작 정현파의 주파수를 기초로 하여 부호화된 시작 정현파의 위상을 복호화한다. 예를 들어, 제2 복호화부(908)는 시작 정현파의 주파수가 소정의 기준 주파수보다 높으면 시작 정현파의 위상을 0 내지 2π 사이의 랜덤 값으로 결정할 수 있다. 또한, 제2 복호화부(908)는 비트 스트림 입력에 포함된 양자화 스텝 정보를 이용하여 부호화된 시작 정현파의 위상을 복호화할 수 있다. 또한, 제2 복호화부(908)는 시작 정현파의 주파수를 이용하여 양자화 스텝을 결정하고, 양자화 스텝을 이용하여 부호화된 시작 정현파의 위상을 복호화할 수 있다.

복원부(910)는 시작 정현파의 진폭, 주파수 및 위상을 기초로 하여 시작 정현파를 복원하고, 복원된 시작 정현파를 이용하여 오디오 신호를 복원한다.

또한, 본 발명에 따른 파라메트릭 오디오 부호화 및 복호화 방법을 실행하기 위한 프로그램은 컴퓨터로 읽을 수 있는 기록 매체에 컴퓨터가 읽을 수 있는 코드로서 구현하는 것이 가능하다. 컴퓨터가 읽을 수 있는 기록 매체는 컴퓨터 시스템에 의하여 읽혀질 수 있는 데이터가 저장되는 모든 종류의 저장 장치를 포함한다. 컴퓨터가 읽을 수 있는 기록 매체의 예로는 ROM, RAM, CD-ROM, 자기 테이프, 플로피디스크, 광 데이터 저장장치 등이 있다. 또한 컴퓨터가 읽을 수 있는 기록매체는 네트워크로 연결된 컴퓨터 시스템에 분산되어, 분산방식으로 컴퓨터가 읽을 수 있는 코드로서 저장되고 실행될 수 있다.

이제까지 본 발명에 대하여 그 바람직한 실시예들을 중심으로 살펴보았다. 본 발명이 속하는 기술 분야에서 통상의 지식을 가진 자는 본 발명이 본 발명의 본질적인 특성에서 벗어나지 않는 범위에서 변형된 형태로 구현될 수 있음을 이해할 수 있을 것이다. 그러므로 개시된 실시 예들은 한정적인 관점이 아니라 설명적인 관점에서 고려되어야 한다. 본 발명의 범위는 전술한 설명이 아니라 특허청구범위에 나타나 있으며, 그와 동등한 범위 내에 있는 모든 차이점은 본 발명에 포함된 것으로 해석되어야 할 것이다.

도 2는 본 발명의 다른 실시예에 따른 파라메트릭 오디오 부호화 방법을 도시한 동작 흐름도이다.

도 3은 본 발명의 다른 실시예에 따른 파라메트릭 오디오 부호화 방법을 도시한 동작 흐름도이다.

도 4는 본 발명의 다른 실시예에 따른 파라메트릭 오디오 부호화 방법을 도시한 동작 흐름도이다.

도 5는 본 발명의 일 실시예에 따른 파라메트릭 오디오 부호화 장치를 도시한 기능 블록도이다.

도 7은 본 발명의 다른 실시예에 따른 파라메트릭 오디오 부호화 장치를 도시한 기능 블록도이다.

Claims

입력되는 오디오 신호를 복수의 세그먼트로 분할하는 단계;

상기 복수의 세그먼트의 각각에 대하여 적어도 하나의 정현파를 추출하는 단계;

상기 정현파를 연결하는 단계;

상기 정현파가 시작 정현파인지 여부를 결정하는 단계; 및

상기 정현파가 상기 시작 정현파이면, 상기 시작 정현파의 위상이 상기 시작 정현파의 주파수를 기초로 부호화된 비트 스트림을 출력하는 단계를 포함하고,

상기 시작 정현파의 위상을 부호화하기 위하여 할당되는 비트수는 상기 시작 정현파의 주파수에 따라서 조절되고,

상기 시작 정현파의 위상을 부호화하는 단계는, 상기 시작 정현파가 소정의 기준 주파수보다 높은 주파수를 가지면, 상기 시작 정현파의 위상에 할당되는 비트수는 0인 것을 특징으로 하는 파라메트릭 오디오 부호화 방법.
삭제
제1항에 있어서, 상기 시작 정현파의 위상을 부호화하는 단계는,

상기 시작 정현파의 주파수 및 소정의 상수의 곱으로써 양자화 스텝을 결정 하는 단계;

상기 양자화 스텝에 따라서 상기 시작 정현파의 위상을 양자화하는 단계; 및

상기 양자화된 시작 정현파의 위상을 부호화한 비트 스트림을 출력하는 단계를 포함하는 것을 특징으로 하는 파라메트릭 오디오 부호화 방법.
제1항에 있어서, 상기 시작 정현파의 위상을 부호화하는 단계는,

상기 정현파의 주파수를 심리 음향적 주파수로 변환하는 단계;

상기 심리 음량적 주파수 및 소정의 상수의 곱으로써 양자화 스텝을 결정하는 단계;

상기 양자화 스텝에 따라서 상기 시작 정현파의 위상을 양자화하는 단계; 및

상기 양자화된 시작 정현파의 위상을 부호화한 비트 스트림을 출력하는 단계를 포함하는 것을 특징으로 하는 파라메트릭 오디오 부호화 방법.
제4항에 있어서,

상기 정현파의 주파수는 ERB(Equivalent Rectangular Band) 함수, 바크 밴드 스케일(Bark Band Scale) 함수, 및 크리티컬 밴드(Critical Band) 함수 중 어느 하나에 의해서 상기 심리 음향적 주파수로 변환되는 것을 특징으로 하는 파라메트릭 오디오 부호화 방법.
제1항에 있어서,

상기 비트 스트림은 상기 정현파가 상기 시작 정현파인지 여부에 관한 연결 정보, 부호화된 시작 정현파의 진폭 및 부호화된 시작 정현파의 주파수를 포함하는 것을 특징으로 하는 파라메트릭 오디오 부호화 방법.
제6항에 있어서,

상기 비트스트림은 양자화 스텝 정보를 더 포함하는 것을 특징으로 하는 파라메트릭 오디오 부호화 방법.
입력되는 오디오 신호를 복수의 세그먼트로 분할하는 세그먼테이션부;

상기 복수의 세그먼트의 각각에 대하여 적어도 하나의 정현파를 추출하는 정현파 추출부;

상기 정현파를 연결하는 정현파 연결부;

상기 정현파가 시작 정현파인지 여부를 결정하는 시작 정현파 결정부; 및

상기 정현파가 상기 시작 정현파이면, 상기 시작 정현파의 위상이 상기 시작 정현파의 주파수를 기초로 하여 부호화된 비트 스트림을 출력하는 부호화부를 포함하고,

상기 부호화부는 상기 시작 정현파의 위상을 부호화하기 위하여 할당되는 비트수를 상기 시작 정현파의 주파수에 따라서 조절하고,

상기 부호화부는, 상기 시작 정현파가 소정의 기준 주파수보다 높은 주파수를 가지면, 상기 시작 정현파의 위상에 상기 비트수를 할당하지 않는 것을 특징으로 하는 파라메트릭 오디오 부호화 장치.
삭제
제8항에 있어서, 상기 부호화부는,

상기 시작 정현파의 주파수 및 소정의 상수의 곱으로써 양자화 스텝을 결정하는 양자화 스텝 결정부;

상기 양자화 스텝에 따라서 상기 시작 정현파의 위상을 양자화하는 양자화부; 및

상기 양자화된 시작 정현파의 위상을 부호화한 비트 스트림을 출력하는 비트 스트림 출력부를 포함하는 것을 특징으로 하는 파라메트릭 오디오 부호화 장치.
제8항에 있어서, 상기 부호화부는,

상기 정현파의 주파수를 심리 음향적 주파수로 변환하는 주파수 변환부;

상기 심리 음량적 주파수 및 소정의 상수의 곱으로써 양자화 스텝을 결정하는 양자화 스텝 결정부;

상기 양자화 스텝에 따라서 상기 시작 정현파의 위상을 양자화하는 양자화부; 및

상기 양자화된 시작 정현파의 위상을 부호화한 비트 스트림을 출력하는 비트 스트림 출력부를 포함하는 것을 특징으로 하는 파라메트릭 오디오 부호화 장치.
입력되는 비트 스트림을 파싱하는 단계;

부호화된 정현파가 부호화된 시작 정현파인지 여부를 결정하는 단계;

상기 부호화된 정현파가 상기 부호화된 시작 정현파이면, 상기 부호화된 시작 정현파의 진폭 및 주파수를 복호화하는 단계;

상기 시작 정현파의 주파수를 기초로 하여 상기 부호화된 시작 정현파의 위상을 복호화하는 단계; 및

상기 시작 정현파의 진폭, 주파수 및 위상을 이용하여 상기 시작 정현파를 복원하고, 상기 복원된 시작 정현파를 이용하여 오디오 신호를 복원하는 단계를 포함하고,

상기 부호화된 시작 정현파의 위상을 복호화하는 단계는, 상기 시작 정현파의 주파수가 소정의 기준 주파수보다 높으면, 상기 시작 정현파의 위상을 0 내지 2π 사이의 랜덤 값으로 결정하는 것을 특징으로 하는 파라메트릭 오디오 복호화 방법.
삭제
제12항에 있어서, 상기 부호화된 시작 정현파의 위상을 복호화하는 단계는,

상기 비트 스트림에 포함된 양자화 스텝 정보를 이용하여 상기 부호화된 시작 정현파의 위상을 복호화하는 것을 특징으로 하는 파라메트릭 오디오 복호화 방 법.
제12항에 있어서, 상기 부호화된 시작 정현파의 위상을 복호화하는 단계는,

상기 시작 정현파의 주파수를 이용하여 양자화 스텝을 결정하는 단계; 및

상기 양자화 스텝을 이용하여 상기 부호화된 시작 정현파의 위상을 복호화하는 단계를 포함하는 것을 특징으로 하는 파라메트릭 오디오 복호화 방법.
제12항에 있어서,

상기 비트 스트림은 상기 부호화된 정현파가 상기 부호화된 시작 정현파인지 여부에 관한 연결 정보 및 양자화 스텝 정보를 포함하는 것을 특징으로 하는 파라메트릭 오디오 복호화 방법.
입력되는 비트 스트림을 파싱하는 파싱부;

상기 파싱부로부터 출력되는 부호화된 정현파가 부호화된 시작 정현파인지 여부를 결정하는 시작 정현파 결정부;

상기 부호화된 정현파가 상기 부호화된 시작 정현파이면, 상기 부호화된 시작 정현파의 진폭 및 주파수를 복호화하는 제1 복호화부;

상기 시작 정현파의 주파수를 기초로 하여 상기 부호화된 시작 정현파의 위상을 복호화하는 제2 복호화부; 및

상기 시작 정현파의 진폭, 주파수 및 위상을 기초로 하여 상기 시작 정현파를 복원하고, 상기 복원된 시작 정현파를 이용하여 오디오 신호를 복원하는 복원부를 포함하고,

상기 제2 복호화부는, 상기 시작 정현파의 주파수가 소정의 기준 주파수보다 높으면, 상기 시작 정현파의 위상을 0 내지 2π 사이의 랜덤 값으로 결정하는 것을 특징으로 하는 파라메트릭 오디오 복호화 장치.
삭제
제17항에 있어서, 상기 제2 복호화부는 상기 비트 스트림 입력에 포함된 양자화 스텝 정보를 이용하여 상기 부호화된 시작 정현파의 위상을 복호화하는 것을 특징으로 하는 파라메트릭 오디오 복호화 장치.
제17항에 있어서, 상기 제2 복호화부는,

상기 시작 정현파의 주파수를 이용하여 양자화 스텝을 결정하고, 상기 양자화 스텝을 이용하여 상기 부호화된 시작 정현파의 위상을 복호화하는 것을 특징으로 하는 파라메트릭 오디오 복호화 장치.
제1항, 제3항 내지 제7항 중 어느 한 항의 파라메트릭 오디오 부호화 방법을 실행하기 위한 프로그램을 저장한 컴퓨터로 판독 가능한 기록매체.
제12항, 제14항 내지 제16항 중 어느 한 항의 파라메트릭 오디오 복호화 방법을 실행하기 위한 프로그램을 저장한 컴퓨터로 판독 가능한 기록매체.