KR101701081B1

KR101701081B1 - 제 1 오디오 인코딩 알고리즘 및 제 2 오디오 인코딩 알고리즘 중 하나를 선택하기 위한 장치 및 방법

Info

Publication number: KR101701081B1
Application number: KR1020157020596A
Authority: KR
Inventors: 엠마누엘 라벨리; 스테판 돌라; 기욤 푹스; 엘레니 포토포울로우; 크리스티안 헴리히
Original assignee: 프라운호퍼-게젤샤프트 츄어 푀르더룽 데어 안게반텐 포르슝에.파우.
Priority date: 2013-01-29
Filing date: 2014-01-28
Publication date: 2017-01-31
Anticipated expiration: 2034-01-28
Also published as: EP2951820B1; PT2951820T; ES2616434T3; PL2951820T3; US11908485B2; CN110517700B; RU2618848C2; US20230079574A1; WO2014118136A1; US11521631B2; TW201434037A; HK1218461A1; AU2014211583B2; AU2014211583A1; KR20150108848A; RU2015136467A; CN105229736B; US20150332698A1; CN110517700A; MX2015009745A

Abstract

오디오 신호의 일부분의 인코딩된 버전을 획득하기 위하여, 상기 오디오 신호의 일부분을 인코딩하기 위한 제 1 특성을 갖는 제 1 인코딩 알고리즘 및 제 2 특성을 갖는 제 2 인코딩 알고리즘 중의 하나를 선택하는 장치로서, 상기 제 1 인코딩 알고리즘을 사용하여 상기 오디오 신호의 일부분을 실제로 인코딩 및 디코딩하는 것 없이도, 상기 제 1 인코딩 알고리즘과 관련된, 상기 오디오 신호의 일부분에 대한 제 1 품질 측정값을 추정하는 제 1 추정기를 포함한다. 상기 제 2 인코딩 알고리즘을 사용하여 상기 오디오 신호의 일부분을 실제로 인코딩 및 디코딩하는 것 없이도, 상기 제 2 인코딩 알고리즘과 관련된, 상기 오디오 신호의 일부분에 대한 제 2 품질 측정값을 추정하기 위한 제 2 추정기가 제공된다. 상기 장치는, 상기 제 1 품질 측정값과 상기 제 2 품질 측정값 간의 비교에 기초하여, 상기 제 1 인코딩 알고리즘 또는 상기 제 2 인코딩 알고리즘을 선택하는 제어기를 포함한다.

Description

제 1 오디오 인코딩 알고리즘 및 제 2 오디오 인코딩 알고리즘 중 하나를 선택하기 위한 장치 및 방법{APPARATUS AND METHOD FOR SELECTING ONE OF A FIRST AUDIO ENCODING ALGORITHM AND A SECOND AUDIO ENCODING ALGORITHM}

본 발명은 오디오 코딩, 특히 오디오 신호의 상이한 부분들에 대하여 상이한 인코딩 알고리즘들을 사용하여 인코딩 신호가 생성되는 스위칭된 오디오 코딩에 관한 것이다.

오디오 신호의 상이한 부분들에 대한 상이한 인코딩 알고리즘들을 결정하는 스위치드 오디오 코더(switched audio coder)들이 알려져 있다. 일반적으로, 스위치드 오디오 코더들은, 두 개의 상이한 모드들, 즉 ACELP(Algebraic Code Excited Linear Prediction) 및 TCX(Transform Coded Excitation)와 같은 알고리즘들 간의 스위칭을 제공한다.

MPEG USAC(MPEG Unified Speech Audio Coding)의 LPD 모드는 두 개의 상이한 모드들 ACELP 및 TCX에 기초한다. ACELP는 발화-유사(speech-like) 신호 및 과도-유사(transient-like) 신호에 대한 더 나은 품질을 제공한다. TCX는 음악-유사 신호 및 노이즈-유사 신호에 대한 더 나은 품질을 제공한다. 인코더는 프레임-바이-프레임 기반으로 어떤 모드를 사용할지를 결정한다. 인코더에 의해 이루어진 결정은 코덱 품질에 있어서 중요하다. 하나의 잘못된 결정은 특히 낮은 비트율에서, 강한 아티팩트(artifact)를 생성할 수 있다.

어떤 모드를 사용할지를 결정하는 가장 간단한 접근 방식은 폐쇄-루프 모드(closed-loop mode) 선택이며, 즉, 두 개의 모드들에 대한 완전한 인코딩/디코딩을 수행하고, 그 후에 오디오 신호 및 코딩/디코딩된 오디오 신호들에 기초하여 두 개의 모드들에 대한 선택 기준(예를 들어, 분절 SNR(segmental SNR))을 계산하며, 마지막으로 그 선택 기준에 기초하여 모드를 선택하는 것이다. 일반적으로, 이러한 접근 방식은 안정적이고 강건한 결정을 생성한다. 그러나, 두 개의 모드가 각 프레임에서 실행되어야 하기 때문에, 이것은 상당한 양의 복잡도를 또한 요구한다.

복잡도를 줄이기 위한, 대안적인 접근 방식은 개방-루프 모드(open-loop mode) 선택이다. 개방-루프 선택은 두 개의 모드들에 대한 완전한 인코딩/디코딩을 수행하지 않고 대신에 저-복잡도로 계산된 선택 기준을 사용하여 하나의 모드를 선택하는 것으로 구성된다. 이때, 최악 복잡도(worst-case complexity)는, 최소-복잡 모드(일반적으로 TCX)의 복잡도에서 선택 기준을 계산하기 위해 필요한 복잡도를 줄인 것만큼 감소된다. 복잡도의 절감은 일반적으로 중요하며, 이는, 코덱 최악 복잡도가 제한될 경우에, 이러한 종류의 접근 방식이 매력적이게 만든다.

AMR-WB+ 표준(국제 표준 3GPP TS 26.290 V6.1.0 2004-12에서 규정됨)은 80ms 프레임의 ACELP/TCX20/TCX40/TCX80의 모든 조합들 사이에서의 결정을 위해 사용되는, 개방-루프 모드 선택을 포함한다. 이것은 3GPP TS 26.290의 선택 5.2.4에 기재되어 있다. 또한, 이것은 컨퍼런스 페이퍼 "Low Complex Audio Encoding for Mobile, Multimedia, VTC 2006, Makinen et al." 및 이 컨퍼런스 페이퍼의 저자에 의한 US 7,747,430 B2 및 US 7,739, 120 B2에도 기재되어 있다.

US 7,747,430 B2는 장기 예측 파라미터의 분석에 기초하는 개방-루프 모드 선택에 대하여 개시하고 있다. US 7,739, 120 B2는 오디오 신호의 각각의 부분들에서 오디오 컨텐츠의 타입을 나타내는 신호 특성에 기초하는 개방-루프 모드 선택에 대하여 개시하고 있으며, 여기서, 이러한 선택이 실행가능하지 않는 경우, 이 선택은 각각의 인접 부분들에 대해 수행되는 통계적 평가에 더 기초하게 된다.

AMR-WB+의 개방-루프 모드 선택은 두 가지 주요 단계로 설명될 수 있다. 제 1 주요 단계에서, 몇 가지 기능들, 예를 들어 에너지 레벨들의 표준 편차, 저-주파/고-주파 에너지의 관계, 총 에너지, ISP(immittance spectral pair) 거리, 피치 래그들(pitch lags) 및 이득들, 스펙트럼 틸트가 오디오 신호 상에서 계산된다. 그 후에, 이러한 기능들은, 간단한 임계값-기반 분류기를 사용하여 ACELP와 TCX 중에서 선택하는데 사용된다. 제 1 주요 단계에서 TCX가 선택된 경우에는, 제 2 주요 단계는 폐쇄-루프 방식으로 TCX20/TCX40/TCX80의 가능한 조합들 중에서 결정한다.

WO 2012/1 10448 A1는 오디오 신호의 과도 검출 결과 및 품질 결과에 기초하여, 상이한 특성들을 갖는 두 개의 인코딩 알고리즘을 결정하는 접근 방식을 개시하고 있다. 또한, 히스테리시스(hysteresis)를 적용하는 것이 개시되어 있으며, 여기서 히스테리시스는 과거에 이루어진 선택들, 즉, 오디오 신호에 대한 이전의 부분들에 의존한다.

컨퍼런스 페이퍼 "Low Complex Audio Encoding for Mobile, Multimedia, VTC 2006, Makinen et al."에는, AMR-WB+의 폐쇄-루프 및 개방-루프 모드 선택이 비교되어 있다. 주관적 청취 테스트들은, 개방-루프 모드 선택이 폐쇄-루프 모드 선택보다 상당히 더 나쁘게 수행된다는 것을 보여주고 있다. 그러나, 이것은 개방-루프 모드 선택이 최악 복잡도를 40%만큼 감소시킨다는 것을 또한 보여주고 있다.

본 발명의 목적은, 양호한 성능 및 감소된 복잡도로 제 1 인코딩 알고리즘과 제 2 인코딩 알고리즘 사이의 선택을 가능하게 하는, 개선된 접근 방식을 제공하는 것에 있다.

이러한 목적은 청구항 1에 기재된 장치, 청구항 20에 기재된 방법, 및 청구항 37에 기재된 컴퓨터 프로그램에 의해 달성된다.

본 발명의 실시예들은, 오디오 신호의 일부분의 인코딩된 버전을 획득하기 위하여, 상기 오디오 신호의 일부분을 인코딩하기 위한 제 1 특성을 갖는 제 1 인코딩 알고리즘 및 제 2 특성을 갖는 제 2 인코딩 알고리즘 중의 하나를 선택하는 장치로서,

상기 제 1 인코딩 알고리즘을 사용하여 상기 오디오 신호의 일부분을 실제로 인코딩 및 디코딩하는 것 없이도, 상기 제 1 인코딩 알고리즘과 관련된, 상기 오디오 신호의 일부분에 대한 제 1 품질 측정값을 추정하는 제 1 추정기와,

상기 제 2 인코딩 알고리즘을 사용하여 상기 오디오 신호의 일부분을 실제로 인코딩 및 디코딩하는 것 없이도, 상기 제 2 인코딩 알고리즘과 관련된, 상기 오디오 신호의 일부분에 대한 제 2 품질 측정값을 추정하는 제 2 추정기와,

상기 제 1 품질 측정값과 상기 제 2 품질 측정값 간의 비교에 기초하여, 상기 제 1 인코딩 알고리즘 또는 상기 제 2 인코딩 알고리즘을 선택하는 제어기를 포함하는 장치를 제공한다.

본 발명의 실시예들은, 오디오 신호의 일부분의 인코딩된 버전을 획득하기 위하여, 상기 오디오 신호의 일부분을 인코딩하기 위한 제 1 특성을 갖는 제 1 인코딩 알고리즘 및 제 2 특성을 갖는 제 2 인코딩 알고리즘 중의 하나를 선택하는 방법으로서,

상기 제 1 인코딩 알고리즘을 사용하여 상기 오디오 신호의 일부분을 실제로 인코딩 및 디코딩하는 것 없이, 상기 제 1 인코딩 알고리즘과 관련된, 상기 오디오 신호의 일부분에 대한 제 1 품질 측정값을 추정하는 단계와,

상기 제 2 인코딩 알고리즘을 사용하여 상기 오디오 신호의 일부분을 실제로 인코딩 및 디코딩하는 것 없이, 상기 제 2 인코딩 알고리즘과 관련된, 상기 오디오 신호의 일부분에 대한 제 2 품질 측정값을 추정하는 단계와,

상기 제 1 품질 측정값과 상기 제 2 품질 측정값 간의 비교에 기초하여, 상기 제 1 인코딩 알고리즘 또는 상기 제 2 인코딩 알고리즘을 선택하는 단계를 포함하는 방법을 제공한다.

본 발명의 실시예들은, 개선된 성능을 가진 개방-루프 선택이, 제 1 및 제 2 인코딩 알고리즘들 각각에 대한 품질 측정값을 추정하고, 상기 제 1 및 제 2 품질 측정값들 간의 비교에 기초하여 상기 인코딩 알고리즘들 중의 하나를 선택하는 것에 의해 구현될 수 있다는 인식에 기초하는 것이다. 상기 품질 측정값들은 추정되는 것이며, 즉, 상기 오디오 신호는 실제로는 품질 측정값들을 획득함에 있어서 인코딩 및 디코딩되지 않는다. 따라서, 상기 품질 측정값들은 감소된 복잡도로 획득될 수 있다. 그 후에, 상기 모드 선택은, 폐쇄-루프 모드 선택과 비교할 때, 추정된 품질 측정값들을 사용하여 수행될 수 있다.

본 발명의 실시예들에서는, ACELP 및 TCX의 분절 SNR이 낮은 복잡도로 먼저 추정되는 개방-루프 모드 선택이 구현된다. 그 후에, 상기 모드 선택은, 폐쇄-루프 모드 선택과 마찬가지로, 이들 추정된 분절 SNR 값들을 사용하여 수행된다.

본 발명의 실시예들은, AMR-WB+의 개방-루프 모드 선택에서 행해지는 바와 같은 고전적 특징+분류기 방식을 채용하지 않는다. 대신에, 본 발명의 실시예들은 각 모드의 품질 측정값을 추정하여, 최상의 품질을 제공하는 모드를 선택하는 것을 시도한다.

이제, 본 발명의 실시예들이 다음과 같은 첨부 도면들을 참조하여 더 상세히 설명될 것이다.
도 1은 제 1 인코딩 알고리즘과 제 2 인코딩 알고리즘 중 하나를 선택하기 위한 장치의 일 실시예의 개략도를 나타낸 것이다.
도 2는 오디오 신호를 인코딩하기 위한 장치의 일 실시예의 개략도를 나타낸 것이다.
도 3은 제 1 인코딩 알고리즘과 제 2 인코딩 알고리즘 중 하나를 선택하기 위한 장치의 일 실시예의 개략도를 나타낸 것이다.
도 4(a) 및 4(b)는 SNR 및 분절 SNR에 대한 가능한 표현들을 나타낸 것이다.
다음의 설명에서, 각종 도면들에서의 유사한 요소들/단계들은 동일한 참조 부호들에 의해 지칭된다. 도면들에서 본 발명을 이해하는데 필요하지 않은, 신호 연결들 등과 같은 특징들은 생략되었음에 유의해야한다.

도 1은 오디오 신호의 일 부분을 인코딩하기 위한 인코더로서, TCX 알고리즘과 같은 제 1 인코딩 알고리즘, 및 ACELP 알고리즘과 같은 제 2 인코딩 알고리즘 중 하나를 선택하기 위한 장치(10)를 나타낸 것이다. 장치(10)는 신호 부분에 대한 제 1 품질 측정값을 추정하기 위한 제 1 추정기(12)를 포함한다. 제 1 품질 측정값은 제 1 인코딩 알고리즘과 관련된다. 다시 말해, 제 1 추정기(12)는, 실제로는 제 1 인코딩 알고리즘을 사용하여 오디오 신호의 일부분을 인코딩 및 디코딩하지 않으면서, 제 1 인코딩 알고리즘을 사용하여 인코딩 및 디코딩될 경우에, 그 오디오 신호의 일부분이 갖게 될 제 1 품질 측정값을 추정한다. 장치(10)는 신호 부분에 대한 제 2 품질 측정값을 추정하기 위한 제 2 추정기(14)를 포함한다. 제 2 품질 측정값은 제 2 인코딩 알고리즘과 관련된다. 다시 말해, 제 2 추정기(14)는, 실제로는 제 2 인코딩 알고리즘을 사용하여 오디오 신호의 일부분을 인코딩 및 디코딩하지 않으면서, 제 2 인코딩 알고리즘을 사용하여 인코딩 및 디코딩될 경우에 그 오디오 신호의 일부분이 갖게 될 제 2 품질 측정값을 추정한다. 또한, 장치(10)는 제 1 품질 측정값과 제 2 품질 측정값 사이의 비교에 기초하여, 제 1 인코딩 알고리즘 또는 제 2 인코딩 알고리즘을 선택하기 위한 제어기(16)를 포함한다. 제어기는 선택된 인코딩 알고리즘을 나타내는 출력(18)을 포함할 수 있다.

일 실시예에서, 제 1 인코딩 알고리즘과 관련된 제 1 특성은 음악-유사 및 노이즈-유사 신호들에 더 적합하며, 제 2 인코딩 알고리즘과 관련된 제 2 인코딩 특성은 발화-유사 및 과도-유사 신호들에 더 접합하다. 본 발명의 실시예들에서, 제 1 인코딩 알고리즘은, 변환 코딩 알고리즘(transform coding algorithm)과 같은 오디오 코딩 알고리즘, 예를 들어, TCX(transform coding excitation) 인코딩 알고리즘과 같은 MDCT(modified discrete cosine transform) 인코딩 알고리즘이다. 다른 변환 코딩 알고리즘들은 FFT 변환 또는 임의의 다른 변환 또는 필터 뱅크(filterbank)에 기초할 수 있다. 본 발명의 실시예들에서, 제 2 인코딩 알고리즘은 발화 인코딩 알고리즘, 예를 들어, ACELP(algebraic code excited linear prediction) 코딩 알고리즘과 같은 CELP(code excited linear prediction) 코딩 알고리즘이다.

실시예들에서, 품질 측정값은 인지 품질(perceptual quality) 측정값을 나타낸다. 제 1 코딩 알고리즘의 주관적 품질(subjective quality)의 추정인 단일 값, 및 제 2 코딩 알고리즘의 주관적 품질의 추정인 단일 값이 계산될 수 있다. 단지 이 두 값의 비교에 기초하는 것만으로, 최상으로 추정된 주관적 품질을 제공하는 인코딩 알고리즘이 선택될 수 있다. 이것은, 신호에 대한 각종 특성들을 나타내는 다수의 특징들이 계산된 후에, 분류기가 어떤 알고리즘을 선택할지를 결정하도록 적용되는 AMR-WB+ 표준에서 수행되는 것과 상이하다.

실시예들에서, 각각의 품질 측정값은 가중 처리된 오디오 신호, 즉, 가중 처리된 버전의 오디오 신호의 일부분에 기초하여 추정된다. 실시예들에서, 가중 처리된 오디오 신호는, 가중 함수에 의해 필터링된 오디오 신호로서 정의될 수 있으며, 여기서 가중 함수는 LPC 필터 A(z) 및 0과 1 사이의 가중치, 예를 들어 0.68인 g를 갖는 가중 처리된 LPC 필터 A(z/g)이다. 이러한 방식으로, 양호한 인지 품질의 측정값이 얻어질 수 있음이 밝혀졌다. LPC 필터 A(z) 및 가중 처리된 LPC 필터 A(z/g)는, 사전-처리 단계에서 결정되며 또한 그들은 양쪽 모두의 인코딩 알고리즘들에서도 사용된다는 것에 유의한다. 다른 실시예들에서, 가중 함수는 선형 필터, FIR 필터 또는 선형 예측 필터일 수 있다.

실시예들에서, 품질 측정값은 가중 처리된 신호 도메인에서의 분절 SNR(signal to noise ratio; 신호 대 잡음 비)이다. 가중 처리된 신호 도메인에서의 분절 SNR은, 양호한 인지 품질 측정값을 나타내며, 따라서 유익한 방식의 품질 측정값으로서 사용될 수 있다. 또한, 이것은 인코딩 파라미터들을 측정하기 위해 ACELP 및 TCX 인코딩 알고리즘들 모두에서 사용되는 품질 측정값이다.

다른 품질 측정값은 가중 처리된 신호 도메인에서의 SNR일 수 있다. 다른 품질 측정값들은, 비-가중 처리된 신호 도메인에서의 오디오 신호, 즉, (가중) LPC 계수에 의해 필터링되지 않는 오디오 신호의 대응 부분의 분절 SNR일 수 있다. 다른 품질 측정값들은 캡스트럴(cepstral) 왜곡 또는 잡음 대 마스크 비(noise-to-mask ratio; NMR)일 수 있다.

일반적으로, SNR은 원래의 오디오 신호와 처리된 오디오 신호(예를 들어, 발화 신호들)를 샘플마다 비교한다. 그 목적은, 입력 파형을 재생하는 파형 코더들의 왜곡을 측정하기 위한 것이다. SNR은 도 4(a)에 나타낸 바와 같이 계산될 수 있으며, 여기서 x(i) 및 y(i)는 i로 인덱싱되어 있는 원본 샘플 및 처리된 샘플이며, N은 그 샘플들의 총 개수이다. 전체 신호에 대한 작업이 아닌, 분절 SNR이, 짧은 세그먼트들, 예를 들어, 1 내지 10ms, 예를 들어 5ms의 SNR 값들의 평균을 계산한다. SNR은 도 4(b)에 나타낸 바와 같이 계산될 수 있으며, 여기서 N 및 M은 각각, 세그먼트 길이 및 세그먼트들의 개수이다.

본 발명의 실시예들에서, 오디오 신호의 일부분은, 오디오 신호를 윈도윙(windowing)함으써 얻어지는 오디오 신호의 프레임을 나타내며, 적절한 인코딩 알고리즘의 선택은, 오디오 신호를 윈도윙함으로써 얻어지는 복수의 연속하는 프레임들에 대해서 수행된다. 다음의 상세한 설명에서, 오디오 신호와 관련된, 용어"부분(portion)" 및 "프레임"은 상호 교환가능한 방식으로 사용된다. 실시예들에서, 각 프레임은 서브프레임들로 분할되며, 분절 SNR은 dB로 변환되는 각 서브프레임마다의 SNR을 계산하고, dB 단위의 서브프레임 SNR들의 평균을 계산함으로써, 각 프레임마다 추정된다.

따라서, 실시예들에서는, 입력 오디오 신호와 디코딩된 오디오 신호 간의 (분절) SNR이 추정되는 것이 아니라, 가중 처리된 입력 오디오 신호와 가중 처리된 디코딩된 오디오 신호 간의 (분절) SNR이 추정된다. 이러한 (분절) SNR에 관해서는, AMR-WB+ 표준(국제 표준 3GPP TS 26.290 V6.1.0 2004-12)의 챕터 5.2.3에 대한 참조가 이루어질 수 있다.

본 발명의 실시예들에서, 각각의 품질 측정값은 가중 처리된 오디오 신호의 일부분의 에너지에 기초하고, 또한 각각의 알고리즘에 의하여 신호 부분을 인코딩할 때 도입되는 추정된 왜곡에 기초하여 추정되며, 여기서, 제 1 및 제 2 추정기는, 가중 처리된 오디오 신호의 에너지에 따라 추정된 왜곡들을 결정하도록 구성된다.

본 발명의 실시예들에서, 오디오 신호의 일부분을 양자화할 때 제 1 인코딩 알고리즘에서 사용된 양자화기에 의해 도입되는 추정된 양자화 왜곡이 결정되며, 제 1 품질 측정은, 가중 처리된 오디오 신호의 일부분의 에너지 및 추정된 양자화 왜곡에 기초하여 결정된다. 이러한 실시예들에서는, 제 1 인코딩 알고리즘에 사용되는 양자화기 및 엔트로피 인코더로 인코딩될 때, 오디오 신호의 일부분이 주어진 타켓 비트 레이트를 생성하도록 오디오 신호의 일부분에 대한 글로벌 이득(global gain)이 추정될 수 있으며, 여기서 추정된 양자화 왜곡은 추정된 글로벌 이득에 기초하여 결정된다. 이러한 실시예들에서, 추정된 양자화 왜곡은 추정된 이득의 거듭제곱(power)에 기초하여 결정될 수 있다. 제 1 인코딩 알고리즘에 사용되는 양자화기가 균일 스칼라 양자화기인 경우, 제 1 추정기는 식 D = G*G/12를 사용하여 추정된 양자화 왜곡을 결정하도록 구성될 수 있으며, 여기서 D는 추정된 양자화 왜곡이고, G는 추정된 글로벌 이득이다. 제 1 인코딩 알고리즘이 다른 양자화기를 사용하는 경우에 있어서는, 양자화 왜곡이 상이한 방식으로 글로벌 이득을 형성하는 것으로 결정될 수도 있다.

본 발명자들은, TCX 알고리즘과 같은 제 1 인코딩 알고리즘을 사용하여, 오디오 신호의 일부분을 인코딩 및 디코딩할 때에 얻게 될 분절 SNR과 같은 품질 측정값이, 이들의 임의의 조합으로 상기 특징들을 사용함으로써 적절한 방식으로 추정될 수 있다는 것을 알아냈다.

본 발명의 실시예들에서, 제 1 품질 측정값은 분절 SNR이며, 분절 SNR은 가중 처리된 오디오 신호의 대응 서브-부분의 에너지 및 추정된 양자화 왜곡에 기초하여 오디오 신호의 일부분의 복수의 서브-부분들의 각각과 관련된 추정된 SNR을 계산하는 것에 의하여, 및 가중 처리된 오디오 신호의 일부분의 서브-부분들과 관련된 SNR들의 평균을 계산하여 그 가중 처리된 오디오 신호의 일부분에 대한 추정된 분절 SNR을 얻는 것에 의하여, 추정된다.

본 발명의 실시예들에서, 오디오 신호의 일부분을 인코딩하기 위해 적응 코드북(adaptive codebook)을 사용할 경우에, 제 2 인코딩 알고리즘에서 사용되는 적응 코드북에 의해 도입되는 추정된 적응 코드북 왜곡이 결정되며, 제 2 품질 측정값은, 가중 처리된 오디오 신호의 일부분의 에너지 및 추정된 적응 코드북 왜곡에 기초하여 추정된다.

이러한 실시예들에서, 오디오 신호의 일부분의 복수의 서브-부분들의 각각에 대한, 적응 코드북은, 사전-처리 스테이지에서 결정된 피치-래그(pitch-lag)만큼 이전으로 시프트되는 가중 처리된 오디오 신호의 서브-부분의 버전에 기초하여 근사화될 수 있고, 가중 처리된 오디오 신호의 일부분의 서브-부분과 근사화된 적응 코드북 간의 오차가 최소화되도록 적응 코드북 이득이 추정될 수 있으며, 또한 추정된 적응 코드북 왜곡은, 가중 처리된 오디오 신호의 일부분의 서브-부분과, 적응 코드북 이득에 의해 스케일링(scaling)된 근사화된 적응 코드북 간의 오차의 에너지에 기초하여 결정될 수 있다.

본 발명의 실시예에서, 오디오 신호의 일부분의 각 서브-부분에 대해 결정되는 추정된 적응 코드북 왜곡은, 제 2 인코딩 알고리즘의 신규한 코드북에 의해 달성되는 왜곡의 감소를 고려하도록 상수 계수(factor)만큼 감소될 수 있다.

본 발명의 실시예에서, 제 2 품질 측정값은 분절 SNR이며, 분절 SNR은 가중 처리된 오디오 신호의 대응 서브-부분의 에너지 및 추정된 적응 코드북 왜곡에 기초하여 각 서브-부분과 관련된 추정된 SNR을 계산하는 것에 의하여, 또한 서브-부분들과 관련된 SNR들의 평균을 계산하여 추정된 분절 SNR을 얻는 것에 의하여, 추정된다.

본 발명의 실시예들에서, 적응 코드북은, 사전-처리 스테이지에서 결정된 피치-래그만큼 이전으로 시프트되는 가중 처리된 오디오 신호의 일부분의 버전에 기초하여 근사화되고, 가중 처리된 오디오 신호의 일부분과 근사화된 적응 코드북 간의 오차가 최소화되도록 적응 코드북 이득이 추정되며, 또한 추정된 적응 코드북 왜곡은, 가중 처리된 오디오 신호의 일부분과, 적응 코드북 이득에 의해 스케일링되는 근사화된 적응 코드북 간의 에너지에 기초하여 결정된다. 따라서, 추정된 적응 코드북 왜곡은 낮은 복잡도로 결정될 수 있다.

본 발명자들은, ACELP 알고리즘과 같은 제 2 인코딩 알고리즘을 사용하여 오디오 신호의 일부분을 인코딩 및 디코딩할 때에 얻게 될 분절 SNR과 같은 품질 측정값은, 이들의 임의의 조합으로 상기 특징들을 사용함으로써 적절한 방식으로 추정될 수 있다는 것을 알아냈다.

본 발명의 실시예들에서는, 히스테리시스 메커니즘이 추정된 품질 측정값들을 비교할 시에 사용된다. 이것은, 어떤 알고리즘을 사용하는 것이 보다 안정적이게 될 것인지를 결정할 수 있다. 히스테리시스 메커니즘은 추정된 품질 측정값들(예를 들어, 그들 간의 차분) 및 이전 결정들에 대한 통계, 일시적 고정 프레임들의 수, 프레임들 내의 과도 상태와 같은 다른 파라미터들에 의존할 수 있다. 이러한 히스테리시스 메커니즘들에 관해서는, 예를 들어 WO 2012/110448 A1에 대한 참조가 이루어질 수 있다.

본 발명의 실시예들에서, 오디오 신호를 인코딩하기 위한 인코더는 장치(10), 제 1 인코딩 알고리즘을 수행하기 위한 스테이지(stage) 및 제 2 인코딩 알고리즘을 수행하기 위한 스테이지를 포함하며, 여기서 인코더는, 제어기(16)에 의한 선택에 따라 제 1 인코딩 알고리즘 또는 제 2 인코딩 알고리즘을 사용하여 오디오 신호의 일부분을 인코딩하도록 구성된다. 본 발명의 실시예들에서, 인코딩 및 디코딩하기 위한 시스템은, 인코더 및 오디오 신호의 일부분의 인코딩된 버전 및 오디오 신호의 일부분을 인코딩하는데 사용된 알고리즘의 표시를 수신함과 동시에 그 표시되어 있는 알고리즘을 사용하여 오디오 신호의 일부분의 인코딩된 버전을 디코딩하도록 구성된 디코더를 포함한다.

도 3을 참조하여 제 1 추정기(12) 및 제 2 추정기(14)의 일 실시예를 상세히 설명하기에 앞서, 도 2를 참조하여 인코더(20)의 일 실시예에 대하여 설명한다.

인코더(20)는 제 1 추정기(12), 제 2 추정기(14), 제어기(16), 사전-처리 유닛(22), 스위치(24), TCX 알고리즘을 수행하도록 구성된 제 1 인코더 스테이지(26), ACELP 알고리즘을 수행하도록 구성된 제 2 인코더 스테이지(28), 및 출력 인터페이스(30)를 포함한다. 사전-처리 유닛(22)은 공통 USAC 인코더의 일부일 수 있으며, LPC 계수들, 가중 LPC 계수들, 가중 처리된 오디오 신호, 및 피치 래그들의 세트를 출력하도록 구성될 수 있다. 이들 파라미터들 모두는 양쪽 모두의 인코딩 알고리즘들, 즉, TCS 알고리즘 및 ACELP 알고리즘 모두에서 사용됨에 유의해야 한다. 따라서, 이러한 파라미터들은 개방-루프 모드 결정을 위해 추가적으로 계산될 필요가 없다. 개방-루프 모드 결정에서 이미 계산된 파라미터들을 사용하는 것의 이점은 복잡도 절감이다.

입력 오디오 신호(40)는 입력 라인 상에서 제공된다. 입력 오디오 신호(40)는 제 1 추정기(12), 사전-처리 유닛(22) 및 인코더 스테이지들(26, 28) 모두에 적용된다. 사전-처리 유닛(22)은 통상적인 방식으로 입력 오디오 신호를 처리하여 LPC 계수들 및 가중 LPC 계수들(42)을 도출하며, 또한 가중 LPC 계수들(42)로 오디오 신호(40)를 필터링함으로써 가중 처리된 오디오 신호(44)를 획득한다. 사전처리 유닛(22)은 가중 LPC 계수들(42), 가중 처리된 오디오 신호(44) 및 피치-래그들의 세트(48)를 출력한다. 당업자에 의해 이해되는 바와 같이, 가중 LPC 계수들(42) 및 가중 처리된 오디오 신호(44)는, 프레임들 또는 서브-프레임들로 분할될 수 있다. 이 분할은 적절한 방식으로 오디오 신호를 윈도윙함으로써 얻어질 수 있다.

본 발명의 실시예들에서, 양자화된 LPC 계수들 또는 양자화된 가중 LPC 계수들이 사용될 수 있다. 따라서, 용어"LPC 계수들"은 "양자화된 LPC 계수들"도 포함하는 것으로 의도되며, 용어"가중 LPC 계수들"은 "가중 양자화된 LPC 계수들"도 포함하는 것으로 의도된다는 것이 이해되어야한다. 이와 관련하여, USAC의 TCX 알고리즘은 양자화된 가중 LPC 계수들을 사용하여 MCDT 스펙트럼을 형성한다는 것은 주목할 만한 가치가 있다.

제 1 추정기(12)는 오디오 신호(40), 가중 LPC 계수들(42) 및 가중 처리된 오디오 신호(44)를 수신하고, 이에 기초하여 제 1 품질 측정값(46)을 추정하며, 또한 제어기(16)로 제 1 품질 측정값을 출력한다. 제 2 추정기(16)는 가중 처리된 오디오 신호(44) 및 피치 래그들의 세트(48)를 수신하고, 이에 기초하여 제 2 품질 측정값(50)을 추정하며, 또한 제어기(16)로 제 2 품질 측정값(50)을 출력한다. 당업자에게 알려진 바와 같이, 가중 LPC 계수들(42), 가중 처리된 오디오 신호(44) 및 피치 래드들의 세트(48)는 이전의 모듈(즉, 사전-처리 유닛(22))에서 이미 계산되어 있으며, 따라서, 어떠한 노력없이 입수될 수 있다.

제어기는 수신된 품질 측정값의 비교에 기초하여, TCX 알고리즘 또는 ACELP 알고리즘 중 하나를 선택하는 결정을 행한다. 전술한 바와 같이, 제어기는, 어떤 알고리즘을 사용할 것인지를 결정하는데 히스테리시스 메커니즘을 사용할 수 있다. 도 2에는, 제어기(16)에 의한 제어 신호(52) 출력에 의해 제어되는 스위치(24)에 의하는, 제 1 인코더 스테이지(26) 또는 제 2 인코더 스테이지(28)의 선택이 개략적으로 도시되어 있다. 제어 신호(52)는 제 1 인코더 스테이지(26)를 사용할지 또는 제 2 인코더 스테이지(28)를 사용할지의 여부를 나타낸다. 제어 신호(52)에 기초하여, 도 2의 화살표(54)에 의해 개략적으로 나타낸, 적어도 LPC 계수들, 가중 LPC 계수들, 오디오 신호, 가중 처리된 오디오 신호, 피치 래그들의 세트를 포함하는 요구된 신호들은, 제 1 인코더 스테이지(26) 또는 제 2 인코더 스테이지(28) 중 하나에 인가된다. 선택된 인코더 스테이지는, 관련 인코딩 알고리즘을 적용하여, 출력 인터페이스(30)에 인코딩된 레프리젠테이션(56 또는 58)을 출력한다. 출력 인터페이스(30)는 인코딩된 오디오 신호를 출력하도록 구성될 수 있으며, 이 인코딩된 오디오 신호는 다른 데이터 중에서도, 인코딩된 레프리젠테이션(56 또는 58), LPC 계수들 또는 가중 LPC 계수들, 선택된 인코딩 알고리즘에 대한 파라미터들 및 선택된 인코딩 알고리즘에 대한 정보를 포함할 수 있다.

이제 도 3을 참조하여, 제 1 및 제 2 품질 측정값들을 추정하기 위한 특정 실시예에 대하여 설명하도록 하며, 여기서 제 1 및 제 2 품질 측정값들은, 가중처리된 신호 도메인의 분절 SNR들이다. 도 3은, 각각의 추정을 단계별로 보여주는 흐름도들의 형태로, 제 1 추정기(12) 및 제 2 추정기(14) 및 이들의 기능들을 나타낸 것이다.

TCX 분절 SNR 의 추정(Estimation of the TCX segmental SNR )

제 1(TCX) 추정기는, 입력들에 따라, 오디오 신호(40)(입력 신호), 가중 LPC 계수들(42) 및 가중 처리된 오디오 신호(44)를 수신한다.

단계(100)에서, 오디오 신호(40)는 윈도윙된다. 윈도윙은 10ms의 낮은-오버랩 사인(sine) 윈도우로 일어날 수 있다. 이전-프레임이 ACELP인 경우, 블록-크기는 5ms로 증가될 수 있고, 윈도우의 좌측은 직사각형일 수 있으며, 또한 ACELP 합성 필터의 윈도윙된 제로 임펄스 응답은, 윈도윙된 입력 신호로부터 제거될 수도 있다. 이것은 TCX 알고리즘에서 수행되는 것과 유사하다. 오디오 신호의 일부분을 나타내는 오디오 신호의 프레임(40)이, 단계(100)로부터 출력된다.

단계(102)에서, 윈도윙된 오디오 신호, 즉, 결과적으로 생성된 프레임은 MDCT(modified discrete cosine transform; 수정 이산 코사인 변환)로 변환된다. 단계(104)에서, 가중 LPC 계수들로 MDCT 스펙트럼을 쉐이핑하는 것에 의하여, 스펙트럼 쉐이핑(shaping)이 수행된다.

단계(106)에서, 엔트로피 코더, 예를 들어 산술 코더로 인코딩되는 경우, 글로벌 이득(G)은, 이득(G)으로 양자화된 가중 스펙트럼이 주어진 타겟(R)을 생성하도록 추정된다. 하나의 이득이 전체 프레임에 대해서 결정되기 때문에, 용어"글로벌 이득(global gain)"이 사용된다.

이제, 글로벌 이득 추정의 구현의 일 예에 대하여 설명하도록 한다. 이 글로벌 이득 추정은, TCX 인코딩 알고리즘이 산술 인코더를 가진 스칼라 양자화기를 사용하는 실시예들에 대해 적합하다는 것에 유의해야 한다. 이러한 산술 인코더를 가진 스칼라 양자화기는 MPEG USAC 표준에서 가정되어 있다.

초기화(Initialization)

먼저, 이득 추정에서 사용되는 변수가 다음과 같이 초기화된다:

1. en[i] = 9.0 + 10.0*log10(c[4*i+0] + c[4*i+1] + c[4*i+2] + c[4*i+3])로 설정,

여기서, 0<=i<L/4, c[] 는 양자화를 위한 계수의 벡터이고, L은 c[]의 길이이다.

2. fac = 128, offset = fac 및 target = 임의의 값(예를 들면, 000)으로 설정

반복(Iteration)

그 후에, 다음 블록의 연산들이 NITER 회 수행된다(예컨대, 여기서는 NITER = 10).

1. fac = fac/2

2. offset = offset - fac

3. ener = 0

4. 0<=i<L/4인 모든 i에 대하여 다음을 행한다:

en[i]-offset > 3.0인 경우, ener = ener + en[i]-offset

5. ener > target인 경우, offset = offset + fac

이 반복의 결과가 오프셋 값이 된다. 이 반복 후에, 글로벌 이득은 G = 10^(오프셋/20)로 추정된다.

글로벌 이득이 추정되는 특정 방식은, 사용되는 양자화기 및 엔트로피 코더에 따라 달라질 수 있다. MPEG USAC 표준에서는, 산술 인코더를 가진 스칼라 양자화기가 가정된다. 다른 TCX 접근방식들은 상이한 양자화기를 사용할 수도 있으며, 당업자들은 이러한 상이한 양자화기들에 대한 글로벌 이득을 추정하는 방식을 이해할 것이다. 예를 들어, AMR-WB+ 표준은 RE8 격자 양자화기(RE8 lattice quantizer)를 사용하는 것으로 가정한다. 이러한 양자화기의 경우, 글로벌 이득의 추정은, 3GPP TS 26.290 V6.1.0 2004-12의 34 페이지의 챕터 5.3.5.7에 기재된 바와 같이 추정될 수 있으며, 여기서 고정된 타켓 비트 레이트가 가정된다.

단계(106)에서 글로벌 이득을 추정한 이후에, 단계(108)에서는 왜곡 추정이 발생한다. 보다 구체적으로는, 양자화 왜곡은 추정된 글로벌 이득에 기초하여 근사화된다. 본 실시예에서는, 균일 스칼라 양자화기를 사용하는 것으로 가정된다. 따라서, 양자화 왜곡은 간단한 식 D=G*G/12으로 결정되며, 여기서 D는 결정된 양자화 왜곡을 나타내고, G는 추정된 글로벌 이득을 나타낸다. 이것은 균일 스칼라 양자화 왜곡의 고율 근사치에 대응한다.

결정된 양자화 왜곡에 기초하여, 단계(110)에서는 분절 SNR 계산이 수행된다. 프레임의 각 서브-프레임에서의 SNR은, 서브프레임들에서 일정한 것으로 가정되는 가중 처리된 오디오 신호 에너지 및 왜곡 D의 비(ratio)로 계산된다. 예를 들어, 프레임은 4개의 연속적인 서브-프레임으로 분할된다(도 4 참조). 이때, 분절 SNR은 4개의 서브-프레임들의 SNR들의 평균이며, dB로 표시될 수 있다.

이러한 접근방식은 TCX 알고리즘을 사용하여 대상 프레임을 실제로 인코딩 및 디코딩할 경우에 얻어지게 될 제 1 분절 SNR의 추정을 가능하게 하고, 오디오 신호를 실제로 인코딩 및 디코딩할 필요가 없으며, 따라서 복잡도가 크게 감소되고, 계산 시간이 감소된다.

ACELP 분절 SNR 의 추정(Estimation of the ACELP segmental SNR )

제 2 추정기(14)는, 사전-처리 유닛(22)에서 이미 계산된 가중 처리된 오디오 신호(44) 및 피치 래그들의 세트(48)를 수신한다.

단계(112)에서 나타낸 바와 같이, 각각의 서브 프레임에 있어서 적응 코드북은 가중 처리된 오디오 신호 및 피치-래그(T)를 간단히 사용함으로써 근사화된다. 적응 코드북은 xw(n-T), n = 0, N으로 근사화된다.

여기서, xw는 가중 처리된 오디오 신호이고, T는 대응 서브프레임의 피치-래그이며, 또한 N은 서브-프레임 길이이다. 이에 따라, 적응 코드북은 T만큼 이전으로 시프트된 서브-프레임의 버전을 사용함으로써 근사화된다. 따라서, 본 발명의 실시예들에서, 적응 코드북은 매우 간단한 방식으로 근사화된다.

단계(114)에서는, 각 서브-프레임에 대한 적응 코드북 이득이 결정된다. 보다 구체적으로, 각 서브-프레임에 있어서, 코드북 이득(G)은, 가중 처리된 오디오 신호와 근사화된 적응-코드북 간의 오차가 최소화되도록, 추정된다. 이것은, 각 샘플에 대한 두 신호들 간의 차분들을 간단히 비교하고, 이러한 차분들의 합이 최소가 되도록 하는 이득을 찾아 내는 것에 의하여, 수행될 수 있다.

단계(116)에서는, 각 서브-프레임에 대한 적응 코드북 왜곡이 결정된다. 각 서브-프레임에 있어서, 적응 코드북에 의해 도입된 왜곡(D)은, 단순히 이득(G)만큼 스케일링되는 근사화된 적응-코드북과 가중 처리된 오디오 신호 간의 오차의 에너지이다.

단계(116)에서 결정되는 왜곡들은, 신규한 코드북을 고려하도록, 선택적 단계(118)에서 조정될 수도 있다. ACELP 알고리즘들에서 사용되는 신규한 코드북의 왜곡은 상수 값으로서 간단히 추정될 수도 있다. 본 발명의 기술된 실시예에서, 신규한 코드북은 상수 계수만큼 왜곡(D)을 감소시키는 것으로 간단히 가정된다. 따라서, 각 서브-프레임에 대해 단계(116)에서 얻어진 왜곡들은, 상수 계수, 예를 들어 0 내지 1의 크기(예를 들어, 0.055)의 상수 계수만큼, 단계(118)에서 곱해질 수 있다.

단계(120)에서는, 분절 SNR의 계산이 행해진다. 각 서브-프레임에 있어서, SNR은 가중 처리된 오디오 신호 에너지 및 왜곡(D)의 비로서 계산된다. 이때, 분절 SNR은 4개의 서브-프레임에 대한 SNR의 평균이며, dB로 표시될 수 있다.

이러한 접근방식은, ACELP 알고리즘을 사용하여 대상 프레임을 실제로 인코딩 및 디코딩할 경우에 얻어지게 될 제 2 SNR의 추정을 가능하게 하고, 오디오 신호를 실제로 인코딩 및 디코딩할 필요가 없으며, 따라서 복잡도를 크게 감소시키고, 계산 시간을 감소시킨다.

제 1 및 제 2 추정기들(12 및 14)은 그 추정된 분절 SNR들(46, 50)을 제어기(16)로 출력하고, 제어기(16)는, 추정된 분절 SNR들(46, 50)에 기초하여, 어떤 알고리즘을 오디오 신호의 관련 부분에 대해 사용할지를 결정한다. 제어기는 결정이 보다 안정적으로 이루어지도록 하기 위해, 히스테리시스 메커니즘을 선택적으로 사용할 수도 있다. 예를 들어, 폐쇄-루프 결정에서와 동일한 히스테리시스 메커니즘이, 약간 상이한 조정 파라미터들과 함께 사용될 수 있다. 이러한 히스테리시스 메커니즘은, 추정된 분절 SNR들(예를 들어, 이들 간의 차분) 및 다른 파라미터들, 예를 들어, 이전 결정들에 대한 통계, 일시적 정지 프레임들의 수, 및 프레임들에서의 과도 상태에 따라 달라질 수 있는 값 "dsnr"을 계산할 수 있다.

히스테리시스 메커니즘이 없는 경우, 제어기는 더 높게 추정된 SNR를 갖는 인코딩 알고리즘을 선택할 수 있으며, 즉, 제 2 추정된 SNR이 제 1 추정된 SNR보다 더 높거나 낮은 경우에 ACELP이 선택되고, 제 1 추정된 SNR이 제 2 추정된 SNR보다 더 높은 경우에는 TCX가 선택된다. 히스테리시스 메커니즘이 있는 경우, 제어기는 다음의 결정 규칙에 따라 인코딩 알고리즘을 선택할 수 있으며, 여기서 acelp_snr는 제 2 추정된 SNR이고, tcx_snr은 제 1 추정된 SNR 이다:

acelp_snr + dsnr > tcx_snr인 경우, ACELP 선택, 그렇지 않은 경우, TCX 선택.

이에 따라, 본 발명의 실시예들은, 간단하고 정확한 방식으로 분절 SNR들 및 적절한 인코딩 알고리즘의 선택을 추정하는 것이 가능하다.

상기 실시예들에서, 분절 SNR들은 각각의 서브-프레임들에 대해 추정되는 SNR들의 평균을 계산함으로써 추정된다. 대안적인 실시예들에서, 전체 프레임의 SNR은 프레임을 서브-프레임들로 분할하지 않고서 추정될 수 있다.

본 발명의 실시예들은, 폐쇄-루프 선택에서 요구되는 다수의 단계들이 생략되기 때문에, 폐쇄-루프 선택에 비해 계산 시간이 크게 감소될 수 있다.

이에 따라, 여전히 양호한 성능을 가진 적절한 인코딩 알고리즘의 선택을 허용하면서, 다수의 단계들, 및 이와 관련된 계산 시간이 본 발명의 접근방식에 의해서 절감될 수 있다.

장치의 맥락에서 몇몇 양태들이 설명되었지만, 이러한 양태들이 대응하는 방법에 대한 설명도 나타내고 있다는 것은 명백하며, 여기서 블록 또는 디바이스는 방법 단계 또는 방법 단계의 특징에 대응한다. 마찬가지로, 방법 단계의 맥락에서 설명된 양태들은 대응하는 블록 또는 항목, 또는 대응하는 장치의 특징의 설명도 나타낸다.

본 명세서에서 설명된 장치들 및 이들의 특징들에 대한 실시예들은, 설명된 기능들을 제공하기 위해 구성되거나 프로그래밍되는, 컴퓨터, 하나 이상의 프로세서들, 하나 이상의 마이크로-프로세서들, FPGA(field-programmable gate array)들, ASIC(application specific integrated circuit)들 등 또는 이들의 조합들에 의해 구현될 수도 있다.

방법 단계들 중의 일부 또는 전부는, 예를 들어, 마이크로프로세서, 프로그래밍 가능한 컴퓨터 또는 전자 회로와 같은 하드웨어 장치에 의해(또는 이를 사용하여) 실행될 수도 있다. 몇몇 실시예들에서, 가장 중요한 방법 단계들 중 하나 이상의 방법 단계들은 이러한 장치에 의해 실행될 수도 있다.

특정 구현 요구사항들에 따라, 본 발명의 실시예들은 하드웨어 또는 소프트웨어로 구현될 수 있다. 이 구현은, 각각의 방법이 수행되도록, 프로그래밍 가능한 컴퓨터 시스템과 협력하는(또는 협력할 수 있는), 전자 판독가능한 제어 신호들이 저장되는, 디지털 저장매체, 예를 들어, 플로피 디스크, DVD, 블루-레이, CD, ROM, PROM, 및 EPROM, EEPROM 또는 플래시 메모리와 같은 비-일시적 저장매체를 사용하여 수행될 수 있다. 따라서, 디지털 저장매체는 컴퓨터 판독가능할 수 있다.

본 발명에 따른 몇몇 실시예들은, 본 명세서에서 설명된 방법들 중의 하나를 수행하도록, 프로그래밍 가능한 컴퓨터 시스템과 협력할 수 있는, 전자적으로 판독가능한 제어 신호들을 갖는 데이터 캐리어를 포함한다.

일반적으로, 본 발명의 실시예들은 프로그램 코드를 갖는 컴퓨터 프로그램 제품으로서 구현될 수 있으며, 이 프로그램 코드는 컴퓨터 프로그램 제품이 컴퓨터 상에서 실행될 때, 상기 방법들 중의 하나를 수행하도록 동작된다. 프로그램 코드는, 예를 들어, 기계 판독가능한 캐리어 상에 저장될 수도 있다.

다른 실시예들은, 기계 판독가능한 캐리어에 저장되는, 본 명세서에서 설명된 방법들 중의 하나를 수행하는 컴퓨터 프로그램을 포함한다.

즉, 본 발명의 방법의 일 실시예는, 따라서, 컴퓨터 프로그램이 컴퓨터 상에서 실행될 때, 본 명세서에서 설명된 방법들 중의 하나를 수행하는 프로그램 코드를 가진 컴퓨터 프로그램이다.

본 발명의 방법의 다른 실시예는, 따라서, 본 명세서에서 설명된 방법들 중의 하나를 수행하는 컴퓨터 프로그램을 포함하거나, 이를 저장한 데이터 캐리어(또는 디지털 저장매체, 또는 컴퓨터-판독가능한 매체)이다. 이 데이터 캐리어, 디지털 저장매체 또는 기록된 매체는 통상적으로 유형적이며/이거나 비-일시적이다.

본 발명의 방법의 다른 실시예는, 따라서, 본 명세서에서 설명된 방법들 중의 하나를 수행하는 컴퓨터 프로그램을 나타내는 데이터 스트림 또는 신호들의 시퀀스이다. 데이터 스트림 또는 신호들의 시퀀스는, 예를 들어, 데이터 통신 연결을 통해, 예를 들어 인터넷을 통해 전송되도록 구성될 수 있다.

다른 실시예는, 본 명세서에서 설명된 방법들 중의 하나를 수행하도록 구성되거나 프로그래밍 되는 처리 수단, 예를 들어, 컴퓨터 또는 프로그래머블 로직 디바이스를 포함한다.

다른 실시예는, 본 명세서에서 설명된 방법들 중의 하나를 수행하는 컴퓨터 프로그램이 설치된 컴퓨터를 포함한다.

본 발명에 따른 다른 실시예는, 본 명세서에서 설명된 방법들 중의 하나를 수행하는 컴퓨터 프로그램을 수신기로 전송하도록(예를 들어, 전기적 또는 광학적으로) 구성되는 장치 또는 시스템을 포함한다. 수신기는, 예를 들어, 컴퓨터, 모바일 디바이스, 메모리 디바이스 등일 수 있다. 장치 또는 시스템은, 예를 들어, 컴퓨터 프로그램을 수신기로 전송하기 위한 파일 서버를 포함한다.

몇몇 실시예들에서는, 프로그래머블 로직 디바이스(예를 들어, 필드 프로그래머블 게이트 어레이)가 본 명세서에서 설명된 방법들의 기능들 중의 일부 또는 전부를 수행하는데 사용될 수 있다. 몇몇 실시예들에서, 필드 프로그래머블 게이트 어레이는 본 명세서에서 설명된 방법들 중의 하나를 수행하기 위해 마이크로프로세서와 협력할 수 있다. 일반적으로, 이 방법들은 임의의 하드웨어 장치에 의해 바람직하게 수행될 수 있다.

상술한 실시예들은 본 발명의 원리에 대한 예시에 불과하다. 본 명세서에 기재된 구성들 및 세부사항들에 대한 변형 및 수정이 당업자에게는 명백할 것이라는 것을 이해해야 한다. 따라서, 본 발명은 다음의 특허 청구항들의 범위에 의해서만 한정되며, 본 명세서의 실시예들에 대한 기술 및 설명에 의해 제공된 특정 세부사항들에 의해서는 본 발명이 한정되지 않음이 의도된다.

Claims

오디오 신호(40)의 일부분의 인코딩된 버전을 획득하기 위하여, 상기 오디오 신호(40)의 일부분을 인코딩하기 위한 제 1 특성을 갖는 제 1 인코딩 알고리즘 및 제 2 특성을 갖는 제 2 인코딩 알고리즘 중의 하나를 선택하는 장치(10)로서,
상기 제 1 인코딩 알고리즘을 사용하여 상기 오디오 신호의 일부분을 실제로 인코딩 및 디코딩하지 않고도, 상기 오디오 신호의 일부분에 대한 제 1 품질 측정값을 추정하는 제 1 추정기(12) - 상기 제 1 품질 측정값은 상기 제 1 인코딩 알고리즘과 연관됨 - 와,
상기 제 2 인코딩 알고리즘을 사용하여 상기 오디오 신호의 일부분을 실제로 인코딩 및 디코딩하는 것 없이도, 상기 오디오 신호의 일부분에 대한 제 2 품질 측정값을 추정하는 제 2 추정기(14) - 상기 제 2 품질 측정값은 상기 제 2 인코딩 알고리즘과 연관됨 - 와,
상기 제 1 품질 측정값과 상기 제 2 품질 측정값 간의 비교에 기초하여, 상기 제 1 인코딩 알고리즘 또는 상기 제 2 인코딩 알고리즘을 선택하는 제어기(16)를 포함하고,
상기 제 1 품질 측정값과 제 2 품질 측정값은 상기 오디오 신호를 가중 처리한 버전의 대응 부분에 대한 SNR(signal to noise ratio) 또는 분절(segmental) SNR인
장치.
제 1 항에 있어서,
상기 제 1 인코딩 알고리즘은 변환 코딩 알고리즘(transform coding algorithm), MDCT(modified discrete cosine transform) 기반 코딩 알고리즘 또는 TCX(transform coding excitation) 코딩 알고리즘이며,
상기 제 2 인코딩 알고리즘은 CELP(code excited linear prediction) 코딩 알고리즘 또는 ACELP(algebraic code excited linear prediction) 코딩 알고리즘인
장치.
제 1 항에 있어서,
상기 제 1 추정기(12)는 상기 오디오 신호의 일부분을 양자화할 경우에 상기 제 1 인코딩 알고리즘에서 사용되는 양자화기(quantizer)가 도입하게 되는 추정된 양자화 왜곡(quantizer distortion)을 결정하고, 상기 오디오 신호를 가중 처리한 버전의 일부분의 에너지 및 상기 추정된 양자화 왜곡에 기초하여 상기 제 1 품질 측정값을 추정하도록 구성되는
장치.
제 3 항에 있어서,
상기 제 1 추정기(12)는, 상기 제 1 인코딩 알고리즘에서 사용되는 양자화기 및 엔트로피 코더(entropy coder)로 인코딩되는 경우에 상기 오디오 신호의 일부분이 소정 타겟 비트레이트(target bitrate)를 생성하도록 하는, 상기 오디오 신호의 일부분에 대한 글로벌 이득(global gain)을 추정하도록 구성되고,
상기 제 1 추정기(12)는, 상기 추정된 글로벌 이득의 거듭제곱(power)에 기초하여, 상기 추정된 양자화 왜곡을 결정하도록 더 구성되며,
상기 제 1 인코딩 알고리즘에서 사용되는 양자화기는 균일 스칼라 양자화기(uniform scalar quantizer)이고,
상기 제 1 추정기(12)는, 식 D = G*G/12를 사용하여 상기 추정된 양자화 왜곡을 결정하도록 구성되며, 여기서 D는 상기 추정된 양자화 왜곡이고 G는 상기 추정된 글로벌 이득인
장치.
제 3 항에 있어서,
상기 제 1 품질 측정값은 가중 처리된 오디오 신호의 일부분의 분절 SNR이며,
상기 제 1 추정기(12)는, 상기 가중 처리된 오디오 신호의 일부분을 이루는 복수의 서브-부분들의 각각과 관련된 추정된 SNR을 상기 가중 처리된 오디오 신호의 대응하는 서브-부분들의 에너지 및 상기 추정된 양자화 왜곡에 기초하여 계산하고 또한 상기 가중 처리된 오디오 신호의 일부분의 서브-부분들과 관련된 SNR들의 평균을 계산함으로써, 상기 분절 SNR을 추정하여 상기 가중 처리된 오디오 신호의 일부분에 대한 상기 추정된 분절 SNR을 획득하도록 구성되는
장치.
제 1 항에 있어서,
상기 제 2 추정기(14)는, 상기 오디오 신호의 일부분을 인코딩하기 위하여 적응 코드북을 사용할 경우에 상기 제 2 인코딩 알고리즘에서 사용되는 상기 적응 코드북이 도입하게 되는 추정된 적응 코드북(adaptive codebook) 왜곡을 결정하도록 구성되고,
상기 제 2 추정기(14)는, 상기 오디오 신호를 가중 처리한 버전의 일부분의 에너지 및 상기 추정된 적응 코드북 왜곡에 기초하여, 상기 제 2 품질 측정값을 추정하도록 구성되며,
상기 오디오 신호의 일부분을 이루는 복수의 서브-부분들의 각각에 대하여, 상기 제 2 추정기(14)는, 사전-처리 스테이지(pre-processing stage)에서 결정된 피치-래그(pitch-lag)만큼 이전으로 시프트되는 상기 가중 처리된 오디오 신호의 서브-부분의 버전에 기초하여 상기 적응 코드북을 근사화하고, 상기 가중 처리된 오디오 신호의 일부분의 서브-부분과 상기 근사화된 적응 코드북 간의 오차가 최소로 되도록 하는 적응 코드북 이득을 추정하고, 상기 가중 처리된 오디오 신호의 일부분의 서브-부분과 상기 적응 코드북 이득에 의해 스케일링(scaling)된 상기 근사화된 적응 코드북 간의 오차의 에너지에 기초하여 상기 추정된 적응 코드북 왜곡을 결정하도록 구성되는
장치.
제 6 항에 있어서,
상기 제 2 추정기(14)는, 상수 계수(constant factor)만큼 오디오 신호의 일부분의 각각의 서브-부분에 대해 결정된 상기 추정된 적응 코드북 왜곡을 감소시키도록 더 구성되는
장치.
제 6 항에 있어서,
상기 제 2 품질 측정값은 상기 가중 처리된 오디오 신호의 일부분의 분절 SNR이며,
상기 제 2 추정기(14)는, 상기 가중 처리된 오디오 신호의 일부분을 이루는 복수의 서브-부분들의 각각과 관련된 추정된 SNR을 상기 가중 처리된 오디오 신호의 대응하는 서브-부분의 에너지 및 상기 추정된 적응 코드북 왜곡에 기초하여 계산하고 또한 상기 서브-부분들과 관련된 SNR들의 평균을 계산함으로써, 상기 분절 SNR을 추정하여 상기 가중 처리된 오디오 신호의 일부분에 대한 상기 추정된 분절 SNR을 획득하도록 구성되는
장치.
제 6 항에 있어서,
상기 제 2 추정기(14)는, 사전처리 스테이지에서 결정된 피치-래그만큼 이전으로 시프트되는 상기 가중 처리된 오디오 신호의 일부분의 버전에 기초하여 상기 적응 코드북을 근사화하고, 상기 가중 처리된 오디오 신호의 일부분과 상기 근사화된 적응 코드북 간의 오차가 최소로 되도록 하는 적응 코드북 이득을 추정하고, 또한 상기 가중 처리된 오디오 신호의 일부분과 상기 적응 코드북 이득에 의해 스케일링된 상기 근사화된 적응 코드북 간의 오차의 에너지에 기초하여 상기 추정된 적응 코드북 왜곡을 결정하도록 구성되는
장치.
제 1 항에 있어서,
상기 제어기(16)는, 상기 추정된 품질 측정값들을 비교할 시에 히스테리시스(hysteresis)를 이용하도록 구성되는
장치.
오디오 신호의 일부분을 인코딩하는 인코딩 장치(20)로서,
제 1 항에 기재된 장치(10)와, 상기 제 1 인코딩 알고리즘을 수행하는 제 1 인코더 스테이지(encoder stage)(26)와, 상기 제 2 인코딩 알고리즘을 수행하는 제 2 인코더 스테이지(28)를 포함하며,
상기 인코딩 장치는 상기 제어기(16)에 의한 선택에 따라, 상기 제 1 인코딩 알고리즘 또는 상기 제 2 인코딩 알고리즘을 사용하여, 상기 오디오 신호의 일부분을 인코딩하도록 구성되는
인코딩 장치.
인코딩 및 디코딩하는 시스템으로서,
제 11 항에 기재된 인코딩 장치(20)와,
상기 오디오 신호의 일부분의 인코딩된 버전 및 상기 오디오 신호의 일부분을 인코딩하는데 사용된 알고리즘의 표시를 수신하고 또한 상기 표시된 알고리즘을 사용하여 상기 오디오 신호의 일부분의 인코딩된 버전을 디코딩하도록 구성되는 디코더를 포함하는
인코딩 및 디코딩 시스템.
오디오 신호의 일부분의 인코딩된 버전을 획득하기 위하여, 상기 오디오 신호의 일부분을 인코딩하기 위한 제 1 특성을 갖는 제 1 인코딩 알고리즘 및 제 2 특성을 갖는 제 2 인코딩 알고리즘 중의 하나를 선택하는 방법으로서,
상기 제 1 인코딩 알고리즘을 사용하여 상기 오디오 신호의 일부분을 실제로 인코딩 및 디코딩하지 않고도, 상기 오디오 신호의 일부분에 대한 제 1 품질 측정값을 추정하는 단계 - 상기 제 1 품질 측정값은 상기 제 1 인코딩 알고리즘과 연관됨 - 와,
상기 제 2 인코딩 알고리즘을 사용하여 상기 오디오 신호의 일부분을 실제로 인코딩 및 디코딩하지 않고도, 상기 오디오 신호의 일부분에 대한 제 2 품질 측정값을 추정하는 단계 - 상기 제 2 품질 측정값은 상기 제 2 인코딩 알고리즘과 연관됨 - 와,
상기 제 1 품질 측정값과 상기 제 2 품질 측정값 간의 비교에 기초하여, 상기 제 1 인코딩 알고리즘 또는 상기 제 2 인코딩 알고리즘을 선택하는 단계를 포함하고,
상기 제 1 및 제 2 품질 측정값들은, 상기 오디오 신호를 가중 처리한 버전의 대응 부분에 대한 SNR(signal to noise ratio) 또는 분절 SNR인
방법.
제 13 항에 있어서,
상기 제 1 인코딩 알고리즘은 변환 코딩 알고리즘(transform coding algorithm), MDCT(modified discrete cosine transform) 기반 코딩 알고리즘 또는 TCX(transform coding excitation) 코딩 알고리즘이며,
상기 제 2 인코딩 알고리즘은 CELP(code excited linear prediction) 코딩 알고리즘 또는 ACELP(algebraic code excited linear prediction) 코딩 알고리즘인
방법.
제 13 항에 있어서,
상기 오디오 신호의 일부분을 양자화할 경우에 상기 제 1 인코딩 알고리즘에서 사용되는 양자화기가 도입하게 되는 추정된 양자화 왜곡을 결정하는 단계(108)와, 상기 오디오 신호를 가중 처리한 버전의 부분의 에너지 및 상기 추정된 양자화 왜곡에 기초하여 상기 품질 측정값을 결정하는 단계를 포함하는
방법.
제 15 항에 있어서,
상기 제 1 인코딩 알고리즘에서 사용되는 양자화기 및 엔트로피 코더로 인코딩되는 경우에 상기 오디오 신호의 일부분이 소정 타겟 비트레이트를 생성하도록 하는 상기 오디오 신호의 일부분에 대한 글로벌 이득을 추정하는 단계(106)와, 상기 추정된 글로벌 이득의 거듭제곱에 기초하여 상기 추정된 양자화 왜곡을 결정하는 단계(108)를 포함하고,
상기 양자화기는 균일 스칼라 양자화기이고, 상기 추정된 양자화 왜곡은 식 D = G*G/12를 사용하여 결정되며, 여기서 D는 상기 추정된 양자화 왜곡이고 G는 상기 추정된 글로벌 이득인
방법.
제 15 항에 있어서,
상기 제 1 품질 측정값은 가중 처리된 오디오 신호의 일부분의 LPC 필터링된 버전의 분절 SNR이며,
상기 방법은, 상기 가중 처리된 오디오 신호의 대응 서브-부분들의 에너지 및 상기 추정된 양자화 왜곡에 기초하여, 상기 가중 처리된 오디오 신호의 일부분을 이루는 복수의 서브-부분들의 각각과 관련된 추정된 SNR을 계산하고 또한 상기 가중 처리된 오디오 신호의 일부분의 서브-부분들과 관련된 SNR의 평균을 계산함으로써 상기 제 1 분절 SNR을 추정하여 상기 가중 처리된 오디오 신호의 일부분에 대한 상기 추정된 분절 SNR을 획득하는 단계를 포함하는
방법.
제 13 항에 있어서,
상기 오디오 신호의 일부분을 인코딩하기 위하여 적응 코드북을 사용할 경우에 상기 제 2 인코딩 알고리즘에서 사용되는 상기 적응 코드북이 도입하게 되는 추정된 적응 코드북 왜곡을 결정하는 단계(116)와, 상기 오디오 신호의 가중 처리한 버전의 일부분의 에너지 및 상기 추정된 적응 코드북 왜곡에 기초하여 상기 제 2 품질 측정값을 추정하는 단계와,
상기 오디오 신호의 일부분을 이루는 복수의 서브-부분들의 각각에 대하여,
사전-처리 스테이지에서 결정된 피치-래그만큼 이전으로 시프트되는 상기 가중 처리된 오디오 신호의 서브-부분의 버전에 기초하여 상기 적응 코드북을 근사화하는 단계(112)와, 상기 가중 처리된 오디오 신호의 일부분의 서브-부분과 상기 근사화된 적응 코드북 간의 오차가 최소로 되도록 하는 적응 코드북 이득을 추정하는 단계(114)와, 상기 가중 처리된 오디오 신호의 일부분의 서브-부분과 상기 적응 코드북 이득에 의해 스케일링된 상기 근사화된 적응 코드북 간의 오차의 에너지에 기초하여 상기 추정된 적응 코드북 왜곡을 결정하는 단계(116)를 포함하는
방법.
제 18 항에 있어서,
상수 계수만큼 오디오 신호의 일부분의 각각의 서브-부분에 대해 결정된 상기 추정된 적응 코드북 왜곡을 감소시키는 단계(118)를 포함하는
방법.
제 18 항에 있어서,
상기 제 2 품질 측정값은 상기 가중 처리된 오디오 신호의 일부분의 분절 SNR이며,
상기 방법은, 상기 가중 처리된 오디오 신호의 대응 서브-부분들의 에너지 및 상기 추정된 적응 코드북 왜곡에 기초하여 각각의 서브-부분과 관련된 추정된 SNR을 계산하고 또한 상기 서브-부분들과 관련된 SNR의 평균을 계산함으로써 상기 분절 SNR을 추정하여 상기 가중 처리된 오디오 신호의 일부분에 대한 상기 추정된 분절 SNR을 획득하는 단계를 포함하는
방법.
제 18 항에 있어서,
사전처리 스테이지에서 결정된 피치-래그만큼 이전으로 시프트되는 상기 가중 처리된 오디오 신호의 일부분의 버전에 기초하여 상기 적응 코드북을 근사화하는 단계와, 상기 가중 처리된 오디오 신호의 일부분과 상기 근사화된 적응 코드북 간의 오차가 최소로 되도록 하는 적응 코드북 이득을 추정하는 단계와, 상기 가중 처리된 오디오 신호의 일부분과 상기 적응 코드북 이득에 의해 스케일링된 상기 근사화된 적응 코드북 간의 오차의 에너지에 기초하여 상기 추정된 적응 코드북 왜곡을 결정하는 단계를 포함하는
방법.
제 13 항 내지 제 21 항 중 어느 한 항에 있어서,
상기 추정된 품질 측정값들을 비교할 시에 히스테리시스를 이용하는 단계를 포함하는
방법.
컴퓨터 상에서 실행될 경우, 제 13 항 내지 제 21 항 중 어느 한 항에 기재된 방법을 수행하는 프로그램 코드를 갖는 컴퓨터 프로그램을 포함하는 컴퓨터 판독가능 저장 매체.
삭제
삭제
삭제
삭제
삭제
삭제
삭제
삭제
삭제
삭제
삭제
삭제
삭제
삭제