KR20030062338A

KR20030062338A - 적응형 필터링에 의해 고주파 복원 코딩 방법의 인식성능을 향상시키기 위한 방법 및 장치

Info

Publication number: KR20030062338A
Application number: KR10-2003-7006515A
Authority: KR
Inventors: 크졸링크리스토퍼; 엑스트란트페르; 헨프레드릭; 빌레모라아스
Original assignee: 코딩 테크놀러지스 스웨덴 에이비
Priority date: 2000-11-14
Filing date: 2001-11-13
Publication date: 2003-07-23
Anticipated expiration: 2021-11-13
Also published as: ATE264533T1; ES2215935T3; WO2002041301A1; JP2004514179A; CN1267890C; CN1766993A; CN1766993B; AU2002214496A1; SE0004163D0; DE60102838D1; EP1342230B1; CN1481545A; US7003451B2; KR100517229B1; US7433817B2; EP1342230A1; DE60102838T2; JP2006079106A; US20060036432A1; HK1056429A1

Abstract

본 발명은 고주파 복원(HFR)을 이용하여 음원 코딩 시스템의 향상을 위한 새로운 방법 및 새로운 장치를 제공한다. 본 발명은 적응형 필터링을 이용하여 HFR이 수행되는 오디오 신호의 다른 주파수 범위의 다른 음조 특성에 기인한 인공음을 저감한다. 본 발명은 음성 코딩 및 자연음 코딩 시스템 양측에 적용 가능하다.

Description

적응형 필터링에 의해 고주파 복원 코딩 방법의 인식 성능을 향상시키기 위한 방법 및 장치{ENHANCING PERCEPTUAL PERFORMANCE OF HIGH FREQUENCY RECONSTRUCTION CODING METHODS BY ADAPTIVE FILTERING}

저대역(low band)으로부터 고대역(high band)이 추정되는 오디오 신호의 고주파 복원에서는, HFR 시스템에서 흔히 이용되는 바와 같은 대충적인 포락선 조절(coarse envelope adjustment)로 달성될 수 있는 것보다 큰 정도로 복원된 고대역의 음조 성분을 제어하는 수단을 갖는 것이 중요하다. 이것은, 음성이나 대부분의 음향기기과 같은 대부분의 오디오 신호에 대한 음조 성분들이 통상적으로 고주파 영역에 비하여 저주파 영역(즉, 4~5kHz미만)에서 더 강하기 때문에 필요하다. 극단적인 예로서 저대역에서의 매우 명백한 조화급수(harmonic series) 및 고대역에서의 다소 순수한 잡음이 있다. 이에 접근하는 한가지 방법은 잡음을 복원된 고대역에 적응식으로 가산하는 것이다(적응형 잡음 가산(Adaptive Noise Addition[PCT/SE00/00159])). 그러나, 이것은 때때로 저대역의 음조 특성을 억제하기에 충분하지 않아서, 복원된 고대역에 반복적인 "버저"음("buzzy" sound) 특성을 제공한다. 또한, 잡음의 시변적인 특성을 달성하는 것이 어려울 수도 있다. 또 다른 문제가 두개의 조화급수, 즉 높은 조화 밀도(harmonic density)(저피치)를 갖는 하나와 낮은 조화 밀도(고피치)를 갖는 다른 하나가 혼합되는 경우에 일어난다. 고피치 조화급수가 고대역이 아니라 저대역에서 상기 다른 하나에 비하여 우세하다면, HFR은 고피치 신호의 고조파(harmonics)가 고대역에서 우세하게 하여, 복원된 고대역 음을 원음에 비하여 "금속음(metallic)"으로 만든다. 전술한 시나리오의 어느 것도 HFR 시스템에 흔히 이용되는 포락선 조절을 이용하여 제어될 수 없다. 일부 구현예에서는, HFR 신호의 스펙트럼 포락선 조절 중에 일정한 정도의 스펙트럼 화이트닝(spetral whitening)이 도입된다. 이것은 특정한 정도의 스펙트럼 화이트닝이 필요한 경우에는 만족할 만한 결과를 제공하지만, 특정한 정도의 스펙트럼 화이트닝으로부터 이득을 얻지 않는 신호 발췌음(excerpts)에 대하여는 심각한 인공음(artifacts)을 발생시킨다.

본 발명은 스펙트럼 대역 복제(Spectral Band Replication),SBR [WO 98/57436], 또는 관련된 방법들 등과 같은 고주파 복원(High Frequency Reconstruction: HFR)을 이용하는 음원(audio source) 코딩 시스템에 관한 것이다. 본 발명은 저품질(low quality) 방법들 [U.S. Pat. 5,127,054] 뿐만 아니라 고품질(high quality) 방법(SBR)들의 성능을 향상시킨다. 본 발명은 음성 코딩 및 자연음(natural audio) 코딩 시스템 양측에 적용 가능하다.

이하, 본 발명의 범위나 사상을 제한하지 않지 않고서 첨부 도면을 참조하여 도식적인 예를 통하여 본 발명을 설명한다.

도 1은 LPC 스펙트럼의 대역폭 확장을 나타낸다.

도 2는 시각 t₀및 시각 t₁에서의 원음 신호의 절대 스펙트럼을 나타낸다.

도 3은 적응형 필터링이 없는 종래 기술의 카피업(copy up) HFR 시스템의 시각 t₀및 시각 t₁에서의 출력의 절대 스펙트럼을 나타낸다.

도 4는 본 발명에 따른 적응형 필터링을 갖춘 카피업 HFR 시스템의 시각 t0 및 시각 t1에서의 출력의 절대 스펙트럼을 나타낸다.

도 5a는 본 발명에 따른 최악의 경우의 신호를 나타낸다.

도 5b는 최악의 경우의 신호의 고대역 및 저대역에 대한 자동 상관을 나타낸다.

도 5c는 본 발명에 따른 다른 주파수에 대한 음조-잡음비(tonal to noise ratio)(q)를 나타낸다.

도 6은 본 발명에 따른 디코더에서의 적응형 필터링의 시간 영역 구현을 나타낸다.

도 7은 본 발명에 따른 디코더에서의 적응형 필터링의 부대역 필터뱅크 실행을 나타낸다.

도 8은 본 발명의 인코더 구현을 나타낸다.

도 9는 본 발명의 디코더 구현을 나타낸다.

본 발명은 HFR 방법에 흔히 도입되는 "버저음" 및 "금속음"의 문제에 관한 것이다. 본 발명은 인코더측의 복잡한 디텍션(detection) 알고리즘을 이용하여 디코더에 적용될 바람직한 정도의 스펙트럼 화이트닝을 추정한다. 스펙트럼 화이트닝은 반복되는 고대역의 고조파 성분을 제어하는 최선의 수단을 보장하면서, 주파수뿐만 아니라 시간에 따라 변화한다. 본 발명은 부대역(subband)의 필터뱅크(filterbank)에서 성취가능할 뿐만 아니라 시간 영역에서도 성취되는 것이 가능하다.

본 발명은 다음과 같은 특징을 갖는다.

- 인코더에서, 주어진 시간에 다른 주파수 영역에 대하여 원음 신호의 음조 특성을 평가한다.

- 인코더에서, 디코더에서 사용되는 HFR 방법이 제공된다면, 디코더에서의 HFR 후에 유사 음조 특성을 얻기 위하여 주어진 시간에 다른 주파수 영역에 대하여 원하는 양의 스펙트럼 화이트닝을 평가한다.

- 바람직한 정도의 스펙트럼 화이트닝에 대한 정보를 인코더로부터 디코더로 전송한다.

- 디코더에서는, 인코더로부터 전송된 정보에 따라서 시간 영역이나 부대역 필터뱅크에서 스펙트럼 화이트닝을 수행한다.

- 디코더에서의 스펙트럼 화이트닝에 사용되는 적응형 필터가 선형 예측에 의해 얻어진다.

- 요구되는 스펙트럼 화이트닝의 정도가 예측에 의해 인코더에서 판단된다.

- 예측자 차수를 변화시키거나, LPC 다항식의 대역폭 확장 인자를 변화시키거나, 필터링된 신호를 처리되지 않은 대응부와 소정의 정도까지 혼합함으로써, 스펙트럼 화이트닝의 정도가 제어된다.

- 낮은 차수의 예측자를 위해 부대역 필터뱅크를 이용하는 것은 특히 필터뱅크가 이미 포락선 조절에 이용된 시스템에 대해서는 매우 효과적인 성과를 부여한다.

- 본 발명에 의한 새로운 필터뱅크가 얻어지는 경우, 스펙트럼 화이트닝의 주파수 선택도는 매우 쉽게 얻어지게 된다.

이하에 설명하는 실시예들은 고주파 복원 시스템(high frequency reconstruction system)의 향상을 위한 본 발명의 원리를 단지 예시하고 있을 뿐이다. 여기에 기재되는 구성 및 세부 사항의 수정 및 변경은 이 분야에서 통상의 지식을 가진 자에게는 명백하다는 것을 알아야 한다. 따라서, 여기의 실시예의 기재 및 설명을 통하여 제시된 특정 사항들에 의해서가 아니라 첨부된 특허청구범위에 의해서만 제한되는 것이다.

신호의 스펙트럼 포락선을 주어진 스펙트럼 포락선으로 조절할때, 소정 정도의 스펙트럼 화이트닝이 항상 적용된다. 전송된 대략적인 스펙트럼 포락선이 H_envRef(z)로 기재되고 현재의 신호 세그먼트의 스펙트럼 포락선은 H_envCur(z)로 기재되기 때문에, 적용된 필터 함수는 다음과 같다.

본 발명에 있어서, H_envRef(z)에 대한 주파수 분석은 H_envCur(z)와 반드시 동일하지 않다. 본 발명은 HFR 신호의 포락선 조절을 위한 H_envCur(z)의 적응형 주파수 분석을 이용한다. 신호 세그먼트는 식 1 에 따른 신호의 스펙트럼 화이트닝을 위하여 H_envCur(z)의 역으로 필터링된다.

여기서,

는 자동상관(autocorrelation) 방법 또는 공분산(covariance) 방법 [Digital Processing of Speech Signals, Rabiner & Schafer, Prentice Hall, Inc., Englewood Cliffs, New Jersey 07632, ISBN 0-13-213603-1, Chapter 8]을 사용하여 얻어진 다항식이고, G 는 이득이다. 이 경우, 스펙트럼 화이트닝의 정도는, 예를 들어 다항식 A(z)의 차수를 제한시켜 예측자 차수를 변화시키는 것에 의하고, 그럼으로서 H_envCur(z)로 기재될 수 있는 미세 구조의 규모를 제한하거나, 다항식 A(z)에 대역폭 확장 인자를 적용하는 것에 의해 제한될 수 있다. 대역폭 확장은 다음에 따라 정의된다: 대역폭 확장 인자가 ρ이면, 다항식 A(z)은

로 전개된다.

이것은 도 1 에 따라 H_envCur(z)에 의해 평가된 포르만트(formant)의 대역폭을 확장시킨다. 따라서, 본 발명에 따르면, 역 필터는 주어진 시간에서 다음과 같이 기재된다.

여기서, p 는 예측자 차수이고, ρ는 대역폭 확장 인자이다.

계수 α_k는 상술한 바와 같이 다른 방법, 예를 들어, 자동상관 방법 또는 공분산 방법으로 얻어질 수 있다. H_inv가규칙적인 포락선 조절전에 사용되면 이득 인자(G)는 1로 설정될 수 있다. 시스템의 안정성을 확보하기 위하여 여러 종류의 평가에 대한 완화치를 더하는 것이 일반적이다. 자동상관 방법을 사용하면, 이것은 상관 벡터의 제로-래그(zero-lag) 값을 오프셋함으로써 용이하게 성취된다. 이것은 A(z)를 평가하는데 사용되는 신호에 백색 잡음을 일정 레벨로 부가하는 것과 동등하다. 파라미터(p 및 ρ)는 인코더로부터 전송된 정보에 기초하여 산출된다.

대역폭 확장의 다른 방법은

로 기재된다.

여기서, b 는 블렌딩(blending) 팩터이다. 이것은

에 따라 적응 필터를 산출한다.

여기서, b=1 일때, 식 7 은 ρ=1를 갖는 식 5 로 평가되고, b=0 일때, 식 7 은 일정 비주파수 선택 이득 인자로 평가된다.

본 발명은 디코더에서 사용될 화이트닝의 정도에 관한 정보가 매우 효과적으로 전송될 수 있기 때문에 매우 낮은 추가 비트 레이트 비용으로 HFR 시스템의 성능을 크게 증가시킨다. 도 2 내지 도 4 는 본 발명에 의하지 않는 시스템에 비교하여 본 발명에 의한 시스템의 성능을 예시적인 절대 스펙트럼으로 표시한다. 도 2 에서, 시간 t₀및 시간 t₁에서의 원음 신호의 절대 스펙트럼이 표시된다. 신호의 저대역 및 고대역에 대한 음조 특성은 시간 t₀에서 유사하지만, 시간 t₁에서 매우 다르다. 도 3 에는, 본 발명에 의하지 않고, HFR에 기초하여 카피업(copy-up)을 사용하는 시스템의 시간 t₀및 시간 t₁에서의 출력이 표시된다. 여기서, 시간 t₀에서는 올바른 음조 특성을 부여하기 위하여 스펙트럼 화이트닝은 전혀 적용되지 않지만, 그것은 시간 t₁에 대해서는 전적으로 틀리게 된다. 이 경우는 매우 불쾌한 인공음을 발생시킨다. 인공음들은 다른 특성을 가지며 다른 순간에 발생하지만, 어떠한 일정 정도의 스펙트럼 화이트닝에 대해서도 유사한 결과가 얻어진다. 도 4 에는, 본 발명을 이용한 시스템의 시간 t₀및 시간 t₁에서의 출력이 표시된다. 여기서, 스펙트럼 화이트닝은 그 정도가 시간에 따라 변화하며, 본 발명에 의하지 않는 시스템에서보다 우수한 음성 품질을 결과한다.

인코더측의 검출기

지금 HFR 방법이 사용된다고 할 때, 본 발명에서 인코더측의 검출기는 가능한한 원음과 유사한 고대역를 얻기 위하여, 디코더에서 사용될 최상의 스펙트럼 화이트닝(LPC 차수, 대역폭 확장 인자 및/또는 블렌딩 팩터)을 평가하는데 사용된다. 디코더에서 사용될 스펙트럼 화이트닝 정도의 적절한 평가를 얻기 위하여 여러 가지 접근법이 사용될 수 있다. 이하의 설명에서, 실질적으로 HFR 알고리즘은 고주파가 발진되는 전과정에서 저대역 스펙트럼의 음조 구조를 변화시키지 않는 것으로 가정한다. 즉, 발생된 고대역은 저대역과 동일한 음조 특성을 갖는다. 이러한 가정이 가능하지 않다면, 이하의 디텍션(detection)은 인코더의 원음 신호에 HFR 을 수행하는 합성에 의한 분석을 할 수 있고, 원음 신호의 저대역 및 고대역에 관한 비교 연구을 수행하는 것보다 2개의 신호의 고대역에 관한 비교 연구를 할 수 있다.

하나의 접근법은 적당량의 스펙트럼 화이트닝을 평가하기 위하여 자동상관을 이용한다. 디택터(detector)는 소오스 범위(즉, HFR이 디코더에서 기초할때의 주파수 범위) 및 목표 범위(즉, 디코더에서 복원될 주파수 범위)에 대한 자동상관함수를 평가한다. 도 5a에는, 저대역에서의 조화 급수를 갖고 고대역에서 백색 잡음을 갖는 최악의 경우의 신호가 기재된다. 상이한 자동 상관 함수는 도 5b에 표시된다. 여기서, 저대역은 고도로 서로 연관되고 고대역는 그렇지 않음이 명백하다. 최소 래그보다 큰 임의의 래그에 대한 최대 상관은 고대역 및 저대역 둘다에서 얻어진다. 그 2개의 지수(quotient)는 디코더에 적용될 최적의 스펙트럼 화이트닝을 산출하는데 사용된다. 본 발명을 상술한 바와 같이 구현하면, 상관의 계산을 위하여 FFT 를 사용하는 것이 바람직할 것이다. 시퀀스 x(n)의 자동상관은

에 의해 정의된다.

여기서,

목표는 고대역와 저대역에서 자동상관의 차를 비교하기 위한 것이며 주파수 영역에서 필터링이 수행될 수 있다. 이것은 다음을 산출한다.

여기서, H_Lp(k) 및 H_Hp(k) 는 LP 및 HP 필터 임펄스 응답의 푸리에 변환이다. 상술한 것으로부터, 저대역와 고대역에 대한 자동상관 함수는

에 따라 산출될 수 있다.

각각의 자동상관 벡터에서, 최소 래크보다 큰 래그에 대한 최대값은

로 산출된다.

그 2개의 몫은 예시적인 맵에 대한 적절한 대역폭 확장 인자에 사용될 수 있다.

상술한 기재는 주어진 시간에 주어진 주파수 대역에 대한 올바른 역 필터링 레벨을 얻기 위하여, 예측의 일반적인 측정, 즉, 주어진 시간 및 주어진 주파수 대역에서 신호의 음조-잡음비를 평가하는 것이 유익함을 암시한다. 이것은 이하의 좀더 개량된 접근법을 이용하여 성취될 수 있다. 여기서, 부대역 필터뱅크를 가정하였지만, 본 발명은 이것에 한정되는 것은 아니다.

필터뱅크의 각각의 부대역에 대한 음조-잡음비(q)는 부대역 샘플의 블록에 대한 선형 예측을 사용하여 정의될 수 있다. q 의 큰 값은 많은 양의 음색을 가리키고, q의 작은 값은 시간과 주파수의 대응하는 위치에서 신호가 잡음같다라는 것을 가리킨다. q 값은 공분산 방법 및 자동상관 방법을 사용하여 얻어질 수 있다.

공분산 방법에서, 부대역 신호 블록 [x(0), x(1), ..., x(N-1)]에 대한 예측 에러 및 선형 예측 계수는 초레스키(Cholesky) 분해를 사용하여 효과적으로 계산될 수 있다[Digital Processing of Speech Signals, Rabiner & Schafer, Prentice Hall, Inc., Englewood Cliffs, New Jersey 07632, ISBN 0-13-213603-1, Chapter 8]. 음조-잡음비(q)는

에 의해 정의된다.

여기서,는 신호 블록의 에너지이고, E 는 예측 에러 블록의 에너지이다.

자동상관 방법에서, 좀더 자연적인 접근법은 레빈슨-더빈(Levinson-Durbin) 알고리즘을 사용하는 것이다[Digital Signal Processing, Principles, Algorithms and Application, Third Edition, John G. Proakis, Dimitris G. Manolakis, Prentice Hall, International Editions, ISBN-0-13-394338-9, Chapter 11]. 여기서, q 는

에 따라 정의된다.

여기서, K_i는 예측 다항식으로부터 얻어진 대응 격자 필터 구조의 반사계수이고, p는 예측자 차수이다.

q 의 고대역 및 저대역 값사이의 비는 본원된 고대역의 음조-잡음비는 원음의 고대역의 음조-잡음비에 접근하도록 스펙트럼 화이트닝의 정도를 조절하는데 사용된다. 여기서, 블렌딩 팩터 b를 이용하여 화이트닝의 정도를 제어하는 것이 유리하다(식 6).

고대역에서 음조-잡음비 q=q_H가 측정되고 저대역에서 q=q_L≥q_H이 측정되는 것으로 가정하면, 화이트닝 인자(b)의 적절한 선택은 식

에 의해 주어진다.

이것을 확인하기 위하여, 식 6을 다음의 형태로 재작성하는 하는 것이 첫번째 단계이다.

이것은, A(z)를 평가하기 위하여 사용된 신호가 필터 A_b(z)로 필터링되면, 예측된 신호가 이득 인자(1-b)에 의해 억압되고 예측 에러가 변경되지 않는 것을 나타낸다. 음조-잡음비가 자승 평균 예측 신호-자승의 평균 예측 에러에 대한 비율이므로, 필터링전의 q 의 값은 필터링 동작에 의해 (1-b)²q로 변한다. 저대역 신호에 이것을 적용하면 음조-잡음비(1-b)²q_l를 갖는 신호를 생성하고, 적용된 HFR 방법이 음색을 변경하지 않는 가정하에서, 식 15에 따라 b가 선택되면 고대역의 목표값(q_H)은 정확히 도달한다.

도 5a 의 신호에 대하여, 64 채널 필터 뱅크의 각각의 부대역의 예측 차수 p=2 에 기초한 q 의 값은 도 5c 에 도시된다. 두드러지게 높은 값은 잡음 부분보다 신호의 고조파 부분에서 도달된다. 고조파 부분에서의 평가의 변화성은 선택된 주파수 분석 및 예측 차수에 의존한다.

시간 영역에서의 적응형 LPC 기반 화이트닝

디코더의 적응형 필터링은 고주파 복원전 또는 후에 수행될 수 있다. HFR 전에 필터링이 수행되면, 사용된 HFR 방법의 특성을 고려할 필요가 있다. 주파수 선택 적응형 필터링이 수행되면, HFR 유닛전에 저대역 영역에 올바른 양의 스펙트럼 화이트닝을 적용하기 위하여, 시스템은 어느 저대역 영역으로부터 벗어나고 소정의 고대역 영역이 시작될 것이다. 이하의 예에서, 본 발명의 영역 구현의 시간의, 비주파수 선택 적응형 스펙트럼 화이트닝이 약술된다. 당업자에게는 본 발명의 시간 영역 구현이 이하에 기재된 구현에 한정되지 않음이 명백할 것이다.

시간 영역의 적응형 필터링을 수행하면, 자동 상관 방법을 사용하는 선형 예측이 바람직하다. 자동 상관 방법은 공분산 방법에 대한 경우가 아닌 계수 α_k를 평가하는데 사용된 입력 세그먼트의 윈도우를 요구한다. 본 발명에 따른 스펙트럼 화이트닝에 사용되는 필터는

여기서, 이득 인자(G; 식 5)는 1로 설정된다. 적응형 스펙트럼 화이트닝이 HFR 유닛전에 수행되면, 적응형 필터가 낮은 샘플링 레이트로 동작할 수 있기 때문에 효과적인 구현이 성취된다. 저대역 신호는 도 6 에 따라 윈도우되고 예측자 차수와 인코더에 의해 주어진 대역폭 확장 인자로 적절한 시간 베이스에서 필터링된다. 본 발명의 현재의 구현에서, 신호는 저역 통과 필터링(601)되고 데시메이트(decimate)된다(602). 603 은 적응형 필터를 나타낸다. 윈도우(606)은 A(z) 다항식의 평가를 위한 적절한 시간 세그먼트를 선택하는데 사용되고, 50% 오버랩이 사용된다. LPC 루틴(607)은 일반적으로 바람직한 LPC 차수와 대역폭 확장 인자가 주어지면 적절한 완화로 A(z)을 추출한다. FIR 필터(608)는 신호 세그먼트를 적응식으로 필터링하는데 사용된다. 스펙트럼 화이트닝 신호 세그먼트는샘플링(604, 605)되고 함께 윈도우되어 입력 신호를 HFR 유닛으로 형성한다.

하위 밴드 필터뱅크에서의 적응형 LPC 기반 화이트닝

적응형 필터링은 필터뱅크를 사용하여 효과적이고 확고하게 수행될 수 있다. 선형 예측 및 필터링은 필터 뱅크에 의해 생성된 각각의 부대역 신호에 대하여 독립적으로 수행된다. 하위 밴드 신호의 알리아스(alias) 성분이 억압되는 경우 필터뱅크를 이용하는 것이 바람직하다. 이것은 예를 들어 필터뱅크를 오버샘플링함으로써 성취될 수 있다. 예를 들어 적응형 필터링에 의한 결과로, 부대역 신호의 독립 변형으로부터 알리아싱(Aliasing) 출현에 의한 인공음은 현저히 감소될 수 있다. 부대역 신호의 스펙트럼 화이트닝은 상술한 시간 영역 방법과 유사한 선형 예측을 통해 얻어진다. 부대역 신호가 복소값(complex value)이면, 복소 필터 계수는 필터링 뿐만 아니라 선형 예측을 위하여 사용된다. 합당한 양의 필터뱅크 채널을 갖는 시스템에서, 각 주파수 대역의 음조 성분의 예상수가 매우 작으므로, 선형 예측의 차수는 매우 낮게 유지될 수 있다. 시간 영역 LPC 와 동일한 시간 베이스에 대응하기 위하여, 각각의 블록의 부대역 샘플의 수가 필터뱅크의 다운샘플링과 동일한 인자에 의해 더 작아진다. 낮은 필터 차수 및 작은 블록 사이즈라면, 예측 필터 계수는 공분산 방법을 사용하여 바람직하게 얻어진다. 필터 계수 산출 및 스펙트럼 화이트닝은 블록 길이(N)보다 작은 부대역 샘플 시간 단계(L)를 사용하여 블록 베이시스에 의해 블록에 수행될 수 있다. 스펙트럼 화이트닝 블록은 적절한 합성 윈도우를 사용하여 함께 더해져야 한다.

백색 가우시간 잡음(white gaussian noise)으로 구성된 입력 신호를 갖는 최대 데시메이트 필터뱅크를 공급하는 것은, 백색 스펙트럼 밀도를 갖는 부대역 신호를 생성한다. 백색 잡음을 갖는 오버샘플된 필터뱅크를 공급하면 착색된 스펙트럼 밀도를 갖는 부대역 신호를 부여한다. 이것은 분석 필터의 주파수 응답의 효과에 의한 것이다. 필터뱅크 채널의 LPC 예측자는 잡음같은 입력 신호의 경우에 필터 특성을 따를 것이다. 이것은 원하지 않는 특징이며 보상으로부터 얻어진다. 가능한 해결책은 선형 예측자를 위한 입력신호의 프리필터링이다. 프리필터링은 분석 필터의 주파수 응답에 대하여 보상하기 위하여 분석 필터의 역 또는 역의 근사이어야 한다. 상술한 바와 같이, 화이트닝 필터에는 원음 부대역 신호가 공급된다. 도 7 은 부대역의 화이트닝 프로세스를 나타낸다. 채널(l)에 대응하는 부대역 신호는 프리필터링 블록(701)에 공급되고, 이어서 동등물의 깊이가 필터 차수(702)에 의존하는 지연 회로에 공급된다. 지연된 신호와 그 공액(703)은 계수가 산출되는 선형 예측 블록(704)에 공급된다. 모든 L:th 산출로부터의 계수는 데시메이터(705)에 의해 유지된다. 부대역 신호는, 예측 계수가 사용되고 모든 L:th 샘플에 대하여 갱신되는 필터블록(706)을 통해 최종적으로 필터링된다.

실제적인 구현

본 발명은 임의의 코드를 사용하여 아날로그 또는 디지털 신호의 저장 또는 전송을 위하여 다양한 종류의 시스템에 대한 하드웨어 칩과 DSP 에서 구현될 수 있다. 도 8 및 도 9 는 본 발명의 가능한 구현을 나타낸다. 도 8 에는 인코더측이 표시된다. 아날로그 입력 신호는 A/D 컨버터(801), 임의의 오디오 코더(802), 역 필터링 레벨 평가 유닛(803), 및 포락선 추출 유닛(804)에 공급된다. 코딩된 정보는 시리얼 비트스트림(805)으로 멀티플렉스되고 전송 또는 저장된다. 도 9 에는 일반적인 디코더 구현이 표시된다. 시리얼 비트스트림은 디멀티플렉스(901)되고, 포락선 데이터, 즉, 고대역의 스펙트럼 포락선이 디코드(902)된다. 디멀티플렉스된 음원 코드 신호가 임의의 오디오 디코더(903)을 사용하여 디코드된다. 디코드된 신호는 고대역 신호가 다시 발생되는 임의의 HFR 유닛(904)로 공급된다. 고대역 신호는 적응형 스펙트럼 화이트닝을 수행하는 스펙트럼 화이트닝 유닛(905)에 공급된다. 이어서, 신호는 포락선 조절기(906)에 공급된다. 포락선 조절기로부터의 출력은 지연(907)을 통해 공급된 디코드 신호와 결합된다. 마지막으로, 디지털 출력은 아날로그 파형(908)으로 다시 변환된다.

Claims

고주파 복원을 사용하여 음원 코딩 시스템을 향상시키는 방법으로서, 상기 음원 코딩 시스템은 저장 또는 전송전에 수행된 모든 동작을 나타내는 인코더와 저장 또는 전송후에 수행되는 모든 동작을 나타내는 디코더를 포함하는 음원 코딩 시스템 향상 방법에 있어서,

상기 인코더에서, 주어진 시간에 원음 신호의 음조 특성을 평가하는 단계,

상기 인코더에서, 상기 디코더에서 사용된 HFR 방법이 주어지면, 상기 디코더에서 HFR 후에 유사 음조 특성를 얻기 위하여 주어진 시간에 원하는 정도의 스펙트럼 화이트닝을 평가하는 단계,

상기 인코더로부터 상기 디코더로 상기 양의 스펙트럼 화이트닝의 정보를 전송하는 단계, 그리고

상기 디코더에서, 상기 인코더로부터 얻어진 스펙트럼 화이트닝 정보에 따라 고주파 복원(HFR)전에 또는 HFR 후에 신호를 적응식으로 스펙트럼 화이트닝하는 단계를 구비하는 것을 특징으로 하는 음원 코딩 시스템의 향상 방법.
제 1 항에 있어서,

원음 신호의 음조 특성의 상기 평가는 다른 주파수 영역에 대하여 수행되는 것을 특징으로 하는 음원 코딩 시스템의 향상 방법.
제 1 항에 있어서,

상기 원하는 정도의 스펙트럼 화이트닝의 평가는 다른 주파수 영역에 대하여 수행되는 것을 특징으로 하는 음원 코딩 시스템의 향상 방법.
제 1 항에 있어서,

상기 스펙트럼 화이트닝은 시간 영역에서 수행되는 것을 특징으로 하는 음원 코딩 시스템의 향상 방법.
제 1 항에 있어서,

상기 스펙트럼 화이트닝은 부대역 필터뱅크에서 수행되는 것을 특징으로 하는 음원 코딩 시스템의 향상 방법.
제 1 항에 있어서,

원하는 정도의 스펙트럼 화이트닝의 상기 평가는 상기 원음 신호의 부대역 필터링으로부터 얻어진 다른 부대역 신호의 음조-잡음 신호 비(q)의 비교에 의해 수행되고, 상기 비는 상기 부대역 신호의 선형 예측을 사용하여 얻어지는 것을 특징으로 하는 음원 코딩 시스템의 향상 방법.
제 1 항에 있어서,

원하는 정도의 스펙트럼 화이트닝의 상기 평가는 상기 원음 신호와 HFR 신호의 부대역 필터링으로부터 얻어진 다른 부대역 신호의 음조-잡음 신호비(q)의 비교에 의해 수행되고, 상기 비는 상기 부대역 신호의 선형 예측을 이용하여 얻어지고, 상기 HFR 신호는 상기 디코더에서의 상기 HFR 과 동일하게 생성되는 것을 특징으로 하는 음원 코딩 시스템의 향상 방법.
제 1 항에 있어서,

상기 양의 스펙트럼 화이트닝은 LPC 예측자 차수에 의해 제어 되는 것을 특징으로 하는 음원 코딩 시스템의 향상 방법.
제 1 항에 있어서,

상기 양의 스펙트럼 화이트닝은 LPC 다항식의 대역폭 확장 인자에 의해 제어되는 것을 특징으로 하는 음원 코딩 시스템의 향상 방법.
제 1 항에 있어서,

상기 양의 스펙트럼 화이트닝은 블렌딩(blending) 팩터(b)에 의해 제어되는 것을 특징으로 하는 음원 코딩 시스템의 향상 방법.
제 5 항에 있어서,

필터뱅크 분석 필터의 특성을 보상하기 위하여 LPC 평가에 프리필터링이 포함되는 것을 특징으로 하는 음원 코딩 시스템의 향상 방법.
고주파 복원을 이용하여 음원 코딩 시스템을 향상시키는 장치로서, 상기 음원 코딩 시스템은 저장 또는 전송전에 수행되는 모든 동작을 나타내는 인코더와 저장 또는 전송후에 수행되는 모든 동작을 나타내는 디코더를 포함하는 음원 코딩 시스템 향상 장치에 있어서,

상기 인코더에서, 주어진 시간에 원음 신호의 음조 특성을 평가하는 수단, 및

상기 인코더에서, 상기 디코더에서 사용된 HFR 방법이 주어지면, 상기 디코더에서 HFR 후의 유사 음조 특성을 얻기 위하여, 주어진 시간에 원하는 양의 스펙트럼 화이트닝을 평가하는 수단을 구비하고,

상기 디코더에서, 상기 인코더로부터 얻어진 스펙트럼 화이트닝에 따라 고주파 복원(HFR)전에 또는 HFR 후에 신호를 적응식으로 스펙트럼 화이트닝하는 수단을 구비하는 것을 특징으로 하는 음원 코딩 시스템 향상 장치.