KR20210003514A

KR20210003514A - 오디오의 고대역 부호화 방법 및 고대역 복호화 방법, 그리고 상기 방법을 수하는 부호화기 및 복호화기

Info

Publication number: KR20210003514A
Application number: KR1020190079377A
Authority: KR
Inventors: 백승권; 성종모; 이미숙; 이태진; 박호종
Original assignee: 한국전자통신연구원; 광운대학교 산학협력단
Priority date: 2019-07-02
Filing date: 2019-07-02
Publication date: 2021-01-12
Anticipated expiration: 2039-07-02
Also published as: US11456001B2; US20210005209A1

Abstract

오디오의 고대역 부호화 방법 및 고대역 복호화 방법, 그리고 상기 방법을 수하는 부호화기 및 복호화기가 개시된다. 복호화기에서 수행되는 오디오의 고대역 복호화 방법은 제1 신경망을 통해 추출된 파라미터를 식별하는 단계; 제2 신경망을 통해 추출된 부가 정보를 식별하는 단계; 상기 파라미터와 부가 정보를 제3 신경망에 적용하여 오디오의 고대역을 복원하는 단계를 포함할 수 있다.

Description

오디오의 고대역 부호화 방법 및 고대역 복호화 방법, 그리고 상기 방법을 수하는 부호화기 및 복호화기 {ENCODING METHOD AND DECODING METHOD FOR HIGH BAND OF AUDIO, AND ENCODER AND DECODER FOR PERFORMING THE METHOD}

본 발명은 오디오의 고대역을 신경망을 통해 복원하는 방법에 관한 것이다.

종래에 오디오 정보를 파라미터 영역에서 표현하여 부호화하는 파라메트릭(parametric) 부호화가 개발되었다. 파라메트릭 부호화는 부호화기에서 복호화기로 전송할 오디오 정보를 소수의 파라미터로 표현하여 전송하므로 비트율을 낮출 수 있는 장전이 있다. 하지만, 파라메트릭 부호화는 오디오의 원래 정보의 손실이 크게 발생하여 고품질의 부호화를 처리하기 어려움이 있다.

따라서 오디오의 부호화는 음질에 큰 영향을 주는 오디오의 저대역은 변환 부호화로 전송하고, 청각적으로 중요도가 낮은 오디오의 고대역은 파라메트릭 부호화로 전송하는 방법이 널리 사용되었다. 대표적인 오디오의 고대역에 대한 파라메트릭 부호화를 위해 spectral band replication (SBR)이 사용되었다.

SBR을 사용하여 오디오를 부호화하는 경우, 변환 부호화가 적용되는 저대역의 동작 영역이 고대역의 QMF 영역과 다르므로 부호화 과정에서 두 종류의 변환을 수행하여 계산량이 증가하는 문제점이 있다. 기존의 파라메트릭 부호화에 있어서 계산량을 감소시키면서도 고품질의 고대역 정보를 복원할 수 있는 방안이 요구된다.

본 발명은 고대역의 복원을 위한 파라미터를 추출하고, 부가 정보를 추출하며, 파라미터와 부가 정보를 이용하여 고대역을 복원하는 과정 각각에 대한 신경망을 이용하여 오디오의 고대역을 최적으로 부호화할 수 있는 방법 및 장치를 제공한다.

본 발명은 고대역의 복원에 필요한 파라미터를 복호화기에서 직접 결정함으로써 파라미터를 전송하기에 필요한 비트를 이용하지 않아 코딩 효율성을 높일 수 있는 방법 및 장치를 제공한다.

본 발명의 일실시예에 따른 복호화기에서 수행되는 오디오의 고대역 복호화 방법은 제1 신경망을 통해 추출된 파라미터를 식별하는 단계; 제2 신경망을 통해 추출된 부가 정보를 식별하는 단계; 및 상기 파라미터와 부가 정보를 제3 신경망에 적용하여 오디오의 고대역을 복원하는 단계를 포함할 수 있다.

상기 제1 신경망은, 오디오의 프레임별 스펙트럼에 기초한 제1 입력으로부터 고대역의 파라미터를 추출할 수 있다.

상기 제1 입력은, 스펙트럼의 부분집합으로 결정되고, 상기 스펙트럼은, 이전 프레임의 고대역 계수 및 저대역 계수, 현재 프레임의 고대역 계수와 저대역 계수로 구성될 수 있다.

상기 제2 신경망은, 오디오의 프레임별 스펙트럼에 기초한 제2 입력으로부터 고대역을 복원하기 위한 부가 정보를 추출할 수 있다.

상기 제2 입력은, 스펙트럼의 부분집합으로 결정되고, 상기 스펙트럼은, 이전 프레임의 고대역 계수, 저대역 계수, 현재 프레임의 저대역 계수로 구성될 수 있다.

상기 오디오의 복호화 프레임이 현재 프레임인 경우, 상기 제1 신경망에 적용되는 제1 입력은, 현재 프레임의 고대역 계수이고, 상기 제2 신경망에 적용되는 제2 입력은 현재 프레임의 저대역 계수일 수 있다.

상기 오디오의 복호화 프레임이 현재 프레임이고, 현재 프레임에 대한 적어도 하나의 이전 프레임이 존재하는 경우, 상기 제1 신경망에 적용되는 제1 입력은 현재 프레임의 고대역 계수이고, 제2 신경망에 적용되는 제2 입력은 이전 프레임의 고대역 계수와 저대역 계수 및 현재 프레임의 저대역 계수일 수 있다.

상기 오디오의 복호화 프레임이 이전 프레임이고, 현재 프레임에 대한 적어도 하나의 이전 프레임이 존재하는 경우, 상기 제1 신경망에 적용되는 제1 입력은 현재 프레임의 고대역 계수와 이전 프레임의 고대역 계수이고, 제2 신경망에 적용되는 제2 입력은 이전 프레임의 저대역 계수일 수 있다.

상기 제1 신경망을 통해 추출된 파라미터를 식별하는 단계는, 부호화기로부터 전달된 양자화된 파라미터를 역양자화함으로써 파라미터를 식별할 수 있다.

상기 제1 신경망을 통해 추출된 파라미터를 식별하는 단계는, 상기 제1 신경망의 출력을 랜덤 샘플링함으로써 추출된 파라미터를 식별할 수 있다.

상기 오디오의 고대역을 복원하는 단계는, 상기 현재 프레임의 고대역과 상기 현재 프레임의 적어도 하나의 이전 프레임들 각각의 고대역을 이용할 수 있다.

본 발명의 다른 실시예에 따른 부호화기에서 수행되는 오디오의 고대역 부호화 방법은 제1 신경망을 통해 추출된 파라미터를 추출하는 단계; 상기 추출된 파라미터를 양자화하는 단계를 포함하고, 상기 파라미터는, 복호화기에 전달되어 제2 신경망을 통해 추출된 부가 정보와 함께 제3 신경망에 입력되어 오디오의 고대역을 복원하기 위해 사용될 수 있다.

본 발명의 실시예에 따른 복호화기는 프로세서를 포함하고, 상기 프로세서는, 제1 신경망을 통해 추출된 파라미터를 식별하고, 제2 신경망을 통해 추출된 부가 정보를 식별하며, 상기 파라미터와 부가 정보를 제3 신경망에 적용하여 오디오의 고대역을 복원할 수 있다.

본 발명의 다른 실시예에 따른 부호화기는 제1 신경망을 통해 추출된 파라미터를 추출하고, 상기 추출된 파라미터를 양자화하고, 상기 파라미터는, 복호화기에 전달되어 제2 신경망을 통해 추출된 부가 정보와 함께 제3 신경망에 입력되어 오디오의 고대역을 복원하기 위해 사용될 수 있다.

본 발명의 일 실시예에 따르면, 고대역의 복원을 위한 파라미터를 추출하고, 부가 정보를 추출하며, 파라미터와 부가 정보를 이용하여 고대역을 복원하는 과정 각각에 대한 신경망을 이용하여 오디오의 고대역을 최적으로 부호화할 수 있다.

본 발명의 일실시예에 따르면, 고대역의 복원에 필요한 파라미터를 복호화기에서 직접 결정함으로써 파라미터를 전송하기에 필요한 비트를 이용하지 않아 코딩 효율성을 높일 수 있다.

도 1은 본 발명의 일실시예에 따른 부호화기와 복호화기를 도시한 도면이다.
도 2는 본 발명의 일실시예에 따른 부호화기와 복호화기의 세부 동작을 도시한 도면이다.
도 3은 본 발명의 일실시예에 따른 제1 입력의 예시를 도시한 도면이다.
도 4는 본 발명의 일실시예에 따른 제2 입력의 예시를 도시한 도면이다.
도 5는 본 발명의 일실시예에 따른 제1 입력과 제2 입력을 비교한 결과를 나타낸 도면이다.
도 6은 본 발명의 일실시예에 따른 오디오의 고대역을 출력하는 과정을 나타내는 도면이다.
도 7은 본 발명의 일실시예에 따른 오토 인코더의 구조를 도시한 도면이다.
도 8은 본 발명의 일실시예에 따른 오토 인코더에서 인코딩 네트워크의 구조 예시를 도시한 도면이다.
도 9는 본 발명의 일실시예에 따른 오토 인코더에서 디코딩 네트워크의 구조 예시를 도시한 도면이다.
도 10은 본 발명의 일실시예에 따른 오토 인코더에서 인코딩 네트워크와 디코딩 네트워크의 출력 레이어에서의 출력 레이어와 은닉 레이어의 예시를 도시한 도면이다.

이하, 본 발명의 실시예를 첨부된 도면을 참조하여 상세하게 설명한다.

도 1은 본 발명의 일실시예에 따른 부호화기와 복호화기를 도시한 도면이다.

본 발명은 오디오의 고대역(high band)을 부호화하고 복호화하는 방법에 관한 것을 제안한다. 구체적으로, 부호화기(101)는 오디오의 고대역을 복원하기 위한 파라미터(parameter)를 추출하여 양자화한 후 디지털 비트 형태로 복호화기(102)에 전송한다. 그리고, 복호화기(102)는 부호화기(101)에서 전달된 파라미터 및 별도로 추출한 부가정보를 이용하여 오디오의 고대역을 복원할 수 있다.

다른 일례로, 오디오의 고대역을 복원하기 위한 파라미터(parameter)를 부호화기(101)에서 결정하지 않고, 복호화기(102)에서 직접 추출할 수도 있다.

이 때, 부가정보는 이전 프레임의 저대역, 이전 프레임의 고대역, 현재 프레임의 저대역으로부터 추출할 수 있다. 본 발명에 의하면, 신경망(neural network, NN)을 이용하여 고대역에 대한 파라미터를 추출하고, 신경망을 이용하여 부가정보를 추출하고, 신경망을 이용하여 파라미터와 부가정보로부터 오디오의 고대역을 복원할 수 있다. 파라미터를 추출하기 위한 신경망, 부가 정보를 추출하기 위한 신경망 및 고대역을 복원하기 위한 신경망은 독립적인 신경망일 수 있다.

오디오의 부호화 과정은 미리 정해진 시간 구간으로 정의된 프레임(frame) 단위로 진행된다. 즉, 부호화기(101)는 현재 프레임의 오디오를 입력하고, 부호화의 대상이 되는 부호화 프레임의 파라미터를 추출하여 전송한다. 부호화 프레임은 현재 프레임일 수도 있고, 이전 프레임이 될 수도 있다.

고대역의 파라미터를 활용하는 고대역의 부호화 방법을 다른 관점으로 설명하면 다음과 같다.

복호화기(102)는 부가 정보로부터 고대역을 1차 복원하는 제 1 과정, 부호화기(101)에서 전송된 파라미터를 1차 복원된 고대역에 적용하여 최종적인 고대역을 복원하는 제 2 과정을 수행할 수 있다. 그리고, 부호화기(101)는 복호화기(102)에서 진행되는 제1과정과 제2과정을 미리 예상하여 고대역의 정보 손실을 최소화하기 위한 고대역의 파라미터를 계산하는 제3과정을 수행할 수 있다. 제1과정, 제2과정 및 제3과정이 통합적으로 최적화 되어야 고대역의 부호화 성능이 향상될 수 있다.

부호화를 위한 프레임의 시간 위치는 현재 프레임과 동일하거나 현재 프레임의 이전에 해당한다. 만일 부호화가 진행되는 프레임이 현재 프레임의 이전 프레임이면 부호화는 부호화가 진행되는 현재 프레임의 이후에 해당하는 이후 프레임을 참조하여 진행된다.

복호화기(102)는 한 프레임의 오디오를 출력하고, 부호화기(101)와 복호화기(102)의 동작에서 발생하는 시간 지연(time delay)으로 인하여 복호화기(102)의 출력 신호는 부호화가 진행되는 현재 프레임 이전에 해당하는 이전 프레임일 수 있다.

도 2는 본 발명의 일실시예에 따른 부호화기와 복호화기의 세부 동작을 도시한 도면이다.

도 2를 참고하면, 부호화기(101)는 입력 신호인 현재 프레임으로부터 파라미터를 출력하고, 파라미터를 양자화하여 부호화한 결과(비트스트림)를 복호화기(102)에 전달한다.

복호화기(102)는 현재 프레임에서 전송된 비트스트림으로부터 파라미터를 출력하고, 별도로 부가 정보를 추출한다. 그리고, 복호화기(102)는 파라미터와 부가 정보를 이용하여 고대역의 출력 신호를 결정할 수 있다.

부호화기(101)와 복호화기(102)의 각각의 동작으로 인한 시간 지연으로 인해서, 출력 신호에 대응하는 프레임은 현재 프레임이 아닐 수 있다. 그래서, 현재 프레임에 대한 부가 정보를 추출하는 과정은 복호화기(102)에서 이전 프레임으로부터 도출된 출력 신호와 저대역 정보를 이용한다.

파라미터를 추출하는 과정, 부가 정보를 추출하는 과정 및 고대역을 복원하는 과정은 모두 독립적인 신경망을 통해 구현될 수 있다. 일례로, 신경망은 convolutional 신경망의 구조를 가질 수 있다. 그리고, 신경망의 구조와 크기는 임의로 결정될 수 있다.

도 2를 참고하면, 단계(201)에서, 부호화기(101)는 부호화하고자 하는 오디오의 고대역 정보를 포함하는 제1 입력을 결정할 수 있다. 단계(202)에서, 부호화기(101)는 제1 입력을 제 1 신경망에 적용하여, 단계(203)에서, 고대역의 파라미터를 추출할 수 있다. 그리고, 단계(204)에서, 부호화기(101)는 추출한 파라미터를 양자화함으로써 압축할 수 있다.

단계(205)에서, 복호화기(102)는 양자화된 파라미터를 역양자화할 수 있다. 한편, 단계(206)에서, 복호화기(102)는 제 2 입력을 결정할 수 있다. 그리고, 복호화기(102)는 단계(207)에서 제2 입력을 제2 신경망에 적용함으로써 단계(208)에서 부가 정보를 추출할 수 있다.

그러면, 단계(209)에서, 복호화기(102)는 부가 정보 및 부호화기(101)에서 추출된 파라미터를 제 3 신경망에 적용할 수 있다. 그러면, 단계(210)에서 복호화기(102)는 오디오의 고대역을 복원할 수 있다.

본 발명의 일실시예에 따르면, 오디오를 신경망으로 모델링 하여 고대역 복원을 위한 최적의 부가정보를 추출하고, 별도 신경망을 이용하여 부가정보와 결합하여 최종 고대역 신호를 복원하기 위한 최적 파라미터를 추출할 수 있다. 그리고, 본 발명의 일실시예에 따르면 별도의 신경망을 이용하여 부가정보와 파라미터로부터 최종적인 오디오의 고대역 정보가 복원될 수 있다.

한편, 본 발명은 파라미터를 부호화기(101)에서 직접 양자화 하여 복호화기(102)로 전송하는 방법이 적용될 수 있다. 다른 일례로, 본 발명은 파라미터의 통계를 모델링하여 파라미터를 압축하여 전송하지 않고(즉, 부호화 비트를 사용하지 않고) 복호화기(102)에서 직접 고대역을 위한 파라미터를 결정하여 고대역을 복원할 수도 있다.

본 발명의 일실시예에 따르면, 제1 신경망, 제2 신경망 및 제3 신경망과 같이 3개의 신경망이 적용될 수 있다. 고대역의 복원을 위한 파라미터를 추출하는 과정에 적용되는 제1 신경망, 부가 정보를 추출하기 위한 과정에 적용되는 제2 신경망 및 파라미터와 부가 정보를 이용하여 고대역을 복원하는 과정에 적용되는 제3 신경망이 활용될 수 있다. 제1 신경망, 제2 신경망 및 제3 신경망은 통합적으로 훈련될 수 있으며, 동시에 훈련됨으로써 부호화 성능이 향상될 수 있다.

도 4를 참조하면, 제1 신경망은 제1 입력을 이용하여 파라미터를 출력한다. 제2 신경망은 제2 입력을 이용하여 부가 정보를 출력한다. 제3 신경망은 파라미터와 부가 정보를 이용하여 고대역의 오디오를 복원할 수 있다.

오디오의 고대역에 대응하는 프레임은 부호화 프레임을 포함한다. 그리고, 고대역에 대응하는 프레임은 제1 입력의 프레임에 포함되어야 한다. 만약, 복원된 오디오의 고대역이 부호화 프레임만 포함하는 경우, 신경망에 적용되는 행렬의 크기가 Hx1 이 된다. 만일, 오디오의 고대역이 복수의 프레임마다 결정되는 경우, 복호화기(102)는 각 프레임마다 고대역을 복원할 수 있다. 특정 프레임에 대한 복호화기(102)의 출력 결과는 이후 프레임의 처리 과정에서 활용될 수 있다.

도 2에서 설명되는 제1 신경망, 제2 신경망 및 제3 신경망의 훈련 목표는 복호화기(102)를 통해 도출되는 오디오의 고대역이 제1 입력과 일치하는 것이다. 그래서, 복호화기(102)를 통해 복원되는 오디오의 고대역과 제1 입력과의 차이가 최소화되는 것이 필요하다. 신경망의 훈련 과정에서 파라미터의 양자화 성능을 최적화가기 위해, 파라미터의 엔트로피를 훈련에 필요한 오차로 설정될 수 있다. 도 2에서 설명되는 제1 신경망, 제2 신경망 및 제3 신경망은 CNN이 적용될 수 있다.

한편, 제1 신경망의 출력을 Gaussian random variable의 평균과 분산으로 설정하면, 제1 신경망은 설정된 평균과 분산과 같은 통계 특성을 가지는 random variable을 sampling하여 파라미터로 출력한다. 이와 같이 VAE 구조로 훈련시키면, 부호화기(100)에서 파라미터를 양자화 하여 복호화기(102)에 전송하는 것이 아니라, 복호화기(106)에서 임의로 Gaussian random variable을 sampling 하여 파라미터를 출력할 수도 있다. 그러면, 부호화기(101)에서 파라미터를 추출한 후 이를 양자화하여 비트로 복호화기(102)에 전송할 필요가 없으므로, zero bit를 사용하는 고대역의 부호화 과정이 구현될 수 있다. 그래서, 도 2의 부호화기(101)의 동작은 복호화기(102)에서 수행될 수 있으며, 이 경우 단계(204), 단계(205)와 같은 파라미터의 양자화 및 역양자화 과정은 생략될 수 있다.

즉, 도 2의 과정은 제1 실시예에 따라 고대역의 복원을 위한 파라미터가 부호화기(101)에서 추출되어 양자화되는 과정을 설명한다. 하지만, 제2 실시예에 따르면, 파라미터가 부호화기(101)에서 추출되어 비트를 통해 복호화기(102)에 전송되지 않고, 복호화기(102)에서 직접 파라미터를 출력할 수도 있다.

제1 실시예에 따르면, 현재 프레임 및 이전 프레임에서 복원된 오디오의 저대역과 현재 프레임에 대한 고대역을 복원하기 이전에 출력되었던 이전 프레임에 대응하는 오디오의 고대역이 제2 입력을 결정하기 위해 사용된다.

복호화기(102)는 파라미터와 부가 정보를 이용하여 현재 프레임에 대응하는 오디오의 고대역을 복원할 수 있다. 복호화기(102)는 하나의 프레임에 대응하는 고대역을 복원하거나, 또는 이전 프레임과 현재 프레임에 대응하는 고대역을 결합할 수도 있다.

도 3은 본 발명의 일실시예에 따른 제1 입력의 예시를 도시한 도면이다.

도 3은 시간과 주파수로 결정되는 2차원 스펙트럼을 도시한다. 본 발명의 일실시예에 따르면, 부호화기(101)는 프레임마다 오디오의 스펙트럼을 도출할 수 있다. 일례로, 스펙트럼은 Fourier 변환 계수, MDCT 계수, 기타 신호의 변환 계수, 또는 변환 계수의 크기 등으로 정의할 수 있다.

도 3을 참고하면, T-N부터 T까지의 각 프레임에 대응하는 스펙트럼들을 순차적으로 나열하여 2차원의 스펙트럼을 정의할 수 있다. 여기서, T에 대응하는 프레임이 현재 프레임이고, T-1에서 T-N에 대응하는 프레임이 이전 프레임일 수 있다.

또한, 미리 정해진 고대역의 부호화 규격에 따라 프레임들 각각의 스펙트럼은 X를 기준으로 저대역과 고대역에 대응하는 변환 코딩의 스펙트럼 계수들로 분리될 수 있다. 이 때, 저대역에 대응하는 스펙트럼 계수의 개수를 L로 정의하고, 고대역에 대응하는 스펙트럼 계수의 개수를 H로 정의하는 경우, 제1 입력은 현재 프레임과 이전 프레임을 포함하고, (L+H)*N 차원의 행렬로 표현될 수 있다.

현재 프레임의 부호화기(101)에 대해 실제 부호화가 적용되는 프레임을 부호화 프레임으로 정의할 수 있다. 부호화 프레임은 이미 부호화가 진행된 이전 프레임 또는 부호화가 진행되는 현재 프레임일 수 있다. 부호화 프레임의 고대역은 Hx1 차원의 행렬로 표현될 수 있다.

도 3에서 정의된 스펙트럼(301)에서 고대역의 복원을 위해 필요한 파라미터를 추출할 때 사용되는 제1 입력이 정의될 수 있다. 제1 입력은 스펙트럼(301)의 부분 집합에 해당한다. 추출에 사용할 제 1 입력(203)을 정의한다. 구체적으로, 제1 입력의 크기는 임의로 결정될 수 있으며, 부호화 프레임의 고대역을 포함할 수 있다.

도 4는 본 발명의 일실시예에 따른 제2 입력의 예시를 도시한 도면이다.

제2 입력은 복호화기(102)에서 부가 정보를 추출하기 위해 사용된다. 제2 입력은 스펙트럼(401)에서 결정된다. 스펙트럼(401)은 스펙트럼(301)과 동일할 수도 있다.

스펙트럼(401)은 이전 프레임에서 출력된 오디오의 고대역과 현재 프레임 및 이전 프레임의 저대역을 포함한다. 이 때, 스펙트럼(401)은 현재 프레임의 고대역은 제외될 수 있다. 제2 입력은 스펙트럼(401)의 부분집합일 수 있으며, 임의의 크기로 정의될 수 있다. 도 3 및 도 4에서 볼 수 있듯이, 제1 입력과 제2 입력이 결정되는 프레임 영역은 서로 겹치는 영역일 수 있다.

도 5는 본 발명의 일실시예에 따른 제1 입력과 제2 입력을 비교한 결과를 나타낸 도면이다.

CASE(501)은 현재 프레임과 부호화 프레임 A이 일치하는 경우를 나타낸다. 이 때, 제1 입력은 현재 프레임(T)의 고대역과 동일하며, 부호화기(101)는 현재 프레임만 이용할 수 있다. 그리고, 제2 입력은 현재 프레임의 복원된 저대역과 동일하다.

CASE(502)는 현재 프레임(T)와 부호화 프레임 A이 일치하는 경우를 나타낸다. 이 때, 제1 입력은 현재 프레임의 고대역과 동일하고, 제2 입력은 이전 프레임의 고대역, 저대역 및 현재 프레임의 저대역과 동일하다.

CASE(503)는 부호화 프레임 A가 이전 프레임 (T-1)인 경우를 나타낸다. 이 때, 제1 입력은 현재 프레임(T)과 이전 프레임(T-1~T-3)의 고대역이고, 제2 입력은 이전 프레임(T-1~T-3)의 저대역을 의미한다.

도 6은 본 발명의 일실시예에 따른 오디오의 고대역을 출력하는 과정을 나타내는 도면이다.

도 6을 참고하면, 복원된 오디오의 고대역이 현재 프레임(T) 및 2개의 이전 프레임(T-1, T-2)을 가중 평균하여 출력되는 경우와 현재 프레임(T) 및 이전 프레임(T-1)을 이용하여 출력되는 경우를 나타낸다.

도 7은 본 발명의 일실시예에 따른 오토 인코더의 구조를 도시한 도면이다.

본 발명의 일실시예에 따르면, 오토 인코더(autoencoder)(301)를 이용하는 새로운 고대역 파라메트릭 부호화 방법이 제안된다. 이 때, 오토 인코더(701)는 이전 프레임의 저대역과 현재 프레임의 저대역으로 구성된 부가 정보를 입력하여 고대역의 복원 성능을 향상시킬 수 있다. 그리고, 본 발명의 일실시예에 따르면, 시간-주파수로 구성된 2차원 스펙트럼에 기초한 부가 정보가 고대역을 복원할 때 사용됨으로써 시간 특성을 고대역의 복원에 활용할 수 있다.

일례로, 본 발명의 일실시예에 따르면, 고대역의 복원 과정은 MDCT (modified discrete cosine transform) 영역에서 진행되며, SBR에서 필요한 QMF 계산을 제거하여 계산량 감소를 얻고 저대역과 고대역을 모두 MDCT 영역에서 수행할 수 있다.

도 7의 오토 인코더(701)에서 은닉층 (hidden layer) 차원을 입력층(input layer) 차원보다 매우 작게 하고 입력층과 출력층을 동일하도록 훈련 하면, 오토 인코더(701)는 입력 정보를 해당 은닉층의 적은 데이터로 압축하여 표현할 수 있다.

오토인코더(701)에서, 입력 정보를 압축하여 표현한 은닉층의 값을 latent 벡터로 정의할 수 있다. 그리고, 오토인코더(701)는 디코딩 네트워크를 통해 latent vector로부터 다시 입력 신호로 복원할 수 있다. 즉, 본 발명의 일실시예에서, 부호화 동작은 오토 인코더의 인코딩 신경망 (encoding network)을 이용하여 입력 신호에 대한 latent 벡터를 구하는 과정에 대응하고, 복호화 동작은 디코딩 신경망 (decoding network)을 이용하여 latent 벡터로부터 원본 신호를 복원하는 과정에 대응할 수 있다.

본 발명의 일실시예에 따른 부호화기(101)는 1024 샘플 길이의 프레임 단위로 동작하고, 50% 중첩을 가지는 2048 샘플 길이의 윈도우를 적용하고 MDCT를 계산하여 각 프레임별로 1024개 MDCT 계수를 구할 수 있다. 일례로, 부호화가 적용되는 전체 대역폭은 14.25 kHz로 설정할 때, 9.75 ~ 14.25 kHz을 고대역이라 정의할 수 있다. 이 때, 샘플링 주파수는 48 kHz이고, 한 프레임은 총 608개 MDCT 계수를 가지고 고대역은 192개 MDCT 계수로 구성될 수 있다. 여기서, MDCT 계수는 고대역을 복원하기 위한 파라미터일 수 있다.

도 7을 참고하면, 오토 인코더의 전체 구조가 제시된다. 특히, 오토인코더는 부가 정보를 추가로 이용하기 때문에 인코딩 신경망(702, 703)이 병렬 구조로 존재한다. 부호화할 정보에 해당하는 192개 고대역 MDCT 계수는 첫번째 인코딩 신경망(702)에 입력되고, 총 3개 층의 FCN (fully-connected network)를 거쳐 4차원 latent 벡터 X 로 변환된다.

그리고, 부가 정보는 현재 프레임과 7개 이전 프레임의 저대역인 3.75 ~ 9.75 kHz 영역의 MDCT 계수로 구성된다. 즉, 부가정보는 8 Х 256 구조의 2차원 (2D) 데이터이다. 이 때, 3.75 kHz 이하 정보는 고대역과 상관관계가 낮으므로 부가 정보로 사용하지 않는다. 이전 프레임도 부가 정보로 활용함으로써 신호의 시간적 변화 정보를 고대역의 복원에 활용하여 오토 인코더의 복원 성능을 향상시킬 수 있다.

부가 정보는 두 번째 인코딩 신경망(703)에 입력되어 총 3개 층의 2D CNN과 1차원 평탄화 (flatten)와 FCN을 통과하여 10차 latent 벡터 Y 로 변환된다. 2D CNN을 사용함으로써 부가 정보의 주파수 특성뿐만 아니라 시간적 특성이 활용될 수 있다. 이와 같이 구해진 두 종류의 latent 벡터 X 와 Y 를 결합하여 14차 latent 벡터를 얻고, 이를 디코딩 신경망에 입력하여 최종적인 출력 데이터가 결정된다.

이 때, 부가 정보를 압축하지 않고 그대로 latent 벡터 Y를 사용하는 경우 부가 정보의 정보량이 매우 크게 된다. 이 경우, 디코딩 신경망이 고대역을 복원할 때 복원의 목표가 되는 입력 정보 보다 부가 정보에 더 의존하게 되어 고대역 복원 성능이 저하되는 문제를 가진다. 또한, 너무 적은 데이터로 압축하면 고대역 복원에 활용할 정보가 부족하여 성능 향상에 한계를 가진다. 본 발명은 부가 정보를 일정 개수의 데이터로 압축하는 것을 제안한다.

도 7의 오토 인코더 훈련은 다음과 같이 진행한다.

훈련 데이터로부터 추출된 고대역에 대응하는 192개 MDCT 계수가 인코딩 신경망(702)에 입력되고, 8 Х 256 크기의 부가 정보는 인코딩 신경망(703)에 생성하여 각각 인코딩 신경망에 입력된다. 그러면, 디코딩 신경망(704)의 최종 출력은 192개 데이터가 된다.

고대역에 대응하는 MDCT 계수와 디코딩 신경망(704)의 출력 간의 오차가 최소가 되도록 인코딩 신경망(702), 인코딩 신경망(703) 및 디코딩 신경망(704)이 동시에 훈련될 필요가 있다. 신경망을 훈련할 때, 양자화되지 않은 latent vector X와 부가 정보가 이용될 수 있다.

본 발명의 일실시예에 따르면, MDCT 계수 크기를 오토 인코더에 입력하여 MDCT 계수 크기를 복원하도록 하고, MDCT 계수 부호는 별도로 처리한다. 오디오 신호의 프레임별 MDCT 계수 크기에 많은 차이가 있으므로 MDCT 크기를 정규화 하여 신경망에 입력될 수 있다. 구체적으로, MDCT 계수 크기는 0 ~ 1 사이로 정규화된 후, 오토 인코더에 입력되어 훈련된다. 여기서, 정규화는 프레임들 각각에 대해 고대역 MDCT 계수 크기 합과 저대역 MDCT 계수 크기의 합이 각각 1이 되도록 하였다. 이와 같은 프레임별 정규화를 통하여 프레임 에너지 차이에 의한 오토 인코더 성능 변화를 줄일 수 있다.

정규화의 복원을 위해 정규화에 사용하였던 고대역의 MDCT 계수들의 크기 합을 이득 변수 G 로 정의하고, 이득 변수 G가 양자화되어 복호화기로 전송될 수 있다. 복호화기는 오토 인코더가 출력하는 MDCT 계수 크기에 전송된 G를 곱하여 최종적인 MDCT 계수 크기를 도출할 수 있다.

본 발명의 일실시예에 따르면, 정규화된 MDCT 계수 크기를 사용하여 도 7의 오토 인코더를 훈련하는 과정이 진행된다. 그리고, 훈련된 오토 인코더를 통해 오디오의 고대역 부호화가 수행된다.

먼저, 입력된 오디오에서 부호화할 고대역의 MDCT 계수 192개를 구하여 정규화 하고, 이득 변수 G 를 구하고 4 비트로 양자화 하여 전송한다. 다음, 192개의 정규화 된 MDCT 계수 크기를 인코딩 신경망에 입력하여 4차원 벡터 X를 구하고, 8 비트로 벡터 양자화 하여 전송한다. 즉, 부호화기에서 복호화기로 전송되는 총 데이터는 5개이고, 양자화 비트는 12개이다. 따라서 고대역의 부호화 비트율은 0.56 kbps이 될 수 있다.

고대역의 복호화 과정은 다음과 같다. 현재 프레임과 7개 이전 프레임에 대한 저대역의 MDCT 계수 크기를 구하고 정규화 한 후 인코딩 신경망에 입력함으로써 10차 벡터 Y 가 도출될 수 있다. 그리고, 벡터 Y와 부호화기로부터 전송된 4차 벡터 X 를 결합하여 14차 벡터를 구하고, 이를 디코딩 신경망에 입력함으로써 출력 신호를 도출할 수 있다. 그리고, 출력 신호에 부호화기로부터 전송된 이득 변수 G를 출력에 곱하여 고대역의 MDCT 계수 크기를 구한다. 마지막으로, intelligent gap filling (IGF)과 유사하게 저대역의 MDCT 계수 부호를 고대역의 MDCT 계수 크기에 적용하여 최종적인 고대역의 MDCT 계수가 도출될 수 있다. 이와 같은 MDCT 계수의 부호를 복사함으로써 이웃한 MDCT 계수의 부호 연결 패턴을 재활용 할 수 있다. 그리고, 위와 같은 방법에 의하면, 무작위로 MDCT 부호를 할당하는 것에 비하여 고대역에 대한 복원 성능이 향상될 수 있다.

본 발명은 부가 정보를 이용하는 오토 인코더를 사용하여 오디오의 고대역을 부호화하는 방법이 제안된다. 그리고, 부호화할 정보뿐만 아니라 현재 정보와 이전 정보로 구성된 부가 정보를 추가로 입력하여 이전 정보와 저대역 정보를 동시에 활용할 수 있게 하였다. 또한, 부가 정보를 인코딩 신경망을 통하여 압축 데이터로 변환한 후 디코딩 신경망에 입력함으로써 고대역의 복원 성능이 향상될 수 있다.

도 8은 본 발명의 일실시예에 따른 오토 인코더에서 인코딩 네트워크의 구조 예시를 도시한 도면이다.

도 9는 본 발명의 일실시예에 따른 오토 인코더에서 디코딩 네트워크의 구조 예시를 도시한 도면이다.

도 10은 본 발명의 일실시예에 따른 오토 인코더에서 인코딩 네트워크와 디코딩 네트워크의 출력 레이어에서의 출력 레이어와 은닉 레이어의 예시를 도시한 도면이다.

도 7에서 도시된 인코딩 신경망(702, 703)과 디코딩 신경망의 출력층에 대한 활성화 함수로 sigmoid를 사용하고, 은닉층에 대한 활성화 함수로 GLU (gated linear unit)을 사용한다. 도 7을 참고하면, 이전층의 출력 h_t-1에 가중치 W를 곱하고 바이어스 b 를 더한 결과인 z를 도출할 수 있다. 그리고, z 에 tanh와 sigmoid 함수를 각각 적용함으로써 현재층의 GLU 출력인 h_t 를 도출할 수 있다. GLU를 사용하면 다음층에 전달하는 tanh 출력의 비율을 sigmoid의 출력을 통해 조절할 수 있어, 보다 더 다양한 신경망의 동작이 수행될 수 있다.

한편, 본 발명에 따른 방법은 컴퓨터에서 실행될 수 있는 프로그램으로 작성되어 마그네틱 저장매체, 광학적 판독매체, 디지털 저장매체 등 다양한 기록 매체로도 구현될 수 있다.

본 명세서에 설명된 각종 기술들의 구현들은 디지털 전자 회로조직으로, 또는 컴퓨터 하드웨어, 펌웨어, 소프트웨어로, 또는 그들의 조합들로 구현될 수 있다. 구현들은 데이터 처리 장치, 예를 들어 프로그램가능 프로세서, 컴퓨터, 또는 다수의 컴퓨터들의 동작에 의한 처리를 위해, 또는 이 동작을 제어하기 위해, 컴퓨터 프로그램 제품, 즉 정보 캐리어, 예를 들어 기계 판독가능 저장 장치(컴퓨터 판독가능 매체) 또는 전파 신호에서 유형적으로 구체화된 컴퓨터 프로그램으로서 구현될 수 있다. 상술한 컴퓨터 프로그램(들)과 같은 컴퓨터 프로그램은 컴파일된 또는 인터프리트된 언어들을 포함하는 임의의 형태의 프로그래밍 언어로 기록될 수 있고, 독립형 프로그램으로서 또는 모듈, 구성요소, 서브루틴, 또는 컴퓨팅 환경에서의 사용에 적절한 다른 유닛으로서 포함하는 임의의 형태로 전개될 수 있다. 컴퓨터 프로그램은 하나의 사이트에서 하나의 컴퓨터 또는 다수의 컴퓨터들 상에서 처리되도록 또는 다수의 사이트들에 걸쳐 분배되고 통신 네트워크에 의해 상호 연결되도록 전개될 수 있다.

컴퓨터 프로그램의 처리에 적절한 프로세서들은 예로서, 범용 및 특수 목적 마이크로프로세서들 둘 다, 및 임의의 종류의 디지털 컴퓨터의 임의의 하나 이상의 프로세서들을 포함한다. 일반적으로, 프로세서는 판독 전용 메모리 또는 랜덤 액세스 메모리 또는 둘 다로부터 명령어들 및 데이터를 수신할 것이다. 컴퓨터의 요소들은 명령어들을 실행하는 적어도 하나의 프로세서 및 명령어들 및 데이터를 저장하는 하나 이상의 메모리 장치들을 포함할 수 있다. 일반적으로, 컴퓨터는 데이터를 저장하는 하나 이상의 대량 저장 장치들, 예를 들어 자기, 자기-광 디스크들, 또는 광 디스크들을 포함할 수 있거나, 이것들로부터 데이터를 수신하거나 이것들에 데이터를 송신하거나 또는 양쪽으로 되도록 결합될 수도 있다. 컴퓨터 프로그램 명령어들 및 데이터를 구체화하는데 적절한 정보 캐리어들은 예로서 반도체 메모리 장치들, 예를 들어, 하드 디스크, 플로피 디스크 및 자기 테이프와 같은 자기 매체(Magnetic Media), CD-ROM(Compact Disk Read Only Memory), DVD(Digital Video Disk)와 같은 광 기록 매체(Optical Media), 플롭티컬 디스크(Floptical Disk)와 같은 자기-광 매체(Magneto-Optical Media), 롬(ROM, Read Only Memory), 램(RAM, Random Access Memory), 플래시 메모리, EPROM(Erasable Programmable ROM), EEPROM(Electrically Erasable Programmable ROM) 등을 포함한다. 프로세서 및 메모리는 특수 목적 논리 회로조직에 의해 보충되거나, 이에 포함될 수 있다.

또한, 컴퓨터 판독가능 매체는 컴퓨터에 의해 액세스될 수 있는 임의의 가용매체일 수 있고, 컴퓨터 저장매체 및 전송매체를 모두 포함할 수 있다.

본 명세서는 다수의 특정한 구현물의 세부사항들을 포함하지만, 이들은 어떠한 발명이나 청구 가능한 것의 범위에 대해서도 제한적인 것으로서 이해되어서는 안되며, 오히려 특정한 발명의 특정한 실시형태에 특유할 수 있는 특징들에 대한 설명으로서 이해되어야 한다. 개별적인 실시형태의 문맥에서 본 명세서에 기술된 특정한 특징들은 단일 실시형태에서 조합하여 구현될 수도 있다. 반대로, 단일 실시형태의 문맥에서 기술한 다양한 특징들 역시 개별적으로 혹은 어떠한 적절한 하위 조합으로도 복수의 실시형태에서 구현 가능하다. 나아가, 특징들이 특정한 조합으로 동작하고 초기에 그와 같이 청구된 바와 같이 묘사될 수 있지만, 청구된 조합으로부터의 하나 이상의 특징들은 일부 경우에 그 조합으로부터 배제될 수 있으며, 그 청구된 조합은 하위 조합이나 하위 조합의 변형물로 변경될 수 있다.

마찬가지로, 특정한 순서로 도면에서 동작들을 묘사하고 있지만, 이는 바람직한 결과를 얻기 위하여 도시된 그 특정한 순서나 순차적인 순서대로 그러한 동작들을 수행하여야 한다거나 모든 도시된 동작들이 수행되어야 하는 것으로 이해되어서는 안 된다. 특정한 경우, 멀티태스킹과 병렬 프로세싱이 유리할 수 있다. 또한, 상술한 실시형태의 다양한 장치 컴포넌트의 분리는 그러한 분리를 모든 실시형태에서 요구하는 것으로 이해되어서는 안되며, 설명한 프로그램 컴포넌트와 장치들은 일반적으로 단일의 소프트웨어 제품으로 함께 통합되거나 다중 소프트웨어 제품에 패키징 될 수 있다는 점을 이해하여야 한다.

한편, 본 명세서와 도면에 개시된 본 발명의 실시 예들은 이해를 돕기 위해 특정 예를 제시한 것에 지나지 않으며, 본 발명의 범위를 한정하고자 하는 것은 아니다. 여기에 개시된 실시 예들 이외에도 본 발명의 기술적 사상에 바탕을 둔 다른 변형 예들이 실시 가능하다는 것은, 본 발명이 속하는 기술분야에서 통상의 지식을 가진 자에게 자명한 것이다.

Claims

복호화기에서 수행되는 오디오의 고대역 복호화 방법에 있어서,
제1 신경망을 통해 추출된 파라미터를 식별하는 단계;
제2 신경망을 통해 추출된 부가 정보를 식별하는 단계;
상기 파라미터와 부가 정보를 제3 신경망에 적용하여 오디오의 고대역을 복원하는 단계
를 포함하는 오디오의 고대역 복호화 방법.
제1항에 있어서,
상기 제1 신경망은,
오디오의 프레임별 스펙트럼에 기초한 제1 입력으로부터 고대역의 파라미터를 추출하는 오디오의 고대역 복호화 방법.
제2항에 있어서,
상기 제1 입력은, 스펙트럼의 부분집합으로 결정되고,
상기 스펙트럼은, 이전 프레임의 고대역 계수 및 저대역 계수, 현재 프레임의 고대역 계수와 저대역 계수로 구성되는 오디오의 고대역 복호화 방법.
제1항에 있어서,
상기 제2 신경망은,
오디오의 프레임별 스펙트럼에 기초한 제2 입력으로부터 고대역을 복원하기 위한 부가 정보를 추출하는 오디오의 고대역 복호화 방법.
제4항에 있어서,
상기 제2 입력은, 스펙트럼의 부분집합으로 결정되고,
상기 스펙트럼은, 이전 프레임의 고대역 계수, 저대역 계수, 현재 프레임의 저대역 계수로 구성되는 오디오의 고대역 복호화 방법.
제1항에 있어서,
상기 오디오의 복호화 프레임이 현재 프레임인 경우, 상기 제1 신경망에 적용되는 제1 입력은, 현재 프레임의 고대역 계수이고, 상기 제2 신경망에 적용되는 제2 입력은 현재 프레임의 저대역 계수인 오디오의 고대역 복호화 방법.
제1항에 있어서,
상기 오디오의 복호화 프레임이 현재 프레임이고, 현재 프레임에 대한 적어도 하나의 이전 프레임이 존재하는 경우, 상기 제1 신경망에 적용되는 제1 입력은 현재 프레임의 고대역 계수이고, 제2 신경망에 적용되는 제2 입력은 이전 프레임의 고대역 계수와 저대역 계수 및 현재 프레임의 저대역 계수인 오디오의 고대역 복호화 방법.
제1항에 있어서,
상기 오디오의 복호화 프레임이 이전 프레임이고, 현재 프레임에 대한 적어도 하나의 이전 프레임이 존재하는 경우, 상기 제1 신경망에 적용되는 제1 입력은 현재 프레임의 고대역 계수와 이전 프레임의 고대역 계수이고, 제2 신경망에 적용되는 제2 입력은 이전 프레임의 저대역 계수인 오디오의 고대역 복호화 방법.
제1항에 있어서,
상기 제1 신경망을 통해 추출된 파라미터를 식별하는 단계는,
부호화기로부터 전달된 양자화된 파라미터를 역양자화함으로써 파라미터를 식별하는 오디오의 고대역 복호화 방법.
제1항에 있어서,
상기 제1 신경망을 통해 추출된 파라미터를 식별하는 단계는,
상기 제1 신경망의 출력을 랜덤 샘플링함으로써 추출된 파라미터를 식별하는 오디오의 고대역 복호화 방법.
제1항에 있어서,
상기 오디오의 고대역을 복원하는 단계는,
상기 현재 프레임의 고대역과 상기 현재 프레임의 적어도 하나의 이전 프레임들 각각의 고대역을 이용하는 오디오의 고대역 복호화 방법.
부호화기에서 수행되는 오디오의 고대역 부호화 방법에 있어서,
제1 신경망을 통해 추출된 파라미터를 추출하는 단계;
상기 추출된 파라미터를 양자화하는 단계
를 포함하고,
상기 파라미터는,
복호화기에 전달되어 제2 신경망을 통해 추출된 부가 정보와 함께 제3 신경망에 입력되어 오디오의 고대역을 복원하기 위해 사용되는 오디오의 고대역 부호화 방법.
복호화기에 있어서,
상기 복호화기는 프로세서를 포함하고,
상기 프로세서는,
제1 신경망을 통해 추출된 파라미터를 식별하고, 제2 신경망을 통해 추출된 부가 정보를 식별하며, 상기 파라미터와 부가 정보를 제3 신경망에 적용하여 오디오의 고대역을 복원하는 복호화기.
제13항에 있어서,
상기 제1 신경망은,
오디오의 프레임별 스펙트럼에 기초한 제1 입력으로부터 고대역의 파라미터를 추출하는 복호화기.
제14항에 있어서,
상기 제1 입력은, 스펙트럼의 부분집합으로 결정되고,
상기 스펙트럼은, 이전 프레임의 고대역 계수 및 저대역 계수, 현재 프레임의 고대역 계수와 저대역 계수로 구성되는 복호화기.
제13항에 있어서,
상기 제2 신경망은,
오디오의 프레임별 스펙트럼에 기초한 제2 입력으로부터 고대역을 복원하기 위한 부가 정보를 추출하는 복호화기.
제16항에 있어서,
상기 제2 입력은, 스펙트럼의 부분집합으로 결정되고,
상기 스펙트럼은, 이전 프레임의 고대역 계수, 저대역 계수, 현재 프레임의 저대역 계수로 구성되는 복호화기.
부호화기에 있어서,
상기 부호화기는, 제1 신경망을 통해 추출된 파라미터를 추출하고, 상기 추출된 파라미터를 양자화하고,
상기 파라미터는,
복호화기에 전달되어 제2 신경망을 통해 추출된 부가 정보와 함께 제3 신경망에 입력되어 오디오의 고대역을 복원하기 위해 사용되는 부호화기.