KR102637876B1

KR102637876B1 - 메타데이터를 이용하는 오디오 신호 처리 방법 및 장치

Info

Publication number: KR102637876B1
Application number: KR1020197033407A
Authority: KR
Inventors: 정현주; 전상배
Original assignee: 가우디오랩 주식회사
Priority date: 2018-04-10
Filing date: 2019-04-10
Publication date: 2024-02-20
Anticipated expiration: 2039-04-10
Also published as: CN112005560A; WO2019199040A1; JP7371968B2; US11540075B2; CN112005560B; KR20200130644A; JP7102024B2; US20230091281A1; JP2021517668A; US20210084426A1; US11950080B2; JP2022126849A

Abstract

오디오 신호를 렌더링하는 오디오 신호 처리 장치가 개시된다. 상기 오디오 신호 처리 장치는 프로세서를 포함한다. 상기 프로세서는 상기 오디오 신호와 제1 엘리멘트 기준 거리 정보를 포함하는 메타데이터를 수신하고, 상기 제1 엘리멘트 기준 거리 정보는 상기 엘리멘트 신호의 기준 거리를 지시하고, 상기 제1 엘리멘트 기준 거리 정보를 기초로 상기 제1 엘리멘트 신호를 렌더링한다. 상기 오디오 신호는 상기 제1 엘리멘트 신호와 동시에 렌더링될 수 있는 제2 엘리멘트 신호를 포함할 수 있고, 상기 메타데이터는 상기 제2 엘리멘트 신호의 거리를 지시하는 제2 엘리멘트 거리 정보를 포함할 수 있다. 상기 제1 엘리멘트 기준 거리 정보를 나타내기 위해 필요한 비트 수는 상기 제2 엘리멘트 거리 정보를 나타내기 위해 필요한 비트 수보다 적다.

Description

메타데이터를 이용하는 오디오 신호 처리 방법 및 장치

본 발명은 오디오 신호 처리 방법 및 장치에 관한 것이다. 구체적으로 본 발명은 메타데이터를 이용하는 오디오 신호 처리 방법 및 장치에 관한 것이다.

3D 오디오란 기존의 서라운드 오디오에서 제공하는 수평면(2D) 상의 사운드 장면에 높이 방향에 해당하는 또 다른 축을 제공함으로써, 3차원 공간상에서 임장감 있는 사운드를 제공하기 위한 일련의 신호 처리, 전송, 부호화 및 재생기술 등을 통칭한다. 특히, 3D 오디오를 제공하기 위해서는 종래보다 많은 수의 스피커를 사용하거나 혹은 적은 수의 스피커를 사용하더라도 스피커가 존재하지 않는 가상의 위치에서 음상이 맺히도록 하는 렌더링 기술이 요구된다.

3D 오디오는 초고해상도 TV(UHDTV)에 대응되는 오디오 솔루션이 될 것으로 예상되며, 고품질 인포테인먼트 공간으로 진화하고 있는 차량에서의 사운드를 비롯하여 그밖에 극장 사운드, 개인용 3DTV, 태블릿, 무선 통신 단말 및 클라우드 게임 등 다양한 분야에서 응용될 것으로 예상된다.

한편, 3D 오디오에 제공되는 음원의 형태로는 채널 기반의 신호와 오브젝트 기반의 신호가 존재할 수 있다. 이 뿐만 아니라, 채널 기반의 신호와 오브젝트 기반의 신호가 혼합된 형태의 음원이 존재할 수 있으며, 이를 통해 유저로 하여금 새로운 형태의 컨텐츠 경험을 제공할 수 있다.

바이노럴 렌더링은 이러한 3D 오디오를 사람의 양귀에 전달되는 신호로 모델링하는 것이다. 사용자는 헤드폰이나 이어폰 등을 통한 바이노럴 렌더링된 2 채널 오디오 출력 신호를 통해서도 입체감을 느낄 수 있다. 바이노럴 렌더링의 구체적인 원리는 다음과 같다. 사람은 언제나 두 귀를 통해 소리를 듣고, 소리를 통해서 음원 위치와 방향을 인식한다. 따라서 3D 오디오를 사람의 두 귀에 전달되는 오디오 신호 형태로 모델링할 수 있다면, 많은 수의 스피커 없이 2 채널 오디오 출력을 통해서도 3D 오디오의 입체감을 재현할 수 있다.

본 발명의 일 실시 예는 메타데이터를 이용하는 오디오 신호 처리 방법 및 장치를 제공하는 것을 목적으로 한다.

구체적으로 본 발명의 일 실시 예는 메타데이터를 이용하여 오브젝트 신호, 채널 신호, 또는 앰비소닉 신호를 렌더링하는 오디오 신호 처리 방법 및 장치를 제공하는 것을 목적으로 한다.

본 발명의 실시 예에 따라 제1 엘리멘트 신호를 포함하는 오디오 신호를 렌더링하는 오디오 신호 처리 장치는 상기 오디오 신호와 제1 엘리멘트 기준 거리 정보를 포함하는 메타데이터를 획득하고, 상기 제1 엘리멘트 기준 거리 정보는 상기 제1 엘리멘트 신호의 기준 거리를 지시하고, 상기 제1 엘리멘트 기준 거리 정보를 기초로 상기 제1 엘리멘트 신호를 렌더링하는 프로세서를 포함한다. 상기 오디오 신호는 상기 제1 엘리멘트 신호와 동시에 렌더링될 수 있는 제2 엘리멘트 신호를 포함할 수 있다. 상기 메타데이터는 상기 제2 엘리멘트 신호의 거리를 지시하는 제2 엘리멘트 거리 정보를 포함할 수 있다. 상기 제1 엘리멘트 기준 거리 정보를 나타내기 위해 필요한 비트 수는 상기 제2 엘리멘트 거리 정보를 나타내기 위해 필요한 비트 수보다 적을 수 있다. 상기 제1 엘리멘트 기준 거리 정보가 나타낼 수 있는 기준 거리의 셋(set)은 상기 제2 엘리멘트 거리 정보가 나타낼 수 있는 거리의 셋(set)의 서브셋(subset)일 수 있다.

상기 제1 엘리멘트 기준 거리 정보는 지수 함수를 사용하여 상기 제1 엘리멘트 신호의 기준 거리를 지시할 수 있다.

상기 제1 엘리멘트 기준 거리 정보는 상기 지수 함수의 지수의 값을 결정할 수 있다.

상기 제1 엘리멘트 기준 거리 정보를 나타내기 위해 사용되는 비트 수는 7비트이고, 제2 엘리멘트 거리 정보를 나타내기 위해 사용되는 비트 수는 9비트일 수 있다.

상기 프로세서는 다음 수식을 사용하여 상기 제1 엘리멘트 기준 거리 정보로부터 상기 제1 엘리멘트 신호의 기준 거리를 획득할 수 있다.

Reference distance = 0.01 * 2^(0.0472188798661443 *(bs_Reference_Distance + 119))

상기 Refererence distance는 상기 제1 엘리멘트 신호의 기준 거리이고, 상기 제1 엘리멘트 신호의 기준 거리의 단위는 미터(m)이고,

상기 bs_Reference_Distance는 상기 제1 엘리멘트 기준 거리 정보이고,

상기 제1 엘리멘트 기준 거리 정보의 값은 0부터 127까지의 정수일 수 있다.

상기 제2 엘리멘트 기준 거리 정보가 나타낼 수 있는 값은 0부터 511까지의 정수일 수 있다. 상기 프로세서는 상기 제2 엘리멘트 거리 정보의 값이 0인 경우, 상기 제2 엘리멘트 신호의 거리가 0인 것으로 판단하고, 상기 제2 엘리멘트 거리 정보의 값이 1부터 511인 경우, 다음 수식을 사용하여 상기 제2 엘리멘트 거리 정보로부터 상기 제2 엘리멘트 신호의 거리를 획득할 수 있다.

Distance = 0.01 * 2^(0.0472188798661443 *(Position_Distance - 1))

상기 Distance는 상기 제2 엘리멘트 신호의 거리이고, 상기 제2 엘리멘트 신호의 거리의 단위는 미터(m)이고, 상기 Position_Distance는 제2 엘리멘트 거리 정보일 수 있다.

상기 프로세서는 상기 제1 엘리멘트 기준 거리 정보가 정의되지 않은 경우, 상기 제1 엘리멘트 기준 거리 정보가 제1 엘리멘트 디폴트 기준 거리를 지시하는 것으로 간주하고, 상기 제2 엘리멘트 거리 정보가 정의되지 않은 경우, 상기 제2 엘리멘트 거리 정보가 제2 엘리멘트 디폴트 거리를 지시하는 것으로 간주할 수 있다. 상기 제1 엘리멘트 디폴트 기준 거리와 상기 제2 엘리멘트 디폴트 거리는 같은 값일 수 있다.

상기 제1 엘리멘트 기준 거리 정보가 지시할 수 있는 최소 기준 거리는 0보다 큰 미리 지정된 양수일 수 있다.

상기 제1 엘리멘트 신호를 포함하는 오디오 신호는 상기 제2 엘리멘트 신호를 포함하고, 상기 프로세서는 상기 제1 엘리멘트 신호와 상기 제2 엘리멘트 신호를 동시에 렌더링할 수 있다. 이때, 상기 프로세서는 상기 제1 엘리멘트 기준 거리 정보를 기초로 상기 제1 엘리멘트 신호가 렌더링된 음향 출력의 라우드니스를 조정하고, 상기 제2 엘리멘트 거리 정보를 기초로 상기 제2 엘리멘트 신호가 렌더링된 음향 출력의 라우드니스를 조정할 수 있다. 또한, 상기 프로세서는 상기 제1 엘리멘트 기준 거리 정보를 기초로 상기 제1 엘리멘트 신호에 딜레이를 적용하고, 상기 제2 엘리멘트 거리 정보를 기초로 상기 제2 엘리멘트 신호에 딜레이를 적용할 수 있다.

상기 제1 엘리멘트 신호는 채널 신호이고, 상기 제2 엘리멘트 신호는 오브젝트 신호일 수 있다.

상기 제1 엘리멘트 신호는 앰비소닉 신호이고, 상기 제2 엘리멘트 신호는 오브젝트 신호일 수 있다.

상기 제1 엘리멘트 신호는 채널 신호이고, 상기 오디오 신호는 앰비소닉 신호를 더 포함할 수 있다. 상기 프로세서는 상기 제1 엘리멘트 신호의 기준 거리를 기초로 상기 상기 앰비소닉 신호를 렌더링할 수 있다.

상기 제1 엘리멘트 신호는 채널 신호이고, 상기 오디오 신호는 앰비소닉 신호를 더 포함할 수 있다. 상기 제1 엘리멘트 기준 거리 정보는 채널 기준 거리 정보이고, 상기 메타데이터는 앰비소닉 신호의 기준 거리를 지시하는 앰비소닉 기준 거리 정보를 포함할 수 있다. 상기 프로세서는 채널 기준 거리 정보를 기초로 상기 채널 신호를 렌더링하고, 앰비소닉 기준 거리 정보를 기초로 상기 앰비소닉 신호를 렌더링할 수 있다.

상기 프로세서는 상기 제1 엘리멘트 기준 거리 정보를 기초로 상기 제2 엘리멘트 신호를 렌더링할 수 있다.

본 발명의 일 실시 예에 따른 제1 엘리멘트 신호를 포함하는 오디오 신호를 인코딩하는 오디오 신호 처리 장치는 상기 제1 엘리멘트 신호의 기준 거리를 지시하는 제1 엘리멘트 기준 거리 정보를 설정하고, 상기 제1 엘리멘트 기준 거리 정보를 포함하는 메타데이터를 생성하는 프로세서를 포함한다.,

상기 오디오 신호는 제2 엘리멘트 신호를 포함할 수 있고, 상기 메타데이터는 상기 제2 엘리멘트 신호의 거리를 지시하는 제2 엘리멘트 거리 정보를 포함할 수 있다.

상기 제1 엘리멘트 기준 거리 정보의 지시에 사용되는 비트 수는 제2 엘리멘트의 거리 정보의 지시에 사용되는 비트 수보다 적을 수 있다. 상기 제1 엘리멘트 기준 거리 정보가 나타낼 수 있는 기준 거리의 셋(set)은 상기 제2 엘리멘트 거리 정보가 나타낼 수 있는 거리의 셋(set)의 서브셋(subset)일 수 있다.

상기 제1 엘리멘트 기준 거리 정보를 나타내기 위해 필요한 비트 수는 7비트이고, 제2 엘리멘트 거리 정보를 나타내기 위해 필요한 비트 수는 9비트일 수 있다.

상기 프로세서는 상기 제1 엘리멘트 기준 거리 정보가 다음 수식에 따라 상기 제1 엘리멘트 신호의 기준 거리를 지시하도록 상기 제1 엘리멘트 기준 거리 정보의 값을 설정할 수 있다.

상기 Refererence distance는 상기 제1 엘리멘트 신호의 기준 거리이고, 상기 제1 엘리멘트 신호의 기준 거리의 단위는 미터(m)이고, 상기 bs_Reference_Distance는 상기 제1 엘리멘트 기준 거리 정보이고, 상기 제1 엘리멘트 기준 거리 정보의 값은 0부터 127까지의 정수일 수 있다.

상기 제2 엘리멘트 기준 거리 정보가 나타낼 수 있는 값은 0부터 511까지의 정수일 수 있다. 상기 프로세서는 상기 제2 엘리멘트 신호의 거리가 0인 경우, 상기 제2 엘리멘트 거리 정보의 값을 0으로 설정하고, 상기 제2 엘리멘트 신호의 거리가 0이 아닌 경우, 상기 제2 엘리멘트 거리 정보가 다음 수식에 따라 상기 제2 엘리멘트 신호의 거리를 지시하도록 상기 제2 엘리멘트 거리 정보의 값을 설정할 수 있다.

Distance = 0.01 * 2^(0.0472188798661443 *(Position_Distance - 1))

상기 Distance는 상기 제2 엘리멘트 신호의 기준 거리이고, 상기 제2 엘리멘트 신호의 거리의 단위는 미터(m)이고, 상기 Position_Distance는 제2 엘리멘트 거리 정보이고, 상기 제2 엘리멘트 거리 정보의 값은 1부터 511까지의 정수일 수 있다.

상기 제1 엘리멘트 기준 거리 정보가 정의되지 않은 경우, 상기 제1 엘리멘트 기준 거리 정보는 제1 엘리멘트 디폴트 기준 거리를 지시하는 것으로 간주되고, 상기 제2 엘리멘트 거리 정보가 정의되지 않은 경우, 상기 제2 엘리멘트 거리 정보는 제2 엘리멘트 디폴트 거리를 지시하는 것으로 간주될 수 있다. 상기 제1 엘리멘트 디폴트 기준 거리와 상기 제2 엘리멘트 디폴트 거리는 같은 값일 수 있다.

본 발명의 일 실시 예는 메타데이터를 이용하는 오디오 신호 처리 방법 및 장치를 제공한다.

구체적으로 본 발명의 일 실시 예는 메타데이터를 이용하여 오브젝트 신호, 채널신호, 또는 앰비소닉 신호를 렌더링하는 오디오 신호 처리 방법 및 장치를 제공한다.

도 1은 본 발명의 일 실시 예에 따라 오디오 신호를 인코딩하는 오디오 신호 처리 장치를 보여주는 블록도이다.
도 2는 본 발명의 일 실시 예에 따른 오디오 신호를 디코딩하는 오디오 신호 처리 장치를 보여주는 블록도이다.
도 3은 본 발명의 일 실시 예에 따른 렌더러가 사용하는 메타데이터를 보여준다.
도 4는 본 발명의 또 다른 실시 예에 따른 렌더러가 사용하는 메타데이터 컨피겨레이션의 신택스를 보여준다.
도 5는 본 발명의 실시 예에 따른 인트라 코딩 메타데이터 프레임(intracodedProdMetadataFrame)의 신택스를 보여준다.
도 6은 본 발명의 실시 예에 따른 다이나믹 메타데이터 프레임(dynamicProdMetadataFrame)과 싱글 다이나믹 메타데이터 프레임(singleDynamicProdMetadataFrame)의 신택스를 보여준다.
도 7은 본 발명의 일 실시 예에 따라 MPEG-H 3D Audio 표준에 따라 정의되지 않은 외부 렌더러가 사용하는 오브젝트 신호의 메타데이터인 GOA 메타데이터, 채널 신호의 메타데이터인 GCA 메타데이터, 및 앰비소닉 신호의 메타데이터인 GHA 메타데이터를 보여준다.
도 8은 본 발명의 일 실시 예에 따른 메타데이터의 채널 기준 거리 정보의 값, 오브젝트 거리 정보의 값, 및 채널 신호의 기준 거리 사이의 관계를 보여준다.
도 9는 본 발명의 또 다른 실시 예에 따라 메타데이터 관련 설정을 지시하는 메타데이터 컨피겨레이션(configuration)의 신택스를 보여준다.
도 10은 본 발명의 또 다른 실시 예에 따른 인트라 코딩 메타데이터 프레임(intracodedProdMetadataFrame)의 신택스를 보여준다.
도 11은 본 발명의 실시 예에 따른 싱글 다이나믹 메타데이터 프레임(singleDynamicProdMetadataFrame)의 신택스를 보여준다.
도 12는 본 발명의 또 다른 실시 예에 따라 MPEG-H 3D Audio 표준에 따라 정의되지 않은 외부 렌더러가 사용하는 오브젝트 신호의 메타데이터인 GOA 메타데이터, 채널 신호의 메타데이터인 GCA 메타데이터, 및 앰비소닉 신호의 메타데이터인 GHA 메타데이터를 보여준다.
도 13은 본 발명의 실시 예에 따라 제1 엘리멘트 신호를 포함하는 오디오 신호를 인코딩하는 오디오 신호 처리 장치가 메타데이터를 생성하는 동작을 보여준다.
도 14은 본 발명의 실시 예에 따라 제1 엘리멘트 신호를 포함하는 오디오 신호를 렌더링하는 오디오 신호 처리 장치가 제1 엘리멘트 신호를 렌더링하는 동작을 보여준다.

아래에서는 첨부한 도면을 참고로 하여 본 발명의 실시 예에 대하여 본 발명이 속하는 기술 분야에서 통상의 지식을 가진 자가 용이하게 실시할 수 있도록 상세히 설명한다. 그러나 본 발명은 여러 가지 상이한 형태로 구현될 수 있으며 여기에서 설명하는 실시 예에 한정되지 않는다. 그리고 도면에서 본 발명을 명확하게 설명하기 위해서 설명과 관계없는 부분은 생략하였으며, 명세서 전체를 통하여 유사한 부분에 대해서는 유사한 도면 부호를 붙였다.

또한 어떤 부분이 어떤 구성요소를 "포함"한다고 할 때, 이는 특별히 반대되는 기재가 없는 한 다른 구성요소를 제외하는 것이 아니라 다른 구성요소를 더 포함할 수 있는 것을 의미한다.

도 1은 본 발명의 일 실시 예에 따른 오디오 신호를 인코딩하는 오디오 신호 처리 장치를 보여주는 블록도이다.

본 발명의 일 실시 예에 따라 오디오 신호를 인코딩하는 오디오 신호 처리 장치는 채널, 앰비소닉스(HOA), 및 오브젝트신호 중 적어도 하나를 인코딩할 수 있다. 프리렌더러/믹서(10)는 채널 신호, 앰비소닉 신호, 및 오브젝트 신호 중 적어도 어느 하나를 수신하여 믹싱한다. 프리레던링이 필요한 경우, 프리렌더러/믹서(10)는 채널 신호, 앰비소닉 신호, 및 오브젝트 신호들 중 적어도 어느 하나를 프리렌더링할 수 있다.

HOA 공간 인코더(30)는 앰비소닉 신호와 프리렌더링된 오브젝트 신호를 합성하여 프리렌더링된 오브젝트 신호 전송을 위한 앰비소닉스 채널 신호와 앰비소닉스 채널 신호 관련 메타데이터로 변환한다.

SAOC 3D 인코더(40)는 개별 오브젝트 신호를 전송을 위한 SAOC 채널 형태와 SAOC 채널 관련 메타데이터로 변환한다.

오디오 신호를 제작할 때 사용된 재생 시스템이 스피커 레이아웃으로 구성되거나, 혹은 오디오 신호가 재생되는 재생 시스템이 가상의 스피커 레이아웃을 통한 바이노럴 렌더링으로 재생되는 2채널 재생 시스템인 경우, 오디오 신호 처리 장치는 해당 스피커 레이아웃의 위치 정보를 재생 레이아웃(Reprodudction Layout)으로 수신할 수 있다. 스피커 레이아웃의 위치 정보 중 스피커 레이아웃의 스윗스팟의 청취자로부터 스피커까지의 거리는 해당 레이아웃의 기준 거리(Reference Distance)로 인코딩될 수 있다. OAM 인코더(20)는 비트 스트림의 메타데이터에 기준 거리를 인코딩할 수 있다. 또한, 오브젝트로부터 스윗스팟의 청취자까지의 거리는 오브젝트 거리로 입력될 수 있다. SAOC 3D Encoder(40)는 오브젝트 거리를 메타데이터로 인코딩할 수 있다. 또 다른 실시 예에서 오브젝트 거리(Object Distance)는 개별적으로 인코더(80)에 전달되고, 인코더(80)는 오브젝트 거리를 비트스트림의 메타데이터로 인코딩할 수 있다.

도 2는 본 발명의 일 실시 예에 따른 오디오 신호를 디코딩하는 오디오 신호 처리 장치를 보여주는 블록도이다.

본 발명의 일 실시 예에 따른 오디오 신호 디코더는 코어 디코더(110), 믹서(130), 및 포스트 프로세서(140)를 포함한다. 코어 디코더(110)는 스피커(loudspeaker) 채널 신호, 개별(discrete) 오브젝트 신호, 오브젝트 다운믹스 신호 및 사전-렌더링된(prerendered) 신호 중 적어도 하나를 디코딩할 수 있다. 코어 디코더(10)는 USAC(Unified Speech and Audio Coding) 기반의 코덱을 사용할 수 있다. 코어 디코더(110)는 코어 디코더(110)가 수신한 비트스트림을 디코드하고 디코드된 신호를 디코드된 신호의 타입에 따라 포맷 컨버터(122), 오브젝트 렌더러(124), OAM 디코더(125), SAOC 디코더(126) 및 HOA 디코더(128) 중 적어도 어느 하나로 전달할 수 있다.

포맷 컨버터(122)는 전송된 채널 신호를 출력 스피커 채널 신호로 변환한다. 포맷 컨버터(122)는 전송된 채널 구성(configuration)을 재생될 스피커 채널 구성으로 변환할 수 있다. 출력 스피커 채널의 개수(이를테면, 5.1 채널)가 전송된 채널의 개수(이를테면, 22.2 채널)보다 적거나 전송된 채널 구성과 재생될 채널 구성이 다를 경우, 포맷 컨버터(122)는 전송된 채널 신호에 대한 다운믹스를 수행할 수 있다. 디코더는 입력 채널 신호와 출력 스피커 채널 신호간의 조합을 이용하여 최적의 다운믹스 매트릭스를 생성하고, 생성된 매트릭스를 이용하여 다운믹스를 수행할 수 있다. 포맷 컨버터(122)가 처리하는 채널 신호는 사전-렌더링된 오브젝트 신호를 포함할 수 있다. 오디오 신호의 인코딩 전에 적어도 하나의 오브젝트 신호가 사전-렌더링되어 채널 신호에 믹스(mix)될 수 있다. 포맷 컨버터(122)는 이와 같이 믹스 된 오브젝트 신호를 채널 신호와 함께 출력 스피커 채널 신호로 변환할 수 있다.

오브젝트 렌더러(124) 및 SAOC 디코더(126)는 오브젝트 신호를 렌더링할 수 있다. 오브젝트 신호는 개별 오브젝트 웨이브폼과 파라메트릭 오브젝트 웨이브폼을 포함할 수 있다. 오브젝트 신호가 오브젝트 웨이브폼을 포함하는 경우, 인코더는 모노포닉(monophonic) 웨이브폼 형태의 오브젝트 신호를 수신할 수 있다. 이때, 인코더는 단일 채널 엘리먼트(Single Channel Elements, SCEs)를 이용하여 오브젝트 신호를 전송할 수 있다. 오브젝트 신호가 파라메트릭 오브젝트 웨이브폼을 포함하는 경우, 복수의 오브젝트 신호는 적어도 하나의 채널 신호로 다운믹스될 수 있다. 이때, 각 오브젝트의 특징과 오브젝트간의 관계가 SAOC(Spatial Audio Object Coding) 파라메터로 표현될 수 있다. 오브젝트 신호는 다운믹스 되어 코어 코덱으로 인코딩되며, 인코더는 인코딩시 함께 생성되는 파라메트릭 정보를 디코더로 전송할 수 있다.

오브젝트 신호가 디코더로 전송될 때, 오브젝트 신호에 대응하는 압축된 오브젝트 메타데이터가 함께 전송될 수 있다. 오브젝트 메타데이터는 오브젝트 속성을 시간과 공간 단위로 양자화하여 3차원 공간에서의 각 오브젝트의 위치 및 게인 값을 지시할 수 있다. OAM 디코더(125)는 압축된 오브젝트 메타데이터를 수신하고, 압축된 오브젝트 메타데이터를 디코드하여 오브젝트 렌더러(124) 및 SAOC 디코더(126) 중 적어도 어느 하나로 전달할 수 있다.

오브젝트 렌더러(124)는 오브젝트 메타데이터를 이용하여 각 오브젝트 신호를 주어진 재생 포맷에 따라 렌더링할 수 있다. 이때, 오브젝트 렌더러(124)는 오브젝트 메타데이터를 기초로 오브젝트 신호를 특정 출력 채널로 렌더링할 수 있다. SAOC 디코더(126)는 디코드된 SAOC 전송 채널과 파라메트릭 정보로부터 오브젝트 신호 및 채널 신호 중 적어도 어느 하나를 복원할 수 있다. SAOC 디코더(126)는 재생 레이아웃 정보와 오브젝트 메타데이터를 기초로 출력 오디오 신호를 생성할 수 있다. 이와 같이 오브젝트 렌더러(124) 및 SAOC 디코더(126)는 오브젝트 신호를 채널 신호로 렌더링할 수 있다.

HOA 디코더(128)는 HOA(Higher Order Ambisonics) 신호 및 HOA 부가 정보를 수신하고, HOA 신호 및 HOA 부가 정보를 디코드할 수 있다. HOA 디코더(128)는 채널 신호나 오브젝트 신호를 별도의 수학식으로 모델링하여 사운드씬(sound scene)을 생성한다. 생성된 사운드씬에서 스피커가 있는 공간상의 위치를 선택하면, 스피커 채널 신호로 렌더링이 수행될 수 있다.

도 2에는 도시되지 않았지만, 코어 디코더(110)에서 출력된 신호에 대해 전처리 과정으로서 동적 범위 제어(Dynamic Range Control, DRC)가 수행될 수 있다. DRC는 재생되는 오디오 신호의 동적 범위를 일정 레벨로 제한하는 것으로, DRC가 적용된 신호는 기 설정된 범위 보다 작은 소리는 더 크게, 기 설정된 범위 보다 큰 소리는 더 작게 조정된다.

포맷 컨버터(122), 오브젝트 렌더러(124), OAM 디코더(125), SAOC 디코더(126) 및 HOA 디코더(128)로부터 출련된 오디오 신호는 믹서(130)로 전달된다. 믹서(130)는 채널 기반의 웨이브폼과 렌더링된 오브젝트 웨이브폼의 딜레이(delay)를 조정하고, 채널 기반의 웨이브폼과 렌더링된 오브젝트 웨이브폼을 샘플 단위로 합산한다. 믹서(130)에 의해 합산된 오디오 신호는 포스트 프로세싱 유닛(140)으로 전달된다.

포스트 프로세싱 유닛(140)은 렌더러(150)를 포함한다. 렌더러(150)는 스피커 렌더러(151)와 바이노럴 렌더러(153) 중 적어도 어느 하나를 포함할 수 있다. 스피커 렌더러(151)는 믹서(130)로부터 전달된 멀티채널 및 멀티오브젝트 오디오 신호 중 적어도 어느 하나를 출력하기 위한 포스트 프로세싱을 수행한다. 이러한 포스트 프로세싱은 동적 범위 제어(DRC), 음량 정규화(Loudness Normalization, LN) 및 피크 제한(Peak Limiter, PL) 중 적어도 어느 하나를 포함할 수 있다.

바이노럴 렌더러(153)는 멀티채널 및 멀티오브젝트 오디오 신호 중 적어도 어느 하나의 바이노럴 다운믹스 신호를 생성한다. 바이노럴 다운믹스 신호는 각 입력 채널 신호 및 오브젝트 신호가 3차원상에 위치한 가상의 음원에 의해 표현되도록 하는 2채널의 오디오 신호이다. 바이노럴 렌더러(153)는 스피커 렌더러(153)에 공급되는 오디오 신호를 입력 신호로서 수신할 수 있다. 바이노럴 렌더링은 BRIR(Binaural Room Impulse Response) 필터를 기초로 수행되며, 시간 도메인 또는 QMF 도메인 상에서 수행될 수 있다. 포스트 프로세서(140)는 바이노럴 렌더링의 포스트 프로세싱으로서 전술한 동적 범위 제어(DRC), 음량 정규화(LN) 및 피크 제한(PL) 중 적어도 어느 하나를 추가로 수행할 수 있다.

채널 신호, 오브젝트 신호 및 앰비소닉 신호를 포함하는 컨텐츠가 렌더링되는 경우, 렌더러는 각 엘리멘트 간의 라우드니스(loudness) 및 거리에 대한 상대적인 밸런스를 유지하면서 렌더링해야할 필요가 있다. 특히, 엘리멘트 메타데이터는 재생 레이아웃의 기준 거리(reference distance)를 지시하는 정보를 포함할 수 있다. 오디오 신호의 각 엘리멘트 신호의 기준 거리는 오디오 신호가 표현하는 가상 공간에서 청자가 스윗스팟에 위치할 때 각 엘리멘트 신호를 렌더링하기 위해서 필요한 가상 스피커 레이아웃의 원주와 청자 사이의 거리, 즉 반지름을 나타낸다. 오브젝트 신호의 거리, 즉 오브젝트 거리는 오브젝트 신호를 포함하는 오디오 신호가 표현하는 가상 공간에서 청자가 스윗스팟에 위치할 때 청자의 머리 중심으로부터 시뮬레이션되어 재생되는 오브젝트까지의 거리를 나타낼 수 있다. 또한, 채널 신호의 기준 거리는 청자의 머리 중심으로부터 채널 신호를 포함하는 오디오 신호 제작 시에 사용된 스피커 레이아웃까지의 거리로 나타낼 수 있다. 또한, 앰비소닉 신호의 기준 거리는 앰비소닉 신호를 포함하는 오디오 신호가 표현하는 가상 공간에서 청자가 스윗스팟에 위치할 때 청자의 머리 중심으로부터 앰비소닉 신호를 재생하기 위해 디코딩된 실제 혹은 가상의 스피커 레이아웃까지의 거리를 나타낼 수 있다. 설명의 편의를 위해, 오브젝트 신호의 거리, 즉 오브젝트 거리(object distance)를 지시하는 정보를 오브젝트 거리 정보라 지칭한다. 렌더러가 오브젝트 거리 정보를 사용하더라도 채널 신호 또는 앰비소닉 신호를 렌더링할 때 사용되는 기준 거리를 결정하는 방법이 정의 되지 않는다면 다음과 같은 문제들이 발생할 수 있다. 예컨대, 오브젝트를 바이노럴 렌더링 함에 있어서 오브젝트 신호를 가상의 스피커 채널 신호로 렌더링한 후 채널 신호를 바이노럴 신호로 다시 렌더링하여 최종 바이노럴 신호를 재생하는 경우, 최종 재생 시스템에서 사용되는 가상 스피커 레이아웃의 변화에 따라 창작자가 의도한 대로 오브젝트 신호와 논-디제틱(non-diegetic) 채널 신호 사이의 볼륨 밸런스가 유지되지 않을 수 있다. 이때, 논-디제틱 오디오 신호는 청취자를 기준으로 고정된 오디오 장면(audio scene)을 구성하는 신호일 수 있다. 가상의 공간에서 청취자의 움직임과 관계 없이 논-디제틱 오디오 신호에 대응하여 출력되는 음향의 방향성은 변화하지 않을 수 있다. 또한, 청취자가 인지하는 채널 신호 또는 앰비소닉 신호가 시뮬레이션하는 음상과 오브젝트의 상대적인 거리가 창작자가 의도한 것과 달라질 수 있다. 또한, 렌더러가 거리 기반(dependent) 앰비소닉 렌더링을 수행할 때, 렌더러는 창작자가 의도한 거리에 비해 앰비소닉 신호를 부족하게 보상(undercompensate)하거나 과도하게 보상(overcompensate)할 수 있다.

따라서 채널 신호 및 앰비소닉 신호 각각의 기준 거리에 대한 정보가 제공될 필요가 있다. 또한, 렌더러는 채널 신호의 기준 거리에 대한 정보를 기초로 채널 신호를 렌더링할 필요가 있다. 또한, 렌더러는 앰비소닉 신호의 기준 거리에 대한 정보를 기초로 앰비소닉 신호를 렌더링할 필요가 있다. 구체적으로 렌더러는 엘리멘트 신호의 기준 거리에 대한 정보를 기초로 엘리멘트 신호가 렌더링된 음향 출력의 라우드니스를 조정할 필요가 있다. 또한, 렌더러가 엘리멘트 신호를 렌더링할 때, 렌더러는 엘리멘트 신호의 기준 거리에 대한 정보를 기초로 딜레이를 적용할 필요가 있다. 설명의 편의를 위해, 채널 신호의 기준 거리에 대한 정보를 채널 기준 거리 정보라 지칭한다. 또한, 앰비소닉 신호의 기준 거리에 대한 정보를 앰비소닉 기준 거리 정보라 지칭한다. 채널 기준 거리 정보 및 앰비소닉 기준 거리 정보를 설정하고 사용하는 방법에 대해서는 도 3 내지 도 14를 통해 설명한다. 또한, 본 명세서에서는 ISO/IEC의 MPEG-H 3D Audio 표준을 예로 들어 본 발명의 실시 예를 설명한다. 다만, 본 발명의 실시 예가 ISO/IEC의 MPEG-H 3D Audio 표준에 한정되는 것은 아니다.

먼저, 기준 거리에 대한 정보를 포함하는 메타데이터의 신택스에 대한 실시 예를 설명한다.

도 3은 본 발명의 일 실시 예에 따른 렌더러가 사용하는 메타데이터를 보여준다. 구체적으로 도 3(a)는 본 발명의 일 실시 예에 따라 메타데이터 관련 설정을 지시하는 메타데이터 컨피겨레이션(configuration)의 신택스를 보여준다. 도 3(b)는 본 발명의 일 실시 예에 따라 메타데이터 관련 설정에 따라 프레임 별로 메타데이터를 지시하는 메타데이터 프레임의 신택스를 보여준다. 도 3(c)는 본 발명의 일 실시 예에 따라 MPEG-H 3D Audio 표준에 따라 정의되지 않은 외부 렌더러에 오브젝트 신호의 메타데이터를 전달하는 인터페이스로 정의된 GOA 메타데이터를 보여준다.

렌더러는 채널 기준 거리 정보가 정의되지 않은 채널 신호에 채널 신호의 기준 거리의 디폴트 값을 적용할 수 있다. 설명의 편의를 위해, 채널 신호의 기준 거리의 디폴트 값은 채널 디폴트 기준 거리라 지칭한다. 비트스트림이 채널 신호의 기준 거리를 정의하지 않은 경우, 렌더러는 채널 디폴트 기준 거리를 채널 신호의 기준 거리로 간주할 수 있다. 메타데이터 컨피겨레이션은 메타데이터 프레임에서 채널 기준 거리 정보(reference_distance)가 채널 디폴트 기준 거리 이외에 다른 값을 지시하는지 나타내는 기준 거리 플래그(has_reference_distance)를 포함할 수 있다. 기준 거리 플래그가 활성화되지 않는 경우, 채널 기준 거리 정보(bs_reference_distance)의 값을 미리 지정된 값으로 설정할 수 있다. 이에 대해서는 추후 다시 설명한다.

렌더러는 오브젝트 거리 정보가 정의되지 않은 오브젝트 신호, 예컨대, 방향(azimuth)과 높이(elevation)만을 가지고 있는 오브젝트 신호에 디폴트 거리 값을 적용할 수 있다. 설명의 편의를 위해, 오브젝트 신호의 디폴트 거리 값은 오브젝트 디폴트 거리라 지칭한다. 오브젝트 신호가 인코딩된 비트스트림이 오브젝트 신호의 거리를 정의하지 않은 경우, 렌더러는 오브젝트 디폴트 거리를 오브젝트 신호의 거리로 간주할 수 있다. 메타데이터 컨피겨레이션은 메타데이터 프레임에서 오브젝트 거리 정보(object_distance)가 오브젝트 디폴트 거리가 아닌 값을 지시하는지 나타내는 오브젝트 거리 플래그(has_object_distance)를 포함할 수 있다. 오브젝트 거리 플래그는 오브젝트 신호 그룹별로 오브젝트 거리 정보가 오브젝트 디폴트 거리 이외에 다른 값을 지시하는지 지시할 수 있다. 또한, 메타데이터 컨피겨레이션은 바이노럴 렌더링이 수행되는 경우, 해당 채널 신호 그룹이 바로(directly) 헤드폰으로 출력되는지 지시하는 플래그(directHeadphone)를 포함할 수 있다.

메타데이터 프레임은 채널 기준 거리 정보(reference_distance)를 포함할 수 있다. 구체적으로 기준 거리 플래그(has_reference_distance)가 활성화된 경우, 메타데이터 프레임의 채널 기준 거리 정보(reference_distance)는 채널 디폴트 기준 거리 이외의 값을 지시할 수 있다. 채널 기준 거리 정보(reference_distance)는 6비트로 지시될 수 있다. 또한, 오브젝트 거리 플래그(has_object_distance)가 활성화된 경우, 메타데이터 프레임은 현재 프레임이 인트라 코딩된(intracoded) 데이터를 포함하는지 나타내는 인트라 코딩 플래그(has_intracoded_data)를 포함할 수 있다. 메타데이터 프레임에 해당하는 프레임이 인트라 코딩되었는지에 따라 메타데이터 프레임은 인트라 코딩 메타데이터 프레임(intracodedProdMetadataFrame) 또는 다이나믹 메타데이터 프레임(dynamicProdMetadataFrame)을 포함할 수 있다.

GOA 메타데이터는 GOA 메타데이터의 채널 기준 거리 정보(goa_bsReferenceDistance)가 채널 디폴트 기준 거리 이외에 다른 값을 지시하는지 나타내는 GOA 기준 거리 플래그(goa_hasReferenceDistance)를 포함할 수 있다. GOA 기준 거리 플래그가 활성화된 경우, GOA 메타데이터의 채널 기준 거리 정보는 채널 디폴트 기준 거리 이외의 값을 지시한다. 채널 기준 거리 정보는 6비트로 지시될 수 있다. GOA 메타데이터는 GOA 메타데이터의 오브젝트 거리 정보(goa_bsObjectDistance)가 오브젝트 디폴트 거리 이외에 다른 값을 지시하는지 나타내는 오브젝트 거리 플래그(goa_hasObjectDistance)를 포함할 수 있다. 이때, GOA 메타데이터는 오브젝트 신호 그룹 별로 GOA 메타데이터가 오브젝트 거리 정보(goa_bsObjectDistance)가 오브젝트 디폴트 거리의 디폴트 값 이외에 다른 값을 지시하는지 나타낼 수 있다. GOA 오브젝트 거리 플래그(goa_hasObjectDistance)가 활성화된 경우, GOA 메타데이터의 오브젝트 거리 정보(goa_bsObjectDistance)는 오브젝트 디폴트 거리 이외에 다른 값을 지시할 수 있다. 이때, 오브젝트 거리 정보(goa_bsObjectDistance)는 8비트로 지시될 수 있다.

앞서 설명한 신택스에서와 같이 메타데이터에서 기준 거리에 대한 정보를 지시하기 위해 할당될 수 있는 비트 수는 제한적일 수 있다. 제한된 비트 수가 사용되므로 기준 거리에 대한 정보의 양자화 레벨 사이의 차이가 지나치게 큰 경우, 렌더러는 거리의 변화가 렌더링에 미치는 영향을 잘 반영하지 못할 수 있다. 또한, 기준 거리에 대한 정보의 양자화 레벨 사이의 차이가 지나치게 작은 경우, 기준 거리에 대한 정보를 지시하는 필드의 전송 및 저장 부담이 커질 수 있다. 따라서 기준 거리에 대한 정보를 나타내기 위한 적절한 양자화 방법이 필요하다.

메타데이터는 지수 함수를 사용하여 채널 기준 거리를 지시할 수 있다. 구체적으로 채널 기준 거리 정보는 해당 지수 함수의 지수의 값을 결정할 수 있다. 이러한 실시 예에서 채널 기준 거리 정보의 값이 커짐에 따라 채널 기준 거리 정보가 나타내는 거리도 지수 함수에 따라 증가된다. 따라서 렌더러는 거리에 따라 감쇄되는 소리의 크기를 균등하게 렌더링할 수 있다.

앞서 설명한 메타데이터에서와 같이, 채널 기준 거리 정보를 지시하는 필드의 비트 수는 오브젝트 거리 정보를 지시하는 필드의 비트 수보다 적을 수 있다. 스피커의 위치를 시뮬레이션하는 채널 신호보다 실시간으로 변할 수 있는 오브젝트의 위치를 시뮬레이션하는 오브젝트 신호의 거리 표현이 정밀할 필요가 있을 수 있기 때문이다. 채널 기준 거리 정보가 나타낼 수 있는 기준 거리 값의 셋(set)은 오브젝트 거리 정보가 나타낼 수 있는 오브젝트 거리 값의 셋(set)의 서브셋(subset)일 수 있다. 이를 통해 채널 신호와 오브젝트 신호가 함께 렌더링될 수 있을 때, 렌더러는 채널 신호와 오브젝트 신호 중 적어도 어느 하나를 효율적으로 렌더링할 수 있다.

채널 기준 거리 정보가 지시할 수 있는 최소 거리는 0보다 큰 미리 지정된 양수 일 수 있다. 이때, 최소 거리는 450mm일 수 있다. 기준 거리가 일정 크기 이하일 경우, 기준 거리의 변화가 렌더링에 미치는 영향이 미비할 수 있기 때문이다. 이러한 실시 예를 통해, 채널 기준 정보를 나타내기 위해 필요한 비트 수를 줄일 수 있다.

또한, 렌더러는 채널 기준 거리 정보가 정의되지 않은 채널 신호에 채널 디폴트 기준 거리를 적용할 수 있다. 채널 신호가 인코딩된 비트스트림이 채널 신호의 기준 거리를 정의하지 않은 경우, 렌더러는 채널 디폴트 기준 거리를 채널 신호의 기준 거리로 간주할 수 있다. 이때, 채널 디폴트 기준 거리는 미리 지정된 값일 수 있다. 미리 지정된 값은 1008mm일 수 있다.

구체적인 실시 예에서 채널 기준 거리 정보는 다음 수식에 따라 채널 신호의 기준 거리를 지시할 수 있다.

Reference distance = distanceOffset + [10^(0.03225380 * (referece_distance + 82)) -1]

이때, Reference distance는 채널 신호의 기준 거리이고, 기준 거리의 단위는 미리 미터(mm)이다. 또한, distanceOffset은 채널 신호의 기준 거리의 오프셋 값을 나타낸다. 구체적으로 distanceOffset의 값은 10mm일 수 있다. 또한, reference_distance는 채널 기준 거리 정보의 값을 나타낸다. 채널 기준 거리 정보는 최소 450mm부터 최대 47521mm에 해당하는 거리를 지시할 수 있다.

구체적으로 앞서 설명한 메타데이터 프레임의 채널 기준 정보(bs_reference_distance)는 다음의 표에 따라 채널 신호의 기준 거리를 지시할 수 있다.

또한, 앞서 설명한 GOA 메타데이터의 채널 기준 정보(goa_bsReferenceDistance)는 다음의 표에 따라 채널 신호의 기준 거리를 지시할 수 있다.

도 4는 본 발명의 또 다른 실시 예에 따른 렌더러가 사용하는 메타데이터 컨피겨레이션의 신택스를 보여준다. 또한, 도 5는 본 발명의 실시 예에 따른 인트라 코딩 메타데이터 프레임(intracodedProdMetadataFrame)의 신택스를 보여준다. 도 6은 본 발명의 실시 예에 따른 다이나믹 메타데이터 프레임(dynamicProdMetadataFrame)과 싱글 다이나믹 메타데이터 프레임(singleDynamicProdMetadataFrame)의 신택스를 보여준다.

채널 디폴트 기준 거리는 채널 신호와 함께 재생될 수 있는 엘리멘트 신호의 기준 거리의 디폴트 값과 동일한 값으로 설정될 수 있다. 구체적으로 채널 디폴트 기준 거리는 오브젝트 디폴트 거리와 동일한 값으로 설정될 수 있다. 구체적으로 채널 디폴트 기준 거리는 앰비소닉 신호의 기준 거리의 디폴트 값과 동일하게 설정될 수 있다. 또한, 채널 기준 거리 정보의 값이 특정 값인 경우, 채널 기준 거리 정보는 채널 신호의 기준 거리의 디폴트 값을 지시할 수 있다. 채널 기준 거리 정보가 채널 디폴트 기준 거리를 지시하는 경우, 채널 기준 거리 정보는 채널 기준 거리를 지시하기 위해 사용하는 지수 함수를 사용하지 않고 미리 지정된 값을 지시할 수 있다. 구체적으로 채널 기준 거리 정보는 채널 기준 거리 정보의 값이 0부터 62까지인 경우, 다음의 수식을 이용하여 채널 신호의 기준 거리를 지시할 수 있다.

Reference distance = distanceOffset + [10^(0.03225380 * (bs_reference_distance + 83)) -1]

이때, Reference distance는 채널 신호의 기준 거리이고, 기준 거리의 단위는 미리 미터(mm)이다. 또한, distanceOffset은 채널 신호의 기준 거리의 오프셋 값을 나타낸다. 구체적으로 distanceOffset의 값은 10mm일 수 있다. 또한, bs_reference_distance는 채널 기준 거리 정보의 값을 나타낸다. 채널 기준 거리 정보는 최소 484mm부터 최대 51184mm에 해당하는 거리를 지시할 수 있다.

또한, 채널 기준 거리 정보 값이 63인 경우, 채널 기준 거리 정보는 채널 신호의 기준 거리가 채널 디폴트 기준 값임을 나타낼 수 있다. 채널 디폴트 기준 값은 2^(5/3)m (즉, 3174.8mm)임을 지시할 수 있다.

메타데이터 프레임의 채널 기준 정보(bs_reference_distance)는 다음의 표에 따라 채널 신호의 기준 거리를 지시할 수 있다.

도 4의 실시 예에서 기준 거리 플래그(has_reference_distance)가 활성화되지 않은 경우, 기준 거리 정보(bs_reference_distance)의 값은 디폴트 기준 거리를 지시하는 미리 지정된 값으로 설정될 수 있다. 이때, 미리 지정된 값은 63일 수 있다. 도 4의 메타데이터 컨피겨레이션의 신택스 중 나머지는 도 3에서 설명한 것과 동일할 수 있다.

앞서 설명한 바와 같이, 메타데이터 프레임에 해당하는 프레임이 인트라 코딩된 경우, 메타데이터 프레임은 인트라 코딩 메타데이터 프레임(intracodedProdMetadataFrame)을 포함할 수 있다. 도 5는 구체적인 실시 예에 따른 인트라 코딩 메타데이터 프레임(intracodedProdMetadataFrame)의 신택스를 보여준다.

인트라 코딩 메타데이터 프레임(intracodedProdMetadataFrame)은 모든 오브젝트 신호의 거리가 고정된 값인지를 지시하는 고정 거리 플래그(fixed_distance)를 포함할 수 있다. 또한, 인트라 코딩 메타데이터 프레임(intracodedProdMetadataFrame)은 모든 오브젝트에 공통된 오브젝트 거리가 사용되는지 지시하는 공통 거리(common_distance) 플래그를 포함할 수 있다. 고정 거리 플래그 또는 공통 거리 플래그가 활성화된 경우, 렌더러는 오브젝트 신호의 거리의 디폴트 값을 사용하여 모든 오브젝트 신호를 렌더링할 수 있다. 고정 거리 플래그 또는 공통 거리 플래그가 활성화되지 않은 경우, 렌더러는 각 오브젝트 신호의 거리(position_distance)를 기초로 각 오브젝트 신호를 렌더링할 수 있다.

또한, 다이나믹 메타데이터 프레임(dynamicProdMetadataFrame)은 싱글 다이나믹 메타데이터 프레임(singleDynamicProdMetadataFrame)을 통해 오브젝트 신호의 기준 거리를 지시할 수 있다. 도 6(a)는 구체적인 실시 예에 따른 다이나믹 메타데이터 프레임(dynamicProdMetadataFrame)의 신택스를 보여준다. 도 6(b)는 구체적인 실시 예에 따른 싱글 다이나믹 메타데이터 프레임(singleDynamicProdMetadataFrame)의 신택스를 보여준다.

싱글 다이나믹 메타데이터 프레임에서 오브젝트 신호의 거리(position_distance)는 절대 값으로 전송되거나 차등적으로 전송될 수 있다. 싱글 다이나믹 메타데이터 프레임은 오브젝트 거리가 절대 값으로 전송되거나 차등적으로 전송되는지 지시하는 절대 거리 플래그(flag_dist_absolute)를 포함할 수 있다. 절대 거리 플래그(flag_dist_absolute)가 활성화된 경우, 싱글 다이나믹 메타데이터 프레임은 오브젝트 신호의 거리를 절대값으로 지시한다. 구체적으로 싱글 다이나믹 메타데이터 프레임이 포함하는 오브젝트 거리 정보(position_distance)는 오브젝트 신호의 거리를 지시할 수 있다. 오브젝트 신호의 거리는 스윗스팟에 있는 청취자의 머리 중앙부터 오브젝트까지의 거리일 수 있다. 이때, 싱글 다이나믹 메타데이터 프레임이 포함하는 오브젝트 거리 정보(position_distance)는 다음의 표에 따라 오브젝트 신호의 거리를 지시할 수 있다.

또한, 절대 거리 플래그(flag_dist_absolute)가 비활성화된 경우, 싱글 다이나믹 메타데이터 프레임은 오브젝트 신호의 이전 오브젝트 거리의 값과 현재 오브젝트 거리 값의 차이를 지시할 수 있다. 구체적으로 싱글 다이나믹 메타데이터 프레임이 포함하는 오브젝트 거리 정보(position_distance)는 오브젝트 신호의 이전 오브젝트 거리의 값과 현재 오브젝트 거리의 값의 차이를 지시할 수 있다. 싱글 다이나믹 메타데이터 프레임은 인트라 프레임 기간(intra-frame period)동안 오브젝트 신호의 거리가 변경되는지 지시하는 거리 플래그(distance_flag)를 포함할 수 있다. 거리 플래그(distance_flag)가 활성화된 경우, 싱글 다이나믹 메타데이터 프레임은 선형적으로 인터폴레이션된 값과 오브젝트 신호의 실제(actual) 오브젝트 거리 값 사이의 거리 차이(position_distance_difference)를 지시할 수 있다. 또한, 거리 플래그(distance_flag)가 활성화된 경우, 싱글 다이나믹 메타데이터 프레임은 오브젝트 거리 차이를 지시하기 위해 필요한 비트 수(nBitsDistance)도 지시할 수 있다. 앞서 설명한 채널 기준 거리 정보에 대한 실시 예들은 앰비소닉 기준 거리 정보에도 동일하게 적용될 수 있다. 이에 대해서는 도 7을 통해 구체적으로 설명한다.

도 7은 본 발명의 일 실시 예에 따라 MPEG-H 3D Audio 표준에 따라 정의되지 않은 외부 렌더러가 사용하는 오브젝트 신호의 메타데이터인 GOA 메타데이터, 채널 신호의 메타데이터인 GCA 메타데이터, 및 앰비소닉 신호의 메타데이터인 GHA 메타데이터를 보여준다.

메타데이터는 지수 함수를 사용하여 앰비소닉 기준 거리를 지시할 수 있다. 구체적으로 앰비소닉 기준 거리 정보는 해당 지수 함수의 지수의 값을 결정할 수 있다. 이러한 실시 예에서 앰비소닉 기준 거리 정보의 값이 커짐에 따라 앰비소닉 기준 거리 정보가 나타내는 거리도 지수 함수에 따라 증가된다. 따라서 렌더러는 거리에 따라 감쇄되는 소리의 크기를 균등하게 렌더링할 수 있다.

앞서 설명한 메타데이터에서와 같이, 앰비소닉 기준 거리 정보를 지시하는 필드의 비트수는 오브젝트 거리 정보를 지시하는 필드의 비트 수보다 적을 수 있다. 앰비소닉 기준 거리 정보가 나타낼 수 있는 기준 거리 값의 셋은 오브젝트 거리 정보가 나타낼 수 있는 오브젝트 거리 값의 셋의 서브셋일 수 있다. 이를 통해 앰비소닉 신호와 오브젝트 신호가 함께 렌더링될 수 있을 때, 렌더러는 앰비소닉 신호와 오브젝트 신호 중 적어도 어느 하나를 효율적으로 렌더링할 수 있다.

앰비소닉 기준 거리 정보가 지시할 수 있는 최소 거리는 0보다 큰 미리 지정된 양수 일 수 있다. 이때, 최소 거리는 484mm일 수 있다. 기준 거리가 일정 크기 이하일 경우, 기준 거리의 변화가 렌더링에 미치는 영향이 미비할 수 있기 때문이다.

렌더러는 엠비소닉 기준 거리 정보가 정의되지 않은 앰비소닉 신호에 앰비소닉 신호의 기준 거리의 디폴트 값을 적용할 수 있다. 설명의 편의를 위해 앰비소닉 신호의 기준 거리 값의 디폴트 값을 앰비소닉 디폴트 기준 거리로 지칭한다. 앰비소닉 신호가 인코딩된 비트스트림이 앰비소닉 신호의 기준 거리를 정의하지 않은 경우, 렌더러는 앰비소닉 디폴트 기준 거리를 앰비소닉 신호의 기준 거리로 간주할 수 있다. 앰비소닉 디폴트 기준 거리 값은 앰비소닉 신호와 함께 재생될 수 있는 엘리멘트 신호의 기준 거리의 디폴트 값과 동일하게 설정될 수 있다. 구체적으로 앰비소닉 디폴트 기준 거리는 오브젝트 신호 또는 채널 신호의 기준 거리의 디폴트 값과 동일하게 설정될 수 있다. 또한, 앰비소닉 기준 거리 정보의 값이 특정 값인 경우, 앰비소닉 기준 거리 정보는 앰비소닉 디폴트 기준 거리를 지시할 수 있다. 앰비소닉 기준 거리 정보가 앰비소닉 디폴트 기준 거리를 지시하는 경우, 앰비소닉 기준 거리 정보는 기준 거리를 지시하기 위해 사용하는 지수 함수를 사용하지 않고 미리 지정된 값을 지시할 수 있다. 구체적으로 앰비소닉 기준 거리 정보는 앰비소닉 기준 거리 정보의 값이 0부터 62까지인 경우, 다음의 수식을 이용하여 앰비소닉 신호의 기준 거리를 지시할 수 있다.

이때, Reference distance는 앰비소닉 신호의 기준 거리이고, 기준 거리의 단위는 미리 미터(mm)이다. 또한, distanceOffset은 앰비소닉 신호의 기준 거리의 오프셋 값을 나타낸다. 구체적으로 distanceOffset의 값은 10mm일 수 있다. 또한, reference_distance는 앰비소닉 기준 거리 정보의 값을 나타낸다. 앰비소닉 기준 거리 정보는 최소 484mm부터 최대 51184mm에 해당하는 거리를 지시할 수 있다.

또한, 앰비소닉 기준 거리 정보 값이 63인 경우, 앰비소닉 기준 거리 정보는 앰비소닉 디폴트 기준 거리를 지시할 수 있다. 앰비소닉 디폴트 기준 거리는 2^(5/3)m (즉, 3174.8mm)일 수 있다. 또한, 비트스트림이 앰비소닉 신호의 기준 거리를 정의하지 않은 경우, 렌더러는 앰비소닉 디폴트 기준 거리를 앰비소닉 신호의 기준 거리로 간주할 수 있다.

도 7(a)는 GOA 메타데이터를 보여준다. GOA 메타데이터는 GOA 메타데이터의 오브젝트 거리 정보(goa_bsObjectDistance)가 오브젝트 디폴트 거리 이외의 값을 지시하는지 나타내는 GOA 오브젝트 거리 플래그(goa_hasObjectDistance)를 포함할 수 있다. 이때, GOA 메타데이터는 오브젝트 신호 그룹 별로 GOA 메타데이터의 오브젝트 거리 정보가 오브젝트 디폴트 거리 이외의 값을 지시하는지 나타내는지 지시할 수 있다. GOA 오브젝트 거리 플래그(goa_hasObjectDistance)가 활성화된 경우, GOA 메타데이터의 오브젝트 거리 정보(goa_bsObjectDistance)는 오브젝트 디폴트 거리 이외의 값을 지시한다. 오브젝트 거리 정보(goa_ bsObjectDistance)는 8비트로 지시될 수 있다. GOA 메타데이터가 포함하는 오브젝트 거리 정보(goa_bsObjectDistance)는 다음의 표에 따라 오브젝트 신호의 거리를 지시할 수 있다. 이때, 오브젝트 거리 정보(goa_bsObjectDistance)는 최소 0부터 최대 167Km에 해당하는 거리를 지시할 수 있다.

도 7(b)는 GCA 메타데이터를 보여준다. GCA 메타데이터는 GCA 메타데이터의 채널 기준 거리 정보(gca_bsReferenceDistance)가 디폴트 거리 이외의 값을 지시하는지 나타내는 GCA 채널 거리 플래그(gca_hasReferenceDistance)를 포함할 수 있다. 이때, GCA 메타데이터는 채널 신호 그룹 별로 GCA 메타데이터의 채널 기준 거리 정보(gca_bsReferenceDistance)가 채널 디폴트 기준 거리 이외의 값을 지시하는지 나타내는지 지시할 수 있다. GCA 채널거리 플래그(gca_hasReferenceDistance)가 활성화된 경우, GCA 메타데이터의 채널 기준 거리 정보(gca_bsReferenceDistance)는 채널 디폴트 기준 거리 이외의 값을 지시한다. 채널 기준 거리 정보(gca_bsReferenceDistance)는 6비트로 지시될 수 있다. 또한, GCA 메타데이터는 바이노럴 렌더링이 수행되는 경우, 해당 채널 신호 그룹이 바로(directly) 헤드폰으로 출력되는지 지시하는 플래그(gca_directHeadphone)를 포함할 수 있다. GCA 메타데이터가 포함하는 채널 기준 거리 정보(gca_bsReferenceDistance)는 다음의 표에 따라 채널 신호의 기준 거리를 지시할 수 있다.

도 7(c)는 GHA 메타데이터를 보여준다. GHA 메타데이터는 GHA 메타데이터의 앰비소닉 기준 거리 정보(gha_bsReferenceDistance)가 앰비소닉 디폴트 기준 거리 이외의 값을 지시하는지 나타내는 GHA 앰비소닉 거리 플래그(gha_hasReferenceDistance)를 포함할 수 있다. 이때, GHA 메타데이터는 앰비소닉 신호 그룹 별로 GHA 메타데이터의 앰비소닉 기준 거리 정보(gha_bsReferenceDistance)가 앰비소닉 디폴트 기준 거리 이외의 값을 지시하는지 나타내는지 지시할 수 있다. GHA 앰비소닉 거리 플래그(gha_hasReferenceDistance)가 활성화된 경우, GHA 메타데이터의 앰비소닉 기준 거리 정보(gha_bsReferenceDistance)는 앰비소닉 디폴트 기준 거리 이외의 값을 지시한다. 앰비소닉 기준 거리 정보는 6비트로 지시될 수 있다. GHA 메타데이터가 포함하는 앰비소닉 기준 거리 정보(gha_bsReferenceDistance)는 다음의 표에 따라 앰비소닉 신호의 기준 거리를 지시할 수 있다.

앞서 설명한 바와 같이 채널 디폴트 기준 거리는 채널 신호와 함께 재생될 수 있는 엘리멘트 신호의 기준 거리의 디폴트 값과 동일하게 설정될 수 있다. 또한, 채널 기준 거리 정보의 값이 특정 값인 경우, 채널 기준 거리 정보는 채널 신호의 기준 거리의 디폴트 값을 지시할 수 있다. 이를 위해 채널 기준 거리 정보는 특정 값에서 채널 디폴트 기준 거리에 해당하는 지수 함수를 사용하여 채널 신호의 기준 거리를 지시할 수 있다. 이후 설명하는 실시 예들에서 앞서 설명한 실시 예들과 배치되는 설명이 없는 경우, 이후 설명하는 실시 예들과 앞서 설명한 실시 예들이 함께 적용될 수 있다.

구체적으로 채널 기준 거리 정보는 아래 수식에 따라 채널 신호의 기준 거리를 지시할 수 있다.

Reference distance = distanceOffset + 2^[(bs_reference_distance + 99)/11]

이때, Reference distance는 채널 신호의 기준 거리이고, 기준 거리의 단위는 미리 미터(mm)이다. 또한, distanceOffset은 채널 신호의 기준 거리의 오프셋 값을 나타낸다. 구체적으로 distanceOffset의 값은 2^(5/3)*1000 - 2^(128/11)으로 약 -8.6220mm일 수 있다. 또한, bs_reference_distance는 채널 기준 거리 정보의 값을 나타낸다. 채널 기준 거리 정보는 최소 503mm부터 최대 27115mm에 해당하는 거리를 지시할 수 있다. 또한, 채널 기준 거리 정보의 값이 29인 경우, 채널 기준 거리 정보는 채널 디폴트 기준 거리를 지시한다.

또한, 채널 기준 거리 정보가 지시하는 채널 신호의 기준 거리가 달라짐에따라 오브젝트 거리 정보가 오브젝트 신호의 거리를 지시하는 방법도 달라질 수 있다. 싱글 다이나믹 메타데이터 프레임이 포함하는 오브젝트 거리 정보(position_distance)는 다음의 표에 따라 오브젝트 신호의 거리를 지시할 수 있다. 이때, 오브젝트 거리 정보(position_distance)는 최소 0부터 최대 167Km에 해당하는 거리를 지시할 수 있다.

GOA 메타데이터가 포함하는 오브젝트 거리 정보(goa_bsObjectDistance)는 다음의 표에 따라 오브젝트 신호의 거리를 지시할 수 있다. 오브젝트 거리 정보(goa_bsObjectDistance)는 최소 0부터 최대 167Km에 해당하는 거리를 지시할 수 있다.

GCA 메타데이터가 포함하는 채널 기준 거리 정보(gca_bsReferenceDistance)는 다음의 표에 따라 채널 신호의 기준 거리를 지시할 수 있다. 채널 기준 거리 정보(gca_bsReferenceDistance)는 최소 503mm부터 최대 27115mm에 해당하는 거리를 지시할 수 있다. 또한, 채널 기준 거리 정보(gca_bsReferenceDistance)의 값이 29인 경우, 채널 기준 거리 정보는 채널 디폴트 기준 거리를 지시한다.

또한, 채널 기준 거리 정보가 지시하는 채널 신호의 기준 거리가 달라짐에따라 앰비소닉 기준 거리 정보가 앰비소닉 신호의 기준 거리를 지시하는 방법도 달라질 수 있다. GHA 메타데이터가 포함하는 앰비소닉 기준 거리 정보(gha_bsReferenceDistance)는 다음의 표에 따라 앰비소닉 신호의 기준 거리를 지시할 수 있다. 앰비소닉 기준 거리 정보(gha_bsReferenceDistance)는 최소 503mm부터 최대 27115mm에 해당하는 거리를 지시할 수 있다. 또한, 앰비소닉 기준 거리 정보(gca_bsReferenceDistance)의 값이 29인 경우, 앰비소닉 기준 거리 정보는 앰비소닉 디폴트 기준 거리를 지시한다.

또 다른 구체적인 실시 예에서 메타데이터는 미리 지정된 거리와 같거나 작은 채널 신호의 기준 거리는 선형화된 간격으로 채널 신호의 기준 거리를 지시할 수 있다. 이때, 메타데이터는 미리 지정된 거리보다 큰 채널 신호의 기준 거리는 지수 함수를 사용하여 지시할 수 있다. 미리 지정된 거리는 3.1m일 수 있다. 이러한 실시 예에서 채널 신호의 기준 거리가 상대적으로 가까운 경우, 채널 기준 거리 정보는 세밀한 양자화 간격을 사용하여 채널 신호의 기준 거리를 지시할 수 있다. 채널 신호의 기준 거리가 상대적으로 먼 경우, 채널 기준 거리 정보는 세밀하지 않은 양자화 간격을 사용하여 채널 신호의 기준 거리를 지시할 수 있다. 이후 설명하는 실시 예들에서 앞서 설명한 실시 예들과 배치되는 설명이 없는 경우, 이후 설명하는 실시 예들과 앞서 설명한 실시 예들이 적용될 수 있다.

구체적으로 채널 기준 거리 정보의 값이 0부터 38인 경우, 채널 기준 거리 정보는 아래 수식에 따라 채널 신호의 기준 거리를 지시할 수 있다.

Reference_distance = (4 * bs_reference_distance + 4) / 160 * default_reference_distance

구체적으로 채널 기준 거리 정보의 값이 39부터 63인 경우, 채널 기준 거리 정보는 아래 수식에 따라 채널 신호의 기준 거리를 지시할 수 있다.

Reference_distance = 10^(1/20 * (bs_reference_distance - 39)) * default_reference_distance

이때, Reference distance는 채널 신호의 기준 거리이고, 기준 거리의 단위는 미터(m)이다. 또한, default_reference_distance는 채널 디폴트 기준 거리를 나타낸다. default_reference_distance의 값은 2^(5/3)(즉, 3.1748m)일 수 있다. 또한, bs_reference_distance는 채널 기준 거리 정보의 값을 나타낸다. 채널 기준 거리 정보는 최소 0.0794m부터 최대 50.317m에 해당하는 거리를 지시할 수 있다. 또한, 채널 기준 거리 정보의 값이 39인 경우, 채널 기준 거리 정보는 채널 디폴트 기준 거리를 지시한다.

GCA 메타데이터가 포함하는 채널 기준 거리 정보(gca_bsReferenceDistance)는 다음의 표에 따라 채널 신호의 기준 거리를 지시할 수 있다. 채널 기준 거리 정보(gca_bsReferenceDistance)는 최소 0.0794m부터 최대 50.317m에 해당하는 거리를 지시할 수 있다. 또한, 채널 기준 거리 정보(gca_bsReferenceDistance)의 값이 39인 경우, 채널 기준 거리 정보는 채널 디폴트 기준 거리를 지시한다.

또한, 채널 기준 거리 정보가 지시하는 채널 신호의 기준 거리가 달라짐에 따라 앰비소닉 기준 거리 정보가 앰비소닉 신호의 기준 거리를 지시하는 방법도 달라질 수 있다. GHA 메타데이터가 포함하는 앰비소닉 기준 거리 정보(gha_bsReferenceDistance)는 다음의 표에 따라 앰비소닉 신호의 기준 거리를 지시할 수 있다. 앰비소닉 기준 거리 정보(gha_bsReferenceDistance)는 최소 0.0794m부터 최대 50.317m에 해당하는 거리를 지시할 수 있다. 또한, 앰비소닉 기준 거리 정보(gca_bsReferenceDistance)의 값이 39인 경우, 앰비소닉 기준 거리 정보는 앰비소닉 디폴트 기준 거리를 지시한다.

또 다른 구체적인 실시 예에서 메타데이터는 지수 함수를 사용하여 채널 신호의 기준 거리를 지시할 수 있다. 이후 설명하는 실시 예들에서 앞서 설명한 실시 예들과 배치되는 설명이 없는 경우, 이후 설명하는 실시 예들과 앞서 설명한 실시 예들이 함께 적용될 수 있다.

Reference distance = A*[2^(C*bs_reference_distance)] + B;

이때, A = 2^9, B = 2^(5/3)*1000 - 2^(128/11)으로 약 - 8 .6220mm, 및 C = 1/11 일 수 있다.

이때, Reference distance는 채널 신호의 기준 거리이고, 기준 거리의 단위는 미리 미터(mm)이다. 또한, bs_reference_distance는 채널 기준 거리 정보의 값을 나타낸다. 채널 기준 거리 정보는 최소 503mm부터 최대 27115mm에 해당하는 거리를 지시할 수 있다. 또한, 채널 기준 거리 정보의 값이 29인 경우, 채널 기준 거리 정보는 채널 디폴트 기준 거리를 지시한다.

다만 이러한 실시 예들을 따를 경우, 채널 기준 거리 정보는 비교적 짧은 거리에서 지나치게 세밀한 양자화 간격을 사용하여 채널 신호의 기준 기리를 지시하게된다. 또 다른 구체적인 실시 예에서 메타데이터는 지수 함수 사용하여 채널 신호의 기준 거리를 지시하고, 채널 신호의 기준 거리에 따라 지수 함수의 양자화 간격에 따라 조정될 수 있다. 이후 설명하는 실시 예들에서 앞서 설명한 실시 예들과 배치되는 설명이 없는 경우, 앞서 설명한 실시 예들이 적용될 수 있다.

구체적으로 메타데이터는 다음의 수식을 사용하여 채널 신호의 기준 거리를 지시할 수 있다.

reference_distance = A*2^(C*bs_reference_distance) + B;

이때, Reference distance는 채널 신호의 기준 거리이다. 또한, bs_reference_distance는 채널 기준 거리 정보의 값을 나타낸다. 채널 기준 거리 정보의 값이 0부터 37인 경우, A = 2^(-13/12), B = 0 및 C = 1/12일 수 있다. 또한, 채널 기준 거리 정보의 값이 38부터 55인 경우, A = 2^(-28/9), B = 0 및 C = 1/9일 수 있다. 또한, 채널 기준 거리 정보의 값이 56부터 63인 경우, A = 2^(-31/6), B = 0 및 C = 1/6일 수 있다. 채널 기준 거리 정보는 최소 472mm부터 최대 40318mm에 해당하는 거리를 지시할 수 있다. 또한, 채널 기준 거리 정보의 값이 33인 경우, 채널 기준 거리 정보는 채널 디폴트 기준 거리를 지시한다.

GCA 메타데이터가 포함하는 채널 기준 거리 정보(gca_bsReferenceDistance)는 다음의 표에 따라 채널 신호의 기준 거리를 지시할 수 있다. 채널 기준 거리 정보(gca_bsReferenceDistance)는 최소 472mm부터 최대 40318mm에 해당하는 거리를 지시할 수 있다. 또한, 채널 기준 거리 정보(gca_bsReferenceDistance)의 값이 33인 경우, 채널 기준 거리 정보는 채널 디폴트 기준 거리를 지시한다.

또한, 채널 기준 거리 정보가 지시하는 채널 신호의 기준 거리가 달라짐에따라 앰비소닉 기준 거리 정보가 앰비소닉 신호의 기준 거리를 지시하는 방법도 달라질 수 있다. GHA 메타데이터가 포함하는 앰비소닉 기준 거리 정보(gha_bsReferenceDistance)는 다음의 표에 따라 앰비소닉 신호의 기준 거리를 지시할 수 있다. 앰비소닉 기준 거리 정보(gha_bsReferenceDistance)는 최소 472mm부터 최대 40318mm에 해당하는 거리를 지시할 수 있다. 또한, 앰비소닉 기준 거리 정보(gca_bsReferenceDistance)의 값이 33인 경우, 앰비소닉 기준 거리 정보는 앰비소닉 디폴트 기준 거리를 지시한다.

본 발명의 또 다른 실시 예로, 메타데이터는 선형 함수와 지수 함수가 조합된 수식을 사용하여 채널 신호의 기준 거리를 지시할 수 있다. 이때, 선형 함수와 지수 함수가 조합된 수식은 상대적으로 짧은 거리에서는 선형 함수의 특성이 지수 함수의 특정 보다 더 반영되고 상대적으로 먼 거리에서는 지수 함수의 특성이 선형 함수의 특성보다 더 많이 반영될 수 있다. 구체적으로 채널 기준 거리 정보는 다음 수식을 사용하여 채널 신호의 기준 거리를 지시할 수 있다.

y = alpha*b/Bref*Dref + (1-alpha)*10.^(h*(b-Bref))*Dref;

h = log10(1/(1-alpha)*(Dmax/Dref - alpha*Bmax/Bref))/(Bmax-Bref);

이때, y는 채널 신호의 기준 거리이고, 기준 거리의 단위는 미리 미터(mm)이다. 또한, Dref, Dmax 및 Bmax의 값은 다음과 같을 수 있다.

Dref = 2^(5/3), Dmax = 167000, Bmax = 255

또한, 위 수식에서 alpha가 0에서 1사이의 값으로 설정됨에 따라 지수 함수의 특성과 선형 함수의 특성의 비율이 조정될 수 있다. 구체적인 실시 예에서 alpha는 0.65일 수 있다.

앞서 설명한 바와 같이 채널 기준 거리 정보가 나타낼 수 있는 기준 거리의 셋은 오브젝트 거리 정보가 나타낼 수 있는 거리 값의 셋의 서브셋일 수 있다. 따라서, 또 다른 구체적인 실시 예에서 메타데이터는 오브젝트 거리 정보가 나타낼 수 있는 거리의 셋을 샘플링한 값을 사용하여 채널 신호의 기준 거리를 지시할 수 있다. 이에 대해서는 도 8을 통해 설명한다.

도 8은 본 발명의 일 실시 예에 따른 메타데이터의 채널 기준 거리 정보의 값, 오브젝트 거리 정보의 값, 및 채널 신호의 기준 거리 사이의 관계를 보여준다.

메타데이터의 채널 기준 거리 정보가 지시하는 기준 거리 사이의 간격은 JND(Just-noticable Difference)를 고려하여 설정될 수 있다. 이후 설명하는 실시 예들에서 앞서 설명한 실시 예들과 배치되는 설명이 없는 경우, 이후 설명하는 실시 예들과 앞서 설명한 실시 예들이 함께 적용될 수 있다. 구체적으로 메타데이터의 채널 기준 거리 정보가 지시하는 기준 거리 사이의 간격은 소리 감쇄에 의해 두 지점에서 소리 크기가 JND만큼 차이가 발생할 수 있는 거리 이상으로 설정될 수 있다. 이러한 실시 예에서 채널 신호의 기준 거리 셋은 다음 코드에 따라 오브젝트 신호의 거리의 셋으로부터 샘플링될 수 있다.

또한, 이러한 실시 예들에서 오브젝트 거리 정보는 지수 함수와 선형 함수가 조합된 함수를 사용하여 오브젝트 신호의 거리를 지시할 수 있다. 또한, 채널 기준 거리 정보가 지시하는 기준 거리 사이의 간격은 소리 감쇄에 의해 두 지점에서 소리의 크기가 차이가 0.7dB 이상 발생할 수 있도록 설정될 수 있다. 도 8은 이에 따라 설정된 메타데이터에서 채널 기준 거리 정보의 값(Bit), 오브젝트 거리 정보의 값(Obj_Distance_Index), 및 채널 신호의 기준 거리(Ch_Reference_Distance)간의 관계를 보여준다.

메타데이터 프레임의 채널 기준 정보(bs_reference_distance)는 다음의 표에 따라 채널 신호의 기준 거리(reference distance)를 지시할 수 있다. 채널 기준 거리 정보(bs_reference_distance)는 최소 0.5m부터 최대 36.1m에 해당하는 거리를 지시할 수 있다. 또한, 채널 기준 거리 정보(bs_reference_distance)의 값이 26인 경우, 채널 기준 거리 정보는 채널 디폴트 기준 거리인 3.175m를 지시한다.

GCA 메타데이터가 포함하는 채널 기준 거리 정보(gca_bsReferenceDistance)는 다음의 표에 따라 채널 신호의 기준 거리를 지시할 수 있다. 채널 기준 거리 정보(gca_bsReferenceDistance)는 최소 0.5m부터 최대 36.1m에 해당하는 거리를 지시할 수 있다. 또한, 채널 기준 거리 정보(gca_bsReferenceDistance)의 값이 26인 경우, 채널 기준 거리 정보는 채널 디폴트 기준 거리인 3.175m를 지시한다.

이때, distance(x)는 오브젝트 거리 정보의 값이 x인 경우, 오브젝트 거리 정보가 지시하는 기준 거리이다.

또한, 채널 기준 거리 정보가 지시하는 채널 신호의 기준 거리가 달라짐에 따라 앰비소닉 기준 거리 정보가 앰비소닉 신호의 기준 거리를 지시하는 방법도 달라질 수 있다. GHA 메타데이터가 포함하는 앰비소닉 기준 거리 정보(gha_bsReferenceDistance)는 다음의 표에 따라 앰비소닉 신호의 기준 거리를 지시할 수 있다. 앰비소닉 기준 거리 정보(gha_bsReferenceDistance)는 최소 0.5m부터 최대 36.1m에 해당하는 거리를 지시할 수 있다. 또한, 앰비소닉 기준 거리 정보(gca_bsReferenceDistance)의 값이 26인 경우, 앰비소닉 기준 거리 정보는 앰비소닉 디폴트 기준 거리인 3.175m를 지시한다.

앞서 설명한 실시 예들에서, 채널 기준 거리 정보 및 앰비소닉 기준 거리 정보는 6비트로 표현되었고, 오브젝트 거리 정보는 8비트로 표현되었다. 구체적인 실시 예에서 채널 기준 거리 정보 및 앰비소닉 기준 거리 정보는 7비트로 표현되었고, 오브젝트 거리 정보는 9비트로 표현될 수 있다.

메타데이터의 채널 기준 거리 정보가 8비트로 표현되는 경우에도 앞서 설명한 실시 예들이 적용될 수 있다. 구체적으로 메타데이터는 지수 함수를 사용하여 채널 기준 거리를 지시할 수 있다. 구체적으로 채널 기준 거리 정보는 해당 지수 함수의 지수의 값을 결정할 수 있다.

채널 신호의 기준 거리 값의 셋은 오브젝트 신호의 기준 거리 값의 셋의 서브셋일 수 있다. 채널 기준 거리 정보가 지시할 수 있는 최소 거리는 0보다 큰 미리 지정된 양수 일 수 있다. 이때, 최소 거리는 0.5m일 수 있다. 또한, 렌더러는 채널 기준 거리 정보가 정의되지 않은 채널 신호에 채널 디폴트 기준 거리 적용할 수 있다. 이때, 채널 디폴트 기준 거리는 미리 지정된 값일 수 있다. 미리 지정된 값은 오브젝트 디폴트 거리와 동일할 수 있다. 구체적으로, 미리 지정된 값은 3.1748m일 수 있다.

구체적인 실시 예에서 채널 기준 거리 정보는 다음의 수식을 이용하여 채널 신호의 기준 거리를 지시할 수 있다.

이때, Reference distance는 채널 신호의 기준 거리이고, 기준 거리의 단위는 미터(m)이다. bs_Reference_Distance는 채널 기준 거리 정보의 값이다.

이러한 채널 기준 거리 정보에 대한 실시 예들은 앰비소닉 기준 거리 정보에도 적용될 수 있다. 이러한 실시 예들에 적용되는 메타데이터의 신택스에 대해서는 도 9 내지 도 12를 통해 설명한다. 이후 설명에서 특별히 배치되는 언급이 없는 경우, 앞서 설명한 실시 예들이 함께 적용될 수 있다.

도 9는 본 발명의 또 다른 실시 예에 따라 메타데이터 관련 설정을 지시하는 메타데이터 컨피겨레이션(configuration)의 신택스를 보여준다.

앞서 설명한 바와 같이, 채널 기준 거리 정보는 7비트로 표현될 수 있다. 따라서 메타데이터 컨피겨레이션(configuration)의 채널 기준 거리 정보(bs_reference_distance)는 7비트를 통해 지시될 수 있다. 또한, 채널 디폴트 기준 거리를 지시하는 채널 기준 거리 정보(bs_reference_distance)의 값은 57일 수 있다. 이에 대해서는 추후 다시 설명한다. 채널 기준 거리 정보(bs_reference_distance)는 다음의 표에 따라 채널 신호의 기준 기리(reference distance)를 지시할 수 있다.

위에서 설명되지 않은 메타데이터 컨피겨레이션(configuration)의 신택스에 관한 부분은 도 4를 통해 설명한 실시 예에서가 적용될 수 있다.

도 10은 본 발명의 또 다른 실시 예에 따른 인트라 코딩 메타데이터 프레임(intracodedProdMetadataFrame)의 신택스를 보여준다.

앞서 설명한 바와 같이, 오브젝트 거리 정보는 9비트로 표현될 수 있다. 따라서 인트라 코딩 메타데이터 프레임(intracodedProdMetadataFrame)의 오브젝트 거리 정보(position_distance)는 9비트를 통해 지시될 수 있다. 또한, 오브젝트 디폴트 거리(default_distance) 역시 9비트를 통해 지시된다.

오브젝트 거리 정보(position_distance)는 다음의 표에 따라 오브젝트 신호의 거리(distance)를 지시할 수 있다.

위에서 설명되지 않은 인트라 코딩 메타데이터 프레임(intracodedProdMetadataFrame)의 신택스에 관한 부분은 도 5를 통해 설명한 실시 예가 적용될 수 있다.

도 11은 본 발명의 실시 예에 따른 싱글 다이나믹 메타데이터 프레임(singleDynamicProdMetadataFrame)의 신택스를 보여준다.

싱글 다이나믹 메타데이터 프레임(singleDynamicProdMetadataFrame)의 오브젝트 거리 정보(position_distance) 역시 9비트를 통해 지시될 수 있다. 위에서 설명되지 않은 싱글 다이나믹 메타데이터 프레임(singleDynamicProdMetadataFrame)의 신택스에 관한 부분은 도 6을 통해 설명한 실시 예가 적용될 수 있다.

도 12는 본 발명의 또 다른 실시 예에 따라 MPEG-H 3D Audio 표준에 따라 정의되지 않은 외부 렌더러가 사용하는 오브젝트 신호의 메타데이터인 GOA 메타데이터, 채널 신호의 메타데이터인 GCA 메타데이터, 및 앰비소닉 신호의 메타데이터인 GHA 메타데이터를 보여준다.

도 12(a)는 GOA 메타데이터를 보여준다. 오브젝트 거리 정보(goa_bsObjectDistance)는 9비트로 지시될 수 있다. GOA 메타데이터가 포함하는 오브젝트 거리 정보(goa_bsObjectDistance)는 다음의 표에 따라 오브젝트 신호의 거리를 지시할 수 있다. 이때, 오브젝트 거리 정보(goa_bsObjectDistance)는 최소 0부터 최대 167Km에 해당하는 거리를 지시할 수 있다.

도 12(b)는 GCA 메타데이터를 보여준다. GCA 메타데이터의 채널 기준 거리 정보(gca_bsReferenceDistance)는 채널 디폴트 기준 거리 이외의 값을 지시한다. 채널 기준 거리 정보(gca_bsReferenceDistance)는 7비트로 지시될 수 있다. GCA 메타데이터가 포함하는 채널 기준 거리 정보(gca_bsReferenceDistance)는 다음의 표에 따라 채널 신호의 기준 거리를 지시할 수 있다.

도 12(c)는 GHA 메타데이터를 보여준다. GHA 메타데이터의 앰비소닉 기준 거리 정보(gha_bsReferenceDistance)는 7비트로 지시될 수 있다. GHA 메타데이터가 포함하는 앰비소닉 기준 거리 정보(gha_bsReferenceDistance)는 다음의 표에 따라 앰비소닉 신호의 기준 거리를 지시할 수 있다.

도 13은 본 발명의 실시 예에 따라 제1 엘리멘트 신호를 포함하는 오디오 신호를 인코딩하는 오디오 신호 처리 장치가 메타데이터를 생성하는 동작을 보여준다.

오디오 신호 처리 장치는 제1 엘리멘트 신호의 기준 거리를 지시하는 제1 엘리멘트 기준 거리 정보를 설정한다(S1301). 오디오 신호 처리 장치는 제1 엘리멘트 기준 거리 정보를 포함하는 메타데이터를 생성한다(S1303). 이때, 오디오 신호는 제2 엘리멘트 신호를 포함할(capable of include) 수 있다. 또한, 메타데이터는 제2 엘리멘트 신호의 거리를 지시하는 제2 엘리멘트 거리 정보를 포함할(capable of include) 수 있다. 이때, 제1 엘리멘트 기준 거리 정보의 지시에 사용되는 비트 수는 제2 엘리멘트 거리 정보의 지시에 사용되는 비트 수보다 적을 수 있다. 구체적으로 제1 엘리멘트 기준 거리 정보를 나타내기 위해 필요한 비트 수는 7비트이고, 제2 엘리멘트 거리 정보를 나타내기 위해 필요한 비트 수는 9비트일 수 있다. 또한, 제1 엘리멘트 신호는 채널 신호이고, 제2 엘리멘트 신호는 오브젝트 신호일 수 있다. 또한, 제1 엘리멘트 신호는 앰비소닉 신호이고, 제2 엘리멘트 신호는 오브젝트 신호일 수 있다.

제1 엘리멘트 기준 거리 정보가 나타낼 수 있는 기준 거리의 셋(set)은 제2 엘리멘트의 거리 정보가 나타낼 수 있는 거리의 셋(set)의 서브셋(subset)일 수 있다. 이를 통해 렌더러가 제1 엘리멘트 신호와 제2 엘리멘트 신호 렌더링을 지원하기 위해 고려해야하는 기준 거리와 거리의 개수를 줄일 수 있다. 따라서 이러한 실시 예를 통해 렌더링 효율을 높일 수 있다.

제1 엘리멘트 기준 거리 정보를 지시하는 방법에 도 3 내지 도 12를 통해 설명한 채널 신호의 기준 거리 지시 방법에 관한 실시 예들 또는 앰비소닉 신호의 기준 거리 지시 방법에 관한 실시 예들이 적용될 수 있다. 또한, 제2 엘리멘트 거리 정보를 지시하기 위한 방법에 도 3 내지 도 12를 통해 설명한 오브젝트 신호의 거리 지시 방법에 관한 실시 예들이 적용될 수 있다.

구체적으로 제1 엘리멘트 기준 거리 정보는 지수 함수를 사용하여 제1 엘리멘트 신호의 기준 거리를 지시할 수 있다. 구체적으로 제1 엘리멘트 기준 거리 정보는 지수 함수의 지수의 값을 결정할 수 있다. 구체적인 실시 예에서, 제1 엘리멘트 기준 거리 정보는 다음 수식을 사용하여 상기 제1 엘리멘트 신호의 기준 거리를 지시할 수 있다. 오디오 신호 처리 장치는 제1 엘리멘트 기준 거리 정보가 다음 수식을 사용하여 제1 엘리멘트 신호의 기준 거리를 지시하도록 제1 엘리멘트 기준 거리 정보의 값을 설정할 수 있다.

이때, Refererence distance는 상기 제1 엘리멘트 신호의 기준 거리이고, 제1 엘리멘트 신호의 기준 거리의 단위는 미터(m)다. 또한, bs_Reference_Distance는 제1 엘리멘트 기준 거리 정보이고, 제1 엘리멘트 기준 거리 정보의 값은 0부터 127까지의 정수이다.

제2 엘리멘트 기준 거리 정보가 나타낼 수 있는 값은 0부터 511까지의 정수일 수 있다. 제2 엘리멘트 거리 정보의 값이 0인 경우, 상기 제2 엘리멘트 거리 정보는 상기 제2 엘리멘트 신호의 거리가 0임을 지시할 수 있다. 제2 엘리멘트 신호의 거리가 0인 경우, 오디오 신호 처리 장치는 제2 엘리멘트 거리 정보의 값을 0으로 설정할 수 있다. 제2 엘리멘트 거리 정보의 값이 1부터 511인 경우, 제2 엘리멘트 거리 정보는 다음 수식을 사용하여 상기 제2 엘리멘트 신호의 거리를 지시할 수 있다. 제2 엘리멘트 신호의 거리가 0이 아닌 경우, 오디오 신호 처리 장치는 제2 엘리멘트 거리 정보가 다음 수식에 따라 제2 엘리멘트 신호의 거리를 지시하도록 제2 엘리멘트 거리 정보의 값을 설정할 수 있다.

Distance = 0.01 * 2^(0.0472188798661443 *(Position_Distance - 1))

Distance는 제2 엘리멘트 신호의 거리이고, 제2 엘리멘트 신호의 거리의 단위는 미터(m)일 수 있다. 또한, Position_Distance는 제2 엘리멘트 거리 정보이고, 제2 엘리멘트 거리 정보의 값은 1부터 511까지의 정수 이다.

제1 엘리멘트 기준 거리 정보가 정의되지 않은 경우, 오디오 신호 처리 장치는 제1 엘리멘트 기준 거리 정보가 제1 엘리멘트 디폴트 기준 거리를 지시하는 것으로 간주할 수 있다. 또한, 제2 엘리멘트 거리 정보가 정의되지 않은 경우, 오디오 신호 처리 장치는 제2 엘리멘트 거리 정보가 제2 엘리멘트 디폴트 거리를 지시하는 것으로 간주할 수 있다. 제1 엘리멘트 디폴트 기준 거리와 상기 제2 엘리멘트 디폴트 거리는 같은 값일 수 있다.

제1 엘리멘트 기준 거리 정보가 지시할 수 있는 최소 기준 거리는 0보다 큰 미리 지정된 양수일 수 있다. 이때, 제2 엘리멘트 거리 정보가 지시할 수 있는 최소 거리는 0일 수 있다. 이를 통해 기준 거리의 영향이 미미한 미리 지정된 거리 이하의 거리는 하나의 값으로 지시하여, 제1 엘리멘트 기준 거리 정보를 나타내기 필요한 비트 수를 줄일 수 있다.

도 14은 본 발명의 실시 예에 따라 제1 엘리멘트 신호를 포함하는 오디오 신호를 렌더링하는 오디오 신호 처리 장치가 제1 엘리멘트 신호를 렌더링하는 동작을 보여준다.

오디오 신호 처리 장치는 오디오 신호와 제1 엘리멘트 신호의 기준 거리를 지시하는 제1 엘리멘트 기준 거리 정보를 포함하는 메타데이터를 획득한다(S1401). 이때, 오디오 신호는 제2 엘리멘트 신호를 포함할(capable of include) 수 있다. 또한, 메타데이터는 제2 엘리멘트 신호의 거리를 지시하는 제2 엘리멘트 거리 정보를 포함할(capable of include) 수 있다. 이때, 제1 엘리멘트 기준 거리 정보의 지시에 사용되는 비트 수는 제2 엘리멘트의 거리에 관한 정보의 지시에 사용되는 비트 수보다 적을 수 있다. 구체적으로 제1 엘리멘트 기준 거리 정보를 나타내기 위해 필요한 비트 수는 7비트이고, 제2 엘리멘트 거리 정보를 나타내기 위해 필요한 비트 수는 9비트일 수 있다. 또한, 제1 엘리멘트 신호는 채널 신호이고, 제2 엘리멘트 신호는 오브젝트 신호일 수 있다. 또한, 제1 엘리멘트 신호는 앰비소닉 신호이고, 제2 엘리멘트 신호는 오브젝트 신호일 수 있다.

제1 엘리멘트 기준 거리 정보가 지시하는 기준 거리의 셋(set)은 제2 엘리멘트의 거리에 관한 정보가 지시하는 기준 거리의 셋(set)의 서브셋(subset)일 수 있다. 이를 통해 렌더러가 제1 엘리멘트 신호와 제2 엘리멘트 신호 렌더링을 지원하기 위해 고려해야하는 기준 거리의 개수를 줄일 수 있다. 따라서 이러한 실시 예를 통해 렌더링 효율을 높일 수 있다.

구체적으로 제1 엘리멘트 기준 거리 정보는 지수 함수를 사용하여 제1 엘리멘트 신호의 기준 거리를 지시할 수 있다. 구체적으로 제1 엘리멘트 기준 거리 정보는 지수 함수의 지수의 값을 결정할 수 있다. 구체적인 실시 예에서, 제1 엘리멘트 기준 거리 정보는 다음 수식을 사용하여 제1 엘리멘트 신호의 기준 거리를 지시할 수 있다. 오디오 신호 처리 장치는 다음 수식에 따라 제1 엘리멘트 신호의 기준 거리를 획득할 수 있다.

제2 엘리멘트 거리 정보가 나타낼 수 있는 값은 0부터 511까지의 정수이다. 제2 엘리멘트 거리 정보의 값이 0인 경우, 제2 엘리멘트 거리 정보는 제2 엘리멘트 신호의 거리가 0임을 지시할 수 있다. 제2 엘리멘트 거리 정보의 값이 0인 경우, 오디오 신호 처리 장치는 제2 엘리멘트 신호의 거리를 0으로 판단할 수 있다. 이때, 제2 엘리멘트 거리 정보의 값이 1부터 511인 경우, 제2 엘리멘트 거리 정보는 다음 수식을 사용하여 제2 엘리멘트 신호의 거리를 지시할 수 있다. 제2 엘리멘트 거리 정보의 값이 1부터 511사이의 정수인 경우, 오디오 신호 처리 장치는 다음 수식에 따라 제2 엘리멘트 신호의 거리를 획득할 수 있다.

Distance = 0.01 * 2^(0.0472188798661443 *(Position_Distance - 1))

Distance는 제2 엘리멘트 신호의 거리이고, 제2 엘리멘트 신호의 거리의 단위는 미터(m)일 수 있다. 또한, Position_Distance는 제2 엘리멘트 거리 정보이다. 제2 엘리멘트 거리 정보의 값은 0부터 511까지의 정수이다.

제1 엘리멘트 기준 거리 정보가 정의되지 않은 경우, 오디오 신호 처리 장치는 제1 엘리멘트 기준 거리 정보가 제1 엘리멘트 디폴트 기준 거리를 지시하는 것으로 간주할 수 있다. 또한, 제2 엘리멘트 거리 정보가 정의되지 않은 경우, 오디오 신호 처리 장치는 제2 엘리멘트 거리 정보가 제2 엘리멘트 디폴트 거리를 지시하는 것으로 간주할 수 있다. 제1 엘리멘트 디폴트 기준 거리와 제2 엘리멘트 디폴트 거리는 같은 값일 수 있다.

오디오 신호 처리 장치는 제1 엘리멘트 기준 거리 정보를 기초로 제1 엘리멘트 신호를 렌더링한다(S1403). 구체적으로 오디오 신호 처리 장치는 제1 엘리멘트 기준 거리 정보를 기초로 제1 엘리멘트 신호가 렌더링된 음향의 라우드니스를 조정할 수 있다. 오디오 신호 처리 장치는 제1 엘리멘트 신호와 제2 엘리멘트 신호를 동시에 렌더링할 수 있다. 오디오 신호 처리 장치는 제1 엘리멘트 신호로부터 렌더링된 음향과 제2 엘리멘트 신호로부터 렌더링된 음향을 동시에 출력할 수 있다. 오디오 신호 처리 장치는 제1 엘리멘트 기준 거리 정보 및 제2 엘리멘트 거리 정보를 기초로 제1 엘리멘트 신호가 렌더링된 음향 출력의 라우드니스와 제2 엘리멘트 신호가 렌더링된 음향 출력의 라우드니스 각각을 조정할 수 있다. 이를 통해 오디오 신호 처리 장치는 제1 엘리멘트 신호가 렌더링된 음향 출력의 라우드니스와 제2 엘리멘트 신호가 렌더링된 음향 출력의 라우드니스 사이의 밸런스를 맞출 수 있다.

또한, 오디오 신호 처리 장치는 제1 엘리멘트 기준 거리 정보를 기초로 제1 엘리멘트 신호에 딜레이를 적용할 수 있다. 오디오 신호 처리 장치는 제1 엘리멘트 신호와 제2 엘리멘트 신호를 동시에 렌더링할 수 있다. 이때, 오디오 신호 처리 장치는 제1 엘리멘트 기준 거리 정보 및 제2 엘리멘트 거리 정보를 기초로 기초로 제1 엘리멘트 신호와 제2 엘리멘트 신호 각각에 딜레이를 적용하여 음향 지연 시간을 맞출 수 있다. 제1 엘리멘트 신호의 기준 거리 및 제2 엘리멘트 신호의 거리에 따라 청취자가 느껴야하는 거리감이 달라지기 때문이다.

또한, 오디오 신호는 앰비소닉 신호와 채널 신호를 모두 포함할 수 있다. 이때, 오디오 신호 처리 장치는 하나의 기준 거리 정보를 사용하여 앰비소닉 신호와 채널 신호를 동시에 렌더링할 수 있다. 구체적으로 오디오 신호 처리 장치는 동일한 기준 거리를 사용하여 앰비소닉 신호와 채널 신호를 동시에 렌더링할 수 있다. 또 다른 구체적인 실시 예에서 오디오 신호 처리 장치는 앰비소닉 신호와 채널 신호에 서로 다른 기준 거리를 적용하여 렌더링할 수 있다. 이 경우 기준 거리의 차이에 따른 음장 보정 및 라우드니스 보정이 수행될 수 있다. 또한 기준 거리의 차이에 따라 서로 다른 딜레이를 적용하여 음향 지연 시간을 맞출 수 있다. 또 다른 구체적인 실시 예에서 오디오 신호 처리 장치는 채널 기준 거리 정보를 기초로 채널 신호를 렌더링하고, 앰비소닉 기준 거리 정보를 기초로 앰비소닉 신호를 렌더링할 수 있다. 또한, 오디오 신호 처리 장치는 제1 엘리멘트 기준 거리 정보를 기초로 제2 엘리멘트 신호를 렌더링할 수 있다.

이상에서는 본 발명을 구체적인 실시 예를 통하여 설명하였으나, 당업자라면 본 발명의 취지 및 범위를 벗어나지 않고 수정, 변경을 할 수 있다. 즉, 본 발명은 멀티 오디오 신호에 대한 프로세싱 실시 예에 대하여 설명하였지만, 본 발명은 오디오 신호뿐만 아니라 비디오 신호를 포함하는 다양한 멀티미디어 신호에도 동일하게 적용 및 확장 가능하다. 따라서 본 발명의 상세한 설명 및 실시 예로부터 본 발명이 속하는 기술분야에 속한 사람이 용이하게 유추할 수 있는 것은 본 발명의 권리범위에 속하는 것으로 해석된다.

Claims

제1 엘리멘트 신호를 포함하는 오디오 신호를 렌더링하는 오디오 신호 처리 장치에서,
상기 오디오 신호와 제1 엘리멘트 기준 거리 정보를 포함하는 메타데이터를 획득하고, 상기 제1 엘리멘트 기준 거리 정보는 상기 제1 엘리멘트 신호의 기준 거리를 지시하고, 상기 제1 엘리멘트 기준 거리 정보를 기초로 상기 제1 엘리멘트 신호를 렌더링하는 프로세서를 포함하고,
상기 오디오 신호는 상기 제1 엘리멘트 신호와 동시에 렌더링될 수 있는 제2 엘리멘트 신호를 포함할 수 있고,
상기 메타데이터는 상기 제2 엘리멘트 신호의 거리를 지시하는 제2 엘리멘트 거리 정보를 포함할 수 있고,
상기 제1 엘리멘트 기준 거리 정보를 나타내기 위해 필요한 비트 수는 상기 제2 엘리멘트 거리 정보를 나타내기 위해 필요한 비트 수보다 적고,
상기 제1 엘리멘트 기준 거리 정보가 나타낼 수 있는 기준 거리의 셋(set)은 상기 제2 엘리멘트 거리 정보가 나타낼 수 있는 거리의 셋(set)의 서브셋(subset)이고,
상기 제1 엘리멘트 신호는 채널 신호 또는 앰비소닉 신호이고, 상기 제2 엘리멘트 신호는 오브젝트 신호이고,
상기제1 엘리멘트 신호의 기준 거리는 상기 오디오 신호가 표현하는 가상 공간 내의 스윗스팟에 청취자가 위치하는 경우에 상기 제1 엘리멘트 신호를 렌더링할 때 필요한 스피커 레이아웃의 둘레와 청취자 사이의 거리를 나타내고,
상기 제2 엘리멘트 신호의 거리는 상기 오디오 신호가 표현하는 가상 공간 내의 스윗스팟에 청취자가 위치하는 경우에 상기 제2 엘리멘트 신호를 렌더링할 때 필요한 스피커 레이아웃의 둘레와 청취자 사이의 거리를 나타내는
오디오 신호 처리 장치.
제1항에서,
상기 제1 엘리멘트 기준 거리 정보는 지수 함수를 사용하여 상기 제1 엘리멘트 신호의 기준 거리를 지시하는
오디오 신호 처리 장치.
제2항에서,
상기 제1 엘리멘트 기준 거리 정보는 상기 지수 함수의 지수의 값을 결정하는
오디오 신호 처리 장치.
제3항에서,
상기 제1 엘리멘트 기준 거리 정보를 나타내기 위해 사용되는 비트 수는 7비트이고, 제2 엘리멘트 거리 정보를 나타내기 위해 사용되는 비트 수는 9비트인
오디오 신호 처리 장치.
제4항에서,
상기 프로세서는
다음 수식을 사용하여 상기 제1 엘리멘트 기준 거리 정보로부터 상기 제1 엘리멘트 신호의 기준 거리를 획득하고
Reference distance = 0.01 * 2^(0.0472188798661443 *(bs_Reference_Distance + 119))
상기 Reference distance는 상기 제1 엘리멘트 신호의 기준 거리이고, 상기 제1 엘리멘트 신호의 기준 거리의 단위는 미터(m)이고,
상기 bs_Reference_Distance는 상기 제1 엘리멘트 기준 거리 정보이고,
상기 제1 엘리멘트 기준 거리 정보의 값은 0부터 127까지의 정수인
오디오 신호 처리 장치.
제5항에서,
상기 제2 엘리멘트 거리 정보가 나타낼 수 있는 값은 0부터 511까지의 정수이고,
상기 프로세서는
상기 제2 엘리멘트 거리 정보의 값이 0인 경우, 상기 제2 엘리멘트 신호의 거리가 0인 것으로 판단하고,
상기 제2 엘리멘트 거리 정보의 값이 1부터 511인 경우, 다음 수식을 사용하여 상기 제2 엘리멘트 거리 정보로부터 상기 제2 엘리멘트 신호의 거리를 획득하고
Distance = 0.01 * 2^(0.0472188798661443 *(Position_Distance - 1))
상기 Distance는 상기 제2 엘리멘트 신호의 거리이고, 상기 제2 엘리멘트 신호의 거리의 단위는 미터(m)이고,
상기 Position_Distance는 제2 엘리멘트 거리 정보이인
오디오 신호 처리 장치.
제1항에서,
상기 프로세서는
상기 제1 엘리멘트 기준 거리 정보가 정의되지 않은 경우, 상기 제1 엘리멘트 기준 거리 정보가 제1 엘리멘트 디폴트 기준 거리를 지시하는 것으로 간주하고,
상기 제2 엘리멘트 거리 정보가 정의되지 않은 경우, 상기 제2 엘리멘트 거리 정보가 제2 엘리멘트 디폴트 거리를 지시하는 것으로 간주하고,
상기 제1 엘리멘트 디폴트 기준 거리와 상기 제2 엘리멘트 디폴트 거리는 같은 값인
오디오 신호 처리 장치.
제1항에서,
상기 제1 엘리멘트 기준 거리 정보가 지시할 수 있는 최소 기준 거리는 0보다 큰 미리 지정된 양수인
오디오 신호 처리 장치.
제1항에서,
상기 제1 엘리멘트 신호를 포함하는 오디오 신호는 상기 제2 엘리멘트 신호를 포함하고,
상기 프로세서는
상기 제1 엘리멘트 신호와 상기 제2 엘리멘트 신호를 동시에 렌더링하는
오디오 신호 처리 장치.
제9항에서,
상기 프로세서는
상기 제1 엘리멘트 기준 거리 정보를 기초로 상기 제1 엘리멘트 신호가 렌더링된 음향 출력의 라우드니스를 조정하고, 상기 제2 엘리멘트 거리 정보를 기초로 상기 제2 엘리멘트 신호가 렌더링된 음향 출력의 라우드니스를 조정하는
오디오 신호 처리 장치.
제9항에서,
상기 프로세서는
상기 제1 엘리멘트 기준 거리 정보를 기초로 상기 제1 엘리멘트 신호에 딜레이를 적용하고, 상기 제2 엘리멘트 거리 정보를 기초로 상기 제2 엘리멘트 신호에 딜레이를 적용하는
오디오 신호 처리 장치.
제1항에서,
상기 제1 엘리멘트 신호는 채널 신호이고, 상기 제2 엘리멘트 신호는 오브젝트 신호인
오디오 신호 처리 장치.
제1항에서,
상기 제1 엘리멘트 신호는 앰비소닉 신호이고, 상기 제2 엘리멘트 신호는 오브젝트 신호인
오디오 신호 처리 장치.
제1항에서,
상기 제1 엘리멘트 신호는 채널 신호이고,
상기 오디오 신호는 앰비소닉 신호를 더 포함하고,
상기 프로세서는
상기 제1 엘리멘트 신호의 기준 거리를 기초로 상기 채널 신호와 상기 앰비소닉 신호를 렌더링하는
오디오 신호 처리 장치.
제1항에서,
상기 제1 엘리멘트 신호는 채널 신호이고,
상기 오디오 신호는 앰비소닉 신호를 더 포함하고,
상기 메타데이터는 상기 채널 신호의 기준 거리를 지시하는 채널 기준 거리 정보와 상기 앰비소닉 신호의 기준 거리를 지시하는 앰비소닉 기준 거리 정보를 포함하고,
상기 프로세서는
상기 채널 기준 거리 정보를 기초로 상기 채널 신호를 렌더링하고, 상기 앰비소닉 기준 거리 정보를 기초로 상기 앰비소닉 신호를 렌더링하는
오디오 신호 처리 장치.
제1항에서,
상기 프로세서는
상기 제1 엘리멘트 기준 거리 정보를 기초로 상기 제2 엘리멘트 신호를 렌더링하는
오디오 신호 처리 장치.
제1 엘리멘트 신호를 포함하는 오디오 신호를 인코딩하는 오디오 신호 처리 장치에서,
상기 제1 엘리멘트 신호의 기준 거리를 지시하는 제1 엘리멘트 기준 거리 정보를 설정하고, 상기 제1 엘리멘트 기준 거리 정보를 포함하는 메타데이터를 생성하는 프로세서를 포함하고,
상기 오디오 신호는 제2 엘리멘트 신호를 포함할 수 있고,
상기 메타데이터는 상기 제2 엘리멘트 신호의 거리를 지시하는 제2 엘리멘트 거리 정보를 포함할 수 있고,
상기 제1 엘리멘트 기준 거리 정보의 지시에 사용되는 비트 수는 상기 제2 엘리멘트 거리 정보의 지시에 사용되는 비트 수보다 적고,
상기 제1 엘리멘트 기준 거리 정보가 나타낼 수 있는 기준 거리의 셋(set)은 상기 제2 엘리멘트 거리 정보가 나타낼 수 있는 거리의 셋(set)의 서브셋(subset)이고,
상기 제1 엘리멘트 신호는 채널 신호 또는 앰비소닉 신호이고, 상기 제2 엘리멘트 신호는 오브젝트 신호이고,
상기제1 엘리멘트 신호의 기준 거리는 상기 오디오 신호가 표현하는 가상 공간 내의 스윗스팟에 청취자가 위치하는 경우에 상기 제1 엘리멘트 신호를 렌더링할 때 필요한 스피커 레이아웃의 둘레와 청취자 사이의 거리를 나타내고,
상기 제2 엘리멘트 신호의 거리는 상기 오디오 신호가 표현하는 가상 공간 내의 스윗스팟에 청취자가 위치하는 경우에 상기 제2 엘리멘트 신호를 렌더링할 때 필요한 스피커 레이아웃의 둘레와 청취자 사이의 거리를 나타내는
오디오 신호 처리 장치.
제17항에서,
상기 제1 엘리멘트 기준 거리 정보는 지수 함수를 사용하여 상기 제1 엘리멘트 신호의 기준 거리를 지시하는
오디오 신호 처리 장치.
제18항에서,
상기 제1 엘리멘트 기준 거리 정보는 상기 지수 함수의 지수의 값을 결정하는
오디오 신호 처리 장치.
제19항에서,
상기 제1 엘리멘트 기준 거리 정보를 나타내기 위해 필요한 비트 수는 7비트이고, 제2 엘리멘트 거리 정보를 나타내기 위해 필요한 비트 수는 9비트인
오디오 신호 처리 장치.
제20항에서,
상기 프로세서는
상기 제1 엘리멘트 기준 거리 정보가 다음 수식에 따라 상기 제1 엘리멘트 신호의 기준 거리를 지시하도록 상기 제1 엘리멘트 기준 거리 정보의 값을 설정하고,
Reference distance = 0.01 * 2^(0.0472188798661443 *(bs_Reference_Distance + 119))
상기 Reference distance는 상기 제1 엘리멘트 신호의 기준 거리이고, 상기 제1 엘리멘트 신호의 기준 거리의 단위는 미터(m)이고,
상기 bs_Reference_Distance는 상기 제1 엘리멘트 기준 거리 정보이고,
상기 제1 엘리멘트 기준 거리 정보의 값은 0부터 127까지의 정수인
오디오 신호 처리 장치.
제21항에서,
상기 제2 엘리멘트 거리 정보가 나타낼 수 있는 값은 0부터 511까지의 정수이고,
상기 프로세서는
상기 제2 엘리멘트 신호의 거리가 0인 경우, 상기 제2 엘리멘트 거리 정보의 값을 0으로 설정하고,
상기 제2 엘리멘트 신호의 거리가 0이 아닌 경우, 상기 제2 엘리멘트 거리 정보가 다음 수식에 따라 상기 제2 엘리멘트 신호의 거리를 지시하도록 상기 제2 엘리멘트 거리 정보의 값을 설정하고,
Distance = 0.01 * 2^(0.0472188798661443 *(Position_Distance - 1))
상기 Distance는 상기 제2 엘리멘트 신호의 기준 거리이고, 상기 제2 엘리멘트 신호의 거리의 단위는 미터(m)이고,
상기 Position_Distance는 제2 엘리멘트 거리 정보이고,
상기 제2 엘리멘트 거리 정보의 값은 1부터 511까지의 정수인
오디오 신호 처리 장치.
제17항에서,
상기 제1 엘리멘트 기준 거리 정보가 정의되지 않은 경우, 상기 제1 엘리멘트 기준 거리 정보는 제1 엘리멘트 디폴트 기준 거리를 지시하는 것으로 간주되고,
상기 제2 엘리멘트 거리 정보가 정의되지 않은 경우, 상기 제2 엘리멘트 거리 정보는 제2 엘리멘트 디폴트 거리를 지시하는 것으로 간주되고,
상기 제1 엘리멘트 디폴트 기준 거리와 상기 제2 엘리멘트 디폴트 거리는 같은 값인
오디오 신호 처리 장치.
제17항에서,
상기 제1 엘리멘트 기준 거리 정보가 지시할 수 있는 최소 기준 거리는 0보다 큰 미리 지정된 양수인
오디오 신호 처리 장치.
제17항에서,
상기 제1 엘리멘트 신호는 채널 신호이고, 상기 제2 엘리멘트 신호는 오브젝트 신호인
오디오 신호 처리 장치.
제17항에서,
상기 제1 엘리멘트 신호는 앰비소닉 신호이고, 상기 제2 엘리멘트 신호는 오브젝트 신호인
오디오 신호 처리 장치.