KR20210106546A

KR20210106546A - 딥 러닝 이미지 분석을 사용한 룸 음향 시뮬레이션

Info

Publication number: KR20210106546A
Application number: KR1020217023354A
Authority: KR
Inventors: 마틴 왈쉬; 이퍼 맥도나; 마이클 엠 굿윈; 에드워드 스테인; 피터 코코란
Original assignee: 디티에스, 인코포레이티드
Priority date: 2018-12-24
Filing date: 2019-12-13
Publication date: 2021-08-30
Anticipated expiration: 2039-12-13
Also published as: US20220101623A1; EP3903510C0; US12112521B2; WO2020139588A1; EP3903510A1; JP2022515266A; JP7631198B2; KR102804488B1; CN113439447A; EP3903510B1

Abstract

방법은 다음의 것을 포함한다: 실세계 환경의 이미지를 수신하는 것; 머신 러닝 분류기를 사용하여, 음향 환경 시뮬레이션을 위한 음향 프리셋 - 음향 프리셋 각각은 사운드 반향을 나타내는 음향 파라미터를 포함함 - 과 관련되는 분류를 생성하기 위해 이미지를 분류하는 것; 및 분류에 기초하여 음향 프리셋 중에서 음향 프리셋을 선택하는 것.

Description

딥 러닝 이미지 분석을 사용한 룸 음향 시뮬레이션

우선권 주장

본 출원은 2018년 12월 24일자로 출원된 미국 특허 가출원 제62/784,648호에 대한 우선권을 주장하는데, 상기 가출원은 참조에 의해 그 전체가 본원에 통합된다.

기술 분야

본 개시는 증강 현실을 위한 이미지 분류에 관한 것이다.

증강 현실(augmented reality; AR)은 실세계 또는 가상 세계를 병합하여, 실제의(actual) 또는 실제의(real) 물리적 오브젝트 및 디지털 또는 가상 오브젝트가 공존하며 실시간으로 상호 작용할 수도 있는 새로운 환경 및 시각화를 생성하는 것이다. AR은 진짜를 정확히 모방한 비주얼 및 오디오를 통해 가상 세계를 유저의 실세계 환경으로 가져온다. AR은 실제 음향 환경에서 가상 사운드 오브젝트로부터의 가상 사운드를 실제 사운드를 혼합한다. 가상 사운드 오브젝트로부터의 가상 사운드는, 즐거운 AR 경험을 보장하기 위해, 헤드폰을 통해 유저에게 플레이될 때 동등한 실세계 사운드와 매치해야 한다. 그렇지 않으면, 유저는 AR 경험의 저하를 경험한다. 종래의 기술은 가상 사운드를 동등한 실세계 사운드에 매치시키기 위해 복잡한 다단계 프로세스를 사용한다. 그러한 복잡도는, AR 시뮬레이션에 눈에 띄는 청각적 지연을 도입하는데, 이것은 유저 경험을 저하시킬 수도 있다. 또한, 복잡도는, 불리하게도, AR 디바이스에 대한 프로세싱 요건을, 따라서 AR 디바이스의 비용을 증가시킨다.

도 1a는 유저에게 AR 경험을 제공하도록 구성되는 예시적인 확장 현실(extended reality; XR) 시스템의 하이 레벨 블록도이다.
도 1b는, 유저에 의해 착용될 수도 있고 AR 경험을 유저에게 전달하도록 구성될 수도 있는 예시적인 AR 디바이스 또는 시스템의 사시도이다.
도 2는 음향 프리셋(acoustic preset)에 기초하여 XR 시스템에 의해 시뮬레이팅될 수도 있는 환경에 대한 예시적인 사운드 응답의 예시이다.
도 3은, XR 시스템에 의해 수행될 수도 있는 가상 사운드 오브젝트로부터의 사운드의 렌더링과 결합되는 이미지의 머신 러닝(machine learning; ML) 기반의 분류의 예시적인 방법의 예시이다.
도 4는 실세계 환경의 이미지를 음향 환경 시뮬레이션을 위한 음향 파라미터의 음향 프리셋으로 직접적으로 분류하기 위해 ML 분류를 사용하는 예시적인 방법의 플로우차트이다.
도 5는 실세계 환경의 이미지를 룸 타입(room type) - 이것으로부터, 그 다음, 음향 환경 시뮬레이션을 위한 음향 프리셋이 유도될 수도 있음 - 으로 분류하기 위해 ML 분류를 사용하는 예시적인 방법의 플로우차트이다.
도 6은, 실세계 환경의 장면 및 그들의 관련된 음향 프리셋의 캐시에 기초하여 실세계 환경의 이미지를 음향 환경 시뮬레이션을 위한 음향 파라미터의 음향 프리셋으로 직접적으로 분류하기 위해 ML 분류를 사용하는 예시적인 방법의 플로우차트이다.
도 7은, 실세계 환경의 이미지를, 음향 환경 시뮬레이션을 위한 일반적인/기본 음향 프리셋(primary acoustic preset) 및 보조 음향 수정자(secondary acoustic modifier)로 직접적으로 분류하기 위해 ML 분류를 사용하는 예시적인 방법의 플로우차트이다.
도 8은, 삼차원(3D) 메쉬(mesh) 및 3D 메쉬의 재료 속성(material property)으로부터 유도되는 음향 파라미터를 생성하도록 도 7의 방법을 확장시키는 예시적인 방법의 플로우차트이다.
도 9a는, 제1 트레이닝 시나리오에 따라 트레이닝 이미지에 기초하여 XR 시스템의 ML 분류기를 트레이닝시키고, 일단 트레이닝되면, ML 분류기를 사용하여 이미지를 분류하는 예시적인 방법의 예시이다.
도 9b는 도 9a의 트레이닝 방법에 대한 사전 트레이닝 데이터 준비(pre-training data preparation)의 예시이다.
도 10은 제2 및 제3 트레이닝 시나리오에 따라 ML 분류기를 트레이닝시키는 예시적인 방법의 예시이다.
도 11a는 제4 트레이닝 시나리오에 따라 ML 분류기를 트레이닝시키는 예시적인 방법의 예시이다.
도 11b는, 백투백(back-to-back) 180° 어안 렌즈(fish eye lens)를 포함하며, 두 개의 카메라 관점(camera perspective)에서 룸(room)의 360° 이미지를 캡쳐하는 예시적인 이미지 센서의 예시이다.
도 12는 도 1a의 XR 프로세서 실시형태와 비교하여 추가적인 기능성(functionality)을 포함하는 예시적인 XR 프로세서의 블록도이다.
도 13은 음향 파라미터에 기초하여 오디오 환경 시뮬레이션을 수행하기 위해 XR 프로세서에서 또는 그와 함께 사용될 수도 있는 예시적인 상호 작용식 오디오 엔진(interactive audio engine; IAE)의 블록도이다.
도 14는 도 12의 XR 프로세서에 의해 수행될 수도 있는 예시적인 음향 파라미터 미세 조정 프로세스(acoustic parameter refinement process)의 흐름도이다.
도 15는 도 12의 XR 프로세서에 의해 생성되는 예시적인 음향 파라미터의 테이블이다.
도 16은 캐싱된(cached) 음향 프리셋을 사용하는 예시적인 XR 프로세서의 블록도이다.
도 17은 음향 프리셋 사이를 전이하는 예시적인 방법의 플로우차트이다.
도 18은 음향 프리셋 사이를 전이하며 사용 가능한 이미지 안전성 체크를 수행하는 예시적인 방법의 플로우차트이다.
도 19는 교정된(calibrated) 장면 실시형태에서 음향 프리셋 사이를 전이하는 예시적인 방법의 플로우차트이다.
도 20은 트레이닝되지 않은 조건 상태의 ML 분류기로 시작하는, ML 분류기의 심층 신경망(deep neural network; DNN) 트레이닝의 예시적인 방법의 예시이다.
도 21은 XR 프로세서 및/또는 상호 작용식 오디오 엔진이 구현될 수도 있는 예시적인 컴퓨터 디바이스의 블록도이다.
도 22는 이미지를 음향 프리셋으로 직접적으로 분류하는 예시적인 요약 방법(summary method)의 플로우차트이다.
도 23은 도 22의 방법에서 분류되는 이미지와 관련하여 후속하는 또는 제2 이미지를 직접적으로 분류하는 예시적인 방법의 플로우차트이다.

예시적인 실시형태

확장 현실(XR)은 일반적으로 가상 현실(VR) 및 증강 현실(AR)을 포괄하며, 때로는 혼합 현실(mixed reality; MR)로서 또한 지칭된다. 오디오 신호 재생 시스템은 청취자에게 삼차원(3D) 오디오를 전달하도록 진화하였다. 3D 오디오에서, 사운드는 헤드폰 또는 이어폰(간략화를 위해, 본원에서는 일괄적으로 "헤드폰"으로서 지칭됨)에 의해 생성되며, 청취자에 의해 청각적으로 인식되는 실제의 또는 이론적 3D 공간 또는 환경에서의 음원의 가상의 배치를 수반할 수 있거나 또는 포함할 수 있다. 예를 들면, 가상화된 사운드는 3D 오디오 프로세싱된 사운드를 듣는 청취자의 위, 아래, 또는 심지어 후방에서 제공될 수 있다. 헤드폰을 통한 종래의 오디오 재생은, 청취자의 머리 내부에서 비롯되는 또는 나오는 것으로 인식되는 사운드를 제공하는 경향이 있다. 한 예에서, 헤드폰의 종래의 스테레오 쌍을 사용하는 것을 비롯하여, 헤드폰에 의해 전달되는 오디오 신호는, 예컨대 인식된 공간 사운드 환경을 청취자에게 제공하기 위해, 3D 오디오 효과를 달성하도록 특별히 프로세싱될 수 있다.

3D 오디오 헤드폰 시스템은, 예컨대, 실제 음원이 존재하지 않는 로컬 또는 가상 환경의 특정한 위치에서 음원의 인식을 청취자에게 제공하기 위해, VR 애플리케이션에 대해 사용될 수 있다. 유사하게, 3D 오디오 헤드폰 시스템은, 실제 음원이 존재하지 않는 위치에서 청취자에게 음원의 인식을 제공하기 위해, 그러나 청취자가 로컬 환경에서 하나 이상의 실제 사운드를 여전히 적어도 부분적으로 인식하는 방식으로, AR 애플리케이션에 대해 사용될 수 있다. VR 또는 AR을 위한 컴퓨터 생성 오디오 렌더링은, 예컨대 컴퓨터 뮤직 및 건축 음향(architectural acoustic)의 분야에서의 이전의 개발 위에 구축되며 그로부터 확장되는, 게이밍 및 가상 현실 오디오 렌더링 시스템 및 애플리케이션 프로그래밍 인터페이스에서의 신호 프로세싱 기술 개발을 활용할 수 있다. 유저에게 향상된 청취 경험을 제공하기 위해, 다양한 입체 음향(binaural) 기법, 인공 반향(artificial reverberation), 물리적 룸 음향 모델링(physical room acoustic modeling), 및 청각화 기법(auralization technique)이 적용될 수 있다. VR 또는 AR 신호 프로세싱 시스템은, 사운드가, 헤드폰으로부터 또는 청취자의 머리 내부의 한 위치로부터 나오는 것이 아니라, 로컬 환경 내의 외부 소스로부터 나오는 것으로 유저에 의해 인식되도록, 몇몇 사운드를 재생하도록 구성할 수 있다.

VR 3D 오디오와 비교하여, AR 오디오는, 예컨대 로컬 청취 환경의 음향과 실질적으로 일치하는 시뮬레이팅된 환경 음향 및 소스-환경 상호 작용을 제공함으로써, 참가자의 불신의 정지를 조장하는 추가적인 도전 과제를 수반한다. 이것은, 가상의 또는 추가된 신호에 대한 오디오 신호 프로세싱을, 신호가 유저의 환경을 포함하는 또는 표현하는, 그 결과 신호가 환경에서 헤드폰을 통해 자연적으로 발생하는 또는 재생되는 다른 사운드 쉽게 구별 가능하지 않은 방식으로 제공하는 도전 과제를 제시한다. 그러한 오디오 신호 프로세싱은, 주어진 청취 환경에 대한 감쇠 시간(decay time), 반향 음량 특성(reverberation loudness characteristic), 및/또는 반향 이퀄라이제이션 특성(reverberation equalization characteristic)(예를 들면, 반향의 스펙트럼 콘텐츠)을 비롯한 반향 속성을 매치시키고 그것을 적용하는 것에 의해, 가상 음장(virtual sound field)에서 정확한 음원을 제공한다. 시청각 AR 애플리케이션에서, 컴퓨터 생성 사운드 오브젝트("가상 사운드 오브젝트"로서 지칭됨)는, 뷰어(viewer)/청취자에 의해 자연스럽게 들리는 물리적 환경과 혼합되도록 음향학적으로 투명한 헤드폰을 통해 렌더링될 수 있다. 그러한 혼합은, 로컬 환경 음향과 매치시키기 위한 또는 그것을 근사하기 위한 입체 음향 인공 반향 프로세싱을 포함할 수 있거나 또는 사용할 수 있다.

본원에서 제시되는 실시형태는, 물리적 로컬 환경 음향과 충실히 매치하도록 또는 그것을 근사하도록 3D 오디오 렌더링 알고리즘 또는 시뮬레이션을 확장하기 위한 실용적이고 효율적인 접근법을 제공한다. 실시형태는 상기 언급된 문제 및/또는 도전 과제에 대한 솔루션을 제공하며, 또한 다음 설명으로부터 명백해질 이점을 제공한다. 실시형태는, 예를 들면, VR 및 AR과 같은 3D 오디오 애플리케이션에서 사용될 수도 있다. 실시형태는, 이미지 센서에 의해 캡쳐되는 로컬 환경의 이미지로부터 직접적으로, 반향 특성과 같은 로컬 환경의 음향 속성을 예측하기 위해, 머신 러닝(ML) 기술을 사용한다. 그 다음, 실시형태는, 로컬 환경의 실제 음향과 매치시키는 또는 그것을 근사하는 환경의 음향 시뮬레이션에서 예측된 음향 속성을 사용할 수도 있다. 예측된 음향 속성에 기초하여, 음향 환경 시뮬레이션은, 헤드폰을 통해 청취자에 의해 인식될 때, 가상 사운드를 로컬 환경과 매끄럽게 혼합한다.

더 구체적으로, 본원에서 제시되는 실시형태는, 이미지 센서를 사용하여 미지의 환경의 음향 속성을 정확하게 예측하도록 ML 분류기의 하나 이상의 신경망을 트레이닝시키기 위해 ML 기술을 사용한다. 그 다음, 예측된 음향 속성은, 가상 사운드 오브젝트에 대한 음향 컨텍스트를, 그 환경 내에서 실시간으로 생성되는 음향 환경 시뮬레이션의 형태로 생성하기 위해 사용된다. 실시형태는 유리하게는: 일반적으로 XR 디바이스 상에서 이용 가능한 카메라 센서를 사용하고; Unity(유니티) 및 Unreal(언리얼) 엔진과 같은 머신 러닝 엔진에서 사용되는 통상적인 오디오 플러그인의 사용을 허용하고; 종래의 기술과 비교하여, 실시간 AR 환경에서 가상 사운드를 동등한 실세계 사운드와 매치시키는 것과 관련되는 복잡도, 프로세싱 요건, 및 지연을 감소시키고; 이미지 센서 이용 가능성에 따라 확장 가능한 구현을 제공하고; 그리고 딥 러닝 추론 엔진으로서 구현될 수도 있다.

시스템 레벨 설명

하이 레벨에서, 본원에서 제시되는 실시형태는, 실세계(즉, 실제) 환경의 이미지를, 음향 환경 시뮬레이션(acoustic environment simulation; AES)을 위한 음향 파라미터의 세트를 나타내는 음향 프리셋으로 직접적으로 분류하기 위해 ML 기술을 활용한다. 음향 파라미터의 세트는 AES를 수행하기에 충분한 속성의 세트를 나타낸다. AES는 음향 프리셋의 음향 파라미터의 세트에 기초하여 실세계 환경의 사운드 응답을 시뮬레이팅하거나 또는 모델링한다. 음향 프리셋은 사운드 응답의 파라메트릭 표현(parametric representation)이다. AES는, 사운드 응답을, 실세계 환경에서 (가상으로) 배치되는 가상 사운드 오브젝트로부터의 사운드에 적용하여, 사운드를, 헤드폰을 통해 유저에게 플레이될 때, 사실적으로 가상 사운드 오브젝트로부터 비롯되는 것처럼 보이는 사실적인 사운드로 변환한다. 상기 언급된 실세계 환경은, 룸, 강당, 콘서트 홀, 야외 극장, 및 등등과 같은, 그러나 이들로 제한되지는 않는, 반향 품질을 가진 임의의 실세계 환경 또는 공간을 포함한다. 룸은 부엌, 거실, 식당(dining room), 욕실, 및 등등과 같은 가정 내의 룸을 또한 포함할 수도 있다. 룸은 사무실 공간, 및 등등을 또한 포함할 수도 있다.

도 1a를 참조하면, 본원에서 제시되는 실시형태에 따른, 유저에게 AR 경험을 제공하도록 구성되는 예시적인 XR 시스템(100)의 하이 레벨 블록도가 있다. 실시형태가 주로 AR 애플리케이션의 맥락에서 설명되지만, 실시형태는 VR 애플리케이션에도 동등하게 적용된다. 도 1a에서, 파선(dashed-line)은 일반적으로 파라메트릭 흐름, 예를 들면, 음향 파라미터의 흐름을 나타내고, 한편, 실선은 일반적으로 이미지 및 사운드 신호 흐름을 나타낸다.

XR 시스템(100)은 이미지 또는 비디오(일괄적으로 "이미지")(103)의 시퀀스를 캡쳐하기 위한 이미지 센서(102), AR 디스플레이(104), 좌측 및 우측 헤드폰을 포함하는 헤드셋(106), 옵션 사항인 위치 센서(107), 및 이미지 센서, AR 디스플레이, 헤드셋, 및 위치 센서에 커플링되며 이들과 통신하는 XR 프로세서 또는 프로세서(108)를 포함한다. XR 프로세서(108)는, (i) 본원에서 제시되는 실시형태에 따라 이미지(103)를 음향 프리셋(122)으로 분류하기 위한 하나 이상의 신경망을 포함하는 ML 기반의 음향 환경 분류기(120)(간단히 "ML 분류기"(120)로서 지칭됨), 및 상호 작용식 오디오 엔진(IAE)(124)을 포함한다. IAE(124)는 도 1a에서 도시되는 바와 같이 XR 프로세서(108)의 일부로서 구현될 수도 있거나, 또는 XR 프로세서로부터 분리될 수도 있다. 한 예에서, ML 분류기(120)는 AlexNet(알렉스넷), GoogLeNet(구글넷), 및 ResNet50(레스넷50)과 같은 하나 이상의 컨볼루션 신경망(convolutional neural network; CNN)을 포함할 수도 있다. 다른 예에서, ML 분류기(120)는 본원에서 설명되는 바와 같이 이미지를 분류하기에 적절한 비 CNN(non-CNN) 신경망을 포함한다. IAE(124)는 ML 분류기(120)로부터의 음향 프리셋(122)에 기초하여 AES(126)를 생성하거나 또는 수행하고, 또한 실세계 환경의 장면으로의 가상의 배치를 위한 하나 이상의 가상 사운드 오브젝트(128)를 생성한다.

이미지 센서(102)는 실세계 환경의 이미지(103)의 시퀀스를 캡쳐하기 위한 비디오 카메라를 포함할 수도 있다. 이미지 센서(102)는, 상이한 유리한 지점으로부터 실세계 환경의 상이한 장면의 이미지(103)를 캡쳐하기 위해, 실세계 환경에서 상이한 위치 및 방위(일괄적으로 "밴티지 포인트(vantage point)")에 배치될 수도 있다. 예를 들면, 이미지 센서(102)는, AR 경험의 대상인 유저에 의해 착용되는 비디오 카메라를 포함할 수도 있고, 그 결과, 비디오 카메라는, 유저가 실세계 환경에서 이동함에 따라, 실세계 환경의 상이한 장면을 캡쳐하도록 동작한다. 위치 센서(107)는, 환경에서, 유저를 비롯한 하나 이상의 오브젝트의 위치 및 방위를 감지하거나 또는 결정하고, 오브젝트의 위치 및 방위를 나타내는 위치 정보(114)를 XR 프로세서(108)로 제공한다.

하이 레벨에서, 동작시, XR 프로세서(108)는, 이용 가능한 경우, (i) 실세계 환경의 이미지(103), (ii) 가상 사운드 오브젝트(128)로부터의 사운드(즉, 사운드 신호), 및 (iii) 위치 정보(114)를 프로세싱하여, 가상 사운드 오브젝트 및 다른 가상 정보로 증강되는 실세계 환경의 장면을 나타내는 비디오 신호(136) 및 사운드 신호(138)를 생성한다. AR 디스플레이(104)는 비디오 신호(136)를 비디오로 변환하고 비디오를 유저에게 플레이한다. 헤드셋(106)의 헤드폰은 사운드 신호(138)를 사운드로 변환하고 사운드를 유저에게 플레이한다. 더 구체적으로, XR 프로세서(108)의 ML 분류기(120)는, 이미지(103)를 음향 프리셋(122)으로 분류하기 위해 딥 러닝 신경망 기술을 활용한다. 음향 프리셋(122)의 각각은, 실세계 환경의 사운드 속성을 나타내는 음향 파라미터, 예컨대 반향("reverb") 파라미터의 각각의 세트를 나타낸다. IAE(124)는 음향 프리셋(122)에 기초하여 AES(126)를 수행하여, 실세계 환경에 대한, 반향을 비롯한 음향 응답을 시뮬레이팅하거나 또는 모델링한다. IAE(124)는 실세계 환경의 장면 안으로 다양한 가상 위치에서 배치되는 하나 이상의 가상 사운드 오브젝트(128)를 또한 생성한다. AES(126)는 가상 사운드 오브젝트(128)에 의해 생성되는 사운드 신호에 사운드 응답을 적용하여, 가상 사운드 오브젝트로부터의 사운드 신호를, 가상 사운드 오브젝트에 대한 사실적인 사운드를 전달하는 사운드 신호(118)로 변환한다. 즉, AES(126)는, 적어도, 예를 들면, 가상 사운드 오브젝트에 대한 사운드 반향을 모델링한다.

도 1b를 참조하면, 유저에 의해 착용될 수도 있으며 AR 경험을 유저에게 전달하기 위해 사용될 수도 있는 AR 디바이스(150)의 사시도가 있다. 장치(150)는, 도 1b에서 도시되지 않는 내장 XR 프로세서에 모두 커플링되는, 광각 추적 카메라(160), 적색, 녹색, 청색(red, green, blue; RGB) 카메라(164), 마이크 어레이(168), 및, 스테레오 헤드폰(170)을 포함한다. AR 디바이스(150)는 XR 프로세서에 커플링되는 비행 시간 깊이 센서(time of flight depth sensor) 및 추가적인 입체 카메라를 또한 포함할 수도 있다.

도 2를 참조하면 음향 프리셋(122)에 기초하여 AES에 의해 시뮬레이팅될 수도 있는 실세계 환경에 대한 일반적인 사운드 응답(200)의 예시가 있다. 사운드 응답(200)은 실세계 환경의 음원으로부터 비롯되는 사운드 임펄스에 응답하여 발생한다. 사운드 응답(200)은, 음원으로부터 떨어져 이격되어 있는 실세계 환경의 청취자 위치에서 기록될 수도 있다. 사운드 응답(200)은 직접 경로(direct path; DP) 사운드, 직접 경로 사운드를 뒤따르는 조기 반사(early reflection)를 포함하는 반사(reflection; REF), 및 반사를 뒤따르는 반향 에너지 또는 반향(reverberation; REV)을 포함한다. 반사(REF)는 직접 경로 사운드(DP)가 발생한 때로부터 반사 지연 이후에 시작되고, 반향(REV)은 반사(REF)가 시작된 때로부터 반향 지연 이후에 시작된다. 반향(REV)의 진폭은 반향의 감쇠 시간에 따라 감쇠한다. 본원에서 제시되는 실시형태에서, AES(126)는, 가상 사운드 오브젝트(128)로부터의 사운드와 관련한 직접 경로 사운드, 조기 반사, 및 반향을 시뮬레이팅/표현하기 위해, 다른 음향 파라미터에 더하여 음향 프리셋(122)의 음향 파라미터를 활용한다.

도 3은, ML 분류기(120) 및 IAE(124)에 의해 수행될 수도 있는, 이미지(103)를 직접적으로 음향 프리셋(122)으로 ML 기반으로 분류하는, 그리고 가상 사운드 오브젝트(128)로부터의 사운드를 렌더링하는 예시적인 방법(300)의 예시이다. 방법(300)은, ML 분류기(120)가 이미지를 음향 프리셋으로 직접적으로 분류하도록 선험적 트레이닝 동작에서 이미 트레이닝되었다는 것을 가정한다. 간단히 말해서, 트레이닝은 음향 프리셋 중 상이한 음향 프리셋을 사용하여 라벨링되는(labeled) 상이한 이미지에 대해 ML 분류기(120)를 트레이닝시키는 것을 포함한다. 한 예에서, 음향 프리셋은 라벨(L1-LM)과 각각 관련되는 M 개의, 예를 들면, 10 개, 20 개, 및 등등의 음향 프리셋(P1-PM)을 포함할 수도 있다. 각각의 음향 프리셋(Pi)은 음향 환경 시뮬레이션, 예를 들면, AES(126)를 위해 사용되는 음향 파라미터(AP1-APN)의 세트를 나타낸다. 라벨(L1-LM) 및 음향 프리셋(P1-PM)(및 그들의 관련된 음향 파라미터(AP1-APN)의 세트)은 XR 프로세서(108)의 메모리에 저장될 수도 있다. 음향 파라미터(AP1-APN)는 주어진 음향 프리셋(Pi)에 대한 각각의 값을 가지며, 값은 음향 프리셋(P1-PM)에 걸쳐 변한다. 음향 파라미터(AP1-APN)는 적어도 음향 반향 파라미터를 포함할 수도 있다. 일반적으로, 반향 파라미터는, 예를 들면, 반향 감쇠 시간, 반향 음량 특성, 및/또는 반향 이퀄라이제이션 특성(예를 들면, 반향의 스펙트럼 콘텐츠)을 포함할 수도 있다. 더 구체적으로, 반향 파라미터는, 고주파 감쇠(high frequency attenuation) 및 감쇠 시간, 저주파 감쇠 및 감쇠 시간, 댐핑(damping), 확산, 밀도, 룸 사이즈, 및 등등을 포함할 수도 있다. 반향 파라미터는, 상호 작용식 3D 오디오 렌더링 가이드라인 레벨 2.0(Interactive 3D Audio Rendering Guidelines Level 2.0; I3DL2)과 같은, 임의의 공지된 또는 지금부터 개발되는 음향 관련 표준에서 정의되는 바와 같은 파라미터를 포함할 수도 있다.

음향 파라미터(AP1-APN)는, 하나 이상의 사운드 반사 파라미터/계수, 하나 이상의 사운드 흡수 파라미터/계수, 및 등등과 같은 추가적인 음향 파라미터를 포함할 수도 있다.

302에서, XR 프로세서(108)는 AES를 위한 디폴트 또는 초기 음향 프리셋으로서 음향 프리셋(P1-PM) 중 하나를 선택하거나 또는 확립한다. 디폴트 음향 프리셋의 음향 파라미터(AP1-APN)는 초기 음향 파라미터를 나타낸다.

304에서, ML 분류기(120)는 이미지 센서(102)에 의해 캡쳐되는 시퀀스 이미지(103) 중에서 한 이미지를 수신한다. 정상 상태 동작에서, 이미지는 방법(300)을 통해 순차적으로 프로세싱될 이미지(103)의 시퀀스 중의 이전의 그리고 미래의 이미지 중의 현재의 이미지일 수도 있다.

"추론"으로서 지칭되는 306에서, (사전 트레이닝된) ML 분류기(120)는 이미지를 음향 프리셋(P1-PM)에 대응하는 다수의 (현재의) 분류의 세트로 직접적으로 분류한다. 분류의 세트는, 라벨 중의 각각의 라벨과 관련되는 신뢰도 레벨(C1-CN)을 갖는 음향 프리셋(P1-PM)을 나타내는 라벨(L1-LM)을 단순히 포함할 수도 있다. 라벨(L1-LM)은 (공지된) 음향 프리셋(P1-PM) 중의 각각의 음향 프리셋에, 따라서 음향 프리셋의 (공지된) 음향 파라미터(AP1-APN)에 액세스하기 위해 사용될 수도 있다. 예를 들면, 음향 프리셋(P1-PM)은 인덱싱되도록 저장될 수도 있고 따라서 라벨(L1-LM)에 기초하여 재시도될 수도 있다. 신뢰도 레벨(Ci)은 관련된 라벨(Li)/음향 프리셋(Pi)가 이미지에 대해 정확할 확률, 즉, 이미지가 라벨(Li)/음향 프리셋(Pi)으로 정확하게 분류되었을 확률을 나타낸다. 이러한 방식으로, 분류는, 경판정(hard decision)이 아니라, 연판정(soft decision)으로서 간주될 수도 있다.

308에서, XR 프로세서(108)는, (현재의) 선택된 라벨/음향 프리셋을 생성하기 위해, 분류 중의 신뢰도 레벨(C1-CN) 중에서 가장 큰 신뢰도 레벨과 관련되는 라벨/음향 프리셋을 선택한다. 선택된 음향 프리셋은 동작(302)의 디폴트 음향 프리셋을 대체한다. 선택된 음향 프리셋은 메모리에서 검색된다(즉, 선택된 프리셋의 음향 파라미터(AP1-APN)가 메모리에서 검색된다).

310에서, XR 프로세서(108)는 선택된 음향 프리셋을 사용하여, 즉, 선택된 음향 프리셋의 파라미터(AP1-APN)를 사용하여 IAE(124)를 업데이트한다.

방법(300)은, 이미지(103)의 시퀀스 중 다음 번 이미지가 분류를 위해 도달하면 순차적으로 반복되어, 이미지의 시퀀스에 대응하며, AES(126)를 위해 IAE(124)에 순차적으로 전달되는 분류 결과의 시퀀스를 생성한다.

방법(300)의 변형예는, IAE(124)에 대한 음향 프리셋 업데이트에 대해, 사전 결정된 신뢰도 레벨 임계치의 조건을 붙이는데, 이것은 연속적인 이미지를 분류하기 위해 방법이 반복될 때 IAE에 제공되는 업데이트에 히스테리시스를 도입할 수도 있다. 더 구체적으로, 변형예는, 하나 이상의 (현재의) 분류가 신뢰도 레벨 임계치를 초과하는 신뢰도 레벨을 갖는 경우에만 IAE(124)를 업데이트하는데, 이 경우 동작(308 및 310)은 상기에서 설명되는 바와 같이 진행된다. 그렇지 않으면, 변형예는 IAE(124)를 업데이트하지 않는다, 즉, 변형예는, 신뢰도 레벨 임계치를 초과한 IAE에 대한 마지막, 이전 업데이트를 단순히 유지한다. 분류가 확률로서 신뢰도 레벨을 나타내는 또는 그와 관련되는 소프트맥스(softmax) 값(즉, 연판정)을 포함한다고 가정하면, 신뢰도 레벨 임계치는, 예를 들면, 0.7의 확률과 동일하게 설정될 수도 있다. 그 경우, 대응하는 확률이 0.7을 초과하는 경우에만, 업데이트가 발생한다. 히스테리시스를 추가하기 위해, 업데이트는 (동작(306)을 통해) 연속 분류의 1을 초과하는 사전 결정된 수에 걸친 평균 신뢰도 레벨이 0.7을 초과하는 경우에만 발생할 수도 있다.

분류 플로우차트

ML 기술을 사용하여 이미지를 분류하는 다양한 방법이 이제 도 4 내지 도 7의 플로우차트와 관련하여 설명된다. 방법은 이미지를 상기에서 설명되는 음향 프리셋(P1-PM)을 나타내는 분류로 분류하기 위해 수행될 수도 있다. 방법은 XR 시스템(100)에 의해 수행될 수도 있다.

도 4는, 실세계 환경의 이미지를, AES(예를 들면, AES(126))에 대한 음향 파라미터의 "가장 잘 매치하는" 음향 프리셋으로 직접적으로 분류하기 위해 ML 분류를 사용하는 예시적인 방법(400)의 플로우차트이다. 방법(400)은 방법(300)과 관련하여 상기에서 설명되는 동작을 요약한다. 방법(400)은, 상이한 실세계 환경의 많은 이미지에 대해 트레이닝된 그리고 음향 프리셋(P1-PM) 중 다양한 음향 프리셋을 사용하여 라벨링된 ML 분류기(예를 들면, ML 분류기(120))를 가정하며, 그 결과, ML 분류기는, 트레이닝의 결과로서, 개입하는 분류 또는 동작 없이, 이미지를 음향 프리셋으로(즉, 음향 프리셋의 음향 파라미터로) 직접적으로 분류하도록 구성된다.

402에서, 음향 프리셋(P1-PM) 중에서 초기 음향 프리셋이 확립된다.

404에서, 실세계 환경의 장면의 이미지가 캡쳐된다.

406에서, 딥 러닝 신경망 추론을 사용하여, (404로부터 수신되는) 이미지는 음향 프리셋(P1-PM) 및 그들의 각각의 신뢰도 레벨(C1-CN)을 나타내는 M 개의 분류로 직접적으로 분류된다. 신뢰도 레벨(C1-CN) 중에서 가장 높은 신뢰도 레벨과 관련되는 음향 프리셋(P1-PM) 중의 음향 프리셋은, 이미지에서 묘사되는 실세계 환경에 "가장 잘 매치하는" 음향 프리셋으로 간주된다. 즉, 가장 잘 매치하는 음향 프리셋에 기초하여 AES(126)에 의해 생성되는 시뮬레이팅된 사운드 응답은, 다른 음향 프리셋 중 임의의 것에 기초하여 생성될 것보다, 실세계 환경의 실제 사운드 응답에 더 가깝다. 408에서, 가장 잘 매치하는 음향 프리셋은, 분류/음향 프리셋과 관련되는 신뢰도 레벨에 기초하여 식별/선택될 수도 있다.

408에서, 예를 들면, 도 3과 관련하여 상기에서 설명되는 바와 같이, 가장 잘 매치하는 음향 프리셋을 사용하여 AES(126)를 업데이트할지의 여부가 결정된다. AES(126)를 업데이트하는 것이 결정되면, 가장 잘 매치하는 음향 프리셋은 AES로 제공되고, 따라서, 이전 음향 프리셋을 대체한다. 그렇지 않으면, AES(126)는 가장 잘 매치하는 음향 프리셋을 사용하여 업데이트되지 않고, AES는 이전의 가장 잘 매치하는 음향 프리셋을 사용한다(즉, 이전 음향 프리셋이 대체되지 않는다).

408로부터, 흐름 제어는 404로 복귀하고 프로세스는 다음 번 이미지에 대해 반복된다.

도 5는 실세계 환경의 이미지를 룸 타입(room type) - 이것으로부터, 그 다음, 음향 환경 시뮬레이션을 위한 음향 프리셋이 유도될 수도 있음 - 으로 분류하기 위해 ML 분류를 사용하는 예시적인 방법의 플로우차트이다. 방법(500)은, 룸 타입(예를 들면, 부엌, 욕실, 거실, 및 등등)을 사용하여 라벨링된 상이한 실세계 환경의 이미지에 대해 트레이닝된 ML 분류기를 가정하며, 그 결과, ML 분류기는, 트레이닝의 결과로서, 이미지를 룸 타입으로 분류하도록 구성된다. 방법(500)은 또한, 음향 프리셋(P1-PM)의 각각의 음향 프리셋이 전술한 분류로부터 유래하는 룸 타입에 할당될 수도 있거나, 또는 그 룸 타입으로부터 유도될 수도 있다는 것을 가정한다.

502에서, 음향 프리셋(P1-PM) 중에서 초기 음향 프리셋이 확립된다.

504에서, 실세계 환경의 장면의 이미지가 캡쳐된다.

506에서, 딥 러닝 신경망 추론을 사용하여, (동작(504)으로부터 수신되는) 이미지는 룸 타입, 예를 들면, 부엌으로 분류된다.

508에서, 음향 프리셋(P1-PM) 중에서, 룸 타입과 관련되는 또는 룸 타입에 할당되는 음향 프리셋이 검색된다.

510에서, 508로부터의 음향 프리셋은 AES를 업데이트하기 위해 사용될 수도 있다.

510으로부터, 흐름 제어는 504로 복귀하고 프로세스는 다음 번 이미지에 대해 반복된다.

방법(500)에서, 추론 동작(506)은 음향 프리셋으로 직접적으로 분류되지는 않는다. 따라서, 분류가 수행된 이후, 음향 프리셋을 식별하기 위해 추가 동작(508)이 사용된다. 즉, 룸 타입은 음향 프리셋으로 변환된다.

도 6은, 실세계 환경의 장면 및 그들의 관련된 음향 프리셋의 캐시에 기초하여 실세계 환경의 이미지를 AES(126)를 위한 음향 파라미터의 음향 프리셋으로 직접적으로 분류하기 위해 ML 분류를 사용하는 예시적인 방법의 플로우차트이다. 방법(600)은, 방법(600)이 하기에서 설명되는 추가적인 동작(602 및 604)을 포함한다는 점을 제외하면, 방법(400)과 유사하다. 방법(600)은, 유저가 어떤 실세계 환경, 예를 들면, 룸에 있었는지를 XR 프로세서(108)가 결정하고, 룸의 각각에 대한 (최상의) 음향 프리픽스(acoustic prefix)를 캐시에 기록한다는 것을 가정한다.

흐름은 402 및 404로부터 602로 진행된다. 602에서, 유저가 현재 위치되는 룸 내에 유저가 이전에 있었는지의 여부가 결정된다. 유저가 이전에 룸에 있었다면, 흐름은 604로 진행하는데, 여기서 룸에 대한 음향 프리픽스가 캐시로부터 검색된다. 흐름은 604로부터, 캐시로부터 검색되는 음향 프리픽스를 사용하는 408로 진행된다. 유저가 이전에 룸에 있지 않았다면, 흐름은 406으로 진행하고, 상기에서 설명되는 바와 같이 동작이 계속된다. 방법(600)을 수행하도록 구성되는 XR 프로세서의 예가 도 16과 관련하여 하기에서 설명된다.

도 7은, 실세계 환경의 이미지를, AES(126)를 위한 일반적인/기본 음향 프리셋 및 보조 음향 수정자로 직접적으로 분류하기 위해 ML 분류를 사용하는 예시적인 방법의 플로우차트이다. 더 구체적으로, 방법(700)은, 방법(400)에서와 같이, 실세계 환경의 이미지를 일반적인 음향 프리셋("기본 음향 프리셋"으로서 또한 지칭됨)으로 직접적으로 분류하도록 트레이닝되는 ML 분류기(예를 들면, ML 분류기(120))의 제1 신경망을 사용한다. 일반적인 음향 프리셋의 각각은 일반적인 음향 파라미터의 각각의 세트를 포함한다. 예를 들면, 일반적인 음향 파라미터는 반향 파라미터일 수도 있다. 방법(700)은 또한, 이미지를, 일반적인 음향 프리셋을 수정하기 위해 사용될 수도 있는 추가적인 또는 보조 음향 파라미터, 예컨대 흡수 및/또는 반사 파라미터 또는 계수, 룸 볼륨, 및 등등으로 추가로 분류하도록 트레이닝되는 ML 분류기의 제2 신경망을 사용한다.

702에서, 음향 프리셋(P1-PM) 중 초기 음향 프리셋이 확립된다.

704에서, 실세계 환경의 장면의 이미지가 캡쳐된다.

706에서, 제1 신경망을 사용하여, 이미지는 일반적인 음향 프리셋으로 직접적으로 분류되는데, 일반적인 음향 프리셋 중에서 최상의 일반적인 음향 프리셋이 선택된다, 즉, 가장 높은 신뢰도 레벨과 관련되는 음향 프리셋이 최상의 음향 프리셋으로서 선택된다.

708에서, 제2 신경망을 사용하여, 이미지는 보조 음향 파라미터로 직접적으로 분류된다.

710에서, 706에서 선택되는 일반적인 음향 프리셋의 일반적인 음향 파라미터 중 하나 이상이 보조 음향 파라미터 중 하나 이상에 기초하여 수정/조정되어, 수정된 일반적인 음향 프리셋을 생성한다. 예를 들면, 일반적인 음향 프리셋의 일반적인 음향 파라미터 값은 보조 음향 파라미터 값에 기초하여 증가 또는 감소될 수도 있다. 대안적으로, 일반적인 음향 파라미터 중 하나 이상은 보조 음향 파라미터 중 하나 이상에 의해 대체될 수도 있다.

간단한 예에서, 분수 범위 0 < α < 1 내의 흡수 계수(α)가 보조 음향 파라미터로서 사용될 수도 있는데, 이 경우 동작(710)은 일반적인 음향 파라미터 중 하나 이상을 흡수 계수(α)로 승산하여, 하나 이상의 수정된 일반적인 음향 파라미터를 생성할 수도 있다. 실제로, 흡수에 기초한 그러한 수정은 다음과 같은 이유 때문에 더 복잡할 수도 있다. 각각의 재료가 그 고유의 흡수 계수를 가지기 때문에, 재료로부터의 조기 반사는 일반적으로 재료의 흡수 계수에 의해 직접적으로 영향을 받는다. 따라서, 많은 상이한 재료를 포함하는 음향 환경에서의 반향은, 환경 내의 재료의 집성체(aggregate)에 의해 영향을 받을 수 있는데, 이것은 일괄적으로 집성체 흡수(aggregate absorption)를 생성한다. 집성체 흡수는 상이한 주파수 대역에서 반향의 지연 레이트에 상이하게 영향을 끼칠 수도 있는데, 이것은 동작(710)에서 고려될 수 있다.

712에서, 수정된 일반적인 음향 프리셋은 AES를 업데이트하기 위해 사용될 수도 있다.

712에서, 흐름은 704로 복귀하고, 프로세스는 반복된다.

도 8을 참조하면, 방법(800)이 방법(700)의 동작(708)과 연결되는 3D 메쉬 프로세싱 동작(802)을 포함한다는 점을 제외하면, 방법(700)과 유사한 예시적인 방법(800)의 플로우차트가 있다. 3D 메쉬 프로세싱 동작(802)만이 설명된다. 일반적으로, 3D 메쉬 프로세싱 동작(802)은, 동작(708)에서 생성되는 보조 음향 파라미터 중 하나 이상을, 예를 들면, 깊이 카메라를 사용하여 생성되는 3D 메쉬의 컴포넌트로 매핑한다.

804에서, 깊이 카메라는 동작(704)에서 이미지가 캡쳐되었던 동일한 실세계 환경의 깊이 맵(이미지)을 캡쳐한다.

806에서, 깊이 맵으로부터 3D 메쉬가 생성된다.

808에서, 동작(708)에서 생성되는 보조 음향 파라미터(예를 들면, 재료 사운드 흡수)가 3D 메쉬로 매핑된다.

810에서, 3D 메쉬 및 보조 음향 파라미터가 내보내기된다(exported).

이제, ML 분류기(120)의 트레이닝 및 실시간 동작이 도 9 내지 도 11b와 관련하여 더욱 상세하게 설명된다.

ML 트레이닝

도 9a는, 제1 트레이닝 시나리오에 따라 트레이닝 이미지에 기초하여 ML 분류기(120)를 트레이닝시키고, 일단 트레이닝되면, ML 분류기를 사용하여 이미지를 분류하는 예시적인 방법의 예시이다. 일단 트레이닝되면, ML 분류기(120)는, "추론" 스테이지 또는 동작으로서 지칭되는 것에서, 통상적으로 실시간으로, 이미지를 분류한다. 도 9a의 예에서, ML 분류기(120)는 CNN을 가지고 구성된다. 예를 들면, ML 분류기(120)는 완전히 연결된 계층(fully connected layer; 904)에 커플링되는 컨볼루션 계층(902)을 포함한다. 실제로, ML 분류기(120)는 완전히 연결된 계층으로 이어지는 많은 컨볼루션 계층을 포함할 수도 있다.

트레이닝 동안 그리고 트레이닝 이후 추론 스테이지 동안, ML 분류기(120)는 이미지(906)를 수신하고 음향 프리셋을 나타내는 라벨의 형태로 분류(908)를 생성한다. 추론 스테이지에서, 910에서, 가장 높은 신뢰도를 갖는 음향 프리셋이, 상기에서 설명되는 바와 같이, 라벨 및 그들의 신뢰도 레벨에 기초하여 선택된다. 트레이닝 동안, 이미지(906)는 ML 분류기(120)가 트레이닝되는 트레이닝 이미지를 나타낸다.

제1 트레이닝 시나리오에서, ML 분류기(120)의 트레이닝은 다음의 동작을 포함할 수도 있다:

a. M 개의 별개의 라벨(L1-LM), 예를 들면, 라벨(0-20)을 확립한다. 라벨은, 숫자, 영숫자, 사람이 판독 가능한 라벨, 및 등등일 수도 있다.

b. 각각의 통상적인 유저 환경, 예를 들면, 룸을 나타내는 M 개의 음향 프리셋(P1-PM)을 생성/설계한다. 각각의 프리셋은, 상기에서 설명되는 바와 같이, 음향 프리셋(AP1-APN)의 각각의 세트를 포함한다. 각각의 음향 프리셋(Pi)은 대응하는 라벨(Li)과 관련된다.

c. 사전 트레이닝 데이터 준비를 수행한다: 룸의 많은 수의 트레이닝 이미지(예를 들면, 트레이닝 픽쳐)를, 음향 프리셋(P1-PM) 중에서 그들의 가장 가능성이 높은 음향 프리셋을 사용하여 라벨링한다. 도 9b는, 하기에서 설명되는 사전 트레이닝 데이터 준비의 예시이다.

i. 트레이닝 픽쳐를 트레이닝 픽쳐(도 9b에서 개별적으로 "I"로 표시됨)의 M 개의 그룹(G1-GM)으로 분할하고, 그 결과, 각각의 그룹(Gi) 내의 트레이닝 픽쳐에서의 (룸의) 장면은 그 그룹 내의 (룸의) 장면과 유사한 음향 속성을 갖는 것처럼 보이지만, 그러나, 다른 그룹 내의 (룸의) 장면과는 상이한 음향 속성을 갖는 것처럼 보인다. 예를 들면,: 그룹(G1)의 트레이닝 픽쳐에서의 장면은 서로 유사한 음향 속성을 갖는 것처럼 보인다; 그룹(G2)의 트레이닝 픽쳐에서의 장면은 서로 유사한 음향 속성을 갖는 것처럼 보이지만, 그러나 그것은 그룹(G1)의 트레이닝 픽쳐의 장면의 음향 속성과는 상이하고; 트레이닝 픽쳐의 모든 M 개의 그룹(G1-GN)에 대해 계속 그런 식이다.

ii. 음향 프리셋(P1-PM) 중 가장 가능성이 높은 음향 프리셋 중의 각각의 음향 프리셋을 사용하여 트레이닝 픽쳐의 그룹을 라벨링한다. 가장 가능성이 높은 음향 프리셋은 트레이닝 픽쳐에서의 장면의 음향 속성과 매치할 가능성이 가장 높은 음향 프리셋이다. 즉, 트레이닝 픽쳐는, 각각의 그룹 내에서 동일한, 그러나 그룹에 걸쳐 다른 음향 프리셋 중의 각각의 프리셋을 사용하여 라벨링된다. 예를 들면, 음향 프리셋(P1)이 그룹(G1)의 트레이닝 픽쳐에 가장 잘 매치하고, 음향 프리셋(P2)이 그룹(G2)의 트레이닝 픽쳐에 가장 잘 매치하고, 계속 그런 식이면, 그러면, 그룹(G1)의 모든 트레이닝 픽쳐를, 음향 프리셋(P1)에 대한 라벨(L1)을 사용하여 라벨링하고, 그룹(G2)의 모든 트레이닝 픽쳐를, 음향 프리셋(P2)에 대한 라벨(L2)을 사용하여 라벨링하고, 계속 그런 식이다. 이 동작은 라벨링된 트레이닝 픽쳐, 즉, 그들의 가장 가능성이 높은 음향 프리셋을 사용하여 라벨링되는 트레이닝 픽쳐를 생성한다.

d. 라벨링된 트레이닝 픽쳐를 사용하여, 이미지를 라벨/음향 프리셋으로 직접적으로 분류하도록 ML 분류기(120)를 트레이닝시킨다. 즉, 라벨링된 트레이닝 픽쳐는 ML 분류기(120)의 트레이닝 입력에 공급되는데, ML 분류기(120)는, 그 다음, 라벨링된 트레이닝 픽쳐에 대해 트레이닝된다. ML 분류기는, 상기에서 설명되는 바와 같이, 분류를 신뢰도 레벨과 관련시키는 연판정(예를 들면, 소프트맥스) 분류로 이미지를 분류하도록 트레이닝된다.

동작 (a)-(c)는 주관적인 사운드 설계에 기초하여, 즉, 사운드 설계자에 의해 실질적으로 수동으로 수행될 수도 있다. 사운드 설계자는, 트레이닝 데이터베이스 내의 많은 트레이닝 픽쳐 중의 트레이닝 픽쳐에서 묘사되는 장면 중 대응하는 장면에 대한 가장 가능성이 높은 음향 파라미터의 각각의 세트를 갖는 각각의 음향 프리셋을 설계하기 위해 룸 음향에 관한 그의/그녀의 경험을 사용한다. 즉, 사운드 설계자는, 설계자의 주관적 설계 경험에 기초하여 트레이닝 픽쳐 중 하나에서 묘사되는 대응하는 장면의 음향 속성을 가장 잘 나타내도록 또는 그 음향 속성과 가장 잘 매치하도록 음향 파라미터의 각기 각각의 세트를 설계한다. 예를 들면, 설계자는, "라이브" 룸(예를 들면, 라이브 주방)에 대해 제1 음향 프리셋의 반향 파라미터의 제1 세트를 선택하고, "데드(dead)" 룸(예를 들면, 천으로 덮인 가구를 포함하는 카펫이 많이 깔린 침실)에 대해 반향 파라미터의 제2 세트를 선택하고, "라이브" 룸의 반향 특성과 "데드" 룸의 반향 특성 사이의 중간 반향 특성을 갖는 룸에 대해 제3 음향 프리셋의 반향 파라미터의 제3 세트를 선택하고, 계속 그런 식이다. 그 다음, 설계자는 트레이닝 픽쳐를 그들의 가장 가능성이 높은 음향 프리셋(그 각각은 음향 파라미터의 각각의 세트를 나타냄)을 사용하여 라벨링한다. 예를 들면, 설계자는, 유사한 라이브 룸처럼 보이는 룸의 트레이닝 픽쳐를 제1 음향 프리셋을 사용하여 라벨링하고, 유사한 데드 룸처럼 보이는 룸의 트레이닝 픽쳐를 제2 음향 프리셋을 사용하여 라벨링하고, 중간 반향을 갖는 것처럼 보이는 유사한 룸의 트레이닝 픽쳐를 제3 음향 프리셋을 사용하여 라벨링하고, 계속 그런 식이다.

트레이닝을 위한 음향 프리셋을 확립하기 위해 사운드 설계자의 경험에 주로 의존하는 것에 대한 대안예는, 상이한 반향 속성을 갖는 룸의 실제 음향 측정치를 사용하고, 그 다음, 음향 측정치로부터 음향 프리셋을 알고리즘적으로 유도한다. 예를 들면, 각각의 룸에 대한 음향 임펄스 응답은, 실세계 환경의 음향 임펄스 응답을 측정하기 위한 임의의 공지된 또는 지금부터 개발되는 기술을 사용하여 측정될 수도 있다. 그 다음, 음향 프리셋의 음향 파라미터의 세트가, 예를 들면, 음향 임펄스 응답으로부터 반향 파라미터를 유도하기 위한 임의의 공지된 또는 지금부터 개발되는 기술을 사용하여, 측정된 음향 임펄스 응답으로부터 알고리즘적으로 유도된다.

하나의 단순화된 예에서, 임펄스 응답의 절대값은 정규화될 수 있고 dB 크기로 변환될 수 있다. dB 크기가 60 dB 아래로 떨어지는 초기 펄스(0 dB로 정규화됨)로부터의 시간은, RT60 감쇠 시간(즉, 룸에서 사운드가 60 dB 감쇠하는 데 걸릴 시간)으로서 간주된다. 추가된 주파수 도메인 분석을 통해, 그러한 방법은 RT60 시간의 다중 대역 분석으로 확장될 수 있다. 유사하게, 초기 스펙트럼 에너지, 시작 시간, 조기 반사 타이밍, 및 밀도, 등등에 대한 값은, 임펄스 응답 또는 그것의 윈도우화된 섹션에서 직접적으로 관찰될 수 있다. 이 특정한 기술은 단지 예로서만 제공되며, 임펄스 분석의 임의의 추가적인 또는 대안적 방법이 사용될 수도 있다는 것이 이해된다.

일단 트레이닝되면, 임의적인 룸 모델이, 예상할 "것 처럼 들린다"는 것을 결정하는 것에 의해 ML 분류기(120)는 유효성이 확인될 수도 있다.

추론 스테이지의 경우, ML 분류기(120)(또는 ML 분류기 외부의 로직)는 ML 분류기에 의해 생성되는 소프트맥스(출력) 분류에 대해 평활화 함수(smoothing function)를 적용하도록 구성될 수도 있고, 그 결과, 분류는, 도 3의 방법(300)과 관련하여 상기에서 설명되는 임계치 설정과 유사하게, 가짜 분류를 방지하기 위한 어떤 내장형 히스테리시스를 가지고, 소프트맥스 분류가 소프트맥스 임계치를 초과하는 경우 그것의 이전 상태(즉, AES(126)에 제공된 이전 음향 프리셋)로부터만 전이한다. 예를 들면, 음향 프리셋은 적절한 지연 라인 보간 및 이득 크로스페이딩을 사용하여 평활하게 전이될 수도 있다.

트레이닝은 또한, 전통적인 룸 타입 분류를 이미 수행하는 사전 트레이닝된 신경망을 이용하는 전이 학습(transfer learning)을 활용할 수도 있다. 이 접근법은 (피쳐 추출에서) 사전 트레이닝된 신경망의 컨볼루션 계층을 고정하고 상기에서 설명되는 라벨을 사용하여 완전히 연결된 계층(분류)을 계속 적응시킨다.

도 10은, 제2 트레이닝 시나리오 및 제3 트레이닝 시나리오에 따른 ML 분류기(120)의 트레이닝을 나타내는, 그리고, 일단 트레이닝되면, ML 분류기를 사용하여 이미지를 분류하기 위한, ML 분류기(120)에 대한 예시적인 동작 흐름의 다이어그램이다. 도 10의 예는, 추론 스테이지에서, 1002에서, 분류에 의해 출력되는 라벨로부터 음향 파라미터가 업데이트된다는 점을 제외하면, 도 9a의 예와 유사하다.

제2 트레이닝 시나리오에서, 라벨은 반향 파라미터와 같은 더 낮은 레벨의 음향 파라미터에 기초할 수도 있다. 반향 파라미터는, 예를 들면, I3DL2 음향 파라미터를 포함할 수도 있다. 처음에, 사운드 설계자는, 트레이닝 데이터베이스 내의 많은 트레이닝 픽쳐 중의 트레이닝 픽쳐에서 묘사되는 장면 중 대응하는 장면에 대한 가장 가능성이 높은 음향 파라미터의 각각의 세트를 갖는 각각의 음향 프리셋을 설계하기 위해 룸 음향에 관한 그의/그녀의 경험을 사용한다. 즉, 음향 파라미터의 각기 각각의 세트는, 트레이닝 픽쳐 중 하나에서 묘사되는 대응하는 장면의 음향 속성을 가장 잘 나타내도록 또는 그 음향 속성과 가장 잘 매치하도록 설계된다. 그 다음, 추론 동안, 1002에서 도시되는 바와 같이, 라벨에 기초하여 음향 파라미터가 업데이트된다.

제3 트레이닝 시나리오에서, 라벨은, 트레이닝 이미지에서 묘사되는 바와 같은 동일한 룸에서 취해지는 실제 음향 속성의 음향 측정치로부터 유도되는 하위 레벨 음향 파라미터에 기초한다. 음향 측정치는, 예를 들면, 룸 (사운드) 임펄스 응답의 측정치를 포함할 수도 있다. 그 다음, 사전 트레이닝 데이터 준비는, 적절한 음향 파라미터를 자동적으로 튜닝하기 위해, 즉, 자동화된 튜닝을 수행하기 위해 룸 임펄스 응답을 분석하는 것을 포함한다. 자동화된 튜닝 그 자체는 ML 신경망에 기초할 수도 있다.

제2 및 제3 트레이닝 시나리오 둘 모두는 ML 신경망을 활용할 수도 있다.

도 11a는, 제4 트레이닝 시나리오에 따른 ML 분류기의 트레이닝을 나타내는, 그리고, 일단 트레이닝되면, ML 분류기를 사용하여 이미지를 분류하기 위한, ML 분류기(120)에 대한 예시적인 동작 흐름의 다이어그램이다. 도 11a의 예는, 다음의 차이점을 제외하면, 도 9a 및 도 10의 예와 유사하다. 도 11a의 예에서, ML 분류기(120)는 컨볼루션 계층(902)을 뒤따르는 장단기 메모리(long short-term memory; LSTM)(1102)를 포함한다. LSTM(1102)에 기초한 신경망은 이미지 설명에 적합하다. 도 11a의 흐름에서, LSTM(1102)은 음향 디스크립터(acoustic descriptor; 1104)로 분류된다. 동작(1106)은 음향 디스크립터(1104)를, 업데이트 동작(1106)에서 사용되는 반향 파라미터로 변환한다.

제4 트레이닝 시나리오에서, ML 분류기(120)는 음향 관련성을 갖는 픽쳐의 기술적인 피쳐(descriptive feature)에 대해 트레이닝된다. 사전 트레이닝을 위한 데이터 준비는 룸의 장면의 픽쳐를 주어진 음향 어휘를 사용하여 라벨링하는 것을 포함한다. 도 11a의 예가 LSTM(1102)을 포함하지만, 초점이 라벨(예를 들면, 빅, 라이브, 타일, 및 등등)의 가장 가능성 있는 조합인 경우, LSTM은 완전히 연결된 계층(예를 들면, 완전히 연결된 계층(904))에 의해 대체될 수도 있다. 트레이닝은, 음향 고유의 디스크립터를 사용하여 라벨링되는 많은 수의 트레이닝 픽쳐를 포함한다.

도 11b를 참조하면, 두 개의 카메라 관점(이미지)(I180-1 및 I180-2)에서 룸의 360° 이미지를 함께 캡쳐하는, 즉, 전체 룸의 장면을 캡쳐하는 백투백 180° 어안 렌즈를 포함하는 이미지 센서(102)(예를 들면, 카메라)의 예의 예시가 있다. 이 예에서, XR 프로세서(108)는, 임의의 공지된 또는 지금부터 개발되는 등장방형 투영 기술(equi-rectangular projection technique)을 사용하여 상이한 카메라 관점을 단일의 장방형 이미지 프레임으로 함께 스티칭할 수도 있다. XR 프로세서(108)는, 트레이닝 동안 또는 추론/실시간 스테이지 동안, 프로세싱을 위해 단일의 장방형 이미지 프레임을 ML 분류기(120)에 제공한다. 다른 예에서, 전통적인 장방형 이미지는 ML 분류기(120)를 트레이닝시키기 위해 사용될 수도 있다. 대안적으로, 전통적인 장방형 이미지는, 유저/시청자가 룸의 상이한 뷰에서 카메라를 지향시킬 때 룸을 추적하는 것에 기초하여, 더 큰 이미지, 예를 들면, 합성 이미지(composite image)로 함께 스티칭될 수도 있다. 결과적으로 스티칭된 이미지는, 심지어 ML 분류기가 360 개의 이미지에 대해 트레이닝되는 경우에도, ML 분류기(120)에 적용될 수도 있다. 다른 예에서, 이미지 센서(102)는 룸의 장방형 이미지를 캡쳐하고, XR 프로세서(108)는 장방형 이미지를 등장방형 공간(equi-rectangular space) 상의 영역으로 매핑하여, 매핑된 이미지를 생성하고, ML 분류기(120)는 매핑된 이미지를 분류한다. 장방형 이미지를 등장방형 공간으로 매핑하기 위해, 임의의 공지된 또는 지금부터 개발되는 기술이 사용될 수도 있다.

XR 프로세서 예

도 12는, 도 1a의 XR 프로세서의 실시형태에 의해 제공되는 것과 비교하여, 추가적인 기능성을 포함하는 실시형태에 따른 XR 프로세서(108)의 블록도이다. 도 12의 예에서, XR 프로세서(108)는 이미지 분류 경로(1202), 재료 추정 경로(1204), 음향 파라미터 통합(acoustic parameter consolidation; APC) 로직(1206), 및 IAE(124)를 포함한다. 이미지 분류 경로(1202)는 이미지 센서(102)로부터의 이미지(103)를 프로세싱하여 일반적인/기본 음향 프리셋(1210) 및 보조 음향 수정자(1212)를 생성하고, 일반적인 음향 프리셋 및 보조 음향 수정자를 APC 로직(1206)에 제공한다. 재료 추정 경로(1204)는 이미지 센서(102)로부터의 이미지(103)를 이미지 분류 경로(1202)와 병렬로 프로세싱하여 조기 반사 모델 데이터(early reflection model data; ERE)("조기 반사 파라미터"로서 또한 지칭됨)(1214)를 생성하고, 조기 반사 모델 데이터를 APC 로직(1206)으로 제공한다. APC 로직(1206)은, 일반적인 음향 프리셋(1210), 보조 음향 수정자(1212), 및 조기 반사 모델 데이터(1214)를 함께 프로세싱하여 최종 음향 튜닝 파라미터(1220)를 생성하고, IAE(124)의 AES(126)로 그들을 제공한다.

이미지 분류 경로(1202)는 ML 분류기(120)가 후속되는 이미지 프리프로세서(1222)(음향 분석용)를 포함한다. 이미지 프리프로세서(1222)는, 이미지(103), 즉 원시 이미지 데이터를 프로세싱하여, ML 분류기(120)에 의한 소비에 적절한 포맷의 이미지를 생성한다. 이미지 프리프로세서(1222)는 원시 이미지 데이터를 포맷하고, 및/또는 ML 분류기(120)에 대한 트레이닝 가정과 매치하도록 원시 이미지 데이터를 선택, 호출 또는 집성한다. 예를 들면, 이미지 프리프로세서(1222)는, 상기에서 설명되는 바와 같이, 이미지(103) 중 연속적인 이미지를 함께 스티칭하여 분류를 위한 스티칭된 이미지를 생성할 수도 있다.

ML 분류기(120)가 이미지를 일반적인 음향 프리셋(그들의 신뢰도 레벨을 가짐) 및 보조 음향 수정자 둘 모두로 직접적으로 분류하도록 트레이닝되었다고 가정하면, ML 분류기는 이미지 프리프로세서(1222)로부터의 이미지의 각각을 분류하여 일반적인 음향 프리셋(1210) 및 음향 수정자(1212)를 직접적으로 생성한다. 한 예에서, 일반적인 음향 프리셋(1210)은 초기 반향 파라미터를 포함하고, 보조 음향 수정자(1212)는 음향 흡수 파라미터, 음향 반사 파라미터, 음향 확산 파라미터, 및 특정한 환경(예를 들면, 룸) 치수 중 하나 이상을 포함할 수도 있다.

ML 분류기(120)는, 두 타입 모두의 분류가 동시에 진행될 충분한 이미지 정보, 및 충분한 ML 분류기(예를 들면, 신경망) 프로세싱 파워가 있다면, 일반적인 음향 프리셋(1210) 및 보조 음향 수정자(1212)를 생성할 수도 있다. 대안적으로, ML 분류기(120)는, (i) 초기에 수신되는 이미지 및/또는 초기에 제한되는 프로세싱 파워에 기초하여 일반적인 음향 프리셋(1210)만을 초기에 생성할 수도 있고, 그리고 (ii) 추가적인 이미지가 도달하고 및/또는 추가적인 프로세싱 파워가 이용 가능한 경우, 일반적인 음향 프리셋(1219) 및 보조 음향 수정자(1212) 둘 모두를 동시에 생성할 수도 있다.

APC 로직(1206)은 음향 수정자(1212)에 기초하여 일반적인 음향 프리셋(1210)의 (초기) 반향 파라미터를 수정하여 수정된 반향 파라미터를 포함하는 수정된 일반적인 음향 프리셋을 생성하고, 최종 음향 튜닝 파라미터(1220)에서 수정된 일반적인 음향 프리셋을 AES(126)로 제공한다.

재료 추정 경로(1204)는 (기하학적 분석을 위한) 이미지 프리프로세서(1232)를 포함하고, 후속하여 건축 메쉬(architectural mesh) 및 재료 추정기(간단히 "재료 추정기"로서 지칭됨)(1234)를 포함한다. 이미지 프리프로세서(1232)는 이미지(103)의 원시 이미지 데이터를 프로세싱하여, 재료 추정기(1234)에 의한 소비를 위한 이미지를 생성한다. 재료 추정기(1234)는 이미지에서 묘사되는 장면에 대한 (디지털) 건축 3D 메쉬를 구성하고, 건축 3D 메쉬에 기초하여 장면에서 묘사되는 재료의 타입을 추정하고, 재료의 음향 속성을 추정하여, 음향 속성을 포함하는 조기 반사 모델 데이터(예를 들면, 파라미터)(1214)를 생성한다. 이미지 프리프로세서(1232) 및 재료 추정기(1234)는 기하학적 이미지 분석을 수행할 수도 있고, 건축 메쉬를 생성할 수도 있고, 임의의 공지된 또는 지금부터 개발되는 기술을 사용하여 메쉬로부터 재료 속성을 추정할 수도 있다.

APC 로직(1206)은 조기 반사 모델 데이터(1214)를 수정된 일반적인 음향 프리셋과 함께 최종 음향 튜닝 파라미터(1220)로 결합한다. 대안적으로 및/또는 추가적으로, APC 로직(1206)은 조기 반사 모델 데이터(1214)의 다양한 파라미터를 사용하여 수정된 일반적인 음향 프리셋을 추가로 수정할 수도 있다.

재료 추정 경로(1204)를 생략하는 실시형태에서, 조기 반사 모델 데이터(1214)는 여전히 사용될 수도 있지만, 그러나, 예를 들면, 디폴트 값으로 설정될 수도 있다.

도 13은 최종 음향 튜닝 파라미터(1220)의 음향 파라미터에 기초하여 AES(126)를 수행하기 위해 사용되는 IAE(124)의 일부의 블록도이다. IAE(124)는, 가상 사운드 오브젝트(128)의 각각의 것들로부터 각각의 사운드 신호(S1-SO)를 수신하는 사운드 채널(1300(1)-1300(O))을 포함한다. 각각의 채널(1300(i))은, 일련의 튜닝 가능한 이득(G), 지연, 및 파노라마식 전위차계(panoramic potentiometer)(pan) 스테이지를 통해, 사운드 신호(Si)에 대한 각각의 직접 경로를 다중 채널 출력 버스(1302)로 제공한다. 결과적으로 나타나는 채널별 직접 경로 사운드 신호는 다중 채널 출력 버스(1302)로 혼합된다. 각각의 채널(1300(i))은 또한, 반사 제어 신호(1310)에 응답하여 반사를 제어하는 튜닝 가능한 반사 스테이지(refl)를 통해, 사운드 신호(Si)에 대한 각각의 반사 경로를 다중 채널 출력 버스로 제공한다. 반사 제어 신호(1310)는, 상기에서 설명되는 최종 음향 튜닝(1220)의 하나 이상의 음향 파라미터를 포함할 수도 있다. 결과적으로 나타나는 채널별 반사도 또한 다중 채널 출력 버스(1302)로 혼합된다. IAE(124)는 또한, 채널별 반사에 의해 공급되며, 반향 제어 신호(1314)에 응답하여 다중 채널 출력 버스(1302) 상에서 결합되는 결합된 직접 경로 사운드 신호 및 반사를 반향시키도록 구성되는 반향 생성기(rev)(1312)를 포함한다. 반향 제어 신호(1314)는 최종 음향 튜닝 파라미터(1220)의 음향 파라미터(예를 들면, 반향 파라미터)를 포함할 수도 있다.

도 14는, 예를 들면, 도 12의 XR 프로세서(108)에 의해 수행될 수도 있는 예시적인 음향 파라미터 미세 조정 프로세스(1400)의 다이어그램이다. 1402에서, 초기 이미지 데이터는 ML 분류기(120) 안으로 흐르고, ML 분류기는 초기 이미지 데이터를 직접적으로 분류하여, 일반적인 음향 프리셋(P1-PM)(예를 들면, 일반적인 음향 프리셋(1210))에 대한 연판정 라벨을 생성한다. 각각의 음향 프리셋(Pi)은 N 개의 음향 파라미터(AP1-APN)(Param 1 - Param N)의 각각의 세트를 포함한다. 일반적인 음향 프리셋(P1-PM) 중 하나는 신뢰도 레벨에 기초하여 선택되어, 선택된 일반적인 음향 프리셋을 생성한다. 조기 반사 모델 데이터(ERE) 디폴트 파라미터(예를 들면, 조기 반사 모델 데이터(1214)에 대한 디폴트 값)가 선택된 일반적인 음향 프리셋에 추가될 수도 있다.

1404에서, 추가적인 이미지 데이터가 ML 분류기(120) 안으로 흐르고, 추가적인 이미지 데이터에 기초하여, ML 분류기는, 일반적인 음향 프리셋(P1-PM)에 더하여, 보조 음향 수정자(예를 들면, 보조 음향 수정자)(1212)를 생성한다.

1406에서, 음향 파라미터 안전성 체크 로직은, (현재) 선택된 일반적인 음향 프리셋, 및 안전성 체크를 수행하는 데 유용한 추가적인 정보를 고려하여 상기 언급된 음향 파라미터가 합리적인 경계 내에 있다는 것을 보장하기 위해, 선택된 일반적인 음향 프리셋 및 보조 음향 수정자에 대해 음향 파라미터 안전성 체크를 수행한다. 안전성 체크에 후속하여, APC 로직(1206)은 선택된 일반적인 음향 프리셋을 보조 음향 수정자에 기초하여 수정하여, 수정되는 바와 같은 N 개의 음향 파라미터를 비롯한, 수정된/통합된 음향 프리셋을 생성한다. ERE 디폴트 파라미터는 수정된/통합된 음향 프리셋과 함께 유지된다.

1410에서, 재료 추정 경로(1204)는 초기 이미지 데이터 및 추가적인 이미지 데이터에 기초하여 조기 반사 모델 데이터(1214)를 생성한다.

1412에서, 음향 파라미터 안전성 체크 로직은 수정된/통합된 음향 프리셋 및 조기 반사 모델 데이터(1214)에 대해 음향 파라미터 안전성 체크를 수행한다. APC 로직(1206)은 조기 반사 모델 데이터(1214)에 기초하여 수정된/통합된 음향 프리셋을 추가로 수정하거나, 또는 수정된 프리셋에 조기 반사 데이터를 단순히 추가하여, 최종 음향 튜닝 파라미터(1220)를 생성한다.

도 15는 룸의 이미지에 대해 도 12의 XR 프로세서(108)에 의해 생성되는 예시적인 음향 파라미터의 테이블이다. 테이블은, 테이블의 제1 행의 일반적인 음향 프리셋의 일반적인 음향 파라미터, 테이블의 제2 행의 보조 음향 파라미터, 및 테이블의 제3 행의 조기 반사 데이터 파라미터를, 테이블의 열에서 묘사되는 상기 언급된 파라미터의 다양한 속성에 매핑한다. 테이블의 제1 열은 상기 언급된 세 가지 타입의 음향 파라미터를 식별한다. 다음 번 또는 중간의 두 열은, 열에서 나타내어지는 바와 같이, ML 분류기(120) 및 재료 추정 경로(1204)에 의해 생성되는 태그의 (기술적) 라벨과 관련되는 정보를 포함한다. 마지막 열은 반향 파라미터 및 ERE 파라미터의 예를 제공한다.

캐시 실시형태

도 16은, 도 6의 방법(600)과 관련하여 상기에서 설명되는 바와 같이, 공지된 실세계 환경과 관련되는 캐싱된 음향 프리셋을 사용하는 실시형태에서의 XR 프로세서(108)의 블록도이다. 교정 동작 동안, 이미지 프리프로세서(1601) 및 ML 분류기(120)는, 이전 "장면" 에 대응하는 음향 파라미터를 교정된 프리셋 메모리 또는 캐시(1602)에 저장하도록 함께 동작한다. 상기에서 설명되는 바와 같이, 교정 이후, 실시간으로, 이미지 프리프로세서(1601)(이것은 이미지 매칭을 수행함)는, 로직(1604)(이것은 ML 분류기(120)를 포함할 수도 있음)과 함께, 공지된 실시간 이미지로부터 음향 파라미터를 식별하고, 전체 이미지 분석 없이 식별된 음향 파라미터를 호출한다. 도 16의 실시형태에서, 머신 러닝은 사전 교정된 장면 중 하나에 룸을 매치시키는 더 쉬운 작업에 초점을 맞춘다.

도 16의 실시형태에서, 교정된 프리셋 메모리 또는 캐시(1602)가 일반적인 음향 프리셋, 보조 음향 파라미터, 및 조기 반사 모델 데이터를 저장하는 경우, 그리고 그러한 데이터가 음향 파라미터 안전성 체크를 이미 받은 경우, APC 로직(1206)은 생략될 수도 있다. IAE(124)는 가상 사운드 오브젝트(128)에 대한 위치 정보 및 위치 정보(114)에 기초하여 반사를 완결한다(finalize).

음향 프리셋 전이 방법에 대한 플로우차트

도 17 내지 도 19는, 각각, 소프트맥스 분류의 신뢰도 레벨에 기초하여 음향 프리셋 사이를 전이하는 방법, 사용 가능한 이미지 안전성 체크를 전이에 추가하는 방법, 및 교정된 장면 실시형태에서 음향 프리셋 사이에서 전이를 수행하는 방법을 대상으로 한다. 일반적으로, 도 17 내지 도 19의 방법은, 일반적인/기본 음향 프리셋 및 보조 음향 수정자의 분류기가, 의미 있는/식별 가능한 피쳐를 갖지 않는 이미지 또는 실제 장면에 대해 추측하도록 강요받는 것을 방지한다.

도 17은 음향 프리셋, 예를 들면, 반향 프리셋 사이에서 전이하는 예시적인 방법(1700)의 플로우차트이다. 1702 및 1704를 포함하는 루프에서, 방법(1700)은, IAE(124)에 대한 디폴트 음향 프리셋을 확립하고 확실한 음향 환경 변화를 체크한다. 확실한 음향 환경 변화가 있는 경우, 흐름은 1706으로 진행하여 음향 프리셋을 업데이트하고, 그로부터 흐름은 1708로 진행된다. 그렇지 않으면, 흐름은 루프로 복귀한다. 1708, 1710, 및 1712를 포함하는 루프에서, 방법(1700)은 1708에서 환경 기반의 음향 프리셋을 수신하고, 1710에서 확실한 음향 환경 변화를 체크한다. 확실한 음향 환경 변화가 있는 경우, 흐름은 1712로 진행하여 음향 프리셋을 업데이트한다. 그렇지 않으면, 흐름이 다시 1708로 진행된다.

도 18은 음향 프리셋 사이를 전이하는 그리고 사용 가능한 이미지 안전성 체크를 수행하는 예시적인 방법(1800)의 플로우차트이다. 방법(1800)은, 방법(1800)이 사용 가능한 이미지로서 현재 센서 데이터(즉, 이미지)의 유효성을 확인하는 동작(1802 및 1804)을 더 포함한다는 점을 제외하면, 방법(1700)과 유사하다. 예를 들면, 동작(1702)과 동작(1704) 사이에서 삽입되는 동작(1802)은 사용 가능한 이미지(들)로서 현재 센서 데이터의 유효성을 확인한다. 예인 경우, 흐름은 1702로부터 1704로 진행되고, 한편, 아니오인 경우, 흐름은 1702로 복귀한다. 유사하게, 동작(1804)은 동작(1708)과 동작(1710) 사이에서 삽입되고, 동작(1804) 조건이 동작(1702)과 동작(1704) 사이에 흐르는 방식과 유사하게, 그들 동작 사이에서 조건이 흐른다.

도 19는, 도 16에서 묘사되는 실시형태와 같은 교정된 장면 실시형태에서 음향 프리셋 사이에서 전이하는 예시적인 방법(1900)의 플로우차트이다. 1902 및 1904를 포함하는 루프에서, 방법(1900)은 디폴트 음향 프리셋을 확립하고 교정된 장면과 관련되는 장면에 대해 현재 장면을 체크한다. 교정된 장면이 발견되지 않으면, 흐름은 1902로 복귀한다. 그렇지 않고, 교정된 장면이 발견되는 경우, 흐름은 1906으로 진행하는데, 여기서 방법(1900)은 교정된 음향 프리셋을 사용하여 디폴트 음향 프리셋을 업데이트한다. 흐름은 1906으로부터 1908, 1910, 및 1912로 진행되는데, 이것은 1902, 1904, 및 1906에서 수행되는 동작을 반복하지만, 그러나, 디폴트 음향 프리셋 대신, 1906으로부터의 업데이트된 교정된 음향 프리셋을 가지고 시작한다.

트레이닝 프로세스

도 20은, 도 9, 10, 및 11a와 관련하여 상기에서 논의되는 트레이닝 방법을 나타내는, 초기에는 트레이닝되지 않은 ML 분류기(120)의 심층 신경망(DNN) 트레이닝을 위해 사용되는 예시적인 트레이닝 프로세스(2000)를 도시하는 블록도이다. 2002에서, 이미지 프리프로세서(1222)는, 트레이닝되지 않은 ML 분류기(120)에 의한 소비를 위해 이미지 센서(102)로부터의 실세계 환경의 트레이닝 이미지를 포맷하고, (포맷된 그대로의) 트레이닝 이미지를 ML 분류기의 트레이닝 입력으로 제공한다. 2004에서, 이미지 프리프로세서 기능은, 유저 친화적이고 쉽게 볼 수 있는 포맷으로 디스플레이 상에서 유저/인간 오퍼레이터에게 트레이닝 이미지를 제시한다. 2006에서, 음향 파라미터가 트레이닝 이미지의 실세계 환경/장면과 매치하도록, 유저는 음향 프리셋, 보조 파라미터, 및 등등에 대응하는 라벨/음향 튜닝 파라미터를 트레이닝 이미지의 각각에 적용한다. 유저는 라벨/음향 튜닝 파라미터를, 트레이닝되지 않은 ML 분류기(120)에 입력되는 트레이닝 이미지의 각각의 이미지와 관련시키고, 그 결과, 트레이닝 이미지는 그들의 라벨과 상관된다. 2010에서, ML 분류기(120)의 하나 이상의 신경망은 라벨링된 트레이닝 이미지에 대해 트레이닝된다. 2010에서의 트레이닝은, 트레이닝 이미지에서의 피쳐에 기초하여 ML 분류기(120)의 신경망의 필터 계수를 업데이트하는데, 이것은 ML 분류기(120)의 트레이닝된 버전을 초래한다. 따라서, 트레이닝 프로세스는, 이미지를 그들의 대응하는 음향 프리셋으로 직접적으로 분류하도록 ML 분류기(120)의 하나 이상의 신경망을 구성한다.

컴퓨터 디바이스

도 21을 참조하면, XR 프로세서(108) 및 IAE(124)가 구현될 수도 있는 예시적인 컴퓨터 디바이스(2100)의 블록도가 있다. 디바이스(2100)에 대한 수많은 가능한 구성이 있으며 도 21은 한 예에 불과하다. 디바이스(2100)의 예는, 태블릿 컴퓨터, 퍼스널 컴퓨터, 랩탑 컴퓨터, 이동 전화, 예컨대 스마트폰, 및 등등을 포함한다. 디바이스(2100)는 디스플레이 및 헤드폰을 구동하기 위한 출력(2104)을 포함할 수도 있다. 디바이스(2100)는 하나 이상의 네트워크 인터페이스 유닛(network interface unit; NIU)(2108), 및 각각이 프로세서(2116)에 커플링되는 메모리(2114)를 또한 포함할 수도 있다. 하나 이상의 NIU(2108)는, 프로세서(2116)가 통신 네트워크를 통해 통신하는 것을 허용하는 유선 및/또는 무선 연결 성능을 포함할 수도 있다. 예를 들면, NIU(2108)는, 관련 기술 분야에서 통상의 지식을 가진 자에 의해 인식될 바와 같이, 이더넷(Ethernet) 연결을 통해 통신하기 위한 이더넷 카드, 통신 네트워크에서 셀룰러 네트워크와 무선으로 통신하기 위한 무선 RF 트랜스시버, 광학 트랜스시버, 및 등등을 포함할 수도 있다.

프로세서(2116)는, 예를 들면, 메모리(2114)에 저장되는 각각의 소프트웨어 명령어를 실행하도록 각각 구성되는 마이크로컨트롤러 및/또는 마이크로프로세서의 콜렉션(collection)을 포함할 수도 있다. 프로세서(2116)는 하나 이상의 프로그래밍 가능한 주문형 집적 회로(application specific integrated circuit; ASIC), 펌웨어, 또는 이들의 조합에서 구현될 수도 있다. 메모리(2114)의 일부(및 그 안의 명령어)는 프로세서(2116)와 통합될 수도 있다. 본원에서 사용될 때, 용어 "음향", "오디오" 및 "사운드"는 동의어이며 상호 교환 가능하다.

메모리(2114)는 리드 온리 메모리(read only memory; ROM), 랜덤 액세스 메모리(random access memory; RAM), 자기 디스크 저장 매체 디바이스, 광학 저장 매체 디바이스, 플래시 메모리 디바이스, 전기, 광학, 또는 다른 물리적/유형의(예를 들면, 비일시적) 메모리 스토리지 디바이스를 포함할 수도 있다. 따라서, 일반적으로, 메모리(2114)는 컴퓨터 실행가능 명령어를 포함하는 소프트웨어로 인코딩되는 하나 이상의 컴퓨터 판독 가능한 저장 매체(예를 들면, 메모리 디바이스)를 포함할 수도 있고, 소프트웨어가 (프로세서(2116)에 의해) 실행될 때, 그것은 본원에서 설명되는 동작을 수행하도록 동작 가능하다. 예를 들면, 메모리(2114)는 ML 분류기(120), IAE(124), 이미지 프리프로세서(1222 및 1232), APC 로직(1206), 재료 추정 경로(1204), 및 상기에서 설명되는 방법에 관련되는 본원에서 설명되는 동작을 수행하기 위한 제어 로직(2120)에 대한 명령어를 저장하거나 또는 그 명령어로 인코딩된다.

또한, 메모리(2114)는, 이미지, 음향 파라미터, 신경망, 및 등등과 같은, 로직(2120)에 의해 사용되고 생성되는 데이터/정보(2122)를 저장한다.

요약 방법 플로우차트

도 22를 참조하면, 상기에서 설명되는 다양한 동작을 포함하는 이미지를 분류하는 예시적인 방법(2200)의 플로우차트가 있다.

2202에서, 방법은 실세계 환경의 이미지를 수신한다. 이것을 위해, 방법은 이미지 센서를 사용하여 이미지를 캡쳐하거나, 또는 사전 저장된 이미지의 파일로부터의 이미지에 액세스할 수도 있다.

2204에서, 방법은, 본원에서 설명되는 바와 같이 이미 또는 이전에 트레이닝된 ML 분류기를 사용하여, 동작(2202)에서 캡쳐되는 이미지를 수신하고, 그 이미지를, AES를 위한 (공지된) 음향 프리셋과 관련되며 그것을 나타내는 분류로 직접적으로 분류한다. 분류는 각각의 신뢰도 레벨을 포함한다. 음향 프리셋 각각은 AES를 위한 사운드 반향을 나타내는 (공지된) 음향 파라미터를 포함한다.

동작(2204)에서의 분류시, 음향 프리셋 및 그들의 각각의 파라미터는 ML 분류기의 선험적 트레이닝으로부터 이미 공지되어 있다. 따라서, ML 분류기는, 이미지를, 룸 타입으로 먼저 분류하지 않고, 음향 프리셋과 관련되며 음향 프리셋을 나타내는 분류로 "직접적으로" 분류하는데, 룸 타입으로 먼저 분류하는 것은, 그 다음, 예를 들면, 룸 타입으로부터 음향 파라미터를 유도하기 위한 추가적인 동작을 필요로 할 것이다. 동작(2204)의 직접적인 분류는, 본질적으로, 이미지로부터, 개입하는 파라미터 변환 없이, 분류와 관련되는 공지된/사전 결정된 음향 파라미터에 대한 직접적인 액세스를 제공하는 분류로 흐르는 단일의 분류 동작이다. 또한, AES는 음향 프리셋을 직접적으로, 즉 있는 그대로 사용한다. 한 실시형태에서, ML 분류기는 트레이닝 이미지의 상이한 그룹으로 분할되는 실세계 환경의 (라벨링된) 트레이닝 이미지에 대해 트레이닝되었다. 트레이닝 이미지의 상이한 그룹의 트레이닝 이미지는, 상이한 그룹의 각각 내에서 동일한, 그러나 상이한 그룹에 걸쳐 다른 음향 프리셋의 각각의 음향 프리셋을 사용하여 라벨링된다. 트레이닝 이미지는 또한, 하기에서 설명되는 추가적인 동작(2210-2214)에서 활용되는 추가적인(보조) 음향 파라미터를 사용하여 추가적으로 라벨링될 수도 있다.

2206에서, 방법은 분류의 신뢰도 레벨에 기초하여 음향 프리셋 중에서 한 음향 프리셋(즉, 음향 프리셋 중 특정한 하나)을 선택한다. 방법은 음향 프리셋에 액세스한다/음향 프리셋을 검색한다.

2208에서, 방법은 음향 프리셋의 음향 파라미터에 기초하여 AES를 수행한다. AES는 음향 프리셋의 음향 파라미터에 기초하여 실세계 환경에서 가상으로 배치되는 하나 이상의 가상 사운드 오브젝트에 대한 사운드 반향을 모델링한다.

2210에서, 방법은 머신 러닝 분류기를 사용하여 이미지를 추가로 분류하거나, 또는 하나 이상의 추가적인 이미지를 직접적으로 분류하여, 하나 이상의 음향 파라미터 수정자를 생성한다. 추가적인 분류는 동작(2204)의 분류와 동시적일 수도 있다. 대안적으로, 추가적인 분류는 추가적인 또는 후속하는 이미지를 수신하고 분류하는 것으로부터 유래할 수도 있다.

2212에서, 방법은, 2210으로부터의 하나 이상의 음향 파라미터 수정자에 기초하여 2206으로부터의 음향 프리셋의 음향 파라미터를 수정하여, AES을 위한 수정된 음향 파라미터를 포함하는 수정된 음향 프리셋을 생성한다.

2214에서, 방법은 수정된 음향 파라미터를 사용하여 AES를 수행한다.

방법(2200)의 동작(2202-2206)의 상이한 조합은 개별적이고 독립적인 실시형태를 나타낼 수도 있다. 예를 들면, 동작(2202-2206)은 독립적인 실시형태를 일괄적으로 나타낸다.

도 23을 참조하면, 방법(2200)에서 분류되는 이미지와 관련하여 후속하는 또는 제2 이미지를 분류하는 예시적인 방법(2300)의 플로우차트가 있다. 방법(2300)은 상기에서 설명되는 다양한 동작을 포함한다.

2302에서, 방법은 실세계 환경의 제2 이미지를 캡쳐/수신한다.

2304에서, 머신 러닝 분류기를 사용하여, 방법은 제2 이미지를 직접적으로 분류하여 각각의 제2 신뢰도 레벨을 갖는 제2 분류를 생성한다.

2306에서, 방법은 제2 분류 중 하나 이상이 신뢰도 레벨 임계치를 초과하는 각각의 제2 신뢰도 레벨을 갖는지의 여부를 결정한다.

2308에서, 제2 분류 중 하나 이상이 신뢰도 레벨 임계치를 초과하는 각각의 제2 신뢰도 레벨을 갖는 경우, 방법은 제2 분류의 제2 신뢰도 레벨에 기초하여 음향 프리셋 중에서 제2 음향 프리셋(음향 프리셋 중 제2의 특정한 프리셋)을 선택하고, 음향 환경 시뮬레이션을 위한 음향 프리셋을 제2 음향 프리셋으로 업데이트/대체한다.

2310에서, 제2 분류 중 하나 이상이 신뢰도 레벨 임계치를 초과하는 대응하는 제2 신뢰도 레벨을 갖지 않으면, 방법은 제2 음향 프리셋을 선택하지 않고, 음향 환경 시뮬레이션을 위한 음향 프리셋을 업데이트/대체하지 않는다.

방법(2200 및 2300)에서, 개개의 분류는 하나의 이미지 또는 하나보다 더 많은 이미지에 기초할 수도 있다. 예를 들면, 이미지의 시퀀스(또는 이미지 프레임의 시퀀스)를 분류하는 상황을 고려하면, 방법은 한 번에 하나의 이미지를 분류하여, 각각의 이미지(또는 이미지 프레임)에 대한 별개의 분류를 생성할 수도 있지만; 그러나 분류 프리셋(즉, AES로 제공되는 음향 프리셋)은, 분류를 위한 신뢰도 레벨의 "이동 평균(running average)"에서, 여러 가지 그러한 이미지(또는 이미지 프레임)와 유의미한/실질적인 차이가 있는 경우 변경되거나 또는 업데이트된다. 또한, 분류 하의 이미지는, 예를 들면, 다수의 관점을 스티칭하여 환경의 덜 잘린 관점(less cropped perspective)을 생성하는 것에 의해, 이미지 센서로부터의 다수의 이미지를 사용하여 증강될 수도 있다.

요약하면, 하나의 실시형태에서, 다음의 것을 포함하는 방법이 제공된다: 실세계 환경의 이미지를 수신하는 것; 머신 러닝 분류기를 사용하여, 음향 환경 시뮬레이션을 위한 음향 프리셋 - 음향 프리셋 각각은 사운드 반향을 나타내는 음향 파라미터를 포함함 - 과 관련되는 분류를 생성하기 위해 이미지를 분류하는 것; 및 분류에 기초하여 음향 프리셋 중에서 음향 프리셋을 선택하는 것.

다른 실시형태에서, 장치가 제공되는데, 장치는: 프로세서를 포함하되, 프로세서는: 실세계 환경의 이미지를 수신하도록; 하나 이상의 신경망을 포함하는 트레이닝된 머신 러닝 분류기를 사용하여, 이미지를, 음향 환경 시뮬레이션을 위한 음향 프리셋 - 음향 프리셋 각각은 사운드 반향을 나타내는 음향 파라미터를 포함함 - 과 관련되는 분류로 직접적으로 분류하도록; 분류에 기초하여 음향 프리셋 중에서 음향 프리셋을 선택하도록; 그리고 음향 프리셋의 음향 파라미터에 기초하여 음향 환경 시뮬레이션을 수행하도록 구성된다.

또 다른 실시형태에서, 비일시적 컴퓨터 판독 가능 매체가 제공된다. 컴퓨터 판독 가능 매체는, 프로세서에 의해 실행될 때, 프로세서로 하여금, 본원에서 제시되는 방법을 수행하게 하는 명령어로 인코딩되는데, 본원에서 제시되는 방법을 수행하게 하는 것은, 다음의 것을 포함한다: 실세계 환경의 이미지를 수신하는 것; 음향 프리셋 - 음향 프리셋 각각은 사운드 반향을 나타내는 음향 파라미터를 포함함 - 의 각각의 음향 프리셋을 사용하여 라벨링되는 실세계 환경의 트레이닝 이미지에 대해 이미 트레이닝된 머신 러닝 분류기를 사용하여, 이미지를, 음향 환경 시뮬레이션을 위한 음향 프리셋과 관련되는 분류로 직접적으로 분류하는 것; 분류에 기초하여 음향 프리셋 중에서 음향 프리셋을 선택하는 것; 및 음향 프리셋의 음향 파라미터에 기초하여 음향 환경 시뮬레이션을 수행하는 것.

다른 실시형태에서, 다음의 것을 포함하는 시스템이 제공된다: 실세계 장면의 이미지를 캡쳐하기 위한 이미지 센서; 프로세서 - 프로세서는 이미지 센서에 커플링되고: 이미지를, 음향 환경 시뮬레이션을 위한 음향 프리셋 - 음향 프리셋 각각은 사운드 반향을 나타내는 음향 파라미터를 포함함 - 과 관련되는 분류로 직접적으로 분류하기 위해 이전에 트레이닝된 머신 러닝 분류기를 구현 및 사용하도록; 분류에 기초하여 음향 프리셋 중에서 음향 프리셋을 선택하도록; 그리고 음향 프리셋의 음향 파라미터에 기초하여 음향 환경 시뮬레이션을 수행하여, 음향 환경 시뮬레이션을 나타내는 사운드 신호를 생성하도록 구성됨 - ; 및 프로세서에 커플링되며 사운드 신호를 사운드로 변환하도록 구성되는 하나 이상의 헤드폰.

본 기술이 하나 이상의 특정한 예에서 구체화되는 것으로 본원에서 예시되고 설명되지만, 그럼에도 불구하고, 나타내어지는 세부 사항으로 제한되도록 의도되지는 않는데, 그 이유는, 청구범위의 균등물의 범위(scope) 및 범위(range) 내에서 다양한 수정 및 구조적 변경이 이루어질 수도 있기 때문이다.

하기에 제시되는 각각의 청구항은 별개의 실시형태를 나타내며, 상이한 청구항 및/또는 상이한 실시형태를 결합하는 실시형태는 본 개시의 범위 내에 있고 본 개시를 재검토한 이후의 기술 분야에서 통상의 지식을 가진 자에게는 명백할 것이다.

Claims

방법으로서,
실세계 환경의 이미지를 수신하는 단계;
머신 러닝 분류기(machine learning classifier)를 사용하여, 음향 환경 시뮬레이션을 위한 음향 프리셋(acoustic preset) - 상기 음향 프리셋 각각은 사운드 반향(sound reverberation)을 나타내는 음향 파라미터를 포함함 - 과 관련되는 분류를 생성하기 위해 상기 이미지를 분류하는 단계; 및
상기 분류에 기초하여 상기 음향 프리셋 중에서 음향 프리셋을 선택하는 단계
를 포함하는, 방법.
제1항에 있어서,
상기 음향 프리셋의 상기 음향 파라미터에 기초하여 상기 음향 환경 시뮬레이션을 수행하는 단계
를 더 포함하는, 방법.
제2항에 있어서,
상기 음향 환경 시뮬레이션을 수행하는 단계는, 상기 음향 프리셋의 상기 음향 파라미터에 기초하여 상기 실세계 환경에서 가상으로 배치되는 하나 이상의 가상 사운드 오브젝트에 대한 사운드 반향을 모델링하는 단계를 포함한 것인, 방법.
제2항에 있어서,
상기 머신 러닝 분류기를 사용하여, 상기 이미지, 또는 하나 이상의 추가적인 이미지를 분류하여, 하나 이상의 음향 파라미터 수정자(acoustic parameter modifier)를 생성하는 단계; 및
상기 하나 이상의 음향 파라미터 수정자에 기초하여 상기 음향 프리셋의 상기 음향 파라미터를 수정하여, 상기 음향 환경 시뮬레이션을 위한 수정된 음향 파라미터를 포함하는 수정된 음향 프리셋을 생성하는 단계
를 더 포함하되,
상기 음향 환경 시뮬레이션을 수행하는 단계는, 상기 수정된 음향 파라미터를 사용하여 상기 음향 환경 시뮬레이션을 수행하는 단계를 포함한 것인, 방법.
제1항에 있어서,
상기 음향 파라미터는 주파수 종속 감쇠 시간(frequency dependent decay time), 룸 사이즈, 반사 지연, 조기 시작 시간(early onset time), 및 확산 레벨 중 하나 이상을 포함한 것인, 방법.
제1항에 있어서,
상기 분류하는 단계는 상기 이미지를 상기 분류 및 관련된 상기 음향 프리셋으로 직접적으로 분류하는 단계를 포함한 것인, 방법.
제1항에 있어서,
상기 분류하는 단계는, 상기 분류가 각각의 신뢰도 레벨을 가지도록 상기 이미지를 분류하여 상기 분류를 생성하는 단계를 포함하고;
상기 선택하는 단계는, 상기 음향 프리셋이, 상기 분류 중에서, 상기 각각의 신뢰도 레벨 중 가장 높은 신뢰도 레벨을 갖는 분류와 관련되도록 상기 음향 프리셋을 선택하는 단계를 포함한 것인, 방법.
제7항에 있어서,
상기 실세계 환경의 제2 이미지를 수신하는 단계;
상기 머신 러닝 분류기를 사용하여, 상기 제2 이미지를 분류하여 각각의 제2 신뢰도 레벨을 갖는 제2 분류를 생성하는 단계;
상기 제2 분류 중 하나 이상이 신뢰도 레벨 임계치를 초과하는 각각의 제2 신뢰도 레벨을 갖는지의 여부를 결정하는 단계; 및
상기 제2 분류 중 하나 이상이, 상기 신뢰 레벨 임계치를 초과하는 각각의 제2 신뢰도 레벨을 갖는 경우, 상기 제2 분류에 기초하여 상기 음향 프리셋 중에서 제2 음향 프리셋을 선택하고, 상기 음향 환경 시뮬레이션을 위한 상기 음향 프리셋을 상기 제2 음향 프리셋으로 대체하는 단계
를 더 포함하는, 방법.
제8항에 있어서,
상기 제2 분류 중 하나 이상이 상기 신뢰도 레벨 임계치를 초과하는 대응하는 제2 신뢰도 레벨을 갖지 않는 경우, 상기 제2 음향 프리셋을 선택하지 않고, 상기 음향 환경 시뮬레이션을 위한 상기 음향 프리셋을 대체하지 않는 단계
를 더 포함하는, 방법.
제1항에 있어서,
상기 실세계 환경의 상기 이미지를 수신하는 단계는, 상기 이미지를 상기 실세계 환경의 360 도 이미지로서 수신하는 단계를 포함한 것인, 방법.
제1항에 있어서,
상기 이미지는 상이한 이미지의 합성을 나타내는 것인, 방법.
제1항에 있어서,
상기 음향 프리셋의 상기 음향 파라미터는, 상기 머신 러닝 분류기가 트레이닝되었던 트레이닝 이미지에서 표현된 실세계 환경을 나타내는 음향 임펄스 응답으로부터 알고리즘적으로 유도된 것인, 방법.
제1항에 있어서,
상기 음향 프리셋의 상기 음향 파라미터는 주관적인 사운드 설계에 기초하여 개발된 것인, 방법.
제1항에 있어서,
상기 음향 프리셋에 대해 음향 파라미터 안전성 체크를 수행하는 단계
를 더 포함하는, 방법.
제1항에 있어서,
상기 머신 러닝 분류기는, 상기 음향 프리셋의 각각의 음향 프리셋을 사용하여 라벨링된(labeled) 실세계 환경의 트레이닝 이미지에 대해 트레이닝된 것인, 방법.
제1항에 있어서,
디지털 삼차원(three-dimensional; 3D) 메쉬를 수신하는 단계; 및
상기 3D 메쉬에서 표현되는 물리적 재료의 음향 속성을 추정하여, 상기 음향 환경 시뮬레이션을 위한 조기 반사 파라미터(early reflection parameter)를 생성하는 단계
를 더 포함하는, 방법.
장치로서,
프로세서를 포함하되, 상기 프로세서는:
실세계 환경의 이미지를 수신하도록;
하나 이상의 신경망을 포함하는 트레이닝된 머신 러닝 분류기를 사용하여, 상기 이미지를, 음향 환경 시뮬레이션을 위한 음향 프리셋 - 상기 음향 프리셋 각각은 사운드 반향을 나타내는 음향 파라미터를 포함함 - 과 관련되는 분류로 직접적으로 분류하도록;
상기 분류에 기초하여 상기 음향 프리셋 중에서 음향 프리셋을 선택하도록;
상기 음향 프리셋의 상기 음향 파라미터에 기초하여 상기 음향 환경 시뮬레이션을 수행하도록 구성된 것인, 장치.
제17항에 있어서,
상기 프로세서는, 상기 음향 프리셋의 상기 음향 파라미터에 기초하여 상기 실세계 환경에서 가상으로 배치되는 하나 이상의 가상 사운드 오브젝트에 대한 사운드 반향을 모델링하는 것에 의해 상기 음향 환경 시뮬레이션을 수행하도록 구성된 것인, 장치.
제18항에 있어서,
상기 프로세서는 또한:
상기 머신 러닝 분류기를 사용하여 상기 이미지를 추가로 분류하여 하나 이상의 음향 파라미터 수정자를 생성하도록;
상기 하나 이상의 음향 파라미터 수정자에 기초하여 상기 음향 프리셋의 상기 음향 파라미터를 수정하여, 상기 음향 환경 시뮬레이션을 위한 수정된 음향 파라미터를 포함하는 수정된 음향 프리셋을 생성하도록;
상기 수정된 음향 파라미터를 사용하여 상기 음향 환경 시뮬레이션을 추가로 수행하도록 구성된 것인, 장치.
제17항에 있어서,
상기 분류는 각각의 신뢰도 레벨을 가지고;
상기 프로세서는, 상기 음향 프리셋이, 상기 분류 중에서, 상기 각각의 신뢰도 레벨 중 가장 높은 신뢰도 레벨을 갖는 분류와 관련되도록 상기 음향 프리셋을 선택하는 것에 의해 선택하도록 구성된 것인, 장치.
제17항에 있어서,
상기 머신 러닝 분류기는, 상기 음향 프리셋의 각각의 음향 프리셋을 사용하여 라벨링된 실세계 환경의 트레이닝 이미지에 대해 트레이닝된 것인, 장치.
명령어로 인코딩되는 비일시적 컴퓨터 판독 가능 매체로서,
상기 명령어는, 프로세서에 의해 실행될 때, 상기 프로세서로 하여금:
실세계 환경의 이미지를 수신하게 하고;
음향 프리셋 - 음향 프리셋 각각은 사운드 반향을 나타내는 음향 파라미터를 포함함 - 의 각각의 음향 프리셋을 사용하여 라벨링되는 실세계 환경의 트레이닝 이미지에 대해 이미 트레이닝된 머신 러닝 분류기를 사용하여, 상기 이미지를, 상기 음향 환경 시뮬레이션을 위한 상기 음향 프리셋과 관련되는 분류로 직접적으로 분류하게 하고;
상기 분류에 기초하여 상기 음향 프리셋 중에서 음향 프리셋을 선택하게 하고;
상기 음향 프리셋의 상기 음향 파라미터에 기초하여 상기 음향 환경 시뮬레이션을 수행하게 하는 것인, 비일시적 컴퓨터 판독 가능 매체.
제22항에 있어서,
상기 프로세서로 하여금 상기 음향 환경 시뮬레이션을 수행하게 하는 명령어는, 상기 프로세서로 하여금, 상기 음향 프리셋의 상기 음향 파라미터에 기초하여 상기 실세계 환경에서 가상으로 배치되는 하나 이상의 가상 사운드 오브젝트에 대한 사운드 반향을 모델링하게 하는 명령어를 포함하는 것인, 비일시적 컴퓨터 판독 가능 매체.
제23항에 있어서,
상기 프로세서로 하여금:
상기 머신 러닝 분류기를 사용하여 상기 이미지를 추가로 분류하여 하나 이상의 음향 파라미터 수정자를 생성하게 하고;
상기 하나 이상의 음향 파라미터 수정자에 기초하여 상기 음향 프리셋의 상기 음향 파라미터를 수정하여, 상기 음향 환경 시뮬레이션을 위한 수정된 음향 파라미터를 포함하는 수정된 음향 프리셋을 생성하게 하며;
상기 수정된 음향 파라미터를 사용하여 상기 음향 환경 시뮬레이션을 추가로 수행하게 하는 명령어를 더 포함하는, 비일시적 컴퓨터 판독 가능 매체.
제22항에 있어서,
상기 분류는 각각의 신뢰도 레벨을 가지고;
상기 프로세서로 하여금 선택하게 하는 상기 명령어는, 상기 프로세서로 하여금, 상기 음향 프리셋이, 상기 분류 중에서, 상기 각각의 신뢰도 레벨 중 가장 높은 신뢰도 레벨을 갖는 분류와 관련되도록 상기 음향 프리셋을 선택하게 하는 명령어를 포함하는 것인, 비일시적 컴퓨터 판독 가능 매체.