[go: up one dir, main page]

KR20210106546A - 딥 러닝 이미지 분석을 사용한 룸 음향 시뮬레이션 - Google Patents

딥 러닝 이미지 분석을 사용한 룸 음향 시뮬레이션 Download PDF

Info

Publication number
KR20210106546A
KR20210106546A KR1020217023354A KR20217023354A KR20210106546A KR 20210106546 A KR20210106546 A KR 20210106546A KR 1020217023354 A KR1020217023354 A KR 1020217023354A KR 20217023354 A KR20217023354 A KR 20217023354A KR 20210106546 A KR20210106546 A KR 20210106546A
Authority
KR
South Korea
Prior art keywords
acoustic
sound
preset
image
presets
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Granted
Application number
KR1020217023354A
Other languages
English (en)
Other versions
KR102804488B1 (ko
Inventor
마틴 왈쉬
이퍼 맥도나
마이클 엠 굿윈
에드워드 스테인
피터 코코란
Original Assignee
디티에스, 인코포레이티드
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by 디티에스, 인코포레이티드 filed Critical 디티에스, 인코포레이티드
Publication of KR20210106546A publication Critical patent/KR20210106546A/ko
Application granted granted Critical
Publication of KR102804488B1 publication Critical patent/KR102804488B1/ko
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V10/00Arrangements for image or video recognition or understanding
    • G06V10/70Arrangements for image or video recognition or understanding using pattern recognition or machine learning
    • G06V10/764Arrangements for image or video recognition or understanding using pattern recognition or machine learning using classification, e.g. of video objects
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04SSTEREOPHONIC SYSTEMS 
    • H04S7/00Indicating arrangements; Control arrangements, e.g. balance control
    • H04S7/30Control circuits for electronic adaptation of the sound field
    • H04S7/305Electronic adaptation of stereophonic audio signals to reverberation of the listening space
    • GPHYSICS
    • G01MEASURING; TESTING
    • G01HMEASUREMENT OF MECHANICAL VIBRATIONS OR ULTRASONIC, SONIC OR INFRASONIC WAVES
    • G01H7/00Measuring reverberation time ; room acoustic measurements
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F30/00Computer-aided design [CAD]
    • G06F30/10Geometric CAD
    • G06F30/13Architectural design, e.g. computer-aided architectural design [CAAD] related to design of buildings, bridges, landscapes, production plants or roads
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F30/00Computer-aided design [CAD]
    • G06F30/20Design optimisation, verification or simulation
    • G06F30/27Design optimisation, verification or simulation using machine learning, e.g. artificial intelligence, neural networks, support vector machines [SVM] or training a model
    • G06K9/00664
    • G06N3/0445
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/08Learning methods
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V10/00Arrangements for image or video recognition or understanding
    • G06V10/70Arrangements for image or video recognition or understanding using pattern recognition or machine learning
    • G06V10/82Arrangements for image or video recognition or understanding using pattern recognition or machine learning using neural networks
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V20/00Scenes; Scene-specific elements
    • G06V20/10Terrestrial scenes
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V20/00Scenes; Scene-specific elements
    • G06V20/20Scenes; Scene-specific elements in augmented reality scenes
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V20/00Scenes; Scene-specific elements
    • G06V20/60Type of objects
    • G06V20/64Three-dimensional objects
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F2119/00Details relating to the type or aim of the analysis or the optimisation
    • G06F2119/10Noise analysis or noise optimisation
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/04Architecture, e.g. interconnection topology
    • G06N3/044Recurrent networks, e.g. Hopfield networks
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04SSTEREOPHONIC SYSTEMS 
    • H04S2400/00Details of stereophonic systems covered by H04S but not provided for in its groups
    • H04S2400/11Positioning of individual sound objects, e.g. moving airplane, within a sound field
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04SSTEREOPHONIC SYSTEMS 
    • H04S2400/00Details of stereophonic systems covered by H04S but not provided for in its groups
    • H04S2400/15Aspects of sound capture and related signal processing for recording or reproduction

Landscapes

  • Engineering & Computer Science (AREA)
  • Physics & Mathematics (AREA)
  • Theoretical Computer Science (AREA)
  • General Physics & Mathematics (AREA)
  • Evolutionary Computation (AREA)
  • Multimedia (AREA)
  • Geometry (AREA)
  • Software Systems (AREA)
  • Artificial Intelligence (AREA)
  • General Engineering & Computer Science (AREA)
  • Computer Hardware Design (AREA)
  • Health & Medical Sciences (AREA)
  • General Health & Medical Sciences (AREA)
  • Computing Systems (AREA)
  • Medical Informatics (AREA)
  • Computer Vision & Pattern Recognition (AREA)
  • Life Sciences & Earth Sciences (AREA)
  • Biomedical Technology (AREA)
  • Biophysics (AREA)
  • Computational Linguistics (AREA)
  • Data Mining & Analysis (AREA)
  • Molecular Biology (AREA)
  • Mathematical Physics (AREA)
  • Databases & Information Systems (AREA)
  • Civil Engineering (AREA)
  • Architecture (AREA)
  • Structural Engineering (AREA)
  • Computational Mathematics (AREA)
  • Mathematical Analysis (AREA)
  • Mathematical Optimization (AREA)
  • Pure & Applied Mathematics (AREA)
  • Acoustics & Sound (AREA)
  • Signal Processing (AREA)
  • Stereophonic System (AREA)
  • Image Analysis (AREA)
  • Processing Or Creating Images (AREA)

Abstract

방법은 다음의 것을 포함한다: 실세계 환경의 이미지를 수신하는 것; 머신 러닝 분류기를 사용하여, 음향 환경 시뮬레이션을 위한 음향 프리셋 - 음향 프리셋 각각은 사운드 반향을 나타내는 음향 파라미터를 포함함 - 과 관련되는 분류를 생성하기 위해 이미지를 분류하는 것; 및 분류에 기초하여 음향 프리셋 중에서 음향 프리셋을 선택하는 것.

Description

딥 러닝 이미지 분석을 사용한 룸 음향 시뮬레이션
우선권 주장
본 출원은 2018년 12월 24일자로 출원된 미국 특허 가출원 제62/784,648호에 대한 우선권을 주장하는데, 상기 가출원은 참조에 의해 그 전체가 본원에 통합된다.
기술 분야
본 개시는 증강 현실을 위한 이미지 분류에 관한 것이다.
증강 현실(augmented reality; AR)은 실세계 또는 가상 세계를 병합하여, 실제의(actual) 또는 실제의(real) 물리적 오브젝트 및 디지털 또는 가상 오브젝트가 공존하며 실시간으로 상호 작용할 수도 있는 새로운 환경 및 시각화를 생성하는 것이다. AR은 진짜를 정확히 모방한 비주얼 및 오디오를 통해 가상 세계를 유저의 실세계 환경으로 가져온다. AR은 실제 음향 환경에서 가상 사운드 오브젝트로부터의 가상 사운드를 실제 사운드를 혼합한다. 가상 사운드 오브젝트로부터의 가상 사운드는, 즐거운 AR 경험을 보장하기 위해, 헤드폰을 통해 유저에게 플레이될 때 동등한 실세계 사운드와 매치해야 한다. 그렇지 않으면, 유저는 AR 경험의 저하를 경험한다. 종래의 기술은 가상 사운드를 동등한 실세계 사운드에 매치시키기 위해 복잡한 다단계 프로세스를 사용한다. 그러한 복잡도는, AR 시뮬레이션에 눈에 띄는 청각적 지연을 도입하는데, 이것은 유저 경험을 저하시킬 수도 있다. 또한, 복잡도는, 불리하게도, AR 디바이스에 대한 프로세싱 요건을, 따라서 AR 디바이스의 비용을 증가시킨다.
도 1a는 유저에게 AR 경험을 제공하도록 구성되는 예시적인 확장 현실(extended reality; XR) 시스템의 하이 레벨 블록도이다.
도 1b는, 유저에 의해 착용될 수도 있고 AR 경험을 유저에게 전달하도록 구성될 수도 있는 예시적인 AR 디바이스 또는 시스템의 사시도이다.
도 2는 음향 프리셋(acoustic preset)에 기초하여 XR 시스템에 의해 시뮬레이팅될 수도 있는 환경에 대한 예시적인 사운드 응답의 예시이다.
도 3은, XR 시스템에 의해 수행될 수도 있는 가상 사운드 오브젝트로부터의 사운드의 렌더링과 결합되는 이미지의 머신 러닝(machine learning; ML) 기반의 분류의 예시적인 방법의 예시이다.
도 4는 실세계 환경의 이미지를 음향 환경 시뮬레이션을 위한 음향 파라미터의 음향 프리셋으로 직접적으로 분류하기 위해 ML 분류를 사용하는 예시적인 방법의 플로우차트이다.
도 5는 실세계 환경의 이미지를 룸 타입(room type) - 이것으로부터, 그 다음, 음향 환경 시뮬레이션을 위한 음향 프리셋이 유도될 수도 있음 - 으로 분류하기 위해 ML 분류를 사용하는 예시적인 방법의 플로우차트이다.
도 6은, 실세계 환경의 장면 및 그들의 관련된 음향 프리셋의 캐시에 기초하여 실세계 환경의 이미지를 음향 환경 시뮬레이션을 위한 음향 파라미터의 음향 프리셋으로 직접적으로 분류하기 위해 ML 분류를 사용하는 예시적인 방법의 플로우차트이다.
도 7은, 실세계 환경의 이미지를, 음향 환경 시뮬레이션을 위한 일반적인/기본 음향 프리셋(primary acoustic preset) 및 보조 음향 수정자(secondary acoustic modifier)로 직접적으로 분류하기 위해 ML 분류를 사용하는 예시적인 방법의 플로우차트이다.
도 8은, 삼차원(3D) 메쉬(mesh) 및 3D 메쉬의 재료 속성(material property)으로부터 유도되는 음향 파라미터를 생성하도록 도 7의 방법을 확장시키는 예시적인 방법의 플로우차트이다.
도 9a는, 제1 트레이닝 시나리오에 따라 트레이닝 이미지에 기초하여 XR 시스템의 ML 분류기를 트레이닝시키고, 일단 트레이닝되면, ML 분류기를 사용하여 이미지를 분류하는 예시적인 방법의 예시이다.
도 9b는 도 9a의 트레이닝 방법에 대한 사전 트레이닝 데이터 준비(pre-training data preparation)의 예시이다.
도 10은 제2 및 제3 트레이닝 시나리오에 따라 ML 분류기를 트레이닝시키는 예시적인 방법의 예시이다.
도 11a는 제4 트레이닝 시나리오에 따라 ML 분류기를 트레이닝시키는 예시적인 방법의 예시이다.
도 11b는, 백투백(back-to-back) 180° 어안 렌즈(fish eye lens)를 포함하며, 두 개의 카메라 관점(camera perspective)에서 룸(room)의 360° 이미지를 캡쳐하는 예시적인 이미지 센서의 예시이다.
도 12는 도 1a의 XR 프로세서 실시형태와 비교하여 추가적인 기능성(functionality)을 포함하는 예시적인 XR 프로세서의 블록도이다.
도 13은 음향 파라미터에 기초하여 오디오 환경 시뮬레이션을 수행하기 위해 XR 프로세서에서 또는 그와 함께 사용될 수도 있는 예시적인 상호 작용식 오디오 엔진(interactive audio engine; IAE)의 블록도이다.
도 14는 도 12의 XR 프로세서에 의해 수행될 수도 있는 예시적인 음향 파라미터 미세 조정 프로세스(acoustic parameter refinement process)의 흐름도이다.
도 15는 도 12의 XR 프로세서에 의해 생성되는 예시적인 음향 파라미터의 테이블이다.
도 16은 캐싱된(cached) 음향 프리셋을 사용하는 예시적인 XR 프로세서의 블록도이다.
도 17은 음향 프리셋 사이를 전이하는 예시적인 방법의 플로우차트이다.
도 18은 음향 프리셋 사이를 전이하며 사용 가능한 이미지 안전성 체크를 수행하는 예시적인 방법의 플로우차트이다.
도 19는 교정된(calibrated) 장면 실시형태에서 음향 프리셋 사이를 전이하는 예시적인 방법의 플로우차트이다.
도 20은 트레이닝되지 않은 조건 상태의 ML 분류기로 시작하는, ML 분류기의 심층 신경망(deep neural network; DNN) 트레이닝의 예시적인 방법의 예시이다.
도 21은 XR 프로세서 및/또는 상호 작용식 오디오 엔진이 구현될 수도 있는 예시적인 컴퓨터 디바이스의 블록도이다.
도 22는 이미지를 음향 프리셋으로 직접적으로 분류하는 예시적인 요약 방법(summary method)의 플로우차트이다.
도 23은 도 22의 방법에서 분류되는 이미지와 관련하여 후속하는 또는 제2 이미지를 직접적으로 분류하는 예시적인 방법의 플로우차트이다.
예시적인 실시형태
확장 현실(XR)은 일반적으로 가상 현실(VR) 및 증강 현실(AR)을 포괄하며, 때로는 혼합 현실(mixed reality; MR)로서 또한 지칭된다. 오디오 신호 재생 시스템은 청취자에게 삼차원(3D) 오디오를 전달하도록 진화하였다. 3D 오디오에서, 사운드는 헤드폰 또는 이어폰(간략화를 위해, 본원에서는 일괄적으로 "헤드폰"으로서 지칭됨)에 의해 생성되며, 청취자에 의해 청각적으로 인식되는 실제의 또는 이론적 3D 공간 또는 환경에서의 음원의 가상의 배치를 수반할 수 있거나 또는 포함할 수 있다. 예를 들면, 가상화된 사운드는 3D 오디오 프로세싱된 사운드를 듣는 청취자의 위, 아래, 또는 심지어 후방에서 제공될 수 있다. 헤드폰을 통한 종래의 오디오 재생은, 청취자의 머리 내부에서 비롯되는 또는 나오는 것으로 인식되는 사운드를 제공하는 경향이 있다. 한 예에서, 헤드폰의 종래의 스테레오 쌍을 사용하는 것을 비롯하여, 헤드폰에 의해 전달되는 오디오 신호는, 예컨대 인식된 공간 사운드 환경을 청취자에게 제공하기 위해, 3D 오디오 효과를 달성하도록 특별히 프로세싱될 수 있다.
3D 오디오 헤드폰 시스템은, 예컨대, 실제 음원이 존재하지 않는 로컬 또는 가상 환경의 특정한 위치에서 음원의 인식을 청취자에게 제공하기 위해, VR 애플리케이션에 대해 사용될 수 있다. 유사하게, 3D 오디오 헤드폰 시스템은, 실제 음원이 존재하지 않는 위치에서 청취자에게 음원의 인식을 제공하기 위해, 그러나 청취자가 로컬 환경에서 하나 이상의 실제 사운드를 여전히 적어도 부분적으로 인식하는 방식으로, AR 애플리케이션에 대해 사용될 수 있다. VR 또는 AR을 위한 컴퓨터 생성 오디오 렌더링은, 예컨대 컴퓨터 뮤직 및 건축 음향(architectural acoustic)의 분야에서의 이전의 개발 위에 구축되며 그로부터 확장되는, 게이밍 및 가상 현실 오디오 렌더링 시스템 및 애플리케이션 프로그래밍 인터페이스에서의 신호 프로세싱 기술 개발을 활용할 수 있다. 유저에게 향상된 청취 경험을 제공하기 위해, 다양한 입체 음향(binaural) 기법, 인공 반향(artificial reverberation), 물리적 룸 음향 모델링(physical room acoustic modeling), 및 청각화 기법(auralization technique)이 적용될 수 있다. VR 또는 AR 신호 프로세싱 시스템은, 사운드가, 헤드폰으로부터 또는 청취자의 머리 내부의 한 위치로부터 나오는 것이 아니라, 로컬 환경 내의 외부 소스로부터 나오는 것으로 유저에 의해 인식되도록, 몇몇 사운드를 재생하도록 구성할 수 있다.
VR 3D 오디오와 비교하여, AR 오디오는, 예컨대 로컬 청취 환경의 음향과 실질적으로 일치하는 시뮬레이팅된 환경 음향 및 소스-환경 상호 작용을 제공함으로써, 참가자의 불신의 정지를 조장하는 추가적인 도전 과제를 수반한다. 이것은, 가상의 또는 추가된 신호에 대한 오디오 신호 프로세싱을, 신호가 유저의 환경을 포함하는 또는 표현하는, 그 결과 신호가 환경에서 헤드폰을 통해 자연적으로 발생하는 또는 재생되는 다른 사운드 쉽게 구별 가능하지 않은 방식으로 제공하는 도전 과제를 제시한다. 그러한 오디오 신호 프로세싱은, 주어진 청취 환경에 대한 감쇠 시간(decay time), 반향 음량 특성(reverberation loudness characteristic), 및/또는 반향 이퀄라이제이션 특성(reverberation equalization characteristic)(예를 들면, 반향의 스펙트럼 콘텐츠)을 비롯한 반향 속성을 매치시키고 그것을 적용하는 것에 의해, 가상 음장(virtual sound field)에서 정확한 음원을 제공한다. 시청각 AR 애플리케이션에서, 컴퓨터 생성 사운드 오브젝트("가상 사운드 오브젝트"로서 지칭됨)는, 뷰어(viewer)/청취자에 의해 자연스럽게 들리는 물리적 환경과 혼합되도록 음향학적으로 투명한 헤드폰을 통해 렌더링될 수 있다. 그러한 혼합은, 로컬 환경 음향과 매치시키기 위한 또는 그것을 근사하기 위한 입체 음향 인공 반향 프로세싱을 포함할 수 있거나 또는 사용할 수 있다.
본원에서 제시되는 실시형태는, 물리적 로컬 환경 음향과 충실히 매치하도록 또는 그것을 근사하도록 3D 오디오 렌더링 알고리즘 또는 시뮬레이션을 확장하기 위한 실용적이고 효율적인 접근법을 제공한다. 실시형태는 상기 언급된 문제 및/또는 도전 과제에 대한 솔루션을 제공하며, 또한 다음 설명으로부터 명백해질 이점을 제공한다. 실시형태는, 예를 들면, VR 및 AR과 같은 3D 오디오 애플리케이션에서 사용될 수도 있다. 실시형태는, 이미지 센서에 의해 캡쳐되는 로컬 환경의 이미지로부터 직접적으로, 반향 특성과 같은 로컬 환경의 음향 속성을 예측하기 위해, 머신 러닝(ML) 기술을 사용한다. 그 다음, 실시형태는, 로컬 환경의 실제 음향과 매치시키는 또는 그것을 근사하는 환경의 음향 시뮬레이션에서 예측된 음향 속성을 사용할 수도 있다. 예측된 음향 속성에 기초하여, 음향 환경 시뮬레이션은, 헤드폰을 통해 청취자에 의해 인식될 때, 가상 사운드를 로컬 환경과 매끄럽게 혼합한다.
더 구체적으로, 본원에서 제시되는 실시형태는, 이미지 센서를 사용하여 미지의 환경의 음향 속성을 정확하게 예측하도록 ML 분류기의 하나 이상의 신경망을 트레이닝시키기 위해 ML 기술을 사용한다. 그 다음, 예측된 음향 속성은, 가상 사운드 오브젝트에 대한 음향 컨텍스트를, 그 환경 내에서 실시간으로 생성되는 음향 환경 시뮬레이션의 형태로 생성하기 위해 사용된다. 실시형태는 유리하게는: 일반적으로 XR 디바이스 상에서 이용 가능한 카메라 센서를 사용하고; Unity(유니티) 및 Unreal(언리얼) 엔진과 같은 머신 러닝 엔진에서 사용되는 통상적인 오디오 플러그인의 사용을 허용하고; 종래의 기술과 비교하여, 실시간 AR 환경에서 가상 사운드를 동등한 실세계 사운드와 매치시키는 것과 관련되는 복잡도, 프로세싱 요건, 및 지연을 감소시키고; 이미지 센서 이용 가능성에 따라 확장 가능한 구현을 제공하고; 그리고 딥 러닝 추론 엔진으로서 구현될 수도 있다.
시스템 레벨 설명
하이 레벨에서, 본원에서 제시되는 실시형태는, 실세계(즉, 실제) 환경의 이미지를, 음향 환경 시뮬레이션(acoustic environment simulation; AES)을 위한 음향 파라미터의 세트를 나타내는 음향 프리셋으로 직접적으로 분류하기 위해 ML 기술을 활용한다. 음향 파라미터의 세트는 AES를 수행하기에 충분한 속성의 세트를 나타낸다. AES는 음향 프리셋의 음향 파라미터의 세트에 기초하여 실세계 환경의 사운드 응답을 시뮬레이팅하거나 또는 모델링한다. 음향 프리셋은 사운드 응답의 파라메트릭 표현(parametric representation)이다. AES는, 사운드 응답을, 실세계 환경에서 (가상으로) 배치되는 가상 사운드 오브젝트로부터의 사운드에 적용하여, 사운드를, 헤드폰을 통해 유저에게 플레이될 때, 사실적으로 가상 사운드 오브젝트로부터 비롯되는 것처럼 보이는 사실적인 사운드로 변환한다. 상기 언급된 실세계 환경은, 룸, 강당, 콘서트 홀, 야외 극장, 및 등등과 같은, 그러나 이들로 제한되지는 않는, 반향 품질을 가진 임의의 실세계 환경 또는 공간을 포함한다. 룸은 부엌, 거실, 식당(dining room), 욕실, 및 등등과 같은 가정 내의 룸을 또한 포함할 수도 있다. 룸은 사무실 공간, 및 등등을 또한 포함할 수도 있다.
도 1a를 참조하면, 본원에서 제시되는 실시형태에 따른, 유저에게 AR 경험을 제공하도록 구성되는 예시적인 XR 시스템(100)의 하이 레벨 블록도가 있다. 실시형태가 주로 AR 애플리케이션의 맥락에서 설명되지만, 실시형태는 VR 애플리케이션에도 동등하게 적용된다. 도 1a에서, 파선(dashed-line)은 일반적으로 파라메트릭 흐름, 예를 들면, 음향 파라미터의 흐름을 나타내고, 한편, 실선은 일반적으로 이미지 및 사운드 신호 흐름을 나타낸다.
XR 시스템(100)은 이미지 또는 비디오(일괄적으로 "이미지")(103)의 시퀀스를 캡쳐하기 위한 이미지 센서(102), AR 디스플레이(104), 좌측 및 우측 헤드폰을 포함하는 헤드셋(106), 옵션 사항인 위치 센서(107), 및 이미지 센서, AR 디스플레이, 헤드셋, 및 위치 센서에 커플링되며 이들과 통신하는 XR 프로세서 또는 프로세서(108)를 포함한다. XR 프로세서(108)는, (i) 본원에서 제시되는 실시형태에 따라 이미지(103)를 음향 프리셋(122)으로 분류하기 위한 하나 이상의 신경망을 포함하는 ML 기반의 음향 환경 분류기(120)(간단히 "ML 분류기"(120)로서 지칭됨), 및 상호 작용식 오디오 엔진(IAE)(124)을 포함한다. IAE(124)는 도 1a에서 도시되는 바와 같이 XR 프로세서(108)의 일부로서 구현될 수도 있거나, 또는 XR 프로세서로부터 분리될 수도 있다. 한 예에서, ML 분류기(120)는 AlexNet(알렉스넷), GoogLeNet(구글넷), 및 ResNet50(레스넷50)과 같은 하나 이상의 컨볼루션 신경망(convolutional neural network; CNN)을 포함할 수도 있다. 다른 예에서, ML 분류기(120)는 본원에서 설명되는 바와 같이 이미지를 분류하기에 적절한 비 CNN(non-CNN) 신경망을 포함한다. IAE(124)는 ML 분류기(120)로부터의 음향 프리셋(122)에 기초하여 AES(126)를 생성하거나 또는 수행하고, 또한 실세계 환경의 장면으로의 가상의 배치를 위한 하나 이상의 가상 사운드 오브젝트(128)를 생성한다.
이미지 센서(102)는 실세계 환경의 이미지(103)의 시퀀스를 캡쳐하기 위한 비디오 카메라를 포함할 수도 있다. 이미지 센서(102)는, 상이한 유리한 지점으로부터 실세계 환경의 상이한 장면의 이미지(103)를 캡쳐하기 위해, 실세계 환경에서 상이한 위치 및 방위(일괄적으로 "밴티지 포인트(vantage point)")에 배치될 수도 있다. 예를 들면, 이미지 센서(102)는, AR 경험의 대상인 유저에 의해 착용되는 비디오 카메라를 포함할 수도 있고, 그 결과, 비디오 카메라는, 유저가 실세계 환경에서 이동함에 따라, 실세계 환경의 상이한 장면을 캡쳐하도록 동작한다. 위치 센서(107)는, 환경에서, 유저를 비롯한 하나 이상의 오브젝트의 위치 및 방위를 감지하거나 또는 결정하고, 오브젝트의 위치 및 방위를 나타내는 위치 정보(114)를 XR 프로세서(108)로 제공한다.
하이 레벨에서, 동작시, XR 프로세서(108)는, 이용 가능한 경우, (i) 실세계 환경의 이미지(103), (ii) 가상 사운드 오브젝트(128)로부터의 사운드(즉, 사운드 신호), 및 (iii) 위치 정보(114)를 프로세싱하여, 가상 사운드 오브젝트 및 다른 가상 정보로 증강되는 실세계 환경의 장면을 나타내는 비디오 신호(136) 및 사운드 신호(138)를 생성한다. AR 디스플레이(104)는 비디오 신호(136)를 비디오로 변환하고 비디오를 유저에게 플레이한다. 헤드셋(106)의 헤드폰은 사운드 신호(138)를 사운드로 변환하고 사운드를 유저에게 플레이한다. 더 구체적으로, XR 프로세서(108)의 ML 분류기(120)는, 이미지(103)를 음향 프리셋(122)으로 분류하기 위해 딥 러닝 신경망 기술을 활용한다. 음향 프리셋(122)의 각각은, 실세계 환경의 사운드 속성을 나타내는 음향 파라미터, 예컨대 반향("reverb") 파라미터의 각각의 세트를 나타낸다. IAE(124)는 음향 프리셋(122)에 기초하여 AES(126)를 수행하여, 실세계 환경에 대한, 반향을 비롯한 음향 응답을 시뮬레이팅하거나 또는 모델링한다. IAE(124)는 실세계 환경의 장면 안으로 다양한 가상 위치에서 배치되는 하나 이상의 가상 사운드 오브젝트(128)를 또한 생성한다. AES(126)는 가상 사운드 오브젝트(128)에 의해 생성되는 사운드 신호에 사운드 응답을 적용하여, 가상 사운드 오브젝트로부터의 사운드 신호를, 가상 사운드 오브젝트에 대한 사실적인 사운드를 전달하는 사운드 신호(118)로 변환한다. 즉, AES(126)는, 적어도, 예를 들면, 가상 사운드 오브젝트에 대한 사운드 반향을 모델링한다.
도 1b를 참조하면, 유저에 의해 착용될 수도 있으며 AR 경험을 유저에게 전달하기 위해 사용될 수도 있는 AR 디바이스(150)의 사시도가 있다. 장치(150)는, 도 1b에서 도시되지 않는 내장 XR 프로세서에 모두 커플링되는, 광각 추적 카메라(160), 적색, 녹색, 청색(red, green, blue; RGB) 카메라(164), 마이크 어레이(168), 및, 스테레오 헤드폰(170)을 포함한다. AR 디바이스(150)는 XR 프로세서에 커플링되는 비행 시간 깊이 센서(time of flight depth sensor) 및 추가적인 입체 카메라를 또한 포함할 수도 있다.
도 2를 참조하면 음향 프리셋(122)에 기초하여 AES에 의해 시뮬레이팅될 수도 있는 실세계 환경에 대한 일반적인 사운드 응답(200)의 예시가 있다. 사운드 응답(200)은 실세계 환경의 음원으로부터 비롯되는 사운드 임펄스에 응답하여 발생한다. 사운드 응답(200)은, 음원으로부터 떨어져 이격되어 있는 실세계 환경의 청취자 위치에서 기록될 수도 있다. 사운드 응답(200)은 직접 경로(direct path; DP) 사운드, 직접 경로 사운드를 뒤따르는 조기 반사(early reflection)를 포함하는 반사(reflection; REF), 및 반사를 뒤따르는 반향 에너지 또는 반향(reverberation; REV)을 포함한다. 반사(REF)는 직접 경로 사운드(DP)가 발생한 때로부터 반사 지연 이후에 시작되고, 반향(REV)은 반사(REF)가 시작된 때로부터 반향 지연 이후에 시작된다. 반향(REV)의 진폭은 반향의 감쇠 시간에 따라 감쇠한다. 본원에서 제시되는 실시형태에서, AES(126)는, 가상 사운드 오브젝트(128)로부터의 사운드와 관련한 직접 경로 사운드, 조기 반사, 및 반향을 시뮬레이팅/표현하기 위해, 다른 음향 파라미터에 더하여 음향 프리셋(122)의 음향 파라미터를 활용한다.
도 3은, ML 분류기(120) 및 IAE(124)에 의해 수행될 수도 있는, 이미지(103)를 직접적으로 음향 프리셋(122)으로 ML 기반으로 분류하는, 그리고 가상 사운드 오브젝트(128)로부터의 사운드를 렌더링하는 예시적인 방법(300)의 예시이다. 방법(300)은, ML 분류기(120)가 이미지를 음향 프리셋으로 직접적으로 분류하도록 선험적 트레이닝 동작에서 이미 트레이닝되었다는 것을 가정한다. 간단히 말해서, 트레이닝은 음향 프리셋 중 상이한 음향 프리셋을 사용하여 라벨링되는(labeled) 상이한 이미지에 대해 ML 분류기(120)를 트레이닝시키는 것을 포함한다. 한 예에서, 음향 프리셋은 라벨(L1-LM)과 각각 관련되는 M 개의, 예를 들면, 10 개, 20 개, 및 등등의 음향 프리셋(P1-PM)을 포함할 수도 있다. 각각의 음향 프리셋(Pi)은 음향 환경 시뮬레이션, 예를 들면, AES(126)를 위해 사용되는 음향 파라미터(AP1-APN)의 세트를 나타낸다. 라벨(L1-LM) 및 음향 프리셋(P1-PM)(및 그들의 관련된 음향 파라미터(AP1-APN)의 세트)은 XR 프로세서(108)의 메모리에 저장될 수도 있다. 음향 파라미터(AP1-APN)는 주어진 음향 프리셋(Pi)에 대한 각각의 값을 가지며, 값은 음향 프리셋(P1-PM)에 걸쳐 변한다. 음향 파라미터(AP1-APN)는 적어도 음향 반향 파라미터를 포함할 수도 있다. 일반적으로, 반향 파라미터는, 예를 들면, 반향 감쇠 시간, 반향 음량 특성, 및/또는 반향 이퀄라이제이션 특성(예를 들면, 반향의 스펙트럼 콘텐츠)을 포함할 수도 있다. 더 구체적으로, 반향 파라미터는, 고주파 감쇠(high frequency attenuation) 및 감쇠 시간, 저주파 감쇠 및 감쇠 시간, 댐핑(damping), 확산, 밀도, 룸 사이즈, 및 등등을 포함할 수도 있다. 반향 파라미터는, 상호 작용식 3D 오디오 렌더링 가이드라인 레벨 2.0(Interactive 3D Audio Rendering Guidelines Level 2.0; I3DL2)과 같은, 임의의 공지된 또는 지금부터 개발되는 음향 관련 표준에서 정의되는 바와 같은 파라미터를 포함할 수도 있다.
음향 파라미터(AP1-APN)는, 하나 이상의 사운드 반사 파라미터/계수, 하나 이상의 사운드 흡수 파라미터/계수, 및 등등과 같은 추가적인 음향 파라미터를 포함할 수도 있다.
302에서, XR 프로세서(108)는 AES를 위한 디폴트 또는 초기 음향 프리셋으로서 음향 프리셋(P1-PM) 중 하나를 선택하거나 또는 확립한다. 디폴트 음향 프리셋의 음향 파라미터(AP1-APN)는 초기 음향 파라미터를 나타낸다.
304에서, ML 분류기(120)는 이미지 센서(102)에 의해 캡쳐되는 시퀀스 이미지(103) 중에서 한 이미지를 수신한다. 정상 상태 동작에서, 이미지는 방법(300)을 통해 순차적으로 프로세싱될 이미지(103)의 시퀀스 중의 이전의 그리고 미래의 이미지 중의 현재의 이미지일 수도 있다.
"추론"으로서 지칭되는 306에서, (사전 트레이닝된) ML 분류기(120)는 이미지를 음향 프리셋(P1-PM)에 대응하는 다수의 (현재의) 분류의 세트로 직접적으로 분류한다. 분류의 세트는, 라벨 중의 각각의 라벨과 관련되는 신뢰도 레벨(C1-CN)을 갖는 음향 프리셋(P1-PM)을 나타내는 라벨(L1-LM)을 단순히 포함할 수도 있다. 라벨(L1-LM)은 (공지된) 음향 프리셋(P1-PM) 중의 각각의 음향 프리셋에, 따라서 음향 프리셋의 (공지된) 음향 파라미터(AP1-APN)에 액세스하기 위해 사용될 수도 있다. 예를 들면, 음향 프리셋(P1-PM)은 인덱싱되도록 저장될 수도 있고 따라서 라벨(L1-LM)에 기초하여 재시도될 수도 있다. 신뢰도 레벨(Ci)은 관련된 라벨(Li)/음향 프리셋(Pi)가 이미지에 대해 정확할 확률, 즉, 이미지가 라벨(Li)/음향 프리셋(Pi)으로 정확하게 분류되었을 확률을 나타낸다. 이러한 방식으로, 분류는, 경판정(hard decision)이 아니라, 연판정(soft decision)으로서 간주될 수도 있다.
308에서, XR 프로세서(108)는, (현재의) 선택된 라벨/음향 프리셋을 생성하기 위해, 분류 중의 신뢰도 레벨(C1-CN) 중에서 가장 큰 신뢰도 레벨과 관련되는 라벨/음향 프리셋을 선택한다. 선택된 음향 프리셋은 동작(302)의 디폴트 음향 프리셋을 대체한다. 선택된 음향 프리셋은 메모리에서 검색된다(즉, 선택된 프리셋의 음향 파라미터(AP1-APN)가 메모리에서 검색된다).
310에서, XR 프로세서(108)는 선택된 음향 프리셋을 사용하여, 즉, 선택된 음향 프리셋의 파라미터(AP1-APN)를 사용하여 IAE(124)를 업데이트한다.
방법(300)은, 이미지(103)의 시퀀스 중 다음 번 이미지가 분류를 위해 도달하면 순차적으로 반복되어, 이미지의 시퀀스에 대응하며, AES(126)를 위해 IAE(124)에 순차적으로 전달되는 분류 결과의 시퀀스를 생성한다.
방법(300)의 변형예는, IAE(124)에 대한 음향 프리셋 업데이트에 대해, 사전 결정된 신뢰도 레벨 임계치의 조건을 붙이는데, 이것은 연속적인 이미지를 분류하기 위해 방법이 반복될 때 IAE에 제공되는 업데이트에 히스테리시스를 도입할 수도 있다. 더 구체적으로, 변형예는, 하나 이상의 (현재의) 분류가 신뢰도 레벨 임계치를 초과하는 신뢰도 레벨을 갖는 경우에만 IAE(124)를 업데이트하는데, 이 경우 동작(308 및 310)은 상기에서 설명되는 바와 같이 진행된다. 그렇지 않으면, 변형예는 IAE(124)를 업데이트하지 않는다, 즉, 변형예는, 신뢰도 레벨 임계치를 초과한 IAE에 대한 마지막, 이전 업데이트를 단순히 유지한다. 분류가 확률로서 신뢰도 레벨을 나타내는 또는 그와 관련되는 소프트맥스(softmax) 값(즉, 연판정)을 포함한다고 가정하면, 신뢰도 레벨 임계치는, 예를 들면, 0.7의 확률과 동일하게 설정될 수도 있다. 그 경우, 대응하는 확률이 0.7을 초과하는 경우에만, 업데이트가 발생한다. 히스테리시스를 추가하기 위해, 업데이트는 (동작(306)을 통해) 연속 분류의 1을 초과하는 사전 결정된 수에 걸친 평균 신뢰도 레벨이 0.7을 초과하는 경우에만 발생할 수도 있다.
분류 플로우차트
ML 기술을 사용하여 이미지를 분류하는 다양한 방법이 이제 도 4 내지 도 7의 플로우차트와 관련하여 설명된다. 방법은 이미지를 상기에서 설명되는 음향 프리셋(P1-PM)을 나타내는 분류로 분류하기 위해 수행될 수도 있다. 방법은 XR 시스템(100)에 의해 수행될 수도 있다.
도 4는, 실세계 환경의 이미지를, AES(예를 들면, AES(126))에 대한 음향 파라미터의 "가장 잘 매치하는" 음향 프리셋으로 직접적으로 분류하기 위해 ML 분류를 사용하는 예시적인 방법(400)의 플로우차트이다. 방법(400)은 방법(300)과 관련하여 상기에서 설명되는 동작을 요약한다. 방법(400)은, 상이한 실세계 환경의 많은 이미지에 대해 트레이닝된 그리고 음향 프리셋(P1-PM) 중 다양한 음향 프리셋을 사용하여 라벨링된 ML 분류기(예를 들면, ML 분류기(120))를 가정하며, 그 결과, ML 분류기는, 트레이닝의 결과로서, 개입하는 분류 또는 동작 없이, 이미지를 음향 프리셋으로(즉, 음향 프리셋의 음향 파라미터로) 직접적으로 분류하도록 구성된다.
402에서, 음향 프리셋(P1-PM) 중에서 초기 음향 프리셋이 확립된다.
404에서, 실세계 환경의 장면의 이미지가 캡쳐된다.
406에서, 딥 러닝 신경망 추론을 사용하여, (404로부터 수신되는) 이미지는 음향 프리셋(P1-PM) 및 그들의 각각의 신뢰도 레벨(C1-CN)을 나타내는 M 개의 분류로 직접적으로 분류된다. 신뢰도 레벨(C1-CN) 중에서 가장 높은 신뢰도 레벨과 관련되는 음향 프리셋(P1-PM) 중의 음향 프리셋은, 이미지에서 묘사되는 실세계 환경에 "가장 잘 매치하는" 음향 프리셋으로 간주된다. 즉, 가장 잘 매치하는 음향 프리셋에 기초하여 AES(126)에 의해 생성되는 시뮬레이팅된 사운드 응답은, 다른 음향 프리셋 중 임의의 것에 기초하여 생성될 것보다, 실세계 환경의 실제 사운드 응답에 더 가깝다. 408에서, 가장 잘 매치하는 음향 프리셋은, 분류/음향 프리셋과 관련되는 신뢰도 레벨에 기초하여 식별/선택될 수도 있다.
408에서, 예를 들면, 도 3과 관련하여 상기에서 설명되는 바와 같이, 가장 잘 매치하는 음향 프리셋을 사용하여 AES(126)를 업데이트할지의 여부가 결정된다. AES(126)를 업데이트하는 것이 결정되면, 가장 잘 매치하는 음향 프리셋은 AES로 제공되고, 따라서, 이전 음향 프리셋을 대체한다. 그렇지 않으면, AES(126)는 가장 잘 매치하는 음향 프리셋을 사용하여 업데이트되지 않고, AES는 이전의 가장 잘 매치하는 음향 프리셋을 사용한다(즉, 이전 음향 프리셋이 대체되지 않는다).
408로부터, 흐름 제어는 404로 복귀하고 프로세스는 다음 번 이미지에 대해 반복된다.
도 5는 실세계 환경의 이미지를 룸 타입(room type) - 이것으로부터, 그 다음, 음향 환경 시뮬레이션을 위한 음향 프리셋이 유도될 수도 있음 - 으로 분류하기 위해 ML 분류를 사용하는 예시적인 방법의 플로우차트이다. 방법(500)은, 룸 타입(예를 들면, 부엌, 욕실, 거실, 및 등등)을 사용하여 라벨링된 상이한 실세계 환경의 이미지에 대해 트레이닝된 ML 분류기를 가정하며, 그 결과, ML 분류기는, 트레이닝의 결과로서, 이미지를 룸 타입으로 분류하도록 구성된다. 방법(500)은 또한, 음향 프리셋(P1-PM)의 각각의 음향 프리셋이 전술한 분류로부터 유래하는 룸 타입에 할당될 수도 있거나, 또는 그 룸 타입으로부터 유도될 수도 있다는 것을 가정한다.
502에서, 음향 프리셋(P1-PM) 중에서 초기 음향 프리셋이 확립된다.
504에서, 실세계 환경의 장면의 이미지가 캡쳐된다.
506에서, 딥 러닝 신경망 추론을 사용하여, (동작(504)으로부터 수신되는) 이미지는 룸 타입, 예를 들면, 부엌으로 분류된다.
508에서, 음향 프리셋(P1-PM) 중에서, 룸 타입과 관련되는 또는 룸 타입에 할당되는 음향 프리셋이 검색된다.
510에서, 508로부터의 음향 프리셋은 AES를 업데이트하기 위해 사용될 수도 있다.
510으로부터, 흐름 제어는 504로 복귀하고 프로세스는 다음 번 이미지에 대해 반복된다.
방법(500)에서, 추론 동작(506)은 음향 프리셋으로 직접적으로 분류되지는 않는다. 따라서, 분류가 수행된 이후, 음향 프리셋을 식별하기 위해 추가 동작(508)이 사용된다. 즉, 룸 타입은 음향 프리셋으로 변환된다.
도 6은, 실세계 환경의 장면 및 그들의 관련된 음향 프리셋의 캐시에 기초하여 실세계 환경의 이미지를 AES(126)를 위한 음향 파라미터의 음향 프리셋으로 직접적으로 분류하기 위해 ML 분류를 사용하는 예시적인 방법의 플로우차트이다. 방법(600)은, 방법(600)이 하기에서 설명되는 추가적인 동작(602 및 604)을 포함한다는 점을 제외하면, 방법(400)과 유사하다. 방법(600)은, 유저가 어떤 실세계 환경, 예를 들면, 룸에 있었는지를 XR 프로세서(108)가 결정하고, 룸의 각각에 대한 (최상의) 음향 프리픽스(acoustic prefix)를 캐시에 기록한다는 것을 가정한다.
흐름은 402 및 404로부터 602로 진행된다. 602에서, 유저가 현재 위치되는 룸 내에 유저가 이전에 있었는지의 여부가 결정된다. 유저가 이전에 룸에 있었다면, 흐름은 604로 진행하는데, 여기서 룸에 대한 음향 프리픽스가 캐시로부터 검색된다. 흐름은 604로부터, 캐시로부터 검색되는 음향 프리픽스를 사용하는 408로 진행된다. 유저가 이전에 룸에 있지 않았다면, 흐름은 406으로 진행하고, 상기에서 설명되는 바와 같이 동작이 계속된다. 방법(600)을 수행하도록 구성되는 XR 프로세서의 예가 도 16과 관련하여 하기에서 설명된다.
도 7은, 실세계 환경의 이미지를, AES(126)를 위한 일반적인/기본 음향 프리셋 및 보조 음향 수정자로 직접적으로 분류하기 위해 ML 분류를 사용하는 예시적인 방법의 플로우차트이다. 더 구체적으로, 방법(700)은, 방법(400)에서와 같이, 실세계 환경의 이미지를 일반적인 음향 프리셋("기본 음향 프리셋"으로서 또한 지칭됨)으로 직접적으로 분류하도록 트레이닝되는 ML 분류기(예를 들면, ML 분류기(120))의 제1 신경망을 사용한다. 일반적인 음향 프리셋의 각각은 일반적인 음향 파라미터의 각각의 세트를 포함한다. 예를 들면, 일반적인 음향 파라미터는 반향 파라미터일 수도 있다. 방법(700)은 또한, 이미지를, 일반적인 음향 프리셋을 수정하기 위해 사용될 수도 있는 추가적인 또는 보조 음향 파라미터, 예컨대 흡수 및/또는 반사 파라미터 또는 계수, 룸 볼륨, 및 등등으로 추가로 분류하도록 트레이닝되는 ML 분류기의 제2 신경망을 사용한다.
702에서, 음향 프리셋(P1-PM) 중 초기 음향 프리셋이 확립된다.
704에서, 실세계 환경의 장면의 이미지가 캡쳐된다.
706에서, 제1 신경망을 사용하여, 이미지는 일반적인 음향 프리셋으로 직접적으로 분류되는데, 일반적인 음향 프리셋 중에서 최상의 일반적인 음향 프리셋이 선택된다, 즉, 가장 높은 신뢰도 레벨과 관련되는 음향 프리셋이 최상의 음향 프리셋으로서 선택된다.
708에서, 제2 신경망을 사용하여, 이미지는 보조 음향 파라미터로 직접적으로 분류된다.
710에서, 706에서 선택되는 일반적인 음향 프리셋의 일반적인 음향 파라미터 중 하나 이상이 보조 음향 파라미터 중 하나 이상에 기초하여 수정/조정되어, 수정된 일반적인 음향 프리셋을 생성한다. 예를 들면, 일반적인 음향 프리셋의 일반적인 음향 파라미터 값은 보조 음향 파라미터 값에 기초하여 증가 또는 감소될 수도 있다. 대안적으로, 일반적인 음향 파라미터 중 하나 이상은 보조 음향 파라미터 중 하나 이상에 의해 대체될 수도 있다.
간단한 예에서, 분수 범위 0 < α < 1 내의 흡수 계수(α)가 보조 음향 파라미터로서 사용될 수도 있는데, 이 경우 동작(710)은 일반적인 음향 파라미터 중 하나 이상을 흡수 계수(α)로 승산하여, 하나 이상의 수정된 일반적인 음향 파라미터를 생성할 수도 있다. 실제로, 흡수에 기초한 그러한 수정은 다음과 같은 이유 때문에 더 복잡할 수도 있다. 각각의 재료가 그 고유의 흡수 계수를 가지기 때문에, 재료로부터의 조기 반사는 일반적으로 재료의 흡수 계수에 의해 직접적으로 영향을 받는다. 따라서, 많은 상이한 재료를 포함하는 음향 환경에서의 반향은, 환경 내의 재료의 집성체(aggregate)에 의해 영향을 받을 수 있는데, 이것은 일괄적으로 집성체 흡수(aggregate absorption)를 생성한다. 집성체 흡수는 상이한 주파수 대역에서 반향의 지연 레이트에 상이하게 영향을 끼칠 수도 있는데, 이것은 동작(710)에서 고려될 수 있다.
712에서, 수정된 일반적인 음향 프리셋은 AES를 업데이트하기 위해 사용될 수도 있다.
712에서, 흐름은 704로 복귀하고, 프로세스는 반복된다.
도 8을 참조하면, 방법(800)이 방법(700)의 동작(708)과 연결되는 3D 메쉬 프로세싱 동작(802)을 포함한다는 점을 제외하면, 방법(700)과 유사한 예시적인 방법(800)의 플로우차트가 있다. 3D 메쉬 프로세싱 동작(802)만이 설명된다. 일반적으로, 3D 메쉬 프로세싱 동작(802)은, 동작(708)에서 생성되는 보조 음향 파라미터 중 하나 이상을, 예를 들면, 깊이 카메라를 사용하여 생성되는 3D 메쉬의 컴포넌트로 매핑한다.
804에서, 깊이 카메라는 동작(704)에서 이미지가 캡쳐되었던 동일한 실세계 환경의 깊이 맵(이미지)을 캡쳐한다.
806에서, 깊이 맵으로부터 3D 메쉬가 생성된다.
808에서, 동작(708)에서 생성되는 보조 음향 파라미터(예를 들면, 재료 사운드 흡수)가 3D 메쉬로 매핑된다.
810에서, 3D 메쉬 및 보조 음향 파라미터가 내보내기된다(exported).
이제, ML 분류기(120)의 트레이닝 및 실시간 동작이 도 9 내지 도 11b와 관련하여 더욱 상세하게 설명된다.
ML 트레이닝
도 9a는, 제1 트레이닝 시나리오에 따라 트레이닝 이미지에 기초하여 ML 분류기(120)를 트레이닝시키고, 일단 트레이닝되면, ML 분류기를 사용하여 이미지를 분류하는 예시적인 방법의 예시이다. 일단 트레이닝되면, ML 분류기(120)는, "추론" 스테이지 또는 동작으로서 지칭되는 것에서, 통상적으로 실시간으로, 이미지를 분류한다. 도 9a의 예에서, ML 분류기(120)는 CNN을 가지고 구성된다. 예를 들면, ML 분류기(120)는 완전히 연결된 계층(fully connected layer; 904)에 커플링되는 컨볼루션 계층(902)을 포함한다. 실제로, ML 분류기(120)는 완전히 연결된 계층으로 이어지는 많은 컨볼루션 계층을 포함할 수도 있다.
트레이닝 동안 그리고 트레이닝 이후 추론 스테이지 동안, ML 분류기(120)는 이미지(906)를 수신하고 음향 프리셋을 나타내는 라벨의 형태로 분류(908)를 생성한다. 추론 스테이지에서, 910에서, 가장 높은 신뢰도를 갖는 음향 프리셋이, 상기에서 설명되는 바와 같이, 라벨 및 그들의 신뢰도 레벨에 기초하여 선택된다. 트레이닝 동안, 이미지(906)는 ML 분류기(120)가 트레이닝되는 트레이닝 이미지를 나타낸다.
제1 트레이닝 시나리오에서, ML 분류기(120)의 트레이닝은 다음의 동작을 포함할 수도 있다:
a. M 개의 별개의 라벨(L1-LM), 예를 들면, 라벨(0-20)을 확립한다. 라벨은, 숫자, 영숫자, 사람이 판독 가능한 라벨, 및 등등일 수도 있다.
b. 각각의 통상적인 유저 환경, 예를 들면, 룸을 나타내는 M 개의 음향 프리셋(P1-PM)을 생성/설계한다. 각각의 프리셋은, 상기에서 설명되는 바와 같이, 음향 프리셋(AP1-APN)의 각각의 세트를 포함한다. 각각의 음향 프리셋(Pi)은 대응하는 라벨(Li)과 관련된다.
c. 사전 트레이닝 데이터 준비를 수행한다: 룸의 많은 수의 트레이닝 이미지(예를 들면, 트레이닝 픽쳐)를, 음향 프리셋(P1-PM) 중에서 그들의 가장 가능성이 높은 음향 프리셋을 사용하여 라벨링한다. 도 9b는, 하기에서 설명되는 사전 트레이닝 데이터 준비의 예시이다.
i. 트레이닝 픽쳐를 트레이닝 픽쳐(도 9b에서 개별적으로 "I"로 표시됨)의 M 개의 그룹(G1-GM)으로 분할하고, 그 결과, 각각의 그룹(Gi) 내의 트레이닝 픽쳐에서의 (룸의) 장면은 그 그룹 내의 (룸의) 장면과 유사한 음향 속성을 갖는 것처럼 보이지만, 그러나, 다른 그룹 내의 (룸의) 장면과는 상이한 음향 속성을 갖는 것처럼 보인다. 예를 들면,: 그룹(G1)의 트레이닝 픽쳐에서의 장면은 서로 유사한 음향 속성을 갖는 것처럼 보인다; 그룹(G2)의 트레이닝 픽쳐에서의 장면은 서로 유사한 음향 속성을 갖는 것처럼 보이지만, 그러나 그것은 그룹(G1)의 트레이닝 픽쳐의 장면의 음향 속성과는 상이하고; 트레이닝 픽쳐의 모든 M 개의 그룹(G1-GN)에 대해 계속 그런 식이다.
ii. 음향 프리셋(P1-PM) 중 가장 가능성이 높은 음향 프리셋 중의 각각의 음향 프리셋을 사용하여 트레이닝 픽쳐의 그룹을 라벨링한다. 가장 가능성이 높은 음향 프리셋은 트레이닝 픽쳐에서의 장면의 음향 속성과 매치할 가능성이 가장 높은 음향 프리셋이다. 즉, 트레이닝 픽쳐는, 각각의 그룹 내에서 동일한, 그러나 그룹에 걸쳐 다른 음향 프리셋 중의 각각의 프리셋을 사용하여 라벨링된다. 예를 들면, 음향 프리셋(P1)이 그룹(G1)의 트레이닝 픽쳐에 가장 잘 매치하고, 음향 프리셋(P2)이 그룹(G2)의 트레이닝 픽쳐에 가장 잘 매치하고, 계속 그런 식이면, 그러면, 그룹(G1)의 모든 트레이닝 픽쳐를, 음향 프리셋(P1)에 대한 라벨(L1)을 사용하여 라벨링하고, 그룹(G2)의 모든 트레이닝 픽쳐를, 음향 프리셋(P2)에 대한 라벨(L2)을 사용하여 라벨링하고, 계속 그런 식이다. 이 동작은 라벨링된 트레이닝 픽쳐, 즉, 그들의 가장 가능성이 높은 음향 프리셋을 사용하여 라벨링되는 트레이닝 픽쳐를 생성한다.
d. 라벨링된 트레이닝 픽쳐를 사용하여, 이미지를 라벨/음향 프리셋으로 직접적으로 분류하도록 ML 분류기(120)를 트레이닝시킨다. 즉, 라벨링된 트레이닝 픽쳐는 ML 분류기(120)의 트레이닝 입력에 공급되는데, ML 분류기(120)는, 그 다음, 라벨링된 트레이닝 픽쳐에 대해 트레이닝된다. ML 분류기는, 상기에서 설명되는 바와 같이, 분류를 신뢰도 레벨과 관련시키는 연판정(예를 들면, 소프트맥스) 분류로 이미지를 분류하도록 트레이닝된다.
동작 (a)-(c)는 주관적인 사운드 설계에 기초하여, 즉, 사운드 설계자에 의해 실질적으로 수동으로 수행될 수도 있다. 사운드 설계자는, 트레이닝 데이터베이스 내의 많은 트레이닝 픽쳐 중의 트레이닝 픽쳐에서 묘사되는 장면 중 대응하는 장면에 대한 가장 가능성이 높은 음향 파라미터의 각각의 세트를 갖는 각각의 음향 프리셋을 설계하기 위해 룸 음향에 관한 그의/그녀의 경험을 사용한다. 즉, 사운드 설계자는, 설계자의 주관적 설계 경험에 기초하여 트레이닝 픽쳐 중 하나에서 묘사되는 대응하는 장면의 음향 속성을 가장 잘 나타내도록 또는 그 음향 속성과 가장 잘 매치하도록 음향 파라미터의 각기 각각의 세트를 설계한다. 예를 들면, 설계자는, "라이브" 룸(예를 들면, 라이브 주방)에 대해 제1 음향 프리셋의 반향 파라미터의 제1 세트를 선택하고, "데드(dead)" 룸(예를 들면, 천으로 덮인 가구를 포함하는 카펫이 많이 깔린 침실)에 대해 반향 파라미터의 제2 세트를 선택하고, "라이브" 룸의 반향 특성과 "데드" 룸의 반향 특성 사이의 중간 반향 특성을 갖는 룸에 대해 제3 음향 프리셋의 반향 파라미터의 제3 세트를 선택하고, 계속 그런 식이다. 그 다음, 설계자는 트레이닝 픽쳐를 그들의 가장 가능성이 높은 음향 프리셋(그 각각은 음향 파라미터의 각각의 세트를 나타냄)을 사용하여 라벨링한다. 예를 들면, 설계자는, 유사한 라이브 룸처럼 보이는 룸의 트레이닝 픽쳐를 제1 음향 프리셋을 사용하여 라벨링하고, 유사한 데드 룸처럼 보이는 룸의 트레이닝 픽쳐를 제2 음향 프리셋을 사용하여 라벨링하고, 중간 반향을 갖는 것처럼 보이는 유사한 룸의 트레이닝 픽쳐를 제3 음향 프리셋을 사용하여 라벨링하고, 계속 그런 식이다.
트레이닝을 위한 음향 프리셋을 확립하기 위해 사운드 설계자의 경험에 주로 의존하는 것에 대한 대안예는, 상이한 반향 속성을 갖는 룸의 실제 음향 측정치를 사용하고, 그 다음, 음향 측정치로부터 음향 프리셋을 알고리즘적으로 유도한다. 예를 들면, 각각의 룸에 대한 음향 임펄스 응답은, 실세계 환경의 음향 임펄스 응답을 측정하기 위한 임의의 공지된 또는 지금부터 개발되는 기술을 사용하여 측정될 수도 있다. 그 다음, 음향 프리셋의 음향 파라미터의 세트가, 예를 들면, 음향 임펄스 응답으로부터 반향 파라미터를 유도하기 위한 임의의 공지된 또는 지금부터 개발되는 기술을 사용하여, 측정된 음향 임펄스 응답으로부터 알고리즘적으로 유도된다.
하나의 단순화된 예에서, 임펄스 응답의 절대값은 정규화될 수 있고 dB 크기로 변환될 수 있다. dB 크기가 60 dB 아래로 떨어지는 초기 펄스(0 dB로 정규화됨)로부터의 시간은, RT60 감쇠 시간(즉, 룸에서 사운드가 60 dB 감쇠하는 데 걸릴 시간)으로서 간주된다. 추가된 주파수 도메인 분석을 통해, 그러한 방법은 RT60 시간의 다중 대역 분석으로 확장될 수 있다. 유사하게, 초기 스펙트럼 에너지, 시작 시간, 조기 반사 타이밍, 및 밀도, 등등에 대한 값은, 임펄스 응답 또는 그것의 윈도우화된 섹션에서 직접적으로 관찰될 수 있다. 이 특정한 기술은 단지 예로서만 제공되며, 임펄스 분석의 임의의 추가적인 또는 대안적 방법이 사용될 수도 있다는 것이 이해된다.
일단 트레이닝되면, 임의적인 룸 모델이, 예상할 "것 처럼 들린다"는 것을 결정하는 것에 의해 ML 분류기(120)는 유효성이 확인될 수도 있다.
추론 스테이지의 경우, ML 분류기(120)(또는 ML 분류기 외부의 로직)는 ML 분류기에 의해 생성되는 소프트맥스(출력) 분류에 대해 평활화 함수(smoothing function)를 적용하도록 구성될 수도 있고, 그 결과, 분류는, 도 3의 방법(300)과 관련하여 상기에서 설명되는 임계치 설정과 유사하게, 가짜 분류를 방지하기 위한 어떤 내장형 히스테리시스를 가지고, 소프트맥스 분류가 소프트맥스 임계치를 초과하는 경우 그것의 이전 상태(즉, AES(126)에 제공된 이전 음향 프리셋)로부터만 전이한다. 예를 들면, 음향 프리셋은 적절한 지연 라인 보간 및 이득 크로스페이딩을 사용하여 평활하게 전이될 수도 있다.
트레이닝은 또한, 전통적인 룸 타입 분류를 이미 수행하는 사전 트레이닝된 신경망을 이용하는 전이 학습(transfer learning)을 활용할 수도 있다. 이 접근법은 (피쳐 추출에서) 사전 트레이닝된 신경망의 컨볼루션 계층을 고정하고 상기에서 설명되는 라벨을 사용하여 완전히 연결된 계층(분류)을 계속 적응시킨다.
도 10은, 제2 트레이닝 시나리오 및 제3 트레이닝 시나리오에 따른 ML 분류기(120)의 트레이닝을 나타내는, 그리고, 일단 트레이닝되면, ML 분류기를 사용하여 이미지를 분류하기 위한, ML 분류기(120)에 대한 예시적인 동작 흐름의 다이어그램이다. 도 10의 예는, 추론 스테이지에서, 1002에서, 분류에 의해 출력되는 라벨로부터 음향 파라미터가 업데이트된다는 점을 제외하면, 도 9a의 예와 유사하다.
제2 트레이닝 시나리오에서, 라벨은 반향 파라미터와 같은 더 낮은 레벨의 음향 파라미터에 기초할 수도 있다. 반향 파라미터는, 예를 들면, I3DL2 음향 파라미터를 포함할 수도 있다. 처음에, 사운드 설계자는, 트레이닝 데이터베이스 내의 많은 트레이닝 픽쳐 중의 트레이닝 픽쳐에서 묘사되는 장면 중 대응하는 장면에 대한 가장 가능성이 높은 음향 파라미터의 각각의 세트를 갖는 각각의 음향 프리셋을 설계하기 위해 룸 음향에 관한 그의/그녀의 경험을 사용한다. 즉, 음향 파라미터의 각기 각각의 세트는, 트레이닝 픽쳐 중 하나에서 묘사되는 대응하는 장면의 음향 속성을 가장 잘 나타내도록 또는 그 음향 속성과 가장 잘 매치하도록 설계된다. 그 다음, 추론 동안, 1002에서 도시되는 바와 같이, 라벨에 기초하여 음향 파라미터가 업데이트된다.
제3 트레이닝 시나리오에서, 라벨은, 트레이닝 이미지에서 묘사되는 바와 같은 동일한 룸에서 취해지는 실제 음향 속성의 음향 측정치로부터 유도되는 하위 레벨 음향 파라미터에 기초한다. 음향 측정치는, 예를 들면, 룸 (사운드) 임펄스 응답의 측정치를 포함할 수도 있다. 그 다음, 사전 트레이닝 데이터 준비는, 적절한 음향 파라미터를 자동적으로 튜닝하기 위해, 즉, 자동화된 튜닝을 수행하기 위해 룸 임펄스 응답을 분석하는 것을 포함한다. 자동화된 튜닝 그 자체는 ML 신경망에 기초할 수도 있다.
제2 및 제3 트레이닝 시나리오 둘 모두는 ML 신경망을 활용할 수도 있다.
도 11a는, 제4 트레이닝 시나리오에 따른 ML 분류기의 트레이닝을 나타내는, 그리고, 일단 트레이닝되면, ML 분류기를 사용하여 이미지를 분류하기 위한, ML 분류기(120)에 대한 예시적인 동작 흐름의 다이어그램이다. 도 11a의 예는, 다음의 차이점을 제외하면, 도 9a 및 도 10의 예와 유사하다. 도 11a의 예에서, ML 분류기(120)는 컨볼루션 계층(902)을 뒤따르는 장단기 메모리(long short-term memory; LSTM)(1102)를 포함한다. LSTM(1102)에 기초한 신경망은 이미지 설명에 적합하다. 도 11a의 흐름에서, LSTM(1102)은 음향 디스크립터(acoustic descriptor; 1104)로 분류된다. 동작(1106)은 음향 디스크립터(1104)를, 업데이트 동작(1106)에서 사용되는 반향 파라미터로 변환한다.
제4 트레이닝 시나리오에서, ML 분류기(120)는 음향 관련성을 갖는 픽쳐의 기술적인 피쳐(descriptive feature)에 대해 트레이닝된다. 사전 트레이닝을 위한 데이터 준비는 룸의 장면의 픽쳐를 주어진 음향 어휘를 사용하여 라벨링하는 것을 포함한다. 도 11a의 예가 LSTM(1102)을 포함하지만, 초점이 라벨(예를 들면, 빅, 라이브, 타일, 및 등등)의 가장 가능성 있는 조합인 경우, LSTM은 완전히 연결된 계층(예를 들면, 완전히 연결된 계층(904))에 의해 대체될 수도 있다. 트레이닝은, 음향 고유의 디스크립터를 사용하여 라벨링되는 많은 수의 트레이닝 픽쳐를 포함한다.
도 11b를 참조하면, 두 개의 카메라 관점(이미지)(I180-1 및 I180-2)에서 룸의 360° 이미지를 함께 캡쳐하는, 즉, 전체 룸의 장면을 캡쳐하는 백투백 180° 어안 렌즈를 포함하는 이미지 센서(102)(예를 들면, 카메라)의 예의 예시가 있다. 이 예에서, XR 프로세서(108)는, 임의의 공지된 또는 지금부터 개발되는 등장방형 투영 기술(equi-rectangular projection technique)을 사용하여 상이한 카메라 관점을 단일의 장방형 이미지 프레임으로 함께 스티칭할 수도 있다. XR 프로세서(108)는, 트레이닝 동안 또는 추론/실시간 스테이지 동안, 프로세싱을 위해 단일의 장방형 이미지 프레임을 ML 분류기(120)에 제공한다. 다른 예에서, 전통적인 장방형 이미지는 ML 분류기(120)를 트레이닝시키기 위해 사용될 수도 있다. 대안적으로, 전통적인 장방형 이미지는, 유저/시청자가 룸의 상이한 뷰에서 카메라를 지향시킬 때 룸을 추적하는 것에 기초하여, 더 큰 이미지, 예를 들면, 합성 이미지(composite image)로 함께 스티칭될 수도 있다. 결과적으로 스티칭된 이미지는, 심지어 ML 분류기가 360 개의 이미지에 대해 트레이닝되는 경우에도, ML 분류기(120)에 적용될 수도 있다. 다른 예에서, 이미지 센서(102)는 룸의 장방형 이미지를 캡쳐하고, XR 프로세서(108)는 장방형 이미지를 등장방형 공간(equi-rectangular space) 상의 영역으로 매핑하여, 매핑된 이미지를 생성하고, ML 분류기(120)는 매핑된 이미지를 분류한다. 장방형 이미지를 등장방형 공간으로 매핑하기 위해, 임의의 공지된 또는 지금부터 개발되는 기술이 사용될 수도 있다.
XR 프로세서 예
도 12는, 도 1a의 XR 프로세서의 실시형태에 의해 제공되는 것과 비교하여, 추가적인 기능성을 포함하는 실시형태에 따른 XR 프로세서(108)의 블록도이다. 도 12의 예에서, XR 프로세서(108)는 이미지 분류 경로(1202), 재료 추정 경로(1204), 음향 파라미터 통합(acoustic parameter consolidation; APC) 로직(1206), 및 IAE(124)를 포함한다. 이미지 분류 경로(1202)는 이미지 센서(102)로부터의 이미지(103)를 프로세싱하여 일반적인/기본 음향 프리셋(1210) 및 보조 음향 수정자(1212)를 생성하고, 일반적인 음향 프리셋 및 보조 음향 수정자를 APC 로직(1206)에 제공한다. 재료 추정 경로(1204)는 이미지 센서(102)로부터의 이미지(103)를 이미지 분류 경로(1202)와 병렬로 프로세싱하여 조기 반사 모델 데이터(early reflection model data; ERE)("조기 반사 파라미터"로서 또한 지칭됨)(1214)를 생성하고, 조기 반사 모델 데이터를 APC 로직(1206)으로 제공한다. APC 로직(1206)은, 일반적인 음향 프리셋(1210), 보조 음향 수정자(1212), 및 조기 반사 모델 데이터(1214)를 함께 프로세싱하여 최종 음향 튜닝 파라미터(1220)를 생성하고, IAE(124)의 AES(126)로 그들을 제공한다.
이미지 분류 경로(1202)는 ML 분류기(120)가 후속되는 이미지 프리프로세서(1222)(음향 분석용)를 포함한다. 이미지 프리프로세서(1222)는, 이미지(103), 즉 원시 이미지 데이터를 프로세싱하여, ML 분류기(120)에 의한 소비에 적절한 포맷의 이미지를 생성한다. 이미지 프리프로세서(1222)는 원시 이미지 데이터를 포맷하고, 및/또는 ML 분류기(120)에 대한 트레이닝 가정과 매치하도록 원시 이미지 데이터를 선택, 호출 또는 집성한다. 예를 들면, 이미지 프리프로세서(1222)는, 상기에서 설명되는 바와 같이, 이미지(103) 중 연속적인 이미지를 함께 스티칭하여 분류를 위한 스티칭된 이미지를 생성할 수도 있다.
ML 분류기(120)가 이미지를 일반적인 음향 프리셋(그들의 신뢰도 레벨을 가짐) 및 보조 음향 수정자 둘 모두로 직접적으로 분류하도록 트레이닝되었다고 가정하면, ML 분류기는 이미지 프리프로세서(1222)로부터의 이미지의 각각을 분류하여 일반적인 음향 프리셋(1210) 및 음향 수정자(1212)를 직접적으로 생성한다. 한 예에서, 일반적인 음향 프리셋(1210)은 초기 반향 파라미터를 포함하고, 보조 음향 수정자(1212)는 음향 흡수 파라미터, 음향 반사 파라미터, 음향 확산 파라미터, 및 특정한 환경(예를 들면, 룸) 치수 중 하나 이상을 포함할 수도 있다.
ML 분류기(120)는, 두 타입 모두의 분류가 동시에 진행될 충분한 이미지 정보, 및 충분한 ML 분류기(예를 들면, 신경망) 프로세싱 파워가 있다면, 일반적인 음향 프리셋(1210) 및 보조 음향 수정자(1212)를 생성할 수도 있다. 대안적으로, ML 분류기(120)는, (i) 초기에 수신되는 이미지 및/또는 초기에 제한되는 프로세싱 파워에 기초하여 일반적인 음향 프리셋(1210)만을 초기에 생성할 수도 있고, 그리고 (ii) 추가적인 이미지가 도달하고 및/또는 추가적인 프로세싱 파워가 이용 가능한 경우, 일반적인 음향 프리셋(1219) 및 보조 음향 수정자(1212) 둘 모두를 동시에 생성할 수도 있다.
APC 로직(1206)은 음향 수정자(1212)에 기초하여 일반적인 음향 프리셋(1210)의 (초기) 반향 파라미터를 수정하여 수정된 반향 파라미터를 포함하는 수정된 일반적인 음향 프리셋을 생성하고, 최종 음향 튜닝 파라미터(1220)에서 수정된 일반적인 음향 프리셋을 AES(126)로 제공한다.
재료 추정 경로(1204)는 (기하학적 분석을 위한) 이미지 프리프로세서(1232)를 포함하고, 후속하여 건축 메쉬(architectural mesh) 및 재료 추정기(간단히 "재료 추정기"로서 지칭됨)(1234)를 포함한다. 이미지 프리프로세서(1232)는 이미지(103)의 원시 이미지 데이터를 프로세싱하여, 재료 추정기(1234)에 의한 소비를 위한 이미지를 생성한다. 재료 추정기(1234)는 이미지에서 묘사되는 장면에 대한 (디지털) 건축 3D 메쉬를 구성하고, 건축 3D 메쉬에 기초하여 장면에서 묘사되는 재료의 타입을 추정하고, 재료의 음향 속성을 추정하여, 음향 속성을 포함하는 조기 반사 모델 데이터(예를 들면, 파라미터)(1214)를 생성한다. 이미지 프리프로세서(1232) 및 재료 추정기(1234)는 기하학적 이미지 분석을 수행할 수도 있고, 건축 메쉬를 생성할 수도 있고, 임의의 공지된 또는 지금부터 개발되는 기술을 사용하여 메쉬로부터 재료 속성을 추정할 수도 있다.
APC 로직(1206)은 조기 반사 모델 데이터(1214)를 수정된 일반적인 음향 프리셋과 함께 최종 음향 튜닝 파라미터(1220)로 결합한다. 대안적으로 및/또는 추가적으로, APC 로직(1206)은 조기 반사 모델 데이터(1214)의 다양한 파라미터를 사용하여 수정된 일반적인 음향 프리셋을 추가로 수정할 수도 있다.
재료 추정 경로(1204)를 생략하는 실시형태에서, 조기 반사 모델 데이터(1214)는 여전히 사용될 수도 있지만, 그러나, 예를 들면, 디폴트 값으로 설정될 수도 있다.
도 13은 최종 음향 튜닝 파라미터(1220)의 음향 파라미터에 기초하여 AES(126)를 수행하기 위해 사용되는 IAE(124)의 일부의 블록도이다. IAE(124)는, 가상 사운드 오브젝트(128)의 각각의 것들로부터 각각의 사운드 신호(S1-SO)를 수신하는 사운드 채널(1300(1)-1300(O))을 포함한다. 각각의 채널(1300(i))은, 일련의 튜닝 가능한 이득(G), 지연, 및 파노라마식 전위차계(panoramic potentiometer)(pan) 스테이지를 통해, 사운드 신호(Si)에 대한 각각의 직접 경로를 다중 채널 출력 버스(1302)로 제공한다. 결과적으로 나타나는 채널별 직접 경로 사운드 신호는 다중 채널 출력 버스(1302)로 혼합된다. 각각의 채널(1300(i))은 또한, 반사 제어 신호(1310)에 응답하여 반사를 제어하는 튜닝 가능한 반사 스테이지(refl)를 통해, 사운드 신호(Si)에 대한 각각의 반사 경로를 다중 채널 출력 버스로 제공한다. 반사 제어 신호(1310)는, 상기에서 설명되는 최종 음향 튜닝(1220)의 하나 이상의 음향 파라미터를 포함할 수도 있다. 결과적으로 나타나는 채널별 반사도 또한 다중 채널 출력 버스(1302)로 혼합된다. IAE(124)는 또한, 채널별 반사에 의해 공급되며, 반향 제어 신호(1314)에 응답하여 다중 채널 출력 버스(1302) 상에서 결합되는 결합된 직접 경로 사운드 신호 및 반사를 반향시키도록 구성되는 반향 생성기(rev)(1312)를 포함한다. 반향 제어 신호(1314)는 최종 음향 튜닝 파라미터(1220)의 음향 파라미터(예를 들면, 반향 파라미터)를 포함할 수도 있다.
도 14는, 예를 들면, 도 12의 XR 프로세서(108)에 의해 수행될 수도 있는 예시적인 음향 파라미터 미세 조정 프로세스(1400)의 다이어그램이다. 1402에서, 초기 이미지 데이터는 ML 분류기(120) 안으로 흐르고, ML 분류기는 초기 이미지 데이터를 직접적으로 분류하여, 일반적인 음향 프리셋(P1-PM)(예를 들면, 일반적인 음향 프리셋(1210))에 대한 연판정 라벨을 생성한다. 각각의 음향 프리셋(Pi)은 N 개의 음향 파라미터(AP1-APN)(Param 1 - Param N)의 각각의 세트를 포함한다. 일반적인 음향 프리셋(P1-PM) 중 하나는 신뢰도 레벨에 기초하여 선택되어, 선택된 일반적인 음향 프리셋을 생성한다. 조기 반사 모델 데이터(ERE) 디폴트 파라미터(예를 들면, 조기 반사 모델 데이터(1214)에 대한 디폴트 값)가 선택된 일반적인 음향 프리셋에 추가될 수도 있다.
1404에서, 추가적인 이미지 데이터가 ML 분류기(120) 안으로 흐르고, 추가적인 이미지 데이터에 기초하여, ML 분류기는, 일반적인 음향 프리셋(P1-PM)에 더하여, 보조 음향 수정자(예를 들면, 보조 음향 수정자)(1212)를 생성한다.
1406에서, 음향 파라미터 안전성 체크 로직은, (현재) 선택된 일반적인 음향 프리셋, 및 안전성 체크를 수행하는 데 유용한 추가적인 정보를 고려하여 상기 언급된 음향 파라미터가 합리적인 경계 내에 있다는 것을 보장하기 위해, 선택된 일반적인 음향 프리셋 및 보조 음향 수정자에 대해 음향 파라미터 안전성 체크를 수행한다. 안전성 체크에 후속하여, APC 로직(1206)은 선택된 일반적인 음향 프리셋을 보조 음향 수정자에 기초하여 수정하여, 수정되는 바와 같은 N 개의 음향 파라미터를 비롯한, 수정된/통합된 음향 프리셋을 생성한다. ERE 디폴트 파라미터는 수정된/통합된 음향 프리셋과 함께 유지된다.
1410에서, 재료 추정 경로(1204)는 초기 이미지 데이터 및 추가적인 이미지 데이터에 기초하여 조기 반사 모델 데이터(1214)를 생성한다.
1412에서, 음향 파라미터 안전성 체크 로직은 수정된/통합된 음향 프리셋 및 조기 반사 모델 데이터(1214)에 대해 음향 파라미터 안전성 체크를 수행한다. APC 로직(1206)은 조기 반사 모델 데이터(1214)에 기초하여 수정된/통합된 음향 프리셋을 추가로 수정하거나, 또는 수정된 프리셋에 조기 반사 데이터를 단순히 추가하여, 최종 음향 튜닝 파라미터(1220)를 생성한다.
도 15는 룸의 이미지에 대해 도 12의 XR 프로세서(108)에 의해 생성되는 예시적인 음향 파라미터의 테이블이다. 테이블은, 테이블의 제1 행의 일반적인 음향 프리셋의 일반적인 음향 파라미터, 테이블의 제2 행의 보조 음향 파라미터, 및 테이블의 제3 행의 조기 반사 데이터 파라미터를, 테이블의 열에서 묘사되는 상기 언급된 파라미터의 다양한 속성에 매핑한다. 테이블의 제1 열은 상기 언급된 세 가지 타입의 음향 파라미터를 식별한다. 다음 번 또는 중간의 두 열은, 열에서 나타내어지는 바와 같이, ML 분류기(120) 및 재료 추정 경로(1204)에 의해 생성되는 태그의 (기술적) 라벨과 관련되는 정보를 포함한다. 마지막 열은 반향 파라미터 및 ERE 파라미터의 예를 제공한다.
캐시 실시형태
도 16은, 도 6의 방법(600)과 관련하여 상기에서 설명되는 바와 같이, 공지된 실세계 환경과 관련되는 캐싱된 음향 프리셋을 사용하는 실시형태에서의 XR 프로세서(108)의 블록도이다. 교정 동작 동안, 이미지 프리프로세서(1601) 및 ML 분류기(120)는, 이전 "장면" 에 대응하는 음향 파라미터를 교정된 프리셋 메모리 또는 캐시(1602)에 저장하도록 함께 동작한다. 상기에서 설명되는 바와 같이, 교정 이후, 실시간으로, 이미지 프리프로세서(1601)(이것은 이미지 매칭을 수행함)는, 로직(1604)(이것은 ML 분류기(120)를 포함할 수도 있음)과 함께, 공지된 실시간 이미지로부터 음향 파라미터를 식별하고, 전체 이미지 분석 없이 식별된 음향 파라미터를 호출한다. 도 16의 실시형태에서, 머신 러닝은 사전 교정된 장면 중 하나에 룸을 매치시키는 더 쉬운 작업에 초점을 맞춘다.
도 16의 실시형태에서, 교정된 프리셋 메모리 또는 캐시(1602)가 일반적인 음향 프리셋, 보조 음향 파라미터, 및 조기 반사 모델 데이터를 저장하는 경우, 그리고 그러한 데이터가 음향 파라미터 안전성 체크를 이미 받은 경우, APC 로직(1206)은 생략될 수도 있다. IAE(124)는 가상 사운드 오브젝트(128)에 대한 위치 정보 및 위치 정보(114)에 기초하여 반사를 완결한다(finalize).
음향 프리셋 전이 방법에 대한 플로우차트
도 17 내지 도 19는, 각각, 소프트맥스 분류의 신뢰도 레벨에 기초하여 음향 프리셋 사이를 전이하는 방법, 사용 가능한 이미지 안전성 체크를 전이에 추가하는 방법, 및 교정된 장면 실시형태에서 음향 프리셋 사이에서 전이를 수행하는 방법을 대상으로 한다. 일반적으로, 도 17 내지 도 19의 방법은, 일반적인/기본 음향 프리셋 및 보조 음향 수정자의 분류기가, 의미 있는/식별 가능한 피쳐를 갖지 않는 이미지 또는 실제 장면에 대해 추측하도록 강요받는 것을 방지한다.
도 17은 음향 프리셋, 예를 들면, 반향 프리셋 사이에서 전이하는 예시적인 방법(1700)의 플로우차트이다. 1702 및 1704를 포함하는 루프에서, 방법(1700)은, IAE(124)에 대한 디폴트 음향 프리셋을 확립하고 확실한 음향 환경 변화를 체크한다. 확실한 음향 환경 변화가 있는 경우, 흐름은 1706으로 진행하여 음향 프리셋을 업데이트하고, 그로부터 흐름은 1708로 진행된다. 그렇지 않으면, 흐름은 루프로 복귀한다. 1708, 1710, 및 1712를 포함하는 루프에서, 방법(1700)은 1708에서 환경 기반의 음향 프리셋을 수신하고, 1710에서 확실한 음향 환경 변화를 체크한다. 확실한 음향 환경 변화가 있는 경우, 흐름은 1712로 진행하여 음향 프리셋을 업데이트한다. 그렇지 않으면, 흐름이 다시 1708로 진행된다.
도 18은 음향 프리셋 사이를 전이하는 그리고 사용 가능한 이미지 안전성 체크를 수행하는 예시적인 방법(1800)의 플로우차트이다. 방법(1800)은, 방법(1800)이 사용 가능한 이미지로서 현재 센서 데이터(즉, 이미지)의 유효성을 확인하는 동작(1802 및 1804)을 더 포함한다는 점을 제외하면, 방법(1700)과 유사하다. 예를 들면, 동작(1702)과 동작(1704) 사이에서 삽입되는 동작(1802)은 사용 가능한 이미지(들)로서 현재 센서 데이터의 유효성을 확인한다. 예인 경우, 흐름은 1702로부터 1704로 진행되고, 한편, 아니오인 경우, 흐름은 1702로 복귀한다. 유사하게, 동작(1804)은 동작(1708)과 동작(1710) 사이에서 삽입되고, 동작(1804) 조건이 동작(1702)과 동작(1704) 사이에 흐르는 방식과 유사하게, 그들 동작 사이에서 조건이 흐른다.
도 19는, 도 16에서 묘사되는 실시형태와 같은 교정된 장면 실시형태에서 음향 프리셋 사이에서 전이하는 예시적인 방법(1900)의 플로우차트이다. 1902 및 1904를 포함하는 루프에서, 방법(1900)은 디폴트 음향 프리셋을 확립하고 교정된 장면과 관련되는 장면에 대해 현재 장면을 체크한다. 교정된 장면이 발견되지 않으면, 흐름은 1902로 복귀한다. 그렇지 않고, 교정된 장면이 발견되는 경우, 흐름은 1906으로 진행하는데, 여기서 방법(1900)은 교정된 음향 프리셋을 사용하여 디폴트 음향 프리셋을 업데이트한다. 흐름은 1906으로부터 1908, 1910, 및 1912로 진행되는데, 이것은 1902, 1904, 및 1906에서 수행되는 동작을 반복하지만, 그러나, 디폴트 음향 프리셋 대신, 1906으로부터의 업데이트된 교정된 음향 프리셋을 가지고 시작한다.
트레이닝 프로세스
도 20은, 도 9, 10, 및 11a와 관련하여 상기에서 논의되는 트레이닝 방법을 나타내는, 초기에는 트레이닝되지 않은 ML 분류기(120)의 심층 신경망(DNN) 트레이닝을 위해 사용되는 예시적인 트레이닝 프로세스(2000)를 도시하는 블록도이다. 2002에서, 이미지 프리프로세서(1222)는, 트레이닝되지 않은 ML 분류기(120)에 의한 소비를 위해 이미지 센서(102)로부터의 실세계 환경의 트레이닝 이미지를 포맷하고, (포맷된 그대로의) 트레이닝 이미지를 ML 분류기의 트레이닝 입력으로 제공한다. 2004에서, 이미지 프리프로세서 기능은, 유저 친화적이고 쉽게 볼 수 있는 포맷으로 디스플레이 상에서 유저/인간 오퍼레이터에게 트레이닝 이미지를 제시한다. 2006에서, 음향 파라미터가 트레이닝 이미지의 실세계 환경/장면과 매치하도록, 유저는 음향 프리셋, 보조 파라미터, 및 등등에 대응하는 라벨/음향 튜닝 파라미터를 트레이닝 이미지의 각각에 적용한다. 유저는 라벨/음향 튜닝 파라미터를, 트레이닝되지 않은 ML 분류기(120)에 입력되는 트레이닝 이미지의 각각의 이미지와 관련시키고, 그 결과, 트레이닝 이미지는 그들의 라벨과 상관된다. 2010에서, ML 분류기(120)의 하나 이상의 신경망은 라벨링된 트레이닝 이미지에 대해 트레이닝된다. 2010에서의 트레이닝은, 트레이닝 이미지에서의 피쳐에 기초하여 ML 분류기(120)의 신경망의 필터 계수를 업데이트하는데, 이것은 ML 분류기(120)의 트레이닝된 버전을 초래한다. 따라서, 트레이닝 프로세스는, 이미지를 그들의 대응하는 음향 프리셋으로 직접적으로 분류하도록 ML 분류기(120)의 하나 이상의 신경망을 구성한다.
컴퓨터 디바이스
도 21을 참조하면, XR 프로세서(108) 및 IAE(124)가 구현될 수도 있는 예시적인 컴퓨터 디바이스(2100)의 블록도가 있다. 디바이스(2100)에 대한 수많은 가능한 구성이 있으며 도 21은 한 예에 불과하다. 디바이스(2100)의 예는, 태블릿 컴퓨터, 퍼스널 컴퓨터, 랩탑 컴퓨터, 이동 전화, 예컨대 스마트폰, 및 등등을 포함한다. 디바이스(2100)는 디스플레이 및 헤드폰을 구동하기 위한 출력(2104)을 포함할 수도 있다. 디바이스(2100)는 하나 이상의 네트워크 인터페이스 유닛(network interface unit; NIU)(2108), 및 각각이 프로세서(2116)에 커플링되는 메모리(2114)를 또한 포함할 수도 있다. 하나 이상의 NIU(2108)는, 프로세서(2116)가 통신 네트워크를 통해 통신하는 것을 허용하는 유선 및/또는 무선 연결 성능을 포함할 수도 있다. 예를 들면, NIU(2108)는, 관련 기술 분야에서 통상의 지식을 가진 자에 의해 인식될 바와 같이, 이더넷(Ethernet) 연결을 통해 통신하기 위한 이더넷 카드, 통신 네트워크에서 셀룰러 네트워크와 무선으로 통신하기 위한 무선 RF 트랜스시버, 광학 트랜스시버, 및 등등을 포함할 수도 있다.
프로세서(2116)는, 예를 들면, 메모리(2114)에 저장되는 각각의 소프트웨어 명령어를 실행하도록 각각 구성되는 마이크로컨트롤러 및/또는 마이크로프로세서의 콜렉션(collection)을 포함할 수도 있다. 프로세서(2116)는 하나 이상의 프로그래밍 가능한 주문형 집적 회로(application specific integrated circuit; ASIC), 펌웨어, 또는 이들의 조합에서 구현될 수도 있다. 메모리(2114)의 일부(및 그 안의 명령어)는 프로세서(2116)와 통합될 수도 있다. 본원에서 사용될 때, 용어 "음향", "오디오" 및 "사운드"는 동의어이며 상호 교환 가능하다.
메모리(2114)는 리드 온리 메모리(read only memory; ROM), 랜덤 액세스 메모리(random access memory; RAM), 자기 디스크 저장 매체 디바이스, 광학 저장 매체 디바이스, 플래시 메모리 디바이스, 전기, 광학, 또는 다른 물리적/유형의(예를 들면, 비일시적) 메모리 스토리지 디바이스를 포함할 수도 있다. 따라서, 일반적으로, 메모리(2114)는 컴퓨터 실행가능 명령어를 포함하는 소프트웨어로 인코딩되는 하나 이상의 컴퓨터 판독 가능한 저장 매체(예를 들면, 메모리 디바이스)를 포함할 수도 있고, 소프트웨어가 (프로세서(2116)에 의해) 실행될 때, 그것은 본원에서 설명되는 동작을 수행하도록 동작 가능하다. 예를 들면, 메모리(2114)는 ML 분류기(120), IAE(124), 이미지 프리프로세서(1222 및 1232), APC 로직(1206), 재료 추정 경로(1204), 및 상기에서 설명되는 방법에 관련되는 본원에서 설명되는 동작을 수행하기 위한 제어 로직(2120)에 대한 명령어를 저장하거나 또는 그 명령어로 인코딩된다.
또한, 메모리(2114)는, 이미지, 음향 파라미터, 신경망, 및 등등과 같은, 로직(2120)에 의해 사용되고 생성되는 데이터/정보(2122)를 저장한다.
요약 방법 플로우차트
도 22를 참조하면, 상기에서 설명되는 다양한 동작을 포함하는 이미지를 분류하는 예시적인 방법(2200)의 플로우차트가 있다.
2202에서, 방법은 실세계 환경의 이미지를 수신한다. 이것을 위해, 방법은 이미지 센서를 사용하여 이미지를 캡쳐하거나, 또는 사전 저장된 이미지의 파일로부터의 이미지에 액세스할 수도 있다.
2204에서, 방법은, 본원에서 설명되는 바와 같이 이미 또는 이전에 트레이닝된 ML 분류기를 사용하여, 동작(2202)에서 캡쳐되는 이미지를 수신하고, 그 이미지를, AES를 위한 (공지된) 음향 프리셋과 관련되며 그것을 나타내는 분류로 직접적으로 분류한다. 분류는 각각의 신뢰도 레벨을 포함한다. 음향 프리셋 각각은 AES를 위한 사운드 반향을 나타내는 (공지된) 음향 파라미터를 포함한다.
동작(2204)에서의 분류시, 음향 프리셋 및 그들의 각각의 파라미터는 ML 분류기의 선험적 트레이닝으로부터 이미 공지되어 있다. 따라서, ML 분류기는, 이미지를, 룸 타입으로 먼저 분류하지 않고, 음향 프리셋과 관련되며 음향 프리셋을 나타내는 분류로 "직접적으로" 분류하는데, 룸 타입으로 먼저 분류하는 것은, 그 다음, 예를 들면, 룸 타입으로부터 음향 파라미터를 유도하기 위한 추가적인 동작을 필요로 할 것이다. 동작(2204)의 직접적인 분류는, 본질적으로, 이미지로부터, 개입하는 파라미터 변환 없이, 분류와 관련되는 공지된/사전 결정된 음향 파라미터에 대한 직접적인 액세스를 제공하는 분류로 흐르는 단일의 분류 동작이다. 또한, AES는 음향 프리셋을 직접적으로, 즉 있는 그대로 사용한다. 한 실시형태에서, ML 분류기는 트레이닝 이미지의 상이한 그룹으로 분할되는 실세계 환경의 (라벨링된) 트레이닝 이미지에 대해 트레이닝되었다. 트레이닝 이미지의 상이한 그룹의 트레이닝 이미지는, 상이한 그룹의 각각 내에서 동일한, 그러나 상이한 그룹에 걸쳐 다른 음향 프리셋의 각각의 음향 프리셋을 사용하여 라벨링된다. 트레이닝 이미지는 또한, 하기에서 설명되는 추가적인 동작(2210-2214)에서 활용되는 추가적인(보조) 음향 파라미터를 사용하여 추가적으로 라벨링될 수도 있다.
2206에서, 방법은 분류의 신뢰도 레벨에 기초하여 음향 프리셋 중에서 한 음향 프리셋(즉, 음향 프리셋 중 특정한 하나)을 선택한다. 방법은 음향 프리셋에 액세스한다/음향 프리셋을 검색한다.
2208에서, 방법은 음향 프리셋의 음향 파라미터에 기초하여 AES를 수행한다. AES는 음향 프리셋의 음향 파라미터에 기초하여 실세계 환경에서 가상으로 배치되는 하나 이상의 가상 사운드 오브젝트에 대한 사운드 반향을 모델링한다.
2210에서, 방법은 머신 러닝 분류기를 사용하여 이미지를 추가로 분류하거나, 또는 하나 이상의 추가적인 이미지를 직접적으로 분류하여, 하나 이상의 음향 파라미터 수정자를 생성한다. 추가적인 분류는 동작(2204)의 분류와 동시적일 수도 있다. 대안적으로, 추가적인 분류는 추가적인 또는 후속하는 이미지를 수신하고 분류하는 것으로부터 유래할 수도 있다.
2212에서, 방법은, 2210으로부터의 하나 이상의 음향 파라미터 수정자에 기초하여 2206으로부터의 음향 프리셋의 음향 파라미터를 수정하여, AES을 위한 수정된 음향 파라미터를 포함하는 수정된 음향 프리셋을 생성한다.
2214에서, 방법은 수정된 음향 파라미터를 사용하여 AES를 수행한다.
방법(2200)의 동작(2202-2206)의 상이한 조합은 개별적이고 독립적인 실시형태를 나타낼 수도 있다. 예를 들면, 동작(2202-2206)은 독립적인 실시형태를 일괄적으로 나타낸다.
도 23을 참조하면, 방법(2200)에서 분류되는 이미지와 관련하여 후속하는 또는 제2 이미지를 분류하는 예시적인 방법(2300)의 플로우차트가 있다. 방법(2300)은 상기에서 설명되는 다양한 동작을 포함한다.
2302에서, 방법은 실세계 환경의 제2 이미지를 캡쳐/수신한다.
2304에서, 머신 러닝 분류기를 사용하여, 방법은 제2 이미지를 직접적으로 분류하여 각각의 제2 신뢰도 레벨을 갖는 제2 분류를 생성한다.
2306에서, 방법은 제2 분류 중 하나 이상이 신뢰도 레벨 임계치를 초과하는 각각의 제2 신뢰도 레벨을 갖는지의 여부를 결정한다.
2308에서, 제2 분류 중 하나 이상이 신뢰도 레벨 임계치를 초과하는 각각의 제2 신뢰도 레벨을 갖는 경우, 방법은 제2 분류의 제2 신뢰도 레벨에 기초하여 음향 프리셋 중에서 제2 음향 프리셋(음향 프리셋 중 제2의 특정한 프리셋)을 선택하고, 음향 환경 시뮬레이션을 위한 음향 프리셋을 제2 음향 프리셋으로 업데이트/대체한다.
2310에서, 제2 분류 중 하나 이상이 신뢰도 레벨 임계치를 초과하는 대응하는 제2 신뢰도 레벨을 갖지 않으면, 방법은 제2 음향 프리셋을 선택하지 않고, 음향 환경 시뮬레이션을 위한 음향 프리셋을 업데이트/대체하지 않는다.
방법(2200 및 2300)에서, 개개의 분류는 하나의 이미지 또는 하나보다 더 많은 이미지에 기초할 수도 있다. 예를 들면, 이미지의 시퀀스(또는 이미지 프레임의 시퀀스)를 분류하는 상황을 고려하면, 방법은 한 번에 하나의 이미지를 분류하여, 각각의 이미지(또는 이미지 프레임)에 대한 별개의 분류를 생성할 수도 있지만; 그러나 분류 프리셋(즉, AES로 제공되는 음향 프리셋)은, 분류를 위한 신뢰도 레벨의 "이동 평균(running average)"에서, 여러 가지 그러한 이미지(또는 이미지 프레임)와 유의미한/실질적인 차이가 있는 경우 변경되거나 또는 업데이트된다. 또한, 분류 하의 이미지는, 예를 들면, 다수의 관점을 스티칭하여 환경의 덜 잘린 관점(less cropped perspective)을 생성하는 것에 의해, 이미지 센서로부터의 다수의 이미지를 사용하여 증강될 수도 있다.
요약하면, 하나의 실시형태에서, 다음의 것을 포함하는 방법이 제공된다: 실세계 환경의 이미지를 수신하는 것; 머신 러닝 분류기를 사용하여, 음향 환경 시뮬레이션을 위한 음향 프리셋 - 음향 프리셋 각각은 사운드 반향을 나타내는 음향 파라미터를 포함함 - 과 관련되는 분류를 생성하기 위해 이미지를 분류하는 것; 및 분류에 기초하여 음향 프리셋 중에서 음향 프리셋을 선택하는 것.
다른 실시형태에서, 장치가 제공되는데, 장치는: 프로세서를 포함하되, 프로세서는: 실세계 환경의 이미지를 수신하도록; 하나 이상의 신경망을 포함하는 트레이닝된 머신 러닝 분류기를 사용하여, 이미지를, 음향 환경 시뮬레이션을 위한 음향 프리셋 - 음향 프리셋 각각은 사운드 반향을 나타내는 음향 파라미터를 포함함 - 과 관련되는 분류로 직접적으로 분류하도록; 분류에 기초하여 음향 프리셋 중에서 음향 프리셋을 선택하도록; 그리고 음향 프리셋의 음향 파라미터에 기초하여 음향 환경 시뮬레이션을 수행하도록 구성된다.
또 다른 실시형태에서, 비일시적 컴퓨터 판독 가능 매체가 제공된다. 컴퓨터 판독 가능 매체는, 프로세서에 의해 실행될 때, 프로세서로 하여금, 본원에서 제시되는 방법을 수행하게 하는 명령어로 인코딩되는데, 본원에서 제시되는 방법을 수행하게 하는 것은, 다음의 것을 포함한다: 실세계 환경의 이미지를 수신하는 것; 음향 프리셋 - 음향 프리셋 각각은 사운드 반향을 나타내는 음향 파라미터를 포함함 - 의 각각의 음향 프리셋을 사용하여 라벨링되는 실세계 환경의 트레이닝 이미지에 대해 이미 트레이닝된 머신 러닝 분류기를 사용하여, 이미지를, 음향 환경 시뮬레이션을 위한 음향 프리셋과 관련되는 분류로 직접적으로 분류하는 것; 분류에 기초하여 음향 프리셋 중에서 음향 프리셋을 선택하는 것; 및 음향 프리셋의 음향 파라미터에 기초하여 음향 환경 시뮬레이션을 수행하는 것.
다른 실시형태에서, 다음의 것을 포함하는 시스템이 제공된다: 실세계 장면의 이미지를 캡쳐하기 위한 이미지 센서; 프로세서 - 프로세서는 이미지 센서에 커플링되고: 이미지를, 음향 환경 시뮬레이션을 위한 음향 프리셋 - 음향 프리셋 각각은 사운드 반향을 나타내는 음향 파라미터를 포함함 - 과 관련되는 분류로 직접적으로 분류하기 위해 이전에 트레이닝된 머신 러닝 분류기를 구현 및 사용하도록; 분류에 기초하여 음향 프리셋 중에서 음향 프리셋을 선택하도록; 그리고 음향 프리셋의 음향 파라미터에 기초하여 음향 환경 시뮬레이션을 수행하여, 음향 환경 시뮬레이션을 나타내는 사운드 신호를 생성하도록 구성됨 - ; 및 프로세서에 커플링되며 사운드 신호를 사운드로 변환하도록 구성되는 하나 이상의 헤드폰.
본 기술이 하나 이상의 특정한 예에서 구체화되는 것으로 본원에서 예시되고 설명되지만, 그럼에도 불구하고, 나타내어지는 세부 사항으로 제한되도록 의도되지는 않는데, 그 이유는, 청구범위의 균등물의 범위(scope) 및 범위(range) 내에서 다양한 수정 및 구조적 변경이 이루어질 수도 있기 때문이다.
하기에 제시되는 각각의 청구항은 별개의 실시형태를 나타내며, 상이한 청구항 및/또는 상이한 실시형태를 결합하는 실시형태는 본 개시의 범위 내에 있고 본 개시를 재검토한 이후의 기술 분야에서 통상의 지식을 가진 자에게는 명백할 것이다.

Claims (25)

  1. 방법으로서,
    실세계 환경의 이미지를 수신하는 단계;
    머신 러닝 분류기(machine learning classifier)를 사용하여, 음향 환경 시뮬레이션을 위한 음향 프리셋(acoustic preset) - 상기 음향 프리셋 각각은 사운드 반향(sound reverberation)을 나타내는 음향 파라미터를 포함함 - 과 관련되는 분류를 생성하기 위해 상기 이미지를 분류하는 단계; 및
    상기 분류에 기초하여 상기 음향 프리셋 중에서 음향 프리셋을 선택하는 단계
    를 포함하는, 방법.
  2. 제1항에 있어서,
    상기 음향 프리셋의 상기 음향 파라미터에 기초하여 상기 음향 환경 시뮬레이션을 수행하는 단계
    를 더 포함하는, 방법.
  3. 제2항에 있어서,
    상기 음향 환경 시뮬레이션을 수행하는 단계는, 상기 음향 프리셋의 상기 음향 파라미터에 기초하여 상기 실세계 환경에서 가상으로 배치되는 하나 이상의 가상 사운드 오브젝트에 대한 사운드 반향을 모델링하는 단계를 포함한 것인, 방법.
  4. 제2항에 있어서,
    상기 머신 러닝 분류기를 사용하여, 상기 이미지, 또는 하나 이상의 추가적인 이미지를 분류하여, 하나 이상의 음향 파라미터 수정자(acoustic parameter modifier)를 생성하는 단계; 및
    상기 하나 이상의 음향 파라미터 수정자에 기초하여 상기 음향 프리셋의 상기 음향 파라미터를 수정하여, 상기 음향 환경 시뮬레이션을 위한 수정된 음향 파라미터를 포함하는 수정된 음향 프리셋을 생성하는 단계
    를 더 포함하되,
    상기 음향 환경 시뮬레이션을 수행하는 단계는, 상기 수정된 음향 파라미터를 사용하여 상기 음향 환경 시뮬레이션을 수행하는 단계를 포함한 것인, 방법.
  5. 제1항에 있어서,
    상기 음향 파라미터는 주파수 종속 감쇠 시간(frequency dependent decay time), 룸 사이즈, 반사 지연, 조기 시작 시간(early onset time), 및 확산 레벨 중 하나 이상을 포함한 것인, 방법.
  6. 제1항에 있어서,
    상기 분류하는 단계는 상기 이미지를 상기 분류 및 관련된 상기 음향 프리셋으로 직접적으로 분류하는 단계를 포함한 것인, 방법.
  7. 제1항에 있어서,
    상기 분류하는 단계는, 상기 분류가 각각의 신뢰도 레벨을 가지도록 상기 이미지를 분류하여 상기 분류를 생성하는 단계를 포함하고;
    상기 선택하는 단계는, 상기 음향 프리셋이, 상기 분류 중에서, 상기 각각의 신뢰도 레벨 중 가장 높은 신뢰도 레벨을 갖는 분류와 관련되도록 상기 음향 프리셋을 선택하는 단계를 포함한 것인, 방법.
  8. 제7항에 있어서,
    상기 실세계 환경의 제2 이미지를 수신하는 단계;
    상기 머신 러닝 분류기를 사용하여, 상기 제2 이미지를 분류하여 각각의 제2 신뢰도 레벨을 갖는 제2 분류를 생성하는 단계;
    상기 제2 분류 중 하나 이상이 신뢰도 레벨 임계치를 초과하는 각각의 제2 신뢰도 레벨을 갖는지의 여부를 결정하는 단계; 및
    상기 제2 분류 중 하나 이상이, 상기 신뢰 레벨 임계치를 초과하는 각각의 제2 신뢰도 레벨을 갖는 경우, 상기 제2 분류에 기초하여 상기 음향 프리셋 중에서 제2 음향 프리셋을 선택하고, 상기 음향 환경 시뮬레이션을 위한 상기 음향 프리셋을 상기 제2 음향 프리셋으로 대체하는 단계
    를 더 포함하는, 방법.
  9. 제8항에 있어서,
    상기 제2 분류 중 하나 이상이 상기 신뢰도 레벨 임계치를 초과하는 대응하는 제2 신뢰도 레벨을 갖지 않는 경우, 상기 제2 음향 프리셋을 선택하지 않고, 상기 음향 환경 시뮬레이션을 위한 상기 음향 프리셋을 대체하지 않는 단계
    를 더 포함하는, 방법.
  10. 제1항에 있어서,
    상기 실세계 환경의 상기 이미지를 수신하는 단계는, 상기 이미지를 상기 실세계 환경의 360 도 이미지로서 수신하는 단계를 포함한 것인, 방법.
  11. 제1항에 있어서,
    상기 이미지는 상이한 이미지의 합성을 나타내는 것인, 방법.
  12. 제1항에 있어서,
    상기 음향 프리셋의 상기 음향 파라미터는, 상기 머신 러닝 분류기가 트레이닝되었던 트레이닝 이미지에서 표현된 실세계 환경을 나타내는 음향 임펄스 응답으로부터 알고리즘적으로 유도된 것인, 방법.
  13. 제1항에 있어서,
    상기 음향 프리셋의 상기 음향 파라미터는 주관적인 사운드 설계에 기초하여 개발된 것인, 방법.
  14. 제1항에 있어서,
    상기 음향 프리셋에 대해 음향 파라미터 안전성 체크를 수행하는 단계
    를 더 포함하는, 방법.
  15. 제1항에 있어서,
    상기 머신 러닝 분류기는, 상기 음향 프리셋의 각각의 음향 프리셋을 사용하여 라벨링된(labeled) 실세계 환경의 트레이닝 이미지에 대해 트레이닝된 것인, 방법.
  16. 제1항에 있어서,
    디지털 삼차원(three-dimensional; 3D) 메쉬를 수신하는 단계; 및
    상기 3D 메쉬에서 표현되는 물리적 재료의 음향 속성을 추정하여, 상기 음향 환경 시뮬레이션을 위한 조기 반사 파라미터(early reflection parameter)를 생성하는 단계
    를 더 포함하는, 방법.
  17. 장치로서,
    프로세서를 포함하되, 상기 프로세서는:
    실세계 환경의 이미지를 수신하도록;
    하나 이상의 신경망을 포함하는 트레이닝된 머신 러닝 분류기를 사용하여, 상기 이미지를, 음향 환경 시뮬레이션을 위한 음향 프리셋 - 상기 음향 프리셋 각각은 사운드 반향을 나타내는 음향 파라미터를 포함함 - 과 관련되는 분류로 직접적으로 분류하도록;
    상기 분류에 기초하여 상기 음향 프리셋 중에서 음향 프리셋을 선택하도록;
    상기 음향 프리셋의 상기 음향 파라미터에 기초하여 상기 음향 환경 시뮬레이션을 수행하도록 구성된 것인, 장치.
  18. 제17항에 있어서,
    상기 프로세서는, 상기 음향 프리셋의 상기 음향 파라미터에 기초하여 상기 실세계 환경에서 가상으로 배치되는 하나 이상의 가상 사운드 오브젝트에 대한 사운드 반향을 모델링하는 것에 의해 상기 음향 환경 시뮬레이션을 수행하도록 구성된 것인, 장치.
  19. 제18항에 있어서,
    상기 프로세서는 또한:
    상기 머신 러닝 분류기를 사용하여 상기 이미지를 추가로 분류하여 하나 이상의 음향 파라미터 수정자를 생성하도록;
    상기 하나 이상의 음향 파라미터 수정자에 기초하여 상기 음향 프리셋의 상기 음향 파라미터를 수정하여, 상기 음향 환경 시뮬레이션을 위한 수정된 음향 파라미터를 포함하는 수정된 음향 프리셋을 생성하도록;
    상기 수정된 음향 파라미터를 사용하여 상기 음향 환경 시뮬레이션을 추가로 수행하도록 구성된 것인, 장치.
  20. 제17항에 있어서,
    상기 분류는 각각의 신뢰도 레벨을 가지고;
    상기 프로세서는, 상기 음향 프리셋이, 상기 분류 중에서, 상기 각각의 신뢰도 레벨 중 가장 높은 신뢰도 레벨을 갖는 분류와 관련되도록 상기 음향 프리셋을 선택하는 것에 의해 선택하도록 구성된 것인, 장치.
  21. 제17항에 있어서,
    상기 머신 러닝 분류기는, 상기 음향 프리셋의 각각의 음향 프리셋을 사용하여 라벨링된 실세계 환경의 트레이닝 이미지에 대해 트레이닝된 것인, 장치.
  22. 명령어로 인코딩되는 비일시적 컴퓨터 판독 가능 매체로서,
    상기 명령어는, 프로세서에 의해 실행될 때, 상기 프로세서로 하여금:
    실세계 환경의 이미지를 수신하게 하고;
    음향 프리셋 - 음향 프리셋 각각은 사운드 반향을 나타내는 음향 파라미터를 포함함 - 의 각각의 음향 프리셋을 사용하여 라벨링되는 실세계 환경의 트레이닝 이미지에 대해 이미 트레이닝된 머신 러닝 분류기를 사용하여, 상기 이미지를, 상기 음향 환경 시뮬레이션을 위한 상기 음향 프리셋과 관련되는 분류로 직접적으로 분류하게 하고;
    상기 분류에 기초하여 상기 음향 프리셋 중에서 음향 프리셋을 선택하게 하고;
    상기 음향 프리셋의 상기 음향 파라미터에 기초하여 상기 음향 환경 시뮬레이션을 수행하게 하는 것인, 비일시적 컴퓨터 판독 가능 매체.
  23. 제22항에 있어서,
    상기 프로세서로 하여금 상기 음향 환경 시뮬레이션을 수행하게 하는 명령어는, 상기 프로세서로 하여금, 상기 음향 프리셋의 상기 음향 파라미터에 기초하여 상기 실세계 환경에서 가상으로 배치되는 하나 이상의 가상 사운드 오브젝트에 대한 사운드 반향을 모델링하게 하는 명령어를 포함하는 것인, 비일시적 컴퓨터 판독 가능 매체.
  24. 제23항에 있어서,
    상기 프로세서로 하여금:
    상기 머신 러닝 분류기를 사용하여 상기 이미지를 추가로 분류하여 하나 이상의 음향 파라미터 수정자를 생성하게 하고;
    상기 하나 이상의 음향 파라미터 수정자에 기초하여 상기 음향 프리셋의 상기 음향 파라미터를 수정하여, 상기 음향 환경 시뮬레이션을 위한 수정된 음향 파라미터를 포함하는 수정된 음향 프리셋을 생성하게 하며;
    상기 수정된 음향 파라미터를 사용하여 상기 음향 환경 시뮬레이션을 추가로 수행하게 하는 명령어를 더 포함하는, 비일시적 컴퓨터 판독 가능 매체.
  25. 제22항에 있어서,
    상기 분류는 각각의 신뢰도 레벨을 가지고;
    상기 프로세서로 하여금 선택하게 하는 상기 명령어는, 상기 프로세서로 하여금, 상기 음향 프리셋이, 상기 분류 중에서, 상기 각각의 신뢰도 레벨 중 가장 높은 신뢰도 레벨을 갖는 분류와 관련되도록 상기 음향 프리셋을 선택하게 하는 명령어를 포함하는 것인, 비일시적 컴퓨터 판독 가능 매체.
KR1020217023354A 2018-12-24 2019-12-13 딥 러닝 이미지 분석을 사용한 룸 음향 시뮬레이션 Active KR102804488B1 (ko)

Applications Claiming Priority (3)

Application Number Priority Date Filing Date Title
US201862784648P 2018-12-24 2018-12-24
US62/784,648 2018-12-24
PCT/US2019/066315 WO2020139588A1 (en) 2018-12-24 2019-12-13 Room acoustics simulation using deep learning image analysis

Publications (2)

Publication Number Publication Date
KR20210106546A true KR20210106546A (ko) 2021-08-30
KR102804488B1 KR102804488B1 (ko) 2025-05-07

Family

ID=69174585

Family Applications (1)

Application Number Title Priority Date Filing Date
KR1020217023354A Active KR102804488B1 (ko) 2018-12-24 2019-12-13 딥 러닝 이미지 분석을 사용한 룸 음향 시뮬레이션

Country Status (6)

Country Link
US (1) US12112521B2 (ko)
EP (1) EP3903510B1 (ko)
JP (1) JP7631198B2 (ko)
KR (1) KR102804488B1 (ko)
CN (1) CN113439447A (ko)
WO (1) WO2020139588A1 (ko)

Families Citing this family (11)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
EP3903510B1 (en) * 2018-12-24 2025-04-09 DTS, Inc. Room acoustics simulation using deep learning image analysis
WO2021235126A1 (ja) * 2020-05-19 2021-11-25 ソニーグループ株式会社 情報処理装置および情報処理方法
GB2603515A (en) * 2021-02-05 2022-08-10 Nokia Technologies Oy Appartus, method and computer programs for enabling audio rendering
CN112926159B (zh) * 2021-03-16 2022-02-22 中国科学院声学研究所 一种基于深度学习的二阶亥姆霍兹共鸣器设计方法
US12283265B1 (en) * 2021-04-09 2025-04-22 Apple Inc. Own voice reverberation reconstruction
EP4325479A4 (en) * 2021-04-12 2024-09-04 Panasonic Intellectual Property Corporation of America Acoustic feature value estimation method, acoustic feature value estimation system, program, and rendering method
US11620761B2 (en) * 2021-06-07 2023-04-04 Microsoft Technology Licensing, Llc Depth sensing via device case
GB2612173A (en) * 2021-09-21 2023-04-26 Apple Inc Determining a virtual listening environment
US12311265B2 (en) * 2021-12-03 2025-05-27 Sony Interactive Entertainment Inc. Systems and methods for training a model to determine a type of environment surrounding a user
US12293773B2 (en) 2022-11-03 2025-05-06 Robert Bosch Gmbh Automatically selecting a sound recognition model for an environment based on audio data and image data associated with the environment
US12328569B2 (en) * 2023-01-07 2025-06-10 Sony Interactive Entertainment Inc. Transforming computer game audio using impulse response of a virtual 3D space generated by NeRF input to a convolutional reverberation engine

Citations (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2014049118A (ja) * 2012-08-31 2014-03-17 Fujitsu Ltd 畳み込みニューラルネットワーク分類器システム、その訓練方法、分類方法および用途
US20180232471A1 (en) * 2017-02-16 2018-08-16 The University Of North Carolina At Chapel Hill Methods, systems, and computer readable media for acoustic classification and optimization for multi-modal rendering of real-world scenes

Family Cites Families (225)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US8392188B1 (en) 1999-11-05 2013-03-05 At&T Intellectual Property Ii, L.P. Method and system for building a phonotactic model for domain independent speech recognition
US6738479B1 (en) 2000-11-13 2004-05-18 Creative Technology Ltd. Method of audio signal processing for a loudspeaker located close to an ear
US6894714B2 (en) 2000-12-05 2005-05-17 Koninklijke Philips Electronics N.V. Method and apparatus for predicting events in video conferencing and other applications
US20030007648A1 (en) 2001-04-27 2003-01-09 Christopher Currell Virtual audio system and techniques
US7409423B2 (en) 2001-06-28 2008-08-05 Horvitz Eric J Methods for and applications of learning and inferring the periods of time until people are available or unavailable for different forms of communication, collaboration, and information access
US7493369B2 (en) 2001-06-28 2009-02-17 Microsoft Corporation Composable presence and availability services
US7689521B2 (en) 2001-06-28 2010-03-30 Microsoft Corporation Continuous time bayesian network models for predicting users' presence, activities, and component usage
US7233933B2 (en) 2001-06-28 2007-06-19 Microsoft Corporation Methods and architecture for cross-device activity monitoring, reasoning, and visualization for providing status and forecasts of a users' presence and availability
US7567675B2 (en) 2002-06-21 2009-07-28 Audyssey Laboratories, Inc. System and method for automatic multiple listener room acoustic correction with low filter orders
US7203635B2 (en) 2002-06-27 2007-04-10 Microsoft Corporation Layered models for context awareness
JP4393169B2 (ja) 2003-12-04 2010-01-06 キヤノン株式会社 複合現実感提示方法および装置
US7542903B2 (en) 2004-02-18 2009-06-02 Fuji Xerox Co., Ltd. Systems and methods for determining predictive models of discourse functions
US10223934B2 (en) 2004-09-16 2019-03-05 Lena Foundation Systems and methods for expressive language, developmental disorder, and emotion assessment, and contextual feedback
US20060122834A1 (en) 2004-12-03 2006-06-08 Bennett Ian M Emotion detection device & method for use in distributed systems
FR2880755A1 (fr) 2005-01-10 2006-07-14 France Telecom Procede et dispositif d'individualisation de hrtfs par modelisation
WO2006091540A2 (en) 2005-02-22 2006-08-31 Verax Technologies Inc. System and method for formatting multimode sound content and metadata
EP1946612B1 (fr) 2005-10-27 2012-11-14 France Télécom Individualisation de hrtfs utilisant une modelisation par elements finis couplee a un modele correctif
US8484146B2 (en) 2006-01-18 2013-07-09 Sony Corporation Interaction device implementing a bayesian's estimation
US8396671B2 (en) 2006-02-16 2013-03-12 Microsoft Corporation Cluster modeling, and learning cluster specific parameters of an adaptive double threading model
US8730156B2 (en) 2010-03-05 2014-05-20 Sony Computer Entertainment America Llc Maintaining multiple views on a shared stable virtual space
US8392418B2 (en) 2009-06-25 2013-03-05 University Of Tennessee Research Foundation Method and apparatus for predicting object properties and events using similarity-based information retrieval and model
US7801836B2 (en) 2006-09-27 2010-09-21 Infosys Technologies Ltd. Automated predictive data mining model selection using a genetic algorithm
US20090138415A1 (en) 2007-11-02 2009-05-28 James Justin Lancaster Automated research systems and methods for researching systems
US8270616B2 (en) 2007-02-02 2012-09-18 Logitech Europe S.A. Virtual surround for headphones and earbuds headphone externalization system
EP2119306A4 (en) 2007-03-01 2012-04-25 Jerry Mahabub SOUND SPECIALIZATION AND ENVIRONMENT SIMULATION
US7792674B2 (en) 2007-03-30 2010-09-07 Smith Micro Software, Inc. System and method for providing virtual spatial sound with an audio visual player
US8229134B2 (en) 2007-05-24 2012-07-24 University Of Maryland Audio camera using microphone arrays for real time capture of audio images and method for jointly processing the audio images with video images
US8254393B2 (en) 2007-06-29 2012-08-28 Microsoft Corporation Harnessing predictive models of durations of channel availability for enhanced opportunistic allocation of radio spectrum
US8140188B2 (en) 2008-02-18 2012-03-20 Toyota Motor Engineering & Manufacturing North America, Inc. Robotic system and method for observing, learning, and supporting human activities
US8170222B2 (en) 2008-04-18 2012-05-01 Sony Mobile Communications Ab Augmented reality enhanced audio
WO2010011918A2 (en) 2008-07-24 2010-01-28 University Of Cincinnati Methods for prognosing mechanical systems
US20100025483A1 (en) 2008-07-31 2010-02-04 Michael Hoeynck Sensor-Based Occupancy and Behavior Prediction Method for Intelligently Controlling Energy Consumption Within a Building
EP2157545A1 (en) 2008-08-19 2010-02-24 Sony Computer Entertainment Europe Limited Entertainment device, system and method
US8788270B2 (en) 2009-06-16 2014-07-22 University Of Florida Research Foundation, Inc. Apparatus and method for determining an emotion state of a speaker
US8396870B2 (en) 2009-06-25 2013-03-12 University Of Tennessee Research Foundation Method and apparatus for predicting object properties and events using similarity-based information retrieval and modeling
WO2011002735A1 (en) 2009-07-01 2011-01-06 Carnegie Mellon University Methods and apparatuses for monitoring energy consumption and related operations
US20120116186A1 (en) 2009-07-20 2012-05-10 University Of Florida Research Foundation, Inc. Method and apparatus for evaluation of a subject's emotional, physiological and/or physical state with the subject's physiological and/or acoustic data
US10326978B2 (en) * 2010-06-30 2019-06-18 Warner Bros. Entertainment Inc. Method and apparatus for generating virtual or augmented reality presentations with 3D audio positioning
US8767968B2 (en) 2010-10-13 2014-07-01 Microsoft Corporation System and method for high-precision 3-dimensional audio for augmented reality
US9015093B1 (en) 2010-10-26 2015-04-21 Michael Lamport Commons Intelligent control with hierarchical stacked neural networks
US8775341B1 (en) 2010-10-26 2014-07-08 Michael Lamport Commons Intelligent control with hierarchical stacked neural networks
KR101458939B1 (ko) 2010-12-02 2014-11-07 엠파이어 테크놀로지 디벨롭먼트 엘엘씨 증강 현실 시스템
JP5857071B2 (ja) 2011-01-05 2016-02-10 コーニンクレッカ フィリップス エヌ ヴェKoninklijke Philips N.V. オーディオ・システムおよびその動作方法
US9183509B2 (en) 2011-05-11 2015-11-10 Ari M. Frank Database of affective response and attention levels
AU2012279357B2 (en) 2011-07-01 2016-01-14 Dolby Laboratories Licensing Corporation System and method for adaptive audio signal generation, coding and rendering
US8963956B2 (en) 2011-08-19 2015-02-24 Microsoft Technology Licensing, Llc Location based skins for mixed reality displays
WO2013028813A1 (en) 2011-08-23 2013-02-28 Microsoft Corporation Implicit sharing and privacy control through physical behaviors using sensor-rich devices
WO2013028908A1 (en) 2011-08-24 2013-02-28 Microsoft Corporation Touch and social cues as inputs into a computer
US20150178865A1 (en) 2011-09-20 2015-06-25 The Trustees Of Columbia University In The City Of New York Total property optimization system for energy efficiency and smart buildings
US9015084B2 (en) 2011-10-20 2015-04-21 Gil Thieberger Estimating affective response to a token instance of interest
KR20130053466A (ko) 2011-11-14 2013-05-24 한국전자통신연구원 인터랙티브 증강공간 제공을 위한 콘텐츠 재생 장치 및 방법
US9497501B2 (en) 2011-12-06 2016-11-15 Microsoft Technology Licensing, Llc Augmented reality virtual monitor
US20130155105A1 (en) 2011-12-19 2013-06-20 Nokia Corporation Method and apparatus for providing seamless interaction in mixed reality
EP2795893A4 (en) 2011-12-20 2015-08-19 Intel Corp PRESENTATIONS OF AN ADVANCED REALITY BETWEEN SEVERAL EQUIPMENT
US8831255B2 (en) 2012-03-08 2014-09-09 Disney Enterprises, Inc. Augmented reality (AR) audio with position and action triggered virtual sound effects
US20130278633A1 (en) 2012-04-20 2013-10-24 Samsung Electronics Co., Ltd. Method and system for generating augmented reality scene
US9183676B2 (en) 2012-04-27 2015-11-10 Microsoft Technology Licensing, Llc Displaying a collision between real and virtual objects
US9165381B2 (en) 2012-05-31 2015-10-20 Microsoft Technology Licensing, Llc Augmented books in a mixed reality environment
US10176635B2 (en) 2012-06-28 2019-01-08 Microsoft Technology Licensing, Llc Saving augmented realities
US20140002492A1 (en) 2012-06-29 2014-01-02 Mathew J. Lamb Propagation of real world properties into augmented reality images
US9417692B2 (en) 2012-06-29 2016-08-16 Microsoft Technology Licensing, Llc Deep augmented reality tags for mixed reality
US9292085B2 (en) 2012-06-29 2016-03-22 Microsoft Technology Licensing, Llc Configuring an interaction zone within an augmented reality environment
US20140046879A1 (en) 2012-08-13 2014-02-13 Predixion Software, Inc. Machine learning semantic model
US10019983B2 (en) 2012-08-30 2018-07-10 Aravind Ganapathiraju Method and system for predicting speech recognition performance using accuracy scores
US20140122391A1 (en) 2012-10-31 2014-05-01 21Ct, Inc. Top-Down Abstraction Learning Using Prediction as a Supervisory Signal
US9449613B2 (en) 2012-12-06 2016-09-20 Audeme Llc Room identification using acoustic features in a recording
US9398393B2 (en) 2012-12-11 2016-07-19 The University Of North Carolina At Chapel Hill Aural proxies and directionally-varying reverberation for interactive sound propagation in virtual environments
US9187104B2 (en) 2013-01-11 2015-11-17 International Buslness Machines Corporation Online learning using information fusion for equipment predictive maintenance in railway operations
US20140240351A1 (en) 2013-02-27 2014-08-28 Michael Scavezze Mixed reality augmentation
US10163049B2 (en) 2013-03-08 2018-12-25 Microsoft Technology Licensing, Llc Inconspicuous tag for generating augmented reality experiences
US20140272883A1 (en) 2013-03-14 2014-09-18 Northwestern University Systems, methods, and apparatus for equalization preference learning
US20140285519A1 (en) 2013-03-22 2014-09-25 Nokia Corporation Method and apparatus for providing local synchronization of information for augmented reality objects
US20160088417A1 (en) 2013-04-30 2016-03-24 Intellectual Discovery Co., Ltd. Head mounted display and method for providing audio content by using same
WO2014189550A1 (en) 2013-05-24 2014-11-27 University Of Maryland Statistical modelling, interpolation, measurement and anthropometry based prediction of head-related transfer functions
WO2014188393A1 (en) 2013-05-24 2014-11-27 Awe Company Limited Systems and methods for a shared mixed reality experience
US10262462B2 (en) 2014-04-18 2019-04-16 Magic Leap, Inc. Systems and methods for augmented and virtual reality
US9248569B2 (en) 2013-11-22 2016-02-02 Brain Corporation Discrepancy detection apparatus and methods for machine learning
EP3090576B1 (en) 2014-01-03 2017-10-18 Dolby Laboratories Licensing Corporation Methods and systems for designing and applying numerically optimized binaural room impulse responses
US9658100B2 (en) 2014-02-21 2017-05-23 New York University Systems and methods for audio information environmental analysis
US20150242036A1 (en) 2014-02-21 2015-08-27 Amin Heidari System and method for detecting taps on a surface or on a device
US20170307435A1 (en) 2014-02-21 2017-10-26 New York University Environmental analysis
EP3111411A4 (en) 2014-02-28 2017-08-09 Delos Living, LLC Systems, methods and articles for enhancing wellness associated with habitable environments
US10142761B2 (en) 2014-03-06 2018-11-27 Dolby Laboratories Licensing Corporation Structural modeling of the head related impulse response
US9677840B2 (en) 2014-03-14 2017-06-13 Lineweight Llc Augmented reality simulator
US10335091B2 (en) 2014-03-19 2019-07-02 Tactonic Technologies, Llc Method and apparatus to infer object and agent properties, activity capacities, behaviors, and intents from contact and pressure images
CA2944023A1 (en) 2014-03-27 2015-10-01 Game Complex, Inc. Gamification of actions in physical space
US9741169B1 (en) 2014-05-20 2017-08-22 Leap Motion, Inc. Wearable augmented reality devices with object detection and tracking
US20170153866A1 (en) 2014-07-03 2017-06-01 Imagine Mobile Augmented Reality Ltd. Audiovisual Surround Augmented Reality (ASAR)
US20170208415A1 (en) 2014-07-23 2017-07-20 Pcms Holdings, Inc. System and method for determining audio context in augmented-reality applications
US20160086087A1 (en) 2014-09-19 2016-03-24 King Fahd University Of Petroleum And Minerals Method for fast prediction of gas composition
US10465931B2 (en) 2015-01-30 2019-11-05 Schneider Electric It Corporation Automated control and parallel learning HVAC apparatuses, methods and systems
US10846589B2 (en) 2015-03-12 2020-11-24 William Marsh Rice University Automated compilation of probabilistic task description into executable neural network specification
US9736580B2 (en) * 2015-03-19 2017-08-15 Intel Corporation Acoustic camera based audio visual scene analysis
US10713594B2 (en) 2015-03-20 2020-07-14 Salesforce.Com, Inc. Systems, methods, and apparatuses for implementing machine learning model training and deployment with a rollback mechanism
DK3082350T3 (en) 2015-04-15 2019-04-23 Starkey Labs Inc USER INTERFACE WITH REMOTE SERVER
US10573304B2 (en) 2015-05-26 2020-02-25 Katholieke Universiteit Leuven Speech recognition system and method using an adaptive incremental learning approach
US9824499B2 (en) 2015-06-23 2017-11-21 Microsoft Technology Licensing, Llc Mixed-reality image capture
US9530426B1 (en) 2015-06-24 2016-12-27 Microsoft Technology Licensing, Llc Filtering sounds for conferencing applications
US10529318B2 (en) 2015-07-31 2020-01-07 International Business Machines Corporation Implementing a classification model for recognition processing
US20170038829A1 (en) 2015-08-07 2017-02-09 Microsoft Technology Licensing, Llc Social interaction for remote communication
US20170039986A1 (en) 2015-08-07 2017-02-09 Microsoft Technology Licensing, Llc Mixed Reality Social Interactions
US9818228B2 (en) 2015-08-07 2017-11-14 Microsoft Technology Licensing, Llc Mixed reality social interaction
US10255285B2 (en) 2015-08-31 2019-04-09 Bose Corporation Predicting acoustic features for geographic locations
US10127725B2 (en) 2015-09-02 2018-11-13 Microsoft Technology Licensing, Llc Augmented-reality imaging
WO2017045077A1 (en) 2015-09-16 2017-03-23 Rising Sun Productions Limited System and method for reproducing three-dimensional audio with a selectable perspective
US9442496B1 (en) 2015-09-18 2016-09-13 Amazon Technologies, Inc. Active airborne noise abatement
JP6807556B2 (ja) 2015-10-01 2021-01-06 パナソニックIpマネジメント株式会社 空調制御方法、空調制御装置及び空調制御プログラム
US20170103420A1 (en) 2015-10-12 2017-04-13 ArcSecond, Inc. Generating a Contextual-Based Sound Map
US10089578B2 (en) 2015-10-23 2018-10-02 Spotify Ab Automatic prediction of acoustic attributes from an audio signal
CA3003075C (en) 2015-10-26 2023-01-03 Fraunhofer-Gesellschaft Zur Foerderung Der Angewandten Forschung E.V. Apparatus and method for generating a filtered audio signal realizing elevation rendering
US10319374B2 (en) 2015-11-25 2019-06-11 Baidu USA, LLC Deployed end-to-end speech recognition
WO2017094207A1 (ja) 2015-11-30 2017-06-08 日本電気株式会社 情報処理システム、情報処理方法および情報処理用プログラム
EP3174005A1 (en) 2015-11-30 2017-05-31 Nokia Technologies Oy Apparatus and method for controlling audio mixing in virtual reality environments
SG10201800147XA (en) * 2018-01-05 2019-08-27 Creative Tech Ltd A system and a processing method for customizing audio experience
US10068376B2 (en) 2016-01-11 2018-09-04 Microsoft Technology Licensing, Llc Updating mixed reality thumbnails
US20170228916A1 (en) 2016-01-18 2017-08-10 Paperclip Productions, Inc. System and method for an enhanced, multiplayer mixed reality experience
US10475447B2 (en) 2016-01-25 2019-11-12 Ford Global Technologies, Llc Acoustic and domain based speech recognition for vehicles
KR20240028560A (ko) * 2016-01-27 2024-03-05 돌비 레버러토리즈 라이쎈싱 코오포레이션 음향 환경 시뮬레이션
KR102642275B1 (ko) 2016-02-02 2024-02-28 디티에스, 인코포레이티드 증강 현실 헤드폰 환경 렌더링
US10169922B2 (en) 2016-02-16 2019-01-01 Microsoft Technology Licensing, Llc Reality mixer for mixed reality
US10726326B2 (en) 2016-02-24 2020-07-28 International Business Machines Corporation Learning of neural network
US9986363B2 (en) 2016-03-03 2018-05-29 Mach 1, Corp. Applications and format for immersive spatial sound
US10943036B2 (en) 2016-03-08 2021-03-09 Az, Llc Virtualization, visualization and autonomous design and development of objects
US10482663B2 (en) 2016-03-29 2019-11-19 Microsoft Technology Licensing, Llc Virtual cues for augmented-reality pose alignment
US9984682B1 (en) 2016-03-30 2018-05-29 Educational Testing Service Computer-implemented systems and methods for automatically generating an assessment of oral recitations of assessment items
EP3236363A1 (en) 2016-04-18 2017-10-25 Nokia Technologies Oy Content search
US10380800B2 (en) 2016-04-18 2019-08-13 Disney Enterprises, Inc. System and method for linking and interacting between augmented reality and virtual reality environments
US20170311095A1 (en) 2016-04-20 2017-10-26 Starkey Laboratories, Inc. Neural network-driven feedback cancellation
US20170308808A1 (en) 2016-04-26 2017-10-26 Paypal, Inc Machine learning system
US10496156B2 (en) 2016-05-17 2019-12-03 Google Llc Techniques to change location of objects in a virtual/augmented reality system
US9959682B2 (en) 2016-05-28 2018-05-01 Acoustic Knowledge, LLC Digital camera system for acoustic modeling
US10031718B2 (en) 2016-06-14 2018-07-24 Microsoft Technology Licensing, Llc Location based audio filtering
EP3261367B1 (en) 2016-06-21 2020-07-22 Nokia Technologies Oy Method, apparatus, and computer program code for improving perception of sound objects in mediated reality
EP3260950B1 (en) 2016-06-22 2019-11-06 Nokia Technologies Oy Mediated reality
US10042604B2 (en) 2016-07-01 2018-08-07 Metrik LLC Multi-dimensional reference element for mixed reality environments
JP2018004473A (ja) 2016-07-04 2018-01-11 ファナック株式会社 軸受の予測寿命を学習する機械学習装置、寿命予測装置および機械学習方法
US9906885B2 (en) 2016-07-15 2018-02-27 Qualcomm Incorporated Methods and systems for inserting virtual sounds into an environment
US20180082673A1 (en) 2016-07-28 2018-03-22 Theodore Tzanetos Active noise cancellation for defined spaces
CN109791441A (zh) 2016-08-01 2019-05-21 奇跃公司 具有空间化音频的混合现实系统
US10169921B2 (en) 2016-08-03 2019-01-01 Wipro Limited Systems and methods for augmented reality aware contents
EP3287867A1 (en) 2016-08-26 2018-02-28 Nokia Technologies Oy Audio processing
US10192363B2 (en) 2016-08-28 2019-01-29 Microsoft Technology Licensing, Llc Math operations in mixed or virtual reality
JP6821795B2 (ja) 2016-09-14 2021-01-27 マジック リープ, インコーポレイテッドMagic Leap,Inc. 空間化オーディオを用いた仮想現実、拡張現実、および複合現実システム
US10325407B2 (en) 2016-09-15 2019-06-18 Microsoft Technology Licensing, Llc Attribute detection tools for mixed reality
FI129137B (en) * 2016-09-22 2021-08-13 Noiseless Acoustics Oy An acoustic camera and a method for revealing acoustic emissions from various locations and devices
EP3301675B1 (en) 2016-09-28 2019-08-21 Panasonic Intellectual Property Corporation of America Parameter prediction device and parameter prediction method for acoustic signal processing
US9886954B1 (en) 2016-09-30 2018-02-06 Doppler Labs, Inc. Context aware hearing optimization engine
US10896544B2 (en) 2016-10-07 2021-01-19 Htc Corporation System and method for providing simulated environment
US10499178B2 (en) 2016-10-14 2019-12-03 Disney Enterprises, Inc. Systems and methods for achieving multi-dimensional audio fidelity
US20180108440A1 (en) 2016-10-17 2018-04-19 Jeffrey Stevens Systems and methods for medical diagnosis and biomarker identification using physiological sensors and machine learning
EP3319341A1 (en) 2016-11-03 2018-05-09 Nokia Technologies OY Audio processing
US10931758B2 (en) 2016-11-17 2021-02-23 BrainofT Inc. Utilizing context information of environment component regions for event/activity prediction
US10938587B2 (en) 2016-11-28 2021-03-02 Cisco Technology, Inc. Predicting utilization of a shared collaboration resource
US10531220B2 (en) 2016-12-05 2020-01-07 Magic Leap, Inc. Distributed audio capturing techniques for virtual reality (VR), augmented reality (AR), and mixed reality (MR) systems
US10806405B2 (en) 2016-12-13 2020-10-20 Cochlear Limited Speech production and the management/prediction of hearing loss
JP6386523B2 (ja) 2016-12-15 2018-09-05 ファナック株式会社 Nandフラッシュメモリの寿命を予測する機械学習装置、寿命予測装置、数値制御装置、生産システム、及び機械学習方法
US11832969B2 (en) 2016-12-22 2023-12-05 The Johns Hopkins University Machine learning approach to beamforming
EP3346731A1 (en) 2017-01-04 2018-07-11 Harman Becker Automotive Systems GmbH Systems and methods for generating natural directional pinna cues for virtual sound source synthesis
US10282656B2 (en) 2017-01-11 2019-05-07 Thomas Danaher Harvey Method and device for detecting unauthorized tranfer between persons
US10659906B2 (en) 2017-01-13 2020-05-19 Qualcomm Incorporated Audio parallax for virtual reality, augmented reality, and mixed reality
US10643121B2 (en) 2017-01-19 2020-05-05 Deepmind Technologies Limited Optimizing data center controls using neural networks
US10467509B2 (en) 2017-02-14 2019-11-05 Microsoft Technology Licensing, Llc Computationally-efficient human-identifying smart assistant computer
US20180232937A1 (en) 2017-02-14 2018-08-16 Philip Moyer System and Method for Implementing Virtual Reality
US11100384B2 (en) 2017-02-14 2021-08-24 Microsoft Technology Licensing, Llc Intelligent device user interactions
US11347054B2 (en) 2017-02-16 2022-05-31 Magic Leap, Inc. Systems and methods for augmented reality
KR102819340B1 (ko) 2017-02-28 2025-06-11 매직 립, 인코포레이티드 혼합 현실 디바이스에서의 가상 및 실제 객체 레코딩
WO2018165284A1 (en) 2017-03-07 2018-09-13 vSports, LLC Mixed reality sport simulation and training system
WO2018165278A1 (en) 2017-03-07 2018-09-13 vGolf, LLC Mixed reality golf simulation and training system
KR20180102870A (ko) 2017-03-08 2018-09-18 엘지전자 주식회사 전자 장치 및 그 전자 장치의 제어 방법
US11004568B2 (en) 2017-03-10 2021-05-11 Altair Engineering, Inc. Systems and methods for multi-dimensional fluid modeling of an organism or organ
US10803211B2 (en) 2017-03-10 2020-10-13 General Electric Company Multiple fluid model tool for interdisciplinary fluid modeling
US10977397B2 (en) 2017-03-10 2021-04-13 Altair Engineering, Inc. Optimization of prototype and machine design within a 3D fluid modeling environment
KR101963244B1 (ko) 2017-03-20 2019-03-28 ㈜라이커스게임 현실 음향을 반영한 증강 현실 3차원 음향 구현 시스템 및 프로그램
AU2018244316B2 (en) 2017-03-28 2022-09-29 Magic Leap, Inc. Augmented reality system with spatialized audio tied to user manipulated virtual object
US9942687B1 (en) 2017-03-30 2018-04-10 Microsoft Technology Licensing, Llc System for localizing channel-based audio from non-spatial-aware applications into 3D mixed or virtual reality space
US11270510B2 (en) 2017-04-04 2022-03-08 David Peter Warhol System and method for creating an augmented reality interactive environment in theatrical structure
WO2018187748A1 (en) 2017-04-07 2018-10-11 Unveil, LLC Systems and methods for mixed reality medical training
US10468032B2 (en) 2017-04-10 2019-11-05 Intel Corporation Method and system of speaker recognition using context aware confidence modeling
US10436615B2 (en) 2017-04-24 2019-10-08 Carnegie Mellon University Virtual sensor system
US10643153B2 (en) 2017-04-24 2020-05-05 Virginia Tech Intellectual Properties, Inc. Radio signal identification, identification system learning, and identifier deployment
US10416954B2 (en) 2017-04-28 2019-09-17 Microsoft Technology Licensing, Llc Streaming of augmented/virtual reality spatial audio/video
US11054894B2 (en) 2017-05-05 2021-07-06 Microsoft Technology Licensing, Llc Integrated mixed-input system
US10154360B2 (en) 2017-05-08 2018-12-11 Microsoft Technology Licensing, Llc Method and system of improving detection of environmental sounds in an immersive environment
US11054272B2 (en) 2017-05-11 2021-07-06 Disney Enterprises, Inc. Physical navigation guided via story-based augmented and/or mixed reality experiences
US9843883B1 (en) 2017-05-12 2017-12-12 QoSound, Inc. Source independent sound field rotation for virtual and augmented reality applications
US10235128B2 (en) 2017-05-19 2019-03-19 Intel Corporation Contextual sound filter
US10234848B2 (en) 2017-05-24 2019-03-19 Relativity Space, Inc. Real-time adaptive control of additive manufacturing processes using machine learning
US20180350145A1 (en) 2017-05-30 2018-12-06 Reston Restoration Augmented Reality Devices and Methods Thereof for Rendering Virtual Objects
US10390166B2 (en) 2017-05-31 2019-08-20 Qualcomm Incorporated System and method for mixing and adjusting multi-input ambisonics
US10255550B1 (en) 2017-06-07 2019-04-09 States Title, Inc. Machine learning using multiple input data types
US10602296B2 (en) 2017-06-09 2020-03-24 Nokia Technologies Oy Audio object adjustment for phase compensation in 6 degrees of freedom audio
US10325409B2 (en) 2017-06-16 2019-06-18 Microsoft Technology Licensing, Llc Object holographic augmentation
US10445941B2 (en) 2017-06-21 2019-10-15 Number 9, LLC Interactive mixed reality system for a real-world event
GB201710085D0 (en) * 2017-06-23 2017-08-09 Nokia Technologies Oy Determination of targeted spatial audio parameters and associated spatial audio playback
KR102339716B1 (ko) 2017-06-30 2021-12-14 삼성에스디에스 주식회사 음성 인식 방법 및 그 장치
US20190007726A1 (en) 2017-06-30 2019-01-03 Intel Corporation Audio, video, and actuation (a/v/a) synchronization for mixed reality
US11035227B2 (en) 2017-07-14 2021-06-15 The Board Of Regents Of The University Of Oklahoma Generating spectral responses of materials
US20190019011A1 (en) 2017-07-16 2019-01-17 Tsunami VR, Inc. Systems and methods for identifying real objects in an area of interest for use in identifying virtual content a user is authorized to view using an augmented reality device
EP3432172B1 (en) 2017-07-20 2025-05-21 Bricsys NV Predicting user desirability of a constructional connection in a building information model
US10938833B2 (en) 2017-07-21 2021-03-02 Nec Corporation Multi-factor authentication based on room impulse response
US20190102946A1 (en) 2017-08-04 2019-04-04 Magical Technologies, Llc Systems, methods and apparatuses for deployment and targeting of context-aware virtual objects and behavior modeling of virtual objects based on physical principles
US10068557B1 (en) 2017-08-23 2018-09-04 Google Llc Generating music with deep neural networks
US10835809B2 (en) 2017-08-26 2020-11-17 Kristina Contreras Auditorium efficient tracking in auditory augmented reality
EP3695326A4 (en) 2017-09-05 2021-07-28 Shaw Industries Group, Inc. AUDIBLE ACOUSTIC PERFORMANCE TOOL
US10276143B2 (en) 2017-09-20 2019-04-30 Plantronics, Inc. Predictive soundscape adaptation
US20190096130A1 (en) 2017-09-26 2019-03-28 Akn Korea Inc. Virtual mobile terminal implementing system in mixed reality and control method thereof
US10394229B2 (en) 2017-09-27 2019-08-27 International Business Machines Corporation Orchestration of learning and execution of model predictive control tool for manufacturing processes
US10665223B2 (en) 2017-09-29 2020-05-26 Udifi, Inc. Acoustic and other waveform event detection and correction systems and methods
WO2019070328A1 (en) 2017-10-04 2019-04-11 Google Llc METHODS AND SYSTEMS FOR AUTOMATICALLY EQUALIZING AUDIO OUTPUT BASED ON THE CHARACTERISTICS OF THE PART
CA3078420A1 (en) 2017-10-17 2019-04-25 Magic Leap, Inc. Mixed reality spatial audio
WO2019084214A1 (en) 2017-10-24 2019-05-02 Whisper.Ai, Inc. AUDIO SEPARATION AND RECOMBINATION FOR INTELLIGIBILITY AND COMFORT
EP3477466A1 (en) 2017-10-31 2019-05-01 Nokia Technologies Oy Provision of virtual reality content
WO2019089811A1 (en) 2017-11-01 2019-05-09 Vrgineers, Inc. Interactive augmented or virtual reality devices
EP3489821A1 (en) 2017-11-27 2019-05-29 Nokia Technologies Oy A user interface for user selection of sound objects for rendering, and/or a method for rendering a user interface for user selection of sound objects for rendering
US10013654B1 (en) 2017-11-29 2018-07-03 OJO Labs, Inc. Cooperatively operating a network of supervised learning processors to concurrently distribute supervised learning processor training and provide predictive responses to input data
US10206055B1 (en) 2017-12-28 2019-02-12 Verizon Patent And Licensing Inc. Methods and systems for generating spatialized audio during a virtual experience
US10390171B2 (en) * 2018-01-07 2019-08-20 Creative Technology Ltd Method for generating customized spatial audio with head tracking
US11032662B2 (en) * 2018-05-30 2021-06-08 Qualcomm Incorporated Adjusting audio characteristics for augmented reality
US10593119B2 (en) 2018-06-25 2020-03-17 Intel Corporation Projected augmented reality to obscure physical objects
EP3903510B1 (en) * 2018-12-24 2025-04-09 DTS, Inc. Room acoustics simulation using deep learning image analysis
US10721521B1 (en) * 2019-06-24 2020-07-21 Facebook Technologies, Llc Determination of spatialized virtual acoustic scenes from legacy audiovisual media
US11989232B2 (en) * 2020-11-06 2024-05-21 International Business Machines Corporation Generating realistic representations of locations by emulating audio for images based on contextual information
US11895466B2 (en) * 2020-12-28 2024-02-06 Hansong (Nanjing) Technology Ltd. Methods and systems for determining parameters of audio devices
US11810354B2 (en) * 2021-04-12 2023-11-07 Meta Platforms, Inc. Generating digital floorplans from sparse digital video utilizing an audio-visual floorplan reconstruction machine learning model
GB2612173A (en) * 2021-09-21 2023-04-26 Apple Inc Determining a virtual listening environment

Patent Citations (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2014049118A (ja) * 2012-08-31 2014-03-17 Fujitsu Ltd 畳み込みニューラルネットワーク分類器システム、その訓練方法、分類方法および用途
US20180232471A1 (en) * 2017-02-16 2018-08-16 The University Of North Carolina At Chapel Hill Methods, systems, and computer readable media for acoustic classification and optimization for multi-modal rendering of real-world scenes

Also Published As

Publication number Publication date
US20220101623A1 (en) 2022-03-31
EP3903510C0 (en) 2025-04-09
US12112521B2 (en) 2024-10-08
WO2020139588A1 (en) 2020-07-02
EP3903510A1 (en) 2021-11-03
JP2022515266A (ja) 2022-02-17
JP7631198B2 (ja) 2025-02-18
KR102804488B1 (ko) 2025-05-07
CN113439447A (zh) 2021-09-24
EP3903510B1 (en) 2025-04-09

Similar Documents

Publication Publication Date Title
US12112521B2 (en) Room acoustics simulation using deep learning image analysis
KR102008771B1 (ko) 청각-공간-최적화 전달 함수들의 결정 및 사용
JP7038688B2 (ja) ヘッドフォンを介した空間音響レンダリングのための室内特性を修正するシステムおよび方法
CN104995681B (zh) 多声道音频数据的视频分析辅助产生
US11930337B2 (en) Audio encoding with compressed ambience
CN109313907A (zh) 合并音频信号与空间元数据
CN109068263A (zh) 使用元数据处理的耳机的双耳呈现
CA2744429C (en) Converter and method for converting an audio signal
CN106023983A (zh) 基于虚拟现实vr场景的多用户语音交互方法以及装置
GB2612173A (en) Determining a virtual listening environment
WO2019197709A1 (en) An apparatus, a method and a computer program for reproducing spatial audio
JP2023514121A (ja) ビデオ情報に基づく空間オーディオ拡張
CN113709619A (zh) 音频处理方法、装置、用户终端及计算机可读介质
KR20220036210A (ko) 영상의 음질을 향상시키는 디바이스 및 방법
GB2550877A (en) Object-based audio rendering
CN111787464B (zh) 一种信息处理方法、装置、电子设备和存储介质
Kearney et al. Design of an interactive virtual reality system for ensemble singing
Grimm et al. Comparison of distance perception in simulated and real rooms
France Immersive Audio Production: Providing structure to research and development in an emerging production format
CN119785818A (zh) 音视频处理方法、装置、音视频设备和计算机存储介质
TW202509754A (zh) 產生音訊資料信號
CN119729331A (zh) 音频渲染方法、存储介质及电子装置
CN119497030A (zh) 音频处理方法及电子设备
Maempel et al. Opto-acoustic simulation of concert halls–a data-based approach (Opto-akustische Simulation von Konzerträumen–ein datenbasierter Ansatz)
HK40029925A (en) Systems and methods for modifying room characteristics for spatial audio rendering over headphones

Legal Events

Date Code Title Description
PA0105 International application

Patent event date: 20210722

Patent event code: PA01051R01D

Comment text: International Patent Application

PG1501 Laying open of application
A201 Request for examination
PA0201 Request for examination

Patent event code: PA02012R01D

Patent event date: 20221128

Comment text: Request for Examination of Application

E902 Notification of reason for refusal
PE0902 Notice of grounds for rejection

Comment text: Notification of reason for refusal

Patent event date: 20240131

Patent event code: PE09021S01D

E601 Decision to refuse application
PE0601 Decision on rejection of patent

Patent event date: 20241029

Comment text: Decision to Refuse Application

Patent event code: PE06012S01D

PX0701 Decision of registration after re-examination

Patent event date: 20250124

Comment text: Decision to Grant Registration

Patent event code: PX07013S01D

X701 Decision to grant (after re-examination)
GRNT Written decision to grant
PR0701 Registration of establishment

Comment text: Registration of Establishment

Patent event date: 20250430

Patent event code: PR07011E01D

PR1002 Payment of registration fee

Payment date: 20250430

End annual number: 3

Start annual number: 1

PG1601 Publication of registration