[go: up one dir, main page]

KR101771533B1 - 오디오 신호를 처리하는 방법, 신호 처리 유닛, 바이너럴(binaural) 렌더러, 오디오 인코더와 오디오 디코더 - Google Patents

오디오 신호를 처리하는 방법, 신호 처리 유닛, 바이너럴(binaural) 렌더러, 오디오 인코더와 오디오 디코더 Download PDF

Info

Publication number
KR101771533B1
KR101771533B1 KR1020167003941A KR20167003941A KR101771533B1 KR 101771533 B1 KR101771533 B1 KR 101771533B1 KR 1020167003941 A KR1020167003941 A KR 1020167003941A KR 20167003941 A KR20167003941 A KR 20167003941A KR 101771533 B1 KR101771533 B1 KR 101771533B1
Authority
KR
South Korea
Prior art keywords
signal
audio
audio signal
reverberation
correlation
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Active
Application number
KR1020167003941A
Other languages
English (en)
Other versions
KR20160046800A (ko
Inventor
시모네 퓌그
얀 프로그스티어스
Original Assignee
프라운호퍼 게젤샤프트 쭈르 푀르데룽 데어 안겐반텐 포르슝 에. 베.
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by 프라운호퍼 게젤샤프트 쭈르 푀르데룽 데어 안겐반텐 포르슝 에. 베. filed Critical 프라운호퍼 게젤샤프트 쭈르 푀르데룽 데어 안겐반텐 포르슝 에. 베.
Publication of KR20160046800A publication Critical patent/KR20160046800A/ko
Application granted granted Critical
Publication of KR101771533B1 publication Critical patent/KR101771533B1/ko
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Classifications

    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04SSTEREOPHONIC SYSTEMS 
    • H04S7/00Indicating arrangements; Control arrangements, e.g. balance control
    • H04S7/30Control circuits for electronic adaptation of the sound field
    • H04S7/305Electronic adaptation of stereophonic audio signals to reverberation of the listening space
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L19/00Speech or audio signals analysis-synthesis techniques for redundancy reduction, e.g. in vocoders; Coding or decoding of speech or audio signals, using source filter models or psychoacoustic analysis
    • G10L19/008Multichannel audio signal coding or decoding using interchannel correlation to reduce redundancy, e.g. joint-stereo, intensity-coding or matrixing
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04SSTEREOPHONIC SYSTEMS 
    • H04S7/00Indicating arrangements; Control arrangements, e.g. balance control
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10KSOUND-PRODUCING DEVICES; METHODS OR DEVICES FOR PROTECTING AGAINST, OR FOR DAMPING, NOISE OR OTHER ACOUSTIC WAVES IN GENERAL; ACOUSTICS NOT OTHERWISE PROVIDED FOR
    • G10K15/00Acoustics not otherwise provided for
    • G10K15/08Arrangements for producing a reverberation or echo sound
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10KSOUND-PRODUCING DEVICES; METHODS OR DEVICES FOR PROTECTING AGAINST, OR FOR DAMPING, NOISE OR OTHER ACOUSTIC WAVES IN GENERAL; ACOUSTICS NOT OTHERWISE PROVIDED FOR
    • G10K15/00Acoustics not otherwise provided for
    • G10K15/08Arrangements for producing a reverberation or echo sound
    • G10K15/12Arrangements for producing a reverberation or echo sound using electronic time-delay networks
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L25/00Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00
    • G10L25/03Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00 characterised by the type of extracted parameters
    • G10L25/06Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00 characterised by the type of extracted parameters the extracted parameters being correlation coefficients
    • HELECTRICITY
    • H03ELECTRONIC CIRCUITRY
    • H03MCODING; DECODING; CODE CONVERSION IN GENERAL
    • H03M7/00Conversion of a code where information is represented by a given sequence or number of digits to a code where the same, similar or subset of information is represented by a different sequence or number of digits
    • H03M7/30Compression; Expansion; Suppression of unnecessary data, e.g. redundancy reduction
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04SSTEREOPHONIC SYSTEMS 
    • H04S7/00Indicating arrangements; Control arrangements, e.g. balance control
    • H04S7/30Control circuits for electronic adaptation of the sound field
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04SSTEREOPHONIC SYSTEMS 
    • H04S2400/00Details of stereophonic systems covered by H04S but not provided for in its groups
    • H04S2400/01Multi-channel, i.e. more than two input channels, sound reproduction with two speakers wherein the multi-channel information is substantially preserved
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04SSTEREOPHONIC SYSTEMS 
    • H04S2400/00Details of stereophonic systems covered by H04S but not provided for in its groups
    • H04S2400/03Aspects of down-mixing multi-channel audio to configurations with lower numbers of playback channels, e.g. 7.1 -> 5.1
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04SSTEREOPHONIC SYSTEMS 
    • H04S2400/00Details of stereophonic systems covered by H04S but not provided for in its groups
    • H04S2400/13Aspects of volume control, not necessarily automatic, in stereophonic sound systems
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04SSTEREOPHONIC SYSTEMS 
    • H04S2420/00Techniques used stereophonic systems covered by H04S but not provided for in its groups
    • H04S2420/01Enhancing the perception of the sound image or of the spatial distribution using head related transfer functions [HRTF's] or equivalents thereof, e.g. interaural time difference [ITD] or interaural level difference [ILD]

Landscapes

  • Engineering & Computer Science (AREA)
  • Physics & Mathematics (AREA)
  • Acoustics & Sound (AREA)
  • Multimedia (AREA)
  • Signal Processing (AREA)
  • Audiology, Speech & Language Pathology (AREA)
  • Computational Linguistics (AREA)
  • Health & Medical Sciences (AREA)
  • Human Computer Interaction (AREA)
  • Mathematical Physics (AREA)
  • Theoretical Computer Science (AREA)
  • Stereophonic System (AREA)
  • Reverberation, Karaoke And Other Acoustics (AREA)

Abstract

룸 임펄스 응답에 따라 오디오 신호(504) 처리하는 방법이 기술되었다. 오디오 신호(504)는 룸 임펄스 응답의 후기 반향과 별도로 룸 임펄스 응답의 초기 부분과 처리(502)되며, 후기 반향의 처리(514)는 스케일링된 반향 신호를 생성하는 것을 포함하며, 스케일링(526)은 오디오 신호(504)에 종속적이다. 오디오 신호(504)의 처리된 초기 부분(506)과 스케일링 된 반향 신호는 조합된다.

Description

오디오 신호를 처리하는 방법, 신호 처리 유닛, 바이너럴(binaural) 렌더러, 오디오 인코더와 오디오 디코더{Method for Processing an Audio Signal, Signal Processing Unit, Binaural Renderer, Audio Encoder and Audio Decoder}
본 발명은 오디오 인코딩/디코딩 분야에 관한 것으로, 특히 공간적 오디오 코딩이나 공간적 오디오 객체(오브젝트, object) 코딩에서의, 예를 들어 3D 오디오 코덱 시스템 분야에 관한 것이다. 구체적으로는 룸 임펄스 응답(실내 임펄스 응답, room impulse response)와 관련된 오디오 신호 처리, 신호 처리 유닛, 바이너럴 렌더러, 오디오 인코더와 오디오 디코더의 기술들에 관한 것이다.
공간적 오디오 코딩 도구들은, 예를 들어 MPEG-surround 표준에서 정형화되고 널리 알려진 기술이다. 공간적 오디오 코딩은 5개 혹은 7개의 입력 채널과 같은 복수의 오리지널 입력(original input)에서 시작하여, 재생 설정(재생 장치, reproduction setup)에서의 위치, 예를 들어 좌측 채널, 중앙 채널, 우측 채널, 좌측 서라운드 채널, 우측 서라운드 채널, 저주파 향상 채널에 의해 구별된다. 공간적 오디오 인코더는 오리지널 채널들로부터 하나 이상의 다운믹스(downmix) 채널을 유도할 수 있고, 추가로 채널 간의 채널 간섭 값의 레벨 차, 채널 간의 위상(phase) 차, 채널 간의 시차 등의 공간 신호(cue)와 연관된 파라미터 데이터(parametric data)를 유도할 수 있다. 하나 이상의 다운믹스 채널들은 최종적으로 오리지널 입력 채널의 유사한 버전인 출력 채널을 얻기 위해, 공간 신호를 표시해주는 파라미터 부가 정보들과 함께, 다운믹스 채널들과 관련된 파라미터 데이터들을 디코딩하는, 공간적 오디오 디코더로 보내진다. 출력 설정들의 채널들의 위치는, 예를 들어, 5.1 포맷, 7.1 포맷 등으로 고정될 수 있다.
또한, 공간적 오디오 코딩 도구들은, 예를 들어 MPEG SAOC(SAOC; spatial audio object coding) 표준에서 정형화되고 널리 알려진 기술이다. 오리지널 채널에서 시작하는 공간적 오디오 코딩과는 다르게, 공간적 오디오 객체 코딩은 특정 렌더링 재생 설정에 자동으로 부여되지 않는 오디오 객체에서 시작한다. 예를 들어 특정 렌더링 정보를 공간적 오디오 객체 코딩 디코더에 입력함으로써. 오히려 재생 장면(scene) 에서의 오디오 객체의 위치는 탄력적이며 사용자에 의해 지정될 수 있다. 또는 혹은 추가로, 렌더링 정보는 추가적인 부가 정보나 메타데이터(metadata)로 전송될 수 있다; 렌더링 정보는 재생 설정의 어느 위치에서 특정한 오디오 객체가 있어야 하는지(예를 들어, 시간에 따라) 에 대한 정보를 포함할 수 있다. 특정 데이터의 압축을 얻기 위해서는, 여러 오디오 객체들은 입력 객체들로부터 객체들을 다운믹스함과 동시에 특정 다운믹스된 정보들을 통해 하나 이상의 전송 채널을 계산하여 SAOC 인코더에 의해 압축된다. 추가로 SAOC 인코더는 객체 레벨 차이(OLD;object level differences), 객체 간섭 값, 등과 같은 객체 간의 신호를 표현하는 파라미터 부가 정보를 계산한다. SAC(SAC; Spatial Audio Coding)처럼, 객체 간의 파라미터 데이터는 각각의 시간/주파수 타일들(tiles)을 위해 계산된다. 특정 프레임(frame)(예로, 1024 혹은 2048 샘플들)의 오디오 신호에 대해서는 파라미터 데이터들이 각 프레임과 각 주파수 대역들에 제공되도록 복수의 주파수 대역들(예로, 24, 32, 64 대역들)이 고려된다. 예를 들어, 오디오 조각이 20프레임이고 각 프레임이 32 주파수 대역으로 세분화된다면, 시간/주파수 타일의 수는 640개가 될 것이다.
3D 오디오 시스템에서는 마치 특정한 방에서 오디오 신호에 집중하게 되도록 오디오 신호의 공간적인 인상을 주는 것이 필요할 수도 있다. 그러한 상황에서는, 특정한 방의 룸 임펄스 응답, 예를 들어 그 측정 기준이 제공되어 청취자에게 제시할 오디오 신호를 처리하는데 쓰인다. 이러한 제시에는 후기 잔향과 별도로 직접적인 소리와 초기 반향의 처리가 요구될 수 있다.
본 발명의 목적은 룸 임펄스 응답에서의 초기 반향(reflection)과 후기 잔향(reverberation)을 분리시켜 처리하는 입증된 방법을 제공하여 오디오의 컨볼루션(convolution)과 무관하게 완전한 신호 처리를 최대한 지각할 수 있도록 결과를 얻는 것을 가능하게 하는 데 있다.
이 목적은 청구항 1에 따른 방법과, 청구항 19에 따른 신호 처리 유닛과, 청구항 23에 따른 바이너럴 렌더러와, 청구항 24에 따른 오디오 인코더와, 청구항 25에 따른 오디오 디코더에 의해 달성된다.
본 발명은, 오디오 신호를 룸 임펄스 응답에 따라 처리하는 과정에서 컨볼루션과 완전 임펄스 응답(complete impulse response)을 가했을 때 초기 부분과 잔향에 따라 오디오 신호를 따로 처리하는 것의 결과가 다른 종래의 방법에 문제가 있다는 결론에 기초한다. 본 발명은 적정 수준의 잔향이 입력 오디오 신호와 응답 신호에 모두 종속적이라는 발명자의 발견에 기초하는데, 이는, 예를 들어 합성 잔향 방법(synthetic reverberation approach)을 사용할 때는 입력 오디오 신호가 잔향에 미치는 영향이 완전히 보존되지 않기 때문이다. 응답 신호의 영향은 알려진 잔향 성질을 입력 파라미터로 사용했을 때 알 수 있다. 입력 신호의 영향은 입력 오디오 신호의 기준에 의해 결정되는 잔향의 레벨을 적응시키는(adapting) 신호-의존적 스케일링(signal-dependent scaling)으로 알아낼 수 있다. 이 방법을 통해 잔향의 레벨이 바이너럴 렌더링에 풀-컨볼루션(full-convolution)을 이용했을 때의 잔향의 레벨과 더 잘 부합한다.
(1) 본 발명은 오디오 신호를 룸 임펄스 응답에 따라 처리하는 방법을 제공한다, 이 방법은:
오디오 신호를 룸 임펄스 응답의 초기 부분과 후기 잔향으로 나누어 처리하는 단계,- 후기 잔향의 처리가 스케일링 된(scaled) 잔향 신호의 발생으로 구성되며, 스케일링은 오디오 신호에 종속적임- 및
처리된 오디오 신호와 룸 임펄스 응답의 초기 부분 및 스케일링 된 잔향 신호를 조합하는 단계;를 포함한다.
상술한 종래의 접근들과 비교하였을 때, 진보적인 방법은 풀-컨볼루션의 결과의 계산과 확장적이고 정확하지 않은 청각 모형의 필요 없이도 후기 잔향을 스케일링(scaling)할 수 있기에 유리하다. 진보적인 방법의 실시예는 인공적인 후기 잔향을 측정할 수 있는 간단한 방법을 제공하여 마치 풀-컨볼루션에서의 잔향처럼 들리게 한다. 스케일링은 추가적인 청각 모형이 없는 입력 신호를 기반으로 하거나 타겟 잔향의 라우드니스(loudness)가 필요하다. 스케일링 인자는 시간 주파수 도메인에서 유래하는데 이는 오디오/디코더 체인의 오디오 자료(material) 역시 이 도메인에서 자주 이용 가능하기 때문이다.
(2) 실시예에 따라 스케일링은 하나 이상의 오디오 신호의 입력 채널의 조건에 종속적이다. (예를 들어, 입력 채널의 수, 활성 입력 채널의 수, 그리고/혹은 입력 채널의 활성도)
이는 전반적으로 축소된 계산 아래 입력 오디오 신호로부터 스케일링이 쉽게 결정되어 유리하다. 예를 들어, 측정은 오리지널 오디오 신호와 비교했을 때 축소된 채널을 포함하여 현재 다운믹스된 것으로 판단되는 채널로 다운믹스 된 오리지널 오디오 신호 채널의 수에 의해 쉽게 결정된다. 또, 현재 다운믹스된 것으로 판단되는 채널로 다운믹스된 활성 채널의 수(현재 오디오 프레임에서 활성을 보이고 있는 채널들)는 잔향 신호의 측정에 기초를 이룰 수 있다.
(3) 실시예에 따라 스케일링은 (입력 채널 조건에 추가적으로 혹은 선택적으로) 오디오 신호의 미리 정의되었거나 계산된 상관 정도(correlation measure)에 종속적이다.
미리 정의된 상관 정도를 사용하는 것은 처리 과정에서의 계산의 복잡함을 줄여주기에 유리하다. 미리 정의된 상관 정도는 고정 값을 가질 수 있고, 예를 들어 0.1부터 0.9까지의 범위이며, 이는 복수의 오디오 신호의 분석 기초에 의해 경험적으로 결정된다. 반면에, 상관 정도를 계산하는 것은, 추가적인 계산적 자료(resource)들이 필요함에도, 현재 가진 각각의 오디오 신호의 더 정확한 상관 정도를 얻는 것이 요구되는 경우에 유리하다.
(4) 실시예에 따라 스케일링 된 잔향 신호를 발생시키는 것은 이득 인자(gain factor)을 적용하는 것으로 구성되며, 여기서 이득 인자는 하나 이상의 오디오 신호의 입력 채널의 조건 그리고/혹은 미리 정의되거나 계산된 오디오 신호의 상관 정도에 의해 결정되며, 이 때 이득 인자는 후기 잔향 오디오 신호의 처리 전, 처리 도중, 혹은 처리 후에 적용될 수 있다.
이는 이득 인자가 상술된 파라미터를 기반으로 쉽게 계산될 수 있고 시행 세부 사항에 종속적인 프로세싱 체인(processing chain)에 있는 잔향에 탄력적으로 적용될 수 있기 때문에 유리하다.
(5) 실시예에 따라 이득 인자는 아래와 같이 결정된다:
Figure 112016015217265-pct00001
이 때,
Figure 112016015217265-pct00002
= 오디오 신호의 미리 정의되거나 계산된 상관 정도
c u, c c = 하나 이상의 오디오 신호 입력 채널의 조건을 나타내는 인수, c u 는 상관도가 전혀 없는 채널을 의미하고, c c 는 완전히 상관된 채널을 의미한다.
이는 인수들이 시간에 따른 오디오 신호의 활성 채널의 수에 따라 변하기 때문에 유리하다.
(6) 실시예에 따라 c u c c 는 다음과 같이 정해진다:
Figure 112016015217265-pct00003
Figure 112016015217265-pct00004
여기서,
Kin = 활성 혹은 고정된 다운믹스 채널의 수
이는 인수가 오디오 신호의 활성 채널의 수에 직접적으로 종속되어있기 때문에 유리하다. 모든 채널이 활성화되지 않았다면, 잔향의 값은 0으로 나타날 것이고, 채널이 활성화될수록 잔향의 진폭은 커질 것이다.
(7) 실시예에 따라 이득 인자가 복수의 오디오 프레임을 통해 저역 통과 필터링(low pass filter) 되며, 이득 인자는 다음과 같이 저역 통과 필터링 될 수 있다:
Figure 112016015217265-pct00005
Figure 112016015217265-pct00006
Figure 112016015217265-pct00007
여기서,
t s = 저역 통과 필터의 시간 상수
t i = 프레임 ti 에서의 오디오 프레임
g s = 평활된(다듬어진, smoothed) 이득 인자
k = 프레임 크기
f s = 샘플링 주파수
이는 스케일링 인자(scaling factor)에 대해 시간에 따른 급격한 변화가 일어나지 않기에 유리하다.
(8) 실시예에 따라 스케일링 된 잔향 신호를 발생시키는 것은 오디오 신호의 상관 분석(correlation analysis)으로 구성되는데, 상관 분석은 오디오 신호의 오디오 프레임에 조합된 상관 정도(combined correlation measure)를 결정하는 것을 구성하며, 조합된 상관 정도는 하나의 오디오 프레임의 복수의 채널 조합들의 상관 계수들을 결합시켜 계산되며, 각 오디오 프레임은 하나 이상의 시간 슬롯(time slot)으로 구성되며, 상관 계수들의 조합은 오디오 프레임의 복수의 상관 계수를 평균 내는 것으로 구성될 수 있다.
이는 상관을 오디오 프레임의 전체 상관을 나타내는 하나의 값으로 나타낼 수 있기 때문에 유리하다. 다수의 주파수-종속 값을 다룰 필요가 없다.
(9) 실시예에 따라 조합 상관 계수를 결정하는 것은 (i) 하나의 오디오 프레임에 대해 모든 채널의 전체 평균값을 계산하는 것, (ii) 상관 채널로부터 평균값을 빼서 제로-평균(zero-mean) 오디오 프레임을 계산하는 것, (iii) 복수의 채널 조합에 대해 상관 계수를 계산하는 것, 그리고 (iv) 복수의 상관 계수의 평균으로 조합 상관 정도를 계산하는 것으로 구성될 수 있다.
이는 상술되었듯이, 오직 하나의 전체 프레임당 상관 값이 계산되고(쉽게 다뤄진다) 제로-평균 신호와 그 표준편차를 쓰는 "표준" 피어슨 상관 계수(Pearson's correlation coefficient)와 계산이 비슷하게 이루어지기 때문에 유리하다.
(10) 실시예에 따라 조합 채널의 상관 계수는 다음과 같이 결정된다:
Figure 112016015217265-pct00008
이때
Figure 112016015217265-pct00009
= 상관 계수,
Figure 112016015217265-pct00010
= 채널 m의 하나의 시간 슬롯 j의 표준편차,
Figure 112016015217265-pct00011
= 채널 n의 하나의 시간 슬롯 j의 표준편차,
Figure 112016015217265-pct00012
= 제로-평균 변수들,
Figure 112016015217265-pct00013
= 주파수 대역들,
Figure 112016015217265-pct00014
= 시간 슬롯들,
Figure 112016015217265-pct00015
= 채널들,
* = 켤레 복소수(complex conjugate).
이는 널리 알려진 피어슨 상관 계수에 관련 식이 사용될 수 있고 주파수와 시간에 종속적인 식으로 변환될 수 있기 때문에 유리하다.
(11) 실시예에 따라 오디오 신호의 후기 잔향은 오디오 신호를 다운믹스하는것과 다운믹스 된 오디오 신호를 잔향에 적용하는 것으로 구성된다.
이는 예를 들어 잔향기에서의, 처리 과정에서 더 적은 수의 채널을 다뤄야 하고, 다운믹스 처리가 직접적으로 조절할 수 있기에 유리하다.
(12) 본 발명은 오디오 신호를 수신하는 입력을 구성하는 신호 처리 유닛, 초기 룸 임펄스 응답에 따라 수신된 오디오 신호를 처리하는 초기 부분 처리기(초기 부분 프로세서, early part processor), 수신된 오디오 신호를 룸 임펄스 응답의 후기 잔향에 따라 처리하는 후기 잔향 처리기, 수신된 오디오 신호에 따라 스케일링 된 잔향 신호를 만들도록 고안 혹은 프로그램된 후기 잔향 처리기, 그리고 룸 임펄스 응답과 스케일링 된 잔향 신호의 초기 부분과 처리된 오디오 신호를 출력 오디오 신호에 조합하는 출력부를 제공한다.
(13) 실시예에 따라 후기 잔향 처리기는 오디오 신호를 받고 잔향 신호를 발생시키는 잔향과, 오디오 신호에 종속적인 이득 인자를 발생시키는 상관 분석기(correlation analyzer), 그리고 잔향에 입력 혹은 출력에 연결되고 상관 분석기에 의해 제공된 이득 인자에 제어 받는 이득단(이득 단계, gain stage)로 이루어진다.
(14) 실시예에 따라 신호 처리 유닛은 추가적으로 상관 분석기와 이득단(gain stage)을 연결하는 최소 숫자의 저역 통과 필터로 구성되며, 이득단과 가산기(adder)를 연결하는 지연 요소(delay element), 그리고 출력부와 초기 부분 처리기에 연결된 가산기로 구성된다.
(15) 본 발명은 진보적 신호 처리 유닛으로 구성된 바이너럴 렌더러를 제공한다.
(16) 본 발명은 진보적인 신호 처리 유닛 혹은 코딩 이전의 오디오 신호를 처리하는 진보적인 바이너럴 렌더러로 구성된 오디오 신호를 코딩하는 오디오 인코더를 제공한다.
(17) 본 발명은 인코딩 된 오디오 신호를 디코딩하는 오디오 디코더를 제공하며, 이는 진보적인 신호 처리 유닛 혹은 디코딩된 오디오 신호를 처리하는 진보적인 바이너럴 렌더러로 구성되어 있다.
본 발명의 실시예는 첨부된 도면에서 설명된다.
도 1은 3D 오디오 시스템의 3D 오디오 인코더의 개요를 나타내는 도면.
도 2는 3D 오디오 시스템의 3D 오디오 디코더의 개요를 나타내는 도면.
도 3은 도 2의 3D 오디오 디코더에 구현될 수 있는 포맷 변환기를 구현예를 나타내는 도면.
도 4는 도 2의 3D 오디오 디코더에 구현될 수 있는 바이너럴 렌더러의 실시예를 나타내는 도면.
도 5는 룸 임펄스 응답 h(t)의 예를 나타내는 도면.
도 6은 룸 임펄스 응답과 함께 오디오 입력 신호를 처리하는 다른 가능성을 나타내며, 도 6a는 룸 임펄스 응답에 따라 전체 오디오 신호를 처리하는 것을 나타내며, 도 6b는 초기 부분과 후기 잔향을 따로 처리하는 것을 나타내는 도면.
도 7은 신호 처리 유닛의 블록도를 나타내는 도면.
도 8은 본 발명의 실시예에 따라 바이너럴 렌더러에서의 바이너럴 오디오 신호 처리를 나타내는 개념도.
도 9는 본 발명의 실시예에 따라 도 8의 바이너럴 렌더러에서의 주파수 도메인 잔향(frequency domain reverberator)을 나타내는 개념도.
진보적인 방법의 실시예가 설명될 것이다. 하기의 설명은 진보적인 방법이 포함될 수 있는 3D 오디오 코덱 시스템의 시스템 개요로 시작될 것이다.
도 1 및 2는 실시예에 따라 3D 오디오 시스템의 알고리즘 블록(algorithmic block)을 나타낸다. 더 명확하게, 도 1은 3D 오디오 인코더(100)의 개요를 보여준다. 오디오 인코더(100)는 선택적으로 제공될 수 있는 사전-렌더러/믹서 회로(102) (pre-renderer/mixer circuit)에서 입력 신호를 수신하고, 더 명확하게는 오디오 입력 채널이 오디오 인코더(100)에 복수의 채널 신호(104), 복수의 객체 신호(106), 및 상관 객체 메타데이터(corresponding object metadata)(108)를 제공한다. 사전-렌더러/믹서(102)(신호(110) 참고)에 의해 처리된 객체 신호(106)는 SAOC 인코더(112)(SAOC: Spatial Audio Object Coding)에 제공될 수 있다. SAOC 인코더(112)는 USAC 인코더(116)(USAC: United Speech and Audio Coding)에 제공되는 SAOC 전송 채널들(114)을 발생시킨다. 추가로, SAOC-SI 신호(118)(SAOC-SI: SAOC side information)도 USAC 인코더(116)에 제공된다. USAC 인코더(116)은 추가로 사전-렌더러/믹서에서 채널 신호들과 사전-렌더링(pre-rendering) 된 객체 신호(122)와 함께 객체 신호(120)을 수신한다. 객체 메타데이터 정보(108)는 OAM 인코더(124)(OAM: object metadata)에 적용되어 USAC 인코더에 압축 객체 메타데이터 정보(126)를 제공한다. USAC 인코더(116)는 상술된 입력신호를 기준으로 압축 출력 신호 mp4를 발생시키며, 이는 128에 보여진다.
도 2는 3D 오디오 시스템의 3D 오디오 인코더(200)의 개요를 보여준다. 도 1의 오디오 인코더(100)에 의해 발생된 입력 신호(128)는 (mp4) 오디오 디코더 200에서 수신되는데, 더 명확하게는 USAC 디코더(202)에 수신된다. USAC 디코더(202)는 수신된 신호(128)을 채널 신호들(204), 사전-렌더링 된 객체 신호들(206), 객체 신호들(20), 및 SAOC 전송 채널 신호들(210)에 디코딩한다. 추가적으로, 압축 객체 메타데이터 정보(212)와 SAOC-SI 신호(214)는 USAC 디코더(202)에 의해 출력된다. 객체 신호(208)은 객체 렌더러(object renderer)(216)에 제공되어 렌더링 된 객체 신호(218)을 출력한다. SAOC 전송 채널 신호들(210)은 SAOC 디코더(220)에 제공되어 렌더링 된 객체 신호(222)를 출력한다. 압축 객체 메타 정보(212)는 OAM 디코더(224)에 제공되어 객체 렌더러(216)와 SAOC 디코더(220)에 렌더링 된 객체 신호 (218)과 렌더링 된 객체 신호(222)를 발생시키기 위한 각각의 제어 신호를 출력한다. 디코더는 추가적으로 도 2에서 보여지는 것과 같이 채널 신호(228)의 출력을 위한 입력 신호(204, 206, 218, 및 222)를 수신하는 믹서(226)을 포함한다. 채널 신호는 예를 들어 230에 나타난 것처럼, 32 채널 라우드스피커(loudspeaker)와 같은 라우드스피커에 직접적으로 출력할 수 있다. 신호(228)는 채널 신호(228)의 변환되어야 하는 방법을 제시해주는 재생 레이아웃 신호(reproduction layout signal)를 제어 입력으로 수신하는 포맷 변환 회로(format conversion circuit)(232)에 제공될 수 있다. 도 2에서 그려진 실시예에서, 신호들이 234에 나타난 것처럼 5.1 스피커 시스템에 제공될 것처럼 변환(conversion)이 될 것으로 추측된다. 이에 더해 채널 신호(228)들은 238에 나타난 것처럼 바이너럴 렌더러(236)에 제공되어 헤드폰과 같은 경우처럼 두 개의 출력 신호들을 발생시킬 수 있다.
본 발명의 실시예에 따라, 인코딩/디코딩 시스템은 도 1 및 2에 채널 및 객체 신호(신호 104와 106 참조)의 코딩에 MPEG-D USAC 코덱을 기반으로 하고 있다. 많은 양의 객체를 코딩하는 효율을 높이기 위해, MPEG SAOC 기술이 사용될 수 있다. 3 종류의 렌더러가 객체를 채널로, 채널을 헤드폰으로, 혹은 채널을 다른 라우드스피커 설정(도 2의 2030, 234, 238 참조)로 렌더링하는 역할을 수행할 수 있다. 객체 신호가 SAOC를 이용하여 명시적으로 전송되거나 파라미터 인코딩되었을 때, 상관 객체 메타데이터 정보(108)는 압축되고(신호 126 참조) 3D 오디오 비트스트림(128)으로 다중전송(multiplex)된다.
도 1과 2의 전체 3D 오디오 시스템의 알고리즘 블록은 하기의 추가적인 세부사항으로 설명될 것이다.
사전-렌더러/믹서(102)는 인코딩 전에 채널 플러스 객체 입력 장면(channel plus object input scene)을 채널 장면(channel scene)으로 변환하기 위해 선택적으로 제공될 수 있다. 이는 기능적으로 후기에 설명될 객체 렌더러/믹서와 동일하다. 객체의 사전-렌더링은 동시에 활성을 띄는 객체 신호의 수에 독립적인 인코더 입력에서의 결정적 신호 엔트로피를 보장하기 위해 요구될 수 있다. 객체의 사전-렌더링에서, 객체 메타데이터의 전송은 요구되지 않는다. 별개의 객체 신호는 채널 레이아웃(channel layout)으로 렌더링되어 인코더가 사용되도록 설정해준다. 개별 채널(discrete channel)의 객체의 가중치는 연합 객체 메타데이터(OAM)에서 얻어진다.
USAC 인코더(116)은 라우드스피커-채널 신호, 개별 객체 신호, 객체 다운믹스 신호, 및 사전-렌더링 된 신호의 핵심 코덱이다. 입력 채널과 객체 할당의 기하학적 및 의미적 정보를 바탕으로 채널-및-객체 매핑정보(channel-and-object mapping information)를 생성하여(creating) 상술된 신호의 코딩을 처리한다. 본 매핑정보는 입력 채널들과 객체들이 채널 쌍 요소들(CPEs: Channel Pair Elements), 단일 채널 요소들(SCEs: Single Channel Elements), 저주파 효과들(LFEs: Low Frequency Effects), 및 4채널 요소들(QCEs: Quad Channel Elements)과 같은 USAC-채널 요소(USAC-channel elements)에 어떻게 매핑되어있는지 설명해주고, 상관 정보는 디코더로 전송된다. USAC-. SAOC 데이터(114, 118) 혹은 객체 메타데이터(126)과 같은 모든 추가적인 페이로드(payload)들은 인코더의 속도 제어에 고려된다. 객체의 코딩은 레이트/왜곡 요구조건(rate/distortion requirement)과 렌더러를 위한 상호 요구조건(interactivity requirement)에 따라 다양한 방법으로 가능하다. 실시예에 따라, 다음과 같은 객체 코딩 변수가 가능하다:
사전-렌더링 된 객체들: 객체 신호들은 인코딩되기 전에 22.2 채널 신호에 사전-렌더링되고 믹스된다. 그 다음의 코딩 체인은 22.2 채널 신호를 창조한다.
개별 객체 파형: 객체들은 모노포닉 파형(monophonic waveforms)의 형태로 인코더에 공급된다. 인코더는 채널 신호들 외에도 객체들을 전송하기 위해 단일 채널 요소들(SCEs)를 사용한다. 디코딩 된 객체들은 수신기에서 렌더링 되고 믹스된다. 압축 객체 메타데이터 정보는 수신기/렌더러에 전송된다.
파라미터 객체 파형: 객체 속성들과 서로의 관계는 SAOC 파라미터의 방법으로 표현된다. 객체 신호의 다운믹스는 USAC와 함께 코딩된다. 파라미터 정보는 같이 전송된다. 다운믹스 채널들의 수는 객체의 수와 전체 데이터 레이트에 따라 결정된다. 압축된 객체 메타데이터 정보는 SAOC 렌더러에 전송된다.
객체 신호들을 위한 SAOC 인코더(112)와 SAOC 디코더(220)는 MPEG SAOC 기술에 기반되어있을 수 있다. 시스템은 OLD들, IOC(Inter Object Coherence)들, DMG(Downmix Gain)들과 같은 적은 수의 전송 채널들과 추가적인 파라미터 데이터들에 기반된 오디오 객체들의 수를 재생성(recreating), 변형, 그리고 렌더링 할 수 있다. 추가적인 파라미터 정보는 모든 객체를 각각 전송시키는데 필요한 레이트보다 매우 작은 데이터 레이트를 보여주어 코딩을 매우 효율적으로 만든다. SAOC 인코더(112)는 객체/채널 신호를 모노포닉 파형으로 입력을 가지고 파라미터 정보(3D-오디오 비트스트림(128)에 포함된)와 SAOC 전송 채널들(단일 채널 요소에 인코딩되어 전송된)을 출력한다. SAOC 디코더(220)은 객체/채널 신호를 디코딩 된 SAOC 전송 채널(210)과 파라미터 정보(214)로부터 복원하며, 재생 레이아웃, 압축 해제된 객체 메타데이터 정보, 그리고 선택적으로 사용자 상호작용 정보(user interaction information)를 기초로 하여 출력 오디오 장면(output audio scene)이 발생한다.
객체 메타데이터 코덱(OAM 인코더(124)와 OAM 디코더(224) 참조)은 각 객체에 3D 공간에서 객체의 기하적 위치와 볼륨이 시간과 공간에서 객체 속성의 양자화에 의해 효율적으로 코딩되었는지 명시해주는 연합된 메타데이터가 제공된다. 압축된 객체 메타데이터 cOAM(126)은 수신기(200)에 부가 정보로서 전송된다.
객체 렌더러(216)은 주어진 재생 포맷에 따라 객체 파형을 발생시키기 위해 압축된 객체 메타데이터를 이용한다. 각 객체는 그 메타데이터에 따라 특정 출력 채널에 렌더링 된다. 이 블록의 출력은 부분 결과의 합에 의해 결정된다. 만약 채널 기반 컨텐츠(channel based content)와 개별/파라미터 객체들이 모두 디코딩된다면, 채널 기반 파형과 렌더링된 객체 파형은 결과 파형(228)이 출력되기 전 혹은 바이너럴 렌더러(236) 혹은 라우드스피커 렌더러 모듈(232)와 같은 후처리기 모듈(postprocessor module)에 제공되기 전에 믹서(226)에 의해 믹스된다.
바이너럴 렌더러 모듈(236)은 각 입력 채널이 가상 음원(virtual sound source)에 의해 표현되도록 다중채널 오디오 자료들의 바이너럴 다운믹스를 제작한다. 처리는 QMF(Quadrature Mirror Filterbank) 도메인에서 프레임-별(프레임-방식, frame-wise)로 실행되며, 바이너럴화는 측정된 바이너럴 룸 임펄스 응답에 기초한다.
라우드스피커 렌더러(232)는 전송된 채널 구성(228)과 요구된 재생 포맷 사이에서 변환한다. 이것은 “포맷 변환기(format converter)”라고 불릴 수 있다. 포맷 변환기는 적은 수의 출력 채널의 변환 작업을 하며, 예를 들어, 다운믹스를 발생시키는 작업을 한다.
도 3은 포맷 변환기(232)를 구현하는 예를 보여준다. 라우드스피커 렌더러로도 알려진 포맷 변환기(232)는 전송 채널 구성과 요구된 재생 포맷 사이를 변환한다. 포맷 변환기(232)는 적은 수의 출력 채널의 변환 작업을 하며, 예를 들어, 다운믹스(DMX) 처리(240)를 한다. QMF 도메인에서 주로 작동하는 다운믹서(240)는 믹서 출력 신호(228)을 수신하고 라우드스피커 신호(235)를 출력한다. 제어 입력으로, 예를 들어 믹서 출력 신호(228)에 의해 표현되는 데이터가 결정되는 레이아웃인 믹서 출력 레이아웃을 가리키는 신호(246) 및 요구된 재생 레이아웃을 가리키는 신호(248)를 받는 제어기라고도 불리는 구성기(242)가 제공될 수 있다. 이 정보에 기초하여, 제어기(242)는 주로 자동으로, 주어진 입력과 출력의 조합에 적응된 다운믹스 행렬들을 발생시키며 이 행렬들을 다운믹서(240)에 적용한다. 포맷 변환기(232)는 표준 라우드스피커 구성 및 비표준의 라우드스피커 배치의 랜덤 구성을 허용한다.
도 4는 도 2의 바이너럴 렌더러(236)의 실시예를 설명한다. 바이너럴 렌더러 모듈은 다중채널 오디오 자료들의 바이너럴 다운믹스를 제공할 수 있다. 바이너럴화 시키는 것은 측정된 바이너럴 룸 임펄스 응답을 기초로 한다. 룸 임펄스 응답은 실제 룸의 음향적 속성의 “지문”이라 여겨질 수 있다. 바이너럴 렌더러(236)는 출력 채널을 헤드 관련 전달 함수(Head related transfer function) 혹은 바이너럴 룸 임펄스 응답(BRIR: binaural room impulse responses)을 이용하여 두 개의 바이너럴 채널로 렌더링하도록 구성되거나 프로그램 될 수 있다. 예를 들어 휴대 기기에는 바이너럴 렌더링은 휴대 기기에 연결된 헤드폰이나 라우드스피커에 필요하다. 그런 휴대 기기에는, 제약에 의해 디코더와 렌더링의 복잡함을 제한하는 것이 필요할 수 있다. 이런 처리 시나리오(processing scenario)들의 비상관관계(decorrelation)을 제외하는 것에 더해, 먼저 예를 들어 실제 바이너럴 변환기(254)에서 더 적은 수의 출력 채널들에 다운믹스를 실행하여 적은 수의 입력 채널을 얻는 것과 같이 중간 다운믹스 신호(intermediate downmix signal)(252)에 다운믹서(250)를 이용하여 다운믹스를 실행하는 것이 선호될 수 있다. 예를 들어, 22.2 채널 자료들은 다운믹서(250)에 의해 5.1 중간 다운믹스로 다운믹스 될 수 있고, 혹은, 일종의 “지름길” 방법으로, 중간 다운믹스는 도 2의 SAOC 디코더(220)에 직접적으로 계산될 수 있다. 그 후 바이너럴 렌더링은 22.2 입력 채널들이 직접 렌더링되었을 때의 44 HRTF 혹은 BRIR 함수들을 적용하는 것에 비해 다른 위치에 있는 5개의 개별 채널들의 렌더링을 위해 열 개의 HRTF(Head Related Transfer Functions)들 혹은 BRIR 함수들만을 적용하면 된다. 바이너럴 렌더링에 필요한 컨볼루션 작동은 많은 처리 전원이 든다, 그리고, 따라서, 처리 전원을 줄이면서 수용 가능한 오디오음질을 얻는 것은 휴대 기기에 특히 유용하다. 바이너럴 렌더러(236)은 다중채널 오디오 자료의 바이너럴 다운믹스(238)를 발생시키는데, 각 입력 채널(LFE 채널들을 포함한)들은 가상 음원에 의해 표현된다. 처리는 QMF 도메인에서 프레임-별로 진행된다. 바이너럴화는 측정된 바이너럴 임펄스 응답에 기초하며, 직접적인 소리와 초기 부분의 반향은 QMF 도메인 위에서의 고속 컨볼루션을 이용하는 슈도-FFT 도메인(pseudo-FFT domain)에서의 컨볼루션 방법으로 오디오 자료에 각인되며, 후기 잔향은 따로 처리된다.
도 5는 룸 임펄스 응답 h(t)(300)의 예시를 보여준다. 룸 임펄스 응답은 직접적인 소리(301), 초기 반향(302), 후기 잔향(304) 세 요소로 이루어져 있다. 따라서, 룸 임펄스 응답은 임펄스가 재생되었을 때 밀폐된 잔향 음향 공간의 반향 경향을 나타낸다. 초기 반향(302)는 밀도가 증가하는 개별 반향이며, 각각의 반향이 더 이상 구별이 가지 않을 때의 임펄스 응답을 후기 잔향(304)라고 한다. 직접적인 소리(301)은 룸 임펄스 응답에서 쉽게 구별되며 초기 반향과도 분리될 수 있지만, 초기 반향(302)에서 후기 잔향(304)의 전이는 덜 명확하다.
상술되었듯이, 바이너럴 렌더러에서, 예를 들어 도 2에서 묘사된 바이너럴 렌더러에서, 룸 임펄스 응답에 따라 다중채널 오디오 입력 신호를 처리하는 다른 방법들이 알려져 있다.
도 6은 룸 임펄스 응답과 오디오 입력 신호를 처리할 때 생기는 여러 가능성을 보여준다. 도 6a는 완전 오디오 신호를 룸 임펄스 응답에 따라 처리하는 것을 보여주고, 도 6b는 초기 부분과 후기 잔향을 따로 처리하는 것을 보여준다. 도 6a에 보여지듯이 다중채널 오디오 입력 신호와 같은 입력 신호(400)는 룸 임펄스 응답과 함께(도 5 참조) 다중채널 오디오 입력 신호(400)의 풀-컨볼루션이 가능하도록 구성되거나 혹은 프로그램 된 처리기(402)에 수신되고 적용되며, 실시예에서, 2-채널 오디오 출력 신호(404)를 산출한다. 상술되었듯이, 이 방법은 전체 임펄스 응답에 컨볼루션을 사용하는 것이 계산상 비효율적이기 때문에 불리하다. 그러므로 도 6b에 묘사된 다른 방법에 따라, 도 6a에 묘사된 것처럼 룸 임펄스 응답과 풀-컨볼루션을 적용하여 전체 다중채널 오디오 입력 신호를 처리하는 대신에, 처리과정은 룸 임펄스 응답(300)의 초기 부분(301, 302)(도 5 참조)과 후기 잔향(302)에 따라 분리된다. 더 상세하게, 도 6b에서 보여진 것처럼, 다중채널 오디오 입력 신호(400)는 수신되지만, 이 신호는 동시에 초기 부분을 처리하기 위해 첫 번째 처리기(406)에 적용되며, 즉, 오디오 신호는 도 5에서 나타난 것처럼 직접적인 소리(301)과 초기 반향(302) 그리고 룸 임펄스 응답(300)에 따라 처리된다. 다중채널 오디오 입력 신호(400)도 오디오 신호를 룸 임펄스 응답(300)의 후기 잔향(304)에 따라 처리기(408)에 적용된다. 도 6b에 묘사된 실시예에서 다중채널 오디오 입력 신호 역시 다중채널 신호(400)를 더 적은 수의 채널을 가지는 신호가 되도록 다운믹스하기 위해 다운믹서(410)에 적용된다. 그 후 다운믹서(410)의 출력은 처리기(408)에 적용된다. 처리기(406, 408)의 출력은 (412)에서 2-채널 오디오 출력 신호(404')를 발생시키기 위해 조합된다.
상술된 것처럼, 바이너럴 렌더러에서 직접적인 소리와 초기 반향을 후기 잔향과 별도로 처리할 필요가 있을 수 있는데, 주 원인은 계산의 복잡서의 감소 때문이다. 직접적인 소리와 초기 반향의 처리는 예를 들어, 처리기(406)에 의해 시행된 컨볼루션 방법에 의해 오디오 신호에 각인될 수 있으며(도 6b 참조), 후기 잔향은 처리기(408)에 의해 제공된 합성 잔향에 의해 대체될 수 있다. 그 후 전체 바이너럴 출력 신호(404') 처리기(406)에 의해 제공된 컨볼루션 결과와 처리기(408)에 의해 제공된 합성 잔향의 조합이다.
처리는 종래의 참조 [1]에도 설명되어 있다. 상술된 설명된 방법의 결과는 완전 임펄스 응답의 결과와 개념적으로 가능한 한 동일해야 하며, 이는 도 6a에 관해서 설명된 풀-컨볼루션 방법이다. 그러나 오디오 신호, 혹은 더 포괄적으로 오디오 자료는 직접적인 소리와 임펄스 응답의 초기 반향 부분에 컨볼루션되고, 다른 결과의 채널들은 더해져 청취자의 한 귀의 재생신호(playback signal)과 연관된 전체 소리 신호를 형성한다. 그러나 잔향은 전체 신호에서 계산되지 않는 대신, 하나의 채널 혹은 오리지널 입력 오디오 신호의 다운믹스의 전체 잔향 신호로 계산된다. 따라서 본 발명의 발명자들에게 후기 잔향은 처리기(406)에 의해 제공된 컨볼루션 결과와 적합하게 맞지 않는다. 적합한 정도의 잔향은 입력 오디오 신호와 룸 임펄스 응답(300)에 모두 종속적이라는 것을 알아냈다. 임펄스 응답의 영향은 잔향 성질을 처리기(408)의 일부분일 수 있는 잔향의 입력 파라미터로 사용함으로써 얻어질 수 있으며, 이력 파라미터는 측정된 임펄스 응답의 분석으로 얻어지는데, 예를 들어 주파수-종속 잔향 시간 측정과 주파수-종속 에너지 측정이 있다. 이 측정들은 일반적으로 단일 임펄스 응답에 의해 결정되며, 예를 들어 옥타브 필터뱅크 분석(octave filterbank analysis)의 에너지와 RT60 잔향 시간을 계산함으로써 결정되거나 혹은 다중 임펄스 응답 분석의 평균값이다.
그러나 이러한 잔향에 제공된 입력 파라미터들에도 불구하고, 도 6b에 따라 합성 잔향 방법을 사용할 때, 입력 오디오 신호가 잔향에 주는 영향은 완전히 보존되지 않는다. 예를 들어, 합성 잔향 꼬리(synthetic reverberation tail)를 발생시킬 때 쓰이는 다운믹스 때문에, 입력 오디오 신호의 영향이 없어진다. 따라서 잔향의 결과적 단계는 풀-컨볼루션 방법의 결과와 개념적으로 일치하지 않으며, 특히 입력 신호가 다중 채널로 구성되었을 때 일치하지 않는다.
지금까지, 후기 잔향의 양과 풀-컨볼루션 방법의 결과를 비교하는 알려진 방법은 없었다. 후기 잔향의 음질이나 얼마나 자연스럽게 들리는지 평가를 시도하는 기술은 있다. 예를 들어, 한 방법에서는 자연 소리 잔향의 라우드니스 정도가 정의되는데, 이는 라우드니스 모델을 이용하여 얻어진 잔향의 라우드니스를 예측하는 것이다. Dl 방법은 종래 참조 [2]에서 설명되어있는데, 정도는 타겟값에 맞출 수 있다. 이 방법의 단점은 복자하고 정확하지 않은 사람의 청력에 의존한다는 것이다. 또 이는 풀-컨볼루션 결과를 이용하여 찾을 수 있는 후기 잔향에 스케일링 요소를 제공하기 위해 타겟 라우드니스(target loudness)가 필요하다.
종래 참조 [3]에서 설명된 또 다른 방법에서는 인공 잔향 음질에 교차 상관(cross correlation) 기준을 사용한다. 하지만 이는 서로 다른 잔향 알고리즘을 시험하는 것만 적합하며, 다중채널 오디오, 바이너럴 오디오, 그리고 후기 잔향의 스케일링을 검증하는 데는 적합하지 않다.
또 다른 가능한 방법은 고려되는 귀(considered ear)에서의 입력 채널의 수를 스케일링 요소로 사용하는 것인데, 하지만 이는 전체 소리 신호의 얻어진 진폭이 채널의 수 뿐 아니라 다른 오디오 채널의 상관에 종속적이기 때문에 지각적으로 올바른 스케일링을 주지 않는다.
따라서, 진보적인 방법에 따라 신호-종속적 스케일링 방법은 입력 오디오 신호에 따라 잔향의 레벨에 적응시키도록 제공된다. 상술되었듯이, 바이너럴 렌더링에 풀-컨볼루션 방법을 사용하였을 때, 얻어진 잔향의 레벨은 잔향의 레벨과 맞도록 요구되며, 적절한 잔향의 레벨의 측정의 결정은 좋은 소리 음질을 얻기 위해 중요하다. 실시예에 따라, 오디오 신호는 룸 응답 반응의 초기 부분과 후기 잔향과 따로 처리되며 후기 잔향의 처리는 스케일링 된 잔향 신호를 발생시키는 것 것으로 구성되고, 스케일링은 오디오 신호에 종속적이다. 오디오 신호의 처리된 초기 부분과 스케일링 된 잔향 신호는 출력 신호에서 조합된다. 하나의 실시예에 따라 스케일링은 오디오 신호의 하나 이상의 입력 채널에 종속적이다(예를 들어, 입력 채널의 수, 활성 입력 채널의 수, 및/또는 입력 채널의 활성도). 또 다른 실시예에 따라 스케일링은 오디오 신호의 사전정의되거나 계산된 상관 정도에 종속적이다. 대안 실시예는 하나 이상의 입력 채널의 조건과 사전정의되거나 계산된 상관 정도의 조합에 기반된 스케일링을 실행할 수 있다.
실시예에 따라 스케일링 된 잔향 신호는 오디오 신호의 하나 이상의 입력 채널들의 조건에 기반되거나 또는 사전정의되거나 계산된 상관 정도에 기반되거나, 또는 이들의 조합에 기반된 이득 인자를 적용함으로써 발생할 수 있다.
실시예에 따라 오디오 신호를 나누어 처리하는 것은 첫 번째 처리에서 오디오 신호를 룸 임펄스 응답(300)의 초기 반향 부분(301, 302)을 처리하는 것, 그리고 첫 번째 처리와는 다르고 분리된 두 번째 처리에서 오디오 신호를 룸 임펄스 응답(300)의 확산 잔향(디퓨즈 잔향, diffuse reverberation)(304)을 처리하는 것으로 구성된다. 첫 번째 처리에서 두 번째 처리로 바뀌는 것은 전이 시간(transition time)에서 일어난다. 추가 실시예에 따라, 두 번째 처리에서 확산(후기) 잔향(304)는 합성 잔향으로 대체될 수 있다. 이 경우 첫 번째 처리에 적용된 룸 임펄스 응답은 초기 반향 부분(300, 032)만 들어있으며(도 5 참조), 후기 확산 잔향(304)는 포함되어있지 않다.
진보적 방법의 다음의 실시예는 입력 오디오 신호의 상관 분석에 기반하여 이득 인자가 계산되는지에 따라 더 상세하게 설명될 것이다. 도 7은 바이너럴 렌더러처럼, 본 발명의 가르침에 따라 작동하는 신호 처리 유닛의 블록 다이어그램을 보여준다. 바이너럴 렌더러(500)은 처리기(502)를 포함하는 첫 번째 부분으로 구성되며, N 채널을 포함한 오디오 신호 x[k]를 입력(504)으로부터 받는다. 바이너럴 렌더러의 일부인 처리기(502)는 출력 신호(506) x conv [k] 를 발생시키기 위해 입력 신호(504)를 처리한다. 더 자세하게, 처리기(502)는 룸 임펄스 응답의 직접적인 소리 및 초기 반향과 오디오 입력 신호(504)의 컨볼루션을 일으키며, 이는 외부 데이터베이스(508)으로부터 복수의 녹음된 바이너럴 룸 임펄스 응답을 가지고 처리기(502)에 제공될 수 있다. 처리기(502)는 언급되었듯이, 데이터베이스(508)에 의해 제공된 바이너럴 룸 임펄스 응답에 기반하여 작동할 수 있고, 이는 두 개의 채널들만 가지는 출력 신호(502)를 산출한다. 출력 신호(506)은 처리기(502)로부터 가산기(510)에 제공된다. 잔향 처리기(514)와 다운믹서(516)을 포함하여 입력 신호(504)는 잔향 지점(512)에 추가적으로 제공된다. 다운믹스된 입력 신호는 잔향 파라미터를 기반으로 잔향 RT60 및 데이터베이스들(518, 520)에 저장된 잔향 에너지처럼 잔향(514)에 제공되며, 각각 두 개의 채널만을 포함할 수 잇는 잔향(514)의 출력에서 잔향 신호 r[k]를 발생시킨다. 데이터베이스(518, 502)에 저장된 파라미터는 도 7의 대시표시된 줄에 묘사된 것처럼 적절 분석(522)을 통해 저장된 바이너럴 룸 임펄스 응답으로부터 얻어질 수 있다.
잔향 지점(512)은 추가적으로 이력 신호(504)를 받고 이득 인자 g를 출력에서 발생시키는 상관 분석 처리기(524)를 포함한다. 추가적으로, 잔향(14)과 가산기(510) 사이에 연결된 이득단(526)이 제공된다. 이득단(526)은 이득 인자 g에 의해 제어되며, 이득단(526)의 출력에서 가산기(510)에 적용되는 스케일링 된 잔향 신호 r g [k] 를 발생시킨다. 가산기(510)은 처리된 초기 부분과 잔향 신호를 조합하여 마찬가지로 두 개의 채널을 포함하는 출력 신호 y[k]를 제공한다. 선택적으로, 잔향 지점(512)은 이득 인자를 여러 오디오 프레임에서 평활(다듬기, smoothing)을 위해 처리기(524)와 이득단 사이에 연결된 저역 통과 필터(528)를 구성할 수 있다. 선택적으로, 지연 소자(53) 역시 룸 임펄스 응답에서 스케일링 된 잔향 신호가 초기 반향과 잔향의 전이와 일치하도록 지연시키기 위해 이득단(526)의 출력과 가산기(510) 사이에 제공될 수 있다.
상술되었듯이, 도 7은 직접적인 소리와 초기 반향을 후기 잔향과 분리시켜 처리하는 바이너럴 렌더러의 블록 다이어그램이다. 보여지듯이, 직접적 소리와 초기 반향과 함께 처리되는 입력 신호 x[k] 는 신호 x conv [k]로 나타난다. 보여지듯이 이 신호는 잔향 신호 요소 r g [k]에 더해지도록 가산기(510)로 전송된다. 이 신호는 예를 들어 스테레오 다운믹스처럼 입력 신호 x[k]의 다운믹스를 잔향(514)에 제공하여 발생되며, 다운믹스의 잔향 신호 r[k]와 이득 인자 g를 받는 멀티플라이어 또는 이득단(526)이 뒤따른다. 이득 인자 g는 처리기(524)에 의해 행해지는 입력 신호 x[k]의 상관 분석에 의해 얻어지고, 상술되었듯이 저역 통과 필터(528)에 의해 시간에 따라 평활될 수 있다. 스케일링되거나 무게가 측정된 잔향 요소는 선택적으로 지연시키는 요소(530)에 의해 시작을 초기 반향으로부터 후기 잔향까지 전이점과 일치하도록 지연될 수 있으며, 이로서 가산기(510)의 출력인 출력 신호 y[k]가 얻어진다.
도 7에 묘사된 다중채널 바이너럴 렌더러는 합성 2-태널 후기 잔향과 상술된 종래의 방법의 단점들의 해결, 그리고 진보적인 발명에 따라 합성 후기 잔향이 이득 인자 g에 의해 스케일링 되어 풀-컨볼루션 방법의 결과의 지각(perception)에 맞도록 하는 것을 소개한다. 청취자의 귀에서의 다중 채널의 중첩(예를 들어 22.2 까지)는 상관-종속적이다. 이는 후기 잔향이 입력 신호 채널의 상관에 따라 스케일링 된 이유이며, 진보적인 방법의 실시예가 후기 잔향의 적합한 진폭을 결정해주는 상관-기반된 시간-종속적인 스케일링 방법을 제공하는 이유이다.
스케일링 인자를 계산할 때, 상관 계수에 기반된 상관 정도가 소개되며 실시예에 따라, 이는 예를 들어 QMF 도메인과 같은 이차원적 시간-주파수 대역 도메인에서 정의된다. -1과 1 사이의 상관값은 각 다중-차원 오디오 프레임마다 계산되며, 각 오디오 프레임은 주파수 대역들의 수 N, 프레임 당 시간 슬롯들의 수 M, 그리고 오디오 채널들의 수 A에 의해 정의된다. 귀 당 프레임 당 하나의 스케일링 인자가 얻어진다.
후기에는, 진보적인 방법의 실시예가 더 자세하게 설명될 것이다. 첫번째로, 도 7의 상관 분석 처리기(524)에 사용된 모든 상관 정도를 참고한다. 상관 정도는, 실시예에 따라, 두 변수 X, Y의 공분산을 이들의 표준 편차의 곱으로 나누는 것으로 계산되는 피어슨의 적률상관계수(Pearson's Product Moment Coefficient)(상관 계수로도 알려짐)에 기반한다:
Figure 112016015217265-pct00016
이 때,
Figure 112016015217265-pct00017
= 예상된 값 연산자.
Figure 112016015217265-pct00018
= 상관 계수,
Figure 112016015217265-pct00019
= 변수 X , Y 의 표준 편차
이다.
설명된 실시예에 따른 처리는 예를 들어 QMF-도메인과 같은 시간-주파수 도메인의 두 차원들로 이송(transfer)된다. 이 두 차원들은 시간 슬롯들과 QMF 대역들이다. 이 방법은 시간-주파수 도메인에서 데이터가 자주 인코딩되고 전송되기 때문에 합리적이다. 예상 연산자(expectation operator)는 (0,1)의 범위에 있는 두 제로-평균 변수 x m , x n 사이에서 시간-주파수 상관 정도가 다음과 같이 정의되도록 여러 시간 및/또는 주파수 샘플들에 걸쳐 평균 연산자로 대체한다:
Figure 112016015217265-pct00020
이 때,
Figure 112016015217265-pct00021
= 상관 계수,
Figure 112016015217265-pct00022
= 채널 m의 하나의 시간슬롯 j에 대한 표준편차,
Figure 112016015217265-pct00023
= 채널 n의 하나의 시간슬롯 j에 대한 표준편차,
Figure 112016015217265-pct00024
= 제로-평균 변수들,
Figure 112016015217265-pct00025
= 주파수 대역들,
Figure 112016015217265-pct00026
= 시간 슬롯들,
Figure 112016015217265-pct00027
= 채널들,
* = 켤레 복소수(complex conjugate),
이다.
한 오디오 프레임의 복수의 채널 조합들 (m,n)에 대한 계수의 계산이 끝난 후, ρ[m,n,t i ]의 값들은 복수의 상관 값 ρ[m,n,t i ]의 평균을 통해(혹은 평균을 내며) 단일상관 정도 ρ m (t i )에 조합된다. 오디오 프레임은 32 QMF 시간 슬롯을 구성할 수 있으며, ti는 각각의 오디오 프레임을 나타낸다. 하나의 오디오 프레임에 대한 위의 처리는 다음과 같이 요약된다:
(i) 먼저, 크기 [N,M,K] 를 가지는 오디오 혹은 데이터 프레임 x 에 대한 모든 k 채널들의 전체적인 평균값
Figure 112016015217265-pct00028
가 계산되며, 실시예에 따라 모든 k 채널들이 잔향의 하나의 입력 채널로 다운믹스된다.
(ii) 제로 평균 오디오 또는 데이터 프레임은 상관 채널들로부터
Figure 112016015217265-pct00029
값을 빼서 계산된다.
(iii) 복수의 채널 조합 (m,n)에 정의된 상관 계수 또는 상관 값 c가 계산된다.
(iv) 평균 상관 값 c m 은 복수의 상관 값 ρ[m,n] 의 평균으로 계산된다.
상술된 실시예에 따라 스케일링은 오디오 신호의 계산된 상관 정도에 기반하여 결정된다. 이는 예를 들어 현재 처리된 오디오 신호를 위해 상관 정도를 개별적으로 얻어야 할 때처럼, 추가적인 계산 추가적인 계산적 자료가 필요함에도 유리하다.
하지만 본 발명은 이러한 방법에 제한되지 않는다. 다른 실시예에 따라, 상관 정도를 계산하는 대신, 사전정의된 상관 정도가 사용될 수 잇다. 사전정의된 상관 정도의 사용은 처리에서 계산적인 복잡함을 줄여주기에 유리하다. 사정정의된 상관 정도는 예를 들어 0.1부터 0.9까지 고정값을 가질 수 있으며, 이는 복수의 오디오 신호들의 분석에 기초하여 경험적으로 결정될 수 있다. 이러한 경우는 상관 분석(54)는 생략될 수 있고, 이득단의 이득이 적절한 제어 신호에 의해 설정될 수 있다.
다른 실시예에 따라 스케일링은 오디오 신호의 하나 이상의 입력 채널의 조건(예를 들어 입력 채널의 수, 활성 입력 채널의 수, 및/또는 입력 채널의 활성도)에 종속적일 수 있다. 이는 스켕일링이 입력 오디오 신호로부터 감소된 전체 계산으로 쉽게 결정되기 때문에 유리하다. 예를 들어 스케일링은 오리지널 오디오 신호와 비교됐을 때, 축소된 채널들의 수를 포함한 현재 단순 다운믹스된 것으로 판단되는 채널로 다운믹스 된 오리지널 오디오 신호의 채널들의 수를 결정함으로써 결정될 수 잇다. 반면에, 현재 다운믹스 채널로 다운믹스된 활성 채널들의 수(현재 오디오 프레임에서 일부 화성을 보이는 채널들)은 잔향 신호의 스케일링의 기초를 형성할 수 있으며, 이는 블록(524)에서 행해질 수 있다.
후기에서, 상관 정도(고정되거나 상술되었듯이 계산된)에 기초한 오디오 채널들의 하나 이상의 입력 신호를 기초로 한 잔향 신호의 스케일링을 결정하는 실시예는 자세히 설명될 것이다. 실시예에 따라, 이득 인자 또는 이득, 또는 스케일링 인자 g 는 다음과 같이 정의한다:
Figure 112016015217265-pct00030
Figure 112016015217265-pct00031
Figure 112016015217265-pct00032
이 때,
Figure 112016015217265-pct00033
= 오디오 신호의 미리 정의되거나 계산된 상관 정도
c u, c c = 하나 이상의 오디오 신호 입력 채널의 조건을 나타내는 인수, c u 는 상관도가 전혀 없는 채널을 의미하고, c c 는 완전히 상관된 채널을 의미한다.
K in = 활성 혹은 고정된 다운믹스 채널의 수
다운믹스된 채널들이 완전히 상관되지 않았다면(채널간의 종속이 없다면) cu가 적용되는 인자이다. 하나 이상의 입력 채널들의 조건들만 사용하는 경우에 g= cu이고 사전정의된 고정 상관 계수는 0으로 고정된다. cc는 다운믹스된 채널들이 완전히 상관(신호들은 서로의 가중된 버젼(위상-이동과 오프셋(offset)까지 추가)이다)되었을 때 적용되는 인자이다. 하나 이상의 입력 채널들만 사용하는 경우 g= cc 이고 사전정의된 고정 상관 계수는 하나로 고정된다. 이 인자들은 ((활성)채널들의 수에 종속적인) 오디오 프레임의 후기 잔향의 최소와 최대 스케일링을 설명해준다.
실시예에 따라 “채널 수” K in 은 다음과 같이 정의: 다중채널 오디오 신호는 어느 다운믹스 채널에 어느 입력 채널들이 포함되는지 정의해주는 다운믹스 행렬 Q(M×2 의 크기를 가지며 이 때, M은 예를 들어 5.1 설정의 6개의 채널들과 같은 오디오 입력 자료(audio input material)의 입력 채널들의 수)를 이용해 스테레오 다운믹스로 다운믹스된다.
후기는 다운믹스 행렬 Q의 예시는 다음과 같을 수 있다:
Figure 112016015217265-pct00034
각각 두 개의 다운믹스 채널들에서 스케일링 계수는 다음과 같이 계산된다:
Figure 112016015217265-pct00035
Figure 112016015217265-pct00036
K in 채널 조합들의 수의 모든 상관 계수의 평균값이고, K in 채널 조합들 [m,n] 그리고
Figure 112016015217265-pct00037
는 채널 수
Figure 112016015217265-pct00038
에 종속적이며, 다음과 같다:
● Kin은 현재 다운믹스된 것으로 추정되는 채널 k ∈[1,2](다운믹스 행렬 Q의 열 k에서 0이 아닌 값을 가지는 행의 수)로 다운믹스된 채널들의 수 일 수 있다. 이 수는 다운믹스 행렬 Q가 하나의 입력 채널 구성에 사전정의되고 하나의 오디오 입력 신호의 길이에 따라 변하지 않기 때문에 시불변적(time-invariant)이다.
예를 들어 5.1 입력 신호들을 고려할 때 다음이 적용된다:
○ 채널 1, 3, 4들은 다운믹스 채널 1로 다운믹스되며(위의 행렬 Q 참조),
○ 모든 프레임에서 Kin= 3 (3개의 채널들)
● Kin은 현재 다운믹스된 것으로 추정되는 채널 k ∈[1,2](현재 오디오 프레임에 활성을 가지고 있고 다운믹스 행렬 Q의 열 k에서 0이 아닌 값을 가지는 행의 입력 채널 → Q의 열 k의 동일하지 않은 요소와 활성 채널들의 교점에 있는 채널들의 수)로 다운믹스된 활성 채널들의 수 일 수 있다. 이 수는 Q가 변하지 않더라도, 하나의 오디오 입력 신호의 길이에 따라 시변적(time-variant)일 수 있으며, 신호활성은 시간에 따라 변할 수 있다.
예를 들어 5.1 입력 신호를 고려할 때 다음이 적용된다:
● 채널 1, 3, 4들은 다운믹스 채널 1로 다운믹스되며(위의 행렬 Q 참조),
● 프레임 n에서:
○ 활성 채널들은 채널 1, 2, 4들이며,
○ 은 교점{1,4}에 있는 채널들의 수이며,
○ Kin(n)=2이다.
● 프레임 n+1에서:
○ 활성 채널들은 채널 1, 2, 3, 4들이며,
○ Kin은 교점 {1, 3, 4}에 있는 채널들의 수이고,
○ Kin(n+1)=3 이다.
오디오 채널(사전정의된 프레임에서의)은 사전정의된 프레임에서 사전 설정된(preset) 역치값을 넘는 진폭 또는 에너지를 가지면 활성된 것으로 여겨질 수 있으며, 예를 들어 실시예에 따라 오디오 채널(사전정의된 프레임에서)의 활성은 다음과 같이 결정된다:
● 프레임에서 (시간 도메인, QMF 도메인 등에서의) 신호의 절대 진폭의 합 혹은 최대값이 0보다 크거나 또는,
● 프레임에서 신호 에너지(시간 도메인이나 QMF 도메인에서의 진폭의 제곱된 절대값)의 합 또는 최대값이 0보다 큰 경우.
0 대신 0보다 큰 다른 역치값(최대 에너지 혹은 진폭과 관련된)이 사용될 수 있으며, 예를 들어 0.01의 역치값이 사용될 수 있다.
실시예에 따라, 다운믹스 채널에서 각 귀에서의 이득 인자는 포함된 채널들(0이 아닌 다운믹스 행렬)의 활성(시변적인) 혹은 고정된 수
Figure 112016015217265-pct00039
에 종속적으로 제공된다. 인자는 완전히 상관되지 않은 경우에서 완전히 상관된 경우로 선형적으로 증가하는 것으로 추측된다. 완전히 상관되지 않은 경우는 채널간의 종속(inter-channel dependencies)가 없다는 것(상관값이 0)이고, 완전히 상관된 경우는 신호들이 서로의 가중된 버전(오프셋의 위상 차이, 상관값이 1)라는 것이다.
상술되었듯이, 이득 인자 혹은 스케일링 인자 g는 저역 통과 필터(52)에 의해 오디오 프레임을 거쳐 평활될 수 있다. 저역 통과 필터(528)은 프레임 크기 k에 따른 평활된 이득 인자 g S (t)의 결과인 시간 상수 ts를 다음과 같이 가질 수 있다:
Figure 112016015217265-pct00040
Figure 112016015217265-pct00041
Figure 112016015217265-pct00042
여기서,
t s = 저역 필터의 시간 상수,
t i = 프레임 ti 에서의 오디오 프레임,
g s = 수정된 이득 인자,
k = 프레임 크기, 그리고
f s = [Hz] 단위의 샘플링 주파수이다.
프레임 크기 k는, 예를 들어 2048 샘플들 같이, 시간 도메인 샘플들에서의 오디오 프레임의 크기일 수 있다.
오디오 프레임 x(t i )의 좌 채널 잔향 신호는 인자 g s,left (t i )에 의해 스케일링 되고, 우 채널 잔향 신호는 인자 g s,right (t i )에 의해 스케일링 된다. 스케일링 인자는 스테레오 다운믹스의 좌채널에 존재하는 (활성인 0이 아닌 또는 총 개수의) 채널들의 수인
Figure 112016015217265-pct00043
과 한 번 계산되며, 채널들의 수는 잔향에 넣어져 스케일링 인자 g s , left (t i )가 된다. 그리고 스케일링 인자는 스테레오 다운믹스의 좌채널에 존재하는 (활성인 0이 아닌 또는 총 개수의) 채널들의 수인
Figure 112016015217265-pct00044
과 한 번 더 계산되며, 채널들의 수는 잔향에 넣어져 스케일링 인자 g s , right (t i )가 된다. 잔향은 오디오 프레임의 스테레오 잔향 버전을 돌려준다(gives back). 잔향 버전의 좌채널(또는 잔향의 입력의 좌채널)은 g s , left (t i )로 스케일링 되어 있고, 잔향 버전의 우채널(또는 잔향의 입력의 우채널)은 g s , right (t i )으로 스케일링 되어 있다.
스케일링 된 인공(합성) 후기 잔향은 직접적인 소리와 초기 반향과 처리된 신호(506)에 더해지기 위해 가산기(510)에 적용된다.
상술되었듯이, 진보적인 방법은 실시예에 따라 오디오 신호의 바이너럴 처리를 위해 바이너럴 처리기에 사용될 수 있다. 다음은 오디오 신호의 바이너럴 처리의 실시예가 설명될 것이다. 바이너럴 처리는 디코딩 된 신호를 헤드폰으로 들었을 때 서라운드 사운드 경험(surround sound experience)을 제공하는 바이너럴 다운믹스 신호로 변환하는 디코더 처리에 의해 실행될 수 있다.
도 9는 본 발명의 실시예에 따라 오디오 신호를 처리하는 바이너럴 처리를 위한 바이너럴 렌더러(800)의 도식적인 표현을 보여준다. 도 8은 바이너럴 렌더러에서 QMF 도메인 처리의 개요도 제공한다. 입력(802)에서 바이너럴 렌더러(800)은 처리될 오디오 신호를 수신하며, 예를 들어 N 채널들과 64 QMF 대역을 포함하는 입력 신호를 수신한다. 추가로 바이너럴 렌더러(800)은 오디오 신호의 처리를 제어하기 위해 여러 입력 파라미터들을 수신한다. 입력 파라미터들은 2xN 채널들과 64 QMF 대역들을 위해 바이너럴 룸 임펄스 응답(BRIR: binaural room impulse response)(804), BRIR들의 후기 반향 부분과의 오디오 입력 신호의 컨볼루션에 사용되는 최대 대역의 표시(indication) Kmax(806), 그리고 상술된 잔향 파라미터(808, 810)(RT60 그리고 잔향 에너지)를 포함한다. 바이너럴 렌더러(800)는 수신된 BRIR(804)의 초기 부분과 입력 오디오 신호(802)의 처리를 위한 고속 컨볼루션 처리기(12)로 구성된다. 처리기(812)는 두 개의 채널들과 Kmax QMF 대역들을 포함하는 초기 처리된 신호(814)를 출력에서 발생한다. 바이너럴 렌더러(800)은 고속 컨볼루션 처리기(812)를 가지는 초기 처리 지점 외에도, 각각 RT60 정보(808)와 잔향 에너지 정보(810)를 수신하는 두 개의 잔향(816a, 816b)을 포함하는 잔향 지점으로 구성된다. 잔향 지점은 추가로 스테레오 다운믹스 처리기(818)와 상관 분석 처리기(820)를 포함하며, 둘 다 입력 오디오 신호(802)를 수신한다. 추가로, 두 개의 이득단(821a, 821b)는 다운믹스 된 신호(822)의 이득을 제어하기 위해 스테레오 다운믹스 처리기(81)과 개별 잔향(816a, 816b) 사이에 제공되며, 이는 스테레오 다운믹스 처리기(818)에 의해 제공된다. 스테레오 다운믹스 처리기(818)는 입력 신호(802)를 기반으로 두 개의 대역들과 64 QMF 대역들을 가지는 다운믹스된 신호(822)를 제공한다. 이득단들(821a, 821b)의 이득은 상관 분석 처리기(820)에 의해 제공된 각각의 제어 신호들(824a, 824b)에 의해 제어된다. 이득 제어되고 다운믹스된 신호는 각각의 잔향기들(816a, 816b)에 입력되어 각각의 잔향 신호들(826a, 826b)을 발생시킨다. 초기 처리된 신호(814)와 잔향 신호들(826a, 826b)은 수신된 신호들을 두 개의 채널들과 64 QMF 대역들을 출력 오디오 신호(830)으로 조합하는 믹서(828)에 의해 수신된다.
추가로, 본 발명에 따라, 고속 컨볼루션 처리기(82)와 잔향기들(816a, 816b)은 초기 부분부터 후기 잔향까지 룸 임펄스 응답(804)에서의 전이를 나타내는 추가적인 입력 파라미터(832)를 수신한다.
바이너럴 렌더러 모듈(800)(예를 들어, 도 2 또는 도 4의 바이너럴 렌더러(236))는 디코딩 된 데이터 스트림을 입력(802)으로 가진다. 신호는 ISO/IEC 14496-3:2009, 하위 조항 8.6.4.2.에 수정이 명시되어있고 ISO/IEC 14496-3:2009, 하위 조항 4.B.18.2에 아웃라인된 QMF 분석 필터뱅크(QMF analysis filterbank)에 의해 처리된다. 렌더러 모듈(800)은 QMF 도메인 입력 데이터도 처리할 수 있으며; 이 경우 분석 필터뱅크는 생략될 수 있다. 바이너럴 룸 임펄스 응답들(BRIRs)(804)는 복소 QMF 도메인 필터들(complex QMF domain filters)에 의해 표현된다. 시간 도메인 바이너럴 룸 임펄스 응답으로부터 복소 QMF 필터 표현으로의 변환은 ISO/IEC FDIS 23003-1:2006, 주 B에 아웃라인되어있다. BRIR들(804)은 복소 QMF 도메인에서의 일정 수의 시간 슬롯들에 제한되어있으며, 이들은 초기 반향 부분(301, 302)(도 5 참조)만 포함하고 후기 확산 잔향(304)은 포함되지 않는다. 초기 반향으로부터 후기 잔향으로의 전이점(832)은 예를 들어, 바이너럴 처리의 전처리 단계에서 BRIR들(804)의 분석에 의해 상술된것처럼 결정된다. 그 후 QMF 도메인 오디오 신호(02)와 QMF 도메인 BRIR들(804)은 바이너럴 처리를 실행하기 위해 밴드별 고속 컨볼루션(812)에 의해 처리된다. QMF 도메인 잔향(816a, 816b)은 2-채널 QMF 도메인 후기 잔향(826a, 826b)를 생성하는데 이용된다. 잔향 모듈(816a, 816b)은 잔향의 성질들에 적응시키기 위해 한 세트의 주파수-종속 잔향 시간들(808)과 에너지 값(energy values)(810)을 사용한다. 잔향의 파형은 다중-채널 오디오 신호802)의 상관 분석(820)에 종속적으로 오디오 입력 신호(802)의 스테레오 다운믹스(818)에 기반하며 이는 진폭에 적응되어 스케일링 된다(821a, 821b). 그 후 2-채널 QMF 도메인 컨볼루션 결과(814)와 2-채널 QMF 도메인 잔향(816a, 816b)는 조합되며(828) 최종적으로, ISO/IEC 14496-3:2009, 하위 조항 4.6.18.4.2.에 아웃라인된 것 처럼 두 QMF 합성 필터뱅크들이 바이너럴 시간 도메인 출력 신호들(830)을 계산한다. 렌더러 역시 QMF 도메인 출력 데이터를 제작할 수 있으며; 이 경우 합성 필터뱅크는 생략된다.
정의
바이너럴 렌더러 모듈(800)에 넣어지는 오디오 신호들(802)을 다음에서 입력 신호들이라 칭한다. 바이너럴 처리의 결과인 오디오 신호들(830)를 이제 출력 신호들이라 칭한다. 바이너럴 렌더러 모듈(800)의 입력 신호들(802)은 코어 디코더의 오디오 출력 신호들이다(예를 들어, 도 2의 신호 228 참조). 다음의 변수 정의들이 사용되었다:

Figure 112016015217265-pct00045

입력 채널들의 수

Figure 112016015217265-pct00046

출력 채널들의 수,
Figure 112016015217265-pct00047
= 2

Figure 112016015217265-pct00048

실수값의 음수가 아닌 다운믹스 계수 (다운믹스 이득)를 가지는 다운믹스 행렬.
Figure 112016015217265-pct00049
Figure 112016015217265-pct00050
의 차원을 가진다.

Figure 112016015217265-pct00051

시간 도메인 오디오 샘플들로 측정된 프레임 길이
v 시간 도메인 샘플 인덱스

Figure 112016015217265-pct00052

QMF 시간 슬롯 인덱스(부분대역 샘플 인덱스)

Figure 112016015217265-pct00053

QMF 시간 슬롯으로 측정된 프레임 길이

Figure 112016015217265-pct00054

프레임 인덱스(프레임 수)

Figure 112016015217265-pct00055

QMF 주파수 대역들의 수,
Figure 112016015217265-pct00056
= 64

Figure 112016015217265-pct00057

QMF 대역 인덱스 (1...64)

Figure 112016015217265-pct00058

채널 인덱스들(채널 구성들의 채널 수들)

Figure 112016015217265-pct00059

시간 도메인 샘플들에서의 BRIR의 초기 반사 부분의 길이

Figure 112016015217265-pct00060

QMF 시간 슬롯에서의 VRIR의 초기 반사 부분의 길이

Figure 112016015217265-pct00061

BRIR 데이터 세트에서의 BRIR 쌍의 수

Figure 112016015217265-pct00062

FFT 전환의 길이

Figure 112016015217265-pct00063

복소 값 신호의 실수 부분

Figure 112016015217265-pct00064

복소 값 신호의 허수 부분

Figure 112016015217265-pct00065

어떤 입력 신호 채널이 BRIR 데이터 세트에서 어느 BRIR 쌍에 속해있는지 신호해주는 벡터

Figure 112016015217265-pct00066

바이너럴 처리에 사용된 최대 주파수

Figure 112016015217265-pct00067

디코더의 오디오 출력 신호에 존재하는 최대 신호 주파수

Figure 112016015217265-pct00068

BRIR들의 초기 반사 부분과 오디오 입력 신호의 컨볼루션을 위해 사용되는 최대 대역

Figure 112016015217265-pct00069

다운믹스 행렬 계수

Figure 112016015217265-pct00070

밴드별 에너지 평준화 인자

Figure 112016015217265-pct00071

수치 상수,
Figure 112016015217265-pct00072


Figure 112016015217265-pct00073

QMF 도메인 시간 슬롯에서의 지연

Figure 112016015217265-pct00074

주파수 대역 k에서 슈도-FFT(pseudo-FFT) 도메인 신호 표현

Figure 112016015217265-pct00075

슈도-FFT 주파수 인덱스

Figure 112016015217265-pct00076

주파수 대역 k에서 BRIR의 슈도-FFT 도메인 신호 표현

Figure 112016015217265-pct00077

주파수 대역 k에서 슈도-FFT 도메인 컨볼루션 결과

Figure 112016015217265-pct00078

중간 신호: QMF 도메인에서 2-채널 컨볼루션 결과

Figure 112016015217265-pct00079

중간 신호: QMF 도메인에서 2-채널 반향

Figure 112016015217265-pct00080

(잔향기에 사용되는)분석 주파수 대역들의 수

Figure 112016015217265-pct00081

분석 주파수 대역들의 중심 주파수들

Figure 112016015217265-pct00082

스테레오 다운믹스의 한 채널로 다운믹스 되고 실제 신호 프레임에서 활성을 띄는 채널들의 수

Figure 112016015217265-pct00083

하나의 신호 프레임에 대한 전반적 상관 계수

Figure 112016015217265-pct00084

채널들
Figure 112016015217265-pct00085
의 조합에 대한 상관 계수

Figure 112016015217265-pct00086

신호
Figure 112016015217265-pct00087
의 시간 슬롯
Figure 112016015217265-pct00088
의 표준 편차

Figure 112016015217265-pct00089

두 스케일링 인자의 벡터

Figure 112016015217265-pct00090

시간에 따라 평활된(다듬어진, smoothed), 두 스케일링 인자의 벡터
처리
입력 신호의 처리가 이제 설명된다. 바이너럴 렌더러 모듈은 입력 오디오 신호들의 인접한, 겹치지 않는 길이 L = 2048 시간 도메인 샘플들에서 작동하며 그리고 처리된 길이 L의 입력 프레임당 L 샘플들의 하나의 프레임을 출력한다.
(1) 시작과 전처리
바이너럴 처리 블록의 시작은 코어 디코더(예를 들어 도 2의 디코더 200을 참조)에 의해 오디오 샘플들이 전달되어 처리 이전에 실행된다. 시작은 여러 처리 과정을 포함한다.
(a) 분석 값의 판독
잔향 모듈(816a, 816b)는 주파수-종속 잔향 시간의 세트(808)와 에너지 값(810)을 입력 파라미터로 갖는다. 이 값들은 바이너럴 처리 모듈(800)의 시작에서의 인터페이스로부터 판독된다. 추가로 시간 도메인 샘플들에서 초기 반향으로부터 후기 잔향까지의 전이 시간(832)가 판독된다. 값들은 샘플, 플롯 값(float value), 리틀-엔디안 배치법당 32비트로 쓰여진 이진법 파일에 저장된다. 처리에 필요한 판독된 값들은 아래 테이블에 나와있다.
값 설명 데이터형
전이 길이
Figure 112016015217265-pct00091
1 정수
주파수 대역들의 수
Figure 112016015217265-pct00092
1 정수
주파수 대역들
Figure 112016015217265-pct00093
의 중심 주파수들

Figure 112016015217265-pct00094

플롯
초로 나타낸 잔향 시간 RT60
Figure 112016015217265-pct00095

플롯
하나의 BRIR의 후기 잔향 부분의 에너지를 표현하는 에너지 값(2의 거듭제곱의 진폭)
Figure 112016015217265-pct00096

플롯
(b) BRIR의 판독과 전처리
바이너럴 룸 임펄스 응답(804)은 각각 좌측 그리고 우측 귀 BRIR들을 저장하는 두 전용 파일로부터 판독된다. BRIR들의 시간 도메인 샘플들은 샘플 당 24비트의 해상도와 32 채널들을 가진 정수 파동-파일로 저장된다. 파일 내의 BRIR들의 배치법은 다음 표에 명시된 바와 같다.
채널 수 스피커 레이블
1 CH_M_L045
2 CH_M_R045
3 CH_M_000
4 CH_LFE1
5 CH_M_L135
6 CH_M_R135
7 CH_M_L030
8 CH_M_R030
9 CH_M_180
10 CH_LFE2
11 CH_M_L090
12 CH_M_R090
13 CH_U_L045
14 CH_U_R045
15 CH_U_000
16 CH_T_000
17 CH_U_L135
18 CH_U_R135
19 CH_U_L090
20 CH_U_R090
21 CH_U_180
22 CH_L_000
23 CH_L_L045
24 CH_L_R045
25 CH_M_L060
26 CH_M_R060
27 CH_M_L110
28 CH_M_R110
29 CH_U_L030
30 CH_U_R030
31 CH_U_L110
32 CH_U_R110
라우드스피커 배치들 중 어느 하나에서 BRIR가 측정되지 않았다면, 파동 파일의 해당하는 채널은 제로-값을 가진다. LFE 채널들은 바이너럴 처리에 사용되지 않는다.
전처리 단계로, 바이너럴 룸 임펄스 응답들(BRIRs)의 주어진 세트는 시간 도메인 필터들에서 복소 값 QMF 도메인 필터들(complex-valued QMF domain filers)로 변환된다. 복소 값 QMF 도메인에서 주어진 시간 도메인 필터들의 구현은 ISO/IEC FDIS 23003-1:2006, 하위 조항 B에 의해 실행된다. 필터 변환의 프로토타입 필터 계수는 ISO/IEC FDIS 23003-1:2006, 하위 조항 B, 표 B.1에 따라 사용된다.
Figure 112016015217265-pct00097
에서 시간 도메인 표현
Figure 112016015217265-pct00098
Figure 112016015217265-pct00099
에서 복소 값 QMF 도메인 필터
Figure 112016015217265-pct00100
를 얻기 위해 처리된다.
(2) 오디오 신호 처리
바이너럴 렌더러 모듈(800)의 오디오 처리 블록은 코어 디코더로부터 N­in입력 채널들에 대한 시간 도메인 오디오 샘플들(802)을 얻고 Nout=2로 구성된 바이너럴 출력 신호(830)을 발생시킨다.
상기 처리는 입력으로 다음을 받는다
● 코어 디코더로부터 디코딩된 오디오 데이터(802),
● BRIR 세트(804)의 초기 반사 부분의 복소 QMF 도메인 표현, 그리고
● 후기 잔향(826a, 926b)를 발생하기 위해 QMF 도메인 잔향기(816a, 816b)에 의해 사용되는 주파수-종속 파라미터 세트(808, 810, 832)
(a) 오디오 신호의 QMF 분석
첫 번째 처리 단계로, 바이너럴 렌더러 모듈을 (코어 디코더로부터 오는)N­in-채널 시간 도메인 입력 신호의 L=2048 시간 도메인 샘플들
Figure 112016015217265-pct00101
Figure 112016015217265-pct00102
= 32 QMF 시간 슬롯들(슬롯 인덱스 n)의 차원과
Figure 112016015217265-pct00103
=64주파수 대역들(대역 인덱스 k)의 N­in-채널 QMF 도메인 신호 표현(802)로 변환한다.
ISO/IEC 14496-3:2009, subclause 8.6.4.2.에 명시된 수정들과 함께 ISO/IEC 14496-3:2009, subclause 4.B.18.2에 아웃라인된 QMF 분석은
Figure 112016015217265-pct00104
Figure 112016015217265-pct00105
에서 QMF 도메인 신호
Figure 112016015217265-pct00106
의 프레임을 얻기 위해 시간 도메인 신호
Figure 112016015217265-pct00107
의 프레임에서 시행된다.
(b) QMF 도메인 오디오 신호와 QMF 도메인 BRIR들에서 고속 컨볼루션
다음으로, 밴드별 고속 컨볼루션(812)는 QMF 도메인 오디오 신호(802)와 QMf 도메인 BRIR들(804)를 처리하기 위해 실행된다. FFT 분석은 입력 신호(802)의 각 채널과 각 BRIR(804)에 대한 각 QMF 주파수 대역 k에 대해 실행될 수 있다.
QMF 도메인의 복소값 때문에 하나의 FFT 분석은 QMF 도메인 신호 표현의 실수 부분에서 실행되며 하나의 FFT 분석은 QMF 도메인 신호 표현의 허수 부분에서 실행된다. 최종 밴드별 복소 값 슈도-FFT 도메인 신호를 형성하기 위해 결과들이 조합된다.
Figure 112016015217265-pct00108
그리고 밴드별 복소 BRIR들
왼쪽 귀를 위한
Figure 112016015217265-pct00109
오른쪽 귀를 위한
Figure 112016015217265-pct00110
FFT 변환의 길이는 복소 QMF 도메인 BRIR 필터들
Figure 112016015217265-pct00111
의 길이와 QMF 도메인 시간 슬롯
Figure 112016015217265-pct00112
의 프레임 길이에 따라 결정되며,
Figure 112016015217265-pct00113
이다.
복소 값 슈도-FFT 도메인 신호들은 복소 값 슈도-FFT 도메인 BRIR 필터들과 곱해져서 고속 컨볼루션 결과를 형성한다. 입력 신호의 신호가 BRIR 데이터 세트에서 어느 BRIR 쌍에 부합하는지 표하기 위해 벡터
Figure 112016015217265-pct00114
가 사용된다.
Figure 112016015217265-pct00115
에서의 모든 QMF 주파수 대역들에 대해 밴드별로 곱셈이 이루어진다. 최대 대역
Figure 112016015217265-pct00116
은 코어 디코더의 오디오 신호에 존재하는 18kHz의 주파수나 혹은 최대 신호 주파수를 표현하는 QMF 대역에 의해 결정된다.
Figure 112016015217265-pct00117
이 곱은
Figure 112016015217265-pct00118
에서 QMF 주파수 대역 k에서 각 BRIR쌍과 각 오디오 입력 채널이 합해진 결과이며, 중간 2-채널
Figure 112016015217265-pct00119
-대역 슈도-FFT 도메인 신호로 나타난다.
Figure 112016015217265-pct00120
Figure 112016015217265-pct00121
은 QMF 도메인 주파수 대역 k에서의 가상-FFT 컨볼루션 결과
Figure 112016015217265-pct00122
이다.
다음으로, 대역별 FFT 합성은 컨볼루션 결과를 QMF 도메인으로 변환시키기 위해 실행되며
Figure 112016015217265-pct00123
Figure 112016015217265-pct00124
에서
Figure 112016015217265-pct00125
시간 슬롯들
Figure 112016015217265-pct00126
과 중간 2-채널
Figure 112016015217265-pct00127
-대역 QMF 도메인 신호로 나타난다.
L=32 시간슬롯들을 가지는 각 QMF 도메인 입력 신호 프레임마다 L=32 시간슬롯들을 가지는 컨볼루션 결과 신호 프레임이 복귀된다. 남은
Figure 112016015217265-pct00128
타임슬롯들은 저장되고 겹치기-가산 처리가 다음 프레임(들)에서 실행된다.
(c) 후기 잔향의 발생
두 번째 중간 신호(826a, 826b)로서
Figure 112016015217265-pct00129
라 불리는 잔향 신호는 주파수 도메인 잔향기 모듈(816a, 816b)에 의해 발생된다. 주파수 도메인 잔향기(816a, 816b)는 입력신호로
● 입력 신호의 하나의 프레임의 QMF 도메인 스테레오 다운믹스(822)
● 주파수-종속 잔향 시간들(808)과 에너지 값(810)을 포함하는 파라미터 세트
주파수 도메인 잔향기(816a, 816b)는 2-채널 QMF 도메인 후기 잔향 꼬리(tail)를 복귀시킨다.
주파수-종속 파라미터 세트의 최대로 사용된 대역 수는 최대 주파수에 종속적으로 계산된다.
첫 번째, 하나의 입력 신호
Figure 112016015217265-pct00130
의 QMF 도메인 스테레오 다운믹스(818)는 입력 신호 채널들의 가중된 합에 의해 잔향기의 이력을 형성하기 위해 실행된다. 가중 이득은 다운믹스 행렬
Figure 112016015217265-pct00131
에 포함되어 있다. 이들은 실수값이며 음수가 아니고, 다운믹스 행렬은
Figure 112016015217265-pct00132
차원이다. 이는 0이 아닌 값을 포함하며 입력 신호의 채널이 두 출력 채널들 중 하나로 매핑(mapped)되어있다.
좌반구의 라우드스피커 배치를 표현하는 채널들은 좌측 출력 채널로 맵되어있으며 우반구에 위치한 라우드스피커를 표현하는 채널들은 우측 출력 채널로 매핑되어있다. 이 채널들의 신호들은 계수 1에 의해 가중된다. 중앙 평면의 라우드스피커를 표현하는 채널들은 바이너럴 신호의 두 출력 채널들로 모두 맵되어있다. 이 채널들의 입력 신호들은 계수에 의해 가중된다.
Figure 112016015217265-pct00133
추가로, 에너지 평준화 단계는 다운믹스에서 실행된다. 이는 하나의 다운믹스 채널의 밴드별 에너지를 이 다운믹스 채널에 포함된 입력 신호 채널들의 밴드별 에너지의 합과 같게 되도록 적응시킨다. 이 에너지 평준화는 실수 계수와 밴드별 곱셈에 의해 수행된다.
Figure 112016015217265-pct00134
인수
Figure 112016015217265-pct00135
는 [0.5, 2]에 제한된다. 산술적인 상수
Figure 112016015217265-pct00136
는 0에 의한 나눗셈을 피하기 위해 도입되었다. 다운믹스는 또한 주파수 f max 에 대역제한된다: 모든 고주파수 대역들의 상기 값들은 0으로 설정된다.
도 9는 도식적으로 주파수 도메인 잔향(816a, 816b)에서의 본 발명의 실시예에 따른 바이너럴 렌더러(800)의 처리를 표현한다.
주파수 도메인 잔향기에서 스테레오 입력의 모노 다운믹스는 입력 믹서(900)에 의해 계산된다. 이는 두 번째 입력 채널에 90° 위상 시프트를 적용함으로서 비간섭적으로 일어난다.
그 후 모노 신호는 각 주파수 대역 k에서 피드백 지연 루프(902)에 주어지며, 이는 임펄스의 소멸 시퀀스를 만든다. 이는 임펄스들 사이에 인터벌에 소멸되는 방식으로 신호 에너지를 배분하고 출력 채널들 사이에 비상관을 만드는 평행 FIR 역상관기(decorrelator)들에 의해 뒤이어진다. 소멸 필터 탭 밀도(decaying filter tap density)는 에너지 소멸을 만들기 위해 적용된다. 필터 탭 위상 작동들은 희박하고 배율기 없는 역상관기를 실행하기 위해 4 옵션들로 제한된다.
잔향의 계산 이후엔 채널간 상관(ICC: inter-channel coherence) 정정(904)이 모든 QMF 주파수 대역의 잔향 모듈에 포함된다. ICC 정정 단계에서 주파수-종속 직접 이득 gdirect과 교차믹스 이득 gcross이 ICC를 적응시키기 위해 사용된다.
다른 주파수 대역들마다 에너지와 잔향 시간의 양은 입력 파라미터 세트에 포함되어있다. 값들은 내부적으로 K=64 QMF 주파수 대역들에 맵 된 주파수 포인트들에서 주어진다.
주파수 도메인 잔향기의 두 인스턴스(instance)들이 최종 중간 신호
Figure 112016015217265-pct00137
를 계산하기 위해 사용된다. 신호
Figure 112016015217265-pct00138
은 잔향기의 첫 번째 인스턴스의 첫 번째 출력 채널이고,
Figure 112016015217265-pct00139
은 잔향기의 두 번째 인스턴스의 두 번째 출력 채널이다. 이들은 2 채널들, 64 대역들, 그리고 32 시간 슬롯들의 차원을 가진 최종 잔향 신호 프레임으로 조합된다.
스테레오 다운믹스(822)는 입력 신호 프레임의 상관 정도(820)에 따라 모두 스케일링 되어(821a, 821b) 잔향 출력의 맞는 스케일링을 보장해준다. 스케일링 인자는
Figure 112016015217265-pct00140
의 범위 안의 값으로 정의되며 선형적으로 0과 1 사이의 상관 계수
Figure 112016015217265-pct00141
에 종속적이며
Figure 112016015217265-pct00142
그리고
Figure 112016015217265-pct00143
와 같다.
이 때
Figure 112016015217265-pct00144
는 채널 A의 하나의 시간 슬롯 n의 표준 편차를 의미하고, 연산자
Figure 112016015217265-pct00145
는 켤레복소수를 의미하며 그리고
Figure 112016015217265-pct00146
는 실제 신호 프레임에서 QMF 도메인 신호
Figure 112016015217265-pct00147
의 제로-평균 버전을 의미한다.
Figure 112016015217265-pct00148
은 두 번 계산된다: 실제 신호 프레임 F에서 작동하는 스테레오 다운믹스의 좌측 채널에 포함된 복수의 채널들 A, B에 대해 한 번, 그리고 실제 신호 프레임 F에서 작동하는 스테레오 다운믹스의 우측 채널에 포함된 복수의 채널들 A, B에 대해 한번이다.
Figure 112016015217265-pct00149
은 하나의 다운믹스 채널 A(다운믹스 행렬
Figure 112016015217265-pct00150
A번째 행에서 0이 아닌 행렬 원소들의 수)로 다운믹스 되었고 현재 프레임에서 활성인 입력 채널들의 수이다.
그렇다면 스케일링 인자들은
Figure 112016015217265-pct00151
와 같다.
스케일링 인자들은 1차 저역 통과 필터에 의해 오디오 신호 프레임들을 거쳐 평활되어 평활된 스케일링 인자들
Figure 112016015217265-pct00152
이 된다.
스케일링 인자들은 같은 평균을 가지는 시간-도메인 상관 분석에 의해 첫 번째 오디오 입력 데이터 프레임에서 시작된다.
첫 번째 잔향기 인스턴스의 입력은 스케일링 인자
Figure 112016015217265-pct00153
에 의해 스케일링되고, 두 번째 잔향기 인스턴스의 입력은 스케일링 인자
Figure 112016015217265-pct00154
에 의해 스케일링된다.
(d) 컨볼루션 결과와 후기 반향의 조합
다음으로, 한 QMF 도메인 오디오 입력 프레임에 대한 컨볼루션 결과(814),
Figure 112016015217265-pct00155
, 그리고 잔향기 출력(826a, 826b),
Figure 112016015217265-pct00156
는 밴드별로 두 신호들을 합산하는 믹싱 처리(828)에 의해 조합된다. 컨볼루션은
Figure 112016015217265-pct00157
까지의 대역들에서만 실행되기 때문에
Figure 112016015217265-pct00158
보다 높은 상위 대역들은
Figure 112016015217265-pct00159
에서 0이라는 것을 참고하자.
후기 반향 출력은 믹싱 처리에서의
Figure 112016015217265-pct00160
시간 슬롯의 양에 의해 지연된다.
지연 d 는 BRIR들에서 초기 반향부터 후기 잔향까지 전이 시간 및 20 QMF 시간 슬롯들의 잔향기의 초반(initial) 지연, 그리고 적절한 시간 슬롯으로의 후기 잔향의 삽입을 확인하는 BRIR들의 QMF 분석의 0.5 QMF 시간 슬롯들의 분석 지연을 고려한다. 하나의 시간 슬롯
Figure 112016015217265-pct00161
에서 조합된 신호
Figure 112016015217265-pct00162
Figure 112016015217265-pct00163
에 의해 계산된다.
(e) 바이너럴 QMF 도메인 신호의 QMF 합성
ISO/IEC 14496-3:2009, 하위 조항 4.6.18.4.2에 따라 QMF 도메인 출력 신호 32 시간 슬롯들
Figure 112016015217265-pct00164
의 하나의 2-채널 프레임은 QMF 합성에 의해 길이 L 2-채널 시간 도메인 신호 프레임으로 변환되며 최종 시간 도메인 출력 신호(830)를 산출한다,
Figure 112016015217265-pct00165
.
진보적인 방법에 따라 합성 또는 인공 후기 잔향은 입력 신호의 성질을 고려하여 스케일링 되며, 이로 인해 나누어 처리하는 과정에서 축소된 계산의 복잡성의 장점을 취하면서 출력 신호의 음질을 개선한다. 또, 상술되었듯이, 다른 추가적인 청각 모델 또는 타겟 잔향 라우드니스가 필요하지 않다.
본 발명은 상술된 실시예에 제한되지 않는다고 알려져있다. 예를 들어, 상술된 실시예가 QMF 도메인과의 조합으로 설명되었다면, 다른 시간-주파수 도메인들이 사용될 수 있으며, 예를 들어 STFT 도메인이 있다는 것이 알려져있다. 또, 스케일링 인자는 상관이 전체 수의 주파수 대역들을 통해 계산되지 않도록 주파수-의존 방법으로 계산될 수 있지만, 이는 다음과 같이 정의된 S 부분집합들의 수로 계산된다:
Figure 112016015217265-pct00166
또, 주파수 대역들에 평활이 적용되거나 또는 예를 들어 청각의 주파수 해상도에 따라 역들이 특정 규칙에 따라 조합될 수 있다. 평활은 예를 들어 프레임 크기 또는 청취자의 선호도에 따라 다른 시간 상수들에 적응될 수 있다.
진보적인 방법은 다른 프레임 크기들에 적용될 수 있으며, 시간-주파수 도메인에서 하나의 시간 슬롯만 있는 프레임 크기에서도 가능하다.
실시예에 따라, 예를 들어 대칭 다운믹스 행렬들이나 비대칭 행렬들과 같은 다른 다운믹스 행렬들도 다운믹스에 사용될 수 있다.
상관 정도는 예를 들어 MPEG 서라운드 또는 SAOC에서의 채널간 상관 같은 오디오 비트스트림에서 전송되는 파라미터들로부터 유래될 수 있다. 또, 실시예에 따라 평균값 계산에서 필요하다면 행렬의 일부 값들을 배제하는 것이 가능하며, 예를 들어 잘못 계산된 값들이나 중심 대각선(main diagonal)에서의 값, 자동상관 값 등이 이러한 값에 해당한다.
처리는 예를 들어 복잡성이 적은 바이너럴 프로파일인 경우, 디코더 쪽에서 바이너럴 렌더러의 사용 대신 인코더에서 실행될 수 있다. 이는 스케일링 인자들의 표현으로 나타나며, 예를 들어 상관 정도가 0에서 1 사이인 스케일링 인자들의 파라미터들이 고정 다운스트림 행렬을 위해 인코더에서 디코더로 비트스트림에서 전송된다.
또, 상술된 실시예들은 잔향기(514)에 따른 이득을 적용하는 것을 설명하고, 다른 실시예들에 따라 예를 들어 잔향기(514) 내에서 이득을 변형시킴으로서, 이득은 잔향기(514) 이전 또는 잔향기 내에서 적용될 수 있다는 것이 알려져 있다.
비록 일부 관점은 장치의 내용에 관하여 설명되었지만, 블록 혹은 기구가 방법 단계 또는 방법 단계의 특징에 해당하기에 이러한 관점 역시 해당하는 방법의 설명을 표현해준다는 것은 명확하다. 유사하게, 방법 단계의 내용에 설명된 관점은 해당하는 장치의 해당하는 블록 또는 도구 또는 특징의 설명을 표현한다. 일부 또는 모든 방법 단계는 예를 들어, 마이크로처리기, 프로그램 작동이 가능한 컴퓨터, 혹은 전기 회로와 같은 하드웨어 장치를 통해(또는 이용해서) 실행될 수 있다. 일부 실시예에서는, 일부 하나 이상의 가장 중요한 방법 단계는 이러한 장치에 의해 실행될 수 있다.
특정 적용 요건에 따라, 본 발명의 실시예들은 하드웨어 또는 소프트웨어에 적용될 수 있다. 적용은 예를 들어 플로피 디스크, DVD, 블루레이, CD, ROM, PROM, EPROM, EEPROM, 또는 플래시 메모리 등 일시적이지 않은 저장 매체를 사용하여 행해질 수 있으며, 그것에 대해 전기적으로 판독가능한 제어 신호가 저장되어있고, 프로그램 작동이 가능한 컴퓨터 시스템에서 각각의 방법이 실행되도록 협조(또는 협조하는 것이 가능)해야한다. 따라서, 디지털 저장 매체는 컴퓨터 판독 가능일 수 있다.
발명에 따른 일부 실시예는 전기적으로 판독가능한 제어 신호들을 가지는 데이터 캐리어(data carrier)를 구성하며, 이는 프로그램 가능한 컴퓨터 시스템과 협조하는 것이 가능하고, 여기에서 설명된 방법들 중 하나가 실행된다.
일반적으로, 본 발명의 실시예는 프로그램 코드를 가지는 컴퓨터 프로그램 제품으로 적용될 수 있으며, 프로그램 코드는 컴퓨터 프로그램이 컴퓨터에서 실행될 때 방법들 중 하나를 실행할 때 가동되는 것이다. 예를 들어 프로그램 코드는 기계 판독가능 캐리어에 저장된다.
다른 실시예들은 기계 판독가능 캐리어에 저장된, 여기에 설명된 방법들 중 하나를 실행하는 컴퓨터 프로그램을 구성한다.
즉, 진보적인 방법의 실시예는, 따라서, 컴퓨터 프로그램이 컴퓨터에서 작동할 때, 여기에 설명된 방법들 중 하나를 실행하는 프로그램 코드를 가진 컴퓨터 프로그램이다.
따라서 진보적인 방법의 추가적인 실시예는, 여기에 설명된 방법들 중 하나를 실행하는: 거기에 기록된 컴퓨터 프로그램을 포함하는 데이터 캐리어(또는 디지털 저장 매체, 혹은 컴퓨터-판독가능 매체)이다. 데이터 캐리어, 디지털 저장 매체 또는 기록된 매체들은 일반적으로 유형적이고 및/또는 비-전이적이진보적인 방법의 추가적인 실시예는, 따라서, 여기에 설명된 방법들 중 하나를 실행하는 컴퓨터 프로그램을 표현하는 신호들의 데이터 스트림 또는 시퀀스다. 신호들의 데이터 스트림 또는 시퀀스는 데이터 통신 연결을 통해 이송되도록 구성되었으며, 예를 들어 인터넷을 통해 이송되도록 구성되었다.
추가적인 실시예는 여기에 설명된 방법들 중 하나를 실행하는 컴퓨터 프로그램이 설치된 컴퓨터를 구성한다.
발명에 따른 추가적인 실시예는 여기에 설명된 방법들 중 하나를 실행하는 컴퓨터 프로그램을 수신자에게 이송하도록(예를 들어, 전기적으로 혹은 광적으로) 구성된 장치 또는 시스템을 구성한다. 수신자는 예를 들어 컴퓨터, 휴대 기기, 메모리 장치와 같은 것일 수 있다. 장치 또는 시스템은 예를 들어 컴퓨터 프로그램을 수신자에게 이송하는 파일 서버를 구성할 수 있다.
일부 실시예에서, 여기에 설명된 방법들의 기능성의 일부 또는 전부를 실행하기 위해서 프로그램 가능한 논리 장치(예를 들어, 필드 프로그램 가능 게이트 어레이(Field Programmable Gate Array))가 사용될 수 있다. 일부 실시예에서, 필드 프로그램 가능 게이트 어레이는 여기에 설명된 방법들 중 하나를 실행하기 위해 마이크로처리기와 협력할 수 있다. 일반적으로, 방법들은 가급적이면 어느 하드웨어 장체에서나 실행된다.
상술한 실시예는 단지 본 발명의 원리를 설명하기 위한 것이다. 여기에 기재된 배치 및 세부사항의 변경 및 수정은 당업자에게 자명함을 이해할 것이다. 그러므로, 의도는 특허 청구범위에 의해서만 제한되고 여기에 기재된 실시예의 설명에 의해 제시된 특정 세부사항에 의해서 제한되지 않는다.
[참고 문헌(Literature)]
[1] M. R. Schroeder, "Digital Simulation of Sound Transmission in Reverberant Spaces", The Journal of the Acoustical Society of America, VoS. 47, pp. 424-431 (1970) and enhanced in JA. Moorer, "About This Reverberation Business", Computer Music Journal, Vol. 3, no. 2, pp. 13-28, MIT Press (1979).
[2] Uhle, Christian; Paulus, Jouni; Herre, Jurgen: "Predicting the Perceived Level of Late Reverberation Using Computational Models of Loudness" Proceedings, 17th International Conference on Digital Signal Processing (DSP), July 6 - 8, 2011, Corfu, Greece.
[3] Czyzewski, Andrzej: "A Method of Artificial Reverberation Quality Testing" J. Audio Eng. Soc., Vol. 38, No 3, 1990.

Claims (25)

  1. 룸 임펄스 응답(300)에 따라 오디오 신호(504, 802)를 처리하는 방법으로서,
    룸 임펄스 응답(300)의 초기 부분(301,302)과 함께 오디오 신호(504, 802)를 개별적으로 처리하여(502, 514, 812, 816a, 816b) 처리된 오디오 신호를 발생시키는 단계;
    상기 룸 임펄스 응답(300)의 후기 잔향(304)과 함께 오디오 신호(504, 802)를 처리하여(502, 514, 812, 816a, 816b) 스케일링 된 잔향 신호를 발생시키는 단계; 및
    상기 스케일링 된 잔향 신호와 상기 처리된 오디오 신호를 조합하는 단계;를 포함하며,
    상기 오디오 신호(504, 802)는 복수의 입력 채널을 포함하며,
    상기 스케일링은 오디오 신호 입력 채널의 계산된 상관 정도에 또는 고정된 상관 정도에 의존하며,

    스케일링 된 잔향 신호를 발생시키는 단계는, 상기 룸 임펄스 응답(300)의 후기 잔향(304)과 함께 처리된 오디오 신호에 이득 인자를 적용하는 단계를 포함하며, 상기 이득 인자는 상기 계산된 상관 정도에 또는 고정된 상관 정도에 기초하여 결정되는 것을 특징으로 하는, 룸 임펄스 응답에 따라 오디오 신호를 처리하는 방법.
  2. 제1항에 있어서, 상기 스케일링은 오디오 신호(504, 802)의 복수의 입력 채널의 조건에 종속적이며,
    상기 오디오 신호(504, 802)의 복수의 입력 채널의 조건은 하나 이상의 입력 채널의 수, 활성 입력 채널의 수, 그리고 복수의 입력 채널 중 하나 이상의 활성도(activity)를 포함하는 것을 특징으로 하는 방법.
  3. 제1항에 있어서, 오디오 신호(504, 802)의 상기 고정된 상관 정도는 0.1 내지 0.9의 고정된 값을 갖는 것을 특징으로 하는 방법.
  4. 제1항에 있어서,
    상기 이득 인자는
    Figure 112017017838470-pct00167

    에 따라 결정되고,
    여기서,
    Figure 112017017838470-pct00168
    = 상기 오디오 신호(504, 802)의 고정된 또는 계산된 상관 정도,
    Figure 112017017838470-pct00169
    = 상기 오디오 신호(504, 802)의 복수의 입력 채널의 조건을 나타내는 인자이며, 이 때 cu 는 상관이 전혀 없는 채널을 의미하고, cc 는 완전히 상관된 채널을 의미하며,
    cu 와 cc
    Figure 112017017838470-pct00170

    Figure 112017017838470-pct00171

    에 따라 결정되고,
    여기서,
    Kin = 상기 오디오 신호의 활성 입력 채널들의 수인 것을 특징으로 하는 방법.
  5. 제1항에 있어서, 상기 이득 인자는 상기 복수의 오디오 프레임들에 대해 저역 통과 필터링(low pass filtered)된 것을 특징으로 하는 방법.
  6. 제5항에 있어서, 이득 인자는
    Figure 112017017838470-pct00193

    Figure 112017017838470-pct00194

    Figure 112017017838470-pct00195

    에 따라 저역 통과 필터링되고,
    여기서
    ts = 저역 통과 필터의 시간 상수,
    ti = 프레임 ti 에서의 오디오 프레임,
    gs = 평활된 (다듬어진, smoothed) 이득 인자,
    k = 프레임 크기,
    fs = 샘플링 주파수
    인 것을 특징으로 하는 방법.
  7. 제1항에 있어서, 상기 오디오 신호(504, 802)의 상관 분석은 상기 오디오 신호(504, 802)의 오디오 프레임에 대해 조합 상관 정도를 결정하는 단계를 포함하며, 상기 조합 상관 정도는 하나의 오디오 프레임의 복수의 채널 조합의 상관 계수들을 조합하여 계산되며, 각 오디오 프레임은 하나 이상의 슬롯을 포함하는 것을 특징으로 하는 방법.
  8. 제7항에 있어서, 상관 계수를 조합하는 것은 상기 오디오 프레임의 복수의 상관 계수를 평균내는 단계를 포함하는 것을 특징으로 하는 방법.
  9. 제7항에 있어서, 조합 상관 정도를 결정하는 단계는:
    (i) 상기 하나의 오디오 프레임의 모든 채널에 대해 전체 평균값 계산,
    (ii) 대응 채널들로부터 상기 평균값을 뺌으로서 제로-평균(zero-mean) 오디오 프레임 계산,
    (iii) 복수의 채널 조합들에 대해 상기 상관 계수 계산, 및
    (iv) 복수의 상관 계수의 평균으로서 조합 상관 정도 계산을 포함하는 것을 특징으로 하는 방법.
  10. 제1항에 있어서, 채널 조합의 상관 계수는 다음과 같이 계산되며:
    Figure 112017017838470-pct00175

    이때
    Figure 112017017838470-pct00176
    = 상관 계수,
    Figure 112017017838470-pct00177
    = 채널 m의 하나의 시간슬롯 j에 대한 표준편차,
    Figure 112017017838470-pct00178
    = 채널 n의 하나의 시간슬롯 j에 대한 표준편차,
    Figure 112017017838470-pct00179
    = 제로-평균 변수들,
    Figure 112017017838470-pct00180
    = 주파수 대역들,
    Figure 112017017838470-pct00181
    = 시간 슬롯들,
    Figure 112017017838470-pct00182
    = 채널들,
    * = 켤레 복소수(complex conjugate)
    인 것을 특징으로 하는 방법.
  11. 제1항에 있어서,
    상기 룸 임펄스 응답(300)에서 초기 반향으로부터 후기 잔향(304)까지 전이점에 그 시작을 매칭시키기 위해 상기 스케일링 된 잔향 신호를 지연시키는 단계를 포함하는 특징으로 하는 방법.
  12. 제1항에 있어서, 후기 잔향을 처리하는 단계는 낮은 수의 채널들을 갖는 신호로 멀티채널 오디오 신호(504, 802)를 다운믹스하기 위한 다운믹서(410)에 오디오 신호를 적용하는 단계 및 잔향기에 상기 다운믹스된 오디오 신호를 적용하는 단계를 포함하는 것을 특징으로 하는 방법.
  13. 컴퓨터에서 실행될 때 제1항의 방법을 실행하기 위한 컴퓨터 프로그램을 저장한 컴퓨터 판독가능 저장 매체.
  14. 신호 처리 유닛으로서,
    오디오 신호(504, 802)를 수신하는 입력부;
    룸 임펄스 응답(300)의 초기 부분(301, 302)에 따라 상기 수신된 오디오 신호(504, 802)를 처리하여 처리된 오디오 신호를 발생시키는 초기 부분 처리기;
    상기 룸 임펄스 응답(300)의 후기 잔향에 따라 상기 수신된 오디오 신호(504, 802)를 처리하여 스케일링된 잔향 신호를 발생시키는 후기 잔향 처리기; 및
    상기 처리된 오디오 신호(504, 802) 및 스케일링된된 잔향 신호를 출력 오디오 신호로 조합하기 위한 출력부;를 포함하며,

    상기 오디오 신호(504, 802)는 복수의 입력 채널을 포함하며,
    상기 스케일링은 오디오 신호 입력 채널의 계산된 상관 정도에 의존하고 또는 고정된 상관 정도에 의존하며,

    스케일링 된 잔향 신호는, 상기 룸 임펄스 응답(300)의 후기 잔향(304)과 함께 처리된 오디오 신호에 이득 인자를 적용하여 발생되며, 상기 이득 인자는 상기 계산된 상관 정도에 또는 고정된 상관 정도에 기초하여 결정되는 것을 특징으로 하는, 신호 처리 유닛.
  15. 제14항의 신호 처리 유닛에 있어서, 후기 잔향 처리기는,
    상기 오디오 신호(504, 802)를 수신하고 잔향 신호를 발생시키는 잔향기; 및
    상기 잔향기의 입력 또는 출력에 연결되고 이득 인자에 의해 제어되는 이득단(gain stage);을 포함하는 것을 특징으로 하는 신호 처리 유닛.
  16. 제14항에 있어서, 상기 오디오 신호(504, 802)에 종속적인 상기 이득 인자를 발생시키는 상관 분석기를 포함하는 것을 특징으로 하는 신호 처리 유닛.
  17. 제15항에 있어서,
    상기 이득단과 연결된 저역 통과 필터; 및
    상기 이득단과 가산기 사이에 연결된 지연 요소(delay element), 초기 부분 처리기 및 출력부와 추가로 연결되는 가산기; 중 적어도 하나를 더 포함하는 것을 특징으로 하는 신호 처리 유닛.
  18. 제14항의 신호 처리 유닛을 포함하는 바이너럴 렌더러.
  19. 오디오 신호를 코딩하는 오디오 인코더에 있어서,
    코딩 전에 오디오 신호 처리를 위해 제14항의 신호 처리 유닛을 포함하는 오디오 인코더.
  20. 인코딩된 오디오 신호를 디코딩하는 오디오 디코더에 있어서,
    디코딩된 오디오 신호 처리를 위해 제14항의 신호 처리 유닛을 포함하는 오디오 디코더.
  21. 오디오 신호를 코딩하는 오디오 인코더에 있어서,
    코딩 전에 오디오 신호 처리를 위해 제18항의 바이너럴 렌더러를 포함하는 오디오 인코더.
  22. 인코딩된 오디오 신호를 디코딩하는 오디오 디코더에 있어서,
    디코딩된 오디오 신호 처리를 위해 제18항의 바이너럴 렌더러를 포함하는 오디오 디코더.
  23. 삭제
  24. 삭제
  25. 삭제
KR1020167003941A 2013-07-22 2014-07-18 오디오 신호를 처리하는 방법, 신호 처리 유닛, 바이너럴(binaural) 렌더러, 오디오 인코더와 오디오 디코더 Active KR101771533B1 (ko)

Applications Claiming Priority (5)

Application Number Priority Date Filing Date Title
EP13177361.6 2013-07-22
EP13177361 2013-07-22
EP13189255.6 2013-10-18
EP20130189255 EP2840811A1 (en) 2013-07-22 2013-10-18 Method for processing an audio signal; signal processing unit, binaural renderer, audio encoder and audio decoder
PCT/EP2014/065534 WO2015011055A1 (en) 2013-07-22 2014-07-18 Method for processing an audio signal; signal processing unit, binaural renderer, audio encoder and audio decoder

Publications (2)

Publication Number Publication Date
KR20160046800A KR20160046800A (ko) 2016-04-29
KR101771533B1 true KR101771533B1 (ko) 2017-08-25

Family

ID=48808220

Family Applications (1)

Application Number Title Priority Date Filing Date
KR1020167003941A Active KR101771533B1 (ko) 2013-07-22 2014-07-18 오디오 신호를 처리하는 방법, 신호 처리 유닛, 바이너럴(binaural) 렌더러, 오디오 인코더와 오디오 디코더

Country Status (18)

Country Link
US (6) US9955282B2 (ko)
EP (4) EP2840811A1 (ko)
JP (5) JP6374502B2 (ko)
KR (1) KR101771533B1 (ko)
CN (1) CN105519139B (ko)
AR (1) AR097002A1 (ko)
AU (1) AU2014295165B2 (ko)
BR (1) BR112016001136B1 (ko)
CA (1) CA2918279C (ko)
ES (2) ES2968380T3 (ko)
MX (2) MX2016000699A (ko)
PL (2) PL3606102T3 (ko)
PT (1) PT3025520T (ko)
RU (1) RU2642376C2 (ko)
SG (1) SG11201600370UA (ko)
TW (1) TWI555011B (ko)
WO (1) WO2015011055A1 (ko)
ZA (1) ZA201601079B (ko)

Families Citing this family (48)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN108806704B (zh) 2013-04-19 2023-06-06 韩国电子通信研究院 多信道音频信号处理装置及方法
EP2840811A1 (en) 2013-07-22 2015-02-25 Fraunhofer-Gesellschaft zur Förderung der angewandten Forschung e.V. Method for processing an audio signal; signal processing unit, binaural renderer, audio encoder and audio decoder
US9319819B2 (en) * 2013-07-25 2016-04-19 Etri Binaural rendering method and apparatus for decoding multi channel audio
WO2015041478A1 (ko) 2013-09-17 2015-03-26 주식회사 윌러스표준기술연구소 멀티미디어 신호 처리 방법 및 장치
FR3012247A1 (fr) * 2013-10-18 2015-04-24 Orange Spatialisation sonore avec effet de salle, optimisee en complexite
CN108449704B (zh) 2013-10-22 2021-01-01 韩国电子通信研究院 生成用于音频信号的滤波器的方法及其参数化装置
JP6151866B2 (ja) 2013-12-23 2017-06-21 ウィルス インスティテュート オブ スタンダーズ アンド テクノロジー インコーポレイティド オーディオ信号のフィルタ生成方法およびそのためのパラメータ化装置
KR102149216B1 (ko) * 2014-03-19 2020-08-28 주식회사 윌러스표준기술연구소 오디오 신호 처리 방법 및 장치
US9584938B2 (en) * 2015-01-19 2017-02-28 Sennheiser Electronic Gmbh & Co. Kg Method of determining acoustical characteristics of a room or venue having n sound sources
CN110809227B (zh) 2015-02-12 2021-04-27 杜比实验室特许公司 用于耳机虚拟化的混响生成
EA034936B1 (ru) 2015-08-25 2020-04-08 Долби Интернешнл Аб Кодирование и декодирование звука с использованием параметров преобразования представления
US10115403B2 (en) * 2015-12-18 2018-10-30 Qualcomm Incorporated Encoding of multiple audio signals
JP7023848B2 (ja) * 2016-01-29 2022-02-22 ドルビー ラボラトリーズ ライセンシング コーポレイション バイノーラル・ダイアログ向上
KR102642275B1 (ko) * 2016-02-02 2024-02-28 디티에스, 인코포레이티드 증강 현실 헤드폰 환경 렌더링
EP3293987B1 (en) 2016-09-13 2020-10-21 Nokia Technologies Oy Audio processing
US10187740B2 (en) * 2016-09-23 2019-01-22 Apple Inc. Producing headphone driver signals in a digital audio signal processing binaural rendering environment
EP3822968B1 (en) * 2016-10-28 2023-09-06 Panasonic Intellectual Property Corporation of America Binaural rendering apparatus and method for playing back of multiple audio sources
CN106875953B (zh) * 2017-01-11 2020-10-13 深圳市创成微电子有限公司 模拟混音音频处理方法及系统
CN108665902B (zh) 2017-03-31 2020-12-01 华为技术有限公司 多声道信号的编解码方法和编解码器
CN108694955B (zh) 2017-04-12 2020-11-17 华为技术有限公司 多声道信号的编解码方法和编解码器
GB2562518A (en) 2017-05-18 2018-11-21 Nokia Technologies Oy Spatial audio processing
CN107358962B (zh) * 2017-06-08 2018-09-04 腾讯科技(深圳)有限公司 音频处理方法及音频处理装置
US10388265B2 (en) * 2017-06-20 2019-08-20 Signal/Noise Solutions L.L.C. Systems and methods for enhancing a signal-to-noise ratio
US9886939B2 (en) * 2017-06-20 2018-02-06 Signal/Noise Solutions, L.L.C. Systems and methods for enhancing a signal-to-noise ratio
US11089425B2 (en) * 2017-06-27 2021-08-10 Lg Electronics Inc. Audio playback method and audio playback apparatus in six degrees of freedom environment
CN109389986B (zh) 2017-08-10 2023-08-22 华为技术有限公司 时域立体声参数的编码方法和相关产品
KR20230162143A (ko) 2017-10-20 2023-11-28 소니그룹주식회사 신호 처리 장치 및 방법, 그리고 프로그램
JP7294135B2 (ja) 2017-10-20 2023-06-20 ソニーグループ株式会社 信号処理装置および方法、並びにプログラム
EP3570566B1 (en) * 2018-05-14 2022-12-28 Nokia Technologies Oy Previewing spatial audio scenes comprising multiple sound sources
GB2574238A (en) * 2018-05-31 2019-12-04 Nokia Technologies Oy Spatial audio parameter merging
CN109297583B (zh) * 2018-09-14 2020-07-24 北京理工大学 汽车车内双耳异响时变噪声响度评价方法
US11503423B2 (en) * 2018-10-25 2022-11-15 Creative Technology Ltd Systems and methods for modifying room characteristics for spatial audio rendering over headphones
US10582299B1 (en) * 2018-12-11 2020-03-03 Amazon Technologies, Inc. Modeling room acoustics using acoustic waves
JP7286876B2 (ja) 2019-09-23 2023-06-05 ドルビー ラボラトリーズ ライセンシング コーポレイション 変換パラメータによるオーディオ符号化/復号化
EP4120250B1 (en) * 2020-03-09 2025-04-16 Nippon Telegraph And Telephone Corporation Sound signal downmixing method, sound signal coding method, sound signal downmixing device, sound signal coding device, program, and recording medium
WO2021187229A1 (ja) * 2020-03-18 2021-09-23 ソニーグループ株式会社 音響処理装置、音響処理方法および音響処理プログラム
KR102500157B1 (ko) 2020-07-09 2023-02-15 한국전자통신연구원 오디오 신호의 바이노럴 렌더링 방법 및 장치
CN112037825B (zh) * 2020-08-10 2022-09-27 北京小米松果电子有限公司 音频信号的处理方法及装置、存储介质
JP7487060B2 (ja) * 2020-09-28 2024-05-20 株式会社デンソーテン 音響装置および音響制御方法
JP2022144500A (ja) * 2021-03-19 2022-10-03 ヤマハ株式会社 音信号処理方法および音信号処理装置
US11665377B2 (en) * 2021-04-23 2023-05-30 At&T Intellectual Property I, L.P. System and method for identifying encrypted, pre-recorded media content in packet data networks
BR112023024572A2 (pt) * 2021-05-27 2024-02-15 Fraunhofer Ges Forschung Codificação e decodificação do ambiente acústico
US11937063B2 (en) * 2021-06-04 2024-03-19 Apple Inc. Method and system for maintaining track length for pre-rendered spatial audio
WO2023274400A1 (zh) * 2021-07-02 2023-01-05 北京字跳网络技术有限公司 音频信号的渲染方法、装置和电子设备
US12126841B2 (en) * 2021-09-20 2024-10-22 Tencent America LLC Feature compression for video coding for machines
US11877143B2 (en) * 2021-12-03 2024-01-16 Microsoft Technology Licensing, Llc Parameterized modeling of coherent and incoherent sound
WO2024081957A1 (en) * 2022-10-14 2024-04-18 Virtuel Works Llc Binaural externalization processing
JP2025058570A (ja) * 2023-09-28 2025-04-09 公立大学法人秋田県立大学 信号伝送方法、信号生成方法、信号再生方法、音声信号処理プログラム、音声伝送装置、音声再生装置、及び音声伝送再生システム

Citations (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
WO2012116934A1 (en) * 2011-03-02 2012-09-07 Fraunhofer-Gesellschaft zur Förderung der angewandten Forschung e.V. Apparatus and method for determining a measure for a perceived level of reverberation, audio processor and method for processing a signal

Family Cites Families (29)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JPH06335094A (ja) * 1993-05-25 1994-12-02 Matsushita Electric Ind Co Ltd 音場再生装置
US5371799A (en) * 1993-06-01 1994-12-06 Qsound Labs, Inc. Stereo headphone sound source localization system
JP3498888B2 (ja) * 1996-10-11 2004-02-23 日本ビクター株式会社 サラウンド信号処理装置と方法及び映像音声再生方法、記録媒体への記録方法及び記録装置、記録媒体、処理プログラムの伝送方法及び受信方法、並びに記録データの伝送方法及び受信方法
KR100261253B1 (ko) 1997-04-02 2000-07-01 윤종용 비트율 조절이 가능한 오디오 부호화/복호화 방법및 장치
US6188769B1 (en) * 1998-11-13 2001-02-13 Creative Technology Ltd. Environmental reverberation processor
US20020067836A1 (en) * 2000-10-24 2002-06-06 Paranjpe Shreyas Anand Method and device for artificial reverberation
US7583805B2 (en) * 2004-02-12 2009-09-01 Agere Systems Inc. Late reverberation-based synthesis of auditory scenes
JP3598993B2 (ja) * 2001-05-18 2004-12-08 ソニー株式会社 符号化装置及び方法
JP4062959B2 (ja) * 2002-04-26 2008-03-19 ヤマハ株式会社 残響付与装置、残響付与方法、インパルス応答生成装置、インパルス応答生成方法、残響付与プログラム、インパルス応答生成プログラムおよび記録媒体
JP4077279B2 (ja) * 2002-08-30 2008-04-16 アルパイン株式会社 残響レベル制御装置
US7949141B2 (en) * 2003-11-12 2011-05-24 Dolby Laboratories Licensing Corporation Processing audio signals with head related transfer function filters and a reverberator
KR100662247B1 (ko) 2003-12-03 2007-01-02 한국전자통신연구원 잔향 처리를 위한 음향 장면 생성 및 소비 방법
US7412380B1 (en) * 2003-12-17 2008-08-12 Creative Technology Ltd. Ambience extraction and modification for enhancement and upmix of audio signals
EP1768107B1 (en) * 2004-07-02 2016-03-09 Panasonic Intellectual Property Corporation of America Audio signal decoding device
TWI393121B (zh) * 2004-08-25 2013-04-11 Dolby Lab Licensing Corp 處理一組n個聲音信號之方法與裝置及與其相關聯之電腦程式
KR100764903B1 (ko) 2004-09-07 2007-10-09 김병두 발전소용 미분탄 보일러 노 구조
DE102004043521A1 (de) 2004-09-08 2006-03-23 Fraunhofer-Gesellschaft zur Förderung der angewandten Forschung e.V. Vorrichtung und Verfahren zum Erzeugen eines Multikanalsignals oder eines Parameterdatensatzes
BRPI0608945C8 (pt) 2005-03-30 2020-12-22 Coding Tech Ab codificador de áudio de multi-canal, decodificador de áudio de multi-canal, método de codificar n sinais de áudio em m sinais de áudio e dados paramétricos associados, método de decodificar k sinais de áudio e dados paramétricos associados, método de transmitir e receber um sinal de áudio de multi-canal codificado, mídia de armazenamento legível por computador, e, sistema de transmissão
WO2007043388A1 (ja) * 2005-10-07 2007-04-19 Matsushita Electric Industrial Co., Ltd. 音響信号処理装置および音響信号処理方法
US8670570B2 (en) * 2006-11-07 2014-03-11 Stmicroelectronics Asia Pacific Pte., Ltd. Environmental effects generator for digital audio signals
JP4834146B2 (ja) * 2007-03-09 2011-12-14 パイオニア株式会社 音場再生装置及び音場再生方法
US7742746B2 (en) * 2007-04-30 2010-06-22 Qualcomm Incorporated Automatic volume and dynamic range adjustment for mobile audio devices
CN102172047B (zh) * 2008-07-31 2014-01-29 弗劳恩霍夫应用研究促进协会 双耳信号的信号生成设备和方法
MX2011013829A (es) * 2009-06-24 2012-03-07 Fraunhofer Ges Forschung Decodificador de señales de audio, metodo para decodificar una señal de audio y programa de computacion que utiliza etapas en cascada de procesamiento de objetos de audio.
GB2485979A (en) * 2010-11-26 2012-06-06 Univ Surrey Spatial audio coding
JP2012150278A (ja) * 2011-01-19 2012-08-09 Kitakyushu Foundation For The Advancement Of Industry Science And Technology 仮想空間のビジュアル変化に対応した音響効果の自動生成システム
KR101844336B1 (ko) * 2011-08-01 2018-04-02 삼성전자주식회사 공간감을 제공하는 신호 처리 장치 및 신호 처리 방법
US9674632B2 (en) * 2013-05-29 2017-06-06 Qualcomm Incorporated Filtering with binaural room impulse responses
EP2840811A1 (en) 2013-07-22 2015-02-25 Fraunhofer-Gesellschaft zur Förderung der angewandten Forschung e.V. Method for processing an audio signal; signal processing unit, binaural renderer, audio encoder and audio decoder

Patent Citations (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
WO2012116934A1 (en) * 2011-03-02 2012-09-07 Fraunhofer-Gesellschaft zur Förderung der angewandten Forschung e.V. Apparatus and method for determining a measure for a perceived level of reverberation, audio processor and method for processing a signal

Also Published As

Publication number Publication date
BR112016001136A2 (ko) 2017-07-25
PT3025520T (pt) 2019-12-18
US20210067898A1 (en) 2021-03-04
JP6374502B2 (ja) 2018-08-15
JP7615193B2 (ja) 2025-01-16
JP6879979B2 (ja) 2021-06-02
EP3606102C0 (en) 2023-12-13
MX2016000699A (es) 2016-04-13
PL3606102T3 (pl) 2024-06-17
US20250234153A1 (en) 2025-07-17
AU2014295165A1 (en) 2016-03-10
KR20160046800A (ko) 2016-04-29
JP2025039612A (ja) 2025-03-21
WO2015011055A1 (en) 2015-01-29
RU2016105692A (ru) 2017-08-25
EP3025520B1 (en) 2019-09-18
US10848900B2 (en) 2020-11-24
US20160255453A1 (en) 2016-09-01
US11445323B2 (en) 2022-09-13
EP2840811A1 (en) 2015-02-25
EP3606102B1 (en) 2023-12-13
JP2021114799A (ja) 2021-08-05
JP2018182757A (ja) 2018-11-15
US9955282B2 (en) 2018-04-24
MX374491B (es) 2025-03-06
EP3025520A1 (en) 2016-06-01
US11910182B2 (en) 2024-02-20
JP2023071866A (ja) 2023-05-23
US20240171931A1 (en) 2024-05-23
TW201521017A (zh) 2015-06-01
ES2968380T3 (es) 2024-05-09
US12238508B2 (en) 2025-02-25
PL3025520T3 (pl) 2020-04-30
AU2014295165B2 (en) 2017-03-16
JP2016531484A (ja) 2016-10-06
RU2642376C2 (ru) 2018-01-24
JP7241447B2 (ja) 2023-03-17
EP4297017A2 (en) 2023-12-27
EP4297017A3 (en) 2024-03-06
CA2918279A1 (en) 2015-01-29
TWI555011B (zh) 2016-10-21
MX2016000698A (es) 2016-04-15
AR097002A1 (es) 2016-02-10
SG11201600370UA (en) 2016-02-26
EP3606102A1 (en) 2020-02-05
US20230032120A1 (en) 2023-02-02
CN105519139A (zh) 2016-04-20
CA2918279C (en) 2018-08-07
ZA201601079B (en) 2017-08-30
US20180206059A1 (en) 2018-07-19
BR112016001136B1 (pt) 2022-05-24
CN105519139B (zh) 2018-04-17
ES2760873T3 (es) 2020-05-18

Similar Documents

Publication Publication Date Title
JP7615193B2 (ja) オーディオ信号を処理するための方法、信号処理ユニット、バイノーラルレンダラ、オーディオエンコーダおよびオーディオデコーダ
CN110648651B (zh) 根据室内脉冲响应处理音频信号的方法、信号处理单元
HK1225549B (en) Method for processing an audio signal; signal processing unit, binaural renderer, audio encoder and audio decoder
HK1224794A1 (en) Method for processing an audio signal in accordance with a room impulse response, signal processing unit, audio encoder, audio decoder, and binaural renderer
HK1224794B (en) Method for processing an audio signal in accordance with a room impulse response, signal processing unit, audio encoder, audio decoder, and binaural renderer

Legal Events

Date Code Title Description
A201 Request for examination
PA0105 International application

Patent event date: 20160216

Patent event code: PA01051R01D

Comment text: International Patent Application

PA0201 Request for examination

Patent event code: PA02012R01D

Patent event date: 20160216

Comment text: Request for Examination of Application

PG1501 Laying open of application
E902 Notification of reason for refusal
PE0902 Notice of grounds for rejection

Comment text: Notification of reason for refusal

Patent event date: 20161221

Patent event code: PE09021S01D

PE0701 Decision of registration

Patent event code: PE07011S01D

Comment text: Decision to Grant Registration

Patent event date: 20170615

GRNT Written decision to grant
PR0701 Registration of establishment

Comment text: Registration of Establishment

Patent event date: 20170821

Patent event code: PR07011E01D

PR1002 Payment of registration fee

Payment date: 20170822

End annual number: 3

Start annual number: 1

PG1601 Publication of registration
PR1001 Payment of annual fee

Payment date: 20200724

Start annual number: 4

End annual number: 4

PR1001 Payment of annual fee

Payment date: 20210812

Start annual number: 5

End annual number: 5

PR1001 Payment of annual fee

Payment date: 20220811

Start annual number: 6

End annual number: 6

PR1001 Payment of annual fee

Payment date: 20240813

Start annual number: 8

End annual number: 8