KR20080091099A - Audio Channel Extraction Using Interchannel Amplitude Spectrum - Google Patents
Audio Channel Extraction Using Interchannel Amplitude Spectrum Download PDFInfo
- Publication number
- KR20080091099A KR20080091099A KR1020087014637A KR20087014637A KR20080091099A KR 20080091099 A KR20080091099 A KR 20080091099A KR 1020087014637 A KR1020087014637 A KR 1020087014637A KR 20087014637 A KR20087014637 A KR 20087014637A KR 20080091099 A KR20080091099 A KR 20080091099A
- Authority
- KR
- South Korea
- Prior art keywords
- audio
- channels
- input
- spectrum
- input channels
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Withdrawn
Links
- 238000001228 spectrum Methods 0.000 title claims abstract description 66
- 238000000605 extraction Methods 0.000 title description 14
- 238000000926 separation method Methods 0.000 claims abstract description 7
- 230000003595 spectral effect Effects 0.000 claims description 39
- 238000000034 method Methods 0.000 claims description 31
- 238000013507 mapping Methods 0.000 claims description 16
- 230000001131 transforming effect Effects 0.000 claims 2
- 238000006243 chemical reaction Methods 0.000 claims 1
- 238000013459 approach Methods 0.000 abstract description 3
- 238000012880 independent component analysis Methods 0.000 description 8
- 238000010586 diagram Methods 0.000 description 5
- 230000015572 biosynthetic process Effects 0.000 description 4
- 238000003786 synthesis reaction Methods 0.000 description 4
- 238000009499 grossing Methods 0.000 description 3
- 238000012986 modification Methods 0.000 description 2
- 230000004048 modification Effects 0.000 description 2
- 238000013528 artificial neural network Methods 0.000 description 1
- VTTONGPRPXSUTJ-UHFFFAOYSA-N bufotenin Chemical compound C1=C(O)C=C2C(CCN(C)C)=CNC2=C1 VTTONGPRPXSUTJ-UHFFFAOYSA-N 0.000 description 1
- 238000001914 filtration Methods 0.000 description 1
- 238000002156 mixing Methods 0.000 description 1
- 238000009527 percussion Methods 0.000 description 1
- 230000000630 rising effect Effects 0.000 description 1
- 230000005236 sound signal Effects 0.000 description 1
Images
Classifications
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L21/00—Speech or voice signal processing techniques to produce another audible or non-audible signal, e.g. visual or tactile, in order to modify its quality or its intelligibility
- G10L21/02—Speech enhancement, e.g. noise reduction or echo cancellation
- G10L21/0272—Voice signal separating
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L19/00—Speech or audio signals analysis-synthesis techniques for redundancy reduction, e.g. in vocoders; Coding or decoding of speech or audio signals, using source filter models or psychoacoustic analysis
- G10L19/008—Multichannel audio signal coding or decoding using interchannel correlation to reduce redundancy, e.g. joint-stereo, intensity-coding or matrixing
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L19/00—Speech or audio signals analysis-synthesis techniques for redundancy reduction, e.g. in vocoders; Coding or decoding of speech or audio signals, using source filter models or psychoacoustic analysis
- G10L19/02—Speech or audio signals analysis-synthesis techniques for redundancy reduction, e.g. in vocoders; Coding or decoding of speech or audio signals, using source filter models or psychoacoustic analysis using spectral analysis, e.g. transform vocoders or subband vocoders
-
- H—ELECTRICITY
- H04—ELECTRIC COMMUNICATION TECHNIQUE
- H04S—STEREOPHONIC SYSTEMS
- H04S5/00—Pseudo-stereo systems, e.g. in which additional channel signals are derived from monophonic signals by means of phase shifting, time delay or reverberation
- H04S5/005—Pseudo-stereo systems, e.g. in which additional channel signals are derived from monophonic signals by means of phase shifting, time delay or reverberation of the pseudo five- or more-channel type, e.g. virtual surround
-
- H—ELECTRICITY
- H04—ELECTRIC COMMUNICATION TECHNIQUE
- H04S—STEREOPHONIC SYSTEMS
- H04S2420/00—Techniques used stereophonic systems covered by H04S but not provided for in its groups
- H04S2420/03—Application of parametric coding in stereophonic audio systems
Landscapes
- Engineering & Computer Science (AREA)
- Physics & Mathematics (AREA)
- Acoustics & Sound (AREA)
- Signal Processing (AREA)
- Human Computer Interaction (AREA)
- Audiology, Speech & Language Pathology (AREA)
- Health & Medical Sciences (AREA)
- Computational Linguistics (AREA)
- Multimedia (AREA)
- Quality & Reliability (AREA)
- Mathematical Physics (AREA)
- Spectroscopy & Molecular Physics (AREA)
- Stereophonic System (AREA)
Abstract
채널간 진폭 스펙트럼은 오디오 소스의 믹스를 포함하는 2 이상의 오디오 입력 채널들로부터 다중 오디오 채널을 추출하는데 이용될 수 있다. 이러한 접근 방법은 단지 입력 채널들의 선형 조합이 아닌 다중 오디오 채널들을 생성하고, 따라서 예컨대, 블라인드 소스 분리(BSS) 알고리즘과 함께 사용될 수 있다.The interchannel amplitude spectrum can be used to extract multiple audio channels from two or more audio input channels containing a mix of audio sources. This approach produces multiple audio channels, not just a linear combination of input channels, and thus can be used, for example, with a blind source separation (BSS) algorithm.
Description
본 발명은 오디오 소스의 믹스를 포함하는 2 이상의 오디오 입력 채널로부터의 다중 오디오 채널의 추출에 관한 것으로, 더 상세하게는 추출을 수행하기 위한 채널간 진폭 스펙트럼의 이용에 관한 것이다.The present invention relates to the extraction of multiple audio channels from two or more audio input channels comprising a mix of audio sources, and more particularly to the use of interchannel amplitude spectra to perform extraction.
블라인드 소스 분리(BSS; Blind Source Separation)는 개개의 소스의 선형적인 혼합을 갖는 스테레오 채널로부터 개개의 원래의 오디오 소스를 추정할 필요가 있는 영역에 집중적으로 사용되는 한 종류의 방법이다. 선형적인 혼합 소스로부터 개개의 원래의 소스를 분리하는 것에 대한 어려움은, 많은 실제 애플리케이션에서 원래의 신호에 대해 알려진 바가 적거나 또는 신호들이 혼합된 방식에 대해 알려진 바가 적다는 것이다. 블라인드하게 디믹싱을 행하기 위하여, 일반적으로 신호의 통계적 특징에 대한 어떤 가정이 이루어진다.Blind Source Separation (BSS) is a type of method used intensively in areas where it is necessary to estimate each original audio source from a stereo channel with a linear mix of individual sources. The difficulty in separating individual original sources from linear mixed sources is that in many practical applications little is known about the original signal or little is known about how the signals are mixed. In order to blindly demix, some assumptions are generally made about the statistical characteristics of the signal.
독립 컴포넌트 분석(ICA; Independent Component Analysis)이 블라인드 소스 분리를 수행하는데 가장 널리 이용되는 한 방법이다. ICA는 오디오 소스가 통계적으로 독립적이고, 비정규 분포를 갖는다고 가정한다. 또한, 오디오 입력 채널의 수는 적어도 분리될 오디오 소스의 수만큼 커야만 한다. 게다가, 입력 채널은 선형적 으로 독립적이고; 그들 스스로의 선형 조합은 아니어야 한다. 즉, 예컨대, 목적이 추출이라면, 좌측 채널과 우측 채널의 선형 조합으로서 3 또는 4번째 채널을 형성하는 스테레오 믹스로부터 음성, 현악소리, 타악소리 등과 같은 3개 또는 아마도 4개의 오디오 소스는 충분하지 않을 것이다. ICA 알고리즘은 당업계에 잘 알려져 있고, 본 명세서에서 참조로서 인용되는, 1999년 4월 뉴럴 네트웍스, Aapo Hyvarinen 및 Erkki Oja저, "Independent Component Analysis: Algorithms and Applications"에 기술되어 있다.Independent Component Analysis (ICA) is one of the most widely used methods for performing blind source separation. ICA assumes that the audio sources are statistically independent and have a nonnormal distribution. In addition, the number of audio input channels must be at least as large as the number of audio sources to be separated. In addition, the input channels are linearly independent; It should not be their own linear combination. That is, for example, if the purpose is extraction, then three or possibly four audio sources, such as voice, strings, percussion, etc., from a stereo mix forming a third or fourth channel as a linear combination of left and right channels will not be sufficient. will be. ICA algorithms are well known in the art and described in April 1999 by Neural Networks, Aapo Hyvarinen and Erkki Oja, "Independent Component Analysis: Algorithms and Applications", which are hereby incorporated by reference.
유감스럽게도, 많은 실제 상황에서는 스테레오 믹스만이 이용 가능하다. 이는 믹스로부터 최대 2개의 오디오 소스를 분리하는 것에 대한, BSS 알고리즘 기반의 ICA를 심히 제한한다. 많은 애플리케이션에서, 오디오 믹싱 및 재생은 종래의 스테레오에서 5.1, 6.1 또는 심지어 더 높은 채널 구성을 갖는 다중 채널 오디오로 옮겨갔다. 다중 채널 오디오를 위해 막대한 카탈로그의 스테레오 음악을 리믹스할 수 있어야 한다는 큰 요구가 존재한다. 이를 효과적으로 수행하기 위해, 반드시 스테레오 믹스로부터 3 이상의 소스를 분리해야하는 것이 아니라면, 막대한 카탈로그의 스테레오 음악을 리믹스하는 것은 종종 매우 바람직할 것이다. 현재의 ICA 기술은 이를 지원할 수 없다.Unfortunately, in many practical situations only stereo mix is available. This severely limits the BSS algorithm-based ICA for separating up to two audio sources from the mix. In many applications, audio mixing and playback has moved from conventional stereo to multi-channel audio with 5.1, 6.1 or even higher channel configurations. There is a great need to be able to remix huge catalogs of stereo music for multichannel audio. In order to do this effectively, it would often be highly desirable to remix a huge catalog of stereo music, unless it is necessary to separate three or more sources from the stereo mix. Current ICA technology cannot support this.
본 발명의 몇 가지 양태에 대한 기본적인 이해를 제공하기 위해, 아래에 본 발명의 상세한 설명이 후속한다.To provide a basic understanding of some aspects of the invention, the following detailed description of the invention follows.
본 상세한 설명은 본 발명의 핵심 또는 중요한 요소들을 식별하도록, 또는 본 발명의 범위를 서술하도록 의도된 것은 아니다. 상세한 설명의 단 하나의 목적은 더 상세한 설명 및 후에 제시되는 청구 범위에 대한 서문으로서 본 발명의 일부 개념을 간단한 형태로 제시하는 것이다.This description is not intended to identify key or critical elements of the invention or to delineate the scope of the invention. Its sole purpose is to present some concepts of the invention in a simplified form as a prelude to the more detailed description and claims that follow.
본 발명은 단지 입력 채널들의 선형 조합이 아닌 2 이상의 오디오 입력 채널로부터 다중 오디오 출력 채널을 추출하는 방법을 제공한다. 이와 같은 출력 채널은, 예컨대, 적어도 분리될 소스만큼 많은 선형적으로 독립적인 입력 채널, 또는 직접적으로 리믹싱 애플리케이션에 대해서는 예컨대, 2.0 내지 5.1 입력 채널을 요구하는 블라인드 소스 분리(BSS) 알고리즘과 함께 이용될 수 있다.The present invention provides a method for extracting multiple audio output channels from two or more audio input channels rather than just a linear combination of input channels. Such output channels are used with, for example, blind source separation (BSS) algorithms that require at least as many linearly independent input channels as the source to be separated, or for example 2.0 to 5.1 input channels for a directly remixing application. Can be.
이는 오디오 소스의 믹스를 갖는 M개의 프레이밍된 오디오 입력 채널들 각각의 쌍에 대해 적어도 하나의 채널간 진폭 스펙트럼을 생성함으로써 구현된다. 예컨대, 이러한 진폭 스펙트럼은 입력 스펙트럼 쌍의 선형 차, 로그 차, 또는 놈 차, 또는 합산을 나타낼 수 있다. 그 다음, 채널간 진폭 스펙트럼의 각각의 스펙트럼 선은 적당하게 M-1 차원의 채널 추출 공간에서 N개의 정의된 출력들 중 하나에 맵핑된다. M개의 입력 채널들로부터의 데이터는 N개의 오디오 출력 채널들을 형성하기 위해 스펙트럼 맵핑에 따라 결합된다. 일 실시예에서, 입력 스펙트럼은 맵핑에 따라 결합되고, 결합된 스펙트럼은 역변환되며, N개의 오디오 출력 채널을 형성하기 위해 프레임들이 재결합된다. 다른 실시예에서, 대응하는 스펙트럼 맵을 이용하여, N개의 출력 각각에 대해 콘볼루션 필터가 구성된다. 입력 채널들은 N개의 필터들을 통과하고 N개의 오디오 출력 채널을 형성하기 위해 재결합된다.This is implemented by generating at least one interchannel amplitude spectrum for each pair of M framed audio input channels having a mix of audio sources. For example, such amplitude spectra can represent linear differences, log differences, or norm differences, or summations of pairs of input spectra. Each spectral line of the interchannel amplitude spectrum is then mapped to one of the N defined outputs in the channel extraction space of the M-1 dimension, as appropriate. Data from the M input channels are combined according to the spectral mapping to form N audio output channels. In one embodiment, the input spectrum is combined according to the mapping, the combined spectrum is inversely transformed, and the frames are recombined to form N audio output channels. In another embodiment, using a corresponding spectral map, a convolution filter is configured for each of the N outputs. The input channels pass through N filters and recombine to form N audio output channels.
당업자들에게 본 발명의 이런저런 특징 및 이점들은 첨부한 도면들과 함께, 바람직한 실시예들의 후속하는 상세한 설명으로부터 명백해질 것이다.These and other features and advantages of the present invention will become apparent to those skilled in the art from the following detailed description of the preferred embodiments, taken in conjunction with the accompanying drawings.
도 1은 채널 추출기, 및 오디오 믹스로부터 다중 오디오 소스를 분리하는 소스 분리기를 포함하는 블럭도이다.1 is a block diagram that includes a channel extractor and a source separator that separates multiple audio sources from an audio mix.
도 2는 본 발명에 따라 채널간 진폭 스펙트럼을 이용하여 추가의 오디오 채널을 추출하기 위한 블럭도이다.2 is a block diagram for extracting additional audio channels using the interchannel amplitude spectrum in accordance with the present invention.
도 3a 내지 3c는 채널간 진폭 스펙트럼으로부터 채널 추출 공간으로의 다양한 맵핑을 묘사하는 도면이다.3A-3C depict various mappings from the interchannel amplitude spectrum to the channel extraction space.
도 4는 스펙트럼 맵핑에 따라 입력 채널의 스펙트럼 합성을 이용하여 스테레오 믹스로부터 3개의 출력 채널을 추출하기 위한 예시적 실시예의 블럭도이다.4 is a block diagram of an exemplary embodiment for extracting three output channels from a stereo mix using spectral synthesis of input channels in accordance with spectral mapping.
도 5a 내지 5는 입력 오디오 프레임 시퀀스를 형성하기 위해 오디오 채널을 윈도잉하는 것을 묘사한 도면이다.5A-5 are diagrams depicting windowing audio channels to form an input audio frame sequence.
도 6는 스테레오 오디오 신호의 주파수 스펙트럼의 플롯이다.6 is a plot of the frequency spectrum of a stereo audio signal.
도 7은 차이 스펙트럼의 플롯이다.7 is a plot of the difference spectrum.
도 8은 입력 스펙트럼을 결합하는 2가지 상이한 접근 방법을 설명하는 표이다. 8 is a table illustrating two different approaches to combining input spectra.
도 9a 내지 9c는 3개의 출력 오디오 채널에 대해 결합된 스펙트럼의 플롯이다.9A-9C are plots of combined spectra for three output audio channels.
도 10은 스펙트럼 맵핑에 따라 입력 채널의 시간-도메인 합성을 수행하기 위해 콘볼루션 필터를 이용하는 대안적인 실시예의 블럭도이다.10 is a block diagram of an alternative embodiment of using a convolution filter to perform time-domain synthesis of an input channel in accordance with spectral mapping.
본 발명은 오디오 소스의 믹스를 포함하는 2 이상의 오디오 입력 채널로부터의 다중 오디오 채널을 추출하는 방법으로서, 더 상세하게는, 추출을 수행하기 위한 채널간 진폭 스펙트럼의 이용에 관한 방법을 제공한다. 이러한 접근 방법은 단지 입력 채널의 선형 결합이 아닌 다중 오디오 채널을 생성하고, 따라서, 예컨대, 블라인드 소스 분리(BSS) 알고리즘과 함께 이용되거나 또는 다양한 리믹싱 애플리케이션에 대해 직접 추가의 채널을 제공하는데 이용될 수 있다.The present invention provides a method for extracting multiple audio channels from two or more audio input channels comprising a mix of audio sources, and more particularly, provides a method for the use of interchannel amplitude spectra to perform extraction. This approach can be used to create multiple audio channels, not just linear combinations of input channels, and thus be used, for example, with blind source separation (BSS) algorithms or to provide additional channels directly for various remixing applications. Can be.
오직 예시적인 실시예로서, BSS 알고리즘을 이용하는 추출 기술에 대해 설명할 것이다. 상술한 바와 같이, 혼합 오디오 소스로부터 Q개의 원래의 오디오 소스를 추출하기 위한 BSS 알고리즘에 대해, BSS 알고리즘은 믹스를 가지고 있는 적어도 Q개의 선형적으로 독립적인 오디오 채널을 입력으로서 수신해야 한다. 도 1에 도시된 바와 같이, N>M개의 오디오 출력 채널(14)을 발생하기 위하여 본 발명에 따라 입력 채널의 채널간 진폭 스펙트럼을 이용하는 채널 추출기(12)에 M개의 오디오 입력 채널(10)이 입력된다. N개의 오디오 출력 채널로부터 Q개의 원래의 오디오 소스(18)를 분리하기 위하여, 소스 분리기(16)는 BSS 알고리즘 기반의 ICA를 실행하는데, 여기서 Q≤N이다. 예를 들어, 채널 추출기와 소스 분리기가 함께 사용될 때, 이들은 종래의 스테레오 믹스로부터 4 이상의 오디오 소스를 추출할 수 있다. 이는 현재는 스테레오 형식으로만 존재하는 음악 카탈로그의 다중-채널 구성으로의 리믹싱에 대한 좋은 응용예를 발견할 것이다.As an example embodiment, an extraction technique using the BSS algorithm will be described. As mentioned above, for a BSS algorithm for extracting Q original audio sources from a mixed audio source, the BSS algorithm must receive as input at least Q linearly independent audio channels having a mix. As shown in Fig. 1, M < RTI ID = 0.0 >
도 2에 도시된 바와 같이, 채널 추출기는 채널간 진폭 스펙트럼을 이용하는 알고리즘을 실행한다. 채널 추출기는 M개의 오디오 입력 채널(10) 각각을 각각의 입력 스펙트럼으로 변환하는데, 여기서 M은 적어도 2이다(단계 20). 주파수 스펙트럼을 발생시키기 위해, 예컨대, 고속 푸리에 변환(FFT; fast fourier transform) 또는 DCT, MDCT 또는 웨이블렛이 이용될 수 있다. 그 다음, 채널 추출기는 적어도 한 쌍의 입력 채널에 대해 입력 스펙트럼으로부터 적어도 하나의 채널간 진폭 스펙트럼을 생성한다(단계 22). 예를 들어, 이러한 채널간 진폭 스펙트럼은 입력 스펙트럼 쌍에 대해 스펙트럼 선의 선형 차, 로그 차, 또는 놈 차, 또는 합산을 나타낸다. 더 상세하게, 'A' 및 'B'가 제1 채널 및 제2 채널에 대한 스펙트럼 선의 진폭이라면, A-B는 선형 차, Log(A)-Log(B)는 로그 차, (A2- B2)은 L2 놈 차이고, A+B는 합산이다. 2개의 채널의 채널간 진폭 관계를 비교하기 위해, A와 B의 많은 다른 함수 f(A,B)가 사용될 수 있다는 것은 당업자들에게 명백할 것이다.As shown in FIG. 2, the channel extractor executes an algorithm that uses the interchannel amplitude spectrum. The channel extractor converts each of the M
채널 추출기는, 적당하게는 M-1 차원의 채널 추출 공간에서, 채널간 진폭 스펙트럼에 대한 각각의 스펙트럼 선을 N개의 정의된 출력들 중 하나에 맵핑한다(단계 24). 도 3a에 도시된 바와 같이, 1-차원 공간(26)에 출력 S1(∞,-3db), S2(-3db, +3db), 및 S3(+3db,∞)을 정의하기 위해, 한 쌍의 입력 채널 (L/R)에 대한 로그 차는 -3db 및 +3db에서 문턱값 처리된다. 특정 스펙트럼 선의 진폭을 Odb이라 하면, 이 진폭은 출력 S2등으로 맵핑된다. 추가의 문턱값을 정의함으로써, 맵핑은 N>3까지 쉽게 확장된다. 도 3b에 도시된 바와 같이, 3개의 입력 채널 L, R 및 C는 2-차원 채널 추출 공간(28)에서 13개의 출력 채널 S1, S2 ... S13로 맵핑된다. L/C의 로그 차는 R/C의 로그 차에 대해 플롯팅되고, 16개의 셀을 정의하기 위해 문턱값 처리된다. 이러한 특정 예에서, 맨 끝 모서리 셀들은 모두 동일한 출력 S1으로 맵핑된다. 예를 들어, 원하는 개수의 출력 또는 입력 채널들의 사운드 필드 관계의 임의의 사전 지식에 따라, 셀들의 다른 조합이 가능하다. 각각의 스펙트럼 선에 대해, R/C 및 L/C의 로그 차의 진폭은 공간내에 맵핑되고 적당한 출력에 할당된다. 이러한 방식으로, 각각의 스펙트럼 선은 단일 출력으로만 맵핑된다. 대안으로서, 도 3a에 도시된 바와 같이, 1-차원 공간에서 R/C 및 L/C 채널간 진폭 스펙트럼은 개별적으로 문턱값 처리될 수 있다. 다른 2-차원 채널 추출 공간(30)에서 3개 입력 채널 L,R 및 C의 9개의 출력으로의 대안적인 맵핑이 도 3c에 도시되어 있다. 이러한 3개의 예들은, 채널간 진폭 스펙트럼이 많은 다른 방식으로 N개의 출력으로 맵핑될 수 있고, 또한 임의의 개수의 입력 및 출력 채널로 원리가 확장된다는 것을 보여주기 위해 의도된 것이다. 각각의 스펙트럼 선은 M-1 차원의 추출 공간에서 고유의 출력으로 맵핑될 수 있다.The channel extractor maps each spectral line for the interchannel amplitude spectrum to one of the N defined outputs, suitably in the channel extraction space of the M-1 dimension (step 24). As shown in FIG. 3A, to define the outputs S 1 (∞, -3db), S 2 (-3db, + 3db), and S 3 (+ 3db, ∞) in the one-
일단 각각의 스펙트럼 선이 N개의 출력 중 하나에 맵핑되면, 채널 추출기는 맵팽에 따라 N개의 출력 각각에 대해 M개의 입력 채널의 데이터를 결합한다(단계 32). 예를 들어, 도 3a에 도시된, 출력 S1, S2 및 S3로 맵핑된 스테레오 채널 L 및 R의 경우와, 또한 입력 스펙트럼이 8개의 스펙트럼 선을 갖는 상황을 가정하자. 채널간 진폭 스펙트럼에 기초하여, 선 1-3은 S1로 맵핑되고, 선 4-6은 S2로 맵핑되며, 선 7-8은 S2로 맵핑된다면, 채널 추출기는 선 1, 2, 및 3 각각에 대해 입력 데이터를 결합하고, 결합된 데이터를 오디오 출력 채널 등으로 보낼 것이다. 일반적으로, 입력 데이터는 가중치화된 평균으로서 결합된다. 이 가중치는 같거나 또는 변할 수 있다. 예를 들어, 입력 채널들 L, R, 및 C의 사운드 필드 관계에 관한 특정 정보가 알려져 있다면, 이 특정 정보는 가중치 선택에 영향을 줄 수 있다. 예를 들어, L≫R라면, 조합에서 더 비중있는 L 채널을 가중치로서 선택할 수 있다. 또한, 가중치는 출력 모두에 대해 동일하거나 또는 같거나 다른 이유로 변할 수 있다.Once each spectral line is mapped to one of the N outputs, the channel extractor combines the data of the M input channels for each of the N outputs according to the mappin (step 32). For example, the outputs S 1 , S 2 , shown in FIG. 3A Assume the case of stereo channels L and R mapped to and S 3 and also the situation where the input spectrum has eight spectral lines. Based on the inter-channel amplitude spectrum, if lines 1-3 are mapped to S 1 , lines 4-6 are mapped to S 2 , and lines 7-8 are mapped to S 2 , the channel extractor is selected from
입력 데이터는 주파수-도메인 또는 시간-도메인 합성을 이용하여 결합될 수 있다. 도 4 내지 도 9에 도시된 바와 같이, 입력 스펙트럼은 맵핑에 따라 결합되고, 결합된 스펙트럼은 역변환되며, N개의 오디오 출력 채널을 형성하기 위하여 프레임들은 재결합된다. 도 10에 도시된 바와 같이, 대응하는 스펙트럼 맵을 이용하여 N개의 출력 각각에 대해 콘볼루션 필터가 구성된다. 입력 채널들은 N개의 필터를 통과하고 N개의 오디오 출력 채널을 형성하기 위하여 재결합된다.The input data can be combined using frequency-domain or time-domain synthesis. As shown in Figures 4-9, the input spectra are combined according to the mapping, the combined spectra are inverse transformed, and the frames are recombined to form N audio output channels. As shown in FIG. 10, a convolution filter is configured for each of the N outputs using the corresponding spectral map. The input channels pass through N filters and recombine to form N audio output channels.
도 4 내지 도 10은 입력 채널의 스테레오 쌍(M=2)으로부터의 N=3개의 출력 채널을 추출하는 경우에 대한 채널 추출 알고리즘의 예시적 실시예에 대하여 상세하게 도시하고 있다. 적당히 오버랩핑된 프레임(48)(좌측 프레임)의 각각의 시퀀스를 생성하기 위하여, 채널 추출기는 윈도우(38), 예컨대, 상승 코사인, 해밍 또는 해닝 윈도우를 좌측 및 우측 오디오 입력 신호(44, 46)에 적용한다(단계 40, 42). 좌측 입력 스펙트럼(54) 및 우측 입력 스펙트럼(56)을 발생시키기 위하여, FFT를 이용하여 각각의 프레임이 주파수 변환된다. 이러한 실시예에서, 채널간 진폭 스펙트럼(58)을 생성하기 위하여, 입력 스펙트럼(54, 56)의 각각의 스펙트럼 선의 로그 차가 계산된다(단계 60). 1-D 채널 추출 공간(62), 예컨대, 출력 S1, S2 및 S3의 경계를 짓는 -3db 및 +3db 문턱값이 정의되고(단계 64), 채널간 진폭 스펙트럼(58)의 각각의 스펙트럼 선은 적당한 출력으로 맵핑된다(단계 66).4-10 illustrate in detail an exemplary embodiment of a channel extraction algorithm for the case of extracting N = 3 output channels from a stereo pair (M = 2) of an input channel. In order to generate each sequence of moderately overlapped frames 48 (left frame), the channel extractor uses a
일단 맵핑이 완료되면, 채널 추출기는 맵핑에 따라 3개의 출력 각각에 대해, 입력 스펙트럼(54 및 56), 예컨대, 스펙트럼 선의 진폭 계수들을 결합한다(단계 67). 도 8 및 도 9a-9c에 도시된 바와 같이, 경우 1에서는, 각각의 오디오 출력 채널 스펙트럼(68, 70, 72)을 발생시키기 위하여, 채널들은 똑같이 가중치화되고, 가중치들은 동일하다. 도시된 바와 같이, 주어진 스펙트럼 선에 대하여, 입력 스펙트럼은 하나의 출력에 대해서만 결합된다. 경우 2에서는, 아마도 L/R 사운드 필드에 대한 사전 지식을 갖는다면, 스펙트럼 선이 출력 1로 맵핑되는 경우(L≫R), L 입력 채널만이 통과된다. L 및 R이 거의 비슷하다면, L 및 R은 동일하게 가중치화되고, R≫L인 경우, R입력 채널만이 통과된다. 3개의 오디오 출력 채널(86, 88 및 90)을 발생시키기 위해, 각각의 출력 스펙트럼의 연속하는 프레임들이 역변환되고(단계 74, 76, 78), 프레임들은 표준 오버랩-가산 재구성일 이용하여 재결합된다(단계 80, 82, 84).Once the mapping is complete, the channel extractor combines the amplitude coefficients of the
각각의 출력 채널들에 대하여 3개의 '맵(106a, 106b, 및 106c)' 1을 구성하기 위하여, 좌측 및 우측 입력 채널들이 해닝 윈도우와 같은 윈도우를 갖는 프레임 들로 분할되고(단계 100), 입력 스펙트럼을 형성하기 위하여 FFT를 이용하여 변환되며(단계 102), 차이 스펙트럼을 형성하고, 문턱값들(-3db 및 +3db)에 대해 각각의 스펙트럼 선을 비교함으로써 스펙트럼 선들로 분리되는(단계 104), 스테레오 쌍으로부터 3개의 오디오 출력 채널을 추출하기 위해 시간-도메인 합성을 이용하는 대안적인 실시예가 도 10에 도시되어 있다. 맵의 성분은, 스펙트럼 선의 차이가 대응하는 카테고리 내에 있는 경우 1(one)로 설정되고, 스펙트럼 선의 차이가 대응하는 카테고리 내에 있지 않은 경우에는 0(zero)으로 설정된다. 이러한 단계들은 도 4에 도시된 단계들(40-66)과 동일하다.In order to construct three '
입력 채널들은 대응하는 스펙트럼 맵을 이용하여 N개의 출력 각각에 대해 구성된 콘볼루션 필터를 통과하고, M×N개의 부분적인 결과들은 합산되며, N개의 오디오 출력 채널들을 형성하기 위하여, 프레임들이 재결합된다(단계 108). 인위적인 결과(artifact)를 감소시키기 위해, 곱셈처리 이전에 맵에 스무딩 처리(smoothing)가 적용될 수 있다. 스무딩 처리는 아래와 같은 공식으로 행해질 수 있다.The input channels pass through a convolution filter configured for each of the N outputs using the corresponding spectral map, the M × N partial results are summed, and the frames are recombined to form N audio output channels ( Step 108). In order to reduce artificial artifacts, smoothing may be applied to the map prior to multiplication. The smoothing process can be performed by the following formula.
다른 스무딩 방법도 가능하다. 도면에 도시된 바와 같이, 가중치화가 요구되지 않는 경우, 입력 채널의 합산(단계 110)은 필터링 이전에 행해질 수 있다.Other smoothing methods are possible. As shown in the figure, if weighting is not required, the summation of the input channels (step 110) may be done prior to filtering.
본 발명의 몇몇 예시적 실시예들이 도시되고 설명되었지만, 당업자들에는 많은 변경 및 대안적 실시예들이 발생할 것이다. 이와 같은 변경 및 대안적 실시예들이 고려되면 첨부된 청구 범위에 정의된 바와 같은 본 발명의 정신 및 범위를 벗어 나지 않고 행해질 수 있다.While some exemplary embodiments of the invention have been shown and described, many modifications and alternative embodiments will occur to those skilled in the art. Such modifications and alternative embodiments may be taken into consideration without departing from the spirit and scope of the invention as defined in the appended claims.
Claims (21)
Applications Claiming Priority (2)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
US11/296,730 | 2005-12-06 | ||
US11/296,730 US20070135952A1 (en) | 2005-12-06 | 2005-12-06 | Audio channel extraction using inter-channel amplitude spectra |
Publications (1)
Publication Number | Publication Date |
---|---|
KR20080091099A true KR20080091099A (en) | 2008-10-09 |
Family
ID=38123391
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
KR1020087014637A Withdrawn KR20080091099A (en) | 2005-12-06 | 2006-12-01 | Audio Channel Extraction Using Interchannel Amplitude Spectrum |
Country Status (14)
Country | Link |
---|---|
US (1) | US20070135952A1 (en) |
EP (1) | EP1958086A4 (en) |
JP (1) | JP2009518684A (en) |
KR (1) | KR20080091099A (en) |
CN (1) | CN101405717B (en) |
AU (1) | AU2006322079A1 (en) |
BR (1) | BRPI0619468A2 (en) |
CA (1) | CA2632496A1 (en) |
IL (1) | IL191701A0 (en) |
MX (1) | MX2008007226A (en) |
NZ (1) | NZ568402A (en) |
RU (1) | RU2432607C2 (en) |
TW (1) | TW200739366A (en) |
WO (1) | WO2007067429A2 (en) |
Cited By (2)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
US9608294B2 (en) | 2013-07-10 | 2017-03-28 | Lg Chem, Ltd. | Electrode assembly having step portion in stabilized stacking and method of manufacturing the same |
KR20190013756A (en) * | 2016-05-20 | 2019-02-11 | 프라운호퍼 게젤샤프트 쭈르 푀르데룽 데어 안겐반텐 포르슝 에. 베. | Apparatus and method for processing multi-channel audio signals |
Families Citing this family (12)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
JP5082327B2 (en) * | 2006-08-09 | 2012-11-28 | ソニー株式会社 | Audio signal processing apparatus, audio signal processing method, and audio signal processing program |
CN102138176B (en) * | 2008-07-11 | 2013-11-06 | 日本电气株式会社 | Signal analyzing device, signal control device, and method therefor |
US8954323B2 (en) * | 2009-02-13 | 2015-02-10 | Nec Corporation | Method for processing multichannel acoustic signal, system thereof, and program |
JP5605575B2 (en) * | 2009-02-13 | 2014-10-15 | 日本電気株式会社 | Multi-channel acoustic signal processing method, system and program thereof |
KR20120132342A (en) * | 2011-05-25 | 2012-12-05 | 삼성전자주식회사 | Apparatus and method for removing vocal signal |
US20150036827A1 (en) * | 2012-02-13 | 2015-02-05 | Franck Rosset | Transaural Synthesis Method for Sound Spatialization |
US10321252B2 (en) | 2012-02-13 | 2019-06-11 | Axd Technologies, Llc | Transaural synthesis method for sound spatialization |
FR2996043B1 (en) * | 2012-09-27 | 2014-10-24 | Univ Bordeaux 1 | METHOD AND DEVICE FOR SEPARATING SIGNALS BY SPATIAL FILTRATION WITH MINIMUM VARIANCE UNDER LINEAR CONSTRAINTS |
US10037750B2 (en) * | 2016-02-17 | 2018-07-31 | RMXHTZ, Inc. | Systems and methods for analyzing components of audio tracks |
US9820073B1 (en) | 2017-05-10 | 2017-11-14 | Tls Corp. | Extracting a common signal from multiple audio signals |
CN113611323B (en) * | 2021-05-07 | 2024-02-20 | 北京至芯开源科技有限责任公司 | Voice enhancement method and system based on double-channel convolution attention network |
CN117198313B (en) * | 2023-08-17 | 2024-07-02 | 珠海全视通信息技术有限公司 | Sidetone eliminating method, sidetone eliminating device, electronic equipment and storage medium |
Family Cites Families (11)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
DE4217276C1 (en) * | 1992-05-25 | 1993-04-08 | Fraunhofer-Gesellschaft Zur Foerderung Der Angewandten Forschung Ev, 8000 Muenchen, De | |
US6526148B1 (en) * | 1999-05-18 | 2003-02-25 | Siemens Corporate Research, Inc. | Device and method for demixing signal mixtures using fast blind source separation technique based on delay and attenuation compensation, and for selecting channels for the demixed signals |
US6321200B1 (en) * | 1999-07-02 | 2001-11-20 | Mitsubish Electric Research Laboratories, Inc | Method for extracting features from a mixture of signals |
US6430528B1 (en) * | 1999-08-20 | 2002-08-06 | Siemens Corporate Research, Inc. | Method and apparatus for demixing of degenerate mixtures |
US20040062401A1 (en) * | 2002-02-07 | 2004-04-01 | Davis Mark Franklin | Audio channel translation |
US7660424B2 (en) * | 2001-02-07 | 2010-02-09 | Dolby Laboratories Licensing Corporation | Audio channel spatial translation |
US7292901B2 (en) * | 2002-06-24 | 2007-11-06 | Agere Systems Inc. | Hybrid multi-channel/cue coding/decoding of audio signals |
US7583805B2 (en) * | 2004-02-12 | 2009-09-01 | Agere Systems Inc. | Late reverberation-based synthesis of auditory scenes |
JP3950930B2 (en) * | 2002-05-10 | 2007-08-01 | 財団法人北九州産業学術推進機構 | Reconstruction method of target speech based on split spectrum using sound source position information |
US7039204B2 (en) * | 2002-06-24 | 2006-05-02 | Agere Systems Inc. | Equalization for audio mixing |
JP2006163178A (en) * | 2004-12-09 | 2006-06-22 | Mitsubishi Electric Corp | Encoding device and decoding device |
-
2005
- 2005-12-06 US US11/296,730 patent/US20070135952A1/en not_active Abandoned
-
2006
- 2006-10-05 TW TW095137143A patent/TW200739366A/en unknown
- 2006-12-01 EP EP06838794.3A patent/EP1958086A4/en not_active Withdrawn
- 2006-12-01 WO PCT/US2006/046017 patent/WO2007067429A2/en active Search and Examination
- 2006-12-01 MX MX2008007226A patent/MX2008007226A/en not_active Application Discontinuation
- 2006-12-01 RU RU2008127329/09A patent/RU2432607C2/en not_active IP Right Cessation
- 2006-12-01 CA CA002632496A patent/CA2632496A1/en not_active Abandoned
- 2006-12-01 NZ NZ568402A patent/NZ568402A/en not_active IP Right Cessation
- 2006-12-01 KR KR1020087014637A patent/KR20080091099A/en not_active Withdrawn
- 2006-12-01 JP JP2008544391A patent/JP2009518684A/en active Pending
- 2006-12-01 AU AU2006322079A patent/AU2006322079A1/en not_active Abandoned
- 2006-12-01 BR BRPI0619468-0A patent/BRPI0619468A2/en not_active Application Discontinuation
- 2006-12-01 CN CN2006800459938A patent/CN101405717B/en not_active Expired - Fee Related
-
2008
- 2008-05-26 IL IL191701A patent/IL191701A0/en unknown
Cited By (3)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
US9608294B2 (en) | 2013-07-10 | 2017-03-28 | Lg Chem, Ltd. | Electrode assembly having step portion in stabilized stacking and method of manufacturing the same |
KR20190013756A (en) * | 2016-05-20 | 2019-02-11 | 프라운호퍼 게젤샤프트 쭈르 푀르데룽 데어 안겐반텐 포르슝 에. 베. | Apparatus and method for processing multi-channel audio signals |
US11929089B2 (en) | 2016-05-20 | 2024-03-12 | Fraunhofer-Gesellschaft zur Förderung der angewandten Forschung e.V. | Apparatus and method for processing a multichannel audio signal |
Also Published As
Publication number | Publication date |
---|---|
CA2632496A1 (en) | 2007-06-14 |
CN101405717A (en) | 2009-04-08 |
CN101405717B (en) | 2010-12-15 |
JP2009518684A (en) | 2009-05-07 |
EP1958086A2 (en) | 2008-08-20 |
RU2432607C2 (en) | 2011-10-27 |
HK1128786A1 (en) | 2009-11-06 |
WO2007067429A2 (en) | 2007-06-14 |
TW200739366A (en) | 2007-10-16 |
WO2007067429A3 (en) | 2008-09-12 |
US20070135952A1 (en) | 2007-06-14 |
RU2008127329A (en) | 2010-01-20 |
IL191701A0 (en) | 2008-12-29 |
MX2008007226A (en) | 2008-11-19 |
BRPI0619468A2 (en) | 2011-10-04 |
AU2006322079A1 (en) | 2007-06-14 |
NZ568402A (en) | 2011-05-27 |
EP1958086A4 (en) | 2013-07-17 |
WO2007067429B1 (en) | 2008-10-30 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
KR20080091099A (en) | Audio Channel Extraction Using Interchannel Amplitude Spectrum | |
JP5507596B2 (en) | Speech enhancement | |
CN1151705C (en) | Multi-channel low bit rate encoding and decoding method and device | |
KR101280253B1 (en) | Method for separating source signals and its apparatus | |
US20070076902A1 (en) | Method and Apparatus for Removing or Isolating Voice or Instruments on Stereo Recordings | |
WO1999052211A1 (en) | Convolutive blind source separation using a multiple decorrelation method | |
EP2206113A1 (en) | Device and method for generating a multi-channel signal using voice signal processing | |
CN102447993A (en) | Sound scene manipulation | |
CN106233382A (en) | A kind of signal processing apparatus that several input audio signals are carried out dereverberation | |
JP2009518684A5 (en) | ||
EP2940687A1 (en) | Methods and systems for processing and mixing signals using signal decomposition | |
Shujau et al. | Separation of speech sources using an acoustic vector sensor | |
EP4165633B1 (en) | Methods, apparatus, and systems for detection and extraction of spatially-identifiable subband audio sources | |
HK1128786B (en) | Method and equipment for audio channel extraction using inter-channel amplitude spectra | |
RU2805124C1 (en) | Separation of panoramic sources from generalized stereophones using minimal training | |
Muhsina et al. | Signal enhancement of source separation techniques | |
US12367887B2 (en) | Separation of panned sources from generalized stereo backgrounds using minimal training | |
EP4165634B1 (en) | Separation of panned sources from generalized stereo backgrounds using minimal training | |
US11087733B1 (en) | Method and system for designing a modal filter for a desired reverberation | |
WO2017176968A1 (en) | Audio source separation | |
CN114550700A (en) | Multi-channel speech recognition method combining instantaneous frequency | |
KR100571922B1 (en) | Method and apparatus for using spatial inverse filter | |
Su et al. | An improved cumulant-based blind speech separation method | |
Maurya | Interference Unmixing and Estimation Technique for Improvement of Speech Separation Performance | |
Gavelin et al. | Bind Source Separation |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PA0105 | International application |
Patent event date: 20080617 Patent event code: PA01051R01D Comment text: International Patent Application |
|
N231 | Notification of change of applicant | ||
PN2301 | Change of applicant |
Patent event date: 20080618 Comment text: Notification of Change of Applicant Patent event code: PN23011R01D |
|
PG1501 | Laying open of application | ||
PC1203 | Withdrawal of no request for examination | ||
WITN | Application deemed withdrawn, e.g. because no request for examination was filed or no examination fee was paid |