KR100460159B1 - Audio signal encoding method and apparatus - Google Patents
Audio signal encoding method and apparatus Download PDFInfo
- Publication number
- KR100460159B1 KR100460159B1 KR1019970010242A KR19970010242A KR100460159B1 KR 100460159 B1 KR100460159 B1 KR 100460159B1 KR 1019970010242 A KR1019970010242 A KR 1019970010242A KR 19970010242 A KR19970010242 A KR 19970010242A KR 100460159 B1 KR100460159 B1 KR 100460159B1
- Authority
- KR
- South Korea
- Prior art keywords
- filter bank
- signal
- audio signal
- wavelet
- filter
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Expired - Lifetime
Links
- 238000000034 method Methods 0.000 title claims abstract description 43
- 230000005236 sound signal Effects 0.000 title claims description 43
- 238000000354 decomposition reaction Methods 0.000 claims description 41
- 230000002159 abnormal effect Effects 0.000 claims description 21
- 230000004044 response Effects 0.000 claims description 18
- 238000001914 filtration Methods 0.000 claims description 11
- 238000013139 quantization Methods 0.000 claims description 9
- 238000005070 sampling Methods 0.000 claims description 4
- 230000003044 adaptive effect Effects 0.000 abstract description 15
- 238000007906 compression Methods 0.000 description 15
- 230000006835 compression Effects 0.000 description 15
- 206010042602 Supraventricular extrasystoles Diseases 0.000 description 14
- 239000011159 matrix material Substances 0.000 description 10
- 230000002123 temporal effect Effects 0.000 description 10
- 238000004458 analytical method Methods 0.000 description 8
- 230000006870 function Effects 0.000 description 8
- 238000012545 processing Methods 0.000 description 7
- 230000008901 benefit Effects 0.000 description 6
- 230000006837 decompression Effects 0.000 description 6
- 238000013461 design Methods 0.000 description 6
- 238000005457 optimization Methods 0.000 description 6
- 230000007704 transition Effects 0.000 description 6
- 238000004891 communication Methods 0.000 description 5
- 238000010586 diagram Methods 0.000 description 4
- 230000000873 masking effect Effects 0.000 description 4
- 238000003860 storage Methods 0.000 description 4
- 238000013459 approach Methods 0.000 description 3
- 230000005540 biological transmission Effects 0.000 description 3
- 230000004048 modification Effects 0.000 description 3
- 238000012986 modification Methods 0.000 description 3
- 230000008569 process Effects 0.000 description 3
- BXBVPYSHEOQGHP-UHFFFAOYSA-N Nordihydrocapsiate Chemical compound COC1=CC(COC(=O)CCCCCC(C)C)=CC=C1O BXBVPYSHEOQGHP-UHFFFAOYSA-N 0.000 description 2
- 230000008859 change Effects 0.000 description 2
- 238000010276 construction Methods 0.000 description 2
- 238000013500 data storage Methods 0.000 description 2
- 238000009792 diffusion process Methods 0.000 description 2
- 238000009826 distribution Methods 0.000 description 2
- 230000000694 effects Effects 0.000 description 2
- 230000007246 mechanism Effects 0.000 description 2
- 230000007480 spreading Effects 0.000 description 2
- 238000003892 spreading Methods 0.000 description 2
- 230000001755 vocal effect Effects 0.000 description 2
- 101000822695 Clostridium perfringens (strain 13 / Type A) Small, acid-soluble spore protein C1 Proteins 0.000 description 1
- 101000655262 Clostridium perfringens (strain 13 / Type A) Small, acid-soluble spore protein C2 Proteins 0.000 description 1
- 101000655256 Paraclostridium bifermentans Small, acid-soluble spore protein alpha Proteins 0.000 description 1
- 101000655264 Paraclostridium bifermentans Small, acid-soluble spore protein beta Proteins 0.000 description 1
- 230000005856 abnormality Effects 0.000 description 1
- 230000009286 beneficial effect Effects 0.000 description 1
- 230000015572 biosynthetic process Effects 0.000 description 1
- 238000004364 calculation method Methods 0.000 description 1
- 239000012141 concentrate Substances 0.000 description 1
- 125000004122 cyclic group Chemical group 0.000 description 1
- 238000013144 data compression Methods 0.000 description 1
- 230000007547 defect Effects 0.000 description 1
- 230000001419 dependent effect Effects 0.000 description 1
- 238000005516 engineering process Methods 0.000 description 1
- 238000011156 evaluation Methods 0.000 description 1
- 239000011521 glass Substances 0.000 description 1
- 230000006872 improvement Effects 0.000 description 1
- WABPQHHGFIMREM-UHFFFAOYSA-N lead(0) Chemical compound [Pb] WABPQHHGFIMREM-UHFFFAOYSA-N 0.000 description 1
- 238000001228 spectrum Methods 0.000 description 1
- 238000003786 synthesis reaction Methods 0.000 description 1
- 239000002699 waste material Substances 0.000 description 1
Images
Classifications
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L19/00—Speech or audio signals analysis-synthesis techniques for redundancy reduction, e.g. in vocoders; Coding or decoding of speech or audio signals, using source filter models or psychoacoustic analysis
- G10L19/02—Speech or audio signals analysis-synthesis techniques for redundancy reduction, e.g. in vocoders; Coding or decoding of speech or audio signals, using source filter models or psychoacoustic analysis using spectral analysis, e.g. transform vocoders or subband vocoders
-
- G—PHYSICS
- G11—INFORMATION STORAGE
- G11B—INFORMATION STORAGE BASED ON RELATIVE MOVEMENT BETWEEN RECORD CARRIER AND TRANSDUCER
- G11B20/00—Signal processing not specific to the method of recording or reproducing; Circuits therefor
- G11B20/10—Digital recording or reproducing
Landscapes
- Engineering & Computer Science (AREA)
- Signal Processing (AREA)
- Physics & Mathematics (AREA)
- Spectroscopy & Molecular Physics (AREA)
- Computational Linguistics (AREA)
- Health & Medical Sciences (AREA)
- Audiology, Speech & Language Pathology (AREA)
- Human Computer Interaction (AREA)
- Acoustics & Sound (AREA)
- Multimedia (AREA)
- Compression, Expansion, Code Conversion, And Decoders (AREA)
Abstract
본 발명의 오디오 코딩 기술은 제 1 필터 뱅크와 웨이브렛 필터 뱅크를 갖는 신호 적응성 스위치 필터 뱅크(signal adaptive switched filterbank)를 이용한다. 필터 뱅크는 입력 신호의 정상성(stationarity)의 함수로서 입력 신호를 필터링하도록 제 1 필터 뱅크와 웨이브렛 필터 뱅크 사이를 스위칭한다. 제 1 필터 뱅크는 정상 신호 성분들(stationary signal components)을 필터링하도록 이용된다. 웨이브렛 필터 뱅크는 비정상 신호 성분들(non-stationary signal components; 예컨대, 발성들(attacks))을 필터링하기 위해 사용된다.The audio coding technique of the present invention utilizes a signal adaptive switched filterbank having a first filter bank and a wavelet filter bank. The filter bank switches between the first filter bank and the wavelet filter bank to filter the input signal as a function of the stationarity of the input signal. The first filter bank is used to filter stationary signal components. The wavelet filter bank is used to filter non-stationary signal components (eg, attachments).
Description
본 출원은 1996년 3월 19일 출원된 미국 가출원 제 60/014,725 호의 우선권을 주장한다.This application claims the priority of US Provisional Application No. 60 / 014,725, filed March 19, 1996.
본 발명은 신호들의 처리에 관한 것으로, 특히, 서브 밴드 코딩 설계들, 예컨대, 지각 오디오 코딩(perceptual audio coding)을 사용하는 오디오 신호의 인코딩에 관한 것이다.TECHNICAL FIELD The present invention relates to the processing of signals, and in particular, to the encoding of an audio signal using subband coding designs, such as perceptual audio coding.
소비자, 생산자, 스튜디오 및 연구실에서는 양질의 오디오 신호들을 저장, 처리 및 통신하기 위한 제품들에 대한 많은 수요들이 있다. 매우 낮은 비트율들에서 오디오 신호들의 압축은 디지털 오디오 테이프, 콤팩트디스크들 및 멀티미디어 응용들과 같은 많은 최근의 디지털 오디오 응용들에 대해 매우 바람직하다. 이러한 디지털 응용들에 이용된 압축 기술들은 양질의 신호들을 처리할 수 있다. 그러나, 그러한 성능은 종종 많은 데이터 저장 용량 및 전송 대역폭을 통해 달성된다.Consumers, producers, studios and laboratories have high demands for products for storing, processing and communicating high quality audio signals. Compression of audio signals at very low bit rates is very desirable for many modern digital audio applications such as digital audio tapes, compact discs and multimedia applications. The compression techniques used in these digital applications can process good signals. However, such performance is often achieved through large amounts of data storage capacity and transmission bandwidth.
압축 영역의 많은 작업량은 디지털 오디오의 코딩에서 데이터 저장 및 전송 대역폭 요구들을 줄이도록 노력하여 왔다. 그러한 압축 기술은 인간의 지각 시스템의 모델을 사용함으로써 소스 신호들의 무관한 정보를 제거한다. 이러한 지각 오디오 코딩(이하, "PAC") 기술은, 예컨대 발명의 명칭이 "지각 모델을 기초하여 오디오 신호들을 코딩하기 위한 방법 및 장치(Method and Apparatus for Coding Audio Signals Based on Perceptual Model)"인, 1994년 2월 8일, 발행된 제이. 디이. 존스톤(J. D. Johnston)의 미국 특허 제 5,285,498 호에 개시되며, 본 명세서에 참조에 의해 편입된다(이하, "존스톤" 특허로 부른다).Large workloads in the compression domain have sought to reduce data storage and transmission bandwidth requirements in the coding of digital audio. Such compression techniques remove the extraneous information of the source signals by using a model of the human perceptual system. This perceptual audio coding ("PAC") technique, for example, is entitled "Method and Apparatus for Coding Audio Signals Based on Perceptual Model". Jay, published February 8, 1994. Dee. J. D. Johnston, US Pat. No. 5,285,498, which is incorporated herein by reference (hereinafter referred to as the "Johnston" patent).
예컨대, 존스톤 특허에서 기술된 바와 같이 지각 오디오 코딩은 오디오 신호들을 나타내는데 요구된 비트율들 또는 총 비트들의 수를 낮추기 위한 기술이다. PAC 기술은 주파수의 함수로서 단기간 에너지 분배를 이용한다. 이러한 에너지 분배로부터, 바로 인식할 수 있는 노이즈 레벨들을 나타내는 한 세트의 문턱값들이 계산될 수 있음은 공지되어 있다. 이 때, 그 중에서도, 원하는 신호의 신호 성분을 나타내도록 사용된 양자화의 조잡도(coarseness)는 코딩 자신에 의해 유도된 양자화 노이즈가 노이즈 문턱값들 위로 상승하지 않도록 선택된다. 그러므로, 유도된 노이즈는 지각 처리에서 마스킹된다. 마스킹은 동일한 스펙트럼의, 시간적인 또는 공간적인 장소에서 2개의 신호 성분들(신호에 속하는 하나와 노이즈에 속하는 하나) 사이를 구별하는 인간 지각 메커니즘의 무능력 때문에 일어난다.For example, perceptual audio coding as described in the Johnston patent is a technique for lowering the number of bit rates or total bits required to represent audio signals. PAC technology uses short-term energy distribution as a function of frequency. From this energy distribution, it is known that a set of thresholds representing immediately recognizable noise levels can be calculated. At this time, among others, the coarseness of the quantization used to represent the signal component of the desired signal is selected so that the quantization noise induced by the coding itself does not rise above the noise thresholds. Therefore, the induced noise is masked in the perceptual process. Masking occurs because of the inability of human perceptual mechanisms to distinguish between two signal components (one belonging to the signal and one belonging to the noise) in the same spectrum, temporal or spatial place.
최근에, 128 내지 256 kbps(즉, 6 내지 12의 압축 인자들) 범위의 전송 압축을 제공하도록 요구되는 다수의 지각 오디오 코더들이 개발되어 왔다. 전형적으로, 그러한 코더들은 입력 신호를 그 주파수 성분들로 분할하는 분석 필터 뱅크들을 이용한다. 이 때, 이러한 성분들은, 상술된 바와 같이, 인간 청각의 마스킹 특성들에 기초한 지각 모델을 사용하여 양자화된다. 존스톤 특허에서, 예컨대, 변조 이산 코사인 변형(Modified Discrete cosine Transform; 이하, "MST") 필터 뱅크로서 공지된 고주파 분해 필터 뱅크(high frequency resolution filterbank)가 신호를 주파수 성분들에 분할하도록 이용하는 PAC 접근법이 기술된다. 이러한 고주파 분해 MDCT 필터 뱅크(예를 들어, 1024 서브 밴드들 또는 주파수 라인들을 갖는)는 소위 정상 신호들(stationary signals)(예를 들어, 연주 음악 및 대부분의 보컬 음악)에 대하여 매우 치밀한 표현(compact representation)에 이르게 한다. 그러나, 소위 순간적이거나 날카로운 발성들(attacks)(예를 들면, 캐스터네츠들 또는 트라이앵글들)을 포함하는 비정상 오디오 신호들(non-stationary audio signals)은 고주파 분해 MDCT 필터 뱅크를 사용하여 치밀하게 나타낼 수 없다. 이는, 치밀한 표현들을 위해 더 높은 주파수에서 요구된 더 높은 시간 분해에 기인한다. 부가하여, 비정상 신호 성분들에 대해 MDCT를 사용하는 것은 저질의 코딩된 신호들에 이르게 한다.Recently, a number of perceptual audio coders have been developed which are required to provide transmission compression in the range of 128 to 256 kbps (ie 6 to 12 compression factors). Typically, such coders use analysis filter banks that divide the input signal into its frequency components. These components are then quantized using a perceptual model based on the masking characteristics of the human auditory, as described above. In the Johnston patent, for example, a PAC approach in which a high frequency resolution filterbank, known as a Modified Discrete cosine Transform ("MST") filter bank, is used to split the signal into frequency components, Are described. This high frequency decomposition MDCT filter bank (e.g. with 1024 subbands or frequency lines) is a very compact representation of so-called stationary signals (e.g. playing music and most vocal music). to the representation. However, non-stationary audio signals, including so-called momentary or sharp attachments (e.g. castanets or triangles), cannot be closely represented using a high frequency decomposition MDCT filter bank. . This is due to the higher time resolution required at higher frequencies for dense representations. In addition, using MDCT for abnormal signal components leads to poor quality coded signals.
비정상 신호들을 코딩할 때 부딪히는 필터링 문제를 다루는 다른 기술들이 개발되어 왔다. 예컨대, 존스톤 특허에서 기술된 그러한 기술은 소위 "윈도우 스위칭" 설계를 이용한다. 이러한 PAC 설계는 비정상 신호들의 날카로운 발성들을 다루도록 소위 "긴" 및 "짧은" MDCT 윈도우들을 사용한다. "윈도우 스위칭"에 있어서, 신호의 정상성은 2개의 레벨들에서 모니터링된다. 먼저, 긴 MDCT 윈도우들(예를 들어, 1024 서브 밴드들을 갖는 윈도우)은 정상 신호 성분들을 위해 사용되고, 이 때 필요하다면, 짧은 윈도우들(예를 들어, 128 서브 밴드들을 갖는 윈도우)은 비정상성의 주기동안 사용된다. 그러나, 이러한 접근법의 결점은 짧은 MDCT 윈도우들이 모든 주파수들에 대하여 균일하게 시간 분해를 증가시키는 것이다. 바꾸어 말하면, 더 높은 주파수들에서 원하는 정도까지 시간 분해를 증가시키기 위하여, 이러한 기술은 또한 더 낮은 주파수들에서도 시간 분해를 증가시켜야 한다.Other techniques have been developed to address the filtering problem encountered when coding abnormal signals. For example, such a technique described in the Johnston patent uses a so-called "window switching" design. This PAC design uses so-called "long" and "short" MDCT windows to handle sharp utterances of abnormal signals. In "window switching", the normality of the signal is monitored at two levels. First, long MDCT windows (e.g., a window with 1024 subbands) are used for normal signal components, and if necessary, short windows (e.g., a window with 128 subbands) are periods of abnormality. Is used during. However, a drawback of this approach is that short MDCT windows increase the time resolution evenly for all frequencies. In other words, in order to increase the time resolution to the desired degree at higher frequencies, this technique must also increase the time resolution at lower frequencies.
날카로운 발성들을 필터링하기 위한 더 바람직한 필터 뱅크는 주파수 축의 임계 밴드 분할을 매칭하는 서브 밴드들을 갖는 불균일한 구조를 갖는 것이다(즉, 서브 밴드들은 바크 스케일(bark scale) 상에 균일하다). 게다가, 필터 뱅크의 고주파 필터들이 비례하여 더 짧은 것이 훨씬 바람직하다. 이러한 목적들을 충족시키는 하나의 코딩 구조는 하이브리드 또는 캐스캐이드 구조(예컨대, 케이. 브란덴부르크 등(K. Brandenburg et al.)의 " ISO-MPEG 오디오 코덱: 양질의 디지털 오디오의 코딩을 위한 일반 표준(The ISO-MPEG-Audio Codec: A Generic Standard for Coding of High Quality Digital Audio)" Journal of Audio Engineering Society, Vol. 42, No. 10, October, 1994, 및 제이 프린슨(J. Princen)과 제이. 디이. 존스톤(J. D. Johnston)의 "신호 적응성 필터 뱅크들을 갖는 오디오 코딩(Audio Coding with Signal Adaptive Filterbanks)", Proceedings of IEEE, ICASSP, Detroit, 1995를 참조)를 이용한다. 이러한 코딩 기술은 균일한 또는 불균일한 필터 뱅크를 갖는 제 1 스테이지로 구성된다. 각각의 서브 밴드들은 균일한 필터 뱅크들을 사용하여 더 스플릿될 수 있다. 그러나, MDCT 필터 뱅크들과 비교하여 이러한 접근법의 결점은 하이브리드/캐스캐이드 구조가 증가된 구현 비용들뿐만 아니라 필터들의 더 열악한 주파수 응답에 이르게 하는 정상 및 비정상 신호들 양쪽에 사용되어야 한다는 것이다.A more preferred filter bank for filtering sharp vocals is to have a non-uniform structure with subbands that match the critical band division of the frequency axis (ie, the subbands are uniform on the bark scale). In addition, it is much desirable that the high frequency filters of the filter bank be proportionally shorter. One coding scheme that meets these objectives is a hybrid or cascaded structure (e.g., K. Brandenburg et al. "ISO-MPEG Audio Codec: General Standard for Coding of High Quality Digital Audio" The ISO-MPEG-Audio Codec: A Generic Standard for Coding of High Quality Digital Audio. "Journal of Audio Engineering Society, Vol. 42, No. 10, October, 1994, and J. Princen and Jay. JD Johnston's "Audio Coding with Signal Adaptive Filterbanks", Proceedings of IEEE, ICASSP, Detroit, 1995). This coding technique consists of a first stage having a uniform or non-uniform filter bank. Each subband may be further split using uniform filter banks. However, a drawback of this approach compared to MDCT filter banks is that the hybrid / cascade structure must be used for both normal and abnormal signals leading to poorer frequency response of the filters as well as increased implementation costs.
그러므로, 당해 기술 분야에서는, 서브 밴드 코딩에서 비정상 신호들을 핸들링하기 위한 종래 기술의 필터링 배열들의 결점들을 극복하는 필터 뱅크를 필요로 한다.Therefore, there is a need in the art for a filter bank that overcomes the drawbacks of prior art filtering arrangements for handling abnormal signals in subband coding.
본 발명의 원리들을 이용하는 신호 압축 기술은 지각 오디오 코딩 또는 유사한 서브 밴드 타입 코딩을 사용하여 오디오 신호들을 코딩하기 위해 제 1 필터 뱅크와 웨이브렛 필터 뱅크(wavelet filterbank) 사이를 스위칭한다.Signal compression techniques using the principles of the present invention switch between a first filter bank and a wavelet filterbank to code audio signals using perceptual audio coding or similar subband type coding.
양호한 실시예에 있어서, 2개의 필터 뱅크들 사이의 스위칭은 신호의 시간-변화 특성들, 바람직하게는 그 지각 엔트로피 레벨(perceptual entropy level)에 기초한다. 또한, 바람직한 실시예들에 있어서, 제 1 필터 뱅크는 고주파 분해 MDCT 필터 뱅크이다. 일반적으로, 고주파 분해 MDCT 필터 뱅크는 입력 신호를 필터링하는데 사용되지만, 비정상성의 경우에는 웨이브렛 필터 뱅크가 사용된다. 유리하게도, 본 발명은, 그것이 비정상 성분들을 포함할 때 신호의 더 치밀한 표현을 달성한다. 바람직한 실시예에 따라, 웨이브렛 필터 뱅크는 불균일한 트리 구조의 필터 뱅크이다.In a preferred embodiment, the switching between the two filter banks is based on the time-varying characteristics of the signal, preferably its perceptual entropy level. Also in preferred embodiments, the first filter bank is a high frequency decomposition MDCT filter bank. In general, a high frequency decomposition MDCT filter bank is used to filter the input signal, but in the case of anomalies a wavelet filter bank is used. Advantageously, the present invention achieves a more dense representation of the signal when it contains abnormal components. According to a preferred embodiment, the wavelet filter bank is a filter bank of non-uniform tree structure.
본 발명은 지각 오디오 코딩 또는 유사한 서브 밴드 타입 코딩을 사용하여 코딩된 비정상 신호들을 핸들링하기 위해 제 1 필터 뱅크(바람직하게는 고주파 분해 MDCT 필터 뱅크)와 웨이브렛 필터 사이를 스위칭하는 신호 적응성 스위치 필터 뱅크를 이용하는 오디오 신호 압축 기술에 관한 것이다.The present invention provides a signal adaptive switch filter bank for switching between a first filter bank (preferably a high frequency decomposition MDCT filter bank) and a wavelet filter to handle abnormal signals coded using perceptual audio coding or similar subband type coding. It relates to an audio signal compression technique using.
본 발명의 예시적인 실시예들은 명확한 설명을 위해 기능적인 블록들로 제공된다. 이러한 블록들이 나타내는 기능들은 소프트웨어를 실행할 수 있는 하드웨어를 포함하지만, 거기에 제한되지 않는, 공유 또는 전용 하드웨어 중 어느 하나의 사용을 통해 제공될 수 있다. 또한, 용어 "프로세서"의 사용은 소프트웨어를 실행할 수 있는 하드웨어를 배타적으로 언급하는 것으로 해석되지 않아야 한다. 어떤 실시예들은 ATT&T DSP16 또는 DSP32와 같은 디지털 신호 프로세서(이하, "DSP")하드웨어와 아래에 논의되는 동작들을 수행하기 위한 소프트웨어를 포함할 수 있다. 하이브리드 DSP/VLSI 실시예들뿐만 아니라 본 발명의 대규모 집적(이하, "VLSI") 하드웨어 실시예들이 또한 제공될 수 있다.Exemplary embodiments of the invention are provided in functional blocks for clarity. The functions represented by these blocks may be provided through the use of either shared or dedicated hardware, including but not limited to hardware capable of executing software. In addition, the use of the term "processor" should not be interpreted as exclusively referring to hardware capable of executing software. Some embodiments may include a digital signal processor ("DSP") hardware, such as ATT & T DSP16 or DSP32, and software for performing the operations discussed below. In addition to hybrid DSP / VLSI embodiments, large scale integrated (“VLSI”) hardware embodiments of the present invention may also be provided.
도 1은 본 발명이 구현되는 예시적인 시스템의 전체 블록도이다. 도 1에서, 아날로그 오디오 신호(101)는 프리프로세서(102)에 제공되어, 샘플링되며(전형적으로 48 kHz에서), 종래의 방식으로 도선(103) 상에 샘플당 16 비트 디지털 펄스 코드 변조(이하, 'PCM")로 변환된다. PCM 신호는 PCM 신호를 압축하고 통신 채널 또는 저장 매체 중 어느 하나에 도선(105) 상의 압축된 PAC 신호를 출력하는 지각 오디오 코더(200)에 공급된다. 후자는, 예컨대, 마그네틱 테이프, 콤팩트 디스크 또는 다른 저장 매체일 수 있다. 통신 채널 또는 저장 매체로부터, 도선(107) 상의 압축된 PAC 인코딩된 신호는 압축된 PAC 인코딩된 신호를 압축 해제시키고 최초의 오디오 신호(101)의 디지털 표현인 도선(109) 상의 PCM 신호를 출력하는 지각 오디오 디코더(108)에 공급된다. 지각 오디오 디코더로부터, 도선(108) 상의 PCM 신호는 신호의 아날로그 표현을 만드는 포스트프로세서(post-processor)에 공급된다.1 is an overall block diagram of an exemplary system in which the present invention is implemented. In FIG. 1,
지각 오디오 코더(200)의 예시적인 실시예는 도 2에서 블록도로 도시된다. 지각 오디오 코더(200)는 신호 적응성 스위치 필터 뱅크(202), 지각 모델 프로세서(210), 양자화기/속도 루프 프로세서(212), 엔트로피 코더(214)를 포함함에 따라 관찰되는 장점이 있다. 지각 모델 프로세서(210), 양자화기/속도 루프 프로세서(212) 및 엔트로피 코더(214)의 구조와 동작은 일반적으로 오디오 신호를 프로세싱하기 위해 존스톤 특허에서 확인된 바와 같은 구성요소의 구조 및 동작과 유사하다. 그러나, 신호 적응성 스위치 필터 뱅크(202)는 이후 제 1 필터 뱅크(바람직하게는 고주파 분해 MDCT 필터 뱅크)와 웨이브렛 필터 뱅크 사이의 스위칭에 관련하여 상세히 설명된다. 도 2의 다른 소자들과 조합하여, 스위치 필터 뱅크(202)의 특성들은 본 발명의 이점들을 제공한다.An exemplary embodiment of the
다시 도 2로 돌아가면, 신호 적응성 스위치 필터 뱅크(202)는 상술한 바와 같이 미리 결정된 형태로 신호의 인코딩 중 고주파 분해 MDCT 필터 뱅크(204)와 2개의 필터 뱅크 사이의 스위칭(206)에 사용하기 위한 웨이브렛 필터 뱅크(208)를 포함한다. 상술한 바와 같이, 인코딩 프로세스에서 고주파 분해 MDCT(예컨대, 1024 서브 밴드 또는 PAC 내의 주파수 라인)의 이용은 MDCT가 정상 신호에 대한 매우 치밀한 표현을 유도하는데 유용하다. PAC의 목적을 위해, MDCT는 다음의 특징을 갖는다: (ⅰ) 임계 샘플링 특성들(즉, 필터 뱅크로의 모든 n 샘플들에 대해, n 샘플들이 얻어진다); (ⅱ) 일반적으로 MDCT는 필터 뱅크에 독립적으로 주입된 노이즈의 제어를 처리하는 양호한 방법을 제공하는 하프-오버랩(즉, 변형 길이는 필터 뱅크로 쉬프트된 샘플들의 수(n)의 정확히 2배의 길이이다)을 제공한다: (ⅲ) MDCT는 정수의 샘플의 지연에만 입력 샘플의 정확한 재구성을 제공한다. 공지된 MDCT는, 예컨대, 제이. 피이. 프린슨(J. P. Princen)과 에이. 비이 브래들리(A. B. Bradley)의 "시간 도메인 에일리어싱 소거에 기초한 분석/합성 필터 뱅크(Analysis/Synthesis filterbank Design Based on Time Domain Aliasing Cancellation)", IEEE Yrans. ASSP, Vol. 34, No. 5, October 1986에 기술된다. PAC의 사용을 위한 MDCT의 공지된 적용과 본 명세서에서 고주파 분해 MDCT 필터 뱅크(204)에 의해 수행되는 기능은, 예컨대, 존스톤 특허에서 완전하게 설명된다.2, the signal adaptive
그러나, 상술한 바와 같이 고주파 분해 MDCT(204) 필터 뱅크 정상 신호를 나타내기 위해 사용되면 매우 효과적이지만, MDCT는 비정상 신호(즉, 순간적이거나 날카로운 발성을 포함하는 신호)의 치밀한 표현을 제공하지 않는다. 그러나, 우리는 오디오 코더(200)의 오디오 압축 특성을 향상시킬 수 있는 고주파 분해 MDCT 필터 뱅크(204)를 이용하는 장점을 제공하는 기술을 실현하였다.However, while used to represent the high frequency decomposition MDCT 204 filter bank steady signal as described above, MDCT does not provide a dense representation of an abnormal signal (ie, a signal that includes instantaneous or sharp speech). However, we have realized a technique that provides the advantage of using a high frequency decomposition MDCT filter bank 204 that can improve the audio compression characteristics of the
따라서, 본 발명에 따르면, 스위치 필터 뱅크(202)에 적당한 신호가, 예컨대, 오디오 신호(101)를 인코딩하기 위해 고주파 분해 MDCT 필터 뱅크(204)와 웨이브렛 필터 뱅크(208)를 모두 이용한다. 바람직한 실시예에 따르면, 고주파 분해 MDCT 필터 뱅크(204)는 인코딩 목적을 위해 고주파 분해 MDCT를 사용한다. 즉, 비정상 신호가 공급될 때, 필터 뱅크(204)는 소위 긴 윈도우들(즉, 1024 서브 밴드)만을 이용하고, 소위 짧은 윈도우들(즉, 1024 서브 밴드에 대립하는 128 서브 밴드)에 "스위칭"하지 않는다. 물론, 이것은 이전에 언급된 종래의 윈도우 스위칭 기술로서 존스톤 특허에서 설명된다. 본 발명에 따르면, 스위치 필터 뱅크(202)는 상기 비정상 주기동안 짧은 MDCT 윈도우로의 스위칭보다는 오히려 웨이브렛 필터 뱅크(208)를 사용한다.Thus, according to the present invention, a signal suitable for the
특히, 웨이브렛 필터 뱅크(208)는 비정상 성분을 갖는 입력 신호를 효과적으로 필터링하기 위해 웨이브렛 변형을 이용한다. 웨이브렛은 여러 가지 변형과 팽창 특성들을 통해 유한 에너지 신호의 공간에 완전한 직교 체제를 제공하는 기능을 한다. 최적의 웨이브렛 변형을 이용한 오디오 신호의 전체적인 코딩은, 예컨대, 디이. 신하(D. Sinha)와 에이. 에이치. 튜픽(A. H. Tewfik)의 "적응된 웨이브렛들을 사용하는 낮은 비트율 투과성 오디오 압축(Low Bit Rate Transparent Audio Compression Adapted using Adapted Wavelets)", IEEE Transactions on Signal Processing, Vol. 41, No. 12, PP. 3463-3479, Dec. 1993에 기술된다. 본 발명의 실시예에 따르면, 우리는 PAC를 기초로 하는 사이코어쿠스틱(psychoacoustic) 모델을 사용하기 위해, 및 본 명세서에서 예시한 웨이브렛의 도면에서 주요한 기준에 따라 일정한 주파수와 시간의 특성들을 이용하기 위해 웨이브렛 변형을 채용해 왔다.In particular, the
사이코어쿠스틱 분석의 시간-주파수 분해가 청각 시스템의 시간-주파수 분해와 조합될 수 있음은 공지된다. 상기 분해 특성은 사이코어쿠스틱 모델에서의 주파수 분해가 100Hz의 저주파로부터 약 4kHz의 고주파로(즉, 분해 시 40:1의 변화) 변하도록 지시하는 기준 밴드 스케일에 반영된다. 이로서, PAC 코더에서의 순간적인 분해는 저주파에서 고주파로 약 40:1의 비율로 증가시킬 수 있다. 대부분의 사이코 어쿠스틱 모델이 매우 낮은 균일한 시간적인 분해를 이용함은 공지된다. 고주파에서의 시간적인 분해의 부족은 정상 신호에 대해 계산된 문턱값에 거의 영향을 주지 않는다. 그러나, 비정상 신호에 대해 계산된 문턱값은 정확하지 않아서 청취 왜곡들(audible distortions)을 일으킬 수 있다. 상기 동작은 본 발명의 신호 적응성 스위치 필터 뱅크를 이용함으로써 개선될 수 있다.It is known that the time-frequency decomposition of the psychocore acoustic analysis can be combined with the time-frequency decomposition of the auditory system. The decomposition characteristic is reflected in the reference band scale which instructs the frequency decomposition in the Psycorecoustic model to vary from a low frequency of 100 Hz to a high frequency of about 4 kHz (ie, a change of 40: 1 upon decomposition). As such, the instantaneous decomposition in the PAC coder can be increased at a ratio of about 40: 1 at low to high frequencies. It is known that most psycho acoustic models use very low uniform temporal decomposition. The lack of temporal decomposition at high frequencies has little effect on the calculated threshold for steady signals. However, the threshold calculated for the abnormal signal may be inaccurate and cause audible distortions. The operation can be improved by using the signal adaptive switch filter bank of the present invention.
본 발명의 신호 적응성 스위치 필터 뱅크의 사용은 비정상 신호 세그먼트들이나 천이들(transients)의 코딩을 위하여 종래의 기술에 여러 가지 장점을 제공한다. 예를 들면, 비정상 신호 성분의 더욱 간단한 표시를 유도한다. 또한, 신호의 비정상 세그먼트들 중 더욱 정확한 사이코어쿠스틱 모델링을 유도한다. 상기 특징은 천이들(transients)을 나타내기 위한 전체 비트율 성분을 상당히 절약하는 것으로 이해될 수 있다. 또한, 본 신호 적응성 스위치 필터 뱅크의 사용은 정상 신호 세그먼트들의 압축을 위해 고주파 분해 MDCT 필터 뱅크의 공지된 성능의 이점들을 보호한다.The use of the signal adaptive switch filter bank of the present invention provides several advantages over the prior art for the coding of abnormal signal segments or transients. For example, it leads to a simpler representation of the abnormal signal component. It also leads to more accurate psychocore modeling of abnormal segments of the signal. It can be understood that the feature significantly saves the overall bit rate component for representing transitions. In addition, the use of the present signal adaptive switch filter bank protects the benefits of the known performance of the high frequency decomposition MDCT filter bank for the compression of normal signal segments.
특히, 본 발명의 양호한 실시예에 따르면 트리 구조의 웨이브렛 필터 뱅크가 사용된다. 상술한 바와 같이, 사이코어쿠스틱 모델의 정확도는 이용되는 주파수 스플릿이 주파수 축의 임계 뱅크 분할에 상당히 밀접하기 때문에 중요하다. 웨이브렛 필터 뱅크는 우수한 주파수 선택성(즉, 인접 서브 밴드간의 작은 오버랩)을 제공한다. 또한, 웨이브렛 필터 뱅크는 더 높은 주파수 서브 밴드의 임펄스 응답이 신속히 소멸하는 양호한 시간적인 특성들(또한, 긴밀하게 위치되는 것으로 알려짐)을 제공한다. 긴밀하게 위치된 더 높은 주파수 서브 밴드는 비정상 신호 세그먼트의 효과적인 표시를 유도한다. 본 발명의 양호한 실시예에서 사용되는 트리 구조는 상술한 원하는 웨이브렛 필터 뱅크 특성을 제공하는데 유익하다. 상기 트리 구조는 임계 밴드가 더 높은 주파수에서 더 넓기 때문에 더 높은 주파수 서브 밴드에 대한 필터가 상대적으로 짧은 장점을 제공하고, 이에 따라 전체 트리 구조에서 더 적은 스테이지들로 원하는 주파수 분해를 구현할 수 있다. 또한, 트리 구조의 필터 뱅크의 시간적인 특성들의 제어는 모멘트 조건(moment condition)을 이용하여 공급된다. 트리 구조를 임계 밴드 분할에 밀접하게 조합시키기 위해, 양호한 실시예의 트리 구조 웨이브렛 필터 뱅크는 3세트의 필터 뱅크를 사용한다. 필터 뱅크들 중 한 세트는 4개의 서브 밴드 스플릿을 제공하고, 한편 다른 2개의 세트는 각각 후술되는 바와 같이 2개의 서브 밴드 스플릿을 제공한다.In particular, according to a preferred embodiment of the present invention a tree-shaped wavelet filter bank is used. As mentioned above, the accuracy of the psychocore model is important because the frequency split used is quite close to the critical bank division of the frequency axis. The wavelet filter bank provides good frequency selectivity (ie, small overlap between adjacent subbands). In addition, the wavelet filter bank provides good temporal characteristics (also known to be closely located) in which the impulse response of the higher frequency subbands quickly disappears. The closely located higher frequency subbands lead to an effective indication of the abnormal signal segment. The tree structure used in the preferred embodiment of the present invention is beneficial to provide the desired wavelet filter bank characteristics described above. The tree structure provides a relatively short advantage of filters for higher frequency subbands because the critical band is wider at higher frequencies, thus enabling the desired frequency decomposition with fewer stages in the overall tree structure. In addition, control of the temporal characteristics of the filter bank of the tree structure is supplied using a moment condition. To closely combine the tree structure with the critical band division, the tree structure wavelet filter bank of the preferred embodiment uses three sets of filter banks. One set of filter banks provides four subband splits, while the other two sets each provide two subband splits as described below.
도 3은 스위치 필터 뱅크(202)에 사용되는 트리 구조의 웨이브렛 필터 뱅크에 대한 압축 해제 트리(300)를 예시한 도면이다. 바람직한 실시예에 따르면, 웨이브렛 필터 뱅크(208)의 예시적 트리 구조에 사용되는 3세트의 필터 뱅크는 3개의 구성이 임계 밴드부에 거의 밀착시키기에 충분한 디자인 유연성을 제공한다. 특히, 제 1 필터 뱅크 세트(310)는 신호의 4개의 밴드 스플릿(즉, 311-314)을 제공한다. 예시적으로, 상기 4개의 밴드 필터 스플릿은 필터(311 내지 314)로부터의 주파수를 증가시키고, 각 필터는 64개의 지지부(길이)를 갖는다. 또한, 예시적으로 제 2 필터 뱅크(320)는 40개의 지지부를 갖는 2개의 밴드 스플릿(즉, 321 및 322)을 제공하고, 한편 제 3 필터 뱅크(330)는 또한 20개의 지지부를 갖는 2개의 밴드 스플릿(즉, 331 및 332)을 제공한다. 당해 기술 분야에 숙련된 지식을 가진 자에게는 명백한 바와 같이, 압축 해제 트리(300)의 임의의 노드에서 필터 뱅크(310)의 응용은 4개의 인자에 의한 결정에 따른다. 마찬가지로, 필터 뱅크(320, 330)의 응용 각각은 2개의 인자에 의한 결정에 따른다. 예시적으로, N 샘플의 입력 블록으로 서브 밴드(331)는 N/64 필터링된 샘플을 갖고, 한편 서브 밴드(322)는 N/4 필터링된 샘플을 갖는다. 웨이브렛 필터 뱅크(208)에 의해 이용되는 3개의 필터 뱅크는 예를 들면 공지된 매개변수화된 패로너티(paraunity) 필터 뱅크를 이용 및 표준 최적화 수단을 제공함으로써 최적화된다. 상술한 트리 구조의 필터 뱅크에 의해 제공되는 최적화는 전체 필터 뱅크뿐만 아니라 3개의 필터 뱅크 각각이 자체로 우수한 주파수 선택성을 제공하도록 한다. 웨이브렛 필터 뱅크(208)를 최적화하기 위해 사용되는 최적화 기준은 공지된 중량 정지 밴드 에너지 기준에 기초한다(예컨대, 피이. 베이다이어나탄(P. Vaidyanathan)의 "다중 속도 디지털 필터들, 필터 뱅크들, 다상 네트워크들, 및 응용들: 지침서(Multirate Digital Filters, filterbanks, Polyphase Networks, and Applications: A Tutorial)", Proceedings of the IEEE, Vol. 78, No. 1, pp. 56-92, January 1990에서 알 수 있다). 상술한 트리 구조 필터 뱅크에 의해 제공되는 최적화로 전체 필터 뱅크뿐만 아니라 3개의 필터 뱅크 각각이 자체로 우수한 주파수 선택성을 제공할 수 있다.3 illustrates a
바람직한 실시예에서, 모멘트 조건은 고주파 필터의 바람직한 시간적인 특성들을 구현하는데 중요한 역할을 한다(즉, 더 높은 주파수를 갖는 압축 분해 트리(300) 내의 서브 밴드에 대응하는 필터) 모멘트 조건에서 중앙 주파수에 더 가까운 더 높은 서브 밴드 주파수 응답의 평탄성(편차(differentiablility)의 순서)을 결정한다. 이하에서 알 수 있는 바와 같이, 중앙 주파수 근방의 상기 더 큰 평탄성은 긴밀하게 위치되는 대응하는 임펄스 응답을 유도한다. 특히, 서브 밴드 필터 {Hi}i=1 to M을 갖춘 M밴드 패로니터리 필터 뱅크(paraunitary filterbank)는 H(eiw) for i=2, 3,...M이 w=0에서 Pth 순서 제로를 갖는다면, Pth 순서 모멘트 조건을 충족한다. 이 때, 필터는 P를 제로의 값을 가진 모멘트로 한다. 예시한 웨이브렛 필터 뱅크(208) 구성에서, P〉1 이어야 하는 필터에 대한 소정의 지지부(K)로 효과적인 지지부가 P의 증가를 감소시키는 필터를 만든다. 즉, 에너지의 대부분은 간격 KT에 집중되고, 여기서 KT는 더 높은 P보다 작다.In a preferred embodiment, the moment condition plays an important role in implementing the desired temporal characteristics of the high frequency filter (ie, the filter corresponding to the subband in the
필터의 순간적 응답에서의 개선점은 일반적으로 진폭 주파수 응답 시 증가된 천이 밴드(transition band)에 있음을 알 수 있다(예컨대, 피이. 베이다이어나탄(P. Vaidyanathan)의 "다중 속도 디지털 필터들, 필터 뱅크들, 다상 네트워크들 및 응용들: 지침서(Multirate Digital Filters, filterbanks, Polyphase Networks, and Applications: A Tutorial", Proceedings of the IEEE, Vol. 78, No. 1, pp. 56-92, January, 1990에서 알 수 있다). 트리 구조의 필터 뱅크는 필터의 시간적인 특성들에서 원하는 위치를 갖기 위해 3세트의 필터 뱅크 각각에 대하여 2개의 0의 값을 갖는 모멘트(즉, P=2)를 갖는다. 예를 들면, 웨이브렛 필터 뱅크(208)의 최고 주파수 서브 밴드(예를 들면, 도 3에 도시된 서브 밴드(314))의 임펄스 응답(410)은 동일한 주파수 특성을 갖는 코사인 변조된 필터 뱅크로부터의 필터의 응답(420)을 비교하기 위해 나란히 예시한다. 도시된 바와 같이, 바람직한 실시예에 따라 구성된 웨이브렛 필터 뱅크로부터의 응답(410)은 고주파 웨이브렛 필터(314)의 임펄스 응답(410)에 의해 증명된 바와 같이 시간 내에 최상의 위치를 제공한다. 고주파 웨이브렛 필터(314)는 그 에너지의 대부분이 n=10에서 n=40사이에 집중된다. 비교시, 코사인 변조된 필터 뱅크의 응답(420)은 전체 범위 n=1에서 n=64로 확산된 에너지를 갖는다.It can be seen that the improvement in the instantaneous response of the filter is generally in an increased transition band in the amplitude frequency response (eg, P. Vaidyanathan's "Multi-Speed Digital Filters, Filters" Banks, Multiphase Networks and Applications: Multirate Digital Filters, filterbanks, Polyphase Networks, and Applications: A Tutorial ", Proceedings of the IEEE, Vol. 78, No. 1, pp. 56-92, January, 1990 The filter bank of the tree structure has two zero-valued moments (ie, P = 2) for each of the three sets of filter banks to have a desired position in the temporal characteristics of the filter. For example, the
본 발명의 원리에 따라, 고주파 분해 MDCT 필터 뱅크(204)는 정상 신호를 코딩하기 위해 사용되고, 필터 뱅크(208)는 비정상 신호를 코딩하기 위해 사용된다. 2개의 필터 뱅크를 이용하는 효율성의 문턱값은 특수한 신호 성분(즉, 정상 대 비정상 신호)에 기초한 것들 사이의 스위칭을 위한 메커니즘이다. 이를 위하여, MDCT는 오버랩된 직교 변형이 되도록 해야한다. 즉, 종래의 블록 변형과 다르게 인접 블록 사이에 50퍼센트의 오버랩이 있다. 따라서, 고주파 분해 MDCT 필터 뱅크(204)와 웨이브렛 필터 뱅크(204) 사이의 스위칭은 MDCT 블록과 웨이브렛 블록 사이의 오버랩 영역에서의 직교화를 필요로 한다. 한편, 공지된 일반적인 직교화의 디자인 방법에는 문제점이 있고(예컨대, 씨이. 헐리 등(C. Herley et al.)의 "시간 주파수 평면의 타일링: 임의의 직교 기초들 및 고속 타일링 알고리즘의 구성(Tiling of the Time-Frequency Plane: Construction of Arbitrary Orthogonal Bases and Fast Tiling Algorithm)", IEEE Transactions on Signal Processing, Vol. 41, No. 12, December, 1993」에서 알 수 있다), 상기 디자인의 단점은 결과 변형 매트릭스가 실행 지점에서 비효율적인데 있다. 즉, 결과 필터에서 임의의 구성의 결함은 웨이브렛 변형의 빠른 계산을 매우 어렵게 한다.In accordance with the principles of the present invention, the high frequency decomposition MDCT filter bank 204 is used to code a normal signal, and the
따라서, 2N 샘플의 블록 상의 MDCT 동작이 상기 N 샘플 상의 N 포인트 직교 블록 변형 Q를 따라 윈도우된 데이터 내의 대칭 동작과 일치함(즉, 윈도우의 한끝으로부터 외부 N/2 샘플이 윈도우의 내부 N/2 샘플로 겹친다)을 통해 단순화가 실현될 수 있다. 신호의 완전한 재구성은 특수한 블록 직교 변형(Q)과 관계없음을 확인할 수 있다. 따라서, Q는 한 블록에 대한 MDCT 및 다음 블록에 대한 웨이브렛 변형일 수 있다. MDCT에 대응하는 매트릭스(Q)는 공지되었기 때문에 더 이상 설명하지 않는다. 이하, 웨이브렛 필터 뱅크에 의해 사용되는 매트릭스(Q)를 설명한다. 웨이브렛 변형을 이용할 때, 직교 매트릭스(Q) 필터 뱅크(이하, QWFB라 함)는 상술한 트리 구조의 웨이브렛의 3개의 필터 뱅크에 기초한 N×N 매트릭스이다. 상기 매트릭스 QWFB는 도 3의 압축 해제 트리(300)에 남아 있는 노드(즉, 서브 밴드)에 대응하는 각 블록을 갖는 복수의 블록으로 구성된다. 당해 기술 분야에 숙련된 지식을 가진 자에게는 명백한 바와 같이, 압축 해제 트리(300)에 대한 매트릭스는 3개의 필터 뱅크(310, 320, 330) 내의 필터와 유한 블록 사이즈(즉, 경계 조건들)를 조작하기 위한 기술에 의해 완전하게 분류된다. 설명을 명확히 하기 위해, 이하 바람직한 실시예에서 도 3에 도시된 압축 해제 트리(300)의 4개의 밴드 스플릿(310)에 대한 경계 조건의 핸들링에 대해 설명한다. 이에 따른 전체 트리 구조의 확대는 당업자에게는 명백하다.Thus, the MDCT operation on a block of 2N samples matches the symmetrical operation in the data windowed along the N point orthogonal block variant Q on the N sample (i.e., an outer N / 2 sample from one end of the window is the inner N / 2 of the window). Simplification can be realized by overlapping with samples). It can be seen that the complete reconstruction of the signal is independent of the special block orthogonal deformation (Q). Thus, Q may be a MDCT for one block and a wavelet variant for the next block. The matrix Q corresponding to MDCT is known and will not be described further. The matrix Q used by the wavelet filter bank is described below. When using a wavelet variant, an orthogonal matrix (Q) filter bank (hereinafter referred to as Q WFB ) is an N × N matrix based on the three filter banks of the wavelet of the tree structure described above. The matrix Q WFB is composed of a plurality of blocks having each block corresponding to a node (ie, a subband) remaining in the
도 3에 도시된 4개의 밴드 스플릿에 대하여, 대응하는 변형 매트릭스(Q)는 필터(311, 312, 313, 314) 각각에 대응하는 하나의 서브 블록을 갖는 사이즈 N/4×N 의 4개의 서브 블록으로 구성된다. 예시적으로, K에 따른 상기 필터의 길이를 규정하고, 또한 다른 상수 K1=(K/4)-1을 규정한다. 서브 블록의 N/4-K1 행을 제외한 4개의 서브 블록 각각에 대하여 각 서브 밴드 필터 및 서브 밴드 필터의 (N/4-K1-1) 변형이 대응한다. 순환 회전을 피하기 위해, 서브 블록의 남은 K1행은 블록의 끝단 근방에서 동작되도록 디자인된 변형 필터이다. 특히, Q1, Q2, Q3, Q4는 4개의 다른 행에 대응하는 K1×N에 따라 규정된다. 다음에, Q1 내지 Q4는 서브 스페이스에 대한 직교 체제로 된 상기 매트릭스가 Q의 미리 규정된 4×(N/4-K1)와 집합적으로 직교하도록 선택된다. 또한, Q1 내지 Q4는 다음 식의 폼을 갖는 비용 함수를 최대화하기 위해 선택된다.For the four band splits shown in FIG. 3, the corresponding deformation matrix Q is four subs of size N / 4 × N with one subblock corresponding to each of the
Cost=Trace(Q1WTD1WQ1T + Q2WTD2WQ2T + Q3WTD3WQ3T + Q4WTD4WQ4T), 여기서 W는 N×N 유리에 변형 매트릭스이고, D1 내지 D4는 제로가 아닌 N 대각선 소자의 N/4 및 1을 갖는 대각선 매트릭스이다. 특수한 서브 밴드에 대한 제로가 아닌 N/4 제로가 아닌 소자는 주파수 축 상의 특수한 서브 밴드의 위치와 일치한다. 당업자에게는 명백한 바와 같이, 이것은 예를 들면 표준 최적화 수단을 이용하여 해결될 수 있는 서브스페이스 제한된 최적화 문제점이다. 각 서브 밴드에 대하여, 변형 필터는 서브 밴드 계수가 정확한 순간적인 해석을 할 수 있도록 증가된 그룹 지연의 순서로 QWFB에 배치된다.Cost = Trace (Q1WTD1WQ1T + Q2WTD2WQ2T + Q3WTD3WQ3T + Q4WTD4WQ4T), where W is a strain matrix in N × N glass, and D1 through D4 are diagonal matrices with N / 4 and 1 of non-zero N diagonal elements. A nonzero N / 4 nonzero device for a particular subband matches the location of the particular subband on the frequency axis. As will be apparent to those skilled in the art, this is a subspace limited optimization problem that can be solved using, for example, standard optimization means. For each subband, the distortion filter is placed in the Q WFB in order of increased group delay so that the subband coefficients can be accurately instantaneously interpreted.
또한, 상술한 직교법이 시간 내에 웨이브렛 필터의 확장 효과 및/또는 웨이브렛 필터 자체에서의 불연속을 도입하는 효과를 갖음을 알 수 있다. 웨이브렛 필터 뱅크(208)의 임의의 가능한 손상은 다음의 이유로 완화될 수 있다: (ⅰ) 순간적인 START 및 STOP 윈도우(예를 들면, 존스톤 특허에 설명된 바와 같이)는 고주파 분해 MDCT 필터 뱅크(204)와 웨이브렛 필터 뱅크(208)의 이용 중의 천이에 따라 사용된다; (ⅱ) 소위 평탄한 윈도우들의 패밀리를 이용하여 천이 윈도우와 웨이브렛 윈도우 사이의 유효 오버랩을 감소시킨다. 상술한 기술을 이용하는 고주파 분해 MDCT 필터 뱅크(204)와 웨이브렛 필터 뱅크(208) 사이의 예시적 스위칭 시퀀스는 도 5에 도시된다. 도 5에 도시된 바와 같이, START 윈도우(502)는 고주파 분해 MDCT 필터 뱅크 윈도우(501)와 웨이브렛 필터 뱅크 윈도우(503) 사이의 천이에 이용된다. 또한, STOP 윈도우(504)는 웨이브렛 필터 뱅크 윈도우(504)와 고주파 분해 MDCT 필터 뱅크 윈도우(505) 사이의 천이에 이용된다.It can also be seen that the orthogonality described above has the effect of introducing the wavelet filter's expansion and / or discontinuities in the wavelet filter itself within time. Any possible damage to the
소위 평탄한 윈도우는 START 윈도우(502)와 웨이브렛 윈도우(503) 사이의 오버랩 영역에 이용되고, 다시 웨이브렛 윈도우(503)와 STOP 윈도우(504) 사이의 오버랩 영역 사이에 사용된다. 상기 평탄한 윈도우는 베이스 밴드 필터로서 유용하고, 시간 내에 치밀하게 위치된다(즉, 윈도우 내의 대부분의 에너지는 중앙부 주변에 집중된다). 평탄한 윈도우는 다음의 방정식을 이용하여 발생된다: h(n)=h(t) | t=(n+1/2)(1/N), n=0, 1, .....N-1, 여기서 h(t)는 간격 [0,1]에서는 제로가 아니고, 이외에서는 제로이다.The so-called flat window is used for the overlap area between the
도 2로 다시 돌아가면, 지각 모델 프로세서(210)는 스위치 분석 필터 뱅크(202) 내의 지각 중요도 평가와 여러 가지 신호 성분의 노이즈 마스킹 성질을 계산하기 위해 사이코어쿠스틱 분석을 이용한다. 프로세서(210)에서 발생하는 사이코어쿠스틱 분석은 공지되어 있고, 예를 들면 존스톤 특허와 제이. 디이. 존스톤(J. D. Johnston)의 "지각 노이즈 기준을 사용하는 오디오 신호들의 변형 코딩(Transform Coding of Audio Signals Using Perceptual Noise Criteria)", IEEE Journal on Selected Areas in Communication, Vol. 6, pp. 319-323, February, 1988에 기술된다. 한편, MDCT 블록 내의 계수의 양자화를 위한 문턱값은 사이코어쿠스틱 분석으로부터의 공지된 방법에서 직접 제공되고, 웨이브렛 블록에 의해 사용되는 문턱값은 부가적인 프로세싱을 필요로 한다.Returning to FIG. 2, the
웨이브렛 계수의 양자화를 위한 문턱값들은 시간 변화 확산 에너지(time-varing spread energy)의 평가와 PAC에 따라 평가된 음질 특정에 기초한다. 확산 에너지는 시간뿐만 아니라 주파수 교차 마스킹의 확산을 고려하여 계산된다. 즉, 시간적 확산 함수뿐만 아니라 내부 주파수가 이용된다. 확산 함수의 형태는 예를 들면, 제이. 비이. 앨련(J. B. Allen)의 "통신에서 스피치 및 청취의 ASA 에디션(The ASA edition of Speech Hearing in Communications)", Acoustical Society of America, New York, 1995에 기술된 바와 같이 초클리어 필터(chochlear filter)로부터 유도된다. 마스킹의 시간적인 확산은 주파수에 의존하며, 특수한 주파수에서 초클리어 필터의 대역폭의 반전에 의해 대략적으로 결정된다. 고정된 시간적인 확산 함수는 주파수 또는 서브 밴드의 범위에 이용되는 것이 바람직하다. 따라서, 확산 함수의 형태는 더 높은 주파수에서 더 좁아지게 된다. 서브 밴드 내의 계수는 코더 밴드 내에서 그룹화되고, 코더 밴드마다 하나의 문턱값은 양자화 중 이용된다. 예시적으로, 코더 밴드는 최저 주파수 서브 밴드에서의 10msec로부터 최고 주파수 서브 밴드에서의 약 2.5msec까지 확대된다.The thresholds for quantization of the wavelet coefficients are based on the evaluation of time-varing spread energy and the sound quality specification evaluated according to the PAC. The spread energy is calculated taking into account the spread of frequency cross-masking as well as time. That is, the internal frequency as well as the temporal spreading function are used. The form of the diffusion function is, for example, Jay. B. Derived from chochlear filter as described in JB Allen's "The ASA edition of Speech Hearing in Communications," Acoustical Society of America, New York, 1995. do. The temporal spread of the masking is frequency dependent and roughly determined by the inversion of the bandwidth of the superclear filter at a particular frequency. Fixed temporal spreading functions are preferably used for a range of frequencies or subbands. Thus, the shape of the diffusion function becomes narrower at higher frequencies. Coefficients in the subbands are grouped within the coder band, with one threshold per coder band used during quantization. By way of example, the coder band extends from 10 msec in the lowest frequency subband to about 2.5 msec in the highest frequency subband.
또한, 존스톤 특허에서 설명되는 양자화/속도 루프 프로세서(212)는 스위치 분석 필터 뱅크(202), 지각 모델 프로세서(210), 할당 비트들, 노이즈로부터의 출력을 취하여, 주어진 응용에 대해 필요한 비트율을 정하도록 다른 시스템 파라미터를 제어한다. 엔트로피 코더(214)는 루프 프로세서(212)와의 결합으로 더 이상의 노이즈 없는 압축을 구현하기 위해 사용된다. 설명된 바와 같이, 예를 들면, 존스톤 특허에서 엔트로피 코더(214)는 양자화/속도 루프 프로세서(212)로부터 출력된 양자화된 오디오 신호를 수신한다. 이 때, 엔트로피 코더(214)는, 예를 들면, 공지된 최소 중복성 허프만 코딩 기술(minimum-redundancy Huffman coding technique)을 이용하여 양자화된 오디오 신호의 손실없는 인코딩을 수행할 수 있다. 허프만 코드는, 예컨대, 디이. 에이. 허프만(D. A. Huffman)의 "최소 중복성 코드들의 구성을 위한 방법(A Method for the Construction of Minimum Redundancy Codes)", Proc. IRE, 40:1090-1101, 1952, 및 티이. 엠. 커버(T. M. Cover)와 제이. 에이. 토마스(J. A. Thomas)의 "정보 이론의 요소들(Elements of Information Theory)", pp. 92-101, 1991에 기술된다. 또한, 존스톤 특허는 엔트로피 코더(214)의 PAC 내용에서 허프만 코딩의 사용을 설명한다. 당업자는 공지된 Lempel-Ziv 압축 방법을 포함한 다른 노이즈 없는 데이터 압축 기술을 이용한 엔트로피 코더(214)의 또 다른 실시예를 실행하는 방법을 용이하게 인식할 수 있다.In addition, the quantization /
결국, 스위칭 기준(206)은 고주파 분해 NDCT 필터 뱅크(204)와 웨이브렛 필터 뱅크(208) 사이의 효과적인 스위칭을 더 실행하기 위해 이용된다. 효율화를 위해, 기준은 소정의 잘못된 경보들(false alarms) 또는 빠트린 발성들 없이 정확하게 발성들을 검색하야만 한다. 예를 들면, 검색되지 않은 발성들은 고주파 분해 MDCT 필터 뱅크(204)를 이용하여 인코딩되면 특히 저 비트율에서 두드러진 왜곡을 일으킨다. 대조적으로, 웨이브렛 필터 뱅크(208)로 상대적으로 정상 신호를 코딩하는 경우 출력 비트와 프로세싱 전력의 상당한 낭비를 유발한다.As a result, the switching
따라서, 바람직한 실시예에 따르면 지각 엔트로피 기준이 사용된다. 상술한 바와 같이, 지각 엔트로피는 샘플당 비트의 이론적으로 낮은 경계를 명료하게 코드 세그먼트에 공급하는 신호의 특수한 변형 세그먼트의 측정값이다. 한 세그먼트로부터 다음 세그먼트로의 지각 엔트로피의 큰 증가시 신호의 강한 비정상(예를 들면, 발성)의 유효한 표시를 한다. 도 2의 실시예에 따르면, 지각 엔트로피 변화의 상기 형태는 고주파 분해 MDCT 필터 뱅크(204)로부터 웨이브렛 필터 뱅크(208)까지의 스위칭을 트리거하기 위해 코더(202)에 의해 사용된다. 예시적으로, 고주파 분해 MDCT 필터 뱅크(204)와 웨이브렛 필터 뱅크(208) 사이의 스위칭에 관한 결정은 25msec마다 코더(202)에 의해 이루어진다. 결국, 상술한 바는 단지 본 발명의 원리를 예시할 뿐이다. 당 분야에 숙련된 지식을 가진 자는 본 명세서에 명확하게 도시 및 설명되지는 않았지만, 첨부된 클레임에 규정된 바와 같이 상기 원리와 본 발명의 범주 내에서 이에 따른 원리를 실시하는 여러 가지 다른 배치를 할 수 있다.Thus, according to a preferred embodiment, perceptual entropy criteria are used. As mentioned above, perceptual entropy is a measure of a particular strained segment of a signal that clearly feeds the code segment a theoretically low boundary of bits per sample. A large increase in perceptual entropy from one segment to the next makes a valid indication of a strong anomaly (eg, speech) in the signal. According to the embodiment of FIG. 2, this form of perceptual entropy change is used by
본 발명의 오디오 신호 압축 기술은 지각 오디오 코딩 또는 유사한 서브 밴드 타입 코딩을 이용하여 고주파 분해 MDCT 필터 뱅크와 웨이브렛 필터 사이를 스위칭하는 신호 적응성 스위치 필터 뱅크를 이용함으로써 코딩된 비정상 신호를 핸들링할 수 있다.The audio signal compression technique of the present invention can handle coded abnormal signals by using signal adaptive switch filter banks that switch between high frequency decomposition MDCT filter banks and wavelet filters using perceptual audio coding or similar subband type coding. .
도 1은 본 발명이 예시적으로 구현된 시스템의 블록도1 is a block diagram of a system in which the present invention is illustratively implemented.
도 2는 본 발명의 신호 적응성 스위치 필터 뱅크를 이용하는 도 1의 시스템에 사용된 예시적인 지각 오디오 코더(perceptual audio coder)의 블록도2 is a block diagram of an exemplary perceptual audio coder used in the system of FIG. 1 using the signal adaptive switch filter bank of the present invention.
도 3은 도 2의 신호 적응성 스위치 필터 뱅크에 사용된 트리 구조의 웨이브 및 필터 뱅크를 예시하는 도면3 illustrates a tree structured wave and filter bank used in the signal adaptive switch filter bank of FIG.
도 4는 코사인 변조 필터와 도 2의 신호 적응성 스위치 필터 뱅크에 사용된 웨이브렛 필터 사이의 비교를 예시하는 도면4 illustrates a comparison between a cosine modulation filter and a wavelet filter used in the signal adaptive switch filter bank of FIG. 2.
도 5는 도 2의 신호 적응성 스위치 필터 뱅크를 사용하여 발생된 예시적인 필터 뱅크 스위칭 시퀀스를 예시하는 도면5 illustrates an example filter bank switching sequence generated using the signal adaptive switch filter bank of FIG. 2.
*도면의 주요부분에 대한 부호의 설명** Description of the symbols for the main parts of the drawings *
101 : 아날로그 오디오 102 : 프리프로세서101: analog audio 102: preprocessor
103 : PCM 신호 106 : 통신 채널/저장 매체103: PCM signal 106: communication channel / storage medium
108 : 지각 오디오 디코더 110 : 포스트프로세서108: perceptual audio decoder 110: postprocessor
202 : 신호 적응성 스위치 필터 뱅크 300 : 압축 해제 트리202: signal adaptive switch filter bank 300: decompression tree
Claims (17)
Applications Claiming Priority (4)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
US1472596A | 1996-03-19 | 1996-03-19 | |
US014,725 | 1996-03-19 | ||
US720,757 | 1996-10-01 | ||
US08/720,757 US5852806A (en) | 1996-03-19 | 1996-10-01 | Switched filterbank for use in audio signal coding |
Publications (2)
Publication Number | Publication Date |
---|---|
KR970067255A KR970067255A (en) | 1997-10-13 |
KR100460159B1 true KR100460159B1 (en) | 2005-02-23 |
Family
ID=65951426
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
KR1019970010242A Expired - Lifetime KR100460159B1 (en) | 1996-03-19 | 1997-03-19 | Audio signal encoding method and apparatus |
Country Status (1)
Country | Link |
---|---|
KR (1) | KR100460159B1 (en) |
Citations (5)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
JPH0629859A (en) * | 1992-03-02 | 1994-02-04 | American Teleph & Telegr Co <Att> | Method for encoding of digital input signal |
JPH0695698A (en) * | 1992-09-11 | 1994-04-08 | Sony Corp | Digital signal coder decoder, digital signal coder and digital signal decorder |
WO1994019791A1 (en) * | 1993-02-18 | 1994-09-01 | Aware, Inc. | Improved filter for use in audio compression and decompression systems |
JPH08205151A (en) * | 1995-01-26 | 1996-08-09 | Matsushita Graphic Commun Syst Inc | Image compressing and encoding device and image expanding and decoding device |
EP0797313A2 (en) * | 1996-03-19 | 1997-09-24 | Lucent Technologies Inc. | Switched filterbank for use in audio signal coding |
-
1997
- 1997-03-19 KR KR1019970010242A patent/KR100460159B1/en not_active Expired - Lifetime
Patent Citations (5)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
JPH0629859A (en) * | 1992-03-02 | 1994-02-04 | American Teleph & Telegr Co <Att> | Method for encoding of digital input signal |
JPH0695698A (en) * | 1992-09-11 | 1994-04-08 | Sony Corp | Digital signal coder decoder, digital signal coder and digital signal decorder |
WO1994019791A1 (en) * | 1993-02-18 | 1994-09-01 | Aware, Inc. | Improved filter for use in audio compression and decompression systems |
JPH08205151A (en) * | 1995-01-26 | 1996-08-09 | Matsushita Graphic Commun Syst Inc | Image compressing and encoding device and image expanding and decoding device |
EP0797313A2 (en) * | 1996-03-19 | 1997-09-24 | Lucent Technologies Inc. | Switched filterbank for use in audio signal coding |
Also Published As
Publication number | Publication date |
---|---|
KR970067255A (en) | 1997-10-13 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
US5852806A (en) | Switched filterbank for use in audio signal coding | |
KR100331166B1 (en) | Methods and devices for encoding audio signals and methods and devices for decoding a bit stream | |
Sinha et al. | Audio compression at low bit rates using a signal adaptive switched filterbank | |
Brandenburg | OCF--A new coding algorithm for high quality sound signals | |
JP2599624B2 (en) | Transmission method of digitized audio signal | |
US6182034B1 (en) | System and method for producing a fixed effort quantization step size with a binary search | |
KR100346066B1 (en) | Method for coding an audio signal | |
US6029126A (en) | Scalable audio coder and decoder | |
US5699484A (en) | Method and apparatus for applying linear prediction to critical band subbands of split-band perceptual coding systems | |
EP1080462B1 (en) | System and method for entropy encoding quantized transform coefficients of a signal | |
US5832424A (en) | Speech or audio encoding of variable frequency tonal components and non-tonal components | |
JP3186292B2 (en) | High efficiency coding method and apparatus | |
JP2774203B2 (en) | Audio signal processing method | |
US6128592A (en) | Signal processing apparatus and method, and transmission medium and recording medium therefor | |
Malah et al. | Performance of transform and subband coding systems combined with harmonic scaling of speech | |
JPH08166799A (en) | Method and device for high-efficiency coding | |
KR100460354B1 (en) | Information encoding apparatus and method, Information decoding apparatus and method | |
KR100460159B1 (en) | Audio signal encoding method and apparatus | |
Lincoln | An experimental high fidelity perceptual audio coder | |
JP3418305B2 (en) | Method and apparatus for encoding audio signals and apparatus for processing perceptually encoded audio signals | |
Johnston | Audio coding with filter banks | |
Teh et al. | Subband coding of high-fidelity quality audio signals at 128 kbps | |
JPH07221650A (en) | Method and device for encoding information and method and device for decoding information | |
KR100351772B1 (en) | Digital encoding device, digital recording signal derivation device and digital signal data derivation method | |
JPH07106977A (en) | Information decoding device |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PA0109 | Patent application |
Patent event code: PA01091R01D Comment text: Patent Application Patent event date: 19970319 |
|
PG1501 | Laying open of application | ||
A201 | Request for examination | ||
PA0201 | Request for examination |
Patent event code: PA02012R01D Patent event date: 20020107 Comment text: Request for Examination of Application Patent event code: PA02011R01I Patent event date: 19970319 Comment text: Patent Application |
|
E701 | Decision to grant or registration of patent right | ||
PE0701 | Decision of registration |
Patent event code: PE07011S01D Comment text: Decision to Grant Registration Patent event date: 20040923 |
|
GRNT | Written decision to grant | ||
PR0701 | Registration of establishment |
Comment text: Registration of Establishment Patent event date: 20041126 Patent event code: PR07011E01D |
|
PR1002 | Payment of registration fee |
Payment date: 20041129 End annual number: 3 Start annual number: 1 |
|
PG1601 | Publication of registration | ||
PR1001 | Payment of annual fee |
Payment date: 20071026 Start annual number: 4 End annual number: 4 |
|
PR1001 | Payment of annual fee |
Payment date: 20081027 Start annual number: 5 End annual number: 5 |
|
PR1001 | Payment of annual fee |
Payment date: 20091118 Start annual number: 6 End annual number: 6 |
|
PR1001 | Payment of annual fee |
Payment date: 20101123 Start annual number: 7 End annual number: 7 |
|
PR1001 | Payment of annual fee |
Payment date: 20111122 Start annual number: 8 End annual number: 8 |
|
FPAY | Annual fee payment |
Payment date: 20120104 Year of fee payment: 9 |
|
PR1001 | Payment of annual fee |
Payment date: 20120104 Start annual number: 9 End annual number: 9 |
|
FPAY | Annual fee payment |
Payment date: 20131108 Year of fee payment: 10 |
|
PR1001 | Payment of annual fee |
Payment date: 20131108 Start annual number: 10 End annual number: 10 |
|
FPAY | Annual fee payment |
Payment date: 20141107 Year of fee payment: 11 |
|
PR1001 | Payment of annual fee |
Payment date: 20141107 Start annual number: 11 End annual number: 11 |
|
FPAY | Annual fee payment |
Payment date: 20151109 Year of fee payment: 12 |
|
PR1001 | Payment of annual fee |
Payment date: 20151109 Start annual number: 12 End annual number: 12 |
|
FPAY | Annual fee payment |
Payment date: 20161108 Year of fee payment: 13 |
|
PR1001 | Payment of annual fee |
Payment date: 20161108 Start annual number: 13 End annual number: 13 |
|
EXPY | Expiration of term | ||
PC1801 | Expiration of term |