BR112013022988B1

BR112013022988B1 - Method for processing a digital audio signal, apparatus for processing a digital audio signal and storage medium

Info

Publication number: BR112013022988B1
Application number: BR112013022988-8A
Authority: BR
Inventors: Matthew C. Fellers
Original assignee: Dolby Laboratories Licensing Corporation
Priority date: 2011-03-28
Filing date: 2012-03-19
Publication date: 2022-03-03
Also published as: BR112013022988A2

Abstract

TRANSFORMADA DE COMPLEXIDADE REDUZIDA PARA UM CANAL DE EFEITOS DE BAIXA FREQUÊNCIA. Os recursos computacionais que são necessários para aplicar um banco de filtros baseado em transformada para sinais de áudio com largura de banda limitada são reduzidos pela execução de um processo integrado de combinar dados de entrada com valores reais com dados com valores complexos e pela aplicação de uma transformada curta para os dados com valores complexos, aplicando um banco de transformadas muito curtas para a saída do processo integrado, e derivando uma sequência de dados de saída com valores reais a partir das saídas do banco de transformadas muito curtas.TRANSFORMED FROM LOW COMPLEXITY TO A LOW FREQUENCY EFFECTS CHANNEL. The computational resources that are required to apply a transform-based filter bank to bandwidth-limited audio signals are reduced by performing an integrated process of matching real-valued input data with complex-valued data, and by applying a short transform for the data with complex values, applying a bank of very short transforms to the output of the integrated process, and deriving a sequence of output data with real values from the outputs of the bank of very short transforms.

Description

CROSS REFERENCE WITH RELATED ORDERS

[0001] Este pedido reivindica prioridade para o Pedido de Patente Provisório dos Estados Unidos No 61/468.373, depositado em 28 de março de 2011, incorporado neste documento por referência em sua totalidade.[0001] This application claims priority to United States Provisional Patent Application No. 61/468,373, filed March 28, 2011, incorporated herein by reference in its entirety.

TECHNICAL FIELD

[0002] A presente invenção geralmente está relacionada com processamento de sinal digital e é mais particularmente direcionada para métodos e aparelhos que podem ser utilizados para aplicar bancos de filtros para canais de áudio com largura de banda limitada tal como os assim chamados canais de efeitos de baixa frequência (LFE) utilizando menos recursos computacionais.[0002] The present invention generally relates to digital signal processing and is more particularly directed to methods and apparatus that can be used to apply filter banks to bandwidth-limited audio channels such as so-called audio effects channels. low frequency (LFE) using less computational resources.

BACKGROUND OF THE TECHNIQUE

[0003] Vários padrões internacionais, regionais e nacionais têm sido desenvolvidos para definir métodos e sistemas que podem ser utilizados para implementar sistemas de codificação de áudio com múltiplos canais. Três exemplos de tais padrões incluem ISSO/IEC 13818-7, Codificação de Áudio Avançado (AAC), também conhecido como "MPEG-2 AAC" e ISO/IEC 14496-3, sub-parte 4, também conhecido como "áudio MPEG-4", publicados pela Organização Internacional de Padrões (ISSO), e um padrão publicado pelos Comitê de Sistemas Avançados de Televisão dos Estados Unidos (ATSC), Inc., no Documento A/52B, denominado "Digital Audio Compression Standard (AC-3, E-AC-3)", Revisão B, publicado em 14 de junho de 2005, também conhecido como "Dolby Digital" ou "AC-3".[0003] Various international, regional and national standards have been developed to define methods and systems that can be used to implement multichannel audio coding systems. Three examples of such standards include ISO/IEC 13818-7, Advanced Audio Coding (AAC), also known as "MPEG-2 AAC", and ISO/IEC 14496-3, sub-part 4, also known as "MPEG-2 audio". 4", published by the International Standards Organization (ISSO), and a standard published by the United States Advanced Television Systems Committee (ATSC), Inc., in Document A/52B, called the "Digital Audio Compression Standard (AC-3 , E-AC-3)", Revision B, published June 14, 2005, also known as "Dolby Digital" or "AC-3".

[0004] Os sistemas de áudio que estão de acordo com padrões tais como estes mencionados acima geralmente incluem transmissores que aplicam um banco de filtros de análise para cada um dos vários canais de sinais de áudio de entrada, processam a saída dos bancos de filtros de análise em sinais codificados e transmitem ou gravam os sinais codificados, e receptores que recebem os sinais codificados, decodificam os mesmos e aplicam bancos de filtros de síntese para os sinais decodificados para gerar canais de sinais de áudio de saída que são uma réplica dos sinais de áudio de entrada originais. Vários dos padrões especificam implementar os bancos de filtros de análise e de síntese por uma Transformada Discreta Modificada (MDCT) e por uma Transformada Discreta Modificada Inversa (IMDCT) descritas em "Subband / Transform Coding Using Filter Bank Designs Based on Time Domain Aliasing Cancellation", de Princen, Johnson e Bradley, ICASSP 1987 Conf. Proc., Maio de 1987, páginas 2161 até 2164.[0004] Audio systems that conform to standards such as those mentioned above generally include transmitters that apply a bank of analysis filters to each of the various channels of incoming audio signals, process the output of the filter banks of analysis on scrambled signals and transmit or record the scrambled signals, and receivers that receive the scrambled signals, decode them, and apply synthesis filter banks to the decoded signals to generate output audio signal channels that are a replica of the audio signals. original input audio. Several of the standards specify implementing analysis and synthesis filterbanks by a Modified Discrete Transform (MDCT) and by an Inverse Modified Discrete Transform (IMDCT) described in "Subband / Transform Coding Using Filter Bank Designs Based on Time Domain Aliasing Cancellation" , by Princen, Johnson and Bradley, ICASSP 1987 Conf. Proc., May 1987, pages 2161 through 2164.

[0005] Os bancos de filtros que são implementados por estas transformadas particulares possuem várias propriedades atrativas, mas processamento ou recursos computacionais significativos são requeridos para executar os cálculos necessários. São conhecidas técnicas que podem ser utilizadas para executar as transformadas mais eficientemente, desse modo reduzindo a quantidade de recursos computacionais que são necessários. Uma característica que é comum para estas técnicas é que sua complexidade computacional varia com o assim chamado comprimento da transformada. São conhecidas técnicas que podem realizar reduções adicionais na complexidade computacional por utilizarem comprimentos mais curtos de transformadas para processar canais de áudio com larguras de bandas mais estreitas.[0005] The filter banks that are implemented by these particular transforms have several attractive properties, but significant processing or computational resources are required to perform the necessary calculations. Techniques are known that can be used to perform the transforms more efficiently, thereby reducing the amount of computational resources that are required. A characteristic that is common to these techniques is that their computational complexity varies with the so-called transform length. Techniques are known that can realize further reductions in computational complexity by using shorter transform lengths to process audio channels with narrower bandwidths.

[0006] Padrões como estes mencionados acima definem sequências de dados digitais ou de fluxos de bits digitais que transportam dados representando representações codificadas de um ou mais canais de áudio. Uma configuração de canais algumas vezes referida como "canais 5.1" inclui cinco canais de largura de banda plena denotados esquerdo (L), direito (R), central (C), surround esquerdo (LS) e surround direito (RS), e um canal de largura de banda limitada ou canal de efeitos de baixa frequência (LFE). Os canais de largura de banda plena tipicamente possuem uma largura de banda de ao redor de 20 kHz e o canal LFE de largura de banda limitada tipicamente possui uma largura de banda ao redor de 100 até 200 Hz. Devido à largura de banda do canal LFE ser mais estreita, técnicas conhecidas podem ser utilizadas para executar uma transformada de bancada de filtros mais eficientemente para o canal LFE do que pode ser executado para um dos canais de largura de banda plena.[0006] Standards such as those mentioned above define sequences of digital data or digital bit streams that carry data representing encoded representations of one or more audio channels. A channel setup sometimes referred to as "5.1 channels" includes five full-bandwidth channels denoted left (L), right (R), center (C), surround left (LS), and surround right (RS), and a limited bandwidth channel or low frequency effects (LFE) channel. Full bandwidth channels typically have a bandwidth of around 20 kHz and the limited bandwidth LFE channel typically has a bandwidth of around 100 to 200 Hz. Because the bandwidth of the LFE channel is narrower, known techniques can be used to perform a filter bench transform more efficiently for the LFE channel than can be performed for one of the full bandwidth channels.

[0007] Contudo, existe uma necessidade de desenvolver técnicas que adicionalmente melhorem a eficiência dos bancos de filtros da transformada que são aplicados para canais com largura de banda limitada como o canal LFE.[0007] However, there is a need to develop techniques that additionally improve the efficiency of the transform filter banks that are applied to channels with limited bandwidth such as the LFE channel.

DISCLOSURE OF THE INVENTION

[0008] Um objetivo da presente invenção é proporcionar meios que possam ser utilizados para executar transformadas que implementam bancos de filtros para sinais de canal de largura de banda limitada mais eficientemente do que é possível utilizando técnicas conhecidas.[0008] An object of the present invention is to provide means that can be used to perform transforms that implement filterbanks for bandwidth-limited channel signals more efficiently than is possible using known techniques.

[0009] De acordo com um aspecto da presente invenção, um sinal de largura de banda limitada é processado por receber um bloco de K coeficientes de transformada com valor real dos quais somente um número L de coeficientes representa componentes espectrais de um sinal de áudio com largura de banda limitada, onde

uma potência de dois; aplicar uma primeira transformada de comprimento R para um bloco de coeficientes de valor complexo derivados a partir de M coeficientes de transformada de valor complexo que incluem os L coeficientes de transformada de valor real representando componentes espectrais do sinal de áudio com largura de banda limitada, onde e e P é uma potência de dois; aplicar um banco de Q segundas transformadas de comprimento P para as saídas da primeira transformada; e derivar uma sequência de N amostras de sinal com valor real a partir das saídas do banco de segundas transformadas, onde N = 2.K e as amostras de sinal com valor real representam componentes temporais do sinal de áudio com largura de banda limitada.[0009] In accordance with one aspect of the present invention, a limited bandwidth signal is processed by receiving a block of K real-valued transform coefficients of which only a number L of coefficients represent spectral components of an audio signal with limited bandwidth, where

a power of two; applying a first transform of length R to a block of complex-valued coefficients derived from M complex-valued transform coefficients that include the L real-value transform coefficients representing spectral components of the bandwidth-limited audio signal, where ee P is a power of two; applying a bank of Q second transforms of length P to the outputs of the first transform; and deriving a sequence of N real-valued signal samples from the outputs of the bank of second transforms, where N = 2.K and the real-valued signal samples represent temporal components of the bandwidth-limited audio signal.

[00010] Os vários aspectos da presente invenção e suas concretizações preferidas podem ser mais bem entendidos por referência à discussão seguinte e aos desenhos acompanhantes nos quais números de referência se referem a elementos iguais nas várias figuras. O conteúdo da discussão seguinte e os desenhos são expostos somente como exemplos e não devem ser entendidos como representando limitações em relação ao escopo da presente invenção. BREVE DESCRIÇÃO DOS DESENHOS[00010] The various aspects of the present invention and its preferred embodiments can be better understood by reference to the following discussion and the accompanying drawings in which reference numerals refer to like elements in the various figures. The contents of the following discussion and the drawings are given as examples only and should not be construed as representing limitations on the scope of the present invention. BRIEF DESCRIPTION OF THE DRAWINGS

[00011] A Fig. 1 é um diagrama de blocos esquemático de um sistema de codificação de áudio no qual vários aspectos da presente invenção podem ser realizados.[00011] Fig. 1 is a schematic block diagram of an audio coding system in which various aspects of the present invention may be realized.

[00012] A Fig. 2 é um diagrama de blocos esquemático de um processo que pode ser utilizado para executar uma transformada de síntese no sistema de codificação apresentado na Fig. 1.[00012] Fig. 2 is a schematic block diagram of a process that can be used to perform a synthesis transform in the coding system shown in Fig. 1.

[00013] As Figs. 3 e 4 são diagramas de blocos esquemáticos que ilustram alguns aspectos que podem ser utilizados para executar uma parte do processo apresentado na Fig. 2.[00013] Figs. 3 and 4 are schematic block diagrams illustrating some aspects that can be used to carry out a part of the process shown in Fig. two.

[00014] A Fig. 5 é um diagrama de blocos esquemático de um dispositivo que pode ser utilizado para implementar vários aspectos da presente invenção.[00014] Fig. 5 is a schematic block diagram of a device that can be used to implement various aspects of the present invention.

WAYS TO CARRY OUT THE INVENTION

[00015] A Fig. 1 é uma ilustração esquemática de um sistema de codificação de áudio com dois canais que inclui um transmissor 100 e um receptor 200. O transmissor 100 recebe a partir dos caminhos 11, 12 dois canais de sinais de áudio de entrada. Os bancos de filtros de análise 111, 112 são aplicados para os canais de áudio de entrada para obter um primeiro conjunto de sinais de sub-banda de frequência representando o conteúdo espectral dos sinais de áudio de entrada. Estes bancos de filtros de análise são implementados pelas transformadas do domínio de tempo para domínio de frequência. O codificador 120 aplica um processo de codificação para o primeiro conjunto de sinais de sub-banda de frequência para gerar a informação codificada, a qual é passada ao longo do caminho 20. O receptor 200 recebe a informação codificada a partir do caminho 20. O decodificador 220 aplica um processo de decodificação para a informação codificada para obter um segundo conjunto de sinais de sub-banda de frequência. Os bancos de filtros de síntese 231, 232 são aplicados para o segundo conjunto de sinais de sub-banda de frequência para gerar dois ou mais canais de sinais de áudio de saída, os quais são passados ao longo dos caminhos 31, 32. Estes bancos de filtros de síntese são implementados pelas transformadas de domínio de frequência para domínio de tempo. O caminho 20 pode ser um meio de difusão, um meio de comunicação ponto a ponto, um meio de gravação ou qualquer outro meio que possa transportar ou gravar a informação codificada.[00015] Fig. 1 is a schematic illustration of a two-channel audio coding system that includes a transmitter 100 and a receiver 200. The transmitter 100 receives from paths 11, 12 two channels of incoming audio signals. Analysis filterbanks 111, 112 are applied to the input audio channels to obtain a first set of frequency subband signals representing the spectral content of the input audio signals. These analysis filter banks are implemented by time domain to frequency domain transforms. Encoder 120 applies an encoding process to the first set of subband frequency signals to generate the encoded information, which is passed along path 20. Receiver 200 receives the encoded information from path 20. decoder 220 applies a decoding process to the encoded information to obtain a second set of frequency subband signals. Synthesis filterbanks 231, 232 are applied to the second set of frequency subband signals to generate two or more channels of output audio signals, which are passed along paths 31, 32. These banks of synthesis filters are implemented by the frequency domain to time domain transforms. Path 20 may be a broadcast medium, a point-to-point communication medium, a recording medium, or any other medium that can carry or record the encoded information.

[00016] O codificador 120 e o decodificador 220 não são essenciais para prática da presente invenção. Se eles forem utilizados, eles podem executar processo de codificação sem perdas ou com perdas. A presente invenção não está limitada a qualquer processo particular de codificação e de decodificação.[00016] Encoder 120 and decoder 220 are not essential to the practice of the present invention. If they are used, they can perform lossless or lossy encoding process. The present invention is not limited to any particular encoding and decoding process.

[00017] Somente dois canais de sinais de áudio de entrada e de saída são apresentados nos desenhos para clareza de ilustração. Em várias implementações, existem mais do que dois canais de sinais de áudio de entrada e mais do que dois canais de sinais de áudio de saída. Pelo menos um dos sinais de áudio de saída possui uma largura de banda que é muito mais estreita do que a largura de banda de um ou mais dos outros sinais de áudio de saída.[00017] Only two channels of input and output audio signals are shown in the drawings for clarity of illustration. In various implementations, there are more than two channels of input audio signals and more than two channels of output audio signals. At least one of the output audio signals has a bandwidth that is much narrower than the bandwidth of one or more of the other output audio signals.

[00018] A presente invenção é direcionada para reduzir os recursos computacionais necessários para executar a transformada que implementa o banco de filtros de síntese 231 ou 232 no receptor 200 utilizado para gerar sinais de áudio de saída com largura de banda mais estreita. A presente invenção pode implementar um banco de filtros de síntese mais eficiente em um receptor 200 que mantém compatibilidade com um banco de filtros de análise nos transmissores existentes 100.[00018] The present invention is directed to reducing the computational resources required to perform the transform that implements the synthesis filter bank 231 or 232 in the receiver 200 used to generate output audio signals with narrower bandwidth. The present invention can implement a more efficient synthesis filter bank in a receiver 200 that maintains compatibility with an analysis filter bank in existing transmitters 100.

[00019] A presente invenção também pode ser utilizada para reduzir os recursos computacionais necessários para executar a transformada que implementa o banco de filtros de análise 111 ou 112 no transmissor 100 aplicado para sinais de áudio de entrada com largura de banda mais estreita. Esta implementação pode manter compatibilidade com um banco de filtros de síntese nos receptores existentes 200.[00019] The present invention can also be used to reduce the computational resources required to perform the transform that implements the analysis filter bank 111 or 112 in the transmitter 100 applied to input audio signals with narrower bandwidth. This implementation can maintain compatibility with a synthesis filter bank on existing receivers 200.

B. Implementation Techniques

[00020] Os bancos de filtros de síntese podem ser implementados por uma ampla variedade de transformadas de domínio de frequência para domínio de tempo incluindo várias variações da Transformada de Cosseno Discreta Inversa (IDCT) e da Transformada de Cosseno Discreta Modificada Inversa (IMDCT) mencionadas acima. Os algoritmos que definem estas transformadas de uma maneira direta são referidos neste documento como "transformadas diretas".[00020] Synthesis filterbanks can be implemented by a wide variety of frequency domain to time domain transforms including various variations of the mentioned Inverse Discrete Cosine Transform (IDCT) and Inverse Modified Discrete Cosine Transform (IMDCT) above. Algorithms that define these transforms in a direct way are referred to in this document as "direct transforms".

[00021] Uma técnica referida neste documento como uma "técnica de dobra" pode ser utilizada para executar estas transformadas diretas mais eficientemente. A técnica de dobra compreende três estágios como ilustrando na Fig. 2. O segundo estágio 402 executa uma transformada que possui um comprimento mais curto do que a transformada direta que esta técnica de dobra implementa. A transformada que é executada no segundo estágio 402 é referida como "transformada dobrada" de modo que a descrição seguinte pode mais facilmente distinguir a mesma da transformada direta.[00021] A technique referred to in this document as a "bending technique" can be used to perform these direct transforms more efficiently. The bending technique comprises three stages as illustrated in Fig. 2. The second stage 402 performs a transform that is shorter in length than the direct transform that this bending technique implements. The transform that is performed in the second stage 402 is referred to as a "double transform" so that the following description can more easily distinguish it from the forward transform.

[00022] O estágio de pré-processador 401 combina os coeficientes da transformadas em um bloco de K coeficientes da transformada do domínio de frequência com valores reais em um bloco de 1.K coeficientes da transformada com valores complexos. O estágio da transformada 402 aplica uma transformada dobrada do domínio de frequência para o domínio de tempo de comprimento 1.K para o bloco de coeficientes da transformada com valores complexos para gerar 1. K amostras no domínio do tempo com valores complexos. O estágio pós- processador 403 deriva uma sequência de K amostras no domínio do tempo com valores reais a partir das 1.K amostras de sinal no domínio do tempo com valores complexos. Exceto para vários erros que podem ocorrer a partir das operações aritméticas com precisão finita, as K amostras de sinal no domínio do tempo que são obtidas por esta técnica são idênticas às K amostras de sinal no domínio do tempo que poderiam ser obtidas pela aplicação da transformada direta de comprimento K para o bloco de K coeficientes da transformada no domínio de frequência com valores reais. Esta técnica melhora a eficiência devido aos recursos computacionais adicionais necessários para executar a transformada direta como oposto à transformada dobrada no estágio 402 serem maiores do que os recursos computacionais necessários para implementar o processo executado no estágio de pré-processador 401 e no estágio de pós-processador 403.[00022] Preprocessor stage 401 combines transform coefficients into a block of K real-valued frequency domain transform coefficients into a block of 1.K complex-valued transform coefficients. The transform stage 402 applies a double transform from the frequency domain to the time domain of length 1.K to the complex-valued transform coefficient block to generate 1.K samples in the complex-valued time domain. The post-processor stage 403 derives a sequence of K real-valued time domain samples from the 1.K complex-valued time domain signal samples. Except for various errors that can occur from arithmetic operations with finite precision, the K time domain signal samples that are obtained by this technique are identical to the K time domain signal samples that could be obtained by applying the transform length K to the block of K transform coefficients in the frequency domain with real values. This technique improves efficiency because the additional computational resources required to perform the forward transform as opposed to the double transform at stage 402 are greater than the computational resources required to implement the process performed at the preprocessor stage 401 and the postprocessor stage. 403 processor.

[00023] Se um bloco de coeficientes da transformada representa um sinal com largura de banda estreita no qual um número significativo de coeficientes da transformada são sempre zero, uma técnica adicional de decomposição da transformada pode ser utilizada para aumentar a eficiência do processamento da transformada dobrada que é executada no estágio 402.[00023] If a block of transform coefficients represents a narrow-bandwidth signal in which a significant number of transform coefficients are always zero, an additional transform decomposition technique can be used to increase the efficiency of double transform processing which runs at stage 402.

1. Direct Transforms

[00024] A IMDCT direta é apresentada na expressão 2. Sua Transformada de Cosseno Discreta Modificada (MDCT) complementar é apresentada na expressão 1.

onde X(k) = coeficiente da transformada no domínio de frequência com valor real k; K = número total de coeficientes da transformada no domínio de frequência com valores reais; x(n) = amostra de sinal no domínio do tempo com valor real n; e N = comprimento da janela no domínio do tempo de amostras, onde N = 2K.[00024] The direct IMDCT is presented in expression 2. Its complementary Modified Discrete Cosine Transform (MDCT) is presented in expression 1.

where X(k) = coefficient of the transform in the frequency domain with real value k; K = total number of transform coefficients in the frequency domain with real values; x(n) = time domain signal sample with real value n; and N = window length in the time domain of samples, where N = 2K.

[00025] A operação apropriada destas transformadas diretas requer o uso de funções de janela de análise e funções de janela de síntese cujos comprimentos e formatos atendem a alguns requerimentos que são bem conhecidos na técnica. A função de janela de análise é aplicada para os segmentos de N amostras de sinal de áudio de entrada antes da aplicação da MDCT. A função de janela de síntese é aplicada para os segmentos de N amostras obtidas a partir de uma aplicação da IMDCT para os blocos de K coeficientes da transformada e estes segmentos colocados na janela de amostras são sobrepostos e adicionados para os segmentos colocados na janela de amostras obtidas a partir de outros blocos de coeficientes de transformada. Detalhes adicionais podem ser obtidos a partir do documento de Princen et al., citado acima. Os parágrafos seguintes omitem discussão adicional da função de janela de análise.[00025] Proper operation of these direct transforms requires the use of parsing window functions and synthesis window functions whose lengths and formats meet some requirements that are well known in the art. The analysis window function is applied to the segments of N samples of the input audio signal before applying the MDCT. The synthesis window function is applied to the segments of N samples obtained from an application of the IMDCT to the blocks of K transform coefficients and these segments placed in the sample window are superimposed and added to the segments placed in the sample window obtained from other blocks of transform coefficients. Additional details can be obtained from the document by Princen et al., cited above. The following paragraphs omit further discussion of the parse window function.

2. Bending Technique

[00026] O processo executado no estágio pré-processador 401 pode ser expresso como:

onde X'(k) = coeficiente da transformada no domínio de frequência com valor complexo k; e j = operador imaginário igual a

[00026] The process executed at preprocessor stage 401 can be expressed as:

where X'(k) = coefficient of the transform in the frequency domain with complex value k; ej = imaginary operator equal to

[00027] A transformada dobrada executada no estágio da transformada 402 pode ser expressa como:

x'(n) = amostra de sinal no domínio do tempo com valor complexo.[00027] The double transform performed at transform stage 402 can be expressed as:

x'(n) = time domain signal sample with complex value.

[00028] O processo executado no estágio pós-processador 403 pode ser expresso como:

onde y(n) = valor de amostra intermediário utilizado nos cálculos subsequentes de colocação em janela;

[00028] The process executed at post-processor stage 403 can be expressed as:

where y(n) = intermediate sample value used in subsequent windowing calculations;

3. Synthesis Window Function for IMDCT

[00029] A operação apropriada da IMDCT inclui aplicar uma função de janela de síntese apropriadamente projetada para as amostras no domínio do tempo geradas pela transformada. As amostras de sinal no domínio do tempo que são obtidas a partir desta operação de colocação em janela podem ser expressas como:

onde h(n) = ponto n na função de janela de síntese; e y'(n) = amostra intermediária colocada na janela n.[00029] Proper operation of the IMDCT includes applying an appropriately designed synthesis window function to the time domain samples generated by the transform. The time domain signal samples that are obtained from this windowing operation can be expressed as:

where h(n) = point n in the synthesis window function; and y'(n) = intermediate sample placed in window n.

[00030] As amostras intermediárias colocadas na janela y' obtidas a partir da expressão 6 são as amostras intermediárias no domínio do tempo que poderiam ter sido obtidas pela aplicação da IMDCT direta para um bloco dos coeficientes da transformada no domínio de frequência X seguido por uma aplicação da função de janela de síntese h. Como explicado no documento de Princen citado acima, as amostras de sinal de saída no domínio do tempo são obtidas por sobrepor e adicionar intermediárias colocadas na janela derivadas a partir de um bloco "corrente" de coeficientes da transformada com um conjunto das amostras intermediárias colocadas na janela "anteriores" derivadas a partir de um bloco anterior de coeficientes da transformada. Esse processo de sobreposição - adição pode ser expresso como:

onde

= amostras intermediárias colocadas na janela anteriores.[00030] The intermediate samples placed in the window y' obtained from expression 6 are the intermediate samples in the time domain that could have been obtained by applying the direct IMDCT to a block of the transform coefficients in the frequency domain X followed by a application of the synthesis window function h. As explained in the Princen document cited above, the output signal samples in the time domain are obtained by superimposing and adding intermediates placed in the window derived from a "current" block of transform coefficients with a set of the intermediate samples placed in the window. "previous" window derived from a previous block of transform coefficients. This overlay-addition process can be expressed as:

Where

= intermediate samples placed in the previous window.

4. Transform Decomposition Technique

[00031] Uma técnica de decomposição de transformada pode ser utilizada para derivar um método mais eficiente para executar a transformada dobrada para sinais com largura de banda limitada nos quais alguns dos coeficientes da transformada em um bloco de coeficientes da transformada no domínio de frequência são conhecidos como sendo iguais a zero. Esta técnica de decomposição consiste em expressar a transformada dobrada como uma transformada bidimensional equivalente e decompor esta transformada bidimensional em uma única transformada vertical unidimensional seguida por um banco de Transformadas Discretas de Fourier Inversas (IDFT) de direção única horizontal. A transformada vertical possui um comprimento igual a Q e o banco de IDFT complexa horizontal compreende Q transformadas, cada uma possuindo um comprimento igual a P, onde P e Q são números inteiros e o produto de P e Q é igual ao comprimento da transformada dobrada.[00031] A transform decomposition technique can be used to derive a more efficient method to perform the double transform for bandwidth limited signals in which some of the transform coefficients in a block of frequency domain transform coefficients are known as being equal to zero. This decomposition technique consists of expressing the doubled transform as an equivalent two-dimensional transform and decomposing this two-dimensional transform into a single one-dimensional vertical transform followed by a bank of horizontal single-direction Inverse Fourier Discrete Transforms (IDFT). The vertical transform has a length equal to Q and the horizontal complex IDFT bank comprises Q transforms, each having a length equal to P, where P and Q are integers and the product of P and Q is equal to the length of the doubled transform. .

[00032] Referindo-se à discussão precedente da técnica de dobra, pode ser visto que o comprimento da transformada dobrada é J = %.N = 1/2K; portanto, P.Q = J. Os valores para P, Q e J são restritos a serem potência de dois.[00032] Referring to the preceding discussion of the folding technique, it can be seen that the length of the folded transform is J = %.N = 1/2K; therefore, P.Q = J. The values for P, Q, and J are restricted to being powers of two.

[00033] A IDFT horizontal e a transformada vertical são apresentadas nas expressões 8 e 9, respectivamente:

[00033] The horizontal IDFT and the vertical transform are presented in expressions 8 and 9, respectively:

[00034] O núcleo da transformada WN/4 na transformada vertical pode ser calculado utilizando a lei de Euler:

[00034] The core of the WN/4 transform in the vertical transform can be calculated using Euler's law:

[00035] Devido aos coeficientes da transformada direta X(k) representarem um sinal de áudio em um canal LFE com uma largura de banda limitada, somente L destes coeficientes podem possuir um valor diferente de zero, onde L é muito menor do que K. Como resultado, não mais do que

frequência com valores complexos X'(k) obtidos a partir do estágio pré- processador 401 podem possuir valores diferentes de zero e o comprimento da transformada vertical pode ser reduzido. Um valor M é escolhido de modo que ele seja a menor potência de dois igual ou maior do que este número

derivar M coeficientes da transformada no domínio de frequência com valores complexos X'(k) que incluem os L coeficientes da transformada direta com valores reais que podem ter valores que não são zero. Estes M coeficientes da transformada no domínio de frequência com valores complexos são para ser processados pelo estágio da transformada 402. O tamanho R da transformada vertical é escolhido de modo que

Os coeficientes da transformada ^s'1 1 são zero para ou, alternativamente, r> R. Por considerar estas questões, a expressão 9 pode ser escrita como:

[00035] Because the direct transform coefficients X(k) represent an audio signal on an LFE channel with a limited bandwidth, only L of these coefficients can have a non-zero value, where L is much smaller than K. As a result, no more than

frequency with complex values X'(k) obtained from the preprocessor stage 401 can have non-zero values and the length of the vertical transform can be reduced. A value M is chosen so that it is the smallest power of two equal to or greater than this number.

derive M coefficients of the transform in the frequency domain with complex values X'(k) that include the L coefficients of the direct transform with real values that can have values that are not zero. These M frequency domain transform coefficients with complex values are to be processed by the transform stage 402. The size R of the vertical transform is chosen so that

The transform coefficients ^s'1 1 are zero for or, alternatively, r> R. Considering these issues, expression 9 can be written as:

5. Integrated Pre-Processor and Vertical Transform

[00036] A eficiência da técnica de dobra combinada com a técnica de decomposição de transformada como descrita acima pode ser adicionalmente melhorada por integrar o estágio pré-processador 401 e a transformada vertical como apresentado na expressão 9 em um processo. Isto é ilustrado esquematicamente na Fig. 3.[00036] The efficiency of the bending technique combined with the transform decomposition technique as described above can be further improved by integrating the preprocessor stage 401 and the vertical transform as shown in expression 9 into one process. This is schematically illustrated in Fig. 3.

[00037] O comprimento R da transformada vertical pode ser escolhido para ser igual ao valor M ou ser um sub-múltiplo da potência de dois

do valor M. Em uma concretização que está de acordo com o padrão AC- 3 mencionado acima, o número %.N de coeficientes da transformada no domínio de tempo com valores reais é igual a 256 e o conteúdo espectral do sinal de áudio no canal LFE pode ser representado por sete coeficientes da transformada com valores reais X(k), onde 0 < k < 7. O estágio pré- processador 401 dobra estes sete coeficientes da transformada com valores reais em quatro coeficientes da transformada com valores complexos que são subsequentemente processados pela transformada dobrada cujo comprimento é J = %.N = 128. Como resultado, dados quatro coeficientes da transformada com valores complexos nesta concretização, M é igual a quatro e R pode ser estabelecido igual a 4, 2 ou 1 por estabelecer P igual a 1, 2 ou 4, respectivamente. Devido a P.Q = J, o comprimento da transformada vertical Q é igual a 128, 64 e 32 quando P é igual a 1, 2 e 4, respectivamente. Pouco ou nenhum ganho na eficiência é alcançado quando P é igual a um.[00037] The length R of the vertical transform can be chosen to be equal to the value M or be a sub-multiple of the power of two

of the M value. In an embodiment that conforms to the AC-3 standard mentioned above, the number %N of time domain transform coefficients with real values is equal to 256 and the spectral content of the audio signal in the channel LFE can be represented by seven real-valued transform coefficients X(k), where 0 < k < 7. The preprocessor stage 401 folds these seven real-valued transform coefficients into four complex-valued transform coefficients that are subsequently processed by the double transform whose length is J = %.N = 128. As a result, given four transform coefficients with complex values in this embodiment, M equals four and R can be set equal to 4, 2 or 1 by setting P equal to 1, 2 or 4, respectively. Due to PQ = J, the length of the vertical transform Q is equal to 128, 64 and 32 when P is equal to 1, 2 and 4, respectively. Little or no gain in efficiency is achieved when P is equal to one.

[00038] Onde P é estabelecido igual a dois, os valores obtidos a partir da saída dos índices da transformada vertical não precisam ter o bit invertido dado o pequeno número de coeficientes calculados em cada uma das transformadas horizontais. A necessidade de inversão de bit dos índices da transformada para o algoritmo FFT de Cooley-Tukey é bem conhecida. Entretanto, a inversão de bit não é necessária quando P é estabelecido igual a dois, devido à inversão de bit para uma DFT complexa com comprimento dois produzir a mesma indexação de coeficiente que é alcançada por não executar a inversão de bit. Esta vantagem computacional é anulada por se ter um grande número de transformadas horizontais a executar. Os valores para P e Q podem ser selecionados em resposta às várias considerações de projeto tal como limitação do processamento no hardware escolhido para implementar os processos.[00038] Where P is set equal to two, the values obtained from the output of the vertical transform indices do not need to have the bit inverted given the small number of coefficients calculated in each of the horizontal transforms. The need for bit inversion of the transform indices for the Cooley-Tukey FFT algorithm is well known. However, bit inversion is not necessary when P is set equal to two, because bit inversion for a complex DFT with length two produces the same coefficient indexing that is achieved by not performing bit inversion. This computational advantage is nullified by having a large number of horizontal transforms to perform. Values for P and Q can be selected in response to various design considerations such as limiting processing in the hardware chosen to implement the processes.

[00039] Uma integração do processo apresentado na expressão 3 com a transformada vertical apresentada na expressão 9 pode ser derivada por fazer as substituições para

expressão 9 de acordo com as expressões 3 e 10, respectivamente. Estas substituições produzem a função núcleo seguinte para a transformada vertical:

para ' '. sin = seno[00039] An integration of the process presented in expression 3 with the vertical transform presented in expression 9 can be derived by making the substitutions for

expression 9 according to expressions 3 and 10, respectively. These substitutions produce the following kernel function for the vertical transform:

for ''. sin = sine

[00040] O produto vetorial dos temos seno e cosseno na expressão 12 pode ser reescrito como:

que nós denotamos como l(s,n) para simplificar as expressões seguintes. Utilizando esta notação, a expressão 11 pode ser reescrita como:

[00040] The cross product of the sine and cosine terms in expression 12 can be rewritten as:

which we denote as l(s,n) to simplify the following expressions. Using this notation, expression 11 can be rewritten as:

[00041] Executando a multiplicação complexa, obtemos:

[00041] Performing complex multiplication, we get:

[00042] A complexidade computacional da função U(n,p) pode ser adicionalmente reduzida por tirar vantagem do fato de que os coeficientes no domínio de frequência X(v) podem ser não zero somente para 0 < v < 2R. Esta redução é refletida na expressão seguinte que também divide a função em funções de componente reais e imaginários UR(n,p) e U1(n,p), respectivamente, onde U(n,p) = UR(n,p) + j . U1(n,p):

[00042] The computational complexity of the function U(n,p) can be further reduced by taking advantage of the fact that the coefficients in the frequency domain X(v) can be non-zero only for 0 < v < 2R. This reduction is reflected in the following expression which also divides the function into real and imaginary component functions UR(n,p) and U1(n,p), respectively, where U(n,p) = UR(n,p) + j. U1(n,p):

[00043] Esta integração do estágio pré-processador 401 com a transformada vertical é ilustrada esquematicamente na Fig. 4.[00043] This integration of the preprocessor stage 401 with the vertical transform is schematically illustrated in Fig. 4.

[00044] Os recursos computacionais requeridos para implementar a função U(n,p) ou suas funções componentes UR(n,p) e U1(n,p) podem ser reduzidos por pré-calcular as funções s’ n( /■: r.» > i. COSÍ ÍÍ ). si nc /■: /?.//) e cosi/(.7,7?) para todos os valores de v, u e n. Armazenar os resultados calculados em tabelas de consulta exige 4.P.R.Q entradas, onde o fato de quatro considera todas as combinações de seno, cosseno, v e u na expressão 17.[00044] The computational resources required to implement the function U(n,p) or its component functions UR(n,p) and U1(n,p) can be reduced by pre-calculating the functions s' n( /■: r.» > i. COSÍ ÍÍ ). si nc /■: /?.//) and cosi/(.7,7?) for all values of v, u and n. Storing the calculated results in lookup tables requires 4.P.R.Q entries, where the fact of four considers all combinations of sine, cosine, v, and u in expression 17.

[00045] O tamanho da tabela pode ser adicionalmente reduzido em 12,5% por reconhecer que

para todos n. Como resultado, o número de entradas requeridas para todos os fatores de X na expressão 17 é na ordem de 3,5.P.Q.Q,[00045] The table size can be further reduced by 12.5% by recognizing that

for all n. As a result, the number of entries required for all factors of X in expression 17 is on the order of 3.5.PQQ,

[00046] Se o tamanho destas tabelas for maior do que desejado, seu tamanho pode ser reduzido por tirar vantagem do fato de que várias das entradas para I(v,n) na tabela possuem valores duplicados devido á periodicidade das funções básicas de seno e cosseno. Esta redução no tamanho pode ser alcançada na troca por recursos adicionais de processamento necessários para entradas de consulta na tabela devido a um esquema de indexação mais elaborado que será necessário para acessar dados na tabela.[00046] If the size of these tables is larger than desired, their size can be reduced by taking advantage of the fact that several of the entries for I(v,n) in the table have duplicate values due to the periodicity of the basic sine and cosine. This reduction in size can be achieved in exchange for additional processing resources needed for query entries in the table due to a more elaborate indexing scheme that will be required to access data in the table.

[00047] Outras técnicas podem ser utilizadas para reduzir os requerimentos de tamanho da tabela. Por exemplo, se as tabelas de seno e de cosseno j existem em uma implementação particular, então somente I(v,n) e I(u,n) são necessários, o que reduz o número de entradas da tabela por um fator de dois.[00047] Other techniques can be used to reduce table size requirements. For example, if sine and cosine j tables exist in a particular implementation, then only I(v,n) and I(u,n) are needed, which reduces the number of table entries by a factor of two. .

C. Implementation

[00048] Dispositivos que incorporam vários aspectos da presente invenção podem ser implementados de vários modos incluindo software para execução por um computador ou algum outro dispositivo que inclua componentes mais especializados tais como conjunto de circuitos de processador de sinal digital (DSP) acoplado com componentes similares a estes encontrados em um computador de propósito geral. A Fig. 5 é um diagrama de blocos esquemático de um dispositivo 70 que pode ser utilizado para implementar aspectos da presente invenção. O processador 72 proporciona recursos de computação. A RAM 73 é memória de acesso aleatório (RAM) do sistema utilizada pelo processador 72 para processamento. A ROM 74 representa alguma forma de armazenamento persistente tal como memória somente para leitura (ROM) para armazenar programas necessários para operar o dispositivo 70 e possivelmente para realizar vários aspectos da presente invenção. O controle de E/S 75 representa conjunto de circuitos de interface para receber e transmitir sinais por meio dos canais de comunicação 76, 77. Na concretização apresentada, todos os componentes principais do sistema se conectam com o barramento 71, o qual pode representar mais do que um barramento físico ou lógico; entretanto, uma arquitetura de barramento não é requerida para implementar a presente invenção.[00048] Devices embodying various aspects of the present invention can be implemented in various ways including software for execution by a computer or some other device that includes more specialized components such as digital signal processor (DSP) circuitry coupled with similar components to those found on a general purpose computer. Fig. 5 is a schematic block diagram of a device 70 that can be used to implement aspects of the present invention. Processor 72 provides computing resources. RAM 73 is system random access memory (RAM) used by processor 72 for processing. ROM 74 represents some form of persistent storage such as read-only memory (ROM) to store programs necessary to operate device 70 and possibly to carry out various aspects of the present invention. Control I/O 75 represents set of interface circuitry for receiving and transmitting signals through communication channels 76, 77. In the presented embodiment, all the main components of the system connect with the bus 71, which can represent more than a physical or logical bus; however, a bus architecture is not required to implement the present invention.

[00049] Nas concretizações implementadas por um sistema de computador de propósito geral, componentes adicionais podem ser incluídos para fazer interface com dispositivos tais como um teclado ou mouse e um vídeo, e para controlar um dispositivo de armazenamento 78 possuindo um meio de armazenamento tal como fita ou disco magnético, ou um meio ótico. O meio de armazenamento pode ser utilizado para gravar programas de instruções para operar sistemas, utilitários e aplicativos, e pode inclui programas que implementam vários aspectos da presente invenção.[00049] In embodiments implemented by a general purpose computer system, additional components may be included to interface with devices such as a keyboard or mouse and a display, and to control a storage device 78 having a storage medium such as magnetic tape or disk, or an optical medium. The storage medium may be used to record programs of instructions for operating systems, utilities and applications, and may include programs that implement various aspects of the present invention.

[00050] As funções requeridas para praticar vários aspectos da presente invenção podem ser executadas por componentes que são implementados em uma ampla variedade de modos incluindo componentes lógicos separados, circuitos integrados, um ou mais ASICs e/ou processadores controlados por programa. A maneira na qual estes componentes são implementados não é importante para a presente invenção.[00050] The functions required to practice various aspects of the present invention can be performed by components that are implemented in a wide variety of modes including separate logic components, integrated circuits, one or more ASICs and/or program-controlled processors. The manner in which these components are implemented is not important to the present invention.

[00051] Implementações de software da presente invenção pode ser transportadas por vários meios legíveis por máquina tal como caminhos de comunicação de banda base ou modulados através do espectro incluindo desde que frequências supersônicas até ultravioleta, ou meio de armazenamento que transporta informação utilizando essencialmente qualquer tecnologia de gravação incluindo fita magnética, cartões ou disco, cartões ou disco ótico, e marcações detectáveis no meio incluindo papel.[00051] Software implementations of the present invention may be carried by various machine-readable media such as baseband or modulated communication paths across the spectrum including from supersonic to ultraviolet frequencies, or storage media that carry information using essentially any technology. recording media including magnetic tape, cards or disc, cards or optical disc, and detectable markings on the medium including paper.

Claims

1. Method for processing a digital audio signal, characterized by the fact that the method comprises: receiving a block of transform coefficients with real values, in which the block has a K quantity of transform coefficients with real values of which only a number L of the real-valued transform coefficients represent spectral components of a bandwidth-limited audio signal, ^ L < M < K, and M is a power of two; applying a first transform of length R to either the L transform coefficients with real values representing spectral components of the bandwidth-limited audio signal or a block of complex-valued coefficients derived from M complex-valued transform coefficients that include the L transform coefficients with real values representing spectral components of the limited bandwidth audio signal, where

a power of two; applying a bank of Q second transforms of length P to first transform outputs; and deriving a sequence of N real-valued signal samples from the outputs of the bank of second transforms, where N = 2.K and the real-valued signal samples represent time components of the bandwidth-limited audio signal.

2. Method according to claim 1, characterized in that: each of the second transforms is equivalent to performing calculations expressed as

the sequence of signal samples with real values is derived from the second transform bank outputs when performing calculations equivalent to

where x' represents the outputs of the second transform; U(n,p) = kernel function of the first transform;

y(n) represents the intermediate signal samples;

j = imaginary operator equal to V-1; em, nep are indices used in calculations.

3. Method according to claim 2, characterized in that the first transform is equivalent to performing calculations expressed as

where X' represents the coefficients with complex values;

r is an index used in calculations.

4. Method according to claim 2, characterized in that the first transform is equivalent to performing calculations expressed as

where X represents the transform coefficients with real values;

r is an index used in calculations.

5. Method according to claim 2, characterized in that the first transform is equivalent to performing calculations expressed as

where X represents the transform coefficients with real values;

r is an index used in calculations.

6. Apparatus for processing a digital audio signal, characterized in that the apparatus comprises means for carrying out all steps of the method as defined in any one of claims 1 to 5.

7. Storage medium characterized in that it has method steps stored on it that are executable by a device to perform the method as defined in any one of claims 1 to 5.