BR112013022988B1 - Method for processing a digital audio signal, apparatus for processing a digital audio signal and storage medium - Google Patents
Method for processing a digital audio signal, apparatus for processing a digital audio signal and storage medium Download PDFInfo
- Publication number
- BR112013022988B1 BR112013022988B1 BR112013022988-8A BR112013022988A BR112013022988B1 BR 112013022988 B1 BR112013022988 B1 BR 112013022988B1 BR 112013022988 A BR112013022988 A BR 112013022988A BR 112013022988 B1 BR112013022988 B1 BR 112013022988B1
- Authority
- BR
- Brazil
- Prior art keywords
- transform
- audio signal
- real
- coefficients
- valued
- Prior art date
Links
Images
Classifications
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L19/00—Speech or audio signals analysis-synthesis techniques for redundancy reduction, e.g. in vocoders; Coding or decoding of speech or audio signals, using source filter models or psychoacoustic analysis
- G10L19/02—Speech or audio signals analysis-synthesis techniques for redundancy reduction, e.g. in vocoders; Coding or decoding of speech or audio signals, using source filter models or psychoacoustic analysis using spectral analysis, e.g. transform vocoders or subband vocoders
-
- G—PHYSICS
- G06—COMPUTING OR CALCULATING; COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F17/00—Digital computing or data processing equipment or methods, specially adapted for specific functions
- G06F17/10—Complex mathematical operations
- G06F17/14—Fourier, Walsh or analogous domain transformations, e.g. Laplace, Hilbert, Karhunen-Loeve, transforms
- G06F17/147—Discrete orthonormal transforms, e.g. discrete cosine transform, discrete sine transform, and variations therefrom, e.g. modified discrete cosine transform, integer transforms approximating the discrete cosine transform
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L19/00—Speech or audio signals analysis-synthesis techniques for redundancy reduction, e.g. in vocoders; Coding or decoding of speech or audio signals, using source filter models or psychoacoustic analysis
- G10L19/02—Speech or audio signals analysis-synthesis techniques for redundancy reduction, e.g. in vocoders; Coding or decoding of speech or audio signals, using source filter models or psychoacoustic analysis using spectral analysis, e.g. transform vocoders or subband vocoders
- G10L19/0212—Speech or audio signals analysis-synthesis techniques for redundancy reduction, e.g. in vocoders; Coding or decoding of speech or audio signals, using source filter models or psychoacoustic analysis using spectral analysis, e.g. transform vocoders or subband vocoders using orthogonal transformation
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L19/00—Speech or audio signals analysis-synthesis techniques for redundancy reduction, e.g. in vocoders; Coding or decoding of speech or audio signals, using source filter models or psychoacoustic analysis
- G10L19/008—Multichannel audio signal coding or decoding using interchannel correlation to reduce redundancy, e.g. joint-stereo, intensity-coding or matrixing
Landscapes
- Engineering & Computer Science (AREA)
- Physics & Mathematics (AREA)
- General Physics & Mathematics (AREA)
- Mathematical Physics (AREA)
- Computational Mathematics (AREA)
- Mathematical Analysis (AREA)
- Audiology, Speech & Language Pathology (AREA)
- Human Computer Interaction (AREA)
- Acoustics & Sound (AREA)
- Multimedia (AREA)
- Theoretical Computer Science (AREA)
- Signal Processing (AREA)
- Computational Linguistics (AREA)
- Health & Medical Sciences (AREA)
- Mathematical Optimization (AREA)
- Spectroscopy & Molecular Physics (AREA)
- Pure & Applied Mathematics (AREA)
- Data Mining & Analysis (AREA)
- Algebra (AREA)
- Databases & Information Systems (AREA)
- Software Systems (AREA)
- General Engineering & Computer Science (AREA)
- Discrete Mathematics (AREA)
- Compression, Expansion, Code Conversion, And Decoders (AREA)
Abstract
TRANSFORMADA DE COMPLEXIDADE REDUZIDA PARA UM CANAL DE EFEITOS DE BAIXA FREQUÊNCIA. Os recursos computacionais que são necessários para aplicar um banco de filtros baseado em transformada para sinais de áudio com largura de banda limitada são reduzidos pela execução de um processo integrado de combinar dados de entrada com valores reais com dados com valores complexos e pela aplicação de uma transformada curta para os dados com valores complexos, aplicando um banco de transformadas muito curtas para a saída do processo integrado, e derivando uma sequência de dados de saída com valores reais a partir das saídas do banco de transformadas muito curtas.TRANSFORMED FROM LOW COMPLEXITY TO A LOW FREQUENCY EFFECTS CHANNEL. The computational resources that are required to apply a transform-based filter bank to bandwidth-limited audio signals are reduced by performing an integrated process of matching real-valued input data with complex-valued data, and by applying a short transform for the data with complex values, applying a bank of very short transforms to the output of the integrated process, and deriving a sequence of output data with real values from the outputs of the bank of very short transforms.
Description
[0001] Este pedido reivindica prioridade para o Pedido de Patente Provisório dos Estados Unidos No 61/468.373, depositado em 28 de março de 2011, incorporado neste documento por referência em sua totalidade.[0001] This application claims priority to United States Provisional Patent Application No. 61/468,373, filed March 28, 2011, incorporated herein by reference in its entirety.
[0002] A presente invenção geralmente está relacionada com processamento de sinal digital e é mais particularmente direcionada para métodos e aparelhos que podem ser utilizados para aplicar bancos de filtros para canais de áudio com largura de banda limitada tal como os assim chamados canais de efeitos de baixa frequência (LFE) utilizando menos recursos computacionais.[0002] The present invention generally relates to digital signal processing and is more particularly directed to methods and apparatus that can be used to apply filter banks to bandwidth-limited audio channels such as so-called audio effects channels. low frequency (LFE) using less computational resources.
[0003] Vários padrões internacionais, regionais e nacionais têm sido desenvolvidos para definir métodos e sistemas que podem ser utilizados para implementar sistemas de codificação de áudio com múltiplos canais. Três exemplos de tais padrões incluem ISSO/IEC 13818-7, Codificação de Áudio Avançado (AAC), também conhecido como "MPEG-2 AAC" e ISO/IEC 14496-3, sub-parte 4, também conhecido como "áudio MPEG-4", publicados pela Organização Internacional de Padrões (ISSO), e um padrão publicado pelos Comitê de Sistemas Avançados de Televisão dos Estados Unidos (ATSC), Inc., no Documento A/52B, denominado "Digital Audio Compression Standard (AC-3, E-AC-3)", Revisão B, publicado em 14 de junho de 2005, também conhecido como "Dolby Digital" ou "AC-3".[0003] Various international, regional and national standards have been developed to define methods and systems that can be used to implement multichannel audio coding systems. Three examples of such standards include ISO/IEC 13818-7, Advanced Audio Coding (AAC), also known as "MPEG-2 AAC", and ISO/IEC 14496-3, sub-part 4, also known as "MPEG-2 audio". 4", published by the International Standards Organization (ISSO), and a standard published by the United States Advanced Television Systems Committee (ATSC), Inc., in Document A/52B, called the "Digital Audio Compression Standard (AC-3 , E-AC-3)", Revision B, published June 14, 2005, also known as "Dolby Digital" or "AC-3".
[0004] Os sistemas de áudio que estão de acordo com padrões tais como estes mencionados acima geralmente incluem transmissores que aplicam um banco de filtros de análise para cada um dos vários canais de sinais de áudio de entrada, processam a saída dos bancos de filtros de análise em sinais codificados e transmitem ou gravam os sinais codificados, e receptores que recebem os sinais codificados, decodificam os mesmos e aplicam bancos de filtros de síntese para os sinais decodificados para gerar canais de sinais de áudio de saída que são uma réplica dos sinais de áudio de entrada originais. Vários dos padrões especificam implementar os bancos de filtros de análise e de síntese por uma Transformada Discreta Modificada (MDCT) e por uma Transformada Discreta Modificada Inversa (IMDCT) descritas em "Subband / Transform Coding Using Filter Bank Designs Based on Time Domain Aliasing Cancellation", de Princen, Johnson e Bradley, ICASSP 1987 Conf. Proc., Maio de 1987, páginas 2161 até 2164.[0004] Audio systems that conform to standards such as those mentioned above generally include transmitters that apply a bank of analysis filters to each of the various channels of incoming audio signals, process the output of the filter banks of analysis on scrambled signals and transmit or record the scrambled signals, and receivers that receive the scrambled signals, decode them, and apply synthesis filter banks to the decoded signals to generate output audio signal channels that are a replica of the audio signals. original input audio. Several of the standards specify implementing analysis and synthesis filterbanks by a Modified Discrete Transform (MDCT) and by an Inverse Modified Discrete Transform (IMDCT) described in "Subband / Transform Coding Using Filter Bank Designs Based on Time Domain Aliasing Cancellation" , by Princen, Johnson and Bradley, ICASSP 1987 Conf. Proc., May 1987, pages 2161 through 2164.
[0005] Os bancos de filtros que são implementados por estas transformadas particulares possuem várias propriedades atrativas, mas processamento ou recursos computacionais significativos são requeridos para executar os cálculos necessários. São conhecidas técnicas que podem ser utilizadas para executar as transformadas mais eficientemente, desse modo reduzindo a quantidade de recursos computacionais que são necessários. Uma característica que é comum para estas técnicas é que sua complexidade computacional varia com o assim chamado comprimento da transformada. São conhecidas técnicas que podem realizar reduções adicionais na complexidade computacional por utilizarem comprimentos mais curtos de transformadas para processar canais de áudio com larguras de bandas mais estreitas.[0005] The filter banks that are implemented by these particular transforms have several attractive properties, but significant processing or computational resources are required to perform the necessary calculations. Techniques are known that can be used to perform the transforms more efficiently, thereby reducing the amount of computational resources that are required. A characteristic that is common to these techniques is that their computational complexity varies with the so-called transform length. Techniques are known that can realize further reductions in computational complexity by using shorter transform lengths to process audio channels with narrower bandwidths.
[0006] Padrões como estes mencionados acima definem sequências de dados digitais ou de fluxos de bits digitais que transportam dados representando representações codificadas de um ou mais canais de áudio. Uma configuração de canais algumas vezes referida como "canais 5.1" inclui cinco canais de largura de banda plena denotados esquerdo (L), direito (R), central (C), surround esquerdo (LS) e surround direito (RS), e um canal de largura de banda limitada ou canal de efeitos de baixa frequência (LFE). Os canais de largura de banda plena tipicamente possuem uma largura de banda de ao redor de 20 kHz e o canal LFE de largura de banda limitada tipicamente possui uma largura de banda ao redor de 100 até 200 Hz. Devido à largura de banda do canal LFE ser mais estreita, técnicas conhecidas podem ser utilizadas para executar uma transformada de bancada de filtros mais eficientemente para o canal LFE do que pode ser executado para um dos canais de largura de banda plena.[0006] Standards such as those mentioned above define sequences of digital data or digital bit streams that carry data representing encoded representations of one or more audio channels. A channel setup sometimes referred to as "5.1 channels" includes five full-bandwidth channels denoted left (L), right (R), center (C), surround left (LS), and surround right (RS), and a limited bandwidth channel or low frequency effects (LFE) channel. Full bandwidth channels typically have a bandwidth of around 20 kHz and the limited bandwidth LFE channel typically has a bandwidth of around 100 to 200 Hz. Because the bandwidth of the LFE channel is narrower, known techniques can be used to perform a filter bench transform more efficiently for the LFE channel than can be performed for one of the full bandwidth channels.
[0007] Contudo, existe uma necessidade de desenvolver técnicas que adicionalmente melhorem a eficiência dos bancos de filtros da transformada que são aplicados para canais com largura de banda limitada como o canal LFE.[0007] However, there is a need to develop techniques that additionally improve the efficiency of the transform filter banks that are applied to channels with limited bandwidth such as the LFE channel.
[0008] Um objetivo da presente invenção é proporcionar meios que possam ser utilizados para executar transformadas que implementam bancos de filtros para sinais de canal de largura de banda limitada mais eficientemente do que é possível utilizando técnicas conhecidas.[0008] An object of the present invention is to provide means that can be used to perform transforms that implement filterbanks for bandwidth-limited channel signals more efficiently than is possible using known techniques.
[0009] De acordo com um aspecto da presente invenção, um sinal de largura de banda limitada é processado por receber um bloco de K coeficientes de transformada com valor real dos quais somente um número L de coeficientes representa componentes espectrais de um sinal de áudio com largura de banda limitada, onde uma potência de dois; aplicar uma primeira transformada de comprimento R para um bloco de coeficientes de valor complexo derivados a partir de M coeficientes de transformada de valor complexo que incluem os L coeficientes de transformada de valor real representando componentes espectrais do sinal de áudio com largura de banda limitada, onde e e P é uma potência de dois; aplicar um banco de Q segundas transformadas de comprimento P para as saídas da primeira transformada; e derivar uma sequência de N amostras de sinal com valor real a partir das saídas do banco de segundas transformadas, onde N = 2.K e as amostras de sinal com valor real representam componentes temporais do sinal de áudio com largura de banda limitada.[0009] In accordance with one aspect of the present invention, a limited bandwidth signal is processed by receiving a block of K real-valued transform coefficients of which only a number L of coefficients represent spectral components of an audio signal with limited bandwidth, where a power of two; applying a first transform of length R to a block of complex-valued coefficients derived from M complex-valued transform coefficients that include the L real-value transform coefficients representing spectral components of the bandwidth-limited audio signal, where ee P is a power of two; applying a bank of Q second transforms of length P to the outputs of the first transform; and deriving a sequence of N real-valued signal samples from the outputs of the bank of second transforms, where N = 2.K and the real-valued signal samples represent temporal components of the bandwidth-limited audio signal.
[00010] Os vários aspectos da presente invenção e suas concretizações preferidas podem ser mais bem entendidos por referência à discussão seguinte e aos desenhos acompanhantes nos quais números de referência se referem a elementos iguais nas várias figuras. O conteúdo da discussão seguinte e os desenhos são expostos somente como exemplos e não devem ser entendidos como representando limitações em relação ao escopo da presente invenção. BREVE DESCRIÇÃO DOS DESENHOS[00010] The various aspects of the present invention and its preferred embodiments can be better understood by reference to the following discussion and the accompanying drawings in which reference numerals refer to like elements in the various figures. The contents of the following discussion and the drawings are given as examples only and should not be construed as representing limitations on the scope of the present invention. BRIEF DESCRIPTION OF THE DRAWINGS
[00011] A Fig. 1 é um diagrama de blocos esquemático de um sistema de codificação de áudio no qual vários aspectos da presente invenção podem ser realizados.[00011] Fig. 1 is a schematic block diagram of an audio coding system in which various aspects of the present invention may be realized.
[00012] A Fig. 2 é um diagrama de blocos esquemático de um processo que pode ser utilizado para executar uma transformada de síntese no sistema de codificação apresentado na Fig. 1.[00012] Fig. 2 is a schematic block diagram of a process that can be used to perform a synthesis transform in the coding system shown in Fig. 1.
[00013] As Figs. 3 e 4 são diagramas de blocos esquemáticos que ilustram alguns aspectos que podem ser utilizados para executar uma parte do processo apresentado na Fig. 2.[00013] Figs. 3 and 4 are schematic block diagrams illustrating some aspects that can be used to carry out a part of the process shown in Fig. two.
[00014] A Fig. 5 é um diagrama de blocos esquemático de um dispositivo que pode ser utilizado para implementar vários aspectos da presente invenção.[00014] Fig. 5 is a schematic block diagram of a device that can be used to implement various aspects of the present invention.
[00015] A Fig. 1 é uma ilustração esquemática de um sistema de codificação de áudio com dois canais que inclui um transmissor 100 e um receptor 200. O transmissor 100 recebe a partir dos caminhos 11, 12 dois canais de sinais de áudio de entrada. Os bancos de filtros de análise 111, 112 são aplicados para os canais de áudio de entrada para obter um primeiro conjunto de sinais de sub-banda de frequência representando o conteúdo espectral dos sinais de áudio de entrada. Estes bancos de filtros de análise são implementados pelas transformadas do domínio de tempo para domínio de frequência. O codificador 120 aplica um processo de codificação para o primeiro conjunto de sinais de sub-banda de frequência para gerar a informação codificada, a qual é passada ao longo do caminho 20. O receptor 200 recebe a informação codificada a partir do caminho 20. O decodificador 220 aplica um processo de decodificação para a informação codificada para obter um segundo conjunto de sinais de sub-banda de frequência. Os bancos de filtros de síntese 231, 232 são aplicados para o segundo conjunto de sinais de sub-banda de frequência para gerar dois ou mais canais de sinais de áudio de saída, os quais são passados ao longo dos caminhos 31, 32. Estes bancos de filtros de síntese são implementados pelas transformadas de domínio de frequência para domínio de tempo. O caminho 20 pode ser um meio de difusão, um meio de comunicação ponto a ponto, um meio de gravação ou qualquer outro meio que possa transportar ou gravar a informação codificada.[00015] Fig. 1 is a schematic illustration of a two-channel audio coding system that includes a
[00016] O codificador 120 e o decodificador 220 não são essenciais para prática da presente invenção. Se eles forem utilizados, eles podem executar processo de codificação sem perdas ou com perdas. A presente invenção não está limitada a qualquer processo particular de codificação e de decodificação.[00016]
[00017] Somente dois canais de sinais de áudio de entrada e de saída são apresentados nos desenhos para clareza de ilustração. Em várias implementações, existem mais do que dois canais de sinais de áudio de entrada e mais do que dois canais de sinais de áudio de saída. Pelo menos um dos sinais de áudio de saída possui uma largura de banda que é muito mais estreita do que a largura de banda de um ou mais dos outros sinais de áudio de saída.[00017] Only two channels of input and output audio signals are shown in the drawings for clarity of illustration. In various implementations, there are more than two channels of input audio signals and more than two channels of output audio signals. At least one of the output audio signals has a bandwidth that is much narrower than the bandwidth of one or more of the other output audio signals.
[00018] A presente invenção é direcionada para reduzir os recursos computacionais necessários para executar a transformada que implementa o banco de filtros de síntese 231 ou 232 no receptor 200 utilizado para gerar sinais de áudio de saída com largura de banda mais estreita. A presente invenção pode implementar um banco de filtros de síntese mais eficiente em um receptor 200 que mantém compatibilidade com um banco de filtros de análise nos transmissores existentes 100.[00018] The present invention is directed to reducing the computational resources required to perform the transform that implements the
[00019] A presente invenção também pode ser utilizada para reduzir os recursos computacionais necessários para executar a transformada que implementa o banco de filtros de análise 111 ou 112 no transmissor 100 aplicado para sinais de áudio de entrada com largura de banda mais estreita. Esta implementação pode manter compatibilidade com um banco de filtros de síntese nos receptores existentes 200.[00019] The present invention can also be used to reduce the computational resources required to perform the transform that implements the
[00020] Os bancos de filtros de síntese podem ser implementados por uma ampla variedade de transformadas de domínio de frequência para domínio de tempo incluindo várias variações da Transformada de Cosseno Discreta Inversa (IDCT) e da Transformada de Cosseno Discreta Modificada Inversa (IMDCT) mencionadas acima. Os algoritmos que definem estas transformadas de uma maneira direta são referidos neste documento como "transformadas diretas".[00020] Synthesis filterbanks can be implemented by a wide variety of frequency domain to time domain transforms including various variations of the mentioned Inverse Discrete Cosine Transform (IDCT) and Inverse Modified Discrete Cosine Transform (IMDCT) above. Algorithms that define these transforms in a direct way are referred to in this document as "direct transforms".
[00021] Uma técnica referida neste documento como uma "técnica de dobra" pode ser utilizada para executar estas transformadas diretas mais eficientemente. A técnica de dobra compreende três estágios como ilustrando na Fig. 2. O segundo estágio 402 executa uma transformada que possui um comprimento mais curto do que a transformada direta que esta técnica de dobra implementa. A transformada que é executada no segundo estágio 402 é referida como "transformada dobrada" de modo que a descrição seguinte pode mais facilmente distinguir a mesma da transformada direta.[00021] A technique referred to in this document as a "bending technique" can be used to perform these direct transforms more efficiently. The bending technique comprises three stages as illustrated in Fig. 2. The second stage 402 performs a transform that is shorter in length than the direct transform that this bending technique implements. The transform that is performed in the second stage 402 is referred to as a "double transform" so that the following description can more easily distinguish it from the forward transform.
[00022] O estágio de pré-processador 401 combina os coeficientes da transformadas em um bloco de K coeficientes da transformada do domínio de frequência com valores reais em um bloco de 1.K coeficientes da transformada com valores complexos. O estágio da transformada 402 aplica uma transformada dobrada do domínio de frequência para o domínio de tempo de comprimento 1.K para o bloco de coeficientes da transformada com valores complexos para gerar 1. K amostras no domínio do tempo com valores complexos. O estágio pós- processador 403 deriva uma sequência de K amostras no domínio do tempo com valores reais a partir das 1.K amostras de sinal no domínio do tempo com valores complexos. Exceto para vários erros que podem ocorrer a partir das operações aritméticas com precisão finita, as K amostras de sinal no domínio do tempo que são obtidas por esta técnica são idênticas às K amostras de sinal no domínio do tempo que poderiam ser obtidas pela aplicação da transformada direta de comprimento K para o bloco de K coeficientes da transformada no domínio de frequência com valores reais. Esta técnica melhora a eficiência devido aos recursos computacionais adicionais necessários para executar a transformada direta como oposto à transformada dobrada no estágio 402 serem maiores do que os recursos computacionais necessários para implementar o processo executado no estágio de pré-processador 401 e no estágio de pós-processador 403.[00022]
[00023] Se um bloco de coeficientes da transformada representa um sinal com largura de banda estreita no qual um número significativo de coeficientes da transformada são sempre zero, uma técnica adicional de decomposição da transformada pode ser utilizada para aumentar a eficiência do processamento da transformada dobrada que é executada no estágio 402.[00023] If a block of transform coefficients represents a narrow-bandwidth signal in which a significant number of transform coefficients are always zero, an additional transform decomposition technique can be used to increase the efficiency of double transform processing which runs at stage 402.
[00024] A IMDCT direta é apresentada na expressão 2. Sua Transformada de Cosseno Discreta Modificada (MDCT) complementar é apresentada na expressão 1. onde X(k) = coeficiente da transformada no domínio de frequência com valor real k; K = número total de coeficientes da transformada no domínio de frequência com valores reais; x(n) = amostra de sinal no domínio do tempo com valor real n; e N = comprimento da janela no domínio do tempo de amostras, onde N = 2K.[00024] The direct IMDCT is presented in
[00025] A operação apropriada destas transformadas diretas requer o uso de funções de janela de análise e funções de janela de síntese cujos comprimentos e formatos atendem a alguns requerimentos que são bem conhecidos na técnica. A função de janela de análise é aplicada para os segmentos de N amostras de sinal de áudio de entrada antes da aplicação da MDCT. A função de janela de síntese é aplicada para os segmentos de N amostras obtidas a partir de uma aplicação da IMDCT para os blocos de K coeficientes da transformada e estes segmentos colocados na janela de amostras são sobrepostos e adicionados para os segmentos colocados na janela de amostras obtidas a partir de outros blocos de coeficientes de transformada. Detalhes adicionais podem ser obtidos a partir do documento de Princen et al., citado acima. Os parágrafos seguintes omitem discussão adicional da função de janela de análise.[00025] Proper operation of these direct transforms requires the use of parsing window functions and synthesis window functions whose lengths and formats meet some requirements that are well known in the art. The analysis window function is applied to the segments of N samples of the input audio signal before applying the MDCT. The synthesis window function is applied to the segments of N samples obtained from an application of the IMDCT to the blocks of K transform coefficients and these segments placed in the sample window are superimposed and added to the segments placed in the sample window obtained from other blocks of transform coefficients. Additional details can be obtained from the document by Princen et al., cited above. The following paragraphs omit further discussion of the parse window function.
[00026] O processo executado no estágio pré-processador 401 pode ser expresso como: onde X'(k) = coeficiente da transformada no domínio de frequência com valor complexo k; e j = operador imaginário igual a
[00026] The process executed at
[00027] A transformada dobrada executada no estágio da transformada 402 pode ser expressa como: x'(n) = amostra de sinal no domínio do tempo com valor complexo.[00027] The double transform performed at transform stage 402 can be expressed as: x'(n) = time domain signal sample with complex value.
[00028] O processo executado no estágio pós-processador 403 pode ser expresso como: onde y(n) = valor de amostra intermediário utilizado nos cálculos subsequentes de colocação em janela; [00028] The process executed at post-processor stage 403 can be expressed as: where y(n) = intermediate sample value used in subsequent windowing calculations;
[00029] A operação apropriada da IMDCT inclui aplicar uma função de janela de síntese apropriadamente projetada para as amostras no domínio do tempo geradas pela transformada. As amostras de sinal no domínio do tempo que são obtidas a partir desta operação de colocação em janela podem ser expressas como: onde h(n) = ponto n na função de janela de síntese; e y'(n) = amostra intermediária colocada na janela n.[00029] Proper operation of the IMDCT includes applying an appropriately designed synthesis window function to the time domain samples generated by the transform. The time domain signal samples that are obtained from this windowing operation can be expressed as: where h(n) = point n in the synthesis window function; and y'(n) = intermediate sample placed in window n.
[00030] As amostras intermediárias colocadas na janela y' obtidas a partir da expressão 6 são as amostras intermediárias no domínio do tempo que poderiam ter sido obtidas pela aplicação da IMDCT direta para um bloco dos coeficientes da transformada no domínio de frequência X seguido por uma aplicação da função de janela de síntese h. Como explicado no documento de Princen citado acima, as amostras de sinal de saída no domínio do tempo são obtidas por sobrepor e adicionar intermediárias colocadas na janela derivadas a partir de um bloco "corrente" de coeficientes da transformada com um conjunto das amostras intermediárias colocadas na janela "anteriores" derivadas a partir de um bloco anterior de coeficientes da transformada. Esse processo de sobreposição - adição pode ser expresso como: onde = amostras intermediárias colocadas na janela anteriores.[00030] The intermediate samples placed in the window y' obtained from expression 6 are the intermediate samples in the time domain that could have been obtained by applying the direct IMDCT to a block of the transform coefficients in the frequency domain X followed by a application of the synthesis window function h. As explained in the Princen document cited above, the output signal samples in the time domain are obtained by superimposing and adding intermediates placed in the window derived from a "current" block of transform coefficients with a set of the intermediate samples placed in the window. "previous" window derived from a previous block of transform coefficients. This overlay-addition process can be expressed as: Where = intermediate samples placed in the previous window.
[00031] Uma técnica de decomposição de transformada pode ser utilizada para derivar um método mais eficiente para executar a transformada dobrada para sinais com largura de banda limitada nos quais alguns dos coeficientes da transformada em um bloco de coeficientes da transformada no domínio de frequência são conhecidos como sendo iguais a zero. Esta técnica de decomposição consiste em expressar a transformada dobrada como uma transformada bidimensional equivalente e decompor esta transformada bidimensional em uma única transformada vertical unidimensional seguida por um banco de Transformadas Discretas de Fourier Inversas (IDFT) de direção única horizontal. A transformada vertical possui um comprimento igual a Q e o banco de IDFT complexa horizontal compreende Q transformadas, cada uma possuindo um comprimento igual a P, onde P e Q são números inteiros e o produto de P e Q é igual ao comprimento da transformada dobrada.[00031] A transform decomposition technique can be used to derive a more efficient method to perform the double transform for bandwidth limited signals in which some of the transform coefficients in a block of frequency domain transform coefficients are known as being equal to zero. This decomposition technique consists of expressing the doubled transform as an equivalent two-dimensional transform and decomposing this two-dimensional transform into a single one-dimensional vertical transform followed by a bank of horizontal single-direction Inverse Fourier Discrete Transforms (IDFT). The vertical transform has a length equal to Q and the horizontal complex IDFT bank comprises Q transforms, each having a length equal to P, where P and Q are integers and the product of P and Q is equal to the length of the doubled transform. .
[00032] Referindo-se à discussão precedente da técnica de dobra, pode ser visto que o comprimento da transformada dobrada é J = %.N = 1/2K; portanto, P.Q = J. Os valores para P, Q e J são restritos a serem potência de dois.[00032] Referring to the preceding discussion of the folding technique, it can be seen that the length of the folded transform is J = %.N = 1/2K; therefore, P.Q = J. The values for P, Q, and J are restricted to being powers of two.
[00033] A IDFT horizontal e a transformada vertical são apresentadas nas expressões 8 e 9, respectivamente: [00033] The horizontal IDFT and the vertical transform are presented in expressions 8 and 9, respectively:
[00034] O núcleo da transformada WN/4 na transformada vertical pode ser calculado utilizando a lei de Euler: [00034] The core of the WN/4 transform in the vertical transform can be calculated using Euler's law:
[00035] Devido aos coeficientes da transformada direta X(k) representarem um sinal de áudio em um canal LFE com uma largura de banda limitada, somente L destes coeficientes podem possuir um valor diferente de zero, onde L é muito menor do que K. Como resultado, não mais do que frequência com valores complexos X'(k) obtidos a partir do estágio pré- processador 401 podem possuir valores diferentes de zero e o comprimento da transformada vertical pode ser reduzido. Um valor M é escolhido de modo que ele seja a menor potência de dois igual ou maior do que este número derivar M coeficientes da transformada no domínio de frequência com valores complexos X'(k) que incluem os L coeficientes da transformada direta com valores reais que podem ter valores que não são zero. Estes M coeficientes da transformada no domínio de frequência com valores complexos são para ser processados pelo estágio da transformada 402. O tamanho R da transformada vertical é escolhido de modo que Os coeficientes da transformada ^s'1 1 são zero para ou, alternativamente, r> R. Por considerar estas questões, a expressão 9 pode ser escrita como:
[00035] Because the direct transform coefficients X(k) represent an audio signal on an LFE channel with a limited bandwidth, only L of these coefficients can have a non-zero value, where L is much smaller than K. As a result, no more than frequency with complex values X'(k) obtained from the
[00036] A eficiência da técnica de dobra combinada com a técnica de decomposição de transformada como descrita acima pode ser adicionalmente melhorada por integrar o estágio pré-processador 401 e a transformada vertical como apresentado na expressão 9 em um processo. Isto é ilustrado esquematicamente na Fig. 3.[00036] The efficiency of the bending technique combined with the transform decomposition technique as described above can be further improved by integrating the
[00037] O comprimento R da transformada vertical pode ser escolhido para ser igual ao valor M ou ser um sub-múltiplo da potência de dois do valor M. Em uma concretização que está de acordo com o padrão AC- 3 mencionado acima, o número %.N de coeficientes da transformada no domínio de tempo com valores reais é igual a 256 e o conteúdo espectral do sinal de áudio no canal LFE pode ser representado por sete coeficientes da transformada com valores reais X(k), onde 0 < k < 7. O estágio pré- processador 401 dobra estes sete coeficientes da transformada com valores reais em quatro coeficientes da transformada com valores complexos que são subsequentemente processados pela transformada dobrada cujo comprimento é J = %.N = 128. Como resultado, dados quatro coeficientes da transformada com valores complexos nesta concretização, M é igual a quatro e R pode ser estabelecido igual a 4, 2 ou 1 por estabelecer P igual a 1, 2 ou 4, respectivamente. Devido a P.Q = J, o comprimento da transformada vertical Q é igual a 128, 64 e 32 quando P é igual a 1, 2 e 4, respectivamente. Pouco ou nenhum ganho na eficiência é alcançado quando P é igual a um.[00037] The length R of the vertical transform can be chosen to be equal to the value M or be a sub-multiple of the power of two of the M value. In an embodiment that conforms to the AC-3 standard mentioned above, the number %N of time domain transform coefficients with real values is equal to 256 and the spectral content of the audio signal in the channel LFE can be represented by seven real-valued transform coefficients X(k), where 0 < k < 7. The
[00038] Onde P é estabelecido igual a dois, os valores obtidos a partir da saída dos índices da transformada vertical não precisam ter o bit invertido dado o pequeno número de coeficientes calculados em cada uma das transformadas horizontais. A necessidade de inversão de bit dos índices da transformada para o algoritmo FFT de Cooley-Tukey é bem conhecida. Entretanto, a inversão de bit não é necessária quando P é estabelecido igual a dois, devido à inversão de bit para uma DFT complexa com comprimento dois produzir a mesma indexação de coeficiente que é alcançada por não executar a inversão de bit. Esta vantagem computacional é anulada por se ter um grande número de transformadas horizontais a executar. Os valores para P e Q podem ser selecionados em resposta às várias considerações de projeto tal como limitação do processamento no hardware escolhido para implementar os processos.[00038] Where P is set equal to two, the values obtained from the output of the vertical transform indices do not need to have the bit inverted given the small number of coefficients calculated in each of the horizontal transforms. The need for bit inversion of the transform indices for the Cooley-Tukey FFT algorithm is well known. However, bit inversion is not necessary when P is set equal to two, because bit inversion for a complex DFT with length two produces the same coefficient indexing that is achieved by not performing bit inversion. This computational advantage is nullified by having a large number of horizontal transforms to perform. Values for P and Q can be selected in response to various design considerations such as limiting processing in the hardware chosen to implement the processes.
[00039] Uma integração do processo apresentado na expressão 3 com a transformada vertical apresentada na expressão 9 pode ser derivada por fazer as substituições para expressão 9 de acordo com as expressões 3 e 10, respectivamente. Estas substituições produzem a função núcleo seguinte para a transformada vertical: para ' '. sin = seno[00039] An integration of the process presented in expression 3 with the vertical transform presented in expression 9 can be derived by making the substitutions for expression 9 according to expressions 3 and 10, respectively. These substitutions produce the following kernel function for the vertical transform: for ''. sin = sine
[00040] O produto vetorial dos temos seno e cosseno na expressão 12 pode ser reescrito como:
que nós denotamos como l(s,n) para simplificar as expressões seguintes. Utilizando esta notação, a expressão 11 pode ser reescrita como:
[00040] The cross product of the sine and cosine terms in
[00041] Executando a multiplicação complexa, obtemos: [00041] Performing complex multiplication, we get:
[00042] A complexidade computacional da função U(n,p) pode ser adicionalmente reduzida por tirar vantagem do fato de que os coeficientes no domínio de frequência X(v) podem ser não zero somente para 0 < v < 2R. Esta redução é refletida na expressão seguinte que também divide a função em funções de componente reais e imaginários UR(n,p) e U1(n,p), respectivamente, onde U(n,p) = UR(n,p) + j . U1(n,p): [00042] The computational complexity of the function U(n,p) can be further reduced by taking advantage of the fact that the coefficients in the frequency domain X(v) can be non-zero only for 0 < v < 2R. This reduction is reflected in the following expression which also divides the function into real and imaginary component functions UR(n,p) and U1(n,p), respectively, where U(n,p) = UR(n,p) + j. U1(n,p):
[00043] Esta integração do estágio pré-processador 401 com a transformada vertical é ilustrada esquematicamente na Fig. 4.[00043] This integration of the
[00044] Os recursos computacionais requeridos para implementar a função U(n,p) ou suas funções componentes UR(n,p) e U1(n,p) podem ser reduzidos por pré-calcular as funções s’ n( /■: r.» > i. COSÍ ÍÍ ). si nc /■: /?.//) e cosi/(.7,7?) para todos os valores de v, u e n. Armazenar os resultados calculados em tabelas de consulta exige 4.P.R.Q entradas, onde o fato de quatro considera todas as combinações de seno, cosseno, v e u na expressão 17.[00044] The computational resources required to implement the function U(n,p) or its component functions UR(n,p) and U1(n,p) can be reduced by pre-calculating the functions s' n( /■: r.» > i. COSÍ ÍÍ ). si nc /■: /?.//) and cosi/(.7,7?) for all values of v, u and n. Storing the calculated results in lookup tables requires 4.P.R.Q entries, where the fact of four considers all combinations of sine, cosine, v, and u in expression 17.
[00045] O tamanho da tabela pode ser adicionalmente reduzido em 12,5% por reconhecer que para todos n. Como resultado, o número de entradas requeridas para todos os fatores de X na expressão 17 é na ordem de 3,5.P.Q.Q,[00045] The table size can be further reduced by 12.5% by recognizing that for all n. As a result, the number of entries required for all factors of X in expression 17 is on the order of 3.5.PQQ,
[00046] Se o tamanho destas tabelas for maior do que desejado, seu tamanho pode ser reduzido por tirar vantagem do fato de que várias das entradas para I(v,n) na tabela possuem valores duplicados devido á periodicidade das funções básicas de seno e cosseno. Esta redução no tamanho pode ser alcançada na troca por recursos adicionais de processamento necessários para entradas de consulta na tabela devido a um esquema de indexação mais elaborado que será necessário para acessar dados na tabela.[00046] If the size of these tables is larger than desired, their size can be reduced by taking advantage of the fact that several of the entries for I(v,n) in the table have duplicate values due to the periodicity of the basic sine and cosine. This reduction in size can be achieved in exchange for additional processing resources needed for query entries in the table due to a more elaborate indexing scheme that will be required to access data in the table.
[00047] Outras técnicas podem ser utilizadas para reduzir os requerimentos de tamanho da tabela. Por exemplo, se as tabelas de seno e de cosseno j existem em uma implementação particular, então somente I(v,n) e I(u,n) são necessários, o que reduz o número de entradas da tabela por um fator de dois.[00047] Other techniques can be used to reduce table size requirements. For example, if sine and cosine j tables exist in a particular implementation, then only I(v,n) and I(u,n) are needed, which reduces the number of table entries by a factor of two. .
[00048] Dispositivos que incorporam vários aspectos da presente invenção podem ser implementados de vários modos incluindo software para execução por um computador ou algum outro dispositivo que inclua componentes mais especializados tais como conjunto de circuitos de processador de sinal digital (DSP) acoplado com componentes similares a estes encontrados em um computador de propósito geral. A Fig. 5 é um diagrama de blocos esquemático de um dispositivo 70 que pode ser utilizado para implementar aspectos da presente invenção. O processador 72 proporciona recursos de computação. A RAM 73 é memória de acesso aleatório (RAM) do sistema utilizada pelo processador 72 para processamento. A ROM 74 representa alguma forma de armazenamento persistente tal como memória somente para leitura (ROM) para armazenar programas necessários para operar o dispositivo 70 e possivelmente para realizar vários aspectos da presente invenção. O controle de E/S 75 representa conjunto de circuitos de interface para receber e transmitir sinais por meio dos canais de comunicação 76, 77. Na concretização apresentada, todos os componentes principais do sistema se conectam com o barramento 71, o qual pode representar mais do que um barramento físico ou lógico; entretanto, uma arquitetura de barramento não é requerida para implementar a presente invenção.[00048] Devices embodying various aspects of the present invention can be implemented in various ways including software for execution by a computer or some other device that includes more specialized components such as digital signal processor (DSP) circuitry coupled with similar components to those found on a general purpose computer. Fig. 5 is a schematic block diagram of a
[00049] Nas concretizações implementadas por um sistema de computador de propósito geral, componentes adicionais podem ser incluídos para fazer interface com dispositivos tais como um teclado ou mouse e um vídeo, e para controlar um dispositivo de armazenamento 78 possuindo um meio de armazenamento tal como fita ou disco magnético, ou um meio ótico. O meio de armazenamento pode ser utilizado para gravar programas de instruções para operar sistemas, utilitários e aplicativos, e pode inclui programas que implementam vários aspectos da presente invenção.[00049] In embodiments implemented by a general purpose computer system, additional components may be included to interface with devices such as a keyboard or mouse and a display, and to control a storage device 78 having a storage medium such as magnetic tape or disk, or an optical medium. The storage medium may be used to record programs of instructions for operating systems, utilities and applications, and may include programs that implement various aspects of the present invention.
[00050] As funções requeridas para praticar vários aspectos da presente invenção podem ser executadas por componentes que são implementados em uma ampla variedade de modos incluindo componentes lógicos separados, circuitos integrados, um ou mais ASICs e/ou processadores controlados por programa. A maneira na qual estes componentes são implementados não é importante para a presente invenção.[00050] The functions required to practice various aspects of the present invention can be performed by components that are implemented in a wide variety of modes including separate logic components, integrated circuits, one or more ASICs and/or program-controlled processors. The manner in which these components are implemented is not important to the present invention.
[00051] Implementações de software da presente invenção pode ser transportadas por vários meios legíveis por máquina tal como caminhos de comunicação de banda base ou modulados através do espectro incluindo desde que frequências supersônicas até ultravioleta, ou meio de armazenamento que transporta informação utilizando essencialmente qualquer tecnologia de gravação incluindo fita magnética, cartões ou disco, cartões ou disco ótico, e marcações detectáveis no meio incluindo papel.[00051] Software implementations of the present invention may be carried by various machine-readable media such as baseband or modulated communication paths across the spectrum including from supersonic to ultraviolet frequencies, or storage media that carry information using essentially any technology. recording media including magnetic tape, cards or disc, cards or optical disc, and detectable markings on the medium including paper.
Claims (7)
Applications Claiming Priority (3)
| Application Number | Priority Date | Filing Date | Title |
|---|---|---|---|
| US201161468373P | 2011-03-28 | 2011-03-28 | |
| US61/468,373 | 2011-03-28 | ||
| PCT/US2012/029603 WO2012134851A1 (en) | 2011-03-28 | 2012-03-19 | Reduced complexity transform for a low-frequency-effects channel |
Publications (2)
| Publication Number | Publication Date |
|---|---|
| BR112013022988A2 BR112013022988A2 (en) | 2016-12-06 |
| BR112013022988B1 true BR112013022988B1 (en) | 2022-03-03 |
Family
ID=80778248
Family Applications (1)
| Application Number | Title | Priority Date | Filing Date |
|---|---|---|---|
| BR112013022988-8A BR112013022988B1 (en) | 2011-03-28 | 2012-03-19 | Method for processing a digital audio signal, apparatus for processing a digital audio signal and storage medium |
Country Status (1)
| Country | Link |
|---|---|
| BR (1) | BR112013022988B1 (en) |
-
2012
- 2012-03-19 BR BR112013022988-8A patent/BR112013022988B1/en active IP Right Grant
Also Published As
| Publication number | Publication date |
|---|---|
| BR112013022988A2 (en) | 2016-12-06 |
Similar Documents
| Publication | Publication Date | Title |
|---|---|---|
| KR101286329B1 (en) | Low complexity spectral band replication (sbr) filterbanks | |
| JP4689625B2 (en) | Adaptive mixed transform for signal analysis and synthesis | |
| EP3025336B1 (en) | Reduction of comb filter artifacts in multi-channel downmix with adaptive phase alignment | |
| BR112012013745B1 (en) | METHOD FOR DECODING A FRAME FROM AN ENCODED DIGITAL AUDIO SIGNAL, APPLIANCE FOR DECODING A FRAME FROM A CODED DIGITAL AUDIO SIGNAL AND STORAGE MEDIA RECORDING THE METHOD | |
| KR100776235B1 (en) | Device and method for conversion into a transformed representation or for inversely converting the transformed representation | |
| BRPI1005299B1 (en) | apparatus and method to perform the upmmix on a downmix audio signal | |
| BRPI0709235B1 (en) | AUDIO DECODER, AUDIO DECODING METHOD, RECEIVER FOR RECEIVING A N CHANNEL SIGNAL, TRANSMISSION SYSTEM FOR TRANSMITTING AN AUDIO SIGN, METHOD FOR RECEIVING AN AUDIO SIGNAL, METHOD FOR TRANSMITTING AND RECEIVING A SIGNAL SIGNAL READY BY COMPUTER, AND AUDIO PLAYBACK | |
| BR112015007532B1 (en) | ENCODER, DECODER AND METHODS FOR REGRESSIVE COMPATIBLE MULTIRESOLUTION SPATIAL AUDIO OBJECT ENCODING | |
| BR112012022898B1 (en) | signal processor, window provider, encoded media signal, method for processing a signal and method for providing a window | |
| CN101253807B (en) | Method and apparatus for encoding and decoding an audio signal | |
| JP6094322B2 (en) | Orthogonal transformation device, orthogonal transformation method, computer program for orthogonal transformation, and audio decoding device | |
| JP5762620B2 (en) | Reduced complexity conversion for low frequency effects channels | |
| BR112013022988B1 (en) | Method for processing a digital audio signal, apparatus for processing a digital audio signal and storage medium | |
| Khaldi et al. | HHT-based audio coding | |
| TWI470622B (en) | Reduced complexity transform for a low-frequency-effects channel | |
| AU2012238001A1 (en) | Reduced complexity transform for a low-frequency-effects channel | |
| HK1189699B (en) | Reduced complexity transform for a low-frequency-effects channel | |
| HK1224797B (en) | Reduction of comb filter artifacts in multi-channel downmix with adaptive phase alignment | |
| HK1224797A1 (en) | Reduction of comb filter artifacts in multi-channel downmix with adaptive phase alignment |
Legal Events
| Date | Code | Title | Description |
|---|---|---|---|
| B06F | Objections, documents and/or translations needed after an examination request according [chapter 6.6 patent gazette] | ||
| B06U | Preliminary requirement: requests with searches performed by other patent offices: procedure suspended [chapter 6.21 patent gazette] | ||
| B07A | Application suspended after technical examination (opinion) [chapter 7.1 patent gazette] | ||
| B06A | Patent application procedure suspended [chapter 6.1 patent gazette] | ||
| B09A | Decision: intention to grant [chapter 9.1 patent gazette] | ||
| B09W | Correction of the decision to grant [chapter 9.1.4 patent gazette] |
Free format text: O PRESENTE PEDIDO TEVE UM PARECER DE DEFERIMENTO NOTIFICADO NA RPI NO 2657 DE07/12/2021, TENDO SIDO CONSTATADO QUE ESTA NOTIFICACAO FOI EFETUADA COM INCORRECOES, OU SEJA,AUSENCIA DO QUADRO 5 DO PARECER, OBSERVADA ATRAVES DA MENSAGEM FALE CONOSCO 997288,ASSIM RETIFICA-SE A REFERIDA PUBLICACAO. |
|
| B16A | Patent or certificate of addition of invention granted [chapter 16.1 patent gazette] |
Free format text: PRAZO DE VALIDADE: 20 (VINTE) ANOS CONTADOS A PARTIR DE 19/03/2012, OBSERVADAS AS CONDICOES LEGAIS. |



































