RU2798009C2

RU2798009C2 - Stereo audio coder and decoder

Info

Publication number: RU2798009C2
Application number: RU2019116192A
Authority: RU
Inventors: Хейко ПУРНХАГЕН; Кристофер ЧЕРЛИНГ
Original assignee: Долби Интернэшнл Аб
Priority date: 2013-04-05
Filing date: 2019-05-27
Publication date: 2023-06-14

Abstract

FIELD: audio signal coding and decoding.

SUBSTANCE: present invention provides methods, apparatus, and computer software products for coding and decoding a stereo audio signal based on an input signal. In accordance with the present invention, a hybrid approach is taken to using both parametric stereo coding and discrete representation of a stereo audio signal, which can improve the quality of the coded and decoded audio signal for certain data rates.

EFFECT: improved quality of the coded and decoded audio signal for certain data rates.

11 cl, 6 dwg

Description

Область техники, к которой относится изобретениеThe field of technology to which the invention belongs

[0001] Описываемое в настоящем документе изобретение, в основном, относится к стереофоническому кодированию аудиосигналов. В частности, оно относится к декодеру и кодеру для гибридного кодирования, включающего в себя понижающее микширование и дискретное стереофоническое кодирование.[0001] The invention described herein generally relates to stereo coding of audio signals. In particular, it relates to a decoder and an encoder for hybrid coding including downmixing and discrete stereo coding.

Уровень техники изобретенияState of the art invention

[0002] При традиционном стереофоническом кодировании аудиосигналов возможные схемы кодирования включают в себя методы параметрического стереофонического кодирования, которые используются в сферах применения с низкой скоростью передачи данных. При промежуточных скоростях часто используется левое/правое (L/R) или среднее/боковое (M/S) стереофоническое кодирование формы сигналов. Существующие форматы распределения и соответствующие методы кодирования могут быть улучшены с точки зрения их эффективности использования полосы частот, особенно в сферах применения со скоростью передачи данных между средней скоростью передачи данных и промежуточной скоростью передачи данных.[0002] In conventional stereo audio coding, possible coding schemes include parametric stereo coding techniques that are used in low data rate applications. At intermediate speeds, left/right (L/R) or middle/side (M/S) stereo waveform encoding is often used. Existing distribution formats and related coding techniques can be improved in terms of their bandwidth efficiency, especially in applications with data rates between medium data rates and intermediate data rates.

[0003] Попытка повысить эффективность распределения аудиосигналов в стереофонической звуковой системе предпринята в стандарте Унифицированного кодирования речи и звука (USAC). Стандарт USAC вводит стереофоническое кодирование на основе низкоскоростного кодирования формы сигналов в совокупности с методами параметрического стереофонического кодирования. Однако в решении, предлагаемом в USAC, используются параметрические стереофонические параметры для проведения стереофонического кодирования в области модифицированного дискретного косинусного преобразования (MDCT), чтобы несколько повысить эффективность по сравнению с простым M/S кодированием или L/R кодированием. Недостаток такого решения состоит в том, что может оказаться сложным наилучшим образом использовать стереофоническое кодирование на основе низкоскоростного кодирования формы сигналов в области MDCT на основе параметрических стереофонических параметров, извлекаемых и вычисляемых в области Квадратурных зеркальных фильтров (QMF).[0003] An attempt to improve the distribution efficiency of audio signals in a stereo sound system has been made in the Unified Voice and Audio Coding (USAC) standard. The USAC standard introduces stereo coding based on low bit rate waveform coding in conjunction with parametric stereo coding techniques. However, the USAC solution uses parametric stereo parameters to perform stereo coding in the modified discrete cosine transform (MDCT) domain in order to slightly increase efficiency compared to simple M/S coding or L/R coding. The disadvantage of this solution is that it can be difficult to make the best use of stereo coding based on low bit rate waveform coding in the MDCT domain based on parametric stereo parameters extracted and computed in the Quadrature Mirror Filters (QMF) domain.

[0004] С учетом вышесказанного, может потребоваться дальнейшее усовершенствование для устранения или, по меньшей мере, уменьшения одного или нескольких недостатков, рассмотренных выше.[0004] In view of the foregoing, further improvement may be required to eliminate or at least reduce one or more of the disadvantages discussed above.

Краткое описание чертежейBrief description of the drawings

[0005] Примеры осуществления описываются ниже со ссылкой на прилагаемые чертежи, на которых:[0005] Exemplary embodiments are described below with reference to the accompanying drawings, in which:

[0006] фиг.1 представляет собой обобщенную блок-схему системы декодирования в соответствии с одним из примеров осуществления;[0006] Figure 1 is a generalized block diagram of a decoding system in accordance with one embodiment;

[0007] фиг.2 иллюстрирует первую часть системы декодирования, изображенной на фиг.1;[0007] Fig. 2 illustrates the first part of the decoding system shown in Fig. 1;

[0008] фиг.3 иллюстрирует вторую часть системы декодирования, изображенной на фиг.1;[0008] Fig. 3 illustrates the second part of the decoding system shown in Fig. 1;

[0009] фиг.4 иллюстрирует третью часть системы декодирования, изображенной на фиг.1;[0009] Fig. 4 illustrates a third part of the decoding system shown in Fig. 1;

[0010] фиг.5 представляет собой обобщенную блок-схему системы декодирования в соответствии с первым примером осуществления;[0010] FIG. 5 is a generalized block diagram of a decoding system according to the first embodiment;

[0011] фиг.6 представляет собой обобщенную блок-схему системы декодирования в соответствии со вторым примером осуществления.[0011] FIG. 6 is a generalized block diagram of a decoding system according to a second embodiment.

[0012] Все чертежи являются схематическими и в целом иллюстрируют лишь детали, которые необходимы для объяснения изобретения, при этом другие детали могут упоминаться или только предполагаться. Если не указано иное, одинаковые ссылочные позиции на различных чертежах относятся к одинаковым деталям.[0012] All drawings are schematic and generally illustrate only the details that are necessary to explain the invention, while other details may be mentioned or only assumed. Unless otherwise indicated, like reference numerals throughout the various drawings refer to like parts.

Подробное описаниеDetailed description

I. Обзор - декодерI. Overview - decoder

[0013] Используемое в настоящем документе лево-правое кодирование или шифрование означает, что левый (L) и правый (R) стереосигналы кодируются без выполнения какого-либо преобразования между сигналами.[0013] As used herein, left-right encoding or encryption means that the left (L) and right (R) stereo signals are encoded without performing any conversion between the signals.

[0014] Используемое в настоящем документе суммарно-разностное кодирование или шифрование означает, что сумма М левого и правого стереосигналов кодируется как один сигнал (сумма), а разность S между левым и правым стереосигналами кодируется как один сигнал (разность). Суммарно-разностное кодирование может также называться средне-боковым кодированием. При этом соотношение между лево-правой формой и суммарно-разностной формой представляет собой M=L+R и S=L-R. Можно отметить, что возможны различные нормализации и масштабирование при преобразовании левого и правого стереосигналов в суммарно-разностную форму и наоборот при условии, что преобразование в обоих направлениях совпадает. В данном описании, главным образом, используется M=L+R и S=L-R, но система, использующая иное масштабирование, например, M=(L+R)/2 и S=(L-R)/2 действует с тем же успехом.[0014] As used herein, sum-difference coding or encryption means that the sum M of the left and right stereo signals is encoded as one signal (sum), and the difference S between the left and right stereo signals is encoded as one signal (difference). Sum-difference coding may also be referred to as mid-side coding. The ratio between the left-right form and the sum-difference form is M=L+R and S=L-R. It can be noted that various normalizations and scaling are possible when converting the left and right stereo signals to the sum-difference form and vice versa, provided that the transformation in both directions is the same. In this description, M=L+R and S=L-R are mainly used, but a system using other scaling, such as M=(L+R)/2 and S=(L-R)/2 works just as well.

[0015] Используемое в настоящем документе понижающе-дополняющее (dmx/comp) кодирование или шифрование означает подвергание левого и правого стереосигналов матричному умножению в зависимости от весового параметра перед кодированием. При этом dmx/comp кодирование может также называться dmx/comp/a кодированием. Соотношение между понижающе-дополняющей формой, лево-правой формой и суммарно-разностной формой обычно выражается как L+R=M и comp=(1-a)L-(1+a)R=-aM+S. Примечательно, что сигнал понижающего микширования в понижающе-дополняющем представлении при этом эквивалентен суммарному сигналу М суммарно-разностного представления.[0015] As used herein, down-complement (dmx/comp) encoding or encryption means subjecting the left and right stereo signals to matrix multiplication depending on the weight parameter before encoding. Here, dmx/comp encoding may also be referred to as dmx/comp/a encoding. The relationship between the down-complement form, the left-right form, and the sum-difference form is usually expressed as L+R=M and comp=(1-a)L-(1+a)R=-aM+S. It is noteworthy that the downmix signal in the down-complement representation is equivalent to the sum signal M of the sum-difference representation.

[0016] Используемый в настоящем документе аудиосигнал может представлять собой чистый аудиосигнал, аудиокомпоненту аудиовизуального сигнала, либо мультимедийный сигнал, либо любое из вышеназванного в совокупности с метаданными.[0016] As used herein, the audio signal may be a pure audio signal, an audio component of an audiovisual signal, or a multimedia signal, or any of the above together with metadata.

[0017] В соответствии с первым аспектом, в примерах осуществления предлагаются способы, устройства и компьютерные программные продукты для декодирования аудиосигнала стереофонического канала на основе входного сигнала. Предлагаемые способы, устройства и компьютерные программные продукты могут, как правило, иметь одинаковые признаки и преимущества.[0017] According to a first aspect, the exemplary embodiments provide methods, apparatus, and computer software products for decoding a stereo channel audio signal based on an input signal. The proposed methods, devices, and computer program products may generally have the same features and benefits.

[0018] В соответствии с примерами осуществления, предлагается декодер для декодирования двух аудиосигналов. Декодер включает в себя каскад приема, выполненный с возможностью приема первого сигнала и второго сигнала, соответствующих периоду времени упомянутых двух аудиосигналов, причем первый сигнал содержит первый кодируемый по форме сигнал, содержащий спектральные данные, соответствующие частотам до первой частоты разделения, и кодируемый по форме сигнал понижающего микширования, содержащий спектральные данные, соответствующие частотам выше первой частоты разделения, причем второй сигнал содержит второй кодируемый по форме сигнал, содержащий спектральные данные, соответствующие частотам до первой частоты разделения.[0018] According to the embodiments, a decoder is provided for decoding two audio signals. The decoder includes a receiving stage configured to receive a first signal and a second signal corresponding to a time period of said two audio signals, wherein the first signal comprises a first waveform-coded signal containing spectral data corresponding to frequencies up to the first crossover frequency, and the waveform-coded signal a downmix signal containing spectral data corresponding to frequencies above the first crossover frequency, wherein the second signal comprises a second waveform-coded signal containing spectral data corresponding to frequencies up to the first crossover frequency.

[0019] Декодер дополнительно содержит каскад микширования на выходе каскада приема. Каскад микширования выполнен с возможностью проверки, находятся ли первый и второй кодируемые по форме сигналы в суммарно-разностной форме для всех частот до первой частоты разделения, и если нет, преобразования первого и второго кодируемых по форме сигналов в суммарно-разностную форму таким образом, что первый сигнал является комбинацией кодируемого по форме суммарного сигнала, содержащего спектральные данные, соответствующие частотам до первой частоты разделения, и кодируемого по форме сигнала понижающего микширования, содержащего спектральные данные, соответствующие частотам выше первой частоты разделения, а второй сигнал содержит кодируемый по форме разностный сигнал, содержащий спектральные данные, соответствующие частотам до первой частоты разделения.[0019] The decoder further comprises a mixing stage at the output of the receive stage. The mixing stage is configured to check whether the first and second waveform-coded signals are in sum-differential form for all frequencies up to the first crossover frequency, and if not, convert the first and second waveform-coded signals to sum-differential form such that the first signal is a combination of a waveform-coded sum signal containing spectral data corresponding to frequencies up to the first crossover frequency and a waveform-coded downmix signal containing spectral data corresponding to frequencies above the first crossover frequency, and the second signal contains a waveform-coded difference signal, containing spectral data corresponding to frequencies up to the first crossover frequency.

[0020] Декодер дополнительно содержит каскад повышающего микширования на выходе каскада микширования, выполненный с возможностью повышающего микширования первого и второго сигналов для генерирования левого и правого каналов стереосигнала, причем для частот ниже первой частоты разделения каскад повышающего микширования выполнен с возможностью выполнения обратного суммарно-разностного преобразования первого и второго сигналов, а для частот выше первой частоты разделения каскад повышающего микширования выполнен с возможностью выполнения параметрического повышающего микширования сигнала понижающего микширования первого сигнала.[0020] The decoder further comprises an upmix stage at the output of the mixing stage, configured to upmix the first and second signals to generate left and right channels of a stereo signal, wherein for frequencies below the first crossover frequency, the upmix stage is configured to perform an inverse sum-difference transform the first and second signals, and for frequencies above the first crossover, the upmix stage is configured to perform parametric upmixing of the downmix signal of the first signal.

[0021] Преимущество наличия нижних частот, прошедших чистое кодирование формы сигналов, т.е., дискретного представления стерео-аудиосигнала, может состоять в том, что человеческое ухо более чувствительно к аудиокомпоненте, имеющей низкие частоты. Благодаря кодированию этой компоненты с более высоким качеством общее впечатление о декодированном аудиосигнале может улучшиться.[0021] The advantage of having pure waveform-encoded low frequencies, i.e., a discrete representation of a stereo audio signal, may be that the human ear is more sensitive to an audio component having low frequencies. By encoding this component with higher quality, the overall impression of the decoded audio signal can be improved.

[0022] Преимущество наличия прошедшей параметрическое стереофоническое кодирование компоненты первого сигнала, т.е., кодируемого по форме сигнала понижающего микширования, а также упомянутого дискретного представления стерео-аудиосигнала состоит в том, что это может повысить качество декодированного аудиосигнала для определенных скоростей передачи данных по сравнению с использованием традиционного параметрического подхода к стереосигналу. При скоростях передачи данных около 32-40 килобит в секунду (кбит/с) параметрическая модель стереофонии может входить в насыщение, т.е., качество декодированного аудиосигнала ограничено недостатками параметрической модели, а не недостаточностью битов для кодирования. Следовательно, для скоростей передачи битов приблизительно от 32 кбит/с может оказаться более целесообразным использовать биты на нижних частотах кодирования формы сигналов. В то же время, гибридный подход к использованию и прошедшей параметрическое стереофоническое кодирование компоненты первого сигнала, и дискретного представления распределенного стерео-аудиосигнала состоит в том, что это может повысить качество декодированного аудиосигнала для определенных скоростей передачи данных, например, ниже 48 кбит/с по сравнению с использованием подхода, при котором все биты используются для нижних частот кодирования формы сигнала, и использованием репликации полосы спектра (SBR) для остальных частот.[0022] The advantage of having the parametric stereo encoded component of the first signal, i.e., the downmix waveform encoded, as well as the aforementioned discrete representation of the stereo audio signal, is that it can improve the quality of the decoded audio signal for certain data rates over compared to using the traditional parametric stereo approach. At data rates around 32-40 kilobits per second (kbps), the parametric stereo model may saturate, ie, the quality of the decoded audio signal is limited by the flaws in the parametric model rather than by insufficient bits to encode. Therefore, for bit rates from about 32 kbps, it may be more appropriate to use bits at lower waveform coding frequencies. At the same time, a hybrid approach to using both the parametrically stereo-encoded first signal component and the discrete representation of the distributed stereo audio signal is that it can improve the quality of the decoded audio signal for certain data rates, for example, below 48 kbps over compared to using an all-bits approach for the lower waveform coding frequencies and using spectrum band replication (SBR) for the remaining frequencies.

[0023] Декодер при этом предпочтительно используется для декодирования двухканального стерео-аудиосигнала.[0023] The decoder is preferably used to decode the two-channel stereo audio signal.

[0024] В соответствии с еще одним вариантом осуществления, преобразование первого и второго кодируемых по форме сигналов в суммарно-разностную форму в каскаде микширования осуществляется в перекрывающейся оконной области преобразования. Перекрывающаяся оконная область преобразования может, например, представлять собой область модифицированного дискретного косинусного преобразования (MDCT). Это может оказаться целесообразным, поскольку преобразование других имеющихся форматов распределения аудиосигналов, таких как левая/правая форма или dmx/comp форма, в суммарно-разностную форму легко обеспечивается в области MDCT. Следовательно, сигналы могут кодироваться с использованием различных форматов, для, по меньшей мере, поднабора частот ниже первой частоты разделения в зависимости от характеристик кодируемого сигнала. Это может обеспечить повышенные качество кодирования и эффективность кодирования.[0024] In accordance with another embodiment, the conversion of the first and second waveform-coded signals to sum-difference form in the mixing stage is performed in an overlapping transform window region. The overlapping windowed transform region may, for example, be a modified discrete cosine transform (MDCT) region. This may be advantageous since the conversion of other available audio distribution formats, such as left/right form or dmx/comp form, to sum-difference form is readily provided in the MDCT domain. Therefore, the signals may be encoded using different formats, for at least a subset of frequencies below the first crossover frequency, depending on the characteristics of the encoded signal. This can provide improved coding quality and coding efficiency.

[0025] В соответствии с еще одним вариантом осуществления, повышающее микширование первого и второго сигналов в каскаде повышающего микширования выполняется в области Квадратурных зеркальных фильтров (QMF). Повышающее микширование выполняется для генерирования левого и правого стереосигналов.[0025] According to yet another embodiment, the upmixing of the first and second signals in the upmixing stage is performed in the domain of Quadrature Mirror Filters (QMF). Upmixing is performed to generate left and right stereo signals.

[0026] В соответствии с еще одним вариантом осуществления, кодируемый по форме сигнал понижающего микширования, содержит спектральные данные, соответствующие частотам между первой частотой разделения и второй частотой разделения. Параметры восстановления высоких частот (HFR) принимаются декодером, например, в каскаде приема, а затем отправляются в каскад восстановления высоких частот для расширения сигнала понижающего микширования первого сигнала до диапазона частот выше второй частоты разделения путем выполнения восстановления высоких частот с использованием параметров восстановления высоких частот. Восстановление высоких частот может, например, включать в себя выполнение репликации полосы спектра, SBR.[0026] According to yet another embodiment, the waveform-coded downmix signal contains spectral data corresponding to frequencies between the first crossover frequency and the second crossover frequency. The high frequency recovery parameters (HFR) are received by the decoder, for example, in the receive stage, and then sent to the high frequency restoration stage to expand the downmix signal of the first signal to a frequency range above the second crossover frequency by performing high frequency restoration using the high frequency restoration parameters. High frequency recovery may, for example, include performing spectrum band replication, SBR.

[0027] Преимущество наличия кодируемого по форме сигнала понижающего микширования, который содержит лишь спектральные данные, соответствующие частотам между первой частотой разделения и второй частотой разделения, состоит в том, что требуемая скорость передачи данных для стереофонической системы может быть понижена. В соответствии с другим вариантом, биты, сохраняемые благодаря наличию кодируемого по форме сигнала понижающего микширования, используются для нижних частот кодирования формы сигналов, например, квантование для этих частот может осуществляться более мелкими шагами, либо первая частота разделения может быть повышена.[0027] An advantage of having a waveform-coded downmix signal that contains only spectral data corresponding to frequencies between the first crossover frequency and the second crossover frequency is that the required data rate for a stereo system can be reduced. Alternatively, the bits retained by the presence of the waveform-coded downmix are used for the lower waveform-coding frequencies, for example, these frequencies can be quantized in finer steps, or the first crossover frequency can be increased.

[0028] Поскольку, как упоминалось выше, человеческое ухо более чувствительно к компоненте аудиосигнала, имеющей низкие частоты, высокие частоты, такие как компонента аудиосигнала, имеющий частоты выше второй частоты разделения, могут быть восстановлены путем восстановления высоких частот без снижения воспринимаемого качества звука декодированного аудиосигнала.[0028] Since, as mentioned above, the human ear is more sensitive to an audio signal component having low frequencies, high frequencies, such as an audio signal component having frequencies higher than the second crossover frequency, can be recovered by restoring the high frequencies without degrading the perceived sound quality of the decoded audio signal. .

[0029] В соответствии с еще одним вариантом осуществления, сигнал понижающего микширования первого сигнала расширяется до диапазона частот выше второй частоты разделения перед тем, как осуществляется повышающее микширование первого и второго сигналов. Это может оказаться целесообразным, поскольку каскад повышающего микширования будет иметь входной суммарный сигнал со спектральными данными, соответствующими всем частотам.[0029] According to yet another embodiment, the downmix signal of the first signal is spread to a frequency range above the second crossover frequency before the first and second signals are upmixed. This may be useful since the upmix stage will have an input sum signal with spectral data corresponding to all frequencies.

[0030] В соответствии с еще одним вариантом осуществления, сигнал понижающего микширования первого сигнала расширяется до диапазона частот выше второй частоты разделения после преобразования первого и второго кодируемых по форме сигналов в суммарно-разностную форму. Это может оказаться целесообразным, поскольку с учетом того, что сигнал понижающего микширования соответствует суммарному сигналу в суммарно-разностном представлении, каскад восстановления высоких частот будет иметь входной сигнал со спектральными данными, соответствующими частотам до второй частоты разделения, представленный в той же форме, т.е., в суммарной форме.[0030] In accordance with yet another embodiment, the downmix signal of the first signal is spread to a frequency range above the second crossover frequency after converting the first and second waveform-coded signals to a sum-difference form. This may be useful because, given that the downmix signal corresponds to the sum signal in the sum-difference representation, the high frequency recovery stage will have an input signal with spectral data corresponding to frequencies up to the second crossover represented in the same form, i.e. e., in summary form.

[0031] В соответствии с еще одним вариантом осуществления, повышающее микширование в каскаде повышающего микширования осуществляется с использованием параметров повышающего микширования. Параметры повышающего микширования принимаются декодером, например, в каскаде приема и отправляются в каскад повышающего микширования. Генерируется декоррелированная версия сигнала понижающего микширования, при этом сигнал понижающего микширования и декоррелированная версия сигнала понижающего микширования подвергаются матричной операции. Параметры матричной операции задаются параметрами повышающего микширования.[0031] According to yet another embodiment, upmixing in the upmixing stage is performed using upmixing parameters. The upmix parameters are received by the decoder, for example, in the receive stage and sent to the upmix stage. A decorrelated version of the downmix signal is generated, wherein the downmix signal and the decorrelated version of the downmix signal undergo a matrix operation. The matrix operation parameters are set by the upmix parameters.

[0032] В соответствии с еще одним вариантом осуществления, кодируемые по форме первый и второй сигналы, принимаемые в каскаде приема, кодируются по форме в лево-правой форме, суммарно-разностной форме и/или понижающе-дополняющей форме, причем дополняющий сигнал зависит от весового параметра a, адаптивного к сигналу. Кодируемые по форме сигналы могут при этом кодироваться по различным формам в зависимости от характеристик сигналов и, тем не менее, быть декодируемыми декодером. Это может обеспечить повышенное качество кодирования и, следовательно, повышенное качество декодированного стерео-аудиосигнала при наличии определенной скорости передачи данных системы. Еще в одном варианте осуществления весовой параметр a является вещественным. Это может упростить декодер, поскольку не требуется никакой дополнительный каскад, аппроксимирующий мнимую компоненту сигнала. Еще одно преимущество состоит в том, что вычислительная сложность декодера может понизиться, что может также привести к уменьшенной задержке/запаздыванию декодирования декодера.[0032] In accordance with yet another embodiment, the form-coded first and second signals received at the receive stage are form-encoded in left-right form, sum-differential form, and/or down-complement form, the complement signal depending on weight parameter a adaptive to the signal. The waveform-coded signals can in this case be coded in different waveforms depending on the characteristics of the signals and still be decodable by the decoder. This can provide improved coding quality and therefore improved quality of the decoded stereo audio signal at a certain system bit rate. In another embodiment, the weight parameter a is real. This can simplify the decoder since no additional stage is required to approximate the imaginary component of the signal. Yet another advantage is that the computational complexity of the decoder may be reduced, which may also result in reduced decoding latency/latency of the decoder.

[0033] В соответствии с еще одним вариантом осуществления, кодируемые по форме первый и второй сигналы, принимаемые в каскаде приема, кодируются по форме в суммарно-разностной форме. Это означает, что первый и второй сигналы могут кодироваться с использованием перекрывающихся оконных преобразований с организацией независимых окон для первого и второго сигналов соответственно и, тем не менее, быть декодируемыми декодером. Это может обеспечить повышенное качество кодирования и, следовательно, повышенное качество декодированного стерео-аудиосигнала при наличии определенной скорости передачи данных системы. Например, если переходный процесс обнаруживается в суммарном сигнале и не обнаруживается в разностном сигнале, кодер формы сигнала может кодировать суммарный сигнал с более короткими окнами, а для разностного сигнала могут быть сохранены более длительные задаваемые по умолчанию окна. Это может обеспечивать более высокую эффективность кодирования по сравнению с тем случаем, когда боковой сигнал также кодировался бы с использованием последовательности более короткого окна.[0033] In accordance with yet another embodiment, the form-coded first and second signals received in the receive stage are form-coded in sum-difference form. This means that the first and second signals can be encoded using overlapped windowing with independent windows for the first and second signals, respectively, and still be decodable by the decoder. This can provide improved coding quality and therefore improved quality of the decoded stereo audio signal at a certain system bit rate. For example, if a transient is detected in the sum signal and not detected in the difference signal, the waveform encoder may encode the sum signal with shorter windows, and longer default windows may be stored for the difference signal. This may provide higher coding efficiency than if the side signal were also encoded using a shorter window sequence.

II. Обзор - кодерII. Overview - encoder

[0034] В соответствии со вторым аспектом, в примерах осуществления предлагаются способы, устройства и компьютерные программные продукты для кодирования аудиосигнала стереофонического канала на основе входного сигнала.[0034] According to a second aspect, the exemplary embodiments provide methods, apparatus, and computer software products for encoding a stereo channel audio signal based on an input signal.

[0035] Предлагаемые способы, устройства и компьютерные программные продукты могут, как правило, иметь одинаковые признаки и преимущества.[0035] The proposed methods, devices, and computer program products may generally have the same features and benefits.

[0036] Преимущества, касающиеся признаков и устройств и представленные в приведенном выше обзоре декодера, в целом могут иметь силу для соответствующих признаков и устройств кодера.[0036] The feature and device benefits presented in the decoder overview above may generally apply to the corresponding encoder features and devices.

[0037] В соответствии с примерами осуществления, предлагается кодер для кодирования двух аудиосигналов. Кодер содержит каскад приема, выполненный с возможностью приема первого сигнала и второго сигнала, соответствующих периоду времени упомянутых двух сигналов, подлежащих кодированию.[0037] According to the embodiments, an encoder is provided for encoding two audio signals. The encoder comprises a reception stage configured to receive a first signal and a second signal corresponding to a time period of the two signals to be encoded.

[0038] Кодер дополнительно содержит каскад преобразования, выполненный с возможностью приема первого и второго сигналов с каскада приема и преобразования их в первый преобразованный сигнал, являющийся суммарным сигналом, и второй преобразованный сигнал, являющийся разностным сигналом.[0038] The encoder further comprises a transform stage configured to receive the first and second signals from the receive stage and convert them into a first transformed signal being a sum signal and a second transformed signal being a difference signal.

[0039] Кодер дополнительно содержит каскад кодирования формы сигналов, выполненный с возможностью приема первого и второго преобразованных сигналов с каскада преобразования и осуществления с ними кодирования формы сигналов с получением первого и второго кодируемых по форме сигналов соответственно, причем для частот выше первой частоты разделения каскад кодирования формы сигналов выполнен с возможностью осуществления кодирования по форме первого преобразованного сигнала, а для частот до первой частоты разделения каскад кодирования формы сигналов выполнен с возможностью осуществления кодирования по форме первого и второго преобразованных сигналов.[0039] The encoder further comprises a waveform encoding stage configured to receive the first and second converted signals from the transformation stage and perform waveform encoding thereon to obtain the first and second waveform-coded signals, respectively, wherein for frequencies above the first crossover frequency, the encoding stage waveform encoding is configured to perform waveform encoding of the first converted signal, and for frequencies up to the first crossover frequency, the waveform encoding stage is configured to perform waveform encoding of the first and second converted signals.

[0040] Кодер дополнительно содержит каскад параметрического стерео кодирования, выполненный с возможностью приема первого и второго сигналов с каскада приема и подвергания первого и второго сигналов параметрическому стерео кодированию с целью извлечения параметрических стерео параметров, обеспечивающих восстановление спектральных данных первого и второго сигналов для частот выше первой частоты разделения.[0040] The encoder further comprises a parametric stereo coding stage, configured to receive the first and second signals from the reception stage and subject the first and second signals to parametric stereo coding in order to extract parametric stereo parameters that restore the spectral data of the first and second signals for frequencies above the first separation frequency.

[0041] Кодер дополнительно содержит каскад генерирования битового потока, выполненный с возможностью приема первого и второго кодируемых по форме сигналов с каскада кодирования формы сигналов и параметрических стерео параметров с каскада параметрического стерео кодирования, а также генерирования битового потока, содержащего первый и второй кодируемые по форме сигналы и параметрические стерео параметры.[0041] The encoder further comprises a bitstream generating stage configured to receive first and second waveform-coded signals from the waveform-coding stage and parametric stereo parameters from the parametric stereo-coding stage, as well as generating a bitstream containing the first and second shape-coded signals and parametric stereo parameters.

[0042] В соответствии с еще одним вариантом осуществления, преобразование первого и второго сигналов в каскаде преобразования выполняется во временной области.[0042] According to another embodiment, the conversion of the first and second signals in the conversion stage is performed in the time domain.

[0043] В соответствии с еще одним вариантом осуществления, для, по меньшей мере, поднабора частот ниже первой частоты разделения кодер может преобразовывать первый и второй кодируемые по форме сигналы в лево-правую форму путем выполнения обратного суммарно-разностного преобразования.[0043] In accordance with yet another embodiment, for at least a subset of frequencies below the first crossover frequency, the encoder may convert the first and second waveform-coded signals to left-to-right form by performing an inverse sum-difference transform.

[0044] В соответствии с еще одним вариантом осуществления, для, по меньшей мере, поднабора частот ниже первой частоты разделения кодер может преобразовывать первый и второй кодируемые по форме сигналы в понижающе-дополняющую форму путем выполнения матричной операции над первым и вторым сигналами, прошедшими кодирование формы сигналов, причем матричная операция зависит от весового параметра а. Весовой параметр а может после этого быть включен в битовый поток в каскаде генерирования битового потока.[0044] In accordance with yet another embodiment, for at least a subset of frequencies below the first crossover frequency, the encoder may convert the first and second waveform-coded signals to down-complement by performing a matrix operation on the first and second waveform-encoded signals waveforms, and the matrix operation depends on the weight parameter a . The weight parameter a may then be included in the bitstream in the bitstream generation stage.

[0045] В соответствии с еще одним вариантом осуществления, для частот выше первой частоты разделения кодирование формы сигналов первого и второго преобразованных сигналов в каскаде преобразования включает в себя кодирование формы сигналов первого преобразованного сигнала для частот между первой частотой разделения и второй частотой разделения и установку первого сигнала, прошедшего кодирование формы сигналов, в нуль выше второй частоты разделения. Сигнал понижающего микширования первого сигнала и второго сигнала может после этого подвергаться кодированию с восстановлением высоких частот в каскаде восстановления высоких частот с целью генерирования параметров восстановления высоких частот, обеспечивающих восстановление высоких частот сигнала понижающего микширования. Параметры восстановления высоких частот могут после этого быть включены в битовый поток в каскаде генерирования битового потока.[0045] According to yet another embodiment, for frequencies above the first crossover frequency, encoding the waveforms of the first and second converted signals in the transform stage includes encoding the waveforms of the first converted signal for frequencies between the first crossover frequency and the second crossover frequency, and setting the first of the waveform-encoded signal to zero above the second crossover frequency. The downmix signal of the first signal and the second signal may then be high frequency restoration encoded in the high frequency restoration stage to generate high frequency restoration parameters enabling high frequency restoration of the downmix signal. The high frequency recovery parameters may then be included in the bitstream in the bitstream generation stage.

[0046] В соответствии с еще одним вариантом осуществления, сигнал понижающего микширования вычисляется на основе первого и второго сигналов.[0046] According to yet another embodiment, the downmix signal is calculated based on the first and second signals.

[0047] В соответствии с еще одним вариантом осуществления, подвергание первого и второго сигналов параметрическому стерео кодированию в каскаде параметрического стерео кодирования осуществляется путем сначала преобразования первого и второго сигналов в первый преобразованный сигнал, являющийся суммарным сигналом, и второй преобразованный сигнал, являющийся разностным сигналом, а затем подвергания первого и второго преобразованных сигналов параметрическому стерео кодированию, причем сигнал понижающего микширования, подлежащий кодированию с восстановлением высоких частот, является первым преобразованным сигналом.[0047] According to yet another embodiment, subjecting the first and second signals to parametric stereo coding in a parametric stereo coding stage is performed by first converting the first and second signals into a first transformed signal being a sum signal and a second transformed signal being a difference signal, and then subjecting the first and second converted signals to parametric stereo coding, wherein the downmix signal to be encoded with high frequency restoration is the first converted signal.

III. Примеры осуществленияIII. Implementation examples

[0048] Фиг.1 представляет собой обобщенную блок-схему системы 100 декодирования, содержащей концептуальные части 200, 300 и 400, которые подробно будут объясняться в соответствии с приводимыми ниже фиг.2-4. В первой концептуальной части 200 битовый поток принимается и декодируется в первый и второй сигналы. Первый сигнал содержит как первый кодируемый по форме сигнал, содержащий спектральные данные, соответствующие частотам до первой частоты разделения, так и кодируемый по форме сигнал понижающего микширования, содержащий спектральные данные, соответствующие частотам выше первой частоты разделения. Второй сигнал включает в себя лишь второй кодируемый по форме сигнал, содержащий спектральные данные, соответствующие частотам до первой частоты разделения.[0048] FIG. 1 is a generalized block diagram of a decoding system 100, including conceptual parts 200, 300, and 400, which will be explained in detail in accordance with FIGS. 2-4 below. In the first conceptual part 200, a bitstream is received and decoded into first and second signals. The first signal contains both a first waveform-coded signal containing spectral data corresponding to frequencies up to the first crossover frequency and a waveform-coded downmix signal containing spectral data corresponding to frequencies above the first crossover frequency. The second signal only includes a second waveform-coded signal containing spectral data corresponding to frequencies up to the first crossover frequency.

[0049] Во второй концептуальной части 300 в том случае, если прошедшие кодирование формы сигналов компоненты первого и второго сигналов находятся не в суммарно-разностной форме, например, в M/S форме, прошедшие кодирование формы сигналов компоненты первого и второго сигналов преобразуются в суммарно-разностную форму. После этого первый и второй сигналы преобразуются во временную область, а затем в область Квадратурных зеркальных фильтров, QMF. В третьей концептуальной части 400 первый сигнал восстановлен по высоким частотам (HFR). И первый, и второй сигналы затем подвергаются повышающему микшированию с получением левого и правого стереофонических выходных сигналов, которые имеют спектральные коэффициенты, соответствующие полному диапазону частот кодированного сигнала, декодируемого системой 100 декодирования.[0049] In the second conceptual part 300, if the waveform-encoded components of the first and second signals are not in sum-difference form, such as M/S form, the waveform-encoded components of the first and second signals are converted to sum - difference form. After that, the first and second signals are transformed into the time domain, and then into the domain of Quadrature mirror filters, QMF. In the third conceptual part 400, the first signal is high frequency reconstruction (HFR). Both the first and second signals are then upmixed to produce left and right stereo output signals that have spectral coefficients corresponding to the full frequency range of the encoded signal being decoded by the decoding system 100.

[0050] Фиг.2 иллюстрирует первую концептуальную часть 200 системы 100 декодирования, изображенной на фиг.1. Система 100 декодирования содержит каскад 212 приема. В каскаде 212 приема кадр 202 битового потока декодируется и деквантуется в первый сигнал 204а и второй сигнал 204b. Кадр 202 битового потока соответствует периоду времени двух декодируемых аудиосигналов. Первый сигнал 204а включает в себя первый сигнал 208, прошедший кодирование формы сигналов и содержащий спектральные данные, соответствующие частотам до первой частоты разделения k_γ, и сигнал 206 понижающего микширования, прошедший кодирование формы сигналов и содержащий спектральные данные, соответствующие частотам выше первой частоты разделения k_γ. Например, первая частота разделения k_γ составляет 1,1 кГц.[0050] FIG. 2 illustrates a first conceptual portion 200 of the decoding system 100 shown in FIG. 1. The decoding system 100 includes a receive stage 212 . At receive stage 212, bitstream frame 202 is decoded and dequantized into first signal 204a and second signal 204b. Frame 202 bitstream corresponds to the time period of the two decoded audio signals. The first signal 204a includes a first waveform-encoded signal 208 containing spectral data corresponding to frequencies up to the first crossover frequency k _γ , and a downmix signal 206 having been waveform-coded and containing spectral data corresponding to frequencies above the first crossover frequency k _γ . For example, the first crossover frequency k _γ is 1.1 kHz.

[0051] В соответствии с некоторыми вариантами осуществления, сигнал 206 понижающего микширования, прошедший кодирование формы сигналов, содержит спектральные данные, соответствующие частотам между первой частотой разделения k_γ и второй частотой разделения k_χ. Например, вторая частота разделения k_χ лежит в диапазоне 5,6-8 кГц.[0051] According to some embodiments, the waveform-encoded downmix signal 206 contains spectral data corresponding to frequencies between the first crossover frequency k _γ and the second crossover frequency k _χ . For example, the second crossover frequency k _χ lies in the range of 5.6-8 kHz.

[0052] Принимаемые первый и второй сигналы 208, 210, прошедшие кодирование формы сигналов, могут быть с кодированием формы сигналов в лево-правой форме, суммарно-разностной форме и/или понижающе-дополняющей форме, причем дополняющий сигнал зависит от весового параметра a, адаптивного к сигналу. Сигнал 206 понижающего микширования, прошедший кодирование формы сигналов, соответствует понижающему микшированию, подходящему для параметрического стерео, которое - в соответствии с приведенным выше описанием - соответствует суммарной форме. Однако сигнал 204b не имеет контента выше первой частоты разделения k_γ. Каждый из сигналов 206, 208, 210 представлен в области модифицированного дискретного косинусного преобразования (MDCT).[0052] The received first and second waveform-encoded signals 208, 210 may be waveform-encoded in left-right form, sum-difference form, and/or down-complement form, the complement signal depending on the weight parameter a, signal adaptive. The waveform-encoded downmix signal 206 corresponds to a downmix suitable for parametric stereo, which—as described above—corresponds to the sum form. However, signal 204b has no content above the first crossover frequency k_γ. Each of the signals 206, 208, 210 is represented in a modified discrete cosine transform (MDCT) domain.

[0053] Фиг.3 иллюстрирует вторую концептуальную часть 300 системы 100 декодирования, изображенной на фиг.1. Система 100 декодирования содержит каскад 302 микширования. Конструкция системы 100 декодирования требует, чтобы входной сигнал каскада восстановления высоких частот, который подробнее описывается ниже, находился в суммарной форме. Следовательно, каскад микширования выполнен с возможностью проверки, находятся ли первый и второй сигналы 208, 210, прошедшие кодирование формы сигналов, в суммарно-разностной форме. Если первый и второй сигналы 208, 210, прошедшие кодирование формы сигналов, не находятся в суммарно-разностной форме для всех частот до первой частоты разделения k_γ, каскад 302 микширования полностью преобразует сигналы 208, 210, прошедшие кодирование формы сигналов, в суммарно-разностную форму. В случае если, по меньшей мере, поднабор частот входных сигналов 208, 210 каскада 302 микширования находится в понижающе-дополняющей форме, в качестве входного сигнала каскада 302 микширования требуется весовой параметр a. Можно отметить, что входные сигналы 208, 210 могут содержать несколько поднаборов частот, кодированных в понижающе-дополняющей форме, и что в этом случае каждый поднабор не обязательно должен кодироваться с использованием одного и того же значения весового параметра a. В этом случае в качестве входного сигнала каскада 302 микширования требуются несколько весовых параметров a.[0053] Figure 3 illustrates a second conceptual portion 300 of the decoding system 100 shown in Figure 1. The decoding system 100 includes a mixing stage 302 . The design of the decoding system 100 requires that the input signal of the high frequency restoration stage, which is described in more detail below, be in sum form. Therefore, the mixing stage is configured to check whether the first and second waveform-encoded signals 208, 210 are in sum-difference form. If the first and second waveform-encoded signals 208, 210 are not in sum-difference form for all frequencies up to the first crossover frequency k _γ , the mixing stage 302 completely converts the waveform-encoded signals 208, 210 to sum-difference shape. In the event that at least a subset of the frequencies of the input signals 208, 210 of the mixing stage 302 is in a down-complement form, the weight parameter a is required as the input signal of the mixing stage 302. It can be noted that the input signals 208, 210 may contain multiple buck-complement coded frequency subsets, and that in this case each subset need not be encoded using the same value of the weight parameter a . In this case, several weight parameters a are required as input to the mixing stage 302 .

[0054] Как указано выше, каскад 302 микширования всегда выдает суммарно-разностное представление входных сигналов 204a-b. Для того, чтобы иметь возможность преобразовывать сигналы, представленные в области MDCT, в суммарно-разностное представление, организация окон сигналов с MDCT кодированием должна быть такой же. Это предполагает, что в случае, если первый и второй сигналы 208, 210, прошедшие кодирование формы сигналов, находятся в L/R или понижающе-дополняющей форме, организация окон для сигнала 204а и организация окон для сигнала 204b не могут быть независимыми.[0054] As noted above, the mixing stage 302 always outputs a sum-difference representation of the input signals 204a-b. In order to be able to transform signals represented in the MDCT domain into a sum-difference representation, the windowing of the MDCT-encoded signals must be the same. This implies that in case the first and second waveform-encoded signals 208, 210 are in L/R or down-complement form, windowing for signal 204a and windowing for signal 204b cannot be independent.

[0055] Следовательно, в случае, если первый и второй сигналы 208, 210, прошедшие кодирование формы сигналов, находятся в суммарно-разностной форме, организация окон для сигнала 204а и организация окон для сигнала 204b не могут быть независимыми.[0055] Therefore, in case the first and second waveform-encoded signals 208, 210 are in sum-differential form, windowing for signal 204a and windowing for signal 204b cannot be independent.

[0056] После каскада 302 микширования суммарно-разностный сигнал преобразуется во временную область путем применения обратного модифицированного дискретного косинусного преобразования (MDCT^-1) 312.[0056] After the mixing stage 302, the sum-difference signal is converted to the time domain by applying an inverse modified discrete cosine transform (MDCT ^-1 ) 312.

[0057] Затем два сигнала 304a-b анализируются двумя блоками 314 QMF. Поскольку сигнал 306 понижающего микширования не содержит нижних частот, нет необходимости анализировать сигнал с помощью блока фильтров Найквиста для повышения разрешающей способности по частоте. Это можно сравнить с системами, в которых сигнал понижающего микширования содержит нижние частоты, например, традиционное параметрическое стерео декодирование, такое как параметрическое стерео MPEG-4. В этих системах сигнал понижающего микширования должен анализироваться с помощью блока фильтров Найквиста с целью повышения разрешающей способности по частоте сверх того, что достигается с помощью блока QMF, и посредством этого лучшего согласования с частотной избирательностью слуховой системы человека, например, представленной частотной шкалой барков.[0057] The two signals 304a-b are then analyzed by two QMF blocks 314. Because the downmix signal 306 contains no low frequencies, it is not necessary to analyze the signal with a Nyquist filter bank to improve the frequency resolution. This can be compared to systems where the downmix signal contains lower frequencies, such as traditional parametric stereo decoding such as MPEG-4 parametric stereo. In these systems, the downmix signal must be analyzed with a Nyquist filter bank in order to increase the frequency resolution beyond that achieved with the QMF block, and thereby better match the frequency selectivity of the human auditory system, for example, represented by the barque frequency scale.

[0058] Выходной сигнал 304 с блоков 314 QMF включает в себя первый сигнал 304а, который является комбинацией суммарного сигнала 308, прошедшего кодирование формы сигналов и содержащего спектральные данные, соответствующие частотам до первой частоты разделения k_γ, и сигнал 306 понижающего микширования, прошедший кодирование формы сигналов и содержащий спектральные данные, соответствующие частотам между первой частотой разделения k_γ и второй частотой разделения k_χ. Выходной сигнал 304 дополнительно включает в себя второй сигнал 304b, который содержит разностный сигнал 310, прошедший кодирование формы сигналов и содержащий спектральные данные, соответствующие частотам до первой частоты разделения k_γ. Сигнал 304b не имеет контента выше первой частоты разделения k_γ.[0058] The output signal 304 from the QMF blocks 314 includes a first signal 304a, which is a combination of the waveform-encoded sum signal 308 containing spectral data corresponding to frequencies up to the first crossover frequency k _γ , and the encoded downmix signal 306 waveforms and containing spectral data corresponding to frequencies between the first crossover frequency k _γ and the second crossover frequency k _χ . The output signal 304 further includes a second signal 304b that contains a waveform-encoded difference signal 310 containing spectral data corresponding to frequencies up to the first crossover frequency k _γ . Signal 304b has no content above the first crossover frequency k _γ .

[0059] Как будет описываться ниже, каскад 416 восстановления высоких частот (изображенный на фиг.4) использует нижние частоты, т.е., первый сигнал 308, прошедший кодирование формы сигналов, и сигнал 306 понижающего микширования, прошедший кодирование формы сигналов, из выходного сигнала 304 для восстановления частот выше второй частоты разделения k_χ. Целесообразно, чтобы сигнал, на котором работает каскад 416 восстановления высоких частот, являлся сигналом аналогичного типа на всех нижних частотах. С этой точки зрения целесообразно, чтобы каскад 302 микширования всегда выдавал суммарно-разностное представление первого и второго сигналов 208, 210, прошедших кодирование формы сигналов, поскольку это означает, что первый сигнал 308, прошедший кодирование формы сигналов, и сигнал 306 понижающего микширования, прошедший кодирование формы сигналов, из выдаваемого первого сигнала 304а - одинакового характера.[0059] As will be described below, the high frequency recovery stage 416 (shown in FIG. 4) uses the lower frequencies, i.e., the first waveform-encoded signal 308 and the waveform-encoded downmix signal 306, from output signal 304 to recover frequencies above the second crossover frequency k _χ . Preferably, the signal on which the high frequency recovery stage 416 operates is of the same type at all lower frequencies. From this point of view, it is expedient that the mixing stage 302 always output a sum-difference representation of the first and second waveform-encoded signals 208, 210, since this means that the first waveform-encoded signal 308 and the downmix signal 306 waveform encoding, from the outputted first waveform 304a, of the same nature.

[0060] Фиг.4 иллюстрирует третью концептуальную часть 400 системы 100 декодирования, изображенной на фиг.1. Каскад 416 восстановления высоких частот (HFR) расширяет сигнал 306 понижающего микширования входного сигнала 304а первого сигнала до диапазона частот выше второй частоты разделения k_χ путем выполнения восстановления высоких частот. В зависимости от конфигурации каскада 416 HFR, входным сигналом для каскада 416 HFR является весь сигнал 304а или только сигнал 306 понижающего микширования. Восстановление высоких частот осуществляется путем использования параметров восстановления высоких частот, которые могут приниматься каскадом 416 восстановления высоких частот любым применимым способом. В соответствии с одним из вариантов осуществления, выполняемое восстановление высоких частот содержит выполнение репликации полосы спектра, SBR.[0060] FIG. 4 illustrates a third conceptual part 400 of the decoding system 100 shown in FIG. 1. The high frequency restoration (HFR) stage 416 expands the downmix signal 306 of the first signal input signal 304a to a frequency range above the second crossover frequency k _χ by performing high frequency restoration. Depending on the configuration of the HFR stage 416, the input signal to the HFR stage 416 is the entire signal 304a or only the downmix signal 306. High frequency restoration is accomplished by using high frequency restoration parameters that may be received by high frequency restoration stage 416 in any applicable manner. According to one embodiment, the high frequency restoration performed comprises performing spectrum band replication, SBR.

[0061] Выходным сигналом каскада 314 восстановления высоких частот является сигнал 404, содержащий сигнал 406 понижающего микширования с примененным расширением SBR. Восстановленный по высоким частотам сигнал 404 и сигнал 304b после этого подаются на каскад 420 повышающего микширования для генерирования левого L и правого R стерео сигналов 412a-b. Для спектральных коэффициентов, соответствующих частотам ниже первой частоты разделения k_γ, повышающее микширование содержит выполнение обратного суммарно-разностного преобразования первого и второго сигналов 408, 310. Это попросту означает переход от средне-бокового представления к лево-правому представлению, как указано выше. Для спектральных коэффициентов, соответствующих частотам выше первой частоты разделения k_γ, сигнал 406 понижающего микширования и расширение 412 SBR подаются через декоррелятор 418. Сигнал 406 понижающего микширования и расширение 412 SBR, а также декоррелированная версия сигнала 406 понижающего микширования и расширения 412 SBR после этого подвергаются повышающему микшированию с использованием параметров параметрического микширования для восстановления левого и правого каналов 416, 414 для частот выше первой частоты разделения k_γ. Может применяться любая известная процедура параметрического повышающего микширования.[0061] The output signal of the high frequency restoration stage 314 is a signal 404 containing the downmix signal 406 with the SBR extension applied. The high-frequency reconstructed signal 404 and signal 304b are then fed to an up-mix stage 420 to generate left L and right R stereo signals 412a-b. For spectral coefficients corresponding to frequencies below the first crossover frequency k _γ , upmixing comprises performing an inverse sum-difference transform of the first and second signals 408, 310. This simply means moving from a mid-side view to a left-right view as above. For spectral coefficients corresponding to frequencies above the first crossover frequency k _γ , the downmix signal 406 and SBR extension 412 are fed through the decorrelator 418. The downmix signal 406 and SBR extension 412, and the decorrelated version of the downmix signal 406 and SBR extension 412 are then upmixing using the parametric mixing parameters to restore the left and right channels 416, 414 for frequencies above the first crossover frequency k _γ . Any known parametric upmix procedure may be used.

[0062] Необходимо отметить, что в вышеописанном примере 100 осуществления кодера, изображенном на фиг.1-4, необходимо восстановление высоких частот, поскольку первый принимаемый сигнал 204а содержит лишь спектральные данные, соответствующие частотам до второй частоты разделения k_χ. В других вариантах осуществления первый принимаемый сигнал содержит спектральные данные, соответствующие всем частотам кодированного сигнала. В соответствии с этим вариантом осуществления, восстановление высоких частот не требуется. Специалисту понятно, как адаптировать пример 100 кодера в этом случае.[0062] It should be noted that in the above-described encoder embodiment 100 shown in FIGS. 1-4, high frequency recovery is necessary because the first received signal 204a contains only spectral data corresponding to frequencies up to the second crossover frequency k _χ . In other embodiments, the first received signal contains spectral data corresponding to all frequencies of the encoded signal. According to this embodiment, high frequency recovery is not required. One skilled in the art will understand how to adapt the encoder example 100 in this case.

[0063] На фиг.5 в качестве примера изображена обобщенная блок-схема системы 500 декодирования в соответствии с одним из вариантов осуществления.[0063] FIG. 5 shows, by way of example, a generalized block diagram of a decoding system 500, in accordance with one embodiment.

[0064] В этой системе кодирования первый и второй сигналы 540, 542, подлежащие кодированию, принимаются каскадом приема (не показан). Эти сигналы 540, 542 соответствуют периоду времени левого 540 и правого 542 стереофонических звуковых каналов. Сигналы 540, 542 представлены во временной области. Система кодирования содержит каскад 510 преобразования. Сигналы 540, 542 преобразуются в суммарно-разностный формат 544, 546 в каскаде 510 преобразования.[0064] In this coding system, the first and second signals 540, 542 to be encoded are received by a receive stage (not shown). These signals 540, 542 correspond to the time period of the left 540 and right 542 stereo audio channels. Signals 540, 542 are in the time domain. The coding system includes a transform stage 510 . Signals 540, 542 are converted to sum-difference format 544, 546 in transform stage 510.

[0065] Система кодирования дополнительно содержит каскад 514 кодирования формы сигналов, выполненный с возможностью приема первого и второго преобразованных сигналов 544, 546 с каскада 510 преобразования. Каскад кодирования формы сигналов, как правило, работает в области MDCT. В связи с этим, преобразованные сигналы 544, 546 подвергаются преобразованию 512 MDCT перед каскадом 514 кодирования формы сигналов. В каскаде кодирования формы сигналов первый и второй преобразованные сигналы 544, 546 кодируются по форме с получением первого и второго сигналов 518, 520, прошедших кодирование формы сигналов, соответственно.[0065] The coding system further comprises a waveform encoding stage 514 configured to receive first and second transformed signals 544, 546 from the transform stage 510. The waveform coding stage typically operates in the MDCT domain. In this regard, the transformed signals 544, 546 are subjected to MDCT transformation 512 before the waveform encoding stage 514 . In the waveform coding stage, the first and second converted signals 544, 546 are shape-coded to obtain first and second waveform-encoded signals 518, 520, respectively.

[0066] Для частот выше первой частоты разделения k_γ каскад 514 кодирования формы сигналов выполнен с возможностью кодирования по форме первого преобразованного сигнала 544 с получением сигнала 552 с кодированием формы сигналов первого сигнала 518, прошедшего кодирование формы сигналов. Каскад 514 кодирования формы сигналов может быть выполнен с возможностью установки второго сигнала 520, прошедшего кодирование формы сигналов, в нуль выше первой частоты разделения k_γ, либо не кодирования этих частот вообще. Для частот выше первой частоты разделения k_γ каскад 514 кодирования формы сигналов выполнен с возможностью кодирования по форме первого преобразованного сигнала 544 с получением сигнала 552 с кодированием формы сигналов первого сигнала 518, прошедшего кодирование формы сигналов.[0066] For frequencies above the first crossover frequency k _γ , the waveform encoding stage 514 is configured to waveform encode the first transformed signal 544 to produce a waveform coded signal 552 of the first waveform coded signal 518. The waveform encoding stage 514 may be configured to set the second waveform coded signal 520 to zero above the first crossover frequency k _γ , or not to encode these frequencies at all. For frequencies above the first crossover frequency k _γ , the waveform encoding stage 514 is configured to waveform encode the first converted signal 544 to produce a waveform coded signal 552 of the first waveform coded signal 518.

[0067] Для частот ниже первой частоты разделения k_γ в каскаде 514 кодирования формы сигналов принимается решение о том, какого рода стерео кодирование использовать для двух сигналов 548, 550. В зависимости от характеристик преобразованных сигналов 544, 546 ниже первой частоты разделения k_γ могут приниматься различные решения для различных поднаборов сигналов 548, 550, прошедших кодирование формы сигналов. Кодирование может представлять собой либо Левое/Правое кодирование, Среднее/Боковое кодирование, т.е., кодирование суммы и разности, либо dmx/comp/a кодирование. В случае если сигналы 548, 550 подвергались кодированию формы сигналов в каскаде 514 кодирования формы сигналов, сигналы 518, 520, прошедшие кодирование формы сигналов, могут кодироваться с использованием перекрывающихся оконных преобразований с независимой организацией окон для сигналов 518, 520 соответственно.[0067] For frequencies below the first crossover frequency k _{γ ,} the waveform encoding stage 514 decides what kind of stereo encoding to use for the two signals 548, 550. Depending on the characteristics of the converted signals 544, 546 below the first crossover frequency k _γ may different decisions are made for different subsets of waveform-encoded signals 548, 550. The encoding may be either Left/Right encoding, Middle/Side encoding, ie sum and difference encoding, or dmx/comp/a encoding. In case the signals 548, 550 have been waveform-coded in the waveform-coding stage 514, the waveform-encoded signals 518, 520 may be encoded using independently windowed overlapped windowing of the signals 518, 520, respectively.

[0068] Одним из примеров первой частоты разделения k_γ является 1,1 кГц, но эта частота может изменяться в зависимости от скорости передачи данных стереофонической звуковой системы или в зависимости от характеристик кодируемого аудиосигнала.[0068] One example of the first crossover frequency k _γ is 1.1 kHz, but this frequency may vary depending on the data rate of the stereo sound system or depending on the characteristics of the encoded audio signal.

[0069] По меньшей мере, два сигнала 518, 520 при этом выдаются с каскада 514 кодирования формы сигналов. В случае, если один или несколько поднаборов, либо весь диапазон частот сигналов ниже первой частоты разделения k_γ кодируется в понижающе-дополняющей форме путем выполнения матричной операции в зависимости от весового параметра а, этот коэффициент также выдается в качестве сигнала 522. В случае нескольких поднаборов, кодируемых в понижающей/дополняющей форме, каждый поднабор не обязательно должен кодироваться с использованием одного и того же значения весового параметра а. В этом случае в качестве сигнала 522 выдаются несколько весовых параметров.[0069] At least two signals 518, 520 are then output from the waveform encoding stage 514. In the event that one or more subsets, or the entire frequency range of signals below the first crossover frequency k _γ , is down-complemented by performing a matrix operation depending on the weight parameter a, this factor is also output as signal 522. In the case of multiple subsets , coded in the reduction/complement form, each subset need not be encoded using the same value of the weight parameter a. In this case, several weight parameters are output as signal 522.

[0070] Указанные два или три сигнала 518, 520, 522 кодируются и квантуются 524 с получением единого составного сигнала 558.[0070] These two or three signals 518, 520, 522 are encoded and quantized 524 to obtain a single composite signal 558.

[0071] Для того чтобы иметь возможность восстанавливать спектральные данные первого и второго сигналов 540, 542 для частот выше первой частоты разделения на стороне декодера, из сигналов 540, 542 должны извлекаться параметрические стерео параметры 536. С этой целью кодер 500 содержит каскад 530 параметрического стерео (PS) кодирования. Каскад 530 PS кодирования, как правило, работает в области QMF. Следовательно, перед вводом в каскад 530 PS кодирования первый и второй сигналы 540, 542 преобразуются в область QMF с помощью каскада 526 анализа QMF. Каскад 530 PS кодирования предназначен лишь для извлечения параметрических стерео параметров 536 для частот выше первой частоты разделения k_γ.[0071] In order to be able to reconstruct the spectral data of the first and second signals 540, 542 for frequencies above the first crossover frequency on the decoder side, the parametric stereo parameters 536 must be extracted from the signals 540, 542. To this end, the encoder 500 comprises a parametric stereo stage 530 (PS) encoding. The PS encoding stage 530 typically operates in the QMF domain. Therefore, before being input to the PS encoding stage 530, the first and second signals 540, 542 are converted to the QMF domain by the QMF analysis stage 526. The PS encoding stage 530 is intended only to extract parametric stereo parameters 536 for frequencies above the first crossover frequency k _γ .

[0072] Можно отметить, что параметрические стерео параметры 536 отражают характеристики сигнала, прошедшего параметрическое стерео кодирование. При этом они являются частотно избирательными, т.е., каждый параметр из параметров 536 может соответствовать поднабору частот левого или правого входных сигналов 540, 542. Каскад 530 PS кодирования вычисляет параметрические стерео параметры 536 и квантует их либо с равномерным шагом, либо с неравномерным шагом. Эти параметры, как упоминалось выше, являются частотно избирательными, причем весь диапазон частот входных сигналов 540, 542 делится, например, на 15 диапазонов параметров. Они могут быть разнесены в соответствии с моделью частотного разрешения слуховой системы человека, например, шкалой барков.[0072] It can be noted that the parametric stereo parameters 536 reflect the characteristics of the signal that has passed the parametric stereo encoding. However, they are frequency selective, i.e., each parameter of the parameters 536 can correspond to a subset of the frequencies of the left or right input signals 540, 542. The PS encoding stage 530 calculates the parametric stereo parameters 536 and quantizes them either with a uniform step or with an uneven step. These parameters, as mentioned above, are frequency selective, with the entire frequency range of the input signals 540, 542 divided into, for example, 15 parameter bands. They can be spaced according to the frequency resolution model of the human auditory system, such as the barque scale.

[0073] В примере осуществления кодера 500, изображенном на фиг.5, каскад 514 кодирования формы сигналов выполнен с возможностью кодирования по форме первого преобразованного сигнала 544 для частот между первой частотой разделения k_γ и второй частотой разделения k_χ и установки первого сигнала 518, прошедшего кодирование формы сигналов, на ноль выше второй частоты разделения k_χ. Это может осуществляться для дополнительного снижения требуемой скорости передачи данных звуковой системы, в состав которой входит кодер 500. Для того, чтобы иметь возможность восстанавливать сигнал выше второй частоты разделения k_χ, должны генерироваться параметры 538 восстановления высоких частот. В соответствии с этим примером осуществления, это выполняется путем понижающего микширования двух сигналов 540, 542, представленных в области QMF, в каскаде 534 понижающего микширования. Результирующий сигнал понижающего микширования, который, например, равен сумме двух сигналов 540, 542, подвергается после этого кодированию с восстановлением высоких частот в каскаде 532 кодирования с восстановлением высоких частот - HFR - с целью генерирования параметров 538 восстановления высоких частот. Параметры 538 могут, например, включать в себя огибающую спектра частот выше второй частоты разделения k_χ, информацию о накоплении помех и т.д., также известные специалистам.[0073] In the exemplary encoder 500 shown in FIG. 5, the waveform encoding stage 514 is configured to waveform encode the first transformed signal 544 for frequencies between the first crossover frequency k _γ and the second crossover frequency k _χ and set the first waveform 518, past waveform encoding, zero above the second crossover frequency k _χ . This can be done to further reduce the required data rate of the audio system that includes the encoder 500. In order to be able to recover a signal above the second crossover frequency k _χ , high frequency recovery parameters 538 must be generated. According to this embodiment, this is done by downmixing the two signals 540, 542 represented in the QMF region in the downmix stage 534. The resulting downmix signal, which is, for example, equal to the sum of the two signals 540, 542, is then subjected to high frequency restoration encoding in a high frequency restoration (HFR) coding stage 532 to generate high frequency restoration parameters 538. Parameters 538 may, for example, include a frequency spectrum envelope above the second crossover frequency k _χ , interference accumulation information, etc., also known to those skilled in the art.

[0074] Одним из примеров второй частоты разделения k_χ является 5,6-8 кГц, но эта частота может изменяться в зависимости от скорости передачи данных стереофонической звуковой системы или в зависимости от характеристик кодируемого аудиосигнала.[0074] One example of the second crossover frequency k _χ is 5.6-8 kHz, but this frequency may vary depending on the data rate of the stereo sound system or depending on the characteristics of the encoded audio signal.

[0075] Кодер 500 дополнительно содержит каскад генерирования битовых потоков, т.е., мультиплексор 524 битовых потоков. В соответствии с примером осуществления кодера 500, каскад генерирования битовых потоков выполнен с возможностью приема кодированного и квантованного сигнала 544 и двух сигналов 536, 538 параметров. Они преобразуются в битовый поток 560 каскадом 562 генерирования битовых потоков для последующего распределения в стереофонической звуковой системе.[0075] The encoder 500 further comprises a bitstream generating stage, i.e., a bitstream multiplexer 524 . In accordance with an exemplary implementation of encoder 500, the bitstream generation stage is configured to receive an encoded and quantized signal 544 and two parameter signals 536, 538. These are converted to bitstream 560 by bitstream generation cascade 562 for subsequent distribution in a stereo sound system.

[0076] В соответствии с еще одним вариантом осуществления, каскад 514 кодирования формы сигналов выполнен с возможностью кодирования по форме первого преобразованного сигнала 544 для всех частот выше первой частоты разделения k_γ. В этом случае каскад 532 кодирования с HFR не требуется, и, следовательно, параметры 538 восстановления высоких частот не включаются в битовый поток.[0076] In accordance with yet another embodiment, the waveform encoding stage 514 is configured to waveform encode the first transformed signal 544 for all frequencies above the first crossover frequency k _γ . In this case, the HFR encoding stage 532 is not required, and hence the high frequency restoration parameters 538 are not included in the bitstream.

[0077] На фиг.6 в качестве примера изображена обобщенная блок-схема системы 600 кодирования в соответствии с еще одним вариантом осуществления. Данный вариант осуществления отличается от варианта осуществления, изображенного на фиг.5, тем, что сигналы 544, 546, которые преобразуются каскадом 526 анализа QMF, находятся в суммарно-разностном формате. Следовательно, отдельный каскад 534 понижающего микширования не требуется, поскольку суммарный сигнал 544 уже находится в форме сигнала понижающего микширования. При этом для работы по суммарному сигналу 544 для извлечения параметров 538 восстановления высоких частот требуется лишь каскад 532 SBR кодирования. Каскад 530 PS кодирования предназначен для работы как по суммарному сигналу 544, так и по разностному сигналу 546 для извлечения параметрических стерео параметров 536.[0077] FIG. 6 shows, by way of example, a generalized block diagram of an encoding system 600 in accordance with yet another embodiment. This embodiment differs from the embodiment depicted in FIG. 5 in that the signals 544, 546, which are converted by the QMF analysis stage 526, are in sum-difference format. Therefore, a separate downmix stage 534 is not required since the sum signal 544 is already in the form of a downmix signal. However, to operate on the sum signal 544, only the SBR encoding stage 532 is required to extract the high frequency recovery parameters 538. The PS encoding stage 530 is designed to operate on both the sum signal 544 and the difference signal 546 to extract parametric stereo parameters 536.

Эквиваленты, расширения, альтернативы и прочееEquivalents, extensions, alternatives and more

[0078] После изучения приведенного выше описания специалисту станут очевидными другие варианты осуществления настоящего изобретения. Несмотря на то, что настоящее описание и чертежи раскрывают варианты осуществления и примеры, изобретение не ограничивается этими конкретными примерами. Возможно различные другие варианты в пределах объема настоящего изобретения, который определяется в прилагаемой формуле изобретения. Любые ссылочные позиции в формуле изобретения не должны трактоваться как ограничивающие ее объем.[0078] Upon examination of the above description, other embodiments of the present invention will become apparent to those skilled in the art. Although the present description and drawings disclose embodiments and examples, the invention is not limited to these specific examples. Various other variations are possible within the scope of the present invention, which is defined in the appended claims. Any reference positions in the claims should not be construed as limiting its scope.

[0079] Кроме того, по результатам изучения чертежей, описания и прилагаемой формулы изобретения специалистом могут быть поняты и реализованы изменения в описываемых вариантах осуществления. В формуле изобретения слово «содержащий» не исключает другие элементы или этапы, а неопределенный артикль не исключает множества. Сам по себе тот факт, что некоторые критерии излагаются в различных зависимых пунктах формулы изобретения, не означает, что совокупность этих критериев не может использоваться с пользой.[0079] In addition, based on the results of the study of the drawings, the description and the accompanying claims, changes in the described embodiments can be understood and implemented by a person skilled in the art. In the claims, the word "comprising" does not exclude other elements or steps, and the indefinite article does not exclude a plurality. By itself, the fact that some criteria are set forth in various dependent claims does not mean that the totality of these criteria cannot be used to advantage.

[0080] Описанные выше системы и способы могут быть реализованы в виде программных средств, микропрограммных средств, аппаратных средств или их комбинации. При аппаратной реализации разделение задач между функциональными блоками, упоминаемыми в приведенном выше описании, не обязательно должно соответствовать разделению на физические блоки; напротив, один физический компонент может иметь множество функциональных назначений, при этом одна задача может выполняться несколькими физическими компонентами совместно. Некоторые компоненты или все компоненты могут быть реализованы в виде программных средств, исполняемых цифровым сигнальным процессором или микропроцессором, либо реализованы в виде аппаратных средств, либо в виде специализированной интегральной схемы. Такие программные средства могут быть распределены по считываемым компьютером носителям, которые могут включать в себя запоминающие среды компьютеров (или энергонезависимые среды) и среды передачи данных (или энергозависимые среды). Как известно специалистам, термин «запоминающие среды компьютеров» включает в себя и энергозависимые, и энергонезависимые, и съемные, и несъемные среды, реализуемые с помощью любого способа или технологии для хранения информации, такие как считываемые компьютером инструкции, структуры данных, программные модули и прочие данные. Запоминающие среды компьютеров включают в себя, помимо прочего, оперативное запоминающее устройство (ОЗУ), постоянное запоминающее устройство (ПЗУ), электрически стираемое программируемое постоянное запоминающее устройство (ЭСППЗУ), флэш-память или иную технологию памяти, постоянное запоминающее устройство на компакт-дисках (CD-ROM), универсальный цифровой диск (DVD) или иной накопитель на оптических дисках, магнитные кассеты, накопитель на магнитных дисках или иные магнитные запоминающие устройства, либо иную среду, которая может использоваться для хранения необходимой информации и доступ к которой может осуществляться компьютером. Кроме того, специалистам известно, что среды передачи данных, как правило, включают в себя считываемые компьютером инструкции, структуры данных, программные модули или иные данные в модулированном информационном сигнале, таком как несущая волна или иной механизм переноса, и включают в себя любые среды доставки информации.[0080] The systems and methods described above may be implemented in software, firmware, hardware, or combinations thereof. When implemented in hardware, the division of tasks between the functional blocks referred to in the above description need not correspond to the division into physical blocks; on the contrary, one physical component may have multiple functionalities, and one task may be performed by several physical components together. Some or all of the components may be implemented in software executable by a digital signal processor or microprocessor, or implemented in hardware or as an ASIC. Such software may be distributed over computer-readable media, which may include computer storage media (or non-volatile media) and communication media (or non-volatile media). As is known to those skilled in the art, the term "computer storage media" includes both volatile and non-volatile, removable and non-removable media implemented in any method or technology for storage of information such as computer-readable instructions, data structures, program modules, and the like. data. Computer storage media includes, but is not limited to, random access memory (RAM), read only memory (ROM), electrically erasable programmable read only memory (EEPROM), flash memory or other memory technology, CD-ROM read only memory ( CD-ROM), digital versatile disc (DVD) or other optical disc drive, magnetic cassettes, magnetic disc drive or other magnetic storage devices, or other medium that can be used to store the necessary information and that can be accessed by a computer. In addition, those skilled in the art are aware that communication media typically includes computer-readable instructions, data structures, program modules, or other data in a modulated information signal such as a carrier wave or other transfer mechanism, and includes any delivery media information.

Claims

1. A method for decoding an encoded audio bitstream, comprising the steps of:

extracting from the encoded audio bitstream a first waveform-coded signal consisting of first spectral coefficients corresponding to frequencies up to the first crossover frequency for the first time period;

a second waveform-coded signal is extracted from the encoded audio bitstream, consisting of second spectral coefficients corresponding to a subset of frequencies of the above-mentioned first crossover frequency, for the said first time period, while the second waveform-coded signal does not contain second spectral coefficients corresponding to frequencies up to the first crossover frequency, for the first time period;

perform high frequency recovery to expand a subset of frequencies above the second crossover frequency to generate an extended signal for the first time period, wherein the second crossover frequency is higher than the first crossover frequency, and wherein the high frequency restoration uses at least a recovery parameter transmitted in the encoded audio bitstream ; And

combining the first waveform-coded signal and the spread signal.

2. The method of claim 1, wherein the first crossover frequency depends on the bit rate of the audio processing system.

3. The method of claim 1, wherein said combining comprises (i) adding the second waveform-coded signal to the reconstructed signal and combining the resulting result with the first waveform-coded signal, or (ii) combining the second waveform-coded signal with the reconstructed signal, and combining the result with the first waveform-coded signal.

4. The method of claim 1, wherein either (i) combining or (ii) performing high frequency reconstruction is performed in the frequency domain.

5. The method of claim 1, wherein performing high frequency restoration comprises performing spectrum band replication (SBR).

6. The method of claim. 1, in which the implementation of the restoration of high frequencies is carried out before the said combination.

7. The method of claim 1, wherein the audio processing system is a hybrid decoder that performs waveform decoding and parametric decoding.

8. The method of claim 1, wherein the first waveform-coded signal and the second waveform-coded signal share a common bit reservoir using a psychoacoustic model.

9. The method of claim 1, wherein the first waveform-coded signal and the second waveform-coded signal are signals representing a waveform of an audio signal in the frequency domain.

10. An audio decoder for decoding an encoded audio bitstream, the audio decoder comprising:

a first demultiplexer for extracting from the encoded audio bitstream a first waveform encoded signal consisting of first spectral coefficients corresponding to frequencies up to a first crossover frequency for a first time period;

a second demultiplexer for extracting from the encoded audio bit stream a second waveform-coded signal consisting of second spectral coefficients corresponding to a subset of frequencies above said first crossover frequency for said first time period, wherein the second waveform-coded signal does not contain second spectral coefficients corresponding to frequencies up to the first crossover frequency, for the first time period;

a high frequency restorer for performing high frequency restoration to expand a subset of frequencies above the second crossover frequency to generate an extended signal for the first time period, wherein the second crossover frequency is higher than the first crossover frequency, wherein the high frequency restoration uses at least a restoration parameter transmitted in encoded audio bit stream; And

a combiner for combining the first waveform-coded signal and the spread signal.

11. Non-volatile computer-readable media containing instructions that, when executed by the processor, cause the processor to perform the method of claim 1.