RU2798009C2 - Stereo audio coder and decoder - Google Patents
Stereo audio coder and decoder Download PDFInfo
- Publication number
- RU2798009C2 RU2798009C2 RU2019116192A RU2019116192A RU2798009C2 RU 2798009 C2 RU2798009 C2 RU 2798009C2 RU 2019116192 A RU2019116192 A RU 2019116192A RU 2019116192 A RU2019116192 A RU 2019116192A RU 2798009 C2 RU2798009 C2 RU 2798009C2
- Authority
- RU
- Russia
- Prior art keywords
- waveform
- signal
- frequencies
- crossover frequency
- frequency
- Prior art date
Links
Images
Abstract
Description
Область техники, к которой относится изобретениеThe field of technology to which the invention belongs
[0001] Описываемое в настоящем документе изобретение, в основном, относится к стереофоническому кодированию аудиосигналов. В частности, оно относится к декодеру и кодеру для гибридного кодирования, включающего в себя понижающее микширование и дискретное стереофоническое кодирование.[0001] The invention described herein generally relates to stereo coding of audio signals. In particular, it relates to a decoder and an encoder for hybrid coding including downmixing and discrete stereo coding.
Уровень техники изобретенияState of the art invention
[0002] При традиционном стереофоническом кодировании аудиосигналов возможные схемы кодирования включают в себя методы параметрического стереофонического кодирования, которые используются в сферах применения с низкой скоростью передачи данных. При промежуточных скоростях часто используется левое/правое (L/R) или среднее/боковое (M/S) стереофоническое кодирование формы сигналов. Существующие форматы распределения и соответствующие методы кодирования могут быть улучшены с точки зрения их эффективности использования полосы частот, особенно в сферах применения со скоростью передачи данных между средней скоростью передачи данных и промежуточной скоростью передачи данных.[0002] In conventional stereo audio coding, possible coding schemes include parametric stereo coding techniques that are used in low data rate applications. At intermediate speeds, left/right (L/R) or middle/side (M/S) stereo waveform encoding is often used. Existing distribution formats and related coding techniques can be improved in terms of their bandwidth efficiency, especially in applications with data rates between medium data rates and intermediate data rates.
[0003] Попытка повысить эффективность распределения аудиосигналов в стереофонической звуковой системе предпринята в стандарте Унифицированного кодирования речи и звука (USAC). Стандарт USAC вводит стереофоническое кодирование на основе низкоскоростного кодирования формы сигналов в совокупности с методами параметрического стереофонического кодирования. Однако в решении, предлагаемом в USAC, используются параметрические стереофонические параметры для проведения стереофонического кодирования в области модифицированного дискретного косинусного преобразования (MDCT), чтобы несколько повысить эффективность по сравнению с простым M/S кодированием или L/R кодированием. Недостаток такого решения состоит в том, что может оказаться сложным наилучшим образом использовать стереофоническое кодирование на основе низкоскоростного кодирования формы сигналов в области MDCT на основе параметрических стереофонических параметров, извлекаемых и вычисляемых в области Квадратурных зеркальных фильтров (QMF).[0003] An attempt to improve the distribution efficiency of audio signals in a stereo sound system has been made in the Unified Voice and Audio Coding (USAC) standard. The USAC standard introduces stereo coding based on low bit rate waveform coding in conjunction with parametric stereo coding techniques. However, the USAC solution uses parametric stereo parameters to perform stereo coding in the modified discrete cosine transform (MDCT) domain in order to slightly increase efficiency compared to simple M/S coding or L/R coding. The disadvantage of this solution is that it can be difficult to make the best use of stereo coding based on low bit rate waveform coding in the MDCT domain based on parametric stereo parameters extracted and computed in the Quadrature Mirror Filters (QMF) domain.
[0004] С учетом вышесказанного, может потребоваться дальнейшее усовершенствование для устранения или, по меньшей мере, уменьшения одного или нескольких недостатков, рассмотренных выше.[0004] In view of the foregoing, further improvement may be required to eliminate or at least reduce one or more of the disadvantages discussed above.
Краткое описание чертежейBrief description of the drawings
[0005] Примеры осуществления описываются ниже со ссылкой на прилагаемые чертежи, на которых:[0005] Exemplary embodiments are described below with reference to the accompanying drawings, in which:
[0006] фиг.1 представляет собой обобщенную блок-схему системы декодирования в соответствии с одним из примеров осуществления;[0006] Figure 1 is a generalized block diagram of a decoding system in accordance with one embodiment;
[0007] фиг.2 иллюстрирует первую часть системы декодирования, изображенной на фиг.1;[0007] Fig. 2 illustrates the first part of the decoding system shown in Fig. 1;
[0008] фиг.3 иллюстрирует вторую часть системы декодирования, изображенной на фиг.1;[0008] Fig. 3 illustrates the second part of the decoding system shown in Fig. 1;
[0009] фиг.4 иллюстрирует третью часть системы декодирования, изображенной на фиг.1;[0009] Fig. 4 illustrates a third part of the decoding system shown in Fig. 1;
[0010] фиг.5 представляет собой обобщенную блок-схему системы декодирования в соответствии с первым примером осуществления;[0010] FIG. 5 is a generalized block diagram of a decoding system according to the first embodiment;
[0011] фиг.6 представляет собой обобщенную блок-схему системы декодирования в соответствии со вторым примером осуществления.[0011] FIG. 6 is a generalized block diagram of a decoding system according to a second embodiment.
[0012] Все чертежи являются схематическими и в целом иллюстрируют лишь детали, которые необходимы для объяснения изобретения, при этом другие детали могут упоминаться или только предполагаться. Если не указано иное, одинаковые ссылочные позиции на различных чертежах относятся к одинаковым деталям.[0012] All drawings are schematic and generally illustrate only the details that are necessary to explain the invention, while other details may be mentioned or only assumed. Unless otherwise indicated, like reference numerals throughout the various drawings refer to like parts.
Подробное описаниеDetailed description
I. Обзор - декодерI. Overview - decoder
[0013] Используемое в настоящем документе лево-правое кодирование или шифрование означает, что левый (L) и правый (R) стереосигналы кодируются без выполнения какого-либо преобразования между сигналами.[0013] As used herein, left-right encoding or encryption means that the left (L) and right (R) stereo signals are encoded without performing any conversion between the signals.
[0014] Используемое в настоящем документе суммарно-разностное кодирование или шифрование означает, что сумма М левого и правого стереосигналов кодируется как один сигнал (сумма), а разность S между левым и правым стереосигналами кодируется как один сигнал (разность). Суммарно-разностное кодирование может также называться средне-боковым кодированием. При этом соотношение между лево-правой формой и суммарно-разностной формой представляет собой M=L+R и S=L-R. Можно отметить, что возможны различные нормализации и масштабирование при преобразовании левого и правого стереосигналов в суммарно-разностную форму и наоборот при условии, что преобразование в обоих направлениях совпадает. В данном описании, главным образом, используется M=L+R и S=L-R, но система, использующая иное масштабирование, например, M=(L+R)/2 и S=(L-R)/2 действует с тем же успехом.[0014] As used herein, sum-difference coding or encryption means that the sum M of the left and right stereo signals is encoded as one signal (sum), and the difference S between the left and right stereo signals is encoded as one signal (difference). Sum-difference coding may also be referred to as mid-side coding. The ratio between the left-right form and the sum-difference form is M=L+R and S=L-R. It can be noted that various normalizations and scaling are possible when converting the left and right stereo signals to the sum-difference form and vice versa, provided that the transformation in both directions is the same. In this description, M=L+R and S=L-R are mainly used, but a system using other scaling, such as M=(L+R)/2 and S=(L-R)/2 works just as well.
[0015] Используемое в настоящем документе понижающе-дополняющее (dmx/comp) кодирование или шифрование означает подвергание левого и правого стереосигналов матричному умножению в зависимости от весового параметра перед кодированием. При этом dmx/comp кодирование может также называться dmx/comp/a кодированием. Соотношение между понижающе-дополняющей формой, лево-правой формой и суммарно-разностной формой обычно выражается как L+R=M и comp=(1-a)L-(1+a)R=-aM+S. Примечательно, что сигнал понижающего микширования в понижающе-дополняющем представлении при этом эквивалентен суммарному сигналу М суммарно-разностного представления.[0015] As used herein, down-complement (dmx/comp) encoding or encryption means subjecting the left and right stereo signals to matrix multiplication depending on the weight parameter before encoding. Here, dmx/comp encoding may also be referred to as dmx/comp/a encoding. The relationship between the down-complement form, the left-right form, and the sum-difference form is usually expressed as L+R=M and comp=(1-a)L-(1+a)R=-aM+S. It is noteworthy that the downmix signal in the down-complement representation is equivalent to the sum signal M of the sum-difference representation.
[0016] Используемый в настоящем документе аудиосигнал может представлять собой чистый аудиосигнал, аудиокомпоненту аудиовизуального сигнала, либо мультимедийный сигнал, либо любое из вышеназванного в совокупности с метаданными.[0016] As used herein, the audio signal may be a pure audio signal, an audio component of an audiovisual signal, or a multimedia signal, or any of the above together with metadata.
[0017] В соответствии с первым аспектом, в примерах осуществления предлагаются способы, устройства и компьютерные программные продукты для декодирования аудиосигнала стереофонического канала на основе входного сигнала. Предлагаемые способы, устройства и компьютерные программные продукты могут, как правило, иметь одинаковые признаки и преимущества.[0017] According to a first aspect, the exemplary embodiments provide methods, apparatus, and computer software products for decoding a stereo channel audio signal based on an input signal. The proposed methods, devices, and computer program products may generally have the same features and benefits.
[0018] В соответствии с примерами осуществления, предлагается декодер для декодирования двух аудиосигналов. Декодер включает в себя каскад приема, выполненный с возможностью приема первого сигнала и второго сигнала, соответствующих периоду времени упомянутых двух аудиосигналов, причем первый сигнал содержит первый кодируемый по форме сигнал, содержащий спектральные данные, соответствующие частотам до первой частоты разделения, и кодируемый по форме сигнал понижающего микширования, содержащий спектральные данные, соответствующие частотам выше первой частоты разделения, причем второй сигнал содержит второй кодируемый по форме сигнал, содержащий спектральные данные, соответствующие частотам до первой частоты разделения.[0018] According to the embodiments, a decoder is provided for decoding two audio signals. The decoder includes a receiving stage configured to receive a first signal and a second signal corresponding to a time period of said two audio signals, wherein the first signal comprises a first waveform-coded signal containing spectral data corresponding to frequencies up to the first crossover frequency, and the waveform-coded signal a downmix signal containing spectral data corresponding to frequencies above the first crossover frequency, wherein the second signal comprises a second waveform-coded signal containing spectral data corresponding to frequencies up to the first crossover frequency.
[0019] Декодер дополнительно содержит каскад микширования на выходе каскада приема. Каскад микширования выполнен с возможностью проверки, находятся ли первый и второй кодируемые по форме сигналы в суммарно-разностной форме для всех частот до первой частоты разделения, и если нет, преобразования первого и второго кодируемых по форме сигналов в суммарно-разностную форму таким образом, что первый сигнал является комбинацией кодируемого по форме суммарного сигнала, содержащего спектральные данные, соответствующие частотам до первой частоты разделения, и кодируемого по форме сигнала понижающего микширования, содержащего спектральные данные, соответствующие частотам выше первой частоты разделения, а второй сигнал содержит кодируемый по форме разностный сигнал, содержащий спектральные данные, соответствующие частотам до первой частоты разделения.[0019] The decoder further comprises a mixing stage at the output of the receive stage. The mixing stage is configured to check whether the first and second waveform-coded signals are in sum-differential form for all frequencies up to the first crossover frequency, and if not, convert the first and second waveform-coded signals to sum-differential form such that the first signal is a combination of a waveform-coded sum signal containing spectral data corresponding to frequencies up to the first crossover frequency and a waveform-coded downmix signal containing spectral data corresponding to frequencies above the first crossover frequency, and the second signal contains a waveform-coded difference signal, containing spectral data corresponding to frequencies up to the first crossover frequency.
[0020] Декодер дополнительно содержит каскад повышающего микширования на выходе каскада микширования, выполненный с возможностью повышающего микширования первого и второго сигналов для генерирования левого и правого каналов стереосигнала, причем для частот ниже первой частоты разделения каскад повышающего микширования выполнен с возможностью выполнения обратного суммарно-разностного преобразования первого и второго сигналов, а для частот выше первой частоты разделения каскад повышающего микширования выполнен с возможностью выполнения параметрического повышающего микширования сигнала понижающего микширования первого сигнала.[0020] The decoder further comprises an upmix stage at the output of the mixing stage, configured to upmix the first and second signals to generate left and right channels of a stereo signal, wherein for frequencies below the first crossover frequency, the upmix stage is configured to perform an inverse sum-difference transform the first and second signals, and for frequencies above the first crossover, the upmix stage is configured to perform parametric upmixing of the downmix signal of the first signal.
[0021] Преимущество наличия нижних частот, прошедших чистое кодирование формы сигналов, т.е., дискретного представления стерео-аудиосигнала, может состоять в том, что человеческое ухо более чувствительно к аудиокомпоненте, имеющей низкие частоты. Благодаря кодированию этой компоненты с более высоким качеством общее впечатление о декодированном аудиосигнале может улучшиться.[0021] The advantage of having pure waveform-encoded low frequencies, i.e., a discrete representation of a stereo audio signal, may be that the human ear is more sensitive to an audio component having low frequencies. By encoding this component with higher quality, the overall impression of the decoded audio signal can be improved.
[0022] Преимущество наличия прошедшей параметрическое стереофоническое кодирование компоненты первого сигнала, т.е., кодируемого по форме сигнала понижающего микширования, а также упомянутого дискретного представления стерео-аудиосигнала состоит в том, что это может повысить качество декодированного аудиосигнала для определенных скоростей передачи данных по сравнению с использованием традиционного параметрического подхода к стереосигналу. При скоростях передачи данных около 32-40 килобит в секунду (кбит/с) параметрическая модель стереофонии может входить в насыщение, т.е., качество декодированного аудиосигнала ограничено недостатками параметрической модели, а не недостаточностью битов для кодирования. Следовательно, для скоростей передачи битов приблизительно от 32 кбит/с может оказаться более целесообразным использовать биты на нижних частотах кодирования формы сигналов. В то же время, гибридный подход к использованию и прошедшей параметрическое стереофоническое кодирование компоненты первого сигнала, и дискретного представления распределенного стерео-аудиосигнала состоит в том, что это может повысить качество декодированного аудиосигнала для определенных скоростей передачи данных, например, ниже 48 кбит/с по сравнению с использованием подхода, при котором все биты используются для нижних частот кодирования формы сигнала, и использованием репликации полосы спектра (SBR) для остальных частот.[0022] The advantage of having the parametric stereo encoded component of the first signal, i.e., the downmix waveform encoded, as well as the aforementioned discrete representation of the stereo audio signal, is that it can improve the quality of the decoded audio signal for certain data rates over compared to using the traditional parametric stereo approach. At data rates around 32-40 kilobits per second (kbps), the parametric stereo model may saturate, ie, the quality of the decoded audio signal is limited by the flaws in the parametric model rather than by insufficient bits to encode. Therefore, for bit rates from about 32 kbps, it may be more appropriate to use bits at lower waveform coding frequencies. At the same time, a hybrid approach to using both the parametrically stereo-encoded first signal component and the discrete representation of the distributed stereo audio signal is that it can improve the quality of the decoded audio signal for certain data rates, for example, below 48 kbps over compared to using an all-bits approach for the lower waveform coding frequencies and using spectrum band replication (SBR) for the remaining frequencies.
[0023] Декодер при этом предпочтительно используется для декодирования двухканального стерео-аудиосигнала.[0023] The decoder is preferably used to decode the two-channel stereo audio signal.
[0024] В соответствии с еще одним вариантом осуществления, преобразование первого и второго кодируемых по форме сигналов в суммарно-разностную форму в каскаде микширования осуществляется в перекрывающейся оконной области преобразования. Перекрывающаяся оконная область преобразования может, например, представлять собой область модифицированного дискретного косинусного преобразования (MDCT). Это может оказаться целесообразным, поскольку преобразование других имеющихся форматов распределения аудиосигналов, таких как левая/правая форма или dmx/comp форма, в суммарно-разностную форму легко обеспечивается в области MDCT. Следовательно, сигналы могут кодироваться с использованием различных форматов, для, по меньшей мере, поднабора частот ниже первой частоты разделения в зависимости от характеристик кодируемого сигнала. Это может обеспечить повышенные качество кодирования и эффективность кодирования.[0024] In accordance with another embodiment, the conversion of the first and second waveform-coded signals to sum-difference form in the mixing stage is performed in an overlapping transform window region. The overlapping windowed transform region may, for example, be a modified discrete cosine transform (MDCT) region. This may be advantageous since the conversion of other available audio distribution formats, such as left/right form or dmx/comp form, to sum-difference form is readily provided in the MDCT domain. Therefore, the signals may be encoded using different formats, for at least a subset of frequencies below the first crossover frequency, depending on the characteristics of the encoded signal. This can provide improved coding quality and coding efficiency.
[0025] В соответствии с еще одним вариантом осуществления, повышающее микширование первого и второго сигналов в каскаде повышающего микширования выполняется в области Квадратурных зеркальных фильтров (QMF). Повышающее микширование выполняется для генерирования левого и правого стереосигналов.[0025] According to yet another embodiment, the upmixing of the first and second signals in the upmixing stage is performed in the domain of Quadrature Mirror Filters (QMF). Upmixing is performed to generate left and right stereo signals.
[0026] В соответствии с еще одним вариантом осуществления, кодируемый по форме сигнал понижающего микширования, содержит спектральные данные, соответствующие частотам между первой частотой разделения и второй частотой разделения. Параметры восстановления высоких частот (HFR) принимаются декодером, например, в каскаде приема, а затем отправляются в каскад восстановления высоких частот для расширения сигнала понижающего микширования первого сигнала до диапазона частот выше второй частоты разделения путем выполнения восстановления высоких частот с использованием параметров восстановления высоких частот. Восстановление высоких частот может, например, включать в себя выполнение репликации полосы спектра, SBR.[0026] According to yet another embodiment, the waveform-coded downmix signal contains spectral data corresponding to frequencies between the first crossover frequency and the second crossover frequency. The high frequency recovery parameters (HFR) are received by the decoder, for example, in the receive stage, and then sent to the high frequency restoration stage to expand the downmix signal of the first signal to a frequency range above the second crossover frequency by performing high frequency restoration using the high frequency restoration parameters. High frequency recovery may, for example, include performing spectrum band replication, SBR.
[0027] Преимущество наличия кодируемого по форме сигнала понижающего микширования, который содержит лишь спектральные данные, соответствующие частотам между первой частотой разделения и второй частотой разделения, состоит в том, что требуемая скорость передачи данных для стереофонической системы может быть понижена. В соответствии с другим вариантом, биты, сохраняемые благодаря наличию кодируемого по форме сигнала понижающего микширования, используются для нижних частот кодирования формы сигналов, например, квантование для этих частот может осуществляться более мелкими шагами, либо первая частота разделения может быть повышена.[0027] An advantage of having a waveform-coded downmix signal that contains only spectral data corresponding to frequencies between the first crossover frequency and the second crossover frequency is that the required data rate for a stereo system can be reduced. Alternatively, the bits retained by the presence of the waveform-coded downmix are used for the lower waveform-coding frequencies, for example, these frequencies can be quantized in finer steps, or the first crossover frequency can be increased.
[0028] Поскольку, как упоминалось выше, человеческое ухо более чувствительно к компоненте аудиосигнала, имеющей низкие частоты, высокие частоты, такие как компонента аудиосигнала, имеющий частоты выше второй частоты разделения, могут быть восстановлены путем восстановления высоких частот без снижения воспринимаемого качества звука декодированного аудиосигнала.[0028] Since, as mentioned above, the human ear is more sensitive to an audio signal component having low frequencies, high frequencies, such as an audio signal component having frequencies higher than the second crossover frequency, can be recovered by restoring the high frequencies without degrading the perceived sound quality of the decoded audio signal. .
[0029] В соответствии с еще одним вариантом осуществления, сигнал понижающего микширования первого сигнала расширяется до диапазона частот выше второй частоты разделения перед тем, как осуществляется повышающее микширование первого и второго сигналов. Это может оказаться целесообразным, поскольку каскад повышающего микширования будет иметь входной суммарный сигнал со спектральными данными, соответствующими всем частотам.[0029] According to yet another embodiment, the downmix signal of the first signal is spread to a frequency range above the second crossover frequency before the first and second signals are upmixed. This may be useful since the upmix stage will have an input sum signal with spectral data corresponding to all frequencies.
[0030] В соответствии с еще одним вариантом осуществления, сигнал понижающего микширования первого сигнала расширяется до диапазона частот выше второй частоты разделения после преобразования первого и второго кодируемых по форме сигналов в суммарно-разностную форму. Это может оказаться целесообразным, поскольку с учетом того, что сигнал понижающего микширования соответствует суммарному сигналу в суммарно-разностном представлении, каскад восстановления высоких частот будет иметь входной сигнал со спектральными данными, соответствующими частотам до второй частоты разделения, представленный в той же форме, т.е., в суммарной форме.[0030] In accordance with yet another embodiment, the downmix signal of the first signal is spread to a frequency range above the second crossover frequency after converting the first and second waveform-coded signals to a sum-difference form. This may be useful because, given that the downmix signal corresponds to the sum signal in the sum-difference representation, the high frequency recovery stage will have an input signal with spectral data corresponding to frequencies up to the second crossover represented in the same form, i.e. e., in summary form.
[0031] В соответствии с еще одним вариантом осуществления, повышающее микширование в каскаде повышающего микширования осуществляется с использованием параметров повышающего микширования. Параметры повышающего микширования принимаются декодером, например, в каскаде приема и отправляются в каскад повышающего микширования. Генерируется декоррелированная версия сигнала понижающего микширования, при этом сигнал понижающего микширования и декоррелированная версия сигнала понижающего микширования подвергаются матричной операции. Параметры матричной операции задаются параметрами повышающего микширования.[0031] According to yet another embodiment, upmixing in the upmixing stage is performed using upmixing parameters. The upmix parameters are received by the decoder, for example, in the receive stage and sent to the upmix stage. A decorrelated version of the downmix signal is generated, wherein the downmix signal and the decorrelated version of the downmix signal undergo a matrix operation. The matrix operation parameters are set by the upmix parameters.
[0032] В соответствии с еще одним вариантом осуществления, кодируемые по форме первый и второй сигналы, принимаемые в каскаде приема, кодируются по форме в лево-правой форме, суммарно-разностной форме и/или понижающе-дополняющей форме, причем дополняющий сигнал зависит от весового параметра a, адаптивного к сигналу. Кодируемые по форме сигналы могут при этом кодироваться по различным формам в зависимости от характеристик сигналов и, тем не менее, быть декодируемыми декодером. Это может обеспечить повышенное качество кодирования и, следовательно, повышенное качество декодированного стерео-аудиосигнала при наличии определенной скорости передачи данных системы. Еще в одном варианте осуществления весовой параметр a является вещественным. Это может упростить декодер, поскольку не требуется никакой дополнительный каскад, аппроксимирующий мнимую компоненту сигнала. Еще одно преимущество состоит в том, что вычислительная сложность декодера может понизиться, что может также привести к уменьшенной задержке/запаздыванию декодирования декодера.[0032] In accordance with yet another embodiment, the form-coded first and second signals received at the receive stage are form-encoded in left-right form, sum-differential form, and/or down-complement form, the complement signal depending on weight parameter a adaptive to the signal. The waveform-coded signals can in this case be coded in different waveforms depending on the characteristics of the signals and still be decodable by the decoder. This can provide improved coding quality and therefore improved quality of the decoded stereo audio signal at a certain system bit rate. In another embodiment, the weight parameter a is real. This can simplify the decoder since no additional stage is required to approximate the imaginary component of the signal. Yet another advantage is that the computational complexity of the decoder may be reduced, which may also result in reduced decoding latency/latency of the decoder.
[0033] В соответствии с еще одним вариантом осуществления, кодируемые по форме первый и второй сигналы, принимаемые в каскаде приема, кодируются по форме в суммарно-разностной форме. Это означает, что первый и второй сигналы могут кодироваться с использованием перекрывающихся оконных преобразований с организацией независимых окон для первого и второго сигналов соответственно и, тем не менее, быть декодируемыми декодером. Это может обеспечить повышенное качество кодирования и, следовательно, повышенное качество декодированного стерео-аудиосигнала при наличии определенной скорости передачи данных системы. Например, если переходный процесс обнаруживается в суммарном сигнале и не обнаруживается в разностном сигнале, кодер формы сигнала может кодировать суммарный сигнал с более короткими окнами, а для разностного сигнала могут быть сохранены более длительные задаваемые по умолчанию окна. Это может обеспечивать более высокую эффективность кодирования по сравнению с тем случаем, когда боковой сигнал также кодировался бы с использованием последовательности более короткого окна.[0033] In accordance with yet another embodiment, the form-coded first and second signals received in the receive stage are form-coded in sum-difference form. This means that the first and second signals can be encoded using overlapped windowing with independent windows for the first and second signals, respectively, and still be decodable by the decoder. This can provide improved coding quality and therefore improved quality of the decoded stereo audio signal at a certain system bit rate. For example, if a transient is detected in the sum signal and not detected in the difference signal, the waveform encoder may encode the sum signal with shorter windows, and longer default windows may be stored for the difference signal. This may provide higher coding efficiency than if the side signal were also encoded using a shorter window sequence.
II. Обзор - кодерII. Overview - encoder
[0034] В соответствии со вторым аспектом, в примерах осуществления предлагаются способы, устройства и компьютерные программные продукты для кодирования аудиосигнала стереофонического канала на основе входного сигнала.[0034] According to a second aspect, the exemplary embodiments provide methods, apparatus, and computer software products for encoding a stereo channel audio signal based on an input signal.
[0035] Предлагаемые способы, устройства и компьютерные программные продукты могут, как правило, иметь одинаковые признаки и преимущества.[0035] The proposed methods, devices, and computer program products may generally have the same features and benefits.
[0036] Преимущества, касающиеся признаков и устройств и представленные в приведенном выше обзоре декодера, в целом могут иметь силу для соответствующих признаков и устройств кодера.[0036] The feature and device benefits presented in the decoder overview above may generally apply to the corresponding encoder features and devices.
[0037] В соответствии с примерами осуществления, предлагается кодер для кодирования двух аудиосигналов. Кодер содержит каскад приема, выполненный с возможностью приема первого сигнала и второго сигнала, соответствующих периоду времени упомянутых двух сигналов, подлежащих кодированию.[0037] According to the embodiments, an encoder is provided for encoding two audio signals. The encoder comprises a reception stage configured to receive a first signal and a second signal corresponding to a time period of the two signals to be encoded.
[0038] Кодер дополнительно содержит каскад преобразования, выполненный с возможностью приема первого и второго сигналов с каскада приема и преобразования их в первый преобразованный сигнал, являющийся суммарным сигналом, и второй преобразованный сигнал, являющийся разностным сигналом.[0038] The encoder further comprises a transform stage configured to receive the first and second signals from the receive stage and convert them into a first transformed signal being a sum signal and a second transformed signal being a difference signal.
[0039] Кодер дополнительно содержит каскад кодирования формы сигналов, выполненный с возможностью приема первого и второго преобразованных сигналов с каскада преобразования и осуществления с ними кодирования формы сигналов с получением первого и второго кодируемых по форме сигналов соответственно, причем для частот выше первой частоты разделения каскад кодирования формы сигналов выполнен с возможностью осуществления кодирования по форме первого преобразованного сигнала, а для частот до первой частоты разделения каскад кодирования формы сигналов выполнен с возможностью осуществления кодирования по форме первого и второго преобразованных сигналов.[0039] The encoder further comprises a waveform encoding stage configured to receive the first and second converted signals from the transformation stage and perform waveform encoding thereon to obtain the first and second waveform-coded signals, respectively, wherein for frequencies above the first crossover frequency, the encoding stage waveform encoding is configured to perform waveform encoding of the first converted signal, and for frequencies up to the first crossover frequency, the waveform encoding stage is configured to perform waveform encoding of the first and second converted signals.
[0040] Кодер дополнительно содержит каскад параметрического стерео кодирования, выполненный с возможностью приема первого и второго сигналов с каскада приема и подвергания первого и второго сигналов параметрическому стерео кодированию с целью извлечения параметрических стерео параметров, обеспечивающих восстановление спектральных данных первого и второго сигналов для частот выше первой частоты разделения.[0040] The encoder further comprises a parametric stereo coding stage, configured to receive the first and second signals from the reception stage and subject the first and second signals to parametric stereo coding in order to extract parametric stereo parameters that restore the spectral data of the first and second signals for frequencies above the first separation frequency.
[0041] Кодер дополнительно содержит каскад генерирования битового потока, выполненный с возможностью приема первого и второго кодируемых по форме сигналов с каскада кодирования формы сигналов и параметрических стерео параметров с каскада параметрического стерео кодирования, а также генерирования битового потока, содержащего первый и второй кодируемые по форме сигналы и параметрические стерео параметры.[0041] The encoder further comprises a bitstream generating stage configured to receive first and second waveform-coded signals from the waveform-coding stage and parametric stereo parameters from the parametric stereo-coding stage, as well as generating a bitstream containing the first and second shape-coded signals and parametric stereo parameters.
[0042] В соответствии с еще одним вариантом осуществления, преобразование первого и второго сигналов в каскаде преобразования выполняется во временной области.[0042] According to another embodiment, the conversion of the first and second signals in the conversion stage is performed in the time domain.
[0043] В соответствии с еще одним вариантом осуществления, для, по меньшей мере, поднабора частот ниже первой частоты разделения кодер может преобразовывать первый и второй кодируемые по форме сигналы в лево-правую форму путем выполнения обратного суммарно-разностного преобразования.[0043] In accordance with yet another embodiment, for at least a subset of frequencies below the first crossover frequency, the encoder may convert the first and second waveform-coded signals to left-to-right form by performing an inverse sum-difference transform.
[0044] В соответствии с еще одним вариантом осуществления, для, по меньшей мере, поднабора частот ниже первой частоты разделения кодер может преобразовывать первый и второй кодируемые по форме сигналы в понижающе-дополняющую форму путем выполнения матричной операции над первым и вторым сигналами, прошедшими кодирование формы сигналов, причем матричная операция зависит от весового параметра а. Весовой параметр а может после этого быть включен в битовый поток в каскаде генерирования битового потока.[0044] In accordance with yet another embodiment, for at least a subset of frequencies below the first crossover frequency, the encoder may convert the first and second waveform-coded signals to down-complement by performing a matrix operation on the first and second waveform-encoded signals waveforms, and the matrix operation depends on the weight parameter a . The weight parameter a may then be included in the bitstream in the bitstream generation stage.
[0045] В соответствии с еще одним вариантом осуществления, для частот выше первой частоты разделения кодирование формы сигналов первого и второго преобразованных сигналов в каскаде преобразования включает в себя кодирование формы сигналов первого преобразованного сигнала для частот между первой частотой разделения и второй частотой разделения и установку первого сигнала, прошедшего кодирование формы сигналов, в нуль выше второй частоты разделения. Сигнал понижающего микширования первого сигнала и второго сигнала может после этого подвергаться кодированию с восстановлением высоких частот в каскаде восстановления высоких частот с целью генерирования параметров восстановления высоких частот, обеспечивающих восстановление высоких частот сигнала понижающего микширования. Параметры восстановления высоких частот могут после этого быть включены в битовый поток в каскаде генерирования битового потока.[0045] According to yet another embodiment, for frequencies above the first crossover frequency, encoding the waveforms of the first and second converted signals in the transform stage includes encoding the waveforms of the first converted signal for frequencies between the first crossover frequency and the second crossover frequency, and setting the first of the waveform-encoded signal to zero above the second crossover frequency. The downmix signal of the first signal and the second signal may then be high frequency restoration encoded in the high frequency restoration stage to generate high frequency restoration parameters enabling high frequency restoration of the downmix signal. The high frequency recovery parameters may then be included in the bitstream in the bitstream generation stage.
[0046] В соответствии с еще одним вариантом осуществления, сигнал понижающего микширования вычисляется на основе первого и второго сигналов.[0046] According to yet another embodiment, the downmix signal is calculated based on the first and second signals.
[0047] В соответствии с еще одним вариантом осуществления, подвергание первого и второго сигналов параметрическому стерео кодированию в каскаде параметрического стерео кодирования осуществляется путем сначала преобразования первого и второго сигналов в первый преобразованный сигнал, являющийся суммарным сигналом, и второй преобразованный сигнал, являющийся разностным сигналом, а затем подвергания первого и второго преобразованных сигналов параметрическому стерео кодированию, причем сигнал понижающего микширования, подлежащий кодированию с восстановлением высоких частот, является первым преобразованным сигналом.[0047] According to yet another embodiment, subjecting the first and second signals to parametric stereo coding in a parametric stereo coding stage is performed by first converting the first and second signals into a first transformed signal being a sum signal and a second transformed signal being a difference signal, and then subjecting the first and second converted signals to parametric stereo coding, wherein the downmix signal to be encoded with high frequency restoration is the first converted signal.
III. Примеры осуществленияIII. Implementation examples
[0048] Фиг.1 представляет собой обобщенную блок-схему системы 100 декодирования, содержащей концептуальные части 200, 300 и 400, которые подробно будут объясняться в соответствии с приводимыми ниже фиг.2-4. В первой концептуальной части 200 битовый поток принимается и декодируется в первый и второй сигналы. Первый сигнал содержит как первый кодируемый по форме сигнал, содержащий спектральные данные, соответствующие частотам до первой частоты разделения, так и кодируемый по форме сигнал понижающего микширования, содержащий спектральные данные, соответствующие частотам выше первой частоты разделения. Второй сигнал включает в себя лишь второй кодируемый по форме сигнал, содержащий спектральные данные, соответствующие частотам до первой частоты разделения.[0048] FIG. 1 is a generalized block diagram of a
[0049] Во второй концептуальной части 300 в том случае, если прошедшие кодирование формы сигналов компоненты первого и второго сигналов находятся не в суммарно-разностной форме, например, в M/S форме, прошедшие кодирование формы сигналов компоненты первого и второго сигналов преобразуются в суммарно-разностную форму. После этого первый и второй сигналы преобразуются во временную область, а затем в область Квадратурных зеркальных фильтров, QMF. В третьей концептуальной части 400 первый сигнал восстановлен по высоким частотам (HFR). И первый, и второй сигналы затем подвергаются повышающему микшированию с получением левого и правого стереофонических выходных сигналов, которые имеют спектральные коэффициенты, соответствующие полному диапазону частот кодированного сигнала, декодируемого системой 100 декодирования.[0049] In the second
[0050] Фиг.2 иллюстрирует первую концептуальную часть 200 системы 100 декодирования, изображенной на фиг.1. Система 100 декодирования содержит каскад 212 приема. В каскаде 212 приема кадр 202 битового потока декодируется и деквантуется в первый сигнал 204а и второй сигнал 204b. Кадр 202 битового потока соответствует периоду времени двух декодируемых аудиосигналов. Первый сигнал 204а включает в себя первый сигнал 208, прошедший кодирование формы сигналов и содержащий спектральные данные, соответствующие частотам до первой частоты разделения kγ, и сигнал 206 понижающего микширования, прошедший кодирование формы сигналов и содержащий спектральные данные, соответствующие частотам выше первой частоты разделения kγ. Например, первая частота разделения kγ составляет 1,1 кГц.[0050] FIG. 2 illustrates a first
[0051] В соответствии с некоторыми вариантами осуществления, сигнал 206 понижающего микширования, прошедший кодирование формы сигналов, содержит спектральные данные, соответствующие частотам между первой частотой разделения kγ и второй частотой разделения kχ. Например, вторая частота разделения kχ лежит в диапазоне 5,6-8 кГц.[0051] According to some embodiments, the waveform-encoded
[0052] Принимаемые первый и второй сигналы 208, 210, прошедшие кодирование формы сигналов, могут быть с кодированием формы сигналов в лево-правой форме, суммарно-разностной форме и/или понижающе-дополняющей форме, причем дополняющий сигнал зависит от весового параметра a, адаптивного к сигналу. Сигнал 206 понижающего микширования, прошедший кодирование формы сигналов, соответствует понижающему микшированию, подходящему для параметрического стерео, которое - в соответствии с приведенным выше описанием - соответствует суммарной форме. Однако сигнал 204b не имеет контента выше первой частоты разделения kγ. Каждый из сигналов 206, 208, 210 представлен в области модифицированного дискретного косинусного преобразования (MDCT).[0052] The received first and second waveform-encoded
[0053] Фиг.3 иллюстрирует вторую концептуальную часть 300 системы 100 декодирования, изображенной на фиг.1. Система 100 декодирования содержит каскад 302 микширования. Конструкция системы 100 декодирования требует, чтобы входной сигнал каскада восстановления высоких частот, который подробнее описывается ниже, находился в суммарной форме. Следовательно, каскад микширования выполнен с возможностью проверки, находятся ли первый и второй сигналы 208, 210, прошедшие кодирование формы сигналов, в суммарно-разностной форме. Если первый и второй сигналы 208, 210, прошедшие кодирование формы сигналов, не находятся в суммарно-разностной форме для всех частот до первой частоты разделения kγ, каскад 302 микширования полностью преобразует сигналы 208, 210, прошедшие кодирование формы сигналов, в суммарно-разностную форму. В случае если, по меньшей мере, поднабор частот входных сигналов 208, 210 каскада 302 микширования находится в понижающе-дополняющей форме, в качестве входного сигнала каскада 302 микширования требуется весовой параметр a. Можно отметить, что входные сигналы 208, 210 могут содержать несколько поднаборов частот, кодированных в понижающе-дополняющей форме, и что в этом случае каждый поднабор не обязательно должен кодироваться с использованием одного и того же значения весового параметра a. В этом случае в качестве входного сигнала каскада 302 микширования требуются несколько весовых параметров a.[0053] Figure 3 illustrates a second
[0054] Как указано выше, каскад 302 микширования всегда выдает суммарно-разностное представление входных сигналов 204a-b. Для того, чтобы иметь возможность преобразовывать сигналы, представленные в области MDCT, в суммарно-разностное представление, организация окон сигналов с MDCT кодированием должна быть такой же. Это предполагает, что в случае, если первый и второй сигналы 208, 210, прошедшие кодирование формы сигналов, находятся в L/R или понижающе-дополняющей форме, организация окон для сигнала 204а и организация окон для сигнала 204b не могут быть независимыми.[0054] As noted above, the mixing
[0055] Следовательно, в случае, если первый и второй сигналы 208, 210, прошедшие кодирование формы сигналов, находятся в суммарно-разностной форме, организация окон для сигнала 204а и организация окон для сигнала 204b не могут быть независимыми.[0055] Therefore, in case the first and second waveform-encoded
[0056] После каскада 302 микширования суммарно-разностный сигнал преобразуется во временную область путем применения обратного модифицированного дискретного косинусного преобразования (MDCT-1) 312.[0056] After the
[0057] Затем два сигнала 304a-b анализируются двумя блоками 314 QMF. Поскольку сигнал 306 понижающего микширования не содержит нижних частот, нет необходимости анализировать сигнал с помощью блока фильтров Найквиста для повышения разрешающей способности по частоте. Это можно сравнить с системами, в которых сигнал понижающего микширования содержит нижние частоты, например, традиционное параметрическое стерео декодирование, такое как параметрическое стерео MPEG-4. В этих системах сигнал понижающего микширования должен анализироваться с помощью блока фильтров Найквиста с целью повышения разрешающей способности по частоте сверх того, что достигается с помощью блока QMF, и посредством этого лучшего согласования с частотной избирательностью слуховой системы человека, например, представленной частотной шкалой барков.[0057] The two signals 304a-b are then analyzed by two QMF blocks 314. Because the
[0058] Выходной сигнал 304 с блоков 314 QMF включает в себя первый сигнал 304а, который является комбинацией суммарного сигнала 308, прошедшего кодирование формы сигналов и содержащего спектральные данные, соответствующие частотам до первой частоты разделения kγ, и сигнал 306 понижающего микширования, прошедший кодирование формы сигналов и содержащий спектральные данные, соответствующие частотам между первой частотой разделения kγ и второй частотой разделения kχ. Выходной сигнал 304 дополнительно включает в себя второй сигнал 304b, который содержит разностный сигнал 310, прошедший кодирование формы сигналов и содержащий спектральные данные, соответствующие частотам до первой частоты разделения kγ. Сигнал 304b не имеет контента выше первой частоты разделения kγ.[0058] The
[0059] Как будет описываться ниже, каскад 416 восстановления высоких частот (изображенный на фиг.4) использует нижние частоты, т.е., первый сигнал 308, прошедший кодирование формы сигналов, и сигнал 306 понижающего микширования, прошедший кодирование формы сигналов, из выходного сигнала 304 для восстановления частот выше второй частоты разделения kχ. Целесообразно, чтобы сигнал, на котором работает каскад 416 восстановления высоких частот, являлся сигналом аналогичного типа на всех нижних частотах. С этой точки зрения целесообразно, чтобы каскад 302 микширования всегда выдавал суммарно-разностное представление первого и второго сигналов 208, 210, прошедших кодирование формы сигналов, поскольку это означает, что первый сигнал 308, прошедший кодирование формы сигналов, и сигнал 306 понижающего микширования, прошедший кодирование формы сигналов, из выдаваемого первого сигнала 304а - одинакового характера.[0059] As will be described below, the high frequency recovery stage 416 (shown in FIG. 4) uses the lower frequencies, i.e., the first waveform-encoded
[0060] Фиг.4 иллюстрирует третью концептуальную часть 400 системы 100 декодирования, изображенной на фиг.1. Каскад 416 восстановления высоких частот (HFR) расширяет сигнал 306 понижающего микширования входного сигнала 304а первого сигнала до диапазона частот выше второй частоты разделения kχ путем выполнения восстановления высоких частот. В зависимости от конфигурации каскада 416 HFR, входным сигналом для каскада 416 HFR является весь сигнал 304а или только сигнал 306 понижающего микширования. Восстановление высоких частот осуществляется путем использования параметров восстановления высоких частот, которые могут приниматься каскадом 416 восстановления высоких частот любым применимым способом. В соответствии с одним из вариантов осуществления, выполняемое восстановление высоких частот содержит выполнение репликации полосы спектра, SBR.[0060] FIG. 4 illustrates a third
[0061] Выходным сигналом каскада 314 восстановления высоких частот является сигнал 404, содержащий сигнал 406 понижающего микширования с примененным расширением SBR. Восстановленный по высоким частотам сигнал 404 и сигнал 304b после этого подаются на каскад 420 повышающего микширования для генерирования левого L и правого R стерео сигналов 412a-b. Для спектральных коэффициентов, соответствующих частотам ниже первой частоты разделения kγ, повышающее микширование содержит выполнение обратного суммарно-разностного преобразования первого и второго сигналов 408, 310. Это попросту означает переход от средне-бокового представления к лево-правому представлению, как указано выше. Для спектральных коэффициентов, соответствующих частотам выше первой частоты разделения kγ, сигнал 406 понижающего микширования и расширение 412 SBR подаются через декоррелятор 418. Сигнал 406 понижающего микширования и расширение 412 SBR, а также декоррелированная версия сигнала 406 понижающего микширования и расширения 412 SBR после этого подвергаются повышающему микшированию с использованием параметров параметрического микширования для восстановления левого и правого каналов 416, 414 для частот выше первой частоты разделения kγ. Может применяться любая известная процедура параметрического повышающего микширования.[0061] The output signal of the high
[0062] Необходимо отметить, что в вышеописанном примере 100 осуществления кодера, изображенном на фиг.1-4, необходимо восстановление высоких частот, поскольку первый принимаемый сигнал 204а содержит лишь спектральные данные, соответствующие частотам до второй частоты разделения kχ. В других вариантах осуществления первый принимаемый сигнал содержит спектральные данные, соответствующие всем частотам кодированного сигнала. В соответствии с этим вариантом осуществления, восстановление высоких частот не требуется. Специалисту понятно, как адаптировать пример 100 кодера в этом случае.[0062] It should be noted that in the above-described
[0063] На фиг.5 в качестве примера изображена обобщенная блок-схема системы 500 декодирования в соответствии с одним из вариантов осуществления.[0063] FIG. 5 shows, by way of example, a generalized block diagram of a
[0064] В этой системе кодирования первый и второй сигналы 540, 542, подлежащие кодированию, принимаются каскадом приема (не показан). Эти сигналы 540, 542 соответствуют периоду времени левого 540 и правого 542 стереофонических звуковых каналов. Сигналы 540, 542 представлены во временной области. Система кодирования содержит каскад 510 преобразования. Сигналы 540, 542 преобразуются в суммарно-разностный формат 544, 546 в каскаде 510 преобразования.[0064] In this coding system, the first and
[0065] Система кодирования дополнительно содержит каскад 514 кодирования формы сигналов, выполненный с возможностью приема первого и второго преобразованных сигналов 544, 546 с каскада 510 преобразования. Каскад кодирования формы сигналов, как правило, работает в области MDCT. В связи с этим, преобразованные сигналы 544, 546 подвергаются преобразованию 512 MDCT перед каскадом 514 кодирования формы сигналов. В каскаде кодирования формы сигналов первый и второй преобразованные сигналы 544, 546 кодируются по форме с получением первого и второго сигналов 518, 520, прошедших кодирование формы сигналов, соответственно.[0065] The coding system further comprises a
[0066] Для частот выше первой частоты разделения kγ каскад 514 кодирования формы сигналов выполнен с возможностью кодирования по форме первого преобразованного сигнала 544 с получением сигнала 552 с кодированием формы сигналов первого сигнала 518, прошедшего кодирование формы сигналов. Каскад 514 кодирования формы сигналов может быть выполнен с возможностью установки второго сигнала 520, прошедшего кодирование формы сигналов, в нуль выше первой частоты разделения kγ, либо не кодирования этих частот вообще. Для частот выше первой частоты разделения kγ каскад 514 кодирования формы сигналов выполнен с возможностью кодирования по форме первого преобразованного сигнала 544 с получением сигнала 552 с кодированием формы сигналов первого сигнала 518, прошедшего кодирование формы сигналов.[0066] For frequencies above the first crossover frequency k γ , the
[0067] Для частот ниже первой частоты разделения kγ в каскаде 514 кодирования формы сигналов принимается решение о том, какого рода стерео кодирование использовать для двух сигналов 548, 550. В зависимости от характеристик преобразованных сигналов 544, 546 ниже первой частоты разделения kγ могут приниматься различные решения для различных поднаборов сигналов 548, 550, прошедших кодирование формы сигналов. Кодирование может представлять собой либо Левое/Правое кодирование, Среднее/Боковое кодирование, т.е., кодирование суммы и разности, либо dmx/comp/a кодирование. В случае если сигналы 548, 550 подвергались кодированию формы сигналов в каскаде 514 кодирования формы сигналов, сигналы 518, 520, прошедшие кодирование формы сигналов, могут кодироваться с использованием перекрывающихся оконных преобразований с независимой организацией окон для сигналов 518, 520 соответственно.[0067] For frequencies below the first crossover frequency k γ , the
[0068] Одним из примеров первой частоты разделения kγ является 1,1 кГц, но эта частота может изменяться в зависимости от скорости передачи данных стереофонической звуковой системы или в зависимости от характеристик кодируемого аудиосигнала.[0068] One example of the first crossover frequency k γ is 1.1 kHz, but this frequency may vary depending on the data rate of the stereo sound system or depending on the characteristics of the encoded audio signal.
[0069] По меньшей мере, два сигнала 518, 520 при этом выдаются с каскада 514 кодирования формы сигналов. В случае, если один или несколько поднаборов, либо весь диапазон частот сигналов ниже первой частоты разделения kγ кодируется в понижающе-дополняющей форме путем выполнения матричной операции в зависимости от весового параметра а, этот коэффициент также выдается в качестве сигнала 522. В случае нескольких поднаборов, кодируемых в понижающей/дополняющей форме, каждый поднабор не обязательно должен кодироваться с использованием одного и того же значения весового параметра а. В этом случае в качестве сигнала 522 выдаются несколько весовых параметров.[0069] At least two
[0070] Указанные два или три сигнала 518, 520, 522 кодируются и квантуются 524 с получением единого составного сигнала 558.[0070] These two or three
[0071] Для того чтобы иметь возможность восстанавливать спектральные данные первого и второго сигналов 540, 542 для частот выше первой частоты разделения на стороне декодера, из сигналов 540, 542 должны извлекаться параметрические стерео параметры 536. С этой целью кодер 500 содержит каскад 530 параметрического стерео (PS) кодирования. Каскад 530 PS кодирования, как правило, работает в области QMF. Следовательно, перед вводом в каскад 530 PS кодирования первый и второй сигналы 540, 542 преобразуются в область QMF с помощью каскада 526 анализа QMF. Каскад 530 PS кодирования предназначен лишь для извлечения параметрических стерео параметров 536 для частот выше первой частоты разделения kγ.[0071] In order to be able to reconstruct the spectral data of the first and
[0072] Можно отметить, что параметрические стерео параметры 536 отражают характеристики сигнала, прошедшего параметрическое стерео кодирование. При этом они являются частотно избирательными, т.е., каждый параметр из параметров 536 может соответствовать поднабору частот левого или правого входных сигналов 540, 542. Каскад 530 PS кодирования вычисляет параметрические стерео параметры 536 и квантует их либо с равномерным шагом, либо с неравномерным шагом. Эти параметры, как упоминалось выше, являются частотно избирательными, причем весь диапазон частот входных сигналов 540, 542 делится, например, на 15 диапазонов параметров. Они могут быть разнесены в соответствии с моделью частотного разрешения слуховой системы человека, например, шкалой барков.[0072] It can be noted that the
[0073] В примере осуществления кодера 500, изображенном на фиг.5, каскад 514 кодирования формы сигналов выполнен с возможностью кодирования по форме первого преобразованного сигнала 544 для частот между первой частотой разделения kγ и второй частотой разделения kχ и установки первого сигнала 518, прошедшего кодирование формы сигналов, на ноль выше второй частоты разделения kχ. Это может осуществляться для дополнительного снижения требуемой скорости передачи данных звуковой системы, в состав которой входит кодер 500. Для того, чтобы иметь возможность восстанавливать сигнал выше второй частоты разделения kχ, должны генерироваться параметры 538 восстановления высоких частот. В соответствии с этим примером осуществления, это выполняется путем понижающего микширования двух сигналов 540, 542, представленных в области QMF, в каскаде 534 понижающего микширования. Результирующий сигнал понижающего микширования, который, например, равен сумме двух сигналов 540, 542, подвергается после этого кодированию с восстановлением высоких частот в каскаде 532 кодирования с восстановлением высоких частот - HFR - с целью генерирования параметров 538 восстановления высоких частот. Параметры 538 могут, например, включать в себя огибающую спектра частот выше второй частоты разделения kχ, информацию о накоплении помех и т.д., также известные специалистам.[0073] In the
[0074] Одним из примеров второй частоты разделения kχ является 5,6-8 кГц, но эта частота может изменяться в зависимости от скорости передачи данных стереофонической звуковой системы или в зависимости от характеристик кодируемого аудиосигнала.[0074] One example of the second crossover frequency k χ is 5.6-8 kHz, but this frequency may vary depending on the data rate of the stereo sound system or depending on the characteristics of the encoded audio signal.
[0075] Кодер 500 дополнительно содержит каскад генерирования битовых потоков, т.е., мультиплексор 524 битовых потоков. В соответствии с примером осуществления кодера 500, каскад генерирования битовых потоков выполнен с возможностью приема кодированного и квантованного сигнала 544 и двух сигналов 536, 538 параметров. Они преобразуются в битовый поток 560 каскадом 562 генерирования битовых потоков для последующего распределения в стереофонической звуковой системе.[0075] The
[0076] В соответствии с еще одним вариантом осуществления, каскад 514 кодирования формы сигналов выполнен с возможностью кодирования по форме первого преобразованного сигнала 544 для всех частот выше первой частоты разделения kγ. В этом случае каскад 532 кодирования с HFR не требуется, и, следовательно, параметры 538 восстановления высоких частот не включаются в битовый поток.[0076] In accordance with yet another embodiment, the
[0077] На фиг.6 в качестве примера изображена обобщенная блок-схема системы 600 кодирования в соответствии с еще одним вариантом осуществления. Данный вариант осуществления отличается от варианта осуществления, изображенного на фиг.5, тем, что сигналы 544, 546, которые преобразуются каскадом 526 анализа QMF, находятся в суммарно-разностном формате. Следовательно, отдельный каскад 534 понижающего микширования не требуется, поскольку суммарный сигнал 544 уже находится в форме сигнала понижающего микширования. При этом для работы по суммарному сигналу 544 для извлечения параметров 538 восстановления высоких частот требуется лишь каскад 532 SBR кодирования. Каскад 530 PS кодирования предназначен для работы как по суммарному сигналу 544, так и по разностному сигналу 546 для извлечения параметрических стерео параметров 536.[0077] FIG. 6 shows, by way of example, a generalized block diagram of an
Эквиваленты, расширения, альтернативы и прочееEquivalents, extensions, alternatives and more
[0078] После изучения приведенного выше описания специалисту станут очевидными другие варианты осуществления настоящего изобретения. Несмотря на то, что настоящее описание и чертежи раскрывают варианты осуществления и примеры, изобретение не ограничивается этими конкретными примерами. Возможно различные другие варианты в пределах объема настоящего изобретения, который определяется в прилагаемой формуле изобретения. Любые ссылочные позиции в формуле изобретения не должны трактоваться как ограничивающие ее объем.[0078] Upon examination of the above description, other embodiments of the present invention will become apparent to those skilled in the art. Although the present description and drawings disclose embodiments and examples, the invention is not limited to these specific examples. Various other variations are possible within the scope of the present invention, which is defined in the appended claims. Any reference positions in the claims should not be construed as limiting its scope.
[0079] Кроме того, по результатам изучения чертежей, описания и прилагаемой формулы изобретения специалистом могут быть поняты и реализованы изменения в описываемых вариантах осуществления. В формуле изобретения слово «содержащий» не исключает другие элементы или этапы, а неопределенный артикль не исключает множества. Сам по себе тот факт, что некоторые критерии излагаются в различных зависимых пунктах формулы изобретения, не означает, что совокупность этих критериев не может использоваться с пользой.[0079] In addition, based on the results of the study of the drawings, the description and the accompanying claims, changes in the described embodiments can be understood and implemented by a person skilled in the art. In the claims, the word "comprising" does not exclude other elements or steps, and the indefinite article does not exclude a plurality. By itself, the fact that some criteria are set forth in various dependent claims does not mean that the totality of these criteria cannot be used to advantage.
[0080] Описанные выше системы и способы могут быть реализованы в виде программных средств, микропрограммных средств, аппаратных средств или их комбинации. При аппаратной реализации разделение задач между функциональными блоками, упоминаемыми в приведенном выше описании, не обязательно должно соответствовать разделению на физические блоки; напротив, один физический компонент может иметь множество функциональных назначений, при этом одна задача может выполняться несколькими физическими компонентами совместно. Некоторые компоненты или все компоненты могут быть реализованы в виде программных средств, исполняемых цифровым сигнальным процессором или микропроцессором, либо реализованы в виде аппаратных средств, либо в виде специализированной интегральной схемы. Такие программные средства могут быть распределены по считываемым компьютером носителям, которые могут включать в себя запоминающие среды компьютеров (или энергонезависимые среды) и среды передачи данных (или энергозависимые среды). Как известно специалистам, термин «запоминающие среды компьютеров» включает в себя и энергозависимые, и энергонезависимые, и съемные, и несъемные среды, реализуемые с помощью любого способа или технологии для хранения информации, такие как считываемые компьютером инструкции, структуры данных, программные модули и прочие данные. Запоминающие среды компьютеров включают в себя, помимо прочего, оперативное запоминающее устройство (ОЗУ), постоянное запоминающее устройство (ПЗУ), электрически стираемое программируемое постоянное запоминающее устройство (ЭСППЗУ), флэш-память или иную технологию памяти, постоянное запоминающее устройство на компакт-дисках (CD-ROM), универсальный цифровой диск (DVD) или иной накопитель на оптических дисках, магнитные кассеты, накопитель на магнитных дисках или иные магнитные запоминающие устройства, либо иную среду, которая может использоваться для хранения необходимой информации и доступ к которой может осуществляться компьютером. Кроме того, специалистам известно, что среды передачи данных, как правило, включают в себя считываемые компьютером инструкции, структуры данных, программные модули или иные данные в модулированном информационном сигнале, таком как несущая волна или иной механизм переноса, и включают в себя любые среды доставки информации.[0080] The systems and methods described above may be implemented in software, firmware, hardware, or combinations thereof. When implemented in hardware, the division of tasks between the functional blocks referred to in the above description need not correspond to the division into physical blocks; on the contrary, one physical component may have multiple functionalities, and one task may be performed by several physical components together. Some or all of the components may be implemented in software executable by a digital signal processor or microprocessor, or implemented in hardware or as an ASIC. Such software may be distributed over computer-readable media, which may include computer storage media (or non-volatile media) and communication media (or non-volatile media). As is known to those skilled in the art, the term "computer storage media" includes both volatile and non-volatile, removable and non-removable media implemented in any method or technology for storage of information such as computer-readable instructions, data structures, program modules, and the like. data. Computer storage media includes, but is not limited to, random access memory (RAM), read only memory (ROM), electrically erasable programmable read only memory (EEPROM), flash memory or other memory technology, CD-ROM read only memory ( CD-ROM), digital versatile disc (DVD) or other optical disc drive, magnetic cassettes, magnetic disc drive or other magnetic storage devices, or other medium that can be used to store the necessary information and that can be accessed by a computer. In addition, those skilled in the art are aware that communication media typically includes computer-readable instructions, data structures, program modules, or other data in a modulated information signal such as a carrier wave or other transfer mechanism, and includes any delivery media information.
Claims (19)
Applications Claiming Priority (2)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
US201361808684P | 2013-04-05 | 2013-04-05 | |
US61/808,684 | 2013-04-05 |
Related Parent Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
RU2018127639A Division RU2690885C1 (en) | 2013-04-05 | 2018-07-27 | Stereo encoder and audio signal decoder |
Related Child Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
RU2023114834A Division RU2023114834A (en) | 2013-04-05 | 2023-06-06 | STEREOPHONIC AUDIO SIGNAL CODER AND DECODER |
Publications (2)
Publication Number | Publication Date |
---|---|
RU2019116192A RU2019116192A (en) | 2020-11-27 |
RU2798009C2 true RU2798009C2 (en) | 2023-06-14 |
Family
ID=
Citations (2)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
US6680972B1 (en) * | 1997-06-10 | 2004-01-20 | Coding Technologies Sweden Ab | Source coding enhancement using spectral-band replication |
US20120002818A1 (en) * | 2009-03-17 | 2012-01-05 | Dolby International Ab | Advanced Stereo Coding Based on a Combination of Adaptively Selectable Left/Right or Mid/Side Stereo Coding and of Parametric Stereo Coding |
Patent Citations (2)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
US6680972B1 (en) * | 1997-06-10 | 2004-01-20 | Coding Technologies Sweden Ab | Source coding enhancement using spectral-band replication |
US20120002818A1 (en) * | 2009-03-17 | 2012-01-05 | Dolby International Ab | Advanced Stereo Coding Based on a Combination of Adaptively Selectable Left/Right or Mid/Side Stereo Coding and of Parametric Stereo Coding |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
RU2690885C1 (en) | Stereo encoder and audio signal decoder | |
KR101444102B1 (en) | Method and apparatus for encoding/decoding stereo audio | |
CN100571043C (en) | A spatial parameter stereo encoding and decoding method and device thereof | |
JP7196268B2 (en) | Encoding of multi-channel audio content | |
EP3171361B1 (en) | Audio encoder and decoder | |
CN101202043A (en) | Audio signal encoding method and system and decoding method and system | |
JP2021507316A (en) | Backwards compatible integration of high frequency reconstruction technology for audio signals | |
RU2798009C2 (en) | Stereo audio coder and decoder | |
CN101754086B (en) | Decoder and decoding method for multichannel audio coder using sound source location cue |