RU2616774C1

RU2616774C1 - Аудиодекодер для декодирования битового аудиопотока, аудиокодер для кодирования звукового сигнала и способ декодирования кадра кодированного звукового сигнала

Info

Publication number: RU2616774C1
Application number: RU2016127810A
Authority: RU
Inventors: Барбара Реш; Кристофер ЧЁРЛИНГ; Ларс ВИЛЛЕМОЕС
Original assignee: Долби Интернешнл Аб
Priority date: 2010-07-02
Filing date: 2016-07-11
Publication date: 2017-04-18
Also published as: RU2599338C1; EP2589046B1; US20190214035A1; RU2642553C2; EP4488996A3; HK1199135A1; CN105261371A; WO2012000882A1; KR101696632B1; US9224403B2; RU2013102794A; KR20160081986A; IL278805B; IL286405B; ES2691934T3; KR101972762B1; CA2929090C; IL243958A0; IL286405B2; CN105261371B

Abstract

Изобретение относится к кодированию цифрового звука, в частности к кодированию звуковых сигналов, содержащих составляющие разного характера. Способ декодирования кадра кодированного звукового сигнала, при этом кодированный звуковой сигнал генерируют аудиокодером, при этом способ включает: извлечение первого параметра из кодированного звукового сигнала, при этом первый параметр представляет режим кодирования для кадра; извлечение второго параметра из кодированного звукового сигнала; запуск либо первого режима декодирования, либо второго режима декодирования на основе значения первого параметра; генерирование предварительного звукового сигнала из кодированного звукового сигнала при работе либо в первом режиме декодирования, либо во втором режиме декодирования; и фильтрацию предварительного звукового сигнала с помощью фильтра высоты тона. При этом при фильтрации используют второй параметр для выборочного подключения или отключения фильтра высоты тона, и второй параметр отличный от первого параметра. Технический результат заключается в ослаблении межгармонического шума. 3 н. и 17 з.п. ф-лы, 11 ил.

Description

Область технического применения

Настоящее изобретение, в общем, относится к кодированию цифрового звука и, точнее, к способам кодирования звуковых сигналов, содержащих составляющие разного характера.

Предпосылки изобретения

Широко распространенный класс способов кодирования звуковых сигналов, содержащих речь или пение, включает линейное предсказание с кодовым возбуждением (CELP), применяемое во временном чередовании с другими способами кодирования, в том числе со способами кодирования в частотной области, в особенности адаптированными для музыки, или способами общего характера, для того чтобы учесть изменения в характере между последовательными промежутками времени звукового сигнала. Например, упрощенный декодер согласно стандарту экспертной группы по вопросам движущегося изображения (MPEG) для унифицированного кодирования речи и звука (USAC; см. стандарт ISO/IEC 23003-3), как показано в верхней части сопроводительной фиг. 2, может действовать по меньшей мере в трех режимах декодирования: в режиме перспективного звукового кодирования (ААС; см. стандарт ISO/IEC 13818-7), в режиме алгебраического CELP (ACELP) и в режиме преобразования кодированного возбуждения (ТСХ).

Различные варианты осуществления CELP адаптированы к свойствам органов речи человека и, возможно, к слуховому восприятию человека. В том смысле, в каком он употребляется в данной заявке, термин «CELP» будет относиться ко всем возможным реализациям и вариантам, в том числе в качестве неограничивающих примеров: широко- и узкополосное CELP, SB-CELP (подполоса CELP), CELP с низкой и высокой скоростью, RCELP (ослабленное CELP), LD-CELP (CELP с малой задержкой), CS-CELP (CELP с сопряженной структурой), CS-ACELP (ACELP с сопряженной структурой), PSI-CELP (инновационное CELP с синхронным основным тоном) и VSELP (линейное предсказание с возбуждением векторной суммы). Принципы CELP обсуждаются R. Schroeder и S. Atal в Proceedings of the IEEE International Conference on Acoustics, Speech, and Signal Processing (ICASSP), vol. 10, pp. 937-940, 1985, a некоторые его приложения описаны в ссылках 25 - 29, цитируемых в статье Chen и Gersho, IEEE Transactions on Speech and Audio Processing, vol. 3, no. 1, 1995. Как более подробно описано в первой статье, декодер CELP (или аналогично речевой синтезатор CELP) может включать предсказатель основного тона, который восстанавливает периодическую составляющую кодированного речевого сигнала, и импульсный кодовый словарь, из которого добавляется порождающая последовательность. Предсказатель основного тона может, в свою очередь, включать предсказатель с большой задержкой, предназначенный для восстановления форманта при помощи специального формирования огибающей спектра. В этом контексте основной тон понимается как основная частота тональной составляющей звука, генерируемой голосовыми связками и дополнительно окрашиваемой резонирующими участками речевого тракта. Эта частота вместе с ее гармониками будет доминировать в речи и пении. Вообще говоря, способы CELP лучше всего подходят для обработки сольного или одноголосного пения, для которого частота основного тона хорошо выражена и относительно легко определяется.

Для улучшения воспринимаемого качества речи, кодированной CELP, общепринятой практикой является сочетание CELP с постфильтрацией (или, иначе говоря, с усилением основного тона). Патент США №4969192 и раздел II статьи Chen и Gersho раскрывают требуемые свойства таких постфильтров, а именно: их способность подавлять шумовые составляющие, находящиеся между гармониками обнаруженного голосового основного тона (долгосрочная часть, см. раздел IV). Предполагается, что значительная часть этого шума является результатом формирования огибающей спектра. Долгосрочная часть простого постфильтра может быть сконструирована так, чтобы она имела следующую передаточную функцию:

,

где Т - оценочный период основного тона в выражении количества дискретных значений, и α - коэффициент усиления постфильтра, как показано на фиг. 1 и 2. По способу, сходному с гребенчатым фильтром, такой фильтр ослабляет частоты 1/(2Т), 3/(2Т), 5/(2Т), которые находятся посередине между гармониками основной частоты, и соседние частоты. Ослабление зависит от значения коэффициента усиления α. Несколько более сложные постфильтры применяют это усиление только к низким частотам - отсюда широко применяемый термин «басовый постфильтр», где шум воспринимается в наибольшей степени. Это можно выразить как каскадирование вышеописанной передаточной функции Н_Е и фильтра прохождения низких частот H_LP. Подвергнутый постобработке декодированный S_E, создаваемый постфильтром, в области преобразования будет иметь вид:

,

где

и S - декодированный сигнал, который подается на вход постфильтра.

Фиг. 3 показывает вариант осуществления постфильтра с такими свойствами, который в дальнейшем обсуждается в разделе 6.1.3 технического описания ETSI TS 126 290, версия 6.3.0, публикация 6. Как показывает данная фигура, информация основного тона кодируется как параметр в сигнале битового потока и извлекается модулем отслеживания основного тона, коммуникативно подключенным к фильтру долгосрочного предсказания, осуществляющему операции, выраженные как P_LT.

Долгосрочная часть, описанная в предыдущем параграфе, может использоваться отдельно. В альтернативном варианте она располагается последовательно с фильтром преобразования шума, который сохраняет составляющие в интервалах частот, соответствующих формантам, и ослабляет шум в других областях спектра (краткосрочная часть, см. раздел III), т.е. во «впадинах спектра», огибающей формант. В качестве другого возможного изменения данная совокупность фильтров также дополняется последовательным фильтром, относящимся к типу фильтров прохождения верхних частот, с целью снижения воспринимаемого ухудшения качества из-за наклона спектра краткосрочной части.

Звуковые сигналы, содержащие смесь составляющих различного происхождения, - например тонального, нетонального, вокального, инструментального, немузыкального, - не всегда удовлетворительно воспроизводятся имеющимися технологиями кодирования. Точнее было отметить, что имеющиеся технологии являются недостаточными для обработки такого неоднородного звукового материала и, как правило, отдают предпочтение одной из составляющих в ущерб остальным. В частности, музыка, содержащая пение под аккомпанемент одного или нескольких инструментов или хоровые фрагменты, кодированная способами, сущность которых описана выше, часто будет декодироваться с воспринимаемыми артефактами, которые частично портят впечатление от прослушивания.

Краткое описание изобретения

Для того чтобы ослабить, по меньшей мере, некоторые из недостатков, описанных в предыдущем разделе, целью настоящего изобретения является предоставление способов и устройств, адаптированных для кодирования звука и декодирования сигналов, содержащих смесь составляющих различного происхождения. Как частные цели, изобретение добивается создания таких способов и устройств, которые являются пригодными с точки зрения эффективности кодирования и (воспринимаемой) точности воспроизведения или и того и другого.

Изобретение достигает по меньшей мере одной из этих целей путем создания системы кодера, системы декодера, способа кодирования, способа декодирования и компьютерных программных продуктов, предназначенных для осуществления каждого из указанных способов, которые определены в независимых пунктах формулы изобретения. Зависимые пункты формулы изобретения определяют варианты осуществления изобретения.

Авторы изобретения осознали, что некоторые артефакты, воспринимаемые в декодированных звуковых сигналах неоднородного происхождения, являются следствием несоответствующего переключения между различными режимами кодирования, по меньшей мере один из которых включает постфильтрацию в декодере, и по меньшей мере один из которых ее не включает. Точнее, имеющиеся постфильтры устраняют не только межгармонический шум (и там, где это применимо, шум во впадинах спектра), но также составляющие сигнала, представляющие инструментальный или вокальный аккомпанемент и другой материал «желательной» природы. То, что порог различимости во впадинах спектра может составлять вплоть до 10 дБ (как отмечено Ghitza и Goldstein, IEEE Trans. Acoust, Speech, Signal Processing, vol. ASSP-4, pp. 697-708, 1986), можно считать оправданием многих разработчиков, которое позволяет жестко фильтровать эти полосы частот. Однако само по себе ухудшение качества за счет межгармонического ослабления (и ослабления во впадинах спектра) может быть менее важно, чем ухудшение качества в случае переключения. Когда включается постфильтр, фон звуков певческого голоса внезапно приглушается, а когда фильтр деактивируется, фон немедленно становится более звучным. Если переключение происходит часто по причине сущности звукового сигнала или из-за конфигурации кодирующего устройства, будет возникать артефакт переключения. Как пример декодер USAC может действовать или в режиме ACELP в сочетании с постфильтрацией, или в режиме ТСХ без постфильтрации.

Режим ACELP используется во фрагментах, где присутствует доминантная вокальная составляющая. Поэтому переключение в режим ACELP может запускаться с началом пения, как, например, в начале новой музыкальной фразы, в начале нового куплета или просто после фрагмента, где аккомпанемент считается заглушающим певческий голос в том смысле, что вокальная составляющая больше не является выраженной. Эксперименты подтвердили, что альтернативное решение или, иначе говоря, обход проблемы, в котором кодирование ТСХ используется везде (а режим ACELP отключается), не исправляет проблему, поскольку появляются артефакты, подобные искусственному эху.

Соответственно в первой и второй особенностях изобретение предусматривает способ кодирования звука (и систему кодирования звука с соответствующими характерными признаками), который отличается тем, что принимается решение о том, следует ли устройству, которое будет декодировать битовый поток, являющийся выходным сигналом способа кодирования, применять постфильтрацию, включающую ослабление межгармонического шума. Результат принятия этого решения кодируется в битовом потоке и является доступным для декодирующего устройства.

Согласно изобретению решение о том, следует ли использовать постфильтр, принимается отдельно от решения о наиболее подходящем режиме кодирования. Это делает возможным поддержание одного состояния постфильтрации в течение всего промежутка такой длительности, что переключение не будет раздражать слушателя. Таким образом, способ кодирования может предписывать, чтобы постфильтр поддерживался в неактивном состоянии даже тогда, когда он переключается в режим кодирования, где этот фильтр обычно активен.

Следует отметить, что решение о том, следует ли применять постфильтрацию, обычно принимается по кадрам. Поэтому, во-первых, постфильтрация не применяется менее, чем для одного кадра за раз. Во-вторых, решение о том, отключать ли постфильтрацию, действительно только для длительности текущего кадра, и для следующего кадра оно может или сохраняться или пересматриваться. В формате кодирования, допускающем основной формат кадра и сокращенный формат, который является долей нормального формата, например составляет 1/8 его длины, может не быть необходимости в принятии решений о постфильтрации для отдельных сокращенных кадров. Вместо этого может рассматриваться некоторое количество сокращенных кадров, просуммированных до нормального кадра, и параметры, относящиеся к решению о фильтрации, могут быть получены путем вычисления среднего или медианы включаемых в него сокращенных кадров.

В третьей и четвертой особенностях изобретения предусматривается способ декодирования звука (и система декодирования звука, которая включает соответствующие характерные признаки), где за этапом декодирования следует этап постфильтрации, который включает ослабление межгармонического шума и отличается тем, что включает этап отключения постфильтра в соответствии с информацией о постфильтрации, кодированной в сигнале битового потока.

Благодаря своей способности деактивировать постфильтр в зависимости только от информации о постфильтрации, т.е. независимо от таких факторов, как текущий режим кодирования, способ декодирования с такими характеристиками хорошо подходит для кодирования звуковых сигналов смешанного происхождения. При применении способов кодирования, в которых активность постфильтра традиционно связана с конкретными режимами кодирования, способность отключения постфильтрации делает возможным новый рабочий режим, а именно применение без фильтрации традиционного режима декодирования с фильтрацией.

В следующей особенности изобретение также предусматривает компьютерный программный продукт, предназначенный для выполнения одного из вышеописанных способов. Кроме того, изобретение предусматривает постфильтр, предназначенный для ослабления межгармонического шума, который может действовать или в активном режиме, или в режиме пропускания, что указывается сигналом постфильтрации, подаваемым на постфильтр. Постфильтр может включать секцию принятия решения, предназначенную для автономного управления активностью постфильтра.

Как понятно специалистам, кодер, адаптированный для совестной работы с декодером, оснащается функционально эквивалентными модулями для того, чтобы он допускал достоверное воспроизведение кодированного сигнала. Указанные эквивалентные модули могут представлять собой идентичные, или сходные, модули или модули, имеющие идентичные, или сходные, передаточные характеристики. В частности, модули кодера и декодера соответственно могут представлять собой сходные или несходные блоки обработки, исполняющие соответствующие компьютерные программы, которые выполняют эквивалентные наборы математических операций.

В одном из вариантов осуществления изобретения настоящий способ включает принятие решения в отношении того, включает ли постфильтр ослабление впадин спектра (относительно огибающей формант, см. выше). Это соответствует краткосрочной части постфильтра. Поэтому преимущественной является адаптация критерия, на котором основывается решение, к сущности постфильтра.

Один из вариантов осуществления изобретения направлен на кодер, в особенности адаптированный для кодирования речи. Так как некоторые из проблем, служащих мотивом изобретения, наблюдались тогда, когда кодировалась смесь вокальных и других составляющих, особенно преимущественным является независимое принятие решения относительно постфильтрации, предоставляемое изобретением. В частности, такой декодер может включать модуль кодирования в режиме линейного предсказания с кодовым возбуждением.

В одном из вариантов осуществления изобретения кодер основывает свое решение на обнаруженном одновременном присутствии составляющей сигнала с доминантной основной частотой (основным тоном) и другой составляющей сигнала, находящейся ниже основной частоты. Обнаружение также может иметь целью нахождение совместного присутствия составляющей с доминантной основной частотой и другой составляющей с энергией, находящейся между гармониками этой основной частоты. В такой ситуации часто встречаются артефакты рассматриваемого типа. Тогда если установлено указанное одновременное присутствие, кодер будет принимать решение о том, что постфильтрация не является подходящей, что будет соответствующим образом указано в информации о постфильтрации, которая содержится в битовом потоке.

Один из вариантов осуществления изобретения использует в качестве критерия обнаружения содержание полной мощности сигнала во временном звуковом сигнале ниже частоты основного тона, где частота основного тона, возможно, оценивается в кодере при помощи долгосрочного предсказания. Если указанная мощность больше предварительно определенного порогового значения, считается, что помимо составляющей основного тона, (включая гармоники,присутствуют другие значимые составляющие, что будет приводить к отключению постфильтра.

В кодере, содержащем модуль CELP, можно извлечь пользу из того, что модуль оценивает частоту основного тона временного звукового сигнала. Тогда дальнейший критерий обнаружения, как более подробно описано выше, заключается в проверке запаса энергии между гармониками этой частоты или ниже нее.

В качестве дальнейшего развития предшествующего варианта осуществления изобретения, включающего модуль CELP, принятие решения может включать сравнение оценочной энергии звукового сигнала при его CELP-кодировании (т.е. кодировании и декодировании) с оценочной энергией звукового сигнала при CELP-кодировании и постфильтрации. Если разность энергий больше порогового значения, что может указывать на то, что значимая нешумовая составляющая сигнала будет потеряна, а кодер будет принимать решение об отключении постфильтра.

В преимущественном варианте осуществления изобретения кодер содержит модуль CELP и модуль ТСХ. Как известно в данной области техники, ТСХ-кодирование является преимущественным в отношении некоторых типов сигналов, в особенности, невокальных сигналов. Применение постфильтрации на ТСХ-кодированном сигнале не является общепринятой практикой. Поэтому кодер может выбрать или ТСХ-кодирование, или CELP-кодирование с постфильтрацией, или CELP-кодирование без постфильтрации, таким образом, охватывая значительный диапазон типов сигналов.

Как одно из дальнейших развитий предшествующего варианта осуществления изобретения, решение о выборе между тремя режимами кодирования принимается на основе критерия зависимости искажений от скорости передачи данных, т.е. с применением и оптимизацией процедуры, которая сама по себе известна в данной области техники.

В другом дальнейшем развитии предшествующего варианта осуществления изобретения кодер также включает кодер согласно стандарту усовершенствованного звукового кодирования (ААС), который, как известно, также особенно хорошо подходит для некоторых типов сигналов. Предпочтительно, решение о том, применять ли ААС-кодирование (в частотной области), принимается независимо от решения о том, какие другие режимы (линейного предсказания) использовать. Поэтому такой кодер может пониматься как действующий в двух суперрежимах: ААС или TCX/CELP, где в последнем режиме которых кодер будет делать выбор между ТСХ, CELP с постфильтрацией и CELP без фильтрации. Этот вариант осуществления изобретения позволяет обрабатывать еще более широкий диапазон типов звуковых сигналов.

В одном из вариантов осуществления изобретения кодер может принимать решение о том, что постфильтрация при декодировании должна применяться постепенно, т.е. с постепенно возрастающим усилением. Аналогично он может принять решение о том, что постфильтрация будет постепенно устраняться. Такое постепенное применение и устранение делает менее ощутимым переключение между режимами с постфильтрацией и без нее. Например, вокальному фрагменту, для которого найдено подходящим CELP-кодирование с постфильтрацией, может предшествовать инструментальный фрагмент, где оптимальным является ТСХ-кодирование; тогда декодер согласно изобретению может применять постфильтрацию постепенно вблизи или в начале вокального фрагмента так, чтобы выгоды постфильтрации сохранялись, хотя раздражающие артефакты переключения при этом устраняются.

В одном из вариантов осуществления изобретения решение о том, следует ли применять постфильтрацию, основывается на приближенном разностном сигнале, который служит приближением той составляющей сигнала, которая будет устраняться постфильтром из будущего декодированного сигнала.

В качестве одной из возможностей приближенный разностный сигнал вычисляется как разность между временным звуковым сигналом и временным звуковым сигналом, подвергнутым (имитации) постфильтрации. В качестве другой возможности секция кодирования извлекает промежуточный декодированный сигнал с тем, чтобы можно было вычислить приближенный разностный сигнал как разность между временным звуковым сигналом и промежуточным декодированным сигналом, подвергнутым постфильтрации. Промежуточный декодированный сигнал может сохраняться в буфер долгосрочного предсказания кодера. В дальнейшем он может представлять сигнал возбуждения в предположении, что для получения конечного декодированного сигнала потребуется применение дальнейшей синтезирующей фильтрации (речевой тракт, резонансы). Суть использования промежуточного декодированного сигнала заключается в том, что он фиксирует некоторые из деталей, в особенности слабости способа кодирования, и, таким образом, позволяет более реалистично оценивать влияние постфильтра. В качестве третьей возможности секция декодирования извлекает промежуточный декодированный сигнал, посредством чего можно вычислить приближенный разностный сигнал как разность между промежуточным декодированным сигналом и промежуточным декодированным сигналом, подвергнутым постфильтрации. Вероятно, эта процедура дает менее надежную оценку, чем две первые возможности, но, с другой стороны, она может осуществляться декодером автономно.

Полученный таким образом приближенный разностный сигнал затем оценивается в отношении одного из следующих критериев, которые при их установлении в утвердительном смысле будут приводить к решению об отключении постфильтра:

a) превышает ли мощность приближенного разностного сигнала предварительно определенное пороговое значение, указывающее на то, что постфильтром может быть устранена значимая часть сигнала;

b) является ли характер приближенного разностного сигнала скорее тональным, чем шумоподобным;

c) неравномерно ли распределена разность между частотными спектрами абсолютных значений приближенного разностного сигнала и временного звукового сигнала относительно частоты, что показывает, что это не столько шум, сколько сигнал, который мог бы иметь смысл для слушателя;

d) локализован ли частотный спектр абсолютных значений приближенного разностного сигнала в интервалах частот, находящихся в пределах предварительно определенной огибающей значимости, основанной на том, что может обычно ожидаться от сигнала обрабатываемого типа; и

e) локализован ли частотный спектр абсолютных значений приближенного разностного сигнала в интервалах частот, находящихся в пределах предварительно определенной огибающей значимости, полученной путем пороговой обработки частотного спектра абсолютных значений временного звукового сигнала по абсолютному значению наибольшей составляющей сигнала, здесь уменьшенной в масштабе с предварительно определенным масштабным коэффициентом.

При оценке критерия е) преимущественным является применение отслеживания пиков в спектре абсолютных значений, т.е. различение участков, имеющих форму, похожую на пик, обычно связанных скорее с тональными составляющими, чем с шумом. Составляющие, идентифицированные при помощи отслеживания пиков, которое может иметь место посредством какого-либо алгоритма, который сам по себе известен в данной области техники, могут в дальнейшем сортироваться с применением порога по высоте пика с тем, чтобы оставшиеся составляющие представляли собой тональный материал с определенным абсолютным значением. Эти составляющие обычно скорее представляют значимое содержимое сигнала, чем шум, что служит мотивом принять решение об отключении постфильтра.

В одном из вариантов осуществления изобретения как декодера решение об отключении постфильтра исполняется переключателем, управляемым секцией управления и способным обходить постфильтр в схеме. В другом варианте осуществления изобретения постфильтр имеет варьируемое усиление, управляемое секцией управления, или регулятором усиления в ней, где решение об отключении осуществляется путем присвоения коэффициенту усиления постфильтра (см. предыдущий раздел) нулевого значения или путем присвоения ему абсолютного значения ниже предварительно определенного порогового значения.

В одном из вариантов осуществления изобретения декодирование согласно настоящему изобретению включает извлечение информации о постфильтрации из декодируемого сигнала битового потока. Точнее, информация о постфильтрации может кодироваться в поле данных, включающем по меньшей мере один бит в формате, пригодном для передачи. Преимущественно поле данных представляет собой уже существующее поле данных, определяемое применяющимся стандартом, но не находящееся в употреблении, и, таким образом, информация о постфильтрации не увеличивает полезную нагрузку при передаче.

Следует отметить, что способы и устройство, раскрытые в данном разделе, могут применяться после соответствующих модификаций в пределах способностей специалиста, в том числе путем стандартных экспериментов для кодирования сигналов, содержащих несколько составляющих, возможно, относящихся к различным каналам, таким как стереофонические каналы. Везде в настоящей заявке термины «усиление основного тона» и «постфильтрация» употребляются как синонимы. Также следует отметить, что ААС обсуждается в качестве репрезентативного примера способов кодирования в частотной области. Действительно, применение изобретения к иному, чем ААС, декодеру или кодеру, действующему в режиме кодирования в частотной области, потребует лишь небольших модификаций, если вообще их потребует, в пределах способностей специалиста. Сходным образом ТСХ упоминается в качестве примера кодирования в режиме преобразования с взвешенным линейным предсказанием или кодирования с преобразованием вообще.

Характерные признаки из двух или большего количества вышеописанных вариантов осуществления изобретения могут объединяться, если они не являются дополнительными в явном виде, в дальнейшие варианты осуществления изобретения. То, что два характерных признака цитируются в различных пунктах формулы изобретения, не препятствует тому, чтобы они могли быть выгодно объединены. Аналогично дальнейшие варианты осуществления изобретения также могут снабжаться пропусками некоторых характерных признаков, которые не являются необходимыми или не являются существенными для желаемой цели.

Краткое описание графических материалов

Варианты осуществления настоящего изобретения ниже будут описаны с отсылкой к сопутствующим графическим материалам, на которых:

фиг. 1 - блок-схема, показывающая традиционный декодер с постфильтром;

фиг. 2 - принципиальная блок-схема традиционного декодера, действующего в режимах ААС, ACELP и ТСХ и включающего постфильтр, постоянно подключенный в нисходящем направлении относительно модуля ACELP;

фиг. 3 - блок схема, иллюстрирующая конструкцию постфильтра.

фиг. 4 и 5 - блок-схемы двух декодеров согласно изобретению;

фиг. 6 и 7 - блок-схемы, иллюстрирующие различия между традиционным декодером (фиг. 6) и декодером (фиг. 7) согласно изобретению;

фиг. 8 - блок-схема кодера согласно изобретению;

фиг. 9 и 10 - блок-схемы, иллюстрирующие различия между традиционным декодером (фиг. 9) и декодером (фиг. 10) согласно изобретению; и

фиг. 11 - блок-схема автономного постфильтра, который может избирательно активироваться и деактивироваться.

Подробное описание вариантов осуществления изобретения

Фиг. 4 представляет собой схематическую иллюстрацию системы 400 декодера согласно одному из вариантов осуществления изобретения, имеющего в качестве входного сигнал битового потока и звуковой сигнал на выходе. Как и в традиционных декодерах, показанных на фиг. 1, постфильтр 440 располагается в нисходящем направлении относительно модуля 410 декодирования, но может включаться или выключаться из тракта декодирования путем приведения в действие переключателя 442. В положении, показанном на фигуре, постфильтр включен. Его можно отключить, если установить переключатель в противоположное положение, посредством чего сигнал из модуля 410 декодирования будет вместо этого проводиться по шине 444 обхода. В качестве вклада, обладающего признаками изобретения, переключатель 442 управляется посредством информации о постфильтрации, содержащейся в сигнале битового потока, и, таким образом, постфильтрация может применяться и сниматься независимо от текущего состояния модуля 410 декодирования. Поскольку постфильтр 440 действует с некоторой задержкой, например, постфильтр, показанный на фиг. 3, вносит задержку с величиной, равной, по меньшей мере, периоду Т основного тона, с целью поддержания модулей в синхронизированных условиях при переключении на шине 444 обхода располагается модуль 443 компенсации задержки. Модуль 443 задержки задерживает сигнал на тот же период, на который мог бы его задерживать постфильтр 440. Для минимизации времени переключения модуль 443 компенсации задержки во все моменты времени принимает тот же сигнал, что и постфильтр 440. В альтернативном варианте осуществления изобретения, где постфильтр 440 заменяется постфильтром с нулевой задержкой (например, причинным фильтром, таким как фильтр с двумя звеньями, не зависящий от будущих значений сигнала), модуль 443 компенсации задержки может быть пропущен.

Фиг. 5 иллюстрирует дальнейший вариант осуществления изобретения в соответствии с идеями изобретения в отношении трехрежимной системы 500 декодера по фиг. 2. Модуль 511 ACELP-декодирования располагается параллельно модулю 512 ТСХ-декодирования и модулю 513 ААС-декодирования. Последовательно с модулем 511 ACELP-декодирования располагается постфильтр 540, предназначенный для ослабления шума, в частности шума, находящегося между гармониками частоты основного тона, напрямую или не напрямую получаемой из сигнала битового потока, для чего адаптирована система 500 декодера. Сигнал битового потока также кодирует информацию о постфильтрации, регулирующую положения верхнего переключателя 541, который действует для выключения постфильтра 540 из тракта обработки и его замены компенсацией ошибок 543, как на фиг. 4. Нижний переключатель 542 используется для переключения между различными режимами декодирования. В такой конструкции, когда используется один из модулей 512, 513, ТСХ или ААС, положение верхнего переключателя 541 не играет роли; поэтому информация о постфильтрации необязательно указывает это положение, за исключением режима ACELP. Какой бы из режимов декодирования ни использовался в текущий момент, сигнал подается из точки подсоединения нижнего переключателя 542 в нисходящем направлении в модуль 550 репликации спектральной полосы (SBR), который выводит звуковой сигнал. Специалистам будет понятно, что данная иллюстрация имеет концептуальную природу, что явно видно в особенности из того, что переключатели показаны схематично как отдельные физические сущности с подвижными контактными средствами. В возможной реальной имплементации системы декодера переключатели, а также и другие модули могут осуществляться посредством машиночитаемых команд.

Фиг. 6 и 7 также представляют собой блок-схемы двух трехрежимных систем декодера, действующих в режимах ACELP, ТСХ и в режиме декодирования в частотной области. С отсылкой к последней упомянутой фигуре, которая показывает вариант осуществления изобретения, сигнал битового потока подается в точку 701 ввода, которая, в свою очередь, постоянно соединена посредством соответствующих ветвей с тремя модулями 711, 712, 713 декодирования. Точка 701 ввода также содержит соединительную ветвь 702 (отсутствующую в традиционной системе декодирования по фиг. 6), направленную к модулю 740 усиления основного тона, который играет роль описанного выше постфильтра обобщенного типа. Как является общей практикой в данной области, в нисходящем направлении относительно модулей 711, 712 ACELP и ТСХ расположен первый модуль 703 кадрирования перехода, предназначенный для осуществления переходов между модулями декодирования. Второй модуль 704 перехода расположен в нисходящем направлении относительно модуля 713 декодирования в частотной области и первого модуля 703 кадрирования перехода и предназначен для осуществления перехода между двумя суперрежимами. В восходящем направлении непосредственно перед точкой 705 вывода расположен модуль 750 SBR. Ясно, что сигнал битового потока подается непосредственно (или, при необходимости, после демультиплексирования) во все три модуля 711, 712, 713 декодирования и в модуль 740 усиления основного тона. Информация, содержащаяся в битовом потоке, управляет тем, какой из модулей декодирования будет активен. Однако согласно изобретению модуль 740 усиления основного тона выполняет аналогичную самоактивацию и в ответ на информацию о постфильтрации в битовом потоке может выступать как постфильтр или просто как пропускающий канал. Например, это может реализовываться путем снабжения модуля 740 усиления основного тона секцией управления (не показана), посредством которой действие постфильтрации может включаться или выключаться. Когда система действует в режиме декодирования в частотной области или в режиме ТСХ-декодирования, где, строго говоря, какая-либо информация о постфильтрации не является необходимой, модуль 740 усиления основного тона всегда находится в режиме пропускания. Следует понимать, что модули, не образующие часть вклада, обладающего признаками изобретения, и присутствие которых очевидно для специалистов, например демультиплексор, для большей ясности пропущены на фиг. 7 и на других сходных иллюстрациях.

Как вариант система декодера по фиг. 7 может оснащаться модулем управления (не показан), предназначенным для принятия решения о том, следует ли применять постфильтрацию с использованием подхода «анализ через синтез». Указанный модуль управления коммуникативно связан с модулем 740 усиления основного тона и с модулем 711 ACELP, из которого он извлекает промежуточные декодированные сигналы

, представляющие один из промежуточных этапов процесса декодирования, предпочтительно этап, соответствующий возбуждению сигнала. Модуль обнаружения содержит необходимую информацию для имитации действия модуля 740 усиления основного тона, что определяется передаточными функциями P_LT(z) и H_LP(z) (см. раздел Предпосылки и фиг. 3), или эквивалентно их импульсными переходными характеристиками фильтра p_LT(z) и h_LP(n). Как следует из обсуждения в разделе Предпосылки изобретения, составляющая, которая будет вычитаться при постфильтрации, может оцениваться при помощи приближенного разностного сигнала s_AD(n), который пропорционален

, где * обозначает дискретную свертку. Это приближение является приближением истинной разности между оригинальным звуковым сигналом и декодированным сигналом, подвергнутым постфильтрации, а именно:

,

где α - коэффициент усиления постфильтра.

Изучая полную энергию, энергию низкочастотной полосы, тональность, актуальный спектр абсолютных значений или спектр абсолютных значений этого сигнала в прошлом, как раскрывается в разделе Краткое описание изобретения и в формуле изобретения, секция управления может находить основание для принятия решения о том, активировать или деактивировать модуль 740 усиления основного тона.

Фиг. 8 показывает систему 800 кодера согласно одному из вариантов осуществления изобретения. Система 800 кодера адаптирована для обработки цифровых звуковых сигналов, которые, в общем, получаются путем сбора данных звуковой волны микрофоном и преобразования волны в аналоговый электрический сигнал. Электрический сигнал затем дискретизируется в цифровой сигнал, поддающийся передаче в подходящем формате в систему 800 кодера. В общем, система состоит из модуля 810 кодирования, модуля 820 принятия решения и мультиплексора 830. При помощи переключателей 814, 815 (представленных символически) модуль кодирования может действовать или в режиме CELP, или в режиме ТСХ, или в режиме ААС путем избирательного приведения в действие модулей 811, 812, 813. Модуль 820 принятия решения применяет один или несколько предварительно определенных критериев для принятия решения об отключении постфильтрации во время декодирования сигнала битового потока, генерируемый системой 800 кодера, будет кодировать звуковой сигнал. Для этого модуль 820 принятия решения может исследовать непосредственно звуковой сигнал или может получать данные из модуля 810 кодирования через линию связи 816. Сигнал, служащий признаком решения, которое принимается модулем 820 принятия решения, совместно с кодированным звуковым сигналом из модуля 810 кодирования доставляется в мультиплексор 830, который сцепляет сигналы в битовый поток, составляющий выходной сигнал системы 800 декодера.

Предпочтительно модуль 820 принятия решения основывает свое решение на приближенном разностном сигнале, вычисляемом из промежуточного кодированного сигнала

, который может вычитаться из модуля 810 декодирования. Промежуточный декодированный сигнал представляет промежуточный этап процесса декодирования, что обсуждалось в предшествующих параграфах, но может извлекаться из соответствующего этапа процесса кодирования. Однако для системы 800 кодера доступен оригинальный звуковой сигнал S_ORIG, поэтому предпочтительно приближенный разностный сигнал формируется как:

.

Это приближение основывается на том, что вместо конечного декодированного сигнала используется промежуточный декодированный сигнал. Это позволяет оценить сущность составляющей, которую постфильтр мог бы удалять при декодировании, и, применяя один из критериев, обсуждаемых в разделе Краткое описание изобретения - модуль 820 принятия решения будет способен принять решение о том, отключать ли постфильтрацию.

Как вариант модуль 820 принятия решения может использовать оригинальный сигнал вместо промежуточного кодированного сигнала, и, таким образом, приближенным разностным сигналом будет являться сигнал

. Вероятно, это приближение будет менее достоверным, но, с другой стороны, оно делает необязательным присутствие линии связи 816 между модулем 820 принятия решения и модулем 810 кодирования.

В тех других изменениях данного варианта осуществления изобретения, где модуль 820 принятия решения изучает звуковой сигнал непосредственно, может применяться один или несколько следующих критериев:

- содержит ли звуковой сигнал и составляющую с доминантной основной частотой, и составляющую, находящуюся ниже основной частоты? (Основная частота может подаваться как побочный продукт модуля 810 кодирования);

- содержит ли звуковой сигнал и составляющую с доминантной основной частотой, и составляющую, находящуюся между гармониками основной частоты?

- содержит ли звуковой сигнал значительную энергию сигнала ниже основной частоты?

- Является ли декодирование с постфильтрацией (как возможный результат) предпочтительным перед декодированием без фильтрации в отношении оптимальной зависимости искажений от скорости передачи данных?

Во всех описанных изменениях конструкции кодера, показанной на фиг. 8, т.е. независимо от основания критерия обнаружения, - секция 820 принятия решения может быть подключена для принятия решения о постепенном начале или постепенном снятии постфильтрации с тем, чтобы добиться гладких переходов. Постепенное начало и снятие может управляться путем регулировки коэффициента усиления постфильтра.

Фиг. 9 показывает традиционный декодер, действующий в режиме частотного декодирования и в режиме CELP-декодирования в зависимости от сигнала битового потока, подаваемого в декодер. Постфильтрация применяется всякий раз, когда выбирается режим CELP-декодирования. Усовершенствование этого декодера проиллюстрировано на фиг. 10, которая показывает декодер 1000 согласно одному из вариантов осуществления изобретения. Этот декодер действует не только в режиме декодирования в частотной области, где активен модуль 1013 декодирования в частотной области, и в режиме CELP-декодирования с фильтрацией, где активен модуль 1011 CELP-декодирования и постфильтр 1040, но также и в режиме CELP без фильтрации, в котором модуль 1011 CELP подает сигнал в модуль 1043 компенсации задержки по шине 1044 обхода. Переключатель 1042 управляет тем, какой из режимов декодирования активен в настоящий момент, в ответ на информацию о постфильтрации, содержащуюся в сигнале битового потока, доставляемом в декодер 1000. В этом декодере и в декодере по фиг.9 последний этап обработки выполняется модулем 1050 SBR, выходным сигналом которого является конечный звуковой сигнал.

Фиг. 11 показывает постфильтр 1100, пригодный для размещения в нисходящем направлении относительно декодера 1199. Фильтр 1100 включает модуль 1140 постфильтрации, который подключается или отключается модулем управления (не показан), в особенности двоичным или недвоичным регулятором усиления, в ответ на сигнал постфильтрации, принимаемый из модуля 1120 принятия решения в постфильтре 1100. Модуль принятия решения выполняет одно или несколько проверок сигнала, принимаемого из декодера, достигая решения о том, будет модуль постфильтрации являться активным или неактивным. Решение может приниматься в направлении функциональных возможностей модуля 820 принятия решения по фиг.8, который использует оригинальный сигнал и/или промежуточный кодированный сигнал для предсказания действия постфильтра. Решение модуля 1120 принятия решения также может основываться на информации сходной с той, которую модули принятия решения используют в тех вариантах осуществления изобретения, где формируется промежуточный декодированный сигнал. Например, модуль 1120 принятия решения может оценивать частоту основного тона (если только она не извлекается легко из сигнала битового потока) и вычислять запас энергии в сигнале ниже частоты основного тона и между ее гармониками. Если этот запас энергии является значительным, он, вероятно, представляет значимую составляющую сигнала, а не шум, что служит мотивом для принятия решения об отключении модуля 1140 постфильтрации.

Для шести человек было осуществлено испытание прослушивания, в ходе которого музыкальные фрагменты, кодированные и декодированные в соответствии с изобретением, сравнивались с отсылкой к фрагментам, содержащим ту же музыку, кодированным с применением постфильтрации традиционным образом, но с сохранением без изменений всех остальных параметров. Результаты подтверждают улучшение воспринимаемого качества.

Дальнейшие варианты осуществления настоящего изобретения станут очевидными специалистам в данной области после прочтения приведенного выше описания. И хотя настоящее описание и графические материалы раскрывают варианты осуществления изобретения и примеры, изобретение не ограничено этими конкретными примерами. Без отступления от объема настоящего изобретения, который определяется сопутствующей формулой изобретения, могут быть сделаны многочисленные модификации и изменения.

Раскрытые выше системы и способы могут быть реализованы как программное обеспечение, встроенное программное обеспечение, аппаратное обеспечение или их комбинация. Некоторые или все компоненты могут реализовываться как программное обеспечение, исполняемое процессором цифровой обработки сигналов или микропроцессором, или они могут реализовываться как встроенное программное обеспечение или как интегральная микросхема специального назначения. Указанное программное обеспечение может распространяться на машиночитаемом носителе данных, который может включать компьютерный носитель данных (или непередающую среду) или коммуникационную среду (или переходящую среду). Как хорошо известно специалистам в данной области, компьютерные носители данных включают энергозависимые и энергонезависимые, съемные и несъемные носители данных, реализуемые в любом способе или технологии хранения информации, такой как машиночитаемые команды, структуры данных, программные модули или другие данные. Компьютерные носители данных включают в качестве неограничивающих примеров RAM, ROM, EE-PROM, флэш-память или другие технологии памяти, CD-ROM, универсальный цифровой диски (DVD) или другие оптические дисковые носители данных, кассеты с магнитной лентой, магнитную ленту, магнитные дисковые носители данных или другие магнитные устройства хранения данных, или любой другой носитель, который может использоваться для хранения необходимой информации и который может быть доступен посредством компьютера. Кроме того, как хорошо известно специалистам, коммуникационная среда, как правило, осуществляет машиночитаемые команды, структуры данных, программные модули, или другие данные в модулированном информационном сигнале, таком как несущая волна или другой механизм передачи данных, и включают любые средства доставки информации.

Перечень вариантов осуществления изобретения

В первом варианте осуществления обеспечивается система (400; 500; 700; 1000) декодера, предназначенная для декодирования сигнала битового потока как временного звукового сигнала, которая содержит:

секцию (410; 511, 512, 513; 711, 712, 713; 1011, 1013) декодирования, предназначенную для декодирования сигнала битового потока как предварительного временного звукового сигнала; и

постфильтр (440; 540; 740; 1040) ослабления межгармонического шума, предназначенный для фильтрации предварительного временного звукового сигнала, чтобы получить временной звуковой сигнал,

отличающаяся наличием секции управления, адаптированной для отключения постфильтра в ответ на информацию о постфильтрации, кодированную в сигнале битового потока, где предварительный временной звуковой сигнал является выходным сигналом как временной звуковой сигнал.

Во втором варианте осуществления постфильтр системы декодера первого варианта осуществления также адаптирован для ослабления шума, находящегося во впадинах спектра.

В третьем варианте осуществления секция управления системы декодера первого варианта осуществления содержит переключатель (442; 541; 1042), предназначенный для избирательного исключения постфильтра из тракта обработки сигнала системы декодера, посредством чего постфильтр отключается.

В четвертом варианте осуществления постфильтр системы декодера первого варианта осуществления имеет варьируемый коэффициент усиления, определяющий межгармоническое ослабление, и секция управления содержит регулятор усиления, действующий для задания абсолютного значения коэффициента усиления ниже предварительно определенного порогового значения, посредством чего постфильтр отключается.

В пятом варианте осуществления указанная секция декодирования системы декодера первого варианта осуществления содержит модуль декодирования речи.

В шестом варианте осуществления указанная секция декодирования системы декодера первого варианта осуществления содержит модуль (511; 711; 1011) декодирования в режиме линейного предсказания с кодовым возбуждением, CELP.

В седьмом варианте осуществления, в системе декодера пятого варианта осуществления частота основного тона, оцениваемая в секции долгосрочного предсказания в кодере, кодируется в сигнале битового потока.

В восьмом варианте осуществления постфильтр системы декодера адаптирован для ослабления спектральных составляющих, находящихся между гармониками частоты основного тона.

В девятом варианте осуществления, в системе декодера первого варианта осуществления сигнал битового потока содержит представление частоты основного тона, и постфильтр адаптирован для ослабления спектральных составляющих, находящихся между гармониками частоты основного тона.

В десятом варианте осуществления постфильтр системы декодера восьмого или девятого варианта осуществления адаптирован для ослабления только тех спектральных составляющих, которые находятся ниже предварительно определенной частоты среза.

В одиннадцатом варианте осуществления, в системе декодера шестого варианта осуществления изобретения 6:

секция декодирования также включает модуль (512; 712) декодирования в режиме преобразования кодированного возбуждения, ТСХ, предназначенный для декодирования сигнала битового потока как временного звукового сигнала,

секция управления адаптирована для приведения в действие системы декодера по меньшей мере в трех следующих режимах:

a) модуль ТСХ подключен, и постфильтр отключен;

b) модуль CELP и постфильтр подключены; и

c) модуль CELP подключен, и постфильтр отключен там, где предварительный временной сигнал и звуковой временной сигнал совпадают.

В двенадцатом варианте осуществления, в системе декодера десятого варианта осуществления:

секция декодирования также содержит модуль (513; 713) декодирования в режиме перспективного звукового кодирования, ААС, предназначенный для декодирования сигнала битового потока как временного звукового сигнала,

секция управления адаптирована для приведения в действие декодера также в следующем режиме:

d) модуль ААС подключен, и постфильтр отключен.

В тринадцатом варианте осуществления, в системе декодера первого варианта осуществления сигнал битового потока сегментируется на временные кадры, и секция управления адаптирована для отключения всего временного кадра или последовательности полных временных кадров.

В четырнадцатом варианте осуществления, в системе декодера тринадцатого варианта осуществления секция управления также адаптирована для приема, для каждого временного кадра в битовом потоке согласно стандарту экспертной группы по вопросам движущегося изображения, MPEG, поля данных, связанного с этим временным кадром и действующая в ответ на значение этого поля данных для отключения постфильтра.

В пятнадцатом варианте осуществления, в системе декодера четвертого варианта осуществления секция управления адаптирована для постепенного понижения и/или повышения коэффициента усиления постфильтра.

В шестнадцатом варианте осуществления предусмотрена система (400; 500; 700; 1000) декодера, которая содержит:

постфильтр (440; 540; 740; 1040) ослабления межгармонического шума, предназначенный для фильтрации предварительного временного звукового сигнала с целью получения временного звукового сигнала,

отличающаяся тем, что

секция декодирования адаптирована для генерирования промежуточного декодированного сигнала, представляющего возбуждение, и для его подачи в секцию управления; и

секция управления адаптирована для вычисления приближенного разностного сигнала, который служит приближением составляющей сигнала, которую необходимо устранить постфильтром из декодированного сигнала, как разности между промежуточным декодированным сигналом и промежуточным декодированным сигналом, подвергнутым постфильтрации, и для оценки по меньшей мере одного из следующих критериев:

a) превышает ли мощность приближенного разностного сигнала предварительно определенное пороговое значение;

b) является ли тональным характер приближенного разностного сигнала;

c) является ли разность между частотными спектрами абсолютных значений приближенного разностного сигнала и временного звукового сигнала неравномерно распределенной относительно частоты;

d) локализован ли частотный спектр абсолютных значений приближенного разностного сигнала в интервалах частот, находящихся в пределах предварительно определенной огибающей значимости; и

e) локализован ли частотный спектр абсолютных значений приближенного разностного сигнала в интервалах частот, находящихся в пределах огибающей значимости, полученной путем пороговой обработки частотного спектра абсолютных значений временного звукового сигнала по абсолютному значению наибольшей составляющей сигнала, здесь уменьшенной в масштабе с предварительно определенным масштабным коэффициентом;

и в ответ на положительное определение - для отключения постфильтра, посредством чего предварительный временной звуковой сигнал является выходным как временной звуковой сигнал.

В семнадцатом варианте осуществления предусмотрен постфильтр (440; 550; 740; 1040; 1140) ослабления межгармонического шума, адаптированный для приема входного сигнала, который включает предварительный звуковой сигнал, и для подачи выходного звукового сигнала,

отличающийся наличием секции управления, предназначенной для избирательного, в соответствии со значением сигнала постфильтрации, приведения в действие постфильтра в одном из следующих режимов:

i) режим фильтрации, где он фильтрует предварительный звуковой сигнал с целью получения фильтрованного сигнала и подает его как выходной звуковой сигнал;и

ii) режим пропускания, где он подает предварительный звуковой сигнал как выходной звуковой сигнал.

В восемнадцатом варианте осуществления, в постфильтре семнадцатого варианта осуществления сигнал постфильтрации заключается во входном сигнале.

В девятнадцатом варианте осуществления постфильтр семнадцатого варианта осуществления также включает модуль (1120) принятия решения, адаптированный для оценки частоты основного тона предварительного звукового сигнала и для оценивания по меньшей мере одного из следующих критериев:

a) превышает ли мощность спектральных составляющих ниже частоты основного тона предварительно определенное пороговое значение;

b) являются ли тональными спектральные составляющие ниже частоты основного тона;

c) превышает ли мощность спектральных составляющих между гармониками частоты основного тона предварительно определенное пороговое значение; и

d) являются ли тональными спектральные составляющие между гармониками частоты основного тона;

и в ответ на положительное определение - для принятия решения о генерировании отрицательного сигнала постфильтрации, отключающего постфильтр.

В двадцатом варианте осуществления предусмотрен способ декодирования сигнала битового потока как временного звукового сигнала, включающий этапы, на которых:

декодируют сигнал битового потока как предварительный временной звуковой сигнал; и

осуществляют постфильтрацию предварительного временного звукового сигнала путем ослабления межгармонического шума, посредством чего получается временной звуковой сигнал,

отличающийся тем, что этап постфильтрации избирательно пропускается в ответ на информацию о постфильтрации, кодированную в сигнале битового потока.

В двадцать первом варианте осуществления, в способе двадцатого варианта осуществления этап постфильтрации также включает ослабление шума, находящегося во впадинах спектра.

В двадцать втором варианте осуществления, в способе двадцать первого варианта осуществления этап декодирования включает применение способа кодирования, адаптированного для кодирования речи.

В двадцать третьем варианте осуществления, в способе двадцатого варианта осуществления этап декодирования включает применение декодирования в режиме линейного предсказания с кодовым возбуждением, CELP.

В двадцать четвертом варианте осуществления, в способе двадцать второго или двадцать третьего варианта осуществления этап постфильтрации включает ослабление спектральных составляющих, находящихся между гармониками частоты основного тона, где частота основного тона извлекается из сигнала битового потока или оценивается на этапе декодирования.

В двадцать пятом варианте осуществления, в способе двадцатого варианта осуществления этап постфильтрации включает ослабление только тех спектральных составляющих, которые находятся ниже предварительно определенной частоты среза.

В двадцать шестом варианте осуществления, в способе двадцать третьего варианта осуществления этапы декодирования и постфильтрации избирательно выполняют одно из следующего:

a) ТСХ-декодирование;

b) CELP-декодирование с постфильтрацией; и

c) CELP-декодирование без постфильтрации.

В двадцать седьмом варианте осуществления, в способе двадцать шестого варианта осуществления этапы декодирования и постфильтрации избирательно выполняют один из режимов а), b), с) и

d) декодирование в режиме перспективного звукового кодирования, ААС.

В двадцать восьмом варианте осуществления, в способе двадцатого варианта осуществления сигнал битового потока сегментируется на временные кадры, и этап постфильтрации пропускается для всего временного кадра или для последовательности полных временных кадров.

В двадцать девятом варианте осуществления, в способе двадцать восьмого варианта осуществления:

сигнал битового потока представляет собой битовый поток согласно стандарту экспертной группы по вопросам движущегося изображения, MPEG, и включает для каждого временного кадра связанное поле данных; и

этап постфильтрации пропускается для временного кадра в ответ на связанное поле данных.

В тридцатом варианте осуществления, в способе двадцатого варианта осуществления указанный пропуск постфильтрации включает одного из следующего:

полный пропуск ослабления,

частичный пропуск ослабления,

постепенное увеличение ослабления, и

постепенное уменьшение ослабления.

В тридцать первом варианте осуществления предусмотрен способ декодирования сигнала битового потока как временного звукового сигнала, включающий этапы, на которых:

отличающийся тем, что этап декодирования включает:

извлечение промежуточного декодированного сигнала, представляющего возбуждение;

вычисление приближенного разностного сигнала, который служит приближением составляющей сигнала, которая будет устраняться постфильтром из декодированного сигнала, как разности между промежуточным декодированным сигналом и промежуточным декодированным сигналом, подвергнутым постфильтрации;

оценку по меньшей мере одного из следующих критериев:

d) локализован ли частотный спектр абсолютных значений приближенного разностного сигнала в интервалах частот, находящихся в пределах предварительно определенной огибающей значимости;

и в ответ на положительное определение - отключение постфильтра, посредством чего предварительный временной звуковой сигнал является выходным как временной звуковой сигнал.

В тридцать втором варианте осуществления предусмотрена система (800) кодера, предназначенная для кодирования временного звукового сигнала как сигнала битового потока, которая содержит секцию (810) кодирования, предназначенную для кодирования временного звукового сигнала как сигнала битового потока,

отличающаяся наличием секции (820) принятия решения, адаптированной для принятия решения о том, следует ли при декодировании сигнала битового потока отключать постфильтрацию, которая включает ослабление межгармонического шума, и для кодирования этого решения как информации о постфильтрации в сигнале битового потока.

В тридцать третьем варианте осуществления, в системе кодера тридцать второго варианта осуществления секция принятия решения адаптирована для принятия решения о том, отключать ли постфильтрацию, которая также включает ослабление шума, находящегося во впадинах спектра.

В тридцать четвертом варианте осуществления, в системе кодера тридцать второго варианта осуществления секция кодирования содержит модуль кодирования речи.

В тридцать пятом варианте осуществления, в системе кодера тридцать второго варианта осуществления секция кодирования включает модуль кодирования в режиме линейного предсказания с кодовым возбуждением, CELP.

В тридцать шестом варианте осуществления, в системе кодера тридцать второго варианта осуществления секция принятия решения адаптирована для:

обнаружения совместного присутствия составляющей сигнала с доминантной основной частотой и составляющей сигнала, находящейся ниже основной частоты и, необязательно, между ее гармониками; и

в ответ на это - для принятия решения об отключении.

В тридцать седьмом варианте осуществления, в системе кодера тридцать пятого варианта осуществления:

модуль CELP-кодирования адаптирован для оценки частоты основного тона во временном звуковом сигнале; и

секция принятия решения адаптирована для обнаружения спектральных составляющих, находящихся ниже оценочной частоты основного тона, и в ответ на это - для принятия решения об отключении.

В тридцать восьмом варианте осуществления, в системе кодера тридцать пятого варианта осуществления секция принятия решения адаптирована для вычисления разности между предсказываемой мощностью временного звукового сигнала при CELP-кодировании, и предсказываемой мощностью временного звукового сигнала при CELP-кодировании и постфильтрации, и

в ответ на то, что эта разность превышает предварительно определенное пороговое значение, - для принятия решения об отключении.

В тридцать девятом варианте осуществления, в системе кодера тридцать пятого варианта осуществления:

указанная секция кодирования также включает модуль кодирования в режиме преобразования кодированного возбуждения, ТСХ,

где секция принятия решения адаптирована для выбора одного из следующих режимов кодирования:

a) ТСХ-кодирования;

b) CELP-кодирования с постфильтрацией; и

c) CELP-кодирования без постфильтрации.

В сороковом варианте осуществления система кодера тридцать девятого варианта осуществления также содержит селектор (814) кодирования, адаптированный для выбора одного из следующих суперрежимов:

i) перспективное звуковое кодирование, ААС, где секция принятия решения отключена; и

ii) TCX/CELP-кодирования, где секция принятия решения подключена с целью выбора одного из режимов кодирования а), b) или с).

В сорок первом варианте осуществления, в системе кодера тридцать девятого варианта осуществления секция принятия решения адаптирована для принятия решения о том, какой режим использовать на основе оптимизации зависимости искажений от скорости передачи данных.

В сорок втором варианте осуществления система кодера тридцать второго варианта осуществления также адаптирована для сегментирования сигнала битового потока на временные кадры, где секция принятия решения адаптирована принять решение об отключении постфильтра во временных сегментах, состоящих из полных кадров.

В сорок третьем варианте осуществления, в системе кодера тридцать второго варианта осуществления секция принятия решения адаптирована для принятия решения о постепенном уменьшении и/или увеличении ослабления постфильтра.

В сорок четвертом варианте осуществления, в системе кодера тридцать второго варианта осуществления секция принятия решения адаптирована для:

вычисления мощности временного звукового сигнала ниже оценочной частоты основного тона; и

в ответ на то, что указанная мощность превышает предварительно определенное пороговое значение, - для принятия решения об отключении.

В сорок пятом варианте осуществления, в системе кодера тридцать второго варианта осуществления секция принятия решения адаптирована для:

получения из временного звукового сигнала приближенного разностного сигнала, служащего приближением составляющей сигнала, которая будет устраняться постфильтром из будущего декодированного сигнала;

оценки по меньшей мере одного из следующих критериев:

и в ответ на положительное определение - принять решение об отключении постфильтра.

В сорок шестом варианте осуществления, в системе кодера сорок пятого варианта осуществления секция принятия решения адаптирована для вычисления приближенного разностного сигнала как разности между временным звуковым сигналом и временным звуковым сигналом, подвергнутым постфильтрации.

В сорок седьмом варианте осуществления, в системе кодера сорок пятого варианта осуществления:

секция кодирования адаптирована для извлечения промежуточного кодированного сигнала, представляющего возбуждение, и для его передачи в секцию принятия решения; и

секция принятия решения адаптирована для вычисления приближенного разностного сигнала как разности между временным звуковым сигналом и промежуточным декодированным сигналом, подвергнутым постфильтрации.

В сорок восьмом варианте осуществления предусмотрен способ кодирования временного звукового сигнала как сигнала битового потока, где способ включает этап кодирования временного звукового сигнала как сигнала битового потока,

отличающийся наличием также этапа принятия решения о том, следует ли при декодировании битового потока отключить постфильтрацию, которая включает ослабление межгармонического шума, и кодированием этого решения как информации о постфильтрации в сигнале битового потока.

В сорок девятом варианте осуществления, в способе сорок восьмого варианта осуществления этап принятия решения относится к постфильтрации, которая также включает ослабление шума, находящегося во впадинах спектра.

В пятидесятом варианте осуществления, в способе сорок восьмого варианта осуществления этап кодирования включает применение способа кодирования, адаптированного для кодирования речи.

В пятьдесят первом варианте осуществления, в способе сорок восьмого варианта осуществления этап кодирования включает применение кодирования в режиме линейного предсказания с кодовым возбуждением, CELP.

В пятьдесят втором варианте осуществления способ сорок восьмого варианта осуществления также включает этап обнаружения совместного присутствия составляющей сигнала с доминантной основной частотой и составляющей сигнала, находящейся ниже основной частоты и, необязательно, между ее гармониками,

где решение об отключении постфильтрации принимается в случае положительного результата обнаружения.

В пятьдесят третьем варианте осуществления, в способе пятьдесят первого варианта осуществления

указанный этап CELP-кодирования включает оценку частоты основного тона во временном звуковом сигнале; и

этап принятия решения включает обнаружение спектральных составляющих, находящихся ниже оценочной частоты основного тона, и решение об отключении постфильтрации принимается в случае положительного результата обнаружения.

В пятьдесят четвертом варианте осуществления способ пятьдесят первого варианта осуществления также включает этап вычисления разности между предсказываемой мощностью временного звукового сигнала при CELP-кодировании и предсказываемой мощностью временного звукового сигнала при CELP-кодировании и постфильтрации,

где решение об отключении постфильтрации принимается, если эта разность превышает предварительно определенное пороговое значение.

В пятьдесят пятом варианте осуществления, в способе пятьдесят первого варианта осуществления:

этап кодирования включает избирательное применение или CELP-кодирования или кодирования в режиме преобразования кодированного возбуждения, ТСХ; и

этап обнаружения того, должна ли быть отключена постфильтрация, выполняется только тогда, когда применяется CELP-кодирование.

В пятьдесят шестом варианте осуществления, в способе пятьдесят пятого варианта осуществления этап принятия решения включает выбор на основе оптимизации зависимости искажений от скорости передачи данных одного из следующих рабочих режимов:

a) ТСХ-кодирования;

b) CELP-кодирования с постфильтрацией; и

c) CELP-кодирования без постфильтрации.

57. Способ согласно варианту осуществления изобретения 55, где этап принятия решения включает выбор на основе оптимизации зависимости искажений от скорости передачи данных одного из следующих рабочих режимов:

a) ТСХ-кодирования;

b) CELP-кодирования с постфильтрацией;

c) CELP-кодирования без постфильтрации; и

d) кодирования в режиме перспективного звукового кодирования, ААС.

В пятьдесят восьмом варианте осуществления, в способе сорок восьмого варианта осуществления:

этап кодирования включает сегментирование временного звукового сигнала на временные кадры и формирование сигнала битового потока, содержащего соответствующие временные кадры; и

этап принятия решения о том, что постфильтрация должна быть отключена, осуществляется один раз в каждом временном кадре.

В пятьдесят девятом варианте осуществления, в способе сорок восьмого варианта осуществления результат этапа принятия решения о том, что постфильтрация должна быть отключена, выбирается из следующих вариантов:

отсутствие ослабления,

полное ослабление,

частичное ослабление,

постепенно увеличивающееся ослабление, и

постепенно уменьшающееся ослабление.

В шестидесятом варианте осуществления, в способе сорок восьмого варианта осуществления этап принятия решения включает вычисление мощности временного звукового сигнала ниже оценочной частоты основного тона и, в ответ, на то, что эта мощность превышает предварительно определенное пороговое значение, - отключение постфильтра.

В шестьдесят первом варианте осуществления, в способе сорок восьмого варианта осуществления:

этап кодирования включает получение из временного звукового сигнала приближенного разностного сигнала, служащего приближением составляющей сигнала, которая будет устраняться постфильтром из будущего декодированного сигнала; и

этап принятия решения включает оценивание по меньшей мере одного из следующих критериев:

и, в ответ на по меньшей мере одно положительное определение, - отключение постфильтра.

В шестьдесят втором варианте осуществления, в способе шестьдесят первого варианта осуществления приближенный разностный сигнал вычисляется как разность между временным звуковым сигналом и временным звуковым сигналом, подвергнутым постфильтрации.

В шестьдесят третьем варианте осуществления, в способе шестьдесят первого варианта осуществления:

этап кодирования включает извлечение промежуточного декодированного сигнала, представляющего возбуждение; и

этап принятия решения включает вычисление приближенного разностного сигнала как разности между временным звуковым сигналом и промежуточным декодированным сигналом, подвергнутым постфильтрации.

В шестьдесят четвертом варианте осуществления предусмотрен машиночитаемый носитель данных, содержащий компьютерный программный продукт, хранящий команды, предназначенные для выполнения способа согласно одному из вышеприведенных вариантов осуществления изобретения.

Claims

1. Аудиодекодер для декодирования битового аудиопотока, сгенерированного аудиокодером, при этом аудиодекодер содержит:

первый модуль декодирования, адаптированный для работы в первом режиме кодирования;

второй модуль декодирования, адаптированный для работы во втором режиме кодирования, при этом второй режим кодирования отличается от первого режима кодирования; и

фильтр высоты тона, включенный либо в первый режим кодирования, либо во второй режим кодирования, при этом фильтр высоты тона адаптирован для фильтрации предварительного звукового сигнала, сгенерированного первым модулем декодирования или вторым модулем декодирования для получения фильтрованного сигнала,

при этом фильтр высоты тона выборочно подключают или отключают на основе значения первого параметра, кодированного в битовом аудиопотоке, при этом первый параметр отличный от второго параметра, кодированного в битовом аудиопотоке, при этом второй параметр указывает на текущий режим кодирования аудиодекодера.

2. Аудиодекодер по п. 1, отличающийся тем, что информацию о высоте тона, связанную с фильтром высоты тона, определяют исходя из третьего параметра в битовом аудиопотоке, и коэффициент усиления, связанный с фильтром высоты тона, определяют исходя из четвертого параметра в битовом аудиопотоке, при этом первый параметр, второй параметр, третий параметр и четвертый параметр различаются.

3. Аудиодекодер по п. 1, отличающийся тем, что длина первого параметра составляет один бит, и первое значение первого параметра подключает фильтр высоты тона, а второе значение первого параметра отключает фильтр высоты тона.

4. Аудиодекодер по п. 1, отличающийся тем, что битовый аудиопоток сегментируют на кадры звукового содержимого, и первый параметр указывает на тип кадра с помощью одного или более первых значений первого параметра, подключающих фильтр высоты тона, и одного или более вторых значений первого параметра, отключающих фильтр высоты тона.

5. Аудиодекодер по п. 4, отличающийся тем, что тип кадра указывает на то, содержит ли соответствующий кадр или вероятно содержит голосовое содержимое или содержит ли соответствующий кадр или вероятно содержит неголосовое содержимое.

6. Аудиодекодер по п. 1, отличающийся тем, что фильтр высоты тона отключают путем (i) приравнивания параметра усиления к нулю, (ii) работы фильтра высоты тона в режиме пропускания, (iii) выключения фильтра высоты тона или (iv) деактивации фильтра высоты тона.

7. Аудиодекодер по п. 2, отличающийся тем, что один или более звеньев фильтра высоты тона определяют пятым параметром в битовом аудиопотоке.

8. Аудиодекодер по п. 1, отличающийся тем, что фильтр высоты тона является постфильтром или фильтром усиления тона.

9. Аудиодекодер по п. 8, отличающийся тем, что постфильтр и фильтр усиления тона адаптированы для ослабления составляющих сигнала между гармониками или ослабления впадин спектра.

10. Аудиодекодер по п. 8, отличающийся тем, что постфильтр и фильтр усиления тона адаптированы для восстановления периодической составляющей предварительного звукового сигнала.

11. Аудиодекодер по п. 1, отличающийся тем, что первый режим кодирования включает кодирование в частотной области или кодирование с преобразованием, а второй режим кодирования включает кодирование с линейным предсказанием.

12. Аудиодекодер по п. 1, отличающийся тем, что фильтр высоты тона имеет низкочастотные характеристики.

13. Способ декодирования кадра кодированного звукового сигнала, при этом кодированный звуковой сигнал генерируют аудиокодером, при этом способ включает:

извлечение первого параметра из кодированного звукового сигнала, при этом первый параметр представляет режим кодирования для кадра;

извлечение второго параметра из кодированного звукового сигнала;

запуск либо первого режима декодирования, либо второго режима декодирования на основе значения первого параметра;

генерирование предварительного звукового сигнала из кодированного звукового сигнала при работе либо в первом режиме декодирования, либо во втором режиме декодирования; и

фильтрацию предварительного звукового сигнала с помощью фильтра высоты тона,

при этом при фильтрации используют второй параметр для выборочного подключения или отключения фильтра высоты тона, и второй параметр отличный от первого параметра.

14. Способ по п. 13, отличающийся тем, что дополнительно включает:

извлечение третьего параметра из кодированного звукового сигнала, при этом третий параметр представляет информацию о высоте для фильтра высоты тона; и

извлечение четвертого параметра из кодированного звукового сигнала, при этом четвертый параметр представляет коэффициент усиления, связанный с фильтром высоты тона.

15. Способ по п. 13, отличающийся тем, что первый режим кодирования является кодированием в частотной области или кодированием с преобразованием, а второй режим кодирования является кодированием с линейным предсказанием.

16. Способ по п. 13, отличающийся тем, что фильтрация включает фильтрацию предварительного звукового сигнала с помощью долгосрочного фильтра, а затем фильтрацию результатов долгосрочного фильтра с помощью краткосрочного фильтра.

17. Аудиокодер для кодирования звукового сигнала и связанных с ним параметров для получения битового аудиопотока, при этом аудиокодер содержит:

первый кодирующий модуль, адаптированный для работы в первом режиме кодирования;

второй кодирующий модуль, адаптированный для работы во втором режиме кодирования, при этом второй режим кодирования отличается от первого режима кодирования;

модуль принятия решения для определения необходимости кодирования звукового сигнала либо первым кодирующим модулем, либо вторым кодирующим модулем; и

третий кодирующий модуль для генерирования битового аудиопотока, при этом третий кодирующий модуль адаптирован для кодирования предварительного звукового сигнала, выходящего либо с первого кодирующего модуля, либо со второго кодирующего модуля,

при этом третий кодирующий модуль дополнительно адаптирован для кодирования первого параметра и второго параметра, при этом первый параметр используют для выборочного подключения или отключения фильтра высоты тона, а второй параметр указывает на текущий режим кодирования кодера, при этом первый параметр отличный от второго параметра.

18. Аудиокодер по п. 17, отличающийся тем, что третий кодирующий модуль дополнительно адаптирован для кодирования третьего параметра и четвертого параметра в битовый аудиопоток, при этом третий параметр представляет высоту тона, связанную с фильтром высоты тона, а четвертый параметр представляет параметр усиления, связанный с фильтром высоты тона.

19. Аудиокодер по п. 17, отличающийся тем, что длина первого параметра составляет один бит, и первое значение первого параметра подключает фильтр высоты тона, а второе значение первого параметра отключает фильтр высоты тона.

20. Аудиокодер по п. 17, отличающийся тем, что битовый аудиопоток сегментируют на кадры звукового содержимого, и первый параметр указывает на тип кадра с помощью одного или более первых значений первого параметра, указывающих на необходимость подключения фильтра высоты тона, и одного или более вторых значений первого параметра, указывающих на необходимость отключения фильтра высоты тона.