RU2461081C2

RU2461081C2 - Интеллектуальная градиентная система шумоподавления

Info

Publication number: RU2461081C2
Application number: RU2010103218/08A
Authority: RU
Inventors: Роберт А. ЗУРЕК (US); Роберт А. ЗУРЕК; Джоэль А. КЛАРК (US); Джоэль А. КЛАРК
Original assignee: Моторола Мобилити, Инк.
Priority date: 2007-07-02
Filing date: 2008-06-27
Publication date: 2012-09-10
Also published as: CN101689373A; BRPI0812756A2; EP2174317A1; WO2009006270A1; KR20100037062A; BRPI0812756A8; US20090010453A1; RU2010103218A

Abstract

Изобретение относится к подавлению шума и более конкретно к интеллектуальной системе (100) шумоподавления. Система может включать в себя градиентный микрофон (110) для создания градиентного речевого сигнала, блок (116) исправления для отмены выделения высокочастотного усиления, переданного градиентным микрофоном, детектор 120 активности речевого сигнала (VAD) для определения частей речевой активности (701) и частей шумовой активности (702) в градиентном речевом сигнале, блок автоматического управления 130 усилением (AGC) для адаптации речевого усиления (740) градиентного речевого сигнала для минимизации изменений в уровнях речевого сигнала и контроллер (140) для управления речевым усилением, применяемым AGC к частям шумовой активности для сохранения речи в отношении уровня шума между речевой активностью и шумовой активностью в градиентном речевом сигнале. Технический результат - обеспечение возможностей шумоподавления градиентного микрофона, но без вариации в уровне звука, вызываемого движением мобильного устройства из-за близости градиентного микрофона. 3 н. и 7 з.п. ф-лы, 10 ил.

Description

ОБЛАСТЬ ТЕХНИКИ, К КОТОРОЙ ОТНОСИТСЯ ИЗОБРЕТЕНИЕ

Настоящее изобретение относится к подавлению шума и, более конкретно, к интеллектуальной градиентной системе шумоподавления.

ПРЕДШЕСТВУЮЩИЙ УРОВЕНЬ ТЕХНИКИ

Мобильные устройства, предоставляющие речевую связь, в целом включают в себя систему шумоподавления для подавления нежелательного шума. Нежелательный шум может быть шумом среды, например, фоновым шумом, который присутствует, когда пользователь говорит в мобильное устройство. Микрофон, который захватывает речевой сигнал от пользователя, может захватывать нежелательный фоновый шум и создавать составной сигнал, содержащий как речевой сигнал, так и нежелательный фоновый шум. Нежелательный фоновый шум может ухудшать качество речевого сигнал, если нежелательный шум неадекватно подавляется.

Ненаправленный микрофон может захватывать речь во всех направлениях. Сошлемся на фиг.9, где показан примерный образец 900 чувствительности ненаправленного микрофона. Передний порт микрофона, где захватывается звук, соответствует знаку 90 градуса, в верхней части. Образец 901 чувствительности воспроизводит, что ненаправленный микрофон может захватывать звук во всех направлениях равным образом (например, от 0 до 360 градусов). Соответственно, ненаправленный микрофон может захватывать звук, например, шум, из направлений, отличных от главного направления звука, например, речь, которая в целом достигает переднего порта ненаправленного микрофона. Следовательно, когда пользователь говорит в передний порт, ненаправленный микрофон принимает речевой сигнал и также любые другие периферийные звуки, например, фоновый шум, в равной степени, таким образом, не предоставляя какие-либо возможности подавления шума.

Напротив, градиентный микрофон может захватывать речь, происходящую из главного направления. Сошлемся на фиг.10, на которой показан примерный образец 950 чувствительности градиентного микрофона. Передний порт градиентного микрофона, где захватывается звук, соответствует знаку 90 градуса, в верхней части. Образцы 950 чувствительности раскрывают, что градиентный микрофон является более чувствительным для звука, достигающего переднюю часть 951 и заднюю 952 часть (например, градусы 90 и 270) градиентного микрофона, чем левая и правая стороны (например, градусы 0 и 180) градиентного микрофона. Образец 950 чувствительности показывает области нулевой чувствительности в левом и правом положениях. Звук, прибывающий слева и справа, подавляется больше, чем звуки, прибывающие с передней и задней части. Соответственно, градиентный микрофон предоставляет подавление собственного шума по звукам, прибывающим в направлениях, отличных от главного направления (например, переднее или заднее). Следовательно, когда пользователь разговаривает в переднем порте, тогда как окружающий шум представлен во всех направлениях, градиентный микрофон захватывает речевой сигнал, хотя подавляет шум (например, левый и правый), периферийный к главному переднему направлению.

СУЩНОСТЬ ИЗОБРЕТЕНИЯ

Градиентный микрофон является более чувствительным к изменениям в расстоянии, чем ненаправленный микрофон. Например, так как пользователь передвигается дальше от переднего порта, чувствительность снижается более, чем ненаправленный микрофон как функция расстояния между пользователем и микрофоном. Так как пользователь передвигается ближе к переднему порту, чувствительность возрастает как функция расстояния пользователя. Соответственно, системы шумоподавления, которые используют градиентный микрофон как средство для захвата речевого сигнала, показывают большие изменения в амплитуде для небольших изменений в положении, когда пользователь находится близко к микрофону. Более того, градиентный микрофон является чувствительным к изменениям в движении мобильного устройства, вмещающего в себя градиентный микрофон, например, когда пользователь управляет мобильным устройством во время разговора. В этом случае желательно предоставить систему шумоподавления, которая достигает возможностей шумоподавления градиентного микрофона, но без вариации в уровне звука, вызываемого движением мобильного устройства из-за эффекта близости градиентного микрофона.

Одним вариантом осуществления настоящего изобретения является интеллектуальная система шумоподавления, которая может включать в себя блок микрофона для захвата речевого сигнала, детектор активности речевого сигнала (VAD), функционально соединенный с блоком микрофона для определения частей речевой активности и части шумовой активности в речевом сигнале, блок автоматического управления усилением (AGC), функционально соединенный с блоком микрофона для адаптации усиления речи в речевом сигнале для минимизации изменений в уровнях речевого сигнала, и контроллер, функционально соединенный с VAD и AGC, для управления усилением речи, применяемым AGC к частям шумовой активности для смягчения звуковых переходов между речевой активностью и шумовой активностью. В первой примерной конфигурации контроллер может не допускать обновления усиления речи в течение части шумовой активности. Контроллер может возобновлять адаптацию усиления речи, следуя за частью шумовой активности. Во второй примерной конфигурации контроллер может применять шумовой вентиль во время части шумовой активности. В третьей примерной конфигурации контроллер может использовать плавный переход усиления между последним усилением речевого кадра и стробированным шумовым кадром во время частей шума в градиентной речи. Плавный переход усиления может быть линейным, логарифмическим или квадратическим затуханием.

В одной схеме блок микрофона может быть градиентным микрофоном, который функционирует на разнице в уровне звукового давления между передней частью и задней частью градиентного микрофона для создания градиентного речевого сигнала. Чувствительность градиентного микрофона может изменяться как функция расстояния до источника, создавая речевой сигнал. В другой схеме блок микрофона может включать в себя первый микрофон, второй микрофон и дифференцирующий блок, который извлекает первый сигнал, принимаемый первым микрофоном от второго сигнала, принимаемого вторым микрофоном для создания градиентного речевого сигнала. Интеллектуальная система шумоподавления может включать в себя корректирующий фильтр, который применяет высокочастотное затухание в градиентном речевом сигнале для корректировки высокочастотного усиления из-за градиентного процесса.

Вторым вариантом осуществления настоящего изобретения является способ для интеллектуального шумоподавления, который включает в себя захват речевого сигнала, идентифицирующего части речевой активности и части шумовой активности в речевом сигнале, адаптируя усиление речи речевого сигнала для минимизации изменений в уровнях речевого сигнала во время части речевой активности, и управление речевым усилением в части шумовой активности для смягчения переходов между речевой активностью и шумовой активностью. Этап управления речевым усилением может включать в себя препятствие адаптации усиления речи во время части шумовой активности, возобновление адаптации речевого усиления вслед за частью шумовой активности. Этап управления речевым усилением может включать в себя застывание речевого усиления во время части шумовой активности, используя шумовой вентиль во время части шумовой активности или используя плавный переход усиления между последним речевым кадром и стробированный шумовой кадр во время части шума в градиентной речи. Способ может включать в себя захват первого сигнала от первого микрофона, захват второго сигнала от второго микрофона, извлечение первого сигнала и второго сигнала для создания градиентного речевого сигнала и использование корректирующего фильтра для компенсирования частотно зависимой потери амплитуды из-за извлечения.

Третьим вариантом осуществления настоящего изобретения является интеллектуальная система шумоподавления, которая может включать в себя градиентный микрофон для создания градиентного речевого сигнала, блок исправления для отмены выделения высокочастотного усиления градиентного речевого сигнала из-за градиентного микрофона, детектор активности речевого сигнала (VAD), функционально соединенный с блоком исправления для определения части речевой активности и части шумовой активности в градиентном речевом сигнале, блок автоматического контроля усиления (AGC), функционально соединенный с градиентным микрофоном для адаптации речевого усиления градиентного речевого сигнала для минимизации изменений в уровнях речевого сигнала, и контроллер, функционально соединенный с VAD и AGC, для управления речевым усилением, применяемым AGC к части шумовой активности для сохранения речи в отношении уровня шума между речевой активностью и шумовой активностью в градиентном речевом сигнале. Контроллер может фиксировать речевое усиление во время части шумовой активности, использовать шумовой вентиль во время части шумовой активности или использовать плавный переход усиления между последним усилением речевого кадра и стробированный шумовой кадр во время части шума в градиентной речи. Контроллер может препятствовать адаптации усиления речи во время части шумовой активности и возобновлять адаптацию речевого усиления вслед за частью шумовой активности.

КРАТКИЙ ПЕРЕЧЕНЬ ЧЕРТЕЖЕЙ

Признаки системы, которые полагаются новыми, в деталях сформулированы в прилагаемой формуле изобретения. Варианты осуществления в данном документе могут пониматься с помощью ссылки на последующее описание, при рассмотрении их вместе с сопроводительными чертежами, на нескольких из которых аналогичные позиционные обозначения идентифицируют аналогичные элементы и на которых:

Фиг.1 отображает примерную интеллектуальную систему шумоподавления согласно варианту осуществления настоящего изобретения;

Фиг.2 отображает примерный блок микрофона согласно варианту осуществления настоящего изобретения;

Фиг.3 отображает примерный способ для интеллектуального шумоподавления согласно варианту осуществления настоящего изобретения;

Фиг.4 отображает расширение способа фиг.3 для управления AGC (автоматическое управление усилением) согласно варианту осуществления настоящего изобретения;

Фиг.5 отображает чувствительность в 100 Гц в сравнении с кривой расстояния, нормализованной в ненаправленном ответе для ненаправленного и градиентного микрофона согласно варианту осуществления настоящего изобретения;

Фиг.6 отображает чувствительность в 300 Гц в сравнении с кривой расстояния, нормализованной в ненаправленном ответе для ненаправленного и градиентного микрофона согласно варианту осуществления настоящего изобретения;

Фиг.7 отображает примерную кривую для интеллектуального шумоподавления согласно варианту осуществления настоящего изобретения;

Фиг.8 - это блок-схема электронного устройства в соответствии с вариантом осуществления настоящего изобретения;

Фиг.9 отображает полярную чувствительность или кривую направленности ненаправленного микрофона и

Фиг.10 отображает полярную чувствительность или кривую направленности градиентного микрофона.

ПОДРОБНОЕ ОПИСАНИЕ

Наряду с тем, что описание делает вывод о формуле изобретения, определяя признаки вариантов осуществления изобретения, которые рассматриваются как новые, полагают, что способ, система и другие варианты осуществления будут лучше понятны из рассмотрения последующего описания в связи с чертежами, на которых поддерживается сквозная нумерация позиционных обозначений.

Как требуется, подробные варианты осуществления настоящего способа и система раскрываются в данном документе. Тем не менее, следует понимать, что раскрытые варианты осуществления являются только примерными, которые могут быть реализованы в различных формах. Следовательно, специфичные структурные и функциональные подробности, раскрытые в материалах настоящей заявки, не должны быть интерпретированы в качестве ограничивающих, а просто в качестве основы для формулы изобретения и в качестве типичной основы для изучающих специалистов в данной области техники, чтобы по-разному использовать варианты осуществления настоящего изобретения в практически любой уместным образом детализированной конструкции. Более того, термины и фразы, используемые в материалах настоящей заявки, не предназначены, чтобы быть ограничивающими; а скорее, чтобы предоставлять понятное описание варианта осуществления в данном документе.

Термины, указанные в единственном числе, как используется в материалах настоящей заявки, определены как один или более, чем один. Термин "множество", как используется в материалах настоящей заявки, определен как "два или более, чем два". Термин "другой", как используется в материалах настоящей заявки, определен как, по меньшей мере, второй или дальнейший. Термины "включающий в себя" и/или "обладающий", как используется в материалах настоящей заявки, определены как "содержащий" (то есть открытый перечень). Термин "соединенный", как используется в материалах настоящей заявки, определен как связанный, хотя не обязательно непосредственно и не обязательно механически. Термин "обработка" или "процессор" может быть задан как любое множество соответствующих процессоров, контроллеров, блоков или чего-либо аналогичного, что допускает осуществление заранее запрограммированного или программируемого набора команд. Термины "программа", "программное приложение" и подобные, как используются в материалах настоящей заявки, определены как последовательность команд, предназначенных для выполнения в компьютерной системе. Программа, компьютерная программа или программное приложение может включать в себя стандартную подпрограмму, функцию, процедуру, метод объекта, реализацию объекта, исполняемое приложение, исходный код, объектный код, разделяемую библиотеку/динамически загружаемую библиотеку и/или другую последовательность команд, предназначенных для выполнения в компьютерной системе.

Сошлемся на фиг.1, на которой показана интеллектуальная система 100 шумоподавления. Интеллектуальная система 100 шумоподавления может включать в себя блок 110 микрофона, детектор 120 активности речевого сигнала (VAD), функционально соединенный с блоком 110 микрофона, блок автоматического управления усилением (AGC), функционально соединенный с блоком 110 микрофона, и контроллер 140, функционально соединенный с VAD 120 и AGC 130. VAD 120 может принимать обратную связь от вывода речевого сигнала AGC 130. Интеллектуальная система 100 шумоподавления может быть интегрирована в мобильное устройство, например, сотовый телефон, портативный компьютер, компьютер или какое-либо другое устройство мобильной связи. Вообще говоря, VAD 120 обнаруживает присутствие речи и шума, и контроллер 140, отвечающий за прием решений по речевой активности от VAD 120, управляет AGC 130 во время диапазона шумовой активности. Интеллектуальная система 100 шумоподавления может подавлять нежелательный шум в звуковом сигнале, захватываемом блоком 110 микрофона во время интервалов шумовой активности.

В одной схеме согласно варианту осуществления изобретения блок 110 микрофона может быть градиентным микрофоном. Градиентный микрофон функционирует по разнице в уровне звукового давления между двумя точками звукового сигнала, а не уровнем звукового давления в точке звукового сигнала. Следовательно, градиентный микрофон является более чувствительным для изменений в расстоянии от источника, создающего звуковой сигнал. Например, когда пользователь находится в тесной близости к блоку 110 микрофона, градиентный микрофон обнаруживает большую разницу в уровне звукового давления (SPL) акустической волновой формы, захватываемой в переднем положении градиентного микрофона, и ту же самую акустическую волновую форму, захватываемую в задней части градиентного микрофона. Когда пользователь находится далеко от микрофона, градиентный микрофон обнаруживает небольшую разницу в уровне звукового давления (SPL) акустической формы волны, захватываемой в передней части градиентного микрофона, и ту же самую акустическую форму волны, захватываемую в задней части градиентного микрофона.

В другой схеме согласно варианту осуществления изобретения градиентный микрофон может быть реализован как два микрофона, которые вместе создают градиентный процесс. Сошлемся на фиг.2, где показана примерная конфигурация блока 110 микрофона. Блок 110 микрофона может включать в себя первый микрофон 111, второй микрофон 112 и дифференцирующий блок 114, который извлекает первый сигнал, принимаемый первым микрофоном от второго сигнала, принимаемого вторым микрофоном для создания градиентного речевого сигнала. Градиентный микрофон создается с помощью извлечения сигнала микрофона и затем запуск результирующего единственного сигнала с помощью корректирующего фильтра. Корректирующий фильтр применяет (например, отменяет выделение) высокочастотное затухание для градиентного речевого сигнала для компенсации высокочастотного усиления как результат градиентного процесса.

Блок 110 микрофона фиг.2 функционирует аналогично в принципе градиентному микрофону, хотя он применяет два отдельных микрофона для достижения переднего и тылового эффектов. Градиентный процесс функционирует на разнице в уровне звукового давления между первым микрофоном 111 и вторым микрофоном 112 для создания градиентного речевого сигнала. Градиентный процесс, реализованный с помощью блока 110 микрофона фиг.2, включает в себя дифференциацию и корректировку, которая последовательно больше ослабляет звуковой сигнал по мере увеличения расстояния к источнику. Это увеличение в затухании из-за эффектов дальней зоны формирует изменение в уровне сигнала из-за движения микрофонов относительно разговаривающего человека. Градиентный процесс также привносит усиление, когда звуковой сигнал захватывается в тесной близости (например, почти-поле) к блоку 110 микрофона. Контроллер 140 компенсирует эти эффекты почти-поля и дальней зоны с помощью направления AGC 130 для корректировки речевого усиления, применяемого к частям сигнала, захватываемого в микрофоне во время интервалов речевой активности.

Со ссылкой на фиг.3 и 4 показан способ для 300 интеллектуального шумоподавления. Способ 300 может быть осуществлен на практике с помощью меньшим или множеством показанных компонентов. Также сделана ссылка на фиг.1, 2, 5, 6 и 7, когда описывают способ 300. Кратко, способ 300 может быть осуществлен на практике с помощью интеллектуальной системы 100 шумоподавления фиг.1. В качестве примера способ 300 может начинаться в состоянии, в котором используется интеллектуальная система 100 шумоподавления в мобильном устройстве для подавления нежелательного шума.

На этапе 310 блок 110 микрофона захватывает речевой сигнал. В качестве примера пользователь, удерживающий мобильное устройство, может ориентироваться по направленности блока 110 микрофона к пользователю. Пользователь может удерживать мобильное устройство в изменяющемся расстоянии, например, в почти-поле (т.е. тесная близость) к пользователю или в дальней зоне (т.е. далеко) к пользователю. Фоновый шум, например, разговор других людей, или шум среды могут быть представлены в речевом сигнале, захватываемом с помощью блока 11 микрофона.

Фиг.5 показывает чувствительность в сравнении с кривой 500 расстояния для речевого сигнала в 100 Гц, используя ненаправленный микрофон или градиентный микрофон. Кривая 500 иллюстрирует разницу в чувствительности между ненаправленным микрофоном и градиентным микрофоном, например, когда мобильное устройство удерживается на различной длине рук. Кривая 500 нормализуется на расстояние 5 см, которое эквивалентно типичному положению микрофона мобильного устройства. То есть ссылкой на децибелы является чувствительность приблизительно в 5 см от микрофона. Нормализация позволяет непосредственно визуализировать разницы в усилении амплитуды для градиентного микрофона в сравнении с ненаправленным микрофоном. Как проиллюстрировано, ненаправленный ответный дифференциал 501 равен 0 Дб, так как нет разницы между ненаправленным ответом и им самим. Соответственно, градиентные ответы 502 являются относительными к единично нормализованному ненаправленному ответу 501. В этом случае можно увидеть, что градиентный микрофон представляет усиление 100 Гц-сигналов в почти-поле ниже пересечения точки 503 и представляет затухание 100 Гц-сигналов в дальней зоне помимо пересечения точки 503. Как показано, пересечение точки 503 происходит приблизительно в 5 см. Затухание достигает -20 Дб в 1 м и выше, и усиление достигает +10 Дб ниже расстояния в 5 см от микрофона.

Фиг.6 показывает чувствительность в сравнении с кривой 600 расстояния для речевого сигнала в 300 Гц Дб, используя либо ненаправленный микрофон, либо градиентный микрофон. Кривая 600 также иллюстрирует разницу в чувствительности между ненаправленным микрофоном и градиентным микрофоном, например, когда мобильное устройство удерживается на различной длине рук. Основной разницей между фиг.5 и фиг.6 является частота сигнала, захватываемого в микрофоне. На фиг.5 градиентные ответы 502 соответствуют частоте 100 Гц захваченного сигнала микрофона, и на фиг.6, градиентные ответы соответствуют частоте 300 Гц захваченного сигнала микрофона. Как показано на фиг.6, градиентный процесс представляет затухание, которое достигает -10 Дб в 1 м и выше (напротив к затуханию -20 Дб при 100 Гц), хотя усиление еще достигает +10 Дб ниже 5 см, пересекая точку 603. Величина максимального затухания сокращается, так как частота возрастает, например, до 20 кГц.

Кратко, ответные кривые 500 и 600 иллюстрируют определенное усиление градиентного процесса в почти-поле и определенное затухание градиентного процесса в дальней зоне. Следует заметить, что усиление из-за градиентного процесса увеличивает чувствительность мобильного устройства в почти-поле и может представлять значительные изменения в амплитуде с небольшими изменениями в расстоянии. Например, речь может быть усилена в непропорциональной величине, если пользователь передвигает значительно мобильное устройство во время разговора.

Возвращаясь к фиг.3, на этапе 320 VAD 120 определяет части речевой активности и части шумовой активности (неречевой) в речевом сигнале. Рассмотрим, что сигнал, захватываемый в блоке 110 микрофона, включает в себя части и речи, и шума. Например, речь пользователя, разговаривающего по телефону, создает речь и любой фоновый шум, захватываемый блоком 100 микрофона, создает шум. Фиг.7 представляет собой группу примерных подкривых для визуализации интеллектуального способа 300 шумоподавления. Подкривая А показывает решения VAD 120 для частей речевой активности 701 и шумовую активность 702. Более конкретно, подкривая А показывает кадры сигнала, захватываемого блоком 110 микрофона. Длина размера кадра может быть между 5 мс до 20 мс, но не ограничена этими значениями. Сигналы могут выбираться в различных фиксированных или смешанных скоростях выборки (например, 8 кГц, 16 кГц) при различных схемах квантования (например, 16 бит, 32 бит). VAD 120 принимает решение о речевой классификации 701 или классификации 702 шума для каждого обрабатываемого кадра. Подкадр В показывает речевой сигнал, захватываемый с помощью блока 110 микрофона, соответствующего решениям VAD подкривой А. То есть речевые части 710 совпадают с решениями речевой классификации 701, и части 712 шума совпадают с решениями 702 классификации шума.

Возвращаясь к фиг.3, на этапе 330 AGC 130 адаптирует речевое усиление речевого сигнала для минимизации изменений в уровнях речевого сигнала во время частей речевой активности. AGC 130 внутренне оценивает усиление, которое применяется для речевого сигнала, чтобы компенсировать изменения в амплитуде сигнала. Тем не менее, AGC, которое настраивается для использования с ненаправленным микрофоном, не может адекватно устанавливать усиление для учета изменений в градиентном процессе. Соответственно, на этапе 340 контроллер 140 управляет адаптацией речевого усиления, применяемого с помощью AGC 130 на основе обозначения речи и шума, принятых от VAD 120. Сошлемся вновь на фиг.7, на которой показано, что контроллер смягчает звуковые переходы между речевой активностью и активностью шумов.

То есть контроллер 140 не мешает корректировкам речевого усиления AGC, применяемым для речевого сигнала во время интервалов речевой активности 710. Во время речевой активности контроллер 140 не нарушает нормальные процессы AGC и лишь контролирует решения о классификации с помощью VAD 120. Контроллер 140 не соединяется с AGC 130 для регулирования корректировок усиления AGC 130, когда VAD 120 классифицирует части речевого сигнала как области активности 712 шумов. В этом случае контроллер 140 затем соединяется с AGC 130, чтобы вызвать корректировку AGC 130 усиления, применяемую для речевого сигнала во время интервалов шумовой активности 712. В частности, контроллер 140 не допускает адаптации AGC 130 во время кадров шума и сохраняет речевое усиление AGC в конце последнего речевого кадра, который необходимо использовать как начальную точку для AGC, когда имеет место новый речевой кадр.

Сошлемся на фиг.4, на которой показаны различные способы 400, реализованные с помощью контроллера 140 для управления AGC 130. Сделана ссылка на фиг.7 во время описания различных способов 400.

Как показано в способе 441, контроллер фиксирует речевое усиление во время частей шумовой активности. Более конкретно, контроллер мешает обновлению речевого усиления в AGC 130 во время частей шумовой активности и позволяет AGC возобновлять адаптацию речевого усиления, следуя за частями шумовой активности. Сошлемся на подкривую С, представленную на фиг.7, на которой показана примерная кривая речевого усиления AGC 130. Следует заметить, что AGC 130 определяет речевое усиление на основе различных аспектов речевого сигнала, например, двойная амплитуда напряжения, среднеквадратическое (RMS) значение, распределение спектральной энергии и/или измерения на основе времени. В особенности AGC 130 пытается сбалансировать распределение спектральной энергии в захваченном речевом сигнале на основе одной или более речевых метрик. Возвращаясь вновь к этапу 441, контроллер фиксирует речевое усиление в начале VAD, который обнаруживает шумовую активность, и удерживает константу 720 речевого усиления в продолжение шумовой активности. Контроллер 130 удаляет фиксацию на усилении сигнала, отвечающего на обнаружение VAD начала речевой активности. Это позволяет AGC 130 продолжать адаптацию, хотя речевой сигнал состоит полностью из речи.

То есть контроллер 140 фиксирует речевое усиление для недопущения усиления AGC 130 уровня шумовой активности, а также, чтобы позволить AGC возобновить адаптацию, хотя AGC обрабатывало продолжительную речь. В упомянутом выше пользователь на принимающей стороне канала речевой связи услышит плавный переход между речевой активностью и шумовой активностью. Более того, отношение уровня шума к уровню речи является постоянным и характерно для уровня шум-речь, захватываемой с помощью блока 110 микрофона. В последнем AGC 130 не нужно повторно корректировать внутреннюю метрику для компенсации корректировок усиления сигнала из-за шумовой активности. То есть контроллер 140 разрешает AGC остаться в режиме речевой обработки.

Сошлемся вновь на фиг.4, где, как показано в способе 442, контроллер 140 может альтернативно использовать шумовой вентиль во время частей шумовой активности. Более конкретно, контроллер 140 создает минимальный уровень шума для интервалов шумовой активности. На практике, когда VAD 120 обнаруживает шумовую активность, контроллер 140 направляет AGC 130 для подавления сигнала в заранее определенном минимальном уровне шума. Например, AGC формирует комфортный шум во время интервалов шумовой активности, отвечающий на направление с помощью контроллера 140 для использования шумового вентиля. В дополнение низкоуровневый искусственный "комфортный шум" может добавляться к сигналу во время стробированных шумовых кадров для уменьшения негативного воздействия на восприятие процесса пропускания.

Подкривая D фиг.7 визуально иллюстрирует результаты использования шумового вентиля для частей шумовой активности. Как показано, контроллер 140 применяет шумовой вентиль 730 во время интервалов шумовой активности в ответ на прием решения о классификации шумов VAD 120. Контроллер 140 может хранить последнее речевое усиление 731, применяемое AGC 130 во время речевой активности 710, использовать шумовой вентиль во время интервалов шумовой активности и возобновлять адаптацию усиления 732 сигнала на уровне, соответствующем речевому усилению во время последней речевой активности 710. В продолжающемся примере пользователь в принимающей стороне канала речевой связи услышит интервал низкоуровневой тишины или комфортный шум между произнесением речи. Комфортный шум может быть вставлен во время шумового вентиля, чтобы не допустить, что пользователь думает о прерванном вызове. Пользователь, вероятно, думает, что вызов прерван или сброшен, если не слышен никакой слышимый звук во время интервалов неречевой активности (например, тишина). Контроллер 140 может использовать шумовой вентиль или комфортный шум, во время уровней шума с высоким фоном. В этом случае пользователь услышит синтезированный фоновый шум вместо искаженного шума, происходящего в результате подавления шума с высоким фоновым уровнем.

Возвращаясь вновь к фиг.4, где как показано в способе 443, контроллер 140 может альтернативно использовать плавный переход усиления между последним усилением речевого кадра и стробированным шумовым кадром во время частей шума в градиентной речи. Контроллер 140 может использовать линейное, логарифмическое или квадратическое затухание, но не ограничен ими. Например, как показано в подкривой E, контроллер 140 может сокращать (например, постепенно уменьшать) речевое усиление от текущего речевого усиления во время интервала шумовой активности до минимального уровня шума (например, шумовой вентиль), используя функцию затухания. То есть контроллер 140 применяет плавный переход для уменьшения резкого изменения в уровне из-за перехода речи 710 к подавленному или стробированному уровню шума 712. С точки зрения пользователя на принимающей стороне канала речевой связи, слышимый уровень фонового шума во время речи плавно переходит к минимальному уровню шума во время интервалов шумовой активности без каких-либо прерываний. Контроллер 140 подавляет эффект накачки (т.е. изменение в воспринимаемом уровне шума между интервалами речевой активности и шумовой активности) с помощью постепенной корректировки уровня усиления сигнала во время интервалов шумовой активности. В этом случае контроллер 140 может подавлять шум в неречевых кадрах (например, шумовая активность) без представления воспринимаемой накачки шума, которая может происходить как следствие использования шумового вентиля.

При обзоре вышеупомянутых вариантов осуществления специалисту в данной области техники очевидно, что упомянутые варианты осуществления могут быть модифицированы, уменьшены или улучшены без отклонения от объема и духа описанной ниже формулы изобретения. Существует множество конфигураций для достижения градиентных процессов с помощью микрофонов или управления AGC, которая может использоваться для настоящего изобретения без отклонения от объема определенной ниже формулы изобретения. Например, контроллер 130 может быть интегрирован в VAD 120 или AGC 130 для управления усилением сигнала во время интервалов шумовой активности. Более того, контроллер 130 может включать в себя средство подавления шума встречного потока воздуха, связанного с VAD 120, чтобы улучшить подавление шума встречного потока воздуха через скользящий фильтр или спектральное подавление поддиапазона. Контроллер 140 может использовать VAD для улучшения надежности интеллектуальной системы шумоподавления. Кроме того, контроллер 140 может мешать подавлению шума встречного потока воздуха деятельностью по распознаванию речевых помех. Это лишь несколько примеров модификаций, которые могут использоваться для настоящего изобретения без отклонения от объема нижеприведенной формулы изобретения. Соответственно, читатель направляется к разделу формулы изобретения для более полного понимания ширины и объема настоящего изобретения.

В другом варианте осуществления настоящего изобретения, как проиллюстрировано в схематичном представлении фиг.8, электронный продукт, например, устройство (например, сотовый телефон, портативный компьютер, PDA, т.д.), который имеет систему шумоподавления или признак 810, может включать в себя процессор 802, соединенный с признаком 810. В целом, в различных вариантах осуществления можно рассматривать его как устройство в форме компьютерной системы 800, в которой набор команд при выполнении может вызвать осуществление устройством какой-либо одной или более из методик, рассмотренных в данном документе. В некоторых вариантах осуществления устройство функционирует как автономное устройство. В некоторых вариантах осуществления устройство может соединяться (например, используя проводную или беспроводную сеть) с другими устройствами. В сетевом использовании устройство может функционировать в возможности сервера или клиентского пользовательского устройства в пользовательской сетевой среде сервер-клиент или как пиринговое устройство в одноранговой сети. Например, компьютерная система может включать в себя принимающее устройство 801 и передающее устройство 850 или наоборот.

Устройство может содержать серверный компьютер, клиентский пользовательский компьютер, персональный компьютер (PC), карманный ПК, персональный цифровой помощник, сотовый телефон, портативный компьютер, настольный компьютер, систему управления, сетевой маршрутизатор, коммутатор или мост, или какое-либо устройство, допускающее выполнение набора команд (последовательного или иным образом), которые задают действия, которые необходимо предпринять этим устройством, чтобы не упоминать мобильный сервер. Понятно, что устройство настоящего изобретения включает в себя широко любое электронное устройство, которое предоставляет речевую, видеосвязь или передачу данных или презентации. Дополнительно, хотя проиллюстрировано единственное устройство, термин "устройство" также принимается, чтобы включать в себя любую совокупность устройств, которые отдельно или совместно выполняют набор (или многочисленные наборы) команд для осуществления какой-либо одной или более методик, рассмотренных в данном документе.

Компьютерная система 800 может включать в себя контроллер или процессор 802 (например, центральный обрабатывающий блок (CPU), графический обрабатывающий блок (GPU или оба), основное запоминающее устройство 804 и статическое запоминающее устройство 806, которые взаимодействуют друг с другом через шину 808. Компьютерная система 800 может дополнительно включать в себя устройство презентаций, например, устройство отображения. Компьютерная система 800 может включать в себя устройство 812 ввода (например, клавиатура, микрофон и т.д.), устройство 814 управления курсором (например, мышь), блок 816 управления дисками, устройство 818 формирования сигналов (например, динамик или удаленное управление, которое также может служить как устройство презентаций) и устройство 820 сетевого интерфейса. Естественно, в раскрытых вариантах осуществления многие из этих элементов являются дополнительными.

Блок 816 управления дисками может включать в себя машиночитаемый носитель 822, на котором сохраняется один или более наборов команд (например, программное обеспечение 824), реализующее какую-либо одну или более из методик или функций, описанных в данном документе, включая эти способы, проиллюстрированные выше. Команды 824 могут также постоянно храниться, полностью или, по меньшей мере, частично, в основной памяти 804, статической памяти 806 и/или в процессоре или контроллере 802 во время их выполнения компьютерной системой 800. Основная память 804 и процессор или контроллер 802 также могут составлять машиночитаемый носитель.

Варианты осуществления выделенных аппаратных средств, включающих в себя, но не ограниченных специализированными интегральными схемами, программируемыми логическими матрицами, FPGA (программируемая пользователем вентильная матрица) и другие устройства аппаратных средств, могут быть аналогичным образом созданы для реализации способов, описанных в данном документе. Приложения, которые могут включать в себя устройство и системы различных вариантов осуществления, широко включают в себя множество электронных и компьютерных систем. Некоторые варианты осуществления реализуют функции в двух или более специфических соединенных модулях аппаратных средств или устройств со связанными сигналами управления и данных, соединенных между собой и с помощью модулей, или как части специализированной интегральной схемы. Таким образом, система применима к программному обеспечению, встроенному программному обеспечению и вариантам реализации аппаратных средств.

Согласно различным вариантам осуществления настоящего изобретения способы, описанные в данном документе, предназначены для функционирования как программы, реализованные программно, выполняющиеся на процессоре компьютера. Кроме того, программные варианты осуществления могут включать в себя, но не ограничены распределенной обработкой или распределенной обработкой компонентов/объектов, параллельная обработка или обработка виртуальных машин может быть также создана для реализации способов, описанных в данном документе. Дополнительное замечание, варианты осуществления могут также включать в себя варианты осуществления нейронной сети и варианты осуществления специальной или сотовой сети между устройствами связи.

Настоящее изобретение рассматривает машиночитаемый носитель, содержащий команды 824, или то, которое принимает и выполняет команды 824 от распространяемого сигнала так, чтобы устройство, соединенное с сетевой средой 826, могло отсылать или принимать речь, видео или данные, и взаимодействовать по сети 826, используя команды 824. Команды 824 могут дополнительно передаваться или приниматься по сети 826 через устройство 820 сетевого интерфейса.

Хотя машиночитаемый носитель 822 показан в примерном варианте осуществления как единственный носитель, термин "машиночитаемый носитель" должен пониматься как включающий в себя единственный носитель или многочисленные носители (например, централизованная или распределенная база данных и/или ассоциированные кэши и серверы), которые хранят один или более наборов команд. Термин "машиночитаемый носитель" должен также пониматься как включающий в себя любой носитель, который допускает хранение, кодирование или передачу набора команд для выполнения устройством, и это вызывает выполнение устройством одной или более методик настоящего изобретения.

Хотя изобретение описано в связи с его конкретными вариантами осуществления, несомненно, что многие альтернативы, модификации, перестановки и варианты будут очевидны специалистам в данной области техники в свете предшествующего описания. Следовательно, настоящее изобретение предназначено для того, чтобы охватывать все подобные альтернативы, модификации, перестановки и разновидности, которые попадают под область применения прилагаемой формулы изобретения. Несмотря на то, что предпочтительные варианты осуществления изобретения были проиллюстрированы и описаны, ясно, что варианты осуществления изобретения не настолько ограничены. Многочисленные модификации, изменения, вариации, замены и эквиваленты представятся специалистам в данной области техники без отклонения от сущности и объема настоящих вариантов осуществления изобретения, как определено прилагаемой формулой изобретения.

Claims

1. Интеллектуальная система шумоподавления, содержащая:
блок микрофона для захвата речевого сигнала;
детектор активности речевого сигнала (VAD), функционально соединенный с блоком микрофона для определения частей речевой активности и частей шумовой активности в речевом сигнале;
блок автоматического управления усилением (AGC), функционально соединенный с блоком микрофона для адаптации усиления речи речевого сигнала; и
контроллер, функционально соединенный с VAD и AGC для управления речевым усилением, применяемым AGC к речевому сигналу посредством применения заранее определенного минимального уровня шума во время частей шумовой активности.

2. Система по п.1, в которой контроллер не допускает обновления речевого усиления во время частей шумовой активности.

3. Система по п.1, в которой контроллер возобновляет адаптацию речевого усиления, вслед за частями шумовой активности.

4. Способ интеллектуального шумоподавления, причем способ содержит этапы, на которых:
захватывают речевой сигнал;
идентифицируют части речевой активности и части шумовой активности в речевом сигнале; и
управляют речевым усилением в частях шумовой активности посредством применения плавного перехода усиления от последнего усиления речевого кадра во время части речевой активности к заранее определенному усилению шумового кадра во время частей шумовой активности.

5. Способ по п.4, в котором этап управления речевым усилением включает в себя этап, на котором:
не допускают адаптации речевого усиления во время частей шумовой активности.

6. Способ по п.4, в котором этап управления речевым усилением включает в себя этап, на котором:
возобновляют адаптацию речевого усиления вслед за частями шумовой активности.

7. Способ по п.4, в котором плавный переход усиления является линейным, логарифмическим или квадратическим затуханием.

8. Интеллектуальная система шумоподавления, содержащая:
градиентный микрофон для создания градиентного речевого сигнала;
корректирующий блок для отмены выделения высокочастотного усиления градиентного речевого сигнала;
детектор активности речевого сигнала (VAD), функционально соединенный с корректирующим блоком для определения частей речевой активности и частей шумовой активности в градиентном речевом сигнале;
блок автоматического управления усилением (AGC), функционально соединенный с градиентным микрофоном для адаптации усиления речи градиентного речевого сигнала; и
контроллер, функционально соединенный с VAD и AGC для управления речевым усилением, применяемым AGC к частям шумовой активности для сохранения отношения речи к уровню шума между речевой активностью и шумовой активностью в градиентном речевом сигнале.

9. Система по п.8, в которой контроллер осуществляет, по меньшей мере, одно из следующего:
удерживает константу речевого усиления во время частей шумовой активности;
применяет заранее определенный минимальный уровень шума во время частей шумовой активности; и
применяет плавный переход усиления между последним усилением речевого кадра и усилением шумового кадра во время частей шумовой активности.

10. Система по п.8, в которой контроллер препятствует адаптации усиления речи во время частей шумовой активности и возобновляет адаптацию речевого усиления вслед за частями шумовой активности.